CN107801090A

CN107801090A - 利用音频信息检测异常视频文件的方法、装置及计算设备

Info

Publication number: CN107801090A
Application number: CN201711071499.5A
Authority: CN
Inventors: 张康; 陈强
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2017-11-03
Filing date: 2017-11-03
Publication date: 2018-03-13

Abstract

本发明公开了一种利用音频信息检测异常视频文件的方法、装置、计算设备及计算机存储介质。其中方法基于经过训练的特征抽取网络、以及经过训练的异常信息检测模型执行，方法包括：获取待检测视频文件，将待检测视频文件输入至特征抽取网络，得到与待检测视频文件对应的预设维度的音频特征，极大地节省了时间，提高了特征抽取的效率，以及特征抽取的准确率，基于预设维度的音频特征利用异常信息检测模型进行异常信息检测，得到待检测视频文件是否包含异常信息的检测结果实现了文件自动检测，克服了人工审核视频文件是否包含异常信息而花费大量时间的缺陷，节省检测所需时间，还降低了人工成本。

Description

利用音频信息检测异常视频文件的方法、装置及计算设备

技术领域

本发明涉及视频处理技术领域，具体涉及一种利用音频信息检测异常视频文件的方法、装置、计算设备及计算机存储介质。

背景技术

随着网络技术飞速发展，视频作为互联网流量的主要部分，然而，互联网中存在各种包含异常信息的视频文件，例如包含非法信息、不健康信息、不宜儿童观看的信息等，对于这类视频文件需要进行严格的管控，然而对于这类视频文件的检测却不是很理想。目前，对这类视频文件检测方法主要有以下几种：

1)人工审核，这种方法需要耗费大量的人力成本，而且审核视频所需时间较长；

2)基于特征库的匹配识别。这种方法依赖于特征库的完备性和匹配规则，误判率较高，检测效果不理想。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的利用音频信息检测异常视频文件的方法、装置、计算设备及计算机存储介质。

根据本发明的一个方面，提供了一种利用音频信息检测异常视频文件的方法，方法基于经过训练的特征抽取网络、以及经过训练的异常信息检测模型执行，方法包括：

获取待检测视频文件；

将待检测视频文件输入至特征抽取网络，得到与待检测视频文件对应的预设维度的音频特征；

基于预设维度的音频特征利用异常信息检测模型进行异常信息检测，得到待检测视频文件是否包含异常信息的检测结果。

可选地，将待检测视频文件输入至特征抽取网络，得到与待检测视频文件对应的预设维度的音频特征进一步包括：

对待检测视频文件中音频信号进行解码处理，得到多个音频帧；

针对多个音频帧的每一音频帧，将音频帧输入至特征抽取网络，得到与该音频帧对应的预设维度的帧特征；

利用预设算法对多个音频帧的帧特征进行运算处理，得到与待检测视频文件对应的预设维度的音频特征。

可选地，利用预设算法对多个音频帧的帧特征进行运算处理，得到与待检测视频文件对应的预设维度的音频特征进一步包括：

计算多个音频帧的帧特征的特征值的平均值，得到与待检测视频文件对应的预设维度的音频特征。

可选地，在对待检测视频文件中音频信号进行解码处理，得到多个音频帧之后，方法还包括：

利用预设抽帧策略从多个音频帧中抽取至少一个音频帧。

可选地，异常信息检测模型训练所用的样本包含：样本库存储的多个视频文件样本以及与视频文件样本对应的是否包含异常信息的标注结果；其中多个视频文件样本包含多个视频文件正样本和多个视频文件负样本，视频文件正样本为包含异常信息的视频文件样本，视频文件负样本为不包含异常信息的视频文件样本。

可选地，异常信息检测模型的训练过程包括：

将视频文件样本输入至特征抽取网络，得到与视频文件样本对应的预设维度的音频特征；

将音频特征输入至异常信息检测模型进行训练，得到视频文件样本是否包含异常信息的检测结果；

根据检测结果与标注结果之间的损失，得到异常信息检测模型损失函数，根据异常信息检测模型损失函数更新异常信息检测模型的权重参数；

迭代执行上述步骤，直至满足预定收敛条件。

可选地，预定收敛条件包括：迭代次数达到预设迭代次数；和/或，异常信息检测模型损失函数的输出值小于预设阈值。

根据本发明的另一方面，提供了一种利用音频信息检测异常视频文件的装置，装置基于经过训练的特征抽取网络、以及经过训练的异常信息检测模型执行，装置包括：

获取模块，适于获取待检测视频文件；

特征抽取模块，适于将待检测视频文件输入至特征抽取网络，得到与待检测视频文件对应的预设维度的音频特征；

异常信息检测模块，适于基于预设维度的音频特征利用异常信息检测模型进行异常信息检测，得到待检测视频文件是否包含异常信息的检测结果。

可选地，特征抽取模块进一步包括：

解码处理单元，适于对待检测视频文件中音频信号进行解码处理，得到多个音频帧；

第一特征抽取单元，适于针对多个音频帧的每一音频帧，将音频帧输入至特征抽取网络，得到与该音频帧对应的预设维度的帧特征；

运算处理单元，适于利用预设算法对多个音频帧的帧特征进行运算处理，得到与待检测视频文件对应的预设维度的音频特征。

可选地，运算处理单元进一步适于：计算多个音频帧的帧特征的特征值的平均值，得到与待检测视频文件对应的预设维度的音频特征。

可选地，特征抽取模块还包括：音频帧抽取单元，适于利用预设抽帧策略从多个音频帧中抽取至少一个音频帧。

可选地，装置还包括：异常信息检测模型训练模块；

异常信息检测模型训练模块包括：

第二特征抽取单元，适于将视频文件样本输入至特征抽取网络，得到与视频文件样本对应的预设维度的音频特征；

训练单元，适于将音频特征输入至异常信息检测模型进行训练，得到视频文件样本是否包含异常信息的检测结果；

更新单元，适于根据检测结果与标注结果之间的损失，得到异常信息检测模型损失函数，根据异常信息检测模型损失函数更新异常信息检测模型的权重参数；

异常信息检测模型训练模块迭代运行，直至满足预定收敛条件。

根据本发明的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行上述利用音频信息检测异常视频文件的方法对应的操作。

根据本发明的再一方面，提供了一种计算机存储介质，存储介质中存储有至少一可执行指令，可执行指令使处理器执行如上述利用音频信息检测异常视频文件的方法对应的操作。

根据本发明提供的方案，利用经过训练的特征抽取网络抽取待检测视频文件的音频特征，极大地节省了时间，提高了特征抽取的效率，以及特征抽取的准确率，利用经过训练的异常信息检测模型对待检测视频文件进行是否包含异常信息的检测，实现了文件自动检测，克服了人工审核视频文件是否包含异常信息而花费大量时间的缺陷，节省检测所需时间，还降低了人工成本。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的利用音频信息检测异常视频文件的方法的流程示意图；

图2示出了根据本发明一个实施例的异常信息检测模型训练方法的流程示意图；

图3示出了根据本发明另一个实施例的利用音频信息检测异常视频文件的方法的流程示意图；

图4示出了根据本发明一个实施例的利用音频信息检测异常视频文件的装置的结构程示意图；

图5示出了根据本发明另一个实施例的利用音频信息检测异常视频文件的装置的结构程示意图；

图6示出了根据本发明一个实施例的一种计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的利用音频信息检测异常视频文件的方法的流程示意图。其中，该方法基于经过训练的特征抽取网络、以及经过训练的异常信息检测模型执行，如图1所示，该方法包括以下步骤：

步骤S100，获取待检测视频文件。

其中，待检测视频文件为用户想要进行异常信息检测的视频文件，待检测视频文件可以是用户根据检测需求从网络上下载的视频文件。具体地，可以向用户提供一界面，该界面提供视频文件上传功能，用户点击上传按钮之后，弹出文件上传对话框，用户选择需要上传的待检测视频文件，点击对话框中的上传按钮，完成待检测视频文件的上传，如此，便可以获取到待检测视频文件，然后就可以检测视频文件是否包含异常信息，其中，异常信息可以为不适宜儿童观看的信息，具有暴力倾向的信息、不健康的信息、非法的信息。

步骤S101，将待检测视频文件输入至特征抽取网络，得到与待检测视频文件对应的预设维度的音频特征。

特征抽取网络是经过训练得到的，具体地，可以基于大量的视频文件样本训练卷积神经网络得到特征抽取网络，利用该特征抽取网络可以抽取一定维度的音频特征，其中，卷积神经网络(Convolutional Neural Network)是一种人工神经网络，也是一种有监督的机器学习模型，是深度学习的代表方法之一。

在获取到待检测视频文件后，将待检测视频文件输入至经过训练的特征抽取网络，利用该特征抽取网络进行音频特征抽取，得到与待检测视频文件对应的预设维度的音频特征。在本发明实施例中，使用特征抽取网络的优势在于，避免人工抽取特征时一系列复杂的预处理过程，极大地节省了时间，提高了特征抽取的效率，而且还提高了特征抽取的准确率。

步骤S102，基于预设维度的音频特征利用异常信息检测模型进行异常信息检测，得到待检测视频文件是否包含异常信息的检测结果。

在步骤S101得到预设维度的音频特征之后，可以基于预设维度的音频特征利用异常信息检测模型来检测视频文件中是否包含异常信息，在本发明实施例中，异常信息检测模型为二分类模型，即利用该异常信息检测模型所得到的检测结果为视频文件包含异常信息或者视频文件不包含异常信息。

根据本发明上述实施例提供的方法，利用经过训练的特征抽取网络抽取待检测视频文件的音频特征，极大地节省了时间，提高了特征抽取的效率，以及特征抽取的准确率，利用经过训练的异常信息检测模型对待检测视频文件进行是否包含异常信息的检测，实现了文件自动检测，克服了人工审核视频文件是否包含异常信息而花费大量时间的缺陷，节省检测所需时间，还降低了人工成本。

图2示出了根据本发明一个实施例的异常信息检测模型训练方法的流程示意图。如图2所示，该方法包括以下步骤：

步骤S200，将视频文件样本输入至特征抽取网络，得到与视频文件样本对应的预设维度的音频特征。

异常信息检测模型的样本库中不仅存储了多个视频文件样本，还存储了与视频文件样本对应的是否包含异常信息的标注结果；其中多个视频文件样本包含多个视频文件正样本和多个视频文件负样本，所述视频文件正样本为包含异常信息的视频文件样本，所述视频文件负样本为不包含异常信息的视频文件样本。本领域技术人员可根据实际需要设置样本库中所存储的视频文件样本的数量，此处不做限定。

在本发明实施例中，视频文件分为包含异常信息和不包含异常信息两类，可以将包含异常信息的视频文件标记为1，不包含异常信息的视频文件标记为0，当然，也可以将不包含异常信息的视频文件标记为1，包含异常信息的视频文件标记为0，在本发明实施例中，利用异常信息检测模型进行对象检测可以得到视频文件是否包含异常信息的结果，该结果取值为[0,1]一数值，根据该数值可以确定视频文件是否包含异常信息。

举例说明，设定将包含异常信息的视频文件标记为1，不包含异常信息的视频文件标记为0，认定结果取值为[0,0.7)时视频文件不包含异常信息，取值为[0.7,1]时视频文件包含异常信息，假设所得到的视频文件包含异常信息的结果为0.8，则可以认定视频文件包含异常信息；设定将包含异常信息的视频文件标记为0，不包含异常信息的视频文件标记为1，认定结果取值为[0,0.3]时视频文件包含异常信息，结果取值为(0.3,1]时视频文件不包含异常信息，假设所得到的视频文件包含异常信息的结果为0.8，则可以认定视频文件不包含异常信息。具体地，可以采用人工标注的方法对样本库中每个视频文件样本进行标注，得到与视频文件样本对应的是否包含异常信息的标注结果。

具体地，从样本库中提取视频文件样本，并提取与视频文件样本对应的是否包含异常信息的标注结果，将视频文件样本输入至特征抽取网络，利用特征抽取网络抽取该视频文件样本的音频特征，其中，特征抽取网络可以抽取1024维的音频特征，该1024维的音频特征能够较为全面的体现文件的内容信息等，是一种通用特征。

本发明是利用图像信息检测异常视频文件，视频文件由视频信号和音频信号组成，在提取视频文件样本之后，可以利用解码器对视频文件样本中的音频信号进行解码处理，得到多个音频帧，从多个音频帧中抽取至少一个音频帧，将抽取的至少一个音频帧中的每一帧输入至特征抽取网络，得到与该音频帧对应的1024维的帧特征，然后，利用预设算法，例如，求平均，对多个音频帧的帧特征进行运算处理，得到与视频文件样本对应的1024维的音频特征。

步骤S201，将音频特征输入至异常信息检测模型进行训练，得到视频文件样本是否包含异常信息的检测结果。

本发明实施例中所训练的异常信息检测模型适用于视频文件是否包含异常信息的检测，只能检测视频文件是否包含异常信息，是专项检测，而不能用于其他检测，例如是否包含特定对象的检测。

在得到视频文件样本对应的音频特征后，将音频特征输入至异常信息检测模型进行训练，得到视频文件样本是否包含异常信息的检测结果，其中，视频文件样本是否包含异常信息的结果取值为[0,1]中的一数值。

步骤S202，根据检测结果与标注结果之间的损失，得到异常信息检测模型损失函数，根据异常信息检测模型损失函数更新异常信息检测模型的权重参数。

其中，本领域技术人员可根据实际需要设置异常信息检测模型损失函数的具体内容，此处不做限定。根据异常信息检测模型损失函数，进行梯度下降优化，用以更新异常信息检测模型的模型参数。

下面以异常信息检测模型为感知机进行详细说明，其中，感知机是对样本进行二分类的标准模型，可以对视频文件样本进行分类，这里是应用其二分类原理进行异常信息检测，其目标函数具体可以表示为：

f(x)＝sign(w·x+b) 公式(1)

其中，w,b为模型参数。

根据检测结果与标注结果可以构造异常信息检测模型的损失函数：

其中，x表示视频文件样本的音频特征，y表示视频文件样本对应的是否包含异常信息的标注结果，M表示视频文件样本数量，通过最小化该损失函数可以计算得到异常信息检测模型的模型参数，记为w′,b′，对异常信息检测模型的模型参数进行更新处理。

还可以采用随机森林进行异常信息检测，其中，随机森林构建包括：数据的随机选取和待选特征的随机选取；

数据的随机选取：首先，从原始的数据集中采取有放回的抽样，构造子数据集，子数据集的数据量是和原始数据集相同的。不同子数据集的元素可以重复，同一个子数据集中的元素也可以重复。第二，利用子数据集来构建子决策树，将这个数据放到每个子决策树中，每个子决策树输出一个结果。最后，如果有了新的数据需要通过随机森林得到分类结果，就可以通过对子决策树的判断结果的投票，得到随机森林的输出结果了。举例说明，假设随机森林中有3棵子决策树，2棵子决策树的分类结果是包含异常信息，1棵子决策树的分类结果是不包含异常信息，那么随机森林的分类结果就是包含异常信息。

待选特征的随机选取：与数据集的随机选取类似，随机森林中的子决策树的每一个分裂过程并未用到所有的待选特征，而是从所有的待选特征中随机选取一定的特征，之后再在随机选取的特征中选取最优的特征。这样能够使得随机森林中的决策树都能够彼此不同，提升系统的多样性，从而提升分类性能。

此外，还可以采用逻辑斯特回归模型、支持向量机(SVM)、多层感知机(MLP)进行异常信息检测，这里不再详细赘述。

步骤S203，迭代执行上述步骤，直至满足预定收敛条件。

其中，本领域技术人员可根据实际需要设置预定收敛条件，此处不做限定。例如，预定收敛条件可包括：迭代次数达到预设迭代次数；和/或，异常信息检测模型损失函数的输出值小于预设阈值。具体地，可以通过判断迭代次数是否达到预设迭代次数来判断是否满足预定收敛条件，也可以根据异常信息检测模型损失函数的输出值是否小于预设阈值来判断是否满足预定收敛条件。在步骤S203中，迭代执行异常信息检测模型的训练步骤，直至满足预定收敛条件，从而得到经过训练的异常信息检测模型。

图3示出了根据本发明另一个实施例的利用音频信息检测异常视频文件的方法的流程示意图。其中，该方法基于经过训练的特征抽取网络、以及经过训练的异常信息检测模型执行，如图3所示，该方法包括以下步骤：

步骤S300，获取待检测视频文件。

步骤S301，对待检测视频文件中音频信号进行解码处理，得到多个音频帧。

视频文件包含视频信号和音频信号，本发明是基于音频信息对视频文件进行异常信息检测，为了能够准确地提取出待检测视频文件的音频特征，在抽取待检测视频文件的音频特征之前，需要对待检测视频文件中的音频信号进行解码处理，得到多个音频帧。

步骤S302，利用预设抽帧策略从多个音频帧中抽取至少一个音频帧。

每个视频文件由很多音频帧组成，若对解码处理后的视频文件都进行音频特征抽取，会导致抽取的音频特征非常多，虽然对所有音频帧都进行音频特征抽取能够实现后续是否包含异常信息的检测，但是会造成资源的浪费，同时增加了特征抽取所需时间，降低特征抽取效率，因此，本发明实施例可以从多个音频帧中抽取至少一个音频帧来进行后续帧特征抽取，例如，可以抽取预设数量的音频帧，例如五帧，抽取的数量可以根据实际需要进行设定，为了提升检测的准确性，可以多抽取几帧，这里仅是举例说明，不具有任何限定作用。该步骤为可选步骤，还可以对解码处理得到的音频帧都进行特征抽取处理。

步骤S303，针对至少一个音频帧的每一音频帧，将音频帧输入至特征抽取网络，得到与该音频帧对应的预设维度的帧特征。

在抽取得到至少一个音频帧之后，针对至少一个音频帧的每一音频帧，将音频帧输入至经过训练的特征抽取网络，利用该特征抽取网络进行帧特征抽取，例如，可以抽取1024维的帧特征。在本发明实施例中，使用特征抽取网络的优势在于，避免人工抽取特征时一系列复杂的预处理过程，极大地节省了时间，提高了特征抽取的效率，而且还提高了特征抽取的准确率。

步骤S304，利用预设算法对多个音频帧的帧特征进行运算处理，得到与待检测视频文件对应的预设维度的音频特征。

具体地，可以对多个音频帧的帧特征进行求平均，计算多个音频帧的帧特征的特征值的平均值，得到待检测视频文件对应的预设维度的音频特征。

步骤S305，基于预设维度的音频特征利用异常信息检测模型进行异常信息检测，得到待检测视频文件是否包含异常信息的检测结果。

在步骤S304得到预设维度的音频特征之后，可以基于预设维度的音频特征利用异常信息检测模型进行是否包含异常信息的检测，得到待检测视频文件是否包含异常信息的检测结果，在本发明实施例中，异常信息检测模型为二分类模型，即利用该异常信息检测模型所得到的检测结果为视频文件包含异常信息或者视频文件不包含异常信息。

其中，所得到的检测结果的取值是以[0,1]中的数值表示的，设定视频文件检测结果的取值范围为[0.7,1]时，视频文件包含异常信息，视频文件检测结果的取值范围为[0,0.7)时，视频文件不包含异常信息，在进行对象检测后，得到检测结果为0.8，则可以认定该待检测视频文件包含异常信息。这里仅是举例说明，不具有任何限定作用。

图4示出了根据本发明一个实施例的利用音频信息检测异常视频文件的装置的结构程示意图。其中，该装置基于经过训练的特征抽取网络、以及经过训练的异常信息检测模型执行，如图4所示，该装置包括：获取模块400、特征抽取模块410、异常信息检测模块420。

获取模块400，适于获取待检测视频文件。

特征抽取模块410，适于将待检测视频文件输入至特征抽取网络，得到与待检测视频文件对应的预设维度的音频特征。

异常信息检测模块420，适于基于预设维度的音频特征利用异常信息检测模型进行异常信息检测，得到待检测视频文件是否包含异常信息的检测结果。

根据本发明上述实施例提供的装置，利用经过训练的特征抽取网络抽取待检测视频文件的音频特征，极大地节省了时间，提高了特征抽取的效率，以及特征抽取的准确率，利用经过训练的异常信息检测模型对待检测视频文件进行是否包含异常信息的检测，实现了文件自动检测，克服了人工审核视频文件是否包含异常信息而花费大量时间的缺陷，节省检测所需时间，还降低了人工成本。

图5示出了根据本发明另一个实施例的利用音频信息检测异常视频文件的装置的结构程示意图。其中，该装置基于经过训练的特征抽取网络、以及经过训练的异常信息检测模型执行，如图5所示，该装置包括：获取模块500、特征抽取模块510、异常信息检测模型训练模块520、异常信息检测模块530。

获取模块500，适于获取待检测视频文件。

特征抽取模块510进一步包括：解码处理单元511，适于对待检测视频文件中音频信号进行解码处理，得到多个音频帧。

音频帧抽取单元512，适于利用预设抽帧策略从多个音频帧中抽取至少一个音频帧。

第一特征抽取单元513，适于针对多个音频帧的每一音频帧，将音频帧输入至特征抽取网络，得到与该音频帧对应的预设维度的帧特征；

运算处理单元514，适于利用预设算法对多个音频帧的帧特征进行运算处理，得到与待检测视频文件对应的预设维度的音频特征。

其中，运算处理单元514进一步适于：计算多个音频帧的帧特征的特征值的平均值，得到与待检测视频文件对应的预设维度的音频特征。

在本发明实施例中，异常信息检测模型训练所用的样本包含：样本库存储的多个视频文件样本以及与视频文件样本对应的是否包含异常信息的标注结果；其中多个视频文件样本包含多个视频文件正样本和多个视频文件负样本，视频文件正样本为包含异常信息的视频文件样本，视频文件负样本为不包含异常信息的视频文件样本。

异常信息检测模型训练模块520包括：第二特征抽取单元521，适于将视频文件样本输入至特征抽取网络，得到与视频文件样本对应的预设维度的音频特征。

训练单元522，适于将音频特征输入至异常信息检测模型进行训练，得到视频文件样本是否包含异常信息的检测结果。

更新单元523，适于根据检测结果与标注结果之间的损失，得到异常信息检测模型损失函数，根据异常信息检测模型损失函数更新异常信息检测模型的权重参数；

其中，预定收敛条件包括：迭代次数达到预设迭代次数；和/或，异常信息检测模型损失函数的输出值小于预设阈值。

异常信息检测模块530，适于基于预设维度的音频特征利用异常信息检测模型进行异常信息检测，得到待检测视频文件是否包含异常信息的检测结果。

本申请实施例还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的利用音频信息检测异常视频文件的方法。

图6示出了根据本发明一个实施例的一种计算设备的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。

如图6所示，该计算设备可以包括：处理器(processor)602、通信接口(Communications Interface)604、存储器(memory)606、以及通信总线608。

其中：

处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。

通信接口604，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器602，用于执行程序610，具体可以执行上述利用音频信息检测异常视频文件的方法实施例中的相关步骤。

具体地，程序610可以包括程序代码，该程序代码包括计算机操作指令。

处理器602可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器606，用于存放程序610。存储器606可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序610具体可以用于使得处理器602执行上述任意方法实施例中的利用音频信息检测异常视频文件的方法。程序610中各步骤的具体实现可以参见上述利用音频信息检测异常视频文件的实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的利用音频信息检测异常视频文件的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种利用音频信息检测异常视频文件的方法，所述方法基于经过训练的特征抽取网络、以及经过训练的异常信息检测模型执行，所述方法包括：

获取待检测视频文件；

将所述待检测视频文件输入至特征抽取网络，得到与所述待检测视频文件对应的预设维度的音频特征；

基于所述预设维度的音频特征利用异常信息检测模型进行异常信息检测，得到所述待检测视频文件是否包含异常信息的检测结果。

2.根据权利要求1所述的方法，其中，所述将待检测视频文件输入至特征抽取网络，得到与所述待检测视频文件对应的预设维度的音频特征进一步包括：

对所述待检测视频文件中音频信号进行解码处理，得到多个音频帧；

利用预设算法对多个音频帧的帧特征进行运算处理，得到与所述待检测视频文件对应的预设维度的音频特征。

3.根据权利要求1或2所述的方法，其中，所述利用预设算法对多个音频帧的帧特征进行运算处理，得到与所述待检测视频文件对应的预设维度的音频特征进一步包括：

计算多个音频帧的帧特征的特征值的平均值，得到与所述待检测视频文件对应的预设维度的音频特征。

4.根据权利要求1-3任一项所述的方法，其中，在对所述待检测视频文件中音频信号进行解码处理，得到多个音频帧之后，所述方法还包括：

利用预设抽帧策略从所述多个音频帧中抽取至少一个音频帧。

5.根据权利要求1-4任一项所述的方法，其中，所述异常信息检测模型训练所用的样本包含：样本库存储的多个视频文件样本以及与视频文件样本对应的是否包含异常信息的标注结果；其中多个视频文件样本包含多个视频文件正样本和多个视频文件负样本，所述视频文件正样本为包含异常信息的视频文件样本，所述视频文件负样本为不包含异常信息的视频文件样本。

6.根据权利要求1-5任一项所述的方法，其中，所述异常信息检测模型的训练过程包括：

将所述音频特征输入至异常信息检测模型进行训练，得到所述视频文件样本是否包含异常信息的检测结果；

根据所述检测结果与所述标注结果之间的损失，得到异常信息检测模型损失函数，根据所述异常信息检测模型损失函数更新所述异常信息检测模型的权重参数；

迭代执行上述步骤，直至满足预定收敛条件。

7.根据权利要求1-6任一项所述的方法，其中，所述预定收敛条件包括：迭代次数达到预设迭代次数；和/或，所述异常信息检测模型损失函数的输出值小于预设阈值。

8.一种利用音频信息检测异常视频文件的装置，所述装置基于经过训练的特征抽取网络、以及经过训练的异常信息检测模型执行，所述装置包括：

获取模块，适于获取待检测视频文件；

特征抽取模块，适于将所述待检测视频文件输入至特征抽取网络，得到与所述待检测视频文件对应的预设维度的音频特征；

异常信息检测模块，适于基于所述预设维度的音频特征利用异常信息检测模型进行异常信息检测，得到所述待检测视频文件是否包含异常信息的检测结果。

9.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的利用音频信息检测异常视频文件的方法对应的操作。

10.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-7中任一项所述的利用音频信息检测异常视频文件的方法对应的操作。