CN108921002A

CN108921002A - 基于多线索融合的暴恐音视频识别方法及装置

Info

Publication number: CN108921002A
Application number: CN201810367115.2A
Authority: CN
Inventors: 李兵; 胡卫明; 王博; 原春锋; 余昊楠
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2018-04-23
Filing date: 2018-04-23
Publication date: 2018-11-30
Anticipated expiration: 2038-04-23
Also published as: CN108921002B

Abstract

本发明涉及计算机视频分类领域，提出了一种基于多线索融合的暴恐音视频识别方法，旨在解决音视频识别中，单一媒体模态分析音视频造成的大量误检和漏检问题。该方法包括：对用于进行暴恐识别的待检测音视频进行分割，提取音频帧序列和视频帧序列；按照预先指定的检测顺序检测所述音频帧序列和视频帧序列中是否包含暴恐信息；如果所述音频帧序列和/或视频序帧列包含暴恐信息，确定所述待检测音视频为暴恐音视频。本发明基于多个线索对音视频进行分级检测，能够快速、准确的从大量的音视频中识别出暴恐视频。

Description

基于多线索融合的暴恐音视频识别方法及装置

技术领域

本发明涉及计算机视觉技术领域，特别涉及视频分类领域，具体涉及一种基于多线索融合的暴恐音视频识别方法及装置。

背景技术

暴恐音视频是指含有宣扬恐怖活动等非法内容的音频或视频。随着网络技术的飞速发展，移动互联网时代随之而来，这使得越来越多的多媒体数据呈现在人们的眼前，暴恐视频也得以大量传播和扩散。网络暴恐音视频的识别技术，可以保障互联网视频内容安全、遏制恐怖主义的传播扩散、维护国家稳定。

网络音视频作为一种极具感染力和表现力的媒体模态，在形式上和内容上都具有很强的复杂性，这造成了对特定音视频内容理解与识别困难。在形式上，视频融合了声音、图像、文本等多种媒体模态，需要分析视频中各模态的语义信息并相互补充和协同，才可以准确判断视频内容的性质；在内容上，暴恐的定义是无法从单一维度给出的，很多暴恐音视频与正常视频极为相似，因此需要充分挖掘视频中的特殊标识、特殊声音和特定人物等局部线索，并对多种维度的线索进行融合分析，才能够推理出视频内容的性质。

现有的音视频内容理解与识别多为从某单一媒体模态分析视频，例如仅从音频角度或者图像角度，缺少不同模态形式的协同，并且没有充分挖掘视频中的局部线索，仅仅对视频整体做分类，不仅会存在大量误检和漏检情况，而且无法精确定位视频中的可疑区域和对应类别。同时，大多数音视频识别算法也并未充分考虑互联网环境下视频的数量大、来源广、编码格式复杂多样等特点，在计算速度、运行鲁棒性和资源消耗等方面难以满足真实互联网环境下的音视频内容理解与识别任务需求。

发明内容

为了解决现有技术中的上述问题，即为了解决暴恐音视频识别中由于无法充分挖掘视频中的局部线索，存在大量误检和漏检情况，无法精确定位视频中的可疑区域和对应类别的问题。本申请提供了一种基于多线索融合的暴恐音视频识别方法，以解决上述问题。

第一方面，本申请提供了基于多线索融合的暴恐音视频识别方法，该方法包括如下步骤：对待检测音视频进行镜头分割，提取音频帧序列和视频帧序列；按照预先指定的检测顺序检测上述音频帧序列和视频帧序列中是否包含暴恐信息；如果所述音频帧序列和/或视频序帧列包含暴恐信息，则确定所述待检测音视频为暴恐音视频。

在一些示例中，在“对待检测音视频进行镜头分割，提取音频帧序列和视频帧序列”中提取视频帧序列的方法为：提取上述待检测音视频的每帧视频帧的直方图，对相邻视频帧的直方图进行差异比较，以确定上述待检测视频的镜头边界；根据所确定的镜头边界，选取上述待检测视频各镜头的起始帧、中间帧、结束帧作为关键视频帧；由上述关键视频帧生成上述待检测音视频的视频帧序列。

在一些示例中，“按照预先指定的检测顺序检测上述音频帧序列和视频帧序列中是否包含暴恐信息”，包括：利用预先构建的视频识别模型对上述视频帧序列进行暴恐识别，确定上述视频帧序列中是否包含暴恐信息；上述视频识别模型基于深度卷积神经网络构建；利用预先构建的音频识别模型对上述音频帧序列进行暴恐识别，确定上述音频帧序列中是否包含暴恐信息；上述音频识别模型基于连接时序深度卷积神经网络构建。

在一些示例中，上述预先构建的视频识别模型包括对具有特殊标志的视频帧进行检测的第一视频识别子模型；以及，“利用预先构建的视频识别模型对上述视频帧序列进行暴恐识别，确定上述视频帧序列中是否包含暴恐信息”，包括：利用上述第一视频识别子模型检测上述视频帧序列中是否包含预先指定标志的信息；根据上述第一视频识别子模型检测结果，确定上述视频帧序列中是否包含暴恐信息。

一些示例中，上述预先构建的视频识别模型包括对具有特殊人物的视频帧进行检测的第二视频识别子模型；以及，“利用预先构建的视频识别模型对上述视频帧序列进行暴恐识别，确定上述视频帧序列中是否包含暴恐信息”，包括：利用第二视频识别子模型检测上述视频帧序列中是否包含预先指定人物的信息；根据上述第二视频识别子模型检测结果，确定上述视频帧序列中是否包含暴恐信息。

在一些示例中，上述预先构建的视频识别模型包括对具有特殊物体的视频进行检测的第三视频识别子模型；以及，“利用预先构建的视频识别模型对上述视频帧序列进行暴恐识别，确定上述视频帧序列中是否包含暴恐信息”，包括：利用第三视频识别子模型检测上述视频帧序列中是否包含预先指定物体的信息；根据上述第三视频识别子模型检测结果，确定上述视频帧序列中是否包含暴恐信息。

在一些示例中，“按照预先指定的检测顺序检测上述音频帧序列和视频帧序列中是否包含暴恐信息”，包括：上述视频识别模型中的各子识别模型以及音频识别模型按照预先指定的检测顺序分级检测上述音频帧序列和/或视频帧序列的暴恐信息；检测级别排序在先的识别模型检测到上述音频帧序列和/或视频帧序列包含暴恐信息，停止检测级别排序在后各识别模型的检测。

在一些示例中，“如果所述音频帧序列和/或视频帧序列包含暴恐信息，确定上述待检测音视频为包括音视频”，包括：接收各识别模型的检测结果，并判断上述检测结果中是否包含暴恐信息；确定包含暴恐信息的音频帧序列和/或视频帧序列所在的待检测音视频为包括音视频。

第二方面，本申请提供一种存储装置，在该存储装置中存储有多条程序，上述程序适于由处理器加载并执行以实现上述第一方面所述的基于多线索融合的暴恐音视频识别方法。

第三方面，本申请提供一种处理装置，包括处理器，适于执行各条程序；以及，存储设备，适于存储多条程序；上述程序适于由处理器加载并执行以实现：上述第一方面所述的基于多线索融合的暴恐音视频识别方法。

本申请提供的基于多线索融合的暴恐音视频识别方法及装置，通过对进行暴恐检测的音视频进行结构化分析，从该待检测的音视频中提取出视频帧序列和音频帧序列；然后，利用预先构建的多个识别模型，按照预先设定的检测顺序进行暴恐信息识别，最后，根据检测结果确定出待检测音视频是否为暴恐音视频。本发明中对待检测音视频进行结构化分析，提取出视频帧序列和音频帧序列，实现在镜头检测的精度和速度间达到很好的平衡；利用预设检测顺序检测上述视频帧序列和音频帧序列中是否包含暴恐信息实现了对暴恐信息的分级检测，提高了检测效率以及检测的粒度，实现快速、准确识别暴恐音视频。

附图说明

图1是本申请可以应用于其中的示例性系统架构图；

图2是本申请的基于多线索融合的暴恐音视频识别方法的一个实施例的流程示意图；

图3根据本申请的基于多线索融合的暴恐音视频识别方法实施例中基于识别模型进行多线索识别的示例性流程图；

图4，本申请的基于多线索融合的暴恐音视频识别方法实施例中基于识别模型进行多线索识别的示例性流程图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的基于多线索融合的暴恐音视频识别方法实施例的示例性系统架构示意图。

如图1所示，系统架构可以包括终端设备101，网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101通过网络102与服务器103交互，以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用，例如网页浏览器应用、视频或音频浏览、视频或音频上传类应用、社交平台软件等。

终端设备101可以是具有显示屏并且支持视频或音频浏览或视频或音频上传的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器103可以是提供各种服务的服务器，例如对终端设备101上传的音视频进行包括识别的处理服务器，或应用平台。处理服务器可以对与其网络连接的各终端设备上传的音视频数据进行分析等处理，并将处理结果(例如视频暴恐识别结果)反馈给终端设备或第三方使用。

需要说明的是，本申请实施例所提供的基于多线索融合的暴恐音视频识别方法一般由服务器103执行，相应地，可应用本申请所示方法的装置一般设置于服务器103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的基于多线索融合的暴恐音视频识别方法的一个实施例的流程。该基于多线索融合的暴恐音视频识别方法，包括以下步骤：

步骤201，对待检测音视频进行镜头分割，提取音频帧序列和视频帧序列。

在本实施例中，可以应用基于多线索融合的暴恐音视频识别方法的电子设备(如图1中的服务器)或应用平台，获得待进行音视频暴恐检测的待检测音视频。上述电子设备或应用平台对所获得待检测音视频分别进行镜头分割以提取待检测音视频的视频帧或音频帧，利用分割后所提取的音频帧或视频帧，生成该音视频的音频帧序列和视频帧序列。作为示例，上述待检测音视频可以从与上述电子设备或应用平台连接的终端设备中获得，例如，使用与上述服务器或应用平台网络连接的终端设备的用户上传视频后，上述服务器或应用平台获得该视频，并作为待检测视频。

具体地，上述“对待检测音视频进行镜头分割，提取音频帧序列和视频帧序列”中提取视频帧的方法为：提取上述待检测音视频的每帧视频帧的直方图，对相邻视频帧的直方图进行差异比较，以确定上述待检测视频的镜头边界；根据所确定的镜头边界，选取上述待检测视频各镜头的起始帧、中间帧、结束帧作为关键视频帧；由上述关键视频帧生成该待检测音视频的视频帧序列。上述提取每帧视频帧的直方图，可以是灰度直方图或者颜色直方图。即将待检测视频分割成一系列的镜头之后，将每个镜头的首帧、中间帧、末帧作为镜头的关键视频帧帧，在一些具体地方案中还可以将每个镜头的首帧、中间帧、末帧中任意一帧或两帧为关键视频帧。可以分别将所提取出的视频帧、音频帧按照设定顺序(例如，可以是时间顺序)生成视频帧序列、音频帧序列。

步骤202，按照预先指定的检测顺序检测上述音频帧序列和视频帧序列中是否包含暴恐信息。

本实施例中，基于步骤201中所生成的待检测音视频的视频帧序列和音频帧序列，上述电子设备或应用平台利用预先训练好的识别模型对上述视频帧序列或音频帧序列进行暴恐信息的识别以确定上述视频帧序列或音频帧序列是否包含暴恐信息。这里，上述音频/视频识别模型可以是基于深度卷积神经网络的识别模型，例如可以是Siamese网络模型，利用Siamese网络模型完成待检测视频进行识别。

具体地，在进行视频帧的暴恐识别中，上述识别模型利用深度卷积神经网络的优化运行，将所述输入的视频帧(图片)进行暴恐识别以确定所输入的视频帧是否包含暴恐信息。上述识别模型可以利用视频帧的特征进行运算，上述视频帧的特征可以是包括颜色、纹理，结构等反映背景、环境、主角外观等信息的静态特征；以及包括运动幅度，方向，频率等反映视频中主角的运动状况的动态特征。利用关键帧的上述特征，确定出视频帧的信息从中识别出暴恐信息。

上述音频识别模型为基于连接时序的深度卷积神经网络。对视频中特定的音频片段，如爆炸、枪击、口号等进行检测。上述音频识别模型的结构深层卷积神经网络(DeepCNN)与连接时序分类(CTC)框架相结合进行端对端语音识别。上述基于连接时序卷积神经网络的音频识别模型的模型结构中，该模型由10个卷积层组成，顶部有3个全连接层，卷积层的卷积核的尺寸是3×5，使用max-pooling尺寸是3×1，第一次卷积层后有pooling层。该音频识别模型通过输入语音时频特征，用Deep CNN模型进行语音特征的提取和描述，在CTC框架下，对连续的长时语句进行预测，提高识别效率和鲁棒性。在进行音频识别中，语音信号所面临各种各样的多样性，包括说话人的多样性(说话人自身、以及说话人间)，环境的多样性等，上述基于连接时序的深度卷积神经网络将整个语音信号分析得到的时频谱当作一张图像一样来处理，而后利用图像中广泛应用的深层卷积网络对其进行识别。

在本实施例的一些可选的实现方式中，“按照预先指定的检测顺序检测上述音频帧序列和视频帧序列中是否包含暴恐信息”，包括：利用预先构建的视频识别模型对上述视频帧序列进行暴恐识别，确定上述视频帧序列中是否包含暴恐信息；利用预先构建的音频识别模型对上述音频帧序列进行暴恐识别，确定上述音频帧序列中是否包含暴恐信息。在本实现方式中，可以利用预先构建的视频识别模型和音频识别模型，分别对上述视频帧序列和音频帧序列进行暴恐识别。上述对视频帧的识别可以是对视频中特殊logo、特殊物体、特殊人物的检测，如检测视频中是否出现恐怖组织标志；上述对音频帧的识别可以是对音频中特定声音、特定语义的检测，如检测音频中是否出现恐怖组织的宣传口号。

上述用于对待检测视频中是否包含暴恐信息进行识别的视频识别模型包括：对特殊标志进行检测的第一视频识别子模型、对特殊人物进行检测的第二视频识别子模型和对特殊物体进行检测的第三视频识别子模型。参考图3和图4，图3和图4示出了利用预先构建的识别模型对上述待检测音视频进行识别的示例性流程图。

在本实施例的可选的实现方式中，“利用预先构建的视频识别模型对上述视频帧序列进行暴恐识别，确定上述视频帧序列中是否包含暴恐信息”，包括：利用上述第一视频识别子模型检测上述视频帧序列中是否包含预先指定标志的信息；根据上述第一视频识别子模型检测结果，确定上述视频帧序列中是否包含暴恐信息。这里，利用上述第一视频识别模型检测上述视频中是否包含特殊标志的信息，如果包含特殊标志的信息，确定该视频为暴恐视频。如，可以对视频中的特殊标志进行检测，如暴恐组织标志、暴恐电视台台标，以及一些特殊的logo等。

利用上述第二视频识别子模型检测上述视频帧序列中是否包含预先指定人物的信息；根据上述第二视频识别子模型检测结果，确定上述视频帧序列中是否包含暴恐信息。这里，利用上述第二视频识别模型检测上述视频中是否包含特殊人物的信息，如果包含特殊人物的信息，确定该视频为暴恐视频。如，可以对视频中的特殊人物进行检测，如检测视频中的人物是否为某恐怖组织领导人或预先指定的恐怖组织人物等。

上述第三视频识别子模型检测上述视频帧序列中是否包含预先指定物体的信息；根据上述第二视频识别子模型检测结果，确定上述视频帧序列中是否包含暴恐信息。这里，利用上述第三视频识别模型检测上述视频中是否包含特殊物体的信息，如果包含特殊物体的信息，确定该视频为暴恐视频。对视频中的特殊物体如刀、枪、炮等武器及宣传旗帜等进行检测和识别。

上述视频识别模型为改进faster R-CNN模型，用于特定视觉目标识别。分别针对特殊logo、特殊物体和特殊人物进行训练，产生三个子模型，分别进行特殊logo检测、特殊物体检测和特殊人物检测。该深度学习网络框架将检测的特征抽取(featureextraction)、proposal提取、边界回归(bounding box regression，rect refine)和分类(classification)四个必备步骤整合，提高其综合性能，能极大提高检测速度。

在本实施例的一些可选的实现方式中，“按照预先指定的检测顺序检测上述音频帧序列和视频帧序列中是否包含暴恐信息”，包括：上述视频识别模型中的各子识别模型以及音频识别模型按照预先指定的检测顺序，分级检测上述音频帧序列和/或视频帧序列的暴恐信息；检测级别排序在先的识别模型，检测到上述音频帧序列和/或视频帧序列包含暴恐信息，确定该待检测音视频为暴恐音视频，并停止检测级别排序在后各识别模型的检测。

这里，采用分级机制检测音视频中是否包暴恐信息，按照预先指定的检测顺序分级对待检测的音视频进行暴恐检测，具体为：

第一级，使用第一视频识别子模型识别视频中出现的特殊标志。当识别到视频中包含特殊违规标志，即可判断该视频违规，无须进一步进行其他线索的检测、识别和判断。

第二级，使用第二视频识别子模型识别视频中出现的特殊人物。对于通过第一级识别的视频，进一步利用特殊人物识别网络对视频中是否大量存在特定暴恐分子进行识别。如果第二视频识别子模型识别到视频中有特定暴恐分子存在，则可确定该视频涉嫌违规，无须进一步进行其他线索的检测、识别。

第三级，对于通过前两级识别的视频，这些视频不包含明显的违规元素，如标志、人物等。可以利用其他多种线索对其进行进一步的识别，利用第三视频识别子模型或音频识别模型对视频中的特殊物体、特定声音进行检测。如果检测到待检测音视频中包含特殊物体或指定语音，确定待检测音视频违规。

步骤203，如果所述音频帧序列和/或视频序帧列包含暴恐信息，则确定所述待检测音视频为暴恐音视频。

在本实施例中，基于步骤202中对上述视频帧序列和音频帧序列中暴恐信息的识别结果，上述电子设备或应用平台对上述识别结果进行判断，根据识别结果确定上述待检测音视频是否为暴恐音视频。即待检测音视频的视频帧序列或者音频帧序列中包含暴恐信息，则，该待检测音视频为暴恐音视频。具体地，上述服务器或应用平台接收分级检测结果，任一级检测结果中，检测到音视频包含暴恐信息，即可确定出该待检测音视频为暴恐音视频。

本申请上述实施例所提供的方法通过对待检测音视频进行分割提取出音频帧序列和视频帧序列，实现了检测中精度和速度间之间的平衡；按照预先指定的顺序分级对待检测音视频进行暴恐信息的检测，可以快速的、全面的实现对待检测音视频进行多线索识别，提高暴恐识别的效率。因此，应用本发明提供的方法可以快速、准确识别暴恐视频。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于多线索融合的暴恐音视频识别方法，其特征在于，所述方法包括：

对待检测音视频进行镜头分割，提取音频帧序列和视频帧序列；

按照预先指定的检测顺序检测所述音频帧序列和视频帧序列中是否包含暴恐信息；

如果所述音频帧序列和/或视频序帧列包含暴恐信息，则确定所述待检测音视频为暴恐音视频。

2.根据权利里要求1所述的基于多线索融合的暴恐音视频识别方法，其特征在于，在“对待检测音视频进行分割，提取音频帧序列和视频帧序列”中提取视频帧序列的方法为：

提取所述待检测音视频的每帧视频帧的直方图，对相邻视频帧的直方图进行差异比较，以确定所述待检测视频的镜头边界；

根据所确定的镜头边界，选取所述待检测视频各镜头的起始帧、中间帧、结束帧作为关键视频帧；

由所述关键视频帧生成所述待检测音视频的视频帧序列。

3.根据权利要求1所述的基于多线索融合的暴恐音视频识别方法，其特征在于，“按照预先指定的检测顺序检测所述音频帧序列和视频帧序列中是否包含暴恐信息”，包括：

利用预先构建的视频识别模型对所述视频帧序列进行暴恐识别，确定所述视频帧序列中是否包含暴恐信息；所述视频识别模型基于深度卷积神经网络构建；

利用预先构建的音频识别模型对所述音频帧序列进行暴恐识别，确定所述音频帧序列中是否包含暴恐信息；所述音频识别模型基于连接时序深度卷积神经网络构建。

4.根据权利要求3所述的基于多线索融合的暴恐音视频识别方法，其特征在于，所述预先构建的视频识别模型包括对具有特殊标志的视频帧进行检测的第一视频识别子模型；以及，“利用预先构建的视频识别模型对所述视频帧序列进行暴恐识别，确定所述视频帧序列中是否包含暴恐信息”，包括：

利用所述第一视频识别子模型检测所述视频帧序列中是否包含预先指定标志的信息；

根据所述第一视频识别子模型检测结果，确定所述视频帧序列中是否包含暴恐信息。

5.根据权利要求3所述的基于多线索融合的暴恐音视频识别方法，其特征在于，所述预先构建的视频识别模型包括对具有特殊人物的视频帧进行检测的第二视频识别子模型；以及，“利用预先构建的视频识别模型对所述视频帧序列进行暴恐识别，确定所述视频帧序列中是否包含暴恐信息”，包括：

利用第二视频识别子模型检测所述视频帧序列中是否包含预先指定人物的信息；

根据所述第二视频识别子模型检测结果，确定所述视频帧序列中是否包含暴恐信息。

6.根据权利要求3所述的基于多线索融合的暴恐音视频识别方法，其特征在于，所述预先构建的视频识别模型包括对具有特殊物体的视频进行检测的第三视频识别子模型；以及，“利用预先构建的视频识别模型对所述视频帧序列进行暴恐识别，确定所述视频帧序列中是否包含暴恐信息”，包括：

利用第三视频识别子模型检测所述视频帧序列中是否包含预先指定物体的信息；

根据所述第三视频识别子模型检测结果，确定所述视频帧序列中是否包含暴恐信息。

7.根据权利要求3至6任一所述的基于多线索融合的暴恐音视频识别方法，其特征在于，“按照预先指定的检测顺序检测所述音频帧序列和视频帧序列中是否包含暴恐信息”，包括：

所述视频识别模型中的各子识别模型以及音频识别模型按照预先指定的检测顺序分级检测所述音频帧序列和/或视频帧序列的暴恐信息；

检测级别排序在先的识别模型检测到所述音频帧序列和/或视频帧序列包含暴恐信息，停止检测级别排序在后各识别模型的检测。

8.根据权利要求5所述的基于多线索融合的暴恐音视频识别方法，其特征在于，“如果所述音频帧序列和/或视频帧序列包含暴恐信息，则确定所述待检测音视频为暴恐音视频”，包括：

接收各识别模型的检测结果，并判断所述检测结果中是否包含暴恐信息；

确定包含暴恐信息的音频帧序列和/或视频帧序列所在的待检测音视频为包括音视频。

9.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-8任一项所述的基于多线索融合的暴恐音视频识别方法。

10.一种处理装置，包括

处理器，适于执行各条程序；以及

存储设备，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现：

权利要求1-8任一项所述的基于多线索融合的暴恐音视频识别方法。