CN109168024A

CN109168024A - 一种目标信息的识别方法及设备

Info

Publication number: CN109168024A
Application number: CN201811123345.0A
Authority: CN
Inventors: 韦享忠
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-09-26
Filing date: 2018-09-26
Publication date: 2019-01-08
Anticipated expiration: 2038-09-26
Also published as: CN109168024B

Abstract

本发明适用于信息处理技术领域，提供了一种目标信息的识别方法及设备，包括：若接收到待识别的视频文件，则对视频文件进行解析，得到视频文件的图像轨道数据以及音频轨道数据；提取图像轨道数据中每一视频图像帧的图像特征值；基于图像特征值标记包含目标信息的视频图像帧；对音频轨道数据进行语音识别，确定音频轨道数据对应的台词文本；若台词文本包含目标信息关联的特征关键词，则在音频轨道数据中标记特征关键词的音频段落；基于标记的视频图像帧以及音频段落，生成视频文件的目标信息记录。本发明通过图像维度确定该视频文件中是否包含目信息，以及通过音频轨道判断视频文件的台词中是否包含目标信息，实现自动识别目标信息。

Description

一种目标信息的识别方法及设备

技术领域

本发明属于信息处理技术领域，尤其涉及一种目标信息的识别方法及设备。

背景技术

视频作为现今最主要的多媒体载体之一，常常被用户在互联网上进行转发以及传播，因此如何对视频文件进行有效监管，将成为维护互联网健康发展的关键。为了避免未成年儿童常常受到黄色以及暴力视频的熏陶，而影响他们的健康成长，往往需要对包含这部分的信息的段落进行识别以及处理，而现有的视频检测技术，一般是人工对待识别的视频文件进行观看后，手动标注目标信息，然而上述方式人力成本较高，而且检测效率较低，当视频数量较多时，无法有效进行排查。

发明内容

有鉴于此，本发明实施例提供了一种目标信息的识别方法及设备，以解决现有的视频检测技术，一般是人工对待识别的视频文件进行识别，识别目标信息的人力成本较高，而且检测效率较低，当视频数量较多时，无法有效进行排查的问题。

本发明实施例的第一方面提供了一种目标信息的识别方法，包括：

若接收到待识别的视频文件，则对所述视频文件进行解析，得到所述视频文件的图像轨道数据以及音频轨道数据；

提取所述图像轨道数据中每一视频图像帧的图像特征值；

基于所述图像特征值检测各个所述视频图像帧是否包含目标信息，并标记包含所述目标信息的所述视频图像帧；

对所述音频轨道数据进行语音识别，确定所述音频轨道数据对应的台词文本；

若所述台词文本包含所述目标信息关联的特征关键词，则在所述音频轨道数据中标记所述特征关键词的音频段落；

基于标记的所述视频图像帧以及所述音频段落，生成所述视频文件的目标信息记录。

本发明实施例的第二方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面的各个步骤。

本发明实施例的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方面的各个步骤。

实施本发明实施例提供的一种目标信息的识别方法及设备具有以下有益效果：

本发明实施例通过将视频文件分离为图像轨道数据以及音频轨道数据，从而通过图像维度确定该视频文件中是否包含目信息，以及通过音频轨道判断视频文件的台词中是否包含目标信息，并标记出包含目标信息的视频图像帧以及音频段落，并生成目标信息记录，实现对目标信息的自动识别。与现有的目标信息的识别方法相比，本发明实施例无需依靠监管员对目标信息进行人工识别，从而减少了人工成本，并且上述流程均可以通过计算机自动执行完成，当待识别的视频文件数量较多时，也不会存在识别疲劳而需要休息的情况，提高了目标信息的识别效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的一种目标信息的识别方法的实现流程图；

图2是本发明第二实施例提供的一种目标信息的识别方法S102具体实现流程图；

图3是本发明第三实施例提供的一种目标信息的识别方法S104具体实现流程图；

图4是本发明第四实施例提供的一种目标信息的识别方法具体实现流程图；

图5是本发明第五实施例提供的一种目标信息的识别方法S103具体实现流程图；

图6是本发明一实施例提供的一种终端设备的结构框图；

图7是本发明另一实施例提供的一种终端设备的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例通过将视频文件分离为图像轨道数据以及音频轨道数据，从而通过图像维度确定该视频文件中是否包含目信息，以及通过音频轨道判断视频文件的台词中是否包含目标信息，并标记出包含目标信息的视频图像帧以及音频段落，并生成目标信息记录，实现对目标信息的自动识别，解决了现有的视频检测技术，一般是人工对待识别的视频文件进行识别，识别目标信息的人力成本较高，而且检测效率较低，当视频数量较多时，无法有效进行排查的问题。

在本发明实施例中，流程的执行主体为终端设备。该终端设备包括但不限于：服务器、计算机、智能手机以及平板电脑等具有目标信息的识别功能的设备。特别地，该终端设备可以为一对视频发布平台对应的设备，即当检测到用户上传的视频文件时，可以通过本实施例提供的方法对该次上传的视频文件进行目标信息识别，在确定视频文件不包含目标信息后才进行发布。图1示出了本发明第一实施例提供的目标信息的识别方法的实现流程图，详述如下：

在S101中，若接收到待识别的视频文件，则对所述视频文件进行解析，得到所述视频文件的图像轨道数据以及音频轨道数据。

在本实施例中，终端设备在接收到待识别的视频文件时，则会对该视频文件进行目标信息的识别操作，判断该视频文件中是否包含目标信息。其中，终端设备可以与其他用户终端建立通信链路，并通过该通信链路接收其他终端上传的视频文件，例如该终端设备为一视频文件的发布平台，各个用户终端会将所需发布的视频文件发送给终端设备，终端设备基于该视频文件的文件标识，识别该视频文件是否已经进行目标信息的识别流程，若已执行且该视频文件中不包含目标信息，则执行视频文件的发布操作；反之，若该视频文件未执行目标信息的识别操作，则执行S101至S105的操作流程。

可选地，在S101之前，还包括：终端设备接收用户发送的视频文件识别指令；该视频文件识别指令携带有待识别视频文件的文件标识，终端设备根据该文件标识确定视频文件的存储设备，并从该存储设备处下载该视频文件，并执行S101的相关操作。即终端设备可以主动从其他设备获取视频文件，并对该视频文件进行目标信息的识别操作。

在本实施例中，终端设备在获取了待识别的视频文件后，会对该视频文件进行解析，由于视频文件主要由两个轨道的数据组合构成，一个是视频文件中展示视频画面的图像轨道数据，该图像轨道数据中包含了多个视频图像帧，在多个视频图像帧以预设的播放次序进行排序，并基于预设的帧数进行播放，则会形成视频动画；另一个轨道数据则为音频轨道数据，用于记录该视频文件中各个时间点的音频信息，因此，终端设备在获取了视频文件后，可以通过预设的解析程序，将将视频文件分离为两个轨道数据，即图像轨道数据以及音频轨道数据。上述两个轨道的播放时长与视频文件的播放时长相同。

在S102中，提取所述图像轨道数据中每一视频图像帧的图像特征值。

在本实施例中，终端设备在解析了视频文件的图像轨道数据以及音频轨道数据后，会分别对两路数据进行目标信息的识别，由于目标信息除了可以通过图像形式进行展现外，还可以通过语音形式进行传播，因此，若只是视频文件整体进行识别，有可能会对部分目标信息遗漏检测，从而使得识别准确率下降。例如，若目标信息为暴力信息，则某一视频图像帧中包含血腥场景或杀戮场景，即携带有目标信息，而对于音频轨道数据，则可以通过包含不雅用语的对白、枪声、惨叫声等方式进行表达。由此可见，目标信息可以独立存在于两路数据中，或通过两路数据合并生成的视频数据进行表达，为了避免遗漏识别，终端设备会分别进行识别，从而提高识别准确性。

在本实施例中，终端设备在获取了图像轨道数据后，分别对该图像轨道数据内的各个视频图像帧进行图像识别，并提取各个视频图像帧对应的图像特征值。该图像特征值用于表示该视频图像帧中所拍摄对象的特征信息，例如，该图像特征值可以为一序列，该序列中包含多个参数值或关键词，每个关键词或参数值用于表示该视频图像帧中拍摄对象的特征信息。具体地，终端设备通过视频图像帧输出图像特征值的方式可以为：对视频图像帧进行图像识别，确定该视频图像中包含的拍摄物体，基于预设的拍摄物体索引表，确定各个拍摄物体对应的参数值，并根据各个参数值生成该视频图像帧的视频特征值。

可选地，在S102之前还包括：终端设备对视频图像帧进行图像预处理，例如通过锐化算法以及去噪算法对视频图像帧中的噪声进行滤除，并通过二值化或灰度化等方式来突出各个拍摄主体的轮廓特征，从而便于终端设备计算视频图像帧的视觉特征值。

优选地，由于图像轨道数据中各个视频图像帧具有一定的连续性，因此终端设备在计算各个视频图像帧的视觉特征值之前，可以根据各个视频图像帧的出现次序，依次进行识别，在识别某一视频图像帧时，可以检测当前帧与上一帧之间的差异区域，对差异区域进行重新计算特征值即可，而由于当前帧与上一帧在其他区域的图像内容均相同，因此无需重复识别，从而能够提高识别的准确性。

在S103中，基于所述图像特征值检测各个所述视频图像帧是否包含目标信息，并标记包含所述目标信息的所述视频图像帧。

在本实施例中，终端设备在确定了各个视频图像帧分别对应的图像特征值后，可以根据该图像特征值检测该视频图像帧内是否存在目标信息，由于图像特征值可以用于表征该视频图像帧中拍摄对象的特征信息，因而，终端设备可以将该图像特征值与目标信息进行匹配，根据匹配结果判断该视频图像帧内是否包含目标信息。举例性地，该目标信息包含了多个特征值范围，终端设备会识别该视频图像帧的图像特征值是否在预设的特征值范围内，若在特征值范围内，则识别该视频图像帧包含目标信息；反之，若不在特征值范围内，则识别该视频图像帧不包含目标信息。

在本实施例中，终端设备在对各个视频图像帧进行目标信息检测后，会提取包含目标信息的视频图像帧，并对提取出来的视频图像帧进行标记。优选地，终端设备可以根据提取得到的各个视频图像帧的播放节点，生成一个标记列表，该标记列表中记录有各个包含目标信息的视频图像帧的帧编号以及播放节点的对应关系，从而根据该标记列表能够快速定位包含目标信息的视频图像帧。

特别地，由于视频图像帧之间是具有一定连续性的，即某一视频图像帧包含目标信息，则该视频图像帧的后续帧或前序帧也可能存在该情况，终端设备可以通过帧编号范围或播放时间段等区域信息对包含目标信息的视频图像帧进行标记，从而能够减少标记次序以及提高标记区域的连续性。

在S104中，对所述音频轨道数据进行语音识别，确定所述音频轨道数据对应的台词文本。

在本实施例中，终端设备会通过语音识别算法，确定该音频轨道数据所对应的台词文本。具体地，该台词文本除了包含拍摄主体的对话信息外，还可以包含通过拍摄环境音而确定的环境描述文本，以及根据语音信息所确定的拍摄主体的特征文本。例如，通过音频轨道数据中语音的声调，确定该拍摄主体的性别特征，并基于每个拍摄主体的音色特征，为每个拍摄主体配置对应的人物标识。基于上述对话信息、环境描述信息、主体特征信息等生成该音频轨道数据的台词文本。

需要强调的是，S104以及S102可以并发执行，即终端设备可以在主进程中创建两条并发线程，分别用于确定图像轨道数据以及音频轨道数据内是否包含目标信息，并在两条并发线程均执行完毕后，执行S106的相关操作。

在S105中，若所述台词文本包含所述目标信息关联的特征关键词，则在所述音频轨道数据中标记所述特征关键词的音频段落。

在本实施例中，终端设备在确定了音频轨道数据的台词文本后，可以检测该台词文本中是否包含有目标信息关联的特征关键词。根据目标信息类型的不同，会关联有不同的特征关键词库，终端设备在对目标信息进行识别之前，用户可以选定所需识别的目标信息类型，该目标信息类型可以为一个也可以为两个以上，例如用户需要对视频文件中的暴力信息以及涉黄信息进行识别，即选取了两个类型的目标信息，终端设备在S105中可以分别获取上述两类信息关联的特征关键词库，并检测该台词文本中是否包含有这两个特征关键词库内记录的特征关键词。

在本实施例中，终端设备若检测到该台词文本中包含有特征关键词，则会定位该特征关键词在音频轨道数据中所出现的音频段落，并对该音频段落进行标记，若该台词文本内多次出现特征关键词，则对各个出现特征关键词的音频段落进行标记。

在S106中，基于标记的所述视频图像帧以及所述音频段落，生成所述视频文件的目标信息记录。

在本实施例中，为了便于后续对视频文件进行处理，终端设备会根据在S103中检测得到包含目标信息的视频图像帧以及在S105中标记的音频段落，生成该视频文件对应的目标信息记录，该目标信息记录内可以存储有标记的视频图像帧的帧编号以及播放节点，并且存储有音频段落对应的播放时间范围。优选地，该目标信息记录可以为通过时间轴的方式进行存储，终端设备将标记的视频图像帧以及音频段落在时间轴内对应的位置添加一标签，以表示该时刻的播放内容在音频轨道和/或图像轨道上包含目标信息，以便用户能够直观确定目标信息的位置。

可选地，终端设备若未检测到视频文件中的音频轨道数据以及图像轨道数据中包含目标信息，则表示该视频文件通过校验，可以进行发布操作，则将该视频文件上传至视频发布平台或对该视频文件进行播放。

以上可以看出，本发明实施例提供的一种目标信息的识别方法通过将视频文件分离为图像轨道数据以及音频轨道数据，从而通过图像维度确定该视频文件中是否包含目信息，以及通过音频轨道判断视频文件的台词中是否包含目标信息，并标记出包含目标信息的视频图像帧以及音频段落，并生成目标信息记录，实现对目标信息的自动识别。与现有的目标信息的识别方法相比，本发明实施例无需依靠监管员对目标信息进行人工识别，从而减少了人工成本，并且上述流程均可以通过计算机自动执行完成，当待识别的视频文件数量较多时，也不会存在识别疲劳而需要休息的情况，提高了目标信息的识别效率。

图2示出了本发明第二实施例提供的一种目标信息的识别方法S102的具体实现流程图。参见图2，相对于图1述实施例，本实施例提供的一种目标信息的识别方法S102包括：S1021～S1023，具体详述如下：

在S1021中，对所述视频图像帧进行轮廓识别处理，获取所述视频图像帧内拍摄主体的轮廓信息，并根据所述轮廓信息从所述视频图像帧中截取各个拍摄主体的区域图像。

在本实施例中，为了提高计算得到的图像特征值的准确性，终端设备会将视频图像帧进行区域划分，并将背景区域的内容删除，避免无效识别，只对包含拍摄主体所在的区域图像进行识别。基于此，终端设备会通过轮廓识别算法，获取视频图像中包含的轮廓信息，其中，该轮廓识别算法可以为：获取各个像素点的像素值，并选取相邻像素之间的差值大于预设阈值的像素点作为轮廓像素点，并通过所有轮廓像素点所在的坐标信息生成轮廓信息。

在本实施例中，终端设备在获取了轮廓信息后，可以将连续轮廓线所包围的区域识别为一个拍摄主体，并从视频图像帧中提取该轮廓线所包围区域的部分作为该拍摄主体的区域图像，如上所述，对各个轮廓线均执行上述操作，从而获得各个拍摄主体的区域图像。

在S1022中，通过预设的视觉组神经网络的五层池化层对所述拍摄主体的区域图像进行降维，得到该拍摄主体的视觉特征向量；其中，所述五层池化层具体为：

V₁(A_mn)＝mp₁(3,64,A_mn)；

V₂(A_mn)＝mp₂(3,128,V₁(A_mn))；

V₃(A_mn)＝mp₃(3,256,V₂(A_mn))；

V₄(A_mn)＝mp₄(3,512,V₂(A_mn))；

V₅(A_mn)＝mp₅(1,1,V₄(A_mn))；

其中，所述A_mn为拍摄主体的区域图像；所述V₁(A_mn)、V₂(A_mn)、V₃(A_mn)以及V₄(A_mn)分别为第1到第4层池化层降维后的输出向量；所述V₅(A_mn)为所述视觉特征向量；所述m为所述拍摄主体的区域图像的行数；所述n为在所述拍摄主体的区域图像的列数。

在本实施例中，终端设备将各个拍摄主体的区域图像统一导入到视觉组(VGG)神经网络的五层池化层，经过五次降维操作，从而计算得到各个区域图像所对应的视觉特征向量。需要说明的是，该池化层的卷积核可以基于区域图像的大小进行确定，在该情况下，终端设备记录有矩阵大小与卷积核之间的对应关系表，终端设备在划分得到各个拍摄主体的区域图像后，则会获取该区域图像的行数以及列数，从而确定区域图像的尺寸，并查询该尺寸对应的卷积核尺寸，并基于该卷积核尺寸对VGG神经网络中的池化层进行调整，以使进行降维操作的过程中所使用的卷积核与像素矩阵相匹配。

在本实施例中，由于拍摄主体的区域图像包含红绿蓝RGB三个通道的图层，因此在进行降维操作时，终端设备会获取各个通道的像素矩阵，并对各个通道的像素矩阵进行降维操作，因此在mp₁(3,64,A_mn)、mp₂(3,128,V₁(A_mn))、mp₃(3,256,V₂(A_mn))以及V₄(A_mn)＝mp₄(3,512,V₂(A_mn))中均为3图层的降维操作，而在输出视觉特征向量时，终端设备会将三个图层降维后的矩阵进行合并进行再次池化降维，从而生成该区域图像的视觉特征向量。通过五重池化降维，使得整个区域图像的数据进行压缩，降低了终端设备的运算压力，提高了视觉特征值的输出效率。

在S1023中，将各个所述视觉特征向量导入所述视觉组神经网络的全连接层，输出所述视频图像帧的所述图像特征值。

在本实施例中，VGG神经网络包括用于提取视觉特征向量的五层池化层Maxpool以及用于确定视觉特征向量对应的图像特征值的全连接层，其中区域图像是首先经过五层池化层后，再将降维后的向量导入到全连接层输出最终的图像特征值。需要说明的是，终端设备会将各个拍摄主体的视觉特征向量统一导入到全连接层内，从而计算得到该视频图像帧的图像特征值，通过该图像特征值确定该视频图像帧所包含的拍摄特征的特征情况。

可选地，在本实施例中，该全连接层中记录有各个关于拍摄主体的关键词所对应的索引号，由于该VGG网络是经过训练学习的，因此可以通过视觉特征向量确定该视频图像帧中所包含的拍摄主体以及各个拍摄主体的动作特征属性，从而通过全连接层的运算后，可以生成视觉特征向量所对应的索引序列。由于VGG神经网络的输出结果一般为由数字构成的向量、序列或矩阵，因此终端设备在S1023中并未直接输出关键词序列，而是输出关键词序列对应的索引序列，该索引序列中包含多个索引号，每个索引号对应一个关键词，从而在保证输出的结果只包含数字类型的字符的情况下，还能够确定视频特征图像所对应的关键词序列，即图像特征值。终端设备在后续操作中可以基于上述的索引表确定该图像特征值所对应的关键词序列，从而确定各个拍摄主体的动作属性，从而判断该视频图形帧中是否包含目标信息。

在本发明实施例中，通过对视频图像帧进行轮廓识别，从而减少了背景区域的识别过程，并通过视觉组神经网络确定视频图像帧的图像特征值，进一步提高了图像特征值的准确性，从而提高了目标信息的识别准确率。

图3示出了本发明第二实施例提供的一种目标信息的识别方法S104的具体实现流程图。参见图3，相对于图1所述实施例，本实施例提供的一种目标信息的识别方法S104包括：S1041～S1045，具体详述如下：

在S1041中，对所述音频轨道数据进行傅里叶变换，生成所述音频轨道数据的频域数据。

在本实施例中，由于音频轨道数据是基于时间播放的数据类型，即为一个时域信号，为了对音频轨道数据的环境声与人声进行分离，终端设备会通过傅里叶算法，将音频轨道数据进行拟合，生成对应的音频曲线，并对该音频曲线进行傅里叶变换，将时域信号变换为频域信号，从而得到该音频轨道数据的频域数据。

可选地，在本实施例中，终端设备可以通过预设的滤波器对音频轨道数据进行噪声滤除，并在滤波器的输出端连接中频放大电路，以突出人声与环境声之间的幅值差异，并对经过预处理后的音频轨道数据执行S1041的操作，从而提高了人声与环境声分离的准确性。

在S1042中，根据所述频域数据以及人体可发声频段范围，将所述频域数据划分为环境音频段数据以及人声频段数据。

在本实施例中，由于人体可发生频段是固定的，是在预设的频段范围内，因此终端设备在确定了音频轨道数据对应的频域数据后，可以基于人体可发声频段范围将该频域数据划分为环境音频段数据以及人声频段数据。该人声频段数据即为该频域数据中人体可发生频段范围所对应的数据，而环境音频段数据则为频域数据中出人声频段数据外的其他频段数据。

在S1043中，基于所述环境音频段数据，确定所述视频文件的拍摄场景信息。

在本实施例中，终端设备在对人声频段数据以及环境音频段数据分离后，可以分别通过两路数据确定该视频的环境特征以及对白特征。因此在S1043中，终端设备可以根据环境音频段数据，确定发出该频段数据的各个候选环境主体，并基于各个候选环境主体之间的关联度，从而将关联度较大的所有候选环境主体作为该视频文件中包含的环境主体，并基于各个环境主体确定拍摄场景信息。

举例性地，若环境音频段数据中包含0～10Hz的频段数据，而发出0～10Hz的候选环境主体包括：蝴蝶(蝴蝶扑翅声)、海鸥(扑翅声)，并且该环境音频中还包含2000Hz～3000Hz频段数据，而发出2000Hz～3000Hz的候选环境主体为：海豚，而海豚与蝴蝶的相关度较小，与海鸥的相关度较大，因此可以确定海豚与海鸥为该环境音频数据的环境主体，而该拍摄场景可以为海上。

在S1044中，对所述人声频段数据进行逆傅里叶变换，得到人声轨道数据，并对所述人声轨道数据进行语音识别，确定对话文本。

在本实施例中，终端设备在提取了人声频段数据后，会对该人声频段数据进行逆傅里叶变换，从而将频域数据重新转换为时域数据，得到人声轨道数据，并对该人声轨道数据进行语音识别，确定该人声轨道数据对应的对话文本。

需要说明的是，S1043与S1044可以并发处理，也可以基于预设的顺序进行执行，在此不做限定。即终端设备可以通过两条并发线程，同时对环境音频数据进行拍摄场景信息的识别操作，并通过另一线程对人声频段数据进行对话文本进行识别。

在S1045中，根据所述拍摄场景信息以及所述对话文本，生成所述台词文本。

在本实施例中，终端设备在确定拍摄场景信息以及对话文本后，可以结合两类信息生成该音频轨道数据的台词文本。由于视频文件中可能包含有多个场景的切换或转移，终端设备可以将拍摄场景信息与对话文本进行结合，从而能够确定不同的对话所处的拍摄场景，从而能够提高目标信息的识别准确性。由于同一对话在不同的拍摄场景下，所表现的意思可能存在差异，因此通过结合场景信息来理解对话文本，更能够识别是否存在目标信息。

在本发明实施例中，通过对音频轨道数据进行分离，得到环境音频数据以及人声频段数据，从而对两路数据分别进行识别，提高了台词文本识别的准确性。

图4示出了本发明第四实施例提供的一种目标信息的识别方法的具体实现流程图。参见图4，相对于图1-图3所述实施例，本实施例提供的一种目标信息的识别方法中在所述基于标记的所述视频图像帧以及所述音频段落，生成所述视频文件的目标信息记录之后，还包括：S401～S403，具体详述如下：

进一步地，在所述基于标记的所述视频图像帧以及所述音频段落，生成所述视频文件的目标信息记录之后，还包括：

在S401中，对标记的所述视频图像帧进行图像模糊处理，生成模糊处理后的视频图像帧。

在本实施例中，终端设备为了避免包含目标信息的视频文件在网络或媒体上传播，需要对该类视频文件进行处理后再进行发布。因此终端设备会对包含目标信息的视频图像帧进行图像模糊处理，从而能够避免用户观看到标记的视频图像帧内目标信息，例如目标信息为暴力信息，则将包含暴力内容的视频图像帧进行模糊处理。

优选地，若终端设备能够识别到标记的视频图像帧中目标信息对应的拍摄主体，终端设备可以对该拍摄主体的区域图像进行图像模糊处理，而该视频图像帧中的提取区域可以直接播放，从而提高了视频文件的可观看程度，最大程度减少因对目标信息处理而对观众的视觉影像。

在S402中，对所述音频段落进行消音处理，生成消音后的音频段。

本实施例中，与对图像处理的目的一致，为了减少目标信息的传播，终端设备会将包含目标信息的音频段落进行消音处理，从而能够避免包含目标信息关联的特征关键词在视频文件播放时播出。

在S403中，根据所述模糊处理后的视频图像帧以及所述消音后的音频段落修改所述视频文件，并发布修改后的所述视频文件。

在本实施例中，终端设备将包含了目标信息的视频图像帧以及音频段落进行处理后，可以基于各个视频图像帧以及音频段落的播放时刻，将处理后的视频图像帧以及音频段落替换视频文件中对于的播放时刻的数据，从而使得修改后的视频文件不包含目标信息，并对修改后的视频文件进行发布。

在本发明实施例中，通过对包含目标信息的视频图像帧以及音频段落进行处理，从而避免了目标信息通过视频文件进行传播，确保了网络环境的健康，以及减少目标信息对网络环境的影响。

图5示出了本发明第五实施例提供的一种目标信息的识别方法S103的具体实现流程图。参见图5，相对于图1-图3所述实施例，本实施例提供的一种目标信息的识别方法中S103包括：S1031～S1032，具体详述如下：

进一步地，所述基于所述图像特征值检测各个所述视频图像帧是否包含目标信息，包括：

在S1031中，基于拍摄对象索引表，确定所述图像特征值对应的拍摄对象。

在本实施例中，终端设备记录有一拍摄对象索引表，该拍摄对象索引表中每个拍摄对象均设置有一对象编号。终端设备在计算了视频图像帧的图像特征值后，可以通过该拍摄对象索引表，查询该视频特征值所对应的对象编号，从而能够获取该视频图像帧中包含的拍摄对象。需要说明的是，该图像特征值可以为一序列，即包含多个数值，终端设备可以确定各个参数值对应的对象编号，从而基于该对象编号查询对应的拍摄对象，将该序列中的所有参数值转换为拍摄对象信息，从而确定视频图像帧所包含的拍摄对象。

在S1032中，检测所述拍摄对象是否在所述目标信息关联的特征对象列表。

在本实施例中，终端设备会检测该视频图像帧内的拍摄对象是否在目标信息关联的特征对象列表中。若该拍摄对象在该特征对象列表内，则表示该视频图形帧包含目标信息；反之，若该视频图像帧的所有拍摄对象均不在特征对象列表内，则表示该视频图像帧不包含目标信息。

在本发明实施例中，通过将图像特征值转换为拍摄对象，并判断拍摄对象是否为目标信息关联的特征对象列表内，从而能够提高识别的准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图6示出了本发明一实施例提供的一种终端设备的结构框图，该终端设备包括的各单元用于执行图1对应的实施例中的各步骤。具体请参阅图1与图1所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。

参见图6，所述终端设备包括：

视频文件解析单元61，用于若接收到待识别的视频文件，则对所述视频文件进行解析，得到所述视频文件的图像轨道数据以及音频轨道数据；

图像特征值提取单元62，用于提取所述图像轨道数据中每一视频图像帧的图像特征值；

视频图形帧标记单元63，用于基于所述图像特征值检测各个所述视频图像帧是否包含目标信息，并标记包含所述目标信息的所述视频图像帧；

语音识别单元64，用于对所述音频轨道数据进行语音识别，确定所述音频轨道数据对应的台词文本；

音频段落标记单元65，用于若所述台词文本包含所述目标信息关联的特征关键词，则在所述音频轨道数据中标记所述特征关键词的音频段落；

目标信息记录生成单元66，用于基于标记的所述视频图像帧以及所述音频段落，生成所述视频文件的目标信息记录。

可选地，所述图像特征值提取单元62包括：

视频图像帧划分单元，用于对所述视频图像帧进行轮廓识别处理，获取所述视频图像帧内拍摄主体的轮廓信息，并根据所述轮廓信息从所述视频图像帧中截取各个拍摄主体的区域图像；

池化降维单元，用于通过预设的视觉组神经网络的五层池化层对所述拍摄主体的区域图像进行降维，得到该拍摄主体的视觉特征向量；其中，所述五层池化层具体为：

V₁(A_mn)＝mp₁(3,64,A_mn)；

V₂(A_mn)＝mp₂(3,128,V₁(A_mn))；

V₃(A_mn)＝mp₃(3,256,V₂(A_mi))；

V₄(A_mi)＝mp₄(3,512,V₂(A_mn))；

V₅(A_mn)＝mp₅(1,1,V₄(A_mn))；

其中，所述A_mn为拍摄主体的区域图像；所述V₁(A_mn)、V₂(A_mn)、V₃(A_mn)以及V₄(A_mn)分别为第1到第4层池化层降维后的输出向量；所述V₅(A_mn)为所述视觉特征向量；所述m为所述拍摄主体的区域图像的行数；所述n为在所述拍摄主体的区域图像的列数；

图像特征值计算单元，用于将各个所述视觉特征向量导入所述视觉组神经网络的全连接层，输出所述视频图像帧的所述图像特征值。

可选地，所述语音识别单元64包括：

傅里叶变换单元，用于对所述音频轨道数据进行傅里叶变换，生成所述音频轨道数据的频域数据；

频域划分单元，用于根据所述频域数据以及人体可发声频段范围，将所述频域数据划分为环境音频段数据以及人声频段数据；

拍摄场景识别单元，用于基于所述环境音频段数据，确定所述视频文件的拍摄场景信息；

对话文本识别单元，用于对所述人声频段数据进行逆傅里叶变换，得到人声轨道数据，并对所述人声轨道数据进行语音识别，确定对话文本；

台词文本合成单元，用于根据所述拍摄场景信息以及所述对话文本，生成所述台词文本。

可选地，所述终端设备还包括：

图像模糊处理单元，用于对标记的所述视频图像帧进行图像模糊处理，生成模糊处理后的视频图像帧；

音频语段消音单元，用于对所述音频段落进行消音处理，生成消音后的音频段落；

视频文件修改单元，用于根据所述模糊处理后的视频图像帧以及所述消音后的音频段落修改所述视频文件，并发布修改后的所述视频文件。

可选地，所述视频图形帧标记单元63包括：

拍摄对象识别单元，用于基于拍摄对象索引表，确定所述图像特征值对应的拍摄对象；

拍摄对象检测单元，用于检测所述拍摄对象是否在所述目标信息关联的特征对象列表。

因此，本发明实施例提供的终端设备同样可以通过将视频文件分离为图像轨道数据以及音频轨道数据，从而通过图像维度确定该视频文件中是否包含目信息，以及通过音频轨道判断视频文件的台词中是否包含目标信息，并标记出包含目标信息的视频图像帧以及音频段落，并生成目标信息记录，实现对目标信息的自动识别。与现有的目标信息的识别方法相比，本发明实施例无需依靠监管员对目标信息进行人工识别，从而减少了人工成本，并且上述流程均可以通过计算机自动执行完成，当待识别的视频文件数量较多时，也不会存在识别疲劳而需要休息的情况，提高了目标信息的识别效率。

图7是本发明另一实施例提供的一种终端设备的示意图。如图7所示，该实施例的终端设备7包括：处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72，例如目标信息的识别程序。所述处理器70执行所述计算机程序72时实现上述各个目标信息的识别方法实施例中的步骤，例如图1所示的S101至S106。或者，所述处理器70执行所述计算机程序72时实现上述各装置实施例中各单元的功能，例如图6所示模块61至66功能。

示例性的，所述计算机程序72可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器71中，并由所述处理器70执行，以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序72在所述终端设备7中的执行过程。例如，所述计算机程序72可以被分割成视频文件解析单元、图像特征值提取单元、视频图形帧标记单元、语音识别单元、音频段落标记单元以及目标信息记录生成单元，各单元具体功能如上所述。

所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器70、存储器71。本领域技术人员可以理解，图7仅仅是终端设备7的示例，并不构成对终端设备7的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器70可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71可以是所述终端设备7的内部存储单元，例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备，例如所述终端设备7上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种目标信息的识别方法，其特征在于，包括：

提取所述图像轨道数据中每一视频图像帧的图像特征值；

2.根据权利要求1所述的推送方法，其特征在于，所述提取所述图像轨道数据中每一视频图像帧的图像特征值，包括：

对所述视频图像帧进行轮廓识别处理，获取所述视频图像帧内拍摄主体的轮廓信息，并根据所述轮廓信息从所述视频图像帧中截取各个拍摄主体的区域图像；

通过预设的视觉组神经网络的五层池化层对所述拍摄主体的区域图像进行降维，得到该拍摄主体的视觉特征向量；其中，所述五层池化层具体为：

V₁(A_mn)＝mp₁(3，64，A_mn)；

V₂(A_mn)＝mp₂(3，128，V₁(A_mn))；

V₃(A_mn)＝mp₃(3，256，V₂(A_mn))；

V₄(A_mn)＝mp₄(3，512，V₂(A_mn))；

V₅(A_mn)＝mp₅(1，1，V₄(A_mn))；

将各个所述视觉特征向量导入所述视觉组神经网络的全连接层，输出所述视频图像帧的所述图像特征值。

3.根据权利要求1所述的推送方法，其特征在于，所述对所述音频轨道数据进行语音识别，确定所述音频轨道数据对应的台词文本，包括：

对所述音频轨道数据进行傅里叶变换，生成所述音频轨道数据的频域数据；

根据所述频域数据以及人体可发声频段范围，将所述频域数据划分为环境音频段数据以及人声频段数据；

基于所述环境音频段数据，确定所述视频文件的拍摄场景信息；

对所述人声频段数据进行逆傅里叶变换，得到人声轨道数据，并对所述人声轨道数据进行语音识别，确定对话文本；

根据所述拍摄场景信息以及所述对话文本，生成所述台词文本。

4.根据权利要求1-3任一项所述的推送方法，其特征在于，在所述基于标记的所述视频图像帧以及所述音频段落，生成所述视频文件的目标信息记录之后，还包括：

对标记的所述视频图像帧进行图像模糊处理，生成模糊处理后的视频图像帧；

对所述音频段落进行消音处理，生成消音后的音频段落；

根据所述模糊处理后的视频图像帧以及所述消音后的音频段落修改所述视频文件，并发布修改后的所述视频文件。

5.根据权利要求1-3任一项所述的推送方法，其特征在于，所述基于所述图像特征值检测各个所述视频图像帧是否包含目标信息，包括：

基于拍摄对象索引表，确定所述图像特征值对应的拍摄对象；

检测所述拍摄对象是否在所述目标信息关联的特征对象列表。

6.一种终端设备，其特征在于，所述终端设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下步骤：

提取所述图像轨道数据中每一视频图像帧的图像特征值；

7.根据权利要求6所述的终端设备，其特征在于，所述提取所述图像轨道数据中每一视频图像帧的图像特征值，包括：

V₁(A_mn)＝mp₁(3，64，A_mn)；

V₂(A_mn)＝mp₂(3，128，V₁(A_mn))；

V₃(A_mn)＝mp₃(3，256，V₂(A_mn))；

V₄(A_mn)＝mp₄(3，512，V₂(A_mn))；

V₅(A_mn)＝mp₅(1，1，V₄(A_mn))；

8.根据权利要求6所述的终端设备，其特征在于，所述对所述音频轨道数据进行语音识别，确定所述音频轨道数据对应的台词文本，包括：

9.根据权利要求6-8任一项所述的终端设备，其特征在于，在所述基于标记的所述视频图像帧以及所述音频段落，生成所述视频文件的目标信息记录之后，所述处理器执行所述计算机程序时实现如下步骤：

对所述音频段落进行消音处理，生成消音后的音频段落；

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。