CN115631447A

CN115631447A - 视频识别方法、装置、设备以及计算机存储介质

Info

Publication number: CN115631447A
Application number: CN202211415240.9A
Authority: CN
Inventors: 曹汝帅; 黄栋; 李琳; 周效军; 张元方
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2022-11-11
Filing date: 2022-11-11
Publication date: 2023-01-20

Abstract

本发明实施例涉及计算机数据处理技术领域，公开了一种视频识别方法，该方法包括：确定待识别视频的语音文本信息以及画面信息；对语音文本信息以及画面信息进行特征融合，得到所述待识别视频的融合视频特征；根据融合视频特征以及预设的视频数据库确定待识别视频的原创性判定结果。通过上述方式，本发明实施例提高了原创视频判定的准确率。

Description

视频识别方法、装置、设备以及计算机存储介质

技术领域

本发明实施例涉及计算机数据处理技术领域，具体涉及一种视频识别方法、装置、设备以及计算机存储介质。

背景技术

在视频播放平台，比如用户可以自制视频上传的视频播放平台，为了提高平台内的视频质量，通常会对视频的原创性进行识别，筛选掉重复的视频，从而提升平台内视频的用户观看体验。

本申请的发明人在实施本发明实施例的过程中发现：业内的视频原创性识别仅仅根据视频的画面内容进行识别以及筛选，其存在准确率较低的问题。

发明内容

鉴于上述问题，本发明实施例提供了一种视频识别方法，用于解决现有技术中存在的视频原创性识别的准确率较低的问题。

根据本发明实施例的一个方面，提供了一种视频识别方法，所述方法包括：

确定待识别视频的语音文本信息以及画面信息；

对所述语音文本信息以及所述画面信息进行特征融合，得到所述待识别视频的融合视频特征；

根据所述融合视频特征以及预设的视频数据库，确定所述待识别视频的原创性判定结果。

在一种可选的方式中，所述画面信息包括画面文本信息；

针对所述待识别视频中包括的各个所述视频帧，对所述视频帧中的若干个可选识别区域分别进行标记，得到标记后的视频帧；

以所述标记后的视频帧的中心为缩放中心点，对所述标记后的视频帧进行多次缩放处理，得到所述标记后的视频帧对应的不同尺寸的若干个重叠视频帧；

对所述不同尺寸的若干个重叠视频帧中的所述可选识别区域进行合并处理，得到所述视频帧对应的至少一个目标识别区域；

根据所述视频帧对应的所述目标识别区域内的文本识别信息确定所述画面文本信息。

在一种可选的方式中，所述方法还包括：

根据所述若干个可选识别区域之间的重叠面积以及各个所述可选识别区域对应的文本识别结果，对所述可选识别区域进行合并处理，得到所述目标识别区域。

在一种可选的方式中，所述方法还包括：

将所述重叠面积大于预设的面积阈值并且所述文本识别结果的相似度大于预设的相似度阈值的所述可选识别区域确定为关联识别区域；

对所述关联识别区域进行合并处理，得到所述目标识别区域。

在一种可选的方式中，所述方法还包括：

对所述待识别视频中各个视频帧分别进行语音识别，得到各个所述视频帧对应的前景语音信息以及背景语音信息；

对所述前景语音信息以及背景语音信息分别进行文本转换，得到前景语音文本以及背景语音文本；

根据所述背景语音文本对所述前景语音文本进行去重处理，得到所述语音文本信息。

在一种可选的方式中，所述方法还包括：

将所述语音文本信息与所述画面文本信息进行匹配，得到第一匹配文本以及不匹配文本信息；

将所述不匹配文本信息对应的近似文本进行匹配，得到第二匹配文本；所述近似文本通过对所述不匹配文本进行音近处理、形近处理以及近义处理中的至少一种后得到；

根据所述第一匹配文本和第二匹配文本确定所述融合视频特征。

在一种可选的方式中，所述视频数据库中包括若干个预存的原创视频的所述融合视频特征、语音文本信息以及画面信息中的至少一项；所述方法还包括：

将所述融合视频特征与所述预存的原创视频的融合视频特征、语音文本信息以及画面信息中的至少一项进行匹配，当匹配成功时，确定所述原创性判定结果为不具有原创性。

根据本发明实施例的另一方面，提供了一种视频识别装置，包括：

确定模块，用于确定待识别视频的语音文本信息以及画面信息；

融合模块，用于对所述语音文本信息以及所述画面信息进行特征融合，得到所述待识别视频的融合视频特征；

判定模块，用于根据所述融合视频特征以及预设的视频数据库，确定所述待识别视频的原创性判定结果。

根据本发明实施例的另一方面，提供了一种视频识别设备，包括：

处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如前述任意一项所述的视频识别方法的操作。

根据本发明实施例的又一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使视频识别设备执行如前述任意一项所述的视频识别方法的操作。

本发明实施例通过确定待识别视频的语音文本信息以及画面信息；其中，本发明实施例中的画面信息中可以包括画面图像信息以及画面文本信息；对所述语音文本信息以及所述画面信息进行特征融合，得到所述待识别视频的融合视频特征；根据所述融合视频特征以及预设的视频数据库，确定所述待识别视频的原创性判定结果，通过将语音文本信息与包括画面文本信息的画面信息进行特征融合，在根据画面的图像内容进行重复视频识别的基础上，增加画面文本以及语音文本作为视频识别的维度，通过视频对应的图像以及文本等多维度的特征信息综合确定待识别视频的融合视频特征，通过将该融合视频特征与视频数据库中预存的原创视频的对应维度下的特征进行比对，从而能够提高视频原创性识别的准确率，降低视频平台上的视频重复率，提升视频播放平台内的视频质量以及用户的观看体验。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

附图仅用于示出实施方式，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的视频识别方法的流程示意图；

图2示出了本发明实施例提供的视频识别方法中标记的可选识别区域的示意图；

图3示出了本发明实施例提供的视频识别方法中若干个尺寸的重叠视频帧的示意图；

图4示出了本发明实施例提供的视频识别方法中对目标识别区域进行分割的示意图；

图5示出了本发明实施例提供的视频识别装置的结构示意图；

图6示出了本发明实施例提供的视频识别设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。

在进行本发明实施例的说明之前，对现有技术及其存在的问题进行进一步说明：

当代互联网是一种内容为王的时代，随着科技的进步、网络的发展，自媒体短视频的创作成为一种潮流。然而一些自媒体在最初时为了快速涨粉，经常不能坚持原创，而是抄袭热点(或者点赞转发多)的视频内容，为了保证诸如推荐稳定性、原创性等权益，在短视频发布平台中，视频原创检测、视频去重成为一个必要环节。现有的视频去重的方案主要为：通过分析视频关键帧，利用深度学习等技术理论对比图像是否相似，相似则判为重复视频，不相似则不认为是重复视频。其核心都只是局限于对视频帧的分析对比。

综上，现有的技术方案只是基于视频关键帧，通过使用深度学习算法等技术手段来对比一系列视频关键帧，当视频关键帧与数据库中存储的已有视频相似时，判为视频重复，不相似时，则判为通过。其问题在于：当用户改变视频画面时，便无法判断其重复，给了视频抄袭者以漏洞。如对现有的视频进行“包装”，加上水印、滤镜以及贴图，更换背景音乐之后再当做原创作品上传等。这种伪创作的短视频一方面导致视频平台上的视频重复过于，拉低平台整体视频质量，影响用户的观看体验。另一方面对原创视频的打击很大，影响了用户的视频创作体验。

因此，需要一种对于非原创视频准确识别的方法，来解决现有技术中的无法有效识别重复视频，从而因重复视频影响用户的视频观看体验的问题。

图1示出了本发明实施例提供的视频识别方法的流程图，该方法由计算机处理设备执行。该计算机处理设备可以包括手机、笔记本电脑等。如图1所示，该方法包括以下步骤：

步骤10：确定待识别视频的语音文本信息以及画面信息。

在本发明的一个实施例中，待识别视频可以是目标应用中用户上传的视频，如可以是用户制作的短视频片段。目标应用可以是短视频播放应用等。语音文本信息包括根据待识别视频包含的音轨信息转化出的文本信息。画面信息包括待识别视频包括的画面帧内容信息，其中，画面帧内容信息包括画面的图像内容信息以及文本内容信息，图像内容信息可以对画面帧进行图像识别得到，文本内容信息可以对画面帧进行OCR(OpticalCharacter Recognition，光学字符识别)等文字识别技术得到。

具体地，在对画面帧进行OCR识别时，为了提高识别的效率和准确率，可以先对各个画面帧预先进行若干个可选识别区域的标记，如对画面帧的中心位置以及四个坐标象限进行标记，使得可选识别区域可以覆盖画面帧的中心以及四周范围。再以画面帧的中心为缩放中心，对画面帧进行缩放处理，得到若干个不同尺寸的相同中心的重叠画面帧，再对重叠画面帧中的可选识别区域的相似度对可选识别区域进行筛选和合并，最终得到数量较少且能够覆盖画面帧的文本内容的目标识别区域。其中，可选识别区域的相似度可以根据可选识别区域的重叠情况以及可选识别区域内的文本识别内容的相似度确定。

因此，在本发明的一个实施例中，所述画面信息包括画面文本信息；步骤10还包括：

步骤101：针对所述待识别视频中包括的各个所述视频帧，对所述视频帧中的若干个可选识别区域分别进行标记，得到标记后的视频帧。

在本发明的一个实施例中，为了保证识别结果的覆盖范围，可选识别区域的选择可以是如图2所示，即以视频帧的中心为原点，平行与视频帧的长和宽的边的直线为坐标轴，将视频帧划分为图2中的四个坐标象限，分别记为象限Ⅰ、Ⅱ、Ⅲ以及Ⅳ。在中心位置、各个坐标象限内以及各个坐标象限的交界线上分别标记可选识别区域，如图2中的每个坐标象限内以十字架形的方式标记有两个中心重叠的可选识别区域(如象限坐标Ⅰ中的P1以及P2)，在各个象限坐标的交界线上标记至少一个可选识别区域(如图2中的P9以及P10)，在视频帧的中心位置以十字架的形式标记有两个中心重叠的可选识别区域(图2中的P12以及P11)。

具体地，设视频帧FMs合集中的视频帧宽为W，高为H。取两组宽高比分别为1:4和4:1的定位区域，在W*H的视频帧中进行定位取样，共取得2*(5+1)＝12个区域，如图2所示。其中“5”表示视频帧中的四个坐标象限加中心位置。“1”表示针对字幕(或视频文字)经常出现的位置，如图2中的P9以及P10的位置，用于对视频帧增加特定分析，避免遗漏文本内容。

需要说明的是，为了在保证识别准确率的同时，提高数据处理的效率，区别于现有技术中只选取视频的关键帧进行分析，在进行可选识别区域的标记之前，还可以对根据帧率对待识别视频中的视频帧进行筛选，以对视频帧进行数量上的压缩处理。具体地，设待识别视频的视频长度为TL秒，帧率为SF，则视频共有TL*SF张视频帧，取每秒的第SF/2 -1帧为压缩处理后的视频帧集合，故可得TL张视频帧，记为FMs视频帧合集。其中，考虑到本发明实施例中分析的是视频帧中的文本属于人眼可以固定看清的视频内容，因此，作为文本识别对象的视频帧需要持续1秒的时间及以上。

步骤102：以所述标记后的视频帧的中心为缩放中心点，对所述标记后的视频帧进行多次缩放处理，得到所述标记后的视频帧对应的不同尺寸的若干个重叠视频帧。

在本发明的一个实施例中，容易理解的是，在以视频帧的中心为缩放中心点对齐进行缩放处理时，视频帧中的可选标记区域会随着视频帧的缩放，向共同的缩放中心靠近或远离，由此就会出现可选标记区域之间重叠的情况，由此可以根据重叠情况对于重叠视频帧中包括的若干个可选标记区域进行精简和聚合，得到目标识别区域。通过多次缩放和聚合得到的目标识别区域能够实现对整个视频帧的覆盖，从而在提高检测效率的同时，也提高了检测的准确率。

具体地，标记的可选识别区域可以是如图2中的所示的12个区域P1-P12。图2表示未进行缩放处理的初始比例下的12个可选识别区域。然后在图2的基础上，对视频帧进行n层金字塔式缩放(缩放比可以根据实际视频帧的尺寸情况进行调整，如可以为0.8)，对应获得其余比例下的12个待检测区域。当n为3时，三层金字塔缩放如图3所示，可知经过缩放处理，得到图3所示的三个不同尺寸的重叠视频帧，共包含3*12＝36个文本计算区域。其中，图3中金字塔的最外层的S3即为图2所示的初始比例的可选检测区域，中间层S2示意的矩形代表视频帧在0.8缩放比后的结果，对应地，最内层的S1示意的矩形代表原视频帧在0.8*0.8缩放比后的结果。通过金字塔缩放的处理，使用高宽比为1:4和4:1两个区域即可覆盖视频帧的不同区域。

步骤103：对所述不同尺寸的若干个重叠视频帧中的所述可选识别区域进行合并处理，得到所述视频帧对应的至少一个目标识别区域。

在本发明的一个实施例中，重叠视频帧中的可选识别区域也随之缩放，如图3所示，不同的尺寸的视频帧之间的可选识别区域可能会出现重叠，因此，可以根据可选识别区域之间的重叠面积以及各个可选识别区域内包括的文本内容对可选识别区域进行合并，得到至少一个目标识别区域。其中，在对可选识别区域进行合并时，可以首先确定重叠面积高于预设面积阈值的可选识别区域组，然后确定可选识别区域组内的可选识别区域的文本相似度，当文本相似率大于预设的相似度阈值时，则可以判定该相似度较高的可选识别区域是对相近区域的相同文本检测的不同检测区域，因此可以进行可选识别区域的合并，即将文本相似度高于预设相似度阈值的所述可选识别区域合并为一个目标识别区域。

因此，在本发明的一个实施例中，步骤103还包括：

步骤1031：根据所述若干个可选识别区域之间的重叠面积以及各个所述可选识别区域对应的文本识别结果，对所述可选识别区域进行合并处理，得到所述目标识别区域。

在本发明的一个实施例中，将重叠面积大于预设的面积阈值的可选识别区域确定为关联识别区域。进一步判断关联识别区域内的文本内容的相似度，当文本内容的相似度大于预设的相似度阈值时，则对关联识别区域进行合并处理，得到目标识别区域。

因此，在本发明的一个实施例中，步骤1031还包括：

步骤10311：将所述重叠面积大于预设的面积阈值并且所述文本识别结果的相似度大于预设的相似度阈值的所述可选识别区域确定为关联识别区域。

在本发明的一个实施例中，分别对各个可选识别区域进行文本识别，得到其对应的文本识别结果。将重叠面价大于面积阈值的可选识别区域的文本识别结果两两进行比较，得到关联识别区域。

具体地，结合图3对关联识别区域的合并过程进行说明，首先对图3中的三个尺寸的重叠视频帧中所包括的36个可选识别区域分别进行OCR处理，当输出无结果时，说明该区域内没有文本，直接舍弃该区域。而在该区域内识别到文本时，设区域Fa、Fb、Fc三个识别到文本并输出。进入循环判断，判断次数为

上面的假设中n＝3，故需要判断3次(Fa与Fb，Fa与Fc，Fb与Fc)。如以Fa与Fb的判断为例，计算两个区域区域的重叠面积，当重叠面积大于一个阈值时，再判断Fa与Fb识别文本的相似度(文本匹配)，当文本相似率大于一个阈值时，判定为Fa与Fb是对相近区域的相同文本检测的不同识别区域，进行区域Fa与Fb的合并。综上，只有要满足区域重叠且识别内容相似时才进行区域的合并。

步骤10312：对所述关联识别区域进行合并处理，得到所述目标识别区域。

在本发明的一个实施例中，针对每两个关联识别区域，根据所述关联识别区域在所述视频帧中的坐标覆盖范围确定合并后识别区域。具体地，根据关联识别区域的坐标的极值确定坐标覆盖范围，将坐标覆盖范围内的区域确定为合并后识别区域。举例说明，设区域的坐标为(x，y，w，h)，其中x，y是区域的左上角，w，h是区域的宽与高，可知(x，y，w，h)四元组可在视频帧中统一确定一个区域。计算区域左上角坐标(x，y)与右下角坐标(x+w，y+h)，分别比较两个区域的两点值，左上角取两个最小值，右下角取两个最大值，构成合并后识别区域，其中，Wf*Hf即为合并后识别区域的宽与高。

随后，对所述合并后识别区域进行分割处理，得到若干个子识别区域。具体地，以如图4所示对合并区域进行水平和垂直两个方向的分割，分割的宽度为根据前述步骤102中标记的可选识别区域的长宽比进行设置。根据各个所述子识别区域分别对应的所述文本识别结果，对所述子识别区域进行合并处理，得到所述目标识别区域。

在本发明的一个实施例中，当子识别区域的文本识别结果为空时，可以对子识别区域可进行合并和压缩，从而缩小范围。当相邻两个分割区域OCR识别结果相近时，两个子识别区域合并，合并后的宽度为1.3倍的检测区域的宽度。

步骤104：根据所述视频帧对应的所述目标识别区域内的文本识别信息确定所述画面文本信息。

在本发明的一个实施例中，考虑到存在若干个视频帧，以及各个视频帧内包括若干个目标识别区域，因此，首先针对每一个视频帧，根据其所包括的所有目标识别区域内的文本识别信息进行拼接，通过遍历所有目标识别区域进行迭代式拼接，得到该视频帧对应的最长文本，确定为该视频帧对应的画面文本信息。再对所有视频帧对应的进行去重，最终得到待识别视频对应的画面文本信息。其中，在每轮迭代过程中，，判断每两个关联识别区域对应的文本识别结果首尾拼接处理后得到的文本是否是语义完整的，若是完整的则将两个关联识别区域进行合并，直至得到长度最长的文本，最终包括长度最长的文本对应的区域作为目标识别区域。

具体地，设视频帧FM中检测到的目标视频区域为N个，则对应输出N条文本，依次记为Txt1，Txt2，...，Txtn。求N条文本中最长的一条文本(多条长度相同时，随机选一条即可)，如Txtj。将其余文本(Txti，1<＝i<＝n且i！＝j)与Txtj进行匹配，当Txti包含于Txtj中时，将Txti舍弃；当Txti尾与Txtj头相匹配时，将Txti与Txtj进行拼接，并赋值给Txtj；同理，当Txti头与Txtj尾相匹配时，将Txtj与Txti进行拼接，并赋值给Txtj；当Txti与Txtj无匹配项或匹配值较少时，单独将Txti保存起来，待完成一次匹配后继续处理。当所有Txti与Txtj都比较后，此时得到的Txtj最长，另得到一个不匹配的Txti列表。再次遍历该不匹配的Txti列表，与最新最长的Txtj匹配(过程如上)，当依然不匹配时，计算文本Txti的长度，不足Txtj的三分之一舍弃，超过Txtj的三分之一长度的保留。返回最后的文本Txtj和/或其他文本列表。

再对待识别视频中所有视频帧对应的文本识别信息进行合并，具体地，将重复的文本识别信息去除，对于去除后得到的文本识别信息按照视频帧先后顺序前后排列，最终得到待识别视频对应的画面文本信息。

在本发明的一个实施例中，对待识别视频中的语音文本信息的提取，步骤10还包括：

步骤105：对所述待识别视频中各个视频帧分别进行语音识别，得到各个所述视频帧对应的前景语音信息以及背景语音信息。

在本发明的一个实施例中，前景语音信息包括待识别视频中的发声主体的声音，如画面中的演员或歌手发出的声音、新闻播报或旁白解说的声音等，背景语音信息包括待识别视频的背景音乐、环境音等。提取出待识别视频的音轨数据，对音轨数据进行音频特征识别，根据音频特征识别结果将音轨数据划分为前景语音信息以及背景语音信息。

可选地，还可以根据预设的背景音数据库与音轨数据进行匹配，提取出所匹配到的背景语音信息。

步骤106：对所述前景语音信息以及背景语音信息分别进行文本转换，得到前景语音文本以及背景语音文本。

在本发明的一个实施例中，对前景语音信息进行语音转文本处理，得到前景语音文本，如可以是待识别视频中的演员的台词文本或者旁白解说词文本等。对背景语音信息进行语音转文本处理，得到背景语音文本，如可以是待识别视频中包含的背景音乐的歌词文本等。

步骤1043：根据所述背景语音文本对所述前景语音文本进行去重处理，得到所述语音文本信息。

在本发明的一个实施例中，将背景语音文本与前景语音文本进行比较，从前景语音文本中去除与背景语音文本相同的文本信息，得到语音文本信息，从而减少背景音对于从待处理视频中提取出的画面文本信息的影响，避免出现视频内容实质相同，但是采用了不同的背景音乐而被认为是不同的视频的去重不准确的情况。

步骤20：对所述语音文本信息以及所述画面信息进行特征融合，得到所述待识别视频的融合视频特征。

在本发明的一个实施例中，从图像以及文本两个维度对语音文本信息以及所述画面信息进行特征融合，其中，在从文本维度进行特征融合时，将语音文本信息以及画面文本信息进行比较，将两者中共同存在的文本信息确定为第一匹配文本信息，而对于画面文本信息以及语音文本信息中未匹配到的剩余信息进行近似处理，将近似处理后的信息再次进行匹配，将两次匹配得到的语音文本信息以及画面文本信息中的共有文本信息添加到融合视频特征中。与此同时，对画面图像进行图像特征提取，得到图像特征信息，添加到融合视频特征中。从而通过从图像特征信息、语音以及画面共有文本信息等多维度进行视频特征的比对来进行视频去重，能够提高视频去重识别的准确率。

因此，在本发明的一个实施例中，步骤20还包括：

步骤201：将所述语音文本信息与所述画面文本信息进行匹配，得到第一匹配文本以及不匹配文本信息。

在本发明的一个实施例中，考虑到视频中的文本与语音解说都是为表达视频内容并为主旨服务，因此应该是相匹配的，如基本一致的。第一匹配文本中包括语音文本以及画面文本中匹配的文本部分，不匹配文本信息为语音文本信息以及画面文本信息中除去第一匹配文本后剩余的文本部分。其中，语音文本和画面文本匹配可以是两者的文本完全相同，或者近似度大于预设的阈值。

步骤202：将所述不匹配文本信息对应的近似文本进行匹配，得到第二匹配文本；所述近似文本通过对所述不匹配文本进行音近处理、形近处理以及近义处理中的至少一种后得到。

在本发明的一个实施例中，为了提高语音文本以及画面文本信息的匹配的准确率，从而保证后续对于待识别视频进行融合特征信息提取的完整性，考虑到用户自制或上传的视频可能出现发音不标准、错别字或者其所配的字幕与配音不符的情况，这些情况都会导致画面文本信息与语音文本信息不匹配，因此，可以对不匹配文本的近似文本再次进行匹配，以避免上述情况导致的不匹配，从而导致视频特征的遗漏。其中，音近处理包括确定文本的发音相近的字，如“食用”和“使用”。形近处理包括确定文本的形近字，如“人、入、八”以及“己、已、巳”。近义处理包括确定文本的近义字，如“秀美”和“优美”。将不匹配文本信息中的语音文本信息以及画面文本信息分别对应的近似文本中相同的文本确定为第二匹配文本。举例说明，不匹配文本信息中包括语音文本信息“食用”时，则将“使用”、“试用”、“适用”等添加进第二匹配文本中。

在本发明的再一个实施例中，设第一阶段(视频帧文本提取分析)获取的文本内容为TCI(Image)，设第二阶段(视频语音提取分析)获取的文本内容为TCA(Audio)。将TCI与TCA做文本模式自由匹配，如论文查重的过程。设TCI为母文本，将TCA按句子为单位分割，判断句子在TCI中是否出现，若出现则计算出现的位置和出现的文本数量(以汉字个数为单位)。需要强调的是：在判断句子是否在TCI中出现时，有一步核心的“音似处理”(基于文本朗读原理)，有效避免语音识别在文字转写时的转写错误，比如“实用”识别后转写为“食用”。设TCI文本为[asbserRTGSUJLLIfvnfurLRUTLS]，以一个字母代表一个汉字，其中TCA中一个句子为[JLLIfVMfur]，通过文本匹配(A＝A，a＝a，A！＝a)可以很容易得到[JLLIfVMfur]与[asbserRTGSUJLLIfvnfurLRUTLS]的相似结果。当句子中绝大多数汉字实现匹配时，未匹配的字数较少，则对未匹配的字数执行“音似处理”，即对[VM]做发音处理(“朗读”，但是不发声的)，并根据相似结果寻找TCI中对应的文字位置，取出文字[vn]做发音处理(“朗读”，但是不发声的)。当[VM]与[vn]发音处理的结果相同时，则判断[VM]与[vn]相同，然后修正句子在TCI文本中的匹配为[asbserRTGSUJLLIfvnfurLRUTLS]。

步骤203：根据所述第一匹配文本和第二匹配文本确定所述融合视频特征。

在本发明的一个实施例中，将第一匹配文本和第二匹配文本的集合确定为融合视频特征。

步骤30：根据所述融合视频特征以及预设的视频数据库，确定所述待识别视频的原创性判定结果。

在本发明的一个实施例中，预设的视频数据库中包括若干个预存的原创视频，其中，原创视频包括历史上其他用户上传的经过原创性认证的视频。原创性判定结果用于判定待识别视频是否为原创视频，其中，当其与视频数据库中的视频的特征重合度高于一定阈值时，则确定待识别视频为非原创视频。

在本发明的再一个实施例中，为了提高视频去重识别的准确率，还可以对融合视频特征、语音文本信息、画面信息等若干个维度的视频特征进行比较，当存在至少一个维度的视频特征的重合度高于阈值时，则确定待识别视频为非原创视频。

具体地，所述视频数据库中包括若干个预存的原创视频的所述融合视频特征、语音文本信息以及画面信息中的至少一项；

步骤30还包括：步骤301：将所述融合视频特征与所述预存的原创视频的融合视频特征、语音文本信息以及画面信息中的至少一项进行匹配，当匹配成功时，确定所述原创性判定结果为不具有原创性。

在本发明的一个实施例中，当融合视频特征与预存的融合视频特征、语音文本信息以及画面信息中存在一项或以上的特征重复时，则确定其匹配成功，即确定待识别视频不具有原创性。对应地，当融合视频特征与所述预存的原创视频的融合视频特征、语音文本信息以及画面信息均不存在匹配，则将待识别视频的原创性识别结果确定为具有原创性。

图5示出了本发明实施例提供的视频识别装置的结构示意图。如图5所示，该装置40包括：确定模块401、融合模块402和判定模块403。

其中，确定模块401，用于确定待识别视频的语音文本信息以及画面信息；

融合模块402，用于对所述语音文本信息以及所述画面信息进行特征融合，得到所述待识别视频的融合视频特征；

判定模块403，用于根据所述融合视频特征以及预设的视频数据库，确定所述待识别视频的原创性判定结果。

本发明实施例提供的视频识别装置的操作过程与前述方法实施例大致相同，不再赘述。

本发明实施例提供的视频识别装置通过确定待识别视频的语音文本信息以及画面信息；其中，本发明实施例中的画面信息中可以包括画面图像信息以及画面文本信息；对所述语音文本信息以及所述画面信息进行特征融合，得到所述待识别视频的融合视频特征；根据所述融合视频特征以及预设的视频数据库，确定所述待识别视频的原创性判定结果，通过将语音文本信息与包括画面文本信息的画面信息进行特征融合，在根据画面的图像内容进行重复视频识别的基础上，增加画面文本以及语音文本作为视频识别的维度，通过视频对应的图像以及文本等多维度的特征信息综合确定待识别视频的融合视频特征，通过将该融合视频特征与视频数据库中预存的原创视频的对应维度下的特征进行比对，从而能够提高视频原创性识别的准确率，降低视频平台上的视频重复率，提升视频播放平台内的视频质量以及用户的观看体验。

图6示出了本发明实施例提供的视频识别设备的结构示意图，本发明具体实施例并不对视频识别设备的具体实现做限定。

如图6所示，该视频识别设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。通信接口504，用于与其它设备比如客户端或其它服务器等的网元通信。处理器502，用于执行程序510，具体可以执行上述用于视频识别方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机可执行指令。

处理器502可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或若干个集成电路。视频识别设备包括的一个或若干个处理器，可以是同一类型的处理器，如一个或若干个CPU；也可以是不同类型的处理器，如一个或若干个CPU以及一个或若干个ASIC。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序510具体可以被处理器502调用使视频识别设备执行以下操作：

确定待识别视频的语音文本信息以及画面信息；

本发明实施例提供的视频识别设备的操作过程与前述方法实施例大致相同，不再赘述。

本发明实施例提供的视频识别设备通过确定待识别视频的语音文本信息以及画面信息；其中，本发明实施例中的画面信息中可以包括画面图像信息以及画面文本信息；对所述语音文本信息以及所述画面信息进行特征融合，得到所述待识别视频的融合视频特征；根据所述融合视频特征以及预设的视频数据库，确定所述待识别视频的原创性判定结果，通过将语音文本信息与包括画面文本信息的画面信息进行特征融合，在根据画面的图像内容进行重复视频识别的基础上，增加画面文本以及语音文本作为视频识别的维度，通过视频对应的图像以及文本等多维度的特征信息综合确定待识别视频的融合视频特征，通过将该融合视频特征与视频数据库中预存的原创视频的对应维度下的特征进行比对，从而能够提高视频原创性识别的准确率，降低视频平台上的视频重复率，提升视频播放平台内的视频质量以及用户的观看体验。

本发明实施例提供了一种计算机可读存储介质，所述存储介质存储有至少一可执行指令，该可执行指令在视频识别设备上运行时，使得所述视频识别设备执行上述任意方法实施例中的视频识别方法。

可执行指令具体可以用于使得视频识别设备执行以下操作：

确定待识别视频的语音文本信息以及画面信息；

本发明实施例提供的计算机存储介质所存储的可执行指令的操作过程与前述方法实施例大致相同，不再赘述。

本发明实施例提供的计算机存储介质所存储的可执行指令通过确定待识别视频的语音文本信息以及画面信息；其中，本发明实施例中的画面信息中可以包括画面图像信息以及画面文本信息；对所述语音文本信息以及所述画面信息进行特征融合，得到所述待识别视频的融合视频特征；根据所述融合视频特征以及预设的视频数据库，确定所述待识别视频的原创性判定结果，通过将语音文本信息与包括画面文本信息的画面信息进行特征融合，在根据画面的图像内容进行重复视频识别的基础上，增加画面文本以及语音文本作为视频识别的维度，通过视频对应的图像以及文本等多维度的特征信息综合确定待识别视频的融合视频特征，通过将该融合视频特征与视频数据库中预存的原创视频的对应维度下的特征进行比对，从而能够提高视频原创性识别的准确率，降低视频平台上的视频重复率，提升视频播放平台内的视频质量以及用户的观看体验。

本发明实施例提供一种视频识别装置，用于执行上述视频识别方法。

本发明实施例提供了一种计算机程序，所述计算机程序可被处理器调用使视频识别设备执行上述任意方法实施例中的视频识别方法。

本发明实施例提供了一种计算机程序产品，计算机程序产品包括存储在计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令在计算机上运行时，使得所述计算机执行上述任意方法实施例中的视频识别方法。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或若干个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。

本领域技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或若干个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及可以把它们分成若干个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在若干个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种视频识别方法，其特征在于，所述方法包括：

确定待识别视频的语音文本信息以及画面信息；

2.根据权利要求1所述的方法，其特征在于，所述画面信息包括画面文本信息；所述画面文本信息通过以下步骤确定：

针对所述待识别视频中的各个视频帧，对所述视频帧中的若干个可选识别区域分别进行标记，得到标记后的视频帧；

以所述标记后的视频帧的中心为缩放中心点，对所述标记后的视频帧进行若干次缩放处理，得到所述标记后的视频帧对应的不同尺寸的若干个重叠视频帧；

3.根据权利要求2所述的方法，其特征在于，所述对所述不同尺寸的若干个重叠视频帧中的所述可选识别区域进行合并处理，得到所述视频帧对应的至少一个目标识别区域，包括：

根据各个所述可选识别区域之间的重叠面积以及各个所述可选识别区域对应的文本识别结果，对各个所述可选识别区域进行合并处理，得到所述目标识别区域。

4.根据权利要求3所述的方法，其特征在于，所述根据各个所述可选识别区域之间的重叠面积以及各个所述可选识别区域对应的文本识别结果，对各个所述可选识别区域进行合并处理，得到所述目标识别区域，包括：

5.根据权利要求1所述的方法，其特征在于，所述语音文本信息通过以下步骤确定：

对所述待识别视频中各个视频帧分别进行语音识别，得到待识别视频中的各个视频帧对应的前景语音信息以及背景语音信息；

6.根据权利要求1所述的方法，其特征在于，所述画面信息包括画面文本信息；所述融合视频特征通过以下步骤确定：

7.根据权利要求1所述的方法，其特征在于，所述视频数据库中包括若干个预存的原创视频的所述融合视频特征、语音文本信息以及画面信息中的至少一项；所述原创性判定结果通过以下步骤确定：

8.一种视频识别装置，其特征在于，所述装置包括：

9.一种视频识别设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-7中任意一项所述的视频识别方法的操作。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一可执行指令，所述可执行指令在视频识别设备上运行时，使得视频识别设备执行如权利要求1-7中任意一项所述的视频识别方法的操作。