CN115359400A

CN115359400A - 视频识别方法、装置、介质及电子设备

Info

Publication number: CN115359400A
Application number: CN202211021964.5A
Authority: CN
Inventors: 张飞; 黄泽; 李宏亮
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2022-11-18

Abstract

本公开涉及一种视频识别方法、装置、介质及电子设备，所述方法包括：对待识别的目标视频进行特征提取，获得目标视频在多个模态维度下的维度特征；针对每一模态维度，基于所述模态维度下的维度特征在视频数据库中检索，确定所述目标视频在所述模态维度下对应的候选视频；针对每一所述候选视频，确定与所述候选视频对应的模态维度下、所述候选视频和所述目标视频对应的维度匹配度；针对每一所述候选视频，根据所述模态维度下所述候选视频对应的维度匹配度和所述模态维度对应的权重，确定所述候选视频与所述目标视频之间的综合匹配度；若存在综合匹配度大于或等于预设的匹配度阈值的候选视频，则将该候选视频确定为所述目标视频对应的已发布视频。

Description

视频识别方法、装置、介质及电子设备

技术领域

本公开涉及计算机技术领域，具体地，涉及一种视频识别方法、装置、介质及电子设备。

背景技术

随着网络技术的发展，越来越多的用户可以通过发布视频以与他人分享日常。为了对用户发布视频的版权保护，则需要对发布的视频进行相关校验，以尽量避免相似视频的发布。

相关技术中，通常是对上传的视频进行画面抽取，从而通过对画面特征进行编码或者特征融合的方式进行多个视频之间的对比，以发现相似视频。然而随着短视频平台的崛起以及各类剪辑创作类软件的普及，视频的画面的二次加工程度(如裁剪、缩放、加贴纸、加上下边框、变速等)越来越深，导致上述过程中对视频的相似识别准确率降低。

发明内容

提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

第一方面，本公开提供一种视频识别方法，所述方法包括：

对待识别的目标视频进行特征提取，获得所述目标视频在多个模态维度下的维度特征；

针对每一所述模态维度，基于所述模态维度下的维度特征在视频数据库中检索，确定所述目标视频在所述模态维度下对应的候选视频；其中，所述视频数据库中存储有多个已发布视频；

针对每一所述候选视频，确定与所述候选视频对应的模态维度下、所述候选视频和所述目标视频对应的维度匹配度；

针对每一所述候选视频，根据所述模态维度下所述候选视频对应的维度匹配度和所述模态维度对应的权重，确定所述候选视频与所述目标视频之间的综合匹配度；

若存在综合匹配度大于或等于预设的匹配度阈值的候选视频，则将该候选视频确定为所述目标视频对应的已发布视频。

第二方面，本公开提供一种视频识别装置，所述装置包括：

提取模块，用于对待识别的目标视频进行特征提取，获得所述目标视频在多个模态维度下的维度特征；

检索模块，用于针对每一所述模态维度，基于所述模态维度下的维度特征在视频数据库中检索，确定所述目标视频在所述模态维度下对应的候选视频；其中，所述视频数据库中存储有多个已发布视频；

第一确定模块，用于针对每一所述候选视频，确定与所述候选视频对应的模态维度下、所述候选视频和所述目标视频对应的维度匹配度；

第二确定模块，用于针对每一所述候选视频，根据所述模态维度下所述候选视频对应的维度匹配度和所述模态维度对应的权重，确定所述候选视频与所述目标视频之间的综合匹配度；

识别模块，用于若存在综合匹配度大于或等于预设的匹配度阈值的候选视频，则将该候选视频确定为所述目标视频对应的已发布视频。

第三方面，本公开提供一种计算机可读介质，其上存储有计算机程序，该程序被处理装置执行时实现第一方面所述方法的步骤。

第四方面，本公开提供一种电子设备，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行所述存储装置中的所述计算机程序，以实现第一方面所述方法的步骤。

在上述技术方案中，通过对待识别的视频进行多模态维度下的特征提取，从而可以在每一模态维度下对目标视频进行分析，提高目标视频的特征的多样性，为后续对目标视频进行准确识别提供可靠的数据支持。并且，在该技术方案中，可以在每一模态维度下确定与目标视频对应的候选视频，一方面可以针对每一模态维度进行独立分析，提高目标视频识别的精度和准确度，同时也可以在一定程度上提高候选视频的多样性，进一步提高目标视频识别的准确度，通过多个模态维度下对目标识别进行识别，以获得综合的识别结果，可以避免现有技术中对视频的二次加工时影响视频的画面内容而出现的识别误差，提高视频相似识别的准确性，从而可以有效降低人工审核视频的工作量，同时提高视频识别的效率，便于视频的快速发布，提升用户使用体验。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。在附图中：

图1是根据本公开的一种实施方式提供的视频识别方法的流程图；

图2是根据本公开的一种实施方式提供的目标视频对应的音频帧集合和图像帧集合的示意图；

图3是基于模态维度下的维度特征在视频数据库中检索，确定目标视频在模态维度下对应的候选视频的示例性实现方式的流程图；

图4是根据本公开中的一种实施方式提供的确定目标视频对应的候选视频以及对应的维度匹配度的示意图；

图5是根据本公开的一种实施方式提供的确定字幕文本的示意图；

图6A为目标视频中的图像帧的示意图，图6B为候选视频中的图像帧的示意图；

图7是根据本公开的一种实施方式提供的视频识别和视频数据库构建的流程示意图；

图8是根据本公开的一种实施方式提供的视频识别装置的框图；

图9示出了适于用来实现本公开实施例的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

可以理解的是，在使用本公开各实施例公开的技术方案之前，均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。

例如，在响应于接收到用户的主动请求时，向用户发送提示信息，以明确地提示用户，其请求执行的操作将需要获取和使用到用户的个人信息。从而，使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。

作为一种可选的但非限定性的实现方式，响应于接收到用户的主动请求，向用户发送提示信息的方式例如可以是弹窗的方式，弹窗中可以以文字的方式呈现提示信息。此外，弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。

可以理解的是，上述通知和获取用户授权过程仅是示意性的，不对本公开的实现方式构成限定，其它满足相关法律法规的方式也可应用于本公开的实现方式中。

同时，可以理解的是，本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。

图1所示，为根据本公开的一种实施方式提供的视频识别方法的流程图，如图1所示，所述方法可以包括：

在步骤11中，对待识别的目标视频进行特征提取，获得目标视频在多个模态维度下的维度特征。

示例地，可以在获得用户的相关授权后，获得用户上传的视频，将该视频作为目标视频进行检测，以进一步确定其是否与已发布的视频相似，进而可以判断该视频是否能够发布。其中，模态维度可以包括但不限于视频的图像维度、音频维度、语音播报文本维度、字幕文本维度中的至少两个，以便于从视频的多个模态维度下进行检测识别，避免单一模态维度下的识别误差。

在步骤12中，针对每一模态维度，基于模态维度下的维度特征在视频数据库中检索，确定目标视频在模态维度下对应的候选视频；其中，所述视频数据库中存储有多个已发布视频。

其中，视频数据库中可以存储有相关视频平台中的各个已发布视频，以便于将目标视频与其进行对比。如可以在视频发布且获得用户相关授权后，将该视频存储至视频数据库中，提高用于进行对比的视频的全面性，从而实现对目标视频的全面检测。

在该步骤中，可以针对每一模态维度分别对目标视频进行分析检测，从而可以从模态维度切入，获得该目标视频在该模态维度下对应的候选视频，实现对目标视频的多角度分析。其中，该候选视频可以为多个，其数量可以基于实际应用场景进行设置，本公开对此不作限定。

在步骤13中，针对每一候选视频，确定与候选视频对应的模态维度下、候选视频和目标视频对应的维度匹配度。其中，该维度匹配度可以用于表征该候选视频和目标视频在该模态维度下的相似程度，如两个视频在图像维度下的相似程度，两个视频在音频维度下的相似程度，进一步实现对目标视频的多角度分析。

在步骤14中，针对每一候选视频，根据模态维度下候选视频对应的维度匹配度和模态维度对应的权重，确定候选视频与目标视频之间的综合匹配度。

其中，针对每一候选视频而言，其可能在多个模态维度下与目标视频相匹配，如目标视频为h_*，其在图像维度下确定出的候选视频为h₁、h₂、h₄，在音频维度下确定出的候选视频为h₁、h₂和h₃，则针对候选视频h₁而言，其在图像维度和音频维度都被作为目标视频对应的候选视频，则其可以根据在多个模态维度下该候选视频与目标视频之间的维度匹配度，确定该候选视频与目标视频的整体的匹配度，以衡量候选视频与目标视频之间的相似程度。

在步骤15中，若存在综合匹配度大于或等于预设的匹配度阈值的候选视频，则将该候选视频确定为目标视频对应的已发布视频。

示例地，根据各个候选视频对应的综合匹配度，确定出其中最大的综合匹配度作为目标匹配度，若该目标匹配度小于匹配度阈值，即视频数据库中已发布视频与目标视频之间的相似程度较低，可以认为视频数据库中不存在与目标视频对应的已发布视频；若该目标匹配度大于或等于匹配度阈值，即该目标匹配度对应的候选视频与目标视频之间的相似程度较高，可以认为该候选视频与目标视频相似，即视频数据库中存在与目标视频对应的已发布视频。

作为另一示例，也可以直接获取综合匹配度大于或等于匹配度阈值的候选视频，若候选视频的个数不为零，则可以确定存在目标视频对应的已发布视频，且该综合匹配度大于或等于匹配度阈值的候选视频均可以作为与目标视频对应的已发布视频。

在一种可能的实施例中，在所述模态维度包括音频和/或图像的情况下，所述对待识别的目标视频进行特征提取，获得所述目标视频在多个模态维度下的维度特征，包括：

获取所述目标视频在所述模态维度下的视频分量。

以下以模态维度包括音频和图像为例进行详细说明。其中，该步骤中可以分别对目标视频中的图像内容和音频内容进行分离，从而获得图像维度下的视频分量即图像数据、和音频维度下的视频分量即音频数据。

之后，对所述视频分量进行采样处理，获得所述目标视频在所述模态维度下的检测帧集合。

其中，在音频维度下，可以对音频数据进行分帧采样处理，从而获得音频维度下的多个检测帧，即音频帧，如可以获得目标视频对应的音频帧集合a_*，表示如下

其中，r用于表示目标视频的音频帧集合中的音频帧的数量，a_*k即目标视频对应的第k个音频帧。

其中，r由具体的分帧策略决定，如分帧采样处理中可以以帧长为25ms，帧移为10ms进行采样，若目标视频的时长为T_*，则r＝T_**1000/10。上述分帧策略为示例性说明，本公开对此不作限定，但各个视频在音频维度下进行分帧的分帧策略一致。

在图像维度下，可以对图像数据进行抽帧采样处理，从而获得图像维度下的多个检测帧，即图像帧，如可以获得目标视频对应的图像帧集合b_*，表示如下

其中，s用于表示目标视频的图像帧集合中的图像帧的数量，b_*k即目标视频对应的第k个图像帧。

其中，s由具体的抽帧策略决定，通常抽帧数量越多，密度越大。具体的抽帧策略可根据实际应用领域进行调整，且各个视频在图像维度下进行抽帧的抽帧策略一致，如抽帧策略可以是以fps(Frames Per Second，画面每秒传输帧数)为1进行抽帧，此时s即为T_*向下取整。

之后，对所述检测帧集合中的每一检测帧分别进行特征提取，以获得所述模态维度下的所述维度特征。

针对图像帧集合，则可以通过图像特征提取模型对其中的各个图像帧进行特征提取，从而获得图像维度下的维度特征，即图像特征。如可以采用本领域常用的如深度卷积神经网络模型训练一图像特征提取模型以进行特征提取。如可以在大规模图像集中通过自监督训练MoCo模型，以进行图像特征提取。其中基于训练完成的MoCo模型提取的图像特征的表征能力和泛化能力较好，且图像特征维度可以降低为128维，以便较少后续检索过程中的数据计算开销。示例地，该图像维度下的维度特征

η(*)用于表示图像特征提取。上述模型为示例性说明，不对本公开进行限定。

其中，需要进行说明的是，由于不同模态维度下的特征对应的取值范围不同，余弦相似度与两个特征在经过L2归一化之后的矩阵点积等价，因此，为了方便检索时进行相似度的计算，可以在进行图像特征提取后进行L2归一化操作，从而可以数据处理的效率和一致性。

针对音频帧集合，则可以通过音频特征提取算法对其中的各个音频帧进行特征提取，从而获得音频维度下的维度特征，即音频特征。如可以采用本领域常用的如MFCC等音频特征或音频指纹的提取方式进行特征提取。如可以采用MFCC音频特征，则对音频帧进行MFCC音频特征提取后，获得的音频特征可以为39维的特征，以便较少后续检索过程中的数据计算开销。示例地，该音频维度下的维度特征

μ(*)用于表示音频特征提取。上述模型为示例性说明，不对本公开进行限定。同样地，为了保证数据处理的统一性，可以在进行音频特征提取后进行L2归一化操作，从而可以数据处理的效率和一致性。

示例地，目标视频对应的音频帧集合a_*＝{a_*1,a_*1,...,a_*r}和图像帧集合b_*＝{b_*1,b_*1,...,b_*s}如图2所示。

由此，通过上述技术方案，可以针对目标视频的模态维度，在该模态维度下进行采样，从而获得用于对目标视频进行识别的检测帧的维度特征，提高目标视频的特征多样性和全面性，以便于从多角度对目标视频进行识别，为后续进行视频识别提供丰富的数据支持。

在一种可能的实施例中，在步骤12中基于模态维度下的维度特征在视频数据库中检索，确定目标视频在模态维度下对应的候选视频的示例性实现方式如下，如图3所示，该步骤可以包括：

在步骤21中，针对模态维度下的每一检测帧，确定检测帧与各个已发布视频的对比帧的相似度。

以下，以图像维度为例进行详细说明。其中，针对视频数据库中的每一已发布视频，可以通过上文所述同样的方式确定出获得该已发布视频的图像数据对应的图像帧，即该已发布视频在图像维度下的对比帧。接上文所述，针对图像帧集合中的每一图像帧b_*k，可以基于该图像帧b_*k对应的图像特征x_*k和各个已发布视频的图像帧的图像特征进行相似度计算，如可以计算两个图像特征之间的点积，获得目标视频的图像帧与已发布视频的对比帧之间的余弦相似度。如图4中的相似检索部分所示，目标视频h_*中的每一帧图像帧对应的图像特征可以分别与已发布视频的图像特征进行匹配，示例地，已发布视频的图像特征可以表示为：

其中，m用于表示已发布视频的数量，s_m用于表示第m个已发布视频对应的图像帧的数量，

用于表示第m个已发布视频的第s_m个图像帧对应的图像特征。

在步骤22中，针对每一检测帧，根据检测帧与每一对比帧的相似度，从对比帧中确定与检测帧对应的候选帧。

其中，针对一个检测帧，可以将该检测帧与各个对比帧的相似度按照由大到小的顺序进行排序，将排序前P的相似度对应的对比帧，作为该检测帧对应的候选帧，其中P为正整数，其可以根据实际应用场景进行设置，本公开对此不做限定。其中可以根据候选帧进一步确定出该候选帧所属的已发布视频，以及所述候选帧在该已发布视频中的位置。示例地，可以记确定出的与目标视频的第k个图像帧b_*k的图像特征x_*k第p相似的对比帧为视频数据库中第I(k,p)个视频的第J(k,p)帧，则该候选帧可以表示为x_I(k,p)J(k,p)，目标视频在图像维度下对应的候选帧的集合可以表示为

即对应图4中的s组Top P相似帧集。

在步骤23中，对候选帧所属的已发布视频进行去重后所得的各个视频确定为模态维度下对应的候选视频。

由上述可知，针对每一检测帧，其具有对应的P个候选帧，则针对每一检测帧，可以分别确定其对应的P个候选帧所属的已发布视频，则针对每一检测帧，至多可以确定出P个已发布视频。如图4中的图像帧聚合部分所示，目标视频具有s个检测帧，则至多可以确定s*P个已发布视频，需要说明的是，该s*P个已发布视频可能存在重复的视频，则可以对确定出的各个已发布视频进行去重，并将去重后获得的已发布视频确定为候选视频。示例地，记在图像维度下确定出的候选视频为H^x＝{h_i}_i∈Ix，其中，Ix为在图像维度下确定出的候选视频的个数。

同样地，目标视频在音频维度下对应的候选视频可以采用上述同样的方式进行确定，在此不再赘述。示例地，记在音频维度下确定出的候选视频为H^y＝{h_n}_n∈Iy，其中，Iy为在音频维度下确定出的候选视频的个数。

由此，通过上述技术方案，可以针对目标视频的每一模态维度下的维度特征，确定该模态维度下与该目标视频对应的候选视频，通过单个模态维度进行单独分析，以提高目标视频识别的精度，提高搜索获得的候选视频的准确度和范围，保证后续目标视频识别结果的准确性。

在一种可能的实施例中，在步骤13中，确定与候选视频对应的模态维度下、候选视频和目标视频对应的维度匹配度的示例性实现方式如下，该步骤可以包括：

针对所述候选视频对应的每一模态维度，执行以下操作：

获取所述候选视频的对比帧在所述模态维度下的对比特征。

其中，若在一模态维度下将一已发布视频确定为目标视频对应的候选视频，则该模态维度则可以作为该候选视频对应的维度，如候选视频h₁在图像维度下确定为目标视频对应的候选视频，且在音频维度下确定为目标视频对应的候选视频，则可以确定该候选视频h₁对应的模态维度为图像维度和音频维度，候选视频h₄仅在图像维度下确定为目标视频对应的候选视频，则候选视频h₄对应的模态维度为图像维度。

示例地，已发布视频的对比帧在所述模态维度下的对比特征可以在将已发布视频存储至视频数据库中时进行提取并存储，如可以通过上文所述同样的方式对已发布视频的图像帧和音频帧等进行采样处理和特征提取处理，以获得对比特征。以图像维度为例，如候选视频h₁，可以进一步从视频数据库中获得候选视频h₁对应的图像帧集合，以及图像帧集合中每一图像帧的图像特征。

之后，计算所述对比特征与所述目标视频在所述模态维度下的维度特征之间的相似度矩阵。

示例地，目标视频在图像维度下的维度特征可以表示为

接上文所述，X_*(s×128)＝[x_*1,...,x_*s]，第i个候选视频h_i在图像维度下的对比特征可以表示为X_i(si×128)＝[x_i1,...,x_isi]，其中si用于表示第i个候选视频的图像帧集合中的图像帧的数量。由此，可以通过矩阵相乘获取该相似度矩阵，表示如下：

其中，T表示矩阵转置，则

中的(k,j)号元素

即为目标视频h_*的第k帧与第i个候选视频h_i的第j帧的点积，即两者之间的相似度，如图4中的视频图像相似度计算部分所示。

之后，依次遍历所述相似度矩阵中的目标阶子方阵，确定各个所述目标阶子方阵对应的最大迹，并将所述最大迹与所述目标阶的比值确定为所述维度匹配度，其中，所述目标阶为所述候选视频的对比帧的数量和所述目标视频的检测帧的数量中的小者。

示例地，在图像维度下，si用于表示第i个候选视频的图像帧集合中的图像帧的数量，s用于表示目标视频的图像帧集合中的图像帧的数量，则可以将s和si中的小者确定为目标阶，则可以从相似度矩阵中依次遍历各个目标阶子方阵，相似度矩阵可以表示为s×si的矩阵，如图4所示，对应于s小于si的示意图，则可以依次遍历s阶子方阵，则可以确定出每一s阶子方阵的迹(tr)，以确定出各个子方阵对应的最大迹，则可以将最大迹与所述目标阶的比值确定为所述维度匹配度，即通过对图像帧聚合，确定图像维度下的图像匹配度。

示例地，图像维度下的维度匹配度

表示如下：

表示目标视频在图像维度下与第i个候选视频对应的维度匹配度，即图像维度下的各个候选视频与目标视频之间的图像维度匹配度集合为

同样地，可以通过类似的方式确定出音频维度下的各个候选视频与目标视频之间的音频维度匹配度集合，记为

表示目标视频在音频维度下与第n个候选视频对应的维度匹配度。

由此，通过上述技术方案，在确定出多个候选视频后，可以进一步确定在候选视频对应的模态维度下、候选视频和目标视频之间的维度匹配度，以对目标视频与候选视频之间的相似程度，为后续进行视频识别提供可靠的数据主持。

在一种可能的实施例中，所述模态维度还可以包括语音播报文本和/或字幕文本。在字幕文本维度下，可以通过对目标视频在图像维度下获得的检测帧集合的每一检测帧分别进行OCR识别，以获得字幕文本维度下的维度特征。如可以通过对每一图像帧基于OCR(Optical Character Recognition，光学字符识别)算法进行识别，如图5所示，可以确定出每一图像帧对应的文本，之后将该文本按照图像帧的采集顺序进行拼接，将拼接所得的文本确定为字幕文本维度下的维度特征，则字幕文本维度下的维度特征可以表示为

u_*k＝φ(b_*k)，其中φ(*)用于表示OCR识别算法。

相应地，可以通过将目标视频的字幕文本与视频数据库中各个已发布视频的字幕文本进行相似度检索，将相似度由高至低前排序Iu的已发布视频确定为该字幕文本维度下的候选视频。示例地，记在字幕文本维度下确定出的候选视频为H^u＝{h_g}_g∈Iu，其中，Iu为在字幕文本维度下确定出的候选视频的个数。

在语音播报文本维度下，对所述音频维度下的对比帧集合的每一对比帧分别进行ASR识别，以获得语音播报文本维度下的对比特征。如可以通过对目标视频在音频维度下获得的音频帧集合中的每一音频帧基于ASR(Automatic Speech Recognition，自动语音识别)算法进行识别，如可以采用CTC算法。对于一般的ASR算法而言，相邻音频帧之间存在上下文关系，因此ASR算法执行时可以将目标视频的音频帧集合一次输入以得到全部的文本，以获得语音播报文本维度下的维度特征，则语音播报文本维度下的维度特征可以表示为

其中

用于表示ASR识别算法。如语音播报文本对应于短视频中的主播口播文案、旁白等的文本特征。

同样地，可以通过将目标视频的语音播报文本与视频数据库中各个已发布视频的语音播报文本进行相似度检索，将相似度由高至低前排序Iv的已发布视频确定为该语音播报文本维度下的候选视频。示例地，记在语音播报文本维度下确定出的候选视频为H^v＝{h_f}_f∈Iv，其中，Iv为在语音播报文本维度下确定出的候选视频的个数。

相应地，在所述模态维度包括语音播报文本和/或字幕文本的情况下，所述确定与所述候选视频对应的模态维度下、所述候选视频和所述目标视频对应的维度匹配度的示例性实现方案如下，该步骤可以包括：

计算所述模态维度下的所述候选视频的文本和所述目标视频的文本之间的最短编辑距离。

其中，针对每一已发布视频，其在存储至视频数据库中后，可以同时提取该已发布视频对应的文本进行存储，从而在将其确定为候选视频后，可以直接获得其对应的文本，提高目标视频的对比效率。其中，在获得文本后，计算最短编辑距离的方式可以采用本领域常用的算法进行计算，本公开对此不进行限定。

之后，将所述最短编辑距离与所述目标视频的文本的文本长度之间的小者、和所述文本长度之间的比值确定为文本差异度，并将以一减去所述文本差异度所得数值确定为所述维度匹配度。

示例地，以字幕文本为例，可以通过如下公式确定出该字幕文本维度下的维度匹配度

其中，f(U_*,U_g)表示目标视频的字幕文本U_*和在字幕文本维度下和第g个候选视频的字幕文本U_g之间的最短编辑距离；

l(U_*)用于表示目标视频的字幕文本U_*的文本长度。相应地，字幕文本维度下的各个候选视频与目标视频之间的字幕文本维度匹配度集合为

表示目标视频在字幕文本维度下与第g个候选视频对应的维度匹配度。

同样地，针对语音播报文本维度下的维度匹配度可以以上述与字幕文本维度下同样的方式进行计算，在此不再赘述。相应地，语音播报文本维度下的各个候选视频与目标视频之间的语音播报文本维度匹配度集合为

表示目标视频在语音播报文本维度下与第f个候选视频对应的维度匹配度。

由此，通过上述技术方案，可以对目标视频中的文本特征进行提取，并确定文本对应的模态维度下各个候选视频与目标视频之间的维度匹配度，从而可以在文本特征的角度对目标视频进行识别，进一步提高目标视频识别对应的特征全面性，可以在一定程度上识别出语音与文本相似的视频。

在一种可能的实施例中，在步骤14中根据模态维度下候选视频对应的维度匹配度和模态维度对应的权重，确定候选视频与目标视频之间的综合匹配度的示例性实现方式如下，该步骤可以包括：

根据每一所述模态维度对应的权重对所述候选视频在所述模态维度下的对应的维度匹配度进行加权求和，获得所述综合匹配度，其中，所述多个模态维度对应的权重之和为1，在加权求和时若所述候选视频在一模态维度下对应的维度匹配度的值为空，则确定所述候选视频在该模态维度下对应的维度匹配度为0。

其中，可以预先设置多个模态维度分别对应的权重，示例地，模态维度可以包括图像维度、音频维度、字幕文本维度和语音播报文本维度，其分别对应的权重依次表示为ω_x、ω_y、ω_u、ω_v，其分别获得的候选视频可以依次表示为H^x、H^y、H^u、H^v，则目标视频对应的候选视频的总集合可以表示为H^m，即H^x、H^y、H^u、H^v的并集。则针对每一所述候选视频，其对应的综合匹配度

可以表示如下：

其中，e∈Im，Im用于表示候选视频的总集合H^m中的视频的总数量，即针对每一候选视频，可以将其在各个模态维度下与目标视频之间的维度匹配度的加权和确定为该候选视频与目标视频之间的综合匹配度。如上文所述示例，视频h₄为音频维度下未被确定为目标视频对应的候选视频，则可以将h₄在音频维度下对应的维度匹配度的值为空，则可以进一步确定视频h₄在该音频维度下对应的维度匹配度为0，从而进行加权求和计算。

由此，通过上述技术方案，针对确定出的目标视频对应的每一候选视频，可以针对该候选视频在各个模态维度下与该目标视频之间的维度匹配度，对两者的相似程度进行综合计算，提高目标视频与候选视频之间的综合匹配度的准确性，实现对目标视频的准确识别，节省人工识别工作量，提升视频识别效率。

如，对于视频搬运类的相似视频，如可以通过对已发布视频进行边框添加和文案显示位置更换等进行处理，从而获得新的视频。在本公开中可以通过图像、音频、字幕文本和语音播报文本等多个模态进行识别，如图6A和图6B所示，图6A为目标视频中的图像帧，图6B为候选视频中的图像帧，在对两个视频进行匹配的过程中，由于图像背景的差异，如确定出的图像维度下的维度匹配度为0.629，音频维度下的维度匹配度为0.911，字幕文本度下的维度匹配度为0.874，语音播报文本维度下的维度匹配度为0.980。示例地，相似阈值设置为0.8，即该处理状态下可能出现对视频中的图像内容的识别度偏低而确定两个视频不相似的问题，通过本公开提供的技术方案，可以从多个模态维度下分别进行识别，若四个模态维度的权重相同，则可以确定出综合匹配度为0.8485，从而保证最终识别结果的准确性，则可以将图6A确定与图6B对应的视频相似，即新的视频确定为与已发布视频相似的视频，实现准确识别。

其中，需要进行说明的是，模态维度对应的权重可以设置为0，则在进行目标视频识别的过程中可以无需对该模态维度下的特征进行识别参考，如识别文案搬运类的视频时，可以设置ω_x＝ω_y＝0，ω_u＝ω_v＝0.5。由此，可以进一步提升视频识别算法的应用场景范围，实现对视频的有效识别。

在一种可能的实施例中，所述视频数据库中存储有多个已发布视频在多个候选维度下的对比特征，所述候选维度包括音频、图像、语音播报文本和字幕文本；所述对比特征通过如下方式确定：

获取所述已发布视频对应的图像分量和音频分量；

对所述图像分量进行抽帧采样处理，获得图像维度下的对比帧集合，并对所述图像维度下的对比帧集合的每一对比帧分别进行图像特征提取，以获得所述图像维度下的对比特征；

对所述图像维度下的对比帧集合的每一对比帧分别进行OCR识别，以获得字幕文本维度下的对比特征。

示例地，可以确定已发布视频集合中的各个已发布视频的图像分量，如图7中虚线链路所示，则可以根据图像分量进行处理获得图像帧信息，进而通过对应的算法处理，获得图像维度下的对比特征，即各个已发布视频的图像特征所形成的图像特征集合，以及字幕文本维度下的对比特征，即各个已发布视频的字幕文本特征所形成的字幕文本特征集合。

对所述音频分量进行分帧采样处理，获得音频维度下的对比帧集合，并对所述音频维度下的对比帧集合的每一对比帧分别进行音频特征提取，以获得所述音频维度下的对比特征；

对所述音频维度下的对比帧集合的每一对比帧分别进行ASR识别，以获得语音播报文本维度下的对比特征。

同样地，可以确定已发布视频集合中的各个已发布视频的音频分量，如图7中虚线链路所示，则可以根据音频分量进行处理获得音频帧信息，进而通过对应的算法处理，获得音频维度下的对比特征，即各个已发布视频的音频特征所形成的音频特征集合，以及语音播报文本维度下的对比特征，即各个已发布视频的语音播报文本特征所形成的语音播报文本特征集合。

其中，针对每一模态维度下的特征提取方式与上文所述对目标视频的特征提取方式相同，在此不再赘述。

在创建视频数据库中，针对图像维度和音频维度下的对比特征，可以通过HNSW(Hierarchical Navigable Small World graphs)算法对对比特征进行检索库的构建。针对字幕文本维度和语音播报文本维度下的对比特征，可以采用ES(Elastic Search)进行检索库的构建，以便于实现特征的快速检索匹配，如图7中所示，可以分别构建获得图像维度对应的图像特征库、字幕文本维度对应的字幕文本特征库、音频维度对应的音频特征库、和语音播报文本维度对应的语音播报文本特征库，以便于对目标视频进行检索。

其中图7中实线对应的链路为对目标视频进行检索时的处理流程，其对应的具体流程已在上文进行详述，在此不再赘述。

通过上述技术方案，可以在将已发布视频存储在视频数据库中的同时，将各个已发布视频在各个模态维度下的对比特征进行提取并存储，即无需对已发布视频重复的特征提取，又可以实现已发布视频的快速检索和匹配，进一步提高视频识别的效率。

本公开还提供一种视频识别装置，如图8所示，所述视频识别装置10包括：

提取模块100，用于对待识别的目标视频进行特征提取，获得所述目标视频在多个模态维度下的维度特征；

检索模块200，用于针对每一所述模态维度，基于所述模态维度下的维度特征在视频数据库中检索，确定所述目标视频在所述模态维度下对应的候选视频；其中，所述视频数据库中存储有多个已发布视频；

第一确定模块300，用于针对每一所述候选视频，确定与所述候选视频对应的模态维度下、所述候选视频和所述目标视频对应的维度匹配度；

第二确定模块400，用于针对每一所述候选视频，根据所述模态维度下所述候选视频对应的维度匹配度和所述模态维度对应的权重，确定所述候选视频与所述目标视频之间的综合匹配度；

识别模块500，用于若存在综合匹配度大于或等于预设的匹配度阈值的候选视频，则将该候选视频确定为所述目标视频对应的已发布视频。

可选地，在所述模态维度包括音频和/或图像的情况下，所述提取模块包括：

第一获取子模块，用于获取所述目标视频在所述模态维度下的视频分量；

采样子模块，用于对所述视频分量进行采样处理，获得所述目标视频在所述模态维度下的检测帧集合；

提取子模块，用于对所述检测帧集合中的每一检测帧分别进行特征提取，以获得所述模态维度下的所述维度特征。

可选地，所述检索模块包括：

第一确定子模块，用于针对所述模态维度下的每一检测帧，确定所述检测帧与各个所述已发布视频的对比帧的相似度；

第二确定子模块，用于针对每一所述检测帧，根据所述检测帧与每一所述对比帧的相似度，从所述对比帧中确定与所述检测帧对应的候选帧；

处理子模块，用于对所述候选帧所属的已发布视频进行去重后所得的各个视频确定为模态维度下对应的所述候选视频。

可选地，所述第一确定模块包括：

第二获取子模块，用于针对所述候选视频对应的每一模态维度，获取所述候选视频的对比帧在所述模态维度下的对比特征；

第一计算子模块，用于计算所述对比特征与所述目标视频在所述模态维度下的维度特征之间的相似度矩阵；

第三确定子模块，用于依次遍历所述相似度矩阵中的目标阶子方阵，确定各个所述目标阶子方阵对应的最大迹，并将所述最大迹与所述目标阶的比值确定为所述维度匹配度，其中，所述目标阶为所述候选视频的对比帧的数量和所述目标视频的检测帧的数量中的小者。

可选地，在所述模态维度包括语音播报文本和/或字幕文本的情况下，所述第一确定模块包括：

第二计算子模块，用于计算所述模态维度下的所述候选视频的文本和所述目标视频的文本之间的最短编辑距离；

第四确定子模块，用于将所述最短编辑距离与所述目标视频的文本的文本长度之间的小者、和所述文本长度之间的比值确定为文本差异度，并将以一减去所述文本差异度所得数值确定为所述维度匹配度。

可选地，所述视频数据库中存储有多个已发布视频在多个候选维度下的对比特征，所述候选维度包括音频、图像、语音播报文本和字幕文本；所述对比特征通过如下方式确定：

获取所述已发布视频对应的图像分量和音频分量；

对所述图像维度下的对比帧集合的每一对比帧分别进行光学字符识别，以获得字幕文本维度下的对比特征；

对所述音频维度下的对比帧集合的每一对比帧分别进行自动语音识别，以获得语音播报文本维度下的对比特征。

可选地，所述第二确定模块用于：

下面参考图9，其示出了适于用来实现本公开实施例的电子设备600的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图9示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示，电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

通常，以下装置可以连接至I/O接口605：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置608；以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图9示出了具有各种装置的电子设备600，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从ROM 602被安装。在该计算机程序被处理装置601执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：对待识别的目标视频进行特征提取，获得所述目标视频在多个模态维度下的维度特征；针对每一所述模态维度，基于所述模态维度下的维度特征在视频数据库中检索，确定所述目标视频在所述模态维度下对应的候选视频；其中，所述视频数据库中存储有多个已发布视频；针对每一所述候选视频，确定与所述候选视频对应的模态维度下、所述候选视频和所述目标视频对应的维度匹配度；针对每一所述候选视频，根据所述模态维度下所述候选视频对应的维度匹配度和所述模态维度对应的权重，确定所述候选视频与所述目标视频之间的综合匹配度；若存在综合匹配度大于或等于预设的匹配度阈值的候选视频，则将该候选视频确定为所述目标视频对应的已发布视频。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，提取模块还可以被描述为“对待识别的目标视频进行特征提取，获得所述目标视频在多个模态维度下的维度特征的模块”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，示例1提供了一种视频识别方法，其中，所述方法包括：对待识别的目标视频进行特征提取，获得所述目标视频在多个模态维度下的维度特征；针对每一所述模态维度，基于所述模态维度下的维度特征在视频数据库中检索，确定所述目标视频在所述模态维度下对应的候选视频；其中，所述视频数据库中存储有多个已发布视频；针对每一所述候选视频，确定与所述候选视频对应的模态维度下、所述候选视频和所述目标视频对应的维度匹配度；针对每一所述候选视频，根据所述模态维度下所述候选视频对应的维度匹配度和所述模态维度对应的权重，确定所述候选视频与所述目标视频之间的综合匹配度；若存在综合匹配度大于或等于预设的匹配度阈值的候选视频，则将该候选视频确定为所述目标视频对应的已发布视频。

根据本公开的一个或多个实施例，示例2提供了示例1的方法，其中，在所述模态维度包括音频和/或图像的情况下，所述对待识别的目标视频进行特征提取，获得所述目标视频在多个模态维度下的维度特征，包括：获取所述目标视频在所述模态维度下的视频分量；对所述视频分量进行采样处理，获得所述目标视频在所述模态维度下的检测帧集合；对所述检测帧集合中的每一检测帧分别进行特征提取，以获得所述模态维度下的所述维度特征。

根据本公开的一个或多个实施例，示例3提供了示例2的方法，其中，所述基于所述模态维度下的维度特征在视频数据库中检索，确定所述目标视频在所述模态维度下对应的候选视频，包括：针对所述模态维度下的每一检测帧，确定所述检测帧与各个所述已发布视频的对比帧的相似度；针对每一所述检测帧，根据所述检测帧与每一所述对比帧的相似度，从所述对比帧中确定与所述检测帧对应的候选帧；对所述候选帧所属的已发布视频进行去重后所得的各个视频确定为模态维度下对应的所述候选视频。

根据本公开的一个或多个实施例，示例4提供了示例2的方法，其中，所述确定与所述候选视频对应的模态维度下、所述候选视频和所述目标视频对应的维度匹配度，包括：针对所述候选视频对应的每一模态维度，执行以下操作：获取所述候选视频的对比帧在所述模态维度下的对比特征；计算所述对比特征与所述目标视频在所述模态维度下的维度特征之间的相似度矩阵；依次遍历所述相似度矩阵中的目标阶子方阵，确定各个所述目标阶子方阵对应的最大迹，并将所述最大迹与所述目标阶的比值确定为所述维度匹配度，其中，所述目标阶为所述候选视频的对比帧的数量和所述目标视频的检测帧的数量中的小者。

根据本公开的一个或多个实施例，示例5提供了示例1的方法，其中，在所述模态维度包括语音播报文本和/或字幕文本的情况下，所述确定与所述候选视频对应的模态维度下、所述候选视频和所述目标视频对应的维度匹配度，包括：计算所述模态维度下的所述候选视频的文本和所述目标视频的文本之间的最短编辑距离；将所述最短编辑距离与所述目标视频的文本的文本长度之间的小者、和所述文本长度之间的比值确定为文本差异度，并将以一减去所述文本差异度所得数值确定为所述维度匹配度。

根据本公开的一个或多个实施例，示例6提供了示例1的方法，其中，所述视频数据库中存储有多个已发布视频在多个候选维度下的对比特征，所述候选维度包括音频、图像、语音播报文本和字幕文本；所述对比特征通过如下方式确定：获取所述已发布视频对应的图像分量和音频分量；对所述图像分量进行抽帧采样处理，获得图像维度下的对比帧集合，并对所述图像维度下的对比帧集合的每一对比帧分别进行图像特征提取，以获得所述图像维度下的对比特征；对所述图像维度下的对比帧集合的每一对比帧分别进行光学字符识别，以获得字幕文本维度下的对比特征；对所述音频分量进行分帧采样处理，获得音频维度下的对比帧集合，并对所述音频维度下的对比帧集合的每一对比帧分别进行音频特征提取，以获得所述音频维度下的对比特征；对所述音频维度下的对比帧集合的每一对比帧分别进行自动语音识别，以获得语音播报文本维度下的对比特征。

根据本公开的一个或多个实施例，示例7提供了示例1的方法，其中，所述根据所述模态维度下所述候选视频对应的维度匹配度和所述模态维度对应的权重，确定所述候选视频与所述目标视频之间的综合匹配度，包括：根据每一所述模态维度对应的权重对所述候选视频在所述模态维度下的对应的维度匹配度进行加权求和，获得所述综合匹配度，其中，所述多个模态维度对应的权重之和为1。

根据本公开的一个或多个实施例，示例8提供了一种视频识别装置，所述装置包括：提取模块，用于对待识别的目标视频进行特征提取，获得所述目标视频在多个模态维度下的维度特征；检索模块，用于针对每一所述模态维度，基于所述模态维度下的维度特征在视频数据库中检索，确定所述目标视频在所述模态维度下对应的候选视频；其中，所述视频数据库中存储有多个已发布视频；第一确定模块，用于针对每一所述候选视频，确定与所述候选视频对应的模态维度下、所述候选视频和所述目标视频对应的维度匹配度；第二确定模块，用于针对每一所述候选视频，根据所述模态维度下所述候选视频对应的维度匹配度和所述模态维度对应的权重，确定所述候选视频与所述目标视频之间的综合匹配度；识别模块，用于若存在综合匹配度大于或等于预设的匹配度阈值的候选视频，则将该候选视频确定为所述目标视频对应的已发布视频。

根据本公开的一个或多个实施例，示例9提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理装置执行时实现示例1-7中任一项所述方法的步骤。

根据本公开的一个或多个实施例，示例10提供了一种电子设备，包括：存储装置，其上存储有计算机程序；处理装置，用于执行所述存储装置中的所述计算机程序，以实现示例1-7中任一项所述方法的步骤。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

Claims

1.一种视频识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述模态维度包括音频和/或图像的情况下，所述对待识别的目标视频进行特征提取，获得所述目标视频在多个模态维度下的维度特征，包括：

获取所述目标视频在所述模态维度下的视频分量；

对所述视频分量进行采样处理，获得所述目标视频在所述模态维度下的检测帧集合；

对所述检测帧集合中的每一检测帧分别进行特征提取，以获得所述模态维度下的所述维度特征。

3.根据权利要求2所述的方法，其特征在于，所述基于所述模态维度下的维度特征在视频数据库中检索，确定所述目标视频在所述模态维度下对应的候选视频，包括：

针对所述模态维度下的每一检测帧，确定所述检测帧与各个所述已发布视频的对比帧的相似度；

针对每一所述检测帧，根据所述检测帧与每一所述对比帧的相似度，从所述对比帧中确定与所述检测帧对应的候选帧；

对所述候选帧所属的已发布视频进行去重后所得的各个视频确定为模态维度下对应的所述候选视频。

4.根据权利要求2所述的方法，其特征在于，所述确定与所述候选视频对应的模态维度下、所述候选视频和所述目标视频对应的维度匹配度，包括：

针对所述候选视频对应的每一模态维度，执行以下操作：

获取所述候选视频的对比帧在所述模态维度下的对比特征；

计算所述对比特征与所述目标视频在所述模态维度下的维度特征之间的相似度矩阵；

依次遍历所述相似度矩阵中的目标阶子方阵，确定各个所述目标阶子方阵对应的最大迹，并将所述最大迹与所述目标阶的比值确定为所述维度匹配度，其中，所述目标阶为所述候选视频的对比帧的数量和所述目标视频的检测帧的数量中的小者。

5.根据权利要求1所述的方法，其特征在于，在所述模态维度包括语音播报文本和/或字幕文本的情况下，所述确定与所述候选视频对应的模态维度下、所述候选视频和所述目标视频对应的维度匹配度，包括：

计算所述模态维度下的所述候选视频的文本和所述目标视频的文本之间的最短编辑距离；

将所述最短编辑距离与所述目标视频的文本的文本长度之间的小者、和所述文本长度之间的比值确定为文本差异度，并将以一减去所述文本差异度所得数值确定为所述维度匹配度。

6.根据权利要求1所述的方法，其特征在于，所述视频数据库中存储有多个已发布视频在多个候选维度下的对比特征，所述候选维度包括音频、图像、语音播报文本和字幕文本；所述对比特征通过如下方式确定：

获取所述已发布视频对应的图像分量和音频分量；

7.根据权利要求1所述的方法，其特征在于，所述根据所述模态维度下所述候选视频对应的维度匹配度和所述模态维度对应的权重，确定所述候选视频与所述目标视频之间的综合匹配度，包括：

根据每一所述模态维度对应的权重对所述候选视频在所述模态维度下的对应的维度匹配度进行加权求和，获得所述综合匹配度，其中，所述多个模态维度对应的权重之和为1。

8.一种视频识别装置，其特征在于，所述装置包括：

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现权利要求1-7中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行所述存储装置中的所述计算机程序，以实现权利要求1-7中任一项所述方法的步骤。