CN113343922B

CN113343922B - 视频识别方法、装置、电子设备及存储介质

Info

Publication number: CN113343922B
Application number: CN202110745077.1A
Authority: CN
Inventors: 周侃
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2024-04-19
Anticipated expiration: 2041-06-30
Also published as: CN113343922A

Abstract

本公开公开了一种视频识别方法、装置、电子设备及存储介质，属于视频识别技术领域。该视频识别方法包括：获取待识别视频在至少两种模态下的向量特征；基于至少两种模态下的向量特征，获取待识别视频在每一模态下的目标向量特征，其中，目标向量特征为由至少一个维度上的向量特征生成；基于至少两种模态下的目标向量特征，生成待识别视频的语义信息；确定与待识别视频的语义信息对应的视频识别结果，其中，视频识别结果用于指示待识别视频是否为低观感视频。采用本公开提供的视频识别方法、装置、电子设备及存储介质，至少解决现有视频识别过程中存在效率低的问题。

Description

视频识别方法、装置、电子设备及存储介质

技术领域

本公开涉及视频识别技术领域，具体涉及一种视频识别方法、装置、电子设备及存储介质。

背景技术

随着互联网和无线通信技术的飞速发展，人们之间进行信息共享的方式越来越丰富。视频分享作为一种新兴的信息分享功能，可以实现用户通过拍摄的短视频(如时长为一分钟以内的视频等)向他人展现自己生活的点点滴滴，提升用户分享信息的便捷性及趣味性。

目前，伴随着短视频分享的迅速推广，人们拍摄并传播的短视频也越来越多，需要对每一视频的视频类型进行分类，以便于对视频的管理，例如，可以将存在违法、违背社会公德或者低俗等内容的视频归类为低观感视频，以便防止低观感视频的传播。但是，目前对于视频所属的视频类型的识别通常是由人工进行标注，工作强度大，从而导致视频识别的效率低下。可见，目前的视频识别过程中存在效率低的问题。

发明内容

本公开实施例的目的是提供一种视频识别方法、装置、电子设备及存储介质，以解决目前的视频识别过程中存在效率低的问题。

本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频识别方法，方法包括：

获取待识别视频在至少两种模态下的向量特征；

基于所述至少两种模态下的向量特征，获取所述待识别视频在每一模态下的目标向量特征，其中，所述目标向量特征为由至少一个维度上的向量特征生成；

基于所述至少两种模态下的目标向量特征，生成所述待识别视频的语义信息；

确定与所述待识别视频的语义信息对应的视频识别结果，其中，所述视频识别结果用于指示所述待识别视频是否为低观感视频。

在其中一个实施例中，所述基于所述至少两种模态下的向量特征，获取所述待识别视频在每一模态下的目标向量特征，包括：

获取第一模态在至少一个维度上的向量特征，其中，所述第一模态为所述至少两种模态下的任一种模态；

对所述第一模态在至少一个维度上的向量特征进行全连接处理，得到第一全连接向量；

通过注意力机制对所述第一全连接向量进行处理，得到所述待识别视频在所述第一模态下的目标向量特征。

在其中一个实施例中，所述通过注意力机制对第一全连接向量进行处理，得到所述待识别视频在所述第一模态下的目标向量特征，包括：

获取所述第一全连接向量和第二全连接向量，其中，所述第二全连接向量为第二模态下的向量特征，所述第二模态为所述至少两种模态下除所述第一模态之外的任一种模态；

通过自注意力机制对所述第一全连接向量进行处理，得到第一注意力向量；

通过双向注意力机制对所述第一全连接向量和所述第二全连接向量进行处理，得到第二注意力向量；

基于所述第一注意力向量和所述第二注意力向量，得到所述待识别视频在所述第一模态下的目标向量特征。

在其中一个实施例中，所述基于所述第一注意力向量和所述第二注意力向量，得到所述待识别视频在所述第一模态下的目标向量特征，包括：

将所述第一注意力向量与所述第二注意力向量相加，并将相加得到的向量与所述第一全连接向量相乘，得到待池化向量；

对所述待池化向量进行池化处理，得到所述待识别视频在所述第一模态下的目标向量特征。

在其中一个实施例中，所述基于所述至少两种模态下的目标向量特征，生成所述待识别视频的语义信息，包括：

将所述至少两种模态下的目标向量特征输入至自然语言模型中，得到所述待识别视频的语义信息。

在其中一个实施例中，所述将所述至少两种模态下的目标向量特征输入至自然语言模型中，得到所述待识别视频的语义信息，包括：

对所述至少两种模态下的目标向量特征进行融合处理，得到所述待识别视频的融合向量；

将所述融合向量分割成至少两个向量块；

将所述至少两个向量块输入至自然语言模型中，得到所述待识别视频的语义信息。

根据本公开实施例的第二方面，提供一种视频的识别装置，包括：

向量特征获取模块，被配置为获取待识别视频在至少两种模态下的向量特征；

目标向量特征获取模块，被配置为基于所述至少两种模态下的向量特征，获取所述待识别视频在每一模态下的目标向量特征，其中，所述目标向量特征为由至少一个维度上的向量特征生成；

语义信息生成模块，被配置为基于所述至少两种模态下的目标向量特征，生成所述待识别视频的语义信息；

识别结果确定模块，被配置为确定与所述待识别视频的语义信息对应的视频识别结果，其中，所述视频识别结果用于指示所述待识别视频是否为低观感视频。

在其中一个实施例中，所述目标向量特征获取模块，包括：

向量特征获取子模块，被配置为获取第一模态在至少一个维度上的向量特征，其中，所述第一模态为所述至少两种模态下的任一种模态；

全连接处理子模块，被配置为对所述第一模态在至少一个维度上的向量特征进行全连接处理，得到第一全连接向量；

向量特征融合子模块，被配置为通过注意力机制对所述第一全连接向量进行处理，得到所述待识别视频在所述第一模态下的目标向量特征。

在其中一个实施例中，所述向量特征融合子模块，包括：

全连接向量获取单元，被配置为获取所述第一全连接向量和第二全连接向量，其中，所述第二全连接向量为第二模态下的向量特征，所述第二模态为所述至少两种模态下除所述第一模态之外的任一种模态；

第一向量处理单元，被配置为通过自注意力机制对所述第一全连接向量进行处理，得到第一注意力向量；

第二向量处理单元，被配置为通过双向注意力机制对所述第一全连接向量和所述第二全连接向量进行处理，得到第二注意力向量；

向量特征融合单元，被配置为基于所述第一注意力向量和所述第二注意力向量，得到所述待识别视频在所述第一模态下的目标向量特征。

在其中一个实施例中，所述向量特征融合单元，包括：

计算子单元，被配置为将所述第一注意力向量与所述第二注意力向量相加，并将相加得到的向量与所述第一全连接向量相乘，得到待池化向量；

池化处理子单元，被配置为对所述待池化向量进行池化处理，得到所述待识别视频在所述第一模态下的目标向量特征。

在其中一个实施例中，所述语义信息生成模块，具体被配置为：

将所述至少两种模态下的待融合向量特征输入至自然语言模型中，得到所述待识别视频的语义信息。

在其中一个实施例中，所述语义信息生成模块，包括：

融合处理子模块，被配置为对所述至少两种模态下的目标向量特征进行融合处理，得到所述待识别视频的融合向量；

向量分割子模块，被配置为将所述融合向量分割成至少两个向量块；

语音信息生成子模块，被配置为将所述至少两个向量块输入至自然语言模型中，得到所述待识别视频的语义信息。

根据本公开实施例的第三方面，提供一种电子设备，该电子设备可以包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如第一方面的任一项实施例中所示的视频识别方法。

根据本公开实施例的第四方面，提供一种计算机存储介质，当计算机存储介质中的指令由视频识别装置或者电子设备的处理器执行时，以使视频识别装置或者电子设备实现以实现如第一方面的任一项实施例中所示的视频识别方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，该计算机程序产品包括计算机程序或者指令，该计算机程序或者指令被处理器执行时实现第一方面的任一项实施例中所示的视频识别方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过待识别视频在至少两种模态下的向量特征生成待识别视频的语义信息，并根据生成的语义信息识别待识别视频的视频识别结果，以实现识别待识别视频是否为低观感视频。如此，通过本公开实施例的视频识别方法，在视频的识别过程中，可以在无需人工标注的情况下实现视频所属视频类型的判定，降低视频识别的工作量，从而提升视频识别的效率；另外，可以结合待识别视频在至少两种模态下的向量特征进行视频识别，从而提升视频识别的准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限值本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频识别方法的流程图；

图2是根据一示例性实施例示出的预融合向量模型处理过程的示意图；

图3是根据一示例性实施例示出的自然语言模型处理过程的示意图；

图4是根据一示例性实施例示出的一种视频识别装置的结构框图；

图5是根据一示例性实施例示出的一种计算设备的结构框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

请参见图1，是根据一示例性实施例示出的一种视频识别方法的流程图，该方法应用于电子设备，例如计算机终端或电子设备，为方便理解，本方案以电子设备为例进行说明。如图1所示，该视频识别方法具体可以包括如下步骤101至104。

步骤101、获取待识别视频在至少两种模态下的向量特征；

步骤102、基于至少两种模态下的向量特征，获取待识别视频在每一模态下的目标向量特征，其中，目标向量特征为由至少一个维度上的向量特征生成；

步骤103、基于至少两种模态下的目标向量特征，生成待识别视频的语义信息；

步骤104、确定与待识别视频的语义信息对应的视频识别结果，其中，视频识别结果用于指示待识别视频是否为低观感视频。

基于此，通过待识别视频在至少两种模态下的向量特征生成待识别视频的语义信息，并根据生成的语义信息识别待识别视频的视频识别结果，以实现识别待识别视频是否为低观感视频。如此，通过本公开实施例的视频识别方法，在视频的识别过程中，可以在无需人工标注的情况下实现视频所属视频类型的判定，降低视频识别的工作量，从而提升视频识别的效率；另外，可以结合待识别视频在至少两种模态下的向量特征进行视频识别，从而提升视频识别的准确度。

下面对上述步骤进行详细说明，具体如下所示。

在上述步骤101中，上述获取待识别视频在至少两种模态下的向量特征，可以是电子设备在接收到用户设备上传的视频之后，将接收到的视频作为上述待识别视频，并获取待识别视频在至少两种模态下的向量特征。

其中，上述至少两种模态可以是视频的任意两种或者两种以上的模态，可以文本、图像以及语音等模态中的至少两项。

另外，上述获取待识别视频在至少两种模态下的向量特征，可以是电子设备获取上述至少两种模态中每一模态下的模态特征，并将模态特征输入至预设的向量特征转化模型，通过向量特征转化模型将模态特征转化为向量，从而将转化得到的向量作为每一模态的向量特征。

例如，在上述至少两种模态包括文本模态、图片模态和语音模态的情况下，可以是通过文本向量转化模型将待识别视频的文本特征转化为向量，作为上述待识别视频的文本模态的向量特征，该文本向量转化模型可以为包括长短期记忆网络(Long Short-TermMemory，LSTM)的特征提取器等；通过图片向量转换模型将待识别视频的图片特征转化为向量，作为上述待识别视频的图片模态的向量特征，该图片向量转换模型可以为包括大迁移网络(Big Transfer，BiT)的特征提取器等；通过语音向量转换模型将待识别视频的语音特征转化为向量，作为上述待识别视频的语音模态的向量特征，该语音向量转换模型可以为VGGish特征提取器等。

需要说明的是，由于待识别视频的文本可以包括至少一种文本类型的文本，该至少一种文本类型可以包括评论、标题以及字幕等中的至少一项。那么，上述文本模态下的向量特征可以包括至少一个维度上的向量特征，此时不同维度上的向量特征为由不同文本类型的文本转换得到的向量特征。例如，文本类型包括评论、标题，则文本模态下的向量特征可以包括评论维度、标题维度上的向量特征。又例如，文本类型包括评论，则文本模态下的向量特征可以包括评论维度上的向量特征。再例如，文本类型包括标题、字幕，则文本模态下的向量特征可以包括标题维度、字幕维度上的向量特征。

同样地，由于待识别视频可以包括至少一张图片(即视频帧)，那么，上述图片模态下的向量特征也可以包括至少一个维度上的向量特征，此时不同维度上的向量特征为由不同图片转换得到的向量特征；由于待识别视频可以不同时间段的至少一个音频，那么，上述音频模态下的向量特征也可以包括至少一个维度上的向量特征，此时不同维度上的向量特征为由不同时段的音频转换得到的向量特征。

例如，如图2所示，在待识别视频的文本模态中，若待识别视频的文本包括评论、标题以及字幕等维度上的文本，则待识别视频在文本模态下的向量特征可以包括三个维度的向量特征，该三个维度的向量特征包括评论的向量特征、标题的向量特征以及字幕的向量特征等；又例如，在待识别视频的图像模态中，待识别视频在图片模态下的向量特征可以包括m(m为大于2的整数)个维度的向量特征，且该m个维度的向量特征为待识别视频中m帧图像的向量特征，每个维度的向量对应一帧图像；又例如，在待识别视频的音频模态中，待识别视频在音频模态下的向量特征可以包括k(k为大于2的整数)个维度的向量特征，该k个维度的特征向量为待识别视频中k段音频的向量特征，每个维度的向量对应一段音频，且不同段音频是待识别视频中不同的部分时间内的音频，等等。

在上述步骤102中，电子设备在获取到上述待识别视频在至少两种模态下的向量特征的情况下，可以基于上述至少两种模态下的向量特征，获取待识别视频在每一模态下的目标向量特征。

本公开实施例中，上述基于至少两种模态下的向量特征，获取待识别视频在每一模态下的目标向量特征，可以是在该模态下的向量特征为一个维度上的向量特征的情况下，将该一个维度上的向量特征作为上述目标向量特征；或者，还可以是在该模态下的特征向量包括多个维度上的向量特征的情况下，将多个维度的向量特征输入至预设的预融合模型，通过预融合模型对多个维度上的向量特征进行预融合处理，实现将至少一个维度的向量特征融合为一个目标向量特征。

其中，上述预融合向量模型可以是任何能够实现对多个维度的向量特征进行预融合处理，以将多个维度的向量特征融合为一个向量的模型。例如，上述预融合向量模型可以是卷积神经网络模型。

另外，上述将多个维度的向量特征融合为目标向量特征，可以是将多个维度的向量特征输入至预融合向量模型，预融合向量模型对多个维度的向量特征进行全连接以及池化等处理，预融合向量模型输出的向量作为该多个维度的向量特征的目标向量特征。

例如，在电子设备获取到待识别视频的文本模态的向量特征，且该文本模态的向量特征包括评论的向量特征、标题的向量特征以及字幕的向量特征，电子设备可以将评论的向量特征、标题的向量特征以及字幕的向量特征输入至卷积神经网络模型中，在卷积神经网络模型中经过全连接以及池化等处理，卷积神经网络模型输出的向量特征作为文本模态下的目标向量特征。

当然，为提升多个维度上的向量特征的关联性，并合理配置融合过程中每一维度的向量特征的权重，在此可以在预融合向量模型中引入注意力机制，具体地，上述基于至少两种模态下的向量特征，获取待识别视频在每一模态下的目标向量特征，包括：

获取第一模态在至少一个维度上的向量特征，其中，第一模态为至少两种模态下的任一种模态；

对第一模态在至少一个维度上的向量特征进行全连接处理，得到第一全连接向量；

通过注意力机制对第一全连接向量进行处理，得到待识别视频在第一模态下的目标向量特征。

基于此，通过在对至少一个维度上的向量特征进行预融合处理的过程中引入注意力机制，可以提升至少一个维度上的向量特征的关联性，并合理配置预融合处理过程中每一维度的向量特征的权重，从而使融合后的目标向量特征更准确，进而提升视频识别的准确性。

本公开实施例中，电子设备在对第一模态在至少一个维度上的向量特征进行全连接处理得到第一全连接向量之后，通过注意力机制对第一全连接向量进行处理，得到第一模态下的目标向量特征，可以是电子设备通过注意力机制计算得到第一全连接向量的注意力向量，根据第一全连接向量和注意力向量生成新的全连接向量，并将生成的全连接向量经过池化处理后得到上述目标向量特征。

需要说明的是，上述在对每一模态下的至少一个维度的向量特征进行预融合处理的过程中，可以是在该模态下的向量特征中引入注意力机制，从而提升各模态下不同维度的模态特征的关联性。

当然，为提升不同模态之间的关联性，也可以在不同模态下的向量特征中引入注意力机制，具体地，上述通过注意力机制对第一全连接向量进行处理，得到待识别视频在第一模态下的目标向量特征，可以包括：

获取第一全连接向量和第二全连接向量，其中，第二全连接向量为第二模态的向量特征，第二模态为至少两种模态下除第一模态之外的任一种模态；

通过自注意力机制对第一全连接向量进行处理，得到第一注意力向量；

通过双向注意力机制对第一全连接向量和第二全连接向量进行处理，得到第二注意力向量；

基于第一注意力向量和第二注意力向量，得到待识别视频在第一模态下的目标向量特征。

基于此，在对第一模态下的特征向量进行预融合处理过程中，不仅可以通过自注意力机制对第一模态下的至少一个维度的向量特征进行关联，还可以通过双向注意力机制实现第一模态下的至少一个维度的向量特征与其他模态下的向量特征进行关联，提升待处理视频不同模态之间的关联性，从而使得融合后的每一模态下的目标向量特征更准确，进一部提升视频识别的准确性。

本公开实施例中，上述第二全连接向量可以是上述至少两种模态中除第一模态之外的任意模态下，至少一个维度上的向量特征进行全连接处理后得到的向量。

例如，如图2所示，上述第一模态为文本且第二模态为图像，电子设备可以获取文本模态的全连接向量1(即第一全连接向量)以及图像模态的全连接向量2(第二全连接向量)，全连接向量1为对评论的向量特征、标题的向量特征和字幕的向量特征进行全连接处理后得到的向量；全连接向量2为对m帧图像的向量特征进行全连接处理后得到的向量，其中，m为大于1的整数。

其中，在电子设备获取到上述第一全连接向量和上述第二全连接向量之后，电子设备可以对通过自注意力机制对第一全连接向量进行计算，得到上述第一注意力向量；同样地，电子设备还可以通过双向注意力机制对第一全连接向量和第二全连接向量进行计算，得到第二注意力向量。由于自注意力机制和双向注意力机制的计算过程为本领域人员熟知，在此并不赘述。

例如，如图2所示，电子设备在获取到文本模态的全连接向量1和图像模态的全连接向量2之后，电子设备在预融合过程可以通过自注意力机制分别计算全连接向量1对应的注意力向量1(即第一注意力向量)，以及，计算全连接向量2对应的注意力向量2；通过双向注意力机制，计算全连接向量1和全连接向量2所对应的注意力向量3(即第二注意力向量)。

另外，在电子设备获取到上述第一注意力向量和第二注意力向量之后，电子设备可以通过第一注意力向量和第二注意力向量得到第一模态下的目标向量特征，可以是将第一注意力向量和第二注意力向量进行相加，再将相加得到的向量进行池化处理，得到上述第一模态下的目标向量特征。

或者，上述基于第一注意力向量和第二注意力向量，得到待识别视频在第一模态下的目标向量特征，可以包括：

将第一注意力向量与第二注意力向量相加，并将相加得到的向量与第一全连接向量相乘，得到待池化向量；

对待池化向量进行池化处理，得到待识别视频在第一模态下的目标向量特征。

基于此，通过将第一注意力向量与第二注意力向量相加，并将相加得到的向量与上述第一全连接向量相乘得到待池化向量，最后通过对待池化向量进行池化处理得到上述目标向量特征，从而得到使每一模态下的目标向量特征更准确，进一步提升识别准确度。

例如，如图2所示，电子设备可以将注意力向量1和注意力向量3相加后得到的向量与全连接向量1相乘，并将相乘后得到的向量经过池化处理，得到由文本模态下评论的向量特征、标题的向量特征和字幕的向量特征融合后的目标向量特征；同样地，电子设备还可以将注意力向量2和注意力向量3相加后得到的向量与全连接向量2相乘，并将相乘后得到的向量经过池化处理，得到由图像模态下评论的m帧图像的向量特征融合后的目标向量特征。

上述步骤103中，在获取到上述至少两种模态的每一模态下的目标向量特征之后，电子设备可以基于该至少两种模态下的目标向量特征，生成待识别视频的语义信息。

本公开实施例中，上述基于至少两种模态下的目标向量特征，生成待识别视频的语义信息，可以是将上述至少两种模态下的目标向量特征输入至预设模型中，预设模型将上述至少两种模态下的目标向量特征转化为词或者整句话，该预设模型提取出该词或者整句话的所表达的语义信息，将提取到的语义信息作为上述待识别视频的语义信息。

其中，上述预设模型将上述至少两种模态下的目标向量特征转化为词或者整句话，可以是上述预设模型分别将每一模态下的目标向量特征转化成字，得到由多个模态下的目标向量特征转化成的多个字，并将上该多个字组合成词或者整句话。

另外，上述预设模型可以是任意能够将输入的向量特征转化成词或者整句话，并提取转化的词或者整句话的语义的模型。例如，上述预设模型可以是深度语义匹配模型(Deep Structured Semantic Models，DSSM)，深度语义匹配模型可以将向量特征转化成词，并识别词所表达的语义。

具体地，上述基于至少两种模态下的目标向量特征，生成待识别视频的语义信息，包括：

将至少两种模态下的目标向量特征输入至自然语言模型中，得到待识别视频的语义信息。

基于此，通过自然语言模型可以将上述至少两种模态下的目标向量特征转换成整句话，从而使得生成的语义信息所对应的语义更清晰，进而能够提升视频识别的准确性。

其中，上述将至少两种模态下的目标向量特征输入至自然语言模型中，得到待识别视频的语义信息，可以是将每一目标向量特征通过自然语言模型转换成一个字，并将所有目标向量特征转换后得到的字组合成一整句话，并由自然语言模型识别该整句话的语义信息。

当然，为进一步提升生成的待识别视频的语音信息所对应的语义的清晰度，电子设备还可以对上述至少两种模态下的目标向量特征进行一定的处理后，再通过自然语言模型对处理后的向量特征进行转化。

具体地，上述将至少两种模态下的目标向量特征输入至自然语言模型中，得到待识别视频的语义信息，包括：

对至少两种模态下的目标向量特征进行融合处理，得到待识别视频的融合向量；

将融合向量分割成至少两个向量块；

将至少两个向量块输入至自然语言模型中，得到待识别视频的语义信息。

基于此，通过对至少两种模态下的预融合向量进行融合，将融合后得到的融合向量分割成至少两个向量块，并将分割得到的向量块输入至自然语言模型中，从而使得生成的待识别视频的语音信息所对应的语义更清晰，进一步提升视频识别的准确性。

本公开实施例中，上述对至少两种模态下的目标向量特征进行融合处理，得到待识别视频的融合向量，可以是将上述至少两种模态下所有目标向量特征进行连接，将连接得到的向量作为上述融合向量。

其中，上述将融合向量分割成至少两个向量块，可以是电子设备中预设有数量值，电子设备在得到上述融合向量之后，可以按照预设规则将融合向量分割成预设的数量值的向量块。

另外，上述将至少两个向量块输入至自然语言模型中，得到待识别视频的语义信息，可以是将每一向量块输入至自然语言模型中，通过自然语言模型将输入的向量块转化成一个字，并将所有想两块转化成的字连接成一整句话，并由自然语言模型识别该整句话的语义信息。

例如，如图3所示，电子设备在对不同模态的表征(即向量特征)进行预融合处理后，可以将多个模态下的目标向量特征进行连接，得到融合向量，再切分融合向量，得到n个向量块，即块1至块n，n为大于1的整数，然后将每一个向量块转换成一个字，将n个向量块转化的字连接成一整句话，最后识别该整句话的语义信息。

需要说明的是，上述通过自然语言模型将输入的所有向量块转化成一整句话，可以是通过将每一向量块输入至自然语言模型中，经过多头注意力处理、前项反馈网络以及池化处理等转化成字，并最终将所有向量块转化的字连接成整句话，例如，如图3所示。

另外，上述自然语言模型可以是任意的能够实现将向量转化成一整句话的模型，例如，该自然语言模型可以是来自变换器的双向编码器表征量(Bidirectional EncoderRepresentations from Transformers)，BERT)模型等。

在上述步骤104中，在电子设备生成待识别视频的语义信息之后，电子设备可以基于待识别视频的语义信息，识别待识别视频，得到与上述语义信息对应的视频识别结果。

其中，上述确定与待识别视频的语义信息对应的视频识别结果的过程为：电子设备按照预设识别规则，匹配与待识别视频的语义信息对应的识别结果作为待识别视频的视频识别结果。具体地，可以是电子设备中预先设定有不同预设语义信息与识别结果的对应关系，电子设备可以在不同预设语义信息中查找与上述待识别视频的语义信息匹配的预设语义信息，并将与查找到的预设语义信息存在对应关系的识别结果确定为上述待识别视频的视频识别结果。

例如，预先设置预设相似度阈值为80％，电子设备计算上述待识别视频的语义信息与语义库中各预设语义信息的相似度，若待识别视频的语义信息与语义库中一个预设语义信息的相似度大于或者等于80％，则将与该预设语义信息存在预设的对应关系的识别结果确定为上述待识别视频的视频识别结果。

另外，上述视频识别结果用于指示待识别视频是否为低观感视频，且低观感视频包括可以存在违法、违背社会公德或者低俗等内容的视频，从而可以实现电子设备对低观感视频的快速识别，提升低观感视频识别的效率，达到净化网络环境的目的。

基于相同的发明构思，本公开还提供了一种视频识别装置。具体结合图4进行详细说明。

图4是根据一示例性实施例示出的一种视频识别装置的结构示意图。

如图4所示，该视频识别装置400具体可以包括：

向量特征获取模块401，被配置为获取待识别视频在至少两种模态下的向量特征；

目标向量特征获取模块402，被配置为基于所述至少两种模态下的向量特征，获取所述待识别视频在每一模态下的目标向量特征，其中，所述目标向量特征为由至少一个维度上的向量特征生成；

语义信息生成模块403，被配置为基于所述至少两种模态下的目标向量特征，生成所述待识别视频的语义信息；

识别结果确定模块404，被配置为确定与所述待识别视频的语义信息对应的视频识别结果，其中，所述视频识别结果用于指示所述待识别视频是否为低观感视频。

在其中一个实施例中，所述目标向量特征获取模块402，包括：

基于此，通过在对至少一个维度上的向量特征进行融合的过程中引入注意力机制，可以提升至少一个维度上的向量特征的关联性，并合理配置融合过程中每一维度的向量特征的权重，从而使融合后的目标向量特征更准确，进而提升视频识别的准确性。

在其中一个实施例中，所述向量特征融合子模块，包括：

在其中一个实施例中，所述向量特征融合单元，包括：

在其中一个实施例中，所述语义信息生成模块403，具体被配置为：

在其中一个实施例中，所述语义信息生成模块403，包括：

基于同一发明构思，本公开实施例还提供了一种计算设备，具体结合图5进行详细说明。

图5是根据一示例性实施例示出的一种计算设备的结构框图。

如图5所示，该计算设备500能够实现根据本公开实施例中的视频识别方法以及视频识别装置的计算设备的示例性硬件架构的结构图。该计算设备可以指代本公开实施例中的电子设备。

该计算设备500可以包括处理器501以及存储有计算机程序指令的存储器502。

具体地，上述处理器501可以包括中央处理器(CPU)，或者特定集成电路(application specific integrated circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器502可以包括用于信息或指令的大容量存储器。举例来说而非限制，存储器502可包括硬盘驱动器(hard disk drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus，USB)驱动器或者两个及其以上这些的组合。在合适的情况下，存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器502可在综合网关设备的内部或外部。在特定实施例中，存储器502是非易失性固态存储器。在特定实施例中，存储器502包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存，或者两个或及其以上这些的组合。

处理器501通过读取并执行存储器502中存储的计算机程序指令，以执行如下步骤：

处理器501，执行获取待识别视频在至少两种模态下的向量特征；

在其中一个实施例中，处理器501，执行获取第一模态在至少一个维度上的向量特征，其中，所述第一模态为所述至少两种模态下的任一种模态；

在其中一个实施例中，处理器501，执行获取所述第一全连接向量和第二全连接向量，其中，所述第二全连接向量为第二模态下的向量特征，所述第二模态为所述至少两种模态下除所述第一模态之外的任一种模态；

在其中一个实施例中，处理器501，执行将所述第一注意力向量与所述第二注意力向量相加，并将相加得到的向量与所述第一全连接向量相乘，得到待池化向量；

在其中一个实施例中，处理器501，执行对所述至少两种模态下的目标向量特征进行融合处理，得到所述待识别视频的融合向量；

将所述融合向量分割成至少两个向量块；

在一个示例中，该计算设备500还可包括收发器503和总线504。其中，如图5所示，处理器501、存储器502和收发器503通过总线504连接并完成相互间的通信。

总线504包括硬件、软件或两者。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围控件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线504可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

本公开实施例还提供了一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于实现本公开实施例所记载的视频识别方法。

在一些可能的实施方式中，本公开提供的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本公开各种示例性实施方式的方法中的步骤，例如，所述计算机设备可以执行本公开实施例所记载的视频识别方法。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本公开是参照根据本公开的方法、设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程图像传输设备的处理器以产生一个机器，使得通过计算机或其他可编程图像传输设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程图像传输设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程图像传输设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样，倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包含这些改动和变型在内。

Claims

1.一种视频识别方法，其特征在于，包括：

获取待识别视频在至少两种模态下的向量特征；

对所述待池化向量进行池化处理，得到所述待识别视频在所述第一模态下的目标向量特征；

2.根据权利要求1所述的方法，其特征在于，所述基于所述至少两种模态下的目标向量特征，生成所述待识别视频的语义信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述至少两种模态下的目标向量特征输入至自然语言模型中，得到所述待识别视频的语义信息，包括：

对所述至少两个模态下的目标向量特征进行融合处理，得到所述待识别视频的融合向量；

将所述融合向量分割成至少两个向量块；

4.一种视频的识别装置，其特征在于，包括：

池化处理子单元，被配置为对所述待池化向量进行池化处理，得到所述待识别视频在所述第一模态下的目标向量特征；

5.根据权利要求4所述的装置，其特征在于，所述语义信息生成模块，具体被配置为：

6.根据权利要求5所述的装置，其特征在于，所述语义信息生成模块，包括：

融合处理子模块，被配置为对所述至少两个模态下的目标向量特征进行融合处理，得到所述待识别视频的融合向量；

7.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至3中任一项所述的视频识别方法。

8.一种计算机存储介质，其特征在于，当所述计算机存储介质中的指令由视频识别装置或者电子设备的处理器执行时，以使所述视频识别装置或者所述电子设备实现如权利要求1至3中任一项所述的视频识别方法。

9.一种计算机程序产品，其特征在于，包括计算机程序或者指令，所述计算机程序或者指令被处理器执行时实现如权利要求1至3中任一项所述的视频识别方法。