CN112580599A

CN112580599A - 一种视频识别方法、装置及计算机可读存储介质

Info

Publication number: CN112580599A
Application number: CN202011607400.0A
Authority: CN
Inventors: 刘鹏; 陈益如; 丁文奎
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-03-30
Anticipated expiration: 2040-12-30

Abstract

本公开关于一种视频识别方法、装置及计算机可读存储介质。本公开实施例获取待识别视频中的参考图像，以及与参考图像对应的文本信息；对参考图像进行目标检测，获取用于表示参考图像中目标对象所在区域像素特征的图像特征向量，并将图像特征向量与预设的相对位置信息进行融合处理得到融合图像特征；以及对文本信息进行特征提取，得到文本信息对应的文本特征，并将融合图像特征与文本特征进行融合处理，得到用于识别待识别视频的视频内容的语义信息。由于本公开实施例获取图像特征向量之后，可以直接与预设的相对位置信息进行融合处理得到融合图像特征，提高了对视频内容进行识别的效率以及准确性。

Description

一种视频识别方法、装置及计算机可读存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种视频识别方法、装置及计算机可读存储介质。

背景技术

随着移动终端的普及和网络的提速，网络平台上发布的内容从之前单一的文字、图片、音频等，慢慢地趋于融合，形成在互联网媒体上传播的时长在5分钟以内的短视频，短视频的出现更加适合用户在移动状态和短时休闲状态下观看。

目前，短视频的覆盖范围急速扩张，影响力越来越大，每日有几千万的视频上传和几亿用户去观看视频，为了用户更好的观看体验，网络平台一般会根据用户的历史搜索记录或者关注的主播类型去推送视频内容，网络平台在向用户推荐视频时，可以基于视频内容向用户进行推荐。相关技术中，在对视频内容进行识别时，可以根据待识别视频的视频标签对视频内容进行识别，而视频标签是用户通过客户端发布短视频时自定义的，并不能反映视频真实内容。目前对视频内容进行识别的方式准确率较低且识别效率较低。

发明内容

本公开提供一种视频识别方法、装置及计算机可读存储介质，用以提高对待识别视频的视频内容进行识别的准确性及识别效率。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频识别方法，包括：

获取待识别视频中的参考图像，以及与所述参考图像对应的文本信息；

对所述参考图像进行目标检测，获取用于表示所述参考图像中目标对象所在区域像素特征的图像特征向量，并将所述图像特征向量与预设的相对位置信息进行融合处理得到融合图像特征；其中，所述预设的相对位置信息用于表示所述图像特征向量中各个特征值在所述参考图像中的相对位置；以及

对所述文本信息进行特征提取，得到所述文本信息对应的文本特征；

将融合图像特征与所述文本特征进行融合处理，得到用于识别所述待识别视频的视频内容的语义信息。

一种可选的实施方式为，所述对所述参考图像进行目标检测，获取用于表示所述参考图像中目标对象所在区域像素特征的图像特征向量，包括：

对所述参考图像进行目标检测，识别所述参考图像中所述目标对象所在的区域；

根据所述参考图像中所述目标对象所在区域的像素值，对所述目标对象所在区域进行图像特征提取，得到多个用于表示所述参考图像中目标对象所在区域像素特征的特征值；

根据得到的多个所述特征值生成所述图像特征向量。

一种可选的实施方式为，所述将所述图像特征向量与预设的相对位置信息进行融合处理得到融合图像特征，包括：

将所述图像特征向量与预设的相对位置信息进行映射得到第一嵌入向量；

根据注意力权重参数，对所述第一嵌入向量中的各个元素进行融合处理得到所述融合图像特征。

一种可选的实施方式为，所述对所述文本信息进行特征提取，得到所述文本信息对应的文本特征，包括：

提取所述文本信息中的字向量和/或词向量；

将提取出的所述字向量和/或词向量进行映射得到第二嵌入向量；

根据注意力权重参数，对所述第二嵌入向量中的各个元素进行融合处理得到所述文本特征。

一种可选的实施方式为，所述将所述融合图像特征与所述文本特征进行融合处理，得到用于识别所述待识别视频的视频内容的语义信息，包括：

将所述融合图像特征与所述文本特征分别进行嵌入处理，分别得到第三嵌入向量和第四嵌入向量；

基于第一注意力机制模块，根据所述第一注意力机制模块对应的注意力权重参数，将所述第三嵌入向量中的各个元素进行融合处理得到中间融合图像特征；以及，基于第二注意力机制模块，根据所述第二注意力机制模块对应的注意力权重参数，将所述第四嵌入向量中的各个元素进行融合处理得到中间文本特征；

将所述中间融合图像特征中的部分特征与所述中间文本特征中的部分特征进行融合处理，得到所述语义信息。

一种可选的实施方式为，所述获取待识别视频中的参考图像，包括：

将所述待识别视频的封面图像作为所述参考图像；或

根据预设的时间间隔，从所述待识别视频中提取出至少一帧图像作为所述参考图像。

根据本公开实施例的第二方面，提供一种视频识别装置，包括：

获取单元，被配置为获取待识别视频中的参考图像，以及与所述参考图像对应的文本信息；

检测单元，被配置为对所述参考图像进行目标检测，获取用于表示所述参考图像中目标对象所在区域像素特征的图像特征向量，并将所述图像特征向量与预设的相对位置信息进行融合处理得到融合图像特征；其中，所述预设的相对位置信息用于表示所述图像特征向量中各个特征值在所述参考图像中的相对位置；

提取单元，被配置为对所述文本信息进行特征提取，得到所述文本信息对应的文本特征；

处理单元，被配置为将所述融合图像特征与所述文本特征进行融合处理，得到用于识别所述待识别视频的视频内容的语义信息。

一种可选的实施方式为，所述检测单元被配置为执行：

根据得到的多个所述特征值生成所述图像特征向量。

一种可选的实施方式为，所述检测单元还被配置为执行：

一种可选的实施方式为，所述提取单元被配置为执行：

提取所述文本信息中的字向量和/或词向量；

一种可选的实施方式为，所述处理单元被配置为执行：

一种可选的实施方式为，所述获取单元被配置为执行：

将所述待识别视频的封面图像作为所述参考图像；或

根据本公开实施例的第三方面，提供一种视频识别装置，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的视频识别方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述存储介质中的指令由视频识别装置的处理器执行时，使得视频识别装置能够执行如第一方面所述的视频识别方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，计算机程序被处理器执行时实现如第一方面所述的视频识别方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

由于本公开实施例提供了一种自动对视频内容进行识别的方案，在获取待识别视频中的参考图像以及与参考图像对应的文本信息之后，可以对参考图像进行目标检测，获取用于表示参考图像中目标对象所在区域像素位置的图像特征向量，并进一步与预设的相对位置信息进行融合处理得到融合图像特征，并对文本信息进行特征提取，得到文本信息对应的文本特征；本公开实施例在得到参考图像中目标对象的融合图像特征以及文本信息对应的文本特征之后，可以将融合图像特征与文本特征进行融合处理，得到用于识别待识别视频的视频内容的语义信息。由于本公开实施例在对待识别视频中的参考图像进行目标检测时，在获取到用于表示参考图像中的目标对象所在区域像素特征的图像特征向量之后，可以将图像特征向量直接与预设的相对位置信息进行融合处理得到融合图像特征，融合图像特征中包括了参考图像的像素特征以及位置信息，根据融合图像特征识别视频内容时可以提高识别准确性，并且，本公开实施例使用预设的相对位置信息与图像特征向量进行融合，可以提高获取参考图像的融合图像特征的效率；另外，本公开实施例对文本信息进行特征提取得到文本特征之后，可以将文本特征与融合图像特征进行融合处理，得到用于识别待识别视频的视频内容的语义信息，由于在对视频内容进行识别时，结合了参考图像的融合的图像特征以及文本特征，通过这种跨模态的特征，可以准确的对视频内容进行识别。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的第一种视频识别系统的示意图；

图2是根据一示例性实施例示出的第二种视频识别系统的示意图；

图3是根据一示例性实施例示出的第三种视频识别系统的示意图；

图4是根据一示例性实施例示出的一种视频识别方法流程示意图；

图5是根据一示例性实施例示出的DETR模型的结构示意图；

图6是根据一示例性实施例示出的对参考图像中的目标对象进行检测的示意图；

图7是根据一示例性实施例示出的一种生成图像特征向量的示意图；

图8是根据一示例性实施例示出的基于注意力机制对第一嵌入向量进行处理的流程示意图；

图9是根据一示例性实施例示出的基于互注意力机制对融合图像特征和文本特征进行处理的流程示意图；

图10是根据一示例性实施例示出的一种视频识别系统的完整结构图；

图11是根据一示例性实施例示出的一种视频识别装置的框图；

图12是根据一示例性实施例示出的一种视频识别装置的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应所述理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

以下，对本公开实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

(1)本公开实施例中术语“多个”是指两个或两个以上，其它量词与之类似。

(2)“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

(3)服务器，是为终端服务的，服务的内容诸如向终端提供资源，保存终端数据；服务器是与终端上安装的应用程序相对应的，与终端上的应用程序配合运行。

(4)客户端，既可以指软件类的APP(Application，应用程序)，也可以指终端设备。它具有可视的显示界面，能与用户进行交互；是与服务器相对应，为客户提供本地服务。针对软件类的应用程序，除了一些只在本地运行的应用程序之外，一般安装在普通的客户终端上，需要与服务端互相配合运行。因特网发展以后，较常用的应用程序包括了如收寄电子邮件时的电子邮件客户端，以及即时通讯的客户端等。对于这一类应用程序，需要网络中有相应的服务器和服务程序来提供相应的服务，如数据库服务，配置参数服务等，这样在客户终端和服务器端，需要建立特定的通信连接，来保证应用程序的正常运行。

相关技术中，短视频应用越来越普及，网络平台发布的短视频越来越多，且视频种类也比较多，为了用户可以有更好的观看体验，网络平台一般会根据用户的历史搜索记录或者关注的主播类型去推送视频内容，而网络平台是基于视频内容向用户推荐视频的，因此目前亟需一种对视频内容进行识别的方案。

基于上述问题，本公开实施例介绍几种视频识别方法可选的应用场景：

场景1：在用户发布短视频过程中确定用户发布的短视频的内容标签。

如图1所示，该场景下的视频识别系统包括用户10、终端设备11、服务器12。

用户10通过终端设备11上安装的客户端发布短视频；客户端获取到用户10上传的短视频后，将用户10上传的短视频发送至服务器12；服务器12在接收到用户10上传的短视频后，获取用户10发布的短视频的参考图像，以及参考图像对应的文本信息；服务器12对参考图像进行目标检测，获取用于表示参考图像中目标对象所在区域像素特征的图像特征向量，并将图像特征向量与预设的相对位置信息进行融合处理得到融合图像特征；其中，预设的相对位置信息用于表示图像特征向量中各个特征值在参考图像中的相对位置；服务器12对文本信息进行特征提取，获取文本信息对应的文本特征；服务器12将融合图像特征与文本特征进行融合处理，得到用于识别发布的短视频的视频内容的语义信息；根据得到的语义信息确定用户10发布的短视频的内容标签。

场景2：在用户通过关键词搜索短视频时，确定候选短视频资源池中候选短视频的视频内容。

如图2所示，该场景下的视频识别系统包括用户20、终端设备21、服务器22。

用户20操作终端设备21上安装的客户端，客户端获取用户20在客户端搜索框输入的搜索关键词，将获取到的搜索关键词发送给服务器22。服务器22需要从候选短视频资源池中确定与搜索关键词匹配的短视频推荐给用户；在服务器22确定候选短视频资源池中的候选短视频与搜索关键词的匹配度时，需要服务器22确定候选短视频的视频内容，根据候选短视频的视频内容确定与搜索关键词之间的匹配度。针对候选短视频资源池中每个候选短视频，服务器22候选短视频的参考图像，以及参考图像对应的文本信息；服务器22对参考图像进行目标检测，获取用于表示参考图像中目标对象所在区域像素特征的图像特征向量，并将图像特征向量与预设的相对位置信息进行融合处理得到融合图像特征；其中，预设的相对位置信息用于表示图像特征向量中各个特征值在参考图像中的相对位置；服务器22对文本信息进行特征提取，获取文本信息对应的文本特征；服务器22将融合图像特征与文本特征进行融合处理，得到用于识别发布短视频的视频内容的语义信息；服务器22将搜索关键词与视频内容的语义信息进行匹配，并将匹配度高的短视频通过客户端推荐给用户20。

场景3：在用户登录短视频客户端时，从候选短视频资源池中向用户推荐短视频。

如图3所示，该场景下的视频识别系统包括用户30、终端设备31、服务器32。用户30操作终端设备31上安装的客户端，在用户通过账号登录客户端后，客户端向服务器32发送页面展示请求；服务器32获取用户30的账户特征，其中，用户30的账户特征可以是用户30历史观看的视频类型，或关注主播的类型，以及历史搜索关键词等；服务器32根据用户30的账户特征从候选短视频资源池中确定与用户30的账户特征匹配的短视频，并将确定出的短视频返回给客户端，在客户端的显示页面中展示为用户30推荐的短视频。在确定用户30的账户特征与候选短视频资源池中短视频的匹配度时，针对候选短视频资源池中的任意一个短视频，服务器32获取短视频的参考图像，以及参考图像对应的文本信息；服务器32对参考图像进行目标检测，获取用于表示参考图像中目标对象所在区域像素特征的图像特征向量，并将图像特征向量与预设的相对位置信息进行融合处理得到融合图像特征；其中，预设的相对位置信息用于表示图像特征向量中各个特征值在所述参考图像中的相对位置；服务器12对文本信息进行特征提取，获取文本信息对应的文本特征；服务器32将融合图像特征与文本特征进行融合处理，得到用于识别发布短视频的视频内容的语义信息；服务器32将用户30的账户特征与视频内容的语义信息进行匹配，并将匹配度高的短视频返回给客户端，客户端在显示页面中将接收到的短视频推荐给用户30。

下面结合上述描述的应用场景，参考图4-图10来描述本公开示例性实施方式提供的一种视频识别方法。需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

图4是根据一示例性实施例示出的一种视频识别方法流程示意图，该方法可以包括以下步骤：

步骤S401、获取待识别视频中的参考图像，以及与参考图像对应的文本信息；

步骤S402、对参考图像进行目标检测，获取用于表示参考图像中目标对象所在区域像素特征的图像特征向量，并将图像特征向量与预设的相对位置信息进行融合处理得到融合图像特征；其中，预设的相对位置信息用于表示图像特征向量中各个特征值在参考图像中的相对位置；

步骤S403、对文本信息进行特征提取，得到文本信息对应的文本特征；

步骤S404、将融合图像特征与文本特征进行融合处理，得到用于识别待识别视频的视频内容的语义信息。

由于本公开实施例提供了一种自动对视频内容进行识别的方案，在获取待识别视频中的参考图像，以及与参考图像对应的文本信息之后，可以对参考图像进行目标检测，获取用于表示参考图像中目标对象所在区域像素特征的图像特征向量，而获取到参考图像中目标对象的图像特征向量后，可以直接与预设的相对位置信息进行融合处理得到融合图像特征，其中，预设的相对位置信息用于表示图像特征向量中各个特征值在参考图像中的相对位置，融合图像特征中包括了参考图像的像素特征以及位置信息，根据融合图像特征识别视频内容时可以提高识别准确性，并且，本公开实施例使用预设的相对位置信息与图像特征向量进行融合，可以提高获取参考图像的融合图像特征的效率；另外，本公开实施例对文本信息进行特征提取得到文本特征之后，可以将文本特征与融合图像特征进行融合处理，得到用于识别待识别视频的视频内容的语义信息，由于在对视频内容进行识别时，结合了参考图像的融合的图像特征以及文本特征，通过这种跨模态的特征，可以准确的对视频内容进行识别。

本公开实施例可以将待识别视频的封面图像作为参考图像；或根据预设的时间间隔，从待识别视频中提取出至少一帧图像作为参考图像。

需要说明的是，待识别视频的封面图像可以为预先设置的。

由于本公开实施例将待识别视频的封面图像作为参考图像，而封面图像对于待识别视频是较为重要的部分，能够吸引用户的眼球，基于对待识别视频内容的充分理解，封面图像是具有代表性的，可以将待识别视频最具吸引力的内容呈现出来，因此，将待识别视频的封面图像作为参考图像，使其更具代表性、准确性，更加充分地体现待识别视频的内容，从而提高对视频内容进行识别的准确性。另外，本公开实施例还可以根据预设的时间间隔，从待识别视频中提取出至少一帧图像作为参考图像，由于待识别视频包含多帧图像，则根据预设时间间隔，从多帧图像中提取出至少一帧图像作为参考图像，从而使得参考图像尽可能覆盖待识别视频的内容，能够准确对视频内容进行识别。

参考图像对应的文本信息可以为在参考图像中显示的文本，包括但不限于：

参考图像中的字幕信息、文本注释信息。

在识别待识别视频的视频内容过程中，可以在待识别视频对应的图像存储空间中获取该待识别视频对应的参考图像，以及在待识别视频对应的文本存储空间中获取参考图像对应的文本信息；

其中，待识别视频对应的文本存储空间中存储的参考图像对应的文本信息可以是在用户上传视频时输入的该参考图像对应的文本信息，或者还可以是基于该参考图像帧对应的语音数据，对语音数据进行语音识别转换为文本数据，将转换后的文本数据作为该参考图像对应的文本信息进行存储。

或者，在待识别视频对应的图像存储空间中获取该待识别视频对应的参考图像后，从参考图像中识别对应的文本信息；

一种可选的实施方式为，通过光学字符识别技术(Optical CharacterRecognition，OCR)对参考图像进行识别，识别该参考图像中的文本信息。

本公开实施例在获取到待识别视频的参考图像，以及参考图像对应的文本信息之后，需要对参考图像进行目标检测以获得参考图像中目标对象的融合图像特征，以及对文本信息进行特征提取以获得文本信息对应的文本特征；

下面针对参考图像进行目标检测的方式以及对文本信息进行特征提取的方式分别进行说明：

一、对参考图像进行目标检测。

本公开实施例对参考图像进行目标检测时，需要识别参考图像中目标对象所在的区域；

一种可选的实施方式为，本公开实施例基于DETR模型对参考图像进行目标检测，识别参考图像中目标对象所在的区域。

如图5所示的DETR模型的结构示意图，包括卷积神经网络(Convolutional NeuralNetworks，CNN)网络和Transformer网络；如图6所示，在对参考图像中的目标对象进行检测，通过检测框的方式识别参考图像中目标对象所在的区域。

需要说明的是，在通过DERT模型对参考图像中的目标对象进行检测过程中，可以是区分参考图像中的目标对象所在的区域和背景区域；一张参考图像中可以包括一个或多个目标对象；

参考图像中的目标对象包括但不限于：

图像中的人物、图像中的动物、图像中的建筑物、图像中的植物、图像中的道路。

本公开实施例在确定参考图像中的目标对象所在的区域之后，可以根据下列方式生成图像特征向量；

根据参考图像中目标对象所在区域的像素值，对目标对象所在区域进行图像特征提取，得到多个用于表示参考图像中目标对象所在区域像素特征的特征值；根据得到的多个特征值生成图像特征向量。

由于本公开实施例在获取参考图像的图像特征时，首先从参考图像中检测出目标对象，提取出目标对象所在区域的图像特征，使得从参考图像中获取的图像特征更有针对性；并且，在提取出目标对象所在区域的图像特征时，是根据目标对象所在区域的像素值，得到参考图像中目标对象所在区域像素特征的特征值，根据得到的多个特征值生成图像特征向量，由于目标对象为参考图像中用户比较关注的区域，根据目标对象所在区域的像素值得到的图像特征向量更能反映参考图像的真实内容，从而提高获取参考图像的图像特征的准确性。

本公开实施例通过DERT模型中的CNN网络，根据参考图像中目标对象所在区域的像素值，对目标对象所在区域进行图像特征提取，得到多个特征值，并进一步根据多个特征值生成n*m维矩阵，并将n*m维矩阵转化为一维向量；其中，一维向量可以通过1行n*m列的矩阵表示，或者通过n*m行1列的矩阵表示，1行n*m列的矩阵或者n*m行1列的矩阵即生成的图像特征向量；

例如，本公开实施例基于DERT模型中的CNN网络，对目标对象所在区域进行图像特征提取，并根据特征提取得到的多个特征值生成矩阵U^7x7，其中，矩阵U^7x7为7行7列的矩阵，其中，第1行矩阵元素为：U₁₁、U₁₂、U₁₃、U₁₄、U₁₅、U₁₆、U₁₇；第2行矩阵元素为：U₂₁、U₂₂、U₂₃、U₂₄、U₂₅、U₂₆、U₂₇；第3行矩阵元素为：U₃₁、U₃₂、U₃₃、U₃₄、U₃₅、U₃₆、U₃₇；第4行矩阵元素为：U₄₁、U₄₂、U₄₃、U₄₄、U₄₅、U₄₆、U₄₇；第5行矩阵元素为：U₅₁、U₅₂、U₅₃、U₅₄、U₅₅、U₅₆、U₅₇；第6行矩阵元素为：U₆₁、U₆₂、U₆₃、U₆₄、U₆₅、U₆₆、U₆₇；第7行矩阵元素为：U₇₁、U₇₂、U₇₃、U₇₄、U₇₅、U₇₆、U₇₇；并将矩阵U^7x7转化成1行7*7列的表示图像特征的矩阵V。如图7是根据一示例性实施例示出的一种生成图像特征向量的示意图。

本公开实施例通过DETR模型中的CNN网络得到用于表示参考图像中目标对象所在区域像素特征的图像特征向量后，需要将图像特征向量与预设的相对位置信息进行融合处理，得到参考图像中目标对象的融合图像特征；

具体地，将图像特征向量与预设的相对位置信息进行映射得到第一嵌入向量；根据注意力权重参数，对第一嵌入向量中的各个元素进行融合处理得到融合图像特征。

由于本公开实施例在得到参考图像中目标对象的图像特征向量之后，可以人为地对图像特征向量中各个特征值在参考图像中的相对位置进行设置，并将图像特征向量与预设的表示各个特征值在参考图像中的相对位置信息进行映射得到第一嵌入向量，在得到第一嵌入向量后，可以进一步根据注意力权重参数，对第一嵌入向量中的各个元素进行融合处理得到融合图像特征，则得到的融合图像特征可以更加准确的体现参考图像的内容，从而在对待识别视频进行内容识别过程中，可以提高识别的准确性。

需要说明的是，本公开实施例通过DERT模型中的CNN网络对目标对象所在区域进行图像特征提取，并根据特征提取得到的多个特征值生成n*m维矩阵后，会进一步将n*m维矩阵转化为一维向量，则此时n*m维矩阵中包含的多个特征值在参考图像中的相对位置关系丢失，在转化后的一维向量中无法获取各个特征值在参考图像中的相对位置关系，因此，可以人为地对图像特征向量中各个特征值在参考图像中的相对位置关系进行预设；

例如，如图7所示的矩阵U^7x7，矩阵U^7x7中包含49个特征值，在转化成1行7*7列的矩阵V后，即生成图像特征向量后，可以人为的对矩阵V中各个特征值在参考图像中的相对位置关系进行预设，例如，各个特征值在参考图像中的相对位置的先后顺序以特征值U₁₁、U₁₂、U₁₃、U₁₄、U₁₅、U₁₆、U₁₇为例，并对人为预设的特征值在参考图像中的相对位置关系的进行简单介绍；

特征值U₁₂在参考图像中的相对位置为特征值U₁₁在参考图像中的参考位置的正右方的第一个位置；特征值U₁₃在参考图像中的相对位置为特征值U₁₁在参考图像中的参考位置的正右方的第二个位置；特征值U₁₄在参考图像中的相对位置为特征值U₁₃在参考图像中的参考位置的正右方的第一个位置；U₁₅在参考图像中的相对位置为特征值U₁₆在参考图像中的参考位置的正左方的第一个位置；，且U₁₅在参考图像中的相对位置也可以为特征值U₁₇在参考图像中的参考位置的正左方的第二个位置；U₁₇在参考图像中的相对位置为特征值U₁₅在参考图像中的参考位置的正右方的第二个位置。

需要说明的是，图像特征向量中的各个特征值在参考图像中的相对位置并不是固定的，在对特征值在参考图像中的相对位置进行预设时，若选取的图像特征向量中特征值在参考图像中的参考位置发生变化，则特征值在参考图像中的相对位置也会随着改变，且相对位置关系根据人为预设可描述成左右、上下、左上、右下、右上、左下等相对位置关系，在此不做限制。

一种可选的实施方式为，本公开实施例可以通过DETR模型中的第一Transformer网络对图像特征向量与预设的相对位置信息进行融合处理，并获取参考图像中目标对象的融合图像特征；

第一Transformer网络为基于注意力机制的Encoder-Decoder网络模型；

将CNN网络输出的图像特征向量与预设的相对位置信息进行映射得到第一嵌入向量；如图8所示的基于注意力机制对第一嵌入向量进行处理的流程示意图，根据注意力权重参数，对第一嵌入向量中的各个元素进行融合处理得到融合图像特征；其中，注意力权重参数包括第一Transformer网络在训练过程中得到的三个权重矩阵中的参数以及注意力系数w；

具体地，将第一嵌入向量与第一Transformer网络中在训练过程中得到的三个权重矩阵分别作乘法运算，得到查询矩阵W_f1、键矩阵W_f2和值矩阵W_f3；将查询矩阵W_f1和键矩阵W_f2作点乘运算，并通过Softmax函数进行归一化处理，得到第一点乘矩阵；并将第一点乘矩阵与值矩阵W_f3作点乘操作，得到第二点乘矩阵；将第二点乘矩阵与注意力系数w相乘，得到输出向量；

本公开实施例在基于第一Transformer网络中的注意力机制得到输出向量后，通过第一Transformer网络中的前馈神经网络，对输出向量作进一步的特征提取，从而得到第一Transformer网络输出的参考图像的融合图像特征。

另外，由于待识别视频中的参考图像中往往包含与该参考对象对应的文本信息，例如参考图像中包含的字幕信息、注释信息等；根据参考图像对应的文本信息也可以识别待识别视频的视频内容，本公开实施例可以结合参考图像的融合图像特征，以及参考图像对应的文本信息，进行跨模态融合，进一步识别待识别视频的视频内容。

二、对参考图像对应的文本信息进行特征提取。

提取文本信息中的字向量和/或词向量；将提取出的字向量和/或词向量进行映射得到第二嵌入向量；根据注意力权重参数，对第二嵌入向量中的各个元素进行融合处理得到文本特征。

需要说明的是，通常在一个文本信息中，一个字或者一个词在该文本信息中表达的意思可能与它的上下文有关，且每个字或每个词对文本信息理解所起的作用不同，为了更好地理解文本信息，在对文本信息进行特征提取时，需要先将文本信息表示成向量形式，并提取文本信息中的字向量或词向量，基于文本信息中的各个字向量或各个词向量，对文本信息进行特征提取。

由于本公开实施例在对文本信息进行特征提取时，是根据文本信息中的字向量和/或词向量生成嵌入向量，在对嵌入向量中的各个元素进行融合处理时使用注意力权重参数进行融合，从而使得融合后的文本特征更能反映文本的真实信息，进一步提高在对视频内容进行识别时的准确性。

一种可选的实施方式为，本公开实施例可以根据已训练的第二Transformer网络提取文本信息对应的文本特征；

实施中，将文本信息输入已训练的第二Transformer网络，由已训练的第二Transformer网络对文本信息进行特征提取，并获取第二Transformer网络输出的文本信息对应的文本特征。

第二Transformer网络为基于注意力机制的Encoder网络模型；

在通过第二Transformer网络对文本信息进行特征提取时，确定文本信息对应的字向量和/或词向量，根据文本信息对应的字向量和/或词向量生成输入第二Transformer网络的第二嵌入向量；

如图8所示的基于注意力机制对嵌入向量进行处理的流程示意图，根据注意力权重参数，对第二嵌入向量中的各个元素进行融合处理得到文本特征；其中，注意力权重参数包括第二Transformer网络中在训练过程中得到的三个权重矩阵中的参数以及注意力系数w；

具体地，将根据文本信息对应的字向量和/或词向量生成的第二嵌入向量，与第二Transformer网络中在训练过程中得到的三个权重矩阵分别作乘法运算，得到查询矩阵W_f1、键矩阵W_f2和值矩阵W_f3；将查询矩阵W_f1和键矩阵W_f2作点乘运算，并通过Softmax函数进行归一化处理，得到第一点乘矩阵；并将第一点乘矩阵与值矩阵W_f3作点乘操作，得到第二点乘矩阵；将第二点乘矩阵与注意力系数w相乘，得到输出向量；

本公开实施例在基于第二Transformer网络中的注意力机制得到输出向量后，通过第二Transformer网络中的前馈神经网络，对输出向量作进一步的特征提取，从而得到第二Transformer网络输出的文本信息对应的文本特征。

本公开实施例在得到参考图像的融合图像特征，以及参考图像对应的文本信息的文本特征之后，可以根据下列方式对融合图像特征和文本特征进行融合处理，得到用于识别待识别视频的视频内容的语义信息；

将融合图像特征与文本特征分别进行嵌入处理，分别得到第三嵌入向量和第四嵌入向量；

基于第一注意力机制模块，根据第一注意力机制模块对应的注意力权重参数，将第三嵌入向量中的各个元素进行融合处理得到中间融合图像特征；以及，基于第二注意力机制模块，根据第二注意力机制模块对应的注意力权重参数，将第四嵌入向量中的各个元素进行融合处理得到中间文本特征；

将中间融合图像特征中的部分特征与中间文本特征中的部分特征进行融合处理，得到语义信息。

由于本公开实施例在得到用于识别待识别视频的视频内容的语义信息时，将融合图像特征进行嵌入处理得到第三嵌入向量，与文本特征进行嵌入处理得到第四嵌入向量，基于注意力机制模块进行融合处理；在融合过程中，使用第一注意力机制模块对应的注意力权重参数将第三嵌入向量中的各个元素进行融合处理得到中间融合图像特征；使用第二注意力机制模块对应的注意力权重参数将第四嵌入向量中的各个元素进行融合处理得到中间文本特征，最后可以将中间融合图像特征中的部分特征与中间文本特征中的部分特征进行融合处理，得到用于识别待识别视频的视频内容的语义信息。由于本公开实施例得到的语义信息是将融合图像特征和文本特征进行融合之后的特征，语义信息为跨模态的特征，从而在使用语义信息表示视频内容时，充分考虑的视频的图像特征和文本特征，使得识别出的视频内容准确性更高。

一种可选的实施方式为，通过已训练的包含互注意力机制模块的第三Transformer网络，基于互注意力机制，对目标对象的融合图像特征与文本特征进行融合处理，得到第三Transformer网络输出的用于识别待识别视频的视频内容的语义信息。

其中，第三Transformer网络为基于互注意力机制的Encoder网络模型；

如图9所示的基于互注意力机制对融合图像特征和文本特征进行处理的流程示意图，将融合图像特征输入第三Transformer网络中融合图像特征侧的第一注意力机制模块中，将文本特征输入第三Transformer网络中文本特征侧的第二注意力机制模块中；

基于第一注意力机制模块，将融合图像特征进行嵌入处理，得到第三嵌入向量；基于第二注意力机制模块，将文本特征进行嵌入处理，得到第四嵌入向量；

具体地，在融合图像特征侧的第一注意力机制模块中，将第三嵌入向量与第三Transformer网络在训练过程中得到的三个权重矩阵分别作乘法运算，得到中间融合图像特征，并使用第一注意力机制模块的query值和第二注意力机制模块的key值、value值，对中间融合图像特征进行处理；在文本特征侧的第二注意力机制模块中，将第四嵌入向量与第三Transformer网络在训练过程中得到的三个权重矩阵分别作乘法运算，得到中间文本特征，并使用第二注意力机制模块的query值和第一注意力机制模块的key值、value值，对中间文本特征进行处理。并通过第三Transformer网络中融合图像特征侧的前馈神经网络模块对第一注意力机制模块输出的特征作进一步处理，得到图像输出特征；以及通过第三Transformer网络中文本特征侧的前馈神经网络模块对第二注意力机制模块输出的特征作进一步处理，得到文本输出特征。从而可以达到跨模态的特征交互，使得图像输出特征中包含文本的信息，以及文本输出特征中包含参考图像的信息。

需要说明的是，本公开实施例在确定出中间融合图像特征和中间文本特征之后，是将中间融合图像特征的部分特征和中间文本特征的部分特征进行融合处理，所以基于融合图像特征侧输出的图像输出特征与文本特征侧输出的文本输出特征是一样的，均可以用来表示待识别视频的视频内容的语义信息，即本公开实施例中可以任意选取图像输出特征和文本输出特征中的任一个输出特征，用来表示语义信息。

如图10所示的一种视频识别系统的完整结构图，将待识别视频的参考图像输入DETR模型，通过DETR模型中的CNN网络识别参考图像中的目标对象，对参考图像进行目标检测，获取用于表示参考图像总目标对象所在区域像素特征的图像特征向量，并通过DETR模型中的第一Transformer网络将图像特征向量与预设的相对位置信息进行融合处理得到融合图像特征；根据已训练的第二Transformer网络提取文本信息对应的文本特征；根据已训练的包含互注意力机制模块的第三Transformer网络，基于互注意力机制，将融合图像特征与文本特征进行融合处理，得到用于识别待识别视频的视频内容的语义信息。

图11是根据一示例性实施例示出的一种视频识别装置1100的框图，参照图11，该装置包括获取单元1101、检测单元1102、提取单元1103、处理单元1104。

获取单元，被配置为执行获取待识别视频中的参考图像，以及与所述参考图像对应的文本信息；

检测单元，被配置为执行对所述参考图像进行目标检测，获取用于表示所述参考图像中目标对象所在区域像素特征的图像特征向量，并将所述图像特征向量与预设的相对位置信息进行融合处理得到融合图像特征；其中，所述预设的相对位置信息用于表示所述图像特征向量中各个特征值在所述参考图像中的相对位置；

提取单元，被配置为执行对所述文本信息进行特征提取，得到所述文本信息对应的文本特征；

处理单元，被配置为执行将所述融合图像特征与所述文本特征进行融合处理，得到用于识别所述待识别视频的视频内容的语义信息。

一种可选的实施方式为，该检测单元1102被配置为执行对所述参考图像进行目标检测，识别所述参考图像中所述目标对象所在的区域；

根据得到的多个所述特征值生成所述图像特征向量。

一种可选的实施方式为，该检测单元1102被配置为执行将所述图像特征向量与预设的相对位置信息进行映射得到第一嵌入向量；

一种可选的实施方式为，该提取单元1103被配置为执行提取所述文本信息中的字向量和/或词向量；

一种可选的实施方式为，该处理单元1104被配置为执行将所述融合图像特征与所述文本特征分别进行嵌入处理，分别得到第三嵌入向量和第四嵌入向量；

一种可选的实施方式为，该获取单元1101被配置为执行将所述待识别视频的封面图像作为所述参考图像；或

图12是根据一示例性实施例示出的一种视频识别装置1200的框图，包括：

处理器1201和用于存储所述处理器1201可执行指令的存储器1202；

其中，所述处理器1201被配置为执行所述指令，以实现如上述实施例中视频识别方法。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器1202，上述指令可由视频识别装置1200的处理器1201执行以完成上述视频识别方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行实现本公开实施例上述的视频识别方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频识别方法，其特征在于，包括：

将所述融合图像特征与所述文本特征进行融合处理，得到用于识别所述待识别视频的视频内容的语义信息。

2.根据权利要求1所述的视频识别方法，其特征在于，所述对所述参考图像进行目标检测，获取用于表示所述参考图像中目标对象所在区域像素特征的图像特征向量，包括：

根据得到的多个所述特征值生成所述图像特征向量。

3.根据权利要求1或2所述的视频识别方法，其特征在于，所述将所述图像特征向量与预设的相对位置信息进行融合处理得到融合图像特征，包括：

4.根据权利要求1所述的视频识别方法，其特征在于，所述对所述文本信息进行特征提取，得到所述文本信息对应的文本特征，包括：

提取所述文本信息中的字向量和/或词向量；

5.根据权利要求1所述的视频识别方法，其特征在于，所述将所述融合图像特征与所述文本特征进行融合处理，得到用于识别所述待识别视频的视频内容的语义信息，包括：

6.根据权利要求1、2、4、5中任一项所述的视频识别方法，其特征在于，所述获取待识别视频中的参考图像，包括：

将所述待识别视频的封面图像作为所述参考图像；或

7.一种视频识别装置，其特征在于，包括：

8.一种视频识别装置，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1～6中任一所述的视频识别方法。

9.一种计算机存储可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由视频识别装置的处理器执行时，使得视频识别装置能够执行如权利要求1～6中任一所述的视频识别方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～6中任一所述的视频识别方法。