CN113569094A

CN113569094A - 视频推荐方法、装置、电子设备及存储介质

Info

Publication number: CN113569094A
Application number: CN202110155495.5A
Authority: CN
Inventors: 晏健峰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2021-10-29

Abstract

本申请涉及计算机领域，特别涉及人工智能技术领域，公开了一种视频推荐方法、装置、电子设备及存储介质，用以提高视频排序准确率，该方法包括：获得输入的查询信息，并确定与查询信息相匹配的至少两个视频；基于查询信息的文本特征和至少两个视频各自对应的视觉特征，分别获得至少两个视频各自与查询信息的相似度；再基于至少两个视频各自与查询信息的相似度，对至少两个视频进行排序，得到视频排序结果。这样，基于视频中提取出的动态特征和查询信息的文本特征，重新计算视频和查询信息之间的相似度，将视频中包含的行为也纳入考量范围，有效提高排序系统的准确率。

Description

视频推荐方法、装置、电子设备及存储介质

技术领域

本申请涉及推荐系统技术领域，公开了一种视频推荐方法、装置、电子设备及存储介质。

背景技术

进入大数据时代，推荐系统一般是从海量视频中召回与用户输入的查询信息相匹配的视频，并对召回的视频进行排序得到对应的视频列表。但在排序时，推荐系统是基于单个视频帧的图像特征和查询信息的文本特征计算视频与查询信息之间的相关度，没有考虑到视频的动态性特征，容易出现排序不准确的问题。

发明内容

本申请实施例提供一种视频推荐方法、装置、电子设备及存储介质，用以提高视频排序准确率。

本申请实施例提供了一种视频推荐方法，该方法包括：

获得输入的查询信息，并确定与所述查询信息相匹配的至少两个视频；

基于所述查询信息的文本特征和所述至少两个视频各自对应的视觉特征，分别获得所述至少两个视频各自与所述查询信息的相似度，其中，每个视频的视觉特征至少是基于相应视频的动态特征得到的，所述动态特征是基于连续视频帧内的至少一个对象的运动状态获得的；

基于所述至少两个视频各自与所述查询信息的相似度，对所述至少两个视频进行排序，得到视频排序结果。

本申请实施例提供了一种视频推荐装置，该方法包括：

查询模块，用于获得输入的查询信息，并确定与所述查询信息相匹配的至少两个视频；

处理模块，用于基于所述查询信息的文本特征和所述至少两个视频各自对应的视觉特征，分别获得所述至少两个视频各自与所述查询信息的相似度，其中，每个视频的视觉特征至少是基于相应视频的动态特征得到的，所述动态特征是基于连续视频帧内的至少一个对象的运动状态获得的；

排序模块，用于基于所述至少两个视频各自与所述查询信息的相似度，对所述至少两个视频进行排序，得到视频排序结果。

可选的，在确定每个视频的相似度时，所述处理模块执行以下操作：

对所述查询信息进行特征提取，得到对应的文本特征，以及对一个视频进行特征提取，得到对应的视觉特征；

根据所述文本特征的第一注意力权重，确定所述文本特征的第一上下文关联特征，以及根据所述视觉特征的第二注意力权重，确定所述视觉特征的第二上下文关联特征；其中，所述文本特征的第一注意力权重表征所述文本特征与第一拼接矩阵中各个特征的关联程度，所述视觉特征的第二注意力权重表征所述视觉特征与所述第一拼接矩阵中各个特征的关联程度，所述第一拼接矩阵是将所述文本特征和所述视觉特征拼接得到的；

基于所述第一上下文关联特征和所述第二上下文关联特征，确定所述相似度。

可选的，所述处理模块用于：

对所述查询信息进行分词，得到初始字序列；

在所述字序列的首部添加分类字，以及在所述字序列的尾部添加分割字，形成目标字序列；

对所述目标字序列进行向量化处理，得到所述目标字序列中每个字的字向量；

根据各个字向量的第三注意力权重，分别确定所述各个字向量对应的所述文本子特征，将各个文本子特征进行拼接得到所述文本特征；其中，每个字向量的第三注意力权重表征相应的一个字向量与其他各个字向量的关联程度。

可选的，所述处理模块用于：

对所述一个视频进行特征提取，得到所述一个视频中每个视频帧的图像特征以及所述动态特征；

分别根据所述动态特征的第四注意力权重和各个图像特征的第五注意力权重，确定所述动态特征和所述各个图像特征各自对应的视觉子特征，将各个视觉子特征进行拼接得到所述视觉特征；其中，所述第四注意力权重表征所述动态特征对第二拼接矩阵中各个特征的关联程度，每个图像特征的第五注意力权重表征相应的一个图像特征对所述第二拼接矩阵中各个特征的关联程度，所述第二拼接矩阵是将所述动态特征和所述各个图像特征拼接得到的。

可选的，所述处理模块用于：

将所述一个视频的每个视频帧输入图像特征提取子模型中，分别对所述每个视频帧进行卷积处理，得到所述每个视频帧各自对应的图像特征；以及，

将所述一个视频输入动态特征提取子模型的特征提取层中进行卷积处理，确定所述一个视频中连续视频帧内至少一个对象的运动状态，并根据所述至少一个对象的运动状态，获得所述一个视频的动态特征。

可选的，所述处理模块用于：

根据所述第一拼接矩阵和预设的多个权重矩阵，分别获得所述第一拼接矩阵的查询向量、所述第一拼接矩阵的键向量和所述第一拼接矩阵的值向量，其中，所述第一拼接矩阵的查询向量包括所述文本特征中各个文本子特征的查询向量；

根据获得的所述各个文本子特征的查询向量和所述第一拼接矩阵的键向量，分别得到所述各个文本子特征的第六注意力权重，并将所述各个文本子特征的第六注意力权重进行拼接，得到所述文本特征的第一注意力权重；

根据获得的所述文本特征的第一注意力权重和所述第一拼接矩阵的值向量，得到所述文本特征的第一上下文关联特征。

可选的，所述处理模块用于：

根据所述第一拼接矩阵和预设的多个权重矩阵，分别获得所述第一拼接矩阵的查询向量、所述第一拼接矩阵的键向量和所述第一拼接矩阵的值向量，其中，所述第一拼接矩阵的查询向量包括所述视觉特征中各个视觉子特征的查询向量；

根据获得的所述各个视觉子特征的查询向量与所述第一拼接矩阵的键向量，得到所述各个视觉子特征的第七注意力权重，并将所述各个视觉子特征的第七注意力权重进行拼接，得到所述视觉特征的第二注意力权重；

根据获得的所述视觉特征的第二注意力权重和所述第一拼接矩阵的值向量，得到所述视觉特征的第二上下文关联特征。

可选的，所述处理模块用于：

对所述一个视频进行字幕识别和语音识别，得到对应的字幕信息和语音转文字信息；

分别对获得的字幕信息和语音转文字信息进行特征提取，得到视频描述子特征，将各个视频描述子特征进行拼接得到视频描述特征；

根据所述文本特征的第八注意力权重，确定所述文本特征的第三上下文关联特征，根据所述视觉特征的第九意力权重，确定所述视觉特征的第四上下文关联特征，以及根据所述视频描述特征的第十注意力权重，确定所述视频描述特征的第五上下文关联特征；其中，所述文本特征的第八注意力权重表征所述文本特征对第三拼接矩阵中各个特征的关联程度，所述视觉特征的第九注意力权重表征所述视觉特征对所述第三拼接矩阵中各个特征的关联程度，所述视频描述特征的第十注意力群众表征所述视觉描述特征对所述第三拼接矩阵中各个特征的关联注程度，所述第三拼接矩阵是将所述文本特征、所述视觉特征和所述视频描述特征拼接得到的；

基于所述第三上下文关联特征、所述第四上下文关联特征和所述第五上下文关联特征，确定所述相似度。

本申请实施例提供的一种电子设备，包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行上述任意一种视频推荐方法的步骤。

本申请实施例提供一种计算机可读存储介质，其包括程序代码，当所述程序代码在电子设备上运行时，所述程序代码用于使所述电子设备执行上述任意一种视频推荐方法的步骤。

本申请有益效果如下：

本申请实施例提供了一种视频推荐方法、装置、电子设备及存储介质。在本申请实施例中，获得输入的查询信息，并确定与查询信息相匹配的至少两个视频；基于查询信息的文本特征和至少两个视频各自对应的视觉特征，分别获得至少两个视频各自与查询信息的相似度，其中，每个视频的视觉特征至少是基于相应视频的动态特征得到的，动态特征是基于连续视频帧内的至少一个对象的运动状态获得的；再基于至少两个视频各自与查询信息的相似度，对至少两个视频进行排序，得到视频排序结果。这样，基于视频中提取出的动态特征和查询信息的文本特征，重新计算视频和查询信息之间的相似度，将视频中包含的行为也纳入考量范围，有效提高排序系统的准确率。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中的一种应用场景的一个可选的示意图；

图2a为推荐系统的第一种结构示意图；

图2b为本申请实施例中视频推荐方法的流程示意图；

图2c为终端上任务界面的页面示意图；

图3a为确定一个视频相似度的流程示意图；

图3b为文本Transformer网络的结构示意图；

图3c为生成字向量矩阵的查询向量、键向量和值向量的示意图；

图4为推荐系统的第二种结构示意图；

图5为视频排序结果示意图；

图6为本申请实施例中视频推荐装置的结构示意图；

图7为本申请实施例中视频推荐装置的另一种结构示意图；

图8为应用本申请实施例的一种电子设备的一个硬件组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

本申请实施例涉及人工智能(Artificial Intell igence，AI)领域，是基于机器学习(MachineLearning，ML)中的自然语言处理(Nature Language processing,NLP)技术、计算机视觉技术和跨模态融合技术设计的。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。

人工智能是一门综合学科，涉及的领域广泛，既有硬件层面的技术，也有软件层面的技术。人工智能的基础技术一般包括传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作交互系统、机电一体化等技术；人工智能的软件技术一般包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习等几大方向。随着人工智能的发展与进步，人工智能在多个领域中进行研究和应用，如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等，相信随着未来技术的进一步发展，人工智能将在更多的领域中得到应用，发挥出越来越重要的价值。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

机器学习是人工智能的核心，是使计算机具有智能的根本途径，那么深度学习则是机器学习的核心，是实现机器学习的一种技术。机器学习通常包括深度学习、强化学习、迁移学习、归纳学习等技术，深度学习则包括卷积神经网络(Convolutional NeuralNetworks,，CNN)、深度置信网络、递归神经网络、自动编码器、生成对抗网络等技术。

自然语言处理是一门集语言学、计算机科学、数学于一身的学科，也是人工智能领域中的一个重要研究方向，用于研究人们使用自然语言同计算机进行有效通信的各种理论和实践方法。自然语言处理通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

计算机视觉是一门集计算机科学、信号处理、物理学、应用数学、统计学、神经生理学等多学科于一身的综合性学科，也是科学领域中一个富有挑战性的重要研究方向。该学科使用各种成像系统代替视觉器官作为输入手段，由计算机代替大脑完成处理和解释，使得计算机可以具备像人类一样通过视觉的方式观察、理解世界的能力。

在本申请实施例中，可以使用循环神经网络(Recurrent Neural Network,RNN)执行自然语言处理和计算机视觉处理，也可以使用基于注意力机制的Transformer网络执行自然语言处理和计算机视觉处理。

RNN广泛应用于计算机视觉、自然语言处理等方向，这种网络的本质是在处理单元之间既有内部的反馈连接，又有前馈连接，因此，相比于前馈神经网络来说，RNN在计算过程中具有更强的动态行为和计算能力。但正是由于RNN的这一特性，导致RNN很容易出现长期依赖问题——即当前的系统状态不仅受到前一时刻的系统状态影响，还可能受到很长时间之前的系统状态影响。理论上RNN是可以学习到时间久远的信息的，但经过实践证实，RNN会丢掉时间久远的信息，导致长期记忆失效，为了避免RNN的长期依赖问题，本申请实施例还可以使用改进后的RNN——即长短期记忆网络(Long Short-Term Memory，LSTM)。LSTM是一种特殊的RNN，主要用于解决长序列训练过程中产生的梯度消失和梯度爆炸而设计的神经网络。

Transformer网络是一种基于注意力机制的序列处理网络，摒弃了递归结构，完全依赖于注意力机制，挖掘输入和输出之间的关系，由“全局关注”转变为“局部关注”，使得前馈神经网络在解码时可以更多地关注注意力权重高的特征，这样做既可以灵活地捕捉全局和局部的关系，还可以实现快速并行计算，减少网络训练时间，改善RNN训练慢的缺点。

在执行计算机视觉处理时，除了使用RNN、Transformer网络和LSTM中的任意一种外，还需要使用inception v4神经网络和三维卷积膨胀(inflated of the threedimensional，i3d)神经网络，从一个视频中提取每个视频帧的图像特征和动态特征，动态特征是基于一个中连续视频帧内的至少一个对象的运动状态获得的。在inception v4神经网络中添加了残差学习层(Residual Learning Layer)，用于解决深度神经网络的退化问题，提高神经网络的性能；为了从视频中提取出时空特征，让神经网络更好地学习到视频中包含的行为，在二维卷积膨胀神经网络的基础上，将神经网络中的卷积核和池化核从2D扩展到3D。

在本申请实施例中，首先基于目标账户输入的查询信息，从网络中召回与查询信息相匹配的至少两个视频，再分别提取出查询信息的文本特征和至少两个视频各自对应的视频特征之后，使用跨模态交互网络进行多任务学习，分别获得至少两个视频各自与查询信息的相似度，进而按照相似度对召回的至少两个视频重新排序。

模态指的是数据的存在形式，如文本、音频、图像和视频等文件格式。虽然有些数据的存在形式不同，但它们都是用于描述同一事物或者事件的。而在信息检索时，不仅是针对同一事物或者事件中单一模态的数据检索，还可能需要同一事物或者事件中其他模态的数据辅助检索，以检索网络丰富对该事物或者事件的认知，而使用同一事物或者事件中其他模态的数据辅助检索的过程，可以称之为跨模态。而多任务学习属于迁移学习算法中的一种，通过共享多个相似任务之间的知识，加快目标神经网络的学习效率，提高目标神经网络的泛化性。

下面对本申请实施例的设计思想进行简要介绍：

进入大数据时代，推荐系统一般分为“召回”和“排序”两个步骤，先从海量视频中召回与用户输入的查询信息相匹配的视频，再基于单个视频帧的图像特征和查询信息的文本特征，计算视频与查询信息之间的相关度，按照各个视频的相关度对召回的视频重新排序。但在排序的过程中，相关技术中只采用了视频中的单个视频帧，没有考虑到视频的动态性特征，容易出现排序不准确的问题。有鉴于此，本申请实施例提出了一种新的视频推荐方法、装置、电子设备及存储介质。

该方法包括：获得输入的查询信息，并确定与查询信息相匹配的至少两个视频；基于查询信息的文本特征和至少两个视频各自对应的视觉特征，分别获得至少两个视频各自与查询信息的相似度，其中，每个视频的视觉特征至少是基于相应视频的动态特征得到的，动态特征是基于连续视频帧内的至少一个对象的运动状态获得的；再基于至少两个视频各自与查询信息的相似度，对至少两个视频进行排序，得到视频排序结果。这样，基于视频中提取出的动态特征和查询信息的文本特征，重新计算视频和查询信息之间的相似度，将视频中包含的行为也纳入考量范围，有效提高排序系统的准确率。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

参阅图1示出的应用场景示意图。该应用场景图中包括两个终端110和一个服务器130。

用户可通过终端110登录应用操作界面120，应用操作界面120向用户呈现查询入口和基于查询信息获得的排序结果。在本申请实施例中，终端110是用户使用的电子设备，该电子设备可以是个人计算机、手机、平板电脑、笔记本、电子书阅读器、智能家居等计算机设备。

各终端110通过通信网络与服务器130进行通信。在一种可选的实施方式中，通信网络是有线网络或者无线网络，因此，终端110可通过有线网络或者无线网络，直接或间接地与服务器130建立通信连接，本申请在此不做限制。服务器130可以是独立的物理服务器130，也可以是多个物理服务器130构成的服务器130集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器130，本申请在此不做限制。

其中，本申请实施例中的推荐系统是部署在服务器130上的，服务器130接收终端110发送的查询信息，召回与查询信息相匹配的至少两个视频，再根据至少两个视频各自与查询信息对应的相似度，对召回的视频进行排序，并将排序结果返回终端110，以使终端110将排序结果呈现给用户。查询信息可以是视频标题的部分文字或者完整标题，也可以是视频标签(如视频类型、视频内容关键词)，还可以是上传视频的账号名称等，本申请在此不做限制。

参阅图2a示出的推荐系统的结构示意图，该系统由查询信息处理模型、视频处理模型和跨模态交互模型三部分组成。其中，查询信息处理模型用于从读取的查询信息中提取文本特征，视频处理模型用于从读取的视频中提取视觉特征，跨模态交互模型用于根据文本特征和视觉特征，生成视频的相似度。

在本申请实施例中提出的视频推荐方法可分为两部分，分别是训练阶段和应用阶段。其中，在训练阶段，预先准备大量的训练样本，一个训练样本包括初始样本查询信息以及对应的视频集合，为了提高查询信息处理模型的性能，需要对初始样本查询信息中的部分字符进行遮挡，得到目标样本查询信息，如初始样本查询信息为“今天是晴天”，执行遮挡处理后的目标样本查询信息为“今天是x天”(x表示该位置上的字符被遮挡了)；推荐系统不断读取目标样本查询信息和对应的视频集合，得到被遮挡的字符识别结果和视频集合中各个视频的相似度，通过优化算法不断调整模型参数，直到符合迭代停止条件为止，得到训练完毕的推荐系统。在应用阶段，使用训练完毕的推荐系统，召回与查询信息相匹配的至少两个视频，再根据查询信息的文本特征和至少两个视频各自对应的视觉特征，获得至少两个视频的排序结果。

参阅图2b示出的流程图，对使用推荐系统进行视频推荐的过程进行介绍。

S201：获得输入的查询信息，并确定与查询信息相匹配的至少两个视频。

参阅图2c示出的页面示意图，终端响应于触发操作，显示用于执行视频搜索任务的任务界面，终端再响应于任务界面触发的任务开始操作，执行视频搜索任务。具体地，目标账户可以通过任务界面上的搜索栏输入查询信息，除了手动输入查询信息这一种操作方式外，目标账户还可以通过点击搜索页面上的热门视频的标题进行查询，而且目标账户还可以限定查询范围，查询范围可以是公众号、小程序和内容分享空间等。

S202：基于查询信息的文本特征和至少两个视频各自对应的视觉特征，分别获得至少两个视频各自与查询信息的相似度，其中，每个视频的视觉特征至少是基于相应视频的动态特征得到的，动态特征是基于连续视频帧内的至少一个对象的运动状态获得的。

为了便于描述，参阅图3a示出的流程示意图，以一个视频为例，描述在确定该视频相似度时执行的操作：

S2021：对查询信息进行特征提取，得到对应的文本特征，以及对该视频进行特征提取，得到对应的视觉特征。

在执行步骤2021时，先对查询信息进行分词，得到初始字序列，如查询信息为“去年的春节晚会”，经过分词处理后，得到形如(去，年，的，春，节，晚，会)的初始字序列；

再对字序列的首部添加分类字，以及在字序列的尾部添加分割字，形成目标字序列，承接上例，处理后的目标字序列为([CLS]，去，年，的，春，节，晚，会，[SEP])，其中，[CLS]表征分类字(CLS为分类classify的英文缩写)，[SEP]表征分割字(SEP为分割segmentation的英文缩写)；

再对目标字序列进行向量化处理，得到目标字序列中每个字的字向量；

最后，根据各个字向量的第三注意力权重，分别确定各个字向量对应的文本子特征，将各个文本子特征进行拼接得到文本特征；其中，每个字向量的第三注意力权重表征相应的一个字向量与其他字向量的关联程度。

参阅图2a的结构示意图可知，在查询信息处理模型中包括预处理模块和文本Transformer网络。参阅图3b示出的文本Transformer网络的结构示意图，在文本Transformer网络中主要包含了一个注意力模块和与注意力模块相连的前馈神经网络，而注意力模块中包含了三个预设的权重矩阵，三个预设的权重矩阵分别用于生成各个字向量的查询向量、键向量和值向量。为了捕获到更多的输入与输出之间的关系，还可以在文本Transformer网络中添加多个注意力模块。

在认知神经学中，注意力是一种人类不可或缺的复杂认知功能，指的是人们可以在关注一些信息的同时忽略另一些信息的选择能力。在日常生活中，人们可以通过视觉、听觉、触觉等方式接收大量的感觉输入，但是大脑还可以在大量外界信息的轰炸中有条不紊地工作，这是因为大脑可以有意或者无意地从大量的输入信息中选择小部分的有用信息进行重点处理，并忽略其他信息，例如，人们在阅读时，通常只有少量要的词被关注和处理。类似地，注意力机制也可以让神经网络具备专注于其输入特征的能力——即选择特定的输入特征，这样在有限的计算能力下，采用注意力机制将计算资源分配给更重要的任务，有效解决信息超载的问题。

为了加快处理速度，将各个字向量拼接为一个字向量矩阵。若文本Transformer网络中仅存在一个注意力模块，则将字向量矩阵输入到注意力模块中，得到每个字向量的第三注意力权重，再根据每个字向量的第三注意力权重，确定每个字向量对应的文本特征；若文本Transformer网络中存在多个注意力模块，将同一字向量矩阵分别输入到各个注意力模块中，在获得各个注意力模块针对各个字向量对应的文本特征之后，将同一字向量的多个文本特征相加，将相加后得到的文本特征作为同一字向量的目标文本特征输出。

为了便于描述，以一个注意力模块为例，对生成文本特征的过程进行介绍。

首先，生成字向量矩阵的查询向量、键向量和值向量。

参阅图3c示出的向量生成示意图，将字向量矩阵作为输入矩阵，使用线性变阵矩阵W_Q、W_K、W_V，得到字向量矩阵的查询向量、键向量和值向量，其中，一行查询向量表征字向量矩阵中一个字向量的查询向量，一行键向量表征字向量矩阵中一个字向量的键向量，一行值向量表征字向量矩阵中一个字向量的值向量。

其次，读取一个字向量的查询向量。

再次，将该字向量的查询向量和字向量矩阵的键向量相乘，得到该字向量的第三注意力权重，将该字向量的第三注意力权重和字向量权重的值向量相乘，得到该字向量的文本子特征。

最后，循环上述步骤，直到字向量矩阵中的所有字向量均被读取完毕，将各个文本子特征进行拼接得到文本特征。

例如，查询信息为“去年的春节晚会”，查询信息对应的目标字序列为([CLS]，去，年，的，春，节，晚，会，[SEP])，目标字序列对应的字向量矩阵是一个形如

9行n维的矩阵，W_Q、W_K和W_V是相同的权重矩阵，均为n行9维的矩阵，

则生成的查询向量Q＝键向量K＝值向量

读取第一个字向量的查询向量[1 2 2 2 0]，将其与键向量K相乘得到第三注意力权重为

再将第三注意力权重与值向量相乘得到文本子特征为

矩阵中的数字仅为示意性表述，并非是精准数据。

在介绍完文本特征的生成过程之后，接下来对视觉特征的生成过程进行介绍。

首先，对一个视频进行特征提取，得到该视频中每个视频帧的图像特征，以及动态特征。

参阅图2a的结构示意图可知，在视频处理模型中包括图像特征提取子模型、动态特征提取子模型和视觉Transformer网络。在本申请实施例中，图像特征提取子模型为inception v4神经网络，将该视频输入到inception v4神经网络中，分别对该视频中每个视频帧进行卷积处理，获得该视频中每个视频帧的图像特征。在本申请实施例中，动态特征提取子模型为i3d神经网络，在获取每个视频帧的图像特征的同时，将该视频输入到i3d神经网络中，经过对该视频中连续视频帧的卷积处理，确定该视频中连续视频帧内至少一个对象的运动状态，并根据至少一个对象的运动状态，获得该视频的动态特征。对象包括但不限于人、动物，以及车辆等无生命体；运动状态包括但不限于奔跑、行驶、弹奏乐器等。假设查询信息是“减肥”这个关键词，将某一视频输入到i3d神经网络进行视频行为识别，得到的识别结果为“瑜伽”，从而更好地将包含“瑜伽”行为的视频与关键词“减肥”关联在一起，有利于提高视频与查询信息之间的相似度计算准确率，进而更好地对召回的视频进行重排序。

其次，分别根据动态特征的第四注意力权重和各个图像特征的第五注意力权重，确定动态特征和各个图像特征各自对应的视觉子特征，将各个视觉子特征进行拼接得到视觉特征；其中，第四注意力权重表征动态特征对第二拼接矩阵中各个特征的关联程度，每个图像特征的第五注意力权重表征相应的一个图像对第二拼接矩阵中各个特征的关联程度，第二拼接矩阵是将动态特征和各个图像特征拼接得到的。

视觉Transformer网络具体执行的步骤与文本Transformer网络相似，具体的表达方式已在字向量的文本子特征的生成过程中介绍了，在此不再赘述。

S2022：根据文本特征的第一注意力权重，确定文本特征的第一上下文关联特征，以及根据视觉特征的第二注意力权重，确定视觉特征的第二上下文关联特征；其中，文本特征的第一注意力权重表征文本特征与第一拼接矩阵中各个特征的关联程度，视觉特征的第二注意力权重表征视觉特征与第一拼接矩阵中各个特征的关联程度，第一拼接矩阵是将文本特征和视觉特征拼接得到的。

在执行步骤2022时，为了加快处理速度，先将文本特征和视觉特征进行拼接得到第一拼接矩阵，将第一拼接矩阵输入到跨模态交互模型中进行后续处理。参阅图2a的结构示意图可知，跨模态交互模型中主要包括融合Transformer网络，融合Transformer网络中可以包含一个或者多个注意力模块。

接下来，对融合Transformer网络确定第一上下文关联特征的过程进行介绍。

首先，根据第一拼接矩阵和预设的多个权重矩阵，分别获得第一拼接矩阵的查询向量、第一拼接矩阵的键向量和第一拼接矩阵的值向量，其中，第一拼接矩阵的查询向量包括文本特征中各个文本自特征的查询向量；

其次，根据获得的各个文本子特征的查询向量和第一拼接矩阵的键向量，分别得到各个文本子特征的第六注意力权重，并将各个文本子特征的第六注意力权重，并将各个文本子特征的第六注意力权重进行拼接，得到文本特征的第一注意力权重；

最后，根据获得的各个文本特征的第一注意力权重和第一拼接矩阵的值向量，得到文本特征的第一上下文关联特征。

第一上下文关联特征的生成方式与字向量的文本子特征的生成方式相似，具体的表达方式已在字向量的文本子特征的生成过程中介绍了，在此不再赘述。

紧接着，再对融合Transformer网络确定第二上下文关联特征的过程进行介绍。

首先，根据第一拼接矩阵和预设的多个权重矩阵，分别获得第一拼接矩阵的查询向量、第一拼接矩阵的键向量和第一拼接矩阵的值向量，其中，第一拼接矩阵的查询向量包括视觉特征中各个视觉子特征的查询向量；

其次，根据获得的各个视觉子特征的查询向量与第一拼接矩阵的键向量，得到各个视觉子特征的第七注意力权重，并将各个视觉子特征的第七注意力权重进行拼接，得到视觉特征的第二注意力权重；

最后，根据获得的视觉特征的第二注意力权重和第一拼接矩阵的值向量，得到视觉特征的第二上下文关联特征。

第二上下文关联特征的生成方式与字向量的文本子特征的生成方式相似，具体的表达方式已在字向量的文本子特征的生成过程中介绍了，在此不再赘述。

S2023：基于第一上下文关联特征和第二上下文关联特征，确定相似度。

参阅图2a的结构示意图可知，跨模态交互模型中不仅包括融合Transformer网络，还包括全连接层和Softmax层，步骤2022输出的第一上下文关联特征和第二上下文关联特征，依次经过全连接层和Softmax层之后，得到该视频与查询信息的相似度。

除了如图2所示的推荐系统外，还可以将视频的字幕信息和语音转文字信息作为视频的补充特征，形成如图4所示的推荐系统。在该系统中，包括查询信息处理模型、视频处理模型、视频辅助处理模型和跨模态交互模型，其中，视频辅助处理模型用于对视频进行字幕识别和语音识别，得到对应的字幕信息和语音转文字信息，并对字幕信息和语音转文字信息进行特征提取，得到视频描述特征。

为了便于描述，以一个视频为例，对如图4所示的推荐系统生成该视频的相似度的过程进行介绍。

首先，对该视频进行字幕识别和语音识别，得到对应的字幕信息和语音转文字信息。

参阅图4示出的结构示意图可知，在视频辅助处理模型中包括光学字符识别(Optical Character Recognition，OCR)模块和自动语音识别(Automatic SpeechRecognition)模块，OCR模块用于执行字幕识别操作，得到视频的字幕信息，ASR用于执行语音识别，得到视频的语音转文字信息。假设查询信息是人工智能技术研讨会，若只捕获视频画面的话，推荐系统只能识别出视频中人在讲话这一行为，在缺乏字幕信息和语音转文字信息时，是很难将该视频与查询信息相关联的。

其次，分别对获得的字幕信息和语音转文字信息进行特征提取，得到视频描述子特征，将各个视频描述子特征进行拼接得到视频描述特征。

再次，根据文本特征的第八注意力权重，确定文本特征的第三上下文关联特征，根据视觉特征的第九意力权重，确定视觉特征的第四上下文关联特征，以及根据视频描述特征的第十注意力权重，确定视频描述特征的第五上下文关联特征；其中，文本特征的第八注意力权重表征文本特征对第三拼接矩阵中各个特征的关联程度，视觉特征的第九注意力权重表征视觉特征对第三拼接矩阵中各个特征的关联程度，视频描述特征的第十注意力群众表征视觉描述特征对第三拼接矩阵中各个特征的关联注程度，第三拼接矩阵是将文本特征、视觉特征和视频描述特征拼接得到的。

参阅图4示出的结构示意图可知，在视频辅助处理模型中还包括文本Transformer网络，使用文本Transformer网络计算各个特征的注意力权重，得到第三上下文关联特征、第四上下文关联特征和第五上下文关联特征。第三上下文关联特征、第四上下文关联特征和第五上下文关联特征的生成方式，与字向量的文本子特征的生成方式相似，具体的表达方式已在字向量的文本子特征的生成过程中介绍了，在此不再赘述。

最后，基于第三上下文关联特征、第四上下文关联特征和第五上下文关联特征，确定相似度。

参阅图4的结构示意图可知，跨模态交互模型中不仅包括融合Transformer网络，还包括全连接层和Softmax层，第三上下文关联特征、第四上下文关联特征和第五上下文关联特征，依次经过全连接层和Softmax层之后，得到该视频与查询信息的相似度。

S203：基于至少两个视频各自对应的相似度，对至少两个视频进行排序，得到视频排序结果。

按照每个视频各自对应的相似度，对召回的至少两个视频进行排序，得到视频排序结果，并将视频排序结果返回终端，以使终端在任务界面中向目标账户展示相应的视频排序结果，视频排序结果如图5所示。

与上述方法实施例基于同一发明构思，本申请实施例还提供了一种视频推荐装置的结构示意图。如图6所示，视频推荐装置600可以包括：

查询模块601，用于获得输入的查询信息，并确定与所述查询信息相匹配的至少两个视频；

处理模块602，用于基于所述查询信息的文本特征和所述至少两个视频各自对应的视觉特征，分别获得所述至少两个视频各自与查询信息的相似度，其中，每个视频的视觉特征至少是基于相应视频的动态特征得到的，所述动态特征是基于连续视频帧内的至少一个对象的运动状态获得的；

排序模块603，用于基于所述至少两个视频各自与所述查询信息的相似度，对所述至少两个视频进行排序，得到视频排序结果。

可选的，在确定每个视频的相似度时，所述处理模块602执行以下操作：

可选的，所述处理模块602用于：

对所述查询信息进行分词，得到初始字序列；

可选的，所述处理模块602用于：

对所述一个视频进行特征提取，得到所述一个视频中每个视频帧的图像特征，以及所述动态特征；

可选的，所述处理模块602用于：

可选的，所述处理模块602用于:

可选的，所述处理模块602用于：

与上述方法实施例基于同一发明构思，本申请实施例还提供了一种视频推荐装置的结构示意图。如图7所示，视频推荐装置700可以包括：

搜索模块701，用于响应于触发操作，显示用于执行视频搜索任务的任务界面；

展示模块702，用于响应于通过所述任务界面触发的任务开始操作，执行所述视频搜索任务，获得排序结果，并在所述任务界面中展示所述排序结果。

在介绍了本申请示例性实施方式的视频推荐方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的电子设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

与上述方法实施例基于同一发明构思，本申请实施例中还提供了一种电子设备。该电子设备可以用于对召回的多个视频进行排序。在一种实施例中，该电子设备可以是服务器，如图1所示的服务器130，也可以是其他电子设备，如图1所示的终端110。在该实施例中，电子设备的结构可以如图8所示，包括存储器801，通讯模块803以及一个或多个处理器802。

存储器801，用于存储处理器802执行的计算机程序。存储器801可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及运行即时通讯功能所需的程序等；存储数据区可存储各种即时通讯信息和操作指令集等。

存储器801可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器801也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；或者存储器801是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器801可以是上述存储器的组合。

处理器802，可以包括一个或多个中央处理单元(central processing unit，CPU)或者为数字处理单元等等。处理器802，用于调用存储器801中存储的计算机程序时实现上述视频推荐方法。

通讯模块803用于与终端设备和其他服务器进行通信。

本申请实施例中不限定上述存储器801、通讯模块803和处理器802之间的具体连接介质。本公开实施例在图8中以存储器801和处理器802之间通过总线804连接，总线804在图8中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线804可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器801中存储有计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令用于实现本申请实施例的视频推荐方法。处理器802用于执行上述的视频推荐方法。

本申请的实施例还提供了一种计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令用于实现本申请任一实施例所记载的视频推荐方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

在一些可能的实施方式中，本申请提供的视频推荐方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的视频推荐方法中的步骤，例如，计算机设备可以执行如图2b中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算装置上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种视频推荐方法，其特征在于，该方法包括：

2.如权利要求1所述的方法，其特征在于，所述基于所述查询信息的文本特征和所述至少两个视频各自对应的视觉特征，分别获得所述至少两个视频各自与所述查询信息的相似度，其中，在确定每个视频的相似度时，执行以下操作：

3.如权利要求2所述的方法，其特征在于，所述对所述查询信息进行特征提取，得到对应的文本特征，包括：

对所述查询信息进行分词，得到初始字序列；

4.如权利要求2所述的方法，其特征在于，所述对所述一个视频进行特征提取，得到对应的视觉特征，包括：

5.如权利要求4所述的方法，其特征在于，所述对所述一个视频进行特征提取，得到所述一个视频中每个视频帧的图像特征，以及所述动态特征，包括：

6.如权利要求2所述的方法，其特征在于，根据所述文本特征的第一注意力权重，确定所述文本特征的第一上下文关联特征，包括:

7.如权利要求2所述的方法，其特征在于，根据所述视觉特征的第二注意力权重，确定视觉特征的第二上下文关联特征，包括：

8.如权利要求2-7任一项所述的方法，其特征在于，在得到所述文本特征和所述视觉特征之后，在得到所述第一上下文关联特征和所述第二上下文关联特征之前，进一步包括：

9.一种视频推荐装置，其特征在于，该装置包括：

10.一种电子设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行权利要求1～8中任一所述方法的步骤。

11.一种计算机可读存储介质，其特征在于，其包括程序代码，当所述程序代码在电子设备上运行时，所述程序代码用于使所述电子设备执行权利要求1～8中任一所述方法的步骤。