CN114449342A

CN114449342A - 视频推荐方法、装置、计算机可读存储介质和计算机设备

Info

Publication number: CN114449342A
Application number: CN202210072921.3A
Authority: CN
Inventors: 王妮; 廖东亮; 黎功福; 徐进
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2022-05-06
Anticipated expiration: 2042-01-21
Also published as: CN114449342B

Abstract

本申请实施例公开了一种视频推荐方法、装置、计算机可读存储介质和计算机设备；通过获取检索内容以及至少一个待推荐视频；在待推荐视频中提取待推荐视频中每一图像帧对应的视觉特征；将视觉特征进行多尺度切分，得到每一尺度对应的多个帧特征集合；对帧特征集合中的帧特征进行差分处理，得到帧特征集合对应的差分特征；基于帧特征集合和对应的差分特征，确定待推荐视频对应的局部视频特征；根据局部视频特征、视觉特征以及检索内容，对待推荐视频进行排序，并对排序后待推荐视频进行推荐。以此，通过获取表征待推荐视频的时序信息以及局部信息的局部视频特征来对待推荐视频进行推荐，提高了视频推荐的准确性，进而提升了视频推荐效率。

Description

视频推荐方法、装置、计算机可读存储介质和计算机设备

技术领域

本申请涉及互联网技术领域，具体涉及一种视频推荐方法、装置、计算机可读存储介质和计算机设备。

背景技术

随着互联网技术的快速发展，多媒体的应用越来越广泛，视频数量也急剧增长。为了可以在海量视频中筛选出需要的视频，用户可以通过视频推荐系统来获取需要的视频，其中，视频推荐系统一般是从海量视频中召回与用户输入的查询信息相匹配的视频，并基于召回的视频进行排序得到对应的视频列表。

在对现有技术的研究和实践过程中，本发明的发明人发现，现有的视频推荐方法通常是根据用户输入的检索信息和视频主题的相似度来进行推荐，当召回的待推荐视频中存在主题与视频内容不相关的视频时，这种方法极易导致推荐的视频内容与检索信息不符合的情况，使得视频推荐的准确性较差，进而导致视频推荐的效率较低。

发明内容

本申请实施例提供一种视频推荐方法、装置、计算机可读存储介质和计算机设备，可以提高视频推荐的准确性，进而提升视频推荐效率。

本申请实施例提供一种视频推荐方法，包括：

获取检索内容以及所述检索内容对应的至少一个待推荐视频；

在所述待推荐视频中提取所述待推荐视频中每一图像帧对应的视觉特征；

将所述视觉特征进行多尺度切分，得到每一尺度对应的多个帧特征集合；

对所述帧特征集合中的帧特征进行差分处理，得到所述帧特征集合对应的差分特征；

基于所述帧特征集合和所述帧特征集合对应的差分特征，确定所述待推荐视频对应的局部视频特征；

根据所述局部视频特征、所述视觉特征以及所述检索内容，对所述待推荐视频进行排序，得到排序后待推荐视频，并对排序后待推荐视频进行推荐。

相应的，本申请实施例提供一种视频推荐装置，包括：

获取单元，用于获取检索内容以及至少一个待推荐视频；

提取单元，用于在所述待推荐视频中提取所述待推荐视频中每一图像帧对应的视觉特征；

切分单元，用于将所述视觉特征进行多尺度切分，得到每一尺度对应的多个帧特征集合；

差分单元，用于对所述帧特征集合中的帧特征进行差分处理，得到所述帧特征集合对应的差分特征；

确定单元，用于基于所述帧特征集合和对应的差分特征，确定所述待推荐视频对应的局部视频特征；

推荐单元，用于根据所述局部视频特征、所述视觉特征以及所述检索内容，对所述待推荐视频进行排序，得到排序后待推荐视频，并对排序后待推荐视频进行推荐。

在一实施例中，所述推荐单元，包括：

全局视频特征提取子单元，用于对所述视觉特征进行特征提取，得到所述待推荐视频对应的全局视频特征；

融合子单元，用于将所述全局视频特征和所述局部视频特征进行融合，得到视频特征；

排序子单元，用于根据所述视频特征以及所述检索内容，对所述待推荐视频进行排序，得到排序后待推荐视频。

在一实施例中，所述排序子单元，包括：

内容特征提取模块，用于对所述检索内容进行特征提取，得到所述检索内容对应的内容特征；

相似度计算模块，用于计算所述视频特征和所述内容特征之间的相似度，得到特征相似度；

排序模块，用于基于所述特征相似度对每一待推荐视频进行排序，得到排序后待推荐视频。

在一实施例中，所述相似度计算模块，包括：

特征映射子模块，用于分别对所述视频特征和所述内容特征进行同一维度的特征映射，得到所述视频特征对应的映射后视频特征，以及所述内容特征对应的映射后内容特征；

相似度计算子模块，用于计算所述映射后视频特征和所述映射后内容特征之间的相似度，得到所述视频特征和所述内容特征之间的特征相似度。

在一实施例中，所述全局视频特征提取子单元，包括：

全局映射模块，用于对所述待推荐视频对应的视觉特征进行特征映射，得到所述视觉特征对应的全局映射特征；

特征融合模块，用于将所述全局映射特征和对应的视觉特征进行特征融合，得到融合后视觉特征；

均值处理模块，用于对融合后视觉特征进行均值处理，得到所述待推荐视频对应的全局视频特征。

在一实施例中，所述确定单元，包括：

目标帧特征确定子单元，用于在所述帧特征集合中确定目标帧特征；

拼接子单元，用于对所述目标帧特征以及所述帧特征集合对应的差分特征进行拼接，得到所述待推荐视频对应的局部视频特征。

在一实施例中，所述目标帧特征确定子单元，包括：

帧关联特征提取模块，用于对所述帧特征集合中每一帧特征进行特征提取，得到每一帧特征对应的帧关联特征；

帧关联权重确定模块，用于基于所述帧关联特征，确定每一帧特征对应的帧关联权重；

筛选模块，用于根据所述帧关联权重，在所述帧特征集合中筛选出目标帧特征。

在一实施例中，所述差分单元，包括：

匹配帧特征确定子单元，用于在所述帧特征集合中确定每一帧特征对应的匹配帧特征，并将所述帧特征集合中每一帧特征和对应的匹配帧特征作为一个匹配特征对；

特征差值计算子单元，用于计算所述帧特征集合中每一匹配特征对之间的特征差值，得到每一匹配特征对对应的差分特征；

赋值子单元，用于将所述帧特征集合中每一匹配特征对对应的差分特征作为所述帧特征集合对应的差分特征。

在一实施例中，所述切分单元，包括：

尺度切分参数获取子单元，用于获取所述视觉特征对应的至少一个尺度切分参数；

标记子单元，用于根据所述尺度切分参数，分别对所述待推荐视频对应的视觉特征进行标记，得到所述视觉特征对应的标记信息；

切分子单元，用于基于所述标记信息对所述视觉特征进行切分，并基于切分后视觉特征得到每一尺度对应的多个帧特征集合。

在一实施例中，所述尺度切分参数获取子单元，包括：

视觉关联特征提取模块，用于对所述视觉特征进行特征提取，得到每一视觉特征对应的视觉关联特征；

视觉关联权重确定模块，用于基于所述视觉关联特征，确定每一视觉特征对应的视觉关联权重；

尺度切分参数确定模块，用于获取多个预设切分参数，并根据所述视觉关联权重和预设切分参数，确定所述视觉特征对应的至少一个尺度切分参数。

在一实施例中，所述尺度切分参数确定模块，包括：

关联权重分布计算子模块，用于根据所述视觉关联权重计算所述视觉特征的关联权重分布；

关联特征分布确定子模块，用于基于所述关联权重分布确定所述视觉特征之间的关联特征分布，并根据所述关联特征分布对所述视觉特征进行标记；

参数确定子模块，用于基于标记后视觉特征以及所述预设切分参数，确定所述视觉特征对应的至少一个尺度切分参数。

在一实施例中，所述提取单元，包括：

分割子单元，用于将所述待推荐视频中每一图像帧进行分割处理，得到每一图像帧对应的多个区域子图像；

区域子图像特征提取子单元，用于对所述区域子图像进行特征提取，得到每一图像帧对应的区域子图像特征；

视觉特征提取子单元，用于对所述每一图像帧对应的区域子图像特征进行特征提取，得到所述待推荐视频中每一图像帧对应的视觉特征。

此外，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例所提供的任一种视频推荐方法中的步骤。

此外，本申请实施例还提供一种计算机设备，包括处理器和存储器，所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序实现本申请实施例提供的视频推荐方法。

本申请实施例还提供一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机设备执行本申请实施例提供的视频推荐方法中的步骤。

本申请实施例通过获取检索内容以及检索内容对应的至少一个待推荐视频；在待推荐视频中提取待推荐视频中每一图像帧对应的视觉特征；将视觉特征进行多尺度切分，得到每一尺度对应的多个帧特征集合；对帧特征集合中的帧特征进行差分处理，得到帧特征集合对应的差分特征；基于帧特征集合和帧特征集合对应的差分特征，确定待推荐视频对应的局部视频特征；根据局部视频特征、视觉特征以及检索内容，对待推荐视频进行排序，得到排序后待推荐视频，并对排序后待推荐视频进行推荐。以此，通过将待推荐视频对应的视觉特征进行多尺度切分，来捕抓待推荐视频中的局部信息，进而对每一尺度对应的帧特征集合中的帧特征进行差分处理，来考虑待推荐视频中的时序信息，进而根据多尺度切分得到的帧特征集合和差分处理得到的差分特征，来确定待推荐视频对应的局部视频特征，以基于局部视频特征来表征待推荐视频中的时序信息以及局部信息，从而基于局部视频特征、视觉特征以及检索内容，来对待推荐视频进行排序并推荐，提升了检索内容与待推荐视频的视觉相关性，提高了视频推荐的准确性，进而提升了视频推荐效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频推荐方法实施场景示意图；

图2是本申请实施例提供的一种视频推荐方法的流程示意图；

图3a是本申请实施例提供的一种视频推荐方法的现有视频推荐示意图；

图3b是本申请实施例提供的一种视频推荐方法的图像帧分割示意图；

图4是本申请实施例提供的一种视频推荐方法的多尺度时序差分转换器结构示意图；

图5是本申请实施例提供的一种视频推荐方法的视频推荐模型结构示意图；

图6是本申请实施例提供的一种视频推荐方法的另一流程示意图；

图7是本申请实施例提供的视频推荐装置的结构示意图；

图8是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种视频推荐方法、装置、计算机可读存储介质和计算机设备。其中，该视频推荐装置可以集成在计算机设备中，该计算机设备可以是服务器，也可以是终端等设备。

请参阅图1，以视频推荐装置集成在计算机设备中为例，图1为本申请实施例所提供的视频推荐方法的实施场景示意图，包括服务器A以及终端B，其中，服务器A可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器A可以获取检索内容以及该检索内容对应的至少一个待推荐视频；在待推荐视频中提取待推荐视频中每一图像帧对应的视觉特征；将视觉特征进行多尺度切分，得到每一尺度对应的多个帧特征集合；对帧特征集合中的帧特征进行差分处理，得到帧特征集合对应的差分特征；基于帧特征集合和帧特征集合对应的差分特征，确定待推荐视频对应的局部视频特征；根据局部视频特征、视觉特征以及检索内容，对待推荐视频进行排序，得到排序后待推荐视频，并对排序后待推荐视频进行推荐。

终端B可以是手机、电脑、智能语音交互设备、智能家电、车载终端等各种计算机设备，但并不局限于此。

终端B以及服务器A可以通过有线或无线通信方式进行直接或间接地连接，服务器A可以获取终端B上传的数据以执行相应的视频推荐操作，本申请在此不做限制。

需要说明的是，图1所示的视频推荐方法的实施环境场景示意图仅仅是一个示例，本申请实施例描述的视频推荐方法的实施环境场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定。本领域普通技术人员可知，随着视频推荐的演变和新业务场景的出现，本申请提供的技术方案对于类似的技术问题，同样适用。

以下分别进行详细说明。需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从视频推荐装置的角度进行描述，该视频推荐装置具体可以集成在计算机设备中，该计算机设备可以是服务器，本申请在此不作限制。

请参阅图2，图2是本申请实施例提供的视频推荐方法的流程示意图。该视频推荐方法包括：

101、获取检索内容以及检索内容对应的至少一个待推荐视频。

其中，该检索内容可以为具有特定含义的内容，可以基于该检索内容，查找与该检索内容相关的信息并进行反馈。该检索内容可以为文本内容，也可以为音频、图像等其他形式的内容。可选的，获取检索内容的方式可以有多种该检索内容可以由用户直接输入来获取，也可以通过用户间接输入来获取等，在此不做限定。

该待推荐视频可以为检索内容对应的待进行推荐的至少一个视频，其中，获取待推荐视频的方式可以有多种，例如，可以在获取到检索内容之后，基于获取到检索内容进行召回，以此来得到至少一个待推荐视频。

在现有的视频推荐方法中，通常是根据用户输入的检索内容和视频主题的相似度来进行视频的推荐，当召回的待推荐视频中存在主题与视频内容不相关的视频时，这种方法极易导致推荐的视频内容与检索内容不符合的情况，例如，请参考图3a，图3a是本申请实施例提供的一种视频推荐方法的现有视频推荐示意图，当输入检索内容“红烧肉”时，现有的视频推荐方法推荐了主题与检索内容“红烧肉”不符合的视频，例如图中的“红烧肉X歌”，这种视觉相关性较差的视频推荐方法，使得视频推荐的准确性较差，进而导致视频推荐的效率较低。为此，本申请实施例提供了一种视频推荐方法，通过捕抓待推荐视频中的时序信息以及局部信息，来对待推荐视频进行排序并推荐，以此，可以提升检索内容与待推荐视频的视觉相关性，保证召回视频在视频语义层面的准确性，进而可以提高视频推荐的准确性，从而提升视频推荐效率。下面进行具体的说明。

102、在待推荐视频中提取待推荐视频中每一图像帧对应的视觉特征。

其中，该图像帧可以为在待推荐视频中抽取出来的至少一帧图像，该视觉特征可以为表征该图像帧的视觉信息的特征，每一视觉特征可以对应一个图像帧。

其中，在待推荐视频中抽取出图像帧的方式可以有多种，例如，可以对待推荐视频中每一帧的图像都进行抽取，来得到待推荐视频中的每一图像帧，也可以根据预设的抽帧频率来对待推荐视频中的图像进行抽取，以此来避免图像帧的数量太多占用大量存储空间或者降低计算速率的情况。

其中，根据预设的抽帧频率来对待推荐视频中的图像进行抽取的方式可以有多种，比如，可以根据待推荐视频的长度来确定抽帧频率，从而可以采用预设的抽帧频率来对待推荐视频中的图像进行抽取，得到待推荐视频对应的图像帧，例如，当待推荐视频的长度较长时，可以采用每2秒抽取一帧视频帧的抽取频率，当待推荐视频的长度较短时，可以采用每秒抽取两帧视频帧的抽取频率进行图像帧的抽取等。

其中，在待推荐视频中提取待推荐视频中每一图像帧对应的视觉特征的方式可以有多种，例如，可以将该待推荐视频中每一图像帧进行分割处理，得到每一图像帧对应的多个区域子图像，对该区域子图像进行特征提取，得到每一图像帧对应的区域子图像特征，对该每一图像帧对应的区域子图像特征进行特征提取，得到该待推荐视频中每一图像帧对应的视觉特征。

其中，该区域子图像可以为对每一图像帧进行分割处理后得到的每一区域的子图像，该区域子图像特征可以为表征区域子图像的特征信息。

其中，将该待推荐视频中每一图像帧进行分割处理的方式可以有多种，比如，可以根据实际需求，确定图像帧的分割参数，进而可以根据分割参数来对图像帧进行分割，来得到每一图像帧对应的多个区域子图像。

其中，该分割参数可以为如何将图像帧进行分割的参数，具体取值可以根据实际需求进行选取，比如，当准确度要求较高或者计算能力较强时，可以将分割参数设定为更大的值，来将图像帧分割为数量更多的区域子图像，例如，可以将图像帧分割为12个区域子图像，或者16个区域子图像等，当准确度要求较低获取计算能力较弱时，可以将分割参数设定为相对较小的值，来将图像帧分割为数量较少的区域子图像，例如，可以将图像帧分割为8个区域子图像，或者4个区域子图像等，譬如，请参考图3b，图3b为本申请实施例提供的一种视频推荐方法的图像帧分割示意图，其中，该分割参数可以为四等分，可以将每一图像帧分割为四等分，得到如图3b中虚线所划分得到的四个区域子图像。

在将该待推荐视频中每一图像帧进行分割处理之后，便可以对该区域子图像进行特征提取，来得到每一图像帧对应的区域子图像特征，进而对该每一图像帧对应的区域子图像特征进行特征提取，得到该待推荐视频中每一图像帧对应的视觉特征。其中，对区域子图像进行特征提取的方式可以有多种，比如，可以采用视觉转换器(Vision Transformer，也称视觉Transformer，简称ViT)，来将该待推荐视频中每一图像帧进行分割处理，进而对该区域子图像进行特征提取，来得到每一图像帧对应的区域子图像特征，从而对该每一图像帧对应的区域子图像特征进行特征提取，得到该待推荐视频中每一图像帧对应的视觉特征。

例如，可以利用视觉Transformer对每一帧图像帧进行切分为多个区域，得到每一帧图像帧对应的多个区域子图像(patch)，对每一个区域利用视觉Transformer中的卷积核进行区域向量化，得到每一图像帧对应的区域子图像特征，接着将每一图像帧视为一个序列，序列中的每个元素即为每一区域对应的区域子图像特征，将此序列输入到视觉Transformer中，对每一图像帧进行高维特征的学习。从而将每一待推荐视频视为一个序列，序列中的每个元素即为单帧图像帧的高维特征，也即每一图像帧对应的视觉特征。

103、将视觉特征进行多尺度切分，得到每一尺度对应的多个帧特征集合。

其中，该帧特征集合可以为多个帧特征构成的整体，该帧特征可以为对待推荐视频的视觉特征进行多尺度的切分之后的视觉特征，例如，可以以一帧为一尺度将视觉特征进行切分、以两帧为一尺度将视觉特征进行切分以及以四帧为一尺度将视觉特征进行切分等多尺度，来对视觉特征进行多尺度切分，得到每一尺度对应的多个帧特征集合，比如，假设一待推荐视频中提取出来8帧图像帧，并进行特征提取得到8帧图像帧对应的8帧视觉特征，分别为(t1，t2，t3，t4，t5，t6，t7，t8)，进而将视觉特征进行多尺度切分，以两帧为一尺度将视觉特征进行切分为例，得到该尺度对应的4个帧特征集合，分别为帧特征集合1(t1，t2)、帧特征集合2(t3，t4)、帧特征集合3(t5，t6)以及帧特征集合3(t7，t8)，其中，视觉特征t1和t2是帧特征集合1中的两个帧特征，视觉特征t3和t4是帧特征集合2中的两个帧特征，视觉特征t5和t6是帧特征集合3中的两个帧特征，视觉特征t7和t8是帧特征集合4中的两个帧特征。

其中，将视觉特征进行多尺度切分的方式可以有多种，比如，假设一待推荐视频中提取出来12帧图像帧，并进行特征提取得到12帧图像帧对应的12帧视觉特征，分别为(t1，t2，t3，t4，t5，t6，t7，t8，t9，t10，t11，t12)，并可以采用三帧为一尺度、四帧为一尺度、六帧为一尺度的三个尺度切分方式来将视觉特征进行多尺度的切分，从而可以得到每一尺度对应的多个帧特征集合，具体分别为三帧为一尺度对应的四个帧特征集合(t1，t2，t3)、(t4，t5，t6)、(t7，t8，t9)以及(t10，t11，t12)，四帧为一尺度对应的三个帧特征集合(t1，t2，t3，t4)(t5，t6，t7，t8)以及(t9，t10，t11，t12)，六帧为一尺度对应的两个帧特征集合(t1，t2，t3，t4，t5，t6)以及(t7，t8，t9，t10，t11，t12)。

此外，对于将视觉特征进行多尺度切分的方式，还可以获取该视觉特征对应的至少一个尺度切分参数，根据该尺度切分参数，分别对该待推荐视频对应的视觉特征进行标记，得到该视觉特征对应的标记信息，基于该标记信息对该视觉特征进行切分，并基于切分后视觉特征得到每一尺度对应的多个帧特征集合。

其中，该尺度切分参数可以为表征如何对视觉特征序列进行切分的参数，例如，该尺度切分参数可以为数值3，表示对待推荐视频的视觉特征序列中的每3个视觉特征进行切分，该尺度切分参数也可以为包含在待推荐视频的视觉特征序列中的第几个视觉特征进行切分的信息，例如，假设待推荐视频的视觉特征序列中包含15个视觉特征，同时可以假设该尺度切分参数可以为(3，5，10，12)，则该尺度切分参数表示在待推荐视频的视觉特征序列中的第3、5、10、12个视觉特征中进行切分，以此，可以得到第1帧到第3帧对应的帧特征集合、第4帧到第5帧对应的帧特征集合、第6帧到第10帧对应的帧特征集合、第11帧到第12帧对应的帧特征集合以及第13帧到第15帧对应的帧特征集合。该标记信息可以为标记待推荐视频的视觉特征序列中需要进行切分的位置的信息。

其中，获取该视觉特征对应的至少一个尺度切分参数的方式可以有多种，比如，可以对该视觉特征进行特征提取，得到每一视觉特征对应的视觉关联特征，基于该视觉关联特征，确定每一视觉特征对应的视觉关联权重，获取多个预设切分参数，并根据视觉关联权重和预设切分参数，确定视觉特征对应的至少一个尺度切分参数。

其中，该视觉关联特征可以为表征每一视觉特征与其他视觉特征之间的关联关系的特征信息，例如，可以表征每一视觉特征与其他视觉特征之间的相似程度，该视觉关联权重可以为表征待推荐视频中每一视觉特征的重要程度，也即可以表征每一视觉特征与其他视觉特征之间的关联程度，该预设切分参数可以为预先设定的表示对待推荐视频中的视觉特征序列的切分尺度的参数，该预设切分参数可以有多个，且可以为任意数值，比如，该预设切分参数可以为3、4、5等数值，例如，可以假设预设切分参数可以为4，则可以表示对待推荐视频的视觉特征序列中的每4个视觉特征进行切分，同时，可以假设待推荐视频的视觉特征序列中包含15个视觉特征，则该预设切分参数表示在待推荐视频的15个视觉特征组成的视觉特征序列中将每4个视觉特征进行切分为一个帧特征集合，以此，可以得到第1帧到第4帧对应的帧特征集合、第5帧到第8帧对应的帧特征集合、第9帧到第12帧对应的帧特征集合以及第13帧到第15帧对应的帧特征集合。

其中，对该视觉特征进行特征提取，得到每一视觉特征对应的视觉关联特征，基于该视觉关联特征，确定每一视觉特征对应的视觉关联权重的方式可以有多种，例如，可以采用注意力网络(Attention)对视觉特征进行特征提取，来得到每一视觉特征对应的视觉关联特征，比如，可以将每一视觉特征转换为三个维度的空间向量，包括查询向量(query，简称q)、键向量(key，简称k)和值向量(value，简称v)，具体的转换方式可以理解为对每一视觉特征与三个维度的转换参数进行融合而得到的，将查询向量、键向量和值向量作为每一视觉特征对应的关联特征。

在对每一视觉特征进行特征提取之后，便可以基于该视觉关联特征，确定每一视觉特征对应的视觉关联权重。基于该视觉关联特征，确定每一视觉特征对应的视觉关联权重的方式可以有多种，例如，可以采用注意力网络将每一视觉特征对应的查询向量与其他视觉特征的键向量进行点积，可以得到每一视觉特征对应的注意力得分(score)，再基于每一视觉特征对应的注意力得分，来计算每一视觉特征对应的视觉关联权重。

其中，除了可以采用注意力网络对每一视觉特征进行特征提取以外，还可以采用其他可以捕捉每一视觉特征与其他视觉特征之间的关联关系，进而确定每一视觉特征在所有视觉特征中所占的权重的网络。

在确定每一视觉特征对应的视觉关联权重之后，便可以获取多个预设切分参数，并根据视觉关联权重和预设切分参数，确定视觉特征对应的至少一个尺度切分参数，其中，根据视觉关联权重和预设切分参数，确定视觉特征对应的至少一个尺度切分参数的方式可以有多种，例如，可以根据该视觉关联权重计算该视觉特征的关联权重分布，基于该关联权重分布确定该视觉特征之间的关联特征分布，并根据该关联特征分布对该视觉特征进行标记，基于标记后视觉特征以及预设切分参数，确定视觉特征对应的至少一个尺度切分参数。

其中，该关联权重分布可以为待推荐视频中视觉特征对应的视觉关联权重的散布，该关联特征分布可以为基于关联权重分布确定的视觉特征之间的关联特征分布，例如，可以基于视觉关联权重与对应的视觉特征之间的映射关系，将关联权重分布作为视觉特征之间的关联特征分布，可选的，可以基于视觉特征的时序以及视觉特征对应的视觉关联权重，来构成为一条权重分布曲线。

其中，根据该关联特征分布对该视觉特征进行标记的方式可以有多种，例如，可以获取一个预先设定的阈值，并将关联特征分布与这个阈值进行对比，来筛选出关联特征分布中大于这个阈值的区间，进而可以根据这个区间的端点在待推荐视频中视觉特征序列中的对应位置进行标记，该阈值可以为一个临界值，当关联特征分布中某一区域大于这个临界值，表明该区域对应的视觉特征之间的关联关系比较强。例如，假设待推荐视频包括8个视觉特征，分别为(t1，t2，t3，t4，t5，t6，t7，t8)，基于关联特征分布与阈值的对比结果，筛选出关联特征分布中大于这个阈值的区间端点对应为视觉特征t3到t4以及t5到t6的范围，因此，可以对t3以及t6进行标记，得到(t1，t2，mt3，t4，t5，t6m，t7，t8)，其中m为标记信息，表明可以在t3视觉特征以及t6视觉特征处进行切分，从而可以得到标记后视觉特征(mt3，t4，t5，t6m)。

在根据该关联特征分布对该视觉特征进行标记之后，便可以基于标记后视觉特征以及预设切分参数，确定视觉特征对应的至少一个尺度切分参数，其中，基于标记后视觉特征以及预设切分参数，确定视觉特征对应的至少一个尺度切分参数的方式可以有多种，比如，可以根据标记后视觉特征对待推荐视频对应的视觉特征进行初始划分，得到多个初始视觉特征区间，并获取每一初始视觉特征区间的特征数量，进而可以将特征数量大于预设阈值的初始视觉特征区间以预设切分参数进行划分，需要说明的是，此处的划分并未对视觉特征序列进行分开，而只是类似于归类的形式进行分类标记。从而可以基于划分后的视觉特征得到视觉特征对应的至少一个尺度切分参数。

例如，可以假设待推荐视频包括10个视觉特征，分别为(t1，t2，t3，t4，t5，t6，t7，t8，t9，t10)，标记后视觉特征(mt3，t4，t5，t6m)，该预设阈值可以为3，进而可以根据标记后视觉特征对待推荐视频对应的视觉特征进行初始划分，可以表示为(‘t1，t2’，mt3，t4，t5，t6m，‘t7，t8，t9，t10’)，以此可以得到多个初始视觉特征区间分别为‘t1，t2’、‘t7，t8，t9，t10’，从而可以获取每一初始视觉特征区间的特征数量，分别为2、4，进而可以将特征数量大于预设阈值的初始视觉特征区间‘t7，t8，t9，t10’以预设切分参数3进行划分，即得到‘t7，t8，t9’以及‘t10’，从而可以得到划分后的视觉特征(‘t1，t2’，‘t3，t4，t5，t6’，‘t7，t8，t9’，‘t10’)。从而可以基于划分后的视觉特征得到视觉特征对应的尺度切分参数为(2，6，9，10)，则该尺度切分参数表示在待推荐视频的视觉特征序列中的第2、6、9、10个视觉特征中进行切分。

在获取该视觉特征对应的至少一个尺度切分参数之后，便可以根据该尺度切分参数，分别对该待推荐视频对应的视觉特征进行标记，得到该视觉特征对应的标记信息，基于该标记信息对该视觉特征进行切分，并基于切分后视觉特征得到每一尺度对应的多个帧特征集合。

例如，假设待推荐视频包括10个视觉特征，分别为(t1，t2，t3，t4，t5，t6，t7，t8，t9，t10)，视觉特征对应的尺度切分参数为(2，6，9，10)，则可以根据该尺度切分参数，分别对该待推荐视频对应的视觉特征进行标记，得到(t1，t2m，t3，t4，t5，t6m，t7，t8，t9m，t10m)，从而可以得到该视觉特征对应的标记信息，该标记可以包含表示在待推荐视频的视觉特征序列中的第2、6、9、10个视觉特征后进行切分的信息，从而可以基于该标记信息对该视觉特征进行切分，并基于切分后视觉特征得到每一尺度对应的多个帧特征集合，分别为(t1，t2)、(t3，t4，t5，t6)、(t7，t8，t9)以及(t10)。

以此，通过对将视觉特征进行多尺度的切分，可以对待推荐视频中的局部细节信息进行更好的捕捉，进而可以提高视频推荐的准确性。

104、对帧特征集合中的帧特征进行差分处理，得到帧特征集合对应的差分特征。

其中，该差分特征可以为帧特征集合中两个帧特征之间的差值。

其中，对帧特征集合中的帧特征进行差分处理的方式可以有多种，比如，还可以在该帧特征集合中确定每一帧特征对应的匹配帧特征，并将该帧特征集合中每一帧特征和对应的匹配帧特征作为一个匹配特征对，计算该帧特征集合中每一匹配特征对之间的特征差值，得到每一匹配特征对对应的差分特征，将该帧特征集合中每一匹配特征对对应的差分特征作为该帧特征集合对应的差分特征。

其中，该匹配帧特征可以为帧特征集合中与帧特征集合中某一帧特征匹配的帧特征。

其中，在该帧特征集合中确定每一帧特征对应的匹配帧特征的方式可以有多种，比如，可以在该帧特征集合中确定每一帧特征对应的下一个帧特征为该帧特征对应的匹配帧特征，例如，假设待推荐视频的一个帧特征集合为(t6，t7，t8，t9)，则可以在该帧特征集合中确定帧特征t6对应的下一个帧特征t7为帧特征t6对应的匹配帧特征，帧特征t7对应的下一个帧特征t8为帧特征t7对应的匹配帧特征，帧特征t8对应的下一个帧特征t9为帧特征t8对应的匹配帧特征。此外，也可以在该帧特征集合中确定每一帧特征对应的间隔帧特征为该帧特征对应的匹配帧特征，例如，假设待推荐视频的一个帧特征集合为(t6，t7，t8，t9)，则可以在该帧特征集合中确定帧特征t6对应的间隔帧特征t8为帧特征t6对应的匹配帧特征，帧特征t7对应的下一个帧特征t9为帧特征t7对应的匹配帧特征等，具体的匹配帧特征的确定方法可以根据实际需求进行设定，在此不做限定。

在帧特征集合中确定每一帧特征对应的匹配帧特征之后，便可以将该帧特征集合中每一帧特征和对应的匹配帧特征作为一个匹配特征对，计算该帧特征集合中每一匹配特征对之间的特征差值，得到每一匹配特征对对应的差分特征，将该帧特征集合中每一匹配特征对对应的差分特征作为该帧特征集合对应的差分特征。例如，假设待推荐视频的一个帧特征集合甲为(t6，t7，t8，t9)，帧特征t6对应的匹配帧特征为帧特征t7，帧特征t7对应的匹配帧特征为帧特征t8，帧特征t8对应的匹配帧特征为帧特征t9，则可以得到匹配特征对，分别为匹配特征对1(t6，t7)、匹配特征对2(t7，t8)、匹配特征对3(t8，t9)，进而可以计算该帧特征集合中每一匹配特征对之间的特征差值，得到每一匹配特征对对应的差分特征，分别为匹配特征对1为(t7-t6)，匹配特征对2为(t8-t7)，匹配特征对3为(t9-t8)，从而可以将该帧特征集合甲中每一匹配特征对对应的差分特征(t7-t6)、(t8-t7)、(t9-t8)作为帧特征集合甲对应的差分特征。

以此，通过对待推荐视频对应的每一帧特征集合中的帧特征进行差分处理，来得到帧特征集合对应的差分特征以进行后续的视频推荐，可以捕抓帧与帧之间的差分信息来提升本申请实施例提供的视频推荐方法对待推荐视频中细粒度的动态信息以及时序信息的表征，进而可以对待推荐视频中的动作和场景转换等动态信息有更好的表征能力，从而可以提高视频推荐的准确性。

105、基于帧特征集合和帧特征集合对应的差分特征，确定待推荐视频对应的局部视频特征。

其中，该局部视频特征可以为表征待推荐视频中的局部信息的特征信息。

其中，基于该帧特征集合和帧特征集合对应的差分特征，确定该待推荐视频对应的局部视频特征的方式可以有多种，比如，可以在该帧特征集合中确定目标帧特征，对该目标帧特征以及该帧特征集合对应的差分特征进行拼接，得到该待推荐视频对应的局部视频特征。

其中，该目标帧特征可以为在帧特征集合中筛选出来用于确定待推荐视频对应的局部视频特征的帧特征。

其中，在该帧特征集合中确定目标帧特征的方式可以有多种，比如，可以将帧特征集合中的第一个帧特征确定为目标帧特征，例如，假设待推荐视频的一个帧特征集合甲为(t6，t7，t8，t9)，则可以将首帧t6确定为目标帧特征。

又比如，可以对该帧特征集合中每一帧特征进行特征提取，得到每一帧特征对应的帧关联特征，基于该帧关联特征，确定每一帧特征对应的帧关联权重，根据该帧关联权重，在该帧特征集合中筛选出目标帧特征。

其中，对该帧特征集合中每一帧特征进行特征提取的方式可以有多种，例如，可以采用注意力网络对该帧特征集合中每一帧特征进行特征提取，来得到每一帧特征对应的帧关联特征。

在对该帧特征集合中每一帧特征进行特征提取之后，便可以基于该帧关联特征，确定每一帧特征对应的帧关联权重，其中，基于该帧关联特征，确定每一帧特征对应的帧关联权重的方式可以有多种，例如，可以采用注意力网络来根据该帧关联特征，确定每一帧特征对应的帧关联权重。

在基于该帧关联特征，确定每一帧特征对应的帧关联权重之后，便可以根据该帧关联权重，在该帧特征集合中筛选出目标帧特征。其中，根据该帧关联权重，在该帧特征集合中筛选出目标帧特征的方式可以有多种，例如，可以根据每一帧特征对应的帧关联权重，对帧特征集合中的帧特征进行排序，从而可以将排名最靠前，也即帧关联权重最大的帧特征筛选出来，得到目标帧特征。

在该帧特征集合中确定目标帧特征之后，便可以对该目标帧特征以及该帧特征集合对应的差分特征进行拼接，得到该待推荐视频对应的局部视频特征。其中，对该目标帧特征以及该帧特征集合对应的差分特征进行拼接，得到该待推荐视频对应的局部视频特征的方式可以有多种，比如，可以将目标帧特征插入到该目标帧特征对应的差分特征子集的头部，基于每一尺度对应的帧特征集合对应的差分特征以及目标帧特征，构成多个多尺度帧-差分特征子集，进而可以对每一多尺度帧-差分特征子集进行特征融合，来得到待推荐视频对应的局部视频特征。

例如，可以假设待推荐视频的一个帧特征集合为(t6，t7，t8，t9)，对应的差分特征为C1＝t7-t6、C2＝t8-t7以及C3＝t9-t8，则可以将目标帧特征插入到该目标帧特征对应的差分特征子集的头部，得到对应的多尺度帧-差分特征子集为(t6，C1，C2，C3)，进而可以对每一多尺度帧-差分特征子集进行特征融合，譬如，请参考图4，图4是本申请实施例提供的一种视频推荐方法的多尺度时序差分转换器结构示意图，其中，视觉Transformer作为待推荐视频的视觉特征提取器，进行视觉特征的提取，在基于待推荐视频的视觉特征得到多个多尺度帧-差分特征子集之后，可以利用局部转换器(例如，可以为4层的Transformer编码器)对每一个尺度帧-差分特征子集进行特征融合，进而可以将所有尺度帧-差分特征子集对应的特征进行均值操作，将该均值作为待推荐视频对应的局部视频特征。

106、根据局部视频特征、视觉特征以及检索内容，对待推荐视频进行排序，得到排序后待推荐视频，并对排序后待推荐视频进行推荐。

其中，根据局部视频特征、视觉特征以及检索内容，对待推荐视频进行排序的方式可以有多种，例如，可以对该视觉特征进行特征提取，得到该待推荐视频对应的全局视频特征，将该全局视频特征和局部视频特征进行融合，得到视频特征，根据该视频特征以及该检索内容，对该待推荐视频进行排序。

其中，该全局视频特征可以为表征待推荐视频的整体属性的特征信息可以包括颜色特征、纹理特征和形状特征等特征，例如，可以包含表征待推荐视频的视频背景、视频静态实体等信息，该视频特征可以为基于全局视频特征和局部视频特征进行融合得到的特征，是本申请实施例提供的用于表征待推荐视频的特征信息。

其中，对该视觉特征进行特征提取的方式可以有多种，比如，可以对该待推荐视频对应的视觉特征进行特征映射，得到该视觉特征对应的全局映射特征，将该全局映射特征和对应的视觉特征进行特征融合，得到融合后视觉特征，对融合后视觉特征进行均值处理，得到该待推荐视频对应的全局视频特征。

其中，该全局映射特征可以为对该待推荐视频对应的视觉特征进行特征映射得到的特征信息，例如，可以为向量形式的嵌入特征，该融合后视觉特征可以为将该全局映射特征和对应的视觉特征进行特征融合后得到的特征信息。

例如，可以继续参考图4，可以利用一个全局转换器(例如4层的Transformer编码器)来将每一视觉特征映射成一个向量，也即全局映射特征，从而为了避免信息的损耗，可以将每一视觉特征对应的全局映射特征与输入的视觉特征做残差连接(add)，并将残差连接后的结果进行求均值操作，从而可以得到该待推荐视频对应的全局视频特征。

在对该视觉特征进行特征提取，得到该待推荐视频对应的全局视频特征之后，便可以将该全局视频特征和局部视频特征进行融合，得到视频特征。其中，将该全局视频特征和局部视频特征进行融合的方式可以有多种，例如，可以将局部视频特征和全局视频特征进行加权求和，来得到待推荐视频对应的视频特征。

在将该全局视频特征和局部视频特征进行融合之后，便可以根据该视频特征以及该检索内容，对该待推荐视频进行排序，得到排序后待推荐视频。其中，根据该视频特征以及该检索内容，对该待推荐视频进行排序的方式可以有多种，例如，可以对该检索内容进行特征提取，得到该检索内容对应的内容特征，计算该视频特征和该内容特征之间的相似度，得到特征相似度，基于该特征相似度对每一待推荐视频进行排序。

其中，该内容特征可以为表征检索内容的语义特征的特征信息，该特征相似度可以为表征视频特征和该内容特征之间的相似度的信息，用于衡量检索内容与待推荐视频之间的相关性。

其中，对该检索内容进行特征提取的方式可以有多种，例如，当该检索内容为文本形式的内容时，可以对该检索内容进行分词处理，得到至少一个检索词文本，将该检索词文本进行特征映射，得到该检索词文本对应的检索词特征，对该检索词特征进行特征提取，得到该检索内容对应的内容特征。

其中，该检索词文本可以为检索内容中的词，该检索词特征可以为表征检索词文本的语义特征。

其中，对该检索词特征进行特征提取的方式可以有多种，例如，请参考图5，图5是本申请实施例提供的一种视频推荐方法的视频推荐模型结构示意图，该视频推荐模型可以为以图像-文本预训练模型(Contrastive Language-Image Pre-training，简称CLIP)为基础的多尺度时序差分转换器模型，CLIP模型是在是基于大规模图像-文本对预训练的深度语言模型，本申请实施例通过CLIP模型作为视频推荐模型的基础框架，可以提高对待推荐视频中的静态实体上的表征能力，进而对待推荐视频的整体语义有了更准确的把控，可以提高视觉相关性部分的准确度，从而提高视频推荐的准确性。以此，可以通过本申请实施例提供的一种视频推荐方法的视频推荐模型来对该检索词特征进行特征提取，具体的，可以采用视频推荐模型对输入的检索内容进行预处理，可以包括格式清理、特殊符号处理、分词处理等预处理方法，进而可以将检索内容中的每个检索词文本映射成CLIP词表中的词标识(Identity document，简称id)，按id获取对应的词向量，从而可以得到每一检索词文本对应的检索词特征，利用CLIP中的文本转换器(12层的文本Transformer编码器)，对检索内容进行高维特征学习，最终获得检索内容对应的嵌入特征，也即内容特征。

在对该检索内容进行特征提取，得到该检索内容对应的内容特征之后，便可以计算该视频特征和该内容特征之间的相似度。其中，计算该视频特征和该内容特征之间的相似度的方式可以有多种，例如，可以分别对该视频特征和该内容特征进行同一维度的特征映射，得到该视频特征对应的映射后视频特征，以及该内容特征对应的映射后内容特征，计算该映射后视频特征和该映射后内容特征之间的相似度，得到该视频特征和该内容特征之间的特征相似度。

其中，该映射后视频特征可以为对该视频特征进行特征映射之后得到的特征信息，该映射后内容特征可以为对该内容特征进行特征映射之后得到的特征信息。

为了可以计算视频特征和该内容特征之间的相似度，需要将视频特征和该内容特征之间的相似度映射到同一维度的空间中，才可以进行相似度的计算，其中，分别对该视频特征和该内容特征进行同一维度的特征映射的方式可以有多种，例如，请继续参考图5，可以利用视频推荐模型中的全连接层将检索内容对应的内容特征和待推荐视频对应的视频特征映射到同一维度，即公共子空间中，得到映射后视频特征和该映射后内容特征，在此维度(空间)下，可以计算映射后视频特征和该映射后内容特征之间的相似度，从而可以基于映射后视频特征和该映射后内容特征的相似度，可以得到视频特征和该内容特征之间的特征相似度，也即检索内容和待推荐视频之间的相似度。

可选的，在对本申请实施例提供的视频推荐模型进行训练时，可以采用预训练+微调的方式对该视频推荐模型进行训练。具体的，请继续参考图5，可以将视频检索任务视为一个排序任务，通过检索内容和所有待推荐视频的相似度分数进行降序排序，排序越靠前，即分数越高。一般可以抽取排名前K名的待推荐视频作为最终检索结果，其中，K可以为根据实际需求预设的数值。此外，文本Transformer编码器和视觉Transformer编码器的参数均可以初始化为CLIP模型中相应模型的参数，以此基础上，再对多尺度时序差分转换器模型进行训练，训练过程中可以对非预训练模块采取较大的学习率，对预训练模块采取较小学习率。其中，可以采用公开学术数据集(例如MSR-VTT、MSVD、TGIF)等进行实验。在训练过程中，可以采用交叉熵损失函数作为模型训练的损失函数，采用优化算法(例如Adam优化算法)在训练集上训练该模型直至收敛，来得到训练后的视频推荐模型。

以此，请继续参考图4和图5，本申请实施例提供的视频推荐方法，可以通过视觉Transformer对待推荐视频进行特征提取，得到每一图像帧对应的视觉特征，进而以图像帧的视觉特征为输入，利用全局Transformer学习待推荐视频的全局(也称长期)信息，包括视频背景、视频静态实体等；再可以对图像帧的视觉特征进行多尺度切分，形成每一尺度对应的多个帧特征集合，再计算帧特征集合中帧间的差分信息，以帧特征集合和差分特征作为输入，利用局部Transformer学习待推荐视频的局部(也称短期)信息，包括待推荐视频中的动作、不同场景转换等动态信息；最后融合待推荐视频对应的全局信息、局部信息和时序信息，作为待推荐视频的特征表示向量，也即视频特征，从而可以计算视频特征以及检索内容对应的内容特征之间的相似度，来对待推荐视频进行排序，提升了检索内容与待推荐视频的视觉相关性，提高了视频推荐的准确性，进而提升了视频推荐效率。

由以上可知，本申请实施例通过获取检索内容以及检索内容对应的至少一个待推荐视频；在待推荐视频中提取待推荐视频中每一图像帧对应的视觉特征；将视觉特征进行多尺度切分，得到每一尺度对应的多个帧特征集合；对帧特征集合中的帧特征进行差分处理，得到帧特征集合对应的差分特征；基于帧特征集合和帧特征集合对应的差分特征，确定待推荐视频对应的局部视频特征；根据局部视频特征、视觉特征以及检索内容，对待推荐视频进行排序，得到排序后待推荐视频，并对排序后待推荐视频进行推荐。以此，通过将待推荐视频对应的视觉特征进行多尺度切分，来提升对待推荐视频的局部信息的理解，进而对每一尺度对应的帧特征集合中的帧特征进行差分处理，来考虑待推荐视频中的时序信息，进而根据多尺度切分得到的帧特征集合和差分处理得到的差分特征，来确定待推荐视频对应的局部视频特征，以基于局部视频特征来表征待推荐视频中的时序信息以及局部信息，从而基于局部视频特征、视觉特征以及检索内容，来对待推荐视频进行排序并推荐，提升了检索内容与待推荐视频的视觉相关性，提高了视频推荐的准确性，进而提升了视频推荐效率。

根据上面实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该视频推荐装置具体集成在计算机设备为例进行说明。其中，该视频推荐方法以服务器为执行主体进行具体的描述。

为了更好的描述本申请实施例，请一参阅图6。如图6所示，图6为本申请实施例提供的视频推荐方法的另一流程示意图。具体流程如下：

在步骤201中，服务器获取检索内容以及检索内容对应的至少一个待推荐视频，将该待推荐视频中每一图像帧进行分割处理，得到每一图像帧对应的多个区域子图像。

其中，本申请实施例中以该检索内容为文本内为例，服务器获取检索内容的方式可以有多种该检索内容可以由用户直接输入来获取，也可以通过用户间接输入来获取等，在此不做限定。

获取待推荐视频的方式可以有多种，例如，服务器可以在获取到检索内容之后，基于获取到检索内容进行召回，以此来得到至少一个待推荐视频。

在获取检索内容和待推荐视频之后，便可以将该待推荐视频中每一图像帧进行分割处理，得到每一图像帧对应的多个区域子图像，其中，该图像帧可以为服务器在待推荐视频中按照预先设定的抽帧规则抽取出来的至少一帧图像。

其中，其中，将该待推荐视频中每一图像帧进行分割处理的方式可以有多种，比如，可以根据实际需求，确定图像帧的分割参数，进而服务器可以根据分割参数来对图像帧进行分割，来得到每一图像帧对应的多个区域子图像。

其中，该分割参数可以为如何将图像帧进行分割的参数，具体取值可以根据实际需求进行选取，比如，当准确度要求较高或者计算能力较强时，可以将分割参数设定为更大的值，来将图像帧分割为数量更多的区域子图像，例如，可以将图像帧分割为12个区域子图像，或者16个区域子图像等，当准确度要求较低获取计算能力较弱时，可以将分割参数设定为相对较小的值，来将图像帧分割为数量较少的区域子图像，例如，可以将图像帧分割为8个区域子图像，或者4个区域子图像等，譬如，请继续参考图3b，其中，该分割参数可以为四等分，可以将每一图像帧分割为四等分，得到如图3b中虚线所划分得到的四个区域子图像。

在步骤202中，服务器对该区域子图像进行特征提取，得到每一图像帧对应的区域子图像特征，对该每一图像帧对应的区域子图像特征进行特征提取，得到该待推荐视频中每一图像帧对应的视觉特征。

在将该待推荐视频中每一图像帧进行分割处理之后，服务器便可以对该区域子图像进行特征提取，来得到每一图像帧对应的区域子图像特征，进而对该每一图像帧对应的区域子图像特征进行特征提取，得到该待推荐视频中每一图像帧对应的视觉特征。其中，对区域子图像进行特征提取的方式可以有多种，比如，服务器可以采用视觉Transformer来将该待推荐视频中每一图像帧进行分割处理，进而对该区域子图像进行特征提取，来得到每一图像帧对应的区域子图像特征，从而对该每一图像帧对应的区域子图像特征进行特征提取，得到该待推荐视频中每一图像帧对应的视觉特征。

例如，服务器可以利用视觉Transformer对每一帧图像帧进行切分为多个区域，得到每一帧图像帧对应的多个区域子图像(patch)，对每一个区域利用视觉Transformer中的卷积核进行区域向量化，得到每一图像帧对应的区域子图像特征，接着将每一图像帧视为一个序列，序列中的每个元素即为每一区域对应的区域子图像特征，将此序列输入到视觉Transformer中，对每一图像帧进行高维特征的学习。从而将每一待推荐视频视为一个序列，序列中的每个元素即为单帧图像帧的高维特征，也即每一图像帧对应的视觉特征。

在步骤203中，服务器对该视觉特征进行特征提取，得到每一视觉特征对应的视觉关联特征，基于该视觉关联特征，确定每一视觉特征对应的视觉关联权重，获取多个预设切分参数，并根据该视觉关联权重计算该视觉特征的关联权重分布。

其中，服务器对该视觉特征进行特征提取，得到每一视觉特征对应的视觉关联特征，基于该视觉关联特征，确定每一视觉特征对应的视觉关联权重的方式可以有多种，例如，服务器可以采用注意力网络对视觉特征进行特征提取，来得到每一视觉特征对应的视觉关联特征，比如，可以将每一视觉特征转换为三个维度的空间向量，包括查询向量(query，简称q)、键向量(key，简称k)和值向量(value，简称v)，具体的转换方式可以理解为对每一视觉特征与三个维度的转换参数进行融合而得到的，将查询向量、键向量和值向量作为每一视觉特征对应的关联特征。

在对每一视觉特征进行特征提取之后，服务器便可以基于该视觉关联特征，确定每一视觉特征对应的视觉关联权重。服务器基于该视觉关联特征，确定每一视觉特征对应的视觉关联权重的方式可以有多种，例如，服务器可以采用注意力网络将每一视觉特征对应的查询向量与其他视觉特征的键向量进行点积，可以得到每一视觉特征对应的注意力得分(score)，再基于每一视觉特征对应的注意力得分，来计算每一视觉特征对应的视觉关联权重。

其中，除了可以采用注意力网络对每一视觉特征进行特征提取以外，服务器还可以采用其他可以捕捉每一视觉特征与其他视觉特征之间的关联关系，进而确定每一视觉特征在所有视觉特征中所占的权重的网络。

在步骤204中，服务器基于该关联权重分布确定该视觉特征之间的关联特征分布，并根据该关联特征分布对该视觉特征进行标记，基于标记后视觉特征以及该预设切分参数，确定该视觉特征对应的至少一个尺度切分参数。

其中，服务器根据该关联特征分布对该视觉特征进行标记的方式可以有多种，例如，服务器可以获取一个预先设定的阈值，并将关联特征分布与这个阈值进行对比，来筛选出关联特征分布中大于这个阈值的区间，进而可以根据这个区间的端点在待推荐视频中视觉特征序列中的对应位置进行标记，该阈值可以为一个临界值，当关联特征分布中某一区域大于这个临界值，表明该区域对应的视觉特征之间的关联关系比较强。例如，假设待推荐视频包括8个视觉特征，分别为(t1，t2，t3，t4，t5，t6，t7，t8)，基于关联特征分布与阈值的对比结果，筛选出关联特征分布中大于这个阈值的区间端点对应为视觉特征t3到t4以及t5到t6的范围，因此，可以对t3以及t6进行标记，得到(t1，t2，mt3，t4，t5，t6m，t7，t8)，其中m为标记信息，表明可以在t3视觉特征以及t6视觉特征处进行切分，从而可以得到标记后视觉特征(mt3，t4，t5，t6m)。

服务器在根据该关联特征分布对该视觉特征进行标记之后，便可以基于标记后视觉特征以及预设切分参数，确定视觉特征对应的至少一个尺度切分参数，其中，基于标记后视觉特征以及预设切分参数，确定视觉特征对应的至少一个尺度切分参数的方式可以有多种，比如，服务器可以根据标记后视觉特征对待推荐视频对应的视觉特征进行初始划分，得到多个初始视觉特征区间，并获取每一初始视觉特征区间的特征数量，进而可以将特征数量大于预设阈值的初始视觉特征区间以预设切分参数进行划分，需要说明的是，此处的划分并未对视觉特征序列进行分开，而只是类似于归类的形式进行分类标记。从而可以基于划分后的视觉特征得到视觉特征对应的至少一个尺度切分参数。

例如，可以假设待推荐视频包括10个视觉特征，分别为(t1，t2，t3，t4，t5，t6，t7，t8，t9，t10)，标记后视觉特征(mt3，t4，t5，t6m)，该预设阈值可以为3，进而服务器可以根据标记后视觉特征对待推荐视频对应的视觉特征进行初始划分，可以表示为(‘t1，t2’，mt3，t4，t5，t6m，‘t7，t8，t9，t10’)，以此可以得到多个初始视觉特征区间分别为‘t1，t2’、‘t7，t8，t9，t10’，从而可以获取每一初始视觉特征区间的特征数量，分别为2、4，进而可以将特征数量大于预设阈值的初始视觉特征区间‘t7，t8，t9，t10’以预设切分参数3进行划分，即得到‘t7，t8，t9’以及‘t10’，从而可以得到划分后的视觉特征(‘t1，t2’，‘t3，t4，t5，t6’，‘t7，t8，t9’，‘t10’)。从而可以基于划分后的视觉特征得到视觉特征对应的尺度切分参数为(2，6，9，10)，则该尺度切分参数表示在待推荐视频的视觉特征序列中的第2、6、9、10个视觉特征中进行切分。

在步骤205中，服务器根据该尺度切分参数，分别对该待推荐视频对应的视觉特征进行标记，得到该视觉特征对应的标记信息，基于该标记信息对该视觉特征进行切分，并基于切分后视觉特征得到每一尺度对应的多个帧特征集合。

服务器在获取该视觉特征对应的至少一个尺度切分参数之后，便可以根据该尺度切分参数，分别对该待推荐视频对应的视觉特征进行标记，得到该视觉特征对应的标记信息，基于该标记信息对该视觉特征进行切分，并基于切分后视觉特征得到每一尺度对应的多个帧特征集合。

例如，假设待推荐视频包括10个视觉特征，分别为(t1，t2，t3，t4，t5，t6，t7，t8，t9，t10)，视觉特征对应的尺度切分参数为(2，6，9，10)，则服务器可以根据该尺度切分参数，分别对该待推荐视频对应的视觉特征进行标记，得到(t1，t2m，t3，t4，t5，t6m，t7，t8，t9m，t10m)，从而可以得到该视觉特征对应的标记信息，该标记可以包含表示在待推荐视频的视觉特征序列中的第2、6、9、10个视觉特征后进行切分的信息，从而可以基于该标记信息对该视觉特征进行切分，并基于切分后视觉特征得到每一尺度对应的多个帧特征集合，分别为(t1，t2)、(t3，t4，t5，t6)、(t7，t8，t9)以及(t10)。

以此，服务器通过对将视觉特征进行多尺度的切分，可以对待推荐视频中的局部细节信息进行更好的捕捉，进而可以提高视频推荐的准确性。

在步骤206中，服务器在该帧特征集合中确定每一帧特征对应的匹配帧特征，并将该帧特征集合中每一帧特征和对应的匹配帧特征作为一个匹配特征对，计算该帧特征集合中每一匹配特征对之间的特征差值，得到每一匹配特征对对应的差分特征，将该帧特征集合中每一匹配特征对对应的差分特征作为该帧特征集合对应的差分特征。

其中，在该帧特征集合中确定每一帧特征对应的匹配帧特征的方式可以有多种，比如，服务器可以在该帧特征集合中确定每一帧特征对应的下一个帧特征为该帧特征对应的匹配帧特征，例如，假设待推荐视频的一个帧特征集合为(t6，t7，t8，t9)，则可以在该帧特征集合中确定帧特征t6对应的下一个帧特征t7为帧特征t6对应的匹配帧特征，帧特征t7对应的下一个帧特征t8为帧特征t7对应的匹配帧特征，帧特征t8对应的下一个帧特征t9为帧特征t8对应的匹配帧特征。此外，也可以在该帧特征集合中确定每一帧特征对应的间隔帧特征为该帧特征对应的匹配帧特征，例如，假设待推荐视频的一个帧特征集合为(t6，t7，t8，t9)，则可以在该帧特征集合中确定帧特征t6对应的间隔帧特征t8为帧特征t6对应的匹配帧特征，帧特征t7对应的下一个帧特征t9为帧特征t7对应的匹配帧特征等，具体的匹配帧特征的确定方法可以根据实际需求进行设定，在此不做限定。

服务器在帧特征集合中确定每一帧特征对应的匹配帧特征之后，便可以将该帧特征集合中每一帧特征和对应的匹配帧特征作为一个匹配特征对，计算该帧特征集合中每一匹配特征对之间的特征差值，得到每一匹配特征对对应的差分特征，将该帧特征集合中每一匹配特征对对应的差分特征作为该帧特征集合对应的差分特征。例如，假设待推荐视频的一个帧特征集合甲为(t6，t7，t8，t9)，帧特征t6对应的匹配帧特征为帧特征t7，帧特征t7对应的匹配帧特征为帧特征t8，帧特征t8对应的匹配帧特征为帧特征t9，则可以得到匹配特征对，分别为匹配特征对1(t6，t7)、匹配特征对2(t7，t8)、匹配特征对3(t8，t9)，进而服务器可以计算该帧特征集合中每一匹配特征对之间的特征差值，得到每一匹配特征对对应的差分特征，分别为匹配特征对1为(t7-t6)，匹配特征对2为(t8-t7)，匹配特征对3为(t9-t8)，从而可以将该帧特征集合甲中每一匹配特征对对应的差分特征(t7-t6)、(t8-t7)、(t9-t8)作为帧特征集合甲对应的差分特征。

以此，服务器通过对待推荐视频对应的每一帧特征集合中的帧特征进行差分处理，来得到帧特征集合对应的差分特征以进行后续的视频推荐，可以捕抓帧与帧之间的差分信息来提升本申请实施例提供的视频推荐方法对待推荐视频中细粒度的动态信息以及时序信息的表征，进而可以对待推荐视频中的动作和场景转换等动态信息有更好的表征能力，从而可以提高视频推荐的准确性。

在步骤207中，服务器对该帧特征集合中每一帧特征进行特征提取，得到每一帧特征对应的帧关联特征，基于该帧关联特征，确定每一帧特征对应的帧关联权重，根据该帧关联权重，在该帧特征集合中筛选出目标帧特征。

其中，服务器对该帧特征集合中每一帧特征进行特征提取的方式可以有多种，例如，服务器可以采用注意力网络对该帧特征集合中每一帧特征进行特征提取，来得到每一帧特征对应的帧关联特征。

服务器在对该帧特征集合中每一帧特征进行特征提取之后，便可以基于该帧关联特征，确定每一帧特征对应的帧关联权重，其中，服务器基于该帧关联特征，确定每一帧特征对应的帧关联权重的方式可以有多种，例如，服务器可以采用注意力网络来根据该帧关联特征，确定每一帧特征对应的帧关联权重。

服务器在基于该帧关联特征，确定每一帧特征对应的帧关联权重之后，便可以根据该帧关联权重，在该帧特征集合中筛选出目标帧特征。其中，服务器根据该帧关联权重，在该帧特征集合中筛选出目标帧特征的方式可以有多种，例如，服务器可以根据每一帧特征对应的帧关联权重，对帧特征集合中的帧特征进行排序，从而可以将排名最靠前，也即帧关联权重最大的帧特征筛选出来，得到目标帧特征。

在步骤208中，服务器对该目标帧特征以及该帧特征集合对应的差分特征进行拼接，得到该待推荐视频对应的局部视频特征，对该待推荐视频对应的视觉特征进行特征映射，得到该视觉特征对应的全局映射特征。

在该帧特征集合中确定目标帧特征之后，服务器便可以对该目标帧特征以及该帧特征集合对应的差分特征进行拼接，得到该待推荐视频对应的局部视频特征。其中，服务器对该目标帧特征以及该帧特征集合对应的差分特征进行拼接，得到该待推荐视频对应的局部视频特征的方式可以有多种，比如，服务器可以将目标帧特征插入到该目标帧特征对应的差分特征子集的头部，基于每一尺度对应的帧特征集合对应的差分特征以及目标帧特征，构成多个多尺度帧-差分特征子集，进而可以对每一多尺度帧-差分特征子集进行特征融合，来得到待推荐视频对应的局部视频特征。

例如，可以假设待推荐视频的一个帧特征集合为(t6，t7，t8，t9)，对应的差分特征为C1＝t7-t6、C2＝t8-t7以及C3＝t9-t8，则服务器可以将目标帧特征插入到该目标帧特征对应的差分特征子集的头部，得到对应的多尺度帧-差分特征子集为(t6，C1，C2，C3)，进而可以对每一多尺度帧-差分特征子集进行特征融合，譬如，请参考图4，图4是本申请实施例提供的一种视频推荐方法的多尺度时序差分转换器结构示意图，其中，视觉Transformer作为待推荐视频的视觉特征提取器，进行视觉特征的提取，在基于待推荐视频的视觉特征得到多个多尺度帧-差分特征子集之后，可以利用局部转换器(例如，可以为4层的Transformer编码器)对每一个尺度帧-差分特征子集进行特征融合，进而可以将所有尺度帧-差分特征子集对应的特征进行均值操作，将该均值作为待推荐视频对应的局部视频特征。

在步骤209中，服务器将该全局映射特征和对应的视觉特征进行特征融合，得到融合后视觉特征，对融合后视觉特征进行均值处理，得到该待推荐视频对应的全局视频特征，将该全局视频特征和局部视频特征进行融合，得到视频特征。

服务器将该全局映射特征和对应的视觉特征进行特征融合的方式可以有多种，例如，可以继续参考图4，服务器可以利用一个全局转换器(例如4层的Transformer编码器)来将每一视觉特征映射成一个向量，也即全局映射特征，从而为了避免信息的损耗，可以将每一视觉特征对应的全局映射特征与输入的视觉特征做残差连接，并将残差连接后的结果进行求均值操作，从而可以得到该待推荐视频对应的全局视频特征。

服务器在对该视觉特征进行特征提取，得到该待推荐视频对应的全局视频特征之后，便可以将该全局视频特征和局部视频特征进行融合，得到视频特征。其中，将该全局视频特征和局部视频特征进行融合的方式可以有多种，例如，服务器可以将局部视频特征和全局视频特征进行加权求和，来得到待推荐视频对应的视频特征。

在步骤210中，服务器对该检索内容进行特征提取，得到该检索内容对应的内容特征，分别对该视频特征和该内容特征进行同一维度的特征映射，得到该视频特征对应的映射后视频特征，以及该内容特征对应的映射后内容特征。

其中，服务器对该检索内容进行特征提取的方式可以有多种，例如，当该检索内容为文本形式的内容时，服务器可以对该检索内容进行分词处理，得到至少一个检索词文本，将该检索词文本进行特征映射，得到该检索词文本对应的检索词特征，对该检索词特征进行特征提取，得到该检索内容对应的内容特征。

其中，服务器对该检索词特征进行特征提取的方式可以有多种，例如，请参考图5，可以通过本申请实施例提供的一种视频推荐方法的视频推荐模型来对该检索词特征进行特征提取，具体的，服务器可以采用视频推荐模型对输入的检索内容进行预处理，可以包括格式清理、特殊符号处理、分词处理等预处理方法，进而可以将检索内容中的每个检索词文本映射成CLIP词表中的词id，按id获取对应的词向量，从而可以得到每一检索词文本对应的检索词特征，利用CLIP中的文本转换器(12层的文本Transformer编码器)，对检索内容进行高维特征学习，最终获得检索内容对应的嵌入特征，也即内容特征。

为了可以计算视频特征和该内容特征之间的相似度，服务器需要将视频特征和该内容特征之间的相似度映射到同一维度的空间中，才可以进行相似度的计算，其中，服务器分别对该视频特征和该内容特征进行同一维度的特征映射的方式可以有多种，例如，请继续参考图5，服务器可以利用视频推荐模型中的全连接层将检索内容对应的内容特征和待推荐视频对应的视频特征映射到同一维度，即公共子空间中，得到映射后视频特征和该映射后内容特征。

在步骤211中，服务器计算该映射后视频特征和该映射后内容特征之间的相似度，得到该视频特征和该内容特征之间的特征相似度，基于该特征相似度对每一待推荐视频进行排序，得到排序后待推荐视频，并对排序后待推荐视频进行推荐。

在同一维度空间下，服务器可以计算映射后视频特征和该映射后内容特征之间的相似度，从而可以基于映射后视频特征和该映射后内容特征的相似度，可以得到视频特征和该内容特征之间的特征相似度，也即检索内容和待推荐视频之间的相似度。进而可以根据该特征相似度对每一待推荐视频进行排序，得到排序后待推荐视频，并对排序后待推荐视频进行推荐。

其中，根据该特征相似度对每一待推荐视频进行排序，并对排序后待推荐视频进行推荐的方式可以有多种，例如，服务器可以根据每一待推荐视频对应的特征相似度对所有待推荐视频进行由高到低的排序，从而可以根据排名将排序后待推荐视频进行推送到对应的客户端中，完成视频推荐的过程。

由以上可知，本申请实施例通过服务器获取检索内容以及检索内容对应的至少一个待推荐视频，将该待推荐视频中每一图像帧进行分割处理，得到每一图像帧对应的多个区域子图像；服务器对该区域子图像进行特征提取，得到每一图像帧对应的区域子图像特征，对该每一图像帧对应的区域子图像特征进行特征提取，得到该待推荐视频中每一图像帧对应的视觉特征；服务器对该视觉特征进行特征提取，得到每一视觉特征对应的视觉关联特征，基于该视觉关联特征，确定每一视觉特征对应的视觉关联权重，获取多个预设切分参数，并根据该视觉关联权重计算该视觉特征的关联权重分布；服务器基于该关联权重分布确定该视觉特征之间的关联特征分布，并根据该关联特征分布对该视觉特征进行标记，基于标记后视觉特征以及该预设切分参数，确定该视觉特征对应的至少一个尺度切分参数；服务器根据该尺度切分参数，分别对该待推荐视频对应的视觉特征进行标记，得到该视觉特征对应的标记信息，基于该标记信息对该视觉特征进行切分，并基于切分后视觉特征得到每一尺度对应的多个帧特征集合；服务器在该帧特征集合中确定每一帧特征对应的匹配帧特征，并将该帧特征集合中每一帧特征和对应的匹配帧特征作为一个匹配特征对，计算该帧特征集合中每一匹配特征对之间的特征差值，得到每一匹配特征对对应的差分特征，将该帧特征集合中每一匹配特征对对应的差分特征作为该帧特征集合对应的差分特征；服务器对该帧特征集合中每一帧特征进行特征提取，得到每一帧特征对应的帧关联特征，基于该帧关联特征，确定每一帧特征对应的帧关联权重，根据该帧关联权重，在该帧特征集合中筛选出目标帧特征；服务器对该目标帧特征以及该帧特征集合对应的差分特征进行拼接，得到该待推荐视频对应的局部视频特征，对该待推荐视频对应的视觉特征进行特征映射，得到该视觉特征对应的全局映射特征；服务器将该全局映射特征和对应的视觉特征进行特征融合，得到融合后视觉特征，对融合后视觉特征进行均值处理，得到该待推荐视频对应的全局视频特征，将该全局视频特征和局部视频特征进行融合，得到视频特征；服务器对该检索内容进行特征提取，得到该检索内容对应的内容特征，分别对该视频特征和该内容特征进行同一维度的特征映射，得到该视频特征对应的映射后视频特征，以及该内容特征对应的映射后内容特征；服务器计算该映射后视频特征和该映射后内容特征之间的相似度，得到该视频特征和该内容特征之间的特征相似度，基于该特征相似度对每一待推荐视频进行排序，并对排序后待推荐视频进行推荐，以此，通过对待推荐视频进行特征提取，得到每一图像帧对应的视觉特征，进而对图像帧的视觉特征进行多尺度切分，形成每一尺度对应的多个帧特征集合，再计算帧特征集合中帧间的差分特征，以帧特征集合和差分特征作为输入，来确定局部视频特征，以学习待推荐视频的局部信息，从而根据待推荐视频的全局视频特征、局部视频特征来融合待推荐视频对应的全局信息、局部信息和时序信息，作为待推荐视频的特征表示向量，也即视频特征，从而可以计算视频特征以及检索内容对应的内容特征之间的相似度，来对待推荐视频进行排序，提升了检索内容与待推荐视频的视觉相关性，提高了视频推荐的准确性，进而提升了视频推荐效率。

为了更好地实施以上方法，本发明实施例还提供一种视频推荐装置，该视频推荐装置可以集成在计算机设备中，该计算机设备可以为服务器。

例如，如图7所示，为本申请实施例提供的视频推荐装置的结构示意图，该视频推荐装置可以包括获取单元301、提取单元302、切分单元303、差分单元304、确定单元305以及推荐单元，如下：

获取单元301，用于获取检索内容以及检索内容对应的至少一个待推荐视频；

提取单元302，用于在该待推荐视频中提取该待推荐视频中每一图像帧对应的视觉特征；

切分单元303，用于将该视觉特征进行多尺度切分，得到每一尺度对应的多个帧特征集合；

差分单元304，用于对该帧特征集合中的帧特征进行差分处理，得到该帧特征集合对应的差分特征；

确定单元305，用于基于该帧特征集合和帧特征集合对应的差分特征，确定该待推荐视频对应的局部视频特征；

推荐单元306，用于根据该局部视频特征、该视觉特征以及该检索内容，对该待推荐视频进行排序，得到排序后待推荐视频，并对排序后待推荐视频进行推荐。

在一实施例中，该推荐单元306，包括：

全局视频特征提取子单元，用于对该视觉特征进行特征提取，得到该待推荐视频对应的全局视频特征；

融合子单元，用于将该全局视频特征和局部视频特征进行融合，得到视频特征；

排序子单元，用于根据该视频特征以及该检索内容，对该待推荐视频进行排序，得到排序后待推荐视频。

在一实施例中，该排序子单元，包括：

内容特征提取模块，用于对该检索内容进行特征提取，得到该检索内容对应的内容特征；

相似度计算模块，用于计算该视频特征和该内容特征之间的相似度，得到特征相似度；

排序模块，用于基于该特征相似度对每一待推荐视频进行排序，得到排序后待推荐视频。

在一实施例中，该相似度计算模块，包括：

特征映射子模块，用于分别对该视频特征和该内容特征进行同一维度的特征映射，得到该视频特征对应的映射后视频特征，以及该内容特征对应的映射后内容特征；

相似度计算子模块，用于计算该映射后视频特征和该映射后内容特征之间的相似度，得到该视频特征和该内容特征之间的特征相似度。

在一实施例中，该全局视频特征提取子单元，包括：

全局映射模块，用于对该待推荐视频对应的视觉特征进行特征映射，得到该视觉特征对应的全局映射特征；

特征融合模块，用于将该全局映射特征和对应的视觉特征进行特征融合，得到融合后视觉特征；

均值处理模块，用于对融合后视觉特征进行均值处理，得到该待推荐视频对应的全局视频特征。

在一实施例中，该确定单元305，包括：

目标帧特征确定子单元，用于在该帧特征集合中确定目标帧特征；

拼接子单元，用于对该目标帧特征以及该帧特征集合对应的差分特征进行拼接，得到该待推荐视频对应的局部视频特征。

在一实施例中，该目标帧特征确定子单元，包括：

帧关联特征提取模块，用于对该帧特征集合中每一帧特征进行特征提取，得到每一帧特征对应的帧关联特征；

帧关联权重确定模块，用于基于该帧关联特征，确定每一帧特征对应的帧关联权重；

筛选模块，用于根据该帧关联权重，在该帧特征集合中筛选出目标帧特征。

在一实施例中，该差分单元304，包括：

匹配帧特征确定子单元，用于在该帧特征集合中确定每一帧特征对应的匹配帧特征，并将该帧特征集合中每一帧特征和对应的匹配帧特征作为一个匹配特征对；

特征差值计算子单元，用于计算该帧特征集合中每一匹配特征对之间的特征差值，得到每一匹配特征对对应的差分特征；

赋值子单元，用于将该帧特征集合中每一匹配特征对对应的差分特征作为该帧特征集合对应的差分特征。

在一实施例中，该切分单元303，包括：

尺度切分参数获取子单元，用于获取该视觉特征对应的至少一个尺度切分参数；

标记子单元，用于根据该尺度切分参数，分别对该待推荐视频对应的视觉特征进行标记，得到该视觉特征对应的标记信息；

切分子单元，用于基于该标记信息对该视觉特征进行切分，并基于切分后视觉特征得到每一尺度对应的多个帧特征集合。

在一实施例中，该尺度切分参数获取子单元，包括：

视觉关联特征提取模块，用于对该视觉特征进行特征提取，得到每一视觉特征对应的视觉关联特征；

视觉关联权重确定模块，用于基于该视觉关联特征，确定每一视觉特征对应的视觉关联权重；

尺度切分参数确定模块，用于获取多个预设切分参数，并根据视觉关联权重和预设切分参数，确定视觉特征对应的至少一个尺度切分参数。

在一实施例中，该尺度切分参数确定模块，包括：

关联权重分布计算子模块，用于根据该视觉关联权重计算该视觉特征的关联权重分布；

关联特征分布确定子模块，用于基于该关联权重分布确定该视觉特征之间的关联特征分布，并根据该关联特征分布对该视觉特征进行标记；

参数确定子模块，用于基于标记后视觉特征以及预设切分参数，确定视觉特征对应的至少一个尺度切分参数。

在一实施例中，该提取单元302，包括：

分割子单元，用于将该待推荐视频中每一图像帧进行分割处理，得到每一图像帧对应的多个区域子图像；

区域子图像特征提取子单元，用于对该区域子图像进行特征提取，得到每一图像帧对应的区域子图像特征；

视觉特征提取子单元，用于对该每一图像帧对应的区域子图像特征进行特征提取，得到该待推荐视频中每一图像帧对应的视觉特征。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由以上可知，本申请实施例通过获取单元301获取检索内容以及检索内容对应的至少一个待推荐视频；提取单元302在待推荐视频中提取待推荐视频中每一图像帧对应的视觉特征；切分单元303将视觉特征进行多尺度切分，得到每一尺度对应的多个帧特征集合；差分单元304对帧特征集合中的帧特征进行差分处理，得到帧特征集合对应的差分特征；确定单元305基于帧特征集合和帧特征集合对应的差分特征，确定待推荐视频对应的局部视频特征；推荐单元306根据局部视频特征、视觉特征以及检索内容，对待推荐视频进行排序，得到排序后待推荐视频，并对排序后待推荐视频进行推荐。以此，通过将待推荐视频对应的视觉特征进行多尺度切分，来提升对待推荐视频的局部信息的理解，进而对每一尺度对应的帧特征集合中的帧特征进行差分处理，来考虑待推荐视频中的时序信息，进而根据多尺度切分得到的帧特征集合和差分处理得到的差分特征，来确定待推荐视频对应的局部视频特征，以基于局部视频特征来表征待推荐视频中的时序信息以及局部信息，从而基于局部视频特征、视觉特征以及检索内容，来对待推荐视频进行排序并推荐，提升了检索内容与待推荐视频的视觉相关性，提高了视频推荐的准确性，进而提升了视频推荐效率。

本申请实施例还提供一种计算机设备，如图8所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，该计算机设备可以是服务器，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图8中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监测。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及视频推荐。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取检索内容以及检索内容对应的至少一个待推荐视频；在待推荐视频中提取待推荐视频中每一图像帧对应的视觉特征；将视觉特征进行多尺度切分，得到每一尺度对应的多个帧特征集合；对帧特征集合中的帧特征进行差分处理，得到帧特征集合对应的差分特征；基于帧特征集合和帧特征集合对应的差分特征，确定待推荐视频对应的局部视频特征；根据局部视频特征、视觉特征以及检索内容，对待推荐视频进行排序，得到排序后待推荐视频，并对排序后待推荐视频进行推荐。

以上各个操作的具体实施可参见前面的实施例，在此不作赘述。应当说明的是，本申请实施例提供的计算机设备与上文实施例中的适用于视频推荐方法属于同一构思，其具体实现过程详见以上方法实施例，此处不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种视频推荐方法中的步骤。例如，该指令可以执行如下步骤：

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请实施例所提供的任一种视频推荐方法中的步骤，因此，可以实现本申请实施例所提供的任一种视频推荐方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

其中，根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。

以上对本申请实施例所提供的一种视频推荐方法、装置、计算机可读存储介质和计算机设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频推荐方法，其特征在于，包括：

2.如权利要求1所述的视频推荐方法，其特征在于，所述根据所述局部视频特征、所述视觉特征以及所述检索内容，对所述待推荐视频进行排序，得到排序后待推荐视频，包括：

对所述视觉特征进行特征提取，得到所述待推荐视频对应的全局视频特征；

将所述全局视频特征和所述局部视频特征进行融合，得到视频特征；

根据所述视频特征以及所述检索内容，对所述待推荐视频进行排序，得到排序后待推荐视频。

3.如权利要求2所述的视频推荐方法，其特征在于，所述根据所述视频特征以及所述检索内容，对所述待推荐视频进行排序，得到排序后待推荐视频，包括：

对所述检索内容进行特征提取，得到所述检索内容对应的内容特征；

计算所述视频特征和所述内容特征之间的相似度，得到特征相似度；

基于所述特征相似度对每一待推荐视频进行排序，得到排序后待推荐视频。

4.如权利要求3所述的视频推荐方法，其特征在于，所述计算所述视频特征和所述内容特征之间的相似度，得到特征相似度，包括：

分别对所述视频特征和所述内容特征进行同一维度的特征映射，得到所述视频特征对应的映射后视频特征，以及所述内容特征对应的映射后内容特征；

计算所述映射后视频特征和所述映射后内容特征之间的相似度，得到所述视频特征和所述内容特征之间的特征相似度。

5.如权利要求2所述的视频推荐方法，其特征在于，所述对所述视觉特征进行特征提取，得到所述待推荐视频对应的全局视频特征，包括：

对所述待推荐视频对应的视觉特征进行特征映射，得到所述视觉特征对应的全局映射特征；

将所述全局映射特征和对应的视觉特征进行特征融合，得到融合后视觉特征；

对融合后视觉特征进行均值处理，得到所述待推荐视频对应的全局视频特征。

6.如权利要求1所述的视频推荐方法，其特征在于，所述基于所述帧特征集合和所述帧特征集合对应的差分特征，确定所述待推荐视频对应的局部视频特征，包括：

在所述帧特征集合中确定目标帧特征；

对所述目标帧特征以及所述帧特征集合对应的差分特征进行拼接，得到所述待推荐视频对应的局部视频特征。

7.如权利要求6所述的视频推荐方法，其特征在于，所述在所述帧特征集合中确定目标帧特征，包括：

对所述帧特征集合中每一帧特征进行特征提取，得到每一帧特征对应的帧关联特征；

基于所述帧关联特征，确定每一帧特征对应的帧关联权重；

根据所述帧关联权重，在所述帧特征集合中筛选出目标帧特征。

8.如权利要求1所述的视频推荐方法，其特征在于，所述对所述帧特征集合中的帧特征进行差分处理，得到所述帧特征集合对应的差分特征，包括：

在所述帧特征集合中确定每一帧特征对应的匹配帧特征，并将所述帧特征集合中每一帧特征和对应的匹配帧特征作为一个匹配特征对；

计算所述帧特征集合中每一匹配特征对之间的特征差值，得到每一匹配特征对对应的差分特征；

将所述帧特征集合中每一匹配特征对对应的差分特征作为所述帧特征集合对应的差分特征。

9.如权利要求1所述的视频推荐方法，其特征在于，所述将所述视觉特征进行多尺度切分，得到每一尺度对应的多个帧特征集合，包括：

获取所述视觉特征对应的至少一个尺度切分参数；

根据所述尺度切分参数，分别对所述待推荐视频对应的视觉特征进行标记，得到所述视觉特征对应的标记信息；

基于所述标记信息对所述视觉特征进行切分，并基于切分后视觉特征得到每一尺度对应的多个帧特征集合。

10.如权利要求9所述的视频推荐方法，其特征在于，所述获取所述视觉特征对应的至少一个尺度切分参数，包括：

对所述视觉特征进行特征提取，得到每一视觉特征对应的视觉关联特征；

基于所述视觉关联特征，确定每一视觉特征对应的视觉关联权重；

获取多个预设切分参数，并根据所述视觉关联权重和预设切分参数，确定所述视觉特征对应的至少一个尺度切分参数。

11.如权利要求10所述的视频推荐方法，其特征在于，所述根据所述视觉关联权重和预设切分参数，确定所述视觉特征对应的至少一个尺度切分参数，包括：

根据所述视觉关联权重计算所述视觉特征的关联权重分布；

基于所述关联权重分布确定所述视觉特征之间的关联特征分布，并根据所述关联特征分布对所述视觉特征进行标记；

基于标记后视觉特征以及所述预设切分参数，确定所述视觉特征对应的至少一个尺度切分参数。

12.如权利要求1所述的视频推荐方法，其特征在于，所述在所述待推荐视频中提取所述待推荐视频中每一图像帧对应的视觉特征，包括：

将所述待推荐视频中每一图像帧进行分割处理，得到每一图像帧对应的多个区域子图像；

对所述区域子图像进行特征提取，得到每一图像帧对应的区域子图像特征；

对所述每一图像帧对应的区域子图像特征进行特征提取，得到所述待推荐视频中每一图像帧对应的视觉特征。

13.一种视频推荐装置，其特征在于，包括：

获取单元，用于获取检索内容以及所述检索内容对应的至少一个待推荐视频；

确定单元，用于基于所述帧特征集合和所述帧特征集合对应的差分特征，确定所述待推荐视频对应的局部视频特征；

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至12任一项所述的视频推荐方法中的步骤。

15.一种计算机设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的视频推荐方法。

16.一种计算机程序，其特征在于，所述计算机程序包括计算机指令，所述计算机指令存储在存储介质中，计算机设备的处理器从所述存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行权利要求1至12任一项所述的视频推荐方法。