CN109871490B

CN109871490B - 媒体资源匹配方法、装置、存储介质和计算机设备

Info

Publication number: CN109871490B
Application number: CN201910175984.XA
Authority: CN
Inventors: 徐叙远; 龚国平; 吴韬; 杨喻茸
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-08
Filing date: 2019-03-08
Publication date: 2021-03-09
Anticipated expiration: 2039-03-08
Also published as: CN109871490A

Abstract

本申请涉及一种媒体资源匹配方法、装置、存储介质和计算机设备，所述方法包括：获取待匹配媒体资源；对候选媒体资源库中的候选媒体资源进行初步筛选，初步筛选出与所述待匹配媒体资源在第一特征上匹配的候选媒体资源；对初步筛选出的候选媒体资源进行二次筛选，二次筛选出与所述待匹配媒体资源在第二特征上匹配的候选媒体资源；所述第二特征异于所述第一特征；将二次筛选出的候选媒体资源的对象属性特征，与所述待匹配媒体资源的对象属性特征进行匹配，得到媒体资源匹配结果。本申请提供的方案可以提高媒体资源匹配的准确率。

Description

媒体资源匹配方法、装置、存储介质和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种媒体资源匹配方法、装置、存储介质和计算机设备。

背景技术

随着计算机技术的发展，用户通过网络接触到越来越多的媒体资源，从而越来越多的场景下需要对媒体资源进行匹配。比如，用户在观看某一段视频后，意图继续观看与其相关的其他视频时，需要进行视频搜索，从而在搜索得到的匹配视频中选取意图观看的视频进行播放。

然而，传统的这种媒体资源匹配方式需要用户手动输入媒体资源的文字描述，计算机设备再根据文字描述进行搜索，获取到与文字描述相匹配的媒体资源。但由于在很多情况下用户无法对所需媒体资源进行精确的文字概括，导致媒体资源匹配的准确率较低。

发明内容

基于此，有必要针对传统媒体资源匹配的准确率较低的技术问题，提供一种媒体资源匹配方法、装置、存储介质和计算机设备。

一种媒体资源匹配方法，包括：

获取待匹配媒体资源；

对候选媒体资源库中的候选媒体资源进行初步筛选，初步筛选出与所述待匹配媒体资源在第一特征上匹配的候选媒体资源；

对初步筛选出的候选媒体资源进行二次筛选，二次筛选出与所述待匹配媒体资源在第二特征上匹配的候选媒体资源；所述第二特征异于所述第一特征；

将二次筛选出的候选媒体资源的对象属性特征，与所述待匹配媒体资源的对象属性特征进行匹配，得到媒体资源匹配结果。

一种媒体资源匹配装置，包括：

获取模块，用于获取待匹配媒体资源；

初步筛选模块，用于对候选媒体资源库中的候选媒体资源进行初步筛选，初步筛选出与所述待匹配媒体资源在第一特征上匹配的候选媒体资源；

二次筛选模块，用于对初步筛选出的候选媒体资源进行二次筛选，二次筛选出与所述待匹配媒体资源在第二特征上匹配的候选媒体资源；所述第二特征异于所述第一特征；

匹配模块，用于将二次筛选出的候选媒体资源的对象属性特征，与所述待匹配媒体资源的对象属性特征进行匹配，得到媒体资源匹配结果。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述媒体资源匹配方法的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述媒体资源匹配方法的步骤。

上述媒体资源匹配方法、装置、计算机可读存储介质和计算机设备，在获取到待匹配媒体资源后，首先自动对候选媒体资源库中的候选媒体资源进行初步筛选，初步筛选出与待匹配媒体资源在第一特征上匹配的候选媒体资源；然后对初步筛选出的候选媒体资源进行二次筛选，二次筛选出与待匹配媒体资源在第二特征上匹配的候选媒体资源；再将二次筛选出的候选媒体资源的对象属性特征，与待匹配媒体资源的对象属性特征进行匹配，得到媒体资源匹配结果。这样，通过级联的三层匹配过程在三个特征层面进行匹配，极大地提高了媒体资源匹配的准确率。

附图说明

图1为一个实施例中媒体资源匹配方法的应用环境图；

图2为一个实施例中媒体资源匹配方法的流程示意图；

图3为一个实施例中媒体资源匹配的界面示意图；

图4为一个实施例中媒体资源匹配步骤的流程示意图；

图5为一个实施例中媒体资源匹配步骤的流程示意图；

图6为一个实施例中媒体资源匹配方法的时序图；

图7为一个实施例中媒体资源匹配装置的结构框图；

图8为另一个实施例中媒体资源匹配装置的结构框图；

图9为一个实施例中计算机设备的结构框图；

图10为另一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中媒体资源匹配方法的应用环境图。参照图1，该媒体资源匹配方法应用于媒体资源匹配系统。该媒体资源匹配系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端110和服务器120均可单独用于执行该媒体资源匹配方法，也可协同用于执行该媒体资源匹配方法。

在一个实施例中，终端110可以通过其上运行的应用程序执行该媒体资源匹配方法。这里的应用程序不限于各种类型的应用程序，例如，即时通讯应用、游戏应用、购物应用、浏览器应用、视频应用或者直播应用等。

如图2所示，在一个实施例中，提供了一种媒体资源匹配方法。本实施例主要以该方法应用于计算机设备来举例说明，该计算机设备具体可以是上述图1中的终端110或服务器120。参照图2，该媒体资源匹配方法具体包括如下步骤：

S202，获取待匹配媒体资源。

其中，待匹配媒体资源是指待与其他媒体资源进行匹配的媒体资源。媒体资源具体可以是视频资源或者图片资源等。视频资源例如可以是直播视频或者点播视频等。图片资源例如可以是动图或者有声图片等。

具体地，计算机设备可获取用户当前观看的媒体资源作为待匹配媒体资源，也可以获取其他计算机设备发送的媒体资源作为待匹配媒体资源，还可以获取媒体资源匹配指令指向的媒体资源作为待匹配媒体资源等。

在一个实施例中，计算机设备可将原始获取的媒体资源直接作为待匹配媒体资源，也可将原始获取的媒体资源进行降帧处理后作为待匹配媒体资源。其中，降帧处理是指减少媒体资源的帧率。

举例说明，假设媒体资源为视频资源。总所周知，为了满足视频画面的连贯性，视频的帧率通常大于16帧/秒，基于人类肉眼的“视觉暂留”会认为观看到的是连续流畅的视频画面。在本实施例中，可对视频资源进行降帧处理，将帧率下调到预设帧率，如3帧/秒等。

S204，对候选媒体资源库中的候选媒体资源进行初步筛选，初步筛选出与待匹配媒体资源在第一特征上匹配的候选媒体资源。

其中，候选媒体资源库是多个媒体资源的集合。候选媒体资源库比如视频应用中的视频库，或者游戏应用中的游戏动画库等。

特征是从某一种层面表示媒体资源的特性的数据。这里的第一特征和后文中的第二特征都是特征，只是分别是根据不同的特征提取方式提取的、从不同的层面表示媒体资源特性的数据。

可以理解，待匹配媒体资源与候选媒体资源在第一特征上匹配，是指待匹配媒体资源的第一特征与候选媒体资源的第一特征匹配。其中，媒体资源的第一特征具体可以是媒体资源所包括的图像帧的第一特征。

待匹配媒体资源的第一特征与候选媒体资源的第一特征匹配，具体可以是指待匹配媒体资源的第一特征与候选媒体资源的第一特征之间满足匹配条件。这里的匹配条件具体可以是用于确定两个媒体资源第一特征相似度的条件。比如，两个媒体资源中第一特征匹配的图像帧的数量在其中一个媒体资源中所占的比例高于第一比例，或者两个媒体资源中第一特征匹配的连续图像帧的数量在其中一个媒体资源中所占的比例高于第二比例等。

具体地，候选媒体资源库中各候选媒体资源的第一特征可以是事先提取好的，这样，计算机设备可在获取待匹配媒体资源后，提取该待匹配媒体资源的第一特征，将提取的第一特征与事先提取好的各候选媒体资源的第一特征进行比较，以筛选出与待匹配媒体资源在第一特征上匹配的候选媒体资源。

在一个具体的实施例中，媒体资源具体为视频资源，媒体资源的第一特征具体可以是视频资源的第一视频指纹。

在一个具体的实施例中，第一特征具体可以是通过深度学习模型提取的特征。当从两帧图像帧中分别提取的第一特征是相似的，则可认为两帧图像帧在第一特征上是匹配的；进而当两个媒体资源中匹配的图像帧的数量达到一定阈值后，则可以认为两个媒体资源在第一特征上是匹配的。

图3示出了一个实施例中媒体资源匹配过程的原理示意图。参考图3，计算机设备可对待匹配媒体资源301与候选媒体资源库302中的候选媒体资源执行S303在第一特征上进行匹配，得到初步筛选出的与待匹配媒体资源在第一特征上匹配的候选媒体资源304。

S206，对初步筛选出的候选媒体资源进行二次筛选，二次筛选出与待匹配媒体资源在第二特征上匹配的候选媒体资源；第二特征异于第一特征。

类似地，待匹配媒体资源与候选媒体资源在第二特征上匹配，是指待匹配媒体资源的第二特征与候选媒体资源的第二特征匹配。其中，媒体资源的第二特征具体可以是媒体资源所包括的图像帧的第一特征。

待匹配媒体资源的第二特征与候选媒体资源的第二特征匹配，具体可以是指待匹配媒体资源的第二特征与候选媒体资源的第二特征之间满足匹配条件。这里的匹配条件具体可以是用于确定两个媒体资源第二特征相似度的条件。比如，两个媒体资源中第二特征匹配的图像帧的数量在其中一个媒体资源中所占的比例高于第一比例，或者两个媒体资源中第二特征匹配的连续图像帧的数量在其中一个媒体资源中所占的比例高于第二比例等。

具体地，候选媒体资源库中各候选媒体资源的第二特征可以是事先提取好的，这样，计算机设备可在获取待匹配媒体资源后，提取该待匹配媒体资源的第二特征，将提取的第二特征与初步筛选出的各候选媒体资源的第二特征进行比较，以筛选出与待匹配媒体资源在第二特征上匹配的候选媒体资源。

可以理解，此时筛选出的候选媒体资源，不仅在第一特征上与待匹配媒体资源匹配，也在第二特征上与待匹配媒体资源匹配。

在一个具体的实施例中，媒体资源具体为视频资源，媒体资源的第二特征具体可以是视频资源的第二视频指纹。

在一个具体的实施例中，第二特征具体可以是通过特征提取算法(例如：尺度不变特征变换算法，Scale-invariant feature transform，SIFT；或者，加速稳健特征算法，Speeded up robust features，SURF等)提取的特征。当从两帧图像帧中分别提取的第二特征是相似的，则可认为两帧图像帧在第二特征上是匹配的；进而当两个媒体资源中匹配的图像帧的数量达到一定阈值后，则可以认为两个媒体资源在第二特征上是匹配的。

继续参考图3，计算机设备可继续对待匹配媒体资源301与初步筛选出的与待匹配媒体资源在第一特征上匹配的候选媒体资源304，执行S305在第二特征上进行匹配，得到二次筛选出的与待匹配媒体资源在第一特征和第二特征上均匹配的候选媒体资源306。

S208，将二次筛选出的候选媒体资源的对象属性特征，与待匹配媒体资源的对象属性特征进行匹配，得到媒体资源匹配结果。

其中，媒体资源的对象属性特征是媒体资源所包括对象的属性特征。媒体资源所包括对象，如视频或者动画中出现的自然人、动物或者植物等。媒体资源所包括对象的属性特征，如音频特征、面部特征、颜色特征或者形状特征等。

媒体资源匹配结果包括表示匹配成功的匹配结果和表示匹配失败的匹配结果。当媒体资源匹配结果为表示匹配失败的匹配结果，则说明候选媒体资源库中不存在候选媒体资源与待匹配媒体资源在第一特征、第二特征和对象属性特征上均匹配。当媒体资源匹配结果为表示匹配成功的匹配结果，则获取与待匹配媒体资源在第一特征、第二特征和对象属性特征上均匹配的候选媒体资源进行存储或输出。

具体地，候选媒体资源库中各候选媒体资源的对象属性特征可以是事先提取好的，这样，计算机设备可在获取待匹配媒体资源后，提取该待匹配媒体资源的对象属性特征，将提取的对象属性特征与二次筛选出的各候选媒体资源的对象属性特征进行比较，以筛选出与待匹配媒体资源在对象属性特征上匹配的候选媒体资源。

可以理解，此时筛选出的候选媒体资源，不仅在第一特征上与待匹配媒体资源匹配，也在第二特征上与待匹配媒体资源匹配，还在对象属性特征上与待匹配媒体资源匹配。

继续参考图3，计算机设备可继续对待匹配媒体资源301与二次筛选出的与待匹配媒体资源在第一特征和第二特征上均匹配的候选媒体资源306，执行S307在对象属性特征上进行匹配，得到最终筛选出的与待匹配媒体资源在第一特征、第二特征和对象属性特征上均匹配的候选媒体资源308。

上述媒体资源匹配方法，在获取到待匹配媒体资源后，首先自动对候选媒体资源库中的候选媒体资源进行初步筛选，初步筛选出与待匹配媒体资源在第一特征上匹配的候选媒体资源；然后对初步筛选出的候选媒体资源进行二次筛选，二次筛选出与待匹配媒体资源在第二特征上匹配的候选媒体资源；再将二次筛选出的候选媒体资源的对象属性特征，与待匹配媒体资源的对象属性特征进行匹配，得到媒体资源匹配结果。这样，通过级联的三层匹配过程在三个特征层面进行匹配，极大地提高了媒体资源匹配的准确率。

在一个实施例中，S204包括：将待匹配媒体资源划分为多个片段；在候选媒体资源库中，查找与多个片段中任一片段在第一特征上匹配的第一候选媒体资源；分别确定各第一候选媒体资源与多个片段在第一特征上匹配的片段的第一数量；从第一候选媒体资源中，根据各第一数量初步筛选出与待匹配媒体资源在第一特征上匹配的候选媒体资源。

其中，片段是指从待匹配媒体资源划分出的一部分。具体地，计算机设备可对匹配媒体资源按时间进行划分，得到多个时长相同或者不同的片段。

举例说明，待匹配媒体资源为短视频，计算机设备可将短视频分为多个片段，每个片段时长为K秒(s)。K具体可取值为3、5或者10等。这样，计算机设备可分别将每个片段与候选视频库中的候选视频进行匹配。

在一个实施例中，在候选媒体资源库中，查找与多个片段中任一片段在第一特征上匹配的第一候选媒体资源，包括：分别提取各片段所包括的图像帧的第一特征；在候选媒体资源库中，查找与各片段所包括的任一图像帧在第一特征上匹配的第二候选媒体资源；分别确定每个片段与各第二候选媒体资源在第一特征上匹配的连续图像帧的第二数量；从第二候选媒体资源中，根据各第二数量筛选出与多个片段中任一片段在第一特征上匹配的第一候选媒体资源。

在一个实施例中，分别提取各片段所包括的图像帧的第一特征，包括：将待匹配媒体资源所包括的各图像帧分别输入深度学习模型，通过深度学习模型的全连接层得到各图像帧的第一特征。其中，深度学习模型通过分类模型迁移学习得到；分类模型根据通用图像训练集训练得到；深度学习模型的训练样本为三元图像样本；三元图像样本包括锚示例图像样本、正示例图像样本和负示例图像样本；深度学习模型的损失函数为三元组损失函数。

具体地，深度学习模型是事先通过分类模型迁移学习得到的机器学习模型。分类模型根据通用图像训练集训练得到，通用图像训练集是训练具有通用的分类能力的分类模型的图像训练集。根据通用图像训练集训练所得的机器学习模型可以称为通用的分类模型。通用的分类模型对于一般的图像都具有一定的分类能力。比如，通用图像训练集可以是由Image Net(图像识别数据库)中的图像组成的通用图像训练集，相应的分类模型可以是VGGNet(Visual Geometry Group视觉集合组)网络模型、GoogleNet(谷歌网路)网络模型或ResNet(能效评估系统)网络模型等。

深度学习模型的训练样本为三元图像样本，该三元图像样本包括三帧图像：锚示例图像样本、正示例图像样本和负示例图像样本。其中，锚示例图像样本与正示例图像样本属于同一个类别，锚示例图像样本与负示例图像样本属于不同类别。深度学习模型的损失函数为三元组损失函数(Triplet Loss)。深度学习模型的全连接层是本实施例中选择的特征输出层，计算机设备可将该层输出的数据作为图像帧的第一特征，也可将该数据进行处理后作为第一特征。

在一个具体的实施例中，全连接层输出的数据具体可以是1024维的特征向量。计算机设备可对该1024维的特征向量经过ITQ量化转换成二维向量(IterativeQuantization:AProcrustean Approach to Learning Binary Codes)，将转化得到的二维向量(哈希值)作为第一特征。

计算机设备可收集多组三元图像样本作为模型训练输入数据，再获取根据通用图像训练集训练得到分类模型，将该分类模型的末层修改为三元组损失层，将每组三元图像样本的三帧图像共同作为分类模型的输入，通过分类模型输出锚示例图像样本与正示例图像样本的类内距离，以及锚示例图像样本与负示例图像样本的类间距离。计算机设备再通过调整模型参数使得类间距离大于类内距离，直至模型迁移学习完成得到深度学习模型。

计算机设备再将待匹配媒体资源所包括的各图像帧分别输入深度学习模型，通过深度学习模型的全连接层输出的各图像帧的特征数据，将各特征数据进行量化处理后得到各各图像帧的第一特征。

在本实施例中，通过深度学习模型提供的更加贴近人的视觉理解的特征进行初步的匹配，深度学习提取的特征较为抽象，并且特征值数量较少。非常适合做为第一次的匹配过滤，这样基于抽象特征的匹配可以有很高的召回率。

需要说明的是，计算机设备事先对候选媒体资源库中的各候选媒体资源，分别提取了其所包括的图像帧的第一特征，并将提取的各第一特征与相应图像帧所属候选媒体资源的资源标识以及其在所属候选媒体资源中的时间节点对于存储。在一个具体的实施例中，计算机设备可将从候选媒体资源库中提取的第一特征按照倒排列表的数据结构存储。

举例说明，假设媒体资源为视频。候选视频库对应的第一指纹库中按照倒排列表的数据结构存储着各候选视频的第一特征：

[D_t]:{[t_j,videoID_k],[t_k,videoID_x]...}

[D_t+1]:{[t_j+n,videoID_k+h],[t_k,videoID_y]...}

...

其中，D表示第一特征，t表示图像帧在视频中的时间节点，videoID表示视频的视频标识，[D_t]:{[t_j,videoID_k],[t_k,videoID_x]...}表示视频标识为videoID_k的视频在时间节点t_j的图像帧的第一特征为D_t，视频标识为videoID_x的视频在时间节点t_k的图像帧的第一特征也为D_t。通过这种形式就可以筛选出候选媒体资源库中的哪个媒体资源的哪帧图像帧具有与待匹配媒体资源的图像帧相同或相似的特征。

可以理解，候选媒体资源库中所有的媒体资源即为候选媒体资源。计算机设备可先从候选媒体资源中挑选出第二候选媒体资源。具体地，计算机设备可对从待匹配媒体资源中划分出的每个片段分别执行以下操作：将当前处理的片段所包括的各图像帧的第一特征，分别与各候选媒体资源所包括的各图像帧的第一特征进行比较。若存在某个(些)候选媒体资源所包括的图像帧的第一特征与当前处理的片段所包括的其中一帧图像帧的第一特征匹配，则获取该(这些)候选媒体资源作为第二候选媒体资源。那么，这里的第二候选媒体资源可以通俗地理解为与待匹配媒体资源的至少一个片段存在至少一帧匹配的图像帧。

举例说明，假设从待匹配媒体资源中划分出片段：S1、S2、S3和S4。其中，一个片段S1的时长为5秒，帧率为3帧/秒，那么S1包括5*3＝15帧图像帧。计算机设备会将S1包括的每一帧图像帧，分别与每个候选媒体资源所包括的每个图像帧的第一特征进行比较，得到与S1包括的各图像帧匹配的候选媒体资源，这些候选媒体资源即称为第二候选媒体资源。比如：候选媒体资源M1包括的其中一帧图像帧与S1包括的一帧图像帧匹配，则判定M1为第二候选媒体资源。

进一步地，计算机设备可以从第二候选媒体资源中继续挑选出第一候选媒体资源。具体地，计算机设备可继续对从待匹配媒体资源中划分出的每个片段分别执行以下操作：分别确定各第二候选媒体资源与当前片段在第一特征上连续匹配的图像帧的第二数量，将该第二数量与当前片段包括的图像帧的数量的比值，作为该第二候选媒体资源与当前片段的相似度。当第二候选媒体资源与当前片段的相似度大于相似度阈值时，判定该第二候选媒体资源与当前片段匹配，则该第二候选媒体资源可以被挑选出作为第一候选媒体资源。当第二候选媒体资源与当前片段相似度小于或等于相似度阈值时，判定该第二候选媒体资源与当前片段不匹配，则该第二候选媒体资源不能被挑选出作为第一候选媒体资源。

举例说明，在对S1包括的图像帧P1进行匹配时，匹配出videoID₁和videoID₂，那么videoID₁标识的视频V1和videoID₂标识的视频V2即为第二候选媒体资源。计算机设备可继续统计V1和V2分别与S1在时间上连续匹配的图像帧的个数，假设V1与S1的图像帧P1、P2、P3、P4、P5、P6、P7、P8、P9和P10均匹配，那么V1与S1的相似度为10/15；假设V2与S1的图像帧P1、P2、P3、P4、P5、P6、P7、P8、P9、P10、P11、P12、P13和P14均匹配，那么V2与S1的相似度为14/15。在本实施例中，相似度阈值设置为0.8，此时V1与S1的相似度为10/15小于0.8，则说明V1与S1不匹配，即第二候选媒体资源V1不能被挑选为第一候选媒体资源。此时V2与S1的相似度为14/15大于0.8，则说明V2与S1匹配，即第二候选媒体资源V2被挑选为第一候选媒体资源。

上述实施例中，在将待匹配媒体资源的片段与库中候选媒体资源进行匹配时，以候选媒体资源与片段中连续匹配的图像帧的数量来判断是否匹配。这样在图像的连续性上进行匹配提高了匹配的准确率。

更进一步地，计算机设备在候选媒体资源库中挑选出与待匹配媒体资源包括的任一图像帧在第一特征上匹配的第二候选媒体资源，并继续在第二候选媒体资源中挑选出与从待匹配媒体资源划分出的任一片段在第一特征上匹配的第一候选媒体资源后，可继续查看各第一候选媒体资源与从待匹配媒体资源划分出的这些片段中匹配的片段的数量，再根据各第一候选媒体资源相应的匹配的片段的数量、各片段的时长以及待匹配媒体资源的时长，得到各第一候选媒体资源与待匹配媒体资源的相似度，最后从第一候选媒体资源中，筛选出与待匹配媒体资源的相似度超过预设相似度的第三候选媒体资源，即与待匹配媒体资源在第一特征上匹配的候选媒体资源。也就是S204中初步筛选出的候选媒体资源。

举例说明，假设一个待匹配媒体资源Q的时长为dur，Q划分为M个时长为K的片段。当第一候选媒体资源V与Q共有R个(R≤M)个片段匹配，则V与Q的相似度为R*K/dur，再根据R*K/dur与相似度阈值的大小关系，决定第一候选媒体资源是否被选为第三候选媒体资源。假设，第一候选媒体资源V3与Q的相似度为R*K/dur大于相似度阈值，则第一候选媒体资源V3被挑选为第三候选媒体资源，也就是初步筛选出的与待匹配媒体资源在第一特征上匹配的候选媒体资源。第一候选媒体资源V4与Q的相似度为R*K/dur小于相似度阈值，则第一候选媒体资源V4不能被挑选为第三候选媒体资源，也就是在初步筛选与待匹配媒体资源在第一特征上匹配的候选媒体资源时，需要被过滤掉的候选媒体资源。这里的相似度阈值与前文中筛选第一候选媒体资源时的相似度阈值可以相同也可以不同。

上述实施例中，在第一特征的特征层面，初步地对待匹配媒体资源与库中的候选媒体资源进行匹配，为媒体资源的匹配奠定了基础，在一定程度上提高了匹配的召回率。

图4示出了一个实施例中视频匹配的原理示意图。在本实施例中，媒体资源为视频。参考图4，计算机设备可先通过深度学习模型对待匹配视频进行深度学习特征(即前述实施例中的第一特征)的提取，得到待匹配视频的深度学习特征视频指纹，再然后将其与深度学习特征视频指纹库中的深度学习特征视频指纹进行指纹匹配检测。其中，深度学习特征视频指纹库是候选视频的深度学习特征视频指纹的集合。当深度学习特征视频指纹库中存在与待匹配视频的深度学习特征视频指纹匹配的深度学习特征视频指纹时，则初步筛选出与待匹配视频在深度学习特征上匹配的候选视频，并继续进行后续的匹配流程；当深度学习特征视频指纹库中不存在与待匹配视频的深度学习特征视频指纹匹配的深度学习特征视频指纹时，则终止匹配流程，得到匹配失败的视频匹配结果。

在一个实施例中，S206包括：分别提取待匹配媒体资源所包括的图像帧的第二特征；确定待匹配媒体资源的图像帧与初步筛选出的候选媒体资源的图像帧在第二特征上的相似度；根据各相似度，确定初步筛选出的各候选媒体资源与匹配媒体资源的时间匹配信息；从初步筛选出的候选媒体资源中，根据各时间匹配信息二次筛选出与待匹配媒体资源在第二特征上匹配的候选媒体资源。

具体地，计算机设备可以待匹配媒体资源为单位进行处理，分别提取待匹配媒体资源所包括的各图像帧的第二特征，将待匹配媒体资源的各图像帧与初步筛选出的候选媒体资源的各图像帧在第二特征上进行相似度计算，以得到待匹配媒体资源与初步筛选出的候选媒体资源在第二特征上的相似度，从而二次筛选出与待匹配媒体资源在第二特征上匹配的候选媒体资源。

在本实施例中，当待匹配媒体资源至少有两帧图像帧与初步筛选出的候选媒体资源的图像帧在第二特征上相同或相似(即匹配)时，即可确定匹配的图像帧时间匹配信息。比如，待匹配媒体资源中时间节点为t₁的图像帧，与初步筛选出的一个候选媒体资源中时间节点为t₂的图像帧在第二特征上匹配，则得到时间匹配信息(t₁，t₂)。继而可根据匹配的图像帧的时间匹配信息得到两个媒体资源的匹配时长，从而根据该匹配时长得到待匹配媒体资源与初步筛选出的候选媒体资源在第二特征上的相似度，从而二次筛选出与待匹配媒体资源在第二特征上匹配的候选媒体资源。

在一个实施例中，计算机设备也可将待匹配媒体资源划分为多个片段，以片段为单位进行处理，分别提取各片段所包括的各图像帧的第二特征，将各片段的各图像帧与初步筛选出的候选媒体资源的各图像帧在第二特征上进行相似度计算，以得到各片段与初步筛选出的候选媒体资源在第二特征上的相似度，再进一步得到待匹配媒体资源与初步筛选出的候选媒体资源在第二特征上的相似度，从而二次筛选出与待匹配媒体资源在第二特征上匹配的候选媒体资源。

在本实施例中，类似于前述实施例中待匹配媒体资源与候选媒体资源在第一特征上匹配的过程。分别提取各片段所包括的各图像帧的第二特征，将各片段的各图像帧与初步筛选出的候选媒体资源的各图像帧在第二特征上进行相似度计算；对于每个片段，分别确定与初步筛选出的各候选媒体资源在第二特征上相似的连续图像帧的数量，将该数量与当前片段包括的图像帧的数量的比值，作为初步筛选出的各候选媒体资源与当前片段的相似度。当相似度大于相似度阈值时，判定初步筛选出的各候选媒体资源与当前片段匹配。计算机设备可继续查看初步筛选出的各候选媒体资源与从待匹配媒体资源划分出的这些片段中匹配的片段的数量，再根据初步筛选出的各候选媒体资源相应的匹配的片段的数量、各片段的时长以及待匹配媒体资源的时长，得到初步筛选出的各候选媒体资源与待匹配媒体资源的相似度，最后从初步筛选出的候选媒体资源中，筛选出与待匹配媒体资源的相似度超过预设相似度的候选媒体资源。

需要说明的是，无论采用哪种方式，在根据第二特征对初步筛选出的候选媒体资源进行二次筛选时，会对待匹配媒体资源与二次筛选出的各候选媒体资源逐一进行匹配，得到初步筛选出的各候选媒体资源与匹配媒体资源的时间匹配信息(匹配的时间节点对和匹配时长等)。

在一个实施例中，分别提取匹配媒体资源所包括的图像帧的第二特征，包括：对待匹配媒体资源所包括的各图像帧进行尺度不变特征转换，提取各图像帧的第二特征；第二特征包括多个特征值。

其中，尺度不变特征转换(Scale-invariant feature transform，SIFT)是一种传统的特征提取方式。通过该方式提取的特征是一种不随图像尺度变化和旋转变化而变化的特征，是一种局部特征描述子。通常情况下SIFT特征具有多个特征值，不同图像帧的SIFT特征的特征值数量可能不同。

在一个实施例中，计算机设备可以对SIFT特征包括的多个特征值进行归一化处理。归一化后的SIFT特征可以解决例如图片亮度变化时特征提取的差异问题，从而可以增加SIFT特征的抗噪能力。

举例说明，图像帧P1的SIFT特征包括P个特征值，那么P1的SIFT特征可以表示为：

V_SIFT(v₁,v₂...v_P)

归一后的SIFT特征可以表示为：

当然，在其他实施例中也可以采用其他传统的特提取方式提取的特征作为第二特征。本申请实施例在此不做限定。比如，基于空间颜色的特征提取方式或者基于二维离散余弦变换的特征提取方式等。

上述实施例中，将基于尺度不变特征转换提取的特征作为第二特征进行匹配，SIFT特征具有较好的细节描述能力，可以更好地保证匹配的准确率。

在一个实施例中，待匹配媒体资源的图像帧与初步筛选出的候选媒体资源的图像帧在第二特征上的相似度的生成步骤包括：确定待匹配媒体资源的图像帧与初步筛选出的候选媒体资源的图像帧在第二特征上相匹配的特征值的第三数量；确定待匹配媒体资源的图像帧与初步筛选出的候选媒体资源的图像帧在第二特征上共同覆盖的特征值的第四数量；根据第三数量和第四数量的比值，生成待匹配媒体资源的图像帧与初步筛选出的候选媒体资源的图像帧在第二特征上的相似度。

可以理解，由于图像帧的第二特征包括多个特征值，那么根据两帧图像帧在第二特征上相同的特征值的数量的占比来衡量相似度。

具体地，两帧图像帧在第二特征上相似度的计算公式如下：

其中，S为相似度，T_t1为待匹配媒体资源中时间节点为t₁的图像帧的第二特征，T′_t2为初步筛选出的一个候选媒体资源中时间节点为t₂的图像帧的第二特征。T_t1∩T′_t2描述了两帧图像帧在第二特征上相同或相似的特征值的个数，T_t1∪T′_t2描述了两帧图像帧在在第二特征上共同覆盖的特征值的个数。当两帧图像帧的相似度大于相似度阈值(如0.011等)，则认为这两帧图像帧匹配，并记录这两帧图像帧的时间匹配信息(t₁，t₂)。

举例说明，假设图像帧P1的第二特征的特征值数量为100，图像帧P2的第二特征的特征值数量为120，其中有50个特征值是相同或者相似的。那么，P1与P2的相似度为：50/(100+120-50)。

本实施例中，提供了对两帧图像帧在第二特征上进行相似度计算的途径，保证了匹配过程的顺利进行。

计算机设备在确定初步筛选出的各候选媒体资源与待匹配媒体资源之间匹配的时间节点后，可通过构造at1+bt2＝c的时间节点映射关系(t1为待匹配媒体资源的时间节点，t2为候选媒体资源的时间节点)去估算媒体资源匹配时域上的缩放关系。采用最小平方法(Least squares error)去估计媒体资源时域变形的信息。然后，通过分析匹配的时间节点可以得到匹配时长。媒体资源的匹配百分比可以根据匹配时长和待匹配媒体资源的时长来计算得出。最后通过匹配百分比或者匹配时长的信息，来判断两个媒体资源的匹配情况。

上述实施例中，在第二特征的特征层面，继续对待匹配媒体资源与第一次匹配成功的候选媒体资源进行匹配，为媒体资源的匹配进行了深化，在一定程度上提高了匹配的准确性。

继续参考图4，计算机设备可通过传统的特征提取方式对待匹配视频进行传统学习特征(即前述实施例中的第二特征)的提取，得到待匹配视频的传统学习特征视频指纹；然后在初步筛选出与待匹配视频在深度学习特征上匹配的候选视频后，将待匹配视频的传统学习特征视频指纹与传统学习特征视频指纹库中的传统学习特征视频指纹进行指纹匹配检测。其中，传统学习特征视频指纹库是初步筛选出的候选视频的传统学习特征视频指纹的集合。当传统学习特征视频指纹库中存在与待匹配视频的传统学习特征视频指纹匹配的传统学习特征视频指纹时，则二次筛选出与待匹配视频在深度学习特征和传统学习特征上均匹配的候选视频，并继续进行后续的匹配流程；当传统学习特征视频指纹库中不存在与待匹配视频的传统学习特征视频指纹匹配的传统学习特征视频指纹时，则终止匹配流程，得到匹配失败的视频匹配结果。

在一个实施例中，对象属性特征包括音频特征。S208包括：提取待匹配媒体资源的音频特征；对于二次筛选出的各候选媒体资源，分别确定相应的音频特征与提取的音频特征相匹配的特征值的第五数量；根据各第五数量得到相应候选媒体资源与待匹配媒体资源的匹配结果。

其中，音频特征是反映媒体资源中包括的音频的特性的数据。比如音频能量、音谱特性或者基频等。这里的音频特征具体可以为音频指纹(如：Shazam Audio Fingerprint，一种通过哈希值表示特征的数据)。具体地，计算机设备可采用音频特征提取方式从待匹配媒体资源以及候选媒体资源中提取各自的音频特征。媒体资源的音频特征可以是媒体资源的背景音频的特征，背景音频比如旁白、解说或者背景音乐等；媒体资源的音频特征也可以是媒体资源所包括对象的声音的特征，对象的声音比如人物说话声音或者动物叫声等。

在一个具体的实施例中，媒体资源为视频。视频的音频特征具体可以是反应语种类型的特征，比如中文、韩文或者英文等。这样可以通过音频特征区分内容相同但属于不同语种版本的视频。

举例说明，部分视频(比如电影或者动漫等)存在多种语言版本，比如中文版本或者英文版本等。一个视频的中文版本和英文版本，通常情况下仅音频所对应的语种不同，其他内容均相同。这样，在进行视频匹配时，经过第一特征和第二特征的匹配，可能会将一个视频多种语言版本的视频均筛选出来，此时，可再基于音频特征进行进一步匹配，即可筛选出匹配程度更高的目标视频。

在一个具体的实施例中，音频特征具体可以是：快速傅里叶变化(Fast FourierTransformation，FFT)特征或者梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient,MFCC)特征等。

具体地，音频特征提取出来是一种包括多个哈希值的特征。计算机设备可对二次筛选出的每个候选媒体资源，分别确定待匹配媒体资源与其在音频特征上相匹配的特征值(即哈希值)的数量，再根据得到的数量得到二次筛选出的每个候选媒体资源与待匹配媒体资源进行匹配的匹配结果。比如，当待匹配媒体资源与二次筛选出的某个候选媒体资源在音频特征上相匹配的特征值(即哈希值)的数量，占待匹配媒体资源音频特征的特征值的数量的比值超过预设比例(如50％)，则认为该二次筛选出的候选媒体资源与待匹配媒体资源匹配。

上述实施例中，在经过第一特征和第二特征匹配的双重筛选下，进一步基于音频特征进行匹配，进一步提高了匹配的准确率。

在一个实施例中，对象属性特征包括面部特征。S208包括：提取待匹配媒体资源所包括对象的面部特征；当二次筛选出的候选媒体资源所包括对象的面部特征中，存在与提取的面部特征相匹配的面部特征时，则得到表示匹配成功的媒体资源匹配结果，并将与提取的面部特征相匹配的面部特征所属的候选媒体资源作为匹配成功的目标媒体资源。

其中，面部特征是反应对象面部特性的数据。对象具体可以是人物、动物或者虚拟形象等。计算机设备可对待匹配媒体资源所包括对象进行面部特征提取，具体可以对待匹配媒体资源的各图像帧所包括对象进行特征提取，得到与待匹配媒体资源对应的面部特征库。比如，待匹配媒体资源共包括唐僧、孙悟空、猪八戒和沙和尚4个人物，那么待匹配媒体资源对应的面部特征库则有4份面部特征，分别对应唐僧、孙悟空、猪八戒和沙和尚这4个人物。

计算机设备可基于人脸检测算法定位图像帧中的面部区域，再通过特征提取模型对该面部区域进行面部特征提取。其中，特征提取模型比如VGG，采用用了VGG最后一层输出的1024维向量作为面部特征。

二次筛选出的各候选媒体资源也各自对应一个面部特征库，计算机设备则将得到与待匹配媒体资源对应的面部特征库与二次筛选出的各候选媒体资源各自对应的面部特征库进行比较。对于二次筛选出的某个候选媒体资源，只要该候选媒体资源对应的面部特征库中存在一份面部特征，与待匹配媒体资源对应的面部特征库中的任一份面部特征相同或者相似，则认为该候选媒体资源与待匹配媒体资源匹配成功。

举例说明，假设待匹配媒体资源对应的面部特征库有4份面部特征，分别对应唐僧、孙悟空、猪八戒和沙和尚这4个人物。只要二次筛选出的某个候选媒体资源对应的面部特征库中存在一份面部特征与这4份面部特征的其中一份相同或者相似时，则认为该候选媒体资源与待匹配媒体资源匹配成功。

在一个实施例中，提取待匹配媒体资源所包括对象的面部特征，包括：确定待匹配媒体资源与二次筛选出的各候选媒体资源匹配的图像帧；提取确定的各图像帧所包括对象的面部特征。当二次筛选出的候选媒体资源所包括对象的面部特征中，存在与提取的面部特征相匹配的面部特征时，则得到表示匹配成功的媒体资源匹配结果，并将与提取的面部特征相匹配的面部特征所属的候选媒体资源作为匹配成功的目标媒体资源，包括：当二次筛选出的候选媒体资源与待匹配媒体资源匹配的图像帧所包括对象的面部特征中，存在与提取的面部特征相匹配的面部特征时，则得到表示匹配成功的媒体资源匹配结果，并将与提取的面部特征相匹配的面部特征所属的候选媒体资源作为匹配成功的目标媒体资源。

具体地，计算机设备则仅对待匹配媒体资源与二次筛选出的各候选媒体资源匹配的图像帧进行面部特征提取，且对于二次筛选出的某个候选媒体资源，只有该候选媒体资源与待匹配媒体资源相匹配的图像帧的面部特征相同或者相似时，才认为该候选媒体资源与待匹配媒体资源匹配成功。

举例说明，假设待匹配媒体资源的视频帧P1与二次筛选出的某个候选媒体资源的图像帧P2相匹配，则需要P1和P2中对象的面部特征匹配，则认为该候选媒体资源与待匹配媒体资源匹配成功。

在本实施例中，在经过第一特征和第二特征匹配的双重筛选下，进一步基于对象的面部特征进行匹配，且只有在经过第二特征匹配的图像帧包括的对象的面部特征匹配时，才判定媒体资源匹配成功，进一步提高了匹配的准确率。

上述实施例中，在经过第一特征和第二特征匹配的双重筛选下，进一步基于对象的面部特征进行匹配，进一步提高了匹配的准确率。

在一个实施例中，计算机设备可对二次筛选出的候选媒体资源与待匹配媒体资源基于所有的对象属性特征进行匹配，也可以进选取多种对象属性特征的其中部分对象属性特征进行匹配。

继续参考图4，计算机设备可对待匹配视频进行附加特征(即前述实施例中的对象属性特征)的提取，得到待匹配视频的附加视频指纹；然后在二次筛选出与待匹配视频在深度学习特征和传统学习特征上均匹配的候选视频后，将待匹配视频的附加特征视频指纹与附加特征视频指纹库中的附加视频指纹进行指纹匹配检测。其中，附加特征视频指纹库是二次筛选出的候选视频的附加特征视频指纹的集合。当附加特征视频指纹库中存在与待匹配视频的附加视频指纹匹配的附加视频指纹时，则最终筛选出与待匹配视频在深度学习特征、传统学习特征和附加特征上均匹配的候选视频，在进行输出。当附加特征视频指纹库中不存在与待匹配视频的附加特征视频指纹匹配的附加特征视频指纹时，则终止匹配流程，得到匹配失败的视频匹配结果。

在一个实施例中，待匹配媒体资源为第一视频；候选媒体资源为第二视频；第二视频的时长大于第一视频的时长。S202包括：获取视频匹配指令；确定视频匹配指令所指向的第一视频。该媒体资源匹配方法还包括：当视频匹配结果表示匹配成功时，跳转至播放匹配成功的第二视频。

其中，第一视频与第二视频均是视频，但是两者是在某一个(或多个)视频参数上存在不同的视频。在本实施例中，第一视频与第二视频在视频时长上存在不同。第二视频的时长大于第一视频的时长。具体地，第一视频可以是视频时长短于几分钟的视频，也就是通常所称的短视频。第二视频可以是视频时长长于半小时的视频，也就是通常所称的长视频。长视频比如影视剧视频等，短视频比如从影视剧视频中截取出的精彩片段，或者是影视剧视频的预告片等。

可以理解，终端上可运行由视频应用。这样，终端则可根据用户操作播放视频应用所提供的第一视频或者第二视频等。具体地，终端可以对应第一视频展示相应的视频匹配入口，检测通过该视频匹配入口触发的视频匹配指令。当检测到视频匹配指令时，确定该视频匹配指令所指向的第一视频，将该第一视频作为待匹配视频，然后根据前述实施例中说描述的步骤，筛选出与该第一视频匹配的第二视频，进而跳转至播放匹配成功的第二视频。

举例说明，图5示出了一个实施例中展示第一视频的界面示意图。参考图5，该界面包括第一视频501和视频匹配入口502。用户可以通过点击第一视频501来进行第一视频播放，用户在观看该第一视频后，对该第一视频感兴趣，意图观看该第一视频对应的第二视频时，可点击视频匹配入口502来触发视频匹配指令。这样终端或者服务器即响应该视频匹配指令筛选与该第一视频对应的第二视频，然后再终端跳转至该第二视频进行播放，如图6所示。

在一个实施例中，由于对第一视频和第二视频基于第二特征进行匹配时，即得到了匹配的时间节点，那么终端在跳转至第二视频进行播放时，可直接跳转至匹配的时间节点继续播放。

上述实施例中，通过以短带长的产品形态，利用时长较短的第一视频去占据用户的碎片化时间，带动相关的时长较长第二视频的播放量和热度。另一方面，还能解决用户观看第一视频时难以找到相关的第二视频的问题，提高了视频匹配的效率和准确率。

当然，在另外的实施例中，第一视频也可以是不具有视频版权的视频，第二视频也可以是具有视频版权的视频。

应该理解的是，虽然上述各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图7所示，在一个实施例中，提供了一种媒体资源匹配装置700。参照图7，该媒体资源匹配装置700包括：获取模块701、初步筛选模块702、二次筛选模块703和匹配模块704。

获取模块701，用于获取待匹配媒体资源。

初步筛选模块702，用于对候选媒体资源库中的候选媒体资源进行初步筛选，初步筛选出与待匹配媒体资源在第一特征上匹配的候选媒体资源。

二次筛选模块703，用于对初步筛选出的候选媒体资源进行二次筛选，二次筛选出与待匹配媒体资源在第二特征上匹配的候选媒体资源；第二特征异于第一特征。

匹配模块704，用于将二次筛选出的候选媒体资源的对象属性特征，与待匹配媒体资源的对象属性特征进行匹配，得到媒体资源匹配结果。

在一个实施例中，初步筛选模块702还用于将待匹配媒体资源划分为多个片段；在候选媒体资源库中，查找与多个片段中任一片段在第一特征上匹配的第一候选媒体资源；分别确定各第一候选媒体资源与多个片段在第一特征上匹配的片段的第一数量；从第一候选媒体资源中，根据各第一数量初步筛选出与待匹配媒体资源在第一特征上匹配的候选媒体资源。

在一个实施例中，初步筛选模块702还用于分别提取各片段所包括的图像帧的第一特征；在候选媒体资源库中，查找与各片段所包括的任一图像帧在第一特征上匹配的第二候选媒体资源；分别确定每个片段与各第二候选媒体资源在第一特征上匹配的连续图像帧的第二数量；从第二候选媒体资源中，根据各第二数量筛选出与多个片段中任一片段在第一特征上匹配的第一候选媒体资源。

在一个实施例中，初步筛选模块702还用于将待匹配媒体资源所包括的各图像帧分别输入深度学习模型，通过深度学习模型的全连接层得到各图像帧的第一特征；其中，深度学习模型通过分类模型迁移学习得到；分类模型根据通用图像训练集训练得到；深度学习模型的训练样本为三元图像样本；三元图像样本包括锚示例图像样本、正示例图像样本和负示例图像样本；深度学习模型的损失函数为三元组损失函数。

在一个实施例中，二次筛选模块703还用于分别提取待匹配媒体资源所包括的图像帧的第二特征；确定待匹配媒体资源的图像帧与初步筛选出的候选媒体资源的图像帧在第二特征上的相似度；根据各相似度，确定初步筛选出的各候选媒体资源与匹配媒体资源的时间匹配信息；从初步筛选出的候选媒体资源中，根据各时间匹配信息二次筛选出与待匹配媒体资源在第二特征上匹配的候选媒体资源。

在一个实施例中，二次筛选模块703还用于对待匹配媒体资源所包括的各图像帧进行尺度不变特征转换，提取各图像帧的第二特征；第二特征包括多个特征值。

在一个实施例中，二次筛选模块703还用于确定待匹配媒体资源的图像帧与初步筛选出的候选媒体资源的图像帧在第二特征上相匹配的特征值的第三数量；确定待匹配媒体资源的图像帧与初步筛选出的候选媒体资源的图像帧在第二特征上共同覆盖的特征值的第四数量；根据第三数量和第四数量的比值，生成待匹配媒体资源的图像帧与初步筛选出的候选媒体资源的图像帧在第二特征上的相似度。

在一个实施例中，对象属性特征包括音频特征。匹配模块704还用于提取待匹配媒体资源的音频特征；对于二次筛选出的各候选媒体资源，分别确定相应的音频特征与提取的音频特征相匹配的特征值的第五数量；根据各第五数量得到相应候选媒体资源与待匹配媒体资源的匹配结果。

在一个实施例中，对象属性特征包括面部特征。匹配模块704还用于提取待匹配媒体资源所包括对象的面部特征；当二次筛选出的候选媒体资源所包括对象的面部特征中，存在与提取的面部特征相匹配的面部特征时，则得到表示匹配成功的媒体资源匹配结果，并将与提取的面部特征相匹配的面部特征所属的候选媒体资源作为匹配成功的目标媒体资源。

在一个实施例中，匹配模块704还用于确定待匹配媒体资源与二次筛选出的各候选媒体资源匹配的图像帧；提取确定的各图像帧所包括对象的面部特征；当二次筛选出的候选媒体资源与待匹配媒体资源匹配的图像帧所包括对象的面部特征中，存在与提取的面部特征相匹配的面部特征时，则得到表示匹配成功的媒体资源匹配结果，并将与提取的面部特征相匹配的面部特征所属的候选媒体资源作为匹配成功的目标媒体资源。

在一个实施例中，待匹配媒体资源为第一视频；候选媒体资源为第二视频；第二视频的时长大于第一视频的时长。

如图8所示，在一个实施例中，获取模块701还用于获取视频匹配指令；确定视频匹配指令所指向的第一视频。种媒体资源匹配装置700还包括：跳转模块705，用于当视频匹配结果表示匹配成功时，跳转至播放匹配成功的第二视频。

上述媒体资源匹配装置700，在获取到待匹配媒体资源后，首先自动对候选媒体资源库中的候选媒体资源进行初步筛选，初步筛选出与待匹配媒体资源在第一特征上匹配的候选媒体资源；然后对初步筛选出的候选媒体资源进行二次筛选，二次筛选出与待匹配媒体资源在第二特征上匹配的候选媒体资源；再将二次筛选出的候选媒体资源的对象属性特征，与待匹配媒体资源的对象属性特征进行匹配，得到媒体资源匹配结果。这样，通过级联的三层匹配过程在三个特征层面进行匹配，极大地提高了媒体资源匹配的准确率。

图9示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110。如图9所示，该计算机设备900包括该计算机设备包括通过系统总线901连接的处理器902、存储器903、网络接口904、输入装置905和显示屏906。其中，存储器903包括非易失性存储介质和内存储器。该计算机设备900的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器902执行时，可使得处理器902实现媒体资源匹配方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器902执行时，可使得处理器902执行媒体资源匹配方法。计算机设备900的显示屏906可以是液晶显示屏或者电子墨水显示屏，计算机设备900的输入装置905可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器120。如图10所示，该计算机设备1000包括该计算机设备包括通过系统总线1001连接的处理器1002、存储器1003和网络接口1004。其中，存储器1003包括非易失性存储介质和内存储器。该计算机设备1000的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器1002执行时，可使得处理器1002实现媒体资源匹配方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器1002执行时，可使得处理器1002执行媒体资源匹配方法。

本领域技术人员可以理解，图9或10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的媒体资源匹配装置可以实现为一种计算机程序的形式，计算机程序可在如图9或10所示的计算机设备上运行。计算机设备的存储器中可存储组成该媒体资源匹配装置的各个程序模块，比如，图7所示的获取模块701、初步筛选模块702、二次筛选模块703和匹配模块704。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的媒体资源匹配方法中的步骤。

例如，图9或10所示的计算机设备可以通过如图7所示的媒体资源匹配装置700中的获取模块701获取待匹配媒体资源。通过初步筛选模块702对候选媒体资源库中的候选媒体资源进行初步筛选，初步筛选出与待匹配媒体资源在第一特征上匹配的候选媒体资源。通过二次筛选模块703对初步筛选出的候选媒体资源进行二次筛选，二次筛选出与待匹配媒体资源在第二特征上匹配的候选媒体资源；第二特征异于第一特征。通过匹配模块将二次筛选出的候选媒体资源的对象属性特征，与待匹配媒体资源的对象属性特征进行匹配，得到媒体资源匹配结果。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述媒体资源匹配方法的步骤。此处媒体资源匹配方法的步骤可以是上述各个实施例的媒体资源匹配方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述媒体资源匹配方法的步骤。此处媒体资源匹配方法的步骤可以是上述各个实施例的媒体资源匹配方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种媒体资源匹配方法，包括：

获取待匹配媒体资源；

对候选媒体资源库中的候选媒体资源进行初步筛选，初步筛选出与所述待匹配媒体资源在第一特征上匹配的候选媒体资源；所述候选媒体资源的时长大于所述待匹配媒体资源的时长；

将二次筛选出的候选媒体资源的对象属性特征，与所述待匹配媒体资源的对象属性特征进行匹配，得到媒体资源匹配结果；所述对象属性特征包括音频特征和面部特征中的至少一种；

当媒体资源匹配结果表示匹配成功时，判定所述待匹配媒体资源截取自匹配成功的候选媒体资源，并跳转至播放所述匹配成功的候选媒体资源。

2.根据权利要求1所述的方法，其特征在于，所述对候选媒体资源库中的候选媒体资源进行初步筛选，初步筛选出与所述待匹配媒体资源在第一特征上匹配的候选媒体资源，包括：

将待匹配媒体资源划分为多个片段；

在候选媒体资源库中，查找与所述多个片段中任一片段在第一特征上匹配的第一候选媒体资源；

分别确定各所述第一候选媒体资源与所述多个片段在第一特征上匹配的片段的第一数量；

从所述第一候选媒体资源中，根据各所述第一数量初步筛选出与所述待匹配媒体资源在第一特征上匹配的候选媒体资源。

3.根据权利要求2所述的方法，其特征在于，所述在候选媒体资源库中，查找与所述多个片段中任一片段在第一特征上匹配的第一候选媒体资源，包括：

分别提取各所述片段所包括的图像帧的第一特征；

在候选媒体资源库中，查找与各片段所包括的任一图像帧在第一特征上匹配的第二候选媒体资源；

分别确定每个所述片段与各所述第二候选媒体资源在第一特征上匹配的连续图像帧的第二数量；

从所述第二候选媒体资源中，根据各所述第二数量筛选出与所述多个片段中任一片段在第一特征上匹配的第一候选媒体资源。

4.根据权利要求3所述的方法，其特征在于，所述分别提取各所述片段所包括的图像帧的第一特征，包括：

将所述待匹配媒体资源所包括的各图像帧分别输入深度学习模型，通过所述深度学习模型的全连接层得到各所述图像帧的第一特征；

其中，所述深度学习模型通过分类模型迁移学习得到；所述分类模型根据通用图像训练集训练得到；所述深度学习模型的训练样本为三元图像样本；所述三元图像样本包括锚示例图像样本、正示例图像样本和负示例图像样本；所述深度学习模型的损失函数为三元组损失函数。

5.根据权利要求1所述的方法，其特征在于，所述对初步筛选出的候选媒体资源进行二次筛选，二次筛选出与所述待匹配媒体资源在第二特征上匹配的候选媒体资源，包括：

分别提取所述待匹配媒体资源所包括的图像帧的第二特征；

确定所述待匹配媒体资源的图像帧与初步筛选出的候选媒体资源的图像帧在第二特征上的相似度；

根据各所述相似度，确定初步筛选出的各候选媒体资源与所述匹配媒体资源的时间匹配信息；

从初步筛选出的候选媒体资源中，根据各所述时间匹配信息二次筛选出与所述待匹配媒体资源在第二特征上匹配的候选媒体资源。

6.根据权利要求5所述的方法，其特征在于，所述分别提取所述匹配媒体资源所包括的图像帧的第二特征，包括：

对所述待匹配媒体资源所包括的各图像帧进行尺度不变特征转换，提取各所述图像帧的第二特征；所述第二特征包括多个特征值。

7.根据权利要求5所述的方法，其特征在于，所述待匹配媒体资源的图像帧与初步筛选出的候选媒体资源的图像帧在第二特征上的相似度的生成步骤包括：

确定所述待匹配媒体资源的图像帧与初步筛选出的候选媒体资源的图像帧在第二特征上相匹配的特征值的第三数量；

确定所述待匹配媒体资源的图像帧与初步筛选出的候选媒体资源的图像帧在第二特征上共同覆盖的特征值的第四数量；

根据所述第三数量和所述第四数量的比值，生成所述待匹配媒体资源的图像帧与初步筛选出的候选媒体资源的图像帧在第二特征上的相似度。

8.根据权利要求1所述的方法，其特征在于，所述对象属性特征包括音频特征；所述将二次筛选出的候选媒体资源的对象属性特征，与所述待匹配媒体资源的对象属性特征进行匹配，得到媒体资源匹配结果，包括：

提取所述待匹配媒体资源的音频特征；

对于二次筛选出的各候选媒体资源，分别确定相应的音频特征与提取的所述音频特征相匹配的特征值的第五数量；

根据各第五数量得到相应候选媒体资源与待匹配媒体资源的匹配结果。

9.根据权利要求1所述的方法，其特征在于，所述对象属性特征包括面部特征；所述将二次筛选出的候选媒体资源的对象属性特征，与所述待匹配媒体资源的对象属性特征进行匹配，得到媒体资源匹配结果，包括：

提取所述待匹配媒体资源所包括对象的面部特征；

当二次筛选出的候选媒体资源所包括对象的面部特征中，存在与提取的所述面部特征相匹配的面部特征时，则

得到表示匹配成功的媒体资源匹配结果，并将与提取的所述面部特征相匹配的面部特征所属的候选媒体资源作为匹配成功的目标媒体资源。

10.根据权利要求9所述的方法，其特征在于，所述提取所述待匹配媒体资源所包括对象的面部特征，包括：

确定所述待匹配媒体资源与二次筛选出的各候选媒体资源匹配的图像帧；

提取确定的各所述图像帧所包括对象的面部特征；

所述当二次筛选出的候选媒体资源所包括对象的面部特征中，存在与提取的所述面部特征相匹配的面部特征时，则得到表示匹配成功的媒体资源匹配结果，并将与提取的所述面部特征相匹配的面部特征所属的候选媒体资源作为匹配成功的目标媒体资源，包括：

当二次筛选出的候选媒体资源与所述待匹配媒体资源匹配的图像帧所包括对象的面部特征中，存在与提取的所述面部特征相匹配的面部特征时，则

11.根据权利要求1至10中任一项所述的方法，其特征在于，所述待匹配媒体资源为第一视频；所述候选媒体资源为第二视频；所述第二视频的时长大于所述第一视频的时长。

12.根据权利要求11所述的方法，其特征在于，所述获取待匹配媒体资源，包括：

获取视频匹配指令；

确定所述视频匹配指令所指向的第一视频；

所述当媒体资源匹配结果表示匹配成功时，判定所述待匹配媒体资源截取自匹配成功的候选媒体资源，并跳转至播放所述匹配成功的候选媒体资源包括：

当视频匹配结果表示匹配成功时，判定所述第一视频截取自匹配成功的第二视频，并跳转至播放所述匹配成功的第二视频。

13.一种媒体资源匹配装置，包括：

获取模块，用于获取待匹配媒体资源；

初步筛选模块，用于对候选媒体资源库中的候选媒体资源进行初步筛选，初步筛选出与所述待匹配媒体资源在第一特征上匹配的候选媒体资源；所述候选媒体资源的时长大于所述待匹配媒体资源的时长；

匹配模块，用于将二次筛选出的候选媒体资源的对象属性特征，与所述待匹配媒体资源的对象属性特征进行匹配，得到媒体资源匹配结果；所述对象属性特征包括音频特征和面部特征中的至少一种；

跳转模块，用于当媒体资源匹配结果表示匹配成功时，判定所述待匹配媒体资源截取自匹配成功的候选媒体资源，并跳转至播放所述匹配成功的候选媒体资源。

14.根据权利要求13所述的装置，其特征在于，所述初步筛选模块还用于将待匹配媒体资源划分为多个片段；在候选媒体资源库中，查找与所述多个片段中任一片段在第一特征上匹配的第一候选媒体资源；分别确定各所述第一候选媒体资源与所述多个片段在第一特征上匹配的片段的第一数量；从所述第一候选媒体资源中，根据各所述第一数量初步筛选出与所述待匹配媒体资源在第一特征上匹配的候选媒体资源。

15.根据权利要求14所述的装置，其特征在于，所述初步筛选模块还用于分别提取各所述片段所包括的图像帧的第一特征；在候选媒体资源库中，查找与各片段所包括的任一图像帧在第一特征上匹配的第二候选媒体资源；分别确定每个所述片段与各所述第二候选媒体资源在第一特征上匹配的连续图像帧的第二数量；从所述第二候选媒体资源中，根据各所述第二数量筛选出与所述多个片段中任一片段在第一特征上匹配的第一候选媒体资源。

16.根据权利要求15所述的装置，其特征在于，所述初步筛选模块还用于将所述待匹配媒体资源所包括的各图像帧分别输入深度学习模型，通过所述深度学习模型的全连接层得到各所述图像帧的第一特征；其中，所述深度学习模型通过分类模型迁移学习得到；所述分类模型根据通用图像训练集训练得到；所述深度学习模型的训练样本为三元图像样本；所述三元图像样本包括锚示例图像样本、正示例图像样本和负示例图像样本；所述深度学习模型的损失函数为三元组损失函数。

17.根据权利要求13所述的装置，其特征在于，所述二次筛选模块还用于分别提取所述待匹配媒体资源所包括的图像帧的第二特征；确定所述待匹配媒体资源的图像帧与初步筛选出的候选媒体资源的图像帧在第二特征上的相似度；根据各所述相似度，确定初步筛选出的各候选媒体资源与所述匹配媒体资源的时间匹配信息；从初步筛选出的候选媒体资源中，根据各所述时间匹配信息二次筛选出与所述待匹配媒体资源在第二特征上匹配的候选媒体资源。

18.根据权利要求17所述的装置，其特征在于，所述二次筛选模块还用于对所述待匹配媒体资源所包括的各图像帧进行尺度不变特征转换，提取各所述图像帧的第二特征；所述第二特征包括多个特征值。

19.根据权利要求17所述的装置，其特征在于，所述二次筛选模块还用于确定所述待匹配媒体资源的图像帧与初步筛选出的候选媒体资源的图像帧在第二特征上相匹配的特征值的第三数量；确定所述待匹配媒体资源的图像帧与初步筛选出的候选媒体资源的图像帧在第二特征上共同覆盖的特征值的第四数量；根据所述第三数量和所述第四数量的比值，生成所述待匹配媒体资源的图像帧与初步筛选出的候选媒体资源的图像帧在第二特征上的相似度。

20.根据权利要求13所述的装置，其特征在于，所述对象属性特征包括音频特征；所述匹配模块还用于提取所述待匹配媒体资源的音频特征；对于二次筛选出的各候选媒体资源，分别确定相应的音频特征与提取的所述音频特征相匹配的特征值的第五数量；根据各第五数量得到相应候选媒体资源与待匹配媒体资源的匹配结果。

21.根据权利要求13所述的装置，其特征在于，所述对象属性特征包括面部特征；所述匹配模块还用于提取所述待匹配媒体资源所包括对象的面部特征；当二次筛选出的候选媒体资源所包括对象的面部特征中，存在与提取的所述面部特征相匹配的面部特征时，则得到表示匹配成功的媒体资源匹配结果，并将与提取的所述面部特征相匹配的面部特征所属的候选媒体资源作为匹配成功的目标媒体资源。

22.根据权利要求21所述的装置，其特征在于，所述匹配模块还用于确定所述待匹配媒体资源与二次筛选出的各候选媒体资源匹配的图像帧；提取确定的各所述图像帧所包括对象的面部特征；当二次筛选出的候选媒体资源与所述待匹配媒体资源匹配的图像帧所包括对象的面部特征中，存在与提取的所述面部特征相匹配的面部特征时，则得到表示匹配成功的媒体资源匹配结果，并将与提取的所述面部特征相匹配的面部特征所属的候选媒体资源作为匹配成功的目标媒体资源。

23.根据权利要求13至22中任一项所述的装置，其特征在于，所述待匹配媒体资源为第一视频；所述候选媒体资源为第二视频；所述第二视频的时长大于所述第一视频的时长。

24.根据权利要求23所述的装置，其特征在于，所述获取模块还用于获取视频匹配指令；确定所述视频匹配指令所指向的第一视频；

所述跳转模块还用于当视频匹配结果表示匹配成功时，判定所述第一视频截取自匹配成功的第二视频，并跳转至播放所述匹配成功的第二视频。

25.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。

26.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。