CN108647245A

CN108647245A - 多媒体资源的匹配方法、装置、存储介质及电子装置

Info

Publication number: CN108647245A
Application number: CN201810333805.6A
Authority: CN
Inventors: 徐敘遠; 龚国平; 吴韬
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2018-10-12
Anticipated expiration: 2038-04-13
Also published as: US11914639B2; EP3761187A1; JP7013587B2; EP3761187A4; US20200349385A1; JP2021518005A; CN108647245B; WO2019196659A1

Abstract

本发明公开了一种多媒体资源的匹配方法、装置、存储介质及电子装置。其中，该方法包括：在多媒体资源集合中查找第一媒体资源集合，其中，第一媒体资源集合中的每个媒体资源的第一目标帧图像满足目标条件，第一目标帧图像的特征与待匹配多媒体资源的帧图像中的特征匹配、且满足第一匹配条件；在第一目标帧图像中确定第二目标帧图像，其中，第二目标帧图像的特征与待匹配多媒体资源的帧图像中的特征匹配、且满足第二匹配条件；获取第二目标帧图像的匹配信息，其中，匹配信息用于指示第二目标帧图像在第二目标帧图像所在的媒体资源中的总时长和播放时刻。本发明解决了相关技术中多媒体资源的匹配效率较低的技术问题。

Description

多媒体资源的匹配方法、装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种多媒体资源的匹配方法、装置、存储介质及电子装置。

背景技术

随着计算机和网络技术的飞速发展，人们能够在网络上接触到越来越多的多媒体资源。多媒体资源的提供平台有时会需要对多媒体资源进行匹配，以对多媒体资源进行后续的处理。但目前的多媒体资源的匹配方式准确率和匹配效率都较低。如何能够高准确率、高效地对多媒体资源进行匹配成为了提高多媒体资源处理效率的关键。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种多媒体资源的匹配方法、装置、存储介质及电子装置，以至少解决相关技术中多媒体资源的匹配效率较低的技术问题。

根据本发明实施例的一个方面，提供了一种多媒体资源的匹配方法，包括：在多媒体资源集合中查找第一媒体资源集合，其中，所述第一媒体资源集合中的每个媒体资源的第一目标帧图像满足目标条件，所述第一目标帧图像的特征与待匹配多媒体资源的帧图像中的特征匹配、且满足第一匹配条件；在所述第一目标帧图像中确定第二目标帧图像，其中，所述第二目标帧图像的特征与所述待匹配多媒体资源的帧图像中的特征匹配、且满足第二匹配条件；获取所述第二目标帧图像的匹配信息，其中，所述匹配信息用于指示所述第二目标帧图像在所述第二目标帧图像所在的媒体资源中的总时长和播放时刻。

根据本发明实施例的另一方面，还提供了一种多媒体资源的匹配装置，包括：查找模块，用于在多媒体资源集合中查找第一媒体资源集合，其中，所述第一媒体资源集合中的每个媒体资源的第一目标帧图像满足目标条件，所述第一目标帧图像的特征与待匹配多媒体资源的帧图像中的特征匹配、且满足第一匹配条件；第一确定模块，用于在所述第一目标帧图像中确定第二目标帧图像，其中，所述第二目标帧图像的特征与所述待匹配多媒体资源的帧图像中的特征匹配、且满足第二匹配条件；第一获取模块，用于获取所述第二目标帧图像的匹配信息，其中，所述匹配信息用于指示所述第二目标帧图像在所述第二目标帧图像所在的媒体资源中的总时长和播放时刻。

根据本发明实施例的另一方面，还提供了一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项中所述的方法。

根据本发明实施例的另一方面，还提供了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行上述任一项中所述的方法。

在本发明实施例中，首先从多媒体资源集合中查找到包括的第一目标帧图像的特征与待匹配多媒体资源的帧图像的特征匹配并满足第一匹配条件并且这些第一目标帧图像满足目标条件的媒体资源，从而找到资源库中与待匹配多媒体资源相似的媒体资源，组成第一媒体资源集合，再从第一媒体资源集合中媒体资源的第一目标帧图像中确定特征与待匹配多媒体资源的帧图像中的特征匹配、且满足第二匹配条件的第二目标帧图像，并获取第二目标帧图像的匹配信息，从而从与待匹配多媒体资源相似的多媒体资源中筛选出相似度更加高的多媒体资源，并获取到具体的匹配信息，从而实现了提高多媒体资源的匹配效率的技术效果，进而解决了相关技术中多媒体资源的匹配效率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的多媒体资源的匹配方法的示意图；

图2是根据本发明实施例的一种可选的多媒体资源的匹配方法的应用环境示意图；

图3是根据本发明可选的实施方式的一种可选的多媒体资源的匹配方法的示意图；

图4是根据本发明可选的实施方式的一种可选的多媒体资源的匹配方法的示意图；

图5是根据本发明实施例的一种可选的多媒体资源的匹配装置的示意图；

图6是根据本发明实施例的一种可选的多媒体资源的匹配方法的应用场景示意图；以及

图7是根据本发明实施例的一种可选的电子装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种多媒体资源的匹配方法，如图1所示，该方法包括：

S102，在多媒体资源集合中查找第一媒体资源集合，其中，第一媒体资源集合中的每个媒体资源的第一目标帧图像满足目标条件，第一目标帧图像的特征与待匹配多媒体资源的帧图像中的特征匹配、且满足第一匹配条件；

S104，在第一目标帧图像中确定第二目标帧图像，其中，第二目标帧图像的特征与待匹配多媒体资源的帧图像中的特征匹配、且满足第二匹配条件；

S106，获取第二目标帧图像的匹配信息，其中，匹配信息用于指示第二目标帧图像在第二目标帧图像所在的媒体资源中的总时长和播放时刻。

可选地，在本实施例中，上述多媒体资源的匹配方法可以应用于如图2所示的目标设备202所构成的硬件环境中。如图2所示，目标设备202在多媒体资源集合中查找第一媒体资源集合，其中，第一媒体资源集合中的每个媒体资源的第一目标帧图像满足目标条件，第一目标帧图像的特征与待匹配多媒体资源的帧图像中的特征匹配、且满足第一匹配条件。在第一目标帧图像中确定第二目标帧图像，其中，第二目标帧图像的特征与待匹配多媒体资源的帧图像中的特征匹配、且满足第二匹配条件。获取第二目标帧图像的匹配信息，其中，匹配信息用于指示第二目标帧图像在第二目标帧图像所在的媒体资源中的总时长和播放时刻。

可选地，在本实施例中，上述目标设备202可以但不限为终端设备，或者，也可以但不限于是服务器设备。例如：能够安装支持多媒体的客户端的终端设备，比如：手机、平板电脑、PC计算机等等。或者，还可以是支持多媒体的客户端对应的服务器。上述仅是一种示例，本实施例中对此不做任何限定。

可选地，在本实施例中，上述多媒体资源的匹配方法可以但不限于应用于对多媒体资源进行匹配的场景中。其中，上述客户端可以但不限于为各种类型的应用，例如，在线教育应用、即时通讯应用、社区空间应用、游戏应用、购物应用、浏览器应用、金融应用、多媒体应用(视频应用、音频应用等等)、直播应用等。具体的，可以但不限于应用于在上述视频应用中对视频资源进行匹配的场景中，或还可以但不限于应用于在上述在即时通讯应用中对音频资源进行匹配的场景中，以提高多媒体资源的匹配效率。上述仅是一种示例，本实施例中对此不做任何限定。

可选地，在本实施例中，上述多媒体资源可以但不限于包括：视频资源(视频文件、视频流等)、音频资源(音频文件、音频流等)、图片资源(动图、有声图片等)、文字资源等等。

可选地，在本实施例中，上述第一媒体资源集合中的每个媒体资源的第一目标帧图像需满足的目标条件可以但不限于是用于确定两个多媒体资源相似度的条件。例如：一个多媒体资源中第一目标图像的数量多于第一数量、一个多媒体资源中第一目标图像在该多媒体资源中所占的比例高于第一比例、一个多媒体资源中在时间上连续的第一目标图像的数量多于第二数量、上述连续的第一目标图像的数量在该多媒体资源中所占的比例高于第二比例等等。

可选地，在本实施例中，第一目标帧图像的特征需满足的第一匹配条件可以但不限于包括第一目标帧图像与待匹配多媒体资源的帧图像具有相同的第一类型的特征。例如：从每个帧图像中能够提取出一个或者多个该第一类型的特征，比如：第一类型的特征可以是通过深度学习提取的特征，当两个帧图像中分别提取的第一类型的特征中全部或者是有部分特征是相同的，则可以确认两个帧图像是相似的。

可选地，在本实施例中，第二目标帧图像的特征与待匹配多媒体资源的帧图像中的特征需满足的第二匹配条件可以但不限于包括从第二目标帧图像中提取的第二类型的特征与从待匹配多媒体资源的帧图像中提取的第二类型的特征中相同或者相似的特征的数量高于目标值，或者该相同或者相似的特征的数量占二者特征总数量的比例高于某值。例如：可以通过特征提取算法(例如：尺度不变特征变换(Scale-invariant featuretransform，简称为sift)算法、加速稳健特征(speeded up robust features，简称为surf)算法等)从一个帧图像中提取第二类型的特征，如果两个帧图像中相同或者相似的第二类型的特征达到一定的数量，则可以认为两个帧图像是相同的帧图像。

可选地，在本实施例中，第二目标帧图像的匹配信息可以但不限于包括：第二目标帧图像在第二目标帧图像所在的媒体资源中的总时长和播放时刻。或者，匹配信息还可以但不限于包括：第二目标帧图像所在的媒体资源与待匹配媒体资源之间匹配的片段的缩放关系，第二目标帧图像在第二目标帧图像所在的媒体资源中的总时长占第二目标帧图像所在的媒体资源的时长的百分比等等。

可选地，在本实施例中，获取到第二目标帧图像的匹配信息后，可以使用这些匹配信息对待匹配多媒体资源进行处理。例如：判定该资源是否侵权、进行多媒体资源推送、对界面上的多媒体资源进行排版等等。

在一个可选的实施方式中，以视频资源为例，如图3所示，将待匹配的视频资源FT输入到深度学习网络(例如计算机视觉组网络(Visual Geometry Group Net，简称为VGGNet))中，提取出FT中每一帧的VGG特征，将这些VGG特征与多媒体资源集合中多媒体资源的帧图像的VGG特征进行匹配，筛选出多媒体资源集合中具有这些VGG特征的第一目标帧图像，将这些第一目标帧图像所在的多媒体资源确定为第一媒体资源集合中的媒体资源。再从待匹配多媒体资源的帧图像中提取sift特征，并将待匹配多媒体资源的帧图像中的sift特征与第一目标帧图像中的sift特征进行匹配，将第一目标帧图像中匹配成功的帧图像确定为第二目标帧图像，并获取第二目标帧图像的匹配信息。

可见，通过上述步骤，首先从多媒体资源集合中查找到包括的第一目标帧图像的特征与待匹配多媒体资源的帧图像的特征匹配并满足第一匹配条件并且这些第一目标帧图像满足目标条件的媒体资源，从而找到资源库中与待匹配多媒体资源相似的媒体资源，组成第一媒体资源集合，再从第一媒体资源集合中媒体资源的第一目标帧图像中确定特征与待匹配多媒体资源的帧图像中的特征匹配、且满足第二匹配条件的第二目标帧图像，并获取第二目标帧图像的匹配信息，从而从与待匹配多媒体资源相似的多媒体资源中筛选出相似度更加高的多媒体资源，并获取到具体的匹配信息，从而实现了提高多媒体资源的匹配效率的技术效果，进而解决了相关技术中多媒体资源的匹配效率较低的技术问题。

作为一种可选的方案，在多媒体资源集合中查找第一媒体资源集合包括：

S1，从多媒体资源集合中的多媒体资源的帧图像中确定满足目标条件的第一目标帧图像；

S2，获取第一目标帧图像所属的第一多媒体资源，其中，第一媒体资源集合中包括第一多媒体资源。

可选地，在本实施例中，多媒体资源集合中的存储形式可以但不限于是特征-帧图像对的形式，其中，帧图像可以用多媒体资源标识和播放时间点的坐标形式来进行表示。例如：[D_t]:{[t_j,videoID_k],[t_k,videoID_x]...}、[D_t+1]:{[t_j+n,videoID_k+h],[t_k,videoID_x]...}等等。其中，Dt和D_t+1为特征，t是时间点，videoID是视频的id编号。通过这种形式就可以筛选出在第一多媒体资源集合中的哪个多媒体资源的哪个帧图像具有与待匹配多媒体资源的帧图像相同或相似的特征。

可选地，在本实施例中，在获取到满足目标条件的第一目标帧图像后，可以对第一目标帧图像按照多媒体资源进行聚合，找出第一目标帧图像所属的第一多媒体资源。从而得到第一媒体资源集合。

作为一种可选的方案，从多媒体资源集合中的多媒体资源的帧图像中确定满足目标条件的第一目标帧图像包括：

S1，从待匹配多媒体资源的帧图像中提取第一特征；

S2，从具有对应关系的特征和帧图像集合中获取第一特征对应的目标帧图像集合，其中，目标帧图像集合中包括第一媒体资源集合的多媒体资源中具有第一特征的帧图像，目标帧图像集合中的帧图像的特征与待匹配多媒体资源的帧图像中的特征匹配、且满足第一匹配条件；

S3，获取目标帧图像集合中的帧图像所属的第二多媒体资源；

S4，获取第二多媒体资源中连续的具有第一特征的帧图像的数量；

S5，将连续的具有第一特征的帧图像的数量落入目标数量阈值范围的第二多媒体资源中的具有第一特征的帧图像确定为满足目标条件的第一目标帧图像；

S6，将所述满足所述目标条件的所述第一目标帧图像所在的媒体资源确定为所述第一媒体资源集合。

可选地，在本实施例中，可以通过以下方式提取待匹配多媒体资源的帧图像中的第一特征：使用多个多媒体资源样本和相似度数据训练分类网络模型，得到目标分类网络模型，其中，相似度数据为用于指示多个多媒体资源样本之间的相似度的数据，分类网络模型的损失函数设置为对比损失函数，目标分类网络模型的输入参数为多媒体资源的帧图像，目标分类网络模型的输出参数为多媒体资源的帧图像对应的特征；将待匹配多媒体资源的帧图像输入目标分类网络模型，得到目标分类网络模型输出的第一特征。

可选地，在本实施例中，上述分类网络模型可以但不限于包括VGG网络、谷歌网络(GoogleNet)、Resnet网络等等。

作为一种可选的方案，在第一目标帧图像中确定第二目标帧图像包括：

S1，从第一目标帧图像中提取第二特征，并从待匹配多媒体资源的帧图像中提取第三特征；

S2，获取第一目标帧图像与待匹配多媒体资源的帧图像之间的对应关系；

S3，获取具有对应关系的第一目标帧图像的第二特征与待匹配多媒体资源的帧图像的第三特征中相匹配的特征的数量以及互不匹配的特征的数量；

S4，获取相匹配的特征的数量以及互不匹配的特征的数量之间的比值；

S5，将比值落入第一比值范围的第一目标帧图像确定为第二目标帧图像，其中，比值落入第一比值范围的帧图像为特征与待匹配多媒体资源的帧图像中的特征匹配、且满足第二匹配条件的帧图像。

在一个可选的实施方式中，如图4所示，具有对应关系的第一目标帧图像的第二特征包括S1、S2、S3、S4、S5、S6、S7、S8、S9、S10，待匹配多媒体资源的帧图像的第三特征包括：S1、S2、S3、S4、S5、S6、S7、S8、S9、S11，那么，二者之间相匹配的特征为S1、S2、S3、S4、S5、S6、S7、S8、S9，相匹配的特征的数量为9，二者之间互不匹配的特征为S1、S2、S3、S4、S5、S6、S7、S8、S9、S10、S11，互不匹配的特征的数量为11，则相匹配的特征的数量以及互不匹配的特征的数量之间的比值为9/11，假设第一比值范围为大于3/4，该比值9/11大于3/4，则可以将该第一目标帧图像确定为第二目标帧图像。

作为一种可选的方案，获取第二目标帧图像的匹配信息包括：

S1，获取第二目标帧图像所在的目标媒体资源；

S2，确定目标媒体资源中每个目标媒体资源包含的第二目标帧图像的数量以及每个目标媒体资源的帧率值，其中，帧率值用于指示每个目标媒体资源每一秒所播放的帧图像的数量；

S3，将每个目标媒体资源包含的第二目标帧图像的数量与每个目标媒体资源的帧率值的乘积值确定为每个目标媒体资源对应的总时长，并将每个目标媒体资源包含的第二目标帧图像在每个目标媒体资源中的播放时间点确定为每个目标媒体资源对应的播放时刻。

可选地，在本实施例中，可以但不限于通过一个多媒体资源中第二目标帧图像数量以及该多媒体资源的帧率来确定待匹配多媒体资源与该多媒体资源相匹配的总时长。

可选地，在本实施例中，还可以但不限于通过构造具有对应关系的第二目标帧图像和待匹配的帧图像的时间点之间的映射关系来确定多媒体资源中匹配的部分的缩放关系。例如：通过构造at1+bt2＝c的时间点映射关系(t1为输入的视频的时间点，t2为匹配的视频的时间点)去估算视频匹配时域上的缩放关系。采用最小平方法(Least squareserror)去估计视频时域变形的信息。

作为一种可选的方案，在获取第二目标帧图像的匹配信息之后，还包括：

S1，获取总时长与第二目标帧图像所在的媒体资源的时长之间的比值；

S2，在总时长与第二目标帧图像所在的媒体资源的时长之间的比值落入第二比值范围的情况下，确定待匹配多媒体资源侵犯了第二目标帧图像所在的媒体资源的版权，其中，第二目标帧图像所在的媒体资源是具有版权的多媒体资源。

可选地，在本实施例中，可以根据得到的匹配信息对待匹配多媒体资源进行侵权判定。例如：如果待匹配视频与视频库中某个视频匹配的时长超过了该视频总时长的50％，则可以确定待匹配视频侵犯了该视频的版权。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

根据本发明实施例的另一个方面，还提供了一种用于实施上述多媒体资源的匹配方法的多媒体资源的匹配装置，如图5所示，该装置包括：

1)查找模块52，用于在多媒体资源集合中查找第一媒体资源集合，其中，第一媒体资源集合中的每个媒体资源的第一目标帧图像满足目标条件，第一目标帧图像的特征与待匹配多媒体资源的帧图像中的特征匹配、且满足第一匹配条件；

2)第一确定模块54，用于在第一目标帧图像中确定第二目标帧图像，其中，第二目标帧图像的特征与待匹配多媒体资源的帧图像中的特征匹配、且满足第二匹配条件；

3)第一获取模块56，用于获取第二目标帧图像的匹配信息，其中，匹配信息用于指示第二目标帧图像在第二目标帧图像所在的媒体资源中的总时长和播放时刻。

可选地，在本实施例中，上述多媒体资源的匹配装置可以应用于如图2所示的目标设备202所构成的硬件环境中。如图2所示，目标设备202在多媒体资源集合中查找第一媒体资源集合，其中，第一媒体资源集合中的每个媒体资源的第一目标帧图像满足目标条件，第一目标帧图像的特征与待匹配多媒体资源的帧图像中的特征匹配、且满足第一匹配条件。在第一目标帧图像中确定第二目标帧图像，其中，第二目标帧图像的特征与待匹配多媒体资源的帧图像中的特征匹配、且满足第二匹配条件。获取第二目标帧图像的匹配信息，其中，匹配信息用于指示第二目标帧图像在第二目标帧图像所在的媒体资源中的总时长和播放时刻。

可选地，在本实施例中，上述多媒体资源的匹配装置可以但不限于应用于对多媒体资源进行匹配的场景中。其中，上述客户端可以但不限于为各种类型的应用，例如，在线教育应用、即时通讯应用、社区空间应用、游戏应用、购物应用、浏览器应用、金融应用、多媒体应用(视频应用、音频应用等等)、直播应用等。具体的，可以但不限于应用于在上述视频应用中对视频资源进行匹配的场景中，或还可以但不限于应用于在上述在即时通讯应用中对音频资源进行匹配的场景中，以提高多媒体资源的匹配效率。上述仅是一种示例，本实施例中对此不做任何限定。

可选地，在本实施例中，第二目标帧图像的特征与待匹配多媒体资源的帧图像中的特征需满足的第二匹配条件可以但不限于包括从第二目标帧图像中提取的第二类型的特征与从待匹配多媒体资源的帧图像中提取的第二类型的特征中相同或者相似的特征的数量高于目标值，或者该相同或者相似的特征的数量占二者特征总数量的比例高于某值。例如：可以通过特征提取算法(例如：sift算法、surf算法等)从一个帧图像中提取第二类型的特征，如果两个帧图像中相同或者相似的第二类型的特征达到一定的数量，则可以认为两个帧图像是相同的帧图像。

在一个可选的实施方式中，以视频资源为例，将待匹配的视频资源FT输入到深度学习网络(例如VGG网络)中，提取出FT中每一帧的VGG特征，将这些VGG特征与多媒体资源集合中多媒体资源的帧图像的VGG特征特征进行匹配，筛选出多媒体资源集合中具有这些VGG特征的第一目标帧图像，将这些第一目标帧图像所在的多媒体资源确定为第一媒体资源集合中的媒体资源。再从待匹配多媒体资源的帧图像中提取sift特征，并将待匹配多媒体资源的帧图像中的sift特征与第一目标帧图像中的sift特征进行匹配，将第一目标帧图像中匹配成功的帧图像确定为第二目标帧图像，并获取第二目标帧图像的匹配信息。

可见，通过上述装置，首先从多媒体资源集合中查找到包括的第一目标帧图像的特征与待匹配多媒体资源的帧图像的特征匹配并满足第一匹配条件并且这些第一目标帧图像满足目标条件的媒体资源，从而找到资源库中与待匹配多媒体资源相似的媒体资源，组成第一媒体资源集合，再从第一媒体资源集合中媒体资源的第一目标帧图像中确定特征与待匹配多媒体资源的帧图像中的特征匹配、且满足第二匹配条件的第二目标帧图像，并获取第二目标帧图像的匹配信息，从而从与待匹配多媒体资源相似的多媒体资源中筛选出相似度更加高的多媒体资源，并获取到具体的匹配信息，从而实现了提高多媒体资源的匹配效率的技术效果，进而解决了相关技术中多媒体资源的匹配效率较低的技术问题。

作为一种可选的方案，查找模块包括：

1)第一确定单元，用于从多媒体资源集合中的多媒体资源的帧图像中确定满足目标条件的第一目标帧图像；

2)第一获取单元，用于获取第一目标帧图像所属的第一多媒体资源，其中，第一媒体资源集合中包括第一多媒体资源。

作为一种可选的方案，第一确定单元用于：

从待匹配多媒体资源的帧图像中提取第一特征；

从具有对应关系的特征和帧图像集合中获取第一特征对应的目标帧图像集合，其中，目标帧图像集合中包括第一媒体资源集合的多媒体资源中具有第一特征的帧图像，目标帧图像集合中的帧图像的特征与待匹配多媒体资源的帧图像中的特征匹配、且满足第一匹配条件；

获取目标帧图像集合中的帧图像所属的第二多媒体资源；

获取第二多媒体资源中连续的具有第一特征的帧图像的数量；

将连续的具有第一特征的帧图像的数量落入目标数量阈值范围的第二多媒体资源中的具有第一特征的帧图像确定为满足目标条件的第一目标帧图像；

将所述满足所述目标条件的所述第一目标帧图像所在的媒体资源确定为所述第一媒体资源集合。

可选地，在本实施例中，第一确定单元还用于：使用多个多媒体资源样本和相似度数据训练分类网络模型，得到目标分类网络模型，其中，相似度数据为用于指示多个多媒体资源样本之间的相似度的数据，分类网络模型的损失函数设置为对比损失函数，目标分类网络模型的输入参数为多媒体资源的帧图像，目标分类网络模型的输出参数为多媒体资源的帧图像对应的特征；将待匹配多媒体资源的帧图像输入目标分类网络模型，得到目标分类网络模型输出的第一特征。

可选地，在本实施例中，上述分类网络模型可以但不限于包括VGG网络、GoogleNet网络、Resnet网络等等。

作为一种可选的方案，第一确定模块用于：从第一目标帧图像中提取第二特征，并从待匹配多媒体资源的帧图像中提取第三特征；获取第一目标帧图像与待匹配多媒体资源的帧图像之间的对应关系；获取具有对应关系的第一目标帧图像的第二特征与待匹配多媒体资源的帧图像的第三特征中相匹配的特征的数量以及互不匹配的特征的数量；获取相匹配的特征的数量以及互不匹配的特征的数量之间的比值；将比值落入第一比值范围的第一目标帧图像确定为第二目标帧图像，其中，比值落入第一比值范围的帧图像为特征与待匹配多媒体资源的帧图像中的特征匹配、且满足第二匹配条件的帧图像。

在一个可选的实施方式中，具有对应关系的第一目标帧图像的第二特征包括S1、S2、S3、S4、S5、S6、S7、S8、S9、S10，待匹配多媒体资源的帧图像的第三特征包括：S1、S2、S3、S4、S5、S6、S7、S8、S9、S11，那么，二者之间相匹配的特征为S1、S2、S3、S4、S5、S6、S7、S8、S9，相匹配的特征的数量为9，二者之间互不匹配的特征为S1、S2、S3、S4、S5、S6、S7、S8、S9、S10、S11，互不匹配的特征的数量为11，则相匹配的特征的数量以及互不匹配的特征的数量之间的比值为9/11，假设第一比值范围为大于3/4，该比值9/11大于3/4，则可以将该第一目标帧图像确定为第二目标帧图像。

作为一种可选的方案，第一获取模块包括：

1)第二获取单元，用于获取第二目标帧图像所在的目标媒体资源；

2)第二确定单元，用于确定目标媒体资源中每个目标媒体资源包含的第二目标帧图像的数量以及每个目标媒体资源的帧率值，其中，帧率值用于指示每个目标媒体资源每一秒所播放的帧图像的数量；

3)第三确定单元，用于将每个目标媒体资源包含的第二目标帧图像的数量与每个目标媒体资源的帧率值的乘积值确定为每个目标媒体资源对应的总时长，并将每个目标媒体资源包含的第二目标帧图像在每个目标媒体资源中的播放时间点确定为每个目标媒体资源对应的播放时刻。

作为一种可选的方案，上述装置还包括：

1)第二获取模块，获取总时长与第二目标帧图像所在的媒体资源的时长之间的比值；

2)第二确定模块，用于在总时长与第二目标帧图像所在的媒体资源的时长之间的比值落入第二比值范围的情况下，确定待匹配多媒体资源侵犯了第二目标帧图像所在的媒体资源的版权，其中，第二目标帧图像所在的媒体资源是具有版权的多媒体资源。

本发明实施例的应用环境可以但不限于参照上述实施例中的应用环境，本实施例中对此不再赘述。本发明实施例提供了用于实施上述实时通信的连接方法的一种可选的具体应用示例。

作为一种可选的实施例，上述多媒体资源的匹配方法可以但不限于应用于如图6所示的对视频资源进行匹配的场景中。在本场景中，视频的匹配流程包括了两个特征匹配的过程，VGG哈希特征的匹配和rootsift的特征匹配过程。首先利用VGG的哈希特征，进行视频的相似性匹配(VGG哈希指纹库指的是拥有版权的视频的特征集合)。在VGG的特征匹配过程中，如果不相似，直接输出结果。如果相似，会进行二次的较正--rootsift的特征匹配。经过rootsift的特征匹配，最后会把纠正后的结果，统一输出。

可选地，在本实施例中，通过以下方式进行视频特征的提取：输入的视频(相当于上述待匹配多媒体资源)首先经过帧率变化到K帧/秒(例如：K取3)。然后应用两个特征提取的方法：深度学习的特征提取和传统特征提取。

可选地，在本实施例中，深度学习的特征提取中，采用传统的分类网络(如VGG,GoogleNet,Resnet)。在预训练的分类网络里(例如：具有对1000个物体分类的VGG网络，利用公开的数据集imageNet训练所得)进行迁移学习。通过收集一批图片的相似数据集，并将分类的网络VGG(这里以VGG为例子，其他网络也适用)最后的损失层改为contrastiveLoss，可以衡量两个图片的相似度。然后进行迁移学习，得到一个具有区分图片相似度能力的网络。基于VGG提取的特征，每个图片只有一个特征，这里记为Fdt，t代表某个时间点。提取得到的特征，经过中值二值化(median cut)，转变成哈希，记为Dt。

可选地，在本实施例中，传统的特征提取中，采用的是rootSift的方法。首先对提取的视频帧进行SIFT特征提取，得到P个特征。然后对P个特征采取归一化的操作。归一化可以增加抗嗓能力：

原sift向量：V_sift(v₁，v₂，...，v₁₂₈)；

变形公式：

归一化后的特征，进行中值二值化的转化(median cut)，每一帧得到P个哈希值，记为T_t，i，其中i∈[0,P)。

可选地，在本实施例中，通过以下方式进行视频指纹匹配的过程：视频指纹的匹配包括两个流程：1.VGG特征匹配，2.rootSift特征匹配。具体流程如下：输入的视频，首先进行VGG特征匹配，因为VGG提取的特征较为抽像，并且哈希的数量较少。非常适合作为第一次的视频匹配过滤。VGG特征匹配可以有很高的召回率。在VGG特征匹配后，可以计算视频的相似度，对于相似度大于阈值的，采取rootsift的匹配分析，进一步确认视频的匹配信息。rootsift具有较好的细节描述，可以更好地保证准确率。

可选地，在本实施例中，VGG的特征匹配过程包括：指纹特征提取，哈希转换和时域匹配分析。输入的视频首先经过视频指纹特征提取，再经过中值二值转化，得到一连串的哈希特征值和哈希对应的时间点。指纹库中存储着版权视频的特征(Dt，videoID，t)，t是时间点，videoID是视频的id编号。而且这类特征按照倒排表的数据结构存储:

[Dt]:{[t_j,videoID_k],[t_k,videoID_x]...}

[Dt+1]:{[t_j+n,videoID_k+h],[t_k,videoID_x]...}

...

在匹配的时候，将输入的视频分为Ks(现在K取5)的多个片断，单独针对每一个片断进行匹配。以每秒有三个特征帧来说，在K取5时，单个分片总共有15个哈希值(D_i,i∈[0,15))。对于每个D_i，将其和指纹库中的特征比较，找出哈希特征值相等(如Dt相等的数据)的对应视频的信息([t_j,videoID_k],[t_k,videoID_x]....)，然后按videoID_k进行聚合，数出对于videoID_k来说在时间上连续匹配的帧图像的个数，然后除以15，得到相似度。取相似值大于0.8的视频片段作为匹配的片断。依照上面的方法，可以对每个Ks的片断进行相似度的计算，最后得出每个视频与输入视频相似的片断个数R。通过相似的片断个数，可以计算出视频的相似度：MatchPer＝100*R*K/dur。dur为匹配的视频的时长。

可选地，在本实施例中，在VGG特征匹配计算的相似度MatchPer大于一定的阈值(例如：Q，Q取50)，会进行rootsift的特征匹配。在VGG特征匹配之后，可以得到VGG匹配的一个videoID列表。在rootsift匹配时，对输入视频和VGG匹配的videoID进行二次匹配的较准。首先输入的视频会经过rootsift特征提取，而VGG匹配的视频rootsift特征会由在指纹库中读取。

在匹配的过程中采取两两匹配的策略，即输入的视频和videoID列表中的视频逐个进行匹配。找出匹配的信息。在这里每帧图像的相似度用下面的方式计算：

其中，S为相似度，T_t1为输入视频的t1时间的视频特征，而T′_t2为videoID列表的特征在t2时间的视频特征。∩描述了两个视频特征相似的个数，而∪描述了两个视频特征中不同哈希种类特征总数。'描述了两个视频的相似度，如果小于某个阈值E(例如：E取0.011)，那么视频帧T_t1和T′_t2匹配，并记录匹配的时间信息(t1,t2)。

在视频两两匹配的过程中，得到了两个视频的匹配时间点的信息。通过构造at1+bt2＝c的时间点映射关系(t1为输入的视频的时间点，t2为匹配的视频的时间点)去估算两个视频匹配时域上的缩放关系。采用最小平方法(Least squares error)去估计视频时域变形的信息。最后，通过分析匹配的时间点，可以得到匹配的时长。视频的匹配的百分比可以根据匹配的时长和输入视频的时长来计算得出(百分比的计算可根据相关的业务逻辑来调整)。最后通过百分比或者匹配时长的信息，来决定视频的匹配情况。在rootsift二次匹配中，会依次对videoID的列表中的视频进行两两匹配。最后把匹配的结果(包括匹配时间点，匹配时长等)进行输出。

通过上述方式，能够保护优质用户制作的视频的原创性，为用户提供原创保护，并可以提供广告分成。鼓励一些优质的视频制作商，为平台提供更优质的内容。此外还为电影，电视剧，综艺等版权提供版权保护。

另一方面，还可以应用在视频的重复检测中。不但可以净化视频平台的存量视频，提升平台的视频质量，而且还能应用在推荐时，对推荐的视频进行过滤。

根据本发明实施例的又一个方面，还提供了一种用于实施上述多媒体资源的匹配的电子装置，如图7所示，该电子装置包括：一个或多个(图中仅示出一个)处理器702、存储器704、传感器706、编码器708以及传输装置710，该存储器中存储有计算机程序，该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，在多媒体资源集合中查找第一媒体资源集合，其中，第一媒体资源集合中的每个媒体资源的第一目标帧图像满足目标条件，第一目标帧图像的特征与待匹配多媒体资源的帧图像中的特征匹配、且满足第一匹配条件；

S2，在第一目标帧图像中确定第二目标帧图像，其中，第二目标帧图像的特征与待匹配多媒体资源的帧图像中的特征匹配、且满足第二匹配条件；

S3，获取第二目标帧图像的匹配信息，其中，匹配信息用于指示第二目标帧图像在第二目标帧图像所在的媒体资源中的总时长和播放时刻。

可选地，本领域普通技术人员可以理解，图7所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图7中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图7所示不同的配置。

其中，存储器702可用于存储软件程序以及模块，如本发明实施例中的多媒体资源的匹配方法和装置对应的程序指令/模块，处理器704通过运行存储在存储器702内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的目标组件的控制方法。存储器702可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器702可进一步包括相对于处理器704远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置710用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置710包括一个网络适配器(NetworkInterface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置710为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器702用于存储应用程序。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种多媒体资源的匹配方法，其特征在于，包括：

在多媒体资源集合中查找第一媒体资源集合，其中，所述第一媒体资源集合中的每个媒体资源的第一目标帧图像满足目标条件，所述第一目标帧图像的特征与待匹配多媒体资源的帧图像中的特征匹配、且满足第一匹配条件；

在所述第一目标帧图像中确定第二目标帧图像，其中，所述第二目标帧图像的特征与所述待匹配多媒体资源的帧图像中的特征匹配、且满足第二匹配条件；

获取所述第二目标帧图像的匹配信息，其中，所述匹配信息用于指示所述第二目标帧图像在所述第二目标帧图像所在的媒体资源中的总时长和播放时刻。

2.根据权利要求1所述的方法，其特征在于，在所述多媒体资源集合中查找所述第一媒体资源集合包括：

从所述多媒体资源集合中的多媒体资源的帧图像中确定满足所述目标条件的所述第一目标帧图像；

获取所述第一目标帧图像所属的第一多媒体资源，其中，所述第一媒体资源集合中包括所述第一多媒体资源。

3.根据权利要求2所述的方法，其特征在于，从所述多媒体资源集合中的多媒体资源的帧图像中确定满足所述目标条件的所述第一目标帧图像包括：

从所述待匹配多媒体资源的帧图像中提取第一特征；

从具有对应关系的特征和帧图像集合中获取所述第一特征对应的目标帧图像集合，其中，所述目标帧图像集合中包括所述第一媒体资源集合的多媒体资源中具有所述第一特征的帧图像，所述目标帧图像集合中的帧图像的特征与所述待匹配多媒体资源的帧图像中的特征匹配、且满足所述第一匹配条件；

获取所述目标帧图像集合中的帧图像所属的第二多媒体资源；

获取所述第二多媒体资源中连续的具有所述第一特征的帧图像的数量；

将连续的具有所述第一特征的帧图像的数量落入目标数量阈值范围的所述第二多媒体资源中的具有所述第一特征的帧图像确定为满足所述目标条件的所述第一目标帧图像；

4.根据权利要求3所述的方法，其特征在于，从所述待匹配多媒体资源的帧图像中提取所述第一特征包括：

使用多个多媒体资源样本和相似度数据训练分类网络模型，得到目标分类网络模型，其中，所述相似度数据为用于指示所述多个多媒体资源样本之间的相似度的数据，所述分类网络模型的损失函数设置为对比损失函数，所述目标分类网络模型的输入参数为多媒体资源的帧图像，所述目标分类网络模型的输出参数为所述多媒体资源的帧图像对应的特征；

将所述待匹配多媒体资源的帧图像输入所述目标分类网络模型，得到所述目标分类网络模型输出的所述第一特征。

5.根据权利要求1所述的方法，其特征在于，在所述第一目标帧图像中确定所述第二目标帧图像包括：

从所述第一目标帧图像中提取第二特征，并从所述待匹配多媒体资源的帧图像中提取第三特征；

获取所述第一目标帧图像与所述待匹配多媒体资源的帧图像之间的对应关系；

获取具有所述对应关系的所述第一目标帧图像的所述第二特征与所述待匹配多媒体资源的帧图像的所述第三特征中相匹配的特征的数量以及互不匹配的特征的数量；

获取所述相匹配的特征的数量以及所述互不匹配的特征的数量之间的比值；

将所述比值落入第一比值范围的所述第一目标帧图像确定为所述第二目标帧图像，其中，所述比值落入所述第一比值范围的帧图像为特征与所述待匹配多媒体资源的帧图像中的特征匹配、且满足第二匹配条件的帧图像。

6.根据权利要求1所述的方法，其特征在于，获取所述第二目标帧图像的匹配信息包括：

获取所述第二目标帧图像所在的目标媒体资源；

确定所述目标媒体资源中每个目标媒体资源包含的所述第二目标帧图像的数量以及所述每个目标媒体资源的帧率值，其中，所述帧率值用于指示所述每个目标媒体资源每一秒所播放的帧图像的数量；

将所述每个目标媒体资源包含的所述第二目标帧图像的数量与所述每个目标媒体资源的帧率值的乘积值确定为所述每个目标媒体资源对应的所述总时长，并将所述每个目标媒体资源包含的第二目标帧图像在所述每个目标媒体资源中的播放时间点确定为所述每个目标媒体资源对应的所述播放时刻。

7.根据权利要求1所述的方法，其特征在于，在获取所述第二目标帧图像的匹配信息之后，所述方法还包括：

获取所述总时长与所述第二目标帧图像所在的媒体资源的时长之间的比值；

在所述总时长与所述第二目标帧图像所在的媒体资源的时长之间的比值落入第二比值范围的情况下，确定所述待匹配多媒体资源侵犯了所述第二目标帧图像所在的媒体资源的版权，其中，所述第二目标帧图像所在的媒体资源是具有版权的多媒体资源。

8.一种多媒体资源的匹配装置，其特征在于，包括：

查找模块，用于在多媒体资源集合中查找第一媒体资源集合，其中，所述第一媒体资源集合中的每个媒体资源的第一目标帧图像满足目标条件，所述第一目标帧图像的特征与待匹配多媒体资源的帧图像中的特征匹配、且满足第一匹配条件；

第一确定模块，用于在所述第一目标帧图像中确定第二目标帧图像，其中，所述第二目标帧图像的特征与所述待匹配多媒体资源的帧图像中的特征匹配、且满足第二匹配条件；

第一获取模块，用于获取所述第二目标帧图像的匹配信息，其中，所述匹配信息用于指示所述第二目标帧图像在所述第二目标帧图像所在的媒体资源中的总时长和播放时刻。

9.根据权利要求8所述的装置，其特征在于，所述查找模块包括：

第一确定单元，用于从所述多媒体资源集合中的多媒体资源的帧图像中确定满足所述目标条件的所述第一目标帧图像；

第一获取单元，用于获取所述第一目标帧图像所属的第一多媒体资源，其中，所述第一媒体资源集合中包括所述第一多媒体资源。

10.根据权利要求8所述的装置，其特征在于，所述第一确定模块用于：

将所述比值落入第一比值范围的所述第一目标帧图像确定为所述第二目标帧图像，其中，所述比值落入所述第一比值范围的帧图像为特征与所述待匹配多媒体资源的帧图像中的特征匹配、且满足第二匹配条件的帧图像；

11.根据权利要求8所述的装置，其特征在于，所述第一获取模块包括：

第二获取单元，用于获取所述第二目标帧图像所在的目标媒体资源；

第二确定单元，用于确定所述目标媒体资源中每个目标媒体资源包含的所述第二目标帧图像的数量以及所述每个目标媒体资源的帧率值，其中，所述帧率值用于指示所述每个目标媒体资源每一秒所播放的帧图像的数量；

第三确定单元，用于将所述每个目标媒体资源包含的所述第二目标帧图像的数量与所述每个目标媒体资源的帧率值的乘积值确定为所述每个目标媒体资源对应的所述总时长，并将所述每个目标媒体资源包含的第二目标帧图像在所述每个目标媒体资源中的播放时间点确定为所述每个目标媒体资源对应的所述播放时刻。

12.根据权利要求8所述的装置，其特征在于，所述装置还包括：

第二获取模块，获取所述总时长与所述第二目标帧图像所在的媒体资源的时长之间的比值；

第二确定模块，用于在所述总时长与所述第二目标帧图像所在的媒体资源的时长之间的比值落入第二比值范围的情况下，确定所述待匹配多媒体资源侵犯了所述第二目标帧图像所在的媒体资源的版权，其中，所述第二目标帧图像所在的媒体资源是具有版权的多媒体资源。

13.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。

14.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。