CN110032652B

CN110032652B - 媒体文件查找方法和装置、存储介质及电子装置

Info

Publication number: CN110032652B
Application number: CN201910170583.5A
Authority: CN
Inventors: 杨喻茸; 徐敘遠; 龚国平; 吴韬
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2022-03-25
Anticipated expiration: 2039-03-07
Also published as: CN110032652A

Abstract

本发明公开了一种媒体文件查找方法和装置、存储介质及电子装置。其中，该方法包括：获取使用第一账号登录的客户端发送的发布请求，发布请求用于请求通过第一账号发布第一媒体文件；获取与第一媒体文件相匹配的第一图像描述词集合；从检索词库中确定出与第一图像描述词集合相匹配的索引子词库，每个索引子词库用于记录一个图像描述词与已发布的媒体文件的文件标识信息之间的映射关系；在与第一图像描述词集合相匹配的索引子词库中，查找与第一媒体文件的相似度大于目标阈值的第二媒体文件，在查找到第二媒体文件的情况下，确定第一媒体文件存在重复媒体文件。本发明解决了相关技术提供的媒体文件查找方法存在查找效率较低的技术问题。

Description

媒体文件查找方法和装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种媒体文件查找方法和装置、存储介质及电子装置。

背景技术

如今，媒体文件共享平台受到越来越多的用户关注。用户在使用目标账号登录上述媒体文件共享平台之后，可以直接通过该目标账号上传原创媒体文件，也可以转发其他用户账号发布的媒体文件，从而实现对媒体文件进行共享的目的。其中，为了对大量的媒体文件实现有效管理，上述媒体文件共享平台往往会利用卷积神经网络(ConvolutionalNeural Networks，简称CNN)模型来查找其中存在相似内容的重复媒体文件。

目前，常用的方式是利用孪生CNN模型来学习媒体文件中帧画面之间内容的相似性，以便于应用于重复媒体文件的查找识别过程。然而，孪生CNN模型的训练过程较复杂，数据计算量大，耗时较长，从而导致媒体文件的查找效率较低的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种媒体文件查找方法和装置、存储介质及电子装置，以至少解决相关技术提供的媒体文件查找方法存在查找效率较低的技术问题。

根据本发明实施例的一个方面，提供了一种媒体文件查找方法，包括：获取使用第一账号登录的客户端发送的发布请求，其中，上述发布请求用于请求通过上述第一账号发布第一媒体文件；获取与上述第一媒体文件相匹配的第一图像描述词集合，其中，上述第一图像描述词集合中包括用于描述上述第一媒体文件的画面内容的多个第一图像描述词；从检索词库中确定出与上述第一图像描述词集合相匹配的索引子词库，其中，上述检索词库包括多个索引子词库，每个上述索引子词库用于记录一个图像描述词与已发布的媒体文件的文件标识信息之间的映射关系；在与上述第一图像描述词集合相匹配的索引子词库中，查找与上述第一媒体文件的相似度大于目标阈值的第二媒体文件，其中，在查找到上述第二媒体文件的情况下，确定上述第一媒体文件存在重复媒体文件。

根据本发明实施例的另一方面，还提供了一种媒体文件查找装置，包括：第一获取单元，用于获取使用第一账号登录的客户端发送的发布请求，其中，上述发布请求用于请求通过上述第一账号发布第一媒体文件；第二获取单元，用于获取与上述第一媒体文件相匹配的第一图像描述词集合，其中，上述第一图像描述词集合中包括用于描述上述第一媒体文件的画面内容的多个第一图像描述词；第一确定单元，用于从检索词库中确定出与上述第一图像描述词集合相匹配的索引子词库，其中，上述检索词库包括多个索引子词库，每个上述索引子词库用于记录一个图像描述词与已发布的媒体文件的文件标识信息之间的映射关系；查找单元，用于在与上述第一图像描述词集合相匹配的索引子词库中，查找与上述第一媒体文件的相似度大于目标阈值的第二媒体文件，其中，在查找到上述第二媒体文件的情况下，确定上述第一媒体文件存在重复媒体文件。

作为一种可选的实施方式，上述第二获取单元包括：第一提取模块，用于从上述第一媒体文件中提取第一关键画面帧，其中，上述第一关键画面帧用于指示上述第一媒体文件中发生场景变换的画面帧；第二提取模块，用于从上述第一关键画面帧中提取第一图像特征；聚合模块，用于对上述第一图像特征进行特征聚合，以得到与上述第一媒体文件相匹配的原始图像描述词集合；第一获取模块，用于根据上述原始图像描述词集合中每个原始图像描述词的逆文档词频，获取上述第一图像描述词集合，其中，上述逆文档词频根据上述原始图像描述词的词频及逆文档频率指数确定。

作为一种可选的实施方式，上述第一获取模块包括：第一处理子模块，用于将上述逆文档词频大于第一阈值的上述原始图像描述词作为上述第一图像描述词，存储至上述第一图像描述词集合中；第二处理子模块，用于对上述原始图像描述词集合中的上述原始图像描述词的上述逆文档词频进行排序，得到原始图像描述词序列；从上述原始图像描述词序列中获取上述原始图像描述词作为上述第一图像描述词，存储至上述第一图像描述词集合中。

作为一种可选的实施方式，上述第二提取模块包括：提取子模块，用于通过图像特征提取模型从上述第一关键画面帧中提取上述第一图像特征，其中，上述图像特征提取模型为利用多个样本媒体文件进行机器训练后，得到的用于提取媒体文件的关键画面帧中的图像特征的神经网络模型。

作为一种可选的实施方式，上述查找单元包括：第一确定模块，用于根据预设的时长阈值及上述第一媒体文件的播放时长确定时长比对区间；第二获取模块，用于从上述索引子词库中获取播放时长属于上述时长比对区间的媒体文件，得到第一媒体文件集合；第三获取模块，用于获取上述第一媒体文件集合中每个媒体文件的文件标识的出现频率；第四获取模块，用于从上述第一媒体文件集合中，获取上述出现频率大于第二阈值的媒体文件，得到第二媒体文件集合；查找模块，用于在上述第二媒体文件集合中查找上述第二媒体文件。

作为一种可选的实施方式，上述查找模块包括：第一计算子模块，用于依次计算上述第二媒体文件集合中的每个媒体文件与上述第一媒体文件的余弦距离，并将上述余弦距离作为上述第二媒体文件集合中对应的媒体文件与上述第一媒体文件之间的上述相似度；查找子模块，用于在上述第二媒体文件集合中查找上述相似度大于上述目标阈值的上述第二媒体文件。

作为一种可选的实施方式，上述第一计算子模块通过以下步骤实现：依次计算上述第二媒体文件集合中的每个媒体文件与上述第一媒体文件的余弦距离，并将上述余弦距离作为上述第二媒体文件集合中对应的媒体文件与上述第一媒体文件之间的上述相似度：重复执行以下步骤，遍历上述第二媒体文件集合中的每个媒体文件：从上述第二媒体文件集合中获取当前媒体文件；获取与上述当前媒体文件相匹配的当前图像描述词集合，其中，上述当前图像描述词集合中包括用于描述上述当前媒体文件的画面内容的多个当前图像描述词；根据上述当前图像描述词集合中上述当前图像描述词的词频，确定与上述当前媒体文件相匹配的当前媒体文件向量；将上述当前媒体文件向量及与上述第一媒体文件相匹配的第一媒体文件向量二者之间的余弦距离，作为上述当前媒体文件与上述第一媒体文件二者之间的上述相似度，其中，上述第一媒体文件向量为根据上述第一图像描述词集合中上述第一图像描述词的词频确定出的向量。

作为一种可选的实施方式，上述装置还包括：第一操作单元，用于在上述获取使用第一账号登录的客户端发送的发布请求之前，从用于存储已发布的媒体文件的媒体文件库中，依次获取对象媒体文件，并执行以下操作：从上述对象媒体文件中提取第二关键画面帧，其中，上述第二关键画面帧用于指示上述对象媒体文件中发生场景变换的画面帧；从上述第二关键画面帧中提取第二图像特征；对上述第二图像特征进行特征聚合，以得到与上述对象媒体文件相匹配的第二图像描述词集合，其中，上述第二图像描述词集合中包括用于描述上述对象媒体文件的画面内容的多个第二图像描述词；第一构建单元，用于根据上述已发布的媒体文件的文件标识信息及各个上述第二图像描述词集合中的上述第二图像描述词，构建上述检索词库，其中，上述已发布的媒体文件的文件标识信息包括：媒体文件的文件标识、媒体文件的播放时长及媒体文件的出现频次。

作为一种可选的实施方式，上述装置还包括：第二操作单元，用于在上述从用于存储已发布的媒体文件的媒体文件库中，依次获取对象媒体文件之前，遍历存储有上述第一媒体文件的应用服务器中的全部原始媒体文件，依次执行以下操作：从上述原始媒体文件中提取第三关键画面帧，其中，上述第三关键画面帧用于指示上述原始媒体文件中发生场景变换的画面帧；从上述第三关键画面帧中提取第三图像特征；对上述第三图像特征进行特征聚合，以得到与上述原始媒体文件相匹配的第三图像描述词集合，其中，上述第三图像描述词集合中包括用于描述上述原始媒体文件的画面内容的多个第三图像描述词；根据上述第三图像描述词集合构建码本，其中，上述码本用于在特征聚合过程中确定上述第一图像描述词集合及上述第二图像描述词集合。

根据本发明实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述媒体文件查找方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的媒体文件查找方法。

在本发明实施例中，在获取到客户端发送的用于请求通过第一账号发布第一媒体文件的发布请求之后，获取该第一媒体文件相匹配的第一图像描述词集合，并从检索词库中确定出与上述第一图像描述词集合相匹配的索引子词库，以便于直接在该索引子词库中查找与第一媒体文件的相似度大于目标阈值的第二媒体文件。也就是说，在已构建的用于记录图像描述词与已发布的媒体文件的文件标识信息之间的映射关系的检索词库中，利用图像描述词的倒排索引方式，缩小查找范围，确定出于第一图像描述词集合相匹配的索引子词库，以便于在该索引子词库中直接查找出与第一媒体文件的相似度大于目标阈值的第二媒体文件，而无需再构建复杂的孪生网络模型，进行复杂的训练过程。从而实现简化查找步骤，节省查找时间，提高对重复媒体文件的查找效率，进而解决了相关技术提供的媒体文件查找方法存在查找效率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的媒体文件查找方法的硬件环境的示意图；

图2是根据本发明实施例的一种可选的媒体文件查找方法的流程图；

图3是根据本发明实施例的另一种可选的媒体文件查找方法的流程图；

图4是根据本发明实施例的又一种可选的媒体文件查找方法的流程图；

图5是根据本发明实施例的又一种可选的媒体文件查找方法的流程图；

图6是根据本发明实施例的又一种可选的媒体文件查找方法的流程图；

图7是根据本发明实施例的又一种可选的媒体文件查找方法的流程图；

图8是根据本发明实施例的一种可选的媒体文件查找方法的示意图；

图9是根据本发明实施例的又一种可选的媒体文件查找方法的流程图；

图10是根据本发明实施例的一种可选的媒体文件查找方法中检索词库的示意图；

图11是根据本发明实施例的一种可选的媒体文件查找装置的结构示意图；

图12是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种媒体文件查找方法，可选地，上述媒体文件查找方法可以但不限于应用于如图1所示的硬件环境中。假设用户设备102中安装有媒体文件共享平台的应用客户端，在使用第一账号登录该客户端之后，获取该客户端发送的用于请求通过上述第一账号发布第一媒体文件的发布请求。其中，该第一媒体文件可以但不限于为图1上方虚线框所示的短视频文件。响应该发布请求，服务器104执行步骤S104查找第一媒体文件的重复媒体文件。具体步骤可以如步骤S104-1至步骤S104-3：获取与第一媒体文件相匹配的第一图像描述词集合，该第一图像描述词集合中包括用于描述第一媒体文件的画面内容的多个第一图像描述词。然后，从数据库106中存储的检索词库中，确定出与上述第一图像描述词集合相匹配的索引子词库，其中，该检索词库包括多个索引子词库，每个索引子词库用于记录一个图像描述词与已发布的媒体文件的文件标识信息之间的映射关系。在上述与第一图像描述词集合相匹配的索引子词库中，查找与第一媒体文件的相似度大于目标阈值的第二媒体文件。其中，在查找到第二媒体文件的情况下，确定第一媒体文件存在重复媒体文件。之后，服务器104将向用户终端102返回上述查找结果。

需要说明的是，本实施例中所提供的媒体文件查找方法，在获取到客户端发送的用于请求通过第一账号发布第一媒体文件的发布请求之后，获取该第一媒体文件相匹配的第一图像描述词集合，并从检索词库中确定出与上述第一图像描述词集合相匹配的索引子词库，以便于直接在该索引子词库中查找与第一媒体文件的相似度大于目标阈值的第二媒体文件。也就是说，在已构建的用于记录图像描述词与已发布的媒体文件的文件标识信息之间的映射关系的检索词库中，利用图像描述词的倒排索引方式，缩小查找范围，确定出于第一图像描述词集合相匹配的索引子词库，以便于在该索引子词库中直接查找出与第一媒体文件的相似度大于目标阈值的第二媒体文件，而无需再构建复杂的孪生网络模型，进行复杂的训练过程。从而实现简化查找步骤，节省查找时间，提高对重复媒体文件的查找效率，进而克服相关技术媒体文件查找效率较低的问题。

可选地，在本实施例中，上述媒体文件查找方法可以但不限于应用于服务器104中，用于协助应用客户端对所发布的媒体文件执行查找判定处理。其中，上述应用客户端可以但不限于运行在用户设备102中，该用户设备102可以但不限于为手机、平板电脑、笔记本电脑、PC机等支持运行应用客户端的终端设备。上述服务器104和用户设备102可以但不限于通过网络实现数据交互，上述网络可以包括但不限于无线网络或有线网络。其中，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于：广域网、城域网、局域网。上述仅是一种示例，本实施例中对此不作任何限定。

此外，在本实施例中，上述媒体文件查找方法还可以但不限于应用于处理能力较强大的独立的处理设备中，而无需与服务器进行数据交互。例如，该处理设备可以但不限于为处理能力较强大的终端设备，即，上述全部查找操作集成在一个终端设备中。上述仅是一种示例，本实施例中对此不作任何限定。

可选地，作为一种可选的实施方式，上述媒体文件查找方法可以但不限于应用于上述图1所示的服务器104中。如图2所示，该媒体文件查找方法可以包括如下步骤：

S202，获取使用第一账号登录的客户端发送的发布请求，其中，发布请求用于请求通过第一账号发布第一媒体文件；

S204，获取与第一媒体文件相匹配的第一图像描述词集合，其中，第一图像描述词集合中包括用于描述第一媒体文件的画面内容的多个第一图像描述词；

S206，从检索词库中确定出与第一图像描述词集合相匹配的索引子词库，其中，检索词库包括多个索引子词库，每个索引子词库用于记录一个图像描述词与已发布的媒体文件的文件标识信息之间的映射关系；

S208，在与第一图像描述词集合相匹配的索引子词库中，查找与第一媒体文件的相似度大于目标阈值的第二媒体文件，其中，在查找到第二媒体文件的情况下，确定第一媒体文件存在重复媒体文件。

可选地，在本实施例中，上述媒体文件查找方法可以但不限于应用于媒体文件发布/播放平台，或媒体文件分享/共享平台等。其中，该媒体文件可以包括但不限于以下至少之一：音频文件、图片集文件或者视频文件等，也可以是这几种文件的任意组合，例如，音频文件和图片集文件的组合。上述视频文件可以但不限于为播放时长小于预设阈值的短视频文件。上述举例仅是一种示例，本实施例中对此不作任何限定。

此外，在本实施例中，上述媒体文件查找方法可以但不限于应用于媒体文件推荐场景中，或媒体文件的版权侵权比对场景中。例如，在发布第一媒体文件时，查找并确定已发布的媒体文件中是否已存在与第一媒体文件的相似度大于目标阈值的第二媒体文件。若查找到第二媒体文件，则表示第一媒体文件的内容已在先公开发布。为了避免在媒体文件共享平台中向用户账号推送重复内容，则控制不再将上述确定为重复媒体文件的第一媒体文件存储至待推送的媒体文件池中。又例如，也可以在发布第一媒体文件时，查找并确定已发布的媒体文件中是否已存在与第一媒体文件的相似度大于目标阈值的第二媒体文件，若查找到第二媒体文件，则表示该第一媒体文件可能涉及版权侵权。为了保护原创账号的权益，则可以向发布的客户端提示阻止该第一媒体文件的发布过程。上述仅是一种示例，本实施例中对此不作任何限定。

需要说明的是，在获取到客户端发送的用于请求通过第一账号发布第一媒体文件的发布请求之后，获取该第一媒体文件相匹配的第一图像描述词集合，并从检索词库中确定出与上述第一图像描述词集合相匹配的索引子词库，以便于直接在该索引子词库中查找与第一媒体文件的相似度大于目标阈值的第二媒体文件。也就是说，在已构建的用于记录图像描述词与已发布的媒体文件的文件标识信息之间的映射关系的检索词库中，利用图像描述词的倒排索引方式，缩小查找范围，确定出于第一图像描述词集合相匹配的索引子词库，以便于在该索引子词库中直接查找出与第一媒体文件的相似度大于目标阈值的第二媒体文件，而无需再构建复杂的孪生网络模型，进行复杂的训练过程。从而实现简化查找步骤，节省查找时间，提高对重复媒体文件的查找效率，进而克服相关技术媒体文件查找效率较低的问题。

可选地，在本实施例中，在获取使用第一账号登录的客户端发送的发布请求之前，可以但不限于获取第一媒体文件所在应用服务器中的全部原始媒体文件作为训练集，来构建应用于上述媒体文件查找方法的码本。其中，上述码本中记录有从媒体文件的画面内容中提取的图像特征与图像描述词之间的映射关系。也就是说，在从上述大量的原始媒体文件中提取关键画面帧后，从该关键画面帧中提取图像特征，并对该图像特征进行降维和特征聚合(也可称作聚类)后，将得到N个聚类中心作为N个图像描述词(也可称作视觉词)，从而达到构建出上述码本(也可称作视觉词典)的目的。

可选地，在本实施例中，在获取使用第一账号登录的客户端发送的发布请求之前，还可以但不限于获取已发布的媒体文件来构建应用于上述媒体文件查找方法的检索词库。也就是说，在从上述已发布的媒体文件中提取关键画面帧后，从该关键画面帧中提取图像特征，并对图像特征进行特征聚合(也可称作聚类)后，将得到M个聚类中心。进一步，对M个聚类中心与上述构建出的码本进行比对，确定M个聚类中心对应的M个图像描述词，并将该M个图像描述词作为索引，建立检索词库(也可称作倒排索引词库)，其中，上述检索词库中包括多个索引子词库，每个索引子词库记录一个图像描述词与已发布媒体文件的文件标识信息之间的关系，该文件标识信息可以包括但不限于以下至少之一：出现上述图像描述词的媒体文件的文件标识(如用“vid”表示)、出现上述图像描述词的媒体文件的播放时长(如用“dur”表示)及上述图像描述词在媒体文件中的出现频次(如用“count”表示)。需要说明的是，倒排索引可以但不限于为一种根据属性的值来查找记录的索引机制，如将图像描述词作为索引对象，用来索引存储媒体文件的文件标识信息。

可选地，在本实施例中，获取与第一媒体文件相匹配的第一图像描述词集合可以包括但不限于：从上述第一媒体文件中提取的第一关键画面帧中提取第一图像特征，其中，上述第一关键画面帧可以但不限于为第一媒体文件中发生场景变换的画面帧。然后，对上述第一图像特征进行特征聚合，以得到与第一媒体文件相匹配的原始图像描述词集合。再根据原始图像描述词集合中原始图像描述词的逆文档词频，来获取用于从检索词库中确定出索引子词库的第一图像描述词集合。

需要说明的是，在本实施例中，上述特征聚合过程可以但不限于采用视觉词袋(Bag of visual word，简称BoW)模型。其中，该BoW模型用于统计从媒体文件的关键画面帧中提取的全部图像特征，然后利用聚类算法进行特征聚合处理，把相近的图像特征归为一类，从而得到多个聚类中心，每个聚类中心相当于一个视觉词。从而实现利用BoW模型来量化全部的图像特征，得到多个视觉词汇。其中，上述聚类算法可以包括但不限于K-means。例如获取K个初始聚类中心，将图像特征按照最小欧式距离原则分配到最近邻的聚类中心。经过多次迭代处理，直到聚类中心不再变化，确定完成当前聚类。

此外，在本实施例中，上述特征提取操作可以但不限于采用基于CNN模型进行机器训练后，所得到的用于提取媒体文件的关键画面帧中的图像特征的图像特征提取模型。例如，采用googlenet网络提取关键画面帧中的图像特征。进一步，还可以但不限于对生成的高维特征向量做主要成分分析(Principal Components Analysis，简称PCA)降维处理。例如，将128维特征向量降至32维特征向量。

可选地，在本实施例中，在每个阶段提取到关键画面帧之后，基于每一帧关键画面帧中提取的图像特征进行特征聚合所得到的聚类中心的数量可以但不限于大于等于1。也就是说，可以获取与每个关键画面帧对应的一个聚类中心，即从每个关键画面帧中确定出一个图像描述词。此外，还可以获取与关键画面帧最近邻的前K个聚类中心，作为该关键画面帧的K个图像描述词。其中，K为大于等于1的整数。

例如，如图3第一行所示步骤S300-S306，将存储有第一媒体文件的应用服务器中的全部原始媒体文件作为训练集，遍历全部原始媒体文件，依次执行以下操作：提取关键画面帧，从关键画面帧中提取图像特征，并对图像特征进行特征聚合，以利用聚合后得到的聚类中心，来构建用于查找重复媒体文件的码本(也可称作视觉词典)。该码本中用于记录聚类中心对应的图像描述词与图像特征之间的映射关系，以便于后续操作过程中，作为确定图像描述词的参考依据。

进一步，如图3第二行所示步骤S310-S316，遍历媒体文件库中已发布的媒体文件，依次执行以下操作：提取关键画面帧，从关键画面帧中提取图像特征，并对图像特征进行特征聚合，以利用聚合后得到的聚类中心与已构建的码本进行比对，确定出已发布的媒体文件的图像描述词。进一步，根据上述确定出的已发布的媒体文件的图像描述词及已发布的媒体文件的文件标识信息，来构建检索词库，其中，该检索词库中包括多个索引子词库，每个索引子词库记录一个图像描述词与已发布媒体文件的文件标识信息之间的关系。

在完成上述查找预处理过程之后，如图3第三行所示步骤S320-S328，获取所发布的第一媒体文件，以对该第一媒体文件进行以下关于重复媒体文件的查找操作：提取关键画面帧，从关键画面帧中提取图像特征，并对图像特征进行特征聚合，以利用聚合后得到的聚类中心与已构建的码本进行比对，确定出第一媒体文件的原始图像描述词集合。进一步，获取原始图像描述词集合中原始图像描述词的逆文档词频，根据逆文档词频从上述原始图像描述词集合中筛选出第一图像描述词集合。然后，如步骤S330-S332，从上述构建的检索词库中确定出于第一图像描述词集合相匹配的索引子词库，并在该索引子词库中查找与第一目标媒体文件的相似度大于目标阈值的第二媒体文件。在查找第二媒体文件的情况下，确定上述第一媒体文件存在重复媒体文件。

需要说明的是，上述图3中各行所示的步骤号主要用于区分各个步骤，不同行之间的步骤号不用于对步骤的执行顺序进行限定。

可选地，在本实施例中，上述逆文档词频可以但不限于为词频(Term Frequency，简称TF)与逆文档频率指数(Inverse Document Frequency，简称IDF)的乘积。该逆文档词频用于表示原始图像描述词在原始图像描述词集合中的重要程度。也就是说，利用上述获取到的逆文档词频，可以对获取到的原始图像描述词集合中的原始图像描述词进行初步筛选，获取重要程度较高的图像描述词作为第一图像描述词集合中的第一图像描述词，从而缩小所要查找的索引子词库的范围。

可选地，为了提高查找效率，在本实施例中还可以包括但不限于通过以下方式缩小在索引子词库的查找范围：

1)根据媒体文件的播放时长过滤索引子词库中的媒体文件。也就是说，将媒体文件的播放时长不属于时长比对区间的媒体文件过滤掉，不再进行后续查找比对操作。

2)根据媒体文件的出现频率过滤索引子词库中的媒体文件。也就是说，将出现频率较低的媒体文件过滤掉，不再进行后续查找比对操作。

通过上述方式，从确定出的索引子词库中过滤掉部分与第一媒体文件不相关的媒体文件。进一步，对保留下的媒体文件进行查找比对操作。例如，依次获取保留下的各个媒体文件的与第一媒体文件的余弦距离，将其作为相似度，并与目标阈值进行比对。在获取到余弦距离大于目标阈值的第二媒体文件的情况下，确定该第二媒体文件为与第一媒体文件存在内容重复的重复媒体文件。

具体结合图4所示步骤S402-S420进行说明：

在步骤S402-S404构建码本和检索词库之后，执行步骤S406获取客户端发送的发布请求所请求发布的第一媒体文件，然后对第一媒体文件执行步骤S408-S412：从第一媒体文件中提取发生场景变化的第一关键图像帧，并从该第一关键图像帧中提取第一图像特征，在对第一图像特征进行特征聚合之后，得到原始图像描述词集合。进一步，执行步骤S414，利用逆文档词频对原始图像描述词集合中原始图像描述词进行筛选，得到第一图像描述词集合。以便于从检索词库中，确定出与上述第一图像描述词集合相匹配的索引子词库，如步骤S416。然后执行步骤S418，查找与第一媒体文件的相似度大于目标阈值的第二媒体文件。在查找第二媒体文件的情况下，执行步骤S420，确定第一媒体文件存在重复媒体文件。在未查找到第二媒体文件的情况下，再次执行步骤S406获取新的媒体文件作为第一媒体文件。

需要说明的是，在查找第二媒体文件的过程中，可以但不限于对与第一图像描述词集合对应的索引子词库中的媒体文件，进行过滤筛选，以缩小用于比对的查找范围，达到提高查找效率及媒体文件召回率的目的。

通过本申请提供的实施例，在获取到客户端发送的用于请求通过第一账号发布第一媒体文件的发布请求之后，获取该第一媒体文件相匹配的第一图像描述词集合，并从检索词库中确定出与上述第一图像描述词集合相匹配的索引子词库，以便于直接在该索引子词库中查找与第一媒体文件的相似度大于目标阈值的第二媒体文件。也就是说，在已构建的用于记录图像描述词与已发布的媒体文件的文件标识信息之间的映射关系的检索词库中，利用图像描述词的倒排索引方式，缩小查找范围，确定出于第一图像描述词集合相匹配的索引子词库，以便于在该索引子词库中直接查找出与第一媒体文件的相似度大于目标阈值的第二媒体文件，而无需再构建复杂的孪生网络模型，进行复杂的训练过程。从而实现简化查找步骤，节省查找时间，提高对重复媒体文件的查找效率，进而克服相关技术媒体文件查找效率较低的问题。

作为一种可选的方案，如图5所示，步骤S204，获取与第一媒体文件相匹配的第一图像描述词集合包括：

S502，从第一媒体文件中提取第一关键画面帧，其中，第一关键画面帧用于指示第一媒体文件中发生场景变换的画面帧；

S504，从第一关键画面帧中提取第一图像特征；

S506，对第一图像特征进行特征聚合，以得到与第一媒体文件相匹配的原始图像描述词集合；

S508，根据原始图像描述词集合中每个原始图像描述词的逆文档词频，获取第一图像描述词集合，其中，逆文档词频根据原始图像描述词的词频及逆文档频率指数确定。

可选地，在本实施例中，在从媒体文件中提取关键画面帧的过程中，可以包括但不限于：利用画面帧的HSV(色调Hue，饱和度Saturation，亮度Value)颜色模型的颜色直方图特征来确定上述媒体文件中发生场景变换的关键画面帧。

例如，假设对1秒的媒体文件提取5帧画面帧，计算每帧画面帧的HSV直方图特征，并做特征归一化处理。然后，利用上述归一化的特征对提取的画面帧进行帧聚类。假设聚类中心设定为T个，则可以通过迭代聚类过程，确定T个关键画面帧，如将距离聚类中心最近的画面帧确定为上述关键画面帧。上述仅是一种示例，本实施例中对此不作任何限定。

可选地，在本实施例中，从第一关键画面帧中提取第一图像特征包括：通过图像特征提取模型从第一关键画面帧中提取第一图像特征，其中，图像特征提取模型为利用多个样本媒体文件进行机器训练后，得到的用于提取媒体文件的关键画面帧中的图像特征的神经网络模型。

其中，上述图像特征提取模型可以但不限于为基于初始化的神经网络模型进行深度学习后得到的用于提取画面帧中的图像特征的网络模型。这里初始化的神经网络模型可以包括但不限于：卷积神经网络(Convolutional Neural Networks，简称CNN)模型、循环神经网络(Recurrent Neural Networks，简称RNN)模型等。进一步，在提取到图像特征的特征向量后，为了简化计算量，还可以但不限于采用主要成分分析(Principal ComponentsAnalysis，简称PCA)方法，对生成的高维特征向量做降维处理。

可选地，在本实施例中，对第一图像特征进行特征聚合，以得到与第一媒体文件相匹配的原始图像描述词集合可以包括但不限于：采用K-means聚类方法对提取的第一图像特征进行特征聚合，得到P个聚类中心。比对P个聚类中心的图像特征与预先构建的码本中的图像特征，从而确定P个聚类中心对应的P个图像描述词作为第一媒体文件的原始图像描述词，从而得到原始图像描述词集合。

可选地，在本实施例中，根据原始图像描述词集合中每个原始图像描述词的逆文档词频，获取第一图像描述词集合包括：

1)将逆文档词频大于第一阈值的原始图像描述词作为第一图像描述词，存储至第一图像描述词集合中；或

2)对原始图像描述词集合中的原始图像描述词的逆文档词频进行排序，得到原始图像描述词序列；从原始图像描述词序列中获取原始图像描述词作为第一图像描述词，存储至第一图像描述词集合中。

可选地，在本实施例中，上述逆文档词频(TF-IDF)可以但不限于为词频(TermFrequency，简称TF)与逆文档频率指数(Inverse Document Frequency，简称IDF)的乘积。该逆文档词频用于表示原始图像描述词在原始图像描述词集合中的重要程度。其中，

TF-IDF＝TF_i*IDF_i (3)

其中，n_i表示给定的第i个原始图像描述词在第一媒体文件对应的原始图像描述词集合出现的次数，W表示第一媒体文件对应的原始图像描述词集合中全部原始图像描述词出现的总次数，TF_i表示第i个原始图像描述词的词频，Q表示检索词库中已发布的媒体文件的总数，R表示包含上述第i个原始图像描述词的媒体文件的数量，IDF_i表示第i个原始图像描述词的逆文档频率，TF-IDF表示第i个原始图像描述词的逆文档词频。

需要说明的是，在本实施例中，在获取到原始图像描述词的逆文档词频之后，可以但不限于通过以下两种方式获取：

1)遍历全部逆文档词频，直接获取逆文档词频大于第一阈值的原始图像描述词，作为第一图像描述词集合中的第一图像描述词；

2)对全部逆文档词频进行排序得到原始图像描述词序列，从原始图像描述词序列中获取原始图像描述词作为第一图像描述词集合中的第一图像描述词。

例如，假设按照从大到小的顺序进行排序，则获取前r个原始图像描述词作为第一图像描述词集合中的第一图像描述词。假设按照从小到大的顺序进行排序，则获取后r个原始图像描述词作为第一图像描述词集合中的第一图像描述词。

通过本申请提供的实施例，在利用图像特征提取模型从第一媒体文件的第一关键画面帧中提取第一图像特征之后，对该第一图像特征进行特征聚合以得到第一媒体文件相匹配的原始图像描述词集合。进一步，利用逆文档词频对原始图像描述词集合进行筛选，得到第一图像描述词集合，通过缩小图像描述词集合的范围，以便于缩小用于查找第二媒体文件的索引子词库的范围。从而实现在提高查找重复媒体文件的效率的同时，也提高了对重复媒体文件的召回率。

作为一种可选的方案，如图6所示，步骤S208在与第一图像描述词集合相匹配的索引子词库中，查找与第一媒体文件的相似度大于目标阈值的第二媒体文件包括：

S602，根据预设的时长阈值及第一媒体文件的播放时长确定时长比对区间；

S604，从索引子词库中获取播放时长属于时长比对区间的媒体文件，得到第一媒体文件集合；

S606，获取第一媒体文件集合中每个媒体文件的文件标识的出现频率；

S608，从第一媒体文件集合中，获取出现频率大于第二阈值的媒体文件，得到第二媒体文件集合；

S610，在第二媒体文件集合中查找第二媒体文件。

可选地，在本实施例中，在第二媒体文件集合中查找第二媒体文件包括：依次计算第二媒体文件集合中的每个媒体文件与第一媒体文件的余弦距离，并将余弦距离作为第二媒体文件集合中对应的媒体文件与第一媒体文件之间的相似度；在第二媒体文件集合中查找相似度大于目标阈值的第二媒体文件。

需要说明的是，本实施例中提供的检索词库(也可称作倒排索引词库)中包括的每个索引子词库用于记录一个图像描述词与已发布媒体文件的文件标识信息之间的关系，该文件标识信息可以包括但不限于以下至少之一：出现上述图像描述词的媒体文件的文件标识(如用“vid”表示)、出现上述图像描述词的媒体文件的播放时长(如用“dur”表示)及上述图像描述词在媒体文件中的出现频次(如用“count”表示)。需要说明的是，倒排索引可以但不限于为一种根据属性的值来查找记录的索引机制，如将图像描述词作为索引对象，用来索引存储媒体文件的文件标识信息。

此外，在本实施例中，上述时长阈值可以但不限于根据不同的实际场景设置为不同的取值。例如，假设时长阈值以0.3为例，第一媒体文件的播放时长用qdur表示，则可以确定上述时长比对区间为[qdur*0.7，qdur*1.3]。上述仅是一种示例，本实施例中对此不作任何限定。

具体结合图7所示示例进行说明。在如步骤S602根据第一媒体文件对应的第一图像描述词集合确定出索引子词库之后，执行步骤S604，根据第一媒体文件的播放时长及时长阈值确定出时长比对区间(例如，时长比对区间为[qdur*0.7，qdur*1.3])。然后执行步骤S606，比对索引子词库中的媒体文件的播放时长与上述时长比对区间，以获取播放时长属于该时长比对区间的媒体文件，得到第一媒体文件集合。进一步，如步骤S608从第一媒体文件集合中获取媒体文件的文件标识的出现频率大于第二阈值的第二媒体文件集合。之后如步骤S610，比对第二媒体文件集合中的媒体文件与第一媒体文件的余弦距离(作为二者之间的相似度)，来查找确定出于第一媒体文件存在内容重复的第二媒体文件。

通过本申请提供的实施例，利用媒体文件的播放时长及出现频率，来对索引子词库中的媒体文件进行二次过滤，以得到与第一媒体文件相关的媒体文件构成的第二媒体文件集合。从而实现缩小与第一媒体文件进行比对的查找范围，提高重复媒体文件的查找效率及重复媒体文件的召回率。

作为一种可选的方案，依次计算第二媒体文件集合中的每个媒体文件与第一媒体文件的余弦距离，并将余弦距离作为第二媒体文件集合中对应的媒体文件与第一媒体文件之间的相似度包括：

S1，重复执行以下步骤，遍历第二媒体文件集合中的每个媒体文件：

S11，从第二媒体文件集合中获取当前媒体文件；

S12，获取与当前媒体文件相匹配的当前图像描述词集合，其中，当前图像描述词集合中包括用于描述当前媒体文件的画面内容的多个当前图像描述词；

S13，根据当前图像描述词集合中当前图像描述词的词频，确定与当前媒体文件相匹配的当前媒体文件向量；

S14，获取当前媒体文件向量及与第一媒体文件相匹配的第一媒体文件向量二者之间的余弦距离，作为当前媒体文件与第一媒体文件二者之间的相似度，其中，第一媒体文件向量为根据第一图像描述词集合中第一图像描述词的词频确定出的向量。

需要说明的是，在本实施例中，在获取到当前媒体文件的图像描述词之后，可以但不限于根据图像描述词的词频确定当前媒体文件的当前媒体文件向量。也就是说，当前媒体文件向量的长度可以但不限于为码本的大小，且该向量中每个维度的元素指为图像描述词在该当前媒体文件中的词频。

此外，在本实施例中，在每个阶段提取到关键画面帧之后，基于每一帧关键画面帧中提取的图像特征进行特征聚合所得到的聚类中心的数量可以但不限于大于等于1。也就是说，每一帧关键画面帧可以确定出一个或多个图像描述词。

具体结合图8所示示例进行说明：遍历第二媒体文件集合中的每个媒体文件，执行以下操作：

从第二媒体文件集合中获取当前媒体文件，从该当前媒体文件中提取p个关键画面帧，基于每一帧关键画面帧中提取的图像特征进行特征聚合，得到与该关键画面帧最近邻的前K个聚类中心，即每个关键画面帧可以但不限于获取K个图像描述词。统计从整个当前媒体文件中提取的关键画面帧中确定出的图像描述词(如图所示p*k个图像描述词)，计算每一个图像描述词的词频f，以抽象得到该当前媒体文件的当前媒体文件向量：f1，f2，…fN。其中，N为已构建的码本的大小，每个维度的f值为该图像描述词在当前媒体文件中的词频。

进一步，参照上述过程获取第一媒体文件的第一媒体文件向量：F1，F2，…FN。获取上述当前媒体文件向量与第一媒体文件向量二者之间的余弦距离，作为当前媒体文件与第一媒体文件的相似度。在该相似度大于目标阈值的情况下，确定当前媒体文件为第二媒体文件。

通过本申请提供的实施例，在确定出媒体文件的图像描述词之后，利用图像描述词的词频确定媒体文件的媒体文件向量，以便于利用向量之间的余弦距离来作为相似度进行比对。从而利用缩小查找范围的第二媒体文件集合中的媒体文件，来高效快速地查找出与第一媒体文件相似的第二媒体文件。

作为一种可选的方案，如图9所示，在步骤S202获取使用第一账号登录的客户端发送的发布请求之前，还包括：

S902，从用于存储已发布的媒体文件的媒体文件库中，依次获取对象媒体文件，并执行以下操作：从对象媒体文件中提取第二关键画面帧，其中，第二关键画面帧用于指示对象媒体文件中发生场景变换的画面帧；从第二关键画面帧中提取第二图像特征；对第二图像特征进行特征聚合，以得到与对象媒体文件相匹配的第二图像描述词集合，其中，第二图像描述词集合中包括用于描述对象媒体文件的画面内容的多个第二图像描述词；

S904，根据已发布的媒体文件的文件标识信息及各个第二图像描述词集合中的第二图像描述词，构建检索词库，其中，检索词库中的第i个索引子词库用于记录第i个第二图像描述词与以下文件标识信息之间的映射关系：出现第i个第二图像描述词的媒体文件的文件标识、出现第i个第二图像描述词的媒体文件的播放时长及第i个第二图像描述词在对应媒体文件中的出现频次，i为大于等于1的整数。

具体结合图10所示示例进行说明。假设媒体文件库中存储有已发布的媒体文件的数量M个，在从上述已发布的媒体文件中提取关键画面帧后，从该关键画面帧中提取图像特征，并对图像特征进行特征聚合后，将得到M个聚类中心。进一步，对M个聚类中心与上述构建出的码本进行比对，确定M个聚类中心对应的M个图像描述词，并将该M个图像描述词作为索引，建立检索词库(也可称作倒排索引词库)。如图7所示，假设将M个图像描述词用哈希值表示为：hash₁，hash₂，…hash_M，则图7所示每一行数据可以但不限于用于表示一个图像描述词对应的索引子词库。

其中，第1个图像描述词对应的第1个索引子词库中包括j₁个媒体文件，每个媒体文件的文件标识信息包括：出现第1个图像描述词的媒体文件的文件标识(如用“vid”表示)、出现第1个图像描述词的媒体文件的播放时长(如用“dur”表示)及第1个图像描述词在媒体文件中的出现频次(如用“count”表示)，如第1个图像描述词对应的第1个索引子词库可以表示为：

(vid-1,dur-1,count-1),(vid-2,dur-2,count-2),...,(vid-j₁,dur-j₁,count-j₁)。

第2个图像描述词对应的第2个索引子词库中包括j₂个媒体文件，进一步，这里第2个图像描述词对应的第2个索引子词库可以表示为：

(vid-1,dur-1,count-1),(vid-2,dur-2,count-2),...,(vid-j₂,dur-j₂,count-j₂)。

以此类推。直至得到检索词库中第M个图像描述词对应的第M个索引子词库，其中包括j_M个媒体文件，这里第M个图像描述词对应的第M个索引子词库将为：

(vid-1,dur-1,count-1),(vid-2,dur-2,count-2),...,(vid-j_M,dur-j_M,count-j_M)。

通过本申请提供的实施例，从已发布的媒体文件中提取关键画面帧，并进一步提取图像特征之后，对图像特征进行特征聚合，得到多个聚类中心。进一步对上述聚类中心与码本进行比对，以确定出已发布的媒体文件对应的第二图像描述词集合，并基于第二图像描述词集合来构建用于与第一媒体文件进行比对的检索词库中的索引子词库(倒排索引)。从而实现简化媒体文件查找的步骤，而无需再构建复杂的孪生网络模型，以达到提高媒体文件查找效率的效果。

作为一种可选的方案，在从用于存储已发布的媒体文件的媒体文件库中，依次获取对象媒体文件之前，还包括：

S1，遍历存储有第一媒体文件的应用服务器中的全部原始媒体文件，依次执行以下操作：

S11，从原始媒体文件中提取第三关键画面帧，其中，第三关键画面帧用于指示原始媒体文件中发生场景变换的画面帧；

S12，从第三关键画面帧中提取第三图像特征；

S13，对第三图像特征进行特征聚合，以得到与原始媒体文件相匹配的第三图像描述词集合，其中，第三图像描述词集合中包括用于描述原始媒体文件的画面内容的多个第三图像描述词；

S14，根据第三图像描述词集合构建码本，其中，码本用于在特征聚合过程中确定第一图像描述词集合及第二图像描述词集合。

通过本申请提供的实施例，在从上述大量的原始媒体文件中提取关键画面帧后，再从该关键画面帧中提取图像特征，并对该图像特征进行降维和特征聚合(也可称作聚类)处理。然后将得到N个聚类中心作为N个图像描述词(也可称作视觉词)，利用这些图像描述词构建出的码本，将便于后续对第一媒体文件及检索词库中的媒体文件进行比对，快速准确地得到对应的图像描述词。进而达到简化媒体文件的查找步骤的目的。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述媒体文件查找方法的媒体文件查找装置。上述媒体文件查找装置可以但不限于应用于上述图1所示的服务器104中。如图11所示，该装置包括：

1)第一获取单元1102，用于获取使用第一账号登录的客户端发送的发布请求，其中，发布请求用于请求通过第一账号发布第一媒体文件；

2)第二获取单元1104，用于获取与第一媒体文件相匹配的第一图像描述词集合，其中，第一图像描述词集合中包括用于描述第一媒体文件的画面内容的多个第一图像描述词；

3)第一确定单元1106，用于从检索词库中确定出与第一图像描述词集合相匹配的索引子词库，其中，检索词库包括多个索引子词库，每个索引子词库用于记录一个图像描述词与已发布的媒体文件的文件标识信息之间的映射关系；

4)查找单元1108，用于在与第一图像描述词集合相匹配的索引子词库中，查找与第一媒体文件的相似度大于目标阈值的第二媒体文件，其中，在查找到第二媒体文件的情况下，确定第一媒体文件存在重复媒体文件。

通过本申请提供的实施例，在已构建的用于记录图像描述词与已发布的媒体文件的文件标识信息之间的映射关系的检索词库中，利用图像描述词的倒排索引方式，缩小查找范围，确定出于第一图像描述词集合相匹配的索引子词库，以便于在该索引子词库中直接查找出与第一媒体文件的相似度大于目标阈值的第二媒体文件，而无需再构建复杂的孪生网络模型，进行复杂的训练过程。从而实现简化查找步骤，节省查找时间，提高对重复媒体文件的查找效率，进而克服相关技术媒体文件查找效率较低的问题。

作为一种可选的方案，第二获取单元1104包括：

1)第一提取模块，用于从第一媒体文件中提取第一关键画面帧，其中，第一关键画面帧用于指示第一媒体文件中发生场景变换的画面帧；

2)第二提取模块，用于从第一关键画面帧中提取第一图像特征；

3)聚合模块，用于对第一图像特征进行特征聚合，以得到与第一媒体文件相匹配的原始图像描述词集合；

4)第一获取模块，用于根据原始图像描述词集合中每个原始图像描述词的逆文档词频，获取第一图像描述词集合，其中，逆文档词频根据原始图像描述词的词频及逆文档频率指数确定。

可选地，在本实施例中，第二提取模块包括：提取子模块，用于通过图像特征提取模型从第一关键画面帧中提取第一图像特征，其中，图像特征提取模型为利用多个样本媒体文件进行机器训练后，得到的用于提取媒体文件的关键画面帧中的图像特征的神经网络模型。

可选地，在本实施例中，第一获取模块包括：

(1)第一处理子模块，用于将逆文档词频大于第一阈值的原始图像描述词作为第一图像描述词，存储至第一图像描述词集合中；

(2)第二处理子模块，用于对原始图像描述词集合中的原始图像描述词的逆文档词频进行排序，得到原始图像描述词序列；从原始图像描述词序列中获取原始图像描述词作为第一图像描述词，存储至第一图像描述词集合中。

作为一种可选的方案，查找单元1108包括：

1)第一确定模块，用于根据预设的时长阈值及所述第一媒体文件的播放时长确定时长比对区间；

2)第二获取模块，用于从索引子词库中获取播放时长属于时长比对区间的媒体文件，得到第一媒体文件集合；

3)第三获取模块，用于获取第一媒体文件集合中每个媒体文件的文件标识的出现频率；

4)第四获取模块，用于从第一媒体文件集合中，获取出现频率大于第二阈值的媒体文件，得到第二媒体文件集合；

5)查找模块，用于在第二媒体文件集合中查找第二媒体文件。

可选地，在本实施例中，查找模块包括：

(1)第一计算子模块，用于依次计算第二媒体文件集合中的每个媒体文件与第一媒体文件的余弦距离，并将余弦距离作为第二媒体文件集合中对应的媒体文件与第一媒体文件之间的相似度；

(2)查找子模块，用于在第二媒体文件集合中查找相似度大于目标阈值的第二媒体文件。

作为一种可选的方案，第一获取子模块通过以下步骤实现：依次计算第二媒体文件集合中的每个媒体文件与第一媒体文件的余弦距离，并将余弦距离作为第二媒体文件集合中对应的媒体文件与第一媒体文件之间的相似度：

S11，从第二媒体文件集合中获取当前媒体文件；

通过本申请提供的实施例，在确定出媒体文件的图像描述词之后，利用图像描述词的词频确定媒体文件的媒体文件向量，以便于利用向量之间的余弦距离，来作为相似度进行比对。从而利用缩小查找范围的第二媒体文件集合中的媒体文件，来高效快速地查找出与第一媒体文件相似的第二媒体文件。

作为一种可选的方案，上述装置还包括：

1)第一操作单元，用于在获取使用第一账号登录的客户端发送的发布请求之前，从用于存储已发布的媒体文件的媒体文件库中，依次获取对象媒体文件，并执行以下操作：从对象媒体文件中提取第二关键画面帧，其中，第二关键画面帧用于指示对象媒体文件中发生场景变换的画面帧；从第二关键画面帧中提取第二图像特征；对第二图像特征进行特征聚合，以得到与对象媒体文件相匹配的第二图像描述词集合，其中，第二图像描述词集合中包括用于描述对象媒体文件的画面内容的多个第二图像描述词；

2)第一构建单元，用于根据已发布的媒体文件的文件标识信息及各个第二图像描述词集合中的第二图像描述词，构建检索词库，其中，检索词库中的第i个索引子词库用于记录第i个第二图像描述词与以下文件标识信息之间的映射关系：出现第i个第二图像描述词的媒体文件的文件标识、出现第i个第二图像描述词的媒体文件的播放时长及第i个第二图像描述词在对应媒体文件中的出现频次，i为大于等于1的整数。

作为一种可选的方案，上述装置还包括：

1)第二操作单元，用于在从用于存储已发布的媒体文件的媒体文件库中，依次获取对象媒体文件之前，遍历存储有第一媒体文件的应用服务器中的全部原始媒体文件，依次执行以下操作：

S1，从原始媒体文件中提取第三关键画面帧，其中，第三关键画面帧用于指示原始媒体文件中发生场景变换的画面帧；

S2，从第三关键画面帧中提取第三图像特征；

S3，对第三图像特征进行特征聚合，以得到与原始媒体文件相匹配的第三图像描述词集合，其中，第三图像描述词集合中包括用于描述原始媒体文件的画面内容的多个第三图像描述词；

S4，根据第三图像描述词集合构建码本，其中，码本用于在特征聚合过程中确定第一图像描述词集合及第二图像描述词集合。

根据本发明实施例的又一个方面，还提供了一种用于实施上述媒体文件查找方法的电子装置，上述电子装置可以但不限于应用于上述图1所示的服务器104中。如图12所示，该电子装置包括存储器1202和处理器1204，该存储器1202中存储有计算机程序，该处理器1204被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取使用第一账号登录的客户端发送的发布请求，其中，发布请求用于请求通过第一账号发布第一媒体文件；

S2，获取与第一媒体文件相匹配的第一图像描述词集合，其中，第一图像描述词集合中包括用于描述第一媒体文件的画面内容的多个第一图像描述词；

S3，从检索词库中确定出与第一图像描述词集合相匹配的索引子词库，其中，检索词库包括多个索引子词库，每个索引子词库用于记录一个图像描述词与已发布的媒体文件的文件标识信息之间的映射关系；

S4，在与第一图像描述词集合相匹配的索引子词库中，查找与第一媒体文件的相似度大于目标阈值的第二媒体文件，其中，在查找到第二媒体文件的情况下，确定第一媒体文件存在重复媒体文件。

可选地，本领域普通技术人员可以理解，图12所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图12其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图10中所示更多或者更少的组件(如网络接口等)，或者具有与图12所示不同的配置。

其中，存储器1202可用于存储软件程序以及模块，如本发明实施例中的媒体文件查找方法和装置对应的程序指令/模块，处理器1204通过运行存储在存储器1202内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的媒体文件查找方法。存储器1202可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1202可进一步包括相对于处理器1204远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1202具体可以但不限于用于第一媒体文件或检索词库中的媒体文件及映射关系等信息。作为一种示例，如图12所示，上述存储器1202中可以但不限于包括上述媒体文件查找装置中的第一获取单元1102、第二获取单元1104、第一确定单元1106及查找单元1108。此外，还可以包括但不限于上述媒体文件查找装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1206用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1206包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1206为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器1208，用于显示各个媒体文件；和连接总线1210，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种媒体文件查找方法，其特征在于，包括：

获取使用第一账号登录的客户端发送的发布请求，其中，所述发布请求用于请求通过所述第一账号发布第一媒体文件；

从所述第一媒体文件中提取发生场景变化的第一关键画面帧，并采用卷积神经网络模型从所述第一关键画面帧中提取第一图像特征，其中，所述第一图像特征为定长特征向量；

对所述第一图像特征进行特征聚合，以得到用于描述所述第一媒体文件的原始图像描述词集合；

对所述原始图像描述词集合中每个原始图像描述词的逆文档词频按照从大到小的顺序进行排序，获取前r个原始图像描述词构成第一图像描述词集合，其中，所述逆文档词频根据所述原始图像描述词的词频及逆文档频率指数确定，所述第一图像描述词集合中包括用于描述所述第一媒体文件的画面内容的多个第一图像描述词；

利用所述第一图像描述词的倒排索引方式，从检索词库中确定出与所述第一图像描述词集合相匹配的索引子词库，其中，所述检索词库包括多个索引子词库，每个所述索引子词库用于记录一个图像描述词与已发布的媒体文件的文件标识信息之间的映射关系；

在与所述第一图像描述词集合相匹配的索引子词库中，查找与所述第一媒体文件的相似度大于目标阈值的第二媒体文件，包括：根据预设的时长阈值及所述第一媒体文件的播放时长确定时长比对区间；从所述索引子词库中获取播放时长属于所述时长比对区间的媒体文件，得到第一媒体文件集合；获取所述第一媒体文件集合中每个媒体文件的文件标识的出现频率；从所述第一媒体文件集合中，获取所述出现频率大于第二阈值的媒体文件，得到第二媒体文件集合；在所述第二媒体文件集合中查找所述第二媒体文件；

在查找到所述第二媒体文件的情况下，确定所述第一媒体文件存在重复媒体文件。

2.根据权利要求1所述的方法，其特征在于，所述采用卷积神经网络从所述第一关键画面帧中提取第一图像特征包括：

通过图像特征提取模型从所述第一关键画面帧中提取所述第一图像特征，其中，所述图像特征提取模型为利用多个样本媒体文件进行机器训练后，得到的用于提取媒体文件的关键画面帧中的图像特征的卷积神经网络模型。

3.根据权利要求2所述的方法，其特征在于，所述在所述第二媒体文件集合中查找所述第二媒体文件包括：

依次计算所述第二媒体文件集合中的每个媒体文件与所述第一媒体文件的余弦距离，并将所述余弦距离作为所述第二媒体文件集合中对应的媒体文件与所述第一媒体文件之间的所述相似度；

在所述第二媒体文件集合中查找所述相似度大于所述目标阈值的所述第二媒体文件。

4.根据权利要求3所述的方法，其特征在于，所述依次计算所述第二媒体文件集合中的每个媒体文件与所述第一媒体文件的余弦距离，并将所述余弦距离作为所述第二媒体文件集合中对应的媒体文件与所述第一媒体文件之间的所述相似度包括：

重复执行以下步骤，遍历所述第二媒体文件集合中的每个媒体文件：

从所述第二媒体文件集合中获取当前媒体文件；

获取与所述当前媒体文件相匹配的当前图像描述词集合，其中，所述当前图像描述词集合中包括用于描述所述当前媒体文件的画面内容的多个当前图像描述词；

根据所述当前图像描述词集合中所述当前图像描述词的词频，确定与所述当前媒体文件相匹配的当前媒体文件向量；

将所述当前媒体文件向量及与所述第一媒体文件相匹配的第一媒体文件向量二者之间的余弦距离，作为所述当前媒体文件与所述第一媒体文件二者之间的所述相似度，其中，所述第一媒体文件向量为根据所述第一图像描述词集合中所述第一图像描述词的词频确定出的向量。

5.根据权利要求1至4中任一项所述的方法，其特征在于，在所述获取使用第一账号登录的客户端发送的发布请求之前，还包括：

从用于存储已发布的媒体文件的媒体文件库中，依次获取对象媒体文件，并执行以下操作：从所述对象媒体文件中提取第二关键画面帧，其中，所述第二关键画面帧用于指示所述对象媒体文件中发生场景变换的画面帧；从所述第二关键画面帧中提取第二图像特征；对所述第二图像特征进行特征聚合，以得到与所述对象媒体文件相匹配的第二图像描述词集合，其中，所述第二图像描述词集合中包括用于描述所述对象媒体文件的画面内容的多个第二图像描述词；

根据所述已发布的媒体文件的文件标识信息及各个所述第二图像描述词集合中的所述第二图像描述词，构建所述检索词库，其中，所述检索词库中的第i个所述索引子词库用于记录第i个所述第二图像描述词与以下文件标识信息之间的映射关系：出现第i个所述第二图像描述词的媒体文件的文件标识、出现第i个所述第二图像描述词的媒体文件的播放时长及第i个所述第二图像描述词在对应媒体文件中的出现频次，所述i为大于等于1的整数。

6.根据权利要求5所述的方法，其特征在于，在所述从用于存储已发布的媒体文件的媒体文件库中，依次获取对象媒体文件之前，还包括：

遍历存储有所述第一媒体文件的应用服务器中的全部原始媒体文件，依次执行以下操作：

从所述原始媒体文件中提取第三关键画面帧，其中，所述第三关键画面帧用于指示所述原始媒体文件中发生场景变换的画面帧；

从所述第三关键画面帧中提取第三图像特征；

对所述第三图像特征进行特征聚合，以得到与所述原始媒体文件相匹配的第三图像描述词集合，其中，所述第三图像描述词集合中包括用于描述所述原始媒体文件的画面内容的多个第三图像描述词；

根据所述第三图像描述词集合构建码本，其中，所述码本用于在特征聚合过程中确定所述第一图像描述词集合及所述第二图像描述词集合。

7.一种媒体文件查找装置，其特征在于，包括：

第一获取单元，用于获取使用第一账号登录的客户端发送的发布请求，其中，所述发布请求用于请求通过所述第一账号发布第一媒体文件；

第二获取单元，用于获取与所述第一媒体文件相匹配的第一图像描述词集合，其中，所述第一图像描述词集合中包括用于描述所述第一媒体文件的画面内容的多个第一图像描述词；

所述第二获取单元包括：

第一提取模块，用于从所述第一媒体文件中提取第一关键画面帧，其中，所述第一关键画面帧用于指示所述第一媒体文件中发生场景变换的画面帧；

第二提取模块，用于采用卷积神经网络模型从所述第一关键画面帧中提取第一图像特征，其中，所述第一图像特征为定长特征向量；聚合模块，用于对所述第一图像特征进行特征聚合，以得到用于描述所述第一媒体文件的原始图像描述词集合；

第一获取模块，用于对所述原始图像描述词集合中每个原始图像描述词的逆文档词频按照从大到小的顺序进行排序，获取前r个原始图像描述词构成所述第一图像描述词集合，其中，所述逆文档词频根据所述原始图像描述词的词频及逆文档频率指数确定；

第一确定单元，用于利用所述图像描述词的倒排索引方式，从检索词库中确定出与所述第一图像描述词集合相匹配的索引子词库，其中，所述检索词库包括多个索引子词库，每个所述索引子词库用于记录一个图像描述词与已发布的媒体文件的文件标识信息之间的映射关系；

查找单元，用于在与所述第一图像描述词集合相匹配的索引子词库中，查找与所述第一媒体文件的相似度大于目标阈值的第二媒体文件，其中，在查找到所述第二媒体文件的情况下，确定所述第一媒体文件存在重复媒体文件，包括：根据预设的时长阈值及所述第一媒体文件的播放时长确定时长比对区间；从所述索引子词库中获取播放时长属于所述时长比对区间的媒体文件，得到第一媒体文件集合；获取所述第一媒体文件集合中每个媒体文件的文件标识的出现频率；从所述第一媒体文件集合中，获取所述出现频率大于第二阈值的媒体文件，得到第二媒体文件集合；在所述第二媒体文件集合中查找所述第二媒体文件。

8.根据权利要求7所述的装置，其特征在于，所述查找单元包括：

第一计算子模块，用于依次计算所述第二媒体文件集合中的每个媒体文件与所述第一媒体文件的余弦距离，并将所述余弦距离作为所述第二媒体文件集合中对应的媒体文件与所述第一媒体文件之间的所述相似度；

查找子模块，用于在所述第二媒体文件集合中查找所述相似度大于所述目标阈值的所述第二媒体文件。

9.一种存储介质，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至6任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。