CN110532405A

CN110532405A - 多媒体文件处理方法、通信设备及计算机可读存储介质

Info

Publication number: CN110532405A
Application number: CN201910754299.2A
Authority: CN
Inventors: 聂国梁; 徐嵩; 赵琦; 庄晓亮; 毕铎; 王科; 杜欧杰
Original assignee: MIGU Culture Technology Co Ltd
Current assignee: MIGU Culture Technology Co Ltd
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2019-12-03
Anticipated expiration: 2039-08-15
Also published as: CN110532405B

Abstract

本发明提供了一种多媒体文件处理方法、通信设备及计算机可读存储介质，其中，多媒体文件处理方法包括：获取源多媒体文件的特征信息；根据所述特征信息，确定与所述源多媒体文件对应的候选多媒体文件的集合；在所述集合中存在与所述源多媒体文件之间的匹配度大于第一阈值的候选多媒体文件的情况下，对所述源多媒体文件进行预设处理。本方案能够识别出是否存在与源多媒体文件之间匹配度大于第一阈值的已存储的候选多媒体文件，而在存在的情况下，对源多媒体文件进行处理，进而避免无法识别是否存在相同的已存储的多媒体文件，而导致的存储多份较为相似的多媒体文件，从而节省存储资源。

Description

多媒体文件处理方法、通信设备及计算机可读存储介质

技术领域

本发明涉及数据处理技术领域，特别是指一种多媒体文件处理方法、通信设备及计算机可读存储介质。

背景技术

随着科技的发展，彩铃已由单纯的音频彩铃发展到了视频彩铃。具体的，VoLTE(Voice over Long-Term Evolution，长期演进语音承载)视频彩铃业务是一项由被叫用户定制，为主叫用户提供一段悦耳、多彩或有趣的视频媒体来替代普通网络回铃音的业务。但是，为了支持视频彩铃，通信系统需要用户先注入多媒体文件；然后将用户注入的多媒体文件推送到彩铃平台，定制为对应用户的彩铃。然而不同用户可能会注入相同内容以及相同分辨率的多媒体文件，现有技术却无法识别是否存在相同的已存储的多媒体文件，导致彩铃平台保存了多份相同的多媒体文件，浪费了大量存储资源。

发明内容

本发明的目的在于提供一种多媒体文件处理方法、通信设备及计算机可读存储介质，解决现有技术中无法识别是否存在相同的已存储的多媒体文件，导致多媒体相关平台存储有大量重复的多媒体文件，浪费存储资源的问题。

为了解决上述技术问题，本发明实施例提供一种多媒体文件处理方法，应用于多媒体处理平台，包括：

获取源多媒体文件的特征信息；

根据所述特征信息，确定与所述源多媒体文件对应的候选多媒体文件的集合；

在所述集合中存在与所述源多媒体文件之间的匹配度大于第一阈值的候选多媒体文件的情况下，对所述源多媒体文件进行预设处理。

可选的，所述源多媒体文件包括源视频彩铃，所述候选多媒体文件包括候选视频彩铃；

所述获取源多媒体文件的特征信息，包括：

获取所述源视频彩铃的视频长度、视频分辨率以及图像标签。

可选的，获取所述源视频彩铃的图像标签，包括：

获取所述源视频彩铃中各个对象的出现次数；

将所述出现次数进行排序；

根据排序结果，将大于第二阈值的所述出现次数对应的对象作为目标对象；

将所述目标对象的图片，作为所述源视频彩铃的图像标签。

可选的，所述根据所述特征信息，确定与所述源多媒体文件对应的候选多媒体文件的集合，包括：

根据所述视频长度和所述视频分辨率，确定待匹配的视频文件集合；

获取所述图像标签的特征向量；

根据所述待匹配的视频文件集合和特征向量，确定候选标签特征向量；

获取所述特征向量与所述候选标签特征向量之间的相似度；

从所述相似度中筛选出大于第三阈值的相似度；

根据筛选出的相似度，确定与所述源视频彩铃对应的候选视频彩铃的集合。

可选的，所述根据筛选出的相似度，确定与所述源视频彩铃对应的候选视频彩铃的集合，包括：

获取筛选出的相似度对应的第一候选标签特征向量；

获取所述第一候选标签特征向量对应的视频文件标识信息；

根据所述筛选出的相似度，确定各个所述视频文件标识信息对应的各个目标相似度；

分别获取各个所述目标相似度与所述图像标签的个数之间的比值；

从所述比值中筛选大于第四阈值的比值；

根据筛选出的所述比值对应的目标相似度，确定目标视频文件标识信息；

根据所述目标视频文件标识信息，得到与所述源视频彩铃对应的候选视频彩铃的集合。

可选的，所述根据所述筛选出的相似度，确定各个所述视频文件标识信息对应的各个目标相似度，包括：

在同一个所述视频文件标识信息对应一个所述筛选出的相似度的情况下，将所述视频文件标识信息对应的所述筛选出的相似度，作为所述视频文件标识信息对应的目标相似度；

在同一个所述视频文件标识信息对应至少两个所述筛选出的相似度的情况下，将所述至少两个所述筛选出的相似度进行累加处理，将累加得到的结果作为所述视频文件标识信息对应的目标相似度。

可选的，在所述集合为非空集合的情况下，在对所述源多媒体文件进行预设处理之前，还包括：

将所述源多媒体文件与所述集合中的候选多媒体文件进行匹配，得到所述候选多媒体文件对应的匹配度。

所述将所述源多媒体文件与所述集合中的候选多媒体文件进行匹配，得到所述候选多媒体文件对应的匹配度，包括：

根据所述源视频彩铃中视频帧的特征值差异，确定源特征帧；

将各个所述源特征帧与所述候选视频彩铃的各个特征帧分别进行匹配，得到特征差值；

根据所述特征差值，得到所述候选视频彩铃对应的匹配度。

可选的，所述将各个所述源特征帧与所述候选视频彩铃的各个特征帧分别进行匹配，得到特征差值，包括：

将所述源特征帧进行分块处理；

将所述源特征帧的分块进行筛选处理；

获取筛选后的所述源特征帧的各个分块与所述候选视频彩铃的特征帧的对应分块之间的分块特征差值；

根据所述分块特征差值，得到所述源特征帧与所述候选视频彩铃的特征帧之间的特征差值。

按照滑窗的方式，将所述源特征帧与所述候选视频彩铃的各个特征帧分别进行匹配，得到各个所述源特征帧与所述候选视频彩铃的各个特征帧之间的特征差值；

所述根据所述特征差值，得到所述候选视频彩铃对应的匹配度，包括：

获取每一次匹配得到的所述特征差值的总和；

根据所述总和、所述源特征帧的数量以及帧内像素数，得到所述候选视频彩铃对应的匹配度。

可选的，还包括：

在所述集合中不存在与所述源多媒体文件之间的匹配度大于第一阈值的候选多媒体文件的情况下，存储所述源多媒体文件的相关信息。

可选的，所述获取源多媒体文件的特征信息，包括：

获取终端上传的源多媒体文件的特征信息；

在对所述源多媒体文件进行预设处理之后，还包括：

获取所述集合中与所述源多媒体文件之间的匹配度大于第一阈值的候选多媒体文件的标识信息；

将所述候选多媒体文件的标识信息和所述终端的标识信息，发送至多媒体平台。

本发明实施例还提供了一种多媒体文件处理方法，应用于多媒体平台，包括：

接收多媒体处理平台发送的候选多媒体文件的标识信息和终端的标识信息；

根据所述候选多媒体文件的标识信息和所述终端的标识信息，给所述终端配置多媒体业务；

其中，所述候选多媒体文件的标识信息是所述多媒体处理平台在所述终端上传的源多媒体文件与所述候选多媒体文件之间的匹配度大于第一阈值的情况下发送的。

本发明实施例还提供了一种多媒体文件处理装置，应用于多媒体处理平台，包括：

第一获取模块，用于获取源多媒体文件的特征信息；

第一确定模块，用于根据所述特征信息，确定与所述源多媒体文件对应的候选多媒体文件的集合；

第一处理模块，用于在所述集合中存在与所述源多媒体文件之间的匹配度大于第一阈值的候选多媒体文件的情况下，对所述源多媒体文件进行预设处理。

所述第一获取模块，包括：

第一获取子模块，用于获取所述源视频彩铃的视频长度、视频分辨率以及图像标签。

可选的，所述第一获取子模块，包括：

第一获取单元，用于获取所述源视频彩铃中各个对象的出现次数；

第一排序单元，用于将所述出现次数进行排序；

第一处理单元，用于根据排序结果，将大于第二阈值的所述出现次数对应的对象作为目标对象；

第二处理单元，用于将所述目标对象的图片，作为所述源视频彩铃的图像标签。

可选的，所述第一确定模块，包括：

第一确定子模块，用于根据所述视频长度和所述视频分辨率，确定待匹配的视频文件集合；

第二获取子模块，用于获取所述图像标签的特征向量；

第二确定子模块，用于根据所述待匹配的视频文件集合和特征向量，确定候选标签特征向量；

第三获取子模块，用于获取所述特征向量与所述候选标签特征向量之间的相似度；

第一筛选子模块，用于从所述相似度中筛选出大于第三阈值的相似度；

第三确定子模块，用于根据筛选出的相似度，确定与所述源视频彩铃对应的候选视频彩铃的集合。

可选的，所述第三确定子模块，包括：

第二获取单元，用于获取筛选出的相似度对应的第一候选标签特征向量；

第三获取单元，用于获取所述第一候选标签特征向量对应的视频文件标识信息；

第一确定单元，用于根据所述筛选出的相似度，确定各个所述视频文件标识信息对应的各个目标相似度；

第四获取单元，用于分别获取各个所述目标相似度与所述图像标签的个数之间的比值；

第一筛选单元，用于从所述比值中筛选大于第四阈值的比值；

第二确定单元，用于根据筛选出的所述比值对应的目标相似度，确定目标视频文件标识信息；

第三处理单元，用于根据所述目标视频文件标识信息，得到与所述源视频彩铃对应的候选视频彩铃的集合。

可选的，所述第一确定单元，具体用于：

可选的，在所述集合为非空集合的情况下，还包括：

第一匹配模块，用于在对所述源多媒体文件进行预设处理之前，将所述源多媒体文件与所述集合中的候选多媒体文件进行匹配，得到所述候选多媒体文件对应的匹配度。

所述第一匹配模块，包括：

第四确定子模块，用于根据所述源视频彩铃中视频帧的特征值差异，确定源特征帧；

第一匹配子模块，用于将各个所述源特征帧与所述候选视频彩铃的各个特征帧分别进行匹配，得到特征差值；

第一处理子模块，用于根据所述特征差值，得到所述候选视频彩铃对应的匹配度。

可选的，所述第一匹配子模块，包括：

第四处理单元，用于将所述源特征帧进行分块处理；

第二筛选单元，用于将所述源特征帧的分块进行筛选处理；

第五获取单元，用于获取筛选后的所述源特征帧的各个分块与所述候选视频彩铃的特征帧的对应分块之间的分块特征差值；

第五处理单元，用于根据所述分块特征差值，得到所述源特征帧与所述候选视频彩铃的特征帧之间的特征差值。

可选的，所述第一匹配子模块，包括：

第一匹配单元，用于按照滑窗的方式，将所述源特征帧与所述候选视频彩铃的各个特征帧分别进行匹配，得到各个所述源特征帧与所述候选视频彩铃的各个特征帧之间的特征差值；

所述第一处理子模块，包括：

第六获取单元，用于获取每一次匹配得到的所述特征差值的总和；

第六处理单元，用于根据所述总和、所述源特征帧的数量以及帧内像素数，得到所述候选视频彩铃对应的匹配度。

可选的，还包括：

第一存储模块，用于在所述集合中不存在与所述源多媒体文件之间的匹配度大于第一阈值的候选多媒体文件的情况下，存储所述源多媒体文件的相关信息。

可选的，所述第一获取模块，包括：

第四获取子模块，用于获取终端上传的源多媒体文件的特征信息；

多媒体文件处理装置还包括：

第二获取模块，用于在对所述源多媒体文件进行预设处理之后，获取所述集合中与所述源多媒体文件之间的匹配度大于第一阈值的候选多媒体文件的标识信息；

第一发送模块，用于将所述候选多媒体文件的标识信息和所述终端的标识信息，发送至多媒体平台。

本发明实施例还提供了一种多媒体文件处理装置，应用于多媒体平台，包括：

第一接收模块，用于接收多媒体处理平台发送的候选多媒体文件的标识信息和终端的标识信息；

第一配置模块，用于根据所述候选多媒体文件的标识信息和所述终端的标识信息，给所述终端配置多媒体业务；

本发明实施例还提供了一种通信设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述处理器执行所述程序时实现上述多媒体处理平台侧的多媒体文件处理方法；或者

所述处理器执行所述程序时实现上述多媒体平台侧的多媒体文件处理方法。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述多媒体处理平台侧的多媒体文件处理方法中的步骤；或者

该程序被处理器执行时实现上述多媒体平台侧的多媒体文件处理方法中的步骤。

本发明的上述技术方案的有益效果如下：

上述方案中，所述多媒体文件处理方法通过获取源多媒体文件的特征信息；根据所述特征信息，确定与所述源多媒体文件对应的候选多媒体文件的集合；在所述集合中存在与所述源多媒体文件之间的匹配度大于第一阈值的候选多媒体文件的情况下，对所述源多媒体文件进行预设处理；能够识别出是否存在与源多媒体文件之间匹配度大于第一阈值的已存储的候选多媒体文件，而在存在的情况下，对源多媒体文件进行处理，进而避免无法识别是否存在相同的已存储的多媒体文件，而导致的存储多份较为相似的多媒体文件，从而节省存储资源。

附图说明

图1为本发明实施例的多媒体文件处理方法流程示意图一；

图2为本发明实施例的多媒体文件处理方法流程示意图二；

图3为本发明实施例的多媒体文件处理方法实现框架示意图；

图4为本发明实施例的多媒体文件处理方法具体应用流程示意图；

图5为本发明实施例的多媒体文件处理装置结构示意图一；

图6为本发明实施例的多媒体文件处理装置结构示意图二。

具体实施方式

为了便于理解本发明实施例，首先对视频彩铃和彩铃进行说明。

1)从功能范围的角度来说，视频彩铃和彩铃的功能范围是包含关系。具体的，视频彩铃是彩铃的升级，除了可以满足彩铃的所有功能之外，还可以支持视频的播放等。

2)从技术支撑的角度来说，视频彩铃和彩铃的技术支撑是不一样的。在主叫端寻呼被叫端的过程中，相比于彩铃的信令流程，视频彩铃的信令流程中至少增加了媒体资源能力协商和资源预留这两个过程。

3)从终端支撑的角度来说，视频彩铃的播放要求相应终端支持视频播放的能力，而彩铃的播放仅要求相应终端支持音频播放的能力即可。

4)从核心网承载的角度来说，视频彩铃可以分配带宽为974Kbps的视频承载以及带宽为146Kbps的音频承载；而彩铃仅分配了带宽为146Kbps的音频承载。

综上可知，视频彩铃可以满足彩铃的所有要求，但是彩铃无法满足视频彩铃的所有要求。

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的技术中无法识别是否存在相同的已存储的多媒体文件，导致多媒体相关平台存储有大量重复的多媒体文件，浪费存储资源的问题，提供一种多媒体文件处理方法，应用于多媒体处理平台，如图1所示，包括：

步骤11：获取源多媒体文件的特征信息；

步骤12：根据所述特征信息，确定与所述源多媒体文件对应的候选多媒体文件的集合；

步骤13：在所述集合中存在与所述源多媒体文件之间的匹配度大于第一阈值的候选多媒体文件的情况下，对所述源多媒体文件进行预设处理。

其中，所述集合中存在与所述源多媒体文件之间的匹配度大于第一阈值的候选多媒体文件，也可以理解为所述集合中存在与所述源多媒体文件重复的候选多媒体文件，具体的，多媒体文件重复可以指：文件内容相同，且分辨率相同，但并不以此为限。候选多媒体文件可以是指与源多媒体文件较为相似的多媒体文件。

特征信息是指能够表征所述源多媒体文件的文件特征的信息；第二阈值的取值范围可为：0.6～0.8，但并不以此为限。

本发明实施例提供的所述多媒体文件处理方法通过获取源多媒体文件的特征信息；根据所述特征信息，确定与所述源多媒体文件对应的候选多媒体文件的集合；在所述集合中存在与所述源多媒体文件之间的匹配度大于第一阈值的候选多媒体文件的情况下，对所述源多媒体文件进行预设处理；能够识别出是否存在与源多媒体文件之间匹配度大于第一阈值的已存储的候选多媒体文件，而在存在的情况下，对源多媒体文件进行处理，进而避免无法识别是否存在相同的已存储的多媒体文件，而导致的存储多份较为相似的多媒体文件，从而节省存储资源。

其中，所述源多媒体文件包括源视频彩铃，所述候选多媒体文件包括候选视频彩铃；所述获取源多媒体文件的特征信息，包括：获取所述源视频彩铃的视频长度、视频分辨率以及图像标签。

图像标签可以包括视频彩铃的主要对象的图片；视频彩铃重复是指：视频内容相同，且分辨率相同，但并不以此为限。

具体的，获取所述源视频彩铃的图像标签，包括：获取所述源视频彩铃中各个对象的出现次数；将所述出现次数进行排序；根据排序结果，将大于第二阈值的所述出现次数对应的对象作为目标对象；将所述目标对象的图片，作为所述源视频彩铃的图像标签。关于目标对象的个数可以为正整数n，5≤n≤10。

第二阈值可为0或1等，具体可根据得到的“各个对象的出现次数”进行确定，在此不做限定。

关于“将所述出现次数进行排序”可以具体为：将所述出现次数进行由高到低的排序；“根据排序结果，将大于第二阈值的所述出现次数对应的对象作为目标对象”，可以具体为：根据排序结果，将n个大于第二阈值的所述出现次数对应的对象作为目标对象；更具体的，“根据排序结果，将大于第二阈值的所述出现次数对应的对象作为目标对象”，可以为：根据排序结果，获取排序在前n位的出现次数分别对应的对象，作为目标对象；其中，n的取值范围可为：5≤n≤10。

对应的，所述根据所述特征信息，确定与所述源多媒体文件对应的候选多媒体文件的集合，包括：根据所述视频长度和所述视频分辨率，确定待匹配的视频文件集合；获取所述图像标签的特征向量；根据所述待匹配的视频文件集合和特征向量，确定候选标签特征向量；获取所述特征向量与所述候选标签特征向量之间的相似度；从所述相似度中筛选出大于第三阈值的相似度；根据筛选出的相似度，确定与所述源视频彩铃对应的候选视频彩铃的集合。

候选标签特征向量可以是指与所述图像标签的特征向量较为相近的向量；第三阈值的取值范围可为：0.4～0.6，但并不以此为限。

具体的，所述根据筛选出的相似度，确定与所述源视频彩铃对应的候选视频彩铃的集合，包括：获取筛选出的相似度对应的第一候选标签特征向量；获取所述第一候选标签特征向量对应的视频文件标识信息；根据所述筛选出的相似度，确定各个所述视频文件标识信息对应的各个目标相似度；分别获取各个所述目标相似度与所述图像标签的个数之间的比值；从所述比值中筛选大于第四阈值的比值；根据筛选出的所述比值对应的目标相似度，确定目标视频文件标识信息；根据所述目标视频文件标识信息，得到与所述源视频彩铃对应的候选视频彩铃的集合。

这样能够得到与所述源视频彩铃更为相似的候选视频彩铃。第四阈值的取值范围可为：0.4～0.6，但并不以此为限。

考虑到与源视频彩铃的图像标签的特征向量进行匹配的多个候选标签特征向量，可能属于同一个候选视频彩铃；本发明实施例中，所述根据所述筛选出的相似度，确定各个所述视频文件标识信息对应的各个目标相似度，包括：在同一个所述视频文件标识信息对应一个所述筛选出的相似度的情况下，将所述视频文件标识信息对应的所述筛选出的相似度，作为所述视频文件标识信息对应的目标相似度；在同一个所述视频文件标识信息对应至少两个所述筛选出的相似度的情况下，将所述至少两个所述筛选出的相似度进行累加处理，将累加得到的结果作为所述视频文件标识信息对应的目标相似度。

以上可理解为根据同一个候选视频彩铃对应的所有数量的所述筛选出的相似度，确定该候选视频彩铃的目标相似度。

具体的，所述根据所述待匹配的视频文件集合和特征向量，确定候选标签特征向量，包括：获取所述特征向量的散列值；根据所述散列值定位所述待匹配的视频集合中的桶；获取所述桶中的各个散列值对应的向量；将获取的所述向量，作为候选标签特征向量。

进一步的，在所述集合为非空集合的情况下，在对所述源多媒体文件进行预设处理之前，还包括：将所述源多媒体文件与所述集合中的候选多媒体文件进行匹配，得到所述候选多媒体文件对应的匹配度。

这样能够便于识别是否存在与所述源多媒体文件重复的候选多媒体文件。

为了优化匹配效果，本发明实施例中，所述将所述源多媒体文件与所述集合中的候选多媒体文件进行匹配，包括：在所述集合中的候选视频文件的数量为至少两个的情况下，对所述集合中的候选视频文件进行排序；根据排序结果，将所述源视频文件分别与各个所述候选视频文件进行匹配。

其中，所述对所述集合中的候选视频文件进行排序，可包括：按照各个所述候选视频文件对应的目标相似度由高到低的顺序，对所述集合中的候选视频文件进行排序；但并不以此为限。

本发明实施例中，所述源多媒体文件包括源视频彩铃，所述候选多媒体文件包括候选视频彩铃；所述将所述源多媒体文件与所述集合中的候选多媒体文件进行匹配，得到所述候选多媒体文件对应的匹配度，包括：根据所述源视频彩铃中视频帧的特征值差异，确定源特征帧；将各个所述源特征帧与所述候选视频彩铃的各个特征帧分别进行匹配，得到特征差值；根据所述特征差值，得到所述候选视频彩铃对应的匹配度。

源特征帧可以是指代表所述源多媒体文件的特征帧。

其中的“特征值差异”也可理解为变化幅度，具体的，所述根据所述源视频彩铃中视频帧的特征值差异，确定源特征帧，可包括：根据视频帧的帧内像素个数s以及每个视频帧中各个像素的特征值，获取所述源视频彩铃的每个视频帧的特征值；根据所述特征值，获取所述源视频彩铃中第P帧视频帧与时间点在所述第P帧视频帧之前的各个视频帧之间的特征差异值；在存在特征差异值与s的比值大于第五阈值的情况下，将时间点在所述第P帧视频帧之前的各个视频帧作为一个簇；获取所述簇中差值和最小的视频帧作为所述簇的代表帧，并根据P确定所述代表帧的权重；将所述簇内的视频帧删除；若剩余的所述源视频彩铃的视频帧的数量不为0，则重新对剩余的所述源视频彩铃的视频帧进行排序；返回所述根据所述特征值，获取所述源视频彩铃中第P帧视频帧与时间点在所述第P帧视频帧之前的各个视频帧之间的特征差异值；若剩余的所述源视频彩铃的视频帧的数量为0，则将得到的各个所述代表帧作为源特征帧；其中，P大于或等于2，且小于或等于所述源视频彩铃的视频帧总数量。

第五阈值的取值范围可为：0.25～0.35，但并不以此为限。

本发明实施例中各个视频帧的帧内像素个数s一致。视频帧的差值和可采用如下公式获得：

其中，h(i，j)表示第i帧的第j个像素对应的特征值，获取avg-gray(灰度平均值)＝sum(帧内所有像素的Gray)/s，如果像素Gray值大于或等于avg-gray，则h(i，j)＝1；否则h(i，j)＝0。Q大于或等于1，且小于或等于P-1，且Q与i的取值不同。

考虑到同一视频，不同电视台播放可能植入不同的台标；为了规避台标引入对相同视频判断的影响，本发明实施例中，所述将各个所述源特征帧与所述候选视频彩铃的各个特征帧分别进行匹配，得到特征差值，包括：将所述源特征帧进行分块处理；将所述源特征帧的分块进行筛选处理；获取筛选后的所述源特征帧的各个分块与所述候选视频彩铃的特征帧的对应分块之间的分块特征差值；根据所述分块特征差值，得到所述源特征帧与所述候选视频彩铃的特征帧之间的特征差值。

这样能够提高对相同视频判断的精度。

本发明实施例中，所述将各个所述源特征帧与所述候选视频彩铃的各个特征帧分别进行匹配，得到特征差值，包括：按照滑窗的方式，将所述源特征帧与所述候选视频彩铃的各个特征帧分别进行匹配，得到各个所述源特征帧与所述候选视频彩铃的各个特征帧之间的特征差值；对应的，所述根据所述特征差值，得到所述候选视频彩铃对应的匹配度，包括：获取每一次匹配得到的所述特征差值的总和；根据所述总和、所述源特征帧的数量以及帧内像素数，得到所述候选视频彩铃对应的匹配度。

滑窗的方式可以是指：将源特征帧按照预设顺序排成第一行(或第二行)，将候选视频彩铃的各个特征帧按照预设顺序排成第二行(或第一行)，固定第一行或第二行的位置，每一次匹配完成，滑动一次非固定行(第二行或第一行)的位置，每次滑动一个特征帧的距离，使得两行对齐的特征帧个数增加，直至对齐的特征帧个数达到最大值；初次匹配时可以是第一行的最后一个特征帧与第二行的第一个特征帧对齐，但并不以此为限。

关于“根据所述总和、所述源特征帧的数量以及帧内像素数，得到所述候选视频彩铃对应的匹配度”，可采用如下公式实现：

匹配度＝1-(所述总和)/(所述源特征帧的数量×帧内像素数)。

具体的，所述对所述源多媒体文件进行预设处理，包括：删除所述源多媒体文件，或者标记所述源多媒体文件为重复文件。针对此种情况，本方案中不再将所述源多媒体文件发生至多媒体平台(比如彩铃平台)。

进一步的，所述的多媒体文件处理方法，还包括：在所述集合中不存在与所述源多媒体文件之间的匹配度大于第一阈值的候选多媒体文件的情况下，存储所述源多媒体文件的相关信息。

其中，所述源多媒体文件包括源视频彩铃；所述相关信息包括以下信息中的至少一种：所述源视频彩铃的视频长度；所述源视频彩铃的视频分辨率；所述源视频彩铃的图像标签；所述源视频彩铃的图像标签的特征向量；所述源视频彩铃的图像标签的特征向量对应的散列值；所述源视频彩铃的视频文件标识信息；所述源视频彩铃的特征帧；以及所述源视频彩铃的特征帧的分块。

更具体的，本发明实施例中，存储所述源视频彩铃，可包括：根据所述源视频彩铃的视频长度和视频分辨率，将所述源视频彩铃的图像标签的特征向量对应的散列值，存入对应的视频集合的桶中；以及存储所述散列值与所述图像标签的特征向量之间的第一对应关系、所述图像标签与所述源视频彩铃的视频文件标识信息之间的第二对应关系、所述源视频彩铃的视频文件标识信息与所述源视频彩铃的特征帧之间的第三对应关系，以及所述源视频彩铃的特征帧与对应分块之间的第四对应关系。

这样能够更新已存储的视频彩铃，便于后续将源视频彩铃作为候选视频彩铃使用。

进一步的，在存储所述源视频彩铃之后，还包括：将所述源视频彩铃和所述终端的标识信息，发送至多媒体平台；以供多媒体平台根据所述源视频彩铃和所述终端的标识信息，给所述终端配置多媒体业务，比如彩铃业务(多媒体平台可对应为彩铃平台)。

标识信息可以包括所述终端的身份信息。

本发明实施例中，所述获取源多媒体文件的特征信息，包括：获取终端上传的源多媒体文件的特征信息；在对所述源多媒体文件进行预设处理之后，还包括：获取所述集合中与所述源多媒体文件之间的匹配度大于第一阈值的候选多媒体文件的标识信息；将所述候选多媒体文件的标识信息和所述终端的标识信息，发送至多媒体平台。

标识信息可以包括所述候选多媒体文件的身份信息和终端的身份信息。

这样能够不再向多媒体平台发送存在重复文件的源多媒体文件，而是直接将重复文件的标识信息告知多媒体平台，以供多媒体平台给终端配置业务，节省了传输资源以及多媒体平台的存储资源。其中，多媒体平台可为彩铃平台。

本发明实施例还提供了一种多媒体文件处理方法，应用于多媒体平台，如图2所示，包括：

步骤21：接收多媒体处理平台发送的候选多媒体文件的标识信息和终端的标识信息；

步骤22：根据所述候选多媒体文件的标识信息和所述终端的标识信息，给所述终端配置多媒体业务；

本发明实施例提供的所述多媒体文件处理方法通过接收多媒体处理平台发送的候选多媒体文件的标识信息和终端的标识信息；根据所述候选多媒体文件的标识信息和所述终端的标识信息，给所述终端配置多媒体业务；其中，所述候选多媒体文件的标识信息是所述多媒体处理平台在所述终端上传的源多媒体文件与所述候选多媒体文件之间的匹配度大于第一阈值的情况下发送的；能够避免存储存在较为相似的多媒体文件的源多媒体文件，节省存储资源，并保证后续业务的正常进行，很好的解决了现有技术中无法识别是否存在相同的已存储的多媒体文件，导致多媒体相关平台存储有大量重复的多媒体文件，浪费存储资源的问题。

其中，所述多媒体业务包括彩铃业务；多媒体平台可为彩铃平台。

下面结合多媒体处理平台和多媒体平台等多侧对本发明实施例提供的所述多媒体文件处理方法进行进一步说明，其中，多媒体处理平台以中央音乐平台为例，多媒体平台以彩铃平台为例，多媒体文件以视频彩铃为例。

针对上述技术问题，本发明实施例提供了一种多媒体文件处理方法，能够解决视频彩铃(视频文件)重复的问题。视频彩铃重复是指：视频内容相同，且分辨率相同。

本发明实施例提供的方案，如图3所示，整体可包括：

步骤31：用户(即上述终端)上传视频彩铃到中央音乐平台；

用户可通过DIY方式上传视频彩铃。视频彩铃由于是拨打电话等待时进行播放，因此一般不会太长，假定最长为2分钟。

步骤32：中央音乐平台对上传视频文件进行去重处理(即视频彩铃去重)，并保存。

视频彩铃去重分为：候选视频集选择；视频匹配；以及视频保存。

步骤33：中央音乐平台同步视频彩铃到彩铃平台。

其中，关于视频彩铃去重，具体可如图4所示，涉及以下内容：

1、视频预处理

具体可利用ffprobe查看媒体描述信息，获得当前视频(源视频，用户上传的视频)的长度、分辨率。视频彩铃通常为短视频，一般都是秒级；分辨率通常是480P、720P、1080P，也可为2K等。

2、候选视频集选择

可根据源视频信息(包括但不限于视频长度、分辨率)从已存储的视频中提取可能匹配的视频集合，构成候选视频集。

如果候选视频集为空，则跳转保存步骤，直接对源视频进行存储。

3、视频匹配

从候选视频集里顺序选择一个视频与源视频进行匹配，如果匹配成功，则认为视频重复，结束处理；如果匹配失败并且还有候选视频，选择下一个候选视频继续进行匹配。

4、视频保存

当源视频与所有候选视频都匹配失败时，将源视频作为新的视频保存到系统。

具体的，关于候选视频集选择：

1、图像标签提取

可利用人工智能算法识别出对象形状，跟踪对象移动统计出对象在源视频的所有帧中出现的次数。

从所有识别的对象中提取出现次数最大的n个对象(例如n为5)的图片，调整统一尺寸(如128×128)，作为源视频的图像标签，也称为源图像标签。

2、图像标签匹配

相同内容不同分辨率的视频彩铃认为是不重复的视频彩铃，而且视频彩铃都是短视频，所以系统可为每个分辨率按照视频长度维护57个图像标签集合。集合可定义如：4以下、5～6、6～7、7～8、…、59～60、60以上，顺序从1编号。

每个集合都包含若干个桶(也可理解为队列，用于存储)，每个桶对应着若干hash(散列)值，每个hash值最少包含一个图像标签，每个图像标签都维护与视频ID(标识)的关系。

(1)计算每个图像标签对应的特征值

源图像标签灰化。彩色图像转化为灰度图像，使用如下公式计算源图像标签特征值，公式为：

灰度值Gray＝R(红色像素值)×0.299+G(绿色像素值)×0.587+B(蓝色像素值)×0.114；

可采用DCT(离散余弦变换)算法对灰度化后的图像进行计算，获得系数矩阵，然后进行量化，使得矩阵右下方系数为0，按照zigbig的顺序从左上方扫描前m个系数(m取值范围可为：32～128)，构成一个m维的变量：标签特征向量(a₁,a₂,…,a_m)。如m为128。源图像标签的特征向量称为源标签特征向量。

(2)按照视频长度确定待匹配的集合(可选取编号一样的集合作为待匹配的集合)。假定视频长度为r秒，可按照如下规则确定视频所属集合的编号：

如果r≤60并且为整数，则所属集合编号为：max(r-3，1)；max(r-4，1)；

如果r＜60并且r＝(下取整(r)+上取整(r))/2，则所属集合编号为：max(下取整(r)-3，1)；

如果r＜60并且r＞(下取整(r)+上取整(r))/2，则所属集合编号为两个：max(下取整(r)-3,1)，max(上取整(r)-3,1)；

如果r＜60并且r＜(下取整(r)+上取整(r))/2，则所属集合编号为两个：max(下取整(r)-3,1)，max(下取整(r)-4,1)；

如果r＞60并且r＜60.5，则所属集合编号为：56、57；

如果r≥60.5，则所属集合编号为57。

(3)顺序匹配选择的集合

对每个源标签特征向量可采用局部敏感哈希(LSH)计算hash值，根据hash值定位到桶(桶为存储对象的容器)。LSH能够以一定概率保证近似的向量映射到相同的桶里。

每个桶顺序包含多个候选标签特征向量(b₁,b₂,…,b_m)，这些特征向量的LSH哈希值确保都落到这个桶。每个候选标签特征向量和源图像标签特征向量进行相似度计算。

Sim(标签特征向量，候选特征向量)＝cosθ＝(a₁b₁+a₂b₂+…+a_mb_m)/(sqrt((a₁ ²+a₂ ²+…+a_m ²))×sqrt(b₁ ²+b₂ ²+…+b_m ²))。

取值，Sim(标签特征向量，候选特征向量)表示标签特征向量与候选特征向量之间的相似度；

对应于相似度大于α的候选特征向量认为满足需求(α的取值范围可为0.4～0.6)。相似度一定不大于1，可假定α取值0.6。

(4)生成候选视频集合

为每个满足相似度的候选特征向量查找对应的视频ID，系统临时生成源图像标签与候选视频的对应关系(源图像标签ID，视频文件ID，相似度)。同一个源图像标签，可能包含多条(源图像标签ID，视频文件ID，相似度)记录，视频文件ID不同。

收集集合下所有源图像标签与候选视频的对应关系，累计相同候选视频的相似度(将同一候选视频图像标签对应的相似度相加)，系统生成源视频与候选视频的对应关系(源视频，视频文件ID1，相似度；视频文件ID2，相似度…)。

筛选相似度高的候选视频集合，按照相似度从高到低顺序生成候选视频集合(视频文件ID1，视频文件ID2…)。筛选标准可为：相似度/源图像标签个数>门限值(门限值的取值范围可为0.4～0.6)，可假定门限值为0.5。

如果候选视频集合为空，则认为图像标签匹配失败，也就是说视频不重复。

关于视频匹配：

1、特征帧提取

考虑到相同的视频内容，但是不同人转码时选择的GOP(图像组)可能不同，这也就意味着关键帧不同，所以这种情况下不能直接采用关键帧作为特征帧。

本发明实施例中可根据源视频的前后视频帧的变化幅度(即上述特征值差异)来提取源特征帧(其中，候选视频的特征帧已存储在系统中)；

顺序读取视频帧：

(1)对帧的像素进行灰化处理。

Gray＝R×0.299+G×0.587+B×0.114；

(2)计算每帧的特征值。

假设帧内像素个数均为s。计算avg-gray(灰度平均值)＝sum(帧内所有像素的Gray)/s，h(i，j)表示第i帧的第j个像素对应的特征值，如果像素Gray值大于等于avg-gray，则h(i，j)＝1；否则h(i，j)＝0。

(3)假定当前为第P帧，计算与前面每个帧的特征差值(即上述特征差异值)。

Diff(P，Q)为第P帧和Q帧的特征差值。s表示一帧的像素个数。

如果Diff(P，Q)/(s)大于阈值(可定义，该阈值的取值范围可为0.25～0.35)，则把前P-1个帧作为一个cluster(簇)。cluster里的帧Q的差值和为计算这个cluster里差值之和最小的帧，作为这个cluster的特征帧(即上述代表帧)，并设置权重(影响因子)为P-1(代表P-1个帧的分量)；

删掉前P-1个帧，第P+1个帧继续处理，直到所有到结束。

执行如上步骤，获得源视频的特征帧集合(帧1，权重1；帧2，权重2；…)。

2、特征帧匹配

同一视频，不同电视台播放可能植入不同的台标。为了规避台标引入对相同视频判断的影响，本发明实施例中对视频帧进行分块，只取部分块进行比较。

具体可把视频分为9个区块，从左到右从上到下从1顺序编码到9。从源视频的特征帧和候选视频的特征帧中取编号为2、4、5、6和8的区块，对应进行相似度匹配(相同编号的进行匹配)。相似度匹配流程可采用上述Diff算法，进行类似处理，在此不再赘述。

汇总区块差作为帧差异：帧差异＝sum(区块差异×权重)。不同区块权重可以不同(可以设置中心区域的区块权重高一些)，如编号为2、4、5、6和8的区块对应的权重分别为15、15、40、15和15。帧差异可理解为源视频的特征帧和候选视频的特征帧之间的相似度。

由于源视频和候选视频的长度可能稍微不同，所以二者的特征帧不一定能够完全对齐。假定源视频特征帧数量为T，候选视频特征帧数量为Z，本发明需要进行T+Z-1次匹配。第一次匹配：源视频的第T个特征帧与候选视频的第一个特征帧对齐，后续特征帧顺序匹配；第二次匹配：源视频的第T个特征帧与候选视频的第二个特征对齐；第T+Z-1次匹配：源视频的第一个特征帧与候选视频的第Z个帧对齐(即采用上述滑窗的方式进行的特征帧匹配)。

统计每次匹配(一次匹配可匹配至少一组特征帧)的所有特征帧的Diff和，每次匹配对应的相似度＝1-(Diff和)/(T×帧内像素数s)。

当存在相似度大于门限(门限的取值范围可为0.6～0.8)时，认为源视频和候选视频重复，可假定门限为0.75。

本发明实施例中，提供另一种匹配方式：也可以直接将源视频的第一个特征帧与候选视频的所有特征帧分别进行比较，得到一组特征差值；再将源视频的第二个特征帧与候选视频的所有特征帧分别进行比较，得到一组特征差值，···，直至源视频的所有特征帧比较完毕；获取所有源特征帧对应的特征差值最大值(每一组特征差值中的最大值)，进行求和，得到的结果作为Diff和；采用公式：源视频与候选视频之间的相似度＝1-(Diff和)/(T×帧内像素数s)，T表示源视频特征帧的数量。

关于视频保存：

当源视频与候选视频都不重复时，对源视频进行以下存储操作：

1、自动生成视频ID，保存源视频到媒资系统。

2、插入源图像标签特征向量到图像标签集合。根据长度和分辨率，定位到图像标签集合；采用局部敏感哈希(LSH)计算源标签特征向量对应的hash值，根据hash值定位到桶。插入源标签特征向量和hash值到桶，并且维护源图像标签特征向量与视频ID的对应关系。

3、生成视频特征帧信息，系统维护对应关系(视频ID，特征帧1(块2、4、5、6、8)，特征帧2…)。

由上可知，本发明实施例提供的方案能够避免多媒体相关平台存储有大量重复的多媒体文件，解决浪费存储资源的问题。

本发明实施例还提供了一种多媒体文件处理装置，应用于多媒体处理平台，如图5所示，包括：

第一获取模块51，用于获取源多媒体文件的特征信息；

第一确定模块52，用于根据所述特征信息，确定与所述源多媒体文件对应的候选多媒体文件的集合；

第一处理模块53，用于在所述集合中存在与所述源多媒体文件之间的匹配度大于第一阈值的候选多媒体文件的情况下，对所述源多媒体文件进行预设处理。

本发明实施例提供的所述多媒体文件处理装置通过获取源多媒体文件的特征信息；根据所述特征信息，确定与所述源多媒体文件对应的候选多媒体文件的集合；在所述集合中存在与所述源多媒体文件之间的匹配度大于第一阈值的候选多媒体文件的情况下，对所述源多媒体文件进行预设处理；能够识别出是否存在与源多媒体文件之间匹配度大于第一阈值的已存储的候选多媒体文件，而在存在的情况下，对源多媒体文件进行处理，进而避免无法识别是否存在相同的已存储的多媒体文件，而导致的存储多份较为相似的多媒体文件，从而节省存储资源。

其中，所述源多媒体文件包括源视频彩铃，所述候选多媒体文件包括候选视频彩铃；所述第一获取模块，包括：第一获取子模块，用于获取所述源视频彩铃的视频长度、视频分辨率以及图像标签。

具体的，所述第一获取子模块，包括：第一获取单元，用于获取所述源视频彩铃中各个对象的出现次数；第一排序单元，用于将所述出现次数进行排序；第一处理单元，用于根据排序结果，将大于第二阈值的所述出现次数对应的对象作为目标对象；第二处理单元，用于将所述目标对象的图片，作为所述源视频彩铃的图像标签。

对应的，所述第一确定模块，包括：第一确定子模块，用于根据所述视频长度和所述视频分辨率，确定待匹配的视频文件集合；第二获取子模块，用于获取所述图像标签的特征向量；第二确定子模块，用于根据所述待匹配的视频文件集合和特征向量，确定候选标签特征向量；第三获取子模块，用于获取所述特征向量与所述候选标签特征向量之间的相似度；第一筛选子模块，用于从所述相似度中筛选出大于第三阈值的相似度；第三确定子模块，用于根据筛选出的相似度，确定与所述源视频彩铃对应的候选视频彩铃的集合。

具体的，所述第三确定子模块，包括：第二获取单元，用于获取筛选出的相似度对应的第一候选标签特征向量；第三获取单元，用于获取所述第一候选标签特征向量对应的视频文件标识信息；第一确定单元，用于根据所述筛选出的相似度，确定各个所述视频文件标识信息对应的各个目标相似度；第四获取单元，用于分别获取各个所述目标相似度与所述图像标签的个数之间的比值；第一筛选单元，用于从所述比值中筛选大于第四阈值的比值；第二确定单元，用于根据筛选出的所述比值对应的目标相似度，确定目标视频文件标识信息；第三处理单元，用于根据所述目标视频文件标识信息，得到与所述源视频彩铃对应的候选视频彩铃的集合。

考虑到与源视频彩铃的图像标签的特征向量进行匹配的多个候选标签特征向量，可能属于同一个候选视频彩铃；本发明实施例中，所述第一确定单元，具体用于：在同一个所述视频文件标识信息对应一个所述筛选出的相似度的情况下，将所述视频文件标识信息对应的所述筛选出的相似度，作为所述视频文件标识信息对应的目标相似度；在同一个所述视频文件标识信息对应至少两个所述筛选出的相似度的情况下，将所述至少两个所述筛选出的相似度进行累加处理，将累加得到的结果作为所述视频文件标识信息对应的目标相似度。

进一步的，在所述集合为非空集合的情况下，所述的多媒体文件处理装置，还包括：第一匹配模块，用于在对所述源多媒体文件进行预设处理之前，将所述源多媒体文件与所述集合中的候选多媒体文件进行匹配，得到所述候选多媒体文件对应的匹配度。

本发明实施例中，所述源多媒体文件包括源视频彩铃，所述候选多媒体文件包括候选视频彩铃；所述第一匹配模块，包括：第四确定子模块，用于根据所述源视频彩铃中视频帧的特征值差异，确定源特征帧；第一匹配子模块，用于将各个所述源特征帧与所述候选视频彩铃的各个特征帧分别进行匹配，得到特征差值；第一处理子模块，用于根据所述特征差值，得到所述候选视频彩铃对应的匹配度。

考虑到同一视频，不同电视台播放可能植入不同的台标；为了规避台标引入对相同视频判断的影响，本发明实施例中，所述第一匹配子模块，包括：第四处理单元，用于将所述源特征帧进行分块处理；第二筛选单元，用于将所述源特征帧的分块进行筛选处理；第五获取单元，用于获取筛选后的所述源特征帧的各个分块与所述候选视频彩铃的特征帧的对应分块之间的分块特征差值；第五处理单元，用于根据所述分块特征差值，得到所述源特征帧与所述候选视频彩铃的特征帧之间的特征差值。

本发明实施例中，所述第一匹配子模块，包括：第一匹配单元，用于按照滑窗的方式，将所述源特征帧与所述候选视频彩铃的各个特征帧分别进行匹配，得到各个所述源特征帧与所述候选视频彩铃的各个特征帧之间的特征差值；

对应的，所述第一处理子模块，包括：第六获取单元，用于获取每一次匹配得到的所述特征差值的总和；第六处理单元，用于根据所述总和、所述源特征帧的数量以及帧内像素数，得到所述候选视频彩铃对应的匹配度。

进一步的，所述的多媒体文件处理装置，还包括：第一存储模块，用于在所述集合中不存在与所述源多媒体文件之间的匹配度大于第一阈值的候选多媒体文件的情况下，存储所述源多媒体文件的相关信息。

本发明实施例中，所述第一获取模块，包括：第四获取子模块，用于获取终端上传的源多媒体文件的特征信息；多媒体文件处理装置还包括：第二获取模块，用于在对所述源多媒体文件进行预设处理之后，获取所述集合中与所述源多媒体文件之间的匹配度大于第一阈值的候选多媒体文件的标识信息；第一发送模块，用于将所述候选多媒体文件的标识信息和所述终端的标识信息，发送至多媒体平台。

其中，上述多媒体处理平台侧的多媒体文件处理方法的所述实现实施例均适用于该多媒体文件处理装置的实施例中，也能达到相同的技术效果。

本发明实施例还提供了一种多媒体文件处理装置，应用于多媒体平台，如图6所示，包括：

第一接收模块61，用于接收多媒体处理平台发送的候选多媒体文件的标识信息和终端的标识信息；

第一配置模块62，用于根据所述候选多媒体文件的标识信息和所述终端的标识信息，给所述终端配置多媒体业务；

本发明实施例提供的所述多媒体文件处理装置通过接收多媒体处理平台发送的候选多媒体文件的标识信息和终端的标识信息；根据所述候选多媒体文件的标识信息和所述终端的标识信息，给所述终端配置多媒体业务；其中，所述候选多媒体文件的标识信息是所述多媒体处理平台在所述终端上传的源多媒体文件与所述候选多媒体文件之间的匹配度大于第一阈值的情况下发送的；能够避免存储存在较为相似的多媒体文件的源多媒体文件，节省存储资源，并保证后续业务的正常进行，很好的解决了现有技术中无法识别是否存在相同的已存储的多媒体文件，导致多媒体相关平台存储有大量重复的多媒体文件，浪费存储资源的问题。

其中，上述多媒体平台侧的多媒体文件处理方法的所述实现实施例均适用于该多媒体文件处理装置的实施例中，也能达到相同的技术效果。

其中，上述多媒体处理平台侧或多媒体平台侧的多媒体文件处理方法的所述实现实施例均适用于该通信设备的实施例中，也能达到对应相同的技术效果。

其中，上述多媒体文件处理方法的所述实现实施例均适用于该计算机可读存储介质的实施例中，也能达到对应相同的技术效果。

需要说明的是，此说明书中所描述的许多功能部件都被称为模块/子模块/单元，以便更加特别地强调其实现方式的独立性。

本发明实施例中，模块/子模块/单元可以用软件实现，以便由各种类型的处理器执行。举例来说，一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块，举例来说，其可以被构建为对象、过程或函数。尽管如此，所标识模块的可执行代码无需物理地位于一起，而是可以包括存储在不同位里上的不同的指令，当这些指令逻辑上结合在一起时，其构成模块并且实现该模块的规定目的。

实际上，可执行代码模块可以是单条指令或者是许多条指令，并且甚至可以分布在多个不同的代码段上，分布在不同程序当中，以及跨越多个存储器设备分布。同样地，操作数据可以在模块内被识别，并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集，或者可以分布在不同位置上(包括在不同存储设备上)，并且至少部分地可以仅作为电子信号存在于系统或网络上。

在模块可以利用软件实现时，考虑到现有硬件工艺的水平，所以可以以软件实现的模块，在不考虑成本的情况下，本领域技术人员都可以搭建对应的硬件电路来实现对应的功能，所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备，诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。

以上所述的是本发明的优选实施方式，应当指出对于本技术领域的普通人员来说，在不脱离本发明所述原理前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种多媒体文件处理方法，应用于多媒体处理平台，其特征在于，包括：

获取源多媒体文件的特征信息；

2.根据权利要求1所述的多媒体文件处理方法，其特征在于，所述源多媒体文件包括源视频彩铃，所述候选多媒体文件包括候选视频彩铃；

所述获取源多媒体文件的特征信息，包括：

3.根据权利要求2所述的多媒体文件处理方法，其特征在于，获取所述源视频彩铃的图像标签，包括：

获取所述源视频彩铃中各个对象的出现次数；

将所述出现次数进行排序；

将所述目标对象的图片，作为所述源视频彩铃的图像标签。

4.根据权利要求2所述的多媒体文件处理方法，其特征在于，所述根据所述特征信息，确定与所述源多媒体文件对应的候选多媒体文件的集合，包括：

获取所述图像标签的特征向量；

获取所述特征向量与所述候选标签特征向量之间的相似度；

从所述相似度中筛选出大于第三阈值的相似度；

5.根据权利要求4所述的多媒体文件处理方法，其特征在于，所述根据筛选出的相似度，确定与所述源视频彩铃对应的候选视频彩铃的集合，包括：

获取筛选出的相似度对应的第一候选标签特征向量；

获取所述第一候选标签特征向量对应的视频文件标识信息；

从所述比值中筛选大于第四阈值的比值；

6.根据权利要求5所述的多媒体文件处理方法，其特征在于，所述根据所述筛选出的相似度，确定各个所述视频文件标识信息对应的各个目标相似度，包括：

7.根据权利要求1所述的多媒体文件处理方法，其特征在于，在所述集合为非空集合的情况下，在对所述源多媒体文件进行预设处理之前，还包括：

8.根据权利要求7所述的多媒体文件处理方法，其特征在于，所述源多媒体文件包括源视频彩铃，所述候选多媒体文件包括候选视频彩铃；

根据所述特征差值，得到所述候选视频彩铃对应的匹配度。

9.根据权利要求8所述的多媒体文件处理方法，其特征在于，所述将各个所述源特征帧与所述候选视频彩铃的各个特征帧分别进行匹配，得到特征差值，包括：

将所述源特征帧进行分块处理；

将所述源特征帧的分块进行筛选处理；

10.根据权利要求8所述的多媒体文件处理方法，其特征在于，所述将各个所述源特征帧与所述候选视频彩铃的各个特征帧分别进行匹配，得到特征差值，包括：

获取每一次匹配得到的所述特征差值的总和；

11.根据权利要求1所述的多媒体文件处理方法，其特征在于，还包括：

12.根据权利要求1所述的多媒体文件处理方法，其特征在于，所述获取源多媒体文件的特征信息，包括：

获取终端上传的源多媒体文件的特征信息；

在对所述源多媒体文件进行预设处理之后，还包括：

13.一种多媒体文件处理方法，应用于多媒体平台，其特征在于，包括：

14.一种通信设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其特征在于，所述处理器执行所述程序时实现如权利要求1至12中任一项所述的多媒体文件处理方法；或者

所述处理器执行所述程序时实现如权利要求13所述的多媒体文件处理方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至12中任一项所述的多媒体文件处理方法中的步骤；或者

该程序被处理器执行时实现如权利要求13所述的多媒体文件处理方法中的步骤。