CN111888765A

CN111888765A - 多媒体文件的处理方法、装置、设备及介质

Info

Publication number: CN111888765A
Application number: CN202010721811.6A
Authority: CN
Inventors: 张鹏; 严明; 肖央; 程文昕; 王泽尧
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2020-11-06
Anticipated expiration: 2040-07-24
Also published as: CN111888765B

Abstract

本申请提供一种多媒体文件的处理方法、装置、设备及介质，涉及音频处理技术领域，该方法包括：获取第一多媒体文件，以及第二多媒体文件；其中，第一多媒体文件包括第一音频文件，第二多媒体文件包括第二音频文件，第二音频文件是将目标音频文件叠加到第一音频文件形成的；确定第二音频文件的目标区间以及第一音频文件的参考区间，其中，第二音频文件的目标区间为第一音频文件与目标音频文件叠加位置所对应的区间，第一音频文件的参考区间为与第二音频文件的目标区间对应的区间；确定第二音频文件的目标区间和第一音频文件的参考区间之间的音频差异度；根据音频差异度对第二音频文件进行调整。

Description

多媒体文件的处理方法、装置、设备及介质

技术领域

本申请涉及计算机技术领域，尤其涉及音频技术领域，提供一种多媒体文件的处理方法、装置、设备及介质。

背景技术

在制作游戏过程中，通常会为游戏配置背景音频，在游戏进行到关键环节，会为游戏增加一些特殊音效，以提高游戏的趣味性。但在前期制作游戏时，如何量化游戏的背景音频与增加特殊音效后的音乐之间的差异是亟需解决的技术问题。

发明内容

本申请实施例提供一种多媒体文件的处理方法、装置、设备和介质，用于量化音频之间的差异。

一方面，提供一种多媒体文件的处理方法，包括：

获取第一多媒体文件，以及第二多媒体文件；其中，所述第一多媒体文件包括第一音频文件，所述第二多媒体文件包括第二音频文件，所述第二音频文件是将目标音频文件叠加到所述第一音频文件形成的；

确定所述第二音频文件的目标区间以及第一音频文件的参考区间，其中，所述第二音频文件的目标区间为所述第一音频文件与所述目标音频文件叠加位置所对应的区间，所述第一音频文件的参考区间为与所述第二音频文件的目标区间对应的区间；

确定所述第二音频文件的目标区间和所述第一音频文件的参考区间之间的音频差异度；

根据所述音频差异度对所述第二音频文件进行调整。

在本申请实施例中，提供一种多媒体文件的处理装置，包括：

获取模块，用于获取第一多媒体文件，以及第二多媒体文件；其中，所述第一多媒体文件包括第一音频文件，所述第二多媒体文件包括第二音频文件，所述第二音频文件是将目标音频文件叠加到所述第一音频文件形成的；

第一确定模块，用于确定所述第二音频文件的目标区间以及第一音频文件的参考区间，其中，所述第二音频文件的目标区间为所述第一音频文件与所述目标音频文件叠加位置所对应的区间，所述第一音频文件的参考区间为与所述第二音频文件的目标区间对应的区间；

第二确定模块，用于确定所述第二音频文件的目标区间和所述第一音频文件的参考区间之间的音频差异度；

调整模块，用于根据所述音频差异度对所述第二音频文件进行调整。

在一种可能的实施例中，所述第一多媒体文件和第二多媒体文件分别为目标游戏文件的子文件，所述第一多媒体文件在所述参考区间中具有的第一游戏事件，以及，所述第二多媒体文件在所述目标区间具有第二游戏事件；其中，所述第一游戏事件和所述第二游戏事件为针对目标游戏角色进行目标操作触发的不同游戏事件。

在一种可能的实施例中，所述第一游戏事件为根据针对游戏角色技能的释放操作触发的技能未命中对象事件，所述第二游戏事件为根据针对游戏角色技能的释放操作触发的技能命中对象事件。

在一种可能的实施例中，所述第一确定模块具体用于：

对齐所述第一音频文件中各帧与所述第二音频文件中各帧；

按照对齐后的第一音频文件和第二音频文件，逐帧比对所述第一音频文件中各帧和所述第二音频文件中对应帧的短时能量的大小，并累计比对的多帧中第二音频文件中短时能量大于第一音频文件中对应帧的短时能量的目标帧的数量；

若所述数量与所述多帧的总数比值大于或等于第一阈值，且所述数量大于第二阈值，则将所述多帧在所述第二音频文件的区间确定为目标区间。

在一种可能的实施例中，所述第一确定模块具体用于：

检测所述第一音频文件的音频端点，以及检测所述第二音频文件的音频端点；其中，所述音频端点包括音频起始点和音频结束点；

将所述第一音频文件的音频起始点与所述第二音频文件的音频起始点对应，并将所述第一音频文件的音频结束点与所述第二音频文件的音频结束点对应。

在一种可能的实施例中，所述音频端点通过如下方式获得的：

依次确定音频文件中各帧的短时能量，将第一个短时能量大于第三阈值的帧确定为第一参考点，将最后一个短时能量大于第三阈值的帧确定为第二参考点；以及，

依次确定音频文件中各帧的短时过零率，将第一个短时过零率大于第四阈值的帧确定为第三参考点，将最后一个短时能量大于第四阈值的帧确定为第四参考点；

确定所述第一参考点和所述第二参考点之间的区间，与所述第三参考点和所述第四参考点之间的区间的交集区间，将交集区间所在的端点为音频文件的音频端点。

在一种可能的实施例中，所述第二确定模块具体用于：

提取所述参考区间各帧的特征向量，以及提及所述目标区间各帧的特征向量；

确定所述目标区间各帧的特征向量与所述参考区间中的对应帧的特征向量之间的距离，并将确定出的距离确定为音频差异度。

在一种可能的实施例中，所述特征向量通过如下方式获得的：

对区间对应的音频文件片段依次进行预加重处理和分帧处理，获得多个帧；

对所述多个帧中每帧进行加窗处理、傅里叶变换和梅尔滤波处理；

对梅尔滤波处理结果进行离散余弦变换，获得区间中每帧的特征向量。

在一种可能的实施例中，所述音频差异度包括所述目标区间中每一帧与所述参考区间中对应帧的音频差异度，所述调整模块具体用于：

若所述目标区间与所述参考区间的最大音频差异度小于第五阈值，则确定对所述第二音频文件进行调整。

在本申请实施例中，提供一种计算机设备，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现如一方面中任一项所述的方法。

在本申请实施例中，提供一种存储介质，所述存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如一方面中任一项所述的方法。

由于本申请实施例采用上述技术方案，至少具有如下技术效果：

本申请实施例中获取需要进行测试的第一多媒体文件和第二多媒体文件，提取第一多媒体文件中的第一音频文件，以及提取第二多媒体文件中的第二音频文件，检测出第二音频文件中第一音频文件与目标音频叠加位置对应的目标区间，以及第一多媒体文件的参考区间，对参考区间和目标区间中各帧分别进行特征分析，根据参考区间中各帧的特征，以及目标区间中各帧的特征，获得参考区间和目标区间之间的音频差异分析结果，如此一来，实现了对两个音频文件之间的差异度的量化，为后续调整音频文件提供准确的数据基础。且，本申请实施例中的第二音频文件是由第一音频文件和目标音频文件叠加得到的，因此本申请实施例中检测出第二音频文件中对应的叠加部分，能够避免其它非叠加部分产生的干扰，有利于更准确地分析出第一音频文件和第二音频文件间的差异。且，能够直观快速地为用户呈现音频之间的差异，提升用户体验。

附图说明

图1为本申请实施例提供的一种多媒体文件处理设备的结构示意图；

图2为本申请实施例提供的一种多媒体文件的处理方法的应用场景示意图；

图3为本申请实施例提供的一种处理多媒体文件的原理图；

图4为本申请实施例提供的一种检测音频端点的流程示意图；

图5为本申请实施例提供的一种音频文件的音效短时能量的曲线图；

图6为本申请实施例提供的一种检测音频端点的流程示意图；

图7为本申请实施例提供的未对齐第一音频文件和第二音频文件的示意图；

图8为本申请实施例提供的图7中对齐后的示意图；

图9为本申请实施例提供的一种检测目标区间的流程示意图；

图10为本申请实施例提供的技能命中音效和技能未命中音效的能量谱示意图；

图11为本申请实施例提供的技能命中音效和技能未命中音效的能量谱示意图；

图12为本申请实施例提供的一种提取音频文件的音频特征的过程示例图；

图13为本申请实施例提供的一种多媒体文件的处理方法的流程图；

图14为本申请实施例提供的一种分析界面的示例图；

图15为本申请实施例提供的一种显示音频差异度的界面示例图；

图16为本申请实施例提供的一种终端和服务器之间的交互示意图；

图17为本申请实施例提供的一种多媒体文件的处理方法的流程图；

图18为本申请实施例提供的一种多媒体文件的处理装置的结构示意图；

图19为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了更好的理解本申请实施例提供的技术方案，下面将结合说明书附图以及具体的实施方式进行详细的说明。

为了便于本领域技术人员更好地理解本申请的技术方案，下面对本申请涉及的名词进行介绍。

1、多媒体文件：泛指用于交互式资讯交流和传播的媒体相关的文件，多媒体包括图像、音频和视频中的一种或多种的组合。本申请实施例中的多媒体文件可以理解为根据音频文件在音频使用场景下产生的待测试文件。音频使用场景是指音频具体应用的场景，比如音频运用在游戏。本申请实施例中的多媒体文件包括第一多媒体文件和第二多媒体文件。第一多媒体文件是指利用第一音频文件在音频使用场景下生成的测试文件，第二多媒体文件是指利用第二音频文件在音频使用场景下生成的测试文件。例如，第一多媒体文件可以是采用第一音频文件生成的音视频文件，该音视频文件包括第一视频文件和与第一视频文件相关的第一音频文件，相关可以理解为视频文件与音频文件在时间上是同步的。第二多媒体文件可以是采用第二音频文件生成的音视频文件，该音视频文件包括第二视频文件和与第二视频文件相关的第二音频文件。

2、第一音频文件：是指在音频使用场景下使用的音频文件，比如游戏中游戏角色的背景音乐、或游戏的背景音乐、或游戏角色释放技能的背景音乐等。

3、第二音频文件：利用第一音频文件和目标音频文件叠加生成的音频文件。目标音频文件的类型可以是任意的，比如可以特殊音效等。目标音频文件的时长可以小于第一音频文件的时长。目标音频文件可以是一个或多个，当目标音频文件包括多个时，可以存在不相同的两个目标音频文件。

4、区间：本申请中的区间泛指音频文件中部分或全部音频对应的区间，比如音频文件包括1帧、2帧、3帧...n帧，该音频文件的一个区间是指从1帧到3帧。参考区间是指第一音频文件中对应与目标音频文件相叠加的音频，如果目标音频文件与第一音频文件在多个不连续的部分叠加，那么存在多个参考区间。目标区间是指第二音频文件中由第一音频文件和目标音频文件叠加产生的区间。参考区间和目标区间是数量是相对应的，当第一音频文件包括多个参考区间时，第二音频文件对应包括多个目标区间。每个参考区间与其对应的目标区间的时长也是相同的。例如，第一音频文件和目标音频文件在ab叠加，形成第二音频文件，那么第一音频文件中ab对应的音频所在的位置视为参考区间，第二音频文件中与参考区间对应的区间为目标区间。

5、音视频文件：是指音频文件和视频文件沿时间轴组合成的文件，本申请实施例中的音视频文件可以是根据音频文件的音频使用场景下生成的。本申请中视音频文件为多媒体文件的一种示例，第一音频文件与第一视频文件相关，第二音频文件与第二视频文件相关，相关可以理解为在时间上同步。

6、音频端点：是指音频文件中有效音频的端点，音频端点具体包括音频文件的音频起始点和音频结束点。比如音频文件的时长为2分钟，但音频文件的前2秒没有声音信号，那么该音频文件的音频起始点则从该音频文件的第2 秒开始。

7、帧：是指音频文件的基本处理单元，具体可以是对音频文件进行分帧后得到的，比如可以将音频文件按照某一个预设时间长度进行分割，分割后的每一个区间片对应为一帧，可以进一步理解为音频文件中的N个采样点集合成的一个单元，N的取值可以为512或256，在实际使用过程中，可以根据需要调整N值或预设时间长度。在对音频文件进行分帧的过程中，相邻两帧之间可以不存在重叠，也可以存在重叠，为了避免相邻两帧的变化过大，可以在分帧时让两相邻帧之间存在重叠区域。

8、分帧：对音频文件进行分割的处理方式，以得到的帧的过程。当前帧可以理解为音频文件中当前正在被处理的一帧，任意一帧被处理时都可以视为当前帧。

9、梅尔倒频谱参数(Mel-Freguency CeptraI Coefficients，MFCC)：是音频特征参数提取方法之一。MFCC特征能够反映不同说话人相同发音的信息，区分不同说话人相同语音之间的差异，同时因其独特的基于倒谱的提取方式，符合人类的听觉原理，因而也是最为普遍、最有效的语音特征提取算法。

10、音频差异度：是指音频和音频之间的差异，音频差异度可以是提取两个音频之间的特征，以音频特征之间的差异来表征音频之间的差异。本申请中的音频差异度是指第一音频文件中参考区间和第二音频文件中目标区间的音频差异，具体可以包括参考区间中每帧与目标区间中对应帧的音频差异度。

11、多人在线战术竞技游戏(Multiplayer Online Battle Arena，MOB)：又可以称为多人在线对抗竞技类游戏，是指在游戏中将玩家分为多个阵营，每个游戏玩家控制所选择的游戏角色，按照游戏规则进行竞争，获胜利。比如可以通过竞争地图资源，获取经济和购买装备，达到破坏敌方阵营建筑，以获取胜利。

12、游戏角色：是指游戏中的角色，包括但不限于玩家控制角色和非玩家控制角色。

13、技能命中音效：第一音频文件的一种示例，moba游戏中游戏角色技能释放过程中，会播放技能音效，当技能命中目标时，会在当前该技能音效上额外叠加另一种音效，叠加后的音效则可以视为第二音频文件的一种示例，额外叠加另一种音频可以增加游戏的趣味性，还可以在听觉上区分技能是否命中目标。

14、游戏事件：是指在游戏中发生的事件。本申请中的第一游戏事件和第二游戏事件可以是针对同一个游戏角色在相同操作下触发的不同游戏事件。例如，第一多媒体文件在参考区间中具有的第一游戏事件，第二多媒体文件在目标区间具有第二游戏事件。比如游戏角色释放技能没有命中对象可以为第一游戏事件，游戏角色释放技能命中对象可以为第二游戏事件。应当说明的是，技能命中的对象可能是游戏角色自身，或游戏角色的友方游戏角色，或游戏角色的敌方游戏角色。本申请中当检测到第一游戏事件时，播放第一音频文件，检测到第二游戏事件时，同时播放第一音频文件和目标音频文件，对应的，第一视频文件可以是在参考区间中具有未命中对象的事件，第二视频文件可以是在目标区间中命中对象的事件。

下面以第一音频文件和第二音频文件具体应用在游戏场景中为例，对第一多媒体文件、第二多媒体文件、第一音频文件和第二音频文件进行示例说明。

第一部分，在制作游戏时，配置第一音频文件和目标音频文件。

例如，可以为游戏角色释放技能过程中配置基础的音频文件。为了提高游戏的趣味性，当游戏角色释放技能命中对象时，可以在基础的音频文件上再增加特殊音效。基础的音频文件也就是第一音频文件的示例，基础的音频文件加特殊音效即为第二音频文件的示例。

第二部分，在游戏场景中，获取与第一音频文件相关的第一多媒体文件，以及第二音频相关的第二多媒体文件。

例如，在游戏过程中，检测到游戏角色释放技能时，如果检测到游戏角色的技能没有命中对象，播放第一音频文件，并同步获得游戏角色释放技能到没有命中对象的过程中的第一音视频文件。如果检测到游戏角色技能命中对象，播放第一音频文件和目标音频文件，并同步获取游戏角色释放技能到命中对象的过程中的第二音视频文件。

第三部分，对第一音视频文件和第二音视频文件进行测试。

在测试时，分别提取第一音视频文件中的第一音频文件，提取第二音视频文件中的第二音频文件，利用本申请实施例中涉及的多媒体文件的处理方法对第一音频文件和第二音频文件进行测试，具体测试过程将在下文中论述。

下面对本申请实施例的设计思想进行说明。

为了量化音频之间的音频差异度，本申请实施例提供一种多媒体文件的处理方法，该方法获取第一多媒体文件和第二多媒体文件，从第一多媒体文件和第二多媒体文件中分别获取进行测试的第一音频文件和第二音频文件，检测出第二音频文件中第一音频文件与目标音频叠加对应的目标区间，以及第一多媒体文件的参考区间，并对参考区间中各帧进行特征分析和目标区间中各帧进行特征分析，根据参考区间中各帧的特征，以及目标区间中各帧的特征，获得参考区间和目标区间之间的音频差异度。这样一来，实现了对两个音频文件之间的差异度的量化，为后续调整音频文件提供准确的数据基础。且，本申请实施例中的第二音频文件是由第一音频文件和目标音频文件叠加得到的，因此本申请实施例中先检测出第二音频文件中对应的叠加部分，能够避免其它非叠加部分产生的干扰，有利于更准确地分析出第一音频文件和第二音频文件间的音频差异。

进一步的，本申请实施例中获得第一音频文件和第二音频文件之后，对齐第一音频文件和第二音频文件，再逐帧比对各帧的短时能量，如果确定第二音频文件中存在满足一定比例的帧的短时能量大于第一音频文件中对应帧，且这些帧的数量达到阈值，则确定这些帧为第二音频文件中对应的目标区间，本申请实施例中对音频文件进行逐帧分析，能够获得更准确的目标区间。

基于上述设计思想，下面对本申请实施例的多媒体文件的处理方法的应用场景进行介绍。

本申请实施例涉及的多媒体文件的处理方法可以由多媒体文件处理设备执行，多媒体文件处理设备可以通过用户端设备或服务端设备实现。

其中，用户端设备可以是移动终端、固定终端或便携式终端，例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，多媒体文件处理设备能够支持任意类型的针对用户的接口设备(例如可穿戴设备)等。服务端设备可以是各种服务提供的服务器、大型计算设备等。服务器可以是一个或多个服务器。服务器也可以是实体服务器或虚拟服务器等。

请参照图1，为多媒体文件处理设备的结构示意图，该多媒体文件处理设备100包括一个或多个输入设备110、一个或多个处理器120、一个或多个存储器130和一个或多个输出设备140。

输入设备110用于提供输入接口，以获取外界设备/用户输入的第一多媒体文件和第二多媒体文件等。在获得第一多媒体文件和第二多媒体文件之后，输入设备110将该第一多媒体文件和第二多媒体文件发送给处理器120，处理器 120利用存储器130中存储的程序指令，实现对第一多媒体文件和第二多媒体文件中的第一音频文件和第二音频文件进行音频差异分析，获得音频差异度。通过输出设备140输出音频差异度。其中如何对第一音频文件和第二音频文件进行差异分析，将在下文中详细论述，此处不再赘述。

其中，输出设备140可以包括但不限于物理键盘、功能键、轨迹球、鼠标、触摸屏、操作杆等中的一种或多种。处理器120可以是一个中央处理单元 (central processingunit，CPU)，或者为数字处理单元等。存储器130可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory， RAM)；存储器130也可以是非易失性存储器(non-volatile memory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard diskdrive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器130是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器130可以是上述存储器的组合。输出设备140例如显示器、扬声器和打印机等。

在一种可能的应用场景中，请参照图2，表示一种应用场景示例，多媒体文件处理设备100通过终端210实现。终端210获取需要测试的第一多媒体文件和第二多媒体文件，并提取出第一多媒体文件中的第一音频文件，从第二多媒体文件中提取出第二音频文件，对第一音频文件和第二音频文件进行分析，获得音频差异度。

在一种可能的应用场景中，请继续参照图2，多媒体文件处理设备100通过服务器220实现。用户通过终端210中客户端211输入需要测试的第一多媒体文件和第二多媒体文件，客户端211生成处理请求，服务器220通过对第一多媒体文件和第二多媒体文件进行上述处理，音频差异度，并将音频差异度返回给客户端221。客户端221可以是泛指用于实现音频功能的软件，包括但不限于预装在终端210中的客户端、嵌入在第三方应用中的客户端、或网页版的客户端等。

应当说明的是，上述仅对本申请实施例的应用场景进行示例说明，但本申请的使用场景并不限于此。

为了更清楚地说明本申请实施例中的多媒体文件的处理方法，下面对多媒体文件的处理方法涉及的处理原理进行示例介绍。

请参照图3，为一种多媒体文件的处理方法的原理示意图，图3中是以终端210执行多媒体文件的处理方法的过程进行说明，该方法涉及的原理过程具体包括：

S301，终端210获取第一多媒体文件。

在用户准备对第一多媒体文件和第二多媒体文件进行测试时，可以将第一多媒体文件输入至终端210中，终端210响应于该用户的第一输入操作，第一输入操作比如可以是对第一多媒体文件进行的点击操作等，获得第一多媒体文件。第一多媒体文件的内容可以参照前文论述内容，此处不再赘述。

S302，终端210获取第二多媒体文件。

同理，终端210响应于用户的第二输入操作，第二输入操作可以参照第一输入操作，此处不再赘述，获得第二多媒体文件。第二多媒体文件的内容可以参照前文论述内容，此处不再赘述。

作为一种实施例，S301和S302的步骤可以是任意的。

S303，终端210从第一多媒体文件中提取出第一音频文件。

第一多媒体文件中包括第一视频文件和关联的第一音频文件，如果第一多媒体文件中包括已组合的第一视频文件和第一音频文件的视音频文件，终端 210可以提取该视音频文件中的音频文件，获得第一音频文件。

S304，终端210从第二多媒体文件中提取出第二音频文件。

同理，终端210可以按照提取第一音频文件的方式，提取出第二多媒体文件中的第二音频文件。

作为一种实施例，S303和S304的步骤可以是任意的。

S305，终端210检测音频端点。

终端210分别检测第一音频文件的音频端点和第二音频文件的音频端点，检测第一音频文件的音频端点和检测第二音频文件的音频端点的方式相同，下面以检测第一音频文件的音频端点为例进行介绍：

方式一：

根据第一音频文件中各帧的短时能量，检测第一音频文件的音频端点。

每帧音频信号具有一定的能量，能量的大小体现了音频信号在不同时间点的强弱信息，因此，有效音频的短时能量一般是大于第三阈值，因此，在本申请实施例中终端210可以对第一音频文件分帧，获得第一音频文件中的多个帧。分帧的内容可以参照前文论述的内容，此处不再赘述。终端210按照第一音频文件的时间从先到后的顺序，依次检测每个帧的短时能量，将第一音频文件中第一个短时能量大于第三阈值的帧确定为音频起始点，将第一音频文件中最后一个短时能量大于第三阈值的帧确定为音频结束点。其中，确定每帧的短时能量的计算公式示例如下：

其中，n表示音频文件中的第n帧，N表示每一个语音帧的长度，每一帧包括的采样点的总数量，f(x)表示每一个采样点的幅度值。

为了更清楚地说明方式一中检测音频端点的方法，下面结合图4所示的检测音频端点的流程图，对检测音频端点的过程进行介绍：

S401，终端210计算当前帧n短时能量En。

终端210可以利用上述公式(1)确定出当前帧n的短时能量En。

S402，终端210确定En是否大于第三阈值。

终端210如果确定En大于第三阈值，终端210执行S403，确定音频起始点S是否为初始值0，终端210如果确定音频起始点S为初始值0，则执行S404，将音频起始点S从初始值0更新为n，并执行S409，即将n更新为n+1，从而对当前帧的下一帧重复图4所示的处理过程。音频起始点S的初始值为0，0 表示第一音频文件中的第一个帧。如果确定音频起点S的初始值不为0，则执行S409，即将n更新为n+1，从而对当前帧的下一帧重复图4所示的处理过程。

终端210如果确定En大于第三阈值，并执行S405，即确定音频结束点E 的取值是否为N，N表示音频结束点E的初始值，即该音频文件的最后一帧，如果E不等于N，则终端210执行S406，确定当前帧n是否比于音频结束点E 的取值大，如果n大于音频结束点E的取值，则执行S407，即将音频结束点E 的取值更新为n。终端210如果确定如果E等于N，则执行S407，即将音频结束点E的取值更新为n，并执行S409，即将n更新为n+1，从而对当前帧的下一帧重复图4所示的处理过程。如果n小于或等于音频结束点E的取值，则执行S409，即将n更新为n+1，从而对当前帧的下一帧重复图4所示的处理过程。

终端210如果确定En小于或等于第三阈值，终端210执行S408，即确定 n是否小于音频结束点E，如果确定n小于音频结束点E的取值时，则确定执行S407，即将音频结束点E的取值更新为n，并执行S409，即将n更新为n+1，从而对当前帧的下一帧重复图4所示的处理过程。应当说明的是，一般 S408～S407和的过程会执行一次。

终端210对第一音频文件的所有帧依次执行上述图4对应的过程后，可以获得第一音频文件中的音频起始点和音频结束点。

例如，请参照图5，为第一音频文件的音效短时能量的曲线图，终端210 检测a对应为第一短时能量大于第三阈值的帧，将a确定为音频起始点，检测 b对应为最后一个第一短时能量大于第三阈值的帧，将b确定为音频结束点。

在本申请实施例中，并不是直接比对第一音频文件和第二音频文件的差异，而是先分析出各音频文件中的音频端点，能够避免无效音频影响第一音频文件和第二音频文件的差异度，且能够避免对音频文件中无效音频进行差异分析等过程。且，由于无效音频的短时能量通常较小，因此本申请实施例中根据短时能量与阈值的比较，确定音频文件的音频端点，该方式简单快速，且无需考虑音频文件的其它参数特征，相对可以减少计算量。

方式二：

根据第一音频文件中各帧的短时过零率，检测第一音频文件的音频端点。

短时过零率表示是音频信号在短时间内幅值回到0的次数，短时过零率体现的是音频信号的频域特性。无效音频通常集中在低频率段，所以无效音频的短时过零率较低，有效音频通常集中在高频率段，所以有效音频的过零率较高，本申请实施例中，终端210可以检测第一音频文件中各帧的短时过零率，将多个帧中第一个出现的短时过零率大于第四阈值的帧确定为音频起始点，将多个帧中最后一个出现的短时过零率大于第四阈值的帧确定为音频结束点。确定每帧的短时过零率的计算公式示例如下：

其中，n表示第n帧，N表示每一个帧包括的采样点的数量，f(x)表示每一个采样点的幅度值。sgn[]为符号函数，具体定义如下：

在本申请实施例中，并不是直接比对第一音频文件和第二音频文件的差异，而是先分析出各音频文件中的音频端点，能够避免无效音频影响第一音频文件和第二音频文件的差异度，且能够避免对音频文件中无效音频进行差异分析等过程。由于无效音频的短时过零率通常较小，因此本申请实施例中根据短时过零率与阈值的比较，确定音频文件的音频端点，该方式简单快速，且无需考虑音频文件的其它参数特征，相对可以减少计算量。

方式三：

根据第一音频文件中各帧的短时过零率和短时能量，检测第一音频文件的音频端点。

终端210确定每帧的短时过零率和短时能量的方式可以参照前文方式一和方式二论述的内容，此处不再赘述。终端210可以将第一音频文件中第一个短时能量大于第三阈值的帧确定为第一参考点，将最后一个短时能量大于第三阈值的帧确定为第二参考点，并将第一音频文件中第一个短时过零率大于第四阈值的帧确定为第三参考点，将最后一个短时能量大于第四阈值的帧确定为第四参考点.

终端210可以根据将第一参考点和第二参考点之间的区间作为第一参考区间，并将第三参考点和第四参考点之间的区间作为第二参考区间，确定第一参考区间和第二参考区间之间的交集区间，并将交集区间的端点确定为第一音频文件的音频端点，也就是说，交集区间的音频起始点为第一音频文件的音频起始点，交集区间的音频结束点为第一音频文件的音频结束点。

请参照图6中a所示的第一音频文件的多个帧，如图6中所示的第1帧、第2帧、第3帧…第n帧，终端210依次确定各帧的短时能量，终端210确定第1帧的短时能量小于第三阈值，确定第2帧的短时能量大于第三阈值，因此终端210确定第2帧对应第一音频文件的音频起始点(具体如图6中a对应的靠左的三角形标注点)。终端210确定第n-1帧的短时能量大于第三阈值，确定第n帧的短时能量小于第三阈值，终端210确定第n-1帧为第一音频文件的音频结束点(具体如图6中a对应的靠右的三角形标注点)。

请继续参照图6中b所示，终端210确定各帧的短时过零率，并确定第1 帧的短时过零率小于第四阈值，确定第2帧的短时过零率大于第四阈值，因此终端210确定第2帧对应第一音频文件的音频起始点(具体如图6中b对应的靠左的三角形标注点)。终端210确定第n-2帧的短时过零率大于第四阈值，确定第n-1帧的短时过零率小于第四阈值，终端210确定第n-2帧为第一音频文件的音频结束点(具体如图6中b对应的靠右的三角形标注点)。

请继续参照图6中c所示，终端210确定第一参考点到第二参考点之间的第一参考区间为第2帧到第n-1帧，确定第三参考点到第四参考点之间的第二参考区间为第2帧到第n-2帧，因此可以确定第一参考区间和第二参考区间之间的重叠区间为第2帧到第n-2帧，具体如图6中c所示，进而确定第一音频文件的音频起始点为第2帧，第一音频文件的音频结束点为第n-2帧。

在本申请实施例中，并不是直接比对第一音频文件和第二音频文件的差异，而是先分析出各音频文件中的音频端点，能够避免无效音频影响第一音频文件和第二音频文件的差异度，且能够避免对音频文件中无效音频进行差异分析等过程。且，本申请实施例中结合短时能量和短时过零率确定音频文件的音频端点的方式，能提升检测音频端点的准确性。

终端210可以按照上述方式一至方式三中任一方式检测出第一音频文件的音频端点，同理，终端210可以按照上述任一方式检测出第二音频文件的音频端点。应当说明的是，为了保证检测音频端点的准确性，在检测音频端点时如涉及到对第一音频文件以及第二音频文件进行分帧，可以采用相同的分帧参数对两个音频文件进行处理，这里相同的分帧参数比如相同的预设时间长度或是相同的采样点数。

在获得第一音频文件和第二音频文件后，终端210可以根据第一音频文件的音频端点以及第二音频文件的音频端点，对齐第一音频文件和第二音频文件。

具体的，终端210可以将第一音频文件的音频起始点与第二音频文件的音频起始点相对应，终端210可以将第二音频文件的音频结束点与第二音频文件的音频结束点相对应，实现第一音频文件和第二音频文件的对齐。

例如，请参照图7，为对齐前的第一音频文件对应的音频能量谱和第二音频文件的音频能量谱，图7中曲线a表示第一音频文件的音频能量谱，图7中曲线b表示第二音频文件的音频能量谱。

终端210分别检测图7中所示的第一音频文件的音频端点和第二音频文件的音频端点，对齐第一音频文件和第二音频文件后具体如图8所示的对齐结果。图8中曲线图a表示第一音频文件对应的音频能量谱，图8中曲线图b表示第二音频文件对应的音频能量谱。在图8中第一音频文件a的音频起始点与第二音频文件b的音频起始点对齐，第一音频文件a的音频结束点与第二音频文件 b的音频结束点对齐。

应当说明的是，在某些理想情况下，终端210基于第一多媒体文件获得的第一音频文件和基于第二多媒体文件获得的第二音频文件是对齐的，那么终端 210无需执行上述的对齐步骤。

S306，确定参考区间和目标区间。

由于第二音频文件是由第一音频文件和目标音频文件叠加得到的，理想情况下，第二音频文件中对应的非叠加部分的音频文件和第一音频文件对应的部分相同，但实际上第二音频中的非叠加部分可能由于某些其它因素产生与第一音频文件的对应部分的差异，其它因素比如硬件原因或外界环境因素等，如果直接计算第二音频文件和第一音频文件的差异，则可能会将非叠加部分的差异引入至两个音频文件的差异中，从而导致无法准确地确定第一音频文件和第二音频文件之间的差异。因此，在本申请实施例中终端210检测第二音频文件对应的叠加部分对应的目标区间，以及在第一音频文件中与目标区间对应的参考区间，后续分析音频差异时，只需分析参考区间和目标区间之间的音频差异，进而提高确定出的音频差异的准确性。

正是由于第二音频文件是由第一音频文件和目标音频文件叠加得到的，所以第二音频文件中对应的叠加部分的音频文件的能量高于第一音频文件的能量，但第一音频文件和第二音频文件应用在具体的使用场景中时，终端210获得第一音频文件和第二音频文件后，无法直接获得目标音频和第一音频文件具体对应的叠加部分，在本申请实施例中终端210可以分析第一音频文件和第二音频文件之间的短时能量，检测出第二音频文件中的目标区间，以及第一音频文件中的参考区间。

终端210可以逐帧比对第一音频文件和第二音频文件之间的短时能量，并累计第二音频文件存在的短时能量均大于第一音频文件中对应帧的短时能量的帧的数量，如果该数量与已比对的多帧的总数量的比值大于第一阈值，且该数量大于第二阈值，可以将已比对的多帧所对应的区间确定为目标区间，并将第一音频文件中与目标区间对应的多帧确定为参考区间。

作为一种实施例，第一阈值可以为90％。如果某一区间中，90％的第二音频文件中的帧的短时能量均大于第一音频文件中的帧的短时能量，则确定该区间为目标区间。

为了便于更清楚地说明检测目标区间的过程，下面结合图9所示的检测目标区间的流程图进行介绍。

S901，分别计算第一音频文件Rn中每帧的短时能量和第二音频文件Hn 中每帧的短时能量。计算短时能量的方式可以参照前文论述的内容，此处不再赘述。

S902，判断第二音频文件中当前帧n的短时能量EHn是否大于第一音频文件中对应帧的短时能量ERn。

如果当前帧n的短时能量大于第一音频文件中对应帧的短时能量，则执行 S903，即确定目标区间的音频起始点S是否为初始值0。如果确定目标区间的 S为0，则执行S904，将S的取值从0更新为n，并连续计数设置为1。如果确定目标区间的S不为初始值0，则执行S905，即将连续计数加1，进而获得连续计数的数量。

如果确定第二音频文件中当前帧n的短时能量小于或等于第一音频文件中对应帧的短时能量，则终端210执行S906，即确定连续计数的数量与已比对的多帧的总数量之间的比值是否大于第一阈值T。已比对的多帧的总数量为(n-S)。

如果确定连续计数的数量与已比对的多帧的总数量之间的比值小于或等于第一阈值，则执行S907，即确定连续计数的数量是否大于第二阈值，如果大于第二阈值，则执行S908，即将目标区间的音频结束点E更新为n，并执行 S909，即获得目标区间，目标区间具体为从S到E，对应也就能获得参考区间，并执行S911，将n更新为n+1，并对n+1帧重复图9所示的处理过程，n+1帧为当前帧n的下一帧。终端210如果确定连续计数的数量小于或等于第二阈值，则执行S910，连续计数的值更新为0，且将S更新为0，并执行S911，即将n 更新为n+1，并对n+1帧重复图9所示的处理过程，n+1帧为当前帧n的下一帧。

终端210如果确定连续计数的数量与已比对的多帧的总数量之间的比值是否大于第一阈值T，则执行S911，即将n更新为n+1，并对n+1帧重复图9所示的处理过程，n+1帧为当前帧n的下一帧。当终端210对第二音频文件中每一帧均执行上述过程之后，可以获得第二音频文件中包括的所有目标区间，由于第一音频文件和第二音频文件对齐，因此在获得目标区间后，对应能获得第一音频文件中与目标区间对应的参考区间。

例如，请参照图10包括游戏角色A从释放技能1到未命中对象过程中的未命中音频a、游戏角色A释放技能1到命中对象过程中的命中音频b，终端 210确定命中音频b中两个目标区间分别如图10中相较于未命中音频a的能量更为突出的两部分。

请参照图11包括表示游戏角色B从释放技能1到未命中对象过程中的未命中音频a、游戏角色B释放技能1到命中对象过程中的命中音频b，终端210 确定命中音频b中目标区间如图11中相较于未命中音频a的能量更为突出的部分。

S307，终端210确定参考区间和目标区间的音频差异度。

终端210检测出第二音频文件中的目标区间以及第一音频文件中的参考区间之后，可以分别提取参考区间中各帧的音频特征、以及目标区间中对应帧之间的音频特征，并确定参考区间中帧的音频特征与目标区间中对应帧的音频特征的差异度，以此类推，获得参考区间和目标区间的音频差异度。

其中，提取参考区间中帧的音频特征和提取目标区间中帧的音频特征的方式是相同的，下面以提取参考区间中每帧的MFCC特征为例进行介绍：

请参照图12，表示提取音频特征的一种流程示意图，该流程具体如下：

S1201，对参考区间进行预加重处理。

预加重可理解为对音频中的高频部分进行加强，并保持该音频的信噪比不发生变化，具体可以将参考区间中的音频通过高通滤波器进行滤波实现。

其中，预加重处理的传递函数示例如下：

y(n)＝x(n)-a*x(n-1) (3)

作为一种实施例，a的取值范围可以是0.9～1.0，具体可以取值0.97，x(n) 表示n时刻在参考区间的音频采样值，y(n)表示预加重处理的结果。

S1202，进行分帧处理。

分帧处理方式可以参照前文论述的内容，此处不再赘述。在分帧时，可以选择让两相邻帧之间有一段重叠区域，该重叠区域包含了M个取样点，一般 M的值约为一帧的1/2或1/3的采样点。具体选择的M的取值为256个采样点，例如当前帧的采样率为8khz，则重叠区域的时间长度是256/8000×1000＝32ms。

S1203，对每一帧进行加窗。

为了增加帧左端和右端的连续性，减少频谱泄漏。本申请实施例中可以对每一帧进行加窗。加窗过程中使用的窗口函数可以为汉明(Hamming)，汉明窗也是MFCC特征提取时常用的加窗函数。

w(n,b)＝(1-b)-b*cos[(2*π*n)/(N-1)],0≤n≤N (4)

其中，b的取值可以为0.46，N表示汉明窗的长度。

加窗的表达式具体如下：

S_n＝y_n*w_n (5)

S1204，进行傅里叶变换。

基于傅里叶变换，可以将信号从时间域转换到频率域，频率域上不同的能量分布，代表不同语音的特性。傅里叶变换的表达式如下：

其中，s()表示S1203中每帧的加窗结果，N表示傅里叶变换长度。

S1205，进行梅尔滤波处理。

在梅尔频域内，人对音调的感知度与音调呈为线性关系，本申请实施例中将线性频谱映射到基于听觉感知的Mel非线性频谱中，考虑到了人类的听觉特征，梅尔滤波处理实质上可以通过梅尔滤波器组实现，具体涉及的变换公式如下：

其中，f表示的是S1204中傅里叶变换处理后的结果。

S1206，进行离散余弦变换(Discrete Cosine Transform，DCT)。

在得到梅尔滤波处理后的结果进行DCT，从而得到梅尔倒谱系数，也就是该帧对应的MFCC特征。具体公式如下：

从公式(8)中可以得到26个倒谱系数，对于每一帧，经过上述处理之后都可以得到对应的长度为26的特征向量，该特征向量为音频特征的一种示例。在获得帧的特征向量之后，可以逐帧对比帧与帧之间的特征向量的差异度，比如可以计算特征向量之间的距离，具体可以确定两个特征向量之间的欧式距离，以欧式距离作为帧与帧之间的音频差异度，欧式距离的具体计算公式如下：

其中，x_1k表示目标区间中某帧的特征向量的取值，x_2k表示参考区间中对应帧的特征向量的取值。

通过上述过程，可以确定出目标区间中每帧与参考区间中对应帧之间的音频差异度。

作为一种实施例，第一视频文件和第二视频文件分别为目标游戏文件的子文件，第一视频文件在参考区间中具有的第一游戏事件，以及，第二视频文件在目标区间具有第二游戏事件；其中，第一游戏事件和第二游戏事件为针对目标游戏角色进行目标操作触发的不同游戏事件。

进一步的，第一游戏事件为根据针对游戏角色技能的释放操作触发的技能未命中对象事件，第二游戏事件为根据针对游戏角色技能的释放操作触发的技能命中对象事件。

基于上述论述的处理原理，下面对终端210执行本申请实施例涉及的多媒体文件的处理方法的过程进行示例介绍。

请参照图13，为一种多媒体文件的处理方法的过程示意图。

S1301，终端210获取第一多媒体文件中的第一音频文件。

当用户想要测试两类音频文件时，可以将音频文件投放到对应的使用场景中，产生该场景对应的多媒体文件。测试时，终端210响应于用户的启动操作，开启测试功能，并显示分析界面，用户可以在分析界面上进行第一输入操作，第一输入操作比如是在分析界面上进行的点击操作等，终端210根据用户的第一输入操作，获取用户输入的第一多媒体文件，加载第一多媒体文件，并显示第一多媒体文件。终端210可以从第一多媒体文件中提取出第一音频文件。

S1302，终端210获取第二多媒体文件。

同理，用户可以在分析界面上进行的第二输入操作，终端210可以根据该第二输入操作，显示加载的第二多媒体文件。终端210可以从第二多媒体文件中提取出第二音频文件。

作为一种实施例，S1301和S1302的步骤顺序可以是任意的。

例如，请参照图14，表示一种分析界面的示例图，终端210响应于用户在第一区域1401的双击操作，显示加载用户输入的第一多媒体文件，终端210 响应于用户在第二区域1402的双击操作，显示加载用户输入的第二多媒体文件。

S1303，终端210确定第一音频文件的参考区间，以及确定第二音频文件的目标区间。

用户可以在分析界面上进行分析操作，具体可以是点击分析界面上的分析操作按键，终端210响应于该分析操作，检测出第一音频文件中的参考区间，和第二音频文件中的目标区间。其中，参考区间、目标区间、检测参考区间和检测目标区间的内容可以参照前文论述的内容。

S1304，终端210确定目标区间和参考区间之间的音频差异度。

终端210检测出参考区间和目标区间之后，可以分析目标区间和参考区间的音频差异度，其中，涉及到终端210获得音频差异度的方式可以参照前文论述的内容，此处不再赘述。

例如，请参照图15，表示一种显示音频差异度的界面示例图，终端210 响应于第一输入操作，显示加载的第一音频文件1501，终端210响应于第二输入操作，显示加载的第二音频文件1502。终端210响应于用户的分析操作，显示参考区间和目标区间中各帧的音频差异度，具体如图15中所示的曲线1503。

S1305，根据音频差异度，对第二音频文件进行调整。

在终端210获得音频差异度后，可以根据音频差异度确定是否对第二音频文件进行调整，具体确定是否调整的方式示例如下：

示例一：

终端210确定参考区间和目标区间的最大音频差异度大于或等于第五阈值，则确定第二音频文件合格。终端210确定参考区间和目标区间的最大音频差异度小于第五阈值，则确定对第二音频文件进行调整。

参考区间中各帧和目标区间中对应帧均存在对应的音频差异度，那么参考区间和目标区间对应包括多个音频差异度，终端210从多个音频差异度中确定出最大的音频差异度，即为最大音频差异度。最大音频差异度反馈了音效的明显程度。如果最大音频差异度大于或等于第五阈值，则表示第一音频文件和第二音频文件之间的差异度较大，终端210确定不对第二音频文件进行调整。如果最大音频差异度小于第五阈值，则表示第一音频文件和第二音频文件之间的音频差异度较小，因此确定需要对第二音频文件进行调整。

示例二：

该音频差异度具体为针对配置有第一皮肤的游戏角色进行目标操作触发的两个不同的游戏事件对应的两个音频文件的分析结果。

终端210确对比音频差异度和其它音频差异度，确定第二音频文件是否合格。其中，其它音频差异度是指终端210利用上述过程确定出针对配置有第二皮肤的游戏角色进行目标操作触发的两个不同的游戏事件对应的两个音频文件的分析结果。

在本申请实施例中，终端210可以确定配置不同皮肤的同一个游戏角色各自对应的音频差异分析结果，并对比各音频差异分析结果，确定是否对第二音频文件进行调整。

例如，请参照下表1，表示配置不同皮肤的同个游戏角色对应的音频差异分析结果中的最大音频差异度：

表1

皮肤名	最大音频差异度
		经典(原皮)	111.3
天鹅之梦	220.6
		纯白花嫁	34.1
缤纷独角兽	117.8
		青蛇	201.3

从上述表1中可以看出，配置有天鹅之梦的游戏角色的最大差异度最大，即配置有天鹅之梦的游戏角色对应的第一音频文件和第二音频文件之间的差异度较大。而配置有纯白花嫁的游戏角色对应的第一音频文件和第二音频文件之间的音频差异度较小，可以考虑对配置有纯白花嫁的游戏角色关联的第二音频文件进行调整。

或者例如，请参照表2，表示配置有不同皮肤的另一游戏角色对应的音频差异分析结果中的最大音频差异度：

表2

皮肤名	最大音频差异度
		经典(原皮)	94.3
杀手不太冷	149.6
		末日机甲	66.3
时之恋人	212.9

设计者在该配置有时之恋人的另一游戏角色技能命中时增加了一个特殊音效，技能的命中反馈较好，与上述表2评估出的该另一游戏角色对应的最大音频差异度212.9相符。

示例三：

第一音频文件为第一游戏事件相关的音频文件，第二音频文件为第二游戏事件相关的音频文件；其中，第一游戏事件和第二游戏事件为针对配置有第一类皮肤的游戏角色进行目标操作触发的两个不同的游戏事件。

终端210对比音频差异度和其它音频差异度，确定第二音频文件是否合格；其中，其它音频差异度用于表示配置有第一类皮肤的其它游戏角色分别在第一游戏事件和第二游戏事件对应的音频文件之间的音频差异分析结果。

在本申请实施例中，终端210可以确定配置同一系列皮肤的不同游戏角色各自对应的音频差异分析结果，并对比各音频差异度，确定是否对各游戏角色相关的音频文件进行调整。

终端210确定对第二音频文件进行调整时，可以对目标音频文件进行调整，比如更换目标音频文件，或者调整目标音频文件的音频参数。终端210也可以对第一音频文件进行调整，比如更换第一音频文件，或者是调整第一音频文件的音频参数等，本申请实施例不限制调整第二音频文件的具体方式。

基于上述论述的处理原理，下面对服务器220执行本申请实施例涉及的多媒体文件的处理方法的过程进行示例介绍。

请参照图16，为客户端211和服务器220之间的交互过程示意图。

S1601，客户端211响应于第一输入操作，显示加载的第一多媒体文件。

第一输入操作，第一多媒体文件的内容可以参照前文论述的内容，此处不再赘述。

S1602，客户端211响应于第二输入操作，显示加载的第二多媒体文件。

第二输入操作，第二多媒体文件的内容可以参照前文论述的内容，此处不再赘述。

S1603，客户端211响应于分析操作，生成分析请求。

分析操作可以参照前文论述的内容，此处不再赘述。客户端211根据加载的第一多媒体文件以及第二多媒体文件，生成分析请求，该分析请求用于请求服务器220对第一多媒体文件以及第二多媒体文件进行处理，分析请求包括第一多媒体文件的第一资源标识，以及第二多媒体文件中的第二资源标识。

S1604，客户端211将分析请求发送给服务器220。

服务器220接收分析请求后，可以根据第一资源标识以及第二资源标识，获得第一多媒体文件以及第二多媒体文件，并从第一多媒体文件提取出第一音频文件，从第二多媒体文件中提取出第二音频文件。

S1605，服务器220确定参考区间和目标区间。

参考区间、目标区间、服务器220检测参考区间和目标区间的方式可以参照前文论述的内容，此处不再赘述。

S1606，服务器220确定参考区间和目标区间之间的音频差异度。

音频差异度的含义、确定音频差异度的方式可以参照前文论述的内容，此处不再赘述。

S1607，服务器220将音频差异度发送给客户端211。

S1608，客户端211显示音频差异度。

客户端211可以根据音频差异度对第二音频文件进行调整，获得服务器 220可以根据音频差异度对第二音频文件进行调整。具体调整第二音频文件的方式可以参照前文论述的内容，此处不再赘述。

为了更清楚地说明本申请实施例涉及的多媒体文件的处理方法，下面以处理第一游戏事件相关的第一音视频文件和第二游戏事件相关的第二音视频文件为例，第一音频文件为游戏角色对应的未命中音效、第二音频文件为游戏角色的命中音效为例，对本申请实施例涉及的多媒体文件的处理方法进行说明。

请参照图17，为一种多媒体文件的处理方法的流程图。

S1701，终端210响应于第一输入操作，显示加载第一音视频文件。

S1702，终端210响应于第二输入操作，显示加载第二音视频文件。

其中，S1701和S1702的步骤顺序可以是任意的。

S1703，终端210从第一音视频文件中提取出第一音频文件，并从第二音频文件中提取出第二音频文件。

S1704，终端210检测第一音频文件的音频端点，以及检测第二音频文件的音频端点。

检测音频端点的方式可以参照前文论述的内容，此处不再赘述。

S1705，终端210对齐第一音频文件和第二音频文件。

对齐的方式可以参照前文论述的内容，此处不再赘述。

S1706，终端210检测第二音频文件中的命中区间，以及第一音频文件中的未命中区间。

命中区间为目标区间的一种示例，命中区间可以理解为游戏角色命中对象时对应的音频，也就是第一音频文件和目标音频文件的叠加部分。未命中区间为参考区间的一种示例，未命中区间可以进一步理解为游戏角色未命中对象时对应的音频。

S1707，终端210确定命中区间和未命中区间中每帧的音频差异度。

确定音频差异度的方式可以参照前文论述的内容，此处不再赘述。

S1708，终端210显示命中区间和未命中区间中每帧的音频差异度。

终端210显示音频差异度的形式有多种，比如以曲线形式显示，或以数据列表形式显示等。

基于同一发明构思，本申请实施例提供一种多媒体文件的处理装置，该装置相当于设置在前文论述的多媒体文件处理设备100中，具体比如设置在终端 210或服务器220中，请参照图18，该装置1800包括：

获取模块1801，用于获取第一多媒体文件，以及第二多媒体文件；其中，第一多媒体文件包括第一音频文件，第二多媒体文件包括第二音频文件，第二音频文件是将目标音频文件叠加到第一音频文件形成的；

第一确定模块1802，用于确定第二音频文件的目标区间以及第一音频文件的参考区间，其中，第二音频文件的目标区间为第一音频文件与目标音频文件叠加位置所对应的区间，第一音频文件的参考区间为与第二音频文件的目标区间对应的区间；

第二确定模块1803，用于确定第二音频文件的目标区间和第一音频文件的参考区间之间的音频差异度；

调整模块1804，用于根据音频差异度对第二音频文件进行调整。

在一种可能的实施例中，第一多媒体文件和第二多媒体文件分别为目标游戏文件的子文件，第一多媒体文件在参考区间中具有的第一游戏事件，以及，第二多媒体文件在目标区间具有第二游戏事件；其中，第一游戏事件和第二游戏事件为针对目标游戏角色进行目标操作触发的不同游戏事件。

在一种可能的实施例中，第一游戏事件为根据针对游戏角色技能的释放操作触发的技能未命中对象事件，第二游戏事件为根据针对游戏角色技能的释放操作触发的技能命中对象事件。

在一种可能的实施例中，第一确定模块1802具体用于：

对齐第一音频文件中各帧与第二音频文件中各帧；

按照对齐后的第一音频文件和第二音频文件，逐帧比对第一音频文件中各帧和第二音频文件中对应帧的短时能量的大小，并累计比对的多帧中第二音频文件中短时能量大于第一音频文件中对应帧的短时能量的目标帧的数量；

若数量与多帧的总数比值大于或等于第一阈值，且数量大于第二阈值，则将多帧在第二音频文件的区间确定为目标区间。

在一种可能的实施例中，第一确定模块1802具体用于：

检测第一音频文件的音频端点，以及检测第二音频文件的音频端点；其中，音频端点包括音频起始点和音频结束点；

将第一音频文件的音频起始点与第二音频文件的音频起始点对应，并将第一音频文件的音频结束点与第二音频文件的音频结束点对应。

在一种可能的实施例中，音频端点通过如下方式获得的：

确定第一参考点和第二参考点之间的区间，与第三参考点和第四参考点之间的区间的交集区间，将交集区间所在的端点为音频文件的音频端点。

在一种可能的实施例中，第二确定模块1803具体用于：

提取参考区间各帧的特征向量，以及提及目标区间各帧的特征向量；

确定目标区间各帧的特征向量与参考区间中的对应帧的特征向量之间的距离，并将确定出的距离确定为音频差异度。

在一种可能的实施例中，特征向量通过如下方式获得的：

对多个帧中每帧进行加窗处理、傅里叶变换和梅尔滤波处理；

在一种可能的实施例中，音频差异度包括目标区间中每一帧与参考区间中对应帧的音频差异度，调整模块1804具体用于：

若目标区间与参考区间的最大音频差异度小于第五阈值，则确定对第二音频文件进行调整。

基于同一发明构思，本申请实施例提供一种计算机设备，该计算机设备相当于前文论述的多媒体文件处理设备100，具体如前文论述的终端210或服务器220。

请参照图19，该计算机设备1900包括显示单元1940、处理器1980以及存储器1920。其中，显示单元1940包括显示面板1941，用于显示由用户输入的信息或提供给用户的信息以及计算机设备1900的各种操作界面等，在本申请实施例中主要用于显示计算机设备1900中已安装的客户端的界面、快捷窗口等。可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)或有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1941。

处理器1980用于读取计算机程序，然后执行计算机程序定义的方法，例如处理器1980读取游戏应用程序，从而在该计算机设备1900上运行应用，在显示单元1940上显示应用的界面。处理器1980可以包括一个或多个通用处理器，还可包括一个或多个数字信号处理器(Digital Signal Processor，DSP)，用于执行相关操作，以实现本申请实施例所提供的技术方案。

存储器1920一般包括内存和外存，内存可以为随机存储器(RAM)，只读存储器(ROM)，以及高速缓存(CACHE)等。外存可以为硬盘、光盘、USB 盘、软盘或磁带机等。存储器1920用于存储计算机程序和其他数据，该计算机程序包括客户端对应的应用程序等，其他数据可包括操作系统或应用程序被运行后产生的数据，该数据包括系统数据(例如操作系统的配置参数)和用户数据。本申请实施例中程序指令存储在存储器1920中，处理器1980执行存储器1920中的程序指令，实现前文论述的多媒体文件的处理方法。

此外，计算机设备1900还可以包括显示单元1940，用于接收输入的数字信息、字符信息或接触式触摸操作/非接触式手势，以及产生与计算机设备1900 的用户设置以及功能控制有关的信号输入等。具体地，本申请实施例中，该显示单元1940可以包括显示面板1941。显示面板1941例如触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在显示面板1941上或在显示面板1941的操作)，并根据预先设定的程式驱动相应的连接装置。

其中，显示面板1941可以采用电阻式、电容式、红外线以及表面声波等多种类型实现。除了显示单元1940，该计算机设备1900还可以包括输入单元 1930，输入单元1930可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。输入单元1930 例如图像输入设备1931和其他输入设备1932。

除以上之外，计算机设备1900还可以包括用于给其他模块供电的电源1990、音频电路1960、近场通信模块1970和RF电路1910。计算机设备1900 还可以包括一个或多个传感器1950，例如加速度传感器、光传感器、压力传感器等。音频电路1960具体包括扬声器1961和麦克风1962等，例如用户不使用乐器的情况下，计算机设备1900可以通过麦克风1962采集用户的声音，将用户的声音作为用户输入的控制指令。用户在测试音频过程中听到的声音均可以通过扬声器1961进行播放。

基于同一发明构思，本申请实施例提供一种存储介质，所述存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行前文论述的多媒体文件的处理方法。

基于同一发明构思，本申请实施例提供一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中的任一的多媒体文件的处理方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种多媒体文件的处理方法，其特征在于，包括：

根据所述音频差异度对所述第二音频文件进行调整。

2.如权利要求1所述的方法，其特征在于，所述第一多媒体文件和第二多媒体文件分别为目标游戏文件的子文件，所述第一多媒体文件在所述参考区间中具有的第一游戏事件，以及，所述第二多媒体文件在所述目标区间具有第二游戏事件；其中，所述第一游戏事件和所述第二游戏事件为针对目标游戏角色进行目标操作触发的不同游戏事件。

3.如权利要求2所述的方法，其特征在于，所述第一游戏事件为根据针对游戏角色技能的释放操作触发的技能未命中对象事件，所述第二游戏事件为根据针对游戏角色技能的释放操作触发的技能命中对象事件。

4.如权利要求1所述的方法，其特征在于，所述确定所述第二音频文件的目标区间，具体包括：

对齐所述第一音频文件中各帧与所述第二音频文件中各帧；

5.如权利要求4所述的方法，其特征在于，所述对齐所述第一音频文件中各帧与所述第二音频文件中各帧，具体包括：

6.如权利要求5所述的方法，其特征在于，所述音频端点通过如下方式获得的：

7.如权利要求1所述的方法，其特征在于，所述确定所述第二音频文件的目标区间和所述第一音频文件的参考区间之间的音频差异度，包括：

提取所述参考区间各帧的特征向量，以及提取所述目标区间各帧的特征向量；

8.如权利要求7所述的方法，其特征在于，所述特征向量通过如下方式获得的：

9.如权利要求1～8任一项所述的方法，其特征在于，所述音频差异度包括所述目标区间中每一帧与所述参考区间中对应帧的音频差异度，所述根据所述音频差异度对所述第二音频文件进行调整，具体包括：

10.一种多媒体文件的处理装置，其特征在于，包括：

11.如权利要求10所述的装置，其特征在于，所述第一确定模块具体用于：

对齐所述第一音频文件中各帧与所述第二音频文件中各帧；

12.如权利要求11所述的装置，其特征在于，所述第一确定模块还用于：

13.如权利要求10所述的装置，其特征在于，所述第二确定模块具体用于：

14.一种计算机设备，其特征在于，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现如权利要求1-9中任一项所述的方法。

15.一种存储介质，其特征在于，所述存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如权利要求1-9中任一项所述的方法。