CN116543796A

CN116543796A - 一种音频处理方法、装置及计算机设备、存储介质

Info

Publication number: CN116543796A
Application number: CN202310824711.XA
Authority: CN
Inventors: 李廷天; 肖鑫雨
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-07-06
Filing date: 2023-07-06
Publication date: 2023-08-04
Anticipated expiration: 2043-07-06
Also published as: CN116543796B

Abstract

本申请实施例提供一种音频处理方法、装置及计算机设备、存储介质。该音频处理方法涉及人工智能技术领域的音频处理技术，该音频处理方法包括：获取待处理的音频；对音频的每个音频片段进行特征分析，得到每个音频片段的特征信息；基于音频中的各个音频片段的特征信息，对每个音频片段进行拼接预测，得到每个音频片段的拼接预测结果；拼接预测结果用于指示相应音频片段中音频拼接点的包含情况；每个音频片段的拼接预测结果是基于每个音频片段的特征信息与其前序音频片段的特征信息进行拼接预测得到的；根据音频中的各个音频片段的拼接预测结果，对音频进行音频业务处理。采用本申请实施例，可以较为准确地对音频进行音频拼接点预测。

Description

一种音频处理方法、装置及计算机设备、存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种音频处理方法、装置及计算机设备、存储介质。

背景技术

目前，许多的音频都是由多个拼接音频拼接而成的组合音频，例如，当一些视频（例如，短视频、小视频、以及影视视频，等等）的视频内容中包括多个视频场景时，可以通过为每个视频场景搭配不同拼接音频的方式，提升视频的播放效果，从而，这些视频的背景音频可以是由多个拼接音频拼接而成的组合音频。

从技术角度分析，音频中是否包含不同拼接音频之间的音频拼接点，是用来判断音频是否为组合音频的手段，如果音频中包含音频拼接点，那么可以说明音频为组合音频，如果音频中不包含音频拼接点，那么可以说明音频不是组合音频。因此，如何对音频进行音频拼接点预测，成为当前的研究热点。

发明内容

本申请实施例提供了一种音频处理方法、装置及计算机设备、存储介质，可以较为准确地对音频进行音频拼接点预测。

一方面，本申请实施例提供了一种音频处理方法，该音频处理方法包括：

获取待处理的音频，音频包括对音频划分得到的多个音频片段；

对音频的每个音频片段进行特征分析，得到每个音频片段的特征信息；

基于音频中的各个音频片段的特征信息，对每个音频片段进行拼接预测，得到每个音频片段的拼接预测结果；拼接预测结果用于指示相应音频片段中音频拼接点的包含情况；每个音频片段的拼接预测结果是基于每个音频片段的特征信息与其前序音频片段的特征信息进行拼接预测得到的；

根据音频中的各个音频片段的拼接预测结果，对音频进行音频业务处理。

相应地，本申请实施例提供了一种音频处理装置，该音频处理装置包括：

获取单元，用于获取待处理的音频，音频包括对音频划分得到的多个音频片段；

处理单元，用于对音频的每个音频片段进行特征分析，得到每个音频片段的特征信息；

处理单元，还用于基于音频中的各个音频片段的特征信息，对每个音频片段进行拼接预测，得到每个音频片段的拼接预测结果；拼接预测结果用于指示相应音频片段中音频拼接点的包含情况；每个音频片段的拼接预测结果是基于每个音频片段的特征信息与其前序音频片段的特征信息进行拼接预测得到的；

处理单元，还用于根据音频中的各个音频片段的拼接预测结果，对音频进行音频业务处理。

在一种实现方式中，处理单元，用于根据音频中的各个音频片段的拼接预测结果，对音频进行音频业务处理时，具体用于执行如下步骤：

若根据音频中的各个音频片段的拼接预测结果确定音频包含音频拼接点，则根据音频拼接点对音频进行裁剪处理，得到多个拼接音频；

在音频库中查询每个拼接音频所属的源音频；

确定每个拼接音频在其所属的源音频上的时序位置；任一个拼接音频在其所属的源音频上的时序位置包括：其所属的源音频上的开始时间点和其所属的源音频上的结束时间点；

基于每个拼接音频在其所属的源音频上的时序位置，对每个拼接音频进行音频业务处理。

在一种实现方式中，多个拼接音频中的任一个拼接音频表示为目标拼接音频，音频库中的任一个源音频表示为目标源音频；处理单元，用于在音频库中查询目标拼接音频所属的源音频时，具体用于执行如下步骤：

获取目标拼接音频的特征序列；目标拼接音频的特征序列包括目标拼接音频中的各个音频片段的特征信息；

获取目标源音频的特征序列；目标源音频的特征序列包括目标源音频中的各个音频片段的特征信息；

在目标拼接音频的特征序列与目标源音频的特征序列之间进行滑窗匹配；

若目标源音频的特征序列中存在与目标拼接音频的特征序列相匹配的特征子序列，则确定目标源音频是目标拼接音频所属的源音频。

在一种实现方式中，处理单元，用于在目标拼接音频的特征序列与目标源音频的特征序列之间进行滑窗匹配时，具体用于执行如下步骤：

当滑动窗口在目标源音频的特征序列中滑动至当前滑动位置时，获取滑动窗口在当前滑动位置所包含的窗口特征子序列；滑动窗口在目标源音频的特征序列中以一个特征信息的长度作为滑动步长进行滑动，滑动窗口的窗口长度与目标拼接音频的特征序列长度相同；

若窗口特征子序列与目标拼接音频的特征序列之间的差异信息小于差异阈值，则确定窗口特征子序列是目标源音频的特征序列中与目标拼接音频的特征序列相匹配的特征子序列；以及，在目标源音频的特征序列中继续对滑动窗口进行滑动以进行后续的滑窗匹配，直至滑动窗口滑动至目标源音频的特征序列终点；

若窗口特征子序列与目标拼接音频的特征序列之间的差异信息大于或等于差异阈值，则在目标源音频的特征序列中继续对滑动窗口进行滑动以进行后续的滑窗匹配，直至滑动窗口滑动至目标源音频的特征序列终点。

在一种实现方式中，每个拼接音频和音频库中的每个源音频均按照目标时长进行音频片段的划分；目标拼接音频所属的源音频的特征序列中，与目标拼接音频的特征序列相匹配的特征子序列表示为目标特征子序列；处理单元，用于确定目标拼接音频在其所属的源音频上的时序位置时，具体用于执行如下步骤：

获取目标特征子序列中的第一特征信息，在目标音频片段所属的源音频的特征序列中的第一排列序号，第一特征信息是目标特征子序列中时序位于首位的特征信息；以及，获取目标特征子序列中的第二特征信息，在目标拼接音频所属的源音频的特征序列中的第二排列序号，第二特征信息是目标特征子序列中时序位于末位的特征信息；

将第一排列序号与目标时长的乘积，确定为目标拼接音频在其所属的源音频上的开始时间点；

将第二排列序号与目标时长的乘积，确定为目标拼接音频在其所属的源音频上的结束时间点。

在一种实现方式中，目标拼接音频所属的源音频的特征序列中，存在与目标拼接音频的特征序列相匹配的多个特征子序列；处理单元，用于确定目标拼接音频在其所属的源音频上的时序位置时，具体用于执行如下步骤：

在多个相匹配的特征子序列中，确定与目标拼接音频的特征序列之间的差异信息最小的参考特征子序列；

根据参考特征子序列在目标拼接音频所属的源音频的特征序列中的排列位置，确定目标拼接音频在其所属的源音频上的时序位置。

在一种实现方式中，目标拼接音频的特征序列是由特征分析网络对目标拼接音频进行特征分析得到的；特征分析网络的训练过程，包括：

获取第一样本数据，第一样本数据包括多个样本音频，每个样本音频包括多个裁剪音频；

从第一样本数据中获取第m个样本音频中的第i个裁剪音频和第j个裁剪音频，以及，从第一样本数据中获取第n个样本音频中的第k个裁剪音频；m、n、i、j和k均为正整数，且m不等于n、i不等于j；

调用特征分析网络对第i个裁剪音频进行特征分析，得到第i个裁剪音频的特征序列；以及，调用特征分析网络对第j个裁剪音频进行特征分析，得到第j个裁剪音频的特征序列；以及，调用特征分析网络对第k个裁剪音频进行特征分析，得到第k个裁剪音频的特征序列；

根据第j个裁剪音频的特征序列与第i个裁剪音频的特征序列之间的第一差异信息，以及第j个裁剪音频的特征序列与第k个裁剪音频的特征序列之间的第二差异信息，对特征分析网络进行训练。

在一种实现方式中，处理单元，用于根据第j个裁剪音频的特征序列与第i个裁剪音频的特征序列之间的第一差异信息，以及第j个裁剪音频的特征序列与第k个裁剪音频的特征序列之间的第二差异信息，对特征分析网络进行训练时，具体用于执行如下步骤：

根据第一差异信息和第二差异信息，构建特征分析网络的损失信息；

按照减小特征分析网络的损失信息中第一差异信息，并增大特征分析网络的损失信息中第二差异信息的方向，更新特征分析网络的网络参数，以对特征分析网络进行训练。

在一种实现方式中，处理单元，用于根据音频中的各个音频片段的拼接预测结果，对音频进行音频业务处理时，还用于执行如下步骤：

若根据音频中的各个音频片段的拼接预测结果确定所述音频不包含音频拼接点，则在音频库中查询音频所属的源音频；

确定音频在其所属的源音频上的时序位置。

在一种实现方式中，音频为目标视频的背景音频；处理单元，还用于执行如下步骤：

获取目标视频在播放至各个拼接音频的所在时段时，目标视频的视频关注信息；

根据各个拼接音频对应的视频关注信息，分析各个拼接音频对目标视频的关注影响情况。

在一种实现方式中，音频为目标视频的背景音频；处理单元，用于根据音频中的各个音频片段的拼接预测结果，对音频进行音频业务处理时，具体用于执行如下步骤：

若根据音频中的各个音频片段的拼接预测结果确定音频包含音频拼接点，则对目标视频播放至音频拼接点时的视频内容进行特效检查；

若特效检查结果指示目标视频播放至音频拼接点时的视频内容存在视频特效，则确定视频特效的特效种类；

分析特效种类对目标视频的关注影响情况。

在一种实现方式中，特征分析是由拼接预测模型中的特征分析网络执行的；音频中的任一个音频片段表示为目标音频片段；处理单元，用于调用特征分析网络对目标音频片段进行特征分析，得到目标音频片段的特征信息时，具体用于执行如下步骤：

将目标音频片段从时域空间转换至频域空间，得到目标音频片段的频域信息；

对目标音频片段的频域信息进行特征提取，得到目标音频片段的特征信息。

在一种实现方式中，拼接预测是由拼接预测模型中的拼接预测网络执行的，拼接预测网络包括多个拼接预测单元，一个拼接预测单元用于对音频中的一个音频片段进行拼接预测；音频中的任一个音频片段表示为目标音频片段，拼接预测网络中的目标拼接预测单元用于对目标音频片段进行拼接预测；目标音频片段的前序音频片段的特征信息被保留至目标拼接预测单元的前一拼接预测单元的状态信息中，前一拼接预测单元的状态信息和前一拼接预测单元的输出信息被输入至目标拼接预测单元中；

处理单元，用于调用目标拼接预测单元基于目标音频片段的特征信息与目标音频片段的前序音频片段的特征信息，对目标音频片段进行拼接预测时，具体用于执行如下步骤：

根据前一拼接预测单元的输出信息和目标音频片段的特征信息，对前一拼接预测单元的状态信息进行遗忘分析，确定前一拼接预测单元的状态信息中需要保留的第一状态信息；

根据前一拼接预测单元的输出信息和目标音频片段的特征信息，对目标拼接预测单元进行记忆分析，确定前一拼接预测单元的输出信息和目标音频片段的特征信息中需要添加至目标拼接预测单元的状态信息的第二状态信息；

对第一状态信息和第二状态信息进行组合，得到目标拼接预测单元的状态信息；

根据前一拼接预测单元的输出信息和目标音频片段的特征信息，对目标拼接预测单元的状态信息进行输出分析，得到目标音频片段的拼接预测结果。

在一种实现方式中，特征分析是由拼接预测模型中的特征分析网络执行的，拼接预测是由拼接预测模型中的拼接预测网络执行的；拼接预测模型的训练过程，包括：

从第二样本数据中获取目标样本音频；所述第二样本数据包括多个样本音频，每个样本音频包括对相应样本音频划分得到的多个样本音频片段，第二样本数据还包括每个样本音频中的各个样本音频片段的拼接标记结果；目标样本音频为第二样本数据中的任一个样本音频；

调用特征分析网络对目标样本音频中的每个样本音频片段进行特征分析，得到每个样本音频片段的特征信息；

调用拼接预测网络基于目标样本音频中的各个样本音频片段的特征信息，对每个样本音频片段进行拼接预测，得到每个样本音频片段的拼接预测结果；

根据目标样本音频中的各个样本音频片段的拼接预测结果与拼接标记结果，对拼接预测模型进行训练。

在一种实现方式中，第二样本数据的获取方式，包括：

获取第一原始音频和第二原始音频；

从第一原始音频中截取第一音频片段，从第二原始音频中截取第二音频片段；

对第一音频片段和第二音频片段进行拼接处理，得到第二样本数据中的一个样本音频；或者，对第一音频片段和第二音频片段进行拼接处理后，截取包含音频拼接点的音频片段，得到第二样本数据中的一个样本音频；

生成样本音频中的各个样本音频片段的拼接标记结果。

相应地，本申请实施例提供一种计算机设备，该计算机设备包括：

处理器，适于实现计算机程序；

计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序适于由处理器加载并执行上述的音频处理方法。

相应地，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被计算机设备的处理器读取并执行时，使得计算机设备执行上述的音频处理方法。

相应地，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的音频处理方法。

本申请实施例中，音频可以被划分为多个音频片段，可以对每个音频片段进行特征分析，得到每个音频片段的特征信息，可以基于每个音频片段的特征信息与其前序音频片段的特征信息，对每个音频片段进行拼接预测，得到每个音频片段的拼接预测结果，拼接预测结果可以用于指示相应音频片段中音频拼接点的包含情况；也就是说，本申请可以将音频划分为更细粒度的多个音频片段，通过预测各个音频片段中音频拼接点的包含情况，来实现对音频进行音频拼接点预测。并且，音频片段的预测粒度小于音频的预测粒度，将音频划分为更小的粒度进行预测，这样能够提升对音频进行音频拼接点预测的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种音频拼接点的示意图；

图2是本申请实施例提供的一种音频处理系统的架构示意图；

图3是本申请实施例提供的一种音频处理方法的流程示意图；

图4是本申请实施例提供的一种拼接预测模型的结构示意图；

图5是本申请实施例提供的另一种音频处理方法的流程示意图；

图6是本申请实施例提供的一种滑窗匹配的示意图；

图7是本申请实施例提供的一种时序位置的确定过程示意图；

图8是本申请实施例提供的一种拼接音频的业务场景示意图；

图9是本申请实施例提供的另一种拼接音频的业务场景示意图；

图10是本申请实施例提供的一种音频处理方法的整体方案示意图；

图11是本申请实施例提供的一种特征分析网络的训练过程示意图；

图12是本申请实施例提供的一种音频处理装置的结构示意图；

图13是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

音频是指音频信号，是带有语音、音乐和音效等有规律的声波的频率、幅度变化信息载体，也就是说，音频可以包括语音、音乐、以及音效等。由多个拼接音频拼接而成的音频可以称为组合音频，不同拼接音频之间的拼接位置可以称为音频拼接点，可以理解为，音频拼接点是指组合音频中不同拼接音频之间的拼接时间点。如图1所示的音频是由3个拼接音频（分别是拼接音频1、拼接音频2和拼接音频3）拼接而成的组合音频，音频的时长为60s（秒），拼接音频1在音频中的播放时间为0-30s，拼接音频2在音频中的播放时间为30-48s，拼接音频3在音频中的播放时间为48-60s；可以看出，音频中包含2个音频拼接点，第一个音频拼接点为音频中播放时间为30秒的位置处，是拼接音频1和拼接音频2之间的音频拼接点，第二个音频拼接点为音频中播放时间为48秒的位置处，是拼接音频2和拼接音频3之间的音频拼接点。

基于此，本申请实施例提出一种可以较为准确地对音频进行音频拼接点预测的音频处理方法，该音频处理方法将音频划分为更小粒度的音频片段进行音频拼接点预测。本申请实施例提出的音频处理方法在预测出音频中包含音频拼接点后，还可以基于音频拼接点进行一系列的音频业务处理，例如：在基于音频拼接点将音频裁剪为多个拼接音频后，查询拼接音频所属的源音频，以及在拼接音频所属的源音频中对拼接音频进行时序定位；又如：当音频为视频的背景音频时，可以分析各个拼接音频对视频受关注程度的影响情况；再如：音频为视频的背景音频时，背景音频的音频拼接点通常与视频的特效点对应，可以通过音频拼接点查找视频中的特效点，分析特效种类对视频受关注程度的影响情况。可以看出，本申请实施例提出的音频处理方法包括音频拼接点预测以及预测出的音频拼接点在音频业务处理中的应用两个方面的内容。

本申请实施例提出的音频处理方法涉及人工智能（Artificial Intelligence，AI）技术领域的机器学习（Machine Learning，ML）技术，音频拼接点是采用机器学习的网络模型进行预测的。其中：

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

下面结合附图，对适于实现本申请实施例提供的音频处理方法的音频处理系统进行介绍。

如图2所示，音频处理系统中可以包括终端201和服务器202，终端201和服务器202之间可以通过有线通信的方式建立直接的通信连接，或者，终端201和服务器202之间可以通过无线通信的方式建立间接的通信连接。其中，终端201可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能手表、车载终端、智能家电、以及飞行器等中的任一种，但并不局限于此；服务器202可以是单独的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content DeliveryNetwork，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器，本申请实施例对此不进行限定。在由终端201和服务器202组成的音频处理系统中：

（1）模型训练阶段：

在此先介绍音频处理系统中涉及的网络模型，音频处理系统中涉及的网络模型可以包括：拼接预测模型（拼接预测模型可以包括特征分析网络（此处的特征分析网络可以理解为是第一特征分析网络）和拼接预测网络）和单独的特征分析网络（此处的特征分析网络可以理解为是第二特征分析网络）。其中，拼接预测模型中的特征分析网络（即第一特征分析网络）可以用于对音频中的每个音频片段进行特征分析，得到音频中的每个音频片段的特征信息；拼接预测模型中的拼接预测网络可以用于基于音频中的每个音频片段的特征信息和其前序音频片段的特征信息，对音频中的每个音频片段进行拼接预测，得到指示音频中的每个音频片段是否包含音频拼接点的拼接预测结果。单独的特征分析网络（即第二特征分析网络）可以用于对拼接音频中的每个音频片段进行特征分析，得到拼接音频中的每个音频片段的特征信息，还可以用于对音频库中的源音频中的每个音频片段进行特征分析，得到源音频中的每个音频片段的特征信息，拼接音频中的各个音频片段的特征信息和源音频中的各个音频片段的特征信息可以用于查询拼接音频所属的源音频，以及在拼接音频所属的源音频中对拼接音频进行时序定位。

模型训练阶段可以由音频处理系统中的服务器202执行。对于拼接预测模型，拼接预测模型中的特征分析网络（即第一特征分析网络）可以是经过预训练的特征分析网络，服务器202可以保持特征分析网络的网络参数不变，训练拼接预测模型中的拼接预测网络的拼接预测能力，即可以训练拼接预测模型中的拼接预测网络对音频片段进行音频拼接点预测的能力。对于单独的特征分析网络（即第二特征分析网络），单独的特征分析网络可以是经过预训练的特征分析网络，服务器202对单独的特征分析网络进行训练，可以理解为是对单独的特征分析网络进行微调，服务器202可以训练（或微调）单独的特征分析网络区分不同音频的能力。

（2）模型应用阶段：

在一种实现方式中，模型应用阶段可以由终端201执行，训练好的网络模型（即训练好的拼接预测模型和训练好的单独的特征分析网络）可以部署于终端201中。在此方式下，终端201可以调用拼接处理模型中的特征分析网络对音频中的每个音频片段进行分析，得到音频中的每个音频片段的特征信息；然后，终端201可以调用拼接处理模型中的拼接预测网络基于音频中的每个音频片段的特征信息和其前序音频片段的特征信息，对音频中的每个音频片段进行拼接预测，得到指示音频中的每个音频片段是否包含音频拼接点的拼接预测结果。

若根据音频中的各个音频片段的拼接预测结果确定音频中包含音频拼接点，则终端201可以基于预测得到的音频拼接点对音频进行音频业务处理。例如，对包含音频拼接点的音频进行的音频业务处理可以包括以下任一种或多种：第一种，基于音频拼接点将音频裁剪为多个拼接音频，调用单独的特征分析网络对拼接音频中的每个音频片段进行特征分析，得到拼接音频中的每个音频片段的特征信息，基于拼接音频中的各个音频片段的特征信息查询拼接音频所属的源音频；第二种，基于拼接音频中的各个音频片段的特征信息，在拼接音频所属的源音频中对拼接音频进行时序定位；第三种，当音频为视频的背景音频时，可以分析各个拼接音频对视频受关注程度的影响情况；第四种，当音频为视频的背景音频时，背景音频的音频拼接点通常与视频的特效点对应，可以通过音频拼接点查找视频中的特效点，分析特效种类对视频受关注程度的影响情况。

若根据音频中的各个音频片段的拼接预测结果确定音频中不包含音频拼接点，则终端201也可以对音频进行音频业务处理。例如，对不包含音频拼接点的音频进行的音频业务处理可以包括以下任一种或多种：第一种，调用单独的特征分析网络对音频中的每个音频片段进行特征分析，得到每个音频片段的特征信息，基于音频中的各个音频片段的特征信息查询音频段所属的源音频；第二种，基于音频中的各个音频片段的特征信息，在音频所属的源音频中对音频进行时序定位。

在另一种实现方式中，模型应用阶段可以由终端201和服务器202交互执行，训练好的网络模型可以部署于服务器202中。在此方式下，终端201可以将音频发送至服务器202，服务器202可以通过特征分析、拼接预测，得到音频中的每个音频片段的拼接预测结果；然后，服务器202可以将音频中各个音频片段的拼接预测结果发送至终端201中。若根据音频中的各个音频片段的拼接预测结果确定音频中包含音频拼接点，则终端201可以基于预测得到的音频拼接点对音频进行音频业务处理，若根据音频中的各个音频片段的拼接预测结果确定音频中不包含音频拼接点，则终端201也可以对音频进行音频业务处理。需要说明的是，对于训练好的网络模型部署于服务器202的方式而言，音频业务处理的流程与训练好的网络模型部署于终端201的方式类似，但存在一些区别，区别在于，对拼接音频或音频中的各个音频片段进行特征分析时，需要调用服务器202中部署的单独的特征分析网络进行特征分析。

可以理解的是，本申请实施例描述的音频处理系统是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

下面结合附图，对本申请实施例提供的音频处理方法进行更为详细地介绍。

本申请实施例提出一种音频处理方法，该音频处理方法主要介绍拼接预测模型对音频拼接点的预测过程，以及拼接预测模型的训练过程等内容。该音频处理方法可以由计算机设备执行，计算机设备可以是上述音频处理系统中的终端、或者终端与服务器的组合。如图3所示，该音频处理方法可以包括但不限于以下步骤S301-步骤S304：

S301，获取待处理的音频，音频包括对音频划分得到的多个音频片段。

待处理的音频可以包括对音频划分得到的多个音频片段，音频可以是按照目标时长进行划分的，也就是说，对音频划分得到的多个音频片段的时长是相等的，均为目标时长。举例来说，音频的时长为10s，目标时长为25ms（毫秒），则可以将音频划分为400个音频片段，每个音频片段的时长均为25ms，各个音频片段依次为播放时间为[0ms，25ms)的音频片段、播放时间为[25ms，50ms)的音频片段、…、播放时间为[9975ms，10000ms]的音频片段。

S302，对音频的每个音频片段进行特征分析，得到每个音频片段的特征信息。

如图4所示，特征分析可以是由拼接预测模型中的特征分析网络（即第一特征分析网络）执行的，也就是说，可以调用拼接预测模型中的特征分析网络对音频的每个音频片段进行特征分析，得到每个音频片段的特征信息。任一个音频片段的特征信息是指具有语义含义的特征向量（也可以称为Embedding向量（嵌入向量）），可以用于表征相应音频片段的频谱信息和时序信息。音频中的各个音频片段的特征信息可以组成音频的特征序列（或者可以称为音频的嵌入序列）。特别地，本申请实施例不对拼接预测模型中采用的特征分析网络进行限定，例如，拼接预测模型中采用的特征分析网络（即第一特征分析网络）可以是VGGish（即第一VGGish），VGGish是经AudioSet音频数据集训练得到的音频模型，可以对输入的音频产生128维的Embedding向量；也就是说，调用拼接预测模型中的特征分析网络对音频的每个音频片段进行特征分析得到的特征信息均是128维的Embedding向量。

为了便于理解特征分析的过程，在此以音频中的任一个音频片段为例，介绍拼接预测模型中的特征分析网络对音频片段进行特征分析的过程。音频中的任一个音频片段可以表示为目标音频片段，调用拼接预测模型中的特征分析网络，对目标音频片段进行特征分析，得到目标音频片段的特征信息的过程，可以包括：将目标音频片段从时域空间转换至频域空间，得到目标音频片段的频域信息（也可以称为目标音频片段的频谱信息）；然后，对目标音频片段的频域信息进行特征提取，得到目标音频片段的特征信息。

进一步地，特征提取可以是采用特征分析网络中的多个特征提取层和全连接层执行的。具体来说，可以调用第一个特征提取层对目标音频片段进行特征提取，得到第一个特征提取层的特征提取结果，调用第二个特征提取层对第一个特征提取层的特征提取结果进行特征提取，得到第二个特征提取层的特征提取结果，以此类推，在得到最后一个特征提取层的特征提取结果后，可以调用全连接层将最后一个特征提取层的特征提取结果映射至固定维数（即128维），得到目标音频片段的特征信息。其中，每个特征提取层可以是由卷积层和池化层组成的，卷积层可以用于进行特征提取，池化层可以用于减小特征尺寸，减少计算量。

S303，基于音频中的各个音频片段的特征信息，对每个音频片段进行拼接预测，得到每个音频片段的拼接预测结果；每个音频片段的拼接预测结果是基于每个音频片段的特征信息与其前序音频片段的特征信息进行拼接预测得到的。

在经过特征分析得到音频中的各个音频片段的特征信息后，可以基于音频中的各个音频片段的特征信息，对每个音频片段进行拼接预测，得到每个音频片段的拼接预测结果。任一个音频片段的拼接预测结果可以用于指示相应音频片段中音频拼接点的包含情况，也就是说，任一个音频片段的拼接预测结果可以用于指示相应音频片段是否包含音频拼接点；进一步地，拼接预测结果是可以用于指示相应音频片段是否包含音频拼接点的概率值，范围在0到1之间，如果概率值大于0.5，那么可以认为相应音频片段包含音频拼接点，如果概率值小于或等于0.5，那么可以认为相应音频片段不包含音频拼接点。每个音频片段的拼接预测结果可以是基于每个音频片段的特征信息与其前序音频片段的特征信息进行拼接预测得到的，也就是说，可以基于每个音频片段的特征信息与其前序音频片段的特征信息，对每个音频片段进行拼接预测，得到每个音频片段的拼接预测结果；音频片段的前序音频片段是指在时间顺序上排列于音频片段之前的音频片段，例如，播放时间为[25ms，50ms)的音频片段的前序音频片段是播放时间为[0ms，25ms)的音频片段，又如，播放时间为[50ms，75ms)的音频片段的前序音频片段是播放时间为[0ms，25ms)的音频片段和播放时间为[25ms，50ms)的音频片段。

如图4所示，拼接预测可以是由拼接预测模型中拼接预测网络执行的，也就是说，可以调用拼接预测模型中的拼接预测网络，基于每个音频片段的特征信息与其前序音频片段的特征信息，对每个音频片段进行拼接预测，得到每个音频片段的拼接预测结果。本申请实施例不对拼接预测模型中采用的拼接预测网络进行限定，例如，拼接预测网络可以是LSTM（Long Short-Term Memory，长短期记忆网络），LSTM是一种时间循环神经网络，LSTM具备长期记忆功能，可以在拼接预测过程中，记忆当前音频片段的前序音频片段的特征信息中的有用信息，在对当前音频片段进行拼接预测时，可以结合当前音频片段的前序音频片段的特征信息中的有用信息和当前音频片段的特征信息一起，对当前音频片段进行拼接预测，相比于基于当前音频片段的特征信息对当前音频片段进行拼接预测的方式而言，这样的拼接预测方式更准确。进一步地，拼接预测网络中可以包括多个拼接预测单元，一个拼接预测单元可以用于对音频中的一个音频片段进行拼接预测。

为了便于理解特征分析的过程，在此以音频中的任一个音频片段为例，介绍拼接预测模型中的拼接预测网络对音频片段进行拼接预测的过程。音频中的任一个音频片段可以表示为目标音频片段，拼接预测网络中的目标拼接预测单元可以用于对目标音频片段进行拼接预测，目标音频片段的前序音频片段的特征信息可以被保留（即记忆）至目标拼接预测单元的前一拼接预测单元的状态信息中，前一拼接预测单元的状态信息和前一拼接预测单元的输出信息被输入至目标拼接预测单元中。调用目标拼接预测单元基于目标音频片段的特征信息与目标音频片段的前序音频片段的特征信息，对目标音频片段进行拼接预测的过程，具体可以包括：

①根据前一拼接预测单元的输出信息和目标音频片段的特征信息，对前一预测单元的状态信息进行遗忘分析，确定前一拼接预测单元的状态信息中需要保留的第一状态信息；此处的遗忘分析具体是指根据前一拼接预测单元的输出信息和目标音频片段的特征信息确定遗忘权重，通过遗忘权重控制前一拼接预测单元的状态信息中需要保留的第一状态信息。②根据前一拼接预测单元的输出信息和目标音频片段的特征信息，对目标拼接预测单元进行记忆分析，确定前一拼接预测单元的输出信息和目标音频片段的特征信息中需要添加至目标拼接预测单元的状态信息的第二状态信息；此处的记忆分析具体是指根据前一拼接预测单元的输出信息和目标音频片段的特征信息确定记忆权重，通过记忆权重控制前一拼接预测单元的输出信息和目标音频片段的特征信息中需要添加至目标拼接预测单元的状态信息的第二状态信息。③对第一状态信息和第二状态信息进行组合，得到目标拼接预测单元的状态信息，此处的组合具体可以是指第一状态信息加上第二状态信息。④根据前一拼接预测单元的输出信息和目标音频片段的特征信息，对目标拼接预测单元的状态信息进行输出分析，得到目标音频片段的拼接预测结果；此处的输出分析具体是指根据前一拼接预测单元的输出信息和目标音频片段的特征信息确定输出权重，通过输出权重控制目标拼接预测单元的状态信息中需要输出的信息作为目标音频片段的拼接预测结果。

可以看出，通过遗忘分析，可以遗忘（即去除）目标音频片段的前序音频片段的特征信息中与目标音频片段的拼接预测无关的信息，保留目标音频片段的前序音频片段的特征信息中与目标音频片段的拼接预测有关的信息；通过记忆分析，可以保留目标音频片段的特征信息和目标音频片段的前序音频片段的特征信息中，与目标音频片段的拼接预测有关的信息；通过输出分析，可以整合遗忘分析和记忆分析中两部分与目标音频片段的拼接预测有关的信息，对目标音频片段进行拼接预测。也就是说，基于拼接预测网络的长期记忆功能，目标音频片段的前序音频片段的特征信息中的有用信息被得以保留，在对目标音频片段进行拼接预测时，可以结合目标音频片段的特征信息和目标音频片段的前序音频片段的特征信息，能够有效提升对音频片段进行拼接预测的准确率。

需要说明的是，以上步骤S302-步骤S303介绍了拼接预测模型是如何在音频分析的过程中应用的，即介绍了拼接预测模型的应用过程，下面将介绍拼接预测模型的训练过程，介绍拼接预测模型的训练过程时，分为样本数据准备阶段和模型训练阶段两个部分进行介绍：

（1）拼接预测模型的样本数据准备阶段：

用于对拼接预测模型进行训练的样本数据可以称为第二样本数据，第二样本数据中可以包括多个样本音频，每个样本音频可以包括对相应样本音频进行划分得到的多个样本音频片段，样本音频可以是按照目标时长进行划分的；第二样本数据中还可以包括每个样本音频中的各个样本音频片段的拼接标记结果，样本音频片段的拼接标记结果是指样本音频片段中是否包含音频拼接点的标签，如果样本音频片段中包含音频拼接点，那么标签为“1”，如果样本音频片段中不包含音频拼接点，那么标签为“0”。

第二样本数据的获取方式，具体可以包括：首先，可以获取第一原始音频和第二原始音频，从第一原始音频中截取第一音频片段，从第二原始音频中截取第二音频片段。其次，可以对第一音频片段和第二音频片段进行拼接处理，得到第二样本数据中的一个样本音频；或者，可以对第一音频片段和第二音频片段进行拼接处理后，截取包含音频拼接点的音频片段，得到第二样本数据中的一个样本音频。然后，可以生成样本音频中的各个样本音频片段的拼接标记结果。

举例来说，可以准备包含1000个原始音频的数据集，在时间维度上随机抽取两个不同原始音频中30秒的原始音频片段，将两个不同原始音频中的原始音频片段进行首尾拼接合成一段60秒的样本音频；或者，可以准备包含1000个原始音频的数据集，在时间维度上随机抽取两个不同原始音频中30秒的原始音频片段，将两个不同原始音频中的原始音频片段进行首尾拼接合成一段60秒的合成音频，再将这个合成音频重新裁剪为包含音频拼接点的30秒音频片段作为样本音频。按此重复操作可以获得包含1000×1000=1000000个样本音频的第二样本数据。从第二样本数据的获取方式可以看出，第二样本数据中的样本音频一定会包含音频拼接点，并且，样本音频的各个音频片段中存在包含音频拼接点的音频片段和不包含音频拼接点的音频片段，这样有利于训练拼接预测模型预测音频拼接点的能力。

（2）拼接预测模型的训练阶段：

第二样本数据中可以包括多个样本音频，一个样本音频可以用于对拼接预测模型进行一次训练，拼接预测模型的训练终止条件可以包括：对拼接预测模型的训练次数达到次数阈值，或者，拼接预测模型的损失信息小于损失阈值。为了便于理解，在此以第二样本数据中的任一个样本音频为例，介绍拼接预测模型的一次训练过程。第二样本数据中的任一个样本音频可以表示为目标样本音频，基于目标样本音频的一次拼接预测模型的训练过程，可以包括：

①调用拼接预测模型中的特征分析网络对目标样本音频中的每个样本音频片段进行特征分析，得到每个样本音频片段的特征信息；模型训练阶段中，拼接预测模型中的特征分析网络对目标样本音频中的每个样本音频片段进行特征分析的过程，与模型应用阶段中，拼接预测模型中的特征分析网络对音频中的每个音频片段进行特征分析的过程类似，在此不再赘述，具体可以参见上述模型应用阶段中的特征分析过程。目标样本音频中的各个样本音频片段的特征信息可以组成目标样本音频的特征序列（或者可以称为目标样本音频的嵌入序列），目标样本音频的特征序列可以表示为，T表示目标样本音频中包括T个样本音频片段，/>表示目标样本音频中的第r个样本音频片段的特征信息，T为大于1的整数，r为小于或等于T的正整数。

②调用拼接预测模型中的拼接预测网络基于目标样本音频中的各个样本音频片段的特征信息，对每个样本音频片段进行拼接预测，得到每个样本音频片段的拼接预测结果；模型训练阶段中，拼接预测模型中的拼接预测网络基于目标样本音频中的各个样本音频片段的特征信息对每个样本音频片段进行拼接预测的过程，与模型应用阶段中，拼接预测模型中的拼接预测网络基于音频中的各个音频片段的特征信息对每个音频片段进行拼接预测的过程类似，在此不再赘述，具体可以参见上述模型应用阶段中的拼接预测过程。拼接预测过程具体可以表示为如下公式1：

公式1

在上述公式1中，表示目标样本音频的特征序列；/>表示拼接预测模型中的拼接预测网络；/>表示目标样本音频中的各个样本音频片段的拼接预测结果，其中，/>表示目标样本音频中的第r个样本音频片段的拼接预测结果，/>。

③根据目标样本音频中的各个样本音频片段的拼接预测结果与拼接标记结果，对所述拼接预测网络进行训练。具体来说，可以根据目标样本音频中的各个样本音频片段的拼接预测结果与拼接标记结果，构建拼接预测模型的损失信息；然后，可以固定拼接预测模型中的特征分析网络的网络参数不变，基于拼接预测模型的损失信息，更新拼接预测模型中的拼接预测网络的网络参数。拼接预测模型的损失信息可以表示为如下公式2：

公式2

在上述公式2中，表示目标样本音频中的第r个样本音频片段的拼接预测结果；表示目标样本音频中的第r个样本音频片段的拼接标记结果。

值得注意的是，本申请不对拼接预测模型中的拼接预测网络的网络参数的更新方法进行限定，更新方法例如可以为SGD（Stochastic Gradient Descent，随机梯度下降法），采用SGD更新拼接预测模型中的拼接预测网络的网络参数的方法可以包括：计算拼接预测模型的损失信息的梯度，然后沿着梯度的反方向更新拼接预测模型中的拼接预测网络的网络参数，来最小化拼接预测模型的损失信息。采用SDG作为更新方法的好处是，每次使用一个样本（即一个样本音频）进行梯度计算和参数更新，模型训练效率更高，有可能跳出局部最优解，找到全局最优解。

S304，根据音频中的各个音频片段的拼接预测结果，对音频进行音频业务处理。

在得到音频中的各个音频片段的拼接预测结果后，可以根据音频中的各个音频片段的拼接预测结果，确定音频中音频拼接点的包含情况；然后，可以根据音频中音频拼接点的包含情况，对音频进行音频业务处理，当音频中包含音频拼接点时，可以对音频进行包含音频拼接点的音频业务处理，当音频中不包含音频拼接点时，可以对音频进行不包含音频拼接点的音频业务处理。

本申请实施例中，在拼接预测模型的应用阶段，可以将音频划分为更细粒度的多个音频片段，通过拼接预测模型预测各个音频片段中音频拼接点的包含情况，来实现对音频进行音频拼接点预测；音频片段的预测粒度小于音频的预测粒度，将音频划分为更小的粒度进行预测，这样能够提升对音频进行音频拼接点预测的准确率；并且，基于拼接预测模型中的拼接预测网络的长期记忆功能，当前音频片段的前序音频片段的特征信息中的有用信息被得以保留，在对当前音频片段进行拼接预测时，可以结合当前音频片段的特征信息和当前音频片段的前序音频片段的特征信息，能够有效提升对音频片段进行拼接预测的准确率。在拼接预测模型的训练阶段，样本数据的获取方式使得样本音频中包括包含音频拼接点的样本音频片段和不包含音频拼接点的样本音频片段，有利于训练拼接预测模型预测音频拼接点的能力；采用SDG作为拼接预测模型中拼接预测网络的网络参数更新方法，每次使用一个样本进行梯度计算和参数更新，可以提高模型训练效率，并且SDG有利于跳出局部最优解，找到全局最优解。

本申请实施例提供一种音频处理方法，该音频处理方法主要介绍预测得到的音频拼接点的应用。该音频处理方法可以由计算机设备执行，计算机设备可以是上述音频处理系统中的终端、或者终端与服务器的组合。如图5所示，该音频处理方法可以包括但不限于以下步骤S501-步骤S508：

S501，获取待处理的音频，音频包括对音频划分得到的多个音频片段。

本申请实施例中，步骤S501的执行过程与上述图3所示实施例中步骤S301的执行过程相同，具体执行过程可参见上述图3所示实施例中步骤S301的描述，在此不再赘述。

S502，对音频的每个音频片段进行特征分析，得到每个音频片段的特征信息。

本申请实施例中，步骤S502的执行过程与上述图3所示实施例中步骤S302的执行过程相同，具体执行过程可参见上述图3所示实施例中步骤S302的描述，在此不再赘述。

S503，基于音频中的各个音频片段的特征信息，对每个音频片段进行拼接预测，得到每个音频片段的拼接预测结果；每个音频片段的拼接预测结果是基于每个音频片段的特征信息与其前序音频片段的特征信息进行拼接预测得到的。

本申请实施例中，步骤S503的执行过程与上述图3所示实施例中步骤S303的执行过程相同，具体执行过程可参见上述图3所示实施例中步骤S303的描述，在此不再赘述。

在得到音频中的各个音频片段的拼接预测结果后，若音频中存在至少一个音频片段的拼接预测结果指示包含音频拼接点，则可以确定音频包含音频拼接点，则可以执行本申请实施例中的步骤S504-步骤S506，步骤S504-步骤S506介绍对音频进行包含音频拼接点的音频业务处理逻辑；若音频中的各个音频片段的拼接预测结果均指示不包含音频拼接点，则可以确定音频不包含音频拼接点，则可以执行本申请实施例中的步骤S507-步骤S508，步骤S507-步骤S508介绍对音频进行不包含音频拼接点的音频业务处理逻辑。

S504，若根据音频中的各个音频片段的拼接预测结果确定音频包含音频拼接点，则根据音频拼接点对音频进行裁剪处理，得到多个拼接音频。

若根据音频中的各个音频片段的拼接预测结果确定音频包含音频拼接点，则可以根据音频拼接点对音频进行裁剪处理，得到多个拼接音频。裁剪处理是指将音频拼接点作为裁剪点，将音频切分为两个拼接音频（对应于音频包含一个音频拼接点的情况）或两个以上拼接音频（对应于音频包含两个及两个以上音频拼接点的情况）的过程。需要说明的是，在本申请实施例中，可以将对音频进行划分处理时采用的目标时长设置为比较小的数值，这样可以使得对音频划分得到的各个音频片段的时长非常短，在根据拼接预测结果确定音频片段存在音频拼接点时，可以将存在音频拼接点的音频片段近似看作音频拼接点进行裁剪处理，这样可以省去在存在音频拼接点的音频片段中对音频拼接点的位置进行二次定位的时间消耗，能够在一定程度上提升后续音频业务处理的效率。

S505，在音频库中查询每个拼接音频所属的源音频。

在一些音频业务场景中，可能存在查询拼接音频所属的源音频的需求，例如，视频的背景音频是从不同源音频中截取一部分音频后拼接而成的组合音频，观看视频的对象可能想要了解视频的背景音频是由哪些源音频组成的，因此，在根据音频拼接点对音频进行裁剪处理，得到多个拼接音频后，可以在音频库中查询每个拼接音频所属的源音频。音频库中可以包括大量的源音频，可以通过将拼接音频中的特征序列（拼接音频中的特征序列可以包括拼接音频中的各个音频片段的特征信息），与源音频的特征序列（源音频的特征序列可以包括源音频中的各个音频片段的特征信息）进行匹配的方式，确定拼接音频所属的源音频，如果源音频的特征序列中存在与拼接音频的特征序列相匹配的特征子序列，那么可以确定源音频是拼接音频所属的源音频。为了便于理解拼接音频与源音频之间的匹配过程，在此以音频中的任一个拼接音频为例，介绍拼接音频与源音频之间的匹配过程。对音频进行裁剪处理得到的多个拼接音频中的任一个拼接音频可以表示为目标拼接音频，音频库中的任一个源音频可以表示为目标源音频，在音频库中查询目标拼接音频所属的源音频的过程，即目标拼接音频与目标源音频之间的匹配过程，可以包括：

首先，可以获取目标拼接音频的特征序列，目标拼接音频的特征序列可以包括目标拼接音频中的各个音频片段的特征信息，目标拼接音频中的各个音频片段可以是按照目标时长对目标拼接音频进行划分得到的，目标拼接音频中的每个音频片段的特征信息可以是由单独的特征分析网络（即第二特征分析网络），对目标拼接音频中的每个音频片段进行特征分析得到的。以及，可以获取目标源音频的特征序列，目标源音频的特征序列可以包括目标源音频中的各个音频片段的特征信息，目标源音频中的各个音频片段可以是按照目标时长对目标源音频进行划分得到的，目标源音频中的每个音频片段的特征信息可以是由单独的特征分析网络（即第二特征分析网络），对目标源音频中的每个音频片段进行特征分析得到的。其次，可以在目标拼接音频的特征序列与目标源音频的特征序列之间进行滑窗匹配；滑窗匹配是指设置一个滑动窗口在目标源音频的特征序列中进行滑动，滑动窗口的滑动步长为目标源音频的特征序列中的一个特征信息的长度，滑动窗口的窗口长度与目标拼接音频的特征序列长度相同，滑动窗口每滑动到一个位置，将滑动窗口内的窗口特征子序列与目标拼接音频的特征子序列进行匹配检查。然后，若目标源音频的特征序列中存在与目标拼接音频的特征序列相匹配的特征子序列，则可以确定目标源音频是目标拼接音频所属的源音频。

进一步地，在目标拼接音频的特征序列与目标源音频的特征序列之间进行滑窗匹配的过程，具体可以包括：当滑动窗口在目标源音频的特征序列中滑动至当前滑动位置时，获取滑动窗口在当前滑动位置所包含的窗口特征子序列；滑动窗口的窗口长度与目标拼接音频的特征序列长度相同，也就是说，窗口特征子序列中包含的特征信息数量与目标拼接音频的特征序列中包含的特征信息数量相同。若窗口特征子序列与目标拼接音频的特征序列之间的差异信息小于差异阈值，则可以确定窗口特征子序列是目标源音频的特征序列中与目标拼接音频的特征序列相匹配的特征子序列；以及，在目标源音频的特征序列中继续对滑动窗口进行滑动以进行后续的滑窗匹配，直至滑动窗口滑动至目标源音频的特征序列终点。若窗口特征子序列与目标拼接音频的特征序列之间的差异信息大于或等于差异阈值，则可以在目标源音频的特征序列中继续对滑动窗口进行滑动以进行后续的滑窗比对，直至滑动窗口滑动至目标源音频的特征序列终点。

图6示出了一种示例性的滑窗匹配的过程：滑动窗口（如图6所示的虚线框表示滑动窗口）在目标源音频的特征序列中从第一滑动位置开始进行滑动匹配；将目标拼接音频的特征序列与滑动窗口在第一滑动位置所包含的窗口特征子序列进行匹配检查；在得到第一滑动位置的匹配检查结果后，将滑动窗口向后滑动一个特征信息的长度，得到第二滑动位置；将目标拼接音频的特征序列与滑动窗口在第二滑动位置所包含的窗口特征子序列进行匹配检查；以此类推，直至滑动至目标源音频的特征序列终点。然后，可以根据各个滑动位置的匹配检查结果确定目标源音频的特征序列中是否存在，与目标拼接音频的特征序列相匹配的特征子序列，若存在，则可以确定目标源音频是目标拼接音频所属的源音频，否则，目标源音频不是目标拼接音频的源音频。

在目标拼接音频的特征序列与目标源音频的特征序列之间进行滑窗匹配的过程中，窗口特征子序列与目标拼接音频的特征序列之间的差异信息，具体可以是指窗口特征子序列与目标拼接音频的特征序列之间的距离；更为详细地，窗口特征子序列与目标拼接音频的特征序列之间的距离，可以采用窗口特征子序列与目标拼接音频的特征序列之间的平均绝对值误差进行表示。差异阈值可以采用目标比例下的目标拼接音频的特征序列的平均绝对值进行表示。窗口特征子序列与目标拼接音频的特征子序列之间匹配可以表示为如下公式3：

公式3

在上述公式3中，表示窗口特征子序列与目标拼接音频的特征序列之间的平均绝对值误差，/>表示目标拼接音频的特征序列，/>表示窗口特征子序列；可以展开为目标拼接音频的特征序列中的各个特征信息，与窗口特征子序列中的对应特征信息之间的差值绝对值之和，例如，/>可以展开为，/>表示目标拼接音频的特征序列中的第i个特征信息，表示窗口特征子序列中的第i个特征信息。/>表示目标拼接音频的特征序列平均绝对值，/>可以展开为目标拼接音频的特征序列中的各个特征信息的绝对值之和，例如，可以展开为/>，/>表示目标拼接音频的特征序列中的第i个特征信息。10%为目标比例。

可以看出，通过将滑动窗口的滑动步长设置为一个特征信息的长度，可以保证源音频的特征序列中所有可能存在的特征子序列，均与目标拼接音频的特征序列进行匹配检查，避免遗漏了源音频的特征序列中的某些特征子序列，导致无法查询到目标拼接音频所属的源音频的情况发生。并且，采用目标拼接音频的特征序列与特征子序列之间的距离，可以较为准确地表征目标拼接音频的特征序列与特征子序列之间的差异，距离越远，差异越大。

S506，确定每个拼接音频在其所属的源音频上的时序位置。

在一些音频业务场景中，除了可能存在查询拼接音频所属的源音频的需求外，还可能存在查询拼接音频在其所属的源音频上的时序位置的需求，例如，视频的背景音频是从不同源音频中截取一部分音频后拼接而成的组合音频，观看视频的对象可能想要了解视频的背景音频是由哪些源音频组成的，以及背景音频的各个组成部分分别出现在其所属的源音频的哪个位置，因此，需要确定每个拼接音频在其所属的源音频上的出现位置，每个拼接音频在其所属的源音频上的出现位置可以描述为每个拼接音频在其所属的源音频上的时序位置，任一个拼接音频在其所属的源音频上的时序位置可以包括：任一个拼接音频在其所属的源音频上的开始时间点和任一个拼接音频在其所属的源音频上的结束时间点。为了便于理解拼接音频在其所属的源音频上的时序位置的确定过程，在此以对音频裁剪得到的任一个拼接音频为例进行介绍。对音频裁剪得到的任一个拼接音频可以表示为目标拼接音频，目标拼接音频在其所属的源音频上的时序位置的确定过程，可以包括：

目标拼接音频所属的源音频的特征序列中，与目标拼接音频的特征序列相匹配的特征子序列可以表示为目标特征子序列，目标拼接音频在其所属的源音频上的时序位置，可以理解为是，目标特征子序列对应的部分音频在目标拼接音频所属的源音频上的时序位置。而目标拼接音频所属的源音频的特征序列中的各个特征信息，是对目标拼接音频所属的源音频中的各个时长为目标时长的音频片段进行特征分析得到的，因此，只需将特征信息在目标拼接音频所属的源音频的特征序列上的排列序号乘以目标时长，便可以得到特征信息对应的音频片段在目标拼接音频所属的源音频上的大致出现位置。基于此，可以获取目标特征子序列中的第一特征信息，在目标音频片段所属的源音频的特征序列中的第一排列序号，第一特征信息是目标特征子序列中时序位于首位的特征信息，以及，可以获取目标特征子序列中的第二特征信息，在目标音频片段所属的源音频的特征序列中的第二排列序号，第二特征信息是目标特征子序列中时序位于末位的特征信息；然后，可以将第一排列序号与目标时长的乘积，确定为目标拼接音频在其所属的源音频上的开始时间点，将第二排列序号与目标时长的乘积，确定为目标拼接音频在其所属的源音频上的结束时间点。

如图7所示，目标特征子序列中时序位于首位的第一特征信息，在目标拼接音频所属的源音频的特征序列中排列于第7位，目标特征子序列中时序位于末位的第二特征信息，在目标拼接音频所属的源音频的特征序列中排列于第12位，从而，当目标时长为25ms时，目标拼接音频在其所属的源音频上的开始时间点为7×25ms=175ms，目标拼接音频在其所属的源音频上的结束时间点为12×25ms=300ms。

特别地，当目标拼接音频所属的源音频的特征序列中，存在与目标拼接音频的特征序列相匹配的多个特征子序列时，可以在多个相匹配的特征子序列中，确定与目标拼接音频的特征序列之间的差异信息最小的参考特征子序列，然后，可以根据参考特征子序列在目标拼接音频所属的源音频的特征序列中的排列位置，确定目标拼接音频在其所属的源音频上的时序位置，这是因为特征子序列与目标拼接音频的特征序列之间的差异越小，表明特征子序列与目标拼接音频的特征序列之间越相似，特征子序列在目标拼接音频所属的源音频中对应的部分音频是目标拼接音频的可能性越大。根据参考特征子序列在目标拼接音频所属的源音频的特征序列中的排列位置，确定目标拼接音频在其所属的源音频上的时序位置的过程，与上述当目标拼接音频所属的源音频的特征序列中，与目标拼接音频的特征序列相匹配的特征子序列为目标特征子序列时，确定目标拼接音频在其所属的源音频上的时序位置的过程相似，在此不再赘述。

在确定每个拼接音频所属的源音频和每个拼接音频在其所属的源音频上的时序位置后，可以基于每个拼接音频在其所属的源音频上的时序位置，对每个拼接音频进行音频业务处理。音频业务处理例如可以为，当音频为视频的背景音频时，在播放视频的过程中，若视频观看对象存在背景音频查询需求时，可以向视频观看对象输出背景音频中的每个拼接音频所属的源音频，若任一个拼接音频所属的源音频被触发，则可以播放拼接音频所属的源音频，并且，可以基于拼接音频在其所属的源音频上的时序位置，直接跳转至拼接音频进行播放；上述基于每个拼接音频在其所属的源音频上的时序位置的音频业务处理，可以增强视频观看对象观看视频时的互动性和乐趣，可以较好地满足视频观看对象的背景音频查询需求。

值得注意的是，在根据音频中的各个音频片段的拼接预测结果确定音频包含音频拼接点的情况下，对根据音频拼接点对音频进行裁剪处理，得到多个拼接音频后，除了可以在音频库中查询每个拼接音频所属的源音频，以及确定每个拼接音频在其所属的源音频中的时序位置，基于每个拼接音频在其所属的源音频上的时序位置，对每个拼接音频进行音频业务处理外，当音频为视频的背景音频时，还可以分析各个拼接音频与视频受关注程度之间的关系。如图8所示，音频为目标视频的背景音频，目标视频可以是受关注程度较高的视频（例如，视频被点赞次数高于点赞阈值，视频被收藏次数高于收藏阈值，视频被浏览次数高于浏览阈值，视频被评论次数高于评论阈值，等等）；可以获取目标视频在播放至各个拼接音频的所在时段时，目标视频的视频关注信息，视频关注信息可以包括但不限于以下至少一种：被点赞次数、被收藏次数、被浏览次数、以及被评论数量。然后，可以根据各个拼接音频对应的视频关注信息，分析各个拼接音频对视频的关注影响情况；例如，可以在各个拼接音频中选择出视频关注信息最高的拼接音频，可以认为视频关注信息最高的拼接音频能够在一定程度上提升视频受关注程度，可以在一些视频客户端（例如，视频应用程序、视频小程序，等等）中向视频观看对象推荐视频关注信息最高的拼接音频，或者可以在一些视频客户端中将视频关注信息最高的拼接音频自动添加为视频的背景音频。可以看出，对于视频的背景音频，通过拼接预测得到的音频拼接点将背景音频裁剪为多个拼接音频后，有利于分析拼接音频与视频受关注程度之间的关系，扩展了视频分析方式。

此外，当音频为视频的背景音频时，背景音频中的音频拼接点通常与视频的特效点对应，可以通过音频拼接点查找视频中的特效点，分析特效种类对视频受关注程度的影响情况。如图9所示，音频为目标视频的背景音频，目标视频可以是受关注程度较高的视频，若根据音频中的各个音频片段的拼接预测结果确定音频包含音频拼接点，则可以对目标视频播放至音频拼接点时的视频内容进行特效检查；若特效检查结果指示目标视频播放至音频拼接点时的视频内容存在视频特效，则确定视频特效的特效种类；然后，可以分析特效种类对目标视频的关注影响情况，例如，当视频中存在多个特效种类时，可以获取目标视频在播放至各个特效种类的所在时段时，目标视频的视频关注信息，在各个特效种类中选择出视频关注信息最高的特效种类，可以认为视频关注信息最高的特效种类能够在一定程度上提升视频受关注程度，可以在一些视频客户端（例如，视频应用程序、视频小程序，等等）中向视频观看对象推荐视频关注信息最高的特效种类，或者可以在一些视频客户端中自动为视频添加视频关注信息最高的特效种类。可以看出，对于视频的背景音频，通过拼接预测得到的音频拼接点可以识别视频中的特效点，有利于分析特效种类与视频受关注程度之间的关系，扩展了视频分析方式。

S507，若根据音频中的各个音频片段的拼接预测结果确定音频不包含音频拼接点，则在音频库中查询音频所属的源音频。

在一些音频业务场景中，可能存在音频所属的源音频的需求，例如，视频的背景音频是从源音频中截取的一部分音频，观看视频的对象可能想要了解视频的背景音频是从哪个源音频中截取的，因此，在根据音频中的各个音频片段的拼接预测结果确定音频不包含音频拼接点的情况下，也可以在音频库中查询音频所属的源音频。在音频库中查询音频所属的源音频的过程与在音频库中查询拼接音频所属的源音频的过程类似，在此不再赘述，具体可以参见上述在音频库中查询拼接音频所属的源音频的过程。

S508，确定音频在其所属的源音频上的时序位置。

在一些音频业务场景中，除了可能存在查询音频所属的源音频的需求外，还可能存在查询音频在其所属的源音频上的时序位置的需求，例如，视频的背景音频是从源音频中截取的一部分音频，观看视频的对象可能想要了解视频的背景音频是从哪个源音频中截取的，以及背景音频出现在其所属的源音频的哪个位置，因此，需要确定音频在其所属的源音频上的出现位置，音频在其所属的源音频上的出现位置，可以描述为音频在其所属的源音频上的时序位置。确定音频在其所属的源音频上的时序位置的过程，与确定拼接音频在其所属的源音频上的时序位置的过程类似，在此不再赘述，具体可以参见确定拼接音频在其所属的源音频上的时序位置的过程。

综上步骤S501-步骤508的内容，音频处理方法的整体方案可总结为图10，如图10所示，对于待处理的音频，可以调用拼接预测模型（包括第一特征分析网络和拼接预测网络）预测音频中音频拼接点的包含情况。当音频中包含音频拼接点时，可以根据音频拼接点将音频裁剪为多个拼接音频；对于拼接音频，可以调用第二特征分析网络对拼接音频进行特征分析，得到拼接音频的特征序列，通过在拼接音频的特征序列与音频库中的源音频的特征序列之间进行滑窗匹配，可以确定拼接音频所属的源音频以及拼接音频在其所属的源音频中的时序位置，音频库中的源音频的特征序列也是调用第二特征分析网络对源音频进行特征分析得到的；或者，对于拼接音频，当音频为视频的背景音频时，可以分析拼接音频对目标视频的关注影响情况。当音频是视频的背景音频且音频中包含音频拼接点时，还可以通过音频拼接点查找视频中的视频特效，分析特效种类对视频的关注影响情况。当音频中不包含音频拼接点时，可以调用第二特征分析网络对音频进行特征分析，得到音频的特征序列，通过在音频的特征序列与音频库中的源音频的特征序列之间进行滑窗匹配，可以确定音频所属的源音频以及音频在其所属的源音频中的时序位置。

需要说明的是，以上步骤S504-步骤S508中，目标拼接音频的特征序列可以是调用第二特征分析网络对目标拼接音频进行特征分析得到的，音频的特征序列可以是调用第二特征分析网络对目标拼接音频进行特征分析得到的，音频库中的源音频的特征序列可以是调用第二特征分析网络对源音频进行特征分析得到的，也就是说，以上步骤S504-步骤S508中介绍了第二特征分析网络的应用过程。第二特征分析网络可以是VGGish（即第二VGGish），第一特征分析网络（即第一VGGish）和第二特征分析网络的网络结构是相同的，但第一特征分析网络和第二特征分析网络的功能存在一定差异，第一特征分析网络用于进行特征分析，第二特征分析网络除了需要具备特征分析的能力外，还需要具备区分不同音频的能力，第二特征分析网络特征分析得到的不同音频的特征序列之间，需要存在较大差异。下面将介绍第二特征分析网络的训练过程，介绍第二特征分析网络的训练过程时，分为样本数据准备阶段和网络训练阶段两个部分进行介绍：

（1）第二特征分析网络的样本数据准备阶段：

用于对第二特征分析网络进行训练的样本数据可以称为第一样本数据，第一样本数据中可以包括多个样本音频，每个样本音频可以包括对相应样本音频进行随机裁剪得到的多个裁剪音频，裁剪音频可以是按照参考时长进行划分的。

第一样本数据的获取方式，具体可以包括：可以获取原始音频，按照参考时长对原始音频进行随机裁剪，得到多个裁剪音频，将包含多个裁剪音频的原始音频作为第一样本数据中的一个样本音频。随机裁剪与划分的区别在于：划分要求划分得到的两个相邻音频片段中，前一个音频片段的尾部与后一个音频片段的首部是连续的，而随机裁剪不需要，随机裁剪出的两个裁剪音频之间可以存在部分重叠的音频片段。举例来说，可以准备包含1000个原始音频的数据集，参考时长为10s，每个原始音频可以随机裁剪1000个连续的10s裁剪音频，例如，原始音频中播放时间为[0s，10s)的裁剪音频，原始音频中播放时间为[1s，11s)的裁剪音频，原始音频中播放时间为[2s，12s)的裁剪音频，等等；按此重复操作可以获得包含1000×1000=1000000个裁剪音频的第一样本数据。

（2）第二特征分析网络的训练过程：

第一样本数据中可以包括多个样本音频，每次训练从第一样本数据中获取两个不同的样本音频，采用其中一个样本音频中的两个裁剪音频和另一个样本音频中的一个裁剪音频对第二特征分析网络进行训练；训练的原理是：需训练第二特征分析网络提取得到的特征序列中，来自同一样本音频的两个裁剪音频的特征序列之间的相似度，高于来自不同样本音频的两个裁剪音频的特征序列之间的相似度，特征序列之间的相似度可以采用特征序列之间的差异表征，将相似度转换为差异后，需训练第二特征分析网络提取得到的特征序列中，来自同一样本音频的两个裁剪音频的特征序列之间的差异信息，小于来自不同样本音频的两个裁剪音频的特征序列之间的差异信息；可以采用对比学习的方式，拉开不同样本音频的两个裁剪音频的特征序列之间的差异信息，拉近来自同一样本音频的两个裁剪音频的特征序列之间的差异信息。第二特征分析网络的训练终止条件可以包括：对第二特征分析网络的训练次数达到次数阈值，或者，第二特征分析网络的损失信息小于损失阈值。第二特征分析网络的一次训练过程如图11所示：

①获取第一样本数据，从第一样本数据中获取第m个样本音频中的第i个裁剪音频和第m个样本音频中的第j个裁剪音频/>，以及，从第一样本数据中获取第n个样本音频中的第k个裁剪音频/>；m、n、i、j和k均为正整数，且m不等于n、i不等于j。②调用第二特征分析网络对第i个裁剪音频进行特征分析，得到第i个裁剪音频的特征序列/>，以及，调用第二特征分析网络对第j个裁剪音频进行特征分析，得到第j个裁剪音频的特征序列/>，以及，调用第二特征分析网络对第k个裁剪音频进行特征分析，得到第k个裁剪音频的特征序列/>；第二特征分析网络的训练阶段中的特征分析过程，与第二特征分析网络的应用阶段中的特征分析过程相似，在此不再赘述，具体可以参见第二特征分析网络的应用阶段中的特征分析过程。③根据第j个裁剪音频的特征序列与第i个裁剪音频的特征序列之间的第一差异信息，以及第j个裁剪音频的特征序列与第k个裁剪音频的特征序列之间的第二差异信息，对特征分析网络进行训练。进一步地，可以根据第一差异信息和第二差异信息，构建特征分析网络的损失信息；特征分析网络的损失信息可参见如下公式4：

公式4

在上述公式4中，第j个裁剪音频的特征序列与第i个裁剪音频的特征序列之间的第一差异信息，具体是指第j个裁剪音频的特征序列与第i个裁剪音频的特征序列之间的第一距离，第一距离可以采用第j个裁剪音频的特征序列与第i个裁剪音频的特征序列之间的平均绝对值误差表示，/>可以展开为第j个裁剪音频的特征序列中的各个特征信息，与第i个裁剪音频的特征序列中的对应特征信息之间的差值绝对值之和；类似地，第j个裁剪音频的特征序列与第k个裁剪音频的特征序列之间的第二差异信息，具体是指第j个裁剪音频的特征序列与第k个裁剪音频的特征序列之间的第二距离，第二距离可以采用第j个裁剪音频的特征序列与第k个裁剪音频的特征序列之间的平均绝对值误差/>表示，/>可以展开为第j个裁剪音频的特征序列中的各个特征信息，与第k个裁剪音频的特征序列中的对应特征信息之间的差值绝对值之和。

值得注意的是，本申请不对第二特征分析网络的网络参数的更新方法进行限定，例如，更新方法可以为SGD（Stochastic Gradient Descent，随机梯度下降法），采用SDG作为更新方法的好处是，每次使用一个样本（包括来自同一样本音频的两个裁剪音频和来自不同样本音频的两个裁剪音频）进行梯度计算和参数更新，模型训练效率更高，有可能跳出局部最优解，找到全局最优解。

本申请实施例中，采用鲁棒性较高的特征分析网络对音频（或拼接音频）进行特征分析，即使音频（或拼接音频）中存在噪音，或者音频（或拼接音频）的音频质量较差，经过特征分析得到的特征序列也能够较为准确地表征音频（或拼接音频）。对于存在音频拼接点的音频，可以基于音频拼接点裁剪为多个拼接音频，可以查询拼接音频所属的源音频，在拼接音频所属的源音频中对拼接音频进行时序定位。此外，还可以扩展音频拼接点的使用场景，分析作为视频的背景音频的音频中的拼接音频与视频受关注程度之间的关系，基于作为视频的背景音频的音频中的音频拼接点查找视频特效，分析特效种类与视频受关注程度之间的关系，扩展了视频的分析方式。

本申请实施例提供的音频处理方法除了可以应用于视频背景音频分析外，还可以应用于游戏中。具体来说，游戏中可以包括多个游戏场景，并且涉及游戏场景之间的转换，例如，游戏角色从一个游戏场景移动至另一个游戏场景时，可以涉及游戏场景之间的转换；通常情况下，为了使得游戏的背景音频与游戏场景达到较高的适配度，可以分别为每个游戏场景配置的背景音频，因此，游戏的背景音频通常是由多个拼接音频拼接而成的组合音频。在此情况下，可以在游戏中提供背景音频分析功能，该背景音频分析功能可以采用本申请实施例提供的音频处理方法，对游戏的背景音频进行拼接预测；若游戏的背景音频包含音频拼接点，则可以根据音频拼接点对游戏的背景音频进行裁剪处理，得到多个拼接音频，可以在音频库中查询每个拼接音频所属的源音频，以及可以确定每个拼接音频在其所属的源音频上的时序位置；然后，可以向游戏玩家输出游戏的背景音频中的每个拼接音频所属的源音频，若任一个拼接音频所属的源音频被触发，则可以播放拼接音频所属的源音频，并且，可以基于拼接音频在其所属的源音频上的时序位置，直接跳转至拼接音频进行播放。上述音频处理方法在游戏中的应用，可以增强游戏玩家进行游戏游玩时的互动性和乐趣，可以较好地满足游戏玩家对游戏的背景音频查询需求。

上述详细阐述了本申请实施例的方法，为了便于更好地实施本申请实施例的上述方案，相应地，下面提供了本申请实施例的装置。

请参见图12，图12是本申请实施例提供的一种音频处理装置的结构示意图，该音频处理装置可以设置于本申请实施例提供的计算机设备中，计算机设备可以是终端、或者终端与服务器的组合。图12所示的音频处理装置可以是运行于计算机设备中的一个计算机程序（包括程序代码），该音频处理装置可以用于执行图3或图5所示的方法实施例中的部分或全部步骤。请参见图12，该音频处理装置可以包括如下单元：

获取单元1201，用于获取待处理的音频，音频包括对音频划分得到的多个音频片段；

处理单元1202，用于对音频的每个音频片段进行特征分析，得到每个音频片段的特征信息；

处理单元1202，还用于基于音频中的各个音频片段的特征信息，对每个音频片段进行拼接预测，得到每个音频片段的拼接预测结果；拼接预测结果用于指示相应音频片段中音频拼接点的包含情况；每个音频片段的拼接预测结果是基于每个音频片段的特征信息与其前序音频片段的特征信息进行拼接预测得到的；

处理单元1202，还用于根据音频中的各个音频片段的拼接预测结果，对音频进行音频业务处理。

在一种实现方式中，处理单元1202用于根据音频中的各个音频片段的拼接预测结果，对音频进行音频业务处理时，具体用于执行如下步骤：

在音频库中查询每个拼接音频所属的源音频；

在一种实现方式中，多个拼接音频中的任一个拼接音频表示为目标拼接音频，音频库中的任一个源音频表示为目标源音频；处理单元1202，用于在音频库中查询目标拼接音频所属的源音频时，具体用于执行如下步骤：

在一种实现方式中，处理单元1202，用于在目标拼接音频的特征序列与目标源音频的特征序列之间进行滑窗匹配时，具体用于执行如下步骤：

在一种实现方式中，每个拼接音频和音频库中的每个源音频均按照目标时长进行音频片段的划分；目标拼接音频所属的源音频的特征序列中，与目标拼接音频的特征序列相匹配的特征子序列表示为目标特征子序列；处理单元1202，用于确定目标拼接音频在其所属的源音频上的时序位置时，具体用于执行如下步骤：

在一种实现方式中，目标拼接音频所属的源音频的特征序列中，存在与目标拼接音频的特征序列相匹配的多个特征子序列；处理单元1202，用于确定目标拼接音频在其所属的源音频上的时序位置时，具体用于执行如下步骤：

在一种实现方式中，处理单元1202，用于根据第j个裁剪音频的特征序列与第i个裁剪音频的特征序列之间的第一差异信息，以及第j个裁剪音频的特征序列与第k个裁剪音频的特征序列之间的第二差异信息，对特征分析网络进行训练时，具体用于执行如下步骤：

在一种实现方式中，处理单元1202，用于根据音频中的各个音频片段的拼接预测结果，对音频进行音频业务处理时，还用于执行如下步骤：

确定音频在其所属的源音频上的时序位置。

在一种实现方式中，音频为目标视频的背景音频；处理单元1202，还用于执行如下步骤：

在一种实现方式中，音频为目标视频的背景音频；处理单元1202，用于根据音频中的各个音频片段的拼接预测结果，对音频进行音频业务处理时，具体用于执行如下步骤：

分析特效种类对目标视频的关注影响情况。

在一种实现方式中，特征分析是由拼接预测模型中的特征分析网络执行的；音频中的任一个音频片段表示为目标音频片段；处理单元1202，用于调用特征分析网络对目标音频片段进行特征分析，得到目标音频片段的特征信息时，具体用于执行如下步骤：

处理单元1202，用于调用目标拼接预测单元基于目标音频片段的特征信息与目标音频片段的前序音频片段的特征信息，对目标音频片段进行拼接预测时，具体用于执行如下步骤：

在一种实现方式中，第二样本数据的获取方式，包括：

获取第一原始音频和第二原始音频；

生成样本音频中的各个样本音频片段的拼接标记结果。

根据本申请的另一个实施例，图12所示的音频处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个（些）单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，音频处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元（CPU）、随机存取存储介质（RAM）、只读存储介质（ROM）等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图3或图5所示的部分或全部方法所涉及的各步骤的计算机程序（包括程序代码），来构造如图12中所示的音频处理装置，以及来实现本申请实施例的音频处理方法。计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于上述计算设备中，并在其中运行。

基于上述方法以及装置实施例，本申请实施例提供了一种计算机设备。请参见图13，图13是本申请实施例提供的一种计算机设备的结构示意图。图13所示的计算机设备至少包括处理器1301、输入接口1302、输出接口1303以及计算机可读存储介质1304。其中，处理器1301、输入接口1302、输出接口1303以及计算机可读存储介质1304可通过总线或其他方式连接。

计算机可读存储介质1304可以存储在计算机设备的存储器中，计算机可读存储介质1304用于存储计算机程序，计算机程序包括计算机指令，处理器1301用于执行计算机可读存储介质1304存储的程序指令。处理器1301（或称CPU（Central Processing Unit，中央处理器））是计算机设备的计算核心以及控制核心，其适于实现一条或多条计算机指令，具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。

本申请实施例还提供了一种计算机可读存储介质（Memory），计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了计算机设备的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或多条的计算机指令，这些计算机指令可以是一个或一个以上的计算机程序（包括程序代码）。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器（Non-VolatileMemory），例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机可读存储介质。

在一些实施例中，可由处理器1301加载并执行计算机可读存储介质1304中存放的一条或多条计算机指令，以实现上述有关图3或图5所示的音频处理方法中的相应步骤。具体实现中，计算机可读存储介质1304中的计算机指令由处理器1301加载并执行如下步骤：

在一种实现方式中，计算机可读存储介质1304中的计算机指令由处理器1301加载并执行根据音频中的各个音频片段的拼接预测结果，对音频进行音频业务处理时，具体用于执行如下步骤：

在音频库中查询每个拼接音频所属的源音频；

在一种实现方式中，多个拼接音频中的任一个拼接音频表示为目标拼接音频，音频库中的任一个源音频表示为目标源音频；计算机可读存储介质1304中的计算机指令由处理器1301加载并执行在音频库中查询目标拼接音频所属的源音频时，具体用于执行如下步骤：

在一种实现方式中，计算机可读存储介质1304中的计算机指令由处理器1301加载并执行在目标拼接音频的特征序列与目标源音频的特征序列之间进行滑窗匹配时，具体用于执行如下步骤：

在一种实现方式中，每个拼接音频和音频库中的每个源音频均按照目标时长进行音频片段的划分；目标拼接音频所属的源音频的特征序列中，与目标拼接音频的特征序列相匹配的特征子序列表示为目标特征子序列；计算机可读存储介质1304中的计算机指令由处理器1301加载并执行确定目标拼接音频在其所属的源音频上的时序位置时，具体用于执行如下步骤：

在一种实现方式中，目标拼接音频所属的源音频的特征序列中，存在与目标拼接音频的特征序列相匹配的多个特征子序列；计算机可读存储介质1304中的计算机指令由处理器1301加载并执行确定目标拼接音频在其所属的源音频上的时序位置时，具体用于执行如下步骤：

在一种实现方式中，计算机可读存储介质1304中的计算机指令由处理器1301加载并执行根据第j个裁剪音频的特征序列与第i个裁剪音频的特征序列之间的第一差异信息，以及第j个裁剪音频的特征序列与第k个裁剪音频的特征序列之间的第二差异信息，对特征分析网络进行训练时，具体用于执行如下步骤：

在一种实现方式中，计算机可读存储介质1304中的计算机指令由处理器1301加载并执行根据音频中的各个音频片段的拼接预测结果，对音频进行音频业务处理时，还用于执行如下步骤：

确定音频在其所属的源音频上的时序位置。

在一种实现方式中，音频为目标视频的背景音频；计算机可读存储介质1304中的计算机指令由处理器1301加载并还用于执行如下步骤：

在一种实现方式中，音频为目标视频的背景音频；计算机可读存储介质1304中的计算机指令由处理器1301加载并执行根据音频中的各个音频片段的拼接预测结果，对音频进行音频业务处理时，具体用于执行如下步骤：

分析特效种类对目标视频的关注影响情况。

在一种实现方式中，特征分析是由拼接预测模型中的特征分析网络执行的；音频中的任一个音频片段表示为目标音频片段；计算机可读存储介质1304中的计算机指令由处理器1301加载并执行调用特征分析网络对目标音频片段进行特征分析，得到目标音频片段的特征信息时，具体用于执行如下步骤：

计算机可读存储介质1304中的计算机指令由处理器1301加载并执行调用目标拼接预测单元基于目标音频片段的特征信息与目标音频片段的前序音频片段的特征信息，对目标音频片段进行拼接预测时，具体用于执行如下步骤：

在一种实现方式中，第二样本数据的获取方式，包括：

获取第一原始音频和第二原始音频；

生成样本音频中的各个样本音频片段的拼接标记结果。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选方式中提供的音频处理方法。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频处理方法，其特征在于，包括：

获取待处理的音频，所述音频包括对所述音频划分得到的多个音频片段；

对所述音频的每个音频片段进行特征分析，得到每个音频片段的特征信息；

基于所述音频中的各个音频片段的特征信息，对每个音频片段进行拼接预测，得到每个音频片段的拼接预测结果；所述拼接预测结果用于指示相应音频片段中音频拼接点的包含情况；每个音频片段的拼接预测结果是基于每个音频片段的特征信息与其前序音频片段的特征信息进行拼接预测得到的；

根据所述音频中的各个音频片段的拼接预测结果，对所述音频进行音频业务处理。

2.如权利要求1所述的方法，其特征在于，所述根据所述音频中的各个音频片段的拼接预测结果，对所述音频进行音频业务处理，包括：

若根据所述音频中的各个音频片段的拼接预测结果确定所述音频包含音频拼接点，则根据所述音频拼接点对所述音频进行裁剪处理，得到多个拼接音频；

在音频库中查询每个拼接音频所属的源音频；

3.如权利要求2所述的方法，其特征在于，所述多个拼接音频中的任一个拼接音频表示为目标拼接音频，所述音频库中的任一个源音频表示为目标源音频；在所述音频库中查询所述目标拼接音频所属的源音频的过程，包括：

获取所述目标拼接音频的特征序列；所述目标拼接音频的特征序列包括所述目标拼接音频中的各个音频片段的特征信息；

获取所述目标源音频的特征序列；所述目标源音频的特征序列包括所述目标源音频中的各个音频片段的特征信息；

在所述目标拼接音频的特征序列与所述目标源音频的特征序列之间进行滑窗匹配；

若所述目标源音频的特征序列中存在与所述目标拼接音频的特征序列相匹配的特征子序列，则确定所述目标源音频是所述目标拼接音频所属的源音频。

4.如权利要求3所述的方法，其特征在于，所述在所述目标拼接音频的特征序列与所述目标源音频的特征序列之间进行滑窗匹配，包括：

当滑动窗口在所述目标源音频的特征序列中滑动至当前滑动位置时，获取所述滑动窗口在所述当前滑动位置所包含的窗口特征子序列；所述滑动窗口在所述目标源音频的特征序列中以一个特征信息的长度作为滑动步长进行滑动，所述滑动窗口的窗口长度与所述目标拼接音频的特征序列长度相同；

若所述窗口特征子序列与所述目标拼接音频的特征序列之间的差异信息小于差异阈值，则确定所述窗口特征子序列是所述目标源音频的特征序列中与所述目标拼接音频的特征序列相匹配的特征子序列；以及，在所述目标源音频的特征序列中继续对所述滑动窗口进行滑动以进行后续的滑窗匹配，直至所述滑动窗口滑动至所述目标源音频的特征序列终点；

若所述窗口特征子序列与所述目标拼接音频的特征序列之间的差异信息大于或等于差异阈值，则在所述目标源音频的特征序列中继续对所述滑动窗口进行滑动以进行后续的滑窗匹配，直至所述滑动窗口滑动至所述目标源音频的特征序列终点。

5.如权利要求3所述的方法，其特征在于，每个拼接音频和所述音频库中的每个源音频均按照目标时长进行音频片段的划分；所述目标拼接音频所属的源音频的特征序列中，与所述目标拼接音频的特征序列相匹配的特征子序列表示为目标特征子序列；确定所述目标拼接音频在其所属的源音频上的时序位置的过程，包括：

获取所述目标特征子序列中的第一特征信息，在所述目标拼接音频所属的源音频的特征序列中的第一排列序号，所述第一特征信息是所述目标特征子序列中时序位于首位的特征信息；以及，获取所述目标特征子序列中的第二特征信息，在所述目标拼接音频所属的源音频的特征序列中的第二排列序号，所述第二特征信息是所述目标特征子序列中时序位于末位的特征信息；

将所述第一排列序号与所述目标时长的乘积，确定为所述目标拼接音频在其所属的源音频上的开始时间点；

将所述第二排列序号与所述目标时长的乘积，确定为所述目标拼接音频在其所属的源音频上的结束时间点。

6.如权利要求3所述的方法，其特征在于，所述目标拼接音频所属的源音频的特征序列中，存在与所述目标拼接音频的特征序列相匹配的多个特征子序列；确定所述目标拼接音频在其所属的源音频上的时序位置的过程，包括：

在所述多个相匹配的特征子序列中，确定与所述目标拼接音频的特征序列之间的差异信息最小的参考特征子序列；

根据所述参考特征子序列在所述目标拼接音频所属的源音频的特征序列中的排列位置，确定所述目标拼接音频在其所属的源音频上的时序位置。

7.如权利要求3所述的方法，其特征在于，所述目标拼接音频的特征序列是由特征分析网络对所述目标拼接音频进行特征分析得到的；所述特征分析网络的训练过程，包括：

获取第一样本数据，所述第一样本数据包括多个样本音频，每个样本音频包括多个裁剪音频；

从所述第一样本数据中获取第m个样本音频中的第i个裁剪音频和第j个裁剪音频，以及，从所述第一样本数据中获取第n个样本音频中的第k个裁剪音频；m、n、i、j和k均为正整数，且m不等于n、i不等于j；

调用所述特征分析网络对所述第i个裁剪音频进行特征分析，得到所述第i个裁剪音频的特征序列；以及，调用所述特征分析网络对所述第j个裁剪音频进行特征分析，得到所述第j个裁剪音频的特征序列；以及，调用所述特征分析网络对所述第k个裁剪音频进行特征分析，得到所述第k个裁剪音频的特征序列；

根据所述第j个裁剪音频的特征序列与所述第i个裁剪音频的特征序列之间的第一差异信息，以及所述第j个裁剪音频的特征序列与所述第k个裁剪音频的特征序列之间的第二差异信息，对所述特征分析网络进行训练。

8.如权利要求7所述的方法，其特征在于，所述根据所述第j个裁剪音频的特征序列与所述第i个裁剪音频的特征序列之间的第一差异信息，以及所述第j个裁剪音频的特征序列与所述第k个裁剪音频的特征序列之间的第二差异信息，对所述特征分析网络进行训练，包括：

根据所述第一差异信息和所述第二差异信息，构建所述特征分析网络的损失信息；

按照减小所述特征分析网络的损失信息中所述第一差异信息，并增大所述特征分析网络的损失信息中所述第二差异信息的方向，更新所述特征分析网络的网络参数，以对所述特征分析网络进行训练。

9.如权利要求2所述的方法，其特征在于，所述根据所述音频中的各个音频片段的拼接预测结果，对所述音频进行音频业务处理，还包括：

若根据所述音频中的各个音频片段的拼接预测结果确定所述音频不包含音频拼接点，则在音频库中查询所述音频所属的源音频；

确定所述音频在其所属的源音频上的时序位置。

10.如权利要求2所述的方法，其特征在于，所述音频为目标视频的背景音频；所述方法还包括：

获取所述目标视频在播放至各个拼接音频的所在时段时，所述目标视频的视频关注信息；

根据所述各个拼接音频对应的视频关注信息，分析所述各个拼接音频对所述目标视频的关注影响情况。

11.如权利要求1所述的方法，其特征在于，所述音频为目标视频的背景音频；所述根据所述音频中的各个音频片段的拼接预测结果，对所述音频进行音频业务处理，包括：

若根据所述音频中的各个音频片段的拼接预测结果确定所述音频包含音频拼接点，则对所述目标视频播放至所述音频拼接点时的视频内容进行特效检查；

若特效检查结果指示所述目标视频播放至所述音频拼接点时的视频内容存在视频特效，则确定所述视频特效的特效种类；

分析所述特效种类对所述目标视频的关注影响情况。

12.如权利要求1所述的方法，其特征在于，特征分析是由拼接预测模型中的特征分析网络执行的；所述音频中的任一个音频片段表示为目标音频片段；调用所述特征分析网络对所述目标音频片段进行特征分析，得到所述目标音频片段的特征信息的过程，包括：

将所述目标音频片段从时域空间转换至频域空间，得到所述目标音频片段的频域信息；

对所述目标音频片段的频域信息进行特征提取，得到所述目标音频片段的特征信息。

13.如权利要求1所述的方法，其特征在于，拼接预测是由拼接预测模型中的拼接预测网络执行的，所述拼接预测网络包括多个拼接预测单元，一个拼接预测单元用于对所述音频中的一个音频片段进行拼接预测；所述音频中的任一个音频片段表示为目标音频片段，所述拼接预测网络中的目标拼接预测单元用于对所述目标音频片段进行拼接预测；所述目标音频片段的前序音频片段的特征信息被保留至所述目标拼接预测单元的前一拼接预测单元的状态信息中，所述前一拼接预测单元的状态信息和所述前一拼接预测单元的输出信息被输入至所述目标拼接预测单元中；

调用所述目标拼接预测单元基于所述目标音频片段的特征信息与所述目标音频片段的前序音频片段的特征信息，对所述目标音频片段进行拼接预测的过程，包括：

根据所述前一拼接预测单元的输出信息和所述目标音频片段的特征信息，对所述前一拼接预测单元的状态信息进行遗忘分析，确定所述前一拼接预测单元的状态信息中需要保留的第一状态信息；

根据所述前一拼接预测单元的输出信息和所述目标音频片段的特征信息，对所述目标拼接预测单元进行记忆分析，确定所述前一拼接预测单元的输出信息和所述目标音频片段的特征信息中需要添加至所述目标拼接预测单元的状态信息的第二状态信息；

对所述第一状态信息和所述第二状态信息进行组合，得到所述目标拼接预测单元的状态信息；

根据所述前一拼接预测单元的输出信息和所述目标音频片段的特征信息，对所述目标拼接预测单元的状态信息进行输出分析，得到所述目标音频片段的拼接预测结果。

14.如权利要求1所述的方法，其特征在于，特征分析是由拼接预测模型中的特征分析网络执行的，拼接预测是由所述拼接预测模型中的拼接预测网络执行的；所述拼接预测模型的训练过程，包括：

从第二样本数据中获取目标样本音频；所述第二样本数据包括多个样本音频，每个样本音频包括对相应样本音频划分得到的多个样本音频片段，所述第二样本数据还包括每个样本音频中的各个样本音频片段的拼接标记结果；所述目标样本音频为所述第二样本数据中的任一个样本音频；

调用所述特征分析网络对所述目标样本音频中的每个样本音频片段进行特征分析，得到每个样本音频片段的特征信息；

调用所述拼接预测网络基于所述目标样本音频中的各个样本音频片段的特征信息，对每个样本音频片段进行拼接预测，得到每个样本音频片段的拼接预测结果；

根据所述目标样本音频中的各个样本音频片段的拼接预测结果与拼接标记结果，对所述拼接预测模型进行训练。

15.如权利要求14所述的方法，其特征在于，所述第二样本数据的获取方式，包括：

获取第一原始音频和第二原始音频；

从所述第一原始音频中截取第一音频片段，从所述第二原始音频中截取第二音频片段；

对所述第一音频片段和所述第二音频片段进行拼接处理，得到所述第二样本数据中的一个样本音频；或者，对所述第一音频片段和所述第二音频片段进行拼接处理后，截取包含音频拼接点的音频片段，得到所述第二样本数据中的一个样本音频；

生成所述样本音频中的各个样本音频片段的拼接标记结果。

16.一种音频处理装置，其特征在于，包括：

获取单元，用于获取待处理的音频，所述音频包括对所述音频划分得到的多个音频片段；

处理单元，用于对所述音频的每个音频片段进行特征分析，得到每个音频片段的特征信息；

所述处理单元，还用于基于所述音频中的各个音频片段的特征信息，对每个音频片段进行拼接预测，得到每个音频片段的拼接预测结果；所述拼接预测结果用于指示相应音频片段中音频拼接点的包含情况；每个音频片段的拼接预测结果是基于每个音频片段的特征信息与其前序音频片段的特征信息进行拼接预测得到的；

所述处理单元，还用于根据所述音频中的各个音频片段的拼接预测结果，对所述音频进行音频业务处理。

17.一种计算机设备，其特征在于，所述计算机设备包括：

处理器，适于实现计算机程序；

计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1-15任一项所述的音频处理方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于由处理器加载并执行如权利要求1-15任一项所述的音频处理方法。