CN110136729B

CN110136729B - 模型生成方法、音频处理方法、装置及计算机可读存储介质

Info

Publication number: CN110136729B
Application number: CN201910238868.8A
Authority: CN
Inventors: 刘思阳
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2021-08-20
Anticipated expiration: 2039-03-27
Also published as: CN110136729A

Abstract

本发明实施例提供了模型生成方法、音频处理方法、装置及计算机可读存储介质，属于计算机技术领域。该生成方法可以针对各音频训练样本，根据该音频训练样本得到对应的多个音频向量，按照多个音频向量对应在音频训练样本中的时序，将多个音频向量依次输入副歌音频处理模型，基于该音频训练样本的预测副歌起止时间以及该音频训练样本的真实副歌起止时间，获取副歌音频处理模型的损失值，在损失值在预设范围内的情况下，说明副歌音频处理模型可以输出较准确的副歌起止时间，则利用该目标副歌音频处理模型在对待处理音频处理时，能够基于训练学习中的各参数，自动得到准确的副歌起止时间。

Description

模型生成方法、音频处理方法、装置及计算机可读存储介质

技术领域

本发明属于计算机技术领域，特别是涉及一种模型生成方法、音频处理方法、装置及计算机可读存储介质。

背景技术

音乐能起到情感表达和烘托气氛的作用，因此可以将音频文件作为配乐设置在视频文件、多媒体文件等。通常的，一首歌曲是由一定结构性的段落组成，包括前奏、主歌、副歌、间奏等，其中，副歌是一首歌曲当中最具代表性、最吸引人的部分，可以作为一首歌曲的有效标志。因此，通常也会将一首歌的副歌作为配乐片段。

现有技术中，获取一首歌的副歌时，所采用的技术手段通常是：考虑到副歌一般会重复多次，其旋律和歌词都非常相似，因此根据歌曲中的一些特征，如旋律、文字内容等的重复性，基于经验人工选取歌曲中的副歌部分。

但是，因为歌曲种类繁多，各类歌曲中，副歌不一定具有重复多遍的旋律、文字内容等，因此通过现有技术的人工获取副歌的方式，一方面工作量非常大，另一方面，因为人工操作的不确定性，也会导致获取副歌准确度低的问题。

发明内容

本发明提供一种模型生成方法、音频处理方法、装置及计算机可读存储介质，以便解决仍人工获取副歌工作量大、准确度低的问题。

依据本发明的第一方面，提供了一种模型生成方法，该方法包括：

针对各音频训练样本，根据所述音频训练样本得到对应的多个音频向量；

按照各音频向量在所述音频训练样本中的时序，将所述多个音频向量依次输入副歌音频处理模型，得到所述副歌音频处理模型输出的所述音频训练样本的预测副歌起止时间；

基于所述预测副歌起止时间以及所述音频训练样本的真实副歌起止时间，获取所述副歌音频处理模型的损失值；

在所述损失值在预设范围内的情况下，将所述副歌音频处理模型作为目标副歌音频处理模型。

依据本发明的第二方面，提供了一种音频处理方法，该方法包括：

获取待处理音频；

获取所述待处理音频的多个待处理音频向量；

将所述多个待处理音频向量输入目标副歌音频处理模型，并通过所述目标副歌音频处理模型生成所述待处理音频的副歌起止时间；其中，所述目标副歌音频处理模型是利用第一方面所述的方法生成的。

依据本发明的第三方面，提供了一种模型生成装置，该装置包括：

第一获取模块，用于针对各音频训练样本，根据所述音频训练样本得到对应的多个音频向量；

输入模块，用于按照各音频向量在所述音频训练样本中的时序，将所述多个音频向量依次输入副歌音频处理模型，得到所述副歌音频处理模型输出的所述音频训练样本的预测副歌起止时间；

第二获取模块，用于基于所述预测副歌起止时间以及所述音频训练样本的真实副歌起止时间，获取所述副歌音频处理模型的损失值；

确定模块，用于在所述损失值在预设范围内的情况下，将所述副歌音频处理模型作为目标副歌音频处理模型。

依据本发明的第四方面，提供了一种音频处理装置，该装置包括：

第一获取模块，用于获取待处理音频；

第二获取模块，用于获取所述待处理音频的多个待处理音频向量；

生成模块，用于将所述多个待处理音频向量输入目标副歌音频处理模型，并通过所述目标副歌音频处理模型生成所述待处理音频的副歌起止时间；其中，所述目标副歌音频处理模型是利用第三方面所述的装置生成的。

依据本发明的第五方面，提供了一种计算机可读存储介质，该计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现第一方面所述的模型生成方法，及第三方面所述的音频处理方法。

相对于现有技术，本发明实施例具备如下优点：针对各音频训练样本，可以根据该音频训练样本得到对应的多个音频向量，然后按照多个音频向量在该音频训练样本中的时序，将多个音频向量依次输入副歌音频处理模型，则副歌音频处理模型可以初步确定出音频训练样本的预测副歌起止时间，基于该音频训练样本的预测副歌起止时间以及该音频训练样本的真实副歌起止时间，可以计算副歌音频处理模型的损失值，在损失值在预设范围内的情况下，可以说明副歌音频处理模型可以输出较准确的副歌起止时间，因此可以会将副歌音频处理模型作为目标副歌音频处理模型。本发明实施例中，通过音频训练样本可以训练生成能输出准确副歌起止时间的目标副歌音频处理模型，使得后续使用过程中，利用该目标副歌音频处理模型在对待处理音频处理时，能够基于训练学习中的各参数，自动得到准确的副歌起止时间，不需要进行人工选取副歌操作，大大减少了人工操作的工作量，且相较于人工操作，通过机器执行的模型识别具有较高的稳定性，进而能提升获取副歌起止时间的准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种模型生成方法的步骤流程图；

图2-1是本发明实施例提供的另一种模型生成方法的步骤流程图；

图2-2是本发明实施例提供一种音频片段组成示意图；

图2-3是本发明实施例提供一种处理过程示意图；

图3是本发明实施例提供的一种音频处理方法的步骤流程图；

图4是本发明实施例提供的另一种音频处理方法的步骤流程图；

图5是本发明实施例提供的一种模型生成装置的框图；

图6是本发明实施例提供的一种音频处理装置的框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1是本发明实施例提供的一种模型生成方法的步骤流程图，如图1所示，该方法可以包括：

步骤101，针对各音频训练样本，根据所述音频训练样本得到对应的多个音频向量。

本发明实施例中，音频训练样本可以是开发人员根据实际需求预先选取的，音频训练样本的数量可以为多个，示例的，该音频训练样本可以是各种风格类型的乐曲等，音频训练样本可以由“前奏+两段主歌+一段副歌+过门音乐+一段副歌+一段主歌+结尾音乐”等部分按顺序连接构成，其中，主歌可以是对重要的人、事、情的主要交代的部分，副歌可以是内容区别与于主歌，发展与概括性比较强的且在节奏情感曲调上与主歌形成对比的部分，当然，音频训练样本也可以为其他组成形式的音频，本发明实施例对此不作限定。具体应用中，对于每个音频训练样本，可以通过音频处理工具将各音频训练样本处理为多个音频向量，每个音频向量可以通过矩阵等形式表示，本发明实施例对此不做限定。

步骤102，按照各音频向量在所述音频训练样本中的时序，将所述多个音频向量依次输入副歌音频处理模型，得到所述副歌音频处理模型输出的所述音频训练样本的预测副歌起止时间。

本发明实施例中，各音频向量在音频训练样本中的时序表示的是以该音频向量对应的音频块在该音频训练样本中对应的时间确定的次序，示例的，假设音频训练样本A对应的多个音频向量为：音频向量a1、音频向量a2以及音频向量a2，其中，音频向量a1对应的音频块在该音频训练样本中对应的时间为第1秒至第3秒，音频向量a2对应的音频块在该音频训练样本中对应的时间为第4秒至第6秒，音频向量a3对应的音频块在该音频训练样本中对应的时间为第7秒至第9秒，那么按照各音频向量在该音频训练样本中的时序，将多个音频向量依次输入副歌音频处理模型时，可以是按照音频向量a1-音频向量a2-音频向量a3的次序，依次输入。本发明实施例中，进行提取该音频训练样本中的副歌起止时间时，可以按照多个音频向量对应在该音频训练样本中的时序，将该多个音频向量输入副歌音频处理模型，进而可以避免乱序输入对副歌起止时间提取造成的干扰，从而能准确定位副歌起止时间。进一步地，该副歌音频处理模型可以是基于神经网络模型预先构建的该副歌音频处理模型可以包括多层结构，每层结构可以实现不同的处理。

步骤103，基于所述预测副歌起止时间以及所述音频训练样本的真实副歌起止时间，获取所述副歌音频处理模型的损失值。

本发明实施例中，每个音频训练样本的副歌起止时间可以是收集音频训练样本时预先确定的，该损失值可以表示音频训练样本的预测副歌起止时间与音频训练样本的真实副歌起止时间之间的偏差程度。本步骤中，可以采用交叉熵函数作为损失函数，将音频训练样本的预测副歌起止时间与真实副歌起止时间代入该交叉熵损失函数中进行计算，得到该音频训练样本对应的损失值，进一步地，也可以采用方式进行计算，例如，也可以计算音频训练样本的预测副歌起止时间与真实副歌起止时间之间的欧式距离，得到该音频训练样本对应的损失值，最后，可以将某个音频训练样本对应的损失值作为本轮训练中副歌音频处理模型的损失值，以降低在音频训练样本的数量较多的情况下，计算损失值所需耗费的处理资源，当然，为了使计算得到的损失值能够更加全面的表示副歌音频处理模型的误差，也可以将多个音频训练样本对应的损失值，作为本轮训练中副歌音频处理模型的损失值，本发明实施例对此不作限定。

步骤104，在所述损失值在预设范围内的情况下，将所述副歌音频处理模型作为目标副歌音频处理模型。

本发明实施例中，该预设范围可以根据实际应用场景和实际需求设定，本发明实施例对其不加以限制。进一步地，如果损失值在预设范围内，则可以认为音频训练样本的预测副歌起止时间与音频训练样本的真实副歌起止时间之间的偏差非常小，此时，可以认为音频训练样本的预测副歌起止时间与音频训练样本的真实副歌起止时间之间相符合，该副歌音频处理模型能够正确的预测出音频的真实副歌起止时间，相应地，可以将该副歌音频处理模型作为目标副歌音频处理模型。

综上所述，本发明实施例提供的一种模型生成方法，针对各音频训练样本，可以根据该音频训练样本得到对应的多个音频向量，然后按照多个音频向量在该音频训练样本中的时序，将多个音频向量依次输入副歌音频处理模型，则副歌音频处理模型可以初步确定出音频训练样本的预测副歌起止时间，基于该音频训练样本的预测副歌起止时间以及该音频训练样本的真实副歌起止时间，可以计算副歌音频处理模型的损失值，在损失值在预设范围内的情况下，可以说明副歌音频处理模型可以输出较准确的副歌起止时间，因此可以将副歌音频处理模型作为目标副歌音频处理模型。本发明实施例中，通过音频训练样本可以训练生成能输出准确副歌起止时间的目标副歌音频处理模型，使得后续使用过程中，利用该目标副歌音频处理模型在对待处理音频处理时，能够基于训练学习中的各参数，自动得到准确的副歌起止时间，不需要进行人工选取副歌操作，大大减少了人工操作的工作量，且相较于人工操作，通过机器执行的模型识别具有较高的稳定性，进而能提升获取副歌起止时间的准确率。

图2-1是本发明实施例提供的另一种模型生成方法的步骤流程图，如图2-1所示，该方法可以包括：

步骤201，针对各音频训练样本，将所述音频训练样本处理为第一预设时长的音频样本。

考虑到副歌音频处理模型在处理音频文件时，若音频文件的长度参差不齐，则对应于该音频文件的音频向量个数也将或多或少，则会造成输入副歌音频处理模型的音频向量个数不统一，使得副歌音频处理模型在进行副歌起止时间预测时，还需要适应不同数量的音频向量，进而增加副歌音频处理模型的计算复杂度，降低副歌音频处理模型的处理速度，因此，本发明实施例中，针对每个音频训练样本，先将音频训练样本处理为第一预设时长的音频样本，则各音频样本具有统一、标准的时长，使得副歌音频处理模型可以得到数量统一的音频向量，不需要进一步匹配音频向量的个数，因此能够提升副歌音频处理模型的处理效率。

具体应用中，第一预设时长可以由本领域技术人员根据实际的需求进行设定，示例的，以音频训练样本为歌曲为例，一首歌曲的时长通常在500秒，则可以把第一预设时长设定为500秒左右，使得部分的音频训练样本不需要处理为第一预设时长的音频样本，从而减少对音频训练样本的处理，提升处理音频训练样本的效率。

具体应用中，将音频训练样本处理为第一预设时长的音频样本的具体方法可以是：通过截断或补全的方式将音频训练样本处理为第一预设时长的音频样本。

示例的，若音频训练样本的时长大于第一预设时长，则可以将音频训练样本起始或结束位置进行截断，例如，将音频训练样本大于第一预设时长的起始处或结尾处内容截断，从而将音频训练样本截断为第一预设时长的音频样本，可以理解，因为副歌通常在音频训练样本的靠中间位置，因此将起始处或结尾处超出第一预设时长的内容截断通常不会对副歌起止时间获取造成干扰，依然能够保持副歌起止时间的准确性；若音频训练样本的时长小于第一预设时长，则可以将音频训练样本起始或结束位置进行静音补全，从而将音频训练样本补全为第一预设时长的音频样本，可以理解，因为静音不会对音频训练样本的副歌造成任何干扰，因此不会对副歌起止时间获取造成任何干扰。可以理解，本领域技术人员也可以根据实际应用场景，采用其他方式将音频训练样本处理为第一预设时长的音频样本，本发明实施例对此不作具体限定。

步骤202，将所述音频样本按照第二预设时长分块，得到多个音频块。

本发明实施例中，第二预设时长可以根据实际的应用场景进行设定，示例的，考虑到副歌通常可以持续几秒的时长，因此可以将第二预设时长设定为以秒为量级的长度，例如，将第二预设时长设定为1s，不仅可以避免时长过短造成的大量运算，也可以避免时长过长无法准确确定副歌起止时间。

本发明实施例中，将音频样本按照第二预设时长分块，可以得到的音频块数量为：第一预设时长除以第二预设时长后，得到的商。

步骤203，对于每个所述音频块，将该音频块、与该音频块的相邻的前m个音频块，以及与该音频块相邻的后n个音频块合成一个音频片段，得到该音频块对应的音频片段。

其中，m等于第一预设个数，n等于第二预设个数，第一预设个数和第二预设个数可以均为不小于1的整数，第一预设个数和第二预设个数的具体值可以根据实际的应用场景确定，本发明实施例对第一预设个数和第二预设个数不作具体限定。进一步地，考虑到若是仅仅对每个音频块进行分析，因为每个音频块是独立的，音频块之间的关联较小，可能无法确定出准确的副歌起止时间，因此本发明实施例中，对于每个音频块，会将该音频块、与该音频块相邻的前m个音频块，以及与该音频块相邻的后n个音频块合成一个音频片段，由于每个音频块与该音频块相邻的音频块中，既有重复的内容，也有不重复的内容，因此，通过结合该音频块以及相邻的音频块生成音频片段，并在后续步骤中基于该音频片段生成该音频块的音频向量，使得该音频向量能够体现更加丰富的信息，进而使得通过音频向量进行副歌起止时间预测时，能得到较全面、准确的预测效果。

示例的，参照图2-2，示出了音频片段合成部分的示意图，以音频样本的时长为500s，被分为500个音频块为例，每个音频块的时长为1s，第一预设个数和第二预设个数均为n，n可以是大于1的整数，则对于第t个音频块，该第t个音频块的上下文音频块可以是[max(t-n，1)，min(t+n，500)]，则该第t个音频块对应的音频片段可以是，从第max(t-n，1)秒到min(t+n，500)秒对应的(2n+1)个音频块合成。

步骤204，分别将每个所述音频片段转换为音频向量，得到多个音频向量。

本发明实施例中，可以分别将每个音频片段转换为音频向量，该音频向量可以是d维的向量，d为大于1的整数。具体应用中，d的值越大越能准确的反映音频片段，但是d的值越大也会到来计算上的负荷，导致计算效率较低，因此，d的值可以根据实际的应用场景确定，本发明实施例对此不做具体限定。

优选地，所述分别将每个所述音频片段转换为音频向量，包括：

利用梅尔频率倒谱系数算法分别将每个所述音频片段转换为音频向量。

本发明实施例中，采用梅尔频率倒谱系数算法(Mel Frequency CepstrumCoefficient，MFCC)将每个音频片段转换为音频向量，梅尔(Mel)频率是基于人耳听觉特性提出来的，它与Hz(赫兹)频率成非线性对应关系，MFCC是利用Mel频率与Hz频率之间的对应关系，计算得到Hz频谱特征，梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的，它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。因此采用MFCC将每个音频片段转换为音频向量可以更好的表示音频片段，确保后续基于音频向量进行副歌起止时间预测的准确性。

具体应用中，音频向量可以为音频矩阵，示例的，针对每个音频片段，利用梅尔频率倒谱系数算法将该音频片段转换为音频向量可以包括：

将所述音频片段依次进行下述操作：预加重、分帧、加窗、快速傅里叶变换(FastFourier Transform，FFT)、三角带通滤波器滤波、离散余弦变换，得到音频向量对应的音频矩阵。

下面示例的说明预加重、分帧、加窗、快速傅里叶变换、三角带通滤波器滤波、离散余弦变换的具体过程。

预加重：预加重的目的是提升高频部分，使音频片段对应的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。具体的预加重实现方法可以是：将音频片段s(n)通过一个一阶有限长单位冲激响应(Finite Impulse Response，FIR)高通数字滤波器来进行预加重，其传递函数为：

H(z)＝1-a·z-1

其中，z表示输入信号，时域表示即为特定声音样本信号s(n)，a表示预加重系数，一般取0.9～1.0中的常数。

分帧：将音频片段s(n)中每P个采样点集合成一个观测单位，每个观测单位称为帧。P的值可以根据实际的应用场景进行选定。

加窗：将每一帧乘以汉明窗，以增加帧左端和右端的连续性。其中，汉明窗的具体函数以及窗长可以根据实际的应用场景选定。

快速傅里叶变换：由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同声音的特性。所以在乘上汉明窗后，每帧还可以再经过快速傅里叶变换以得到在频谱上的能量分布。具体的，可以对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱，并对音频片段的频谱取模平方得到特定声音样本信号的功率谱。

三角带通滤波器滤波：将能量谱通过一组梅尔尺度的三角形滤波器组进行滤波。具体的，定义一个有M个滤波器的滤波器组，采用的滤波器为三角滤波器，中心频率为f(m)，m＝1，2，...，M。M可以为大于1的整数。各f(m)之间的间隔随着m值的减小而缩小，随着m值的增大而增宽，通过该三角带通滤波器滤波可以去掉一些干扰信号，得到准确的信号。

离散余弦变换：每个录波器组会输出对数能量，将对数能量进行离散余弦变换(Dual Clutch Transmission，DCT)可以得到音频矩阵。

步骤205，对副歌音频处理模型中各层的参数进行初始化；其中，所述副歌音频处理模型包括音频向量编码层、全连接层以及归一化指数函数softmax层。

本发明实施例中，副歌音频处理模型可以包括多层结构，具体可以包括：音频向量编码层、全连接层以及归一化指数函数softmax层。各层的参数可以是根据每层所需实现的功能预先选择的，具体的，对于音频向量编码层，该层的参数可以包括：隐层维数、所接受输入的音频向量的个数和维数、输出的处理后的音频向量的个数和维数等；对于全连接层，该层的参数可以包括：接收的输入的维数、输出的维数等；对于softmax层，可以包括：输出预测副歌起始部分的区域，以及输出预测副歌结束部分的区域等。具体应用中，在初始化时，可以是先随机生成一些参数作为各层的初始值，或者是基于经验为每个层设定初始值，本发明实施例对此不作限定。

步骤206，按照各音频向量在所述音频训练样本中的时序，将所述多个音频向量依次输入所述音频向量编码层，得到目标编码向量。

本发明实施例中，音频向量编码层的作用是，将多个音频向量进行重新编码，提取出各个音频向量中重要的特征向量，作为目标编码向量，使得通过该目标编码向量可以准确、有效的进行后续的副歌起止时间预测。

作为本发明实施例的一种优选方式，所述音频向量编码层包括基于双向长短期记忆神经网络Bi-LSTM构建的：第一音频向量编码层、第二音频向量编码层和第三音频向量编码层。

Bi-LSTM(Bi-directional Long Short-Term Memory，双向长短期记忆神经网络)的基本思想是，对每一个训练序列，该训练序列向前和向后分别是两个LSTM，而且这两个LSTM都连接着一个输出层，这两个LSTM提供每一个点的完整的过去和未来的上下文信息给输出层，进而得到编码向量。

本发明实施例中，将音频向量编码层设置为包括三个编码层的结构，即第一音频向量编码层、第二音频向量编码层和第三音频向量编码层。进一步的，第一音频向量编码层、第二音频向量编码层和第三音频向量编码层可以是由小到大的编码层，示例的，第一音频向量编码层可以进行1s级别的编码(1s-LSTM Layer)，第二音频向量编码层可以进行10s级别的编码(10s-LSTM Layer)，第三音频向量编码层可以进行100s级别的编码(100s-LSTMLayer)，通过小到大的三次层编码层，可以在不同的维度对音频向量进行处理，即在不同维度下对音频向量进行考量，因此可以对音频向量进行准确的编码，得到准确的目标编码向量。

进一步的，步骤206中的所述将所述多个音频向量依次输入所述音频向量编码层，得到目标编码向量，包括：

子步骤2061，将所述多个音频向量依次输入所述第一音频向量编码层，得到多个第一级编码向量。

示例的，以该多个音频向量为500个d维向量、第一音频向量编码层为1s-LSTMLayer为例，该500个d维向量按照时序输入到1s-LSTM Layer，该1s-LSTM Layer的隐层可以预先设置为d维，通过该1s-LSTM Layer可以对每个包含d维向量进行1s级别编码，输出500个2d维向量。其中，1s编码、隐层d维以及输出2d维都是发明人在实验中进行测试的数值，可以理解，本领域技术人员可以根据实际的应用场景对第一音频向量编码层中的参数进行设定，以得到对d维向量的低秒级编码。

子步骤2062，将所述多个第一级编码向量输入所述第二音频向量编码层，得到多个第二级编码向量。

本发明实施例中，第二音频向量编码层可以是10s-LSTM Layer，可以实现对多个第一级编码向量进行10s级别编码，第二音频向量编码层的处理方式可以与第一音频向量编码层类似，在此不再赘述。

在一种优选地实现方式中，子步骤2062可以通过下述方式实现：

子步骤20621，将所述多个第一级编码向量按照时序划分为第一数量的第一合并向量，其中，所述第一合并向量的数量小于所述多个第一级编码向量的数量。

示例的，可以将子步骤2061中的500个2d维向量按照时序划分成50个10*2d的矩阵，每个10*2d的矩阵作为一个第一合并向量，然后再将第一合并数量作为第二音频向量编码层的输入。可以理解，本步骤的将多个第一级编码向量按照时序划分为第一数量的第一合并向量，也是发明人在实验中为了匹配第二音频向量编码层的输入所进行的预先操作，实际应用中，本领域技术人员可以根据实际的应用场景对多个第一级编码向量进行处理，以得到第二音频向量编码层的输入，本发明实施例不作具体限定。

子步骤20622，通过所述第二音频向量编码层基于所述第一数量的第一合并向量，输出所述第一数量的第二级编码向量。

本发明实施例中，以子步骤20621中的500个2d维向量按照时序划分成50个10*2d的矩阵、第二音频向量编码层为10s-LSTM Layer为例，该50个10*2d的矩阵按照时序输入到10s-LSTM Layer，该10s-LSTM Layer的隐层可以预先设置为2d维，通过该10s-LSTM Layer可以对每个10*2d的矩阵进行10s级别编码，输出50个4d维向量。其中，10s编码、隐层2d维以及输出4d维都是发明人在实验中进行测试的数值，可以理解，本领域技术人员可以根据实际的应用场景对第二音频向量编码层中的参数进行设定，以得到对多个第一级编码向量的较高秒级编码。

子步骤2063，将所述多个第二级编码向量输入所述第三音频向量编码层，得到目标编码向量。

本发明实施例中，第三音频向量编码层可以是100s-LSTM Layer，可以实现对多个第二级编码向量进行100s级别编码，第三音频向量编码层的处理方式可以与第二音频向量编码层类似，在此不再赘述。

在一种优选地实现方式中，子步骤2063可以通过下述方式实现：

子步骤20631，将所述第一数量的第二级编码向量按照时序划分为第二数量的第二合并向量，其中，所述第二数量小于所述第一数量。

示例的，可以将子步骤20622中的50个4d维向量按照时序划分成5个10*4d的矩阵，每个10*4d的矩阵作为一个第二合并向量，然后再将第二合并数量作为第二音频向量编码层的输入。可以理解，本步骤的将第一数量的第二级编码向量按照时序划分为第二数量的第二合并向量，也是发明人在实验中为了匹配第三音频向量编码层的输入所进行的预先操作，实际应用中，本领域技术人员可以根据实际的应用场景对第一数量的第二级编码向量进行处理，以得到第三音频向量编码层的输入，本发明实施例不作具体限定。

子步骤20632，通过所述第三音频向量编码层基于所述第二数量的第二合并向量，输出所述第二数量的目标编码向量。

本发明实施例中，以子步骤20631中的50个4d维向量按照时序划分成5个10*4d的矩阵、第三音频向量编码层为100s-LSTM Layer为例，该5个10*4d的矩阵按照时序输入到100s-LSTM Layer，该100s-LSTM Layer的隐层可以预先设置为4d维，通过该100s-LSTMLayer可以对每个10*4d的矩阵进行100s级别编码，输出1个8d维向量。其中，100s编码、隐层4d维以及输出8d维都是发明人在实验中进行测试的数值，可以理解，本领域技术人员可以根据实际的应用场景对第三音频向量编码层中的参数进行设定，以得到对多个第二级编码向量的高秒级编码。

本发明实施例中，可以通过不同的编码层，对音频片段进行不同级别的特征提取，从而可以得到准确的目标编码向量，使得后续通过目标编码向量进行副歌起止时间预测时，能得到准确的预测结果。

步骤207，将所述目标编码向量输入所述全连接层，得到所述音频训练样本的运算向量。

具体应用中，全连接层在整个神经网络中起到“分类器”的作用，可以根据实际需求将目标编码向量进行分类、升维或降维等处理后，映射到softmax层，以得到最后的输出结果。

优选地，所述全连接层包括：第一全连接层、第二全连接层、第三全连接层；所述运算向量包括第一运算向量、第二运算向量；步骤207中将所述目标编码向量输入所述全连接层，得到所述音频训练样本的运算向量，包括：

子步骤2071，将所述目标编码向量输入所述第一全连接层，得到连接向量。

本发明实施例中，第一全连接层的作用是承接音频向量编码层输出的目标编码向量，并根据预设参数将目标编码向量转换为连接向量，示例的，以步骤206中得到1个8d维的目标编码向量为例，可以将该8d维的目标编码向量转换为1个8d维的连接向量。可以理解，该将该8d维的目标编码向量转换为1个8d维的连接向量是发明人在实验中进行测试的数值，可以理解，本领域技术人员可以根据实际的应用场景采用其他方式得到连接向量，本发明实施例对此不作具体限定。

子步骤2072，将所述连接向量输入所述第二全连接层，得到所述音频训练样本的第一运算向量。

子步骤2073，将所述连接向量输入所述第三全连接层，得到所述音频训练样本的第二运算向量。

本发明实施例中，子步骤2072中的第二全连接层可以对应输出预测副歌起始时间的softmax层，适应的，第一运算向量可以是输出预测副歌起始时间的softmax层所需要的数据；子步骤2073中的第三全连接层可以对应输出预测副歌结束时间的softmax层，适应的，第二运算向量可以是输出预测副歌结束时间的softmax层所需要的数据，可以理解，第二全连接层与第三全连接层的作用也可以互换，本发明实施例对此不做具体限定。

步骤208，将所述运算向量输入所述softmax层，得到所述音频训练样本的预测副歌起止时间。

本发明实施例中，通过softmax层基于运算向量可以确定音频训练样本的预测副歌起止时间，具体的，对于该音频训练样本，softmax层可以计算该音频训练样本对应的运算向量的置信度，示例的，softmax层可以包括用于预测副歌的起始时间的区域，以及用于预测副歌的结束时间的区域，在softmax层中用于预测副歌的起始时间的区域所计算的置信度中，最大数值对应的时间索引既可以认为是副歌的起始时间；在softmax层中用于预测副歌的结束时间的区域所计算的置信度中，最大数值对应的时间索引既可以认为是副歌的结束时间。

优选地，所述softmax层包括：第一softmax层、第二softmax层；所述将所述运算向量输入所述softmax层，得到所述音频训练样本的预测副歌起止时间，包括：

子步骤2081，将所述音频训练样本的第一运算向量输入所述第一softmax层，得到所述音频训练样本的预测副歌起始时间；

子步骤2082，将所述音频训练样本的第二运算向量输入所述第二softmax层，得到所述音频训练样本的预测副歌终止时间。

本发明实施例中，子步骤2081中的第一softmax层可以对应输出预测副歌起始时间；子步骤2082中的第二softmax层可以对应输出预测副歌结束时间，可以理解，第一softmax层与第二softmax层的作用也可以互换，本发明实施例对此不做具体限定。

示例的，以第一运算向量为对应于副歌起始部分的1个500维向量，第二运算向量为对应于副歌结束部分的1个500维向量为例，第一softmax层可以根据该对应于副歌起始部分的1个500维向量计算得到表示所在索引为副歌开始时间的置信度，具体也可以是1个500维向量，在该置信度中最大的数值对应的索引即为预测副歌起始时间；第二softmax层可以根据该对应于副歌结束部分的1个500维向量计算得到表示所在索引为副歌结束时间的置信度，具体也可以是1个500维向量，在该置信度中最大的数值对应的索引即为预测副歌结束时间。

示例的，参照图2-3，说明得到预测副歌起止时间的具体过程。

针对每个音频训练样本，将该音频训练样本处理得到多个音频向量作为输入，该输入经过第一音频向量编码层、第二音频向量编码层、第三音频向量编码层编码后，得到目标音频向量，该目标音频向量进过第一全连接层分类后，将对应于预测副歌起始时间的数据分类到第二全连接层，将对应于预测副歌结束时间的数据分类到第三全连接层，第三全连接层进一步得到第二计算向量，第一softmax层根据该第一计算向量输出预测副歌起始时间，第二softmax层根据该第二计算向量输出预测副歌结束时间。

步骤209，基于所述预测副歌起止时间以及所述音频训练样本的真实副歌起止时间，获取所述副歌音频处理模型的损失值。

具体的，本步骤的实现方式可以参考上述步骤103，本发明实施例在此不做赘述。

步骤210，在所述损失值在预设范围内的情况下，将所述副歌音频处理模型作为目标副歌音频处理模型。

具体的，本步骤的实现方式可以参考上述步骤104，本发明实施例对此不作限定。

具体应用中，在步骤209之后还可以包括：在所述损失值不在预设范围内的情况下，调整所述副歌音频处理模型的参数，并基于各音频训练样本对调整后的副歌音频处理模型继续训练，直至所述损失值在所述预设范围内，将所述副歌音频处理模型作为目标副歌音频处理模型。

具体应用中，如果损失值不在预设范围内，则可以认为每个音频训练样本的预测副歌起止时间与真实副歌起止时间之间的偏差较大，该副歌音频处理模型还不能够正确的预测副歌起止时间，因此，可以按照预设步长对副歌音频处理模型的参数进行调整，并对调整后的副歌音频处理模型继续训练，即，通过修改参数，进行迭代训练，使副歌音频处理模型的输出结果更加接近真实结果，相应地，在多轮迭代训练过程中，如果某一轮的副歌音频处理模型的损失值控制在预设范围内，则可以将该轮的副歌音频处理模型作为目标副歌音频处理模型。

综上所述，本发明实施例提供的另一种模型生成方法，针对各音频训练样本，可以根据该音频训练样本得到对应的多个音频向量，然后按照多个音频向量在该音频训练样本中的时序，将多个音频向量依次输入副歌音频处理模型，则副歌音频处理模型可以初步确定出音频训练样本的预测副歌起止时间，基于该音频训练样本的预测副歌起止时间以及该音频训练样本的真实副歌起止时间，可以计算副歌音频处理模型的损失值，在损失值在预设范围内的情况下，可以说明副歌音频处理模型可以输出较准确的副歌起止时间，因此可以会将副歌音频处理模型作为目标副歌音频处理模型。本发明实施例中，通过音频训练样本可以训练生成能输出准确副歌起止时间的目标副歌音频处理模型，使得后续使用过程中，利用该目标副歌音频处理模型在对待处理音频处理时，能够基于训练学习中的各参数，自动得到准确的副歌起止时间，不需要进行人工选取副歌操作，大大减少了人工操作的工作量，且相较于人工操作，通过机器执行的模型识别具有较高的稳定性，进而能提升获取副歌起止时间的准确率。

图3是本发明实施例提供的一种音频处理方法的步骤流程图，如图3所示，该方法可以包括：

步骤301，获取待处理音频。

本发明实施例中，该待处理音频可以是需要确定副歌起止时间的音频，该待处理音频可以是用户输入的音频，相应地，终端可以通过接收用户输入的该音频来实现获取待处理音频，进一步地，终端也可以通过从网络中下载音频来实现获取待处理音频，又或者，终端也可以通过读取预先存储在该终端内的音频来实现获取待处理音频，等等，本发明实施例对此不作限定。

步骤302、获取所述待处理音频的多个待处理音频向量。

进一步地，可以将该待处理音频处理为多个待处理音频向量，每个待处理音频向量可以通过矩阵等形式表示，本发明实施例对此不做限定。具体的，获取待处理音频向量的实现方式可以参照前述实施例中获取音频向量的实现方式，本发明实施例在此不做赘述。

步骤303，将所述多个待处理音频向量输入目标副歌音频处理模型，并通过所述目标副歌音频处理模型生成所述待处理音频的副歌起止时间；其中，所述目标副歌音频处理模型是利用上述的模型生成方法实施例中的方法生成的。

本步骤中，在将多个待处理音频向量输入目标副歌音频处理模型时，可以是按照各待处理音频向量在待处理音频中的时序一次输入的，进一步地，该目标副歌音频处理模型可以是利用前述副歌音频处理模型生成方法生成的，由于该副歌音频处理模型是根据音频训练样本训练生成的、能输出准确副歌起止时间的处理模型，因此本步骤中，利用该目标副歌音频处理模型在对待处理音频进行音频处理时，能够基于训练学习中的各参数，自动得到准确的副歌起止时间，不需要进行人工选取副歌操作，大大减少了人工操作的工作量，且相较于人工操作，通过机器执行的模型识别具有较高的稳定性，进而能提升获取副歌起止时间的准确率。

综上所述，本发明实施例提供的音频处理方法，因为训练目标副歌音频处理模型时，是针对各音频训练样本，根据该音频训练样本得到多个音频向量，然后按照多个音频向量在音频训练样本中的时序，将多个音频向量依次输入副歌音频处理模型，则副歌音频处理模型可以初步确定出音频训练样本的预测副歌起止时间，基于该音频训练样本的预测副歌起止时间以及该音频训练样本的真实副歌起止时间，可以计算副歌音频处理模型的损失值，在损失值在预设范围内的情况下，可以说明副歌音频处理模型可以输出较准确的副歌起止时间，因此可以会将副歌音频处理模型作为目标副歌音频处理模型。因此利用该目标副歌音频处理模型在对待处理音频处理时，能够基于训练学习中的各参数，自动得到准确的副歌起止时间，不需要进行人工选取副歌操作，大大减少了人工操作的工作量，且相较于人工操作，通过机器执行的模型识别具有较高的稳定性，进而能提升获取副歌起止时间的准确率。

图4是本发明实施例提供的另一种音频处理方法的步骤流程图，如图4所示，该方法可以包括：

步骤401，将所述待处理音频处理为第一预设时长的目标待处理音频。

步骤402，将所述目标待处理音频按照第二预设时长分块，得到多个待处理音频块。

步骤403，对于每个所述待处理音频块，将该待处理音频块、与该待处理音频块相邻的前p个待处理音频块，以及与该待处理音频块相邻的后q个待处理音频块合成一个待处理音频片段，得到该待处理音频块对应的待处理音频片段；所述p等于第一预设个数，所述q等于第二预设个数。

步骤404，分别将每个所述待处理音频片段转换为待处理音频向量，得到多个待处理音频向量。

优选地，所述分别将每个所述待处理音频片段转换为待处理音频向量，包括：

利用梅尔频率倒谱系数算法分别将每个所述待处理音频片段转换为待处理音频向量。

本发明实施例中，步骤401至步骤404的处理方式可以参照上述的步骤201至步骤204，在此不再赘述。

步骤405，将所述多个待处理音频向量依次输入目标副歌音频处理模型，并通过所述目标副歌音频处理模型生成所述待处理音频的副歌起止时间；其中，所述目标副歌音频处理模型是利用副歌音频处理模型生成方法生成的。

优选地，所述目标副歌音频处理模型包括音频向量编码层、全连接层以及归一化指数函数softmax层；所述将所述多个待处理音频向量依次输入目标副歌音频处理模型，并通过所述目标副歌音频处理模型生成所述待处理音频的副歌起止时间包括：

子步骤4051，将所述多个待处理音频向量依次输入所述音频向量编码层，得到目标待处理编码向量。

优选地，所述音频向量编码层包括基于双向长短期记忆神经网络Bi-LSTM构建的：第一音频向量编码层、第一音频向量编码层和第三音频向量编码层；所述将所述多个待处理音频向量依次输入所述音频向量编码层，得到目标待处理编码向量，包括：

将所述多个待处理音频向量依次输入所述第一音频向量编码层，得到多个第一级待处理编码向量；将所述多个第一级待处理编码向量输入所述第二音频向量编码层，得到多个第二级待处理编码向量；将所述多个第二级待处理编码向量输入所述第三音频向量编码层，得到所述目标待处理编码向量。

优选地，所述将所述多个第一级待处理编码向量输入所述第二音频向量编码层，得到多个第二级待处理编码向量，包括：

将所述多个第一级待处理编码向量按照时序划分为第三数量的第三合并向量，其中，所述第三合并向量的数量小于所述多个第一级待处理编码向量的数量；

通过所述第二音频向量编码层基于所述第三数量的第三合并向量，输出所述第三数量的第二级待处理编码向量。

所述将所述多个第二级待处理编码向量输入所述第三音频向量编码层，得到目标待处理编码向量，包括：

将所述第三数量的第二级待处理编码向量按照时序划分为第四数量的第四合并向量，其中，所述第四数量小于所述第三数量；

通过所述第三音频向量编码层基于所述第四数量的第四合并向量，输出所述第四数量的目标待处理编码向量。

子步骤4052，将所述目标待处理编码向量输入所述全连接层，得到所述待处理音频的运算向量。

优选地，所述全连接层包括：第一全连接层、第二全连接层、第三全连接层；所述运算向量包括第一运算向量、第二运算向量；所述将所述目标待处理编码向量输入所述全连接层，得到所述待处理音频的运算向量，包括：

将所述目标待处理编码向量输入所述第一全连接层，得到待处理连接向量；将所述待处理连接向量输入所述第二全连接层，得到所述待处理音频的第一运算向量；将所述待处理连接向量输入所述第三全连接层，得到所述待处理音频的第二运算向量。

子步骤4053，将所述运算向量输入所述softmax层，得到所述待处理音频的副歌起止时间。

所述softmax层包括：第一softmax层、第二softmax层；所述将所述运算向量输入所述softmax层，得到所述待处理音频的副歌起止时间，包括：

将所述待处理音频的第一运算向量输入所述第一softmax层，得到所述待处理音频的预测副歌起始时间；将所述待处理音频的第二运算向量输入所述第二softmax层，得到所述待处理音频的预测副歌终止时间。

本发明实施例中，子步骤4051至子步骤4053的处理方式可以参照上述的步骤206至步骤208，且，因为在训练目标副歌音频处理模型时，已经将目标副歌音频处理模型的各参数调整为能输出准确副歌起止时间的参数，因此在利用目标副歌音频处理模型预测待处理音频时，能够得到准确的副歌起止时间。

步骤406，根据所述待处理音频的副歌起止时间，从所述待处理音频中获取副歌片段。

本发明实施例中，在确定出待处理音频的副歌起止时间后，可以通过音频剪切工具等，将副歌起止时间对应的音频截取，从而获取待处理音频的副歌片段。

实际应用场景中，在获取到副歌片段后，可以进一步将该副歌片段插入到需要配乐的视频文件、多媒体文件等中，以丰富视频文件、多媒体文件等的内容。

综上所述，本发明实施例提供的音频处理方法，因为训练目标副歌音频处理模型时，是针对各音频训练样本，根据该音频训练样本得到对应的多个音频向量，然后按照多个音频向量在音频训练样本中的时序，将多个音频向量依次输入副歌音频处理模型，则副歌音频处理模型可以初步确定出音频训练样本的预测副歌起止时间，基于该音频训练样本的预测副歌起止时间以及该音频训练样本的真实副歌起止时间，可以计算副歌音频处理模型的损失值，在损失值在预设范围内的情况下，可以说明副歌音频处理模型可以输出较准确的副歌起止时间，因此可以会将副歌音频处理模型作为目标副歌音频处理模型。因此利用该目标副歌音频处理模型在对待处理音频处理时，能够基于训练学习中的各参数，自动得到准确的副歌起止时间，不需要进行人工选取副歌操作，大大减少了人工操作的工作量，且相较于人工操作，通过机器执行的模型识别具有较高的稳定性，进而能提升获取副歌起止时间的准确率。

图5是本发明实施例提供的一种模型生成装置的框图，如图5所示，该装置50可以包括：

第一获取模块501，用于针对各音频训练样本，根据所述音频训练样本得到对应的多个音频向量；

输入模块502，用于按照各音频向量在所述音频训练样本中的时序，将所述多个音频向量依次输入副歌音频处理模型，得到所述副歌音频处理模型输出的所述音频训练样本的预测副歌起止时间；

第二获取模块503，用于基于所述预测副歌起止时间以及所述音频训练样本的真实副歌起止时间，获取所述副歌音频处理模型的损失值；

确定模块504，用于在所述损失值在预设范围内的情况下，将所述副歌音频处理模型作为目标副歌音频处理模型。

可选的，所述第一获取模块501，包括：

处理子模块，用于将所述音频训练样本处理为第一预设时长的音频样本；

分块子模块，用于将所述音频样本按照第二预设时长分块，得到多个音频块；

合成子模块，用于对于每个所述音频块，将该音频块、与该音频块相邻的前m个音频块，以及与该音频块相邻的后n个音频块合成一个音频片段，得到该音频块对应的音频片段；所述m等于第一预设个数，所述n等于第二预设个数；

转换子模块，用于分别将每个所述音频片段转换为音频向量，得到多个音频向量。

可选的，所述转换子模块，用于：

可选的，所述装置50还包括：

初始化模块，用于对副歌音频处理模型中各层的参数进行初始化；其中，所述副歌音频处理模型包括音频向量编码层、全连接层以及归一化指数函数softmax层；

可选的，所述输入模块502，包括：

第一输入子模块，用于按照各音频向量在所述音频训练样本中的时序，将所述多个音频向量依次输入所述音频向量编码层，得到目标编码向量；

第二输入子模块，用于将所述目标编码向量输入所述全连接层，得到所述音频训练样本的运算向量；

第三输入子模块，用于将所述运算向量输入所述softmax层，得到所述音频训练样本的预测副歌起止时间。

可选的，所述音频向量编码层包括基于双向长短期记忆神经网络Bi-LSTM构建的：第一音频向量编码层、第二音频向量编码层和第三音频向量编码层；

所述第一输入子模块，包括：

第一输入单元，用于将所述多个音频向量依次输入所述第一音频向量编码层，得到多个第一级编码向量；

第二输入单元，用于将所述多个第一级编码向量输入所述第二音频向量编码层，得到多个第二级编码向量；

第三输入单元，用于将所述多个第二级编码向量输入所述第三音频向量编码层，得到所述目标编码向量。

可选的，所述第二输入单元，用于：

将所述多个第一级编码向量按照时序划分为第一数量的第一合并向量，其中，所述第一合并向量的数量小于所述多个第一级编码向量的数量；

通过所述第二音频向量编码层基于所述第一数量的第一合并向量，输出所述第一数量的第二级编码向量。

可选的，所述第三输入单元，用于：

将所述第一数量的第二级编码向量按照时序划分为第二数量的第二合并向量，其中，所述第二数量小于所述第一数量；

通过所述第三音频向量编码层基于所述第二数量的第二合并向量，输出所述第二数量的目标编码向量。

可选的，所述全连接层包括：第一全连接层、第二全连接层、第三全连接层；所述运算向量包括第一运算向量、第二运算向量；所述第二输入子模块，用于：

将所述目标编码向量输入所述第一全连接层，得到连接向量；

将所述连接向量输入所述第二全连接层，得到所述音频训练样本的第一运算向量；

将所述连接向量输入所述第三全连接层，得到所述音频训练样本的第二运算向量。

可选的，所述softmax层包括：第一softmax层、第二softmax层；所述第三输入子模块，用于：

将所述音频训练样本的第一运算向量输入所述第一softmax层，得到所述音频训练样本的预测副歌起始时间；

将所述音频训练样本的第二运算向量输入所述第二softmax层，得到所述音频训练样本的预测副歌终止时间。

可选的，所述装置50还包括：

调整模块，用于在所述损失值不在所述预设范围内的情况下，调整所述副歌音频处理模型的参数，并基于各音频训练样本对调整后的副歌音频处理模型继续训练，直至所述损失值在所述预设范围内，将所述副歌音频处理模型作为目标副歌音频处理模型。

综上所述，本发明实施例提供的一种模型生成装置，针对各音频训练样本，可以根据该音频训练样本得到对应的多个音频向量，然后按照多个音频向量对应在音频训练样本中的时序，将多个音频向量依次输入副歌音频处理模型，则副歌音频处理模型可以初步确定出音频训练样本的预测副歌起止时间，基于该音频训练样本的预测副歌起止时间以及该音频训练样本的真实副歌起止时间，可以计算副歌音频处理模型的损失值，在损失值在预设范围内的情况下，可以说明副歌音频处理模型可以输出较准确的副歌起止时间，因此可以会将副歌音频处理模型作为目标副歌音频处理模型。本发明实施例中，通过音频训练样本可以训练生成能输出准确副歌起止时间的目标副歌音频处理模型，使得后续使用过程中，利用该目标副歌音频处理模型在对待处理音频处理时，能够基于训练学习中的各参数，自动得到准确的副歌起止时间，不需要进行人工选取副歌操作，大大减少了人工操作的工作量，且相较于人工操作，通过机器执行的模型识别具有较高的稳定性，进而能提升获取副歌起止时间的准确率。

图6是本发明实施例提供的一种音频处理装置的框图，如图6所示，该装置60可以包括：

第一获取模块601，用于获取待处理音频；

第二获取模块602，用于获取所述待处理音频的多个待处理音频向量；

生成模块603，用于将所述多个待处理音频向量输入目标副歌音频处理模型，并通过所述目标副歌音频处理模型生成所述待处理音频的副歌起止时间；其中，所述目标副歌音频处理模型是上述模型生成装置生成的。

综上所述，本发明实施例提供的音频处理装置，因为训练目标副歌音频处理模型时，是针对各音频训练样本，根据该音频训练样本得到对应的多个音频向量，然后按照多个音频向量对应在该音频训练样本中的时序，将多个音频向量一次输入副歌音频处理模型，则副歌音频处理模型可以初步确定出音频训练样本的预测副歌起止时间，基于该音频训练样本的预测副歌起止时间以及该音频训练样本的真实副歌起止时间，可以计算副歌音频处理模型的损失值，在损失值在预设范围内的情况下，可以说明副歌音频处理模型可以输出较准确的副歌起止时间，因此可以会将副歌音频处理模型作为目标副歌音频处理模型。因此利用该目标副歌音频处理模型在对待处理音频处理时，能够基于训练学习中的各参数，自动得到准确的副歌起止时间，不需要进行人工选取副歌操作，大大减少了人工操作的工作量，且相较于人工操作，通过机器执行的模型识别具有较高的稳定性，进而能提升获取副歌起止时间的准确率。

对于上述装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

另外，本发明实施例还提供一种终端，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述模型生成方法、音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上模型生成方法、音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random AccessMemory，简称RAM)、磁碟或者光盘等。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本发明的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

在此提供的模型生成方法、音频处理方法不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造具有本发明方案的系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的模型生成方法、音频处理方法中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种模型生成方法，其特征在于，所述方法包括：

在所述损失值在预设范围内的情况下，将所述副歌音频处理模型作为目标副歌音频处理模型；

所述根据所述音频训练样本得到对应的多个音频向量，包括：

将所述音频训练样本处理为第一预设时长的音频样本；

将所述音频样本按照第二预设时长分块，得到多个音频块；

对于每个所述音频块，将该音频块、与该音频块相邻的前m个音频块，以及与该音频块相邻的后n个音频块合成一个音频片段，得到该音频块对应的音频片段；所述m等于第一预设个数，所述n等于第二预设个数；

分别将每个所述音频片段转换为音频向量，得到多个音频向量；

所述将所述音频训练样本处理为第一预设时长的音频样本，包括：

若所述音频训练样本的时长大于所述第一预设时长，则将所述音频训练样本起始或结束位置进行截断，得到所述第一预设时长的音频样本。

2.根据权利要求1所述的方法，其特征在于，所述分别将每个所述音频片段转换为音频向量，包括：

3.根据权利要求1所述的方法，其特征在于，所述按照各音频向量在所述音频训练样本中的时序，将所述多个音频向量依次输入副歌音频处理模型之前，还包括：

对副歌音频处理模型中各层的参数进行初始化；其中，所述副歌音频处理模型包括音频向量编码层、全连接层以及归一化指数函数softmax层；

所述按照各音频向量在所述音频训练样本中的时序，将所述多个音频向量依次输入副歌音频处理模型，得到所述副歌音频处理模型输出的所述音频训练样本的预测副歌起止时间，包括：

按照各音频向量在所述音频训练样本中的时序，将所述多个音频向量依次输入所述音频向量编码层，得到目标编码向量；

将所述目标编码向量输入所述全连接层，得到所述音频训练样本的运算向量；

将所述运算向量输入所述softmax层，得到所述音频训练样本的预测副歌起止时间。

4.根据权利要求3所述的方法，其特征在于，所述音频向量编码层包括基于双向长短期记忆神经网络Bi-LSTM构建的：第一音频向量编码层、第二音频向量编码层和第三音频向量编码层；

所述将所述多个音频向量依次输入所述音频向量编码层，得到目标编码向量，包括：

将所述多个音频向量依次输入所述第一音频向量编码层，得到多个第一级编码向量；

将所述多个第一级编码向量输入所述第二音频向量编码层，得到多个第二级编码向量；

将所述多个第二级编码向量输入所述第三音频向量编码层，得到所述目标编码向量。

5.根据权利要求4所述的方法，其特征在于，所述将所述多个第一级编码向量输入所述第二音频向量编码层，得到多个第二级编码向量，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述多个第二级编码向量输入所述第三音频向量编码层，得到目标编码向量，包括：

7.根据权利要求3所述的方法，其特征在于，所述全连接层包括：第一全连接层、第二全连接层、第三全连接层；所述运算向量包括第一运算向量、第二运算向量；所述将所述目标编码向量输入所述全连接层，得到所述音频训练样本的运算向量，包括：

8.根据权利要求7所述的方法，其特征在于，所述softmax层包括：第一softmax层、第二softmax层；所述将所述运算向量输入所述softmax层，得到所述音频训练样本的预测副歌起止时间，包括：

9.根据权利要求1至8任一项所述的方法，其特征在于，还包括：

在所述损失值不在所述预设范围内的情况下，调整所述副歌音频处理模型的参数，并基于各音频训练样本对调整后的副歌音频处理模型继续训练，直至所述损失值在所述预设范围内，将所述副歌音频处理模型作为目标副歌音频处理模型。

10.一种音频处理方法，其特征在于，所述方法包括：

获取待处理音频；

获取所述待处理音频的多个待处理音频向量；

将所述多个待处理音频向量输入目标副歌音频处理模型，并通过所述目标副歌音频处理模型生成所述待处理音频的副歌起止时间；其中，所述目标副歌音频处理模型是利用权利要求1至9中任一项所述的方法生成的。

11.一种模型生成装置，其特征在于，所述装置包括：

确定模块，用于在所述损失值在预设范围内的情况下，将所述副歌音频处理模型作为目标副歌音频处理模型；

所述第一获取模块，包括：

转换子模块，用于分别将每个所述音频片段转换为音频向量，得到多个音频向量；

所述处理子模块，具体用于若所述音频训练样本的时长大于所述第一预设时长，则将所述音频训练样本起始或结束位置进行截断，得到所述第一预设时长的音频样本。

12.根据权利要求11所述的装置，其特征在于，所述转换子模块，用于：

13.根据权利要求11所述的装置，其特征在于，所述装置还包括：

所述输入模块，包括：

14.根据权利要求13所述的装置，其特征在于，所述音频向量编码层包括基于双向长短期记忆神经网络Bi-LSTM构建的：第一音频向量编码层、第二音频向量编码层和第三音频向量编码层；

所述第一输入子模块，包括：

15.根据权利要求14所述的装置，其特征在于，所述第二输入单元，用于：

16.根据权利要求15所述的装置，其特征在于，所述第三输入单元，用于：

17.根据权利要求13所述的装置，其特征在于，所述全连接层包括：第一全连接层、第二全连接层、第三全连接层；所述运算向量包括第一运算向量、第二运算向量；所述第二输入子模块，用于：

18.根据权利要求17所述的装置，其特征在于，所述softmax层包括：第一softmax层、第二softmax层；所述第三输入子模块，用于：

19.根据权利要求11至18任一项所述的装置，其特征在于，所述装置还包括：

20.一种音频处理装置，其特征在于，所述装置包括：

第一获取模块，用于获取待处理音频；

生成模块，用于将所述多个待处理音频向量输入目标副歌音频处理模型，并通过所述目标副歌音频处理模型生成所述待处理音频的副歌起止时间；其中，所述目标副歌音频处理模型是利用权利要求11至19中任一项所述的装置生成的。

21.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9中任一所述的模型生成方法，及如权利要求10所述的音频处理方法。