CN112669885B

CN112669885B - 一种音频剪辑方法、电子设备及存储介质

Info

Publication number: CN112669885B
Application number: CN202011630797.5A
Authority: CN
Inventors: 马丹; 周丹
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2023-04-28
Anticipated expiration: 2040-12-31
Also published as: CN112669885A

Abstract

本发明实施例提供一种音频剪辑方法、电子设备及存储介质，涉及音频处理技术领域，以解决人工剪辑成本大的问题。该方法包括：获取待处理音频；获取所述音频数据目标时间段中第m个第一时间单元的第一音频数据，所述目标时间段的第m个第一时间单元的第一文本数据，以及所述目标时间段中第n个第二时间单元的第二音频数据；根据所述第一音频数据、所述第一文本数据以及所述第二音频数据，获得目标得分；若所述目标得分大于预设阈值，则根据所述目标时间段对应的音频数据和文本数据，获得目标音频。整个过程无需人工参与，降低了人工成本，提高了剪辑效率。

Description

一种音频剪辑方法、电子设备及存储介质

技术领域

本发明涉及音频处理领域，尤其涉及一种音频剪辑方法、电子设备及存储介质。

背景技术

随着技术发展，各种音乐节目层出不穷，比如音乐竟技类节目、演唱会等。为了满足用户的需求，方便用户快速定位自己喜欢的音乐片段，可将音频进行拆条，拆分成多个音乐片段。其中，采取人工剪辑的方式截取音乐片段，准确性较高，但是效率低下。

发明内容

本发明实施例提供一种音频剪辑方法、电子设备及存储介质，以解决现有技术中采取人工剪辑的方式截取音乐片段，效率低下的问题。

本发明实施例是这样实现的：

第一方面，本发明实施例提供了一种音频剪辑方法，包括：

获取待处理音频，所述待处理音频包括音频数据，以及与所述音频数据对应的文本数据；

获取所述音频数据目标时间段中第m个第一时间单元的第一音频数据，所述目标时间段的第m个第一时间单元的第一文本数据，以及所述目标时间段中第n个第二时间单元的第二音频数据，所述第一时间单元的时长为所述第二时间单元的时长的倍数，m，n为正整数；

根据所述第一音频数据、所述第一文本数据以及所述第二音频数据，获得目标得分；

若所述目标得分大于预设阈值，则根据所述目标时间段对应的音频数据和文本数据，获得目标音频。

第二方面，本发明实施例还提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面所述的音频剪辑方法的步骤。

第三方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的音频剪辑方法的步骤。

在本发明实施例中，待处理音频包括音频数据，以及与所述音频数据对应的文本数据，通过对待处理音频进行划分，获得第一音频数据、第一文本数据以及第二音频数据，并进一步根据第一音频数据、第一文本数据以及第二音频数据获得目标得分，最终基于目标得分来对待处理音频进行剪辑，获得目标音频，整个过程无需人工参与，降低了人工成本，提高了剪辑效率。

附图说明

图1是本发明实施例提供的音频剪辑方法的一流程图；

图2是本发明实施例提供的获取目标得分的流程图；

图3是本发明实施例提供的向量获取模型的结构图；

图4是本发明实施例提供的模型训练的流程图；

图5是本发明实施例提供的获取目标模型的流程图；

图6是本发明实施例提供的多任务模型的结构图；

图7是本发明实施例提供的音频剪辑方法的另一流程图；

图8是本发明实施例提供的电子设备的一结构图；

图9是本发明实施例提供的电子设备的另一结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的音频剪辑方法的流程图，如图1所示，本实施例提供一种音频剪辑方法，应用于电子设备，包括以下步骤：

步骤101、获取待处理音频，所述待处理音频包括音频数据，以及与所述音频数据对应的文本数据。

待处理音频可以为演唱会音频、演唱类比赛音频、谈话类音频或者其他需要进行拆分的音频，在此不做限定。文本数据可理解为跟随待处理音频的播放进行展示的文本信息。文本数据可为歌词、演讲词或者谈话内容等等，在此不做限定。

步骤102、获取所述音频数据目标时间段中第m个第一时间单元的第一音频数据，所述目标时间段的第m个第一时间单元的第一文本数据，以及所述目标时间段中第n个第二时间单元的第二音频数据，所述第一时间单元的时长为所述第二时间单元的时长的倍数，m，n为正整数。

在本步骤中，将目标时间段分别按照第一时间单元和第二时间单元进行划分，第一时间单元的时长是第二时间单元的时长的倍数，例如，3倍或4倍等。目标时间段的时长可为第一时间单元的倍数，即目标时间段包括一个或一个以上个数的第一时间单元。

目标时间段的起始时间可由用户指定，或者，以相邻的前一个目标时间段的结束时间点作为当前目标时间段的起始时间。上述中，第m个第一时间单元可以为目标时间段中按照时间排序的最后一个时间单元，第n个第二时间单元可以为目标时间段中按照时间排序的最后一个时间单元。例如，若第一时间单元为3秒，第二时间单元为1秒，目标时间段为9秒，则m为3，n为9。第一音频数据和第一文本数据对应相同时长的时间单元，即均为第一时间单元的数据。

步骤103、根据所述第一音频数据、所述第一文本数据以及所述第二音频数据，获得目标得分。

根据第一音频数据、第一文本数据和第二音频数据来确定目标得分，例如，可将该数据输入预先训练好的模型中，根据模型的输出结果确定目标得分；或者，根据第一音频数据、第一文本数据和第二音频数据各自的特征向量来确定目标得分。目标得分越高，说明第m个第一时间单元的结束时间点为一段音频结束点的可能性越大。

步骤104、若所述目标得分大于预设阈值，则根据所述目标时间段对应的音频数据和文本数据，获得目标音频。

基于目标得分，可确定第m个第一时间单元的结束时间点是否为一段音频结束点。具体的，若所述目标得分大于预设阈值，则确定第m个第一时间单元的结束时间点为一段音频结束点，可根据目标时间段对应的音频数据和文本数据，获得目标音频。例如，可将目标时间段对应的音频数据和文本数据从待处理音频中剪辑出来，获得目标音频。

进一步的，也可将目标时间段中的子时间段对应的音频数据和文本数据从待处理音频中剪辑出来，获得目标音频，子时间段包括目标时间段中前m-1个第一时间单元和时间上位于第m-1个第一时间单元之后的第1个、或第2个第二时间单元，例如，若第一时间单元为3秒，第二时间单元为1秒，目标时间段为9秒，则子时间段可为目标时间段中的前7秒或者前8秒。

本实施例中，待处理音频包括音频数据，以及与所述音频数据对应的文本数据，通过对待处理音频进行划分，获得第一音频数据、第一文本数据以及第二音频数据，并进一步根据第一音频数据、第一文本数据以及第二音频数据获得目标得分，最终基于目标得分来对待处理音频进行剪辑，获得目标音频，整个过程无需人工参与，降低了人工成本，提高了剪辑效率。

上述中，如图2所示，步骤103、根据所述第一音频数据、所述第一文本数据以及所述第二音频数据，获得目标得分，具体包括如下步骤：

步骤1031、获取所述第一音频数据的第一特征向量，以及所述第一文本数据的第二特征向量，所述第一特征向量与所述第二特征向量具有相同的维度。

获取第一音频数据的第一特征向量，具体可对第一音频数据进行向量化处理，例如采用chrome vector向量化处理。第一音频数据为第m个第一时间单元的数据，在进行向量化处理时，可对第一音频数据按照第二时间单元进行划分，获取第一音频数据中每个第二时间单元对应的音频子数据，然后对音频子数据进行向量化处理，获得音频子数据对应的第一特征向量，每个音频子数据对应一个第一特征向量。

例如，若第一时间单元为3秒，第二时间单元为1秒，对一个第一时间单元的第一音频数据进行处理时，每秒为一个周期，可得到3个周期的12平均律独热编码

其中，i分别取0、1和2，每个编码向量(即第一特征向量)长度为12维(从音名C至B，共计12个独热占位符)。

对第一文本数据进行处理，可采用词向量(word2vector)编码模型将第一文本数据编码至特定维度，如skip-gram，CBOW模型等，在本实施例中，在对第一文本数据进行向量化处理时，可对第一文本数据按照第二时间单元进行划分，获取第一文本数据中每个第二时间单元对应的文本子数据，然后对文本子数据进行向量化处理，获得文本子数据对应的第二特征向量，每个文本子数据对应一个第二特征向量。第二特征向量的维度与第一特征向量的维度相同，可通过对skip-gram模型进行修改，在其后自定义添加全连接层，以对文本子数据进行向量化处理，获得12维向量，即第二特征向量。如图3所示为添加了全连接层的向量获取模型的示意图，图中的A模型可为skip-gram模型。

经过上述处理，根据第一音频数据可获得多个第一特征向量，根据第一文本数据可获得多个第二特征向量，第一音频数据对应的第一特征向量和第二特征向量具有相同的数量。

步骤1032、将所述第一特征向量和所述第二特征向量输入至目标子模型，获得所述第一音频数据对应的第一目标特征向量，所述第一目标特征向量为所述目标子模型的隐含层的输出值。

将步骤1031获得的第一特征向量和第二特征向量输入至目标子模型中，将目标子模型的隐含层的输出值作为第一音频数据对应的第一目标特征向量，其中，第一目标特征向量的数量可与第一特征向量或者第二特征向量的数量相同。目标子模型预先训练完成，具体可采用步骤1031中改造后的skip-gram模型作为目标子模型，在此不做限定。

第一目标特征向量基于第一特征向量和第二特征向量确定，这样第一目标特征向量可表征音频信息和文本信息。

步骤1033、将所述第二音频数据输入至分类子模型，获得所述第二音频数据对应的第一分类结果，所述分类子模型用于对所述第二音频数据进行分类。

分类子模块预先训练完成，分类子模块可为二分类子模型，可对第二音频数据是属于演奏状态还是演唱状态进行分类，或对第二音频数据是属于停顿状态还是演讲状态进行分类，或者对第二音频数据是属于谈话状态还是非谈话状态进行分类，具体可根据待处理音频是演唱会音频、演唱类比赛音频、谈话类音频或者其他需要进行拆分的音频确定。例如，若待处理音频是演唱会音频，则分类子模块可用于对第二音频数据是演奏状态还是演唱状态进行分类；若待处理音频是谈话类音频，则分类子模块可用于对第二音频数据是属于停顿状态还是演讲状态进行分类。

步骤1034、根据所述第一目标特征向量和所述第一分类结果，获得目标得分。

基于第一目标特征向量和第一分类结果，来获取目标得分，由于第一目标特征向量可表征音频信息和文本信息，且第二分类结果包括分类信息，可使得目标得分更加精确的反映实际情况。目标得分越高，说明第m个第一时间单元的结束时间点为一段音频结束点的可能性越大，可根据目标时间段对应的音频数据和文本数据，获得目标音频，即实现音频剪辑处理。

上述中，步骤1031、获取所述第一音频数据的第一特征向量，以及所述第一文本数据的第二特征向量，包括：

对所述第一音频数据采用滤波方式进行向量化处理，获得多个第二时间单元对应的第一特征向量，每个第二时间单元对应一个第一特征向量；

利用编码模型，获得所述第一文本数据的多个第二时间单元对应的第二特征向量，每个第二时间单元对应一个第二特征向量；

相应的，步骤1032、将所述第一特征向量和所述第二特征向量输入至目标子模型，获得所述第一音频数据对应的第一目标特征向量，包括：

将相同第二时间单元中的第一特征向量和第二特征向量相加，获得所述多个第二时间单元对应的中间特征向量；

将所述多个第二时间单元对应的中间特征向量输入至所述目标子模型，获得所述第一音频数据对应的第一目标特征向量。

本实施例中，获取第一音频数据的第一特征向量，具体可对第一音频数据进行向量化处理，例如采用chrome vector向量化处理。第一音频数据为第m个第一时间单元的数据，在进行向量化处理时，可对第一音频数据按照第二时间单元进行划分，划分为多个第二时间单元，以第二时间单元为单位进行向量化处理。例如，若第一时间单元为3秒，第二时间单元为1秒，对一个第一时间单元的第一音频数据进行处理时，每秒为一个周期，可得到3个周期的12平均律独热编码

对第一文本数据进行处理，可采用词向量(word2vector)编码模型将第一文本数据编码至特定维度，如skip-gram，CBOW模型等，第二特征向量的维度与第一特征向量的维度相同，可通过对skip-gram模型进行修改，在其后自定义添加全连接层，以对文本子数据进行向量化处理，获得12维向量，即第二特征向量。

将相同第二时间单元中的第一特征向量和第二特征向量相加，获得所述多个第二时间单元对应的中间特征向量，例如，第一特征向量

第二特征向量

属于同一第二时间单元，则该第二时间单元对应的中间特征向量为

由此获得第一时间单元对应的多个中间特征向量，并将这多个中间特征向量输入至目标子模型中，获得第一音频数据对应的多个第一目标特征向量，对于一个第一时间单元来说，中间特征向量的数量可与第一目标特征向量的数量相同。由于第一目标特征向量是基于第一特征向量和第二特征向量获得，第一目标特征向量可同时表征第一音频数据的音频信息和文本信息，提高后续基于第一目标特征向量进行目标得分计算的准确性。

上述中，所述第m个第一时间单元为所述目标时间段中按照时间排序的最后一个时间单元，所述第n个第二时间单元为所述目标时间段中按照时间排序的最后一个时间单元，步骤1034、根据所述第一目标特征向量和所述第一分类结果，获得目标得分，包括：

获得m-1个第三音频数据对应的第二目标特征向量，所述m-1个第三音频数据为所述目标时间段中在时间上位于第m个第一音频数据之前的各个第一时间单元的音频数据；

根据所述第二目标特征向量和所述第一目标特征向量，获得目标特征向量；

获得n-1个第四音频数据对应的n-1个第二分类结果，所述n-1个第四音频数据为所述目标时间段中在时间上位于第n个的第二音频数据之前的各个第二时间单元的音频数据；

根据所述第一分类结果和所述n-1个第二分类结果，获得目标分类结果；

根据所述目标分类结果和所述目标特征向量，获得目标得分。

在本实施例中，对目标得分的计算过程进行说明。在计算目标得分时，需要考虑目标时间段中在时间上位于第m个第一音频数据之前的各个第一时间单元的音频数据，即m-1个第三音频数据对应的第二目标特征向量。在获取每个第三音频数据对应的第二目标特征向量时，可采用获取第一音频数据对应的第一目标特征向量的方式进行处理，例如，采用chrome vector向量化处理。在对第三音频数据进行向量化处理时，可对第三音频数据按照第二时间单元进行划分，划分为多个第二时间单元，以第二时间单元为单位进行向量化处理。例如，若第一时间单元为3秒，第二时间单元为1秒，对一个第一时间单元的第三音频数据进行处理时，每秒为一个周期，可得到3个周期的12平均律独热编码

其中，i分别取0、1和2，每个编码向量(即第一特征向量)长度为12维(从音名C至B，共计12个独热占位符)。一个第三音频数据对应多个第二目标特征向量。

目标特征向量可采用如下表达式计算：

其中，

表示第t个第二时间单元对应的目标特征向量(即第一目标特征向量)，

表示第v个第二时间单元对应的目标特征向量(即第二目标特征向量)，v为小于t的正整数，l2表示距离向量运算。

目标分类结果可采用如下表达式计算：

其中，

第v个第二时间单元对应的分类结果，包括第一分类结果和第二分类结果。

在获得目标分类结果和目标特征向量之后，可根据为所述目标分类结果预设置的第一权重，以及为所述目标特征向量预设置的第二权重，对所述目标分类结果和所述目标特征向量进行加权求和，获得所述目标得分。

目标得分可采用如下表达式计算：

其中，α为第一权重，β为第二权重，具体数值可根据不同情况进行设置优选为第一权重为0.6，第二权重为0.4，通常α越高，则剪辑时对文本特征的依赖越高，β越高，则剪辑时对音频特征的依赖越高。比如，剪辑类似嘻哈饶舌或歌词成分较重的音频时，建议调高α，剪辑后摇，蓝调等旋律性较强的音乐则调高β。

上述过程中使用到的目标模型可以预先训练，以下对目标模型的获取过程进行如下说明。如图4所示，在步骤1032、将所述第一特征向量和所述第二特征向量输入至目标子模型之前，还包括如下模型训练的相关步骤：

步骤11、获取训练音频，所述训练音频包括训练音频数据，以及与所述训练音频数据对应的训练文本数据。

训练音频可为演唱会音频、演唱类比赛音频、谈话类音频或者其他需要进行拆分的音频，在此不做限定。训练文本数据可理解为跟随训练音频的播放进行展示的文本信息。训练文本数据可为歌词、演讲词或者谈话内容等等，在此不做限定。

训练音频可理解为样本音频，用于参与模型训练。

步骤12、按照第一时间单元对所述训练音频数据进行拆分，获得M个第一训练音频数据，并按照第一时间单元对所述训练文本数据进行拆分，获得M个训练文本数据，M为正整数。

步骤13、按照第二时间单元对所述训练音频数据进行拆分，获得N个第二训练音频数据，N为正整数；

步骤14、利用所述M个第一训练音频数据、M个训练文本数据以及N个第二训练音频数据对基础模型进行训练，获得目标模型，所述目标模型包括所述目标子模型和所述分类子模型。

上述中，步骤11-步骤13为训练样本数据的获取方式，M个第一训练音频数据、M个训练文本数据以及N个第二训练音频数据为训练样本数据，采用训练样本数据对基础模型进行训练，获得目标模型。目标模型可包括目标子模型和分类子模型，基础模型可为多任务学习(Multi-task learning，MTL)模型。

输入到基础模型中的数据可为训练样本数据对应的特征向量，具体的，如图5所示，步骤14、利用所述M个第一训练音频数据、M个训练文本数据以及N个第二训练音频数据对基础模型进行训练，获得目标模型，具体包括如下步骤：

步骤141、获取所述M个第一训练音频数据的第一样本特征向量，以及所述M个训练文本数据的第二样本特征向量。

步骤142、利用所述M个第一训练音频数据的第一样本特征向量以及所述M个训练文本数据的第二样本特征向量，获得所述M个中间样本特征向量；

步骤143、利用所述M个中间样本特征向量和所述N个第二训练音频数据，对所述基础模型进行训练，获得目标模型。

上述步骤中，先获取训练样本数据对应的特征向量，即获取所述M个第一训练音频数据的第一样本特征向量，以及所述M个训练文本数据的第二样本特征向量，并利用M个第一训练音频数据的第一样本特征向量以及M个训练文本数据的第二样本特征向量，获得M个中间特征向量，再利用M个中间样本特征向量和所述N个第二训练音频数据，对所述基础模型进行训练，获得目标模型。

基础模型包括第一模型和第二模型，第一模型可为如图3所示为添加了全连接层的向量获取模型，图中的A模型可为skip-gram模型，第二模型可为卷积网络模型。在训练时，利用M个中间样本特征向量可对第一模型进行训练，并利用N个第二训练音频数据对第二模型进行训练。即步骤143、利用所述M个中间样本特征向量和所述N个第二训练音频数据，对所述基础模型进行训练，获得目标模型，包括：

利用所述M个中间样本特征向量对所述第一模型进行训练，获得目标子模型，所述目标子模型的隐含层用于输出目标特征向量，也就是说，在使用目标子模型时，目标特征向量是目标子模型的隐含层输出的向量。

利用所述N个第二训练音频数据对所述第二模型进行训练，获得分类子模型，所述分类子模型用于对输入的音频数据进行分类。

上述中，分类子模块可为二分类子模型，可对输入音频数据是属于演奏状态还是演唱状态进行分类，或对输入音频数据是属于停顿状态还是演讲状态进行分类，或者对输入音频数据是属于谈话状态还是非谈话状态进行分类。

进一步的，步骤141、获取所述M个第一训练音频数据的第一样本特征向量，以及所述M个训练文本数据的第二样本特征向量，包括：

对所述第一训练音频数据采用滤波方式进行向量化处理，获得多个第二时间单元对应的第一样本特征向量，每个第二时间单元对应一个第一样本特征向量；

利用编码模型，获得所述训练文本数据的多个第二时间单元对应的第二样本特征向量，每个第二时间单元对应一个第二样本特征向量；

相应的，步骤142、利用所述M个第一训练音频数据的第一样本特征向量以及所述M个训练文本数据的第二样本特征向量，获得所述M个中间样本特征向量，包括：

将相同第二时间单元中的第一样本特征向量和第二样本特征向量相加，获得所述多个第二时间单元对应的中间样本特征向量。

上述中，获取第一训练音频数据的第一样本特征向量，具体可对第一训练音频数据进行向量化处理，例如采用chrome vector向量化处理。在进行向量化处理时，可对第一训练音频数据按照第二时间单元进行划分，获取第一训练音频数据中每个第二时间单元对应的训练音频子数据，然后对训练音频子数据进行向量化处理，获得训练音频子数据对应的第一样本特征向量，每个音频子数据对应一个第一样本特征向量。对M个第一训练音频数据均可按照上述方式进行处理。

例如，若第一时间单元为3秒，第二时间单元为1秒，对一个第一训练音频数据进行处理时，每秒为一个周期，可得到3个周期的12平均律独热编码

其中，i分别取0、1和2，每个编码向量(即第一样本特征向量)长度为12维(从音名C至B，共计12个独热占位符)。

对训练文本数据进行处理，可采用词向量(word2vector)编码模型将训练文本数据编码至特定维度，如skip-gram模型，连续词袋模型(Continuous Bag-of-Word Model，CBOW)等，在本实施例中，在对训练文本数据进行向量化处理时，可对训练文本数据按照第二时间单元进行划分，获取训练文本数据中每个第二时间单元对应的训练文本子数据，然后对训练文本子数据进行向量化处理，获得训练文本子数据对应的第二样本特征向量，每个训练文本子数据对应一个第二样本特征向量。第二样本特征向量的维度与第一样本特征向量的维度相同，可通过对skip-gram模型进行修改，在其后自定义添加全连接层，以对训练文本子数据进行向量化处理，获得12维向量，即第一样本特征向量。如图3所示为添加了全连接层的向量获取模型示意图，图中的A模型可为skip-gram模型。

将相同第二时间单元中的第一样本特征向量和第二样本特征向量相加，获得所述多个第二时间单元对应的中间样本特征向量，例如，第一样本特征向量

第二样本特征向量

属于同一第二时间单元，则该第二时间单元对应的中间样本特征向量为

由此获得第一时间单元对应的多个中间样本特征向量。

以下以待处理音频为演唱会音频数据为例对本申请提供的音频剪辑方法进行如下举例说明。

步骤一、训练样本数据准备

步骤1、时长不低于60小时的各种演唱会音频数据，预处理为1s音频样本及3秒的音频样本，分别用于音频识别和歌词歌曲统一性识别两个能力的训练及推理；

步骤2、演唱会对应曲目的歌词文本数据，用于歌词歌曲统一性识别的训练和推理

步骤3、以滤波方式对3秒的长音频样本S₃进行chrome vector向量化处理，每秒为一个周期，得到3个周期的12平均律独热编码

其中i＝0～2，每个编码向量长度为12维(从音名C至B，共计12个独热one-hot占位符)。该向量化滤波技术较为成熟，准确度较高；

步骤4、对文本数据进行处理，现有的word2vector编码模型能将指定文本数据编码至特定维度，如skip-gram模型，CBOW等，由于需要与音频特征向量做向量拼接，需要输出与音频特征向量维度相同的12维向量。可以对现有的skip-gram模型进行修改，在其后自定义添加全连接层，对模型预训练后输出12维向量

修改后的skip-gram模型如图3所示。

步骤5、步骤4中输出的12维

包含歌词特征，与步骤3中输出的12维音频特征按位做加操作，得到新的12维复合向量

如

同一首歌中的特征可由多个复合向量进行表征，其中i表示第i首歌曲，j代表第j个歌曲片段；

经过上述处理，可得到多首歌曲的可用于训练的样本数据

步骤二、模型搭建及训练

搭建多任务MTL模型，在同一训练框架中完成以下两个任务：

(1)输入1s短音频，输出二分类状态，以判定该音频是否为演奏(演唱)状态；

(2)输入预处理中得到的向量训练集

根据歌曲统一性在神经网络(可采用图3所示的向量获取模型)中黑盒编码为新向量

使得同一首歌中的向量距离较近，不同歌曲中的向量距离较远，其中i表示第i首歌曲，j代表第i首歌曲中的第j个片段。多任务模型架构如图6所示。

(3)对全量样本在ubuntu 16.4和p40组成的训练环境上迭代60轮(耗时约300小时)后，获得目标模型。

如图7所示为本申请提供的音频剪辑方法的流程示意图，具体包括如下过程：

将演唱会视频流解码、采样，分割为1s短样本及3秒长样本；

将3秒长样本输入训练完成的语音识别(ASR)模型，获取文本数据，文本数据经由图3所示模型(即目标子模型)，输出该周期的12维歌词向量；

将3秒长音频样本经滤波算法转化为该周期的12维音频向量；

将歌词向量和音频向量进行拼接，得到待输入模型向量

即中间变量；

将特征向量

及1秒短音频数据送入多任务模型，得到编码后的结果向量

及二分类状态向量集合

(集合形式如[0,1,1,0,1,1,1,0…]，其中，0代表静音，1代表非静音)；

对每个样本周期(1秒)进行打分，具体包括：

确定演奏的起始周期Cycle₀和多任务模型输出的音频歌词特征向量(即目标特征向量)

及音频二分类状态向量集合

其中，Cycle₀可以是人为指定的起始周期，即需要侦测的起始点；

对于后续周期Cycle_t(每个周期为1秒)，分别计算音频歌词特征向量与前序所有对应向量的平均距离

及当前二值化模板匹配后的置信度

前序所有对应向量是指前序Cycle₀～Cycle_t-1所侦测到的特征向量，都需要和当前检测到的目标特征向量做距离向量运算，计算方式如下：

计算当前第i个第二时间单元与前序所有第二时间单元的音频歌词特征向量之间的距离之和取平均，可获知当前第二时间单元的段落在音频歌词特征层面与前序第二时间单元段落的相关性，距离越大，均值越大，则相关性越弱，同样在音频二分类层面上置信度值

越高，越可能是切割点。

对两项得分进行加权化求和，其中α和β为权重调节参数，可根据具体场景进行设置(推荐为0.6，0.4)，通常α越高，则剪辑时对歌词特征的依赖越高，β越高，则剪辑时对音频特征的依赖越高；比如，剪辑类似嘻哈饶舌或歌词成分较重的场景建议调高α；剪辑后摇，蓝调等旋律性较强的音乐则调高β。

对

进行判定，大于预设阈值，则该段为乐曲结束段，可进行拆分剪辑。

从实验数据上看，本方案相对单纯基于音频做剪辑的已有方案，准确率约有8个点的提升，从63.55％提升至70.92％，召回率有约6个点的提升，从82.04％提升至87.84％。

本申请中的方法可应用于基于向量对音频进行分段打分并拆条的应用场景，包括但不限于音乐会实时拆条剪辑的场景。

本申请在音频分类匹配算法的基础上，从歌曲完整性角度出发，将歌曲的词曲映射至特定向量空间中，对同一首歌曲中采样的乐曲片段及歌词数据向量化，分别转化为维度相同的音频向量及文本向量，并基于音频向量和文本向量做合并运算，获得中间向量，每一个片段样本可视为向量空间中的一个点，该向量值包含了乐曲及歌词信息，在该低维度连续向量空间中，属于不同歌曲的向量之间的距离(视应用场景的不同选择余弦距离，欧式距离等)较大，属于同一歌曲的向量样本距离较小，直观地体现了样本间的相关性及差异性，在识别阶段提升了对乐曲总体一致性的关注度，提升剪辑正确率。

参见图8，图8是本发明实施例提供的电子设备的结构图，如图8所示，电子设备800，包括：

第一获取模块801，用于获取待处理音频，所述待处理音频包括音频数据，以及与所述音频数据对应的文本数据；

第二获取模块802，用于获取所述音频数据目标时间段中第m个第一时间单元的第一音频数据，所述目标时间段的第m个第一时间单元的第一文本数据，以及所述目标时间段中第n个第二时间单元的第二音频数据，所述第一时间单元的时长为所述第二时间单元的时长的倍数，m，n为正整数；

第三获取模块803，用于根据所述第一音频数据、所述第一文本数据以及所述第二音频数据，获得目标得分；

第四获取模块804，用于若所述目标得分大于预设阈值，则根据所述目标时间段对应的音频数据和文本数据，获得目标音频。

进一步的，第三获取模块803，包括：

第一获取子模块，用于获取所述第一音频数据的第一特征向量，以及所述第一文本数据的第二特征向量，所述第一特征向量与所述第二特征向量具有相同的维度；

第二获取子模块，用于将所述第一特征向量和所述第二特征向量输入至目标子模型，获得所述第一音频数据对应的第一目标特征向量，所述第一目标特征向量为所述目标子模型的隐含层的输出值；

第三获取子模块，用于将所述第二音频数据输入至分类子模型，获得所述第二音频数据对应的第一分类结果，所述分类子模型用于对所述第二音频数据进行分类；

第四获取子模块，用于根据所述第一目标特征向量和所述第一分类结果，获得目标得分。

进一步的，第一获取子模块，包括：

第一向量化单元，用于对所述第一音频数据采用滤波方式进行向量化处理，获得多个第二时间单元对应的第一特征向量，每个第二时间单元对应一个第一特征向量；

第二向量化单元，用于利用编码模型，获得所述第一文本数据的多个第二时间单元对应的第二特征向量，每个第二时间单元对应一个第二特征向量；

所述第二获取子模块，包括：

第一获取单元，用于将相同第二时间单元中的第一特征向量和第二特征向量相加，获得所述多个第二时间单元对应的中间特征向量；

第二获取单元，用于将所述多个第二时间单元对应的中间特征向量输入至所述目标子模型，获得所述第一音频数据对应的第一目标特征向量。

进一步的，所述第m个第一时间单元为所述目标时间段中按照时间排序的最后一个时间单元，所述第n个第二时间单元为所述目标时间段中按照时间排序的最后一个时间单元，所述第四获取子模块，包括：

第三获取单元，用于获得m-1个第三音频数据对应的第二目标特征向量，所述m-1个第三音频数据为所述目标时间段中在时间上位于第m个第一音频数据之前的各个第一时间单元的音频数据；

第四获取单元，用于根据所述第二目标特征向量和所述第一目标特征向量，获得目标特征向量；

第五获取单元，用于获得n-1个第四音频数据对应的n-1个第二分类结果，所述n-1个第四音频数据为所述目标时间段中在时间上位于第n个的第二音频数据之前的各个第二时间单元的音频数据；

第六获取单元，用于根据所述第一分类结果和所述n-1个第二分类结果，获得目标分类结果；

第七获取单元，用于根据所述目标分类结果和所述目标特征向量，获得目标得分。

进一步的，所述第七获取单元，用于根据为所述目标分类结果预设置的第一权重，以及为所述目标特征向量预设置的第二权重，对所述目标分类结果和所述目标特征向量进行加权求和，获得所述目标得分。

进一步的，电子设备还包括：

第五获取模块，用于获取训练音频，所述训练音频包括训练音频数据，以及与所述训练音频数据对应的训练文本数据；

第一拆分模块，用于按照第一时间单元对所述训练音频数据进行拆分，获得M个第一训练音频数据，并按照所述第一时间单元对所述训练文本数据进行拆分，获得M个训练文本数据，M为正整数；

第二拆分模块，用于按照第二时间单元对所述训练音频数据进行拆分，获得N个第二训练音频数据，N为正整数；

第六获取模块，用于利用所述M个第一训练音频数据、M个训练文本数据以及N个第二训练音频数据对基础模型进行训练，获得目标模型，所述目标模型包括所述目标子模型和所述分类子模型。

进一步的，所述第六获取模块，包括：

第五获取子模块，用于获取所述M个第一训练音频数据的第一样本特征向量，以及所述M个训练文本数据的第二样本特征向量；

第六获取子模块，用于根据所述M个第一训练音频数据的第一样本特征向量以及所述M个训练文本数据的第二样本特征向量，获得所述M个中间样本特征向量；

训练子模块，用于利用所述M个中间样本特征向量和所述N个第二训练音频数据，对所述基础模型进行训练，获得目标模型。

进一步的，所述基础模型包括第一模型和第二模型；

所述训练子模块，包括：

第一训练单元，用于利用所述M个中间样本特征向量对所述第一模型进行训练，获得目标子模型，所述目标子模型的隐含层用于输出目标特征向量；

第二训练单元，用于利用所述N个第二训练音频数据对所述第二模型进行训练，获得分类子模型，所述分类子模型用于对输入的音频数据进行分类。

进一步的，第五获取子模块，用于：

所述根据所述M个第一训练音频数据的第一样本特征向量以及所述M个训练文本数据的第二样本特征向量，获得所述M个中间样本特征向量，包括：

将相同第二时间单元中的所述第一样本特征向量和所述第二样本特征向量相加，获得所述多个第二时间单元对应的中间样本特征向量。

电子设备800能够实现图1所示方法实施例中电子设备实现的各个过程并达到相同的有益效果，为避免重复，这里不再赘述。

图9为实现本发明实施例提供的一种电子设备的硬件结构示意图，如图9所示，该电子设备700包括但不限于：射频单元701、网络模块702、音频输出单元703、输入单元704、传感器705、显示单元706、用户输入单元707、接口单元708、存储器709、处理器710、以及电源711等部件。本领域技术人员可以理解，图9中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、以及计步器等。

其中，处理器710，用于获取待处理音频，所述待处理音频包括音频数据，以及与所述音频数据对应的文本数据；

进一步的，处理器710，还用于获取所述第一音频数据的第一特征向量，以及所述第一文本数据的第二特征向量，所述第一特征向量与所述第二特征向量具有相同的维度；

将所述第一特征向量和所述第二特征向量输入至目标子模型，获得所述第一音频数据对应的第一目标特征向量，所述第一目标特征向量为所述目标子模型的隐含层的输出值；

将所述第二音频数据输入至分类子模型，获得所述第二音频数据对应的第一分类结果，所述分类子模型用于对所述第二音频数据进行分类；

根据所述第一目标特征向量和所述第一分类结果，获得目标得分。

进一步的，处理器710，还用于对所述第一音频数据采用滤波方式进行向量化处理，获得多个第二时间单元对应的第一特征向量，每个第二时间单元对应一个第一特征向量；

处理器710，还用于将相同第二时间单元中的第一特征向量和第二特征向量相加，获得所述多个第二时间单元对应的中间特征向量；

进一步的，所述第m个第一时间单元为所述目标时间段中按照时间排序的最后一个时间单元，所述第n个第二时间单元为所述目标时间段中按照时间排序的最后一个时间单元，处理器710，还用于获得m-1个第三音频数据对应的第二目标特征向量，所述m-1个第三音频数据为所述目标时间段中在时间上位于第m个第一音频数据之前的各个第一时间单元的音频数据；

进一步的，处理器710，还用于根据为所述目标分类结果预设置的第一权重，以及为所述目标特征向量预设置的第二权重，对所述目标分类结果和所述目标特征向量进行加权求和，获得所述目标得分。

进一步的，处理器710，还用于获取训练音频，所述训练音频包括训练音频数据，以及与所述训练音频数据对应的训练文本数据；

按照第一时间单元对所述训练音频数据进行拆分，获得M个第一训练音频数据，并按照所述第一时间单元对所述训练文本数据进行拆分，获得M个训练文本数据，M为正整数；

按照第二时间单元对所述训练音频数据进行拆分，获得N个第二训练音频数据，N为正整数；

利用所述M个第一训练音频数据、M个训练文本数据以及N个第二训练音频数据对基础模型进行训练，获得目标模型，所述目标模型包括所述目标子模型和所述分类子模型。

进一步的，处理器710，还用于获取所述M个第一训练音频数据的第一样本特征向量，以及所述M个训练文本数据的第二样本特征向量；

根据所述M个第一训练音频数据的第一样本特征向量以及所述M个训练文本数据的第二样本特征向量，获得所述M个中间样本特征向量；

利用所述M个中间样本特征向量和所述N个第二训练音频数据，对所述基础模型进行训练，获得目标模型。

进一步的，所述基础模型包括第一模型和第二模型；

进一步的，处理器710，还用于利用所述M个中间样本特征向量对所述第一模型进行训练，获得目标子模型，所述目标子模型的隐含层用于输出目标特征向量；

进一步的，处理器710，还用于对所述第一训练音频数据采用滤波方式进行向量化处理，获得多个第二时间单元对应的第一样本特征向量，每个第二时间单元对应一个第一样本特征向量；

电子设备700能够实现前述实施例中电子设备实现的各个过程，并达到相同的技术效果，为避免重复，这里不再赘述。

应理解的是，本发明实施例中，射频单元701可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器710处理；另外，将上行的数据发送给基站。通常，射频单元701包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元701还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块702为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元703可以将射频单元701或网络模块702接收的或者在存储器709中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元703还可以提供与电子设备700执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元703包括扬声器、蜂鸣器以及受话器等。

输入单元704用于接收音频或视频信号。输入单元704可以包括图形处理器(Graphics Processing Unit，GPU)7041和麦克风7042，图形处理器7041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元706上。经图形处理器7041处理后的图像帧可以存储在存储器709(或其它存储介质)中或者经由射频单元701或网络模块702进行发送。麦克风7042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元701发送到移动通信基站的格式输出。

电子设备700还包括至少一种传感器707，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板7061的亮度，接近传感器可在电子设备700移动到耳边时，关闭显示面板7061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器707还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元706用于显示由用户输入的信息或提供给用户的信息。显示单元706可包括显示面板7061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板7061。

用户输入单元707可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元707包括触控面板7071以及其他输入设备7072。触控面板7071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板7071上或在触控面板7071附近的操作)。触控面板7071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器710，接收处理器710发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板7071。除了触控面板7071，用户输入单元707还可以包括其他输入设备7072。具体地，其他输入设备7072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板7071可覆盖在显示面板7061上，当触控面板7071检测到在其上或附近的触摸操作后，传送给处理器710以确定触摸事件的类型，随后处理器710根据触摸事件的类型在显示面板7061上提供相应的视觉输出。虽然在图9中，触控面板7071与显示面板7061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板7071与显示面板7061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元708为外部装置与电子设备700连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元708可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备700内的一个或多个元件或者可以用于在电子设备700和外部装置之间传输数据。

存储器709可用于存储软件程序以及各种数据。存储器709可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器709可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器710是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器709内的软件程序和/或模块，以及调用存储在存储器709内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器710可包括一个或多个处理单元；优选的，处理器710可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器710中。

电子设备700还可以包括给各个部件供电的电源711(比如电池)，优选的，电源711可以通过电源管理系统与处理器710逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备700包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种电子设备，包括处理器710，存储器709，存储在存储器709上并可在所述处理器710上运行的计算机程序，该计算机程序被处理器710执行时实现上述图2所示实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述图1或图2所示音频剪辑方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random AccessMemory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种音频剪辑方法，其特征在于，包括：

获取所述音频数据目标时间段中第m个第一时间单元的第一音频数据，所述目标时间段的第m个第一时间单元的第一文本数据，以及所述目标时间段中第n个第二时间单元的第二音频数据，所述第一时间单元的时长为所述第二时间单元的时长的倍数，m，n为正整数；其中，所述第m个第一时间单元为所述目标时间段中按照时间排序的最后一个时间单元，所述第n个第二时间单元为所述目标时间段中按照时间排序的最后一个时间单元；

若所述目标得分大于预设阈值，则根据所述目标时间段对应的音频数据和文本数据，获得目标音频；

其中，若所述目标得分大于预设阈值，则确定第m个第一时间单元的结束时间点为所述目标时间段对应音频的结束点；

其中，所述根据所述第一音频数据、所述第一文本数据以及所述第二音频数据，获得目标得分，包括：

获取所述第一音频数据的第一特征向量，以及所述第一文本数据的第二特征向量，所述第一特征向量与所述第二特征向量具有相同的维度；

将所述第二音频数据输入至分类子模型，获得所述第二音频数据对应的第一分类结果，所述分类子模型用于对所述第二音频数据进行分类；所述分类子模型为二分类子模型；

根据所述第一目标特征向量和所述第一分类结果，获得目标得分；

所述根据所述第一目标特征向量和所述第一分类结果，获得目标得分，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述第一音频数据的第一特征向量，以及所述第一文本数据的第二特征向量，包括：

所述将所述第一特征向量和所述第二特征向量输入至目标子模型，获得所述第一音频数据对应的第一目标特征向量，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标分类结果和所述目标特征向量，获得目标得分，包括：

根据为所述目标分类结果预设置的第一权重，以及为所述目标特征向量预设置的第二权重，对所述目标分类结果和所述目标特征向量进行加权求和，获得所述目标得分。

4.根据权利要求1所述的方法，其特征在于，在所述将所述第一特征向量和所述第二特征向量输入至目标子模型之前，还包括：

获取训练音频，所述训练音频包括训练音频数据，以及与所述训练音频数据对应的训练文本数据；

5.根据权利要求4所述的方法，其特征在于，所述利用所述M个第一训练音频数据、M个训练文本数据以及N个第二训练音频数据对基础模型进行训练，获得目标模型，包括：

获取所述M个第一训练音频数据的第一样本特征向量，以及所述M个训练文本数据的第二样本特征向量；

6.根据权利要求5所述的方法，其特征在于，所述基础模型包括第一模型和第二模型；

所述利用所述M个中间样本特征向量和所述N个第二训练音频数据，对所述基础模型进行训练，获得目标模型，包括：

利用所述M个中间样本特征向量对所述第一模型进行训练，获得目标子模型，所述目标子模型的隐含层用于输出目标特征向量；

7.根据权利要求5所述的方法，其特征在于，所述获取所述M个第一训练音频数据的第一样本特征向量，以及所述M个训练文本数据的第二样本特征向量，包括：

8.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的音频剪辑方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的音频剪辑方法的步骤。