CN111782863A

CN111782863A - 音频分段方法、装置、存储介质及电子设备

Info

Publication number: CN111782863A
Application number: CN202010613730.4A
Authority: CN
Inventors: 王征韬
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-16

Abstract

本发明实施例公开了一种音频分段方法、装置、存储介质及电子设备。该方案将目标音频划分为多个音频片段，并提取每个音频片段的音频特征；根据预设特征提取算法从对应的音频特征中，提取每一音频片段的第一特征向量；将第一特征向量输入预设分类模型，以确定每一音频片段的初始段落类型；将各个音频片段的初始段落类型输入至时序相关损失函数层，以使时序相关损失函数层基于各个音频片段之间的时序关系，确定各个音频片段的目标段落类型；根据每一音频片段的目标段落类型，确定目标音频包括的段落类型和每个段落类型对应的段落的起止时间，以实现对音频进行精确分段并确定各段落的起止时间点。

Description

音频分段方法、装置、存储介质及电子设备

技术领域

本发明涉及数据处理技术领域，具体涉及一种音频分段方法、装置、存储介质及电子设备。

背景技术

歌曲一般具有一定结构性的段落，例如主歌，副歌，桥段，插句等。主歌为音乐的基本内容，在歌词上对音乐内容做基本交代，音乐上一般较舒缓和平铺直叙。副歌，即一般所说的高潮段落，集中表现歌曲的主要感情，通常朗朗上口，容易让人记住。桥段一般包含前奏、间奏、结尾，起到分隔段落的作用。

在一些歌曲处理过程中，由于需要的歌曲段落不同，比如确定歌曲基调，音乐搜索，乐曲识别等等，也经常需要对歌曲的各个段落进行分析和处理。

但是，由于歌曲中信号的复杂性和不同歌曲之间的差异性，为歌曲段落的定位带来了很多困难，目前亟需能够对歌曲进行精确分段并确定各段落的起止时间点的方案。

发明内容

本发明实施例提供一种音频分段方法、装置、存储介质及电子设备，旨在实现对音频进行精确分段并确定各段落的起止时间点。

本发明实施例提供一种音频分段方法，包括：

将目标音频划分为多个音频片段，并提取每个音频片段的音频特征；

根据预设特征提取算法从对应的音频特征中，提取每一音频片段的第一特征向量；

将所述第一特征向量输入预设分类模型，以确定每一音频片段的初始段落类型；

将各个音频片段的初始段落类型输入至时序相关损失函数层，以使所述时序相关损失函数层基于各个音频片段之间的时序关系，确定各个音频片段的目标段落类型；

根据每一音频片段的目标段落类型，确定所述目标音频包括的段落类型和每个段落类型对应的段落的起止时间。

本发明实施例还提供一种音频分段装置，包括：

第一提取单元，用于将目标音频划分为多个音频片段，并提取每个音频片段的音频特征；

第二提取单元，用于根据预设特征提取算法从对应的音频特征中，提取每一音频片段的第一特征向量；

第一识别单元，用于将所述第一特征向量输入预设分类模型，以确定每一音频片段的初始段落类型；

第二识别单元，用于将各个音频片段的初始段落类型输入至时序相关损失函数层，以使所述时序相关损失函数层基于各个音频片段之间的时序关系，确定各个音频片段的目标段落类型；

音频分段单元，用于根据每一音频片段的目标段落类型，确定所述目标音频包括的段落类型和每个段落类型对应的段落的起止时间。

本发明实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一音频分段方法。

本发明实施例提供的音频分段方案，当需要对目标音频进行段落的识别时，将该目标音频划分为多个音频片段，并提取每一个音频片段的音频特征，基于预设特征提取算法从每一个音频片段对应的音频特征中提取其第一特征向量，从而将该第一特征向量作为该音频片段分类的依据，根据预设分类模型确定每一个音频片段的初始段落类型，再将各个音频片段的初始段落类型输入至时序相关损失函数层，以使时序相关损失函数层基于各个音频片段之间的时序关系，确定各个音频片段的目标段落类型，基于每一个音频片段的目标段落类型，确定目标音频包括的多个段落的目标段落类型和每个段落类型对应的段落的起止时间，实现了对音频的段落的精确划分，并明确指出了各段落的分割时间点。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的音频分段方法的第一流程示意图；

图1b是本申请实施例提出的音频分段模型的第一种网络结构示意图；

图1c是本申请实施例提出的音频分段模型的第二种网络结构示意图；

图1d是本申请实施例提出的音频分段模型的第三种网络结构示意图；

图1e是本申请实施例提出的音频分段模型的第四种网络结构示意图；

图2是本发明实施例提供的音频分段方法的第二流程示意图；

图3是本发明实施例提供的音频分段装置的结构示意图；

图4是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明实施例提供一种音频分段方法，该音频分段方法的执行主体可以是本发明实施例提供的音频分段装置，或者集成了该音频分段装置的电子设备，其中该音频分段装置可以采用硬件或者软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。

请参阅图1a，图1a是本发明实施例提供的音频分段方法的第一流程示意图。该音频分段方法的具体流程可以如下：

101、将目标音频划分为多个音频片段，并提取每个音频片段的音频特征。

本申请实施例中的音频可以为流行歌曲等具有明显的结构规律的音频。以下内容中以歌曲为例对本申请实施例的方案进行说明，但是，需要说明的是，本方案的实施例并不局限于歌曲的分段。

以流行歌曲为例，在一些实施例中，通常可以分为如下几种段落类型：

主歌(Verse)，音乐的基本内容，在歌词上对音乐内容做基本交代，音乐上一般较舒缓和平铺直叙。

副歌(Chorus)，即一般所说的高潮段落，集中表现歌曲的主要感情，通常朗朗上口，容易让人记住。

桥段(Instrumental)，包含前奏、间奏和结尾，一般无人声或含有很少成分的人声，起到分隔段落的作用。

插句(Transition Sentence)，也称为过渡句，有的流行歌曲会在主歌到副歌之间插入一段提升感情的句子，逐渐引导情绪升高。插句的情感要高于主歌，但弱于副歌。插句根据需要可能有一到两句，但一般不会更多。插句不是流行音乐的必备结构，一些歌曲中可能没有插句。

或者，在另外一些实施例中，在上述分类的基础上，歌曲还可以包括记忆句，由于记忆句一般包含于副歌之中，因此，可以根据需要单独分类，也可以不单独分类。

本申请的音频分段可以实现对歌曲进行结构分解，将一首歌曲划分为多个段落，并将每一段落标记为主歌/副歌/桥段/插句之一。

获取需要进行分段的歌曲，作为目标音频。将该目标音频划分为多个音频片段，并获取每一个音频片段对应的音频特征。

需要说明的是，由于音频特征中仍然保留有音频的原始时间特性，故可以先基于整首歌进行音频特征的提取处理，再进行音频片段的划分。也可以先进行音频片段的划分，再进行音频特征的提取处理。

在一些实施例中，将目标音频划分为多个音频片段，并提取每个音频片段的音频特征，可以包括：对目标音频进行短时傅里叶变换，得到频域信号；对频域信号进行梅尔尺度变换，得到目标音频对应的梅尔频谱特征；按照预设区间和预设步长将目标音频分割为多个音频片段，并根据梅尔频谱特征确定每个音频片段的音频特征。

其中，对目标音频进行短时傅里叶变换(ShortTime Fourier Transform，STFT)，得到整首歌曲的频域信号，接下来，对频域信号进行梅尔尺度变换，得到目标音频对应的梅尔频谱特征；整首歌曲对应的梅尔频谱特征为一个[t，d]的矩阵，其中，t为歌曲的时长，d为特征长度，即为梅尔刻度上的频谱能量，为了便于后续的计算，还可以对梅尔频谱特征进行归一化处理。

在得到整首歌曲的梅尔频谱特征后，按照预设区间和预设步长将目标音频分割为多个音频片段，例如，按0.5s为预设区间，0.25s为步长将目标音频分割为连续的多个音频片段，相邻的音频片段有0.25s的长度是重叠的。通过这样的分割方式，一首4分钟时长的歌曲可以划分961个音频片段。在其他实施例中，也可以在得到整首歌曲的梅尔频谱特征后，按照预设区间将目标音频分割为多个音频片段。例如，按0.5s为预设区间，将目标音频分割为连续的多个音频片段，相邻的音频片段之间的是连续的，没有重叠。

上述预设区间和预设步长的数值仅为举例，本方案在实际应用时，可以根据对段落划分的精准度要求和各段落的类型识别的准确度的综合考量，设置合理的预设区间和预设步长，其中，预设区间和预设步长可以为经验值，预设区间和预设步长一般远小于主歌或副歌或桥段或插句的时长，甚至远小于一句歌词的时长。

按照各音频片段对应的时间段，从整首歌曲对应的梅尔频谱特征获取每一音频片段对应的梅尔频谱特征片段，作为该音频片段对应的音频特征。

102、根据预设特征提取算法从对应的音频特征中，提取每一音频片段的第一特征向量。

按照上述方式获取到每一音频片段的音频特征之后，按照预设特征提取算法提取每一音频片段的第一特征向量。其中，预设特征提取算法为能够对上述音频特征进行处理以进行特征提取的算法，例如，预设特征提取算法为包含至少一个卷积层的卷积神经网络。针对每一音频片段的音频特征，输入卷积神经网络进行卷积运算，卷积神经网络输出尺寸为W×H×C的featuremap(特征图)，再对W×H×C的feature map进行降维处理，得到1×1×(n*C)的特征向量，为了便于与其他特征向量区分，此处得到的特征向量称为第一特征向量。其中，C为卷积层输出的深度，即卷积核的个数，C为卷积神经网络的超参数，可以由用户根据需要设置。W为featuremap的宽，H为feature map的高。

n的值可以由采用的降维方式决定，例如，在卷积神经网络之后，经过一个全局池化层对输出的三维feature map进行降维，则得到尺寸为1×1×C的第一特征向量，比如，全局池化层可以采用全局平均池化或者全局最大池化等。

又例如，在卷积神经网络之后，将三维的feature map进行flatten(拍平)操作，得到一维的向量，即尺寸为1×1×(n*C)的第一特征向量，n＝W×H。

经过步骤102之后，每一个音频片段得到对应的一个第一特征向量。其中，对卷积神经网络来说，全部的音频片段共享权值。其中，在确定卷积神经网络的网络结构和超参数之后，使用样本音频片段训练卷积神经网络，以确定权值。

103、将所述第一特征向量输入预设分类模型，以确定每一音频片段的初始段落类型。

在获取到每一音频片段的第一特征向量之后，将第一特征向量作为分类的依据，采用预设分类模型对每一个音频片段进行分类确定其对应的段落类型。

在一些实施例中，步骤103可以包括：基于全局特征提取网络对所述第一特征向量进行全局特征提取处理，得到每一音频片段对应的第二特征向量；将所述第二特征向量输入预设分类模型，以确定每一音频片段的初始段落类型。

该实施例对第一特征向量进行全局特征提取处理，得到更深层次的第二特征向量，将第二特征向量作为分类的依据，采用预设分类模型对每一个音频片段进行分类，得到每一音频片段的初始段落类型。

请参阅图1b，图1b为本申请实施例提出的音频分段模型的第一种网络结构示意图。该音频分段模型包括依次连接的卷积神经网络和分类层。

在一些实施例中，步骤102可以包括：将所述多个音频片段的音频特征输入预设的音频分段模型，以使所述音频分段模型包括的卷积神经网络分别对每一所述音频片段进行卷积运算，得到每一所述音频片段对应的特征张量；对每一所述音频片段对应的所述特征张量进行降维处理，得到每一所述音频片段对应的第一特征向量。步骤103可以包括：将第一特征向量输入分类层进行计算，得到每一音频片段的初始段落类型。

在另外一些实施例中，步骤102可以包括：将多个音频片段的音频特征输入预设的音频分段模型，音频分段模型包括依次连接的卷积神经网络、全局特征提取网络和分类层；根据卷积神经网络分别对每一音频片段进行卷积运算，得到每一音频片段对应的特征张量；对每一音频片段对应的特征张量进行降维处理，得到每一音频片段对应的第一特征向量。步骤103可以包括：将第一特征向量输入全局特征提取网络进行全局特征提取处理，得到每一音频片段对应的第二特征向量；将第二特征向量输入分类层进行计算，得到每一音频片段的段落类型。请参阅图1c，图1c为本申请实施例提出的音频分段模型的第二种网络结构示意图。该音频分段模型包括依次连接的卷积神经网络、全局特征提取网络和分类层。该音频分段模型通过携带有段落标签的样本音频片段训练得到。

其中，卷积神经网络用于从原始的音频特征中提取特征，得到特征张量。对特征张量进行降维处理后，得到一维的第一特征向量，再将第一特征向量输入到预先训练好的全局特征提取网络中，再次进行特征提取，得到第二特征向量，第二特征向量的长度小于第一特征向量的长度。将第二特征向量输入分类层进行计算，得到每一音频片段的段落类型。其中，对于全局特征提取网络来说，全部的音频片段共享权值。

其中，全局特征提取网络可以是基于时间轴的全连接层(time-distributedFC)，对于每一个音频片段来说，其第一特征向量与全连接层的神经元建立全连接进行运算，并且，对于一个全连接层来说，沿时间轴分布的全部音频片段共享权值。或者，全局特征提取网络还可以是长短时神经网路，能够将输入的沿时间轴分布的第一特征向量构成的向量序列转换为第二特征向量构成的向量序列。或者，在其他实施例中，还可以采用其他能够从时序数据中提取特征的网络，例如RNN(Recurrent Neural Network，循环神经网络)网络。需要说明的是，经过全局特征提取网络在对第一特征向量进行处理时，可以综合考虑每个音频片段的第一特征向量与其他音频片段的第一特征向量之间的关系，基于这种关系生成第二特征向量。因此，第二特征向量更能反映全部音频片段组成的目标音频的整体特性。

请参阅图1d，图1d为本申请实施例提出的音频分段模型的第三种网络结构示意图。在一些实施例中，该音频分段模型包括依次连接的卷积神经网络、全局池化层、全局特征提取网络和分类层。

该实施例中，在102中，可以通过全局池化层将卷积神经网络输出尺寸为W×H×C的特征张量(即featuremap)进行降维处理，得到1×1×(n*C)的第一特征向量。

其中，上述三种实施例中，分类层可以是全连接层，采用一般的多分类函数进行分类计算，例如，采用softmax分类函数。

104、将各个音频片段的初始段落类型输入至时序相关损失函数层，以使所述时序相关损失函数层基于各个音频片段之间的时序关系，确定各个音频片段的目标段落类型。

请参阅图1e，图1e为本申请实施例提出的音频分段模型的第四种网络结构示意图。在一些实施例中，该音频分段模型包括依次连接的卷积神经网络、全局池化层、全局特征提取网络、分类层和时序相关损失函数层。

在步骤103中，将每一个音频片段分别作为预设分类模型的输入数据，分别对每一音频片段分类，这种分类方式没有考虑到构成整个音频的各个音频片段之间的时序特点，因此，在确定每一个片段对应的初始段落类型后，再将各个音频片段的初始段落类型输入至时序相关损失函数层，其中，时序相关损失函数层可以采用CRF(Conditional RandomFields，条件随机场)算法、CTC(Connectionist Temporal Classification，连接时序分类)算法等能够利用多个数据片段的时序关系进行损失计算的算法，时序相关损失函数层综合所有音频片段的分类情况，对某些不符合音乐段落特点的分类结果进行调整。例如，音频片段1-20中大部分的分类结果为主歌、中间少量几个零散的音频片段分类结果为副歌，这种情况不符合音乐段落特点，时序相关损失函数层对这些分类结果进行修正，以得到每一音频片段的目标段落类型。

105、根据每一音频片段的目标段落类型，确定目标音频包括的多个段落的段落类型和每个段落类型对应的段落的起止时间。

在得到每一音频片段的目标段落类型后，可以基于每一个音频片段对应的目标段落类型进行相邻段落类型的合并处理，以确定目标音频包括的多个段落的段落类型和起止时间。

可以理解的是，对于流行歌曲来说，其主歌、副歌等段落都会持续一定的时长，例如，一个主歌段落一般会包括多个音频片段。故，在一些实施例中，步骤105可以包括：获取经过步骤104处理后得到的每一音频片段的目标段落标签，目标段落标签用于表征目标段落类型；将相邻的目标音频片段的段落标签进行同类合并处理；根据同类合并处理的结果确定目标音频包括的段落类型和每个段落类型对应的段落的起止时间。

例如，在一些实施例中，将段落标签编码为one-hot向量表示。例如，段落类型包括主歌、副歌、插句和桥段。故共设置五种标签：主歌V、副歌C、插句N、桥段I和无效N，无效表示不属于主歌、副歌、插句和桥段中的任何一种。标签被编码为one-hot向量表示，可以用一个长度为5的向量(V,C,I,T,N)来表示段落标签。例如，段落标签为(1,0,0,0,0)，表示音频片段为主歌；段落标签为(0,2,0,0,0)，表示音频片段为副歌；段落标签为(0,0,3,0,0)，表示音频片段为插句；段落标签为(0,0,0,4,0)，表示音频片段为桥段；段落标签为(0,0,0,0,5)，表示音频片段不属于主歌、副歌、插句和桥段中的任何一种。

得到每一个音频片段的目标段落标签后，将相邻的音频片段的目标段落标签进行同类合并处理，例如，连续20个音频片段的目标段落标签都是(1,0,0,0,0)，并且这20个连续的音频片段前后的目标段落标签都不是(1,0,0,0,0)，则这20个连续的音频片段合并成的音频段落的段落类型为主歌。

在一些实施例中，在将相邻的音频片段的目标段落标签，进行同类合并处理之前，该方法还可以还包括：去掉多个目标段落标签中的无效标签，并对剩余的目标段落标签件进行中值滤波，以删除异常段落标签；对经过中值滤波处理后剩余的目标段落标签，将相邻的音频片段的目标段落标签进行同类合并处理。

该实施例中，为了提高段落识别的准确程度，在进行同类合并处理之前，可以先对全部的目标段落标签进行无效标签去除处理，然后对剩余的目标段落标签件进行中值滤波，以删除异常段落标签。例如，对于长度为5的向量(V,C,I,T,N)，通过argmax获取向量中的最大值，即取向量中的非零元素，作为向量对应的值。这样每一个音频片段都有一个对应的数值作为预测值。显然，1112111这种序列是可能有问题的(一段主歌中突然插入0.5～1s的副歌)，因此，2对应的段落标签可能是一个异常标签，通过中值滤波就可以将这种异常排除，将结果变更为1111111(这一整段都是主歌)。

在一些实施例中，根据同类合并处理的结果确定所述目标音频包括的段落类型和每个段落类型对应的段落的起止时间，可以包括：根据同类合并处理的结果，将具有相同目标段落标签的连续多个音频片段作为一个段落，将相同目标段落标签作为段落的段落标签；确定每一段落的起始音频片段和终止音频片段；将起始音频片段的起始时间作为段落的起始时间，将终止音频片段的终止时间作为段落的终止时间。

例如，一首歌被划分为将900个音频片段，经过音频分段模型的识别之后，第1-70个音频片段为第一个桥段(前奏)，第71-240个音频片段为第一段主歌，第241-262个音频片段为第一个插句，第263-360个音频片段为第一段副歌，第361-450个音频片段为第二个桥段(间奏)，第451-590个音频片段为第二段主歌，第591-623个音频片段为第二个插句，第624-850个音频片段为第二段副歌，第851-900个音频片段为第三个桥段(结尾)。那么，以第一个桥段为例，第一个桥段的起始时间为第一个音频片段的起始时间、终止时间为第70个音频片段的终止时间。由于每一个音频片段都是按照特定的预设区间和预设步长进行分段的，因此，其起止时间也是已知的，故在确定一个段落的起始音频片段和终止音频片段之后，即可得到该段落的起始时间和终止时间。

在一些实施例中，在确定目标音频包括的多个段落的段落类型之后，还可以进一步对分段结果的准确性进行判断，例如，判断条件可以是一首歌曲至少包括一段主歌、一段副歌和一个插句。当判断结果不满足该条件时，判定音频分段出现异常，输出结果异常的提示信息和分段结果。当判断结果满足该条件时，直接输出分段结果，即输出目标音频包括的多个段落的段落类型和起止时间。

具体实施时，本申请不受所描述的各个步骤的执行顺序的限制，在不产生冲突的情况下，某些步骤还可以采用其它顺序进行或者同时进行。

由上所述，本发明实施例提出的音频分段方法，当需要对目标音频进行段落的识别时，将该目标音频划分为多个音频片段，并提取每一个音频片段的音频特征，基于预设特征提取算法从每一个音频片段对应的音频特征中提取其第一特征向量，从而将该第一特征向量作为该音频片段分类的依据，根据预设分类模型确定每一个音频片段的初始段落类型，再将各个音频片段的初始段落类型输入至时序相关损失函数层，以使时序相关损失函数层基于各个音频片段之间的时序关系，确定各个音频片段的目标段落类型，基于每一个音频片段的目标段落类型，确定目标音频包括的多个段落的目标段落类型和每个段落类型对应的段落的起止时间，实现了对音频的段落的精确划分，并明确指出了各段落的分割时间点。

以歌曲为例，在确定出歌曲的结构之后，可以将歌曲所包含的段落以及各个段落的起止时间作为该歌曲的全局特征，参与到相关的歌曲类型识别、模式识别等方案中；或者，还可以将歌曲的段落信息以及时间点为更为细致的音乐分析提供依据。

根据前面实施例所描述的方法，以下将举例作进一步详细说明。

请参阅图2，图2是本发明实施例提供的音频分段方法的第二流程示意图。方法包括：

201、对目标音频片段进行特征提取处理，得到梅尔频谱特征。

例如，对目标音频进行短时傅里叶变换，得到频域信号，并对频域信号进行梅尔尺度变换，得到目标音频对应的梅尔频谱特征。

202、按照预设区间和预设步长将目标音频分割为多个音频片段，并根据梅尔频谱特征确定每个音频片段的音频特征。

在得到整首歌曲的梅尔频谱特征后，按照预设区间和预设步长将目标音频分割为多个音频片段，例如，按0.5s为预设区间，0.25s为步长分割为连续的多个音频片段，相邻的音频片段有0.25s的长度是重叠的。这样，一首4分钟时长的歌曲可以划分961个音频片段。

203、将多个音频片段的音频特征输入预设的音频分段模型，音频分段模型包括依次连接的卷积神经网络、全局池化层、全局特征提取网络、分类层和时序相关损失函数层。

204、根据卷积神经网络分别对每一音频片段进行卷积运算，得到每一音频片段对应的特征张量。

205、根据全局池化层对每一音频片段对应的特征张量进行降维处理，得到每一音频片段对应的第一特征向量。

206、将第一特征向量输入全局特征提取网络进行全局特征提取处理，得到每一音频片段对应的第二特征向量。

207、将第二特征向量输入分类层进行计算，得到每一音频片段的初始段落标签。

本申请提供一种音频分段模型，该模型的卷积神经网络用于对原始的音频特征进行特征提取，得到尺寸为W×H×C的特征张量；全局池化层用于对提取的特征张量降维处理，转换成为每个音频片段对应的尺寸为1×1×(n*C)的第一特征向量，其中沿时间轴分布的全部音频片段的第一特征向量构成向量序列；将该向量序列作为全局特征提取网络的输入数据，得到第二特征向量构成的另一个向量序列；再将全部第二特征向量输入分类层进行多分类处理，得到每一音频片段的初始段落标签。

208、将初始段落标签输入时序相关损失函数层运算，得到每一音频片段的目标段落标签。

209、去掉多个目标段落标签中的无效标签，并对剩余的目标段落标签件进行中值滤波，以删除异常段落标签。

经过步骤207之后，得到了每一音频片段的初始段落标签，接下来，将第二特征向量和初始段落标签输入时序相关损失函数层运算，相关损失函数层综合所有音频片段的分类情况，对某些不符合音乐段落特点的分类结果进行调整，得到每一音频片段的目标段落标签。

本实施例中，将段落标签编码为one-hot向量表示。例如，段落类型包括主歌、副歌、插句和桥段。故共设置五种标签：主歌V、副歌C、插句N、桥段I和无效N，无效表示不属于主歌、副歌、插句和桥段中的任何一种。标签被编码为one-hot向量表示，可以用一个长度为5的向量(V,C,I,T,N)来表示段落标签。例如，段落标签为(1,0,0,0,0)，表示音频片段为主歌；段落标签为(0,2,0,0,0)。

其中，如果目标段落标签为(0,0,0,0,5)，表示音频片段不属于主歌、副歌、插句和桥段中的任何一种，电子设备判定这种标签为无效标签，将其删除。

接下来，对于长度为5的向量(V,C,I,T,N)，通过argmax获取向量中的最大值，即取向量中的非零元素，作为向量对应的值。这样每一个音频片段都有一个对应的数值作为预测值。显然，1112111这种序列是可能有问题的(一段主歌中突然插入0.5～1s的副歌)，因此，2对应的段落标签可能是一个异常标签，通过中值滤波就可以将这种异常排除，将结果变更为1111111(这一整段都是主歌)。

210、对经过中值滤波处理后剩余的目标段落标签，将相邻的音频片段的目标段落标签进行同类合并处理，将具有相同目标段落标签的连续多个音频片段作为一个段落。

中值滤波处理之后，将相邻的音频片段的段落标签进行同类合并处理，例如，连续20个音频片段的段落标签都是(1,0,0,0,0)，并且这20个连续的音频片段前后的段落标签都不是(1,0,0,0,0)，则这20个连续的音频片段合并成的音频段落的段落类型为主歌。

211、确定每一段落的起始音频片段和终止音频片段；将起始音频片段的起始时间作为段落的起始时间，将终止音频片段的终止时间作为段落的终止时间。

例如，一首歌被划分为将900个音频片段，经过音频分段模型的识别之后，第1-70个音频片段为第一个桥段(前奏)，第71-240个音频片段为第一段主歌。那么，可以确定的是，第一个桥段的起始时间为第一个音频片段的起始时间、终止时间为第70个音频片段的终止时间。由于每一个音频片段都是按照特定的预设区间和预设步长进行分段的，因此，其起止时间也是已知的，故在确定一个段落的起始音频片段和终止音频片段之后，即可得到该段落的起始时间和终止时间。

通过上述方式，将一首歌曲划分为多个连续的时长较短的音频片段，进行特征提取与多分类识别，确定每一个音频片段的段落标签，并且这样的段落标签具有显著的统计特征。由于音频片段的时长较短，所以段落标签会较为几种，例如，一个音频片段左右相邻的两个音频片段的段落标签为主歌，那么这个音频片段显然也为主歌。因此，基于本申请实施例的方案，可以综合全部音频片段的段落标签，确定整首歌曲所包含的段落，以及每一个段落的起止时间。

其中，本申请实施例中的音频分段模型的训练过程如下：

a、构建音频分段模型：该音频分段模型包括依次连接的卷积神经网络、全局池化层、第一全连接层、第二全连接层和时序相关损失函数层，其中，第一全连接层和第二全连接层均为基于时间轴的全连接层，各个音频分段在这两个全连接层上共享权值，其中，第一个全连接层主要起到提取时序特征的作用，第二个全连接在提取时序特征的同时，对个音频片段进行分类，确定初始段落类型，时序相关损失函数层对初始段落类型进行调整，得到目标段落类型。

b、准备训练样本：获取样本音频，针对每一样本音频，在提取梅尔频谱特征作为音频特征后，按0.5s一小段，0.25s为步长将其划分为多个样本音频片段。然后对这些音频片段进行段落标签的标注，按照符号集[V,C,I,T,N]，分别代表[主歌，副歌，桥段，插句，无效]，编码形式为one-hot编码，即以一个长度为5的向量表示段落标签，具体请参见上述实施例，在此不再赘述。其中，无效指不属于以上各段落的任意一种。

c、使用训练样本训练构建的音频分段模型，确定模型参数。

其中，在训练模型阶段，可以采用逐点多分类作为损失函数，其中，逐点多分类是对每个音频片段都应用softmax分类，则整个网络的损失就是各个音频片段的损失的均值。

由上所述，本发明实施例提出的音频分段方法，当需要对目标音频进行段落的识别时，将该目标音频划分为多个音频片段，并提取每一个音频片段的音频特征，基于预先训练好的音频分段模型从每一个音频片段对应的音频特征中提取其第一特征向量，从而将该第一特征向量作为该音频片段分类的依据，确定每一个音频片段的段落类型，再基于每一个音频片段的初始段落类型，再将各个音频片段的初始段落类型输入至时序相关损失函数层，以使时序相关损失函数层基于各个音频片段之间的时序关系，确定各个音频片段的目标段落类型，基于每一个音频片段的目标段落类型，确定目标音频包括的多个段落的目标段落类型和每个段落类型对应的段落的起止时间，实现了对音频的段落的精确划分，并明确指出了各段落的分割时间点。

为了实施以上方法，本发明实施例还提供一种音频分段装置，该音频分段装置具体可以集成在终端设备如手机、平板电脑等设备中。

例如，请参阅图3，图3是本发明实施例提供的音频分段装置的结构示意图。该音频分段装置可以包括第一提取单元301、第二提取单元302、第一识别单元303、第二识别单元304和音频分段单元305，如下：

第一提取单元301，用于将目标音频划分为多个音频片段，并提取每个音频片段的音频特征；

第二提取单元302，用于根据预设特征提取算法从对应的音频特征中，提取每一音频片段的第一特征向量；

第一识别单元303，用于将所述第一特征向量输入预设分类模型，以确定每一音频片段的初始段落类型；

第二识别单元304，用于将各个音频片段的初始段落类型输入至时序相关损失函数层，以使所述时序相关损失函数层基于各个音频片段之间的时序关系，确定各个音频片段的目标段落类型；

音频分段单元305，用于根据每一音频片段的目标段落类型，确定所述目标音频包括的段落类型和每个段落类型对应的段落的起止时间。

在一些实施例中，第一提取单元301还用于：

对所述目标音频进行短时傅里叶变换，得到频域信号；对所述频域信号进行梅尔尺度变换，得到所述目标音频对应的梅尔频谱特征；按照预设区间和预设步长将所述目标音频分割为多个音频片段，并根据所述梅尔频谱特征确定每个音频片段的音频特征。

在一些实施例中，第一识别单元303还用于：

基于全局特征提取网络对所述第一特征向量进行全局特征提取处理，得到每一音频片段对应的第二特征向量；

将所述第二特征向量输入预设分类模型，以确定每一音频片段的初始段落类型。

在一些实施例中，第二提取单元302还用于：

将所述多个音频片段的音频特征输入预设的音频分段模型，以使所述音频分段模型包括的卷积神经网络分别对每一所述音频片段进行卷积运算，得到每一所述音频片段对应的特征张量；

对每一所述音频片段对应的所述特征张量进行降维处理，得到每一所述音频片段对应的第一特征向量。

在一些实施例中，所述音频分段模型还包括全局池化层；第二提取单元302还用于：根据所述全局池化层对每一所述音频片段对应的所述特征张量进行降维处理，得到每一所述音频片段对应的第一特征向量。

在一些实施例中，音频分段单元305还用于：

获取每一音频片段对应的目标段落标签，所述目标段落标签用于表征目标段落类型；

将相邻的音频片段的目标段落标签，进行同类合并处理；

根据同类合并处理的结果确定所述目标音频包括的段落类型和每个段落类型对应的段落的起止时间。

在一些实施例中，音频分段单元305还用于：

去掉多个所述目标段落标签中的无效标签，并对剩余的目标段落标签件进行中值滤波，以删除异常段落标签；

对经过中值滤波处理后剩余的目标段落标签，将相邻的音频片段的目标段落标签进行同类合并处理。

在一些实施例中，音频分段单元305还用于：

根据同类合并处理的结果，将具有相同目标段落标签的连续多个音频片段作为一个段落，将所述相同目标段落标签作为所述段落的段落标签；

确定每一段落的起始音频片段和终止音频片段；

将所述起始音频片段的起始时间作为所述段落的起始时间，将所述终止音频片段的终止时间作为所述段落的终止时间。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

应当说明的是，本发明实施例提供的音频分段装置与上文实施例中的音频分段方法属于同一构思，在音频分段装置上可以运行音频分段方法实施例中提供的任一方法，其具体实现过程详见音频分段方法实施例，此处不再赘述。

本发明实施例提出的音频分段装置，当需要对目标音频进行段落的识别时，将该目标音频划分为多个音频片段，并提取每一个音频片段的音频特征，基于预设特征提取算法从每一个音频片段对应的音频特征中提取其第一特征向量，从而将该第一特征向量作为该音频片段分类的依据，根据预设分类模型确定每一个音频片段的初始段落类型，再将各个音频片段的初始段落类型输入至时序相关损失函数层，以使时序相关损失函数层基于各个音频片段之间的时序关系，确定各个音频片段的目标段落类型，基于每一个音频片段的目标段落类型，确定目标音频包括的多个段落的目标段落类型和每个段落类型对应的段落的起止时间，实现了对音频的段落的精确划分，并明确指出了各段落的分割时间点。

本发明实施例还提供一种电子设备，请参阅图4，图4是本发明实施例提供的电子设备的结构示意图。具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

由上所述，本发明实施例提出的电子设备，当需要对目标音频进行段落的识别时，将该目标音频划分为多个音频片段，并提取每一个音频片段的音频特征，基于预设特征提取算法从每一个音频片段对应的音频特征中提取其第一特征向量，从而将该第一特征向量作为该音频片段分类的依据，根据预设分类模型确定每一个音频片段的初始段落类型，再将各个音频片段的初始段落类型输入至时序相关损失函数层，以使时序相关损失函数层基于各个音频片段之间的时序关系，确定各个音频片段的目标段落类型，基于每一个音频片段的目标段落类型，确定目标音频包括的多个段落的目标段落类型和每个段落类型对应的段落的起止时间，实现了对音频的段落的精确划分，并明确指出了各段落的分割时间点。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种音频分段方法中。例如，该指令可以执行：

以上操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种音频分段方法，因此，可以实现本发明实施例所提供的任一种音频分段方法所能实现的有益效果，详见前面的实施例，在此不再赘述。以上对本发明实施例所提供的一种音频分段方法、装置及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频分段方法，其特征在于，包括：

2.如权利要求1所述的音频分段方法，其特征在于，所述将所述目标音频划分为多个音频片段，并提取每个音频片段的音频特征，包括：

对所述目标音频进行短时傅里叶变换，得到频域信号；

对所述频域信号进行梅尔尺度变换，得到所述目标音频对应的梅尔频谱特征；

按照预设区间和预设步长将所述目标音频分割为多个音频片段，并根据所述梅尔频谱特征确定每个音频片段的音频特征。

3.如权利要求1所述的音频分段方法，其特征在于，将所述第一特征向量输入预设分类模型，以确定每一音频片段的初始段落类型，包括：

4.如权利要求1至3任意一项所述的音频分段方法，其特征在于，所述根据预设特征提取算法从对应的音频特征中，提取每一音频片段的第一特征向量，包括：

5.如权利要求4所述的音频分段方法，其特征在于，所述音频分段模型还包括全局池化层；所述对每一所述音频片段对应的所述特征张量进行降维处理，得到每一所述音频片段对应的第一特征向量，包括：

根据所述全局池化层对每一所述音频片段对应的所述特征张量进行降维处理，得到每一所述音频片段对应的第一特征向量。

6.如权利要求1所述的音频分段方法，其特征在于，所述根据每一音频片段的目标段落类型，确定所述目标音频包括的段落类型和每个段落类型对应的段落的起止时间，包括：

将相邻的音频片段的目标段落标签，进行同类合并处理；

7.如权利要求6所述的音频分段方法，其特征在于，所述将相邻的音频片段的目标段落标签，进行同类合并处理之前，还包括：

8.如权利要求6所述的音频分段方法，其特征在于，根据同类合并处理的结果确定所述目标音频包括的段落类型和每个段落类型对应的段落的起止时间，包括：

确定每一段落的起始音频片段和终止音频片段；

9.一种音频分段装置，其特征在于，包括：

10.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至8任一项所述的音频分段方法。

11.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上，并可在所述处理器上运行的音频分段程序，所述音频分段程序被所述处理器执行时实现权利要求1至8任一项所述的方法。