CN109147771A

CN109147771A - 音频分割方法和系统

Info

Publication number: CN109147771A
Application number: CN201710512310.5A
Authority: CN
Inventors: 雷延强
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2017-06-28
Filing date: 2017-06-28
Publication date: 2019-01-04
Anticipated expiration: 2037-06-28
Also published as: CN109147771B

Abstract

本发明涉及一种音频分割方法和系统，方法包括以下步骤：读取待分割的音频数据的各个音频帧，分别对各个音频帧进行特征提取，得到各个音频帧对应的音频信号特征；将所述音频信号特征输入到预先训练的音频类别分类器，分别计算所述音频信号特征对应的音频帧属于各个音频类别的概率值，根据所述概率值获取所述音频信号特征对应的音频帧所属的目标音频类别；根据各个音频帧所属的目标音频类别对所述音频数据进行音频分割。上述音频分割方法和系统可以将音频数据分割为细小的片段，音频分割精确度高。

Description

音频分割方法和系统

技术领域

本发明涉及音频信号处理技术领域，特别是涉及一种音频分割方法和系统。

背景技术

原始的音频数据不利于用户查看、检索。为了解决这一问题，有一种方式是对音频数据进行音频分割。通过音频分割，可以将音频分割为细小的片段，而每个片段代表的意义不同，如连续的背景声、解说者声、观众的欢呼声等，可用于后续建立有效的检索系统。

传统的音频分割方式大多分为两种，一种是通过提取音频的长时和短时特征，将音频特征分为SVM(Support Vector Machine，支持向量机)，或高斯混合模型等类别；另一种是提取音频特征，将音频划分为目标音频和静音，再将目标音频经过高斯混合模型，分为目标音乐和非目标音乐。

然而，上述音频分割方式都是基于自主设计的音频特征对音频数据进行音频分割，由于设计规则受限，音频分割精确度较低。

发明内容

基于此，有必要针对音频分割精确度较低的问题，提供一种音频分割方法和系统。

一种音频分割方法，包括以下步骤：

读取待分割的音频数据的各个音频帧，分别对各个音频帧进行特征提取，得到各个音频帧对应的音频信号特征；

将所述音频信号特征输入到预先训练的音频类别分类器，分别计算所述音频信号特征对应的音频帧属于各个音频类别的概率值，根据所述概率值获取所述音频信号特征对应的音频帧所属的目标音频类别；

根据各个音频帧所属的目标音频类别对所述音频数据进行音频分割。

一种音频分割系统，包括：

特征提取模块，用于读取待分割的音频数据的各个音频帧，分别对各个音频帧进行特征提取，得到各个音频帧对应的音频信号特征；

类别划分模块，用于将所述音频信号特征输入到预先训练的音频类别分类器，分别计算所述音频信号特征对应的音频帧属于各个音频类别的概率值，根据所述概率值获取所述音频信号特征对应的音频帧所属的目标音频类别；

音频分割模块，用于根据各个音频帧所属的目标音频类别对所述音频数据进行音频分割。

上述音频分割方法和系统，将从音频数据的各个音频帧提取的音频信号特征输入到分类器，得到各个音频信号特征对应的音频帧属于各个音频类别的概率值，根据所述概率值获取所述音频信号特征对应的音频帧所属的目标音频类别，在得到全部音频帧所属的音频类别之后，根据各个音频帧所属的目标音频类别对音频数据进行音频分割，可以将音频数据分割为细小的片段，音频分割精确度高。

附图说明

图1为一个实施例的音频分割方法流程图；

图2为一个实施例的音频数据示意图；

图3为一个实施例的深度神经网络结构示意图；

图4为一个实施例的音频分割方法的总体流执行程图；

图5为一个实施例的音频分割系统的结构框图。

具体实施方式

下面结合附图对本发明的技术方案进行说明。

如图1所示，本发明提供一种音频分割方法，可包括以下步骤：

S1，读取待分割的音频数据的各个音频帧，分别对各个音频帧进行特征提取，得到各个音频帧对应的音频信号特征；

可先获取一段待分割的音频数据，一段音频数据可以包括多个音频帧，可以分别对每个音频帧进行特征提取，得到各个音频帧对应的音频信号特征，这里说的音频信号特征可以是现有的典型的音频信号特征(例如频谱系数等)，也可以是其他类型的音频信号特征。进行特征提取之前，可以首先将一段音频数据划分为多个音频帧，划分的方式可以采用重叠分帧方式，如图2所示，即，将所述音频数据的前一帧的末尾部分(可以是所述音频数据的前一帧的末尾N毫秒)作为所述音频数据的后一帧的起始部分(可以是所述音频数据的后一帧的起始N毫秒)，N为正整数，且N小于一帧音频帧的总长度。经过重叠分帧，可以得到一段音频数据的多个音频帧。进行重叠分帧后，可以对划分出来的每个帧分别进行特征提取。由于音频信号是不平稳信号，但在短时范围内可以认为是平稳的(特征变化也小)，如果语音分帧时，刚好划分到声母-韵母过渡，或者是音节-音节的过渡，那么前后两帧对应的特征变化就很大，不利用于当做平稳信号处理了，所以为了使特征进行平滑的变动，在采用短时特征对音频进行分析时，需要合理地选择每一时刻下的过渡，带少量的重叠是比较合理的，可以避免出现前后两帧特征变化较大的情况。

S2，将所述音频信号特征输入到预先训练的音频类别分类器，分别计算所述音频信号特征对应的音频帧属于各个音频类别的概率值，根据所述概率值获取所述音频信号特征对应的音频帧所属的目标音频类别；

本发明实施例中的音频类别可以划分为有效音频、背景噪声音频、干扰音频等类别。以体育音频为例，有效音频可以是解说员的解说声，背景噪声音频可以指连续的背景声，干扰音频可以是观众的欢呼声。上述说明仅作为一个例子，实际情况不限于此。经过上述划分之后的音频数据，可用于后续建立有效的检索系统。

假设步骤S1中的音频数据划分为音频帧{F1,F2,…,Fn}(n为音频帧的总数)，对应的音频信号特征为{x1,x2,…,xn}，其中，xi(1≤i≤n)为音频帧Fi对应的音频信号特征。可将{x1,x2,…,xn}输入到预先训练的音频类别分类器，得到概率值：

然后，可根据上述概率值获取目标音频类别。m为音频类别分类器输出的类别总数，其中，p(S_k|xi)(1≤i≤n,1≤k≤m)表示音频信号特征xi对应的音频帧Fi属于类别S_k的概率。

在一个实施例中，本步骤的音频类别分类器可以根据以下方式获取：首先，可以将预先获取的样本音频数据划分为多个样本音频帧；然后，可以分别对各个样本音频帧进行特征提取，得到各个样本音频帧对应的样本音频信号特征；最后，可以根据所述样本音频信号特征以及各个多个样本音频帧所属的类别对深度神经网络进行训练，得到音频类别分类器。

样本音频数据可以是一段已知的音频数据，在获取样本音频数据之后，可以对样本音频数据进行特征提取，为了便于处理，对样本音频数据进行特征提取的方式可与步骤S1中对待分割的音频数据进行特征提取的方式相同。样本音频数据可以预先标注，以获取样本音频数据的各个音频帧所属的音频类别。具体地，在实际操作过程中，每个音频帧对应的标注可直接采用其所在时刻对应的标注。一个实施例的音频数据如图3所示，图3示出了对音频数据进行标注及重叠分帧的示意图，图中的F1和F2表示两个音频帧，S0、S1和S2表示标注的三个音频类别。

深度神经网络的结构如图3所示，包括一个输入层，多个隐含层和一个输出层，每一层包括多个结点。图3示出的是包括4个隐含层的神经网络，但实际应用中并不限于此。输入层可以由相邻的多个音频帧特征拼接而成，假设由相邻的音频帧F1与F2直接拼接，若F1，F2各为40维特征，直接拼接则为80维，输入层一般可以左右5(共11帧拼接)，但这里没有做限制，拼接的帧数可根据需要调整；输入层的结点数可与拼接后的音频帧的维数相同，即，若只有两帧拼接，每帧40维，则输入层则有80维，即对应80个结点。其中，“维”指向量长度。

深度神经网络参数包括：任意两层之间，有分别表示第l层第j个结点的输出值，表示第l+1层第i个结点与第l层第j个结点之间的连接权重，n表示第l层的结点数量，表示第l+1层第i个结点的偏置项，表示第l+1层第i个结点的加权和，f(·)表示一个非线性函数，隐含层可采用：

(称sigmod函数)；

而输出层可采用：

(称softmax函数)。

采用深度神经网络，分类能力更强，且深度神经网络的复杂度较低，可以提高音频分割效率。

神经网络输出层输出的是p(S_i/x)，表示特征为x下，类别S_i发生的概率。将步骤S1得到的任意一帧特征x_t，输入到深度神经网络中，并作前向计算得到该特征属于每个类别的概率p(S_i/x_t)。其中前向计算过程描述如下：根据所述音频信号特征、前T音频信号特征和后T音频信号特征生成特征序列；其中，前T音频信号特征为所述音频信号特征对应的音频帧之前的T个音频帧的音频信号特征，后T音频信号特征为所述音频信号特征对应的音频帧之后的T个音频帧的音频信号特征，T为正整数；将所述特征序列输入到所述音频类别分类器，得到所述音频信号特征对应的音频帧属于各个音频类别的概率值。举例来说，在t时刻，假设一个音频帧对应的音频信号特征为x_t，可将x_t输入深度神经网络，并将x_t左右分别拼接相邻的T个音频帧的音频信号特征，形成特征序列X_t＝[x_t-T,…,x_t,…x_t+T]，逐层计算每个结点的输出值其中a⁰＝X_t，最后在输出层每个结点可以得到这里的即为后验概率p(S_i/x_t)。

以上得到的是每一帧数据属于每个类别的后验概率，未考虑类别之间的转移。音频是一个连续的序列，序列中通常包含多个类别(例如，不同的场景可以看做不同的类别)，并且每个类别通常是连续的，类别与类别之间也存在切换。因此，可以根据各个音频类别之间的转移概率对上述概率值p(S_i/x_t)进行平滑处理；将平滑处理后的概率值中的最大者对应的音频类别设为所述音频信号特征对应的音频帧所属的目标音频类别。在一个实施例中，可以采用状态机来描述每个类别与其它类别的转换关系。假设期望将音频自动分割为M个类别。则需要训练如下的参数：

其中α_i,j表示从第i个类别切换到第j个类别的概率值，并且

在一个实施例中，可以获取所述样本音频数据中各个音频类别的样本音频帧的数量；根据所述数量计算各个音频类别之间的转移概率α_i,j。具体地，上述参数的学习可采用如下统计方法得到：

式中，α_i,j表示从第i个类别切换到第j个类别的转移概率，c(i,j)表示当前音频帧属于第i个音频类别，且当前音频帧的下一个音频帧属于第j个音频类别的样本音频帧的数量，c(i,k)表示当前音频帧属于第i个音频类别，且当前音频帧的下一个音频帧属于第k个音频类别的样本音频帧的数量。

这里采用如下策略对后验概率进行平滑：

式中，S_i和S_j分别表示第i个类别和第j个类别，x_t为t时刻任意一个音频帧的音频信号特征，p'(S_i/x_t)为平滑处理后x_t属于类别S_i的概率值，p(S_j/x_t)为平滑处理前x_t属于类别S_j的概率值，α_j,i表示从第j个类别切换到第i个类别的转移概率。采用状态机平滑，可以使后验概率更稳定，防止误触发。

S3，根据各个音频帧所属的目标音频类别对所述音频数据进行音频分割。

本步骤可以结合一段时间内的概率值来进一步平滑，并采用概率最大的类别作为输出类别。如：设置一个时长为W的窗口，该窗口内包括多个音频帧，结合所有音频帧对应的后验概率，可以得到当前时刻t下音频帧对应的类别：

式中，i^*表示音频信号特征x_t对应的音频帧所属的音频类别，W为预设的时间长度。

获取每个时刻下音频帧对应的类别后，通过判断类别的变化即可实现音频的自动分割。

本发明的音频分割方法的总体流执行程图如图4所示。

如图5所示，本发明还提供一种音频分割系统，可包括：

特征提取模块10，用于读取待分割的音频数据的各个音频帧，分别对各个音频帧进行特征提取，得到各个音频帧对应的音频信号特征；

类别划分模块20，用于将所述音频信号特征输入到预先训练的音频类别分类器，分别计算所述音频信号特征对应的音频帧属于各个音频类别的概率值，根据所述概率值获取所述音频信号特征对应的音频帧所属的目标音频类别；

假设特征提取模块10中的音频数据划分为音频帧{F1,F2,…,Fn}(n为音频帧的总数)，对应的音频信号特征为{x1,x2,…,xn}，其中，xi(1≤i≤n)为音频帧Fi对应的音频信号特征。可将{x1,x2,…,xn}输入到预先训练的音频类别分类器，得到概率值：

在一个实施例中，本模块的音频类别分类器可以根据以下方式获取：首先，可以将预先获取的样本音频数据划分为多个样本音频帧；然后，可以分别对各个样本音频帧进行特征提取，得到各个样本音频帧对应的样本音频信号特征；最后，可以根据所述样本音频信号特征以及各个多个样本音频帧所属的类别对深度神经网络进行训练，得到音频类别分类器。

样本音频数据可以是一段已知的音频数据，在获取样本音频数据之后，可以对样本音频数据进行特征提取，为了便于处理，对样本音频数据进行特征提取的方式可与特征提取模块10中对待分割的音频数据进行特征提取的方式相同。样本音频数据可以预先标注，以获取样本音频数据的各个音频帧所属的音频类别。具体地，在实际操作过程中，每个音频帧对应的标注可直接采用其所在时刻对应的标注。一个实施例的音频数据如图2所示。图2示出了对音频数据进行标注以及重叠分帧的示意图，图中的F1和F2表示两个音频帧，S0、S1和S2表示标注的三个音频类别。

(称sigmod函数)；

而输出层可采用：

(称softmax函数)。

神经网络输出层输出的是p(S_i/x)，表示特征为x下，类别S_i发生的概率。将特征提取模块10得到的任意一帧特征x_t，输入到深度神经网络中，并作前向计算得到该特征属于每个类别的概率p(S_i/x_t)。其中前向计算过程描述如下：根据所述音频信号特征、前T音频信号特征和后T音频信号特征生成特征序列；其中，前T音频信号特征为所述音频信号特征对应的音频帧之前的T个音频帧的音频信号特征，后T音频信号特征为所述音频信号特征对应的音频帧之后的T个音频帧的音频信号特征，T为正整数；将所述特征序列输入到所述音频类别分类器，得到所述音频信号特征对应的音频帧属于各个音频类别的概率值。举例来说，在t时刻，假设一个音频帧对应的音频信号特征为x_t，可将x_t输入深度神经网络，并将x_t左右分别拼接相邻的T个音频帧的音频信号特征，形成特征序列X_t＝[x_t-T,…,x_t,…x_t+T]，逐层计算每个结点的输出值其中a⁰＝X_t，最后在输出层每个结点可以得到这里的即为后验概率p(S_i/x_t)。

其中α_i,j表示从第i个类别切换到第j个类别的概率值，并且

这里采用如下策略对后验概率进行平滑：

音频分割模块30，用于根据各个音频帧所属的目标音频类别对所述音频数据进行音频分割。

本模块可以结合一段时间内的概率值来进一步平滑，并采用概率最大的类别作为输出类别。如：设置一个时长为W的窗口，该窗口内包括多个音频帧，结合所有音频帧对应的后验概率，可以得到当前时刻t下音频帧对应的类别：

本发明的音频分割系统与本发明的音频分割方法一一对应，在上述音频分割方法的实施例阐述的技术特征及其有益效果均适用于音频分割系统的实施例中，特此声明。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种音频分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的音频分割方法，其特征在于，在将所述音频信号特征输入到预先训练的音频类别分类器之前，还包括以下步骤：

将预先获取的样本音频数据划分为多个样本音频帧；

分别对各个样本音频帧进行特征提取，得到各个样本音频帧对应的样本音频信号特征；

根据所述样本音频信号特征以及各个多个样本音频帧所属的类别对深度神经网络进行训练，得到音频类别分类器。

3.根据权利要求1所述的音频分割方法，其特征在于，在读取待分割的音频数据的各个音频帧之前，还包括以下步骤：

对所述音频数据进行重叠分帧，得到所述音频数据的各个音频帧；

其中，进行重叠分帧时，将所述音频数据的前一帧的末尾部分作为所述音频数据的后一帧的起始部分。

4.根据权利要求2所述的音频分割方法，其特征在于，根据所述概率值获取所述音频信号特征对应的音频帧所属的目标音频类别的步骤包括：

根据各个音频类别之间的转移概率对所述概率值进行平滑处理；

根据平滑处理后的概率值获取所述音频信号特征对应的音频帧所属的目标音频类别。

5.根据权利要求4所述的音频分割方法，其特征在于，根据各个音频类别之间的转移概率对所述概率值进行平滑处理的步骤包括：

根据如下方式对所述概率值进行平滑处理：

式中，S_i和S_j分别表示第i个类别和第j个类别，x_t为t时刻任意一个音频帧的音频信号特征，p'(S_i/x_t)为平滑处理后x_t属于类别S_i的概率值，p(S_j/x_t)为平滑处理前x_t属于类别S_j的概率值，α_j,i表示从第j个类别切换到第i个类别的转移概率。

6.根据权利要求4所述的音频分割方法，其特征在于，在根据各个音频类别之间的转移概率对所述概率值进行平滑处理之前，还包括以下步骤：

获取所述样本音频数据中各个音频类别的样本音频帧之间的转移数量；

根据所述数量计算各个音频类别之间的转移概率。

7.根据权利要求6所述的音频分割方法，其特征在于，根据所述数量计算各个音频类别之间的转移概率的步骤包括：

根据如下方式计算各个音频类别之间的转移概率：

8.根据权利要求1所述的音频分割方法，其特征在于，分别计算所述音频信号特征对应的音频帧属于各个音频类别的概率值的步骤包括：

根据所述音频信号特征、前T音频信号特征和后T音频信号特征生成特征序列；其中，前T音频信号特征为所述音频信号特征对应的音频帧之前的T个音频帧的音频信号特征，后T音频信号特征为所述音频信号特征对应的音频帧之后的T个音频帧的音频信号特征，T为正整数；

将所述特征序列输入到所述音频类别分类器，得到所述音频信号特征对应的音频帧属于各个音频类别的概率值。

9.根据权利要求5所述的音频分割方法，其特征在于，根据平滑处理后的概率值获取所述音频信号特征对应的音频帧所属的目标音频类别的步骤包括：

根据如下方式获取所述音频信号特征对应的音频帧所属的目标音频类别：

10.一种音频分割系统，其特征在于，包括：