CN105931635A

CN105931635A - 一种音频分割方法及装置

Info

Publication number: CN105931635A
Application number: CN201610202144.4A
Authority: CN
Inventors: 谭应伟; 王涛
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2016-03-31
Filing date: 2016-03-31
Publication date: 2016-09-07
Anticipated expiration: 2036-03-31
Also published as: CN105931635B

Abstract

本发明实施例公开了一种音频分割方法及装置，方法包括：根据预设的特征提取算法提取目标音频的目标特征值；根据所述目标特征值，将所述目标音频划分为目标语音部分和目标静音部分；将所述目标特征值作为预设高斯模型的输入参数，获得针对所述目标音频的后验概率；根据所述后验概率和预设的分类模型对所述目标语音部分进行分割，得到目标音乐部分和非目标音乐部分，其中，所述预设的分类模型为：基于多特征融合和上下文关联的分类模型；根据所述目标静音部分、所述目标音乐部分和所述非目标音乐部分生成针对所述目标音频的分割结果。应用本发明实施例提供的方案分割音频，可以把音频分割为静音部分、音乐部分和非音乐部分。

Description

一种音频分割方法及装置

技术领域

本发明涉及音频处理领域，特别涉及一种音频分割方法及装置。

背景技术

随着互联网技术的不断发展，图像、视频、音频等多媒体数据已逐渐成为互联网信息处理领域中主要的信息媒体形式。其中，音频数据占有很重要的位置。原始音频数据本身是一种非语义符号表示和非结构化的二进制流，缺乏内容语义的描述和结构化的组织。音频分割技术是提取音频中结构化信息和语义内容的重要手段，是音频和视频内容理解、分析与检索的基础。从本质上来说，音频分类是一个模式识别的问题，它包括两个基本处理过程：特征提取和分类。音频分割是在音频分类的基础上从音频流中提取出不同的音频种类，也就是说在时间轴上对音频流按照类别进行划分。

目前，传统的音频分割方法一般是先提取目标音频的梅尔倒谱系数特征，然后，根据梅尔倒谱系数特征和预设的混合高斯分类模型将音频分割为语音部分和静音部分，应用上述传统方法可以实现针对音频的基本划分，然而，实际应用中语音部分的内容是丰富多彩的，例如，广播类音频流中存在复杂多变的音频信号等等，因此，仅仅将区分为语音部分和静音部分，不利用提取音频中的结构化信息和语义内容。

可见，提供一种能够区分静音、音乐和非音乐的音频分割方法已经成为一种亟待解决的问题。

发明内容

本发明实施例公开了一种音频分割方法及装置，以能够区分静音、音乐和非音乐。技术方案如下：

为达到上述目的，本发明实施例公开了一种音频分割方法，包括步骤：

根据预设的特征提取算法提取目标音频的目标特征值；

根据所述目标特征值，将所述目标音频划分为目标语音部分和目标静音部分；

将所述目标特征值作为预设高斯模型的输入参数，获得针对所述目标音频的后验概率；

根据所述后验概率和预设的分类模型对所述目标语音部分进行分割，得到目标音乐部分和非目标音乐部分，其中，所述预设的分类模型为：基于多特征融合和上下文关联的分类模型；

根据所述目标静音部分、所述目标音乐部分和所述非目标音乐部分生成针对所述目标音频的分割结果。

较佳的，根据所述目标特征值，将所述目标音频划分为目标语音部分和目标静音部分，包括：

将所述目标音频中取值大于预设阈值的所述目标特征值对应的音频帧确定为所述目标音频的目标语音部分，并将所述目标音频中其他音频帧确定为所述目标音频的目标静音部分。

较佳的，根据所述目标特征值，将所述目标音频划分为目标语音部分和目标静音部分，包括:

根据所述目标特征值，将所述目标音频划分为初始语音部分和初始静音部分；

对所述初始语音部分和所述初始静音部分进行平滑处理，得到所述目标音频的目标语音部分和目标静音部分。

较佳的，通过以下方式构建所述预设高斯模型：

获得样本音频数据；

根据所述样本音频数据的大小，确定初始高斯模型；

提取所述样本音频数据的样本特征值；

将所述样本特征值作为所述初始高斯模型的输入参数，对所述初始高斯模型进行训练，获得预设高斯模型的模型参数，进而完成构建所述预设高斯模型。

较佳的，所述预设的分类模型具体为：

基于隐马尔科夫的多特征融合模型。

为达到上述目的，本发明实施例还公开了一种音频分割装置，包括：

特征提取模块，用于根据预设的特征提取算法提取目标音频的目标特征值；

第一划分模块，用于根据所述目标特征值，将所述目标音频划分为目标语音部分和目标静音部分；

后验概率获得模块，用于将所述目标特征值作为预设高斯模型的输入参数，获得针对所述目标音频的后验概率；

第二划分模块，用于根据所述后验概率和预设的分类模型对所述目标语音部分进行分割，得到目标音乐部分和非目标音乐部分，其中，所述预设的分类模型为：基于多特征融合和上下文关联的分类模型；

结果生成模块，用于根据所述目标静音部分、所述目标音乐部分和所述非目标音乐部分生成针对所述目标音频的分割结果。

较佳的，所述第一划分模块，具体用于将所述目标音频中取值大于预设阈值的所述目标特征值对应的音频帧确定为所述目标音频的目标语音部分，并将所述目标音频中其他音频帧确定为所述目标音频的目标静音部分。

较佳的，所述第一划分模块，包括:

划分单元，用于根据所述目标特征值，将所述目标音频划分为初始语音部分和初始静音部分；

平滑处理单元，用于对所述初始语音部分和所述初始静音部分进行平滑处理，得到所述目标音频的目标语音部分和目标静音部分。

较佳的，所述装置还包括：

高斯模型建立模块，用于构建所述预设高斯模型；

其中，所述高斯模型建立模块，包括：

样本获得单元，用于获得样本音频数据；

初始模型确定单元，用于根据所述样本音频数据的大小，确定初始高斯模型；

样本特征提取单元，用于提取所述样本音频数据的样本特征值；

模型构建单元，用于将所述样本特征值作为所述初始高斯模型的输入参数，对所述初始高斯模型进行训练，完成构建所述预设高斯模型。

较佳的，所述预设的分类模型具体为：

基于隐马尔科夫的多特征融合模型。

由上述的技术方案可见，首先，提取目标音频的目标特征值，并根据目标特征值，将目标音频划分为目标语音部分和目标静音部分，然后，将目标特征值作为预设高斯模型的输入参数，获得针对所述目标音频的后验概率，根据后验概率和预设的分类模型对目标语音部分进行分割，得到目标音乐部分和非目标音乐部分。由于上述预设的分类模型为：基于多特征融合和上下文关联的分类模型，所以能够很好的将语音部分分割为音乐部分和非音乐部分。因此，应用本发明实施例提供的方案进行音频分割，能够把音频分割为静音部分、音乐部分和非音乐部分。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种音频分割方法的流程示意图；

图2为本发明实施例提供的另一种音频分割方法的流程示意图；

图3为本发明实施例提供的一种音频分割装置的结构示意图；

图4为本发明实施例提供的另一种音频分割装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术中存在的问题，本发明实施例公开了一种音频分割方法及装置，以融合多特征的音频分割方法对音频进行分割处理，区分出静音部分、音乐部分和非音乐部分。

下面通过具体实施例，对本发明进行详细说明。

图1为本发明实施例提供的一种音频分割方法的流程示意图，包括如下步骤：

S101：根据预设的特征提取算法提取目标音频的目标特征值；

上述目标特征值可以简单的理解为：目标特征的特征值，其中，目标特征可以包括：目标音频的时域特征和/或频域特征。

具体的，目标音频的时域特征可以包括：均方根和过零率，频域特征可以包括：短时梅尔倒谱系数、短时delta系数、长时delta系数，谱中心、谱衰减以及谱流量等等，本申请只是以上述为例进行说明，实际应用中并不对此进行限定。

上述特征值可以根据以下公式进行计算，其中，以下公式中涉及的变量或者函数的具体含义如下：

n表示采样点的序号，N表示每一帧的总采样点数，x(n)表示序号为n的采样点对应的采样值，k表示频点索引，K表示频点总数。

均方根的计算公式为：

R M S (t) = \sqrt{\frac{1}{N} Σ_{n - 1}^{N} {(x (n))}^{2}}

式中，RMS(t)表示采集时刻t对应音频帧的均方根。

过零率的计算公式为：

Z C R (t) = \frac{1}{2 N} (Σ_{n - 1}^{N} | sgn (x (n)) - sgn (x (n - 1)) |)

式中，ZCR(t)表示采集时刻t对应音频帧的过零率，函数sgn(x)为分段函数：当x<0时，sgn(x)＝-1，当x<0时，sgn(x)＝0，当x<0时，sgn(x)＝1。

谱中心特征的计算公式为：

S C (t) = \frac{Σ_{k = 0}^{K - 1} k {| X_{t} (t) |}^{2}}{Σ_{k = 0}^{K - 1} k {| X_{i} (t) |}^{2}}

式中，SC(t)表示采集时刻t对应音频帧的谱中心特征，X_t(k)表示对于上述音频帧频点索引k对应的能量值。

谱衰减特征SRP的计算公式为：

SRP＝f(N)

其中，N为满足以下关系式的最大频点：

Σ_{k = 0}^{N} {| X (k) |}^{2} \leq T H . Σ_{k = 0}^{K - 1} {| X (k) |}^{2}

式中，TH为预先设定的关系系数，X(k)表示索引k对应的能量值。

谱流量特征的计算公式为：

{SF}_{t} = Σ_{k = 0}^{K - 1} | | X_{t} (k) | - | X_{t - 1} (k) | |

式中，SF_f表示采集时刻t对应音频帧的普流量特征，X_t(k)表示采集时刻t对应音频帧在频点索引为k时的能量值，X_t-1(k)表示采集时刻t-1对应音频帧在频点索引为k时的能量值。

S102：根据所述目标特征值，将所述目标音频划分为目标语音部分和目标静音部分；

可以理解的，音频中一些音频帧的给人的感觉是没有声音，或者声音很小，这些音频帧可以简单的理解为静音帧，除了静音帧以外的其它音频帧可以理解为是语音帧，例如，包含人说话内容的语音帧、包含音乐内容的语音帧等等。

对于一段音频而言，其中的静音帧构成该音频的静音部分，语音帧构成该音频的语音部分。

在本发明的一种具体实现方式中，可以通过目标特征值与预设阈值比较的方式对目标音频进行划分，具体的，将该目标音频中取值大于预设阈值的目标特征值对应的音频帧确定为该目标音频的目标语音部分，并将该目标音频中其他音频帧确定为该目标音频的目标静音部分。

由前面的描述得知目标特征可以是目标音频的均方根、过零率、短时梅尔倒谱系数、短时delta系数、长时delta系数、谱中心、谱衰减以及谱流量等等，所以，可以通过上述特征中的一种或者几种的取值与预设阈值相比较的方式，将目标音频划分为目标语音部分和目标静音部分。

例如，该目标特征值可以为均方根，取每一音频帧的均方根与预设阈值进行比较，均方根大于阈值，则判定该音频帧为语音，均方根小于或者等于阈值，则判定该音频帧为静音，以此将目标音频分割为目标静音部分和目标语音部分。

S103：将所述目标特征值作为预设高斯模型的输入参数，获得针对所述目标音频的后验概率；

将步骤S101中提取出来的目标特征值输入到预设的高斯模型中，获得目标音频的后验概率。其中，预设的高斯模型可以通过以下方式预先建立：

获得样本音频数据；

根据所述样本音频数据的大小，确定初始高斯模型；

提取所述样本音频数据的样本特征值；

由以上可见，预设高斯模型为根据预先采集的音频数据进行训练得到的模型。本领域内的技术人员可以理解的是，为使得预先构建的上述高斯模型具有较强的泛化能力，开发人员在采集样本音频数据时所采集到的样本音频数据越多越好，种类越多越好。例如，上述样本音频数据中可以包括：大量的纯静音音频、音乐音频(如，柔和的音乐、摇滚音乐等等)、非音乐音频(如，包含大人、小孩说话的音频、包含男孩、女孩说话的音频、包含演讲的音频、包含动物叫声的音频等等)。

本领域内的技术人员可以理解的是，对于高斯模型而言，一旦模型参数确定了，整个高斯模型实际上就算是确定了，所述上述根据样本音频数据的大小，确定初始高斯模型时，可以理解为：根据样本音频数据的大小，设置高斯模型的初始模型参数，进而完成初始化高斯模型。

具体的，上述模型参数以及初始模型参数可以包括：混合权重、高斯函数的均值以及方差等等。

另外需要说明的是，在构建上述预设高斯模型的过程中，提取样本音频数据的样本特征值时，所提取的特征值对应的特征类型需与S101中涉及的目标特征值对应的特征类型一致，也就是需采用相同的特征提取算法进行特征提取。

S104：根据所述后验概率和预设的分类模型对所述目标语音部分进行分割，得到目标音乐部分和非目标音乐部分。

简单的，可以认为有声音或者声音大到一定情况的音频帧即为语音帧，或者从频域角度看，能量值大于一定阈值的音频帧即为语音帧。对于一段音频而言，语音帧即构成该音频的语音部分。

另外，实际生活中语音的内容是多样化的，例如，人说话、音乐、动物叫声、机械声等等，其中，音乐属于特点比较鲜明的语音，因此，在进行音频分割时，可以根据音乐的特点，从音频中分割出音乐，使得音频分割的结果能够更进一步细化。

其中，所述预设的分类模型为：基于多特征融合和上下文关联的分类模型。

具体的，所述分类模型可以为基于隐马尔可夫的多特征融合模型，该模型利用了时域特征、短时及长时频域特征来表达信号的特点，这些特征对于语音中的音乐有很好的区分性，同时通过基于隐马尔可夫的多特征融合模型还可以建模音频状态的上下文关联，因此可以进一步提高音频分割效果。

在本申请的一种较佳实现方式中，在对上述目标语音进行分割时，还可以引入状态延时机制，以得到更佳的音频分割效果。

在本申请的另一种较佳实现方式中，基于隐马尔可夫的多特征融合模型对目标语音部分进行分割时，还可以引入维特比算法进行分割，得到表达分割结果的隐含状态序列。

其中，上述维特比算法属于现有技术，这里不再赘述。

S105：根据所述目标静音部分、所述目标音乐部分和所述非目标音乐部分生成针对所述目标音频的分割结果。

根据步骤S102得到的目标静音部分、步骤S104得到的目标音乐部分和非目标音乐部分，生成对目标音频的分割结果。

可见，本方案通过提取特征值，输入预设高斯模型后，得到后验概率作为预设的基于多特征融合和上下文关联的分类模型的输入参数，对音频进行分割，因此，能够把音频分割为静音部分、音乐部分和非音乐部分。

图2为本发明实施例提供的另一种音频分割方法的流程示意图，包括如下步骤：

S201：根据预设的特征提取算法提取目标音频的目标特征值；

S2021：根据所述目标特征值，将所述目标音频划分为初始语音部分和初始静音部分；

S2022：对所述初始语音部分和所述初始静音部分进行平滑处理，得到所述目标音频的目标语音部分和目标静音部分；

具体的，可以采用hangover算法对初始语音部分和初始静音部分进行平滑处理，当然，平滑处理算法并不仅限于此，实际应用中可以根据具体情况确定。

S203：将所述目标特征值作为预设高斯模型的输入参数，获得针对所述目标音频的后验概率；

S204：根据所述后验概率和预设的分类模型对所述目标语音部分进行分割，得到目标音乐部分和非目标音乐部分，其中，所述预设的分类模型为：基于多特征融合和上下文关联的分类模型；

S205：根据所述目标静音部分、所述目标音乐部分和所述非目标音乐部分生成针对所述目标音频的分割结果。

需要说明的是，上述S201、S203-S205与图1所示实施例中S101、S103-S105分别对应一致，所以这里不再详述。

由以上可见，本实施例中，在将音频划分为语音部分和静音部分时，得到初始语音部分和初始静音部分后，还对上述两者进行了平滑处理，然后根据平滑处理的结果获得目标语音和目标静音，这样可以减少静音和语音分割过程中存在的误差，进而提高最终音频分割的准确率。

图3为本发明实施例提供的一种音频分割装置的结构示意图，与图1所示的流程相对应，包括特征提取模块301、第一划分模块302、后验概率获得模块303、第二划分模块304、结果生成模块305。

其中，特征提取模块301，用于根据预设的特征提取算法提取目标音频的目标特征值。

第一划分模块302，用于根据所述目标特征值，将所述目标音频划分为目标语音部分和目标静音部分。

后验概率获得模块303，用于将所述目标特征值作为预设高斯模型的输入参数，获得针对所述目标音频的后验概率。

第二划分模块304，用于根据所述后验概率和预设的分类模型对所述目标语音部分进行分割，得到目标音乐部分和非目标音乐部分，其中，所述预设的分类模型为：基于多特征融合和上下文关联的分类模型。

结果生成模块305，用于根据所述目标静音部分、所述目标音乐部分和所述非目标音乐部分生成针对所述目标音频的分割结果。

具体的，所述装置还包括：高斯模型建立模块，用于构建所述预设高斯模型；

其中，所述高斯模型建立模块，包括：

样本获得单元，用于获得样本音频数据；

图4为本发明实施例提供的另一种音频分割装置的结构示意图，与图2所示的流程相对应，包括特征提取模块401、初步划分模块4021、平滑处理模块4022、后验概率获得模块403、第二划分模块404、结果生成模块405。

其中，特征提取模块401，用于根据预设的特征提取算法提取目标音频的目标特征值。

初步划分模块4021，用于根据所述目标特征值，将所述目标音频划分为初始语音部分和初始静音部分。

平滑处理模块4022，用于对所述初始语音部分和所述初始静音部分进行平滑处理，得到所述目标音频的目标语音部分和目标静音部分。

后验概率获得模块403，用于将所述目标特征值作为预设高斯模型的输入参数，获得针对所述目标音频的后验概率。

第二划分模块404，用于根据所述后验概率和预设的分类模型对所述目标语音部分进行分割，得到目标音乐部分和非目标音乐部分，其中，所述预设的分类模型为：基于多特征融合和上下文关联的分类模型。

结果生成模块405，用于根据所述目标静音部分、所述目标音乐部分和所述非目标音乐部分生成针对所述目标音频的分割结果。

其中，所述高斯模型建立模块，包括：

样本获得单元，用于获得样本音频数据；

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种音频分割方法，其特征在于，所述方法包括步骤：

根据预设的特征提取算法提取目标音频的目标特征值；

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标特征值，将所述目标音频划分为目标语音部分和目标静音部分，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标特征值，将所述目标音频划分为目标语音部分和目标静音部分，包括：

4.根据权利要求1～3任一项所述的方法，其特征在于，通过以下方式构建所述预设高斯模型：

获得样本音频数据；

根据所述样本音频数据的大小，确定初始高斯模型；

提取所述样本音频数据的样本特征值；

5.根据权利要求1～3任一项所述的方法，其特征在于，所述预设的分类模型具体为：

基于隐马尔科夫的多特征融合模型。

6.一种音频分割装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述第一划分模块，具体用于将所述目标音频中取值大于预设阈值的所述目标特征值对应的音频帧确定为所述目标音频的目标语音部分，并将所述目标音频中其他音频帧确定为所述目标音频的目标静音部分。

8.根据权利要求6所述的装置，其特征在于，所述第一划分模块，包括:

9.根据权利要求6～8任一项所述的装置，其特征在于，所述装置还包括：

高斯模型建立模块，用于构建所述预设高斯模型；

其中，所述高斯模型建立模块，包括：

样本获得单元，用于获得样本音频数据；

10.根据权利要求6～8任一项所述的装置，其特征在于，所述预设的分类模型具体为：

基于隐马尔科夫的多特征融合模型。