CN107967912A

CN107967912A - 一种人声分割方法及装置

Info

Publication number: CN107967912A
Application number: CN201711215764.2A
Authority: CN
Inventors: 郑渊中
Original assignee: Speakin Technologies Co ltd
Current assignee: Speakin Technologies Co ltd
Priority date: 2017-11-28
Filing date: 2017-11-28
Publication date: 2018-04-27
Anticipated expiration: 2037-11-28
Also published as: CN107967912B

Abstract

本发明实施例提供了一种人声分割方法及装置，包括：对音频数据进行特征向量的提取；对音频数据进行语音激活监测，将静音片段和语音片段分别进行标注；根据标注提取语音片段，将语音片段按照预置时间长度进行分割，将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签；将不同聚类标签对应的语音片段分别按照时间顺序进行排列，并输出排列和合并后的不同聚类标签的语音片段。本发明中采用概率分布聚类方法进行聚类操作，无需对语音片段进行建模，可以对语音的特征向量快速聚类；加入了语音激活监测，只对语音片段进行处理，提高了工作效率，解决了传统人声分割系统效率低，耗费时间长的技术问题。

Description

一种人声分割方法及装置

技术领域

本发明涉及音频领域，尤其涉及一种人声分割方法及装置。

背景技术

传统的基于文本的音频检索采用人工标注的方式，不但成本昂贵，而且效率低，而基于语音识别的检索技术虽然在效率上有所提升，但是却丢失了同样重要的说话人信息，因此，需要通过人声分割系统进行弥补。

人声分割是指在无先验知识的条件下，即在说话人数量和身份都未知的情况下，自动找到一段多个说话人语音的说话人改变点，并对这些语音段进行分类标注，使相同的说话人数据被标注为同一类。

目前的人声分割系统先寻找连续语音中的说话人改变点，将长语音分割成若干段短语音，之后对每段短语音提取特征，再运用常用层次聚类方法来对说话人进行聚类。它通过不断的分裂或合并来分割大类或者合并小类，直到满足一定的停止聚类准则。

但是这种人声分割系统的效率较低，需要对每段语音片段进行建模，建模过程需要的时间较长。因此，导致了传统人声分割系统效率低，耗费时间长的技术问题。

发明内容

本发明提供了一种人声分割方法及装置，解决了传统人声分割系统效率低，耗费时间长的技术问题。

本发明提供了一种人声分割方法，其特征在于，包括：

S1：对音频数据进行特征向量的提取；

S2：对音频数据进行语音激活监测，将静音片段和语音片段分别进行标注；

S3：根据标注提取语音片段，将语音片段按照预置时间长度进行分割，将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签；

S4：将不同聚类标签对应的语音片段分别按照时间顺序进行排列和合并，并输出排列和合并后的不同聚类标签的语音片段。

优选地，步骤S2具体包括：

S201：根据标注提取语音片段，将语音片段按照预置时间长度进行分割；

S202：以任意两个分割后的语音片段为一种组合方式，计算所有组合方式中的两个分割后的语音片段进行合并后的信息丢失函数的求解值，判断最小的求解值是否超过预置阈值，若是，则执行步骤S204，若否，则执行步骤S203；

S203：将求解值最小的两个语音片段进行合并，并返回步骤S202；

S204：停止聚类并根据聚类结果进行排列和合并，分别输出对应的聚类标签。

优选地，步骤S1之前还包括：

S0：获取wav文件格式中的音频数据。

本发明提供了一种人声分割装置，其特征在于，包括：

特征提取模块，用于对音频数据进行特征向量的提取；

语音激活模块，用于对音频数据进行语音激活监测，将静音片段和语音片段分别进行标注；

聚类模块，用于根据标注提取语音片段，将语音片段按照预置时间长度进行分割，将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签；

排列输出模块，用于将不同聚类标签对应的语音片段分别按照时间顺序进行排列和合并，并输出排列和合并后的不同聚类标签的语音片段。

优选地，聚类模块具体包括：

分割子模块，用于根据标注提取语音片段，将语音片段按照预置时间长度进行分割；

丢失计算子模块，用于以任意两个分割后的语音片段为一种组合方式，计算所有组合方式中的两个分割后的语音片段进行合并后的信息丢失函数的求解值，判断最小的求解值是否超过预置阈值，若是，则触发聚类输出子模块，若否，则触发合并子模块；

合并子模块，用于将求解值最小的两个语音片段进行合并，并触发丢失计算子模块；

聚类输出子模块，用于停止聚类并根据聚类结果进行排列和合并，分别输出对应的聚类标签。

优选地，还包括：

读取模块，用于获取wav文件格式中的音频数据。

从以上技术方案可以看出，本发明具有以下优点：

本发明提供了一种人声分割方法，其特征在于，包括：S1：对音频数据进行特征向量的提取；S2：对音频数据进行语音激活监测，将静音片段和语音片段分别进行标注；S3：根据标注提取语音片段，将语音片段按照预置时间长度进行分割，将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签；S4：将不同聚类标签对应的语音片段分别按照时间顺序进行排列和合并，并输出排列和合并后的不同聚类标签的语音片段。

本发明中采用概率分布聚类方法对语音片段进行聚类操作，无需像传统的人声分割系统对语音片段进行建模，可以对语音的特征向量快速处理，实现快速聚类；并且加入了语音激活监测，区分静音片段和语音片段，只对语音片段进行处理，进一步减少了人声分割的工作量，提高了工作效率，解决了传统人声分割系统效率低，耗费时间长的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种人声分割方法的一个实施例的流程示意图；

图2为本发明实施例提供的一种人声分割方法的另一个实施例的流程示意图；

图3为本发明实施例提供的一种人声分割装置的一个实施例的流程示意图；

图4为本发明实施例提供的一种人声分割装置的另一个实施例的流程示意图。

具体实施方式

本发明实施例提供了一种人声分割方法及装置，解决了传统人声分割系统效率低，耗费时间长的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明提供了一种人声分割方法的一个实施例，包括：

步骤101：对音频数据进行特征向量的提取；

步骤102：对音频数据进行语音激活监测，将静音片段和语音片段分别进行标注；

需要说明的是，PCM数据进行特征向量的提取和语音激活监测后存入内存，转而释放PCM数据内存块；

通过语音激活检测可以将静音片段过滤，减小人声分割的工作量。

步骤103：根据标注提取语音片段，将语音片段按照预置时间长度进行分割，将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签；

需要说明的是，概率分布聚类方法从率失真理论的基础上发展而来，采用联合概率分布表示数据，以互信息作为度量手段，刻画样本和样本属性的相关性，并不需要对样本之间的距离函数做任何假设。

步骤104：将不同聚类标签对应的语音片段分别按照时间顺序进行排列和合并，并输出排列和合并后的不同聚类标签的语音片段。

需要说明的是，例如最后剩下三个标签，但是三个标签中的语音片段都是杂乱的，需要对各个标签中的语音片段按照时间顺序进行排列梳理，然后再分别输出。

本发明中采用概率分布聚类方法对语音片段进行聚类操作，无需像传统的人声分割系统对语音片段进行建模，可以对短语音的特征向量快速处理，实现快速聚类；并且加入了语音激活监测，区分静音片段和语音片段，只对语音片段进行处理，进一步减少了人声分割的工作量，提高了工作效率，解决了传统人声分割系统效率低，耗费时间长的技术问题。

以上为本发明提供的一种人声分割方法的一个实施例，以下为本发明提供的一种人声分割方法的另一个实施例。

请参阅图2，本发明提供了一种人声分割方法的另一个实施例，包括：

步骤201：获取wav文件格式中的音频数据；

需要说明的是，读取wav格式的音频数据(即PCM数据)，将PCM数据导入内存，进行后续的步骤。

步骤202：对音频数据进行特征向量的提取；

步骤203：对音频数据进行语音激活监测，将静音片段和语音片段分别进行标注；

需要说明的是，例如三个人对话，则将人声的部分作为语音片段，非人声的部分作为静音片段。

步骤204：根据标注提取语音片段，将语音片段按照预置时间长度进行分割；

需要说明的是，例如将语音片段以250ms为单位进行分割。

步骤205：以任意两个分割后的语音片段为一种组合方式，计算所有组合方式中的两个分割后的语音片段进行合并后的信息丢失函数的求解值，判断最小的求解值是否超过预置阈值，若是，则执行步骤207，若否，则执行步骤206；

需要说明的是，步骤205需要将所有的分割后的语音片段以两两为一组进行组合，例如：存在A、B、C三个片段，则有AB、AC和BC三种两两为一组的组合方式；

并且计算每一种组合方式中的两个分割后的语音片段进行合并后的信息丢失函数的求解值；

此步骤是为了衡量当合并两个语音片段时语音片段信息的损失程度，判断是否仍有可合并的两个语音片段。

步骤206：将求解值最小的两个语音片段进行合并，并返回步骤205；

需要说明的是，如果任意两个语音片段的信息丢失函数都不超过预置阈值，则将信息丢失函数最小，即相性最高的两个语音片段进行融合，并返回步骤205。

步骤207：停止聚类并根据聚类结果进行排列和合并，分别输出对应的聚类标签；

需要说明的是，若存在任意两个语音片段的信息丢失函数超过预置阈值，则停止聚类操作，例如最后剩下三个合并后的语音片段，则输出三个聚类标签。

步骤208：将不同聚类标签对应的语音片段分别按照时间顺序进行排列和合并，并输出排列和合并后的不同聚类标签的语音片段。

需要说明的是，本发明中采用概率分布聚类方法对语音片段进行聚类操作，无需像传统的人声分割系统对语音片段进行建模，可以对短语音的特征向量快速处理，实现快速聚类；并且加入了语音激活监测，区分静音片段和语音片段，只对语音片段进行处理，进一步减少了人声分割的工作量，提高了工作效率，解决了传统人声分割系统效率低，耗费时间长的技术问题。

以上为本发明提供的一种人声分割方法的另一个实施例，以下为本发明提供的一种人声分割装置的一个实施例。

请参阅图3，本发明提供了一种人声分割装置的一个实施例，包括：

特征提取模块301，用于对音频数据进行特征向量的提取；

语音激活模块302，用于对音频数据进行语音激活监测，将静音片段和语音片段分别进行标注；

聚类模块303，用于根据标注提取语音片段，将语音片段按照预置时间长度进行分割，将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签；

排列输出模块304，用于将不同聚类标签对应的语音片段分别按照时间顺序进行排列和合并，并输出排列和合并后的不同聚类标签的语音片段。

以上为本发明实施例提供的一种人声分割装置的一个实施例，以下为本发明实施例提供的一种人声分割装置的另一个实施例。

请参阅图4，本发明是实力提供了一种人声分割装置的另一个实施例，包括：

特征提取模块402，用于对音频数据进行特征向量的提取；

语音激活模块403，用于对音频数据进行语音激活监测，将静音片段和语音片段分别进行标注；

聚类模块404，用于根据标注提取语音片段，将语音片段按照预置时间长度进行分割，将各个分割后的语音片段中的特征向量通过概率分布聚类方法进行聚类操作并分别输出对应的聚类标签；

排列输出模块405，用于将不同聚类标签对应的语音片段分别按照时间顺序进行排列和合并，并输出排列和合并后的不同聚类标签的语音片段。

进一步地，聚类模块404具体包括：

分割子模块4041，用于根据标注提取语音片段，将语音片段按照预置时间长度进行分割；

丢失计算子模块4042，用于以任意两个分割后的语音片段为一种组合方式，计算所有组合方式中的两个分割后的语音片段进行合并后的信息丢失函数的求解值，判断最小的求解值是否超过预置阈值，若是，则触发聚类输出子模块4044，若否，则触发合并子模块4043；

合并子模块4043，用于将求解值最小的两个语音片段进行合并，并触发丢失计算子模块4042；

聚类输出子模块4044，用于停止聚类并根据聚类结果进行排列和合并，分别输出对应的聚类标签。

进一步地，还包括：

读取模块401，用于获取wav文件格式中的音频数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种人声分割方法，其特征在于，包括：

S1：对音频数据进行特征向量的提取；

2.根据权利要求1所述的一种人声分割方法，其特征在于，步骤S2具体包括：

3.根据权利要求1所述的一种人声分割方法，其特征在于，步骤S1之前还包括：

S0：获取wav文件格式中的音频数据。

4.一种人声分割装置，其特征在于，包括：

特征提取模块，用于对音频数据进行特征向量的提取；

5.根据权利要求1所述的一种人声分割装置，其特征在于，聚类模块具体包括：

6.根据权利要求1所述的一种人声分割装置，其特征在于，还包括：

读取模块，用于获取wav文件格式中的音频数据。