CN105913849A

CN105913849A - 一种基于事件检测的说话人分割方法

Info

Publication number: CN105913849A
Application number: CN201610269816.3A
Authority: CN
Inventors: 肖阳; 赵友东; 孟宪权; 徐冠峰; 叶永林; 徐松华; 武志强; 肖泽苹; 谢湘
Original assignee: LUHANG INSTITUTE OF PLA GENERAL STAFF
Current assignee: LUHANG INSTITUTE OF PLA GENERAL STAFF
Priority date: 2015-11-27
Filing date: 2016-04-28
Publication date: 2016-08-31
Anticipated expiration: 2036-04-28
Also published as: CN105913849B

Abstract

本发明涉及一种基于事件检测的说话人分割方法，属于音频信号处理技术领域；该方法包括说话人分割、事件检测、说话人分割结果修正三个步骤：说话人分割步骤对输入音频通过采用现有距离度量法确定说话人跳变点，并依据跳变点分割音频得到不同长度的音频段，即初始说话人分割结果；事件检测步骤基于事件的时域特征检测出输入音频的事件点；说话人分割结果修正步骤基于事件点对初始说话人分割结果进行基于概率统计的修正，从而得到最终的说话人分割结果。对比现有技术，针对对讲语音本发明方法能够充分利用音频中的信息进行说话人分割，在信道变化、噪声大且说话人较多的情况下，比现有说话人分割方法有较大的性能提升。

Description

一种基于事件检测的说话人分割方法

技术领域

本专利涉及一种说话人分割方法，特别涉及一种基于事件检测的说话人分割方法，属于音频信号处理技术领域。

背景技术

随着音频获取途径和数量的快速增加，音频管理变得越来越复杂，近几年说话人分割聚类在国际上逐渐成为热点研究问题，国外许多大学和研究机构都开展了相关研究工作，美国国家标准技术局(National Institute of Standards andTechnology，NIST)在1999年组织的说话人识别评测任务中就增加了两人电话语音的分割聚类项目，2002年NIST提出的富信息转写(Rich Transcription，RT)评测正式开展对说话人分割聚类的研究。

目前主流的说话人分割算法有距离度量法和模型法，距离度量法需根据相邻语音段之间距离，确定两个音段之间是否存在说话人变换点。一个典型的方法是变窗长变换点检测方法，即利用贝叶斯信息判决(Bayesian InformationCriterion，BIC)距离是否超过固定阈值，判断窗内前后两个语音段之间是否存在变换点，如果不存在则增加窗长，直到检测出说话人变换点。模型法常见使用GMM和SVM，计算相邻模型之间的相似度距离，根据经验阈值判别说话人变换点是否存在。从以上分析中能够看出，说话人分割方法没有充分利用音频的其他辅助信息，对于噪声强度比较大且信道一直变化的音频性能比较差。

本专利在原有分割算法的基础上，提出一种事件检测的方法，充分利用音频的其他信息，辅助进行说话人分割，实验证明该方法能够显著的提升说话人分割的性能。

发明内容

本发明的目的是充分利用音频信息来提升说话人分割的性能，提出了一种基于事件检测的方法辅助进行说话人分割，可用于说话人分割的音频分析。

本发明的思想是在现有说话人分割算法进行说话人分割的基础上，通过对音频中的事件检测，使用此额外信息修正分割结果以得到更好的说话人分割性能。

为了达到上述目的，本发明是通过以下技术方案实现的：

一种基于事件检测的说话人分割方法，包括说话人分割、事件检测、说话人分割结果修正三个步骤：说话人分割步骤对输入音频通过采用现有分割方法确定分割音频得到初始说话人分割结果；事件检测步骤基于事件的时域特征检测出输入音频的事件点；说话人分割结果修正步骤基于事件点对初始说话人分割结果进行基于概率统计的修正，从而得到最终的说话人分割结果。

作为优选，所述现有分割方法为基于BIC距离度量准则，使用大小窗的距离度量法。

作为优选，所述大小窗的设置为：大窗为600、窗移为120，小窗为300、窗移为60。

作为优选，所述事件为按键音。

作为优选，所述事件的时域特征为按键音的短时能量、过零率和短时能量比特征，其波形为先上升接着保持然后下降或者上升后马上下降。

作为优选，所述检测出输入音频的事件点采用基于事件的特征构造的滤波器实现。

作为优选，所述检测出输入音频的事件点结果为2组，分别为根据窄幅度范围T1和宽幅度范围T2检测出的事件点结果R1和R2。

作为优选，所述T1为1/4的事件特征幅度平均值到1/2的事件特征幅度平均值；所述T2为1/8的事件特征幅度平均值到8倍的事件特征幅度平均值。

作为优选，所述修正通过以下过程完成：根据R1以及初始说话人分割结果，检查说话人分割结果中音频段中间是否存在事件点，如果存在，则将音频在事件点处分为两个说话人；根据R2以及说话人分割结果，若音频段中未出现按键音，且两段音频的中间间隔不超过预设阈值M，则将该相邻的音频段合并。

作为优选，所述M＝0.5。

有益效果

对比现有技术，针对对讲语音本发明方法能够充分利用音频中的信息进行说话人分割，在信道变化、噪声大且说话人较多的情况下，比现有说话人分割方法有较大的性能提升。

附图说明

图1为本发明实施例一种基于事件检测的说话人分割方法流程示意图；

图2为本发明实施例中音频(Speech)、短时能量(Energy)、过零率(ZCR)、短时能量比(Energy-Ratio)和从音频中检测出的按键音(Key)的波形示意图；

图3为本发明实施例中将图2放大后的按键音位置(Speech)、短时能量(Energy)、过零率(ZCR)和短时能量比(Energy-Ratio)的波形示意图。

图4为本发明实施例中，得到初步说话人分割结果和按键音位置后，进行说话人分割修正的流程示意图。

具体实施方式

下面结合附图对本发明方法的实施方式作详细说明。

下面以直升机实际作业时录制的话音数据作为实验数据对本发明方法的实施过程进行说明。该话音数据的采样率为16KHZ，精度为16bit，共包括15个小时语音，包含飞机启动到关机的所有过程，随着飞行状态的变化，话音信道、背景噪声变化较大。记录中出现的人数在120左右，跳变点个数为18000个，按键音9000个。

下面对于音频提取特征和按键音检测的所有过程，均采用每帧去20ms，帧移为10ms进行处理。

对以上输入音频数据，如图1所示，采用本发明方法进行说话人分割的步骤如下：

步骤1：说话人分割；

本步骤可以采用任何现有说话人分割方法确定说话人跳变点，本实施例以距离度量法为例进行本步骤的说话人分割，具体是采用基于BIC距离度量准则，使用大小窗的方法，即：首先使用较大窗和窗移检测出可能存在的跳变点，计算每段相似度的值，对于可能存在的跳变点区间，再使用小窗进一步精确检测，不存在则将大窗往右移动，直到将所有音频分割完成；分割完成后进行验证，最终通过计算相邻音频的距离大小来决定是否保留分割点。

为了能够快速实现上述说话人分割，亦可直接采用现有工具实现，如通过以下过程采用现有工具完成：

1.1对输入音频使用spro工具提取39维MFCC参数，高通滤波器设置为0.98得到音频特征，并将特征归一化；

1.2使用audioseg工具(https：//gforge.inria.fr/frs/？group_id＝533)进行VAD(voice activity detection)处理，输出存在语音的部分；将存在语音的部分进行说话人分割，经过实验测试，大窗设置为600、窗移设为120，小窗设置为300、窗移设置为60，说话人分割性能达到最佳，此时得到初步的说话人分割结果。

步骤2：事件检测；

事件检测根据事件的时域特征进行检测，即通过对本实施例使用的直升机作业话音中挖掘辅助说话人分割的相关信息。

通过对地面控制中心和驾驶员说话的语音分析发现，当地面与直升机对话时，任何一方话音结束时都会关闭频道，从而在语音中就会出现一个按键音，因此，本实施例将按键音作为事件，通过分析音频中按键音的波形，可以得到按键音的短时能量、过零率和短时能量比特征，因此，本实施例中就将这三个特征作为该按键音事件的时域特征。其详细波形如图2所示，图2中波形从上到下分别为音频(横轴是时间、纵轴是归一化之后的幅度)、短时能量(横轴是帧数、纵轴是归一化后一帧的能量)、过零率(横轴是帧数，纵轴是归一化后一帧内的过零个数)、短时能量比(横轴是帧数，纵轴是归一化后该帧与前一帧的短时能量比)，图3从上到下依次是按键音位置放大后音频、短时能量、过零率和短时能量比的波形。从图中能够看出，按键音所在位置的短时能量、过零率和短时能量比是先上升接着保持然后下降或者上升后马上下降的过程，而其他非按键音位置不会同时有这样的特性；因此可以按照这种特征构造出滤波器，即满足先上升接着保持然后下降或者上升后马上下降可能是按键音的位置，接着统计短时能量、过零率和短时能量比的幅度，根据设定幅度范围能够更准确的确定该位置是否为按键音位置。此处幅度范围的具体设定可以通过试验根据准确率和召回率获得。在本实施例中，将三个特征幅度范围设定为1/4的平均值到1/2的平均值，得到一组按键音检出结果，记为R1，对应高准确率；将三个特征的幅度范围设定为1/8平均值到8倍平均值，此时得到另外一组按键音检出结果，记为R2，对应高召回率。

步骤3：说话人分割结果修正；

通过对步骤1得到的初始说话人分割结果进行分析发现，主要有两种分割错误：(1)地面控制中心和驾驶员说话中间由于间隔小且存在噪声干扰，分割算法未将两个说话人分开；(2)地面控制中心或驾驶员说话中间有停顿或者换气，分割算法将相同的人分割成两个。

由于对讲双方具有任一一方说完话都会关闭通信，因而在音频中会出现一个按键音的特点，由此上面两种错误能够利用按键音的位置进行修正。具体修正方式如下：对于错误(1)，检查说话人分割结果的音频段中间是否存在按键音，在按键音的准确率非常高的基础上，如果存在按键音，则将音频分为两个说话人。对于错误(2)，分割算法的分割结果，在按键音的召回率非常高的基础上，若音频段中未出现按键音，且两段音频的中间间隔不超过一定范围M，则将该相邻的音频段进行合并。

基于以上分析，如图5所示，本步骤通过以下过程完成修正：根据R1和步骤1说话人分割结果，检查说话人分割结果中音频段中间是否存在按键音，如果存在按键音，则将音频分为两个说话人；根据R2以及说话人分割结果，若音频段中未出现按键音，且两段音频的中间间隔不超过预设阈值M，则将该相邻的音频段合并，得到最终的说话人分割结果。作为优选，本实施例设置M＝0.5。

由以上具体实施例的实施过程可知，基于不同的音频来源需要分析其中存在的相关辅助信息，并根据辅助信息的特征对已有的分割结果进行修正，从而可以获得更好的说话人分割结果。对于不同类型的音频来源其辅助信息必然不同，根据上述过程，本领域技术人员不难根据本发明方法的思想挖掘其辅助信息，因此，此处无需给出更多的实施例进行说明。

试验结果

在实验中，对以上语音数据分割结果显示，步骤1产生的结果综合性能F值是65.47％，在按键音识别的辅助下，步骤3的综合性能F值提升到77.18％，性能提升了11.71％。因此对于直升机话音，按键音检测能在很大程度上修正说话人分割的结果，带来较大的性能提升。

为了说明本专利的内容及实施方法，本说明书给出了具体实施过程。在实施例中引入细节的目的不是限制权利要求书的范围，而是帮助理解本专利所述方法。本领域的技术人员应理解：在不脱离本专利及其所附权利要求的精神和范围内，对最佳实施例步骤的各种修改、变化或替换都是可能的。因此，本发明不应局限于最佳实施例及附图所公开的内容。

Claims

1.一种基于事件检测的说话人分割方法，其特征在于：，包括说话人分割、事件检测、说话人分割结果修正三个步骤：说话人分割步骤对输入音频通过采用现有分割方法确定分割音频得到初始说话人分割结果；事件检测步骤基于事件的时域特征检测出输入音频的事件点；说话人分割结果修正步骤基于事件点对初始说话人分割结果进行修正得到最终的说话人分割结果。

2.根据权利要求1所述的一种基于事件检测的说话人分割方法，其特征在于：所述现有分割方法为基于BIC距离度量准则，使用大小窗的距离度量法。

3.根据权利要求2所述的一种基于事件检测的说话人分割方法，其特征在于：所述大小窗的设置为：大窗为600、窗移为120，小窗为300、窗移为60。

4.根据权利要求1所述的一种基于事件检测的说话人分割方法，其特征在于：所述事件为按键音。

5.根据权利要求4所述的一种基于事件检测的说话人分割方法，其特征在于：所述事件的时域特征为按键音的短时能量、过零率和短时能量比特征，其波形为先上升接着保持然后下降或者上升后马上下降。

6.根据权利要求1任一所述的基于事件检测的说话人分割方法，其特征在于：所述检测出输入音频的事件点采用基于事件的特征构造的滤波器实现。

7.根据权利要求1-6任一所述的一种基于事件检测的说话人分割方法，其特征在于：所述检测出输入音频的事件点结果为2组，分别为根据窄幅度范围T1和宽幅度范围T2检测出的事件点结果R1和R2。

8.根据权利要求7所述的一种基于事件检测的说话人分割方法，其特征在于：所述T1为1/4的事件特征幅度平均值到1/2的事件特征幅度平均值；所述T2为1/8的事件特征幅度平均值到8倍的事件特征幅度平均值。

9.根据权利要求7所述的一种基于事件检测的说话人分割方法，其特征在于：所述修正通过以下过程完成：根据R1以及初始说话人分割结果，检查说话人分割结果中音频段中间是否存在事件点，如果存在，则将音频在事件点处分为两个说话人；根据R2以及说话人分割结果，若音频段中未出现按键音，且两段音频的中间间隔不超过预设阈值M，则将该相邻的音频段合并。

10.根据权利要求9所述的一种基于事件检测的说话人分割方法，其特征在于：所述M＝0.5。