CN107134277A

CN107134277A - 一种基于gmm模型的语音激活检测方法

Info

Publication number: CN107134277A
Application number: CN201710453487.2A
Authority: CN
Inventors: 羊开云; 高可攀; 韩翀蛟; 徐晓峰; 李夏宾
Original assignee: GRANDSTREAM NETWORKS Inc; SHENZHEN GRANDSTREAM NETWORKS TECHNOLOGY Co Ltd
Current assignee: GRANDSTREAM NETWORKS Inc; SHENZHEN GRANDSTREAM NETWORKS TECHNOLOGY Co Ltd
Priority date: 2017-06-15
Filing date: 2017-06-15
Publication date: 2017-09-05

Abstract

本发明主要披露了一种基于GMM模型的语音激活检测方法，包括以下操作：数据训练：建立训练样本库和用EM核心算法分别训练语音信号GMM模型、噪声信号GMM模型；数据测试：对实时通话进行检测，包括：分帧处理、特征提取、概率计算；数据判断：根据语音信号概率及噪声信号概率判断测试帧信号为语音信号还是噪声信号。本发明先用噪声信号及语音信号预先训练GMM模型参数，再对实时通话信号进行检测判别其为噪声信号还是语音信号。具体为对提取的信号特征，根据预先训练的GMM模型参数分别计算其为噪声的概率以及其为语音的概率，其计算复杂度低，计算实时性强。

Description

一种基于GMM模型的语音激活检测方法

技术领域

本发明属于音频处理技术领域，尤其涉及VoIP通讯过程的音频处理技术。

背景技术

随着VoIP及视频会议技术的不断发展创新，VoIP、视频会议已成为公司日常工作沟通和交流的重要手段，因此长时间的视频会议，语音会议司空见惯。在会议间隙不免可能会有长时间的资料整理，录入，调试等工作，这段时间没有人说话，但是由于与会者离VoIP终端较近，会导致对端听到键盘敲击声，纸张翻阅，或者其他的的较大的噪声，对对端造成干扰。为了避免上述尴尬的发生，本发明提出一种语音激活检测方法，其对语音通话中特定噪声检测并做相应处理，当有人重新说话时，则开启正常通话模式。

现有的语音激活检测方法，大多只能区别比较小的背景噪音与语音，对于键盘敲击等特定的较大的噪声，则无法判别。本发明提出基于对语音信号和特定噪声分别用GMM（Gaussian Mixture Model,高斯混合模型）训练模型并用于检测区别语音信号与特定噪声的语音激活检测方法。

发明内容

本发明的目的在于提供一种基于GMM模型的语音激活检测方法, 为了实现在VoIP通话过程中在无人说话时对特定的噪声信号进行噪声处理，以减少通话间隙长时间无人说话时，一些噪声对对端与会者造成干扰。

为了实现上述发明目的，本发明一种基于GMM模型的语音激活检测方法，主要包括以下操作：数据训练：建立训练样本库和用EM核心算法分别训练语音信号GMM模型、噪声信号GMM模型；数据测试：对实时通话进行检测，包括：分帧处理、特征提取、概率计算；数据判断：根据语音信号概率及噪声信号概率判断测试帧信号为语音信号还是噪声信号。

优选的，该数据训练进一步包括：步骤1-a：收集语音信号样本集和噪声信号样本集，对语音信号样本集和噪声信号样本集中的音频文件分别进行分帧，语音帧信号集记为，噪声帧信号集记为；步骤1-b：提取用于GMM训练的特征集，即对语音帧信号集提取的语音特征集记为，对噪声帧信号集提取的噪声特征集记为；步骤1-c：对语音特征集、噪声特征集进行GMM训练，分别得到：语音模型GMM参数集、噪声模型GMM参数集。

优选的，该数据测试包括：步骤2-a：对测试信号分帧处理；步骤2-b：对测试信号提取用于GMM测试的特征集，记为测试特征集；步骤2-c：分别计算语音信号概率和噪声信号概率。

优选的，语音信号概率是根据测试特征集和语音模型GMM参数集计算所得；噪声信号概率是根据测试特征集和噪声模型GMM参数集计算所得。

优选的，语音帧信号集包含10ms长度的帧语音信号；噪声帧信号集包含10ms长度的帧噪声信号，为语音信号帧总数以及噪声信号帧总数。

优选的，语音特征集包括所有语音帧信号提取的特征集集合，是对中的每一帧语音信号提取基音频率特征和时域特征；噪声特征集包括所有噪声帧信号提取的特征集集合，是对中的每一帧噪声信号提取基音频率特征和时域特征。

优选的，数据训练还包括：提取训练特征操作，记为第帧语音信号，其为时域采样点的集合，记为，其中为10ms一帧信号包含的时域采样点总数，由基音频率、过零率、短时能量、归一化自相关系数、第一语音线性预测系数这五个特征组成，即，其中，由现有的基音检测技术，即对自相关系数求峰值得到，为第一个LPC（线性预测编码）系数，LPC为现有的较为成熟的语音线性预测编码技术，其他三个特征的计算公式分别如下：，其中为符号函数，即；；。

优选的，对整理为GMM模型训练算法的输入矩阵形式，即，每一行对应每一帧语音信号的特征集，并对用GMM训练器训练语音信号模型参数；对整理为GMM模型训练算法的输入矩阵形式，即，每一行对应每一帧噪声信号的特征集，并对用GMM训练器训练噪声信号模型参数。

优选的，数据测试包括：步骤2-a：对测试信号提取基音频率特征和时域特征，由基音频率、过零率、短时能量、归一化自相关系数、第一语音线性预测系数这五个特征组成，记为，；步骤2-b：用多维高斯概率密度计算公式，根据及训练部分的，计算测试帧信号为语音信号的概率，根据及训练部分的计算测试帧信号为噪声信号的概率，其计算公式如下：，。

优选的，数据判断包括：根据及判别所述测试帧信号为语音信号还是噪声信号，若则判别为语音信号，否则判别为噪声信号；对判别为语音信号的帧信号保持正常通话模式，对判别为噪声信号的帧信号则进行相应处理。

本发明提供的方案在会议通话过程中，有效监测通话信号为噪声信号还是语音信号,从而对无效噪声信号进行相应处理。

本发明提供的技术方案对特定噪声信号进行采集，提取特征集，并用GMM训练特定噪声模型参数集，从而用于对实时信号计算其为噪声信号的概率，对特定噪声信号的训练，能够有针对性的处理目标噪声信号，如敲击声，脚步声等。

本发明提供的技术方案对语音信号提取特征集，并用GMM训练语音模型参数集，用于对实时信号计算其为语音信号的概率，从而保证在无人说话的消噪状态到有人说话时恢复正常通话状态的准确切换。

本发明先用噪声信号及语音信号预先训练GMM模型参数，再对实时通话信号进行检测判别其为噪声信号还是语音信号时对提取的信号特征，根据预先训练的GMM模型参数分别计算其为噪声的概率还是语音的概率，计算复杂度低，保证实时性。

附图说明

图1为本发明具体实施例中GMM模型参数训练框图。

图2为本发明具体实施例中测试帧信号测试框图。

具体实施方式

发明的基本原理：本发明采用GMM对特定噪声和语音分别训练模型参数，用于实时检测VoIP通话信号为特定噪声信号还是语音信号,如果为噪声信号则做相应处理，为语音信号则为正常通话状态。用于GMM训练和检测的语音信号的特征集为语音基音频率特征与时域特征的结合。

为了更清楚地说明本发明实例的技术方案，下面将结合示例图对本发明的具体实施例进行详细的介绍，下面的描述仅仅是本发明的一些实施例。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些实施例获得本发明的其他实施方式。

本发明实施例提供了一种对VoIP终端采集信号判断其为噪声还是语音信号并做相应处理，从而实现在无人说话时，针对性的处理会议室如敲击声，键盘声，脚步声等噪声，避免与会者在对端无人说话时，受其噪声干扰。

本发明实施例提供的基于GMM对特定噪声训练模型的语音激活检测方法分为训练部分和检测部分。训练部分对特定噪声信号训练GMM噪声模型参数集，对语音信号训练GMM语音模型参数集。

图1为本发明具体实施例中GMM模型参数训练框图。如图1所示，本发明的训练部分主要内容包括：

步骤S110：收集语音信号样本集，应尽量包含多种语音，多个说话人，多样化内容；收集噪声信号样本集，应包含需要检测的会议室特定噪声如敲击声，文件翻阅声，脚步声等。

步骤S120：对语音信号样本集和噪声信号样本集中的音频文件分别进行分帧，每一帧帧长固定，对语音帧信号记为，对噪声帧信号记为。

步骤S130：对语音帧信号提取用于GMM训练的特征集，记为，对噪声帧信号提取用于GMM训练的特征集，记为。

其中，和为语音特征的集合，包括基音频率特征，时域特征。

步骤S140：对用GMM训练，得到语音模型GMM参数集，对用GMM训练，得到噪声模型GMM参数集。

图2为本发明具体实施例中测试帧信号测试框图。由该图所示，本发明的测试部分主要内容包括：

步骤S210：对测试信号分帧处理，该测试帧信号记为。

步骤S220：对提取用于GMM测试的特征集，记为。

其中，包含的语音特征的集合与训练部分步骤S130中的，包含的特征集合一致，即基音频率特征，时域特征。

步骤S230：根据及训练部分的计算测试帧信号为语音信号的概率，根据及训练部分的计算测试帧信号为噪声信号的概率。

步骤S240：根据及判别测试帧信号为语音信号还是噪声信号。

步骤S250：根据步骤S240判决结果，对判别为语音信号的帧信号保持正常通话模式，对判别为噪声信号的帧信号则进行噪声处理模式。

此时，训练过程具体实施方案如下所述：

首先是对于训练部分，主要包括建立训练样本库和用EM核心算法分别训练语音信号GMM模型、噪声信号GMM模型。

步骤S310：收集语音信号样本库。通过网络下载及自己录制获得一定数量的语音信号音频文件，将这些文件用音频编辑软件进行整理，获得语音样本集，其中包含的语音文件为，采样率，大小均相同。收集噪声音频文件，建立噪声信号样本集，其中包含的噪声文件为，主要来源为网络下载的部分噪声音频文件以及自己录制会议室容易产生的噪声，如键盘敲击声，脚步声，纸张翻阅声等噪声音频文件。其中，为样本库中包含的音频文件总数，即语音信号样本库包含个文件大小相同，采样率相同的语音音频文件，噪声信号样本库包含个与语音信号样本库中语音文件大小相同，采样率相同的噪声音频文件。

步骤S320：对语音信号样本集中的所有语音文件以10ms时间长度为一帧进行分帧，得到语音帧信号集，包含的都是10ms长度的帧语音信号。对噪声信号样本集中的所有噪声信号文件以10ms时间长度为一帧进行分帧，得到噪声帧信号集，包含的都是10ms长度的帧噪声信号。其中，为语音信号帧总数以及噪声信号帧总数。

步骤S330：对中的每一帧语音信号提取基音频率特征和时域特征，组成用于GMM训练的语音特征集，记所有语音帧信号提取的特征集集合为。对中的每一帧噪声信号提取基音频率特征和时域特征，组成用于GMM训练的噪声特征集，记所有噪声帧信号提取的特征集集合为。

3-a记为第帧语音信号，其为时域采样点的集合，记为，其中为10ms一帧信号包含的时域采样点总数。由基音频率，过零率，短时能量，归一化自相关系数，第一语音线性预测系数这五个特征组成。即，。由现有的基音检测技术，即对自相关系数求峰值得到。为第一个LPC（线性预测编码）系数，LPC为现有的较为成熟的语音线性预测编码技术。其他三个特征的计算公式如下：

，其中为符号函数，即；

。

3-b对语音帧信号中的每一帧信号，均按照3-a中的步骤提取特征集，从而获得语音信号特征集集合。同样，按照3-a中的各特征计算方法和公式，对噪声信号中的每一帧信号，计算噪声信号特征集集合。

步骤S340 对信号特征集集合用EM为核心算法的GMM模型训练，得到语音信号GMM模型参数集，对噪声特征集集合用EM为核心算法的GMM模型训练，得到噪声信号GMM模型参数集：

4-a. 对整理为GMM模型训练算法的输入矩阵形式，即，即每一行对应每一帧语音信号的特征集；

4-b.对用GMM训练器训练语音信号模型参数；

4-c.对整理为GMM模型训练算法的输入矩阵形式，即

，每一行对应每一帧噪声信号的特征集；

4-d.对用GMM训练器训练噪声信号模型参数。

步骤4-c,4-d中，为高斯混合模型数。

本发明的测试部分主要为：

步骤S410：以10ms为一帧长对测试信号时域采样点进行读取，得到测试帧信号，记为。

步骤S420：对提取基音频率特征和时域特征，由基音频率，过零率，短时能量，归一化自相关系数，第一语音线性预测系数这五个特征组成，记为，。测试帧信号特征提取方法与训练部分步骤3中的提取训练特征的提取方法一致。

步骤S430：用多维高斯概率密度计算公式，根据及训练部分的，计算测试帧信号为语音信号的概率，根据及训练部分的计算测试帧信号为噪声信号的概率。计算公式如下：

。

步骤S440：根据及判别测试帧信号为语音信号还是噪声信号，若则判别为语音信号，否则判别为噪声信号。

步骤S450：根据步骤S440判决结果，对判别为语音信号的帧信号保持正常通话模式，对判别为噪声信号的帧信号则进行相应处理。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于GMM模型的语音激活检测方法，其特征在于，所述方法包括以下操作：

数据训练：建立训练样本库和用EM核心算法分别训练语音信号GMM模型、噪声信号GMM模型；

数据测试：对实时通话进行检测，包括：分帧处理、特征提取、概率计算；

数据判断：根据所述语音信号概率及所述噪声信号概率判断测试帧信号为语音信号还是噪声信号。

2.根据权利要求1所述的语音激活检测方法，其特征在于，所述数据训练进一步包括：步骤1-a：收集语音信号样本集和噪声信号样本集，对所述语音信号样本集和所述噪声信号样本集中的音频文件分别进行分帧，语音帧信号集记为，噪声帧信号集记为；

步骤1-b：提取用于GMM训练的特征集，即对所述语音帧信号集提取的语音特征集记为，对所述噪声帧信号集提取的噪声特征集记为；

步骤1-c：对所述语音特征集、所述噪声特征集进行GMM训练，分别得到：语音模型GMM参数集、噪声模型GMM参数集。

3.根据权利要求2所述的语音激活检测方法，其特征在于，所述数据测试包括：步骤2-a：对测试信号分帧处理；步骤2-b：对所述测试信号提取用于GMM测试的特征集，记为测试特征集；步骤2-c：分别计算所述语音信号概率和所述噪声信号概率。

4.根据权利要求3所述的语音激活检测方法，其特征在于，所述语音信号的概率是根据所述测试特征集和所述语音模型GMM参数集计算所得；所述噪声信号概率是根据所述测试特征集和所述噪声模型GMM参数集计算所得。

5.根据权利要求4所述的语音激活检测方法，其特征在于，所述语音帧信号集包含10ms长度的帧语音信号；所述噪声帧信号集包含10ms长度的帧噪声信号，为语音信号帧总数以及噪声信号帧总数。

6.根据权利要求5所述的语音激活检测方法，其特征在于，所述语音特征集包括所有语音帧信号提取的特征集集合，是对中的每一帧语音信号提取基音频率特征和时域特征；所述噪声特征集包括所有噪声帧信号提取的特征集集合，是对中的每一帧噪声信号提取基音频率特征和时域特征。

7.根据权利要求6所述的语音激活检测方法，其特征在于，所述数据训练还包括：提取训练特征操作，记为第帧语音信号，其为时域采样点的集合，记为，其中为10ms一帧信号包含的时域采样点总数，由基音频率、过零率、短时能量、归一化自相关系数、第一语音线性预测系数这五个特征组成，即，其中，由现有的基音检测技术，即对自相关系数求峰值得到，为第一个LPC（线性预测编码）系数，LPC为现有的较为成熟的语音线性预测编码技术，其他三个特征的计算公式分别如下：

，其中为符号函数，即；

；。

8.根据权利要求7所述的语音激活检测方法，其特征在于，对整理为GMM模型训练算法的输入矩阵形式，即，每一行对应每一帧语音信号的特征集，并对用GMM训练器训练语音信号模型参数；对整理为GMM模型训练算法的输入矩阵形式，即，每一行对应每一帧噪声信号的特征集，并对用GMM训练器训练噪声信号模型参数。

9.根据权利要求8所述的语音激活检测方法，其特征在于，所述数据测试包括：步骤2-a：对测试信号提取基音频率特征和时域特征，由基音频率、过零率、短时能量、归一化自相关系数、第一语音线性预测系数这五个特征组成，记为，；步骤2-b：用多维高斯概率密度计算公式，根据及训练部分的，计算测试帧信号为语音信号的概率，根据及训练部分的计算测试帧信号为噪声信号的概率，其计算公式如下：

，。

10.根据权利要求9所述的语音激活检测方法，其特征在于，所述数据判断包括：根据及判别所述测试帧信号为语音信号还是噪声信号，若则判别为语音信号，否则判别为噪声信号；对判别为语音信号的帧信号保持正常通话模式，对判别为噪声信号的帧信号则进行相应处理。