CN112786071A

CN112786071A - 面向语音交互场景语音片段的数据标注方法

Info

Publication number: CN112786071A
Application number: CN202110040225.XA
Authority: CN
Inventors: 杜文勇; 马永波; 申蕾; 刘娟; 王笑一; 安业腾; 巫乾军; 陈宇航; 张邵韡; 董蓓
Original assignee: State Grid Co ltd Customer Service Center
Current assignee: State Grid Co ltd Customer Service Center
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-05-11

Abstract

本发明涉及面向语音交互场景语音片段的数据标注方法。标注方法包括：步骤1：模型训练；步骤2：对待识别语音数据的语音信号分帧加窗滤波处理；将接收到的语音数据首先进行分帧处理，选择25ms为一帧，在对分帧后的结果进行加窗处理，使得没一帧能够在处理后更加的平滑，根据需要再进行滤波处理；步骤3：对待识别语音数据进行特征提取，提取短时能量，过零率，梅尔频率倒谱系数，音高，基音周期，信噪比，谐噪比，短时平均幅度；对于每一帧语音计算上述特征，帧语音与特征共同构成了接下来的随机森林的输入数据；步骤4：根据阈值，将每一帧的类型输出并组成序列。此技术能够较好的保证模型准确率，识别出相关不同类型的语音片段。

Description

面向语音交互场景语音片段的数据标注方法

技术领域：

本发明涉及一种音频处理技术，具体涉及面向语音交互场景语音片段的数据标注方法。

背景技术：

现有技术中，常见的自动化语音标注方法，是通过短时能量与过零率来进行检测，具体过程是获取一段语音，将语音转换成标准的数字信号，即将双声道语音转换成2列数组，将数字信号进行分帧处理，接着计算语音帧的短时能量以及过零率，通过设置的短时能量和过零率的阈值，来判断该段语音是噪音片段或静音片段。短时能量为一帧语音的能量，过零率为一帧语音穿过时间轴的次数，因此这种方法就须保证：在比较长的一段时间内，背景噪音平稳；语音的能量高于噪音的能量；语音谱比噪音谱更加有序；语音信号周期性比噪音的周期性好。

但在实际的检测中发现，由于环境的复杂性极高，必然造成了噪音的多样性，因此上述的条件并不能时时成立，存在识别的准确率低，如果阈值设置过高，会将有效语音识别成噪音，如果阈值设置过低，又会将噪音识别成有效语音。不能找到一个阈值将有效语音和噪音很好的分割开来。因此，需要一种新的面向语音交互场景语音片段的数据标注方法。

发明内容：

本发明提出了一种面向语音交互场景语音片段的数据标注方法。具体技术方案如下：

面向语音交互场景语音片段的数据标注方法，包括以下步骤：

步骤1：模型训练；具体过程包括：

步骤1.1：采用人工标准的方式确定哪些语音是噪音片段，哪些语音是静音片段，哪些语音是有效语音片段进行标注；

步骤1.2：语音信号分帧加窗滤波处理；将接收到的语音数据首先进行分帧处理，选择25ms为一帧，在对分帧后的结果进行加窗处理，使得每一帧能够在处理后更加的平滑，根据需要再进行滤波处理；

步骤1.3：语音特征提取，提取短时能量，过零率，梅尔频率倒谱系数，音高，基音周期，信噪比，谐噪比，短时平均幅度；对于每一帧语音计算上述特征，帧语音与特征共同构成了接下来的随机森林的输入数据；

步骤1.4：训练随机森林模型，从而确定出随机森林的参数即阈值；

步骤2：对待识别语音数据的语音信号分帧加窗滤波处理；将接收到的语音数据首先进行分帧处理，选择25ms为一帧，在对分帧后的结果进行加窗处理，使得每一帧能够在处理后更加的平滑，根据需要再进行滤波处理；

步骤3：对待识别语音数据进行特征提取，提取短时能量，过零率，梅尔频率倒谱系数，音高，基音周期，信噪比，谐噪比，短时平均幅度；对于每一帧语音计算上述特征，帧语音与特征共同构成了接下来的随机森林的输入数据；

步骤4：输出语音片段的类型：将未进行标记的每一帧语音片段进行步骤三的语音特征提取后，将相应的语音特征带入步骤1中训练好的模型中，得到未进行标记的每一帧语音片段的对应输出类型，即噪音片段、静音片段及有效语音片段三者中的一种，进一步将每一帧语音片段的对应输出类型组成序列，最终得到语音数据的活性检测结果。

优选方案一，所述步骤1.2或步骤2中加窗采用矩形窗：

其中N为一帧语音片段的采样点个数，n为音频采样点的位置，即第一个采样点为0，第二个采样点为1，以此类推。

优选方案二，所述步骤1.3或步骤3中，

短时能量：

其中n为需要计算短时能量的采样位置，m为整数，x(m)为音频第m个采样结果，w(n-m)为窗函数，h(n)＝w(n)²；

过零率：

其中s是采样点的值，T为帧长，函数π{A}在A为真是值为1，否则为0；当帧长T固定后，t的取值为1≤t≤T-1；

梅尔频率倒谱系数(MFCC):

其中，f为频率；

音高：响度级为40phon，频率为1000Hz的声音的音高定义为1000Mel；

基音周期：声带每开启和闭合一次的时间，用自相关法估值；

信噪比：

其中x(n)代表n位置的信号值，y(n)代表n位置的噪音值；

谐噪比：即HNR，是语音中谐波成分和噪声成分的比率；

短时平均幅度：

其中i表示帧，y_i(n)表示第i帧n位置的采样值。

相对于现有技术，本发明具有以下优势：语音特征提取较多的特征，实现噪音，静音与有效语音相关特征的广泛参与，进一步提升准确率与泛化能力；使用随机森林模型克服了阈值难以设定的问题，同时由于随机森林模型是一种监督模型，在使用时需要经过标注数据的训练，因此能够较好的保证模型准确率，识别出不同类型的语音片段，有效提高了对供电用户故障报修电话语音自动化处理的效率及质量。

附图说明：

图1是本发明实施例中标识流程示意图。

具体实施方式：

实施例：

步骤1：模型训练；具体过程包括：

步骤1.1：输入一段wav格式采样率为8KHz的录音单声道文件；如果为双声道则将双声道拆分成两个单声道；选取200个采样点数据为一帧语音数据；采用人工标准的方式确定哪些语音是噪音片段，哪些语音是静音片段，哪些语音是有效语音片段进行标注；

步骤1.2：语音信号分帧加窗滤波处理；将接收到的语音数据首先进行分帧处理，选取200个采样点数据为一帧语音片段，在对分帧后的结果进行加窗处理，使得每一帧能够在处理后更加的平滑，根据需要再进行滤波处理；加窗采用矩形窗

其中N为一帧语音片段的采样点个数，n为音频采样点的位置，即第一个采样点为0，第二个采样点为1，以此类推；

短时能量：

过零率：

梅尔频率倒谱系数(MFCC):

其中，f为频率；

信噪比：

其中x(n)代表n位置的信号值，y(n)代表n位置的噪音值；

谐噪比：即HNR，是语音中谐波成分和噪声成分的比率；

短时平均幅度：

其中i表示帧，y_i(n)表示第i帧n位置的采样值；

步骤2：对待识别语音数据的语音信号分帧加窗滤波处理；将接收到的语音数据首先进行分帧处理，选取200个采样点数据为一帧语音片段，在对分帧后的结果进行加窗处理，使得没一帧能够在处理后更加的平滑，根据需要再进行滤波处理；

步骤3：对待识别语音数据进行特征提取，提取短时能量，过零率，梅尔频率倒谱系数，音高，基音周期，信噪比，谐噪比，短时平均幅度；计算方法同步骤1.3；对于每一帧语音计算上述特征，帧语音与特征共同构成了接下来的随机森林的输入数据；

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。