CN103617798A

CN103617798A - 一种强背景噪声下的语音提取方法

Info

Publication number: CN103617798A
Application number: CN201310646708.XA
Authority: CN
Inventors: 周龙甫; 呼永河; 张超群; 李正; 郝大鹏; 赵明
Original assignee: Chengdu Military General Hospital of PLA
Current assignee: Chengdu Military General Hospital of PLA
Priority date: 2013-12-04
Filing date: 2013-12-04
Publication date: 2014-03-05

Abstract

本发明公开了一种强背景噪声下的语音提取方法，首先对含有强背景噪声的原始语音信号进行预离散采样和量化得到数据帧，对数据帧构建基于Morlet小波函数的小波神经网络，对于小波神经网络参数构建粒子群适应度函数，再通过粒子群算法得到最优参数，将数据帧输入小波神经网络进行滤波，从而去除噪声，提取得到语音信号。本发明中采用的小波神经网络的参数是由粒子群算法得到的，因此本发明提供的方法可以提高对不同环境噪声特征的适应度。

Description

一种强背景噪声下的语音提取方法

技术领域

本发明属于语音提取技术领域，更为具体地讲，涉及一种强背景噪声下的语音提取方法。

背景技术

在某些具有强背景噪声环境的场合，如高速公路旁、轰鸣的车辆内、喧闹的人群中等等，如何消除强背景噪声并有效提取用户语音，是这些特殊场合中的语音识别装置需要解决的主要问题之一。

目前，各种语音通信装置主要采用的降噪技术包括：

1）基于模型的降噪方法，典型的如“谷歌公司.用于语音识别的语音模型和噪声模型.中国发明专利,CN103069480A,2013-04-24”中公开的用于语音识别的语音模型和噪声模型，通过设定适配规则来对接收到的音频信号进行滤波和噪声补偿。该方法在适配度较高的情况下具有良好的去噪效果，但需要较多的先验知识来预先构建用户语音和噪声模型。

2）主动噪声消除方法，典型的如“无锡中星微电子有限公司.一种语音降噪装置.中国发明专利，CN101853667A，2010.10.06”中公开的语音降噪装置，采用扬声器、麦克风、输出和输入增益构建负反馈闭环系统，通过麦克风采集背景噪声后主动生成反噪声信号与扬声器的输入信号进行叠加达到噪声消除的效果。该方法适用于在强噪声背景下进行语音播放的场合，不适用于需要在背景噪声中有效提取用户语音的场合。

3）基于多麦克风的滤波降噪方法，典型的如“通用汽车环球科技运作有限责任公司.统一标准的麦克风预处理系统和方法.中国发明专利,CN102595281A,2012.07.18”中公开的信号预处理系统，通过在语音采集现场部署麦克风阵列来支持通话处理、自动语音识别处理和噪声消除处理等应用。麦克风阵列的广泛部署能够通过多源信号采集获取目标声源和噪声源在空间域上的区别，较好的实现噪声消除，但缺点在于难以在移动和小范围场景（如运动人体上）部署。

4）基于信号分析和处理的降噪方法，该类方法的主要思想是针对目标语音和噪声成分在时-频域上的特征差异来进行信号分离。典型的如“西北工业大学.一种基于小波变换和变步长最小均方算法的语音降噪方法.中国发明专利，CN101894561A，2010.11.24”公开的语音降噪方法，该方法充分利用了小波变换在时-频局部分析方面的优势，并引入步长动态算法来控制收敛速度，具有较快的响应时间和失调度，但步长因子的确定仍缺乏有效方法，限制了其对不同噪声环境的适应能力。

发明内容

本发明的目的在于克服现有技术的不足，提供一种强背景噪声下的语音提取方法，采用小波神经网络作为滤波器，其中小波神经网络的参数由粒子群算法得到，可适应各种典型白噪声环境。

为实现上述发明目的，本发明强背景噪声下的语音提取方法，包括以下步骤：

S1：对含有强背景噪声的原始语音信号进行预处理，包括离散采样和量化，提取P个由M个采样点构成的数据帧f^p(t_m)，其中，p＝0,1,…,P表示数据所处的帧号，m＝0,1,…,M表示为样本号；

S2：构建小波神经网络模型，其模型公式为：

\hat{{f_{n}}^{p}} = σ [Σ_{k = 1}^{K} w_{nk} [Σ_{m = 1}^{M} f^{p} (t_{m}) h (\frac{t_{m} - b_{k}}{a_{k}})]]

其中，

为原始语音信号的估计值；n＝1,2,…,N，N为小波神经网络中输出神经元的个数；σ＝1/(1+e^-x)，x为设置的常数；w_nk为权重参数，w_nk的取值范围为0＜w_nk＜1；k＝1,2,…,K，K为采用的Morlet小波函数的个数，a_k和b_k分别对应于第k个Morlet小波核函数中的尺度伸缩因子和时间平移因子；

S3：构建粒子群适应度函数以(w_n1,…,w_nK,a₁,…,a_K,b₁,…,b_K)作为粒子，采用粒子群算法搜索适应度函数的最小值，最大搜索迭代次数为D；

S4：采用步骤S3搜索得到的适应度函数的最小值对应的(w_n1,…,w_nK,a₁,…,a_K,b₁,…,b_K)，将P个数据帧f^p(t_m)输入小波神经网络模型进行滤波，得到N个语音估计值

进一步地，粒子群算法中，粒子群中第t个粒子速度和位置的迭代方程为：

x_t(d+1)＝x_t(d)+v_t(d+1)

其中，v(d+1)、v(d)分别表示第d+1次、第d次搜索时该粒子的速度，x(d+1)、x(d)分别表示第d+1次、第d次搜索时该粒子的位置，J_t(d)表示该粒子搜索到的适应度函数历史最小值，J_b(d)表示粒子群中所有粒子探索到的适应度函数历史最小值，α表示惯性权重参数，取值范围为0＜α＜1，

表示粒子跟踪自己历史最小值的权重系数，表示粒子跟踪粒子群历史最小值的权重系数，取值范围为

本发明强背景噪声下的语音提取方法，首先对含有强背景噪声的原始语音信号进行预离散采样和量化得到数据帧，对数据帧构建基于Morlet小波函数的小波神经网络，对于小波神经网络参数构建粒子群适应度函数，再通过粒子群算法得到最优参数，将数据帧输入小波神经网络进行滤波，从而去除噪声，提取得到语音信号。本发明中采用的小波神经网络的参数是由粒子群算法得到的，因此本发明提供的方法可以提高对不同环境噪声特征的适应度。

附图说明

图1是本发明强背景噪声下的语音提取方法的一种具体实施方式流程图；

图2是基于小波神经网络的滤波器示意图；

图3是场景一样本2的原始音频采样数据；

图4是从图3所示原始音频的提取的语音采样数据。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明强背景噪声下的语音提取方法的一种具体实施方式流程图。如图1所示，本发明强背景噪声下的语音提取方法，包括以下步骤：

S101：预处理：

对含有强背景噪声的原始语音信号进行预处理，包括离散采样和量化，提取P个由M个采样点构成的数据帧f^p(t_m)，其中，p＝0,1,…,P表示数据所处的帧号，m＝0,1,…,M表示为样本号。

本实施例的音频采样硬件系统采用Wolfson Microelectronic公司生产的数字编解码芯片WM8978来采集麦克风传感器输入的带背景噪声的原始语音信号，该芯片内置了I2S总线支持，通过该总线和STMicroelectronics生产的Cortex-M4系列处理器STM32F303连接；STM32F3系列处理器内建了高性能的数字信号处理器，可提供本专利方法需要的DSP指令库支持；同时，系统采用Microchip公司生产的1Mbit SPI Serial SRAM来提供算法所需的内存支持。

本实施例分别在三个场景：大功率旋转电机运转的厂房（场景一）、嘈杂人群所在的游乐园（场景二）、播放大音量歌曲的户外活动现场（场景三），各采集3个人员的5分钟单声道音频数据，采样频率9.6kHz，16位线性量化，对数据进行分帧处理，每帧256个采样点，帧间重叠64个采样点。

S102：构建小波神经网络模型，其模型公式为：

\hat{{f_{n}}^{p}} = σ [Σ_{k = 1}^{K} w_{nk} [Σ_{m = 1}^{M} f^{p} (t_{m}) h (\frac{t_{m} - b_{k}}{a_{k}})]]

其中，

为原始语音信号的估计值；n＝1,2,…,N，N为小波神经网络中输出神经元的个数；σ＝1/(1+e^-x)，x为设置的常数；w_nk为权重参数，w_nk的取值范围为0＜w_nk＜1；k＝1,2,…,K，K为采用的Morlet小波函数

的个数，a_k和b_k分别对应于第k个Morlet小波核函数中的尺度伸缩因子和时间平移因子。

S103：适应度搜索：

构建粒子群适应度函数

以(w_n1,…,w_nK,a₁,…,a_K,b₁,…,b_K)作为粒子，采用粒子群算法搜索适应度函数的最小值，设置最大搜索迭代次数D。

粒子群的粒子个数根据实际需要确定，个数越多，得到的结果越准确。(w_n1,…,w_nK,a₁,…,a_K,b₁,…,b_K)中每个值的初始值可以随机确定，也可以根据需要设置。本实施例中，所有K个a_k、b_k的初始值均根据Morlet小波函数

即a_k0＝1.75，b_k0＝0，所有w_nk的初始值均设置为0.5。设置最大迭代次数D＝45。

本实施例的粒子群算法中，粒子群中第t个粒子速度和位置的迭代方程为：

x_t(d+1)＝x_t(d)+v_t(d+1)

表示粒子跟踪自己历史最小值的权重系数，表示粒子跟踪粒子群历史最小值的权重系数。根据现有的粒子群算法，

和

可以是常数，也可是随d变化的变量，但是其取值范围始终需要满足

S104：滤波：

采用步骤S3搜索得到的适应度函数的最小值对应的(w_n1,…,w_nK,a₁,…,a_K,b₁,…,b_K)，将P个数据帧f^p(t_m)输入小波神经网络模型进行滤波，得到N个语音估计值

依次进行输出即可实现语音提取，从而得到去噪语音信号。

图2是基于小波神经网络的滤波器示意图。图2用图形方式说明了小波神经网络进行滤波的计算过程。该滤波器的具体构建过程，可参考文献Sitharama S.Iyengar,E.C.Cho,Vir V.Phoha.Foundations of Wavelet Networks and Applications.Chapman&Hall/CRC,2002.ISBN:1584882743

将步骤S101中的9个语音样本采用本发明进行语音提取，表1是9个语音样本输入信噪比和输出信噪比的对比。

表1

图3是场景一样本2的原始音频采样数据。图4是从图3所示原始音频的提取的语音采样数据。

从表1的对比数据及图3、图4的对比可以看出，本发明对各类典型的强背景噪声场景具有明显的降噪效果。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。