CN103617798A - 一种强背景噪声下的语音提取方法 - Google Patents

一种强背景噪声下的语音提取方法 Download PDF

Info

Publication number
CN103617798A
CN103617798A CN201310646708.XA CN201310646708A CN103617798A CN 103617798 A CN103617798 A CN 103617798A CN 201310646708 A CN201310646708 A CN 201310646708A CN 103617798 A CN103617798 A CN 103617798A
Authority
CN
China
Prior art keywords
particle
wavelet
neural network
minimum value
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310646708.XA
Other languages
English (en)
Inventor
周龙甫
呼永河
张超群
李正
郝大鹏
赵明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Military General Hospital of PLA
Original Assignee
Chengdu Military General Hospital of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Military General Hospital of PLA filed Critical Chengdu Military General Hospital of PLA
Priority to CN201310646708.XA priority Critical patent/CN103617798A/zh
Publication of CN103617798A publication Critical patent/CN103617798A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种强背景噪声下的语音提取方法,首先对含有强背景噪声的原始语音信号进行预离散采样和量化得到数据帧,对数据帧构建基于Morlet小波函数的小波神经网络,对于小波神经网络参数构建粒子群适应度函数,再通过粒子群算法得到最优参数,将数据帧输入小波神经网络进行滤波,从而去除噪声,提取得到语音信号。本发明中采用的小波神经网络的参数是由粒子群算法得到的,因此本发明提供的方法可以提高对不同环境噪声特征的适应度。

Description

一种强背景噪声下的语音提取方法
技术领域
本发明属于语音提取技术领域,更为具体地讲,涉及一种强背景噪声下的语音提取方法。
背景技术
在某些具有强背景噪声环境的场合,如高速公路旁、轰鸣的车辆内、喧闹的人群中等等,如何消除强背景噪声并有效提取用户语音,是这些特殊场合中的语音识别装置需要解决的主要问题之一。
目前,各种语音通信装置主要采用的降噪技术包括:
1)基于模型的降噪方法,典型的如“谷歌公司.用于语音识别的语音模型和噪声模型.中国发明专利,CN103069480A,2013-04-24”中公开的用于语音识别的语音模型和噪声模型,通过设定适配规则来对接收到的音频信号进行滤波和噪声补偿。该方法在适配度较高的情况下具有良好的去噪效果,但需要较多的先验知识来预先构建用户语音和噪声模型。
2)主动噪声消除方法,典型的如“无锡中星微电子有限公司.一种语音降噪装置.中国发明专利,CN101853667A,2010.10.06”中公开的语音降噪装置,采用扬声器、麦克风、输出和输入增益构建负反馈闭环系统,通过麦克风采集背景噪声后主动生成反噪声信号与扬声器的输入信号进行叠加达到噪声消除的效果。该方法适用于在强噪声背景下进行语音播放的场合,不适用于需要在背景噪声中有效提取用户语音的场合。
3)基于多麦克风的滤波降噪方法,典型的如“通用汽车环球科技运作有限责任公司.统一标准的麦克风预处理系统和方法.中国发明专利,CN102595281A,2012.07.18”中公开的信号预处理系统,通过在语音采集现场部署麦克风阵列来支持通话处理、自动语音识别处理和噪声消除处理等应用。麦克风阵列的广泛部署能够通过多源信号采集获取目标声源和噪声源在空间域上的区别,较好的实现噪声消除,但缺点在于难以在移动和小范围场景(如运动人体上)部署。
4)基于信号分析和处理的降噪方法,该类方法的主要思想是针对目标语音和噪声成分在时-频域上的特征差异来进行信号分离。典型的如“西北工业大学.一种基于小波变换和变步长最小均方算法的语音降噪方法.中国发明专利,CN101894561A,2010.11.24”公开的语音降噪方法,该方法充分利用了小波变换在时-频局部分析方面的优势,并引入步长动态算法来控制收敛速度,具有较快的响应时间和失调度,但步长因子的确定仍缺乏有效方法,限制了其对不同噪声环境的适应能力。
发明内容
本发明的目的在于克服现有技术的不足,提供一种强背景噪声下的语音提取方法,采用小波神经网络作为滤波器,其中小波神经网络的参数由粒子群算法得到,可适应各种典型白噪声环境。
为实现上述发明目的,本发明强背景噪声下的语音提取方法,包括以下步骤:
S1:对含有强背景噪声的原始语音信号进行预处理,包括离散采样和量化,提取P个由M个采样点构成的数据帧fp(tm),其中,p=0,1,…,P表示数据所处的帧号,m=0,1,…,M表示为样本号;
S2:构建小波神经网络模型,其模型公式为:
f n p ^ = σ [ Σ k = 1 K w nk [ Σ m = 1 M f p ( t m ) h ( t m - b k a k ) ] ]
其中,
Figure BDA0000429637430000022
为原始语音信号的估计值;n=1,2,…,N,N为小波神经网络中输出神经元的个数;σ=1/(1+e-x),x为设置的常数;wnk为权重参数,wnk的取值范围为0<wnk<1;k=1,2,…,K,K为采用的Morlet小波函数的个数,ak和bk分别对应于第k个Morlet小波核函数中的尺度伸缩因子和时间平移因子;
S3:构建粒子群适应度函数以(wn1,…,wnK,a1,…,aK,b1,…,bK)作为粒子,采用粒子群算法搜索适应度函数的最小值,最大搜索迭代次数为D;
S4:采用步骤S3搜索得到的适应度函数的最小值对应的(wn1,…,wnK,a1,…,aK,b1,…,bK),将P个数据帧fp(tm)输入小波神经网络模型进行滤波,得到N个语音估计值
Figure BDA0000429637430000035
进一步地,粒子群算法中,粒子群中第t个粒子速度和位置的迭代方程为:
Figure BDA0000429637430000031
xt(d+1)=xt(d)+vt(d+1)
其中,v(d+1)、v(d)分别表示第d+1次、第d次搜索时该粒子的速度,x(d+1)、x(d)分别表示第d+1次、第d次搜索时该粒子的位置,Jt(d)表示该粒子搜索到的适应度函数历史最小值,Jb(d)表示粒子群中所有粒子探索到的适应度函数历史最小值,α表示惯性权重参数,取值范围为0<α<1,
Figure BDA0000429637430000032
表示粒子跟踪自己历史最小值的权重系数,表示粒子跟踪粒子群历史最小值的权重系数,取值范围为
本发明强背景噪声下的语音提取方法,首先对含有强背景噪声的原始语音信号进行预离散采样和量化得到数据帧,对数据帧构建基于Morlet小波函数的小波神经网络,对于小波神经网络参数构建粒子群适应度函数,再通过粒子群算法得到最优参数,将数据帧输入小波神经网络进行滤波,从而去除噪声,提取得到语音信号。本发明中采用的小波神经网络的参数是由粒子群算法得到的,因此本发明提供的方法可以提高对不同环境噪声特征的适应度。
附图说明
图1是本发明强背景噪声下的语音提取方法的一种具体实施方式流程图;
图2是基于小波神经网络的滤波器示意图;
图3是场景一样本2的原始音频采样数据;
图4是从图3所示原始音频的提取的语音采样数据。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明强背景噪声下的语音提取方法的一种具体实施方式流程图。如图1所示,本发明强背景噪声下的语音提取方法,包括以下步骤:
S101:预处理:
对含有强背景噪声的原始语音信号进行预处理,包括离散采样和量化,提取P个由M个采样点构成的数据帧fp(tm),其中,p=0,1,…,P表示数据所处的帧号,m=0,1,…,M表示为样本号。
本实施例的音频采样硬件系统采用Wolfson Microelectronic公司生产的数字编解码芯片WM8978来采集麦克风传感器输入的带背景噪声的原始语音信号,该芯片内置了I2S总线支持,通过该总线和STMicroelectronics生产的Cortex-M4系列处理器STM32F303连接;STM32F3系列处理器内建了高性能的数字信号处理器,可提供本专利方法需要的DSP指令库支持;同时,系统采用Microchip公司生产的1Mbit SPI Serial SRAM来提供算法所需的内存支持。
本实施例分别在三个场景:大功率旋转电机运转的厂房(场景一)、嘈杂人群所在的游乐园(场景二)、播放大音量歌曲的户外活动现场(场景三),各采集3个人员的5分钟单声道音频数据,采样频率9.6kHz,16位线性量化,对数据进行分帧处理,每帧256个采样点,帧间重叠64个采样点。
S102:构建小波神经网络模型,其模型公式为:
f n p ^ = σ [ Σ k = 1 K w nk [ Σ m = 1 M f p ( t m ) h ( t m - b k a k ) ] ]
其中,
Figure BDA0000429637430000042
为原始语音信号的估计值;n=1,2,…,N,N为小波神经网络中输出神经元的个数;σ=1/(1+e-x),x为设置的常数;wnk为权重参数,wnk的取值范围为0<wnk<1;k=1,2,…,K,K为采用的Morlet小波函数
Figure BDA0000429637430000043
的个数,ak和bk分别对应于第k个Morlet小波核函数中的尺度伸缩因子和时间平移因子。
S103:适应度搜索:
构建粒子群适应度函数
Figure BDA0000429637430000044
以(wn1,…,wnK,a1,…,aK,b1,…,bK)作为粒子,采用粒子群算法搜索适应度函数的最小值,设置最大搜索迭代次数D。
粒子群的粒子个数根据实际需要确定,个数越多,得到的结果越准确。(wn1,…,wnK,a1,…,aK,b1,…,bK)中每个值的初始值可以随机确定,也可以根据需要设置。本实施例中,所有K个ak、bk的初始值均根据Morlet小波函数
Figure BDA0000429637430000051
即ak0=1.75,bk0=0,所有wnk的初始值均设置为0.5。设置最大迭代次数D=45。
本实施例的粒子群算法中,粒子群中第t个粒子速度和位置的迭代方程为:
Figure BDA0000429637430000052
xt(d+1)=xt(d)+vt(d+1)
其中,v(d+1)、v(d)分别表示第d+1次、第d次搜索时该粒子的速度,x(d+1)、x(d)分别表示第d+1次、第d次搜索时该粒子的位置,Jt(d)表示该粒子搜索到的适应度函数历史最小值,Jb(d)表示粒子群中所有粒子探索到的适应度函数历史最小值,α表示惯性权重参数,取值范围为0<α<1,
Figure BDA0000429637430000053
表示粒子跟踪自己历史最小值的权重系数,表示粒子跟踪粒子群历史最小值的权重系数。根据现有的粒子群算法,
Figure BDA0000429637430000055
Figure BDA0000429637430000056
可以是常数,也可是随d变化的变量,但是其取值范围始终需要满足
Figure BDA0000429637430000057
S104:滤波:
采用步骤S3搜索得到的适应度函数的最小值对应的(wn1,…,wnK,a1,…,aK,b1,…,bK),将P个数据帧fp(tm)输入小波神经网络模型进行滤波,得到N个语音估计值
Figure BDA0000429637430000058
依次进行输出即可实现语音提取,从而得到去噪语音信号。
图2是基于小波神经网络的滤波器示意图。图2用图形方式说明了小波神经网络进行滤波的计算过程。该滤波器的具体构建过程,可参考文献Sitharama S.Iyengar,E.C.Cho,Vir V.Phoha.Foundations of Wavelet Networks and Applications.Chapman&Hall/CRC,2002.ISBN:1584882743
将步骤S101中的9个语音样本采用本发明进行语音提取,表1是9个语音样本输入信噪比和输出信噪比的对比。
Figure BDA0000429637430000062
表1
图3是场景一样本2的原始音频采样数据。图4是从图3所示原始音频的提取的语音采样数据。
从表1的对比数据及图3、图4的对比可以看出,本发明对各类典型的强背景噪声场景具有明显的降噪效果。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (2)

1.一种强背景噪声下的语音提取方法,其特征在于,包括以下步骤:
S1:对含有强背景噪声的原始语音信号进行预处理,包括离散采样和量化,提取P个由M个采样点构成的数据帧fp(tm),其中,p=0,1,…,P表示数据所处的帧号;
S2:构建小波神经网络模型,其模型公式为:
f n p ^ = σ [ Σ k = 1 K w nk [ Σ m = 1 M f p ( t m ) h ( t m - b k a k ) ] ]
其中,
Figure FDA0000429637420000012
为原始语音信号的估计值;n=1,2,…,N,N为小波神经网络中输出神经元的个数;σ=1/(1+e-x),x为设置的常数;wnk为权重参数,wnk的取值范围为0<wnk<1;k=1,2,…,K,K为采用的Morlet小波函数
Figure FDA0000429637420000013
的个数,ak和bk分别对应于第k个Morlet小波核函数中的尺度伸缩因子和时间平移因子;
S3:构建粒子群适应度函数
Figure FDA0000429637420000014
以(wn1,…,wnK,a1,…,aK,b1,…,bK)作为粒子,采用粒子群算法搜索适应度函数的最小值,设置最大搜索迭代次数D;
S4:采用步骤S3搜索得到的适应度函数的最小值对应的(wn1,…,wnK,a1,…,aK,b1,…,bK),将P个数据帧fp(tm)输入小波神经网络模型进行滤波,得到N个语音估计值
Figure FDA0000429637420000015
2.根据权利要求1所述的语音提取方法,其特征在于,所述粒子群算法中,粒子群中第t个粒子速度和位置的迭代方程为:
Figure FDA0000429637420000016
xt(d+1)=xt(d)+vt(d+1)
其中,v(d+1)、v(d)分别表示第d+1次、第d次搜索时该粒子的速度,x(d+1)、x(d)分别表示第d+1次、第d次搜索时该粒子的位置,Jt(d)表示该粒子搜索到的适应度函数历史最小值,Jb(d)表示粒子群中所有粒子探索到的适应度函数历史最小值,α表示惯性权重参数,取值范围为0<α<1
Figure FDA0000429637420000017
表示粒子跟踪自己历史最小值的权重系数,表示粒子跟踪粒子群历史最小值的权重系数,取值范围为
Figure FDA0000429637420000022
CN201310646708.XA 2013-12-04 2013-12-04 一种强背景噪声下的语音提取方法 Pending CN103617798A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310646708.XA CN103617798A (zh) 2013-12-04 2013-12-04 一种强背景噪声下的语音提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310646708.XA CN103617798A (zh) 2013-12-04 2013-12-04 一种强背景噪声下的语音提取方法

Publications (1)

Publication Number Publication Date
CN103617798A true CN103617798A (zh) 2014-03-05

Family

ID=50168501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310646708.XA Pending CN103617798A (zh) 2013-12-04 2013-12-04 一种强背景噪声下的语音提取方法

Country Status (1)

Country Link
CN (1) CN103617798A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106796803A (zh) * 2014-10-14 2017-05-31 汤姆逊许可公司 用于在音频通信中将语音数据与背景数据分离的方法和装置
CN108653898A (zh) * 2018-03-26 2018-10-16 广东小天才科技有限公司 一种用于安抚儿童的音乐播放方法及可穿戴设备
CN109003493A (zh) * 2018-08-07 2018-12-14 广东小天才科技有限公司 一种课程推荐方法及学习设备
CN110310658A (zh) * 2019-06-21 2019-10-08 桂林电子科技大学 一种基于语音信号处理的语音分离办法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN202381337U (zh) * 2011-12-12 2012-08-15 山东大学 基于转矩流量智能软测量的涡旋压缩机控制系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN202381337U (zh) * 2011-12-12 2012-08-15 山东大学 基于转矩流量智能软测量的涡旋压缩机控制系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
LONGFU ZHOU, YONGHE HU, SHIYI XIAHOU, ETC.: ""Application of Denoising Algorithm Based on LPSO-WNN in Speech Recognition"", 《IEEE CONFERENCE PUBLICATIONS》 *
张伟,师奕兵,周龙甫,卢涛: ""基于改进的粒子群-小波神经网络的固井质量智能评价"", 《信息与控制》 *
张伟,师奕兵,周龙甫,卢涛: ""基于改进粒子群算法的小波神经网络分类器"", 《仪器仪表学报》 *
斯芸芸,徐道连,周卓然: ""基于遗传算法和小波神经网络的语音识别研究"", 《微型机与应用》 *
赵鸿图,刘云: ""改进粒子群算法的小波神经网络语音去噪"", 《计算机测量与控制》 *
陈立伟,宋宪晨,章东升,杨洪利: ""一种基于优化小波神经网络的语音识别"", 《应用科技》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106796803A (zh) * 2014-10-14 2017-05-31 汤姆逊许可公司 用于在音频通信中将语音数据与背景数据分离的方法和装置
CN106796803B (zh) * 2014-10-14 2023-09-19 交互数字麦迪逊专利控股公司 用于在音频通信中将语音数据与背景数据分离的方法和装置
CN108653898A (zh) * 2018-03-26 2018-10-16 广东小天才科技有限公司 一种用于安抚儿童的音乐播放方法及可穿戴设备
CN109003493A (zh) * 2018-08-07 2018-12-14 广东小天才科技有限公司 一种课程推荐方法及学习设备
CN110310658A (zh) * 2019-06-21 2019-10-08 桂林电子科技大学 一种基于语音信号处理的语音分离办法
CN110310658B (zh) * 2019-06-21 2021-11-30 桂林电子科技大学 一种基于语音信号处理的语音分离办法

Similar Documents

Publication Publication Date Title
CN110503972B (zh) 语音增强方法、系统、计算机设备及存储介质
CN106251877B (zh) 语音声源方向估计方法及装置
CN102456351A (zh) 一种语音增强的系统
CN103871421B (zh) 一种基于子带噪声分析的自适应降噪方法与系统
CN101460999B (zh) 盲信号提取
CN103617798A (zh) 一种强背景噪声下的语音提取方法
CN101430882A (zh) 一种抑制风噪声的方法及装置
CN106328151B (zh) 一种环噪消除系统及其应用方法
CN1953059A (zh) 一种噪声消除装置和方法
CN102411138A (zh) 一种机器人声源定位方法
CN104835503A (zh) 一种改进gsc自适应语音增强方法
CN106970356A (zh) 一种复杂环境下声源定位跟踪方法
CN103594094A (zh) 自适应谱减法实时语音增强
CN103491488A (zh) 一种麦克风回音消除方法及装置
CN110875056B (zh) 语音转录设备、系统、方法、及电子设备
CN107369460A (zh) 基于声学矢量传感器空间锐化技术的语音增强装置及方法
CN112885375A (zh) 基于听觉滤波器组和卷积神经网络的全局信噪比估计方法
WO2018003158A1 (ja) 相関関数生成装置、相関関数生成方法、相関関数生成プログラムおよび波源方向推定装置
CN113782044B (zh) 一种语音增强方法及装置
Hosseini et al. Time difference of arrival estimation of sound source using cross correlation and modified maximum likelihood weighting function
CN112397090B (zh) 一种基于fpga的实时声音分类方法及系统
CN111341351B (zh) 基于自注意力机制的语音活动检测方法、装置及存储介质
CN104424954A (zh) 噪声估计方法与装置
CN114566179A (zh) 一种时延可控的语音降噪方法
Lu et al. Temporal modulation normalization for robust speech feature extraction and recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140305