CN106128480A - 一种对带噪语音进行语音活动检测的方法 - Google Patents

一种对带噪语音进行语音活动检测的方法 Download PDF

Info

Publication number
CN106128480A
CN106128480A CN201610445448.3A CN201610445448A CN106128480A CN 106128480 A CN106128480 A CN 106128480A CN 201610445448 A CN201610445448 A CN 201610445448A CN 106128480 A CN106128480 A CN 106128480A
Authority
CN
China
Prior art keywords
noisy speech
carried out
activity detection
frame
voice activity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610445448.3A
Other languages
English (en)
Other versions
CN106128480B (zh
Inventor
刘冲冲
周正仙
甘露
吴朝晖
杜友武
余瑞兰
袁扬胜
邹翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hill Shell Technology Co ltd
Original Assignee
Anhui Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Normal University filed Critical Anhui Normal University
Priority to CN201610445448.3A priority Critical patent/CN106128480B/zh
Publication of CN106128480A publication Critical patent/CN106128480A/zh
Application granted granted Critical
Publication of CN106128480B publication Critical patent/CN106128480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种对带噪语音进行语音活动检测的方法,包括步骤:采集语音信号;输入步骤a采集的语音信号;对输入的带噪语音进行分帧处理;计算相邻帧快速傅立叶变换模的互相关值;基于步骤d所得互相关值计算出每一帧的语音存在概率。本发明提出的语音活动检测方法鲁棒性强,可以在不同的噪音环境中计算出带噪语音信号中的语音存在的概率。

Description

一种对带噪语音进行语音活动检测的方法
技术领域
本发明涉及语音信号处理技术领域,具体涉及一种对带噪语音进行语音活动检测的方法。
背景技术
语音质量在一些语音应用中很重要,比如手机、助听器以及语音编码系统等等,提升语音质量的一个关键就是消除信号中的噪音。而分析和处理语音需要解决的一个首要问题是检测出语音信号中的语音和非语音,即语音活动检测(Voice activity detection,VAD)。
基于G.729标准的VAD方法计算信号的能量,然后设定门限对信号的每一帧进行简单的分类,同时还用平滑和自适应的校正来提高分类的准确性。然而,这种方法在噪音存在的情况下无法取得令人满意的效果。所以,很多学者开始尝试利用数学建模实现VAD,但是这种方法无法在不同的噪声环境中均取得良好的效果,为解决这一问题,研究者们进一步提出了声学事件检测(AED)技术,转换卡尔曼滤波器(SKF),聚类算法(如谱聚类)和稀疏编码(Sparse Coding)等等。然而,这些方法有的需要很大的计算量,有的需要纯净语音作为参考,有很大的局限性。
语音是由人的声带产生的,某一个人的声带通常可以认为是不变的,所以一段信号中的不同的语音部分常常有一些共同的相像的特征,这些特征取决于说话者的声带,是非语音部分不具有的。
发明内容
为了解决现有的VAD方法存在的不足,本发明提出一种对带噪语音进行语音活动检测的方法,可以在不同的噪音环境中计算出语音信号中的语音存在的概率。具体技术方案如下:
一种对带噪语音进行语音活动检测的方法,包括如下步骤:
a.采集语音信号;
b.输入步骤a采集的语音信号;
c.对输入的带噪语音进行分帧处理;
d.计算相邻帧快速傅立叶变换模的互相关值;
e.基于步骤d所得互相关值计算出每一帧的语音存在概率。
进一步地,步骤c中,对输入的带噪语音信号data分帧得到x(i),帧长len1设置为40ms,帧移len2设置为20ms,其中i为帧号。
进一步地,步骤d中包括:
(d-1)对分帧后的带噪语音做快速傅立叶变换后取模;
(d-2)求相邻帧的模的互相关值;
(d-3)求相邻帧的模的互相关值后,取其四次方根;
(d-4)互相关值四次方根需要减去所有互相关值四次方根幅度分布最大值对应的横坐标,并且小于零的数值归零。
进一步地,步骤e中包括:
(e-1)归一化处理;
(e-2)平滑处理;
(e-3)得到语音概率。
进一步地,步骤b中输入手机、助听器以及语音编码系统等,其内置可运行本方法的检测芯片。
进一步地,步骤(d-1)中,对各帧做快速傅立叶变换(FFT)并取模,加汉明窗平滑,得到xfft(i)=abs(FFT(x(i)))*hamming(L),其中abs表示取模运算,*表示卷积运算,hamming(L)表示窗长为L的汉明窗,L可根据具体应用调整。
进一步地,步骤(d-2)中,对相邻两帧的xfft做互相关运算,得到xcorr(i)=∑xfft(i)·xfft(i+1)。
进一步地,步骤(d-3)中,对xcorr(i)取四次方根,得到xdata(i)=(xcorr(i))1/4
进一步地,步骤(d-4)中,计算xdata(i)的幅度分布,得到幅度分布最大值对应的横坐标m=abscissa(max(H(xdata))),max(*)表示*的最大值,H(*)表示*的幅度分布,abscissa(*)表示*的横坐标;计算xdata2(i)=max(0,xdata(i)-m)。
进一步地,步骤(e-1)中,对xdata2(i)做归一化处理,得xdata3(i)=xdata2(i)/max(xdata2);步骤(e-2)中,对xdata3(i)做平滑处理,得xsp(i)=xdata3*hamming(len2);步骤(e-3)中,得到xsp(i)即表示第i帧包含语音的概率。
与目前现有技术相比,本发明对输入的带噪语音进行分帧,然后计算相邻帧快速傅立叶变换模的互相关值,基于此互相关值计算出每一帧的语音存在概率。本发明提出的语音活动检测方法鲁棒性强,可以在不同的噪音环境中计算出带噪语音信号中的语音存在的概率。
附图说明
图1为本发明的算法流程图;
图2为采用本发明提出的方法对一段带噪语音计算得到的语音存在概率示意图;
具体实施方式
下面根据附图对本发明进行详细描述,其为本发明多种实施方式中的一种优选实施例。
在一个优选实施例中,技术方案包含以下步骤:
步骤1、对输入的带噪语音信号data分帧得到x(i),帧长len1设置为40ms,帧移len2设置为20ms,其中i为帧号;
步骤2、对各帧做快速傅立叶变换(FFT)并取模,加汉明窗平滑,得到xfft(i)=abs(FFT(x(i)))*hamming(L),其中abs表示取模运算,*表示卷积运算,hamming(L)表示窗长为L的汉明窗,L可根据具体应用调整;
步骤3、对相邻两帧的xfft做互相关运算,得到xcorr(i)=∑xfft(i)·xfft(i+1);
步骤4、对xcorr(i)取四次方根,得到xdata(i)=(xcorr(i))1/4
步骤5、计算xdata(i)的幅度分布,得到幅度分布最大值对应的横坐标m=abscissa(max(H(xdata))),max(*)表示*的最大值,H(*)表示*的幅度分布,abscissa(*)表示*的横坐标;
步骤6、计算xdata2(i)=max(0,xdata(i)-m);
步骤7、对xdata2(i)做归一化处理,得xdata3(i)=xdata2(i)/max(xdata2),对xdata3(i)做平滑处理,得xsp(i)=xdata3*hamming(len2),则xsp(i)即表示第i帧包含语音的概率。
在另一个优选实施例中,可以采用如下方案:如图1所示,一种对带噪语音进行语音活动检测的方法,可以在不同的噪音环境中检测出带噪语音信号中的语音和非语音部分,其具体步骤为:步骤1、对输入的带噪语音信号data分帧得到x(i),帧长len1设置为40ms,帧移len2设置为20ms,其中i为帧号;步骤2、对各帧做快速傅立叶变换(FFT)并取模,加汉明窗平滑,得到xfft(i)=abs(FFT(x(i)))*hamming(L),其中abs表示取模运算,*表示卷积运算,hamming(L)表示窗长为L的汉明窗,L可根据具体应用调整;步骤3、对相邻两帧的xfft做互相关运算,得到xcorr(i)=∑xfft(i)·xfft(i+1);步骤4、对xcorr(i)取四次方根,得到xdata(i)=(xcorr(i))1/4;步骤5、计算xdata(i)的幅度分布,得到幅度分布最大值对应的横坐标m=abscissa(max(H(xdata))),max(*)表示*的最大值,H(*)表示*的幅度分布,abscissa(*)表示*的横坐标;步骤6、计算xdata2(i)=max(0,xdata(i)-m);步骤7、对xdata2(i)做归一化处理,得xdata3(i)=xdata2(i)/max(xdata2),对xdata3(i)做平滑处理,得xsp(i)=xdata3*hamming(len2),则xsp(i)即表示第i帧包含语音的概率。
如图2所示,该带噪语音为夹杂工厂噪音的语音,信噪比为3分贝,对输入的带噪语音进行分帧,然后计算相邻帧快速傅立叶变换模的互相关值,基于此互相关值计算出每一帧的语音存在概率。本发明提出的语音活动检测方法鲁棒性强,可以在不同的噪音环境中计算出带噪语音信号中的语音存在的概率。其原理为:对分帧后的带噪语音做快速傅立叶变换后取模。求相邻帧的模的互相关值后,取其四次方根。互相关值四次方根需要减去所有互相关值四次方根幅度分布最大值对应的横坐标,并且小于零的数值归零。互相关值四次方根减去所有互相关值四次方根幅度分布最大值对应的横坐标,并且小于零的数值归零后,需要进行归一化和平滑处理。
上面结合附图对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种改进,或未经改进直接应用于其它场合的,均在本发明的保护范围之内。

Claims (10)

1.一种对带噪语音进行语音活动检测的方法,其特征在于,包括如下步骤:
a.采集语音信号;
b.输入步骤a采集的语音信号;
c.对输入的带噪语音进行分帧处理;
d.计算相邻帧快速傅立叶变换模的互相关值;
e.基于步骤d所得互相关值计算出每一帧的语音存在概率。
2.如权利要求1所述的对带噪语音进行语音活动检测的方法,其特征在于,步骤c中,对输入的带噪语音信号data分帧得到x(i),帧长len1设置为40ms,帧移len2设置为20ms,其中i为帧号。
3.如权利要求1和2所述的对带噪语音进行语音活动检测的方法,其特征在于,步骤d中包括:
(d-1)对分帧后的带噪语音做快速傅立叶变换后取模;
(d-2)求相邻帧的模的互相关值;
(d-3)求相邻帧的模的互相关值后,取其四次方根;
(d-4)互相关值四次方根需要减去所有互相关值四次方根幅度分布最大值对应的横坐标,并且小于零的数值归零。
4.如权利要求1-3所述的对带噪语音进行语音活动检测的方法,其特征在于,步骤e中包括:
(e-1)归一化处理;
(e-2)平滑处理;
(e-3)得到语音概率。
5.如权利要求1-4所述的对带噪语音进行语音活动检测的方法,其特征在于,步骤b中输入手机、助听器以及语音编码系统等,其内置可运行本方法的检测芯片。
6.如权利要求3所述的对带噪语音进行语音活动检测的方法,其特征在于,步骤(d-1)中,对各帧做快速傅立叶变换(FFT)并取模,加汉明窗平滑,得到xfft(i)=abs(FFT(x(i)))*hamming(L),其中abs表示取模运算,*表示卷积运算,hamming(L)表示窗长为L的汉明窗,L可根据具体应用调整。
7.如权利要求3和6所述的对带噪语音进行语音活动检测的方法,其特征在于,步骤(d-2)中,对相邻两帧的xfft做互相关运算,得到xcorr(i)=∑xfft(i)·xfft(i+1)。
8.如权利要求3,6和7所述的对带噪语音进行语音活动检测的方法,其特征在于,步骤(d-3)中,对xcorr(i)取四次方根,得到xdata(i)=(xcorr(i))1/4
9.如权利要求3,6-8所述的对带噪语音进行语音活动检测的方法,其特征在于,步骤(d-4)中,计算xdata(i)的幅度分布,得到幅度分布最大值对应的横坐标m=abscissa(max(H(xdata))),max(*)表示*的最大值,H(*)表示*的幅度分布,abscissa(*)表示*的横坐标;计算xdata2(i)=max(0,xdata(i)-m)。
10.如权利要求4-9所述的对带噪语音进行语音活动检测的方法,其特征在于,步骤(e-1)中,对xdata2(i)做归一化处理,得xdata3(i)=xdata2(i)/max(xdata2);步骤(e-2)中,对xdata3(i)做平滑处理,得xsp(i)=xdata3*hamming(len2);步骤(e-3)中,得到xsp(i)即表示第i帧包含语音的概率。
CN201610445448.3A 2016-06-21 2016-06-21 一种对带噪语音进行语音活动检测的方法 Active CN106128480B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610445448.3A CN106128480B (zh) 2016-06-21 2016-06-21 一种对带噪语音进行语音活动检测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610445448.3A CN106128480B (zh) 2016-06-21 2016-06-21 一种对带噪语音进行语音活动检测的方法

Publications (2)

Publication Number Publication Date
CN106128480A true CN106128480A (zh) 2016-11-16
CN106128480B CN106128480B (zh) 2019-08-13

Family

ID=57470127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610445448.3A Active CN106128480B (zh) 2016-06-21 2016-06-21 一种对带噪语音进行语音活动检测的方法

Country Status (1)

Country Link
CN (1) CN106128480B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109243495A (zh) * 2018-09-07 2019-01-18 成都必盛科技有限公司 语音检测方法及装置
CN109785866A (zh) * 2019-03-07 2019-05-21 上海电力学院 基于相关函数最大值的广播语音与噪声检测的方法
CN111048096A (zh) * 2019-12-24 2020-04-21 大众问问(北京)信息科技有限公司 一种语音信号处理方法、装置及终端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0543719A1 (fr) * 1991-11-22 1993-05-26 Thomson-Csf Procédé et dispositif de décision de voisement pour vocodeur à très faible débit
CN102044247A (zh) * 2009-10-10 2011-05-04 北京理工大学 一种针对VoIP语音的客观评测方法
CN102682765A (zh) * 2012-04-27 2012-09-19 中咨泰克交通工程集团有限公司 高速公路音频车辆检测装置及其方法
CN103021420A (zh) * 2012-12-04 2013-04-03 中国科学院自动化研究所 一种基于相位调整和幅值补偿的多子带谱减法的语音增强方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0543719A1 (fr) * 1991-11-22 1993-05-26 Thomson-Csf Procédé et dispositif de décision de voisement pour vocodeur à très faible débit
CN102044247A (zh) * 2009-10-10 2011-05-04 北京理工大学 一种针对VoIP语音的客观评测方法
CN102682765A (zh) * 2012-04-27 2012-09-19 中咨泰克交通工程集团有限公司 高速公路音频车辆检测装置及其方法
CN103021420A (zh) * 2012-12-04 2013-04-03 中国科学院自动化研究所 一种基于相位调整和幅值补偿的多子带谱减法的语音增强方法
CN103021420B (zh) * 2012-12-04 2015-02-25 中国科学院自动化研究所 一种基于相位调整和幅值补偿的多子带谱减法的语音增强方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KUN-CHING WANG: "Wavelet-Based Speech Enhancement Using Time-Frequency Adaptation", 《EURASIP JOURNAL ON ADVANCES IN SIGNAL PROCESSING》 *
梁瑞宇等: "《语音信号处理实验流程》", 31 March 2016, 机械工业出版社 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109243495A (zh) * 2018-09-07 2019-01-18 成都必盛科技有限公司 语音检测方法及装置
CN109785866A (zh) * 2019-03-07 2019-05-21 上海电力学院 基于相关函数最大值的广播语音与噪声检测的方法
CN111048096A (zh) * 2019-12-24 2020-04-21 大众问问(北京)信息科技有限公司 一种语音信号处理方法、装置及终端
CN111048096B (zh) * 2019-12-24 2022-07-26 大众问问(北京)信息科技有限公司 一种语音信号处理方法、装置及终端

Also Published As

Publication number Publication date
CN106128480B (zh) 2019-08-13

Similar Documents

Publication Publication Date Title
Aneeja et al. Single frequency filtering approach for discriminating speech and nonspeech
CN103646649A (zh) 一种高效的语音检测方法
CN108831499A (zh) 利用语音存在概率的语音增强方法
CN101089952B (zh) 噪声抑制、提取特征、训练模型及语音识别的方法和装置
CN105405448B (zh) 一种音效处理方法及装置
CN108154879B (zh) 一种基于倒谱分离信号的非特定人语音情感识别方法
CN105161092B (zh) 一种语音识别方法和装置
CN106486131A (zh) 一种语音去噪的方法及装置
CN103632677B (zh) 带噪语音信号处理方法、装置及服务器
CN103544961B (zh) 语音信号处理方法及装置
CN110931022B (zh) 基于高低频动静特征的声纹识别方法
CN101051464A (zh) 说话人认证的注册和验证方法及装置
CN106653056A (zh) 基于lstm循环神经网络的基频提取模型及训练方法
CN106971740A (zh) 基于语音存在概率和相位估计的语音增强方法
CN109767756A (zh) 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法
CN102723081B (zh) 语音信号处理方法、语音和声纹识别方法及其装置
CN103794207A (zh) 一种双模语音身份识别方法
CN110942766A (zh) 音频事件检测方法、系统、移动终端及存储介质
US9076446B2 (en) Method and apparatus for robust speaker and speech recognition
CN102237083A (zh) 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法
CN107274887A (zh) 基于融合特征mgfcc的说话人二次特征提取方法
CN106128480A (zh) 一种对带噪语音进行语音活动检测的方法
CN110931023A (zh) 性别识别方法、系统、移动终端及存储介质
CN106548786A (zh) 一种音频数据的检测方法及系统
CN105845143A (zh) 基于支持向量机的说话人确认方法及其系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20201221

Address after: 100085 813-3, 8th floor, building 4, yard 1, shangdishi street, Haidian District, Beijing

Patentee after: Beijing hill Shell Technology Co.,Ltd.

Address before: 241000 Wuhu Road, Yijiang District, Anhui,

Patentee before: ANHUI NORMAL University

TR01 Transfer of patent right