CN106128480B - 一种对带噪语音进行语音活动检测的方法 - Google Patents
一种对带噪语音进行语音活动检测的方法 Download PDFInfo
- Publication number
- CN106128480B CN106128480B CN201610445448.3A CN201610445448A CN106128480B CN 106128480 B CN106128480 B CN 106128480B CN 201610445448 A CN201610445448 A CN 201610445448A CN 106128480 B CN106128480 B CN 106128480B
- Authority
- CN
- China
- Prior art keywords
- frame
- voice
- signal
- noisy speech
- correlation value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000001514 detection method Methods 0.000 title claims abstract description 18
- 230000000694 effects Effects 0.000 title claims abstract description 17
- 238000009432 framing Methods 0.000 claims description 9
- 238000009499 grossing Methods 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 3
- 210000001260 vocal cord Anatomy 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种对带噪语音进行语音活动检测的方法,包括步骤:采集语音信号;输入步骤a采集的语音信号;对输入的带噪语音进行分帧处理;计算相邻帧快速傅立叶变换模的互相关值;基于步骤d所得互相关值计算出每一帧的语音存在概率。本发明提出的语音活动检测方法鲁棒性强,可以在不同的噪音环境中计算出带噪语音信号中的语音存在的概率。
Description
技术领域
本发明涉及语音信号处理技术领域,具体涉及一种对带噪语音进行语音活动检测的方法。
背景技术
语音质量在一些语音应用中很重要,比如手机、助听器以及语音编码系统等等,提升语音质量的一个关键就是消除信号中的噪音。而分析和处理语音需要解决的一个首要问题是检测出语音信号中的语音和非语音,即语音活动检测(Voice activity detection,VAD)。
基于G.729标准的VAD方法计算信号的能量,然后设定门限对信号的每一帧进行简单的分类,同时还用平滑和自适应的校正来提高分类的准确性。然而,这种方法在噪音存在的情况下无法取得令人满意的效果。所以,很多学者开始尝试利用数学建模实现VAD,但是这种方法无法在不同的噪声环境中均取得良好的效果,为解决这一问题,研究者们进一步提出了声学事件检测(AED)技术,转换卡尔曼滤波器(SKF),聚类算法(如谱聚类)和稀疏编码(Sparse Coding)等等。然而,这些方法有的需要很大的计算量,有的需要纯净语音作为参考,有很大的局限性。
语音是由人的声带产生的,某一个人的声带通常可以认为是不变的,所以一段信号中的不同的语音部分常常有一些共同的相像的特征,这些特征取决于说话者的声带,是非语音部分不具有的。
发明内容
为了解决现有的VAD方法存在的不足,本发明提出一种对带噪语音进行语音活动检测的方法,可以在不同的噪音环境中计算出语音信号中的语音存在的概率。具体技术方案如下:
一种对带噪语音进行语音活动检测的方法,包括如下步骤:
a.采集语音信号;
b.输入步骤a采集的语音信号;
c.对输入的带噪语音进行分帧处理;
d.计算相邻帧快速傅立叶变换模的互相关值;
e.基于步骤d所得互相关值计算出每一帧的语音存在概率。
进一步地,步骤c中,对输入的带噪语音信号data分帧得到x(i),帧长len1设置为40ms,帧移len2设置为20ms,其中i为帧号。
进一步地,步骤d中包括:
(d-1)对分帧后的带噪语音做快速傅立叶变换后取模;
(d-2)求相邻帧的模的互相关值;
(d-3)求相邻帧的模的互相关值后,取其四次方根;
(d-4)互相关值四次方根需要减去所有互相关值四次方根幅度分布最大值对应的横坐标,并且小于零的数值归零。
进一步地,步骤e中包括:
(e-1)归一化处理;
(e-2)平滑处理;
(e-3)得到语音概率。
进一步地,步骤b中输入手机、助听器以及语音编码系统等,其内置可运行本方法的检测芯片。
进一步地,步骤(d-1)中,对各帧做快速傅立叶变换(FFT)并取模,加汉明窗平滑,得到xfft(i)=abs(FFT(x(i)))*hamming(L),其中abs表示取模运算,*表示卷积运算,hamming(L)表示窗长为L的汉明窗,L可根据具体应用调整。
进一步地,步骤(d-2)中,对相邻两帧的xfft做互相关运算,得到xcorr(i)=∑xfft(i)·xfft(i+1)。
进一步地,步骤(d-3)中,对xcorr(i)取四次方根,得到xdata(i)=(xcorr(i))1/4。
进一步地,步骤(d-4)中,计算xdata(i)的幅度分布,得到幅度分布最大值对应的横坐标m=abscissa(max(H(xdata))),max(*)表示*的最大值,H(*)表示*的幅度分布,abscissa(*)表示*的横坐标;计算xdata2(i)=max(0,xdata(i)-m)。
进一步地,步骤(e-1)中,对xdata2(i)做归一化处理,得xdata3(i)=xdata2(i)/max(xdata2);步骤(e-2)中,对xdata3(i)做平滑处理,得xsp(i)=xdata3*hamming(len2);步骤(e-3)中,得到xsp(i)即表示第i帧包含语音的概率。
与目前现有技术相比,本发明对输入的带噪语音进行分帧,然后计算相邻帧快速傅立叶变换模的互相关值,基于此互相关值计算出每一帧的语音存在概率。本发明提出的语音活动检测方法鲁棒性强,可以在不同的噪音环境中计算出带噪语音信号中的语音存在的概率。
附图说明
图1为本发明的算法流程图;
图2为采用本发明提出的方法对一段带噪语音计算得到的语音存在概率示意图;
具体实施方式
下面根据附图对本发明进行详细描述,其为本发明多种实施方式中的一种优选实施例。
在一个优选实施例中,技术方案包含以下步骤:
步骤1、对输入的带噪语音信号data分帧得到x(i),帧长len1设置为40ms,帧移len2设置为20ms,其中i为帧号;
步骤2、对各帧做快速傅立叶变换(FFT)并取模,加汉明窗平滑,得到xfft(i)=abs(FFT(x(i)))*hamming(L),其中abs表示取模运算,*表示卷积运算,hamming(L)表示窗长为L的汉明窗,L可根据具体应用调整;
步骤3、对相邻两帧的xfft做互相关运算,得到xcorr(i)=∑xfft(i)·xfft(i+1);
步骤4、对xcorr(i)取四次方根,得到xdata(i)=(xcorr(i))1/4;
步骤5、计算xdata(i)的幅度分布,得到幅度分布最大值对应的横坐标m=abscissa(max(H(xdata))),max(*)表示*的最大值,H(*)表示*的幅度分布,abscissa(*)表示*的横坐标;
步骤6、计算xdata2(i)=max(0,xdata(i)-m);
步骤7、对xdata2(i)做归一化处理,得xdata3(i)=xdata2(i)/max(xdata2),对xdata3(i)做平滑处理,得xsp(i)=xdata3*hamming(len2),则xsp(i)即表示第i帧包含语音的概率。
在另一个优选实施例中,可以采用如下方案:如图1所示,一种对带噪语音进行语音活动检测的方法,可以在不同的噪音环境中检测出带噪语音信号中的语音和非语音部分,其具体步骤为:步骤1、对输入的带噪语音信号data分帧得到x(i),帧长len1设置为40ms,帧移len2设置为20ms,其中i为帧号;步骤2、对各帧做快速傅立叶变换(FFT)并取模,加汉明窗平滑,得到xfft(i)=abs(FFT(x(i)))*hamming(L),其中abs表示取模运算,*表示卷积运算,hamming(L)表示窗长为L的汉明窗,L可根据具体应用调整;步骤3、对相邻两帧的xfft做互相关运算,得到xcorr(i)=∑xfft(i)·xfft(i+1);步骤4、对xcorr(i)取四次方根,得到xdata(i)=(xcorr(i))1/4;步骤5、计算xdata(i)的幅度分布,得到幅度分布最大值对应的横坐标m=abscissa(max(H(xdata))),max(*)表示*的最大值,H(*)表示*的幅度分布,abscissa(*)表示*的横坐标;步骤6、计算xdata2(i)=max(0,xdata(i)-m);步骤7、对xdata2(i)做归一化处理,得xdata3(i)=xdata2(i)/max(xdata2),对xdata3(i)做平滑处理,得xsp(i)=xdata3*hamming(len2),则xsp(i)即表示第i帧包含语音的概率。
如图2所示,该带噪语音为夹杂工厂噪音的语音,信噪比为3分贝,对输入的带噪语音进行分帧,然后计算相邻帧快速傅立叶变换模的互相关值,基于此互相关值计算出每一帧的语音存在概率。本发明提出的语音活动检测方法鲁棒性强,可以在不同的噪音环境中计算出带噪语音信号中的语音存在的概率。其原理为:对分帧后的带噪语音做快速傅立叶变换后取模。求相邻帧的模的互相关值后,取其四次方根。互相关值四次方根需要减去所有互相关值四次方根幅度分布最大值对应的横坐标,并且小于零的数值归零。互相关值四次方根减去所有互相关值四次方根幅度分布最大值对应的横坐标,并且小于零的数值归零后,需要进行归一化和平滑处理。
上面结合附图对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种改进,或未经改进直接应用于其它场合的,均在本发明的保护范围之内。
Claims (3)
1.一种对带噪语音进行语音活动检测的方法,其特征在于,包括如下步骤:
a.采集语音信号;
b.输入步骤a采集的语音信号;
c.对输入的带噪语音进行分帧处理;
d.计算相邻帧快速傅立叶变换模的互相关值;
e.基于步骤d所得互相关值计算出每一帧的语音存在概率;
其中步骤d中包括:
(d-1)对分帧后的带噪语音做快速傅立叶变换后取模;
(d-2)求相邻帧的模的互相关值;
(d-3)求相邻帧的模的互相关值后,取其四次方根;
(d-4)互相关值四次方根需要减去所有互相关值四次方根幅度分布最大值对应的横坐标,并且小于零的数值归零;
其中步骤e中包括:
(e-1)归一化处理;
(e-2)平滑处理;
(e-3)得到语音概率;
其中,步骤(e-1)中,对xdata2(i)做归一化处理,得xdata3(i)=xdata2(i)/max(xdata2);步骤(e-2)中,对xdata3(i)做平滑处理,得xsp(i)=xdata3*hamming(len2);步骤(e-3)中,得到xsp(i)即表示第i帧包含语音的概率;
步骤(d-1)中,对各帧做快速傅立叶变换(FFT)并取模,加汉明窗平滑,得到xfft(i)=abs(FFT(x(i)))*hamming(L),其中abs表示取模运算,*表示卷积运算,hamming(L)表示窗长为L的汉明窗,L可根据具体应用调整;
步骤(d-2)中,对相邻两帧的xfft做互相关运算,得到xcorr(i)=∑xfft(i)·xfft(i+1);
步骤(d-3)中,对xcorr(i)取四次方根,得到xdata(i)=(xcorr(i))1/4;
步骤(d-4)中,计算xdata(i)的幅度分布,得到幅度分布最大值对应的横坐标m=abscissa(max(H(xdata))),max(*)表示*的最大值,H(*)表示*的幅度分布,abscissa(*)表示*的横坐标;计算xdata2(i)=max(0,xdata(i)-m);
xfft(i)为平滑后得到的信号一,xcorr(i)为互相关运算后得到的信号二,xdata(i)为四次方根后得到的信号三,xdata2(i)为幅度分布处理后得到的信号四,xdata3(i)为归一化处理后得到的信号五。
2.如权利要求1所述的对带噪语音进行语音活动检测的方法,其特征在于,步骤c中,对输入的带噪语音信号data分帧得到x(i),帧长len1设置为40ms,帧移len2设置为20ms,其中i为帧号。
3.如权利要求1所述的对带噪语音进行语音活动检测的方法,其特征在于,将采集的语音信号输入手机、助听器或语音编码系统,其内置可运行本方法的检测芯片。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610445448.3A CN106128480B (zh) | 2016-06-21 | 2016-06-21 | 一种对带噪语音进行语音活动检测的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610445448.3A CN106128480B (zh) | 2016-06-21 | 2016-06-21 | 一种对带噪语音进行语音活动检测的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106128480A CN106128480A (zh) | 2016-11-16 |
CN106128480B true CN106128480B (zh) | 2019-08-13 |
Family
ID=57470127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610445448.3A Active CN106128480B (zh) | 2016-06-21 | 2016-06-21 | 一种对带噪语音进行语音活动检测的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106128480B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109243495A (zh) * | 2018-09-07 | 2019-01-18 | 成都必盛科技有限公司 | 语音检测方法及装置 |
CN109785866A (zh) * | 2019-03-07 | 2019-05-21 | 上海电力学院 | 基于相关函数最大值的广播语音与噪声检测的方法 |
CN111048096B (zh) * | 2019-12-24 | 2022-07-26 | 大众问问(北京)信息科技有限公司 | 一种语音信号处理方法、装置及终端 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2684226B1 (fr) * | 1991-11-22 | 1993-12-24 | Thomson Csf | Procede et dispositif de decision de voisement pour vocodeur a tres faible debit. |
CN102044247B (zh) * | 2009-10-10 | 2012-07-04 | 北京理工大学 | 一种针对VoIP语音的客观评测方法 |
CN102682765B (zh) * | 2012-04-27 | 2013-09-18 | 中咨泰克交通工程集团有限公司 | 高速公路音频车辆检测装置及其方法 |
CN103021420B (zh) * | 2012-12-04 | 2015-02-25 | 中国科学院自动化研究所 | 一种基于相位调整和幅值补偿的多子带谱减法的语音增强方法 |
-
2016
- 2016-06-21 CN CN201610445448.3A patent/CN106128480B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN106128480A (zh) | 2016-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Aneeja et al. | Single frequency filtering approach for discriminating speech and nonspeech | |
CN101089952B (zh) | 噪声抑制、提取特征、训练模型及语音识别的方法和装置 | |
Ganapathy et al. | Robust feature extraction using modulation filtering of autoregressive models | |
US9384760B2 (en) | Sound processing device and sound processing method | |
CN102543073B (zh) | 一种沪语语音识别信息处理方法 | |
CN103646649A (zh) | 一种高效的语音检测方法 | |
CN107910011A (zh) | 一种语音降噪方法、装置、服务器及存储介质 | |
CN108154879B (zh) | 一种基于倒谱分离信号的非特定人语音情感识别方法 | |
CN101154383B (zh) | 噪声抑制、提取语音特征、语音识别及训练语音模型的方法和装置 | |
CN108597505A (zh) | 语音识别方法、装置及终端设备 | |
CN105448302B (zh) | 一种环境自适应的语音混响消除方法和系统 | |
CN103544961B (zh) | 语音信号处理方法及装置 | |
CN102723081B (zh) | 语音信号处理方法、语音和声纹识别方法及其装置 | |
CN111243617B (zh) | 一种基于深度学习降低mfcc特征失真的语音增强方法 | |
CN106023986B (zh) | 一种基于声效模式检测的语音识别方法 | |
CN106128480B (zh) | 一种对带噪语音进行语音活动检测的方法 | |
US9076446B2 (en) | Method and apparatus for robust speaker and speech recognition | |
CN106653004A (zh) | 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法 | |
CN105869656A (zh) | 一种语音信号清晰度的确定方法及装置 | |
CN110197657B (zh) | 一种基于余弦相似度的动态音声特征提取方法 | |
CN109215635B (zh) | 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法 | |
KR102042344B1 (ko) | 음성 유사도 판단 장치 및 음성 유사도 판단 방법 | |
Flynn et al. | Combined speech enhancement and auditory modelling for robust distributed speech recognition | |
KR101361034B1 (ko) | 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템 | |
Yali et al. | A speech endpoint detection algorithm based on wavelet transforms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20201221 Address after: 100085 813-3, 8th floor, building 4, yard 1, shangdishi street, Haidian District, Beijing Patentee after: Beijing hill Shell Technology Co.,Ltd. Address before: 241000 Wuhu Road, Yijiang District, Anhui, Patentee before: ANHUI NORMAL University |
|
TR01 | Transfer of patent right |