CN112837704A - 一种基于端点检测的语音背景噪声识别方法 - Google Patents
一种基于端点检测的语音背景噪声识别方法 Download PDFInfo
- Publication number
- CN112837704A CN112837704A CN202110025325.5A CN202110025325A CN112837704A CN 112837704 A CN112837704 A CN 112837704A CN 202110025325 A CN202110025325 A CN 202110025325A CN 112837704 A CN112837704 A CN 112837704A
- Authority
- CN
- China
- Prior art keywords
- noise
- gfcc
- voice
- voice signal
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000001514 detection method Methods 0.000 title claims abstract description 38
- 238000009432 framing Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 230000006835 compression Effects 0.000 claims description 10
- 238000007906 compression Methods 0.000 claims description 10
- 230000003595 spectral effect Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 6
- 238000005070 sampling Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及一种基于端点检测的语音背景噪声识别方法,属于语音信号处理技术领域。首先对带有背景噪声的语音信号进行预处理,预处理包括预加重、分帧和加窗等步骤;其次,提取每一帧语音信号的GFCC0特征,通过模糊C均值聚类法计算该段语音信号GFCC0特征的聚类中心,利用GFCC0特征的聚类中心和双门限法将语音信号分为若干个语音段和噪声段;然后,截取出语音信号的噪声段,并提取语音信号噪声段的短时过零率和短时能量两类特征;最后,通过统计噪声段满足短时能量和短时过零率分布范围的最大帧数占噪声段总帧数的概率,判定所提噪声段的种类,实现语音信号背景噪声的识别。本发明解决了由于前导无话段长度不足导致背景噪声识别效果不佳的问题。
Description
技术领域
本发明涉及一种基于端点检测的语音背景噪声识别方法,属于语音信号处理技术领域。
背景技术
随着语音信号处理技术的不断发展,语音端点检测已经广泛应用到了语音识别、语音增强和音频分类技术的前端。语音端点检测方法分为基于特征的方法和基于模式识别的方法,其中基于模式识别的方法在训练过程中需要大量的数据,导致计算量较大,难以达到端点检测的实时性要求,所以基于特征的方法是实时性语音端点检测的主流。在基于特征的语音端点检测方法中只有选用噪声环境下对语音段追踪能力较强的特征才能取得较好的端点检测结果。由于语音信号的GFCC特征具有较好的抗噪性能,因此将GFCC特征的第一维系数GFCC0特征运用到语音端点检测任务中。
日常生活中,语音信号的传递总是带有这样或那样的噪声,对带噪语音信号的背景噪声进行识别,可以为说话人所处场景的识别提供帮助。但是现有的语音信号背景识别方法是通过前导无话段进行识别的,这样就出现了两个问题:(1)前导无话段帧数过短导致背景噪声的识别效果不佳;(2)前导无话段除包含噪声帧外可能还包含语音帧,语音帧同样会对背景噪声的识别效果产生影响。
发明内容
本发明要解决的技术问题是提供一种基于端点检测的语音背景噪声识别方法,将语音信号的GFCC0特征运用到语音端点检测任务中,并基于端点检测技术截取语音信号的噪声段进行识别,解决了由于前导无话段长度不足导致背景噪声识别效果不佳的问题。
本发明的技术方案是:一种基于端点检测的语音背景噪声识别方法,将语音信号的GFCC0特征运用到语音端点检测任务中,并基于端点检测技术截取语音信号的噪声段进行识别,解决了由于前导无话段长度不足导致背景噪声识别效果不佳的问题,具体步骤为:
Step1:对带有背景噪声的语音信号进行预处理。
Step2:利用Gammatone滤波器提取每一帧的语音信号的GFCC特征,取信号GFCC特征的第一维得到语音信号的GFCC0特征。
Step3:通过模糊C均值聚类法计算该段语音信号GFCC0特征的聚类中心。
Step4:利用GFCC0特征的聚类中心和双门限法对语音进行端点检测,将语音信号分为若干个语音段和噪声段。
Step5:根据端点检测的结果截取出语音信号的噪声段,并提取语音信号噪声段的短时过零率和短时能量两类特征。
Step6:通过统计噪声段满足短时能量和短时过零率分布范围的最大帧数占噪声段总帧数的概率,实现语音信号背景噪声的识别。
所述Step1中,预处理包括预加重处理、分帧处理和加窗处理,具体的说:
预加重处理:就是将语音信号通过一个高通滤波器,提升语音信号的高频部分。
分帧处理:语音信号在10-30ms内具有短时平稳性,分帧处理就是在短时平稳性的基础上将语音信号分为若干个小段,每个小段为一帧,帧与帧之间有一定的重叠,重叠部分一般为帧长的1/2,帧与帧之间的重叠部分使帧信号之间能够平滑过渡。
加窗处理:加窗的目的在于减少语音信号的频谱泄漏,常用的窗有矩形窗、汉宁窗和海明窗等。
所述Step2中,Gammatone滤波器的时域脉冲响为:
h(t)=gta-1e-2πbtcos(2πft),t>0 (1)
式(1)中,g为Gammatone滤波器的增益,a为个数,f为中心频率,t为时间,b为带宽,b是以中心频率f为基础计算得到的。
所述Step2中,提取GFCC特征的具体步骤为:
Step2.1:对分帧后的信号进行FFT变换,然后计算该帧语音信号的谱线能量Ei(k):
Ei(k)=[Xi(k)]2 (2)
式(2)中,i表示语音信号的帧序号,k表示谱线的序号。
Step2.2:谱线能量Ei(k)通过Gammatone滤波器后进行指数压缩:
式(3)中,Hm(k)为Gammatone滤波器频率响应,M为滤波器个数,m为滤波器的序号,e为指数压缩值。
Step2.3:对指数压缩后的能量进行离散余弦变换得到每一帧信号的GFCC特征:
式(4)中,n为GFCC特征的维数,M为滤波器个数,m为滤波器的序号,S′i(m)为指数压缩后的能量。
Step2.4:取每一帧信号GFCC特征的第一维系数得到语音信号的GFCC0特征Gi。
所述Step3中,GFCC0特征聚类中心的计算是通过模糊C均值聚类法计算得到的,在计算时选取的聚类中心个数为2。
所述Step4中,端点检测的具体步骤为:
Step4.1:使用模糊C均值聚类法计算语音信号GFCC0特征的聚类中心{m11,m12},其中:
式(5)中,mvioce表示语音段GFCC0特征Gi的聚类中心,mnoise表示噪声段GFCC0特征Gi的聚类中心。
Step4.2:根据语音信号GFCC0特征的聚类中心和经验常数自适应计算该段语音信号的高门限值和低门限值:
式(6)中,Th为双门限的高门限值,Tl为双门限的低门限值。
Step4.3:将高门限值Th和低门限值Tl分别作为双门限法的高低门限,通过双门限法得到语音端点检测的结果。
Step4.4:带噪语音信号是由语音段和噪声段共同构成的,通过端点检测语音信号被分为若干个语音段和噪声段。
所述Step5中的噪声段截取是指将带噪语音信号中的所有噪声段截取出来。
所述Step5中,短时过零率表示为:
式(7)中,y(n)表示所提噪声段信号在该采样点下的幅值,L表示帧长,sgn[·]表示符号函数。
短时能量表示为:
式(8)中,y(n)表示所提噪声段信号在该采样点下的幅值,L表示帧长,n=1,2,...,L。
所述Step6中,需要设定噪声段短时能量E和短时过零率Z的分布范围,根据噪声段中满足分布范围的最大帧数占噪声段总帧数的概率,对噪声所属的种类进行判定,最终实现语音信号背景噪声的识别。
本发明的有益效果是:本发明与现有技术相比,将抗噪性能较好的GFCC0特征运用到语音端点检测任务中,并基于端点检测技术截取语音信号的噪声段,解决了由于前导无话段长度不足导致背景噪声识别效果不佳的问题,同时所使用的端点检测方法和噪声识别方法均能达到实时性的要求。
附图说明
图1是本发明的步骤流程图;
图2是本发明提取GFCC0特征的流程图;
图3是本发明端点检测的流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-3所示,一种基于端点检测的语音背景噪声识别方法,首先对带有背景噪声的语音信号进行预处理,预处理包括预加重、分帧和加窗等步骤;其次,提取每一帧语音信号的GFCC0特征,通过模糊C均值聚类法计算该段语音信号GFCC0特征的聚类中心,利用GFCC0特征的聚类中心和双门限法将语音信号分为若干个语音段和噪声段;然后,截取出语音信号的噪声段,并提取语音信号噪声段的短时过零率和短时能量两类特征;最后,通过统计噪声段满足短时能量和短时过零率分布范围的最大帧数占噪声段总帧数的概率,判定所提噪声段的种类,实现语音信号背景噪声的识别。
具体步骤为:
Step1:对带有背景噪声的语音信号进行预处理。预处理包括预加重处理、分帧处理和加窗处理,具体的说:
预加重处理:就是将语音信号通过一个高通滤波器,提升语音信号的高频部分。
分帧处理:语音信号在10-30ms内具有短时平稳性,分帧处理就是在短时平稳性的基础上将语音信号分为若干个小段,每个小段为一帧,帧与帧之间有一定的重叠,重叠部分一般为帧长的1/2,帧与帧之间的重叠部分使帧信号之间能够平滑过渡。
加窗处理:加窗的目的在于减少语音信号的频谱泄漏,常用的窗有矩形窗、汉宁窗和海明窗等。
待测语音信号均为带有背景噪声的信号,将待测语音信号统一为8kHZ采样率,16bit量化精度的单声道音频文件,分帧时取帧长128个采样点(16ms),重叠部分64个采样点(8ms),加窗处理时使用海明窗。
Step2:利用Gammatone滤波器提取每一帧的语音信号的GFCC特征,取信号GFCC特征的第一维得到语音信号的GFCC0特征。
所述Step2中,Gammatone滤波器的时域脉冲响为:
h(t)=gta-1e-2πbtcos(2πft),t>0 (1)
式(1)中,g为Gammatone滤波器的增益,a为个数,f为中心频率,t为时间,b为带宽,b是以中心频率f为基础计算得到的。
所述Step2中,提取GFCC特征的具体步骤为:
Step2.1:对分帧后的信号进行FFT变换,然后计算该帧语音信号的谱线能量Ei(k):
Ei(k)=[Xi(k)]2 (2)
式(2)中,i表示语音信号的帧序号,k表示谱线的序号。
Step2.2:谱线能量Ei(k)通过Gammatone滤波器后进行指数压缩:
式(3)中,Hm(k)为Gammatone滤波器频率响应,M为滤波器个数,m为滤波器的序号,e为指数压缩值。
Step2.3:对指数压缩后的能量进行离散余弦变换得到每一帧信号的GFCC特征:
式(4)中,n为GFCC特征的维数,M为滤波器个数,m为滤波器的序号,S′i(m)为指数压缩后的能量。
Step2.4:取每一帧信号GFCC特征的第一维系数得到语音信号的GFCC0特征Gi。
Step3:通过模糊C均值聚类法计算该段语音信号GFCC0特征的聚类中心。
所述Step3中,GFCC0特征聚类中心的计算是通过模糊C均值聚类法计算得到的,在计算时选取的聚类中心个数为2。
Step4:利用GFCC0特征的聚类中心和双门限法对语音进行端点检测,将语音信号分为若干个语音段和噪声段。
所述Step4中,端点检测的具体步骤为:
Step4.1:使用模糊C均值聚类法计算语音信号GFCC0特征的聚类中心{m11,m12},其中:
式(5)中,mvioce表示语音段GFCC0特征Gi的聚类中心,mnoise表示噪声段GFCC0特征Gi的聚类中心。
Step4.2:根据语音信号GFCC0特征的聚类中心和经验常数自适应计算该段语音信号的高门限值和低门限值:
式(6)中,Th为双门限的高门限值,Tl为双门限的低门限值。
Step4.3:将高门限值Th和低门限值Tl分别作为双门限法的高低门限,通过双门限法得到语音端点检测的结果。
Step4.4:带噪语音信号是由语音段和噪声段共同构成的,通过端点检测语音信号被分为若干个语音段和噪声段。
Step5:根据端点检测的结果截取出语音信号的噪声段,并提取语音信号噪声段的短时过零率和短时能量两类特征。
所述Step5中的噪声段截取是指将带噪语音信号中的所有噪声段截取出来。
所述Step5中,短时过零率表示为:
式(7)中,y(n)表示所提噪声段信号在该采样点下的幅值,L表示帧长,sgn[·]表示符号函数。
短时能量表示为:
式(8)中,y(n)表示所提噪声段信号在该采样点下的幅值,L表示帧长,n=1,2,...,L。
Step6:通过统计噪声段满足短时能量和短时过零率分布范围的最大帧数占噪声段总帧数的概率,实现语音信号背景噪声的识别。
举例为:
(1)假定所有待测语音信号的背景噪声包含volvo、factory1、hfchannel、white和m109五种噪声,且一段待测语音仅包含一种噪声环境。
(2)通过对五种噪声的短时能量进行统计发现:white噪声的短时能量是最小的,其每一帧的短时能量都小于0.065,而其余四种噪声的短时能量都大于该值,其中hfchannel噪声大部分帧的短时能量大于2。
factory1噪声的短时能量主要位于(0.065,1.5)区间内,volvo噪声的短时能量主要位于(0.065,2)区间内,m109噪声的短时能量主要位于(0.065,4)区间内。
(3)通过对五种噪声的短时过零率进行统计发现:volvo噪声的短时过零率最小,大部分帧的短时过零率小于10,而hfchannel噪声和white噪声的短时过零率大部分大于100,m109噪声的短时过零率主要位于(10,30)区间内,factory1噪声的短时过零率主要位于(40,60)区间内。
(4)根据统计结果的主要分布范围计算满足如下条件的帧数:
(a)计算整个音频段中满足0<E<0.065的帧数a1。
(b)计算整个音频段中满足0.065<E<2且Z<10的帧数a2。
(c)计算整个音频段中满足0.065<E<4且10<Z<30的帧数a3。
(d)计算整个音频段中满足0.065<E<1.5且40<Z<60的帧数a4。
(e)计算整个音频段中满足2<E且100<Z的帧数a5。
(5)所提噪声段的总帧数为fn,根据满足分布范围的帧数占噪声段总帧数的概率实现语音信号背景噪声的识别:
(a)当a1>n1*fn时,判断该音频段为white噪声。
(b)当a2>n2*fn时,判断该音频段为volvo噪声。
(c)当a3>n3*fn时,判断该音频段为m109噪声。
(d)当a4>n4*fn时,判断该音频段为factory1噪声。
(e)当a5>n5*fn时,判断该音频段为hfchannel噪声。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (7)
1.一种基于端点检测的语音背景噪声识别方法,其特征在于:
Step1:对带有背景噪声的语音信号进行预处理,
Step2:利用Gammatone滤波器提取每一帧的语音信号的GFCC特征,取信号GFCC特征的第一维得到语音信号的GFCC0特征;
Step3:通过模糊C均值聚类法计算该段语音信号GFCC0特征的聚类中心;
Step4:利用GFCC0特征的聚类中心和双门限法对语音进行端点检测,将语音信号分为若干个语音段和噪声段;
Step5:根据端点检测的结果截取出语音信号的噪声段,并提取语音信号噪声段的短时过零率和短时能量两类特征;
Step6:通过统计噪声段满足短时能量和短时过零率分布范围的最大帧数占噪声段总帧数的概率,实现语音信号背景噪声的识别。
2.根据权利要求1所述的基于端点检测的语音背景噪声识别方法,其特征在于:所述Step1中,预处理包括预加重处理、分帧处理和加窗处理。
3.根据权利要求1所述的基于端点检测的语音背景噪声识别方法,其特征在于:所述Step2中,Gammatone滤波器的时域脉冲响为:
h(t)=gta-1e-2πbtcos(2πft),t>0
式中,g为Gammatone滤波器的增益,a为个数,f为中心频率,t为时间,b为带宽,b是以中心频率f为基础计算得到的。
4.根据权利要求1或2所述的基于端点检测的语音背景噪声识别方法,其特征在于:所述Step2中,提取GFCC特征的具体步骤为:
Step2.1:对分帧后的信号进行FFT变换,然后计算该帧语音信号的谱线能量Ei(k);
Step2.2:谱线能量Ei(k)通过Gammatone滤波器后进行指数压缩;
Step2.3:对指数压缩后的能量进行离散余弦变换得到每一帧信号的GFCC特征;
Step2.4:取每一帧信号GFCC特征的第一维系数得到语音信号的GFCC0特征。
5.根据权利要求1所述的基于端点检测的语音背景噪声识别方法,其特征在于:所述Step3中,GFCC0特征聚类中心的计算是通过模糊C均值聚类法计算得到的,在计算时选取的聚类中心个数为2。
6.根据权利要求1所述的基于端点检测的语音背景噪声识别方法,其特征在于:所述Step4中,端点检测的具体步骤为:
Step4.1:使用模糊C均值聚类法计算语音信号GFCC0特征的聚类中心;
Step4.2:根据语音信号GFCC0特征的聚类中心和经验常数自适应计算该段语音信号的高门限值和低门限值;
Step4.3:将高门限值和低门限值分别作为双门限法的高低门限,通过双门限法得到语音端点检测的结果;
Step4.4:带噪语音信号是由语音段和噪声段共同构成的,通过端点检测语音信号被分为若干个语音段和噪声段。
7.根据权利要求1所述的基于端点检测的语音背景噪声识别方法,其特征在于:所述Step5中的噪声段截取是指将带噪语音信号中的所有噪声段截取出来。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110025325.5A CN112837704A (zh) | 2021-01-08 | 2021-01-08 | 一种基于端点检测的语音背景噪声识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110025325.5A CN112837704A (zh) | 2021-01-08 | 2021-01-08 | 一种基于端点检测的语音背景噪声识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112837704A true CN112837704A (zh) | 2021-05-25 |
Family
ID=75929115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110025325.5A Pending CN112837704A (zh) | 2021-01-08 | 2021-01-08 | 一种基于端点检测的语音背景噪声识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112837704A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113593597A (zh) * | 2021-08-27 | 2021-11-02 | 中国电信股份有限公司 | 语音噪声过滤方法、装置、电子设备和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693724A (zh) * | 2011-03-22 | 2012-09-26 | 张燕 | 一种基于神经网络的高斯混合模型的噪声分类方法 |
CN105825871A (zh) * | 2016-03-16 | 2016-08-03 | 大连理工大学 | 一种无前导静音段语音的端点检测方法 |
CN110634470A (zh) * | 2018-06-06 | 2019-12-31 | 北京深鉴智能科技有限公司 | 智能语音处理方法和装置 |
CN111933175A (zh) * | 2020-08-06 | 2020-11-13 | 北京中电慧声科技有限公司 | 一种基于噪声场景识别的活动语音检测方法及系统 |
CN112133322A (zh) * | 2020-10-19 | 2020-12-25 | 南通赛洋电子有限公司 | 一种基于噪声分类优化imcra算法的语音增强方法 |
-
2021
- 2021-01-08 CN CN202110025325.5A patent/CN112837704A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693724A (zh) * | 2011-03-22 | 2012-09-26 | 张燕 | 一种基于神经网络的高斯混合模型的噪声分类方法 |
CN105825871A (zh) * | 2016-03-16 | 2016-08-03 | 大连理工大学 | 一种无前导静音段语音的端点检测方法 |
CN110634470A (zh) * | 2018-06-06 | 2019-12-31 | 北京深鉴智能科技有限公司 | 智能语音处理方法和装置 |
CN111933175A (zh) * | 2020-08-06 | 2020-11-13 | 北京中电慧声科技有限公司 | 一种基于噪声场景识别的活动语音检测方法及系统 |
CN112133322A (zh) * | 2020-10-19 | 2020-12-25 | 南通赛洋电子有限公司 | 一种基于噪声分类优化imcra算法的语音增强方法 |
Non-Patent Citations (5)
Title |
---|
YE TIAN等: ""Fuzzy clustering and Bayesian information criterion based threshold estimation for robust voice activity detection"", 《2003 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING》 * |
姜囡 著: "《语音信号识别技术与实践》", 31 December 2019, 东北大学出版社 * |
杨绪魁等: "基于长时信息的自适应话音激活检测", 《电子学报》 * |
汤琛等: "基于GASA优化FCM-BIC算法的语音端点检测方法", 《电脑与信息技术》 * |
赵欢 等: ""车载环境下基于样本熵的语音端点检测方法"", 《计算机研究与发展》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113593597A (zh) * | 2021-08-27 | 2021-11-02 | 中国电信股份有限公司 | 语音噪声过滤方法、装置、电子设备和介质 |
CN113593597B (zh) * | 2021-08-27 | 2024-03-19 | 中国电信股份有限公司 | 语音噪声过滤方法、装置、电子设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103117067B (zh) | 一种低信噪比下语音端点检测方法 | |
CN103646649A (zh) | 一种高效的语音检测方法 | |
Evangelopoulos et al. | Multiband modulation energy tracking for noisy speech detection | |
CN113889138B (zh) | 一种基于双麦克风阵列的目标语音提取方法 | |
CN105023572A (zh) | 一种含噪语音端点鲁棒检测方法 | |
CN106653062A (zh) | 一种低信噪比环境下基于谱熵改进的语音端点检测方法 | |
CN104021789A (zh) | 一种利用短时时频值的自适应端点检测方法 | |
CN112017682B (zh) | 一种单通道语音同时降噪和去混响系统 | |
CN110600038B (zh) | 一种基于离散基尼系数的音频指纹降维方法 | |
CN103730124A (zh) | 一种基于似然比测试的噪声鲁棒性端点检测方法 | |
CN103021405A (zh) | 基于music和调制谱滤波的语音信号动态特征提取方法 | |
CN105575406A (zh) | 一种基于似然比测试的噪声鲁棒性的检测方法 | |
Sun et al. | Dynamic time warping for speech recognition with training part to reduce the computation | |
CN111540342A (zh) | 一种能量阈值调整方法、装置、设备及介质 | |
CN112837704A (zh) | 一种基于端点检测的语音背景噪声识别方法 | |
Chu et al. | A noise-robust FFT-based auditory spectrum with application in audio classification | |
CN112233657B (zh) | 一种基于低频音节识别的语音增强方法 | |
CN110299133B (zh) | 基于关键字判定非法广播的方法 | |
CN110197657B (zh) | 一种基于余弦相似度的动态音声特征提取方法 | |
CN114613391B (zh) | 一种基于半带滤波器的鼾声识别方法及装置 | |
Zhang et al. | An improved speech endpoint detection based on adaptive sub-band selection spectral variance | |
Zhu et al. | AM-Demodualtion of speech spectra and its application to noise robust speech recognition | |
CN110610724A (zh) | 基于非均匀子带分离方差的语音端点检测方法及装置 | |
CN113327589A (zh) | 一种基于姿态传感器的语音活动检测方法 | |
Pham et al. | Performance analysis of wavelet subband based voice activity detection in cocktail party environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210525 |