CN112837704A - 一种基于端点检测的语音背景噪声识别方法 - Google Patents

一种基于端点检测的语音背景噪声识别方法 Download PDF

Info

Publication number
CN112837704A
CN112837704A CN202110025325.5A CN202110025325A CN112837704A CN 112837704 A CN112837704 A CN 112837704A CN 202110025325 A CN202110025325 A CN 202110025325A CN 112837704 A CN112837704 A CN 112837704A
Authority
CN
China
Prior art keywords
noise
gfcc
voice
voice signal
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110025325.5A
Other languages
English (en)
Inventor
龙华
罗思洋
邵玉斌
杜庆治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202110025325.5A priority Critical patent/CN112837704A/zh
Publication of CN112837704A publication Critical patent/CN112837704A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及一种基于端点检测的语音背景噪声识别方法,属于语音信号处理技术领域。首先对带有背景噪声的语音信号进行预处理,预处理包括预加重、分帧和加窗等步骤;其次,提取每一帧语音信号的GFCC0特征,通过模糊C均值聚类法计算该段语音信号GFCC0特征的聚类中心,利用GFCC0特征的聚类中心和双门限法将语音信号分为若干个语音段和噪声段;然后,截取出语音信号的噪声段,并提取语音信号噪声段的短时过零率和短时能量两类特征;最后,通过统计噪声段满足短时能量和短时过零率分布范围的最大帧数占噪声段总帧数的概率,判定所提噪声段的种类,实现语音信号背景噪声的识别。本发明解决了由于前导无话段长度不足导致背景噪声识别效果不佳的问题。

Description

一种基于端点检测的语音背景噪声识别方法
技术领域
本发明涉及一种基于端点检测的语音背景噪声识别方法,属于语音信号处理技术领域。
背景技术
随着语音信号处理技术的不断发展,语音端点检测已经广泛应用到了语音识别、语音增强和音频分类技术的前端。语音端点检测方法分为基于特征的方法和基于模式识别的方法,其中基于模式识别的方法在训练过程中需要大量的数据,导致计算量较大,难以达到端点检测的实时性要求,所以基于特征的方法是实时性语音端点检测的主流。在基于特征的语音端点检测方法中只有选用噪声环境下对语音段追踪能力较强的特征才能取得较好的端点检测结果。由于语音信号的GFCC特征具有较好的抗噪性能,因此将GFCC特征的第一维系数GFCC0特征运用到语音端点检测任务中。
日常生活中,语音信号的传递总是带有这样或那样的噪声,对带噪语音信号的背景噪声进行识别,可以为说话人所处场景的识别提供帮助。但是现有的语音信号背景识别方法是通过前导无话段进行识别的,这样就出现了两个问题:(1)前导无话段帧数过短导致背景噪声的识别效果不佳;(2)前导无话段除包含噪声帧外可能还包含语音帧,语音帧同样会对背景噪声的识别效果产生影响。
发明内容
本发明要解决的技术问题是提供一种基于端点检测的语音背景噪声识别方法,将语音信号的GFCC0特征运用到语音端点检测任务中,并基于端点检测技术截取语音信号的噪声段进行识别,解决了由于前导无话段长度不足导致背景噪声识别效果不佳的问题。
本发明的技术方案是:一种基于端点检测的语音背景噪声识别方法,将语音信号的GFCC0特征运用到语音端点检测任务中,并基于端点检测技术截取语音信号的噪声段进行识别,解决了由于前导无话段长度不足导致背景噪声识别效果不佳的问题,具体步骤为:
Step1:对带有背景噪声的语音信号进行预处理。
Step2:利用Gammatone滤波器提取每一帧的语音信号的GFCC特征,取信号GFCC特征的第一维得到语音信号的GFCC0特征。
Step3:通过模糊C均值聚类法计算该段语音信号GFCC0特征的聚类中心。
Step4:利用GFCC0特征的聚类中心和双门限法对语音进行端点检测,将语音信号分为若干个语音段和噪声段。
Step5:根据端点检测的结果截取出语音信号的噪声段,并提取语音信号噪声段的短时过零率和短时能量两类特征。
Step6:通过统计噪声段满足短时能量和短时过零率分布范围的最大帧数占噪声段总帧数的概率,实现语音信号背景噪声的识别。
所述Step1中,预处理包括预加重处理、分帧处理和加窗处理,具体的说:
预加重处理:就是将语音信号通过一个高通滤波器,提升语音信号的高频部分。
分帧处理:语音信号在10-30ms内具有短时平稳性,分帧处理就是在短时平稳性的基础上将语音信号分为若干个小段,每个小段为一帧,帧与帧之间有一定的重叠,重叠部分一般为帧长的1/2,帧与帧之间的重叠部分使帧信号之间能够平滑过渡。
加窗处理:加窗的目的在于减少语音信号的频谱泄漏,常用的窗有矩形窗、汉宁窗和海明窗等。
所述Step2中,Gammatone滤波器的时域脉冲响为:
h(t)=gta-1e-2πbtcos(2πft),t>0 (1)
式(1)中,g为Gammatone滤波器的增益,a为个数,f为中心频率,t为时间,b为带宽,b是以中心频率f为基础计算得到的。
所述Step2中,提取GFCC特征的具体步骤为:
Step2.1:对分帧后的信号进行FFT变换,然后计算该帧语音信号的谱线能量Ei(k):
Ei(k)=[Xi(k)]2 (2)
式(2)中,i表示语音信号的帧序号,k表示谱线的序号。
Step2.2:谱线能量Ei(k)通过Gammatone滤波器后进行指数压缩:
Figure BDA0002890062590000021
式(3)中,Hm(k)为Gammatone滤波器频率响应,M为滤波器个数,m为滤波器的序号,e为指数压缩值。
Step2.3:对指数压缩后的能量进行离散余弦变换得到每一帧信号的GFCC特征:
Figure BDA0002890062590000022
式(4)中,n为GFCC特征的维数,M为滤波器个数,m为滤波器的序号,S′i(m)为指数压缩后的能量。
Step2.4:取每一帧信号GFCC特征的第一维系数得到语音信号的GFCC0特征Gi
所述Step3中,GFCC0特征聚类中心的计算是通过模糊C均值聚类法计算得到的,在计算时选取的聚类中心个数为2。
所述Step4中,端点检测的具体步骤为:
Step4.1:使用模糊C均值聚类法计算语音信号GFCC0特征的聚类中心{m11,m12},其中:
Figure BDA0002890062590000031
式(5)中,mvioce表示语音段GFCC0特征Gi的聚类中心,mnoise表示噪声段GFCC0特征Gi的聚类中心。
Step4.2:根据语音信号GFCC0特征的聚类中心和经验常数自适应计算该段语音信号的高门限值和低门限值:
Figure BDA0002890062590000032
式(6)中,Th为双门限的高门限值,Tl为双门限的低门限值。
Step4.3:将高门限值Th和低门限值Tl分别作为双门限法的高低门限,通过双门限法得到语音端点检测的结果。
Step4.4:带噪语音信号是由语音段和噪声段共同构成的,通过端点检测语音信号被分为若干个语音段和噪声段。
所述Step5中的噪声段截取是指将带噪语音信号中的所有噪声段截取出来。
所述Step5中,短时过零率表示为:
Figure BDA0002890062590000033
式(7)中,y(n)表示所提噪声段信号在该采样点下的幅值,L表示帧长,sgn[·]表示符号函数。
短时能量表示为:
Figure BDA0002890062590000034
式(8)中,y(n)表示所提噪声段信号在该采样点下的幅值,L表示帧长,n=1,2,...,L。
所述Step6中,需要设定噪声段短时能量E和短时过零率Z的分布范围,根据噪声段中满足分布范围的最大帧数占噪声段总帧数的概率,对噪声所属的种类进行判定,最终实现语音信号背景噪声的识别。
本发明的有益效果是:本发明与现有技术相比,将抗噪性能较好的GFCC0特征运用到语音端点检测任务中,并基于端点检测技术截取语音信号的噪声段,解决了由于前导无话段长度不足导致背景噪声识别效果不佳的问题,同时所使用的端点检测方法和噪声识别方法均能达到实时性的要求。
附图说明
图1是本发明的步骤流程图;
图2是本发明提取GFCC0特征的流程图;
图3是本发明端点检测的流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-3所示,一种基于端点检测的语音背景噪声识别方法,首先对带有背景噪声的语音信号进行预处理,预处理包括预加重、分帧和加窗等步骤;其次,提取每一帧语音信号的GFCC0特征,通过模糊C均值聚类法计算该段语音信号GFCC0特征的聚类中心,利用GFCC0特征的聚类中心和双门限法将语音信号分为若干个语音段和噪声段;然后,截取出语音信号的噪声段,并提取语音信号噪声段的短时过零率和短时能量两类特征;最后,通过统计噪声段满足短时能量和短时过零率分布范围的最大帧数占噪声段总帧数的概率,判定所提噪声段的种类,实现语音信号背景噪声的识别。
具体步骤为:
Step1:对带有背景噪声的语音信号进行预处理。预处理包括预加重处理、分帧处理和加窗处理,具体的说:
预加重处理:就是将语音信号通过一个高通滤波器,提升语音信号的高频部分。
分帧处理:语音信号在10-30ms内具有短时平稳性,分帧处理就是在短时平稳性的基础上将语音信号分为若干个小段,每个小段为一帧,帧与帧之间有一定的重叠,重叠部分一般为帧长的1/2,帧与帧之间的重叠部分使帧信号之间能够平滑过渡。
加窗处理:加窗的目的在于减少语音信号的频谱泄漏,常用的窗有矩形窗、汉宁窗和海明窗等。
待测语音信号均为带有背景噪声的信号,将待测语音信号统一为8kHZ采样率,16bit量化精度的单声道音频文件,分帧时取帧长128个采样点(16ms),重叠部分64个采样点(8ms),加窗处理时使用海明窗。
Step2:利用Gammatone滤波器提取每一帧的语音信号的GFCC特征,取信号GFCC特征的第一维得到语音信号的GFCC0特征。
所述Step2中,Gammatone滤波器的时域脉冲响为:
h(t)=gta-1e-2πbtcos(2πft),t>0 (1)
式(1)中,g为Gammatone滤波器的增益,a为个数,f为中心频率,t为时间,b为带宽,b是以中心频率f为基础计算得到的。
所述Step2中,提取GFCC特征的具体步骤为:
Step2.1:对分帧后的信号进行FFT变换,然后计算该帧语音信号的谱线能量Ei(k):
Ei(k)=[Xi(k)]2 (2)
式(2)中,i表示语音信号的帧序号,k表示谱线的序号。
Step2.2:谱线能量Ei(k)通过Gammatone滤波器后进行指数压缩:
Figure BDA0002890062590000051
式(3)中,Hm(k)为Gammatone滤波器频率响应,M为滤波器个数,m为滤波器的序号,e为指数压缩值。
Step2.3:对指数压缩后的能量进行离散余弦变换得到每一帧信号的GFCC特征:
Figure BDA0002890062590000052
式(4)中,n为GFCC特征的维数,M为滤波器个数,m为滤波器的序号,S′i(m)为指数压缩后的能量。
Step2.4:取每一帧信号GFCC特征的第一维系数得到语音信号的GFCC0特征Gi
Step3:通过模糊C均值聚类法计算该段语音信号GFCC0特征的聚类中心。
所述Step3中,GFCC0特征聚类中心的计算是通过模糊C均值聚类法计算得到的,在计算时选取的聚类中心个数为2。
Step4:利用GFCC0特征的聚类中心和双门限法对语音进行端点检测,将语音信号分为若干个语音段和噪声段。
所述Step4中,端点检测的具体步骤为:
Step4.1:使用模糊C均值聚类法计算语音信号GFCC0特征的聚类中心{m11,m12},其中:
Figure BDA0002890062590000053
式(5)中,mvioce表示语音段GFCC0特征Gi的聚类中心,mnoise表示噪声段GFCC0特征Gi的聚类中心。
Step4.2:根据语音信号GFCC0特征的聚类中心和经验常数自适应计算该段语音信号的高门限值和低门限值:
Figure BDA0002890062590000061
式(6)中,Th为双门限的高门限值,Tl为双门限的低门限值。
Step4.3:将高门限值Th和低门限值Tl分别作为双门限法的高低门限,通过双门限法得到语音端点检测的结果。
Step4.4:带噪语音信号是由语音段和噪声段共同构成的,通过端点检测语音信号被分为若干个语音段和噪声段。
Step5:根据端点检测的结果截取出语音信号的噪声段,并提取语音信号噪声段的短时过零率和短时能量两类特征。
所述Step5中的噪声段截取是指将带噪语音信号中的所有噪声段截取出来。
所述Step5中,短时过零率表示为:
Figure BDA0002890062590000062
式(7)中,y(n)表示所提噪声段信号在该采样点下的幅值,L表示帧长,sgn[·]表示符号函数。
短时能量表示为:
Figure BDA0002890062590000063
式(8)中,y(n)表示所提噪声段信号在该采样点下的幅值,L表示帧长,n=1,2,...,L。
Step6:通过统计噪声段满足短时能量和短时过零率分布范围的最大帧数占噪声段总帧数的概率,实现语音信号背景噪声的识别。
举例为:
(1)假定所有待测语音信号的背景噪声包含volvo、factory1、hfchannel、white和m109五种噪声,且一段待测语音仅包含一种噪声环境。
(2)通过对五种噪声的短时能量进行统计发现:white噪声的短时能量是最小的,其每一帧的短时能量都小于0.065,而其余四种噪声的短时能量都大于该值,其中hfchannel噪声大部分帧的短时能量大于2。
factory1噪声的短时能量主要位于(0.065,1.5)区间内,volvo噪声的短时能量主要位于(0.065,2)区间内,m109噪声的短时能量主要位于(0.065,4)区间内。
(3)通过对五种噪声的短时过零率进行统计发现:volvo噪声的短时过零率最小,大部分帧的短时过零率小于10,而hfchannel噪声和white噪声的短时过零率大部分大于100,m109噪声的短时过零率主要位于(10,30)区间内,factory1噪声的短时过零率主要位于(40,60)区间内。
(4)根据统计结果的主要分布范围计算满足如下条件的帧数:
(a)计算整个音频段中满足0<E<0.065的帧数a1
(b)计算整个音频段中满足0.065<E<2且Z<10的帧数a2
(c)计算整个音频段中满足0.065<E<4且10<Z<30的帧数a3
(d)计算整个音频段中满足0.065<E<1.5且40<Z<60的帧数a4
(e)计算整个音频段中满足2<E且100<Z的帧数a5
(5)所提噪声段的总帧数为fn,根据满足分布范围的帧数占噪声段总帧数的概率实现语音信号背景噪声的识别:
(a)当a1>n1*fn时,判断该音频段为white噪声。
(b)当a2>n2*fn时,判断该音频段为volvo噪声。
(c)当a3>n3*fn时,判断该音频段为m109噪声。
(d)当a4>n4*fn时,判断该音频段为factory1噪声。
(e)当a5>n5*fn时,判断该音频段为hfchannel噪声。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (7)

1.一种基于端点检测的语音背景噪声识别方法,其特征在于:
Step1:对带有背景噪声的语音信号进行预处理,
Step2:利用Gammatone滤波器提取每一帧的语音信号的GFCC特征,取信号GFCC特征的第一维得到语音信号的GFCC0特征;
Step3:通过模糊C均值聚类法计算该段语音信号GFCC0特征的聚类中心;
Step4:利用GFCC0特征的聚类中心和双门限法对语音进行端点检测,将语音信号分为若干个语音段和噪声段;
Step5:根据端点检测的结果截取出语音信号的噪声段,并提取语音信号噪声段的短时过零率和短时能量两类特征;
Step6:通过统计噪声段满足短时能量和短时过零率分布范围的最大帧数占噪声段总帧数的概率,实现语音信号背景噪声的识别。
2.根据权利要求1所述的基于端点检测的语音背景噪声识别方法,其特征在于:所述Step1中,预处理包括预加重处理、分帧处理和加窗处理。
3.根据权利要求1所述的基于端点检测的语音背景噪声识别方法,其特征在于:所述Step2中,Gammatone滤波器的时域脉冲响为:
h(t)=gta-1e-2πbtcos(2πft),t>0
式中,g为Gammatone滤波器的增益,a为个数,f为中心频率,t为时间,b为带宽,b是以中心频率f为基础计算得到的。
4.根据权利要求1或2所述的基于端点检测的语音背景噪声识别方法,其特征在于:所述Step2中,提取GFCC特征的具体步骤为:
Step2.1:对分帧后的信号进行FFT变换,然后计算该帧语音信号的谱线能量Ei(k);
Step2.2:谱线能量Ei(k)通过Gammatone滤波器后进行指数压缩;
Step2.3:对指数压缩后的能量进行离散余弦变换得到每一帧信号的GFCC特征;
Step2.4:取每一帧信号GFCC特征的第一维系数得到语音信号的GFCC0特征。
5.根据权利要求1所述的基于端点检测的语音背景噪声识别方法,其特征在于:所述Step3中,GFCC0特征聚类中心的计算是通过模糊C均值聚类法计算得到的,在计算时选取的聚类中心个数为2。
6.根据权利要求1所述的基于端点检测的语音背景噪声识别方法,其特征在于:所述Step4中,端点检测的具体步骤为:
Step4.1:使用模糊C均值聚类法计算语音信号GFCC0特征的聚类中心;
Step4.2:根据语音信号GFCC0特征的聚类中心和经验常数自适应计算该段语音信号的高门限值和低门限值;
Step4.3:将高门限值和低门限值分别作为双门限法的高低门限,通过双门限法得到语音端点检测的结果;
Step4.4:带噪语音信号是由语音段和噪声段共同构成的,通过端点检测语音信号被分为若干个语音段和噪声段。
7.根据权利要求1所述的基于端点检测的语音背景噪声识别方法,其特征在于:所述Step5中的噪声段截取是指将带噪语音信号中的所有噪声段截取出来。
CN202110025325.5A 2021-01-08 2021-01-08 一种基于端点检测的语音背景噪声识别方法 Pending CN112837704A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110025325.5A CN112837704A (zh) 2021-01-08 2021-01-08 一种基于端点检测的语音背景噪声识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110025325.5A CN112837704A (zh) 2021-01-08 2021-01-08 一种基于端点检测的语音背景噪声识别方法

Publications (1)

Publication Number Publication Date
CN112837704A true CN112837704A (zh) 2021-05-25

Family

ID=75929115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110025325.5A Pending CN112837704A (zh) 2021-01-08 2021-01-08 一种基于端点检测的语音背景噪声识别方法

Country Status (1)

Country Link
CN (1) CN112837704A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593597A (zh) * 2021-08-27 2021-11-02 中国电信股份有限公司 语音噪声过滤方法、装置、电子设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693724A (zh) * 2011-03-22 2012-09-26 张燕 一种基于神经网络的高斯混合模型的噪声分类方法
CN105825871A (zh) * 2016-03-16 2016-08-03 大连理工大学 一种无前导静音段语音的端点检测方法
CN110634470A (zh) * 2018-06-06 2019-12-31 北京深鉴智能科技有限公司 智能语音处理方法和装置
CN111933175A (zh) * 2020-08-06 2020-11-13 北京中电慧声科技有限公司 一种基于噪声场景识别的活动语音检测方法及系统
CN112133322A (zh) * 2020-10-19 2020-12-25 南通赛洋电子有限公司 一种基于噪声分类优化imcra算法的语音增强方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693724A (zh) * 2011-03-22 2012-09-26 张燕 一种基于神经网络的高斯混合模型的噪声分类方法
CN105825871A (zh) * 2016-03-16 2016-08-03 大连理工大学 一种无前导静音段语音的端点检测方法
CN110634470A (zh) * 2018-06-06 2019-12-31 北京深鉴智能科技有限公司 智能语音处理方法和装置
CN111933175A (zh) * 2020-08-06 2020-11-13 北京中电慧声科技有限公司 一种基于噪声场景识别的活动语音检测方法及系统
CN112133322A (zh) * 2020-10-19 2020-12-25 南通赛洋电子有限公司 一种基于噪声分类优化imcra算法的语音增强方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
YE TIAN等: ""Fuzzy clustering and Bayesian information criterion based threshold estimation for robust voice activity detection"", 《2003 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING》 *
姜囡 著: "《语音信号识别技术与实践》", 31 December 2019, 东北大学出版社 *
杨绪魁等: "基于长时信息的自适应话音激活检测", 《电子学报》 *
汤琛等: "基于GASA优化FCM-BIC算法的语音端点检测方法", 《电脑与信息技术》 *
赵欢 等: ""车载环境下基于样本熵的语音端点检测方法"", 《计算机研究与发展》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593597A (zh) * 2021-08-27 2021-11-02 中国电信股份有限公司 语音噪声过滤方法、装置、电子设备和介质
CN113593597B (zh) * 2021-08-27 2024-03-19 中国电信股份有限公司 语音噪声过滤方法、装置、电子设备和介质

Similar Documents

Publication Publication Date Title
CN103117067B (zh) 一种低信噪比下语音端点检测方法
CN103646649A (zh) 一种高效的语音检测方法
Evangelopoulos et al. Multiband modulation energy tracking for noisy speech detection
CN113889138B (zh) 一种基于双麦克风阵列的目标语音提取方法
CN105023572A (zh) 一种含噪语音端点鲁棒检测方法
CN106653062A (zh) 一种低信噪比环境下基于谱熵改进的语音端点检测方法
CN104021789A (zh) 一种利用短时时频值的自适应端点检测方法
CN112017682B (zh) 一种单通道语音同时降噪和去混响系统
CN110600038B (zh) 一种基于离散基尼系数的音频指纹降维方法
CN103730124A (zh) 一种基于似然比测试的噪声鲁棒性端点检测方法
CN103021405A (zh) 基于music和调制谱滤波的语音信号动态特征提取方法
CN105575406A (zh) 一种基于似然比测试的噪声鲁棒性的检测方法
Sun et al. Dynamic time warping for speech recognition with training part to reduce the computation
CN111540342A (zh) 一种能量阈值调整方法、装置、设备及介质
CN112837704A (zh) 一种基于端点检测的语音背景噪声识别方法
Chu et al. A noise-robust FFT-based auditory spectrum with application in audio classification
CN112233657B (zh) 一种基于低频音节识别的语音增强方法
CN110299133B (zh) 基于关键字判定非法广播的方法
CN110197657B (zh) 一种基于余弦相似度的动态音声特征提取方法
CN114613391B (zh) 一种基于半带滤波器的鼾声识别方法及装置
Zhang et al. An improved speech endpoint detection based on adaptive sub-band selection spectral variance
Zhu et al. AM-Demodualtion of speech spectra and its application to noise robust speech recognition
CN110610724A (zh) 基于非均匀子带分离方差的语音端点检测方法及装置
CN113327589A (zh) 一种基于姿态传感器的语音活动检测方法
Pham et al. Performance analysis of wavelet subband based voice activity detection in cocktail party environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210525