CN107910017A - 一种带噪语音端点检测中阈值设定的方法 - Google Patents

一种带噪语音端点检测中阈值设定的方法 Download PDF

Info

Publication number
CN107910017A
CN107910017A CN201711372176.XA CN201711372176A CN107910017A CN 107910017 A CN107910017 A CN 107910017A CN 201711372176 A CN201711372176 A CN 201711372176A CN 107910017 A CN107910017 A CN 107910017A
Authority
CN
China
Prior art keywords
frame
noise
voice
current frame
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711372176.XA
Other languages
English (en)
Inventor
王亦红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201711372176.XA priority Critical patent/CN107910017A/zh
Publication of CN107910017A publication Critical patent/CN107910017A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开一种带噪语音端点检测中阈值设定的方法,涉及语音处理技术领域。该方法根据短时幅熵比Fn,设定判断阈值T1、T2。在低信噪比和多噪声类型的环境下,根据阈值T1、T2,可从输入信号中找出带噪语音部分的起止点,准确地将带噪语音与纯噪声部分区分开来,从而降低语音增强算法中的数据处理量,并提高复杂噪声环境下语音增强算法的鲁棒性。

Description

一种带噪语音端点检测中阈值设定的方法
技术领域
本发明涉及一种带噪语音端点检测中阈值设定的方法,属于语音信号处理领域。
背景技术
单通道语音增强方法无法直接获取噪声源而需要对带噪语音功率谱进行估计。最简单、直接的方法是从无声段提取噪声。因为此时为纯噪声环境,不需要对噪声进行估计。为此需要对带噪语音进行端点检测判断出噪声段和语音段。其中,阈值的设定直接影响判断的准确性。
发明内容
发明目的:本发明提供一种带噪语音端点检测中阈值设定的方法,在低信噪比和多噪声类型的环境下,如果阈值设定合理,可以从输入信号中找出带噪语音部分的起止点,准确地将带噪语音与纯噪声部分区分开来,从而降低语音增强算法中的数据处理量,并提高复杂噪声环境下语音增强算法的鲁棒性。
技术方案:一种带噪语音端点检测中阈值设定的方法,包括如下步骤:
第一步,采集带噪语音信号,并进行预处理;
第二步,计算幅熵比Fn
第n帧带噪语音信号为yn(i),在FFT变换后第k条谱线频率分量的能量谱为Yn(k),则第n帧第k个频率分量的归一化谱概率密度函数为:
式中——N表示FFT长度。
短时谱熵为:
短时幅值Mn为:
式中——L为帧长。
短时幅熵比Fn为:
第三步,对幅熵比进行中值滤波,达到平滑滤波的效果;
第四步,取10帧作为固定窗长,选择前10帧作为初始固定窗长,计算Fn在固定窗长内的均值E和最大值M,计算最大值和均值的差值D,经过大量实验验证,本发明设定阈值T1=0.1D+E,T2=0.05D+E,其波动范围可以在0.05区间内,并始终保持T1>T2
第五步,对当前帧的判定:
若当前帧为首帧,判断首帧的Fn是否大于T1,如果大于,则可判断此帧为带噪语音帧的起始点;如果小于,则可判断此帧为纯噪声帧;
若当前帧的前一帧已经判定为带噪语音帧,则判断当前帧的Fn是否大于T2。如果大于,则可判定当前帧仍然为带噪语音帧,如果小于,则可判定当前帧的前一帧为语音段的终点,噪声段从当前帧开始;
若当前帧的前一帧已被判定为纯噪声帧,则判断当前帧的Fn是否大于T1,如果大于T1,则认为当前帧为语音段的起始点,否则,需进一步判断当前帧的Fn是否大于T2,如果当前帧的Fn大于T2,则判定当前帧为语音的潜在帧,并将该帧序号i保存,如果小于T2,则认为当前帧仍为纯噪声帧,并且以此帧的Fn更新E和M,具体的方式如下:
首先,将该帧替换固定窗长内的首帧,并将其作为固定窗长内的尾帧;
然后,重新计算Fn在固定窗长内的均值E和最大值M,以及M与E差值D;
最后,阈值更新为:T1=0.1D+E,T2=0.05D+E;
若当前帧的前一帧为语音的潜在帧,则判断当前帧的Fn是否大于T1。如果大于,则判定当前帧为带噪语音帧,并且序号为i的帧为带噪语音的起始帧;否则,需进一步判断当前帧的Fn是否大于T2;如果大于T2,则认为此帧依然是潜在语音帧,如果小于T2,则认为当前帧为纯噪声帧,并且以此帧的Fn更新E和M,具体的方式同前述。
附图说明
图1为本发明实施例的方法流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,带噪语音端点检测中阈值设定的方法,包括如下步骤:
第一步,采集输入的语音信号,并进行预加重和加窗分帧。帧长为L,帧数为S(S>10)。
第二步,计算每一帧的短时幅熵比Fn并保存
具体实现过程如下:
首先,根据式(1)计算第n帧信号在频域中第k个频率分量的归一化谱概率密度函数pn(k):
式中,yn(i)——第n帧的带噪语音信号;Yn(k)——第n帧yn(i)FFT变换后在频域第k个频率分量的能量谱;N——FFT变换的长度。
其次,根据式(2)计算第n帧信号的短时谱熵:
再次,计算第n帧信号的短时幅值M:
式中——L为帧长。
然后,计算一帧信号的短时幅熵比Fn为:
最后,保存Fn
第三步,判断S帧信号的短时幅熵比是否都计算保存完毕。如果没有,则进入第二步;否则进入第四步
第四步,对幅熵比中值滤波;
第五步,初始阈值T1、T2的设定
初始阈值的设定分以下几步实现:
首先,计算前10帧信号短时幅熵比F0,...,F9的均值E及其最大值M;
其次,计算最大值M和均值E的差值D;
然后,设定阈值T1=0.1D+E,T2=0.05D+E。
第六步,对首帧的识别
判断首帧的短时幅熵比F0是否大于T1。如果大于T1,可判断此帧为语音段的起始帧,进入第八步;如果小于T1,则可判断此帧为噪声帧,增加读取帧的序号n=n+1,读取下一帧的短时幅熵比,进入第十步。
第七步,前一帧是语音帧时,对当前帧的识别
若当前帧的Fn大于T2:Fn>T2,则可判定当前帧仍然为语音帧,进入第八步。如果Fn<T2,则可判定当前帧的前一帧为语音段的终止帧,当前帧为噪声帧的起始帧,进入第九步。
第八步,如果帧的序号n等于分帧数S:n=S,识别结束;如果n≠S,则下一帧的序号n为:n=n+1,读取该帧的短时幅熵Fn,并进入第七步。
第九步,如果帧的序号n等于分帧数S:n=S,识别结束;如果n≠S,则下一帧的序号n为:n=n+1,读取该帧的短时幅熵Fn,并进入第十步。
第十步,前一帧是纯噪声帧时,对当前帧的识别
若当前帧的Fn大于T1:Fn>T1,则判定当前帧为语音段的起始帧,进入第八步;否则,判断当前帧的Fn是否大于T2。如果大于T2,则判定当前帧为语音的潜在帧,并记录该帧的序号i=n,进入第十一步。如果小于T2,则认为当前帧仍为噪声帧。进入第十三步。
第十一步,如果帧的序号n等于分帧数S:n=S,识别结束;如果n≠S,则下一帧的序号n为:n=n+1,读取该帧的短时幅熵Fn,并进入第十二步。
第十二步,前一帧是潜在帧时,对当前帧的判断
若当前帧的Fn大于T1,则可判定序号为i的语音潜在帧为语音段的起帧;否则,判断当前帧的Fn是否小于T2。如果不小于T2,则可认为当前帧还是潜在语音帧,进入第十一步。如果小于T2,则认为当前帧是纯噪声帧,进入第十三步。
第十三步,根据帧的序号n是否等于分帧数S,判断对帧的识别否结束。如果n=S,识别结束;如果n≠S,识别没有结束,则进入第十四步
第十四步,阈值更新
首先,将当前帧替换10帧窗长中的首帧,并列于10帧之尾,同时当前帧的Fn替换10帧窗长中首帧的短时幅熵。分别计算调整以后的10帧均值E,及其最大值M;
其次,计算调整以后最大值M和均值E的差值D;
然后,阈值更新:T1=0.1D+E,T2=0.05D+E。
下一帧的序号n为:n=n+1,读取该帧的短时幅熵Fn,并进入第十一步。

Claims (6)

1.一种带噪语音端点检测中阈值设定的方法,其特征在于,包括如下步骤:
第一步,采集带噪语音信号,并进行预处理;
第二步,计算幅熵比Fn
第三步,对幅熵比进行中值滤波,达到平滑滤波的效果;
第四步,设定阈值T1和T2
第五步,对当前帧的判定,根据阈值T1、T2从输入信号中找出带噪语音部分的起止点。
2.如权利要求1所述的带噪语音端点检测中阈值设定的方法,其特征在于,计算幅熵比
3.如权利要求1所述的带噪语音端点检测中阈值设定的方法,其特征在于,取10帧作为固定窗长,选择前10帧作为初始固定窗长,计算窗长中每一帧的幅熵比Fn,计算Fn在固定窗长内的均值E和最大值M,计算最大值M和均值E的差值D,设定阈值T1=0.1D+E,T2=0.05D+E。
4.如权利要求1所述的带噪语音端点检测中阈值设定的方法,其特征在于,对当前帧的判定,根据阈值T1、T2从输入信号中找出带噪语音部分的起止点,具体过程如下:
若当前帧为首帧,判断首帧的Fn是否大于T1,如果大于,则判断此帧为带噪语音帧的起始点;如果小于,则判断此帧为纯噪声帧;
若当前帧的前一帧已经判定为带噪语音帧,则判断当前帧的Fn是否大于T2。如果大于,则判定当前帧仍然为带噪语音帧,如果小于,则判定当前帧的前一帧为语音段的终点,噪声段从当前帧开始;
若当前帧的前一帧已被判定为纯噪声帧,则判断当前帧的Fn是否大于T1,如果大于T1,则认为当前帧为语音段的起始点,否则,需进一步判断当前帧的Fn是否大于T2,如果当前帧的Fn大于T2,则判定当前帧为语音的潜在帧,并将该帧序号i保存,如果小于T2,则认为当前帧仍为纯噪声帧,并且以此帧的Fn更新E和M;
若当前帧的前一帧为语音的潜在帧,则判断当前帧的Fn是否大于T1,如果大于,则判定当前帧为带噪语音帧,并且序号为i的帧为带噪语音的起始帧;否则,需进一步判断当前帧的Fn是否大于T2;如果大于T2,则认为此帧依然是潜在语音帧,如果小于T2,则认为当前帧为纯噪声帧,并且以此帧的Fn更新E和M。
5.如权利要求2所述的带噪语音端点检测中阈值设定的方法,其特征在于,计算幅熵比Fn时,首先,根据式(1)计算第n帧信号在频域中第k个频率分量的归一化谱概率密度函数pn(k):
<mrow> <msub> <mi>p</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>Y</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mfrac> <mi>N</mi> <mn>2</mn> </mfrac> </msubsup> <msub> <mi>y</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
式中,yn(i)——第n帧的带噪语音信号;Yn(k)——第n帧yn(i)FFT变换后在频域第k个频率分量的能量谱;N——FFT变换的长度;
其次,根据式(2)计算第n帧信号的短时谱熵:
<mrow> <msub> <mi>H</mi> <mi>n</mi> </msub> <mo>=</mo> <mo>-</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>N</mi> <mo>/</mo> <mn>2</mn> </mrow> </munderover> <msub> <mi>p</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <msub> <mi>logp</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
再次,计算第n帧信号的短时幅值M:
<mrow> <msub> <mi>M</mi> <mi>n</mi> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>L</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mo>|</mo> <msub> <mi>y</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
式中——L为帧长;
然后,计算一帧信号的短时幅熵比Fn
6.如权利要求4所述的带噪语音端点检测中阈值设定的方法,其特征在于,阈值T1,T2的更新过程为:
首先,将该帧替换固定窗长内的首帧,并将其作为固定窗长内的尾帧;
然后,重新计算Fn在固定窗长内的均值E和最大值M,以及M与E差值D;
最后,阈值更新为:T1=0.1D+E,T2=0.05D+E。
CN201711372176.XA 2017-12-19 2017-12-19 一种带噪语音端点检测中阈值设定的方法 Pending CN107910017A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711372176.XA CN107910017A (zh) 2017-12-19 2017-12-19 一种带噪语音端点检测中阈值设定的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711372176.XA CN107910017A (zh) 2017-12-19 2017-12-19 一种带噪语音端点检测中阈值设定的方法

Publications (1)

Publication Number Publication Date
CN107910017A true CN107910017A (zh) 2018-04-13

Family

ID=61870387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711372176.XA Pending CN107910017A (zh) 2017-12-19 2017-12-19 一种带噪语音端点检测中阈值设定的方法

Country Status (1)

Country Link
CN (1) CN107910017A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108847218A (zh) * 2018-06-27 2018-11-20 郑州云海信息技术有限公司 一种自适应门限整定语音端点检测方法,设备及可读存储介质
CN108877776A (zh) * 2018-06-06 2018-11-23 平安科技(深圳)有限公司 语音端点检测方法、装置、计算机设备和存储介质
CN108986844A (zh) * 2018-08-06 2018-12-11 东北大学 一种基于说话人语音特征的语音端点检测方法
WO2020097841A1 (zh) * 2018-11-15 2020-05-22 深圳市欢太科技有限公司 语音端点检测方法、装置、存储介质及电子设备
CN112102851A (zh) * 2020-11-17 2020-12-18 深圳壹账通智能科技有限公司 语音端点检测方法、装置、设备及计算机可读存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331190A (ja) * 2000-05-22 2001-11-30 Matsushita Electric Ind Co Ltd 音声認識システムにおけるハイブリッド端点検出方法
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN102254558A (zh) * 2011-07-01 2011-11-23 重庆邮电大学 基于端点检测的智能轮椅语音识别的控制方法
US8412525B2 (en) * 2009-04-30 2013-04-02 Microsoft Corporation Noise robust speech classifier ensemble
CN103646649A (zh) * 2013-12-30 2014-03-19 中国科学院自动化研究所 一种高效的语音检测方法
CN104157290A (zh) * 2014-08-19 2014-11-19 大连理工大学 一种基于深度学习的说话人识别方法
CN104900232A (zh) * 2015-04-20 2015-09-09 东南大学 一种基于双层gmm结构和vts特征补偿的孤立词识别方法
CN105023572A (zh) * 2014-04-16 2015-11-04 王景芳 一种含噪语音端点鲁棒检测方法
CN105825871A (zh) * 2016-03-16 2016-08-03 大连理工大学 一种无前导静音段语音的端点检测方法
CN106653062A (zh) * 2017-02-17 2017-05-10 重庆邮电大学 一种低信噪比环境下基于谱熵改进的语音端点检测方法
CN106875938A (zh) * 2017-03-10 2017-06-20 南京信息工程大学 一种改进的非线性自适应语音端点检测方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331190A (ja) * 2000-05-22 2001-11-30 Matsushita Electric Ind Co Ltd 音声認識システムにおけるハイブリッド端点検出方法
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
US8412525B2 (en) * 2009-04-30 2013-04-02 Microsoft Corporation Noise robust speech classifier ensemble
CN102254558A (zh) * 2011-07-01 2011-11-23 重庆邮电大学 基于端点检测的智能轮椅语音识别的控制方法
CN103646649A (zh) * 2013-12-30 2014-03-19 中国科学院自动化研究所 一种高效的语音检测方法
CN105023572A (zh) * 2014-04-16 2015-11-04 王景芳 一种含噪语音端点鲁棒检测方法
CN104157290A (zh) * 2014-08-19 2014-11-19 大连理工大学 一种基于深度学习的说话人识别方法
CN104900232A (zh) * 2015-04-20 2015-09-09 东南大学 一种基于双层gmm结构和vts特征补偿的孤立词识别方法
CN105825871A (zh) * 2016-03-16 2016-08-03 大连理工大学 一种无前导静音段语音的端点检测方法
CN106653062A (zh) * 2017-02-17 2017-05-10 重庆邮电大学 一种低信噪比环境下基于谱熵改进的语音端点检测方法
CN106875938A (zh) * 2017-03-10 2017-06-20 南京信息工程大学 一种改进的非线性自适应语音端点检测方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108877776A (zh) * 2018-06-06 2018-11-23 平安科技(深圳)有限公司 语音端点检测方法、装置、计算机设备和存储介质
WO2019232884A1 (zh) * 2018-06-06 2019-12-12 平安科技(深圳)有限公司 语音端点检测方法、装置、计算机设备和存储介质
CN108847218A (zh) * 2018-06-27 2018-11-20 郑州云海信息技术有限公司 一种自适应门限整定语音端点检测方法,设备及可读存储介质
CN108986844A (zh) * 2018-08-06 2018-12-11 东北大学 一种基于说话人语音特征的语音端点检测方法
WO2020097841A1 (zh) * 2018-11-15 2020-05-22 深圳市欢太科技有限公司 语音端点检测方法、装置、存储介质及电子设备
CN112955951A (zh) * 2018-11-15 2021-06-11 深圳市欢太科技有限公司 语音端点检测方法、装置、存储介质及电子设备
CN112102851A (zh) * 2020-11-17 2020-12-18 深圳壹账通智能科技有限公司 语音端点检测方法、装置、设备及计算机可读存储介质
CN112102851B (zh) * 2020-11-17 2021-04-13 深圳壹账通智能科技有限公司 语音端点检测方法、装置、设备及计算机可读存储介质
WO2022105570A1 (zh) * 2020-11-17 2022-05-27 深圳壹账通智能科技有限公司 语音端点检测方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN107910017A (zh) 一种带噪语音端点检测中阈值设定的方法
CN109767783B (zh) 语音增强方法、装置、设备及存储介质
CN110232933B (zh) 音频检测方法、装置、存储介质及电子设备
CN109410977B (zh) 一种基于EMD-Wavelet的MFCC相似度的语音段检测方法
CN106653062A (zh) 一种低信噪比环境下基于谱熵改进的语音端点检测方法
CN105118502A (zh) 语音识别系统的端点检测方法及系统
CN105679312B (zh) 一种噪声环境下声纹识别的语音特征处理方法
CN103886871A (zh) 语音端点的检测方法和装置
CN105023572A (zh) 一种含噪语音端点鲁棒检测方法
JP6272433B2 (ja) ピッチ周期の正確性を検出するための方法および装置
WO2010091554A1 (zh) 一种基音周期检测方法和装置
CN104464728A (zh) 基于gmm噪声估计的语音增强方法
CN101625858B (zh) 语音端点检测中短时能频值的提取方法
CN108682432B (zh) 语音情感识别装置
JP3105465B2 (ja) 音声区間検出方法
CN111540342A (zh) 一种能量阈值调整方法、装置、设备及介质
Lee et al. Dynamic noise embedding: Noise aware training and adaptation for speech enhancement
CN107369451B (zh) 一种辅助鸟类繁殖期的物候研究的鸟类声音识别方法
CN108847218B (zh) 一种自适应门限整定语音端点检测方法,设备及可读存储介质
CN106571138B (zh) 一种信号端点的检测方法、检测装置及检测设备
CN104732984B (zh) 一种快速检测单频提示音的方法及系统
CN112201279A (zh) 一种基音检测方法及装置
CN103270772B (zh) 信号处理设备、信号处理方法
Tang et al. Speech Recognition in High Noise Environment.
CN109155883A (zh) 噪声检测和噪声降低

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180413

RJ01 Rejection of invention patent application after publication