CN104575498A - 有效语音识别方法及系统 - Google Patents

有效语音识别方法及系统 Download PDF

Info

Publication number
CN104575498A
CN104575498A CN201510055655.3A CN201510055655A CN104575498A CN 104575498 A CN104575498 A CN 104575498A CN 201510055655 A CN201510055655 A CN 201510055655A CN 104575498 A CN104575498 A CN 104575498A
Authority
CN
China
Prior art keywords
voice
formula
energy
frequency domain
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510055655.3A
Other languages
English (en)
Other versions
CN104575498B (zh
Inventor
付姝华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN YUNZHIXUN NETWORK TECHNOLOGY Co Ltd
Original Assignee
SHENZHEN YUNZHIXUN NETWORK TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN YUNZHIXUN NETWORK TECHNOLOGY Co Ltd filed Critical SHENZHEN YUNZHIXUN NETWORK TECHNOLOGY Co Ltd
Priority to CN201510055655.3A priority Critical patent/CN104575498B/zh
Publication of CN104575498A publication Critical patent/CN104575498A/zh
Application granted granted Critical
Publication of CN104575498B publication Critical patent/CN104575498B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

有效语音识别方法及系统,方法包括以下步骤:步骤A:实时获取当前语音帧的语音频谱分布;步骤B:实时获取当前语音帧的短时能量和长时能量;步骤C:根据语音频谱分布、长时能量和短时能量获取语音类似度;以及步骤D:判断语音类似度是否大于预设的语音类似度阈值,若是,执行步骤E;若否,执行步骤F;步骤E:判定当前语音帧为效语音;以及步骤F:判定当前语音帧为非语音。上述发明实时获取每一语音帧的语音频谱分布和能量变化,并根据语音频谱分布和能量变化快速识别出效语音,无需像传统方法那样结合多帧才能综合判断,故,即使所应用的场景频繁切换也能可靠快速地识别。

Description

有效语音识别方法及系统
技术领域
本发明涉及一种有效语音识别方法及系统。
背景技术
传统识别有效语音的方法一般基于能量大小、过零率、自相关等原理,其需连续对若干语音数据帧综合作出判决,这些方法在固定的场景下有较好识别效果,但对于非固定场景及场景频繁切换时,如安静环境到办公室吵杂环境、公交内、工地等等,实时识别效果差,且有效语音的识别率会大幅降低。
发明内容
针对现有技术的不足,本发明旨在于提供一种可解决上述技术问题的有效语音识别方法及系统。
为实现上述目的,本发明采用如下技术方案:
一种有效语音识别方法,其包括以下步骤:
步骤A:实时获取当前语音帧的语音频谱分布;
步骤B:实时获取当前语音帧的短时能量和长时能量;
步骤C:根据语音频谱分布、长时能量和短时能量获取语音类似度;以及
步骤D:判断语音类似度是否大于预设的语音类似度阈值,若是,执行步骤E;若否,执行步骤F;
步骤E:判定当前语音帧为有效语音;以及
步骤F:判定当前语音帧为非语音。
优选地,步骤A包括以下子步骤:
步骤A1:实时根据傅里叶变换将当前的语音帧变换为语音频域;
步骤A2:获取该语音频域的各频谱处的能量;以及
步骤A3:根据各频谱处的能量统计语音频谱分布。
优选地,步骤A1根据公式I将当前的语音换到语音频域X(k),公式I为X(k)=FFT(x(j)),j∈(0,N)为时域样点序号,k∈(0,N)为频域样点序号;
步骤A2根据公式II计算该语音频域的各频谱处的能量E(k),公式II为E(k)=|X(k)|^2,k∈(0,N);
步骤A3根据公式III和各频谱处的能量统计语音频谱分布p,公
式III为 p = Σ i = 0 N ω i * log ( E ( k ) 1 N Σ i = 0 N E ( k ) ) , i∈(0,N), Σ i = 0 N ω i = 1 , 其中,ωi为固定值,对应各子频带权重系数。
优选地,步骤B包括以下子步骤:
步骤B1:根据公式IV计算该语音频域的短时能量Es,公式IV为i∈(0,N),b为滤波器更新系数,取值范围为[0,1],Ei指第i个频谱能量;以及
步骤B2:根据公式V计算该语音频域的长时能量El,公式V为i∈(0,N),a为滤波器更新系数,取值范围[0,1],Ei指第i个频谱能量。
优选地,步骤C根据公式VI、语音频谱分布p、长时能量El和短时能量Es计算语音类似度γ,公式VI为c为常数,取值范围为[0,1];e为自然指数。
一种有效语音识别系统,其包括以下模块:
模块A:实时获取当前语音帧的语音频谱分布;
模块B:实时获取当前语音帧的短时能量和长时能量;
模块C:根据语音频谱分布、长时能量和短时能量获取语音类似度;以及
模块D:判断语音类似度是否大于预设的语音类似度阈值,若是,执行模块E;若否,执行模块F;
模块E:判定当前语音帧为有效语音;以及
模块F:判定当前语音帧为非语音。
优选地,模块A包括以下子模块:
模块A1:实时根据傅里叶变换将当前的语音帧变换为语音频域;
模块A2:获取该语音频域的各频谱处的能量;以及
模块A3:根据各频谱处的能量统计语音频谱分布。
优选地,模块A1根据公式I将当前的语音换到语音频域X(k),公式I为X(k)=FFT(x(j)),j∈(0,N)为时域样点序号,k∈(0,N)为频域样点序号。
模块A2根据公式II计算该语音频域的各频谱处的能量E(k),公式II为E(k)=|X(k)|^2,k∈(0,N);
模块A3根据公式III和各频谱处的能量统计语音频谱分布p,公
式III为 p = Σ i = 0 N ω i * log ( E ( k ) 1 N Σ i = 0 N E ( k ) ) , i∈(0,N), Σ i = 0 N ω i = 1 , 其中,ωi为固定值,对应各子频带权重系数。
优选地,模块B包括以下子模块:
模块B1:根据公式IV计算该语音频域的短时能量Es,公式IV为i∈(0,N),b为滤波器更新系数,取值范围[0,1],Ei指第i个频谱能量;以及
模块B2:根据公式V计算该语音频域的长时能量El,公式V为i∈(0,N),a为滤波器更新系数,取值范围[0,1],Ei指第i个频谱能量。
优选地,模块C根据公式VI、语音频谱分布p、长时能量El和短时能量Es计算语音类似度γ,公式VI为c为常数,取值范围为[0,1];e为自然指数。
本发明的有益效果至少如下:
上述发明实时获取每一语音帧的语音频谱分布和能量变化,并根据语音频谱分布和能量变化快速识别出有效语音,无需像传统方法那样结合多帧才能综合判断,故,即使所应用的场景频繁切换也能可靠快速地识别。
附图说明
图1为本发明有效语音识别方法的较佳实施方式的流程图。
具体实施方式
下面将结合附图以及具体实施方式,对本发明做进一步描述:
请参见图1,本发明涉及一种有效语音识别方法,其较佳实施方式包括以下步骤:
步骤A:实时获取当前语音帧的语音频谱分布;
本实施例中,步骤A包括以下子步骤:
步骤A1:实时根据傅里叶变换将当前的语音帧变换为语音频域;优选地,根据公式I将当前的语音换到语音频域X(k),公式I为X(k)=FFT(x(j)),j∈(0,N)为时域样点序号,k∈(0,N)为频域样点序号。
步骤A2:获取该语音频域的各频谱处的能量;
优选地,根据公式II计算该语音频域的各频谱处的能量E(k),公式II为E(k)=|X(k)|^2,k∈(0,N);
步骤A3:根据各频谱处的能量统计语音频谱分布;
优选地,根据公式III和各频谱处的能量统计语音频谱分布p,
公式III为 p = Σ i = 0 N ω i * log ( E ( k ) 1 N Σ i = 0 N E ( k ) ) , i∈(0,N), Σ i = 0 N ω i = 1 , 其中,ωi为固定值,对应各子频带权重系数,此权重系数根据语音频域从低到高呈线性或指数下降分布。
步骤B:实时获取当前语音帧的长时能量和短时能量;
本实施例中,步骤B包括以下子步骤:
步骤B1:根据公式IV计算该语音频域的短时能量Es,公式IV为i∈(0,N),b为滤波器更新系数,取值范围[0,1],Ei指第i个频谱能量。
步骤B2:根据公式V计算该语音频域的长时能量El,公式V为i∈(0,N),a为滤波器更新系数,取值范围[0,1],Ei指第i个频谱能量。
步骤C:根据语音频谱分布、长时能量和短时能量获取语音类似度;
优选地,步骤C根据公式VI、语音频谱分布p、长时能量El和短时能量Es计算语音类似度γ,公式VI为c为常数,取值范围为[0,1];e为自然指数。
步骤D:判断语音类似度γ是否大于预设的语音类似度阈值,若是,执行步骤E,若否,执行步骤F。其中,语音类似度阈值可为基于经验或仿真的固定门限值。
步骤E:判定当前语音帧为有效语音。
步骤F:判定当前语音帧为非语音,即为噪音和杂声之类。
上述发明实时获取每一语音帧的语音频谱分布和能量变化,并根据语音频谱分布和能量变化快速识别出有效语音,无需像传统方法那样结合多帧才能综合判断,故,即使所应用的场景频繁切换也能可靠快速地识别。
上述公式涉及的N均指样点个数。
对于本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及变形,而所有的这些改变以及变形都应该属于本发明权利要求的保护范围之内。

Claims (10)

1.一种有效语音识别方法,其特征在于:其包括以下步骤:
步骤A:实时获取当前语音帧的语音频谱分布;
步骤B:实时获取当前语音帧的短时能量和长时能量;
步骤C:根据语音频谱分布、长时能量和短时能量获取语音类似度;以及
步骤D:判断语音类似度是否大于预设的语音类似度阈值,若是,执行步骤E;若否,执行步骤F;
步骤E:判定当前语音帧为有效语音;以及
步骤F:判定当前语音帧为非语音。
2.如权利要求1所述的有效语音识别方法,其特征在于:步骤A包括以下子步骤:
步骤A1:实时根据傅里叶变换将当前的语音帧变换为语音频域;
步骤A2:获取该语音频域的各频谱处的能量;以及
步骤A3:根据各频谱处的能量统计语音频谱分布。
3.如权利要求2所述的有效语音识别方法,其特征在于:步骤A1根据公式I将当前的语音换到语音频域X(k),公式I为X(k)=FFT(x(j)),j∈(0,N)为时域样点序号,k∈(0,N)为频域样点序号;
步骤A2根据公式II计算该语音频域的各频谱处的能量E(k),公式II为E(k)=|X(k)|^2,k∈(0,N);
步骤A3根据公式III和各频谱处的能量统计语音频谱分布p,公式III为 p = Σ i = 0 N ω i * log ( E ( k ) 1 N Σ i = 0 N E ( k ) ) , i ∈ ( 0 , N ) , Σ i = 0 N ω i = 1 , 其中,ωi为固定值,对应各子频带权重系数。
4.如权利要求1至3中任一项所述的有效语音识别方法,其特征在于:步骤B包括以下子步骤:
步骤B1:根据公式IV计算该语音频域的短时能量Es,公式IV为i∈(0,N),b为滤波器更新系数,取值范围为[0,1];以及
步骤B2:根据公式V计算该语音频域的长时能量El,公式V为i∈(0,N),a为滤波器更新系数,取值范围[0,1]。
5.如权利要求1至3中任一项所述的有效语音识别方法,其特征在于:步骤C根据公式VI、语音频谱分布p、长时能量El和短时能量Es计算语音类似度γ,公式VI为c为常数,取值范围为[0,1];e为自然指数。
6.一种有效语音识别系统,其特征在于:其包括以下模块:
模块A:实时获取当前语音帧的语音频谱分布;
模块B:实时获取当前语音帧的短时能量和长时能量;
模块C:根据语音频谱分布、长时能量和短时能量获取语音类似度;以及
模块D:判断语音类似度是否大于预设的语音类似度阈值,若是,执行模块E;若否,执行模块F;
模块E:判定当前语音帧为有效语音;以及
模块F:判定当前语音帧为非语音。
7.如权利要求6所述的有效语音识别系统,其特征在于:模块A包括以下子模块:
模块A1:实时根据傅里叶变换将当前的语音帧变换为语音频域;
模块A2:获取该语音频域的各频谱处的能量;以及
模块A3:根据各频谱处的能量统计语音频谱分布。
8.如权利要求7所述的有效语音识别系统,其特征在于:模块A1根据公式I将当前的语音换到语音频域X(k),公式I为X(k)=FFT(x(j)),j∈(0,N)为时域样点序号,k∈(0,N)为频域样点序号;
模块A2根据公式II计算该语音频域的各频谱处的能量E(k),公式II为E(k)=|X(k)|^2,k∈(0,N);
模块A3根据公式III和各频谱处的能量统计语音频谱分布p,公式III为 p = Σ i = 0 N ω i * log ( E ( k ) 1 N Σ i = 0 N E ( k ) ) , i ∈ ( 0 , N ) , Σ i = 0 N ω i = 1 , 其中,ωi为固定值,对应各子频带权重系数。
9.如权利要求6至8中任一项所述的有效语音识别系统,其特征在于:模块B包括以下子模块:
模块B1:根据公式IV计算该语音频域的短时能量Es,公式IV为i∈(0,N),b为滤波器更新系数,取值范围为[0,1],Ei指第i个频谱能量;以及
模块B2:根据公式V计算该语音频域的长时能量El,公式V为i∈(0,N),a为滤波器更新系数,取值范围[0,1],Ei指第i个频谱能量。
10.如权利要求6至8中任一项所述的有效语音识别系统,其特征在于:模块C根据公式VI、语音频谱分布p、长时能量El和短时能量Es计算语音类似度γ,公式VI为c为常数,取值范围为[0,1],e为自然指数。
CN201510055655.3A 2015-01-30 2015-01-30 有效语音识别方法及系统 Expired - Fee Related CN104575498B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510055655.3A CN104575498B (zh) 2015-01-30 2015-01-30 有效语音识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510055655.3A CN104575498B (zh) 2015-01-30 2015-01-30 有效语音识别方法及系统

Publications (2)

Publication Number Publication Date
CN104575498A true CN104575498A (zh) 2015-04-29
CN104575498B CN104575498B (zh) 2018-08-17

Family

ID=53091398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510055655.3A Expired - Fee Related CN104575498B (zh) 2015-01-30 2015-01-30 有效语音识别方法及系统

Country Status (1)

Country Link
CN (1) CN104575498B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106504760A (zh) * 2016-10-26 2017-03-15 成都启英泰伦科技有限公司 宽频带背景噪声与语音分离检测系统及方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1426048A (zh) * 2001-12-13 2003-06-25 中国科学院自动化研究所 基于熵的端点检测方法
CN1623186A (zh) * 2002-01-24 2005-06-01 摩托罗拉公司 用于噪声环境的话音活动检测器和验证器
US20050171772A1 (en) * 1997-10-31 2005-08-04 Sony Corporation Feature extraction apparatus and method and pattern recognition apparatus and method
CN1684143A (zh) * 2004-04-14 2005-10-19 华为技术有限公司 一种语音增强的方法
CN1766991A (zh) * 2004-10-29 2006-05-03 华为技术有限公司 一种语音电平调整装置及方法
CN1985301A (zh) * 2004-05-25 2007-06-20 诺基亚公司 用于多路重合噪声检测的系统和方法
CN101599269A (zh) * 2009-07-02 2009-12-09 中国农业大学 语音端点检测方法及装置
CN102074236A (zh) * 2010-11-29 2011-05-25 清华大学 一种分布式麦克风的说话人聚类方法
CN102097095A (zh) * 2010-12-28 2011-06-15 天津市亚安科技电子有限公司 一种语音端点检测方法及装置
CN102103200A (zh) * 2010-11-29 2011-06-22 清华大学 一种分布式非同步声传感器的声源空间定位方法
CN102522081A (zh) * 2011-12-29 2012-06-27 北京百度网讯科技有限公司 一种检测语音端点的方法及系统
CN103077728A (zh) * 2012-12-31 2013-05-01 上海师范大学 一种病人虚弱语音端点检测方法
CN103117067A (zh) * 2013-01-19 2013-05-22 渤海大学 一种低信噪比下语音端点检测方法
CN103426440A (zh) * 2013-08-22 2013-12-04 厦门大学 利用能量谱熵空间信息的语音端点检测装置及其检测方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050171772A1 (en) * 1997-10-31 2005-08-04 Sony Corporation Feature extraction apparatus and method and pattern recognition apparatus and method
CN1426048A (zh) * 2001-12-13 2003-06-25 中国科学院自动化研究所 基于熵的端点检测方法
CN1623186A (zh) * 2002-01-24 2005-06-01 摩托罗拉公司 用于噪声环境的话音活动检测器和验证器
CN1684143A (zh) * 2004-04-14 2005-10-19 华为技术有限公司 一种语音增强的方法
CN1985301A (zh) * 2004-05-25 2007-06-20 诺基亚公司 用于多路重合噪声检测的系统和方法
CN1766991A (zh) * 2004-10-29 2006-05-03 华为技术有限公司 一种语音电平调整装置及方法
CN101599269A (zh) * 2009-07-02 2009-12-09 中国农业大学 语音端点检测方法及装置
CN102074236A (zh) * 2010-11-29 2011-05-25 清华大学 一种分布式麦克风的说话人聚类方法
CN102103200A (zh) * 2010-11-29 2011-06-22 清华大学 一种分布式非同步声传感器的声源空间定位方法
CN102097095A (zh) * 2010-12-28 2011-06-15 天津市亚安科技电子有限公司 一种语音端点检测方法及装置
CN102522081A (zh) * 2011-12-29 2012-06-27 北京百度网讯科技有限公司 一种检测语音端点的方法及系统
CN103077728A (zh) * 2012-12-31 2013-05-01 上海师范大学 一种病人虚弱语音端点检测方法
CN103117067A (zh) * 2013-01-19 2013-05-22 渤海大学 一种低信噪比下语音端点检测方法
CN103426440A (zh) * 2013-08-22 2013-12-04 厦门大学 利用能量谱熵空间信息的语音端点检测装置及其检测方法

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
BING-FEI WU ET AL: ""Robust Endpoint Detection Algorithm Based on the Adaptive Band-Partitioning Spectral Entropy in Adverse Environments"", 《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》 *
任雪妮: ""语音相似度评价算法研究"", 《中国优秀硕士学位论文全文数据信息科技辑》 *
张玲 等: ""基于子频带加权的语音活动检测算法"", 《计算机应用》 *
李如玮 等: ""一种基于分带谱熵和谱能量的语音端点检测算法"", 《北京工业大学学报》 *
武传艳: ""一种改进的基于谱熵的语音端点检测技术"", 《计算机工程与应用》 *
游大涛 等: ""基于长短时能量均值的活动语音检测算法"", 《智能计算机与应用》 *
王景芳: ""实时语音端点鲁棒检测"", 《计算机工程与应用》 *
苏静: ""综合短时特征和长时特征的发音质量评价方法研究"", 《中国优秀硕士学位论文全文数据信息科技辑》 *
赵欢 等: ""一种新的对数能量谱熵语音端点检测方法"", 《湖南大学学报(自然科学版)》 *
邓艳容 等: ""语音端点检测研究"", 《计算机系统应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106504760A (zh) * 2016-10-26 2017-03-15 成都启英泰伦科技有限公司 宽频带背景噪声与语音分离检测系统及方法

Also Published As

Publication number Publication date
CN104575498B (zh) 2018-08-17

Similar Documents

Publication Publication Date Title
Hui et al. A pitch detection algorithm based on AMDF and ACF
CN103236260B (zh) 语音识别系统
Qi et al. Auditory features based on gammatone filters for robust speech recognition
CN106340292B (zh) 一种基于连续噪声估计的语音增强方法
CN108831499A (zh) 利用语音存在概率的语音增强方法
CN103137137B (zh) 一种会议音频中的精彩说话人发现方法
CN105225672B (zh) 融合基频信息的双麦克风定向噪音抑制的系统及方法
CN107274911A (zh) 一种基于声音特征的相似度分析方法
CN104409078A (zh) 异常声音检测和识别系统
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
Chaudhary et al. Gender identification based on voice signal characteristics
Ma et al. Perceptual Kalman filtering for speech enhancement in colored noise
CN103514877A (zh) 振动信号特征参数提取方法
CN104778948A (zh) 一种基于弯折倒谱特征的抗噪语音识别方法
Shi et al. Robust speaker recognition based on improved GFCC
CN107274887A (zh) 基于融合特征mgfcc的说话人二次特征提取方法
CN108364641A (zh) 一种基于长时帧背景噪声估计的语音情感特征提取方法
CN103903624B (zh) 一种高斯色噪声环境下的基音周期检测方法
CN104575498A (zh) 有效语音识别方法及系统
CN110379438B (zh) 一种语音信号基频检测与提取方法及系统
Das et al. Robust front-end processing for speech recognition in noisy conditions
CN110197657A (zh) 一种基于余弦相似度的动态音声特征提取方法
Zhu et al. Analysis of hybrid feature research based on extraction LPCC and MFCC
Wang et al. Research on transformer fault voiceprint recognition based on Mel time-frequency spectrum-convolutional neural network
Meriem et al. New front end based on multitaper and gammatone filters for robust speaker verification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180817

Termination date: 20210130