CN106504747A - 移动环境下基于异构双mic 的语音识别自适应系统的方法 - Google Patents

移动环境下基于异构双mic 的语音识别自适应系统的方法 Download PDF

Info

Publication number
CN106504747A
CN106504747A CN201610849007.XA CN201610849007A CN106504747A CN 106504747 A CN106504747 A CN 106504747A CN 201610849007 A CN201610849007 A CN 201610849007A CN 106504747 A CN106504747 A CN 106504747A
Authority
CN
China
Prior art keywords
main
mic1
mic2
recording
eng
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610849007.XA
Other languages
English (en)
Inventor
胡梅
胡一梅
于拾全
卫亚东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Bean Mdt Infotech Ltd
Original Assignee
Shenzhen Bean Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Bean Mdt Infotech Ltd filed Critical Shenzhen Bean Mdt Infotech Ltd
Priority to CN201610849007.XA priority Critical patent/CN106504747A/zh
Publication of CN106504747A publication Critical patent/CN106504747A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种移动环境下基于异构双MIC的语音识别自适应系统的方法,所述方法包括以下步骤:根据信噪特性设定主副MIC(Microphone,缩写MIC)的优选识别规则;终端进入录音模式时,同时启动主、副MIC的录音通道,并实时检测语音端点;若探测到语音信号,则根据优选规则,选出最优音频通道的数据进行语音识别;最后,根据当前音频文件中的信息软控制主MIC1硬件PA(Power Amplifier,功率放大器,简称“功放”),实现其PA的动态调整。实施本发明后,在嘈杂的环境下,优选拾音范围较小的副MIC2,减小环境对识别引擎的影响,而主MIC1可探知用户的远近距离并实时调整PA,实现了录音前端及识别效果相结合的自适应体系,提高了识别性能并完善了用户体验。

Description

移动环境下基于异构双MIC的语音识别自适应系统的方法
技术领域
本发明公开了一种移动环境下基于异构双MIC的语音识别自适应系统的方法,属于语音信号处理技术领域。
背景技术
随着科技的进步,人机交互已经经历了命令行、图形界面到触摸板的三代变革。现在,为了解放双手操作,我们已经来到语音控制时代的入口,人机交互模式正在发生着巨大的变化。最近的消息显示,各大科技巨头都已经开始布局语音交互领域,业内普遍认为语音作为人类信息最自然、最便捷的交互方式,必将成为新人机交互模式的重要组成部分。
由于移动和便携设备的使用场所十分多变,用户有可能时常处于声音极其嘈杂的环境下,而语音交互的完美实现则有赖于清晰的语音信息接收以及准确的语音识别能力。因此,在大数据和深度学习之外,如何在有噪声的情况下保持良好的语音接收是工程师们面临的一大挑战。而语音降噪技术的发展和强化,也正在推进语音交互时代的到来。
未来的语音识别市场,预计将会有越来越多的公司参与,以后语音识别的性能可能更多的体现在前端技术和语义理解上。机器要与人自然交流,必然就要考虑到用户说话的环境、周围环境的噪音、用户发音不准或者方言等等诸多因素,这就要求前端技术更加精准的模拟人体结构,仿真出机器人听觉系统,以实现解放双手自由对话的目的。
发明内容
本发明提出了一种移动环境下基于异构双MIC的语音识别自适应系统的方法,从语音模拟信号最前端对信号进行优化,实现语音识别自适应。与现有方法相比,即使在信噪比变化剧烈的情况下仍能得到较清晰的语音信号,对语音识别的后续工作起了很好的铺垫作用,减轻了其应用于复杂场景的压力,并且实现简单,具有系统性自适应能力。
本发明为解决其技术问题采用如下技术方案:
步骤(1)结合优选通道与动态调整PA的方式,实现系统结构层的自适应调整前端状态以提高语音识别率;
步骤(1-1)对系统进行初始化,主MIC1主要用于远场拾音及远近距离预测,副MIC2主要用于近场拾音及抗强干扰场景,因而动态绑定主MIC1的PA,副MIC2绑定固定PA值。
步骤(1-2)根据PA的调整需求,由主MIC1当前获取的wav判断下次录音时PA的调整值。
步骤(1-3)由步骤(1-2)得出主MIC1的PA调整值,采用判决反馈的方式重置步骤(1-1)中主MIC1的PA,当前说话人的位置较远时,增大PA,当前说话人的位置较近时,降低PA,实时更新PA值,实现系统性自适应改善录音和识别效果。
步骤(2)终端进入录音模式后,同时启动主、副MIC的录音通道,探测到有语音信号,分析缓存buffer,根据优选规则,选择最优的录音通道;
步骤(2-1)判断主MIC1的噪声能量是否大于预设的能量阀值Main_noise;若是,优选副MIC2录音通道的数据。在噪声能量阈值判断条件下,优选副MIC2录音通道的数据,副MIC2具有拾音距离短且拾音方向窄的特点,其音频信息具有较大抗噪性和抗干扰性。
步骤(2-2)判断主MIC1的语音能量Main_veng是大于预设的削波能量阀值Main_vmax或是大于预设的语音最低能量阀值Main_vmin。若大于预设的削波能量阀值Main_vmax,优选副MIC2录音通道的数据,当主MIC1削波时,应选数据信息完好的副MIC2;若大于预设的语音最低能量阀值Main_vmin,优选主MIC1录音通道的数据。
步骤(2-3)判断副MIC2的语音能量Sub_veng是大于预设的语音最低能量阀值Sub_vmin或是大于预设的静音最高能量阀值Sub_mmax。若小于预设的静音最高能量阀值Sub_mmax,优选主MIC1录音通道的数据,当副MIC2录音音量较小时,可能用户离得较远,音量过小影响识别率,应选适应距离较大的主MIC1;若大于预设的语音最低能量阀值Sub_vmin,优选副MIC2录音通道的数据。
步骤(2-4)计算主MIC1的信噪比和副MIC2的信噪比,优选信噪比较高的录音通道的数据。
步骤(2-5)在相关判断条件下,优选副MIC2录音通道的数据。当优选主MIC1和优选副MIC2的条件同时成立时,优选副MIC2,其音频数据具有抗噪性和抗干扰性,有益于提高识别率。
步骤(3)由步骤(2)判断出最优录音通道后,识别最优通道的语音数据,并保存录音文件,无论最优通道是否为主MIC1,对其wav进行分析,判断下次录音时主MIC1的PA调整值;
步骤(3-1)识别最优通道的语音数据时,当判断当前说话结束,给出识别结果,并保存wav录音文件,对MIC1的wav分析,判断当前说话人的位置远近程度,主MIC1的PA调整值。
步骤(3-2)判断主MIC1的wav中最大能量值eng_max是否大于预设的削波能量阀值eng_thresh1;若是,根据eng_max与eng_thresh1的比值,调整PA,降低主MIC1的模拟增益。
步骤(3-3)判断主MIC1的wav中最大能量值eng_max是否小于预设的最低语音能量阀值eng_thresh2;若是,根据eng_max与eng_thresh2的比值,调整PA,增大主MIC1的模拟增益。
本发明的有益效果在于:
(1)本发明中公开的移动环境下基于异构双MIC的语音识别自适应系统的方法,可以随着说话人远近距离和环境噪声的变化,自动选择最合适的模型进行识别,显著提升准确率。
(2)本发明公开的从语音模拟信号最前端对信号进行优化,实现语音识别自适应的方法,对前端异构的双MIC的架构要求较大,从原始模拟信号本身对语音和噪声信号做了提升和抑制处理,避免了相关算法的缺陷,适用于各种应用场景。
附图说明
图1是本发明所述的利用异构双MIC优选识别自适应系统的方法示意图;
图2为异构双MIC的优选判断方法流程图;
图3为调整PA的方法示意图;
图4是本发明所述移动终端的结构示意框图。
具体实施方式
下面结合附图对本发明作进一步阐述:
如附图1及附图4所示,本发明所述的移动终端包括:PA绑定模块、优选模块和更新模块。初始化设定全向主MIC1和定向副MIC2的PA值,主MIC1实现动态绑定PA,副MIC2绑定固定PA值;绑定PA模块后,进入优选模块,首先需要设定主副MIC的优选识别规则,并当终端进入录音模式时,同时启动主、副MIC的录音通道,并一直保持录音状态;实时检测主副MIC是否有语音端点特征,若是,则根据优选规则,选出最优音频通道的数据进行语音识别,直到出现语音后端点,给出识别结果;最后,进入更新模块,根据当前主MIC1产生wav信息软控制主MIC1硬件PA,实现主MIC1录音通道PA的动态调整。
其中,优选规则如附图2所示。当探测到前端点后,根据主MIC1和副MIC2的语音能量、噪声能量、信噪比等判断出具有更高语音清晰度和辨识度的录音通道。
IF Main_veng>Main_noise Flag_channel=2
ELSEIF Sub_veng>Sub_vmin Flag_channel=2
ELSEIF Main_veng>Main_vmax Flag_channel=2
ELSEIF Sub_veng<Sub_mmax Flag_channel=1
ELSEIF Main_veng>Main_vmin Flag_channel=1
ELSEIF Main_snr>Sub_snr Flag_channel=1
ELSE Flag_channel=2
其中:
Main_noise表示主MIC1的噪声能量阀值;
Main_veng表示主MIC1的语音能量值;
Main_vmax表示主MIC1的削波能量阀值;
Main_vmin表示主MIC1的语音最低能量阀值;
Sub_veng表示副MIC2的语音能量值;
Sub_vmin表示副MIC2的语音最低能量阀值;
Sub_mmax表示副MIC2的静音最高能量阀值;
Main_snr表示主MIC1的信噪比;
Sub_snr表示副MIC2的信噪比;
Flag_channel表示优选通道,
Flag_channel=1表示优选主MIC1,
Flag_channel=2表示优选副MIC2。
由主MIC1产生的wav信息软控制主MIC1的硬件PA,实现主MIC1录音通道PA动态调整的方法如附图3所示。当主MIC1产生wav,对wav分析,判断主MIC1的PA值是否合适。若wav中最大能量值eng_max大于预设的削波能量阀值eng_thresh1,降低主MIC1的模拟增益PA,实现PA快速降低;若wav中最大能量值eng_max小于预设的最低语音能量阀值eng_thresh2,增大主MIC1的模拟增益PA,实现PA缓慢提高,当eng_max非常小时,PA将快速提高。其实现如下:
其中:
eng_max表示主MIC1的wav中最大能量值;
eng_thresh1表示主MIC1的削波能量阀值;
eng_thresh2表示主MIC1的最低语音能量阀值;
PA表示主MIC1下次录音时的PA变化量;
step_down表示PA降低时调整的步长;
step_up表示PA增大时调整的步长。
以上所述实施例,只是本发明的较佳实例,并非来限制本发明的实施范围,故凡依本发明申请专利范围所述的构造、特征及原理所做的等效变化或修饰,均应包括于本发明专利申请范围内。

Claims (3)

1.一种移动环境下基于异构双MIC的语音识别自适应的方法,其特征在于该方法包括:
当终端进入录音模式时,同时启动主、副MIC的录音通道,并实时检测语音端点;若探测到语音信号,则根据优选规则,选出最优音频通道的数据进行语音识别;并结合当前音频文件的信息软控制主MIC1硬件PA,以动态调整其PA值。实现用户远近移动而自适应调整前端录音的状态以提高语音识别率。
2.根据权利要求1所述的移动环境下基于异构双MIC的语音识别自适应的方法,其特征在于,所述录音通道的优选机制:
终端进入录音模式后,同时启动主、副MIC的录音通道,检测到有语音信号,分析缓存buffer,根据优选规则,选择最优的录音通道;
(1)计算出主MIC1的噪声能量值Main_neng、语音能量值Main_veng、信噪比Main_snr,和副MIC2的语音能量值Sub_veng、信噪比Sub_snr;其中,信号能量值(包括噪声能量值Main_neng、语音能量值Main_veng和Sub_veng)为:
E ( n ) = &Sigma; k = 1 N S ( k ) * S ( k ) ;
其中,n表示信号的第n帧;S(k)是加汉明窗或矩形窗的第n帧信号,N为帧长;
信噪比SNR(包括Main_snr和Sub_snr)为:
S N R = 20 * log 10 ( &Sigma; i = 1 M E _ v o i c e ( i ) / M &Sigma; i = 1 N E _ n o i s e ( i ) / N ) ;
(2)如果主MIC1的噪声能量Main_neng>Main_noise,优选副MIC2录音通道的数据,当噪声较大时选择拾音距离短且拾音方向窄的副MIC2,实现系统的抗噪性和抗干扰性;
(3)如果主MIC1的语音能量Main_veng>Main_vmax,优选副MIC2录音通道的数据,当主MIC1削波时,应选数据信息完好的副MIC2;
(4)如果副MIC2的语音能量Sub_veng>Sub_vmin,优选副MIC2录音通道的数据,当副MIC2语音信号较强时,应选数据信息较好的副MIC2,其拥有较高的语音清晰度;
(5)如果副MIC2的语音能量Sub_veng<Sub_mmax,优选主MIC1录音通道的数据,当副MIC2录音音量较小时,可能用户离得较远,音量过小影响识别率,应选拾音距离较大的主MIC1;
(6)如果主MIC1的语音能量Main_veng>Main_vmin,优选主MIC1录音通道的数据,当主MIC1语音信号较强时,应选数据信息较好的主MIC1;
(7)如果主MIC1的信噪比Main_snr大于副MIC2的Sub_snr信噪比,则优选主MIC1录音通道的数据,否则优选副MIC2录音通道的数据,优选信噪比较高的通道。
3.根据权利要求1所述的移动环境下基于异构双MIC的语音识别自适应的方法,其特征在于,所述MIC的PA自适应调整:
初始化设定全向主MIC1和定向副MIC2的PA值,主MIC1实现动态绑定PA,副MIC2绑定固定PA值;由主MIC1当前获取的wav判断下次录音时PA的调整值;并采用判决反馈的方式重置主MIC1的PA,以自适应调整主MIC1的PA。
(1)如果主MIC1的wav中最大能量值eng_max>eng_thresh1,则PA的下调值为:
PA=(eng_max-eng_thresh1)/step_down;
其中,eng_thresh1表示主MIC1的削波能量阀值;step_down表示PA降低时调整的步长;
(2)如果主MIC1的wav中最大能量值eng_max<eng_thresh2,则PA的上调值为:
PA=-(eng_max-eng_thresh2)2/step_up;
其中,eng_thresh2表示主MIC1的最低语音能量阀值,step_up表示PA增大时调整的步长。
CN201610849007.XA 2016-09-23 2016-09-23 移动环境下基于异构双mic 的语音识别自适应系统的方法 Pending CN106504747A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610849007.XA CN106504747A (zh) 2016-09-23 2016-09-23 移动环境下基于异构双mic 的语音识别自适应系统的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610849007.XA CN106504747A (zh) 2016-09-23 2016-09-23 移动环境下基于异构双mic 的语音识别自适应系统的方法

Publications (1)

Publication Number Publication Date
CN106504747A true CN106504747A (zh) 2017-03-15

Family

ID=58291100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610849007.XA Pending CN106504747A (zh) 2016-09-23 2016-09-23 移动环境下基于异构双mic 的语音识别自适应系统的方法

Country Status (1)

Country Link
CN (1) CN106504747A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109309888A (zh) * 2017-07-27 2019-02-05 深圳市冠旭电子股份有限公司 语音信息处理方法、播放设备及计算机可读存储介质
TWI716843B (zh) * 2019-03-28 2021-01-21 群光電子股份有限公司 語音處理系統及語音處理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067571A (zh) * 2007-06-18 2007-11-07 中兴通讯股份有限公司 声学自动增益效果测试方法及系统
US20100100374A1 (en) * 2007-04-10 2010-04-22 Sk Telecom. Co., Ltd Apparatus and method for voice processing in mobile communication terminal
CN102165521A (zh) * 2008-09-30 2011-08-24 苹果公司 多个麦克风切换和配置
CN104335600A (zh) * 2013-02-25 2015-02-04 展讯通信(上海)有限公司 多麦克风移动装置中检测及切换降噪模式的方法
US20150172811A1 (en) * 2013-10-22 2015-06-18 Nokia Corporation Audio capture with multiple microphones
CN105323363A (zh) * 2014-06-30 2016-02-10 中兴通讯股份有限公司 选择主麦克风的方法及装置
CN105554303A (zh) * 2012-06-19 2016-05-04 青岛海信移动通信技术股份有限公司 一种双mic降噪方法及移动终端

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100100374A1 (en) * 2007-04-10 2010-04-22 Sk Telecom. Co., Ltd Apparatus and method for voice processing in mobile communication terminal
CN101067571A (zh) * 2007-06-18 2007-11-07 中兴通讯股份有限公司 声学自动增益效果测试方法及系统
CN102165521A (zh) * 2008-09-30 2011-08-24 苹果公司 多个麦克风切换和配置
CN105554303A (zh) * 2012-06-19 2016-05-04 青岛海信移动通信技术股份有限公司 一种双mic降噪方法及移动终端
CN104335600A (zh) * 2013-02-25 2015-02-04 展讯通信(上海)有限公司 多麦克风移动装置中检测及切换降噪模式的方法
US20150172811A1 (en) * 2013-10-22 2015-06-18 Nokia Corporation Audio capture with multiple microphones
CN105323363A (zh) * 2014-06-30 2016-02-10 中兴通讯股份有限公司 选择主麦克风的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109309888A (zh) * 2017-07-27 2019-02-05 深圳市冠旭电子股份有限公司 语音信息处理方法、播放设备及计算机可读存储介质
TWI716843B (zh) * 2019-03-28 2021-01-21 群光電子股份有限公司 語音處理系統及語音處理方法

Similar Documents

Publication Publication Date Title
CN109671433B (zh) 一种关键词的检测方法以及相关装置
US11150866B2 (en) Systems and methods for contextual audio detection and communication mode transactions
US8442833B2 (en) Speech processing with source location estimation using signals from two or more microphones
US8755546B2 (en) Sound processing apparatus, sound processing method and hearing aid
Fukuda et al. Long-term spectro-temporal and static harmonic features for voice activity detection
US11978478B2 (en) Direction based end-pointing for speech recognition
US9940926B2 (en) Rapid speech recognition adaptation using acoustic input
WO2008067719A1 (fr) Procédé de détection d&#39;activité sonore et dispositif de détection d&#39;activité sonore
CN103124165A (zh) 自动增益控制
CN107464565A (zh) 一种远场语音唤醒方法及设备
EP2196990A2 (en) Voice processing apparatus and voice processing method
CN111145763A (zh) 一种基于gru的音频中的人声识别方法及系统
JP2009003040A (ja) 音声対話装置、音声対話方法及びロボット装置
CN106504747A (zh) 移动环境下基于异构双mic 的语音识别自适应系统的方法
CN103474062A (zh) 一种语音识别方法
KR20210010404A (ko) 음원 출력 제어 장치 및 그 방법
JPH06236196A (ja) 音声認識方法および装置
CN115376534A (zh) 一种麦克风阵列音频的处理方法及拾音胸牌
CN114566152A (zh) 一种基于深度学习的语音端点检测方法
KR101682796B1 (ko) 소음 환경에서 음절 형태 기반 음소 가중 기법을 이용한 음성의 명료도 향상 방법 및 이를 기록한 기록매체
WO2021146857A1 (zh) 音频处理方法及装置
CN111128244B (zh) 基于过零率检测的短波通信语音激活检测方法
CN112786071A (zh) 面向语音交互场景语音片段的数据标注方法
CN106790963A (zh) 音频信号的控制方法及装置
CN111768800B (zh) 语音信号处理方法、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170315