CN106297815B - 一种语音识别场景中回音消除的方法 - Google Patents

一种语音识别场景中回音消除的方法 Download PDF

Info

Publication number
CN106297815B
CN106297815B CN201610598402.5A CN201610598402A CN106297815B CN 106297815 B CN106297815 B CN 106297815B CN 201610598402 A CN201610598402 A CN 201610598402A CN 106297815 B CN106297815 B CN 106297815B
Authority
CN
China
Prior art keywords
audio
mike
loudspeaker
input
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610598402.5A
Other languages
English (en)
Other versions
CN106297815A (zh
Inventor
赵成义
何川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Uniontech Software Technology Co Ltd
Original Assignee
WUHAN CHENGMAI TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN CHENGMAI TECHNOLOGY Co Ltd filed Critical WUHAN CHENGMAI TECHNOLOGY Co Ltd
Priority to CN201610598402.5A priority Critical patent/CN106297815B/zh
Publication of CN106297815A publication Critical patent/CN106297815A/zh
Application granted granted Critical
Publication of CN106297815B publication Critical patent/CN106297815B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L15/00Apparatus or local circuits for transmitting or receiving dot-and-dash codes, e.g. Morse code
    • H04L15/04Apparatus or circuits at the transmitting end
    • H04L15/22Apparatus or circuits for sending one or a restricted number of signals, e.g. distress signals

Abstract

本发明属于语音识别领域,提供一种语音识别场景中回音消除的实施方法,该方法使用双数字麦克风通道,在音频数字信号处理模块中同时获得麦克输入和扬声器输出音频数据,将其中的扬声器输出右声道数据复制到麦克输入音频数据的右声道中,形成合成的麦克输入音频数据,将合成的麦克输入音频数据提供给上层的回音消除模块,通过回音消除模块AEC对合成的麦克输入音频数据的左右声道进行算法处理,输出可供语音识别模块使用的语音输入音频数据,让设备能够识别外界语音指令。本发明方法能够有效减低设备自身播放的音频对设备语音识别功能的干扰,从而让设备更加准确地识别外界语音指令,增强人机语音交互的操作体验。

Description

一种语音识别场景中回音消除的方法
技术领域
本发明属于语音识别领域,特别涉及一种语音识别场景中回音消除的方法。
背景技术
随着人工智能技术的发展,语音作为一种很好的人机交互模式,逐渐被应用到很多智能设备中。语音输入是通过语音识别将人说话的内容转换为文本的一种输入方式。
在很多领域,用户可以通过语音输入的方式代替手动输入来执行相应命令,例如,用户可以通过对手机说“请打开音乐”来打开音乐播放器应用程序,然后在播放过程中说“播放下一首”来进行歌曲的切换。手机对用户输入的语音信号进行识别后,执行相应操作。
但是,在很多语音识别的使用场景中,如果用于识别输入语音的设备自身可能正在播放音频(例如播放音视频,语音播报等),那么从设备麦克风的输入音频中混合了该设备扬声器的播放音频,也即是扬声器的声音反馈到麦克风中去了,这种存在于设备麦克风输入音频中的扬声器播放音频通常被称为回音(Acoustic Echo),回音的存在往往会干扰设备对外界语音的识别。
图1是回音消除AEC的简化原理图:其中信号1,是从麦克风输入的语音和回音混合而成的语音音频;另一个虚线的信号2,是原始的引起回音的音频。回音消除AEC,就是利用信号1和信号2,从信号1中把回音消除掉,输出清晰的语音。通常把信号1称为近端音频信号ne(near end),信号2称为远端参考音频信号fe(far end), 现有的回音消除的实施方案普遍通过网络或者使用硬件电路的方法获取用于回音消除的参考音频信号fe,并且大部分应用于特定的语音通信领域,或者应用于消除环境噪音等。
因此,现有回音消除的实施方案获取用于回音消除的参考音频信号的方法,以及实施方案不具备消除设备自身播放的多种音频(例如播放音视频,语音播报等)的功能,不适用于语音识别的场景。
发明内容
本发明的目的在于克服上述现有技术中的不足,而提出的一种语音识别场景中回音消除的方法,该方法能够有效减低设备自身播放的音频对设备语音识别功能的干扰,从而让设备更加准确地识别外界语音指令,增强人机语音交互的操作体验。
本发明的目的是通过以下技术方案实现的。
一种语音识别场景中回音消除的方法,
该方法在硬件方面的预置条件为:音频输入为两个数字1和数字麦克2,在物理电路上,连接数字麦克1,不连接数字麦克2,即数字麦克2虚焊,不连接真实的数字麦克;音频输出为一个扬声器;
在软件方面的预置条件为:AEC算法需要使用两种音频数据,分别是从麦克录制的音频数据和从扬声器播放的音频数据speaker_output,要求录制音频必须使用双声道的录制方法;
该方法包括音频数字信号处理模块Audio DSP、回音消除AEC软件模块、麦克输入音频处理软件模块、扬声器输出音频处理软件模块、语音识别软件模块,
音频数字信号处理模块,对输入输出的音频数据进行编解码以及各种音频调节处理;
回音消除AEC软件模块,对合成的麦克输入音频数据的左右声道进行算法处理,从麦克录制的输入音频中消除掉所包含的扬声器输出的音频;
麦克输入音频处理软件模块,对麦克输入音频进行音量的调节;
扬声器输出音频处理软件模块,对扬声器输出音频进行音量的调节;
语音识别软件模块,通过智能分析输入的语音,驱动系统作出相应的操作。
具体的语音识别场景中回音消除的方法步骤如下:
(1)将双声道合成算法加载到音频数字信号处理模块Audio DSP中,该算法将数字麦克1输入的录制音频和将多媒体应用程序输出到扬声器的播放音频合成一种双声道音频,将其中的扬声器输出音频数据复制到麦克输入音频数据的右声道中,在这种合成的音频中左声道为麦克输入的音频,右声道为扬声器输出的音频;
(2)在麦克输入音频处理软件模块中,将根据其上层回音消除AEC软件模块中AEC算法的需求对合成的麦克输入音频进行调整,特别需要调整右声道中的扬声器输出的音频数据的音量,适当的音量会改善通过AEC算法处理后输出音频的效果;
(3)在回音消除AEC软件模块获得了合成的双声道音频以后,使用音频分解算法,分解出左声道音频麦克输入音频和右声道音频扬声器输出音频,作为两路独立的单声道音频传入到AEC算法中,通过AEC算法处理以后,输出清晰的语音音频,并将其提供给语音识别软件模块进行语音识别处理。
本发明与传统的回音消除方式相比其优点在于: 本发明提供了一种新的语音识别场景中回音消除的实施方法,该方法使用双数字麦克风通道,通过软件复制播放音频数据的方法获取用于回音消除的参考音频信号,能够有效减低设备自身播放的音频对设备语音识别功能的干扰,从而让设备更加准确地识别外界语音指令,增强人机语音交互的操作体验。
附图说明
图1是回音消除AEC的简化原理图。
图2是本发明回音消除方法的实施例示意图。
具体实施方式
下面结合附图和实施案例,对本发明专利的技术方案进行具体说明。
参考图2,实施回音消除,需要得到两种音频数据,分别是从麦克录制的输入音频数据mic_input和从扬声器输出的音频数据speaker_output,因为麦克输入音频数据mic_input是对所有外界声音的录制,其中包含了部分扬声器输出音频数据speaker_output的内容,这里所说的回音消除就是消除麦克输入音频数据mic_input中所包含的扬声器输出音频数据speaker_output的内容,然后输出清晰的speech_input语音,最终的目的是让设备能够识别外界语音指令,用一个简单的数学公式表示为:
speech_input = mic_input – F(speaker_output)。
在移动操作系统的音频子系统中,通常会有一个音频数字信号处理模块AudioDSP,一般的输入输出音频数据都会经过该模块做某些算法处理,前面所提到的麦克输入音频和扬声器输出音频数据同样也会经过音频数字信号处理模块,本技术方案的核心就是在音频数字信号处理模块中同时获得麦克输入音频和扬声器输出音频数据,将其中的扬声器输出音频数据复制到麦克输入音频数据的右声道中,形成一种新的音频数据,即合成的麦克输入音频数据,其左声道为麦克输入音频,右声道为扬声器输出音频,将合成的麦克输入音频数据提供给上层的回音消除AEC软件模块,通过回音消除AEC软件模块对合成的麦克输入音频数据的左右声道进行算法处理,输出可供语音识别模块使用的语音输入音频数据,让设备能够识别外界语音指令。
本实施例提供一种语音识别场景中回音消除的方法,
该方法在硬件方面的预置条件为:音频输入为两个数字麦克,在物理电路上,连接数字麦克1,不连接数字麦克2,即数字麦克2虚焊,不连接真实的数字麦克;音频输出为一个扬声器;
在软件方面的预置条件为:AEC算法需要使用两种音频数据,分别是从麦克录制的音频数据和从扬声器输出的音频数据,要求录制音频必须使用双声道的录制方法;
该方法包括音频数字信号处理模块Audio DSP、回音消除AEC软件模块、麦克输入音频处理软件模块、扬声器输出音频处理软件模块、语音识别软件模块,
音频数字信号处理模块,对输入输出的音频数据进行编解码以及各种音频调节处理;
回音消除AEC软件模块,对合成的麦克输入音频数据的左右声道进行算法处理,从麦克录制的输入音频中消除掉所包含的扬声器输出的音频;
麦克输入音频处理软件模块,对麦克输入音频进行音量的调节;
扬声器输出音频处理软件模块,对扬声器输出音频进行音量的调节;
语音识别软件模块,通过智能分析输入的语音,驱动系统作出相应的操作。
具体的语音识别场景中回音消除的方法步骤如下:
(1)将双声道合成算法加载到音频数字信号处理模块中,该算法将数字麦克1输入的录制音频和将多媒体应用程序输出到扬声器的播放音频合成一种双声道音频,将其中的扬声器输出音频数据复制到麦克输入音频数据的右声道中,在这种合成的音频中左声道为麦克输入的音频,右声道为扬声器输出的音频;
(2)在麦克输入音频处理软件模块中,将根据其上层回音消除AEC软件模块中AEC算法的需求对合成的麦克输入音频进行调整,特别需要调整右声道中的扬声器输出的音频数据的音量,适当的音量会改善通过AEC算法处理后输出音频的效果;
(3)在回音消除AEC软件模块获得了合成的双声道音频以后,使用音频分解算法,分解出左声道音频麦克输入音频和右声道音频扬声器输出音频,作为两路独立的单声道音频传入到AEC算法中,通过AEC算法处理以后,输出清晰的语音音频,并将其提供给语音识别软件模块进行语音识别处理。

Claims (1)

1.一种语音识别场景中回音消除的方法,其特征在于:
该方法在硬件方面的预置条件为:音频输入为两个数字麦克,在物理电路上,连接数字麦克1,不连接数字麦克2,即数字麦克2虚焊,不连接真实的数字麦克;音频输出为一个扬声器;
在软件方面的预置条件为:AEC算法需要使用两种音频数据,分别是从麦克录制的麦克输入音频数据和从扬声器播放的扬声器输出音频数据,要求录制音频必须使用双声道的录制方法;
该方法包括音频数字信号处理模块、回音消除AEC软件模块、麦克输入音频处理软件模块、扬声器输出音频处理软件模块、语音识别软件模块,
音频数字信号处理模块,对输入输出的音频数据进行编解码以及各种音频调节处理;
回音消除AEC软件模块,对合成的麦克输入音频数据的左右声道进行算法处理,从麦克录制的输入音频中消除掉所包含的扬声器输出的音频;
麦克输入音频处理软件模块,对麦克输入音频进行音量的调节;
扬声器输出音频处理软件模块,对扬声器输出音频进行音量的调节;
语音识别软件模块,通过智能分析输入的语音,驱动系统作出相应的操作;
具体的该方法步骤如下:
(1)将双声道合成算法加载到音频数字信号处理模块中,该算法将数字麦克1输入的录制音频和将多媒体应用程序输出到扬声器的播放音频合成一种双声道音频,将其中的扬声器输出音频数据复制到麦克输入音频数据的右声道中,在这种合成的音频中左声道为麦克输入的音频,右声道为扬声器输出的音频;
(2)在麦克输入音频处理软件模块中,将根据其上层回音消除AEC软件模块中AEC算法的需求对合成的麦克输入音频进行调整,特别需要调整右声道中的扬声器输出的音频数据的音量;
(3)在回音消除AEC软件模块获得了合成的双声道音频以后,使用音频分解算法,分解出左声道音频麦克输入音频和右声道音频扬声器输出音频,作为两路独立的单声道音频传入到AEC算法中,通过AEC算法处理以后,输出清晰的语音音频,并将其提供给语音识别软件模块进行语音识别处理。
CN201610598402.5A 2016-07-27 2016-07-27 一种语音识别场景中回音消除的方法 Active CN106297815B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610598402.5A CN106297815B (zh) 2016-07-27 2016-07-27 一种语音识别场景中回音消除的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610598402.5A CN106297815B (zh) 2016-07-27 2016-07-27 一种语音识别场景中回音消除的方法

Publications (2)

Publication Number Publication Date
CN106297815A CN106297815A (zh) 2017-01-04
CN106297815B true CN106297815B (zh) 2017-09-01

Family

ID=57652765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610598402.5A Active CN106297815B (zh) 2016-07-27 2016-07-27 一种语音识别场景中回音消除的方法

Country Status (1)

Country Link
CN (1) CN106297815B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10580402B2 (en) * 2017-04-27 2020-03-03 Microchip Technology Incorporated Voice-based control in a media system or other voice-controllable sound generating system
CN107274909A (zh) * 2017-06-16 2017-10-20 深圳市华域无线技术股份有限公司 一种语音识别中的主动式本机音频消除方法
CN107249116B (zh) * 2017-08-09 2020-05-05 成都全云科技有限公司 基于视频会议的噪音回音消除装置
CN107454508B (zh) * 2017-08-23 2020-07-14 深圳创维-Rgb电子有限公司 麦克风阵列的电视机及电视系统
CN108053827A (zh) * 2017-12-18 2018-05-18 赵满平 一种智能语音交互装置
RU2707149C2 (ru) 2017-12-27 2019-11-22 Общество С Ограниченной Ответственностью "Яндекс" Устройство и способ модифицирования вывода аудиосигнала устройства
USD877121S1 (en) 2017-12-27 2020-03-03 Yandex Europe Ag Speaker device
CN108198551A (zh) * 2018-01-15 2018-06-22 深圳前海黑鲸科技有限公司 回声消除延时的处理方法及装置
KR102459920B1 (ko) * 2018-01-25 2022-10-27 삼성전자주식회사 저전력 에코 제거를 지원하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법
CN110312093A (zh) * 2018-03-27 2019-10-08 晨星半导体股份有限公司 电子装置及相关的信号处理方法
CN108600805A (zh) * 2018-03-29 2018-09-28 珠海迈科智能科技股份有限公司 一种机顶盒及其去除电视节目声音源干扰的方法
CN109361827B (zh) * 2018-10-22 2021-02-09 杭州叙简科技股份有限公司 一种通信终端的回音二次抑制方法
CN109378011B (zh) * 2018-12-18 2021-12-14 苏州顺芯半导体有限公司 一种现场音频播放和采集系统及回音消除方法
CN110277102B (zh) * 2019-04-30 2021-09-07 晶晨半导体(上海)股份有限公司 一种多声道混音的回音消除系统和回音消除方法
CN110191244B (zh) * 2019-05-17 2021-08-31 四川易简天下科技股份有限公司 远程互动方法及系统
USD947152S1 (en) 2019-09-10 2022-03-29 Yandex Europe Ag Speaker device
CN111918106A (zh) * 2020-07-07 2020-11-10 胡飞青 应用场景识别的多媒体播放系统及方法
CN111933168B (zh) * 2020-08-17 2023-10-27 齐鲁工业大学 基于binder的软回路动态消回声方法及移动终端
CN113079401B (zh) * 2021-03-29 2022-09-30 海信视像科技股份有限公司 显示设备及回声消除方法
CN113409788A (zh) * 2021-07-15 2021-09-17 深圳市同行者科技有限公司 语音唤醒方法、系统、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6665645B1 (en) * 1999-07-28 2003-12-16 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus for AV equipment
CN101281457A (zh) * 2008-06-02 2008-10-08 威盛电子股份有限公司 虚拟麦克风模拟器与方法
CN101295236A (zh) * 2008-06-24 2008-10-29 北京中星微电子有限公司 自动录音方法、系统及装置
CN101815237A (zh) * 2009-12-07 2010-08-25 北京佳讯飞鸿电气股份有限公司 一种对声学回声消除器的测试方法与装置
CN104661158A (zh) * 2013-11-25 2015-05-27 华为技术有限公司 立体声耳机、终端及两者的音频信号处理方法
CN105407443A (zh) * 2015-10-29 2016-03-16 小米科技有限责任公司 录音方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009047858A1 (ja) * 2007-10-12 2009-04-16 Fujitsu Limited エコー抑圧システム、エコー抑圧方法、エコー抑圧プログラム、エコー抑圧装置、音出力装置、オーディオシステム、ナビゲーションシステム及び移動体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6665645B1 (en) * 1999-07-28 2003-12-16 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus for AV equipment
CN101281457A (zh) * 2008-06-02 2008-10-08 威盛电子股份有限公司 虚拟麦克风模拟器与方法
CN101295236A (zh) * 2008-06-24 2008-10-29 北京中星微电子有限公司 自动录音方法、系统及装置
CN101815237A (zh) * 2009-12-07 2010-08-25 北京佳讯飞鸿电气股份有限公司 一种对声学回声消除器的测试方法与装置
CN104661158A (zh) * 2013-11-25 2015-05-27 华为技术有限公司 立体声耳机、终端及两者的音频信号处理方法
CN105407443A (zh) * 2015-10-29 2016-03-16 小米科技有限责任公司 录音方法及装置

Also Published As

Publication number Publication date
CN106297815A (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN106297815B (zh) 一种语音识别场景中回音消除的方法
CN204836533U (zh) 一种具有回声消除功能的声控智能音箱
TWI520127B (zh) 應用於音訊裝置的控制器與相關的操作方法
CN105027541B (zh) 基于内容的噪声抑制
CN101609667B (zh) Pmp播放器中实现卡拉ok功能的方法
CN103458137B (zh) 用于音频会议中的语音增强的系统和方法
CN107851449A (zh) 基于编码音频元数据的均衡
CN101751918B (zh) 新型消音装置及消音方法
MX2007004329A (es) Funciones mejoradas de transferencia relacionadas con la cabeza para contenido de audio panoramizado de estereo.
CN104157292A (zh) 抗啸叫音频信号处理方法和装置
CN101426058B (zh) 一种改善多通道音频通话质量的系统及方法
CN110223677A (zh) 空间音频信号滤波
CN107135301A (zh) 一种音频数据处理方法及装置
CN107195288A (zh) 一种助唱方法及系统
CN110349582A (zh) 显示装置与远场语音处理电路
CN105208189A (zh) 音频处理方法及移动终端
CN111447519A (zh) 智能音箱、基于智能音箱的交互方法及程序产品
CN106331956A (zh) 集成远场语音识别和声场录制的系统和方法
CN108510997A (zh) 电子设备及应用于电子设备的回声消除方法
CN105721639A (zh) 一种用于移动终端的立体声输出装置和移动终端
CN109743658A (zh) 一种信息处理方法及电子设备
CN103200480A (zh) 耳麦及其工作方法
CN207802262U (zh) 一种基于麦克风阵列的消回声电路及语音识别装置
CN204090051U (zh) 家庭剧院与卡拉ok整合系统
CN206149485U (zh) 集成远场语音识别和声场录制的系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 430079 13 / F and 14 / F, building 4, North A5, phase I, Longshan Innovation Park, future science and Technology City, 999 Gaoxin Avenue, Donghu New Technology Development Zone, Wuhan City, Hubei Province

Patentee after: Wuhan Tongxin Software Technology Co.,Ltd.

Address before: 430074 4th floor, building A2, optical valley software park, No.1 Guanshan Avenue, Donghu New Technology Development Zone, Wuhan City, Hubei Province

Patentee before: ARCHERMIND TECHNOLOGY (WUHAN) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230915

Address after: 100176 18th floor, building 12, courtyard 10, KEGU 1st Street, Beijing Economic and Technological Development Zone, Daxing District, Beijing

Patentee after: Tongxin Software Technology Co.,Ltd.

Address before: 430079 13 / F and 14 / F, building 4, North A5, phase I, Longshan Innovation Park, future science and Technology City, 999 Gaoxin Avenue, Donghu New Technology Development Zone, Wuhan City, Hubei Province

Patentee before: Wuhan Tongxin Software Technology Co.,Ltd.