CN110177317B - 回声消除方法、装置、计算机可读存储介质和计算机设备 - Google Patents
回声消除方法、装置、计算机可读存储介质和计算机设备 Download PDFInfo
- Publication number
- CN110177317B CN110177317B CN201910409473.XA CN201910409473A CN110177317B CN 110177317 B CN110177317 B CN 110177317B CN 201910409473 A CN201910409473 A CN 201910409473A CN 110177317 B CN110177317 B CN 110177317B
- Authority
- CN
- China
- Prior art keywords
- voice
- signal
- distortion
- echo
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000006870 function Effects 0.000 claims description 52
- 238000012545 processing Methods 0.000 claims description 41
- 230000001629 suppression Effects 0.000 claims description 21
- 230000008859 change Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 11
- 238000002592 echocardiography Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000000694 effects Effects 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000001914 filtration Methods 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000003379 elimination reaction Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008030 elimination Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000010363 phase shift Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000009123 feedback regulation Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000013707 sensory perception of sound Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/08—Mouthpieces; Microphones; Attachments therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2410/00—Microphones
- H04R2410/03—Reduction of intrinsic noise in microphones
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
Abstract
本申请涉及一种回声消除方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取语音信号;根据预测的扬声器失真特性函数,确定所述语音信号的语音失真度与语音响度的均衡值;按照所述均衡值调整所述语音信号的播放增益;获取包含调整后的语音信号在播放时所产生回声的语音采集信号;对所获取的包含有所述回声的语音采集信号进行回声消除。本申请提供的方案可以有效地避免了语音信号在扬声器中的失真而导致语音质量差的问题,提高了对语音信号中的回声进行消除的效果。
Description
技术领域
本申请涉及语音信号处理技术领域,特别是涉及一种回声消除方法、装置、计算机可读存储介质和计算机设备。
背景技术
随着语音信号处理技术的不断发展,用户对语音质量要求也越来越高,若语音中出现有回声将会严重影响语音质量。回声产生的原理:语音信号在扬声器中播放以及在封闭或半封闭环境中经过多次反射而导致信号失真,最后与本地语音一起被麦克风采集从而形成回声。
为了消除回声对语音质量的影响,传统的消除回声方法主要是直接通过回声消除系统对麦克风采集的语音信号进行回声消除。然而,采用上述回声消除方法,无法估计语音信号在扬声器中的失真情况,进而无法对麦克风采集的语音信号进行有效地消除回声,从而影响语音质量。
发明内容
基于此,有必要针对语音信号在扬声器中的失真而导致语音质量差的技术问题,提供一种回声消除方法、装置、计算机可读存储介质和计算机设备。
一种回声消除方法,包括:
获取语音信号;
根据预测的扬声器失真特性函数,确定所述语音信号的语音失真度与语音响度的均衡值;
按照所述均衡值调整所述语音信号的播放增益;
获取包含调整后的语音信号在播放时所产生回声的语音采集信号;
对所获取的包含有所述回声的语音采集信号进行回声消除。
一种回声消除装置,所述装置包括:
信号获取模块,用于获取语音信号;
均衡值确定模块,用于根据预测的扬声器失真特性函数,确定所述语音信号的语音失真度与语音响度的均衡值;
响度调整模块,用于按照所述均衡值调整所述语音信号的播放增益;
信号获取模块,用于获取包含调整后的语音信号在播放时所产生回声的语音采集信号;
回声消除模块,用于对所获取的包含有所述回声的语音采集信号进行回声消除。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述回声消除方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述回声消除方法的步骤。
上述回声消除方法、装置、计算机可读存储介质和计算机设备,通过预测的扬声器失真特性函数来确定语音信号的语音失真度与语音响度的均衡值,通过这个均衡值可以估算出语音信号的最适播放增益,并能保证语音信号的语音失真度在合理范围。在获取到携带回声的语音采集信号时,由于所携带的回声是在语音信号的最适播放增益下所得,在对语音采集信号中所包含的回声进行消除处理时,可以有效地消除语音采集信号中的回声,避免了语音信号在扬声器中的失真而导致语音质量差的问题,提高了对语音信号中的回声进行消除的效果。
附图说明
图1为一个实施例中回声消除方法的应用环境图;
图2为一个实施例中回声消除方法的流程示意图;
图3为一个实施例中计算语音信号的语音失真度和语音响度的均衡值步骤的流程示意图;
图4为一个实施例中计算总谐波失真函数的流程示意图;
图5为一个实施例中对语音采集信号进行回声消除步骤的流程示意图;
图6为另一个实施例中回声消除方法的流程示意图;
图7为一个实施例中回声消除装置的结构框图;
图8为另一个实施例中回声消除装置的结构框图;
图9为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中回声消除方法的应用环境图。参照图1,该回声消除方法应用于回声消除系统。该回声消除系统包括终端110、服务器120和终端130。终端110、终端130与服务器120通过网络连接。终端110和终端130具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。当终端110作为本地端时,终端130则为远端。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
如图2所示,在一个实施例中,提供了一种回声消除方法。本实施例主要以该方法应用于上述图1中的终端110来举例说明。参照图2,该回声消除方法具体包括如下步骤:
S202,获取语音信号。
其中,本发明实施例中的回声消除方法,可以应用于语音通信的应用场景;也可以应用于带有扬声器播放的语音识别和语音唤醒的应用场景,如具有语音对话功能的智能机器人与用户之间交互的应用场景。需要说明的是,上述应用场景仅仅是举例而非穷举,包括但不限于上述应用场景。语音信号可以包括但不限于用户语音(包括通话语音)、音乐、其它背景音、合成语音和提示音等音频信号。
在一个实施例中,若回声消除方法应用于语音通信的应用场景时,S202具体可以包括:终端接收由远端发送的语音信号,该语音信号由远端采集环境语音所得的语音信号。例如,远端采集环境中的语音,根据采集的声音形成语音信号。具体地,远端根据奈奎斯特采样定理,通过内置的麦克风采集环境中的说话人语音,将采集到的语音进行傅里叶变换,获得频域下的语音信号。
在一个实施例中,远端采集到的语音信号可以是时域语音信号,远端对采集到的时域语音信号进行预处理,该预处理可以是预加重、端点检测、分帧和加窗处理。然后,终端将预处理后的时域声音信号进行傅里叶变换,得到频域下的语音信号。
在另一个实施例中,若回声消除方法应用于带有扬声器播放的语音识别和语音唤醒的应用场景时,S202具体可以包括:终端获取目标文本,根据该目标文本合成对应的具有说话人风格的语音信号,以便通过扬声器播放该语音信号。终端可以通过麦克风采集用户发出的控制语音得到语音采集信号,以便根据所得的语音采集信号进行语音识别,或者根据所得的语音采集信号进行语音识别后,根据识别所得识别文本中的关键词对应用程序或特定功能进行唤醒。
S204,根据预测的扬声器失真特性函数,确定语音信号的语音失真度与语音响度的均衡值。
其中,语音失真度可以是语音信号在扬声器中进行播放所导致的失真程度。语音响度可以是声级(即与用户对声音强弱的主观感觉相一致的物理量,单位为分贝),与语音信号的频率和功率相关。不同的语音响度(例如,不同的频率和/或功率)下,语音信号在扬声器中所产生的语音失真度不同。均衡值可以是当前时刻的最优语音失真度值和最优语音响度值的组合。最优语音失真度值可以是语音失真度在预设的失真范围内,换句话说,最优语音失真度值可以表示语音信号在播放时所产生的非线性失真可以被有效地消除的失真值。最优语音响度值可以是语音响度在预设的响度范围内,也就是说响度值适合用户的最佳听觉效果。
扬声器在播放语音信号时,会产生以下几种语音失真:
(1)总谐波失真
当扬声器输入某一频率的语音信号时,扬声器的输出语音信号中,除了输入语音信号基波成分外,还出现了二次谐波、三次谐波……等,从而造成谐波失真的问题,总谐波失真函数可以通过以下计算式表示:
y=f(x1,x2)
其中,x1表示输入信号的频率,x2表示输入信号的功率。
(2)互调失真
当输入基频f1,f2,……,fn的语音信号时,输出各种和差频信号,从而形成互调制失真。
如f1=391.995,f2=587.330,由于非线性的原因,可能会出现以下分量:
f2+f1=979.325 (a)
f2-f1=195.335 (b)
f2+2f1=1371.320 (c)
上述(a)、(b)和(c)三种频率对应的信号部分即为互调失真所产生的非线性失真信号,也即非线性回声。
(3)分谐波失真
给扬声器加上纯音后,由于膜的非线性会在中低声频段产生信号频率1/2或1/3的模糊声音,该模糊声音即为分谐波失真。
此外,还可能存在互调失真和瞬态失真。
在上述语音信号失真中,总谐波失真对语音信号的影响较大,在后续实施例中可以以总谐波失真为例进行说明。
对于一段语音信号,在播放过程中,由于扬声器的非线性特征导致出现非线性失真的情况,而且语音响度越大非线性失真越严重,从而可能会导致回声消除效果较差,为了降低语音信号在播放过程中所产生的失真、且保证语音响度符合用户的听觉效果,从而在语音失真度与语音响度进行折中。
在一个实施例中,终端获取用于预测扬声器失真特性的参考语言信号;确定参考语言信号的频率和功率并进行播放;获取参考语音信号在播放时所产生回声的参考语音采集信号;对比参考语音采集信号和参考语言信号,获得不同频率且不同功率下的扬声器失真特性函数。
其中,参考语音信号的播放可以是在理想环境下进行,当进行播放后,由于扬声器的非线性特性,从而导致在播放参考语音信号的过程中产生非线性失真,麦克风采集理想环境下的语音时,可以得到携带有因非线性失真而形成的回声的参考语音采集信号。需要说明的是,理想环境可以是只有扬声器的播放语音、且反射过程中信号无衰减,从而麦克风所采集到的参考语音采集信号既可以认为是扬声器播放的语音信号。此外,参考语音信号的播放也可以是在非理想环境下进行。
在一个实施例中,当语音信号的频率一定时,语音响度与语音信号的功率相关。终端在预测扬声器失真特性过程中得到扬声器失真特性函数之后,将扬声器失真特性函数进行保存,以便后续在播放语音信号时使用该扬声器失真特性函数对语音信号进行语音失真度与语音响度的折中权衡,以确保语音失真度和语音响度均处于一个合理的值或范围。
在一个实施例中,语音响度与语音信号的功率和频率相关,语音响度的函数表达式可以是:p=h(x1,x2),x1为语音信号的频率,x2为语音信号的功率。终端结合扬声器失真特性函数和语音响度函数,确定语音信号在语音响度区间内的语音失真度变化值。
S206,按照均衡值调整语音信号的播放增益。
其中,播放增益可以是指增大或降低扬声器播放语音信号的语音响度。
在一个实施例中,终端按照均衡值中的语音强度值来调整语音信号的播放增益,使扬声器在播放语音信号时,语音信号的响度值达到最优,即语音信号的语音响度值符合用户的最佳听觉效果、且语音信号的失真度较小。其中,均衡值可以是最优语音响度值和最优语音失真值的组合。
S208,获取包含调整后的语音信号在播放时所产生回声的语音采集信号。
其中,所产生的回声包括非线性回声和线性回声。非线性回声可以是因扬声器的非线性特性所导致的非线性失真语音信号。线性回声可以是所播放的语音信号在环境中反射等原因所产生的线性回声。由于回声的存在,使得语音采集信号的语音质量较差,需要对语音采集信号进行回声消除处理。
S210,对所获取的包含有回声的语音采集信号进行回声消除。
在一个实施例中,终端将所获取的语音信号输入自适应滤波模块,获得线性回声信号。终端根据线性回声信号对语音采集信号进行回声抑制处理,获得残差采集信号。其中,自适应滤波模块可以是自适应滤波器或具有滤波功能的软件模块。
在一个实施例中,终端根据线性回声信号对语音采集信号进行回声抑制处理的步骤具体可以包括:终端将线性回声信号与所获取的语音信号进行对齐,将对齐后的线性回声信号进行反相处理,将反相处理后的线性回声信号与语音采集信号进行叠加,从而消除语音采集信号中至少一部分回声,获得残差采集信号。
在一个实施例中,终端根据播放增益对应的语音失真度对残差采集信号中的非线性回声进行估计,得到非线性回声信号,根据非线性回声信号和语音采集信号之间的关联度确定衰减因子,根据该衰减因子对语音采集信号进行残留回声抑制处理。
其中,当非线性回声信号和语音采集信号之间的关联度的值较大时,表示语音采集信号携带有较多的回声,即在进行回声消除过程中有较多的回声未被消除。当非线性回声信号和语音采集信号之间的关联度的值较小时,表示语音采集信号携带有较少的回声信号,即在进行回声消除过程中只有较少的回声信号未被消除。
在一个实施例中,根据该衰减因子对语音采集信号进行残留回声抑制处理的步骤具体可以包括:终端将确定衰减因子乘以残留回声信号,从而可以将残留回声信号进行衰减处理。
作为一个示例,对许多消费电子产品而言,语音信号在扬声器播放过程中所产生的失真在大音量情况下不可避免、且难以准确的实时估计,本发明实施例中提出一种解决方案,通过对扬声器的失真特性进行测量并存储,当播放语音信号时,可以实时调节语音信号的播放增益来避免产生过于严重的失真,以此达到确保播放音质的同时,还能有效地消除回声。如图1所示,在回声消除系统中添加了一个针对语音信号的自动调整模块,通过该语音信号自动调整模块来调整语音信号的播放增益(其中,这个播放增益可以是按时间施加的增益,或者可以是按频率施加的增益,又或者可以是不同时间、不同频率施加的不同增益,也就是说不同时间、不同频率所对应的增益可以是不同的),从而可以将语音失真度控制在一个有效的范围内,在进行回声消除和残留回声抑制处理的过程中,可以有效地将在扬声器中所产生的失真部分信号进行消除。
在一个实施例中,当回声消除方法应用于语音唤醒的应用场景时,在S210之后,该方法还可以包括:终端从消除回声后的语音采集信号中提取唤醒词;计算唤醒词的声学得分;声学得分用于指示唤醒词的真实性;当声学得分大于或等于语音唤醒阈值时,执行语音唤醒操作。此外,当回声消除方法应用于语音识别的应用场景时,在S210之后,该方法还可以包括:终端对消除回声后的语音采集信号进行识别,得到对应的识别文字。
例如,对于带语音唤醒和语音识别的投影仪产品,用户可以通过语音方式与投影仪进行交互,在交互过程中,投影仪可以实时地根据用户语音来进行答复和执行相应的唤醒操作。当投影仪播放用于答复用户语音的合成语音时,用户发出包括有唤醒关键词的语音时,麦克风采集到的语音采集信号中携带有回声,此时需要对语音采集信号进行回声消除,然后从消除回声的语音采集信号中提取唤醒关键词,并计算唤醒关键词的声学得分,当声学得分大于或等于90(假设语音唤醒阈值为90)时,则对某个应用程序或某项功能进行唤醒。此外,投影仪还可以实时地对消除回声的语音采集信号进行语音识别,得到对应的识别文字。如表1所示,当垂直距离为1米(m)时,传统方案中,直接对音量为6的语音信号进行播放,对应的唤醒率为68%;而本方案中将音量为6的语音信号输入图1中自动调整模块,实时调整语音信号不同频率的播放增益,可以看出,由于使用了自动调整模块对语音信号的播放增益进行调整,可以将语音信号的失真控制在一个较低的期望范围内,从而使得唤醒成功率和语音识别成功率(包括字准率和句准率)大大的提高。
表1传统方案与本方案在语音唤醒和语音识别应用的对比
上述实施例中,通过预测的扬声器失真特性函数来确定语音信号的语音失真度与语音响度的均衡值,通过这个均衡值可以估算出语音信号的最适播放增益,并能保证语音信号的语音失真度在合理范围。在获取到携带回声的语音采集信号时,由于所携带的回声是在语音信号的最适播放增益下所得,在对语音采集信号中所包含的回声进行消除处理时,可以有效地消除语音采集信号中的回声,避免了语音信号在扬声器中的失真而导致语音质量差的问题,提高了对语音信号中的回声进行消除的效果。
在一个实施例中,如图3所示,S204具体可以包括:
S302,获取通过预测扬声器失真特性所得的扬声器失真特性函数。
在一个实施例中,终端获取用于预测扬声器失真特性的参考语言信号;确定参考语言信号的频率和功率并进行播放;获取参考语音信号在播放时所产生回声的参考语音采集信号;对比参考语音采集信号和参考语言信号,获得不同频率且不同功率下的扬声器失真特性函数,然后对所获得的扬声器失真特性函数进行保存,以便在播放语音信号时获取该扬声器失真特性函数,执行S304。
作为一个示例,如图4所示,终端先获取用于测试扬声器失真特性的参考语音信号,然后,遍历参考语音信号中扬声器可能播放的主要频率成分和不同的功率,然后通过一个或多个扬声器播放该参考语音信号。由于扬声器的非线性特性,可能会使参考语音信号产生非线性失真(如总谐波失真),从而,一个1个或多个麦克风采集环境中的语音,得到参考语音采集信号,该参考语音采集信号中包含有因总谐波失真的分量。终端将麦克风采集的参考语音采集信号与原始的参考语音信号进行对比,从而可以得到不同频率、不同功率参考语音信号所对应的总谐波失真函数,该函数表达式可以是y=f(x01,x02),x01为参考语音信号的频率,x02为参考语音信号的功率。
S304,根据扬声器失真特性函数,确定语音信号在语音响度区间内的语音失真度变化值。
其中,语音响度与语音信号的功率相关,此外语音响度还可以与语音信号的功率和频率相关,语音响度的函数表达式可以是:p=h(x1,x2),x1为语音信号的频率,x2为语音信号的功率。
在一个实施例中,终端结合扬声器失真特性函数和语音响度的函数,确定语音信号在语音响度区间内的语音失真度变化值。
S306,根据语音响度区间中的语音响度值和对应的语音失真度变化值,确定语音信号的语音失真度与语音响度的均衡值。
自动调节语音信号播放增益的具体实现中,对于语音失真度和语音响度之间的折中平衡方案,可以有多种选择,以下列举几种常见的方案:
在一个实施例中,S306具体可以包括:在语音响度区间中选取达到第一响度阈值的语音响度值;以及在语音失真度变化值中选取小于第一失真度阈值的语音失真度值;将所选取的语音响度值和语音失真度值,确定为语音信号的语音失真度与语音响度的均衡值。
例如,1)语音失真ymax=Max(f(x1,x2))<门限1,对于语音信号中各个频点均满足该条件;2)语音响度pmin=Min(h(x1,x2))>门限2,对于语音信号中各个频点均满足该条件。其中,x1为语音信号的频率,x2为语音信号的功率。然后将满足门限1的ymax和满足门限2的pmin作为折中权衡,以便按照pmin对语音信号的播放增益进行调整。
在另一个实施例中,S306具体可以包括:计算语音响度区间中各语音响度值的响度均值,以及语音失真度变化值中各语音失真度的失真度均值;当响度均值达到第二响度阈值、且失真度均值小于第二失真度阈值时,则将响度均值和失真度均值确定为语音信号的语音失真度与语音响度的均衡值。
例如,1)语音失真ymax=Max(sum(f(x1,x2)))<门限3,对于当前时刻语音信号中所有频率成分求和均满足该条件;2)语音响度pmin=Min(sum(h(x1,x2)))>门限4,对于当前时刻语音信号中所有频率成分求和均满足该条件。其中,x1为语音信号的频率,x2为语音信号的功率。然后根据满足门限3的ymax均值和满足门限4的pmin均值得到播放增益估算值,从而对语音信号的播放增益进行调整。
上述实施例中,通过扬声器失真特性函数来确定语音信号的语音失真度与语音响度的均衡值,通过均衡值来设置语音信号的播放增益,从而可以将语音信号的总谐波失真控制在特定范围或特定值(即语音失真度均衡值),以便进行回声消除时,可以有效地将该播放失真信号消除掉,从而提高语音质量。
在一个实施例中,回声包括线性回声;如图5所示,S210具体可以包括:
S502,确定语音采集信号与所获取的语音信号之间的时延值。
由于语音采集信号中的至少一部分回声是所获取的语音信号通过扬声器播放后,经过室内环境的反射重新由终端所采集。由此可知,终端所获得语音采集信号中的回声与所获取的语音信号之间存在时间差,即时延值。上述的回声即为语音采集信号中所包含的回声信号部分。
具体地,终端根据延时查找算法,找出所获取的语音信号与语音采集信号中的回声之间的时间差,从而获得远语音采集信号与所获取的语音信号之间的时延值。
S504,按照时延值对语音采集信号与所获取的语音信号进行对齐。
在一个实施例中,终端根据时延值,对所获取的语音信号进行平移,从而使所获取的语音信号与语音采集信号对齐,从而确保所获取的语音信号与语音采集信号中的回声对齐。当根据对齐后的语音信号生成线性回声信号后,终端便可根据线性回声信号与语音采集信号中的回声进行抵消。
在一个实施例中,终端根据时延值对语音采集信号进行平移,从而使所获取的语音信号与语音采集信号对齐,进而使所获取的语音信号与语音采集信号中的回声对齐。当根据所获取的语音信号生成线性回声信号后,终端便可根据线性回声信号与对齐后语音采集信号中的回声进行抵消。
S506,将对齐后的语音信号输入回声模型,获得线性回声信号。
在一个实施例中,终端根据对齐后的所获取的语音信号与语音采集信号中线性回声之间的相关性,建立回声模型。终端将对齐后的语音信号输入回声模型,输出与语音采集信号中线性回声部分接近(即相似且相似度高)的线性回声信号。
在一个实施例中,终端以对齐后的语音信号作为训练输入,以语音采集信号中的线性回声部分作为训练目标,对回声模型进行训练,获得最终的回声模型。
例如,终端建立对齐后的语音信号与语音采集信号中线性回声之间的回声模型fe=f(fs),其中,fs为所获取的语音信号,fe为对语音采集信号中的线性回声进行估计的回声信号。终端以fs信号作为输入,以实际的回声信号作为训练目标对回声模型fe=f(fs)进行训练。当回声模型稳定时,将所获取的语音信号输入回声模型,就可以输出高度逼近实际回声的线性回声信号。
S508,根据线性回声信号对语音采集信号中的线性回声进行回声消除处理,获得残差采集信号。
在一个实施例中,回声包括语音信号在扬声器中非线性失真引起的非线性回声,因此在残差采集信号中还可能携带有非线性回声;需要对非线性回声进行消除,消除方法包括:根据播放增益对应的语音失真度对残差采集信号中的非线性回声进行估计,得到非线性回声信号;对非线性回声信号进行反相处理;根据反相处理后的非线性回声信号对残差采集信号进行回声抑制处理,获得消除非线性回声后的语音采集信号。
在一个实施例中,终端将非线性回声信号输入反相滤波模块,以便通过反相滤波模块对非线性回声信号进行反相处理,获得反相的非线性回声信号。例如,假设所获取的语音信号为x(n),对所获取的语音信号x(n)处理所得的非线性回声信号为h′(n)=asin(2πnf+b),通过反相滤波模块处理后,输出的反相非线性回声信号为h(n)=asin(2πnf+b±π)=-asin(2πnf+b)。
在一个实施例中,终端将非线性回声信号输入移相滤波模块,以便通过移相滤波模块对非线性回声信号移相kπ相位,获得反相的非线性回声信号。
在一个实施例中,终端将语音采集信号与反相处理后的非线性回声信号叠加,获得残差信号。其中,反相处理后的非线性回声信号是由对齐后的语音信号经过处理所得。
在一个实施例中,根据反相处理后的非线性回声信号对残差采集信号进行回声抑制处理,获得消除非线性回声后的语音采集信号的步骤,具体可以包括:确定非线性回声信号与语音采集信号之间的关联矩阵;根据关联矩阵获得衰减因子;计算衰减因子与反相处理后的非线性回声信号的乘积;将乘积衰减因子后所得的非线性回声信号与残差采集信号进行叠加,获得消除非线性回声后的语音采集信号。
在一个实施例中,终端消除残留回声信号的方法步骤可以包括:终端残差采集信号中的残留回声信号与高频线性回声信号之间的关联矩阵,根据该关联矩阵确定关联度,进而获得反映消除残留回声信号程度的衰减因子。终端根据衰减因子对残差采集信号中的残留回声信号进行衰减。
其中,通过关联矩阵可以计算出非线性回声信号与语音采集信号之间的关联度,关联度越大表明残差采集信号中的残留回声信号越多,需要对残留回声信号消除的程度越大。反之,关联度越小表明残差采集信号中的残留回声信号较少,需要对残留回声信号消除的程度越小。
在一个实施例中,终端将残差采集信号中的残留回声信号乘以衰减因子,从而消除残留回声信号。
在一个实施例中,终端通过获取的语音采集信号、消除非线性回声后的语音采集信号、残差采集信号和所获取的语音信号,估计实时谐波失真度,根据实时谐波失真度调整扬声器失真特性函数。
其中,实时谐波失真度的计算式y=f(x1,x2,x3,x4),x1为原始的语音信号,x2为播放语音信号时采集环境语音所得的语音采集信号,x3为经过回声消除后的残差采集信号,x4为残差采集信号经过残留回声抑制后所得的语音采集信号。
作为一个示例,如图6所示,终端获取的语音信号,该语音信号可以包括但不限于通话语音、音乐、电视节目音频、合成语音和提示音等音频信号。一方面,终端中的自动调整模块根据扬声器失真特性函数和响度函数确定语音信号失真度和语音响度之间的折中权衡,得到失真度小于门限1、语音响度大于门限2的一组均衡值,自动调整模块按照均衡值调整语音信号播放增益,从而使扬声器在播放语音信号时所产生的非线性失真处于较小的范围内,同时还可以确保语音信号的响度不至于过小,从而回声消除模块和残留回声抑制模块可以对麦克风所采集到的语音采集信号进行有效地消除回声,使得消除回声之后的语音采集信号可以用于语音识别或语音唤醒或语音通话等应用。另一方面,回声消除模块和残留回声抑制模块在对语音采集信号依次进行回声消除和残留回声抑制处理之后,将语音采集信号、消除非线性回声后的语音采集信号、残差采集信号和所获取的语音信号反馈至自动调整模块,根据语音采集信号、消除非线性回声后的语音采集信号、残差采集信号和所获取的语音信号估计实时谐波失真度,根据实时谐波失真度调整扬声器失真特性函数,以便指示自动调整模块实时对扬声器失真特性函数进行更新微调,更细致的对语音信号的播放增益进行调节,以期在语音信号失真度和语音响度上获得更理想的折中。
上述实施例中,对包含有回声的语音采集信号进行回声消除和残留回声抑制处理,由于播放语音信号时将播放增益进行了最优化调整,从而使语音采集信号中的非线性回声部分较小,通过回声消除和残留回声抑制处理可以有效地将语音采集信号中的非线性回声部分进行消除,提高了语音质量。
作为一个示例,对于许多消费电子产品而言,在大音量情况下,扬声器的失真不可避免且难以准确的实时估计。因此,本发明实施例提出一种解决方案,通过预先对扬声器的失真特性进行测量并进行存储,在播放语音信号时,可以根据检测的扬声器失真特性实时调节语音信号以避免产生过于严重的失真,以便同时确保播放音质和回声消除效果,具体内容如下所述:
(1)预测扬声器失真特性
如图4所示,先获取用于测试扬声器失真特征的参考语音信号,通过图中的模块402遍历参考语音信号的主要频率成分和不同的功率,可以确定参考语音信号的频率范围和对应的功率大小。其中,参考语音信号的信号类型包括但不限于:线性调频信号和对数扫频信号等。
通过图4中的模块408,可以对比参考语音信号和麦克风所采集的语音采集信号,得到总谐波失真函数:
y=f(x01,x02) 公式(1)
其中,x01为参考语音信号的频率,x02为参考语音信号的功率。
语音响度的经验函数:
p=h(x01,x02) 公式(2)
(2)根据扬声器失真特性自动调节语音信号不同频率的播放增益
获取待播放的语音信号,在播放语音信号之前,对不同频率语音信号的最大失真度和最小响度进行折中权衡,折中权衡的方式可以是:
1)语音失真ymax=Max(f(x1,x2))<门限1,对于语音信号中各个频点均满足该条件;其中,x1为参考语音信号的频率,x2为参考语音信号的功率。
语音响度pmin=Min(h(x1,x2))>门限2,对于语音信号中各个频点均满足该条件。
2)语音失真ymax=Max(sum(f(x1,x2)))<门限3,对于当前时刻语音信号中所有频率成分求和均满足该条件;
语音响度pmin=Min(sum(h(x1,x2)))>门限4,对于当前时刻语音信号中所有频率成分求和,或指定的频率范围求和均满足该条件。例如,通常情况下低频信号的失真更大,因而可以只对低频率段求和。
通过上述两种折中方式可以得到对语音失真度的期望要求以及对应的播放增益,其中播放增益可以表示为:
q=J(x1,x2) 公式(3)
根据公式(3)进行图6中的语音信号进行自动调整,从而使得播放的失真量限制在期望范围以内,确保回声消除和残余回声抑制模块对语音采集信号进行有效地回声消除以得到稳定较好的输出结果,即既能比较彻底的消除回声,又能比较完整的保留所采集到的语音信号。
通过回声消除和残留回声抑制模块对语音采集信号进行回声消除后,可以使唤醒成功率和语音识别成功率(包括字准率和句准率)大大的提高,如上面的表1所示,当垂直距离为1米(m)时,传统方案中,直接对音量为6的语音信号进行播放,对应的唤醒率为68%;而本方案中将音量为6的语音信号输入图1中自动调整模块,实时调整语音信号不同频率的播放增益,由于使用了自动调整模块对语音信号的播放增益进行调整,可以将语音信号的失真控制在一个较低的期望范围内。
(3)反馈调节
如图6所示,通过图中虚线a表示的反馈路径实时的从回声消除和残余回声抑制模块中获取当前播放失真度的估算信息,根据估算信息对扬声器失真特性进行实时更新微调,以便更细致的对语音信号进行调节,以期在语音失真度和语音响度上获得更理想的折中权衡,并跟踪扬声器在播放时的轻微变化。
采用上述实施例的方案,以略微牺牲最大音量为代价换取有保证的语音音质和稳定的回声消除效果,不仅使播放声音听起来不会出现杂音给人带来不适感,同时也使得依赖于回声消除的应用功能如语音唤醒和识别等更加可靠和准确。
图1、3、5为一个实施例中回声消除方法的流程示意图。应该理解的是,虽然图1、3、5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1、3、5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图7所示,在一个实施例中,提供了一种回声消除装置,该回声消除装置具体包括:信号获取模块702、均衡值确定模块704、响度调整模块706、信号获取模块708和回声消除模块710;其中:
信号获取模块702,用于获取语音信号;
均衡值确定模块704,用于根据预测的扬声器失真特性函数,确定所述语音信号的语音失真度与语音响度的均衡值;
响度调整模块706,用于按照所述均衡值调整所述语音信号的播放增益;
信号获取模块708,用于获取包含调整后的语音信号在播放时所产生回声的语音采集信号;
回声消除模块710,用于对所获取的包含有所述回声的语音采集信号进行回声消除。
在一个实施例中,如图8所示,该装置还包括:处理模块712和信号对比模块714;其中:
信号获取模块702,还用于获取用于预测扬声器失真特性的参考语言信号;
处理模块712,用于确定参考语言信号的频率和功率并进行播放;
信号获取模块702,还用于获取参考语音信号在播放时所产生回声的参考语音采集信号;
信号对比模块714,用于对比参考语音采集信号和参考语言信号,获得不同频率且不同功率下的扬声器失真特性函数。
在一个实施例中,均衡值确定模块704,还用于:获取通过预测扬声器失真特性所得的扬声器失真特性函数;根据扬声器失真特性函数,确定语音信号在语音响度区间内的语音失真度变化值;根据语音响度区间中的语音响度值和对应的语音失真度变化值,确定语音信号的语音失真度与语音响度的均衡值。
上述实施例中,通过预测的扬声器失真特性函数来确定语音信号的语音失真度与语音响度的均衡值,通过这个均衡值可以估算出语音信号的最适播放增益,并能保证语音信号的语音失真度在合理范围。在获取到携带回声的语音采集信号时,由于所携带的回声是在语音信号的最适播放增益下所得,在对语音采集信号中所包含的回声进行消除处理时,可以有效地消除语音采集信号中的回声,避免了语音信号在扬声器中的失真而导致语音质量差的问题,提高了对语音信号中的回声进行消除的效果。
在一个实施例中,均衡值确定模块704,还用于:在语音响度区间中选取达到第一响度阈值的语音响度值;以及在语音失真度变化值中选取小于第一失真度阈值的语音失真度值;将所选取的语音响度值和语音失真度值,确定为语音信号的语音失真度与语音响度的均衡值。
在一个实施例中,均衡值确定模块704,还用于:计算语音响度区间中各语音响度值的响度均值,以及语音失真度变化值中各语音失真度的失真度均值;当响度均值达到第二响度阈值、且失真度均值小于第二失真度阈值时,则将响度均值和失真度均值确定为语音信号的语音失真度与语音响度的均衡值。
上述实施例中,通过扬声器失真特性函数来确定语音信号的语音失真度与语音响度的均衡值,通过均衡值来设置语音信号的播放增益,从而可以将语音信号的总谐波失真控制在特定范围或特定值(即语音失真度均衡值),以便进行回声消除时,可以有效地将该播放失真信号消除掉,从而提高语音质量。
在一个实施例中,回声包括线性回声;回声消除模块710还用于确定语音采集信号与所获取的语音信号之间的时延值;按照时延值对语音采集信号与所获取的语音信号进行对齐;将对齐后的语音信号输入回声模型,获得线性回声信号;根据线性回声信号对语音采集信号中的线性回声进行回声消除处理,获得残差采集信号。
在一个实施例中,回声包括语音信号在扬声器中非线性失真引起的非线性回声;回声消除模块710还用于根据播放增益对应的语音失真度对残差采集信号中的非线性回声进行估计,得到非线性回声信号;对非线性回声信号进行反相处理;根据反相处理后的非线性回声信号对残差采集信号进行回声抑制处理,获得消除非线性回声后的语音采集信号。
在一个实施例中,回声消除模块710还用于确定非线性回声信号与语音采集信号之间的关联矩阵;根据关联矩阵获得衰减因子;计算衰减因子与反相处理后的非线性回声信号的乘积;将乘积衰减因子后所得的非线性回声信号与残差采集信号进行叠加,获得消除非线性回声后的语音采集信号。
在一个实施例中,如图8所示,该装置还包括:调整模块716;其中:
调整模块716,用于通过获取的语音采集信号、消除非线性回声后的语音采集信号、残差采集信号和所获取的语音信号,估计实时谐波失真度;根据实时谐波失真度调整扬声器失真特性函数。
上述实施例中,对包含有回声的语音采集信号进行回声消除和残留回声抑制处理,由于播放语音信号时将播放增益进行了最优化调整,从而使语音采集信号中的非线性回声部分较小,通过回声消除和残留回声抑制处理可以有效地将语音采集信号中的非线性回声部分进行消除,提高了语音质量。
在一个实施例中,如图8所示,该装置还包括:唤醒模块718;其中:
唤醒模块718,用于从消除回声后的语音采集信号中提取唤醒词;计算唤醒词的声学得分;声学得分用于指示唤醒词的真实性;当声学得分大于或等于语音唤醒阈值时,执行语音唤醒操作。
图9示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110。如图9所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现回声消除方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行回声消除方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的回声消除装置可以实现为一种计算机程序的形式,计算机程序可在如图9所示的计算机设备上运行。计算机设备的存储器中可存储组成该回声消除装置的各个程序模块,比如,图7所示的信号获取模块702、均衡值确定模块704、响度调整模块706、信号获取模块708和回声消除模块710。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的回声消除方法中的步骤。
例如,图9所示的计算机设备可以通过如图7所示的回声消除装置中的信号获取模块702执行S202。计算机设备可通过均衡值确定模块704执行S204。计算机设备可通过响度调整模块706执行S206。计算机设备可通过信号获取模块708执行S208。计算机设备可通过回声消除模块710执行S210。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述回声消除方法的步骤。此处回声消除方法的步骤可以是上述各个实施例的回声消除方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述回声消除方法的步骤。此处回声消除方法的步骤可以是上述各个实施例的回声消除方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种回声消除方法,包括:
获取语音信号;
根据预测的扬声器失真特性函数,确定所述语音信号的语音失真度与语音响度的均衡值;所述均衡值是最优语音失真度值和最优语音响度值的组合,所述最优语音失真度值为所述语音信号在播放时所产生的非线性失真能被有效地消除的失真值;
按照所述均衡值调整所述语音信号的播放增益;
获取包含调整后的语音信号在播放时所产生回声的语音采集信号;
根据所述语音信号和所述均衡值对所获取的包含有所述回声的语音采集信号进行回声消除;所述回声包括线性回声和非线性回声,所述非线性回声为所述语音信号在扬声器中非线性失真引起的。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取用于预测扬声器失真特性的参考语言信号;
确定所述参考语言信号的频率和功率并进行播放;
获取所述参考语音信号在播放时所产生回声的参考语音采集信号;
对比所述参考语音采集信号和所述参考语言信号,获得不同频率且不同功率下的扬声器失真特性函数。
3.根据权利要求1所述的方法,其特征在于,所述根据预测的扬声器失真特性函数,确定所述语音信号的语音失真度与语音响度的均衡值包括:
获取通过预测扬声器失真特性所得的扬声器失真特性函数;
根据所述扬声器失真特性函数,确定所述语音信号在语音响度区间内的语音失真度变化值;
根据所述语音响度区间中的语音响度值和对应的所述语音失真度变化值,确定所述语音信号的语音失真度与语音响度的均衡值。
4.根据权利要求3所述的方法,其特征在于,所述根据所述语音响度区间中的语音响度值和对应的所述语音失真度变化值,确定所述语音信号的语音失真度与语音响度的均衡值包括:
在所述语音响度区间中选取达到第一响度阈值的语音响度值;以及
在所述语音失真度变化值中选取小于第一失真度阈值的语音失真度值;
将所选取的语音响度值和语音失真度值,确定为所述语音信号的语音失真度与语音响度的均衡值。
5.根据权利要求3所述的方法,其特征在于,所述根据所述语音响度区间中的语音响度值和对应的所述语音失真度变化值,确定所述语音信号的语音失真度与语音响度的均衡值包括:
计算所述语音响度区间中各语音响度值的响度均值,以及所述语音失真度变化值中各语音失真度的失真度均值;
当所述响度均值达到第二响度阈值、且所述失真度均值小于第二失真度阈值时,则将所述响度均值和所述失真度均值确定为所述语音信号的语音失真度与语音响度的均衡值。
6.根据权利要求1所述的方法,其特征在于,所述根据所述语音信号和所述均衡值对所获取的包含有所述回声的语音采集信号进行回声消除包括:
确定所述语音采集信号与所获取的语音信号之间的时延值;
按照所述时延值对所述语音采集信号与所获取的语音信号进行对齐;
将对齐后的语音信号输入回声模型,获得线性回声信号;
根据所述线性回声信号对所述语音采集信号中的线性回声进行回声消除处理,获得残差采集信号。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
根据所述播放增益对应的语音失真度对所述残差采集信号中的非线性回声进行估计,得到非线性回声信号;
对所述非线性回声信号进行反相处理;
根据反相处理后的非线性回声信号对所述残差采集信号进行回声抑制处理,获得消除非线性回声后的语音采集信号。
8.根据权利要求7所述的方法,其特征在于,所述根据反相处理后的非线性回声信号对所述残差采集信号进行回声抑制处理,获得消除非线性回声后的语音采集信号包括:
确定所述非线性回声信号与所述语音采集信号之间的关联矩阵;
根据所述关联矩阵获得衰减因子;
计算所述衰减因子与反相处理后的非线性回声信号的乘积;
将乘积所述衰减因子后所得的非线性回声信号与所述残差采集信号进行叠加,获得消除非线性回声后的语音采集信号。
9.根据权利要求7或8所述的方法,其特征在于,所述方法还包括:
通过获取的语音采集信号、消除非线性回声后的语音采集信号、所述残差采集信号和所获取的语音信号,估计实时谐波失真度;
根据所述实时谐波失真度调整所述扬声器失真特性函数。
10.根据权利要求1-8任一项所述的方法,其特征在于,所述方法还包括:
从消除回声后的语音采集信号中提取唤醒词;
计算所述唤醒词的声学得分;所述声学得分用于指示所述唤醒词的真实性;
当所述声学得分大于或等于语音唤醒阈值时,执行语音唤醒操作。
11.一种回声消除装置,其特征在于,所述装置包括:
信号获取模块,用于获取语音信号;
均衡值确定模块,用于根据预测的扬声器失真特性函数,确定所述语音信号的语音失真度与语音响度的均衡值;所述均衡值是最优语音失真度值和最优语音响度值的组合,所述最优语音失真度值为所述语音信号在播放时所产生的非线性失真能被有效地消除的失真值;
响度调整模块,用于按照所述均衡值调整所述语音信号的播放增益;
信号获取模块,用于获取包含调整后的语音信号在播放时所产生回声的语音采集信号;
回声消除模块,用于根据所述语音信号和所述均衡值对所获取的包含有所述回声的语音采集信号进行回声消除;所述回声包括线性回声和非线性回声,所述非线性回声为所述语音信号在扬声器中非线性失真引起的。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
所述信号获取模块,还用于获取用于预测扬声器失真特性的参考语言信号;
处理模块,用于确定所述参考语言信号的频率和功率并进行播放;
所述信号获取模块,还用于获取所述参考语音信号在播放时所产生回声的参考语音采集信号;
信号对比模块,用于对比所述参考语音采集信号和所述参考语言信号,获得不同频率且不同功率下的扬声器失真特性函数。
13.根据权利要求11所述的装置,其特征在于,均衡值确定模块,还用于:获取通过预测扬声器失真特性所得的扬声器失真特性函数;根据所述扬声器失真特性函数,确定所述语音信号在语音响度区间内的语音失真度变化值;根据所述语音响度区间中的语音响度值和对应的所述语音失真度变化值,确定所述语音信号的语音失真度与语音响度的均衡值。
14.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910409473.XA CN110177317B (zh) | 2019-05-17 | 2019-05-17 | 回声消除方法、装置、计算机可读存储介质和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910409473.XA CN110177317B (zh) | 2019-05-17 | 2019-05-17 | 回声消除方法、装置、计算机可读存储介质和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110177317A CN110177317A (zh) | 2019-08-27 |
CN110177317B true CN110177317B (zh) | 2020-12-22 |
Family
ID=67691384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910409473.XA Active CN110177317B (zh) | 2019-05-17 | 2019-05-17 | 回声消除方法、装置、计算机可读存储介质和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110177317B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111128167B (zh) * | 2019-12-30 | 2023-10-27 | 深圳创维-Rgb电子有限公司 | 一种远场语音唤醒方法、装置、电子产品及存储介质 |
CN111314780B (zh) * | 2020-03-27 | 2022-04-01 | 苏州科达科技股份有限公司 | 回声消除功能的测试方法、装置及存储介质 |
CN111696569B (zh) * | 2020-06-29 | 2023-12-15 | 美的集团武汉制冷设备有限公司 | 家电设备的回声消除方法、家电设备、终端和存储介质 |
CN112201266B (zh) * | 2020-08-28 | 2023-06-13 | 出门问问(苏州)信息科技有限公司 | 回声抑制方法及装置 |
CN112562708B (zh) * | 2020-11-17 | 2022-02-25 | 北京百度网讯科技有限公司 | 非线性回声消除方法、装置、电子设备及存储介质 |
CN113223538B (zh) * | 2021-04-01 | 2022-05-03 | 北京百度网讯科技有限公司 | 语音唤醒方法、装置、系统、设备和存储介质 |
CN113763978B (zh) * | 2021-04-25 | 2024-05-03 | 腾讯科技(深圳)有限公司 | 语音信号处理方法、装置、电子设备以及存储介质 |
CN113613143B (zh) * | 2021-07-08 | 2023-06-13 | 北京小唱科技有限公司 | 适用于移动终端的音频处理方法、装置及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103081356A (zh) * | 2010-08-18 | 2013-05-01 | 杜比实验室特许公司 | 用于控制音频信号的临界频带中的失真的方法和系统 |
JP2014220589A (ja) * | 2013-05-02 | 2014-11-20 | 学校法人 工学院大学 | スピーカーの非線形歪低減装置、方法、及びプログラム |
CN108200526A (zh) * | 2017-12-29 | 2018-06-22 | 广州励丰文化科技股份有限公司 | 一种基于可信度曲线的音响调试方法及装置 |
CN109145514A (zh) * | 2018-09-30 | 2019-01-04 | 浙江中科电声研发中心 | 一种扬声器失真的数值仿真分析方法 |
KR20190037865A (ko) * | 2017-09-29 | 2019-04-08 | 엘지이노텍 주식회사 | 패널 스피커의 왜곡 보상 방법 및 왜곡 보상 기능을 갖는 패널 스피커 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102387272B (zh) * | 2011-09-09 | 2013-10-30 | 南京大学 | 一种回声抵消系统中残留回声的抑制方法 |
US9173020B2 (en) * | 2012-03-27 | 2015-10-27 | Htc Corporation | Control method of sound producing, sound producing apparatus, and portable apparatus |
CN102999161B (zh) * | 2012-11-13 | 2016-03-02 | 科大讯飞股份有限公司 | 一种语音唤醒模块的实现方法及应用 |
GB201406574D0 (en) * | 2014-04-11 | 2014-05-28 | Microsoft Corp | Audio Signal Processing |
US10195432B2 (en) * | 2014-11-21 | 2019-02-05 | Cochlear Limited | Systems and methods for non-obtrusive adjustment of auditory prostheses |
US9589575B1 (en) * | 2015-12-02 | 2017-03-07 | Amazon Technologies, Inc. | Asynchronous clock frequency domain acoustic echo canceller |
CN107886965B (zh) * | 2017-11-28 | 2021-04-20 | 游密科技(深圳)有限公司 | 游戏背景音的回声消除方法 |
-
2019
- 2019-05-17 CN CN201910409473.XA patent/CN110177317B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103081356A (zh) * | 2010-08-18 | 2013-05-01 | 杜比实验室特许公司 | 用于控制音频信号的临界频带中的失真的方法和系统 |
JP2014220589A (ja) * | 2013-05-02 | 2014-11-20 | 学校法人 工学院大学 | スピーカーの非線形歪低減装置、方法、及びプログラム |
KR20190037865A (ko) * | 2017-09-29 | 2019-04-08 | 엘지이노텍 주식회사 | 패널 스피커의 왜곡 보상 방법 및 왜곡 보상 기능을 갖는 패널 스피커 |
CN108200526A (zh) * | 2017-12-29 | 2018-06-22 | 广州励丰文化科技股份有限公司 | 一种基于可信度曲线的音响调试方法及装置 |
CN109145514A (zh) * | 2018-09-30 | 2019-01-04 | 浙江中科电声研发中心 | 一种扬声器失真的数值仿真分析方法 |
Non-Patent Citations (1)
Title |
---|
《WIFI音箱的设计与实现》;周子文;《中国优秀硕士学位论文全文数据库信息科技辑》;20180315;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110177317A (zh) | 2019-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110177317B (zh) | 回声消除方法、装置、计算机可读存储介质和计算机设备 | |
US8724798B2 (en) | System and method for acoustic echo cancellation using spectral decomposition | |
CN110970045B (zh) | 混音处理方法、装置、电子设备和存储介质 | |
JP6339187B2 (ja) | 音声信号品質を測定するためのシステムおよび方法 | |
CN104067339B (zh) | 噪音抑制装置 | |
CN110176244B (zh) | 回声消除方法、装置、存储介质和计算机设备 | |
CN108696648B (zh) | 一种短时语音信号处理的方法、装置、设备及存储介质 | |
KR20190026234A (ko) | 비선형 특성을 갖는 오디오 필터를 이용하여 오디오 신호를 처리하는 방법 및 장치 | |
WO2021103710A1 (zh) | 直播音频处理方法、装置、电子设备和存储介质 | |
CN110853664B (zh) | 评估语音增强算法性能的方法及装置、电子设备 | |
CN109727607B (zh) | 时延估计方法、装置及电子设备 | |
CN111048119A (zh) | 通话音频混音处理方法、装置、存储介质和计算机设备 | |
Kumar | Comparative performance evaluation of MMSE-based speech enhancement techniques through simulation and real-time implementation | |
CN109767780A (zh) | 一种语音信号处理方法、装置、设备及可读存储介质 | |
CN112242147A (zh) | 一种语音增益控制方法及计算机存储介质 | |
CN111081246B (zh) | 直播机器人唤醒方法、装置、电子设备及存储介质 | |
US11380312B1 (en) | Residual echo suppression for keyword detection | |
CN116705045B (zh) | 回声消除方法、装置、计算机设备和存储介质 | |
CN111986694B (zh) | 基于瞬态噪声抑制的音频处理方法、装置、设备及介质 | |
CN113744748A (zh) | 一种网络模型的训练方法、回声消除方法及设备 | |
US20110116644A1 (en) | Simulated background noise enabled echo canceller | |
CN112929506A (zh) | 音频信号的处理方法及装置,计算机存储介质及电子设备 | |
GB2536727B (en) | A speech processing device | |
CN115995234A (zh) | 音频降噪方法、装置、电子设备及可读存储介质 | |
JP5458057B2 (ja) | 信号広帯域化装置、信号広帯域化方法、及びそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |