CN116941186A - 回声抑制装置、回声抑制方法以及回声抑制程序 - Google Patents

回声抑制装置、回声抑制方法以及回声抑制程序 Download PDF

Info

Publication number
CN116941186A
CN116941186A CN202180095316.1A CN202180095316A CN116941186A CN 116941186 A CN116941186 A CN 116941186A CN 202180095316 A CN202180095316 A CN 202180095316A CN 116941186 A CN116941186 A CN 116941186A
Authority
CN
China
Prior art keywords
echo
signal
spectral envelope
envelope information
nonlinear
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180095316.1A
Other languages
English (en)
Inventor
广濑良文
杠慎一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Publication of CN116941186A publication Critical patent/CN116941186A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本公开涉及回声抑制装置、回声抑制方法以及回声抑制程序,回声抑制装置(1G)具备:回声消除器(14),从由麦克风(13)获取到的输入信号中抑制线性回声信号;频谱包络提取部(15),从向扬声器(12)输出的受话信号提取频谱包络信息;非线性回声推定部(17),根据从受话信号提取的频谱包络信息,推定输入信号中包含的非线性回声信号的频谱包络信息;和非线性回声抑制部(18),使用推定出的非线性回声信号的频谱包络信息,从回声消除器(14)的输出信号中抑制非线性回声。

Description

回声抑制装置、回声抑制方法以及回声抑制程序
技术领域
本公开涉及对由麦克风获取到的输入信号中包含的线性回声信号以及非线性回声信号进行抑制的技术。
背景技术
在免提通话系统以及电视会议系统等中,在进行使用了扬声器以及麦克风的扩声通话的情况下,送话侧的讲话者讲话的声音输入送话侧的麦克风,作为送话信号经由网络线路向受话侧的设备发送。从受话侧的扬声器扩声后的声音由受话侧的麦克风拾音,经由网络线路向发送侧的设备发送。此时,从送话侧的扬声器对经过了通过网络线路的时间和在受话侧的空间中传播的时间后的自身所发出的声音进行再生。如此,从受话侧的扬声器在麦克风之间传播的声音被称为回声,成为妨碍通话的主要原因。因此,提出了回声消除器以及回声抑制器等回声抑制技术。
例如,专利文献1中示出的回声抑制装置在扬声器中对受话信号进行再生时,在由于受话信号的水平大因而再生音可能产生失真的情况下,按照每个频率求出抑制量比假设不产生失真的情况下所使用的增益大的增益,并将增益乘以基于频域的拾音信号的值。
此外,例如,专利文献2中示出的回声抑制装置在任意频率值的再生信号的功率大于预先决定的阈值且在该频率值的m(m=2、3、……、M)倍的频率值或m倍的频率值的周围的频率值的情况下,求出使与m倍的频率值以及其周围的频率值对应的增益系数接近0的值作为第2增益系数,在其以外的情况下,求出增益系数作为第2增益系数。
然而,在上述以往的技术中,难以稳定地抑制由麦克风获取到的输入信号中包含的非线性回声信号,需要进一步的改善。
在先技术文献
专利文献
专利文献1:日本特开2017-191992号公报
专利文献2:日本特开2010-103875号公报
发明内容
本公开是为了解决上述的问题而完成的,因而其目的在于,提供能够稳定地抑制由麦克风获取到的输入信号中包含的非线性回声信号的技术。
本公开涉及的回声抑制装置具备:第1线性回声抑制部,通过对由麦克风获取到的输入信号中包含的线性回声信号的振幅分量以及相位分量进行推定,从所述输入信号中抑制线性回声信号;频谱包络提取部,从向扬声器输出的受话信号、所述输入信号以及所述第1线性回声抑制部的输出信号中的至少1者提取频谱包络信息;非线性回声推定部,根据从所述受话信号提取的频谱包络信息、从所述输入信号提取的频谱包络信息以及从所述第1线性回声抑制部的输出信号提取的频谱包络信息中的至少1者,推定所述输入信号中包含的所述非线性回声信号的频谱包络信息;和非线性回声抑制部,使用由所述非线性回声推定部推定出的所述非线性回声信号的频谱包络信息,从所述第1线性回声抑制部的输出信号中抑制所述非线性回声。
根据本公开,能够稳定地抑制由麦克风获取到的输入信号中包含的非线性回声信号。
附图说明
图1是示出输入信号中不包含由扬声器失真引起的非线性回声的情况下的麦克风信号、回声消除器输出信号以及回声抑制器输出信号的图。
图2是示出输入信号中包含由扬声器失真引起的非线性回声的情况下的麦克风信号、回声消除器输出信号以及回声抑制器输出信号的图。
图3是示出本公开的实施方式1中的通话装置的结构的图。
图4是示出在本实施方式1中受话信号的频谱和受话信号的频谱包络信息的一个例子的图。
图5是示出在本实施方式1中非线性回声信号的频谱和非线性回声信号的频谱包络信息的一个例子的图。
图6是用于说明本公开的实施方式1中的回声抑制装置的动作的流程图。
图7是示出本公开的实施方式1中的学习装置的结构的图。
图8是示出对来自以往的回声抑制装置的输出信号以及来自本实施方式1的回声抑制装置的输出信号进行频率解析而得到的结果的图。
图9是示出本公开的实施方式2中的通话装置的结构的图。
图10是示出本公开的实施方式3中的通话装置的结构的图。
图11是示出本公开的实施方式4中的通话装置的结构的图。
图12是示出本公开的实施方式4中的学习装置的结构的图。
图13是示出本公开的实施方式5中的通话装置的结构的图。
图14是示出本公开的实施方式6中的通话装置的结构的图。
图15是示出本公开的实施方式7中的通话装置的结构的图。
图16是示出本公开的实施方式8中的通话装置的结构的图。
图17是用于说明本公开的实施方式8中的回声抑制装置的动作的流程图。
具体实施方式
(成为本公开的基础的知识)
回声消除器是通过由自适应滤波器推定回声信号并从由麦克风拾音得到的信号中减去推定出的回声信号来除去回声的技术。回声是从扬声器扩声后的声音的直接音和反射音的叠加。因此,扬声器与麦克风之间的传递特性能够通过FIR(Finite ImpulseResponse,有限脉冲响应)滤波器来表现。FIR型自适应滤波器进行学习以使得对传递特性进行近似,通过将滤波器系数与受话信号卷积来生成作为回声的推定值的伪回声信号。作为自适应滤波器的学习算法,提出了基于LMS(Least Mean Square,最小均方)法、NLMS(Normalized LMS,标准化LMS)法以及ICA(Independent Component Analysis,独立分量分析法)的方法等。
另一方面,回声抑制器是推定频域中的回声的功率谱,并从由麦克风拾音得到的信号的功率谱中减去推定出的回声的功率谱,由此来抑制回声的技术。回声抑制器例如通过频谱减影法或维纳滤波法来抑制回声。前述的回声消除器在自适应滤波器的学习上花费时间,因而在刚刚接入电源后以及回声路径变动时有产生残留回声的担扰。此外,有在扬声器或麦克风中产生的噪声或送话信号引起自适应滤波器的误学习,伪回声信号产生推定误差,从而残留回声增加的担扰。因此,回声抑制器一般出于在回声消除器的后级补充进行回声抑制的目的而使用。
以往的回声消除器以及以往的回声抑制器通过线性模型推定回声,因而有难以抑制赋予了扬声器失真那样的非线性噪声的非线性回声这样的课题。在笔记本个人电脑或可搬运型电视会议系统所使用的设备中,由于从小口径扬声器对大音量的声音进行扩声,因而起因于扬声器失真的非线性回声的影响表现得显著,有不能舒适地通话的担扰。
此外,在上述的专利文献1中,难以抑制如谐波失真那样不包含于受话信号的频率分量的非线性回声信号。
此外,在上述的专利文献2中,难以抑制宽频带的失真分量,难以抑制由整数倍的频率值以外的频率值产生的失真分量。
为了解决以上的课题,本公开的一方式涉及的回声抑制装置具备:第1线性回声抑制部,通过对由麦克风获取到的输入信号中包含的线性回声信号的振幅分量以及相位分量进行推定,从所述输入信号中抑制线性回声信号;频谱包络提取部,从向扬声器输出的受话信号、所述输入信号以及所述第1线性回声抑制部的输出信号中的至少1者提取频谱包络信息;非线性回声推定部,根据从所述受话信号提取的频谱包络信息、从所述输入信号提取的频谱包络信息以及从所述第1线性回声抑制部的输出信号提取的频谱包络信息中的至少1者,推定所述输入信号中包含的所述非线性回声信号的频谱包络信息;和非线性回声抑制部,使用由所述非线性回声推定部推定出的所述非线性回声信号的频谱包络信息,从所述第1线性回声抑制部的输出信号中抑制所述非线性回声。
根据该结构,根据从向扬声器输出的受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息以及从第1线性回声抑制部的输出信号提取的频谱包络信息中的至少1者,推定输入信号中包含的非线性回声信号的频谱包络信息,使用推定出的非线性回声信号的频谱包络信息,从第1线性回声抑制部的输出信号中抑制非线性回声信号。因此,能够稳定地抑制由麦克风获取到的输入信号中包含的非线性回声信号。
此外,由于能够使提取出的频谱包络信息的维数比提取之前的信号的维数少,因而能够削减推定非线性回声信号的频谱包络信息时的存储器的使用量。进一步地,由于能够削减存储器的使用量,因而除受话信号以外还能够使用从多个信号提取的多个频谱包络信息来推定非线性回声信号的频谱包络信息,能够提高非线性回声信号的频谱包络信息的推定精度。
此外,在上述的回声抑制装置中,也可以还具备:第2线性回声抑制部,通过推定未被所述第1线性回声抑制部抑制的残留线性回声信号的振幅分量,从所述非线性回声抑制部的输出信号中抑制所述残留线性回声信号。
根据该结构,通过第2线性回声抑制部来从非线性回声信号被抑制了的输出信号中抑制残留线性回声信号。因此,能够使第2线性回声抑制部稳定地动作,能够提高线性回声信号的抑制性能。
此外,在上述的回声抑制装置中,所述非线性回声推定部也可以使用表示从所述受话信号提取的频谱包络信息、从所述输入信号提取的频谱包络信息以及从所述第1线性回声抑制部的输出信号提取的频谱包络信息中的至少1者与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从所述受话信号提取的频谱包络信息、从所述输入信号提取的频谱包络信息以及从所述第1线性回声抑制部的输出信号提取的频谱包络信息中的至少1者,推定所述输入信号中包含的所述非线性回声信号的频谱包络信息。
根据该结构,使用表示从向扬声器输出的受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息以及从第1线性回声抑制部的输出信号提取的频谱包络信息中的至少1者与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息以及从第1线性回声抑制部的输出信号提取的频谱包络信息中的至少1者,推定输入信号中包含的非线性回声信号的频谱包络信息,使用推定出的非线性回声信号的频谱包络信息,从第1线性回声抑制部的输出信号中抑制非线性回声信号。因此,能够稳定地抑制由麦克风获取到的输入信号中包含的非线性回声信号。
此外,在上述的回声抑制装置中,所述非线性回声模型也可以将从所述受话信号提取的频谱包络信息、从所述输入信号提取的频谱包络信息以及从所述第1线性回声抑制部的输出信号提取的频谱包络信息中的至少1者、和从自所述输入信号中抑制线性回声信号的所述第1线性回声抑制部的输出信号提取的频谱包络信息用作训练数据,将输入设为从所述受话信号提取的频谱包络信息、从所述输入信号提取的频谱包络信息以及从所述第1线性回声抑制部的输出信号提取的频谱包络信息中的至少1者,将输出设为所述非线性回声信号的频谱包络信息,从而进行学习。
根据该结构,第1线性回声抑制部仅抑制线性回声信号而不抑制非线性回声信号,因而能够将由第1线性回声抑制部抑制了线性回声信号的信号作为非线性回声信号而使用于训练数据。
此外,使用从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息以及从第1线性回声抑制部的输出信号提取的频谱包络信息中的至少1者、和从第1线性回声抑制部的输出信号提取的频谱包络信息作为训练数据,学习非线性回声信号的频谱包络信息。因此,能够将由扬声器引起的复杂的失真正确地模型化,能够提高非线性回声信号的推定精度。
此外,在上述的回声抑制装置中,所述非线性回声推定部也可以使用表示从所述受话信号提取的频谱包络信息与所述非线性回声信号的频谱包络信息的关系性的所述非线性回声模型,根据从所述受话信号提取的频谱包络信息,推定所述输入信号中包含的所述非线性回声信号的频谱包络信息。
根据该结构,使用表示从受话信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从受话信号提取的频谱包络信息,推定非线性回声信号的频谱包络信息。因此,能够根据从受话信号提取的频谱包络信息来容易地推定非线性回声信号的频谱包络信息。
此外,在上述的回声抑制装置中,所述非线性回声推定部也可以使用表示从所述受话信号提取的频谱包络信息以及从所述输入信号提取的频谱包络信息、与所述非线性回声信号的频谱包络信息的关系性的所述非线性回声模型,根据从所述受话信号提取的频谱包络信息以及从所述输入信号提取的频谱包络信息,推定所述输入信号中包含的所述非线性回声信号的频谱包络信息。
根据该结构,不是仅根据从受话信号提取的频谱包络信息,而是根据从受话信号提取的频谱包络信息以及从输入信号提取的频谱包络信息来推定非线性回声信号的频谱包络信息,因而能够提高非线性回声信号的频谱包络信息的推定精度。
此外,在上述的回声抑制装置中,所述非线性回声推定部也可以使用表示从所述受话信号提取的频谱包络信息以及从所述第1线性回声抑制部的输出信号提取的频谱包络信息、与所述非线性回声信号的频谱包络信息的关系性的所述非线性回声模型,根据从所述受话信号提取的频谱包络信息以及从所述第1线性回声抑制部的输出信号提取的频谱包络信息,推定所述输入信号中包含的所述非线性回声信号的频谱包络信息。
根据该结构,不是仅根据从受话信号提取的频谱包络信息,而是根据从受话信号提取的频谱包络信息以及从第1线性回声抑制部的输出信号提取的频谱包络信息推定非线性回声信号的频谱包络信息,因而能够提高非线性回声信号的频谱包络信息的推定精度。
此外,在上述的回声抑制装置中,所述非线性回声推定部也可以使用表示从所述受话信号提取的频谱包络信息、从所述输入信号提取的频谱包络信息以及从所述第1线性回声抑制部的输出信号提取的频谱包络信息、与所述非线性回声信号的频谱包络信息的关系性的所述非线性回声模型,根据从所述受话信号提取的频谱包络信息、从所述输入信号提取的频谱包络信息以及从所述第1线性回声抑制部的输出信号提取的频谱包络信息,推定所述输入信号中包含的所述非线性回声信号的频谱包络信息。
根据该结构,不是仅根据从受话信号提取的频谱包络信息,而是根据从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息以及从第1线性回声抑制部的输出信号提取的频谱包络信息来推定非线性回声信号的频谱包络信息,因而能够提高非线性回声信号的频谱包络信息的推定精度。
此外,在上述的回声抑制装置中,也可以是,所述第1线性回声抑制部包括:自适应滤波器,通过对滤波器系数和所述受话信号进行卷积,生成表示所述输入信号中包含的所述受话信号的分量的伪线性回声信号;和减法运算部,从所述输入信号中减去所述伪线性回声信号,所述非线性回声推定部使用表示从所述受话信号提取的频谱包络信息以及从来自所述自适应滤波器的所述伪线性回声信号提取的频谱包络信息、与所述非线性回声信号的频谱包络信息的关系性的所述非线性回声模型,根据从所述受话信号提取的频谱包络信息以及从来自所述自适应滤波器的所述伪线性回声信号提取的频谱包络信息,推定所述输入信号中包含的所述非线性回声信号的频谱包络信息。
根据该结构,不是仅根据从受话信号提取的频谱包络信息,而是根据从受话信号提取的频谱包络信息以及从来自第1线性回声抑制部的自适应滤波器的伪线性回声信号提取的频谱包络信息,推定非线性回声信号的频谱包络信息,因而能够提高非线性回声信号的频谱包络信息的推定精度。
此外,在上述的回声抑制装置中,所述非线性回声推定部也可以使用表示从所述输入信号提取的频谱包络信息与所述非线性回声信号的频谱包络信息的关系性的所述非线性回声模型,根据从所述输入信号提取的频谱包络信息,推定所述输入信号中包含的所述非线性回声信号的频谱包络信息。
根据该结构,使用表示从输入信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从输入信号提取的频谱包络信息来推定非线性回声信号的频谱包络信息,因而能够根据从输入信号提取的频谱包络信息,容易地推定非线性回声信号的频谱包络信息。
此外,在上述的回声抑制装置中,所述频谱包络提取部也可以通过线性预测分析法,从所述受话信号、所述输入信号以及所述第1线性回声抑制部的输出信号中的至少1者提取频谱包络信息。
根据该结构,由于通过线性预测分析法来从受话信号、输入信号以及第1线性回声抑制部的输出信号中的至少1者提取频谱包络信息,因而能够对受话信号、输入信号以及第1线性回声抑制部的输出信号中的至少1者的信息量进行压缩。此外,若是线性预测分析法,则能提取对原来的信号的峰值进行了强调的频谱包络信息,因而即便维数少,也能够正确地表现出原来的信号的频谱。
此外,在上述的回声抑制装置中,所述频谱包络提取部也可以将通过线性预测分析法分析后的所述受话信号、所述输入信号以及所述第1线性回声抑制部的输出信号中的至少1者的线性预测系数变换成PARCOR(偏自相关)系数,提取由变换后的所述PARCOR系数表示的频谱包络信息。
根据该结构,由于PARCOR系数的值域为-1~+1,因而有不需要神经网络的学习数据的标准化这样的优点。此外,PARCOR系数不存在由维数引起的系数灵敏度的差异,因而相较于线性预测系数,能够使得不易受到神经网络的预测误差的影响。此外,由于PARCOR系数的动态范围被固定,因而能够在安装时容易地固定小数点化。
此外,本公开不仅能够作为具备以上那样的特征性的结构的回声抑制装置来实现,还能够作为执行与回声抑制装置具备的特征性的结构对应的特征性的处理的回声抑制方法等来实现。此外,能够作为使计算机执行这样的回声抑制方法中包含的特征性的处理的计算机程序来实现。因此,在以下的其他方式中,也能够实现与上述的回声抑制装置同样的效果。
本公开的另一方式涉及的回声抑制方法中,第1线性回声抑制部通过对由麦克风获取到的输入信号中包含的线性回声信号的振幅分量以及相位分量进行推定,从所述输入信号中抑制线性回声信号,频谱包络提取部从向扬声器输出的受话信号、所述输入信号以及所述第1线性回声抑制部的输出信号中的至少1者提取频谱包络信息,非线性回声推定部根据从所述受话信号提取的频谱包络信息、从所述输入信号提取的频谱包络信息以及从所述第1线性回声抑制部的输出信号提取的频谱包络信息中的至少1者,推定所述输入信号中包含的所述非线性回声信号的频谱包络信息,非线性回声抑制部使用由所述非线性回声推定部推定出的所述非线性回声信号的频谱包络信息,从所述第1线性回声抑制部的输出信号中抑制所述非线性回声。
本公开的另一方式涉及的回声抑制程序使计算机作为以下各部发挥功能:第1线性回声抑制部,通过对由麦克风获取到的输入信号中包含的线性回声信号的振幅分量以及相位分量进行推定,从所述输入信号中抑制线性回声信号;频谱包络提取部,从向扬声器输出的受话信号、所述输入信号以及所述第1线性回声抑制部的输出信号中的至少1者提取频谱包络信息;非线性回声推定部,根据从所述受话信号提取的频谱包络信息、从所述输入信号提取的频谱包络信息以及从所述第1线性回声抑制部的输出信号提取的频谱包络信息中的至少1者,推定所述输入信号中包含的所述非线性回声信号的频谱包络信息;和非线性回声抑制部,使用由所述非线性回声推定部推定出的所述非线性回声信号的频谱包络信息,从所述第1线性回声抑制部的输出信号中抑制所述非线性回声。
以下一边参照附图一边对本公开的实施方式进行说明。另外,以下的实施方式是将本公开具体化了的一个例子,并不限定本公开的技术范围。
(实施方式1)
首先,对非线性回声的主要产生原因进行说明。
非线性失真是系统的输入输出关系不为比例关系的情况下产生的失真的总称。例如,在随着输入振幅变大而输出振幅被限幅的输入输出特性的系统中,若输入频率f1以及f2的双调正弦波,则在输出波形的振幅频谱中,在不存在于输入信号的频率分量中产生非线性失真。非线性失真能够大致区分为如2f1以及2f2那样在输入信号的整数倍的频率中产生的谐波失真、和如f1+f2以及f2-f1那样在输入信号的和以及差的频率中产生的相互调制失真。
在实际的系统中,扬声器的扩音的非线性失真成为非线性回声的主要原因。在一般广泛使用的电动型扬声器中,在最低谐振频率f0附近的频带内振动板的位移增大。而且,由于因音圈能够超出永久磁石产生的磁通的范围地移动而产生的驱动力的非线性、或锥形边缘或阻尼器等支承系统的机械性非线性等,从而产生非线性失真。进一步地,在小口径扬声器中,有时为了弥补低频带的声压水平的下降,通过前处理来提升最低谐振频率f0附近的声压。在该情况下,振动板的位移增大,成为产生进一步的非线性失真的主要原因。
接下来,对非线性回声对以往的回声抑制技术产生的影响进行说明。作为以往的回声抑制技术,对具备回声消除器和回声抑制器的系统进行说明。
回声消除器通过自适应滤波器来计算回声的推定值、即伪回声信号,并从麦克风信号中减去计算出的伪回声信号,由此除去回声。即,若将受话信号设为x(k),将自适应滤波器的系数设为wn(k),将自适应滤波器的抽头数设为N,则伪回声y(k)由下述的式(1)表示。
[数学式1]
上述的式(1)的意思是通过使受话信号的相位和振幅变化后的线性和来表现伪回声,与系数学习所使用的自适应算法无关,不能表现非线性回声。
此外,回声抑制器设置在回声消除器的后级。回声抑制器通过推定未被回声消除器抑制的残留回声的功率谱来抑制残留回声。在一般广泛使用的基于维纳滤波器法的回声抑制器中,推定受话信号的短时间频谱X(ω)与残留回声的短时间频谱YEC(ω)之间的声耦合量AE(ω),并基于下述的式(2)来计算维纳滤波器Gwiener(ω)。
[数学式2]
而且,回声抑制器通过将维纳滤波器Gwiener(ω)如下述的式(3)那样与残留回声的短时间频谱YEC(ω)相乘,得到抑制回声后的信号YES(ω)。
YES(ω)=Gwiener(ω)YEC(ω)···(3)
即,回声抑制器根据按照每个频率分量推定出的声耦合量AE(ω)和受话信号X(ω)来推定残留回声。因此,回声抑制器无法推定非线性回声那样的受话信号中不存在的频率分量。
作为上述的证据,发明者们实施了对非线性回声的影响评价进行确认的实验。另外,在评价实验中使用了以往的回声抑制装置。以往的回声抑制装置具备对受话信号进行扩声的扬声器、麦克风、从由麦克风获取到的输入信号中抑制回声信号的回声消除器、以及从来自回声消除器的输出信号中抑制回声信号的回声抑制器。此外,在评价实验中,使用了作为扩声所使用的扬声器的最低谐振频率f0附近的中心频率400Hz的1/3倍频带噪声。
图1是示出输入信号中不包含由扬声器失真引起的非线性回声的情况下的麦克风信号、回声消除器输出信号以及回声抑制器输出信号的图,图2是示出输入信号中包含由扬声器失真引起的非线性回声的情况下的麦克风信号、回声消除器输出信号以及回声抑制器输出信号的图。
在图1以及图2中,实线表示从麦克风输出的麦克风信号(输入信号),虚线表示回声消除器输出信号,单点划线表示回声抑制器输出信号。在图1以及图2中,横轴表示频率,纵轴表示振幅水平。
在图2中,出现了输入信号的2次~4次谐波,如前述那样,示出了在以往的回声消除器以及回声抑制器中完全不能抑制非线性回声。进一步地,在图1以及图2中,若着眼于400Hz附近的基础音,则在不包含非线性回声的情况下,能由回声消除器抑制35dB程度的回声,相对于此,在包含非线性回声的情况下,回声消除器的抑制量劣化到了20dB程度。认为这是因为,为了模拟自适应滤波器本来应该不能表现的非线性回声而强行继续更新滤波器系数,其结果引起了误学习,回声推定产生了误差。
以往的回声抑制技术的本质的课题在于由于用线性模型来推定回声因而不能表现非线性回声这一点。因此,本实施方式1中的回声抑制装置使用能够对任意的非线性函数进行近似的神经网络来推定非线性回声。作为神经网络的导入方法,考虑推定非线性回声的振幅以及相位而应用于回声消除器的方法、和仅推定非线性回声的振幅而应用于回声抑制器的方法这2种。相较于后者,前者有需要高的推定精度并且运算量增大这样的问题。因此,本实施方式1中的回声抑制装置通过低功耗、低成本以及能够以少的运算量进行安装的回声抑制器方式来实现非线性回声的抑制。
图3是示出本公开的实施方式1中的通话装置的结构的图。另外,通话装置能够利用于扩声型的免提通话系统,扩声型的双向通信会议系统以及网络电话系统等。
图3所示的通话装置具备回声抑制装置1、输入端子11、扬声器12、麦克风13以及输出端子20。
输入端子11向回声抑制装置1输出从受话侧的通话装置(未图示)接收的受话信号。
扬声器12向外部输出被输入的受话信号。在此,在从扬声器12输出的声音由麦克风13拾音的情况下,从受话侧的扬声器会延迟地对受话侧的讲话者所发出的声音进行再生,产生所谓的声回声。因此,回声抑制装置1抑制从麦克风13输出的输入信号中包含的声回声信号。此时,声回声信号包含线性回声信号以及非线性回声信号。
麦克风13配置于送话者所在的空间内,对送话者的声音进行拾音。麦克风13将表示拾音后的声音的输入信号输出到回声抑制装置1。
输出端子20输出由回声抑制装置1抑制了线性回声信号以及非线性回声信号的输入信号。
另外,输入端子11以及输出端子20与通信部(未图示)连接。通信部经由网络向受话侧的通话装置(未图示)发送输入信号,并且经由网络从受话侧的通话装置(未图示)接收受话信号。网络例如是因特网。
回声抑制装置1具备回声消除器14、频谱包络提取部15、非线性回声模型存储部16、非线性回声推定部17、非线性回声抑制部18以及回声抑制器19。
输入端子11向扬声器12、回声消除器14、频谱包络提取部15以及回声抑制器19输出受话信号。
回声消除器14通过对由麦克风13获取到的输入信号中包含的线性回声信号的振幅分量以及相位分量进行推定,从输入信号中抑制线性回声信号。回声消除器14是第1线性回声抑制部的一个例子。回声消除器14仅抑制从麦克风13输出的输入信号中包含的线性回声信号。
回声消除器14具备未图示的自适应滤波器以及减法运算部。
自适应滤波器通过对滤波器系数和受话信号进行卷积,生成表示由麦克风13获取到的输入信号中包含的受话信号的分量的伪回声信号。
减法运算部计算来自麦克风13的输入信号与来自自适应滤波器的伪回声信号的误差信号,并向自适应滤波器输出计算出的误差信号。自适应滤波器基于输入的误差信号修正滤波器系数,并通过对修正后的滤波器系数和受话信号进行卷积来生成伪回声信号。自适应滤波器使用自适应算法,修正滤波器系数以使得误差信号成为最小。作为自适应算法,例如能使用学习识别法(NLMS(Normarized Least Mean Square,标准化最小均方)法)、仿射投影法或递归最小2乘法(RLS(Recursive Least Square)法)。
此外,减法运算部通过从来自麦克风13的输入信号中减去来自自适应滤波器的伪回声信号,从输入信号中抑制线性回声信号。而且,减法运算部向非线性回声抑制部18输出抑制了线性回声信号的输入信号。
频谱包络提取部15从向扬声器12输出的受话信号、由麦克风13获取到的输入信号以及回声消除器14的输出信号中的至少1者提取频谱包络信息。本实施方式1中的频谱包络提取部15从向扬声器12输出的受话信号提取频谱包络信息。
频谱包络提取部15通过线性预测(LPC:Linear Predictive Coding)分析法来从受话信号、输入信号以及回声消除器14的输出信号中的至少1者提取频谱包络信息。本实施方式1中的频谱包络提取部15通过线性预测分析法来从受话信号提取频谱包络信息。频谱包络提取部15通过线性预测分析,预测离散信号的将来的值,作为至此为止的样本群的值的线性映射。
作为计算频谱包络信息的方法,有线性预测模型(LPC模型)。线性预测模型根据比其靠前的n个样本值来预测声音波形的某个样本值s(n),由下述的式(4)表示。
[数学式3]
频谱包络提取部15通过对受话信号进行线性预测分析来计算受话信号的线性预测系数,使用计算出的线性预测系数来计算受话信号的频谱包络信息。针对n个样本值的p次的线性预测系数α能够通过使用自相关法或协方差法等来计算。若使用计算出的线性预测系数α,则能够通过下述的式(5)来生成输入的声音信号。
Y(z)={1/A(z)}U(z)···(5)
在上述的式(5)中,Y(z)是声音信号y(n)的z变换,1/A(z)是传递函数,U(z)是音源信号u(n)的z变换,相当于白噪声。
图4是示出在本实施方式1中受话信号的频谱和受话信号的频谱包络信息的一个例子的图。在图4中,横轴表示频率窗口,纵轴表示功率。此外,在图4中,实线表示受话信号的频谱,虚线表示受话信号的频谱包络信息。
图4所示的频谱包络信息的维数例如是6~20维。频谱包络信息的维数少于受话信号的维数。因此,频谱包络提取部15能够通过提取受话信号的频谱包络信息来压缩受话信号的信息量。
此外,通过线性预测从受话信号提取出的频谱包络信息对受话信号的峰值进行了强调,因而即便维数少,也能够正确地表现受话信号的频谱。此外,若线性预测的维数增加,则频谱包络信息能够更细腻地表现受话信号的频谱。
频谱包络提取部15向非线性回声推定部17输出从受话信号提取的频谱包络信息。
另外,在本实施方式1中,频谱包络提取部15也可以将通过线性预测分析法分析后的受话信号、输入信号以及回声消除器14的输出信号中的至少1者的线性预测系数变换成PARCOR(偏自相关:Partial auto-Correlation)系数,并提取由变换后的PARCOR系数表示的频谱包络信息。已知的是,相较于线性预测系数,PARCOR系数的插值特性良好。此外,PARCOR系数能够通过使用Levinson-Durbin-Itakura算法来计算。PARCOR系数的值域为-1~+1,因而有不需要神经网络的学习数据的标准化的优点。此外,PARCOR系数不存在由维数引起的系数灵敏度的差异,因而相较于线性预测系数,能够使得不易受到神经网络的预测误差的影响。此外,PARCOR系数的动态范围被固定,因而能够在安装时容易地固定小数点化。
另外,除线性预测系数以及PARCOR系数以外,频谱包络信息也可以使用线频谱对(LSP:Line Spectral Pairs)来表示。频谱包络提取部15也可以将由线性预测分析法分析后的受话信号、输入信号以及回声消除器14的输出信号中的至少1者的线性预测系数变换成线频谱对。
此外,在本实施方式1中,频谱包络提取部15通过线性预测分析法提取受话信号、输入信号以及回声消除器14的输出信号中的至少1者的频谱包络信息,但本公开对此不特别限定。频谱包络提取部15例如也可以通过倒谱分析法来提取受话信号、输入信号以及回声消除器14的输出信号中的至少1者的频谱包络信息。
非线性回声模型存储部16预先存储表示从向扬声器12输出的受话信号提取的频谱包络信息、从由麦克风13获取到的输入信号提取的频谱包络信息以及从回声消除器14的输出信号提取的频谱包络信息中的至少1者与非线性回声信号的频谱包络信息的关系性的非线性回声模型。另外,本实施方式1中的非线性回声模型存储部16预先存储表示从受话信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型。非线性回声模型例如是神经网络。
非线性回声模型将从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息以及从回声消除器14的输出信号提取的频谱包络信息中的至少1者、和从自输入信号中抑制线性回声信号的回声消除器的输出信号提取的频谱包络信息用作训练数据,将输入设为从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息以及从回声消除器14的输出信号提取的频谱包络信息中的至少1者,将输出设为非线性回声信号的频谱包络信息,从而进行学习。本实施方式1中的非线性回声模型将从受话信号提取的频谱包络信息、和从自输入信号中抑制线性回声信号的回声消除器的输出信号提取的频谱包络信息用作训练数据,将输入设为从受话信号提取的频谱包络信息,将输出设为非线性回声信号的频谱包络信息,从而进行学习。
非线性回声推定部17根据从向扬声器12输出的受话信号提取的频谱包络信息、从由麦克风13获取到的输入信号提取的频谱包络信息以及从回声消除器14的输出信号提取的频谱包络信息中的至少1者,推定输入信号中包含的非线性回声信号的频谱包络信息。更具体地,非线性回声推定部17使用表示从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息以及从回声消除器14的输出信号提取的频谱包络信息中的至少1者与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息以及从回声消除器14的输出信号提取的频谱包络信息中的至少1者,推定输入信号中包含的非线性回声信号的频谱包络信息。
图5是示出在本实施方式1中非线性回声信号的频谱和非线性回声信号的频谱包络信息的一个例子的图。在图5中,横轴表示频率窗口,纵轴表示功率。此外,在图5中,实线表示非线性回声信号的频谱,虚线表示非线性回声信号的频谱包络信息。
图5所示的频谱包络信息的维数例如是6~20维。频谱包络信息的维数比非线性回声信号的维数少。因此,非线性回声推定部17能够通过根据从受话信号提取的频谱包络信息推定非线性回声信号的频谱包络信息,削减存储器的使用量。
如上述那样,在本实施方式1中,通过受话信号以及非线性回声信号由频谱包络信息表现,从而能够削减非线性回声模型所处理的输入信号以及输出信号的维数。另一方面,通过时域的受话信号以及非线性回声信号由频域的受话信号以及非线性回声信号表现,从而也能够削减非线性回声模型所处理的输入信号以及输出信号的维数。在该情况下,通过针对受话信号进行快速傅立叶变换,将时域的受话信号变换成频域的受话信号,频域的受话信号使用于非线性回声模型的输入信号,从非线性回声模型输出频域的非线性回声信号。
然而,进行快速傅立叶变换后的信号的维数例如是64维、128维、256维、512维或1024维,相对于此,频谱包络信息的维数例如是6~20维。如此,相比于变换成频域后的信号,频谱包络信息这一方能够大幅压缩信息量,能够大幅削减存储器的使用量。
此外,由于由非线性回声推定部17推定出的非线性回声信号的频谱包络信息对非线性回声信号的峰值进行强调,因而即便维数少也能够正确地表现非线性回声信号的频谱。此外,若线性预测的维数增加,则频谱包络信息能够更细腻地表现非线性回声信号的频谱。
非线性回声推定部17从非线性回声模型存储部16读出非线性回声模型。非线性回声推定部17将从频谱包络提取部15输出的受话信号的频谱包络信息输入非线性回声模型,从非线性回声模型获取非线性回声信号的频谱包络信息。非线性回声推定部17向非线性回声抑制部18输出使用受话信号的频谱包络信息推定出的非线性回声信号的频谱包络信息。
非线性回声抑制部18使用由非线性回声推定部17推定出的非线性回声信号的频谱包络信息,从输入信号中抑制非线性回声信号。更具体地,非线性回声抑制部18使用由非线性回声推定部17推定出的非线性回声信号的频谱包络信息,从回声消除器14的输出信号中抑制非线性回声信号。
非线性回声抑制部18基于下述的式(6),根据推定出的非线性回声信号的频谱包络信息XNN(k)和来自回声消除器14的输出信号(输入信号)yEC(k),计算维纳滤波器GNN(k)。
[数学式4]
如下述的式(7)那样,非线性回声抑制部18通过将维纳滤波器GNN(k)乘以输入信号yEC(k)来获得抑制了非线性回声信号的输入信号yNL-ES(k)。
yNL-ES(k)=GNN(k)yEC(k)···(7)
非线性回声抑制部18向回声抑制器19输出仅抑制了非线性回声信号的输入信号。
回声抑制器19通过对未被回声消除器14抑制的残留线性回声信号的振幅分量进行推定,抑制残留线性回声信号。更具体地,回声抑制器19通过对未被回声消除器14抑制的残留线性回声信号的振幅分量进行推定,从非线性回声抑制部18的输出信号中抑制残留线性回声信号。回声抑制器19是第2线性回声抑制部的一个例子。
回声抑制器19通过频谱减影法或维纳滤波器法来抑制残留线性回声信号。回声抑制器19仅使用回声信号的空间或相干函数,按照每个频率来推定声耦合量。回声抑制器19使用推定出的声耦合量、非线性回声抑制部18的输出信号和受话信号来计算抑制增益。回声抑制器19通过将计算出的抑制增益乘以非线性回声抑制部18的输出信号,抑制未被回声消除器14抑制的残留线性回声信号。回声抑制器19向输出端子20输出从输入信号中仅抑制了残留线性回声信号的输入信号。
接下来,对本公开的实施方式1中的回声抑制装置1的动作进行说明。
图6是用于说明本公开的实施方式1中的回声抑制装置1的动作的流程图。
首先,在步骤S1中,回声消除器14通过对由麦克风13获取到的输入信号中包含的线性回声信号的振幅分量以及相位分量进行推定,从输入信号中抑制线性回声信号。
接下来,在步骤S2中,频谱包络提取部15从向扬声器12输出的受话信号提取频谱包络信息。
接下来,在步骤S3中,非线性回声推定部17使用表示从受话信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从受话信号提取的频谱包络信息,推定输入信号中包含的非线性回声信号的频谱包络信息。
接下来,在步骤S4中,非线性回声抑制部18使用由非线性回声推定部17推定出的非线性回声信号的频谱包络信息,从回声消除器14的输出信号中抑制非线性回声信号。
接下来,在步骤S5中,回声抑制器19通过对未被回声消除器14抑制的残留线性回声信号的振幅分量进行推定,从非线性回声抑制部18的输出信号中抑制残留线性回声信号。回声抑制器19将从输入信号中仅抑制了残留线性回声信号的输入信号作为送话信号向输出端子20输出。
如以上那样,使用表示从向扬声器12输出的受话信号提取的频谱包络信息、从由麦克风13获取到的输入信号提取的频谱包络信息以及从回声消除器14的输出信号提取的频谱包络信息中的至少1者与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息以及从回声消除器14的输出信号提取的频谱包络信息中的至少1者,推定输入信号中包含的非线性回声信号的频谱包络信息,并使用推定出的非线性回声信号的频谱包络信息,从回声消除器14的输出信号中抑制非线性回声信号。因此,能够稳定地抑制由麦克风13获取到的输入信号中包含的非线性回声信号。
此外,通过回声抑制器19来从非线性回声信号被抑制了的输出信号中抑制残留线性回声信号。因此,能够使回声抑制器19的动作稳定,能够提高线性回声信号的抑制性能。
此外,从受话信号提取的频谱包络信息的维数比原来的受话信号的维数少,非线性回声信号的频谱包络信息的维数比非线性回声信号的维数少。因此,通过由频谱包络信息表现受话信号以及非线性回声信号,从而能够削减存储器的使用量。
接下来,对本实施方式1中的非线性回声模型的学习方法进行说明。
图7是示出本公开的实施方式1中的学习装置的结构的图。
图7所示的学习装置具备非线性回声模型制作装置2、输入端子31、扬声器32以及麦克风33。
输入端子31向回声抑制装置1输出从受话侧的通话装置(未图示)接收到的受话信号。
扬声器32向外部输出被输入的受话信号。
麦克风33配置于送话者所在的空间内,对送话者的声音进行拾音。麦克风33将表示拾音得到的声音的输入信号输出到非线性回声模型制作装置2。
另外,输入端子31、扬声器32以及麦克风33的结构与图3中的输入端子11、扬声器12以及麦克风13的结构相同。
非线性回声模型制作装置2具备回声消除器34、频谱包络提取部35、36、非线性回声模型学习部37以及非线性回声模型存储部38。
回声消除器34通过对由麦克风33获取到的输入信号中包含的线性回声信号的振幅分量以及相位分量进行推定,从输入信号中抑制线性回声信号。回声消除器34的结构与图3所示的回声消除器14的结构相同。回声消除器34向频谱包络提取部35输出抑制了线性回声信号的输入信号。
频谱包络提取部35从回声消除器34的输出信号提取频谱包络信息。频谱包络提取部35向非线性回声模型学习部37输出从回声消除器34的输出信号提取的频谱包络信息。
频谱包络提取部36从向扬声器32输出的受话信号提取频谱包络信息。频谱包络提取部36向非线性回声模型学习部37输出从受话信号提取的频谱包络信思。
非线性回声模型学习部37对如下的非线性回声模型进行学习,该非线性回声模型将从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息以及从回声消除器34的输出信号提取的频谱包络信息中的至少1者、和从自输入信号中抑制线性回声信号的回声消除器34的输出信号提取的频谱包络信息用作训练数据,将输入设为从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息以及从回声消除器34的输出信号提取的频谱包络信息中的至少1者,将输出设为非线性回声信号的频谱包络信息。
本实施方式1中的非线性回声模型学习部37将从受话信号提取的频谱包络信息、和从自输入信号中抑制线性回声信号的回声消除器34的输出信号提取的频谱包络信息用作训练数据。非线性回声模型学习部37对非线性回声模型进行学习,使得若输入由频谱包络提取部36从受话信号提取的频谱包络信息,则输出由频谱包络提取部35从回声消除器34的输出信号提取的非线性回声信号的频谱包络信息。
非线性回声模型是将从受话信号提取的频谱包络信息和从回声消除器34的输出信号提取的频谱包络信息作为训练数据而进行了事先学习的神经网络。回声消除器34仅能够抑制线性回声信号。因此,回声消除器34的输出信号(残留回声信号)与非线性回声信号几乎相等。如此,非线性回声模型学习部37能够将从受话信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性模型化。
另外,作为机器学习,例如,还能举出使用对输入信息赋予了标签(输出信息)的训练数据来对输入与输出的关系进行学习的监督学习、仅根据无标签的输入来构建数据的构造的无监督学习、对有标签和无标签均进行处理的半监督学习、通过试错来对将报酬最大化的行动进行学习的强化学习等。此外,作为机器学习的具体的方法,不仅有神经网络(包括使用多层神经网络的深度学习),还存在遗传编程、决策树、贝叶斯网络、或支持向量机(SVM)等。在非线性回声模型的机器学习中,只要使用以上举出的具体例中的任一者即可。
非线性回声模型学习部37将学习后的非线性回声模型存储在非线性回声模型存储部38。
非线性回声模型存储部38存储由非线性回声模型学习部37学习后的非线性回声模型。
另外,图3所示的回声抑制装置1也可以具备频谱包络提取部35以及非线性回声模型学习部37。在该情况下,回声抑制装置1也可以还具备对学习模式和回声抑制模式进行切换的模式切换部。在由模式切换部切换到学习模式的情况下,回声消除器14向频谱包络提取部35输出输出信号。非线性回声模型学习部37也可以将从由回声消除器14抑制了线性回声信号的输出信号提取的频谱包络信息和从受话信号提取的频谱包络信息作为训练数据来对非线性回声模型进行学习。
此外,由学习装置学习后的非线性回声模型也可以被预先存储于回声抑制装置1的非线性回声模型存储部16。此外,回声抑制装置1也可以接收由学习装置学习后的非线性回声模型,对存储在非线性回声模型存储部16的非线性回声模型进行更新。
此外,非线性回声模型制作装置2也可以还具备回声抑制器。在该情况下,回声消除器34也可以通过由麦克风33获取到的输入信号中包含的线性回声信号的振幅分量以及相位分量进行推定,从输入信号中抑制线性回声信号。回声消除器34也可以向回声抑制器输出抑制了线性回声信号的输入信号。回声抑制器也可以通过对未被回声消除器34抑制的残留线性回声信号的振幅分量进行推定,从输入信号中抑制残留线性回声信号。回声抑制器的结构与图3所示的回声抑制器19的结构相同。回声抑制器也可以向频谱包络提取部35输出从输入信号中仅抑制了残留线性回声信号的输入信号。频谱包络提取部35也可以从回声抑制器的输出信号提取频谱包络信息。频谱包络提取部35也可以向非线性回声模型学习部37输出从抑制器的输出信号提取的频谱包络信息。
而且,非线性回声模型学习部37也可以对如下非线性回声模型进行学习,该非线性回声模型将从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息以及从回声消除器34的输出信号提取的频谱包络信息中的至少1者、和从回声抑制器的输出信号提取的频谱包络信息用作训练数据,该回声抑制器从自输入信号中抑制线性回声信号的回声消除器34的输出信号中抑制残留线性回声信号,将输入设为从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息以及从回声消除器34的输出信号提取的频谱包络信息中的至少1者,将输出设为非线性回声信号的频谱包络信息。
图8是示出对来自以往的回声抑制装置的输出信号以及来自本实施方式1的回声抑制装置1的输出信号进行频率解析而得到的结果的图。另外,在图8中,横轴表示频率,纵轴表示振幅水平。此外,在图8中,实线表示来自麦克风13的输入信号,虚线表示来自以往的回声抑制装置的输出信号,单点划线表示来自本实施方式1的回声抑制装置1的输出信号。此外,受话信号是中心频率315Hz的1/3倍频带噪声。
如图8所示,在本实施方式1的回声抑制装置1中,针对作为非线性回声信号的谐波失真获得了超过目标值的15dB至20dB的抑制效果。进一步地,在本实施方式1的回声抑制装置1中,针对315Hz的线性回声信号,相较于以往的回声抑制装置,也获得了高约15dB的抑制效果。这被认为是因为,由于通过本实施方式1的非线性回声抑制部18抑制了非线性回声信号,使得后级的回声抑制器19中的声耦合量的推定变得稳定地动作。
如此,本实施方式1的回声抑制装置1即便用失真多的扬声器也能够进行舒适的通话,能够对笔记本个人电脑、网络会议系统以及便携式电话等的高品质化、小型化以及低成本做出贡献。
另外,由于通过提取频谱包络来削减特征量的信息量这样的效果,从而还能够增多非线性回声模型的学习参数。例如,在非线性模型是神经网络的情况下,还能够增加中间层的层数。
(实施方式2)
上述的实施方式1中的非线性回声推定部17使用表示从受话信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从受话信号提取的频谱包络信息,推定输入信号中包含的非线性回声信号的频谱包络信息。相对于此,实施方式2中的非线性回声推定部使用表示从受话信号提取的频谱包络信息以及从输入信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从受话信号提取的频谱包络信息以及从输入信号提取的频谱包络信息,推定输入信号中包含的非线性回声信号的频谱包络信息。
图9是示出本公开的实施方式2中的通话装置的结构的图。
图9所示的通话装置具备回声抑制装置1A、输入端子11、扬声器12、麦克风13以及输出端子20。另外,在本实施方式2中,对与实施方式1相同的结构标注相同的符号,并省略说明。
回声抑制装置1A具备回声消除器14、频谱包络提取部15、21、非线性回声模型存储部161、非线性回声推定部171、非线性回声抑制部18以及回声抑制器19。
麦克风13将输入信号向回声消除器14输出,并向频谱包络提取部21输出。
频谱包络提取部21从由麦克风13获取到的输入信号提取频谱包络信息。频谱包络提取部21通过线性预测分析法从输入信号提取频谱包络信息。另外,频谱包络提取部21的结构与频谱包络提取部15的结构相同。频谱包络提取部21向非线性回声推定部171输出从输入信号提取的频谱包络信思。
本实施方式2中的非线性回声模型存储部161预先存储表示从向扬声器12输出的受话信号提取的频谱包络信息以及从由麦克风13获取到的输入信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型。非线性回声模型例如是神经网络。
本实施方式2中的非线性回声模型将从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息、和从自输入信号中抑制线性回声信号的回声消除器的输出信号提取的频谱包络信息用作训练数据,将输入设为从受话信号提取的频谱包络信息以及从输入信号提取的频谱包络信息,将输出设为非线性回声信号的频谱包络信息,从而进行学习。
在实施方式2中的非线性回声模型的学习方法中,向图7所示的非线性回声模型学习部37输入从受话信号提取的频谱包络信息和从输入信号提取的频谱包络信息。而且,本实施方式2中的非线性回声模型学习部37将从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息、和从自输入信号中抑制线性回声信号的回声消除器34的输出信号提取的频谱包络信息用作训练数据。非线性回声模型学习部37对非线性回声模型进行学习,使得若输入从受话信号提取的频谱包络信息以及从输入信号提取的频谱包络信息,则输出从回声消除器34的输出信号提取的非线性回声信号的频谱包络信息。
非线性回声推定部171使用表示从受话信号提取的频谱包络信息以及从输入信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从受话信号提取的频谱包络信息以及从输入信号提取的频谱包络信息,推定输入信号中包含的非线性回声信号的频谱包络信息。
非线性回声推定部171从非线性回声模型存储部161读出非线性回声模型。非线性回声推定部171将从频谱包络提取部15输出的从受话信号提取的频谱包络信息以及从频谱包络提取部21中输出的从输入信号提取的频谱包络信息输入到非线性回声模型,由此从非线性回声模型获取非线性回声信号的频谱包络信息。非线性回声推定部171向非线性回声抑制部18输出使用从受话信号提取的频谱包络信息以及从输入信号提取的频谱包络信息推定出的非线性回声信号的频谱包络信息。
另外,关于本实施方式2中的回声抑制装置1A的动作,图6所示的步骤S2以及步骤S3的处理不同。即,在本实施方式2中,在步骤S2中,频谱包络提取部15从向扬声器12输出的受话信号提取频谱包络信息,并且频谱包络提取部21从由麦克风13获取到的输入信号提取频谱包络信息。然后,在步骤S3中,非线性回声推定部171使用表示从受话信号提取的频谱包络信息以及从输入信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从受话信号提取的频谱包络信息以及从输入信号提取的频谱包络信息,推定非线性回声信号的频谱包络信息。
相比于提取前的信号的维数或变换成频域的信号的维数,能够大幅削减频谱包络信息的维数。因此,不使存储器的使用量增加,就能够增加非线性回声模型所处理的输入信号的数量。在本实施方式2中,由于针对非线性回声模型输入2个信号(受话信号的频谱包络信息以及输入信号的频谱包络信息),因而能够进一步提高非线性回声信号的推定精度。
(实施方式3)
上述的实施方式1中的非线性回声推定部17使用表示从受话信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从受话信号提取的频谱包络信息,推定输入信号中包含的非线性回声信号的频谱包络信息。相对于此,实施方式3中的非线性回声推定部使用表示从受话信号提取的频谱包络信息以及从回声消除器的输出信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从受话信号提取的频谱包络信息以及从回声消除器14的输出信号提取的频谱包络信息,推定输入信号中包含的非线性回声信号的频谱包络信息。
图10是示出本公开的实施方式3中的通话装置的结构的图。
图10所示的通话装置具备回声抑制装置1B、输入端子11、扬声器12、麦克风13以及输出端子20。另外,在本实施方式3中,对于与实施方式1相同的结构,标注相同的符号,并省略说明。
回声抑制装置1B具备回声消除器14、频谱包络提取部15、22、非线性回声模型存储部162、非线性回声推定部172、非线性回声抑制部18以及回声抑制器19。
频谱包络提取部22从回声消除器14的输出信号提取频谱包络信息。频谱包络提取部22通过线性预测分析法来从回声消除器14的输出信号提取频谱包络信息。另外,频谱包络提取部22的结构与频谱包络提取部15的结构相同。频谱包络提取部22向非线性回声推定部172输出从回声消除器14的输出信号提取的频谱包络信息。
非线性回声模型存储部162预先存储表示从向扬声器12输出的受话信号提取的频谱包络信息以及从回声消除器的输出信号提取的频谱包络信息、与非线性回声信号的频谱包络信息的关系性的非线性回声模型。非线性回声模型例如是神经网络。
本实施方式3中的非线性回声模型将从受话信号提取的频谱包络信息、从自输入信号中抑制线性回声信号的回声消除器的输出信号提取的频谱包络信息、和从回声消除器的输出信号提取的频谱包络信息用作训练数据,将输入设为从受话信号提取的频谱包络信息以及从回声消除器的输出信号提取的频谱包络信息,将输出设为非线性回声信号的频谱包络信息,从而进行学习。
在实施方式3中的非线性回声模型的学习方法中,向图7所示的非线性回声模型学习部37输入从受话信号提取的频谱包络信息、和从回声消除器34的输出信号提取的频谱包络信息。而且,本实施方式3中的非线性回声模型学习部37将从受话信号提取的频谱包络信息、从自输入信号中抑制线性回声信号的回声消除器34的输出信号提取的频谱包络信息、和从回声消除器34的输出信号提取的频谱包络信息用作训练数据。非线性回声模型学习部37对非线性回声模型进行学习,使得若输入从受话信号提取的频谱包络信息以及从回声消除器34的输出信号提取的频谱包络信息,则输出从回声消除器34的输出信号提取的非线性回声信号的频谱包络信息。
非线性回声推定部172使用表示从受话信号提取的频谱包络信息以及从回声消除器的输出信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从受话信号提取的频谱包络信息以及从回声消除器14的输出信号提取的频谱包络信息,推定输入信号中包含的非线性回声信号的频谱包络信息。
非线性回声推定部172从非线性回声模型存储部162读出非线性回声模型。非线性回声推定部172将从频谱包络提取部15输出的从受话信号提取的频谱包络信息以及从频谱包络提取部22输出的从回声消除器14的输出信号提取的频谱包络信息输入到非线性回声模型,由此从非线性回声模型获取非线性回声信号的频谱包络信息。非线性回声推定部172向非线性回声抑制部18输出使用从受话信号提取的频谱包络信息以及从回声消除器14的输出信号提取的频谱包络信息推定出的非线性回声信号的频谱包络信息。
另外,关于本实施方式3中的回声抑制装置1B的动作,图6所示的步骤S2以及步骤S3的处理不同。即,在本实施方式3中,在步骤S2中,频谱包络提取部15从向扬声器12输出的受话信号提取频谱包络信息,并且频谱包络提取部22从回声消除器14的输出信号提取频谱包络信息。然后,在步骤S3中,非线性回声推定部172使用表示从受话信号提取的频谱包络信息以及从回声消除器14的输出信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从受话信号提取的频谱包络信息以及从回声消除器14的输出信号提取的频谱包络信息,推定非线性回声信号的频谱包络信息。
在本实施方式3中,针对非线性回声模型,输入2个信号(受话信号的频谱包络信息以及回声消除器14的输出信号的频谱包络信息),因而能够进一步提高非线性回声信号的推定精度。
(实施方式4)
上述的实施方式1中的非线性回声推定部17使用表示从受话信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从受话信号提取的频谱包络信息,推定输入信号中包含的非线性回声信号的频谱包络信息。相对于此,实施方式4中的非线性回声推定部使用表示从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息以及从回声消除器的输出信号提取的频谱包络信息、与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息以及从回声消除器14的输出信号提取的频谱包络信息,推定输入信号中包含的非线性回声信号的频谱包络信息。
图11是示出本公开的实施方式4中的通话装置的结构的图。
图11所示的通话装置具备回声抑制装置1C、输入端子11、扬声器12、麦克风13以及输出端子20。另外,在本实施方式4中,对于与实施方式1~3相同的结构,标注相同的符号,并省略说明。
回声抑制装置1C具备回声消除器14、频谱包络提取部15、21、22、非线性回声模型存储部163、非线性回声推定部173、非线性回声抑制部18以及回声抑制器19。
非线性回声模型存储部163预先存储表示从向扬声器12输出的受话信号提取的频谱包络信息、从由麦克风13获取到的输入信号提取的频谱包络信息以及从回声消除器的输出信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型。非线性回声模型例如是神经网络。
本实施方式4中的非线性回声模型将从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息、从自输入信号中抑制线性回声信号的回声消除器的输出信号提取的频谱包络信息、和从回声消除器的输出信号提取的频谱包络信息用作训练数据,将输入设为从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息以及从回声消除器的输出信号提取的频谱包络信息,将输出设为非线性回声信号的频谱包络信息,从而进行学习。
非线性回声推定部173使用表示从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息以及从回声消除器的输出信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息以及从回声消除器14的输出信号提取的频谱包络信息,推定输入信号中包含的非线性回声信号的频谱包络信息。
非线性回声推定部173从非线性回声模型存储部163读出非线性回声模型。非线性回声推定部173将从频谱包络提取部15输出的从受话信号提取的频谱包络信息、从频谱包络提取部21中输出的从输入信号提取的频谱包络信息以及从频谱包络提取部22输出的从回声消除器14的输出信号提取的频谱包络信息,输入非线性回声模型,由此从非线性回声模型获取非线性回声信号的频谱包络信息。非线性回声推定部173向非线性回声抑制部18输出使用从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息以及从回声消除器14的输出信号提取的频谱包络信息推定出的非线性回声信号的频谱包络信息。
另外,关于本实施方式4中的回声抑制装置1C的动作,图6所示的步骤S2以及步骤S3的处理不同。即,在本实施方式4中,在步骤S2中,频谱包络提取部15从向扬声器12输出的受话信号提取频谱包络信息,并且频谱包络提取部21从由麦克风13获取到的输入信号提取频谱包络信息,并且频谱包络提取部22从回声消除器14的输出信号提取频谱包络信息。然后,在步骤S3中,非线性回声推定部172使用表示从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息以及从回声消除器14的输出信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息以及从回声消除器14的输出信号提取的频谱包络信息,推定非线性回声信号的频谱包络信息。
接下来,对本实施方式4中的非线性回声模型的学习方法进行说明。
图12是示出本公开的实施方式4中的学习装置的结构的图。
图12所示的学习装置具备非线性回声模型制作装置2A、输入端子31、扬声器32以及麦克风33。
非线性回声模型制作装置2A具备回声消除器34、频谱包络提取部35、36、39、非线性回声模型学习部371以及非线性回声模型存储部381。
频谱包络提取部39从由麦克风33获取到的输入信号提取频谱包络信息。频谱包络提取部39向非线性回声模型学习部371输出从输入信号提取的频谱包络信息。
在实施方式4中的非线性回声模型的学习方法中,向图12所示的非线性回声模型学习部371,输入从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息、和从回声消除器34的输出信号提取的频谱包络信息。
非线性回声模型学习部371对如下的非线性回声模型进行学习,该非线性回声模型将从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息、和从自输入信号中抑制线性回声信号的回声消除器34的输出信号提取的频谱包络信息用作训练数据,将输入设为从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息以及从回声消除器34的输出信号提取的频谱包络信息,将输出设为非线性回声信号的频谱包络信息。
在本实施方式4中,回声消除器34的输出信号包含从不包含由麦克风33输入的声音信息的输入信号中抑制了线性回声信号后的第1输出信号、和从包含声音信息的输入信号中抑制了线性回声信号后的第2输出信号。
非线性回声模型学习部371将从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息、和从自不包含声音信息的输入信号中抑制线性回声信号的回声消除器34的第1输出信号提取的频谱包络信息用作训练数据。非线性回声模型学习部371对非线性回声模型进行学习,使得若输入由频谱包络提取部36从受话信号提取的频谱包络信息、由频谱包络提取部39从输入信号提取的频谱包络信息、以及由频谱包络提取部35从回声消除器34的第1输出信号提取的频谱包络信息,则输出由频谱包络提取部35从回声消除器34的第1输出信号提取的非线性回声信号的频谱包络信息。
此外,非线性回声模型学习部371将从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息、从自不包含声音信息的输入信号中抑制了线性回声信号后的回声消除器34的第1输出信号提取的频谱包络信息、和从自包含声音信息的输入信号中抑制了线性回声信号后的回声消除器34的第2输出信号提取的频谱包络信息用作训练数据。非线性回声模型学习部371对非线性回声模型进行学习,使得若输入由频谱包络提取部36从受话信号提取的频谱包络信息、由频谱包络提取部39从输入信号提取的频谱包络信息、以及由频谱包络提取部35从回声消除器34的第2输出信号提取的频谱包络信息,则输出由频谱包络提取部35从回声消除器34的第1输出信号提取的非线性回声信号的频谱包络信息。
即,非线性回声模型学习部371对非线性回声模型进行学习,使得若输入从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息、和从自不包含声音信息的输入信号中抑制了线性回声信号后的回声消除器34的第1输出信号提取的频谱包络信息,则输出从回声消除器34的第1输出信号提取的频谱包络信息。进一步地,非线性回声模型学习部371对非线性回声模型进行学习,使得若输入从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息、和从自包含声音信息的输入信号中抑制了线性回声信号后的回声消除器34的第2输出信号提取的频谱包络信息,则输出从回声消除器34的第1输出信号提取的频谱包络信息。
由此,无论由麦克风获取到的输入信号中是否包含声音信息,均能够预测从不包含声音信息的输入信号中抑制了线性回声信号后的回声消除器34的第1输出信号,即均能够预测受话信号的非线性回声分量。
非线性回声模型学习部371将学习后的非线性回声模型存储在非线性回声模型存储部381。
非线性回声模型存储部381存储由非线性回声模型学习部371学习后的非线性回声模型。
另外,图11所示的回声抑制装置1C也可以具备非线性回声模型学习部371。在该情况下,回声抑制装置1C也可以还具备对学习模式和回声抑制模式进行切换的模式切换部。在由模式切换部切换到学习模式的情况下,非线性回声模型学习部371也可以将从受话信号提取的频谱包络信息、从输入信号提取的频谱包络信息、和从回声消除器14的输出信号提取的频谱包络信息用作训练数据,对非线性回声模型进行学习。
在本实施方式4中,向非线性回声模型输入3个信号(受话信号的频谱包络信息、输入信号的频谱包络信息以及回声消除器14的输出信号的频谱包络信息),因而能够进一步提高非线性回声信号的推定精度。
(实施方式5)
上述的实施方式1中的非线性回声推定部17使用表示从受话信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从受话信号提取的频谱包络信息,推定输入信号中包含的非线性回声信号的频谱包络信息。相对于此,实施方式5中的非线性回声推定部使用表示从受话信号提取的频谱包络信息以及从来自回声消除器的自适应滤波器的伪线性回声信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从受话信号提取的频谱包络信息以及从来自回声消除器的自适应滤波器的伪线性回声信号提取的频谱包络信息,推定输入信号中包含的非线性回声信号的频谱包络信息。
图13是示出本公开的实施方式5中的通话装置的结构的图。
图13所示的通话装置具备回声抑制装置1D、输入端子11、扬声器12、麦克风13以及输出端子20。另外,在本实施方式5中,对于与实施方式1相同的结构,标注相同的符号,并省略说明。
回声抑制装置1D具备回声消除器14、频谱包络提取部15、23、非线性回声模型存储部164、非线性回声推定部174、非线性回声抑制部18以及回声抑制器19。
回声消除器14具备自适应滤波器141以及减法运算部142。自适应滤波器141通过对滤波器系数和受话信号进行卷积,生成表示输入信号中包含的受话信号的分量的伪线性回声信号。减法运算部142从输入信号中减去伪线性回声信号。
频谱包络提取部23从来自自适应滤波器141的伪线性回声信号提取频谱包络信息。频谱包络提取部23向非线性回声推定部174输出从伪线性回声信号提取的频谱包络信息。
非线性回声模型存储部164预先存储表示从向扬声器12输出的受话信号提取的频谱包络信息以及从来自回声消除器的自适应滤波器的伪线性回声信号提取的频谱包络信息、与非线性回声信号的频谱包络信息的关系性的非线性回声模型。非线性回声模型例如是神经网络。
本实施方式5中的非线性回声模型将从受话信号提取的频谱包络信息、从来自从输入信号中抑制线性回声信号的回声消除器的自适应滤波器的伪线性回声信号提取的频谱包络信息、和从回声消除器的输出信号提取的频谱包络信息用作训练数据,将输入设为从受话信号提取的频谱包络信息以及从伪线性回声信号提取的频谱包络信息,将输出设为非线性回声信号的频谱包络信息,从而进行学习。
在实施方式5中的非线性回声模型的学习方法中,向图7所示的非线性回声模型学习部37输入从受话信号提取的频谱包络信息、和从来自回声消除器34的自适应滤波器的伪线性回声信号提取的频谱包络信息。然后,本实施方式5中的非线性回声模型学习部37将从受话信号提取的频谱包络信息、从来自回声消除器34的自适应滤波器的伪线性回声信号提取的频谱包络信息、和从回声消除器34的输出信号提取的频谱包络信息用作训练数据。非线性回声模型学习部37对非线性回声模型进行学习,使得若输入从受话信号提取的频谱包络信息以及从伪线性回声信号提取的频谱包络信息,则输出从回声消除器34的输出信号提取的非线性回声信号的频谱包络信息。
非线性回声推定部174使用表示从受话信号提取的频谱包络信息以及从来自自适应滤波器的伪线性回声信号提取的频谱包络信息、与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从受话信号提取的频谱包络信息以及从来自自适应滤波器141的伪线性回声信号提取的频谱包络信息,推定输入信号中包含的非线性回声信号的频谱包络信息。
非线性回声推定部174从非线性回声模型存储部164读出非线性回声模型。非线性回声推定部174将从频谱包络提取部15输出的从受话信号提取的频谱包络信息以及从自频谱包络提取部23输出的伪线性回声信号提取的频谱包络信息输入非线性回声模型,由此从非线性回声模型获取非线性回声信号的频谱包络信息。非线性回声推定部174向非线性回声抑制部18,输出使用从受话信号提取的频谱包络信息以及从伪线性回声信号提取的频谱包络信息推定出的非线性回声信号的频谱包络信息。
另外,关于本实施方式5中的回声抑制装置1D的动作,图6所示的步骤S2以及步骤S3的处理不同。即,在本实施方式5中,在步骤S2中,频谱包络提取部15从向扬声器12输出的受话信号提取频谱包络信息,并且频谱包络提取部23从自回声消除器14的自适应滤波器输出的伪线性回声信号提取频谱包络信息。然后,在步骤S3中,非线性回声推定部174使用表示从受话信号提取的频谱包络信息以及从来自回声消除器14的自适应滤波器的伪线性回声信号提取的频谱包络信息、与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从受话信号提取的频谱包络信息以及从回声消除器14的自适应滤波器141的伪线性回声信号提取的频谱包络信息,推定非线性回声信号的频谱包络信息。
在本实施方式5中,针对非线性回声模型输入2个信号(受话信号的频谱包络信息以及伪线性回声信号的频谱包络信息),因而能够进一步提高非线性回声信号的推定精度。
(实施方式6)
上述的实施方式1中的非线性回声推定部17使用表示从受话信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从受话信号提取的频谱包络信息,推定输入信号中包含的非线性回声信号的频谱包络信息。相对于此,实施方式6中的非线性回声推定部使用表示从输入信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从输入信号提取的频谱包络信息,推定输入信号中包含的非线性回声信号的频谱包络信息。
图14是示出本公开的实施方式6中的通话装置的结构的图。
图14所示的通话装置具备回声抑制装置1E、输入端子11、扬声器12、麦克风13以及输出端子20。另外,在本实施方式6中,对于与实施方式1、2相同的结构,标注相同的符号,并省略说明。
回声抑制装置1E具备回声消除器14、频谱包络提取部21、非线性回声模型存储部165、非线性回声推定部175、非线性回声抑制部18以及回声抑制器19。
本实施方式6中的非线性回声模型存储部165预先存储表示从由麦克风13获取到的输入信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型。非线性回声模型例如是神经网络。
本实施方式6中的非线性回声模型将从输入信号提取的频谱包络信息、和从自输入信号中抑制线性回声信号的回声消除器的输出信号提取的频谱包络信息用作训练数据,将输入设为从输入信号提取的频谱包络信息,将输出设为非线性回声信号的频谱包络信息,从而进行学习。
在实施方式6中的非线性回声模型的学习方法中,向图7所示的非线性回声模型学习部37输入从输入信号提取的频谱包络信息。而且,本实施方式6中的非线性回声模型学习部37将从输入信号提取的频谱包络信息、从自输入信号中抑制线性回声信号的回声消除器34的输出信号提取的频谱包络信息用作训练数据。非线性回声模型学习部37对非线性回声模型进行学习,使得若输入从输入信号提取的频谱包络信息,则输出从回声消除器34的输出信号提取的非线性回声信号的频谱包络信息。
非线性回声推定部175使用表示从输入信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从输入信号提取的频谱包络信息,推定输入信号中包含的非线性回声信号的频谱包络信息。
非线性回声推定部175从非线性回声模型存储部165读出非线性回声模型。非线性回声推定部175通过将从频谱包络提取部21输出的从输入信号提取的频谱包络信息输入到非线性回声模型,从非线性回声模型获取非线性回声信号的频谱包络信息。非线性回声推定部175向非线性回声抑制部18,输出使用从输入信号提取的频谱包络信息推定出的非线性回声信号的频谱包络信息。
另外,关于本实施方式6中的回声抑制装置1E的动作,图6所示的步骤S2以及步骤S3的处理不同。即,在本实施方式6中,在步骤S2中,频谱包络提取部21从由麦克风13获取到的输入信号提取频谱包络信息。然后,在步骤S3中,非线性回声推定部175使用表示从输入信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从输入信号提取的频谱包络信息,推定非线性回声信号的频谱包络信思。
在本实施方式6中,仅用从由麦克风13获取到的输入信号提取的频谱包络信息就能够推定非线性回声信号的频谱包络信息。
(实施方式7)
上述的实施方式1中的非线性回声推定部17使用表示从受话信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从受话信号提取的频谱包络信息,推定输入信号中包含的非线性回声信号的频谱包络信息。相对于此,实施方式7中的非线性回声推定部使用表示从回声消除器的输出信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从回声消除器14的输出信号提取的频谱包络信息,推定输入信号中包含的非线性回声信号的频谱包络信息。
图15是示出本公开的实施方式7中的通话装置的结构的图。
图15所示的通话装置具备回声抑制装置1F、输入端子11、扬声器12、麦克风13以及输出端子20。另外,在本实施方式7中,对于与实施方式1、3相同的结构,标注相同的符号,并省略说明。
回声抑制装置1F具备回声消除器14、频谱包络提取部22、非线性回声模型存储部166、非线性回声推定部176、非线性回声抑制部18以及回声抑制器19。
非线性回声模型存储部166预先存储表示从回声消除器的输出信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型。非线性回声模型例如是神经网络。
本实施方式7中的非线性回声模型将从自输入信号中抑制线性回声信号的回声消除器的输出信号提取的频谱包络信息、和从回声消除器的输出信号提取的频谱包络信息用作训练数据,将输入设为从回声消除器的输出信号提取的频谱包络信息,将输出设为非线性回声信号的频谱包络信息,从而进行学习。
在实施方式7中的非线性回声模型的学习方法中,向图7所示的非线性回声模型学习部37输入从回声消除器34的输出信号提取的频谱包络信息。而且,本实施方式7中的非线性回声模型学习部37将从自输入信号中抑制线性回声信号的回声消除器34的输出信号提取的频谱包络信息、和从回声消除器34的输出信号提取的频谱包络信息用作训练数据。非线性回声模型学习部37对非线性回声模型进行学习,使得若输入从回声消除器34的输出信号提取的频谱包络信息,则输出从回声消除器34的输出信号提取的非线性回声信号的频谱包络信息。
非线性回声推定部176使用表示从回声消除器的输出信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从回声消除器14的输出信号提取的频谱包络信息,推定输入信号中包含的非线性回声信号的频谱包络信息。
非线性回声推定部176从非线性回声模型存储部166读出非线性回声模型。非线性回声推定部176通过将从频谱包络提取部22输出的从回声消除器14的输出信号提取的频谱包络信息输入到非线性回声模型,从非线性回声模型获取非线性回声信号的频谱包络信息。非线性回声推定部176向非线性回声抑制部18,输出使用从回声消除器14的输出信号提取的频谱包络信息推定出的非线性回声信号的频谱包络信息。
另外,关于本实施方式7中的回声抑制装置1F的动作,图6所示的步骤S2以及步骤S3的处理不同。即,在本实施方式7中,在步骤S2中,频谱包络提取部22从回声消除器14的输出信号提取频谱包络信息。然后,在步骤S3中,非线性回声推定部176使用表示从回声消除器14的输出信号提取的频谱包络信息与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从回声消除器14的输出信号提取的频谱包络信息,推定非线性回声信号的频谱包络信息。
在本实施方式7中,仅用从回声消除器14的输出信号提取的频谱包络信息就能够推定非线性回声信号的频谱包络信息。
(实施方式8)
上述的实施方式1中的回声抑制装置1具备回声抑制器19。相对于此,实施方式8中的回声抑制装置不具备回声抑制器19。
图16是示出本公开的实施方式8中的通话装置的结构的图。
图16所示的通话装置具备回声抑制装置1G、输入端子11、扬声器12,麦克风13以及输出端子20。另外,在本实施方式8中,对于与实施方式1相同的结构,标注相同的符号,并省略说明。
回声抑制装置1G具备回声消除器14、频谱包络提取部15、非线性回声模型存储部16、非线性回声推定部17以及非线性回声抑制部18。
实施方式8的回声抑制装置1G与实施方式1的回声抑制装置1的不同点在于不具备回声抑制器19这一点。
非线性回声抑制部18向输出端子20输出仅抑制了非线性回声信号的输入信号。
图17是用于说明本公开的实施方式8中的回声抑制装置1G的动作的流程图。
步骤S11~步骤S14的处理与图6所示的步骤S1~步骤S4的处理相同,因而省略说明。
另外,实施方式2~实施方式7的各回声抑制装置也可以与实施方式8同样不具备回声抑制器19。
另外,在上述各实施方式中,各构成要素可以由专用的硬件构成、或通过执行适于各构成要素的软件程序来实现。各构成要素也可以通过CPU或处理器等程序执行部读取并执行记录在硬盘或半导体存储器等记录介质的软件程序来实现。此外,也可以通过将程序记录在记录介质而进行移送,或将程序经由网络进行移送,由独立的其他计算机系统实施程序。
本公开的实施方式涉及的装置的功能的一部分或全部典型地实现为作为集成电路的LSI(Large Scale Integration)。它们既可以单独地芯片化为1个芯片,也可以包含一部分或全部地芯片化为1个芯片。此外,集成电路化不限于LSI,也可以由专用电路或通用处理器实现。也可以利用能够在LSI制造后编程的FPGA(Field Programmable Gate Array,现场可编程门阵列)、或能够对LSI内部的电路单元的连接、设定进行重构的可重构处理器。
此外,也可以通过CPU等处理器执行程序来实现本公开的实施方式涉及的装置的功能的一部分或全部。
此外,上述中使用的数字均为了具体地说明本公开而例示,本公开不限制于所例示的数字。
此外,执行上述流程图所示的各步骤的顺序是为了具体地说明本公开而例示的顺序,在获得同样的效果的范围内,也可以是上述以外的顺序。此外,上述步骤的一部分也可以与其他步骤同时(并行)执行。
产业上的可利用性
本公开涉及的技术能够稳定地抑制由麦克风获取到的输入信号中包含的非线性回声信号,因而作为抑制由麦克风获取到的输入信号中包含的线性回声信号以及非线性回声信号的技术是有用的。

Claims (14)

1.一种回声抑制装置,具备:
第1线性回声抑制部,通过对由麦克风获取到的输入信号中包含的线性回声信号的振幅分量以及相位分量进行推定,从所述输入信号中抑制线性回声信号;
频谱包络提取部,从向扬声器输出的受话信号、所述输入信号以及所述第1线性回声抑制部的输出信号中的至少1者提取频谱包络信息;
非线性回声推定部,根据从所述受话信号提取的频谱包络信息、从所述输入信号提取的频谱包络信息以及从所述第1线性回声抑制部的输出信号提取的频谱包络信息中的至少1者,推定所述输入信号中包含的所述非线性回声信号的频谱包络信息;和
非线性回声抑制部,使用由所述非线性回声推定部推定出的所述非线性回声信号的频谱包络信息,从所述第1线性回声抑制部的输出信号中抑制所述非线性回声。
2.根据权利要求1所述的回声抑制装置,其中,
所述回声抑制装置还具备:第2线性回声抑制部,通过对未被所述第1线性回声抑制部抑制的残留线性回声信号的振幅分量进行推定,从所述非线性回声抑制部的输出信号中抑制所述残留线性回声信号。
3.根据权利要求1或2所述的回声抑制装置,其中,
所述非线性回声推定部使用表示从所述受话信号提取的频谱包络信息、从所述输入信号提取的频谱包络信息以及从所述第1线性回声抑制部的输出信号提取的频谱包络信息中的至少1者与非线性回声信号的频谱包络信息的关系性的非线性回声模型,根据从所述受话信号提取的频谱包络信息、从所述输入信号提取的频谱包络信息以及从所述第1线性回声抑制部的输出信号提取的频谱包络信息中的至少1者,推定所述输入信号中包含的所述非线性回声信号的频谱包络信息。
4.根据权利要求3所述的回声抑制装置,其中,
所述非线性回声模型将从所述受话信号提取的频谱包络信息、从所述输入信号提取的频谱包络信息以及从所述第1线性回声抑制部的输出信号提取的频谱包络信息中的至少1者、和从自所述输入信号中抑制线性回声信号的所述第1线性回声抑制部的输出信号提取的频谱包络信息用作训练数据,将输入设为从所述受话信号提取的频谱包络信息、从所述输入信号提取的频谱包络信息以及从所述第1线性回声抑制部的输出信号提取的频谱包络信息中的至少1者,将输出设为所述非线性回声信号的频谱包络信息,从而进行学习。
5.根据权利要求3或4所述的回声抑制装置,其中,
所述非线性回声推定部使用表示从所述受话信号提取的频谱包络信息与所述非线性回声信号的频谱包络信息的关系性的所述非线性回声模型,根据从所述受话信号提取的频谱包络信息,推定所述输入信号中包含的所述非线性回声信号的频谱包络信息。
6.根据权利要求3或4所述的回声抑制装置,其中,
所述非线性回声推定部使用表示从所述受话信号提取的频谱包络信息以及从所述输入信号提取的频谱包络信息、与所述非线性回声信号的频谱包络信息的关系性的所述非线性回声模型,根据从所述受话信号提取的频谱包络信息以及从所述输入信号提取的频谱包络信息,推定所述输入信号中包含的所述非线性回声信号的频谱包络信息。
7.根据权利要求3或4所述的回声抑制装置,其中,
所述非线性回声推定部使用表示从所述受话信号提取的频谱包络信息以及从所述第1线性回声抑制部的输出信号提取的频谱包络信息、与所述非线性回声信号的频谱包络信息的关系性的所述非线性回声模型,根据从所述受话信号提取的频谱包络信息以及从所述第1线性回声抑制部的输出信号提取的频谱包络信息,推定所述输入信号中包含的所述非线性回声信号的频谱包络信息。
8.根据权利要求3或4所述的回声抑制装置,其中,
所述非线性回声推定部使用表示从所述受话信号提取的频谱包络信息、从所述输入信号提取的频谱包络信息以及从所述第1线性回声抑制部的输出信号提取的频谱包络信息、与所述非线性回声信号的频谱包络信息的关系性的所述非线性回声模型,根据从所述受话信号提取的频谱包络信息、从所述输入信号提取的频谱包络信息以及从所述第1线性回声抑制部的输出信号提取的频谱包络信息,推定所述输入信号中包含的所述非线性回声信号的频谱包络信息。
9.根据权利要求3或4所述的回声抑制装置,其中,
所述第1线性回声抑制部包括:
自适应滤波器,通过对滤波器系数和所述受话信号进行卷积,生成表示所述输入信号中包含的所述受话信号的分量的伪线性回声信号;和
减法运算部,从所述输入信号中减去所述伪线性回声信号,
所述非线性回声推定部使用表示从所述受话信号提取的频谱包络信息以及从来自所述自适应滤波器的所述伪线性回声信号提取的频谱包络信息、与所述非线性回声信号的频谱包络信息的关系性的所述非线性回声模型,根据从所述受话信号提取的频谱包络信息以及从来自所述自适应滤波器的所述伪线性回声信号提取的频谱包络信息,推定所述输入信号中包含的所述非线性回声信号的频谱包络信息。
10.根据权利要求3或4所述的回声抑制装置,其中,
所述非线性回声推定部使用表示从所述输入信号提取的频谱包络信息与所述非线性回声信号的频谱包络信息的关系性的所述非线性回声模型,根据从所述输入信号提取的频谱包络信息,推定所述输入信号中包含的所述非线性回声信号的频谱包络信息。
11.根据权利要求1~10中的任1项所述的回声抑制装置,其中,
所述频谱包络提取部通过线性预测分析法,从所述受话信号、所述输入信号以及所述第1线性回声抑制部的输出信号中的至少1者提取频谱包络信息。
12.根据权利要求1~10中的任1项所述的回声抑制装置,其中,
所述频谱包络提取部将通过线性预测分析法分析后的所述受话信号、所述输入信号以及所述第1线性回声抑制部的输出信号中的至少1者的线性预测系数变换成偏自相关PARCOR系数,提取由变换后的所述PARCOR系数表示的频谱包络信息。
13.一种回声抑制方法,
第1线性回声抑制部通过对由麦克风获取到的输入信号中包含的线性回声信号的振幅分量以及相位分量进行推定,从所述输入信号中抑制线性回声信号,
频谱包络提取部从向扬声器输出的受话信号、所述输入信号以及所述第1线性回声抑制部的输出信号中的至少1者提取频谱包络信息,
非线性回声推定部根据从所述受话信号提取的频谱包络信息、从所述输入信号提取的频谱包络信息以及从所述第1线性回声抑制部的输出信号提取的频谱包络信息中的至少1者,推定所述输入信号中包含的所述非线性回声信号的频谱包络信息,
非线性回声抑制部使用由所述非线性回声推定部推定出的所述非线性回声信号的频谱包络信息,从所述第1线性回声抑制部的输出信号中抑制所述非线性回声。
14.一种回声抑制程序,使计算机作为以下各部发挥功能:
第1线性回声抑制部,通过对由麦克风获取到的输入信号中包含的线性回声信号的振幅分量以及相位分量进行推定,从所述输入信号中抑制线性回声信号;
频谱包络提取部,从向扬声器输出的受话信号、所述输入信号以及所述第1线性回声抑制部的输出信号中的至少1者提取频谱包络信息;
非线性回声推定部,根据从所述受话信号提取的频谱包络信息、从所述输入信号提取的频谱包络信息以及从所述第1线性回声抑制部的输出信号提取的频谱包络信息中的至少1者,推定所述输入信号中包含的所述非线性回声信号的频谱包络信息;和
非线性回声抑制部,使用由所述非线性回声推定部推定出的所述非线性回声信号的频谱包络信息,从所述第1线性回声抑制部的输出信号中抑制所述非线性回声。
CN202180095316.1A 2021-03-16 2021-11-12 回声抑制装置、回声抑制方法以及回声抑制程序 Pending CN116941186A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2021-042592 2021-03-16
JP2021042592 2021-03-16
PCT/JP2021/041796 WO2022195955A1 (ja) 2021-03-16 2021-11-12 エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム

Publications (1)

Publication Number Publication Date
CN116941186A true CN116941186A (zh) 2023-10-24

Family

ID=83320005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180095316.1A Pending CN116941186A (zh) 2021-03-16 2021-11-12 回声抑制装置、回声抑制方法以及回声抑制程序

Country Status (5)

Country Link
US (1) US20240007789A1 (zh)
EP (1) EP4290778A1 (zh)
JP (1) JPWO2022195955A1 (zh)
CN (1) CN116941186A (zh)
WO (1) WO2022195955A1 (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3724705B2 (ja) * 2000-08-15 2005-12-07 日本電信電話株式会社 反響抑圧方法・反響抑圧装置
US8355511B2 (en) * 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
JP5016581B2 (ja) 2008-10-27 2012-09-05 日本電信電話株式会社 エコー抑圧装置、エコー抑圧方法、エコー抑圧プログラム、記録媒体
WO2015086229A1 (en) * 2013-12-12 2015-06-18 Koninklijke Philips N.V. Echo cancellation
JP6537997B2 (ja) 2016-04-12 2019-07-03 日本電信電話株式会社 エコー抑圧装置、その方法、プログラム、及び記録媒体
WO2019143759A1 (en) * 2018-01-18 2019-07-25 Knowles Electronics, Llc Data driven echo cancellation and suppression

Also Published As

Publication number Publication date
WO2022195955A1 (ja) 2022-09-22
EP4290778A1 (en) 2023-12-13
JPWO2022195955A1 (zh) 2022-09-22
US20240007789A1 (en) 2024-01-04

Similar Documents

Publication Publication Date Title
US11315587B2 (en) Signal processor for signal enhancement and associated methods
EP2987316B1 (en) Echo cancellation
JP4632047B2 (ja) 信号処理方法および装置
WO2020121590A1 (ja) 信号処理装置、信号処理方法、およびプログラム
JP2001175298A (ja) 騒音抑圧装置
US20070286230A1 (en) Echo cancellation for channels with unknown time-varying gain
KR102076760B1 (ko) 다채널 마이크를 이용한 칼만필터 기반의 다채널 입출력 비선형 음향학적 반향 제거 방법
EP2987314B1 (en) Echo suppression
JP2011166484A (ja) 多チャネルエコー消去方法、多チャネルエコー消去装置、多チャネルエコー消去プログラム及びその記録媒体
RU2744518C1 (ru) Устройство голосовой связи, способ голосовой связи и программа
US6895094B1 (en) Adaptive identification method and device, and adaptive echo canceller implementing such method
US8270624B2 (en) Noise cancelling device and method, and noise cancelling program
JP5466581B2 (ja) 反響消去方法、反響消去装置及び反響消去プログラム
EP3829151B1 (en) Echo suppression device, echo suppression method, and echo suppression program
JP2003250193A (ja) 反響消去方法、この方法を実施する装置、プログラムおよびその記録媒体
CN116941186A (zh) 回声抑制装置、回声抑制方法以及回声抑制程序
JP5787126B2 (ja) 信号処理方法、情報処理装置、及び信号処理プログラム
JPWO2022195955A5 (zh)
EP4064726A1 (en) Sound pick-up device, sound pick-up method and sound pick-up program
US20120219162A1 (en) Apparatus and method for reproducing sound, and method for canceling a feedback signal
US20230137830A1 (en) Wideband adaptation of echo path changes in an acoustic echo canceller
JP4209348B2 (ja) エコー抑圧方法、この方法を実施する装置、プログラムおよび記録媒体
JP6356087B2 (ja) エコー消去装置、その方法及びプログラム
JP5086969B2 (ja) エコーキャンセル装置、その方法、そのプログラム、およびその記録媒体
JP2019220917A (ja) エコー消去装置、エコー消去方法、プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination