CN108711433B

CN108711433B - 一种回声消除方法和装置

Info

Publication number: CN108711433B
Application number: CN201810480554.4A
Authority: CN
Inventors: 璁镐腹; 许丹
Original assignee: Goertek Techology Co Ltd
Current assignee: Rongcheng goer Technology Co.,Ltd.
Priority date: 2018-05-18
Filing date: 2018-05-18
Publication date: 2020-08-14
Anticipated expiration: 2038-05-18
Also published as: CN108711433A

Abstract

本发明公开一种回声消除方法和装置。本发明的回声消除方法接收近场语音信号和远场语音信号；获取上一近场语音信号的回声消除中的频域回声延时和时域卷积因子；根据时域卷积因子、频域回声延时和远场语音信号对近场语音信号在时域进行回声消除处理，得到时域的回声消除信号，并基于回声消除信号更新时域卷积因子；获取回声消除信号的频域信号和远场语音信号的频域信号，根据频域的回声消除信号的频域信号和远场语音信号的频域信号获得频域回声延时和抑制因子；根据抑制因子对回声消除信号在频域进行回声消除处理，得到消除回声后的信号。本发明的技术方案采用时域和频域融合的方法保证在较少语音失真的情况下很好的消除回声。

Description

一种回声消除方法和装置

技术领域

本发明涉及一种回声消除方法和装置。

背景技术

以智能音箱为代表的智能家电发展越来越成熟，人们对其功能的要求也越来越高，并要求产品应有较好的用户体验。但由于回声的存在，使得近场语音信号中包含了远场语音，使得用户无法听清楚，导致用户体验感很差。例如，如图1所示，当两个正在谈话时，其中一个人突然有个想法，及时打断了正在侃侃而谈的另一个人，以分享突然而至的想法。同理，智能音箱的智能性也表现在当用户有新的想法时能够及时打断正在说话的智能音箱，使其根据用户的新想法执行相应功能。在这一过程中，打断正在说话的智能音箱，接收用户的新命令这一功能的实现就需要将扬声器发出的语音消除，即回声消除。

目前，最常用的回声消除算法都是在频域处理的，如：WebRTC,Speech等。这些回声消除算法并没有将回声很好的消除，且同时让语音产生了很大的失真，导致用户的语音音箱无法准确地识别。

发明内容

本发明提供了一种回声消除方法和装置，以解决现有技术方案在进行回声消除时，会导致语音失真的问题。

本发明的一个方面提供了一种回声消除方法，包括：

接收近场语音信号和远场语音信号；获取上一近场语音信号的回声消除中频域回声延时和时域卷积因子；根据时域卷积因子、频域回声延时和远场语音信号对近场语音信号在时域进行回声消除处理，得到时域的回声消除信号，并基于回声消除信号更新时域卷积因子，更新后的时域卷积因子用于下一近场语音信号的回声消除；获取回声消除信号的频域信号和远场语音信号的频域信号，根据回声消除信号的频域信号和远场语音信号的频域信号获得频域回声延时和抑制因子；根据抑制因子对回声消除信号的频域信号在频域进行回声消除处理，得到消除回声后的信号。

可选地，接收近场语音信号和远场语音信号，包括：对接收到的远场语音信号按照设定时长分帧处理，并将得到的帧信号按序存储；根据频域回声延时从远场语音信号中选择符合规定的帧信号作为参考帧信号；基于参考帧信号和回声消除信号更新时域卷积因子。

可选地，基于参考帧信号和回声消除信号更新时域卷积因子，包括：根据预设的遗忘因子、误差相关矩阵和参考帧信号计算增益矩阵；采用递推最小二乘法并根据增益系数和回声消除信号更新时域卷积因子。

可选地，根据回声消除信号的频域信号和远场语音信号的频域信号获得频域回声延时和抑制因子，包括：对回声消除信号的频域信号和远场语音信号的频域信号的每个帧信号做频谱匹配，得到目标帧信号，目标帧信号为与近场语音信号频谱相近的帧信号；根据目标帧信号的序号获得频域回声延时；获得目标帧信号与近场语音信号的频域信号之间的相似度，根据相似度获得抑制因子。

可选地，根据相似度获得所述抑制因子，包括：根据相似度、预设的第一阈值和预设的第二阈值获得抑制因子，第一阈值大于第二阈值；其中，当相似度大于所述第一阈值时，抑制因子为0；当相似度小于第二阈值时，抑制因子为1；当相似度小于第一阈值并大于第二阈值时，抑制因子为相似度与第一阈值的差值除以第二阈值与第一阈值的差值的商值。

本发明的另一个方面提供了一种回声消除装置，包括：

接收单元，用于接收近场语音信号和远场语音信号；获取单元，用于获取上一近场语音信号的回声消除中的频域回声延时和时域卷积因子；第一回声消除单元，用于根据时域卷积因子、频域回声延时和远场语音信号对近场语音信号在时域进行回声消除处理，得到时域的回声消除信号，并基于回声消除信号更新时域卷积因子，更新后的时域卷积因子用于下一近场语音信号的回声消除；计算单元，用于获取回声消除信号的频域信号和远场语音信号的频域信号，根据回声消除信号的频域信号和远场语音信号的频域信号获得回声延时和抑制因子；第二回声消除单元，用于根据抑制因子对回声消除信号的频域信号在频域进行回声消除处理，得到消除回声后的信号。

可选地，回声消除装置还包括：存储单元，用于对接收到的远场语音信号按照设定时长分帧处理，并将得到的帧信号按序存储；选择单元，用于根据频域回声延时从远场语音信号中选择符合规定的帧信号作为参考帧信号；第一回声消除单元包括卷积因子更新模块，用于基于参考帧信号和回声消除信号更新时域卷积因子。

可选地，第一计算单元包括：卷积因子更新模块，用于根据预设的遗忘因子、误差相关矩阵和参考帧信号计算增益矩阵；采用递推最小二乘法并根据所述增益系数和回声消除信号更新时域卷积因子。

可选地，计算单元包括：频谱匹配模块，用于对回声消除信号的频域信号和远场语音信号的频域信号的每个帧信号做频谱匹配，得到目标帧信号，目标帧信号为与近场语音信号频谱相近的帧信号；回声延时计算模块，用于根据目标帧信号的序号获得频域回声延时；抑制因子计算模块，用于获得目标帧信号与近场语音信号的频域信号之间的相似度，根据相似度获得抑制因子。

可选地，抑制因子计算模块，用于根据相似度、第一阈值和第二阈值获得抑制因子，第一阈值大于第二阈值；其中，当相似度大于所述第一阈值时，抑制因子为0；当相似度小于第二阈值时，抑制因子为1；当相似度小于第一阈值并大于第二阈值时，抑制因子为相似度与第一阈值的差值除以第二阈值与第一阈值的差值的商值。

本发明的另一个方面提供了一种可读存储介质，存储有可执行指令，可执行指令被处理器执行时以实现前文描述的回声消除方法。。

本发明的有益效果是：本发明基于每帧远场语音信号是平稳的条件，在消除每一近场语音信号的回声时，首先利用上一近场语音信号的回收消除中的频域回声延时和时域卷积因子在时域对当前近场语音信号进行回声消除，使得在时域里将近场语音信号中所需的语音信号无失真的保留，将近场语音信号中的回声予以滤除；然后再在频域基于抑制因子对回声消除信号中包含的回声进行抑制处理，保证在较少语音失真的情况下很好的消除回声，使得以智能音箱为代表的智能产品的用户体验更好，更加智能。

附图说明

图1为本发明实施例示出的回声产生示意图；

图2为本发明实施例示出的回声消除方法流程图；

图3为本发明实施例示出的近场语音信号的回声消除流程图；

图4为本发明实施例示出的语音信号示意图；

图5为本发明实施例示出的远场语音信号示意图；

图6为本发明实施例示出的近场语音信号示意图；

图7为本发明实施例示出的回声消除装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

以下，将参照附图来描述本发明的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本发明。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思，除非上下文另外明确指出。此外，在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。

因此，本发明的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外，本发明的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。在本发明的上下文中，计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；和/或有线/无线通信链路。

时域算法对语音处理失真较少，但是存在计算回声延时困难问题。因此，大部分回声消除算法均是在频域中处理，但是频域处理对语音失真较大。单纯的先通过时域处理后再通过频域处理不仅会增加计算量，且时域处理后的信号再经频域同样会加大语音失真，并不能真正应用到实际中。

本发明基于上述情况，在假设每帧远场语音信号是平稳的情况下，将在频域里计算得到的频域回声延时作为时域中的回声延时，减少时域回声消除的计算量，并采用递推最小二乘法(Recursive Least-square,RLS)在时域进行回声消除，保证所需语音信号不失真的情况下滤除大部分的回声。再在频域中，对仅存在远端信号的情况下进行回声的大幅度抑制，对双端说话和仅有近端信号的情况小幅度抑制回声和不抑制回声，以减少语音的失真。

本发明的一个方面提供了一种回声消除方法。

图2为本发明实施例示出的回声消除方法流程图，如图2所示，本实施例的回声消除方法包括：

S210，接收近场语音信号和远场语音信号。

其中，接收到的近场语音信号和远场语音信号均为时域信号。本实施例回声消除的对象主要是消除近场语音信号中远场语音信号产生的回声，本实施例将接收到的远场语音信号作为参考信号，对近场语音信号进行回声消除。

由于语音信号是时变信号，本实施例可以在接收到远场语音信号后，将远场语音信号分帧处理，每帧长度约为5ms-20ms，例如以10ms为一帧，可认为每帧的语音信号是平稳的。

S220，获取上一近场语音信号的回声消除中的频域回声延时和时域卷积因子。

由于每帧远场语音信号是平稳的，本实施例将上一近场语音信号的回声消除过程中获得的频域回声延时作为本次回声消除过程中时域的回声延时，以在时域对近场语音信号进行首次回声消除。

S230，根据时域卷积因子、频域回声延时和远场语音信号对近场语音信号在时域进行回声消除处理，得到时域的回声消除信号，并基于回声消除信号更新时域卷积因子，更新后的时域卷积因子用于下一近场语音信号的回声消除。

本实施例在开始消除近场语音信号的回声时，初始化频域回声延时和时域卷积因子，利用初始化的频域回声延时和时域卷积因子对本次近场语音信号在时域进行回声消除处理，并基于回声消除信号更新时域卷积因子，将更新后的时域卷积因子用于下一近场语音信号的回声消除。

本实施例采用RLS更新时域卷积因子，以通过时域卷积因子对近场语音信号进行回声消除，使得在时域里将近场语音信号中所需的语音信号无失真的保留，并将近场语音信号中的回声予以滤除。

S240，获取回声消除信号的频域信号和远场语音信号的频域信号，根据回声消除信号的频域信号和远场语音信号的频域信号计算频域回声延时和抑制因子。

本实施例可以利用傅里叶变换(Fourier Transform)或子代滤波(Sub-bandFilter)实现信号从时域到频域的信号转换，例如对时域的回声消除信号做傅里叶变换，得到回声消除信号的频域信号，对时域的远场语音信号做傅里叶变换，得到远场语音信号的频域信号。根据这两个频域信号的频谱匹配程度获得频域回声延时和抑制因子，将获得的频域回声延时作为下一近场语音信号的回声消除处理过程中所需的时域的回声延时。

S250，根据抑制因子对回声消除信号的频域信号在频域进行回声消除处理，得到消除回声后的信号。

本实施例在频域基于抑制因子对回声消除信号的频域信号进行回声消除处理，对近场语音信号包含大量的回声的情况，如仅有远端说话的情景，可以大幅度的抑制回声；对近场语音信号包含较少的回声的情况，如双端说话的情景，可以小幅度的抑制；而对于不会产生回声或产生极少回声的情况，如仅有近端说话的情景，可以不抑制回声，这样高度保证了语音信号，减少信号失真。

本实施例所得到的消除回声后的信号为频域信号，可以利用逆傅里叶变换实现消除回声后的信号从频域到时域的信号转换，得到期望的消除回声后的时域信号。

本实施例基于每帧远场语音信号是平稳的条件，在消除每一近场语音信号的回声时，首先利用上一近场语音信号的回声消除中的频域回声延时和时域卷积因子在时域对当前近场语音信号进行回声消除，使得在时域里将近场语音信号中所需的语音信号无失真的保留，将近场语音信号中的回声予以滤除，同时利用得到的回声消除信号更新时域卷积因子，以用于下一近场语音信号的回声消除；然后再在频域基于抑制因子对回声消除信号中包含的回声进行抑制处理，保证在较少语音失真的情况下很好的消除回声，使得以智能音箱为代表的智能产品的用户体验更好，更加智能。

本实施例在接收到远场语音信号时，对接收到的远场语音信号按照设定时长分帧处理，并将得到的帧信号按序存储，根据频域回声延时从远场语音信号中选择符合规定的帧信号作为参考帧信号，基于参考帧信号和回声消除信号更新时域卷积因子。

根据本发明的实施例，以10ms为帧长对远场语音信号分帧，由于每帧远场语音信号可以认为是平稳的，因此可以将上一近场语音信号的回声消除中获得到的频域回声延时作为本次近场语音信号的回声消除中时域的回声延时，利用得到的时域回声延时确定参考帧信号并对近场语音信号进行时域回声消除，得到时域的回声消除信号，以更新时域卷积因子。

假设上一近场语音信号的回声消除中获得的频域回声延时为30ms，该频域回声延时对应3个帧长，则可以从存储的远场语音帧信号序列中选择第四帧远场语音信号作为参考帧信号，再根据预设的遗忘因子、误差相关矩阵和参考帧信号计算增益矩阵，采用RLS并根据增益系数和回声消除信号更新时域卷积因子。

本实施例在基于频域回声延时在时域对近场语音进行回声消除处理之后，根据下述方法在频域分情况的对回声消除信号做二次回声消除处理：

对回声消除信号的频域信号和远场语音信号的频域信号的每个帧信号做频谱匹配，得到目标帧信号，目标帧信号为与近场信号频谱相近的帧信号，如目标帧信号为与近场信号频谱最相近的帧信号；根据目标帧信号的序号获得频域回声延时，例如每帧信号的帧长为10ms，目标帧信号的序号为第三帧信号，则频域回声延时为30ms。

获得目标帧信号与近场语音信号的频域信号之间的相似度，根据相似度、预设第一阈值和预设第二阈值获得抑制因子，第一阈值大于第二阈值；其中，

当相似度大于第一阈值时，抑制因子为0；

当相似度小于第二阈值时，抑制因子为1；

当相似度小于第一阈值并大于第二阈值时，抑制因子为相似度与第一阈值的差值除以第二阈值与第一阈值的差值的商值。

在得到抑制因子之后，将回声消除信号的频域信号与抑制因子的乘积作为消除回声后的信号，再对该信号进行逆傅里叶变换后，即可得到期望的回声消除后的时域信号。

本发明为详细说明对近场语音信号的回声消除处理，下面通过具体实施例进行具体说明。

图3为本发明实施例示出的近场语音信号的回声消除流程图，如图3所示，本实施例对近场语音信号的回声消除处理过程如下：

S301，将接收到的远场语音信号进行分帧按序存储。

本实施例按照设定时长对远场语音信号far分帧处理，如以10ms为设定时长对远场语音信号far进行分帧处理，每帧信号的帧长为10ms，将每帧按序存储，本实施例可以利用时域容器S存储远场语音信号的帧信号，每帧信号存在一个存储块中，每个存储块可以存储64个数据长度。

S302，在时域对近场语音信号进行回声消除处理。

由于每帧远场语音信号的帧长较短，且音箱等智能产品的结构稳定，回声延迟的时间不会出现突变，因此，可以将上一近场语音信号的回声消除处理过程中得到的频域回声延时作为本次近场语音信号的回声消除处理过程中所需的时域的回声延时。

本实施例根据公式echo(n)＝near(n)-far_refer(n)*h(n)在时域对近场语音信号进行回声消除处理，公式中的n为采样时刻，echo(n)为时域的回声消除信号，near(n)为时域的近场语音信号，为far_refer(n)为参考帧信号，h(n)为时域卷积因子。

上述公式中的参考帧信号为基于频域回声延时从远场语音帧信号序列中获得。假设上一次近场语音信号的回声消除处理过程中得到的频域回声延时为30ms，每帧远场语音信号的帧长为10ms，则选择远场语音帧信号序列中的第四帧信号为参考帧信号。

本实施例中频域回声延时的初始值为0，相应的参考帧信号为远场语音帧信号序列中的第一帧信号；时域卷积因子h(n)的初始值为N*1维零向量，N为滤波器的阶数。

S303，采用RLS并基于回声消除信号更新时域卷积因子。

本实施例根据预设的遗忘因子、误差相关矩阵和参考帧信号计算增益矩阵，采用RLS并根据增益系数和回声消除信号更新时域卷积因子。

根据本发明的实施例，根据公式

更新误差相关矩阵p(n)，根据公式

更新增益矩阵k(n)，根据公式h(n+1)＝h(n)+k(n)e(n)更新时域卷积因子h(n)。

上述公式中，p(n)和p(n-1)分别为当前近场语音信号的回声消除中的误差相关矩阵和上一近场语音信号的回声消除中的误差相关矩阵，k(n)为当前近场语音信号的回声消除中的增益矩阵，h(n+1)为下一近场语音信号的回声消除中的时域卷积因子，μ为遗忘因子，一般设置为

S304，将回声消除信号和远场语音信号转换为频域信号并存储。

本实施例可以对回声消除信号和远场语音信号分别做傅里叶变换，得到回声消除信号的频域信号和远场语音信号的频域信号，利用频域容器P存储远场语音信号的频域信号的帧信号，每帧信号存在一个存储块中，每个存储块可以存储64个数据长度。

S305，获得目标帧信号，计算频域回声延时、回声消除信号与目标帧信号的相似度。

对回声消除信号的频域信号和远场语音信号的频域信号的每个帧信号做频谱匹配，得到目标帧信号，本实施例的目标帧信号为与近场语音信号频谱最相近的帧信号。根据目标帧信号的序号获得频域回声延时。若每帧远场语音信号的帧长为10ms，目标帧信号的序号为第三帧信号，则频域的回声延时为30ms。本实施例可以根据现有方法计算回声消除信号与目标帧信号的相似度，对此本实施例不做描述。

S306，计算抑制因子，并基于抑制因子在频域对回声消除信号进行回声消除处理。

图4为本发明实施例示出的语音信号示意图，图5为本发明实施例示出的远场语音信号示意图，图6为本发明实施例示出的近场语音信号示意图，其中，图6示出的近场语音信号包含回声。

如图4-6所示，根据两组信号频谱相似度设置抑制因子，如果相似度达到第一阈值T1，参考图6示出的区间[1，1.5]的近场语音信号，并对比参考图4和图5示出的信号，可以认为仅有远场语音信号far产生的回声echo，此时将抑制因子的数值设为接近零的数。如果相似度低于第二阈值T2，参考图6示出的区间[0，0.5]的近场语音信号，并对比参考图4和图5示出的信号，可以认为仅有近场语音信号near，此时将抑制因子的数值设为接近1的数。当相似度介于两者之间时，参考图6示出的区间[0.5，1]的近场语音信号，并对比参考图4和图5示出的信号，认为此时同时存在远场语音信号和近场语音信号(对应的场景为双端说话的场景)，根据相似度M设置抑制因子计算函数。

本实施例根据公式

计算抑制因子，公式中的M为相似度，T1为第一阈值，T2为第二阈值，G(n)为抑制因子。

根据公式Y(n)＝e(n)·G(n)得到消除回声后的频域信号Y(n)，通过对频域信号Y(n)进行逆傅里叶变换，得到期望的回声消除后的时域信号。

本发明实施例通过上述描述的方法对近场语音信号进行回声消除后，用户可以很好的听清近场语音而不受回声干扰。在智能音箱为代表的智能产品中，可以很好实现打断功能，增加产品的智能感和用户的体验感。

本发明的另一个方面提供了一种回声消除装置。

图7为本发明实施例示出的回声消除装置的结构示意图，如图7所示，本实施例的装置包括：

接收单元71，用于接收近场语音信号和远场语音信号；

获取单元72，用于获取上一近场语音信号的回声消除中的频域回声延时和时域卷积因子；

第一回声消除单元73，用于根据时域卷积因子、频域回声延时和远场语音信号对近场语音信号在时域进行回声消除处理，得到时域的回声消除信号，并基于回声消除信号更新时域卷积因子，更新后的时域卷积因子用于下一近场语音信号的回声消除；

计算单元74，用于获取回声消除信号的频域信号和远场语音信号的频域信号，根据回声消除信号的频域信号和远场语音信号的频域信号获得频域回声延时和抑制因子；

第二回声消除单元75，用于根据抑制因子对回声消除信号的频域信号在频域进行回声消除处理，得到消除回声后的信号。

本实施例的回声消除装置还包括：

存储单元，用于对接收到的远场语音信号按照设定时长分帧处理，并将得到的帧信号按序存储；

选择单元，用于根据频域回声延时从远场语音信号中选择符合规定的帧信号作为参考帧信号；

第一回声消除单元包括卷积因子更新模块，用于基于参考帧信号和回声消除信号更新时域卷积因子。

其中，卷积因子更新模块用于根据预设的遗忘因子、误差相关矩阵和参考帧信号计算增益矩阵；采用递推最小二乘法并根据增益系数和回声消除信号更新时域卷积因子。

本实施例的计算单元74包括：

频谱匹配模块，用于对回声消除信号的频域信号和远场语音信号的频域信号的每个帧信号做频谱匹配，得到目标帧信号，目标帧信号为与近场语音信号频谱相近的帧信号；

回声延时计算模块，用于根据目标帧信号的序号获得频域回声延时；

抑制因子计算模块，用于获得目标帧信号与近场语音信号的频域信号之间的相似度，根据相似度获得抑制因子。

其中，抑制因子计算模块，用于根据相似度、第一阈值和第二阈值获得抑制因子，第一阈值大于第二阈值；其中，

当所述相似度大于第一阈值时，抑制因子为0；

当所述相似度小于第二阈值时，抑制因子为1；

本发明装置实施例的各单元的具体工作方式可以参见本发明的方法实施例。

本发明的另一个方面提供了一种可读存储介质。

根据本发明实施例，本发明实施例的可读存储介质，存储有可执行指令，可执行指令被处理器执行时以实现前文描述的回声消除方法。

需要说明的是，本发明实施例的可读存储介质，例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；和/或有线/无线通信链路。

可读存储介质可以包括计算机程序，该计算机程序可以包括代码/计算机可执行指令，其在由处理器执行时使得处理器执行例如前文所描述的回声消除方法流程及其任何变形。

计算机程序可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序中的代码可以包括一个或多个程序模块。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器执行时，使得处理器可以执行例如上文所描述的回声消除方法流程及其任何变形。

本发明实施例提供的回声消除方法和装置，至少具有如下优势：

1、采用时域和频域融合的方法，先利用上一近场语音信号的回收消除中得到的频域回声延时和时域卷积因子在时域对当前近场语音信号进行回声消除，使得在时域里将近场语音信号中所需的语音信号无失真的保留，将近场语音信号中的回声予以滤除；然后再在频域基于抑制因子对回声消除信号中包含的回声进行抑制处理，保证在较少语音失真的情况下很好的消除回声，使得以智能音箱为代表的智能产品的用户体验更好，更加智能。

2、基于远场语音帧信号为平稳信号的条件，采用时域和频域融合方法，将频域中获得的频域回声信号的延时作为时域回声信号的延时，既减少了计算量，又统一时域和频域关于回声延时的计算，使得计算结果更准确。

3、在时域采用RLS算法，通过RLS算法可以在时域里将近场语音信号中所需语音信号无失真的保留，将近场语音信号中的回声予以滤除；在频域中采用回声抑制算法对近场语音信号做回声消除处理，针对仅有远端说话的情景，大幅度抑制回声，对双端说话时，小幅度的抑制，仅有近端说话时不抑制回声，以减少语音信号的失真。

为了便于清楚描述本发明实施例的技术方案，在发明的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分，本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。

以上所述，仅为本发明的具体实施方式，在本发明的上述教导下，本领域技术人员可以在上述实施例的基础上进行其他的改进或变形。本领域技术人员应该明白，上述的具体描述只是更好的解释本发明的目的，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种回声消除方法，包括：

接收近场语音信号和远场语音信号；

获取上一近场语音信号的回声消除中的频域回声延时和时域卷积因子；

根据所述时域卷积因子以及参考帧信号对所述近场语音信号在时域进行回声消除处理，得到时域的回声消除信号，并基于所述回声消除信号更新时域卷积因子，更新后的时域卷积因子用于下一近场语音信号的回声消除；所述参考帧信号是根据所述频域回声延时从所述远场语音信号中选择的符合规定的帧信号；

获取所述回声消除信号的频域信号和所述远场语音信号的频域信号，根据所述回声消除信号的频域信号和所述远场语音信号的频域信号获得频域回声延时和抑制因子，根据所述回声消除信号的频域信号和所述远场语音信号的频域信号获得的频域回声延时用于下一近场语音信号的回声消除；

根据所述抑制因子对所述回声消除信号的频域信号在频域进行回声消除处理，得到消除回声后的信号。

2.根据权利要求1所述的方法，其特征在于，所述接收近场语音信号和远场语音信号，包括：

对接收到的所述远场语音信号按照设定时长分帧处理，并将得到的帧信号按序存储；

基于所述参考帧信号和所述回声消除信号更新时域卷积因子。

3.根据权利要求2所述的方法，其特征在于，所述基于所述参考帧信号和所述回声消除信号更新时域卷积因子，包括：

根据预设的遗忘因子、误差相关矩阵和参考帧信号计算增益矩阵；

采用递推最小二乘法并根据增益系数和所述回声消除信号更新所述时域卷积因子。

4.根据权利要求2所述的方法，其特征在于，所述根据所述回声消除信号的频域信号和所述远场语音信号的频域信号获得频域回声延时和抑制因子，包括：

对所述回声消除信号的频域信号和所述远场语音信号的频域信号的每个帧信号做频谱匹配，得到目标帧信号，所述目标帧信号为与近场语音信号频谱相近的帧信号；

根据所述目标帧信号的序号获得所述频域回声延时；

获得所述目标帧信号与所述近场语音信号的频域信号之间的相似度，根据所述相似度获得所述抑制因子。

5.根据权利要求4所述的方法，其特征在于，所述根据所述相似度获得所述抑制因子，包括：

根据所述相似度、预设的第一阈值和预设的第二阈值获得所述抑制因子，第一阈值大于第二阈值；其中，

当所述相似度大于所述第一阈值时，所述抑制因子为0；

当所述相似度小于所述第二阈值时，所述抑制因子为1；

当所述相似度小于所述第一阈值并大于所述第二阈值时，所述抑制因子为相似度与第一阈值的差值除以第二阈值与第一阈值的差值的商值。

6.一种回声消除装置，包括：

接收单元，用于接收近场语音信号和远场语音信号；

获取单元，用于获取上一近场语音信号的回声消除中的频域回声延时和时域卷积因子；

第一回声消除单元，用于根据所述时域卷积因子以及参考帧信号对所述近场语音信号在时域进行回声消除处理，得到时域的回声消除信号，并基于所述回声消除信号更新时域卷积因子，更新后的时域卷积因子用于下一近场语音信号的回声消除；所述参考帧信号是根据所述频域回声延时从所述远场语音信号中选择的符合规定的帧信号；

计算单元，用于获取所述回声消除信号的频域信号和所述远场语音信号的频域信号，根据所述回声消除信号的频域信号和所述远场语音信号的频域信号获得频域回声延时和抑制因子；

第二回声消除单元，用于根据所述抑制因子对所述回声消除信号的频域信号在频域进行回声消除处理，得到消除回声后的信号。

7.根据权利要求6所述的装置，其特征在于，还包括：

存储单元，用于对接收到的所述远场语音信号按照设定时长分帧处理，并将得到的帧信号按序存储；

第一回声消除单元包括卷积因子更新模块，用于基于所述参考帧信号和所述回声消除信号更新时域卷积因子。

8.根据权利要求7所述的装置，其特征在于，所述计算单元包括：

卷积因子更新模块，用于根据预设的遗忘因子、误差相关矩阵和参考帧信号计算增益矩阵；采用递推最小二乘法并根据增益系数和所述回声消除信号更新所述时域卷积因子。

9.根据权利要求7所述的装置，其特征在于，所述计算单元包括：

频谱匹配模块，用于对所述回声消除信号的频域信号和所述远场语音信号的频域信号的每个帧信号做频谱匹配，得到目标帧信号，所述目标帧信号为与近场语音信号频谱相近的帧信号；

回声延时计算模块，用于根据所述目标帧信号的序号获得所述频域回声延时；

抑制因子计算模块，用于获得所述目标帧信号与所述近场语音信号的频域信号之间的相似度，根据所述相似度获得所述抑制因子。

10.根据权利要求9所述的装置，其特征在于，所述抑制因子计算模块，用于根据所述相似度、第一阈值和第二阈值获得所述抑制因子，第一阈值大于第二阈值；其中，

当所述相似度大于所述第一阈值时，所述抑制因子为0；

当所述相似度小于所述第二阈值时，所述抑制因子为1；