CN114171043A

CN114171043A - 回声的确定方法、装置、设备以及存储介质

Info

Publication number: CN114171043A
Application number: CN202111480836.2A
Authority: CN
Inventors: 许楠; 邹赛赛; 陈立
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-03-11
Anticipated expiration: 2041-12-06
Also published as: EP4138076A2; EP4138076A3; CN114171043B; US20230096150A1

Abstract

本公开提供了回声的确定方法、装置、设备以及存储介质，涉及计算机技术领域，尤其涉及人工智能、语音技术等领域。具体实现方案为：对原始音频信号进行回声估计，得到回声估计结果；对回声估计结果进行优化处理，得到优化处理结果，优化处理包括幅值维度优化处理、相位维度优化处理和时域维度优化处理中的至少一种；利用优化处理结果对原始音频信号进行回声确定。通过对回声估计结果进行多维度的优化处理，可以提高回声确定的准确性。

Description

回声的确定方法、装置、设备以及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及人工智能、语音技术等领域，特别涉及一种回声的确定方法、装置、设备以及存储介质。

背景技术

在通信系统中，当麦克风和扬声器耦合时，麦克风就会获取扬声器的声音，进而产生回声。这种声学回声的存在，对后续的语音唤醒、识别等任务都会造成很大的影响。相关技术在进行非线性的回声确定时，会存在回声确定不完整的缺陷。

发明内容

本公开提供了一种回声的确定方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种回声的确定方法，该方法可以包括以下步骤：

对原始音频信号进行回声估计，得到回声估计结果；

对回声估计结果进行优化处理，得到优化处理结果，优化处理包括幅值维度优化处理、相位维度优化处理和时域维度优化处理中的至少一种；

利用优化处理结果对原始音频信号进行回声确定。

根据本公开的另一方面，提供了一种回声的确定装置，该装置可以包括：

回声估计模块，用于对原始音频信号进行回声估计，得到回声估计结果；

优化处理模块，用于对回声估计结果进行优化处理，得到优化处理结果，优化处理包括幅值维度优化处理、相位维度优化处理和时域维度优化处理中的至少一种；

回声确定模块，用于利用优化处理结果对原始音频信号进行回声确定。根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本公开任一实施例中的方法。

根据本公开的技术在确定出回声估计结果的情况下，对该回声估计结果进行多维度的优化处理。有效地优化了在回声消除算法中不能充分挖掘幅值和相位信息的问题。并且通过时域维度的优化，使得回声消除效果更佳。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开回声的确定方法的流程图；

图2是根据本公开得到回声估计结果的流程图之一；

图3是根据本公开得到回声估计结果的流程图之二；

图4是根据本公开得到回声估计结果所采用的网络结构示意图；

图5是根据本公开利用特征进行N轮次特征融合处理的流程图；

图6是根据本公开对回声估计结果进行优化处理的流程图之一；

图7是根据本公开对回声估计结果进行优化处理的流程图之二；

图8是根据本公开回声的确定装置的示意图；

图9是用来实现本公开实施例的回声的确定方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

如图1所示，本公开涉及一种回声的确定方法，该方法可以包括以下步骤：

S101：对原始音频信号进行回声估计，得到回声估计结果；

S102：对回声估计结果进行优化处理，得到优化处理结果，优化处理包括幅值维度优化处理、相位维度优化处理和时域维度优化处理中的至少一种；

S103：利用优化处理结果对原始音频信号进行回声确定。

本公开的上述方法可以应用于音频处理场景，例如可以是音(视)频会议场景、语音唤醒场景等。上述方法的执行主体可以包括(有屏)智能音箱、智能手机或平板电脑等终端。

原始音频信号可以是存在有回声噪音的音频信号。对原始音频信号进行回声估计可以利用神经网络模型实现。例如，该神经网络模型可以包括理想比值掩膜模型(IRM，Ideal Ratio Mask)、复数理想比率掩蔽(cIRM，Complex Ideal Ratio Mask)等。上述神经网络模型的网络结构一般分为深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(LSTM)等。或者，也可以采用混合网络结构，例如上述任意二种网络结构的结合。

在当前实施方式中，神经网络模型可以是回声消除技术所对应的神经网络模型，该模型可以对原始音频信号进行回声识别，输出的结果为回声估计结果。回声估计结果的形式为掩膜(mask)，掩膜具体可以包括M_r、M_i，分别对应实部和虚部。

回声消除技术所对应的神经网络模型可以是预先训练的，该神经网络的输入可以包括经过原始音频信号的短时傅里叶变换处理结果；或者该神经网络的输入可以包括经过原始音频信号的短时傅里叶变换处理结果，以及该原始音频信号的幅值特征。

在得到回声估计结果后，可以进一步对回声估计结果进行修正，以提高回声估计结果的准确性。在当前实施方式中，可以从幅值维度、相位维度和时域维度中的至少一种，对回声估计结果进行修正，以得到优化处理结果。不难理解，修正的维度越多，修正的精度越高。

修正方式可以利用不同维度对应的修正模型进行。不同维度对应的修正模型可以是预先训练的，从而可以根据修正模型确定出对于回声估计结果的优化处理结果。优化处理结果仍然可以是掩膜形式。

在一个附加的实施方式中，利用该掩膜与原始音频信号进行复数相乘，即可得到分离回声后的音频信号。

通过上述过程，在确定出回声估计结果的情况下，对该回声估计结果进行多维度的优化处理。有效地优化了在回声消除算法中不能充分挖掘幅值和相位信息的问题。并且通过时域维度的优化，使得回声消除效果更佳。

如图2所示，在一种实施方式中，步骤S101可以包括以下步骤：

S201：对原始音频信号进行预处理，得到预处理结果，预处理结果包括原始音频信号的短时傅里叶变换处理结果和原始音频信号的幅值特征中的至少一种；

S202：利用预处理结果，得到回声估计结果。

对原始音频信号进行预处理可以包括对原始信号进行短时傅里叶变换处理，得到短时傅里叶变换处理结果。另外，对原始音频信号进行预处理还可以包括提取原始音频信号的幅值特征。

利用预处理结果，得到回声估计结果，可以是将预处理结果输入至预先训练的回声估计模型以得到回声估计结果，即掩膜估计，该掩膜具体可以包括M_r、M_i，分别对应实部和虚部。

对应的，对于回声消除技术所对应的神经网络模型的训练可以利用输入样本和标注结果进行。即，回声消除技术所对应的神经网络模型根据输入样本可以得到回声估计结果的预测值。利用该预测值与标注结果的差异对回声消除技术所对应的神经网络模型进行训练，直至差异符合预定要求。

通过上述过程，预先训练的回声估计模型可以有效处理非线性的原始音频信号。

如图3所示，在一种实施方式中，步骤S202可以包括以下步骤：

S301：提取预处理结果的特征；

S302：利用特征进行N轮次特征融合处理，得到回声估计结果，N为正整数。

图4所示为在当前实施方式中的网络结构。如前述实施方式中所示例，在预处理结果同时包括原始音频信号的短时傅里叶变换处理结果和原始音频信号的幅值特征的情况下，可以分别提取预处理结果的特征。特征提取方式可以包括利用常规卷积操作进行。图4中以Y表征原始音频信号的短时傅里叶变换处理结果，以|Y|表征原始音频信号的幅值特征，以conv表征常规卷积操作。

在提取预处理结果的特征后，利用预处理结果的特征进行多轮次的特征融合处理，最终输出回声估计结果。图4中以“DPconv”表征特征融合处理过程。

其中，轮次数量的确定可以根据实际情况进行调整，例如在达到N轮次的情况下，将第N轮次的结果作为最终结果。或者，轮次数量可以根据对输出结果的精度要求进行确定，精度越高则轮次越多。具体的轮次数量的确定方式在此不进行限定。

通过特征融合，可以得到回声估计结果，即掩膜估计。

如图5所示，在一种实施方式中，步骤S302可以包括以下步骤：

S501：对特征进行深度可分离卷积处理，得到第一处理结果；

S502：对第一处理结果进行归一化处理，得到第一归一化处理结果；

S503：对第一归一化处理结果进行逐点卷积处理，得到第二处理结果；

S504：对第二处理结果进行归一化处理，得到第二归一化处理结果；

S505：在第二归一化处理结果满足预定条件的情况下，将第二归一化处理结果作为回声估计结果；反之，将第二归一化处理结果作为特征，进行深度可分离卷积处理。

若当前轮次为第1轮次，则该轮次的输入为预处理结果的特征。反之若当前轮次为第i轮次，i为正整数，且1＜i≤N，则该轮次的输入为第i-1轮次的输出。

仍然结合图4所示，以任一轮次为示例说明，将该轮次的输入简化描述为特征。

可以对特征进行深度可分离卷积(DepthSeparate)处理，以得到第一处理结果。图4中以“group-conv3*3”表征深度可分离卷积处理。

对第一处理结果进行归一化处理，得到第一归一化处理结果。图4中以“bn”(BatchNormalization)表征归一化处理。归一化的作用在于，可以将深度可分离卷积中的每个节点的输出进行归一化，从而最大限度的保证特征分辨率。

对第一归一化处理结果进行逐点卷积(PointWise)处理，以得到第二处理结果。图4中以“conv1*1”表征逐点卷积。

最后，第二处理结果进行归一化处理，得到第二归一化处理结果。此归一化过程与前述过程相同，不再赘述。在第二归一化处理结果满足预定条件的情况下，例如前述轮次数量达到对应阈值，或者第二归一化处理结果满足精度要求等。可以将第二归一化处理结果作为该轮次的输出。反之，在第二归一化处理结果不满足预定条件的情况下，可以将当前轮次(i)输出的第二归一化处理结果作为下一轮次(i+1)的输入值。

通过设置上述网络结构，由于整个网络中并未设置降采样的操作，可以将网络的参数量控制在200KB以内，方便部署在前述智能音箱、智能手机以及平板电脑等设备中。

在一种实施方式中，步骤S102可以包括以下步骤：

将回声估计结果输入至预先训练的幅值优化模型，得到第一调整值；第一调整值用于在幅值维度对回声估计结果进行调整；

幅值优化模型是利用带回声语音信号样本的幅值和去除回声的语音信号样本的幅值训练得到的，去除回声的语音信号样本是通过对带回声语音信号的样本进行回声去除后得到的样本。

幅值优化模型可以抽象为损失函数模型。在对损失函数模型进行训练时，可以遵循以下公式(1)。

L_irm＝mse(|M|,|S|/|Y|)——(1)

L_irm可以用于表示损失函数，即对应幅值维度优化处理；mse可以用于表示均方误差；|M|可以用于表示解析带回声语音信号样本得到的回声估计结果对应的幅值样本，

|S|可以用于表示去除回声的语音信号样本的幅值，|Y|可以用于表示带回声语音信号样本的幅值。

在训练过程中，计算去除回声的语音信号样本的幅值与带回声语音信号样本的幅值的比值。根据幅值样本和计算得到的比值之间的均方误差训练L_irm。当训练结果收敛时表示训练结束。

由此，当将回声估计结果输入至预先训练的幅值优化模型，可以得到第一调整值。第一调整值用于对回声估计结果进行调整。

通过上述过程，可以从幅值维度对回声估计结果进行幅值维度的调整。

在一种实施方式中，步骤S102可以包括以下步骤：

将回声估计结果输入至预先训练的第一相位优化模型，得到第二调整值；第二调整值用于在相位维度对回声估计结果进行调整；

第一相位优化模型是利用复数域理想比值掩膜训练得到的，复数域理想比值掩膜是利用带回声语音信号样本和去除回声的语音信号样本确定的，去除回声的语音信号样本是通过对带回声语音信号的样本进行回声去除后得到的样本。

第一相位优化模型可以抽象为损失函数模型。在对损失函数模型进行训练时，可以遵循以下公式(2)。

L_cirm＝mse(M_r,T_r)+mse(M_i,T_i)——(2)

L_cirm可以用于表示损失函数，即对应相位维度优化处理；mse可以用于表示均方误差；M_r、M_i可以分别用于表示解析带回声语音信号样本得到的回声估计结果对应的复数域理想比值掩膜的实部样本和虚部样本；T_r、T_i可以分别用于复数域理想比值掩膜的实部真值和虚部真值。该实部真值和虚部真值可以是预先标注的。

训练过程中，可以分别利用实部样本和实部真值之间的均方误差，以及虚部样本和虚部真值之间的均方误差训练L_cirm。当训练结果收敛时表示训练结束。

通过上述过程，当将回声估计结果输入至第一相位优化模型，可以得到第二调整值。第二调整值用于对回声估计结果进行相位维度的调整。

在一种实施方式中，步骤S102还可以包括以下步骤：

将回声估计结果输入至预先训练的第二相位优化模型，得到第三调整值；第三调整值用于在相位维度对回声估计结果进行调整；

第二相位优化模型是利用相位角训练得到的，相位角是利用带回声语音信号的样本和去除回声的语音信号样本确定的，去除回声的语音信号样本是通过对带回声语音信号的样本进行回声去除后得到的样本。

第二相位优化模型可以抽象为损失函数模型。在对损失函数模型进行训练时，可以遵循以下公式(3)。

其中，L_sp可以用于表示损失函数，即对应相位维度优化处理；r可以用于表示平衡参数(经验值)；

可以用于表示去除回声的语音信号样本的幅值(|S|)与带回声语音信号样本的幅值(|Y|)的比值；θ(t,f)可以用于表示利用带回声语音信号样本解析得到的回声估计结果所求的相位角样本，t和f可以分别对应表示带回声语音信号样本在时域的取值和在频域的取值；θ’(t’,f’)可以用于表示相位角的真值，t’和f’可以分别对应表示带回声语音信号样本在时域的取值真值和在频域的取值真值；上述真值可以是预先标定的。

由于相位角的范围是[-π，π]，因此其正弦值的最大值为1。在训练过程中，利用求得的相位角和相位角真值之间的差异对损失函数模型训练，当训练结果收敛时表示训练结束。

另外，在一种实施方式中，可以利用公式(4)对公式(2)和公式(3)所表示的损失函数模型进行联动训练。

L_cirm-sp＝L_cirm+L_sp——(4)

即，公式(4)也可以抽象为一个损失函数，可以利用L_cirm-sp对应整体的相位维度优化处理。当公式(4)的损失函数收敛时，表示公式(2)和公式(3)的联动训练结束。

通过上述方案，可以利用公式(2)所对应的复数域理想比值掩膜进行部分相位特征的学习，其次利用公式(3)所对应的相位角进行剩余部分的相位特征的学习。上述方式可以充分挖掘出原始音频信号的相位特征，从而可以对回声估计结果进行相位维度的调整。

如图6所示，在一种实施方式中，步骤S202可以包括以下步骤：

S601：利用回声估计结果对原始音频信号进行回声提取，得到回声提取结果；

S602：将回声提取结果进行信号处理，转换为时域波形；

S603：将时域波形输入至预先训练的时域优化模型，得到第四调整值；第四调整值用于在时域维度对回声估计结果进行调整；

时域优化模型是利用带回声语音信号样本，以及去除回声的语音信号样本确定的时域波形训练得到的，去除回声的语音信号样本是通过对带回声语音信号的样本进行回声去除后得到的样本。

利用回声估计结果与原始音频信号进行复数相乘，即可得到分离回声后的音频信号。

对分离回声后的音频信号进行逆傅里叶变换，可以将音频信号由频域转换至时域，即，得到时域波形。

将时域波形输入至时域优化模型，可以得到第四调整值。

时域优化模型可以抽象为一个损失函数模型，在对该损失函数模型进行训练时，可以利用带回声语音信号样本和去除回声的语音信号样本的时域波形进行。例如，解析出带回声语音信号样本的回声提取结果，将其转换为时域波形，作为时域波形样本。将时域波形样本去除回声的语音信号样本的时域波形进行差异比对，以对损失函数模型进行训练，当训练结果收敛时表示训练结束。

通过上述过程，利用回声估计结果得到回声提取结果的时域波形，将回声提取结果的时域波形输入至时域优化模型，可以得到第四调整值。第四调整值用于对回声估计结果进行时域维度的调整。

如图7所示，在一种实施方式中，在优化处理同时包括幅值维度优化处理、相位维度优化处理和时域维度优化处理的情况下，还包括以下步骤：

S701：对幅值维度优化处理、相位维度优化处理和时域维度优化处理分配权重；

S702：利用权重，分别确定各优化处理所对应的调整值的调整结果；

S703：根据调整结果，得到优化处理结果。

权重分配可以基于经验值进行，或者根据实际情况进行。示例性地，幅值维度优化处理、相位维度优化处理和时域维度优化处理的权重可以分别表示为ε、α、ζ。

对于各优化处理的调整值可以根据公式(5)进行，结合前述公式(1)至公式(4)，公式(5)可以表示为：

L＝εL_irm+αL_cirm-sp+ζL_t+βL_si-snr——(5)

式中L_t可以用于表示时域维度优化处理，β可以用于表示权重，L_si-snr可以用于表示基于尺度不变的信噪比损失函数。利用L_si-snr以及权重值，可以同时对第一至第四调整值进行整体优化以得到对应的调整结果。根据调整结果，得到优化处理结果。

通过上述过程，在同时包括多个优化处理的情况下，可以同时对多个优化处理的结果进行整体优化，从而实现最终的优化目的。

如图8所示，本公开涉及一种回声的确定装置，该装置可以包括：

回声估计模块801，用于对原始音频信号进行回声估计，得到回声估计结果；

优化处理模块802，用于对回声估计结果进行优化处理，得到优化处理结果，优化处理包括幅值维度优化处理、相位维度优化处理和时域维度优化处理中的至少一种；

回声确定模块803，用于利用优化处理结果对原始音频信号进行回声确定。

在一种实施方式中，回声估计模块801可以具体包括：

预处理子模块，用于对原始音频信号进行预处理，得到预处理结果，预处理结果包括原始音频信号的短时傅里叶变换处理结果和原始音频信号的幅值特征中的至少一种；

回声估计结果确定子模块，用于利用预处理结果，得到回声估计结果。

在一种实施方式中，回声估计结果确定子模块可以具体包括：

特征提取单元，用于提取预处理结果的特征；

回声估计结果确定单元，用于利用特征进行N轮次特征融合处理，得到回声估计结果，N为正整数。

在一种实施方式中，回声估计结果确定单元可以具体包括：

深度可分离卷积处理子单元，用于对特征进行深度可分离卷积处理，得到第一处理结果；

第一归一化处理子单元，用于对第一处理结果进行归一化处理，得到第一归一化处理结果；

逐点卷积处理子单元，用于对第一归一化处理结果进行逐点卷积处理，得到第二处理结果；

第二归一化处理子单元，用于对第二处理结果进行归一化处理，得到第二归一化处理结果；

结果判断子单元，用于在第二归一化处理结果满足预定条件的情况下，将第二归一化处理结果作为回声估计结果；反之，将第二归一化处理结果作为特征，进行深度可分离卷积处理。

在一种实施方式中，优化处理模块802可以具体包括：

幅值优化子模块，用于将回声估计结果输入至预先训练的幅值优化模型，得到第一调整值；第一调整值用于在幅值维度对回声估计结果进行调整；

幅值优化模型训练子模块，用于利用带回声语音信号样本的幅值和去除回声的语音信号样本的幅值训练得到幅值优化模型，去除回声的语音信号样本是通过对带回声语音信号的样本进行回声去除后得到的样本。

在一种实施方式中，优化处理模块802可以具体包括：

第一相位优化子模块，用于将回声估计结果输入至预先训练的第一相位优化模型，得到第二调整值；

第一相位优化模型训练子模块，用于利用复数域理想比值掩膜训练得到第一相位优化模型，复数域理想比值掩膜是利用带回声语音信号样本和去除回声的语音信号样本确定的，去除回声的语音信号样本是通过对带回声语音信号的样本进行回声去除后得到的样本。

在一种实施方式中，优化处理模块802还可以包括：

第二相位优化子模块，用于将回声估计结果输入至预先训练的第二相位优化模型，得到第三调整值；

第二相位优化模型训练子模块，用于利用相位角训练得到第二相位优化模型，相位角是利用带回声语音信号的样本和去除回声的语音信号样本确定的，去除回声的语音信号样本是通过对带回声语音信号的样本进行回声去除后得到的样本。

在一种实施方式中，优化处理模块802可以包括：

回声提取子模块，用于利用回声估计结果对原始音频信号进行回声提取，得到回声提取结果；

信号处理子模块，用于将回声提取结果进行信号处理，转换为时域波形；

时域优化子模块，用于将时域波形输入至预先训练的时域优化模型，得到第四调整值；

时域优化模型训练模块，用于利用带回声语音信号样本，以及去除回声的语音信号样本确定的时域波形训练得到时域优化模型，去除回声的语音信号样本是通过对带回声语音信号的样本进行回声去除后得到的样本。

在一种实施方式中，在优化处理同时包括幅值维度优化处理、相位维度优化处理和时域维度优化处理的情况下，优化处理模块802还可以包括：

权重分配子模块，用于对幅值维度优化处理、相位维度优化处理和时域维度优化处理分配权重；

调整值优化子模块，用于利用权重，分别确定各优化处理所对应的调整值的调整结果；

优化处理结果确定子模块，用于根据调整结果，得到优化处理结果。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元910，其可以根据存储在只读存储器(ROM)920中的计算机程序或者从存储单元980加载到随机访问存储器(RAM)930中的计算机程序，来执行各种适当的动作和处理。在RAM 930中，还可存储设备900操作所需的各种程序和数据。计算单元910、ROM 920以及RAM 930通过总线940彼此相连。输入/输出(I/O)接口950也连接至总线940。

设备900中的多个部件连接至I/O接口950，包括：输入单元960，例如键盘、鼠标等；输出单元970，例如各种类型的显示器、扬声器等；存储单元980，例如磁盘、光盘等；以及通信单元990，例如网卡、调制解调器、无线通信收发机等。通信单元990允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元910可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元910的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元910执行上文所描述的各个方法和处理，例如回声的确定方法。例如，在一些实施例中，回声的确定方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元980。在一些实施例中，计算机程序的部分或者全部可以经由ROM 920和/或通信单元990而被载入和/或安装到设备900上。当计算机程序加载到RAM 930并由计算单元910执行时，可以执行上文描述的回声的确定方法的一个或多个步骤。备选地，在其他实施例中，计算单元910可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行回声的确定方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种回声的确定方法，包括：

对原始音频信号进行回声估计，得到回声估计结果；

对所述回声估计结果进行优化处理，得到优化处理结果，所述优化处理包括幅值维度优化处理、相位维度优化处理和时域维度优化处理中的至少一种；

利用所述优化处理结果对所述原始音频信号进行回声确定。

2.根据权利要求1所述的方法，其中，所述对原始音频信号进行回声估计，得到回声估计结果，包括：

对所述原始音频信号进行预处理，得到预处理结果，所述预处理结果包括所述原始音频信号的短时傅里叶变换处理结果和所述原始音频信号的幅值特征中的至少一种；

利用所述预处理结果，得到所述回声估计结果。

3.根据权利要求2所述的方法，所述利用所述预处理结果，得到所述回声估计结果，包括：

提取所述预处理结果的特征；

利用所述特征进行N轮次特征融合处理，得到所述回声估计结果，所述N为正整数。

4.根据权利要求3所述的方法，其中，所述利用所述特征进行N轮次特征融合处理，得到所述回声估计结果，包括：

对所述特征进行深度可分离卷积处理，得到第一处理结果；

对所述第一处理结果进行归一化处理，得到第一归一化处理结果；

对所述第一归一化处理结果进行逐点卷积处理，得到第二处理结果；

对所述第二处理结果进行归一化处理，得到第二归一化处理结果；

在所述第二归一化处理结果满足预定条件的情况下，将所述第二归一化处理结果作为所述回声估计结果；反之，将所述第二归一化处理结果作为所述特征，进行深度可分离卷积处理。

5.根据权利要求1所述的方法，其中，所述对所述回声估计结果进行优化处理，包括：

将所述回声估计结果输入至预先训练的幅值优化模型，得到第一调整值；所述第一调整值用于在幅值维度对所述回声估计结果进行调整；

所述幅值优化模型是利用带回声语音信号样本的幅值和去除回声的语音信号样本的幅值训练得到的，所述去除回声的语音信号样本是通过对所述带回声语音信号的样本进行回声去除后得到的样本。

6.根据权利要求1所述的方法，其中，所述对所述回声估计结果进行优化处理，包括：

将所述回声估计结果输入至预先训练的第一相位优化模型，得到第二调整值；所述第二调整值用于在相位维度对所述回声估计结果进行调整；

所述第一相位优化模型是利用复数域理想比值掩膜训练得到的，所述复数域理想比值掩膜是利用带回声语音信号样本和去除回声的语音信号样本确定的，所述去除回声的语音信号样本是通过对所述带回声语音信号的样本进行回声去除后得到的样本。

7.根据权利要求6所述的方法，其中，所述对所述回声估计结果进行优化处理，还包括：

将所述回声估计结果输入至预先训练的第二相位优化模型，得到第三调整值；所述第三调整值用于在相位维度对所述回声估计结果进行调整；

所述第二相位优化模型是利用相位角训练得到的，所述相位角是利用带回声语音信号的样本和去除回声的语音信号样本确定的，所述去除回声的语音信号样本是通过对所述带回声语音信号的样本进行回声去除后得到的样本。

8.根据权利要求1所述的方法，其中，所述对所述回声估计结果进行优化处理，包括：

利用所述回声估计结果对所述原始音频信号进行回声提取，得到回声提取结果；

将所述回声提取结果进行信号处理，转换为时域波形；

将所述时域波形输入至预先训练的时域优化模型，得到第四调整值；所述第四调整值用于在时域维度对所述回声估计结果进行调整；

所述时域优化模型是利用带回声语音信号样本，以及去除回声的语音信号样本确定的时域波形训练得到的，所述去除回声的语音信号样本是通过对所述带回声语音信号的样本进行回声去除后得到的样本。

9.根据权利要求5至8任一所述的方法，在所述优化处理同时包括幅值维度优化处理、相位维度优化处理和时域维度优化处理的情况下，所述对所述回声估计结果进行优化处理，还包括：

对所述幅值维度优化处理、所述相位维度优化处理和所述时域维度优化处理分配权重；

利用所述权重，分别确定各优化处理所对应的调整值的调整结果；

根据所述调整结果，得到所述优化处理结果。

10.一种回声的确定装置，包括：

优化处理模块，用于对所述回声估计结果进行优化处理，得到优化处理结果，所述优化处理包括幅值维度优化处理、相位维度优化处理和时域维度优化处理中的至少一种；

回声确定模块，用于利用所述优化处理结果对所述原始音频信号进行回声确定。

11.根据权利要求10所述的装置，其中，所述回声估计模块，包括：

预处理子模块，用于对所述原始音频信号进行预处理，得到预处理结果，所述预处理结果包括所述原始音频信号的短时傅里叶变换处理结果和所述原始音频信号的幅值特征中的至少一种；

回声估计结果确定子模块，用于利用所述预处理结果，得到所述回声估计结果。

12.根据权利要求11所述的装置，其中，所述回声估计结果确定子模块，包括：

特征提取单元，用于提取所述预处理结果的特征；

回声估计结果确定单元，用于利用所述特征进行N轮次特征融合处理，得到所述回声估计结果，所述N为正整数。

13.根据权利要求12所述的装置，其中，所述回声估计结果确定单元，包括：

深度可分离卷积处理子单元，用于对所述特征进行深度可分离卷积处理，得到第一处理结果；

第一归一化处理子单元，用于对所述第一处理结果进行归一化处理，得到第一归一化处理结果；

逐点卷积处理子单元，用于对所述第一归一化处理结果进行逐点卷积处理，得到第二处理结果；

第二归一化处理子单元，用于对所述第二处理结果进行归一化处理，得到第二归一化处理结果；

结果判断子单元，用于在所述第二归一化处理结果满足预定条件的情况下，将所述第二归一化处理结果作为所述回声估计结果；反之，将所述第二归一化处理结果作为所述特征，进行深度可分离卷积处理。

14.根据权利要求10所述的装置，其中，所述优化处理模块，包括：

幅值优化子模块，用于将所述回声估计结果输入至预先训练的幅值优化模型，得到第一调整值；所述第一调整值用于在幅值维度对所述回声估计结果进行调整；

幅值优化模型训练子模块，用于利用带回声语音信号样本的幅值和去除回声的语音信号样本的幅值训练得到所述幅值优化模型，所述去除回声的语音信号样本是通过对所述带回声语音信号的样本进行回声去除后得到的样本。

15.根据权利要求10所述的装置，其中，所述优化处理模块，包括：

第一相位优化子模块，用于将所述回声估计结果输入至预先训练的第一相位优化模型，得到第二调整值；

第一相位优化模型训练子模块，用于利用复数域理想比值掩膜训练得到所述第一相位优化模型，所述复数域理想比值掩膜是利用带回声语音信号样本和去除回声的语音信号样本确定的，所述去除回声的语音信号样本是通过对所述带回声语音信号的样本进行回声去除后得到的样本。

16.根据权利要求15所述的装置，其中，所述优化处理模块，还包括：

第二相位优化子模块，用于将所述回声估计结果输入至预先训练的第二相位优化模型，得到第三调整值；

第二相位优化模型训练子模块，用于利用相位角训练得到所述第二相位优化模型，所述相位角是利用带回声语音信号的样本和去除回声的语音信号样本确定的，所述去除回声的语音信号样本是通过对所述带回声语音信号的样本进行回声去除后得到的样本。

17.根据权利要求10所述的装置，其中，所述优化处理模块，包括：

回声提取子模块，用于利用所述回声估计结果对所述原始音频信号进行回声提取，得到回声提取结果；

信号处理子模块，用于将所述回声提取结果进行信号处理，转换为时域波形；

时域优化子模块，用于将所述时域波形输入至预先训练的时域优化模型，得到第四调整值；

时域优化模型训练模块，用于利用带回声语音信号样本，以及去除回声的语音信号样本确定的时域波形训练得到所述时域优化模型，所述去除回声的语音信号样本是通过对所述带回声语音信号的样本进行回声去除后得到的样本。

18.根据权利要求14至17任一所述的装置，其中，在所述优化处理同时包括幅值维度优化处理、相位维度优化处理和时域维度优化处理的情况下，所述优化处理模块，还包括：

权重分配子模块，用于对所述幅值维度优化处理、所述相位维度优化处理和所述时域维度优化处理分配权重；

调整值优化子模块，用于利用所述权重，分别确定各优化处理所对应的调整值的调整结果；

优化处理结果确定子模块，用于根据所述调整结果，得到所述优化处理结果。

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至9中任一项所述的方法。

21.一种计算机程序产品，包括计算机程序/指令，其中，该计算机程序/指令被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。