CN117198313A

CN117198313A - 侧音消除方法、装置、电子设备、存储介质

Info

Publication number: CN117198313A
Application number: CN202311042890.8A
Authority: CN
Inventors: 刘柏华; 林三朝
Original assignee: Zhuhai Freeview Science & Technology Co ltd
Current assignee: Zhuhai Freeview Science & Technology Co ltd
Priority date: 2023-08-17
Filing date: 2023-08-17
Publication date: 2023-12-08

Abstract

本发明提出了一种侧音消除方法、装置、电子设备、存储介质，该方法包括对接收语音数据和发送语音数据进行采样得到初始接收语音采样数据和初始发送语音采样数据；对初始接收语音采样数据和初始发送语音采样数据预处理得到接收语音归一化数据和发送语音归一化数据；根据相关性得到目标侧音在接收语音归一化数据的起始时间位置；根据起始时间位置进行波形对齐；根据差值谱优化函数对第一幅度谱差值进行计算得到第二幅度谱差值，第一幅度谱差值为发送语音归一化数据的幅度谱和接收语音归一化数据的幅度谱的差值；根据预设好的波形重构函数对第二幅度谱差值进行计算得到消除侧音后的目标语音数据。从而降低消侧音的成本。

Description

侧音消除方法、装置、电子设备、存储介质

技术领域

本发明涉及侧音消除技术领域，特别涉及一种侧音消除方法、装置、电子设备、存储介质。

背景技术

在语音通讯领域，尤其是电话通话中，音频的发送和接收信号共用一条传输线，发送信号也作用于自身的接收电路，如果不加处理，己方的受话器就会播出自己的声音，这就是侧音。侧音较大时，通话的进行将大受影响。因此，在实际通话过程中，需要从接收到的声音中消除本方的侧音。目前广泛采用硬件对侧音进行消除，例如变量器消侧音、电桥平衡消侧音、相位抵消消侧音等消侧音电路，但是构建硬件消侧音电路需要一定的成本，在使用的时候也需要消耗大量的功耗，导致消侧音的成本较高。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种侧音消除方法、装置、电子设备、存储介质，能够降低消侧音的成本。

第一方面，本发明实施例提供了一种侧音消除方法，包括：

根据预设的采样频率对接收语音数据进行采样得到初始接收语音采样数据；根据所述采样频率对发送语音数据进行采样得到初始发送语音采样数据；

对所述初始接收语音采样数据进行预处理得到接收语音归一化数据，对所述初始发送语音采样数据进行所述预处理得到发送语音归一化数据，所述预处理包括直流分量去除和归一化处理；

根据所述接收语音归一化数据与所述发送语音归一化数据的相关性得到所述发送语音归一化数据的目标侧音在所述接收语音归一化数据的起始时间位置；

根据所述起始时间位置将所述接收语音归一化数据和所述发送语音归一化数据在时间维度上进行波形对齐；

根据预设好的差值谱优化函数对第一幅度谱差值进行计算得到第二幅度谱差值，其中所述差值谱优化函数包括幅度截断子函数、平滑滤波子函数和振幅调整子函数，所述第一幅度谱差值为进行波形对齐处理后的所述发送语音归一化数据的幅度谱和所述接收语音归一化数据的幅度谱的差值；

根据预设好的波形重构函数对所述第二幅度谱差值进行计算得到消除侧音后的目标语音数据，所述波形重构函数包括重构频域数据子函数和逆短时傅里叶变换子函数。

在本发明的一些实施例中，所述对所述初始接收语音采样数据进行预处理得到接收语音归一化数据，对所述初始发送语音采样数据进行所述预处理得到发送语音归一化数据，包括：

通过直流分量去除算法对所述初始接收语音采样数据进行直流分量去除处理得到临时接收数据，通过直流分量去除算法对所述初始发送语音采样数据进行直流分量去除处理得到临时发送数据；

通过归一化算法对所述临时接收数据进行归一化处理得到接收语音归一化数据，通过归一化算法对所述临时发送数据进行归一化处理得到发送语音归一化数据；

其中，得到所述临时接收数据的公式为：

得到所述临时发送数据的公式为：

x'(n)为所述临时接收数据，y'(n)为临时发送数据，x(n)为所述初始接收语音采样数据，y(n)为所述初始发送语音采样数据，n为采样点序号，N为采样总数，/>为所述初始接收语音采样数据的平均值，/>为所述初始发送语音采样数据的平均值；

得到所述接收语音归一化数据的计算公式为：

x”(n)为所述接收语音归一化数据，n为采样点序号，x'(n)为所述临时接收数据，min(x'(n))为各个采样点对应的所述临时接收数据中的最小值，max(x'(n))为各个采样点对应的所述临时接收数据中的最大值；

得到所述发送语音归一化数据的计算公式为：

y”(n)为所述发送语音归一化数据，n为采样点序号，y'(n)为所述临时发送数据，min(y'(n))为各个采样点对应的所述临时发送数据中的最小值，max(y'(n))为各个采样点对应的所述临时发送数据中的最大值。

在本发明的一些实施例中，所述接收语音归一化数据与所述发送语音归一化数据的相关性的计算公式为：

其中，R(m)为所述接收语音归一化数据与所述发送语音归一化数据的互相关系数，N为采样点总数，x_j为第j个所述接收语音归一化数据，为所述接收语音归一化数据的平均值，/>为所述发送语音归一化数据的平均值，/>为所述接收语音归一化数据的方差，/>为所述发送语音归一化数据的方差。

在本发明的一些实施例中，所述根据所述接收语音归一化数据与所述发送语音归一化数据的相关性得到所述发送语音归一化数据的目标侧音在所述接收语音归一化数据的起始时间位置，包括：

获取所述接收语音归一化数据与所述发送语音归一化数据的所述互相关系数中的互相关系数最大值；

根据所述互相关系数最大值对应的采样点序号确定所述发送语音归一化数据的侧音在所述接收语音归一化数据的起始时间位置。

在本发明的一些实施例中，所述第一幅度谱差值的获取方法，包括：

通过汉明窗函数分别对进行波形对齐处理后的所述发送语音归一化数据和所述接收语音归一化数据进行分帧；

对分帧后的所述接收语音归一化数据进行短时傅里叶变换得到频域接收语音采样数据，对分帧后的所述发送语音归一化数据进行短时傅里叶变换得到频域发送语音采样数据；

通过计算所述频域接收语音采样数据的幅度谱和所述频域发送语音采样数据的幅度谱之间的差值，得到第一幅度谱差值；

其中，汉明窗函数的公式为：

ω(n)为汉明窗，N₁是窗函数的长度；

对所述接收语音归一化数据进行分帧的公式为：x”'(n)＝x”(n)*ω(n)；

对所述发送语音归一化数据进行分帧的公式为：y”'(n)＝y”(n)*ω(n)；

x”'(n)为分帧后的所述接收语音归一化数据，y”'(n)为分帧后的所述接收语音归一化数据，x”(n)为所述接收语音归一化数据，y”(n)为所述发送语音归一化数据，n为采样点序号；

得到所述频域接收语音采样数据的计算公式为：

得到所述频域发送语音采样数据的计算公式为：

X(k)为所述频域接收语音采样数据，N为采样总数，x”'(n)为分帧后的所述接收语音归一化数据，i为虚数单位，k为频率索引，n为采样序号；Y(k)为所述频域接收语音采样数据，y”'(n)为分帧后的所述接收语音归一化数据。

在本发明的一些实施例中，所述根据预设好的差值谱优化函数对第一幅度谱差值进行计算得到第二幅度谱差值，包括：

通过所述幅度截断子函数获取每个频率分量对应的所述第一幅度谱差值，依次从所述频率分量中选取一个所述频率分量确定为目标频率分量，将所述目标频率分量对应的所述第一幅度谱差值与预设的差值谱阈值进行对比，直到得到以每个所述频率分量作为所述目标频率分量的幅度谱子增益；

当所述目标频率分量对应的所述第一幅度谱差值小于所述差值谱阈值，则将所述目标频率分量对应的所述幅度谱子增益设置为0；

当所述频率分量对应的所述第一幅度谱差值大于或等于所述差值谱阈值，则将所述目标频率分量对应的所述幅度谱子增益设置为所述目标频率分量对应的所述第一幅度谱差值；

将所有所述幅度谱子增益确定为所述幅度谱增益；

通过所述平滑滤波子函数对所述幅度谱增益进行平滑处理得到平滑幅度谱差值；

通过所述振幅调整子函数对所述平滑幅度谱差值进行振幅调整得到第二幅度谱差值；

其中，得到所述幅度谱增益的计算公式为：

G'(k)为第k个频率分量的所述幅度谱增益，k为频率分量，G(k)为第k个频率分量的所述第一幅度谱差值，T为预设的所述差值谱阈值；

得到所述平滑幅度谱差值的计算公式为：

G”(k)为所述平滑幅度谱差值，G'(k)为所述幅度谱增益，N₂为平滑滤波器的长度，M＝(N₂-1)/2，k为频率分量；

得到所述第二幅度谱差值的计算公式为：G_adj(k)＝αG”(k)，

G_adj(k)为第二幅度谱差值，α为调整因子，G”(k)为所述平滑幅度谱差值。

在本发明的一些实施例中，所述根据预设好的波形重构函数对所述第二幅度谱差值进行计算得到消除侧音后的目标语音数据，包括：

通过所述重构频域数据子函数对分帧后的所述接收语音归一化数据和所述第二幅度谱差值进行计算得到频域数据；

通过所述逆短时傅里叶变换子函数对所述频域数据进行逆短时傅里叶变换得到时域重构数据；

对所述时域重构数据进行数模转换得到所述目标语音数据；

其中，得到所述频域数据的计算公式为：

P(k)为所述频域数据，k为频率分量，G_adj(k)为第二幅度谱差值，为分帧后的所述接收语音归一化数据进行短时傅里叶变换得到的相位谱，i表示虚数单位。

得到所述时域重构数据的计算公式为：

s(t)为所述时域重构数据，N为样本总数，k为频率分量，P(k)为所述频域数据，i表示虚数单位，t为频域转换为时域后的时间。

第二方面，本发明实施例提供了一种侧音消除装置，包括少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如上述第一方面所述的侧音消除方法。

第三方面，本发明实施例提供了一种电子设备，包括有如上述第二方面所述的侧音消除装置。

第四方面，本发明实施例提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如上述第一方面所述的侧音消除方法。

根据本发明实施例的侧音消除方法，至少具有如下有益效果：先对接收语音数据和发送语音数据进行采样，然后对采样后的数据进行直流分量去除和归一化处理，以确保后续处理的准确性。然后获取目标侧音在接收语音归一化数据的起始时间位置，然后根据所述起始时间位置将所述接收语音归一化数据和所述发送语音归一化数据在时间维度上进行波形对齐，因为侧音的产生在时间上必定迟于原始发送语音，为达到消除侧音的目的，需要找到目标侧音在接收语音归一化数据中的起始位置，对接收语音归一化数据进行波形对齐，使得后续在该位置上对接收语音归一化数据进行处理。根据进行对齐处理后的所述发送语音归一化数据的幅度谱和所述接收语音归一化数据的幅度谱的差值得到第一幅度谱差值，根据预设好的差值谱优化函数对第一幅度谱差值进行计算得到第二幅度谱差值，其中所述差值谱优化函数包括幅度截断子函数、平滑滤波子函数和振幅调整子函数，从而对幅度谱差值进行优化，根据预设好的波形重构函数对所述第二幅度谱差值进行计算得到消除侧音后的目标语音数据，所述波形重构函数包括重构频域数据子函数和逆短时傅里叶变换子函数。利用软件实现了对侧音的消除，相对于硬件消侧音电路来说，降低功耗和成本，并具有更高的灵活性。

附图说明

图1为本发明实施例提供的一种侧音消除方法的流程图；

图2是本发明另一个实施例提供的预处理的流程图；

图3是本发明另一个实施例提供的得到侧音在接收语音归一化数据的起始时间位置的流程图；

图4是本发明另一个实施例提供的第一幅度谱差值的获取方法的流程图；

图5是本发明另一个实施例提供的第二幅度谱差值的获取方法的流程图；

图6是本发明另一个实施例提供的获得目标语音数据的流程图；

图7是本发明另一个实施例提供的侧音信号的延时示意图；

图8是本发明一个实施例提供的侧音消除装置的结构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

本发明实施例提供了一种方法、装置、电子设备、存储介质，先对接收语音数据和发送语音数据进行采样，然后对采样后的数据进行直流分量去除和归一化处理，以确保后续处理的准确性。然后获取目标侧音在接收语音归一化数据的起始时间位置，然后根据起始时间位置将接收语音归一化数据和发送语音归一化数据在时间维度上进行波形对齐，因为侧音的产生在时间上必定迟于原始发送语音，为达到消除侧音的目的，需要找到目标侧音在接收语音归一化数据中的起始位置，对接收语音归一化数据进行波形对齐，使得后续在该位置上对接收语音归一化数据进行处理。根据进行对齐处理后的发送语音归一化数据的幅度谱和接收语音归一化数据的幅度谱的差值得到第一幅度谱差值，根据预设好的差值谱优化函数对第一幅度谱差值进行计算得到第二幅度谱差值，其中差值谱优化函数包括幅度截断子函数、平滑滤波子函数和振幅调整子函数，从而对幅度谱差值进行优化，根据预设好的波形重构函数对第二幅度谱差值进行计算得到消除侧音后的目标语音数据，波形重构函数包括重构频域数据子函数和逆短时傅里叶变换子函数。利用软件实现了对侧音的消除，相对于硬件消侧音电路来说，降低功耗和成本，并具有更高的灵活性。

下面基于附图，对本发明实施例的控制方法作进一步阐述。

参照图1，图1为本发明实施例提供的一种侧音消除方法的流程图，该侧音消除方法包括但不限于有以下步骤：

步骤S110，根据预设的采样频率对接收语音数据进行采样得到初始接收语音采样数据；根据采样频率对发送语音数据进行采样得到初始发送语音采样数据；

步骤S120，对初始接收语音采样数据进行预处理得到接收语音归一化数据，对初始发送语音采样数据进行预处理得到发送语音归一化数据，预处理包括直流分量去除和归一化处理；

步骤S130，根据接收语音归一化数据与发送语音归一化数据的相关性得到发送语音归一化数据的目标侧音在接收语音归一化数据的起始时间位置；

步骤S140，根据起始时间位置将接收语音归一化数据和发送语音归一化数据在时间维度上进行波形对齐；

步骤S150，根据预设好的差值谱优化函数对第一幅度谱差值进行计算得到第二幅度谱差值，其中差值谱优化函数包括幅度截断子函数、平滑滤波子函数和振幅调整子函数，第一幅度谱差值为进行波形对齐处理后的发送语音归一化数据的幅度谱和接收语音归一化数据的幅度谱的差值；

步骤S160，根据预设好的波形重构函数对第二幅度谱差值进行计算得到消除侧音后的目标语音数据，波形重构函数包括重构频域数据子函数和逆短时傅里叶变换子函数。

需要说明的是，接收语音数据即为电话通话过程中，用户从听筒接收到的语音信号数据，发送语音数据即为电话通话过程中，用户从话筒输入的语音信号数据，侧音即为发送语音信号经过通信线路传送会给用户的语音信号数据。因为需要将发送语音数据作为参考信号数据，实现在接收语音数据中消除侧音，因此对他们进行采样的时候，采样频率需要相同。示例性地，采样频率为8k，那么1ms是8个采样点。对接收语音数据进行采样得到初始接收语音采样数据，对发送语音数据进行采样得到初始发送语音采样数据。能理解的是，初始接收语音采样数据和初始发送语音采样数据都为采样序列的表现形式。

需要说明的是，对初始接收语音采样数据和初始发送语音采样数据进行去除直流分量和归一化处理，使得他们的幅度范围在0到1之间，确保后续处理的准确性。

需要说明的是，由侧音的产生原因可知，侧音的产生在时间上必定迟于原始发送语音，为达到消除侧音的目的，必须找到发送语音数据产生的侧音在接收语音数据对应波形的起始位置，波形对齐就是在接收语音数据对应的波形中找到发送语音数据对应的波形的起始位置。

需要说明的是，差值谱优化函数中的幅度截断子函数、平滑滤波子函数和振幅调整子函数都用于对第一幅度谱差值进行优化，去除较小的侧音成分，减少剩余侧音的影响。

需要说明的是，因为消除侧音后需要传输给用户的是语音波形，而在对接收语音归一化数据和发送语音归一化数据的处理中，使用到的是幅度谱，因此最后要重构时域，利用预设好的波形重构函数对第二幅度谱差值进行计算，得到消除侧音后的语音波形，即目标语音波形。

在另一实施例中，参考图2，图2是本发明另一个实施例提供的预处理的流程图，步骤S120，包括：

步骤S121，通过直流分量去除算法对初始接收语音采样数据进行直流分量去除处理得到临时接收数据，通过直流分量去除算法对初始发送语音采样数据进行直流分量去除处理得到临时发送数据；

步骤S122，通过归一化算法对临时接收数据进行归一化处理得到接收语音归一化数据，通过归一化算法对临时发送数据进行归一化处理得到发送语音归一化数据；

需要说明的是，得到临时接收数据的公式为：

得到临时发送数据的公式为：

x'(n)为临时接收数据，y'(n)为临时发送数据，x(n)为初始接收语音采样数据，y(n)为初始发送语音采样数据，n为采样点序号，N为采样总数，/>为初始接收语音采样数据的平均值，/>为初始发送语音采样数据的平均值；对于每个采样点，将其值减去均值，这将消除信号中的直流分量，使其平均值接近零。

得到接收语音归一化数据的计算公式为：

x”(n)为接收语音归一化数据，n为采样点序号，x'(n)为临时接收数据，min(x'(n))为各个采样点对应的临时接收数据中的最小值，max(x'(n))为各个采样点对应的临时接收数据中的最大值；

得到发送语音归一化数据的计算公式为：

y”(n)为发送语音归一化数据，n为采样点序号，y'(n)为临时发送数据，min(y'(n))为各个采样点对应的临时发送数据中的最小值，max(y'(n))为各个采样点对应的临时发送数据中的最大值。对于每个采样点,将其值减去最小值，再除以采样序列的幅度范围，以将其归一化为0到1之间的范围。

在另一实施例中，接收语音归一化数据与发送语音归一化数据的相关性的计算公式为：

其中，R(m)为接收语音归一化数据与发送语音归一化数据的互相关系数，N为采样点总数，x_j为第j个接收语音归一化数据，为接收语音归一化数据的平均值，/>为发送语音归一化数据的平均值，/>为接收语音归一化数据的方差，/>为发送语音归一化数据的方差。

需要说明的是，获取经过预处理的接收语音归一化数据和发送语音归一化数据对应的采样序列，分别计算接收语音归一化数据的平均值、方差，和发送语音归一化数据的平均值、方差。二者相关性越高，线路侧音越大；二者相关性越低，线路侧音越小。

在另一实施例中，参考图3，图3是本发明另一个实施例提供的得到侧音在接收语音归一化数据的起始时间位置的流程图，步骤S130还包括：

步骤S131，获取接收语音归一化数据与发送语音归一化数据的互相关系数中的互相关系数最大值；

步骤S132，根据互相关系数最大值对应的采样点序号确定发送语音归一化数据的侧音在接收语音归一化数据的起始时间位置。

需要说明的是，根据互相关系数R(m)最大值时所对应m值，即为发送语音数据对应的波形产生的侧音在接收语音数据对应的波形中的起始位置。该位置即为接收语音数据进行后续处理的起始位置。得到互相关系系数最大值对应的采样点序号，得到采样点序号对应的采样时间，与接收语音归一化数据的各个采样点的采样时间相比对，即可以知道侧音对应于接收语音归一化数据中的起始时间位置。参考图7，图7是本发明另一个实施例提供的侧音信号的延时示意图。图中实线为包含接收语音归一化数据的波形，虚线为发送语音归一化数据产生的侧音的波形，这个虚线波形比发送语音波形延时了t’时间，波形对齐就是要计算出t’，也就是侧音在含接收语音归一化数据的波形中的起始位置。

在另一实施例中，参考图4，图4是本发明另一个实施例提供的第一幅度谱差值的获取方法的流程图，包括：

步骤S1501，通过汉明窗函数分别对进行波形对齐处理后的发送语音归一化数据和接收语音归一化数据进行分帧；

步骤S1502，对分帧后的接收语音归一化数据进行短时傅里叶变换得到频域接收语音采样数据，对分帧后的发送语音归一化数据进行短时傅里叶变换得到频域发送语音采样数据；

步骤S1503，通过计算频域接收语音采样数据的幅度谱和频域发送语音采样数据的幅度谱之间的差值，得到第一幅度谱差值；

其中，汉明窗函数的公式为：

ω(n)为汉明窗，N₁是窗函数的长度；

对接收语音归一化数据进行分帧的公式为：x”'(n)＝x”(n)*ω(n)；

对发送语音归一化数据进行分帧的公式为：y”'(n)＝y”(n)*ω(n)；

x”'(n)为分帧后的接收语音归一化数据，y”'(n)为分帧后的接收语音归一化数据，x”(n)为接收语音归一化数据，y”(n)为发送语音归一化数据，n为采样点序号；

得到频域接收语音采样数据的计算公式为：0≤k≤N/2；

得到频域发送语音采样数据的计算公式为：0≤k≤N/2；

X(k)为频域接收语音采样数据，N为采样总数，x”'(n)为分帧后的接收语音归一化数据，i为虚数单位，k为频率索引，n为采样序号；Y(k)为频域接收语音采样数据，y”'(n)为分帧后的接收语音归一化数据。

需要说明的是，在将接收语音归一化数据的波形对齐后，将接收语音归一化数据和发送语音归一化数据通过汉明加窗分帧后，利用短时傅里叶变换为频域接收语音采样数据和频域发送语音采样数据，再分别获得各自的幅度谱，计算其幅度谱的差值。其中，利用短时傅里叶变换得到频域接收语音采样数据的计算公式为：0≤k≤N/2；得到频域发送语音采样数据的计算公式为：/>0≤k≤N/2；

其中，X(k)为频域接收语音采样数据对应的频域序列，Y(k)为频域接收语音采样数据对对应的频域序列。k是频率索引，频域的正频率和负频率是共轭对称的。因此，频域的前一半(0到N/2)包含了信号数据的正频率成分，而后一半(N/2+1到N-1)则包含了信号数据的负频率成分。通常，在进行频谱分析时，只关注频谱的正半部分，即0到N/2，而将负频率部分舍弃。因此，频率索引k的取值范围为0到N/2。之后通过计算频域接收语音采样数据的幅度谱和频域发送语音采样数据的幅度谱之间的差值，得到第一幅度谱差值。从频域表示中提取X(k)和Y(k)的幅度谱，分别得到X_mag(k)和Y_mag(k)。通过对频域信号数据的实部和虚部进行平方运算并求和再开方来计算幅度谱。再计算幅度谱差值G(k)，如果幅度谱差值小于0则将其设置为零,否则保持不变。具体地，G(k)＝max(X_mag(k)-Y_mag(k),0)。G(k)为第一幅度谱差值，其中X_mag(k)为频域接收语音采样数据的幅度谱，Y_mag(k)为频域发送语音采样数据的幅度谱。

在另一实施例中，参考图5，图5是本发明另一个实施例提供的第二幅度谱差值的获取方法的流程图，步骤S150包括：

步骤S151，通过幅度截断子函数获取每个频率分量对应的第一幅度谱差值，依次从频率分量中选取一个频率分量确定为目标频率分量，将目标频率分量对应的第一幅度谱差值与预设的差值谱阈值进行对比，直到得到以每个频率分量作为目标频率分量的幅度谱子增益；

步骤S152，当目标频率分量对应的第一幅度谱差值小于差值谱阈值，则将目标频率分量对应的幅度谱子增益设置为0；

步骤S153，当频率分量对应的第一幅度谱差值大于或等于差值谱阈值，则将目标频率分量对应的幅度谱子增益设置为目标频率分量对应的第一幅度谱差值；

步骤S154，将所有幅度谱子增益确定为幅度谱增益；

步骤S155，通过平滑滤波子函数对幅度谱增益进行平滑处理得到平滑幅度谱差值；

步骤S156，通过振幅调整子函数对平滑幅度谱差值进行振幅调整得到第二幅度谱差值；

其中，得到幅度谱增益的计算公式为：

G'(k)为第k个频率分量的幅度谱增益，k为频率分量，G(k)为第k个频率分量的第一幅度谱差值，T为预设的差值谱阈值；

得到平滑幅度谱差值的计算公式为：

G”(k)为平滑幅度谱差值，G'(k)为幅度谱增益，N₂为平滑滤波器的长度，即邻域的大小，M＝(N₂-1)/2，k为频率分量；

得到第二幅度谱差值的计算公式为：G_adj(k)＝αG”(k)，

G_adj(k)为第二幅度谱差值，α为调整因子，G”(k)为平滑幅度谱差值。

需要说明的是，为了提高消除侧音后的语音线性保持度，降低线性损耗，通过剪幅度谱差值以及调整振幅对第一幅度谱差值进行优化。首先，通过幅度横断子函数来修剪幅度谱差值。幅度截断是将第一幅度谱差值中小于差值谱阈值的幅度值设置为零，以去除较小的侧音成分。对于每个频率分量k，如G'[k]是截断后的幅度谱增益，如果G[k]小于阈值T，则将其设置为零；否则保持不变。其次,通过平滑滤波子函数对幅度谱增益进行平滑处理，以减少剩余侧音的影响。得到平滑幅度谱差值的计算公式为：

G”(k)为平滑幅度谱差值，G'(k)为幅度谱增益，N₂为平滑滤波器的长度，即邻域的大小，M＝(N₂-1)/2，k为频率分量，对于频率边界的分量，选择补0填充的方法。最后,通过振幅调整对差值谱的幅度进行调整，以达到更好的效果。得到第二幅度谱差值的计算公式为：G_adj(k)＝αG”(k)，G_adj(k)为第二幅度谱差值，α为调整因子，G”(k)为平滑幅度谱差值。α是根据估计的信噪比确定的调整因子。调整因子α可以根据具体情况选择，通常在信噪比较高时，调整因子较小，以保留更多的语音成分；在信噪比较低时，调整因子较大，以增强语音信号。当前常用的硬件消除侧音技术，无论通话电路是否存在侧音，硬件消侧音电路都会进行消侧音处理，对于接收语音的线性损耗较高；比起硬件消除侧音，现在通过对第一幅度谱差值进行优化，同时需要得到起始时间位置，即当线路无侧音的时候，不会再继续进行消侧音处理，使得在线路无侧音时，对接收语音损耗较小，对于接收语音的线性保持度较高。

在另一实施例中，参考图6，图6是本发明另一个实施例提供的获得目标语音数据的流程图，步骤S160，包括：

步骤S161，通过重构频域数据子函数对分帧后的接收语音归一化数据和第二幅度谱差值进行计算得到频域数据；

步骤S162，通过逆短时傅里叶变换子函数对频域数据进行逆短时傅里叶变换得到时域重构数据；

步骤S163，对时域重构数据进行数模转换得到目标语音数据；

其中，得到频域数据的计算公式为：/>

P(k)为频域数据，k为频率分量，G_adj(k)为第二幅度谱差值，为分帧后的接收语音归一化数据进行短时傅里叶变换得到的相位谱，i表示虚数单位。

得到时域重构数据的计算公式为：

s(t)为时域重构数据，N为样本总数，k为频率分量，P(k)为频域数据，i表示虚数单位，t为频域转换为时域后的时间。

需要说明的是，为了得到最终消除了侧音的目标语音数据，需要重构时域信号。在得到时域重构数据s(t)后，对波形重构的s(t)序列重映射为采样数据的取值范围，然后进行数模转换，即获得消除侧音的目标语音数据。对于高频音频，通过这种方法实现侧音消除比硬件消侧音电路具有更好的消侧音效果。而且比起硬件消除侧音电路的方法，不需要构建硬件消侧音电路，在使用的时候也不需要消耗大量的功耗，降低了消除侧音的成本。

如图8所示，图8是本发明一个实施例提供的侧音消除装置的结构图。本发明还提供了一种侧音消除装置，包括：

处理器801，可以采用通用的中央处理器(Central Processing Unit，CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

存储器802，可以采用只读存储器(Read Only Memory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory，RAM)等形式实现。存储器802可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器802中，并由处理器801来调用执行本申请实施例的侧音消除方法；

输入/输出接口803，用于实现信息输入及输出；

通信接口804，用于实现本装置与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线805，在设备的各个组件(例如处理器801、存储器802、输入/输出接口803和通信接口804)之间传输信息；

其中处理器801、存储器802、输入/输出接口803和通信接口804通过总线805实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种电子设备，包括如上所述的侧音消除装置。

本申请实施例还提供了一种存储介质，存储介质为计算机可读存储介质，该存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述侧音消除方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，实现了以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

Claims

1.一种侧音消除方法，其特征在于，包括：

2.根据权利要求1所述的侧音消除方法，其特征在于，所述对所述初始接收语音采样数据进行预处理得到接收语音归一化数据，对所述初始发送语音采样数据进行所述预处理得到发送语音归一化数据，包括：

其中，得到所述临时接收数据的公式为：

得到所述临时发送数据的公式为：

得到所述接收语音归一化数据的计算公式为：

得到所述发送语音归一化数据的计算公式为：

3.根据权利要求1所述的侧音消除方法，其特征在于，所述接收语音归一化数据与所述发送语音归一化数据的相关性的计算公式为：

其中，R(m)为所述接收语音归一化数据与所述发送语音归一化数据的互相关系数，N为采样点总数，x_j为第j个所述接收语音归一化数据，为所述接收语音归一化数据的平均值，为所述发送语音归一化数据的平均值，/>为所述接收语音归一化数据的方差，/>为所述发送语音归一化数据的方差。

4.根据权利要求3所述的侧音消除方法，其特征在于，所述根据所述接收语音归一化数据与所述发送语音归一化数据的相关性得到所述发送语音归一化数据的目标侧音在所述接收语音归一化数据的起始时间位置，包括：

5.根据权利要求1所述的侧音消除方法，其特征在于，所述第一幅度谱差值的获取方法，包括：

其中，汉明窗函数的公式为：

ω(n)为汉明窗，N₁是窗函数的长度；

对所述接收语音归一化数据进行分帧的公式为：x″′(n)＝x″(n)*ωn)；

对所述发送语音归一化数据进行分帧的公式为：y″′(n)＝y″(n)*ω(n)；

得到所述频域接收语音采样数据的计算公式为：

得到所述频域发送语音采样数据的计算公式为：

6.根据权利要求1所述的侧音消除方法，其特征在于，所述根据预设好的差值谱优化函数对第一幅度谱差值进行计算得到第二幅度谱差值，包括：

将所有所述幅度谱子增益确定为所述幅度谱增益；

其中，得到所述幅度谱增益的计算公式为：

得到所述平滑幅度谱差值的计算公式为：

得到所述第二幅度谱差值的计算公式为：G_adj(k)＝αG″(k)，

7.根据权利要求5所述的侧音消除方法，其特征在于，所述根据预设好的波形重构函数对所述第二幅度谱差值进行计算得到消除侧音后的目标语音数据，包括：

对所述时域重构数据进行数模转换得到所述目标语音数据；

其中，得到所述频域数据的计算公式为：

P(k)为所述频域数据，k为频率分量，G_adj(k)为第二幅度谱差值，为分帧后的所述接收语音归一化数据进行短时傅里叶变换得到的相位谱，i表示虚数单位；

得到所述时域重构数据的计算公式为：

8.一种侧音消除装置，其特征在于，包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如权利要求1至7任一项所述的侧音消除方法。

9.一种电子设备，其特征在于，包括权利要求8所述的侧音消除装置。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的侧音消除方法。