CN117690443A

CN117690443A - 语音处理的方法及装置、电子设备、存储介质

Info

Publication number: CN117690443A
Application number: CN202311836523.5A
Authority: CN
Inventors: 魏子凯; 卢县; 董璘
Original assignee: Bestechnic Shanghai Co Ltd
Current assignee: Bestechnic Shanghai Co Ltd
Priority date: 2023-12-27
Filing date: 2023-12-27
Publication date: 2024-03-12

Abstract

本申请涉及语音处理技术领域，公开一种语音处理的方法及装置、电子设备、存储介质。该方法包括：获取上一帧的输出语音数据和当前帧的混合语音数据；根据上一帧的输出语音数据、当前帧的混合语音数据利用预设的神经网络模型获取步长；根据步长更新预设的自适应滤波器中与上一帧的输出语音数据对应的状态估计矩阵；根据更新后的状态估计矩阵、上一帧的输出语音数据和当前帧的混合语音数据确定当前帧的输出语音数据。这样，由于神经网络模型是预先通过大量的语音数据训练获得，能够使得通过神经网络模型确定的步长，更容易使自适应滤波器达到收敛。从而加快自适应滤波器的收敛速度，以更快的抑制声反馈，进而提高用户的体验感。

Description

语音处理的方法及装置、电子设备、存储介质

技术领域

本发明涉及语音处理技术领域，尤其是涉及一种语音处理的方法及装置、电子设备、存储介质。

背景技术

声反馈通常是由于扬声器和麦克风之间的耦合而产生的，当反馈满足振荡条件时将会产生啸叫现象，导致音质的退化。相关技术中，通常使用自适应滤波器对语音数据进行处理，从而抑制声反馈。传统的自适应滤波器，由自适应算法更新自适应滤波器的步长。其中，自适应算法通常获取每一帧的输入语音数据和期望信号之间的误差信号，并根据误差信号不断调整步长。通常来说，传统的自适应滤波器需要在处理十几帧语音数据后才能收敛，抑制声反馈的速度较慢，导致用户的体验感较差。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

为了对披露的实施例的一些方面有基本的理解，下面给出了简单的概括。所述概括不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围，而是作为后面的详细说明的序言。

本公开实施例提供了一种语音处理的方法及装置、电子设备、存储介质，以提高抑制声反馈的速度。

本申请实施例提供了一种语音处理的方法，包括：获取上一帧的输出语音数据和当前帧的混合语音数据，所述当前帧的混合语音数据由所述上一帧的输出语音数据和当前帧的输入语音数据混合得到；根据所述上一帧的输出语音数据、所述当前帧的混合语音数据利用预设的神经网络模型获取步长；根据所述步长更新预设的自适应滤波器中与所述上一帧的输出语音数据对应的状态估计矩阵；根据更新后的状态估计矩阵、所述上一帧的输出语音数据和所述当前帧的混合语音数据确定所述当前帧的输出语音数据。

在上述实现过程中，通过神经网络模型利用上一帧的输出语音数据和当前帧的混合语音数据来确定自适应滤波器的步长，并利用该步长更新自适应滤波器中与上一帧的输出语音数据对应的状态估计矩阵。由于神经网络模型是预先通过大量的语音数据训练获得，能够使得通过神经网络模型确定的步长，更容易使得自适应滤波器达到收敛。从而加快自适应滤波器的收敛速度，以更快的抑制声反馈，进而提高用户的体验感。同时，相关技术中还存在采用端到端神经声学模型抑制声反馈的方式。但是，采用端到端神经声学模型需要对完整的每一帧语音数据进行处理。而本申请的抑制声反馈的方式只需要通过神经网络模型对与步长相关的部分数据进行处理。因此，本申请的抑制声反馈的方式相较于相关技术中采用端到端神经声学模型对声反馈进行抑制的方式算力更低。由此，能够使得算力较低的小型助听设备能够通过本申请的技术方案抑制声反馈。

进一步的，根据所述上一帧的输出语音数据、所述当前帧的混合语音数据利用预设的神经网络模型获取步长，包括：获取所述上一帧的输出语音数据对应的状态估计矩阵；根据所述上一帧的输出语音数据、所述当前帧的混合语音数据和所述上一帧的输出语音数据对应的状态估计矩阵确定当前帧的输入语音数据对应的误差估计矩阵；将所述上一帧的输出语音数据、上一帧的输出语音数据对应的状态估计矩阵和所述当前帧的输入语音数据对应的误差估计矩阵输入所述预设的神经网络模型，获得所述步长。

在上述实现过程中，在大量的实践经验中发现影响步长的参数主要是上一帧的输出语音数据、上一帧的输出语音数据对应的状态估计矩阵和当前帧的输入语音数据对应的误差估计矩阵。因此，预先训练神经网络模型，并通过将上一帧的输出语音数据、上一帧的输出语音数据对应的状态估计矩阵和当前帧的输入语音数据对应的误差估计矩阵输入预先训练的神经网络模型，能够获得让自适应滤波器能够更快收敛的步长。

进一步的，根据所述上一帧的输出语音数据、所述当前帧的混合语音数据和所述上一帧的输出语音数据对应的状态估计矩阵确定当前帧的输入语音数据对应的误差估计矩阵，包括：利用预设的时频转换算法对所述上一帧的输出语音数据进行处理，获得当前帧的参考信号；利用预设的时频转换算法对所述当前帧的混合语音数据进行处理，获得当前帧的频域语音数据；通过计算E_t＝Y_t-H_t-1*X_t，获得误差估计矩阵；其中，E_t为当前帧的输入语音数据对应的误差估计矩阵；Y_t为当前帧的频域语音数据；H_t-1为上一帧的输出语音数据对应的状态估计矩阵；X_t为当前帧的参考信号。

在上述实现过程中，由于在频域中对语音数据进行分析，能够更好地揭示语音数据的频率特性。同时，在频域中也可以有效地去除噪声，提高语音数据的清晰度。因此，先将上一帧的输出语音数据和当前帧的混合语音数据分别转换到频域中，再利用频域中的当前帧的参考信号和频域中的当前帧的频域语音数据进行计算，能够使得计算出来的误差估计矩阵能更反应出上一帧的输出语音数据和当前帧的混合语音数据之间的差异性。

进一步的，根据所述步长更新预设的自适应滤波器中与所述上一帧的输出语音数据对应的状态估计矩阵，包括：通过计算H_t＝H_t-1+G_t*E_t，获得状态估计矩阵；其中，H_t为当前帧的输出语音数据对应的状态估计矩阵；H_t-1为上一帧的输出语音数据对应的状态估计矩阵；G_t为当前帧的步长。

通常来说，自适应滤波器中的状态估计矩阵是用于描述自适应滤波器的权值、误差信号等内部状态变量与输入语音数据之间关系的矩阵。步长是控制自适应滤波器的权值更新的参数。通过调整步长，可以控制权值更新的幅度和速度，从而影响自适应滤波器的性能。如果步长过大，权值更新会过快，可能导致自适应滤波器不稳定或出现振荡。如果步长过小，权值更新会过慢，可能导致自适应滤波器收敛速度较慢。在上述实现过程中，通过结合上一帧的输出语音数据对应的状态估计矩阵、当前帧的步长和当前帧的输入语音数据对应的误差估计矩阵来更新状态估计矩阵，能够调整自适应滤波器的权值，以便于调整后的自适应滤波器能够更快速的收敛。

进一步的，根据更新后的状态估计矩阵、所述上一帧的输出语音数据和所述当前帧的混合语音数据确定所述当前帧的输出语音数据，包括：根据更新后的状态估计矩阵和所述上一帧的输出语音数据确定当前帧的输入语音数据对应的声反馈估计；根据所述当前帧的混合语音数据和所述声反馈估计确定当前帧的输出语音数据。

在上述实现过程中，由于语音信号是动态变化的，因此利用上一帧的输出语音数据能够保证声反馈估计的连续性，从而更好的捕捉当前帧的输入语音数据对应的声反馈情况。同时，由于自适应滤波器中的状态估计矩阵是用于描述自适应滤波器的权值、误差信号等内部状态变量与输入语音数据之间关系的矩阵。因此，结合更新后的状态估计矩阵和上一帧的输出语音数据，能够更准确的确定声反馈估计。进而利用该反馈估计信号定确定出的当前帧的输出语音数据，抑制声反馈的效果能够更好。

进一步的，根据更新后的状态估计矩阵和所述上一帧的输出语音数据确定当前帧的输入语音数据对应的声反馈估计，包括：利用预设的时频转换算法对所述上一帧的输出语音数据进行处理，获得当前帧的参考信号；计算获得当前帧的输入语音数据对应的声反馈估计；其中，/>为当前帧的输入语音数据对应的声反馈估计，H_t为当前帧的输出语音数据对应的状态估计矩阵，X_t为当前帧的参考信号。

进一步的，根据更新后的状态估计矩阵、所述上一帧的输出语音数据和所述当前帧的混合语音数据确定所述当前帧的输出语音数据后，所述方法还包括：根据预设的损失函数利用所述当前帧的输入语音数据和所述当前帧的输出语音数据进行计算，获得损失值；利用所述损失值训练所述神经网络模型。

在上述实现过程中，由于损失函数可以评估神经网络模型的预测值与真实值之间的差距，因此能够根据损失值来优化神经网络模型，从而使得神经网络模型计算出来的步长更恰当。

本申请实施例提供了一种语音处理的装置，包括：获取模块，用于获取上一帧的输出语音数据和当前帧的混合语音数据，所述当前帧的混合语音数据由所述上一帧的输出语音数据和当前帧的输入语音数据混合得到；步长确定模块，用于根据所述上一帧的输出语音数据、所述当前帧的混合语音数据利用预设的神经网络模型获取步长；状态估计矩阵确定模块，用于根据所述步长更新预设的自适应滤波器中与所述上一帧的输出语音数据对应的状态估计矩阵；输出语音确定模块，用于根据更新后的状态估计矩阵、所述上一帧的输出语音数据和所述当前帧的混合语音数据确定所述当前帧的输出语音数据。

本申请实施例提供了一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现上述语音处理的方法。

本申请实施例还提供了一种存储介质，所述存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，所述计算机可执行指令使得处理器实现上述语音处理的方法。

以上的总体描述和下文中的描述仅是示例性和解释性的，不用于限制本申请。

附图说明

一个或多个实施例通过与之对应的附图进行示例性说明，这些示例性说明和附图并不构成对实施例的限定，附图中具有相同参考数字标号的元件示为类似的元件，附图不构成比例限制，并且其中：

图1是本申请实施例提供的一个语音处理的方法的示意图；

图2是本申请实施例提供的一个神经网络模型的结构示意图；

图3是本申请实施例提供的另一个神经网络模型的结构示意图；

图4是本申请实施例提供的一个语音处理的信号流程示意图；

图5是本申请实施例提供的一个不经过任何算法处理的情况下，输入语音数据和输出语音数据之间的对比示意图；

图6是本申请实施例提供的一个通过本申请的语音处理方法进行语音处理后，输入语音数据和输出语音数据之间的对比示意图；

图7是本申请实施例提供的一个通过传统的自适应滤波器进行语音处理后，输入语音数据和输出语音数据之间的对比示意图；

图8是本申请实施例提供的一个语音处理的装置的示意图；

图9是本申请实施例提供的一个电子设备的示意图。

附图标记：

1：获取模块；2：步长确定模块；3：状态估计矩阵确定模块；4：输出语音确定模块；5：处理器；6：存储器；7：通信接口；8：总线。

具体实施方式

为了能够更加详尽地了解本申请实施例的特点与技术内容，下面结合附图对本申请实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本申请实施例。在以下的技术描述中，为方便解释起见，通过多个细节以提供对所披露实施例的充分理解。然而，在没有这些细节的情况下，一个或多个实施例仍然可以实施。在其它情况下，为简化附图，熟知的结构和装置可以简化展示。

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请实施例的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。

除非另有说明，术语“多个”表示两个或两个以上。

术语“对应”可以指的是一种关联关系或绑定关系，A与B相对应指的是A与B之间是一种关联关系或绑定关系。

实施例一

本申请实施例中提供了一种语音处理的方法。可以参见图1所示，图1为本申请实施例中提供的语音处理的方法的基本流程示意图，包括：

步骤S101，获取上一帧的输出语音数据和当前帧的混合语音数据。

其中，当前帧的混合语音数据由上一帧的输出语音数据和当前帧的输入语音数据混合得到。

在一些实施例中，如果是对第一帧输入语音数据进行处理，此时获取的上一帧的输出语音数据为空。即，在对第一帧输入语音数据进行处理时，没有上一帧的输出语音数据，且当前帧的混合语音数据等于第一帧输入语音数据。

在一些实施例中，通过已有的语音混合技术对上一帧的输出语音数据和当前帧的输入语音数据进行混合，在此不做限定。

步骤S102，根据上一帧的输出语音数据、当前帧的混合语音数据利用预设的神经网络模型获取步长。

在一些实施例中，根据上一帧的输出语音数据、当前帧的混合语音数据利用预设的神经网络模型获取步长，包括：获取上一帧的输出语音数据对应的状态估计矩阵；根据上一帧的输出语音数据、当前帧的混合语音数据和上一帧的输出语音数据对应的状态估计矩阵确定当前帧的输入语音数据对应的误差估计矩阵；将上一帧的输出语音数据、上一帧的输出语音数据对应的状态估计矩阵和当前帧的输入语音数据对应的误差估计矩阵输入预设的神经网络模型，获得步长。

在上述实施例的一种可选方式中，根据上一帧的输出语音数据、当前帧的混合语音数据和上一帧的输出语音数据对应的状态估计矩阵确定当前帧的输入语音数据对应的误差估计矩阵，包括：利用预设的时频转换算法对上一帧的输出语音数据进行处理，获得当前帧的参考信号；利用预设的时频转换算法对当前帧的混合语音数据进行处理，获得当前帧的频域语音数据；通过计算E_t＝Y_t-H_t-1*X_t，获得误差估计矩阵；其中，E_t为当前帧的输入语音数据对应的误差估计矩阵；Y_t为当前帧的频域语音数据；H_t-1为上一帧的输出语音数据对应的状态估计矩阵；X_t为当前帧的参考信号；“*”为矩阵乘法；“-”为减法。

在上述可选方式中，时频转换算法用于将语音数据转换到频域。时频转换算法可以是小波变换、哈特利变换(Hartley transform)或Gabor(加伯转换)变换等。

在上述实施例的一种可选方式中，将上一帧的输出语音数据、上一帧的输出语音数据对应的状态估计矩阵和当前帧的输入语音数据对应的误差估计矩阵输入预设的神经网络模型，获得步长，可以是：利用预设的时频转换算法对上一帧的输出语音数据进行处理，获得当前帧的参考信号；将当前帧的参考信号、当前帧的输入语音数据对应的误差估计矩阵和上一帧的输出语音数据对应的状态估计矩阵输入预设的神经网络模型。

结合图2所示，预设的神经网络模型可以依次包括合并层、全连接层、GRU(GatedRecurrent Unit，门控循环单元)层和全连接层。其中，合并层用于对当前帧的参考信号、当前帧的输入语音数据对应的误差估计矩阵和上一帧的输出语音数据对应的状态估计矩阵进行合并。全连接层用于对接收到的数据进行数据映射。GRU层用于利用当前帧的之前帧语音数据的历史信息进行预测。

结合图3所示，预设的神经网络模型可以依次包括两个卷积层、一个GRU层和两个卷积层。其中，卷积层用于对输入的语音数据进行降维、去噪或特征提取。

步骤S103，根据步长更新预设的自适应滤波器中与上一帧的输出语音数据对应的状态估计矩阵。

在一些实施例中，如果是对第一帧输入语音数据进行处理，自适应滤波器中与上一帧的输出语音数据对应的状态估计矩阵为预设的状态估计矩阵。

在一些实施例中，根据步长更新预设的自适应滤波器中与上一帧的输出语音数据对应的状态估计矩阵，包括：通过计算H_t＝H_t-1+G_t*E_t，获得状态估计矩阵；其中，Ht为当前帧的输出语音数据对应的状态估计矩阵；Ht-1为上一帧的输出语音数据对应的状态估计矩阵；Gt为当前帧的步长；“+”为加法。

步骤S104，根据更新后的状态估计矩阵、上一帧的输出语音数据和当前帧的混合语音数据确定当前帧的输出语音数据。

在一些实施例中，根据更新后的状态估计矩阵、上一帧的输出语音数据和当前帧的混合语音数据确定当前帧的输出语音数据，包括：根据更新后的状态估计矩阵和上一帧的输出语音数据确定当前帧的输入语音数据对应的声反馈估计；根据当前帧的混合语音数据和声反馈估计确定当前帧的输出语音数据。

在上述实施例的一种可选方式中，根据更新后的状态估计矩阵和所述上一帧的输出语音数据确定当前帧的输入语音数据对应的声反馈估计，包括：利用预设的时频转换算法对所述上一帧的输出语音数据进行处理，获得当前帧的参考信号；计算获得当前帧的输入语音数据对应的声反馈估计；其中，/>为当前帧的输入语音数据对应的声反馈估计。

在上述实施例的一种可选方式中，根据当前帧的混合语音数据和声反馈估计确定当前帧的输出语音数据，包括：利用预设的时频转换算法对当前帧的混合语音数据进行处理，获得当前帧的频域语音数据。计算获得当前帧的输出语音数据。其中，/>为当前帧的输出语音数据。

示例性的，结合图4所示，神经网络模型和自适应滤波器结合在一起形成自适应神经网络滤波器。对上一帧的输出语音数据进行短时傅里叶逆变换(ISTFT)，并使经过短时傅里叶逆变换的上一帧的输出语音数据与当前帧的输入语音数据混合，获得当前帧的混合语音数据。对当前帧的混合语音数据进行短时傅里叶变换(STFT)，获得当前帧的频域语音数据。并对经过短时傅里叶逆变换的上一帧的输出语音数据进行短时傅里叶变换，获得当前帧的参考信号。利用当前帧的参考信号、当前帧的频域语音数据和上一帧的输出语音数据对应的状态估计矩阵计算当前帧的输入语音数据对应的误差估计矩阵。并将当前帧的参考信号、当前帧的输入语音数据对应的误差估计矩阵和上一帧的输出语音数据对应的状态估计矩阵输入神经网络模型中，获得神经网络模型输出的步长。该神经网络模型由一层合并层、两层全连接层和一层GRU层构成。利用神经网络模型输出的步长对上一帧的输出语音数据对应的状态估计矩阵进行更新，获得当前帧的输出语音数据对应的状态估计矩阵。并利用更新后的状态估计矩阵和当前帧的参考信号计算声反馈估计。通过当前帧的频域语音数据减去该声反馈估计，获得当前帧对应的输出语音数据。

示例性的，结合图5、图6和图7所示，如图5所示，图5是不经过任何算法处理的情况下，输入语音数据和输出语音数据之间的对比示意图。其中，图5的第一行为输入语音数据的时域信号，第二行为输出语音数据的时域信号，第三行为输入语音数据的频域信号，第四行为输出语音数据的频域信号。图6是通过本申请的语音处理方法进行语音处理后，输入语音数据和输出语音数据之间的对比示意图。其中，图6的第一行为输入语音数据的时域信号，第二行为通过本申请的语音处理方法对输入语音数据进行语音处理后的输出语音数据的时域信号，第三行为输入语音数据的频域信号，第四行为通过本申请的语音处理方法对输入语音数据进行语音处理后的输出语音数据的频域信号。图7是通过传统的自适应滤波器进行语音处理后，输入语音数据和输出语音数据之间的对比示意图。其中，图7的第一行为输入语音数据的时域信号，第二行为通过传统的自适应滤波器对输入语音数据进行处理后的输出语音数据的时域信号，第三行为输入语音数据的频域信号，第四行为通过传统的自适应滤波器对输入语音数据进行处理后的输出语音数据的频域信号。通过图5、图6和图7可见，通过本申请的语音处理方法进行语音处理，相较于使用传统的自适应滤波器进行语音处理，能够有效抑制声反馈现象。同时，通过本申请的语音处理方法进行语音处理，处理后的输出信号没有失真的衰减情况。

在一些实施例中，根据更新后的状态估计矩阵、上一帧的输出语音数据和当前帧的混合语音数据确定当前帧的输出语音数据后，还包括：通过预设的时频转换算法将当前帧的输出语音数据转换为时域的输出语音数据，并通过扬声器播放该时域的输出语音数据。

在一些实施例中，根据更新后的状态估计矩阵、上一帧的输出语音数据和当前帧的混合语音数据确定当前帧的输出语音数据后，方法还包括：根据预设的损失函数利用当前帧的输入语音数据和当前帧的输出语音数据进行计算，获得损失值；利用损失值训练神经网络模型。

在上述实施例中，损失函数可以是均方差损失函数、绝对值损失函数或平方损失函数等现有的损失函数，在此不做限定。

在上述实施例中，可以是采用已有的训练方式利用损失值对神经网络模型进行训练，在此不做限定。

实施例二

基于同一发明构思，如图8所示，本申请实施例提供一种语音处理的装置，包括：获取模块1、步长确定模块2、状态估计矩阵确定模块3和输出语音确定模块4。获取模块1，用于获取上一帧的输出语音数据和当前帧的混合语音数据，所述当前帧的混合语音数据由所述上一帧的输出语音数据和当前帧的输入语音数据混合得到；步长确定模块2，用于根据所述上一帧的输出语音数据、所述当前帧的混合语音数据利用预设的神经网络模型获取步长；状态估计矩阵确定模块3，用于根据所述步长更新预设的自适应滤波器中与所述上一帧的输出语音数据对应的状态估计矩阵；输出语音确定模块4，用于根据更新后的状态估计矩阵、上一帧的输出语音数据和当前帧的混合语音数据确定当前帧的输出语音数据。

在一些实施例中，步长确定模块2用于通过以下方式根据上一帧的输出语音数据、当前帧的混合语音数据利用预设的神经网络模型获取步长：获取上一帧的输出语音数据对应的状态估计矩阵；根据上一帧的输出语音数据、当前帧的混合语音数据和上一帧的输出语音数据对应的状态估计矩阵确定当前帧的输入语音数据对应的误差估计矩阵；将上一帧的输出语音数据、上一帧的输出语音数据对应的状态估计矩阵和当前帧的输入语音数据对应的误差估计矩阵输入预设的神经网络模型，获得步长。

在一些实施例中，步长确定模块2用于通过以下方式根据上一帧的输出语音数据、当前帧的混合语音数据和上一帧的输出语音数据对应的状态估计矩阵确定当前帧的输入语音数据对应的误差估计矩阵，包括：利用预设的时频转换算法对上一帧的输出语音数据进行处理，获得当前帧的参考信号；利用预设的时频转换算法对当前帧的混合语音数据进行处理，获得当前帧的频域语音数据；通过计算E_t＝Y_t-H_t-1*X_t，获得误差估计矩阵；其中，E_t为当前帧的输入语音数据对应的误差估计矩阵；Y_t为当前帧的频域语音数据；H_t-1为上一帧的输出语音数据对应的状态估计矩阵；X_t为当前帧的参考信号。

在一些实施例中，状态估计矩阵确定模块3用于通过以下方式根据步长更新预设的自适应滤波器中与上一帧的输出语音数据对应的状态估计矩阵：通过计算H_t＝H_t-1+G_t*E_t，获得状态估计矩阵；其中，H_t为当前帧的输出语音数据对应的状态估计矩阵；H_t-1为上一帧的输出语音数据对应的状态估计矩阵；G_t为当前帧的步长。

在一些实施例中，输出语音确定模块4用于通过以下方式根据更新后的状态估计矩阵、上一帧的输出语音数据和当前帧的混合语音数据确定当前帧的输出语音数据：根据更新后的状态估计矩阵和上一帧的输出语音数据确定当前帧的输入语音数据对应的声反馈估计；根据当前帧的混合语音数据和声反馈估计确定当前帧的输出语音数据。

在一些实施例中，输出语音确定模块4用于通过以下方式根据更新后的状态估计矩阵和上一帧的输出语音数据确定当前帧的输入语音数据对应的声反馈估计：利用预设的时频转换算法对上一帧的输出语音数据进行处理，获得当前帧的参考信号；计算获得当前帧的输入语音数据对应的声反馈估计；其中，/>为当前帧的输入语音数据对应的声反馈估计。

在一些实施例中，语音处理的装置还包括：训练模块，用于在根据更新后的状态估计矩阵、上一帧的输出语音数据和当前帧的混合语音数据确定当前帧的输出语音数据后，根据预设的损失函数利用当前帧的输入语音数据和当前帧的输出语音数据进行计算，获得损失值；利用损失值训练神经网络模型。

实施例三

结合图9所示，本申请实施例提供一种电子设备，包括处理器5和存储器6。可选地，该装置还可以包括通信接口7和总线8。其中，处理器5、通信接口7、存储器6可以通过总线8完成相互间的通信。通信接口7可以用于信息传输。处理器5可以调用存储器6中的逻辑指令，以执行上述实施例的语音处理的方法。

此外，上述的存储器6中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器6作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序，如本申请实施例中的方法对应的程序指令/模块。处理器5通过运行存储在存储器6中的程序指令/模块，从而执行功能应用以及数据处理，即实现上述实施例中语音处理的方法。

存储器6可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器6可以包括高速随机存取存储器，还可以包括非易失性存储器。

其中，电子设备可以为计算机或服务器等。

采用本申请实施例提供的电子设备，通过神经网络模型利用上一帧的输出语音数据和当前帧的混合语音数据来确定自适应滤波器的步长，并利用该步长更新自适应滤波器中与上一帧的输出语音数据对应的状态估计矩阵。由于神经网络模型是预先通过大量的语音数据训练获得，能够使得通过神经网络模型确定的步长，更容易使得自适应滤波器达到收敛。从而加快自适应滤波器的收敛速度，以更快的抑制声反馈，进而提高用户的体验感。

本申请实施例提供了一种存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为执行上述语音处理的方法。

本申请实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述语音处理的方法。

上述的计算机可读存储介质可以是暂态计算机可读存储介质，也可以是非暂态计算机可读存储介质。

本申请实施例的技术方案可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括一个或多个指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质，包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。同时，以上实施例在不冲突的情况下，可以互相结合，形成新的实施例。

Claims

1.一种语音处理的方法，其特征在于，包括：

获取上一帧的输出语音数据和当前帧的混合语音数据，所述当前帧的混合语音数据由所述上一帧的输出语音数据和当前帧的输入语音数据混合得到；

根据所述上一帧的输出语音数据、所述当前帧的混合语音数据利用预设的神经网络模型获取步长；

根据所述步长更新预设的自适应滤波器中与所述上一帧的输出语音数据对应的状态估计矩阵；

根据更新后的状态估计矩阵、所述上一帧的输出语音数据和所述当前帧的混合语音数据确定所述当前帧的输出语音数据。

2.根据权利要求1所述的方法，其特征在于，根据所述上一帧的输出语音数据、所述当前帧的混合语音数据利用预设的神经网络模型获取步长，包括：

获取所述上一帧的输出语音数据对应的状态估计矩阵；

根据所述上一帧的输出语音数据、所述当前帧的混合语音数据和所述上一帧的输出语音数据对应的状态估计矩阵确定当前帧的输入语音数据对应的误差估计矩阵；

将所述上一帧的输出语音数据、上一帧的输出语音数据对应的状态估计矩阵和所述当前帧的输入语音数据对应的误差估计矩阵输入所述预设的神经网络模型，获得所述步长。

3.根据权利要求2所述的方法，其特征在于，根据所述上一帧的输出语音数据、所述当前帧的混合语音数据和所述上一帧的输出语音数据对应的状态估计矩阵确定当前帧的输入语音数据对应的误差估计矩阵，包括：

利用预设的时频转换算法对所述上一帧的输出语音数据进行处理，获得当前帧的参考信号；

利用预设的时频转换算法对所述当前帧的混合语音数据进行处理，获得当前帧的频域语音数据；

通过计算E_t＝Y_t-H_t-1*X_t，获得误差估计矩阵；

其中，E_t为当前帧的输入语音数据对应的误差估计矩阵；Y_t为当前帧的频域语音数据；H_t-1为上一帧的输出语音数据对应的状态估计矩阵；X_t为当前帧的参考信号。

4.根据权利要求1所述的方法，其特征在于，根据所述步长更新预设的自适应滤波器中与所述上一帧的输出语音数据对应的状态估计矩阵，包括：

通过计算H_t＝H_t-1+G_t*E_t，获得状态估计矩阵；

其中，H_t为当前帧的输出语音数据对应的状态估计矩阵；H_t-1为上一帧的输出语音数据对应的状态估计矩阵；G_t为当前帧的步长。

5.根据权利要求1所述的方法，其特征在于，根据更新后的状态估计矩阵、所述上一帧的输出语音数据和所述当前帧的混合语音数据确定所述当前帧的输出语音数据，包括：

根据更新后的状态估计矩阵和所述上一帧的输出语音数据确定当前帧的输入语音数据对应的声反馈估计；

根据所述当前帧的混合语音数据和所述声反馈估计确定当前帧的输出语音数据。

6.根据权利要求5所述的方法，其特征在于，根据更新后的状态估计矩阵和所述上一帧的输出语音数据确定当前帧的输入语音数据对应的声反馈估计，包括：

计算获得当前帧的输入语音数据对应的声反馈估计；

其中，为当前帧的输入语音数据对应的声反馈估计，H_t为当前帧的输出语音数据对应的状态估计矩阵，X_t为当前帧的参考信号。

7.根据权利要求1至6任一项所述的方法，其特征在于，根据更新后的状态估计矩阵、所述上一帧的输出语音数据和所述当前帧的混合语音数据确定所述当前帧的输出语音数据后，所述方法还包括：

根据预设的损失函数利用所述当前帧的输入语音数据和所述当前帧的输出语音数据进行计算，获得损失值；

利用所述损失值训练所述神经网络模型。

8.一种语音处理的装置，其特征在于，包括：

获取模块，用于获取上一帧的输出语音数据和当前帧的混合语音数据，所述当前帧的混合语音数据由所述上一帧的输出语音数据和当前帧的输入语音数据混合得到；

步长确定模块，用于根据所述上一帧的输出语音数据、所述当前帧的混合语音数据利用预设的神经网络模型获取步长；

状态估计矩阵确定模块，用于根据所述步长更新预设的自适应滤波器中与所述上一帧的输出语音数据对应的状态估计矩阵；

输出语音确定模块，用于根据更新后的状态估计矩阵、所述上一帧的输出语音数据和所述当前帧的混合语音数据确定所述当前帧的输出语音数据。

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现权利要求1至7任一项所述的语音处理的方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，所述计算机可执行指令促使处理器实现权利要求1至7任一项所述的语音处理的方法。