CN113516995B

CN113516995B - 声音处理方法和装置

Info

Publication number: CN113516995B
Application number: CN202110694724.0A
Authority: CN
Inventors: 王心恬; 马路; 杨嵩
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2021-12-10
Anticipated expiration: 2041-06-23
Also published as: CN113516995A

Abstract

本公开提供一种声音处理方法和装置，属于信号处理领域。所述方法包括：获取待处理的混合声音数据，将混合声音数据切分为多个混合音频帧，其中，混合声音数据包括目标声音数据和干扰声音数据；获取混合声音数据对应的参考声音数据，将参考声音数据切分为多个参考音频帧；调用回声消除模型，对于混合声音数据的一个混合音频帧，根据对应的参考声音数据的第一预设数目个参考音频帧，对混合音频帧进行回声消除处理，得到混合音频帧中的子目标声音数据，其中，第一预设数目个参考音频帧为混合音频帧对应的参考音频帧的当前帧及其之前接收到的音频帧；根据得到的混合声音数据的每个混合音频帧的子目标声音数据，确定混合声音数据中的目标声音数据。采用本公开，可以提高声音处理的效率。

Description

声音处理方法和装置

技术领域

本公开涉及信号处理领域，尤其涉及一种声音处理方法和装置。

背景技术

在会议或者手机免提等实际场景中，可以将采集声音数据的终端侧称为近端，相对应的一侧即为远端。近端可以接收到远端传输的声音数据，并通过扬声器发出相应的声音。

如图1所示的场景示意图，当用户处在一个封闭场所时，扬声器发出的声音可能经过空间的反射形成回声，与当前扬声器发出的声音共同形成干扰。也即是说，近端的麦克风可能采集到当前说话人的目标声音数据以及扬声器产生的干扰声音数据，使得远端的用户可能听到多种声音，大大降低通话质量。

因此，亟需一种声音处理方法对干扰声音数据进行消除。

发明内容

为了解决现有技术的问题，本公开实施例提供了一种声音处理方法和装置。技术方案如下：

根据本公开的一方面，提供了一种声音处理方法，所述方法包括：

获取待处理的混合声音数据，将所述混合声音数据切分为多个混合音频帧，其中，所述混合声音数据包括目标声音数据和干扰声音数据；

获取所述混合声音数据对应的参考声音数据，将所述参考声音数据切分为多个参考音频帧；

调用回声消除模型，对于所述混合声音数据的一个混合音频帧，根据对应的所述参考声音数据的第一预设数目个参考音频帧，对所述混合音频帧进行回声消除处理，得到所述混合音频帧中的子目标声音数据，其中，第一预设数目个参考音频帧为混合音频帧对应的参考音频帧的当前帧及其之前接收到的音频帧；

根据得到的所述混合声音数据的每个混合音频帧的子目标声音数据，确定所述混合声音数据中的目标声音数据。

根据本公开的另一方面，提供了一种声音处理装置，所述装置包括：

第一获取模块，用于获取待处理的混合声音数据，将所述混合声音数据切分为多个混合音频帧，其中，所述混合声音数据包括目标声音数据和干扰声音数据；

第二获取模块，用于获取所述混合声音数据对应的参考声音数据，将所述参考声音数据切分为多个参考音频帧；

调用模块，用于调用回声消除模型，对于所述混合声音数据的一个混合音频帧，根据对应的所述参考声音数据的第一预设数目个参考音频帧，对所述混合音频帧进行回声消除处理，得到所述混合音频帧中的子目标声音数据，其中，所述第一预设数目个参考音频帧为所述混合音频帧对应的参考音频帧的当前帧及其之前接收到的音频帧；

确定模块，用于根据得到的所述混合声音数据的每个混合音频帧的子目标声音数据，确定所述混合声音数据中的目标声音数据。

根据本公开的另一方面，提供了一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行上述声音处理方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述声音处理方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现上述声音处理方法。

本申请实施例中提供的一个或多个技术方案，对于待处理的一个混合音频帧，终端可以根据其起始时刻及其之前的第一预设数目个参考音频帧中所包含的信息，对该混合音频帧进行回声消除的处理。在此过程中，由于终端所使用的参考音频帧为固定的数目，而不是该混合音频帧之前的所有参考音频帧，减少了处理过程中的计算量，因此，可以提高声音处理的效率。

附图说明

在下面结合附图对于示例性实施例的描述中，本公开的更多细节、特征和优点被公开，在附图中：

图1示出了根据本公开示例性实施例的场景示意图；

图2示出了根据本公开示例性实施例的声音处理方法的流程图；

图3示出了根据本公开示例性实施例的音频帧示意图；

图4示出了根据本公开示例性实施例的音频帧示意图；

图5示出了根据本公开示例性实施例的回声消除模型结构示意图；

图6示出了根据本公开示例性实施例的声音处理方法的流程图；

图7示出了根据本公开示例性实施例的回声消除模型结构示意图；

图8示出了根据本公开示例性实施例的声音处理方法的流程图；

图9示出了根据本公开示例性实施例的回声消除模型结构示意图；

图10示出了根据本公开示例性实施例的回声消除模型结构示意图；

图11示出了根据本公开示例性实施例的声音处理方法的流程图；

图12示出了根据本公开示例性实施例的多头局部注意力模块结构示意图；

图13示出了根据本公开示例性实施例的数据准备流程图；

图14示出了根据本公开示例性实施例的数据准备流程图；

图15示出了根据本公开示例性实施例的训练方法流程图；

图16示出了根据本公开示例性实施例的声音处理装置的示意性框图；

图17示出了根据本公开示例性实施例的声音处理装置的示意性框图；

图18示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

本公开实施例提供了一种声音处理方法，该方法可以由终端、服务器和/或其他具备处理能力的设备完成。本公开实施例提供的方法可以由上述任一设备完成，也可以由多个设备共同完成，例如，终端进行信号采集后传输到服务器，服务器再对其进行回声消除的处理，本公开对此不作限定。

本公开实施例以终端为例，下面将参照图2所示的声音处理方法的流程图，对声音处理的方法进行介绍。

步骤201，终端获取待处理的混合声音数据，将混合声音数据切分为多个混合音频帧。

其中，混合声音数据包括目标声音数据和干扰声音数据。

在一种可能的实施方式中，终端的麦克风可以对当前环境中的声音数据进行采集。当近端的说话人说话时，麦克风采集到的声音数据是当前说话人对应的目标声音数据和扬声器产生的空间干扰声音数据的混合。本公开实施例提供的声音处理方法的目的在于，将混合声音数据中的干扰声音数据进行消除，恢复其中的目标声音数据。

终端可以按照预设的方式将混合声音数据切分为多个混合音频帧。可选的，预设的方式可以是，将混合音频数据切分为多个第一预设长度的混合音频帧，相邻的混合音频帧之间的间隔为第二预设长度，其中，第一预设长度大于第二预设长度。示例性的，如图3所示的音频帧示意图，每个混合音频帧的长度可以为32毫秒，帧移为8毫秒。当第一预设长度大于第二预设长度时，相邻的混合音频帧之间有重叠的部分，保证所利用数据的完整性，提高回声消除的准确性。

上述第一预设长度和第二预设长度可以由经验取得，本公开实施例对切分音频帧的具体处理方式不作限定。

步骤202，终端获取混合声音数据对应的参考声音数据，将参考声音数据切分为多个参考音频帧。

在一种可能的实施方式中，终端可以获取远端发送的声音数据，在进行回声消除时，将其作为参考声音数据进行处理。

在实际应用中，如会议的场景，近端的用户可能与多个用户进行会议，则近端可以接收到远端的多个终端发送的声音数据。如果扬声器发出声音时并不区分用户，则可以将当前接收到的所有声音数据作为参考声音数据；如果扬声器发出的声音为特定用户的声音，则可以获取扬声器当前播放的声音对应的声音数据，将其作为参考声音数据。本公开实施例对获取参考声音数据的具体处理方式不作限定。

进而，终端可以对参考声音数据进行切分，切分的方式与上述混合声音数据相同，此处不再赘述。

步骤203，终端调用回声消除模型，对于混合声音数据的一个混合音频帧，根据对应的参考声音数据的第一预设数目个参考音频帧，对混合音频帧进行回声消除处理，得到混合音频帧中的子目标声音数据。

其中，第一预设数目个参考音频帧为混合音频帧对应的参考音频帧的当前帧及其之前接收到的音频帧。示例性的，第一预设数目可以是3，本公开实施例对此不作限定。

回声消除模型可以是一种机器学习模型，在使用其进行回声消除之前，可以对其进行训练。回声消除模型的训练方法将在另一实施例中进行介绍，本公开实施例不再进行赘述。

上面介绍到终端将混合声音数据切分为多个混合音频帧，在本步骤中，终端可以按照时间顺序对每个混合音频帧进行回声消除的处理。

以一个混合音频帧为例，终端可以根据该混合音频帧的起始时刻，获取该起始时刻对应的及其之前的参考音频帧。如果待获取的参考音频帧的数目不满足第一预设数目，则根据预设的补充规则对参考音频帧进行补充，例如，可以将混合音频帧的起始时刻上的参考音频帧作为补充的参考音频帧，将获取的参考音频帧补充至第一预设数目个。

示例性的，如图4所示的音频帧示意图，以第一预设数目是3为例，其中的0-1矩阵是指参考音频帧的取用情况，对于t=0上的混合音频帧，可以获取t=0上的参考音频帧（t=0之前无参考音频帧）；对于t=1上的混合音频帧，可以获取t=0和t=1上的参考音频帧；对于t=2上的混合音频帧，可以获取t=0、t=1和t=2上的参考音频帧；对于t=3上的混合音频帧，可以获取t=1、t=2和t=3上的参考音频帧；对于t=4上的混合音频帧，可以获取t=2、t=3和t=4上的参考音频帧。

图4所示的第一预设数目个参考音频帧之间为连续的关系，在其他的实施例中，第一预设数目个参考音频帧之间还可以是间隔预设长度的关系，例如，第一预设数目个参考音频帧之间可以间隔一个音频帧，此时，对于图4中t=4上的混合音频帧，可以获取t=0、t=2和t=4上的参考音频帧。本公开实施例对上述参考音频帧之间的具体关系不作限定。

进而，终端可以将当前待处理的一个混合音频帧以及获取到的第一预设数目个参考音频帧作为回声消除模型的输入，通过回声消除模型的处理，输出得到该混合音频帧中包含的子目标声音数据。

终端对每个混合音频帧都可以进行上述处理，进而可以得到每个混合音频帧中的子目标声音数据。

由于从扬声器发出声音到麦克风采集混合声音数据的时间较短，待处理的混合音频帧之前的几帧参考音频帧中，可以包含有该混合音频帧中的干扰声音数据的信息。通过回声消除模型，基于参考音频帧的信息对混合音频帧中的干扰声音数据进行消除，不再需要对整个参考声音数据和混合声音数据进行时延对齐的处理，即可达到回声消除的目的。

而传统的回声消除方法中，需要对整个参考声音数据和混合声音数据进行时延对齐的处理，并且利用估计时延完成双端的数据对齐之后后续回声消除算法才能正常工作。时延可以由三部分组成，一部分是指终端接收到参考声音数据到播放的时间，一部分是指声音在空间中传播的时间。

但是，上述估计时延并不是真正的时延，每一部分都可能存在误差，直接影响到后续处理的准确性；本公开实施例不需要进行时延估计，并且可以直接利用原始的参考声音数据对混合声音数据进行回声消除，因此，可以提高回声消除的准确性。并且，传统的回声消除方法需要依次确定两部分的时延，待时延确定后才能进行后续的回声消除处理，处理的效率较低；本公开实施例不需要进行时延对齐，进而也不需要等待时延确定，因此，可以提高回声消除的效率。

可选的，如图5所示的回声消除模型结构示意图，回声消除模型至少包括参考声音特征提取模块、声音关系确定模块、回声消除模块。

上述参考声音特征提取模块可以用于提取参考声音数据的参考音频特征数据。上述声音关系确定模块可以用于确定目标声音数据与混合声音数据的关系数据，该关系数据用于表示目标声音数据与混合声音数据的相关程度。上述回声消除模块可以用于消除混合声音数据中的干扰声音数据。

相对应的，如图6所示的声音处理方法的流程图，上述步骤203的处理可以如下：

步骤2031，终端调用回声消除模型。

在一种可能的实施方式中，终端可以存储回声消除模型，当存在对混合声音数据的回声消除任务时，可以调用该回声消除模型。

步骤2032，当对混合声音数据的一个混合音频帧进行处理时，终端获取当前的一个混合音频帧，以及对应的参考声音数据的第一预设数目个参考音频帧。

上面的内容中已经介绍过获取参考音频帧的方式，此处不再赘述。

步骤2033，终端通过参考声音特征提取模块，对第一预设数目个参考音频帧进行处理，得到第一预设数目个参考音频帧的参考音频特征数据。

其中，上述参考音频特征数据可以用于表示第一预设数目个参考音频帧的音频特征信息。

在一种可能的实施方式中，终端可以将获取到的参考音频帧作为参考声音特征提取模块的输入，通过参考声音特征提取模块，对输入的第一预设数目个参考音频帧进行特征提取的处理，输出得到相应的参考音频特征数据。

步骤2034，终端通过声音关系确定模块，对参考音频特征数据和混合音频帧进行处理，得到混合音频帧中目标声音数据和混合声音数据的目标关系数据。

在一种可能的实施方式中，终端可以将参考声音特征提取模块输出的参考音频特征数据和待处理的混合音频帧，作为声音关系确定模块的输入，通过声音关系确定模块，对上述输入进行关系确定的处理，输出得到该混合音频帧中目标声音数据和混合声音数据的目标关系数据。

该目标关系数据可以是指该混合音频帧中目标声音数据所占的比例关系。目标关系数据还可以是指该混合音频帧中目标声音数据与混合声音数据的距离关系。本公开实施例对目标关系数据的具体形式不作限定。

可选的，如图7所示的回声消除模型结构示意图，声音关系确定模块可以至少包括混合声音特征提取模块和关系数据确定模块。参考音频特征数据可以包括参考音频特征向量和参考音频特征取值向量，上述步骤2033的处理可以为：终端通过参考声音特征提取模块，对第一预设数目个参考音频帧进行处理，得到第一预设数目个参考音频帧的参考音频特征向量和参考音频特征取值向量。

该参考音频特征向量可以用于表示参考音频数据的特征信息，该参考音频特征取值向量可以用于表示参考音频特征向量对应的特征取值。

相对应的，如图8所示的声音处理方法的流程图，上述步骤2034的处理可以如下：

步骤20341，终端通过混合声音特征提取模块，对混合音频帧进行处理，得到混合音频帧的混合音频特征向量。

其中，该混合音频特征向量可以用于表示混合音频数据的特征信息。

在一种可能的实施方式中，终端可以将待处理的混合音频帧作为混合声音特征提取模块的输入，通过混合声音特征提取模块，对输入的混合音频帧进行特征提取的处理，输出得到相应的混合音频特征向量。

步骤20341和上述步骤2033可以是同时进行处理，本公开实施例对步骤20341和上述步骤2033的处理顺序不作限定。

步骤20342，终端通过关系数据确定模块，对参考音频特征向量、参考音频特征取值向量和混合音频特征向量进行处理，得到混合音频帧中目标声音数据和混合声音数据的目标关系数据。

在一种可能的实施方式中，终端可以将参考音频特征向量、参考音频特征取值向量和混合音频特征向量作为关系数据确定模块的输入，进而可以确定参考音频特征向量和混合音频特征向量的相似度，根据该相似度和参考音频特征取值向量，确定混合音频帧中目标声音数据和混合声音数据的目标关系数据。

步骤2035，终端通过回声消除模块，对目标关系数据和混合音频帧进行处理，得到混合音频帧中的子目标声音数据。

在一种可能的实施方式中，终端可以将声音关系确定模块输出的目标关系数据，与混合音频帧一同作为回声消除模块的输入，通过回声消除模块，对输入的混合音频帧进行回声消除的处理，输出得到该混合音频帧中的子目标声音数据。

对于不同的目标关系数据，终端在回声消除模块中可以有不同的处理。例如，当目标关系数据为混合音频帧中目标声音数据所占的比例关系时，可以将混合音频帧乘上该目标关系数据，得到相应的子目标声音数据。当目标关系数据为混合音频帧中目标声音数据与混合声音数据的距离关系时，可以将混合音频帧减去该目标关系数据，得到相应的子目标声音数据。

步骤2036，终端通过上述确定一个混合音频帧的子目标声音数据的方法对混合声音数据的每个混合音频帧进行处理，得到每个混合音频帧的子目标声音数据。

终端对每个混合音频帧都可以进行上述步骤2031-2035的处理，此处不再赘述。

可选的，如图9所示的回声消除模型结构示意图，上述参考声音特征提取模块可以包括堆叠的第二预设数目个子参考声音特征提取模块，声音关系确定模块可以包括堆叠的第三预设数目个子声音关系确定模块。每个子声音关系确定模块的输入至少包括参考声音特征提取模块的输出。

其中，第二预设数目和第三预设数目可以是大于1的整数，其取值由经验取得，例如，第二预设数目和第三预设数目的取值可以为6。第二预设数目和第三预设数目可以相等，也可以不相等，本公开实施例对其具体取值不作限定。

在一种可能的实施方式中，终端可以将参考声音特征模块的输入，即第一预设数目个参考音频帧，作为第一个子参考声音特征提取模块的输入，后续每个子参考声音特征提取模块的输入可以是前一个子参考声音特征提取模块的输出，将最后一个子参考声音特征提取模块的输出作为参考声音特征模块的输出。

声音关系确定模块同理，终端可以将声音关系确定模块的输入，即参考声音特征提取模块输出的参考音频特征数据和待处理的混合音频帧，作为第一个子声音关系确定模块的输入，后续每个子声音关系确定模块的输入可以是前一个子声音关系确定模块的输出以及参考声音特征模块的输出，将最后一个子声音关系确定模块的输出作为声音关系确定模块的输出。

子模块堆叠的结构可以增加回声消除模型的网络深度，增加感受野，进而可以提高对干扰声音数据的抑制程度，提高回声消除的准确性。

步骤204，终端根据得到的混合声音数据的每个混合音频帧的子目标声音数据，确定混合声音数据中的目标声音数据。

在一种可能的实施方式中，终端在获取到每个混合音频帧的子目标声音数据后，可以将每个子目标声音数据按照对应的混合音频帧的时间顺序，合成目标声音数据。该目标声音数据可以是干净的语音信号，例如，在会议的实际场景中，目标声音数据可以是近端说话人的说话声对应的数据。

进而，终端可以将获取到的目标声音数据发送给远端对应的至少一个终端。由于目标声音数据是干净的语音信号，在会议、语音通话等实际应用场景中，可以提高近端和远端的通话质量。

或者，终端还可以基于目标声音数据进行后续处理，如语音识别的处理，提高语音识别的准确性。本公开实施例对基于目标声音数据进行的后续处理不作限定。

本公开实施例中，对于待处理的一个混合音频帧，终端可以根据其起始时刻及其之前的第一预设数目个参考音频帧中所包含的信息，对该混合音频帧进行回声消除的处理。在此过程中，由于终端所使用的参考音频帧为固定的数目，而不是该混合音频帧之前的所有参考音频帧，减少了处理过程中的计算量，因此，本公开实施例可以提高声音处理的效率。

本公开实施例中以回声消除模型为Transformer（转换器）模型为例，对声音处理方法进行介绍。Transformer模型是一种基于Attention（注意力）机制的翻译模型，Attention机制是一种信息分配机制或者信息对齐机制。

如图10所示的回声消除模型结构示意图，Transformer模型中可以包括N个堆叠的编码模块（Encoder）和M个堆叠的解码模块（Decoder）。编码模块中可以包括第一多头局部注意力模块（Multi-Head Local Attention）、第一残差连接和归一化模块（Add & Norm）、第一全连接层（Fully Connected Feed-Forward Network）和第二残差连接和归一化模块。解码模块中可以包括第二多头局部注意力模块、第三残差连接和归一化模块、第三多头局部注意力模块、第四残差连接和归一化模块、第二全连接层和第五残差连接和归一化模块。在编码模块之前，还可以包括第一长短时记忆网络（Long Short-Term Memory, LSTM）。在解码模块之前，还可以包括第二长短时记忆网络。在解码模块之后，还可以包括线性全连接层（Linear）、激活函数模块（Sigmoid）和相乘模块。

示例性的，回声消除模型的网络结构配置如下表1所示：

表1 回声消除模型的网络结构配置

名称	结构	相关参数
			参考声音输入	对数幅度谱	129维
混合声音输入	对数幅度谱	129维
			Embedding（嵌入向量）	1层长短时记忆网络	1024个隐藏节点
编码模块（6次堆叠）	1个多头局部注意力模块 1个全连接层	1024个隐藏节点
			解码模块（6次堆叠）	2个多头局部注意力模块 1个全连接层	1024个隐藏节点
输出	1层运算	129维

具体的网络结构配置在不同的应用中可能不同，本公开实施例对此不作限定。

上述N、M可以是大于等于1的整数，本公开实施例对此不作限定。

其中，编码模块及其相关模块可以对应于上述参考声音特征提取模块，解码模块及其相关模块可以对应于上述声音关系确定模块（其中第二多头局部注意力模块及其相关模块对应于混合声音特征提取模块，第三多头局部注意力模块及其相关模块对应于关系数据确定模块），相乘模块及其相关模块可以对应于上述回声消除模块。

以N和M等于1为例，参照图11所示的声音处理方法的流程图，对本公开实施例提供的声音处理方法进行介绍。

步骤1101，终端获取待处理的混合声音数据，将混合声音数据切分为多个混合音频帧。

步骤1101与上述步骤201同理，此处不再赘述。

步骤1102，终端获取混合声音数据对应的参考声音数据，将参考声音数据切分为多个参考音频帧。

步骤1102与上述步骤202同理，此处不再赘述。

步骤1103，终端调用回声消除模型。

步骤1103与上述步骤2031同理，此处不再赘述。

步骤1104，当对混合声音数据的一个混合音频帧进行处理时，终端获取当前的一个混合音频帧，以及对应的参考声音数据的第一预设数目个参考音频帧。

步骤1104与上述步骤2032同理，此处不再赘述。

步骤1105，终端通过参考声音特征提取模块，对第一预设数目个参考音频帧进行处理，得到第一预设数目个参考音频帧对应的参考音频特征向量和参考音频特征取值向量。

在一种可能的实施方式中，在将第一预设数目个参考音频帧输入模型之前，可以将每个参考音频帧分别经过256点的短时傅里叶变换（Short-Time Fourier Transform,STFT）之后变换到频域，得到129维的时频表示。终端可以将上述第一预设数目个参考音频帧的时频表示取绝对值对数谱，通过第一长短时记忆网络进行处理，输出得到一个包含时序信息的深度表示Embedding。通过长短时记忆网络得到的Embedding可以便于后续的网络处理。

将第一预设数目个参考音频帧对应的Embedding作为编码模块的输入，在编码模块中，通过第一多头局部注意力模块对该输入进行处理，输出得到第一预设数目个参考音频帧对应的局部自相关信息。如图12所示的多头局部注意力模块结构示意图，多头局部注意力模块的输入为Q（Query，查询）向量、K（Key，键值）向量和V（Value，取值）向量，在本步骤中，可以将第一预设数目个参考音频帧对应的Embedding作为Q向量、K向量和V向量，也即是Q=K=V=Embedding。在多头局部注意力模块中，可以将Q向量、K向量和V向量通过线性全连接层生成不同的向量组合，进而可以通过按比例的点积注意力模块（Scaled Dot-ProductAttention）确定每个向量组合的注意力（Attention）数值，通过整合模块（Concat,concatenate的缩写，连接）对每个向量组合的注意力数值进行整合，最后通过线性全连接层对整合后的数值进行处理，输出得到第一预设数目个参考音频帧对应的局部自相关信息。

其中，如图12所示的多头局部注意力模块结构示意图，在按比例的点积注意力模块中，可以将输入的Q向量、K向量进行矩阵相乘，得到Q向量和K向量的相似度，然后可以对该相似度按比例缩放（例如，可以是除以一个标量），经过预设的掩蔽向量进行掩蔽，再经过SoftMax函数（归一化指数函数）进行映射，得到Q向量相对于K向量中所有向量的相似度，最后将其与V向量进行矩阵相乘，输出得到对应的注意力数值。

然后，终端可以通过第一残差连接和归一化模块，将第一预设数目个参考音频帧对应的Embedding和局部自相关信息相加后进行归一化，得到归一化后的第一结果。进而，可以通过第一全连接层对将该第一结果进行处理，通过第二残差连接和归一化模块，将第一全连接层的输出与该第一结果相加后进行归一化，得到归一化后的第二结果。该第二结果即为第一预设数目个参考音频帧的参考音频特征数据，也即是参考音频特征向量和参考音频特征取值向量。在每个归一化处理时增加一条输入到输出的直连，可以在增加网络深度的同时保存输入音频的信息，提高回声消除的准确性。

步骤1106，终端通过混合声音特征提取模块，对混合音频帧进行处理，得到混合音频帧的混合音频特征向量。

在一种可能的实施方式中，在将待处理的混合音频帧输入模型之前，可以将该混合音频帧经过256点的短时傅里叶变换之后变换到频域，得到129维的时频表示。终端可以将上述混合音频帧的时频表示取绝对值对数谱，通过第二长短时记忆网络进行处理，输出得到对应的深度表示Embedding。

然后，终端可以通过第二多头局部注意力模块对混合音频帧对应的Embedding进行处理，输出得到混合音频帧对应的局部自相关信息。第二多头局部注意力模块的处理过程与上面介绍的过程同理，此处不再赘述。

终端可以通过第三残差连接和归一化模块，将混合音频帧对应的Embedding和局部自相关信息相加后进行归一化，得到归一化后的第三结果。该第三结果即为混合音频帧对应的混合音频特征向量。

步骤1107，终端通过关系数据确定模块，对参考音频特征向量、参考音频特征取值向量和混合音频特征向量进行处理，得到混合音频帧中目标声音数据和混合声音数据的目标关系数据。

在一种可能的实施方式中，终端可以将步骤1105中确定的参考音频特征向量作为K向量，参考音频特征取值向量作为V向量，将步骤1106中确定的混合音频特征向量作为Q向量，通过第三多头局部注意力模块进行处理，输出得到第一预设数目个参考音频帧和混合音频帧之间的相关信息。第三多头局部注意力模块的处理过程与上述同理，此处不再赘述。

然后，终端可以通过第四残差连接和归一化模块，将混合音频帧对应的混合音频特征向量和第三多头局部注意力模块输出的相关信息相加后进行归一化，得到归一化后的第四结果。进而，可以通过第二全连接层对将该第四结果进行处理，通过第五残差连接和归一化模块，将第二全连接层的输出与该第四结果相加后进行归一化，得到归一化后的第五结果。

终端可以将得到的第五结果通过解码模块之后的线性全连接层处理后，再经过激活函数模块进行计算，得到掩码向量（Mask）。该掩码向量即为混合音频帧中目标声音数据和混合声音数据的目标关系数据，可以用于表示混合音频帧中，每个时频点上目标声音数据占混合声音数据的比例。

步骤1108，终端通过回声消除模块，对目标关系数据和混合音频帧进行处理，得到混合音频帧中的子目标声音数据。

在一种可能的实施方式中，终端可以通过相乘模块，将目标关系数据乘上混合音频帧，也即是将混合声音数据的时频表示乘上每个时频点上目标声音数据占混合声音数据的比例，计算得到该混合音频帧中的子目标声音数据的时频表示。

步骤1109，终端通过上述确定一个混合音频帧的子目标声音数据的方法对混合声音数据的每个混合音频帧进行处理，得到每个混合音频帧的子目标声音数据。

终端对每个混合音频帧都可以进行上述处理，此处不再赘述。

步骤1110，终端根据得到的混合声音数据的每个混合音频帧的子目标声音数据，确定混合声音数据中的目标声音数据。

在一种可能的实施方式中，终端在得到每个混合音频帧对应的子目标声音数据的时频表示后，可以根据子目标声音数据的时频表示进行相应的傅里叶逆变换，得到每个子目标声音数据在时域上的表示。进而，终端可以按照每个子目标声音数据对应的混合音频帧的时序信息，对每个子目标声音数据进行拼接，可以得到待获取的目标声音数据。

本公开实施例中，终端可以利用Transformer模型对混合声音数据进行回声消除处理，在Transformer模型中采用了局部注意力机制，也即是对于待处理的一个混合音频帧，终端可以根据其起始时刻及其之前的第一预设数目个参考音频帧中所包含的信息，对该混合音频帧进行回声消除的处理。在此过程中，由于终端所使用的参考音频帧为固定的数目，而不是该混合音频帧之前的所有参考音频帧，减少了处理过程中的计算量，因此，本公开实施例可以提高声音处理的效率。

本公开实施例提供了上述回声消除模型的训练方法。

可选的，如图13所示的数据准备流程图，终端在获取训练样本之前，还可以基于干净的声音数据进行数据准备，生成训练样本，相应的处理可以如下：

步骤1301，终端获取第一声音数据，将第一声音数据作为目标声音样本。

其中，第一声音数据可以是多个干净的声音数据，其来源可以是声音数据库，也可以是预先录制的干净声音数据，本公开实施例对训练过程所使用的声音数据的具体来源不作限定。该第一声音数据可以用于模拟近端的目标声音数据。

在一种可能的实施方式中，终端可以从预先存储的声音数据中，获取第一声音数据，将第一声音数据切分为多个音频帧，切分的过程与上述同理。如图14所示的数据准备流程图，终端可以将每个音频帧进行短时傅里叶变换，得到相应的时频表示S(t,f)，变换过程与上述同理。进而，终端可以将得到的第一声音数据的每个时频表示S(t,f)，作为目标声音样本。将训练过程中所使用的目标声音样本的音频帧称为训练目标音频帧。

步骤1302，终端获取第二声音数据，将第二声音数据作为参考声音样本。

与第一声音数据同理，第二声音数据可以是多个干净的声音数据。该第二声音数据可以用于模拟远端的参考声音数据。

在一种可能的实施方式中，终端可以获取第二声音数据，将第二声音数据切分为多个音频帧，并对第二声音数据的每个音频帧进行短时傅里叶变换，得到相应的时频表示E(t,f)，具体过程与第一声音数据同理，此处不再赘述。进而，终端可以将得到的第二声音数据的每个时频表示E(t,f)，作为参考声音样本。将训练过程中所使用的参考声音样本的音频帧称为训练参考音频帧。

步骤1303，终端根据第一声音数据和第二声音数据，生成第三声音数据，将第三声音数据作为混合声音样本。

在一种可能的实施方式中，终端可以将第二声音数据经过非线性处理（Non-Linear Process，NLP）以及房间冲激响应（RoomImpulseResponse，RIR）的处理，用于模拟扬声器发出的声音经过空间反射后形成的回声。然后，终端可以将第一声音数据和处理后的第二声音数据进行相加，得到第三声音数据，该第三声音数据可以用于模拟存在干扰的混合声音数据。进而，终端可以对第三声音数据的每个音频帧进行短时傅里叶变换，得到相应的时频表示X(t,f)，具体过程与第一声音数据同理，此处不再赘述。终端可以将得到的第三声音数据的每个时频表示X(t,f)，作为混合声音样本。将训练过程中所使用的混合声音样本的音频帧称为训练混合音频帧。

在对回声消除模型的训练过程中，可以将上述目标声音样本作为训练标签。

可选的，还可以将目标声音样本与混合声音样本对应的关系数据作为训练标签，具体处理如步骤1304所示：

步骤1304，终端根据第一声音数据和第三声音数据，确定相应的关系数据，将确定的关系数据作为关系数据样本。

在一种可能的实施方式中，终端可以根据第一声音数据的时频信息，和相对应的第三声音数据的时频信息，确定相应的关系数据。

示例性的，对于第一声音数据中的一个音频帧，终端可以对该音频帧的时频表示取绝对值的平方，确定该音频帧中每个时频点的能量，也即是

。同理，终端可以确定该音频帧在第三声音数据中相对应的音频帧中每个时频点的能量，也即是

。然后，终端可以将第一声音数据的音频帧的能量除以相对应的第三声音数据的音频帧的能量后开根号，计算得到相应的关系数据，也即是

。该关系数据可以用于表示第三声音数据的音频帧中，每个时频点上第一声音数据的幅度占第三声音数据的幅度的比例。

终端可以对第三声音数据的每个音频帧确定相应的关系数据，得到多个关系数据M _f,t，将该多个关系数据作为关系数据样本。将关系数据样本中的关系数据作为训练标签，称为关系数据标签。

由于回声消除模块不需要进行训练，则将关系数据样本中的关系数据作为训练标签时，可以减少回声消除模块的相应处理，提高模型训练的效率。

下面参照图15所示的训练方法流程图，对该训练方法进行介绍。

步骤1501，终端获取训练样本。

其中，训练样本可以包括混合声音样本、参考声音样本。混合声音样本可以基于参考声音样本和目标声音样本得到。混合声音样本可以包括多个训练混合音频帧，参考声音样本可以包括多个训练参考音频帧。

可选的，训练样本还可以包括关系数据样本，该关系数据样本可以用于表示目标声音样本和混合声音样本的相关程度。

步骤1502，终端获取初始回声消除模型。

其中，初始回声消除模型的各个模型参数可以是初始值。

可选的，初始回声消除模型中可以至少包括初始参考声音特征提取模块、初始声音关系确定模块、回声消除模块。回声消除模块可以是矩阵相乘和/或加减模块，可以不进行参数调整。

在一种可能的实施方式中，当终端执行模型训练的任务时，可以获取预先设置的初始回声消除模型。

步骤1503，终端根据训练样本中每个训练混合音频帧以及每个训练混合音频帧对应的第一预设数目个训练参考音频帧，对初始回声消除模型进行训练，得到训练后的回声消除模型。

在一种可能的实施方式中，终端可以通过上述参考声音样本和混合声音样本对初始回声消除模型进行训练。

终端可以调用初始回声消除模型。当对混合声音样本中的一个训练混合音频帧进行处理时，终端可以在混合声音样本中获取该训练混合音频帧，在参考声音样本中，获取相对应的第一预设数目个训练参考音频帧

当训练标签为目标声音样本时，终端可以在目标声音样本中，获取对应的训练目标音频帧。然后，终端可以通过初始回声消除模型对该训练混合音频帧以及对应的第一预设数目个训练参考音频帧进行处理，得到该训练混合音频帧中的子目标声音数据。进而，终端可以根据得到的子目标声音数据与对应的训练目标音频帧，对初始回声消除模型的参数进行调整。

可选的，当训练标签为关系数据样本时，步骤1503的处理可以如下：终端根据训练样本中每个训练混合音频帧、每个训练混合音频帧对应的第一预设数目个训练参考音频帧以及每个训练混合音频帧对应的关系数据样本，对初始回声消除模型进行训练，得到训练后的回声消除模型。

在一种可能的实施方式中，终端可以在关系数据样本中，获取对应的关系数据标签。终端可以通过初始参考声音特征提取模块，对第一预设数目个训练参考音频帧进行处理，得到第一预设数目个训练参考音频帧的训练参考音频特征数据。终端通过初始声音关系确定模块，对训练参考音频特征数据和训练混合音频帧进行处理，得到训练混合音频帧中目标声音样本和混合声音样本的训练关系数据。该训练关系数据可以用于表示预测的训练混合音频帧中目标声音样本和混合声音样本的相关程度。具体处理过程与上述同理，此处不再详细进行介绍。

然后，终端可以根据训练关系数据和相应的关系数据标签，对初始回声消除模型的模型参数进行调整。处理过程可以是：终端可以将训练关系数据和相应的关系数据标签输入损失函数，确定损失函数的梯度变化，通过损失函数的梯度变化，对初始回声消除模型的模型参数进行调整。例如，损失函数可以如下：

其中，

为损失函数，

为关系数据标签，

为训练关系数据，f为频率，t为时间。损失函数越小，表明训练关系数据与关系数据标签越接近，回声消除模型的准确性越高。

当达到训练结束条件时，终端可以获取当前的回声消除模型，作为训练后的回声消除模型。

其中，训练结束条件可以是训练次数达到第一阈值，和/或模型正确率达到第二阈值，和/或损失函数低于第三阈值。上述第一阈值、第二阈值和第三阈值可以根据经验设置。本公开实施例对具体的训练结束条件不作限定。

本公开实施例中，终端可以根据参考声音样本、混合声音样本和关系数据样本进行模型训练，训练得到的回声消除模型可以用于上述公开实施例提供的声音处理方法。当训练得到的回声消除模型用于上述公开实施例提供的声音处理方法时，由于终端所使用的参考音频帧为固定的数目，而不是该混合音频帧之前的所有参考音频帧，减少了处理过程中的计算量，因此，可以提高声音处理的效率。

本公开实施例提供了一种声音处理装置，该装置用于实现上述声音处理方法。如图16所示的声音处理装置的示意性框图，该装置包括：

第一获取模块1601，用于获取待处理的混合声音数据，将混合声音数据切分为多个混合音频帧，其中，混合声音数据包括目标声音数据和干扰声音数据；

第二获取模块1602，用于获取混合声音数据对应的参考声音数据，将参考声音数据切分为多个参考音频帧；

调用模块1603，用于调用回声消除模型，对于混合声音数据的一个混合音频帧，根据对应的参考声音数据的第一预设数目个参考音频帧，对混合音频帧进行回声消除处理，得到混合音频帧中的子目标声音数据，其中，第一预设数目个参考音频帧为混合音频帧对应的参考音频帧的当前帧及其之前接收到的音频帧；

确定模块1604，用于根据得到的混合声音数据的每个混合音频帧的子目标声音数据，确定混合声音数据中的目标声音数据。

可选的，回声消除模型至少包括参考声音特征提取模块、声音关系确定模块、回声消除模块；

参考声音特征提取模块用于提取参考声音数据的参考音频特征数据；

声音关系确定模块用于确定目标声音数据与混合声音数据的关系数据，关系数据用于表示目标声音数据与混合声音数据的相关程度；

回声消除模块用于消除混合声音数据中的干扰声音数据。

可选的，调用模块1603，用于：

调用回声消除模型；

当对混合声音数据的一个混合音频帧进行处理时，获取当前的一个混合音频帧，以及对应的参考声音数据的第一预设数目个参考音频帧；

通过参考声音特征提取模块，对第一预设数目个参考音频帧进行处理，得到第一预设数目个参考音频帧的参考音频特征数据；

通过声音关系确定模块，对参考音频特征数据和混合音频帧进行处理，得到混合音频帧中目标声音数据和混合声音数据的目标关系数据；

通过回声消除模块，对目标关系数据和混合音频帧进行处理，得到混合音频帧中的子目标声音数据；

通过上述确定一个混合音频帧的子目标声音数据的方法对所述混合声音数据的每个混合音频帧进行处理，得到每个混合音频帧的子目标声音数据。

可选的，参考音频特征数据包括参考音频特征向量和参考音频特征取值向量；声音关系确定模块至少包括混合声音特征提取模块和关系数据确定模块；

调用模块1603，用于：

通过混合声音特征提取模块，对混合音频帧进行处理，得到混合音频帧的混合音频特征向量；

通过关系数据确定模块，对参考音频特征向量、参考音频特征取值向量和混合音频特征向量进行处理，得到混合音频帧中目标声音数据和混合声音数据的目标关系数据。

可选的，参考声音特征提取模块包括堆叠的第二预设数目个子参考声音特征提取模块，声音关系确定模块包括堆叠的第三预设数目个子声音关系确定模块；

每个子声音关系确定模块的输入至少包括参考声音特征提取模块的输出。

可选的，如图17所示的声音处理装置的示意性框图，所述装置还包括训练模块1605，训练模块1605用于：

获取训练样本，训练样本包括混合声音样本、参考声音样本，混合声音样本基于参考声音样本和目标声音样本得到，混合声音样本包括多个训练混合音频帧，参考声音样本包括多个训练参考音频帧；

获取初始回声消除模型；

根据训练样本中每个训练混合音频帧以及每个训练混合音频帧对应的第一预设数目个训练参考音频帧，对初始回声消除模型进行训练，得到训练后的回声消除模型。

可选的，训练样本还包括关系数据样本，关系数据样本用于表示目标声音样本和混合声音样本的相关程度；

训练模块1605，用于根据训练样本中每个训练混合音频帧、每个训练混合音频帧对应的第一预设数目个训练参考音频帧以及每个训练混合音频帧对应的关系数据样本，对初始回声消除模型进行训练，得到训练后的回声消除模型。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

参考图18，现将描述可以作为本公开的服务器或客户端的电子设备1800的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图18所示，电子设备1800包括计算单元1801，其可以根据存储在只读存储器（ROM）1802中的计算机程序或者从存储单元1808加载到随机访问存储器（RAM）1803中的计算机程序，来执行各种适当的动作和处理。在RAM 1803中，还可存储设备1800操作所需的各种程序和数据。计算单元1801、ROM 1802以及RAM 1803通过总线1804彼此相连。输入/输出（I/O）接口1805也连接至总线1804。

电子设备1800中的多个部件连接至I/O接口1805，包括：输入单元1806、输出单元1807、存储单元1808以及通信单元1809。输入单元1806可以是能向电子设备1800输入信息的任何类型的设备，输入单元1806可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1807可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1804可以包括但不限于磁盘、光盘。通信单元1809允许电子设备1800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元1801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1801的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1801执行上文所描述的各个方法和处理。例如，在一些实施例中，声音处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1802和/或通信单元1809而被载入和/或安装到电子设备1800上。在一些实施例中，计算单元1801可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行声音处理方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims

1.一种声音处理方法，其特征在于，所述方法包括：

调用回声消除模型，对于所述混合声音数据的一个混合音频帧，根据对应的所述参考声音数据的第一预设数目个参考音频帧，对所述混合音频帧进行回声消除处理，得到所述混合音频帧中的子目标声音数据，其中，所述第一预设数目个参考音频帧为所述混合音频帧对应的参考音频帧的当前帧及其之前接收到的音频帧；

根据得到的所述混合声音数据的每个混合音频帧的子目标声音数据，确定所述混合声音数据中的目标声音数据；

所述回声消除模型至少包括参考声音特征提取模块、声音关系确定模块、回声消除模块；

所述参考声音特征提取模块用于提取参考声音数据的参考音频特征数据；

所述声音关系确定模块用于确定目标声音数据与混合声音数据的关系数据，所述关系数据用于表示目标声音数据与混合声音数据的相关程度；

所述回声消除模块用于消除混合声音数据中的干扰声音数据。

2.根据权利要求1所述的声音处理方法，其特征在于，所述调用回声消除模型，对于所述混合声音数据的一个混合音频帧，根据对应的所述参考声音数据的第一预设数目个参考音频帧，对所述混合音频帧进行回声消除处理，得到所述混合音频帧中的子目标声音数据，包括：

调用回声消除模型；

当对所述混合声音数据的一个混合音频帧进行处理时，获取当前的一个混合音频帧，以及对应的所述参考声音数据的第一预设数目个参考音频帧；

通过所述参考声音特征提取模块，对所述第一预设数目个参考音频帧进行处理，得到所述第一预设数目个参考音频帧的参考音频特征数据；

通过声音关系确定模块，对所述参考音频特征数据和所述混合音频帧进行处理，得到所述混合音频帧中目标声音数据和混合声音数据的目标关系数据；

通过所述回声消除模块，对所述目标关系数据和所述混合音频帧进行处理，得到所述混合音频帧中的子目标声音数据；

通过上述确定一个混合音频帧的子目标声音数据的方法，对所述混合声音数据的每个混合音频帧进行处理，得到每个混合音频帧的子目标声音数据。

3.根据权利要求2所述的声音处理方法，其特征在于，所述参考音频特征数据包括参考音频特征向量和参考音频特征取值向量；所述声音关系确定模块至少包括混合声音特征提取模块和关系数据确定模块；

所述通过声音关系确定模块，对所述参考音频特征数据和所述混合音频帧进行处理，得到所述混合音频帧中目标声音数据和混合声音数据的目标关系数据，包括：

通过所述混合声音特征提取模块，对所述混合音频帧进行处理，得到所述混合音频帧的混合音频特征向量；

通过所述关系数据确定模块，对所述参考音频特征向量、所述参考音频特征取值向量和所述混合音频特征向量进行处理，得到所述混合音频帧中目标声音数据和混合声音数据的目标关系数据。

4.根据权利要求1-3任一所述的声音处理方法，其特征在于，所述参考声音特征提取模块包括堆叠的第二预设数目个子参考声音特征提取模块，所述声音关系确定模块包括堆叠的第三预设数目个子声音关系确定模块；

每个子声音关系确定模块的输入至少包括所述参考声音特征提取模块的输出。

5.根据权利要求1所述的声音处理方法，其特征在于，所述回声消除模型的训练方法包括：

获取训练样本，所述训练样本包括混合声音样本、参考声音样本，所述混合声音样本基于所述参考声音样本和目标声音样本得到，所述混合声音样本包括多个训练混合音频帧，所述参考声音样本包括多个训练参考音频帧；

获取初始回声消除模型；

根据所述训练样本中每个训练混合音频帧以及所述每个训练混合音频帧对应的第一预设数目个训练参考音频帧，对所述初始回声消除模型进行训练，得到训练后的回声消除模型。

6.根据权利要求5所述的声音处理方法，其特征在于，所述训练样本还包括关系数据样本，所述关系数据样本用于表示所述目标声音样本和所述混合声音样本的相关程度；

所述根据所述训练样本中每个训练混合音频帧以及所述每个训练混合音频帧对应的第一预设数目个训练参考音频帧，对所述初始回声消除模型进行训练，得到训练后的回声消除模型，包括：

根据所述训练样本中每个训练混合音频帧、所述每个训练混合音频帧对应的第一预设数目个训练参考音频帧以及所述每个训练混合音频帧对应的关系数据样本，对所述初始回声消除模型进行训练，得到训练后的回声消除模型。

7.一种声音处理装置，其特征在于，所述装置包括：

确定模块，用于根据得到的所述混合声音数据的每个混合音频帧的子目标声音数据，确定所述混合声音数据中的目标声音数据；

8.根据权利要求7所述的声音处理装置，其特征在于，所述调用模块，用于：

调用回声消除模型；

9.根据权利要求8所述的声音处理装置，其特征在于，所述参考音频特征数据包括参考音频特征向量和参考音频特征取值向量；所述声音关系确定模块至少包括混合声音特征提取模块和关系数据确定模块；

所述调用模块，用于：

10.根据权利要求7-9任一所述的声音处理装置，其特征在于，所述参考声音特征提取模块包括堆叠的第二预设数目个子参考声音特征提取模块，所述声音关系确定模块包括堆叠的第三预设数目个子声音关系确定模块；

11.根据权利要求7所述的声音处理装置，其特征在于，所述装置还包括训练模块，所述训练模块用于：

获取初始回声消除模型；

12.根据权利要求11所述的声音处理装置，其特征在于，所述训练样本还包括关系数据样本，所述关系数据样本用于表示所述目标声音样本和所述混合声音样本的相关程度；

所述训练模块，用于根据所述训练样本中每个训练混合音频帧、所述每个训练混合音频帧对应的第一预设数目个训练参考音频帧以及所述每个训练混合音频帧对应的关系数据样本，对所述初始回声消除模型进行训练，得到训练后的回声消除模型。

13.一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-6中任一项所述的方法。