CN115294997A

CN115294997A - 语音处理方法、装置、电子设备及存储介质

Info

Publication number: CN115294997A
Application number: CN202210768487.2A
Authority: CN
Inventors: 赵昊然; 李楠; 韩润强; 陈联武; 郑羲光; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-11-04
Anticipated expiration: 2042-06-30

Abstract

本公开关于一种语音处理方法、装置、电子设备及存储介质，所述方法包括：确定源语音信号的信号频谱；将所述源语音信号的信号频谱分别输入到多个回声消除模型进行回声消除处理，得到多个已处理信号频谱；所述多个回声消除模型的回声消除性能不同；将所述多个已处理信号频谱，以及所述源语音信号的信号频谱输入到信号融合模型进行信号融合，得到与所述多个已处理信号频谱各自对应的权重信息；所述多个已处理信号频谱各自对应的权重信息与所述多个回声消除模型的回声消除性能相匹配；基于所述多个已处理信号频谱以及所述多个已处理信号频谱各自对应的权重信息进行加权求和，得到目标语音信号的信号频谱。本公开能够提高回声消除的准确性。

Description

语音处理方法、装置、电子设备及存储介质

技术领域

本公开涉及语音处理技术领域，尤其涉及一种语音处理方法、装置、电子设备及存储介质。

背景技术

在实时通讯场景中，声学回声是一个重要问题，为了解决这个问题，多种多样的声学回声消除系统以及方法被设计出来。

相关技术中，将深度学习算法应用于语音处理技术领域，基于深度学习方法训练得到的回声消除模型可能会采用不同的网络结构、不同的损失函数以及不同的训练方法等，从而使得训练得到的回声消除模型有着各自的优势和劣势，进而使得这些回声消除模型的回声消除结果不准确。

发明内容

本公开提供一种语音处理方法、装置、电子设备及存储介质，以至少解决相关技术中回声消除模型的回声消除结果不准确的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种语音处理方法，包括：

确定源语音信号的信号频谱；

将所述源语音信号的信号频谱分别输入到多个回声消除模型进行回声消除处理，得到多个已处理信号频谱；所述多个回声消除模型的回声消除性能不同；

将所述多个已处理信号频谱，以及所述源语音信号的信号频谱输入到信号融合模型进行信号融合，得到与所述多个已处理信号频谱各自对应的权重信息；所述多个已处理信号频谱各自对应的权重信息与所述多个回声消除模型的回声消除性能相匹配；

基于所述多个已处理信号频谱以及所述多个已处理信号频谱各自对应的权重信息进行加权求和，得到目标语音信号的信号频谱。

在一示例性实施例中，所述信号融合模型包括局部特征提取层和时序特征提取层；

所述将所述多个已处理信号频谱，以及所述源语音信号的信号频谱输入到信号融合模型进行信号融合，得到与所述多个已处理信号频谱各自对应的权重信息，包括：

基于所述局部特征提取层对所述多个已处理信号频谱，以及所述源语音信号的信号频谱进行局部特征提取，得到与所述多个已处理信号频谱，以及所述源语音信号的信号频谱对应的局部频谱特征信息；

基于所述时序特征提取层对所述局部频谱特征信息进行时序特征提取，得到与所述多个已处理信号频谱，以及所述源语音信号的信号频谱对应的时序特征信息；

基于所述时序特征信息确定与所述多个已处理信号频谱各自对应的权重信息。

在一示例性实施例中，所述信号频谱表征信号在每个时频点的信号能量信息；所述每个时频点基于时间维度以及频率维度确定；

所述基于所述局部特征提取层对所述多个已处理信号频谱，以及所述源语音信号的信号频谱进行局部特征提取，得到与所述多个已处理信号频谱，以及所述源语音信号的信号频谱对应的局部频谱特征信息之前，所述方法还包括：

基于所述多个已处理信号频谱、所述源语音信号的信号频谱、与所述多个已处理信号频谱对应的输入通道信息，以及与所述源语音信号的信号频谱对应的输入通道信息，构建三维语音信号输入矩阵；所述三维语音信号输入矩阵的维度包括时间维度、频率维度以及通道维度。

在一示例性实施例中，所述局部特征提取层包括多个卷积层；

所述基于所述局部特征提取层对所述多个已处理信号频谱，以及所述源语音信号的信号频谱进行局部特征提取，得到与所述多个已处理信号频谱，以及所述源语音信号的信号频谱对应的局部频谱特征信息，包括：

基于第一卷积层对应的第一卷积核，对所述三维语音信号输入矩阵进行局部特征提取，得到第一局部特征信息；

基于第二卷积层对应的第二卷积核，对所述第一局部特征信息进行局部特征提取，得到第二局部特征信息；

基于所述第二局部特征信息确定所述局部频谱特征信息；

所述第一卷积核、所述第二卷积核均为三维卷积核，所述三维卷积核的维度均与所述时间维度、所述频率维度以及所述通道维度相对应；所述第二卷积层的数量为至少一个，所述第二卷积核的通道维度大于所述第一卷积核的通道维度。

在一示例性实施例中，所述基于所述时序特征信息确定与所述多个已处理信号频谱各自对应的权重信息，包括：

基于所述时序特征信息确定所述多个已处理信号频谱在每个时频点的权重值；所述多个已处理信号在相同时频点的权重值之和为1；

基于所述多个已处理信号频谱在每个时频点的权重值，确定所述多个已处理信号频谱各自对应的权重信息。

在一示例性实施例中，所述信号融合模型包括信息平滑层；

所述基于所述多个已处理信号频谱在每个时频点的权重值，确定所述多个已处理信号频谱各自对应的权重信息，包括：

基于所述信息平滑层对所述多个已处理信号频谱在每个时频点的权重值进行平滑处理，得到与所述多个已处理信号频谱对应的平滑权重信息；

基于所述多个已处理信号频谱对应的平滑权重信息，确定所述多个已处理信号频谱各自对应的权重信息。

在一示例性实施例中，所述基于所述信息平滑层对所述多个已处理信号频谱在每个时频点的权重值进行平滑处理，得到与所述多个已处理信号频谱对应的平滑权重信息，包括：

确定与所述每个时频点相邻的历史时频点；

基于预设平滑系数，对所述每个时频点的权重值，以及所述每个时频点相邻的历史时频点的权重值进行加权求和，得到所述平滑权重信息。

在一示例性实施例中，所述多个已处理信号频谱各自对应的权重信息包括所述多个已处理信号频谱在每个时频点的权重值；所述信号频谱表征信号在每个时频点的信号能量信息；所述每个时频点基于时间维度以及频率维度确定；

所述基于所述多个已处理信号频谱以及所述多个已处理信号频谱各自对应的权重信息进行加权求和，得到目标语音信号的信号频谱，包括：

基于各已处理信号频谱在每个时频点的权重值，对各已处理信号频谱在所述每个时频点的信号能量信息进行加权，得到与各已处理信号频谱对应的加权信号能量；

对各加权信号能量在相同时频点的信号能量信息进行叠加，得到所述目标语音信号的信号频谱。

根据本公开实施例的第二方面，提供一种语音处理装置，包括：

信号频谱确定单元，被配置为执行确定源语音信号的信号频谱；

回声消除处理单元，被配置为执行将所述源语音信号的信号频谱分别输入到多个回声消除模型进行回声消除处理，得到多个已处理信号频谱；所述多个回声消除模型的回声消除性能不同；

信号融合单元，被配置为执行将所述多个已处理信号频谱，以及所述源语音信号的信号频谱输入到信号融合模型进行信号融合，得到与所述多个已处理信号频谱各自对应的权重信息；所述多个已处理信号频谱各自对应的权重信息与所述多个回声消除模型的回声消除性能相匹配；

第一加权求和单元，被配置为执行基于所述多个已处理信号频谱以及所述多个已处理信号频谱各自对应的权重信息进行加权求和，得到目标语音信号的信号频谱。

所述信号融合单元包括：

第一提取单元，被配置为执行基于所述局部特征提取层对所述多个已处理信号频谱，以及所述源语音信号的信号频谱进行局部特征提取，得到与所述多个已处理信号频谱，以及所述源语音信号的信号频谱对应的局部频谱特征信息；

第二提取单元，被配置为执行基于所述时序特征提取层对所述局部频谱特征信息进行时序特征提取，得到与所述多个已处理信号频谱，以及所述源语音信号的信号频谱对应的时序特征信息；

第一确定单元，被配置为执行基于所述时序特征信息确定与所述多个已处理信号频谱各自对应的权重信息。

所述装置还包括：

矩阵构建单元，被配置为执行基于所述多个已处理信号频谱、所述源语音信号的信号频谱、与所述多个已处理信号频谱对应的输入通道信息，以及与所述源语音信号的信号频谱对应的输入通道信息，构建三维语音信号输入矩阵；所述三维语音信号输入矩阵的维度包括时间维度、频率维度以及通道维度。

所述第一提取单元包括：

第三提取单元，被配置为执行基于第一卷积层对应的第一卷积核，对所述三维语音信号输入矩阵进行局部特征提取，得到第一局部特征信息；

第四提取单元，被配置为执行基于第二卷积层对应的第二卷积核，对所述第一局部特征信息进行局部特征提取，得到第二局部特征信息；

第二确定单元，被配置为执行基于所述第二局部特征信息确定所述局部频谱特征信息；

在一示例性实施例中，所述第一确定单元包括：

第三确定单元，被配置为执行基于所述时序特征信息确定所述多个已处理信号频谱在每个时频点的权重值；所述多个已处理信号在相同时频点的权重值之和为1；

第四确定单元，被配置为执行基于所述多个已处理信号频谱在每个时频点的权重值，确定所述多个已处理信号频谱各自对应的权重信息。

在一示例性实施例中，所述信号融合模型包括信息平滑层；

所述第四确定单元包括：

平滑处理单元，被配置为执行基于所述信息平滑层对所述多个已处理信号频谱在每个时频点的权重值进行平滑处理，得到与所述多个已处理信号频谱对应的平滑权重信息；

第五确定单元，被配置为执行基于所述多个已处理信号频谱对应的平滑权重信息，确定所述多个已处理信号频谱各自对应的权重信息。

在一示例性实施例中，所述平滑处理单元包括：

历史时频点确定单元，被配置为执行确定与所述每个时频点相邻的历史时频点；

第二加权求和单元，被配置为执行基于预设平滑系数，对所述每个时频点的权重值，以及所述每个时频点相邻的历史时频点的权重值进行加权求和，得到所述平滑权重信息。

所述第一加权求和单元包括：

加权单元，被配置为执行基于各已处理信号频谱在每个时频点的权重值，对各已处理信号频谱在所述每个时频点的信号能量信息进行加权，得到与各已处理信号频谱对应的加权信号能量；

信号叠加单元，被配置为执行对各加权信号能量在相同时频点的信号能量信息进行叠加，得到所述目标语音信号的信号频谱。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上所述的语音处理方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如上所述的语音处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，计算机设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行上述的语音处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开中具有不同回声消除性能的回声消除模型具有各自的特点，将源语音信号的信号频谱输入到多个回声消除模型中，通过对多个回声消除模型输出的已处理信号频谱进行信号融合，得到与多个已处理信号频谱各自对应的权重信息，多个已处理信号频谱各自对应的权重信息与多个回声消除模型的回声消除性能相匹配，基于多个已处理信号频谱各自对应的权重信息对相应已处理信号频谱进行加权求和，得到对源语音信号进行回声消除后的目标语音信号；从而基于对多个回声消除模型的输出结果进行融合，根据融合结果得到目标语音信号，能够发挥各个回声消除模型的优势，以及弥补各个回声消除模型的劣势，从而进一步提高回声消除的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的实施环境示意图。

图2是根据一示例性实施例示出的一种语音处理方法流程图。

图3是根据一示例性实施例示出的一种信号融合方法流程图。

图4是根据一示例性实施例示出的一种局部特征信息提取方法流程图。

图5是根据一示例性实施例示出的一种权重信息确定方法流程图。

图6是根据一示例性实施例示出的一种信号频谱加权方法流程图。

图7是根据一示例性实施例示出的一种权重平滑方法流程图。

图8是根据一示例性实施例示出的一种基于时频点进行权重平滑的方法流程图。

图9是根据一示例性实施例示出的回声消除融合模型的示意图。

图10是根据一示例性实施例示出的一种语音处理装置框图。

图11是根据一示例性实施例示出的一种电子设备结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

请参阅图1，其示出了本公开实施例提供的实施环境示意图，该实施环境可包括：第一终端110和第二终端120，第一终端110和第二终端120可通过网络进行数据通信。

具体地，第一终端110可采集用户1的语音信息，并将用户1的语音信息发送至第二终端120，第二终端120在接收到用户1的语音信息后，对其进行播放。同样地，第一终端120可采集用户2的语音信息，并将用户2的语音信息发送至第一终端110，第一终端110在接收到用户2的语音信息后，对其进行播放。

进一步地，第一终端110在采集用户1的语音信息的同时，可能也会采集到通过第一终端110播放的用户2的语音信息，从而第一终端110可对采集到的语音信息进行回声消除操作，然后将回声消除后的语音信息发送至第二终端120；同样地，第二终端120在采集用户2的语音信息的同时，可能也会采集到通过第二终端120播放的用户1的语音信息，从而第二终端120可对采集到的语音信息进行回声消除操作，然后将回声消除后的语音信息发送至第一终端110。

第一终端110以及第二终端120可以包括：智能手机、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载终端等类型的实体设备。本公开实施例中的第一终端110以及第二终端120上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

为了解决相关技术中回声消除模型的回声消除结果不准确的问题，本公开实施例提供了一种语音处理方法，其执行主体可以为能够进行语音处理的终端，例如上述的第一终端或者第二终端；具体请参阅图2，该方法可包括：

S210.确定源语音信号的信号频谱。

具体地，对于每个用户，其对应的终端为近端，该用户为近端用户，与近端用户进行语音交互或者语音通话的用户为远端用户，远端用户对应的终端为远端，每个用户既可以是近端用户，也可以是远端用户；每个终端既可以是近端，也可以是远端。近端可对远端发送的语音信号进行播放，从而每个终端采集的源语音信号可包括近端用户的实际语音信号、远端用户的回声信号以及噪声信号等。

对于源语音信号的信号频谱的确定，可基于傅里叶变换或者短时傅里叶变换来实现。源语音信号的信号频谱可用于表征源语音信号的三维信号信息，具体地，源语音信号的信号频谱可以通过时间维度、频率维度以及信号能量维度对源语音信号进行表征。从而可基于傅里叶变换或者短时傅里叶变换来确定源语音信号的三维信号信息，即时间维度、频率维度以及信号能量维度的信息。

在一个具体实施例中，源语音信号中的信号频谱中的能量维度对应的数值可以为源信号的幅度值或者源信号的功率；进一步地，在基于时间维度以及频率维度确定了二维信息时，可确定每个时频点所对应的信号能量信息，即具体可确定每个时频点所对应的源信号幅度值或者源信号的功率。

需要说明的是，上述对于信号频谱的定义是基于源语音信号的，本实施例中的各项语音信号所对应的信号频谱均具有相应的定义，后续不再赘述。

S220.将所述源语音信号的信号频谱分别输入到多个回声消除模型进行回声消除处理，得到多个已处理信号频谱；所述多个回声消除模型的回声消除性能不同。

多个回声消除模型为不同的回声消除模型，多个回声消除模型的回声消除性能不同，回声消除性能可通过相应的回声消除效果性能指标的指标数据进行表征。回声消除效果性能指标可包括回声消除指标、原语音保留指标等，回声消除指标的指标数据越高，说明回声消除模型的回声消除能力越强，原语音保留指标的指标数据越高，说明回声消除模型的原语音保留能力越强。回声消除指标与原语音保留指标可能是一对相互制约的性能指标，例如回声消除模型的回声消除能力强，可能会消除掉原语音信号中的部分信号，从而使得回声消除模型的原语音保留能力降低；再例如回声消除模型的原语音信号保留能力强，可能会保留回声信号中的部分信号，从而使得回声消除模型的回声消除能力降低。即不同的回声消除模型具有各自的优势和劣势。

在一个可选实施例中，回声消除模型的数量可以为两个或者两个以上，这两个或者两个以上的回声消除模型可以在不同的性能指标上具有相应的回声消除优势。通过多个不同的回声消除模型对原语音信号进行不同程度的回声消除，可得到具有不同回声消除效果的已处理信号。从而便于在后续信号融合过程中，结合各个回声消除模型的优势，提高回声消除结果的准确性。

S230.将所述多个已处理信号频谱，以及所述源语音信号的信号频谱输入到信号融合模型进行信号融合，得到与所述多个已处理信号频谱各自对应的权重信息；所述多个已处理信号频谱各自对应的权重信息与所述多个回声消除模型的回声消除性能相匹配。

信号融合层的输入包括多个已处理信号频谱以及源语音信号的信号频谱，信号融合层能够实现对多个已处理信号频谱以及源语音信号的信号频谱进行信号融合，以及根据信号融合结果确定多个已处理信号频谱各自对应的权重信息；在具体的信号融合过程中，信号融合层对各项输入的信号频谱进行特征提取，基于提取的特征信息确定多个已处理信号相相对于源语音信号中的实际语音信号所占的权重信息，也即多个已处理信号频谱对应的权重信息。

进一步地，多个已处理信号频谱各自对应的权重信息与多个回声消除模型的回声消除性能相匹配，可以理解为在每个时频点上，对在该时频点具有较好回声消除性能的回声消除模型所对应的信号频谱赋予较大的权重，对在该时频点回声消除性能不佳的回声消除模型所对应的信号频谱赋予较小的权重，从而能够实现对每个时频点对应的多个已处理信号频谱的权重分配。同一目标回声消除模型在不同时频点上的回声消除性能可能不同，即同一目标回声消除模型在时频点A上的回声消除性能较好，但是在时频点B上的回声消除性能不佳。从而信号融合模型能够结合各个回声消除模型在不同时频点上的回声消除性能，为各回声消除模型分配相应的权重，能够提高回声消除模型权重分配的准确性。

S240.基于所述多个已处理信号频谱以及所述多个已处理信号频谱各自对应的权重信息进行加权求和，得到目标语音信号的信号频谱。

多个已处理信号频谱各自对应的权重信息能够表征各已处理信号频谱对目标语音信号的信号频谱的贡献程度或者重要程度，从而基于各个已处理信号频谱对目标语音信号的信号频谱的贡献程度或者重要程度，对加权后的多个已处理信号频谱进行求和，能够得到目标语音信号的信号频谱。

本公开中具有不同回声消除性能的回声消除模型具有各自的特点，将源语音信号的信号频谱输入到多个回声消除模型中，通过对多个回声消除模型输出的已处理信号频谱进行信号融合，得到与多个已处理信号频谱各自对应的权重信息，多个已处理信号频谱各自对应的权重信息与多个回声消除模型的回声消除性能相匹配，基于多个已处理信号频谱各自对应的权重信息对相应已处理信号频谱进行加权求和，得到对源语音信号进行回声消除后的目标语音信号；从而基于对多个回声消除模型的输出结果进行融合，根据融合结果得到目标语音信号，能够发挥各个回声消除模型的优势，以及弥补各个回声消除模型的劣势，从而进一步提高对源语音信号进行回声消除的准确性。

在一个具体实施例中，信号融合模型包括局部特征提取层和时序特征提取层；从而可基于局部特征提取层以及时序特征提取层对输入的多个已处理信号频谱以及源语音信号的信号频谱进行处理，得到相应的权重信息；具体请参阅图3，其示出了一种信号融合方法，该方法可包括：

S310.基于所述局部特征提取层对所述多个已处理信号频谱，以及所述源语音信号的信号频谱进行局部特征提取，得到与所述多个已处理信号频谱，以及所述源语音信号的信号频谱对应的局部频谱特征信息。

S320.基于所述时序特征提取层对所述局部频谱特征信息进行时序特征提取，得到与所述多个已处理信号频谱，以及所述源语音信号的信号频谱对应的时序特征信息。

S330.基于所述时序特征信息确定与所述多个已处理信号频谱各自对应的权重信息。

本实施例中，局部特征提取层可以能够进行局部特征提取或者短时特征提取的特征提取层，具体可以为两层或者两层以上的卷积层；时序特征提取层可以为能够进行时序特征提取或者长时特征提取的特征提取层，具体可以为LSTM(Long Short-Term Memory，长短期记忆网络)或者GRU(Gated Recurrent Unit，门控循环单元)。

局部特征提取层可用于对多个已处理信号频谱以及源语音信号的信号频谱分别进行局部特征提取，从而能够得到多个已处理信号频谱对应的局部频谱特征信息，以及源语音信号的信号频谱对应的局部频谱特征信息。基于每个语音信号对应的局部频谱特征能够确定该语音信号与其他语音信号的差异性，即基于局部频谱特征能够区分不同信号的信号频谱。

时序特征提取层能够用于对局部特征提取层输出的局部频谱特征信息进行时序特征提取，得到多个已处理信号频谱，以及所述源语音信号的信号频谱对应的时序特征信息。语音信号的信号频谱可包括与每帧语音信号对应的信号频谱，从而时序特征信息能够表征各帧语音信号在时间维度上的依赖关系，即时序关系，或者也可以为上下文关系。

从而通过信号融合模型中的局部特征提取层以及时序特征提取层，即提取到了语音信号的局部特征，也提取到了语音信号的时序特征；由于时序特征信息是在局部频谱特征信息的基础上进行提取的，从而时序特征信息中也包含局部特征信息，从而提高了语音信号特征提取的全面性以及准确性；基于提取出的局部特征以及时序特征确定相应的权重信息，能够提高权重信息确定的准确性。

本实施例中，信号融合模型还可包括全连接层，在提取到局部频谱特征信息以及时序特征信息，可基于全连接层进行信息的整合，并通过激活函数对整合后的数据进行激活处理，进而可得到多个已处理信号频谱各自对应的权重信息。

在一个具体实施例中，多个已处理信号频谱各自对应的权重信息可以包括与多个已处理信号频谱各自对应的权重项；例如，多个已处理信号频谱各自对应的权重信息为W＝[W₁,W₂…]，其中W₁为与已处理信号频谱1对应的权重项，W₂为与已处理信号频谱2对应的权重项……；W可以为权重矩阵，相应W₁以及W₂也可以为权重矩阵；W可以为权重序列，相应W₁以及W₂也可以为权重序列。

本公开实施例中，所述信号频谱表征信号在每个时频点的信号能量信息；所述每个时频点基于时间维度以及频率维度确定；信号能量信息可以为信号幅度或者信号功率等。根据上述实施例可知，信号融合模型的输入包括多个已处理信号频谱，以及所述源语音信号的信号频谱，从而不同的语音信号可对应不同的输入通道；进而在多个已处理信号频谱，以及所述源语音信号的信号频谱输入到信号融合模型之前，还可基于所述多个已处理信号频谱、所述源语音信号的信号频谱、与所述多个已处理信号频谱对应的输入通道信息，以及与所述源语音信号的信号频谱对应的输入通道信息，构建三维语音信号输入矩阵；所述三维语音信号输入矩阵的维度包括时间维度、频率维度以及通道维度。

具体可先基于时间维度以及频率维度构建二维矩阵，二维矩阵中的元素值可以为各个时频点对应的信号能量信息，再将各项信号频谱对应的通道信息作为第三维度，从而可构建三维语音信号输入矩阵。三维语音信号输入矩阵的数据形式与信号融合模型的数据处理形式相适配。

通过基于各输入语音信号的信号频谱以及相应的输入通道信息构建三维语音信号输入矩阵，能够实现对信号融合模型输入数据的预处理，从而便于信号融合模型基于三维语音信号数据矩阵进行信号融合，提高信号融合模型的数据处理效率。

进一步地，在局部特征提取层包括多个卷积层的情况下，请参阅图4，其示出了一种局部特征信息提取方法，该方法可包括：

S410.基于第一卷积层对应的第一卷积核，对所述三维语音信号输入矩阵进行局部特征提取，得到第一局部特征信息。

S420.基于第二卷积层对应的第二卷积核，对所述第一局部特征信息进行局部特征提取，得到第二局部特征信息；

S430.基于所述第二局部特征信息确定所述局部频谱特征信息。

由于局部特征提取层的输入信息为三维语音信号输入矩阵，相应地，卷积层中的卷积核维度也可采用三维的；具体地，所述第一卷积核、所述第二卷积核均为三维卷积核，所述三维卷积核的维度均与所述时间维度、所述频率维度以及所述通道维度相对应；具体地，卷积核的第一维度对应时间维度，卷积核的第二维度对应频率维度，卷积核的第三维度对应通道维度，从而能够基于三维卷积核的相应维度对三维语音信号输入矩阵的相应维度进行特征提取，实现分维度进行特征提取，提高局部频谱特征提取的便利性和准确性。

所述第二卷积层的数量为至少一个，所述第二卷积核的通道维度大于所述第一卷积核的通道维度。在第二卷积层包括多个卷积层的情况下，将第二卷积层中的最后一个卷积层的输出信息作为局部频谱特征信息。

本实施例中，每个卷积层可对应不同尺寸的卷积核，从而可基于当前卷积层对应的卷积核对该卷积层的输入信息进行特征提取，并输出相应的特征信息；在当前卷积层之后还存在卷积层的基础上，可将当前卷积层的输出信息作为下一卷积层的输入信息。

进一步地，多个卷积层的卷积核尺寸可逐渐增加，例如第一层卷积层的卷积核尺寸为3×3×5，第二层卷积层的卷积核尺寸为3×3×8，第三层卷积层的卷积核尺寸为3×3×10……，从而可知卷积核的第三维度的尺寸在不断变大，从5扩展为8，从8扩展为10……，即第三维度对应的通道数量在不断变大，相应提取到的特征信息的深度和粒度也在不断增加，进而能够提高局部频谱特征信息的准确性和全面性。

在一个可选实施例中，可基于时序特征提取层输出的时序特征信息确定多个已处理信号频谱各自对应的权重信息；具体请参阅图5，其示出了一种权重信息确定方法，该方法可包括：

S510.基于所述时序特征信息确定所述多个已处理信号频谱在每个时频点的权重值；所述多个已处理信号在相同时频点的权重值之和为1。

S520.基于所述多个已处理信号频谱在每个时频点的权重值，确定所述多个已处理信号频谱各自对应的权重信息。

根据上述实施例可知，多个已处理信号频谱各自对应的权重信息能够表征各已处理信号频谱对目标语音信号的信号频谱的贡献程度或者重要程度，即对于目标语音信号的信号频谱的每个时频点，其可通过对多个已处理信号频谱在相应时频点的信号能量信息进行加权，以得到目标语音信号的信号频谱在相应时频点上的信号能量信息，从而多个已处理信号在相同时频点的权重值之和为1。

以多个已处理信号频谱各自对应的权重信息是权重矩阵为例进行说明，各个已处理信号频谱对应的权重项也可为权重矩阵；具体地，目标语音信号的信号频谱以及每个已处理信号频谱对应的权重矩阵均为二维矩阵，目标语音信号以及每个已处理信号对应的权重矩阵的维度相同，且目标语音信号的信号频谱以及每个已处理信号频谱对应的二维权重矩阵中的矩阵元素位置均与已处理信号频谱中时频点的位置一一对应。

从而基于每个时频点进行权重信息的确定，能够考虑到不同已处理信号频谱在不同时频点对目标语音信号的贡献程度或者重要程度，形成了细粒度的权重信息确定，进而能够提高权重信息确定的准确性。

例如已处理语音信号频谱对应的二维权重矩阵的维度为m×n，即可表示时间维度数量为n，频率维度数量为m，二维权重矩阵中的每个元素位置可表示每个时频点，每个元素的元素值可表示相应时频点对应的权重值。

即在每次进行时频点权重值的确定过程中，不同已处理语音信息频谱对应的二维权重矩阵的相同时频点的权重可一次性确定，以已处理信号频谱的数量为2进行说明，已处理信号频谱1对应的二维权重矩阵为W₁，已处理信号频谱2对应的二维权重矩阵为W₂，从而，W₁中的元素a11与W₂中的元素b11处于相同的元素位置，a11与b11之和为1，对于其他位置的元素值，可基于相同的方法进行权重信息的确定。

具体地，已处理信号频谱1对应的二维权重矩阵为W₁如下：

已处理信号频谱2对应的二维权重矩阵为W₂如下：

处于相同矩阵位置的元素值之和为1，即a11与b11之和为1，a12与b12之和为1，a21与b21之和为1……。其中a11与b11均为与时频点t11对应的权重值，a12与b12均为与时频点t12对应的权重值，a21与b21均为与时频点t21对应权重值。

从而多个已处理信号频谱各自对应的权重信息包括所述多个已处理信号频谱在每个时频点的权重值；所述信号频谱表征信号在每个时频点的信号能量信息；所述每个时频点基于时间维度以及频率维度确定。相应地，请参阅图6，其示出了一种信号频谱加权方法，该方法可包括：

S610.基于各已处理信号频谱在每个时频点的权重值，对各已处理信号频谱在所述每个时频点的信号能量信息进行加权，得到与各已处理信号频谱对应的加权信号能量。

S620.对各加权信号能量在相同时频点的信号能量信息进行叠加，得到所述目标语音信号的信号频谱。

已处理语音信号频谱也可对应二维频谱矩阵，相应的维度也可为m×n，即已处理语音信号的二维频谱矩阵与二维权重矩阵的维度相同，且相同位置的矩阵元素对应相同的时频点，二维频谱矩阵中的矩阵元素值为在相应时频点的信号能量信息，二维权重矩阵中的矩阵元素值为在相应时频点的权重值。可预设目标信号的信号频谱对应的二维频谱矩阵与已处理语音信号的频谱矩阵维度相同，且每个矩阵元素位置对应的时频点也相同。

从而在生成目标信号的信号频谱的过程中，可基于每个已处理语音信号频谱对应的二维权重矩阵以及二维频谱矩阵生成与该已处理语音信号对应的加权频谱矩阵，具体可以是将二维权重矩阵与二维频谱矩阵中处于相同元素位置的元素进行相乘，得到相应的加权频谱矩阵。

例如，已处理信号频谱1对应的二维频谱矩阵F₁为：

已处理信号频谱2对应的二维频谱矩阵F₂为：

可以确定a11、b11、c11以及d11均对应时频点t11，a12、b12、c12以及d12均对应时频点t12，其他元素也是类似的，从而在进行加权求和时，可基于矩阵W₁以及F₁对已处理信号频谱1进行加权，基于矩阵W₂以及F₂对已处理信号频谱2进行加权。

在对已处理信号频谱进行加权时，可将对应相同时频点的元素进行相乘，例如将a11与c11相乘，得到与t11对应的第一加权结果，将b11与d11相乘，也可得到与t11对应的第二加权结果；然后将第一加权结果与第二加权结果相加，得到目标语音信号的信号频谱在时频点t11的信号能量信息；对于目标语音信号的信号频谱在其他时频点的信号能量信息可基于类似的方法进行加权求和得到，在此不再赘述。

从而在生成目标语音信号的信号频谱时，可基于各已处理信号频谱在各个时频点的信号能量信息以及权重值，得到加权信号能量；然后对相同时频点的加权信号能量进行叠加，生成目标语音信号在相应时频点的叠加信号能量；基于各个时频点的叠加信号能量，即可得到目标语音信号的信号频谱。即目标语音信号的生成可基于各个已处理信号频谱在各个时频点的信号能量分别进行加权得到，从而能够基于细粒度进行信号频谱的确定，进一步提高目标语音信号的信号频谱确定的准确性。

在一个具体实施例中，信号融合层还可包括平滑层，相应请参阅图7，其示出了一种权重平滑方法，该方法可包括：

S710.基于所述信息平滑层对所述多个已处理信号频谱在每个时频点的权重值进行平滑处理，得到与所述多个已处理信号频谱对应的平滑权重信息。

S720.基于所述多个已处理信号频谱对应的平滑权重信息，确定所述多个已处理信号频谱各自对应的权重信息。

由于语音信号的时频特性，不同时间点上的语音信号可能会产生跳变，从而导致听觉感受为尖锐刺耳的噪声；从而为了解决这一问题，可通过信息平滑层对多个已处理信号频谱在每个时频点的权重值分别进行平滑处理，即对于上述W₁以及W₂中的各个权重值分别进行平滑处理，得到与每个权重值分别对应的平滑权重值，即可确定与多个已处理信号频谱对应的平滑权重信息。

基于平滑权重信息确定已处理信号频谱各自对应的权重信息，能够避免由于相邻时频点的权重信息跳变过大而导致的语音信号的跳变，从而能够避免噪声的引入，提升听觉感受。

在一个具体实施例中，可分别基于每个时频点进行权重平滑操作；具体请参阅图8，其示出了一种基于时频点进行权重平滑的方法，该方法可包括：

S810.确定与所述每个时频点相邻的历史时频点。

S820.基于预设平滑系数，对所述每个时频点的权重值，以及所述每个时频点相邻的历史时频点的权重值进行加权求和，得到所述平滑权重信息。

本实施例中，每个时频点的权重信息可通过与其相邻的历史时频点来进行权重平滑，即相邻的历史时频点的权重会影响当前时频点的权重信息。确定出的每个时频点相邻的历史时频点的数量可以为一个或者多个，可根据具体实施过程确定。

以相邻历史时频点的数量为1进行说明，对于矩阵W₁中的每个权重值，可通过如下公式进行权重平滑：

W₁(f,t)＝W₁(f,t)*(1-α)+W₁(f,t-1)*α (5)

其中，W₁(f,t)为W₁中时频点(f,t)对应的权重值，W₁(f,t-1)为W₁中时频点(f,t-1)对应的权重值，(f,t-1)为(f,t)前一时频点；α为平滑系数，α可根据具体实施情况而定，例如可设置为0.95。由此可知，对于矩阵W₁，其在时频点(f,t)处的权重值等于前一时刻(f,t-1)的权重值与当前时刻(f,t)的权重值的滑动平均数。

从而对于每个时频点对应的权重值，均可基于该时频点的相邻历史时频点对应的权重值进行确定，进而能够提高实现权重值的滑动平均，使得权重值在相邻时频点之间不会发生跳变，进而能够提高避免噪声的引入，提升听觉感受。

下面以回声消除场景为例进行说明，本实施例中可采用回声消除融合模型来进行回声消除，回声消除融合模型中可包括多个预训练的回声消除模型，以及本实施例上述的信号融合模型，以回声消除模型包括两个预训练的回声消除模型为例进行说明，回声消除融合模型的示意图请参阅图9，具体可包括两个预训练的回声消除模型以及信号融合模型，其中信号融合模型还可包括局部特征提取层、时序特征提取层以及信息平滑层。

本实施例中，回声消除融合模型中的回声消除模型是预训练的，所以可以针对回声消除模型中的信号融合模型进行有监督模型训练。训练样本中可包括样本信号以及与样本信号对应的标签信息，样本信号具体可包括近端麦克风信号、远端参考信号以及经过线性回声消除的信号，将近端麦克风信号的信号频谱D、远端参考信号的信号频谱E以及经过线性回声消除的信号的信号频谱R进行联合处理，得到联合输入信号频谱I；将联合输入信号频谱I分别输入到第一回声消除模型、第二回声消除模型，得到估计信号频谱S1和S2；将联合输入信号频谱I、估计信号频谱S1和S2输入到信号融合模型，得到与信号频谱S1、S2分别对应的权重信息；基于信号频谱S1对应的权重信息对信号频谱S1进行加权，基于信号频谱S2对应的权重信息对信号频谱S2进行加权，对加权后的信号频谱进行求和，得到输出信号频谱S；基于近端麦克风信号的信号频谱D与输出信号频谱S确定损失信息；基于损失信息对信号融合模型进行参数调整，以得到训练后的信号融合模型。

具体地，信号融合模型还可包括局部特征提取层、时序特征提取层以及信息平滑层，将联合输入信号频谱I、估计信号频谱S1和S2输入到局部特征提取层以及时序特征提取层，能够得到与估计信号频谱S1对应的原始权重信息W1，以及与估计信号频谱S2对应的原始权重信息W2，将原始权重信息W1以及原始权重信息W2输入到信息平滑层，得到平滑权重信息

以及平滑权重信息

基于

对估计信号频谱S1进行加权，基于

对估计信号频谱S2进行加权，最终得到输出信号频谱S。其中，在对权重信息进行平滑处理时，可采用本实施例上述式(5)进行平滑。

从而本公开能够通过有监督训练，使得信号融合模型能够自适应地学习与各个预训练的回声消除模型对应的权重信息，基于各个预训练回声消除模型对应的权重信息对相应的估计信号频谱进行加权，从而能够结合不同预训练回声消除模型的优势，弥补相应的缺点，提高回声消除的准确性。

本实施例中的上述各方法可基于实际应用情况进行组合，并具备组合后的相应有益效果，在此不再赘述。

图10是根据一示例性实施例示出的一种语音处理装置框图。参照图10，该装置包括：

信号频谱确定单元1010，被配置为执行确定源语音信号的信号频谱；

回声消除处理单元1020，被配置为执行将所述源语音信号的信号频谱分别输入到多个回声消除模型进行回声消除处理，得到多个已处理信号频谱；所述多个回声消除模型的回声消除性能不同；

信号融合单元1030，被配置为执行将所述多个已处理信号频谱，以及所述源语音信号的信号频谱输入到信号融合模型进行信号融合，得到与所述多个已处理信号频谱各自对应的权重信息；所述多个已处理信号频谱各自对应的权重信息与所述多个回声消除模型的回声消除性能相匹配；

第一加权求和单元1040，被配置为执行基于所述多个已处理信号频谱以及所述多个已处理信号频谱各自对应的权重信息进行加权求和，得到目标语音信号的信号频谱。

所述信号融合单元1030包括：

所述装置还包括：

所述第一提取单元包括：

在一示例性实施例中，所述第一确定单元包括：

在一示例性实施例中，所述信号融合模型包括信息平滑层；

所述第四确定单元包括：

在一示例性实施例中，所述平滑处理单元包括：

所述第一加权求和单元1040包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等；当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上所述的任一方法。

在示例性实施例中，还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，计算机设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行上述任一方法。

图11是根据一示例性实施例示出的一种用于语音处理的电子设备的框图，该电子设备可以是终端，其内部结构图可以如图11所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音处理方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音处理方法，其特征在于，包括：

确定源语音信号的信号频谱；

2.根据权利要求1所述的方法，其特征在于，所述信号融合模型包括局部特征提取层和时序特征提取层；

3.根据权利要求2所述的方法，其特征在于，所述信号频谱表征信号在每个时频点的信号能量信息；所述每个时频点基于时间维度以及频率维度确定；

4.根据权利要求3所述的方法，其特征在于，所述局部特征提取层包括多个卷积层；

基于所述第二局部特征信息确定所述局部频谱特征信息；

5.根据权利要求3所述的方法，其特征在于，所述基于所述时序特征信息确定与所述多个已处理信号频谱各自对应的权重信息，包括：

6.根据权利要求5所述的方法，其特征在于，所述信号融合模型包括信息平滑层；

7.根据权利要求6所述的方法，其特征在于，所述基于所述信息平滑层对所述多个已处理信号频谱在每个时频点的权重值进行平滑处理，得到与所述多个已处理信号频谱对应的平滑权重信息，包括：

确定与所述每个时频点相邻的历史时频点；

8.根据权利要求1所述的方法，其特征在于，所述多个已处理信号频谱各自对应的权重信息包括所述多个已处理信号频谱在每个时频点的权重值；所述信号频谱表征信号在每个时频点的信号能量信息；所述每个时频点基于时间维度以及频率维度确定；

9.一种语音处理装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至8中任一项所述的语音处理方法。

11.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至8中任一项所述的语音处理方法。

12.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1至8中任一项所述的语音处理方法。