CN116129881A

CN116129881A - 语音任务处理方法、装置、电子设备及存储介质

Info

Publication number: CN116129881A
Application number: CN202310003040.0A
Authority: CN
Inventors: 廖超; 黄劲文; 袁欢; 姚鹏; 谈建超; 张大威; 邓峰; 王晓瑞; 宋成儒
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2023-01-03
Filing date: 2023-01-03
Publication date: 2023-05-16

Abstract

本公开关于一种语音任务处理方法、装置、电子设备及存储介质，该方法包括获取预设语音任务对应的待处理语音信息；将待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理，得到待处理语音信息对应的目标语音特征信息，任一时频注意力层用于在学习待处理语音信息中时频信息的重要程度的基础上，从待处理语音信息中提取语音特征信息；基于目标语音特征信息执行预设语音任务，得到任务处理结果。利用本公开实施例可以大大提升了语音特征信息的表征准确性和语音任务的处理性能。

Description

语音任务处理方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及一种语音任务处理方法、装置、电子设备及存储介质。

背景技术

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用；基于人工智能技术的语音特征提取网络通常被部署在语音处理系统的前端，例如自动语音识别、多语言翻译系统等。语音特征提取网络可以从语音信息中提取语音特征信息，该语音特征信息可以表征输入的一段语音信息，并用于后续的下游任务，比如说话人识别、方言分类等高阶的语音处理任务。

相关技术中，随着基于人工智能技术的语音特征提取网络，由传统的语音浅层网络转变为时迟神经网络等深度学习网络，网络输入的语音信息的帧数在不断增加，虽然提升了可以学习到的语音特征信息量，但随着帧数的增加，需要平均的处理每一帧的语音信息，这显然很难捕捉到一段语音中真正有用的特征，使得相关技术中的语音特征提取网络提取的语音特征信息难以准确表示输入的语音信息，进而也导致下游语音任务的性能下降等问题。

发明内容

本公开提供一种语音任务处理方法、装置、电子设备及存储介质，以至少解决相关技术中无法准确提取语音特征信息，语音任务处理性能下降等技术问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种语音任务处理方法，包括：

获取预设语音任务对应的待处理语音信息；

将所述待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理，得到所述待处理语音信息对应的目标语音特征信息，任一所述时频注意力层用于在学习所述待处理语音信息中时频信息的重要程度的基础上，从所述待处理语音信息中提取语音特征信息；

基于所述目标语音特征信息执行所述预设语音任务，得到任务处理结果。

在一个可选的实施例中，所述至少一个时频注意力层为一个所述时频注意力层，所述时频注意力层包括时域注意力层、频域注意力层、第一权重融合层和加权特征提取层；所述将所述待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理，得到所述待处理语音信息对应的目标语音特征信息包括：

将所述待处理语音信息输入所述时域注意力层进行时域维度的特征权重学习处理，得到时域特征权重信息，所述时域特征权重信息表征所述待处理语音信息中每一帧语音信息，在所述待处理语音信息中的重要程度；

将所述待处理语音信息输入所述频域注意力层进行频域维度的特征权重学习处理，得到频域特征权重信息，所述频域特征权重信息表征所述待处理语音信息中每一帧语音信息对应的每一语音特征，在每一帧所述语音信息中的重要程度；

将所述时域特征权重信息和所述频域特征权重信息输入所述第一权重融合层进行时频权重融合处理，得到时频权重信息；所述时频权重信息表征所述待处理语音信息中时频信息的重要程度；

将所述时频权重信息和所述待处理语音信息输入所述加权特征提取层进行特征提取处理，得到所述目标语音特征信息。

在一个可选的实施例中，所述时域注意力层包括：第一平均池化层、第一最大池化层、第一特征拼接层和时域权重学习层，所述时域权重学习层是基于空洞卷积网络构建的；

所述将所述待处理语音信息输入所述时域注意力层进行时域维度的特征权重学习处理，得到时域特征权重信息包括：

将所述待处理语音信息输入所述第一平均池化层，沿频域维度进行压缩，得到全局时域特征信息；

将所述待处理语音信息输入所述第一最大池化层，沿频域维度进行压缩，得到局部时域特征信息；

将所述全局时域特征信息和所述局部时域特征信息输入所述第一特征拼接层进行特征拼接处理，得到时域拼接特征信息；

将所述时域拼接特征信息输入所述时域权重学习层，进行时域权重学习处理，得到所述时域特征权重信息。

在一个可选的实施例中，所述频域注意力层包括：第二平均池化层、第二最大池化层、频域权重学习层和第二权重融合层；

所述将所述待处理语音信息输入所述频域注意力层进行频域维度的特征权重学习处理，得到频域特征权重信息包括：

将所述待处理语音信息输入所述第二平均池化层，沿时域维度进行压缩，得到全局频域特征信息；

将所述待处理语音信息输入所述第二最大池化层，沿时域维度进行压缩，得到局部频域特征信息；

将所述全局频域特征信息输入所述频域权重学习层进行频域权重学习处理，得到第一频域权重信息；

将所述局部频域特征信息输入所述频域权重学习层进行频域权重学习处理，得到第二频域权重信息；

将所述第一频域权重信息和所述第二频域权重信息输入所述第二权重融合层进行权重融合处理，得到所述频域特征权重信息。

在一个可选的实施例中，所述至少一个时频注意力层为按序连接的多个所述时频注意力层；所述目标语音特征信息包括多个所述时频注意力层输出的语音特征信息；

所述将所述待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理，得到所述待处理语音信息对应的目标语音特征信息包括：

在当前时频注意力层为多个所述时频注意力层中的第一个时频注意力层的情况下，将所述待处理语音信息输入所述当前时频注意力层，以在学习所述待处理语音信息中时频信息的重要程度的基础上，对所述待处理语音信息进行特征提取处理，得到所述第一个时频注意力层输出的语音特征信息；所述当前时频注意力层为基于多个所述时频注意力层对应的连接顺序确定的当前进行特征提取处理的所述时频注意力层；

在当前时频注意力层为任一其他时频注意力层的情况下，将上一语音特征信息，输入任一所述其他时频注意力层，以在学习所述上一语音特征信息中时频信息的重要程度的基础上，对所述上一语音特征信息进行特征提取处理，得到任一所述其他时频注意力层输出的语音特征信息；

其中，任一所述其他时频注意力层为多个所述时频注意力层中除所述第一个时频注意力层以外的任一所述时频注意力层；所述上一语音特征信息为任一所述其他时频注意力层的前一个所述时频注意力层输出的语音特征信息。

在一个可选的实施例中，所述语音特征提取网络还包括按序排列的至少一个语音特征提取层，且至少一个所述时频注意力层是按序排列；至少一个所述语音特征提取层和至少一个所述时频注意力层，以至少一个所述语音特征提取层中第一个语音特征提取层为起始层依次按序交替连接；所述目标语音特征信息包括至少一个所述时频注意力层输出的语音特征信息；

在当前语音特征提取层为所述第一个语音特征提取层的情况下，将所述待处理语音信息输入所述第一个语音特征提取层进行特征提取处理，得到第一语音特征信息，所述第一语音特征信息为所述第一个语音特征提取层输出的语音特征信息；所述当前语音特征提取层为基于至少一个所述语音特征提取层和至少一个所述时频注意力层对应的连接顺序确定的，当前进行特征提取处理的所述语音特征提取层；

将所述第一语音特征信息输入至少一个所述时频注意力层中的第一个时频注意力层，以在学习所述第一语音特征信息中时频信息的重要程度的基础上，对所述第一语音特征信息进行特征提取处理，得到所述第一个时频注意力层输出的语音特征信息；

在所述当前语音特征提取层为任一其他语音特征提取层的情况下，将任一所述其他语音特征提取层的上一个所述时频注意力层输出的语音特征信息，输入任一所述其他语音特征提取层进行特征提取处理，得到第二语音特征信息，所述第二语音特征信息为任一所述其他语音特征提取层输出的语音特征信息；

将所述第二语音特征信息输入任一所述其他语音特征提取层的下一个所述时频注意力层，以在学习所述第二语音特征信息中时频信息的重要程度的基础上，对所述第二语音特征信息进行特征提取处理，得到下一个所述时频注意力层输出的语音特征信息；任一所述其他语音特征提取层为至少一个所述语音特征提取层中除所述第一个语音特征提取层以外的任一所述语音特征提取层。

在一个可选的实施例中，所述基于所述目标语音特征信息执行所述预设语音任务，得到任务处理结果包括：

将所述目标语音特征信息输入所述预设语音任务对应的任务处理网络进行任务处理，得到所述任务处理结果。

在一个可选的实施例中，所述语音特征提取网络采用下述方式训练得到：

获取所述预设语音任务对应的样本语音信息和所述样本语音信息对应的任务处理结果标签；

将所述样本语音信息输入包括至少一个待训练时频注意力层的待训练语音特征提取网络进行特征提取处理，得到所述样本语音信息对应的样本语音特征信息，任一所述待训练时频注意力层用于在学习所述样本语音信息中时频信息的重要程度的基础上，从所述样本语音信息中提取语音特征信息；

将所述样本语音特征信息输入所述预设语音任务对应的任务处理网络进行任务处理，得到预测任务处理结果；

基于所述任务处理结果标签和所述预测任务处理结果，对所述待训练语音特征提取网络进行训练，得到所述语音特征提取网络。

根据本公开实施例的第二方面，提供一种语音任务处理装置，包括：

待处理语音信息获取模块，被配置为执行获取预设语音任务对应的待处理语音信息；

第一特征提取处理模块，被配置为执行将所述待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理，得到所述待处理语音信息对应的目标语音特征信息，任一所述时频注意力层用于在学习所述待处理语音信息中时频信息的重要程度的基础上，从所述待处理语音信息中提取语音特征信息；

语音任务处理模块，被配置为执行基于所述目标语音特征信息执行所述预设语音任务，得到任务处理结果。

在一个具体的实施例中，所述至少一个时频注意力层为一个所述时频注意力层，所述时频注意力层包括时域注意力层、频域注意力层、第一权重融合层和加权特征提取层，所述第一特征提取处理模块包括：

第一特征权重学习单元，被配置为执行将所述待处理语音信息输入所述时域注意力层进行时域维度的特征权重学习，得到时域特征权重信息，所述时域特征权重信息表征所述待处理语音信息中每一帧语音信息，在所述待处理语音信息中的重要程度；

第二特征权重学习单元，被配置为执行将所述待处理语音信息输入所述频域注意力层进行频域维度的特征权重学习，得到频域特征权重信息，所述频域特征权重信息表征所述待处理语音信息中每一帧语音信息对应的每一语音特征，在每一帧所述语音信息中的重要程度；

时频权重融合处理单元，被配置为执行将所述时域特征权重信息和所述频域特征权重信息输入所述第一权重融合层进行时频权重融合处理，得到时频权重信息；所述时频权重信息表征所述待处理语音信息中时频信息的重要程度；

第一特征提取处理单元，被配置为执行将所述时频权重信息和所述待处理语音信息输入所述加权特征提取层进行特征提取处理，得到所述目标语音特征信息。

所述第一特征权重学习单元包括：

第一压缩单元，被配置为执行将所述待处理语音信息输入所述第一平均池化层，沿频域维度进行压缩，得到全局时域特征信息；

第二压缩单元，被配置为执行将所述待处理语音信息输入所述第一最大池化层，沿频域维度进行压缩，得到局部时域特征信息；

特征拼接处理单元，被配置为执行将全局时域特征信息和所述局部时域特征信息输入所述第一特征拼接层进行特征拼接处理，得到时域拼接特征信息；

时域权重学习单元，被配置为执行将所述时域拼接特征信息输入所述时域权重学习层，进行时域权重学习，得到所述时域特征权重信息。

所述第二特征权重学习单元包括：

第三压缩单元，被配置为执行将所述待处理语音信息输入所述第二平均池化层，沿时域维度进行压缩，得到全局频域特征信息；

第四压缩单元，被配置为执行将所述待处理语音信息输入所述第二最大池化层，沿时域维度进行压缩，得到局部频域特征信息；

第一频域权重学习单元，被配置为执行将所述全局频域特征信息输入所述频域权重学习层进行频域权重学习，得到第一频域权重信息；

第二频域权重学习单元，被配置为执行将所述局部频域特征信息输入所述频域权重学习层进行频域权重学习，得到第二频域权重信息；

权重融合处理单元，被配置为执行将所述第一频域权重信息和所述第二频域权重信息输入所述第二权重融合层进行权重融合处理，得到所述频域特征权重信息。

所述第一特征提取处理模块包括：

第二特征提取处理单元，被配置为执行在当前时频注意力层为多个所述时频注意力层中的第一个时频注意力层的情况下，将所述待处理语音信息输入所述当前时频注意力层，以在学习所述待处理语音信息中时频信息的重要程度的基础上，对所述待处理语音信息进行特征提取处理，得到所述第一个时频注意力层输出的语音特征信息；所述当前时频注意力层为基于多个所述时频注意力层对应的连接顺序确定的当前进行特征提取处理的所述时频注意力层；

第三特征提取处理单元，被配置为执行在当前时频注意力层为任一其他时频注意力层的情况下，将上一语音特征信息，输入任一所述其他时频注意力层，以在学习所述上一语音特征信息中时频信息的重要程度的基础上，对所述上一语音特征信息进行特征提取处理，得到任一所述其他时频注意力层输出的语音特征信息；

所述第一特征提取处理模块包括：

第四特征提取处理单元，被配置为执行在当前时频注意力层为任一其他时频注意力层的情况下，将上一语音特征信息，在当前语音特征提取层为所述第一个语音特征提取层的情况下，将所述待处理语音信息输入所述第一个语音特征提取层进行特征提取处理，得到第一语音特征信息，所述第一语音特征信息为所述第一个语音特征提取层输出的语音特征信息；所述当前语音特征提取层为基于至少一个所述语音特征提取层和至少一个所述时频注意力层对应的连接顺序确定的，当前进行特征提取处理的所述语音特征提取层；

第五特征提取处理单元，被配置为执行将所述第一语音特征信息输入至少一个所述时频注意力层中的第一个时频注意力层，以在学习所述第一语音特征信息中时频信息的重要程度的基础上，对所述第一语音特征信息进行特征提取处理，得到所述第一个时频注意力层输出的语音特征信息；

第六特征提取处理单元，被配置为执行在所述当前语音特征提取层为任一其他语音特征提取层的情况下，将任一所述其他语音特征提取层的上一个所述时频注意力层输出的语音特征信息，输入任一所述其他语音特征提取层进行特征提取处理，得到第二语音特征信息，所述第二语音特征信息为任一所述其他语音特征提取层输出的语音特征信息；

第七特征提取处理单元，被配置为执行将所述第二语音特征信息输入任一所述其他语音特征提取层的下一个所述时频注意力层，以在学习所述第二语音特征信息中时频信息的重要程度的基础上，对所述第二语音特征信息进行特征提取处理，得到下一个所述时频注意力层输出的语音特征信息；任一所述其他语音特征提取层为至少一个所述语音特征提取层中除所述第一个语音特征提取层以外的任一所述语音特征提取层。

在一个可选的实施例中，所述语音任务处理模块具体被配置为执行将所述目标语音特征信息输入所述预设语音任务对应的任务处理网络进行任务处理，得到所述任务处理结果。

在一个可选的实施例中，所述语音特征提取网络采用下述模块训练得到：

样本获取模块，被配置为执行获取所述预设语音任务对应的样本语音信息和所述样本语音信息对应的任务处理结果标签；

第二特征提取处理模块，被配置为执行将所述样本语音信息输入包括至少一个待训练时频注意力层的待训练语音特征提取网络进行特征提取处理，得到所述样本语音信息对应的样本语音特征信息，任一所述待训练时频注意力层用于在学习所述样本语音信息中时频信息的重要程度的基础上，从所述样本语音信息中提取语音特征信息；

任务处理模块，被配置为执行将所述样本语音特征信息输入所述预设语音任务对应的任务处理网络进行任务处理，得到预测任务处理结果；

网络训练模块，被配置为执行基于所述任务处理结果标签和所述预测任务处理结果，对所述待训练语音特征提取网络进行训练，得到所述语音特征提取网络。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上述第一方面中任一项所述的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行本公开实施例的语音任务处理方法中任一项所述方法。

根据本公开实施例的第五方面，提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如上述第一方面中任一项所述的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

在语音任务处理过程中，将预设语音任务对应的待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理，可以基于至少一个时频注意力层在学习待处理语音信息中时频信息的重要程度的基础上，从待处理语音信息中提取目标语音特征信息，实现对待处理语音信息中时域和频域的重要信息的同时关注，进而可以从待处理语音信息的每一帧语音信息中有效提取重要特征信息(重要频域特征信息)，同时也可以有效提取待处理语音信息中每一帧重要的语音信息(重要时域特征信息)，大大提升了语音特征信息的表征准确性，且基于目标语音特征信息执行预设语音任务，可以有效保证语音任务处理结果的准确性，大大提升语音任务的处理性能。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种应用环境的示意图；

图2是根据一示例性实施例示出的一种语音任务处理方法的流程图；

图3是根据一示例性实施例示出的一种将待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理，得到待处理语音信息对应的目标语音特征信息的流程图；

图4是根据一示例性实施例示出的一种将待处理语音信息输入时域注意力层进行时域维度的特征权重学习处理，得到时域特征权重信息的流程图；

图5是根据一示例性实施例示出的一种将待处理语音信息输入频域注意力层进行频域维度的特征权重学习处理，得到频域特征权重信息的流程图；

图6是根据一示例性实施例提供的一种结合时频注意力层进行语音特征提取过程的示意图；

图7是根据一示例性实施例示出的一种语音特征提取网络训练过程的流程图；

图8是根据一示例性实施例提供的一种语音特征提取网络的结果示意图；

图9是根据一示例性实施例示出的一种语音任务处理装置框图；

图10是根据一示例性实施例示出的一种用于语音任务处理的电子设备的框图；

图11是根据一示例性实施例示出的一种用于语音任务处理的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

请参阅图1，图1是根据一示例性实施例示出的一种应用环境的示意图，该应用环境可以包括终端100和服务器200。

在一个可选的实施例中，终端100可以用于面向任一用户提供语音任务处理服务。具体的，终端100可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、智能可穿戴设备等类型的电子设备，也可以为运行于上述电子设备的软体，例如应用程序等。可选的，电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

在一个可选的实施例中，服务器200可以为终端100提供后台服务。服务器可以预先训练好语音特征提取网络，进而可以结合语音特征提取网络提取的语音特征信息执行下游的语音任务。具体的，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。

此外，需要说明的是，图1所示的仅仅是本公开提供的一种应用环境，在实际应用中，还可以包括其他应用环境。

本说明书实施例中，上述终端100以及服务器200可以通过有线或无线通信方式进行直接或间接地连接，本公开在此不做限制。

图2是根据一示例性实施例示出的一种语音任务处理方法的流程图，该语音任务处理方法可以应用于终端或服务器等电子设备，如图2所示，该语音任务处理方法可以包括以下步骤：

在步骤S201中，获取预设语音任务对应的待处理语音信息。

在一个具体的实施例中，上述预设语音任务可以结合实际应用需求进行设置，例如方言识别任务、翻译任务、说话人识别任务等。具体的，可以将预设语音任务处理过程中需要处理的语音信息转为成预设尺寸的语音信息，以得到预设语音任务对应的待处理语音信息；具体的，预设尺寸可以为语音特征提取网络对应的输入信息的尺寸；例如N*C*T(预设尺寸)，其中，N是batchsize(即网络一次处理的语音信息的数量，在待处理语音信息为一条语音信息的情况下，上述N＝1)，T是一个语音信息包含的帧数，C是每一帧的维度。

在步骤S203中，将待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理，得到待处理语音信息对应的目标语音特征信息。

在一个具体的实施例中，任一时频注意力层可以用于在学习待处理语音信息中时频信息的重要程度的基础上，从待处理语音信息中提取语音特征信息；具体的，待处理语音信息中时频信息可以包括待处理语音信息中的时域信息(时域维度的信息)和频域信息(频域维度的信息)。

在一个可选的实施例中，上述至少一个时频注意力层可以为一个时频注意力层，可选的，上述时频注意力层包括时域注意力层、频域注意力层、第一权重融合层和加权特征提取层。相应的，如图3所示，上述将待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理，得到待处理语音信息对应的目标语音特征信息可以包括以下步骤：

在步骤S301中，将待处理语音信息输入时域注意力层进行时域维度的特征权重学习处理，得到时域特征权重信息；

在步骤S303中，将待处理语音信息输入频域注意力层进行频域维度的特征权重学习处理，得到频域特征权重信息；

在步骤S305中，将时域特征权重信息和频域特征权重信息输入第一权重融合层进行时频权重融合处理，得到时频权重信息；

在步骤S307中，将时频权重信息和待处理语音信息输入加权特征提取层进行特征提取处理，得到目标语音特征信息。

在一个具体的实施例中，待处理语音信息中每一帧语音信息可以为待处理语音信息中时域维度(T维度)的信息(时域信息)；上述时域特征权重信息可以表征待处理语音信息中每一帧语音信息，在待处理语音信息中的重要程度。具体的，任意一帧语音信息对应的时域特征权重信息越大，该帧语音信息在待处理语音信息中的重要程度越高。

在一个可选的实施例中，上述时域注意力层可以包括：第一平均池化层、第一最大池化层、第一特征拼接层和时域权重学习层，时域权重学习层是基于空洞卷积网络构建的；可选的，如图4所示，上述将待处理语音信息输入时域注意力层进行时域维度的特征权重学习处理，得到时域特征权重信息可以包括以下步骤：

在步骤S3011中，将待处理语音信息输入第一平均池化层，沿频域维度进行压缩，得到全局时域特征信息；

在步骤S3013中，将待处理语音信息输入第一最大池化层，沿频域维度进行压缩，得到局部时域特征信息；

在步骤S3015中，将全局时域特征信息和局部时域特征信息输入第一特征拼接层进行特征拼接处理，得到时域拼接特征信息；

在步骤S3017中，将时域拼接特征信息输入时域权重学习层，进行时域权重学习处理，得到时域特征权重信息。

在一个具体的实施例中，待处理语音信息中每一帧语音信息对应的语义特征(C维语音特征)可以为待处理语音信息中频域维度的信息(频域信息)。具体的，沿频域维度(C维度)进行压缩，可以有效排除频域维度(C维度)的信息对T维度信息(时域信息)的干扰。

在一个具体的实施例中，以待处理语音信息的尺寸为N*C*T为例，将待处理语音信息分别输入第一平均池化层和第一最大池化层，沿频域维度进行压缩，得到的全局时域特征信息

和局部时域特征信息

的尺寸均为N*1*T；进一步的，在结合第一特征拼接层对全局时域特征信息和局部时域特征信息进行特征拼接处理，得到的时域拼接特征信息的尺寸可以为N*2*T。可选的，为了节省计算量，上述时域权重学习层可以为一个输入通道为2，输出通道为1的1维空洞卷积网络(卷积核的大小为3)，相应的，时域权重学习层(空洞卷积网络)的网络参数可以为2*1*3，相应的，时域权重学习层输出的时域特征权重信息的尺寸可以为N*1*T。

上述实施例中，在学习待处理语音信息中时域信息的重要程度的过程中，将待处理语音信息分别输入第一平均池化层和第一最大池化层，沿频域维度进行压缩，可以在有效消除频域信息对时域信息干扰的同时，获取多尺度的时域特征信息(全局时域特征信息和局部时域特征信息)，接着，结合基于空洞卷积网络构建的时域权重学习层，可以在扩大特征感受野的基础上，进行时域权重学习处理，大大提升了学习到的时域特征权重信息的准确性。

在一个具体的实施例中，上述频域特征权重信息可以表征待处理语音信息中每一帧语音信息对应的每一语音特征，在每一帧语音信息中的重要程度；具体的，每一帧语音信息中的每一语音特征对应的频域特征权重信息越大，该语音特征在对应帧语音信息中的重要程度越高。

在一个可选的实施例中，上述频域注意力层可以包括：第二平均池化层、第二最大池化层、频域权重学习层和第二权重融合层；可选的，如图5所示，上述将待处理语音信息输入频域注意力层进行频域维度的特征权重学习处理，得到频域特征权重信息可以包括以下步骤：

在步骤S3031中，将待处理语音信息输入第二平均池化层，沿时域维度进行压缩，得到全局频域特征信息；

在步骤S3033中，将待处理语音信息输入第二最大池化层，沿时域维度进行压缩，得到局部频域特征信息；

在步骤S3035中，将全局频域特征信息输入频域权重学习层进行频域权重学习处理，得到第一频域权重信息；

在步骤S3037中，将局部频域特征信息输入频域权重学习层进行频域权重学习处理，得到第二频域权重信息；

在步骤S3039中，将第一频域权重信息和第二频域权重信息输入第二权重融合层进行权重融合处理，得到频域特征权重信息。

在一个具体的实施例中，沿时域维度(T维度)进行压缩，可以有效排除时域维度(T维度)的信息对C维度信息(时域信息)的干扰。

在一个具体的实施例中，以待处理语音信息的尺寸为N*C*T为例，将待处理语音信息分别输入第二平均池化层和第二最大池化层，沿时域维度进行压缩，得到的全局频域特征信息

和局部频域特征信息

的尺寸均为N*1*T。可选的，为了节省计算量，可以使用同一个网络(频域权重学习层)去处理全局频域特征信息以及局部频域特征信息这两个不同尺度的特征信息，可选的，在实际应用中也可以采用两个网络去处理全局频域特征信息以及局部频域特征信息。

在一个具体的实施例中，上述频域权重学习层可以包括依次连接的第一全连接层、非线性层和第二全连接层。可选的，第一全连接层对应网络参数的尺寸可以为C*(C/r)，其中，r为压缩比；非线性层可以为激活函数ReLU，第二全连接层对应网络参数的尺寸可以为(C/r)*C；相应的，可选的，第一频域权重信息和第二频域权重信息对应的尺寸可以为N*C；进一步的，在第二权重融合层中，可以将第一频域权重信息和第二频域权重信息相加，得到频域特征权重信息。

上述实施例中，在学习待处理语音信息中频域信息的重要程度的过程中，将待处理语音信息分别输入第二平均池化层和第二最大池化层，沿时域维度进行压缩，可以在有效消除时域信息对频域信息干扰的同时，获取多尺度的频域特征信息(全局频域特征信息和局部频域特征信息)，保证后续进行频域权重学习过程中，频域特征的全面性和有效性，且结合一个频域权重学习层对全局频域特征信息和局部频域特征信息进行频域权重学习，可以有效减少计算量，大大提升处理效率。

在一个具体的实施例中，上述时频权重信息可以表征待处理语音信息中时频信息的重要程度；具体的，由于时域特征权重信息和频域特征权重信息的尺寸不一致，在时频第二权重融合层中，可以通过广播机制将时域特征权重信息和频域特征权重信息进行相加，并结合激活函数sigmoid，将相加后的权重信息中每一元素归一化至0-1之间，得到上述时频权重信息。接着，在加权特征提取层，可以将时频权重信息和待处理语音信息中对应位置元素相乘，得到目标语音特征信息。

在一个具体的实施例中，如图6所示，图6是根据一示例性实施例提供的一种结合时频注意力层进行语音特征提取过程的示意图。具体的，时频注意力层可以包括时域注意力层、频域注意力层、第一权重融合层和加权特征提取层；可选的，可以将待处理语音信息H分别输入时域注意力层中的第一最大池化层和第一平均池化层，沿频域维度进行压缩处理，可以得到局部时域特征信息

和全局时域特征信息

接着，将

和

输入时域注意力层中的第一特征拼接层进行特征拼接处理，得到时域拼接特征信息

接着，将

输入时域注意力层中的时域权重学习层，进行时域权重学习处理，得到时域特征权重信息Ht。另外，可以将待处理语音信息H分别输入频域注意力层中的频第二平均池化层和第二最大池化层，沿时域维度进行压缩，得到全局频域特征信息

和局部频域特征信息

接着，将

和

分别输入频域注意力层中的频域权重学习层进行频域权重学习处理，得到第一频域权重信息Hfatt1和第二频域权重信息Hfatt2；接着，将Hfatt1和Hfatt输入频域注意力层中的第二权重融合层进行权重融合处理，得到频域特征权重信息Hf。进一步的，可以将Ht和Hf输入第一权值融合层进行时频权重融合处理，得到时频权重信息Hatt；接着，将Hatt和待处理语音信息H输入加权特征提取层进行特征提取处理，得到所述目标语音特征信息Hout。

上述实施例中，在进行语音特征信息提取过程中，结合时域注意力层，进行时域维度的特征权重学习处理，可以有效学习到表征待处理语音信息中每一帧语音信息，在所述待处理语音信息中重要程度的时域特征权重信息；且结合频域注意力层，进行频域维度的特征权重学习处理，可以有效学习到表征待处理语音信息中每一帧语音信息对应的每一语音特征，在每一帧语音信息中重要程度的频域特征权重信息；并将时域特征权重信息和频域特征权重信息输入第一权重融合层进行时频权重融合处理，得到可以表征待处理语音信息中时频信息对应重要程度的时频权重信息，接着，将时频权重信息和待处理语音信息输入加权特征提取层进行特征提取处理，可以在结合待处理语音信息中每一帧语音信息对应重要程度以及每一帧语音信息中每一语音特征重要程度的基础上，从待处理语音信息中提取目标语音特征信息。大大提升了语音特征信息的表征准确性。

在一个可选的实施例中，上述至少一个时频注意力层可以为按序连接的多个时频注意力层；上述目标语音特征信息可以包括多个时频注意力层输出的语音特征信息；可选的，上述将待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理，得到待处理语音信息对应的目标语音特征信息包括：

在当前时频注意力层为多个时频注意力层中的第一个时频注意力层的情况下，将待处理语音信息输入当前时频注意力层，以在学习待处理语音信息中时频信息的重要程度的基础上，对待处理语音信息进行特征提取处理，得到第一个时频注意力层输出的语音特征信息；

在当前时频注意力层为任一其他时频注意力层的情况下，将上一语音特征信息，输入任一其他时频注意力层，以在学习上一语音特征信息中时频信息的重要程度的基础上，对上一语音特征信息进行特征提取处理，得到任一其他时频注意力层输出的语音特征信息；

在一个具体的实施例中，上述当前时频注意力层可以为基于多个时频注意力层对应的连接顺序确定的当前进行特征提取处理的时频注意力层；任一其他时频注意力层为多个时频注意力层中除第一个时频注意力层以外的任一时频注意力层；上一语音特征信息为任一其他时频注意力层的前一个时频注意力层输出的语音特征信息。

在一个具体的实施例中，上述将待处理语音信息输入当前时频注意力层，以在学习待处理语音信息中时频信息的重要程度的基础上，对待处理语音信息进行特征提取处理，得到第一个时频注意力层输出的语音特征信息的具体细化，可以参见上述至少一个时频注意力层可以为一个时频注意力层的情况下，将待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理，得到待处理语音信息对应的目标语音特征信息的具体细化，在此不再赘述。

在一个具体的实施例中，上述将上一语音特征信息，输入任一其他时频注意力层，以在学习上一语音特征信息中时频信息的重要程度的基础上，对上一语音特征信息进行特征提取处理，得到任一其他时频注意力层输出的语音特征信息的具体细化，可以参见上述至少一个时频注意力层可以为一个时频注意力层的情况下，将待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理，得到待处理语音信息对应的目标语音特征信息的具体细化，即将初始输入由待处理语音信息替换为上一语音特征信息，在此不再赘述。

上述实施例中，结合按序连接的多个时频注意力层来进行语音特征信息的提取，可以在不同感受野下，从待处理语音信息的每一帧语音信息中有效提取重要特征信息，同时也可以在不同感受野下，有效提取待处理语音信息中每一帧重要的语音信息，大大提升了语音特征信息的表征准确性和有效性。

在一个可选的实施例中，上述语音特征提取网络还可以包括按序排列的至少一个语音特征提取层，且至少一个时频注意力层也是按序排列；至少一个语音特征提取层和至少一个时频注意力层，以至少一个语音特征提取层中第一个语音特征提取层为起始层依次按序交替连接；目标语音特征信息包括至少一个时频注意力层输出的语音特征信息；

相应的，上述将待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理，得到待处理语音信息对应的目标语音特征信息可以包括：

在当前语音特征提取层为第一个语音特征提取层的情况下，将待处理语音信息输入第一个语音特征提取层进行特征提取处理，得到第一语音特征信息，第一语音特征信息为第一个语音特征提取层输出的语音特征信息；当前语音特征提取层为基于至少一个语音特征提取层和至少一个时频注意力层对应的连接顺序确定的，当前进行特征提取处理的语音特征提取层；

将第一语音特征信息输入至少一个时频注意力层中的第一个时频注意力层，以在学习第一语音特征信息中时频信息的重要程度的基础上，对第一语音特征信息进行特征提取处理，得到第一个时频注意力层输出的语音特征信息；

在当前语音特征提取层为任一其他语音特征提取层的情况下，将任一其他语音特征提取层的上一个时频注意力层输出的语音特征信息，输入任一其他语音特征提取层进行特征提取处理，得到第二语音特征信息；第二语音特征信息为任一其他语音特征提取层输出的语音特征信息；

将第二语音特征信息输入任一其他语音特征提取层的下一个时频注意力层，以在学习第二语音特征信息中时频信息的重要程度的基础上，对第二语音特征信息进行特征提取处理，得到下一个时频注意力层输出的语音特征信息；

在一个具体的实施例中，任一其他语音特征提取层为至少一个语音特征提取层中除第一个语音特征提取层以外的任一语音特征提取层。具体的，至少一个语音特征提取层中任一语音特征提取层可以为一个bottleneck layery(瓶颈层)。任一其他语音特征提取层的下一个时频注意力层是指连接在该其他语音特征提取层之后的时频注意力层。

此外，需要说明的是，随着网络层数的增加，当前网络层中特征的感受野也会逐渐增大，相应的，多个时频注意力层中基于空洞卷积构建的时域权重学习层对应的空洞率也可以逐渐增大，可以提升捕获语音特征的尺度，进而提升学习到的语音特征的有效性和准确性。

上述实施例中，在每一时频注意力层之前设置一个语音特征提取层，可以从结合语音特征提取层，不断的提取更深层的语音特征信息，进而可以让视频注意力层可以在不同感受野下，从每一帧语音信息中有效提取重要特征信息，同时也可以在不同感受野下，有效提取待处理语音信息中每一帧重要的语音信息，大大提升了语音特征信息的表征准确性和有效性。

在一个可选的实施例中，上述语音特征提取网络还可以包括连接在上述第一个语音特征提取层之前的初始语音特征提取层。可选的，可以将能够对长时间依赖性的语音信号进行建模的时延神经网络作为初始语音特征提取层。

在一个可选的实施例中，上述语音特征提取网络还可以包括与至少一个时频注意力层中每一时频注意力层连接的第二特征拼接层，具体的，该第二特征拼接层可以用于对至少一个时频注意力层输出的语音特征信息(目标语音特征信息)进行拼接处理。

在一个可选的实施例中，上述语音特征提取网络还可以包括连接在第二特征拼接层之后的中间语音特征提取层；可选的，该中间语音特征提取层可以为时延神经网络。

在一个可选的实施例中，上述语音特征提取网络还可以包括连接在中间语音特征提取层之后的注意力汇总层(attentive statistic pooling)，具体的，在有多个时频注意力层的情况下，目标语音特征信息包括多个多个时频注意力层输出的语音特征信息，相应的，可以结合注意力汇总层在时域进行语音特征信息的汇总，进而可以更好的保证提取的语音特征信息的有效性。

在一个可选的实施例中，如图7所示，上述语音特征提取网络可以结合下述步骤训练得到：

在步骤S701中，获取预设语音任务对应的样本语音信息和样本语音信息对应的任务处理结果标签；

在步骤S703中，将样本语音信息输入包括至少一个待训练时频注意力层的待训练语音特征提取网络进行特征提取处理，得到样本语音信息对应的样本语音特征信息，任一待训练时频注意力层用于在学习样本语音信息中时频信息的重要程度的基础上，从样本语音信息中提取语音特征信息；

在步骤S705中，将样本语音特征信息输入预设语音任务对应的任务处理网络进行任务处理，得到预测任务处理结果；

在步骤S707中，基于任务处理结果标签和预测任务处理结果，对待训练语音特征提取网络进行训练，得到语音特征提取网络。

在一个具体的实施例中，样本语音信息可以为用于训练语音特征提取网络的语音信息；样本语音信息对应的任务处理结果标签可以与预设语音任务相对应，可选的，在预设语音任务为方言识别任务的情况下，任务处理结果标签可以为表征样本语音信息对应的方言类型的标签，可选的，预设方言类型有多种，任务处理结果标签可以包括与多种预设方言类型对应的标签，每个标签为样本语音信息的方言类型属于对应预设方言类型的概率，可选的，若样本语音信息的方言类型为方言类型A，相应的，任务处理结果标签中方言类型A对应的标签为1，其他方言类型对应的标签为0；在预设语音任务为说话人识别任务的情况下，任务处理结果标签可以为表征样本语音信息对应的说话人识别结果的标签，可选的，预设说话人有多个，任务处理结果标签可以包括与多个预设说话人对应的标签，每个标签为样本语音信息对应的说话人属于对应预设说话人的概率，可选的，若样本语音信息的说话人为说话人B，相应的，任务处理结果标签中说话人B对应的标签为1，其他说话人对应的标签为0。

在一个具体的实施例中，上述将样本语音信息输入包括至少一个待训练时频注意力层的待训练语音特征提取网络进行特征提取处理，得到样本语音信息对应的样本语音特征信息的具体细化，可以参见上述将所述待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理，得到所述待处理语音信息对应的目标语音特征信息的具体细化，在此不再赘述。

在一个具体的实施例中，预设语音任务对应的任务处理网络可以为用于将样本语音特征信息转化为预设语音任务对应的任务处理结果(预测任务处理结果)的网络；相应的，预测任务处理结果可以为基于待训练语音特征提取网络提取的样本语音特征信息进行任务处理结果预测所得到的任务处理结果。可选的，任务处理网络可以为Bn-linear(批量标准化层+线性归一化层)；具体的，批量标准化层可以提升待训练语音特征提取网络训练过程中的收敛速度，线性归一化层可以为一个全连接层。

在一个具体的实施例中，上述基于任务处理结果标签和预测任务处理结果，对待训练语音特征提取网络进行训练，得到语音特征提取网络可以包括：基于预设损失函数，计算任务处理结果标签和预测任务处理结果间的任务损失信息；根据任务损失信息调整待训练语音特征提取网络中的网络参数，基于调整后的待训练语音特征提取网络重复将样本语音信息输入包括至少一个待训练时频注意力层的待训练语音特征提取网络进行特征提取处理，得到样本语音信息对应的样本语音特征信息至根据任务损失信息调整待训练语音特征提取网络中的网络参数的训练迭代步骤，直至满足预设收敛条件；并将满足预设收敛条件时对应的待训练语音特征提取网络作为训练好的语音特征提取网络。

在一个具体的实施例中，预设损失函数可以结合实际应用需求设定，例如指数损失函数，交叉熵损失函数等。上述任务损失信息可以表征待训练语音特征提取网络的特征提取的准确性。上述满足预设收敛条件可以为任务损失信息小于等于预设损失阈值，或训练迭代步骤的次数达到预设次数等，具体的，预设损失阈值和预设次数可以结合实际应用中网络精度和训练速度需求进行设置。

上述实施例中，在训练预设语音任务对应的语音特征提取网络的过程中，将预设语音任务对应的样本语音信息输入包括至少一个待训练时频注意力层的待训练语音特征提取网络进行特征提取处理，可以在学习样本语音信息中时频信息的重要程度的基础上，从样本语音信息中提取样本语音特征信息，实现对样本语音信息中时域和频域的重要信息的同时关注，进而可以从样本语音信息的每一帧语音信息中有效提取重要特征信息(重要频域特征信息)，同时也可以有效提取样本语音信息中每一帧重要的语音信息(重要时域特征信息)，大大提升了语音特征信息的表征准确性，保证基于样本语音特征信息进行任务处理得到的预测任务处理结果的有效性，进而可以提升训练好的语音特征提取网络的语音特征提取性能。

此外，需要说明的是，在实际应用中，可以结合实际需求来设置语音特征提取网络中各个网络层的层数和结构。

在步骤S205中，基于目标语音特征信息执行预设语音任务，得到任务处理结果。

在一个具体的实施例中，不同的语音任务可以对应不同的任务处理结果；可选的，在预设语音任务为方言识别任务的情况下，任务处理结果可以为表征待处理语音信息对应的方言类型的信息；在预设语音任务为说话人识别任务的情况下，任务处理结果可以为表征待处理语音信息对应的说话人识别结果的信息。

在一个可选的实施例中，上述基于目标语音特征信息执行预设语音任务，得到任务处理结果可以包括：将目标语音特征信息输入预设语音任务对应的任务处理网络进行任务处理，得到任务处理结果。

上述实施例中，将在学习待处理语音信息中时频信息的重要程度的基础上，从待处理语音信息中提取目标语音特征信息输入预设语音任务对应的任务处理网络进行任务处理，可以有效保证语音任务处理结果的准确性，大大提升语音任务的处理性能。

在一个具体的实施例中，如图8所示，图8是根据一示例性实施例提供的一种语音特征提取网络的结果示意图。其中，语音特征提取网络可以包括初始语音特征提取层、M个语音特征提取层+时频注意力层、第二特征拼接层、中间语音特征提取层和注意力汇总层。相应的，在进行语音任务处理过程中，可以将待处理语音信息输入初始语音特征提取层进行语音特征提取处理，接着，将初始语音特在提取层输出的语音特征信息输入第一个语音特征提取层进行语音特征提取处理，接着，将第一个语音特征提取层输出的语音特征信息输入第一个时频注意力层，以在学习时频信息对应重要程度的基础上，进行语音特征提取处理，并依次类推，经过下面的M-1个语音特征提取层+时频注意力层，接着，可以将M个时频注意力层输出的语音特征信息输入第二特征拼接层进行语音特征拼接处理，接着，将第二特征拼接层输出的语音特征信息输入中间语音特征提取层进行语音特征提取处理，接着，将中间语音特征提取层输出的语音特征信息输入注意力汇总层进行语音特征汇总，相应的，上述基于目标语音特征信息执行预设语音任务，得到任务处理结果可以包括基于注意力汇总层输出的语音特征信息执行预设语音任务，得到任务处理结果。

由以上本说明书实施例提供的技术方案可见，本说明书中在语音任务处理过程中，将预设语音任务对应的待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理，可以基于至少一个时频注意力层在学习待处理语音信息中时频信息的重要程度的基础上，从待处理语音信息中提取目标语音特征信息，实现对待处理语音信息中时域和频域的重要信息的同时关注，进而可以从待处理语音信息的每一帧语音信息中有效提取重要特征信息(重要频域特征信息)，同时也可以有效提取待处理语音信息中每一帧重要的语音信息(重要时域特征信息)，大大提升了语音特征信息的表征准确性，且基于目标语音特征信息执行预设语音任务，可以有效保证语音任务处理结果的准确性，大大提升语音任务的处理性能。

图9是根据一示例性实施例示出的一种语音任务处理装置框图。参照图9，该装置包括：

待处理语音信息获取模块910，被配置为执行获取预设语音任务对应的待处理语音信息；

第一特征提取处理模块920，被配置为执行将待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理，得到待处理语音信息对应的目标语音特征信息，任一时频注意力层用于在学习待处理语音信息中时频信息的重要程度的基础上，从待处理语音信息中提取语音特征信息；

语音任务处理模块930，被配置为执行基于目标语音特征信息执行预设语音任务，得到任务处理结果。

在一个具体的实施例中，至少一个时频注意力层为一个时频注意力层，时频注意力层包括时域注意力层、频域注意力层、第一权重融合层和加权特征提取层，第一特征提取处理模块920包括：

第一特征权重学习单元，被配置为执行将待处理语音信息输入时域注意力层进行时域维度的特征权重学习，得到时域特征权重信息，时域特征权重信息表征待处理语音信息中每一帧语音信息，在待处理语音信息中的重要程度；

第二特征权重学习单元，被配置为执行将待处理语音信息输入频域注意力层进行频域维度的特征权重学习，得到频域特征权重信息，频域特征权重信息表征待处理语音信息中每一帧语音信息对应的每一语音特征，在每一帧语音信息中的重要程度；

时频权重融合处理单元，被配置为执行将时域特征权重信息和频域特征权重信息输入第一权重融合层进行时频权重融合处理，得到时频权重信息；时频权重信息表征待处理语音信息中时频信息的重要程度；

第一特征提取处理单元，被配置为执行将时频权重信息和待处理语音信息输入加权特征提取层进行特征提取处理，得到目标语音特征信息。

在一个可选的实施例中，时域注意力层包括：第一平均池化层、第一最大池化层、第一特征拼接层和时域权重学习层，时域权重学习层是基于空洞卷积网络构建的；

第一特征权重学习单元包括：

第一压缩单元，被配置为执行将待处理语音信息输入第一平均池化层，沿频域维度进行压缩，得到全局时域特征信息；

第二压缩单元，被配置为执行将待处理语音信息输入第一最大池化层，沿频域维度进行压缩，得到局部时域特征信息；

特征拼接处理单元，被配置为执行将全局时域特征信息和局部时域特征信息输入第一特征拼接层进行特征拼接处理，得到时域拼接特征信息；

时域权重学习单元，被配置为执行将时域拼接特征信息输入时域权重学习层，进行时域权重学习，得到时域特征权重信息。

在一个可选的实施例中，频域注意力层包括：第二平均池化层、第二最大池化层、频域权重学习层和第二权重融合层；

第二特征权重学习单元包括：

第三压缩单元，被配置为执行将待处理语音信息输入第二平均池化层，沿时域维度进行压缩，得到全局频域特征信息；

第四压缩单元，被配置为执行将待处理语音信息输入第二最大池化层，沿时域维度进行压缩，得到局部频域特征信息；

第一频域权重学习单元，被配置为执行将全局频域特征信息输入频域权重学习层进行频域权重学习，得到第一频域权重信息；

第二频域权重学习单元，被配置为执行将局部频域特征信息输入频域权重学习层进行频域权重学习，得到第二频域权重信息；

权重融合处理单元，被配置为执行将第一频域权重信息和第二频域权重信息输入第二权重融合层进行权重融合处理，得到频域特征权重信息。

在一个可选的实施例中，至少一个时频注意力层为按序连接的多个时频注意力层；目标语音特征信息包括多个时频注意力层输出的语音特征信息；

第一特征提取处理模块920包括：

第二特征提取处理单元，被配置为执行在当前时频注意力层为多个时频注意力层中的第一个时频注意力层的情况下，将待处理语音信息输入当前时频注意力层，以在学习待处理语音信息中时频信息的重要程度的基础上，对待处理语音信息进行特征提取处理，得到第一个时频注意力层输出的语音特征信息；当前时频注意力层为基于多个时频注意力层对应的连接顺序确定的当前进行特征提取处理的时频注意力层；

第三特征提取处理单元，被配置为执行在当前时频注意力层为任一其他时频注意力层的情况下，将上一语音特征信息，输入任一其他时频注意力层，以在学习上一语音特征信息中时频信息的重要程度的基础上，对上一语音特征信息进行特征提取处理，得到任一其他时频注意力层输出的语音特征信息；

其中，任一其他时频注意力层为多个时频注意力层中除第一个时频注意力层以外的任一时频注意力层；上一语音特征信息为任一其他时频注意力层的前一个时频注意力层输出的语音特征信息。

在一个可选的实施例中，语音特征提取网络还包括按序排列的至少一个语音特征提取层，且至少一个时频注意力层是按序排列；至少一个语音特征提取层和至少一个时频注意力层，以至少一个语音特征提取层中第一个语音特征提取层为起始层依次按序交替连接；目标语音特征信息包括至少一个时频注意力层输出的语音特征信息；

第一特征提取处理模块920包括：

第四特征提取处理单元，被配置为执行在当前时频注意力层为任一其他时频注意力层的情况下，将上一语音特征信息，在当前语音特征提取层为第一个语音特征提取层的情况下，将待处理语音信息输入第一个语音特征提取层进行特征提取处理，得到第一语音特征信息，第一语音特征信息为第一个语音特征提取层输出的语音特征信息；当前语音特征提取层为基于至少一个语音特征提取层和至少一个时频注意力层对应的连接顺序确定的，当前进行特征提取处理的语音特征提取层；

第五特征提取处理单元，被配置为执行将第一语音特征信息输入至少一个时频注意力层中的第一个时频注意力层，以在学习第一语音特征信息中时频信息的重要程度的基础上，对第一语音特征信息进行特征提取处理，得到第一个时频注意力层输出的语音特征信息；

第六特征提取处理单元，被配置为执行在当前语音特征提取层为任一其他语音特征提取层的情况下，将任一其他语音特征提取层的上一个时频注意力层输出的语音特征信息，输入任一其他语音特征提取层进行特征提取处理，得到第二语音特征信息，第二语音特征信息为任一其他语音特征提取层输出的语音特征信息；

第七特征提取处理单元，被配置为执行将第二语音特征信息输入任一其他语音特征提取层的下一个时频注意力层，以在学习第二语音特征信息中时频信息的重要程度的基础上，对第二语音特征信息进行特征提取处理，得到下一个时频注意力层输出的语音特征信息；任一其他语音特征提取层为至少一个语音特征提取层中除第一个语音特征提取层以外的任一语音特征提取层。

在一个可选的实施例中，语音任务处理模块930具体被配置为执行将目标语音特征信息输入预设语音任务对应的任务处理网络进行任务处理，得到任务处理结果。

在一个可选的实施例中，语音特征提取网络采用下述模块训练得到：

样本获取模块，被配置为执行获取预设语音任务对应的样本语音信息和样本语音信息对应的任务处理结果标签；

第二特征提取处理模块，被配置为执行将样本语音信息输入包括至少一个待训练时频注意力层的待训练语音特征提取网络进行特征提取处理，得到样本语音信息对应的样本语音特征信息，任一待训练时频注意力层用于在学习样本语音信息中时频信息的重要程度的基础上，从样本语音信息中提取语音特征信息；

任务处理模块，被配置为执行将样本语音特征信息输入预设语音任务对应的任务处理网络进行任务处理，得到预测任务处理结果；

网络训练模块，被配置为执行基于任务处理结果标签和预测任务处理结果，对待训练语音特征提取网络进行训练，得到语音特征提取网络。

关于上述实施例中的装置，其中各个层执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图10是根据一示例性实施例示出的一种用于语音任务处理的电子设备的框图，该电子设备可以是终端，其内部结构图可以如图10所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音任务处理方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

图11是根据一示例性实施例示出的另一种用于语音任务处理的电子设备的框图，该电子设备可以是服务器，其内部结构图可以如图11所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音任务处理方法。

本领域技术人员可以理解，图10或图11中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在示例性实施例中，还提供了一种电子设备，包括：处理器；用于存储该处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现如本公开实施例中的语音任务处理方法。

在示例性实施例中，还提供了一种计算机可读存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例中的语音任务处理方法。

在示例性实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例中的语音任务处理方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音任务处理方法，其特征在于，包括：

获取预设语音任务对应的待处理语音信息；

2.根据权利要求1所述的语音任务处理方法，其特征在于，所述至少一个时频注意力层为一个所述时频注意力层，所述时频注意力层包括时域注意力层、频域注意力层、第一权重融合层和加权特征提取层；所述将所述待处理语音信息输入包括至少一个时频注意力层的语音特征提取网络进行特征提取处理，得到所述待处理语音信息对应的目标语音特征信息包括：

3.根据权利要求2所述的语音任务处理方法，其特征在于，所述时域注意力层包括：第一平均池化层、第一最大池化层、第一特征拼接层和时域权重学习层，所述时域权重学习层是基于空洞卷积网络构建的；

4.根据权利要求2所述的语音任务处理方法，其特征在于，所述频域注意力层包括：第二平均池化层、第二最大池化层、频域权重学习层和第二权重融合层；

5.根据权利要求1所述的语音任务处理方法，其特征在于，所述至少一个时频注意力层为按序连接的多个所述时频注意力层；所述目标语音特征信息包括多个所述时频注意力层输出的语音特征信息；

6.根据权利要求1至5任一所述的语音任务处理方法，其特征在于，所述语音特征提取网络还包括按序排列的至少一个语音特征提取层，且至少一个所述时频注意力层是按序排列；至少一个所述语音特征提取层和至少一个所述时频注意力层，以至少一个所述语音特征提取层中第一个语音特征提取层为起始层依次按序交替连接；所述目标语音特征信息包括至少一个所述时频注意力层输出的语音特征信息；

7.根据权利要求1至5任一所述的语音任务处理方法，其特征在于，所述基于所述目标语音特征信息执行所述预设语音任务，得到任务处理结果包括：

8.根据权利要求1至5任一所述的语音任务处理方法，其特征在于，所述语音特征提取网络采用下述方式训练得到：

9.一种语音任务处理装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至8中任一项所述的语音任务处理方法。

11.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至8中任一项所述的语音任务处理方法。