CN113450781A

CN113450781A - 语音处理方法、语音编码器、语音解码器及语音识别系统

Info

Publication number: CN113450781A
Application number: CN202010219957.0A
Authority: CN
Inventors: 张仕良; 高志付; 雷鸣
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2021-09-28
Anticipated expiration: 2040-03-25
Also published as: US20230009633A1; WO2021190389A1; CN113450781B

Abstract

本发明实施例提供了一种语音处理方法、语音编码器、语音解码器及语音识别系统。方法包括：获取待处理的语音信号；分别利用第一神经网络、第二神经网络对所述语音信号进行处理，获得与语音信号相对应的第一特征信息、第二特征信息，其中，第一神经网络的计算效率高于第二神经网络的计算效率，第二神经网络输出的第二特征信息的准确性高于第一神经网络输出的第一特征信息的准确性；根据第一特征信息和第二特征信息，确定用于表征语音信号中语义的目标特征信息。本实施例提供的技术方案，通过两个不同的神经网络获得两个特征信息，由于两个特征信息在语音处理的效率和质量上具有互补性,从而提高了对目标特征信息进行获取的准确可靠性。

Description

语音处理方法、语音编码器、语音解码器及语音识别系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种语音处理方法、语音编码器、语音解码器及语音识别系统。

背景技术

语音识别技术可以实现将人所说的语音波形转成机器可以识别的文本，对于语音识别技术而言，语音识别率是评估语音识别性能的一个重要指标。在2017年，谷歌提出了一种可以进行语音识别的Transformer模型，具体的，Transformer模型可以采用与文本相关的自注意力机制对语音的长时相关性进行语音建模，获得语音识别模型，而后通过建立的语音识别模型实现语音识别操作。

然而，在Transformer模型采用与文本相关的自注意力机制对语音的长时相关性进行语音建模时，由于与文本相关的参数较多，构建语音识别模型的复杂度较高，并且也增加了对语音识别模型进行优化的困难程度，从而极大地影响了对语音信号进行识别的质量和效率。

发明内容

本发明实施例提供了一种语音处理方法、语音编码器、语音解码器及语音识别系统，不仅能够降低对语音信号进行处理的复杂程度，并且也提高了对语音信号进行识别的质量和效率。

第一方面，本发明实施例提供了一种语音处理方法，包括：

获取待处理的语音信号；

利用第一神经网络对所述语音信号进行处理，获得与所述语音信号相对应的第一特征信息，所述第一特征信息用于标识所述语音信号中的语义；

利用第二神经网络对所述语音信号进行处理，获得与所述语音信号相对应的第二特征信息，所述第二特征信息用于标识所述语音信号中的语义，其中，所述第二特征信息与所述第一特征信息不同；

根据所述第一特征信息和所述第二特征信息，确定用于表征所述语音信号中语义的目标特征信息。

第二方面，本发明实施例提供了一种语音编码器，包括：

第一获取单元，用于获取待处理的语音信号；

第一处理单元，用于利用第一神经网络对所述语音信号进行处理，获得与所述语音信号相对应的第一特征信息，所述第一特征信息用于标识所述语音信号中的语义；

所述第一处理单元，还用于利用第二神经网络对所述语音信号进行处理，获得与所述语音信号相对应的第二特征信息，所述第二特征信息用于标识所述语音信号中的语义，其中，所述第二特征信息与所述第一特征信息不同；

第一确定单元，用于根据所述第一特征信息和所述第二特征信息，确定用于表征所述语音信号中语义的目标特征信息。

第三方面，本发明实施例提供了一种电子设备，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第一方面中的语音处理方法。

第四方面，本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第一方面中的语音处理方法。

第五方面，本发明实施例提供了一种语音处理方法，包括：

接收编码器发送的目标特征信息，所述目标特征信息与一语音信号相对应；

获取历史预测信息；

利用多头注意力机制和所述历史预测信息对所述目标特征信息进行处理，获得与所述语音信号相对应的文本信息。

第六方面，本发明实施例提供了一种语音解码器，包括：

第二接收模块，用于接收编码器发送的目标特征信息，所述目标特征信息与一语音信号相对应；

第二获取模块，用于获取历史预测信息；

第二处理模块，用于利用多头注意力机制和所述历史预测信息对所述目标特征信息进行处理，获得与所述语音信号相对应的文本信息。

第七方面，本发明实施例提供了一种电子设备，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第五方面中的语音处理方法。

第八方面，本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第五方面中的语音处理方法。

第九方面，本发明实施例提供了一种语音识别系统，包括：

上述第二方面所述的语音编码器，用于对所获取到的语音信号进行数据降维处理，获得与所述语音信号相对应的语音特征信息。

第十方面，本发明实施例提供了一种数据处理方法，包括：

获取待处理的语音信号；

分别利用第一神经网络、第二神经网络对所述语音信号进行处理，获得与所述语音信号相对应的第一特征信息、第二特征信息，其中，所述第一神经网络的计算效率高于所述第二神经网络的计算效率，所述第二神经网络输出的第二特征信息的准确性高于所述第一神经网络输出的第一特征信息的准确性；

第十一方面，本发明实施例提供了一种语音编码器，包括：

第三获取模块，用于获取待处理的语音信号；

第三处理模块，用于分别利用第一神经网络、第二神经网络对所述语音信号进行处理，获得与所述语音信号相对应的第一特征信息、第二特征信息，其中，所述第一神经网络的计算效率高于所述第二神经网络的计算效率，所述第二神经网络输出的第二特征信息的准确性高于所述第一神经网络输出的第一特征信息的准确性；

第三确定模块，用于根据所述第一特征信息和所述第二特征信息，确定用于表征所述语音信号中语义的目标特征信息。

第十二方面，本发明实施例提供了一种电子设备，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第十方面中的语音处理方法。

第十二方面，本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第十方面中的语音处理方法。

第十三方面，本发明实施例提供了一种语音识别系统，包括：

上述第十一方面所述的语音编码器，用于对所获取到的语音信号进行数据降维处理，获得与所述语音信号相对应的语音特征信息。

本实施例提供的语音处理方法、语音编码器、语音解码器及语音识别系统，利用第一神经网络对所获取的语音信号进行处理,获得第一特征信息,并利用第二神经网络对所获取的语音信号进行处理,获得第二特征信息,由于第一神经网络和第二神经网络不同,因此,所获得的第一特征信息和第二特征信息在语音处理的效率和质量上具有互补性,而后根据第一特征信息和第二特征信息来确定用于表征所述语音信号中语义的目标特征信息,有效地保证了对目标特征信息进行获取的质量，进一步提高了对语音信号进行处理的质量和效率,保证了该方法的实用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音处理方法的流程示意图；

图2为本发明实施例提供的一种语音处理方法的应用场景示意图；

图3为本发明实施例提供的利用第一神经网络对所述语音信号进行处理，获得与所述语音信号相对应的第一特征信息的流程示意图；

图4为本发明实施例提供的基于所述自注意力机制对所述语音特征信息进行处理，获得所述第一特征信息的流程示意图；

图5为本发明实施例提供的获取与所述检索词特征、所述关键字特征和值特征相对应的融合转换信息的流程示意图；

图6为本发明实施例提供的根据所述注意力机制的数量和融合转换信息，获得与所述语音信号相对应的第一特征信息的流程示意图；

图7为本发明实施例提供的利用第二神经网络对所述语音信号进行处理，获得与所述语音信号相对应的第二特征信息的流程示意图；

图8为本发明实施例提供的利用静态记忆神经网络对所述值特征进行处理，获得所述第二特征信息的流程示意图；

图9为本发明应用实施例提供的一种语音处理方法的示意图；

图10为本发明实施例提供的另一种语音处理方法的流程示意图；

图11为本发明实施例提供的另一种语音处理方法的示意图；

图12为本发明实施例提供的又一种语音处理方法的示意图；

图13为本发明实施例提供的一种语音编码器的结构示意图；

图14为与图13所示实施例提供的语音编码器对应的电子设备的结构示意图；

图15为本发明实施例提供的一种语音解码器的结构示意图；

图16为与图15所示实施例提供的语音解码器对应的电子设备的结构示意图；

图17为本发明实施例提供的另一种语音编码器的结构示意图；

图18为与图17所示实施例提供的语音编码器对应的电子设备的结构示意图；

图19为本发明实施例提供的一种语音识别系统的结构示意图；

图20为本发明实施例提供的语音识别系统的应用示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

为了便于理解本申请的技术方案，下面对现有技术进行简要说明：

现有的端到端语音识别系统所采用的神经网络包括：基于长短时记忆单元的循环神经网络(LSTM-RNN)、基于自注意力机制的Transformer模型、深度前馈序列记忆神经网络(Deep-Feed-forward Sequential Memory Network简称DFSMN)等等，其中，DFSMN是在之前的前馈序列记忆神经网络(Feedforward Sequential Memory Networks，简称FSMN)的基础上，提出的一种改进的FSMN网络结构。

具体的，在Transformer模型构建语音识别系统时，Transformer模型可以采用与文本相关的自注意力机制对语音的长时相关性(long-term dependence)进行语音建模，获得语音识别模型，以便通过所建立的语音识别模型实现语音识别操作；其中，语音的长时相关性是指当前语音信号与历史时刻的语音信号内容和未来时刻的语音信号内容之间所存在的关联性。具体应用时，Transformer模型的语音识别效率相对于LSTM-RNN模型的语音识别效率更高，效果也更好，

在DFSMN模型构建语音识别系统时，DFSMN模型可以采用一些与文本无关的滤波器对语音的长时相关性进行语音建模，获得语音识别模型，以便通过建立的语音识别模型实现语音识别操作。实际应用的实验表明在一些干净的语音上，DFSMN可以获得比Transformer更优的性能，而且复杂度更低，但是对于一些质量比较差的语音，Transformer性能上具有优势。

然而，在利用Transformer模型对语音的长时相关性进行语音建模时，由于与文本相关的参数较多，从而极大地增加了构建语音识别模型的复杂度以及对语音识别模型进行优化的困难程度。在利用DFSMN模型对语音的长时相关性进行语音建模时，由于与文本相关的参数较少，因此，极大地降低了构建语音识别模型的复杂度和对语音识别模型进行优化的困难程度，同时也降低了进行语音识别的鲁棒性。

下面结合附图，对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

图1为本发明实施例提供的一种语音处理方法的流程示意图；图2为本发明实施例提供的一种语音处理方法的应用场景示意图；参考附图1-图2所示，为了解决上述技术问题，本实施例提供了一种语音处理方法，该方法的执行主体可以为语音处理装置，可以理解的是，该语音处理装置可以实现为软件、或者软件和硬件的组合。具体应用时，该语音处理装置可以为语音编码器，该语音编码器可以实现对语音信号进行处理，获得用于表征语音信号中语义的特征信息。具体的，该语音处理方法可以包括：

步骤S101：获取待处理的语音信号。

步骤S102：利用第一神经网络对语音信号进行处理，获得与语音信号相对应的第一特征信息，第一特征信息用于标识语音信号中的语义。

步骤S103：利用第二神经网络对语音信号进行处理，获得与语音信号相对应的第二特征信息，第二特征信息用于标识语音信号中的语义，其中，第二特征信息与第一特征信息不同。

步骤S104：根据第一特征信息和第二特征信息，确定用于表征语音信号中语义的目标特征信息。

下面针对上述各个步骤进行详细阐述：

步骤S101：获取待处理的语音信号。

其中，待处理的语音信号是指需要进行语音识别或者语音处理的信号，可以理解的是，上述的语音信号可以是用户直接输入的语音信息，例如：语音处理装置可以直接对用户输入的语音信息进行采集，从而可以获得待处理的语音信号。或者，上述的语音信号可以是其他设备发送的语音信息，例如：通过语音采集单元对用户输入的语音信息进行采集，语音处理装置与语音采集单元通讯连接，此时，语音处理装置可以通过语音采集单元获得待处理的语音信号。

其中，第一神经网络可以包括以下任意之一：自注意力机制、静态记忆神经网络(Static Memory Nework，简称SMN)。可以理解的是，第一神经网络并不限于上述所例举的类型网络，本领域技术人员也可以根据具体的应用需求和设计需求将第一神经网络设置为其他类型的神经网络，只要能够使得第一神经网络对语音信号进行处理，获得用于标识语音信号中语义的特征信息即可，在此不再赘述。

另外，对于所接收到的语音信号而言，语音信号中包括用于标识语音语义的第一信号和用于标识用户特征的第二信号，具体的，第二信号用于标识输入语音信号的用户音色信息、用户的口音信息、用户语言类型、用户年龄信息等等。为了提高对语音信号进行处理的质量和效率，在获取到语音信号之后，可以利用第一神经网络对语音信号进行处理，从而可以获得与语音信号相对应的第一特征信息，该第一特征信息可以用于标识语音信号中所包括的语义。

其中，第二神经网络可以包括以下任意之一：自注意力机制、静态记忆神经网络。可以理解的是，为了能够使得第二特征信息与第一特征信息不同，可以使得第二神经网络与第一神经网络不同，例如：在第一神经网络包括自注意力机制时，第二神经网络可以包括静态记忆神经网络；在第一神经网络包括静态记忆神经网络时，第二神经网络可以包括自注意力机制。

可以理解的是，第二神经网络并不限于上述所例举的类型网络，本领域技术人员也可以根据具体的应用需求和设计需求将第二神经网络设置为其他类型的神经网络，只要能够保证第二神经网络和第一神经网络不同，并且，能够使得第二神经网络对语音信号进行处理，获得用于标识语音信号中语义的特征信息即可，在此不再赘述。

相类似的，由于语音信号中包括用于标识语音语义的第一信号和用于标识用户特征的第二信号，因此，为了提高对语音信号进行处理的质量和效率，在获取到语音信号之后，可以利用第二神经网络对语音信号进行处理，从而可以获得与语音信号相对应的第二特征信息，该第二特征信息可以用于标识语音信号中所包括的语义。由于第二神经网络与第一神经网络不同，因此，通过第二神经网络所获得的第二特征信息与通过第一神经网络所获得的第一特征信息在语音识别的质量和效率上具有互补性。

在获取到第一特征信息和第二特征信息之后，可以对第一特征信息和第二特征信息进行分析处理，以确定用于表征语音信号中语义的目标特征信息。具体的，根据第一特征信息和第二特征信息，确定用于表征语音信号中语义的目标特征信息可以包括：

步骤S1041：将第一特征信息与第二特征信息的和值确定为目标特征信息。

由于第一神经网络和第二神经网络不同，因此，在利用第一神经网络和第二神经网络对语音信号进行处理的效率和质量具有互补性。在获取到第一特征信息和第二特征信息之后，将具有互补性的第一特征信息与第二特征信息的和值确定为目标特征信息，由于此时的目标特征信息融合有第一特征信息和第二特征信息，进而有效地提高了对语音信号进行识别的质量和效率。

本实施例提供的语音处理方法,利用第一神经网络对所获取的语音信号进行处理,获得第一特征信息,并利用第二神经网络对所获取的语音信号进行处理,获得第二特征信息,由于第一神经网络和第二神经网络不同,因此,所获得的第一特征信息和第二特征信息在语音处理的效率和质量上具有互补性,而后根据第一特征信息和第二特征信息来确定用于表征所述语音信号中语义的目标特征信息,有效地保证了对目标特征信息进行获取的质量，进一步提高了对语音信号进行处理的质量和效率,保证了该方法的实用性。

图3为本发明实施例提供的利用第一神经网络对语音信号进行处理，获得与语音信号相对应的第一特征信息的流程示意图；在上述实施例的基础上，继续参考附图3所示，在利用第一神经网络对语音信号进行处理时，本实施例对于其具体的处理实现方式不做限定，本领域技术人员可以根据具体的应用需求和设计需求进行设置，较为优选的，本实施例中的利用第一神经网络对语音信号进行处理，获得与语音信号相对应的第一特征信息可以包括：

步骤S301：确定与语音信号相对应的语音特征信息，语音特征信息包括以下至少之一：检索词特征、关键字特征、值特征。

步骤S302：基于自注意力机制对语音特征信息进行处理，获得第一特征信息。

具体的，在获取到语音信号之后，可以对语音信号进行转换处理，从而可以获得语音信号相对应的语音特征信息，该语音特征信息可以包括以下至少之一：检索词特征(query)、关键字特征(key)和值特征(value)。可以理解的是，在获取不同的语音特征信息时，对语音信号进行转换的处理过程也不同。

举例来说，在语音特征信息包括检索词特征时，获取该语音特征信息的步骤可以包括：获取与检索词特征相对应的第一转换信息，该第一转换信息可以为转换矩阵，利用第一转换信息对语音信号进行转换处理，从而可以获得检索词特征。

在语音特征信息包括检索词特征和关键字特征时，获取该语音特征信息的步骤可以包括：分别获取与检索词特征相对应的第一转换信息和与关键字特征相对应的第二转换信息，上述的第一转换信息和第二转换信息均可以为转换矩阵，需要注意的是，第一转换信息与第二转换信息不同，而后利用第一转换信息对语音信号进行转换处理，从而可以获得检索词特征，利用第二转换信息对语音信号进行转换处理，从而可以获得关键字特征。

同理的，在语音特征信息包括检索词特征、关键字特征和值特征时，获取该语音特征信息的步骤可以包括：分别获取与检索词特征相对应的第一转换信息、与关键字特征相对应的第二转换信息以及与值特征相对应的第三转换信息，上述的第一转换信息、第二转换信息和第三转换信息均可以为转换矩阵，需要注意的是，第一转换信息、第二转换信息和第三转换信息各不相同，而后利用第一转换信息对语音信号进行转换处理，从而可以获得检索词特征，利用第二转换信息对语音信号进行转换处理，从而可以获得关键字特征，利用第三转换信息对语音信号进行转换处理，从而可以获得值特征。

在获取到语音特征信息之后，可以利用自注意力机制对语音特征信息进行处理，从而可以获得用于标识语音信号中语义的第一特征信息，可以理解的是，语音特征信息所包括的特征信息越多，所获得的第一特征信息的质量和效率更好。

本实施例中，通过确定与语音信号相对应的语音特征信息，而后基于自注意力机制对语音特征信息进行处理，不仅能够准确、有效地获得第一特征信息，并且，由于语音特征信息可以包括检索词特征、关键字特征、值特征中的至少之一，因此，有效地增加了对第一特征信息进行获取的实现方式，进而提高了该方法使用的灵活可靠性。

图4为本发明实施例提供的基于自注意力机制对语音特征信息进行处理，获得第一特征信息的流程示意图；在上述实施例的基础上，继续参考附图4所示，本实施例对于获取第一特征信息的具体实现方式不做限定，本领域技术人员可以根据具体的应用需求和设计需求进行设置，其中，在语音特征信息包括：检索词特征、关键字特征和值特征时；本实施例中的基于自注意力机制对语音特征信息进行处理，获得第一特征信息可以包括：

步骤S401：获取与检索词特征、关键字特征和值特征相对应的融合转换信息，融合转换信息中包括与检索词特征相对应的转换信息、与关键字特征相对应的转换信息以及与值特征相对应的转换信息。

具体的，参考附图5所示，获取与检索词特征、关键字特征和值特征相对应的融合转换信息可以包括：

步骤S4011：分别获取与检索词特征、关键字特征和值特征相对应的第一转换信息、第二转换信息和第三转换信息；

步骤S4012：对第一转换信息、第二转换信息和第三转换信息进行拼接处理，获得融合转换信息。

其中，在获取到语音信号之后，可以基于语音信号确定第一转换信息、第二转换信息和第三转换信息，上述的第一转换信息用于对语音信号进行转换处理，从而可以获得检索词特征，第二转换信息用于对语音信号进行转换处理，从而可以获得关键字特征，第三转换信息用于对语音信号进行转换处理，从而可以获得值特征。具体应用时，在获取到语音信号之后，可以利用预设的语音识别算法或者语音识别模型对语音信号进行处理，从而可以获得与语音信号相对应的检索词特征、关键字特征和值特征，而上述的语音识别算法或者语音识别模型中包括有分别与检索词特征、关键字特征和值特征相对应的第一转换信息、第二转换信息和第三转换信息。

在获取到第一转换信息、第二转换信息和第三转换信息之后，可以对第一转换信息、第二转换信息和第三转换信息进行拼接处理，从而可以获得融合转换信息，该融合转换信息中包括有上述的三个转换信息。举例来说，语音信号为I，检索词特征为Q，关键字特征为K，值特征为V，第一转换信息为转换矩阵W^Q，第二转换信息为转换矩阵W^K，第三转换信息为转换矩阵W^V，上述转换矩阵与语音信号之间的关系为：Q＝W^Q*I，K＝W^K*I，V＝W^V*I。而在获取到上述的转换关系之后，可以对转换矩阵W^Q、转换矩阵W^K和转换矩阵W^V进行拼接处理，从而可以获得融合转换信息W^O，该融合转换信息也为矩阵信息。

步骤S402：利用自注意力机制对检索词特征、关键字特征和值特征进行处理，确定与语音信号相对应的注意力机制的数量。

其中，在不同的应用场景下，注意力机制的数量可以不同，例如：在比较简单的应用场景下，注意力机制的数量可以较少；在比较复杂的应用场景下，注意力机制的数量可以较多。一般情况下，在获取到检索词特征、关键字特征和值特征之后，可以利用自注意力机制对上述特征进行处理，从而可以确定与语音信号相对应的注意力机制的数量。具体的，利用自注意力机制对检索词特征、关键字特征和值特征进行处理，确定与语音信号相对应的注意力机制的数量可以包括：

步骤S4021：利用以下公式，获得与语音信号相对应的注意力机制的数量：

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

其中，head_i为第i个注意力机制，Attention为自注意力机制，Q为检索词特征、K为关键字特征、V为值特征，W_i ^Q为与第i个检索词特征相对应的第一转换信息，W_i ^K为与第i个关键字特征相对应的第二转换信息，W_i ^V为与第i个值特征相对应的第三转换信息。

本步骤中，通过上述公式可以快速、有效地确定出与语音信号相对应的注意力机制的数量，从而便于基于注意力机制的数量对语音信号进行快速、准确地分析处理。

步骤S403：根据注意力机制的数量和融合转换信息，获得与语音信号相对应的第一特征信息。

在获取到注意力机制的数量和融合转换信息之后，可以对上述的注意力机制的数量和融合转换信息进行分析处理，以确定语音信号相对应的第一特征信息。具体的，参考附图6所示，根据注意力机制的数量和融合转换信息，获得与语音信号相对应的第一特征信息，包括：

步骤S4031：利用连接函数将所有数量的注意力机制进行组合，获得与注意力机制相对应的组合信息，其中，连接函数用于连接字符串；

步骤S4032：将组合信息与融合转换信息的乘积，确定为与语音信号相对应的第一特征信息。

其中，连接函数concat用于将多个区域和/或字符串中的文本组合起来。在获取到注意力机制的数量之后，可以利用连接函数将所有数量的注意力机制进行组合连接，获得与注意力机制相对应的组合信息，具体如下公式：H＝concat(head₁,...，head_h)，其中，H为与注意力机制相对应的组合信息，concat()为连接函数，head₁为第一个注意力机制，head_h为第h个注意力机制。

在获取到组合信息之后，可以将组合信息与融合转换信息的乘积确定为第一特征信息，即MutliHead(Q,K,V)＝c_t＝concat(head₁,...，head_h)W^O，其中，c_t为第一特征信息，W^O为融合转换信息，从而准确、有效地获取到与语音信号相对应的第一特征信息。

本实施例中，通过获取与检索词特征、关键字特征和值特征相对应的融合转换信息，确定与语音信号相对应的注意力机制的数量，而后根据注意力机制的数量和融合转换信息，获得与语音信号相对应的第一特征信息，有效地保证了对第一特征信息进行获取的准确可靠性，进一步提高了对语音信号进行识别的质量和效率。

图7为本发明实施例提供的利用第二神经网络对语音信号进行处理，获得与语音信号相对应的第二特征信息的流程示意图；在上述实施例的基础上，继续参考附图7所示，本实施例中，利用第二神经网络对语音信号进行处理，获得与语音信号相对应的第二特征信息，包括：

步骤S701：确定与语音信号相对应的值特征。

步骤S702：利用静态记忆神经网络对值特征进行处理，获得第二特征信息。

在获取到语音信号之后，可以对语音信号进行转换处理，从而可以获得与语音信号相对应的值特征(V)，具体的，先确定与语音信号相对应的转换信息(与上述的第三转换信息W^V)，利用转换信息对语音信号进行转换，从而可以获得值特征。

在获取到值特征之后，可以利用静态记忆神经网络对值特征进行处理，以获得第二特征信息，具体的，参考附图8所示，利用静态记忆神经网络对值特征进行处理，获得第二特征信息可以包括：

步骤S7021：获取与静态记忆神经网络相对应的滤波参数。

步骤S7022：确定与值特征相对应的表征信息。

步骤S7023：利用静态记忆神经网络和滤波参数对表征信息进行分析处理，获得与语音信号相对应的第二特征信息。

其中，对于静态记忆神经网络而言，可以预先配置一组初始的滤波参数，以利用该初始的滤波参数实现数据处理。而为了提高静态记忆神经网络进行数据处理的质量和效率，其所对应的滤波参数可以是可学习或者可训练的，即随着静态记忆神经网络对数据的不断学习优化，滤波参数是可以发生变化的。

另外，在确定值特征之后，可以对值特征进行分析处理，以确定与至特征相对应的表征信息；在获取到滤波参数和表征信息之后，可以利用静态记忆神经网络和滤波参数对表征信息进行分析处理，以获得与语音信号相对应的第二特征信息，具体的，利用静态记忆神经网络和滤波参数对表征信息进行分析处理，获得与语音信号相对应的第二特征信息，包括：

步骤S70231：利用以下公式，获得与语音信号相对应的第二特征信息：

其中，m_t为第二特征信息，h_t为值特征在t时刻的表征信息，α_t、b_t分别为可学习的滤波参数，⊙为点乘积，

为值特征在t-s_1*i时刻的表征信息，

为值特征在t-s_2*j时刻的表征信息，s_1*i、s_2*j分别为预设的步幅因子，i和j为累加的索引参数。

本实施例中，通过确定与语音信号相对应的值特征，而后利用静态记忆神经网络对值特征进行处理，获得第二特征信息，不仅有效地保证了对第二特征信息进行获取的准确可靠性，并且，由于第二特征信息的获取方式与第一特征信息的获取方式不同，因此，通过对所获得的第二特征信息和第一特征信息进行分析，可以有效地提高对目标特征信息进行获取的准确性，进一步提高了对语音信号进行识别的质量和效率。

在上述任意一个实施例的基础上，在确定用于表征语音信号中语义的目标特征信息之后，本实施例中的方法还可以包括：

步骤S901：将目标特征信息发送至解码器，以使解码器对目标特征信息进行分析处理，获得与语音信号相对应的文本信息。

其中，语音处理装置可以为语音编码器，该语音编码器可以将所获取的语音信号进行编码处理，从而可以获取用于标识语音信号中语义的目标特征信息，为了能够实现对语义信号进行分析识别，在语音编码器获取到目标特征信息之后，可以将目标特征信息发送至解码器，以使得解码器在获取到目标特征信息之后，可以对目标特征信息进行分析处理，从而可以获得与语音信号相对应的文本信息，进而使得机器可以识别出语音信号所对应的文本信息。

具体应用时，参考附图9所示，本应用实施例提供了一种语音处理方法，该语音处理方法的执行主体可以为语音编码器，该语音编码器是基于一种动静记忆神经网络(Dynamic and Static Memory Nework，简称DSMN)实现的，而上述的动静记忆神经网络结合了动态自注意力机制和静态记忆神经网络，从而使得DSMN相比于现有的Transformer模型和DFSMN模型而言，具有更强的语音识别能力，从而使得基于DSMN模型所构建的语音编码器或者语音处理系统可以获得更优的识别性能。

具体的，该语音处理方法可以包括以下步骤：

步骤1：获取用户输入的语音信号。

具体的，在用户输入的语音信息之后，可以对语音信息进行处理(例如：分帧处理、滤波处理、降噪处理等等)，从而可以获得用户输入的语音信号，该语音信号可以是语音声学特征序列，可以理解的是，该语音声学特征序列中包括有用于表示语义信息的特征序列和用于标识用户特征的特征序列。

步骤2：确定与语音信号相对应的语音特征。

具体的，先获取第一转换信息W^Q、第二转换信息W^K和第三转换信息W^V，而后利用第一转换信息对语音信号I进行转换处理，获得与语音信号相对应的检索词特征Q，即Q＝W^Q*I；利用第二转换信息对语音信号I进行转换处理，获得与语音信号相对应的关键字特征K，即K＝W^K*I；利用第三转换信息对语音信号I进行转换处理，获得与语音信号相对应的值特征V，即V＝W^V*I。

步骤3：利用自注意力机制对检索词特征、关键字特征和值特征进行分析处理，获得用于标识语音信号中语义的第一特征信息。

具体的，先利用归一化函数对检索词特征和关键字特征进行归一化处理，而后利用自注意力机制对归一化处理后的数据和值特征按照以下公式进行处理，从而可以获得第一注意力信息。

其中，Attention为自注意力机制，Q为检索词特征、K为关键字特征、V为值特征，softmax为归一化行数，K^T为关键字特征的转置信息，d_k为预设的维度参数。

步骤4：利用自注意力机制对检索词特征、关键字特征和值特征进行处理，确定与语音信号相对应的注意力机制的数量。

利用以下公式，获得与语音信号相对应的注意力机制的数量：

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)；

步骤5：根据注意力机制的数量，确定与语音信号相对应的第一特征信息。

具体的，获取与检索词特征、关键字特征和值特征相对应的融合转换信息W^O，融合转换信息W^O中包括与检索词特征相对应的转换信息W^Q、与关键字特征相对应的转换信息W^K以及与值特征相对应的转换信息W^V。而后根据注意力机制的数量和融合转换信息，按照以下公式获得与语音信号相对应的第一特征信息：

c_t＝concat(head₁,...，head_h)W^O。

其中，c_t为第一特征信息，concat()为连接函数，head₁为第一个注意力机制，head_h为第h个注意力机制，W^O为融合转换信息。

步骤6：利用静态记忆神经网络和滤波参数对值特征进行分析处理，获得与语音信号相对应的第二特征信息。

具体的，获取与值特征相对应的表征信息，利用静态记忆神经网络对表征信息按照以下公式进行处理，获得第二特征信息：

为值特征在t-s_1*i时刻的表征信息，

步骤7：将第一特征信息与第二特征信息的和值确定为目标特征信息，并可以输出目标特征信息至语音解码器。

其中，目标特征信息用于标识语音信号中所包括的语义信息，具体的，目标特征信息为第一特征信息与第二特征信息的和值，即y_t＝c_t+m_t，上述的y_t为目标特征信息，第一特征信息为c_t，第二特征信息为m_t。在获取到目标特征信息之后，可以输出该目标特征信息至语音解码器，以使得语音解码器可以基于该目标特征信息进行语音识别操作。

本应用实施例提供的语音处理方法，通过动静记忆神经网络实现对输入的语音信号进行处理，获得用于标识语音信号中语义的目标特征信息，从而可以基于所获得的目标特征信息对语音信号进行处理，例如：语音识别处理、语音合成处理等等，由于目标特征信息是通过具有互补性能的两种神经网络所获得的，因此，有效地保证了目标特征信息获取的质量，从而有效地提高了对语音信号进行处理的质量和效率，进一步提高了该方法使用的稳定可靠性。

图10为本发明实施例提供的另一种语音处理方法的流程示意图；图11为本发明实施例提供的另一种语音处理方法的示意图；参考附图10-11所示，本实施例提供了一种语音处理方法，该方法的执行主体可以为语音处理装置，可以理解的是，该语音处理装置可以实现为软件、或者软件和硬件的组合。具体应用时，该语音处理装置可以为语音解码器，该语音解码器可以与语音编码器通信连接，用于接收语音编码器所发送的语音特征信号，并对语音特征信号进行处理，获得与语音特征信号相对应的文本信息。具体的，该语音处理方法可以包括：

步骤S1001：接收编码器发送的目标特征信息，目标特征信息与一语音信号相对应。

步骤S1002：获取历史预测信息。

步骤S1003：利用多头注意力机制和历史预测信息对目标特征信息进行处理，获得与语音信号相对应的文本信息。

其中，历史预测信息可以是语音编码器在历史时刻进行语音识别操作所获得的语音识别结果，可以理解的是，在初始时刻时，历史预测信息可以为空白信息。在语音编码器将目标特征信息发送至语音解码器之后，语音解码器可以获取到语音编码器发送的目标特征信息，该目标特征信息用于标识语音信号中的语义信息。在语音解码器获取到目标特征信息之后，可以获取历史预测信息，该历史预测信息可以存储在预设区域中，而后利用多头注意力机制和历史预测信息对目标特征信息进行处理，获得与语音信号相对应的文本信息。

举例来说，现在的语音信号所对应的语义为“你好漂亮”，在获取到与上述语音信号“你”相对应的目标特征信息之后，可以获取历史预测信息，假设，历史预测信息可以包括：在语音信号“你”之后的输出信息为“们”的概率为P1，在语音信号“你”之后的输出信息为“好”的概率为P2，在语音信号“你”之后的输出信息为“在”的概率为P3，在语音信号“你”之后的输出信息为“是”的概率为P4等等，此时的历史预测信息中包括有与下列语义相对应的信息：“你们”、“你好”、“你是”、“你在”。

在获取到历史预测信息之后，利用多头注意力机制和历史预测信息对目标特征信息进行分析识别，进而可以准确地获取到与语音信号相对应的至少一个语义文本信息以及每个语义文本信息所对应的概率信息。可以理解的是，在至少一个语义文本信息的个数为一个时，则可以直接将该语义文本信息确定为最终的语义文本信息；在至少一个语义文本信息的个数为多个时，则可以获取与每个语义文本信息相对应的概率信息，而后将概率信息最大的语义文本信息确定为与语音信号相对应的最终文本信息，这样可以有效地提高对语音信号进行识别的准确可靠性。

图12为本发明实施例提供的又一种语音处理方法的示意图；参考附图12所示，本实施例提供了又一种语音处理方法，该方法的执行主体可以为语音处理装置，可以理解的是，该语音处理装置可以实现为软件、或者软件和硬件的组合。具体应用时，该语音处理装置可以为语音编码器，该语音编码器可以实现对语音信号进行处理，获得用于表征语音信号中语义的特征信息。具体的，该语音处理方法可以包括：

步骤S1201：获取待处理的语音信号。

步骤S1202：分别利用第一神经网络、第二神经网络对语音信号进行处理，获得与语音信号相对应的第一特征信息、第二特征信息，其中，第一神经网络的计算效率高于第二神经网络的计算效率，第二神经网络输出的第二特征信息的准确性高于第一神经网络输出的第一特征信息的准确性。

步骤S1203：根据第一特征信息和第二特征信息，确定用于表征语音信号中语义的目标特征信息。

其中，第一神经网络可以包括以下任意之一：自注意力机制、静态记忆神经网络(Static Memory Nework，简称SMN)，第二神经网络可以包括以下任意之一：自注意力机制、静态记忆神经网络。需要注意的是，第一神经网络的计算效率高于第二神经网络的计算效率，第二神经网络输出的第二特征信息的准确性高于第一神经网络输出的第一特征信息的准确性，上述的第一神经网络与第二神经网络之间有各自的优点，即第一神经网络在计算效率方便比较具有优势，第二神经网络在输出的特征信息的准确性方便比较具有优势。

可以理解的是，第一神经网络并不限于上述所例举的类型网络，本领域技术人员也可以根据具体的应用需求和设计需求将第一神经网络设置为其他类型的神经网络，只要能够使得第一神经网络对语音信号进行处理，获得用于标识语音信号中语义的特征信息即可，在此不再赘述。

相类似的，第二神经网络并不限于上述所例举的类型网络，本领域技术人员也可以根据具体的应用需求和设计需求将第二神经网络设置为其他类型的神经网络，只要能够保证第二神经网络和第一神经网络不同，并且，能够使得第二神经网络对语音信号进行处理，获得用于标识语音信号中语义的特征信息即可，在此不再赘述。

需要注意的是，第一神经网络和第二神经网络可以并不限于上述实施例限定的实现方式，例如：第二神经网络的计算效率高于第一神经网络的计算效率，第一神经网络输出的第一特征信息的准确性高于第二神经网络输出的第二特征信息的准确性。或者，在具体应用时，可以根据不同的应用场景来选择不同的神经网络来实现，例如：在需要保证计算效率的应用场景时，可以选择第一神经网络来对语音信息进行处理；在需要保证特征信息的准确性的应用场景时，可以选择第二神经网络来对语音信息进行处理。或者，在具体应用时，还可以根据不同的应用场景来选择第一神经网络和第二神经网络的不同组合，从而实现了用户可以根据不同的应用场景来选择而不同的神经网络组合来确定用于表征语音信号中语义的目标特征信息，进一步提高了该方法使用的灵活可靠性。

在获取到第一特征信息和第二特征信息之后，可以对第一特征信息和第二特征信息进行分析处理，以确定用于表征语音信号中语义的目标特征信息。由于第一神经网络和第二神经网络不同，因此，在利用第一神经网络和第二神经网络对语音信号进行处理的效率和质量具有互补性。在获取到第一特征信息和第二特征信息之后，将具有互补性的第一特征信息与第二特征信息的和值确定为目标特征信息，由于此时的目标特征信息融合有第一特征信息和第二特征信息，进而有效地提高了对语音信号进行识别的质量和效率。

本实施例提供的语音处理方法,利用第一神经网络对所获取的语音信号进行处理,获得第一特征信息,并利用第二神经网络对所获取的语音信号进行处理,获得第二特征信息,由于第一神经网络和第二神经网络不同,因此,所获得的第一特征信息和第二特征信息在语音处理的效率和质量上具有互补性,而后根据第一特征信息和第二特征信息来确定用于表征语音信号中语义的目标特征信息,有效地保证了对目标特征信息进行获取的质量，进一步提高了对语音信号进行处理的质量和效率,保证了该方法的实用性。

在一些实例中，分别利用第一神经网络对语音信号进行处理，获得与语音信号相对应的第一特征信息可以包括：确定与语音信号相对应的语音特征信息，语音特征信息包括以下至少之一：检索词特征、关键字特征、值特征；基于自注意力机制对语音特征信息进行处理，获得第一特征信息。

在一些实例中，在语音特征信息包括：检索词特征、关键字特征和值特征时；基于自注意力机制对语音特征信息进行处理，获得第一特征信息可以包括：获取与检索词特征、关键字特征和值特征相对应的融合转换信息，融合转换信息中包括与检索词特征相对应的转换信息、与关键字特征相对应的转换信息以及与值特征相对应的转换信息；利用自注意力机制对检索词特征、关键字特征和值特征进行处理，确定与语音信号相对应的注意力机制的数量；根据注意力机制的数量和融合转换信息，获得与语音信号相对应的第一特征信息。

在一些实例中，根据注意力机制的数量和融合转换信息，获得与语音信号相对应的第一特征信息可以包括：利用连接函数将所有数量的注意力机制进行组合，获得与注意力机制相对应的组合信息，其中，连接函数用于连接字符串；将组合信息与融合转换信息的乘积，确定为与语音信号相对应的第一特征信息。

在一些实例中，获取与检索词特征、关键字特征和值特征相对应的融合转换信息可以包括：分别获取与检索词特征、关键字特征和值特征相对应的第一转换信息、第二转换信息和第三转换信息；对第一转换信息、第二转换信息和第三转换信息进行拼接处理，获得融合转换信息。

在一些实例中，利用第二神经网络对语音信号进行处理，获得与语音信号相对应的第二特征信息可以包括：确定与语音信号相对应的值特征；利用静态记忆神经网络对值特征进行处理，获得第二特征信息。

在一些实例中，利用静态记忆神经网络对值特征进行处理，获得第二特征信息可以包括：获取与静态记忆神经网络相对应的滤波参数；确定与值特征相对应的表征信息；利用静态记忆神经网络和滤波参数对表征信息进行分析处理，获得与语音信号相对应的第二特征信息。

在一些实例中，根据第一特征信息和第二特征信息，确定用于表征语音信号中语义的目标特征信息可以包括：

将第一特征信息与第二特征信息的和值确定为目标特征信息。

在一些实例中，在确定用于表征语音信号中语义的目标特征信息之后，本实施例中的方法还可以包括：将目标特征信息发送至解码器，以使解码器对目标特征信息进行分析处理，获得与语音信号相对应的文本信息。

本实施例中的方法的执行过程、实现方式和技术效果与上述图1-图11所示实施例的方法的执行过程、实现方式和技术效果相类似，本实施例未详细描述的部分，可参考对图1-图9所示实施例的相关说明，在此不再赘述。

图13为本发明实施例提供的一种语音编码器的结构示意图；参考附图13所示，本实施例提供了一种语音编码器，该语音编码器可以执行上述图1所示的语音处理方法。该语音编码器可以包括：第一获取单元11、第一处理单元12和第一确定单元13，具体的，

第一获取单元11，用于获取待处理的语音信号；

第一处理单元12，用于利用第一神经网络对语音信号进行处理，获得与语音信号相对应的第一特征信息，第一特征信息用于标识语音信号中的语义；

第一处理单元12，还用于利用第二神经网络对语音信号进行处理，获得与语音信号相对应的第二特征信息，第二特征信息用于标识语音信号中的语义，其中，第二特征信息与第一特征信息不同；

第一确定单元13，用于根据第一特征信息和第二特征信息，确定用于表征语音信号中语义的目标特征信息。

在一些实例中，第一神经网络包括自注意力机制；第二神经网络包括静态记忆神经网络。

在一些实例中，在第一处理单元12利用第一神经网络对语音信号进行处理，获得与语音信号相对应的第一特征信息时，该第一处理单元12可以用于执行：确定与语音信号相对应的语音特征信息，语音特征信息包括以下至少之一：检索词特征、关键字特征、值特征；基于自注意力机制对语音特征信息进行处理，获得第一特征信息。

在一些实例中，在语音特征信息包括：检索词特征、关键字特征和值特征时；在第一处理单元12基于自注意力机制对语音特征信息进行处理，获得第一特征信息时，该第一处理单元12可以用于执行：获取与检索词特征、关键字特征和值特征相对应的融合转换信息，融合转换信息中包括与检索词特征相对应的转换信息、与关键字特征相对应的转换信息以及与值特征相对应的转换信息；利用自注意力机制对检索词特征、关键字特征和值特征进行处理，确定与语音信号相对应的注意力机制的数量；根据注意力机制的数量和融合转换信息，获得与语音信号相对应的第一特征信息。

在一些实例中，在第一处理单元12根据注意力机制的数量和融合转换信息，获得与语音信号相对应的第一特征信息时，该第一处理单元12可以用于执行：利用连接函数将所有数量的注意力机制进行组合，获得与注意力机制相对应的组合信息，其中，连接函数用于连接字符串；将组合信息与融合转换信息的乘积，确定为与语音信号相对应的第一特征信息。

在一些实例中，在第一处理单元12获取与检索词特征、关键字特征和值特征相对应的融合转换信息时，该第一处理单元12可以用于执行：分别获取与检索词特征、关键字特征和值特征相对应的第一转换信息、第二转换信息和第三转换信息；对第一转换信息、第二转换信息和第三转换信息进行拼接处理，获得融合转换信息。

在一些实例中，在第一处理单元12利用自注意力机制对检索词特征、关键字特征和值特征进行处理，确定与语音信号相对应的注意力机制的数量时，该第一处理单元12可以用于执行：利用以下公式，获得与语音信号相对应的注意力机制的数量：

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

在一些实例中，在第一处理单元12利用第二神经网络对语音信号进行处理，获得与语音信号相对应的第二特征信息时，该第一处理单元12可以用于执行：确定与语音信号相对应的值特征；利用静态记忆神经网络对值特征进行处理，获得第二特征信息。

在一些实例中，在第一处理单元12利用静态记忆神经网络对值特征进行处理，获得第二特征信息时，该第一处理单元12可以用于执行：获取与静态记忆神经网络相对应的滤波参数；确定与值特征相对应的表征信息；利用静态记忆神经网络和滤波参数对表征信息进行分析处理，获得与语音信号相对应的第二特征信息。

在一些实例中，在第一处理单元12利用静态记忆神经网络和滤波参数对表征信息进行分析处理，获得与语音信号相对应的第二特征信息时，该第一处理单元12可以用于执行：利用以下公式，获得与语音信号相对应的第二特征信息：

为值特征在t-s_1*i时刻的表征信息，

在一些实例中，在第一确定单元13根据第一特征信息和第二特征信息，确定用于表征语音信号中语义的目标特征信息时，该第一确定单元13可以用于执行：将第一特征信息与第二特征信息的和值确定为目标特征信息。

在一些实例中，在确定用于表征语音信号中语义的目标特征信息之后，本实施例中的第一处理单元12还可以用于执行：将目标特征信息发送至解码器，以使解码器对目标特征信息进行分析处理，获得与语音信号相对应的文本信息。

图13所示装置可以执行图1-图9所示实施例的方法，本实施例未详细描述的部分，可参考对图1-图9所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图9所示实施例中的描述，在此不再赘述。

在一个可能的设计中，图13所示语音编码器的结构可实现为一电子设备，该电子设备可以是手机、平板电脑、服务器等各种设备。如图14所示，该电子设备可以包括：第一处理器21和第一存储器22。其中，第一存储器22用于存储相对应电子设备执行上述图1-图9所示实施例中提供的语音处理方法的程序，第一处理器21被配置为用于执行第一存储器22中存储的程序。

程序包括一条或多条计算机指令，其中，一条或多条计算机指令被第一处理器21执行时能够实现如下步骤：

获取待处理的语音信号；

利用第一神经网络对语音信号进行处理，获得与语音信号相对应的第一特征信息，第一特征信息用于标识语音信号中的语义；

利用第二神经网络对语音信号进行处理，获得与语音信号相对应的第二特征信息，第二特征信息用于标识语音信号中的语义，其中，第二特征信息与第一特征信息不同；

根据第一特征信息和第二特征信息，确定用于表征语音信号中语义的目标特征信息。

进一步的，第一处理器21还用于执行前述图1-图9所示实施例中的全部或部分步骤。

其中，电子设备的结构中还可以包括第一通信接口23，用于电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种计算机存储介质，用于储存电子设备所用的计算机软件指令，其包含用于执行上述图1-图9所示方法实施例中语音处理方法所涉及的程序。

图15为本发明实施例提供的一种语音解码器的结构示意图；参考附图15所示，本实施例提供了一种语音编码器，该语音编码器可以执行上述图10所示的语音处理方法。该语音编码器可以包括：第二接收模块31、第二获取模块32和第二处理模块33，具体的，

第二接收模块31，用于接收编码器发送的目标特征信息，目标特征信息与一语音信号相对应；

第二获取模块32，用于获取历史预测信息；

第二处理模块33，用于利用多头注意力机制和历史预测信息对目标特征信息进行处理，获得与语音信号相对应的文本信息。

图15所示装置可以执行图10-图11所示实施例的方法，本实施例未详细描述的部分，可参考对图10-图11所示实施例的相关说明。该技术方案的执行过程和技术效果参见图10-图11所示实施例中的描述，在此不再赘述。

在一个可能的设计中，图15所示语音编码器的结构可实现为一电子设备，该电子设备可以是手机、平板电脑、服务器等各种设备。如图16所示，该电子设备可以包括：第二处理器41和第二存储器42。其中，第二存储器42用于存储相对应电子设备执行上述图10-图11所示实施例中提供的语音处理方法的程序，第二处理器41被配置为用于执行第二存储器42中存储的程序。

程序包括一条或多条计算机指令，其中，一条或多条计算机指令被第二处理器41执行时能够实现如下步骤：

接收编码器发送的目标特征信息，目标特征信息与一语音信号相对应；

获取历史预测信息；

利用多头注意力机制和历史预测信息对目标特征信息进行处理，获得与语音信号相对应的文本信息。

进一步的，第二处理器41还用于执行前述图10-图11所示实施例中的全部或部分步骤。

其中，电子设备的结构中还可以包括第二通信接口43，用于电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种计算机存储介质，用于储存电子设备所用的计算机软件指令，其包含用于执行上述图10-图11所示方法实施例中语音处理方法所涉及的程序。

图17为本发明实施例提供的另一种语音编码器的结构示意图；参考附图17所示，本实施例提供了另一种语音编码器，该语音编码器可以执行上述图12所示的语音处理方法。该语音编码器可以包括：第三获取单元51、第三处理单元52和第三确定单元53，具体的，

第三获取模块51，用于获取待处理的语音信号；

第三处理模块52，用于分别利用第一神经网络、第二神经网络对语音信号进行处理，获得与语音信号相对应的第一特征信息、第二特征信息，其中，第一神经网络的计算效率高于第二神经网络的计算效率，第二神经网络输出的第二特征信息的准确性高于第一神经网络输出的第一特征信息的准确性；

第三确定模块53，用于根据第一特征信息和第二特征信息，确定用于表征语音信号中语义的目标特征信息。

在一些实例中，在第三处理模块52分别利用第一神经网络对语音信号进行处理，获得与语音信号相对应的第一特征信息时，该第三处理模块52可以用于执行：确定与语音信号相对应的语音特征信息，语音特征信息包括以下至少之一：检索词特征、关键字特征、值特征；基于自注意力机制对语音特征信息进行处理，获得第一特征信息。

在一些实例中，在语音特征信息包括：检索词特征、关键字特征和值特征时；在第三处理模块52基于自注意力机制对语音特征信息进行处理，获得第一特征信息时，该第三处理模块52可以用于执行：获取与检索词特征、关键字特征和值特征相对应的融合转换信息，融合转换信息中包括与检索词特征相对应的转换信息、与关键字特征相对应的转换信息以及与值特征相对应的转换信息；利用自注意力机制对检索词特征、关键字特征和值特征进行处理，确定与语音信号相对应的注意力机制的数量；根据注意力机制的数量和融合转换信息，获得与语音信号相对应的第一特征信息。

在一些实例中，在第三处理模块52根据注意力机制的数量和融合转换信息，获得与语音信号相对应的第一特征信息时，该第三处理模块52可以用于执行：利用连接函数将所有数量的注意力机制进行组合，获得与注意力机制相对应的组合信息，其中，连接函数用于连接字符串；将组合信息与融合转换信息的乘积，确定为与语音信号相对应的第一特征信息。

在一些实例中，在第三处理模块52获取与检索词特征、关键字特征和值特征相对应的融合转换信息时，该第三处理模块52可以用于执行：分别获取与检索词特征、关键字特征和值特征相对应的第一转换信息、第二转换信息和第三转换信息；对第一转换信息、第二转换信息和第三转换信息进行拼接处理，获得融合转换信息。

在一些实例中，在第三处理模块52利用第二神经网络对语音信号进行处理，获得与语音信号相对应的第二特征信息时，该第三处理模块52可以用于执行：确定与语音信号相对应的值特征；利用静态记忆神经网络对值特征进行处理，获得第二特征信息。

在一些实例中，在第三处理模块52利用静态记忆神经网络对值特征进行处理，获得第二特征信息时，该第三处理模块52可以用于执行：获取与静态记忆神经网络相对应的滤波参数；确定与值特征相对应的表征信息；利用静态记忆神经网络和滤波参数对表征信息进行分析处理，获得与语音信号相对应的第二特征信息。

在一些实例中，在第三确定模块53根据第一特征信息和第二特征信息，确定用于表征语音信号中语义的目标特征信息时，该第三确定模块53可以用于执行：将第一特征信息与第二特征信息的和值确定为目标特征信息。

在一些实例中，在确定用于表征语音信号中语义的目标特征信息之后，本实施例中的第三处理模块52还可以用于：将目标特征信息发送至解码器，以使解码器对目标特征信息进行分析处理，获得与语音信号相对应的文本信息。

图17所示装置可以执行图12所示实施例的方法，本实施例未详细描述的部分，可参考对图12所示实施例的相关说明。该技术方案的执行过程和技术效果参见图12所示实施例中的描述，在此不再赘述。

在一个可能的设计中，图17所示语音编码器的结构可实现为一电子设备，该电子设备可以是手机、平板电脑、服务器等各种设备。如图18所示，该电子设备可以包括：第三处理器61和第三存储器62。其中，第三存储器62用于存储相对应电子设备执行上述图12所示实施例中提供的语音处理方法的程序，第三处理器61被配置为用于执行第三存储器62中存储的程序。

程序包括一条或多条计算机指令，其中，一条或多条计算机指令被第三处理器61执行时能够实现如下步骤：

获取待处理的语音信号；

分别利用第一神经网络、第二神经网络对语音信号进行处理，获得与语音信号相对应的第一特征信息、第二特征信息，其中，第一神经网络的计算效率高于第二神经网络的计算效率，第二神经网络输出的第二特征信息的准确性高于第一神经网络输出的第一特征信息的准确性；

进一步的，第三处理器61还用于执行前述图12所示实施例中的全部或部分步骤。

其中，电子设备的结构中还可以包括第三通信接口63，用于电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种计算机存储介质，用于储存电子设备所用的计算机软件指令，其包含用于执行上述图12所示方法实施例中语音处理方法所涉及的程序。

图19为本发明实施例提供的一种语音识别系统的结构示意图；图20为本发明实施例提供的语音识别系统的应用示意图，参考附图19-图20所示，本实施例提供了一种语音识别系统，该语音识别系统可以实现对用户输入的语音信号进行识别处理，从而可以获得与语义信号相对应的文本信息，具体的，该语音识别系统可以包括：

上述图13或者图17所示的语音编码器71，该语音编码器71可以用于对所获取到的语音信号进行数据降维处理，获得与语音信号相对应的语音特征信息，该语音特征信息用于标识语音信号中的语义信息。

在一些实例中，该系统还可以包括：

语音解码器72，用于接收语音编码器71发送的语音特征信息，并基于语音特征信息输出与语音信号相对应的文本信息。

在一些实例中，在语音解码器72基于语音特征信息输出与语音信号相对应的文本信息时，该语音解码器72可以用于执行：获取历史预测信息；利用多头注意力机制和历史预测信息对语音特征信息进行处理，获得与语音信号相对应的文本信息。

具体的，参考附图19-图20所示，该语音识别系统进行语音识别的步骤可以包括以下过程：

语音编码器71，获取用户输入的语音信号S，利用预设的前馈网络过滤掉语音信号中包括的冗余信号，获取到语音信号S1，而后利用双向DSMN网络对语音信号S1进行处理，从而可以获得用于标识语音信号S中语义信息的特征信息S2，其中，双向DSMN网络可以结合历史时刻和未来时刻的数据对语音信号S1进行处理，从而可以获得特征信息S2。

在获取到特征信息S2之后，可以对特征信息S2进行数据规整化处理，而后可以利用前馈网络对特征信息S2进行处理，从而可以去除特征信号S2中包括的冗余信号，获得特征信号S3，而后再次对特征信号S3进行数据规整化处理，从而可以获得与语音信号S相对应的目标特征信号S4，并可以将目标特征信号S4发送至语音解码器52。

语音解码器72，获取语音编码器71发送的目标特征信号S4，而后可以获取历史预测信息M，并对历史预测信息M进行编码处理，获得历史预测信息M1，而后利用前馈网络过滤掉历史预测信息M1中包括的冗余信号，获得历史预测信息M2，而后利用单向DSMN网络对历史预测信息M2进行处理，从而可以获得历史预测信息M2相对应的历史预测信息M3，其中，单向DSMN网络可以结合历史时刻的数据对历史预测信息M2进行处理，从而可以获得历史预测信息M3，而后对历史预测信息M3进行数据规整化处理，从而可以获得与历史预测信息M相对应的历史预测信息M4，并可以将历史预测信息M4发送至多头注意力机制网络。

在多头注意力机制网络获取到历史预测信息M4和目标特征信号S4之后，可以结合历史预测信息M4对目标特征信号S4进行分析处理，从而可以获得与目标特征信号S4相对应的文本信息W。

在获取到文本信息W之后，为了能够提高语音识别的质量和效率，还可以对所获得的文本信息W进行数据规整化处理，获得文本信息W1，而后利用前馈网络过滤掉文本信息W1中包括的冗余信号，并利用归一化函数对处理后的文本信息进行处理，从而可以获得与语音信号S相对应的目标文本信息W2。

本实施例提供的语音识别系统，通过语音编码器71获取到待识别的语音信号，并确定与语音信号相对应的目标特征信息，而后将目标特征信息发送至语音解码器72，在语音解码器72获取到目标特征信息之后，通过多头注意力机制对目标特征信息进行语音识别操作，从而可以获取到与语音信号相对应的文本信息，这样不仅有效地实现了语音识别操作，并且也提高了对语音信号进行处理的质量和效率，进一步提高了该语音识别系统使用的稳定可靠性。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器，使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种数据处理方法，其特征在于，包括：

获取待处理的语音信号；

2.根据权利要求1所述的方法，其特征在于，

所述第一神经网络包括自注意力机制；所述第二神经网络包括静态记忆神经网络。

3.根据权利要求2所述的方法，其特征在于，分别利用第一神经网络对所述语音信号进行处理，获得与所述语音信号相对应的第一特征信息，包括：

确定与所述语音信号相对应的语音特征信息，所述语音特征信息包括以下至少之一：检索词特征、关键字特征、值特征；

基于所述自注意力机制对所述语音特征信息进行处理，获得所述第一特征信息。

4.根据权利要求3所述的方法，其特征在于，在所述语音特征信息包括：检索词特征、关键字特征和值特征时；基于所述自注意力机制对所述语音特征信息进行处理，获得所述第一特征信息，包括：

获取与所述检索词特征、所述关键字特征和值特征相对应的融合转换信息，所述融合转换信息中包括与所述检索词特征相对应的转换信息、与所述关键字特征相对应的转换信息以及与所述值特征相对应的转换信息；

利用所述自注意力机制对所述检索词特征、关键字特征和值特征进行处理，确定与所述语音信号相对应的注意力机制的数量；

根据所述注意力机制的数量和融合转换信息，获得与所述语音信号相对应的第一特征信息。

5.根据权利要求4所述的方法，其特征在于，根据所述注意力机制的数量和融合转换信息，获得与所述语音信号相对应的第一特征信息，包括：

利用连接函数将所有数量的注意力机制进行组合，获得与所述注意力机制相对应的组合信息，其中，所述连接函数用于连接字符串；

将所述组合信息与所述融合转换信息的乘积，确定为与所述语音信号相对应的第一特征信息。

6.根据权利要求4所述的方法，其特征在于，获取与所述检索词特征、所述关键字特征和值特征相对应的融合转换信息，包括：

分别获取与所述检索词特征、所述关键字特征和值特征相对应的第一转换信息、第二转换信息和第三转换信息；

对所述第一转换信息、第二转换信息和第三转换信息进行拼接处理，获得所述融合转换信息。

7.根据权利要求2所述的方法，其特征在于，利用第二神经网络对所述语音信号进行处理，获得与所述语音信号相对应的第二特征信息，包括：

确定与所述语音信号相对应的值特征；

利用静态记忆神经网络对所述值特征进行处理，获得所述第二特征信息。

8.根据权利要求7所述的方法，其特征在于，利用静态记忆神经网络对所述值特征进行处理，获得所述第二特征信息，包括：

获取与所述静态记忆神经网络相对应的滤波参数；

确定与所述值特征相对应的表征信息；

利用所述静态记忆神经网络和滤波参数对所述表征信息进行分析处理，获得与所述语音信号相对应的第二特征信息。

9.根据权利要求1-8中任意一项所述的方法，其特征在于，根据所述第一特征信息和所述第二特征信息，确定用于表征所述语音信号中语义的目标特征信息，包括：

将所述第一特征信息与所述第二特征信息的和值确定为所述目标特征信息。

10.根据权利要求1-8中任意一项所述的方法，其特征在于，在确定用于表征所述语音信号中语义的目标特征信息之后，所述方法还包括：

将所述目标特征信息发送至解码器，以使所述解码器对所述目标特征信息进行分析处理，获得与所述语音信号相对应的文本信息。

11.一种语音处理方法，其特征在于，包括：

获取待处理的语音信号；

12.根据权利要求11所述的方法，其特征在于，

13.根据权利要求12所述的方法，其特征在于，利用第一神经网络对所述语音信号进行处理，获得与所述语音信号相对应的第一特征信息，包括：

14.根据权利要求13所述的方法，其特征在于，在所述语音特征信息包括：检索词特征、关键字特征和值特征时；基于所述自注意力机制对所述语音特征信息进行处理，获得所述第一特征信息，包括：

15.根据权利要求14所述的方法，其特征在于，根据所述注意力机制的数量和融合转换信息，获得与所述语音信号相对应的第一特征信息，包括：

16.根据权利要求14所述的方法，其特征在于，获取与所述检索词特征、所述关键字特征和值特征相对应的融合转换信息，包括：

17.根据权利要求12所述的方法，其特征在于，利用第二神经网络对所述语音信号进行处理，获得与所述语音信号相对应的第二特征信息，包括：

确定与所述语音信号相对应的值特征；

18.根据权利要求17所述的方法，其特征在于，利用静态记忆神经网络对所述值特征进行处理，获得所述第二特征信息，包括：

获取与所述静态记忆神经网络相对应的滤波参数；

确定与所述值特征相对应的表征信息；

19.根据权利要求11-18中任意一项所述的方法，其特征在于，根据所述第一特征信息和所述第二特征信息，确定用于表征所述语音信号中语义的目标特征信息，包括：

20.根据权利要求11-18中任意一项所述的方法，其特征在于，在确定用于表征所述语音信号中语义的目标特征信息之后，所述方法还包括：

21.一种语音处理方法，其特征在于，包括：

获取历史预测信息；

22.一种语音编码器，其特征在于，包括：

第一获取单元，用于获取待处理的语音信号；

23.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现如权利要求11-20中任意一项所述的语音处理方法。

24.一种语音解码器，其特征在于，包括：

第二获取模块，用于获取历史预测信息；

25.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现如权利要求21所述的语音处理方法。

26.一种语音识别系统，其特征在于，包括：

权利要求22中所述的语音编码器，用于对所获取到的语音信号进行数据降维处理，获得与所述语音信号相对应的语音特征信息。

27.根据权利要求26所述的系统，其特征在于，所述系统还包括：

语音解码器，用于接收所述语音编码器发送的语音特征信息，并基于所述语音特征信息输出与所述语音信号相对应的文本信息。

28.根据权利要求27所述的系统，其特征在于，所述语音解码器，还用于：

获取历史预测信息；

利用多头注意力机制和所述历史预测信息对所述语音特征信息进行处理，获得与所述语音信号相对应的文本信息。

29.一种语音编码器，其特征在于，包括：

第三获取模块，用于获取待处理的语音信号；

30.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现如权利要求1-10中任意一项所述的语音处理方法。

31.一种语音识别系统，其特征在于，包括：

权利要求29中所述的语音编码器，用于对所获取到的语音信号进行数据降维处理，获得与所述语音信号相对应的语音特征信息。