CN114267377A

CN114267377A - 语音评估方法、训练方法、装置、电子设备以及存储介质

Info

Publication number: CN114267377A
Application number: CN202111558893.8A
Authority: CN
Inventors: 马洁
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2022-04-01

Abstract

本公开提供了语音评估方法、训练方法、装置、电子设备以及存储介质，涉及人工智能技术领域，尤其涉及语音识别和深度学习技术领域。具体实现方案为：对待评估语音数据进行特征提取，得到语音特征向量序列，其中，语音特征向量序列包括至少一个语音特征向量，语音特征向量用于表征全局特征和局部特征的特征向量；对语音特征向量序列和第一音素向量序列进行处理，得到针对待评估语音数据的第一评估结果，其中，第一评估结果用于表征待评估语音数据的音素准确度，第一音素向量序列是对音素序列进行编码得到的，音素序列与待评估语音数据相对应。

Description

语音评估方法、训练方法、装置、电子设备以及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及语音识别和深度学习技术。具体地，涉及一种语音评估方法、训练方法、装置、电子设备以及存储介质。

背景技术

语音评估是指利用人工智能技术，对用户的发音准确度进行评估的技术。评估的层级可以为音素(即音标)级别。即，确定语音数据中的音素的准确度。

发明内容

本公开提供了一种语音评估方法、训练方法、装置、电子设备以及存储介质。

根据本公开的一方面，提供了一种语音评估方法，包括：对待评估语音数据进行特征提取，得到语音特征向量序列，其中，上述语音特征向量序列包括至少一个语音特征向量，上述语音特征向量用于表征全局特征和局部特征的特征向量；以及，对上述语音特征向量序列和第一音素向量序列进行处理，得到针对上述待评估语音数据的第一评估结果，其中，上述第一评估结果用于表征上述待评估语音数据的音素准确度，上述第一音素向量序列是对音素序列进行编码得到的，上述音素序列与上述待评估语音数据相对应。

根据本公开的另一方面，提供了一种训练方法，包括：对样本语音数据进行特征提取，得到样本语音特征向量序列，其中，上述样本语音特征向量序列包括至少一个样本语音特征向量，上述样本语音特征向量用于表征全局特征和局部特征的特征向量；对上述样本语音特征向量序列和第一样本音素向量序列进行处理，得到针对上述样本语音数据的第一样本评估结果，其中，上述样本评估结果用于表征上述样本语音数据的音素准确度，上述第一样本音素向量序列是对样本音素序列进行编码得到的，上述第一样本音素序列与上述样本语音数据相对应；以及，利用样本真实结果和上述第一样本评估结果训练预定模型，得到语音评估模型。

根据本公开的另一方面，提供了一种语音评估装置，包括：第一获得模块，用于对待评估语音数据进行特征提取，得到语音特征向量序列，其中，上述语音特征向量序列包括至少一个语音特征向量，上述语音特征向量用于表征全局特征和局部特征的特征向量；以及，第二获得模块，用于对上述语音特征向量序列和第一音素向量序列进行处理，得到针对上述待评估语音数据的第一评估结果，其中，上述第一评估结果用于表征上述待评估语音数据的音素准确度，上述第一音素向量序列是对音素序列进行编码得到的，上述音素序列与上述待评估语音数据相对应。

根据本公开的另一方面，提供了一种训练装置，包括：第三获得模块，用于对样本语音数据进行特征提取，得到样本语音特征向量序列，其中，上述样本语音特征向量序列包括至少一个样本语音特征向量，上述样本语音特征向量用于表征全局特征和局部特征的特征向量；第四获得模块，用于对上述样本语音特征向量序列和第一样本音素向量序列进行处理，得到针对上述样本语音数据的第一样本评估结果，其中，上述样本评估结果用于表征上述样本语音数据的音素准确度，上述第一样本音素向量序列是对样本音素序列进行编码得到的，上述第一样本音素序列与上述样本语音数据相对应；以及，第五获得模块，用于利用样本真实结果和上述第一样本评估结果训练预定模型，得到语音评估模型。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器；其中，上述存储器存储有可被上述至少一个处理器执行的指令，上述指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行如根据本公开的的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，上述计算机指令用于使上述计算机执行如根据本公开的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现如根据本公开的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用语音评估方法、训练方法及装置的示例性系统架构；

图2示意性示出了根据本公开实施例的语音评估方法的流程图；

图3示意性示出了根据本公开实施例的训练方法的流程图；

图4A示意性示出了根据本公开实施例的语音评估过程的示例示意图；

图4B示意性示出了根据本公开实施例的编码器的结构的示例性示意图；

图4C示意性示出了根据本公开实施例的解码器的结构的示例性示意图；

图4D示意性示出了根据本公开另一实施例的语音评估过程的示例示意性图；

图5示意性示出了根据本公开实施例的语音评估装置的框图；

图6示意性示出了根据本公开实施例的训练装置的框图；以及

图7示意性示出了根据本公开实施例的适于实现语音评估方法和训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

评估场景可以为程序给出用户需要发音的单词或句子。采集用户的语音数据，利用语音评估方法确定音素的准确度。

本公开实施例提出了一种语音评估方案。对待评估语音数据进行特征提取，得到语音特征向量序列。语音特征向量序列包括至少一个语音特征向量，语音特征向量用于表征全局特征和局部特征的特征向量。对语音特征向量序列和第一音素向量序列进行处理，得到针对待评估语音数据的第一评估结果。第一评估结果用于表征待评估语音数据的音素准确度，第一音素向量序列是对音素序列进行编码得到的，音素序列与待评估语音数据相对应。

通过提取待评估语音数据的全局特征和局部特征，增强了表征学习能力，在此基础上，处理第一音素向量序列和对待评估语音数据进行全局特征和局部特征提取得到的对语音特征向量序列，得到针对待评估语音数据的第一评估结果，提高了评估结果的准确性。

图1示意性示出了根据本公开实施例的可以应用语音评估方法、训练方法及装置的示例性系统架构。

需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如，在另一实施例中，可以应用语音评估方法、训练方法及装置的示例性系统架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本公开实施例提供的语音评估方法、训练方法及装置。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的各种类型的服务器。例如，服务器105可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(Virtual Private Server，VPS)中，存在的管理难度大，业务扩展性弱的缺陷。服务器105也可以为分布式系统的服务器，或者是结合了区块链的服务器。。

需要说明的是，本公开实施例所提供的语音评估方法一般可以由终端设备101、102、或103执行。相应地，本公开实施例所提供的语音评估装置也可以设置于终端设备101、102、或103中。

或者，本公开实施例所提供的语音评估方法一般也可以由服务器105执行。相应地，本公开实施例所提供的语音评估装置一般可以设置于服务器105中。本公开实施例所提供的语音评估方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的语音评估装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

本公开实施例所提供的训练方法一般可以由服务器105执行。相应地，本公开实施例所提供的训练装置一般可以设置于服务器105中。本公开实施例所提供的训练方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的训练装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

本公开实施例所提供的训练方法一般可以由终端设备101、102、或103执行。相应地，本公开实施例所提供的训练装置也可以设置于终端设备101、102、或103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的语音评估方法的流程图。

如图2所示，该方法包括操作S210～S220。

在操作S210，对待评估语音数据进行特征提取，得到语音特征向量序列。语音特征向量序列包括至少一个语音特征向量，语音特征向量用于表征全局特征和局部特征的特征向量。

在操作S220，对语音特征向量序列和第一音素向量序列进行处理，得到针对待评估语音数据的第一评估结果。第一评估结果用于表征待评估语音数据的音素准确度，第一音素向量序列是对音素序列进行编码得到的，音素序列与待评估语音数据相对应。

根据本公开的实施例，待评估语音数据可以指需要进行音素评估的语音数据。待评估语音数据可以是预定时间段的语音数据。待评估语音数据可以包括与至少一个音素对应的数据。例如，待评估语音数据可以包括与至少一个音素各自对应的数据。备选地，待评估语音数据可以包括与至少一个音素中的部分音素各自对应的数据。待评估语音数据可以是用户针对预定文本进行朗读得到的。待评估语音数据的语种可以包括汉语或非汉语。例如，非汉语可以包括英语、法语、德语、西班牙语、葡萄牙语、意大利语、日语、韩语或阿拉伯语。

根据本公开的实施例，音素序列可以是与待评估语音数据相对应的音素序列。即，音素序列可以是用户发出的与预定文本相关的至少一个音素组成的音素序列。例如，预定文本是“No right”。与预定文本“No right”对应的音素序列可以包括五个音素，即，音素“n”、音素“oh”、音素“r”、音素“ai”和音素“t”。

根据本公开的实施例，语音特征向量序列可以是对待评估语音数据进行全局特征提取和局部特征提取得到的。语音特征向量序列可以包括至少一个语音特征向量。语音特征向量可以包括待评估语音数据的全局特征和局部特征。第一音素向量序列可以是对音素序列进行编码处理得到的。第一音素向量序列可以包括与至少一个音素各自对应的第一音素向量。

根据本公开的实施例，第一评估结果可以用于表征对与待评估语音数据包括的至少一个音素各自对应的音素准确度。音素准确度可以用分数表征。例如，分数越高，音素准确度越高。反之，音素准确度越低。

根据本公开的实施例，可以对待评估语音数据进行处理，得到声学特征序列。对声学特征序列进行全局特征提取和局部特征提取，得到语音特征向量序列。可以对与待评估语音数据对应的音素序列进行编码，得到第一音素向量序列。例如，可以对与待评估语音数据对应的音素序列进行独热编码(即One Hot Code)，得到第一音素向量序列。在获得语音特征向量序列和第一音素向量序列之后，可以对语音特征向量序列和第一音素向量序列进行处理，得到第一评估结果。例如，可以对第一音素向量序列进行处理，得到处理后第一音素向量序列。对语音特征向量序列和处理后第一音素向量序列进行处理，得到第一评估结果。

根据本公开的实施例，通过提取待评估语音数据的全局特征和局部特征，增强了表征学习能力，在此基础上，处理第一音素向量序列和对待评估语音数据进行全局特征和局部特征提取得到的对语音特征向量序列，得到针对待评估语音数据的第一评估结果，提高了评估结果的准确性。

根据本公开的实施例，对待评估语音数据进行特征提取，得到语音特征向量序列，可以包括如下操作。

对待评估语音数据进行特征提取，得到声学特征序列。对声学特征序列进行特征提取，得到语音特征向量序列。

根据本公开的实施例，可以对待评估语音数据进行分帧处理，得到待评估语音数据矩阵。待评估语音数据矩阵可以包括至少一帧待评估语音子数据。相邻两帧待评估语音子数据之间可以有相同的部分。例如，待评估语音数据的时长是55ms。可以按照每帧待评估语音子数据的时长是25ms，相邻两帧待评估语音子数据之间具有15ms相同的部分的方式，对待评估语音数据进行分帧处理，得到包括4帧待评估语音子数据的待评估语音数据矩阵。在获得待评估语音数据矩阵之后，可以对待评估语音数据矩阵进行傅里叶变换，得到频域的待评估语音数据矩阵。对频域的待评估语音数据矩阵进行声学特征提取，得到声学特征序列。声学特征可以包括以下至少一项：Fbank(即FilterBank)、梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)、音色向量、过零率、子带能量、子带能量熵、频谱中心、频谱延展度、谱熵、频谱通量、频谱滚降和音色偏差。

根据本公开的实施例，在获得声学特征序列之后，可以对声学特征序列进行全局特征提取和局部特征提取，得到语音特征向量序列。

根据本公开的实施例，对声学特征序列进行特征提取，得到语音特征向量序列，可以包括如下操作。

利用编码器处理声学特征序列，得到语音特征向量序列。

根据本公开的实施例，编码器(即encoder)可以包括用于能够实现提取全局特征和局部特征的结构。例如，编码器可以包括卷积神经网络结构和注意力结构。卷积神经网络结构可以用于实现提取局部特征。注意力结构可以用于实现提取全局特征。

根据本公开的实施例，编码器包括级联的卷积神经网络模块和双体基网模块。

根据本公开的实施例，利用编码器处理声学特征序列，得到语音特征向量序列，可以包括如下操作。

利用卷积神经网络模块处理声学特征序列，得到第一中间语音特征向量序列。利用双体基网模块处理第一中间语音特征向量序列，得到语音特征向量序列。

根据本公开的实施例，编码器可以包括卷积神经网络模块和双体基网模块。卷积神经网络模块的输出端与双体基网模块的输入端连接。双体基网模块可以包括能够实现提取全局特征和局部特征的结构。

根据本公开的实施例，利用双体基网模模块实现了对待评估语音数据的全局特征和局部特征的提取，由此，增强了表征学习能力。

根据本公开的实施例，卷积神经网络模块包括D个级联的卷积神经网络单元，卷积神经网络单元包括第一深度卷积(即DepthWise Convolution)层和第一逐点卷积(即PointWise Convolution)层。D是大于或等于1的整数。

根据本公开的实施例，利用卷积神经网络模块处理声学特征序列，得到第一中间语音特征向量序列，可以包括如下操作。

在D＝1的情况下，利用第1层级的第一深度卷积层处理声学特征序列，得到第1层级的第二中间语音特征向量序列。利用第1层级的第一逐点卷积层处理第1层级的第二中间语音特征向量序列，得到第1层级的第三中间语音特征向量序列。根据第1层级的第三中间语音特征向量序列，得到第一中间语音特征向量序列。

在D＞1且d＞1的情况下，利用第d层级的第一深度卷积层处理第(d-1)层级的第三中间语音特征向量序列，得到第d层级的第二中间语音特征向量序列。利用第d层级的第一逐点卷积层处理第d层级的第二中间特征向量序列，得到第f层级的第三中间语音特征向量序列。根据第E层级的第三中间语音特征向量序列，得到第一中间语音特征向量序列。E是大于1且小于或等于D的整数。

根据本公开的实施例，D和E的数值均可以根据实际业务需要进行配置，在此不作限定。例如，D＝E＝3。备选地，D＝3，E＝2。d∈{1，2，....，E-1，E}。

根据本公开的实施例，在D＞1且d＝1的情况下，可以利用第1层级的第一深度卷积层处理声学特征序列，得到第1层级的第二中间语音特征向量序列。可以利用第1层级的第一逐点卷积层处理第一中间语音特征向量序列，得到第1层级的第三中间语音特征向量序列。

根据本公开的实施例，可以将第E层级的第三中间语音特征向量序列确定为第一中间语音特征向量序列。

根据本公开的实施例，卷积神经网络单元还可以包括第一批规范化(BatchNorm，BN)层和第二批规范化层。

根据本公开的实施例，上述语音评估方法还可以包括如下操作。

可以利用第1层级的第一批规范化层处理第1层级的第二中间语音特征向量序列，得到第1层级的第十二中间语音特征向量序列。

根据本公开的实施例，利用第1层级的第一逐点卷积层处理第1层级的第二中间语音特征向量序列，得到第1层级的第三中间语音特征向量序列，可以包括如下操作。

利用第1层级的第一逐点卷积层处理第1层级的第十二中间语音特征向量序列，得到第1层级的第三中间语音特征向量序列。

可以利用第1层级的第二批规范化层处理第1层级的第三中间语音特征向量序列，得到第1层级的第十七中间语音特征向量序列。

可以利用第d层级的第一批规范化层处理第d层级的第二中间语音特征向量序列，得到第d层级的第十二中间语音特征向量序列。

根据本公开的实施例，利用第d层级的第一逐点卷积层处理第d层级的第二中间特征向量序列，得到第d层级的第三中间语音特征向量序列，可以包括如下操作。

利用第d层级的第一逐点卷积层处理第d层级的第十二中间特征向量序列，得到第d层级的第三中间语音特征向量序列。

利用第d层级的第二批规范化层处理第d层级的第三中间语音特征向量序列，得到第d层级的第十七中间语音特征向量序列。

根据本公开的实施例，根据第E层级的第三中间语音特征向量序列，得到第一中间语音特征向量序列，可以包括如下操作。

根据第E层级的第十七中间语音特征向量序列，得到第一中间语音特征向量序列。

根据本公开的实施例，双体基网模块包括H个级联的双体基网单元。双体基网单元包括第一前向网络(即Feed Forward)层、多头自注意力(即Multi-Head Self Attention)层、卷积层和第二前向网络层，H是大于或等于1的整数。

根据本公开的实施例，利用双体基网模块处理第一中间语音特征向量序列，得到语音特征向量序列，可以包括如下操作。

在H＞1且h＞1的情况下，利用第h层级的第一前向网络层处理第(h-1)层级的第十一中间语音特征向量序列，得到第h层级的第四中间语音特征向量序列。根据第(h-1)层级的第十一中间语音特征向量序列和第h层级的第四中间语音特征向量序列，得到第h层级的第五中间语音特征向量序列。利用第h层级的多头自注意力层处理第h层级的第五中间语音特征向量序列，得到第h层级的第六中间语音特征向量序列。根据第h层级的第五中间语音特征向量序列和第六中间语音特征向量序列，得到第h层级的第七中间语音特征向量序列。利用第h层级的卷积层处理第h层级的第七中间语音特征向量序列，得到第h层级的第八中间语音特征向量序列。根据第h层级的第七中间语音特征向量序列和第八中间语音特征向量序列，得到第h层级的第九中间语音特征向量序列。利用第h层级的第二前向网络层处理第h层级的第九中间语音特征向量序列，得到第h层级的第十中间语音特征向量序列。根据第h层级的第九中间语音特征向量序列和第十中间语音特征向量序列，得到第h层级的第十一中间语音特征向量序列。根据第K层级的第十一中间语音特征向量序列，得到语音特征向量序列。K是大于1且小于或等于H的整数。

根据本公开的实施例，H和K的数值均可以根据实际业务需要进行配置，在此不作限定。例如，H＝K＝3。备选地，H＝3，K＝2。h∈{1，2，.....，K-1，K}。

根据本公开的实施例，在H＝1的情况下，利用第1层级的第一前向网络层处理第一中间语音特征向量序列，得到第1层级的第四中间语音特征向量序列。根据第一中间语音特征向量序列和第1层级的第四中间语音特征向量序列，得到第1层级的第五中间语音特征向量序列。利用第1层级的多头自注意力层处理第1层级的第五中间语音特征向量序列，得到第1层级的第六中间语音特征向量序列。根据第1层级的第五中间语音特征向量序列和第六中间语音特征向量序列，得到第1层级的第七中间语音特征向量序列。利用第1层级的卷积层处理第1层级的第七中间语音特征向量序列，得到第1层级的第八中间语音特征向量序列。根据第1层级的第七中间语音特征向量序列和第八中间语音特征向量序列，得到第1层级的第九中间语音特征向量序列。利用第1层级的第二前向网络层处理第1层级的第九中间语音特征向量序列，得到第1层级的第十中间语音特征向量序列。根据第1层级的第九中间语音特征向量序列和第十中间语音特征向量序列，得到第1层级的第十一中间语音特征向量序列。根据第1层级的第十一中间语音特征向量序列，得到语音特征向量序列。

根据本公开的实施例，根据第(h-1)层级的第十一中间语音特征向量序列和第h层级的第四中间语音特征向量序列，得到第h层级的第五中间语音特征向量序列，可以包括：将第(h-1)层级的第十一中间语音特征向量序列和第h层级的的第四中间语音特征向量序列进行相加处理，得到第h层级的第五中间语音特征向量序列。

根据本公开的实施例，根据第h层级的第五中间语音特征向量序列和第六中间语音特征向量序列，得到第h层级的第七中间语音特征向量序列，可以包括：将第h层级的第五中间语音特征向量序列和第六中间语音特征向量序列进行相加处理，得到第h层级的第七中间语音特征向量序列。

根据本公开的实施例，根据第h层级的第七中间语音特征向量序列和第八中间语音特征向量序列，得到第h层级的第九中间语音特征向量序列，可以包括：将第h层级的第七中间语音特征向量序列和第八中间语音特征向量序列进行相加处理，得到第h层级的第九中间语音特征向量序列。

根据本公开的实施例，根据第h层级的第九中间语音特征向量序列和第十中间语音特征向量序列，得到第h层级的第十一中间语音特征向量序列，可以包括：将第h层级的第九中间语音特征向量序列和第十中间语音特征向量序列进行相加处理，得到第h层级的第十一中间语音特征向量序列。

根据本公开的实施例，根据第K层级的第十一中间语音特征向量序列，得到语音特征向量序列，可以包括：将第K层级的第十一中间语音特征向量序列确定为语音特征向量序列。

根据本公开的实施例，双体基网单元还可以包括第一层规范化(LayerNorm，LN)层。

利用第h层级的第一层规范化层处理第十一中间语音特征向量序列，得到第h层级的第十一中间语音特征向量序列。

根据本公开的实施例，根据第K层级的第十一中间语音特征向量序列，得到语音特征向量序列，可以包括如下操作。

将第K层级的第十一中间语音特征向量序列确定为语音特征向量序列。

根据本公开的实施例，第一前向网络层可以包括级联的第二层规范化层、第三线性层、第一激活层和第四线性层。

根据本公开的实施例，第一激活层可以是第一Swin激活层。

根据本公开的实施例，利用第h层级的第一前向网络层处理第(h-1)层级的第十一中间语音特征向量序列，得到第h层级的第四中间语音特征向量序列，可以包括如下操作。

利用第h层级的级联的第二层规范化层、第三线性层、第一激活层和第四线性层处理第(h-1)层级的第十一中间语音特征向量序列，得到第h层级的第十三中间语音特征向量序列。根据第h层级的第十三中间语音特征向量序列和第(h-1)层级的第十一中间语音特征向量序列，得到第h层级的第四中间语音特征向量序列。

根据本公开的实施例，多头自注意力层可以包括级联的第三层规范化层和具有相对位置嵌入的多头注意力(即Multi-Head Attention with Relative PositionalEmbedding)层。

根据本公开的实施例，利用第h层级的多头自注意力层处理第h层级的第五中间语音特征向量序列，得到第h层级的第六中间语音特征向量序列，可以包括如下操作。

利用第h层级的级联的第三层规范化层和具有相对位置嵌入的多头注意力层处理第h层级的第五中间语音特征向量序列，得到第h层级的十四中间语音特征向量序列。根据第h层级的第五中间语音特征向量序列和第十四中间语音特征向量序列，得到第h层级的第六中间语音特征向量序列。

根据本公开的实施例，根据第h层级的第五中间语音特征向量序列和第十四中间语音特征向量序列，得到第h层级的第六中间语音特征向量序列，可以包括：将第h层级的第五中间语音特征向量序列和第十四中间语音特征向量序列进行相加处理，得到第h层级的第六中间语音特征向量序列。

根据本公开的实施例，多头自注意力层实现的注意力策略，能够使得每个音素向量能够利用全部语音特征向量的信息，因此，提高了在时域上的感受野，由此，提高了评估准确度。

根据本公开的实施例，每个卷积层可以包括级联的第四层规范化层、第二逐点卷积层、第二激活层、第二深度卷积层、第三批规范化层、第三激活层和第三逐点卷积层。

根据本公开的实施例，第二激活层可以是Glu激活层。第三激活层可以是第二Swin激活层。

根据本公开的实施例，利用第h层级的卷积层处理第h层级的第七中间语音特征向量序列，得到第h层级的第八中间语音特征向量序列，可以包括如下操作。

根据本公开的实施例，利用第h层级的级联的第四层规范化层、第二逐点卷积层、第二激活层、第二深度卷积层、第三批规范化层、第三激活层和第三逐点卷积层处理第h层级的第七中间语音特征向量序列，得到第h层级的第十五中间语音特征向量序列。根据第h层级的第七中间语音特征向量序列和第十五中间语音特征向量序列，得到第h层级的第八中间语音特征向量序列。

根据本公开的实施例，根据第h层级的第七中间语音特征向量序列和第十五中间语音特征向量序列，得到第h层级的第八中间语音特征向量序列，可以包括：将第h层级的第七中间语音特征向量序列和第十五中间语音特征向量序列进行相加处理，得到第h层级的第八中间语音特征向量序列。

根据本公开的实施例，第二前向网络层可以包括级联的第五层规范化层、第五线性层、第四激活层和第六线性层。

根据本公开的实施例，第四激活层可以是第一Swin激活层。

根据本公开的实施例，利用第h层级的第二前向网络层处理第h层级的第九中间语音特征向量序列，得到第h层级的第十中间语音特征向量序列，可以包括如下操作。

利用第h层级的级联的第五层规范化层、第五线性层、第四激活层和第六线性层处理第h层级的第九中间语音特征向量序列，得到第h层级的第十六中间语音特征向量序列。根据第h层级的第九中间语音特征向量序列和第十六中间语音特征向量序列，得到第h层级的第十中间语音特征向量序列。

根据本公开的实施例，第一音素向量序列包括与至少一个音素对应的第一音素向量。

根据本公开的实施例，操作S220可以包括如下操作。

基于第一注意力策略和音素时间信息，对语音特征向量序列和第一音素向量序列进行处理，得到第二音素向量序列。第二音素向量序列包括与至少一个音素对应的第二音素向量。对第二音素向量序列进行处理，得到针对待评估语音数据的第二评估结果。将第二评估结果确定为针对待评估语音数据的第一评估结果。

根据本公开的实施例，注意力策略可以用于实现以高权重去聚焦重要信息，低权重去忽略非重要信息，并能通过共享重要信息与其他信息进行信息交换，从而实现重要信息的传递。可以根据第一注意力策略确定第一注意力层。

根据本公开的实施例，音素时间信息可以是基于强制对齐算法对待评估语音数据进行处理得到的。音素时间信息可以包括与至少一个音素对应的时间信息。例如，音素时间信息可以包与至少一个音素各自对应的时间信息。备选地，音素时间信息可以包括与至少一个音素中的部分音素各自对应的时间信息。时间信息可以与语音特征向量的时间信息相对应。音素时间信息可以用于确定与至少一个音素对应的语音特征向量，即，音素时间信息可以用于确定与至少一个音素向量对应的语音特征向量。例如，音素时间信息可以用于确定与至少一个音素各自对应的语音特征向量，即，音素时间信息可以用于确定与至少一个音素各自对应的语音特征向量。

例如，音素时间信息可以包括与B个音素各自对应的时间信息。第一音素向量序列可以包括与B个音素各自对应的第一音素向量。语音特征向量序列可以包括C个语音特征向量。与第b个音素对应的语音特征向量包括第c个到第(c+u)个语音特征向量。即，与第b个音素向量对应的语音特征向量包括第c个到第(c+u)个语音特征向量。B是大于或等于1的整数。C是大于或等于1的整数。b∈{1，2，......，B-1，B}。c∈{1，2，......，C-1，C}。u是大于或等于1的整数。

根据本公开的实施例，对第二音素向量序列进行处理，得到针对待评估语音数据的第二评估结果，可以包括：可以对第二音素向量序列进行线性处理，得到针对待评估语音数据的第二评估结果。

根据本公开的实施例，上述是利用拟合准确度回归的方式实现的评估结果的确定，无需依赖于隐状态的判别能力，实现简单且能够较为准确地确定准确度。

根据本公开的实施例，基于第一注意力策略和音素时间信息，对语音特征向量序列和第一音素向量序列进行处理，得到第二音素向量序列，可以包括如下操作。

根据音素时间信息，确定与至少一个音素对应的语音特征向量。基于第一注意力策略，对与至少一个音素对应的第一音素向量和语音特征向量进行处理，得到第二音素向量序列。

根据本公开的实施例，可以根据音素时间信息，确定与至少一个音素对应的语音特征向量。例如，根据音素时间信息，确定与至少一个音素各自对应的语音特征向量。备选地，根据音素时间信息，确定与至少一个音素中的部分音素各自对应的语音特征向量。与每个音素对应的语音特征向量可以包括一个或多个。可以利用第一注意力层处理与至少一个音素各自对应的第一音素向量和语音特征向量，得到第二音素向量序列。

例如，音素时间信息可以包括与B＝2个音素各自对应的时间信息。第一音素向量序列可以包括与B＝2个音素各自对应的第一音素向量。语音特征向量序列可以包括C＝5个语音特征向量。与第1个音素对应的语音特征向量包括第1个语音特征向量和第2个语音特征向量。即，与第1个第一音素向量对应的语音特征向量包括第1个语音特征向量和第2个语音特征向量。与第2个音素对应的语音特征向量包括第3个语音特征向量、第4个语音特征向量和第5个语音特征向量。即，与第2个第一音素向量对应的语音特征向量包括第3个语音特征向量、第4个语音特征向量和第5个语音特征向量。

可以利用第一注意力层处理与第1个音素对应的第一音素向量、第1个语音特征向量和第2个语音特征向量，得到与第1个音素对应的第二音素向量。利用第一注意层处理与第2个音素对应的第一音素向量、第3个语音特征向量、第4个语音特征向量和第5个语音特征向量，得到与第2个音素对应的第二音素向量。根据与第1个音素对应的第二音素向量和与第2个音素对应的第二音素向量，得到第二音素向量序列。

根据本公开的实施例，解码器可以包括第一评测模块。第一评测模块可以包括第一线性层、第一池化层和第三线性层。

对第一音素向量序列进行线性处理，得到第五音素向量序列。第五音素向量序列包括与至少一个音素对应的第五音素向量。

根据本公开的实施例，可以利用第三线性层处理第一音素向量序列，得到第五音素向量序列。第五音素向量序列可以包括与至少一个音素各自对应的第五音素向量。备选地，第五音素向量序列可以包括与至少一个音素中的部分音素各自对应的第五音素向量。

根据本公开的实施例，基于第一注意力策略，对与至少一个音素对应的第一音素向量和语音特征向量进行处理，得到第二音素向量序列，可以包括如下操作。

基于第一注意力策略，对与至少一个音素对应的第五音素向量和语音特征向量进行处理，得到第二音素向量序列。

根据本公开的实施例，利用第一注意层处理与至少一个音素对应的第五音素向量和语音特征向量，得到第二音素向量序列。例如，可以利用第一注意力层处理与至少一个音素各自对应的第五音素向量和语音特征向量，得到第二音素向量序列。备选地，可以利用第一注意力层处理与至少一个音素中的部分音素各自对应的第五音素向量和语音特征向量，得到第二音素向量序列。

根据本公开的实施例，对第二音素向量序列进行处理，得到针对待评估语音数据的第二评估结果，可以包括如下操作。

利用第一线性层处理第二音素向量序列，得到针对待评估语音数据的第二评估结果。

对语音特征向量序列和第二音素向量序列进行处理，得到针对待评估语音数据的第三评估结果。

根据本公开的实施例，将第二评估结果确定为针对待评估语音数据的第一评估结果，可以包括如下操作。

根据第二评估结果和第三评估结果，得到针对待评估语音数据的第一评估结果。

根据本公开的实施例，在获得第二评估结果和第三评估结果之后，可以根据评估策略，从第二评估结果和第三评估结果中确定针对待评估语音数据的第一评估结果。例如，可以将第二评估结果确定为针对待评估语音数据的第一评估结果。备选地，可以将第三评估结果确定为针对待评估语音数据的第一评估结果。备选地，对第二评估结果和第三评估结果进行处理，得到针对待评估语音数据的第一评估结果。

根据本公开的实施例，对语音特征向量序列和第二音素向量序列进行处理，得到针对待评估语音数据的第三评估结果，可以包括如下操作。

对第二音素向量序列进行时序处理，得到第三音素向量序列。第三音素向量序列包括与至少一个音素对应的第三音素向量。基于第二注意力策略，对语音特征向量序列和第三音素向量序列进行处理，得到第四音素向量序列。对第四音素向量进行处理，得到针对待评估语音数据的第三评估结果。

根据本公开的实施例，可以利用时序数据预测算法处理第二音素向量序列，得到第三音素向量序列。第三音素向量序列可以包括与至少一个音素各自对应的第三音素向量。备选地，第三音素向量序列可以包括与至少一个音素中的部分音素各自对应的第三音素向量。时序数据预测算法可以包括循环神经网络方法。循环神经网络方法可以包括单向长短期记忆神经网络(Long Short-Term Memory，LSTM)模型或双向长短期记忆神经网络(Bi-direction Long Short-Term Memory，Bi-LSTM)模型。

根据本公开的实施例，利用循环神经网络模型能够较为充分地利用之前的全部信息，因此，提高了评估结果的准确性。

根据本公开的实施例，基于第二注意力策略，对语音特征向量序列和第三音素向量序列进行处理，得到第四音素向量序列，可以包括：针对至少一个音素中的每个音素，基于第二注意力策略，对语音特征向量序列和与音素对应的第三音素向量进行处理的，得到与音素对应的第四音素向量。

根据本公开的实施例，对第四音素向量进行处理，得到针对待评估语音数据的第三评估结果，可以包括如下操作。

对第四音素向量序列进行处理，得到与至少一个音素对应的预测概率值。确定预期概率值。预期概率值是与至少一个音素对应的预测概率值中满足预定条件的预测概率值。根据预期概率值和与至少一个音素对应的预测概率值，确定与至少一个音素对应的第一准确度。根据与至少一个音素对应的第一准确度，得到针对待评估语音数据的第三评估结果。

根据本公开的实施例，预期概率值可以是用于作为确定第一准确度的依据。满足预定条件可以包括以下一项：预测概率值是最大预测概率值、预测概率值是平均预测概率值和预测概率值是中值预测概率值。即，预期概率值可以指与至少一个音素对应的预测概率值中的最大预测概率值。备选地，预期概率值可以是根据与至少一个音素对应的预测概率值确定得到的平均预测概率值。备选地，预期概率值可以是与至少一个音素对应的预测概率值中的中值预测概率值。与至少一个音素对应的预测概率值可以包括与至少一个音素各自对应的预测概率值。备选地，与至少一个音素各自对应的预测概率值可以包括与至少一个音素中的部分音素各自对应的预测概率值。

根据本公开的实施例，可以对第四音素向量序列进行时序处理，得到与至少一个音素各自对应的预测概率值。

根据本公开的实施例，根据预期概率值和与至少一个音素对应的预测概率值，确定与至少一个音素对应的第一准确度，可以包括：针对至少一个音素中的每个音素，可以根据预期概率值和与音素对应的预测概率值，确定与音素对应的第一准确度。备选地，针对至少一个音素中的部分音素包括的每个音素，可以根据预期概率值和与音素对应的预测概率值，确定与音素对应的第一准确度。与至少一个音素对应的第一准确度可以包括与至少一个音素各自对应的第一准确度。备选地，与至少一个音素中的部分音素各自对应的第一准确度。

根据本公开的实施例，可以根据如下公式(1)确定与音素对应的第一准确度。

根据本公开的实施例，S(p_b)表征与音素b对应的第一准确度。p_b表征与音素b对应的预测概率值。p_v表征与音素v对应的预测概率值，p_v表征预期概率值。P表征预测概率中集合，预测概率集合包括与至少一个音素各自对应的预测概率值。b∈{1，2，......，B-1，B}。B表征音素的数目。B是大于或等于1的整数。

根据本公开的实施例，解码器还可以包括第二评估模块。第二评估模块可以包括第一评估模块、循环神经网络层、第二注意力层和第二线性层。循环神经网络层可以包括第一循环神经网络层和第二循环神经网络层。

根据本公开的实施例，对第二音素向量序列进行时序处理，得到第三音素向量序列，可以包括如下操作。

利用第一循环神经网络层处理第二音素向量序列，得到第三音素向量序列。

根据本公开的实施例，基于第二注意力策略，对语音特征向量序列和第三音素向量序列进行处理，得到第四音素向量序列，可以包括如下操作。

利用第二注意层处理语音特征向量序列和第三音素向量序列，得到第四音素向量序列。

根据本公开的实施例，对第四音素向量序列进行处理，得到与至少一个音素对应的预测概率值，可以包括如下操作。

利用第二循环神经网络层处理第四音素向量序列，得到第六音素向量序列。第六音素向量序列可以包括与至少一个音素对应的第六音素向量。

根据本公开的实施例，第六音素向量序列可以包括与至少一个音素各自对应的第六音素向量。备选地，第六音素向量序列可以包括与至少一个音素中的部分音素各自对应的第六音素向量。

利用第二线性层处理第六音素向量序列，得到与至少一个音素对应的预测概率值。

基于启发式搜索算法，利用与至少一个音素对应的预测概率值，得到预测音素序列。根据真实音素序列和预测音素序列，得到针对待评估语音数据的第四评估结果。

根据本公开的实施例，启发式搜索算法可以包括贪婪搜索算法、穷举式搜索算法或束搜索(即Beam Search)算法。束搜索算法的超参数可以包括束宽(即Beam Size)。

根据本公开的实施例，可以基于束搜索算法，利用与至少一个音素对应的预测概率值，得到预测音素序列。预测音素序列可以是条件概率值最高路径对应的音素序列。束宽可以是z。至少一个音素可以包括O个。在时间步1的情况下，根据与至少一个音素对应的预测概率值，从所述至少一个音素中确定候选音素序列的首个音素。候选音素序列的数目与束宽z相对应。在之后的每个时间步，基于上个时间步的与束宽对应的候选音素序列，从z*O个音素中确定条件概率值最大的z个候选音素序列。从与各个时间步中的至少一个时间步对应的候选音素序列中确定包括预定符号的候选音素序列。从包括预定符号的候选音素序列中确定预测概率值最高的候选音素序列作为预测音素序列。预定符号可以包括“sos”或“eos”

例如，至少一个音素包括3个音素，即，音素“EH”、音素“AH”和音素“AE”。预定符号是“sos”。束宽是2。

在时间步1的情况下，对预定符号进行编码处理后，得到预定符号向量。对预定符号向量进行解码处理，得到与3个音素和预定符号各自对应的第一概率值，即，与预定符号“sos”对应的第一概率值是“0.1”、与音素“EH”对应的第一概率值是“0.4”、与音素“AH”对应的第一概率值是“0.4”，以及，与音素“AE”对应的第一概率值是“0.1”。

04.大于0.1，音素“EH”和音素“AH”的第一概率值均是“0.4”，因此，确定“sos→EH”和“sos→AH”是与时间步1对应的候选音素序列。

在时间步2的情况下，对音素“AH”进行解码，得到与3个音素和预定符号各自对应的第二概率值，即，与预定符号“sos”对应的第二概率值是“0.0”、与音素“EH”对应的第二概率值是“0.1”、与音素“AH”对应的第二概率值是“0.3”，以及，与音素“AE”对应的第二概率值是“0.6”。

对音素“EH”进行解码，得到与3个音素和预定符号各自对应的第三概率值，即，与预定符号“sos”对应的第三概率值是“0.1”、与音素“EH”对应的第三概率值是“0.3”、与音素“AH”对应的第三概率值是“0.5”，以及，与音素“AE”对应的第三概率值是“0.1”。

与候选音素序列“sos→AH→AE”对应的第四概率值是“1”(即0.4+0.6＝1)。与候选音素序列“sos→AH→AH”对应的第四概率值是“0.7”(即0.4+0.3＝0.7)。与候选音素序列“sos→EH→AH”对应的第四概率值是“0.9”(即0.4+0.5＝0.9)。与候选音素序列“sos→EH→EH”对应的第四概率值是“0.7”(即0.4+0.3＝0.7)。

从4个第四概率值中确定2个第四概率值，2个第四概率值是4个第四概率值中较大的2个第四概率值。即，第四概率值“1”和第四概率值“0.9”。将与第四概率值“1”对应的候选音素序列“sos→AH→AE”以及与第四概率值“0.9”对应的候选音素序列“sos→EH→AH”确定为与时间步2对应的候选音素序列。

在时间步3的情况下，对音素“AE”进行解码，得到与3个音素和预定符号各自对应的第五概率值，即，与预定符号“sos”对应的第五概率值是“0.1”、与音素“EH”对应的第五概率值是“0.2”、与音素“AH”对应的第五概率值是“0.1”，以及，与音素“AE”对应的第五概率值是“0.6”。

对音素“AH”进行解码，得到与3个音素和预定符号各自对应的第六概率值，即，与预定符号“sos”对应的第六概率值是“0.8”、与音素“EH”对应的第六概率值是“0.2”、与音素“AH”对应的第六概率值是“0.0”，以及，与音素“AE”对应的第六概率值是“0.0”。

与候选音素序列“sos→AH→AE→AE”对应的第七概率值是“1.6”(即0.4+0.6+0.6＝1.6)。与候选音素序列“sos→AH→AE→EH”对应的第七概率值是“1.2”(即0.4+0.6+0.2＝1.2)。与候选音素序列“sos→EH→AH→EH”对应的第七概率值是“1.1”(即0.4+0.5+0.2＝1.1)。与候选音素序列“sos→EH→AH→sos”对应的第七概率值是“1.7”(即0.4+0.5+0.8＝1.7)。

从4个第七概率值中确定2个第七概率值，2个第七概率值是4个第七概率值中较大的2个第七概率值。即，第七概率值“1.6”和第七概率值“1.7”。将与第七概率值“1.6”对应的候选音素序列“sos→AH→AE→AE”以及与第七概率值“1.7”对应的候选音素序列“sos→EH→AH→sos”确定为与时间步3对应的候选音素序列。

候选音素序列“sos→EH→AH→sos”包括预定符号“sos”，因此，可以将“EH→AH”确定为最终的候选音素序列。

在时间步4的情况下，对音素“AE”进行解码，得到与3个音素和预定符号各自对应的第八概率值，即，与预定符号“sos”对应的第八概率值是“0.5”、与音素“EH”对应的第八概率值是“0.1”、与音素“AH”对应的第八概率值是“0.3”，以及，与音素“AE”对应的第八概率值是“0.1”。

与候选音素序列“sos→AH→AE→AE→AH”对应的第九概率值是“1.9”(即0.4+0.6+0.6+0.3＝1.9)。与候选音素序列“sos→AH→AE→AE→sos”对应的第九概率值是“2.1”(即0.4+0.6+0.6+0.5＝2.1)。

将与第九概率值“1.9”对应的候选音素序列“sos→AH→AE→AE→AH”以及与第九概率值“2.1”对应的候选音素序列“sos→AH→AE→AE→sos”确定为与时间步4对应的候选音素序列。

候选音素序列“sos→AH→AE→AE→sos”包括预定符号“sos”，因此，可以将“AH→AE→AE”确定为最终的候选音素序列。

与最终的候选音素序列“AH→AE→AE”对应的第九概率值“2.1”大于与最终的候选音素序列“EH→AH”对应的第七概率值“1.7”，因此，将最终的候选音素序列“AH→AE→AE”确定为预测音素序列。

根据本公开的实施例，根据第二评估结果和第三评估结果，得到针对待评估语音数据的第一评估结果，可以包括如下操作。

根据第二评估结果、第三评估结果和第四评估结果，得到针对待评估语音数据的第一评估结果。

根据本公开的实施例，可以将第二评估结果确定为针对待评估语音数据的第一评估结果。可以将第三评估结果确定为针对待评估语音数据的第一评估结果。可以将第四评估结果确定为针对待评估语音数据的第一评估结果。可以对第二评估结果和第三评估结果进行处理，得到针对待评估语音数据的第一评估结果。可以对第二评估结果和第四评估结果进行处理，得到针对待评估语音数据的第一评估结果。可以对第三评估结果和第四评估结果进行处理，得到针对待评估语音数据的第一评估结果。可以对第二评估结果、第三评估结果和第四评估结果进行处理，得到针对待评估语音数据的第一评估结果。

根据本公开的实施例，上述语音评估方法还可以如下操作。

基于隐马尔可夫算法对语音特征向量序列进行处理，得到与至少一个音素对应的隐藏状态。确定与至少一个音素对应的隐藏状态的出现概率值。根据音素时间信息和与至少一个音素对应的隐藏状态的出现概率值，确定与至少一个音素对应的第二准确度。根据与至少一个音素对应的第二准确度，得到针对待评估语音数据的第五评估结果。根据第一评估结果和第五评估结果，得到针对待评估语音数据的评估结果。

根据本公开的实施例，根据音素时间信息和与至少一个音素对应的隐藏状态的出现概率值，确定与至少一个音素对应的第二准确度，可以包括：可以根据音素时间信息，确定与至少一个音素对应的隐藏状态的出现概率值。针对至少一个音素中的每个音素，基于GoP(Goodness of Pronunciation，发音优度)算法，根据与音素对应的出现概率值，确定与音素对应的第二准确度。备选地，可以根据音素时间信息，确定与至少一个音素中的部分音素各自对应的隐藏状态的出现概率。针对部分音素中的每个音素，基于GoP算法，根据与音素对应的出现概率值，确定与音素对应的第二准确度。

根据本公开的实施例，音素时间信息可以是基于强制对齐算法对待评估语音数据进行处理得到的。即，可以根据至少一个隐藏状态之间的状态转移率值和与至少一个音素对应的隐藏状态的出现概率值，从至少一个候选隐藏状态转移路径中确定目标隐藏状态转移路径。根据目标隐藏状态转移路径，确定音素时间信息。

根据本公开的实施例，根据第一评估结果和第五评估结果，得到针对待评估语音数据的评估结果，可以包括：将第五评估结果确定为针对待评估语音数据的评估结果。将第一评估结果确定为针对待评估语音数据的评估结果。对第一评估结果和第五评估结果进行处理，得到针对待评估语音数据的评估结果。

根据本公开的实施例，可以提供四种类型的评估结果，即，第二评估结果、第三评估结果、第四评估结果和第五评估结果。在实际业务中，可以根据实际情况进行设定，在此不作限定。上述方式提高了应用的灵活性。

图3示意性示出了根据本公开实施例的训练方法的流程图。

如图3所示，该方法300包括操作S310～S330。

在操作S310，对样本语音数据进行特征提取，得到第一样本语音特征向量序列。样本语音特征向量序列包括至少一个样本语音特征向量，样本语音特征向量用于表征全局特征和局部特征的特征向量。

在操作S320，对样本语音特征向量序列和第一样本音素向量序列进行处理，得到针对样本语音数据的第一样本评估结果。样本评估结果用于表征样本语音数据的音素准确度，第一样本音素向量序列是对样本音素序列进行编码得到的，第一样本音素序列与样本语音数据相对应。

在操作S330，利用样本真实结果和第一样本评估结果训练预定模型，得到语音评估模型。

根据本公开的实施例，样本真实结果可以包括与至少一个样本音素对应的样本真实准确度。例如，样本真实结果可以包括与至少一个样本音素各自对应的样本真实准确度。备选地，样本真实结果可以包括与至少一个样本音素中的部分样本音素各自对应的样本真实准确度。第一样本评估结果可以包括与至少一个样本音素对应的第一样本评估准确度。例如，第一样本评估结果可以包括与至少一个样本音素各自对应的第一样本评估准确度。备选地，第一样本评估结果可以包括与至少一个样本音素中的部分样本音素各自对应的第一样本评估准确度。

根据本公开的实施例，预定模型可以包括编码器和解码器。可以共同训练编码器和解码器。也可以先训练编码器再训练解码器，即，先训练编码器得到训练完成的编码器，再在保持训练完成的编码器的模型参数不变的情况下，训练解码器。

根据本公开的实施例，可以基于损失函数，利用样本真实结果和第一样本评估结果，得到输出值，根据输出值调节预定模型的模型参数，直至满足预定条件。将在满足预定条件的情况下得到的预定模型确定为语音评估模型。预定条件可以包括输出值收敛和训练轮次达到最大训练轮次中的至少一项。

根据本公开的实施例，可以根据如下公式(2)确定损失函数。

根据本公开的实施例，Loss表征损失函数。y表征样本真实准确度。x表征样本评估准确度。

根据本公开的实施例，对样本语音数据进行特征提取，得到样本语音特征向量序列，可以包括如下操作。

对样本语音数据进行特征提取，得到样本声学特征序列。对样本声学特征序列进行特征提取，得到样本语音特征向量序列。

根据本公开的实施例，预定模型包括编码器。

根据本公开的实施例，对样本声学特征序列进行特征提取，得到样本语音特征向量序列，可以包括如下操作。

利用编码器处理样本声学特征序列，得到样本语音特征向量序列。

根据本公开的实施例，利用编码器处理样本声学特征序列，得到样本语音特征向量序列，可以包括如下操作。

利用卷积神经网络模块处理样本声学特征序列，得到第一中间样本语音特征向量序列。利用双体基网模块处理第一中间样本语音特征向量序列，得到样本语音特征向量序列。

根据本公开的实施例，卷积神经网络模块包括D个级联的卷积神经网络单元，卷积神经网络单元包括第一深度卷积层和第一逐点卷积层，D是大于或等于1的整数。

根据本公开的实施例，利用卷积神经网络模块处理样本声学特征序列，得到第一中间样本语音特征向量序列，可以包括如下操作。

在D＝1的情况下，利用第1层级的第一深度卷积层处理所述样本声学特征序列，得到第1层级的第二中间样本语音特征向量序列。利用第1层级的第一逐点卷积层处理所述第1层级的第二样本中间语音特征向量序列，得到第1层级的第三中间样本语音特征向量序列。根据所述第1层级的第三中间样本语音特征向量序列，得到所述第一中间样本语音特征向量序列。

在D＞1且d＞1的情况下，利用第d层级的第一深度卷积层处理第(d-1)层级的第三中间样本语音特征向量序列，得到所述第d层级的第二中间样本语音特征向量序列。利用第d层级的第一逐点卷积层处理所述第d层级的第二中间样本特征向量序列，得到所述第d层级的第三中间样本语音特征向量序列。根据所述第E层级的第三中间样本语音特征向量序列，得到所述第一中间样本语音特征向量序列。E是大于1且小于或等于D的整数。

根据本公开的实施例，卷积神经网络单元还可以包括第一批规范化层和第二批规范化层。

根据本公开的实施例，双体基网单元包括H个级联的双体基网单元，双体基网单元包括第一前向网络层、多头自注意力层、卷积层和第二前向网络层，H是大于或等于1的整数。

根据本公开的实施例，利用双体基网模块处理第一中间样本语音特征向量序列，得到样本语音特征向量序列，可以包括如下操作。

在H＞1且h＞1的情况下，利用第h层级的第一前向网络层处理第(h-1)层级的第十一中间样本语音特征向量序列，得到第h层级的第四中间样本语音特征向量序列。根据第(h-1)层级的第十一中间样本语音特征向量序列和第h层级的第四中间样本语音特征向量序列，得到第h层级的第五中间样本语音特征向量序列。利用第h层级的多头自注意力层处理第h层级的第五中间样本语音特征向量序列，得到第h层级的第六中间样本语音特征向量序列。根据第h层级的第五中间样本语音特征向量序列和第六中间样本语音特征向量序列，得到第h层级的第七中间样本语音特征向量序列。利用第h层级的卷积层处理第h层级的第七中间样本语音特征向量序列，得到第h层级的第八中间样本语音特征向量序列。根据第h层级的第七中间样本语音特征向量序列和第八中间样本语音特征向量序列，得到第h层级的第九中间样本语音特征向量序列。利用第h层级的第二前向网络层处理第h层级的第九中间样本语音特征向量序列，得到第h层级的第十中间样本语音特征向量序列。根据第h层级的第九中间样本语音特征向量序列和第十中间样本语音特征向量序列，得到第h层级的第十一中间样本语音特征向量序列。根据第K层级的第十一中间样本语音特征向量序列，得到样本语音特征向量序列。K是大于1且小于或等于H的整数。

根据本公开的实施例，第一前向网络层可以包括级联的第二层规范化层、第三线性层、第一激活层、第一随机失活正则化(即Dropout)层、第四线性层和第二随机失活正则化层。

根据本公开的实施例，在训练阶段，多头自注意力层可以包括第一随机失活正则化层和第二随机失活正则化层。随机失活正则化层可以用于提高语音评估模型的泛化能力。

根据本公开的实施例，多头自注意力层可以包括级联的第三层规范化层、具有相对位置嵌入的多头注意力层和第三随机失活正则化层。

根据本公开的实施例，卷积层可以包括级联的第四层规范化层、第二逐点卷积层、第二激活层、第二深度卷积层、第三批规范化层、第三激活层、第三逐点卷积层和第四随机失活正则化层。

根据本公开的实施例，第二前向网络层可以包括级联的第五层规范化层、第五线性层、第四激活层、第五随机失活正则化层、第六线性层和第六随机失活正则化层。

根据本公开的实施例，预定模型还包括解码器。

根据本公开的实施例，上述训练方法还可以包括如下操作。

对样本语音特征向量序列进行处理，得到针对样本语音数据的第二样本评估结果。利用样本真实结果和第二样本评估结果训练编码器，得到训练完成的编码器。

根据本公开的实施例，操作S330可以包括如下操作。

在保持训练完成的编码器的模型参数不变的情况下，利用样本真实结果和第一样本评估结果训练解码器，得到语音评估模型。

根据本公开的实施例，第二样本评估结果可以包括与至少一个样本音素各自对应的第二样本评估准确度。

根据本公开的实施例，可以利用样本真实结果和第二样本评估结果对编码器进行训练，得到训练完成的编码器。在得到训练完成的编码器的基础上，保持训练完成的编码器的模型参数不变，利用样本真实结果和第一样本评估结果训练解码器，得到语音评估模型。

根据本公开的实施例，可以基于损失函数，利用样本真实结果和第二样本评估结果，得到第一输出值。根据第一输出值调整编码器的模型参数，直至满足预定条件。将在满足预定条件的情况下得到的编码器确定为训练完成的编码器。

根据本公开的实施例，可以基于损失函数，利用样本真实结果和第一样本评估结果，得到第二输出值。根据第二输出值调整解码器的模型参数，直至满足预定条件。将在满足预定条件的情况下得到的解码器和编码器确定为语音评估模型。

根据本公开的实施例，利用编码器和解码器的结构来实现语音评估。

根据本公开的实施例，对样本语音特征向量序列进行处理，得到针对样本语音数据的第二样本评估结果，可以包括如下操作。

基于隐马尔可夫算法对样本语音特征向量序列进行处理，得到与至少一个样本音素对应的隐藏状态。确定与至少一个样本音素对应的隐藏状态的出现概率值。根据样本音素时间信息和与至少一个样本音素对应的隐藏状态的出现概率值，确定与至少一个样本音素对应的第二准确度。根据与至少一个样本音素对应的第二样本评估准确度，得到针对样本语音数据的第二样本评估结果。

根据本公开的实施例，与至少一个样本音素对应的隐藏状态可以包括与至少一个样本音素各自对应的隐藏状态。备选地，与至少一个样本音素中的部分样本音素各自对应的隐藏状态。与至少一个样本音素对应的隐藏状态的出现概率值可以包括与至少一个样本音素各自对应的隐藏状态的出现概率值。备选地，与至少一个样本音素对应的隐藏状态的出现概率值可以包括与至少一个样本音素中的部分样本音素各自对应的隐藏状态的出现概率值。与至少一个样本音素对应的第二准确度可以包括与至少一个样本音素各自对应的第二准确度。备选地，与至少一个样本音素中的部分样本音素各自对应的第二准确度。

根据本公开的实施例，解码器包括第一评估模块。第一评估模块包括第一注意力层和第一线性层。

根据本公开的实施例，第一样本音素向量序列包括与至少一个样本音素对应的第一样本音素向量。

根据本公开的实施例，操作S320可以包括如下操作。

基于第一注意力层和样本音素时间信息，对样本语音特征向量序列和第一样本音素向量序列进行处理，得到第二样本音素向量序列。第二样本音素向量序列包括与至少一个样本音素对应的第二样本音素向量。利用第一线性层处理第二样本音素向量序列，得到针对样本语音数据的第三样本评估结果。将第三样本评估结果确定为针对样本语音数据的第一样本评估结果。

根据本公开的实施例，第三样本评估结果可以包括与至少一个样本音素对应的第三样本评估准确度。例如，第三样本评估结果可以包括与至少一个样本音素各自对应的第三样本评估准确度。备选地，第三样本评估结果可以包括与至少一个样本音素中的部分样本音素各自对应的第三样本评估准确度。第一样本音素向量序列可以包括与至少一个样本音素各自对应的第一样本音素向量。备选地，第一样本音素向量序列可以包括与至少一个样本音素中的部分样本音素各自对应的第一样本音素向量。第二样本音素向量序列可以包括与至少一个样本音素各自对应的第二样本音素向量。备选地，第二样本音素向量序列可以包括与至少一个样本音素中的部分样本音素各自对应的第二样本音素向量。

根据本公开的实施例，基于第一注意力层和样本音素时间信息，对样本语音特征向量序列和第一样本音素向量序列进行处理，得到第二样本音素向量序列，可以包括如下操作。

根据样本音素时间信息，确定与至少一个样本音素对应的样本语音特征向量。基于第一注意力层和样本音素时间信息，对样本语音特征向量序列和第一样本音素向量序列进行处理，得到第二样本音素向量序列。

根据本公开的实施例，与至少一个样本音素对应的样本语音特征向量可以包括与至少一个样本音素各自对应的样本语音特征向量。备选地，与至少一个样本音素中的部分样本音素各自对应的样本语音特征向量。

根据本公开的实施例，解码器还包括第二评估模块，第二评估模块包括循环神经网络层、第二注意力层和第二线性层。

根据本公开的实施例，上述训练方法还可以包括如下操作。

利用循环神经网络层处理第二样本音素向量序列，得到第三样本音素向量序列。第三样本音素向量序列包括与至少一个样本音素对应的第三样本音素向量。利用第二注意力层处理样本语音特征向量和第三样本音素向量序列，得到第四样本音素向量序列。第四样本音素向量序列包括与至少一个样本音素对应的第四样本音素向量。利用第二线性层处理第四样本音素向量序列，得到针对样本语音数据的第四样本评估结果。

根据本公开的实施例，第三样本音素向量序列可以包括与至少一个样本音素各自对应的第三样本音素向量。备选地，第三样本音素向量序列可以包括与至少一个样本音素中的部分样本音素各自对应的第三样本音素向量。第四样本音素向量序列可以包括与至少一个样本音素各自对应的第四样本音素向量。备选地，第四样本音素向量序列还可以包括与至少一个样本音素中的部分样本音素各自对应的第四样本音素向量。第四样本评估结果可以包括与至少一个样本音素各自对应的第四样本评估准确度。备选地，第四样本评估结果可以包括与至少一个样本音素中的部分样本音素各自对应的第四样本评估准确度。

根据本公开的实施例，利用第二线性层处理第四样本音素向量序列，得到针对样本语音数据的第四样本评估结果，可以包括如下操作。

利用第二线性层处理第四样本音素向量序列，得到与至少一个样本音素对应的预测样本概率值。确定预期样本概率值。预期样本概率值是与至少一个样本音素对应的预测样本概率值中满足预定条件的预测样本概率值。根据预期样本概率值和与至少一个样本音素对应的预测样本概率值，确定与至少一个样本音素对应的第四样本评估准确度。根据与至少一个样本音素对应的第四样本评估准确度，得到针对样本语音数据的第四样本评估结果。

根据本公开的实施例，与至少一个样本音素对应的预测样本概率值包括与至少一个样本音素各自对应的预测样本概率值。备选地，与至少一个样本音素对应的预测样本概率值包括与至少一个样本音素中的部分样本音素各自对应的预测样本概率值。

根据本公开的实施例，将第三样本评估结果确定为针对样本语音数据的第一样本评估结果，可以包括如下操作。

根据第三样本评估结果和第四样本评估结果，得到针对样本语音数据的第一样本评估结果。

根据本公开的实施例，上述训练方法还可以包括如下操作。

基于启发式搜索算法，利用与至少一个样本音素对应的预测样本概率值，得到预测样本音素序列。根据真实样本音素序列和预测样本音素序列，得到针对样本语音数据的第五样本评估结果。

根据本公开的实施例，第五样本评估结果可以包括与至少一个样本音素对应的第五样本评估准确度。备选地，第五样本评估结果可以包与至少一个样本音素中的部分样本音素各自对应的第五样本评估准确度。

根据本公开的实施例，根据第三样本评估结果和第四样本评估结果，得到针对样本语音数据的第一样本评估结果，可以包括如下操作。

根据第三样本评估结果、第四样本评估结果和第五样本评估结果，得到针对样本语音数据的第一样本评估结果。

下面参考图4A、图4B、图4C和图4D，结合具体实施例对根据本公开实施例所述的方法做进一步说明。

图4A示意性示出了根据本公开实施例的语音评估过程的示例示意图。

如图4A所示，在400A中，利用编码器402处理待评估语音数据401，得到语音特征向量序列403和音素时间信息404。基于隐马尔可夫算法对语音特征向量序列403进行处理，得到与至少一个音素各自对应的隐藏状态。确定与至少一个音素各自对应的隐藏状态的出现概率值405。根据音素时间信息404和与至少一个音素各自对应的隐藏状态的出现概率值405，确定与至少一个音素各自对应的第二准确度406。根据与至少一个音素各自对应的第二准确度406，得到针对待评估语音数据的第五评估结果407。

对音素序列408进行编码处理，得到第一音素向量序列409。利用解码器410处理第一音素向量序列409和语音特征向量序列403得到的结果结合音素时间信息404，得到与至少一个音素各自对应的第三准确度411，根据与至少一个音素各自对应的第三准确度411，得到针对待评估语音数据401的第二评估结果412。

对利用解码器410处理第一音素向量序列409和语音特征向量序列403得到的结果进行处理，得到与至少一个音素各自对应的第一准确度413。根据与至少一个音素各自对应的第一准确度413，得到针对待评估语音数据401的第三评估结果414。

对利用解码器410处理第一音素向量序列409和语音特征向量序列403得到的结果进行处理，得到预测音素序列415。根据预测音素序列415和真实音素序列，得到针对待评估语音数据401的第四评估结果416。

图4B示意性示出了根据本公开实施例的编码器的结构的示例性示意图。

如图4B所示，在400B中，图4A中的编码器402包括卷积神经网络模块4020和双体基网模块4021。卷积神经网络模块4020包括D个级联的卷积神经网络单元，即，卷积神经网络单元4020-1至卷积神经网络单元4020-D。D是大于或等于1的整数。双体基网模块4021包括H个级联的双体基网单元，即，双体基网单元4021-1至双体基网单元4021-H。H是大于或等于1的整数。

以卷积神经网络单元4020-1为例对卷积神经网络单元进行说明。卷积神经网络单元4020-1包括级联的第一深度卷积层4020-10、第一批规范化层4020-11、第一逐点卷积层4020-12和第二批规范化层4020-13。

以双体基网单元4021-1为例对双体基网单元进行说明。双体基网单元4021-1包括级联的第一前向网络层4021-10、多头自注意力层4021-11、卷积层4021-12、第二前向网络层4021-13和第一层规范化层4021-14。

图4C示意性示出了根据本公开实施例的解码器的结构的示例性示意图。

如图4C所示，在图400C中，图4A中的解码器410包括第一评估模块4100和第二评估模块4101。

第一评估模块4100包括第三线性层4100-1、第一注意力层4100-2和第一线性层4100-3。第二评估模块4101包括第一循环神经网络层4101-1、第二注意层4101-2、第二循环神经网络层4101-3和第二线程层4101-4。

图4D示意性示出了根据本公开另一实施例的语音评估过程的示例示意性图。

如图4D所示，在400D中，针对第五评估结果407，利用级联的卷积神经网络模块4020和双体基网模块4021处理待评估语音数据401，得到语音特征向量序列403。基于隐马尔可夫算法对语音特征向量序列403进行处理，得到与至少一个音素各自对应的隐藏状态。确定与至少一个音素各自对应的隐藏状态的出现概率值。

基于强制对齐算法417对语音而在向量序列403进行处理，得到音素时间信息404，即，根据至少一个隐藏状态之间的状态转移率值和与至少一个音素各自对应的隐藏状态的出现概率值，从至少一个候选隐藏状态转移路径中确定目标隐藏状态转移路径。根据目标隐藏状态转移路径，确定音素时间信息404。

根据音素时间信息404和对语音特征向量序列403进行处理得到的与至少一个音素各自对应的隐藏状态的出现概率值，确定与至少一个音素各自对应的第二准确度406。根据与至少一个音素各自对应的第二准确度406，得到针对待评估语音数据的第五评估结果407。

针对第二评估结果412，利用第三线性层4100-1处理第一音素向量序列409，得到第五音素向量序列。第五音素向量序列包括至少一个第五音素向量。利用第一注意层处理4100-2处理与至少一个音素各自对应的第五音素向量和语音特征向量，得到第二音素向量序列。利用第一线性层4100-3处理第二音素向量序列，得到与至少一个音素各自对应的第三准确度411。根据与至少一个音素各自对应的第三准确度411确定针对待评估语音数据的第二评估结果412。

针对第三评估结果414，利用第一循环神经网络层4101-1处理第二音素向量序列，得到第三音素向量序列。利用第二注意层4101-2处理语音特征向量序列403和第三音素向量序列，得到第四音素向量序列。利用第二循环神经网络层4101-3处理第四音素向量序列，得到第六音素向量序列。第六音素向量序列可以包括与至少一个音素各自对应的第六音素向量。利用第二线性层4101-4处理第六样本音素向量序列，得到与至少一个音素各自对应的预测概率值。确定预期概率值。根据预期概率值和与至少一个音素各自对应的预测概率值，确定与至少一个音素各自对应的第一准确度413。根据与至少一个音素各自对应的第一准确度413，得到针对待评估语音数据的第三评估结果414。

针对第四评估结果416，基于启发式搜索算法，利用与至少一个音素各自对应的预测概率值，得到预测音素序列415。根据真实音素序列和预测音素序列415，得到针对待评估语音数据的第四评估结果416。

以上仅是示例性实施例，但不限于此，还可以包括本领域已知的其他语音评估方法和训练方法，只要能够提高评估结果的准确性即可。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

图5示意性示出了根据本公开实施例的语音评估装置的框图。

如图5所示，语音评估装置500可以包括第一获得模块510和第二获得模块520。

第一获得模块510，用于对待评估语音数据进行特征提取，得到语音特征向量序列。语音特征向量序列包括值至少一个语音特征向量，语音特征向量用于表征全局特征和局部特征的特征向量。

第二获得模块520，对语音特征向量序列和第一音素向量序列进行处理，得到针对待评估语音数据的第一评估结果。第一评估结果用于表征待评估语音数据的音素准确度，第一音素向量序列是对音素序列进行编码得到的，音素序列与待评估语音数据相对应。

根据本公开的实施例，第二获得模块520可以包括第一获得子模块、第二获得子模块和第一确定子模块。

第一获得子模块，用于基于第一注意力策略和音素时间信息，对语音特征向量序列和第一音素向量序列进行处理，得到第二音素向量序列。第二音素向量序列包括与至少一个音素对应的第二音素向量。

第二获得子模块，用于对第二音素向量序列进行处理，得到针对待评估语音数据的第二评估结果。

第一确定子模块，用于将第二评估结果确定为针对待评估语音数据的第一评估结果。

根据本公开的实施例，第一获得子模块可以包括第一确定单元和第一获得单元。

第一确定单元，用于根据音素时间信息，确定与至少一个音素对应的语音特征向量。

第一获得单元，用于基于第一注意力策略，对与至少一个音素对应的第一音素向量和语音特征向量进行处理，得到第二音素向量序列。

根据本公开的实施例，上述语音评估装置500还可以包括第六获得模块。

第六获得模块，用于对语音特征向量序列和第二音素向量序列进行处理，得到针对待评估语音数据的第三评估结果。

根据本公开的实施例，第一确定子模块可以包括第二获得单元。

第二获得单元，用于根据第二评估结果和第三评估结果，得到针对待评估语音数据的第一评估结果。

根据本公开的实施例，第六获得模块可以包括第三获得子模块、第四获得子模块和第五获得子模块。

第三获得子模块，用于对第二音素向量序列进行时序处理，得到第三音素向量序列。第三音素向量序列包括与至少一个音素对应的第三音素向量。

第四获得子模块，用于基于第二注意力策略，对语音特征向量序列和第三音素向量序列进行处理，得到第四音素向量序列。

第五获得子模块，用于对第四音素向量进行处理，得到针对待评估语音数据的第三评估结果。

根据本公开的实施例，第五获得子模块可以包括第三获得单元、第二确定单元、第三确定单元和第四获得单元。

第三获得单元，用于对第四音素向量序列进行处理，得到与至少一个音素对应的预测概率值。

第二确定单元，用于确定预期概率值。预期概率值是与至少一个音素对应的预测概率值中满足预定条件的预测概率值。

第三确定单元，用于根据预期概率值和与至少一个音素对应的预测概率值，确定与至少一个音素对应的第一准确度。

第四获得单元，用于根据与至少一个音素对应的第一准确度，得到针对待评估语音数据的第三评估结果。

根据本公开的实施例，上述语音评估装置500可以包括第七获得模块和第八获得模块。

第七获得模块，用于基于启发式搜索算法，利用与至少一个音素对应的预测概率值，得到预测音素序列。

第八获得模块，用于根据真实音素序列和预测音素序列，得到针对待评估语音数据的第四评估结果。

根据本公开的实施例，第二获得单元可以包括第一获得子单元。

第一获得子单元，用于根据第二评估结果、第三评估结果和第四评估结果，得到针对待评估语音数据的第一评估结果。

根据本公开的实施例，上述语音评估装置500还可以包括第九获得模块、第一确定模块、第二确定模块、第十获得模块和第十一获得模块。

第九获得模块，用于基于隐马尔可夫算法对语音特征向量序列进行处理，得到与至少一个音素对应的隐藏状态。

第一确定模块，用于确定与至少一个音素对应的隐藏状态的出现概率值。

第二确定模块，用于根据音素时间信息和与至少一个音素对应的隐藏状态的出现概率值，确定与至少一个音素对应的第二准确度。

第十获得模块，用于根据与至少一个音素对应的第二准确度，得到针对待评估语音数据的第五评估结果。

第十一获得模块，用于根据第一评估结果和第五评估结果，得到针对待评估语音数据的评估结果。

根据本公开的实施例，第一获得模块510可以包括第六获得子模块和第七获得子模块。

第六获得子模块，用于对待评估语音数据进行特征提取，得到声学特征序列。

第七获得子模块，用于对声学特征序列进行特征提取，得到语音特征向量序列。

根据本公开的实施例，第六获得子模块可以包括第六获得单元。

第六获得单元，用于利用编码器处理声学特征序列，得到语音特征向量序列。

根据本公开的实施例，第六获得单元可以包括第二获得子单元和第三获得子单元。

第二获得子单元，用于利用卷积神经网络模块处理声学特征序列，得到第一中间语音特征向量序列。

第三获得子单元，用于利用双体基网模块处理第一中间语音特征向量序列，得到语音特征向量序列。

根据本公开的实施例，第二获得子单元可以用于：在D＝1的情况下，利用第1层级的第一深度卷积层处理声学特征序列，得到第1层级的第二中间语音特征向量序列。利用第1层级的第一逐点卷积层处理第1层级的第二中间语音特征向量序列，得到第1层级的第三中间语音特征向量序列。根据第1层级的第三中间语音特征向量序列，得到第一中间语音特征向量序列。

在D＞1且d＞1的情况下，利用第d层级的第一深度卷积层处理第(d-1)层级的第三中间语音特征向量序列，得到第d层级的第二中间语音特征向量序列。利用第d层级的第一逐点卷积层处理第d层级的第二中间特征向量序列，得到第d层级的第三中间语音特征向量序列。根据第E层级的第三中间语音特征向量序列，得到第一中间语音特征向量序列。E是大于1且小于或等于D的整数。

根据本公开的实施例，双体基网模块包括H个级联的双体基网单元，双体基网单元包括第一前向网络层、多头自注意力层、卷积层和第二前向网络层，H是大于或等于1的整数。

根据本公开的实施例，第三获得子单元可以用于：在H＞1且h＞1的情况下，利用第h层级的第一前向网络层处理第(h-1)层级的第十一中间语音特征向量序列，得到第h层级的第四中间语音特征向量序列。根据第(h-1)层级的第十一中间语音特征向量序列和第h层级的第四中间语音特征向量序列，得到第h层级的第五中间语音特征向量序列。利用第h层级的多头自注意力层处理第h层级的第五中间语音特征向量序列，得到第h层级的第六中间语音特征向量序列。根据第h层级的第五中间语音特征向量序列和第六中间语音特征向量序列，得到第h层级的第七中间语音特征向量序列。利用第h层级的卷积层处理第h层级的第七中间语音特征向量序列，得到第h层级的第八中间语音特征向量序列。根据第h层级的第七中间语音特征向量序列和第八中间语音特征向量序列，得到第h层级的第九中间语音特征向量序列。利用第h层级的第二前向网络层处理第h层级的第九中间语音特征向量序列，得到第h层级的第十中间语音特征向量序列。根据第h层级的第九中间语音特征向量序列和第十中间语音特征向量序列，得到第h层级的第十一中间语音特征向量序列。根据第K层级的第十一中间语音特征向量序列，得到语音特征向量序列。K是大于1且小于或等于H的整数。

图6示意性示出了根据本公开实施例的训练装置的框图。

如图6所示，训练装置600还可以包括第三获得模块610、第四获得模块620和第五获得模块630。

第三获得模块610，用于对样本语音数据进行特征提取，得到样本语音特征向量序列。样本语音特征向量序列包括至少一个样本语音特征向量，样本语音特征向量用于表征全局特征和局部特征的特征向量。

第四获得模块620，用于对样本语音特征向量序列和第一样本音素向量序列进行处理，得到针对样本语音数据的第一样本评估结果。样本评估结果用于表征样本语音数据的音素准确度，第一样本音素向量序列是对样本音素序列进行编码得到的，第一样本音素序列与样本语音数据相对应。

第五获得模块630，用于利用样本真实结果和第一样本评估结果训练预定模型，得到语音评估模型。

根据本公开的实施例，第三获得模块410可以包括第八获得子模块和第九获得子模块。

第八获得子模块，用于对样本语音数据进行特征提取，得到样本声学特征序列。

第九获得子模块，用于对样本声学特征序列进行特征提取，得到样本语音特征向量序列。

根据本公开的实施例，预定模型包括编码器。

根据本公开的实施例，第九获得子模块可以包括第七获得单元。

第七获得单元，用于利用所述编码器处理所述样本声学特征序列，得到所述样本语音特征向量序列。

根据本公开的实施例，预定模型还包括解码器。

根据本公开的实施例，上述训练装置600还可以包括第十二获得模块和第十三获得模块。

第十二获得模块，用于对样本语音特征向量序列进行处理，得到针对样本语音数据的第二样本评估结果。

第十三获得模块，用于利用样本真实结果和第二样本评估结果训练编码器，得到训练完成的编码器；

根据本公开的实施例，第五获得模块630可以包括第十获得子模块。

第十获得子模块，用于在保持训练完成的编码器的模型参数不变的情况下，利用样本真实结果和第一样本评估结果训练解码器，得到语音评估模型。

根据本公开的实施例，解码器包括第一评估模块，第一评估模块包括第一注意力层和第一线性层。

根据本公开的实施例，第四获得模块620可以包括第十一获得子模块、第十二获得子模块和第二确定子模块。

第十一获得子模块，用于基于第一注意力层和第一样本音素时间信息，对样本语音特征向量序列和第一样本音素向量序列进行处理，得到第二样本音素向量序列。第二样本音素向量序列包括与至少一个样本音素对应的第二样本音素向量。

第十二获得子模块，用一个利用第一线性层处理第二样本音素向量序列，得到针对样本语音数据的第二样本评估结果。

第二确定子模块，用于将第二样本评估结果确定为针对样本语音数据的第一样本评估结果。

根据本公开的实施例，上述语音评估装置600还可以包括第十四获得模块、第十五获得模块和第十六获得模块。

第十四获得模块，用于利用循环神经网络层处理第二样本音素向量序列，得到第三样本音素向量序列。第三样本音素向量序列包括与至少一个样本音素对应的第三样本音素向量。

第十五获得模块，用于利用第二注意力层处理样本语音特征向量和第三样本音素向量序列，得到第四样本音素向量序列。第四样本音素向量序列包括与至少一个样本音素对应的第四样本音素向量。

第十六获得模块，用于利用第二线性层处理第四样本音素向量序列，得到针对样本语音数据的第三样本评估结果。

根据本公开的实施例，第二确定子模块可以包括第七获得单元。

第七获得单元，用于根据第二样本评估结果和第三样本评估结果，得到针对样本语音数据的第一样本评估结果。

根据本公开的实施例，上述训练装置600还可以包括第十七获得模块和第十八获得模块。

第十七获得模块，用于基于启发式搜索算法，利用与至少一个样本音素对应的预测样本概率值，得到预测样本音素序列。

第十八获得模块，用于根据真实样本音素序列和预测样本音素序列，得到针对样本语音数据的第四样本评估结果。

根据本公开的实施例，第七获得单元可以包括第四获得子单元。

第四获得子单元，用于根据第二样本评估结果、第三样本评估结果和第四样本评估结果，得到针对样本语音数据的第一样本评估结果。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上所述的方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上所述的方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上所述的方法。

图7示意性示出了根据本公开实施例的适于实现语音评估方法和训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，电子设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储电子设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

电子设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如语音评估方法和训练方法。例如，在一些实施例中，语音评估方法和训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的语音评估方法和训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音评估方法和训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语音评估方法，包括：

对待评估语音数据进行特征提取，得到语音特征向量序列，其中，所述语音特征向量序列包括至少一个语音特征向量，所述语音特征向量用于表征全局特征和局部特征的特征向量；以及

对所述语音特征向量序列和第一音素向量序列进行处理，得到针对所述待评估语音数据的第一评估结果，其中，所述第一评估结果用于表征所述待评估语音数据的音素准确度，所述第一音素向量序列是对音素序列进行编码得到的，所述音素序列与所述待评估语音数据相对应。

2.根据权利要求1所述的方法，其中，所述第一音素向量序列包括与至少一个音素对应的第一音素向量；

其中，所述对所述语音特征向量序列和第一音素向量序列进行处理，得到针对所述待评估语音数据的第一评估结果，包括：

基于第一注意力策略和音素时间信息，对所述语音特征向量序列和所述第一音素向量序列进行处理，得到第二音素向量序列，其中，所述第二音素向量序列包括与所述至少一个音素对应的第二音素向量；

对所述第二音素向量序列进行处理，得到针对所述待评估语音数据的第二评估结果；以及

将所述第二评估结果确定为针对所述待评估语音数据的第一评估结果。

3.根据权利要求2所述的方法，其中，所述基于第一注意力策略和音素时间信息，对所述语音特征向量序列和所述第一音素向量序列进行处理，得到第二音素向量序列，包括：

根据所述音素时间信息，确定与所述至少一个音素对应的语音特征向量；以及

基于所述第一注意力策略，对与所述至少一个音素对应的第一音素向量和语音特征向量进行处理，得到所述第二音素向量序列。

4.根据权利要求2或3所述的方法，还包括：

对所述语音特征向量序列和所述第二音素向量序列进行处理，得到针对所述待评估语音数据的第三评估结果；

其中，所述将第二评估结果确定为针对所述待评估语音数据的第一评估结果，包括：

根据所述第二评估结果和所述第三评估结果，得到针对所述待评估语音数据的第一评估结果。

5.根据权利要求4所述的方法，其中，所述对所述语音特征向量序列和所述第二音素向量序列进行处理，得到针对所述待评估语音数据的第三评估结果，包括：

对所述第二音素向量序列进行时序处理，得到第三音素向量序列，其中，所述第三音素向量序列包括与所述至少一个音素对应的第三音素向量；

基于第二注意力策略，对所述语音特征向量序列和所述第三音素向量序列进行处理，得到第四音素向量序列；以及

对所述第四音素向量进行处理，得到针对所述待评估语音数据的第三评估结果。

6.根据权利要求5所述的方法，其中，所述对所述第四音素向量进行处理，得到针对所述待评估语音数据的第三评估结果，包括：

对所述第四音素向量序列进行处理，得到与所述至少一个音素对应的预测概率值；

确定预期概率值，其中，所述预期概率值是与所述至少一个音素对应的预测概率值中满足预定条件的预测概率值；

根据所述预期概率值和与所述至少一个音素对应的预测概率值，确定与所述至少一个音素对应的第一准确度；以及

根据与所述至少一个音素对应的第一准确度，得到针对所述待评估语音数据的第三评估结果。

7.根据权利要求6所述的方法，还包括：

基于启发式搜索算法，利用与所述至少一个音素对应的预测概率值，得到预测音素序列；以及

根据真实音素序列和所述预测音素序列，得到针对所述待评估语音数据的第四评估结果；

其中，所述根据所述第二评估结果和所述第三评估结果，得到针对所述待评估语音数据的第一评估结果，包括：

根据所述第二评估结果、所述第三评估结果和所述第四评估结果，得到针对所述待评估语音数据的第一评估结果。

8.根据权利要求1～3中任一项所述的方法，还包括：

基于隐马尔可夫算法对所述语音特征向量序列进行处理，得到与所述至少一个音素对应的隐藏状态；

确定与所述至少一个音素对应的隐藏状态的出现概率值；

根据音素时间信息和与所述至少一个音素对应的隐藏状态的出现概率值，确定与所述至少一个音素对应的第二准确度；

根据与所述至少一个音素对应的第二准确度，得到针对所述待评估语音数据的第五评估结果；以及

根据所述第一评估结果和所述第五评估结果，得到针对所述待评估语音数据的评估结果。

9.根据权利要求1～8中任一项所述的方法，其中，所述对待评估语音数据进行特征提取，得到语音特征向量序列，包括：

对所述待评估语音数据进行特征提取，得到声学特征序列；以及

对所述声学特征序列进行特征提取，得到所述语音特征向量序列。

10.根据权利要求9所述的方法，其中，所述对所述声学特征序列进行特征提取，得到所述语音特征向量序列，包括：

利用编码器处理所述声学特征序列，得到所述语音特征向量序列。

11.根据权利要求10所述的方法，其中，所述编码器包括级联的卷积神经网络模块和双体基网模块；

其中，所述利用编码器处理所述声学特征序列，得到所述语音特征向量序列，包括：

利用所述卷积神经网络模块处理所述声学特征序列，得到第一中间语音特征向量序列；以及

利用所述双体基网模块处理所述第一中间语音特征向量序列，得到所述语音特征向量序列。

12.根据权利要求11所述的方法，其中，所述卷积神经网络模块包括D个级联的卷积神经网络单元，所述卷积神经网络单元包括第一深度卷积层和第一逐点卷积层，D是大于或等于1的整数；

其中，所述利用所述卷积神经网络模块处理所述声学特征序列，得到第一中间语音特征向量序列，包括：

在D＝1的情况下，利用第1层级的第一深度卷积层处理所述声学特征序列，得到第1层级的第二中间语音特征向量序列；

利用第1层级的第一逐点卷积层处理所述第1层级的第二中间语音特征向量序列，得到第1层级的第三中间语音特征向量序列；以及

根据所述第1层级的第三中间语音特征向量序列，得到所述第一中间语音特征向量序列；

在D＞1且d＞1的情况下，利用第d层级的第一深度卷积层处理第(d-1)层级的第三中间语音特征向量序列，得到所述第d层级的第二中间语音特征向量序列；

利用第d层级的第一逐点卷积层处理所述第d层级的第二中间特征向量序列，得到所述第d层级的第三中间语音特征向量序列；以及

根据所述第E层级的第三中间语音特征向量序列，得到所述第一中间语音特征向量序列，其中，E是大于1且小于或等于D的整数。

13.根据权利要求11或12所述的方法，其中，所述双体基网模块包括H个级联的双体基网单元，所述双体基网单元包括第一前向网络层、多头自注意力层、卷积层和第二前向网络层，H是大于或等于1的整数；

其中，所述利用所述双体基网模块处理所述第一中间语音特征向量序列，得到所述语音特征向量序列，包括：

在H＞1且h＞1的情况下，利用第h层级的第一前向网络层处理第(h-1)层级的第十一中间语音特征向量序列，得到第h层级的第四中间语音特征向量序列；

根据所述第(h-1)层级的第十一中间语音特征向量序列和所述第h层级的第四中间语音特征向量序列，得到第h层级的第五中间语音特征向量序列；

利用第h层级的多头自注意力层处理所述第h层级的第五中间语音特征向量序列，得到第h层级的第六中间语音特征向量序列；

根据所述第h层级的第五中间语音特征向量序列和第六中间语音特征向量序列，得到第h层级的第七中间语音特征向量序列；

利用第h层级的卷积层处理所述第h层级的第七中间语音特征向量序列，得到第h层级的第八中间语音特征向量序列；

根据所述第h层级的第七中间语音特征向量序列和第八中间语音特征向量序列，得到第h层级的第九中间语音特征向量序列；

利用第h层级的第二前向网络层处理所述第h层级的第九中间语音特征向量序列，得到第h层级的第十中间语音特征向量序列；

根据所述第h层级的第九中间语音特征向量序列和第十中间语音特征向量序列，得到第h层级的第十一中间语音特征向量序列；以及

根据第K层级的第十一中间语音特征向量序列，得到所述语音特征向量序列，其中，K是大于1且小于或等于H的整数。

14.一种训练方法，包括：

对样本语音数据进行特征提取，得到样本语音特征向量序列，其中，所述样本语音特征向量序列包括至少一个样本语音特征向量，所述样本语音特征向量用于表征全局特征和局部特征的特征向量；

对所述样本语音特征向量序列和第一样本音素向量序列进行处理，得到针对所述样本语音数据的第一样本评估结果，其中，所述样本评估结果用于表征所述样本语音数据的音素准确度，所述第一样本音素向量序列是对样本音素序列进行编码得到的，所述第一样本音素序列与所述样本语音数据相对应；以及

利用样本真实结果和所述第一样本评估结果训练预定模型，得到语音评估模型。

15.根据权利要求14所述的方法，其中，所述对样本语音数据进行特征提取，得到样本语音特征向量序列，包括：

对所述样本语音数据进行特征提取，得到样本声学特征序列；以及

对所述样本声学特征序列进行特征提取，得到所述样本语音特征向量序列。

16.根据权利要求15所述的方法，其中，所述预定模型包括编码器；

其中，所述对所述样本声学特征序列进行特征提取，得到所述样本语音特征向量序列，包括：

利用所述编码器处理所述样本声学特征序列，得到所述样本语音特征向量序列。

17.根据权利要求16所述的方法，其中，所述编码器包括级联的卷积神经网络模块和双体基网模块；

其中，所述卷积神经网络模块包括D个级联的卷积神经网络单元，所述卷积神经网络单元包括第一深度卷积层和第一逐点卷积层，D是大于或等于1的整数；

其中，所述双体基网单元包括H个级联的双体基网单元，所述双体基网单元包括第一前向网络层、多头自注意力层、卷积层和第二前向网络层，H是大于或等于1的整数。

18.根据权利要求16或17所述的方法，其中，所述预定模型还包括解码器；

其中，所述方法还包括：

对所述样本语音特征向量序列进行处理，得到针对所述样本语音数据的第二样本评估结果；以及

利用所述样本真实结果和所述第二样本评估结果训练所述编码器，得到训练完成的编码器；

其中，所述利用样本真实结果和所述第一样本评估结果训练预定模型，得到语音评估模型，包括：

在保持所述训练完成的编码器的模型参数不变的情况下，利用所述样本真实结果和所述第一样本评估结果训练所述解码器，得到所述语音评估模型。

19.根据权利要求18所述的方法，其中，所述解码器包括第一评估模块，所述第一评估模块包括第一注意力层和第一线性层；

其中，所述所述第一样本音素向量序列包括与至少一个样本音素对应的第一样本音素向量；

其中，所述对所述样本语音特征向量序列和第一样本音素向量序列进行处理，得到针对所述样本语音数据的第一样本评估结果，包括：

基于所述第一注意力层和第一样本音素时间信息，对所述样本语音特征向量序列和所述第一样本音素向量序列进行处理，得到第二样本音素向量序列，其中，所述第二样本音素向量序列包括与所述至少一个样本音素对应的第二样本音素向量；

利用所述第一线性层处理所述所述第二样本音素向量序列，得到针对所述样本语音数据的第三样本评估结果；以及

将所述第三样本评估结果确定为针对所述样本语音数据的第一样本评估结果。

20.根据权利要求19所述的方法，其中，所述解码器还包括第二评估模块，所述第二评估模块包括循环神经网络层、第二注意力层和第二线性层；

其中，所述方法还包括：

利用所述循环神经网络层处理所述第二样本音素向量序列，得到第三样本音素向量序列，其中，所述第三样本音素向量序列包括与所述至少一个样本音素对应的第三样本音素向量；

利用所述第二注意力层处理所述样本语音特征向量和所述第三样本音素向量序列，得到第四样本音素向量序列，其中，所述第四样本音素向量序列包括与所述至少一个样本音素对应的第四样本音素向量；以及

利用所述第二线性层处理所述第四样本音素向量序列，得到针对所述样本数据的第四样本评估结果；

其中，所述将所述第三样本评估结果确定为针对所述样本语音数据的第一样本评估结果，包括：

根据所述第三样本评估结果和所述第四样本评估结果，得到针对所述样本语音数据的第一样本评估结果。

21.根据权利要求20所述的方法，还包括：

基于启发式搜索算法，利用与所述至少一个样本音素对应的预测样本概率值，得到预测样本音素序列；以及

根据真实样本音素序列和所述预测样本音素序列，得到针对所述样本语音数据的第五样本评估结果；

其中，所述根据所述第三样本评估结果和所述第四样本评估结果，得到针对所述样本语音数据的第一样本评估结果，包括：

根据所述第三样本评估结果、所述第四样本评估结果和所述第五样本评估结果，得到针对所述样本语音数据的第一样本评估结果。

22.一种语音评估装置，包括：

第一获得模块，用于对待评估语音数据进行特征提取，得到语音特征向量序列，其中，所述语音特征向量序列包括至少一个语音特征向量，所述语音特征向量用于表征全局特征和局部特征的特征向量；以及

第二获得模块，用于对所述语音特征向量序列和第一音素向量序列进行处理，得到针对所述待评估语音数据的第一评估结果，其中，所述第一评估结果用于表征所述待评估语音数据的音素准确度，所述第一音素向量序列是对音素序列进行编码得到的，所述音素序列与所述待评估语音数据相对应。

23.一种训练装置，包括：

第三获得模块，用于对样本语音数据进行特征提取，得到样本语音特征向量序列，其中，所述样本语音特征向量序列包括至少一个样本语音特征向量，所述样本语音特征向量是用于表征全局特征和局部特征的特征向量；

第四获得模块，用于对所述样本语音特征向量序列和第一样本音素向量序列进行处理，得到针对所述样本语音数据的第一样本评估结果，其中，所述样本评估结果用于表征所述样本语音数据的音素准确度，所述第一样本音素向量序列是对样本音素序列进行编码得到的，所述第一样本音素序列与所述样本语音数据相对应；以及

第五获得模块，用于利用样本真实结果和所述第一样本评估结果训练预定模型，得到语音评估模型。

24.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～13中任一项或权利要求14～21中任一项所述的方法。

25.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～13中任一项或权利要求14～21中任一项所述的方法。

26.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1～13中任一项或权利要求14～21中任一项所述的方法。