CN113421593A

CN113421593A - 语音测评方法、装置、计算机设备和存储介质

Info

Publication number: CN113421593A
Application number: CN202011338974.2A
Authority: CN
Inventors: 林炳怀; 王丽园
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-09-21

Abstract

本申请涉及人工智能领域，具体涉及一种语音测评方法、装置、计算机设备和存储介质。所述方法包括：获取待测评语音以及与待测评语音对应的参考文本；分别对待测评语音以及参考文本进行编码处理，得到对应的语音编码向量序列和文本编码向量序列；文本编码向量序列中的文本编码向量与参考文本中的词对应；针对文本编码向量序列中的每个文本编码向量，分别确定与语音编码向量序列中的每个语音编码向量之间的匹配程度；根据匹配程度，确定每个文本编码向量所对应词的融合声学特征；基于参考文本中词的融合声学特征，确定待测评语音的测评分值。采用本方法能够提升语音测评的通用性。

Description

语音测评方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种语音测评方法、装置、计算机设备和存储介质。

背景技术

目前，一些语言教学类应用程序能够对用户的口语发音进行评测，以帮助用户提高口语发音。语音测评一般分为两个步骤：1、将待测评语音进行短时傅里叶变换，进而转换为相应的语谱图，然后基于音频的工程特性，从语谱图提取多种语音特征向量，如发音置信度、发音速度、发音时长等。2、将提取得到的多种语音特征向量输入至评测模块，得到对应的语音测评分数。

然而，现有的语音测评方法，需要开发人员具备音频方面的专业知识，才能确定从语谱图提取哪些信息作为语音特征向量，从而导致语音测评方法不具有通用性。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升通用性的语音测评方法、装置、计算机设备和存储介质。

一种语音测评方法，所述方法包括：

获取待测评语音以及与所述待测评语音对应的参考文本；

分别对所述待测评语音以及所述参考文本进行编码处理，得到对应的语音编码向量序列和文本编码向量序列；所述文本编码向量序列中的文本编码向量与所述参考文本中的词对应；

针对所述文本编码向量序列中的每个文本编码向量，分别确定与所述语音编码向量序列中的每个语音编码向量之间的匹配程度；

根据所述匹配程度，确定每个所述文本编码向量所对应词的融合声学特征；

基于所述参考文本中词的所述融合声学特征，确定所述待测评语音的测评分值。

在一个实施例中，所述对所述待测评语音以及所述参考文本进行编码处理，得到对应的语音编码向量序列和文本编码向量序列，包括：

通过语音测评模型中的语音编码结构，对所述待测评语音进行语音编码，得到对应的语音编码向量序列；

通过所述语音测评模型中的文本编码结构，对所述参考文本进行文本编码，得到对应的文本编码向量序列；

所述针对所述文本编码向量序列中的每个文本编码向量，分别确定与所述语音编码向量序列中的每个语音编码向量之间的匹配程度，包括：

通过所述语音测评模型中的多头注意力机制结构，针对所述文本编码向量序列中的每个文本编码向量，分别确定与所述语音编码向量序列中的每个语音编码向量之间的匹配程度；

所述根据所述匹配程度，确定每个所述文本编码向量所对应词的融合声学特征，包括：

通过所述语音测评模型中的多头注意力机制结构，根据所述匹配程度，确定每个所述文本编码向量所对应词的融合声学特征；

所述基于所述参考文本中词的所述融合声学特征，确定所述待测评语音的测评分值，包括：

通过所述语音测评模型中的解码结构，对所述参考文本中词的所述融合声学特征进行解码，得到所述待测评语音的测评分值。

一种语音测评装置，所述装置包括：

编码模块，用于获取待测评语音以及与所述待测评语音对应的参考文本；分别对所述待测评语音以及所述参考文本进行编码处理，得到对应的语音编码向量序列和文本编码向量序列；所述文本编码向量序列中的文本编码向量与所述参考文本中的词对应；

匹配模块，用于针对所述文本编码向量序列中的每个文本编码向量，分别确定与所述语音编码向量序列中的每个语音编码向量之间的匹配程度；

测评模块，用于根据所述匹配程度，确定每个所述文本编码向量所对应词的融合声学特征；基于所述参考文本中词的所述融合声学特征，确定所述待测评语音的测评分值。

在一个实施例中，所述匹配模块还用于根据当前文本编码向量与所述语音编码向量序列中的每个语音编码向量之间的匹配程度，确定每个所述语音编码向量各自对应的自注意分配权重向量；

根据每个所述语音编码向量各自对应的自注意分配权重向量、所述语音编码向量序列以及所述当前文本编码向量，确定与所述当前文本编码向量对应的词的融合声学特征。

在一个实施例中，所述测评模块还包括词评分确定模块，用于基于所述参考文本中的每个词各自对应的所述融合声学特征，确定所述参考文本中的每个词各自对应的词评分；根据所述融合声学特征和所述词评分，确定所述待测评语音的测评分值。

在一个实施例中，所述词评分确定模块还用于根据所述参考文本中的每个词各自对应的所述融合声学特征，确定与所述参考文本相对应的文本融合特征；根据所述参考文本中的每个词各自对应的所述词评分，确定与所述参考文本相对应的词平均分；根据所述词平均分和所述文本融合特征，得到所述待测评语音的测评分值。

在一个实施例中，所述语音测评装置还用于通过语音测评模型中的语音编码结构，对所述待测评语音进行语音编码，得到对应的语音编码向量序列；通过所述语音测评模型中的文本编码结构，对所述参考文本进行文本编码，得到对应的文本编码向量序列；通过所述语音测评模型中的多头注意力机制结构，针对所述文本编码向量序列中的每个文本编码向量，分别确定与所述语音编码向量序列中的每个语音编码向量之间的匹配程度；通过所述语音测评模型中的多头注意力机制结构，根据所述匹配程度，确定每个所述文本编码向量所对应词的融合声学特征；通过所述语音测评模型中的解码结构，对所述参考文本中词的所述融合声学特征进行解码，得到所述待测评语音的测评分值。

在一个实施例中，所述语音测评装置还包括训练模块，用于获取第一样本语音、与所述第一样本语音相对应的第一样本文本以及所述第一样本文本中的每个词各自对应的词配对标签；通过所述语音测评模型中预训练的语音编码结构，对所述第一样本语音进行语音编码，得到对应的预测语音向量序列；通过所述语音测评模型中的待训练的文本编码结构，对所述第一样本文本进行文本编码，得到对应的预测文本向量序列；所述预测文本向量序列中的预测文本向量与所述第一样本文本中的词对应；通过所述语音测评模型中的多头注意力机制结构，分别确定所述预测文本向量序列中的每个预测文本向量与所述预测语音向量序列中的每个预测语音向量之间的匹配程度，并根据所述匹配程度，确定每个所述预测文本向量所对应词的预测融合声学特征；通过所述语音测评模型中的解码结构对每个所述预测融合声学特征进行解码，得到所述第一样本文本中的每个词各自对应的第一预测词评分；通过所述第一预测词评分和所述词配对标签，对所述语音测评模型进行第一训练，直至达到第一训练停止条件时停止。

在一个实施例中，所述训练模块包括第一训练模块，用于获取第一样本语音、以及与所述第一样本语音相匹配的原始文本；所述原始文本包括至少一个原始词；通过预设的替换词库，对所述原始文本中的至少一个原始词进行替换，得到对应的第一样本文本；将所述第一样本文本中的替换词所对应的词配对标签设置为第一标签，并将所述第一样本文本中的原始词所对应的词配对标签设置为第二标签；其中，所述第一标签与所述第二标签不同。

在一个实施例中，所述第一训练模块还用于根据所述第一预测词评分、以及对应的所述词配对标签，构建文本编码结构损失函数；通过所述文本编码结构损失函数对所述语音测评模型中待训练的文本编码结构进行第一训练，直至达到第一训练停止条件时停止。

在一个实施例中，所述训练模块还包括第二训练模块，用于获取第二样本语音、与所述第二样本语音相对应的第二样本文本、与所述第二样本语音相对应的测评分值标签以及所述第二样本文本中的每个词各自对应的词评分标签；通过预训练的语音测评模型，输出所述第二样本语音的预测测评分值、以及所述第二样本文本中的每个词的第二预测词评分；根据所述第二预测词评分以及对应的所述词评分标签，确定所述语音测评模型的第一损失；根据所述预测测评分值以及所述测评分值标签，确定所述语音测评模型的第二损失；根据所述第一损失和所述第二损失，构建所述语音测评模型的损失函数；通过所述语音测评模型的损失函数对预训练的所述语音测评模型进行第二训练，直至达到第二训练停止条件时停止。

在一个实施例中，所述训练模块还包括第三训练模块，用于获取待训练的语音识别模型、第三样本语音以及与所述第三样本语音相对应的语音识别标签；通过所述语音识别模型中的语音编码结构，对所述第三样本语音进行语音编码，得到对应的识别编码向量序列；通过所述语音识别模型中的解码结构，对所述识别编码向量序列进行解码，得到对应的识别字符串；根据所述识别字符串和所述语音识别标签，对所述语音识别模型中的语音编码结构进行第三训练，直至达到第三训练停止条件时停止；将第三训练停止后所述语音识别模型中的语音编码结构，作为所述语音测评模型中的预训练的语音编码结构。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待测评语音以及与所述待测评语音对应的参考文本；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待测评语音以及与所述待测评语音对应的参考文本；

上述语音测评方法、装置、计算机设备和存储介质，通过获取待测评语音以及参考文本，可以分别对待测评语音和参考文本进行编码处理，得到对应的语音编码向量序列和文本编码向量序列；通过确定语音编码向量序列和文本编码向量序列，可将语音编码向量与文本编码向量进行匹配，以确定文本编码向量序列中的每个文本编码向量与语音编码向量序列中的每个语音编码向量之间的匹配程度，如此，便可基于匹配程度，确定每个词各自对应的最为匹配的融合声学特征，并基于融合声学特征，确定待测评语音的测评分值。由于是根据每个文本编码向量与每个语音编码向量之间的匹配程度，确定待测评语音的测评分值，相比于传统的需要开发人员基于专业的音频知识，确定从语谱图提取何种语音特征向量用于语音测评，本申请无需开发人员具备专业的音频知识，从而大大提升了语音测评的通用性。

一种语音测评方法，所述方法包括：

显示参考文本；

响应于针对所述参考文本所触发的跟读操作，触发语音采集，获得对所述参考文本进行跟读所获得的待测评语音；

展示所述待测评语音的测评分值；

响应于对所述参考文本中词的触发操作，展示所述词的词评分；

其中，所述测评分值是根据所述参考文本中每个词的词评分确定的。

一种语音测评装置，所述装置包括：

采集模块，用于显示参考文本；响应于针对所述参考文本所触发的跟读操作，触发语音采集，获得对所述参考文本进行跟读所获得的待测评语音；

分值展示模块，用于展示所述待测评语音的测评分值；

词评分展示模块，用于响应于对所述参考文本中词的触发操作，展示所述词的词评分；其中，所述测评分值是根据所述参考文本中每个词的词评分确定的。

在一个实施例中，所述词评分展示模块还用于响应于光标移动操作移动光标，使得所述光标移动后指向所述参考文本中的词；在所述光标所指向的词对应的空白位置处，显示所述光标所指向的词的词评分。

显示参考文本；

展示所述待测评语音的测评分值；

显示参考文本；

展示所述待测评语音的测评分值；

上述语音测评方法、装置、计算机设备和存储介质，通过展示参考文本，可响应于对参考文本所触发的跟读操作，采集待测评语音；通过采集待测评语音，可基于待测评语音和参考文本确定参考文本中每个词的词评分，并根据每个词的词评分确定待测评语音的测评分值；通过确定每个词的词评分以及待测评语音的测评分值，可在输出测评分值的同时，根据对参考文本中词的触发操作输出词评分的细节反馈，如此，大大提升了用户体验。由于是根据每个词的词评分确定测评分值的，相比于传统的需要开发人员基于专业的音频知识，确定从语谱图提取何种语音特征向量，并基于提取出的语音特征向量进行语音测评，本申请无需开发人员具备专业的音频知识，也无需提取特定的语音特征，从而提升了语音测评的通用性。

附图说明

图1为一个实施例中语音测评方法的应用环境图；

图2为一个实施例中语音测评方法的流程示意图；

图3为一个实施例中跟读页面的页面示意图；

图4为一个实施例中机器翻译框架的示意图；

图5为一个实施例中测评结果页面的页面示意图；

图6为一个实施例中语音测评模型在使用阶段的模型结构示意图；

图7为一个实施例中语音测评模型步骤的流程示意图；

图8为另一个实施例中语音测评方法的流程示意图；

图9为一个实施例中语音测评方法的整体流程示意图；

图10为一个具体实施例中语音测评方法的流程示意图；

图11为一个具体实施例中语音测评模型训练方法的流程示意图；

图12为一个实施例中语音测评装置的结构框图；

图13为另一个实施例中语音测评装置的结构框图；

图14为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中语音测评方法的应用环境图。参照图1，该语音测评方法应用于语音测评系统。该语音测评系统包括终端102和服务器104。终端102和服务器104通过网络连接。终端102具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端102和服务器104均可单独用于执行本申请实施例中提供的语音测评方法。终端102和服务器104也可协同用于执行本申请实施例中提供的语音测评方法。

还需要说明的是，本申请涉及人工智能(Artificial Intelligence，AI)技术领域，其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请具体涉及人工智能领域中的语音技术(Speech Technology)和机器学习(Machine Learning，ML)。其中，语音技术的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

应该理解的是，本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。除非上下文另外清楚地指出，否则单数形式“一个”、“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。

如图2所示，在一个实施例中，提供了一种语音测评方法。本实施例主要以该方法应用于计算机设备来举例说明，该计算机设备可以是上述图1中的终端102或服务器104。参照图2，该语音测评方法具体包括如下步骤：

步骤S202，获取待测评语音以及与待测评语音对应的参考文本。

具体地，计算机设备中运行有目标应用程序的客户端，客户端中可显示有跟读内容。当确定用户触发跟读操作时，客户端可采集用户对跟读内容进行跟读所产生的语音，并将采集得到的语音作为待测评语音，将所展示的跟读内容作为与待测评语音对应的参考文本。其中，触发操作可以是任意的操作，可以是触摸操作、语音操作、通过输入设备例如鼠标进行操作或者手势操作中的至少一个，例如可以为点击操作、双击操作、长按操作、左滑操作或右滑操作中的任意一种，这里不做过多限制。

容易理解地，上述参考文本可以是一个或者多个词，也可以是一个或多个句子。以英语为例，参考文本可以是单词、词组、句子或者段落等。以汉语为例，参考文本可以是字、词语、句子或段落等。

在一个实施例中，参考图3，目标应用程序具体可以为口语测评应用，终端中运行有口语测评应用的客户端，基于此客户端可以对应展示如图3所示的包含有参考文本的跟读页面。当确定用户点击“开始朗读”控件时，用户终端实时采集用户对参考文本进行跟读时的语音，直至确定用户点击“结束朗读”控件，并将在开始朗读至结束朗读之间所采集的语音作为待测评语音。图3示出了一个实施例中跟读页面的页面示意图。

步骤S204，分别对待测评语音以及参考文本进行编码处理，得到对应的语音编码向量序列和文本编码向量序列；文本编码向量序列中的文本编码向量与参考文本中的词对应。

其中，对待测评语音进行编码处理，是将待测评语音转换为向量的过程。语音编码向量序列，是对待测评语音的帧序列进行语音编码后得到的向量序列。对参考文本进行编码处理，是将参考文本转换为向量的过程。文本编码向量序列，是对参考文本的词序列进行语义编码后得到的向量序列。

编码处理由语音测评模型执行。语音测评模型是预训练的机器学习模型，其包含有编码结构和解码结构。其中，编码结构包括文本编码结构和语音编码结构，文本编码结构用于将参考文本转化成文本编码向量序列；语音编码结构用于将待测评语音转化成语音编码向量序列；解码结构则用于进行解码处理，得到待测评语音的测评分值。

具体地，当获取得到参考文本时，计算机设备可对参考文本进行分词处理，得到相应的词序列，并将词序列输入语音测评模型，通过语音测评模型中文本编码结构的多层神经网络，逐层对词序列进行语义编码，得到文本编码向量序列。其中，文本编码向量序列融合了各层神经网络所输出的编码隐层向量；文本编码向量序列中的文本编码向量与参考文本中的词对应。隐层是神经网络模型中的一种术语，是相对于输入层和输出层的中间层，隐层中包括对神经网络模型训练得到的模型参数。这里编码隐层是相对于编码结构的输入层和编码结构的输出层的中间层，编码隐层向量是中间层输出的向量。

同理，当获取得到待测评语音时，计算机设备可对待测评语音进行分帧处理，得到包括有多个音频帧的帧序列，并将帧序列输入至语音测评模型，通过语音测评模型中语音编码结构的多层神经网络，逐层对帧序列进行语音编码，得到对应的语音编码向量序列。其中，语音编码向量序列中的语音编码向量与待测评语音中的音频帧对应。

通过语音测评模型中编码结构的多层神经网络，逐层对词序列或帧序列进行编码，可以融合语音测评模型中各隐层的信息，以学习更好的隐层表示。

在一个实施例中，参考图4，语音测评模型可采用基于神经网络的端到端的transformer(机器翻译)框架。transformer框架是包含Encoder-Decoder(编码结构-解码结构)结构的框架。Encoder-Decoder结构将输入序列转换为另一个序列输出。在该框架中，编码结构将输入序列转化成向量序列，解码结构则根据向量序列并按时间顺序依次生成输出序列。图4示出了一个实施例中机器翻译框架的示意图。

在一个实施例中，编码结构、以及解码结构可以采用相同类型的神经网络模型，也可以是不同类型的神经网络模型。比如，文本编码结构、语音编码结构以及解码结构可以均为CNN(Convolutional Neural Networks，卷积神经网络)模型或RNN(Recurrent NeuralNetworks，循环神经网络)模型等。或者文本编码结构、语音编码结构以及解码结构分别采用不同的神经网络模型，比如文本编码结构采用RNN模型、语音编码结构采用DNN(DeepNeural Networks，深度神经网络)模型、解码结构采用CNN模型等。换言之，本申请所涉及的文本编码结构、语音编码结构以及解码结构分别可以自由选择擅长相应领域的专用模型。本实施例在此不作限定。

在一个实施例中，对于参考文本为中文文本的分词处理，可采用基于词典或基于统计的分词方式对参考文本进行分词处理，得到对应的词序列。对于参考文本为英文文本的分词处理，可以根据空格拆分单词等分词方式对参考文本进行分词处理，得到对应的词序列。

在一个实施例中，可以根据需求自由设定采集音频帧的采样频率以及每个音频帧的帧长和帧移。比如，可以采用16kHZ的采样频率，25ms的帧长、10ms的帧移对待测评语音进行分帧处理，得到帧序列。

在一个实施例中，在对待测评语音进行分帧处理之前，还可对待测评语音进行语音活动检测(Voice Activity Detection，VAD)、回声消除、混响消除或声源定位等预处理，以去除待测评语音中的背景干扰。

步骤S206，针对文本编码向量序列中的每个文本编码向量，分别确定与语音编码向量序列中的每个语音编码向量之间的匹配程度。

具体地，计算机设备确定文本编码向量序列中的每个文本编码向量，以及确定语音编码向量序列中的每个语音编码向量，并针对文本编码向量序列中的每个文本编码向量，分别将每个文本编码向量与每个语音编码向量进行相似度计算，以确定每个文本编码向量与每个语音编码向量序列之间的匹配程度。

为了更好地理解本实施例，下面通过举例说明的方式说明确定当前文本编码向量与语音编码向量序列中的每个语音编码向量之间的匹配程度的过程：以当前文本编码向量为h_word(i)，语音编码向量序列为h_audio＝(h_audio(1)，h_audio(2)，…，h_audio(m))为例，计算机设备可将当前文本编码向量h_word(i)分别与语音编码向量序列中的每个语音编码向量进行匹配度计算，比如，将当前文本编码向量h_word(i)与h_audio(1)进行点积运算(h_word(i).h_audio(1))，得到当前文本编码向量与h_audio(1)之间的匹配程度，将当前文本编码向量h_word(i)与h_audio(2)进行点积运算(h_word(i).h_audio(2))，得到当前文本编码向量与h_audio(2)之间的匹配程度。如此迭代，即可得到当前文本编码向量与每个语音编码向量之间的匹配程度。其中，h_audio(m)表示与帧序列中的第m帧音频帧相对应的语音编码向量，h_word(i)表示与词序列中的第i个词相对应的文本编码向量。

容易理解地，计算机设备可按照上述方式，分别将每个文本编码向量与语音编码向量序列中的每个语音编码向量进行匹配度计算，得到每个文本编码向量，与每个语音编码向量之间的匹配程度。

在一个实施例中，计算机设备可依次确定当前文本编码向量与当前语音编码向量之间的匹配程度，也可同时确定每个文本编码向量与每个语音编码向量之间的匹配程度。本实施例在此不作限定。

在一个实施例中，语音测评模型中还可包含有多头注意力机制结构(Multi-headed self-attention)，当得到文本编码向量序列和语音编码向量序列后，计算机设备可通过语音测评模型中的多头注意力机制结构确定每个文本编码向量与每个文本编码向量之间的匹配程度。

步骤S208，根据匹配程度，确定每个文本编码向量所对应词的融合声学特征。

具体地，当确定文本编码向量序列中的每个文本编码向量与语音编码向量序列中的每个语音编码向量之间的匹配程度时，计算机设备可根据匹配程度，确定每个文本编码向量所对应的词的融合声学特征。其中，融合声学特征是用于反映文本编码向量所对应词的发音特征的数据。

为了更好地理解本实施例，下面通过举例说明的方式说明确定当前文本编码向量所对应词的融合声学特征的过程：计算机设备根据文本编码向量序列中的当前文本编码向量与语音编码向量序列中的每个语音编码向量之间的匹配程度，确定语音编码向量序列中的每个语音编码向量各自对应的自注意力权重向量，并根据每个语音编码向量各自对应的自注意力权重向量、以及语音编码向量序列，计算得到当前文本编码向量所对应的词的融合声学特征。比如，计算机设备可以通过以下公式计算：

确定当前文本编码向量所对应的词的融合声学特征。其中，C_word(i)为与h_word(i)相对应的词的融合声学特征、h_word(i)为词序列中第i个词的文本编码向量、m表示语音编码向量序列中的语音编码向量的总数量、α_i，j为在当前文本编码向量为h_word(i)时，与h_audio(j)相对应的自注意力分配权重、h_audio(j)为与帧序列中第j个音频帧相对应的语音编码向量。

在一个实施例中，当确定每个文本编码向量与每个语音编码向量之间的匹配程度后，计算机设备可通过语音测评模型中的多头注意力机制结构确定每个文本编码向量所对应词的融合声学特征。

在一个实施例中，对于文本编码向量序列和语音编码向量序列，计算机设备可将文本编码向量序列和语音编码向量序列输入至语音测评模型中的多头注意力机制结构，通过多头注意力机制结构、并采用以下公式计算得到每个文本编码向量所对应的词的融合声学特征：

其中，Q、K、V分别是对输入数据按三个不同的可学习参数矩阵线性变换而得到的，Q也就是请求(query)向量序列(相当于本申请中的文本编码向量序列)、K为键(key)向量序列(相当于本申请中的语音编码向量序列)、V为值(value)向量序列(相当于本申请中的语音编码向量序列)。进一步地，语音测评模型可使用点积计算确定与每个键-值对之间的逻辑相似度，也即匹配程度e，

其中，K^T表示键值矩阵的转置，d为模型隐藏层向量的维度。Softmax为归一化函数。

步骤S210，基于参考文本中词的融合声学特征，确定待测评语音的测评分值。

其中，测评分值指的是用于指示待测评语音的跟读质量的分数。该测评分值可以采用分数表示，如百分制、十分制或五分制等，分数越高表示跟读质量越高。测评分值也可以采用星级表示，如总共五颗星，获得星星的数量越多表示跟读质量越高。当然，该评分还可以采用其它方式，本发明实施例对此不作限定。

具体地，当获取得到每个词各自对应的融合声学特征时，计算机设备可对融合声学特征进行全连接变换，得到与融合声学特征相对应的词的词评分，并根据参考文本中每个词的词评分，确定待测评语音的测评分值。

在一个实施例中，计算机设备可按照如下公式确定词评分：score_word(i)＝sigmoid(W_wordC_word(i)+b_word)，其中，score_word(i)为与h_word(i)相对应的词的词评分、C_word(i)为与h_word(i)所对应的词的融合声学特征、sigmoid为激活函数、W_word和b_word均为训练后的模型参数。容易理解地，score_word(i)＝sigmoid(W_wordC_word(i)+b_word)可看作一元线性方程，从而当C_word(i)所代表的数值越大时，对应词的词评分也就越高，由于C_word(i)是基于文本编码向量与语音编码向量之间的匹配程度确定的，因此当语音编码向量序列中存在与h_word(i)匹配程度越高的语音编码向量时，相应词评分也就越高。

现有的语音测评方法，需要从与待测评语音相对应的语谱图中提取发音置信度(GOP)、发音时长、发音音高、发音音强作为语音特征向量，从而导致现有技术中的语音测评模型较为复杂。而本方法无需额外提取发音置信度(GOP)、发音时长、发音音高、发音音强，仅需计算文本编码向量与语音编码向量之间的匹配程度，即可确定待测评语音的测评分值，如此，不仅简化了语音测评模型的模型复杂度，而且免于提取大量的语音特征，大大提升了测评分值的确定效率。

在一个实施例中，计算机设备可对每个词各自对应的词评分进行加权求平均，得到待测评语音的测评分值。

在一个实施例中，参考图5，当获取得到待测评语音的测评分值时，计算机设备可通过口语测评应用的客户端对应展示测评结果页面，并在测评结果页面中展示测评分值502。图5示出了一个实施例中测评结果页面的页面示意图。

上述语音测评方法中，通过获取待测评语音以及参考文本，可以分别对待测评语音和参考文本进行编码处理，得到对应的语音编码向量序列和文本编码向量序列；通过确定语音编码向量序列和文本编码向量序列，可将语音编码向量与文本编码向量进行匹配，以确定文本编码向量序列中的每个文本编码向量与语音编码向量序列中的每个语音编码向量之间的匹配程度，如此，便可基于匹配程度，确定每个词各自对应的最为匹配的融合声学特征，并基于融合声学特征，确定待测评语音的测评分值。由于是根据每个文本编码向量与每个语音编码向量之间的匹配程度，确定待测评语音的测评分值，相比于传统的需要开发人员基于专业的音频知识，确定从语谱图提取何种语音特征向量用于语音测评，本申请无需开发人员具备专业的音频知识，从而大大提升了语音测评方法的通用性。

在一个实施例中，根据匹配程度，确定每个文本编码向量所对应词的融合声学特征，包括：根据当前文本编码向量与语音编码向量序列中的每个语音编码向量之间的匹配程度，确定每个语音编码向量各自对应的自注意分配权重向量；根据每个语音编码向量各自对应的自注意分配权重向量、语音编码向量序列以及当前文本编码向量，确定与当前文本编码向量对应的词的融合声学特征。

具体地，计算机设备根据当前文本编码向量与每个语音编码向量之间的匹配程度，确定每个语音编码向量各自对应的自注意力分配权重向量，比如，将当前文本编码向量与当前语音编码向量之间的点积运算结果，作为当前语音编码向量对应的自注意力分配权重向量。进一步地，计算机设备根据每个语音编码向量序列各自对应的自注意力分配权重向量，对语音编码向量序列以及当前文本编码向量进行融合处理，得到当前文本编码向量对应的词的融合声学特征。

在其中一个实施例中，计算机设备可通过以下公式确定当前文本编码向量对应词的融合声学特征：

C_word(i)＝Attention(h_word(i)，h_audio，h_audio)+h_word(i)

其中，C_word(i)代表当前文本编码向量对应词的融合声学特征，h_word(i)代表与词序列中第i个词相对应的文本编码向量，h_audio代表语音编码向量序列，m表示语音编码向量序列中的语音编码向量的总数量，α_i，j为在当前文本编码向量为h_word(i)时，与h_audio(j)相对应的自注意力分配权重向量。

上述实施例中，通过确定当前文本编码向量与每个语音编码向量之间的匹配程度，可以根据匹配程度确定每个语音编码向量各自对应的自注意分配权重向量，从而使得融合声学特征中可以包含有更多的具有高权重的语音编码向量的向量信息，而忽略具有低权重的语音编码向量的向量信息，也即使得融合声学特征中可以包含有高匹配度的语音编码向量的向量信息，忽略低匹配度的语音编码向量的向量信息，进而使得融合声学特征可以通过高匹配度的语音编码向量更为准确地表征对应的词的发音特征。此外，通过在融合声学特征中增加文本编码向量，使得融合声学特征中所包含的信息更为丰富。

在一个实施例中，基于参考文本中词的融合声学特征，确定待测评语音的测评分值，包括：基于参考文本中的每个词各自对应的融合声学特征，确定参考文本中的每个词各自对应的词评分；根据融合声学特征和词评分，确定待测评语音的测评分值。

具体地，当得到每个词各自对应的融合声学特征时，计算机设备将各融合声学特征输入至语音测评模型中的解码结构中，通过解码结构对参考文本中每个词各自对应的融合声学特征进行全连接变换，确定参考文本中的每个词各自对应的词评分，并根据词评分对融合声学特征进行解码处理，得到与待测评语音相对应的测评分值。

本实施例中，通过综合各词的测评分以及融合声学特征确定测评分值，使得所确定的测评分值更为准确。

在一个实施例中，根据融合声学特征和词评分，确定待测评语音的测评分值，包括：根据参考文本中的每个词各自对应的融合声学特征，确定与参考文本相对应的文本融合特征；根据参考文本中的每个词各自对应的词评分，确定与参考文本相对应的词平均分；根据词平均分和文本融合特征，得到待测评语音的测评分值。

具体地，计算机设备对参考文本中每个词各自对应的融合声学特征进行平均池化，得到与参考文本相对应的文本融合特征，以及对参考文本中的每个词各自对应的词评分进行加权求和，得到与参考文本相对应的词平均分。进一步地，计算机设备将词平均分以及文本融合特征进行拼接，得到中间结果，并对中间结果进行线性变换以及非线性变换，得到待测评语音的测评分值。

例如，计算设备可通过公式

对融合声学特征进行平均池化，得到与参考文本相对应的文本融合特征h_sent，其中，n为参考文本中词的总数量；计算设备可通过公式

得到与参考文本相对应的词平均分Avg_word，其中，n为参考文本中词的总数量，Score_word(i)为与词序列中第i个词相对应的词评分；计算设备可通过公式h1_sent＝W_sent1([Avg_word，h_sent])+b_sent1将词平均分以及文本融合特征进行拼接，得到中间结果h1_sent，其中，W_sent1、b_sent1为训练完成的语音测评模型的模型参数；计算设备可通过公式h2_sent＝ReLU(h1_sent)对中间结果进行线性变换，以及通过公式score_sent＝sigmoid(W_sent2h2_sent+b_sent2)对线性变换后的结果进行非线性变换，得到待测评语音的测评分值score_sent，其中，ReLU为修正线性单元函数，sigmoid为S型函数，W_sent2以及b_sent2为训练完成的语音测评模型的模型参数。

本实施例中，通过综合词平均分和文本融合特征，可以得到参考文本的深层特征表示，从而使得基于参考文本的深层特征表示所得到测评分值更为精准。

在一个实施例中，对待测评语音以及参考文本进行编码处理，得到对应的语音编码向量序列和文本编码向量序列，包括：通过语音测评模型中的语音编码结构，对待测评语音进行语音编码，得到对应的语音编码向量序列；通过语音测评模型中的文本编码结构，对参考文本进行文本编码，得到对应的文本编码向量序列；针对文本编码向量序列中的每个文本编码向量，分别确定与语音编码向量序列中的每个语音编码向量之间的匹配程度，包括：通过语音测评模型中的多头注意力机制结构，针对文本编码向量序列中的每个文本编码向量，分别确定与语音编码向量序列中的每个语音编码向量之间的匹配程度；根据匹配程度，确定每个文本编码向量所对应词的融合声学特征，包括：通过语音测评模型中的多头注意力机制结构，根据匹配程度，确定每个文本编码向量所对应词的融合声学特征；基于参考文本中词的融合声学特征，确定待测评语音的测评分值，包括：通过语音测评模型中的解码结构，对参考文本中词的融合声学特征进行解码，得到待测评语音的测评分值。

具体地，语音测评模型包括编码结构和解码结构，编码结构包括语音编码结构、文本编码结构和多头注意力机制结构。语音编码结构用于对待测评语音进行语音编码处理，得到语音编码向量序列。文本编码结构用于对参考文本进行语义编码处理，得到文本编码向量序列。多头注意力机制结构用于针对文本编码向量序列中的每个文本编码向量，分别确定与语音编码向量序列中的每个语音编码向量之间的匹配程度，并根据匹配程度，确定每个文本编码向量所对应词的融合声学特征；解码结构用于对参考文本中的词的融合声学特征进行解码处理，得到待测评语音的测评分值。在其中一个实施例中，参考图6，图6示出了一个实施例中，语音测评模型在使用阶段的模型结构示意图。如图6所示，当获取得到待测评语音和参考文本时，计算机设备可对待测评语音进行分帧处理，得到帧序列(y₁，y₂，…，y_m)，以及对参考文本进行分词处理，得到词序列(x₁，x₂，…，x_n)，并将帧序列输入至语音编码结构，将词序列输入至文本编码结构，得到对应的语音编码向量序列和文本编码向量序列。进一步地，计算机设备通过多头注意力机制结构针对文本编码向量序列中的每个文本编码向量，分别确定与语音编码向量序列中的每个语音编码向量之间的匹配程度，并根据匹配程度，确定每个文本编码向量所对应词的融合声学特征C_i。

计算机设备将每个文本编码向量所对应词的融合声学特征输入至语音测评模型的解码结构中的非线性变换层(Non-linear transformation layer)，通过解码结构中的非线性变换层输出参考文本中每个词各自对应的词评分S_i，并根据参考文本中的每个词各自对应的词评分，确定与参考文本相对应的词平均分Avg_word，以及通过解码结构中的平均池化层(Avg-pooling layer)确定与参考文本相对应的文本融合特征h_sent。进一步地，计算机设备通过解码结构中的多层感知层(Multi-Layer Perceptron，MLP)，根据词平均分和文本融合特征，得到待测评语音的测评分值。

上述实施例中，通过语音测评模型中的各模型结构对待测评语音进行测评，使得待测评语音的测评分值更为准确。

在一个实施例中，如图7所示，语音测评方法由语音测评模型执行，语音测评模型通过模型训练步骤训练获得，模型训练步骤包括：

步骤S702，获取第一样本语音、与第一样本语音相对应的第一样本文本以及第一样本文本中的每个词各自对应的词配对标签。

具体地，第一样本语音以及与第一样本语音相对应的第一样本文本是用于进行模型训练时所需的训练数据。词配对标签是用于进行模型训练时所需的标签数据，基于词配对标签，语音测评模型可对应调整模型参数。研发人员可获取大量的第一样本文本以及对应的第一样本语音，并对第一样本文本中每个词进行标签标记，得到每个词各自对应的词配对标签。其中，与第一样本文本对应的第一样本语音指的是与第一样本文本相配对的第一样本语音，比如，对第一样本文本进行跟读所产生的第一样本语音。

计算机设备可将一个第一样本文本，以及与此第一样本文本相对应的第一样本语音作为训练集中的一个训练对，这样，便能基于训练集中的多个训练对对语音测评模型进行训练。

步骤S704，通过语音测评模型中预训练的语音编码结构，对第一样本语音进行语音编码，得到对应的预测语音向量序列。

步骤S706，通过语音测评模型中的待训练的文本编码结构，对第一样本文本进行文本编码，得到对应的预测文本向量序列；预测文本向量序列中的预测文本向量与第一样本文本中的词对应。

具体地，计算机设备可将第一样本语音输入至语音测评模型中预训练的语音编码结构，将第一样文本输入至语音测评模型中待训练的文本编码结构，通过预训练语音编码结构对第一样本语音进行语音编码处理，得到对应的预测语音向量序列，通过待训练的文本编码结构对第一样本文本进行文本编码处理，得到对应的预测文本向量序列。

步骤S708，通过语音测评模型中的多头注意力机制结构，分别确定预测文本向量序列中的每个预测文本向量与预测语音向量序列中的每个预测语音向量之间的匹配程度，并根据匹配程度，确定每个预测文本向量所对应词的预测融合声学特征。

步骤S710，通过语音测评模型中的解码结构对每个预测融合声学特征进行解码，得到第一样本文本中的每个词各自对应的第一预测词评分。

具体地，针对预测文本向量序列中的每个预测文本向量，计算机设备可通过语音测评模型中的多头注意力机制结构分别将每个预测文本向量与每个预测语音向量进行相似度计算，以确定每个预测文本向量与每个预测语音向量序列之间的匹配程度，并根据匹配程度，确定每个预测文本向量所对应的词的预测融合声学特征。进一步地，语音测评模型中的解码结构可对预测融合声学特征进行全连接变换，得到与预测融合声学特征相对应的词的第一预测词评分。

步骤S712，通过第一预测词评分和词配对标签，对语音测评模型进行第一训练，直至达到第一训练停止条件时停止。

具体地，计算机设备可朝着减小同一词的第一预测词评分和词配对标签之间的差异的方向，调整语音测评模型的模型参数。这样，通过不断输入训练对，以训练语音测评模型，直至达到第一训练停止条件时停止。其中，第一训练停止条件可根据需求自由设定，比如，第一训练停止条件可以是第一预测词评分与词配对标签之间的差异达到预设最小值，或训练迭代次数达到预设的迭代次数等。

本实施例中，在训练的过程中，由于训练目标考虑了第一样本文本中每个词所对应的第一词评分和词配对标签，使得语音测评模型可以对每个词均进行充分学习，从而提升了词评分的准确性，进而提升了测评分值的准确性。

在一个实施例中，获取第一样本语音、与第一样本语音对应的第一样本文本、以及第一样本文本中的每个词各自对应的词配对标签，包括：获取第一样本语音、以及与第一样本语音相匹配的原始文本；原始文本包括至少一个原始词；通过预设的替换词库，对原始文本中的至少一个原始词进行替换，得到对应的第一样本文本；将第一样本文本中的替换词所对应的词配对标签设置为第一标签，并将第一样本文本中的原始词所对应的词配对标签设置为第二标签，其中，第一标签与第二标签不同。

具体地，研发人员可收集大量的第一样本语音以及对第一样本语音进行跟读的原始文本，并将第一样本语音以及对应的原始文本输入至计算机设备，以使计算机设备通过预置的替换词库对原始文本中的至少一个原始词进行随机替换，比如，以使计算机设备按照一定的概率分布对原始词进行随机替换，得到第一样本文本。其中，原始词指的是原始文本所包含的未被替换的分词。替换词库指的是包括有多个用于对原始词进行替换的替换词的词库。进一步地，计算机设备确定第一样本文本中的替换词以及原始词，并将替换词所对应的词配对标签设置为第一标签，将原始词所对应的词配对标签设置为第二标签。其中，第一标签与第二标签不同。

举例说明，当计算机设备将原始文本“I know the fact”中的“I”替换为“you”、将“fact”替换为“false”，以构造音频与文本不匹配的数据对时，计算机设备分别将原始词“know”、“the”所对应的词配对标签设置为“1”，也即将音频与文本相匹配的词配对标签设置为“1”；分别将“I”、“fact”所对应的词配对标签设置为“0”，也即将音频与文本不匹配的词配对标签设置为“0”。

本实施中，机器学习模型的训练主要依赖于大量的训练数据，而现有技术中一般是通过人工对训练数据进行标签标注，如此不仅效率低下，而且需要耗费大量的时间、精力。本实施例通过自动对原始词进行随机替换，以及根据替换结果自动设置词配对标签，不仅可以提升标签标注的效率，而且可以大大缓解人工标注的训练数据稀缺的问题。

在一个实施例中，通过第一预测词评分和词配对标签，对语音测评模型进行第一训练，直至达到第一训练停止条件时停止，包括：根据第一预测词评分、以及对应的词配对标签，构建文本编码结构损失函数；通过文本编码结构损失函数对语音测评模型中待训练的文本编码结构进行第一训练，直至达到第一训练停止条件时停止。

具体地，计算机设备确定第一训练文本中的同一词所对应的第一预测词评分和词配对标签，并根据第一训练文本中的同一词的第一预测词评分和词配对标签构建文本编码损失函数，也即是根据第一预测词评分及对应的词配对标签，构建文本编码结构损失函数。进一步地，计算机设备固定语音测评模型中的语音编码结构的模型参数，通过文本编码结构损失函数对待训练的文本编码结构进行训练，直至达到第一训练停止条件时停止。比如，直至第一训练文本中的各第一预测词评分与对应的词配对标签之间的总差异达预设最小值为止。

在其中一个实施例中，计算机设备可通过以下公式构造文本编码结构损失函数：

其中，n表示第一训练文本中的词的总数量；t_i表示第一训练文本中的第i个词的词配对标签；p_i表示第一训练文本中的第i个词的第一预测词评分。

上述实施例中，通过第一预测词评分及对应的词配对标签，确定文本编码结构损失函数，使得基于文本编码结构损失函数训练得到的文本编码结构所输出的文本编码向量序列更为准确。

在一个实施例中，在第一训练停止后，模型训练方法还包括：获取第二样本语音、与第二样本语音相对应的第二样本文本、与第二样本语音相对应的测评分值标签以及第二样本文本中的每个词各自对应的词评分标签；通过预训练的语音测评模型，输出第二样本语音的预测测评分值、以及第二样本文本中的每个词的第二预测词评分；根据第二预测词评分以及对应的词评分标签，确定语音测评模型的第一损失；根据预测测评分值以及测评分值标签，确定语音测评模型的第二损失；根据第一损失和第二损失，构建语音测评模型的损失函数；通过语音测评模型的损失函数对预训练的语音测评模型进行第二训练，直至达到第二训练停止条件时停止。

具体地，在第一训练停止之后，为了进一步提升语音测评模型的测评准确度，还可对语音测评模型进行第二训练。计算机设备获取第二样本语音、与第二样本语音相对应的第二样本文本、与第二样本语音相对应的测评分值标签以及第二样本文本中的每个词各自对应的词评分标签。其中，测评分值标签是用于指示第二样本语音的跟读质量的分数，测评分值标签具体可以为人工对第二样本语音的跟读质量进行综合评价后的分数；词评分标签是用于指示第二样本语音中的词的跟读质量的分数，词评分标签具体可以为人工对词的跟读质量进行评价后的分数。

进一步地，计算机设备将第二样本文本以及对应的第二样本语音输入至预训练的语音测评模型中，也即输入至第一训练完毕的语音测评模型中，通过预训练的语音测评模型输出与第二样本语音相对应的预测测评分值和第二样本文本中的每个词的第二预测词评分。计算机设备根据第二样本文本中的同一词的第二预测词评分和词评分标签，确定语音测评模型的第一损失，根据第二样本语音的预测测评分值以及对应的测评分值标签，确定语音测评模型的第二损失，并根据第一损失和第二损失，构建语音测评模型的损失函数。

进一步地，计算机设备通过所构建的语音测评模型的损失函数，对预训练的语音测评模型进行第二训练，也即对与训练的语音测评模型中的文本编码结构、语音编码结构以及解码结构进行联合训练，直至达到第二训练停止条件时停止。

在其中一个实施例中，计算机设备可通过公式

构建第一损失，其中，n代表第二样本文本中的词的总数量；r_i表示第二样本文本中的第i个词的词评分标签；k_i表示第二训练文本中的第i个词的第二预测词评分。计算机设备可通过公式L_total3＝(z-g)²，构建第二损失，其中，z表示第二样本文本的测评分值标签；g表示第二训练文本的预测测评分值。

在其中一个实施例中，可通过多人对第二样本文本中的词以及对应的第二样本语音分别进行评分，并将多人对第二样本语音所评分数进行加权求平均运算，得到第二样本语音相对应的测评分值标签；将多人对同一词的评分进行加权求平均运算，得到对应词的词评分标签。

上述实施例中，由于测评分值标签以及词评分标签反映了最为真实的分值数据，通过最为真实的分值数据对预训练的语音测评模型进行第二训练，使得训练后的语音测评模型所输出的测评分值更为准确。此外，由于测评分值标签以及词评分标签可为人工评分数据，因此，通过人工评分对预训练的语音测评模型进行第二训练，使得训练后的语音测评模型所输出的测评分值能够更贴近于人工评分，也符合人工评分标准。再者，通过对文本编码结构、语音编码结构以及解码结构进行联合训练，可以大大减少编码结构与解码结构两者优化目标不一致的概率，从而进一步提升了语音测评模型的准确性。

在一个实施例中，语音编码结构通过语音编码结构训练步骤训练获得，语音编码结构训练步骤包括：获取待训练的语音识别模型、第三样本语音以及与第三样本语音相对应的语音识别标签；通过语音识别模型中的语音编码结构，对第三样本语音进行语音编码，得到对应的识别编码向量序列；通过语音识别模型中的解码结构，对识别编码向量序列进行解码，得到对应的识别字符串；根据识别字符串和语音识别标签，对语音识别模型中的语音编码结构进行第三训练，直至达到第三训练停止条件时停止；将第三训练停止后语音识别模型中的语音编码结构，作为语音测评模型中的预训练的语音编码结构。

具体地，在对语音测评模型进行第一训练之前，可对语音识别模型中的语音编码结构进行预训练。由于语音测评模型中的语音编码结构主要用于对音频进行编码，因此，可将语音识别模型中的具有相同功能的语音编码结构，作为语音测评模型中的语音编码结构。其中，语音识别模型指的是用以对语音进行识别，将语音转换为文字的机器学习模型，其具体可以为ASR(Automatic Speech Recognition，自动语音识别)模型。

计算机设备获取待训练的语音识别模型、第三样本语音以及与第三样本语音相对应的语音识别标签，并将第三样本语音输入至待训练的语音识别模型的语音编码结构中，通过语音识别模型的语音编码结构对第三样本语音进行编码，得到对应的识别编码向量序列。其中，语音识别标签是用以指示标准识别结果的标签。进一步地，计算机设备将识别编码向量序列输入至语音识别模型的解码结构中，通过语音识别模型的解码结构，对识别编码向量序列进行解码，得到对第三样本语音进行识别后的识别字符串。

计算机设备根据识别字符串与对应的语音识别标签之间的差异，构建语音识别模型的损失函数，并通过语音识别模型的损失函数对语音识别模型的语音编码结构进行第三训练，直至达到第三训练停止条件时停止，并将第三训练停止后语音识别模型中的语音编码结构，作为语音测评模型中的预训练的语音编码结构。

本实施例中，通过对语音识别模型进行第三训练，使得训练后的语音编码结构输出的语音编码向量序列可以更为准确。

在一个实施例中，提供了一种语音测评方法。本实施例主要以该方法应用于图1中的终端来举例说明，参照图8，该语音测评方法具体包括如下步骤：

步骤S802，显示参考文本。

具体地，终端中运行有口语测评应用，通过此口语测评应用，可对应展示显示参考文本。示例性地，当确定用户点击口语测评图标时，终端可对应展示如图3所示的跟读页面，并通过跟读页面展示参考文本302。

步骤S804，响应于针对参考文本所触发的跟读操作，触发语音采集，获得对参考文本进行跟读所获得的待测评语音。

具体地，当确定用户针对参考文本触发跟读操作时，终端采集用户对参考文本进行跟读所产生的音频内容，并将此音频内容作为待测评语音。示例性地，参考图3，跟读页面中可展示有“开始朗读”控件，当获取得到对“开始朗读”控件的触发信号时，终端对应展示包含有“结束朗读”控件的跟读页面，并调用录音模块对用户语音进行录制，直至获取得到对“结束朗读”控件的触发信号，得到待测评语音。

步骤S806，展示待测评语音的测评分值。

具体地，当获取得到待测评语音时，终端将待测评语音以及对应的参考文本输入至语音测评模型，通过语音测评模型输出参考文本中每个词的词评分，并根据每个词的词评分确定待测评语音的测评分值。进一步地，终端将语音测评模型输出的待测评分值对应展示。

在一个实施例中，参考图5，终端可以采用星级在测评结果页面展示待测评语音的测评分值502，如总共五颗星，获得星星的数量越多表示跟读质量越高。

步骤S808，响应于对参考文本中词的触发操作，展示词的词评分；其中，测评分值是根据参考文本中每个词的词评分确定的。

具体地，终端可响应于对参考文本中词的触发操作，展示词的词评分。例如，测评结果页面中可展示有词评分控件，当接收到针对词评控件的触发信号时，终端可在测评结果页面中对应展示参考文本中每个词的词评分。

在一个实施例中，参考图9，终端中可运行有口语测评应用，通过此口语测评应用可对应展示参考文本，以及采集用户对此参考文本进行跟读的待测评语音，并将参考文本和采集得到的待测评语音发送至服务器。当获取得参考文本和待测评语音时，服务器将参考文本和待测评语音输入至语音测评模型，以使语音测评模型确定参考文本与待测评语音之间的匹配程度，并根据匹配程度输出词评分和测评分值。进一步地，服务器将词评分以及测评分值返回至口语测评应用，通过口语测评应用将词评分和测评分值对应展示。图9示出了一个实施例中语音测评方法的整体流程示意图。

上述语音测评方法，通过展示参考文本，可响应于对参考文本所触发的跟读操作，采集待测评语音；通过采集待测评语音，可基于待测评语音和参考文本确定参考文本中每个词的词评分，并根据每个词的词评分确定待测评语音的测评分值；通过确定每个词的词评分以及待测评语音的测评分值，可在输出测评分值的同时，根据对参考文本中词的触发操作输出词评分的细节反馈，如此，大大提升了用户体验。由于是根据每个词的词评分确定测评分值的，相比于传统的需要开发人员基于专业的音频知识，确定从语谱图提取何种语音特征向量，并基于提取出的语音特征向量进行语音测评，本申请无需开发人员具备专业的音频知识，也无需提取特定的语音特征，从而提升了语音测评方法的通用性。

在一个实施例中，响应于对参考文本中词的触发操作，展示词的词评分，包括：响应于光标移动操作移动光标，使得光标移动后指向参考文本中的词；在光标所指向的词对应的空白位置处，显示光标所指向的词的词评分。

具体地，终端中展示有光标，从而用户可对光标进行移动，使得移动后的光标指向参考文本中的词。终端确定光标所指向的词，将光标所指向的词作为目标词，并获取目标词的词评分，在目标词对应的空白位置处，显示目标词的词评分。

在其中一个实施例中，参考图5，当用户触摸终端显示屏并滑动手指时，终端可根据用户的触摸滑动操作移动光504。当确定光标504移动至参考文本中的词并停止时，终端在光标所指向的词对应的空白位置处，显示光标所指向的词的词评分506。

上述实施例中，通过对应展示光标所指向词的词评分，使得用户不仅可以得知待测评语音的测评分值，还可根据需求得知各词的词评分，从而大大提升了用户体验。

如图10所示，在一个具体的实施例中，语音测评方法包括以下步骤：

S1002，获取待测评语音以及与待测评语音对应的参考文本。

S1004，分别对待测评语音以及参考文本进行编码处理，得到对应的语音编码向量序列和文本编码向量序列；文本编码向量序列中的文本编码向量与参考文本中的词对应。

S1006，针对文本编码向量序列中的每个文本编码向量，分别确定与语音编码向量序列中的每个语音编码向量之间的匹配程度；根据当前文本编码向量与语音编码向量序列中的每个语音编码向量之间的匹配程度，确定每个语音编码向量各自对应的自注意分配权重向量。

S1008，根据每个语音编码向量各自对应的自注意分配权重向量、语音编码向量序列以及当前文本编码向量，确定与当前文本编码向量对应的词的融合声学特征。

S1010，基于参考文本中的每个词各自对应的融合声学特征，确定参考文本中的每个词各自对应的词评分；根据参考文本中的每个词各自对应的融合声学特征，确定与参考文本相对应的文本融合特征。

S1012，根据参考文本中的每个词各自对应的词评分，确定与参考文本相对应的词平均分。

S1014，根据词平均分和文本融合特征，得到待测评语音的测评分值。

如图11所示，在一个具体的实施例中，语音测评模型的训练方法包括以下步骤：

S1102，获取待训练的语音识别模型、第三样本语音以及与第三样本语音相对应的语音识别标签。

S1104，通过语音识别模型中的语音编码结构，对第三样本语音进行语音编码，得到对应的识别编码向量序列；通过语音识别模型中的解码结构，对识别编码向量序列进行解码，得到对应的识别字符串。

S1106，根据识别字符串和语音识别标签，对语音识别模型中的语音编码结构进行第三训练，直至达到第三训练停止条件时停止；将第三训练停止后语音识别模型中的语音编码结构，作为语音测评模型中的预训练的语音编码结构。

S1108，获取第一样本语音、以及与第一样本语音相匹配的原始文本；原始文本包括至少一个原始词；通过预设的替换词库，对原始文本中的至少一个原始词进行替换，得到对应的第一样本文本。

S1111，将第一样本文本中的替换词所对应的词配对标签设置为第一标签，并将第一样本文本中的原始词所对应的词配对标签设置为第二标签；其中，第一标签与第二标签不同。

S1112，通过语音测评模型中预训练的语音编码结构，对第一样本语音进行语音编码，得到对应的预测语音向量序列；通过语音测评模型中的待训练的文本编码结构，对第一样本文本进行文本编码，得到对应的预测文本向量序列。

S1114，通过语音测评模型中的多头注意力机制结构，分别确定预测文本向量序列中的每个预测文本向量与预测语音向量序列中的每个预测语音向量之间的匹配程度，并根据匹配程度，确定每个预测文本向量所对应词的预测融合声学特征。

S1116，通过语音测评模型中的解码结构对每个预测融合声学特征进行解码，得到第一样本文本中的每个词各自对应的第一预测词评分。

S1118，根据第一预测词评分、以及对应的词配对标签，构建文本编码结构损失函数；通过文本编码结构损失函数对语音测评模型中待训练的文本编码结构进行第一训练，直至达到第一训练停止条件时停止。

S1120，获取第二样本语音、与第二样本语音相对应的第二样本文本、与第二样本语音相对应的测评分值标签以及第二样本文本中的每个词各自对应的词评分标签。

S1122，通过预训练的语音测评模型，输出第二样本语音的预测测评分值、以及第二样本文本中的每个词的第二预测词评分。

S1124，根据第二预测词评分以及对应的词评分标签，确定语音测评模型的第一损失；根据预测测评分值以及测评分值标签，确定语音测评模型的第二损失。

S1126，根据第一损失和第二损失，构建语音测评模型的损失函数；通过语音测评模型的损失函数对预训练的语音测评模型进行第二训练，直至达到第二训练停止条件时停止。

本申请还提供一种应用场景，该应用场景应用上述的语音测评方法。具体地，该语音测评方法在该应用场景的应用如下：

当用户期望对自身的英语口语进行测评时，用户可对于开启口语测评应用，并通过口语测评应用选定相应的参考文本。当终端检测到用户触发“开始朗读”控件时，终端可对应采集用户对参考文本进行跟读所产生的语音，并将所采集的语音作为待测评语音，将待测评语音以及参考文本输入至语音测评模型，通过语音测评模型对待测评语音进行测评，得到测评分值，并将测评分值返回值终端，以使终端展示测评分值。

应该理解的是，虽然图2、7、8、10-11的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、7、8、10-11中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图12所示，提供了一种语音测评装置1200，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：编码模块1202、匹配模块1204和测评模块1206，其中：

编码模块1202，用于获取待测评语音以及与待测评语音对应的参考文本；分别对待测评语音以及参考文本进行编码处理，得到对应的语音编码向量序列和文本编码向量序列；文本编码向量序列中的文本编码向量与参考文本中的词对应；

匹配模块1204，用于针对文本编码向量序列中的每个文本编码向量，分别确定与语音编码向量序列中的每个语音编码向量之间的匹配程度；

测评模块1206，用于根据匹配程度，确定每个文本编码向量所对应词的融合声学特征；基于参考文本中词的融合声学特征，确定待测评语音的测评分值。

在一个实施例中，匹配模块1204还用于根据当前文本编码向量与语音编码向量序列中的每个语音编码向量之间的匹配程度，确定每个语音编码向量各自对应的自注意分配权重向量；根据每个语音编码向量各自对应的自注意分配权重向量、语音编码向量序列以及当前文本编码向量，确定与当前文本编码向量对应的词的融合声学特征。

在一个实施例中，测评模块1206还包括词评分确定模块1261，用于基于参考文本中的每个词各自对应的融合声学特征，确定参考文本中的每个词各自对应的词评分；根据参考文本中每个词各自对应的融合声学特征和词评分，确定待测评语音的测评分值。

在一个实施例中，词评分确定模块1261还用于根据参考文本中的每个词各自对应的融合声学特征，确定与参考文本相对应的文本融合特征；根据参考文本中的每个词各自对应的词评分，确定与参考文本相对应的词平均分；根据词平均分和文本融合特征，得到待测评语音的测评分值。

在一个实施例中，语音测评装置1200还用于通过语音测评模型中的语音编码结构，对待测评语音进行语音编码，得到对应的语音编码向量序列；通过语音测评模型中的文本编码结构，对参考文本进行文本编码，得到对应的文本编码向量序列；通过语音测评模型中的多头注意力机制结构，针对文本编码向量序列中的每个文本编码向量，分别确定与语音编码向量序列中的每个语音编码向量之间的匹配程度；通过语音测评模型中的多头注意力机制结构，根据匹配程度，确定每个文本编码向量所对应词的融合声学特征；通过语音测评模型中的解码结构，对参考文本中词的融合声学特征进行解码，得到待测评语音的测评分值。

在一个实施例中，语音测评装置1200还包括训练模块1208，用于获取第一样本语音、与第一样本语音相对应的第一样本文本以及第一样本文本中的每个词各自对应的词配对标签；通过语音测评模型中预训练的语音编码结构，对第一样本语音进行语音编码，得到对应的预测语音向量序列；通过语音测评模型中的待训练的文本编码结构，对第一样本文本进行文本编码，得到对应的预测文本向量序列；预测文本向量序列中的预测文本向量与第一样本文本中的词对应；通过语音测评模型中的多头注意力机制结构，分别确定预测文本向量序列中的每个预测文本向量与预测语音向量序列中的每个预测语音向量之间的匹配程度，并根据匹配程度，确定每个预测文本向量所对应词的预测融合声学特征；通过语音测评模型中的解码结构对每个预测融合声学特征进行解码，得到第一样本文本中的每个词各自对应的第一预测词评分；通过第一预测词评分和词配对标签，对语音测评模型进行第一训练，直至达到第一训练停止条件时停止。

在一个实施例中，训练模块1208包括第一训练模块1281，用于获取第一样本语音、以及与第一样本语音相匹配的原始文本；原始文本包括至少一个原始词；通过预设的替换词库，对原始文本中的至少一个原始词进行替换，得到对应的第一样本文本；将第一样本文本中的替换词所对应的词配对标签设置为第一标签，并将第一样本文本中的原始词所对应的词配对标签设置为第二标签；其中，第一标签与第二标签不同。

在一个实施例中，第一训练模块1281还用于根据第一预测词评分、以及对应的词配对标签，构建文本编码结构损失函数；通过文本编码结构损失函数对语音测评模型中待训练的文本编码结构进行第一训练，直至达到第一训练停止条件时停止。

在一个实施例中，训练模块1208还包括第二训练模块1282，用于获取第二样本语音、与第二样本语音相对应的第二样本文本、与第二样本语音相对应的测评分值标签以及第二样本文本中的每个词各自对应的词评分标签；通过预训练的语音测评模型，输出第二样本语音的预测测评分值、以及第二样本文本中的每个词的第二预测词评分；根据第二预测词评分以及对应的词评分标签，确定语音测评模型的第一损失；根据预测测评分值以及测评分值标签，确定语音测评模型的第二损失；根据第一损失和第二损失，构建语音测评模型的损失函数；通过语音测评模型的损失函数对预训练的语音测评模型进行第二训练，直至达到第二训练停止条件时停止。

在一个实施例中，训练模块1208还包括第三训练模块1283，用于获取待训练的语音识别模型、第三样本语音以及与第三样本语音相对应的语音识别标签；通过语音识别模型中的语音编码结构，对第三样本语音进行语音编码，得到对应的识别编码向量序列；通过语音识别模型中的解码结构，对识别编码向量序列进行解码，得到对应的识别字符串；根据识别字符串和语音识别标签，对语音识别模型中的语音编码结构进行第三训练，直至达到第三训练停止条件时停止；将第三训练停止后语音识别模型中的语音编码结构，作为语音测评模型中的预训练的语音编码结构。

上述语音测评装置，通过获取待测评语音以及参考文本，可以分别对待测评语音和参考文本进行编码处理，得到对应的语音编码向量序列和文本编码向量序列；通过确定语音编码向量序列和文本编码向量序列，可将语音编码向量与文本编码向量进行匹配，以确定文本编码向量序列中的每个文本编码向量与语音编码向量序列中的每个语音编码向量之间的匹配程度，如此，便可基于匹配程度，确定每个词各自对应的最为匹配的融合声学特征，并基于融合声学特征，确定待测评语音的测评分值。由于是根据每个文本编码向量与每个语音编码向量之间的匹配程度，确定待测评语音的测评分值，相比于传统的需要开发人员基于专业的音频知识，确定从语谱图提取何种语音特征向量用于语音测评，本申请无需开发人员具备专业的音频知识，从而大大提升了语音测评的通用性。

在一个实施例中，如图13所示，提供了一种语音测评装置1300，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：采集模块1302、分值展示模块1304和词评分展示模块1306，其中：

采集模块1302，用于显示参考文本；响应于针对参考文本所触发的跟读操作，触发语音采集，获得对参考文本进行跟读所获得的待测评语音；

分值展示模块1304，用于展示待测评语音的测评分值；

词评分展示模块1306，用于响应于对参考文本中词的触发操作，展示词的词评分；其中，测评分值是根据参考文本中每个词的词评分确定的。

在一个实施例中，词评分展示模块1306还用于响应于光标移动操作移动光标，使得光标移动后指向参考文本中的词；在光标所指向的词对应的空白位置处，显示光标所指向的词的词评分。

上述语音测评装置，通过展示参考文本，可响应于对参考文本所触发的跟读操作，采集待测评语音；通过采集待测评语音，可基于待测评语音和参考文本确定参考文本中每个词的词评分，并根据每个词的词评分确定待测评语音的测评分值；通过确定每个词的词评分以及待测评语音的测评分值，可在输出测评分值的同时，根据对参考文本中词的触发操作输出词评分的细节反馈，如此，大大提升了用户体验。由于是根据每个词的词评分确定测评分值的，相比于传统的需要开发人员基于专业的音频知识，确定从语谱图提取何种语音特征向量，并基于提取出的语音特征向量进行语音测评，本申请无需开发人员具备专业的音频知识，也无需提取特定的语音特征，从而提升了语音测评的通用性。

关于语音测评装置的具体限定可以参见上文中对于语音测评方法的限定，在此不再赘述。上述语音测评装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音测评数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音测评方法。

本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音测评方法，其特征在于，所述方法包括：

获取待测评语音以及与所述待测评语音对应的参考文本；

2.根据权利要求1所述的方法，其特征在于，所述根据所述匹配程度，确定每个所述文本编码向量所对应词的融合声学特征，包括：

根据当前文本编码向量与所述语音编码向量序列中的每个语音编码向量之间的匹配程度，确定每个所述语音编码向量各自对应的自注意分配权重向量；

3.根据权利要求1所述的方法，其特征在于，所述基于所述参考文本中词的所述融合声学特征，确定所述待测评语音的测评分值，包括：

基于所述参考文本中的每个词各自对应的所述融合声学特征，确定所述参考文本中的每个词各自对应的词评分；

根据所述融合声学特征和所述词评分，确定所述待测评语音的测评分值。

4.根据权利要求3所述的方法，其特征在于，所述根据所述融合声学特征和所述词评分，确定所述待测评语音的测评分值，包括：

根据所述参考文本中的每个词各自对应的所述融合声学特征，确定与所述参考文本相对应的文本融合特征；

根据所述参考文本中的每个词各自对应的所述词评分，确定与所述参考文本相对应的词平均分；

根据所述词平均分和所述文本融合特征，得到所述待测评语音的测评分值。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述语音测评方法由语音测评模型执行，所述语音测评模型通过模型训练步骤训练获得，所述模型训练步骤包括：

获取第一样本语音、与所述第一样本语音相对应的第一样本文本以及所述第一样本文本中的每个词各自对应的词配对标签；

通过所述语音测评模型中预训练的语音编码结构，对所述第一样本语音进行语音编码，得到对应的预测语音向量序列；

通过所述语音测评模型中的待训练的文本编码结构，对所述第一样本文本进行文本编码，得到对应的预测文本向量序列；所述预测文本向量序列中的预测文本向量与所述第一样本文本中的词对应；

通过所述语音测评模型中的多头注意力机制结构，分别确定所述预测文本向量序列中的每个预测文本向量与所述预测语音向量序列中的每个预测语音向量之间的匹配程度，并根据所述匹配程度，确定每个所述预测文本向量所对应词的预测融合声学特征；

通过所述语音测评模型中的解码结构对每个所述预测融合声学特征进行解码，得到所述第一样本文本中的每个词各自对应的第一预测词评分；

通过所述第一预测词评分和所述词配对标签，对所述语音测评模型进行第一训练，直至达到第一训练停止条件时停止。

6.根据权利要求5所述的方法，其特征在于，所述获取第一样本语音、与所述第一样本语音相对应的第一样本文本以及所述第一样本文本中的每个词各自对应的词配对标签，包括：

获取第一样本语音、以及与所述第一样本语音相匹配的原始文本；所述原始文本包括至少一个原始词；

通过预设的替换词库，对所述原始文本中的至少一个原始词进行替换，得到对应的第一样本文本；

将所述第一样本文本中的替换词所对应的词配对标签设置为第一标签，并将所述第一样本文本中的原始词所对应的词配对标签设置为第二标签；其中，所述第一标签与所述第二标签不同。

7.根据权利要求5所述的方法，其特征在于，所述通过所述第一预测词评分和所述词配对标签，对所述语音测评模型进行第一训练，直至达到第一训练停止条件时停止，包括：

根据所述第一预测词评分、以及对应的所述词配对标签，构建文本编码结构损失函数；

通过所述文本编码结构损失函数对所述语音测评模型中待训练的文本编码结构进行第一训练，直至达到第一训练停止条件时停止。

8.根据权利要求5所述的方法，其特征在于，在所述第一训练停止后，所述方法还包括：

获取第二样本语音、与所述第二样本语音相对应的第二样本文本、与所述第二样本语音相对应的测评分值标签以及所述第二样本文本中的每个词各自对应的词评分标签；

通过预训练的语音测评模型，输出所述第二样本语音的预测测评分值、以及所述第二样本文本中的每个词的第二预测词评分；

根据所述第二预测词评分以及对应的所述词评分标签，确定所述语音测评模型的第一损失；

根据所述预测测评分值以及所述测评分值标签，确定所述语音测评模型的第二损失；

根据所述第一损失和所述第二损失，构建所述语音测评模型的损失函数；

通过所述语音测评模型的损失函数对预训练的所述语音测评模型进行第二训练，直至达到第二训练停止条件时停止。

9.根据权利要求5所述的方法，其特征在于，语音编码结构通过语音编码结构训练步骤训练获得，所述语音编码结构训练步骤包括：

获取待训练的语音识别模型、第三样本语音以及与所述第三样本语音相对应的语音识别标签；

通过所述语音识别模型中的语音编码结构，对所述第三样本语音进行语音编码，得到对应的识别编码向量序列；

通过所述语音识别模型中的解码结构，对所述识别编码向量序列进行解码，得到对应的识别字符串；

根据所述识别字符串和所述语音识别标签，对所述语音识别模型中的语音编码结构进行第三训练，直至达到第三训练停止条件时停止；

将第三训练停止后所述语音识别模型中的语音编码结构，作为所述语音测评模型中的预训练的语音编码结构。

10.一种语音测评方法，其特征在于，所述方法还包括：

显示参考文本；

展示所述待测评语音的测评分值；

11.根据权利要求10所述的方法，其特征在于，所述响应于对所述参考文本中词的触发操作，展示所述词的词评分，包括：

响应于光标移动操作移动光标，使得所述光标移动后指向所述参考文本中的词；

在所述光标所指向的词对应的空白位置处，显示所述光标所指向的词的词评分。

12.一种语音测评装置，其特征在于，所述装置包括：

13.一种语音测评装置，其特征在于，所述装置包括：

分值展示模块，用于展示所述待测评语音的测评分值；

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。