CN113763929A

CN113763929A - 一种语音评测方法、装置、电子设备和存储介质

Info

Publication number: CN113763929A
Application number: CN202110579754.7A
Authority: CN
Inventors: 林炳怀; 王丽园
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2021-12-07

Abstract

本发明实施例公开了一种语音评测方法、装置、电子设备和存储介质；本发明实施例可以获取待评测语音及所述待评测语音对应的参考文本，对所述待评测语音进行语音特征提取，得到所述待评测语音对应的目标语音特征，对所述参考文本进行语义特征提取，得到所述参考文本对应的目标语义特征，根据所述目标语音特征和所述目标语义特征进行特征关联度计算，得到所述目标语音特征和所述目标语义特征之间的特征关联度，基于所述特征关联度，对所述待评测语音进行评测结果分类处理，得到所述待评测语音对应的评测结果；因此，可以通过同时结合提取的语音和语义特征，融合多模态信息评测口语，减少对自动语音识别技术的依赖，提高口语评测结果的准确性。

Description

一种语音评测方法、装置、电子设备和存储介质

技术领域

本发明涉及语音处理技术领域，具体涉及一种语音评测方法、装置、电子设备和存储介质。

背景技术

随着语言学习的不断发展，各种语言的语言学习者可以借助口语评测的评测结果，确定个人的口语学习情况。

目前，在口语测评中，除了人工对语言学习者的口语进行打分之外，还可以基于自动语音识别技术生成的中间特征，包括文本特征与声学特征等等，对语言学习者的口语进行评测。但是这种方法依赖于自动语音识别技术的识别准确度。

发明内容

本发明实施例提供一种语音评测方法、装置、电子设备和存储介质，可以通过同时结合文本和声学模态，提取声学和语义特征，融合多模态信息进行口语评测，减少对自动语音识别技术的依赖，提高口语评测结果的准确性，节约人力资源。

本发明实施例提供一种语音评测方法，包括：

获取待评测语音及所述待评测语音对应的参考文本；

对所述待评测语音进行语音特征提取，得到所述待评测语音对应的目标语音特征；

对所述参考文本进行语义特征提取，得到所述参考文本对应的目标语义特征；

根据所述目标语音特征和所述目标语义特征进行特征关联度计算，得到所述目标语音特征和所述目标语义特征之间的特征关联度；

基于所述特征关联度，对所述待评测语音进行评测结果分类处理，得到所述待评测语音对应的评测结果。

相应的，本发明实施例还提供一种语音评测装置，包括：

数据获取单元，用于获取待评测语音及所述待评测语音对应的参考文本；

语音特征提取单元，用于对所述待评测语音进行语音特征提取，得到所述待评测语音对应的目标语音特征；

语义特征提取单元，用于对所述参考文本进行语义特征提取，得到所述参考文本对应的目标语义特征；

关联度计算单元，用于根据所述目标语音特征和所述目标语义特征进行特征关联度计算，得到所述目标语音特征和所述目标语义特征之间的特征关联度；

评测结果生成单元，用于基于所述特征关联度，对所述待评测语音进行评测结果分类处理，得到所述待评测语音对应的评测结果。

可选的，所述语音特征提取单元用于根据语音特征提取模型的语音特征映射参数，将所述待评测语音映射到语音特征向量空间中，基于映射结果得到目标语音特征向量，将所述目标语音特征向量作为所述待评测语音对应的目标语音特征。

可选的，所述语音特征提取单元用于将所述待评测语音划分为子语音，得到子语音集合；

通过所述语音特征提取模型的语音特征映射参数对所述子语音集合中的子语音进行特征提取，得到各所述子语音对应的语音特征子向量；

根据所述语音特征子向量，确定所述待评测语音在语音特征向量空间中的语音初始特征向量；

根据所述语音初始特征向量确定所述子语音对应的语音关联权重，所述语音关联权重用于指示所述子语音集合中的子语音之间的关联关系；

基于所述语音关联权重，对所述语音初始特征向量进行加权计算，得到所述待评测语音在语音特征向量空间中的目标语音特征向量。

可选的，所述语义特征提取单元，用于根据语义特征提取模型的语义特征映射参数，将所述参考文本映射到语义特征向量空间中，基于映射结果得到目标语义特征向量，将所述目标语义特征向量作为所述参考文本对应的目标语义特征。

可选的，所述关联度计算单元，用于通过特征关联网络对所述目标语音特征和所述目标语义特征进行关联特征计算，得到所述目标语音特征和所述目标语义特征对应的关联特征；

基于分类网络，对所述关联特征进行关联分析，确定所述目标语音特征和所述目标语义特征对应的特征关联度。

可选的，所述语音特征提取单元前还包括语音模型训练单元，用于通过待训练的语音特征提取模型，对第一样本语音进行语音特征提取，得到所述第一样本语音对应的第一语音特征向量，其中，所述第一样本语音标注有参考语音识别文本；

通过语音识别模型，对所述第一语音特征向量进行文本转换，得到所述第一样本语音对应的语音识别文本；

基于所述参考语音识别文本和所述语音识别文本，计算所述待训练的语音特征提取模型的损失；

根据所述损失，对所述待训练的语音特征提取模型的模型参数进行调整，得到训练后的语音特征提取模型。

可选的，所述语义特征提取单元前还包括语义模型训练单元，用于通过待训练的语义特征提取模型，对第一样本文本进行语义特征提取，得到所述第一样本文本的第一样本语义特征向量，其中，所述第一样本文本中包含至少一组第一样本文本组，所述第一样本文本组中包括至少两句第一样本文本语句以及所述第一样本文本语句之间的参考语义关系；

根据所述第一样本语义特征向量，判断每个所述第一样本文本组中的所述第一样本文本语句之间的语义关系；

根据所述语义关系和所述参考语义关系，计算所述待训练的语义特征提取模型的损失；

基于所述损失，调整所述待训练的语义特征提取模型的模型参数，得到训练后的语义特征提取模型。

可选的，所述语音特征提取单元前还包括联合训练单元，用于获取样本对，所述样本对中包括第二样本语音、第二样本文本和所述第二样本文本中在所述第二样本语音中出现的样本词语，其中，所述第二样本文本中包括至少一组第二样本文本组，所述第二样本文本组中包括两句第二样本文本语句以及所述第二样本文本语句之间的参考语义关系；

通过待训练的语音特征提取模型的语音特征映射参数，将所述第二语音样本映射到语音特征向量空间中，得到第二样本语音特征向量；

通过待训练的语义特征提取模型的语义特征映射参数，将所述第二样本文本映射到语义特征向量空间中，得到第二样本语义特征向量；

基于同一样本对的第二样本语音特征向量和第二样本语义特征向量，确定第二样本文本在所述第二样本语音中出现的训练词语；

基于所述第二样本语义特征向量，确定各所述第二样本文本组中的第二样本文本语句之间的语义关系；

根据所述训练词语、所述样本词语、所述语义关系和所述参考语义关系，计算所述待训练的语义特征提取模型和语音特征提取模型的损失；

基于所述损失，对所述待训练的语义特征提取模型和语音特征提取模型的模型参数进行调整，得到训练后的语义特征提取模型和语音特征提取模型。

可选的，所述关联度计算单元前还包括网络训练单元，用于获取第三样本语音对应的第三样本语音特征以及第三样本文本对应的第三样本语义特征，其中，所述第三样本语音与所述第三样本文本对应，所述第三样本语音标注有参考评测结果；

通过待训练的特征关联网络对所述第三样本语音特征和所述第三样本语义特征进行关联特征计算，得到所述第三样本语音特征和所述第三样本语义特征对应的样本关联特征；

通过待训练的分类网络，对所述样本关联特征进行关联分析，确定所述所述第三样本语音特征和所述第三样本语义特征对应的特征关联度；

将所述特征关联度作为所述第三样本语音对应的样本评测结果，基于所述样本评测结果和参考评测结果，计算所述特征关联网络和所述分类网络的损失；

基于所述损失，对所述特征关联网络和所述分类网络的参数进行调整，得到训练后的特征关联网络和分类网络。

可选的，所述关联度计算单元前还包括参考语音特征提取单元，用于获取所述参考文本对应的参考语音；

对所述参考语音进行语音特征提取，得到所述参考语音对应的参考语音特征；

对应的，所述关联度计算单元用于对所述目标语音特征和所述参考语音特征进行特征关联度计算，得到语音特征关联度；

对所述目标语音特征和所述目标语义特征进行特征关联度计算，得到语义特征关联度；

基于所述语音特征关联度和所述语义特征关联度，得到所述目标语音特征和所述目标语义特征之间的特征关联度。

可选的，所述语义特征提取单元前还包括替换文本获取单元，用于获取所述参考文本中各词语对应的替换文本；

对应的，所述语义特征提取单元用于基于所述参考文本和所述替换文本进行语义特征提取，得到所述参考文本对应的目标语义特征。

可选的，所述待评测语音为用户针对评测问题输入的回答语音，所述参考文本为针对同一所述评测问题预设的参考答案文本，所述关联度计算单元用于根据所述目标语音特征和所述目标语义特征，计算特征之间的特征关联度，所述特征关联度指示所述回答语音与所述参考答案文本之间的关联程度；

所述评测结果生成单元，用于基于所述特征关联度，对所述回答语音进行评测分数映射，确定所述回答语音对应的评测分数，将所述评测分数作为所述回答语音对应的评测结果。

相应的，本发明实施例还提供一种电子设备，包括存储器和处理器；所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行本发明实施例所提供的任一种语音评测方法中的步骤。

此外，本发明实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一种语音评测方法中的步骤。

采用本发明实施例的方案，可以获取待评测语音及该待评测语音对应的参考文本，对该待评测语音进行语音特征提取，得到该待评测语音对应的目标语音特征，对该参考文本进行语义特征提取，得到该参考文本对应的目标语义特征，根据该目标语音特征和该目标语义特征进行特征关联度计算，得到该目标语音特征和该目标语义特征之间的特征关联度，基于该特征关联度，对该待评测语音进行评测结果分类处理，得到该待评测语音对应的评测结果；由于本发明实施例中结合目标语音特征和目标语义特征计算目标语音特征和目标语义特征之间的特征关联度后，再根据特征关联度对待评测语音进行评测，因此可以通过同时结合文本和声学模态，提取声学和语义特征，融合多模态信息进行口语评测，减少对自动语音识别技术的依赖，提高口语评测结果的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的语音测评方法的场景示意图；

图2是本发明实施例提供的语音测评方法的流程图；

图3是本发明实施例提供的语音测评方法的另一流程图；

图4是本发明实施例提供的语音测评装置的结构示意图；

图5是本发明实施例提供的语音测评装置的另一结构示意图；

图6是本发明实施例提供的口语测评应用的界面示意图；

图7是本发明实施例提供的语音特征提取模型的训练过程示意图；

图8是本发明实施例提供的训练后的语音特征提取模型的示意图；

图9是本发明实施例提供的语义特征提取模型的训练过程示意图；

图10是本发明实施例提供的联合训练示意图；

图11是本发明实施例提供的对特征关联网络和分类网络进行训练的示意图；

图12是本发明实施例提供的语音评测方法的另一场景示意图；

图13是本发明实施例提供的实验结果对比图；

图14是本发明实施例提供的电子设备的结构示意图；

图15是本发明实施例提供的分布式系统110应用于区块链系统的一个可选的结构示意图；

图16是本发明实施例提供的区块结构的一个可选的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种语音评测方法、装置、电子设备和存储介质。具体地，本发明实施例提供适用于语音评测装置的语音评测方法，该语音评测装置可以集成在电子设备中。

该电子设备可以为终端等设备，包括但不限于移动终端和固定终端，例如移动终端包括但不限于智能手机、智能手表、平板电脑、笔记本电脑、车载终端、智能语音交互设备等，其中，固定终端包括但不限于台式电脑、智能家电等。

该电子设备还可以为服务器等设备，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，但并不局限于此。

本发明实施例的语音评测方法，可以由服务器实现，也可以由终端和服务器共同实现。

下面以终端和服务器共同实现该语音评测方法为例，对该方法进行说明。

如图1所示，本发明实施例提供的语音评测系统包括终端10和服务器20等；终端10与服务器20之间通过网络连接，比如，通过有线或无线网络连接等，其中，终端10可以作为用户向服务器20发送待评测的用户语音的终端存在，终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。

其中，终端10可以为用户上传待评测语音的终端，用于向服务器20发送获取到的待评测语音。

服务器20，可以用于获取待评测语音及待评测语音对应的参考文本，对待评测语音进行语音特征提取，得到待评测语音对应的目标语音特征，对参考文本进行语义特征提取，得到参考文本对应的目标语义特征，根据目标语音特征和目标语义特征进行特征关联度计算，得到目标语音特征和目标语义特征之间的特征关联度，基于特征关联度，对待评测语音进行评测结果分类处理，得到待评测语音对应的评测结果。

在一些实施例中，服务器20可以将评测结果发送给终端10，由终端10向用户显示语音对应的评测结果。

以下分别进行详细说明。需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本发明实施例将从语音评测装置的角度进行描述，该语音评测装置具体可以集成在服务器或终端中。

本发明实施例提供的一种语音评测方法，该方法可以由终端的处理器或者服务器执行，如图2所示，本实施例的语音评测方法的具体流程可以如下：

201、获取待评测语音及待评测语音对应的参考文本。

其中，待评测语音可以为用户通过电子设备直接提交的语音文件，或者，也可以是电子设备通过对外部的声音进行收集后生成的语音。

例如，图6为本发明实施例提供的口语测评应用的一个界面示意图，用户可以点击如图6中601所示的语音采集页面中名为“开始录音”的控件，触发电子设备开始对外部的声音进行收集。当用户点击如图6中602所示的结束采集页面中名为“结束录音”的控件时，触发电子设备结束对外部声音的采集，根据已经采集到的声音生成待评测语音。

其中，参考文本为待评测语音对应的文本内容。比如，待评测语音为用户针对某一口语测试题目的回答语音，而参考文本可以是预先设置好的对同一口语测试题目的回答文本。

可以理解的是，待评测语音中的口语内容可以与参考文本中的内容并不相同。例如，在如图6所示的名为“题目显示区域”的显示区域中，显示的口语测试题目为“你最喜欢的运动是什么？”，待评测语音中用户所说的内容可以为“我最喜欢的运动是游泳。”，而提供的参考文本中的内容可以包括“我最喜欢的运动是篮球，因为篮球是非常具有对抗性的运动；我最喜欢的运动是瑜伽，因为瑜伽可以让我身心放松。”等等。

需要说明的是，本发明实施例提供的口语测评应用的界面示意图不应理解为对本发明实施例的限定。

202、对待评测语音进行语音特征提取，得到待评测语音对应的目标语音特征。

在一些可选的示例中，可以通过对待评测语音进行声谱和频谱的提取，再根据提取出的声谱和频谱做分帧、加窗、滤波、傅里叶变换等处理，得到待评测语音对应的目标语音特征。

在另一些可选的示例中，可以通过机器学习和语音技术对待评测语音进行语音特征提取，其中，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition，ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

在一些实施例中，步骤202可以包括：根据语音特征提取模型的语音特征映射参数，将待评测语音映射到语音特征向量空间中，基于映射结果得到目标语音特征向量，将目标语音特征向量作为待评测语音对应的目标语音特征。

其中，语音特征提取模型是可以对语音进行特征提取的模型。比如，语音特征提取模型可以包括卷积神经网络和金字塔网络(feature pyramid net)等等，也就是说，步骤“根据语音特征提取模型的语音特征映射参数，将待评测语音映射到语音特征向量空间中，基于映射结果得到目标语音特征向量”可以包括：通过卷积神经网络的卷积神经网络参数对待评测语音进行特征提取，得到语音特征向量空间中多个卷积层输出的特征信息，通过金字塔网络分别对该多个卷积层输出的特征信息处理，根据金字塔网络中每一层的处理结果生成待评测语音的目标语音特征。

在另一些可选的实施例中，可以采用多头注意力网络(Multi-Head Attention)或者自注意力网络(self-attention)对待评测语音进行特征提取，得到待评测语音的语音关联权重，譬如，具体的提取过程可以为将语音初始特征向量转换为多个维度的空间向量，然后，将该多个维度的空间向量作为子语音集合中每一子语音的语音关联权重。

即，步骤“根据语音特征提取模型的语音特征映射参数，将待评测语音映射到语音特征向量空间中，基于映射结果得到目标语音特征向量”可以包括：

将待评测语音划分为子语音，得到子语音集合；

通过语音特征提取模型的语音特征映射参数对子语音集合中的子语音进行特征提取，得到各子语音对应的语音特征子向量；

根据语音特征子向量，确定待评测语音在语音特征向量空间中的语音初始特征向量；

根据语音初始特征向量确定子语音对应的语音关联权重，语音关联权重用于指示子语音集合中的子语音之间的关联关系；

基于语音关联权重，对语音初始特征向量进行加权计算，得到待评测语音在语音特征向量空间中的目标语音特征向量。

其中，子语音是对待评测语音进行语音划分后得到的语音，具体的语音划分规则可以由技术人员根据实际应用情况自行设定，例如，语音划分规则可以为每隔30ms对待评测语音进行一次划分，或者可以是将待评测语音根据时间长度划分为10个时间长度相同的子语音，或者，可以根据待评测语音的声谱和频谱对待评测语音进行时间长度不定的划分，等等。本发明实施例对此不做限定。

其中，语音初始特征向量可以通过由语音特征子向量直接进行向量拼接得到，或者，语音初始特征向量可以通过对语音特征子向量进行加权计算等向量处理过程得到。

例如，以将语音初始特征向量转换为多个维度的空间向量为例，步骤“根据语音初始特征向量确定子语音对应的语音关联权重”可以包括：

采用多头注意力网络对语音初始特征向量转换为查询向量(q)、键向量(k)和值向量(v)，比如，具体可以采用自注意力网络将语音初始特征向量分别与三个维度的转换参数进行融合，得到查询向量(q)、键向量(k)和值向量(v)，将查询向量(q)、键向量(k)和值向量(v)作为子语音集合中每一子语音的语音关联权重。

再例如，可以对待评测语音从时间维度上进行切割，例如每隔10ms确定一个样本点，将待评测语音划分为N个子样本(子语音)，每个子样本有D维，则每个语音特征子向量可以是1*D维向量，对语音特征子向量进行拼接，得到N*D维的语音初始特征向量，将语音初始特征向量与自身的D*N维的转置向量相乘，相当于每个子语音与其他的N-1个子语音做了相似度计算，得到一个N*N维的向量即为语音关联权重。将语音关联权重与语音初始特征向量相乘，得到的新的N*D的向量即为目标语音特征向量。

可以理解的是，为了提升语音特征提取模型对特征提取的准确度，如图7所示，可以对语音特征提取模型进行预训练，即步骤“根据语音特征提取模型的语音特征映射参数，将待评测语音映射到语音特征向量空间中，基于映射结果得到目标语音特征向量”前，还包括：

通过待训练的语音特征提取模型，对第一样本语音进行语音特征提取，得到第一样本语音对应的第一语音特征向量，其中，第一样本语音标注有参考语音识别文本；

通过语音识别模型，对第一语音特征向量进行文本转换，得到第一样本语音对应的语音识别文本；

基于参考语音识别文本和语音识别文本，计算待训练的语音特征提取模型的损失；

根据损失，对待训练的语音特征提取模型的模型参数进行调整，得到训练后的语音特征提取模型。

其中，第一样本语音可以是收集的口语评测过程中产生的已评测或待评测语音，为了减少对人工的依赖，也可以是常规的ASR模型训练样本，例如LibriSpeech ASRcorpus、THCHS-30、VoxForge等数据集。

其中，语音识别模型可以是已经训练好的模型，也可以是未经训练的模型，语音识别模型可以根据第一语音特征向量进行语音识别，识别出第一语音特征向量对应的文本。

在一些可选的示例中，语音特征提取模型的损失可以通过交叉熵函数、梯度下降法等求解得到，本发明实施例对此不做限定。

可以理解的是，如图8所示，训练后的语音特征提取模型中除了注意力网络还可以包括前馈神经网络等等，技术人员可以根据实际需求添加词嵌入网络等等。

203、对参考文本进行语义特征提取，得到参考文本对应的目标语义特征。

其中，目标语义特征可以为表征文本内容的真实意思的语义特征，所谓语义特征，也称为义素(SEME)，是词的义位(MEME，相当于义项的意义的最小单位)的构成因子，是义位的区别性特征，它可以表征词与他词的组合关系。

在一些示例中，可以是对参考文本进行分词等处理后，根据预设的文本与语义特征之间的映射关系，确定参考文本对应的目标语音特征。

在另一些示例中，可以结合机器学习技术与自然语言处理技术对参考文本进行语义特征提取。自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

在一些实施例中，步骤203可以包括：根据语义特征提取模型的语义特征映射参数，将参考文本映射到语义特征向量空间中，基于映射结果得到目标语义特征向量，将目标语义特征向量作为参考文本对应的目标语义特征。

其中，语义特征提取模型是可以对文本进行语义特征提取的模型。在一些可选的实施例中，可以采用多头注意力网络(Multi-Head Attention)或者自注意力网络(self-attention)对参考文本进行语义特征提取，得到参考文本的词语关联权重，譬如，具体的提取过程可以为将语义初始特征向量转换为多个维度的空间向量，然后，将该多个维度的空间向量作为词语集合中每一词语的词义关联权重。

即，步骤“根据语义特征提取模型的语义特征映射参数，将参考文本映射到语义特征向量空间中，基于映射结果得到目标语义特征向量”可以包括：

将参考文本划分为词语，得到词语集合；

通过语义特征提取模型的语义特征映射参数对词语集合中的词语进行特征提取，得到各词语对应的语义特征子向量；

根据语义特征子向量，确定参考文本在语义特征向量空间中的语义初始特征向量；

根据语义初始特征向量确定词语对应的语义关联权重，语义关联权重用于指示词语集合中的词语之间的关联关系；

基于语义关联权重，对语义初始特征向量进行加权计算，得到参考文本在语义特征向量空间中的目标语义特征向量。

其中，词语是对参考文本进行词语划分后得到的词语，具体的词语划分规则可以由技术人员根据实际应用情况自行设定，例如，词语划分规则可以为每隔10个字对参考文本进行一次划分，或者可以根据参考文本中的标点符号对参考文本进行词语长度不定的划分，等等。本发明实施例对此不做限定。

其中，语义初始特征向量可以通过由语义特征子向量直接进行向量拼接得到，或者，语义初始特征向量可以通过对语义特征子向量进行加权计算等向量处理过程得到。

可以理解的是，为了提升语义特征提取模型对特征提取的准确度，如图9所示，可以对语义特征提取模型进行预训练，即，步骤“根据语义特征提取模型的语义特征映射参数，将参考文本映射到语义特征向量空间中，基于映射结果得到目标语义特征向量”前，还包括：

通过待训练的语义特征提取模型，对第一样本文本进行语义特征提取，得到第一样本文本的第一样本语义特征向量，其中，第一样本文本中包含至少一组第一样本文本组，第一样本文本组中包括至少两句第一样本文本语句以及第一样本文本语句之间的参考语义关系；

根据第一样本语义特征向量，判断每个第一样本文本组中的第一样本文本语句之间的语义关系；

根据语义关系和参考语义关系，计算待训练的语义特征提取模型的损失；

基于损失，调整待训练的语义特征提取模型的模型参数，得到训练后的语义特征提取模型。

其中，如图9所示，根据第一样本语义特征向量，判断每个第一样本文本组中的第一样本文本语句之间的语义关系时，可以通过语义理解模型确定第一样本文本语句之间的语义关系。

例如，可以将第一样本文本组中的文本分为蕴含前件记作P(premise)，即前提，蕴含后件记作H(hypothesis)，即假设。蕴含前件与蕴含后件之间有三种语义关系，如果P能推理到H,则是蕴含关系；如果P不能推到H，则是中立关系。如果P能推到H相反的结论，则是矛盾关系。将P和H分别输入两个语义特征提取模型中进行语义特征提取后，再经过语义理解模型中的注意力网络、池化层和分类网络，最终获得P与H之间语义关系的三种分类结果。

具体地，语义特征提取模型的损失可以通过交叉熵函数、梯度下降法等求解得到，本发明实施例对此不做限定，语义特征提取模型的损失也可以通过如下的公式进行计算：

其中，p为预测结果(通过训练过程得到的P与H之间的每种语义关系的概率)，y为标签(第一样本文本语句之间的参考语义关系)。i为m个样本文本组中的第i个样本文本组，j是第j种语义关系，例如j可以为0、1、2，分别代表蕴含关系、中立关系和矛盾关系，此时p表示P和H属于每种语义关系的概率值。

在一些可选的示例中，可以先对参考文本进行预处理，例如，可以基于词典将参考文本中的句子进行切分，将切分后的词进行组合，得到初始文本词集合，等等。其中，基于词典的具体分词算法可以也包括多种，譬如，最大匹配分词算法、最短路径分词算法和基于n-gram model(一种分词算法)的分词算法。

或者，还可以采用基于模型的分词算法将参考文本中的句子按照字符进行切分，将切分的字符进行组合，得到文本词，从而就可以得到初始文本词集合；其中，该基于模型的分词算法也可以包括多种，比如，生成式模型分词算法、判别式模型分词算法和神经网络分词算法等分词算法，等等。

在得到初始文本词集合之后，便可以对初始文本词集合中的文本词进行过滤，得到文本词集合，其中，过滤的方式也可以包括多种，比如，可以对初始文本词集合中的文本词进行去停用词处理，譬如，可以在初始文本词集合中筛选出预设停用词库中包括的文本词，从而得到初始文本词集合中的停用词，然后，将该停用词进行过滤，得到文本词集合；或者，还可以基于预设无用词对应的正则表达式对初始文本词集合中的文本词进行无用词过滤，然后，将过滤了无用词之后的初始文本词集合作为文本词集合，等等。

其中，停用词指的是在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的，生成后的停用词会形成一个停用词库(表)。而无用词指的是与信息分类无关的一些词。

在对参考文本进行语义特征提取时，可以是在对参考文本进行处理得到文本词集合后，对文本词进行语义特征提取，等等。

可以理解的是，可以通过对语音特征提取模型和语义特征提取模型进行联合训练，同时对语音特征提取模型和语义特征提取模型进行优化，同时也可以达到语音特征向量空间和语义特征向量空间进行连接的效果。即，如图10所示，步骤“根据语义特征提取模型的语义特征映射参数，将参考文本映射到语义特征向量空间中，基于映射结果得到目标语义特征向量”前，还包括：

获取样本对，样本对中包括第二样本语音、第二样本文本和第二样本文本中在第二样本语音中出现的样本词语，其中，第二样本文本中包括至少一组第二样本文本组，第二样本文本组中包括两句第二样本文本语句以及第二样本文本语句之间的参考语义关系；

通过待训练的语音特征提取模型的语音特征映射参数，将第二语音样本映射到语音特征向量空间中，得到第二样本语音特征向量；

通过待训练的语义特征提取模型的语义特征映射参数，将第二样本文本映射到语义特征向量空间中，得到第二样本语义特征向量；

基于同一样本对的第二样本语音特征向量和第二样本语义特征向量，确定第二样本文本在第二样本语音中出现的训练词语；

基于第二样本语义特征向量，确定各第二样本文本组中的第二样本文本语句之间的语义关系；

根据训练词语、样本词语、语义关系和参考语义关系，计算待训练的语义特征提取模型和语音特征提取模型的损失；

基于损失，对待训练的语义特征提取模型和语音特征提取模型的模型参数进行调整，得到训练后的语义特征提取模型和语音特征提取模型。

比如，在联合训练时可以设置两个不同的训练任务，如单词匹配任务和自然语言理解任务，两个任务进行多任务学习。其中单词匹配任务主要基于转写文本中的每个单词，到语音中寻找是否包含该单词，即确定第二样本文本在第二样本语音中出现的训练词语。这种匹配过程通过多头注意力机制实现。最终输出每个单词的是否出现在语音中的分类结果。自然语言理解任务为推断一对文本之间的语义关系，即输入前提和假设，输出前提和假设的关系，与语义特征提取模型的单独训练的过程类似，本发明对此不做赘述。

其中，单词匹配任务的损失可以通过如下的公式进行计算：

其中，y为单词匹配标签，p为单词匹配预测结果。i为一句话中的第i个单词，n_j为一句话中单词的个数，m为所有句子数，ω表示第ω组第二样本文本组。

另一方面，联合训练时对模型的优化采用多任务学习进行优化，结合两个任务的损失，进行同时优化，则联合训练的整体损失如下公式所示：

l＝γ×l_ω+(1-γ)×l_NLU

其中γ为两个任务的权重，这个权重大小范围为0-1之间，是联合训练前提前设置的参数。

在实际应用过程中，参考文本中给出的参考答案可能有很多同义词可以替换，例如参考答案中的“喜欢”，对应的还有“喜爱”、“爱”、“热爱”等等可以替换。因此在对参考文本进行语义特征提取时，可以结合参考文本中各词语的同义词或近义词进行语义特征提取。即，步骤“对参考文本进行语义特征提取，得到参考文本对应的目标语义特征”前，还可以包括：

获取参考文本中各词语对应的替换文本；

对应的，步骤“对参考文本进行语义特征提取，得到参考文本对应的目标语义特征”，可以包括：

基于参考文本和替换文本进行语义特征提取，得到参考文本对应的目标语义特征。

其中，替换文本可以是各词语的同义词或者近义词等等。在基于参考文本和替换文本进行语义特征提取时，可以分别用替换文本替换参考文本中的词语得到一个语义特征，最后根据所有的语义特征进行运算得到目标语义特征。或者，对参考文本进行语义特征提取后，再对替换文本进行语义特征提取，最后根据所有的语义特征进行运算得到目标语义特征。

204、根据目标语音特征和目标语义特征进行特征关联度计算，得到目标语音特征和目标语义特征之间的特征关联度。

在一些实施例中，例如目标语音特征和目标语义特征均为向量，此时特征关联度计算可以是直接计算两个向量之间的向量相似度作为特征关联度。

在另一些实施例中，可以先获取能够表示两个特征之间的关联关系的关联特征，再对关联特征进行关联分析，确定两个特征之间的特征关联度。即，步骤204可以包括：

通过特征关联网络对目标语音特征和目标语义特征进行关联特征计算，得到目标语音特征和目标语义特征对应的关联特征；

基于分类网络，对关联特征进行关联分析，确定目标语音特征和目标语义特征对应的特征关联度。

其中，特征关联网络可以是注意力网络，通过多头注意力机制，计算目标语音特征和目标语义特征之间的关联特征，等等。

在一些可选的示例中，在分类网络之前，还可以加入池化层对关联特征进行处理，降低关联特征的数据量，进一步提升关联特征对目标语音特征和目标语义特征之间的关联关系表征的准确性。

在一些可选的示例中，为了提升最终获得的特征关联度的准确性，可以先对特征关联网络和分类网络进行训练。如图11所示，步骤“通过特征关联网络对目标语音特征和目标语义特征进行关联特征计算”前，还包括：

获取第三样本语音对应的第三样本语音特征以及第三样本文本对应的第三样本语义特征，其中，第三样本语音与第三样本文本对应，第三样本语音标注有参考评测结果；

通过待训练的特征关联网络对第三样本语音特征和第三样本语义特征进行关联特征计算，得到第三样本语音特征和第三样本语义特征对应的样本关联特征；

通过待训练的分类网络，对样本关联特征进行关联分析，确定第三样本语音特征和第三样本语义特征对应的特征关联度；

基于特征关联度，对第三样本语音进行评测结果分类处理，得到第三样本语音对应的样本评测结果，基于样本评测结果和参考评测结果，计算特征关联网络和分类网络的损失；

基于损失，对特征关联网络和分类网络的参数进行调整，得到训练后的特征关联网络和分类网络。

其中，第三样本语音为人工进行语音评测后得到的语音，第三样本文本是与第三样本语音分别对应的对某一试题的参考答案文本。参考评测结果是通过人工对语音进行听取后评出的结果。

例如，数据集可以是某次口语考试的数据，阅读短文，给定问题，学生回答问题。包含n条数据，其中问题共包含10道题目，每道题n/10条数据，每道题给定多个参考答案。将数据集划分，40％用于训练，60％用于预测。人工打分是1-5分，1分是完全回答错误，5分是完全回答正确。

其中，特征关联网络和分类网络的损失可以基于如下的公式进行计算，

其中，y_scorej为某个第三样本语音的人工评测结果，p_scorej为某个第三样本语音的通过特征关联网络和分类网络处理后获得的评测结果。m表示共有m个第三样本语音。

在一些实施例中，可以获取与参考文本内容相同的参考语音，在声学角度包括停顿、声调等方面，进一步提升语音评测的准确性。即，步骤“根据目标语音特征和目标语义特征进行特征关联度计算”前，还可以包括：

获取参考文本对应的参考语音；

对参考语音进行语音特征提取，得到参考语音对应的参考语音特征；

相应的，步骤“根据目标语音特征和目标语义特征进行特征关联度计算，得到目标语音特征和目标语义特征之间的特征关联度”，包括：

对目标语音特征和参考语音特征进行特征关联度计算，得到语音特征关联度；

对目标语音特征和目标语义特征进行特征关联度计算，得到语义特征关联度；

基于语音特征关联度和语义特征关联度，得到目标语音特征和目标语义特征之间的特征关联度。

其中，在对目标语音特征和参考语音特征进行特征关联度计算时可以采用注意力机制进行运算，本发明实施例在此不再赘述。

205、基于特征关联度，对待评测语音进行评测结果分类处理，得到待评测语音对应的评测结果。

其中，评测结果可以是具体的分数，例如81分，也可以是评测等级例如优、良等。

例如，可以根据特征关联度，以及预设的关联度阈值为待评测语音确定评测结果。例如可以关联度最大为5时，设置关联度大于4，此时评测等级为优，等等。

或者，可以直接将特征关联度作为评测结果，例如特征关联度为4.91，则评测结果为4.91分，等等。

可以理解的是，待评测语音可以为用户针对评测问题输入的回答语音，参考文本为针对同一评测问题预设的参考答案文本；

相应的，步骤“根据目标语音特征和目标语义特征进行特征关联度计算，得到目标语音特征和目标语义特征之间的特征关联度”，可以包括：

根据目标语音特征和目标语义特征，计算特征之间的特征关联度，特征关联度指示回答语音与参考答案文本之间的关联程度；

对应的，步骤“基于特征关联度，对待评测语音进行评测结果分类处理，得到待评测语音对应的评测结果”，可以包括：

基于特征关联度，对回答语音进行评测分数映射，确定回答语音对应的评测分数，将评测分数作为回答语音对应的评测结果。

将本发明实施例中的语音评测方法与传统的基于ASR特征构建的模型进行对比，传统的基于ASR特征构建的模型包含两种对比模型，一种是采用SVR模型进行模型的构建，一种是采用BLSTM模型结合注意力机制进行构建。评估指标为人工打分和机器打分的皮尔逊相关系数以及一致率。一致率表现为人工打分和机器打分相等的比例。结果如图13所示。由结果可知，较传统的基于ASR特征构建的开放题型评测模型，本发明实施例的表现效果更好。

由上可知，本发明实施例的方案可以获取待评测语音及该待评测语音对应的参考文本，对该待评测语音进行语音特征提取，得到该待评测语音对应的目标语音特征，对该参考文本进行语义特征提取，得到该参考文本对应的目标语义特征，根据该目标语音特征和该目标语义特征进行特征关联度计算，得到该目标语音特征和该目标语义特征之间的特征关联度，基于该特征关联度，对该待评测语音进行评测结果分类处理，得到该待评测语音对应的评测结果；由于本发明实施例中结合目标语音特征和目标语义特征计算目标语音特征和目标语义特征之间的特征关联度后，再根据特征关联度对待评测语音进行评测，因此可以通过同时结合文本和声学模态，提取声学和语义特征，融合多模态信息进行口语评测，减少对自动语音识别技术的依赖，提高口语评测结果的准确性

另外，本发明实施例不需要大量的人工评测数据对模型进行训练，而是采用大量可获得的ASR训练数据以及自然语言理解数据对模型进行预训练，可以减少对人工标注的语音评测数据的依赖，节约人力资源。

根据前面实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将结合图1的系统，且采用语音特征提取模型对待检测语音进行特征提取，采用语义特征提取模型对参考文本进行特征提取，以及通过向量关联网络和分类网络得到评测结果为例进行说明。

如图3所示，本实施例的语音评测方法，具体流程可以如下：

301、服务器获取待训练的语音特征提取模型，对待训练的语音特征提取模型进行训练，得到初步训练后的语音特征提取模型。

其中，语音特征提取模型的训练过程包括：

根据损失，对待训练的语音特征提取模型的模型参数进行调整，得到初步训练后的语音特征提取模型。

其中，语音特征提取模型可以是Transformer模型的编码器，语音识别模型可以为Transformer模型的解码器，在训练完成后，将Transformer模型的编码器作为语音特征提取模型使用。

在一些可选的示例中，语音特征提取模型之前还可以包括一个嵌入层，对输入的数据进行一个嵌入操作，将嵌入操作后的数据输入语音特征提取模型。

302、服务器获取待训练的语义特征提取模型，对待训练的语义特征提取模型进行训练，得到初步训练后的语义特征提取模型。

其中，语义特征提取模型的训练过程可以包括：通过待训练的语义特征提取模型，对第一样本文本进行语义特征提取，得到第一样本文本的第一样本语义特征向量，其中，第一样本文本中包含至少一组第一样本文本组，第一样本文本组中包括至少两句第一样本文本语句以及第一样本文本语句之间的参考语义关系；

在训练语义特征提取模型时，可以采用自然语言理解任务(Natural LanguageUnderstanding，NLU)对语义特征提取模型进行训练。

其中，自然语言理解是一门新兴的边缘学科，内容涉及语言学、心理学、逻辑学、声学、数学和计算机科学，而以语言学为基础。自然语言理解的研究，综合应用了现代语音学、音系学语法学、语义学、语用学的知识。

303、服务器对初步训练后的语音特征提取模型和语义特征提取模型进行联合训练，得到训练后的语音特征提取模型和语义特征提取模型。

其中，在联合训练时，可以输入两部分数据，一部分是第二样本语音对应的人工转写数据，一部分是NLU任务数据，包括前提和假设对。

在联合训练时，采用单词匹配任务和自然语言理解任务，两个任务进行多任务学习。单词匹配任务用于连接发音空间和对应的文本空间，自然语言理解任务用于连接语义空间。两个任务通过共享语义特征提取模型，达到发音空间和语音空间进行连接的效果。

304、服务器对待训练的特征关联网络和分类网络进行训练，得到训练后的特征关联网络和分类网络。

在一个可选的示例中，可以基于预训练好的语音特征提取模型和语义特征提取模型，构建包括特征关联网络和分类网络的打分模块。在对特征关联网络和分类网络进行训练时，输入第三样本语音和第三样本文本分别到语音特征提取模型和语义特征提取模型中，基于多头注意力机制、池化层和非线性变换(MLP)层(分类网络)，最终输出0到1范围内的打分结果。

其中，打分模块的训练损失函数可以是打分模块的打分结果与第三样本语音对应的人工评测结果之间的分差。

305、终端获取用户提交的待评测语音，将待评测语音发送给服务器。

如图12所示，用户通过终端上安装的口语评测应用，提交回答语音(待评测语音)，终端通过口语评测应用的接口，将回答语音发送给口语评测应用对应的服务器进行语音评测。

其中，用户使用的终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。

306、服务器接收待评测语音以及待评测语音的试题信息，根据试题信息确定待评测语音对应的参考文本。

例如，试题信息可以是试题的标识例如“试题1”、“试题2”等等，或者试题信息可以是试题题目等等，例如“What’s your favourite sport？”。

307、服务器通过语音特征提取模型的语音特征映射参数，将待评测语音映射到语音特征向量空间中，基于映射结果得到目标语音特征向量。

其中，语音特征提取模型可以包括注意力网络，因此，步骤307可以包括：

将待评测语音划分为子语音，得到子语音集合；

在一个示例中，语音特征提取模型中还可以包括序列编码层，可以解释输入的向量序列中子向量顺序，序列编码层可以决定当前语音特征子向量的位置，等等。

在一些实施例中，注意力网络可以是多头注意力网络，不仅初始化一组Q、K、V的矩阵，而是初始化多组，等等，

308、服务器根据语义特征提取模型的语义特征映射参数，将参考文本映射到语义特征向量空间中，基于映射结果得到目标语义特征向量。

在一些实施例中，可以采用多头注意力网络(Multi-Head Attention)或者自注意力网络(self-attention)对参考文本进行语义特征提取，得到参考文本的词语关联权重，譬如，具体的提取过程可以为将语义初始特征向量转换为多个维度的空间向量，然后，将该多个维度的空间向量作为词语集合中每一词语的词义关联权重。本发明实施例对此不再赘述。

309、服务器通过特征关联网络对目标语音特征向量和目标语义特征向量进行关联特征计算，得到目标语音特征向量和目标语义特征向量对应的关联特征向量。

其中，特征关联网络可以是多头注意力网络(Multi-Head Attention)或者自注意力网络(self-attention)对目标语音特征向量和目标语义特征向量进行关联特征计算。

例如，步骤309可以包括：

将目标语音特征向量划分为目标语音特征子向量，将目标语义特征向量划分为目标语义特征子向量；

根据目标语音特征子向量和目标语义特征子向量，确定目标语音特征向量和目标语义特征向量对应的关联权重，关联权重用于目标语音特征向量和目标语义特征向量之间的关联关系；

基于关联权重，对目标语音特征向量和目标语义特征向量进行加权计算，得到目标语音特征向量和目标语义特征向量对应的关联特征向量。

310、服务器基于分类网络，对关联特征向量进行关联分析，确定目标语音特征向量和目标语义特征向量对应的向量关联度。

其中，分类网络可以为非线性变换(MLP)层，等等。在一些可选的示例中，也可以在分类网络前加入池化层，可以用于压缩数据和参数的量，减小最终分类结果的过拟合。

在一些可选的示例中，池化层可以是最大池化层，也可以是平均池化层，等等。技术人员可以根据实际情况自行设置，本发明实施例对此不做限定。

311、服务器基于特征关联度，对待评测语音进行评测结果分类处理，得到待评测语音对应的评测结果，将评测结果发送给终端。

例如，终端接收到评测结果后，可以将评测结果显示在如图6中的603所示的评测结果显示区域，等等。或者，用户可以触发“查看成绩”的控件后再显示如图6中603所示的页面，等等。

由上可知，本发明实施例可以通过同时结合文本和声学模态，提取声学和语义特征，融合多模态信息进行口语评测，减少对自动语音识别技术的依赖，提高口语评测结果的准确性。

为了更好地实施以上方法，相应的，本发明实施例还提供一种语音评测装置。

参考图4，该语音评测装置可以包括：

数据获取单元401，可以用于获取待评测语音及待评测语音对应的参考文本；

语音特征提取单元402，可以用于对待评测语音进行语音特征提取，得到待评测语音对应的目标语音特征；

语义特征提取单元403，可以用于对参考文本进行语义特征提取，得到参考文本对应的目标语义特征；

关联度计算单元404，可以用于根据目标语音特征和目标语义特征进行特征关联度计算，得到目标语音特征和目标语义特征之间的特征关联度；

评测结果生成单元405，可以用于基于特征关联度，对待评测语音进行评测结果分类处理，得到待评测语音对应的评测结果。

可选的，语音特征提取单元402可以用于根据语音特征提取模型的语音特征映射参数，将待评测语音映射到语音特征向量空间中，基于映射结果得到目标语音特征向量，将目标语音特征向量作为待评测语音对应的目标语音特征。

可选的，语音特征提取单元402可以用于将待评测语音划分为子语音，得到子语音集合；

根据语音初始特征向量确定子语音对应的语音关联权重，语音关联权重可以用于指示子语音集合中的子语音之间的关联关系；

可选的，语义特征提取单元403，可以用于根据语义特征提取模型的语义特征映射参数，将参考文本映射到语义特征向量空间中，基于映射结果得到目标语义特征向量，将目标语义特征向量作为参考文本对应的目标语义特征。

可选的，关联度计算单元404，可以用于通过特征关联网络对目标语音特征和目标语义特征进行关联特征计算，得到目标语音特征和目标语义特征对应的关联特征；

可选的，如图5所示，语音特征提取单元402前还可以包括语音模型训练单元406，可以用于通过待训练的语音特征提取模型，对第一样本语音进行语音特征提取，得到第一样本语音对应的第一语音特征向量，其中，第一样本语音标注有参考语音识别文本；

可选的，语义特征提取单元403前还可以包括语义模型训练单元407，可以用于通过待训练的语义特征提取模型，对第一样本文本进行语义特征提取，得到第一样本文本的第一样本语义特征向量，其中，第一样本文本中包含至少一组第一样本文本组，第一样本文本组中可以包括至少两句第一样本文本语句以及第一样本文本语句之间的参考语义关系；

可选的，语音特征提取单元402前还可以包括联合训练单元408，可以用于获取样本对，样本对中可以包括第二样本语音、第二样本文本和第二样本文本中在第二样本语音中出现的样本词语，其中，第二样本文本中可以包括至少一组第二样本文本组，第二样本文本组中可以包括两句第二样本文本语句以及第二样本文本语句之间的参考语义关系；

可选的，关联度计算单元404前还可以包括网络训练单元409，可以用于获取第三样本语音对应的第三样本语音特征以及第三样本文本对应的第三样本语义特征，其中，第三样本语音与第三样本文本对应，第三样本语音标注有参考评测结果；

将特征关联度作为第三样本语音对应的样本评测结果，基于样本评测结果和参考评测结果，计算特征关联网络和分类网络的损失；

可选的，关联度计算单元404前还可以包括参考语音特征提取单元410，可以用于获取参考文本对应的参考语音；

对应的，关联度计算单元404可以用于对目标语音特征和参考语音特征进行特征关联度计算，得到语音特征关联度；

可选的，语义特征提取单元403前还可以包括替换文本获取单元411，可以用于获取参考文本中各词语对应的替换文本；

对应的，语义特征提取单元403可以用于基于参考文本和替换文本进行语义特征提取，得到参考文本对应的目标语义特征。

可选的，待评测语音为用户针对评测问题输入的回答语音，参考文本为针对同一评测问题预设的参考答案文本，关联度计算单元404可以用于根据目标语音特征和目标语义特征，计算特征之间的特征关联度，特征关联度指示回答语音与参考答案文本之间的关联程度；

评测结果生成单元405，可以用于基于特征关联度，对回答语音进行评测分数映射，确定回答语音对应的评测分数，将评测分数作为回答语音对应的评测结果。

由上可知，通过语音评测装置，可以通过同时结合文本和声学模态，提取声学和语义特征，融合多模态信息进行口语评测，减少对自动语音识别技术的依赖，提高口语评测结果的准确性。

此外，本发明实施例还提供一种电子设备，该电子设备可以为终端或者服务器等等，如图14所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括射频(RF，Radio Frequency)电路901、包括有一个或一个以上计算机可读存储介质的存储器902、输入单元903、显示单元904、传感器905、音频电路906、无线保真(WiFi，Wireless Fidelity)模块907、包括有一个或者一个以上处理核心的处理器908、以及电源909等部件。本领域技术人员可以理解，图14中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路901可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器908处理；另外，将涉及上行的数据发送给基站。通常，RF电路901包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM，Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路901还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobile communication)、通用分组无线服务(GPRS，GeneralPacket Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、长期演进(LTE，Long TermEvolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

存储器902可用于存储软件程序以及模块，处理器908通过运行存储在存储器902的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器902可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器902可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器902还可以包括存储器控制器，以提供处理器908和输入单元903对存储器902的访问。

输入单元903可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元903可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器908，并能接收处理器908发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元903还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元904可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元904可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器908以确定触摸事件的类型，随后处理器908根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图14中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

电子设备还可包括至少一种传感器905，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在电子设备移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于电子设备还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路906、扬声器，传声器可提供用户与电子设备之间的音频接口。音频电路906可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路906接收后转换为音频数据，再将音频数据输出处理器908处理后，经RF电路901以发送给比如另一终端，或者将音频数据输出至存储器902以便进一步处理。音频电路906还可能包括耳塞插孔，以提供外设耳机与电子设备的通信。

WiFi属于短距离无线传输技术，电子设备通过WiFi模块907可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图14示出了WiFi模块907，但是可以理解的是，其并不属于电子设备的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器908是电子设备的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器902内的软件程序和/或模块，以及调用存储在存储器902内的数据，执行电子设备的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器908可包括一个或多个处理核心；优选的，处理器908可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器908中。

电子设备还包括给各个部件供电的电源909(比如电池)，优选的，电源可以通过电源管理系统与处理器908逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源909还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，电子设备还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，电子设备中的处理器908会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器902中，并由处理器908来运行存储在存储器902中的应用程序，从而实现各种功能，如下：

获取待评测语音及待评测语音对应的参考文本；

对待评测语音进行语音特征提取，得到待评测语音对应的目标语音特征；

对参考文本进行语义特征提取，得到参考文本对应的目标语义特征；

根据目标语音特征和目标语义特征进行特征关联度计算，得到目标语音特征和目标语义特征之间的特征关联度；

基于特征关联度，对待评测语音进行评测结果分类处理，得到待评测语音对应的评测结果。

本发明实施例涉及的系统可以是由客户端、多个节点(接入网络中的任意形式的计算机设备，如服务器、终端)通过网络通信的形式连接形成的分布式系统。

以分布式系统为区块链系统为例，参见图15，图15是本发明实施例提供的分布式系统100应用于区块链系统的一个可选的结构示意图，由多个节点(接入网络中的任意形式的计算设备，如服务器、用户终端)和客户端形成，节点之间形成组成的点对点(P2P，PeerTo Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission ControlProtocol)协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。本实施例中，待评测语音、参考文本以及训练数据等等可以通过节点被存储在区域链系统的共享账本中，计算机设备(例如终端或服务器)可以基于共享账本存储的记录数据获取待评测语音。

参见图15示出的区块链系统中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

例如，应用实现的业务包括：

2.1)钱包，用于提供进行电子货币的交易的功能，包括发起交易(即，将当前交易的交易记录发送给区块链系统中的其他节点，其他节点验证成功后，作为承认交易有效的响应，将交易的记录数据存入区块链的临时区块中；当然，钱包还支持查询电子货币地址中剩余的电子货币；

2.2)共享账本，用于提供账目数据的存储、查询和修改等操作的功能，将对账目数据的操作的记录数据发送到区块链系统中的其他节点，其他节点验证有效后，作为承认账目数据有效的响应，将记录数据存入临时区块中，还可以向发起操作的节点发送确认。

2.3)智能合约，计算机化的协议，可以执行某个合约的条款，通过部署在共享账本上的用于在满足一定条件时而执行的代码实现，根据实际的业务需求代码用于完成自动化的交易，例如查询买家所购买商品的物流状态，在买家签收货物后将买家的电子货币转移到商户的地址；当然，智能合约不仅限于执行用于交易的合约，还可以执行对接收的信息进行处理的合约。

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

参见图16，图16是本发明实施例提供的区块结构(Block Structure)一个可选的示意图，每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了相关的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种语音评测方法中的步骤。例如，该指令可以执行如下步骤：

获取待评测语音及待评测语音对应的参考文本；

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种语音评测方法中的步骤，因此，可以实现本发明实施例所提供的任一种语音评测方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

根据本申请的一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述实施例中的各种可选实现方式中提供的方法。

以上对本发明实施例所提供的一种语音评测方法、装置、电子设备和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音评测方法，其特征在于，包括：

获取待评测语音及所述待评测语音对应的参考文本；

2.根据权利要求1所述的一种语音评测方法，其特征在于，所述对所述待评测语音进行语音特征提取，得到所述待评测语音对应的目标语音特征，包括：

根据语音特征提取模型的语音特征映射参数，将所述待评测语音映射到语音特征向量空间中，基于映射结果得到目标语音特征向量，将所述目标语音特征向量作为所述待评测语音对应的目标语音特征。

3.根据权利要求2所述的一种语音评测方法，其特征在于，所述根据语音特征提取模型的语音特征映射参数，将所述待评测语音映射到语音特征向量空间中，基于映射结果得到目标语音特征向量，包括：

将所述待评测语音划分为子语音，得到子语音集合；

4.根据权利要求2所述的语音评测方法，其特征在于，所述对所述参考文本进行语义特征提取，得到所述参考文本对应的目标语义特征，包括：

根据语义特征提取模型的语义特征映射参数，将所述参考文本映射到语义特征向量空间中，基于映射结果得到目标语义特征向量，将所述目标语义特征向量作为所述参考文本对应的目标语义特征。

5.根据权利要求1所述的一种语音处理方法，其特征在于，所述根据所述目标语音特征和所述目标语义特征进行特征关联度计算，得到所述目标语音特征和所述目标语义特征之间的特征关联度，包括：

通过特征关联网络对所述目标语音特征和所述目标语义特征进行关联特征计算，得到所述目标语音特征和所述目标语义特征对应的关联特征；

6.根据权利要求2所述的语音评测方法，其特征在于，所述根据语音特征提取模型的语音特征映射参数，将所述待评测语音映射到语音特征向量空间中，基于映射结果得到目标语音特征向量前，还包括：

通过待训练的语音特征提取模型，对第一样本语音进行语音特征提取，得到所述第一样本语音对应的第一语音特征向量，其中，所述第一样本语音标注有参考语音识别文本；

7.根据权利要求4所述的语音评测方法，其特征在于，所述根据语义特征提取模型的语义特征映射参数，将所述参考文本映射到语义特征向量空间中，基于映射结果得到目标语义特征向量前，还包括：

通过待训练的语义特征提取模型，对第一样本文本进行语义特征提取，得到所述第一样本文本的第一样本语义特征向量，其中，所述第一样本文本中包含至少一组第一样本文本组，所述第一样本文本组中包括至少两句第一样本文本语句以及所述第一样本文本语句之间的参考语义关系；

8.根据权利要求4所述的语音评测方法，其特征在于，所述根据语义特征提取模型的语义特征映射参数，将所述参考文本映射到语义特征向量空间中，基于映射结果得到目标语义特征向量前，还包括：

获取样本对，所述样本对中包括第二样本语音、第二样本文本和所述第二样本文本中在所述第二样本语音中出现的样本词语，其中，所述第二样本文本中包括至少一组第二样本文本组，所述第二样本文本组中包括两句第二样本文本语句以及所述第二样本文本语句之间的参考语义关系；

9.根据权利要求5所述的语音评测方法，其特征在于，所述通过特征关联网络对所述目标语音特征和所述目标语义特征进行关联特征计算前，还包括：

获取第三样本语音对应的第三样本语音特征以及第三样本文本对应的第三样本语义特征，其中，所述第三样本语音与所述第三样本文本对应，所述第三样本语音标注有参考评测结果；

基于特征关联度，对所述第三样本语音进行评测结果分类处理，得到所述第三样本语音对应的样本评测结果，基于所述样本评测结果和参考评测结果，计算所述特征关联网络和所述分类网络的损失；

10.根据权利要求1所述的语音评测方法，其特征在于，所述根据所述目标语音特征和所述目标语义特征进行特征关联度计算前，还包括：

获取所述参考文本对应的参考语音；

所述根据所述目标语音特征和所述目标语义特征进行特征关联度计算，得到所述目标语音特征和所述目标语义特征之间的特征关联度，包括：

对所述目标语音特征和所述参考语音特征进行特征关联度计算，得到语音特征关联度；

11.根据权利要求1所述的语音评测方法，其特征在于，所述对所述参考文本进行语义特征提取，得到所述参考文本对应的目标语义特征前，还包括：

获取所述参考文本中各词语对应的替换文本；

所述对所述参考文本进行语义特征提取，得到所述参考文本对应的目标语义特征，包括：

基于所述参考文本和所述替换文本进行语义特征提取，得到所述参考文本对应的目标语义特征。

12.根据权利要求1-4任一项所述的语音评测方法，其特征在于，所述待评测语音为用户针对评测问题输入的回答语音，所述参考文本为针对同一所述评测问题预设的参考答案文本；

根据所述目标语音特征和所述目标语义特征，计算特征之间的特征关联度，所述特征关联度指示所述回答语音与所述参考答案文本之间的关联程度；

所述基于所述特征关联度，对所述待评测语音进行评测结果分类处理，得到所述待评测语音对应的评测结果，包括：

基于所述特征关联度，对所述回答语音进行评测分数映射，确定所述回答语音对应的评测分数，将所述评测分数作为所述回答语音对应的评测结果。

13.一种语音评测装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括存储器和处理器；所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至12任一项所述的语音评测方法中的步骤。

15.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至12任一项所述的语音评测方法中的步骤。