CN112700795A

CN112700795A - 口语发音质量评价方法、装置、设备及存储介质

Info

Publication number: CN112700795A
Application number: CN202011480460.0A
Authority: CN
Inventors: 蒋国雷; 李坤; 刘鹏飞; 廖春红
Original assignee: Speechx Ltd
Current assignee: Speechx Ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-04-23

Abstract

本发明属于语音识别技术领域，公开了一种口语发音质量评价方法、装置、设备及存储介质。该方法包括：获取待测试人员的多条句子级语音信号；根据所述句子级语音信号确定一一对应的句子级后验概率分布分数；将所述句子级后验概率分布分数通过训练好的预设质量评价神经网络进行质量评价，得到所述待测试人员的口语发音质量评价结果。通过上述方式，根据说话人的多条句子级语音信号确定句子级后验概率分布分数，多条句子级后验概率分布分数作为说话人级别的特征，包含说话人发音的详细信息以及发音优度，更具有解释性，引用训练好的预设质量评价神经网络对多条句子级后验概率分布分数进行质量评价，提高了口音分类的精度以及稳定性。

Description

口语发音质量评价方法、装置、设备及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种口语发音质量评价方法、装置、设备及存储介质。

背景技术

无论是对语言教师是否合格的认证，还是在向学习者提供建议和反馈方面，基于说话人级别的口语水平的评估对于第二语言教育都非常重要。以往的方法都是基于说话人有限的语音句子来评估说话人的口语发音水平，由于稀疏的数据不能完全覆盖说话人的特定发音错误，导致了有偏差或不稳定的结果。

英语是一种全球性的通用语言，英语交际能力的培养至关重要。据估计，中国有2亿多学生学习英语，世界上有15亿学生学习英语。由于缺乏足够数量的英语母语教师，越来越多的非英语母语者，在中国被招聘为在线英语教师。亟待提出高精度的第二语言说话人水平发音评估系统，从而为学习者提供训练反馈，并评估候选人是否有资格成为英语教师。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种口语发音质量评价方法、装置、设备及存储介质，旨在解决如何提高口音分类的精度以及稳定性的技术问题。

为实现上述目的，本发明提供了一种口语发音质量评价方法，所述方法包括以下步骤：

获取待测试人员的多条句子级语音信号；

根据所述句子级语音信号确定一一对应的句子级后验概率分布分数；

将所述句子级后验概率分布分数通过训练好的预设质量评价神经网络进行质量评价，得到所述待测试人员的口语发音质量评价结果。

可选地，所述将所述句子级后验概率分布分数输入至训练好的预设质量评价神经网络，得到所述待测试人员的口语发音质量评价结果，包括：

将所述句子级后验概率分布分数输入至预设共享隐藏层，得到隐藏输出特征数据，其中，所述训练好的预设质量评价神经网络包括预设共享隐藏层、平均层、口语发音级别隐藏层以及预设分类预测层；

将所述隐藏输出特征数据输入至平均层，得到平均特征数据；

将所述平均特征数据输入至口语发音级别隐藏层，得到目标特征数据；

将所述目标特征数据输入至预设分类预测层，得到目标标签；

根据所述目标标签得到所述待测试人员的口语发音质量评价结果。

可选地，所述将所述句子级后验概率分布分数通过训练好的预设质量评价神经网络进行质量评价，得到所述待测试人员的口语发音质量评价结果之前，所述方法还包括：

获取预设样本语音集；

根据所述预设样本语音集确定对应的句子级后验概率分布样本分数；

创建预设质量评价神经网络；

将所述句子级后验概率分布样本分数输入至所述预设质量评价神经网络，获取所述预设质量评价神经网络的损失值；

当所述损失值小于或者等于预设损失阈值时，得到训练好的所述预设质量评价神经网络。

可选地，所述将所述句子级后验概率分布样本分数输入至所述预设质量评价神经网络，获取所述预设质量评价神经网络的损失值，包括：

将所述句子级后验概率分布样本分数输入至预设共享隐藏层，得到隐藏输出样本数据；

将所述隐藏输出样本数据输入至平均层，得到平均样本数据；

将所述平均样本数据输入至口语发音级别隐藏层，得到目标样本数据；

将所述目标样本数据输入至预设分类预测层，得到预测标签；

根据所述预测标签与预设标签确定交叉熵损失值；

根据所述交叉熵损失值确定所述预设质量评价神经网络的损失值。

可选地，所述根据所述交叉熵损失值确定所述预设质量评价神经网络的损失值，包括：

根据所述交叉熵损失值和均方根误差损失值确定所述预设质量评价神经网络的损失值。

可选地，所述根据所述交叉熵损失值和均方根误差损失值确定所述预设质量评价神经网络的损失值之前，所述方法还包括：

根据第p个隐藏输出样本数据以及第p+1个隐藏输出样本数据计算第p 个均方根误差，其中，1≤p≤K-1，K为隐藏输出样本数据总个数；

根据第p个均方根误差得到K-1个均方根误差；

根据K-1个均方根误差得到K-1个均方根误差的平均值；

将所述K-1个均方根误差的平均值作为均方根误差损失值。

可选地，所述根据所述句子级语音信号确定一一对应的句子级后验概率分布分数，包括：

获取预设标准音素序列，所述预设标准音素序列中包含M个预设标准音素；

将所述句子级语音信号与所述预设标准音素序列进行对齐，得到各个预设标准音素对应的对齐段，其中，第i个预设标准音素对应的对齐段总数为N， 1≤i≤M，第t个对齐段中包含R个特征帧，1≤t≤N；

根据第j个特征帧以及所述预设标准因素序列计算第j个特征帧对应的后概率分布向量，其中，1≤j≤R；

根据所述第j个特征帧对应的后概率分布向量得到R个后概率分布向量；

根据所述R个后概率分布向量计算第t个对齐段对应的后概率分布得分；

根据所述第t个对齐段对应的后概率分布得分得到N个对齐段对应的后概率分布得分；

根据所述N个对齐段对应的后概率分布得分计算所述句子级语音信号一一对应的句子级后验概率分布分数。

此外，为实现上述目的，本发明还提出一种口语发音质量评价装置，所述口语发音质量评价装置包括：

获取模块，用于获取待测试人员的多条句子级语音信号；

分数计算模块，用于根据所述句子级语音信号确定一一对应的句子级后验概率分布分数；

评价模块，用于将所述句子级后验概率分布分数通过训练好的预设质量评价神经网络进行质量评价，得到所述待测试人员的口语发音质量评价结果。

此外，为实现上述目的，本发明还提出一种口语发音质量评价设备，所述口语发音质量评价设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的口语发音质量评价程序，所述口语发音质量评价程序配置为实现如上文所述的口语发音质量评价方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有口语发音质量评价程序，所述口语发音质量评价程序被处理器执行时实现如上文所述的口语发音质量评价方法的步骤。

本发明通过获取待测试人员的多条句子级语音信号；根据所述句子级语音信号确定一一对应的句子级后验概率分布分数；将所述句子级后验概率分布分数通过训练好的预设质量评价神经网络进行质量评价，得到所述待测试人员的口语发音质量评价结果。通过上述方式，根据说话人的多条句子级语音信号确定句子级后验概率分布分数，多条句子级后验概率分布分数作为说话人级别的特征，不仅包含了说话人发音的详细信息以及发音优度，还包含将标准因素误读为其他因素的概率，更具有解释性：解释了个别发音错误和系统发音错误，从而能够为预设质量评价神经网络提供数据基础，引用训练好的预设质量评价神经网络对多条句子级后验概率分布分数进行质量评价，提高了口音分类的精度以及稳定性。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的口语发音质量评价设备的结构示意图；

图2为本发明口语发音质量评价方法第一实施例的流程示意图；

图3为本发明口语发音质量评价方法一实施例的预设质量评价神经网络结构示意图；

图4为本发明口语发音质量评价方法第二实施例的流程示意图；

图5为本发明口语发音质量评价方法一实施例的不同特征的性能对比图；

图6为本发明口语发音质量评价装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的口语发音质量评价设备结构示意图。

如图1所示，该口语发音质量评价设备可以包括：处理器1001，例如中央处理器(Central Processing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘 (Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)存储器，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对口语发音质量评价设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及口语发音质量评价程序。

在图1所示的口语发音质量评价设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明口语发音质量评价设备中的处理器1001、存储器1005可以设置在口语发音质量评价设备中，所述口语发音质量评价设备通过处理器1001调用存储器1005 中存储的口语发音质量评价程序，并执行本发明实施例提供的口语发音质量评价方法。

本发明实施例提供了一种口语发音质量评价方法，参照图2，图2为本发明口语发音质量评价方法第一实施例的流程示意图。

本实施例中，所述口语发音质量评价方法包括以下步骤：

步骤S10：获取待测试人员的多条句子级语音信号。

可以理解的是，本实施例的执行主体为口语发音质量评价设备，所述口语发音质量评价设备可以是计算机、服务器以及云服务器等设备，也可以为芯片，本实施例对此不加以限制。

需要说明的是，句子级语音信号是指采集到的待测试人员阅读多条句子的语音信号，在具体实现中，为了使口语发音质量评价更流畅和高效，可以预先准备阅读样本，让待测试人员根据阅读样本读出多条句子，语音采集装置进行句子级语音信号采集，发送至口语发音质量评价设备，从而实现对待测试人员的多条句子级语音信号的获取，如果口语发音质量评价设备设置有麦克风或者声卡，口语发音质量评价设备可以直接采集待测试人员的语音信号。

步骤S20：根据所述句子级语音信号确定一一对应的句子级后验概率分布分数。

需要说明的是，每一条句子级语音信号有对应的句子级后验概率分布分数，将每一条句子级语音信号输入至包含后验概率分布(Posterior Probability Distribution，PPD)算法的预设声学模型中，从而得到句子级语音信号对应的句子级后验概率分布分数。

具体地，为了得到句子级后验概率分布分数，步骤S20，包括：获取预设标准音素序列，所述预设标准音素序列中包含M个预设标准音素；将所述句子级语音信号与所述预设标准音素序列进行对齐，得到各个预设标准音素对应的对齐段，其中，第i个预设标准音素对应的对齐段总数为N，1≤i≤M，第t个对齐段中包含R个特征帧，1≤t≤N；根据第j个特征帧以及所述预设标准因素序列计算第j个特征帧对应的后概率分布向量，其中，1≤j≤R；根据所述第j个特征帧对应的后概率分布向量得到R个后概率分布向量；根据所述R个后概率分布向量计算第t个对齐段对应的后概率分布得分；根据所述第t个对齐段对应的后概率分布得分得到N个对齐段对应的后概率分布得分；根据所述N个对齐段对应的后概率分布得分计算所述句子级语音信号一一对应的句子级后验概率分布分数。

需要说明的是，可以采用两种方式计算句子级后验概率分布分数，第一种方式为：根据N个对齐段对应的后概率分布得分计算所述句子级语音信号一一对应的句子级后验概率分布分数，包括：根据N个对齐段对应的后概率分布得分计算平均值，得到第i个预设标准音素对应的音素级后验概率分布分数；将所述音素级后验概率分布分数作为句子级后验概率分布分数。

可以理解的是，对于每条句子级语音信号，将句子级语音信号与预设标准音素序列对齐，预设标准音素序列中包含M个预设标准音素，在具体实现中，选择最具代表性的预设标准因素，例如，有些人容易将音素/f/误读为/p/，将音素/p/误读为/b/，因此，可以选择第i个预设标准音素为/p/或者为/f/，从而确定说话人将/f/误读为/p/或者将/p/误读为/b/的音素级后验概率分布分数，将音素级后验概率分布分数作为句子级后验概率分布分数。

具体地，第二种方式为：根据N个对齐段对应的后概率分布得分计算所述句子级语音信号一一对应的句子级后验概率分布分数，包括：根据N个对齐段对应的后概率分布得分计算平均值，得到第i个预设标准音素对应的后验概率分布分数；根据M个后验概率分布分数计算平均值，得到所述句子级语音信号一一对应的句子级后验概率分布分数。

需要说明的是，由预设声学模型导出的句子级后验概率分布分数包含了说话人发音的详细信息。在具体实现中，如果预设声学模型的性能足够好，句子级后验概率分布分数能精确地反映出发音与每个标准音素的接近程度，不仅包含标准音素的发音优度(Goodness of Pronunciation,GOP)，还提供了将标准音素误读为其他音素的概率，以说话人将标准音素/p/误读为/b/的情况为例进行说明：

根据公式(1)计算标准音素q_i对应的后验概率分布分数：

其中，q为预设标准音素序列，q＝[q₁,q₂,…,q_M]；

是对齐段

的第j 个特征帧；

是该段的帧总数；N是属于预设标准音素q_i的段总数。

需要说明的是，当N个片段只来自一个语音句子时，所有预设标准音素的串联后验概率分布分数向量被定义为一个句子级特征。说话人水平特征是指对属于一个说话人的所有语音句子段的后验概率分布分数取平均值。也就是说，将M个预设标准音素对应的后验概率分布分数取平均值，得到所述句子级语音信号一一对应的句子级后验概率分布分数。

以计算每个音素的发音分数(Pronunciation Score,PS)为例进行对比说明：

PS可以衡量口音发音中每个音素发音的发音优度(GOP)。在具体实现中，发音分数被用作音素级特征，然后通过几种方案转换为句子级特征，例如：计算每个语音句子中元音、辅音和音节的音素级发音分数的最小值、平均值和标准差。然而，这些方案可能会忽略每个音素的一些详细信息。

由于声学模型输出的是帧级概率，但是为了与本实施例提出的PPD进行对比，需要音素级的特征，因此采用首先计算口音语音和标准音素之间的强制对齐，然后计算每个音素的发音分数的方式，通过公式(2)计算发音分数：

其中，

是对齐段

的第j个特征帧；

是该段的帧总数；N是属于预设标准音素q_i的段总数。

可以理解的是，虽然PS可以描述每一个标准音素的正确性，但不能区分个别发音错误和系统发音错误，例如，英语中的一个音素被发音为另一个英语中不存在的音素。发音错误可分为两大类：(1)第一类包含个别发音错误，如无意中误读音素或单词；(2)第二类错误包括特定音素的替换，例如母语中存在但目标语言中没有的音素，第二类发音错误被称为系统发音错误。

需要说明的是，本实施例采用的PPD方式与PS方式相比，计算后概率分布向量时，考虑了所有预设标准音素，而PS方式仅考虑了第i个预设标准音素，本实施例采用的PPD方式更好的描述了个别发音错误和系统发音错误。

以语音规则(Phonological Rule,PR)为例进行对比说明：

PR是表达系统的语音或形态过程或语言历时变化的一种方式。它可以被定义为声音表现的两个不同层次之间的映射(底层和表层)，也可以被描述为关于声音在不同环境中不同发音方式的“概括”。以某些英语口音为例进行说明，PR特指某些人常见的发音错误。例如，“poor”中的/p/被误读为/b/ 并因此发音听起来像“bore”。

表1为某些人常见发音错误举例表。表1中列举了某些人在对英式英语进行发音时，存在的一些常见发音错误。在具体实现中，使用36条1对1的语音规则，统计所有语音句子中的每一条语音规则的触发次数作为说话人级别的特征，PR仅包含说话人级别的特征，没有句子级别的体征。因此，采用 PR与本实施例提出的PPD也存在区别，PPD相较于PR包含更详细的系统发音错误信息。

英式音素	误发音音素
		f	p
p	b,f
		ae	aa,ah
ch,zh	sh

表1

步骤S30：将所述句子级后验概率分布分数通过训练好的预设质量评价神经网络进行质量评价，得到所述待测试人员的口语发音质量评价结果。

需要说明的是，预设质量评价神经网络可以为循环神经网络(Recurrent NeuralNetwork,RNN)，本实施例采用的是另外设计的基于说话人多条语音句子的说话人级神经网络(SL-NN)，其中包含共享隐藏层、平均层、隐藏层以及预设分类预测层。

具体地，步骤S30，包括：将所述句子级后验概率分布分数输入至预设共享隐藏层，得到隐藏输出特征数据，其中，所述训练好的预设质量评价神经网络包括预设共享隐藏层、平均层、口语发音级别隐藏层以及预设分类预测层；将所述隐藏输出特征数据输入至平均层，得到平均特征数据；将所述平均特征数据输入至口语发音级别隐藏层，得到目标特征数据；将所述目标特征数据输入至预设分类预测层，得到目标标签；根据所述目标标签得到所述待测试人员的口语发音质量评价结果。

参照图3，图3为本发明口语发音质量评价方法一实施例的预设质量评价神经网络结构示意图。预设质量评价神经网络中包括预设共享隐藏层、平均层、口语发音级别隐藏层以及预设分类预测层。

可以理解的是，共享隐藏层为句子级隐藏层，在句子之间共享，口语发音级别隐藏层为说话人级别隐藏层，预设分类预测层为softmax层。其中f表示句子级PPD，h表示共享隐藏层的隐藏输出。在输入到说话人级隐藏层之前，对隐藏输出h进行了平均处理。

本实施例通过获取待测试人员的多条句子级语音信号；根据所述句子级语音信号确定一一对应的句子级后验概率分布分数；将所述句子级后验概率分布分数通过训练好的预设质量评价神经网络进行质量评价，得到所述待测试人员的口语发音质量评价结果。通过上述方式，根据说话人的多条句子级语音信号确定句子级后验概率分布分数，多条句子级后验概率分布分数作为说话人级别的特征，不仅包含了说话人发音的详细信息以及发音优度，还包含将标准因素误读为其他因素的概率，更具有解释性：解释了个别发音错误和系统发音错误，从而能够为预设质量评价神经网络提供数据基础，引用训练好的预设质量评价神经网络对多条句子级后验概率分布分数进行质量评价，提高了口音分类的精度以及稳定性。

参考图4，图4为本发明口语发音质量评价方法第二实施例的流程示意图。

基于上述第一实施例，本实施例口语发音质量评价方法在所述步骤S30 之前，还包括：

步骤S301：获取预设样本语音集。

可以理解的是，本实施例以A国英语口音发音水平评价为例进行说明，采用A国英语口音发音水平评价数据集(PEAED)，PEAED数据集收集了 174名在网上教中国学生的A国教师和74名来自不同职业和背景的非教师职业的A国口音说话者，例如女佣、家庭主妇、客服人员和非专业人士等，他们被要求阅读3到10句话，比如伊索寓言中的“北风与太阳”。录制语音的采样频率为16kHz。PEAED数据集在音素和说话人两个层面都进行了人工标注。对于音素级标注，首先使用误发音检测与诊断(Mispronunciation Detection andDiagnosis,MDD)声学模型自动转写音频文件，然后，让三个训练有素的标注人员手动更正自动记录中的错误(使用Praat工具)。标注人员是熟练的以英语作为第二语言的人，他们被要求在看语谱图和听的基础上对感知到的音素进行标注。对于说话人级别的标注，三个标注人员为每一个说话人标注为轻度口音(Light)，中度口音(Medium)，重度口音(Heavy)。最后的标签是采用多数的投票策略从三个标注者的结果中决定。最终标注为轻口音、中口音和重口音的说话人数量分别为89、84和75。但是，标注者间的Kappa值(衡量标注者之间的一致性)仍然很低，如表2所示，表2为PEAED语料库的标注者间的kappa值。这意味着人工很难轻松和稳定的区分说话人的口语发音的水平等级。

	标注者1	标注者2	标注者3
				标注者1	—	0.4190	0.3069
标注者2	0.4190	—	0.2900
				标注者3	0.3069	0.2900	—

表2

可以理解的是，kappa值在0.41-0.5之间被视为中等一致，在0.21-0.4之间被视为公平一致。

步骤S302：根据所述预设样本语音集确定对应的句子级后验概率分布样本分数。

需要说明的是，预设样本语音集中包含多个说话人的多条句子级语音信号，将每个说话人对应的多条句子级语音信号输入至包含PDD算法的预设声学模型中，从而得到句子级语音信号对应的句子级后验概率分布分数。

例如，预设样本语音集中家庭主妇A被要求阅读了5句话，将5条句子级语音信号中的a信号输入至包含PDD算法的预设声学模型中，根据公式(1) 计算标准音素q_i与a信号对应的音素级后验概率分布分数：

其中，q为预设标准音素序列，q＝[q₁,q₂,…,q_M]；

是对齐段

的第j 个特征帧；

是该段的帧总数；N是属于预设标准音素q_i的段总数。

计算所有所有预设标准音素与a信号对应的音素级后验概率分布分数，将所有音素级后验概率分布分数，求取平均值，得到a信号对应的句子级后验概率分布分数，依次取得家庭主妇A的5句话对应的句子级后验概率分布分数。

步骤S303：创建预设质量评价神经网络。

需要说明的是，参考图3，预设质量评价神经网络中包括预设共享隐藏层、平均层、口语发音级别隐藏层以及预设分类预测层。

步骤S304：将所述句子级后验概率分布样本分数输入至所述预设质量评价神经网络，获取所述预设质量评价神经网络的损失值。

可以理解的是，预设样本语音集中包含人工标签，将句子级后验概率分布样本分数输入至所述预设质量评价神经网络后，可以得到预设质量评价神经网络预测的标签，根据人工标签和预设的标签进行损失值计算，从而使预设质量评价神经网络稳定。可以通过绝对值损失函数确定所述预设质量评价神经网络的损失值，绝对值损失函数是计算预测值与目标值的差的绝对值；也可以通过log对数损失函数确定所述预设质量评价神经网络的损失值；也可以通过交叉熵损失函数确定所述预设质量评价神经网络的损失值。

具体地，为了在误差较大的情况下，使权重更新快，从而快速训练好预设质量评价神经网络，步骤S304，包括：将所述句子级后验概率分布样本分数输入至预设共享隐藏层，得到隐藏输出样本数据；将所述隐藏输出样本数据输入至平均层，得到平均样本数据；将所述平均样本数据输入至口语发音级别隐藏层，得到目标样本数据；将所述目标样本数据输入至预设分类预测层，得到预测标签；根据所述预测标签与预设标签确定交叉熵损失值；根据所述交叉熵损失值确定所述预设质量评价神经网络的损失值。

需要说明的是，预设标签为预设样本语音集中人工标注的标签，根据公式(3)计算交叉熵损失值：

其中，其中y是预设标签，

是softmax层返回的预测标签，n表示样本总数量，x表示样本。

进一步地，所述根据所述交叉熵损失值确定所述预设质量评价神经网络的损失值，包括：根据所述交叉熵损失值和均方根误差损失值确定所述预设质量评价神经网络的损失值。

应当理解的是，均方根误差是预测值与真实值偏差的平方与观测次数比值的平方根，在具体实现中，可以通过句子级后验概率分布分数f_i与其相邻的 f_i+1进行计算均方根误差计算均方根误差损失值，也可以通过计算共享隐藏层的隐藏输出h_i与h_i+1之间的均方根误差确定均方根误差损失值。

进一步地，为了保证隐藏层的输入学习样本不变，从而使分类结果更准确，所述根据所述交叉熵损失值和均方根误差损失值确定所述预设质量评价神经网络的损失值之前，所述方法还包括：根据第p个隐藏输出样本数据以及第p+1个隐藏输出样本数据计算第p个均方根误差，其中，1≤p≤K-1，K 为隐藏输出样本数据总个数；根据第p个均方根误差得到K-1个均方根误差；根据K-1个均方根误差得到K-1个均方根误差的平均值；将所述K-1个均方根误差的平均值作为均方根误差损失值。

需要说明的是，在共享隐藏层输出h之后，使用一个辅助的均方根误差损失项(RMSE)，用于计算均方根误差损失值，总损失函数定义为公式(4):

其中，其中y是预设标签，

是softmax层返回的预测标签，h_i是共享隐藏层从第i个句子级后验概率分布分数f_i返回的第i个隐藏状态，h_i+1是共享隐藏层从第i+1个句子级后验概率分布分数f_i+1返回的第i+1个隐藏状态。K表示为隐藏输出样本数据总个数，也即输入语音句子的数量。

步骤S305：当所述损失值小于或者等于预设损失阈值时，得到训练好的所述预设质量评价神经网络。

需要说明的是，当所述损失值大于预设损失阈值时，调整各网络层对应的权重，经过多次训练，直到所述损失值小于或者等于预设损失阈值，从而得到训练好的所述预设质量评价神经网络。

对本实施例提出的预设质量评价神经网络的精度进行评估，具体实验过程如下：

使用多层感知机(Multilayer Perception,MLP)作为基础分类模型，并与本实施例提出的SL-NN模型进行比较，具体参数设置如下：将Adam优化器应用于MLP和SL-NN中，对应的批量大小分别是8和1。对于MLP，学习率设置为0.001，第一个隐藏层中的单元数设置为50。对于SL-NN，我们使用了0.0001的学习速率，共享隐藏层中的单元数为500。在两个模型中，第一个隐藏层均使用ReLU激活函数，第二个隐藏层均使用线性激活函数。最后，输出被softmax层激活。采用十折交叉验证(Cross Validation,CV)来评估口音分类的性能。在每个十折CV实验中，我们从训练集中随机选择一个额外的验证集，并根据验证损失对训练过程进行提前停止。训练、验证以及测试集的最终比例为8:1:1。模型的稳定性通过从数据集中随机抽取不同样本集的多个CV实验计算出的标准差来衡量。

通过实验验证分类中使用的语音句子数与相应的模型稳定性之间的关系。随机选取每个说话人的K＝1，2以及3个句子作为训练集，获得句子级特征。为了使最终分类结果在不同K之间具有可比性，在验证和测试过程中，总是使用从说话人的所有语音句子中提取出的说话人级别的特征。进行50次十折CV实验，并计算平均准确率和标准差，以进行性能比较。

参照图5，图5为本发明口语发音质量评价方法一实施例的不同特征的性能对比图，从图5可以清楚地看出，使用更多的句子来训练MLP模型可以获得更高的分类准确率，且说话人级别的特征始终具有最佳的性能。此外，在所有不同的设置下，PPD的性能都优于PS。基于PPD的模型在只使用两个或三个语音句子时可以提供合理的结果，而基于PS的系统需要更多的语音句子来获得相似的性能。此外，标准差的总体下降趋势表明，随着语音句子量的增加，分类结果会更加稳定。

说话人级别特征	准确率(％)	标准差(％)
			PR	50.77	1.52
PS	50.27	2.58
			PPD	54.40	1.73
PR+PS	53.30	2.00
			PR+PPD	55.58	1.83
PS+PPD	54.02	1.48
			PR+PS+PPD	55.21	1.73

表3

表3为基于MLP分类器不同说话人级别特征及其组合对应的性能表，根据表3可以发现，PPD比PS和PR都好，因为PPD能从声学模型中获得更多的信息。由于PR明确地向分类模型提供了与某些英语相关的发音错误，它的准确率略高于PS，与PR结合后，PS和PPD的性能都得到了提高，这意味着标准音素到其他音素的发音错误信息对于口音分类非常重要。还可以观察到，用PS结合PPD会降低精度(即PS+PPD vs PPD，PR+PS+PPD vs.PR+PPD)，可能是因为PPD和PR在衡量标准音素中的发音错误方面有着高度的重叠， PPD和PR的结合增加了标准音素错误的冗余性，但是忽略了系统发音错误。

进一步地，基于人和机器的kappa值以及混淆矩阵比较了MLP模型(分别使用PR、PS和PPD)的性能，表4为PEAED语音库的人机kappa值，表 5为基于PR、PS和PPD特征的模型的混淆矩阵，根据表4和表5可知，和所有标注者相比较，基于PPD的模型比PR和PS具有更高的kappa值，基于 PR的MLP系统在轻口音和中口音上的表现更好，而基于PS的MLP系统在重口音上的表现更好。相对而言，基于PPD的系统具有最均衡的性能，这主要是因为PPD比PS和PR包含了更详细的系统发音错误信息。

表4

表5

参照表6，表6为基于PPD的MLP和SL-NN模型的性能比较。在三种不同的环境下进行了实验：随机选择每个说话人的K＝2，K＝3个语音句子，以及使用所有语音句子作为模型的输入。

表6

根据表6可知MLP和SL-NN在使用更多的语音句子时都有性能上的提升。SL-NN在三种情况下都优于MLP，尤其是当所有的语音句子同时使用时。这表明，本实施例提出的SL-NN结构能够更好地捕捉多条语音句子中说话人级别的信息。根据SL-NN与去除RMSE的SL-NN进行对比可知，设置RMSE 可以提高SL-NN的精度和稳定性。

本实施例通过预设样本语音集对预设质量评价神经网络进行训练，从而得到训练好的预设质量评价神经网络，不仅仅考虑了交叉熵损失值，并且考虑了同一个说话人的多个句子级后验概率分布样本分数在通过预设共享隐藏层之后，所得到的隐藏输出样本数据之间的均方根误差损失值，提升了预设质量评价神经网络的精度和稳定性，通过训练好的预设质量评价神经网络对待测试人员的多条句子级后验概率分布分数进行质量评价，得到更准确的评价结果。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有口语发音质量评价程序，所述口语发音质量评价程序被处理器执行时实现如上文所述的口语发音质量评价方法的步骤。

参照图6，图6为本发明口语发音质量评价装置第一实施例的结构框图。

如图6所示，本发明实施例提出的口语发音质量评价装置包括：

获取模块10，用于获取待测试人员的多条句子级语音信号。

需要说明的是，句子级语音信号是指采集到的待测试人员阅读多条句子的语音信号，在具体实现中，为了使口语发音质量评价更流畅和高效，可以预先准备阅读样本，让待测试人员根据阅读样本读出多条句子，语音采集装置进行句子级语音信号采集，发送至获取模块10，从而实现对待测试人员的多条句子级语音信号的获取，如果获取模块10设置有麦克风或者声卡，获取模块10可以直接采集待测试人员的语音信号。

分数计算模块20，用于根据所述句子级语音信号确定一一对应的句子级后验概率分布分数。

具体地，为了得到句子级后验概率分布分数，所述分数计算模块20，还用于获取预设标准音素序列，所述预设标准音素序列中包含M个预设标准音素；将所述句子级语音信号与所述预设标准音素序列进行对齐，得到各个预设标准音素对应的对齐段，其中，第i个预设标准音素对应的对齐段总数为N， 1≤i≤M，第t个对齐段中包含R个特征帧，1≤t≤N；根据第j个特征帧以及所述预设标准因素序列计算第j个特征帧对应的后概率分布向量，其中，1≤j ≤R；根据所述第j个特征帧对应的后概率分布向量得到R个后概率分布向量；根据所述R个后概率分布向量计算第t个对齐段对应的后概率分布得分；根据所述第t个对齐段对应的后概率分布得分得到N个对齐段对应的后概率分布得分；根据所述N个对齐段对应的后概率分布得分计算所述句子级语音信号一一对应的句子级后验概率分布分数。

根据公式(1)计算标准音素q_i对应的后验概率分布分数：

其中，q为预设标准音素序列，q＝[q₁,q₂,…,q_M]；

是对齐段

的第j 个特征帧；

是该段的帧总数；N是属于预设标准音素q_i的段总数。

其中，

是对齐段

的第j个特征帧；

是该段的帧总数；N是属于预设标准音素q_i的段总数。

以语音规则(Phonological Rule,PR)为例进行对比说明：

英式音素	误发音音素
		f	p
p	b,f
		ae	aa,ah
ch,zh	sh

表1

评价模块30，用于将所述句子级后验概率分布分数通过训练好的预设质量评价神经网络进行质量评价，得到所述待测试人员的口语发音质量评价结果。

具体地，所述评价模块30，还用于将所述句子级后验概率分布分数输入至预设共享隐藏层，得到隐藏输出特征数据，其中，所述训练好的预设质量评价神经网络包括预设共享隐藏层、平均层、口语发音级别隐藏层以及预设分类预测层；将所述隐藏输出特征数据输入至平均层，得到平均特征数据；将所述平均特征数据输入至口语发音级别隐藏层，得到目标特征数据；将所述目标特征数据输入至预设分类预测层，得到目标标签；根据所述目标标签得到所述待测试人员的口语发音质量评价结果。

应当理解的是，以上仅为举例说明，对本发明的技术方案并不构成任何限定，在具体应用中，本领域的技术人员可以根据需要进行设置，本发明对此不做限制。

在一实施例中，所述获取模块10，还用于获取预设样本语音集；

创建预设质量评价神经网络；

在一实施例中，所述获取模块10，还用于将所述句子级后验概率分布样本分数输入至预设共享隐藏层，得到隐藏输出样本数据；

根据所述预测标签与预设标签确定交叉熵损失值；

在一实施例中，所述获取模块10，还用于根据所述交叉熵损失值和均方根误差损失值确定所述预设质量评价神经网络的损失值。

在一实施例中，所述获取模块10，还用于根据第p个隐藏输出样本数据以及第p+1个隐藏输出样本数据计算第p个均方根误差，其中，1≤p≤K-1， K为隐藏输出样本数据总个数；

根据第p个均方根误差得到K-1个均方根误差；

根据K-1个均方根误差得到K-1个均方根误差的平均值；

将所述K-1个均方根误差的平均值作为均方根误差损失值。

需要说明的是，以上所描述的工作流程仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的，此处不做限制。

另外，未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的口语发音质量评价方法，此处不再赘述。

此外，需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory，ROM)/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种口语发音质量评价方法，其特征在于，所述口语发音质量评价方法包括：

获取待测试人员的多条句子级语音信号；

2.如权利要求1所述的口语发音质量评价方法，其特征在于，所述将所述句子级后验概率分布分数输入至训练好的预设质量评价神经网络，得到所述待测试人员的口语发音质量评价结果，包括：

3.如权利要求1所述的口语发音质量评价方法，其特征在于，所述将所述句子级后验概率分布分数通过训练好的预设质量评价神经网络进行质量评价，得到所述待测试人员的口语发音质量评价结果之前，所述方法还包括：

获取预设样本语音集；

创建预设质量评价神经网络；

4.如权利要求3所述的口语发音质量评价方法，其特征在于，所述将所述句子级后验概率分布样本分数输入至所述预设质量评价神经网络，获取所述预设质量评价神经网络的损失值，包括：

根据所述预测标签与预设标签确定交叉熵损失值；

5.如权利要求4所述的口语发音质量评价方法，其特征在于，所述根据所述交叉熵损失值确定所述预设质量评价神经网络的损失值，包括：

6.如权利要求5所述的口语发音质量评价方法，其特征在于，所述根据所述交叉熵损失值和均方根误差损失值确定所述预设质量评价神经网络的损失值之前，所述方法还包括：

根据第p个隐藏输出样本数据以及第p+1个隐藏输出样本数据计算第p个均方根误差，其中，1≤p≤K-1，K为隐藏输出样本数据总个数；

根据第p个均方根误差得到K-1个均方根误差；

根据K-1个均方根误差得到K-1个均方根误差的平均值；

将所述K-1个均方根误差的平均值作为均方根误差损失值。

7.如权利要求1-6中任一项所述的口语发音质量评价方法，其特征在于，所述根据所述句子级语音信号确定一一对应的句子级后验概率分布分数，包括：

将所述句子级语音信号与所述预设标准音素序列进行对齐，得到各个预设标准音素对应的对齐段，其中，第i个预设标准音素对应的对齐段总数为N，1≤i≤M，第t个对齐段中包含R个特征帧，1≤t≤N；

8.一种口语发音质量评价装置，其特征在于，所述口语发音质量评价装置包括：

获取模块，用于获取待测试人员的多条句子级语音信号；

9.一种口语发音质量评价设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的口语发音质量评价程序，所述口语发音质量评价程序配置为实现如权利要求1至7中任一项所述的口语发音质量评价方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有口语发音质量评价程序，所述口语发音质量评价程序被处理器执行时实现如权利要求1至7任一项所述的口语发音质量评价方法的步骤。