CN110782921A

CN110782921A - 语音测评方法和装置、存储介质及电子装置

Info

Publication number: CN110782921A
Application number: CN201910887946.7A
Authority: CN
Inventors: 林炳怀; 康跃腾; 王丽园
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2020-02-11
Anticipated expiration: 2039-09-19
Also published as: CN110782921B

Abstract

本发明公开了一种语音测评方法和装置、存储介质及电子装置。其中，该方法包括：获取与预设参考文本对应的待测评语音，确定该待测评语音中音素的目标发音特征；根据该目标发音特征确定该待测评语音中音素的目标音素准确度以及该待测评语音的目标句子测评分值；根据该目标音素准确度确定待纠错音素，并确定该待纠错音素对应的目标字母；输出该目标字母以及该目标句子测评分值，解决了现有技术中对于整体发音评分和局部音素判错是分开进行评估的，容易产生整体评分与局部细节判错的不一致性的技术问题。

Description

语音测评方法和装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种语音测评方法和装置、存储介质及电子装置。

背景技术

从句子、词语、音素级别对二语者进行多角度评分与错误反馈。句子方面：采用多个特征，进行线性拟合总分，从相关度指标进行评估。词语方面，采用多个特征进行二分类，通过混淆矩阵进行分类评估。音素方面：假设每个词语的错误概率由词语中所有音素错误概率的几何平均、数学平均、马尔科夫链等组合方式得到，由词语是否错误的分类结果推断每个音素的错误概率。通过分析二语者易错的音素，不仅可以对二语者的错误进行及时反馈，还可以了解二语者整体音素错误趋势。然而，该方法将句子分数拟合与音素判错分开训练，没有很好地利用音素判错与句子分数拟合的相关信息，并且需要大量词语错误的标签，标注成本比较高。

现有技术中大部分对于整体发音评分和局部音素判错是分开进行评估的，容易产生整体评分与局部细节判错的不一致性。同时，对于音素级别的判断，需要大量准确的人工标签，标注成本较高。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语音测评方法和装置、存储介质及电子装置，以至少解决现有技术中对于整体发音评分和局部音素判错是分开进行评估的，容易产生整体评分与局部细节判错的不一致性的技术问题。

根据本发明实施例的一方面，还提供了一种语音测评方法，包括：

获取与预设参考文本对应的待测评语音；

确定该待测评语音中音素的目标发音特征；

根据该目标发音特征确定该待测评语音中音素的目标音素准确度以及该待测评语音的目标句子测评分值；

根据该目标音素准确度确定待纠错音素，并确定该待纠错音素对应的目标字母；

输出该目标字母以及该目标句子测评分值。

根据本发明实施例的另一方面，还提供了一种语音测评装置，包括：

第一获取模块，用于获取与预设参考文本对应的待测评语音；

第一确定模块，用于确定该待测评语音中音素的目标发音特征；

第二确定模块，用于根据该目标发音特征确定该待测评语音中音素的目标音素准确度以及该待测评语音的目标句子测评分值；

第三确定模块，用于根据该目标音素准确度确定待纠错音素，并确定该待纠错音素对应的目标字母；

输出模块，用于输出该目标字母以及该目标句子测评分值。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述攻击操作的处理方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的攻击操作的处理方法。

在本发明实施例中，通过音素的发音特征确定待测评语音中的音素准确度即句子测评分值，进而解决了现有技术中对于整体发音评分和局部音素判错是分开进行评估的，容易产生整体评分与局部细节判错的不一致性的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的发音测评方法的应用场景的示意图；

图2是根据本发明实施例的语音测评的示意图一；

图3是根据本发明实施例的语音测评的示意图二；

图4是根据本发明实施例的语音测评方法的流程图；

图5是根据本发明实施例的基于PU Learning的音素纠错的多任务学习模型的流程图；

图6是根据本发明实施例的多任务学习模型的示意图；

图7是根据本发明实施例的语音测评装置的框图；

图8是根据本发明优选实施例的语音测评装置的框图一；

图9是根据本发明优选实施例的语音测评装置的框图二；

图10是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

GOP(Goodness of Pronunciation，发音准确度)算法是由麻省理工大学的SilkeWitt在他的博士论文中提出。GOP算法的基本思想正是利用了事先知道的参考文本，把语音和该语音对应的参考文本做强制对齐(force alignment)，识别参考文本中每个音素对应的语音段(即语音中的多个连续的音频帧)，然后计算在观察到这个语音段的前提下，这个语音段对应参考文本中的音素的匹配概率，匹配概率越高，说明发音越准确，匹配概率越低，说明发音越差。直观的来说，GOP算法计算的是输入语音对应于已知文字的可能性，如果可能性越高，说明发音越标准。

音素(phone)，是语音中的最小的单位，依据音节里的发音动作来分析，一个动作构成一个音素。英语词汇的音素分为元音、辅音两大类，例如，元音有a、e、ai等，辅音有p、t、h等。

声学模型(AM，Acoustic model)是语音识别系统中最为重要的部分之一，是把语音的声学特征分类对应到音素的模型。目前的主流系统多采用隐马尔科夫模型进行建模。

发音字典是描述词汇和其发音标注之间的对应关系的集合，根据字典中记录的发音标注可确定每个词汇的发音，例如，汉字“我”对应的发音标注为[wǒ]。

本发明实施例的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

在具体实践过程中，通常使用跟读评测的方法检测用户的口语水平，即智能设备给定参考文本，用户通过智能设备的录音设备录制参考文本对应的语音，系统根据参考文本，将用户录制的语音和参考文本对应的标准音素进行比较，从而向用户提供整句语音的发音评分，以及每个单词的发音是否正确的反馈，以此来提高用户的口语水平。但是，单词本身的颗粒度比较大，不能提供更为详细的评测结果，用户也就无法针对性地改正发音。

为此，本发明实施例，根据预设参考文本对应的每个标准音素，确定待评测语音中与标准音素对应的音频帧的评测分值，得到音素级别的评测分值，然后，根据音频帧的评测分值，确定出待评测语音中的待纠错音频帧，根据预先建立字母发音映射表，在预设参考文本中，确定出待纠错音频帧对应的标准音素对应的目标字母，最后，控制智能设备输出待纠错音频帧对应的目标字母。与现有技术相比，本发明实施例的语音评测方法，能够对语音作出音素级别的评测，使得用户能够获知跟读时错误或不标准的发音在预设参考文本中对应的是哪些字母，导致评测分值较低，进而有针对性地改正错误或不标准的发音，帮助用户更快更高效地提高口语水平。

下面具体介绍本发明实施例的各种非限制性实施方式。

图1是根据本发明实施例的发音测评方法的应用场景的示意图，如图1所示，用户10通过智能设备11内的应用程序与智能设备11完成交互，图2是根据本发明实施例的语音测评的示意图一，如图2所示，智能设备11显示参考文本，用户10读出参考文本，点击开始跟读按钮，开始跟读句子；点击结束跟读，结束跟读句子。此时，智能设备11通过应用程序启动智能设备11内置或外接的语音采集装置12(如麦克风)，以采集用户读参考文本的语音作为待评测语音，应用程序将待评测语音以及参考文本发送给服务器13，服务器13根据待评测语音和参考文本对待评测语音进行发音质量的评价，得到待评测语音的发音评分，将发音评分反馈给智能设备11，智能设备11显示服务器13反馈的发音评分。图3是根据本发明实施例的语音测评的示意图二，如图3所示，结束跟读后显示跟读结果，绿色为音素朗读正确，红色标注朗读音素错误，点击朗读错误的音素，可以显示正确的音素读音。同时，显示该句话的准确度得分，在显示屏中显示该句90分。

这种应用场景下，智能设备11和服务器13之间通过网络进行通信连接，该网络可以为局域网、广域网等。智能设备11可以为便携设备(例如：手机、平板、笔记本电脑、个人数字助理(Personal Digital Assistant，PDA)等)，也可以为个人电脑(PC，PersonalComputer)，一般手机、平板、笔记本电脑均内置有麦克风，而个人电脑可通过外接语音采集装置采集用户的语音。服务器13可以为任何能够提供语音识别以及语音评测服务的设备。

下面结合图1所示的应用场景，对本发明实施例提供的技术方案进行说明。

本发明实施例公开了一种语音测评方法，图4是根据本发明实施例的语音测评方法的流程图，如图4所示，包括：

步骤S402，获取与预设参考文本对应的待测评语音；

具体的，用户点击跟读预设参考文本，采集用户针对该预设参考文本的待测评语音，即待测评语音为用户真实的语音输入。

步骤S404，确定该待测评语音中音素的目标发音特征；

具体的，可以通过以下公式确定该待测评语音中音素的目标发音特征：

其中，GOP(p)为该目标发音特征，P(o^(p)|p)表示音素p发音成对应发音段的概率，P(p)表示音素p出现的概率，P(o^(p)|q)为音素q发音成对应发音段的概率，P(q)为音素q出现的概率，Q表示所有音素，NF(p)表示音素p的帧数。

步骤S406，根据该目标发音特征确定该待测评语音中音素的目标音素准确度以及该待测评语音的目标句子测评分值；

具体的，根据目标发音特征确定待测评语音中音素的目标音素准确度，之后根据目标音素准确度确定待测评语音的目标句子测评分值，即在确定目标句子测评分值时考虑了音素的准确度，本发明实施例中的音素准确度即为准确度得分，例如准确度得分为1，表示音素正确，准确度得分为0，表示音素读音错误即音素错误，需要归类到待纠错音素中。

步骤S408，根据该目标音素准确度确定待纠错音素，并确定该待纠错音素对应的目标字母；

具体实施时，根据待纠错音素对应的音频帧在参考文本中对应的目标字母，控制智能设备在显示屏上显示待纠错音素对应的错误音素，提示用户其在读预设参考文本时的实际发音。例如，用户在读单词good时，将标准音素[u]发成了通过声学模型可识别出用户实际的发音为确定该标准音素[u]在单词good对应的字母为“oo”，则控制智能设备标注出单词good中的字母“oo”，并显示字母“oo”对应的标准音素[u]和用户的实际发音对应的错误音素标准音素和错误音素可显示在同一区域内，并且明确地标注出哪个是标准音素，哪个是错误音素，用户通过比较目标字母对应的标准音素和错误音素，可直观地了解自己的发音与正确发音之间的差别。

本实施例中，待纠错音素是从用户输入的待测评语音中截取的用户的真实语音，智能设备输出待纠错音素的同时，在智能设备的显示屏上显示该错误音素对应的播放按钮，当用户按下播放按钮后，智能设备播放该错误音素对应的待纠错音素。

通过播放标准音素对应的标准语音和错误音素对应的待纠错音素，使得用户能够直观地了解自己的发音到底存在哪些缺陷，辅助用户纠正发音，帮助用户打好发音基础。

步骤S410，输出该目标字母以及该目标句子测评分值。

具体实施时，在控制智能设备输出目标字母的同时，即显示错误音素对应的目标字母的同时，还可以控制智能设备输出基于目标字母得到的目标句子评测分值，使得用户能够直观地了解自己的发音水平。采用两种评测指标对语音进行评测，还可以同时输出目标字母对应的待纠错音频帧的流利度评价值和发音准确度评价值。

进一步地，具体实施时，在控制智能设备输出目标字母的同时，还可以控制智能设备输出目标字母对应的标准音素。例如，可控制智能设备在显示屏上目标字母对应的展示区域内显示该目标字母对应的标准音素，以提示用户该目标字母正确的发音，帮助用户快速纠正错误发音。此外，通过输出待纠错音频帧在预设参考文本中对应的字母以及该字母对应的标准音素，还能够帮助用户了解语言的发音规律，提高学习效率。

本发明实施例中，上述步骤S406具体可以包括：

S4061，根据该目标发音特征确定该目标音素准确度；

具体的，将该目标发音特征输入预先训练好的目标神经网络模型的底层，得到该目标神经网络模型的底层输出的该目标发音特征的该目标音素准确度；

S4062，根据该目标音素准确度确定该待测评语音中单词的目标单词准确度；

具体的，在得到目标音素准确度之后，可以根据预先设置的映射表确定目标单词准确度，该映射表中维护有音素准确度与单词准确度的对应关系，对于对应关系，音素准确度大于预设阈值的比例大于或等于90％，对应第一等级的单词准确度，音素准确度大于预设阈值的比例大于或等于80％且小于90％，对应第二等级的单词准确度，音素准确度大于预设阈值的比例大于或等于70％且小于80％，对应第三等级的单词准确度，音素准确度大于预设阈值的比例大于或等于60％且小于70％，对应第四等级的单词准确度等等，而第一等级的单词准确度、第二等级的单词准确度、第三等级的单词准确度、第四等级的单词准确度等可以预先进行设置，例如，第一等级的单词准确度设置为9、第二等级的单词准确度设置8、第三等级的单词准确度设置为7、第四等级的单词准确度设置为6等。

在目标音素准确度为音素准确度得分，且根据准确度得分确定音素读音是否正确的情况下，如音素准确度得分为1，表示音素正确，音素准确度得分为0，表示音素错误，具体可以是一个单词中音素准确度大于0的比例大于一定值，例如，音素准确度得分为1标识音素正确，在一个单词中，要求音素准确度大于0的比例大于或等于90％，对应的单词准确度为9，音素准确度大于0的比例大于或等于80％且小于90％，对应的单词准确度为8，音素准确度大于0的比例大于或等于70％且小于80％，对应的单词准确度为7，音素准确度大于0的比例大于或等于60％且小于70％，对应的单词准确度为6等等。

S4063，根据该目标单词准确度确定该待测评语音的该目标句子测评分值。

具体的，将该目标单词准确度输入到该目标神经网络模型的上层，得到该目标神经网络模型的上层输出的该待测评语音对应的该目标句子测评分值。

本发明实施例中，在根据该目标发音特征确定该待测评语音中音素的目标音素准确度以及该待测评语音的目标句子测评分值之前，获取训练样本的音素的发音特征，其中，该训练样本的音素包括：预定数量的正样本的标准音素和无标签样本的音素；

使用该训练样本的音素的发音特征对原始神经网络模型进行训练，得到该目标神经网络模型，其中，该训练样本的音素的发音特征为该原始神经网络模型的输入，训练好的该目标神经网络模型的底层输出的音素准确度和该目标神经网络模型的上层输出的句子测评分值拟合后的损失值满足预定条件。

本发明实施例，通过正样本和无标签样本便可实现对目标神经网络模型的训练，通过训练好的目标神经网络便可确定该待测评语音对应的音素准确度和目标句子测评分值，可以解决相关技术中现有技术中音素标注数据稀少难以训练，训练的模型准确度低，导致无法语音测评效果差的问题。

进一步的，使用该训练样本的音素的发音特征对原始神经网络模型进行训练，得到该目标神经网络模型具体包括：

根据该训练样本的音素的发音特征对该原始神经网络模型的底层进行训练，并确定该音素准确度的第一损失值；

根据该训练样本的音素准确度确定该训练样本的单词准确度；

根据该单词准确度对该原始神经网络模型的上层进行训练，并确定句子测评分值的第二损失值；

根据该第一损失值和该第二损失值确定该音素准确度和该句子准确度拟合后的第三损失值，在该第三损失值的输出值小于预设阈值时结束训练，得到该目标神经网络模型。

本发明实施例中，通过以下公式根据该第一损失值和该第二损失值确定该音素准确度和该句子准确度拟合后的第三损失值：

L＝β₁L_sent+β₂L_phone，

其中，L为该第三损失值，L_phone为该第一损失值，L_sent为该第二损失值，β₁为该句子准确度的权重，β₂为该音素准确度的权重。

本发明实施例中，通过以下公式确定音素准确度的第一损失值：

其中，π_p为正样本的先验概率，

为正样本分类成正样本的损失期望值，为无标签样本分类成正样本的损失期望值，

为正样本分类成负样本的损失值，g为该原始神经网络模型的底层输出的第j个音素的音素准确度。

本发明实施例中，通过以下公式确定句子准确度的第二损失值：

其中，n为句子总数，score_expert(i)为预定对象对第i条句子的句子准确度打分，score_model(i)为该第二原始神经网络模型输出的第i条句子的准确度打分。

本实施例的方法可适用于任意一种由字母构成单词的语言，例如，英语、德语、西班牙语等。具体实施时，针对不同的语言，只需要使用不同语言对应的语料训练本实施例的方法中使用的对齐模型、声学模型等，并构建该语言对应的发音字典、字母发音映射表即可，针对不同语言，模型训练方法和字母发音映射表的构建方法均相同，不再赘述。

下面以英语为例对本发明实施例进行详细说明。

图5是根据本发明实施例的基于PU Learning的音素纠错的多任务学习模型的流程图，如图5所示，步骤如下：

1)用户首先打开app，点击app中的跟读句子按钮；

2)App将跟读的音频与文本发送给服务器端；

3)服务器端将音频文本发送给语音识别引擎；

4)语音识别引擎将语音与文字对齐并提取发音特征，将提取的发音特征输入到基于PU Learning的音素纠错的多任务学习模型中；

5)音素纠错的多任务学习模型输出音素正确与否以及句子的准确度得分给服务器；

6)服务器端接收音素判错与发音评分后，将分数返回给app端，展示给用户。

由于难以获得音素级别的正确与否标签，采用监督学习进行音素判错学习不太可能。假设native发音者的发音都是正确的，大量native的发音可以充当正样本。因此音素判错演变成基于正样本与无标签样本的学习的问题。正样本与无标签样本分类问题的解决一直有很多研究。相关技术中将PN Learning问题转化为正样本负样本问题，证明PULearning可以转化为PN Learning，两者只相差一个常数因子。一般情况下采用两步进行PULearning过程。第一步首先少量确定的负样本与正样本进行PN Learning，训练分类器；第二步基于第一步的分类器，对剩下的无标签样本进行训练。无标签样本不仅仅由负样本构成，而是由正样本与负样本共同构成。给定样本x，π_n为负样本的先验概率，π_p为正样本的先验概率，为无标签样本分类成正样本的损失期望值，为正样本分类成正样本的损失期望值，

为负样本分类成正样本的损失值，

为正样本分类成负样本的损失值。在音素判错场景下，正样本为音素读对样本，负样本为音素读错样本。由于正样本无标签样本的损失值由正样本损失值与负样本损失值之和构成，但在只有无标签样本无样本的情况下，可将负样本损失值转化为无标签样本损失与无标签样本损失值之差，最终正样本无标签样本损失值

图6是根据本发明实施例的多任务学习模型的示意图，如图6所示，音素层通过PULearning输出音素正确与否，得到音素准确度得分，根据音素准确度得分得到单词准确度得分，句子层根据单词准确度得分输出句子准确度得分，结合音素层判错与句子层分数拟合，进行多任务学习。

音素层在自动语音识别过程中，GOP用于表示某段发音对应某个音素的概率。具体实施时，可利用GOP算法计算每个标准音素的GOP值，作为每个标准音素的发音准确度评价值。作为一种可能的实现方式，可通过以下公式计算每个音素的GOP值：

其中，其中p(p|o)表示某段发音下某个音素的概率。Q表示所有音素，NF(p)表示音素p发音的帧数。p为预设参考文本中的标准音素，P(p|o)为标准音素p对应的匹配概率，NF(p)为标准音素p对应的音频帧的数量，o为标准音素p对应的音频帧。

音素层主要对单词内部音素正确与错误进行判断。由于音素级别的标签数据较少，通过少量数据学习音素判错分类器是不可取的。而大量的native音素正例可以直接获取因此该问题可以转化为大量正样本与无标签样本的学习问题。结合PU Learning，可以自适应对音素进行错误判断。

多任务学习中，音素的正确与否与句子的准确度得分具有较强的相关性，将音素错误分类与句子准确度得分拟合结合，进行多任务学习，可以同时提高句子评分相关度与音素准确率。如以下公式所示：

L＝β₁L_sent+β₂L_phone

其中，β₁为拟合句子得分的任务权重，β₂为音素正确错误分类的任务权重。

L_sent为拟合句子准确度得分的损失值，i为第i条朗读的句子，n为句子总数，score_expert(i)为第i条句子专家的准确度打分，score_model(i)为第i条句子模型输出的准确度打分。

其中，L_phone对应上述的

π_p为正样本的先验概率，

为正样本分类成正样本的损失期望值，

为无标签样本分类成正样本的损失期望值，

最终，训练整个网络，直至多任务的损失值达到一个较低的值且趋于稳定时，停止训练网络。

本发明实施例还提供了一种语音测评装置，图7是根据本发明实施例的语音测评装置的框图，如图7所示，包括：

第一获取模块72，用于获取与预设参考文本对应的待测评语音；

第一确定模块74，用于确定该待测评语音中音素的目标发音特征；

第二确定模块76，用于根据该目标发音特征确定该待测评语音中音素的目标音素准确度以及该待测评语音的目标句子测评分值；

第三确定模块78，用于根据该目标音素准确度确定待纠错音素，并确定该待纠错音素对应的目标字母；

输出模块710，用于输出该目标字母以及该目标句子测评分值。

图8是根据本发明优选实施例的语音测评装置的框图一，如图8所示，该第二确定模块76包括：

第一确定子模块82，用于根据该目标发音特征确定该目标音素准确度；

第二确定子模块84，用于根据该目标音素准确度确定该待测评语音中单词的目标单词准确度；

第三确定子模块86，用于根据该目标单词准确度确定该待测评语音的该目标句子测评分值。

可选地，该第一确定子模块82，还用于将该目标发音特征输入预先训练好的目标神经网络模型的底层，得到该目标神经网络模型的底层输出的该目标发音特征的音素准确度的该目标音素准确度；

第三确定子模块86，还用于将该目标单词准确度输入到该目标神经网络模型的上层，得到该目标神经网络模型的上层输出的该待测评语音对应的句子测评分值的该目标句子测评分值。

图9是根据本发明优选实施例的语音测评装置的框图二，如图9所示，该装置还包括：

第二获取模块92，用于获取训练样本的音素的发音特征，其中，该训练样本的音素包括：预定数量的正样本的标准音素和无标签样本的音素；

训练模块94，用于使用该训练样本的音素的发音特征对原始神经网络模型进行训练，得到该目标神经网络模型，其中，该训练样本的音素的发音特征为该原始神经网络模型的输入，训练好的该目标神经网络模型的底层输出的音素准确度和该目标神经网络模型的上层输出的句子测评分值拟合后的损失值满足预定条件。

可选地，该训练模块94包括：

第一训练子模块，用于根据该训练样本的音素的发音特征对该原始神经网络模型的底层进行训练，并确定该音素准确度的第一损失值；

第四确定子模块，用于根据该训练样本的音素准确度确定该训练样本的单词准确度；

第二训练子模块，用于根据该单词准确度对该原始神经网络模型的上层进行训练，并确定句子测评分值的第二损失值；

第五确定子模块，用于根据该第一损失值和该第二损失值确定该音素准确度和该句子准确度拟合后的第三损失值，在该第三损失值的输出值小于预设阈值时结束训练，得到该目标神经网络模型。

可选地，该第五确定子模块，还用于通过以下公式根据该第一损失值和该第二损失值确定该音素准确度和该句子准确度拟合后的第三损失值：

L＝β₁L_sent+β₂L_phone，

可选地，该第一训练子模块，还用于通过以下公式确定音素准确度的第一损失值：

其中，π_p为正样本的先验概率，

为正样本分类成正样本的损失期望值，

为无标签样本分类成正样本的损失期望值，为正样本分类成负样本的损失值，g为该原始神经网络模型的底层输出的第j个音素的音素准确度。

可选地，该第二训练子模块，还用于通过以下公式确定句子准确度的第二损失值：

可选地，该第一确定模块，还用于通过以下公式确定该待测评语音中音素的目标发音特征包括：

根据本发明实施例的又一个方面，还提供了一种用于实施上述攻击操作的处理方法的电子装置，如图10所示，该电子装置包括存储器1002和处理器1004，该存储器1002中存储有计算机程序，该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S11，获取与预设参考文本对应的待测评语音；

S12，确定该待测评语音中音素的目标发音特征；

S13，根据该目标发音特征确定该待测评语音中音素的目标音素准确度以及该待测评语音的目标句子测评分值；

S14，根据该目标音素准确度确定待纠错音素，并确定该待纠错音素对应的目标字母；

S15，输出该目标字母以及该目标句子测评分值。

可选地，本领域普通技术人员可以理解，图10所示的结构仅为示意，电子装置也可以是智能手机(如Andro标识手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，M标识)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图10中所示更多或者更少的组件(如网络接口等)，或者具有与图10所示不同的配置。

其中，存储器1002可用于存储软件程序以及模块，如本发明实施例中的媒体资源的获取方法和装置对应的程序指令/模块，处理器1004通过运行存储在存储器1002内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的媒体资源的获取方法。存储器1002可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1002可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1002具体可以但不限于用于加密密钥(包括第一加密密钥、第二加密密钥等)与解密密钥(包括第一解密密钥、第二解密密钥等)等信息。作为一种示例，如图10所示，上述存储器1002中可以但不限于包括上述语音测评装置中的第一获取模块72、第一确定模块74、第二确定模块76、第三确定模块78以及输出模块710。此外，还可以包括但不限于上述媒体资源获取装置一中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1006包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1006为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器1008，用于显示上述媒体资源；和连接总线1010，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S11，获取与预设参考文本对应的待测评语音；

S12，确定该待测评语音中音素的目标发音特征；

S15，输出该目标字母以及该目标句子测评分值。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音测评方法，其特征在于，包括：

获取与预设参考文本对应的待测评语音；

确定所述待测评语音中音素的目标发音特征；

根据所述目标发音特征确定所述待测评语音中音素的目标音素准确度以及所述待测评语音的目标句子测评分值；

根据所述目标音素准确度确定待纠错音素，并确定所述待纠错音素对应的目标字母；

输出所述目标字母以及所述目标句子测评分值。

2.根据权利要求1所述的方法，其特征在于，根据所述目标发音特征确定所述待测评语音中音素的目标音素准确度以及所述待测评语音的目标测评分值包括：

根据所述目标发音特征确定所述目标音素准确度；

根据所述目标音素准确度确定所述待测评语音中单词的目标单词准确度；

根据所述目标单词准确度确定所述待测评语音的所述目标句子测评分值。

3.根据权利要求2所述的方法，其特征在于，

根据所述目标发音特征确定所述目标音素准确度包括：

将所述目标发音特征输入预先训练好的目标神经网络模型的底层，得到所述目标神经网络模型的底层输出的所述目标发音特征的音素准确度的概率，其中，所述概率大于第一预定阈值的音素准确度为所述目标音素准确度；

根据所述目标单词准确度确定所述待测评语音的所述目标句子测评分值包括：

将所述目标单词准确度输入到所述目标神经网络模型的上层，得到所述目标神经网络模型的上层输出的所述待测评语音对应的所述目标句子测评分值。

4.根据权利要求3所述的方法，其特征在于，在根据所述目标发音特征确定所述待测评语音中音素的目标音素准确度以及所述待测评语音的目标句子测评分值之前，所述方法还包括：

获取训练样本的音素的发音特征，其中，所述训练样本的音素包括：预定数量的正样本的标准音素和无标签样本的音素；

使用所述训练样本的音素的发音特征对原始神经网络模型进行训练，得到所述目标神经网络模型，其中，所述训练样本的音素的发音特征为所述原始神经网络模型的输入，训练好的所述目标神经网络模型的底层输出的音素准确度和所述目标神经网络模型的上层输出的句子测评分值拟合后的损失值满足预定条件。

5.根据权利要求4所述的方法，其特征在于，使用所述训练样本的音素的发音特征对原始神经网络模型进行训练，得到所述目标神经网络模型包括：

根据所述训练样本的音素的发音特征对所述原始神经网络模型的底层进行训练，并确定所述音素准确度的第一损失值；

根据所述训练样本的音素准确度确定所述训练样本的单词准确度；

根据所述单词准确度对所述原始神经网络模型的上层进行训练，并确定句子测评分值的第二损失值；

根据所述第一损失值和所述第二损失值确定所述音素准确度和所述句子准确度拟合后的第三损失值，在所述第三损失值的输出值小于预设阈值时结束训练，得到所述目标神经网络模型。

6.根据权利要求5所述的方法，其特征在于，通过以下公式根据所述第一损失值和所述第二损失值确定所述音素准确度和所述句子准确度拟合后的第三损失值：

L＝β₁L_sent+β₂L_phone，

其中，L为所述第三损失值，L_phone为所述第一损失值，L_sent为所述第二损失值，β₁为所述句子准确度的权重，β₂为所述音素准确度的权重。

7.根据权利要求6所述的方法，其特征在于，通过以下公式确定音素准确度的第一损失值：

其中，π_p为正样本的先验概率，为正样本分类成正样本的损失期望值，

为无标签样本分类成正样本的损失期望值，

为正样本分类成负样本的损失值，g为所述原始神经网络模型的底层输出的第j个音素的音素准确度。

8.根据权利要求6所述的方法，其特征在于，通过以下公式确定句子准确度的第二损失值：

其中，n为句子总数，score_expert(i)为预定对象对第i条句子的句子准确度打分，score_model(i)为所述第二原始神经网络模型输出的第i条句子的准确度打分。

9.根据权利要求1至8中任一项所述的方法，其特征在于，通过以下公式确定所述待测评语音中音素的目标发音特征包括：

其中，GOP(p)为所述目标发音特征，P(o^(p)|p)表示音素p发音成对应发音段的概率，P(p)表示音素p出现的概率，P(o^(p)|q)为音素q发音成对应发音段的概率，P(q)为音素q出现的概率，Q表示所有音素，NF(p)表示音素p的帧数。

10.一种语音测评装置，其特征在于，包括：

第一确定模块，用于确定所述待测评语音中音素的目标发音特征；

第二确定模块，用于根据所述目标发音特征确定所述待测评语音中音素的目标音素准确度以及所述待测评语音的目标句子测评分值；

第三确定模块，用于根据所述目标音素准确度确定待纠错音素，并确定所述待纠错音素对应的目标字母；

输出模块，用于输出所述目标字母以及所述目标句子测评分值。

11.根据权利要求10所述的装置，其特征在于，所述第二确定模块包括：

第一确定子模块，用于根据所述目标发音特征确定所述目标音素准确度；

第二确定子模块，用于根据所述目标音素准确度确定所述待测评语音中单词的目标单词准确度；

第三确定子模块，用于根据所述目标单词准确度确定所述待测评语音的所述目标句子测评分值。

12.根据权利要求11所述的装置，其特征在于，

所述第一确定子模块，还用于将所述目标发音特征输入预先训练好的目标神经网络模型的底层，得到所述目标神经网络模型的底层输出的所述目标发音特征的音素准确度的概率，其中，所述概率大于第一预定阈值的音素准确度为所述目标音素准确度；

第三确定子模块，还用于将所述目标单词准确度输入到所述目标神经网络模型的上层，得到所述目标神经网络模型的上层输出的所述待测评语音对应的句子测评分值的概率，其中，所述概率大于第二预定阈值的句子测评分值为所述目标句子测评分值。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于获取训练样本的音素的发音特征，其中，所述训练样本的音素包括：预定数量的正样本的标准音素和无标签样本的音素；

训练模块，用于使用所述训练样本的音素的发音特征对原始神经网络模型进行训练，得到所述目标神经网络模型，其中，所述训练样本的音素的发音特征为所述原始神经网络模型的输入，训练好的所述目标神经网络模型的底层输出的音素准确度和所述目标神经网络模型的上层输出的句子测评分值拟合后的损失值满足预定条件。

14.一种计算机可读的存储介质，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至9任一项中所述的方法。

15.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至9任一项中所述的方法。