CN112767919A

CN112767919A - 一种语音测评方法及装置

Info

Publication number: CN112767919A
Application number: CN202110088940.0A
Authority: CN
Inventors: 黄智超; 陈现麟; 王强
Original assignee: Beijing Dui Technology Co ltd
Current assignee: Beijing Dui Technology Co ltd
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-05-07

Abstract

本发明公开了一种语音测评方法及装置，所述方法包括：提取评测语音的各个特征，将各个特征展开成各个音素，评测语音是针对给定文本的发音，给定文本至少包含一个单词；将评测语音与给定文本进行强制对齐，确定给定文本中各个单词的第一起始时间和第一结束时间以及各个音素的第二起始时间和第二结束时间；针对每一个当前音素基于第二起始时间和第二结束时间确定其对应的目标音素；基于第一起始时间和第一结束时间将每个单词中目标音素与当前音素不同的字母或者字母组合进行区别显示。上述过程，在对评测语音进行语音测评时，将评测语音中的各个特征展开成各个音素，对评测语音中的单词正误基于音素级别进行区分显示，实现了音素级别的语音测评。

Description

一种语音测评方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音测评方法及装置。

背景技术

少儿英语教育的自然拼读课中，会教授孩子如何根据字母拼读出单词，为了验证孩子们的学你成果，需要对孩子进行测评，检测是否拼读正确，这就要求测评系统对能对学生语音进行打分。

但是，单纯针对语音进行打分，不能检测出针对每一个单词中的对应字母或者字母组合中的因素发音是否准确，因此，亟需提供一种音素级别的语音测评方法，基于可视化的角度告诉学生哪个音素发音错误，并且是哪一个或者哪几个字母发这个音。

发明内容

有鉴于此，本发明提供了一种语音测评方法及装置，用于实现基于音素级别的语音测评，具体方案如下：

一种语音测评方法，包括：

提取评测语音的各个特征，将所述各个特征展开成各个音素，其中，所述评测语音是针对给定文本的发音，所述给定文本至少包含一个单词；

将所述评测语音与所述给定文本进行强制对齐，确定所述给定文本中各个单词的第一起始时间和第一结束时间以及所述各个音素的第二起始时间和第二结束时间；

针对每一个当前音素基于所述第二起始时间和所述第二结束时间确定其对应的目标音素；

基于所述第一起始时间和所述第一结束时间将每个单词中所述目标音素与所当前音素不同的字母或者字母组合进行区别显示。

上述的方法，可选的，提取评测语音的各个特征，将所述各个特征展开成各个音素，包括：

对所述评测语音进行分帧，得到各个特征；

将所述各个特征按字典展开成各个音素。

上述的方法，可选的，所述评测语音进行强制对齐，确定所述评测语音中各个单词的第一起始时间和第一结束时间以及所述各个音素的第二起始时间和第二结束时间，包括：

确定所述评测语音的文本，将所述文本转换成音素序列；

确定所述音素序列中每个音素的状态，基于各个状态确定所述评测语音中各个单词的第一起始时间和第一结束时间以及所述各个音素的第二起始时间和第二结束时间。

上述的方法，可选的，针对每一个当前音素基于所述第二起始时间和所述第二结束时间确定其对应的目标音素，包括：

将所述第二起始时间和所述第二结束时间传递给声学模型进行计算，得到全部音素的后验概率；

在各个后验概率终端区概率值最高的后验概率作为目标后验概率，将所述目标后验概率对应的音素作为目标音素。

上述的方法，可选的，基于所述第一起始时间和所述第一结束时间将每个单词中所述目标音素与所当前音素不同的字母或者字母组合进行区别显示，包括：

基于所述第一起始时间和所述第一结束时间确定所述评测语音中的各个单词；

针对每一个单词，基于最大期望算法将音素与字母或者字母组合建立对应关系；

基于所述对应关系，将所述目标音素与所当前音素不同的字母或者字母组合进行区别显示。

一种语音测评装置，包括：

提取和展开模块，用于提取评测语音的各个特征，将所述各个特征展开成各个音素，其中，所述评测语音是针对给定文本的发音，所述给定文本至少包含一个单词；

对齐和确定模块，用于将所述评测语音与所述给定文本进行强制对齐，确定所述给定文本中各个单词的第一起始时间和第一结束时间以及所述各个音素的第二起始时间和第二结束时间；

确定模块，用于针对每一个当前音素基于所述第二起始时间和所述第二结束时间确定其对应的目标音素；

显示模块，用于基于所述第一起始时间和所述第一结束时间将每个单词中所述目标音素与所当前音素不同的字母或者字母组合进行区别显示。

上述的装置，可选的，所述提取和展开模块包括：

分帧单元，用于对所述评测语音进行分帧，得到各个特征；

展开单元，用于将所述各个特征按字典展开成各个音素。

上述的装置，可选的，所述对齐和确定模块包括：

第一确定单元，用于确定所述评测语音的文本，将所述文本转换成音素序列；

第二确定单元，用于确定所述音素序列中每个音素的状态，基于各个状态确定所述评测语音中各个单词的第一起始时间和第一结束时间以及所述各个音素的第二起始时间和第二结束时间。

上述的装置，可选的，所述确定模块包括：

计算单元，用于将所述第二起始时间和所述第二结束时间传递给声学模型进行计算，得到全部音素的后验概率；

第三确定单元，用于在各个后验概率终端区概率值最高的后验概率作为目标后验概率，将所述目标后验概率对应的音素作为目标音素。

上述的装置，可选的，所述显示模块包括：

第四确定单元，用于基于所述第一起始时间和所述第一结束时间确定所述评测语音中的各个单词；

建立单元，用于针对每一个单词，基于最大期望算法将音素与字母或者字母组合建立对应关系；

显示单元，用于基于所述对应关系，将所述目标音素与所当前音素不同的字母或者字母组合进行区别显示。

与现有技术相比，本发明包括以下优点：

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种语音测评方法流程图；

图2为本申请实施例公开的一种语音测评方法中字母和因素路径示意图；

图3为本申请实施例公开的一种语音测评装置结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

本发明公开了一种语音测评方法及装置，应用于语音测评过程中，旨是解决在线少儿英语教育中自然拼读课程中，教授学生如何发音时学生具体音素是否发音正确和如何显示给学生。自然拼读课中不仅要教授单词怎么发音，还要教授哪个单词中哪一个或者哪几个字母发什么音，比如apple，apple发音音标是

其中a发

pp发p，l发l，e不发音，本发明提供了一种语音测评方法，用于实现识别出测评语音中发音错误的音素和并在单词中区别显示该因素对应的一个或者几个字母，所述测评方法的执行流程如图1所示，包括步骤：

S101、提取评测语音的各个特征，将所述各个特征展开成各个音素，其中，所述评测语音是针对给定文本的发音，所述给定文本至少包含一个单词；

本发明实施例中，所述测评语音是对给定文本的发音，所述给定文本为至少包含一个英文单词，则所述评测语音是至少包含一个英文单词发音的一段语音，基于预设的提取规则，提取所述评测语音中的各个特征，其中，所述预设的提取规则可以基于经验或者具体情况进行设定，本发明实施例中不进行限定，特征提取完成后，将所述各个特征展开成各个音素，对上述过程进行举例，首先对所述评测语音进行分帧，然后提取特征，每25ms一帧，帧移10ms，所述特征为40维梅尔倒谱系数mfcc(Mel-scale Frequency CepstralCoefficients)，提取特征完成后，将所述各个特征按字典展开成音素。

mfcc是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性，它与频率的关系可用下式近似表示：

式中f为频率，单位为Hz。

S102、将所述评测语音与所述给定文本进行强制对齐，确定所述给定文本中各个单词的第一起始时间和第一结束时间以及所述各个音素的第二起始时间和第二结束时间；

本发明实施例中，通过特征和时延神经网络模型得到每帧的音素标签就叫强制对齐。强制对应算法就是得到所述评测语音的每一帧的音素标签，音素标签用于标记音素的状态的起始状态，持续状态还是终止状态，举个例子标签AA 0表示的就是AA音素的开始状态

强制对齐分两步，第一步根据所述给定文本构建有限状态自动机，第二步，时延神经网络，利用维特比解码得到每帧的对齐标签。

首先，每段音频都有对应的文本，文本可以通过词典展开成音素序列，比如Howare you，How的发音为HH AW,are的发音为AA R，you的发音为Y UW，可以展开为HH AW AA RY UW。最后的结果为HH AW AA R Y UW。最后将这些音素再展开为状态每个音素有3个状态组成，分别代表起始状态，持续状态和终止状态，而状态可以自己跳转最后就变成有限状态自动机。

其次，维特比Viterbi算法，本质上是一种动态规划算法，能够得到全局最优解。为了进一步减少计算复杂度，引用了Beam Search算法，可以在损失微小性能的条件下提高解码速度，到每帧的对齐标签。

S103、针对每一个当前音素基于所述第二起始时间和所述第二结束时间确定其对应的目标音素；

本发明实施例中，基于声学模型确定与每一个当前音素对应的目标音素，其中，所述声学模型用于计算计算特征属于各个音素的后验概率，是由1000h小时开源的音频训练而成所述声学模型训练过程：音频先分帧，然后提取特征，每25ms一帧，帧移10ms，特征为40维梅尔倒谱系数mfcc后文通称mfcc，后文会有进一步解释。提取特征完成后，将音频文本按字典展开成音素，将每帧按时间平均分割打上音素标签，特征和标签对应后，用时延神经网络tdnn训练得到初始模型，用初始模型维特比强制对应，对音频进行新的对齐，每个音频的音素标签得到后，进行新的训练，得到新的模型，当迭代到一定轮数时，停止训练，得到最终的声学模型。

强制对齐后，针对每一个当前音素将其对应的所述第二起始时间和所述第二结束时间传递给所述声学模型，计算所述当前音素的后验概率，其中，所述后验概率包含所述当前音素为各个预设音素的概率，其中，所述各个预设音素是预先设定的，从各个概率中选择最大概率值对应的音素作为目标音素。

S104、基于所述第一起始时间和所述第一结束时间将每个单词中所述目标音素与所当前音素不同的字母或者字母组合进行区别显示。

本发明实施例中，针对所述第一起始时间和所述第一结束时间确定所述给定文本中的各个单词，针对每一个单词，将音素和发音字母建立对应关系，音素和发音字母对应关系本质上是多对多对齐问题。具体方法是找到发音字母对应音素的概率最大的路径。具体例子，如图2所示，apple不考虑字母不发音的情况就是在6条路径中找到概率最大的路径。针对每条路径的概率，如果有了对齐结果，基于公式(2)进行计算，比如说字母a发

的概率

count(a)代表a字母的个数，

代表字母a发

音素的个数，两个比值就可以获得

即a发

音素的概率。如果已知所有字母组合属于所有音素的概率表，本发明实施例中，对所述概率表的具体存在形式不进行限定。以apple为例，就是将图2每个可能路径的概率相乘，取最大路径.其他每条概率都可以按这样的公式计算取出最大值。

若没有对齐结果也没有每对字母组合的发音概率分布，一般采用最大期望算法em(Expectation-maximization algorithm)迭代模型

em算法又译为期望最大化算法)，是在概率模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐性变量。

E步(求期望)和M步(极大化)。一般地,以p(θ|Y)表示θ的基于观测数据的后验分布密度函数,称为观测后验分布,p(θ|Y,Z)表示添加数据Z后得到的关于θ的后验分布密度函数,称为添加后验分布,p(Z|θ,Y)表示在给定θ和观测数据Y下潜在数据Z的条件分布密度函数。目的是计算观测后验分布p(θ|Y)的众数,于是,EM算法按下述步骤进行。

记θ(i)为第i+1次迭代开始时后验众数的估计值,则第i+1次迭代的两步为

第一步是计算期望(E)，利用对隐藏变量的现有估计值，计算其最大似然估计值；

根据已有的字母的发音概率分布，求出所有可能单词对齐路径的概率

E步:将p(θ|Y,Z)或log p(θ|Y,Z)后关于Z的条件分布求期望,从而把Z积掉,即

第二步是最大化(M)，最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中，这个过程不断交替进行。

根据对齐路径概率，计算字母的发音概率分布，循环如此，直到熵的变化小于某一给定值

M步:将Q(θ|θ(i),Y)极大化,即找一个点θ(i+1),使

Q(θ(i+1)|θ(i),Y)＝maxθQ(θ|θ(i),Y) (5)

如此形成了一次迭代θ(i)→θ(i+1)。将上述E步和M步进行迭代直至‖θ(i+1)-θ(i)‖或‖Q(θ(i+1)|θ(i),Y)-Q(θ(i)|θ(i),Y)‖充分小时停止。

基于上述过程，建立因素与发音字母(字母或者字母组合)的对应关系，针对每一个单词，将所述目标音素和所述当前音素对比，如果所述目标音素和所述当前音素相同，则所述当前音素正确，否则所述当前音素错误。在所述当前因素错误的情况下，将所述目标音素与所当前音素不同的字母或者字母组合进行区别显示，其中，所述区别显示可以为字体颜色不同，字体不同或者字体粗细不同等，具体的区别显示的存在形式可以基于经验或者具体情况进行设定，本发明实施例中，不进行具体限定。

本发明公开了一种语音测评方法，包括：提取评测语音的各个特征，将所述各个特征展开成各个音素；将所述评测语音进行强制对齐，确定所述评测语音中各个单词的第一起始时间和第一结束时间以及所述各个音素的第二起始时间和第二结束时间；针对每一个当前音素基于所述第二起始时间和所述第二结束时间确定其对应的目标音素；基于所述第一起始时间和所述第一结束时间将每个单词中所述目标音素与所当前音素不同的字母或者字母组合进行区别显示。上述过程，在对评测语音进行语音测评时，将评测语音中的各个特征展开成各个音素，对评测语音中的单词正误基于音素级别进行区分显示，实现了音素级别的语音测评。

本发明实施例中，预先训练好声学模型，对评测语音提取特征，将待评测的语句展开成音素，利用维特比强制对齐的方法对语音对齐，得到单词和音素的起始时间和结束时间，对每个音素片段重新识别得到最优音素，最优音素和当前音素对比如果相同，音素读对，如果不相同，音素读错。字母音素对应部分利用最大期望算法(em算法)将每个单词的发音和字母对应起来。在单词中显示错误音素。

基于上述的一种评测语音方法，本发明实施例中，还提供了一种评测语音装置，所述装置的结构框图如图3所示，包括：

提取和展开模块201、对齐和确定模块202、确定模块203和显示模块204。

其中，

所述提取和展开模块201，用于提取评测语音的各个特征，将所述各个特征展开成各个音素，其中，所述评测语音是针对给定文本的发音，所述给定文本至少包含一个单词；

所述对齐和确定模块202，用于将所述评测语音与所述给定文本进行强制对齐，确定所述给定文本中各个单词的第一起始时间和第一结束时间以及所述各个音素的第二起始时间和第二结束时间；

所述确定模块203，用于针对每一个当前音素基于所述第二起始时间和所述第二结束时间确定其对应的目标音素；

所述显示模块204，用于基于所述第一起始时间和所述第一结束时间将每个单词中所述目标音素与所当前音素不同的字母或者字母组合进行区别显示。

本发明公开了一种语音测评装置，包括：提取评测语音的各个特征，将各个特征展开成各个音素，评测语音是针对给定文本的发音，给定文本至少包含一个单词；将评测语音与给定文本进行强制对齐，确定给定文本中各个单词的第一起始时间和第一结束时间以及各个音素的第二起始时间和第二结束时间；针对每一个当前音素基于第二起始时间和第二结束时间确定其对应的目标音素；基于第一起始时间和第一结束时间将每个单词中目标音素与当前音素不同的字母或者字母组合进行区别显示。上述过程，在对评测语音进行语音测评时，将评测语音中的各个特征展开成各个音素，对评测语音中的单词正误基于音素级别进行区分显示，实现了音素级别的语音测评。

本发明实施例中，所述提取和展开模块201包括：

分帧单元205和展开单元206。

其中，

所述分帧单元205，用于对所述评测语音进行分帧，得到各个特征；

所述展开单元206，用于将所述各个特征按字典展开成各个音素。

本发明实施例中，所述对齐和确定模块202包括：

第一确定单元207和第二确定单元208。

其中，

所述第一确定单元207，用于确定所述评测语音的文本，将所述文本转换成音素序列；

所述第二确定单元208，用于确定所述音素序列中每个音素的状态，基于各个状态确定所述评测语音中各个单词的第一起始时间和第一结束时间以及所述各个音素的第二起始时间和第二结束时间。

本发明实施例中，所述确定模块203包括：

计算单元209和第三确定单元210。

其中，

所述计算单元209，用于将所述第二起始时间和所述第二结束时间传递给声学模型进行计算，得到全部音素的后验概率；

所述第三确定单元210，用于在各个后验概率终端区概率值最高的后验概率作为目标后验概率，将所述目标后验概率对应的音素作为目标音素。

本发明实施例中，所述显示模块204包括：

第四确定单元211、建立单元212和显示单元213。

其中，

所述第四确定单元211，用于基于所述第一起始时间和所述第一结束时间确定所述评测语音中的各个单词；

所述建立单元212，用于针对每一个单词，基于最大期望算法将音素与字母或者字母组合建立对应关系；

所述显示单元213，用于基于所述对应关系，将所述目标音素与所当前音素不同的字母或者字母组合进行区别显示。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种语音测评方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音测评方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，提取评测语音的各个特征，将所述各个特征展开成各个音素，包括：

对所述评测语音进行分帧，得到各个特征；

将所述各个特征按字典展开成各个音素。

3.根据权利要求1所述的方法，其特征在于，所述评测语音进行强制对齐，确定所述评测语音中各个单词的第一起始时间和第一结束时间以及所述各个音素的第二起始时间和第二结束时间，包括：

确定所述评测语音的文本，将所述文本转换成音素序列；

4.根据权利要求1所述的方法，其特征在于，针对每一个当前音素基于所述第二起始时间和所述第二结束时间确定其对应的目标音素，包括：

5.根据权利要求1所述的方法，其特征在于，基于所述第一起始时间和所述第一结束时间将每个单词中所述目标音素与所当前音素不同的字母或者字母组合进行区别显示，包括：

6.一种语音测评装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述提取和展开模块包括：

分帧单元，用于对所述评测语音进行分帧，得到各个特征；

展开单元，用于将所述各个特征按字典展开成各个音素。

8.根据权利要求6所述的装置，其特征在于，所述对齐和确定模块包括：

9.根据权利要求6所述的装置，其特征在于，所述确定模块包括：

10.根据权利要求6所述的装置，其特征在于，所述显示模块包括：