CN113421587B

CN113421587B - 语音评测的方法、装置、计算设备及存储介质

Info

Publication number: CN113421587B
Application number: CN202110615856.XA
Authority: CN
Inventors: 董文伟; 孙艳庆; 段亦涛
Original assignee: Netease Youdao Information Technology Beijing Co Ltd
Current assignee: Netease Youdao Information Technology Beijing Co Ltd
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2023-10-13
Anticipated expiration: 2041-06-02
Also published as: CN113421587A

Abstract

本发明的实施方式提供了一种语音评测的方法、装置、计算设备及存储介质，其中方法包括：采集待评测的语音流；利用语音识别技术对语音流进行实时语音识别；以及根据语音识别结果对语音流进行实时发音评估，其中发音评估以字或词级别为单位提供评测结果。根据本发明实施方式的方法通过实时的发音评测，可以给出以字或词级别为单位的反馈，方便用户读了字或者单词后进行实时地发音调整。

Description

语音评测的方法、装置、计算设备及存储介质

技术领域

本发明的实施方式涉及计算机技术领域，一般地涉及语音识别等技术领域，更具体地，本发明的实施方式涉及语音评测的方法、装置、计算设备及存储介质。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。

计算机辅助语言学习(Computer-Aided Language Learning，CALL)技术是互联网时代产生的一种能够利用计算机技术辅助学习者进行语言学习的技术。发音评测技术是CALL技术的一个分支，其能够帮助学习者知道自己的发音错误并给与一定的反馈，从而提高发音的学习。

现有的发音评测技术由于受计算机的计算资源和语料资源的限制，多采用一些对比的方法。例如，通过比较待测发音和标准发音的编辑距离来计算待测发音的得分。编辑距离越小，表明待测发音和标准发音越接近，发音水平越高；编辑距离越大，表明待测发音和标准发音偏离越大，发音水平越低。再例如，在采集到待测发音后，通过分类算法对待测发音进行分类，如果分到目标音素的类别里，表明发音准确；如果分到其他类别的音素里，表明发音错误。

现有的发音评测技术通常是在采集到用户整句话的发音后，将语音发送至服务端进行发音评测，并且最后一次性给出整句话的发音评测内容。用户拿到发音评测结果的时间是录音时间和服务端评测算法运行时间的总和，往往用户需要等待较长的时间才能拿到发音评测结果。用户在读句子的过程中，难以得到一些有效的发音评测反馈，不利于用户继续读下去的积极性。

发明内容

为此，非常需要一种改进的语音评测的方法、装置、计算设备及存储介质，可以实时输出字或词的发音评测结果，以有效降低用户等待发音评测结果的时间。

在本上下文中，本发明的实施方式期望提供一种语音评测的方法、装置、计算设备及存储介质。

在本发明实施方式的第一方面中，提供了一种语音评测的方法，包括：采集待评测的语音流；利用语音识别技术对语音流进行实时语音识别；以及根据语音识别结果对语音流进行实时发音评估，其中发音评估以字或词级别为单位提供评测结果。

在本发明的一个实施例中，利用语音识别技术对语音流进行实时语音识别包括：基于与待评测的语音流对应的参考文本实时构建语音识别模型；以及基于所构建的语音识别模型对语音流进行语音识别。

在本发明的另一个实施例中，语音识别模型基于加权有限状态转换器WFST技术，并且基于与待评测的语音流对应的参考文本实时构建语音识别模型包括：基于参考文本构建语音识别模型中的语法WFST和/或发音词典WFST。

在本发明的又一个实施例中，基于参考文本构建语法WFST包括：采用N-Gram算法对参考文本进行频率统计而确定语法WFST的转移函数，其中优选地，N为3。

在本发明的一个实施例中，语法WFST的状态集合中每个节点的状态为终止状态。

在本发明的又一个实施例中，基于参考文本构建发音词典WFST包括：响应于参考文本中存在未在预设词典中的对象，采用字素到音素技术将未在预设词典中的对象转换成音素序列；以及将转换后的音素序列添加至发音词典WFST中。

在本发明的再一个实施例中，根据语音识别结果对语音流进行实时发音评估包括：响应于检测到预定条件，对语音流中对应于当前识别结果的当前字或词语音进行发音评估。

在本发明的一个实施例中，预定条件包括以下的至少一项：当前字或词语音后出现静音帧；或语音识别结果中还包括对当前字或词语音之后的识别结果。

在本发明实施方式的第二方面中，提供了一种语音评测的装置，包括：人机交互接口，用于从用户采集待评测的语音流以及向用户提供评测结果；以及处理器，用于：利用语音识别技术对语音流进行实时语音识别；以及根据语音识别结果对语音流进行实时发音评估，其中发音评估以字或词级别为单位提供评测结果。

在本发明实施方式的第三方面中，提供了一种用于执行语音评测的计算设备，包括：处理器，其配置用于执行程序指令；以及存储器，其配置用于存储程序指令，当程序指令由处理器加载并执行时，使得计算设备执行根据本发明实施方式的第一方面中的任一项的方法。

在本发明实施方式的第四方面中，提供了一种计算机可读存储介质，其存储有计算机程序，当程序指令由处理器加载并执行时，使得处理器执行根据本发明实施方式的第一方面中的任一项的方法。

根据本发明实施方式的一种语音评测的方法、装置、计算设备及存储介质，通过实时的发音评测，可以给出以字或词级别为单位的反馈，方便用户读了字或者单词后进行实时地发音调整。在一些实施例中，可以利用参考文本构建语音识别模型，能够保证语音识别结果只有参考文本的字或者词，并且由于语音识别结果的范围只局限于参考文本，这大大缩小了语音识别模型的解码范围，进而能够缩减解码时间。在另一些实施例中，当参考文本中存在不在预设词典中的字或者词时，可以通过字素到音素(Grapheme-to-Phoneme，G2P)技术得到这些字或者词的音素，并将其添加至发音词典中，从而能够实现不在预设词典中词的识别和评测，解决了传统语音评测技术依赖于词典、无法识别不在词典中的字或者词的技术问题。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明实施方式的应用场景示意图；

图2示意性地示出了根据本发明实施方式的语音评测的方法的流程图；

图3示出了根据本公开实施例的加权有限状态转换器的一个实施例的结构示意图；

图4示出了使用本公开实施例中的加权有限状态转换器表示的语法模型的一个实施例的结构示意图；

图5示出了使用本公开实施例中的加权有限状态转换器表示的发音词典的一个实施例的结构示意图；

图6示出了根据本公开实施例的定制语法WFST的一个实施例的结构示意图；

图7示意性地示出了根据本发明实施方式的语音评测的装置的功能性框图；以及

图8示意性地示出了适于实现本发明实施方式的示例性计算系统的框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

根据本发明的实施方式，提出了一种语音评测的方法、装置、计算设备及存储介质。通过下面的描述，可以理解的是，本发明实施方式的方法通过实时的发音评测，可以给出以字或词级别为单位的反馈，方便用户读了字或者单词后进行实时地发音调整。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，现有的发音评测技术是在采集到用户的整句话后，将语音发送至服务端以进行发音评测，并且最后一次性给出整句话的发音评测内容。现有的发音评测技术至少存在如下缺点：

1：用户等待发音评测结果的时间为录音时间和服务端评测算法运行时间的总和，用户往往需要等待较长的时间才能得到整句话的发音评测结果，用户体验差。

2：用户在读句子的过程中，难以得到一些及时的反馈，这降低了用户读下去的积极性，不利于发音练习。

基于上述发现，在本公开一个方面中，本发明人提出了一种可以实时进行语音评测的方案，在用户读句子的过程中，该方案以字或词为单位对语音进行识别，并对识别出的、以字或词为粒度的语音进行发音评测，从而可以实时输出以字或词为单位的发音评测结果。采用上述方案，大大缩短了用户等待发音评测结果的时间，且在发音练习过程中因给与用户实时的反馈结果，方便了用户实时根据反馈结果调整发音，用户体验较好。

本发明人还发现，计算机发音评测技术需要在前端依赖语音识别技术。现有的语音识别技术在构建解码模型时，将词典中所有的词都加入到解码模型的构建中，当用户发音时，能够通过声学模型得到的声学得分和提前训练好的语言模型的得分一起计算出最优的识别序列。

然而，这种语音识别技术虽然能够识别出母语发音人的说话内容，但是由于语言学习者的发音不准确，导致识别效果不符合预期，出现的替换错误较多，难以满足对非母语发音者的实时语音评测的需求。此外，传统的语音识别方案依赖于发音词典，当用户说不在词典里面的词时，识别系统没有办法识别。

基于上述发现，在本公开另一方面中，本发明人提出了一种语音识别方案，其可以利用待评测的参考文本来构建语音识别模型，从而解决传统语音识别解码技术带来的识别效果不好以及识别的内容有可能不是来自于待评测文本的问题。此外，当参考文本中存在不在预设词典中的字或者词时，可以通过字素到音素(Grapheme-to-Phoneme，G2P)技术得到这些字或者词的音素，并将其添加至发音词典中，从而能够实现不在预设词典中词的识别和评测，解决了传统语音识别解码技术没办法识别不在发音词典里的词的问题。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

首先参考图1详细阐述本发明实施例的语音评测的方法、装置、计算设备及存储介质的应用场景。

图1示意性地示出了根据本发明实施方式的应用场景示意图。需要说明的是，图1仅为可以应用本发明实施方式的应用场景的示例，以帮助本领域技术人员理解本发明的技术内容，并不意味着本发明实施方式不可以用于其他设备、系统、环境或场景。

如图1中所示，在英语口语发音实时评测应用场景下，应用本发明实施例的语音评测的方法的系统架构可以包括终端设备101、服务器102。终端设备101上可以设置有录音设备(例如录音机)，以实时采集待评测的语音流数据。终端设备101采集到待评测的语音流数据后，可以将这些语音流数据发送服务器102，由服务器102执行实时语音识别并根据语音识别结果对这些语音流进行实时发音评估。可选地，终端设备101采集到待评测的语音流数据后，也可以由终端设备101执行实时语音识别并根据语音识别结果对这些语音流进行实时发音评估。可选地，终端设备101采集到待评测的语音流数据后，还可以由终端设备101和服务器102协同执行实时语音识别并根据语音识别结果对这些语音流进行实时发音评估。

终端设备101可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器102可以通过网络与终端设备101交互，以接收或发送消息等。例如，服务器102可以接收终端设备101发送的待评测的语音流，并执行实时语音识别并根据语音识别结果对这些语音流进行实时发音评估。

需要说明的是，本发明实施例的语音评测的方法中的各个步骤既可以由终端设备101执行，也可以由服务器102执行，本发明实施例对此不做限定。

用户在英语口语发音练习过程中，读出待练习文本“Have a good day”中单词“Have”的发音。终端设备101可以采集到用户的语音数据，并由终端设备101和/或服务器102执行用户语音数据的识别，这里的语音识别粒度是以单词为单位(即“have”、“a”、“good”、“day”四个单词)，最后由终端设备101和/或服务器102对识别出的单词“Have”的发音进行发音评估，得到“Have”这个单词的发音评估结果为90分。

示例性方法

下面结合图1所示的应用场景，参考图2来描述根据本发明示例性实施方式的语音评测的方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

首先参考图2，示意性地示出了根据本发明实施方式的语音评测的方法的流程图。如图2中所示，方法200可以包括：在步骤210处，采集待评测的语音流。在一些实施例中，采集到待评测语音流后，可以通过语音端点检测(Voice Activity Detection,VAD)将人声的片段截取出来。在一些实施例中，可以对采集到的待评测语音流进行预处理以提取其声学特征。示例性地，预处理的方式包括分帧加窗。这里的声学特征可以是Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征，也可以是滤波器组(Filter-bank，Fbank)特征，本实施例并不限制声学特征的类型。

接着，在步骤220中，可以利用语音识别技术对语音流进行实时语音识别。语音识别(Automatic Speech Recognition，ASR)技术指的是将人类的语音内容转换为相应文字的技术，包括基于隐马尔科夫模型(Hidden Markov Model，HMM)的语音识别技术和端到端语音识别技术。基于HMM的语音识别技术包括声学模型、发音词典、语法模型和解码器，端到端语音识别技术的结构包括CTC(Connectionist Temporal Classification)结构和时序到时序模型(seq2seq)结构。优选地，本实施例的方案采用基于HMM的语音识别技术。在本实施例中，基于HMM的语音识别是在当前的声学特征下，找出让其条件概率最大的词或字，可以由如下公式表示：

W^*＝argmax P(X|W)P(W)，其中，W为词或字，X为声学特征，P(X|W)为在给定词或字W下声学特征X的条件概率，P(W)为词或字的概率，P(X|W)为声学模型，P(W)为语法模型。

在一些实施例中，基于HMM的语音识别的过程包括：首先待评测的语音流经过预处理后，得到其声学特征X；然后将声学特征X作为HMM的观察特征，使用声学模型拟合发射概率p(X|S)，这里的S为HMM的状态；之后根据构造好的发音词典，将解码后的HMM状态S转换为词或字，这里的发音词典给出了各个单词对应的音素序列(例如三音素)；最后根据构造好的语法模型对词或字进行打分以供解码使用。需要说明的是，尽管本实施例以基于HMM技术的语音识别技术为例对实时语音识别的过程进行了说明，但这并不代表本实施例以此为限，任何现有的或未来可能出现的语音识别技术均落入本实施例的保护范围，例如基于因子分解时延神经网络声学模型的语音识别技术。因子分解时延神经网络(Factorised TimeDelay Neural Network，TDNN-F)是一种基于时延神经网络的改进版本，TDNN-F声学模型可以产生声学后验概率。

在一些实施例中，利用语音识别技术对语音流进行实时语音识别包括：基于与待评测的语音流对应的参考文本实时构建语音识别模型；以及基于所构建的语音识别模型对语音流进行语音识别。这里的参考文本可以是用户输入的、拟学习或训练的任何文本，例如用户打算要对“Have a good day”的发音进行练习，那么用户可以输入文本“Have a goodday”，这里的输入文本“Have a good day”即为参考文本。基于参考文本构建语音识别模型指的是语音识别模型中的参数是以参考文本中的单词为基础而构建的。以基于HMM的语音识别模型为例，该模型中的参数W(词或字)可以为参考文本中的单词，也即P(X|W)为在参考文本中的单词W下声学特征X的条件概率和/或P(W)为参考文本中的单词W的概率。

在一些优选的实施例中，语音识别模型基于加权有限状态转换器WFST技术，并且基于与待评测的语音流对应的参考文本实时构建语音识别模型包括：基于参考文本构建语音识别模型中的语法WFST和/或发音词典WFST。

有限加权状态转换机(Weighted Finite State Transducers,WFST)是有限自动机(Finite Automaton,FA)家族中的一员，由(A,Q,E,I,F)五个元素组成，其中Q为状态集合，表示图中的节点；A为标签集合，表示边上的符号；E为转移函数集合，两个状态节点和他们之间的边以及边上的标签和权重构成了一次转移；I为初始状态，在图中使用较粗的圆圈表示，为搜索的起点；F为终止状态，在图中使用双环形圆圈表示，为搜索的终点。

为了便于理解本实施例中的加权有限状态转换器，图3示出了根据本实施例的加权有限状态转换器的一个实施例的结构示意图。如图3所示，该加权有限状态转换器具有6个节点(0-5)，每个节点的状态均为终止状态(用双环形圆圈表示)。该加权有限状态转换器具有7个标签(如A：Z/1.2、B:Y/0.7等)，标签“A：Z/1.2”表示在状态0时，输入为A则输出为Z，且可以得到1.2的权重。在语音识别中，语法模型和发音词典均可以表示为WFST的形式，图4、5分别示出了使用本实施例中的加权有限状态转换器表示的语法模型和发音词典的一个实施例的结构示意图。

图4为语法模型的WFST表示，其每条边上的输入为单词，输出也是单词，权重为当前路径中出现某单词的转移概率(从转移函数E中获得)。

图5为发音词典的WFST表示，其每条边上的输入为音素，输出为单词，权重为当前单词的发音概率(从转移函数E中获得)。

在另一些实施例中，可以根据用户输入的文本定制对应的语法WFST。图6示出了根据本实施例的定制语法WFST的一个实施例的结构示意图。如图6所示，该语法WFST是以输入文本为“Have a good day”为例定制而成的。根据用户输入文本“Have a good day”构建的语法WFST，状态0为图的起点，双环表示终点，每个节点都是终点状态。在一些实施例中，通过将每个状态都设置为终点可以保证识别完每个词都可以直接解码结束或者跳到下一个词，从而支持以字或词为单位的评测。

每种路径对应一种发音情形，例如路径1“状态0→状态4(标签为DAY:DAY/1.3863)”代表首先读出单词“Have”并结束；路径2“状态0→状态4(标签为DAY:DAY/1.3863)，状态4→状态0(标签为#0:<eps>/0.69315)，状态0→状态3(标签为GOOD:GOOD/1.3863)”代表依次读出单词“day”和“good”并结束。这里的标签“#0:<eps>/0.69315”代表回到起始状态0。优选地，定制的语法WFST可以穷尽用户输入文本的所有发音情形，例如若用户输入文本为“a good”，则一共有三种发音情形，分别为单独读出单词“a”并结束、单独读出单词“good”并结束、依次读出单词“a”和“good”并结束；然后定制包含这三种发音情形的语法WFST。在本实施例中，根据定制的语法WFST，在识别完每个单词后可以结束解码或者跳至下一个单词继续解码。

在另一些实施例中，可以根据用户输入的文本定制对应的发音词典WFST。发音词典包括各个单词对应的音素序列，例如“吃”对应的音素序列为“ch ix1”、“抓”对应的音素序列为“zh ua1”、“喜欢”对应的音素序列为“x i3 h uan5”等等。发音词典既包括中文词典，也包括其他语种(如英文)词典等。发音词典中的单词决定了这个词在解码时出现的概率。在本实施例中，发音词典中的单词可以根据用户输入的文本(即参考文本)来定制。例如，用户输入的文本为“Have a good day”，那么可以将“Have”、“a”、“good”、“day”这四个单词的音素序列组成发音词典以缩短发音模型的解码范围和解码时间。需要说明的是，根据用户输入的文本定制对应的发音词典WFST的原理和根据用户输入的文本定制对应的语法WFST的原理基本相同，在此不再赘述。

根据本实施例提供的语音评测的方法，可以利用参考文本构建语音识别模型，能够保证语音识别结果只有参考文本的字或者词，并且由于语音识别结果的范围只局限于参考文本，这大大缩小了语音识别模型的解码范围，进而能够缩减解码时间。

在又一些实施例中，基于参考文本构建语法WFST包括：采用N-Gram算法对参考文本进行频率统计而确定语法WFST的转移函数，其中优选地，N为3。N-Gram是一种基于统计语法模型的算法，它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。每一个字节片段称为gram，对所有gram的出现频度进行统计，形成gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。由于第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率(即转移概率)的乘积。这些概率(即转移概率)可以通过直接从语料中统计N个词同时出现的次数得到，这里可以是二元的Bi-Gram或三元的Tri-Gram，优选三元的Tri-Gram。

返回图2，流程可以前进到步骤230中，在此可以根据语音识别结果对语音流进行实时发音评估，其中发音评估以字或词级别为单位提供评测结果。

在本实施例中，在根据上述步骤220中的语音识别技术识别到字或词后，可以对每个字或词进行单独的发音评测。在本实施例中，可以采用发音评测算法对每个字或词的发音进行单独的评测。在一些实施例中，可以采用发音良好度算法(Goodness ofPronunciation,GOP)对每个字或词的发音进行单独的评测。GOP算法为单词中的每个音素都给出一个置信分数，音素p的发音良好度分数如下：

其中，给定声学模型和正则文本，p是目标发音音素，q是概率最大的音素，O^p是NF(number of frames)帧目标发音音素p的输入特征。边界信息来源于强制对其结果，Q是可能音素的集合。这里可以设置一个阈值以确认当前单元是否是一个正确发音，高于此阈值即为正确反之错误，该阈值可以根据任务和训练数据不同可做相应调整。

在另一些实施例中，根据语音识别结果对语音流进行实时发音评估包括：响应于检测到预定条件，对语音流中对应于当前识别结果的当前字或词语音进行发音评估。在利用上述步骤220中的语音识别技术进行语音识别时，可能出现用户尚未完整读出某个单词便已经识别出该单词的情形，导致根据上述步骤230进行发音评测时只评测了用户的部分发音，使得评测结果不准确。为此，可以为发音评测的步骤设置预定条件，当检测到满足预定条件时可以进行发音评测，当未检测到预定条件时不执行发音评测的步骤。这里的预定条件可以是表征用户完整读出某个单词的条件，也可以是表征用户结束某个单词发音的条件。

在又一些实施例中，预定条件包括以下的至少一项：当前字或词语音后出现静音帧；或语音识别结果中还包括对当前字或词语音之后的识别结果。这里静音帧可以是当检测出语音为静音时生成的帧。本实施例并不限制静音帧的帧数和每帧的时长，在实际的应用场景中，可以根据业务需求和经验具体设置静音帧的帧数和时长。在本实施例中，预定条件还包括语音识别结果中还包括对当前字或词语音之后的识别结果，当检测到当前字或词后面有其他单词被识别出来，可以对语音流中对应于当前识别结果的当前字或词语音进行发音评估。本实施例中，通过设置发音评测步骤的预定条件，可以提高发音评测结果的准确性。

根据上述任一实施例提供的语音评测的方法，通过实时的发音评测，可以给出以字或词级别为单位的反馈，方便用户读了字或者单词后进行实时地发音调整。

在一些实施例中，基于参考文本构建发音词典WFST包括：响应于参考文本中存在未在预设词典中的对象，采用字素到音素技术将未在预设词典中的对象转换成音素序列；以及将转换后的音素序列添加至发音词典WFST中。预设词典可以是现有的发音词典，例如中文词典thchs30和CC-CEDICT，英文词典CMU-dict。以参考文本为“Have a good day 例，根据这五个单词构建发音词典WFST，由于“Have”、“a”、“good”、“day”这四个单词是预设词典里的单词，因此可以直接查预设词典获取这四个单词的音素序列，而/>这个词不在预设词典里，此时可以通过字素到音素(Grapheme-to-Phoneme，G2P)技术得到这个词的音素序列并将其添加至发音词典WFST中。G2P是指一种通过单词或字的字形或者字母组成来预测其发音的技术，Sequitur G2P、G2P-seq2seq等工具可以用来训练发音词典生成模型。

在本实施例中，当参考文本中存在不在预设词典中的字或者词时，可以通过字素到音素(Grapheme-to-Phoneme，G2P)技术得到这些字或者词的音素，并将其添加至发音词典中，从而能够实现不在预设词典中词的识别和评测，解决了传统语音评测技术依赖于词典、无法识别不在词典中的字或者词的技术问题。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来，参考图7对本发明示例性实施方式的语音评测的装置进行描述。

图7示意性地示出了根据本发明实施方式的语音评测的装置的功能框图。如图7中所示，装置700可以包括：采集模块710，配置成采集待评测的语音流；识别模块720，配置成利用语音识别技术对语音流进行实时语音识别；以及评测模块730，配置成根据语音识别结果对语音流进行实时发音评估，其中发音评估以字或词级别为单位提供评测结果。

在本发明的一个实施例中，识别模块720包括：构建模块，配置成基于与待评测的语音流对应的参考文本实时构建语音识别模型；以及语音识别模块，配置成基于所构建的语音识别模型对语音流进行语音识别。

在本发明的另一个实施例中，语音识别模型基于加权有限状态转换器WFST技术，构建模块进一步配置成基于参考文本构建语音识别模型中的语法WFST和/或发音词典WFST。

在本发明的再一个实施例中，构建模块进一步配置成采用N-Gram算法对参考文本进行频率统计而确定语法WFST的转移函数，其中优选地，N为3。

在本发明的另一个实施例中，语法WFST的状态集合中每个节点的状态为终止状态。

在本发明的另一个实施例中，构建模块进一步配置成：响应于参考文本中存在未在预设词典中的对象，采用字素到音素技术将未在预设词典中的对象转换成音素序列；以及将转换后的音素序列添加至发音词典WFST中。

在本发明的一个实施例中，评测模块730进一步配置成：响应于检测到预定条件，对语音流中对应于当前识别结果的当前字或词语音进行发音评估。

在本发明的另一个实施例中，预定条件包括以下的至少一项：当前字或词语音后出现静音帧；或语音识别结果中还包括对当前字或词语音之后的识别结果

本发明实施方式的装置在上文中已经结合方法进行了详细的描述和解释，这里将不再赘述。

示例性计算系统

在介绍了本发明示例性实施方式的方法和装置之后，接下来，参考图8对本发明示例性实施方式的语音评测系统进行描述。

在本发明实施方式的第三方面中，提供了一种电子设备，包括，至少一个处理器；存储器，其存储有程序指令，当程序指令由至少一个处理器执行时，使得设备执行根据本发明实施方式的第一方面中的任一项的方法。

图8示意性地示出了适于实现本发明实施方式的示例性计算系统800的框图。如图8所示，计算系统800可以包括根据本发明实施例的设备810(虚线框示出)以及其外围设备，其中设备810执行语音评测的方法等操作，以实现前述结合图1-图6的本发明实施方式的方法。

如图8中所示，设备810可以包括中央处理单元(CPU)801，其可以是通用CPU、专用CPU或者其他信息处理以及程序运行的执行单元。进一步，设备810还可以包括随机存取存储器(RAM)802和只读存储器(ROM)803，其中RAM 802可以配置用于存储各类数据，包括算式的字符序列、标记序列等以及用于语音评测所需要的各种程序，ROM 803可以配置成存储对于设备810中各功能模块的初始化、基本输入/输出的驱动程序及引导操作系统所需的数据等。

进一步，设备810还可以包括其他的硬件或组件，例如示出的硬盘控制器805、键盘控制器806、串行接口控制器807、并行接口控制器808、显示控制器809等。可以理解的是，尽管在设备810中示出了多种硬件或组件，但这里仅仅是示例性的而非限制性的，本领域技术人员可以根据实际需要增加或移除相应的硬件。

本发明实施方式的设备810的上述CPU 801、存取存储器802、只读存储器803、硬盘控制器805、键盘控制器806、串行接口控制器807、并行接口控制器808和显示控制器809可以通过总线系统804相互连接。在一个实施例中，通过该总线系统804可以与外围设备实现数据交互。在另一个实施例中，通过该总线系统804，CPU 801可以控制设备810中的其他硬件组件及其外围设备。

设备810的外围设备可以包括例如图示中的硬盘810、键盘811、串行外部设备812、并行外部设备813和显示器814。硬盘810可以与硬盘控制器805耦合，键盘811可以与键盘控制器806耦合，串行外部设备812可以与串行接口控制器807耦合，并行外部设备813可以与并行接口控制器808耦合，以及显示器814可以与显示控制器809耦合。应当理解，图8的结构框图仅仅是为了示例的目的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况增加或减少某些设备。

本领域技术技术人员知道，本发明的实施方式可以实现为一种系统、方法或计算机程序产品。因此，本发明实施方式可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”等。此外，在一些实施例中，本发明实施方式还可以实现为在一个或多个计算机可读存储介质中的计算机程序产品的形式，该计算机可读介质中可以存储语音评测的方法的程序(或程序代码)，当该程序由处理器来运行时，可以执行根据本发明实施方式的第一方面中的任一项的方法。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举示例)例如可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施方式操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

应当理解，前文中的流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

通过上面对根据本发明实施方式的语音评测的技术方案及其多个实施例的描述，可以理解的是，通过实时的发音评测，可以给出以字或词级别为单位的反馈，方便用户读了字或者单词后进行实时地发音调整。在一些实施例中，可以利用参考文本构建语音识别模型，能够保证语音识别结果只有参考文本的字或者词，并且由于语音识别结果的范围只局限于参考文本，这大大缩小了语音识别模型的解码范围，进而能够缩减解码时间。在另一些实施例中，当参考文本中存在不在预设词典中的字或者词时，可以通过字素到音素(Grapheme-to-Phoneme，G2P)技术得到这些字或者词的音素，并将其添加至发音词典中，从而能够实现不在预设词典中词的识别和评测，解决了传统语音评测技术依赖于词典、无法识别不在词典中的字或者词的技术问题。

应当注意，尽管在上文详细描述中提及了设备的若干模块或装置，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。

此外，尽管在附图中以特定顺序描述了本发明实施方式的方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

Claims

1.一种语音评测的方法，包括：

采集待评测的语音流；

利用语音识别技术对所述语音流进行实时语音识别，具体包括基于与所述待评测的语音流对应的参考文本实时构建语音识别模型，以及基于所构建的语音识别模型对所述语音流进行语音识别，其中所述语音识别模型中的参数是以参考文本中的单词为基础而构建的，所述语音识别模型基于加权有限状态转换器WFST技术，基于所述参考文本构建所述语音识别模型中的语法WFST和发音词典WFST，所述语法WFST的状态集合中每个节点的状态为终止状态；以及

根据语音识别结果对所述语音流进行实时发音评估，其中所述发音评估以字或词级别为单位提供评测结果。

2.根据权利要求1所述的方法，其中基于所述参考文本构建所述语法WFST包括：

采用N-Gram算法对所述参考文本进行频率统计而确定所述语法WFST的转移函数，其中，N为3。

3.根据权利要求1或2所述的方法，其中基于所述参考文本构建所述发音词典WFST包括：

响应于所述参考文本中存在未在预设词典中的对象，采用字素到音素技术将所述未在预设词典中的对象转换成音素序列；以及

将转换后的音素序列添加至所述发音词典WFST中。

4.根据权利要求1所述的方法，其中所述根据语音识别结果对所述语音流进行实时发音评估包括：

响应于检测到预定条件，对所述语音流中对应于当前识别结果的当前字或词语音进行发音评估。

5.根据权利要求4所述的方法，其中所述预定条件包括以下的至少一项：

所述当前字或词语音后出现静音帧；或

所述语音识别结果中还包括对所述当前字或词语音之后的识别结果。

6.一种语音评测的装置，包括：

人机交互接口，用于从用户采集待评测的语音流以及向用户提供评测结果；以及

处理器，用于：

利用语音识别技术对语音流进行实时语音识别，具体包括基于与所述待评测的语音流对应的参考文本实时构建语音识别模型，以及基于所构建的语音识别模型对所述语音流进行语音识别，其中所述语音识别模型中的参数是以参考文本中的单词为基础而构建的，所述语音识别模型基于加权有限状态转换器WFST技术，基于所述参考文本构建所述语音识别模型中的语法WFST和发音词典WFST，所述语法WFST的状态集合中每个节点的状态为终止状态；以及

根据语音识别结果对语音流进行实时发音评估，其中发音评估以字或词级别为单位提供评测结果。

7.一种用于执行语音评测的计算设备，包括：

处理器，其配置用于执行程序指令；以及

存储器，其配置用于存储所述程序指令，当所述程序指令由所述处理器加载并执行时，使得所述计算设备执行根据权利要求1-5任一所述的方法。

8.一种计算机可读存储介质，其中存储有程序指令，当所述程序指令由处理器加载并执行时，使得所述处理器执行根据权利要求1-5任一所述的方法。