CN107958673A

CN107958673A - 一种口语评分方法及装置

Info

Publication number: CN107958673A
Application number: CN201711216953.1A
Authority: CN
Inventors: 陆勇毅; 秦龙
Original assignee: Beijing Simcere Education Technology Co Ltd
Current assignee: BEIJING SINGSOUND INTELLIGENT TECHNOLOGY Co.,Ltd.
Priority date: 2017-11-28
Filing date: 2017-11-28
Publication date: 2018-04-24
Anticipated expiration: 2037-11-28
Also published as: CN107958673B

Abstract

本发明提供了一种口语评分方法及装置，其中，该方法包括：获取待评分语音；通过预先训练的音素评分模型对待评分语音进行音素发音质量评分；根据待评分语音包括的每个音素的评分结果，确定待评分语音的质量分值。本发明以音素为单位进行口语评分，预先训练了每种语言类型包含的各个音素对应的音素评分模型。由于音素数量少，所以训练音素评分模型的工作量小，效率高。在评分时先通过音素评分模型对待评分语音包含的每个音素进行评分，然后将评分结果融合为待评分语音整体的质量分值，整个评分过程中无需专业领域内人士根据口语发音质量的相关特性设计GOP、native似然度等评分特性，评分过程更加细化，提高了口语评分的准确性及稳定性。

Description

一种口语评分方法及装置

技术领域

本发明涉及语音识别及数据处理技术领域，具体而言，涉及一种口语评分方法及装置。

背景技术

目前对朗读风格题型的口语发音评分，主要考察发音质量、流利度、韵律等几个方面。其中，发音质量是口语评分考察的重中之重。

当前，相关技术中通常通过以下三种方式来实现口语发音的质量评测：(1)将待评分语音与标准发音做比对。(2)统计待评分语音的GOP(good of pronunciation)发音质量特征，根据得到的GOP发音质量特征，建立简单的映射模型，得到最终的发音评分。(3)按照回归的方式，提取多个发音特征，如GOP、native似然度等，人工标注大量的评分数据，构建回归评分模型，利用该回归评分模型为待评分语音进行评分。

但上述三种相关技术中，需要专业领域内人士，根据口语发音质量的相关特性，设计GOP、native似然度等评分特征，评分的准确性不高，评分的稳定性不好。

发明内容

有鉴于此，本发明实施例的目的在于提供一种口语评分方法及装置，以解决现有技术存在的以下问题：现有技术中需要专业领域内人士，根据口语发音质量的相关特性，设计GOP、native似然度等评分特征，评分的准确性及稳定性都不好。

第一方面，本发明实施例提供了一种口语评分方法，包括：

获取待评分语音；

通过预先训练的音素评分模型对所述待评分语音进行音素发音质量评分；

根据所述待评分语音包括的每个音素的评分结果，确定所述待评分语音的质量分值。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实现方式，其中，所述通过预先训练的音素评分模型对所述待评分语音进行音素发音质量评分，包括：

识别所述待评分语音所属的语言类型；

对所述待评分语音进行声学切分，获得所述待评分语音包括的每个音素对应的时间边界信息及语音段；

从预先训练的所述语言类型对应的所有音素评分模型中，确定出所述每个音素对应的音素评分模型；

根据所述每个音素对应的时间边界信息及语音段，通过所述每个音素对应的音素评分模型分别获得所述每个音素对应的质量分值。

结合第一方面的第一种可能的实现方式，本发明实施例提供了第一方面的第二种可能的实现方式，其中，所述对所述待评分语音进行声学切分，获得所述待评分语音包括的每个音素对应的时间边界信息及语音段，包括：

通过预设声学模型获取所述待评分语音中每个音素的时间边界信息；

根据所述每个音素的时间边界信息，从所述待评分语音中切分出所述每个音素对应的语音段。

结合第一方面的第一种可能的实现方式，本发明实施例提供了第一方面的第三种可能的实现方式，其中，所述根据所述待评分语音包括的每个音素的评分结果，确定所述待评分语音的质量分值，包括：

根据所述每个音素对应的时间边界信息及质量分值，确定所述待评分语音包括的每个单词的质量分值；

将所述每个单词的质量分值融合为所述待评分语音的质量分值。

结合第一方面的第三种可能的实现方式，本发明实施例提供了第一方面的第四种可能的实现方式，其中，所述根据所述每个音素对应的时间边界信息及质量分值，确定所述待评分语音包括的每个单词的质量分值，包括：

根据所述每个音素对应的时间边界信息，确定所述待评分语音中每个单词包含的音素；

分别将每个单词包含的音素的质量分值融合为所述每个单词的质量分值。

结合第一方面，本发明实施例提供了第一方面的第五种可能的实现方式，其中，所述根据所述待评分语音包括的每个音素的评分结果，确定所述待评分语音的质量分值，包括：

计算所述每个音素的评分结果的平均值，将所述平均值确定为所述待评分语音的质量分值。

结合第一方面，本发明实施例提供了第一方面的第六种可能的实现方式，其中，所述获取待评分语音之前，还包括：

获取每个音素对应的训练数据；

根据所述每个音素对应的训练数据、端到端模型及损失函数，分别训练出所述每个音素对应的模型参数，获得所述每个音素对应的音素评分模型。

第二方面，本发明实施例提供了一种口语评分装置，所述装置包括：

获取模块，用于获取待评分语音；

音素评分模块，用于通过预先训练的音素评分模型对所述待评分语音进行音素发音质量评分；

确定模块，用于根据所述待评分语音包括的每个音素的评分结果，确定所述待评分语音的质量分值。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实现方式，其中，所述音素评分模块包括：

切分单元，用于对所述待评分语音进行声学切分，获得所述待评分语音包括的每个音素对应的时间边界信息及语音段；

确定单元，用于从预先训练的所有音素评分模型中，确定出所述每个音素对应的音素评分模型；

获得单元，用于根据所述每个音素对应的时间边界信息及语音段，通过所述每个音素对应的音素评分模型分别获得所述每个音素对应的质量分值。

结合第二方面，本发明实施例提供了第二方面的第二种可能的实现方式，其中，所述装置还包括：

模型训练模块，用于获取每个音素对应的训练数据；根据所述每个音素对应的训练数据、端到端模型及损失函数，分别训练出所述每个音素对应的模型参数，获得所述每个音素对应的音素评分模型。

在本发明实施例提供的方法及装置中，获取待评分语音；通过预先训练的音素评分模型对待评分语音进行音素发音质量评分；根据待评分语音包括的每个音素的评分结果，确定待评分语音的质量分值。本发明以音素为单位进行口语评分，预先训练了每种语言类型包含的各个音素对应的音素评分模型。由于音素数量少，所以训练音素评分模型的工作量小，效率高。在评分时先通过音素评分模型对待评分语音包含的每个音素进行评分，然后将评分结果融合为待评分语音整体的质量分值，整个评分过程中无需专业领域内人士根据口语发音质量的相关特性设计GOP、native似然度等评分特性，评分过程更加细化，提高了口语评分的准确性及稳定性。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例1所提供端到端模型的结构示意图；

图2示出了本发明实施例1所提供的一种口语评分方法的流程图；

图3示出了本发明实施例1所提供的另一种口语评分方法的流程示意图；

图4示出了本发明实施例2所提供的一种口语评分装置的结构示意图；

图5示出了本发明实施例4所提供的一种口语评分装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到相关技术中需要专业领域内人士，根据口语发音质量的相关特性，设计GOP、native似然度等评分特征，评分的准确性不高，评分的稳定性不好。。基于此，本发明实施例提供了一种口语评分方法及装置，下面通过实施例进行描述。

实施例1

本发明实施例提供了一种口语评分方法。该方法通过端到端的音素评分模型来评价待评分语音中每个音素的质量分值，然后再根据每个音素的质量分值来确定待评分语音的质量分值。本发明实施例是以音素为单位进行口语评分的，从语言发音角度来说，音素是发音的最小单位，以音素为单位进行口语评分，更细致，更准确。

而且对于任何一种语言来说，整个语言体系所包含的音素的个数是有限的，而且相对于单词来说，音素的个数更少。例如，英语中包含48个音素，但是英语中包含的单词数量达到几十万个。因此在预先训练评分模型时，以单词为单位来训练评分模型的话工作量非常巨大。本发明实施例中以音素为单位进行训练来获得每个音素对应的音素评分模型，在训练过程中所需收集的训练数据的数据量小，整个训练过程工作量小，效率高。

在应用本发明实施例提供的方法对待评分语音进行口语评分前，首先通过如下方式来训练出每种语言包含的音素对应的音素评分模型，具体包括：

对于任意一种语言类型，获取该语言类型包含的每个音素对应的训练数据；根据每个音素对应的训练数据、端到端模型及损失函数，分别训练出每个音素对应的模型参数，获得该语言类型中每个音素对应的音素评分模型。

上述语言类型可以为汉语、英语、韩语、日语等。在获取语言类型包含的每个音素对应的训练数据时，首先制定评分准则，以英文口语发音评分为例，可以制定如表1所示的4分制评分标准。表1所示的评分标准仅为示例，实际应用中可根据需求制定评分准则。

表1

分数	评分标准
		4	发音完全正确，比较具有外国腔
3	发音完全正确
		2	少许的发音瑕疵
1	发音不太正确
		0	发音完全不正确，或者没说话

对于任意一个音素，采集大量包含该音素的语音，然后安排两个或两个以上评分人员按照制定的评分准则对包含该音素的每段语音进行人工评分。对于包含该音素的任意一段语音，取所有评分人员对该段语音评分的平均值作为该段语音的质量分值。如此能够获得包含该音素的每段语音的质量分值。包含该音素的每段语音以及每段语音的质量分值即为该音素对应的训练数据。

对于该语言类型包含的其他每个音素，同样按照上述方式依次获取其他每个音素对应的训练数据。获取到该语言类型中每个音素对应的训练数据后，确定端到端模型及训练所使用的损失函数。

本发明实施例中所采用的端到端模型的结构如图1所示，其中输入特征x₁,x₂,...,x_n分别表示输入的第1帧、第2帧、…、第n帧语音中每一帧的特征。输入特征为MFCC(MelFrequency Cepstral Coefficient，Mel频率倒谱系数)或者FBANK(Filter Bank)声学特征。在端到端模型中顺序输入n帧包含某一因素的语音后，经过LSTM(Long Short-TermMemory，长短期记忆网络)加权平均，最后接一个全连接层，来预测最终的音素发音评分。

本发明实施例所采用的损失函数设定为MSE(Mean Square Error)，具体公式如下：

其中，N表示训练的样本数，表示端到端模型预测的分数，y_i表示实际的分数。

端到端模型的结构以及损失函数设定后，就可以将获取的某个音素对应的训练数据代入到端到端模型中，结合损失函数进行循环迭代，获得该音素对应的模型参数。该音素对应的模型参数得到后，对于一个待评分的该音素的语音，就可以将语音及该音素的模型参数代入该端到端模型中进行计算，获得该待评分该音素语音的最终评分。该音素对应的模型参数与该端到端模型即组成了该音素对应的音素评分模型。

对于任一语言类型中的任一音素，都可以按照上述方式训练获得音素对应的音素评分模型。在本发明实施例中，可以将各语言类型包含的音素对应的音素评分模型按照语言类型进行分类存储。

如图2所示，通过上述过程预先训练出语言类型中各音素对应的音素评分模型后，还通过如下步骤101-103的操作应用音素评分模型来对待评分语音进行口语评分。

步骤101：获取待评分语音。

本发明实施例的执行主体为用于口语评分的终端，该终端可以直接采集用户现场口述的一段口语录音作为待评分语音，也可以从其他终端获取待评分语音。

步骤102：通过预先训练的音素评分模型对待评分语音进行音素发音质量评分。

获取到待评分语音后，通过如下步骤A1-A4的操作来获取待评分语音中每个音素的质量分值，具体包括：

A1：识别待评分语音所属的语言类型。

本发明实施例可以通过各语言类型对应的词库来识别待评分语音所属的语言类型。

A2：对待评分语音进行声学切分，获得待评分语音包括的每个音素对应的时间边界信息及语音段。

通过预设声学模型获取待评分语音中每个音素的时间边界信息。根据每个音素的时间边界信息，通过预设声学模型从待评分语音中切分出每个音素对应的语音段。

上述预设声学模型为混合LSTM-HMM深度学习声学模型(LSTM-HMM hybridsystem)。通过预设声学模型识别每个音素的时间边界信息，并根据时间边界信息切分出每个音素对应的语音段。例如，对于待评分语音“good morning”,其对应的音素集合为其中，单词good包含三个音素[g]、[u]、[d]，假设good发音的起始时间为00:00，截止时间为00:03，音素[g]的时间边界信息为[00:00，00:01]，音素[u]的时间边界信息为[00:01，00:02]，音素[d]的时间边界信息为[00:02，00:03]，依据这三个音素的时间边界信息能够准确的切分出三个音素[g]、[u]、[d]各自对应的语音段。

A3：从预先训练的上述语言类型对应的所有音素评分模型中，确定出待评分语音中每个音素对应的音素评分模型。

步骤A1中识别出了待评分语音所属的语言类型。预先训练的音素评分模型是按照语言类型分类存储的。根据待评分语音所属的语言类型能够定位出该语言类型对应的所有音素评分模型的存储位置。从步骤A2能够确定出待评分语音包含哪些音素，从定位出的该语言类型对应的所有音素评分模型中确定出待评分语音中每个音素对应的音素评分模型。

A4：根据待评分语音中每个音素对应的时间边界信息及语音段，通过每个音素对应的音素评分模型分别获得每个音素对应的质量分值。

对于待评分语音包含的任一音素，根据该音素对应的时间边界信息，计算出该音素的发音时长，将该发音时长、该音素对应的语音段代入该音素对应的音素评分模型进行计算，得到该音素对应的质量分值。

对于待评分语音包含的其他每个音素，同样按照上述方式分别通过其他每个音素对应的音素评分模型获得各自对应的质量分值。

通过本步骤获得待评分语音包含的每个音素对应的质量分值后，通过如下步骤103的从中来对待评分语音进行整体评分。

步骤103：根据待评分语音包括的每个音素的评分结果，确定待评分语音的质量分值。

本发明实施例中可以通过如下第一或第二两种方式中的任一种方式来确定待评分语音整体的质量分值，具体包括：

第一，先根据音素的质量分值计算单词的质量分值，再根据单词的质量分值计算待评分语音的质量分值。

根据每个音素对应的时间边界信息及质量分值，确定待评分语音包括的每个单词的质量分值；将每个单词的质量分值融合为待评分语音的质量分值。

根据每个音素对应的时间边界信息，确定出待评分语音中每个单词包含的音素。首先根据每个音素对应的时间边界信息，将待评分语音包含的所有音素按照时间的先后顺序进行排序，然后対照待评分语音包含的每个单词，确定出每个单词包含的音素。然后分别将每个单词包含的音素的质量分值融合为每个单词的质量分值。再将每个单词的质量分值拟合为待评分语音的质量分值。本发明实施例中可以将单词包含的音素的质量分值的平均值或中值作为该单词的质量分值。相似地，将待评分语音包含的每个单词的质量分值的平均值或中值作为待评分语音的质量分值。

例如，假设按照时间先后顺序排序后待评分语音“good morning”包含的音素为[g]、[u]、[d]、[m]、[n]、[i]、能够确定出单词good包含音素[g]、[u]、[d]，单词morning包含音素[m]、[n]、[i]、假设音素[g]、[u]、[d]、[m]、[n]、[i]、的质量分值依次为88、90、85、95、80、82、75、86，则单词good的质量分值为音素[g]、[u]、[d]的质量分值的平均值87.67，单词morning的质量分值为音素[m]、[i]、的质量分值的平均值83.6。然后计算单词good的质量分值与单词morning的质量分值的平均值，得到待评分语音“good morning”的质量分值85.64。

第二，直接根据音素的质量分值计算待评分语音的质量分值。

计算每个音素的评分结果的平均值，将得到的平均值确定为待评分语音的质量分值。本发明实施例中也可以取每个音素的评分结果的中值，将得到的中值作为待评分语音的质量分值。

例如，假设待评分语音“good morning”包含的音素[g]、[u]、[d]、[m]、[n]、[i]、的质量分值依次为88、90、85、95、80、82、75、86，则计算音素[g]、[u]、[d]、[m]、[n]、[i]、的质量分值的平均值为85.13，则确定待评分语音“good morning”的质量分值85.13。

为了便于理解本发明实施例提供的口语评分方法，下面结合附图进行具体说明。如图3所示，通过预设声学模型LSTM-HMM对待评分语音“good morning”进行声学切分，确定音素边界，然后利用端到端的音素评分模型进行音素评分，得到“good morning”包含的音素[g]、[u]、[d]、[m]、[n]、[i]、的质量分值依次为88、90、85、95、80、82、75、86。之后将音素得分融合为单词得分，即单词good的质量分值为音素[g]、[u]、[d]的质量分值的平均值87.67，单词morning的质量分值为音素[m]、[i]、的质量分值的平均值83.6。最后将单词的质量分值融合为整句发音的质量分值，即计算单词good的质量分值与单词morning的质量分值的平均值，得到待评分语音“good morning”的质量分值85.64。

本发明实施例能够应用于任何语言口语的单词、句子、段落的发音质量评分中，不需要领域内专家设计相关的发音质量评分特征，只需输入MFCC或FBANK等语音常规特征，在大量人工评分数据的驱动下，就可以获得准确的、稳定的端到端的音素评分模型。利用音素评分模型能够实现口语的端到端的直接评分，提高了评分准确性。

在本发明实施例中，获取待评分语音；通过预先训练的音素评分模型对待评分语音进行音素发音质量评分；根据待评分语音包括的每个音素的评分结果，确定待评分语音的质量分值。本发明以音素为单位进行口语评分，预先训练了每种语言类型包含的各个音素对应的音素评分模型。由于音素数量少，所以训练音素评分模型的工作量小，效率高。在评分时先通过音素评分模型对待评分语音包含的每个音素进行评分，然后将评分结果融合为待评分语音整体的质量分值，整个评分过程中无需专业领域内人士根据口语发音质量的相关特性设计GOP、native似然度等评分特性，评分过程更加细化，提高了口语评分的准确性及稳定性。

实施例2

参见图4，本发明实施例提供了一种口语评分装置，该装置用于执行上述实施例1所提供的口语评分方法，该装置包括：

获取模块201，用于获取待评分语音；

音素评分模块202，用于通过预先训练的音素评分模型对待评分语音进行音素发音质量评分；

确定模块203，用于根据待评分语音包括的每个音素的评分结果，确定待评分语音的质量分值。

上述音素评分模块202包括：

切分单元，用于对待评分语音进行声学切分，获得待评分语音包括的每个音素对应的时间边界信息及语音段；

确定单元，用于从预先训练的所有音素评分模型中，确定出每个音素对应的音素评分模型；

获得单元，用于根据每个音素对应的时间边界信息及语音段，通过每个音素对应的音素评分模型分别获得每个音素对应的质量分值。

在本发明实施例中，该装置还包括：

模型训练模块，用于获取每个音素对应的训练数据；根据每个音素对应的训练数据、端到端模型及损失函数，分别训练出每个音素对应的模型参数，获得每个音素对应的音素评分模型。

上述切分单元，用于通过预设声学模型获取待评分语音中每个音素的时间边界信息；根据每个音素的时间边界信息，从待评分语音中切分出每个音素对应的语音段。

上述确定模块203包括：

单词分值确定单元，用于根据每个音素对应的时间边界信息及质量分值，确定待评分语音包括的每个单词的质量分值；

融合单元，用于将每个单词的质量分值融合为待评分语音的质量分值。

上述单词分值确定单元，用于根据每个音素对应的时间边界信息，确定待评分语音中每个单词包含的音素；分别将每个单词包含的音素的质量分值融合为每个单词的质量分值。

上述确定模块203，用于计算每个音素的评分结果的平均值，将平均值确定为待评分语音的质量分值。

实施例3

本发明实施例提供了一种非易失性计算机存储介质，该计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述实施例1中的口语评分方法，具体执行以下方法：获取待评分语音；通过预先训练的音素评分模型对待评分语音进行音素发音质量评分；根据待评分语音包括的每个音素的评分结果，确定待评分语音的质量分值。

该计算机存储介质存储的计算机可执行指令执行后能够以音素为单位进行口语评分，在评分时先通过音素评分模型对待评分语音包含的每个音素进行评分，然后将评分结果融合为待评分语音整体的质量分值，整个评分过程中无需专业领域内人士根据口语发音质量的相关特性设计GOP、native似然度等评分特性，评分过程更加细化，提高了口语评分的准确性及稳定性。

实施例4

如图5所示，本发明实施例提供了一种口语评分装置，该口语评分装置30包括：处理器31、存储器32和总线33，存储器32存储有执行指令，当该装置运行时，处理器31与存储器32之间通过总线33通信，处理器31执行存储器32中存储的如下执行指令：获取待评分语音；通过预先训练的音素评分模型对待评分语音进行音素发音质量评分；根据待评分语音包括的每个音素的评分结果，确定待评分语音的质量分值。

处理器31具体用于：识别待评分语音所属的语言类型；对待评分语音进行声学切分，获得待评分语音包括的每个音素对应的时间边界信息及语音段；从预先训练的语言类型对应的所有音素评分模型中，确定出每个音素对应的音素评分模型；根据每个音素对应的时间边界信息及语音段，通过每个音素对应的音素评分模型分别获得每个音素对应的质量分值。

上述对待评分语音进行声学切分时，处理器31具体用于：通过预设声学模型获取待评分语音中每个音素的时间边界信息；根据每个音素的时间边界信息，从待评分语音中切分出每个音素对应的语音段。

在根据待评分语音包括的每个音素的评分结果，确定待评分语音的质量分值，处理器31具体用于：根据每个音素对应的时间边界信息及质量分值，确定待评分语音包括的每个单词的质量分值；将每个单词的质量分值融合为待评分语音的质量分值。

上述确定待评分语音包括的每个单词的质量分值，处理器31具体用于：根据每个音素对应的时间边界信息，确定待评分语音中每个单词包含的音素；分别将每个单词包含的音素的质量分值融合为每个单词的质量分值。

在根据待评分语音包括的每个音素的评分结果，确定待评分语音的质量分值，处理器31还可以具体用于：计算每个音素的评分结果的平均值，将平均值确定为待评分语音的质量分值。

在获取待评分语音之前，处理器31还具体用于：获取每个音素对应的训练数据；根据每个音素对应的训练数据、端到端模型及损失函数，分别训练出每个音素对应的模型参数，获得每个音素对应的音素评分模型。

该口语评分装置通过处理器31执行上述指令，能够以音素为单位进行口语评分，在评分时先通过音素评分模型对待评分语音包含的每个音素进行评分，然后将评分结果融合为待评分语音整体的质量分值，整个评分过程中无需专业领域内人士根据口语发音质量的相关特性设计GOP、native似然度等评分特性，评分过程更加细化，提高了口语评分的准确性及稳定性。

本发明实施例所提供的口语评分装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种口语评分方法，其特征在于，所述方法包括：

获取待评分语音；

2.根据权利要求1所述的方法，其特征在于，所述通过预先训练的音素评分模型对所述待评分语音进行音素发音质量评分，包括：

识别所述待评分语音所属的语言类型；

3.根据权利要求2所述的方法，其特征在于，所述对所述待评分语音进行声学切分，获得所述待评分语音包括的每个音素对应的时间边界信息及语音段，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述待评分语音包括的每个音素的评分结果，确定所述待评分语音的质量分值，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述每个音素对应的时间边界信息及质量分值，确定所述待评分语音包括的每个单词的质量分值，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述待评分语音包括的每个音素的评分结果，确定所述待评分语音的质量分值，包括：

7.根据权利要求1所述的方法，其特征在于，所述获取待评分语音之前，还包括：

获取每个音素对应的训练数据；

8.一种口语评分装置，其特征在于，所述装置包括：

获取模块，用于获取待评分语音；

9.根据权利要求8所述的装置，其特征在于，所述音素评分模块包括：

10.根据权利要求8所述的装置，其特征在于，所述装置还包括：