CN115346421A

CN115346421A - 一种口语流利度评分方法、计算设备及存储介质

Info

Publication number: CN115346421A
Application number: CN202110517041.8A
Authority: CN
Inventors: 马楠; 夏龙; 高强; 吴凡
Original assignee: Beijing Ape Power Future Technology Co Ltd
Current assignee: Beijing Ape Power Future Technology Co Ltd
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2022-11-15

Abstract

本申请提供了一种口语流利度评分方法、计算设备及存储介质。所述方法包括：获得用户输入的与文本内容对应的目标音频；将目标音频与文本内容的发音单元进行时间对齐，获得目标音频时间对齐信息；获得对应于所述文本内容中发音单元的示例音频时间对齐信息；利用所述目标音频时间对齐信息和所述示例音频时间对齐信息获得口语流利度特征值；将所述口语流利度特征值输入预置的评分模型，得到所述目标音频的口语流利度评分。

Description

一种口语流利度评分方法、计算设备及存储介质

技术领域

本申请涉及语调评分技术领域，尤其涉及一种口语流利度评分方法、计算设备及存储介质。

背景技术

流利度是考察英语学习者发音能力的主要指标之一。包括英语在内，在单词包含多音节的语言学习中，例如法语、西班牙语等，流利度均是考察语言学习者发音能力的主要指标。

计算机辅助英语教学中，通过计算机自动对学生的英语口语流利度做评估打分，指导学生的口语发音学习。

现有技术中有一些通过计算机自动评估英语口语流利度的方法。例如，荷兰奈梅根拉德布德大学语言学系(Department of Linguistics,Radboud University Nijmegen,The Netherlands)，由Catia Cucchiarini等人发表的论文“Fluency in non-native readand spontaneous speech”。以及，由杨百翰大学(Brigham Young University)的DeryleLonsdale等人发表的论文“Combining elicited imitation and fluency features fororal proficiency measurement”。均记载了与口语流利度评价有关的技术方案。

以上现有技术中的采用计算机手段评价口语流利度的方法是抽取要打分的目标语音中和流利度相关的特征，例如语音中单词的时长、停顿的时长、连续语音的长度等等，然后利用统计学习的方法拟合这些特征，得到预测出的流利度分数。

发明内容

本申请提供一种口语流利度评分方法，包括：获得用户输入的与文本内容对应的目标音频；将目标音频与文本内容的发音单元进行时间对齐，获得目标音频时间对齐信息；获得对应于所述文本内容中发音单元的示例音频时间对齐信息；利用所述目标音频时间对齐信息和所述示例音频时间对齐信息获得口语流利度特征值；将所述口语流利度特征值输入预置的评分模型，得到所述目标音频的口语流利度评分。

上述方法中，利用所述对应于发音单元的目标音频时间对齐信息和示例音频时间对齐信息获得至少两类口语流利度特征值；将所述至少两类口语流利度特征值输入预置的评分模型，得到所述目标音频的口语流利度评分。

上述方法中，所述发音单元为音素；

以及，所述获得对应于文本内容中发音单元的目标音频时间对齐信息包括：获得目标音频对应于文本内容中音素的音素音频片段的时间对齐信息；所述获得对应于文本内容中发音单元的示例音频时间对齐信息包括：获得对应于文本内容中音素的示例音频的音素音频片段的时间对齐信息；其中，所述时间对齐信息包括音素音频片段的起止时间和/或时长。

所述方法中，还包括获得静音片段和发音片段，具体的：

利用音素音频片段的起止时间获得相邻两个音素音频片段间的时间间隔；若相邻音素音频片段间的时间间隔不小于预置第一门限值，则获得该时间间隔的起止时间为静音片段的起止时间；

若相邻音素音频片段间的时间间隔小于预置第一门限值，则获得所述相邻音素音频片段中第一个音素音频片段的起始时间作为发音片段的起始时间，以及获得所述相邻音素音频片段中最后一个音素音频片段的截止时间作为发音片段的截止时间。

本发明方法中，利用目标音频时间对齐信息和示例音频时间对齐信息可以获得以下一类或多类口语流利度特征值。包括：

1)分别获得所述目标音频和示例音频中音素音频片段总个数与所述发音片段总时长的比值；

或/和获得所述目标音频中音素音频片段总数与所述目标音频时长的比值，以及所述示例音频中音素音频片段总数与所述示例音频时长的比值。

2)分别获得目标音频和示例音频中所有静音片段的平均时长。

3)分别获得目标音频中所有发音片段包含音素音频片段个数的平均值，以及示例音频中所有发音片段包含音素音频片段个数的平均值。

4)对应于相同音素，获得目标音频的音素音频片段时长比示例音频的音素音频片段时长短于预置第二门限的音素音频片段数量。

5)获得所述文本内容中单词末尾的音素；

获得目标音频中所述单词末尾的音素音频片段的时长小于预置第三门限的音素音频片段数量。

6)获得目标音频总时长与目标音频中的发音片段数量的比值；以及示例音频总时长与示例音频中的发音片段数量的比值；

或/和获得目标音频中所有发音片段总时长与目标音频的时长的比值，以及示例音频中所有发音片段总时长与示例音频的时长的比值。

7)获得目标音频的音素音频片段时长序列与示例音频的音素音频片段时长序列的线性相关系数；

或/和，获得目标音频中相邻至少两个音素音频片段的时长序列与示例音频中相应的相邻至少两个音素音频片段时长序列的线性相关系数；

或/和，

目标音频中，对应于同一个单词的音素音频片段，以第一个音素音频片段的起始时间和最后一个音素音频片段的截止时间得到目标音频中单词音频片段；

示例音频中，对应于同一个单词音素音频片段中，以第一个音素音频片段的起始时间和最后一个音素音频片段的截止时间得到示例音频中单词音频片段；

获得目标音频中单词音频片段时长序列与示例音频中相应的单词音频片段时长序列的线性相关系数。

8)获得目标音频的音素音频片段时长与示例音频中音素音频片段时长的平均绝对误差；

或/和，获得目标音频的音素音频片段时长与示例音频中音素音频片段时长的均方误差；

或/和，

目标音频中，对应于同一个单词音素音频片段中，以第一个音素音频片段的起始时间和最后一个音素音频片段的截止时间得到目标音频中单词音频片段；

获得目标音频的单词音频片段时长与示例音频中单词音频片段时长的平均绝对误差；

或/和，

获得目标音频的单词音频片段时长与示例音频中单词音频片段时长的均方误差。

9)获得时长小于预置第四门限的目标音频中的音素音频片段；获得目标音频中时长小于所述第四门限的音素音频片段数量与目标音频中所有音素音频片段数量的比值。

本发明实施例中，获得对应于文本内容中音素的示例音频的音素音频片段的时间对齐信息的方法包括：

获得所述文本内容中音素的语言特征，将所述音素的语言特征输入预置的发音时长预测模型，得到示例音频的音素音频片段时间对齐信息；

或者将预先制作的示例音频与文本内容执行时间对齐。

上述方法中，所述语言特征为包括以下一种或多种信息的向量：当前单词内容、前一个单词内容、后一个单词内容、当前单词音节数、前一个单词音节数、后一个单词音节数、当前音素、前一个音素、后一个音素。

一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的方法。

一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被计算设备的处理器执行时，使所述处理器执行如上所述的方法。

本发明对目标音频口语流利度的评分结合示例音频的流利度特征参数，因而与现有技术相比，适用于更丰富的语言场景，对目标音频的评分更加准确。

以及，基于多个流利度特征的评分相比单个流利度特征的打分具有更高的稳定性，流利度评分参考特征更丰富，不易因单个流利度特征的变化产生分数的波动，并且得分更加合理。其中，特征值中包括了由音素音频片段得到的特征值，基于单词音频片段得到的特征值，基于发音片段或/和静音片段得到的特征值，使得模型的打分更加科学准确。

进一步，本发明实施例采用大语料库训练的语音合成模型来预测示例音频的发音时长信息，用该信息和目标语音的发音时长信息做流利度分数评估。相比现有技术，通过预测的示例音频提供了更多的流利度打分特征，进而采用融合多种流利度特征的机器学习方法，得到的口语流利度打分更加准确。本发明实施例

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

通过结合附图对本申请示例性实施方式进行更详细的描述，本申请的上述以及其它目的、特征和优势将变得更加明显，其中，在本申请示例性实施方式中，相同的参考标号通常代表相同部件。

图1是本申请一个实施例的口语流利度评分方法的流程示意图。

具体实施方式

下面将参照附图更详细地描述本申请的优选实施方式。虽然附图中显示了本申请的优选实施方式，然而应该理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本申请更加透彻和完整，并且能够将本申请的范围完整地传达给本领域的技术人员。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

相关技术中，由于抽取要打分的目标语音中和流利度相关的特征，例如语音中单词的时长、停顿的时长、连续语音的长度等等，然后利用统计学习的方法拟合这些特征，得到预测出的流利度分数。显然，在采用现有技术进行流利度打分时，通常发音越连贯打分越高，停顿越短越好。

然而，在某些场景下，停顿或慢速是被需要的，例如表达强调的语句时，需要适当的停顿和一定程度上降低语速，这种情况下用户的朗读实际上具有听众期待的效果，但利用现有技术打分时得到较低的得分。另一方面，在少儿英语的教学场景中，学生的口语发音相比成人学生更为随意多变，需要提出更强的流利度评估方法。

本申请实施例提供一种口语流利度评分方法，能够对口语流利度更准确、更稳定、更合理的进行评分。本发明实施例以英语语句发音评分为例，但并不限制本发明应用于其他语言发音评分的场景，例如德文、法文等。

参照图1所示本发明一方法实施例流程示意图

步骤11：获得用户输入的与文本内容对应的目标音频；以及，获得与文本内容对应的示例音频。

其中，所述示例音频为该文本内容的标准发音，对应于文本内容。一种实现方式中，系统预先存储该文本内容对应的示例音频，示例音频可以通过录制等手段获得。具体的，既可以存储完整文本内容对应的完整示例音频；也可以存储组成文本内容的单词的音频，根据该文本按照一定方法将标准单词音频组合成对应于文本内容的示例音频。

目标音频是用户朗读系统示出的文本内容的音频录音，本发明实施例在于对所述目标音频的流利度进行评分。所述评分的形式本发明并不限制，例如采用百分制，或者设为多个等级，例如A、B、C三个等级。

步骤12：将目标音频与文本内容的发音单元进行时间对齐，获得目标音频时间对齐信息；获得对应于所述文本内容中发音单元的示例音频时间对齐信息；

所述发音单元可以是单词，也可以音素。音素目前被认为是最小的语音单位，一个单词由若干个音素组成。例如，在arpabet音标体系中，单词apple由AE、P、AH、L四个音素组成。

以下以音素为例说明本发明的实现方式。

假设文本内容为“hello wolrd”，该句子中包含若干音素，对于每个音素分别将目标音频和示例音频与音素进行强制对齐，获得对应于每个音素的音频片段，即音素音频片段。因此，目标音频中包含若干音素音频片段，对应于句子中的音素；同样，示例音频中包含若干音素音频片段，对应于句子中的音素。并且，对应于句子中相同的音素，可以得到目标音频的音素音频片段和示例音频的音素音频片段。

在现有技术中，对语音音频和文本进行强制对齐，经常采用维特比(Viterbi)算法。该算法是一种动态规划算法，开源语音工具软件如HTK、Kaldi中有具体实现。

步骤13：利用所述对应于发音单元的目标音频时间对齐信息和示例音频时间对齐信息获得口语流利度特征值；

将通过步骤12获得的音素音频片段的时间对齐信息输入口语流利度特征值计算模块，将计算得到用于对目标音频口语流利度进行评价的若干特征值。

步骤14：将所述口语流利度特征值输入预置的评分模型，得到所述目标音频的口语流利度评分。

评分模型是一个经过预先训练的机器学习模型。输入步骤13获得的各类流利度特征值后，可得到目标语音的流利度评分。

本发明实施例中采用梯度提升回归树(GBRT)模型，使用时标注数据、训练模型，模型训练好后即可根据输入特征，预测流利度分数。

作为较佳的实施例，步骤13中获得两类或者两类以上口语流利度特征值，进而评分模型根据该两类或两类以上口语流利度特征值进行评分，得到的评分结果更加合理、稳定。

基于步骤12完成音频和文本的强制对齐后，得到示例音频或目标音频中对应于某个音素的音频的时间对齐信息，所述对齐信息包括起止时间和/或时长，即为对应该音素的音频片段的起止时间、时长。即，可以基于起止时间确定示例音频或目标音频中对应于某音素的音素音频片段。利用强制对齐的结果可以进一步获得如下数据，该些数据用于得到不同的流利度特征值。所述数据和定义如下：

示例音频或目标音频中音素音频片段的数量：对于目标音频或示例音频，完成时间对齐后得到其中音频片段的起止时间，从而进一步统计得到其中包含的所有音素音频片段数。

静音片段：对音频和文本进行强制对齐后，得到每个音素的发音的起止时间，即每个音素音频片段的起止时间，则一并获得了没有发音部分的起止时间，即静音片段的起止时间。

在一些实现方式中，为了更好的识别静音片段，提高特征值的计算效果。较可行的方式是设置一个时长作为第一门限值，当音素音频片段之间的时间间隔大于该第一门限的时候，则认为这个时间间隔为静音片段；否则不将该小于第一门限的时间间隔作为静音对待。

所述第一门限值的大小可以根据经验取值。例如0.07秒，即在第一门限值为0.07秒时，超过0.07秒的停顿作为一个静音片段，比这个时长短的静音可以忽略。举例假设句子“hello world”，hello和world中间停顿了0.5秒，则该0.5秒的停顿作为静音片段，其时长是0.5s。静音片段的起始时间是hello发音的截止时间，静音片段的截止时间是world的起始时间。

本发明并不对第一门限值的取值进行限定。

发音片段：目标音频或者示例音频中，除去静音片段之外的部分作为发音片段。

一种实现方式中，所述发音片段是音素音频片段。音素音频片段之外的时间为静音片段。

另一种实现方式中，当采用了上述第一门限时，所述发音片段包括音素音频片段，以及音素音频片段之间不被认为是静音片段的时间间隔。例如，按照以上举例，假设目标音频中，顺序相邻的A和B两个音素音频片段之间的时间间隔如果为0.03秒，小于该实施例中的第一门限0.07秒，则将A、B两个音素音频片段，以及其间隔的0.03秒作为一个发音片段。则该发音片段的时间起始时间是A音素音频片段的起始时间，该发音片段的截止起始时间是B音素音频片段的截止时间。假设A音素音频片段的时长为0.1秒，B音素音频片段的时长为0.2秒，则该发音片段的时长为0.1秒、0.03秒与0.2秒的和，即0.33秒。

单词音频片段，对应于同一个单词的音素音频片段，以第一个音素音频片段的起始时间和最后一个音素音频片段的截止时间得到音频中单词音频片段。

具体的，先获得了文本中每个音素音频片段的起止时间，并且，基于文本获得每个单词由哪几个音素组成，进而获得每个单词的起止时间。假设某单词ABC是由音素A、音素B、音素C组成的。完成音频与文本强制对齐后，分别获得音素A音频片段、音素B音频片段、音素C音频片段的起止时间。将音素A音频片段作为单词ABC音频片段起始时间，音素C音频片段的截止时间作为单词ABC音频片段的截止时间。

对于一个单词，一个单词由多个音素组成，该单词中的最后一个音素就是单词末尾音素。

以下具体说明获得口语流利度特征值的实现方法。以下记载的各类流利度特征值为示例性，本发明并不限制其他可作为流利度特征的实现方式。

1)句子的音素总个数与发音时长的比值。

其中，句子中所有单词的音素个数总和，即句子的音素总个数。

所述发音时长是句子中，所有发音片段的总时长，即音频总时长去掉所有静音片段的时长。

获得目标音频中音素音频片段总个数与目标音频中发音片段总时长的比值；以及获得示例音频中音素音频片段总个数与示例音频中发音片段总时长的比值，作为评分模型的输入。

2)获得目标音频中音素音频片段总个数与目标音频时长的比值，以及示例音频中音素音频片段总个数与示例音频时长的比值。

3)音频中所有静音片段的平均时长

获得目标音频中所有静音片段，用所述所有静音片段总时长除以静音片段总数，得到目标音频中静音片段的平均时长；

获得示例音频中所有静音片段，用所述所有静音片段总时长除以静音片段总数，得到示例音频中静音片段的平均时长。

将所述目标音频中静音片段的平均时长和示例音频中静音片段的平均时长作为评分模型的输入。

4)所有发音片段中音素音频片段个数的平均值。

统计音频中的所有音素音频片段数，除以音频中的发音片段数，得到所有发音片段音素音频片段个数的平均值。

分别获得目标音频中所有发音片段包含音素音频片段个数的平均值；和获得示例音频中所有发音片段包含音素音频片段个数的平均值作为评分模型的输入。

5)目标音频中音素音频片段时长比示例音频中对应的音素音频片段时长短于第二门限值的片段数量。

经过音频与文本的强制对其，对于文本中同一个音素，分别得到目标音频的该音素音频片段以及示例音频的该音素音频片段。将目标音频的该音素音频片段时长以及示例音频的该音素音频片段时长进行比较，若目标音频的该音素音频片段时长小于示例音频的该音素音频片段时长第二门限值，则加入统计。最终得到目标音频中音素音频片段时长比示例音频中相对应的音素音频片段时长短于第二门限值的片段数量。

所述第二门限值可以由本领域技术人员进行设定，例如10帧，本发明并不限定。

6)所有单词中，单词词尾音素的目标音频的音素音频片段时长过短数量；

获得文本内容中单词末尾的音素；

若目标音频中该单词末尾音素的音素音频片段的时长小于预置第三门限，则进行统计，得到目标音频中单词结尾音素音频片段小于第三门限的片段数量。

例如当一个单词末尾音素的音素音频片段时长较短，例如将第三门限值时长为10帧，则认为其词尾音素长度过短。

本发明不限制第三门限值的取值。

7)目标音频中短音素音频片段数量与目标音频中所有音素音频片段数量的比值。

目标音频中，统计音素音频片段时间长度小于第四门限值的音素音频片段数量。本发明不限定所述第四门限值的取值，例如第四门限值取值为10帧。

计算所述时间长度小于第四门限值的音素音频片段数量与目标音频中所有音素音频片段数量的比值。

8)发音片段数量与单词个数的比值

获得一个句子中的单词数量；

获得该句子目标音频的发音片段数量；得到所述目标音频发音片段数量与所述单词数量的比值；

获得该句子的示例音频的发音片段数量；得到所述示例音频发音片段数量与所述单词数量的比值。

目标音频发音片段数量与所述单词数量的比值和示例音频发音片段数量与所述单词数量的比值作为评分模型的输入。

9)音频总时长与发音片段个数的比值

获得目标音频总时长，以及目标音频中发音片段的数量，获得目标音频总时长与目标音频中发音片段的数量的比值；

获得示例音频总时长，以及示例音频中发音片段的数量，获得示例音频总时长与示例音频中发音片段的数量的比值；

将以上获得的两个比值作为评分模型的输入。

在另一实现方式中，仅统计目标音频或示例音频中的包含两个或两个以上音素音频片段的发音片段，即这些发音片段中包含两个以上的音素音频片段。进而得到音频总时长与所述包含两个以上音素音频片段的发音片段数量的比值。

10)音频中所有发音片段的总时长与音频总时长的比值

获得目标音频的时长；获得目标音频中所有发音片段；获得目标音频中所有发音片段的总时长与该目标音频的时长的比值；

获得示例音频的时长；获得示例音频中所有发音片段；获得示例音频中所有发音片段的总时长与该示例音频的时长的比值；

以上所述比值作为评分模型的输入。

11)目标音频中音素音频时长序列与示例音频中音素音频片段时长序列的线性相关系数。

假设目标音频所有音素音频片段序列(t1,t2,t3)，音素音频片段时长序列为(Lt1,Lt2,Lt3)，示例音频所有音素音频片段序列(s1,s2,s3)，其音素音频片段时长序列为(Ls1,Ls2,Ls3)。

获得(Lt1,Lt2,Lt3)和(Ls1,Ls2,Ls3)的线性相关系数作为口语流利度特证。其中所述，线性相关系数是研究变量之间线性相关程度的量。

12)目标音频中连续两个音素音频片段长度序列和示例音频中连续两个音素音频片段长度序列的线性相关系数。

在一个实施例中，假设目标音频所有音素音频片段组成的序列(t1，t2，t3，t4)，对应的音素音频片段时长序列为(Lt1，Lt2，Lt3，Lt4)，目标音频连续两音素的长度序列为(Lt1+Lt2，Lt2+Lt3，Lt3+Lt4)；示例音频所有音素音频片段组成的序列(s1，s2，s3，s4)，对应的音素音频片段时长序列为(Ls1，Ls2，Ls3，Ls4)，示例音频中连续两音素音频片段的时间长度序列为(Ls1+Ls2，Ls2+Ls3，Ls3+Ls4)。

获得序列(Lt1+Lt2,Lt2+Lt3)和(Ls1+Ls2,Ls2+Ls3)的线性相关系数作为口语流利度特征值。

在另一个实施例中，假设目标音频所有音素音频片段组成的序列(t1，t2，t3，t4)，对应的音素音频片段时长序列为(Lt1，Lt2，Lt3，Lt4)，目标音频连续两音素的长度序列为(Lt1+Lt2，Lt3+Lt4)；示例音频所有音素音频片段组成的序列(s1，s2，s3，s4)，对应的音素音频片段时长序列为(Ls1，Ls2，Ls3，Ls4)，示例音频中连续两音素音频片段的时间长度序列为(Ls1+Ls2，Ls3+Ls4)。

获得序列(Lt1+Lt2，Lt3+Lt4)和(Ls1+Ls2，Ls3+Ls4)的线性相关系数作为口语流利度特征值。

13)目标音频中连续三个音素音频片段长度序列和示例音频中连续三个音素音频片段长度序列的线性相关系数。

一个实施例中，假设目标音频所有音素音频片段组成序列(t1，t2，t3，t4)，其音素音频片段时间长度序列为(Lt1，Lt2，Lt3，Lt4)，目标音频连续三个音素音频片段的时间长度序列为(Lt1+Lt2+Lt3，Lt2+Lt3+Lt4)；

示例音频所有音素音频片段组成序列(s1，s2，s3，s4)，其音素音频片段时间长度序列为(Ls1，Ls2，Ls3，Ls4)，示例音频连续三个音素音频片段的长度序列为(Ls1+Ls2+Ls3，Ls2+Ls3+Ls4)。

序列(Lt1+Lt2+Lt3，Lt2+Lt3+Lt4)和(Ls1+Ls2+Ls3，Ls2+Ls3+Ls4)的线性相关系数为口语流利度特征值。

另一个实施例中，假设目标音频所有音素音频片段组成序列(t1，t2，t3，t4，t5)，其音素音频片段时间长度序列为(Lt1，Lt2，Lt3，Lt4，Lt5)，目标音频连续三个音素音频片段的时间长度序列为(Lt1+Lt2+Lt3，Lt3+Lt4+Lt5)；

示例音频所有音素音频片段组成序列(s1，s2，s3，s4，s5)，其音素音频片段时间长度序列为(Ls1，Ls2，Ls3，Ls4，Ls5)，示例音频连续三个音素音频片段的长度序列为(Ls1+Ls2+Ls3，Ls3+Ls4+Ls5)。

序列(Lt1+Lt2+Lt3，Lt3+Lt4+Lt5)和(Ls1+Ls2+Ls3，Ls3+Ls4+Ls5)的线性相关系数为口语流利度特征值。

以上实施例之外，所述连续三个音素音频片段窗口的移动步长本发明并不限制，例如某个音素音频序列为(t1，t2，t3，t4，t5，t6，t7，t8，t9)，其音素音频片段时间长度序列为(Lt1，Lt2，Lt3，Lt4，Lt5，Lt6，Lt7，Lt8，Lt9)。当三个音素音频片段窗口的移动步长为2时，所述目标音频连续三个音素音频片段的时间长度序列为(Lt1+Lt2+Lt3，Lt3+Lt4+Lt5，Lt5+Lt6+Lt7，Lt7+Lt8+Lt9)；当三个音素音频片段窗口的移动步长为3时，所述目标音频连续三个音素音频片段的时间长度序列为(Lt1+Lt2+Lt3，Lt4+Lt5+Lt6，Lt7+Lt8+Lt9)。

14)目标音频音素音频片段长度与示例音频音素音频片段长度的平均绝对误差。

分别获得目标音频音素音频片段时间长度；获得示例音频音素音频片段时间长度；获得目标音频音素音频片段长度与示例音频音素音频片段长度的平均绝对误差。所述平均绝对误差是所有单个观测值与算术平均值的偏差的绝对值的平均。

15)目标音频音素音频片段长度与示例音频音素音频片段长度的均方误差。

分别获得目标音频音素音频片段时间长度；获得示例音频音素音频片段时间长度；获得目标音频音素音频片段长度与示例音频音素音频片段长度的均方误差。所述均方误差是反映估计量与被估计量之间差异程度的一种度量。

16)目标音频中单词音频片段时长序列与示例音频中单词音频片段时长序列的线性相关系数。

参照上文记载方法分别获得目标音频的单词音频片段和示例音频的单词音频片段；得到目标音频的单词音频片段的时长序列和示例音频的单词音频片段的时长序列，并获得两个时长序列的线性相关系数。

17)目标音频单词音频片段时间长度与示例音频单词音频片段时间长度的平均绝对误差。

18)目标音频单词音频片段时间长度与示例音频单词音频片段时间长度的均方误差。

以上列举了部分口语流利度特征值的定义及获得方法。除以上已记载的流利度特征值外，本发明并不限定利用其他参数作为流利度特征值用于口语流利度评分模型。

本发明的又一实施例中，提供了一种参数化语音合成模型，用于根据系统提供的文本内容获得相应于文本内容的发音时长，作为较为标准的发音结果，作为本发明所述的示例音频，用于评估目标音频的口语流利度。

首先，对于输入的文本句子，首先将其转换成描述文本上下文信息的语言特征。

其次，获得整个句子的语言特征后，把每个词语的语言特征输入发音时长预测模块的深度神经网络中，网络根据输入预测出当前词语的发音时长；或者，将句子中每个音素的语言特征输入发音时长预测模块的深度神经网络，可以得到每个音素的发音时长。

发音时长预测模块的深度神经网络使用由全连接层构成的深度神经网络。应用业务场景中，进行神经网络训练时，使用发音标准，例如英语教学内容相关的大量英语语音和文本作为训练数据。完成训练后，模型预测出的句子的发音时长的和可视为一种较为标准的发音结果，进而作为示例音频用于给目标音频评估流利读分数。

以下说明句子中音素发音时长的预测方式。

对每个音素预测时长时，音素的语言特征有多种设计方法。所述语言特征可以包括：当前音素所在单词内容、当前音素所在单词的前一个单词内容，和当前音素所在单词的后一个单词内容；以及当前单词音节数、当前音素所在单词的上一个单词音节数，当前音素所在单词的下一个单词音节数，当前音素内容，前一个音素内容，后一个音素内容。上述信息组成的向量即构成当前词语的语言特征。本发明并不限制具体采用的语言特征的信息，以及一个或多个语言特征信息的组合方式。将当前音素的语言特征，将其输入时长预测模型即得到该音素的持续时间。

以I eat apple为例，说明获得音素发音时长的方法。

在采用arpabet音标集表示音素时，句子I eat apple中，I包含一个音素AY；eat包含两个音素，分别为IY和T，则音素IY的语言特征Y＝(eat,I,apple,1,1,2,IY,AY,T)。其中，eat表示当前音素IY所在单词，I表示eat的前一个单词，apple表示eat的下一个单词，1表示当前单词eat包含的音节数，1表示前一个单词I包含的音节数，2表示后一个单词apple包含的音节数，IY表示当前音素，AY表示前一个音素，T表示下一个音素。将以上语言特征作为预先训练的神经网络的输入，可以得到音素IY的时长。

通过以上方法能够预测得到句子中音素的发音时长。在预测得到音素的发音时长后，进一步，把每个单词内的所有音素的发音时长相加，可以得到单词的发音时长。

预测得到音素的发音时长后，还可以进一步对句子中的停顿时长进行预测，从而得到静音片段的时间信息等。

首先，可以采用现有技术中的韵律停顿预测模型，根据句子内容预测出句子中需要加入停顿标记的位置，即静音标记。其次，加入了静音标记的句子再输入到时长预测模型，时长预测模型基于句子中的静音标记可以预测到静音片段的时长。

以上分别得到了句子中的音素的发音时长和静音片段时长。按照句子中的音素和静音片段序列的时长信息，计算得到每个音素音频片段和静音片段的起止时间。

以上基于预测得到的音素的发音时长，进一步预测得到单词的发音时长。以下提供另一种预测单词发音时长的实现方法。本发明并不限制所采用的单词发音时长的预测方式。

具体的，对句子中每个词语，其对应的语言特征包括：当前单词内容、前一个单词内容和后一个单词内容；以及当前单词音节数、上一个单词音节数和下一个单词音节数等。上述信息组成的向量即构成当前词语的语言特征。

例如：在句子“I eat apple”中，单词I的语言特征为X，X＝(I,‘’,eat，1，0，1)；单词eat的语言特征为Y，Y＝(eat,I,apple,1,1,2)；单词apple的语言特征为Z，Z＝(apple,eat,‘’,2,1,0)。

以单词eat为例，特征Y的各个项含义是：eat表示当前单词，I表示前一个单词，apple表示下一个单词，1表示当前单词eat包含的音节数，1表示前一个单词I包含的音节数，2表示下一个单词apple包含的音节数。

利用以上语言特征，通过预先训练的神经网络对单词的发音时长进行预测，例如假设得到单词I的发音时长为300毫秒，eat的发音时长为400毫秒，apple的发音时长为500毫秒。

利用以上步骤，即使本发明实施例的场景下没有提供示例音频，但通过本步骤的根据文本预测出特征可以起到类似示例音频的作用，用于后续口语流利度评分使用。

本发明采用大语料库训练的语音合成模型来预测示例音频的发音时长信息，用该信息和目标语音的发音时长信息做流利度分数评估。本步骤的采用使得，在未提供预置的示例音频的情况下，采用本发明的口语流利度评分方法依然是可能的。相比现有技术，本发明通过预测的示例音频提供了更多的流利度打分特征。

本发明实施例还提供了一种计算设备，包括存储器和处理器。

处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器上存储有可执行代码，当可执行代码被处理器处理时，可以使处理器执行上文述及的方法中的部分或全部。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关分方法的实施例中进行了详细描述，此处将不再做详细阐述说明。

上文中已经参考附图详细描述了本申请的方案。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。本领域技术人员也应该知悉，说明书中所涉及的动作和模块并不一定是本申请所必须的。另外，可以理解，本申请实施例语调评分方法中的步骤可以根据实际需要进行顺序调整、合并和删减，本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。

本申请还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被计算设备(或电子设备、服务器等)的处理器执行时，使所述处理器执行根据本申请的上述语调评分方法的各个步骤的部分或全部。

本领域技术人员还将明白的是，结合这里的申请所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本申请的多个实施例的系统和语调评分方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种口语流利度评分方法，其特征在于，包括：

获得用户输入的与文本内容对应的目标音频；

将目标音频与文本内容的发音单元进行时间对齐，获得目标音频时间对齐信息；

获得对应于所述文本内容中发音单元的示例音频时间对齐信息；

利用所述目标音频时间对齐信息和所述示例音频时间对齐信息获得口语流利度特征值；

将所述口语流利度特征值输入预置的评分模型，得到所述目标音频的口语流利度评分。

2.根据权利要求1所述的方法，其特征在于：

利用所述对应于发音单元的目标音频时间对齐信息和示例音频时间对齐信息获得至少两类口语流利度特征值；

将所述至少两类口语流利度特征值输入预置的评分模型，得到所述目标音频的口语流利度评分。

3.根据权利要求2所述的方法，其特征在于：

所述发音单元为音素；

所述获得对应于文本内容中发音单元的目标音频时间对齐信息包括：获得目标音频对应于文本内容中音素的音素音频片段的时间对齐信息；

所述获得对应于文本内容中发音单元的示例音频时间对齐信息包括：获得对应于文本内容中音素的示例音频的音素音频片段的时间对齐信息；

其中，所述时间对齐信息包括音素音频片段的起止时间和/或时长。

4.根据权利要求3所述的方法，其特征在于，还包括：

利用音素音频片段的起止时间获得相邻两个音素音频片段间的时间间隔；

若相邻音素音频片段间的时间间隔不小于预置第一门限值，

则获得该时间间隔的起止时间为静音片段的起止时间；

5.根据权利要求4所述的方法，其特征在于，所述利用所述对应于发音单元的目标音频时间对齐信息和示例音频时间对齐信息获得口语流利度特征值包括：

分别获得所述目标音频和示例音频中音素音频片段总个数与所述发音片段总时长的比值；

6.根据权利要求4所述的方法，其特征在于，所述利用所述对应于发音单元的目标音频时间对齐信息和示例音频时间对齐信息获得口语流利度特征值包括：

分别获得目标音频和示例音频中所有静音片段的平均时长。

7.根据权利要求4所述的方法，其特征在于，所述利用所述对应于发音单元的目标音频时间对齐信息和示例音频时间对齐信息获得口语流利度特征值包括：

分别获得目标音频中所有发音片段包含音素音频片段个数的平均值，以及示例音频中所有发音片段包含音素音频片段个数的平均值。

8.根据权利要求3或4所述的方法，其特征在于，所述利用所述对应于发音单元的目标音频时间对齐信息和示例音频时间对齐信息获得口语流利度特征值包括：

对应于相同音素，获得目标音频的音素音频片段时长比示例音频的音素音频片段时长短于预置第二门限的音素音频片段数量。

9.根据权利要求3或4所述的方法，其特征在于，所述利用所述对应于发音单元的目标音频时间对齐信息和示例音频时间对齐信息获得口语流利度特征值包括：

获得所述文本内容中单词末尾的音素；

10.根据权利要求3或4所述的方法，其特征在于，所述利用所述对应于发音单元的目标音频时间对齐信息和示例音频时间对齐信息获得口语流利度特征值包括：

获得目标音频总时长与目标音频中的发音片段数量的比值；以及示例音频总时长与示例音频中的发音片段数量的比值；

11.根据权利要求3或4所述的方法，其特征在于，所述利用所述对应于发音单元的目标音频时间对齐信息和示例音频时间对齐信息获得口语流利度特征值包括：

获得目标音频的音素音频片段时长序列与示例音频的音素音频片段时长序列的线性相关系数；

或/和，

12.根据权利要求3或4所述的方法，其特征在于，所述利用所述对应于发音单元的目标音频时间对齐信息和示例音频时间对齐信息获得口语流利度特征值包括：

获得目标音频的音素音频片段时长与示例音频中音素音频片段时长的平均绝对误差；

或/和，

13.根据权利要求3或4述的方法，其特征在于，所述利用所述对应于发音单元的目标音频时间对齐信息和示例音频时间对齐信息获得口语流利度特征值包括：

获得时长小于预置第四门限的目标音频中的音素音频片段；

获得目标音频中时长小于所述第四门限的音素音频片段数量与目标音频中所有音素音频片段数量的比值。

14.根据权利要求3或4所述的方法，其特征在于，所述获得对应于文本内容中音素的示例音频的音素音频片段的时间对齐信息包括：

获得所述文本内容中音素的语言特征，将所述音素的语言特征输入预置的发音时长预测模型，得到示例音频的音素音频片段时间对齐信息。

15.根据权利要求14所述的方法，其特征在于，所述语言特征为包括以下一种或多种信息的向量：

当前单词内容、前一个单词内容、后一个单词内容、当前单词音节数、前一个单词音节数、后一个单词音节数、当前音素、前一个音素、后一个音素。

16.一种计算设备，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-15中任一项所述的方法。

17.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被计算设备的处理器执行时，使所述处理器执行如权利要求1-15中任一项所述的方法。