CN106782603A

CN106782603A - 智能语音评测方法及系统

Info

Publication number: CN106782603A
Application number: CN201611199626.5A
Authority: CN
Inventors: 郭伟
Original assignee: SHANGHAI YUZHIYI INFORMATION TECHNOLOGY Co Ltd
Current assignee: Unisound Shanghai Intelligent Technology Co Ltd
Priority date: 2016-12-22
Filing date: 2016-12-22
Publication date: 2017-05-31
Anticipated expiration: 2036-12-22
Also published as: CN106782603B

Abstract

本发明提供了一种智能语音评测方法及系统，通过提供包括测试语种数据集和对比语种数据集的第一训练数据集对深度神经网络进行训练，形成深度神经网络模型，并对所述深度神经网络模型分别喂入测试语种数据集和对比语种数据集进行训练，深度神经网络的输出层输出包括对应上述三类训练数据集的评测分值，通过比较以及处理所述评测分值再输出评测结果，达到了口语评测中对利用其它语种进行阅读的情况、及时发现并避免给予较高的评测分值的技术效果。

Description

智能语音评测方法及系统

技术领域

本发明涉及语音识别技术领域，具体来说涉及一种智能语音评测方法及系统。

背景技术

随着语音识别技术的不断成熟，涉及到信号处理、自然语言理解、人工智能、数据挖掘和及其学习等多个学科的智能语音评测技术也得到了越来越广泛的应用。例如，智能辅助教学系统班班通项目在各个中小学的推广，普通话口语考试系统在全国的普及等。其中，智能语音评测就是利用计算机自动或半自动地对人的语音进行标准程度的评估和发音缺陷的检测。如何提供检测系统的稳定性、评测打分的准确性是智能语音评测的关键，也受到了越来越多的关注。

现有的口语评测方案，目的是给出一个以音素为基本单位的分数，在计算这个分数时，假设有一个GMM(高斯混合模型：Gaussian Mixture Model)+HMM(隐马尔可夫模型：Hidden Markov Model)模型能够很好地根据某些声学片段来确定这些片段对应的似然概率，然后通过似然差来衡量对应音素的发音质量。上述口语评测方案，质量主要依赖于声学模型的质量，而声学模型的质量主要依赖于数据训练的质量，好的或标准的训练数据能够得到高质量的声学模型，进而得到高准确度的评测结果或评测分值。

然而将上述的口语评测方案用于口语考试评测时，该标准的声学模型对于利用其他语种来翻译阅读时，比如在英语口语考试中，应试者利用中文朗读英文，例如用“恶狗”代替“ago”进行发音朗读，标准的声学模型依然会给出较高的评测分值。这是由于利用其它语种阅读时，声学模型对该音频进行音素提取时，被提取的音素与声学模型中的标准发音非常相近，所以评测模型会给出较高的评测分值，而该较高的评测分值并不符合口语考试的评测要求，现有的口语评测方案不能解决这一问题。

发明内容

鉴于上述情况，本发明提供一种智能语音评测方法及系统，解决了现有口语评测方案对利用其它语种阅读形成的语音给出较高的评测分值而不符合口语评测要求的技术问题，达到针对利用其它语种阅读的情况、及时发现并避免给予较高的评测分值的目的。

为实现上述目的，本发明采取的技术方案是：

一种智能语音评测方法，包括以下步骤：

a.提供第一训练数据集，所述第一训练数据集包括测试语种数据集和对比语种数据集，所述测试语种数据集和对比语种数据集均包括音频数据、文本数据及其对应的音素集合；提供所述音素集合之间的映射关系；

b.训练深度神经网络，利用所述第一训练数据集对深度神经网络进行训练，以形成深度神经网络模型；

c.提供第二训练数据集，对深度神经网络进行训练，所述第二训练数据集包括至少两种语种数据集，定义一种语种数据集为测试语种数据集，其他语种数据集为对比语种数据集，所述测试语种数据集和对比语种数据集分别输入到所述深度神经网络中进行训练，所述测试语种数据集和对比语种数据集均包括音频数据、文本数据及其对应的音素集合；

d.获取待评测语音，提取所述待评测语音的特征序列，将所述特征序列输入到所述深度神经网络模型中；对所述待评测语音进行识别以形成音素序列；

e.输出对应所述音素序列的评测分值；

f.比较以及处理所述评测分值，输出评测结果。

本发明智能语音评测方法的进一步改进在于，在所述步骤f中，通过线性融合或非线性融合的方式对所述评测分值进行处理。

本发明智能语音评测方法的进一步改进在于，在步骤a中，不同语种发音相似的音素映射成一套音素集合，发音不能映射的音素标记为单独的音素。

本发明智能语音评测方法的进一步改进在于，所述测试语种数据集为英文，所述对比语种数据集包括中文，中文带调音素和英文音素映射为一套音素集合。

本发明智能语音评测方法的进一步改进在于，在所述步骤b中，还包括提取所述第一训练数据集的梅尔频谱倒谱系数特征或线性预测系数特征或梅尔滤波系数特征。

本发明智能语音评测方法的进一步改进在于，在所述步骤e中，还包括输出：

第一类节点：对应为使用所述第一训练数据集进行训练后的输出评测分值；

第二类节点：对应为使用所述测试语种数据集进行训练后的输出评测分值；

第三类节点：对应为使用所述对比语种数据集进行训练后的输出评测分值。

本发明智能语音评测方法的进一步改进在于，在所述步骤e中，利用后验概率特征，通过映射得到所述音素序列的评测分值。

此外，本发明还提供一种智能语音评测系统，包括：

数据输入模块，与特征提取模块连接，用于将第一训练数据集和第二训练数据集传送至所述特征提取模块；与音素映射模块连接，用于将第一训练数据集和第二训练数据集传送至所述音素映射模块；

音素映射模块，与深度神经网络模块连接，用于将所述第一训练数据集和第二训练数据集测试语种数据集的音素集合进行映射，传送至所述深度神经网络模块；

语音接收模块，与特征提取模块连接，用于获取待评测语音，并传送至所述特征提取模块；

特征提取模块，与所述深度神经网络模块连接，用于提取所述第一训练数据集和第二训练数据集的特征序列以及所述待评测语音的特征序列，传送至所述深度神经网络模块；

深度神经网络模块，与解码网络模块及输出节点模块连接，经训练后形成深度神经网络模型，与解码网络模块连接，传送至所述输出节点模块；

解码网络模块，与所述输出节点模块及语音接收模块连接，用于对所述待评测语音进行识别以形成音素序列，传送至所述输出节点模块；

输出节点模块，与优化融合模块连接，用于输出所述音素序列对应的评测分值，传送至所述优化融合模块；

优化融合模块，与评分模块连接，用于处理经所述输出节点模块输出的评测分值，传送至所述评分模块；

评分模块，用于输出对应所述待评测语音的评测结果。

本发明智能语音评测系统的进一步改进在于，所述第一训练数据集包括测试语种数据集和对比语种数据集，且所述测试语种数据集和对比语种数据集一同被传送至所述音素映射模块。

本发明智能语音评测系统的更进一步改进在于，所述第二训练数据集包括测试语种数据集和对比语种数据集，所述测试语种数据集和对比语种数据集分别被传送至所述音素映射模块。

本发明的有益效果在于，本发明通过提供包括测试语种数据集和对比语种数据集的第一训练数据集对深度神经网络进行训练，形成深度神经网络模型，并对所述深度神经网络模型分别喂入测试语种数据集和对比语种数据集进行训练，所述深度神经网络模型的输出层输出包括对应上述三类训练数据集的评测分值，通过比较以及处理所述评测分值再输出评测结果，达到了口语评测中对利用其它语种进行阅读的情况、及时发现并避免给予较高的评测分值的技术效果。

附图说明

图1是本发明智能语音评测系统的结构示意图。

图2是本发明智能语音评测方法的流程示意图。

附图标记与部件的对应关系如下：

10-深度神经网络模型，101-输出节点，S11-第一训练数据集，S12-第二训练数据集，S10-音素集合，S13-特征序列，S0-待评测语音，S1-特征序列，S2-音素序列，S3-评测分值，S-评测结果，1-训练数据使用的模块连接关系，2-测试数据使用的模块连接关系。

具体实施方式

为利于对本发明的了解，以下结合附图及实施例进行说明。

本发明提供一种智能语音评测方法及系统，旨在解决现有的口语评测方案对利用其它语种阅读形成的语音给出较高的评测方案而不符合评测要求的问题。参阅图1，所述智能语音评测系统包括：

数据输入模块，与特征提取模块连接，用于将第一训练数据集S11和第二训练数据集S12传送至特征提取模块；与音素映射模块连接，用于将第一训练数据集S11和第二训练数据集S12传送至所述音素映射模块；

音素映射模块，与深度神经网络模块连接，用于将所述第一训练数据集S11和第二训练数据集S12的音素集合进行映射，映射后的音素集合S10传送至所述深度神经网络模块；

语音接收模块，与特征提取模块连接，用于获取待评测语音S0，并传送至所述特征提取模块；

特征提取模块，与所述深度神经网络模块连接，用于提取第一训练数据集S11和第二训练数据集S12的特征序列S13和所述待评测语音S0的特征序列S1，传送至所述深度神经网络模块，音素集合S10和特征序列S13共同训练深度神经网络模块的参数；

深度神经网络模块，与解码网络模块及输出节点模块连接，经训练后形成深度神经网络模型，传送至所述输出节点模块；

解码网络模块，与所述输出节点模块及语音接收模块连接，用于对所述待评测语音进行识别以形成音素序列S2，传送至所述输出节点模块；

具体的，智能语音评测系统是将待评测语音S0的特征序列S1输入到深度神经网络模型中以对其进行解码，将评测语音S0的文本输送到解码网络模块进行解码以获取音素序列S2。

输出节点模块，与优化融合模块连接，用于输出所述音素序列对应的评测分值S3，传送至所述优化融合模块；

优化融合模块，与评分模块连接，用于处理经所述输出节点模块输出的评测分值S3，传送至所述评分模块；

评分模块，用于输出对应所述待评测语音的评测结果S。

其中，第一训练数据集S11包括测试语种数据集和对比语种数据集，所述测试语种数据集和对比语种数据集一同被传送至所述特征提取模块；第二训练数据S12亦包括测试语种数据集和对比语种数据集，但是第二训练数据S12包括的测试语种数据集和对比语种数据集是分别传送至特征提取模块，第一训练数据S11是第二训练数据S12包括的测试语种数据集和对比语种数据集的叠加，以在输出节点模块中，输出对应于第一训练数据的用于对待评测语音进行音素切分的评测分值。

图1中训练数据使用的模块连接关系1指示在对深度神经网络模块进行训练时，训练数据用到的模块连接关系；测试数据使用的模块连接关系2指示待评测语音S0进行评测时，使用的模块连接关系。

本发明所提供的智能语音评测系统，并不限于两种语种的评测分类，即所述对比语种数据集可以是多种语种的数据集合，可依据实际需要，对深度神经网络模型喂入多语种的训练数据，以获取与各语种相对应的评测分值。

此外，参阅图2，本发明还提供一种智能语音评测方法，所述方法包括以下步骤：

a.提供第一训练数据集，所述第一训练数据集包括测试语种数据集和对比语种数据集，所述测试语种数据集和对比语种数据集均包括音频数据、文本数据及其对应的音素结合；提供所述音素集合之间的映射关系；

b.训练深度神经网络，利用所述第一训练数据集对深度神经网络进行训练，以形成深度神经网络模型10；

e.输出对应所述音素序列的评测分值；

f.比较以及处理所述评测分值，输出评测结果。

于本发明智能语音评测方法中，深度神经网络模型10包括多层隐层，以对输入的第一训练数据S11和第二训练数据S12进行非线性映射，和输出节点层共同通过梯度下降法(Back Propagation)，更新隐层参数，各隐层作用相同，且为顺序处理关系。

于本发明智能语音评测方法中，提供音素集合的映射关系中，不同语种发音相似的音素映射成一套音素集合，发音不能映射的音素标记为单独的音素，若测试语种为英语，对比语种为中文，则中文带调音素可以映射到英文不带调音素上。例如，英文音素的ei，对应的发音相似的中文带调音素为ei1，ei2，ei3，ei4，它们发音相似，可以映射为一套音素。对所述第一训练数据集提取MFCC(梅尔频谱倒谱系数)或者PLP(线性预测系数)或者FB(梅尔滤波系数)特征以训练所述深度神经网络；深度神经网络模型10与其输出节点101还连接有解码网络模型，所述解码网络模型是利用所述文本信息生成，用于对所述语音信息进行识别以形成音素序列。

深度神经网络模型10的输出节点101分为三类：

上述三类节点的单元可以为音素聚类后的状态级别，也可以是音素级别；上述三类节点是利用后验概率特征，通过映射以得到所述音素序列的评测分值。具体的，根据待评测语音S0经过深度神经网络模型10之后，输出待评测语音S0的好坏的概率值，待评测语音S0说的好，即音素序列S2与所述测试语音数据集的音素序列比较相近，则后验概率高，待评测语音S0说的不好，即音素序列S2与所述测试语音数据集的音素序列相差较大，则后验概率低。后验概率还可能为负值，范围可以是-20～10，最终的音素打分都是大于0的值。

对上述三类节点的评测分值进行比较及处理，主要是通过线性融合或非线性融合的方式进行的。例如，定义第一类节点输出的评测分值为第一分值Score1，定义第二类节点输出的评测分值为第二分值Score2，定义第三类节点输出的评测分值为第三Score3，若第二分值Score2的分值很高，第三分值Score3的分值很低，则可以判断获取的语音为使用测试语种数据集对应的语音，输出第二分值Score2为评测结果；若第二分值Score2与第三分值Score3的分数相近，则在对评测分值进行处理时，需对第二分值Score2和第三分值Score3进行加权处理以降低第三分值Score3对评测结果的影响，将加权处理后的结果作为评测结果进行输出；若第二分值Score2的分值很低，第三分值Score3的分值很高，则基本可以判断所获取的待评测语音为利用其它语种形式阅读形成，此时亦需要对第二分值Score2和第三分值Score3进行加权处理以输出正确的评测结果。

对于第一分值Score1、第二分值Score2和第三分值Score3这三个评测分值，还可以利用线性叠加的原理进行处理，下面给出简单的实施例：

第三分值Score3较高，第二分值Score2较低：评测结果S＝a*(Score2+Score3)，a取值为0.1或0.2；

第三分值Score3高，第二分值Score2偏高，但比第三分值Score3低：评测结果S＝a*(Score2+Score3)，a取值为0.3或0.4；

第三分值Score3很低，第二分值Score2很高：评测结果S＝a*(Score1+Score2)，a取值为0.5。这种情况说明待测试语音S0说的较为标准，第一分值Score1会较高。

如取第三分值Score3为80，第二分值Score2位70，则评测结果S＝0.3*(80+70)＝45,输出评测结果为45。

计算评测结果S的方式并不限于此，也可利用复杂的计算公式，或是根据不同分数段设计不同的回归系数，可根据预期的评测结果来设置相应的算法。

以上结合附图及实施例对本发明进行了详细说明，本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而，实施例中的某些细节不应构成对本发明的限定，本发明将以所附权利要求书界定的范围作为本发明的保护范围。

Claims

1.一种智能语音评测方法，其特征在于，包括以下步骤：

a.提供第一训练数据集，所述第一训练数据集包括测试语种数据集和对比语种数据集，所述测试语种数据集和对比语种数据集均包括音频数据、文本数据及其对应的音素集合，提供所述音素集合之间的映射关系；

e.输出对应所述音素序列的评测分值；

f.比较以及处理所述评测分值，输出评测结果。

2.根据权利要求1所述的智能语音评测方法，其特征在于：在所述步骤f中，通过线性融合或非线性融合的方式对所述评测分值进行处理。

3.根据权利要求1所述的智能语音评测方法，其特征在于：在所述步骤a中，不同语种发音相似的音素映射成一套音素集合，发音不能映射的音素标记为单独的音素。

4.根据权利要求3所述的智能语音评测方法，其特征在于：所述测试语种数据集为英文，所述对比语种数据集包括中文，中文带调音素和英文音素映射为一套音素集合。

5.根据权利要求1所述的智能语音评测方法，其特征在于：在所述步骤b中，还包括提取所述第一训练数据集的梅尔频谱倒谱系数特征或线性预测系数特征或梅尔滤波系数特征。

6.根据权利要求1所述的智能语音评测方法，其特征在于：在所述步骤e中，还包括输出：

7.根据权利要求1所述的智能语音评测方法，其特征在于：在所述步骤e中，利用后验概率特征，通过映射得到所述音素序列的评测分值。

8.根据权利要求1所述的智能语音评测方法，其特征在于：在所述步骤a中，所述第一训练数据集的测试语种数据集和对比语种数据集一同被提供以进行所述音素集合之间的映射。

9.根据权利要求1所述的智能语音评测方法，其特征在于：在所述步骤c中，所述第二训练数据集的测试语种数据集和对比语种数据集分别被提供以进行所述音素集合之间的映射。

10.一种智能语音评测系统，其特征在于，包括：

数据输入模块，与特征提取模块连接，用于将第一训练数据集和第二训练数据集传送至所述特征提取模块；与音素映射模块连接，用于将第一训练数据集和第二训练数据集传送至所述音素映射模块；所述第一训练数据集和第二训练数据集均包括测试语种数据集和对比语种数据集；

音素映射模块，与深度神经网络模块连接，用于将所述第一训练数据集和第二训练数据集的音素集合进行映射，传送至所述深度神经网络模块；

语音接收模块，与所述特征提取模块连接，用于获取待评测语音，并传送至所述特征提取模块；

评分模块，用于输出对应所述待评测语音的评测结果。