CN107886968B

CN107886968B - 语音评测方法及系统

Info

Publication number: CN107886968B
Application number: CN201711460523.4A
Authority: CN
Inventors: 乔鹏程; 吴奎; 潘青华
Original assignee: Guangzhou Iflytek Yitingshuo Network Technology Co ltd
Current assignee: Guangzhou Iflytek Yitingshuo Network Technology Co ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2021-08-24
Anticipated expiration: 2037-12-28
Also published as: CN107886968A

Abstract

本发明公开了一种语音评测方法及系统，该方法包括：接收用户语音数据；对用户语音数据进行评测单元切分，得到评测单元；基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型，得到语音评测结果。利用本发明可以效有提升语音评测结果的准确度。

Description

语音评测方法及系统

技术领域

本发明涉及语音评测技术领域，具体涉及一种语音评测方法及系统。

背景技术

标准的普通话在人们的经济和生活中具有非常重要的意义，普通话考试的实施范围也越来越广。对于大规模的考试，人工评分的成本是非常高昂的，机器辅助人工评分是未来所有考试评分的发展趋势。随着语音识别及相关技术的里程碑式发展，机器评分的结果已经接近甚至超过人工评分的水平。但是，在口语评测中仍存在一些易混淆的字，其评测效果不尽如人意。

发明内容

本发明提供一种语音评测方法及系统，以解决现有的口语检错中的易混淆的字的检错效果不尽如人意的问题。

为此，本发明提供如下技术方案：

一种语音评测方法，包括：

接收用户语音数据；

对用户语音数据进行评测单元切分，得到评测单元；

基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型，得到语音评测结果。

优选地，所述评测单元为以下任意一种：音节、字和单词。

优选地，在得到评测单元之后，所述方法还包括：

判断所述用户语音数据是否包括易混淆发音；

如果是，则基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型，得到语音评测结果；

如果否，则根据所述用户语音数据的语音特征和预先构建的第二语音评测模型，得到语音评测结果。

优选地，所述基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型，得到语音评测结果包括：

对于易混淆发音，根据易混淆发音的评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型，得到语音评测结果；

对于非易混淆发音，根据非易混淆发音的每帧语音的语音特征和预先构建的第二语音评测模型，得到语音评测结果。

优选地，所述第一语音评测模型为神经网络，包括：卷积神经网络和深度神经网络，其中，卷积神经网络包括：第一输入层、M个交替的卷积层和池化层；深度神经网络包括：第二输入层、N个全连接层和输出层，第一输入层的输入为评测单元的频谱图，池化层的输出为评测单元的抽象特征，第二输入层的输入为评测单元的抽象特征和评测单元向量，输出层的输出为所述评测单元的发音的评测结果，其中，M和N为≥1的整数。

优选地，所述第一语音评测模型通过以下方式进行训练：

收集训练语音数据，所述训练语音数据中包括评测单元的标注信息；

对所述训练语音数据进行切分，得到评测单元；

提取评测单元的频谱图；

将所述频谱图输入所述第一语音评测模型中的卷积神经网络，得到评测单元的抽象特征；

将评测单元的抽象特征和正确的评测单元向量拼接构成正例，将评测单元的抽象特征和混淆的评测单元向量拼接构成反例；

分别利用正例和反例对所述深度神经网络进行训练，得到模型参数。

优选地，所述判断所述用户语音数据是否包括易混淆发音包括：

将所述用户语音数据输入所述第二语音评测模型，得到输出结果；

根据输出结果和设定阈值判断所述用户语音数据是否包括易混淆发音。

判断所述用户语音数据是否存在对应的标准文本；

如果是，则根据所述标准文本分析所述用户语音数据中是否包含易混淆发音；

如果否，将所述用户语音数据输入所述第二语音评测模型，得到输出结果；根据输出结果和设定阈值判断所述用户语音数据是否包括易混淆发音。

相应地，本发明还提供了一种语音评测系统，包括：

接收模块，用于接收用户语音数据；

评测单元获取模块，用于对用户语音数据进行评测单元切分，得到评测单元；

评测模块，用于基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型，得到语音评测结果。

优选地，所述系统还包括：

易混淆发音判断模块，用于判断所述用户语音数据是否包括易混淆发音；

第一语音评测模型构建模块，用于构建第一语音评测模型；

第二语音评测模型构建模块，用于构建第二语音评测模型；

所述评测模块具体用于如果用户语音数据包括易混淆发音，则基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型，得到语音评测结果；如果用户语音数据不包括易混淆发音，则根据所述用户语音数据的语音特征和预先构建的第二语音评测模型，得到语音评测结果。

优选地，所述评测模块包括：

第一评测单元，用于对于易混淆发音，根据易混淆发音的评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型，得到语音评测结果；

第二评测单元，用于对于非易混淆发音，根据非易混淆发音的每帧语音的语音特征和预先构建的第二语音评测模型，得到语音评测结果。

优选地，所述评测模块还包括：

第一检测单元，用于将所述用户语音数据输入所述第二语音评测模型，得到输出结果；根据输出结果和设定阈值判断所述用户语音数据是否包括易混淆发音。

优选地，所述评测模块还包括：

第二检测单元，用于如果所述用户语音数据存在对应的标准文本，则根据所述标准文本分析所述用户语音数据中是否包含易混淆发音。

本发明实施例提供的语音评测方法及系统，首先接收用户语音数据，然后对用户语音数据进行评测单元切分，得到评测单元，这样使得本发明可以基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型，得到语音评测结果。现有技术通常是根据预先训练好的声学模型得到状态的后验概率，然后根据给定文本搭建解码网络，解码得到评测单元(如字的声韵母)的后验概率，最后通过回归或门限判断发音是否正确。然而，易混淆发音是部分相似的，例如韵母中的in和ing，起始发音相近，只有后半段发音不同。利用传统的评测系统，得到的in和ing的似然度值相差不大，从而导致评测单元后验概率计算不够精确，造成易混淆发音难以评测；虽然易混淆发音部分相似，但从频谱图上来看还是很容易分辨的，例如韵母in和ing，在某一频率上的值相差很大。因此，本发明将语音的评测转化为图像的评测，极大程度地减弱了边界的影响，从而能够有效提高评测性能。

进一步地，本发明提供了第二种语音评测方法及系统，鉴于基于评测单元后验概率计算对非易混淆发音的评测已达到可用水平，本发明所提的第二种方法是分别针对易混淆发音和非易混淆发音采取不同的评测方法。利用本发明可以在保证能有效评测易混淆发音的前提下，利用评测单元后验概率评测非易混淆发音，而现有技术中已有训练好的可以对非易混淆发音进行评测的语音评测模型，因此，无需针对非易混淆发音训练语音评测模型。

进一步地，本发明提供了第一语音评测模型的拓扑结构和训练方法，利用该方法可以构建该第一语音评测模型，进而自动对用户语音数据进行发音评测。

进一步地，本发明提供了易混淆发音的检测方法，利用该方法可以自动检测易混淆发音；此外，还提供了一种优化方法，当存在用户语音数据的标准文本时，利用该标准文本检测用户语音数据中是否存在易混淆发音。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的语音评测方法的第一种流程图；

图2是本发明实施例提供的第一语音评测模型的第一种结构示意图；

图3是本发明实施例提供的语音评测方法的第二种流程图；

图4是本发明实施例提供的第一语音评测模型的训练方法；

图5是本发明实施例提供的判断用户语音数据是否包括易混淆发音的方法的第一种流程图；

图6是本发明实施例提供的判断用户语音数据是否包括易混淆发音的方法的第二种流程图；

图7是本发明实施例提供的语音评测系统的第一种结构示意图；

图8是本发明实施例提供的语音评测系统的第二种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

下面首先对现有技术中语音评测方法做简单说明。该评测方法通常包括以下步骤：

步骤一：接收用户语音信号输入，即考生语音输入。

步骤二：语音信号特征提取，进一步还可包括语音信号的降噪预处理等。

所述语音信号特征是指能表征用户发音特点的矢量，通常可以提取和训练集相匹配的多维梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征等。

步骤三：根据预先训练好的声学模型得到状态的后验概率。其中，该声学模型一般为深度神经网络(Deep Neural Network，DNN)或反馈神经网络(Recurrent NeuralNetwork，RNN)。

步骤四：根据给定文本搭建解码网络，解码得到评测单元的后验概率。

步骤五：根据得到的评测单元的后验概率，通过回归或门限判断发音是否正确。

其中，声学模型为用于描述各基本语音单元发音特点的数学模型，在统计模式识别应用中，其模型参数的确定往往要在海量的训练数据上统计得到，具体训练过程如下：

(1)采集训练数据；

(2)提取训练数据的声学特征；

(3)设置声学模型拓扑结构；

(4)声学模型参数训练。

显然，上述步骤三中首先需要根据文本搭建网络进行强制切分，得到评测单元的边界，然后在此边界内根据声学模型前向计算得到的状态后得到评测单元的后验。但易混淆发音是部分相似的，例如韵母中的in和ing，起始发音相近，只有后半段发音不同。利用传统的评测系统，计算得到的in和ing的似然度值相差不大，从而导致评测单元的后验概率计算不够精确，最终导致易混淆发音难以准确评测。

为此，本发明实施例提供一种语音评测方法的方法及系统，考虑到虽然易混淆发音部分相似，但从频谱图上来看还是很容易分辨的，例如韵母in和ing，在某一频率上的值相差很大。鉴于此，本发明提出一种优化方案：将语音的评测转化为图像的评测，极大程度地减弱了边界的影响，从而能够有效提高评测性能。此外，鉴于利用评测单元的后验概率对非易混淆发音的评测已达到可用水平，无需针对非易混淆发音训练一个新的语音评测模型，本发明还提供了分别针对非易混淆发音及易混淆发音进行评测的方法。

如图1所示，是本发明实施例提供的语音评测方法的第一种流程图。

在本实施例中，该语音评测方法可以包括以下步骤：

步骤S01，接收用户语音数据。

在本实施例中，所述用户语音数据可以为通过声音传感器实时采集的语音数据，具体地，可以为通过终端，如手机、个人电脑、平板电脑等接收的语音数据，还可以是通过录音设备采集的语音数据，例如，录音笔等存储的语音数据，在此不做限定。在一个具体实施例中，该用户可以为口语考试者等。

其中，语音数据对应的语言种类可以为中文、英语等各种语种，在此不再一一列举。

需要说明的是，进一步还可对采集的语音信号进行降噪预处理等，然后将降噪后的语音信号作为待评测的语音数据。

步骤S02，对用户语音数据进行评测单元切分，得到评测单元。

在本实施例中，所述评测单元为以下任意一种：音节、字和单词。其中，该评测单元切分可以首先进行状态级切分，如音素的三种状态，然后根据状态级切分结果得到评测单元的边界信息；当然，也可以是直接进行评测单元切分，在此不做限定。通过上述切分步骤即可得到评测单元，进而可以按评测单元的边界构成频谱图。

步骤S03，基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型，得到语音评测结果。

在本实施例中，评测单元向量可以通过现有的向量化方法获取，例如，通过神经网络获取字embedding向量、词向量等，在此不做限定。频谱图的获取过程可以如下所述，例如，声学特征是40维，字的时长是50帧，利用这些特征值即可构成1个50*40大小的频谱图，频谱图中的第[i，j]个点即为第i帧、第j维的特征值。

如图2所示，是本发明实施例提供的第一语音评测模型的第一种结构示意图。具体地，所述第一语音评测模型可以为神经网络，例如，该神经网络包括：卷积神经网络和深度神经网络，其中，卷积神经网络包括：第一输入层、M个交替的卷积层和池化层；深度神经网络包括：第二输入层、N个全连接层和输出层，第一输入层的输入为评测单元的频谱图，池化层的输出为评测单元的抽象特征，第二输入层的输入为评测单元的抽象特征和评测单元向量，输出层的输出为所述评测单元的发音的评测结果，M、N可以为≥1的整数，具体根据实际需求而定。

在一个具体实施例中，所述评测单元为字，将字的频谱图输入所述卷积神经网络，由最后一层池化层输出字的抽象特征，然后将字的抽象特征和字embedding向量拼接在一起形成新型的特征，输入到深度神经网络中，深度神经网络的输出即为是否正确发音的判断结果。

本发明提供了语音评测方法，首先接收用户语音数据，然后对用户语音数据进行评测单元切分，得到评测单元，这样使得本发明可以基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型，得到语音评测结果。由于易混淆发音部分相似，导致基于评测单元的后验概率的方法的评测效果不佳，但从频谱图上来看还是很容易分辨的，例如韵母in和ing，在某一频率上的值相差很大。因此，本发明将语音的评测转化为图像的评测，只需输入语音中的评测单元的大概边界信息即可形成输入图像，大大减弱了系统对边界的敏感性，可有效减弱边界误差带来的影响，从而能够有效提高评测性能。

如图3所示，是本发明实施例提供的语音评测方法的第二种流程图。

在本实施例中，在得到评测单元之后，所述方法还包括：

步骤S31，判断所述用户语音数据是否包括易混淆发音。

具体地，可以采用现有的易混淆发音检测方法来检测语音数据中是否包含易混淆发音，例如，比较语音评测结果中易混淆发音的相似度的差值是否小于设定阈值，如果是，则认为语音数据中存在易混淆发音。其中，该用户语音数据可以是短语、一句话或一段话等，这样，可以短语、一句话或一段话作为判断的对象。

步骤S32，如果是，则基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型，得到语音评测结果。

具体如上一个实施例中所述，在此不再详述。需要说明的是，如果以短语作为步骤S31的判断对象，则当短语中包括易混淆发音时，该短语利用第一语音评测模型进行评测，以此类推。

步骤S33，如果否，则根据所述用户语音数据的语音特征和预先构建的第二语音评测模型，得到语音评测结果。

具体地，可以采用现有技术的根据所述用户语音数据的语音特征和预先构建的第二语音评测模型，得到语音评测结果。例如，所述第二语音评测模型可以为神经网络模型，如深度神经网络(Deep Neural Networks，DNN)、循环神经网络(Recurrent NeuralNetworks，RNN)等，模型的输入为每帧语音数据的语音特征，输出为每帧语音的发音评测得分，即每帧语音属于每个评测单元的后验概率。其中，语音特征可以为语音数据的声学特征，提取的声学特征用于神经网络模型的输入，一般为语音数据的频谱特征，如梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征或梅尔标度滤波器组(Mel-scale Filter Bank，FBank)。具体提取时，需要先对语音数据进行分帧处理；随后对分帧后的语音数据进行预加重；最后依次提取每帧语音数据的频谱特征。

进一步地，为了减小信道失真的影响，需要对提取出的特征进行CMN(cepstralmean normalization)处理，具体实现为每一维特征值减去整条语音在该维度上的特征值的平均值。

在本实施例中，以音素状态为评测单元为例进行说明，第二语音评测模型的输出为当前帧属于每个音素状态的后验概率。此外，以音素状态为评测单元时，在第二语音评测模型的训练阶段，所需要的训练数据的标注，可通过以下方法获得：

首先收集大量语音训练数据，该语音训练数据具有文本标注，通常是根据单词级文本标注和词典，得到音素标注，然后训练声学模型，例如GMM-HMM、DNN-HMM等，接着基于声学模型得到每帧语音数据与每个声学模型输出的音素状态的似然，基于似然值得到音素状态的切分结果，进而得到每帧语音数据对应的音素状态标注。

进一步地，为了避免针对非易混淆发音训练语音评测模型，所述基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型，得到语音评测结果包括：

对于易混淆发音，根据易混淆发音的评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型，得到语音评测结果。

这样做使得本发明可以将用户语音数据以评测单元的量级进行易混淆识别，进而以评测单元的量级进行语音评测，例如，对于同一句话中的易混淆的字或词等，利用第一语音评测模型进行评测，对于同一句话中的不易混淆的字或词等，利用第二语音评测模型进行评测，这样可以在保证评测准确度的前提下，避免针对非易混淆发音训练语音评测模型，和现有技术兼容性较好，便于推广。

在本实施例中，鉴于基于评测单元后验概率计算对非易混淆发音的评测已达到可用水平，本发明首先检测用户语音数据中是否包含易混淆发音，如果不包含易混淆发音，则基于评测单元后验概率对非易混淆发音进行评测，由于现有技术的基于评测单元后验概率来评测非易混淆发音的准确度及实用性已满足需求，使得本发明可以在保证能准确评测易混淆发音的前提下，利用评测单元后验概率来评测非易混淆发音，无需针对非易混淆发音训练语音评测模型，便于推广。

如图4所示，是本发明实施例提供的第一语音评测模型的训练方法。

在本实施例中，以下以字作为评测单元进行示例说明，所述第一语音评测模型通过以下方式进行训练：

步骤S41，收集训练语音数据，所述训练语音数据中包括评测单元的标注信息。其中，该标注信息可以为标注的字的边界信息。

步骤S42，对所述训练语音数据进行切分，得到评测单元。

步骤S43，提取评测单元的频谱图。其中，可以根据单词级的文本标注提取训练语音数据中的字，然后按字的边界构成频谱图，例如，声学特征是40维，字的时长是50帧，利用这些特征值即可构成一个50*40大小的频谱图，频谱图中的第[i，j]个点即为第i帧、第j维的特征值。需要说明的是，如果仅针对易混淆评测单元利用第一语音评测模型进行语音评测，则上述提取训练语音数据中的字为：提取训练语音数据中的易混淆字。

步骤S44，将所述频谱图输入所述第一语音评测模型中的卷积神经网络，得到评测单元的抽象特征。

步骤S45，将评测单元的抽象特征和正确的评测单元向量拼接构成正例，将评测单元的抽象特征和混淆的评测单元向量拼接构成反例。以下以仅针对易混淆评测单元利用第一语音评测模型进行语音评测的情况进行示例性说明：如果训练数据中只有正例样本，反例样本可以通过伪造文本标注获取。例如易混淆配对in和ing，音频为in的发音，卷积神经网络的输出向量与in的embedding向量拼接构成正例，与ing的embedding向量拼接构成反例。需要说明的是，也可以直接收集反例的训练语音数据，在此不做限定。

步骤S46，分别利用正例和反例对所述深度神经网络进行训练，得到模型参数。

具体地，通过调整深度神经网络的参数使得深度神经网络的输出逼近正例输入，或远离反例输入，直到距离满足设定距离，例如余弦距离等。

本发明实施例提供了第一语音评测模型的训练方法，利用该方法可以训练该第一语音评测模型，进而自动对用户语音数据进行发音评测。

如图5所示，是本发明实施例提供的判断用户语音数据是否包括易混淆发音的方法的第一种流程图。

在本实施例中，所述判断所述用户语音数据是否包括易混淆发音包括：

步骤S51，将所述用户语音数据输入所述第二语音评测模型，得到输出结果。

在本实施例中，可以采用所述第二语音评测模型来获取所述用户语音数据的语音评测结果，由于易混淆评测单元利用第二语音评测模型进行评测的结果会比较相近，因此，可以利用该特点来检测用户语音数据中是否包含易混淆的评测单元。

步骤S52，根据输出结果和设定阈值判断所述用户语音数据是否包括易混淆发音。

具体地，根据第二语音评测模型的输出判断是否是易混淆发音，例如：可比较模型输出中前TOP N中易混淆发音的差值是否小于设定阈值，若小于设定阈值，则认为是易混淆发音。进而可以采用第一语音评测模型对易混淆发音进行语音评测，以提升评测结果的准确度。

在本发明实施例中，利用该方法可以自动检测易混淆发音，以便于后续有针对性的对易混淆发音进行评测，同时还可以保证评测的准确度。

如图6所示，是本发明实施例提供的判断用户语音数据是否包括易混淆发音的方法的第二种流程图。

在本实施例中，所述判断所述用户语音数据是否包括易混淆发音可以包括以下步骤：

步骤S61，判断所述用户语音数据是否存在对应的标准文本。

由于可以根据文本准确的判断哪些评测单元为易混淆发音，例如，一句话的文本的发音中是否同时包含in和ing的发音，如果是，则认为in和ing对应的评测单元的发音为易混淆发音，这样可以进一步提升易混淆发音检测的效率和准确度。而对于口语评测等应用场景中，可以让应试者对预先准备好的标准文本进行朗读，因此，通常会具有所述用户语音数据对应的标准文本，可以利用该标准文本判断所述用户语音数据是否包括易混淆发音。

步骤S62，如果是，则根据所述标准文本分析所述用户语音数据中是否包含易混淆发音。

步骤S63，如果否，将所述用户语音数据输入所述第二语音评测模型，得到输出结果；根据输出结果和设定阈值判断所述用户语音数据是否包括易混淆发音。

本发明提供了一种优化的易混淆发音检测方法，当存在用户语音数据的标准文本时，利用该标准文本检测用户语音数据中是否存在易混淆发音，这样可以有效提升检测的准确度和检测效率。

相应地，本发明还提供了一种语音评测系统，如图7所示，是本发明实施例提供的语音评测系统的第一种结构示意图。

在本实施例中，该系统可以包括：

接收模块701，用于接收用户语音数据。

评测单元获取模块702，用于对用户语音数据进行评测单元切分，得到评测单元。所述评测单元为以下任意一种：音节、字和单词。

评测模块703，用于基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型，得到语音评测结果。

其中，所述第一语音评测模型为神经网络，包括：卷积神经网络和深度神经网络，其中，卷积神经网络包括：第一输入层、M个交替的卷积层和池化层；深度神经网络包括：第二输入层、N个全连接层和输出层，第一输入层的输入为评测单元的频谱图，池化层的输出为评测单元的抽象特征，第二输入层的输入为评测单元的抽象特征和评测单元向量，输出层的输出为所述评测单元的发音的评测结果，其中，M、N为≥1的整数。

相应地，所述第一语音评测模型可以通过以下方式进行训练：

收集训练语音数据，所述训练语音数据中包括评测单元的标注信息。

对所述训练语音数据进行切分，得到评测单元。

提取评测单元的频谱图。

将所述频谱图输入所述第一语音评测模型中的卷积神经网络，得到评测单元的抽象特征。

将评测单元的抽象特征和正确的评测单元向量拼接构成正例，将评测单元的抽象特征和混淆的评测单元向量拼接构成反例。

进一步地，所述评测模块703可以包括：

第一评测单元，用于对于易混淆发音，根据易混淆发音的评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型，得到语音评测结果。

在另一个实施例中，如图8所示，是本发明实施例提供的语音评测系统的第二种结构示意图。具体地，所述系统还可以包括：

易混淆发音判断模块801，用于判断所述用户语音数据是否包括易混淆发音。

第一语音评测模型构建模块802，用于构建第一语音评测模型。

第二语音评测模型构建模块803，用于构建第二语音评测模型。

所述评测模块703具体用于如果用户语音数据包括易混淆发音，则基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型，得到语音评测结果；如果用户语音数据不包括易混淆发音，则根据所述用户语音数据的语音特征和预先构建的第二语音评测模型，得到语音评测结果。

相应地，所述评测模块703还可以包括：

此外，所述评测模块703还可以包括：

本发明实施例提供的语音评测系统，通过评测模块703基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型，得到语音评测结果。可以有效提升易混淆发音的评测准确率。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音评测方法，其特征在于，包括：

接收用户语音数据；

对用户语音数据进行评测单元切分，得到评测单元，所述评测单元为以下任意一种：音节、字和单词；

2.根据权利要求1所述的方法，其特征在于，在得到评测单元之后，所述方法还包括：

判断所述用户语音数据是否包括易混淆发音；

3.根据权利要求1或2所述的方法，其特征在于，所述基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型，得到语音评测结果包括：

对于非易混淆发音，根据非易混淆发音的每帧语音的语音特征和预先构建的第二语音评测模型，得到语音评测结果；其中，第二语音评测模型用于对同一句话中非易混淆的字或词进行评测。

4.根据权利要求1或2所述的方法，其特征在于，所述第一语音评测模型为神经网络，包括：卷积神经网络和深度神经网络，其中，卷积神经网络包括：第一输入层、M个交替的卷积层和池化层；深度神经网络包括：第二输入层、N个全连接层和输出层，第一输入层的输入为评测单元的频谱图，池化层的输出为评测单元的抽象特征，第二输入层的输入为评测单元的抽象特征和评测单元向量，输出层的输出为所述评测单元的发音的评测结果，其中，M和N为≥1的整数。

5.根据权利要求4所述的方法，其特征在于，所述第一语音评测模型通过以下方式进行训练：

收集训练语音数据，所述训练语音数据中包括评测单元的标注信息，所述标注信息包括所述评测单元的边界信息；

对所述训练语音数据进行切分，得到评测单元；

提取评测单元的频谱图；

6.根据权利要求2所述的方法，其特征在于，所述判断所述用户语音数据是否包括易混淆发音包括：

7.根据权利要求2所述的方法，其特征在于，所述判断所述用户语音数据是否包括易混淆发音包括：

判断所述用户语音数据是否存在对应的标准文本；

8.一种语音评测系统，其特征在于，包括：

接收模块，用于接收用户语音数据；

评测单元获取模块，用于对用户语音数据进行评测单元切分，得到评测单元，所述评测单元为以下任意一种：音节、字和单词；

9.根据权利要求8所述的系统，其特征在于，所述系统还包括：

第一语音评测模型构建模块，用于构建第一语音评测模型；

第二语音评测模型构建模块，用于构建第二语音评测模型；

10.根据权利要求8或9所述的系统，其特征在于，所述评测模块包括：

11.根据权利要求9所述的系统，其特征在于，所述评测模块还包括：

12.根据权利要求9或11所述的系统，其特征在于，所述评测模块还包括：