CN110415725A

CN110415725A - 使用第一语言数据评估第二语言发音质量的方法及系统

Info

Publication number: CN110415725A
Application number: CN201910636633.4A
Authority: CN
Inventors: 解焱陆; 郭铭昊; 王玮; 张劲松
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2019-11-05
Anticipated expiration: 2039-07-15
Also published as: CN110415725B

Abstract

本发明提供一种使用第一语言数据评估第二语言发音质量的方法及系统，包括：划分出多个发音属性；针对每一发音属性分别建立与其对应的属性模型；获取第一语言的语音数据构建训练数据集，基于划分的发音属性将训练数据集中的语音数据映射为多个分别与各属性模型对应的发音属性特征集；针对每一属性模型分别采用对应的发音属性特征集进行训练；获取待评估的第二语言的语音数据，利用训练好的属性模型对所述第二语言的发音质量进行评估。本发明使用第一语言数据进行建模，对第二语言的发音质量进行测试评估，所提供的方法能做到所有语言通用，所建模型可用于发音偏误检测，音素识别等多种单项任务，还可以作为前端任务为后端提供准确的语音知识特征。

Description

使用第一语言数据评估第二语言发音质量的方法及系统

技术领域

本发明涉及发音质量检测技术领域，特别是指一种用第一语言数据评估第二语言发音质量的方法及系统。

背景技术

发音偏误检测作为计算机辅助发音系统的一个重要部分，提供了包括发音属性在内的多种反馈信息，以改善二语学习者的洋腔洋调现象。近年来，发音偏误检测技术在原有的HMM-GMM的语音识别框架下引入深度神经网络，即HMM-DNN框架，使得该技术的语音建模能力大大增加。

发音属性是在上述基础上，使用HMM-DNN框架对基本的语音发音属性建模，能够提供更准确、更细节的纠音反馈。由于发音属性的语音通用性，不同语言的基本音素可以通过按照发音属性分类。另外，发音属性还可以作为除传统频谱特征以外的语音知识特征，该特征在语种识别，音素识别，说话人识别等领域发挥了重要作用。

ASAT(automatic speech attribute transcription)框架将发音属性作为前端任务，其他任务作为后端任务，框架结合了频谱特征和语音知识特征，可以针对性地提升后端任务的准确率。在语种识别，音素识别等领域，该框架均能体现良好的效果。但是，对于发音偏误检测任务来说，传统地定义发音属性只是将该语音的音素进行粗略的划分，并没有针对各个语言的实际情况更加细致地划分，这就导致即使按照传统发音属性定义来说，学习者发音正确，但是由于该学习者将母语的一些发音习惯带入二语发音中，传统定义的发音属性并没有区分这种发音的能力，产生洋腔洋调现象，却没有给予纠音反馈。

为了避免上述情况的发生，现有技术一般会使用二语者的母语语料做模型的改进，从而得到拥有更好鲁棒性的模型。然而，二语学者的母语语言多种多样，获取众多语言的语料本身就是一项难以完成的任务。

发明内容

本发明要解决的技术问题是提供一种使用第一语言数据评估第二语言发音质量的方法及系统，实现使用单一语言数据为训练集的多语种通用发音属性建模方案，解决国际通用的发音属性分类不能准确体现特定语言的部分发音，导致现有评估检测方法在二语学者出现洋腔洋调现象时不能准确给予反馈。且由于数据量庞大，难以获取小众语言的语料，因此无法对所有二语学习者的母语背景建模，导致现有技术无法提供一种有效的发音偏误检测方案的问题。

为解决上述技术问题，本发明提供一种使用第一语言数据评估第二语言发音质量的方法，该方法包括：

根据预设发音属性分类方式划分出多个发音属性；

针对每一发音属性分别建立与其对应的属性模型；

获取第一语言的语音数据构建训练数据集，基于划分的发音属性将所述训练数据集中的语音数据映射为多个分别与各属性模型对应的发音属性特征集；

针对每一属性模型分别采用对应的发音属性特征集进行训练；

获取待评估的第二语言的语音数据，利用训练好的属性模型对所述第二语言的发音质量进行评估。

进一步地，划分的发音属性包括：清浊音、是否送气、发音方式、发音位置、舌位高低、舌位前后、唇形圆展。

进一步地，所述基于划分的发音属性将所述训练数据集中的语音数据映射为多个分别与各属性模型对应的发音属性特征集后，所述方法还包括：

分别统计各属性模型对应的发音属性特征集内的数据分配情况；

当多个发音属性特征集间的数据不平衡性超出预设标准时，将其中数据超出预设限度的发音属性特征集分成等份的数个子集，将分出的子集作为该发音属性特征集对应的属性模型的训练特征集。

进一步地，利用训练好的属性模型对第二语言的发音质量进行评估，包括：

根据解码网格搜索最优路径，基于训练好的各属性模型分别得到第二语言的发音属性帧层级后验概率；

将各属性模型输出的发音属性帧层级后验概率进行强制对齐后，独立进行次音段级别的偏误检测，实现对第二语言的发音质量进行评估。

对所述训练数据集中的每一语音数据分别进行预分帧加窗处理，得到具有平稳性的频谱特征；

将所述训练数据集中的每一语音数据的发音属性与其对应的频谱特征进行拼接，得到每一语音数据的组合特征，构建组合特征数据集；

基于所述组合特征数据集进行建模，得到基于音素的模型；

相应地，所述利用训练好的属性模型对第二语言的发音质量进行评估后，所述方法还包括：

获取第二语言的语音数据的频谱特征；

将各属性模型输出的发音属性帧层级后验概率与第二语言的频谱特征整合进行音段级别的偏误检测，实现对第二语言的发音质量进行评估。

相应地，为解决上述技术问题，本发明还提供一种使用第一语言数据评估第二语言发音质量的系统，该系统包括：

属性分类模块，用于根据预设发音属性分类方式划分出多个发音属性；

建模模块，用于针对每一发音属性分别建立与其对应的属性模型；获取第一语言的语音数据构建训练数据集，基于划分的发音属性将训练数据集中的语音数据映射为多个分别与各属性模型对应的发音属性特征集；并针对每一属性模型分别采用对应的发音属性特征集进行训练；

提取结果模块，用于获取待评估的第二语言的语音数据，利用训练好的属性模型对所述第二语言的发音质量进行评估。

进一步地，所述属性分类模块划分的发音属性包括：清浊音、是否送气、发音方式、发音位置、舌位高低、舌位前后、唇形圆展。

进一步地，所述建模模块还用于：

进一步地，所述提取结果模块具体用于：

进一步地，所述建模模块还用于：

基于所述组合特征数据集进行建模，得到基于音素的模型；

相应地，所述系统还包括提取特征模块，所述提取特征模块用于：

获取第二语言的语音数据的频谱特征；

本发明的上述技术方案的有益效果如下：

本发明兼顾国际音标的同时还体现了汉语的特点，所提供的方法兼顾国际音标当中汉语的所有音素，因此在任何语言中的同类音素都能使用。并且本发明的方法适用于所有的规范化的语言；即，只要是在国际音标中记录在册的音素，本发明的方法能做到所有语言通用。

在建模技术层面，采用当前先进的深度神经网络和说话人自适应技术，母语测试准确率平均95％。根据框架构成，模型可用于发音偏误检测，音素识别等多种单项任务，还可以作为前端任务提供准确的汉语语音知识特征，从而提供语种识别，说话人识别等多项任务的检测性能。

附图说明

图1为本发明提供的使用第一语言数据评估第二语言发音质量的方法的流程示意图；

图2为本发明提供的使用第一语言数据评估第二语言发音质量的系统的框架模块图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的国际通用的发音属性分类不能准确体现特定语言的部分发音，导致现有评估方法在二语学者出现洋腔洋调现象时不能准确给予反馈。且由于数据量庞大，难以获取小众语言的语料，因此无法对所有二语学习者的母语建模，导致现有技术无法提供一种有效的发音偏误检测方案的问题，提供一种使用第一语言数据评估第二语言发音质量的方法及系统，使用第一语言数据进行建模，对第二语言的发音质量进行测试评估。

为解决上述问题，本发明从基本发音属性分类出发，设计七个独立的发音属性，部分属性类别区别于传统国际音标定义的发音属性划分，使得模型能够兼顾国际音标的同时，还能准确地体现第一语言的特点。测试时可使用第二语言的数据来评估，七个属性分类帧层级属性后验概率在进行强制对齐后独立进行次音段级别的偏误检测，同时与频谱特征整合进行音段级别的偏误检测。

如图1所示，本发明的方法首先将指定语言的语音转化为频谱特征(如，MFCC、Fbank等)，根据文本标签找到于国际音标对应的音素并转化为七种发音属性标识符；在建模层面，框架对比了上下文相关(CD)与上下文无关(CI)的属性建模HMM的方法，同时采用i-vector特征做说话人自适应、chainmodel完成解码速率的提升、PBM方法解决数据不平衡问题，这些手段可有效提升模型识别准确率；在结果处理时，七个属性分类帧层级属性后验概率在进行强制对齐后独立进行次音段级别的偏误检测，同时与音素频谱特征整合进行音段级别的偏误检测。下面以具体实施例对本发明的技术方案做具体说明：

第一实施例

本实施例提供一种使用第一语言数据评估第二语言发音质量的方法，该使用第一语言数据评估第二语言发音质量的方法包括：

S101，根据预设发音属性分类方式划分出多个发音属性；

需要说明的是，上述步骤中划分出的发音属性包括：清浊音、是否送气、发音方式、发音位置、舌位高低、舌位前后、唇形圆展。

S102，针对每一发音属性分别建立与其对应的属性模型；

S103，获取第一语言的语音数据构建训练数据集，基于发音属性将训练数据集中的语音数据映射为多个分别与各属性模型对应的发音属性特征集；

需要说明的是，上述步骤还包括：分别统计各属性模型对应的发音属性特征集内的数据分配情况；当其中某个发音属性特征集的数据明显多于其他数据集时，将此类数据集分成等份的数个子集，将分出的子集作为训练特征集。

S104，针对每一属性模型分别采用对应的发音属性特征集进行训练；

S105，获取待评估的第二语言的语音数据，利用训练好的属性模型对第二语言的发音质量进行评估；

需要说明的是，上述利用训练好的属性模型对所述第二语言的发音质量进行评估，包括：

此外，基于划分的发音属性将所述训练数据集中的语音数据映射为多个分别与各属性模型对应的发音属性特征集后，所述方法还包括：

对训练数据集中的每一语音数据分别进行预分帧加窗处理，得到具有平稳性的频谱特征；

将训练数据集中的每一语音数据的发音属性与其对应的频谱特征进行拼接，得到每一语音数据的组合特征，构建组合特征数据集；

基于组合特征数据集进行建模，得到基于音素的模型；

相应地，利用训练好的属性模型对第二语言的发音质量进行评估后，所述方法还包括：

获取第二语言的语音数据的频谱特征；

第二实施例

本实施例提供一种使用第一语言数据评估第二语言发音质量的方法，该使用第一语言数据评估第二语言发音质量的方法包括以下过程：

一、所用的发音属性分类：

1)总计七种发音属性类别；

2)只针对汉语普通话声母的属性类别：送气音(AS)、发音方式(MA)；

3)只针对汉语普通话韵母的属性类别：舌位前后(TF)、舌位高低(TH)、唇形圆展(RO)；

4)包含汉语普通话声韵母的属性类别：清浊音(VO)、发音位置(PA)；

二、发音属性的通用映射方法：

1)对于只针对汉语普通话声母的属性类别，其韵母的属性标签定义为无效标签“FINALS”；

2)对于只针对汉语普通话韵母的属性类别，其声母的属性标签定义为无效标签“INITIALS”；

3)根据国际音标定义的音素集，映射到汉语声母，提取该音素的各类发音属性作为单音素标签；

4)根据国际音标定义的音素集，映射到汉语单元音韵母，提取该音素的各类发音属性作为单音素标签；

5)对于汉语复合元音韵母，将其映射为一组国际音标音素集的组合，然后提取这组音素的发音属性，形成对应复合元音的复合发音属性标签；

三、发音属性的汉语特色映射方法：

1)“送气音”属性，根据汉语语音学定义映射标签；

2)元音“舌位前后”其本质是一种连续性特征，国际音标的定义将其离散化为三个维度：前、中、后，但是这三种维度并不能完全适应汉语韵母的变化，因此根据汉语语音学定义，将汉语韵母的“舌位前后”发音属性离散化为五个维度；

3)为了增加通用属性的鲁棒性，现有五维度“舌位前后”的汉语韵母定义方法完全对应“发音位置”属性类别上，一方面这样做方便融合其他语言数据，另一方面通过对比五维度定义体现两者的差别；

四、基于发音属性的建模：

1)为防止属性间的相互依赖，将七种发音属性分别建模，总计七个模型；

2)七个独立的发音属性分类分别为：清浊音(VO)、是否送气(AS)、发音方式(MA)、发音位置(PA)、舌位高低(TH)、舌位前后(TF)、唇形圆展(RO)；

3)得到大规模汉语普通话语音的训练数据库；

4)对训练数据库中的每个语音文件中的数字语音进行预分帧加窗处理，得到具有平稳性的频谱特征；

5)将训练数据的音素标签中按照上述映射转化为发音属性标签，七个模型分别对应七种不同的映射；

五、基于音素背景的建模方法(PBM)：

1)由于发音属性标签分类较音素分类较少，模型训练容易出现数据分配不平衡的情况(一类数据过多，一类数据过少)，这时引入该方法；

2)首先分别统计七个发音属性模型中的数据分配情况；

3)如果出现某一类属性训练数据明显多于其余分类，则将这类标签分成等份的数个子分类；

4)其中，“无效标签”可以无视数据分配情况；

六、标准发音模型训练：

1)利用步骤四所提取的语音特征训练基于发音属性的HMM模型；

2)根据所需要的上下文信息训练monophone等特定模型；

3)对标准发音属性模型进行汉语口音自适应；

七、标准TDNN建模：

1)调用步骤六的模型作为初始化TDNN模型节点；

2)使用高分辨率频谱特征训练区分说话人信息的UBM模型；

3)提取所有数据的i-vector说话人信息特征；

4)用chain model拓扑结构构建树，帧子采样指数为3，加快解码速度；

5)拼接MFCC特征和i-vector特征，总计143维输入特征；

6)七种发音属性的TDNN建模，根据所用数据及分类的不同，TDNN建模的上下文信息可做些许调整；

八、强制对齐建模(根据需要)：

1)如果语料库中包含对齐信息，则将该信息映射到以帧为单位；

2)如果上述模型在第一语言母语者的数据上测试，则可直接使用训练模型的强制对齐结果；

3)如果上述模型在二语学者的母语或二语数据上测试，则需要另外训练模型得到该数据的强制对齐结果；

九、帧层级发音属性特征：

1)根据解码网格搜索最优路径，得到发音属性帧层级后验概率；

2)根据强制对齐信息，可将帧层级后验概率映射到音素级别，从而得到提取的帧层级发音属性特征的准确率；

十、发音属性特征的利用方式：

1)同母语者发音属性标准答案对比后，可直接对二语学习者的发音质量进行次音段集的发音偏误检测；

2)可与频谱特征拼接用于建模基于音素的模型，然后将基于音素的模型用于音段集的发音偏误检测；

3)可作为独立特征参与多项语音任务，如语种识别，低资源语音识别等；

本实施例的发音属性特征提取性能获得了较好的性能，同时诊断准确率也较同数据训练的基于音段的发音偏误检测有所提升，其具有如下特点：

1)发音属性定义结合IPA和汉语语音学，具备同时建模多项语言的能力；

2)能够体现汉语与其他语言发音时的发音属性差异；

3)帧层级发音属性特征结果有多种用途，延展性好；

4)母语测试集上性能准确性高，稳健性好。

第三实施例

为解决上述技术问题，本实施例提供一种使用第一语言数据评估第二语言发音质量的系统，该系统如图2所示，包括：

建模模块，针对每一发音属性分别建立与其对应的属性模型；用于获取第一语言的语音数据构建训练数据集，基于划分的发音属性将训练数据集中的语音数据映射为多个分别与各属性模型对应的发音属性特征集；并针对每一属性模型分别采用对应的发音属性特征集进行训练；

提取结果模块，用于获取待评估的第二语言的语音数据，利用训练好的属性模型对第二语言的发音质量进行评估；

提取特征模块，用于获取第二语言的语音数据的频谱特征；将各属性模型输出的发音属性帧层级后验概率与第二语言的频谱特征整合进行音段级别的偏误检测，实现对第二语言的发音质量进行评估。

进一步地，上述属性分类模块结合传统国际音标与汉语本身特色的对发音属性进行分类，其所划分的发音属性包括：清浊音、是否送气、发音方式、发音位置、舌位高低、舌位前后、唇形圆展。建模模块：对上下文相关与上下文无关的建模方法对比，TDNN、chainmodel、i-vector、PBM方法提升模型效果；提取结果模块：通过模型解码获取帧层级后验概率，在强制对齐之后可进行跨语言属性检测和次音段偏误检测，或者也可以通过解码网格进行母语属性识别。提取特征模块：通过模型解码获取帧层级后验概率作为发音属性特征，之后整合任何音素频谱特征和此属性特征成一个组合特征来进行其他语言相关任务，比如音段级偏误检测，语种识别等。

此外，需要说明的是，本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种使用第一语言数据评估第二语言发音质量的方法，其特征在于，所述使用第一语言数据评估第二语言发音质量的方法，包括：

根据预设发音属性分类方式划分出多个发音属性；

针对每一发音属性分别建立与其对应的属性模型；

2.如权利要求1所述的使用第一语言数据评估第二语言发音质量的方法，其特征在于，划分的发音属性包括：清浊音、是否送气、发音方式、发音位置、舌位高低、舌位前后、唇形圆展。

3.如权利要求1所述的使用第一语言数据评估第二语言发音质量的方法，其特征在于，所述基于划分的发音属性将所述训练数据集中的语音数据映射为多个分别与各属性模型对应的发音属性特征集后，所述方法还包括：

4.如权利要求1所述的使用第一语言数据评估第二语言发音质量的方法，其特征在于，利用训练好的属性模型对第二语言的发音质量进行评估，包括：

5.如权利要求4所述的使用第一语言数据评估第二语言发音质量的方法，其特征在于，所述基于划分的发音属性将所述训练数据集中的语音数据映射为多个分别与各属性模型对应的发音属性特征集后，所述方法还包括：

基于所述组合特征数据集进行建模，得到基于音素的模型；

获取第二语言的语音数据的频谱特征；

6.一种使用第一语言数据评估第二语言发音质量的系统，其特征在于，所述使用第一语言数据评估第二语言发音质量的系统，包括：

7.如权利要求6所述的使用第一语言数据评估第二语言发音质量的系统，其特征在于，所述属性分类模块划分的发音属性包括：清浊音、是否送气、发音方式、发音位置、舌位高低、舌位前后、唇形圆展。

8.如权利要求6所述的使用第一语言数据评估第二语言发音质量的系统，其特征在于，所述建模模块还用于：

9.如权利要求6所述的使用第一语言数据评估第二语言发音质量的系统，其特征在于，所述提取结果模块具体用于：

10.如权利要求9所述的使用第一语言数据评估第二语言发音质量的系统，其特征在于，所述建模模块还用于：

基于所述组合特征数据集进行建模，得到基于音素的模型；

获取第二语言的语音数据的频谱特征；