CN114420154A

CN114420154A - 正确发音的辅助训练方法、系统、终端设备及介质

Info

Publication number: CN114420154A
Application number: CN202111498807.9A
Authority: CN
Inventors: 吴锡欣; 吴明林; 孙立发; 李坤; 胡景强; 钟静华; 吴志勇; 刘循英; 蒙美玲
Original assignee: Foshan Shengxi Technology Co ltd; Bozhi Perceptual Interaction Research Center Co ltd
Current assignee: Foshan Shengxi Technology Co ltd; Bozhi Perceptual Interaction Research Center Co ltd
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-04-29

Abstract

本发明公开了一种正确发音的辅助训练方法、系统、终端设备以及计算机可读存储介质，该正确发音的辅助训练方法的步骤包括：获取语音输入信号，对所述语音输入信号进行数据预处理得到音素序列，并判断所述音素序列与预设的规范音素序列是否相同；若否，则将所述音素序列合成为发音错误音频，和将所述规范音素序列合成为发音正确音频；将所述发音错误音频转换为第一表达向量序列，和将所述发音正确音频转换为第二表达向量序列；基于所述第一表达向量序列和所述第二表达向量序列控制预设的虚拟人脸进行辅助发音训练。本发明能够提升辅助用户进行正确发音的效率。

Description

正确发音的辅助训练方法、系统、终端设备及介质

技术领域

本发明涉及音频数据处理领域，尤其是涉及一种正确发音的辅助训练方法、系统、终端设备以及计算机可读存储介质。

背景技术

如何快速高效地掌握单词的正确发音是学习一门语言的关键，用户需要不断修正自己的错误发音，才能掌握单词的正确标准发音。

传统的外语发音培训一般采用由人类教师提供反馈以纠正错误发音的方式，但是该方式需要大量的人力资源，并且效率低下。因此当前研究致力于通过自动检测和诊断发音错误的方式实现辅助用户掌握单词正确发音。然而，在现有技术中即使获得到了错误发音检测诊断的结果，却无法基于该错误发音检测诊断的结果进一步指导用户进行正确发音，从而用户无法及时修正错误发音，导致辅助用户进行正确发音的效率低下。

发明内容

本发明的主要目的在于提供一种正确发音的辅助训练方法、系统、终端设备以及计算机可读存储介质，旨在提升辅助用户进行正确发音的效率。

为实现上述目的，本发明提供一种正确发音的辅助训练方法，所述正确发音的辅助包括：

获取语音输入信号，对所述语音输入信号进行数据预处理得到音素序列，并判断所述音素序列与预设的规范音素序列是否相同；

若否，则将所述音素序列合成为发音错误音频，和将所述规范音素序列合成为发音正确音频；

将所述发音错误音频转换为第一表达向量序列，和将所述发音正确音频转换为第二表达向量序列；

基于所述第一表达向量序列和所述第二表达向量序列控制预设的虚拟人脸进行辅助发音训练。

可选地，所述对所述语音输入信号进行数据预处理得到音素序列，并判断所述音素序列与预设的规范音素序列是否相同的步骤，包括：

根据预训练算法从所述语音输入信号进行数据预处理以提取得到音素序列；

将所述音素序列和预设的规范音素序列进行对比以判断所述音素序列和所述规范音素序列是否相同。

可选地，所述将所述音素序列合成为发音错误音频，和将所述规范音素序列合成为发音正确音频的步骤，包括：

将所述音素序列转化为第一梅尔谱图序列，并基于所述第一梅尔谱图序列得到发音错误音频；

将所述规范音素序列转化为第二梅尔谱图序列，并基于所述第二梅尔谱图序列得到发音正确音频。

可选地，所述将所述发音错误音频转换为第一表达向量序列，和将所述发音正确音频转换为第二表达向量序列的步骤，包括：

将所述发音错误音频转换为第一语音后验概率序列，并基于所述第一语音后验概率序列得到第一表达向量序列；

将所述发音正确音频转换为第二语音后验概率序列，并基于所述第二语音后验概率序列得到第二表达向量序列。

可选地，所述方法还包括：

若所述音素序列与预设的规范音素序列不相同，将所述音素序列对应的音标和所述规范音素序列对应的音标输出至预设的辅助发音训练界面。

可选地，所述虚拟人脸包括第一虚拟人脸和第二虚拟人脸，所述基于所述第一表达向量序列和所述第二表达向量序列控制预设的虚拟人脸进行辅助发音训练的步骤，包括：

基于所述第一表达向量序列控制所述第一虚拟人脸合成错误发音口型进行辅助发音训练；

基于所述第二表达向量序列控制所述第二虚拟人脸合成错误发音口型进行辅助发音训练，其中，所述第一虚拟人脸和第二虚拟人脸都处于预设的辅助发音训练界面中。

可选地，所述正确发音的辅助训练方法，还包括：

获取所述语音输入信号的音素后验概率，并基于所述音素后验概率确定音素级发音得分和单词级发音得分。

为实现上述目的，本发明还提供一种正确发音的辅助训练系统，所述正确发音的辅助训练系统，包括：

数据预处理模块，用于获取语音输入信号，对所述语音输入信号进行数据预处理得到音素序列，并判断所述音素序列与预设的规范音素序列是否相同；

合成模块，用于若否，则将所述音素序列合成为发音错误音频，和将所述规范音素序列合成为发音正确音频；

转换模块，用于将所述发音错误音频转换为第一表达向量序列，和将所述发音正确音频转换为第二表达向量序列；

控制模块，用于基于所述第一表达向量序列和所述第二表达向量序列控制预设的虚拟人脸进行辅助发音训练。

其中，本发明正确发音的辅助系统的各个功能模块各自在运行时均实现如上所述的正确发音的辅助训练方法的步骤。

为实现上述目的，本发明还提供一种终端设备，所述终端设备包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的正确发音的辅助训练程序，所述正确发音的辅助训练程序被所述处理器执行时实现如上所述的正确发音的辅助训练方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有正确发音的辅助训练程序，所述正确发音的辅助训练程序被处理器执行时实现如上所述的正确发音的辅助训练方法的步骤。

此外，为实现上述目的，本发明还提供计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如上所述的正确发音的辅助训练方法的步骤。

本发明提供一种正确发音的辅助训练方法、系统、终端设备、计算机可读存储介质以及计算机程序产品，通过获取语音输入信号，对所述语音输入信号进行数据预处理得到音素序列，并判断所述音素序列与预设的规范音素序列是否相同；若否，则将所述音素序列合成为发音错误音频，和将所述规范音素序列合成为发音正确音频；将所述发音错误音频转换为第一表达向量序列，和将所述发音正确音频转换为第二表达向量序列；基于所述第一表达向量序列和所述第二表达向量序列控制预设的虚拟人脸进行辅助发音训练。

本发明中，终端设备获取由用户输入的语音输入信号，并对该语音输入信号进行数据预处理操作，并得到该语音输入信号所对应的音素序列，进而将该音素序列与预设的规范音素序列是否一致。终端设备在判断到音素序列与预设的规范音素序列不相同之后，需要将语音输入信号的音素序列所对应的音标和规范音素序列的音素序列所对应的音标输出至同一个预设的辅助发音界面，并将该音素序列合成为发音错误音频，将该规范音素序列合成为发音正确音频，进而将发音错误音频转化为第一表达向量序列，并将发音正确音频转化为第二表达向量序列，以基于该第一表达向量序列和该第二表达向量序列控制进一步预设的虚拟人脸辅助用户准确发音。本发明能够提升辅助用户正确发音的效率。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明正确发音的辅助训练方法一实施例的流程示意图；

图3为本发明正确发音的辅助训练方法一实施例涉及到的辅助发音界面示意图；

图4为本发明正确发音的辅助训练方法一实施例涉及到的辅助用户正确发音流程示意图；

图5为本发明正确发音的辅助训练方法一实施例涉及到的实验结果示意图；

图6为本发明正确发音的辅助训练系统一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

需要说明的是，本发明实施例终端设备可以是用于辅助用户进行正确发音的设备，该终端设备具体可以是智能手机、个人计算机和服务器等。

如图1所示，该设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及正确发音的辅助训练程序。操作系统是管理和控制设备硬件和软件资源的程序，支持正确发音的辅助训练程序以及其它软件或程序的运行。在图1所示的设备中，用户接口1003主要用于与客户端进行数据通信；网络接口1004主要用于与服务器建立通信连接；而处理器1001可以用于调用存储器1005中存储的正确发音的辅助训练程序，并执行以下操作：

进一步地，处理器1001还可以用于调用存储器1005中存储的正确发音的辅助训练程序，还执行以下操作：

进一步地，处理器1001还可以用于调用存储器1005中存储的正确发音的辅助训练程序，执行以下操作：

进一步地，所述虚拟人脸包括第一虚拟人脸和第二虚拟人脸，处理器1001还可以用于调用存储器1005中存储的正确发音的辅助训练程序，还执行以下操作：

基于所述第二表达向量序列控制所述第二虚拟人脸合成错误发音口型进行辅助发音训练，其中，所述第一虚拟人脸和第二虚拟人脸都处于预设的辅助发音界面中。

参照图2，图2为本发明正确发音的辅助训练方法第一实施例的流程示意图。

在本实施例中，提供了正确发音的辅助训练方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以不同于此处的顺序执行所示出或描述的步骤。

步骤S10，获取语音输入信号，对所述语音输入信号进行数据预处理得到音素序列，并判断所述音素序列与预设的规范音素序列是否相同；

终端设备获取由用户输入的语音输入信号，并对该语音输入信号进行数据预处理操作，得到该语音输入信号所对应的音素序列，进而对比判断该音素序列与预设的规范音素序列是否一致。

需要说明的是，在本实施例中，终端设备在获取到语音输入信号的音素序列后，将进一步获取该音素序列所对应的规范因素序列，其中，该规范音素序列，以判断语音输入信号的音素序列是否与规范音素序列是否完全一致，

具体地，例如，若用户想要通过终端设备练习单词“staff”，但是由于用户的发音不准确问题导致输入的语音信号实际为“stuff”，终端设备在接收到用户发送的“stuff”语音信号后，首先获取到该“stuff”语音信号所对应的音素序列，然后进一步确定“staff”所对应的预设规范音素序列和用户真实发音的音素序列是否相同。

进一步地，上述步骤S10中，“对所述语音输入信号进行数据预处理得到音素序列，并判断所述音素序列与预设的规范音素序列是否相同”，可以包括：

步骤S101，根据预训练算法从所述语音输入信号进行数据预处理以提取得到音素序列；

需要说明的是，在本实施例中，终端设备对语音输入信号进行数据预处理的过程，可以包括：通过预训练算法对语音输入信号进行特征提取得到声学特征；根据该声学特征转化将语音输入信号转化为对应的音素序列。

具体地，例如，终端设备在通过错误发音检测诊断系统(MDD)对用户输入的语音信号进行数据预处理时，可以通过Wav2vec(预训练算法)对语音输入信号进行特征提取得到声学特征，进而通过预设的声学模型将该声学特征转化为音素信号，其中，该声学模型可以包括LSTM(Long short-termmemory，长短期记忆)+CTC(Connectionist TemporalClassification，时序分类)神经网络模型等。在本实施例中不对数据预处理的方式做具体限定，除了上述方式外，还可以包括其它有效方式。

需要说明的是，在本实施例中，终端设备基于MDD对用户输入的语音信号进行数据预处理之前，需要预先训练MDD，如，采用CU-CHLOE语料库和内部语料库SpeechX-CHLOE作为训练数据对MDD进行训练。

步骤S102，将所述音素序列和预设的规范音素序列进行对比以判断所述音素序列和所述规范音素序列是否相同。

需要说明的是，在本实施例中，终端设备在将音素序列和预设的规范音素序列进行对比之前，需要预先获取该规范音素序列。

具体地，例如，终端设备在获取到语音输入信号的音素序列后，将该语音输入信号的音素序列和字典中提取的规范转录一起馈送至Transformer(基于Encoder-Decoder结构的深度学习模型)，并通过该Transformer预测该语音输入信号的音素序列所对应的实际音素序列，即规范音素序列。其中，字典中提取的规范转录可以包括音标或者音素等参数。

终端设备在获取到语音输入信号的音素序列和对应的规范音素序列后，需要将该音素序列与该规范音素序列进行对比判断，确定该音素序列与该规范音素序列是否完全一致。

进一步地，本发明正确发音的辅助训练方法，还包括：

步骤S50，若所述音素序列与预设的规范音素序列不相同，将所述音素序列对应的音标和所述规范音素序列对应的音标输出至预设的辅助发音训练界面。

终端设备在判断到音素序列与预设的规范音素序列不相同之后，需要将语音输入信号的音素序列所对应的音标和规范音素序列所对应的音标输出至同一个预设的辅助发音界面。

具体地，例如，如图3所示的辅助发音界面示意图，终端设备在检测到用户将“sit[si:t]”读作[sIt]后，进一步将规范音素序列所对应的音标“[si:t]”和语音输入信号的音素序列所对应的音标“[sIt]”分别转化为文本形式，并将两个文本文件分别显示在预设的辅助发音界面，以供用户参考和纠正发音。

进一步地，本发明正确发音的辅助训练方法，还包括：

步骤S20，若否，则将所述音素序列合成为发音错误音频，和将所述规范音素序列合成为发音正确音频；

终端设备在判断到语音输入信号的音素序列和对应的规范音素序列不一致时，需要将该音素序列合成为发音错误音频，将该规范音素序列合成为发音正确音频。

具体地，例如，终端设备在判断到语音输入信号的音素序列和对应的规范音素序列不一致时，即可认为语音输入信号的音素序列为错误音素序列。比如，若用户将“prosody”中的/ax/误读成/ao/，那么终端设备将会检测到错误音素序列：/p r ao1 s ao0d ip0/，而“prosody”所对应的规范音素序列为/p rao1 s ax0 d ip0/，此时终端设备判断到规范音素序列/p r ao1 s ax0 d ip0/与错误音素序列/p r ao1 s ao0 d ip0/存在不一致。另外，不论是规范音素序列还是错误音素序列，终端设备可对重音的位置进行标注，其中，“1”表示该音节处带有重音，“0”表示该音节处不带有重音，即，终端设备在检测用户的发音是否正确时，还能够检测用户的重音发音是否准确，提高了辅助发音的准确性。在本实施例中不对合成重音的方式做具体限定，除了采用在元音后面标注“1”或者“0”的方式，还可以采用其它方式进行重音合成。

进一步地，在上述步骤S20中，“将所述音素序列合成为发音错误音频，和将所述规范音素序列合成为发音正确音频”，可以包括：

步骤201，将所述音素序列转化为第一梅尔谱图序列，并基于所述第一梅尔谱图序列得到发音错误音频；

步骤202，将所述规范音素序列转化为第二梅尔谱图序列，并基于所述第二梅尔谱图序列得到发音正确音频。

需要说明的是，在本实施例中，终端设备在判断到规范音素序列：/p r ao1 s ax0d ip0/和错误音素序列/p r ao1 s ao0 d ip0/存在不一致后，将进一步发送/pr ao1 sax0 d ip0/和/p r ao1 s ao0 d ip0/至文本到语音合成系统(TTS)。或者，终端设备基于预设的语言模型通过解码技术将规范音素序列和错误音素序列分别转化为对应的文本文件，进而将规范音素序列对应的文本文件和错误音素序列对应的文本文件发送至TTS。

具体地，例如，基于TTS终端设备首先通过Tacotron2模型将错误音素序列转换为第一梅尔谱图序列，和将规范音素序列转换为第二梅尔谱图序列，进一步通过WaveGlow声码器将该第一梅尔谱图序列转换为发音错误音频，和将该第二梅尔谱图序列转换为发音正确音频。

需要说明的是，在本实施例中，终端设备使用基于开源存储库的大约25小时的高质量语料库对TTS和WaveGlow声码器进行了训练。

进一步地，本发明正确发音的辅助训练方法，还包括：

步骤S30，将所述发音错误音频转换为第一表达向量序列，和将所述发音正确音频转换为第二表达向量序列；

需要说明的是，在本实施例中，终端设备基于语音到视频生成系统(STV)对发音错误音频和发音正确音频进行转换处理。

终端设备基于STV，在获取到发音错误音频和发音正确音频之后，需要将发音错误音频转化为第一表达向量序列，并将发音正确音频转化为第二表达向量序列，以基于该第一表达向量序列和该第二表达向量序列控制进一步预设的虚拟人脸辅助用户准确发音。

步骤S40，基于所述第一表达向量序列和所述第二表达向量序列控制预设的虚拟人脸进行辅助发音。

终端设备在获取到第一表达向量序列和第二表达向量序列后，将基于该第一表达向量序列和该第二表达向量序列控制虚拟人脸的面部表情，以使得虚拟人脸的面部表情与发音错误音频和发音正确音频同步。

具体地，例如，如图4所示的辅助用户正确发音的流程示意图，终端设备在接收到用户的语音输入信号后，在判断到该语音输入信号的音素序列和规范音素序列不一致时，将该语音输入信号的音素序列，即错误音素序列和规范音素序列一起发送至TTS系统，并基于该TTS系统将错误音素序列和规范音素序列转化为发音错误音频和发音正确音频，进而将该发音错误音频和该发音正确音频传输至STV系统，并基于该STV系统将该发音错误音频和该发音正确音频分别转换为第一表达向量序列和第一表达向量序列，最终通过该第一表达向量序列和该第一表达向量序列控制虚拟人脸的面部表情，使得虚拟人脸的面部表情能够配合发音错误音频和发音正确音频。

需要说明的是，在本实施例中，用户能够在进行发音训练时，不仅可以听到自己的错误发音，还可以听到由终端设备合成的正确发音，其中该正确发音的音频特征与用户本人的声音特征一致。另外采用虚拟人脸的方式增加了辅助发音的趣味性，能够提高正确发音的辅助效率，尤其是针对低龄用户。

在本实施例中，终端设备获取由用户输入的语音输入信号，并对该语音输入信号进行数据预处理操作，并得到该语音输入信号所对应的音素序列，进而将该音素序列与预设的规范音素序列是否一致。终端设备在判断到音素序列与预设的规范音素序列不相同之后，需要将语音输入信号的音素序列所对应的音标和规范音素序列的音素序列所对应的音标输出至同一个预设的辅助发音界面，并将该音素序列合成为发音错误音频，将该规范音素序列合成为发音正确音频。终端设备基于STV，将发音错误音频转化为第一表达向量序列，并将发音正确音频转化为第二表达向量序列，以基于该第一表达向量序列和该第二表达向量序列控制进一步预设的虚拟人脸辅助用户准确发音，进而基于该第一表达向量序列和该第二表达向量序列控制虚拟人脸的面部表情，以使得虚拟人脸的面部表情与发音错误音频和发音正确音频同步。

本发明基于MDD、TTS和STV将语音输入信号的音素序列和对应的规范音素序列最终转化为能够控制虚拟人脸的第一表达向量序列和该第二表达向量序列，提升了辅助用户正确发音的效率。

进一步地，基于上述本发明正确发音的辅助的第一实施例，提出本发明正确发音的辅助的第二实施例。

本实施例与上述第一实施例之间的主要区别在于，上述步骤S30中，“将所述发音错误音频转换为第一表达向量序列，和将所述发音正确音频转换为第二表达向量序列”，可以包括：

步骤S301，通过预设的语音到视频合成系统将所述发音错误音频转换为第一语音后验概率序列并基于所述第一语音后验概率序列得到第一表达向量序列；

终端设备基于STV，将发音错误音频转换为第一PPG(Phonetic Posteriorgrams，语音后验概率)序列，进而通过LSTM(Long Short-Term Memory，长短期记忆)网络将第一PPG序列转换为第一表达向量序列，以通过该第一表达向量序列控制虚拟人脸的面部表情。

需要说明的是，在本实施例中，终端设备在基于STV对音频进行处理之前，需要将通过摄像机记录到的若干人讲话视频进行剪辑和处理，得到成对的训练视频序列，进而基于该训练视频序列对STV进行训练，在本实施例中，终端设备对共计大约10个小时的若干人讲话视频进行了剪辑和处理。进而基于LSTM网络和3DMM(3D Morphable Models，三维可变形人脸模型)构建虚拟人脸图像，其中，虚拟人脸图像的面部表情可由表达向量进行控制。

步骤S302，将所述发音正确音频转换为第二语音后验概率序列，并基于所述第二语音后验概率序列得到第二表达向量序列。

终端设备基于STV，将发音错误音频转换为第二PPG序列，进而通过LSTM网络将第二PPG序列转换为第二表达向量序列，以通过该第二表达向量序列控制虚拟人脸的面部表情。

进一步地，上述步骤S40中，“基于所述第一表达向量序列和所述第二表达向量序列控制预设的虚拟人脸”，可以包括：

步骤S401，基于所述第一表达向量序列控制所述第一虚拟人脸合成错误发音口型进行辅助发音训练；

步骤S402，基于所述第二表达向量序列控制所述第二虚拟人脸合成错误发音口型进行辅助发音训练，其中，所述第一虚拟人脸和第二虚拟人脸都处于预设的辅助发音训练界面中。

终端设备在获取到第一表达向量序列和第二表达向量序列后，将通过第一表达向量序列控制第一虚拟人脸的面部表情，通过第二表达向量序列控制第二虚拟人脸的面部表情，以得到可说话虚拟人脸的视频，其中虚拟人脸的面部表情与语音输入信号对齐，即第一虚拟人脸的面部表情与发音错误音频对齐，而第二虚拟人脸的面部表情与发音正确音频对齐，使得用户能够对发音进行直接对比纠正。

具体地，例如，如图3所示的辅助发音训练界面示意图，在辅助发音训练界面中，左侧虚拟人脸对应发音错误音频，右侧人脸对应发音正确音频，在两个虚拟人脸下方对应有发音错误音标和发音正确音标，使得用户可以随时获取错误发音，以随时纠正发音，此种辅助发音的方式有利于训练用户发音，使得用户能够迅速掌握单词的正确发音。

进一步地，本发明正确发音的辅助训练方法，还包括：

步骤S60，获取所述语音输入信号的音素后验概率，并基于所述音素后验概率确定音素级发音得分和单词级发音得分。

终端设备基于MDD获取语音输入信号的音素序列，并获取该音素序列所对应的音素后验概率，进而基于该音素后验概率对用户的发音进行打分，分别得到音素级发音得分和单词级发音得分。

具体地，例如，终端设构建了自动评分系统，通过自评分器得到的音素级发音得分ρ_i和单词级发音得分ρ分别为：

其中，T_i和D分别是音素对应段的起始帧索引和帧号，y_t是第t帧的观测光谱特征，M是单词的音素总数。进一步也可基于开发数据集将单词级发音得分ρ转换为[0,10]的范围。自动评分器用于提供分数作为评估学习者语言技能的客观指标。

在本实施例中，基于STV终端设备将发音错误音频转换为第一PPG序列，进而通过LSTM网络将第一PPG序列转换为第一表达向量序列，以通过该第一表达向量序列控制虚拟人脸的面部表情。将发音错误音频转换为第二PPG序列，进而通过LSTM网络将第二PPG序列转换为第二表达向量序列，以通过该第二表达向量序列控制虚拟人脸的面部表情。终端设备在获取到第一表达向量序列和第二表达向量序列后，将通过第一表达向量序列控制第一虚拟人脸的面部表情，通过第二表达向量序列控制第二虚拟人脸的面部表情，以得到可说话虚拟人脸的视频，其中虚拟人脸的面部表情与语音输入信号对齐，即第一虚拟人脸的面部表情与发音错误音频对齐，而第二虚拟人脸的面部表情与发音正确音频对齐。终端设备基于MDD获取语音输入信号的音素序列，并获取该音素序列所对应的音素后验概率，进而基于该音素后验概率，并按照预先构建的发音评分系统对用户的发音进行打分，分别得到音素级发音得分和单词级发音得分。

基于本发明正确发音的辅助训练方法的第一实施例和第二实施例，提出本发明正确发音的辅助训练方法的第三实施例。

在本实施例中，基于第一实施例和第二实施例所提出的正确发音的辅助训练方法进行了相关实验，以评估对比话语(CU)和卡通人脸图像(CA)的效率。该实验提出了三个CAPT系统，分别为：基线系统，该基线系统只向参与者提供正确的语音作为反馈；CU系统，该CU系统向用户提供正确发音音频和错误发音音频；“CU+CA”系统，该系统向用户提供正确发音音频、错误发音音频以及卡通人脸图像。在本实施例中共计有27名6到8岁的儿童参加实验。孩子们被随机分配到三个单独的测试中，每个测试使用三个CAPT系统之一，在实验中通过使用发音评分系统去客观衡量三个CAPT系统的有效性。

具体地，例如，27个孩子首先使用评分系统对16个英语单词的发音进行评分，然后再通过CAPT系统学习这16个单词。16个英文单词(如‘boy’、‘sit’和‘fire’等)由英语教师根据七岁左右孩子的语言水平选择，然后孩子们被随机分配到三组。每组使用三个系统中的一个来学习16个英语单词。孩子们可以根据需要多次练习每个单词，使用CAPT系统学习后，孩子们再次使用评分系统获得另一个发音分数，并通过以下方式获得发音分数改进量

其中，N是评估词的数量，s_i和t_i分别是在使用CAPT系统之前和之后获得的发音分数。通过对参与者的发音分数改进值进行平均以获得标量分数，即平均发音分数改进量，以通过该平均发音分数改进量于评估CAPT系统的效率。如图5所示的实验结果示意图，提供CU系统和提供CU+CA系统都比只提供正确发音语音的基线系统更能提高参与者的平均发音分数。CU+CA系统的性能不如CU系统。原因之一是自动分级机仍然不是最佳的，并且可能存在分级错误。另一种可能的解释是，由于使用基线系统的儿童中有5名6岁儿童、3名7岁儿童和1名八岁儿童，而在CU系统中有5名6岁儿童、2名7岁儿童和2名八岁儿童，而在CU+CA系统中有3名6岁儿童、2名7岁儿童和4名八岁儿童，使用CU+CA系统的儿童比使用CU系统的儿童平均年龄大。大龄儿童的进步小于使用相同系统的小儿童，因为大龄儿童的发音知识比小儿童多。因此，在本实施例中为了保证实验的准确定，进行了相关主题实验，进一步评估系统的有效性。

具体地，例如，邀请三位英语老师来评估孩子们在发音正确性方面的进步。孩子们在使用CAPT系统练习发音前后记录了他们对16个英语单词的发音。教师比较每个参与者的两个录音并提供以下判断：(i)更差：使用CAPT系统后的发音比以前更差；(ii)更好：使用CAPT系统后发音得到改善；(iii)相似：很难判断发音是否得到改善。英语教师提供的判断结果(通过投票)结果表明：使用CU+CA系统后的发音比使用前的发音更差占11％、发音相似占11％、发音更好占78％，而使用CU系统后的发音比使用前的发音更差占30％、发音相似占20％、发音更好占50％，可见CU+CA系统优于CA系统，结果证明了在CAPT系统中使用卡通人脸图像对儿童的优越性。并且对使用第三种系统(即CU+CA系统)的孩子中做了一个调查，询问他们是否喜欢在系统练习中出现卡通头像，78％的孩子给出了肯定的回答。这些结果意味着卡通人脸图像能够激发孩子们使用CAPT系统的兴趣。综上，实验结果表明，CU系统旨在帮助学习者比较正确和错误的发音并定位他们的发音错误。CA系统旨在调动孩子们使用CAPT系统的兴趣，提高学习效率。客观和主观实验结果都证明了所提出的CU和CA交互设计对儿童语言学习的有效性。

此外，本发明实施例还提出一种正确发音的辅助训练系统，参照图6，图6为本发明正确发音的辅助训练系统一实施例的功能模块示意图。如图6所示，本发明正确发音的辅助训练系统，包括：

进一步地，所述数据预处理模块，包括：

提取单元，用于根据预训练算法从所述语音输入信号进行数据预处理以提取得到音素序列；

对比单元，用于将所述音素序列和预设的规范音素序列进行对比以判断所述音素序列和所述规范音素序列是否相同。

进一步地，所述合成模块，包括：

第一转化单元，用于将所述音素序列转化为第一梅尔谱图序列，并基于所述第一梅尔谱图序列得到发音错误音频；

第二转化单元，用于将所述规范音素序列转化为第二梅尔谱图序列，并基于所述第二梅尔谱图序列得到发音正确音频。

进一步地，所述转换模块，包括：

第三转化单元，用于将所述发音错误音频转换为第一语音后验概率序列，并基于所述第一语音后验概率序列得到第一表达向量序列；

第四转化单元，用于将所述发音正确音频转换为第二语音后验概率序列，并基于所述第二语音后验概率序列得到第二表达向量序列。

进一步地，本发明正确发音的辅助训练系统，还包括：

输出模块，用于若所述音素序列与预设的规范音素序列不相同，将所述音素序列对应的音标和所述规范音素序列对应的音标输出至预设的辅助发音训练界面。

进一步地，所述控制模块，包括：

第一控制单元，用于基于所述第一表达向量序列控制所述第一虚拟人脸合成错误发音口型进行辅助发音训练；

第二控制单元，用于基于所述第二表达向量序列控制所述第二虚拟人脸合成错误发音口型进行辅助发音训练，其中，所述第一虚拟人脸和第二虚拟人脸都处于预设的辅助发音训练界面中。

进一步地，本发明正确发音的辅助训练系统，还包括：

确定模块，用于获取所述语音输入信号的音素后验概率，并基于所述音素后验概率确定音素级发音得分和单词级发音得分。

本发明正确发音的辅助训练系统的各个功能模块的具体实施方式与上述正确发音的辅助训练方法各实施例基本相同，在此不做赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有正确发音的辅助训练程序，所述正确发音的辅助训练程序被处理器执行时实现如上所述的正确发音的辅助训练方法的步骤。

本发明正确发音的辅助系统和计算机可读存储介质的各实施例，均可参照本发明正确发音的辅助训练方法各个实施例，此处不再赘述。

此外，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如以上正确发音的辅助训练方法的任一项实施例所述的正确发音的辅助训练方法的步骤。

本发明计算机程序产品的具体实施例与上述正确发音的辅助训练方法的各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种正确发音的辅助训练方法，其特征在于，所述正确发音的辅助训练方法，包括：

2.如权利要求1所述的正确发音的辅助训练方法，其特征在于，所述对所述语音输入信号进行数据预处理得到音素序列，并判断所述音素序列与预设的规范音素序列是否相同的步骤，包括：

3.如权利要求1所述的正确发音的辅助训练方法，其特征在于，所述将所述音素序列合成为发音错误音频，和将所述规范音素序列合成为发音正确音频的步骤，包括：

4.如权利要求1所述的正确发音的辅助训练方法，其特征在于，所述将所述发音错误音频转换为第一表达向量序列，和将所述发音正确音频转换为第二表达向量序列的步骤，包括：

5.如权利要求1所述的正确发音的辅助训练方法，其特征在于，所述方法还包括：

6.如权利要求1或者5所述的正确发音的辅助训练方法，其特征在于，所述虚拟人脸包括第一虚拟人脸和第二虚拟人脸，所述基于所述第一表达向量序列和所述第二表达向量序列控制预设的虚拟人脸进行辅助发音训练的步骤，包括：

基于所述第二表达向量序列控制所述第二虚拟人脸合成正确发音口型进行辅助发音训练，其中，所述第一虚拟人脸和第二虚拟人脸都处于预设的辅助发音训练界面中。

7.如权利要求1至5中任一项所述的正确发音的辅助训练方法，其特征在于，所述正确发音的辅助训练方法，还包括：

8.一种正确发音的辅助训练系统，其特征在于，所述正确发音的辅助训练系统包括：

9.一种终端设备，其特征在于，所述终端设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的正确发音的辅助训练程序，所述正确发音的辅助训练程序被所述处理器执行时实现如权利要求1至7中任一项所述的正确发音的辅助训练方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有正确发音的辅助训练程序，所述正确发音的辅助训练程序被处理器执行时实现如权利要求1至7中任一项所述的正确发音的辅助训练方法的步骤。