CN112530213A

CN112530213A - 一种汉语音调学习方法及系统

Info

Publication number: CN112530213A
Application number: CN202011565399.XA
Authority: CN
Inventors: 方湘
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-03-19
Anticipated expiration: 2040-12-25
Also published as: CN112530213B

Abstract

本发明公开了一种汉语音调学习方法及系统，其方法包括：预先构建预设音调模型及其对应教材；利用预设音调模型对声调进行归一化处理，经训练，获得声调音高、音长参数；为便于电脑处理，将图形分解为五种基元，利用基元与声调的参数生成第一字符串，将第一字符串存储到预设数据库中；利用存储的第一字符串与目标用户发音形成的第二字符串进行比较以对目标用户的发音进行评分。通过利用基元图形代替传统的5度标调法的调号数字来对用户进行教学可以使得用户更加容易理解和掌握每个音调的发音，极大地提高了用户学习音调的效率。通过字符串匹配可以使得用户在学习的过程中可以准确地把握每个音调的发音长短和速率，有效率可达90％以上，正确率可达95‑97％。

Description

一种汉语音调学习方法及系统

技术领域

本发明涉及汉语教育技术领域，尤其涉及一种汉语音调学习方法及系统。

背景技术

目前，随着中国的崛起与日益强大，汉语在国际语言中的占比越来越重，越来越多的国际友人对汉语的兴趣很大想要学习这一门经典的语言，但是在国内由于从小教学的熏陶导致对汉语的接受能力高进而可以快速的掌握和熟练运用汉语进行交流，但是对于国际友人来说，由于他们没有先天性的基础优势，故而只能从头学习，学习汉语的首要便是学习音调，传统法声调的一、二、三、四声加轻声，属于字典调或单字调，完全不适应实际语流中的语调变化。这种方法存在以下缺点：1、用户在学习的过程中需要对变化的5度调号数字进行记忆进而在脑海中构造音调的变化频率进而来实现对音调的学习，极大地浪费的学习时间，使得学习效率下降；2、用户在学习的过程中对音调的长短和速率完全没有概念，导致最终学习的成果为误认为每个音调的发音长短和速率一样导致讲话生硬不自然，影响了与别人的交流，降低了用户的体验感。近年来有人提出记住声调物理波形的基频和音长的调号数字的方法，仍然过于复杂，缺乏操作性，其效果也不好。本发明为外国人汉语声调电子训练系统提供一批基于可视化图形教材，公开了一种基于学习网络模型来对用户进行音调教学的方法。

发明内容

针对上述所显示出来的问题，本发明提出了一种汉语音调学习方法及系统用以解决背景技术中提到的用户在学习的过程中需要对变化的数字的变化进行记忆进而在脑海中构造音调的变化频率进而来实现对音调的学习，极大地浪费的学习时间，使得学习效率下降和用户在学习的过程中对音调的长短和速率完全没有概念，导致最终学习的成果为对每个音调的发音长短和速率一样导致讲话生硬不自然，影响了与别人的交流，降低了用户的体验感的问题。

一种汉语音调学习方法，包括以下步骤：

预先构建预设音调模型，利用所述预设音调模型对声调进行归一化处理，经训练获得所述声调的基频线段参数，所述基频线段参数包括：该声调线段在音高、音长坐标系内的斜率和位置；

将所述基频线段参数分解为五种预设基元，利用所述五种预设基元和所述基频线段参数生成第一字符串；

将所述第一字符串存储到标准数据库中；

利用所述标准数据库中存储的第一字符串与目标用户所在终端发音形成的第二字符串进行比较以对目标用户的发音进行评分。

优选的，所述预先构建预设音调模型，利用所述预设音调模型对声调进行归一化处理，经训练获得所述声调的基频线段参数，所述基频线段参数包括：该声调线段在音高、音长坐标系内的斜率和位置，包括：

构建所述预设音调模型；

利用所述声调之双音节、三音节组合语调模型和三音节组合中字超短组模型中之汉语样例和所述声调的标准发音训练所述预设音调模型，获得所述声调的可视化线段图形；

利用所述预设音调模型从所述声调中提取语谱特征和基频特征；

将所述语谱特征和基频特征以及所述可视化线段图形确认为所述声调的音节分割和线段音高、音长参数。

优选的，在将所述基频线段参数分解为五种预设基元，利用所述五种预设基元和所述基频线段参数生成第一字符串之前，所述方法还包括：

根据所述声调的语谱特征确定所述声调的音长变化及音节分割；

根据所述声调的基频特征确定所述声调的音高变化；

基于所述声调的音长变化，在预设音长参数表中获得所述声调的音节基元的音长参数的模糊等级；

基于所述声调的音高变化，在预设频率参数表中确定所述声调音节基元的起始点和终止点音高(频率)模糊等级。

预先定义五个基元，所述五个基元包括：平坦基元、上斜基元、下斜基元、上拐基元和下拐基元，其中，所述上拐基元和下拐基元包含三个子基元；

将所述五个基元和声调的基频线段参数来描述声调的特征。

优选的，将所述基频线段参数分解为五种预设基元，利用所述五种预设基元和所述基频线段参数生成第一字符串，包括：

将所述五种预设基元与定义的所述五个基元进行对应；

利用所述五种预设基元及声调的基频线段参数表达音调教材样例，按照预设规则生成所述第一字符串，将第一字符串存储到标准数据库中。

优选的，在利用所述标准数据库中存储的第一字符串与目标用户所在终端发音形成的第二字符串进行比较以对目标用户的发音进行评分之前，所述方法还包括：

获取所述目标用户所在终端的终端标识以及终端位置信息，所述终端包括：手机、平板中的一个或者多个；

确认所述终端标识是否所述用户的常用终端标识，若是，确认所述用户终端通过初步安全验证，否则，向所述用户终端发出获取所述常用终端标识的提醒；

接收所述用户终端反馈的目标终端标识是否为所述常用终端标识，若是，确认所述用户终端通过初步安全验证，否则，确认所述用户终端无法通过初步安全验证；

在所述用户终端通过所述初步安全验证时，确认所述终端位置信息是否安全，若是，确认所述用户终端通过二级安全验证，否者，确认所述用户终端不安全，向所述用户终端发出无法连接服务器的提醒。

优选的，所述利用所述标准数据库中存储的第一字符串与目标用户所在终端发音形成的第二字符串进行比较以对目标用户的发音进行评分，包括：

获取所述目标用户所在终端输入的目标词语，解析所述目标词语，确认所述目标词语的目标音节，所述目标音节包括：双音节、三音节普通组合和三音节中字超短组合；

在所述数据库中获取与所述目标音节相关的目标第一字符串；

根据所述目标第一字符串确定所述目标各音节的目标基元和属性；

接收目标用户向所述终端发出的关于所述目标音节的目标语音；

根据所述目标语音的当前预设基元和当前基频线段参数生成所述第二字符串；

使用预设服务器对比所述第一字符串和第二字符串，若二者基元结构相同，认为初试通过，计算所述第一音节基元属性与第二音节基元属性的属性差异值，给出评分和差异提示。若二者基元结构不同，初试失败，向所述用户终端发出发音有重大缺陷的提醒；

将所述属性差异值发送至所述终端。

优选的，所述方法，还包括：

若所述目标用户的发音一直有缺陷，接通所述目标用户所在终端与专业老师的通信连接；

将所述用户终端的历史第二字符串发送至所述专业老师的目标终端以供所述专业老师对所述用户进行人工讲解。

一种汉语音调学习系统，该系统包括：

处理模块，用于预先构建预设音调模型，利用所述预设音调模型对声调进行归一化处理，经训练获得所述声调的基频线段参数，所述基频线段参数包括：该声调线段在音高、音长坐标系内的斜率和位置；

生成模块，用于将所述基频线段参数分解为五种预设基元，利用所述五种预设基元和所述基频线段参数生成第一字符串；

存储模块，用于将所述第一字符串存储到标准数据库中；

评分模块，用于利用所述标准数据库中存储的第一字符串与目标用户所在终端发音形成的第二字符串进行比较以对目标用户的发音进行评分。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明所提供的一种汉语音调学习方法的工作流程图；

图2为本发明所提供的一种汉语音调学习方法的另一工作流程图；

图3为本发明所提供的一种汉语音调学习系统的结构示意图；

图4为本发明所提供的音图元素截图；

图5为本发明所提供的双音节组合模型截图；

图6为本发明所提供的三音节普通组合的模型截图；

图7为本发明所提供的三音节普通组合的另一模型截图；

图8为本发明所提供的三音节中字超短组合的模型截图；

图9为本发明所提供的基元截图；

图10为本发明所提供的音高的参考参数图；

图11为本发明所提供的音长的参考参数图；

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

目前，随着中国的崛起与日益强大，汉语在国际语言中的占比越来越重，越来越多的国际友人对汉语的兴趣很大想要学习这一门经典的语言，但是在国内由于从小教学的熏陶导致对汉语的接受能力高进而可以快速的掌握和熟练运用汉语进行交流，但是对于国际友人来说，由于他们没有先天性的基础优势，故而只能从头学习，学习汉语的首要便是学习音调，传统法声调的一、二、三、四声加轻声，属于字典调或单字调，完全不适应实际语流中的语调变化。这种方法存在以下缺点：1、用户在学习的过程中需要对变化的5度调号数字进行记忆进而在脑海中构造音调的变化频率进而来实现对音调的学习，极大地浪费的学习时间，使得学习效率下降；2、用户在学习的过程中对音调的长短和速率完全没有概念，导致最终学习的成果为误认为每个音调的发音长短和速率一样导致讲话生硬不自然，影响了与别人的交流，降低了用户的体验感。近年来有人提出记住声调物理波形的基频和音长的调号数字的方法，仍然过于复杂，缺乏操作性，其效果也不好。为了解决上述问题，本实施例公开了一种基于学习网络模型来对用户进行音调教学的方法。

一种汉语音调学习方法，如图1所示，包括以下步骤：

步骤S101、预先构建预设音调模型，利用所述预设音调模型对声调进行归一化处理，经训练获得所述声调的基频线段参数，所述基频线段参数包括：该声调线段在音高、音长坐标系内的斜率和位置；

步骤S102、将所述基频线段参数分解为五种预设基元，利用所述五种预设基元和所述基频线段参数生成第一字符串；

步骤S103、将所述第一字符串存储到标准数据库中；

步骤S104、利用所述标准数据库中存储的第一字符串与目标用户所在终端发音形成的第二字符串进行比较以对目标用户的发音进行评分。

上述技术方案的工作原理为：预先构建预设音调模型，利用所述预设音调模型对声调进行归一化处理，经训练获得所述声调的基频线段参数，所述基频线段参数包括：该声调线段在音高、音长坐标系内的斜率和位置，将所述基频线段参数分解为五种预设基元，利用所述五种预设基元和所述基频线段参数生成第一字符串，将所述第一字符串存储到标准数据库中，利用所述标准数据库中存储的第一字符串与目标用户所在终端发音形成的第二字符串进行比较以对目标用户的发音进行评分。

上述技术方案的有益效果为：通过声调图形基元和音调参数生成字符串的形式可以使得用户学习音调的方式以电子化来实现，可以提高用户的学习效率，同时，通过模型的可视化代替传统的调号数字来对用户进行教学可以使得用户更加直观理解和掌握每个音调的发音，极大地提高了用户学习音调的效率，进一步地，通过字符串使得用户在学习的过程中只要把握每个音调的发音高低和长度，可以在进一步保证用户的学习效率的同时使用户对于音调的把握更加准确，以便与其他人进行无障碍交流，提高了用户的体验感。

在一个实施例中，如图2所示，预先构建预设音调模型，利用所述预设音调模型对声调进行归一化处理，经训练获得所述声调的基频线段参数，所述基频线段参数包括：该声调线段在音高、音长坐标系内的斜率和位置，包括：

步骤S201、构建所述预设音调模型；

步骤S202、利用所述声调之双音节、三音节组合语调模型和三音节组合中字超短组模型中之汉语样例和所述声调的标准发音训练所述预设音调模型，获得所述声调的可视化线段图形；

步骤S203、利用所述预设音调模型从所述声调中提取语谱特征和基频特征；

步骤S204、将所述语谱特征和基频特征以及所述可视化线段图形确认为所述声调的音节分割和线段音高、音长参数。

上述技术方案的有益效果为：通过利用标准发音语音库中的标准语音来作为训练数据训练初始模型可以的模型更加完整以及音调识别准确率更高，进一步地，通过提取声调的语谱特征和基频特征可以准确地根据语谱特征和基频特征确定声调的音高和音长，为后续字符串的生成提供了数据保证。

在一个实施例中，在将所述基频线段参数分解为五种预设基元，利用所述五种预设基元和所述基频线段参数生成第一字符串之前，所述方法还包括：

根据所述声调的基频特征确定所述声调的音高变化；

上述技术方案的有益效果为：通过获取声调的音长参数变化范围和频率变化范围使得用户可以直观地从两个变化范围中确定声调的标准发音等级，同时也为后续字符串的生成提供了数据支撑，使得字符串对应的属性参数更加具体化和准确。

将所述五个基元和声调的基频线段参数来描述声调的特征。

上述技术方案的有益效果为：通过设置基本基元和子基元可以使得基元和声调的参数快速地根据目标音调生成目标字符串，大大地提高了教学效率。

在一个实施例中，将所述基频线段参数分解为五种预设基元，利用所述五种预设基元和所述基频线段参数生成第一字符串，包括：

将所述五种预设基元与定义的所述五个基元进行对应；

利用所述五种预设基元及声调的基频线段参数表达音调教材样例，按照预设规则生成所述第一字符串。

上述技术方案的有益效果为：通过选择目标基元可以确定声调对应的基元，避免无用基元对字符串生成的影响，提高了最终生成的字符串的准确性。

在一个实施例中，在利用所述标准数据库中存储的第一字符串与目标用户所在终端发音形成的第二字符串进行比较以对目标用户的发音进行评分之前，所述方法还包括：

上述技术方案的有益效果为：通过验证用户终端来保证用户的终端安全以及身份安全可以保证数据的安全性，提高了保密性。

在一个实施例中，所述利用所述标准数据库中存储的第一字符串与目标用户所在终端发音形成的第二字符串进行比较以对目标用户的发音进行评分，包括：

将所述属性差异值发送至所述终端。

上述技术方案的有益效果为：通过确认目标词语的目标音节可以确定目标词语的音节组成部分进而可以准确地知晓每个音节的音调，进而可以获得该目标词语的目标字符串以供用户进行学习，相比于现有技术中利用数字进行学习的方法更加直观和简单，可以适应不同智力的用户，进一步地提高了实用性，进一步地，通过对根据用户发音产生的第二字符串与第一字符串进行对比可以使的用户了解自己的发音与标准发音的区别，通过双重对比字符串，可以更加全面地对用户的发音进行标准判断，可以进一步地提高用于音调学习的把握。

在一个实施例中，所述方法，还包括：

上述技术方案的有益效果为：通过将用户终端与专业人员的终端进行连接可以使用户在系统的教学下无法把握语调时可以通过人为教学提高自己学习音调的精度和效率，保证了智能化的同时实现了人工教育和系统智能教育相结合的方式，进一步地提高了用户的体验感。

本实施例还公开了一种汉语音调学习系统，如图3所示，该系统包括：

处理模块301，用于预先构建预设音调模型，利用所述预设音调模型对声调进行归一化处理，经训练获得所述声调的基频线段参数，所述基频线段参数包括：该声调线段在音高、音长坐标系内的斜率和位置；

生成模块302，用于将所述基频线段参数分解为五种预设基元，利用所述五种预设基元和所述基频线段参数生成第一字符串；

存储模块303，用于将所述第一字符串存储到标准数据库中；

评分模块304，用于利用所述标准数据库中存储的第一字符串与目标用户所在终端发音形成的第二字符串进行比较以对目标用户的发音进行评分。

上述技术方案的工作原理及有益效果在方法权利要求中已经说明，此处不再赘述。

在一个实施例中，包括：

预先定义5个基元：平坦、上斜、下斜、上拐和下拐，以及构成上拐和下拐的各3个子基元，共6个子基元，如图4所示，其中，各个基元的符号表达方式可以为：Fl-平坦，Su-上斜，Sd-下斜，Cu-上拐，Cd-下拐。其中上拐、下拐又由子基元上斜、平坦、下斜或下斜、平坦、上斜构成。此3个子基元音长很短，且每个子基元终点必须与上斜或下斜串联形成一个完整音调，发音训练时不再进一步分解为子基元，而作为一个独立基元列出；

从长期教学成功经验出发，构建一种新的汉语音调模型。它将声音基频分段线性化，可视化地表现在以音高(频率)为纵坐标，音长为横坐标的坐标系内的图形，使汉字音调体现为不同斜率与长度的线段及其组合。进而用8-11音图元素(图4)表示汉语基础音调，由基础音调元素的组合构建双音节(见图5)、三音节普通组合(如图6和图7)以及三音节中字超短组合(如图8)共约100个模型，每个模型选取若干汉字样例，生成汉字样例的音调教材，作为本系统训练和学习的资料；

三组模型的后两组，三音节组合普通型和中字超短组可以被视为是双音节组合的衍生物，8-11图中的9、10、11号调都是只出现在三音节组合中作为过渡调的第二音节，形成8-11图中的后3调。在两组三音节组合图中继续沿用双音节组合使用过的8个调型来做第一音节和第三音节。9号调只出现在三音节中字超短类中，有高中低三个位置。三音节普通组中10号调有两个位置，上翘和下降两个位置。11号调有中缓、中陡和低位三个位置。

在三音节组合中使用的9、10、11号调都属于过渡调，担负着第一音节与第三音节的承接作用，但是承接的形态各异，是约定俗成而来的，并不完全符合一般的预期。

设计这三组模型是基于前人的研究，即双音节词语在汉语中占比74.14％，三音节词语占比11.99％，四音节词语占比7.18％。但四音节组合所遵循的规则依然是双音节规则，只不过是一组非停顿前双音节加另一组停顿前双音节组合构成的，而且四音节还有一些非2+2格式的，因此运用双音节组合模型规则的四音节组合占比大概不够7.18％,可以估计在4-5％，因此双音节、三音节模型全部占比大约是90％(跟以前比)，还有一些小比例的单音节词语，但是单音节词语都属于单字调，教授不困难。如此设计的三组模型，加上单音节的正确读出，总正确率理论上可以达到95-97％，这就几乎解决了汉语中的声调问题。

训练模型：电子装置(手机、平板电脑等)对按上述样例输入的标准音调进行信号数字处理：音节分离、直线段变换及规整化，形成五种基本线段(基元)-平坦，上斜，下斜，上拐，下拐，其中上下拐分别由三个超短斜线子基元构成(如图9所示)，经训练获取基元的属性参数-音高和音长的模糊等级(如图10和图11所示)获得训练后的模型，训练后的模型的输出如图4所示；

模型的字符串(图4)表达：1，基元符号表达。为了便于计算机处理，用符号对基元进行编码，如A(b,c,d)数组形中A为基元形状符号(简称基元符号)，b,c,d为基元属性。基元符号以2个英文字母表示：Fl-平坦，Su-上斜，Sd-下斜，Cu-上拐，Cd-下拐。基元属性由起始音高b，终止音高c，音长d三个参数描述，组成基元符号属性三维数组表达形式。2，字符串完整性用“{}”表达。“{”表示字符串开始，“}”表示终止。3，音节分割用”；”表示，一个音节最多由三个基元组成，基元间直接相连。图5,6,7,8所示模型字符串见图中最下边一行所列；

在图4中，以第四行第二列8号为例，其表达的是下降调，其表达式为{Cd(H-,H-,0.3Ln)Sd(H-,L,0.7Ln)}，其中Cd和Sd表示为长三声的基元构成为两个，分别是下拐和下斜，H-,H-代表为长下降调的起始频率为135HZ左右起步，先上升到约140HZ，然后再折返到135HZ,此间的频率变化都是平稳进行，且频率数值具有模糊范围。0.3Ln表示为下拐基元所占用的时长为总时长的30％，同理，后续H-,L表示为下斜基元从135HZ到100HZ进行变化，其维持时长为总时长的70％，如此可以使得用户知晓每个音调的频率音长更加具体的变化，对于没有汉语基础的国际友人来说，使用此模型可以直观有效地对音调进行掌握和学习，效果明显，并且可以运用到实际中。

本领域技术人员应当理解的是，本发明中的第一、第二指的是不同应用阶段而已。

本领域技术用户员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种汉语音调学习方法，其特征在于，包括以下步骤：

将所述第一字符串存储到标准数据库中；

2.根据权利要求1所述汉语音调学习方法，其特征在于，所述预先构建预设音调模型，利用所述预设音调模型对声调进行归一化处理，经训练获得所述声调的基频线段参数，所述基频线段参数包括：该声调线段在音高、音长坐标系内的斜率和位置，包括：

构建所述预设音调模型；

3.根据权利要求1所述汉语音调学习方法，其特征在于，在将所述基频线段参数分解为五种预设基元，利用所述五种预设基元和所述基频线段参数生成第一字符串之前，所述方法还包括：

根据所述声调的基频特征确定所述声调的音高变化；

4.根据权利要求1所述汉语音调学习方法，其特征在于，在将所述基频线段参数分解为五种预设基元，利用所述五种预设基元和所述基频线段参数生成第一字符串之前，所述方法还包括：

将所述五个基元和声调的基频线段参数来描述声调的特征。

5.根据权利要求1-4所述汉语音调学习方法，其特征在于，将所述基频线段参数分解为五种预设基元，利用所述五种预设基元和所述基频线段参数生成第一字符串，包括：

将所述五种预设基元与定义的所述五个基元进行对应；

6.根据权利要求1所述汉语音调学习方法，其特征在于，在利用所述标准数据库中存储的第一字符串与目标用户所在终端发音形成的第二字符串进行比较以对目标用户的发音进行评分之前，所述方法还包括：

7.根据权利要求1所述汉语音调学习方法，其特征在于，所述利用所述标准数据库中存储的第一字符串与目标用户所在终端发音形成的第二字符串进行比较以对目标用户的发音进行评分，包括：

将所述属性差异值发送至所述终端。

8.根据权利要求1所述汉语音调学习方法，其特征在于，所述方法，还包括：

9.一种汉语音调学习系统，其特征在于，该系统包括：

存储模块，用于将所述第一字符串存储到标准数据库中；