CN112667865A

CN112667865A - 中英混合语音合成技术在汉语言教学中的应用的方法及系统

Info

Publication number: CN112667865A
Application number: CN202011588951.7A
Authority: CN
Inventors: 徐涛; 杨洲; 卜晓晨; 李梓甜
Original assignee: Xi'an Zhangshang Shengtang Network Information Co ltd
Current assignee: Xi'an Zhangshang Shengtang Network Information Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-16

Abstract

本发明属于语音技术领域，公开了一种中英混合语音合成技术在汉语言教学中的应用方法及系统，包括对中文中复杂符号的寻找并进行断句，对长句进行切分，逐次进行推理，并对结果进行拼接，采用中英文模型相结合的方法来寻找日常汉语会话中的外来词，通过对原始数据的预处理将大量的阿拉伯数字转为对应的汉字，再进行模型推理，实际测试表明，预处理后，汉语长句中数字发音的正确率达90％以上，本公司设计的教学场景下的中文女生语音合成系统，有效地提升了汉语言教学环节中复杂会话场景下的音频制作效率，可有效替代传统人工录制的方式，美股上市公司“流利说”在英语教学中引入人工智能技术有效提高教学场景下的音频内容制作效率。

Description

中英混合语音合成技术在汉语言教学中的应用的方法及系统

技术领域

本发明属于语音技术领域，尤其涉及一种中英混合语音合成技术在汉语言教学中的应用方法及系统。

背景技术

目前，汉语言教学存在着众多复杂对话场景，人工录制方法费时费力，对录制设备及录制环境有较高的要求，出现发音问题就需要重新录制，效率极其低下。在汉语教学场景下，现有技术方案为：人工录制。缺陷在于，录制过程中，每出现一处发音错误，整句的录制就需要重新进行，据统计，一条20字的音频，平均需要录制五次。这一缺陷是由于人的不确定性(音色变化)、录制设备及录制环境的变化共同导致的，只要需要人的参与就不可避免。

通过上述分析，现有技术存在的问题及缺陷为：人工录制方法费时费力，对录制设备及录制环境有较高的要求，出现发音问题就需要重新录制，效率极其低下。并且，随着课程内容的持续更新，需要录制的内容存在长期需求，耗费人力物力。

解决以上问题及缺陷的难度为：现有条件(人工录制)下无法有效解决。

解决以上问题及缺陷的意义为：模型训练为一次性投入，实际部署完成后，可以根据需求动态生成教学音频，节省了音频录制方面的人员设备开支。

发明内容

针对现有技术存在的问题，本发明提供了一种中英混合语音合成技术在汉语言教学中的应用方法及系统。

本发明是这样实现的，一种中英混合语音合成技术在汉语言教学中的应用方法，所述中英混合语音合成技术在汉语言教学中的应用方法包括；

获取中文中存在的复杂符号；采用正则表达式对中文中的特殊符号进行匹配；

获取对长句中的符号位置；采用正则表达式中的finditer函数，对特殊符号进行匹配并返回其位置；

获取现代日常汉语会话中一定量外来词；汉语会话中主要出现的外来词为英语词汇，采用正则表达式对其进行匹配，并采用英文模型对匹配值的英文字符串进行推理，获取音频的ndarray.array数据；采用音素拼接技术，解决了英文中单个字母音频的合成问题，实现了满足中国人发音习惯的字母读音。

获取汉语中使用的阿拉伯数字。采用cn2an库对包含数字的汉语文本进行处理，将阿拉伯数字转换成对应的中文字符。

进一步，所述获取中文中存在的复杂符号，对数据集中只存在逗号和句号的使用情况，对原始输入进行预处理，包括：

(1)停顿，包括逗号、顿号、冒号、句号，在这些位置进行断句，单独成句并进行模型推理；

(2)不停顿，包括书名号、引号，对这些符号进行删除处理；

(3)导致语气变化，包括问号，保留并导入模型进行推理。

进一步，所述获取对长句中的符号位置，根据表示停顿的符号位置，对长句进行切分，逐次进行推理，并对结果进行拼接。

进一步，所述获取现代日常汉语会话中一定量外来词包括：在中文语境下，模型无法识别这些词语，采用中英文模型相结合的方法，设计算法对外来词和汉字进行区分，并分别交由英文模型和中文模型处理，对于出现频率较高的英文字母朗读，在本地以数组的形式保存其标准读音，实现本地调用，提升模型效率。

进一步，所述获取汉语中使用的阿拉伯数字，包括：对汉语中存在的大量使用阿拉伯数字的寻找，针基于cn2an库和自有算法，通过对原始数据的预处理，将阿拉伯数字转为对应的汉字，再进行模型推理。

本发明的另一目的在于提供一种中英混合语音合成技术在汉语言教学中的应用系统，所述中英混合语音合成技术在汉语言教学中的应用系统包括：

复杂符号获取模块，用于获取中文中存在的复杂符号；

符号位置获取模块，用于获取对长句中的符号位置；

外来词获取模块，用于获取现代日常汉语会话中一定量外来词；

阿拉伯数字获取模块，用于获取汉语中使用的阿拉伯数字。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

获取中文中存在的复杂符号；

获取对长句中的符号位置；

获取现代日常汉语会话中一定量外来词；

获取汉语中使用的阿拉伯数字。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

获取中文中存在的复杂符号；

获取对长句中的符号位置；

获取现代日常汉语会话中一定量外来词；

获取汉语中使用的阿拉伯数字。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述的中英混合语音合成技术在汉语言教学中的应用方法。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：语音合成技术是基于专业级人声数据库进行训练，不仅在发音方面有极高的正确率；而且生成速度极快，效率极高(采用1060 3GB显卡的计算耗时为音频时长的十分之一)。生成音频声音清澈，不含杂音，发音准确，相当于新闻播报水平。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的中英混合语音合成技术在汉语言教学中的应用的工作流程图。

图2是本发明实施例提供的语音合成模型验证集模拟结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种中英混合语音合成技术在汉语言教学中的应用方法，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的一种中英混合语音合成技术在汉语言教学中的应用方法包括以下步骤：

S101：对中文中存在的复杂符号的寻找；

S102：对长句中的符号位置的寻找；

S103：对现代日常汉语会话中一定量外来词的寻找；

S104：对汉语中存在的大量使用阿拉伯数字的寻找。

步骤S101中，本发明实施例提供的对中文中存在的复杂符号的寻找，数据集中只存在逗号和句号的使用情况，对此，提出了对原始输入进行预处理的解决方案。将中文符号分为三类，包括：

(1)停顿，如逗号、顿号、冒号、句号等，在这些位置进行断句，单独成句并进行模型推理；

(2)不停顿，如书名号、引号等，对这些符号进行删除处理；

(3)导致语气变化，如问号，保留并导入模型进行推理。

步骤S102中，本发明实施例提供的对长句中的符号位置的寻找，根据表示停顿的符号位置，对长句进行切分，逐次进行推理，并对结果进行拼接。

步骤S103中，本发明实施例提供的对现代日常汉语会话中一定量外来词的寻找，在中文语境下，模型无法识别这些词语，对此，采用中英文模型相结合的方法，设计算法对外来词和汉字进行区分，并分别交由英文模型和中文模型处理，其中，对于出现频率较高的英文字母朗读，在本地以数组的形式保存其标准读音，实现本地调用，提升模型效率。

步骤S104中，本发明实施例提供的对汉语中存在的大量使用阿拉伯数字的寻找，针对这一问题，基于cn2an库和自有算法，通过对原始数据的预处理，将阿拉伯数字转为对应的汉字，再进行模型推理。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上；术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

Claims

1.一种中英混合语音合成技术在汉语言教学中的应用方法，其特征在于，所述中英混合语音合成技术在汉语言教学中的应用方法包括；

获取中文中存在的复杂符号，采用正则表达式对中文中的特殊符号进行匹配；

获取对长句中的符号位置，采用正则表达式中的finditer函数，对特殊符号进行匹配并返回其位置；

获取现代日常汉语会话中一定量外来词，汉语会话中主要出现的外来词为英语词汇，采用正则表达式对其进行匹配，并采用英文模型对匹配值的英文字符串进行推理，获取音频的ndarray.array数据；采用音素拼接技术满足发音习惯的字母读音；

获取汉语中使用的阿拉伯数字，采用cn2an库对包含数字的汉语文本进行处理，将阿拉伯数字转换成对应的中文字符。

2.如权利要求1所述中英混合语音合成技术在汉语言教学中的应用方法，其特征在于，所述获取中文中存在的复杂符号，对数据集中只存在逗号和句号的使用情况，对原始输入进行预处理，包括：

(2)不停顿，包括书名号、引号，对这些符号进行删除处理；

(3)导致语气变化，包括问号，保留并导入模型进行推理。

3.如权利要求1所述中英混合语音合成技术在汉语言教学中的应用方法，其特征在于，所述获取对长句中的符号位置，根据表示停顿的符号位置，对长句进行切分，逐次进行推理，并对结果进行拼接。

4.如权利要求1所述中英混合语音合成技术在汉语言教学中的应用方法，其特征在于，所述获取现代日常汉语会话中一定量外来词包括：在中文语境下，模型无法识别这些词语，采用中英文模型相结合的方法，设计算法对外来词和汉字进行区分，并分别交由英文模型和中文模型处理，对于出现频率较高的英文字母朗读，在本地以数组的形式保存其标准读音，实现本地调用，提升模型效率。

5.如权利要求1所述中英混合语音合成技术在汉语言教学中的应用方法，其特征在于，所述获取汉语中使用的阿拉伯数字，包括：对汉语中存在的大量使用阿拉伯数字的寻找，针基于cn2an库和自有算法，通过对原始数据的预处理，将阿拉伯数字转为对应的汉字，再进行模型推理。

6.一种中英混合语音合成技术在汉语言教学中的应用系统，其特征在于，所述中英混合语音合成技术在汉语言教学中的应用系统包括：

复杂符号获取模块，用于获取中文中存在的复杂符号；

符号位置获取模块，用于获取对长句中的符号位置；

阿拉伯数字获取模块，用于获取汉语中使用的阿拉伯数字。

7.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

获取中文中存在的复杂符号；

获取对长句中的符号位置；

获取现代日常汉语会话中一定量外来词；

获取汉语中使用的阿拉伯数字。

8.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

获取中文中存在的复杂符号；

获取对长句中的符号位置；

获取现代日常汉语会话中一定量外来词；

获取汉语中使用的阿拉伯数字。

9.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现权利要求1～5任意一项所述的中英混合语音合成技术在汉语言教学中的应用方法。