CN112667865A - 中英混合语音合成技术在汉语言教学中的应用的方法及系统 - Google Patents
中英混合语音合成技术在汉语言教学中的应用的方法及系统 Download PDFInfo
- Publication number
- CN112667865A CN112667865A CN202011588951.7A CN202011588951A CN112667865A CN 112667865 A CN112667865 A CN 112667865A CN 202011588951 A CN202011588951 A CN 202011588951A CN 112667865 A CN112667865 A CN 112667865A
- Authority
- CN
- China
- Prior art keywords
- chinese
- english
- obtaining
- model
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000005516 engineering process Methods 0.000 title claims abstract description 21
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 20
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 206010027940 Mood altered Diseases 0.000 claims description 3
- 241000590419 Polygonia interrogationis Species 0.000 claims description 3
- 210000001072 colon Anatomy 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 230000007510 mood change Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 2
- 230000002354 daily effect Effects 0.000 claims 4
- 230000003203 everyday effect Effects 0.000 claims 1
- 230000007547 defect Effects 0.000 description 4
- 238000003491 array Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明属于语音技术领域,公开了一种中英混合语音合成技术在汉语言教学中的应用方法及系统,包括对中文中复杂符号的寻找并进行断句,对长句进行切分,逐次进行推理,并对结果进行拼接,采用中英文模型相结合的方法来寻找日常汉语会话中的外来词,通过对原始数据的预处理将大量的阿拉伯数字转为对应的汉字,再进行模型推理,实际测试表明,预处理后,汉语长句中数字发音的正确率达90%以上,本公司设计的教学场景下的中文女生语音合成系统,有效地提升了汉语言教学环节中复杂会话场景下的音频制作效率,可有效替代传统人工录制的方式,美股上市公司“流利说”在英语教学中引入人工智能技术有效提高教学场景下的音频内容制作效率。
Description
技术领域
本发明属于语音技术领域,尤其涉及一种中英混合语音合成技术在汉语言教学中的应用方法及系统。
背景技术
目前,汉语言教学存在着众多复杂对话场景,人工录制方法费时费力,对录制设备及录制环境有较高的要求,出现发音问题就需要重新录制,效率极其低下。在汉语教学场景下,现有技术方案为:人工录制。缺陷在于,录制过程中,每出现一处发音错误,整句的录制就需要重新进行,据统计,一条20字的音频,平均需要录制五次。这一缺陷是由于人的不确定性(音色变化)、录制设备及录制环境的变化共同导致的,只要需要人的参与就不可避免。
通过上述分析,现有技术存在的问题及缺陷为:人工录制方法费时费力,对录制设备及录制环境有较高的要求,出现发音问题就需要重新录制,效率极其低下。并且,随着课程内容的持续更新,需要录制的内容存在长期需求,耗费人力物力。
解决以上问题及缺陷的难度为:现有条件(人工录制)下无法有效解决。
解决以上问题及缺陷的意义为:模型训练为一次性投入,实际部署完成后,可以根据需求动态生成教学音频,节省了音频录制方面的人员设备开支。
发明内容
针对现有技术存在的问题,本发明提供了一种中英混合语音合成技术在汉语言教学中的应用方法及系统。
本发明是这样实现的,一种中英混合语音合成技术在汉语言教学中的应用方法,所述中英混合语音合成技术在汉语言教学中的应用方法包括;
获取中文中存在的复杂符号;采用正则表达式对中文中的特殊符号进行匹配;
获取对长句中的符号位置;采用正则表达式中的finditer函数,对特殊符号进行匹配并返回其位置;
获取现代日常汉语会话中一定量外来词;汉语会话中主要出现的外来词为英语词汇,采用正则表达式对其进行匹配,并采用英文模型对匹配值的英文字符串进行推理,获取音频的ndarray.array数据;采用音素拼接技术,解决了英文中单个字母音频的合成问题,实现了满足中国人发音习惯的字母读音。
获取汉语中使用的阿拉伯数字。采用cn2an库对包含数字的汉语文本进行处理,将阿拉伯数字转换成对应的中文字符。
进一步,所述获取中文中存在的复杂符号,对数据集中只存在逗号和句号的使用情况,对原始输入进行预处理,包括:
(1)停顿,包括逗号、顿号、冒号、句号,在这些位置进行断句,单独成句并进行模型推理;
(2)不停顿,包括书名号、引号,对这些符号进行删除处理;
(3)导致语气变化,包括问号,保留并导入模型进行推理。
进一步,所述获取对长句中的符号位置,根据表示停顿的符号位置,对长句进行切分,逐次进行推理,并对结果进行拼接。
进一步,所述获取现代日常汉语会话中一定量外来词包括:在中文语境下,模型无法识别这些词语,采用中英文模型相结合的方法,设计算法对外来词和汉字进行区分,并分别交由英文模型和中文模型处理,对于出现频率较高的英文字母朗读,在本地以数组的形式保存其标准读音,实现本地调用,提升模型效率。
进一步,所述获取汉语中使用的阿拉伯数字,包括:对汉语中存在的大量使用阿拉伯数字的寻找,针基于cn2an库和自有算法,通过对原始数据的预处理,将阿拉伯数字转为对应的汉字,再进行模型推理。
本发明的另一目的在于提供一种中英混合语音合成技术在汉语言教学中的应用系统,所述中英混合语音合成技术在汉语言教学中的应用系统包括:
复杂符号获取模块,用于获取中文中存在的复杂符号;
符号位置获取模块,用于获取对长句中的符号位置;
外来词获取模块,用于获取现代日常汉语会话中一定量外来词;
阿拉伯数字获取模块,用于获取汉语中使用的阿拉伯数字。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
获取中文中存在的复杂符号;
获取对长句中的符号位置;
获取现代日常汉语会话中一定量外来词;
获取汉语中使用的阿拉伯数字。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
获取中文中存在的复杂符号;
获取对长句中的符号位置;
获取现代日常汉语会话中一定量外来词;
获取汉语中使用的阿拉伯数字。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的中英混合语音合成技术在汉语言教学中的应用方法。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:语音合成技术是基于专业级人声数据库进行训练,不仅在发音方面有极高的正确率;而且生成速度极快,效率极高(采用1060 3GB显卡的计算耗时为音频时长的十分之一)。生成音频声音清澈,不含杂音,发音准确,相当于新闻播报水平。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的中英混合语音合成技术在汉语言教学中的应用的工作流程图。
图2是本发明实施例提供的语音合成模型验证集模拟结果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种中英混合语音合成技术在汉语言教学中的应用方法,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的一种中英混合语音合成技术在汉语言教学中的应用方法包括以下步骤:
S101:对中文中存在的复杂符号的寻找;
S102:对长句中的符号位置的寻找;
S103:对现代日常汉语会话中一定量外来词的寻找;
S104:对汉语中存在的大量使用阿拉伯数字的寻找。
步骤S101中,本发明实施例提供的对中文中存在的复杂符号的寻找,数据集中只存在逗号和句号的使用情况,对此,提出了对原始输入进行预处理的解决方案。将中文符号分为三类,包括:
(1)停顿,如逗号、顿号、冒号、句号等,在这些位置进行断句,单独成句并进行模型推理;
(2)不停顿,如书名号、引号等,对这些符号进行删除处理;
(3)导致语气变化,如问号,保留并导入模型进行推理。
步骤S102中,本发明实施例提供的对长句中的符号位置的寻找,根据表示停顿的符号位置,对长句进行切分,逐次进行推理,并对结果进行拼接。
步骤S103中,本发明实施例提供的对现代日常汉语会话中一定量外来词的寻找,在中文语境下,模型无法识别这些词语,对此,采用中英文模型相结合的方法,设计算法对外来词和汉字进行区分,并分别交由英文模型和中文模型处理,其中,对于出现频率较高的英文字母朗读,在本地以数组的形式保存其标准读音,实现本地调用,提升模型效率。
步骤S104中,本发明实施例提供的对汉语中存在的大量使用阿拉伯数字的寻找,针对这一问题,基于cn2an库和自有算法,通过对原始数据的预处理,将阿拉伯数字转为对应的汉字,再进行模型推理。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上;术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (9)
1.一种中英混合语音合成技术在汉语言教学中的应用方法,其特征在于,所述中英混合语音合成技术在汉语言教学中的应用方法包括;
获取中文中存在的复杂符号,采用正则表达式对中文中的特殊符号进行匹配;
获取对长句中的符号位置,采用正则表达式中的finditer函数,对特殊符号进行匹配并返回其位置;
获取现代日常汉语会话中一定量外来词,汉语会话中主要出现的外来词为英语词汇,采用正则表达式对其进行匹配,并采用英文模型对匹配值的英文字符串进行推理,获取音频的ndarray.array数据;采用音素拼接技术满足发音习惯的字母读音;
获取汉语中使用的阿拉伯数字,采用cn2an库对包含数字的汉语文本进行处理,将阿拉伯数字转换成对应的中文字符。
2.如权利要求1所述中英混合语音合成技术在汉语言教学中的应用方法,其特征在于,所述获取中文中存在的复杂符号,对数据集中只存在逗号和句号的使用情况,对原始输入进行预处理,包括:
(1)停顿,包括逗号、顿号、冒号、句号,在这些位置进行断句,单独成句并进行模型推理;
(2)不停顿,包括书名号、引号,对这些符号进行删除处理;
(3)导致语气变化,包括问号,保留并导入模型进行推理。
3.如权利要求1所述中英混合语音合成技术在汉语言教学中的应用方法,其特征在于,所述获取对长句中的符号位置,根据表示停顿的符号位置,对长句进行切分,逐次进行推理,并对结果进行拼接。
4.如权利要求1所述中英混合语音合成技术在汉语言教学中的应用方法,其特征在于,所述获取现代日常汉语会话中一定量外来词包括:在中文语境下,模型无法识别这些词语,采用中英文模型相结合的方法,设计算法对外来词和汉字进行区分,并分别交由英文模型和中文模型处理,对于出现频率较高的英文字母朗读,在本地以数组的形式保存其标准读音,实现本地调用,提升模型效率。
5.如权利要求1所述中英混合语音合成技术在汉语言教学中的应用方法,其特征在于,所述获取汉语中使用的阿拉伯数字,包括:对汉语中存在的大量使用阿拉伯数字的寻找,针基于cn2an库和自有算法,通过对原始数据的预处理,将阿拉伯数字转为对应的汉字,再进行模型推理。
6.一种中英混合语音合成技术在汉语言教学中的应用系统,其特征在于,所述中英混合语音合成技术在汉语言教学中的应用系统包括:
复杂符号获取模块,用于获取中文中存在的复杂符号;
符号位置获取模块,用于获取对长句中的符号位置;
外来词获取模块,用于获取现代日常汉语会话中一定量外来词;
阿拉伯数字获取模块,用于获取汉语中使用的阿拉伯数字。
7.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
获取中文中存在的复杂符号;
获取对长句中的符号位置;
获取现代日常汉语会话中一定量外来词;
获取汉语中使用的阿拉伯数字。
8.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
获取中文中存在的复杂符号;
获取对长句中的符号位置;
获取现代日常汉语会话中一定量外来词;
获取汉语中使用的阿拉伯数字。
9.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现权利要求1~5任意一项所述的中英混合语音合成技术在汉语言教学中的应用方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011588951.7A CN112667865A (zh) | 2020-12-29 | 2020-12-29 | 中英混合语音合成技术在汉语言教学中的应用的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011588951.7A CN112667865A (zh) | 2020-12-29 | 2020-12-29 | 中英混合语音合成技术在汉语言教学中的应用的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112667865A true CN112667865A (zh) | 2021-04-16 |
Family
ID=75411665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011588951.7A Pending CN112667865A (zh) | 2020-12-29 | 2020-12-29 | 中英混合语音合成技术在汉语言教学中的应用的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112667865A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101572083A (zh) * | 2008-04-30 | 2009-11-04 | 富士通株式会社 | 韵律词组词方法和装置 |
CN105845125A (zh) * | 2016-05-18 | 2016-08-10 | 百度在线网络技术(北京)有限公司 | 语音合成方法和语音合成装置 |
CN105869446A (zh) * | 2016-03-29 | 2016-08-17 | 广州阿里巴巴文学信息技术有限公司 | 一种电子阅读装置和语音阅读加载方法 |
CN105989833A (zh) * | 2015-02-28 | 2016-10-05 | 讯飞智元信息科技有限公司 | 多语种混语文本字音转换方法及系统 |
CN107680579A (zh) * | 2017-09-29 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 文本正则化模型训练方法和装置、文本正则化方法和装置 |
CN107945786A (zh) * | 2017-11-27 | 2018-04-20 | 北京百度网讯科技有限公司 | 语音合成方法和装置 |
CN109389968A (zh) * | 2018-09-30 | 2019-02-26 | 平安科技(深圳)有限公司 | 基于双音节混搭的波形拼接方法、装置、设备及存储介质 |
CN109686361A (zh) * | 2018-12-19 | 2019-04-26 | 深圳前海达闼云端智能科技有限公司 | 一种语音合成的方法、装置、计算设备及计算机存储介质 |
JP2019109278A (ja) * | 2017-12-15 | 2019-07-04 | 株式会社日立超エル・エス・アイ・システムズ | 音声合成システム、統計モデル生成装置、音声合成装置、音声合成方法 |
CN110808028A (zh) * | 2019-11-22 | 2020-02-18 | 芋头科技(杭州)有限公司 | 嵌入式语音合成方法、装置以及控制器和介质 |
CN111292720A (zh) * | 2020-02-07 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
-
2020
- 2020-12-29 CN CN202011588951.7A patent/CN112667865A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101572083A (zh) * | 2008-04-30 | 2009-11-04 | 富士通株式会社 | 韵律词组词方法和装置 |
CN105989833A (zh) * | 2015-02-28 | 2016-10-05 | 讯飞智元信息科技有限公司 | 多语种混语文本字音转换方法及系统 |
CN105869446A (zh) * | 2016-03-29 | 2016-08-17 | 广州阿里巴巴文学信息技术有限公司 | 一种电子阅读装置和语音阅读加载方法 |
CN105845125A (zh) * | 2016-05-18 | 2016-08-10 | 百度在线网络技术(北京)有限公司 | 语音合成方法和语音合成装置 |
CN107680579A (zh) * | 2017-09-29 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 文本正则化模型训练方法和装置、文本正则化方法和装置 |
CN107945786A (zh) * | 2017-11-27 | 2018-04-20 | 北京百度网讯科技有限公司 | 语音合成方法和装置 |
JP2019109278A (ja) * | 2017-12-15 | 2019-07-04 | 株式会社日立超エル・エス・アイ・システムズ | 音声合成システム、統計モデル生成装置、音声合成装置、音声合成方法 |
CN109389968A (zh) * | 2018-09-30 | 2019-02-26 | 平安科技(深圳)有限公司 | 基于双音节混搭的波形拼接方法、装置、设备及存储介质 |
CN109686361A (zh) * | 2018-12-19 | 2019-04-26 | 深圳前海达闼云端智能科技有限公司 | 一种语音合成的方法、装置、计算设备及计算机存储介质 |
CN110808028A (zh) * | 2019-11-22 | 2020-02-18 | 芋头科技(杭州)有限公司 | 嵌入式语音合成方法、装置以及控制器和介质 |
CN111292720A (zh) * | 2020-02-07 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111951779B (zh) | 语音合成的前端处理方法及相关设备 | |
CN111951780B (zh) | 语音合成的多任务模型训练方法及相关设备 | |
CN111681642B (zh) | 语音识别评估方法、装置、存储介质及设备 | |
CN111402862B (zh) | 语音识别方法、装置、存储介质及设备 | |
CN111312209A (zh) | 文本到语音的转换处理方法、装置及电子设备 | |
CN110600002B (zh) | 语音合成方法、装置及电子设备 | |
CN112365878B (zh) | 语音合成方法、装置、设备及计算机可读存储介质 | |
CN110852075B (zh) | 自动添加标点符号的语音转写方法、装置及可读存储介质 | |
CN111414745A (zh) | 文本标点确定方法与装置、存储介质、电子设备 | |
CN112364653A (zh) | 用于语音合成的文本分析方法、装置、服务器和介质 | |
CN115101042B (zh) | 一种文本处理方法、装置及设备 | |
CN110826301A (zh) | 标点符号添加方法、系统、移动终端及存储介质 | |
CN112151019A (zh) | 文本处理方法、装置及计算设备 | |
Coto‐Solano | Computational sociophonetics using automatic speech recognition | |
CN114783405B (zh) | 一种语音合成方法、装置、电子设备及存储介质 | |
CN112667865A (zh) | 中英混合语音合成技术在汉语言教学中的应用的方法及系统 | |
CN113077786B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
CN115099222A (zh) | 标点符号误用检测纠正方法、装置、设备及存储介质 | |
Saeki et al. | Text-Inductive Graphone-Based Language Adaptation for Low-Resource Speech Synthesis | |
CN114708848A (zh) | 音视频文件大小的获取方法和装置 | |
CN115249472A (zh) | 一种结合上文语境实现重音统筹的语音合成方法及装置 | |
CN113761865A (zh) | 声文重对齐及信息呈现方法、装置、电子设备和存储介质 | |
Carson-Berndsen | Multilingual time maps: portable phonotactic models for speech technology | |
CN111475708A (zh) | 一种跟读内容的推送方法、介质、装置和计算设备 | |
CN111489742A (zh) | 声学模型训练方法、语音识别方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210416 |