CN111986646A - 一种基于小语料库的方言合成方法及系统 - Google Patents
一种基于小语料库的方言合成方法及系统 Download PDFInfo
- Publication number
- CN111986646A CN111986646A CN202010825021.2A CN202010825021A CN111986646A CN 111986646 A CN111986646 A CN 111986646A CN 202010825021 A CN202010825021 A CN 202010825021A CN 111986646 A CN111986646 A CN 111986646A
- Authority
- CN
- China
- Prior art keywords
- dialect
- corpus
- model
- training
- mandarin
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 11
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 49
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 49
- 241001672694 Citrus reticulata Species 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 14
- 238000001228 spectrum Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 6
- 238000013526 transfer learning Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 6
- 230000009286 beneficial effect Effects 0.000 description 10
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/086—Detection of language
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于小语料库的方言合成方法及系统,所述方法执行以下步骤:步骤1:基于普通话语料生成基础模型;步骤2:获取方言训练语料;步骤3:基于所述方言训练语料对所述基础模型进行训练,得到方言语音合成模型。根据本发明的方法,使用迁移学习的思想,在已有的普通话的基础模型的基础上训练方言模型,这样可以在没有足够方言训练语料的情况下,达到高似然度的方言语音合成效果。
Description
技术领域
本发明涉及语音合成技术领域,特别涉及一种基于小语料库的方言合成方法及系统。
背景技术
目前,常见的语音合成方法,采用基于Tacotron2模型和Wavenet生码器的端到端的语音合成系统,其使用Tacotron2系统是根据文本信息预处理产生的编码串,来生成梅尔频谱,并将梅尔频谱作为Wavenet声码器的输入,来生成出对应语音输出。
然而,现在基于Tacotron2模型和Wavenet生码器的端到端的语音合成系统,通常需要很大的数据量来使得模型收敛,以达到比较理想的语音合成效果。但在汉语合成领域,相较于普通话,方言由于其语言学特性,其训练语料的获取成本和难度更高,如此就很难收集到足够的数据量来训练端到端语音合成系统。
发明内容
本发明提供一种基于小语料库的方言合成方法及系统,用以在没有足够方言训练语料的情况下,获得高似然度的方言语音合成效果。
本发明提供了一种基于小语料库的方言合成方法,所述方法执行以下步骤:
步骤1:基于普通话语料生成基础模型;
步骤2:获取方言训练语料;
步骤3:基于所述方言训练语料对所述基础模型进行训练,得到方言语音合成模型。
进一步地,在所述步骤1中,所述基于普通话语料生成基础模型执行以下步骤:
步骤S11:使用大量的普通话语料,训练基于Tacotron2模型和Wavenet生码器的端到端语音合成模型;
步骤S12:将训练好的基于Tacotron2模型和Wavenet生码器的端到端语音合成模型作为所述基础模型。
进一步地,在所述步骤2中,所述方言训练语料包括:方言语音音频和/或方言拼音序列。
进一步地,所述步骤2:获取方言训练语料执行以下步骤:
步骤S21:选择母语为目标方言的声优进行录制,得到所述方言语音音频;
步骤S22:使用自建方言词典对录制所述方言语音音频时所使用的音译文本进行字音转换,得到所述方言拼音序列。
进一步地,在所述步骤S22中,所述自建方言词典是通过以下步骤构建的:
步骤S221:根据语言学信息对普通话的声韵集合进行扩展;
步骤S222:使用五度法对普通话的声调种类进行扩展。
进一步地,所述步骤3:基于所述方言训练语料对所述基础模型进行训练,得到方言语音合成模型执行以下步骤:
步骤S31:将所述方言拼音序列作为Tacotron2模型的输入,将梅尔频谱序列作为所述Tacotron2模型的输出;
步骤S32:将所述梅尔频谱序列作为所述Wavenet声码器的输入,所述Wavenet声码器对所述梅尔频谱序列进行特征建模,输出对应的音频。
本发明实施例提供的一种基于小语料库的方言合成方法,具有以下有益效果:使用迁移学习的思想,在已有的普通话的基础模型的基础上训练方言模型,这样可以在没有足够方言训练语料的情况下,达到高似然度的方言语音合成效果。
本发明还提供一种基于小语料库的方言合成系统,包括:
基础模型生成模块,用于基于普通话语料生成基础模型;
方言训练语料获取模块,用于获取方言训练语料:
方言模型训练模块,用于基于所述方言训练语料对所述基础模型进行训练,得到方言语音合成模型。
进一步地,所述基础模型生成模块具体用于:
使用大量的普通话语料,训练基于Tacotron2模型和Wavenet生码器的端到端语音合成模型,将训练好的基于Tacotron2模型和Wavenet生码器的端到端语音合成模型作为所述基础模型。
进一步地,所述方言训练语料获取模块所获取的所述方言训练语料包括:方言语音音频和/或方言拼音序列。
进一步地,所述方言训练语料获取模块包括:
方言语音音频获取单元,用于选择母语为目标方言的声优进行录制,得到所述方言语音音频;
方言拼音序列获取单元,用于使用自建方言词典对录制所述方言语音音频时所使用的音译文本进行字音转换,得到所述方言拼音序列。
本发明实施例提供的一种基于小语料库的方言合成系统,具有以下有益效果:使用迁移学习的思想,在已有的普通话的基础模型的基础上训练方言模型,这样可以在没有足够方言训练语料的情况下,达到高似然度的方言语音合成效果。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种基于小语料库的方言合成方法的流程示意图;
图2为本发明实施例中一种基于小语料库的方言合成系统的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种基于小语料库的方言合成方法,如图1所示,所述方法执行以下步骤:
步骤1:基于普通话语料生成基础模型;
步骤2:获取方言训练语料;
步骤3:基于所述方言训练语料对所述基础模型进行训练,得到方言语音合成模型。
上述技术方案的工作原理为:发明人经过研究发现,在汉语合成领域,相较于普通话,方言由于其语言学特性,其训练语料的获取成本和难度更高,如此就很难收集到足够的数据量来训练端到端语音合成系统。
本发明将知识蒸馏原理应用到端到端语音合成系统的训练中,在获取原始训练数据后,首先利用原始训练数据对老师模型进行训练,然后将利用老师模型预测的特征参数作为训练数据,对学生模型进行训练;最终使用训练好的学生模型学生模型来做声学特征参数的预测,以进行端到端语音合成。
上述技术方案的有益效果为:使用迁移学习的思想,在已有的普通话的基础模型的基础上训练方言模型,这样可以在没有足够方言训练语料的情况下,达到高似然度的方言语音合成效果。
在一个实施例中,在所述步骤1中,所述基于普通话语料生成基础模型执行以下步骤:
步骤S11:使用大量的普通话语料,训练基于Tacotron2模型和Wavenet生码器的端到端语音合成模型;
步骤S12:将训练好的基于Tacotron2模型和Wavenet生码器的端到端语音合成模型作为所述基础模型。
上述技术方案的工作原理为:首先使用大量的普通话语料,训练基于Tacotron2模型和Wavenet生码器的端到端语音合成模型;然后将训练好的基于Tacotron2模型和Wavenet生码器的端到端语音合成模型作为基础模型。
上述技术方案的有益效果为:提供了基于普通话语料生成基础模型的具体步骤。
在一个实施例中,在所述步骤2中,所述方言训练语料包括:方言语音音频和/或方言拼音序列。
上述技术方案的工作原理为:方言训练语料与普通话的训练语料类似,包含如下两个部分:方言语音音频、方言拼音序列。本发明在一种实施方式中,方言训练语料包括方言语音音频;本发明在另一实施方式中,方言训练语料包括方言拼音序列;本发明在又一实施方式中所述方言训练语料包括:方言语音音频和方言拼音序列两者。
具体而言,所述步骤2:获取方言训练语料执行以下步骤:
步骤S21:选择母语为目标方言的声优进行录制,得到所述方言语音音频;
步骤S22:使用自建方言词典对录制所述方言语音音频时所使用的音译文本进行字音转换,得到所述方言拼音序列。
在步骤S21中的声优是指配音演员,即用声音来进行表演的人。
上述技术方案的有益效果为:提供了获取方言训练语料的具体步骤。
在一个实施例中,在所述步骤S22中,所述自建方言词典是通过以下步骤构建的:
步骤S221:根据语言学信息对普通话的声韵集合进行扩展;
步骤S222:使用五度法对普通话的声调种类进行扩展。
上述技术方案的工作原理为:由于方言的特殊性,不能使用普通话的拼音来覆盖所有的方言读音,所以在本发明中根据语言学对普通话的声韵集合进行了扩展,并且使用五度法扩展了声调种类。
其中,步骤S221中的语言学信息是相对声学信息而言的,声学信息对应于人类说话的发音习惯,语言学信息对应于人类说话的文本信息习惯,其与具体的说话内容相关。
在步骤S222中,五度法指的是,先用一根竖线作为比较线,分成四等分,由低向高标上1、2、3、4、5,依次表示低、半低、中、半高、高,在直线的左边用横线,斜线、曲线来表示普通话四个调值的高低升降变化。高而平的线表示阴平,以55来表示;由中向高变化的线表示阳平,用35来代表:先降后升的线表示上声,用214来表示;由高而低的线表示去声,用51来代表。
上述技术方案的有益效果为:提供了构建自建方言词典的具体步骤。
在一个实施例中,所述步骤3:基于所述方言训练语料对所述基础模型进行训练,得到方言语音合成模型执行以下步骤:
步骤S31:将所述方言拼音序列作为Tacotron2模型的输入,将梅尔频谱序列作为所述Tacotron2模型的输出;
步骤S32:将所述梅尔频谱序列作为所述Wavenet声码器的输入,所述Wavenet声码器对所述梅尔频谱序列进行特征建模,输出对应的音频。
上述技术方案的工作原理为:根据迁移学习的思想,使用步骤2中获得的方言训练语料,对步骤1中获得的基础模型进行重新训练,来获得方言的Tacotron2+Wavenet模型。
具体地,Tacotron2模型实现方言拼音序列到梅尔频谱的转化,将梅尔频谱序列输入到声码器,通过声码器提取特征并输出音频。
上述技术方案的有益效果为:提供了基于方言训练语料对基础模型进行训练,得到方言语音合成模型的具体步骤。
如图2所示,本发明实施例提供了一种基于小语料库的方言合成系统,包括:
基础模型生成模块201,用于基于普通话语料生成基础模型;
方言训练语料获取模块202,用于获取方言训练语料:
方言模型训练模块203,用于基于所述方言训练语料对所述基础模型进行训练,得到方言语音合成模型。
上述技术方案的工作原理为:本发明使用迁移学习的思想,在已有的普通话的基础模型的基础上训练方言模型。具体而言,基础模型生成模块201基于普通话语料生成基础模型;方言训练语料获取模块202获取方言训练语料:方言模型训练模块203基于所述方言训练语料对所述基础模型进行训练,得到方言语音合成模型。
上述技术方案的有益效果为:使用迁移学习的思想,在已有的普通话的基础模型的基础上训练方言模型,这样可以在没有足够方言训练语料的情况下,达到高似然度的方言语音合成效果。
在一个实施例中,所述基础模型生成模块201具体用于:
使用大量的普通话语料,训练基于Tacotron2模型和Wavenet生码器的端到端语音合成模型,将训练好的基于Tacotron2模型和Wavenet生码器的端到端语音合成模型作为所述基础模型。
上述技术方案的工作原理为:基础模型生成模块201首先使用大量的普通话语料,训练基于Tacotron2模型和Wavenet生码器的端到端语音合成模型;然后将训练好的基于Tacotron2模型和Wavenet生码器的端到端语音合成模型作为基础模型。
上述技术方案的有益效果为:借助于基础模型生成模块,可以基于普通话语料生成基础模型。
在一个实施例中,所述方言训练语料获取模块202所获取的所述方言训练语料包括:方言语音音频和/或方言拼音序列。
上述技术方案的工作原理为:方言训练语料与普通话的训练语料类似,包含如下两个部分:方言语音音频、方言拼音序列。本发明在一种实施方式中,方言训练语料包括方言语音音频;本发明在另一实施方式中,方言训练语料包括方言拼音序列;本发明在又一实施方式中所述方言训练语料包括:方言语音音频和方言拼音序列两者。
具体而言,所述方言训练语料获取模块202包括:
方言语音音频获取单元,用于选择母语为目标方言的声优进行录制,得到所述方言语音音频;
方言拼音序列获取单元,用于使用自建方言词典对录制所述方言语音音频时所使用的音译文本进行字音转换,得到所述方言拼音序列。
其中,方言语音音频获取单元所选择的母语为目标方言的声优是指配音演员,即用声音来进行表演的人。
上述技术方案的有益效果为:借助于方言语音音频获取单元和方言拼音序列获取单元,可以实现方言训练语料的获取。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于小语料库的方言合成方法,其特征在于,所述方法执行以下步骤:
步骤1:基于普通话语料生成基础模型;
步骤2:获取方言训练语料;
步骤3:基于所述方言训练语料对所述基础模型进行训练,得到方言语音合成模型。
2.如权利要求1所述的方法,其特征在于,在所述步骤1中,所述基于普通话语料生成基础模型执行以下步骤:
步骤S11:使用大量的普通话语料,训练基于Tacotron2模型和Wavenet生码器的端到端语音合成模型;
步骤S12:将训练好的基于Tacotron2模型和Wavenet生码器的端到端语音合成模型作为所述基础模型。
3.如权利要求2所述的方法,其特征在于,在所述步骤2中,所述方言训练语料包括:方言语音音频和/或方言拼音序列。
4.如权利要求3所述的方法,其特征在于,所述步骤2:获取方言训练语料执行以下步骤:
步骤S21:选择母语为目标方言的声优进行录制,得到所述方言语音音频;
步骤S22:使用自建方言词典对录制所述方言语音音频时所使用的音译文本进行字音转换,得到所述方言拼音序列。
5.如权利要求3所述的方法,其特征在于,在所述步骤S22中,所述自建方言词典是通过以下步骤构建的:
步骤S221:根据语言学信息对普通话的声韵集合进行扩展;
步骤S222:使用五度法对普通话的声调种类进行扩展。
6.如权利要求3所述的方法,其特征在于,所述步骤3:基于所述方言训练语料对所述基础模型进行训练,得到方言语音合成模型执行以下步骤:
步骤S31:将所述方言拼音序列作为Tacotron2模型的输入,将梅尔频谱序列作为所述Tacotron2模型的输出;
步骤S32:将所述梅尔频谱序列作为所述Wavenet声码器的输入,所述Wavenet声码器对所述梅尔频谱序列进行特征建模,输出对应的音频。
7.一种基于小语料库的方言合成系统,其特征在于,包括:
基础模型生成模块,用于基于普通话语料生成基础模型;
方言训练语料获取模块,用于获取方言训练语料:
方言模型训练模块,用于基于所述方言训练语料对所述基础模型进行训练,得到方言语音合成模型。
8.如权利要求7所述的系统,其特征在于,所述基础模型生成模块具体用于:
使用大量的普通话语料,训练基于Tacotron2模型和Wavenet生码器的端到端语音合成模型,将训练好的基于Tacotron2模型和Wavenet生码器的端到端语音合成模型作为所述基础模型。
9.如权利要求7所述的系统,其特征在于,所述方言训练语料获取模块所获取的所述方言训练语料包括:方言语音音频和/或方言拼音序列。
10.如权利要求9所述的系统,其特征在于,所述方言训练语料获取模块包括:
方言语音音频获取单元,用于选择母语为目标方言的声优进行录制,得到所述方言语音音频;
方言拼音序列获取单元,用于使用自建方言词典对录制所述方言语音音频时所使用的音译文本进行字音转换,得到所述方言拼音序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010825021.2A CN111986646B (zh) | 2020-08-17 | 2020-08-17 | 一种基于小语料库的方言合成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010825021.2A CN111986646B (zh) | 2020-08-17 | 2020-08-17 | 一种基于小语料库的方言合成方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111986646A true CN111986646A (zh) | 2020-11-24 |
CN111986646B CN111986646B (zh) | 2023-12-15 |
Family
ID=73435608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010825021.2A Active CN111986646B (zh) | 2020-08-17 | 2020-08-17 | 一种基于小语料库的方言合成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111986646B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113178186A (zh) * | 2021-04-27 | 2021-07-27 | 湖南师范大学 | 一种方言语音合成方法、装置、电子设备和存储介质 |
CN113191164A (zh) * | 2021-06-02 | 2021-07-30 | 云知声智能科技股份有限公司 | 方言语音合成方法、装置、电子设备和存储介质 |
CN113314092A (zh) * | 2021-05-11 | 2021-08-27 | 北京三快在线科技有限公司 | 一种模型训练和语音交互的方法及装置 |
CN113611293A (zh) * | 2021-08-19 | 2021-11-05 | 内蒙古工业大学 | 一种蒙古语数据集扩充方法 |
CN114267334A (zh) * | 2021-12-29 | 2022-04-01 | 思必驰科技股份有限公司 | 语音识别模型训练方法及语音识别方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217713A (zh) * | 2014-07-15 | 2014-12-17 | 西北师范大学 | 汉藏双语语音合成方法及装置 |
CN105118498A (zh) * | 2015-09-06 | 2015-12-02 | 百度在线网络技术(北京)有限公司 | 语音合成模型的训练方法及装置 |
CN105336322A (zh) * | 2015-09-30 | 2016-02-17 | 百度在线网络技术(北京)有限公司 | 多音字模型训练方法、语音合成方法及装置 |
WO2017197809A1 (zh) * | 2016-05-18 | 2017-11-23 | 百度在线网络技术(北京)有限公司 | 语音合成方法和语音合成装置 |
CN110136691A (zh) * | 2019-05-28 | 2019-08-16 | 广州多益网络股份有限公司 | 一种语音合成模型训练方法、装置、电子设备及存储介质 |
CN110534089A (zh) * | 2019-07-10 | 2019-12-03 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
WO2020147404A1 (zh) * | 2019-01-17 | 2020-07-23 | 平安科技(深圳)有限公司 | 文本的语音合成方法、装置、计算机设备及计算机非易失性可读存储介质 |
KR20200092505A (ko) * | 2019-01-13 | 2020-08-04 | 네오데우스 주식회사 | 심층 합성곱 신경망 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 방법 |
-
2020
- 2020-08-17 CN CN202010825021.2A patent/CN111986646B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217713A (zh) * | 2014-07-15 | 2014-12-17 | 西北师范大学 | 汉藏双语语音合成方法及装置 |
CN105118498A (zh) * | 2015-09-06 | 2015-12-02 | 百度在线网络技术(北京)有限公司 | 语音合成模型的训练方法及装置 |
CN105336322A (zh) * | 2015-09-30 | 2016-02-17 | 百度在线网络技术(北京)有限公司 | 多音字模型训练方法、语音合成方法及装置 |
WO2017197809A1 (zh) * | 2016-05-18 | 2017-11-23 | 百度在线网络技术(北京)有限公司 | 语音合成方法和语音合成装置 |
KR20200092505A (ko) * | 2019-01-13 | 2020-08-04 | 네오데우스 주식회사 | 심층 합성곱 신경망 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 방법 |
WO2020147404A1 (zh) * | 2019-01-17 | 2020-07-23 | 平安科技(深圳)有限公司 | 文本的语音合成方法、装置、计算机设备及计算机非易失性可读存储介质 |
CN110136691A (zh) * | 2019-05-28 | 2019-08-16 | 广州多益网络股份有限公司 | 一种语音合成模型训练方法、装置、电子设备及存储介质 |
CN110534089A (zh) * | 2019-07-10 | 2019-12-03 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
Non-Patent Citations (6)
Title |
---|
侯建康: "面向中文广告文本的语音合成技术研究", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 02, pages 136 - 441 * |
吴沛文: "汉藏双语跨语言语音合成的研究", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 01, pages 136 - 431 * |
梁青青等: "利用五度字调模型实现普通话到兰州方言的转换", 声学技术, no. 06, pages 620 - 625 * |
王振文: "汉藏双语跨语言语音转换方法的研究", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 01, pages 136 - 72 * |
王海燕等: "基于说话人自适应训练的汉藏双语语音合成", 清华大学学报(自然科学版), no. 06, pages 776 - 780 * |
黄小明等: "基于古音系统的汉语方言语音合成", 清华大学学报(自然科学版), no. 06, pages 771 - 775 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113178186A (zh) * | 2021-04-27 | 2021-07-27 | 湖南师范大学 | 一种方言语音合成方法、装置、电子设备和存储介质 |
CN113178186B (zh) * | 2021-04-27 | 2022-10-18 | 湖南师范大学 | 一种方言语音合成方法、装置、电子设备和存储介质 |
CN113314092A (zh) * | 2021-05-11 | 2021-08-27 | 北京三快在线科技有限公司 | 一种模型训练和语音交互的方法及装置 |
CN113191164A (zh) * | 2021-06-02 | 2021-07-30 | 云知声智能科技股份有限公司 | 方言语音合成方法、装置、电子设备和存储介质 |
CN113191164B (zh) * | 2021-06-02 | 2023-11-10 | 云知声智能科技股份有限公司 | 方言语音合成方法、装置、电子设备和存储介质 |
CN113611293A (zh) * | 2021-08-19 | 2021-11-05 | 内蒙古工业大学 | 一种蒙古语数据集扩充方法 |
CN114267334A (zh) * | 2021-12-29 | 2022-04-01 | 思必驰科技股份有限公司 | 语音识别模型训练方法及语音识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111986646B (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111986646B (zh) | 一种基于小语料库的方言合成方法及系统 | |
US11837216B2 (en) | Speech recognition using unspoken text and speech synthesis | |
CN110534089B (zh) | 一种基于音素和韵律结构的中文语音合成方法 | |
TWI573129B (zh) | 編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法 | |
CN106057192A (zh) | 一种实时语音转换方法和装置 | |
CN105280177A (zh) | 语音合成字典创建装置、语音合成器、以及语音合成字典创建方法 | |
US11295725B2 (en) | Self-training WaveNet for text-to-speech | |
CN113012678A (zh) | 一种免标注的特定说话人语音合成方法及装置 | |
TWI258731B (en) | Chinese speech synthesis unit selection module and method | |
Wu et al. | Oral English Speech Recognition Based on Enhanced Temporal Convolutional Network. | |
Xu et al. | The PENTA Model: Concepts, Use, and Implications | |
CN113257221B (zh) | 一种基于前端设计的语音模型训练方法及语音合成方法 | |
CN112820266B (zh) | 一种基于跳跃编码器的并行端到端语音合成方法 | |
Panda et al. | Text-to-speech synthesis with an Indian language perspective | |
JP7357518B2 (ja) | 音声合成装置及びプログラム | |
Chiang et al. | The Speech Labeling and Modeling Toolkit (SLMTK) Version 1.0 | |
CN114446278A (zh) | 语音合成方法及装置、设备以及存储介质 | |
Unnibhavi et al. | Development of Kannada speech corpus for continuous speech recognition | |
Nair et al. | Indian text to speech systems: A short survey | |
CN113362803B (zh) | 一种arm侧离线语音合成的方法、装置及存储介质 | |
Sun | Using End-to-end Multitask Model for Simultaneous Language Identification and Phoneme Recognition | |
Navas et al. | Developing a Basque TTS for the Navarro-Lapurdian dialect | |
Akinwonmi et al. | A prosodic text-to-speech system for yorùbá language | |
Ekpenyong et al. | Unifying Speech Resources for Tone Languages: A Computational Perspective | |
Hao | Design of English Speech Comprehensive Training System for Smart Phone |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |