CN114005430A - 语音合成模型的训练方法、装置、电子设备和存储介质 - Google Patents
语音合成模型的训练方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN114005430A CN114005430A CN202111423814.2A CN202111423814A CN114005430A CN 114005430 A CN114005430 A CN 114005430A CN 202111423814 A CN202111423814 A CN 202111423814A CN 114005430 A CN114005430 A CN 114005430A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- module
- text
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 200
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 86
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 84
- 230000007246 mechanism Effects 0.000 claims description 36
- 239000011159 matrix material Substances 0.000 claims description 29
- 230000008451 emotion Effects 0.000 claims description 28
- 230000002159 abnormal effect Effects 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 18
- 238000001914 filtration Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 16
- 238000001228 spectrum Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 11
- 230000002441 reversible effect Effects 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 230000005484 gravity Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 15
- 238000004891 communication Methods 0.000 description 10
- 230000001965 increasing effect Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 230000005291 magnetic effect Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000002996 emotional effect Effects 0.000 description 4
- 238000001308 synthesis method Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000007493 shaping process Methods 0.000 description 3
- 230000009747 swallowing Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 206010011469 Crying Diseases 0.000 description 2
- GVGLGOZIDCSQPN-PVHGPHFFSA-N Heroin Chemical compound O([C@H]1[C@H](C=C[C@H]23)OC(C)=O)C4=C5[C@@]12CCN(C)[C@@H]3CC5=CC=C4OC(C)=O GVGLGOZIDCSQPN-PVHGPHFFSA-N 0.000 description 2
- 208000037656 Respiratory Sounds Diseases 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000011049 filling Methods 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 241000989913 Gunnera petaloidea Species 0.000 description 1
- 208000031361 Hiccup Diseases 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 240000005373 Panax quinquefolius Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本公开是关于一种语音合成模型的训练方法、装置、电子设备和存储介质。该方法包括:获取第一训练数据和第二训练数据,所述第一训练数据用于训练第一预设模型,所述第二训练数据用于训练第二预设模型;利用所述第一训练数据训练所述第一预设模型,获得第一模型;以及利用所述第二训练数据训练所述第二预设模型,获得前端模型;基于所述第一模型构建目标模型;基于所述目标模型和所述前端模型构建语音合成模型;所述语音合成模型用于对待合成文本进行语音合成以获得目标音频。本实施例中前端模型可以对待识别文本进行预处理且目标模型可以将预处理后的文本转换成目标音频,可以适用于需要语音的业务场景,提升使用体验。
Description
技术领域
本公开涉及语音合成技术领域,尤其涉及一种语音合成模型的训练方法、装置、电子设备和存储介质。
背景技术
随着智能化设备的普及以及语音识别技术的发展,人们的交互方式已经慢慢从传统的文本转向了更人性化的语音交互方式。语音合成技术能够让机器拥有人类的声音,改变了传统的文字交互方式。
发明内容
本公开提供一种语音合成模型的训练方法、装置、电子设备和存储介质,以解决相关技术的不足。
根据本公开实施例的第一方面,提供一种语音合成模型的训练方法,所述方法包括:
获取第一训练数据和第二训练数据,所述第一训练数据用于训练第一预设模型,所述第二训练数据用于训练第二预设模型;
利用所述第一训练数据训练所述第一预设模型,获得第一模型;以及利用所述第二训练数据训练所述第二预设模型,获得前端模型;
基于所述第一模型构建目标模型;
基于所述目标模型和所述前端模型构建语音合成模型;所述语音合成模型用于对待合成文本进行语音合成以获得目标音频。
可选地,所述第一训练数据包括第一原始数据及其对应的标注标签;所述第一原始数据包括第一原始文本和根据所述第一原始文本生成的语音数据,所述第一原始数据对应的标注标签包括以下至少一种:声调标签、韵律标签、拟人化标签和情感分类标签。
可选地,获取第一训练数据,包括:
获取第一原始文本和所述第一原始文本对应的语音数据,得到第一原始数据;
根据所述第一原始文本对应的语音数据对所述第一原始文本进行标注,获得所述第一原始文本对应的标注标签;
将所述第一原始数据及其对应的标注标签作为第一训练数据。
可选地,所述第一原始文本包括第一文本、第二文本和第三文本;所述第一文本是音素数量超过音素数量阈值的文本,所述第二文本是语气词文本,所述第三文本是表征满足拟人化异常发音要求的文本
可选地,利用所述第一训练数据训练所述第一预设模型,获得第一模型,包括:
对所述第一训练数据进行预处理,获得预处理数据;
基于所述第一训练数据中的标注标签和所述预处理数据获取所述第一预设模型的第一输入数据;以及根据所述预处理数据获取所述第一预设模型的第二输入数据、第三输入数据和第四输入数据;所述第一输入数据是指按照设定顺序排序预处理数据和标注标签得到的数据;所述第二输入数据是指对所述预处理数据中音素发音帧数求Log对数得到的数据;所述第三输入数据是指将所述音素发音帧数转换成的目标对齐矩阵;所述第四输入数据是指所述预处理数据的梅尔幅度谱参数;
将所述第一输入数据输入到所述第一预设模型,获得所述第一预设模型输出的第一输出数据、第二输出数据、第三输出数据和第四输出数据;
基于所述第一输入数据、所述第二输入数据、所述第三输入数据、所述第四输入数据、所述第一输出数据、所述第二输出数据、所述第三输出数据和所述第四输出数据获取所述第一预设模型对应损失函数的损失值;
当所述损失值超过预设的第一损失值阈值时,按照预设调整方式调整所述第一预设模型的各个参数,直至所述损失值小于所述第一损失值阈值时停止训练,得到所述第一模型。
可选地,基于所述第一训练数据中的标注标签和所述预处理数据获取所述第一预设模型的第一输入数据,包括:
将所述预处理数据和所述标注标签按照设定顺序排列,形成第一输入数据。
可选地,根据所述预处理数据获取所述第一预设模型的第二输入数据、第三输入数据和第四输入数据,包括:
对所述预处理数据中音素发音帧数进行求Log对数,获得第二输入数据;
将所述音素发音帧数转换成目标对齐矩阵,获得第三输入数据;
获取所述预处理数据中的梅尔幅度谱参数,获得第四输入数据。
可选地,基于所述第一输入数据、所述第二输入数据、所述第三输入数据、所述第四输入数据、所述第一输出数据、所述第二输出数据、所述第三输出数据和所述第四输出数据获取所述第一预设模型对应损失函数的损失值,包括:
根据所述第一输入数据和所述第四输出数据计算音素分类预测损失值,将所述音频分类预测损失值作为第一损失值;
根据所述第二输入数据和所述第二输出数据计算音素时长预测损失值,将所述音素时长预测损失值作为第二损失值;
根据所述第三输入数据和所述第三输出数据计算对齐预测损失值,并将所述对齐预测损失值作为第三损失值;
根据所述第四输入数据和所述第一输出数据计算声学参数预测损失值,并将所述声学参数预测损失值作为第四损失值;
基于所述第一损失值、所述第二损失值、所述第三损失值和所述第四损失值以及各自的权重值计算所述损失函数的损失值。
可选地,所述第一损失值、所述第二损失值、所述第三损失值和所述第四损失值各自的权重值基于以下原则设置:
所述第一损失值及其权重值的乘积、所述第二损失值及其权重值的乘积、所述第三损失值及其权重值的乘积和所述第四损失值及其权重值的乘积,各乘积的大小均位于同一个预设范围之内;
所述第四损失值、所述第二损失值、所述第三损失值和所述第一损失值的权重值依次减小,并且相邻两个权重值的比值超过设定值。
可选地,所述第一预设模型的结构包括:文本编码模块、音素过滤模块、加法模块、音素分类模块、时长预测模块、注意力机制模块和声学解码模块;所述音素过滤模块分别与所述文本编码模块、所述加法模块、所述音素分类模块和所述时长预测模块连接;所述加法模块分别与所述时长预测模块中倒数第二个隐藏层、所述声学解码模块和所述注意力机制模块连接;
所述文本编码模块的输入数据为第一输入数据;
所述注意力机制模块的输入数据还包括第四输入数据;
所述声学解码模块的输出数据为预测声学参数,并将所述预测声学参数作为第一输出数据;
所述时长预测模块的输出数据为预测音素时长,并将所述预测音素时长作为第二输出数据;
所述注意力机制模块的输出数据为预测对齐矩阵,并将所述预测对齐矩阵作为第三输出数据;
所述音素分类模块的输出数据为音素分类数据,并将所述音素分类数据作为第四输出数据。
可选地,所述目标模型包括第二模型,基于所述第一模型构建目标模型,包括:
按照第一预设方式调整所述第一模型的结构,得到第二模型的结构;
将所述第一模型的参数数据迁移到所述第二模型;所述第二模型用于输出所述目标音频;
其中所述第一预设方式包括:去除所述第一模型中的音素分类模块;保留所述第一模型中的第一输出;将所述第一模型中声学解码模块的输出数据作为所述第一模型中注意力机制模块的输入数据。
可选地,所述目标模型包括第三模型,基于所述第一模型构建目标模型,包括:
按照第二预设方式调整所述第一模型的结构,得到第三模型的结构;
将所述第一模型的参数数据迁移到所述第三模型;所述第二模型用于输出所述目标音频;
其中所述第二预设方式包括:去除所述第一模型中的音素分类模块;保留所述第一模型中的第一输出;将所述第一模型中的注意力机制模块替换为音素扩展模块;将所述第一模型中声学解码模块的输出数据作为所述音素扩展模块的输入数据。
可选地,所述第二训练数据包括第二原始数据及其对应的标签数据;所述第二原始数据包括第二原始文本和根据所述第二原始文本生成的语音数据,所述第二原始数据对应的标签数据包括以下至少一种:分类标签、类型标签、语速快慢标签和异常发音标签;
所述分类标签包括以下至少一种:语气词发音信息标签、拟声词/非拟声词分类标签、语句类型分类标签或情感类型分类标签;所述类型标签包括以下至少一种:连读类型标签、重复类型标签和倒读类型标签;所述异常发音标签包括以下至少一种:拖音标签、吞音标签和懒音标签。
可选地,获取第二训练数据,包括:
获取第二原始文本和所述第二原始文本对应的语音数据,得到第二原始数据;
处理所述第二原始数据,获得所述第二原始数据对应的标签数据;将所述第二原始数据和所述标签数据作为所述第二训练数据。
可选地,处理所述第二原始数据,获得所述第二原始数据对应的标签数据,包括:
采用预设分类方法对所述第二原始文本进行分类,获得分类标签;所述分类标签包括以下至少一种:语气词发音信息标签、拟声词/非拟声词分类标签、语句类型分类标签或情感类型分类标签;
或者,
采用上下文特征分析方法对所述第二原始文本进行分析,获得类型标签;所述类型标签包括以下至少一种:连读类型标签、重复类型标签和倒读类型标签;
或者,
采用强制对齐方法对齐所述第二原始文本及其对应的语音数据,获得每个音节的发音时长;并基于每个音节的发音时长生成语速快慢标签,以及基于每个音节的发音时长和能量参数生成异常发音标签;所述异常发音标签包括以下至少一种:拖音标签、吞音标签和懒音标签;
将所述分类标签、所述类型标签、所述语速快慢标签和所述异常发音标签作为所述第二原始数据对应的标签数据。
可选地,利用所述第二训练数据训练所述第二预设模型,获得前端模型,包括:
将所述第二训练数据中的第二原始文本输入到第二预设模型,并获取所述第二预设模型输出的预测标签数据;
基于所述第二原始文本对应的标签数据和所述预测标签数据获取所述第二预设模型对应损失函数的损失值;
当所述损失值超过预设的第二损失值阈值时,按照预设调整方式调整所述第二预设模型的各个参数,直至所述损失值小于所述第二损失值阈值时停止训练,得到所述前端模型。
根据本公开实施例的第二方面,提供一种语音合成方法,所述方法包括:
获取待合成文本;
将所述待合成文本输入到预设的语音合成模型进行语音合成,输出目标音频;
所述语音合成模型基于所述目标模型和所述前端模型构建而成,所述目标模型是基于利用第一训练数据训练第一预设模型得到的第一模型构成;所述前端模型为利用第二训练数据训练第二预设模型得到的前端模型。
可选地,所述第一训练数据包括第一原始数据及其对应的标注标签;所述第一原始数据包括第一原始文本和根据所述第一原始文本生成的语音数据,所述第一原始数据对应的标注标签包括以下至少一种:声调标签、韵律标签、拟人化标签和情感分类标签。
可选地,所述第一原始文本包括第一文本、第二文本和第三文本;所述第一文本是音素数量超过音素数量阈值的文本,所述第二文本是语气词文本,所述第三文本是表征满足拟人化异常发音要求的文本。
可选地,所述第一预设模型的结构包括:文本编码模块、音素过滤模块、加法模块、音素分类模块、时长预测模块、注意力机制模块和声学解码模块;所述音素过滤模块分别与所述文本编码模块、所述加法模块、所述音素分类模块和所述时长预测模块连接;所述加法模块分别与所述时长预测模块中倒数第二个隐藏层、所述声学解码模块和所述注意力机制模块连接;
所述文本编码模块的输入数据为第一输入数据;所述第一输入数据是指按照设定顺序排序预处理数据和标注标签得到的数据;
所述注意力机制模块的输入数据还包括第四输入数据;所述第四输入数据是指所述预处理数据的梅尔幅度谱参数;
所述声学解码模块的输出数据为预测声学参数,并将所述预测声学参数作为第一输出数据;
所述时长预测模块的输出数据为预测音素时长,并将所述预测音素时长作为第二输出数据;
所述注意力机制模块的输出数据为预测对齐矩阵,并将所述预测对齐矩阵作为第三输出数据;
所述音素分类模块的输出数据为音素分类数据,并将所述音素分类数据作为第四输出数据。
可选地,所述第二训练数据包括第二原始数据及其对应的标签数据;所述第二原始数据包括第二原始文本和根据所述第二原始文本生成的语音数据,所述第二原始数据对应的标签数据包括以下至少一种:分类标签、类型标签、语速快慢标签和异常发音标签;
所述分类标签包括以下至少一种:语气词发音信息标签、拟声词/非拟声词分类标签、语句类型分类标签或情感类型分类标签;所述类型标签包括以下至少一种:连读类型标签、重复类型标签和倒读类型标签;所述异常发音标签包括以下至少一种:拖音标签、吞音标签和懒音标签。
根据本公开实施例的第三方面,提供一种语音合成模型的训练装置,所述装置包括:
训练数据获取模块,被配置为获取第一训练数据和第二训练数据,所述第一训练数据用于训练第一预设模型,所述第二训练数据用于训练第二预设模型;
第一模型获取模块,被配置为利用所述第一训练数据训练所述第一预设模型,获得第一模型;
前端模型获取模块,被配置为利用所述第二训练数据训练所述第二预设模型,获得前端模型;
目标模型构建模块,被配置为基于所述第一模型构建目标模型;
语音模块构建模块,被配置为基于所述目标模型和所述前端模型构建语音合成模型;所述语音合成模型用于对待合成文本进行语音合成以获得目标音频。
根据本公开实施例的第四方面,提供一种语音合成装置,所述装置包括:
文本获取模块,被配置为获取待合成文本;
音频获取模块,被配置为将所述待合成文本输入到预设的语音合成模型进行语音合成,输出目标音频;
所述语音合成模型基于目标模型和前端模型构建而成,所述目标模型是基于利用第一训练数据训练第一预设模型得到的第一模型构成;所述前端模型为利用第二训练数据训练第二预设模型得到的前端模型。
根据本公开实施例的第五方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行的计算机程序的存储器;
其中,所述处理器被配置为执行所述存储器中的计算机程序,以实现如上述的方法。
根据本公开实施例的第六方面,提供一种计算机可读存储介质,当所述存储介质中的可执行的计算机程序由处理器执行时,能够实现如上述的方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
由上述实施例可知,本公开实施例提供的方案中可以获取第一训练数据和第二训练数据,所述第一训练数据用于训练第一预设模型,所述第二训练数据用于训练第二预设模型;然后,利用所述第一训练数据训练所述第一预设模型,获得第一模型;以及利用所述第二训练数据训练所述第二预设模型,获得前端模型;之后,基于所述第一模型构建目标模型;最后,基于所述目标模型和所述前端模型构建语音合成模型;所述语音合成模型用于对待合成文本进行语音合成以获得目标音频。这样,本实施例中前端模型可以对待识别文本进行预处理且目标模型可以将预处理后的文本转换成目标音频,可以适用于需要语音的业务场景,提升使用体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种语音合成模型的训练方法的流程图。
图2是根据一示例性实施例示出的一种获取标注标签的流程图。
图3是根据一示例性实施例示出的一种标签标注的效果示意图。
图4是根据一示例性实施例示出的一种获取第二训练数据的流程图。
图5是根据一示例性实施例示出的一种预测标签的流程图。
图6是根据一示例性实施例示出的一种获取前端模型的流程图。
图7是根据一示例性实施例示出的一种训练前端模型的流程图。
图8是根据一示例性实施例示出的一种前端模型预测标签的流程图。
图9是根据一示例性实施例示出的一种训练第一模型的流程图。
图10是根据一示例性实施例示出的一种第一模型的结构框图。
图11是根据一示例性实施例示出的计算第一预设模型的损失值的流程图。
图12是根据一示例性实施例示出的一种第二模型的结构框图。
图13是根据一示例性实施例示出的一种第三模型的结构框图。
图14是根据一示例性实施例示出的一种语音合成模型的结构框图。
图15是根据一示例性实施例示出的一种语音合成模型的工作流程图。
图16是根据一示例性实施例示出的一种语音合成方法的流程图。
图17是根据一示例性实施例示出的一种语音合成模型的训练装置的框图。
图18是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性所描述的实施例并不代表与本公开相一致的所有实施例。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置例子。需要说明的是,在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
为解决上述技术问题,本公开实施例提供了一种语音合成模型的训练方法,可以应用于具有语音播放功能的电子设备。图1是根据一示例性实施例示出的一种语音合成模型的训练方法的流程图,参见图1,一种语音合成模型的训练方法,包括步骤11~步骤14。
在步骤11中,获取第一训练数据和第二训练数据,所述第一训练数据用于训练第一预设模型,所述第二训练数据用于训练第二预设模型。
本实施例中,电子设备可以获取第一训练数据,参见图2,包括步骤21~步骤22。在步骤21中,电子设备可以获取第一原始文本和上述第一原始文本对应的语音数据(后续也称之为第一原始语音数据),得到第一原始数据。考虑到本公开的语音合成模型输出的目标音频具有拟人特征,本步骤中采用了超级拟人的录音方案,如录音人员利用专业录音棚内的录音设备按照第一原始文本进行录制,得到第一原始文本对应的语音数据,并将第一原始文本及其对应的语音数据造成一组数据对存储到指定位置,如本地存储器或者云端。
需要说明的是,本步骤中第一原始文本经过拟人化设计,包括:第一文本、第二文本和第三文本。第一文本是音素数量超过音素数量阈值的文本,如实际应用中文章、论文、新闻等普通文本;上述音素数量阈值根据具体场景进行设置,以第一文本是中英文本为例,音素数量阈值可以设置为147种。也就是说,第一文本中音素需要覆盖147种音素。第二文本是语气词文本,包括如啊、哦、呃等语气词;第三文本是表征满足拟人化异常发音要求的文本,包括如结巴、拖音、叹气等异常发音。
需要说明的是,第一文本、第二文本和第三文本各自在第一原始文本中所占的比例分别为第一比例、第二比例和第三比例,例如,第一比例取值范围为45%~55%,第二比例取值范围为15%~25%,第三比例取值范围为25%~35%,且第一比例、第二比例和第三比例之和为1。并且第一比例、第二比例和第三比例各自的设置原则包括:(1)第一比例需要满足音素覆盖率均衡要求,可理解为仅采用第一文本训练的第一模型可以输出能够正常发音的目标音频,达到语音合成的最低要求。(2)第二比例需要满足拟人发音的语气,达到在正常发音的基础上具有拟人的效果。(3)第三比例需要满足不同用户发音时的个性化需求,达到在拟人效果的基础上进一步拟人(或者超级拟人)的效果,以期望人机发音相一致的效果。基于上述原则,在一示例中,第一比例取值为50%,第二比例取值为20,第三比例取值为30%,可以复现口语中的轻读、儿化、吞音、懒音、气泡音、添加填充词、重复自然现象,有利于提升后续过程中语音合成拟人化的准确率。
在步骤22中,电子设备可以根据第一原始文本对应的语音数据对第一原始文本进行标注,获得第一原始文本对应的标注标签。上述标注标签可以单独存储,也可以直接插入到第一原始文本对应的语素序列之中。在一示例中,标注过程如下:
1)带有声调的拼音,拼音标注与第一原始语音数据的内容保持一致,效果如图3所示。参见图3,标注内容zhu4 nin3#3sheng1 ri4 kuai4 le4#3中,zhu的声调是四声,因此在zhu后标签4;nin的声调是三声,因此在nin后标签3,依次类推。
2)韵律停顿信息,包含韵律词边界、韵律短语边界、语调短语边界,效果如图3所示。继续参见图3,标注内容zhu4 nin3#3sheng1 ri4 kuai4 le4#3中,nin和sheng之间韵律停顿时间较长,因此标注韵律标签#3,其中数字3表示停顿时间的长短,时间越长则数字越大。
3)拟人化标签,是指表征人说话情绪和发音特征的标签,包括拖音<%DRAG%>、结巴<%RP-SYL%>、倒读<%RP-WRD%>、吞音<%SWALLOW%>、懒音<%LAZY%>、呼吸声<#BREATH#>、笑声<#LAUFHT#>、叹气<#SIGH#>、哭声<#CRY#>、哼声(生气)<#HNG-ANGRY#>、哼声(嘲讽)<#HNG-TAUNT#>、咂嘴声<#SMACK#>、语速<$0><$1><$2>等标签,其中:
3.1)拖音:拟人化标签,用于体现拖音、犹豫的情绪效果,参考格式:<%DRAG%>;
3.2)结巴:拟人化标签,用于体现吞吞吐吐、紧张的情绪效果,参考格式:<%RP-SYL%>;
3.3)倒读:拟人化标签,用于体现反复强调的情绪效果,参考格式:<%RP-WRD%>;
3.4)呼吸声:拟人化标签,用于增加人为发音特征效果,参考格式:<#BREATH#>;
3.5)笑声:拟人化标签,用于增加人为发音特征效果,区别于传统的“哈哈哈”读字方式,参考格式:<#LAUFHT#>;
3.6)叹气:拟人化标签,用于增加人为发音特征效果,区别于传统的“唉”读字方式,参考格式:<#SIGH#>;
3.7)哭声:拟人化标签,用于增加人为发音特征效果,区别于传统的“呜呜呜”读字方式,参考格式:<#CRY#>;
3.8)哼声:拟人化标签,用于增加人为发音特征效果,区别于传统的“哼”读字方式,参考格式:<#HNG-ANGRY#>表示生气、<#HNG-TAUNT#>表示嘲讽;
3.9)吞音:拟人化标签,用于增加人为发音特征效果,参考格式:<%SWALLOW%>;
3.10)懒音:拟人化标签,用于增加人为发音特征效果,参考格式:<%LAZY%>;
3.11)语速:拟人化标签,用于通过语速体现不同情绪状态,参考格式:<$0><$1><$2>分别表示快速、正常、慢速;
3.12)咂嘴声:拟人化标签,用于增加人为发音特征效果,参考格式:<#SMACK#>;
4)语句整体特征,通过连续的情感嵌入编码控制合成的情感控制语句情感类别,包含T0、T1、T2、E0、E1、E2等语句类型标签或者情感分类标签,分别表示陈述句、感叹句、疑问句、中性情绪、开心情绪、悲伤情绪。其中情感分类标签是指表征语句整体情感的标签。上述情感分类标签有利于帮助后续待合成文本和上下文预测情感编码来控制语句的语气,进一步提升音频语句拟人化的效果。
需要说明的是,上述标签过程也可以由人工实现,在此不作限定。
因此,基于上述描述内容,电子设备可以获取第一原始文本对应的标注标签,包括以下至少一种:声调标签、韵律标签、拟人化标签和情感分类标签。需要说明的是,第一原始文本对应的标注标签可以根据具体场景进行设置,上述内容仅用于示例各种标签的设置格式以及不同标签之间的异同,在能够识别出不同标签及其作用的情况下,相应方案落入本公开的保护范围。
这样,电子设备可以将第一原始数据及其对应的标注标签作为第一训练数据,从而得到用于训练第一预设模型的训练数据。
本实施例中,电子设备可以获取第二训练数据,参见图4,包括步骤41~步骤42。
在步骤41中,电子设备可以获取第二原始文本和上述第二原始文本对应的语音数据,得到第二原始数据。考虑到第二预设模型所需训练数据的数量和复杂度较大,本步骤中可以利用开源数据库中的数据来实现,可以采用统计分析方法生成训练数据。如采用了多个人员在不同环境下录制的(文本-语音)数据库,第二原始数据的数量超过10万句。
在步骤42中,电子设备可以处理所述第二原始数据,获得所述第二原始数据对应的标签数据。
参见图5,电子设备可以采用预设分类方法(如FastText分类器、TextCNN等分类器,可调整)对第二原始文本进行分类,获得分类标签。例如,根据汉字及对应的拼音序列,生成语气词发音信息标签、拟声词/非拟声词分类标签;根据语句及对应标点符号,生成语句类型或情感类型分类标签等。即上述分类标签包括以下至少一种:语气词发音信息标签、拟声词/非拟声词分类标签、语句类型分类标签或情感类型分类标签。
继续参见图5,电子设备可以采用上下文特征分析方法对第二原始文本进行分析,获得类型标签。例如,采用正则匹配方法,判断是否存在连读、重复、倒读等类型,并生成相应标签;上述类型标签包括以下至少一种:连读类型标签、重复类型标签和倒读类型标签。实际应用中,还可以根据重复率统计分析,判断连读、重复等类型的频次阈值,并将上述频次阈值作为重复文本填充、冗余文字删减的参考阈值。
继续参见,电子设备可以采用(相关技术中的强制对齐工具)强制对齐方法对齐第二原始文本及其对应的语音数据,获得每个音节的发音时长;并基于每个音节的发音时长生成语速快慢标签,以及基于每个音节的发音时长和能量参数生成异常发音标签;上述异常发音标签包括以下至少一种:拖音标签、吞音标签和懒音标签。
这样,电子设备可以将上述分类标签、上述类型标签、上述语速快慢标签和上述异常发音标签作为第二原始数据对应的标签数据,并且将上述第二原始数据和上述标签数据作为训练第二预设模型的第二训练数据。
在步骤12中,利用所述第一训练数据训练所述第一预设模型,获得第一模型;以及利用所述第二训练数据训练所述第二预设模型,获得前端模型。
本实施例中,电子设备可以利用第二训练数据训练第二预设模型,获得前端模型,参见图6,包括步骤61~步骤63。
在步骤61中,电子设备可以将第二训练数据中的第二原始文本输入到第二预设模型,并获取第二预设模型输出的预设标签数据。上述第二预设模型可以采用双向长短期记忆模型(BLSTM)实现。其中BLSTM的结构可以参见相关技术,在此不作赘述。
以训练BLSTM模型为例,训练结构如图7所示。参见图7,电子设备可以将第二原始文本转换成向量化文本后输入到BLSTM模型。然后,电子设备可以获得BLSTM模型输出的预测标签数据。
需要说明的是,图7中在BLSTM模型之前和之后分别添加一个全连接层即FC层,第一个FC层是将输入数据转换成指定维度的数据,如512维度的输入数据,第二个FC层是将BLSTM的输出数据转换成输出维度,从而保证输入输出数据的维度能够满足前后所连接模块的需求。
在步骤62中,电子设备可以基于所述第二原始文本对应的标签数据和所述预测标签数据获取所述第二预设模型对应损失函数的损失值。在获取到第二预设模型输出的预测数据之后,电子设备可以根据统计预测标签数据和第二原始文本对应的标签数据的差值(即softmax交叉熵),将上述差值作为损失函数的损失值。
在步骤63中,当所述损失值超过预设的第二损失值阈值时,电子设备可以按照预设调整方式(如梯度反向调整方式)调整所述第二预设模型的各个参数,并继续执行步骤61和步骤62,直至损失值小于所述第二损失值阈值时停止训练,得到前端模型。上述前端模型具有对输入文本进行标签处理的效果。
需要说明的是,本示例中,前端模型包括文本增删模型(也称之为第四模型)、语气词发音模型(也称之为第五模型)和拟人化标签预测模型(也称之为第六模型)。参见图8,前端模型的工作过程可以包括:任意文本转换成向量化文本后输入到前端模型中,前端模型可以预测出相应的标签数据。
例如
第四模型:输入为向量化文本,如:“这也太夸张了吧”,输出为对应汉字重复次数如:[4 1 1 1 1 1 1],表示“这这这这也太夸张了吧”;
第五模型:输入为向量化文本,如:“啊,你又没赶上公交车”、“啊,下次不敢了”,输出为语气词发音类型,如:[0 0 1 0 0 0]、[0 0 0 0 1 0],分别表示“啊(a2),你又没赶上公交车”、“啊(a4),下次不敢了”;
第六模型:输入为向量化文本,如:“有时候我也会感到孤独”,输出为指定维度(如12维)拟人化特征标签矩阵,如:第一维“拖音”[0 0 1 0 0 1 0 0 0 0],表示“有时候<%DRAG%>我也会<%DRAG%>感到孤独”。
这样,本实施例中通过第二训练数据来训练第二预设模型,从而获得最终的前端数据,利用前端模型可以在后续的语音合成模型中对输入的待合成文本进行标注处理。
本实施例中,电子设备可以利用第一训练数据训练第一预设模型,获得第一模型,参见图9,包括步骤91~步骤95。
在步骤91中,电子设备可以对所述第一训练数据进行预处理,获得预处理数据。上述预处理可以包括文本规范化(TN)、分词词性预测、韵律层级预测、发音预测(G2P)共四部分。其中,文本规范化(TN)也称为文本清洗或转换,包括文本清洗、大小写转换、词语矫正、停用词删除、词干提取和词型还原等步骤,是将文本数据标准化成可供NLP、分析系统和应用程序使用的格式。
分词词性预测是指将第一原始文本中的不同词之间分隔符进行分割,在获取每个分词的词性。上述词性可以用来描述一个词在上下文中的作用,而词性标注就是识别这些词的词性,以确定其在上下文中的作用。
韵律层级主要包括:韵律词、韵律短语和语调短语。韵律词相对稳定,预测准确率较高;韵律短语相对灵活;语调短语,可以看作是一组韵律短语,往往会产生明显的停顿,是更大的层级结构,也是对人的听感和理解更为关键的。韵律层级预测即是获取上述韵律层次,依据第一原始文本对应的语音数据获得第一原始文本中的停顿等,可以采用条件随机场(crf)、循环神经网络(recurrent neural network,rnn)等模型来进行韵律层次预测。
发音预测(G2P)可以采用RNN模型和LSTM模型来实现从英文单词到音素的转化,从而获得每个音素在语音数据中发音持续时长。
需要说明的是,上述预处理过程可以根据实际场景进行调整,在能够获得第一原始文本的预处理数据的情况下,相应方案落入本公开的保护范围。
在步骤92中,电子设备可以基于所述第一训练数据中的标注标签和所述预处理数据获取所述第一预设模型的第一输入数据;以及根据所述预处理数据获取所述第一预设模型的第二输入数据、第三输入数据和第四输入数据。
本实施例中,电子设备可以将预处理数据和标注标签按照设定顺序排列,形成第一输入数据,即第一输入数据是指按照设定顺序排序预处理数据和标注标签得到的数据。例如,电子设备可以将预处理数据中的音素序列、声调标签、停顿标签与标注标签依次排列,从而获得第一输入数据。
本实施例中,电子设备可以对预处理数据中的音素发音帧数进行求Log对数,获得第二输入数据,即第二输入数据是指对所述预处理数据中音素发音帧数求Log对数得到的数据。其中上述音素发音帧数可以在提取梅尔幅度谱参数即能量参数的同时,可以设置帧移(Hop size)为H,音素发音时长(以毫米为单位)除以上述帧移H即可得到音素发音帧数。
本实施例中,电子设备可以将音素发音帧数转换成目标对齐矩阵,获得第三输入数据,即第三输入数据是指将所述音素发音帧数转换成的目标对齐矩阵。例如,给定N个音素的帧数,分别是d1,d2,…,dN,将其转换为目标对齐矩阵W,对应一个大小为N*M的矩阵,M=d1+d2+…+dN;转换方法是:当i和j满足如下条件时,对矩阵W的第i行、第j列对应的元素Wij置为1,否则置为0。其中,条件:对于每一个i而言,i属于[1,N],且Si≤j<Ei。其中,Si表示第i个音素的开始位置Si=d1+d2+…+di-1,Ei表示第i个音素的结束位置Ei=Si+di。
本实施例中,电子设备可以获取预处理数据中的梅尔幅度谱参数(MFCC),获得第四输入数据,即第四输入数据是指所述预处理数据的梅尔幅度谱参数。例如,电子设备可以对第一训练数据中的语音数据进行预加重、分帧和加窗;然后,对每一个短时分析窗,通过FFT得到对应的频谱;之后,将上面的频谱通过Mel滤波器组得到Mel频谱;最后,在Mel频谱上面进行倒谱分析(取对数,做逆变换,实际逆变换一般是通过DCT离散余弦变换来实现,取DCT后的第2个到第13个系数作为MFCC系数),获得Mel频率倒谱系数MFCC。
需要说明的是,上述第二输入数据、第三输入数据和第四输入数据用于计算第一预设模型的损失函数的损失值(loss)使用,在训练第一预设模型时暂不使用。
在步骤93中,电子设备可以将所述第一输入数据输入到所述第一预设模型,获得所述第一预设模型输出的第一输出数据、第二输出数据、第三输出数据和第四输出数据。
本实施例中,电子设备内可以预先存储第一预设模型,参见图10,第一预设模型的结构包括:文本编码模块、音素过滤模块、加法模块、音素分类模块、时长预测模块、注意力机制模块和声学解码模块。音素过滤模块分别与文本编码模块、加法模块、音素分类模块和时长预测模块连接;加法模块分别与时长预测模块中倒数第二个隐藏层、声学解码模块和注意力机制模块连接。其中,
文本编码模块的输入数据为第一输入数据。注意力机制模块的输入数据除了加法模块的输出数据,还包括第四输入数据。声学解码模块的输出数据为预测声学参数,并将预测声学参数作为第一输出数据;时长预测模块的输出数据为预测音素时长,并将预测音素时长作为第二输出数据,从而可以获取到各音素的开始时间和结束时间,即可以精确的输出各音素开始和结束的时间戳,提升语速控制准确度并有利于后续播放目标音频时控制和对齐口型。
注意力机制模块的输出数据为预测对齐矩阵,并将预测对齐矩阵作为第三输出数据。音素分类模块的输出数据为音素分类数据,并将音素分类数据作为第四输出数据。
需要说明的是,第一预设模型中的各个模块均采用相应的网络模型实现,具体实现可以采用相关技术中的方案实现,在能够相应功能的情况下,相应方案落入本公开的保护范围。
需要说明的是,图10所示第一预设模型中分别采用实线和虚线表示连接线和框体。其中,实线框体和实线连接线表示这个模块在模型训练和使用阶段存在,虚线框体和虚线连接线表示这一模块仅在模型训练阶段用,或者说在使用阶段去掉虚线框体和虚线连接线。
本实施例中,电子设备可以将第一输入数据输入到第一预设模型中。第一预设模型中文本编码模块输出数据为隐含状态数据,例如100个256维度的向量,表示音素的数量和各音素所占用的状态数据,可以使得每个输入编码包含上下文的信息,从而使发音更清晰。例如,上述文本编码模块可以采用Tacotron模型(例如3层卷积+1层LSTM结构)实现,其输出为编码(encode)结果。
音素过滤模块可以对上述隐含状态数据进行处理,即将隐含状态数据中的一些列去掉,如韵律标签(#3)对应的列去掉,从而使每个向量均对应一个发音时长。
音素过滤模块输出的数据可以分别输入到音素分类模块和时长预测模块。其中音素分类模块可以对上述隐含状态数据进行预测音素分类,获得第四输出数据。时长预测模块可以对上述隐含状态数据进行预测发音时长,将预测的音素时长作为第二输出数据,同时时长预测模块的输出数据和音素过滤模块的输出数据经过加法模块后获得加和数据,并将上述加和数据输入到声学解码模块和注意力机制模块。
需要说明的是,加法模块有两种实现方式:第一种,把时长量化为整形数字,通过嵌入式查询表,转为时长的嵌入式表示,然后和音素过滤模块做加和操作;第二种,把时长预测模块的倒数第二个隐藏层的输出,和音素过滤模块做加和操作。
注意力机制模块获得上述加和数据与第四输入数据后可以获得预测对齐矩阵,即得到第三输出数据。并且将上述预测对齐矩阵输入到声学解码模块。由于注意力机制模块中增加了音素时长的编码信息,从而使注意力机制模块可以确定音素发音开始位置和结束位置,从而可以在预测当前帧时提前知道应该注意到哪一个音素,以及未来还需要在这个音素上停留多少时长。也就是说,增加了音素时长编码后使训练更稳定,有利于后续提升训练过程的收敛速度,提升训练效率。在后续使用过程中因增加音素帧数可以在合成时帮助控制每个音素的发音时长,避免发音过短或者过长的情况。
声学解码模块可以对上述加和数据和预测对齐矩阵进行处理,获得预测声学参数,即得到第一输出数据。
在步骤94中,电子设备可以基于所述第一输入数据、所述第二输入数据、所述第三输入数据、所述第四输入数据、所述第一输出数据、所述第二输出数据、所述第三输出数据和所述第四输出数据获取所述第一预设模型对应损失函数的损失值。本步骤中,第一预设模型的损失函数由四部分损失组成,分别是音素分类损失(也称之为第一损失值)、时长预测损失(也称之为第二损失值)、对齐预测损失(也称之为第三损失值),以及声学参数预测损失(也称之为第四损失值)。
电子设备可以根据第一输入数据和第四输出数据计算音素分类预测损失值,将音频分类预测损失值作为第一损失值。参见图11,电子设备可以获取第四输出数据和第一输入数据之间的交叉熵,即音素分类模块的输出数据与文本编码模块的输入数据之间的交叉熵。
电子设备可以根据第二输入数据和第二输出数据计算音素时长预测损失值,将音素时长预测损失值作为第二损失值。继续参见图11,电子设备可以获取第二输出数据和第二输入数据取自然对数后的均方误差,即预测音素时长和真实音素时长各自取自然对数之后的均方误差。
电子设备可以根据第三输入数据和第三输出数据计算对齐预测损失值,并将所述对齐预测损失值作为第三损失值。继续参见图11,电子设备可以获取第三输出数据和第三输入数据取自然对数后的均方误差,即(利用强制对齐工具对第一原始训练数据对齐后获得的)目标对齐矩阵与预测对齐矩阵之间的均方误差。通过增加对齐预测损失值,可以使目标模型预设的对齐矩阵与实际相匹配,使文本中每个字发音更完整,可以完全避免漏字、结尾出现过长静音或者多余发音的问题,提升后续生成目标音频的自然度。
电子设备可以根据第四输入数据和第一输出数据计算声学参数预测损失值,并将所述声学参数预测损失值作为第四损失值。继续参见图11,电子设备可以获取第一输出数据和第四输入数据的均方误差,即(根据第一原始训练直接获得的)真实声学参数与预测声学参数之间的均方误差。
电子设备可以基于上述第一损失值、上述第二损失值、上述第三损失值和上述第四损失值以及各自的权重值计算损失函数的损失值,公式如下式所示:
Loss=Loss1*w1+Loss2*w2+Loss3*w3+Loss4*w4; (1)
式(1)中,Loss1、Loss2、Loss3和Loss4分别表示第一损失值、第二损失值、第三损失值和第四损失值;w1、w2、w3和w4分别表示第一损失值、第二损失值、第三损失值和第四损失值的权重值。
需要说明的是,权重值w1、w2、w3和w4可以基于以下原则设置:
(1)第一损失值及其权重值的乘积、第二损失值及其权重值的乘积、第三损失值及其权重值的乘积和第四损失值及其权重值的乘积,各乘积的大小均位于同一个预设范围之内,例如均位于[0,10]、[10,99]之间。
(2)第四损失值、第二损失值、第三损失值和第一损失值的权重值依次减小,并且相邻两个权重值的比值超过设定值,上述设定值可以取值为2,即w1与w2的比值超过2。也可以理解为,重要的损失值给予圈套的权重值,从而使第一预设模型可以学习到哪些参数更重要,达到避免在不重要参数上过度优化的目的,有利于提升训练效率,以及保证后续第一模型输出结果的准确度。
在步骤95中,当所述损失值超过预设的第一损失值阈值时,电子设备可以按照预设调整方式调整所述第一预设模型的各个参数,直至所述损失值小于所述第一损失值阈值时停止训练,得到所述第一模型。例如,电子设备可以在式(1)中的loss值超过第一损失值阈值时,按照梯度反向传播方式来调整第一预设模型中各模块的参数,并继续执行步骤91~步骤94,loss值小于第一损失值阈值停止训练,得到第一模型。
在步骤13中,基于所述第一模型构建目标模型。
本实施例中,目标模型可以包括第二模型和第三模型。
参见图12,电子设备基于第一模型构建第二模型包括:
按照第一预设方式调整所述第一模型的结构,得到第二模型的结构;其中第一预设方式包括:去除第一模型中的音素分类模块;保留第一模型中的第一输出,去掉第三输出;将第一模型中声学解码模块的输出数据作为第一模型中注意力机制模块的输入数据。并且,将第一模型的参数数据迁移到第二模型。
需要说明的是,第二模型中,声学解码模块每一个时间步以真实声学特征作为输入,之后先经过两层全连接层,再送入注意力机制模块。其中,第二模型的(加油模块右侧的)右半部分是一个循环,每循环一次,就是一个时间步;时间步t的输入数据,是时间步t-1的输出。也就是说,在时间步t时,注意力机制模块的输入数据由时间步t-1时音频解码模块的输出数据和时间步t时加法模块的输出数据构成。
需要说明的是,第二模型输出的目标音频适用于对语音音质有较高要求的场景,如高保真音箱等设备之中朗读新闻、小说和读书等业务场景。
参见图13,电子设备基于第一模型构建第三模型包括:
按照第二预设方式调整第一模型的结构,得到第三模型的结构;其中上述第二预设方式包括:去除第一模型中的音素分类模块;保留第一模型中的第一输出,去掉第三输出;将第一模型中的注意力机制模块替换为音素扩展模块;将第一模型中声学解码模块的输出数据作为音素扩展模块的输入数据。将第一模型的参数数据迁移到第三模型。其中,音素扩展模块可以将声学解码模块的输出数据以复制方式进行长度扩展,包括:把声学解码模块输出矩阵的每一列都复制一定份数,具体复制多少份,取决于当前音素预测的时长。这样,音素扩展模块通过复制方式取代注意力模块中的注意力计算过程,可以作为注意力计算的一种近似算法,模型的体积更小且运算速度更快,方便在手机等移动设备上使用。
需要说明的是,第三模型输出的目标音频适用于对语音速度有较高要求的场景,如智能手机等设备之中阅读短信等业务场景。
在步骤14中,基于所述目标模型和所述前端模型构建语音合成模型;所述语音合成模型用于对待合成文本进行语音合成以获得目标音频。
本实施例中,电子设备可以基于目标模型和前端模型构建语音合成模型,结构,参见图14,即电子设备将第四模型、第五模型、第六模型和第二模型(或者第三模型)依次连接,从而得到上述语音合成模型。该语音合成模型的输入数据为任意文本,输出数据为拟人化的语音数据即目标音频。
上述语音合成模型的工作过程,如图15所示,包括:
电子设备可以将获得的待合成文本输入到上述语音合成模型之中。
语音合成模型中第四模型、第五模型和第六模型依次对上述待合成文本进行标注处理,即文字增删预测、语气词发音预测、拟人化标签预测等,得到混合特征文本。具体过程可以参见图8所示例的内容,在此不再赘述。
电子设备可以对上述待合成文本进行预处理,获取预处理数据。具体过程可以参见图9所示例的内容,在此不再赘述。
电子设备可以对上述待合成文本进行标注处理,得到标注标签。具体过程可以参见图3所示例的内容,在此不再赘述。
经过上述各步骤,电子设备可以获得音素和标签序列,将输入到第二模型或者第三模型,得到目标音频。
至此,本公开实施例提供的方案中可以获取第一训练数据和第二训练数据,所述第一训练数据用于训练第一预设模型,所述第二训练数据用于训练第二预设模型;然后,利用所述第一训练数据训练所述第一预设模型,获得第一模型;以及利用所述第二训练数据训练所述第二预设模型,获得前端模型;之后,基于所述第一模型构建目标模型;最后,基于所述目标模型和所述前端模型构建语音合成模型;所述语音合成模型用于对待合成文本进行语音合成以获得目标音频。这样,本实施例中前端模型可以对待识别文本进行预处理且目标模型可以将预处理后的文本转换成目标音频,可以适用于需要语音的业务场景,提升使用体验。
在上述一种语音合成模型的训练方法的基础上,本公开实施例还提供了一种语音合成方法,参见图16,所述方法包括:
在步骤161中,获取待合成文本;
在步骤162中,将所述待合成文本输入到预设的语音合成模型进行语音合成,输出目标音频;
所述语音合成模型基于所述目标模型和所述前端模型构建而成,所述目标模型是基于利用第一训练数据训练第一预设模型得到的第一模型构成;所述前端模型为利用第二训练数据训练第二预设模型得到的前端模型。
在一实施例中,所述第一训练数据包括第一原始数据及其对应的标注标签;所述第一原始数据包括第一原始文本和根据所述第一原始文本生成的语音数据,所述第一原始数据对应的标注标签包括以下至少一种:声调标签、韵律标签、拟人化标签和情感分类标签。
在一实施例中,所述第一原始文本包括第一文本、第二文本和第三文本;所述第一文本是音素数量超过音素数量阈值的文本,所述第二文本是语气词文本,所述第三文本是表征满足拟人化异常发音要求的文本。
在一实施例中,所述第一预设模型的结构包括:文本编码模块、音素过滤模块、加法模块、音素分类模块、时长预测模块、注意力机制模块和声学解码模块;所述音素过滤模块分别与所述文本编码模块、所述加法模块、所述音素分类模块和所述时长预测模块连接;所述加法模块分别与所述时长预测模块中倒数第二个隐藏层、所述声学解码模块和所述注意力机制模块连接;
所述文本编码模块的输入数据为第一输入数据;所述第一输入数据是指按照设定顺序排序预处理数据和标注标签得到的数据;
所述注意力机制模块的输入数据还包括第四输入数据;所述第四输入数据是指所述预处理数据的梅尔幅度谱参数;
所述声学解码模块的输出数据为预测声学参数,并将所述预测声学参数作为第一输出数据;
所述时长预测模块的输出数据为预测音素时长,并将所述预测音素时长作为第二输出数据;
所述注意力机制模块的输出数据为预测对齐矩阵,并将所述预测对齐矩阵作为第三输出数据;
所述音素分类模块的输出数据为音素分类数据,并将所述音素分类数据作为第四输出数据。
在一实施例中,所述第二训练数据包括第二原始数据及其对应的标签数据;所述第二原始数据包括第二原始文本和根据所述第二原始文本生成的语音数据,所述第二原始数据对应的标签数据包括以下至少一种:分类标签、类型标签、语速快慢标签和异常发音标签;
所述分类标签包括以下至少一种:语气词发音信息标签、拟声词/非拟声词分类标签、语句类型分类标签或情感类型分类标签;所述类型标签包括以下至少一种:连读类型标签、重复类型标签和倒读类型标签;所述异常发音标签包括以下至少一种:拖音标签、吞音标签和懒音标签。
需要说明的是,图16所示实施例中语音合成方法中语音合成模型的训练方式可以参见图1所示语音合成模型的训练方法中语音合成模型的内容,在此不再赘述。
在上述实施例提供的一种语音合成模型的训练方法的基础上,本公开实施例还提供了一种语音合成模型的训练装置,参见图17,所述装置包括:
训练数据获取模块171,被配置为获取第一训练数据和第二训练数据,所述第一训练数据用于训练第一预设模型,所述第二训练数据用于训练第二预设模型;
第一模型获取模块172,被配置为利用所述第一训练数据训练所述第一预设模型,获得第一模型;
前端模型获取模块173,被配置为利用所述第二训练数据训练所述第二预设模型,获得前端模型;
目标模型构建模块174,被配置为基于所述第一模型构建目标模型;
语音模块构建模块175,被配置为基于所述目标模型和所述前端模型构建语音合成模型;所述语音合成模型用于对待合成文本进行语音合成以获得目标音频。
需要说明的是,本实施例中示出的装置与方法实施例的内容相匹配,可以参考上述方法实施例的内容,在此不再赘述。
在上述实施例提供的一种语音合成方法的基础上,本公开实施例还提供了一种语音合成装置,所述装置包括:
文本获取模块,被配置为获取待合成文本;
音频获取模块,被配置为将所述待合成文本输入到预设的语音合成模型进行语音合成,输出目标音频;
所述语音合成模型基于目标模型和前端模型构建而成,所述目标模型是基于利用第一训练数据训练第一预设模型得到的第一模型构成;所述前端模型为利用第二训练数据训练第二预设模型得到的前端模型。
需要说明的是,本实施例中示出的装置与语音合成方法实施例的内容相匹配,可以参考上述方法实施例的内容,在此不再赘述。
图18是根据一示例性实施例示出的一种移动终端的框图。例如,移动终端1800可以是智能手机,计算机,数字广播终端,平板设备,医疗设备,健身设备,个人数字助理等。
参照图18,移动终端1800可以包括以下一个或多个组件:处理组件1802,存储器1804,电源组件1806,多媒体组件1808,音频组件1810,输入/输出(I/O)的接口1812,传感器组件1814,通信组件1816,图像采集组件1818。
处理组件1802通常控制移动终端1800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1802可以包括一个或多个处理器1820来执行计算机程序。此外,处理组件1802可以包括一个或多个模块,便于处理组件1802和其他组件之间的交互。例如,处理组件1802可以包括多媒体模块,以方便多媒体组件1808和处理组件1802之间的交互。
存储器1804被配置为存储各种类型的数据以支持在移动终端1800的操作。这些数据的示例包括用于在移动终端1800上操作的任何应用程序或方法的计算机程序,联系人数据,电话簿数据,消息,图片,视频等。存储器1804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1806为移动终端1800的各种组件提供电力。电源组件1806可以包括电源管理系统,一个或多个电源,及其他与为移动终端1800生成、管理和分配电力相关联的组件。电源组件1806可以包括电源芯片,控制器可以电源芯片通信,从而控制电源芯片导通或者断开开关器件,使电池向主板电路供电或者不供电。
多媒体组件1808包括在移动终端1800和目标对象之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示屏(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自目标对象的输入信息。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。
音频组件1810被配置为输出和/或输入音频文件信息。例如,音频组件1810包括一个麦克风(MIC),当移动终端1800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频文件信息。所接收的音频文件信息可以被进一步存储在存储器1804或经由通信组件1816发送。在一些实施例中,音频组件1810还包括一个扬声器,用于输出音频文件信息。
I/O接口1812为处理组件1802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。
传感器组件1814包括一个或多个传感器,用于为移动终端1800提供各个方面的状态评估。例如,传感器组件1814可以检测到移动终端1800的打开/关闭状态,组件的相对定位,例如组件为移动终端1800的显示屏和小键盘,传感器组件1814还可以检测移动终端1800或一个组件的位置改变,目标对象与移动终端1800接触的存在或不存在,移动终端1800方位或加速/减速和移动终端1800的温度变化。本示例中,传感器组件1814可以包括磁力传感器、陀螺仪和磁场传感器,其中磁场传感器包括以下至少一种:霍尔传感器、薄膜磁致电阻传感器、磁性液体加速度传感器。
通信组件1816被配置为便于移动终端1800和其他设备之间有线或无线方式的通信。移动终端1800可以接入基于通信标准的无线网络,如WiFi,2G、3G、4G、5G,或它们的组合。在一个示例性实施例中,通信组件1816经由广播信道接收来自外部广播管理系统的广播信息或广播相关信息。在一个示例性实施例中,通信组件1816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,移动终端1800可以被一个或多个应用专用集成电路(ASIC)、数字信息处理器(DSP)、数字信息处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现。
在示例性实施例中,还提供了一种电子设备,包括:
处理器;
用于存储所述处理器可执行的计算机程序的存储器;
其中,所述处理器被配置为执行所述存储器中的计算机程序,以实现如图1~图16所示实施例的方法。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括可执行的计算机程序的存储器,上述可执行的计算机程序可由处理器执行,以实现如图1~图16所示实施例的方法。其中,可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本公开旨在涵盖任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (25)
1.一种语音合成模型的训练方法,其特征在于,所述方法包括:
获取第一训练数据和第二训练数据,所述第一训练数据用于训练第一预设模型,所述第二训练数据用于训练第二预设模型;
利用所述第一训练数据训练所述第一预设模型,获得第一模型;
利用所述第二训练数据训练所述第二预设模型,获得前端模型;
基于所述第一模型构建目标模型;
基于所述目标模型和所述前端模型构建语音合成模型,其中,所述语音合成模型用于对待合成文本进行语音合成以获得目标音频。
2.根据权利要求1所述的方法,其特征在于,所述第一训练数据包括第一原始数据及其对应的标注标签;所述第一原始数据包括第一原始文本和根据所述第一原始文本生成的语音数据,所述第一原始数据对应的标注标签包括以下至少一种:声调标签、韵律标签、拟人化标签和情感分类标签。
3.根据权利要求1或2所述的方法,其特征在于,获取第一训练数据,包括:
获取第一原始文本和所述第一原始文本对应的语音数据,得到第一原始数据;
根据所述第一原始文本对应的语音数据对所述第一原始文本进行标注,获得所述第一原始文本对应的标注标签;
将所述第一原始数据及其对应的标注标签作为第一训练数据。
4.根据权利要求3所述的方法,其特征在于,所述第一原始文本包括第一文本、第二文本和第三文本;所述第一文本是音素数量超过音素数量阈值的文本,所述第二文本是语气词文本,所述第三文本是表征满足拟人化异常发音要求的文本。
5.根据权利要求1所述的方法,其特征在于,利用所述第一训练数据训练所述第一预设模型,获得第一模型,包括:
对所述第一训练数据进行预处理,获得预处理数据;
基于所述第一训练数据中的标注标签和所述预处理数据获取所述第一预设模型的第一输入数据;以及根据所述预处理数据获取所述第一预设模型的第二输入数据、第三输入数据和第四输入数据;所述第一输入数据是指按照设定顺序排序预处理数据和标注标签得到的数据;所述第二输入数据是指对所述预处理数据中音素发音帧数求Log对数得到的数据;所述第三输入数据是指将所述音素发音帧数转换成的目标对齐矩阵;所述第四输入数据是指所述预处理数据的梅尔幅度谱参数;
将所述第一输入数据输入到所述第一预设模型,获得所述第一预设模型输出的第一输出数据、第二输出数据、第三输出数据和第四输出数据;
基于所述第一输入数据、所述第二输入数据、所述第三输入数据、所述第四输入数据、所述第一输出数据、所述第二输出数据、所述第三输出数据和所述第四输出数据获取所述第一预设模型对应损失函数的损失值;
当所述损失值超过预设的第一损失值阈值时,按照预设调整方式调整所述第一预设模型的各个参数,直至所述损失值小于所述第一损失值阈值时停止训练,得到所述第一模型。
6.根据权利要求5所述的方法,其特征在于,基于所述第一训练数据中的标注标签和所述预处理数据获取所述第一预设模型的第一输入数据,包括:
将所述预处理数据和所述标注标签按照设定顺序排列,形成第一输入数据。
7.根据权利要求5所述的方法,其特征在于,根据所述预处理数据获取所述第一预设模型的第二输入数据、第三输入数据和第四输入数据,包括:
对所述预处理数据中音素发音帧数进行求Log对数,获得第二输入数据;
将所述音素发音帧数转换成目标对齐矩阵,获得第三输入数据;
获取所述预处理数据中的梅尔幅度谱参数,获得第四输入数据。
8.根据权利要求5所述的方法,其特征在于,基于所述第一输入数据、所述第二输入数据、所述第三输入数据、所述第四输入数据、所述第一输出数据、所述第二输出数据、所述第三输出数据和所述第四输出数据获取所述第一预设模型对应损失函数的损失值,包括:
根据所述第一输入数据和所述第四输出数据计算音素分类预测损失值,将所述音频分类预测损失值作为第一损失值;
根据所述第二输入数据和所述第二输出数据计算音素时长预测损失值,将所述音素时长预测损失值作为第二损失值;
根据所述第三输入数据和所述第三输出数据计算对齐预测损失值,并将所述对齐预测损失值作为第三损失值;
根据所述第四输入数据和所述第一输出数据计算声学参数预测损失值,并将所述声学参数预测损失值作为第四损失值;
基于所述第一损失值、所述第二损失值、所述第三损失值和所述第四损失值以及各自的权重值计算所述损失函数的损失值。
9.根据权利要求8所述的方法,其特征在于,所述第一损失值、所述第二损失值、所述第三损失值和所述第四损失值各自的权重值基于以下原则设置:
所述第一损失值及其权重值的乘积、所述第二损失值及其权重值的乘积、所述第三损失值及其权重值的乘积和所述第四损失值及其权重值的乘积,各乘积的大小均位于同一个预设范围之内;
所述第四损失值、所述第二损失值、所述第三损失值和所述第一损失值的权重值依次减小,并且相邻两个权重值的比值超过设定值。
10.根据权利要求5所述的方法,其特征在于,所述第一预设模型的结构包括:文本编码模块、音素过滤模块、加法模块、音素分类模块、时长预测模块、注意力机制模块和声学解码模块;所述音素过滤模块分别与所述文本编码模块、所述加法模块、所述音素分类模块和所述时长预测模块连接;所述加法模块分别与所述时长预测模块中倒数第二个隐藏层、所述声学解码模块和所述注意力机制模块连接;
所述文本编码模块的输入数据为第一输入数据;
所述注意力机制模块的输入数据还包括第四输入数据;
所述声学解码模块的输出数据为预测声学参数,并将所述预测声学参数作为第一输出数据;
所述时长预测模块的输出数据为预测音素时长,并将所述预测音素时长作为第二输出数据;
所述注意力机制模块的输出数据为预测对齐矩阵,并将所述预测对齐矩阵作为第三输出数据;
所述音素分类模块的输出数据为音素分类数据,并将所述音素分类数据作为第四输出数据。
11.根据权利要求10所述的方法,其特征在于,所述目标模型包括第二模型,基于所述第一模型构建目标模型,包括:
按照第一预设方式调整所述第一模型的结构,得到第二模型的结构;
将所述第一模型的参数数据迁移到所述第二模型;所述第二模型用于输出所述目标音频;
其中所述第一预设方式包括:去除所述第一模型中的音素分类模块;保留所述第一模型中的第一输出;将所述第一模型中声学解码模块的输出数据作为所述第一模型中注意力机制模块的输入数据。
12.根据权利要求10所述的方法,其特征在于,所述目标模型包括第三模型,基于所述第一模型构建目标模型,包括:
按照第二预设方式调整所述第一模型的结构,得到第三模型的结构;
将所述第一模型的参数数据迁移到所述第三模型;所述第二模型用于输出所述目标音频;
其中所述第二预设方式包括:去除所述第一模型中的音素分类模块;保留所述第一模型中的第一输出;将所述第一模型中的注意力机制模块替换为音素扩展模块;将所述第一模型中声学解码模块的输出数据作为所述音素扩展模块的输入数据。
13.根据权利要求1所述的方法,其特征在于,所述第二训练数据包括第二原始数据及其对应的标签数据;所述第二原始数据包括第二原始文本和根据所述第二原始文本生成的语音数据,所述第二原始数据对应的标签数据包括以下至少一种:分类标签、类型标签、语速快慢标签和异常发音标签;
所述分类标签包括以下至少一种:语气词发音信息标签、拟声词/非拟声词分类标签、语句类型分类标签或情感类型分类标签;所述类型标签包括以下至少一种:连读类型标签、重复类型标签和倒读类型标签;所述异常发音标签包括以下至少一种:拖音标签、吞音标签和懒音标签。
14.根据权利要求1或13所述的方法,其特征在于,获取第二训练数据,包括:
获取第二原始文本和所述第二原始文本对应的语音数据,得到第二原始数据;
处理所述第二原始数据,获得所述第二原始数据对应的标签数据;将所述第二原始数据和所述标签数据作为所述第二训练数据。
15.根据权利要求14所述的方法,其特征在于,处理所述第二原始数据,获得所述第二原始数据对应的标签数据,包括:
采用预设分类方法对所述第二原始文本进行分类,获得分类标签;所述分类标签包括以下至少一种:语气词发音信息标签、拟声词/非拟声词分类标签、语句类型分类标签或情感类型分类标签;
或者,
采用上下文特征分析方法对所述第二原始文本进行分析,获得类型标签;所述类型标签包括以下至少一种:连读类型标签、重复类型标签和倒读类型标签;
或者,
采用强制对齐方法对齐所述第二原始文本及其对应的语音数据,获得每个音节的发音时长;并基于每个音节的发音时长生成语速快慢标签,以及基于每个音节的发音时长和能量参数生成异常发音标签;所述异常发音标签包括以下至少一种:拖音标签、吞音标签和懒音标签;
将所述分类标签、所述类型标签、所述语速快慢标签和所述异常发音标签作为所述第二原始数据对应的标签数据。
16.根据权利要求1所述的方法,其特征在于,利用所述第二训练数据训练所述第二预设模型,获得前端模型,包括:
将所述第二训练数据中的第二原始文本输入到第二预设模型,并获取所述第二预设模型输出的预测标签数据;
基于所述第二原始文本对应的标签数据和所述预测标签数据获取所述第二预设模型对应损失函数的损失值;
当所述损失值超过预设的第二损失值阈值时,按照预设调整方式调整所述第二预设模型的各个参数,直至所述损失值小于所述第二损失值阈值时停止训练,得到所述前端模型。
17.一种语音合成方法,其特征在于,所述方法包括:
获取待合成文本;
将所述待合成文本输入到预设的语音合成模型进行语音合成,输出目标音频;
所述语音合成模型基于目标模型和前端模型构建而成,所述目标模型是基于利用第一训练数据训练第一预设模型得到的第一模型构成;所述前端模型为利用第二训练数据训练第二预设模型得到的前端模型。
18.根据权利要求17所述的方法,其特征在于,所述第一训练数据包括第一原始数据及其对应的标注标签;所述第一原始数据包括第一原始文本和根据所述第一原始文本生成的语音数据,所述第一原始数据对应的标注标签包括以下至少一种:声调标签、韵律标签、拟人化标签和情感分类标签。
19.根据权利要求18所述的方法,其特征在于,所述第一原始文本包括第一文本、第二文本和第三文本;所述第一文本是音素数量超过音素数量阈值的文本,所述第二文本是语气词文本,所述第三文本是表征满足拟人化异常发音要求的文本。
20.根据权利要求17所述的方法,其特征在于,所述第一预设模型的结构包括:文本编码模块、音素过滤模块、加法模块、音素分类模块、时长预测模块、注意力机制模块和声学解码模块;所述音素过滤模块分别与所述文本编码模块、所述加法模块、所述音素分类模块和所述时长预测模块连接;所述加法模块分别与所述时长预测模块中倒数第二个隐藏层、所述声学解码模块和所述注意力机制模块连接;
所述文本编码模块的输入数据为第一输入数据;所述第一输入数据是指按照设定顺序排序预处理数据和标注标签得到的数据;
所述注意力机制模块的输入数据还包括第四输入数据;所述第四输入数据是指所述预处理数据的梅尔幅度谱参数;
所述声学解码模块的输出数据为预测声学参数,并将所述预测声学参数作为第一输出数据;
所述时长预测模块的输出数据为预测音素时长,并将所述预测音素时长作为第二输出数据;
所述注意力机制模块的输出数据为预测对齐矩阵,并将所述预测对齐矩阵作为第三输出数据;
所述音素分类模块的输出数据为音素分类数据,并将所述音素分类数据作为第四输出数据。
21.根据权利要求17所述的方法,其特征在于,所述第二训练数据包括第二原始数据及其对应的标签数据;所述第二原始数据包括第二原始文本和根据所述第二原始文本生成的语音数据,所述第二原始数据对应的标签数据包括以下至少一种:分类标签、类型标签、语速快慢标签和异常发音标签;
所述分类标签包括以下至少一种:语气词发音信息标签、拟声词/非拟声词分类标签、语句类型分类标签或情感类型分类标签;所述类型标签包括以下至少一种:连读类型标签、重复类型标签和倒读类型标签;所述异常发音标签包括以下至少一种:拖音标签、吞音标签和懒音标签。
22.一种语音合成模型的训练装置,其特征在于,所述装置包括:
训练数据获取模块,被配置为获取第一训练数据和第二训练数据,所述第一训练数据用于训练第一预设模型,所述第二训练数据用于训练第二预设模型;
第一模型获取模块,被配置为利用所述第一训练数据训练所述第一预设模型,获得第一模型;
前端模型获取模块,被配置为利用所述第二训练数据训练所述第二预设模型,获得前端模型;
目标模型构建模块,被配置为基于所述第一模型构建目标模型;
语音模块构建模块,被配置为基于所述目标模型和所述前端模型构建语音合成模型;所述语音合成模型用于对待合成文本进行语音合成以获得目标音频。
23.一种语音合成装置,其特征在于,所述装置包括:
文本获取模块,被配置为获取待合成文本;
音频获取模块,被配置为将所述待合成文本输入到预设的语音合成模型进行语音合成,输出目标音频;
所述语音合成模型基于目标模型和前端模型构建而成,所述目标模型是基于利用第一训练数据训练第一预设模型得到的第一模型构成;所述前端模型为利用第二训练数据训练第二预设模型得到的前端模型。
24.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行的计算机程序的存储器;
其中,所述处理器被配置为执行所述存储器中的计算机程序,以实现如权利要求1~22任一项所述的方法。
25.一种计算机可读存储介质,其特征在于,当所述存储介质中的可执行的计算机程序由处理器执行时,能够实现如权利要求1~22任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111423814.2A CN114005430A (zh) | 2021-11-26 | 2021-11-26 | 语音合成模型的训练方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111423814.2A CN114005430A (zh) | 2021-11-26 | 2021-11-26 | 语音合成模型的训练方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114005430A true CN114005430A (zh) | 2022-02-01 |
Family
ID=79930473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111423814.2A Pending CN114005430A (zh) | 2021-11-26 | 2021-11-26 | 语音合成模型的训练方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114005430A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115206284A (zh) * | 2022-09-19 | 2022-10-18 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、装置、服务器和介质 |
-
2021
- 2021-11-26 CN CN202111423814.2A patent/CN114005430A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115206284A (zh) * | 2022-09-19 | 2022-10-18 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、装置、服务器和介质 |
CN115206284B (zh) * | 2022-09-19 | 2022-11-22 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、装置、服务器和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11929059B2 (en) | Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature | |
US20200226327A1 (en) | System and method for direct speech translation system | |
EP3438972B1 (en) | Information processing system and method for generating speech | |
CN111883110B (zh) | 语音识别的声学模型训练方法、系统、设备及介质 | |
CN107516511B (zh) | 意图识别和情绪的文本到语音学习系统 | |
CN112735373B (zh) | 语音合成方法、装置、设备及存储介质 | |
CN111276120B (zh) | 语音合成方法、装置和计算机可读存储介质 | |
CN111949784A (zh) | 基于意图识别的外呼方法及装置 | |
CN115329779A (zh) | 一种多人对话情感识别方法 | |
Delgado et al. | Spoken, multilingual and multimodal dialogue systems: development and assessment | |
CN107274903A (zh) | 文本处理方法和装置、用于文本处理的装置 | |
CN114242033A (zh) | 语音合成方法、装置、设备、存储介质及程序产品 | |
CN114882862A (zh) | 一种语音处理方法及相关设备 | |
CN113327574A (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
Fellbaum et al. | Principles of electronic speech processing with applications for people with disabilities | |
CN115148185A (zh) | 语音合成方法及装置、电子设备及存储介质 | |
CN114005430A (zh) | 语音合成模型的训练方法、装置、电子设备和存储介质 | |
CN114242093A (zh) | 语音音色转换方法、装置、计算机设备和存储介质 | |
WO2021169825A1 (zh) | 语音合成方法、装置、设备和存储介质 | |
Wu et al. | Exemplar-based emotive speech synthesis | |
WO2023279976A1 (zh) | 语音合成方法、装置、设备及存储介质 | |
Seong et al. | Multilingual speech synthesis for voice cloning | |
CN113257225A (zh) | 一种融合词汇及音素发音特征的情感语音合成方法及系统 | |
WO2021231050A1 (en) | Automatic audio content generation | |
CN112766101B (zh) | 一种中文唇语识别建模单元集的构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |