CN110390928A - 一种自动拓增语料的语音合成模型训练方法和系统 - Google Patents
一种自动拓增语料的语音合成模型训练方法和系统 Download PDFInfo
- Publication number
- CN110390928A CN110390928A CN201910726585.8A CN201910726585A CN110390928A CN 110390928 A CN110390928 A CN 110390928A CN 201910726585 A CN201910726585 A CN 201910726585A CN 110390928 A CN110390928 A CN 110390928A
- Authority
- CN
- China
- Prior art keywords
- corpus
- text
- speech
- speech synthesis
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 117
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 117
- 238000012549 training Methods 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000001965 increasing effect Effects 0.000 title claims abstract description 19
- 239000000463 material Substances 0.000 claims abstract description 46
- 239000012634 fragment Substances 0.000 claims abstract description 18
- 238000010276 construction Methods 0.000 claims abstract description 14
- 238000013135 deep learning Methods 0.000 claims description 14
- 238000012937 correction Methods 0.000 claims description 3
- 229910017435 S2 In Inorganic materials 0.000 claims 1
- 230000000694 effects Effects 0.000 description 15
- 238000002474 experimental method Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 4
- 230000033764 rhythmic process Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 235000015170 shellfish Nutrition 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 241001589086 Bellapiscis medius Species 0.000 description 1
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种自动拓增语料的语音合成模型训练方法和系统,收集文本‑语音平行语料,记为原始语料;将每个语音、文本样本按照语音停顿分割成若干语音、文本片段,汇集语音、文本片段记为片段语料;构建语音合成模型;从原始语料中随机选择m个样本,将文本、语音样本分别拼接构成新的语料样本,记为原始构造语料;从片段语料中随机选择n个样本,将文本、语音片段分别拼接构成新的语料样本为片段构造语料;使用原始构造语料和片段构造语料训练语音合成模型;使用原始语料、片段语料和原始构造语料继续训练,直至得到能够稳定合成语音的语音合成模型。本发明提高语音合成模型的泛化能力和稳健程度,使得能够合成各种状况下的文本。
Description
技术领域
本发明涉及语音合成技术领域,特别是指一种自动拓增语料的语音合成模型训练方法和系统。
背景技术
语音合成(Text-To-Speech,TTS),是一种可以将纯文本转换成带韵律节奏的语音的技术,和语音识别技术(Automatic Speech Recognition,ASR)共同成为智能语音交互中不可或缺的模块。语音识别是机器的耳朵,让机器听得懂;语音合成是机器的嘴巴,是让机器说得出。无论是地图导航、智能音响、语音助手等生活助理,还是自媒体播报和电子读物等电子媒体,语音合成技术都在发挥着越来越大的作用。
语音合成主要方法有:拼接法,参数法和深度学习方法。具体技术实现的关系如图1所示。
1.拼接法
用语言学标注系统跑一遍输入文本,得到一串语言学标注。然后从中选取所需的基本单位拼接而成,单位最好在语言学和声学特征上都类似,单位可以是音节、音素等。为追求合成语音的连贯性,也常使用双音子从一个音素的中央到下一个音素的中央作为单位。在工程实现中,使用强制对齐工具将录制的语音和文本在音素级别进行对齐,将语音数据被分割成单独的语音段,创建语音单元数据库。然后提取每个单元的语言环境和声学特征,将该数据库进一步增强。在合成的时候,使用构建好的单元数据库和预测到的音韵特征,在语音空间内执行维特比搜索,以找到单元合成的最佳路径。
优点:如果确保了音库覆盖全则合成稳定性好,稳定合成能够表达文本意思的语音。可以使用较简单的实现方式,合成速度快,消耗资源较少。直接使用真实的语音片段,可以最大限度保留语音音质,拼接粒度较大的语音质量较高,听起来比较自然。
缺点:数据库要求太大,需要保存大量原音信息,成本高。若库里音素切分出错、语言学标注出错,则最后合成的语音发音也会出错。通常情况拼接语音的粒度较小,合成的语音衔接不自然,语音效果较差。
2.参数法
文本抽象成语音学特征,再根据统计模型学习出从语音学特征到其声学特征的对应关系,再从预测出的声学特征还原成声音波形的过程。或者说,根据统计模型来产生每时每刻的语音参数,包括基频、共振峰频率等,然后把这些参数转化为波形。主要分为3个模块:前端处理、建模和声码器。参数法的核心是个预测问题,即根据学习得的东西预测出声学特征,然后还原成波形,目前主流是用神经网络来预测。在训练阶段对时长模型和声学模型进行建模,在合成阶段先通过时长模型和声学模型预测声学特征参数,然后对声学特征参数做后处理,最后经过声码器恢复语音。
优点:合成的语音效果较好,能够从声学特征中捕捉到发音的特点,合成的语音流畅度和韵律较好。如果对大量优质文本语音平行语料进行学习,能够合成稳定的语音。
缺点:由于输出的是声码器合成的声音,而声码器忽略对细节的描述,有损失。需要结合音素特征和声学特征,变量多,系统调参困难。需要大量优质文本语音平行语料,获取大量语料成本高。
3.深度学习方法
用神经网络直接学习文本端到声学特征端的对应关系,省去语言学标注输入文本这一步。用神经网络直接学习语言学标注端到帧级别的音频波形端的对应关系,即省去学习已标注文本的语言学和声学特征的对应关系,以及声码器复现声音信号的步骤。
优点:合成的声音整体效果好,深度学习对语音领域冲击巨大,在语音分离,语音降噪,说话人识别,语音识别和语音合成等多个细分领域都有显著的提升,深度学习方法具有极大的技术潜力。
缺点:深度学习的方法参数多,计算量大也是当前面临的问题,如tacotron模型的参数量是百万级别的。模型规模大,暂时只能部署在服务器端。如果需要训练得到稳定优质的深度学习语音合成模型,则需要大量的优质文本音频平行语料用于训练模型。
拼接法需要保存大量原音信息的音库,而获取原音音库成本高,并且在音库难以保证覆盖音素全面,总体合成效果不好。参数法带来了声学特征参数的过度平滑,音质损伤比较明显,并且需要大量优质的文本语音平行语料。深度学习方法参数量大,需要大量的文本语音平行语料来训练才能达到较好的效果。目前语音合成的方法都需要大量的语音文本平行语料,而获取大量的这些语料成本高,而且获取到的语料数量是有限的。语音合成模型训练需要大量的语料,现有的语音合成训练方法是多次重复使用已有的有限语料,故使得训练得到的模型容易对训练数据过拟合,降低了语音合成的泛化能力,导致对语料外的文本合成效果较差。重复使用已有的有限语料训练模型,因为语料的文本长度往往大多是适中长度,故使得模型合成适中长度的文本较好,但合成短文本和长文本则容易出现问题,语音合成的效果不稳健。
现有的深度学习方法的语音合成模型需要用大量优质的文本-语音平行语料进行训练,这个训练过程其实主要是让模型学习和发现音素和语音的对应关系。越多的语料对音素组合的覆盖度就越大,模型就越能发现音素和语音的关系,也就越能合成效果好的语音。但是收集大量优质的文本-语音平行语料是困难的事情,成本很高,而且收集到的语料数量往往达不到模型训练需要的数量。常用重复使用语料来达到模型训练需要的数量,这能够一定程度让模型发现音素和语音的关系,因为同一语料多次重复出现,容易让模型只是学习到了重复语料的特征,从而完美拟合这些重复出现的语料,而合成其他语料容易出现问题。重复使用语料训练,往往对短句和长句覆盖不全面,难以让模型学习到短句和长句的音素和语音的对应关系,故使得合成短句和长句容易出现问题。
发明内容
本发明提出一种自动拓增语料的语音合成模型训练方法和系统,提高语音合成模型的泛化能力和稳健程度,使得能够合成各种状况下的文本,能够稳定合成短文本、适中文本和长文本。本发明可以在有限的文本-语音平行语料上自动构建大量的不重复语料,大量不重复的语料包括了大量短文本语料和长文本语料,使得训练模型能够使用大量不重复的语料进行训练,从而更容易让模型学习到各种状况下的音素和语音的对应关系,从而使得训练得到的模型更加稳健,能够有效把各种状况下的文本转为语音,也能应对短文本和长文本的合成需求。
本发明的技术方案是这样实现的:
一种自动拓增语料的语音合成模型训练方法,包括以下步骤:
S1,收集文本-语音平行语料,记为原始语料A;
S2,将原始语料A的每个语音样本按照语音停顿分割成若干时长较短的语音片段;
S3,根据语音片段将对应的文本样本分割成若干文本片段;
S4,汇集所有的语音片段和文本片段,记为片段语料B;
S5,根据原始语料A和片段语料B构建深度学习方法的语音合成模型;
S6,从原始语料A中随机选择m个样本,将文本样本和语音样本分别拼接构成新的语料样本,记为原始构造语料C;
S7,从片段语料B中随机选择n个样本,将文本片段和语音片段分别拼接构成新的语料样本,称为片段构造语料D;
S8,使用原始构造语料C和片段构造语料D训练语音合成模型;
S9,降低学习率,使用原始语料A、片段语料B和原始构造语料C训练语音合成模型;
S10,得到能够稳定合成语音的语音合成模型。
作为本发明的优选实施例,步骤S1收集文本-语音平行语料具体包括以下方式:
收集、整理和筛选开源文本-语音平行语料或预先设置好需要录音的文本,然后通过录音员录音的方式收集语音样本或预先收集清晰的语音音频,通过语音识别转为文本,然后人工修正文本内容得到文本样本。
作为本发明的优选实施例,步骤S2中,预先设置语音安静时长的阈值,扫描语音样本,如果安静时长大于阈值则切分。
作为本发明的优选实施例,步骤S5中语音合成模型包括但不限于tacotron模型、gst模型、deepvoice3模型、TransformerTTS模型。
作为本发明的优选实施例,步骤S6中,预先设置m的取值集合,随机从m的取值集合中选取一个数值;用安静音频连接相邻的两段语音样本,用标点符号连接相邻的两段文本样本,预定义标点符合对应的安静音频时长。
作为本发明的优选实施例,步骤S7中,预先设置n的取值集合,随机从n的取值集合中选取一个数值;用安静音频连接相邻的两段语音样本,用标点符号连接相邻的两段文本样本,预定义标点符合对应的安静音频时长;设定直接连接语句的概率。
作为本发明的优选实施例,步骤S8中,在训练语音合成模型的过程中自动生成始构造语料C和片段构造语料D,设置最长语音时长阈值,大于阈值则舍弃并重新生成样本,以适应语音合成模型的超参数设置。
作为本发明的优选实施例,步骤S9中,原始语料A、片段语料B和原始构造语料C的数量一致,原始语料A、片段语料B重复使用。
一种自动拓增语料的语音合成模型训练系统,包括
语料收集单元,用于收集文本-语音平行语料,记为原始语料A;
语料分割单元,用于原始语料A的每个语音样本按照语音停顿分割成若干时长较短的语音片段,根据语音片段将对应的文本样本分割成若干文本片段,汇集所有的语音片段和文本片段,记为片段语料B;
第一语音合成单元,用于根据原始语料A和片段语料B构建深度学习方法的第一语音合成模型;
语料拼接单元,用于从原始语料A中随机选择m个样本,将文本样本和语音样本分别拼接构成新的语料样本,记为原始构造语料C;从片段语料B中随机选择n个样本,将文本片段和语音片段分别拼接构成新的语料样本,称为片段构造语料D;
第二语音合成单元,用于将原始构造语料C和片段构造语料D输入第一语音合成模型训练得出第二语音合成模型;
第三语音合成单元,用于使用原始语料A、片段语料B和原始构造语料C输入第二语音合成模型继续训练,直至得到能够稳定合成语音的语音合成模型。
本发明的有益效果在于:提高语音合成模型的泛化能力和稳健程度,使得能够合成各种状况下的文本,能够稳定合成短文本、适中文本和长文本。本发明可以在有限的文本-语音平行语料上自动构建大量的不重复语料,大量不重复的语料包括了大量短文本语料和长文本语料,使得训练模型能够使用大量不重复的语料进行训练,从而更容易让模型学习到各种状况下的音素和语音的对应关系,从而使得训练得到的模型更加稳健,能够有效把各种状况下的文本转为语音,也能应对短文本和长文本的合成需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中语音合成技术的方法流程图;
图2为本发明一种自动拓增语料的语音合成模型训练方法的流程图;
图3为本发明一种自动拓增语料的语音合成模型训练系统的原理框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图2所示,本发明提出了一种自动拓增语料的语音合成模型训练方法,包括以下步骤:
S1,收集文本-语音平行语料,记为原始语料A;
步骤S1收集文本-语音平行语料具体包括以下方式:
收集、整理和筛选开源文本-语音平行语料或预先设置好需要录音的文本,然后通过录音员录音的方式收集语音样本或预先收集清晰的语音音频,通过语音识别转为文本,然后人工修正文本内容得到文本样本。
S2,将原始语料A的每个语音样本按照语音停顿分割成若干时长较短的语音片段;
步骤S2中,预先设置语音安静时长的阈值,扫描语音样本,如果安静时长大于阈值则切分。
S3,根据语音片段将对应的文本样本分割成若干文本片段;
1)可以人工听语音内容,然后依据语音内容切分文本,得到描述语音内容的文本。
2)可以用语音识别技术识别语音内容,然后和原文本匹配比对,截取文本描述语音内容的文本。
S4,汇集所有的语音片段和文本片段,记为片段语料B;片段语料B的样本语音时长较短,偏向于对短句的拟合。
S5,根据原始语料A和片段语料B构建深度学习方法的语音合成模型;
步骤S5中语音合成模型包括但不限于tacotron模型、gst模型、deepvoice3模型、TransformerTTS模型。
S6,从原始语料A中随机选择m个样本,将文本样本和语音样本分别拼接构成新的语料样本,记为原始构造语料C;构成的原始构造语料C的语音时长偏长,偏向于增加对长句的拟合。
步骤S6中,预先设置m的取值集合,例如类别有1个,2个,3个等,随机从m的取值集合中选取一个数值,例如选择2个作为m;用安静音频连接相邻的两段语音样本,用标点符号连接相邻的两段文本样本,预定义标点符合对应的安静音频时长。例如逗号用0.5秒的时长,句号用1秒的时长。
S7,从片段语料B中随机选择n个样本,将文本片段和语音片段分别拼接构成新的语料样本,称为片段构造语料D;
预先设置语音片段的数量类别,例如类别有1个,2个,3个等,然后随机选择一个数量,例如选择2个作为n。构成的片段构造语料D中多数是适中时长的样本,偏向于大大增加音素组合的多样性。语音用短暂的安静音频或直接连接相邻的两段语音,文本用标点符号或直接连接相邻的两个句子。可以预习定义不同的标点符号对应不同的安静音频时长,例如逗号用0.5秒的时长,句号用1秒的时长。可以设定直接连接句子的概率,使得构造的句子符合正常句子的结构。
S8,使用原始构造语料C和片段构造语料D训练语音合成模型;
步骤S8中,在训练语音合成模型的过程中自动生成始构造语料C和片段构造语料D,设置最长语音时长阈值,大于阈值则舍弃并重新生成样本,以适应语音合成模型的超参数设置。
S9,降低学习率,使用原始语料A、片段语料B和原始构造语料C训练语音合成模型;
步骤S9中,原始语料A、片段语料B和原始构造语料C的数量一致,原始语料A、片段语料B重复使用。
S10,得到能够稳定合成语音的语音合成模型。
如图3所示,本发明还提出了一种自动拓增语料的语音合成模型训练系统,包括
语料收集单元,用于收集文本-语音平行语料,记为原始语料A;
语料分割单元,用于原始语料A的每个语音样本按照语音停顿分割成若干时长较短的语音片段,根据语音片段将对应的文本样本分割成若干文本片段,汇集所有的语音片段和文本片段,记为片段语料B;
第一语音合成单元,用于根据原始语料A和片段语料B构建深度学习方法的第一语音合成模型;
语料拼接单元,用于从原始语料A中随机选择m个样本,将文本样本和语音样本分别拼接构成新的语料样本,记为原始构造语料C;从片段语料B中随机选择n个样本,将文本片段和语音片段分别拼接构成新的语料样本,称为片段构造语料D;
第二语音合成单元,用于将原始构造语料C和片段构造语料D输入第一语音合成模型训练得出第二语音合成模型;
第三语音合成单元,用于使用原始语料A、片段语料B和原始构造语料C输入第二语音合成模型继续训练,直至得到能够稳定合成语音的语音合成模型。
本发明的框架是首先收集文本-语音平行语料,该语料称为原始语料;对原始语料的每个样本按照语音停顿切分语音,依据切分的语音切分文本,切分的语音和文本组成文本-语音平行语料,该语料称为片段语料;用原始语料和片段语料训练语音合成模型;随机从原始语料选择若干个样本构造一个样本,以此方式构造的全部样本组成原始构造语料;随机从片段语料选择若干个样本构造一个样本,以此方式构造的全部样本组成片段构造语料;用原始构造语料和片段构造语料继续训练语音合成模型;最后降低学习率,用原始语料,片段语料和原始构造语料,继续微调模型直至模型收敛稳定。
本发明的方法能够训练得到泛化能力更加好,合成短句和长句效果都比较好的语音合成模型,训练得到的模型能够很好地合成短文本,适中文本和长文本。为了直观说明问题,设计了对照实验。实验的数据是标贝科技开源的语音合成数据集,实验的语音合成模型是google提出的tacotron模型。
用标贝科技开源的语音合成数据集实验,数据集总共有效时长约12小时,共10000句话,算上标点符号平均每句话18个字。语料中的句子最少字数为4,而4字句子只有1个,6字以下句子只有20个。句子最多字数是37个,37字的句子只有2个,34字以上的句子数目只有10个。
对照组用google提出的tacotron语音合成模型进行实验,用标贝科技提供的开源语料直接训练模型。设置一批样本的数量是32,训练了10万步,即把语料重复使用了320次。模型收敛,文本和语音的对齐关系良好,在训练集和开发集上的效果都良好。用训练的模型合成6字到25字常规的文本,即新闻、对话、小说等文本,模型合成得到的语音总体比较好。用绕口令、重复句子、拗口句子等有挑战的文本来实验训练的模型,合成的语音则有较多问题,问题诸如合成语音错误、部分重复合成、发音模糊等。用1到5字的短句文本实验模型,合成的语音容易出现重复发音的情况,文本越短,合成出错情况越明显。用26字以上的长句文本实验模型,合成的语音后面部分容易出错,且有些夹杂噪声,文本长度越长,合成语音的效果越差。
实验组同样用google提出的tacotron语音合成模型训练,设置的超参数和对照组一样,也是训练10万步,这10万步中用到的语料极少重复的,语料的句子长度最短为1字,最长达到98字。训练10万步后,模型也已经稳定收敛,能够很好拟合训练集和开发集的语料。用6字到25字的常规的文本实验,模型能够很好合成语音,语音的效果略好于对照组。用有挑战的文本实验,模型能稳定合成语音,没有出现明显问题,发音韵律方面略逊色于常规的文本合成的语音。用短句文本实验模型,模型也能稳定合成出语音,没有明显问题。用长句文本实验,26字到80字的文本都能稳定合成出语音,语音效果良好,81字以上则部分出现尾部合成出错的情况。
总体来说用本发明的方案训练得到的模型比常规方案得到的模型效果好。主要是因为常规方案重复使用语料,能学习到的特征非常有限,故模型很受限制。而本发明的方案充分利用了语料的多样性,让模型学习到更加全面的特征,从而得到更加稳健的模型。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种自动拓增语料的语音合成模型训练方法,其特征在于,包括以下步骤:
S1,收集文本-语音平行语料,记为原始语料A;
S2,将原始语料A的每个语音样本按照语音停顿分割成若干时长较短的语音片段;
S3,根据语音片段将对应的文本样本分割成若干文本片段;
S4,汇集所有的语音片段和文本片段,记为片段语料B;
S5,根据原始语料A和片段语料B构建深度学习方法的语音合成模型;
S6,从原始语料A中随机选择m个样本,将文本样本和语音样本分别拼接构成新的语料样本,记为原始构造语料C;
S7,从片段语料B中随机选择n个样本,将文本片段和语音片段分别拼接构成新的语料样本,称为片段构造语料D;
S8,使用原始构造语料C和片段构造语料D训练语音合成模型;
S9,降低学习率,使用原始语料A、片段语料B和原始构造语料C训练语音合成模型;
S10,得到能够稳定合成语音的语音合成模型。
2.根据权利要求1所述的自动拓增语料的语音合成模型训练方法,其特征在于,步骤S1收集文本-语音平行语料具体包括以下方式:
收集、整理和筛选开源文本-语音平行语料或预先设置好需要录音的文本,然后通过录音员录音的方式收集语音样本或预先收集清晰的语音音频,通过语音识别转为文本,然后人工修正文本内容得到文本样本。
3.根据权利要求1所述的自动拓增语料的语音合成模型训练方法,其特征在于,步骤S2中,预先设置语音安静时长的阈值,扫描语音样本,如果安静时长大于阈值则切分。
4.根据权利要求1所述的自动拓增语料的语音合成模型训练方法,其特征在于,步骤S5中语音合成模型包括但不限于tacotron模型、gst模型、deepvoice3模型、TransformerTTS模型。
5.根据权利要求1所述的自动拓增语料的语音合成模型训练方法,其特征在于,步骤S6中,预先设置m的取值集合,随机从m的取值集合中选取一个数值;用安静音频连接相邻的两段语音样本,用标点符号连接相邻的两段文本样本,预定义标点符合对应的安静音频时长。
6.根据权利要求1所述的自动拓增语料的语音合成模型训练方法,其特征在于,步骤S7中,预先设置n的取值集合,随机从n的取值集合中选取一个数值;用安静音频连接相邻的两段语音样本,用标点符号连接相邻的两段文本样本,预定义标点符合对应的安静音频时长;设定直接连接语句的概率。
7.根据权利要求1所述的自动拓增语料的语音合成模型训练方法,其特征在于,步骤S8中,在训练语音合成模型的过程中自动生成始构造语料C和片段构造语料D,设置最长语音时长阈值,大于阈值则舍弃并重新生成样本,以适应语音合成模型的超参数设置。
8.根据权利要求1所述的自动拓增语料的语音合成模型训练方法,其特征在于,步骤S9中,原始语料A、片段语料B和原始构造语料C的数量一致,原始语料A、片段语料B重复使用。
9.一种自动拓增语料的语音合成模型训练系统,其特征在于,包括
语料收集单元,用于收集文本-语音平行语料,记为原始语料A;
语料分割单元,用于原始语料A的每个语音样本按照语音停顿分割成若干时长较短的语音片段,根据语音片段将对应的文本样本分割成若干文本片段,汇集所有的语音片段和文本片段,记为片段语料B;
第一语音合成单元,用于根据原始语料A和片段语料B构建深度学习方法的第一语音合成模型;
语料拼接单元,用于从原始语料A中随机选择m个样本,将文本样本和语音样本分别拼接构成新的语料样本,记为原始构造语料C;从片段语料B中随机选择n个样本,将文本片段和语音片段分别拼接构成新的语料样本,称为片段构造语料D;
第二语音合成单元,用于将原始构造语料C和片段构造语料D输入第一语音合成模型训练得出第二语音合成模型;
第三语音合成单元,用于使用原始语料A、片段语料B和原始构造语料C输入第二语音合成模型继续训练,直至得到能够稳定合成语音的语音合成模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910726585.8A CN110390928B (zh) | 2019-08-07 | 2019-08-07 | 一种自动拓增语料的语音合成模型训练方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910726585.8A CN110390928B (zh) | 2019-08-07 | 2019-08-07 | 一种自动拓增语料的语音合成模型训练方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110390928A true CN110390928A (zh) | 2019-10-29 |
CN110390928B CN110390928B (zh) | 2022-01-11 |
Family
ID=68288389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910726585.8A Active CN110390928B (zh) | 2019-08-07 | 2019-08-07 | 一种自动拓增语料的语音合成模型训练方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110390928B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111210810A (zh) * | 2019-12-17 | 2020-05-29 | 秒针信息技术有限公司 | 模型训练方法和装置 |
CN111222335A (zh) * | 2019-11-27 | 2020-06-02 | 上海眼控科技股份有限公司 | 语料修正方法、装置、计算机设备和计算机可读存储介质 |
CN112102811A (zh) * | 2020-11-04 | 2020-12-18 | 北京淇瑀信息科技有限公司 | 一种合成语音的优化方法、装置及电子设备 |
CN112417850A (zh) * | 2020-11-12 | 2021-02-26 | 北京爱数智慧科技有限公司 | 音频标注的检错方法和装置 |
CN113838450A (zh) * | 2021-08-11 | 2021-12-24 | 北京百度网讯科技有限公司 | 音频合成及相应的模型训练方法、装置、设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577399A (zh) * | 2013-11-05 | 2014-02-12 | 北京百度网讯科技有限公司 | 双语语料库的数据扩充方法和装置 |
CN105869645A (zh) * | 2016-03-25 | 2016-08-17 | 腾讯科技(深圳)有限公司 | 语音数据处理方法和装置 |
CN106951468A (zh) * | 2017-03-02 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 对话生成方法及装置 |
CN108550363A (zh) * | 2018-06-04 | 2018-09-18 | 百度在线网络技术(北京)有限公司 | 语音合成方法及装置、计算机设备及可读介质 |
CN108573694A (zh) * | 2018-02-01 | 2018-09-25 | 北京百度网讯科技有限公司 | 基于人工智能的语料扩充及语音合成系统构建方法及装置 |
US10096317B2 (en) * | 2016-04-18 | 2018-10-09 | Interactions Llc | Hierarchical speech recognition decoder |
US20180336880A1 (en) * | 2017-05-19 | 2018-11-22 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
CN108877765A (zh) * | 2018-05-31 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 语音拼接合成的处理方法及装置、计算机设备及可读介质 |
CN108922518A (zh) * | 2018-07-18 | 2018-11-30 | 苏州思必驰信息科技有限公司 | 语音数据扩增方法和系统 |
CN109213996A (zh) * | 2018-08-08 | 2019-01-15 | 厦门快商通信息技术有限公司 | 一种语料库的训练方法及系统 |
CN109817198A (zh) * | 2019-03-06 | 2019-05-28 | 广州多益网络股份有限公司 | 用于语音合成的多发音训练方法、语音合成方法与装置 |
-
2019
- 2019-08-07 CN CN201910726585.8A patent/CN110390928B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577399A (zh) * | 2013-11-05 | 2014-02-12 | 北京百度网讯科技有限公司 | 双语语料库的数据扩充方法和装置 |
CN105869645A (zh) * | 2016-03-25 | 2016-08-17 | 腾讯科技(深圳)有限公司 | 语音数据处理方法和装置 |
US10096317B2 (en) * | 2016-04-18 | 2018-10-09 | Interactions Llc | Hierarchical speech recognition decoder |
CN106951468A (zh) * | 2017-03-02 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 对话生成方法及装置 |
US20180336880A1 (en) * | 2017-05-19 | 2018-11-22 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
CN108573694A (zh) * | 2018-02-01 | 2018-09-25 | 北京百度网讯科技有限公司 | 基于人工智能的语料扩充及语音合成系统构建方法及装置 |
CN108877765A (zh) * | 2018-05-31 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 语音拼接合成的处理方法及装置、计算机设备及可读介质 |
CN108550363A (zh) * | 2018-06-04 | 2018-09-18 | 百度在线网络技术(北京)有限公司 | 语音合成方法及装置、计算机设备及可读介质 |
CN108922518A (zh) * | 2018-07-18 | 2018-11-30 | 苏州思必驰信息科技有限公司 | 语音数据扩增方法和系统 |
CN109213996A (zh) * | 2018-08-08 | 2019-01-15 | 厦门快商通信息技术有限公司 | 一种语料库的训练方法及系统 |
CN109817198A (zh) * | 2019-03-06 | 2019-05-28 | 广州多益网络股份有限公司 | 用于语音合成的多发音训练方法、语音合成方法与装置 |
Non-Patent Citations (2)
Title |
---|
HEIGA ZEN: ""LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech"", 《INTERSPEECH 2019》 * |
张志楠: ""语音corpus的自动构建和语音最小化标注的研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111222335A (zh) * | 2019-11-27 | 2020-06-02 | 上海眼控科技股份有限公司 | 语料修正方法、装置、计算机设备和计算机可读存储介质 |
CN111210810A (zh) * | 2019-12-17 | 2020-05-29 | 秒针信息技术有限公司 | 模型训练方法和装置 |
CN112102811A (zh) * | 2020-11-04 | 2020-12-18 | 北京淇瑀信息科技有限公司 | 一种合成语音的优化方法、装置及电子设备 |
CN112417850A (zh) * | 2020-11-12 | 2021-02-26 | 北京爱数智慧科技有限公司 | 音频标注的检错方法和装置 |
CN113838450A (zh) * | 2021-08-11 | 2021-12-24 | 北京百度网讯科技有限公司 | 音频合成及相应的模型训练方法、装置、设备及存储介质 |
CN113838450B (zh) * | 2021-08-11 | 2022-11-25 | 北京百度网讯科技有限公司 | 音频合成及相应的模型训练方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110390928B (zh) | 2022-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110390928A (zh) | 一种自动拓增语料的语音合成模型训练方法和系统 | |
Abushariah et al. | Natural speaker-independent Arabic speech recognition system based on Hidden Markov Models using Sphinx tools | |
CN102779508B (zh) | 语音库生成设备及其方法、语音合成系统及其方法 | |
CN108899009B (zh) | 一种基于音素的中文语音合成系统 | |
JP2885372B2 (ja) | 音声符号化方法 | |
JP3588302B2 (ja) | 連結型音声合成のための単位重複領域の識別方法および連結型音声合成方法 | |
US20050071163A1 (en) | Systems and methods for text-to-speech synthesis using spoken example | |
JP2000172285A (ja) | フィルタパラメ―タとソ―ス領域において独立にクロスフェ―ドを行う半音節結合型のフォルマントベ―スのスピ―チシンセサイザ | |
CN115485766A (zh) | 使用bert模型的语音合成韵律 | |
CN103632663B (zh) | 一种基于hmm的蒙古语语音合成前端处理的方法 | |
CN109102796A (zh) | 一种语音合成方法及装置 | |
JP5148026B1 (ja) | 音声合成装置および音声合成方法 | |
WO2012164835A1 (ja) | 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム | |
US7289958B2 (en) | Automatic language independent triphone training using a phonetic table | |
Abushariah et al. | Modern standard Arabic speech corpus for implementing and evaluating automatic continuous speech recognition systems | |
Indumathi et al. | Survey on speech synthesis | |
US6546369B1 (en) | Text-based speech synthesis method containing synthetic speech comparisons and updates | |
CN113012678A (zh) | 一种免标注的特定说话人语音合成方法及装置 | |
Banerjee et al. | Application of triphone clustering in acoustic modeling for continuous speech recognition in Bengali | |
Toledano et al. | Initialization, training, and context-dependency in HMM-based formant tracking | |
Evain et al. | Human beatbox sound recognition using an automatic speech recognition toolkit | |
Nthite et al. | End-to-End Text-To-Speech synthesis for under resourced South African languages | |
CN113628609A (zh) | 自动音频内容生成 | |
KR20180041114A (ko) | 스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별 시스템 및 방법 | |
JP2021148942A (ja) | 声質変換システムおよび声質変換方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |