CN113393829B - 一种融合韵律和个人信息的中文语音合成方法 - Google Patents
一种融合韵律和个人信息的中文语音合成方法 Download PDFInfo
- Publication number
- CN113393829B CN113393829B CN202110667531.6A CN202110667531A CN113393829B CN 113393829 B CN113393829 B CN 113393829B CN 202110667531 A CN202110667531 A CN 202110667531A CN 113393829 B CN113393829 B CN 113393829B
- Authority
- CN
- China
- Prior art keywords
- acoustic model
- model
- input text
- input
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000033764 rhythmic process Effects 0.000 title claims abstract description 16
- 238000001308 synthesis method Methods 0.000 title claims abstract description 15
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 37
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 18
- 230000007246 mechanism Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 6
- 230000000750 progressive effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 238000004088 simulation Methods 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000006872 improvement Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 238000005457 optimization Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种融合韵律和个人信息的中文语音合成方法,中文语音合成方法包括如下步骤:步骤1:将输入文本、输入文本对应的拼音和输入文本的词法句法特征输入层次化韵律预测模型,得到输入文本的多层韵律信息;步骤2:将输入文本对应的拼音、声调等输入到声学模型,得到输入文本对应的语音特征谱图;步骤3:将多层韵律信息引入声学模型,将层次化韵律预测模型和声学模型进行联合,形成新的声学模型;步骤4:在新的声学模型中引入说话人信息,形成个性化语音合成模型,支持多人个性化语音合成。本发明有益效果:本发明在目前端到端合成模型的基础上,提高音频质量、速度;单人和多人的应用场景下,探索一种联合韵律预测任务和梅尔谱图生成任务的多任务学习方法,使得合成音频的停顿节奏感更自然,更贴近原始音频。
Description
技术领域
本发明涉及语音处理技术领域,尤其涉及一种融合韵律和个人信息的中文语音合成方法。
背景技术
随着手机、平板、智能家居及可穿戴设备等都开始接入语音功能,人机交互方式逐渐走入语音时代。与传统的人机交互不同的是,语音交互具有便捷性、智能性,可以使得机器具有像人一样听说读写的综合能力。语音合成是智能语音交互系统的最后一环,负责让机器说出特点文本、特定说话人的语音音频,其分为文本分析和声学模型建模两个部分。文本分析主要是对文本进行特征提取,为后端提供发音、韵律等文本相关的信息;后端的工作是基于前端提取的语言特征来进行声学建模,从而获得自然可懂的语音输出。语音合成技术经过几十年的研究,从最早通过机械组件来模拟人体发声,逐渐发展成基于单元波形拼接和统计参数合成两个主要技术流派,虽然该两种技术模型产生的语音质量基本上满足可懂度的要求,但针对不同的语言,其模型设计方式和语言特征提取的方式也不同,需要开发人员具有较强的语言学背景,极大的限制了模型的通用性,同时复杂的组件设计导致错误不断的被传递累加,从而限制着合成语音的自然度。随着人工智能浪潮的兴起,越来越多的研究人员都开始将神经网络技术应用到语音合成领域,使得语音合成技术进入了一个新的时代。目前的主流语音合成系统一般都是采取基于端到端的声学模型加神经网络声码器的串联架构,该架构生成音频的主观测试分数十分接近原始音频。同时由于深度学习技术的蓬勃发展,复杂的声码器技术也得到不断优化提速,让语音合成工程化应用成为可能。
随着合成音频音质的提升及合成速度的加快,公众的需求从最初的“可懂度”逐步发展到赋能场景的能力、对产品体验的提升上。目前市场上的大多数语音合成产品都是针对单人定制的,不能灵活的满足用户合成多个人声音的个性化需求。为了更好的迎合用户,探索多人合成技术是十分有必要的。因为多人语音合成技术可以提供一个通用模型,使得可以高效率、低成本的进行多人语音合成,具有很强的实用性。此外用户往往都希望获得自然流利的语音输出,促使了研究者将更多的注意力集中在文本的韵律结构预测任务中。正确的韵律结构信息引导合成系统学习到更恰当的停顿发音特点,尤其是针对中文这种极具韵律美的语言,用户更希望能够得到具有更自然的情感起伏、抑扬顿挫的语音。
发明内容
为了解决端到端中文语音合成中的长难句合成不稳定,音质发散、停顿韵律不自然的问题,本发明提供了一种中文语音合成方法,从用户的个性化需求出发,在目前端到端合成模型的基础上,提高音频质量、速度;同时在单人和多人的应用场景下,探索一种联合韵律预测任务和梅尔谱图生成任务的多任务学习方法,使得合成音频的停顿节奏感更自然,更贴近原始音频,并能支持多人语音合成。
本发明提供了一种融合韵律和个人信息的中文语音合成方法,包括如下步骤:
步骤1:将输入文本、输入文本对应的拼音和输入文本的词法句法特征输入层次化韵律预测模型,得到输入文本的多层韵律信息;
步骤2:将输入文本对应的拼音、声调输入到声学模型,得到输入文本对应的语音特征谱图;
步骤3:将多层韵律信息引入声学模型,将层次化韵律预测模型和声学模型进行联合形成新的声学模型;
步步骤4:在新的声学模型中引入说话人信息,形成个性化语音合成模型,支持多人个性化语音合成。
作为本发明的进一步改进,在所述步骤1中,所述层次化韵律预测模型包括编码模块和多任务学习(Multi-task Learning,MTL)模块,所述编码模块:将输入文本输入预训练的BERT语言模型,得到文本的上下文表示,将其与输入文本对应的拼音、词法句法特征表示进行拼接,然后经多层全连接网络(Multi-layer Fully Connected Network,MFCN)进行编码;所述多任务学习模块是一个层次化的基于双向门控循环网络的条件随机场模型(Hierarchical Bidirectional Gated Recurrent Unit-Conditional Random Field,Hierarchical BiGRU-CRF):将文本韵律分为四层,对于每一层的韵律,采用将低层韵律预测结果和编码层输出经全连接网络转换后输入条件随机场模型BiGRU-CRF预测下一层的方式实现。
作为本发明的进一步改进,在所述步骤2中,所述声学模型包括编码单元和解码模块,
所述编码单元:将输入语句编码成上下文语义表示,在Transformer模块的基础上引入一个门控线性单元(Gated Linear Unit)来增强对信息流的控制和三个卷积模块来建模局部信息;
所述解码模块:自回归生成最终的语音特征谱图;包括一个注意力机制模块,通过注意力机制学习输入序列和输出序列的映射关系。
作为本发明的进一步改进,所述门控线性单元用于对信息流进行控制;所述三个卷积模块分别为两个仿Inception网络分支结构和深度可分离卷积模块;
所述仿Inception网络分支结构:用于对特征层面进行多粒度融合;
所述深度可分离卷积模块:用于对特征层面的深度和空间的信息进行解耦。
作为本发明的进一步改进,在所述注意力机制模块中,采用基于前向的注意力机制保持声学模型的注意力对齐路径单调递进,同时使用对角注意力损失来促进声学模型的收敛速度。
作为本发明的进一步改进,在所述注意力机制模块中,前向注意力机制保证当前解码时刻的注意力状态只能由前一时刻前一编码步位置或者相同编码步位置的注意力状态转移而来,确保了声学模型在学习对齐时,注意力权重对齐路径保持单调递进。
作为本发明的进一步改进,通过三种优化步骤对声学模型进行优化,三种优化步骤分别为差分损失优化步骤、波形损失优化步骤、混合输入优化步骤,
所述差分损失优化步骤:首先将真实谱图和合成谱图经过一阶差分计算得到对应处理图像,然后再对其两者进行均方差损失操作;
所述波形损失优化步骤:首先通过声码器将真实谱图和语音特征谱图转换成对应的波形,然后计算两个波形之间的失真程度当作波形损失,使得声学模型生成的谱图经过相位重建之后的音频更接近原始音频;
所述混合输入优化步骤:将预测信息和真实信息混合作为解码模块的输入。
作为本发明的进一步改进,在所述混合输入优化步骤中,在训练时刻,在每一个解码时刻采取上一时刻的预测值和该时刻的真实值的拼接作为解码模块的输入;在推理时刻,在每一个解码时刻,将上一时刻的预测值进行复制拼接的值作为解码模块的输入。
本发明还提供了一种中文语音合成系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的中文语音合成方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的中文语音合成方法的步骤。
本发明的有益效果是:本发明的中文语音合成方法从用户的个性化需求出发,在目前端到端合成模型的基础上,提高音频质量、速度;同时在单人和多人的应用场景下,探索一种联合韵律预测任务和梅尔谱图生成任务的多任务学习方法,使得合成音频的停顿节奏感更自然,更贴近原始音频。
附图说明
图1是本发明的层次化韵律停顿序列转化示意图;
图2是本发明的韵律预测模型架构图;
图3是本发明的声学模型(Evotron)架构图;
图4是本发明的波形损失示意图;
图5是本发明的混合输入示意图;
图6是本发明的韵律预测与谱图预测联合学习框架图;
图7是多人场景的韵律预测与谱图预测联合学习框架图。
具体实施方式
本发明公开了一种融合韵律和个人信息的中文语音合成方法,主要应用于智能人机交互产品中,比如智能音箱、手机助手、直播互动等。
步骤1:将输入文本、输入文本对应的拼音和输入文本的词法句法特征输入层次化韵律预测模型,得到输入文本的多层韵律信息。
将中文的四级韵律停顿转化成图1所示的层次化韵律停顿序列的形式。所述韵律预测模型对层次化的韵律停顿序列进行建模,包括编码模块和多任务学习(Multi-taskLearning,MTL)模块(如图2所示)。
所述编码模块,预训练的BERT等语言模型将输入文本s转换成上下文表示rs,将rs与输入文本对应的拼音特征表示rp和词法句法特征表示rf进行拼接得到蕴含更丰富信息的表示rc。
所述多任务学习模块是一个四层的BiGRU-CRF模型,所述编码模块输出rc经多层全连接网络进行转换后变成rm并输入第一层BiGRU-CRF,得到第一层韵律停顿及其表示l1。将rc和l1经全连接网络转换后输入第二层BiGRU-CRF,得到第二层韵律停顿及其表示l2。将rc和l2经全连接网络转换后输入第二层BiGRU-CRF,得到第三层韵律停顿及其表示l3。将rc和l3经全连接网络转换后输入第四层BiGRU-CRF,得到第四层韵律停顿及其表示l4。
步骤2:将输入文本对应的拼音、声调等输入到声学模型,得到输入文本对应的语音特征谱图(Evotron)。
如图3所示,所述声学模型包括编码单元和解码模块。
所述编码单元:将输入语句编码成上下文语义表示,在Transformer模块的基础上引入一个门控线性单元(Gated Linear Unit)用于增强对信息流的控制,减小梯度消失概率,引入三个卷积模块来分别增强对信息流的控制和提升局部信息建模能力。所述三个卷积模块分别为两个仿Inception网络分支结构(Conv 1×1)和深度可分离卷积模块(SepConv 9×1)。所述仿Inception网络分支结构,相当于在特征层面做了一个多粒度融合。所述深度可分离卷积模块,用于对特征层面的深度和空间的信息进行解耦。
所述解码模块:根据编码单元的输出和注意力机制计算得到的上下文信息,自回归生成最终的语音特征谱图;通过所述注意力机制学习输入序列和输出序列的映射关系;在所述注意力机制模块中,采用基于前向的注意力机制保持声学模型的注意力对齐路径单调递进,同时使用对角注意力损失来促进语音合成模型的收敛速度。所述前向注意力机制保证当前解码时刻的注意力状态只能由前一时刻前一编码步位置或者相同编码步位置的注意力状态转移而来,确保了声学模型在学习对齐时,注意力权重对齐路径保持单调递进,避免了出现“回头看”等情况。同时也保证了注意对齐的快速收敛和稳定性。通过引入对角引导注意力损失,可以使得模型快速的得到收敛且极大的降低了训练成本。通过三种优化步骤对语音合成模型进行优化,三种优化步骤分别为差分损失优化步骤、波形损失优化步骤(如图4所示)、混合输入优化步骤(如图5所示)。
步骤3:将多层韵律信息引入声学模型,采用如图6所示韵律预测和谱图生成的多任务框架将韵律预测模型和声学模型进行联合形成新的声学模型。韵律预测模型和声学模型相互促进,分别提高两者的性能,提升语音合成效果。将韵律预测模型的输入部分也作为声学模型输入的一部分,将韵律预测模型预测的韵律停顿经过FCN转换后作为声学模型中注意力机制模块输入的一部分。对声学模型的损失函数Lp和谱图生成任务损失函数Lm的进行线性组合:
L=αLm+(1-α)Lp,
其中,α是一个组合系数,用于调节每部分的权重,α越大,表示谱图生成任务对模型的影响越大,反之亦然。Lp和Lm均采用均方差和极大似然损失等。
步骤4:在新的声学模型中引入说话人信息,形成个性化语音合成模型,支持多人个性化语音合成(如图7所示)。在步骤3的基础上引入基于说话人编码(speakerembedding),作为声学模型中注意力机制模块输入的一部分,实现支持多人语音合成的功能。
本发明提出一种中文语音合成方法,在原有的声学模型基础上,提出根据目前主流模型的优缺点,设计了一种新的语音合成模型新架构Evotron,并引入了三种优化技巧,提升了系统的鲁棒性、泛化性及音频质量。同时和神经网络声码器搭建级联语音合成系统吗,达到了实时合成的效果。为了进一步的提升中文合成音频中的停顿节奏感,提出了层次韵律预测框架和联合韵律学习策略,提升了合成音频的停顿节奏感,在多人场景下有助于捕捉到独特的发音特点。
在本发明中,将韵律信息引入声学模型,合成停顿感更强的语音;将韵律模型与声学模型进行联合训练,提高两者的性能。
在新的声学模型中引入说话人信息,建模说话人的音色特点,支持多人个性化语音合成。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (9)
1.一种融合韵律和个人信息的中文语音合成方法,其特征在于,包括如下步骤:
步骤1:将输入文本、输入文本对应的拼音和输入文本的词法句法特征输入层次化韵律预测模型,得到输入文本的多层韵律信息;
步骤2:将输入文本对应的拼音、声调输入到声学模型,得到输入文本对应的语音特征谱图;
步骤3:将多层韵律信息引入声学模型,将层次化韵律预测模型和声学模型进行联合形成新的声学模型;
步骤4:在新的声学模型中引入说话人信息,形成个性化语音合成模型,支持多人个性化语音合成;
在所述步骤1中,所述层次化韵律预测模型包括编码模块和多任务学习模块,所述编码模块:将输入文本输入预训练的BERT语言模型,得到文本的上下文表示,将其与输入文本对应的拼音、词法句法特征表示进行拼接,然后经多层全连接网络进行编码;所述多任务学习模块是一个层次化的基于双向门控循环网络的条件随机场模型:将文本韵律分为四层,对于每一层的韵律,采用将低层韵律预测结果和编码层输出经全连接网络转换后输入条件随机场模型BiGRU-CRF预测下一层的方式实现。
2.根据权利要求1所述的中文语音合成方法,其特征在于,在所述步骤2中,所述声学模型包括编码单元和解码模块,
所述编码单元:将输入语句编码成上下文语义表示,在Transformer模块的基础上引入一个门控线性单元来增强对信息流的控制和三个卷积模块来建模局部信息;
所述解码模块:自回归生成最终的语音特征谱图;包括一个注意力机制模块,通过注意力机制学习输入序列和输出序列的映射关系。
3.根据权利要求2所述的中文语音合成方法,其特征在于,所述门控线性单元用于对信息流进行控制;所述三个卷积模块分别为两个仿Inception网络分支结构和深度可分离卷积模块;
所述仿Inception网络分支结构:用于对特征层面进行多粒度融合;
所述深度可分离卷积模块:用于对特征层面的深度和空间的信息进行解耦。
4.根据权利要求2所述的中文语音合成方法,其特征在于,在所述注意力机制模块中,采用基于前向的注意力机制保持声学模型的注意力对齐路径单调递进,同时使用对角注意力损失来促进声学模型的收敛速度。
5.根据权利要求4所述的中文语音合成方法,其特征在于,在所述注意力机制模块中,前向注意力机制保证当前解码时刻的注意力状态只能由前一时刻前一编码步位置或者相同编码步位置的注意力状态转移而来,确保了声学模型在学习对齐时,注意力权重对齐路径保持单调递进。
6.根据权利要求1-5任一项所述的中文语音合成方法,其特征在于,通过三种优化步骤对声学模型进行优化,三种优化步骤分别为差分损失优化步骤、波形损失优化步骤、混合输入优化步骤,
所述差分损失优化步骤:首先将真实谱图和合成谱图经过一阶差分计算得到对应处理图像,然后再对其两者进行均方差损失操作;
所述波形损失优化步骤:首先通过声码器将真实谱图和语音特征谱图转换成对应的波形,然后计算两个波形之间的失真程度当作波形损失,使得声学模型生成的谱图经过相位重建之后的音频更接近原始音频;
所述混合输入优化步骤:将预测信息和真实信息混合作为解码模块的输入。
7.根据权利要求6所述的中文语音合成方法,其特征在于,在所述混合输入优化步骤中,在训练时刻,在每一个解码时刻采取上一时刻的预测值和该时刻的真实值的拼接作为解码模块的输入;在推理时刻,在每一个解码时刻,将上一时刻的预测值进行复制拼接的值作为解码模块的输入。
8.一种中文语音合成系统,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-7中任一项所述的中文语音合成方法的步骤。
9.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-7中任一项所述的中文语音合成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110667531.6A CN113393829B (zh) | 2021-06-16 | 2021-06-16 | 一种融合韵律和个人信息的中文语音合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110667531.6A CN113393829B (zh) | 2021-06-16 | 2021-06-16 | 一种融合韵律和个人信息的中文语音合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113393829A CN113393829A (zh) | 2021-09-14 |
CN113393829B true CN113393829B (zh) | 2023-08-29 |
Family
ID=77621497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110667531.6A Active CN113393829B (zh) | 2021-06-16 | 2021-06-16 | 一种融合韵律和个人信息的中文语音合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113393829B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114267329B (zh) * | 2021-12-24 | 2024-09-10 | 厦门大学 | 基于概率生成和非自回归模型的多说话人语音合成方法 |
CN115440187A (zh) * | 2022-09-06 | 2022-12-06 | 云知声智能科技股份有限公司 | 一种语音合成方法、装置、设备和存储介质 |
CN116978354B (zh) * | 2023-08-01 | 2024-04-30 | 支付宝(杭州)信息技术有限公司 | 韵律预测模型的训练方法及装置、语音合成方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005034082A1 (en) * | 2003-09-29 | 2005-04-14 | Motorola, Inc. | Method for synthesizing speech |
CN101000764A (zh) * | 2006-12-18 | 2007-07-18 | 黑龙江大学 | 基于韵律结构的语音合成文本处理方法 |
CN101000765A (zh) * | 2007-01-09 | 2007-07-18 | 黑龙江大学 | 基于韵律特征的语音合成方法 |
CN105185372A (zh) * | 2015-10-20 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
CN110534089A (zh) * | 2019-07-10 | 2019-12-03 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
CN111339771A (zh) * | 2020-03-09 | 2020-06-26 | 广州深声科技有限公司 | 一种基于多任务多层级模型的文本韵律预测方法 |
CN112365882A (zh) * | 2020-11-30 | 2021-02-12 | 北京百度网讯科技有限公司 | 语音合成方法及模型训练方法、装置、设备及存储介质 |
CN112863483A (zh) * | 2021-01-05 | 2021-05-28 | 杭州一知智能科技有限公司 | 支持多说话人风格、语言切换且韵律可控的语音合成装置 |
-
2021
- 2021-06-16 CN CN202110667531.6A patent/CN113393829B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005034082A1 (en) * | 2003-09-29 | 2005-04-14 | Motorola, Inc. | Method for synthesizing speech |
CN101000764A (zh) * | 2006-12-18 | 2007-07-18 | 黑龙江大学 | 基于韵律结构的语音合成文本处理方法 |
CN101000765A (zh) * | 2007-01-09 | 2007-07-18 | 黑龙江大学 | 基于韵律特征的语音合成方法 |
CN105185372A (zh) * | 2015-10-20 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
CN110534089A (zh) * | 2019-07-10 | 2019-12-03 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
CN111339771A (zh) * | 2020-03-09 | 2020-06-26 | 广州深声科技有限公司 | 一种基于多任务多层级模型的文本韵律预测方法 |
CN112365882A (zh) * | 2020-11-30 | 2021-02-12 | 北京百度网讯科技有限公司 | 语音合成方法及模型训练方法、装置、设备及存储介质 |
CN112863483A (zh) * | 2021-01-05 | 2021-05-28 | 杭州一知智能科技有限公司 | 支持多说话人风格、语言切换且韵律可控的语音合成装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113393829A (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113393829B (zh) | 一种融合韵律和个人信息的中文语音合成方法 | |
Tan et al. | A survey on neural speech synthesis | |
CN111276120B (zh) | 语音合成方法、装置和计算机可读存储介质 | |
JP2024023421A (ja) | 2レベル音声韻律転写 | |
Robinson et al. | Sequence-to-sequence modelling of f0 for speech emotion conversion | |
JP2021157193A (ja) | 音声合成方法及び対応するモデルのトレーニング方法、装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
KR20200092505A (ko) | 심층 합성곱 신경망 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 방법 | |
Yu et al. | Acoustic modeling based on deep learning for low-resource speech recognition: An overview | |
CN113838448B (zh) | 一种语音合成方法、装置、设备及计算机可读存储介质 | |
JP2021192119A (ja) | 音声合成モデルの属性登録方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
JP7335569B2 (ja) | 音声認識方法、装置及び電子機器 | |
CN113628610B (zh) | 一种语音合成方法和装置、电子设备 | |
CN111339771A (zh) | 一种基于多任务多层级模型的文本韵律预测方法 | |
CN113539268A (zh) | 一种端到端语音转文本罕见词优化方法 | |
Wu et al. | Rapid Style Adaptation Using Residual Error Embedding for Expressive Speech Synthesis. | |
CN113436600B (zh) | 一种语音合成方法及装置 | |
Barakat et al. | Deep learning-based expressive speech synthesis: a systematic review of approaches, challenges, and resources | |
Bulyko et al. | Efficient integrated response generation from multiple targets using weighted finite state transducers | |
Kang et al. | Connectionist temporal classification loss for vector quantized variational autoencoder in zero-shot voice conversion | |
US20240177386A1 (en) | System and method for an audio-visual avatar creation | |
CN115966197A (zh) | 语音合成方法、装置、电子设备和存储介质 | |
Effendi et al. | Augmenting images for asr and tts through single-loop and dual-loop multimodal chain framework | |
CN118366430B (zh) | 一种拟人化的语音合成方法、装置及可读存储介质 | |
Sreenu et al. | A human machine speaker dependent speech interactive system | |
Morishima et al. | Multimodal translation system using texture-mapped lip-sync images for video mail and automatic dubbing applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |