CN112509553B - 一种语音合成方法、装置以及计算机可读存储介质 - Google Patents
一种语音合成方法、装置以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112509553B CN112509553B CN202011391440.6A CN202011391440A CN112509553B CN 112509553 B CN112509553 B CN 112509553B CN 202011391440 A CN202011391440 A CN 202011391440A CN 112509553 B CN112509553 B CN 112509553B
- Authority
- CN
- China
- Prior art keywords
- text information
- voice
- information
- duration
- content vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 78
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 26
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 238000001228 spectrum Methods 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 230000001427 coherent effect Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 8
- 230000008451 emotion Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种语音合成方法、装置以及计算机可读存储介质,包括:获取文本信息,并将所获取的文本信息输入到基于端到端神经网络的声学模型中进行编码,编码生成表征用于概括所述文本信息的第一内容向量;接收针对所述文本信息中每个子文本信息的语音时长信息;根据所接收的语音时长信息,调整所述第一内容向量中针对所述子文本信息的语音时长,生成第二内容向量;根据所生成的第二内容向量,生成对应于所述文本信息的语音信息。由此,在语音合成过程中,通过控制第一内容向量中的文本时长,使得所生成的声音在音质未下降的基础上变得富有情感并且连贯舒畅。
Description
技术领域
本发明涉及语音合成领域,尤其涉及一种语音合成方法、装置以及计算机可读存储介质。
背景技术
在语音合成是指计算机自动根据文本生成相应语音的技术,传统的语音合成技术分为参数语音合成和拼接语音合成。
参数语音合成所生成的声音,音质不错,缺点在于声音平淡、缺乏情感,并且含有一些背景音。
拼接语音合成所生成的声音,音质很高,缺点在于需要大量的录制声音,以满足不同的场景需求,另外,拼接算法常常会有拼接不连贯的问题。
发明内容
本发明实施例提供了一种语音合成方法、装置以及计算机可读存储介质,具有生成富有情感且音质高语音的技术效果。
本发明一方面提供一种语音合成方法,所述方法包括:获取文本信息,并将所获取的文本信息输入到基于端到端神经网络的声学模型中进行编码,编码生成表征用于概括所述文本信息的第一内容向量;接收针对所述文本信息中每个子文本信息的语音时长信息;根据所接收的语音时长信息,调整所述第一内容向量中针对所述子文本信息的语音时长,生成第二内容向量;根据所生成的第二内容向量,生成对应于所述文本信息的语音信息。
在一可实施方式中,所述接收针对所述文本信息中每个子文本信息的语音时长信息,包括:将所述文本信息作为已预训练好的时长模型的输入,输出得到对应于所述子文本信息的语音时长信息;或者,从信息库中获取对应于所述子文本信息的语音时长信息。
在一可实施方式中,所述时长模型为基于端到端的神经网络模型;相应的,所述将所述文本信息作为已预训练好的时长模型的输入,输出得到对应于所述子文本信息的语音时长信息,包括:将所述文本信息输入于所述时长模型中的编码层进行编码处理,输出得到表征用于概括所述文本信息的第三内容向量;将所述第三内容向量输入于所述时长模型中的解码层进行解码处理,输出得到对应于所述子文本信息的语音时长信息。
在一可实施方式中,所述根据所接收的语音时长信息,调整所述第一内容向量中针对所述子文本信息的语音时长,生成第二内容向量,包括:根据所接收的语音时长信息,将所述第一内容向量中对应的子文本信息进行重复增加/删除语音帧数处理,生成第二内容向量。
在一可实施方式中,所述根据所生成的第二内容向量,生成对应于所述文本信息的语音信息,包括:将所述第二内容向量输入于所述声学模型中的解码层进行解码,生成对应的语音谱参数;将所生成的语音谱参数作为基于神经网络的声码器模型的输入,生成对应于所述文本信息的语音信息。
在一可实施方式中,所述将所述第二内容向量输入于所述声学模型中的解码层进行解码,包括:通过注意力机制选择性的将所述第二内容向量输入于所述声学模型进行解码。
在一可实施方式中,所述声码器模型采用卷积神经网络,并且根据语音采样点建模。
本发明另一方面提供一种语音合成装置,所述装置包括:
文本获取模块,用于获取文本信息,并将所获取的文本信息输入到基于端到端神经网络的声学模型中进行编码,编码生成表征用于概括所述文本信息的第一内容向量;时长获取模块,用于接收针对所述文本信息中每个子文本信息的语音时长信息;时长调整模块,用于根据所接收的语音时长信息,调整所述第一内容向量中针对所述子文本信息的语音时长,生成第二内容向量;语音合成模块,用于根据所生成的第二内容向量,生成对应于所述文本信息的语音信息。
在一可实施方式中,所述时长获取模块具体用于:将所述文本信息作为已预训练好的时长模型的输入,输出得到对应于所述子文本信息的语音时长信息;或者,从信息库中获取对应于所述子文本信息的语音时长信息。
本发明另一方面提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行上述任一项所述的语音合成方法。
在本发明实施例中,在语音合成过程中,通过控制第一内容向量中的文本时长,使得所生成的声音在音质未下降的基础上变得富有情感并且连贯舒畅。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本发明实施例一种语音合成方法的实现流程示意图;
图2为本发明实施例一种语音合成方法中时长模型以及声学模型的使用过程示意图;
图3为本发明实施例一种语音合成方法中时长模型以及声学模型的训练过程示意图;
图4为本发明实施例一种语音合成装置的结构组成示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一种语音合成方法的实现流程示意图;
图2为本发明实施例一种语音合成方法中时长模型以及声学模型的使用过程示意图。
如图1以及图2所示,本发明一方面提供一种语音合成方法,方法包括:
步骤101,获取文本信息,并将所获取的文本信息输入到基于端到端神经网络的声学模型中进行编码,编码生成表征用于概括文本信息的第一内容向量;
步骤102,接收针对文本信息中每个子文本信息的语音时长信息;
步骤103,根据所接收的语音时长信息,调整第一内容向量中针对子文本信息的语音时长,生成第二内容向量;
步骤104,根据所生成的第二内容向量,生成对应于文本信息的语音信息。
本实施例中,在步骤101中,基于端到端神经网络的声学模型包括编码层和解码层,具体应用时,将文本信息输入到编码层中进行编码,生成得到表征用于概括文本信息的第一内容向量;
在步骤102中,子文本信息包括文本信息中的字、词或者短语,语音时长信息可以是人工根据文本信息以及实际需求自定义设置,也可以通过预训练好的神经网络模型自动生成,还可以是根据文本信息从预设信息库中获取。
在步骤103中,调整方式可以是在原有语音时长的基础上进行语音帧数重复性增加或者删减,以达到调整语音时长的目的。
在步骤104中,语音信息的生成具体为将第二内容信息作为解码层的输入,得到对应的语音谱参数,再将语音谱参数输入到声码器中便可生成对应于文本信息的语音信息。
由此,在语音合成过程中,通过控制第一内容向量中的文本时长,使得所生成的声音在音质未下降的基础上变得富有情感并且连贯舒畅。
在一可实施方式中,接收针对文本信息中每个子文本信息的语音时长信息,包括:
将文本信息作为已预训练好的时长模型的输入,输出得到对应于子文本信息的语音时长信息;
或者,从信息库中获取对应于子文本信息的语音时长信息。
本实施例中,时长模型需事先进行预训练,以用于针对文本信息预测出对应于子文本信息最佳的语音时长信息。
图3为本发明实施例一种语音合成方法中时长模型以及声学模型的训练过程示意图。
参考图3所示,该时长模型的训练过程为:
将训练文本以及对应的带有时长标签的训练时长数据输入到时长模型中进行训练,生成对应的预设时长数据,计算预设时长数据和训练时长数据之间的损失数据,根据损失数据进一步调整时长模型的参数,直到损失数据满足预设条件,停止训练。
信息库中可以事先存有大量子文本信息以及对应的时长信息,提取时,将文本信息作为字段从信息库中进行检索,得到对应的语音时长信息。
在一可实施方式中,时长模型为基于端到端的神经网络模型:
相应的,将文本信息作为已预训练好的时长模型的输入,输出得到对应于子文本信息的语音时长信息,包括:
将文本信息输入于时长模型中的编码层进行编码处理,输出得到表征用于概括文本信息的第三内容向量;
将第三内容向量输入于时长模型中的解码层进行解码处理,输出得到对应于子文本信息的语音时长信息。
本实施例中,基于端到端的神经网络时长模型包括编码层和解码层;
相应的,上述步骤中通过时长模型输出得到对应于子文本信息的语音时长信息的具体过程为:
将文本信息输入于时长模型中的编码层进行编码处理,输出得到表征用于概括文本信息的第三内容向量,再将第三内容向量输入于时长模型中的解码层进行解码处理,输出得到对应于子文本信息的语音时长信息。
在一可实施方式中,根据所接收的语音时长信息,调整第一内容向量中针对子文本信息的语音时长,生成第二内容向量,包括:
根据所接收的语音时长信息,将第一内容向量中对应的子文本信息进行重复增加/删除语音帧数处理,生成第二内容向量。
本实施例中,步骤103的具体过程优选为:以文本信息为“我”为例,重复增加语音帧数的过程即为在原有的“我”的位置基础上往后重复增设多次语音帧数,进而达到扩充的目的,同理,在原有的“我”的位置基础上删除多次语音帧数,进而达到缩减的目的。通过上述语音帧数的增加或者删减,可使最后合成的语音情感丰富。
在一可实施方式中,根据所生成的第二内容向量,生成对应于文本信息的语音信息,包括:
将第二内容向量输入于声学模型中的解码层进行解码,生成对应的语音谱参数;
将所生成的语音谱参数作为基于神经网络的声码器模型的输入,生成对应于文本信息的语音信息。
本实施例中,基于神经网络的声码器模型包括WaveRNN、SparseWaveRNN等等。
在一可实施方式中,将第二内容向量输入于声学模型中的解码层进行解码,包括:
通过注意力机制选择性的将第二内容向量输入于声学模型进行解码。
本实施例中,通过引入注意力机制来判断当前的第二内容向量在当前语音合成任务中是否为关键信息,若判定当前的第二内容向量为关键信息,则将当前的第二内容向量输入于声学模型进行解码,反之,若判定当前的第二内容向量不是关键信息,那么将第二内容向量舍弃,通过引入注意力机制,可提升语音合成的效率以及提高输出结果的准确度和稳定性。
在一可实施方式中,声码器模型采用卷积神经网络,并且根据语音采样点建模。
本实施例中,通过采用卷积神经网络并且根据语音采样点直接建模,可使生成的声音可以高度保真,并且非常流畅自然。
参考图3所示,该声学模型的训练过程为:
首先根据训练文本经过声学模型的编码层获取文本内容向量,再根据所输入的文本时长,生成时长调整后的内容向量,接着通过注意力机制以及解码阶段生成对应的语音谱参数,将生成的语音谱参数与目标语音谱参数进行损失计算,根据损失值更新参数,直到损失值在预设范围内停止训练。神经网络声码器采用卷积神经网络,在采样点上直接建模并单独训练。
图4为本发明实施例一种语音合成装置的结构组成示意图。
如图4所示,本发明实施例另一方面提供一种语音合成装置,装置包括:
文本获取模块201,用于获取文本信息,并将所获取的文本信息输入到基于端到端神经网络的声学模型中进行编码,编码生成表征用于概括文本信息的第一内容向量;
时长获取模块202,用于接收针对文本信息中每个子文本信息的语音时长信息;
时长调整模块203,用于根据所接收的语音时长信息,调整第一内容向量中针对子文本信息的语音时长,生成第二内容向量;
语音合成模块204,用于根据所生成的第二内容向量,生成对应于文本信息的语音信息。
本实施例中,在文本获取模块201中,基于端到端神经网络的声学模型包括编码层和解码层,具体应用时,将文本信息输入到编码层中进行编码,生成得到表征用于概括文本信息的第一内容向量;
在时长获取模块202中,子文本信息包括文本信息中的字、词或者短语,语音时长信息可以是人工根据文本信息以及实际需求自定义设置,也可以通过预训练好的神经网络模型自动生成,还可以是根据文本信息从预设信息库中获取。
在时长调整模块203中,调整方式可以是在原有语音时长的基础上进行语音帧数重复性增加或者删减,以达到调整语音时长的目的。
在语音合成模块204中,语音信息的生成具体为将第二内容信息作为解码层的输入,得到对应的语音谱参数,再将语音谱参数输入到声码器中便可生成对应于文本信息的语音信息。
由此,在语音合成过程中,通过控制第一内容向量中的文本时长,使得所生成的声音在音质未下降的基础上变得富有情感并且连贯舒畅。
在一可实施方式中,时长获取模块202具体用于:
将文本信息作为已预训练好的时长模型的输入,输出得到对应于子文本信息的语音时长信息;
或者,从信息库中获取对应于子文本信息的语音时长信息。
本实施例中,时长模型需事先进行预训练,以用于针对文本信息预测出对应于子文本信息最佳的语音时长信息。
参考图3所示,该时长模型的训练过程为:
将训练文本以及对应的带有时长标签的训练时长数据输入到时长模型中进行训练,生成对应的预设时长数据,计算预设时长数据和训练时长数据之间的损失数据,根据损失数据进一步调整时长模型的参数,直到损失数据满足预设条件,停止训练。
信息库中可以事先存有大量子文本信息以及对应的时长信息,提取时,将文本信息作为字段从信息库中进行检索,得到对应的语音时长信息。
本发明另一方面提供一种计算机可读存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的语音合成方法。
在本发明实施例中计算机可读存储介质包括一组计算机可执行指令,当指令被执行时用于,获取文本信息,并将所获取的文本信息输入到基于端到端神经网络的声学模型中进行编码,编码生成表征用于概括文本信息的第一内容向量;接收针对文本信息中每个子文本信息的语音时长信息;根据所接收的语音时长信息,调整第一内容向量中针对子文本信息的语音时长,生成第二内容向量;根据所生成的第二内容向量,生成对应于文本信息的语音信息。
由此,在语音合成过程中,通过控制第一内容向量中的文本时长,使得所生成的声音在音质未下降的基础上变得富有情感并且连贯舒畅。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种语音合成方法,其特征在于,所述方法包括:
获取文本信息,并将所获取的文本信息输入到基于端到端神经网络的声学模型中进行编码,编码生成表征用于概括所述文本信息的第一内容向量;
接收针对所述文本信息中每个子文本信息的语音时长信息;
根据所接收的语音时长信息,调整所述第一内容向量中针对所述子文本信息的语音时长,生成第二内容向量;
根据所生成的第二内容向量,生成对应于所述文本信息的语音信息;
其中,将所述第二内容向量输入于所述声学模型中的解码层进行解码,生成对应的语音谱参数;
将所生成的语音谱参数作为基于神经网络的声码器模型的输入,生成对应于所述文本信息的语音信息;
其中,通过注意力机制选择性的将所述第二内容向量输入于所述声学模型进行解码。
2.根据权利要求1所述的方法,其特征在于,所述接收针对所述文本信息中每个子文本信息的语音时长信息,包括:
将所述文本信息作为已预训练好的时长模型的输入,输出得到对应于所述子文本信息的语音时长信息;
或者,从信息库中获取对应于所述子文本信息的语音时长信息。
3.根据权利要求2所述的方法,其特征在于,所述时长模型为基于端到端的神经网络模型:
相应的,所述将所述文本信息作为已预训练好的时长模型的输入,输出得到对应于所述子文本信息的语音时长信息,包括:
将所述文本信息输入于所述时长模型中的编码层进行编码处理,输出得到表征用于概括所述文本信息的第三内容向量;
将所述第三内容向量输入于所述时长模型中的解码层进行解码处理,输出得到对应于所述子文本信息的语音时长信息。
4.根据权利要求1所述的方法,其特征在于,所述根据所接收的语音时长信息,调整所述第一内容向量中针对所述子文本信息的语音时长,生成第二内容向量,包括:
根据所接收的语音时长信息,将所述第一内容向量中对应的子文本信息进行重复增加/删除语音帧数处理,生成第二内容向量。
5.根据权利要求1所述的方法,其特征在于,所述声码器模型采用卷积神经网络,并且根据语音采样点建模。
6.一种语音合成装置,其特征在于,所述装置包括:
文本获取模块,用于获取文本信息,并将所获取的文本信息输入到基于端到端神经网络的声学模型中进行编码,编码生成表征用于概括所述文本信息的第一内容向量;
时长获取模块,用于接收针对所述文本信息中每个子文本信息的语音时长信息;
时长调整模块,用于根据所接收的语音时长信息,调整所述第一内容向量中针对所述子文本信息的语音时长,生成第二内容向量;
语音合成模块,用于根据所生成的第二内容向量,生成对应于所述文本信息的语音信息;
所述语音合成模块还用于,将所述第二内容向量输入于所述声学模型中的解码层进行解码,生成对应的语音谱参数;将所生成的语音谱参数作为基于神经网络的声码器模型的输入,生成对应于所述文本信息的语音信息;其中,通过注意力机制选择性的将所述第二内容向量输入于所述声学模型进行解码。
7.根据权利要求6所述的装置,其特征在于,所述时长获取模块具体用于:
将所述文本信息作为已预训练好的时长模型的输入,输出得到对应于所述子文本信息的语音时长信息;
或者,从信息库中获取对应于所述子文本信息的语音时长信息。
8.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1-5任一项所述的语音合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011391440.6A CN112509553B (zh) | 2020-12-02 | 2020-12-02 | 一种语音合成方法、装置以及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011391440.6A CN112509553B (zh) | 2020-12-02 | 2020-12-02 | 一种语音合成方法、装置以及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112509553A CN112509553A (zh) | 2021-03-16 |
CN112509553B true CN112509553B (zh) | 2023-08-01 |
Family
ID=74969952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011391440.6A Active CN112509553B (zh) | 2020-12-02 | 2020-12-02 | 一种语音合成方法、装置以及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112509553B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003248495A (ja) * | 2002-02-25 | 2003-09-05 | Toshiba Corp | 音声合成方法と装置及びプログラム |
CN110136692A (zh) * | 2019-04-30 | 2019-08-16 | 北京小米移动软件有限公司 | 语音合成方法、装置、设备及存储介质 |
CN110148398A (zh) * | 2019-05-16 | 2019-08-20 | 平安科技(深圳)有限公司 | 语音合成模型的训练方法、装置、设备及存储介质 |
WO2019165748A1 (zh) * | 2018-02-28 | 2019-09-06 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
KR20190135853A (ko) * | 2018-05-29 | 2019-12-09 | 한국과학기술원 | 텍스트- 다중 음성 변환 방법 및 시스템 |
CN111583904A (zh) * | 2020-05-13 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、存储介质及电子设备 |
CN111739508A (zh) * | 2020-08-07 | 2020-10-02 | 浙江大学 | 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10872596B2 (en) * | 2017-10-19 | 2020-12-22 | Baidu Usa Llc | Systems and methods for parallel wave generation in end-to-end text-to-speech |
-
2020
- 2020-12-02 CN CN202011391440.6A patent/CN112509553B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003248495A (ja) * | 2002-02-25 | 2003-09-05 | Toshiba Corp | 音声合成方法と装置及びプログラム |
WO2019165748A1 (zh) * | 2018-02-28 | 2019-09-06 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
KR20190135853A (ko) * | 2018-05-29 | 2019-12-09 | 한국과학기술원 | 텍스트- 다중 음성 변환 방법 및 시스템 |
CN110136692A (zh) * | 2019-04-30 | 2019-08-16 | 北京小米移动软件有限公司 | 语音合成方法、装置、设备及存储介质 |
CN110148398A (zh) * | 2019-05-16 | 2019-08-20 | 平安科技(深圳)有限公司 | 语音合成模型的训练方法、装置、设备及存储介质 |
CN111583904A (zh) * | 2020-05-13 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、存储介质及电子设备 |
CN111739508A (zh) * | 2020-08-07 | 2020-10-02 | 浙江大学 | 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112509553A (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102514990B1 (ko) | 뉴럴 네트워크들을 사용하여 대상 화자의 음성으로 텍스트로부터의 스피치의 합성 | |
JP6374028B2 (ja) | 音声プロファイルの管理および発話信号の生成 | |
US7792672B2 (en) | Method and system for the quick conversion of a voice signal | |
WO2022141678A1 (zh) | 语音合成方法、装置、设备及存储介质 | |
JP2003150187A (ja) | スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法 | |
KR100923922B1 (ko) | 오디오 코딩시 피치 곡선 양자화를 위한 방법 및 시스템 | |
CN111508470A (zh) | 一种语音合成模型的训练方法及装置 | |
CN112908294B (zh) | 一种语音合成方法以及语音合成系统 | |
Yin et al. | Modeling F0 trajectories in hierarchically structured deep neural networks | |
CN113327580A (zh) | 语音合成方法、装置、可读介质及电子设备 | |
JP4382808B2 (ja) | 基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法及びシステム | |
CN105719640A (zh) | 声音合成装置及声音合成方法 | |
CN112509553B (zh) | 一种语音合成方法、装置以及计算机可读存储介质 | |
JP5326546B2 (ja) | 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム | |
Xie et al. | Pitch transformation in neural network based voice conversion | |
WO2008056604A1 (fr) | Système de collecte de son, procédé de collecte de son et programme de traitement de collecte | |
JP5268731B2 (ja) | 音声合成装置、方法およびプログラム | |
CN117558263B (zh) | 语音识别方法、装置、设备及可读存储介质 | |
KR100275777B1 (ko) | 음소별 코드북 매핑에 의한 음색변환방법 | |
KR100624440B1 (ko) | 음소별 코드북 매핑에 의한 음색변환방법 | |
Kim et al. | Controllable and Interpretable Singing Voice Decomposition via Assem-VC | |
JP5119716B2 (ja) | 音声符号化装置、音声符号化方法、及び、プログラム | |
CN117953851A (zh) | 文本转语音的方法、设备和计算机程序产品 | |
CN115497450A (zh) | 一种语音合成方法和装置 | |
KR100624545B1 (ko) | 티티에스 시스템의 음성압축 및 합성방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230629 Address after: 100044 2-406, Floor 4, Building 1, Yard 42, Gaoliangqiao Xiejie Street, Haidian District, Beijing Applicant after: WENWEN INTELLIGENT INFORMATION TECHNOLOGY Co.,Ltd. Address before: 215000 unit 4-b404, creative industry park, 328 Xinghu street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: Go out and ask (Suzhou) Information Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |