CN112349269A - 语音合成方法、装置、设备及存储介质 - Google Patents
语音合成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112349269A CN112349269A CN202011446751.8A CN202011446751A CN112349269A CN 112349269 A CN112349269 A CN 112349269A CN 202011446751 A CN202011446751 A CN 202011446751A CN 112349269 A CN112349269 A CN 112349269A
- Authority
- CN
- China
- Prior art keywords
- information
- vector information
- text
- graph
- speech synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 270
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 92
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 92
- 238000001228 spectrum Methods 0.000 claims abstract description 55
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000007246 mechanism Effects 0.000 claims description 47
- 230000006870 function Effects 0.000 claims description 20
- 238000013507 mapping Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 15
- 230000003595 spectral effect Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 20
- 230000033764 rhythmic process Effects 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000010276 construction Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 8
- 238000009825 accumulation Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及语义合成技术领域,公开了一种语音合成方法、装置、计算机设备及计算机可读存储介质,该方法包括:获取待合成文本,并通过语音合成模型将所述待合成文本转换为图嵌入向量信息,根据图编码器对所述图嵌入向量信息进行编码,生成对应的第一中间向量信息,根据所述第一中间向量信息生成对应的梅尔语谱信息,输出所述梅尔语谱信息对应的语音合成信息,实现通过图辅助编码器分析文本信息的具体语义信息来映射到不同的语音韵律节奏,使得韵律调节的过程成为一个全自动化的过程,提高了语音合成的准确率。同时,本发明还涉及区块链技术,且本发明可适用于智慧政务、智慧教育、智慧医疗等领域,从而可以进一步推动智慧城市的建设。
Description
技术领域
本申请涉及语义合成技术领域,尤其涉及一种语音合成方法、装置、计算机设备及计算机可读存储介质。
背景技术
TTS语音合成系统(Text To Speech语音合成系统),是智能对话系统中不可或缺的一部分。学术界和工业界尝试用有限的资源和时间来实现真人式语音的合成。近些年,神经网络的方法在Google的Tacotron和Wavenet发布后,成为语音合成领域的主流解决方案。
目前基于神经网络的TTS模型已经展示出了良好的合成效果,但是在语音合成的过程中,韵律嵌入仍旧是一个有挑战性的任务。韵律向量首先尝试被从Mel语谱中提取出之后,在端到端模型的注意力机制处与编码器的输出一同输入attention机制,但这种方法对于句子长度敏感,合成效果鲁棒性差。为此提出多头全局风格标记,被用来代表语音的不同的说话风格,这些方法控制了合成语音的全局风格,但是局部说话韵律如停顿、重读和语调,对于合成语音的自然度来说仍旧至关重要。因此学者提出用时间结构来控制合成语音的说话风格,或采用变分自编码器来学习说话风格的隐状态向量,使得端到端模型能够更容易用于局部风格控制。虽然一定程度上解决了语音合成过程中的局部韵律控制,但是在进行韵律控制的过程中,手动挑选参考语音的过程可能会造成模型误差的累积,合成语音的准确率较低。
发明内容
本申请的主要目的在于提供一种语音合成方法、装置、计算机设备及计算机可读存储介质,旨在解决现有韵律控制的过程中,手动挑选参考语音的过程可能会造成模型误差的累积,合成语音的准确率较低的技术问题。
第一方面,本申请提供一种语音合成方法,所述语音合成方法包括以下步骤:
获取待合成文本,并将所述待合成文本输入语音合成模型,其中,所述语音合成模型包括应用层、输出层、图编码器和注意力机制;
基于所述应用层将所述待合成文本转换为图嵌入向量信息;
根据所述图编码器对所述图嵌入向量信息进行编码,生成对应的第一韵律向量信息,并将所述第一韵律向量信息作为第一中间向量信息;
基于所述注意力机制,根据所述第一中间向量信息生成对应的梅尔语谱信息;
通过所述输出层输出所述梅尔语谱信息对应的语音合成信息。
第二方面,本申请还提供一种语音合成装置,所述语音合成装置包括:
第一获取模块,用于获取待合成文本,并将所述待合成文本输入语音合成模型,其中,所述语音合成模型包括应用层、输出层、图编码器和注意力机制;
转换模型,用于基于所述应用层将所述待合成文本转换为图嵌入向量信息;
第一生成模块,用于根据所述图编码器对所述图嵌入向量信息进行编码,生成对应的第一韵律向量信息,并将所述第一韵律向量信息作为第一中间向量信息;
第二生成模块,用于基于所述注意力机制,根据所述第一中间向量信息生成对应的梅尔语谱信息;
第二获取模块,用于通过所述输出层输出所述梅尔语谱信息对应的语音合成信息。
第三方面,本申请还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的语音合成方法的步骤。
第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的语音合成方法的步骤。
本申请提供一种语音合成方法、装置、计算机设备及计算机可读存储介质,通过获取待合成文本,并将所述待合成文本输入语音合成模型,其中,所述语音合成模型包括应用层、输出层、图编码器和注意力机制;基于所述应用层将所述待合成文本转换为图嵌入向量信息;根据所述图编码器对所述图嵌入向量信息进行编码,生成对应的第一韵律向量信息,并将所述第一韵律向量信息作为第一中间向量信息;基于所述注意力机制,根据所述第一中间向量信息生成对应的梅尔语谱信息;通过所述输出层输出所述梅尔语谱信息对应的语音合成信息,实现通过图辅助编码器分析文本信息的具体语义信息来映射到不同的语音韵律节奏,使得韵律调节的过程成为一个全自动化的过程,提高了语音合成的准确率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种语音合成方法的流程示意图;
图2为图1中的语音合成方法的子步骤流程示意图;
图3为图1中的语音合成方法的子步骤流程示意图;
图4为本申请实施例提供的另一种语音合成方法的流程示意图;
图5为本申请实施例提供的一种语音合成装置的示意性框图;
图6为本申请一实施例涉及的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请实施例提供一种语音合成方法、装置、计算机设备及计算机可读存储介质。其中,该语音合成方法可应用于计算机设备中,该计算机设备可以是笔记本电脑、台式电脑等电子设备。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1为本申请的实施例提供的一种语音合成方法的流程示意图。
如图1所示,该语音合成方法包括步骤S101至步骤S105。
步骤S101、获取待合成文本,并将所述待合成文本输入语音合成模型。
示范性的,获取待合成文本,该待合成文本包括短句和短文本等。该获取的方式包括获取用户输入的文本,或获取预置存储路径中存储的文本等,其中该预置存储路径包括区块链。在获取到待合成文本时,将该待合成文本输入到语义合成模型中,该语音合成模型可以存储在预置区块链中,该语音合成模型包括应用层、输出层、图编码器以及注意力机制等。
在一实施例中,所述获取待合成文本之前,还包括:获取待训练语音文本,其中,所述待训练语音文本包括文本信息以及所述文本信息对应的语音信息;通过所述文本信息和所述语音信息训练预置语音序列模型,得到所述文本信息对应的图嵌入向量信息和所述语音信息对应的梅尔频谱信息;通过所述图嵌入向量信息和所述梅尔频谱信息得到对应的损失函数,并通过所述损失函数更新所述预置语音序列模型的模型参数,生成对应的语音合成模型。
示范性的,获取待训练语音文本,该待训练语音文本包括文本信息以及所述文本信息对应的语音信息。通过该文本信息和语音信息训练预置语音序列模型,通过该文本信息和该预置语音序列模型中的图编码器,得到对应的图嵌入向量信息,通过该语音信息和预置语音序列模型中的注意力机制得到对一个的梅尔语谱图,通过该图嵌入向量信息和梅尔语谱图得到对应的损失函数,通过该损失函数对预置语音序列模型的模型参数进行优化,在确定优化该预置语音序列模型的模型参数后,该预置语音序列模型处于收敛状态时,将该预置语音序列模型生成对应的语音合成模型。
步骤S102、基于所述应用层将所述待合成文本转换为图嵌入向量信息。
示范性的,在将待合成文本输入到语音合成模型中,该语音合成模型中包括应用层。该应用层在检测到待合成文本时,将该待合成文本转换为图嵌入向量信息。图嵌入是一种将图数据高维稠密的矩阵映射为低微稠密向量的过程,通过将图表示为一组低维向量,存在不同类型的图,例如,同构图,异构图,属性图等。该图嵌入向量信息包括结点向量信息和边向量信息,通过该结点向量信息得到各个字词的向量信息,通过该边向量信息得到各个字词之间的韵律关系。其中,边向量信息包括有向边向量信息、反向边向量信息以及顺序边向量信息。
在一实施例中,具体地,参照图2,步骤S102包括:子步骤S1021至子步骤S1022。
子步骤S1021、通过所述应用层将所述待合成文本拆分为各个字词,并获取各个字词之间的顺序关系。
示范性的,该应用层在检测到该合成文本时,将该待合成文本拆分为各个字词,并获取各个字词之间的顺序关系。例如,待合成文本为“我爱中国”,将该“我爱中国”拆分为“我”、“爱”、“中”、“国”。并获取该“我”、“爱”、“中”、“国”之间的顺序为“我”→“爱”→“中”→“国”
子步骤S1022、对各个字词以及各个所述字词之间的顺序关系进行映射转换,得到所述待合成文本对应的图嵌入向量信息。
示范性的,在获取到待合成文本的各个字词和各个字词之间的顺序关系时,对各个字词以及该各个字词的顺序关系进行映射,得到各个字词的字词向量信息以及各个字词之间的顺序向量信息即边向量信息,将得到的字词向量信息和边向量信息进行组合,得到对应的图嵌入向量信息,其中,边向量信息中的权重为0。
步骤S103、根据所述图编码器对所述图嵌入向量信息进行编码,生成对应的第一韵律向量信息,并将所述第一韵律向量信息作为第一中间向量信息。
示范性的,在获取到待合成文本的图嵌入向量信息时,通过该语音合成模型中的图编码器对应该图嵌入向量信息进行编码,生成对应的第一韵律向量信息。例如,该图编码器中包括映射函数,通过该映射函数对图嵌入向量信息进行映射编码,得到该图嵌入向量信息对应的第一韵律向量信息,在得到该第一韵律向量信息时,将该第一韵律向量信息作为第一中间向量信息。
在一实时例中,所述图嵌入向量信息包括点多个结点向量和多个边向量;所述根据所述图编码器对所述图嵌入向量信息进行编码,生成对应的第一韵律向量信息,包括:通过所述图编码器获取各个所述结点向量之间的边向量,并对所述边向量进行编码,得到所述图嵌入向量信息对应的第一韵律向量信息,其中,所述边向量表示对应两个所述结点向量的韵律关系。
示范性的,在获取到待合成文本的图嵌入向量信息时,通过图编码器对该各个结点向量间的边向量进行编码,得到各个结点向量之间的韵律向量信息,通过各个结点之间的顺序关系以及各个结点向量之间的韵律向量信息,得到对应的第一韵律向量信息。
步骤S104、基于所述注意力机制,根据所述第一中间向量信息生成对应的梅尔语谱信息。
示范性的,在获取到第一中间向量信息时,将第一中间向量信息输入至注意力机制中,通过该注意力机制对该第一中间向量信息进行上下文学习,将该第一中间向量信息生成对应的梅尔语谱信息。例如,该注意力机制为多头注意力机制时,通过多头注意力遮蔽序列生成时不应知道的信息(即不合法的信息)。其中,多头注意力主要是为了训练时和推断时要一致,比如,在训练时,想要预测“w”这个发音,但是实际上进入网络时是整个韵律向量都会进入,要把这个韵律向量在“w”这个之后的序列都对网络屏蔽,防止网络看到未来需要预测的信息,因为这些信息在推断时是看不到的。
需要说明的是,多头注意力由几个自注意力组成,比如4头注意力,实质上就是对序列做4次自注意力。
在一实施例中,具体地,参照图3,步骤S104包括:子步骤S1041至子步骤S1042。
子步骤S1041、将所述第一中间向量信息输入到所述注意力机制中,通过所述注意力机制中的权重矩阵获取所述第一中间向量信息中各个结点的上下文韵律信息。
示范性的,在获取到该第一韵律向量信息时,将第一韵律向量信息作为中间向量信息并输入至注意力机制中,通过该注意力机制中的权重矩阵获取该第一中间向量中各个结点的上下文韵律信息。
子步骤S1042、通过对所述第一中间向量信息中各个结点的上下文韵律信息进行解码,生成对应的梅尔频谱信息。
示范性的,在获取到该第一中间向量中各个结点的上下文韵律信息时,通过该注意力机制中的预置解码器对该第一中间向量中各个结点的上下文韵律信息进行解码,得到对应的梅尔语谱信息。
步骤S105、通过所述输出层输出所述梅尔语谱信息对应的语音合成信息。
示范性的,在获取到梅尔语谱信息,通过输出层输出该梅尔语谱信息对应的语音合成信息。例如,该输出层包括声码器,该声码器获取该梅尔语谱信息中的语音频域特征信息,通过对该语音频域特征信息进行合成,生成对应的语音合成信息。
在一实施例中,所通过所述输出层输出所述梅尔语谱信息对应的语音合成信息,包括:通过所述输出层提取所述梅尔频谱信息中的语音频域特征;并对所述语音频域特征进行映射,获取所述输出层输出对应的语音合成信息。
示范性的,在获取到梅尔语谱信息时,通过该输出层提取该梅尔频谱信息中的语音频域特征,在提取到该梅尔频谱信息中的语音频域特征,对该语音频域特征进行映射,获取输出层输出对应的语音合成信息。例如,该输出层包括提取层和映射层,通过该提取层提取该该梅尔频谱信息中的语音频域特征,通过该映射层中的激活函数对该语音频域特征进行激活映射,得到对应的语音合成信息。
在本发明实施例中,获取待合成文本,并将待合成文本输入语音合成模型,应用层将待合成文本转换为图嵌入向量信息,图编码器对图嵌入向量信息进行编码,生成对应的第一韵律向量信息,注意力机制根据第一中间向量信息生成对应的梅尔语谱信息,输出层输出梅尔语谱信息对应的语音合成信息,实现通过图辅助编码器分析文本信息的具体语义信息来映射到不同的语音韵律节奏,使得韵律调节的过程成为一个全自动化的过程,提高了语音合成的准确率。
请参照图4,图4为本申请的实施例提供的另一种语音合成方法的流程示意图。
如图4所示,该语音合成方法包括步骤S201至步骤S208。
步骤S201、获取待合成文本,并将所述待合成文本输入语音合成模型。
示范性的,获取待合成文本,该待合成文本包括短句和短文本等。该获取的方式包括获取用户输入的文本,或获取预置存储路径中存储的文本等,其中该预置存储路径包括区块链。在获取到待合成文本时,将该待合成文本输入到语义合成模型中,该语音合成模型可以存储在预置区块链中,该语音合成模型包括应用层、输出层、图编码器以及注意力机制等。
在一实施例中,所述获取待合成文本之前,还包括:获取待训练语音文本,其中,所述待训练语音文本包括文本信息以及所述文本信息对应的语音信息;通过所述文本信息和所述语音信息训练预置语音序列模型,得到所述文本信息对应的图嵌入向量信息和所述语音信息对应的梅尔频谱信息;通过所述图嵌入向量信息和所述梅尔频谱信息得到对应的损失函数,并通过所述损失函数更新所述预置语音序列模型的模型参数,生成对应的语音合成模型。
示范性的,获取待训练语音文本,该待训练语音文本包括文本信息以及所述文本信息对应的语音信息。通过该文本信息和语音信息训练预置语音序列模型,通过该文本信息和该预置语音序列模型中的图编码器,得到对应的图嵌入向量信息,通过该语音信息和预置语音序列模型中的注意力机制得到对一个的梅尔语谱图,通过该图嵌入向量信息和梅尔语谱图得到对应的损失函数,通过该损失函数对预置语音序列模型的模型参数进行优化,在确定优化该预置语音序列模型的模型参数后,该预置语音序列模型处于收敛状态时,将该预置语音序列模型生成对应的语音合成模型。
步骤S202、基于所述应用层将所述待合成文本转换为图嵌入向量信息。
示范性的,在将待合成文本输入到语音合成模型中,该语音合成模型中包括应用层。该应用层在检测到待合成文本时,将该待合成文本转换为图嵌入向量信息。图嵌入是一种将图数据高维稠密的矩阵映射为低微稠密向量的过程,通过将图表示为一组低维向量,存在不同类型的图,例如,同构图,异构图,属性图等。该图嵌入向量信息包括结点向量信息和边向量信息,通过该结点向量信息得到各个字词的向量信息,通过该边向量信息得到各个字词之间的韵律关系。其中,边向量信息包括有向边向量信息、反向边向量信息以及顺序边向量信息。
步骤S203、根据所述图编码器对所述图嵌入向量信息进行编码,生成对应的第一韵律向量信息,并将所述第一韵律向量信息作为第一中间向量信息。
示范性的,在获取到待合成文本的图嵌入向量信息时,通过该语音合成模型中的图编码器对应该图嵌入向量信息进行编码,生成对应的第一韵律向量信息。例如,该图编码器中包括映射函数,通过该映射函数对图嵌入向量信息进行映射编码,得到该图嵌入向量信息对应的第一韵律向量信息,在得到该第一韵律向量信息时,将该第一韵律向量信息作为第一中间向量信息。
步骤S204、基于所述应用层将所述待合成文本转换为文本向量信息。
示范性的,在将该待合成文本输入待语音合成模型中,通过该语音合成模型中的应用层将该待合成文本转换为文本向量信息。通过应用层提取待合成文本中各个字词的位置以及各个字词对应的拼音,获取预置编码规中各个字词的位置以及各个字词对应的拼音对应的数字或字母,通过数字或字母将待合成文本转化为文本向量信息。
步骤S205、根据所述编码器对所述文本向量信息进行编码,生成对应的隐藏向量信息。
示范性的,在获取到文本向量信息时,通过该编码器对该文本向量信息将进行编码,生成对应的隐藏向量信息。例如,该编码器中包括编码规则,通过该编码规则对该文本向量信息进行编码,得到对应的隐藏向量信息。
步骤S206、将所述隐藏向量信息和所述第一中间向量信息进行拼接,生成对应的第二中间向量信息。
示范性的,在获取到隐藏向量信息和第一中间向量信息时,分别获取隐藏向量信息的维度信息和第一中间向量信息的维度信息,通过该维度信息,确定隐藏向量信息与第一中间向量信息同一维度,并在同一维度将隐藏向量信息与第一中间向量信息进行拼接,生成对应的第二中间向量信息。
步骤S207、基于所述注意力机制和所述第二中间向量信息,生成对应的梅尔语谱信息。
示范性的,在获取到该第二中间向量信息时,将输入至注意力机制中,通过该注意力机制中的权重矩阵获取该第二中间向量中各个结点的上下文韵律信息。在获取到该第二中间向量中各个结点的上下文韵律信息时,通过预置解码器对该第二中间向量中各个结点的上下文韵律信息进行解码,得到对应的梅尔语谱信息。
步骤S208、通过所述输出层输出所述梅尔语谱信息对应的语音合成信息。
示范性的,在获取到梅尔语谱信息,通过输出层输出该梅尔语谱信息对应的语音合成信息。例如,该输出层包括声码器,该声码器获取该梅尔语谱信息中的语音频域特征信息,通过对该语音频域特征信息进行合成,生成对应的语音合成信息。
在本发明实施例中,通过将待合成文本输入到语音合成模型中,得到该待合成文本对应的文本向量信息和图嵌入向量信息,通过该图编码器对图嵌入向量信息进行编码和编码器对文本向量信息进行编码,得到注意力机制输出的梅尔语谱信息,并获取输出层输出梅尔语谱信息对应的语音合成信息,将语义结构信息嵌入到语音合成模型中,而图辅助编码器从文本侧分析韵律信息,编码器从文本侧分析字词位置信息,实现通过图辅助编码器分析文本信息的具体语义信息来映射到不同的语音韵律节奏,使得韵律调节的过程成为一个全自动化的过程,提高了语音合成的准确率。
请参照图5,图5为本申请实施例提供的一种语音合成装置的示意性框图。
如图5所示,该语音合成装置400,包括:第一获取模块401、转换模型402、第一生成模块403、第二生成模块404、第二获取模块405。
第一获取模块401,用于获取待合成文本,并将所述待合成文本输入语音合成模型,其中,所述语音合成模型包括应用层、输出层、图编码器和注意力机制;
转换模型402,用于基于所述应用层将所述待合成文本转换为图嵌入向量信息;
第一生成模块403,用于根据所述图编码器对所述图嵌入向量信息进行编码,生成对应的第一韵律向量信息,并将所述第一韵律向量信息作为第一中间向量信息;
第二生成模块404,用于基于所述注意力机制,根据所述第一中间向量信息生成对应的梅尔语谱信息;
第二获取模块405,用于通过所述输出层输出所述梅尔语谱信息对应的语音合成信息。
其中,语音合成装置具体还用于:
基于所述应用层将所述待合成文本转换为文本向量信息;
根据所述编码器对所述文本向量信息进行编码,生成对应的隐藏向量信息;
将所述隐藏向量信息和所述第一中间向量信息进行拼接,生成对应的第二中间向量信息;
基于所述注意力机制和所述第二中间向量信息,生成对应的梅尔语谱信息。
其中,第一生成模块403具体还用于:
通过所述图编码器获取各个所述结点向量之间的边向量,并对所述边向量进行编码,得到所述图嵌入向量信息对应的第一韵律向量信息,其中,所述边向量表示对应两个所述结点向量的韵律关系。
其中,第二生成模块404具体还用于:
将所述第一中间向量信息输入到所述注意力机制中,通过所述注意力机制中的权重矩阵获取所述第一中间向量信息中各个结点的上下文韵律信息;
通过对所述第一中间向量信息中各个结点的上下文韵律信息进行解码,生成对应的梅尔频谱信息。
其中,第二获取模块405具体还用于:
通过所述输出层提取所述梅尔频谱信息中的语音频域特征;
并对所述语音频域特征进行映射,获取所述输出层输出对应的语音合成信息。
其中,转换模型402具体还用于:
通过所述应用层将所述待合成文本拆分为各个字词,并获取各个字词之间的顺序关系;
对各个字词以及各个所述字词之间的顺序关系进行映射转换,得到所述待合成文本对应的图嵌入向量信息。
其中,语音合成装置还用于:
获取待训练语音文本,其中,所述待训练语音文本包括文本信息以及所述文本信息对应的语音信息;
通过所述文本信息和所述语音信息训练预置语音序列模型,得到所述文本信息对应的图嵌入向量信息和所述语音信息对应的梅尔频谱信息;
通过所述图嵌入向量信息和所述梅尔频谱信息得到对应的损失函数,并通过所述损失函数更新所述预置语音序列模型的模型参数,生成对应的语音合成模型。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块及单元的具体工作过程,可以参考前述语音合成方法实施例中的对应过程,在此不再赘述。
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
请参阅图6,图6为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为终端。
如图6所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种语音合成方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种语音合成方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取待合成文本,并将所述待合成文本输入语音合成模型,其中,所述语音合成模型包括应用层、输出层、图编码器和注意力机制;
基于所述应用层将所述待合成文本转换为图嵌入向量信息;
根据所述图编码器对所述图嵌入向量信息进行编码,生成对应的第一韵律向量信息,并将所述第一韵律向量信息作为第一中间向量信息;
基于所述注意力机制,根据所述第一中间向量信息生成对应的梅尔语谱信息;
通过所述输出层输出所述梅尔语谱信息对应的语音合成信息。
在一个实施例中,所述处理器所述语音合成模型还包括编码器;所述方法实现时,用于实现:
基于所述应用层将所述待合成文本转换为文本向量信息;
根据所述编码器对所述文本向量信息进行编码,生成对应的隐藏向量信息;
将所述隐藏向量信息和所述第一中间向量信息进行拼接,生成对应的第二中间向量信息;
基于所述注意力机制和所述第二中间向量信息,生成对应的梅尔语谱信息。
在一个实施例中,所述处理器所述图嵌入向量信息包括点多个结点向量和多个边向量;
所述根据所述图编码器对所述图嵌入向量信息进行编码,生成对应的第一韵律向量信息实现时,用于实现:
通过所述图编码器获取各个所述结点向量之间的边向量,并对所述边向量进行编码,得到所述图嵌入向量信息对应的第一韵律向量信息,其中,所述边向量表示对应两个所述结点向量的韵律关系。
在一个实施例中,所述处理器所述基于所述注意力机制,根据所述第一中间向量信息生成对应的梅尔语谱信息实现时,用于实现:
将所述第一中间向量信息输入到所述注意力机制中,通过所述注意力机制中的权重矩阵获取所述第一中间向量信息中各个结点的上下文韵律信息;
通过对所述第一中间向量信息中各个结点的上下文韵律信息进行解码,生成对应的梅尔频谱信息。
在一个实施例中,所述处理器所通过所述输出层输出所述梅尔语谱信息对应的语音合成信息实现时,用于实现:
通过所述输出层提取所述梅尔频谱信息中的语音频域特征;
并对所述语音频域特征进行映射,获取所述输出层输出对应的语音合成信息。
在一个实施例中,所述处理器所述基于所述应用层将所述待合成文本转换为图嵌入向量信实现时,用于实现:
通过所述应用层将所述待合成文本拆分为各个字词,并获取各个字词之间的顺序关系;
对各个字词以及各个所述字词之间的顺序关系进行映射转换,得到所述待合成文本对应的图嵌入向量信息。
在一个实施例中,所述处理器所述获取待合成文本之前实现时,用于实现:
获取待训练语音文本,其中,所述待训练语音文本包括文本信息以及所述文本信息对应的语音信息;
通过所述文本信息和所述语音信息训练预置语音序列模型,得到所述文本信息对应的图嵌入向量信息和所述语音信息对应的梅尔频谱信息;
通过所述图嵌入向量信息和所述梅尔频谱信息得到对应的损失函数,并通过所述损失函数更新所述预置语音序列模型的模型参数,生成对应的语音合成模型。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参照本申请语音合成方法的各个实施例。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是语音合成模型的存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种语音合成方法,其特征在于,包括:
获取待合成文本,并将所述待合成文本输入语音合成模型,其中,所述语音合成模型包括应用层、输出层、图编码器和注意力机制;
基于所述应用层将所述待合成文本转换为图嵌入向量信息;
根据所述图编码器对所述图嵌入向量信息进行编码,生成对应的第一韵律向量信息,并将所述第一韵律向量信息作为第一中间向量信息;
基于所述注意力机制,根据所述第一中间向量信息生成对应的梅尔语谱信息;
通过所述输出层输出所述梅尔语谱信息对应的语音合成信息。
2.如权利要求1所述的语音合成方法,其特征在于,所述语音合成模型还包括编码器;所述并将所述第一韵律向量信息作为第一中间向量信息之后,所述通过所述输出层输出所述梅尔语谱信息对应的语音合成信息之前,还包括:
基于所述应用层将所述待合成文本转换为文本向量信息;
根据所述编码器对所述文本向量信息进行编码,生成对应的隐藏向量信息;
将所述隐藏向量信息和所述第一中间向量信息进行拼接,生成对应的第二中间向量信息;
基于所述注意力机制和所述第二中间向量信息,生成对应的梅尔语谱信息。
3.如权利要求1所述的语音合成方法,其特征在于,所述图嵌入向量信息包括点多个结点向量和多个边向量;
所述根据所述图编码器对所述图嵌入向量信息进行编码,生成对应的第一韵律向量信息,包括:
通过所述图编码器获取各个所述结点向量之间的边向量,并对所述边向量进行编码,得到所述图嵌入向量信息对应的第一韵律向量信息,其中,所述边向量表示对应两个所述结点向量的韵律关系。
4.如权利要求1所述的语音合成方法,其特征在于,所述基于所述注意力机制,根据所述第一中间向量信息生成对应的梅尔语谱信息,包括:
将所述第一中间向量信息输入到所述注意力机制中,通过所述注意力机制中的权重矩阵获取所述第一中间向量信息中各个结点的上下文韵律信息;
通过对所述第一中间向量信息中各个结点的上下文韵律信息进行解码,生成对应的梅尔频谱信息。
5.如权利要求1所述的语音合成方法,其特征在于,所通过所述输出层输出所述梅尔语谱信息对应的语音合成信息,包括:
通过所述输出层提取所述梅尔频谱信息中的语音频域特征;
并对所述语音频域特征进行映射,获取所述输出层输出对应的语音合成信息。
6.如权利要求1所述的语音合成方法,其特征在于,所述基于所述应用层将所述待合成文本转换为图嵌入向量信,包括:
通过所述应用层将所述待合成文本拆分为各个字词,并获取各个字词之间的顺序关系;
对各个字词以及各个所述字词之间的顺序关系进行映射转换,得到所述待合成文本对应的图嵌入向量信息。
7.如权利要求1所述的语音合成方法,其特征在于,所述获取待合成文本之前,还包括:
获取待训练语音文本,其中,所述待训练语音文本包括文本信息以及所述文本信息对应的语音信息;
通过所述文本信息和所述语音信息训练预置语音序列模型,得到所述文本信息对应的图嵌入向量信息和所述语音信息对应的梅尔频谱信息;
通过所述图嵌入向量信息和所述梅尔频谱信息得到对应的损失函数,并通过所述损失函数更新所述预置语音序列模型的模型参数,生成对应的语音合成模型。
8.一种语音合成装置,其特征在于,包括:
第一获取模块,用于获取待合成文本,并将所述待合成文本输入语音合成模型,其中,所述语音合成模型包括应用层、输出层、图编码器和注意力机制;
转换模型,用于基于所述应用层将所述待合成文本转换为图嵌入向量信息;
第一生成模块,用于根据所述图编码器对所述图嵌入向量信息进行编码,生成对应的第一韵律向量信息,并将所述第一韵律向量信息作为第一中间向量信息;
第二生成模块,用于基于所述注意力机制,根据所述第一中间向量信息生成对应的梅尔语谱信息;
第二获取模块,用于通过所述输出层输出所述梅尔语谱信息对应的语音合成信息。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的语音合成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的语音合成方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011446751.8A CN112349269A (zh) | 2020-12-11 | 2020-12-11 | 语音合成方法、装置、设备及存储介质 |
PCT/CN2021/084215 WO2022121179A1 (zh) | 2020-12-11 | 2021-03-31 | 语音合成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011446751.8A CN112349269A (zh) | 2020-12-11 | 2020-12-11 | 语音合成方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112349269A true CN112349269A (zh) | 2021-02-09 |
Family
ID=74427800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011446751.8A Pending CN112349269A (zh) | 2020-12-11 | 2020-12-11 | 语音合成方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112349269A (zh) |
WO (1) | WO2022121179A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112786009A (zh) * | 2021-02-26 | 2021-05-11 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
CN112948584A (zh) * | 2021-03-03 | 2021-06-11 | 北京百度网讯科技有限公司 | 短文本分类方法、装置、设备以及存储介质 |
CN113096641A (zh) * | 2021-03-29 | 2021-07-09 | 北京大米科技有限公司 | 信息处理方法及装置 |
CN113345412A (zh) * | 2021-05-31 | 2021-09-03 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备以及存储介质 |
WO2022121179A1 (zh) * | 2020-12-11 | 2022-06-16 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3895159A4 (en) * | 2018-12-11 | 2022-06-29 | Microsoft Technology Licensing, LLC | Multi-speaker neural text-to-speech synthesis |
CN110264991B (zh) * | 2019-05-20 | 2023-12-22 | 平安科技(深圳)有限公司 | 语音合成模型的训练方法、语音合成方法、装置、设备及存储介质 |
CN110288972B (zh) * | 2019-08-07 | 2021-08-13 | 北京新唐思创教育科技有限公司 | 语音合成模型训练方法、语音合成方法及装置 |
CN110782870B (zh) * | 2019-09-06 | 2023-06-16 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN111816158B (zh) * | 2019-09-17 | 2023-08-04 | 北京京东尚科信息技术有限公司 | 一种语音合成方法及装置、存储介质 |
CN111754973B (zh) * | 2019-09-23 | 2023-09-01 | 北京京东尚科信息技术有限公司 | 一种语音合成方法及装置、存储介质 |
CN111951781A (zh) * | 2020-08-20 | 2020-11-17 | 天津大学 | 一种基于图到序列的中文韵律边界预测的方法 |
CN112349269A (zh) * | 2020-12-11 | 2021-02-09 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
-
2020
- 2020-12-11 CN CN202011446751.8A patent/CN112349269A/zh active Pending
-
2021
- 2021-03-31 WO PCT/CN2021/084215 patent/WO2022121179A1/zh active Application Filing
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022121179A1 (zh) * | 2020-12-11 | 2022-06-16 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
CN112786009A (zh) * | 2021-02-26 | 2021-05-11 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
WO2022178941A1 (zh) * | 2021-02-26 | 2022-09-01 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
CN112948584A (zh) * | 2021-03-03 | 2021-06-11 | 北京百度网讯科技有限公司 | 短文本分类方法、装置、设备以及存储介质 |
CN112948584B (zh) * | 2021-03-03 | 2023-06-23 | 北京百度网讯科技有限公司 | 短文本分类方法、装置、设备以及存储介质 |
CN113096641A (zh) * | 2021-03-29 | 2021-07-09 | 北京大米科技有限公司 | 信息处理方法及装置 |
CN113345412A (zh) * | 2021-05-31 | 2021-09-03 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2022121179A1 (zh) | 2022-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112349269A (zh) | 语音合成方法、装置、设备及存储介质 | |
JP7464621B2 (ja) | 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体 | |
CN112786009A (zh) | 语音合成方法、装置、设备及存储介质 | |
CN111292720B (zh) | 语音合成方法、装置、计算机可读介质及电子设备 | |
CN110287283B (zh) | 意图模型训练方法、意图识别方法、装置、设备及介质 | |
BR112019004524B1 (pt) | Sistema de redes neurais, um ou mais meios de armazenamento legíveis por computador não transitório e método para gerar autorregressivamente uma sequência de saída de dados de áudio | |
KR20210146368A (ko) | 숫자 시퀀스에 대한 종단 간 자동 음성 인식 | |
CN110570876B (zh) | 歌声合成方法、装置、计算机设备和存储介质 | |
CN111179905A (zh) | 一种快速配音生成方法及装置 | |
CN112329451B (zh) | 手语动作视频生成方法、装置、设备及存储介质 | |
CN113450765B (zh) | 语音合成方法、装置、设备及存储介质 | |
US11322133B2 (en) | Expressive text-to-speech utilizing contextual word-level style tokens | |
CN113450758B (zh) | 语音合成方法、装置、设备及介质 | |
CN116343747A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 | |
CN113345415A (zh) | 语音合成方法、装置、设备及存储介质 | |
CN113178200B (zh) | 语音转换方法、装置、服务器及存储介质 | |
CN114242093A (zh) | 语音音色转换方法、装置、计算机设备和存储介质 | |
CN113362804A (zh) | 一种合成语音的方法、装置、终端及存储介质 | |
CN116597807A (zh) | 基于多尺度风格的语音合成方法、装置、设备及介质 | |
CN115424604B (zh) | 一种基于对抗生成网络的语音合成模型的训练方法 | |
CN116665639A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 | |
CN114691716A (zh) | Sql语句转换方法、装置、设备及计算机可读存储介质 | |
CN113327578A (zh) | 一种声学模型训练方法、装置、终端设备及存储介质 | |
CN113160793A (zh) | 基于低资源语言的语音合成方法、装置、设备及存储介质 | |
CN113223486B (zh) | 信息处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |