CN112447165A - 信息处理、模型训练和模型构建方法、电子设备、智能音箱 - Google Patents
信息处理、模型训练和模型构建方法、电子设备、智能音箱 Download PDFInfo
- Publication number
- CN112447165A CN112447165A CN201910754217.4A CN201910754217A CN112447165A CN 112447165 A CN112447165 A CN 112447165A CN 201910754217 A CN201910754217 A CN 201910754217A CN 112447165 A CN112447165 A CN 112447165A
- Authority
- CN
- China
- Prior art keywords
- feature
- layer
- sample
- speech synthesis
- decoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 100
- 230000010365 information processing Effects 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 title claims abstract description 27
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 230000003595 spectral effect Effects 0.000 claims abstract description 383
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 376
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 376
- 239000013598 vector Substances 0.000 claims abstract description 224
- 238000001228 spectrum Methods 0.000 claims abstract description 188
- 238000012545 processing Methods 0.000 claims abstract description 154
- 238000006243 chemical reaction Methods 0.000 claims abstract description 49
- 230000009466 transformation Effects 0.000 claims description 139
- 238000004364 calculation method Methods 0.000 claims description 42
- 238000003860 storage Methods 0.000 claims description 36
- 230000004927 fusion Effects 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 15
- 238000010276 construction Methods 0.000 claims description 5
- 230000000875 corresponding effect Effects 0.000 description 95
- 230000008569 process Effects 0.000 description 38
- 238000010586 diagram Methods 0.000 description 27
- 230000015654 memory Effects 0.000 description 16
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000002079 cooperative effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请实施例提供一种信息处理、模型训练和模型构建方法、电子设备、智能音箱,所述信息处理方法包括:确定语音合成模型中编码器对当前文本信息进行编码获得的第一特征向量;基于语音合成模型中的解码器处理获得的两个频谱特征,计算获得第一上下文向量以及前网特性信息;将第一特征向量、第一上下文向量以及前网特性信息,输入解码器对应网络层计算获得第一解码特征;将第一解码特征输入解码器的第一线性投影层获得第一频谱特征,以及将第一解码特征输入解码器的第二线性投影层获得第二频谱特征;其中,所述第一频谱特征以及所述第二频谱特征用于的频谱计算。本申请实施例提供的技术方案通过协同转换提高语音合成精度。
Description
技术领域
本申请实施例涉及计算机应用技术领域,尤其涉及一种信息处理、模型训练和模型构建方法、电子设备、智能音箱。
背景技术
语音合成模型通常可以将文本信息转换为语音信号,语音信号被输出时形成流畅朗读的语音。语音合成模型普遍采用深度神经网络来完成文本信息到语音信号的转换。语音合成模型通常可以包括编码器、解码器以及语音合成处理部分。编码器以及解码器中各包括一个相同的网络层,网络层的选择例如可以为RNN(Recurrent Neural Network,循环神经网络)或者LSTM(Long Short Term Memery network,长短期记忆网络)等。
现有技术中,语音合成模型首先通过编码器将输入的文本信息转换为固定长度的特征向量,再使用解码器将该特征向量解码成频谱特征,之后利用语音合成处理算法,将频谱特征合成为文本信息的波形信号,也即获得语音合成信号。为了提高转换精度,解码器将特征向量解码成频谱特征时,增加了注意机制,利用先前一步输出的频谱特征计算出当前上下文向量以及前网特性信息,上下文向量可以代表各个词语间的位置关联,前网特性信息可以代表解码器采用的网络层的各个层之间的非线性关系,加强网络层的计算准确度。当使用解码器进行频谱转换时,可以将频谱特征获得的前网特性信息以及上下文向量、当前编码器输出的特性向量整体作为输入信息,馈送到解码器的网络层,计算获得新的解码特征,该解码特征通过解码器中的线性投影层投影之后,获得频谱特征,而新的频谱特征又可以用于计算的上下文向量以及前网特性信息馈送到后一步的解码过程,从而将文本信息中各个词语的历史上下文位置以及网络层的特性信息反馈到解码过程中,提高翻译准确度。
但是,采用语音合成模型编码器以及解码器转换文本信息获得的语音信号时,解码器中采用的网络层转换频谱特征时,普遍存在训练误差,导致转换后的语音信号不够准确,输出语音不够清晰。
发明内容
本申请实施例提供了一种信息处理、模型训练和模型构建方法、电子设备、智能音箱,用以解决现有技术中由于语音合成模型存在训练误差导致合成的语音信号精度不高的技术问题。
第一方面,本申请实施例中提供了一种信息处理方法,包括:
确定语音合成模型中编码器对当前文本信息进行编码获得的第一特征向量;
基于所述语音合成模型中的解码器处理获得的两个频谱特征,计算获得第一上下文向量以及前网特性信息;
将所述第一特征向量、所述第一上下文向量以及所述前网特性信息,输入所述解码器对应网络层中,计算获得第一解码特征;
将所述第一解码特征输入所述解码器的第一线性投影层获得第一频谱特征,以及将所述第一解码特征输入所述解码器的第二线性投影层获得第二频谱特征;
其中,所述第一频谱特征以及所述第二频谱特征用于的频谱计算
第二方面,本申请实施例中提供了一种信息处理方法,包括:
确定语音合成模型中编码器对当前文本信息进行编码获得的第一特征向量;
基于所述语音合成模型中的解码器处理获得的频谱特征,计算获得第一上下文向量以及前网特性信息;
将所述第一特征向量、所述第一上下文向量以及所述前网特性信息,输入所述解码器对应网络层中,计算获得第一解码特征;
将所述第一解码特征输入所述解码器的第一线性投影层,计算获得第一频谱特征;
基于第一非线性变换层,所述第一频谱特征转换为第五线性谱特征以及基于第二非线性变换层,将所述第一频谱特征转换为第六线性谱特征;
其中,所述第一频谱特征用于的频谱计算,所述第五线性谱特征以及所述第六线性谱特征用于约束所述第一非线性变换层以及所述第二非线性变换层的非线性变换。
第三方面,本申请实施例中提供了一种模型训练方法,包括:
确定语音合成模型的编码器以及解码器;其中所述解码器包括:网络层、第一线性投影层以及第二线性投影层;
初始化语音合成模型的参数;
将样本文本信息输入所述语音合成模型当前参数对应的编码器,获得样本特征向量;
基于所述语音合成模型的解码器处理获得的两个样本频谱特征,计算获得第一上下文向量以及前网特性信息;
将所述样本特征向量以及所述第一上下文向量、所述前网特性信息输入所述编码器当前参数对应的网络层,获得样本解码特征;
将所述样本解码特征输入所述解码器当前参数对应的第一线性投影层获得第一样本频谱特征,以及输入所述解码器当前参数对应的第二线性投影层获得第二样本频谱特征;
基于所述第一样本频谱特征,确定所述样本文本信息对应语音合成信号;
根据所述语音合成信号与所述样本文本信息对应的语音真实信号,对所述语音合成模型的编码器以及解码器进行参数优化,以获得所述语音合成模型的编码器的目标参数以及解码器的目标参数。
第四方面,本申请实施例中提供了一种模型训练方法,包括:
确定语音合成模型的编码器、解码器以及非线性变换层;其中,所述解码器包括网络层以及第一线性投影层;所述非线性变换层包括第一非线性变换层以及第二非线性变换层;
初始化所述语音合成模型的参数;
将样本文本信息输入所述语音合成模型当前参数对应的编码器,获得样本特征向量;
基于所述语音合成模型的解码器处理获得的样本频谱特征,计算获得第一上下文向量以及前网特性信息;
将所述样本特征向量以及所述第一上下文向量、所述前网特性信息输入所述编码器当前参数对应的网络层,获得样本解码特征;
将所述样本解码特征输入所述解码器当前参数对应的第一线性投影层获得第一样本频谱特征;
基于所述第一非线性变换层,所述第一样本频谱特征转换为第五样本线性谱特征以及基于所述第二非线性变换层,将所述第一样本频谱特征转换为第六样本线性谱特征;
将所述第五样本线性谱特征进行语音合成处理,获得所述样本文本信息对应的语音合成信号;
根据所述语音合成信号与所述样本文本信息对应的语音真实信号,对所述语音合成模型的编码器以及解码器进行参数优化,以获得所述语音合成模型的编码器的目标参数以及解码器的目标参数。
第五方面,本申请实施例中提供了一种模型构建方法,包括:
构建语音合成模型的解码器;所述解码器用于将当前文本信息转换为第一特征向量;
构建与所述编码器对应的所述解码器;所述解码器包括:反馈层、网络层、第一线性投影层以及第二线性投影层;所述反馈层用于基于所述解码器处理获得的两个频谱特征,计算获得第一上下文向量以及前网特性信息;
将所述反馈层输出的第一上下文向量以及前网特性信息、以及所述解码器输出的第一特征向量输入到所述网络层;其中,所述网络层用于基于所述第一特征向量、所述第一上下文向量以及所述前网特性信息,计算获得第一解码特征;
将所述网络层输出的所述第一解码特征输入到所述第一线性投影层以及所述第二线性投影层;所述第一线性投影层用于将所述第一解码特征转换为第一频谱特征;所述第二线性投影层用于将所述第一解码特征转换为第二频谱特征;
将所述第一线性投影层输出的第一频谱特征以及所述第二线性投影层的输出的第二频谱特征作为输入,反馈至频谱计算时的所述反馈层,获得用于语音合成处理的语音合成模型。
第六方面,本申请实施例中提供了一种模型构建方法,包括:
构建语音合成模型的解码器;其中,所述解码器用于将当前文本信息转换为第一特征向量;
构建与所述编码器对应的所述解码器;所述解码器包括:反馈层、网络层、第一线性投影层;所述反馈层用于基于所述解码器处理获得的频谱特征,计算获得第一上下文向量以及前网特性信息;
将所述反馈层输出的第一上下文向量以及前网特性信息、以及所述解码器输出的第一特征向量输入到所述网络层;其中,所述网络层用于基于所述第一特征向量、所述第一上下文向量以及所述前网特性信息,计算获得第一解码特征;
将所述网络层输出的第一解码特征输入到所述第一线性投影层;其中,所述第一线性投影层用于将所述第一解码特征转换为第一频谱特征;
将所述第一线性投影层输出的第一频谱特征作为输入,反馈至频谱计算时的所述反馈层;
构建语音合成模型的非线性变换层;其中,所述非线性变换层包括第一非线性变换层以及第二非线性变换层;
将线性投影层输出的第一频谱特征输入到所述非线性变换层的所述第一非线性变换层以及所述第二非线性变换层,获得所述编码器、所述解码器以及所述非线性变换层构成的用于语音合成处理的语音合成模型;
其中,所述第一非线性变换层用于将所述第一频谱特征转换为第一线性谱特征;所述第二非线性变换层用于将所述第一频谱特征转换为第二线性谱特征;所述第一线性谱特征与所述第二线性谱特征用于约束所述第一非线性变换层以及所述第二非线性变换层。
第七方面,本申请实施例中提供了一种电子设备,包括:存储组件以及处理组件;所述存储组件存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件调用以执行本发明实施例任一项所述的信息处理方法。
第八方面,本申请实施例中提供了一种电子设备,包括:存储组件以及处理组件;所述存储组件存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件调用以执行本发明实施例任一项所述的模型训练方法。
第九方面,本申请实施例中提供了一种电子设备,包括:存储组件以及处理组件;所述存储组件存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件调用以执行本发明实施例任一项所述的模型构建方法。
第十方面,本申请实施例提供了一种智能音箱,包括:存储组件以及处理组件;所述存储组件存储一条或多条计算机指令,所述一条或多条计算机指令被所述处理组件调用;
所述处理组件用于:
确定语音合成模型中编码器对当前文本信息进行编码获得的第一特征向量;基于所述语音合成模型中的解码器处理获得的两个频谱特征,计算获得第一上下文向量以及前网特性信息;将所述第一特征向量、所述第一上下文向量以及所述前网特性信息,输入所述解码器对应网络层中,计算获得第一解码特征;将所述第一解码特征输入所述解码器的第一线性投影层获得第一频谱特征,以及将所述第一解码特征输入所述解码器的第二线性投影层获得第二频谱特征;
其中,所述第一频谱特征以及所述第二频谱特征用于的频谱计算。
本申请实施例中,文本信息被输入到语音合成模型之后,语音合成模型中的编码器可以对当前文本信息进行编码,获得第一特征向量,利用编码器可以将当前文本信息转换为长度固定的向量特征,以完成初步编码。之后,可以基于语音合成模型中的解码器处理获得的两个频谱特征,计算获得第一上下文向量以及前网特性信息,进而将第一特征向量、所述第一上下文向量以及所述前网特性信息,输入所述解码器对应网络层中,计算获得第一解码特征,利用解码器将固定长度的向量特征经由网络层的运算转换为解码特征。将第一解码特征输入解码器的第一线性投影层获得第一频谱特征,将第一解码特征输入解码器的第二线性投影层获得第二频谱特征,完成频谱特征的转换工作,其中,第一频谱特征以及第二频谱特征可以协同作用于下一步的频谱转换工作,也即在转换过程中,使得获得的频谱特征的相关信息也即第一上下文向量以及前网特性信息被利用到下一步的频谱转换的过程,从而提高解码器的解码准确度,提高频谱转换精度,以提高语音信号模型合成的语音信号的准确度。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请提供的一种信息处理方法一个实施例的流程图;
图2示出了本申请提供的一种信息处理方法又一个实施例的流程图;
图3示出了本申请提供的一种信息处理方法又一个实施例的流程图;
图4示出了本申请提供的一种信息处理方法又一个实施例的流程图;
图5示出了本申请提供的一种信息处理方法又一个实施例的流程图;
图6示出了本申请提供的一种信息处理方法又一个实施例的流程图;
图7示出了本申请提供的一种信息处理方法又一个实施例的流程图;
图8示出了本申请提供的一种模型构建方法一个实施例的流程图;
图9示出了本申请提供的一种语音合成模型的一个示例图;
图10示出了本申请提供的一种模型训练方法一个实施例的流程图;
图11示出了本申请提供的一种模型构建方法一个实施例的流程图;
图12示出了本申请提供的一种语音合成模型的一个示例图;
图13示出了本申请提供的一种模型训练方法一个实施例的流程图;
图14示出了本申请提供的一种电子设备的一个实施例的结构示意图;
图15示出了本申请提供的一种电子设备的又一个实施例的结构示意图;
图16示出了本申请提供的一种电子设备的又一个实施例的结构示意图;
图17示出了本申请提供的一种电子设备的又一个实施例的结构示意图;
图18示出了本申请提供的一种电子设备的又一个实施例的结构示意图;
图19示出了本申请提供的一种电子设备的又一个实施例的结构示意图;
图20示出了本申请提供的一种智能音箱的一个实施例的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在本申请的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
本发明实施例可以应用于语音合成处理场景中,通过将线性特征的转换过程中实现两种特征的转换,以利用两种特征转换过程的相互约束,提高转换精度,进而提高整个语音合成模型的合成精度。
现有技术中,语音合成模型可以将文本信息转换为声音信号,以seq2seq模型为例,语音合成模型的编码器通常可以将输入的文本信息转换为一个固定长度的特征向量,之后,可以采用解码器将该固定长度的特征向量转换为频谱特征,同时,为了提高解码器的解码精度,引入注意机制,通过利用之前一步生成的频谱特征,计算出上下文向量以及前网频谱特征信息,之后,可以利用前网频谱特征信息、上下文向量作用于当前固定长度的特征向量的解码过程,计算获得新的频谱特征,之后,新的频谱特征又可以用于计算后一步的上下文向量以及频谱特征信息等,并馈送到下一步的解码过程,从而将当前解码过程获得的各个词语的上下文向量以及网络特性反馈到新的解码过程中。
但是,现有技术中采用的语音合成模型中,普遍采用的编码器以及解码器转换文本信息,以获得语音信号时,解码器中采用的网络层转换频谱特征时,普遍存在训练误差,导致转换后的语音信号不够准确,输出语音不够清晰。
为了解决上述问题,发明人在解码器的线性投影层中增加了协同解码机制,也即在语音合成模型对当前文本信息进行编码获得第一特征向量之后,可以基于语音合成模型的解码器处理获得的两个频谱特征,计算获得第一上下文向量以及当前频谱信息,在频谱转换时,转换获得两个频谱特征,以通过两种频谱特征的协同作用,影响后续的上下文向量以及频谱特性的确定过程,使得第一上下文向量以及当前频谱信息可以包含两种频谱特征影响下获得。进而在将第一特性向量、第一上下文信息以及前网特性信息输入到解码器对应网络层之后,可以获得第一解码特征,相比于以往采用一种频谱特征计算获得的上下文向量以及频谱特性,可以衡量多项特征对频谱转换过程的影响,特征的准确度更高。之后将第一解码特征输入解码器的第一线性投影层以获得第一频谱特征,以及将第二解码特征输入解码器的第二线性投影层以获得第二频谱特征,可以将第一频谱特征以及第二频谱特征用于的频谱计算,提高了频谱特征的转换精度,进而提高语音合成模型的模型精度,使得语音信号的清晰度更高。
下面将结合实施例对本发明的技术方案进行详细描述,另外,下述各个方法各个实施例中的步骤金额日一种举例,并非对本发明技术方案的严格限定。
如图1所示,为本发明实施例提供的一种信息处理方法的一个实施例的流程图,所述方法可以包括以下几个步骤:
101:确定语音合成模型中编码器对当前文本信息进行编码获得的第一特征向量。
本发明实施例可以应用于配置有语音合成模型的电子设备中,例如,电子设备可以是电脑、笔记本、智能音箱、手机等具有计算功能的设备。
当前文本信息可以指当前输入到所述语音合成模型的句子、短句等。当前文本信息输入到语音合成模型时,可以基于编码器将文本信息转换为向量信息,例如,自然语言处理中较为常见的词向量,利用词向量将每个词语进行嵌入化表达,之后将当前文本信息对应词向量输入到语音合成模型的后续计算过程。
语音合成模型可以用于将文本信息合成为语音合成信号,语音合成信号可以包括波形信号,语音合成信号被输出时,即可形成流畅朗读的语音。
语音合成模型中的编码器可以将长度可变的文本信息编码为固定长度的向量表达,使得长度不同的文本信息的同时处理变得可行,扩展了语音合成模型的合成范围,
第一特征向量可以包括语音合成模型中的编码器将当前文本信息转换为的固定长度的向量。
在某些实施例中,语音合成模型是基于神经网络构成的预测型网络,其中,语音合成中的神经网络可以采用但不限于顺序到顺序网络(Sequence to Sequence,seq2seq)、深度神经网络(DNN,Deep Neural Networks)、卷积神经网络(CNN,Convolution NeuralNetworks)、递归神经网络(RNN,Recurrent Neural Networks)或者前向序列记忆网络(FSMN,Feedforward sequential memory networks)等。
语音合成模型中的编码器可以包括特征嵌入层、卷积计算层以及网络层,特征嵌入层可以将输入的文本信息转换为词向量,卷积计算层可以对词向量进行卷积计算,以获取各个词向量之间的局部相关性,网络层用于利用卷积计算结果,提取文本信息也即输入的句子的上下文信息。这一上下文信息可以应用于语音合成模型的注意机制中。
语音合成模型的注意机制可以对句子中的上下文进行学习,以获得文本信息中准确的上下文向量,以对语音合成过程中的句子含义进行更精确的预测。
102:基于所述语音合成模型中的解码器处理获得的两个频谱特征,计算获得第一上下文向量以及前网特性信息。
解码器处理获得的两个频谱特征,可以指前一步在编码器以及解码器的处理下,获得的两个频谱特征,针对本申请实施例而言,即为步骤104中获得的第一频谱特征以及第二频谱特征,这两个频谱特征可以作为步骤102的两个频谱特征,从而计算新的第一上下文向量以及前网特性信息,并重新执行步骤103和步骤105获得新的第一频谱特征以及第二频谱特征。当然,为了区别不同的频谱特征,本申请实施例中对频谱特征进行了命名,也即第一频谱特征以及第二频谱特征中使用的“第一”“第二”是为了区别步骤102中的两个频谱特征。
其中,两个频谱特征的特征含义不同。
解码器处理获得的两个频谱特征可以被输入到语音合成模型中的反馈层,通过反馈层计算获得第一上下文向量以及前网特性信息。而反馈层可以包括第一反馈层以及第二反馈层,通过第一反馈层将处理获得的两个频谱特征反馈到神经网络中,此时,网络层可以基于处理获得的两个频谱特征,获取前网特征信息,并经由网络层将之前处理获得的两个频谱特征输入至第二反馈层中,由第二反馈层基于处理获得的两个频谱特征,获得第一上下文向量。
103:将所述第一特征向量、所述第一上下文向量以及所述前网特性信息,输入所述解码器对应网络层中,计算获得第一解码特征。
网络层可以基于前网特性信息,调整网络层中各个神经元的结构关系,例如各神经元对应的参数和\或结构,以使得网络层的预测过程学习度更高,更准确。
第一上下文向量可以代表文本信息对应各个词向量的局部注意点,可以通过将局部注意点作用于解码过程,提高解码精度。前网特性信息是指解码器的历史特性所构成的相关信息,将解码器的历史特性输入到新的计算过程中可以使解码器的计算处理过程更准确。为了使前网特性信息更充分
例如,对于当前输入的第一特征向量,可以将第一特征向量与所述第一上下文向量的进行向量拼接或者加权等向量计算之后,将计算获得的向量计算结果输入到基于前网特性信息调整的神经网络,以获得解码器的预测精度。
104:将所述第一解码特征输入所述解码器的第一线性投影层获得第一频谱特征,以及将所述第一解码特征输入所述解码器的第二线性投影层获得第二频谱特征。
其中,所述第一频谱特征以及所述第二频谱特征用于的频谱计算。
其中第一频谱特征与第二频谱特征的含义不同,第一频谱特征与第二频谱特征的生成原理不同,也即第一线性投影层与第二线性投影层的处理原理不同,利用不同声学特征的处理原理来进行频谱预测,实现两个投影层预测频谱特征时相互影响的目的,提高预测的准确度。
可选地,第一频谱特征可以指针模拟人耳对高频信号的抑制,对低频信号的强调频谱特征,例如,第一频谱特征可以指梅尔谱特征。第二频谱特征可以包括估计谱包络、基频、非周期参数等成分形成的频谱特征,例如,可以包括WORLD特征、LPC(inear predictivecoding,LPC,线性预测编码)特征或者LSP(Line Spectral Pai,线谱对参数)特征等。第二频谱特征与第一频谱特征在预测时,相互影响,约束线性投影过程,获得的第二频谱特征可以使第一频谱特征的准确度更高。
另外,为了使得合成的语音信号的精度更高,作为一种可能的实现方式,可以利用第二频谱特征对第一频谱特征进行频谱优化处理,为第一频谱特征增加估计谱包络、基频、非周期参数等参数对应的相关频谱,使得第一频谱特征的特征表达度更高,包含的信息更多。
作为又一种可能的实现方式,在将所述第一解码特征输入所述解码器的第二线性投影层获得第二频谱特征之后,将第一解码特征输入所述解码器的第一线性投影层获得第一频谱特征具体可以是将第二频谱特征以及所述第一频谱特征输入所述第一线性投影层,获得第一频谱特征,使得第一频谱特征包含谱包络、基频、非周期参数等参数对应的相关频谱,精度更高。
第一频谱特征以及第二频谱特征用于频谱计算时,具体是反馈用于步骤102中的计算新的第一上下文向量以及前网特性信息,计算获得新的解码器。
本发明实施例中,在语音合成模型对当前文本信息进行编码获得第一特征向量之后,可以基于语音合成模型的解码器处理获得的两个频谱特征,计算获得第一上下文向量以及前网特性信息,在频谱转换时,转换获得两个频谱特征,以通过两种频谱特征的协同作用,影响后续的上下文向量以及频谱特性的确定过程,使得第一上下文向量以及前网特性信息可以在两种频谱特征影响下获得。进而在将第一特性向量、第一上下文信息以及前网特性信息输入到解码器对应网络层之后,可以获得第一解码特征,相比于以往采用一种频谱特征计算获得的上下文向量以及频谱特性,可以衡量多项特征对频谱转换过程的影响,特征的准确度更高。之后将第一解码特征输入解码器的第一线性投影层以获得第一频谱特征,以及将第二解码特征输入解码器的第二线性投影层以获得第二频谱特征,可以将第一频谱特征以及第二频谱特征用于的频谱计算,提高了频谱特征的转换精度,进而提高语音合成模型的模型精度,使得语音信号的清晰度更高。
如图2所示,为本发明实施例提供的一种信息处理方法的又一个实施例的流程图,所述方法可以包括以下几个步骤:
201:确定语音合成模型中编码器对当前文本信息进行编码获得的第一特征向量。
本发明实施例的部分步骤与图1所示的实施例相同,在此不再赘述。
202:基于所述语音合成模型中的解码器处理获得的两个频谱特征,计算获得第一上下文向量以及前网特性信息。
203:将所述第一特征向量、所述第一上下文向量以及所述前网特性信息,输入所述解码器对应网络层中,计算获得第一解码特征;
204:将所述第一解码特征输入所述解码器的第一线性投影层获得第一频谱特征,以及将所述第一解码特征输入所述解码器的第二线性投影层获得第二频谱特征。
205:基于语音合成模型的非线性变换层,将所述第一频谱特征转换为第一线性谱特征。
非线性变换层可以对第一频谱特征进行频谱补偿,平衡高低频信号,例如,当第一频谱特征为梅尔谱特征时,由于梅尔谱特征多强调低频部分,弱化高频部分,当利用梅尔谱特征直接合成语音信号时,发明人发现此时输出的语音信号不够清晰,因此,需要对第一频谱特征进行非线性变换,以补偿高频部分,获得的第一线性谱特征的高低频信号较为平均,因此,获得的语音合成信号的清晰度更高。
206:将所述第一线性谱特征进行语音合成处理,获得语音合成信号。
可选地,语音合成模型中还可以包括语音合成层,第一线性谱特征输入语音合成层进行语音合成处理,可以获得语音合成信号。
语音合成层可以由语音合成算法构成,例如,普遍采用的语音合成算法可以是Griffin-Lim algorithm(GLA,频谱恢复语音信号算法)。
其中,所述第一频谱特征以及所述第二频谱特征用于的频谱计算。
如图3所示,为本发明实施例提供的一种信息处理方法的又一个实施例的流程图,所述方法可以包括以下几个步骤:
301:确定语音合成模型中编码器对当前文本信息进行编码获得的第一特征向量。
本发明实施例的部分步骤与图1所示的实施例相同,在此不再赘述。
302:基于所述语音合成模型中的解码器处理获得的两个频谱特征,计算获得第一上下文向量以及前网特性信息。
303:将所述第一特征向量、所述第一上下文向量以及所述前网特性信息,输入所述解码器对应网络层中,计算获得第一解码特征;
304:将所述第一解码特征输入所述解码器的第一线性投影层获得第一频谱特征,以及将所述第一解码特征输入所述解码器的第二线性投影层获得第二频谱特征。
305:将第一频谱特征以及第二频谱特征进行融合,获得第一融合特征。
306:基于语音合成模型的非线性变换层,将第一融合特征转换为第二线性谱特征。
307:将第二线性谱特征进行语音合成处理,获得语音合成信号。
其中,所述第一频谱特征以及所述第二频谱特征用于的频谱计算。
将第一频谱特征以及第二频谱特征进行融合,获得第一融合特征可以是任一种矩阵结合形式,可以包括特征矩阵的拼接、相加或者相乘等,作为一种可能的实现方式,所述将第一频谱特征以及第二频谱特征进行融合,获得第一融合特征可以包括:
将第一频谱特征与第二频谱特征进行特征拼接,获得第一融合特征。
由于第一频谱特征与第二频谱特征分别属于不同处理过程获得的频谱,其含义不同,将两种特征融合之后,可以获得更全面的第一融合特征,使得特征的表达准确度更高,提高语音合成的精度。
如图4所示,为本发明实施例提供的一种信息处理方法的又一个实施例的流程图,所述方法可以包括以下几个步骤:
401:确定语音合成模型中编码器对当前文本信息进行编码获得的第一特征向量。
402:基于所述语音合成模型中的解码器处理获得的两个频谱特征,计算获得第一上下文向量以及前网特性信息。
403:将所述第一特征向量、所述第一上下文向量以及所述前网特性信息,输入所述解码器对应网络层中,计算获得第一解码特征;
404:将所述第一解码特征输入所述解码器的第一线性投影层获得第一频谱特征,以及将所述第一解码特征输入所述解码器的第二线性投影层获得第二频谱特征。
405:利用第一频谱特征,计算所述语音合成模型的模型误差。
利用第一频谱特征计算语音合成模型的模型误差,具体可以利用第一频谱特征,计算语音合成模型的残差,具体可以通过以下公式计算获得:
yr=PostNet(y)=Wpsfps+bps
其中,fps基于所述第一频谱特征确定,Wps为误差矩阵,bps为误差常量。
406:将所述第一频谱特征与模型误差进行加权求和,获得第三频谱特征。
作为一种可选方式,可以将第一频谱特征与模型误差的权重均设置为1,也即第三频谱特征可以为第一频谱特征与模型误差的矩阵和。
407:基于语音合成模型的非线性变换层,将第三频谱特征转换为第三线性谱特征。
408:将第三线性谱特征进行语音合成处理,获得语音合成信号。
其中,所述第一频谱特征以及所述第二频谱特征用于的频谱计算。
本发明实施例中的部分步骤的处理过程已在上述有关实施例中详细说明,在此不再赘述。
通过将频谱特征计算时产生的误差增加到计算过程中,可以使得获得的第三频谱特征的精度更高,避免因模型误差产生的特征损失,进而提高语音合成信号的准确性。
如图5所示,为本发明实施例提供的一种信息处理方法的又一个实施例的流程图,所述方法可以包括以下几个步骤:
501:确定语音合成模型中编码器对当前文本信息进行编码获得的第一特征向量。
502:基于所述语音合成模型中的解码器处理获得的两个频谱特征,计算获得第一上下文向量以及前网特性信息。
503:将所述第一特征向量、所述第一上下文向量以及所述前网特性信息,输入所述解码器对应网络层中,计算获得第一解码特征;
504:将所述第一解码特征输入所述解码器的第一线性投影层获得第一频谱特征,以及将所述第一解码特征输入所述解码器的第二线性投影层获得第二频谱特征。
505:利用第一频谱特征,计算所述语音合成模型的模型误差。
506:将所述第一频谱特征以及所述模型误差进行加权求和,获得第四频谱特征。
507:将第四频谱特征与第二频谱特征进行融合,获得第二融合特征。
508:基于语音合成模型的非线性变换层,将第二融合特征转换为第四线性谱特征。
509:将第四线性谱特征进行语音合成处理,获得语音合成信号。
本发明实施例中的部分步骤的处理过程已在上述有关实施例中详细说明,在此不再赘述。
本法发明实施例中,通过将频谱特征计算时产生的误差增加到计算过程中,可以使得获得的第三频谱特征的精度更高,避免因模型误差产生的特征损失,同时,将两种特征融合之后,可以获得更全面的频谱特征,使得频谱特征所包含的信息更广泛,进而提高语音合成信号的准确性。
如图6所示,为本发明实施例提供的一种信息处理方法的又一个实施例的流程图,所述方法可以包括以下几个步骤:
601:确定语音合成模型中编码器对当前文本信息进行编码获得的第一特征向量。
602:基于所述语音合成模型中的解码器处理获得的频谱特征,计算获得第一上下文向量以及前网特性信息。
603:将第一特征向量、第一上下文向量以及前网特性信息输入所述解码器对应网络层中,计算获得第一解码特征。
604:将第一解码特征输入解码器的第一线性投影层,计算获得第一频谱特征。
605:基于第一非线性变换层,将第一频谱特征转换为第五线性谱特征,以及基于第二非线性变换层,将第一频谱特征转换为第六线性谱特征。
其中,第一频谱特征用于的频谱计算,第五线性谱特征以及第六线性谱特征用于约束第一非线性变换层以及第二非线性变换层的非线性变换。
本发明实施例中的部分步骤的处理过程已在上述有关实施例中详细说明,在此不再赘述。
本发明实施例中,在语音合成模型对当前文本信息进行编码获得第一特征向量之后,可以基于语音合成模型的解码器处理获得的频谱特征,计算获得第一上下文向量以及前网特性信息,在频谱转换时,转换获得第一频谱特征,进而在将第一特性向量、第一上下文信息以及前网特性信息输入到解码器对应网络层之后,可以获得第一解码特征的准确度更高。之后将第一解码特征输入解码器的第一线性投影层以获得第一频谱特征,可以将第一频谱特征用于的频谱计算,利用第一非线性变换层,将第一频谱特征转换为第五线性谱特征,以及基于第二非线性变换层,将第一频谱特征转换为第六线性谱特征,通过两种线性变换的相互影响,可以提高线性谱特征的转换精度,进而提高语音合成模型的模型精度,使得语音信号的清晰度更高。
如图7所示,为本发明实施例提供的一种信息处理方法的又一个实施例的流程图,所述方法可以包括以下几个步骤:
701:确定语音合成模型中编码器对当前文本信息进行编码获得的第一特征向量。
702:基于所述语音合成模型中的解码器处理获得的频谱特征,计算获得第一上下文向量以及前网特性信息。
703:将第一特征向量、第一上下文向量以及前网特性信息输入所述解码器对应网络层中,计算获得第一解码特征。
704:将第一解码特征输入解码器的第一线性投影层,计算获得第一频谱特征。
705:基于第一非线性变换层,将第一频谱特征转换为第五线性谱特征,以及基于第二非线性变换层,将第一频谱特征转换为第六线性谱特征。
706:将第五线性谱特征进行语音合成处理,获得语音合成信号。
其中,所述第一频谱特征用于的频谱计算,第五线性谱特征以及第六线性谱特征用于约束第一非线性变换层以及第二非线性变换层的非线性变换。
本发明实施例中的部分步骤的处理过程已在上述有关实施例中详细说明,在此不再赘述。
本发明实施例中,在语音合成模型对当前文本信息进行编码获得第一特征向量之后,可以基于语音合成模型的解码器处理获得的频谱特征,计算获得第一上下文向量以及前网特性信息,在频谱转换时,转换获得第一频谱特征,进而在将第一特性向量、第一上下文信息以及前网特性信息输入到解码器对应网络层之后,可以获得第一解码特征,准确度更高。之后将第一解码特征输入解码器的第一线性投影层以获得第一频谱特征,可以将第一频谱特征用于的频谱计算,利用第一非线性变换层,将第一频谱特征转换为第五线性谱特征,以及基于第二非线性变换层,将第一频谱特征转换为第六线性谱特征,通过两种线性变换的相互影响,可以提高线性谱特征的转换精度,进而将第五线性谱特征进行语音合成处理,获得语音合成信号时,可以基于更精确的第五线性谱特征合成更精确的语音信号,提高语音合成模型的模型精度,使得语音信号的清晰度更高。
如图8所示,为本发明实施例提供的一种模型构建方法的一个实施例的流程图,所述方法可以包括:
801:构建语音合成模型的解码器。
其中,所述解码器可以用于将当前文本信息转换为第一特征向量。
802:构建与所述编码器对应的解码器。
其中,所述解码器可以包括:反馈层、网络层、第一线性投影层以及第二线性投影层。
所述反馈层可以用于:基于所述解码器处理获得的两个频谱特征,计算获得第一上下文向量以及前网特性信息。
803:将反馈层输出的第一上下文向量以及前网特性信息、以及所述解码器输出的第一特征向量输入到所述网络层。
其中,所述网络层可以用于基于所述第一特征向量、所述第一上下文向量以及所述前网特性信息,计算获得第一解码特征。
804:将所述网络层输出的所述第一解码特征输入到所述第一线性投影层以及所述第二线性投影层。
所述第一线性投影层可以用于将所述第一解码特征转换为第一频谱特征;所述第二线性投影层可以用于将所述第一解码特征转换为第二频谱特征。
805:将所述第一线性投影层输出的第一频谱特征以及所述第二线性投影层的输出的第二频谱特征作为输入,反馈至频谱计算时的所述反馈层,获得用于语音合成处理的语音合成模型。在某些实施例中,所述语音合成模型中还可以包括非线性投影层,图8所示的实施例中,所述方法还可以包括:
构建非线性变换层;所述非线性变换层用于将输入的频谱特征转换为线性谱特征。
非线性变换层可以将任意输入的频谱特征转换为线性谱特征。
本发明实施例提供一种语音合成的模型构建算法,可以构建具有两种线性投影层的语音合成模型,通过增加线性投影层,可以实现不同线性投影层对第一解码特征的线性投影的处理,并在不同线性投影层的处理过程中可以相互协同,提高模型的处理精度。
为了方便理解,如图9所示,为本发明实施例提供的构建的一个语音合成模型的示意图,所述语音合成模型可以包括:编码器901;解码器902;所述解码器902可以包括:由第一反馈层902a以及第二反馈层902b构成的反馈层9021、网络层9022、第一线性投影层9023以及第二线性投影层9024。
其中,编码器901输出的第一特征向量被输入到编码器902中。编码器902中的第一反馈层902a可以将第一特征向量以及基于计算获得的第一上下文向量、结合第二反馈层902b确定的前网特性信息一并输入到网络层9022;网络层9022输出的第一解码特征被同时输入到第一线性投影层9023以及第二线性投影层9024;第一线性投影层9023输出的第一频谱特征以及第二线性投影层9024输出的第二频谱特征一并被输入到第一反馈层902a中,以通过第一反馈层902a计算的第一上下文向量,通过第二反馈层902b确定的前网特性信息。
此外,语音合成模型还可以包括非线性变换层903,将相应的频谱特征进行高低频的均衡处理,获得线性谱特征,以提高准确度。
此外,语音合成模型还可以包括语音合成层904,语音合成层904可以通过语音合成算法将线性谱特征进行语音合成,获得最终的语音合成信号。
图8所构建的模型的训练过程,可以如图10所示,在图10所示的一种模型训练方法的一个实施例中,可以包括以下几个步骤:
1001:确定语音合成模型的编码器以及解码器。
其中所述解码器包括:网络层、第一线性投影层以及第二线性投影层。
1002:初始化语音合成模型的参数。
1003:将样本文本信息输入所述语音合成模型当前参数对应的编码器,获得样本特征向量;
1004:基于所述语音合成模型的解码器处理获得的两个样本频谱特征,计算获得第一上下文向量以及前网特性信息;
1005:将所述样本特征向量以及所述第一上下文向量、所述前网特性信息输入所述编码器当前参数对应的网络层,获得样本解码特征;
1006:将所述样本解码特征输入所述解码器当前参数对应的第一线性投影层获得第一样本频谱特征,以及输入所述解码器当前参数对应的第二线性投影层获得第二样本频谱特征;
1007:基于所述第一样本频谱特征,确定所述样本文本信息对应语音合成信号;
1008:根据所述语音合成信号与所述样本文本信息对应的语音真实信号,对所述语音合成模型的编码器以及解码器进行参数优化,以获得所述语音合成模型的编码器的目标参数以及解码器的目标参数。
本发明实施例中的样本文本信息可以事先采集获得,样本文本信息包括至少一个,每个样本文本信息对应一个文本信息,每个样本文本信息均可以对应有与该样本文本信息对应的语音真实信号。
通过训练可以获得语音信号模型,进而可以通过训练获得的语音信号模型将文本信息转换为语音合成信号。
可选地,所述根据所述语音合成信号与所述样本文本信息对应的语音真实信号,对所述语音合成模型的编码器以及解码器进行参数优化,以获得所述语音合成模型的编码器的目标参数以及解码器的目标参数包括:
计算所述语音合成信号与所述样本文本信息对应的语音真实信号的信号误差;
如果所述信号误差不满足误差条件,基于所述信号误差,分别调整所述语音合成模型的编码器的参数、所述解码器的网络层、第一线性投影层以及第二线性投影层的参数,返回至所述将样本文本信息输入所述语音合成模型当前参数对应的编码器,获得样本特征向量的步骤继续执行;
如果所述信号误差满足误差条件,确定所述语音合成模型的编码器当前的参数为所述编码器的目标参数、分别确定所述解码器的网络层、第一线性投影层以及第二线性投影层当前的参数为所述解码器的目标参数。
作为一个实施例,所述基于所述第一样本频谱特征,确定所述样本文本信息对应语音合成信号包括:
基于所述语音合成模型的非线性变换层,将所述第一样本频谱特征转换为第一样本线性谱特征;
将所述第一样本线性谱特征进行语音合成处理,获得所述样本文本信息对应的语音合成信号。
作为又一个实施例,所述基于所述第一样本频谱特征,确定所述样本文本信息对应语音合成信号包括:
将所述第一样本频谱特征与所述第二样本频谱特征进行融合,获得第一样本融合特征;
基于所述语音合成模型的非线性变换层,将所述第一样本融合特征转换为第二样本线性谱特征;
将所述第二样本线性谱特征进行语音合成处理,获得所述样本文本信息对应的语音合成信号。
作为又一个实施例,所述基于所述第一样本频谱特征,确定所述样本文本信息对应语音合成信号包括:
利用所述第一样本频谱特征,计算所述语音合成模型的模型误差;
将所述第一样本频谱特征与所述模型误差进行加权求和,获得第三样本频谱特征;
基于所述语音合成模型的非线性变换层,将所述第三样本频谱特征转换为第三样本线性谱特征;
将所述第三样本线性谱特征进行语音合成处理,获得所述样本文本信息对应的语音合成信号。
作为又一个实施例,所述所述基于所述第一样本频谱特征,确定所述样本文本信息对应语音合成信号包括:
利用所述第一样本频谱特征,计算所述语音合成模型的模型误差;
将所述第一样本频谱特征与所述模型误差进行加权求和,获得第四样本频谱特征;
将所述第四样本频谱特征与所述第二样本频谱特征进行融合,获得第二样本融合特征;
基于所述语音合成模型的非线性变换层,将所述第二样本融合特征转换为第四样本线性谱特征;
将所述第四样本线性谱特征进行语音合成处理,获得所述样本文本信息对应的语音合成信号。
如图11所示,为本发明实施例提供的一种模型构建方法的一个实施例的流程图,所述方法可以包括:
1101:构建语音合成模型的解码器。
其中,所述解码器用于将当前文本信息转换为第一特征向量。
1102:构建与所述编码器对应的所述解码器。
其中,所述解码器包括:反馈层、网络层、第一线性投影层。所述反馈层用于基于所述解码器处理获得的频谱特征,计算获得第一上下文向量以及前网特性信息。
1103:将所述反馈层输出的第一上下文向量以及前网特性信息、以及所述解码器输出的第一特征向量输入到所述网络层。
其中,所述网络层用于基于所述第一特征向量、所述第一上下文向量以及所述前网特性信息,计算获得第一解码特征。
1104:将所述网络层输出的第一解码特征输入到所述第一线性投影层。
其中,所述第一线性投影层用于将所述第一解码特征转换为第一频谱特征。
1105:将所述第一线性投影层输出的第一频谱特征作为输入,反馈至频谱计算时的所述反馈层;
1106:构建语音合成模型的非线性变换层。
其中,所述非线性变换层包括第一非线性变换层以及第二非线性变换层。
1107:将线性投影层输出的第一频谱特征输入到所述非线性变换层的所述第一非线性变换层以及所述第二非线性变换层,获得所述编码器、所述解码器以及所述非线性变换层构成的用于语音合成处理的语音合成模型。
其中,所述第一非线性变换层用于将所述第一频谱特征转换为第一线性谱特征;所述第二非线性变换层用于将所述第一频谱特征转换为第二线性谱特征;所述第一线性谱特征与所述第二线性谱特征用于约束所述第一非线性变换层以及所述第二非线性变换层。
本发明实施例提供一种语音合成的模型构建算法,可以构建具有两种非线性变换层的语音合成模型,通过增加非线性变换层,可以实现不同线性投影层对第一频谱特征的非线性变换处理,并在不同非线性变换的过程中相互协同,对整个语音合成模型的处理过程起到积极影响,提高模型的处理精度。
为了方便理解,如图12所示,为本发明实施例提供的构建的又一个语音合成模型的示意图,所述语音合成模型可以包括:编码器1201、解码器1202、以及非线性变换层1203。所述解码器1202可以包括:由第一反馈层1202a以及第二反馈层1202b构成的反馈层12021、网络层12022、第一线性投影层12023。所述非线性变换层1203可以包括第一非线性变换层12031以及第二非线性变换层12032。
其中,编码器1201输出的第一特征向量被输入到编码器1202中。编码器1202中的第一反馈层1202a可以将第一特征向量以及基于计算获得的第一上下文向量、结合第二反馈层1202b确定的前网特性信息一并输入到网络层12022;网络层12022输出的第一解码特征被输入到第一线性投影层12023;第一线性投影层12023输出的第一频谱特征一并被输入到非线性变换层1203中的第一非线性变换层12031以及第二非线性变换层12032;第一非线性变换层12031输出的第一线性谱特征以及第二非线性变换层12032输出的第二线性谱特征用于约束所述第一非线性变换层12031以及所述第二非线性变换层12032。
此外,语音合成模型还可以包括语音合成层1204。
图11所构建的模型的训练过程,可以如图13所示,在图13所示的一种模型训练方法的一个实施例中,可以包括以下几个步骤:
1301:确定语音合成模型的编码器、解码器以及非线性变换层。
其中,所述解码器包括网络层以及第一线性投影层;所述非线性变换层包括第一非线性变换层以及第二非线性变换层。
1302:初始化所述语音合成模型的参数。
1303:将样本文本信息输入所述语音合成模型当前参数对应的编码器,获得样本特征向量。
1304:基于所述语音合成模型的解码器处理获得的样本频谱特征,计算获得第一上下文向量以及前网特性信息。
1305:将所述样本特征向量以及所述第一上下文向量、所述前网特性信息输入所述编码器当前参数对应的网络层,获得样本解码特征。
1306:将所述样本解码特征输入所述解码器当前参数对应的第一线性投影层获得第一样本频谱特征。
1307:基于所述第一非线性变换层,所述第一样本频谱特征转换为第五样本线性谱特征以及基于所述第二非线性变换层,将所述第一样本频谱特征转换为第六样本线性谱特征。
1308:将所述第五样本线性谱特征进行语音合成处理,获得所述样本文本信息对应的语音合成信号;
1309:根据所述语音合成信号与所述样本文本信息对应的语音真实信号,对所述语音合成模型的编码器以及解码器进行参数优化,以获得所述语音合成模型的编码器的目标参数以及解码器的目标参数。
本发明实施例中的样本文本信息可以事先采集获得,样本文本信息包括至少一个,每个样本文本信息对应一个文本信息,每个样本文本信息均可以对应有与该样本文本信息对应的语音真实信号。
通过训练可以获得语音信号模型,进而可以通过训练获得的语音信号模型将文本信息转换为语音合成信号。
可选地,所述根据所述语音合成信号与所述样本文本信息对应的语音真实信号,对所述语音合成模型的编码器以及解码器进行参数优化,以获得所述语音合成模型的编码器的目标参数以及解码器的目标参数可以包括:
计算所述语音合成信号与所述样本文本信息对应的语音真实信号的信号误差;
如果所述信号误差不满足误差条件,基于所述信号误差,分别调整所述语音合成模型的编码器的参数、所述解码器的网络层、第一线性投影层的参数以及所述非线性变换层的参数,返回至所述将样本文本信息输入所述语音合成模型当前参数对应的编码器,获得样本特征向量的步骤继续执行;
如果所述信号误差满足误差条件,确定所述语音合成模型的编码器当前的参数为所述编码器的目标参数、分别确定所述解码器的网络层、第一线性投影层当前的参数为所述解码器的目标参数、确定所述非线性变换层当前的参数为所述非线性变换层的目标参数。
如图14所示,为本发明实施例提供的一种电子设备的一个实施例的结构示意图,所述设备可以包括:存储组件1401以及处理组件1402;
所述存储组件1401存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件1402调用以执行;
所述处理组件1402可以用于:
确定语音合成模型中编码器对当前文本信息进行编码获得的第一特征向量;基于所述语音合成模型中的解码器处理获得的两个频谱特征,计算获得第一上下文向量以及前网特性信息;将所述第一特征向量、所述第一上下文向量以及所述前网特性信息,输入所述解码器对应网络层中,计算获得第一解码特征;将所述第一解码特征输入所述解码器的第一线性投影层获得第一频谱特征,以及将所述第一解码特征输入所述解码器的第二线性投影层获得第二频谱特征。
其中,所述第一频谱特征以及所述第二频谱特征用于的频谱计算。作为一个实施例,所述处理组件1402还可以用于:
基于所述语音合成模型的非线性变换层,将所述第一频谱特征转换为第一线性谱特征;
将所述第一线性谱特征进行语音合成处理,获得语音合成信号。
作为又一个实施例,所述处理组件1402还可以用于:
将所述第一频谱特征与所述第二频谱特征进行融合,获得第一融合特征;
基于所述语音合成模型的非线性变换层,将所述第一融合特征转换为第二线性谱特征;
将所述第二线性谱特征进行语音合成处理,获得语音合成信号。
作为又一个实施例,所述处理组件1402还可以用于:
利用第一频谱特征,计算所述语音合成模型的模型误差;将所述第一频谱特征以及所述模型误差进行加权求和,获得第三频谱特征;
基于所述语音合成模型的非线性变换层,将所述第三频谱特征转换为第三线性谱特征;
将所述第三线性谱特征进行语音合成处理,获得语音合成信号。
作为又一个实施例,所述处理组件1402还可以用于:
利用第一频谱特征,计算所述语音合成模型的模型误差;将所述第一频谱特征以及所述模型误差进行加权求和,获得第四频谱特征;
将所述第四频谱特征与所述第二频谱特征进行融合,获得第二融合特征;
基于所述语音合成模型的非线性变换层,将所述第二融合特征转换为第四线性谱特征;
将所述第四线性谱特征进行语音合成处理,获得语音合成信号。
如图15所示,为本发明实施例提供的一种电子设备的一个实施例的结构示意图,所述设备可以包括:存储组件1501以及处理组件1502;
所述存储组件1501存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件1502调用以执行;
所述处理组件1502可以用于:
确定语音合成模型中编码器对当前文本信息进行编码获得的第一特征向量;基于所述语音合成模型中的解码器处理获得的频谱特征,计算获得第一上下文向量以及前网特性信息;将所述第一特征向量、所述第一上下文向量以及所述前网特性信息,输入所述解码器对应网络层中,计算获得第一解码特征;将所述第一解码特征输入所述解码器的第一线性投影层,计算获得第一频谱特征;基于第一非线性变换层,所述第一频谱特征转换为第五线性谱特征以及基于第二非线性变换层,将所述第一频谱特征转换为第六线性谱特征。
其中,所述第一频谱特征用于的频谱计算,所述第五线性谱特征以及所述第六线性谱特征用于约束所述第一非线性变换层以及所述第二非线性变换层的非线性变换。
作为一个实施例,所述处理组件1502还可以用于:
将所述第五线性谱特征进行语音合成处理,获得语音合成信号。
如图16所示,为本发明实施例提供的一种电子设备的一个实施例的结构示意图,所述设备可以包括:存储组件1601以及处理组件1602;
所述存储组件1601存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件1602调用以执行;
所述处理组件1602可以用于:
确定语音合成模型的编码器以及解码器;其中所述解码器包括:网络层、第一线性投影层以及第二线性投影层;初始化语音合成模型的参数;将样本文本信息输入所述语音合成模型当前参数对应的编码器,获得样本特征向量;基于所述语音合成模型的解码器处理获得的两个样本频谱特征,计算获得第一上下文向量以及前网特性信息;将所述样本特征向量以及所述第一上下文向量、所述前网特性信息输入所述编码器当前参数对应的网络层,获得样本解码特征;将所述样本解码特征输入所述解码器当前参数对应的第一线性投影层获得第一样本频谱特征,以及输入所述解码器当前参数对应的第二线性投影层获得第二样本频谱特征;基于所述第一样本频谱特征,确定所述样本文本信息对应语音合成信号;根据所述语音合成信号与所述样本文本信息对应的语音真实信号,对所述语音合成模型的编码器以及解码器进行参数优化,以获得所述语音合成模型的编码器的目标参数以及解码器的目标参数。
作为一个实施例,所述处理组件1602根据所述语音合成信号与所述样本文本信息对应的语音真实信号,对所述语音合成模型的编码器以及解码器进行参数优化,以获得所述语音合成模型的编码器的目标参数以及解码器的目标参数具体可以是:
计算所述语音合成信号与所述样本文本信息对应的语音真实信号的信号误差;
如果所述信号误差不满足误差条件,基于所述信号误差,分别调整所述语音合成模型的编码器的参数、所述解码器的网络层、第一线性投影层以及第二线性投影层的参数,返回至所述将样本文本信息输入所述语音合成模型当前参数对应的编码器,获得样本特征向量的步骤继续执行;
如果所述信号误差满足误差条件,确定所述语音合成模型的编码器当前的参数为所述编码器的目标参数、分别确定所述解码器的网络层、第一线性投影层以及第二线性投影层当前的参数为所述解码器的目标参数。
作为一个实施例,所述处理组件1602基于所述第一样本频谱特征,确定所述样本文本信息对应语音合成信号具体可以是:
基于所述语音合成模型的非线性变换层,将所述第一样本频谱特征转换为第一样本线性谱特征;将所述第一样本线性谱特征进行语音合成处理,获得所述样本文本信息对应的语音合成信号。
作为一个实施例,所述处理组件1602基于所述第一样本频谱特征,确定所述样本文本信息对应语音合成信号具体可以是:
将所述第一样本频谱特征与所述第二样本频谱特征进行融合,获得第一样本融合特征;基于所述语音合成模型的非线性变换层,将所述第一样本融合特征转换为第二样本线性谱特征;将所述第二样本线性谱特征进行语音合成处理,获得所述样本文本信息对应的语音合成信号。
作为一个实施例,所述处理组件1602基于所述第一样本频谱特征,确定所述样本文本信息对应语音合成信号具体可以是:
利用所述第一样本频谱特征,计算所述语音合成模型的模型误差;将所述第一样本频谱特征与所述模型误差进行加权求和,获得第三样本频谱特征;基于所述语音合成模型的非线性变换层,将所述第三样本频谱特征转换为第三样本线性谱特征;将所述第三样本线性谱特征进行语音合成处理,获得所述样本文本信息对应的语音合成信号。
作为一个实施例,所述处理组件1602基于所述第一样本频谱特征,确定所述样本文本信息对应语音合成信号具体可以是:
利用所述第一样本频谱特征,计算所述语音合成模型的模型误差;将所述第一样本频谱特征与所述模型误差进行加权求和,获得第四样本频谱特征;将所述第四样本频谱特征与所述第二样本频谱特征进行融合,获得第二样本融合特征;基于所述语音合成模型的非线性变换层,将所述第二样本融合特征转换为第四样本线性谱特征;将所述第四样本线性谱特征进行语音合成处理,获得所述样本文本信息对应的语音合成信号。
如图17所示,为本发明实施例提供的一种电子设备的一个实施例的结构示意图,所述设备可以包括:存储组件1701以及处理组件1702;
所述存储组件1701存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件1702调用以执行;
所述处理组件1702可以用于:
确定语音合成模型的编码器、解码器以及非线性变换层;其中,所述解码器包括网络层以及第一线性投影层;所述非线性变换层包括第一非线性变换层以及第二非线性变换层;初始化所述语音合成模型的参数;将样本文本信息输入所述语音合成模型当前参数对应的编码器,获得样本特征向量;基于所述语音合成模型的解码器处理获得的样本频谱特征,计算获得第一上下文向量以及前网特性信息;将所述样本特征向量以及所述第一上下文向量、所述前网特性信息输入所述编码器当前参数对应的网络层,获得样本解码特征;将所述样本解码特征输入所述解码器当前参数对应的第一线性投影层获得第一样本频谱特征;基于所述第一非线性变换层,所述第一样本频谱特征转换为第五样本线性谱特征以及基于所述第二非线性变换层,将所述第一样本频谱特征转换为第六样本线性谱特征;将所述第五样本线性谱特征进行语音合成处理,获得所述样本文本信息对应的语音合成信号;根据所述语音合成信号与所述样本文本信息对应的语音真实信号,对所述语音合成模型的编码器以及解码器进行参数优化,以获得所述语音合成模型的编码器的目标参数以及解码器的目标参数。
作为一个实施例,所述处理组件1702根据所述语音合成信号与所述样本文本信息对应的语音真实信号,对所述语音合成模型的编码器以及解码器进行参数优化,以获得所述语音合成模型的编码器的目标参数以及解码器的目标参数具体可以是:
计算所述语音合成信号与所述样本文本信息对应的语音真实信号的信号误差;
如果所述信号误差不满足误差条件,基于所述信号误差,分别调整所述语音合成模型的编码器的参数、所述解码器的网络层、第一线性投影层的参数以及所述非线性变换层的参数,返回至所述将样本文本信息输入所述语音合成模型当前参数对应的编码器,获得样本特征向量的步骤继续执行;
如果所述信号误差满足误差条件,确定所述语音合成模型的编码器当前的参数为所述编码器的目标参数、分别确定所述解码器的网络层、第一线性投影层当前的参数为所述解码器的目标参数、确定所述非线性变换层当前的参数为所述非线性变换层的目标参数。
如图18所示,为本发明实施例提供的一种电子设备的一个实施例的结构示意图,所述设备可以包括:存储组件1801以及处理组件1802;
所述存储组件1801存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件1802调用以执行;
所述处理组件1802可以用于:
构建语音合成模型的解码器;所述解码器用于将当前文本信息转换为第一特征向量;构建与所述编码器对应的解码器;所述解码器包括:反馈层、网络层、第一线性投影层以及第二线性投影层;所述反馈层用于基于所述解码器处理获得的两个频谱特征,计算获得第一上下文向量以及前网特性信息;将所述反馈层输出的第一上下文向量以及前网特性信息、以及所述解码器输出的第一特征向量输入到所述网络层;其中,所述网络层用于基于所述第一特征向量、所述第一上下文向量以及所述前网特性信息,计算获得第一解码特征;将所述网络层输出的所述第一解码特征输入到所述第一线性投影层以及所述第二线性投影层;所述第一线性投影层用于将所述第一解码特征转换为第一频谱特征;所述第二线性投影层用于将所述第一解码特征转换为第二频谱特征;将所述第一线性投影层输出的第一频谱特征以及所述第二线性投影层的输出的第二频谱特征作为输入,反馈至频谱计算时的所述反馈层,获得用于语音合成处理的语音合成模型。
可选地,所述处理组件1802还可以用于:构建非线性变换层;所述非线性变换层用于将输入的频谱特征转换为线性谱特征。
如图19所示,为本发明实施例提供的一种电子设备的一个实施例的结构示意图,所述设备可以包括:存储组件1901以及处理组件1902;
所述存储组件1901存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件1902调用以执行;
所述处理组件1902可以用于:
构建语音合成模型的解码器;其中,所述解码器用于将当前文本信息转换为第一特征向量;
构建与所述编码器对应的所述解码器;所述解码器包括:反馈层、网络层、第一线性投影层;所述反馈层用于基于所述解码器处理获得的频谱特征,计算获得第一上下文向量以及前网特性信息;将所述反馈层输出的第一上下文向量以及前网特性信息、以及所述解码器输出的第一特征向量输入到所述网络层;其中,所述网络层用于基于所述第一特征向量、所述第一上下文向量以及所述前网特性信息,计算获得第一解码特征;将所述网络层输出的第一解码特征输入到所述第一线性投影层;其中,所述第一线性投影层用于将所述第一解码特征转换为第一频谱特征;将所述第一线性投影层输出的第一频谱特征作为输入,反馈至频谱计算时的所述反馈层;构建语音合成模型的非线性变换层;其中,所述非线性变换层包括第一非线性变换层以及第二非线性变换层;将线性投影层输出的第一频谱特征输入到所述非线性变换层的所述第一非线性变换层以及所述第二非线性变换层,获得所述编码器、所述解码器以及所述非线性变换层构成的用于语音合成处理的语音合成模型。
其中,所述第一非线性变换层用于将所述第一频谱特征转换为第一线性谱特征;所述第二非线性变换层用于将所述第一频谱特征转换为第二线性谱特征;所述第一线性谱特征与所述第二线性谱特征用于约束所述第一非线性变换层以及所述第二非线性变换层。
本申请实施例提供的信息处理、模型训练以及模型构建方法可以应用于手机、平板电脑、可穿戴设备、增强现实(augmented reality,AR)/虚拟现实(Virtual reality,VR)设备、笔记本电脑、个人计算机(personal computer,PC)、上网本、智能音箱等电子设备上,本申请实施例对电子设备的具体类型不作过多限定。
示例性的,图20示出了一种智能音箱的结构示意图,智能音箱可以包括:存储组件2001以及处理组件2002,所述存储组件2001内可以存储一条或多条计算机指令,所述一条或多条计算机指令可以被所述处理组件2002调用;
所述处理组件2002可以用于:
确定语音合成模型中编码器对当前文本信息进行编码获得的第一特征向量;基于所述语音合成模型中的解码器处理获得的两个频谱特征,计算获得第一上下文向量以及前网特性信息;将所述第一特征向量、所述第一上下文向量以及所述前网特性信息,输入所述解码器对应网络层中,计算获得第一解码特征;将所述第一解码特征输入所述解码器的第一线性投影层获得第一频谱特征,以及将所述第一解码特征输入所述解码器的第二线性投影层获得第二频谱特征;
其中,所述第一频谱特征以及所述第二频谱特征用于的频谱计算。
所述处理组件2002还可以用于:基于所述语音合成模型的非线性变换层,将所述第一频谱特征转换为第一线性谱特征;将所述第一线性谱特征进行语音合成处理,获得语音合成信号。
在某些实施例中,所述处理组件2002还可以用于:将所述第一频谱特征与所述第二频谱特征进行融合,获得第一融合特征;基于所述语音合成模型的非线性变换层,将所述第一融合特征转换为第二线性谱特征;将所述第二线性谱特征进行语音合成处理,获得语音合成信号。
作为又一个实施例,所述处理组件2002还可以用于:利用第一频谱特征,计算所述语音合成模型的模型误差;将所述第一频谱特征以及所述模型误差进行加权求和,获得第三频谱特征;基于所述语音合成模型的非线性变换层,将所述第三频谱特征转换为第三线性谱特征;将所述第三线性谱特征进行语音合成处理,获得语音合成信号。
在一些实施例中,所述处理组件2002还可以用于:利用第一频谱特征,计算所述语音合成模型的模型误差;将所述第一频谱特征以及所述模型误差进行加权求和,获得第四频谱特征;将所述第四频谱特征与所述第二频谱特征进行融合,获得第二融合特征;基于所述语音合成模型的非线性变换层,将所述第二融合特征转换为第四线性谱特征;将所述第四线性谱特征进行语音合成处理,获得语音合成信号。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子设备的处理组件所执行的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (22)
1.一种信息处理方法,其特征在于,包括:
确定语音合成模型中编码器对当前文本信息进行编码获得的第一特征向量;
基于所述语音合成模型中的解码器处理获得的两个频谱特征,计算获得第一上下文向量以及前网特性信息;
将所述第一特征向量、所述第一上下文向量以及所述前网特性信息,输入所述解码器对应网络层中,计算获得第一解码特征;
将所述第一解码特征输入所述解码器的第一线性投影层获得第一频谱特征,以及将所述第一解码特征输入所述解码器的第二线性投影层获得第二频谱特征;
其中,所述第一频谱特征以及所述第二频谱特征用于的频谱计算。
2.根据权利要求1所述的方法,其特征在于,还包括:
基于所述语音合成模型的非线性变换层,将所述第一频谱特征转换为第一线性谱特征;
将所述第一线性谱特征进行语音合成处理,获得语音合成信号。
3.根据权利要求1所述的方法,其特征在于,还包括:
将所述第一频谱特征与所述第二频谱特征进行融合,获得第一融合特征;
基于所述语音合成模型的非线性变换层,将所述第一融合特征转换为第二线性谱特征;
将所述第二线性谱特征进行语音合成处理,获得语音合成信号。
4.根据权利要求1所述的方法,其特征在于,还包括:
利用第一频谱特征,计算所述语音合成模型的模型误差;
将所述第一频谱特征以及所述模型误差进行加权求和,获得第三频谱特征;
基于所述语音合成模型的非线性变换层,将所述第三频谱特征转换为第三线性谱特征;
将所述第三线性谱特征进行语音合成处理,获得语音合成信号。
5.根据权利要求1所述的方法,其特征在于,还包括:
利用第一频谱特征,计算所述语音合成模型的模型误差;
将所述第一频谱特征以及所述模型误差进行加权求和,获得第四频谱特征;
将所述第四频谱特征与所述第二频谱特征进行融合,获得第二融合特征;
基于所述语音合成模型的非线性变换层,将所述第二融合特征转换为第四线性谱特征;
将所述第四线性谱特征进行语音合成处理,获得语音合成信号。
6.一种信息处理方法,其特征在于,包括:
确定语音合成模型中编码器对当前文本信息进行编码获得的第一特征向量;
基于所述语音合成模型中的解码器处理获得的频谱特征,计算获得第一上下文向量以及前网特性信息;
将所述第一特征向量、所述第一上下文向量以及所述前网特性信息,输入所述解码器对应网络层中,计算获得第一解码特征;
将所述第一解码特征输入所述解码器的第一线性投影层,计算获得第一频谱特征;
基于第一非线性变换层,所述第一频谱特征转换为第五线性谱特征以及基于第二非线性变换层,将所述第一频谱特征转换为第六线性谱特征;
其中,所述第一频谱特征用于的频谱计算,所述第五线性谱特征以及所述第六线性谱特征用于约束所述第一非线性变换层以及所述第二非线性变换层的非线性变换。
7.根据权利要求6所述的方法,其特征在于,还包括:
将所述第五线性谱特征进行语音合成处理,获得语音合成信号。
8.一种模型训练方法,其特征在于,包括:
确定语音合成模型的编码器以及解码器;其中所述解码器包括:网络层、第一线性投影层以及第二线性投影层;
初始化语音合成模型的参数;
将样本文本信息输入所述语音合成模型当前参数对应的编码器,获得样本特征向量;
基于所述语音合成模型的解码器处理获得的两个样本频谱特征,计算获得第一上下文向量以及前网特性信息;
将所述样本特征向量以及所述第一上下文向量、所述前网特性信息输入所述编码器当前参数对应的网络层,获得样本解码特征;
将所述样本解码特征输入所述解码器当前参数对应的第一线性投影层获得第一样本频谱特征,以及输入所述解码器当前参数对应的第二线性投影层获得第二样本频谱特征;
基于所述第一样本频谱特征,确定所述样本文本信息对应语音合成信号;
根据所述语音合成信号与所述样本文本信息对应的语音真实信号,对所述语音合成模型的编码器以及解码器进行参数优化,以获得所述语音合成模型的编码器的目标参数以及解码器的目标参数。
9.根据权利要求8所述的方法,其特征在于,所述根据所述语音合成信号与所述样本文本信息对应的语音真实信号,对所述语音合成模型的编码器以及解码器进行参数优化,以获得所述语音合成模型的编码器的目标参数以及解码器的目标参数包括:
计算所述语音合成信号与所述样本文本信息对应的语音真实信号的信号误差;
如果所述信号误差不满足误差条件,基于所述信号误差,分别调整所述语音合成模型的编码器的参数、所述解码器的网络层、第一线性投影层以及第二线性投影层的参数,返回至所述将样本文本信息输入所述语音合成模型当前参数对应的编码器,获得样本特征向量的步骤继续执行;
如果所述信号误差满足误差条件,确定所述语音合成模型的编码器当前的参数为所述编码器的目标参数、分别确定所述解码器的网络层、第一线性投影层以及第二线性投影层当前的参数为所述解码器的目标参数。
10.根据权利要求8所述的方法,其特征在于,所述基于所述第一样本频谱特征,确定所述样本文本信息对应语音合成信号包括:
基于所述语音合成模型的非线性变换层,将所述第一样本频谱特征转换为第一样本线性谱特征;
将所述第一样本线性谱特征进行语音合成处理,获得所述样本文本信息对应的语音合成信号。
11.根据权利要求8所述的方法,其特征在于,所述基于所述第一样本频谱特征,确定所述样本文本信息对应语音合成信号包括:
将所述第一样本频谱特征与所述第二样本频谱特征进行融合,获得第一样本融合特征;
基于所述语音合成模型的非线性变换层,将所述第一样本融合特征转换为第二样本线性谱特征;
将所述第二样本线性谱特征进行语音合成处理,获得所述样本文本信息对应的语音合成信号。
12.根据权利要求8所述的方法,其特征在于,所述基于所述第一样本频谱特征,确定所述样本文本信息对应语音合成信号包括:
利用所述第一样本频谱特征,计算所述语音合成模型的模型误差;
将所述第一样本频谱特征与所述模型误差进行加权求和,获得第三样本频谱特征;
基于所述语音合成模型的非线性变换层,将所述第三样本频谱特征转换为第三样本线性谱特征;
将所述第三样本线性谱特征进行语音合成处理,获得所述样本文本信息对应的语音合成信号。
13.根据权利要求8所述的方法,其特征在于,所述基于所述第一样本频谱特征,确定所述样本文本信息对应语音合成信号包括:
利用所述第一样本频谱特征,计算所述语音合成模型的模型误差;
将所述第一样本频谱特征与所述模型误差进行加权求和,获得第四样本频谱特征;
将所述第四样本频谱特征与所述第二样本频谱特征进行融合,获得第二样本融合特征;
基于所述语音合成模型的非线性变换层,将所述第二样本融合特征转换为第四样本线性谱特征;
将所述第四样本线性谱特征进行语音合成处理,获得所述样本文本信息对应的语音合成信号。
14.一种模型训练方法,其特征在于,包括:
确定语音合成模型的编码器、解码器以及非线性变换层;其中,所述解码器包括网络层以及第一线性投影层;所述非线性变换层包括第一非线性变换层以及第二非线性变换层;
初始化所述语音合成模型的参数;
将样本文本信息输入所述语音合成模型当前参数对应的编码器,获得样本特征向量;
基于所述语音合成模型的解码器处理获得的样本频谱特征,计算获得第一上下文向量以及前网特性信息;
将所述样本特征向量以及所述第一上下文向量、所述前网特性信息输入所述编码器当前参数对应的网络层,获得样本解码特征;
将所述样本解码特征输入所述解码器当前参数对应的第一线性投影层获得第一样本频谱特征;
基于所述第一非线性变换层,所述第一样本频谱特征转换为第五样本线性谱特征以及基于所述第二非线性变换层,将所述第一样本频谱特征转换为第六样本线性谱特征;
将所述第五样本线性谱特征进行语音合成处理,获得所述样本文本信息对应的语音合成信号;
根据所述语音合成信号与所述样本文本信息对应的语音真实信号,对所述语音合成模型的编码器以及解码器进行参数优化,以获得所述语音合成模型的编码器的目标参数以及解码器的目标参数。
15.根据权利要求14所述的方法,其特征在于,所述根据所述语音合成信号与所述样本文本信息对应的语音真实信号,对所述语音合成模型的编码器以及解码器进行参数优化,以获得所述语音合成模型的编码器的目标参数以及解码器的目标参数包括:
计算所述语音合成信号与所述样本文本信息对应的语音真实信号的信号误差;
如果所述信号误差不满足误差条件,基于所述信号误差,分别调整所述语音合成模型的编码器的参数、所述解码器的网络层、第一线性投影层的参数以及所述非线性变换层的参数,返回至所述将样本文本信息输入所述语音合成模型当前参数对应的编码器,获得样本特征向量的步骤继续执行;
如果所述信号误差满足误差条件,确定所述语音合成模型的编码器当前的参数为所述编码器的目标参数、分别确定所述解码器的网络层、第一线性投影层当前的参数为所述解码器的目标参数、确定所述非线性变换层当前的参数为所述非线性变换层的目标参数。
16.一种模型构建方法,其特征在于,包括:
构建语音合成模型的解码器;所述解码器用于将当前文本信息转换为第一特征向量;
构建与所述编码器对应的解码器;所述解码器包括:反馈层、网络层、第一线性投影层以及第二线性投影层;所述反馈层用于基于所述解码器处理获得的两个频谱特征,计算获得第一上下文向量以及前网特性信息;
将所述反馈层输出的第一上下文向量以及前网特性信息、以及所述解码器输出的第一特征向量输入到所述网络层;其中,所述网络层用于基于所述第一特征向量、所述第一上下文向量以及所述前网特性信息,计算获得第一解码特征;
将所述网络层输出的所述第一解码特征输入到所述第一线性投影层以及所述第二线性投影层;所述第一线性投影层用于将所述第一解码特征转换为第一频谱特征;所述第二线性投影层用于将所述第一解码特征转换为第二频谱特征;
将所述第一线性投影层输出的第一频谱特征以及所述第二线性投影层的输出的第二频谱特征作为输入,反馈至频谱计算时的所述反馈层,获得用于语音合成处理的语音合成模型。
17.根据权利要求16所述的方法,其特征在于,还包括:
构建非线性变换层;所述非线性变换层用于将输入的频谱特征转换为线性谱特征。
18.一种模型构建方法,其特征在于,包括:
构建语音合成模型的解码器;其中,所述解码器用于将当前文本信息转换为第一特征向量;
构建与所述编码器对应的所述解码器;所述解码器包括:反馈层、网络层、第一线性投影层;所述反馈层用于基于所述解码器处理获得的频谱特征,计算获得第一上下文向量以及前网特性信息;
将所述反馈层输出的第一上下文向量以及前网特性信息、以及所述解码器输出的第一特征向量输入到所述网络层;其中,所述网络层用于基于所述第一特征向量、所述第一上下文向量以及所述前网特性信息,计算获得第一解码特征;
将所述网络层输出的第一解码特征输入到所述第一线性投影层;其中,所述第一线性投影层用于将所述第一解码特征转换为第一频谱特征;
将所述第一线性投影层输出的第一频谱特征作为输入,反馈至频谱计算时的所述反馈层;
构建语音合成模型的非线性变换层;其中,所述非线性变换层包括第一非线性变换层以及第二非线性变换层;
将线性投影层输出的第一频谱特征输入到所述非线性变换层的所述第一非线性变换层以及所述第二非线性变换层,获得所述编码器、所述解码器以及所述非线性变换层构成的用于语音合成处理的语音合成模型;
其中,所述第一非线性变换层用于将所述第一频谱特征转换为第一线性谱特征;所述第二非线性变换层用于将所述第一频谱特征转换为第二线性谱特征;所述第一线性谱特征与所述第二线性谱特征用于约束所述第一非线性变换层以及所述第二非线性变换层。
19.一种电子设备,其特征在于,包括:存储组件以及处理组件;
所述存储组件存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件调用以执行上述1~7任一项所述的信息处理方法。
20.一种电子设备,其特征在于,包括:存储组件以及处理组件;
所述存储组件存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件调用以执行上述8~15任一项所述的模型训练方法。
21.一种电子设备,其特征在于,包括:存储组件以及处理组件;
所述存储组件存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件调用以执行上述8~15任一项所述的模型构建方法。
22.一种智能音箱,其特征在于,包括:存储组件以及处理组件;所述存储组件存储一条或多条计算机指令,所述一条或多条计算机指令被所述处理组件调用;
所述处理组件用于:
确定语音合成模型中编码器对当前文本信息进行编码获得的第一特征向量;基于所述语音合成模型中的解码器处理获得的两个频谱特征,计算获得第一上下文向量以及前网特性信息;将所述第一特征向量、所述第一上下文向量以及所述前网特性信息,输入所述解码器对应网络层中,计算获得第一解码特征;将所述第一解码特征输入所述解码器的第一线性投影层获得第一频谱特征,以及将所述第一解码特征输入所述解码器的第二线性投影层获得第二频谱特征;
其中,所述第一频谱特征以及所述第二频谱特征用于的频谱计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910754217.4A CN112447165A (zh) | 2019-08-15 | 2019-08-15 | 信息处理、模型训练和模型构建方法、电子设备、智能音箱 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910754217.4A CN112447165A (zh) | 2019-08-15 | 2019-08-15 | 信息处理、模型训练和模型构建方法、电子设备、智能音箱 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112447165A true CN112447165A (zh) | 2021-03-05 |
Family
ID=74740898
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910754217.4A Pending CN112447165A (zh) | 2019-08-15 | 2019-08-15 | 信息处理、模型训练和模型构建方法、电子设备、智能音箱 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112447165A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114333856A (zh) * | 2021-12-24 | 2022-04-12 | 南京西觉硕信息科技有限公司 | 给定线性预测系数时后半帧语音信号的求解方法、装置及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2004321469A1 (en) * | 2004-07-14 | 2006-01-19 | Agency For Science, Technology And Research | Context-based encoding and decoding of signals |
EP2144231A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
US20100145702A1 (en) * | 2005-09-21 | 2010-06-10 | Amit Karmarkar | Association of context data with a voice-message component |
CN102177543A (zh) * | 2008-10-08 | 2011-09-07 | 弗朗霍夫应用科学研究促进协会 | 音频解码器、音频编码器、用于解码音频信号的方法、用于编码音频信号的方法、计算机程序及音频信号 |
CN106803422A (zh) * | 2015-11-26 | 2017-06-06 | 中国科学院声学研究所 | 一种基于长短时记忆网络的语言模型重估方法 |
US20180336880A1 (en) * | 2017-05-19 | 2018-11-22 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
US20190122651A1 (en) * | 2017-10-19 | 2019-04-25 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
CN109754778A (zh) * | 2019-01-17 | 2019-05-14 | 平安科技(深圳)有限公司 | 文本的语音合成方法、装置和计算机设备 |
CN109977212A (zh) * | 2019-03-28 | 2019-07-05 | 清华大学深圳研究生院 | 对话机器人的回复内容生成方法和终端设备 |
-
2019
- 2019-08-15 CN CN201910754217.4A patent/CN112447165A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2004321469A1 (en) * | 2004-07-14 | 2006-01-19 | Agency For Science, Technology And Research | Context-based encoding and decoding of signals |
US20100145702A1 (en) * | 2005-09-21 | 2010-06-10 | Amit Karmarkar | Association of context data with a voice-message component |
EP2144231A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
CN102177543A (zh) * | 2008-10-08 | 2011-09-07 | 弗朗霍夫应用科学研究促进协会 | 音频解码器、音频编码器、用于解码音频信号的方法、用于编码音频信号的方法、计算机程序及音频信号 |
CN106803422A (zh) * | 2015-11-26 | 2017-06-06 | 中国科学院声学研究所 | 一种基于长短时记忆网络的语言模型重估方法 |
US20180336880A1 (en) * | 2017-05-19 | 2018-11-22 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
US20190122651A1 (en) * | 2017-10-19 | 2019-04-25 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
CN109754778A (zh) * | 2019-01-17 | 2019-05-14 | 平安科技(深圳)有限公司 | 文本的语音合成方法、装置和计算机设备 |
CN109977212A (zh) * | 2019-03-28 | 2019-07-05 | 清华大学深圳研究生院 | 对话机器人的回复内容生成方法和终端设备 |
Non-Patent Citations (2)
Title |
---|
LU, YANFENG ET AL.: "Implementing prosodic phrasing in chinese end-to-end speech synthesis", 《ICASSP》, 17 April 2019 (2019-04-17), pages 7050 - 7054 * |
左玲云;张晴晴;黎塔;梁宏;颜永红;: "电话交谈语音识别中基于LSTM-DNN语言模型的重评估方法研究", 重庆邮电大学学报(自然科学版), no. 02, 15 April 2016 (2016-04-15) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114333856A (zh) * | 2021-12-24 | 2022-04-12 | 南京西觉硕信息科技有限公司 | 给定线性预测系数时后半帧语音信号的求解方法、装置及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10573293B2 (en) | End-to-end text-to-speech conversion | |
CN112735373B (zh) | 语音合成方法、装置、设备及存储介质 | |
US11842728B2 (en) | Training neural networks to predict acoustic sequences using observed prosody info | |
CN117043855A (zh) | 无监督并行Tacotron非自回归和可控的文本到语音 | |
CN113539232A (zh) | 一种基于慕课语音数据集的语音合成方法 | |
CN112786001B (zh) | 语音合成模型训练方法、语音合成方法和装置 | |
CN114023342B (zh) | 一种语音转换方法、装置、存储介质及电子设备 | |
JP2018077501A (ja) | 復号方法、復号装置、プログラム及び記録媒体 | |
CN113327575B (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
CN114495977A (zh) | 语音翻译和模型训练方法、装置、电子设备以及存储介质 | |
CN112951200B (zh) | 语音合成模型的训练方法、装置、计算机设备及存储介质 | |
CN112447165A (zh) | 信息处理、模型训练和模型构建方法、电子设备、智能音箱 | |
CN114267366A (zh) | 通过离散表示学习进行语音降噪 | |
Wu et al. | Denoising Recurrent Neural Network for Deep Bidirectional LSTM Based Voice Conversion. | |
CA2671068C (en) | Multicodebook source-dependent coding and decoding | |
JP2023169230A (ja) | コンピュータプログラム、サーバ装置、端末装置、学習済みモデル、プログラム生成方法、及び方法 | |
CN110084356B (zh) | 一种深度神经网络数据处理方法和装置 | |
CN114464163A (zh) | 语音合成模型的训练方法、装置、设备、存储介质和产品 | |
US12020694B2 (en) | Efficiency adjustable speech recognition system | |
US20230130396A1 (en) | Electronic apparatus for speech recognition, and controlling method thereof | |
CN115249483A (zh) | 用于管理声码器模型的方法、装置、设备和介质 | |
CN118262740A (zh) | 语音风格迁移方法、装置、设备及存储介质 | |
CN117494033A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN116343749A (zh) | 语音合成方法、装置、计算机设备及存储介质 | |
CN116664731A (zh) | 人脸动画生成方法及装置、计算机可读存储介质、终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |