CN115116426A - 语音生成方法、装置、电子设备及存储介质 - Google Patents
语音生成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115116426A CN115116426A CN202210654618.4A CN202210654618A CN115116426A CN 115116426 A CN115116426 A CN 115116426A CN 202210654618 A CN202210654618 A CN 202210654618A CN 115116426 A CN115116426 A CN 115116426A
- Authority
- CN
- China
- Prior art keywords
- voice
- speech
- identity
- content
- frequency spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000001228 spectrum Methods 0.000 claims abstract description 185
- 238000012549 training Methods 0.000 claims abstract description 64
- 238000013528 artificial neural network Methods 0.000 claims description 74
- 230000015572 biosynthetic process Effects 0.000 claims description 28
- 238000003786 synthesis reaction Methods 0.000 claims description 28
- 230000003595 spectral effect Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 24
- 238000012423 maintenance Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Telephonic Communication Services (AREA)
Abstract
本公开关于一种语音生成方法、装置、电子设备及存储介质,涉及语音信号处理技术领域。本公开以至少解决相关技术中无法生成满足用户个性化需求的语音。该方法包括:获取待合成文本以及目标用户语音;确定目标用户语音的梅尔频谱特征,并将目标用户语音的梅尔频谱特征输入预先训练得到的语音生成模型的身份编码器,得到目标身份特征;确定待合成文本的梅尔频谱特征,并将待合成文本的梅尔频谱特征输入语音生成模型的内容编码器,得到内容特征;将目标身份特征以及内容特征输入语音生成模型的解码器,得到目标语音;目标语音为与所述目标身份特征和内容特征对应的语音。
Description
技术领域
本公开涉及语音信号处理技术领域,尤其涉及一种语音生成方法、装置、电子设备及存储介质。
背景技术
随着人工智能(artificial intelligence,AI)的不断发展,语音合成技术得到了广泛的应用,例如智能客服、聊天机器人等。语音合成技术能够将文字转化为自然的人声,具体的,语音合成技术通过收集一个自然人的多段语音作为训练数据,训练得到一个语音合成模型,进而根据语音合成模型合成与此自然人音色相同的语音。
但是,利用上述语音合成技术生成的语音,其音色单一,即上述语音合成技术中一个语音合成模型只能生成一种音色的语音。可见,虽然目前的语音合成方法可以生成各种语句的语音,但其音色固定,难以满足用户的个性化需求。
发明内容
本公开提供一种语音生成方法、装置、电子设备及存储介质,以至少解决相关技术中无法生成满足用户个性化需求的语音。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种语音生成方法,包括:获取待合成文本以及目标用户语音;确定目标用户语音的梅尔频谱特征,并将目标用户语音的梅尔频谱特征输入预先训练得到的语音生成模型的身份编码器,得到目标身份特征;确定待合成文本的梅尔频谱特征,并将待合成文本的梅尔频谱特征输入语音生成模型的内容编码器,得到内容特征;将目标身份特征以及内容特征输入语音生成模型的解码器,得到目标语音;目标语音为与所述目标身份特征和内容特征对应的语音。
可选的,确定待合成文本的梅尔频谱特征,包括:采用预设的语音合成模型获取待合成文本对应的文本语音,并将文本语音的梅尔频谱特征确定为待合成文本的梅尔频谱特征。
可选的,方法还包括:获取多组第一语音样本,每组第一语音样本包括第一语音和第二语音;确定每组第一语音样本的第一输入样本,第一输入样本包括第一语音的梅尔频谱特征和第二语音的梅尔频谱特征;分别将第一语音的梅尔频谱特征和第二语音的梅尔频谱特征输入到预设的第一神经网络中,得到第一语音的第一预测身份特征以及第二语音的第二预测身份特征;对于每组第一语音样本,确定第一预测身份特征与第二预测身份特征之间的身份特征差异度,得到多组第一语音样本的身份特征差异度;根据多组第一语音样本的身份特征差异度对第一神经网络进行训练,得到身份编码器。
可选的,根据多组第一语音样本的身份特征差异度对第一神经网络进行训练,得到身份编码器,包括:在第一语音与第二语音对应于同一用户的情况下,当多组第一语音样本的身份特征差异度均小于或者等于第一预设阈值时,则确定得到身份编码器;在第一语音与第二语音对应于不同用户的情况下,当多组第一语音样本的身份特征差异度均大于或者等于第二预设阈值,则确定得到身份编码器;其中,第二预设阈值大于第一预设阈值。
可选的,上述方法还包括:获取多组第二语音样本,每组第二语音样本包括第三语音以及第四语音;确定每组第二语音样本的第二输入样本,第二输入样本包括第三语音的梅尔频谱特征和第四语音的梅尔频谱特征;分别将第三语音的梅尔频谱特征和第四语音的梅尔频谱特征输入到预设的第二神经网络中,得到第三语音的第一预测内容特征以及第四语音的第二预测内容特征;对于每组第二语音样本,确定第一预测内容特征与第二预测内容特征之间的内容特征差异度,得到多组第二语音样本的内容特征差异度;根据多组第二语音样本的内容特征差异度对第二神经网络进行训练,得到内容编码器。
可选的,根据多组第二语音样本的内容特征差异度对第二神经网络进行训练,得到内容编码器,包括:在第三语音与第四语音对应于同一文本且第三语音与第四语音对应于不同用户的情况下,当多组第二语音样本的内容特征差异度均小于或者等于第三预设阈值时,则确定得到内容编码器;在第三语音与第四语音对应于不同文本且第三语音与第四语音对应于不同用户的情况下,当多组第二语音样本的内容特征差异度均大于或者等于第四预设阈值时,则确定得到内容编码器;其中,第四预设阈值大于第三预设阈值。
可选的,上述方法还包括:获取多个样本语音,并确定每个样本语音的样本梅尔频谱特征;将每个样本语音的样本梅尔频谱特征输入到身份编码器中,得到每个样本语音对应的样本身份特征;将每个样本语音的样本梅尔频谱特征输入到内容编码器中,得到每个样本语音对应的样本内容特征;将样本身份特征以及样本内容特征输入到预设的第三神经网络中,得到每个样本语音的预测梅尔频谱特征;对于每个样本语音,确定样本梅尔频谱特征与预测梅尔频谱特征之间的梅尔频谱特征差异度,得到多个样本语音的梅尔频谱特征差异度;根据多个样本语音的梅尔频谱特征差异度对第三神经网络进行训练,得到解码器。
根据本公开实施例的第二方面,提供一种语音生成装置,包括获取单元、确定单元以及生成单元;获取单元,用于获取待合成文本以及目标用户语音;确定单元,用于确定目标用户语音的梅尔频谱特征,并将目标用户语音的梅尔频谱特征输入预先训练得到的语音生成模型的身份编码器,得到目标身份特征;确定单元,还用于确定待合成文本的梅尔频谱特征,并将待合成文本的梅尔频谱特征输入语音生成模型的内容编码器,得到内容特征;生成单元,用于将目标身份特征以及内容特征输入语音生成模型的解码器,得到目标语音;目标语音为与所述目标身份特征和内容特征对应的语音。
可选的,确定单元,具体用于:采用预设的语音合成模型获取待合成文本对应的文本语音,并将文本语音的梅尔频谱特征确定为待合成文本的梅尔频谱特征。
可选的,语音生成装置还包括训练单元;训练单元,用于获取多组第一语音样本,每组第一语音样本包括第一语音和第二语音;训练单元,还用于确定每组第一语音样本的第一输入样本,第一输入样本包括第一语音的梅尔频谱特征和第二语音的梅尔频谱特征;训练单元,还用于分别将第一语音的梅尔频谱特征和第二语音的梅尔频谱特征输入到预设的第一神经网络中,得到第一语音的第一预测身份特征以及第二语音的第二预测身份特征;训练单元,还用于对于每组第一语音样本,确定第一预测身份特征与第二预测身份特征之间的身份特征差异度,得到多组第一语音样本的身份特征差异度;训练单元,还用于根据多组第一语音样本的身份特征差异度对第一神经网络进行训练,得到身份编码器。
可选的,训练单元,具体用于:在第一语音与第二语音对应于同一用户的情况下,当多组第一语音样本的身份特征差异度均小于或者等于第一预设阈值时,则确定得到身份编码器;在第一语音与第二语音对应于不同用户的情况下,当多组第一语音样本的身份特征差异度均大于或者等于第二预设阈值,则确定得到身份编码器;其中,第二预设阈值大于第一预设阈值。
可选的,训练单元,还用于:获取多组第二语音样本,每组第二语音样本包括第三语音以及第四语音;确定每组第二语音样本的第二输入样本,第二输入样本包括第三语音的梅尔频谱特征和第四语音的梅尔频谱特征;分别将第三语音的梅尔频谱特征和第四语音的梅尔频谱特征输入到预设的第二神经网络中,得到第三语音的第一预测内容特征以及第四语音的第二预测内容特征;对于每组第二语音样本,确定第一预测内容特征与第二预测内容特征之间的内容特征差异度,得到多组第二语音样本的内容特征差异度;根据多组第二语音样本的内容特征差异度对第二神经网络进行训练,得到内容编码器。
可选的,训练单元,具体用于:在第三语音与第四语音对应于同一文本且第三语音与第四语音对应于不同用户的情况下,当多组第二语音样本的内容特征差异度均小于或者等于第三预设阈值时,则确定得到内容编码器;在第三语音与第四语音对应于不同文本且第三语音与第四语音对应于不同用户的情况下,当多组第二语音样本的内容特征差异度均大于或者等于第四预设阈值时,则确定得到内容编码器;其中,第四预设阈值大于第三预设阈值。
可选的,训练单元,还用于:获取多个样本语音,并确定每个样本语音的样本梅尔频谱特征;将每个样本语音的样本梅尔频谱特征输入到身份编码器中,得到每个样本语音对应的样本身份特征;将每个样本语音的样本梅尔频谱特征输入到内容编码器中,得到每个样本语音对应的样本内容特征;将样本身份特征以及样本内容特征输入到预设的第三神经网络中,得到每个样本语音的预测梅尔频谱特征;对于每个样本语音,确定样本梅尔频谱特征与预测梅尔频谱特征之间的梅尔频谱特征差异度,得到多个样本语音的梅尔频谱特征差异度;根据多个样本语音的梅尔频谱特征差异度对第三神经网络进行训练,得到解码器。
根据本公开实施例的第三方面,提供一种电子设备,包括:处理器、用于存储处理器可执行的指令的存储器;其中,处理器被配置为执行指令,以实现上述第一方面的语音生成方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,计算机可读存储介质上存储有指令,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述第一方面的语音生成方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,计算机程序产品包括计算机指令,当计算机指令被处理器执行时,实现如上述第一方面的语音生成方法。
本公开提供的技术方案至少带来以下有益效果:首先本公开中语音生成装置获取待合成文本以及目标用户语音,相较于相关技术中需要获取大量用户的语音,并根据大量用户的语音进行训练,本公开仅需获取少量的语音(即目标用户语音)即可,且无需对目标用户语音进行训练。进一步的,语音生成装置确定目标用户语音的梅尔频谱特征,并将目标用户语音的梅尔频谱特征输入预先训练得到的语音生成模型的身份编码器,得到目标身份特征;语音生成装置确定待合成文本的梅尔频谱特征,并将待合成文本的梅尔频谱特征输入语音生成模型的内容编码器,得到内容特征。相较于相关技术中一个模型只能生成一个固定音色或身份特征的语音,无法对语音的音色或身份特征进行灵活调整,无法生成满足用户个性化需求的语音,本公开可以根据目标语音以及待合成文本的不同,将目标身份特征以及内容特征输入语音生成模型的解码器,生成与目标身份特征和内容特征对应的语音,实现身份特征以及文本的灵活设置,以满足用户的个性化需求。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种语音生成系统的结构示意图;
图2是根据一示例性实施例示出的一种语音生成方法的流程示意图之一;
图3是根据一示例性实施例示出的一种身份编码器的使用流程图;
图4是根据一示例性实施例示出的一种内容编码器的使用流程图;
图5是根据一示例性实施例示出的一种解码器的使用流程图;
图6是根据一示例性实施例示出的一种语音生成方法的流程示意图之二;
图7是根据一示例性实施例示出的一种语音生成方法的流程示意图之三;
图8是根据一示例性实施例示出的一种语音生成方法的流程示意图之四;
图9是根据一示例性实施例示出的一种语音生成方法的流程示意图之五;
图10是根据一示例性实施例示出的一种语音生成方法的流程示意图之六;
图11是根据一示例性实施例示出的一种语音生成方法的流程示意图之七;
图12是根据一示例性实施例示出的一种解码器的训练流程示意图;
图13是根据一示例性实施例示出的一种语音生成装置的结构示意图;
图14是根据一示例性实施例示出的一种电子设备的结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
另外,在本公开实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本公开实施例的描述中,“多个”是指两个或多于两个。
需要说明的,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息、用户行为信息等)和数据(包括但不限于程序代码等),均为经用户授权或者经过各方充分授权的信息和数据。
本公开实施例提供的语音生成方法可以适用于语音生成系统,该语音生成系统用于解决相关技术中无法生成满足用户个性化需求的语音。图1示出了该语音生成系统的一种结构示意图。如图1所示,语音生成系统10包括语音生成装置11以及电子设备12。语音生成装置11与电子设备12连接。语音生成装置11与电子设备12之间可以采用有线方式连接,也可以采用无线方式连接,本发明实施例对此不作限定。
语音生成装置11用于获取待合成文本以及目标用户语音。语音生成装置11还用于确定目标用户语音的梅尔频谱特征,并将目标用户语音的梅尔频谱特征输入预先训练得到的语音生成模型的身份编码器,得到目标身份特征。语音生成装置11还用于确定待合成文本的梅尔频谱特征,并将待合成文本的梅尔频谱特征输入语音生成模型的内容编码器,得到内容特征。语音生成装置11还用于将目标身份特征以及内容特征输入语音生成模型的解码器,得到目标语音;目标语音为与所述目标身份特征和内容特征对应的语音。
语音生成装置11可以在各种可以处理语音数据的电子设备12中实现,该电子设备12至少具备声音采集装置、传输装置以及语音播放装置,诸如电视、智能电话、便携式终端、计算机、笔记本计算机、平板计算机等等。
在不同的应用场景中,语音生成装置11和电子设备12可以为相互独立的设备,也可以集成于同一设备中,本发明实施例对此不作具体限定。
语音生成装置11和电子设备12集成于同一设备时,语音生成装置11和电子设备12之间的数据传输方式为该设备内部模块之间的数据传输。这种情况下,二者之间的数据传输流程与“语音生成装置11和电子设备12之间相互独立的情况下,二者之间的数据传输流程”相同。
在本发明实施例提供的以下实施例中,本发明实施例以语音生成装置11和电子设备12相互独立设置为例进行说明。
图2是根据一些示例性实施例示出的一种语音生成方法的流程示意图。在一些实施例中,上述语音生成方法可以应用到如图1所示的语音生成装置、电子设备,也可以应用到其他类似设备。
如图2所示,本发明实施例提供的语音生成方法,包括下述S201-S206。
S201、语音生成装置获取待合成文本以及目标用户语音。
作为一种可能的实现方式,语音生成装置从电子设备中获取待合成文本以及目标用户语音。
需要说明的,待合成文本以及目标用户语音均为电子设备响应于用户的输入操作而得到的。例如,待合成文本可以为用户根据输入操作输入到电子设备中的文本,待合成文本还可以为用户根据输入操作从电子设备预设的多个文本中选择的文本。目标用户语音可以为用户根据输入操作输入到电子设备中的语音,目标用户语音还可以为用户根据输入操作从电子设备预设的多个语音中选择的语音。其中,输入操作的形式可以为文本输入、语音采集以及目标采集等,本公开实施例对具体的输入操作形式不作限定。
S202、语音生成装置确定目标用户语音的梅尔频谱特征。
作为一种可能的实现方式,语音生成装置将获取到的目标用户语音进行模数转换(模拟信号转换为数字信号),得到目标音频数据。进一步的,语音生成装置对目标音频数据进行傅里叶变换,得到目标用户语音对应的目标频谱。语音生成装置将目标频谱输入到预设的梅尔滤波函数中,得到目标用户语音的梅尔频谱,并将该梅尔频谱确定为目标用户语音的梅尔频谱特征。
需要说明的,梅尔滤波函数为运维人员在语音生成装置中预先设置的,用于将普通频谱特征转换为梅尔标度频谱(即梅尔频谱)。梅尔频谱用于模拟人耳听觉对实际频率的敏感程度,即梅尔频谱更贴近于人耳对频谱的感受。
S203、语音生成装置将目标用户语音的梅尔频谱特征输入预先训练得到的语音生成模型的身份编码器,得到目标身份特征。
作为一种可能的实现方式,语音生成装置将目标用户语音的梅尔频谱特征输入预先训练得到的语音生成模型的身份编码器中,输出目标身份特征。
需要说明的,语音生成模型包括身份编码器、内容编码器以及解码器,由运维人员预先在语音生成装置中设置的。其中,身份编码器用于对输入的梅尔频谱特征进行分析,输出身份特征。身份特征本质上为用于反映说话人身份的语音特征,例如,身份特征包括语音的频率特征、振幅特征以及音色特征中的至少一个,本公开对此不作具体限定。
示例性的,如图3所示,示出了一种身份编码器的使用流程图,其中,目标用户语音的梅尔频谱特征为a,身份编码器为Eid。语音生成装置将目标用户语音的梅尔频谱特征a输入到身份编码器为Eid中,输出目标身份特征fid。其中,fid=Eid(a)。
S204、语音生成装置确定待合成文本的梅尔频谱特征。
作为一种可能实现的方式,语音生成装置将待合成文本转化为文本语音,并确定文本语音的梅尔频谱。进一步的,语音生成装置将文本语音的梅尔频谱确定为待合成文本的梅尔频谱特征。具体确定文本语音的梅尔频谱的实现方式可以参考上述步骤S202,不同之处在于将目标用户语音替换为文本语音即可。
S205、语音生成装置将待合成文本的梅尔频谱特征输入语音生成模型的内容编码器,得到内容特征。
作为一种可能的实现方式,语音生成装置将待合成文本的梅尔频谱特征输入预先训练得到的语音生成模型的内容编码器中,输出内容特征。
需要说明的,内容编码器用于对输入的梅尔频谱特征进行分析,输出内容特征。内容特征用于反映语音的内容,例如,内容特征包括语音的语种、字符长度以及词义中的至少一个,本公开对此不作具体限定。
示例性的,如图4所示,示出了一种内容编码器的使用流程图,其中,待合成文本的梅尔频谱特征为a’,预先训练得到的内容编码器为Econ。语音生成装置将a’输入到Econ中,输出待合成文本的内容特征fcon。其中,fcon=Econ(a’)。
S206、语音生成装置将目标身份特征以及内容特征输入语音生成模型的解码器,得到目标语音。
其中,目标语音为与目标身份特征和内容特征对应的语音。
作为一种可能实现的方式,语音生成装置在确定到目标身份特征以及内容特征之后,将目标身份特征以及内容特征输入到解码器中,输出与目标身份特征和内容特征对应的目标语音。
作为另一种可能实现的方式,语音生成装置在确定到目标身份特征以及内容特征之后,将目标身份特征以及内容特征输入到解码器中,输出目标语音的梅尔频谱特征。进一步的,语音生成装置将目标语音的梅尔频谱特征输入到声码器中,得到目标语音。
需要说明的,解码器用于将输入的身份特征以及内容特征进行融合,输出语音或者对应的梅尔频谱特征。
声码器为运维人员预先在语音生成装置中设置,可以将数字信号转换为模拟信号,例如,将梅尔频谱特征转换为语音。
示例性的,如图5所示,示出了一种解码器的使用流程图,其中,语音生成装置将身份特征以及内容特征分别输入到解码器中,输出梅尔频谱特征。进一步,语音生成装置将解码器输出的梅尔频谱特征输入到声码器中,生成语音。
上述实施例提供的技术方案至少带来以下有益效果:首先本公开中语音生成装置获取待合成文本以及目标用户语音,相较于相关技术中需要获取大量用户的语音,并根据大量用户的语音进行训练,本公开仅需获取少量的语音(即目标用户语音)即可,且无需对目标用户语音进行训练。进一步的,语音生成装置确定目标用户语音的梅尔频谱特征,并将目标用户语音的梅尔频谱特征输入预先训练得到的语音生成模型的身份编码器,得到目标身份特征;语音生成装置确定待合成文本的梅尔频谱特征,并将待合成文本的梅尔频谱特征输入语音生成模型的内容编码器,得到内容特征。相较于相关技术中一个模型只能生成一个固定音色或身份特征的语音,无法对语音的音色或身份特征进行灵活调整,无法生成满足用户个性化需求的语音,本公开可以根据目标语音以及待合成文本的不同,将目标身份特征以及内容特征输入语音生成模型的解码器,生成与目标身份特征和内容特征对应的语音,实现身份特征以及文本的灵活设置,以满足用户的个性化需求。
在一种设计中,为了能够确定待合成文本的梅尔频谱特征,如图6所示,本公开实施例提供的上述S204,具体包括下述S2041-S2042:
S2041、语音生成装置采用预设的语音合成模型获取待合成文本对应的文本语音。
作为一种可能的实现方式,语音生成装置将待合成文本输入到预设的语音合成模型中,得到待合成文本对应的文本语音。
需要说明的,语音合成模型用于将文本转化为语音,通常一个语音合成模型只能生成一个固定音色的语音。语音合成模型可以为任意一个开源的语音合成模型,也可以为本公开实施例中的语音生成模型,本公开实施例对具体的语音合成模型不作限定。
示例性的,语音生成装置将待合成文本t输入到语音合成模型中,得到待合成文本t对应的语音,并获取该语音对应的语音数据a’。
S2042、语音生成装置将文本语音的梅尔频谱特征确定为待合成文本的梅尔频谱特征。
作为一种可能的实现方式,语音生成装置确定文本语音的梅尔频谱特征,并将文本语音的梅尔频谱特征确定为待合成文本的梅尔频谱特征。语音生成装置具体确定文本语音的梅尔频谱特征的实现方式可以参考上述S204,此处不再赘述。
可以理解的,本公开实施例采用预设的语音合成模型将待合成文本转换为文本语音,并将文本语音的梅尔频谱特征确定为待合成文本的梅尔频谱特征,统一了待合成文本的数据格式,更便于提取得到待合成文本的内容特征。
在一种设计中,为了能够得到身份编码器,如图7所示,本公开实施例提供的语音生成方法,在上述S203之前还包括下述S301-S305:
S301、语音生成装置获取多组第一语音样本。
其中,每组第一语音样本包括第一语音和第二语音。
作为一种可能实现的方式,语音生成装置从电子设备的第一数据集中获取多组第一语音样本。
需要说明的,第一数据集由运维人员预先存储在电子设备中,第一数据集包括多个预先收集好的语音。例如,运维人员收集n个用户的语音,得到第一数据集S1,并将第一数据集S1存储到电子设备中。
第一语音样本对中的第一语音和第二语音为数据集S1中的任意两个语音。
在实际应用中,语音生成装置可以先从数据集中采集任意一行的语音(同一用户对应的多个语音,例如第i个用户对应的ki个语音数据)。进一步的,语音生成装置从采集到任意一行的语音中采集任意两个语音,得到一组第一语音样本,也称第一样本对,该第一样本对为正样本对。
语音生成装置还可以先从数据集中采集任意两行的语音(不同用户对应的多个语音,例如第i个用户对应的ki个语音以及第w个用户对应的kw个语音进一步的,语音生成装置从采集到两行的语音中各采集一个语音(例如),得到一组第一语音样本,也称第一样本对,该第一样本对为正样本对。
S302、语音生成装置确定每组第一语音样本的第一输入样本。
其中,第一输入样本包括第一语音的梅尔频谱特征和第二语音的梅尔频谱特征。
作为一种可能实现的方式,语音生成装置确定每组第一语音样本中第一语音的梅尔频谱特征以及第二语音的梅尔频谱特征,并将第一语音的梅尔频谱特征以及第二语音的梅尔频谱特征作为第一输入样本。
语音生成装置具体确定第一语音的梅尔频谱特征以及第二语音的梅尔频谱特征的实现方式可以参考上述S202,不同之处在于将目标用户语音替换为第一语音或者第二语音即可,此处不再赘述。
S303、语音生成装置分别将第一语音的梅尔频谱特征和第二语音的梅尔频谱特征输入到预设的第一神经网络中,得到第一语音的第一预测身份特征以及第二语音的第二预测身份特征。
作为一种可能实现的方式,语音生成装置将第一语音的梅尔频谱特征输入到预设的第一神经网络中,得到第一语音的第一预测身份特征。进一步的,语音生成装置将第二语音的梅尔频谱特征输入到预设的第一神经网络中,得到第二语音的第二预测身份特征。
需要说明的,第一神经网络由运维人员预先在语音生成装置中设置,第一神经网络可以为卷积神经网络。
S304、对于每组第一语音样本,语音生成装置确定第一预测身份特征与第二预测身份特征之间的身份特征差异度,得到多组第一语音样本的身份特征差异度。
作为一种可能实现的方式,对于每组第一语音样本,语音生成装置根据预设的距离函数,计算第一预测身份特征与第二预测身份特征之间的身份特征差异度,以此得到多组第一语音样本的身份特征差异度。
需要说明的,距离函数由运维人员预先在语音生成装置中设置。距离函数可以取余弦距离或者欧式距离。
示例性的,D()为预设的距离函数,f1为第一预测身份特征,f2为第二预测身份特征,则D(f1,f2)用于计算f1与f2之间的余弦距离或者欧式距离,语音生成装置将计算结果确定为第一预测身份特征与第二预测身份特征之间的身份特征差异度。
S305、语音生成装置根据多组第一语音样本的身份特征差异度对第一神经网络进行训练,得到身份编码器。
作为一种可能实现的方式,对于各组第一语音样本,语音生成装置确定第一语音样本对应的身份特征差异度条件,将身份特征差异度条件作为期望,结合第一语音样本的身份特征差异度调整第一神经网络的参数。重复上述动作对第一神经网络进行训练,得到身份编码器。
上述实施例提供的技术方案至少带来以下有益效果:语音生成装置获取到多组包括第一语音和第二语音的第一语音样本之后,分别将第一语音的梅尔频谱特征和第二语音的梅尔频谱特征输入到预设的第一神经网络中,得到第一语音的第一预测身份特征以及第二语音的第二预测身份特征,以明确两个语音各自对应的身份特征。进一步的,语音生成装置确定出多组第一语音样本的身份特征差异度,并根据多组第一语音样本的身份特征差异度对第一神经网络进行训练,得到身份编码器,这样一来,在后续过程中语音生成装置直接使用身份编码器即可确定出任意一个语音的身份特征。
在一种设计中,为了能够得到身份编码器,如图8所示,本公开实施例提供的上述S305,具体包括下述S3051-S3055:
S3051、语音生成装置判断第一语音与第二语音是否对应于同一用户。
作为一种可能实现的方式,语音生成装置根据第一语音与第二语音的用户标识,判断第一语音与第二语音是否对应于同一用户。在用户标识相同的情况下,语音生成装置判断第一语音与第二语音对应于同一用户;在用户标识不同的情况下,语音生成装置判断第一语音与第二语音对应于不同用户。
需要说明的,语音生成装置在从第一数据集中获取第一语音与第二语音时,同一用户的语音,其用户标识相同。例如,参考上述步骤S301中的S1。其中,表示第i个用户对应的ki个语音,即数据集S1中的同一行代表同一个用户的多个语音,各语音的用户标识均为i。
在实际应用中,各组第一语音样本的样本类型通常相同,即通常均为正样本对(第一语音与第二语音对应于同一用户)或均为负样本对(第一语音与第二语音对应于不同用户)。各组第一语音样本的样本类型也可以不同,多组第一语音样本中既包括正样本对,又包括负样本对,本公开实施例对此不作限定。为了方便介绍,本公开实施例以多组第一语音样本中各组第一语音样本的样本类型相同来介绍。
S3052、在第一语音与第二语音对应于同一用户的情况下,语音生成装置判断多组第一语音样本的身份特征差异度是否均小于或者等于第一预设阈值。
作为一种可能实现的方式,在第一语音与第二语音对应于同一用户的情况下,语音生成装置将各组第一语音样本的身份特征差异度与第一预设阈值进行比较,确定多组第一语音样本的身份特征差异度是否均小于或者等于第一预设阈值。
需要说明的,第一预设阈值为运维人员预先在语音生成装置中设置的。第一预设阈值要尽量设置的小。
S3053、当多组第一语音样本的身份特征差异度均小于或者等于第一预设阈值时,语音生成装置确定得到身份编码器。
作为一种可能实现的方式,语音生成装置在对第一神经网络进行若干次训练后,若多组第一语音样本的身份特征差异度均小于或者等于第一预设阈值,则确定得到身份编码器。否则,语音生成装置继续对第一神经网络进行训练(不断调整参数),直到多组第一语音样本的身份特征差异度均小于或者等于第一预设阈值为止。
可以理解的,由于多组第一语音样本均为正样本对,即第一语音与第二语音对应于同一用户,因此多组第一语音样本的身份特征差异度要尽可能的小,才能保证身份编码器的准确性。
S3054、在第一语音与第二语音对应于不同用户的情况下,语音生成装置判断多组第一语音样本的身份特征差异度是否均大于第二预设阈值。
其中,第二预设阈值大于第一预设阈值。
作为一种可能实现的方式,在第一语音与第二语音对应于不同用户的情况下,语音生成装置将各组第一语音样本的身份特征差异度与第二预设阈值进行比较,确定多组第一语音样本的身份特征差异度是否均大于或者等于第二预设阈值。
需要说明的,第二预设阈值为运维人员预先在语音生成装置中设置的。第二预设阈值要尽量设置的大。
S3055、当多组第一语音样本的身份特征差异度均大于第二预设阈值时,语音生成装置确定得到身份编码器。
作为一种可能实现的方式,语音生成装置在对第一神经网络进行若干次训练后,若多组第一语音样本的身份特征差异度均大于第二预设阈值,则确定得到身份编码器。否则,语音生成装置继续对第一神经网络进行训练(不断调整参数),直到多组第一语音样本的身份特征差异度均大于第一预设阈值为止。
可以理解的,由于多组第一语音样本均为负样本对,即第一语音与第二语音对应于不同用户,因此多组第一语音样本的身份特征差异度要尽可能的大,才能保证身份编码器的准确性。
在一些实施例中,语音生成装置还可以基于第一语音的预测身份特征、第二语音的预测身份特征以及第一约束条件,对第一神经网络进行训练,得到身份编码器。
其中,在第一语音以及第二语音对应于同一用户的情况下,第一约束条件包括:第一语音的预测身份特征与第二语音数据的预测身份特征之间的差异度小于第一预设阈值。
在第一语音以及第二语音对应于不同用户的情况下,第一约束条件包括:第一语音的预测身份特征与第二语音的预测身份特征之间的差异度大于第二预设阈值。
作为一种可能实现的方式,语音生成装置将第一语音的预测身份特征以及第二语音的预测身份特征作为样本特征,将第一约束条件作为标签。在第一语音的预测身份特征与第二语音的预测身份特征满足第一约束条件的情况下,语音生成装置则训练得到身份编码器。在第一语音的预测身份特征与第二语音的预测身份特征不满足第一约束条件的情况下,语音生成装置则采用新的第一语音样本,对第一神经网络进行迭代训练,直到预测得到的第一语音的预测身份特征与第二语音的预测身份特征满足第一约束条件为止。
示例性的,在第一语音为第二语音为的情况下,此时第一语音以及第二语音对应于同一用户(此时第一语音以及第二语音对应的第一语音样本为第一正样本对),则第一预设阈值可以设为minD(f1,f2),其中,f1为的预测身份特征,f2为的预测身份特征,D()为预设的距离函数,用于计算f1与f2之间的余弦距离或者欧式距离。在f1与f2之间的距离小于或者等于第一阈值的情况下,语音生成装置则训练得到身份编码器。在f1与f2之间的距离大于第一阈值的情况下,语音生成装置则采用新的第一正样本对,对第一神经网络进行迭代训练,直到预测得到的f1与f2之间的距离小于或者等于第一阈值为止。
又一示例性的,在第一语音为第二语音为的情况下,此时第一语音以及第二语音对应于不同的两个用户(此时第一语音以及第二语音对应第一语音样本为第一负样本对),则第二预设阈值可以设为maxD(fn1,fn2),其中,fn1为的预测身份特征,fn2为的预测身份特征,D()为预设的距离函数,用于计算fn1与fn2之间的余弦距离或者欧式距离。在fn1与fn2之间的距离大于或者等于第二阈值的情况下,语音生成装置则训练得到身份编码器。在fn1与fn2之间的距离小于第二阈值的情况下,语音生成装置则采用新的第一负样本对,对第一神经网络进行迭代训练,直到预测得到的fn1与fn2之间的距离大于或者等于第二阈值为止。
在一种设计中,为了能够得到内容编码器,如图9所示,本公开实施例提供的语音生成方法,在上述S205之前还包括下述S401-S405:
S401、语音生成装置获取多组第二语音样本。
其中,每组第二语音样本包括第三语音以及第四语音。
作为一种可能实现的方式,语音生成装置从电子设备的第二数据集中获取多组第二语音样本。
需要说明的,第二数据集由运维人员预先存储在电子设备中,第二数据集包括多个预先收集好的语音。例如,运维人员收集m个用户的语音,得到第二数据集S2,并将第二数据集S2存储到电子设备中。
第二语音样本中的第三语音以及第四语音为数据集S2中的任意两个语音数据。
在实际应用中,语音生成装置可以先从数据集S2中采集任意一列的语音(不同的开源语音合成模型合成相同文本的语音,例如第1列的d个语音进一步的,语音生成装置从采集到任意一列的语音中采集任意两个语音(例如),得到第二语音样本,该第二语音样本为正样本对。
语音生成装置还可以先从数据集S2中采集任意两列的语音(不同的开源语音合成模型合成不同文本的语音,例如第1列的d个语音以及第2列的d个语音进一步的,语音生成装置从采集到两列的语音中各采集一个语音(例如),得到第二语音样本,该第二语音样本为负样本对。
S402、语音生成装置确定每组第二语音样本的第二输入样本。
其中,第二输入样本包括第三语音的梅尔频谱特征和第四语音的梅尔频谱特征。
作为一种可能实现的方式,语音生成装置确定每组第二语音样本中第三语音的梅尔频谱特征以及第四语音的梅尔频谱特征,并将第三语音的梅尔频谱特征以及第四语音的梅尔频谱特征作为第二输入样本。
语音生成装置具体确定第三语音的梅尔频谱特征以及第四语音的梅尔频谱特征的实现方式可以参考上述S202,不同之处在于将目标用户语音替换为第三语音或者第四语音即可,此处不再赘述。
S403、语音生成装置分别将第三语音的梅尔频谱特征和第四语音的梅尔频谱特征输入到预设的第二神经网络中,得到第三语音的第一预测内容特征以及第四语音的第二预测内容特征。
作为一种可能实现的方式,语音生成装置将第三语音的梅尔频谱特征输入到预设的第二神经网络中,得到第三语音的第一预测内容特征。进一步的,语音生成装置将第四语音的梅尔频谱特征输入到预设的第二神经网络中,得到第四语音的第二预测内容特征。
需要说明的,第二神经网络由运维人员预先在语音生成装置中设置,第二神经网络可以为卷积神经网络。
S404、对于每组第二语音样本,语音生成装置确定第一预测内容特征与第二预测内容特征之间的内容特征差异度,得到多组第二语音样本的内容特征差异度。
作为一种可能实现的方式,对于每组第二语音样本,语音生成装置根据预设的距离函数,计算第一预测内容特征与第二预测内容特征之间的内容特征差异度,以此得到多组第二语音样本的身份特征差异度。
需要说明的,距离函数由运维人员预先在语音生成装置中设置。距离函数可以取余弦距离或者欧式距离。
示例性的,D()为预设的距离函数,p1为第一预测内容特征,p2为第二预测内容特征,则D(p1,p2)用于计算p1与p2之间的余弦距离或者欧式距离,语音生成装置将计算结果确定为第一预测内容特征与第二预测内容特征之间的内容特征差异度。
S405、语音生成装置根据多组第二语音样本的内容特征差异度对第二神经网络进行训练,得到内容编码器。
作为一种可能实现的方式,对于各组第二语音样本,语音生成装置确定第二语音样本对应的内容特征差异度条件,将内容特征差异度条件作为期望,结合第二语音样本的内容特征差异度调整第二神经网络的参数。重复上述动作对第二神经网络进行训练,得到内容编码器。
上述实施例提供的技术方案至少带来以下有益效果:语音生成装置获取到多组包括第三语音和第四语音的第二语音样本之后,分别将第三语音的梅尔频谱特征和第四语音的梅尔频谱特征输入到预设的第二神经网络中,得到第三语音的第一预测内容特征以及第四语音的第二预测内容特征,以明确两个语音各自对应的内容特征。进一步的,语音生成装置确定出多组第二语音样本的内容特征差异度,并根据多组第二语音样本的内容特征差异度对第二神经网络进行训练,得到内容编码器,这样一来,在后续过程中语音生成装置直接使用内容编码器即可确定出任意一个语音的内容特征。
在一种设计中,为了能够得到内容编码器,如图10所示,本公开实施例提供的上述S405,具体包括下述S4051-S4055:
S4051、语音生成装置判断第三语音与第四语音是否对应于同一文本。
作为一种可能实现的方式,语音生成装置根据第三语音与第四语音的文本标识,判断第三语音与第四语音是否对应于同一文本。在文本标识相同的情况下,语音生成装置判断第三语音与第四语音对应于同一文本;在文本标识不同的情况下,语音生成装置判断第三语音与第四语音对应于不同用户。
需要说明的,语音生成装置在从第二数据集中获取第三语音与第四语音时,同一文本的语音,其文本标识相同。例如,参考上述步骤S401中的S2。同一列代表不同的开源语音合成模型根据相同的文本合成的语音,各语音的文本标识相同。
在实际应用中,各组第二语音样本的样本类型通常相同,即通常均为正样本对(第三语音与第四语音对应于同一文本)或均为负样本对(第三语音与第四语音对应于不同文本)。各组第二语音样本的样本类型也可以不同,多组第二语音样本中既包括正样本对,又包括负样本对,本公开实施例对此不作限定。为了方便介绍,本公开实施例以多组第二语音样本中各组第二语音样本的样本类型相同来介绍。
S4052、在第三语音与第四语音对应于同一文本的情况下,语音生成装置判断多组第二语音样本的身份特征差异度是否均小于或者等于第三预设阈值。
作为一种可能实现的方式,在第三语音与第四语音对应于同一文本的情况下,语音生成装置将各组第二语音样本的内容特征差异度与第三预设阈值进行比较,确定多组第二语音样本的内容特征差异度是否均小于或者等于第三预设阈值。
需要说明的,第三预设阈值为运维人员预先在语音生成装置中设置的。第三预设阈值要尽量设置的小。
S4053、当多组第二语音样本的内容特征差异度均小于或者等于第三预设阈值时,语音生成装置确定得到内容编码器。
作为一种可能实现的方式,语音生成装置在对第二神经网络进行若干次训练后,若多组第二语音样本的内容特征差异度均小于或者等于第三预设阈值,则确定得到内容编码器。否则,语音生成装置继续对第二神经网络进行训练(不断调整参数),直到多组第二语音样本的内容特征差异度均小于或者等于第三预设阈值为止。
可以理解的,由于多组第二语音样本均为正样本对,即第三语音与第四语音对应于同一文本,因此多组第二语音样本的内容特征差异度要尽可能的小,才能保证内容编码器的准确性。
S4054、在第三语音与第四语音对应于不同文本的情况下,语音生成装置判断多组第二语音样本的内容特征差异度是否均大于或者等于第四预设阈值。
其中,第四预设阈值大于第三预设阈值。
作为一种可能实现的方式,在第三语音与第四语音对应于不同文本的情况下,语音生成装置将各组第二语音样本的内容特征差异度与第四预设阈值进行比较,确定多组第二语音样本的内容特征差异度是否均大于或者等于第四预设阈值。
需要说明的,第四预设阈值为运维人员预先在语音生成装置中设置的。第四预设阈值要尽量设置的大。
S4055、当多组第二语音样本的内容特征差异度均大于或者等于第四预设阈值时,语音生成装置确定得到内容编码器。
作为一种可能实现的方式,语音生成装置在对第二神经网络进行若干次训练后,若多组第二语音样本的内容特征差异度均大于或者等于第四预设阈值,则确定得到内容编码器。否则,语音生成装置继续对第二神经网络进行训练(不断调整参数),直到多组第二语音样本的内容特征差异度均大于或者等于第四预设阈值为止。
可以理解的,由于多组第二语音样本均为负样本对,即第三语音与第四语音对应于不同文本,因此多组第二语音样本的内容特征差异度要尽可能的大,才能保证内容编码器的准确性。
在一些实施例中,语音生成装置还可以基于第三语音的预测内容特征、第四语音的预测内容特征以及第二约束条件,对第二神经网络进行训练,得到内容编码器。
其中,在第三语音以及第四语音对应于同一文本的情况下,第二约束条件包括:第三语音的预测内容特征与第四语音的预测内容特征之间的差异度小于或者等于第三预设阈值。
在第三语音以及第四语音对应于不同文本的情况下,第二约束条件包括:第三语音的预测内容特征与第四语音的预测内容特征之间的差异度大于或者等于第四预设阈值。
作为一种可能实现的方式,语音生成装置将第三语音的预测内容特征以及第四语音的预测内容特征作为样本特征,将第二约束条件作为标签。在第三语音的预测内容特征与第四语音的预测内容特征满足第二约束条件的情况下,语音生成装置则训练得到内容编码器。在第三语音的预测内容特征与第四语音的预测内容特征不满足第二约束条件的情况下,语音生成装置则采用新的第二语音样本,对第二神经网络进行迭代训练,直到预测得到的第三语音的预测内容特征与第四语音的预测内容特征满足第二约束条件为止。
示例性的,在第三语音为第四语音为的情况下,此时第三语音以及第四语音对应于同一文本(此时第三语音以及第四语音对应第二语音样本为第二正样本对),则第三预设阈值可以设为minD(p1,p2),其中,p1为的预测内容特征,p2为的预测内容特征,D()为预设的距离函数,用于计算p1与p2之间的余弦距离或者欧式距离。在p1与p2之间的距离小于或者等于第三阈值的情况下,语音生成装置则训练得到内容编码器。在p1与p2之间的距离大于第三阈值的情况下,语音生成装置则采用新的第二正样本对,对第二神经网络进行迭代训练,直到预测得到的p1与p2之间的距离小于或者等于第三阈值为止。
又一示例性的,在第三语音为第四语音为的情况下,此时第三语音以及第四语音对应于不同的文本(此时第三语音以及第四语音对应第二语音样本为第二负样本对),则第四预设阈值可以设为maxD(pn1,pn2),其中,pn1为的预测内容特征,pn2为的预测内容特征,D()为预设的距离函数,用于计算pn1与pn2之间的余弦距离或者欧式距离。在pn1与pn2之间的距离大于或者等于第四阈值的情况下,语音生成装置则训练得到内容编码器。在pn1与pn2之间的距离小于第四阈值的情况下,语音生成装置则采用新的第二负样本对,对第二神经网络进行迭代训练,直到预测得到的pn1与pn2之间的距离大于或者等于第四阈值为止。
在一种设计中,为了能够得到解码器,如图11所示,本公开实施例提供的语音生成方法,在上述S206之前还包括下述S501-S507:
S501、语音生成装置获取多个样本语音。
作为一种可能实现的方式,语音生成装置从电子设备的样本数据集中获取样本语音。
需要说明的,样本数据集包括多个语音,例如,样本数据集可以为第一数据集S1,也可以为第二数据集S2,本公开实施例对此不作限定。
S502、语音生成装置确定每个样本语音的样本梅尔频谱特征。
语音生成装置具体确定每个样本语音的样本梅尔频谱特征的实现方式可以参考上述S202,不同之处在于将目标用户语音替换为样本语音即可,此处不再赘述。
S503、语音生成装置将每个样本语音的样本梅尔频谱特征输入到身份编码器中,得到每个样本语音对应的样本身份特征。
作为一种可能的实现方式,语音生成装置将每个样本语音的样本梅尔频谱特征分别输入到训练完成的身份编码器中,得到每个样本语音对应的样本身份特征。
S504、语音生成装置将每个样本语音的样本梅尔频谱特征输入到内容编码器中,得到每个样本语音对应的样本内容特征。
作为一种可能的实现方式,语音生成装置将每个样本语音的样本梅尔频谱特征分别输入到训练完成的内容编码器中,得到每个样本语音对应的样本内容特征。
S505、语音生成装置将样本身份特征以及样本内容特征输入到预设的第三神经网络中,得到每个样本语音的预测梅尔频谱特征。
需要说明的,第三神经网络由运维人员预先在语音生成装置中设置,第三神经网络可以为卷积神经网络。
S506、对于每个样本语音,语音生成装置确定样本梅尔频谱特征与预测梅尔频谱特征之间的梅尔频谱特征差异度,得到多个样本语音的梅尔频谱特征差异度。
作为一种可能实现的方式,对于每个样本语音,语音生成装置根据预设的距离函数,计算样本梅尔频谱特征与预测梅尔频谱特征之间的梅尔频谱特征差异度,以此得到多个样本语音的梅尔频谱特征差异度。
需要说明的,距离函数由运维人员预先在语音生成装置中设置。距离函数可以取余弦距离或者欧式距离。
S507、语音生成装置根据多个样本语音的梅尔频谱特征差异度对第三神经网络进行训练,得到解码器。
作为一种可能实现的方式,对于各样本语音,语音生成装置将样本梅尔频谱特征作为期望,结合预测梅尔频谱特征调整第三神经网络的参数。重复上述动作对第三神经网络进行训练,得到解码器。
在一些实施例中,语音生成装置将样本语音的样本梅尔频谱特征作为标签,在预测梅尔频谱特征与样本梅尔频谱特征之间满足第三约束条件的情况下,语音生成装置则训练得到解码器。在预测梅尔频谱特征与样本梅尔频谱特征之间不满足第三约束条件的情况下,语音生成装置则采用新的样本语音,对第三神经网络进行迭代训练,直到预测梅尔频谱特征与样本梅尔频谱特征之间满足第三约束条件为止。
第三约束条件可以为预测梅尔频谱特征与样本梅尔频谱特征之间的差异度小于或者等于第五预设阈值。
示例性的,样本语音1(对应的样本梅尔频谱特征为a)的身份特征为fa,内容特征为fc。语音生成装置将fa、fc输入到第三神经网络中,输出若与a之间的距离D=minD2 则表明第三神经网络完成训练,得到解码器。其中,D2()为距离函数,用于计算与a之间的余弦距离或者欧式距离。
如图12所示,示出了一种解码器的训练流程图,其中,语音生成装置将样本语音分别输入到身份编码器以及内容编码器中,得到身份特征以及内容特征;进而,语音生成装置将身份特征以及内容特征输入到第三神经网络中,得到与样本语音数据之间满足第三约束条件的预测梅尔频谱特征。
上述实施例提供的技术方案至少带来以下有益效果:通过上述的训练过程,得到解码器,在后续过程中语音设置装置直接使用解码器即可根据任意一个身份特征以及任意一个内容特征,确定出一个与该身份特征和该内容特征对应的语音。
上述实施例主要从装置(设备)的角度对本公开实施例提供的方案进行了介绍。可以理解的是,为了实现上述方法,装置或设备包含了执行各个方法流程相应的硬件结构和/或软件模块,这些执行各个方法流程相应的硬件结构和/或软件模块可以构成一个物料信息的确定装置。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的算法步骤,本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
本公开实施例可以根据上述方法示例对装置或设备进行功能模块的划分,例如,装置或设备可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本公开实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图13是根据一示例性实施例示出的语音生成装置的结构示意图。参照图13所示,本公开实施例提供的语音生成装置60,包括获取单元601、确定单元602以及生成单元603。
获取单元601,用于获取待合成文本以及目标用户语音;确定单元602,用于确定目标用户语音的梅尔频谱特征,并将目标用户语音的梅尔频谱特征输入预先训练得到的语音生成模型的身份编码器,得到目标身份特征;确定单元602,还用于确定待合成文本的梅尔频谱特征,并将待合成文本的梅尔频谱特征输入语音生成模型的内容编码器,得到内容特征;生成单元603,用于将目标身份特征以及内容特征输入语音生成模型的解码器,得到目标语音;目标语音为与所述目标身份特征和内容特征对应的语音。
可选的,确定单元602,具体用于:采用预设的语音合成模型获取待合成文本对应的文本语音,并将文本语音的梅尔频谱特征确定为待合成文本的梅尔频谱特征。
可选的,语音生成装置60还包括训练单元604;训练单元604,用于获取多组第一语音样本,每组第一语音样本包括第一语音和第二语音;训练单元604,还用于确定每组第一语音样本的第一输入样本,第一输入样本包括第一语音的梅尔频谱特征和第二语音的梅尔频谱特征;训练单元604,还用于分别将第一语音的梅尔频谱特征和第二语音的梅尔频谱特征输入到预设的第一神经网络中,得到第一语音的第一预测身份特征以及第二语音的第二预测身份特征;训练单元604,还用于对于每组第一语音样本,确定第一预测身份特征与第二预测身份特征之间的身份特征差异度,得到多组第一语音样本的身份特征差异度;训练单元604,还用于根据多组第一语音样本的身份特征差异度对第一神经网络进行训练,得到身份编码器。
可选的,训练单元604,具体用于:在第一语音与第二语音对应于同一用户的情况下,当多组第一语音样本的身份特征差异度均小于或者等于第一预设阈值时,则确定得到身份编码器;在第一语音与第二语音对应于不同用户的情况下,当多组第一语音样本的身份特征差异度均大于或者等于第二预设阈值,则确定得到身份编码器;其中,第二预设阈值大于第一预设阈值。
可选的,训练单元604,还用于:获取多组第二语音样本,每组第二语音样本包括第三语音以及第四语音;确定每组第二语音样本的第二输入样本,第二输入样本包括第三语音的梅尔频谱特征和第四语音的梅尔频谱特征;分别将第三语音的梅尔频谱特征和第四语音的梅尔频谱特征输入到预设的第二神经网络中,得到第三语音的第一预测内容特征以及第四语音的第二预测内容特征;对于每组第二语音样本,确定第一预测内容特征与第二预测内容特征之间的内容特征差异度,得到多组第二语音样本的内容特征差异度;根据多组第二语音样本的内容特征差异度对第二神经网络进行训练,得到内容编码器。
可选的,训练单元604,具体用于:在第三语音与第四语音对应于同一文本且第三语音与第四语音对应于不同用户的情况下,当多组第二语音样本的内容特征差异度均小于或者等于第三预设阈值时,则确定得到内容编码器;在第三语音与第四语音对应于不同文本且第三语音与第四语音对应于不同用户的情况下,当多组第二语音样本的内容特征差异度均大于或者等于第四预设阈值时,则确定得到内容编码器;其中,第四预设阈值大于第三预设阈值。
可选的,训练单元604,还用于:获取多个样本语音,并确定每个样本语音的样本梅尔频谱特征;将每个样本语音的样本梅尔频谱特征输入到身份编码器中,得到每个样本语音对应的样本身份特征;将每个样本语音的样本梅尔频谱特征输入到内容编码器中,得到每个样本语音对应的样本内容特征;将样本身份特征以及样本内容特征输入到预设的第三神经网络中,得到每个样本语音的预测梅尔频谱特征;对于每个样本语音,确定样本梅尔频谱特征与预测梅尔频谱特征之间的梅尔频谱特征差异度,得到多个样本语音的梅尔频谱特征差异度;根据多个样本语音的梅尔频谱特征差异度对第三神经网络进行训练,得到解码器。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图14是本公开提供的一种电子设备的结构示意图。如图14,该电子设备70可以包括至少一个处理器701以及用于存储处理器可执行指令的存储器702其中,处理器701被配置为执行存储器702中的指令,以实现上述实施例中的语音生成方法。
另外,电子设备70还可以包括通信总线703以及至少一个通信接口704。
处理器701可以是一个处理器(central processing units,CPU),微处理单元,ASIC,或一个或多个用于控制本公开方案程序执行的集成电路。
通信总线703可包括一通路,在上述组件之间传送信息。
通信接口704,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,无线接入网(radio access network,RAN),无线局域网(wireless local areanetworks,WLAN)等。
存储器702可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。
其中,存储器702用于存储执行本公开方案的指令,并由处理器701来控制执行。处理器701用于执行存储器702中存储的指令,从而实现本公开方法中的功能。
作为一个示例,结合图14,语音生成装置60中的获取单元601、确定单元602、生成单元603以及训练单元604实现的功能与图14中的处理器701的功能相同。
在具体实现中,作为一种实施例,处理器701可以包括一个或多个CPU,例如图14中的CPU0和CPU1。
在具体实现中,作为一种实施例,电子设备70可以包括多个处理器,例如图14中的处理器701和处理器707。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
在具体实现中,作为一种实施例,电子设备70还可以包括输出设备705和输入设备706。输出设备705和处理器701通信,可以以多种方式来显示信息。例如,输出设备705可以是液晶显示器(liquid crystal display,LCD),发光二级管(light emitting diode,LED)显示设备,阴极射线管(cathode ray tube,CRT)显示设备,或投影仪(projector)等。输入设备706和处理器701通信,可以以多种方式接受用户的输入。例如,输入设备706可以是鼠标、键盘、触摸屏设备或传感设备等。
本领域技术人员可以理解,图14中示出的结构并不构成对电子设备70的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
另外,本公开还提供一种计算机可读存储介质,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述实施例所提供的语音生成方法。
另外,本公开还提供一种计算机程序产品,包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行如上述实施例所提供的语音生成方法。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
Claims (10)
1.一种语音生成方法,其特征在于,包括:
获取待合成文本以及目标用户语音;
确定所述目标用户语音的梅尔频谱特征,并将所述目标用户语音的梅尔频谱特征输入预先训练得到的语音生成模型的身份编码器,得到目标身份特征;
确定所述待合成文本的梅尔频谱特征,并将所述待合成文本的梅尔频谱特征输入所述语音生成模型的内容编码器,得到内容特征;
将所述目标身份特征以及所述内容特征输入所述语音生成模型的解码器,得到目标语音;所述目标语音为与所述目标身份特征和所述内容特征对应的语音。
2.根据权利要求1所述的语音生成方法,其特征在于,所述确定所述待合成文本的梅尔频谱特征,包括:
采用预设的语音合成模型获取所述待合成文本对应的文本语音,并将所述文本语音的梅尔频谱特征确定为所述待合成文本的梅尔频谱特征。
3.根据权利要求1所述的语音生成方法,其特征在于,所述方法还包括:
获取多组第一语音样本,每组第一语音样本包括第一语音和第二语音;
确定所述每组第一语音样本的第一输入样本,所述第一输入样本包括所述第一语音的梅尔频谱特征和所述第二语音的梅尔频谱特征;
分别将所述第一语音的梅尔频谱特征和所述第二语音的梅尔频谱特征输入到预设的第一神经网络中,得到所述第一语音的第一预测身份特征以及所述第二语音的第二预测身份特征;
对于所述每组第一语音样本,确定所述第一预测身份特征与所述第二预测身份特征之间的身份特征差异度,得到所述多组第一语音样本的身份特征差异度;
根据所述多组第一语音样本的身份特征差异度对所述第一神经网络进行训练,得到所述身份编码器。
4.根据权利要求3所述的语音生成方法,其特征在于,所述根据所述多组第一语音样本的身份特征差异度对所述第一神经网络进行训练,得到所述身份编码器,包括:
在所述第一语音与所述第二语音对应于同一用户的情况下,当所述多组第一语音样本的身份特征差异度均小于或者等于第一预设阈值时,则确定得到所述身份编码器;
在所述第一语音与所述第二语音对应于不同用户的情况下,当所述多组第一语音样本的身份特征差异度均大于或者等于第二预设阈值,则确定得到所述身份编码器;其中,所述第二预设阈值大于所述第一预设阈值。
5.根据权利要求1所述的语音生成方法,其特征在于,所述方法还包括:
获取多组第二语音样本,每组第二语音样本包括第三语音以及第四语音;
确定所述每组第二语音样本的第二输入样本,所述第二输入样本包括所述第三语音的梅尔频谱特征和所述第四语音的梅尔频谱特征;
分别将所述第三语音的梅尔频谱特征和所述第四语音的梅尔频谱特征输入到预设的第二神经网络中,得到所述第三语音的第一预测内容特征以及所述第四语音的第二预测内容特征;
对于所述每组第二语音样本,确定所述第一预测内容特征与所述第二预测内容特征之间的内容特征差异度,得到所述多组第二语音样本的内容特征差异度;
根据所述多组第二语音样本的内容特征差异度对所述第二神经网络进行训练,得到所述内容编码器。
6.根据权利要求5所述的语音生成方法,其特征在于,所述根据所述多组第二语音样本的内容特征差异度对所述第二神经网络进行训练,得到所述内容编码器,包括:
在所述第三语音与所述第四语音对应于同一文本且所述第三语音与所述第四语音对应于不同用户的情况下,当所述多组第二语音样本的内容特征差异度均小于或者等于第三预设阈值时,则确定得到所述内容编码器;
在所述第三语音与所述第四语音对应于不同文本且所述第三语音与所述第四语音对应于不同用户的情况下,当所述多组第二语音样本的内容特征差异度均大于或者等于第四预设阈值时,则确定得到所述内容编码器;其中,所述第四预设阈值大于所述第三预设阈值。
7.一种语音生成装置,其特征在于,包括获取单元、确定单元以及生成单元;
所述获取单元,用于获取待合成文本以及目标用户语音;
所述确定单元,用于确定所述目标用户语音的梅尔频谱特征,并将所述目标用户语音的梅尔频谱特征输入预先训练得到的语音生成模型的身份编码器,得到目标身份特征;
所述确定单元,还用于确定所述待合成文本的梅尔频谱特征,并将所述待合成文本的梅尔频谱特征输入所述语音生成模型的内容编码器,得到内容特征;
所述生成单元,用于将所述目标身份特征以及所述内容特征输入所述语音生成模型的解码器,得到目标语音;所述目标语音为与所述目标身份特征和所述内容特征对应的语音。
8.一种电子设备,其特征在于,包括:处理器、用于存储所述处理器可执行的指令的存储器;其中,所述处理器被配置为执行指令,以实现所述权利要求1-6中任一项所述的语音生成方法。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1-6中任一项所述的语音生成方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,当所述计算机指令被处理器执行时,实现如权利要求1-6中任一项所述的语音生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210654618.4A CN115116426A (zh) | 2022-06-10 | 2022-06-10 | 语音生成方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210654618.4A CN115116426A (zh) | 2022-06-10 | 2022-06-10 | 语音生成方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115116426A true CN115116426A (zh) | 2022-09-27 |
Family
ID=83327128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210654618.4A Pending CN115116426A (zh) | 2022-06-10 | 2022-06-10 | 语音生成方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115116426A (zh) |
-
2022
- 2022-06-10 CN CN202210654618.4A patent/CN115116426A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10553201B2 (en) | Method and apparatus for speech synthesis | |
US11205417B2 (en) | Apparatus and method for inspecting speech recognition | |
WO2020073944A1 (zh) | 语音合成方法及设备 | |
JP2019200408A (ja) | 音声合成モデルを生成するための方法、及び装置 | |
CN108231062B (zh) | 一种语音翻译方法及装置 | |
WO2022178969A1 (zh) | 语音对话数据处理方法、装置、计算机设备及存储介质 | |
WO2021134591A1 (zh) | 语音合成方法、装置、终端及存储介质 | |
CN113314119B (zh) | 语音识别智能家居控制方法及装置 | |
CN114333865B (zh) | 一种模型训练以及音色转换方法、装置、设备及介质 | |
US10854182B1 (en) | Singing assisting system, singing assisting method, and non-transitory computer-readable medium comprising instructions for executing the same | |
WO2021227259A1 (zh) | 重音检测方法及装置、非瞬时性存储介质 | |
CN111354343B (zh) | 语音唤醒模型的生成方法、装置和电子设备 | |
WO2024055752A9 (zh) | 语音合成模型的训练方法、语音合成方法和相关装置 | |
Cao et al. | [Retracted] Optimization of Intelligent English Pronunciation Training System Based on Android Platform | |
JPWO2017146073A1 (ja) | 声質変換装置、声質変換方法およびプログラム | |
CN113837299A (zh) | 基于人工智能的网络训练方法及装置、电子设备 | |
JP7339151B2 (ja) | 音声合成装置、音声合成プログラム及び音声合成方法 | |
CN114067806A (zh) | 一种语音转换方法及相关设备 | |
JP6786065B2 (ja) | 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム | |
Johar | Paralinguistic profiling using speech recognition | |
CN113077783A (zh) | 小语种语音语料扩增方法、装置及电子设备和存储介质 | |
Tits et al. | The theory behind controllable expressive speech synthesis: A cross-disciplinary approach | |
JP2020013008A (ja) | 音声処理装置、音声処理プログラムおよび音声処理方法 | |
CN111599342A (zh) | 音色选择方法和选择系统 | |
CN113299270B (zh) | 语音合成系统的生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |