CN116052637A - 用于智能客服场景的语音合成模型训练方法、语音合成方法及装置、计算机可读存储介质 - Google Patents
用于智能客服场景的语音合成模型训练方法、语音合成方法及装置、计算机可读存储介质 Download PDFInfo
- Publication number
- CN116052637A CN116052637A CN202310068034.3A CN202310068034A CN116052637A CN 116052637 A CN116052637 A CN 116052637A CN 202310068034 A CN202310068034 A CN 202310068034A CN 116052637 A CN116052637 A CN 116052637A
- Authority
- CN
- China
- Prior art keywords
- speech synthesis
- phoneme
- training
- units
- synthesis model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 115
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 115
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000001308 synthesis method Methods 0.000 title claims abstract description 20
- 238000001228 spectrum Methods 0.000 claims abstract description 39
- 230000003044 adaptive effect Effects 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims description 35
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000006978 adaptation Effects 0.000 claims description 2
- 239000013598 vector Substances 0.000 description 27
- 230000007246 mechanism Effects 0.000 description 18
- 230000000694 effects Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 239000012141 concentrate Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请涉及用于智能客服场景的语音合成模型训练方法、语音合成方法及装置以及相应的计算机可读存储介质。按照本发明一个方面的用于智能客服场景的语音合成模型训练方法。该语音合成模型包括编码器、自适应器和解码器。该训练方法包括:将多个音素训练样本输入到编码器,获得多个编码建模单元;利用自适应器对多个编码建模单元进行样本要素预测,获得多个预测建模单元;将多个编码建模单元和多个预测建模单元输入到解码器,得到梅尔谱信息;以及基于梅尔谱信息和多个音素训练样本的预设梅尔谱信息,对语音合成模型进行训练,直到达到语音合成模型的训练条件为止。
Description
技术领域
本申请涉及语音合成领域,具体而言,涉及用于智能客服场景的语音合成模型训练方法、语音合成方法及装置以及计算机可读存储介质。
背景技术
目前的语音合成系统中,普遍使用注意力(attention)机制来处理编码后的建模单元。因为语音合成系统的输入和输出长度不对等,使用注意力机制会导致在长文本中将一些短输出(短文本、停顿等)跳过的情况,从而导致漏字。此外,此类语音合成系统对每个建模单元的合成和输出都需要基于前一输出的结果,于是依次合成和输出也导致了合成速率较慢。
发明内容
本申请的实施例提供了用于智能客服场景的语音合成模型训练方法、语音合成方法及装置以及计算机可读存储介质。
根据本申请的一方面,提供了一种用于智能客服场景的语音合成模型训练方法。该语音合成模型包括编码器、自适应器和解码器。该训练方法包括:将多个音素训练样本输入到编码器,获得多个编码建模单元;利用自适应器对多个编码建模单元进行样本要素预测,获得多个预测建模单元;将多个编码建模单元和多个预测建模单元输入到解码器,得到梅尔谱信息;以及基于梅尔谱信息和多个音素训练样本的预设梅尔谱信息,对语音合成模型进行训练,直到达到语音合成模型的训练条件为止。
在本申请的一些实施例中,可选地,,样本要素包括以下的一项或多项:持续时间信息、能量信息、基频F0信息、韵律信息、说话人信息。
在本申请的一些实施例中,可选地,样本要素预测先执行对持续时间信息的预测。
在本申请的一些实施例中,可选地,同时将多个音素训练样本输入到语音合成模型进行训练。
根据本申请的另一方面,提供了一种用于智能客服场景的语音合成方法。该语音合成方法包括:对待合成文本进行转换处理,以得到多个音素单元;将多个音素单元输入到语音合成模型中,得到多个音素单元的梅尔谱信息;以及对梅尔谱信息进行整合处理以得到与待合成文本对应的语音。其中,语音合成模型是根据前述任一实施例所描述的训练方法训练得到的。
在本申请的一些实施例中,可选地,转换处理包括分词、正则化、字素到音素(G2P)转换和多音字处理。
在本申请的一些实施例中,可选地,该方法还包括:对语音进行语速和音量调整。
在本申请的一些实施例中,可选地,该方法还包括:同时将多个音素单元输入到语音合成模型中进行处理。
根据本申请的又一方面,提供了一种用于智能客服场景的语音合成装置。该语音合成装置包括预处理器和语音合成模型。预处理器对待合成文本进行转换处理,以得到多个音素单元。语音合成模型包括:编码器,其接收多个音素单元作为输入,并输出多个编码建模单元;自适应器,其对多个编码建模单元进行要素预测,以获得多个预测建模单元;以及解码器,其接收多个编码建模单元和多个预测建模单元,并输出梅尔谱信息。其中,语音合成模型是根据前述任一实施例所描述的训练方法训练得到的。
在本申请的一些实施例中,可选地,该转换处理包括分词、正则化、字素到音素(G2P)转换和多音字处理。
在本申请的一些实施例中,可选地,语音合成装置还包括后端处理器,其对梅尔谱信息进行整合处理以得到与待合成文本对应的语音,并对语音信息进行语速和音量调整。
在本申请的一些实施例中,可选地,该语音合成装置同时将多个音素单元输入到语音合成模型中进行处理。
根据本申请的又一方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有指令,指令在被处理器执行时实行根据前述任一实施例所描述的训练方法;或者,指令在被处理器执行时实行根据前述任一实施例所描述的语音合成方法。
本申请通过在语音合成方法中将注意力机制替换为对多个建模单元进行同步的编解码和预测处理,提高了声学特征生成的速度,并避免了漏字情况的产生。在特别是智能客服场景中,提高了语音合成的响应速度和语音准确度,并因此提升了用户体验。
附图说明
从结合附图的以下详细说明中,将会使本申请的上述和其他目的及优点更加完整清楚,其中,相同或相似的要素采用相同的标号表示。
图1示出了根据本申请的一个实施例的用于智能客服场景的语音合成模型的训练方法100的流程图。
图2示出了根据本申请的一个实施例的用于智能客服场景的语音合成方法200的流程图。
图3示出了根据本申请的一个实施例的语音合成装置的架构示意图。
具体实施方式
出于简洁和说明性目的,本文主要参考其示范实施例来描述本申请的原理。但是,本领域技术人员将容易地认识到相同的原理可等效地应用于所有类型的语音合成方法及装置,并且可以在其中实施这些相同或相似的原理,任何此类变化不背离本申请的真实精神和范围。
诸如“包含”和“包括”之类的用语表示除了具有在说明书中有直接和明确表述的单元和步骤以外,本发明的技术方案也不排除具有未被直接或明确表述的其它单元和步骤的情形。
本文中说明的语音合成模型及相应的训练方法可以应用于具备模型训练功能的装置,如终端装置、服务器等(例如其应用程序中)。其中,终端装置具体可以为智能移动设备、计算机、个人数字助理(PDA)等;服务器具体可以为应用服务器,也可以为网页Web服务器(http/webscoket),在实际应用部署时,该服务器可以为独立服务器,也可以为集群服务器。
在实际应用中,终端装置和服务器可以各自独立地训练语音合成模型,也可以彼此交互协作地训练语音合成模型。在后者中,终端装置可以从服务器处获取用于训练的音素样本集,进而利用该样本集进行模型训练,得到语音合成模型;亦或是,服务器可以从终端处获取样本集,进而利用该样本集进行模型训练,得到语音合成模型。
可以理解的是,终端装置或服务器执行本申请实施例提供的语音合成模型以及相应的训练方法。可以在训练得到语音合成模型后,可以将该语音合成模型发送至其他终端装置,以在这些终端装置上运行上述语音合成模型,实现相应的功能;也可以将该语音合成模型发送至其他服务器,以在其他服务器上运行上述语音合成模型,通过这些服务器实现相应的功能。
在下文中,将参考附图详细地描述根据本发明的各示例性实施例。
图1示出了根据本申请的一个实施例的用于智能客服场景的语音合成模型的训练方法100的流程图。该语音合成模型典型地包括编码器、自适应器和解码器。在步骤102中,将多个音素训练样本输入到编码器,获得多个编码建模单元。在步骤104中,利用自适应器对多个编码建模单元进行样本要素预测,获得多个预测建模单元。在步骤106中,将多个编码建模单元和多个预测建模单元输入到解码器,得到梅尔谱信息。在步骤108中,基于梅尔谱信息和多个音素训练样本的预设梅尔谱信息,对语音合成模型进行训练,直到达到语音合成模型的训练条件为止。
本申请所述的语音合成模型训练例如可以通过pytorch来实现。在针对语音合成模型的训练流程中,先将用于训练的文本进行一系列前端处理(诸如分词、正则化等),得到与待合成文本对应的多个文本字素序列。每个文本字素序列可以包括诸如拼音、音节、声韵母、停顿、标点符号等的字素组合形式。模型通过查询词典库而调用与该字素组合形式对应的音素序列,该音素序列表征了各字素在词典中对应的音素索引信息。然后,进一步通过嵌入(embedding)处理而得到与音素序列相对应的音素训练样本,该音素训练样本使用一系列表征位置索引和各音素特征的高维向量来表示每个音素序列,以便于语音合成模型进行学习。嵌入处理可以例如使用对音素序列中的各种音素特征进行向量提取操作,以使得每个音素组合都转换为更高维的向量信息。
在前述处理之后,将该音素训练样本输入到编码器进行编码以得到编码建模单元,编码建模单元可以采用与音素训练样本相同形式的向量,并对该向量的维度依据关注点进行稠密浓缩而形成隐向量,以便减少语音合成模型的参数量。该编码器可以采用序列变换神经网络(例如Transformer、RNN、LSTM等)形式来对多个音素训练样本进行卷积变换和序列变换,以获得稠密向量信息。
然后,多个编码建模单元的每个编码建模单元都被输入到自适应器以进行预测处理,预测出每个编码建模单元对应的多个要素(例如时长、基频F0等)的预测值。在模型的训练过程中,可以独立计算每个音素训练样本的各个要素,并将各个要素的预测建模单元以及原编码输出(多个编码建模单元)整合,形成自适应输出而输出到解码器。解码器基于编码而决定相应音素训练样本的生成的梅尔谱信息。
最后,对经预测得到的梅尔谱信息和原多个音素训练样本的预设梅尔谱信息进行比较,并将比较后获得的损失函数(例如针对各个要素预测值的比较结果的总损失函数)反向传播到整个模型中的各个模块,以对语音合成模型进行训练,直到达到语音合成模型的训练条件为止。在此过程中,不断调整模型各个阶段/模块的参数设置。模型的训练条件诸如达到预设的收敛条件,该预设的收敛条件表征经预测得到的梅尔谱信息和原多个音素训练样本的预设梅尔谱信息的偏差程度是否在预设的阈值内,以反映训练结果是否与预设结果相同或大致相同,这反映了较好的训练效果。
在一些示例中,针对模型完成训练的条件,在模型训练过程前或过程中可以预先设定训练轮次和模型的损失函数的损失阈值。假设模型的损失一直高于预设的损失阈值,则在完成所有轮次的训练后选择损失最小的模型作为最终保存的模型;假设损失函数在模型训练中一直小于预设的损失阈值,则在所有轮次训练结束后再进行一定数量的轮次训练(例如,5-10轮)后,选择其中损失最小的模型。可以理解,模型的训练完成条件和模型选择不限于此,模型的选择也可以不仅基于损失指标,也可以在模型训练后期结合人工干预判断来选择。
在本训练方法中,移除了注意力机制而直接采用Transformer形式的编码器-解码器(encoder-decoder)架构对一个训练文本的多个音素训练样本同时并行进行预测和训练,因此解码器的输出不再需要基于前一帧的梅尔谱信息输出,这允许对多个音素训练样本的并行训练,相比于“一对多”的语音合成转换形式,本申请的训练流程使用的是“多对多”的训练输入和预测,这提高了训练流程的效率。在语音合成效果上,利用注意力机制可能导致对某些短文本、音素的忽略,因为注意力机制强调当前训练样本的上下文信息向量,在当前音素的前后音素较短或停顿时,经注意力机制的建模单元可能自动忽略该音素的处理,从而在语音合成效果上造成不期望的漏字、停顿等的问题。因而,在诸如人机对话的智能客服场景中,本申请的训练方法能够避免训练过程中的漏字问题,并加快合成语音输出速度。
在一些实施例中,自适应器的预测处理所针对的要素可以包括持续时间信息、能量信息、基频F0信息、韵律信息、说话人信息等。可以在自适应器中针对每个要素设置预测模块,并输出对应的预测要素结果。例如,针对持续时长,可以在持续时长预测模块中对每个编码建模单元的持续时长进行预测,从而输出对应的持续时长。针对多个要素进行预测提高了自适应器进行建模的细粒度,以便于语音合成模型能够学习到更多对的隐藏信息,增加了模型的泛化能力。特别是加入了韵律信息和说话人信息后,能够进一步针对不同说话人进行语音合成模型的训练和使用,并改善输出语音的韵律发音效果。
在一些实施例中,本申请的训练方法可以同时将对应训练文本的多个或所有音素训练样本输入到编码器,且并行进行自适应器的预测处理和解码器的训练,而取消对上下文向量的关注,从而不必在训练样本中分配注意力。因此,语音合成过程(特别是在解码器中)无需基于针对上一音素训练样本输出而进行当前音素样本训练的输出,模型因此可以同时并行处理多个音素训练样本,提高了语音合成的速度,并有益地避免了因为注意力机制带来的漏字问题。该模型在经训练后,在特别是实时进行的智能客服场景中能够有效解决对话响应速度慢、漏字的问题。
在一些实施例中,样本要素预测可以优选先执行对持续时间信息的预测。针对每个编码建模单元,先进行持续时间预测,以在确定持续时间后确定用于该建模单元的梅尔谱帧数。这更有利于其他要素的预测,例如,同一音素在不同的文本(例如,字素“ni2hao3”(你好)的“n”与字素“nin2hao3”(您好)的“n”持续时长不同,但基频F0可能相同)中可能基频F0并不相同,若不先经过持续时间预测而直接进行基频F0要素预测,则可能造成不同文本被预测为同一基频F0。
图2示出了根据本申请的一个实施例的用于智能客服场景的语音合成方法200的流程图。在步骤202中,对待合成文本进行转换处理,以得到多个音素单元。在步骤204中,将该多个音素单元输入到语音合成模型中,得到该多个音素单元的梅尔谱信息。在步骤206中,对该梅尔谱信息进行整合处理以得到与待合成文本对应的语音。其中,上述的语音合成模型是根据前述关于图1所描述的任一实施例的训练方法进行训练而得到的。
首先,将待合成文本输入到前端处理模块,以用于对文本进行一系列前端处理,得到与待合成文本对应的多个音素序列。这些前端处理典型地包括:分词,即将文本长句划分为短句和词的结构;字素到音素转换(G2P),其将待合成文本转成拼音、音节等的组合形式,再通过词典库映射成音素索引组合;多音词处理,针对汉字的多音字问题而进行区分。举例而言,每个文本字素序列可以包括诸如拼音、音节、声韵母、停顿、标点符号等的字素组合形式,模型通过查询词典库而调用与该字素组合形式对应的音素序列,该音素序列表征了各字素在词典中对应的音素索引信息。
然后,进一步通过嵌入(embedding)处理而得到与音素序列相对应的多个音素单元,该多个音素单元使用一系列表征位置索引和各音素特征的高维向量来表示每个音素序列,嵌入处理可以例如使用对音素序列中的各种音素特征进行向量提取操作,以使得每个音素组合都转换为更高维的向量信息。
在前述处理之后,接下来将该多个音素单元输入到语音合成模型的编码器进行编码以得到编码建模单元,编码建模单元可以采用与音素单元相同形式的向量,并对该向量的维度依据关注点进行稠密浓缩而形成隐向量,以便减少语音合成模型的参数量。该编码器可以采用序列变换神经网络(例如Transformer、RNN、LSTM等)形式来对多个音素单元进行卷积变换和序列变换,以获得稠密向量信息。
然后,多个编码建模单元的每个编码建模单元都被输入到自适应器以进行预测处理,预测出每个编码建模单元对应的多个要素(例如时长、基频F0等)的预测值。在合成过程中,可以独立计算每个音素单元的各个要素,并将各个要素的预测建模单元以及原编码输出(多个编码建模单元)整合,形成自适应输出而输出到解码器。解码器基于编码而决定相应音素单元的生成的梅尔谱信息。
最后,将梅尔谱信息输入到声码器进行整合和输出。在此过程中,还可以设置一些后端处理模块,以对所融合的语音进行语速、音量等调节,以进一步提升语音的播放效果。
在本语音合成方法中,移除了注意力机制而直接采用Transformer形式的编码器-解码器(encoder-decoder)架构对待合成文本的多个音素单元同时并行进行预测,因此解码器的输出不再需要基于前一帧的梅尔谱信息输出,这允许对多个音素单元的并行合成,相比于“一对多”的语音合成转换形式,本申请的合成流程使用的是“多对多”的语音合成输入、预测和输出,这提高了语音合成的速度。在语音合成效果上,利用注意力机制可能导致对某些短文本、音素的忽略,因为注意力机制强调当前音素单元的上下文信息向量,在当前音素单元的前后音素单元较短或停顿时,经注意力机制的建模单元可能自动忽略该音素单元的处理,从而在语音合成效果上造成不期望的漏字、停顿等的问题。因而,在诸如人机对话的强调语音输出速度和准确性的智能客服场景中,本申请的语音合成方法能够避免语音合成过程中的漏字问题,并提升了合成语音输出速度。
在一些实施例中,自适应器的预测处理所针对的要素可以包括持续时间信息、能量信息、基频F0信息、韵律信息、说话人信息等。可以在自适应器中针对每个要素设置预测模块,并输出对应的预测要素结果。例如,针对持续时长,可以在持续时长预测模块中对每个编码建模单元的持续时长进行预测,从而输出对应的持续时长。针对多个要素进行预测提高了自适应器进行建模的细粒度,以便于进一步针对不同说话人进行语音合成,并改善输出语音的韵律发音效果。
在一些实施例中,本申请的语音合成方法可以同时将对应待合成文本的多个或所有音素单元输入到编码器,且并行进行自适应器的预测处理和解码器的输出,而取消对上下文向量的关注,从而不必在各个音素单元中分配注意力。因此,语音合成过程(特别是在解码器中)无需基于针对上一音素单元输出而进行当前音素单元的输出,模型因此可以同时并行处理多个音素单元,提高了语音合成的速度,并有益地避免了因为注意力机制带来的漏字问题。将待合成文本输入本模型后,在特别是实时进行的智能客服场景中能够有效解决对话响应速度慢、漏字的问题。
在一些实施例中,要素预测可以优选先执行对持续时间信息的预测。针对每个编码建模单元,先进行持续时间预测,以在确定持续时间后确定用于该建模单元的梅尔谱帧数。这更有利于其他要素的预测,例如,同一音素在不同的文本(例如,字素“ni2hao3”(你好)的“n”与字素“nin2hao3”(您好)的“n”持续时间不同,但基频F0可能相同)中可能基频F0并不相同,若不先经过持续时间预测而直接进行基频F0要素预测,则可能造成不同文本被预测为同一基频F0。
图3示出了根据本申请的一个实施例的用于智能客服场景的语音合成装置及其架构示意图。如图3的左边部分所示,语音合成装置包括预处理器和语音合成模型。其中,语音合成模型包括编码器、自适应器和解码器,其根据图1的任一实施例的训练方法训练得到。
预处理器对待合成文本进行转换处理以得到多个音素单元。编码器接收多个音素单元作为输入,并输出多个编码建模单元。自适应器对多个编码建模单元进行要素预测,以获得多个预测建模单元。解码器接收多个编码建模单元和多个预测建模单元,并输出对应的梅尔谱信息。
预处理器用于对待合成文本进行一系列转换处理,得到与待合成文本对应的多个音素单元。这些转换处理典型地包括:分词,即将文本长句划分为短句和词的结构;字素到音素转换(G2P),其将待合成文本转成拼音、音节等的组合形式,再通过词典库映射成音素索引组合;多音词处理,针对汉字的多音字问题而进行区分。具体而言,每个文本字素序列可以包括诸如拼音、音节、声韵母、停顿、标点符号等的字素组合形式。模型通过查询词典库而调用与该字素组合形式对应的音素序列,该音素序列表征了各字素在词典中对应的音素索引信息。然后,预处理器进一步通过嵌入(embedding)处理(如图3中的音素嵌入所示)而得到与音素序列相对应的多个音素单元,该多个音素单元使用一系列表征位置索引和各音素特征的高维向量来表示每个音素序列,嵌入处理可以例如使用对音素序列中的各种音素特征进行向量提取操作,以使得每个音素组合都转换为更高维的向量信息。
编码器对该多个音素单元进行编码以得到编码建模单元,编码建模单元可以采用与音素单元相同形式的向量,并对该向量的维度依据关注点进行稠密浓缩而形成隐向量,以便减少语音合成模型的参数量。该编码器可以采用序列变换神经网络(例如Transformer、RNN、LSTM等)形式来对多个音素单元进行卷积变换和序列变换,以获得稠密向量信息。
图3的中间部分示出了根据一个实施例的自适应器架构。该自适应器通过多个预测模块对每个编码建模单元进行预测处理,预测出每个编码建模单元对应的多个要素(例如如图所示的持续时长、能量、基频F0和其他要素)的预测值。在合成过程中,可以独立计算每个音素单元的各个要素,并将各个要素的预测建模单元以及原编码输出(多个编码建模单元)整合,形成自适应输出而输出到解码器。优选地,可以先将每个编码建模单元输入到持续时长预测模块中对持续时长进行预测,该预测结果与该编码建模单元可以作为后续的能量预测模块、F0预测模块和其他要素预测模块的输入,以减小不同文本输入被预测为同一能量、F0等的情况。
解码器接收多个编码建模单元和多个预测建模单元,并输出梅尔谱信息,以基于编码而决定相应音素单元的生成的梅尔谱信息。然后梅尔谱信息可被解码器输出到声码器进行整合并输出语音。
在图3的右边部分中,示出了每个预测模块的具体神经网络架构,本申请的预测模块进一步增加了网络的层数,采用“Conv1D+ReLU”和“LN+Dropout”的五层卷积结构。
在本语音合成装置中,移除了注意力机制而直接采用Transformer形式的编码器-解码器(encoder-decoder)架构对待合成文本的多个音素单元同时并行进行预测,因此解码器的输出不再需要基于前一帧的梅尔谱信息输出,这允许对多个音素单元的并行合成,相比于“一对多”的语音合成转换形式,本申请的合成流程使用的是“多对多”的语音合成输入、预测和输出,这提高了语音合成的速度。在语音合成效果上,利用注意力机制可能导致对某些短文本、音素的忽略,因为注意力机制强调当前音素单元的上下文信息向量,在当前音素单元的前后音素单元较短或停顿时,经注意力机制的建模单元可能自动忽略该音素单元的处理,从而在语音合成效果上造成不期望的漏字、停顿等的问题。因而,在诸如人机对话的强调语音输出速度和准确性的智能客服场景中,本申请的语音合成装置能够避免语音合成过程中的漏字问题,并提升了合成语音输出速度。
在一些实施例中,还可以设置一些后端处理模块(例如后端处理器),其可以包括对上述的梅尔谱信息进行整合的声码器,并包括一些对所融合的语音进行语速、音量等调节的模块,以进一步提升语音的播放效果。
在一些实施例中,本申请的语音合成装置可以同时将对应待合成文本的多个或所有音素单元输入到预处理器和编码器,且并行进行自适应器的预测处理和解码器的输出,并取消了对上下文向量的关注,从而不必在各个音素单元中分配注意力。因此,语音合成过程(特别是在解码器中)无需基于针对上一音素单元输出而进行当前音素单元的输出,模型因此可以同时并行处理多个音素单元,提高了语音合成的速度,并有益地避免了因为注意力机制带来的漏字问题。将待合成文本输入本模型后,在特别是实时进行的智能客服场景中能够有效解决对话响应速度慢、漏字的问题。
根据本申请的另一方面,还提供一种计算机存储介质,其中存储有指令,当所述指令由处理器执行时,使得所述处理器执行如上文所述的任意一种语音合成模型训练方法100或语音合成方法200。本申请中所称的计算机介质包括各种类型的计算机存储介质,可以是通用或专用计算机能够存取的任何可用介质。举例而言,计算机介质可以包括RAM、ROM、EPROM、E2PROM、寄存器、硬盘、可移动盘、CD-ROM或其他光盘存储器、磁盘存储器或其他磁存储装置、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码单元并能够由通用或专用计算机、或者通用或专用处理器进行存取的任何其他临时性或者非临时性介质。在替换方案中,存储介质还可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此。本领域的技术人员可以根据本申请所披露的技术范围想到其他可行的变化或替换,此等变化或替换皆涵盖于本申请的保护范围之中。在不冲突的情况下,本申请的实施方式及实施方式中的特征还可以相互组合。本申请的保护范围以权利要求的记载为准。
Claims (13)
1.一种用于智能客服场景的语音合成模型训练方法,其特征在于,所述语音合成模型包括编码器、自适应器和解码器,所述训练方法包括:
将多个音素训练样本输入到所述编码器,获得多个编码建模单元;
利用所述自适应器对所述多个编码建模单元进行样本要素预测,获得多个预测建模单元;
将所述多个编码建模单元和所述多个预测建模单元输入到所述解码器,得到梅尔谱信息;以及
基于所述梅尔谱信息和所述多个音素训练样本的预设梅尔谱信息,对所述语音合成模型进行训练,直到达到所述语音合成模型的训练条件为止。
2.根据权利要求1所述的训练方法,其特征在于,所述样本要素包括以下的一项或多项:持续时间信息、能量信息、基频F0信息、韵律信息、说话人信息。
3.根据权利要求2所述的训练方法,其特征在于,所述样本要素预测先执行对持续时间信息的预测。
4.根据权利要求1所述的训练方法,其特征在于,同时将所述多个音素训练样本输入到所述语音合成模型进行训练。
5.一种用于智能客服场景的语音合成方法,其特征在于,包括:
对待合成文本进行转换处理,以得到多个音素单元;
将所述多个音素单元输入到语音合成模型中,得到所述多个音素单元的梅尔谱信息;以及
对所述梅尔谱信息进行整合处理以得到与所述待合成文本对应的语音,其中,所述语音合成模型是根据权利要求1-3中任一项所述的训练方法训练得到的。
6.根据权利要求5所述的语音合成方法,其特征在于,所述转换处理包括分词、正则化、字素到音素(G2P)转换和多音字处理。
7.根据权利要求5所述的语音合成方法,其特征在于,所述方法还包括:对所述语音进行语速和音量调整。
8.根据权利要求5所述的语音合成方法,其特征在于,所述方法还包括:同时将所述多个音素单元输入到所述语音合成模型中进行处理。
9.一种用于智能客服场景的语音合成装置,其特征在于,包括:
预处理器,其对待合成文本进行转换处理,以得到多个音素单元;以及
语音合成模型,其包括:
编码器,其接收所述多个音素单元作为输入,并输出多个编码建模单元;
自适应器,其对所述多个编码建模单元进行要素预测,以获得多个预测建模单元;以及
解码器,其接收所述多个编码建模单元和所述多个预测建模单元,并输出梅尔谱信息;
其中,所述语音合成模型是根据权利要求1-3中任一项所述的训练方法训练得到的。
10.根据权利要求9所述的语音合成装置,其特征在于,所述转换处理包括分词、正则化、字素到音素(G2P)转换和多音字处理。
11.根据权利要求9所述的语音合成装置,其特征在于,还包括后端处理器,其对所述梅尔谱信息进行整合处理以得到与所述待合成文本对应的语音,并对所述语音信息进行语速和音量调整。
12.根据权利要求9所述的语音合成装置,其特征在于,所述语音合成装置同时将所述多个音素单元输入到所述语音合成模型中进行处理。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有指令,所述指令在被处理器执行时实行根据权利要求1-4中的任一项所述的训练方法;或者,所述指令在被处理器执行时实行根据权利要求5-8中的任一项所述的语音合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310068034.3A CN116052637A (zh) | 2023-02-06 | 2023-02-06 | 用于智能客服场景的语音合成模型训练方法、语音合成方法及装置、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310068034.3A CN116052637A (zh) | 2023-02-06 | 2023-02-06 | 用于智能客服场景的语音合成模型训练方法、语音合成方法及装置、计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116052637A true CN116052637A (zh) | 2023-05-02 |
Family
ID=86116141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310068034.3A Pending CN116052637A (zh) | 2023-02-06 | 2023-02-06 | 用于智能客服场景的语音合成模型训练方法、语音合成方法及装置、计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116052637A (zh) |
-
2023
- 2023-02-06 CN CN202310068034.3A patent/CN116052637A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7108147B2 (ja) | 表現用エンドツーエンド音声合成における変分埋め込み容量 | |
Yu et al. | DurIAN: Duration Informed Attention Network for Speech Synthesis. | |
CN111754976B (zh) | 一种韵律控制语音合成方法、系统及电子装置 | |
EP4018437B1 (en) | Optimizing a keyword spotting system | |
CN112349289B (zh) | 一种语音识别方法、装置、设备以及存储介质 | |
CN113112995B (zh) | 词声学特征系统、词声学特征系统的训练方法及系统 | |
CN111785258B (zh) | 一种基于说话人特征的个性化语音翻译方法和装置 | |
CN113781995B (zh) | 语音合成方法、装置、电子设备及可读存储介质 | |
KR20230084229A (ko) | 병렬 타코트론: 비-자동회귀 및 제어 가능한 tts | |
US20240087558A1 (en) | Methods and systems for modifying speech generated by a text-to-speech synthesiser | |
EP4078571A1 (en) | A text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score | |
CN111816158A (zh) | 一种语音合成方法及装置、存储介质 | |
US20240169973A1 (en) | Method and device for speech synthesis based on multi-speaker training data sets | |
CN114582317B (zh) | 语音合成方法、声学模型的训练方法及装置 | |
KR20240122776A (ko) | 뉴럴 음성 합성의 적응 및 학습 | |
CN115240645B (zh) | 基于注意力重打分的流式语音识别方法 | |
CN113628608A (zh) | 语音生成方法、装置、电子设备及可读存储介质 | |
CN114974218A (zh) | 语音转换模型训练方法及装置、语音转换方法及装置 | |
CN116052637A (zh) | 用于智能客服场景的语音合成模型训练方法、语音合成方法及装置、计算机可读存储介质 | |
CN115359780A (zh) | 语音合成方法、装置、计算机设备及存储介质 | |
CN116168687B (zh) | 一种语音数据处理方法、装置、计算机设备及存储介质 | |
KR102426020B1 (ko) | 한 화자의 적은 음성 데이터로 감정 운율을 담은 음성 합성 방법 및 장치 | |
CN114913866A (zh) | 语音转换方法、装置、设备及存储介质 | |
CN115394284A (zh) | 语音合成方法、系统、设备及存储介质 | |
KR20240057182A (ko) | 음성인식 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |