CN114495901A - 语音合成方法、装置、存储介质及电子设备 - Google Patents

语音合成方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN114495901A
CN114495901A CN202210179826.3A CN202210179826A CN114495901A CN 114495901 A CN114495901 A CN 114495901A CN 202210179826 A CN202210179826 A CN 202210179826A CN 114495901 A CN114495901 A CN 114495901A
Authority
CN
China
Prior art keywords
voice
target
speaker
encoder
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210179826.3A
Other languages
English (en)
Inventor
张楚雄
潘俊杰
殷翔
马泽君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youzhuju Network Technology Co Ltd
Original Assignee
Beijing Youzhuju Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youzhuju Network Technology Co Ltd filed Critical Beijing Youzhuju Network Technology Co Ltd
Priority to CN202210179826.3A priority Critical patent/CN114495901A/zh
Publication of CN114495901A publication Critical patent/CN114495901A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)

Abstract

本公开涉及一种语音合成方法、装置、存储介质及电子设备,包括:提取目标说话人语音的第一特征向量,并通过说话人特征提取网络在目标说话人语音中提取目标说话人声音特征;根据第一特征向量、目标说话人声音特征和目标说话人语音对第一解码器进行参数调整;通过参数调整后的第一解码器和第二编码器构建目标语音合成模型;将待合成文本和目标说话人声音特征输入目标语音合成模型以合成得到的目标语音。这样,无需完全依赖该说话人特征提取网络对已获得用户授权使用的该说话人声音特征进行提取的能力,也不会在根据已获得用户授权使用的目标说话人语音参数调整时将带噪的音质信息固化在语音合成系统中,保证了语音合成的稳定性和精度。

Description

语音合成方法、装置、存储介质及电子设备
技术领域
本公开涉及音频处理技术领域,具体地,涉及一种语音合成方法、装置、存储介质及电子设备。
背景技术
在语音合成领域,一般的应用场景下,合成需要大量的数据(5h以上)做支持才能有相对稳定的效果。对于大部分用户,按照严格的规范录制5h的数据是不现实的,并且对于常规用户来说,对自身语音进行合成时更关注于合成语音与自身语音在音色音调等方面的效果。如何在保障用户音色效果的情况下,尽可能增强语音合成系统本身的发音稳定性以及提升音质,是需要重点解决的问题。
现有的语音合成方案中通常需要绝对依赖于解耦能力极强的说话人特征提取网络,也即合成得到的语音与需要合成的已获得用户授权使用的目标说话人语音之间绝对依赖于说话人特征提取网络的能力,但现有技术中的说话人特征提取网络的能力并不能完全达到该场景下的需求;另外,还有语音合成方案会先通过已获得用户授权使用的目标说话人语音对预先训练好的语音合成系统进行再次训练,以实现合成音色上的效果,但由于语音合成系统的目的是需要合成带有音质信息的语音,因此若该已获得用户授权使用的目标说话人语音中带噪,训练得到的语音合成系统中也会包括该带噪的音质信息,从而导致后续根据文本合成的语音中都带噪的问题。
发明内容
提供该部分内容以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该部分内容并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
第一方面,本公开提供一种语音合成方法,所述方法包括:
获取目标说话人语音;
通过第一编码器提取所述目标说话人语音的第一特征向量,并通过说话人特征提取网络在所述目标说话人语音中提取目标说话人的目标说话人声音特征;
根据所述第一特征向量、所述目标说话人声音特征和所述目标说话人语音对第一解码器进行参数调整,其中,所述第一解码器为已经预先训练过的解码器;
通过所述参数调整后的第一解码器和第二编码器构建目标语音合成模型,所述第二编码器为预先训练得到;
将待合成文本和所述目标说话人声音特征输入目标语音合成模型以合成得到与所述目标说话人对应的目标语音。
第二方面,本公开提供一种语音合成装置,所述装置包括:
获取模块,用于获取目标说话人语音;
第一处理模块,用于通过第一编码器提取所述目标说话人语音的第一特征向量,并通过说话人特征提取网络在所述目标说话人语音中提取目标说话人的目标说话人声音特征;
第二处理模块,用于根据所述第一特征向量、所述目标说话人声音特征和所述目标说话人语音对第一解码器进行参数调整,其中,所述第一解码器为已经预先训练过的解码器;
第三处理模块,用于通过所述参数调整后的第一解码器和第二编码器构建目标语音合成模型,所述第二编码器为预先训练得到;
语音合成模块,用于将待合成文本和所述目标说话人声音特征输入目标语音合成模型以合成得到与所述目标说话人对应的目标语音。
第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现第一方面中实施例所述方法的步骤。
第四方面,本公开提供一种电子设备,包括:
存储装置,其上存储有至少一个计算机程序;
至少一个处理装置,用于执行所述存储装置中的所述至少一个计算机程序,以实现第一方面中实施例所述方法的步骤。
通过上述技术方案,在需要根据已获得用户授权使用的目标说话人自身的声音来生成与其对应的目标语音时,能够仅通过已获得用户授权使用的说话人语音和该第一编码器对语音合成模型中的该第一解码器进行参数调整,而不会对语音合成模型中的该第二编码器进行调整,从而便能够避免由于用于参数调整的已获得用户授权使用的说话人语音中带噪而导致的该带噪音质被固化在该目标语音合成模型中,进而避免通过该目标语音合成模型合成的所有目标语音中都带噪的问题,并且,由于能够在进行语音合成之前通过已获得用户授权使用的该说话人语音对该第一解码器进行参数调整,从而使得该目标语音的合成无需完全依赖该说话人特征提取网络对已获得用户授权使用的该说话人声音特征进行提取的能力,保证了根据在有限条件下能够提取得到的已获得用户授权使用的说话人声音特征进行语音合成的稳定性和精度。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。在附图中:
图1是根据本公开一示例性实施例示出的一种语音合成方法的流程图。
图2是根据本公开又一示例性实施例示出的一种语音合成方法的流程图。
图3是根据本公开又一示例性实施例示出的一种语音合成方法的流程图。
图4是根据本公开又一示例性实施例示出的一种语音合成方法中的模型结构示意图。
图5是根据本公开一示例性实施例示出的一种语音合成装置的结构框图。
图6是根据本公开又一示例性实施例示出的一种语音合成装置的结构框图。
图7示出了适于用来实现本公开实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由所有者给予授权的情况下进行的。本公开中所涉及的所有说话人语音、目标说话人语音、目标说话人语音的第一特征向量、目标说话人的目标说话人声音特征等也都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得所有者给予授权的情况下进行的。
图1是根据本公开一示例性实施例示出的一种语音合成方法的流程图。如图1所示,所述方法包括步骤101至步骤105。
在步骤101中,获取目标说话人语音。目标说话人可以是需要根据自身声音进行语音合成的用户,也可以是任意需要根据自身声音进行语音合成的说话人。无论该目标说话人如何确定都可,只要能够获取到该目标说话人的语音即可,其中,该目标说话人语音为已获得用户授权使用的语音。在该目标说话人是需要根据自身声音进行语音合成的用户时,该目标说话人语音可以是要求用户实时输入的一段语义,若不是,则可以将该目标说话人对应的任意一段自身的已获得用户授权使用的语音作为该目标说话人语音。
在步骤102中,通过第一编码器提取所述目标说话人语音的第一特征向量,并通过说话人特征提取网络在所述目标说话人语音中提取目标说话人的目标说话人声音特征。
该第一编码器也即深度学习模型中的encoder,在本公开中不对该第一编码器中的具体结构进行限定,只要能够实现该第一编码器需要实现的功能即可。该第一特征向量也即从已获得用户授权使用的该目标说话人语音中所提取得到的语音的特征向量。该第一编码器可以是通过任意方式预先训练得到的能够从语音中提取得到该语音的特征向量的编码器,本申请中对该编码器的具体训练方法不进行限定。
该说话人特征提取网络也即用于提取该目标说话人语音中与该目标说话人的声音有关的已获得用户授权使用的目标说话人声音特征的网络,该目标说话人声音特征与该目标说话人语音中的文本内容无关,仅与该目标说话人的例如说话的音色、音调等有关。也即,在一种可能的实施方式中,该目标说话人声音特征即可以为该目标说话人的音色特征和/或音调特征。
在步骤103中,根据所述第一特征向量、所述目标说话人声音特征和所述目标说话人语音对第一解码器进行参数调整,其中,所述第一解码器为已经预先训练过的解码器。
由于解码器是用于将中间特征解码回文本或语音的部分,因此,在根据所述第一特征向量、已获得用户授权使用的所述目标说话人声音特征和已获得用户授权使用的所述目标说话人语音对第一解码器进行参数调整时,可以将该第一特征向量、所述目标说话人声音特征作为该第一解码器的输入,并将该目标说话人语音作为该第一解码器的输出,以对该第一解码器进行训练,从而实现根据该目标说话人语音来对该第一解码器进行参数调整的效果。
若直接使用该从未见过说话人语音的、进行所述参数调整前的所述第一解码器,根据该目标说话人声音特征来对目标说话人对应的该目标语音进行合成,往往会由于该第一解码器未遇到与该目标说话人声音特征,因而所合成得到的目标语音的声音与已获得用户授权使用的目标说话人的声音往往相差较远。因此,通过根据所述第一特征向量、所述目标说话人声音特征和所述目标说话人语音对第一解码器进行参数调整,能够使得该第一解码器在根据已获得用户授权使用的目标说话人声音特征进行语音合成时达到语音合成的效果。
在步骤104中,通过所述参数调整后的第一解码器和第二编码器构建目标语音合成模型,所述第二编码器为预先训练得到的。
由于在对第一解码器进行参数调整时,所使用的第一编码器为提取语音的特征向量的编码器,而本方案所应用的语音合成场景是直接根据文本和目标说话人的声音来合成说话人并未说过的目标语音的应用场景,因此,在构建目标语音合成模型时,需要另外预先训练得到能够从文本中提取特征向量的编码器作为该第二编码器。在本公开中不对该第二编码器的具体构成以及训练方法进行限定,只要能够实现从文本中提取特征向量,以实现语音合成的目的即可。
在步骤105中,将待合成文本和所述目标说话人声音特征输入目标语音合成模型以合成得到与所述目标说话人对应的目标语音。
在一种可能的实施方式中,在该目标语音合成模型中,可以包括该第二编码器、该第一编码器和该第一解码器。由于该第一解码器是通过该第一编码器从语音中所提取得到的特征向量作为输入来训练得到,因此,在目标语音合成模型以合成得到与所述目标说话人对应的目标语音时,可以先通过该第二编码器从待合成文本中提取文本相关的特征向量,并通过常规训练得到的第二解码器合成得到任意类型、只要与该待合成文本对应的语音,进而通过该第一编码器从该待合成文本对应的语音中提取得到相关的特征向量,最后与已获得用户授权使用的该目标说话人声音特征一同输入该第一解码器以得到该目标语音。
但本公开中对该目标语音合成模型中的具体构成不进行限制,只要能够通过该第二编码器和第一解码器来根据该待合成文本和已获得用户授权使用的目标说话人声音特征生成该目标说话人对应的目标语音即可。
通过上述技术方案,在需要根据已获得用户授权使用的目标说话人自身的声音来生成与其对应的目标语音时,能够仅通过已获得用户授权使用的说话人语音和该第一编码器对语音合成模型中的该第一解码器进行参数调整,而不会对语音合成模型中的该第二编码器进行调整,从而便能够避免由于用于参数调整的已获得用户授权使用的说话人语音中带噪而导致的该带噪音质被固化在该目标语音合成模型中,进而避免通过该目标语音合成模型合成的所有目标语音中都带噪的问题,并且,由于能够在进行语音合成之前通过已获得用户授权使用的该说话人语音对该第一解码器进行参数调整,从而使得该目标语音的合成无需完全依赖该说话人特征提取网络对已获得用户授权使用的该说话人声音特征进行提取的能力,保证了根据在有限条件下能够提取得到的已获得用户授权使用的说话人声音特征进行语音合成的稳定性和精度。
图2是根据本公开又一示例性实施例示出的一种语音合成方法的流程图。如图2所示,所述方法还包括步骤201至步骤203。
在步骤201中,获取用户输入的选择指令,所述选择指令用于表征用户想要合成的语音风格。
在步骤202中,根据所述选择指令在预先训练好的至少一个所述第二编码器中确定目标第二编码器。
在步骤203中,通过所述参数调整后的第一解码器和所述目标第二编码器构建目标语音合成模型。
也即,可以预先训练多个分别对应不同语音风格的该第二编码器,用户在需要根据自身的声音进行语音合成之前,还可以根据需求选择想要的语音风格,该语音风格可以是例如欢快地、深情的、俏皮的等任意预先定义好的语音风格,通过根据该预先定义好的语音风格来准备相关风格的训练数据对该第二编码器进行训练,即可得到与各种语音风格分别对应的各个第二编码器。
在用户选定需要合成的语音的语音风格之后,选取对应的第二编码器作为该目标第二编码器与该参数调整后的第一解码器来构建该目标语音合成模型,即可实现合成该选择指令指示的语音风格的目标语音的效果。
在一种可能的实施方式中,所述第一编码器可以为语音识别模型中的编码器。所述语音识别模型为通过第一训练数据预先训练得到,所述第一训练数据中包括多组第一语音训练数据和多组分别与所述第一语音训练数据一一对应的第一文本训练数据,将所述第一语音训练数据作为所述语音识别模型的输入,并将所述第一文本训练数据作为所述语音识别模型的输出,以对所述语音识别模型进行训练。
在一种可能的实施方式中,所述第一解码器可以通过以下方式进行预先训练:确定第二训练数据,所述第二训练数据为多个第二语音训练数据,且包括多种语音风格;通过所述第一编码器分别提取每个第二语音训练数据的第二特征向量,并通过所述说话人特征提取网络分别提取每个第二语音训练数据中的训练数据说话人特征;将所述第二特征向量和所述训练数据说话人特征作为所述第一解码器的输入,并将所述第二语音训练数据作为所述第一解码器的输出,以对所述第一解码器进行预先训练。
在该第一编码器为该语音识别模型中的编码器的情况下,该第一编码器从语音中提取得到的特征向量,例如已获得用户授权使用的该目标说话人语音中的第一特征向量,是用于进行识别得到文本的特征向量,该特征向量与说话人相关性较弱,仅与需要识别得到的文本相关,且由于是从语音中提取得到,与语音的对应非常明确。因此,在根据该第一编码器提取得到的该第二语音训练数据的第二特征向量来对该第一解码器进行预先训练时,能够在一定程度上降低该第一解码器的训练难度,也即,该第一解码器在根据与语音明确对应的该第二特征向量来还原合成语音的训练难度,相对于根据从文本中提取得到的特征向量来合成语音的训练难度较低,更易于训练得到符合精度条件的该第一解码器。
由于根据用户的声音进行语音合成的场景下需要根据文本来合成语音,在根据上述实施例中的第一解码器的训练方法来对该第一解码器进行训练的情况下,可以如前述的一种实施例中所述,先通过该第二编码器结合通过大量训练数据预先训练得到的平均的解码器,将待合成文本合成与该目标说话人无关的语音后,再利用该第一编码器提取该与该目标说话人无关的语音中的特征向量,并通过该参数调整后的第一解码器根据已获得用户授权使用的目标说话人声音特征进行该目标语音的合成。但是,这一方案在语音合成的链路上过程过长,需要先经过语音合成,然后再进行特征向量的获取,最后再一次合成语音,会存在时延较慢的问题,且整体语音合成模型的稳定性也相对较差,因为无法保证在第一步中根据该待合成文本合成语音时的精度,仍然可能会由于该第二编码器和该平均的解码器在训练时的训练数据的问题,导致合成得到的与该目标说话人无关的语音中包含了噪声。
为了解决上述方案中的问题,可以通过以下方式来对该第二编码器进行预先训练:确定第三训练数据,所述第三训练数据中包括多组第三语音训练数据和多组分别与所述第三语音训练数据一一对应的第三文本训练数据;通过所述第一编码器提取所述第三语音训练数据的第三特征向量;将所述第三文本训练数据作为所述第二编码器的输入,并将所述第三特征向量作为所述第二编码器的输出,以对所述第二编码器进行预先训练。也即,通过将该第一编码器从语音中提取得到的特征向量作为监督向量的方式来对该第二编码器进行训练,从而使得该第二编码器能够直接从文本数据中提取得到该第一解码器所需要的特征向量,仅通过该第一解码器的一次合成即可得到该目标语音,缩短了语音合成的链路,也避免了上述方案中多次合成引入二次误差的可能,进一步保障了本公开中语音合成模型的稳定性。
图3是根据本公开又一示例性实施例示出的一种语音合成方法的流程图。如图3所示,在该第二编码器通过上述实施例中所述的方法进行预先训练的情况下,所述方法还可以包括步骤301和步骤302。
在步骤301中,将所述待合成文本输入所述目标语音合成模型中的所述第二编码器以得到第四特征向量。
在步骤302中,将所述第四特征向量和所述目标说话人声音特征输入所述目标语音合成模型中的经过所述参数调整后的第一解码器,以得到与所述目标说话人对应的所述目标语音。
该第四特征向量也即相当于通过该第一编码器从根据该待合成文本进行第一次语音合成得到的与该目标说话人无关的语音中提取得到的特征向量,从而能够直接作为该第一解码器的输入,以得到与所述目标说话人对应的所述目标语音。
图4是根据本公开又一示例性实施例示出的一种语音合成方法中的模型结构示意图。如图4所示,虚线框中所示模型结构用于根据目标说话人语音403对该语音合成模型407中的该第一解码器406进行参数调整,点线框中所示模型结构用于根据该待合成文本409合成该目标语音411。其中,所述第一编码器401属于该语音识别模型402,能够从目标说话人语音403中提取得到第一特征向量404,该第一特征向量404用于与通过说话人特征提取网络(未示出)提取得到的目标说话人声音特征405共同输入该第一解码器406中,并将该目标说话人语音403作为该第一解码器406的输出以对该第一解码器406进行有监督的训练,实现根据该目标说话人语音403对该第一解码器406进行的参数调整。该第一解码器406也即该语音合成模型407中的解码器,在上述训练结束后,通过该语音合成模型407中的第二编码器408,直接从待合成文本409中提取该第四特征向量410,由于该第二编码器408是经过将该第一编码器401的输出作为监督特征进行训练得到,因此该第四特征向量410可以直接作为该第一解码器406的输入,第一解码器406根据该第四特征向量410和目标说话人声音特征405便可以直接合成与该待合成文本和目标说话人对应的目标语音411。
图5是根据本公开一示例性实施例示出的一种语音合成装置的结构框图。如图5所示,所述装置包括:获取模块10,用于获取目标说话人语音;第一处理模块20,用于通过第一编码器提取所述目标说话人语音的第一特征向量,并通过说话人特征提取网络在所述目标说话人语音中提取目标说话人的目标说话人声音特征;第二处理模块30,用于根据所述第一特征向量、所述目标说话人声音特征和所述目标说话人语音对第一解码器进行参数调整,其中,所述第一解码器为已经预先训练过的解码器;第三处理模块40,用于通过所述参数调整后的第一解码器和第二编码器构建目标语音合成模型,所述第二编码器为预先训练得到;语音合成模块50,用于将待合成文本和所述目标说话人声音特征输入目标语音合成模型以合成得到与所述目标说话人对应的目标语音。
通过上述技术方案,在需要根据已获得用户授权使用的目标说话人自身的声音来生成与其对应的目标语音时,能够仅通过已获得用户授权使用的说话人语音和该第一编码器对语音合成模型中的该第一解码器进行参数调整,而不会对语音合成模型中的该第二编码器进行调整,从而便能够避免由于用于参数调整的已获得用户授权使用的说话人语音中带噪而导致的该带噪音质被固化在该目标语音合成模型中,进而避免通过该目标语音合成模型合成的所有目标语音中都带噪的问题,并且,由于能够在进行语音合成之前通过已获得用户授权使用的该说话人语音对该第一解码器进行参数调整,从而使得该目标语音的合成无需完全依赖该说话人特征提取网络对已获得用户授权使用的该说话人声音特征进行提取的能力,保证了根据在有限条件下能够提取得到的已获得用户授权使用的说话人声音特征进行语音合成的稳定性和精度。
图6是根据本公开又一示例性实施例示出的一种语音合成装置的结构框图。如图6所示,所述获取模块还用于:获取用户输入的选择指令,所述选择指令用于表征用户想要合成的语音风格;所述装置还包括:第四处理模块60,用于根据所述选择指令在预先训练好的至少一个所述第二编码器中确定目标第二编码器;所述第三处理模块40还用于:通过所述再训练的第一解码器和所述目标第二编码器构建目标语音合成模型。
在一种可能的实施方式中,所述第一编码器为语音识别模型中的编码器,所述语音识别模型为通过第一训练数据预先训练得到,所述第一训练数据中包括多组第一语音训练数据和多组分别与所述第一语音训练数据一一对应的第一文本训练数据,将所述第一语音训练数据作为所述语音识别模型的输入,并将所述第一文本训练数据作为所述语音识别模型的输出,以对所述语音识别模型进行训练。
在一种可能的实施方式中,所述第一解码器通过以下方式进行预先训练:确定第二训练数据,所述第二训练数据为多个第二语音训练数据,且包括多种语音风格;通过所述第一编码器分别提取每个第二语音训练数据的第二特征向量,并通过所述说话人特征提取网络分别提取每个第二语音训练数据中的训练数据说话人特征;将所述第二特征向量和所述训练数据说话人特征作为所述第一解码器的输入,并将所述第二语音训练数据作为所述第一解码器的输出,以对所述第一解码器进行预先训练。
在一种可能的实施方式中,所述第二编码器通过以下方式进行预先训练:确定第三训练数据,所述第三训练数据中包括多组第三语音训练数据和多组分别与所述第三语音训练数据一一对应的第三文本训练数据;通过所述第一编码器提取所述第三语音训练数据的第三特征向量;将所述第三文本训练数据作为所述第二编码器的输入,并将所述第三特征向量作为所述第二编码器的输出,以对所述第二编码器进行预先训练。
在一种可能的实施方式中,所述语音合成模块50还用于:将所述待合成文本输入所述目标语音合成模型中的所述第二编码器以得到第四特征向量;将所述第四特征向量和所述目标说话人声音特征输入所述目标语音合成模型中的经过所述参数调整后的第一解码器,以得到与所述目标说话人对应的所述目标语音。
在一种可能的实施方式中,所述目标说话人声音特征为所述目标说话人的音色特征和/或音调特征。
下面参考图7,其示出了适于用来实现本公开实施例的电子设备700的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图7所示,电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储装置708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有电子设备700操作所需的各种程序和数据。处理装置701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
通常,以下装置可以连接至I/O接口705:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置706;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置707;包括例如磁带、硬盘等的存储装置708;以及通信装置709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备700,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置709从网络上被下载和安装,或者从存储装置708被安装,或者从ROM 702被安装。在该计算机程序被处理装置701执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有至少一个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取目标说话人语音;通过第一编码器提取所述目标说话人语音的第一特征向量,并通过说话人特征提取网络在所述目标说话人语音中提取目标说话人的目标说话人声音特征;根据所述第一特征向量、所述目标说话人声音特征和所述目标说话人语音对第一解码器进行参数调整,其中,所述第一解码器为已经预先训练过的解码器;通过所述参数调整后的第一解码器和第二编码器构建目标语音合成模型,所述第二编码器为预先训练得到;将待合成文本和所述目标说话人声音特征输入目标语音合成模型以合成得到与所述目标说话人对应的目标语音。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述为“获取目标说话人语音的模块”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,示例1提供了一种语音合成方法,所述方法包括:获取目标说话人语音;通过第一编码器提取所述目标说话人语音的第一特征向量,并通过说话人特征提取网络在所述目标说话人语音中提取目标说话人的目标说话人声音特征;根据所述第一特征向量、所述目标说话人声音特征和所述目标说话人语音对第一解码器进行参数调整,其中,所述第一解码器为已经预先训练过的解码器;通过所述参数调整后的第一解码器和第二编码器构建目标语音合成模型,所述第二编码器为预先训练得到;将待合成文本和所述目标说话人声音特征输入目标语音合成模型以合成得到与所述目标说话人对应的目标语音。
根据本公开的一个或多个实施例,示例2提供了示例1的方法,所述方法还包括:获取用户输入的选择指令,所述选择指令用于表征用户想要合成的语音风格;根据所述选择指令在预先训练好的至少一个所述第二编码器中确定目标第二编码器;所述通过所述参数调整后的第一解码器和第二编码器构建目标语音合成模型包括:通过所述再训练的第一解码器和所述目标第二编码器构建目标语音合成模型。
根据本公开的一个或多个实施例,示例3提供了示例1的方法,所述第一编码器为语音识别模型中的编码器,所述语音识别模型为通过第一训练数据预先训练得到,所述第一训练数据中包括多组第一语音训练数据和多组分别与所述第一语音训练数据一一对应的第一文本训练数据,将所述第一语音训练数据作为所述语音识别模型的输入,并将所述第一文本训练数据作为所述语音识别模型的输出,以对所述语音识别模型进行训练。
根据本公开的一个或多个实施例,示例4提供了示例3的方法,所述第一解码器通过以下方式进行预先训练:确定第二训练数据,所述第二训练数据为多个第二语音训练数据,且包括多种语音风格;通过所述第一编码器分别提取每个第二语音训练数据的第二特征向量,并通过所述说话人特征提取网络分别提取每个第二语音训练数据中的训练数据说话人特征;将所述第二特征向量和所述训练数据说话人特征作为所述第一解码器的输入,并将所述第二语音训练数据作为所述第一解码器的输出,以对所述第一解码器进行预先训练。
根据本公开的一个或多个实施例,示例5提供了示例3的方法,所述第二编码器通过以下方式进行预先训练:确定第三训练数据,所述第三训练数据中包括多组第三语音训练数据和多组分别与所述第三语音训练数据一一对应的第三文本训练数据;通过所述第一编码器提取所述第三语音训练数据的第三特征向量;将所述第三文本训练数据作为所述第二编码器的输入,并将所述第三特征向量作为所述第二编码器的输出,以对所述第二编码器进行预先训练。
根据本公开的一个或多个实施例,示例6提供了示例5的方法,所述将待合成文本和所述目标说话人声音特征输入目标语音合成模型以合成得到与所述目标说话人对应的目标语音包括:将所述待合成文本输入所述目标语音合成模型中的所述第二编码器以得到第四特征向量;将所述第四特征向量和所述目标说话人声音特征输入所述目标语音合成模型中的经过所述参数调整后的第一解码器,以得到与所述目标说话人对应的所述目标语音。
根据本公开的一个或多个实施例,示例7提供了示例1的方法,所述目标说话人声音特征为所述目标说话人的音色特征和/或音调特征。
根据本公开的一个或多个实施例,示例8提供了一种语音合成装置,所述装置包括:获取模块,用于获取目标说话人语音;第一处理模块,用于通过第一编码器提取所述目标说话人语音的第一特征向量,并通过说话人特征提取网络在所述目标说话人语音中提取目标说话人的目标说话人声音特征;第二处理模块,用于根据所述第一特征向量、所述目标说话人声音特征和所述目标说话人语音对第一解码器进行参数调整,其中,所述第一解码器为已经预先训练过的解码器;第三处理模块,用于通过所述参数调整后的第一解码器和第二编码器构建目标语音合成模型,所述第二编码器为预先训练得到;语音合成模块,用于将待合成文本和所述目标说话人声音特征输入目标语音合成模型以合成得到与所述目标说话人对应的目标语音。
根据本公开的一个或多个实施例,示例9提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现示例1-7中任一项所述方法的步骤。
根据本公开的一个或多个实施例,示例10提供了一种电子设备,包括:存储装置,其上存储有至少一个计算机程序;至少一个处理装置,用于执行所述存储装置中的所述至少一个计算机程序,以实现示例1-7中任一项所述方法的步骤。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

Claims (10)

1.一种语音合成方法,其特征在于,所述方法包括:
获取目标说话人语音;
通过第一编码器提取所述目标说话人语音的第一特征向量,并通过说话人特征提取网络在所述目标说话人语音中提取目标说话人的目标说话人声音特征;
根据所述第一特征向量、所述目标说话人声音特征和所述目标说话人语音对第一解码器进行参数调整,其中,所述第一解码器为已经预先训练过的解码器;
通过所述参数调整后的第一解码器和第二编码器构建目标语音合成模型,所述第二编码器为预先训练得到;
将待合成文本和所述目标说话人声音特征输入目标语音合成模型以合成得到与所述目标说话人对应的目标语音。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取用户输入的选择指令,所述选择指令用于表征用户想要合成的语音风格;
根据所述选择指令在预先训练好的至少一个所述第二编码器中确定目标第二编码器;
所述通过所述参数调整后的第一解码器和第二编码器构建目标语音合成模型包括:通过所述再训练的第一解码器和所述目标第二编码器构建目标语音合成模型。
3.根据权利要求1所述的方法,其特征在于,所述第一编码器为语音识别模型中的编码器,所述语音识别模型为通过第一训练数据预先训练得到,所述第一训练数据中包括多组第一语音训练数据和多组分别与所述第一语音训练数据一一对应的第一文本训练数据,将所述第一语音训练数据作为所述语音识别模型的输入,并将所述第一文本训练数据作为所述语音识别模型的输出,以对所述语音识别模型进行训练。
4.根据权利要求3所述的方法,其特征在于,所述第一解码器通过以下方式进行预先训练:
确定第二训练数据,所述第二训练数据为多个第二语音训练数据,且包括多种语音风格;
通过所述第一编码器分别提取每个第二语音训练数据的第二特征向量,并通过所述说话人特征提取网络分别提取每个第二语音训练数据中的训练数据说话人特征;
将所述第二特征向量和所述训练数据说话人特征作为所述第一解码器的输入,并将所述第二语音训练数据作为所述第一解码器的输出,以对所述第一解码器进行预先训练。
5.根据权利要求3所述的方法,其特征在于,所述第二编码器通过以下方式进行预先训练:
确定第三训练数据,所述第三训练数据中包括多组第三语音训练数据和多组分别与所述第三语音训练数据一一对应的第三文本训练数据;
通过所述第一编码器提取所述第三语音训练数据的第三特征向量;
将所述第三文本训练数据作为所述第二编码器的输入,并将所述第三特征向量作为所述第二编码器的输出,以对所述第二编码器进行预先训练。
6.根据权利要求5所述的方法,其特征在于,所述将待合成文本和所述目标说话人声音特征输入目标语音合成模型以合成得到与所述目标说话人对应的目标语音包括:
将所述待合成文本输入所述目标语音合成模型中的所述第二编码器以得到第四特征向量;
将所述第四特征向量和所述目标说话人声音特征输入所述目标语音合成模型中的经过所述参数调整后的第一解码器,以得到与所述目标说话人对应的所述目标语音。
7.根据权利要求1所述的方法,其特征在于,所述目标说话人声音特征为所述目标说话人的音色特征和/或音调特征。
8.一种语音合成装置,其特征在于,所述装置包括:
获取模块,用于获取目标说话人语音;
第一处理模块,用于通过第一编码器提取所述目标说话人语音的第一特征向量,并通过说话人特征提取网络在所述目标说话人语音中提取目标说话人的目标说话人声音特征;
第二处理模块,用于根据所述第一特征向量、所述目标说话人声音特征和所述目标说话人语音对第一解码器进行参数调整,其中,所述第一解码器为已经预先训练过的解码器;
第三处理模块,用于通过所述参数调整后的第一解码器和第二编码器构建目标语音合成模型,所述第二编码器为预先训练得到;
语音合成模块,用于将待合成文本和所述目标说话人声音特征输入目标语音合成模型以合成得到与所述目标说话人对应的目标语音。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储装置,其上存储有至少一个计算机程序;
至少一个处理装置,用于执行所述存储装置中的所述至少一个计算机程序,以实现权利要求1-7中任一项所述方法的步骤。
CN202210179826.3A 2022-02-25 2022-02-25 语音合成方法、装置、存储介质及电子设备 Pending CN114495901A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210179826.3A CN114495901A (zh) 2022-02-25 2022-02-25 语音合成方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210179826.3A CN114495901A (zh) 2022-02-25 2022-02-25 语音合成方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN114495901A true CN114495901A (zh) 2022-05-13

Family

ID=81484380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210179826.3A Pending CN114495901A (zh) 2022-02-25 2022-02-25 语音合成方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN114495901A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114822492A (zh) * 2022-06-28 2022-07-29 北京达佳互联信息技术有限公司 语音合成方法及装置、电子设备、计算机可读存储介质
WO2024108071A1 (en) * 2022-11-17 2024-05-23 Google Llc End-to-end segmentation in a two-pass cascaded encoder automatic speech recognition model

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114822492A (zh) * 2022-06-28 2022-07-29 北京达佳互联信息技术有限公司 语音合成方法及装置、电子设备、计算机可读存储介质
CN114822492B (zh) * 2022-06-28 2022-10-28 北京达佳互联信息技术有限公司 语音合成方法及装置、电子设备、计算机可读存储介质
WO2024108071A1 (en) * 2022-11-17 2024-05-23 Google Llc End-to-end segmentation in a two-pass cascaded encoder automatic speech recognition model

Similar Documents

Publication Publication Date Title
CN111933110B (zh) 视频生成方法、生成模型训练方法、装置、介质及设备
CN111402855B (zh) 语音合成方法、装置、存储介质和电子设备
CN111583900B (zh) 歌曲合成方法、装置、可读介质及电子设备
CN111583903B (zh) 语音合成方法、声码器训练方法、装置、介质及电子设备
CN111899719A (zh) 用于生成音频的方法、装置、设备和介质
CN111798821B (zh) 声音转换方法、装置、可读存储介质及电子设备
CN113257218B (zh) 语音合成方法、装置、电子设备和存储介质
CN111369971A (zh) 语音合成方法、装置、存储介质和电子设备
CN112489621B (zh) 语音合成方法、装置、可读介质及电子设备
CN111597825B (zh) 语音翻译方法、装置、可读介质及电子设备
CN111883107B (zh) 语音合成、特征提取模型训练方法、装置、介质及设备
CN113205793B (zh) 音频生成方法、装置、存储介质及电子设备
CN114495901A (zh) 语音合成方法、装置、存储介质及电子设备
CN112927674A (zh) 语音风格的迁移方法、装置、可读介质和电子设备
CN114554238A (zh) 直播语音同传方法、装置、介质及电子设备
CN111369968B (zh) 语音合成方法、装置、可读介质及电子设备
CN111785247A (zh) 语音生成方法、装置、设备和计算机可读介质
CN112785669A (zh) 一种虚拟形象合成方法、装置、设备及存储介质
CN114765025A (zh) 语音识别模型的生成方法、识别方法、装置、介质及设备
CN114429658A (zh) 人脸关键点信息获取方法、生成人脸动画的方法及装置
CN116884402A (zh) 语音转文本的方法、装置、电子设备及存储介质
CN111862933A (zh) 用于生成合成语音的方法、装置、设备和介质
CN112382273A (zh) 用于生成音频的方法、装置、设备和介质
CN112382268A (zh) 用于生成音频的方法、装置、设备和介质
CN112652292A (zh) 用于生成音频的方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination