CN113823256A - 自发式文本到语音(tts)合成 - Google Patents

自发式文本到语音(tts)合成 Download PDF

Info

Publication number
CN113823256A
CN113823256A CN202010566131.1A CN202010566131A CN113823256A CN 113823256 A CN113823256 A CN 113823256A CN 202010566131 A CN202010566131 A CN 202010566131A CN 113823256 A CN113823256 A CN 113823256A
Authority
CN
China
Prior art keywords
fluency
target text
text
information
reference factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010566131.1A
Other languages
English (en)
Inventor
张冉
栾剑
丛亚欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Priority to CN202010566131.1A priority Critical patent/CN113823256A/zh
Priority to EP21725308.7A priority patent/EP4169014A1/en
Priority to US17/926,994 priority patent/US20230206899A1/en
Priority to PCT/US2021/028516 priority patent/WO2021257177A1/en
Publication of CN113823256A publication Critical patent/CN113823256A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • G10L2013/105Duration

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了用于自发式文本到语音(TTS)合成的方法和装置。可以获得目标文本。可以至少基于所述目标文本来确定流利度参考因子。可以利用所述流利度参考因子来生成与所述目标文本对应的声学特征。可以基于所述声学特征来生成与所述目标文本对应的语音波形。

Description

自发式文本到语音(TTS)合成
背景技术
文本到语音(TTS)合成旨在基于文本输入来生成对应的语音波形。传统的端对端TTS系统可以基于文本输入来预测声学特征,并进而基于所预测的声学特征来生成语音波形。
发明内容
提供本发明内容以便介绍一组概念,这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征,也不旨在用于限制所保护主题的范围。
本公开的实施例提出了用于自发式TTS合成的方法和装置。可以获得目标文本。可以至少基于所述目标文本来确定流利度参考因子。可以利用所述流利度参考因子来生成与所述目标文本对应的声学特征。可以基于所述声学特征来生成与所述目标文本对应的语音波形。
应当注意,以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式,并且本公开旨在包括所有这些方面和其等同变换。
附图说明
以下将结合附图描述所公开的多个方面,这些附图被提供用以说明而非限制所公开的多个方面。
图1示出了示例性的传统端对端TTS系统。
图2示出了根据实施例的自发式TTS合成的示例性过程。
图3示出了根据实施例的用于生成自发式语音的示例性过程。
图4示出了根据实施例的自发式TTS合成的示例性实现。
图5示出了根据实施例的自发式TTS合成的示例性实现。
图6示出了根据实施例的流利度等级表示信息生成的示例性实现。
图7示出了根据实施例的准备训练数据的示例性过程。
图8示出了根据实施例的用于自发式TTS合成的示例性方法的流程图。
图9示出了根据实施例的用于自发式TTS合成的示例性装置。
图10示出了根据实施例的用于自发式TTS合成的示例性装置。
具体实施方式
现在将参考多种示例性实施方式来讨论本公开。应当理解,这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例,而并非教导对本公开的范围的任何限制。
传统的TTS系统通常被设计用于以与输入文本准确对应的方式且以固定的讲话风格来合成语音。传统语音合成的目标通常是对于不同的文本内容都能生成节奏稳定的、准确的且流利的语音话语。这种语音合成方式更适合于例如新闻朗读、故事讲述等场景。
然而,在现实生活中,人们更可能自发式地进行讲话,从而人们的话语并不总是流利的。特别是在对话场景中,人们讲述的话语经常包括由类似于“嗯(um)”、“啊(uh)”等词语导致的停顿,或者包括词语重复,例如“我,我认为”等。对于不同熟悉程度的话题,人们的话语也会表现出不同的流利度(fluency)。例如,对于熟悉的话题,人们讲话的速度通常更快,话语中较少出现停顿,或者话语中的停顿时间较短。当人们在谈论不熟悉的话题时,或者当人们在讲话中进行思考或对某些讲述内容不确定时,人们的话语中经常出现停顿、词语重复等。这种自发式地讲述的话语也可以被称为自发式语音。通常,当一个人产生自发式语音时,其可能并没有预先计划将要讲述什么内容,或者仅仅是直接地讲述出头脑中出现的内容。自发式语音一般会表现出流利度的多样性。由传统的TTS系统所合成的语音更像是非自发式语音,例如,以固定的流利度、机械地读出输入文本中的内容。
本公开的实施例提出了自发式TTS合成。根据本公开的实施例,可以在TTS合成中施加流利度控制,以便更好地模拟人类的自发式语音。可以利用流利度参考因子来对TTS系统中的声学模型施加流利度控制,以使得声学模型能够在考虑了流利度的情况下来生成声学特征。在一个方面,可以在语音合成中执行与流利度相关的调整。例如,在所合成的语音中可以被添加有停顿、词语重复等。在另一个方面,可以在语音合成中考虑与目标文本所属于的域相对应的预设流利度等级。例如,可以预先为不同的域配置各自的流利度等级,从而,所合成的语音也会对不同域中的文本而表现出流利度的多样性。
本公开的实施例可以生成自然的自发式语音,从而使得所合成的语音更像是人类真实的语音。因此,可以显著地提高TTS合成的性能并且有效地改善用户体验。本公开的实施例可以被应用于多种场景。例如,当将根据本公开实施例的TTS系统应用于为聊天机器人或虚拟人物产生语音时,聊天机器人或虚拟人物的语音可以针对不同的讲话内容而表现出不同的流利度,从而更接近于真实人类的讲话行为。此外,通过为聊天机器人或虚拟人物预先配置对于不同域的不同流利度等级,可以有效地增强聊天机器人或虚拟人物的个性化。
图1示出了示例性的传统端对端TTS系统100。
TTS系统100可以被配置为接收文本102,并且生成与文本102相对应的语音波形106。应当理解,尽管在图1中示出将文本102提供给TTS系统100,但是也可以首先对文本102执行文本处理,例如转换为音素序列,然后将该音素序列提供给TTS系统100作为输入。在本文中,所输入的“文本”可以广泛地指文本语句,或者从文本中获得的音素序列等。
TTS系统100可以包括声学模型110。声学模型110可以根据文本102来预测或生成声学特征104。声学特征104可以包括各种TTS声学特征,例如,梅尔谱、线性谱对(LSP)等。声学模型110可以基于各种模型架构。图1示出的示例性声学模型110可以基于例如Tacotron技术,其包括编码器112、注意力模块114和解码器116。
编码器112可以将文本102中包含的信息转换到更加鲁棒且更适于学习与声学特征的对准的空间中。例如,编码器112可以将文本102中的信息转换为该空间中的状态序列,其也可以被称为编码器状态或编码器状态序列。编码器状态序列中的每个状态对应于文本102中的一个音素、字素等。
注意力模块114可以实施注意力机制。该注意力机制在编码器112和解码器116之间建立连接,以有助于在编码器112所输出的文本特征与声学特征之间进行对准。例如,可以建立在每个解码步骤与编码器状态之间的连接,该连接可以指示每个解码步骤应当以什么权重对应于哪个编码器状态。注意力模块114可以将编码器状态序列和解码器的前一步骤的输出作为输入,并且生成注意力向量,该注意力向量表示下一解码步骤与每个编码器状态进行对准的权重。
解码器116可以在注意力模块114中的注意力机制的影响下,将编码器112所输出的编码器状态序列映射到声学特征104。在每一个解码步骤,解码器116可以将注意力模块114输出的注意力向量和解码器的前一步骤的输出作为输入,并且输出一个帧或多个帧的声学特征,例如梅尔谱。
TTS系统100可以包括声码器120。声码器120可以基于声学模型110所预测的声学特征104来生成语音波形106。
应当理解,图1仅仅给出了示例性的端对端TTS系统,还可能存在各种其它类型的TTS系统。例如,代替基于Tacotron技术的声学模型,声学模型110也可以基于任何其它技术,例如,长短期记忆(LSTM)网络、FastSpeech等。此外,声码器120也可以基于各种技术,例如,WaveNet、WageGlow等。
图2示出了根据实施例的自发式TTS合成的示例性过程200。假设过程200旨在生成与目标文本202对应的语音波形。目标文本202可以包括例如一个或多个字符、词语、语句等。
根据过程200,可以至少基于目标文本202来确定流利度参考因子204。在本文中,流利度参考因子可以指有助于在TTS合成中施加流利度控制的各种信息。
在一种实现方式中,流利度参考因子204可以包括流利度调整信息。流利度调整信息可以指用于控制所合成的语音以体现流利度的各种信息。语音的流利度可以体现在多个方面,例如,语音中的填充停顿(filled pause)、静默停顿(silence pause)、重复等。填充停顿可以指由填充词语所导致的停顿,例如由“嗯(um)”、“啊(uh)”等词语所导致的话语中的停顿。静默停顿可以指不包含声波信息的停顿,例如,在话语中出现的静默期。重复可以指话语中的特定词语的连续两次或多次出现,例如,话语“我,我认为”中的词语“我”被重复了两次。语音中的填充停顿、静默停顿、重复等将影响表达的连贯性、讲话的速度等,从而可以有效地反映流利度。流利度调整信息可以包括填充停顿指示信息、静默停顿指示信息、重复指示信息等中的至少一个。填充停顿指示信息可以指示如何在合成语音中插入填充停顿,静默停顿指示信息可以指示如何在合成语音中插入静默停顿,重复指示信息可以指示如何在合成语音中插入重复。通过在合成语音过程中基于流利度调整信息来插入填充停顿、静默停顿、重复等,可以实现有效的流利度控制。
在一种实现方式中,流利度参考因子204可以包括流利度等级表示信息。流利度等级表示信息是对与目标文本202所属于的域的流利度等级的表示,例如,在隐含空间中的嵌入表示。该流利度等级可以是预先配置的。以聊天机器人的应用场景为例,为了增强个性化,可以预先规定该聊天机器人对于不同域的熟悉程度,并且相应地设置流利度等级。对于熟悉程度较高的域,聊天机器人对该域中的内容的讲述流利度也较高。假设流利度等级包括从1到3的递增的三个等级,域“食物”的流利度等级为“1”,域“旅游”的流利度等级为“2”,域“历史”的流利度等级为“3”。例如,当聊天机器人的响应文本涉及域“历史”时,可以以最高的流利度来生成与该响应文本对应的语音,而当响应文本涉及域“食物”时,可以以最低的流利度来生成与该响应文本对应的语音。
在过程200中,可以至少利用流利度参考因子204来生成与目标文本202对应的声学特征。例如,可以采用声学模型210来生成声学特征。声学模型210可以是在至少考虑了流利度参考因子204的情况下来生成声学特征的。可以将该流利度参考因子204作为声学特征生成的条件,例如,作为声学模型210的条件输入。从而,以流利度参考因子204为条件的声学模型210可以实现在流利度参考因子204的影响下的声学特征生成。通过这种方式,所生成的声学特征将是被施加了流利度控制的声学特征。
声码器220可以基于声学模型210所输出的声学特征来生成与目标文本202对应的语音波形206。该语音波形206将体现出由前序处理所引入的特定的流利度,从而更好地接近人类的自发式语音。
以上仅仅给出了根据本公开实施例的自发式TTS合成的示例性过程,取决于具体的应用需求和设计,本公开的实施例可以涵盖对过程200的任意方式的变型、扩展和修改。例如,流利度参考因子204可以包括流利度调整信息和流利度等级表示信息中的任意一个或两者。例如,除了填充停顿指示信息、静默停顿指示信息、重复指示信息之外,流利度调整信息可以包括能够用于控制所合成的语音以体现流利度的各种其它信息。例如,在聊天机器人或虚拟人物的应用场景中,流利度等级可以是由聊天机器人或虚拟人物的运营方或者终端用户来配置的。
图3示出了根据实施例的用于生成自发式语音的示例性过程300。假设过程300旨在生成与目标文本302对应的语音波形。
在不同的应用场景中,目标文本302可能具有不同的含义。例如,在聊天机器人的应用场景中,目标文本302可以是与聊天机器人针对用户查询所生成的响应相对应的文本。例如,在虚拟人物的应用场景中,目标文本302可以是与虚拟人物所要说的话语相对应的文本。例如,在模拟特定真实人物的声音来合成演讲音频片段的应用场景中,目标文本302可以是与该演讲中的内容相对应的文本。
在310处,可以执行流利度调整信息预测处理,以至少基于目标文本302来预测流利度调整信息312。例如,可以通过预先建立的流利度调整预测器来预测流利度调整信息312。
在320处,可以执行域预测处理,以便预测与目标文本302相关联的域。例如,可以通过预先建立的域预测器来预测所述域。在一种情况下,可以基于目标文本302来预测与目标文本302相关联的域。在一种情况下,可以基于目标文本302的相关文本来预测与目标文本302相关联的域。例如,在自动聊天的应用场景中,该相关文本可以是与聊天机器人从用户处所接收的查询相对应的文本,此时,目标文本可以是与聊天机器人针对所述查询所生成的响应相对应的文本。在一种情况下,可以基于目标文本302和目标文本302的相关文本两者来预测与目标文本302相关联的域。过程300可以进而至少基于所预测的域来生成流利度等级表示信息。
在330处,可以执行流利度等级识别处理,以便从预定的域流利度等级配置中识别出与所预测的域对应的流利度等级。该域流利度等级配置可以包括为不同的域所预先设置的流利度等级。从而,可以通过将在320处所预测的域与该域流利度等级配置的匹配来识别出对应的流利度等级。
在340处,可以执行流利度等级表示信息生成处理,以便至少基于所识别的流利度等级来生成流利度等级表示信息342。例如,流利度等级表示信息342可以是至少利用流利度等级的嵌入表示来生成的。可选地,为了能够在比“域”更小粒度的话题层面考虑流利度等级,可以在生成流利度等级表示信息时进一步利用与目标文本302相关联的文本表示,其中,该文本表示可以在隐含空间中表征与目标文本302所涉及的话题相关的信息。与目标文本302相关联的文本表示可以包括例如对目标文本302和/或目标文本302的相关文本的表示。相应地,可以通过对流利度等级的嵌入表示和与目标文本302相关联的文本表示的组合来生成流利度等级表示信息342。
在一种实现方式中,在310处的流利度调整信息预测处理可以是进一步基于流利度等级表示信息342来执行的。从而,流利度调整信息312可以是在至少考虑了与目标文本302所属于的域相对应的流利度等级的情况下来生成的。
在过程300中,可以利用流利度调整信息312和/或流利度等级表示信息342来形成流利度参考因子。在350处,可以执行声学特征生成处理,以便可以利用流利度参考因子来生成声学特征。例如,可以通过以流利度参考因子为条件的声学模型来生成声学特征。
在360处,可以执行语音波形生成处理,以便基于在350处所获得的声学特征来生成与目标文本302对应的语音波形304。该语音波形304将是自发性语音。
应当理解,以上过程300中的所有处理都是示例性的,取决于具体的应用需求和设计,本公开的实施例可以涵盖对过程300的任意方式的改变。例如,在流利度参考因子仅包括流利度调整信息312的情况下,可以省略涉及生成流利度等级表示信息342的那些处理。例如,在流利度参考因子仅包括流利度等级表示信息342的情况下,可以省略涉及生成流利度调整信息312的那些处理。
图4示出了根据实施例的自发式TTS合成的示例性实现400。实现400是图3中的过程300的至少一部分的具体示例。在实现400中,语音合成是在流利度参考因子仅包括流利度调整信息的情况下来执行的。
可以获得目标文本402。实现400旨在针对目标文本402来生成语音波形。
目标文本402可以被提供给文本处理模块410。文本处理模块410可以将目标文本402中的字素序列转换为音素序列。
可以将音素序列提供给声学模型的编码器420,以便生成与音素序列对应的编码器状态,其也可以被称为目标文本的嵌入表示。
此外,可以将音素序列提供给语言模型430。语言模型430可以是例如预训练的BERT模型,以用于提取文本的内在语义关系并生成语义表示。
流利度调整预测器440可以基于语言模型430输出的语义表示和编码器420输出的编码器状态来预测流利度调整信息。该流利度调整信息可以包括例如填充停顿指示信息、静默停顿指示信息、重复指示信息等。填充停顿指示信息可以指示在例如每个字符、音素等之后是否添加填充停顿,静默停顿指示信息可以指示在例如每个字符、音素等之后是否添加静默停顿,重复指示信息可以指示在例如每个字符、音素等之后是否进行重复。在一种实现方式中,流利度调整预测器440可以是多分类任务预测器,其可以预测填充停顿指示信息、静默停顿指示信息和重复指示信息中的两个或多个。在这种情况下,流利度调整预测器440可以是基于例如DNN、LSTM等来构建的。在一种实现方式中,流利度调整预测器440可以包括多个单分类任务预测器,以便分别预测填充停顿指示信息、静默停顿指示信息和重复指示信息。流利度调整信息可以被提供给声学模型以作为条件。
在450处,可以对流利度调整信息与编码器420的输出进行组合,以便获得组合嵌入表示。在450处可以采用任意组合方式,例如级联、叠加等。
组合嵌入表示可以被提供给声学模型的注意力模块460。进而,声学模型的解码器470可以在注意力模块460提供的注意力机制下生成与目标文本402对应的声学特征。
声码器480可以基于声学模型所输出的声学特征来生成与目标文本402对应的语音波形404。
应当理解,实现400中的任何过程、模块等都是示例性的,取决于具体的应用需求和设计,本公开的实施例可以涵盖对实现400的任意方式的修改。例如,尽管在实现400中采用文本处理模块410将目标文本转换为对应的音素序列,但是在编码器420支持直接对文本或文本的字素进行处理的情况下,也可以省略文本处理模块410。此外,尽管实现400部分地采用了基于Tacotron技术的网络架构,但是应当理解,本公开的实施例也可以以类似的方式而被应用于任何其它类型的架构。此外,应当理解,实现400中所涉及的所有或部分模块可以被视为构成了根据本公开实施例的用于自发式TTS合成的TTS系统的一个示例。
图5示出了根据实施例的自发式TTS合成的示例性实现500。实现500是图3中的过程300的至少一部分的具体示例,其也可以被视为是对图4的实现400的进一步改进。在实现500中,语音合成是在流利度参考因子包括流利度调整信息和流利度等级表示信息两者的情况下来执行的。在图5与图4中的相同参考标号表示相同或类似的处理或模块。
可以获得目标文本402的相关文本502。流利度等级表示信息生成模块510可以基于目标文本402和相关文本502来生成流利度等级表示信息。该流利度等级表示信息可以被提供给声学模型以作为进一步的条件。
在实现500中,流利度调整信息可以是进一步基于流利度等级表示信息来预测的。例如,流利度调整预测器540可以基于语言模型430输出的语义表示、编码器420输出的编码器状态以及流利度等级表示信息生成模块510输出的流利度等级表示信息来预测流利度调整信息。
在550处,可以对流利度调整预测器540所输出的流利度调整信息、流利度等级表示信息生成模块510所输出的流利度等级表示信息以及编码器420的输出进行组合,以便获得组合嵌入表示。在550处可以采用任意组合方式,例如级联、叠加等。该组合嵌入表示可以被进而用于后续的声学特征生成。
在实现500中,流利度控制不仅考虑了流利度调整信息,还考虑了流利度等级表示信息。应当理解,实现500中的任何过程、模块等都是示例性的,取决于具体的应用需求和设计,本公开的实施例可以涵盖对实现500的任意方式的修改。例如,尽管在实现500中流利度等级表示信息生成模块510是基于目标文本402和相关文本502两者来生成流利度等级表示信息的,但是流利度等级表示信息生成模块510也可以仅基于目标文本402和相关文本502中的一个来生成流利度等级表示信息。此外,应当理解,实现500中所涉及的所有或部分模块可以被视为构成了根据本公开实施例的用于自发式TTS合成的TTS系统的一个示例。
图6示出了根据实施例的流利度等级表示信息生成的示例性实现600。实现600是对图3中的320、330和340处的处理的具体示例,并且是图5中的流利度等级表示信息生成模块510的一种具体实现。假设实现600旨在针对输入文本602生成流利度等级表示信息,该输入文本602可以是目标文本和/或目标文本的相关文本。
可以通过域预测器610来预测与输入文本602相关联的域。例如,可以预先定义多个域,并且通过<文本,域>对形式的训练数据来预先训练域预测器610。流利度等级确定模块620可以从预定的域流利度等级配置622中识别出与所预测的域对应的流利度等级。流利度等级嵌入模块630可以生成与所识别的流利度等级对应的流利度等级嵌入表示。文本嵌入模块640可以生成与输入文本602对应的文本表示。在650处,可以对流利度等级嵌入模块630所输出的流利度等级嵌入表示和文本嵌入模块640所输出的文本表示进行组合,以便获得流利度等级表示信息604。在650处可以采用任意组合方式,例如级联、叠加等。
应当理解,实现600中的任何过程、模块等都是示例性的,取决于具体的应用需求和设计,本公开的实施例可以涵盖对实现600的任意方式的修改。例如,尽管在实现600中流利度等级表示信息604是基于流利度等级嵌入表示和文本表示两者来生成的,但是流利度等级表示信息604也可以是仅基于流利度等级嵌入表示来生成的,从而可以从实现600中省略文本嵌入模块640。
图7示出了根据实施例的准备训练数据的示例性过程700。
可以首先获得语音数据集710。语音数据集710可以包括多个自发性语音数据。在一种实现方式中,可以收集在问答场景下的实际聊天语音记录,其中,回答者的语音可能呈现出不同的流利度,例如包含填充停顿、静默停顿、重复等,从而这些语音更适合于根据本公开实施例的用于自发式TTS合成的TTS系统的训练。
在720处,可以对语音数据集中的每一条语音数据执行语音识别720,以获得对应的原始文本730。该原始文本可能包括填充停顿、重复等。以示例性的原始文本“经济全球化是指,嗯,世界经济活动超出了国界,使得、使得各国之间的经济活动相互联系”为例,该原始文本包括了由词语“嗯”所造成的填充停顿,以及对词语“使得”的重复。
在740处,可以对原始文本730执行文本转换以便获得转换文本750。在740处的文本转换可以用于去除原始文本730中的填充停顿、重复等。例如,上述的原始文本示例可以被转换为“经济全球化是指世界经济活动超出了国界,使得各国之间的经济活动相互联系”。
在760处,可以基于与转换文本750对应的语音数据来对转换文本750进行标注,以获得流利度标注信息770。流利度标注信息770可以包括填充停顿指示772,其表明在转换文本750中的每个字符或词语后是否存在填充停顿。流利度标注信息770可以包括静默停顿指示774,其表明在转换文本750中的每个字符或词语后是否存在静默停顿。流利度标注信息770可以包括重复指示776,其表明在转换文本750中的每个字符或词语后是否存在重复。可以采用例如数值序列的形式来表示流利度标注信息770。以填充停顿指示772为例,其可以被表示为例如数值序列[0,0,0,1,0,0,…],其中,数值0表示在对应的字符之后没有填充停顿,而数值1表示在对应的字符之后存在填充停顿。
通过过程700,可以将语音数据集710中的语音以及对应的转换文本和流利度标注信息作为训练数据来训练根据本公开实施例的用于自发式TTS合成的TTS系统。例如,通过过程700所获得的流利度标注信息可以作为在训练过程中应用于流利度调整预测器的真实数据。此外,尽管未示出,过程700还可以包括对语音数据的流利度等级的标注。例如,可以人工地标注流利度等级,或者通过单独训练的排序模型来自动地标注流利度等级。
应当理解,过程700仅仅示出了用于获得训练数据的示例性方式,本公开的实施例并不局限于过程700的方式。
图8示出了根据实施例的用于自发式TTS合成的示例性方法800的流程图。
在810处,可以获得目标文本。
在820处,可以至少基于所述目标文本来确定流利度参考因子。
在830处,可以利用所述流利度参考因子来生成与所述目标文本对应的声学特征。
在840处,可以基于所述声学特征来生成与所述目标文本对应的语音波形。
在一种实现方式中,所述流利度参考因子可以包括流利度调整信息。所述确定流利度参考因子可以包括:至少基于所述目标文本来预测所述流利度调整信息。
在一种实现方式中,所述流利度参考因子还可以包括流利度等级表示信息。所述确定流利度参考因子还可以包括:预测与所述目标文本相关联的域;以及至少基于所述域来生成所述流利度等级表示信息。
所述流利度调整信息可以是进一步基于所述流利度等级表示信息来预测的。
在一种实现方式中,所述流利度调整信息可以包括以下至少之一:填充停顿指示信息、静默停顿指示信息、以及重复指示信息。
在一种实现方式中,所述生成所述流利度等级表示信息可以包括:从预定的域流利度等级配置中识别出与所述域对应的流利度等级;以及至少基于所述流利度等级来生成所述流利度等级表示信息。
在一种实现方式中,所述预测与所述目标文本相关联的域可以包括:基于所述目标文本和/或所述目标文本的相关文本来预测与所述目标文本相关联的所述域。
在一种实现方式中,所述流利度等级表示信息可以是进一步基于与所述目标文本相关联的文本表示来生成的。
所述文本表示可以包括对所述目标文本和/或所述目标文本的相关文本的表示。
在一种实现方式中,所述相关文本可以是与在自动聊天中接收的查询相对应的文本,并且所述目标文本可以是与针对所述查询所生成的响应相对应的文本。
在一种实现方式中,所述流利度调整信息可以是通过流利度调整预测器来预测的。
所述流利度调整预测器的训练数据可以是至少基于自发式语音数据来获得的。
在一种实现方式中,所述生成声学特征可以包括:通过以所述流利度参考因子为条件的声学模型来生成所述声学特征。
应当理解,方法800还可以包括根据上述本公开实施例的用于自发式TTS合成的任何步骤/过程。
图9示出了根据实施例的用于自发式TTS合成的示例性装置900。
装置900可以包括:目标文本获得模块910,用于获得目标文本;流利度参考因子确定模块920,用于至少基于所述目标文本来确定流利度参考因子;声学特征生成模块930,用于利用所述流利度参考因子来生成与所述目标文本对应的声学特征;以及语音波形生成模块940,用于基于所述声学特征来生成与所述目标文本对应的语音波形。
在一种实现方式中,所述流利度参考因子可以包括流利度调整信息。所述流利度参考因子确定模块920可以用于:至少基于所述目标文本来预测所述流利度调整信息。
在一种实现方式中,所述流利度参考因子还可以包括流利度等级表示信息。所述流利度参考因子确定模块920还可以用于:预测与所述目标文本相关联的域;以及至少基于所述域来生成所述流利度等级表示信息。
在一种实现方式中,所述流利度调整信息可以是进一步基于所述流利度等级表示信息来预测的。
在一种实现方式中,所述流利度调整信息可以包括以下至少之一:填充停顿指示信息、静默停顿指示信息、以及重复指示信息。
在一种实现方式中,所述生成所述流利度等级表示信息可以包括:从预定的域流利度等级配置中识别出与所述域对应的流利度等级;以及至少基于所述流利度等级来生成所述流利度等级表示信息。
此外,装置900还可以包括执行根据上述本公开实施例的用于自发式TTS合成的方法的步骤的任何其它模块。
图10示出了根据实施例的用于自发式TTS合成的示例性装置1000。
装置1000可以包括:至少一个处理器1010;以及存储器1020,其存储计算机可执行指令。当所述计算机可执行指令被执行时,所述至少一个处理器1010可以:获得目标文本;至少基于所述目标文本来确定流利度参考因子;利用所述流利度参考因子来生成与所述目标文本对应的声学特征;以及基于所述声学特征来生成与所述目标文本对应的语音波形。此外,处理器1010还可以执行根据上述本公开实施例的用于自发式TTS合成的方法的任何其它步骤/过程。
本公开的实施例可以实施在非暂时性计算机可读介质中。该非暂时性计算机可读介质可以包括指令,当所述指令被执行时,使得一个或多个处理器执行根据上述本公开实施例的用于自发式TTS合成的方法的任何操作。
应当理解,以上描述的方法中的所有操作都仅仅是示例性的,本公开并不限制于方法中的任何操作或这些操作的顺序,而是应当涵盖在相同或相似构思下的所有其它等同变换。
还应当理解,以上描述的装置中的所有模块都可以通过各种方式来实施。这些模块可以被实施为硬件、软件、或其组合。此外,这些模块中的任何模块可以在功能上被进一步划分成子模块或组合在一起。
已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在系统上的总体设计约束。作为示例,本公开中给出的处理器、处理器的任意部分、或者处理器的任意组合可以实施为微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门逻辑、分立硬件电路、以及配置用于执行在本公开中描述的各种功能的其它适合的处理部件。本公开给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以实施为由微处理器、微控制器、DSP或其它适合的平台所执行的软件。
软件应当被广泛地视为表示指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器,存储器可以例如为磁性存储设备(如,硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器或者可移动盘。尽管在本公开给出的多个方面中将存储器示出为是与处理器分离的,但是存储器也可以位于处理器内部(如,缓存或寄存器)。
以上描述被提供用于使得本领域任何技术人员可以实施本文所描述的各个方面。这些方面的各种修改对于本领域技术人员是显而易见的,本文限定的一般性原理可以应用于其它方面。因此,权利要求并非旨在被局限于本文示出的方面。关于本领域技术人员已知或即将获知的、对本公开所描述各个方面的元素的所有结构和功能上的等同变换,都将由权利要求所覆盖。

Claims (20)

1.一种用于自发式文本到语音(TTS)合成的方法,包括:
获得目标文本;
至少基于所述目标文本来确定流利度参考因子;
利用所述流利度参考因子来生成与所述目标文本对应的声学特征;以及
基于所述声学特征来生成与所述目标文本对应的语音波形。
2.如权利要求1所述的方法,其中,所述流利度参考因子包括流利度调整信息,并且所述确定流利度参考因子包括:
至少基于所述目标文本来预测所述流利度调整信息。
3.如权利要求2所述的方法,其中,所述流利度参考因子还包括流利度等级表示信息,并且所述确定流利度参考因子还包括:
预测与所述目标文本相关联的域;以及
至少基于所述域来生成所述流利度等级表示信息。
4.如权利要求3所述的方法,其中,
所述流利度调整信息是进一步基于所述流利度等级表示信息来预测的。
5.如权利要求2所述的方法,其中,所述流利度调整信息包括以下至少之一:
填充停顿指示信息、静默停顿指示信息、以及重复指示信息。
6.如权利要求3所述的方法,其中,所述生成所述流利度等级表示信息包括:
从预定的域流利度等级配置中识别出与所述域对应的流利度等级;以及
至少基于所述流利度等级来生成所述流利度等级表示信息。
7.如权利要求3所述的方法,其中,所述预测与所述目标文本相关联的域包括:
基于所述目标文本和/或所述目标文本的相关文本来预测与所述目标文本相关联的所述域。
8.如权利要求3所述的方法,其中,
所述流利度等级表示信息是进一步基于与所述目标文本相关联的文本表示来生成的。
9.如权利要求8所述的方法,其中,
所述文本表示包括对所述目标文本和/或所述目标文本的相关文本的表示。
10.如权利要求7或9所述的方法,其中,
所述相关文本是与在自动聊天中接收的查询相对应的文本,并且
所述目标文本是与针对所述查询所生成的响应相对应的文本。
11.如权利要求2所述的方法,其中,
所述流利度调整信息是通过流利度调整预测器来预测的。
12.如权利要求11所述的方法,其中,
所述流利度调整预测器的训练数据是至少基于自发式语音数据来获得的。
13.如权利要求1所述的方法,其中,所述生成声学特征包括:
通过以所述流利度参考因子为条件的声学模型来生成所述声学特征。
14.一种用于自发式文本到语音(TTS)合成的装置,包括:
目标文本获得模块,用于获得目标文本;
流利度参考因子确定模块,用于至少基于所述目标文本来确定流利度参考因子;
声学特征生成模块,用于利用所述流利度参考因子来生成与所述目标文本对应的声学特征;以及
语音波形生成模块,用于基于所述声学特征来生成与所述目标文本对应的语音波形。
15.如权利要求14所述的装置,其中,所述流利度参考因子包括流利度调整信息,并且所述流利度参考因子确定模块用于:
至少基于所述目标文本来预测所述流利度调整信息。
16.如权利要求15所述的装置,其中,所述流利度参考因子还包括流利度等级表示信息,并且所述流利度参考因子确定模块还用于:
预测与所述目标文本相关联的域;以及
至少基于所述域来生成所述流利度等级表示信息。
17.如权利要求16所述的装置,其中,
所述流利度调整信息是进一步基于所述流利度等级表示信息来预测的。
18.如权利要求15所述的装置,其中,所述流利度调整信息包括以下至少之一:
填充停顿指示信息、静默停顿指示信息、以及重复指示信息。
19.如权利要求16所述的装置,其中,所述生成所述流利度等级表示信息包括:
从预定的域流利度等级配置中识别出与所述域对应的流利度等级;以及
至少基于所述流利度等级来生成所述流利度等级表示信息。
20.一种用于自发式文本到语音(TTS)合成的装置,包括:
至少一个处理器;以及
存储器,其存储计算机可执行指令,当所述计算机可执行指令被执行时使所述至少一个处理器:
获得目标文本,
至少基于所述目标文本来确定流利度参考因子,
利用所述流利度参考因子来生成与所述目标文本对应的声学特征,以及
基于所述声学特征来生成与所述目标文本对应的语音波形。
CN202010566131.1A 2020-06-19 2020-06-19 自发式文本到语音(tts)合成 Pending CN113823256A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202010566131.1A CN113823256A (zh) 2020-06-19 2020-06-19 自发式文本到语音(tts)合成
EP21725308.7A EP4169014A1 (en) 2020-06-19 2021-04-22 Spontaneous text to speech (tts) synthesis
US17/926,994 US20230206899A1 (en) 2020-06-19 2021-04-22 Spontaneous text to speech (tts) synthesis
PCT/US2021/028516 WO2021257177A1 (en) 2020-06-19 2021-04-22 Spontaneous text to speech (tts) synthesis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010566131.1A CN113823256A (zh) 2020-06-19 2020-06-19 自发式文本到语音(tts)合成

Publications (1)

Publication Number Publication Date
CN113823256A true CN113823256A (zh) 2021-12-21

Family

ID=75905029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010566131.1A Pending CN113823256A (zh) 2020-06-19 2020-06-19 自发式文本到语音(tts)合成

Country Status (4)

Country Link
US (1) US20230206899A1 (zh)
EP (1) EP4169014A1 (zh)
CN (1) CN113823256A (zh)
WO (1) WO2021257177A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116580697A (zh) * 2023-07-05 2023-08-11 深圳元象信息科技有限公司 语音生成模型构建方法、语音生成方法、设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114613353B (zh) * 2022-03-25 2023-08-08 马上消费金融股份有限公司 语音合成方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104916284A (zh) * 2015-06-10 2015-09-16 百度在线网络技术(北京)有限公司 用于语音合成系统的韵律与声学联合建模的方法及装置
CN105551481A (zh) * 2015-12-21 2016-05-04 百度在线网络技术(北京)有限公司 语音数据的韵律标注方法及装置
CN107945786A (zh) * 2017-11-27 2018-04-20 北京百度网讯科技有限公司 语音合成方法和装置
CN108806665A (zh) * 2018-09-12 2018-11-13 百度在线网络技术(北京)有限公司 语音合成方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104916284A (zh) * 2015-06-10 2015-09-16 百度在线网络技术(北京)有限公司 用于语音合成系统的韵律与声学联合建模的方法及装置
CN105551481A (zh) * 2015-12-21 2016-05-04 百度在线网络技术(北京)有限公司 语音数据的韵律标注方法及装置
CN107945786A (zh) * 2017-11-27 2018-04-20 北京百度网讯科技有限公司 语音合成方法和装置
CN108806665A (zh) * 2018-09-12 2018-11-13 百度在线网络技术(北京)有限公司 语音合成方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
OHSUNG KWON 等: "Emotional Speech Synthesis Based on Style Embedded Tacotron2 Framework", 2019 34TH INTERNATIONAL TECHNICAL CONFERENCE ON CIRCUITS/SYSTEMS, COMPUTERS AND COMMUNICATIONS (ITC-CSCC),IEEE, 23 June 2019 (2019-06-23), pages 1 - 4, XP033594993, DOI: 10.1109/ITC-CSCC.2019.8793393 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116580697A (zh) * 2023-07-05 2023-08-11 深圳元象信息科技有限公司 语音生成模型构建方法、语音生成方法、设备及存储介质
CN116580697B (zh) * 2023-07-05 2023-09-29 深圳元象信息科技有限公司 语音生成模型构建方法、语音生成方法、设备及存储介质

Also Published As

Publication number Publication date
WO2021257177A1 (en) 2021-12-23
US20230206899A1 (en) 2023-06-29
EP4169014A1 (en) 2023-04-26

Similar Documents

Publication Publication Date Title
KR102246943B1 (ko) 다중 언어 텍스트-음성 합성 방법
CN111954903B (zh) 多说话者神经文本到语音合成
JP6777768B2 (ja) 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム
CN112185337B (zh) 多语言神经文本到语音合成
EP4029010B1 (en) Neural text-to-speech synthesis with multi-level context features
CN111667812A (zh) 一种语音合成方法、装置、设备及存储介质
CN115485766A (zh) 使用bert模型的语音合成韵律
CN113658577B (zh) 一种语音合成模型训练方法、音频生成方法、设备及介质
CN116129863A (zh) 语音合成模型的训练方法、语音合成方法及相关装置
CN111681641B (zh) 基于短语的端对端文本到语音(tts)合成
US20230206899A1 (en) Spontaneous text to speech (tts) synthesis
Jayawardhana et al. An intelligent approach of text-to-speech synthesizers for english and sinhala languages
CN113593522B (zh) 一种语音数据标注方法和装置
CN115424604B (zh) 一种基于对抗生成网络的语音合成模型的训练方法
CN114842826A (zh) 语音合成模型的训练方法、语音合成方法及相关设备
WO2021231050A1 (en) Automatic audio content generation
CN113223513A (zh) 语音转换方法、装置、设备和存储介质
CN113763924B (zh) 声学深度学习模型训练方法、语音生成方法及设备
CN112634861B (zh) 数据处理方法、装置、电子设备和可读存储介质
CN116168684A (zh) 训练文本韵律预测模型、预测文本韵律的方法及装置
CN118053415A (zh) 语音合成方法及装置、电子设备及存储介质
CN117475985A (zh) 语音合成方法、装置、计算机设备及存储介质
CN118298797A (zh) 基于低资源的语音合成模型训练方法、装置、设备及介质
CN115132184A (zh) 语音交互方法、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination