CN109523986B - 语音合成方法、装置、设备以及存储介质 - Google Patents

语音合成方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN109523986B
CN109523986B CN201811567415.1A CN201811567415A CN109523986B CN 109523986 B CN109523986 B CN 109523986B CN 201811567415 A CN201811567415 A CN 201811567415A CN 109523986 B CN109523986 B CN 109523986B
Authority
CN
China
Prior art keywords
role
information
text
attribute
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811567415.1A
Other languages
English (en)
Other versions
CN109523986A (zh
Inventor
杨杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN201811567415.1A priority Critical patent/CN109523986B/zh
Publication of CN109523986A publication Critical patent/CN109523986A/zh
Priority to US16/565,784 priority patent/US11600259B2/en
Application granted granted Critical
Publication of CN109523986B publication Critical patent/CN109523986B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L2013/083Special characters, e.g. punctuation marks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种语音合成方法、装置、设备以及存储介质,通过获取文本信息,并确定所述文本信息中的角色和每一个所述角色的文本内容;对每一个所述角色的文本内容进行角色识别,确定每一个所述角色的角色属性信息;根据每一个所述角色的角色属性信息,获取与各所述角色一一对应的发音人,其中,所述发音人为预存储的具有所述角色属性信息的发音对象;根据所述文本信息和所述文本信息的所述角色对应的发音人,生成多角色合成语音,提高了合成语音中不同角色的发音多样性,提高了听众对合成的语音中不同角色的区分度,提高了用户体验。

Description

语音合成方法、装置、设备以及存储介质
技术领域
本发明实施例涉及无人车技术领域,尤其涉及一种语音合成方法、装置、设备以及存储介质。
背景技术
随着语音技术的发展,语音技术开始应用到人们生活和工作的各个方面。例如,在有声阅读、人机对话、智能音箱、智能客服等场景中,设备可以发出合成的语音,进而为用户服务。
在现有技术中,可以获取待处理的文字,然后采用语音合成技术对文字进行处理,得到语音。
然而现有技术中,只能通过语音合成技术得到单一的发音人,但是对于多角色的场景,无法得到多角色的合成语音。例如,进行有声阅读的时候,需要得到多个角色的对话语音,但是现有技术中只能通过对文字进行语音合成,得到单一发音人发出的语音。
发明内容
本发明实施例提供一种语音合成方法、装置、设备以及存储介质,实现对不同角色的文本内容匹配相适应的语音,以语音特征对不同角色进行了区分,提高了由文本转换为语音的表现力,提高了用户体验。
本发明第一方面提供一种语音合成方法,包括:
获取文本信息,并确定所述文本信息中的角色和每一个所述角色的文本内容;
对每一个所述角色的文本内容进行角色识别,确定每一个所述角色的角色属性信息;
根据每一个所述角色的角色属性信息,获取与各所述角色一一对应的发音人,其中,所述发音人为预存储的具有所述角色属性信息的发音对象;
根据所述文本信息和所述文本信息的所述角色对应的发音人,生成多角色合成语音。
可选地,所述角色属性信息包括基础属性,所述基础属性包括性别属性和/或年龄段属性;
在所述根据每一个所述角色的角色属性信息,获取与各所述角色一一对应的发音人之前,还包括:
根据预存储的发音人的声音参数信息,对每一个预存储的发音人确定其对应的基础属性;
相应地,所述根据每一个所述角色的角色属性信息,获取与各所述角色一一对应的发音人,包括:
对每一个所述角色,获取具有所述角色对应的所述基础属性的发音人。
可选地,所述角色属性信息还包括附加属性,所述附加属性包括以下至少一种:
地域信息、音色信息、发音风格信息;
在所述根据每一个所述角色的角色属性信息,获取与各所述角色一一对应的发音人之前,还包括:
根据预存储的发音人的声音参数信息,对每一个预存储的发音人确定其对应的附加属性以及附加属性优先级;
相应地,所述根据每一个所述角色的角色属性信息,获取与各所述角色一一对应的发音人,还包括:
在具有所述角色对应的所述基础属性的发音人中,根据附加属性确定与所述角色一一对应的发音人。
可选地,所述在具有所述角色对应的所述基础属性的发音人中,根据附加属性确定与所述角色一一对应的发音人包括:
在所述角色的文本内容中,获取角色声音描述类关键词;
根据所述角色声音描述类关键词,确定所述角色对应的附加属性;
在具有所述角色对应的所述基础属性的发音人中,确定具有所述角色对应的附加属性的与所述角色一一对应的发音人。
可选地,所述在具有所述角色对应的所述基础属性的发音人中,根据附加属性确定与所述角色一一对应的发音人包括:
在具有所述角色对应的所述基础属性的发音人中,将附加属性优先级最高的发音人作为与所述角色一一对应的发音人。
可选地,所述根据每一个所述角色的角色属性信息,获取与各所述角色一一对应的发音人,包括:
根据每一个所述角色的角色属性信息,对每一个所述角色获取备选发音人;
将所述备选发音人的描述信息向用户显示,并接收用户指示;
根据所述用户指示,在每一个所述角色的备选发音人中,获取与各所述角色一一对应的发音人。
可选地,所述根据所述文本信息和所述文本信息的所述角色对应的发音人,生成多角色合成语音,包括:
以各所述角色对应的发音人处理所述文本信息中相应的文本内容,生成所述多角色合成语音。
可选地,所述以各所述角色对应的发音人处理所述文本信息中相应的文本内容,生成所述多角色合成语音之后,还包括:
获取与所述文本信息中的连续的多个文本内容相匹配的背景音频;
在所述多角色合成语音中,对所述多个文本内容对应的语音加入所述背景音频。
根据本发明的第二方面,提供一种一种语音合成装置,包括:
提取模块,用于获取文本信息,并确定所述文本信息中的角色和每一个所述角色的文本内容;
识别模块,用于对每一个所述角色的文本内容进行角色识别,确定每一个所述角色的角色属性信息;
选择模块,用于根据每一个所述角色的角色属性信息,获取与各所述角色一一对应的发音人,其中,所述发音人为预存储的具有所述角色属性信息的发音对象;
合成模块,用于根据所述文本信息和所述文本信息的所述角色对应的发音人,生成多角色合成语音
根据本发明的第三方面,提供一种设备,包括:存储器、处理器以及计算机程序,所述计算机程序存储在所述存储器中,所述处理器运行所述计算机程序执行本发明第一方面及第一方面各种可能设计的所述语音合成方法。
根据本发明的第四方面,提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可能设计的所述语音合成方法。
本发明实施例提供一种语音合成方法、装置、设备以及存储介质,通过获取文本信息,并确定所述文本信息中的角色和每一个所述角色的文本内容;对每一个所述角色的文本内容进行角色识别,确定每一个所述角色的角色属性信息;根据每一个所述角色的角色属性信息,获取与各所述角色一一对应的发音人,其中,所述发音人为预存储的具有所述角色属性信息的发音对象;根据所述文本信息和所述文本信息的所述角色对应的发音人,生成多角色合成语音,提高了合成语音中不同角色的发音多样性,提高了听众对合成的语音中不同角色的区分度,提高了用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种语音合成方法的流程示意图;
图2为本发明实施例提供的另一种语音合成方法的流程示意图;
图3为本发明实施例提供的一种语音合成装置结构示意图;
图4为本发明实施例提供的一种设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
应当理解,在本发明的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
应当理解,在本发明实施例中,“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本发明实施例中,“多个”是指两个或两个以上。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含,“包含 A、B或C”是指包含A、B、C三者之一,“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。
针对现有技术中存在的语音合成声音单一的问题,本发明提出一种语音合成方法、装置、设备以及存储介质,可以对文本信息进行分析,对文本内容区分角色,然后对不同角色的文本内容配置相适应的发音人,从而以各发音人对角色的文本内容进行处理,得到可以对角色进行声音区分的多角色合成语音,对各角色所选的发音人是根据角色的文本内容来确定的,符合角色语言特点,能够与角色具有较高的匹配程度,提高用户体验。下面通过几个具体实施例对该方案进行详细说明。
图1为本发明实施例提供的一种语音合成方法的流程示意图,如图1所示,该方案的执行主体可以为服务器、终端等具有数据处理功能的设备,如图1所示的方法参见下列步骤S101至S104。
S101,获取文本信息,并确定所述文本信息中的角色和每一个所述角色的文本内容。
具体地,文本信息可以是具有特定格式的信息,也可以是包含对话内容的信息。在具有特定格式的信息的实施例中,例如文本信息包括角色标识、分隔符以及角色的文本内容。如下为一种文本信息的示例:
A:爸爸,今天天气怎么样,冷不?
B:大晴天呢!不冷。
A:哇偶!那我们去放风筝可以吗?妈妈······
C:可以呀,吃完早餐我们就去。
在上述示例中,A、B、C是角色标识,分隔符为“:”。角色A的文本内容为“爸爸,今天天气怎么样,冷不?”以及“哇偶!那我们去放风筝可以吗?妈妈······”;角色B的文本内容为“大晴天呢!不冷。”角色C的文本内容为“可以呀,吃完早餐我们就去。”。角色标识可以是上述示例中的字母,也可以是具体的名称,例如“父亲”、“母亲”或者“张三”等具有标识性的信息。
S102,对每一个所述角色的文本内容进行角色识别,确定每一个所述角色的角色属性信息。
在一些实施例中,每一个角色的角色属性信息,可以是以预设的自然语言处理(Natural Language Processing,简称:NLP)模型对文本内容进行分析后得到的识别结果。NLP模型是一种分类模型,可以根据对语言文字的拆分、分类处理等处理方式,对输入的文本内容分析而分配对应的标签或类别。例如分类出每个角色的性别和年龄属性。例如某个角色性别属性为男、女或者模糊,年龄属性为老人、中年、青年、少年、儿童或者模糊。例如在获取到每个角色的文本内容后,可以将每个角色的角色标识对应的文本内容(例如角色A的文本内容为“爸爸,今天天气怎么样,冷不?”以及“哇偶!那我们去放风筝可以吗?妈妈······”)作为一个模型输入量,输入到预设的NLP模型中,处理得到角色标识对应的角色属性信息(例如角色A对应年龄属性为儿童,性别属性为模糊)。如果得到的年龄和性别都为模糊,那么可能是旁白对应的文本内容。
S103,根据每一个所述角色的角色属性信息,获取与各所述角色一一对应的发音人,其中,所述发音人为预存储的具有所述角色属性信息的发音对象。
发音人可以理解为具有语音合成功能的模型,每个发音人配置有唯一的角色属性信息,用于在合成语音时通过语音参数的设置而使得输出的语音具有角色的独特性。例如具有老人、男子的角色属性的发音人,其合成语音时采用的频率较低,从而使得输出的语音具有低沉的语音特征。又例如具有青年、女子的角色属性的发音人,其合成语音时采用的频率较高,从而使得输出的语音具有尖锐的语音特征。除此以外,还可以对其他声音参数进行设置以使得各发音人具有不同的语音特征。
在一些实施例中,所述角色属性信息包括基础属性,所述基础属性包括性别属性和/或年龄段属性。在步骤S103(根据每一个所述角色的角色属性信息,获取与各所述角色一一对应的发音人)之前,还可以先包括:根据预存储的发音人的声音参数信息,对每一个预存储的发音人确定其对应的基础属性。可以理解为预先确定好每一个发音人的基础属性,进行粗略的分类。相应地,步骤S103的实现方式可以是:对每一个所述角色,获取具有所述角色对应的所述基础属性的发音人。具体地,可以是根据每一个所述角色对应的性别属性和/或年龄段属性,对每一个所述角色获取一个发音人,其中,所述角色对应的发音人具有所述角色对应的所述性别属性和/或年龄段属性。例如对于角色A,获取到其基础属性为“年龄:儿童;性别:模糊性别”,由此可以得到与儿童相对应的发音人。然而,同样的技术属性可能对应多个发音人,例如与儿童相对应的发音人有30个,那么需要进一步在这30个发音人中筛选出与角色最为匹配的一个。
在一些实施例中,所述角色属性信息还包括附加属性。通过引入附加属性来对发音人进一步筛选。
在步骤S103(根据每一个所述角色的角色属性信息,获取与各所述角色一一对应的发音人)之前,还可以包括:根据预存储的发音人的声音参数信息,对每一个预存储的发音人确定其对应的附加属性以及附加属性优先级。所述附加属性包括以下至少一种:
地域信息、音色信息、发音风格信息。
其中,地域 信息例如具有不同地域发音特色的语音,例如对同一个词语“馅饼”,中国南方发音为“馅饼”,而中国北方发音则为“馅儿饼”,由此可以引入地域信息作为一种可选的附加属性,丰富合成语音的素材。
发音风格信息例如是重音的位置、语速的快慢等语音特征。通过不同的发音风格,可以提高对不同角色的区分度。例如同样是青年女子的文本内容,一个采用重音前置且语速缓慢的发音人进行语音合成,而另一个则采用重音后置且语速快的发音人进行语音合成,两者的语音能够具有较大的区别,提高听者对不同角色的区分力。
相应地,步骤S103(根据每一个所述角色的角色属性信息,获取与各所述角色一一对应的发音人)还包括:在具有所述角色对应的所述基础属性的发音人中,根据附加属性确定与所述角色一一对应的发音人。具体地,可以先判断获取到具有所述角色对应的所述基础属性的发音人是否是唯一的,若是,则将所述唯一的发音人作为与所述角色一一对应的发音人;若后,则在具有所述角色对应的所述基础属性的发音人中,根据附加属性确定与所述角色一一对应的发音人。
在上述实施例中,所述在具有所述角色对应的所述基础属性的发音人中,根据附加属性确定与所述角色一一对应的发音人的一种实现方式可以是:
在所述角色的文本内容中,获取角色声音描述类关键词;根据所述角色声音描述类关键词,确定所述角色对应的附加属性;在具有所述角色对应的所述基础属性的发音人中,确定具有所述角色对应的附加属性的与所述角色一一对应的发音人。其中,角色声音描述类关键词例如是文本内容中对角色声音的描述,例如旁白对应的文本内容中如果包含了“她欢快的声音让人心生愉悦......”,那么可以提取“欢快”作为角色声音描述类关键词,进而由此确定对应的附加属性。
在上述实施例中,所述在具有所述角色对应的所述基础属性的发音人中,根据附加属性确定与所述角色一一对应的发音人的另一种实现方式可以是:
在具有所述角色对应的所述基础属性的发音人中,将附加属性优先级最高的发音人作为与所述角色一一对应的发音人。例如将标准普通话特征的附加属性优先级设置为高于北方特征的附加属性。
在一些实施例中,还可以是根据用户指示而对各角色选定相应的发音人,例如步骤S103(根据每一个所述角色的角色属性信息,获取与各所述角色一一对应的发音人)的具体实现方式可以是:根据每一个所述角色的角色属性信息,对每一个所述角色获取备选发音人;将所述备选发音人的描述信息向用户显示,并接收用户指示;根据所述用户指示,在每一个所述角色的备选发音人中,获取与各所述角色一一对应的发音人。例如对于角色A,其性别识别为模糊,由此仅能够依据年龄为儿童进行备选发音人的选择,可能获取到很多个备选发音人,而用户可以选择性别为女性且发音风格为语速较快的备选发音人作为角色A对应的发音人。
S104,根据所述文本信息和所述文本信息的所述角色对应的发音人,生成多角色合成语音。
例如可以是以各所述角色对应的发音人处理所述文本信息中相应的文本内容,生成所述多角色合成语音。可以理解为随着处理的文本内容的变化而选择不同的发音人进行处理,从而得到具有不同角色发音特征的多角色合成语音。
本实施例提供了一种语音合成方法,通过获取文本信息,并确定所述文本信息中的角色和每一个所述角色的文本内容;对每一个所述角色的文本内容进行角色识别,确定每一个所述角色的角色属性信息;根据每一个所述角色的角色属性信息,获取与各所述角色一一对应的发音人,其中,所述发音人为预存储的具有所述角色属性信息的发音对象;根据所述文本信息和所述文本信息的所述角色对应的发音人,生成多角色合成语音,提高了合成语音中不同角色的发音多样性,提高了听众对合成的语音中不同角色的区分度,提高了用户体验。
在以各所述角色对应的发音人处理所述文本信息中相应的文本内容,生成所述多角色合成语音之后,还可以根据文本内容在语音中加入背景音频,进一步提高合成后语音的丰富性和表现力,提高用户体验。图2为本发明实施例提供的另一种语音合成方法的流程示意图,如图2所示的方法参见下列步骤S201至S206。
S201,获取文本信息,并确定所述文本信息中的角色和每一个所述角色的文本内容。
S202,对每一个所述角色的文本内容进行角色识别,确定每一个所述角色的角色属性信息。
S203,根据每一个所述角色的角色属性信息,获取与各所述角色一一对应的发音人,其中,所述发音人为预存储的具有所述角色属性信息的发音对象。
S204,根据所述文本信息和所述文本信息的所述角色对应的发音人,生成多角色合成语音。
步骤S201至S204的具体实现过程参见图1所示的步骤S101至S104,其实现原理和技术效果类似,此处不再赘述。
S205,获取与所述文本信息中的连续的多个文本内容相匹配的背景音频。
例如对文本信息中多个文本内容进行对话情绪分析,在情感分析结果为强烈的悲伤、恐惧、快乐等明显情绪时,从预设的音频库中获取与该情绪匹配的背景音频。
S206,在所述多角色合成语音中,对所述多个文本内容对应的语音加入所述背景音频。
在多角色合成语音中,还可以获取该多个文本内容对应的语音时间戳作为定位。然后在该时间戳对应的语音中加入背景音频,以烘托语音氛围,提高用户体验。
图3为本发明实施例提供的一种语音合成装置结构示意图,图3所示的语音合成装置30包括:
提取模块31,用于获取文本信息,并确定所述文本信息中的角色和每一个所述角色的文本内容。
识别模块32,用于对每一个所述角色的文本内容进行角色识别,确定每一个所述角色的角色属性信息。
选择模块33,用于根据每一个所述角色的角色属性信息,获取与各所述角色一一对应的发音人,其中,所述发音人为预存储的具有所述角色属性信息的发音对象.
合成模块34,用于根据所述文本信息和所述文本信息的所述角色对应的发音人,生成多角色合成语音。
图3所示实施例的装置对应地可用于执行图1或图2所示方法实施例中的步骤,其实现原理和技术效果类似,此处不再赘述。
可选地,所述角色属性信息包括基础属性,所述基础属性包括性别属性和/或年龄段属性。
选择模块33,还用于在所述根据每一个所述角色的角色属性信息,获取与各所述角色一一对应的发音人之前,根据预存储的发音人的声音参数信息,对每一个预存储的发音人确定其对应的基础属性。
相应地,选择模块33,用于对每一个所述角色,获取具有所述角色对应的所述基础属性的发音人。
可选地,所述角色属性信息还包括附加属性,所述附加属性包括以下至少一种:
地域信息、音色信息、发音风格信息。
选择模块33,还用于在所述根据每一个所述角色的角色属性信息,获取与各所述角色一一对应的发音人之前,根据预存储的发音人的声音参数信息,对每一个预存储的发音人确定其对应的附加属性以及附加属性优先级;
相应地,选择模块33,还用于在具有所述角色对应的所述基础属性的发音人中,根据附加属性确定与所述角色一一对应的发音人。
可选地,选择模块33,用于在所述角色的文本内容中,获取角色声音描述类关键词;根据所述角色声音描述类关键词,确定所述角色对应的附加属性;在具有所述角色对应的所述基础属性的发音人中,确定具有所述角色对应的附加属性的与所述角色一一对应的发音人。
可选地,选择模块33,用于在具有所述角色对应的所述基础属性的发音人中,将附加属性优先级最高的发音人作为与所述角色一一对应的发音人。
可选地,选择模块33,用于根据每一个所述角色的角色属性信息,对每一个所述角色获取备选发音人;将所述备选发音人的描述信息向用户显示,并接收用户指示;根据所述用户指示,在每一个所述角色的备选发音人中,获取与各所述角色一一对应的发音人。
可选地,合成模块34,用于以各所述角色对应的发音人处理所述文本信息中相应的文本内容,生成所述多角色合成语音。
可选地,合成模块34,还用于所述以各所述角色对应的发音人处理所述文本信息中相应的文本内容,生成所述多角色合成语音之后,获取与所述文本信息中的连续的多个文本内容相匹配的背景音频;在所述多角色合成语音中,对所述多个文本内容对应的语音加入所述背景音频。
图4为本发明实施例提供的一种设备的硬件结构示意图,该设备40 包括:处理器41、存储器42和计算机程序;其中
存储器42,用于存储所述计算机程序,该存储器还可以是闪存(flash)。所述计算机程序例如是实现上述方法的应用程序、功能模块等。
处理器41,用于执行所述存储器存储的计算机程序,以实现上述语音合成方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。
可选地,存储器42既可以是独立的,也可以跟处理器41集成在一起。
当所述存储器42是独立于处理器41之外的器件时,所述设备还可以包括:
总线43,用于连接所述存储器42和处理器41
本发明还提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现上述的各种实施方式提供的语音合成方法。
其中,可读存储介质可以是计算机存储介质,也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如,可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(ApplicationSpecific Integrated Circuits,简称:ASIC)中。另外,该ASIC可以位于用户设备中。当然,处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器(ROM)、随机存取存储器 (RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本发明还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的语音合成方法。
在上述设备的实施例中,应理解,处理器可以是中央处理单元(英文: CentralProcessing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:DigitalSignal Processor,简称:DSP)、专用集成电路(英文: Application Specific IntegratedCircuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (7)

1.一种语音合成方法,其特征在于,包括:
获取文本信息,并确定所述文本信息中的角色和每一个所述角色的文本内容;
对每一个所述角色的文本内容进行角色识别,确定每一个所述角色的角色属性信息;所述角色属性信息包括基础属性和附加属性;
根据预存储的发音人的声音参数信息,对每一个预存储的发音人确定其对应的基础属性、附加属性以及附加属性优先级;在具有所述角色对应的所述基础属性的发音人中,将附加属性优先级最高的发音人作为与所述角色一一对应的发音人;其中,所述发音人为预存储的具有所述角色属性信息的发音对象;
根据所述文本信息和所述文本信息的所述角色对应的发音人,生成多角色合成语音;
获取与所述文本信息中的连续的多个文本内容相匹配的背景音频;
在所述多角色合成语音中,对所述多个文本内容对应的语音加入所述背景音频。
2.根据权利要求1所述的方法,其特征在于,所述基础属性包括性别属性和/或年龄段属性。
3.根据权利要求2所述的方法,其特征在于,所述附加属性包括以下至少一种:地域信息、音色信息、发音风格信息。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述文本信息和所述文本信息的所述角色对应的发音人,生成多角色合成语音,包括:
以各所述角色对应的发音人处理所述文本信息中相应的文本内容,生成所述多角色合成语音。
5.一种语音合成装置,其特征在于,包括:
提取模块,用于获取文本信息,并确定所述文本信息中的角色和每一个所述角色的文本内容;
识别模块,用于对每一个所述角色的文本内容进行角色识别,确定每一个所述角色的角色属性信息;所述角色属性信息包括基础属性和附加属性;
选择模块,根据预存储的发音人的声音参数信息,对每一个预存储的发音人确定其对应的基础属性、附加属性以及附加属性优先级;在具有所述角色对应的所述基础属性的发音人中,将附加属性优先级最高的发音人作为与所述角色一一对应的发音人;其中,所述发音人为预存储的具有所述角色属性信息的发音对象;
合成模块,用于根据所述文本信息和所述文本信息的所述角色对应的发音人,生成多角色合成语音;获取与所述文本信息中的连续的多个文本内容相匹配的背景音频;在所述多角色合成语音中,对所述多个文本内容对应的语音加入所述背景音频。
6.一种设备,其特征在于,包括:发送器、接收器、存储器和处理器;
所述存储器用于存储计算机指令;所述处理器用于运行所述存储器存储的所述计算机指令实现权利要求1至4任一项所述的语音合成方法。
7.一种存储介质,其特征在于,包括:可读存储介质和计算机指令,所述计算机指令存储在所述可读存储介质中;所述计算机指令用于实现权利要求1至4任一项所述的语音合成方法。
CN201811567415.1A 2018-12-20 2018-12-20 语音合成方法、装置、设备以及存储介质 Active CN109523986B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811567415.1A CN109523986B (zh) 2018-12-20 2018-12-20 语音合成方法、装置、设备以及存储介质
US16/565,784 US11600259B2 (en) 2018-12-20 2019-09-10 Voice synthesis method, apparatus, device and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811567415.1A CN109523986B (zh) 2018-12-20 2018-12-20 语音合成方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
CN109523986A CN109523986A (zh) 2019-03-26
CN109523986B true CN109523986B (zh) 2022-03-08

Family

ID=65795966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811567415.1A Active CN109523986B (zh) 2018-12-20 2018-12-20 语音合成方法、装置、设备以及存储介质

Country Status (2)

Country Link
US (1) US11600259B2 (zh)
CN (1) CN109523986B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110349563B (zh) * 2019-07-04 2021-11-16 思必驰科技股份有限公司 用于语音对话平台的对话人设配置方法及系统
CN110337030B (zh) * 2019-08-08 2020-08-11 腾讯科技(深圳)有限公司 视频播放方法、装置、终端和计算机可读存储介质
CN110634336A (zh) * 2019-08-22 2019-12-31 北京达佳互联信息技术有限公司 有声电子书生成方法及装置
CN110534131A (zh) * 2019-08-30 2019-12-03 广州华多网络科技有限公司 一种音频播放方法及系统
CN111524501B (zh) * 2020-03-03 2023-09-26 北京声智科技有限公司 语音播放方法、装置、计算机设备及计算机可读存储介质
CN111428079B (zh) * 2020-03-23 2023-11-28 广州酷狗计算机科技有限公司 文本内容处理方法、装置、计算机设备及存储介质
CN111415650A (zh) * 2020-03-25 2020-07-14 广州酷狗计算机科技有限公司 文本语音转换的方法、装置、设备以及存储介质
CN112365874B (zh) * 2020-11-17 2021-10-26 北京百度网讯科技有限公司 语音合成模型的属性注册、装置、电子设备与介质
CN112634857A (zh) * 2020-12-15 2021-04-09 京东数字科技控股股份有限公司 一种语音合成方法、装置、电子设备和计算机可读介质
CN114913849A (zh) * 2021-02-08 2022-08-16 上海博泰悦臻网络技术服务有限公司 虚拟角色的语音调节方法、系统、介质及装置
CN113012680B (zh) * 2021-03-03 2021-10-15 北京太极华保科技股份有限公司 一种语音机器人用话术合成方法及装置
CN113010138B (zh) * 2021-03-04 2023-04-07 腾讯科技(深圳)有限公司 文章的语音播放方法、装置、设备及计算机可读存储介质
CN113539234B (zh) * 2021-07-13 2024-02-13 标贝(青岛)科技有限公司 语音合成方法、装置、系统及存储介质
CN113539235B (zh) * 2021-07-13 2024-02-13 标贝(青岛)科技有限公司 文本分析与语音合成方法、装置、系统及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523988A (zh) * 2018-11-26 2019-03-26 安徽淘云科技有限公司 一种文本演绎方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8150695B1 (en) * 2009-06-18 2012-04-03 Amazon Technologies, Inc. Presentation of written works based on character identities and attributes
GB2501067B (en) * 2012-03-30 2014-12-03 Toshiba Kk A text to speech system
CN105096932A (zh) * 2015-07-14 2015-11-25 百度在线网络技术(北京)有限公司 有声读物的语音合成方法和装置
CN108091321B (zh) * 2017-11-06 2021-07-16 芋头科技(杭州)有限公司 一种语音合成方法
CN108962217B (zh) * 2018-07-28 2021-07-16 华为技术有限公司 语音合成方法及相关设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523988A (zh) * 2018-11-26 2019-03-26 安徽淘云科技有限公司 一种文本演绎方法及装置

Also Published As

Publication number Publication date
CN109523986A (zh) 2019-03-26
US20200005761A1 (en) 2020-01-02
US11600259B2 (en) 2023-03-07

Similar Documents

Publication Publication Date Title
CN109523986B (zh) 语音合成方法、装置、设备以及存储介质
CN111667814B (zh) 一种多语种的语音合成方法及装置
CN110265040B (zh) 声纹模型的训练方法、装置、存储介质及电子设备
CN104598644B (zh) 喜好标签挖掘方法和装置
CN114121006A (zh) 虚拟角色的形象输出方法、装置、设备以及存储介质
CN108899033A (zh) 一种确定说话人特征的方法及装置
CN114598933B (zh) 一种视频内容处理方法、系统、终端及存储介质
CN114708869A (zh) 语音交互方法、装置及电器
CN112466287B (zh) 一种语音分割方法、装置以及计算机可读存储介质
CN110781327B (zh) 图像搜索方法、装置、终端设备及存储介质
CN112037793A (zh) 一种语音回复方法及装置
CN113763920B (zh) 空调器及其语音生成方法、语音生成装置和可读存储介质
CN110781329A (zh) 图像搜索方法、装置、终端设备及存储介质
CN110570838A (zh) 语音流处理方法和装置
CN113539234B (zh) 语音合成方法、装置、系统及存储介质
CN113539235B (zh) 文本分析与语音合成方法、装置、系统及存储介质
CN114863915A (zh) 一种基于语义保留的语音唤醒方法及系统
CN110428668B (zh) 一种数据提取方法、装置、计算机系统及可读存储介质
CN114049875A (zh) 一种tts播报方法、装置、设备以及存储介质
CN114443889A (zh) 音频获取的方法、装置、电子设备及存储介质
KR20220138669A (ko) 개인화 오디오 정보를 제공하기 위한 전자 장치 및 방법
CN111986657A (zh) 音频识别方法和装置、录音终端及服务器、存储介质
CN114514576A (zh) 数据处理方法、装置和存储介质
JP2014130211A (ja) 音声出力装置、音声出力方法、およびプログラム
CN112634861B (zh) 数据处理方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant