CN108962217B

CN108962217B - 语音合成方法及相关设备

Info

Publication number: CN108962217B
Application number: CN201810857240.1A
Authority: CN
Inventors: 包飞; 邓利群; 孙文华; 曾毓珑; 魏建生; 胡月志; 黄茂胜; 黄雪妍; 李志刚
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-07-28
Filing date: 2018-07-28
Publication date: 2021-07-16
Anticipated expiration: 2038-07-28
Also published as: CN108962217A; WO2020024582A1

Abstract

本申请提供了语音合成方法及相关设备，该方法包括：根据用户的当前输入语音确定用户身份；根据所述当前输入语音从声学模型库中获得声学模型；根据用户身份确定基础语音合成信息，基础语音合成信息表征声学模型的预设音速、预设音量、预设音高中的变化量；确定回复文本；根据回复文本、上下文信息确定强化语音合成信息，强化语音合成信息表征声学模型的预设音色、语调和预设韵律节奏中的变化量；通过所述声学模型，根据基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成，得到回复用户的语音。实施本申请的方案，能够让设备在人机交互过程中为用户提供个性化的语音合成效果，提升用户的语音交互体验。

Description

语音合成方法及相关设备

技术领域

本发明涉及语音处理领域，尤其涉及语音合成方法及相关设备。

背景技术

近年来，人机对话开始广泛进入人们日常生活，常见的场景包括智能客服机器人、智能音箱、聊天机器人等。人机对话的核心在于机器能够在所建的系统框架下，根据事先训练或者学习的数据，自动对用户输入的语音进行理解和分析，并给出有意义的语音回复。在设计中文文本的语音合成系统时，如果仅仅是将输入的文字一一匹配读音库，并将所有字的读音串联起来形成语音输出，那么这样的语音就会很机械生硬，不带语调起伏，听觉体验很差。近年来的发展的TTS(text–to-speed)引擎是一种建立在阅读规则上的语音合成技术，采用TTS引擎进行语音合成能够在单字/词的连接过渡和语气的转折上处理得比较自然，使得机器答复的语音更加贴近人类的说话声音。

而现今，现有技术中仅局限于在人机交互的过程中使机器“说话声音像人类”，而并未考虑用户对于人机交互的多样化需求。

发明内容

本发明实施例提供了语音合成方法及相关设备，使得机器能够在人机交互过程中根据用户喜好或对话环境要求，为用户提供个性化的语音合成效果，改善人机对话的时效性，提升用户的语音交互体验。

第一方面，本发明实施例提供了一种语音合成方法，该方法可应用于终端设备，包括：终端设备接收用户的当前输入语音，根据用户的当前输入语音确定所述用户的身份；根据所述当前输入语音从预设在所述终端设备中的声学模型库中获得声学模型，所述声学模型的预设信息包括预设音速、预设音量、预设音高、预设音色、预设语调和预设韵律节奏中的两个或两个以上；终端设备根据所述用户的身份确定基础语音合成信息，所述用户的身份关联对应的基础语音合成信息，本发明实施例中所述基础语音合成信息又可称基础TTS参数，所述基础TTS参数用于表征语音合成中所采用的声学模型的预设音速、预设音量和所述音高中的一个或多个的变化量；根据所述当前输入语音确定回复文本；终端设备根据所述回复文本、或者根据所述回复文本以及上下文信息来确定强化语音合成信息，本发明实施例中所述强化语音合成信息又可称为强化TTS参数，所述强化TTS参数用于表征语音合成中所采用的声学模型的预设音色、预设语调和预设韵律节奏中的一个或多个的变化量；本发明实施例中终端设备能够根据所述回复文本、或者根据所述回复文本以及所述当前输入语音的上下文信息来确定当前对话的对话场景；终端设备通过所述声学模型(包括所述声学模型的预设信息)，根据所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成，得到用于呈现给用户的回复语音，从而实现了终端设备与用户的实时对话交互。亦即本发明实施例中，声学模型能够根据声学模型的预设信息以及预设信息的变化信息，将回复文本转换成回复语音。

可选的，声学模型库中可包括多个声学模型(例如通用声学模型、个性化声学模型等)。这些声学模型皆为神经网络模型，这些神经网络模型可预先由不同的语料进行训练而成。对于每个声学模型而言，每个声学模型皆对应有各自的预设信息，也就是说每个声学模型分别绑定一特定的预设信息，这些预设信息可作为该声学模型的基础输入信息。

可选的，由于用户身份可与用户的个人喜好也是相关联的，所以终端也可以根据用户的个人爱好来确定基础语音合成信息。

本发明实施例中，所述上下文信息可表示当前输入语音的上下文语境或者当前输入语音之前的历史输入语音。

可以看到，实施本发明实施例的技术方案，在用户与终端设备的人机语音交互中，终端设备一方面根据用户的输入语音生成相应的回复文本，另一方面能够基于对话交互的回复文本以及对话上下文信息，结合当前用户的身份、喜好以及对话情景选择个性化的TTS参数(TTS参数包括基础TTS参数和强化TTS参数)，进而终端设备能够根据这些个性化的TTS参数、通过所选取的声学模型来生成特定风格的回复语音，从而实现向用户呈现个性化的语音合成效果，大大提升用户与终端的语音交互体验，改善人机对话的时效性。

基于第一方面，在可能的实施方式中，终端设备也允许用户通过语音实时调教终端设备，更新与用户身份、喜好相关联的TTS参数，包括更新基础TTS参数和强化TTS参数，使得调教出来的终端更加贴近用户的交互喜好，最大化提升用户交互体验。

基于第一方面，在可能的实施方式中，所述强化TTS参数可进一步分类为语音情感参数和语音场景参数等。所述语音情感参数用于使通过声学模型合成的语音呈现出具体的情感特征，根据情感特征的不同，语音情感参数可进一步分类为中性情感、轻度高兴、中度高兴、极度高兴、轻度悲伤、中度悲伤等参数。所述语音场景参数用于使通过声学模型合成的语音呈现出具体的场景特征，根据场景特征的不同，所述语音场景参数又可进一步划分为日常对话、诗词朗诵、歌曲哼唱、故事讲述、新闻播报等等参数，也就是说语音合成中采用这些语音场景参数将能够使合成语音呈现出日常对话、诗词朗诵、歌曲哼唱、故事讲述、新闻播报等语音场景的声音效果。

下面以“诗词朗诵”为例描述在语音合成中采用“诗词朗诵”相关的语音场景参数的实施方式。

本发明实施例中，确定当前对话为“诗词朗诵”的语音场景的方式可包括：

(1)在对话过程中，用户的输入语音所包含的用户意图明确指示当前对话为“诗词朗诵”的语音场景；

(2)在普通对话中，用户虽没有明确的意图明确指示当前对话为“诗词朗诵”，但终端设备还是可判断回复文本的内容是否涉及了诗、词、曲、赋等特定文学样式的一种或多种，比如涉及到五言绝句或七言绝句或律诗，或者涉及到具体的词牌或曲牌等；

(3)终端设备预先存储各种文学样式(或句法格式)对应的字数、句子个数、每句字数的顺序等文学样式特征，通过分析回复文本中的标点(停顿)、字数、句子个数、每句字数的顺序等特征，将该回复文本中的一段文本或全部文本与预存的文学样式特征做匹配，如果匹配成功，则该符合预存的文学样式特征的一段文本或全部文本即可作为采用“诗词朗诵”的语音场景的文本。

本发明实施例中，“诗词朗诵”的语音场景注重语音的韵律节奏，“诗词朗诵”的语音场景参数用于调整符合特定文学样式(或句法格式)的输入文本的语音停顿位置/停顿时间(即对文本内容的分词)、单字或单词朗读时长、重音位置，从而实现对韵律节奏进行强化。强化后的韵律节奏相对于普通对话时的自然状态的韵律节奏而言，具有更加清晰和强烈情感表述，例如，在朗读诗词、儿歌排比句等特定句法格式时，强化后的韵律节奏能够产生的“抑扬顿挫”感觉。

具体实现中，“诗词朗诵”的语音场景参数可通过韵律节奏模板来实现，对于每一种特定文学样式的文本内容，可对应于一种韵律节奏模板。所述文学样式表征了诗词曲的体裁，例如文学样式为古体诗、近体诗(如五言绝句、七言绝句)、律诗(如五言律诗、七言律诗)、词(如小令、中词、长词)、曲(包括各种曲调、曲牌等)，对于每种韵律节奏模板而言，其定义了该模板中各个位置的字的音量变化(即该字音量的轻重)和音长的变化(即该字发音时间的长短)、以及该文本中语音的停顿位置/停顿时间(即对文本内容的分词)，等等。

具体的，在可能的实施方式中，当终端根据回复文本、上下文信息确定当前对话处于“诗词朗诵”的语音场景时，终端根据所述回复文本、上下文信息确定强化语音合成信息的过程具体包括：通过分析所述回复文本来确定所述回复文本的文学样式特征，所述文学样式特征包括所述回复文本中的部分或全部内容的句子个数、每句字数和句子字数的排列顺序中的一个或多个；根据所述回复文本涉及的文学样式特征选取对应的预设韵律节奏的变化量。所述预设韵律节奏的变化量即为所述韵律节奏模板，所述文学样式特征与所述韵律节奏模板之间具有对应关系。

本发明具体实施例的“诗词朗诵”语音场景中，终端终端对回复文本的内容进行韵律节奏模板对齐，以便于后续的语音合成。具体的，在需要进行语音合成时，终端可将回复文本中的相关内容与“诗词朗诵”语音场景的韵律节奏模板进行对齐。具体的，终端可将回复文本中的相关内容对应声学模型库的读音与韵律节奏模板的参数结合，参考一定的尺度将韵律节奏模板的参数叠加到这些读音语段中。

例如，在一种示例性的实施例中，韵律加强参数为ρ(0<ρ<1),文本内容中第i个字的预设音量为Vi,若该字的韵律节奏特征包含了重读特征，其重读变化量为E1，则该字的最终音量为Vi×(1+E1)×(1+ρ)。又例如，文本中第i个字的基础音长为Di，音长的变化量为E2，则该字的最终音长为Di×(1+E2)。又例如，第i个字和第i+1个字之间需要停顿，停顿时间从0s变为0.02s。

基于第一方面，在可能的实施方式中，声学模型库中可包括通用声学模型和若干个个性化声学模型，其中：

通用声学模型的预设信息可包括其该模型的预设音速、预设音量、预设音高、预设音色、预设语调、预设韵律节奏等，通过通用声学模型合成的语音呈现正常、通用对话场景下的声音效果。

个性化声学模型的预设信息可包括语音特征以及语言风格特征。也就是说，个性化声学模型的预设信息除了包括该模型的预设音速、预设音量、预设音高、预设音色、预设语调、预设韵律节奏中的两个或两个以上外，还可包括其他的个性化信息，比如包括口头禅、对特定场景的应答方式、智慧类型、性格类型、夹杂的流行语言或方言、对特定人物的称谓等等语言风格特征中的一个或多个。通过个性化声学模型合成的语音能够“人物模仿”的对话场景的声音效果。

需要理解的是，不同声学模型的预设音速、预设音量、预设音高、预设音色、预设语调、预设韵律节奏等预设信息也各有差异，举例来说，个性化声学模型的预设信息可明显不同于通用声学模型的预设信息。

下面以“人物模仿”为例描述在语音合成中采用“人物模仿”相关的声学模型的实施方式。

本发明实施例中，终端设备可通过用户的输入语音确定当前对话需要采用“人物模仿”的声学模型，具体包括几种方式：

(1)在对话过程中，用户的输入语音所包含的用户意图明确指示当前对话为“人物模仿”的场景，终端设备确定了用户意图后，进而确定当前对话为“人物模仿”的场景。举例来说，用户输入语音指示终端用林志玲的声音说话，那么终端识别出用户意图后，自动将当前对话场景设置为“人物模仿”的场景。

(2)在普通对话中，用户虽没有明确的意图明确指示当前对话为“人物模仿”，但终端设备还是可判断用户的输入语音对应的输入文本的内容是否涉及了人物模仿的内容。具体实现中，可通过全文匹配、关键词匹配和语义相似度匹配等方式来确定可以进行角色模仿的回复内容，这些内容包括歌词、声音特效、电影台词和动画片对话脚本等。

本发明具体实施例中，终端设备的声学模型库预设有用于实现“人物模仿”的各种声学模型(即个性化声学模型)。“人物模仿”的声学模型可用于使合成语音具有特定人物的声音特点，所以”人物模仿”的声学模型的预设音色、预设语调、预设韵律节奏等信息与通用声学模型的这些信息会有所差异。“人物模仿”的声学模型所模仿的人物可能是用户本身的喜好的人物形象，可能是影视作品中的人物角色，还可能是多种预设声模与用户喜好的综合，例如，这些“人物模仿”的声学模型可以是用户模仿用户自身说话风格的声学模型；还可以是模仿其他人物说话特点的声学模型，例如用于模仿“林志玲/柔美声音”的声学模型，可以是模仿“小沈阳/搞笑声音”的声学模型，可以是模仿“刘德华/浑厚声音”的声学模型，等等。此外，在可能的实施例中，终端在语音合成过程中选取的并不是声学模型库中某个具体的声学模型，而是声学模型库中的多个声学模型的综合模型(又称为融合模型)。

终端从声学模型库中获取用于实现“人物模仿”对应的声学模型的实现方式可以包括以下几种：

(1)终端设备可根据用户的身份从声学模型库中选取某一个声学模型或者某一个融合模型。具体的，由于用户的身份可与用户的喜好相关联，终端设备可根据用户的身份确定用户的喜好，进而根据用户的喜好从声学模型库中选取某一个声学模型或者某一个融合模型。例如选择所喜欢的用于模仿“林志玲/柔美声音”的声学模型、或者、模仿“小沈阳/搞笑声音”的声学模型，或者，模仿“刘德华/浑厚声音”的声学模型，或者某个预先设置的融合模型等等。

需要说明的是，所述用户喜好的声学模型未必是声学模型库中原本设置的个性化声学模型，而可能是根据用户的喜好对某个性化声学模型进行参数微调后的声学模型。举例来说，声学模型库中原本设置的某一个个性化声学模型的声音特征包括第一语速(音速)、第一语调、第一韵律节奏、第一音色。终端通过对用户喜好的分析或者用户的手动设置，确定用户最喜欢的各种参数组合为：0.8倍第一语速，1.3倍第一语调，0.9倍第一韵律节奏，1.2倍第一女性化音色，从而对这些参数进行相应调整，从而得到满足用户需求的个性化声学模型。

(2)终端设备根据所述当前输入语音的内容，确定与所述当前输入语音的内容相关的声模标识，从所述声学模型库中选取对应于所述声模标识的声学模型。例如，终端可根据输入文本或用户喜好或回复文本确定当前合成语音需要采用“周星驰”类型的声音，则从声学模型库中选取“周星驰”声音类型的声学模型。

(3)终端设备根据所述用户的身份选取所述声学模型中的多个声学模型后，确定所述多个声学模型中的各个声学模型的权重值(即喜好系数)；其中，所述各个声学模型的权重值是用户预先设置的，或者，所述各个声学模型的权重值是预先根据所述用户的喜好而确定的；然后将所述各个声学模型基于所述权重值进行融合，获得融合后的声学模型。

假如，在终端设备获取了用户对语音的喜好或需求之后，也可直接根据用户的身份(即用户的喜好或需求直接绑定于用户的身份)在多个声学模型的声音里进行匹配，从而确定用户对浑厚、柔美、可爱、搞笑等声音类型的喜爱系数分别为0.2、0.8和0.5，即，即这些声学模型的权重分别为0.2、0.8和0.5，将每种声音类型的语速音速、语调、韵律节奏、音色等进行加权叠加，即可得到最终的声学模型(即融合模型)。这样合成的语音场景参数在语速、语调、韵律节奏、音色上实现了对声学模型的声音转换，有利于产生类似“说话风趣的林志玲”或者“说唱模式林志玲”这样混合的声音效果。

基于第一方面，在可能的实施方式中，TTS参数还包括目标字符与用户偏好读音之间的对应关系。所述定制字符读音表包括目标字符与用户偏好读音之间的映射关系。所述目标字符与用户偏好读音之间的映射关系用于使通过声学模型合成的语音所涉及的目标字符具有用户所偏好的读音。所述目标字符与用户偏好读音之间的映射关系与用户的身份相关联，也就是说可根据用户的身份来组织不同的映射关系。

本发明实施例中，定制字符读音表可按用户身份进行组织和存储，未注册用户对应的定制字符读音表为空，而已注册用户对应的定制字符读音表可基于该用户的喜好进行新增、更改、删除等操作。设置操作的对象可以是终端容易误读的或者用户所喜好的字、人名/地名、字母、特殊符号等等。定制字符读音表包括目标字符(串)与用户偏好读音之间的映射关系，目标字符(串)可以是字(汉字或外文)、词语、短语、句子，还可以是数字、符号(如中文字符、外文字符、颜文字、标点符号、特殊符号…)等等。

具体的，终端设备可以预先根据所述用户的历史输入语音确定目标字符与用户偏好读音之间的对应关系，将所述目标字符与用户偏好读音之间的对应关系关联所述用户的身份，写入所述定制字符读音表。

比如终端原本声学模型对“小猪佩奇”生成的读音为“xiao3 zhu1 pei4 qi2”，如果用户预先的通过语音调教终端设备，请求将短语“小猪佩奇”中的“奇”的读音设置为“ki1”，则终端设备将记录“小猪佩奇”与“xiao3 zhu1 pei4 ki1”作为一映射关系，并将还映射关系写入“xiaoming”关联的定制字符读音表。

又例如，终端设备可在上下文信息中找出终端在上一轮对话或上几轮对话所输出的对话文本，确定该对话文本中各字词的读音(如使用声学模型来确定读音)。例如，终端在上一轮对话的输出文本为“很高兴认识你，小茜”，终端确定其对应的读音为“hen3 gao1xing4 ren4 shi2 ni3，xiao3 xi1”。这样，DM模块将所述误读读音同该所述输出文本的读音串进行匹配，就可以确定误读读音“xiao3 xi1”所对应的中文字词为“小茜”，即“小茜”为目标字词(即要更正的目标字符)。进而终端设备将目标字词“小茜”以及目标读音“xiao3qian4”作为新的目标字符-读音对加入到与当前用户身份关联的定制字符读音表。

这样，在当前对话的语音合成中，当终端设备发现所述回复文本中存在与所述用户的身份关联的所述目标字符时，则通过所述声学模型，根据所述目标字符与用户偏好读音之间的对应关系、所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成。例如，在当前实时人机对话中，当终端设备的回复文本中含有“小茜”时，终端设备将会根据定制字符读音表的记录来确定“小茜”的读音为“xiao3 qian4”。这样，通过声学模型进行语音合成得到的回复语音中“小茜”的读音即为“xiao3 qian4”。

基于第一方面，在可能的实施方式中，TTS参数还包括背景音效，也就是说，TTS参数库中可包含音乐库，所述音乐库包括多个音乐信息，这些音乐信息用于语音合成过程中提供背景音效。所述背景音效具体是指音乐中的某个音乐片段(如纯乐曲或歌曲)或者声音特效(如影视音效、游戏音效、语言音效、动画音效等)。所述背景音效用于使通过声学模型合成出来的语音背景中叠加有不同风格、节奏的音乐或声音效果，从而增强合成语音的表达效果(比如增强情感效果。

下面以对合成语音叠加“背景音效”的场景为例来描述本发明实施例的语音合成方法。

本发明实施例中，当终端设备确定回复文本中具有适合叠加背景音乐的内容时，才需要在合成语音中叠加背景音效。具体的，终端设备可自动判断适合叠加背景音乐的内容。这些适合叠加背景音乐的内容可以是具有情感极性的文字，可以是诗歌词曲，可以是影视台词等等。举例来说，终端可通过DM模块识别句子中有情感倾向的词语，进而通过语法规则分析、机器学习分类等方法来确定回复文本中的短语、句子或者整个回复文本的情感状态。这个过程，可借助情感词典来识别这些有情感倾向的词语，情感词典是一个词语集合，该集合内的词都有明显的情感极性倾向，且情感词典也包含了这些词语的极性信息，例如，词典中的文字被标识了如下情感极性：快乐(happy)、喜欢(like)、悲伤(sadness)、惊讶(surprise)、愤怒(angry)、恐惧(fear)、厌恶(disgust)等情感极性类型，可能实施例中，不同的情感极性类型甚至还可进一步划分为多种程度的情感强度(如划分为五档的情感强度)。

在确定回复文本存在适合叠加背景音效的内容后，终端从所述音乐库确定要叠加的背景音效。具体的，终端预先为音乐库中的各个音乐文件的不同片段(即子片段)设置情感极性类别的标识，例如这些片段被标识如下情感极性类型：快乐(happy)、喜欢(like)、悲伤(sadness)、惊讶(surprise)、愤怒(angry)、恐惧(fear)、厌恶(disgust)等。假设当前回复文本包括具有情感极性的文字，那么在确定了这些文字的情感极性类别后，终端设备在音乐库中查找具有相应的情感极性类别标识的音乐文件。在可能实施例中，如果情感极性类型还可进一步划分为多种程度的情感强度，则预先为音乐库中的各个子片段设置情感极性类别和情感强度的标识，那么在确定了这些文字的情感极性类别和情感强度后，在音乐库中查找具有相应的情感极性类别和情感强度的标识的子片段组合作为最终选取的背景音效。

下面描述终端设备根据回复文本的部分或全部内容，在所述预设的音乐库中选取最匹配的背景音效的过程。终端设备可将回复文本中需要叠加背景音效地内容拆分成不同的部分(根据标点进行拆分或者进行分词处理)，每个部分可称为一个子内容，计算每个子内容的情感极性类型和情感强度。进而，在音乐库中确定将该内容最匹配的背景音效后，将该内容对齐所匹配的背景音效，使得该内容的情感变化与背景音效的情感变化基本一致。具体的，所述最匹配的背景音效包括多个子片段，各个子片段分别具有情感极性类型的标识和情感强度的标识，所述各个子片段具有的情感极性类型的标识所指示的情感极性类型分别与所述各个子内容的情感极性类型相同，且所述各个子片段具有的情感强度的标识所指示的情感强度之间的变化趋势与所述各个子内容的情感强度之间的变化趋势相一致。

举例来说，在一应用场景中，回复文本为“天气不错，国足又赢球了，好开心”，该回复文本的全部内容需要叠加背景音效，该回复文本拆分成“天气不错，”“国足又赢球了，”“好开心”三部分的子内容，且该各个子内容的情感极性类别皆为高兴(happy)，且分别有不同的情感强度。在音乐库初步确定一个情感极性类别为高兴(happy)的音乐文件，进一步地，可以对该音乐文件的情感变化轨迹进行计算和统计，得到该音乐中三个子片段的情感强度，这三个子片段的情感变化与回复文本的三部分的子内容的情感变化趋势基本一致，所以由这个音乐文件中的这三个子片段组成的音乐片段即为与回复文本相匹配的背景音效。故可以将复文本的“天气不错，”“国足又赢球了，”“好开心”分别对齐这三个子片段，这样，后续在语音合成中，终端设备通过所选取的声学模型，根据所述背景音效(即最匹配的音乐片段)、所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成，所输出的最终的回复语音将会呈现“语音叠加背景音效”的效果。

基于第一方面，在可能的实施方式中，当前对话场景还可能是“儿歌哼唱”的语音场景，这种场景中，终端设备在语音合成中所采用的强化语音合成信息即包括“儿歌哼唱”的语音场景参数。

下面以“歌曲哼唱(以儿歌哼唱为例)”的语音场景为例来描述本发明实施例的语音合成方法。

在音乐中，时间被分成均等的基本单位，每个基本单位叫做一个“拍子”或称一拍。拍子的时值是以音符的时值来表示的，一拍的时值可以是四分音符(即以四分音符为一拍)，也可以是二分音符(以二分音符为一拍)或八分音符(以八分音符为一拍)。音乐的节奏一般以节拍来定义，例如4/4拍：4/4拍是4分音符为一拍，每小节4拍，可以有4个4分音符。所谓“儿歌哼唱”的语音场景参数，即预设各种各样儿歌的节拍类型，以及对需要以“儿歌哼唱”方式进行语音合成的回复文本内容进行文本分割的方式。

本发明实施例中，终端通过回复文本、上下文信息确定当前对话的语音场景为“儿歌哼唱”的语音场景。

一种方式是在对话过程中，用户的输入语音所包含的用户意图明确指示当前对话为“儿歌哼唱”的语音场景。

还有一种方式是在普通对话中，用户虽没有明确的意图明确指示当前对话为“儿歌哼唱”，但终端还是可通过DM模块也可以判断回复文本的内容是否涉及了儿歌的内容。具体实现中，DM模块可通过文本搜索匹配或语义分析等方法，搜索本地预存的儿歌库或者搜索网络服务器中的儿歌库，儿歌库中可包含各种各样的儿歌的歌词，DM模块进而判断回复文本的内容是否存在于这些儿歌歌词中，若存在，则将当前对话场景设置为“儿歌哼唱”的语音场景。

本发明实施例中，终端设备可对回复文本的内容进行节拍对齐，以便于后续的语音合成。具体的，具体实施例中，终端可通过PM模块将回复文本的内容对齐所确定的节拍，以保证文本的各个字段与儿歌节拍的变化规律相融合。具体的，终端将切割好的文本字段按照节拍的变化规律与时间轴对齐。

举例来说，回复文本中的某个字段的字数为3，其匹配的节拍为3/3或者3/4拍，那么可将这3个字分别与一个小节内的3个拍子分别对齐。

又举例来说，回复文本中的某个字段的字数小于小节内拍子的数量，如该字段为2个字，而节拍为4/4拍，则搜索该字段前后相邻的文本字段，如果该字段之前的字段(或该字段之后的字段)的字数为2，则可以将该字段和该字段之前的字段合并，共同对齐小节内的4个拍子。如果前后的字段无法合并，或者合并后的字数仍然小于节拍数，则还可进一步通过以下方式进行节拍对齐：一种方式是将文字比节拍数少的部分用空白填补。另一种方式是通过拉长某一个字的音长来对齐节奏。再一种方式是平均拉长各个字的音长保证整体时间对齐。

第二方面，本发明实施例提供了一种语音合成设备，该设备包括处理器以及与所述处理器耦合的存储器，其中：

存储器用于，存储声学模型库和语音合成参数库(可简称为TTS参数库)，所述声学模型库保存有一个或多个声学模型，所述语音合成参数库保存有与用户的身份相关联的基础语音合成信息，以及强化语音合成信息；

所述处理器用于：根据用户的当前输入语音确定所述用户的身份；根据所述当前输入语音从所述声学模型库中获得声学模型，所述声学模型的预设信息包括预设音速、预设音量、预设音高、预设音色、预设语调和预设韵律节奏中的两个或两个以上；根据所述用户的身份从所述语音合成参数库中确定基础语音合成信息，所述基础语音合成信息包括所述预设音速、所述预设音量和所述预设音高中的一个或多个的变化量；根据所述当前输入语音确定回复文本；根据所述回复文本、所述当前输入语音的上下文信息从所述语音合成参数库中确定强化语音合成信息，所述强化语音合成信息包括所述预设音色、所述预设语调和所述预设韵律节奏中的一个或多个的变化量；通过所述声学模型，根据所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成。

基于第二方面，在可能实施例中，所述处理器具体用于：根据所述回复文本来确定所述回复文本的文学样式特征，所述文学样式特征包括所述回复文本中的部分或全部内容的句子个数、每句字数和句子字数的排列顺序中的一个或多个；根据所述回复文本涉及的文学样式特征从所述语音合成参数库中选取对应的预设韵律节奏的变化量；其中，所述文学样式特征与所述预设韵律节奏的变化量之间具有对应关系，所述预设韵律节奏的变化量表示所述回复文本的部分或全部内容中的字符的朗读时长、朗读停顿位置、朗读停顿时间、重音各自的变化。

基于第二方面，在可能实施例中，所选取的声学模型的所述预设信息还包括语言风格特征，所述语言风格特征具体包括口头禅、对特定场景的应答方式、智慧类型、性格类型、夹杂的流行语言或方言、对特定人物的称谓中的一个或多个。

基于第二方面，在可能实施例中，所述声学模型库中的声学模型有多个；所述处理器具体用于：根据所述用户的身份确定所述用户的喜好；根据所述用户的喜好从所述声学模型库中选取声学模型。

基于第二方面，在可能实施例中，所述声学模型库中的声学模型有多个，每个声学模型分别具有一个声模标识；所述处理器具体用于：根据所述当前输入语音的内容，确定与所述当前输入语音的内容相关的声模标识；从所述声学模型库中选取对应于所述声模标识的声学模型。

基于第二方面，在可能实施例中，所述声学模型库中的声学模型有多个；所述处理器具体用于：根据所述用户的身份选取所述声学模型中的多个声学模型；确定所述多个声学模型中的各个声学模型的权重值；其中，所述各个声学模型的权重值是用户预先设置的，或者，所述各个声学模型的权重值是预先根据所述用户的喜好而确定的；将所述各个声学模型基于所述权重值进行融合，获得融合后的声学模型。

基于第二方面，在可能实施例中，所述处理器还用于：在根据用户的当前输入语音确定所述用户的身份之前，根据所述用户的历史输入语音确定目标字符与用户偏好读音之间的对应关系，将所述目标字符与用户偏好读音之间的对应关系关联所述用户的身份，并将所述目标字符与用户偏好读音之间的对应关系保存到所述语音合成参数库；所述处理器还具体用于：当所述回复文本中存在与所述用户的身份关联的所述目标字符时，通过所述声学模型，根据所述目标字符与用户偏好读音之间的对应关系、所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成。

基于第二方面，在可能实施例中，所述语音合成参数库还保存有音乐库；所述处理器还用于：根据所述回复文本从所述音乐库中选取背景音效，所述背景音效为音乐或声音特效；所述处理器还具体用于：通过所述声学模型，根据所述背景音效、所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成。

基于第二方面，在可能实施例中，所述背景音效具有一个或多个情感极性类型的标识和情感强度的标识；所述情感极性类型的标识用于指示以下至少一种情感：快乐、喜欢、悲伤、惊讶、愤怒、恐惧、厌恶；所述情感强度的标识用于指示所述至少一种情感各自的程度值；所述处理器具体用于：将所述回复文本的内容拆分成多个子内容，分别确定各个子内容的情感极性类型和情感强度；根据所述各个子内容的情感极性类型和情感强度，在所述音乐库中选取最匹配的背景音效；其中，所述最匹配的背景音效包括多个子片段，各个子片段分别具有情感极性类型的标识和情感强度的标识，所述各个子片段具有的情感极性类型的标识所指示的情感极性类型分别与所述各个子内容的情感极性类型相同，且所述各个子片段具有的情感强度的标识所指示的情感强度之间的变化趋势与所述各个子内容的情感强度之间的变化趋势相一致。

基于第二方面，在可能实施例中，该设备还可包括音频电路。其中：音频电路可提供设备与用户之间的音频接口，音频电路可进一步连接有扬声器和传声器。一方面，传声器可收集用户的声音信号，并将收集的声音信号转换为电信号，由音频电路接收后转换为音频数据(即形成用户的输入语音)，再将音频数据传输至处理器进行语音处理，另一方面，处理器2011基于用户的输入语音来合成回复语音后，传输至音频电路，音频电路可将接收到的音频数据(即回复语音)转换后的电信号，进而传输到扬声器，由扬声器转换为声音信号输出。

第三方面，本发明实施例提供了一种语音合成设备，其特征在于，所述语音合成设备包括：语音识别模块，语音对话模块和语音合成模块，其中：

语音识别模块，用于接收用户的当前输入语音；

语音对话模块，用于根据用户的当前输入语音确定所述用户的身份；根据所述用户的身份确定基础语音合成信息，所述基础语音合成信息包括声学模型的预设音速、预设音量和预设音高中的一个或多个的变化量；根据所述当前输入语音确定回复文本；根据所述回复文本、上下文信息确定强化语音合成信息，所述强化语音合成信息包括所述声学模型的预设音色、预设语调和预设韵律节奏中的一个或多个的变化量；

语音合成模块，用于根据所述当前输入语音从预设的声学模型库中获得所述声学模型，所述声学模型的预设信息包括所述预设音速、所述预设音量、所述预设音高、所述预设音色、所述预设语调和所述预设韵律节奏；通过所述声学模型，根据所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成。

上述语音识别模块、语音对话模块和语音合成模块具体用于实现第一方面所描述的语音合成方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

第五方面，本发明实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

可以看到，实施本发明实施例的技术方案，终端能够基于对话交互的回复文本以及对话上下文信息，为不同的用户选择不同的TTS参数，从而自动结合用户的喜好以及对话情景以生成不同风格的回复语音，向不同用户提供个性化的语音合成效果，大大提升用户与终端的语音交互体验，改善人机对话的时效性。此外，终端也允许用户通过语音实时调教终端的语音应答系统，更新与用户身份、喜好相关联的TTS参数，使得调教出来的终端更加贴近用户的交互喜好，最大化提升用户交互体验。

附图说明

为了更清楚地说明本发明实施例或背景技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图进行说明。

图1是本发明实施例涉及的语音的基本物理要素的示意图；

图2是本发明实施例提供的一种系统架构的示意图；

图3是本发明实施例提供的又一种系统架构的示意图；

图4是本发明实施例提供的一种系统架构以及终端设备的结构示意图；

图5是本发明实施例提供的TTS参数库的示意图；

图6是本发明实施例提供的声学模型库的示意图；

图7是本发明实施例提供的一种语音合成流程的示意图；

图8是本发明实施例提供的一种对回复文本进行语音合成的示意图；

图9是本发明实施例提供的又一种系统架构以及终端设备的结构示意图；

图10是本发明实施例提供的一种语音合成方法的流程示意图；

图11是本发明实施例提供的一种与用户身份关联的基础TTS参数的示例性图表；

图12是本发明实施例提供的一种定制字符读音表的示例性图表；

图13是本发明实施例提供的一种情感参数修正映射表的示例性图表；

图14是本发明实施例提供的一种用户身份关联的语音情感参数的示例性图表；

图15是本发明实施例提供的一种场景参数修正映射表的示例性图表；

图16是本发明实施例提供的一种用户身份关联的语音场景参数的示例性图表；

图17-19是本发明实施例提供的一些与回复文本对应的调用指令的示例性图表；

图20是本发明实施例提供的一种更新定制字符读音表的方法流程示意图；

图21是本发明实施例提供的一种确定当前回复文本所需用到的TTS参数的方法流程示意图；

图22是本发明实施例提供的一种“诗词朗诵”的语音场景相关的语音合成方法的流程示意图；

图23是本发明实施例提供的一种将回复文本的内容进行韵律节奏模板对齐的示意图；

图24是本发明实施例提供的一种“歌曲哼唱”的语音场景相关的语音合成方法的流程示意图；

图25是本发明实施例提供的一些对回复文本的内容进行节拍对齐的示意图；

图26是本发明实施例提供的一种“人物模仿”的场景相关的语音合成方法的流程示意图；

图27是本发明实施例提供的一些特定声学模型的声音类型对应声音特征的示例性图表；

图28是本发明实施例提供的一种语音特征的参数和语言风格特征的参数的选择界面示意图；

图29是本发明实施例提供的一种叠加背景音效的场景的语音合成方法的流程示意图；

图30是本发明实施例提供的一种确定最匹配的音乐片段的示意图；

图31是本发明实施例提供的一种硬件设备的结构示意图。

具体实施方式

现今，随着人机对话技术的急速发展，人们对人机对话的时效性、个性化方面有了更高的要求。用户不再满足于机器“说话声音像人类”，而是期望机器为不同的用户提供个性化的语音交互。比如，当用户是一位听力不太好的老奶奶时，她会希望机器能自动提高语音音量；比如用户希望能够像教育人一样来调教机器，使得机器的语音答复符合自己的性格、心情、爱好等等；又比如用户希望机器回复的声音更加生动有趣，对话语气符合语境情感；又比如用户希望机器回复的声音符合对话场景，例如机器自动根据对话场景进行朗诵诗歌、唱歌、讲故事等等。基于此，本发明实施例提供了语音合成方法及其相应设备，用于满足人们对于人机交互过程中，语音合成的个性化，多样化的需求。

下面结合本发明实施例中的附图对本发明实施例进行描述。本发明的实施方式部分使用的术语仅用于对本发明的具体实施例进行解释，而非旨在限定本发明。

为了便于理解本发明实施例的技术方案，首先解释本发明实施例涉及的相关概念。

语音(speech sound)，即语言的声音，是语言交际工具的声波形式，语音实现语言的表达功能和社交功能。语音的基本物理要素主要有音强、音长、音高、音色等。参见图1，分别描述如下：

(1)音强(intensity)，在不同场景中音强又可能被称为音量(volume)、音势、音重、重音等等。音强由声波振幅的大小决定，其与声波振幅的大小成正比，表示声音的强弱。音强在汉语里有区别词义的作用和一定的语法作用，比如音强决定了轻声、重音的区别意义。

(2)音长(duration)，音长表示声波振动持续时间的长短，其由发音体振动时持续时间的长短决定，振动时间越长声波就越长。音长可以用音速(speed)的概念来表征，音速表示发音速度的快慢，即音长越长则音速越慢。

(3)音高(pitch)，有时候又称音调，音高的高低是由声波振动频率的高低决定，振动频率越高则音高越高。在汉语里，汉字的声调和语句的语调主要是由音高决定。

(4)音色(timbre)，在不同场景中音色又可能被称为音质、音品等。音色表示声音的特色和本质，不同的音色对应于不同的声波波纹的曲折形式(声波波形)。音色是一个声音区别于其他声音的基本特征，不同人(或发音体)的音色各有区别。

汉语不同于西方语系，其表现在语法结构、语法规则、声学特性、韵律结构等方面。在汉语里，汉字是一字一音，即一个音节一般就是一个汉字，声调是音节结构中不可或缺的组成部分，通常用声调来表示一个音节发音时的高低升降，所以声调又叫字调。声调的形成除了主要由音高变化决定外，还表现在音长变化上。在发音过程中，发音体可随时调整音高和音长的变化，这样就会形成了不同的声调。声调担负着重要的辨义作用，例如通过声调来区别汉语语音中“题材”和“体裁”、“练习”和“联系”等等的词语意义。此外，在汉语里，每个字都有相应的基频(基音的频率，基频决定了该字基础的音高)，而且，字字之间的基频还可能会互相影响，从而产生音基频的变异(即音变现象)。另外，在汉语里，连续语句的发音中间还会出现停顿，语句中的不同字会根据上下语义而采用轻音或重音。汉语的这些语法结构、语法规则、声学特性、韵律结构共同形成了汉语在语音上的抑扬顿挫、语气感情和韵律节奏。

下面，描述本发明实施例所涉及的系统架构。本发明实施例的系统架构涉及用户和终端，其中，用户向终端输入语音，终端可通过语音应答系统对用户的语音进行处理，得到用于回复用户的语音，并将回复语音呈现给用户。本发明实施例中的终端可以是对话互动机器人、家用/商用机器人、智能音箱、智能台灯、智能家电、智能家具、智能交通工具，还可以是应用在智能手机、笔记本电脑、平板电脑等等移动设备上的语音助手/语音对话软件。

举例来说，在一种应用场景中，参见图2，所述终端为机器人，用户向机器人发出语音(如用户直接向机器人讲话)，机器人向用户回复语音作为应答(如机器人通过蜂鸣器播放所回复的语音)，从而实现了用户与机器人之间的人机对话。

又举例来说，在又一种应用场景中，参见图3，所述终端为应用在智能手机上的语音助手，用户向语音助手发出语音(如用户触发智能手机上所显示的语音助手相关图标进行讲话)，语音助手向用户回复语音作为应答(如语音通过屏幕显示语音信息，以及通过蜂鸣器播放所回复的语音)，从而实现了用户与语音助手之间的交互对话。

另外，需要说明的是，所述终端还可能是服务器，比如在又一应用场景中，终端向智能手机发出语音，智能手机将语音信息传输至服务器，服务器根据语音信息得到回复语音，将回复语音返回至智能手机，智能手机再将回复语音呈现给用户(如通过屏幕显示语音信息，以及通过蜂鸣器播放所回复的语音等等)，从而实现了用户与服务器之间的交互对话。

下面详细描述上述系统架构中终端的语音应答系统。

参见图4，图4示出了一种系统架构中终端的语音应答系统10，如图4所示，所述语音应答系统10包括语音识别模块101、语音对话模块102和语音合成模块103。各个模块功能描述如下：

(1)语音识别(Automated speech recognition，ASR)模块101，ASR模块101用于识别用户输入语音的内容，将语音内容识别成文本，实现“语音”到“文字”的转换。

(2)语音对话模块102，语音对话模块102可用于基于ASR模块101输入的识别文本生成回复文本，将回复文本传输至语音合成模块103；语音对话模块102还用于确定回复文本对应的个性化的TTS参数，以便于后续语音合成模块103基于相关TTS参数对回复文本进行语音合成。在一具体实施例中，语音对话模块102可具体包括以下模块：

自然语言理解(Natural Language Understanding，NLU)模块1021，NLU模块1021可用于对ASR模块101输入的识别文本进行语法分析和语义分析，从而理解用户说话(语音)的内容。

自然语言生成(Natural Language Generation，NLG)模块1022，NLG模块1022可用于根据用户说话的内容以及上下文信息生成对应的回复文本。

对话管理(Dialogue Management，DM)模块1023，DM模块1023用来负责当前会话状态跟踪和对话策略的控制。

用户管理(User Management，UM)模块1024，UM模块1024负责用户身份确认、用户信息的管理等，具体实施例中，UM模块1024可使用现有的身份识别系统(如声纹识别、人脸识别甚至多模态的生物特征)来确定用户身份。

意图识别模块1025：意图识别模块1025可用于识别出用户说话内容所指示的用户意图。具体实施例中，可在意图识别模块1025中加入TTS参数设置相关的语料知识，意图识别模块1025可识别出用户想要针对一个或多个TTS参数进行设置(更新)的交互意图。

TTS参数库1026，如图5所示，TTS参数库1026用于存放基础TTS参数(或称基础语音合成信息)、强化TTS参数(或称强化语音合成信息)、定制字符读音表、音乐库等信息，分别描述如下：

所述基础TTS参数表示合成语音时所使用到的声学模型的预设音速、预设音量、预设音高中的一个或多个的变化量，所述基础TTS参数与用户的身份相关联，也就是说可根据用户的身份(或者说根据用户的喜好)来组织不同的基础TTS参数。

所述强化TTS参数表示合成语音时所使用到的声学模型的预设音色、预设语调、预设韵律节奏中的一个或多个的变化量，在实际应用中，所述强化TTS参数可进一步分类为语音情感参数和语音场景参数等。所述语音情感参数用于使通过声学模型合成的语音呈现出具体的情感特征，根据情感特征的不同，语音情感参数可进一步分类为中性情感、轻度高兴、中度高兴、极度高兴、轻度悲伤、中度悲伤等参数，具体实现方式可参考后文的详细描述。所述语音场景参数用于使通过声学模型合成的语音呈现出具体的场景特征，根据场景特征的不同，所述语音场景参数又可进一步划分为日常对话、诗词朗诵、歌曲哼唱、故事讲述、新闻播报等等参数，也就是说语音合成中采用这些语音场景参数将能够使合成语音呈现出日常对话、诗词朗诵、歌曲哼唱、故事讲述、新闻播报等语音场景的声音效果，具体实现方式可参考后文的详细描述。

所述定制字符读音表包括目标字符与用户偏好读音之间的映射关系，所述目标字符可以是字(汉字或其他文字)、字母、数字、符号等等。所述目标字符与用户偏好读音之间的映射关系用于使通过声学模型合成的语音所涉及的目标字符具有用户所偏好的读音。所述目标字符与用户偏好读音之间的映射关系与用户的身份相关联，也就是说可根据用户的身份来组织不同的映射关系，具体实现方式可参考后文的详细描述。

所述音乐库包括多个音乐信息，这些音乐信息用于语音合成过程中提供背景音效，所述背景音效可以是具体的音乐也可以是声音特效。所述背景音效用于使通过声学模型合成出来的语音背景中叠加有不同风格、节奏的音乐或声音效果，从而增强合成语音的表达效果(比如增强情感效果)，具体实现方式可参考后文的详细描述。

TTS参数管理(Parameter Management，PM)模块1026：PM模块1027用于对TTS参数库中的TTS参数进行管理，管理的方式包括根据用户对TTS参数进行设置的意图对一个或多个TTS参数执行查询、新增、删除、更新(更改)、选择、获取(确定)等操作。比如在具体实施例中，PM模块1027可用于根据用户身份确定与之关联的基础TTS参数，以及根据回复文本的内容和上下文信息确定用于强化语音合成效果的强化TTS参数。

(3)语音合成(Text to Speech，TTS)模块103，TTS模块103用于将语音对话模块102生成的回复文本转换成回复语音，以便于将回复语音呈现给用户。TTS模块103可具体包括以下模块：

指令生成模块1031，指令生成模块1031可用于根据语音对话模块102传输过来的回复文本以及TTS参数(包括基础TTS参数和强化TTS参数)，生成或更新调用指令，所述调用指令可应用于TTS引擎1032。

TTS引擎1032，TTS引擎1032用于根据指令生成模块1031生成或更新的调用指令，从声学模型库1033调用声学模型库1033中合适的声学模型，并通过该声学模型，根据基础TTS参数、强化TTS参数、目标字符与用户偏好读音之间的映射关系、背景音效等信息来对回复文本进行语音合成，从而生成回复语音，返回该回复语音给用户。

声学模型库1033，如图6所示，声学模型库1033中可包括多个声学模型，例如通用声学模型、以及若干个性化声学模型，等等。这些声学模型皆为神经网络模型，这些神经网络模型可预先由不同的语料进行训练而成。对于每个声学模型而言，每个声学模型皆对应有各自的预设信息，也就是说每个声学模型分别绑定一特定的预设信息。这些预设信息可作为该声学模型的基础输入信息。例如，通用声学模型的预设信息可包括其该模型的预设音速、预设音量、预设音高、预设音色、预设语调、预设韵律节奏中的两个或两个以上；个性化声学模型的预设信息除了包括该模型的预设音速、预设音量、预设音高、预设音色、预设语调、预设韵律节奏中的两个或两个以上外，还可包括其他的个性化信息，比如包括口头禅、对特定场景的应答方式、智慧类型、性格类型、夹杂的流行语言或方言、对特定人物的称谓等等语言风格特征。需要理解的是，不同声学模型的预设音速、预设音量、预设音高、预设音色、预设语调、预设韵律节奏等预设信息也各有差异，举例来说，个性化声学模型的预设信息可明显不同于通用声学模型的预设信息。本发明实施例中，声学模型能够根据预设信息以及预设信息的变化信息，将回复文本转换成回复语音。这里所说的预设信息的变化信息即表示语音合成中所选取的基础TTS参数、强化TTS参数、目标字符与用户偏好读音之间的映射关系、背景音效等信息。通过通用声学模型合成的语音呈现正常、通用对话场景下的声音效果，而通过个性化声学模型合成的语音能够“人物模仿”的对话场景的声音效果。关于“人物模仿”的对话场景的实现方法将在后文详细描述。

需要说明的是，可能实施例中，上述图4实施例中的各个模块可以是软件模块，这些软件模块可存储于终端设备的存储器，并由终端设备的处理器来调用存储器中的这些模块来执行语音合成方法。另外在可能实施例中，上述图4实施例中的各个模块的实现形式可以是终端设备中的硬件部件。

下面简要描述基于图4所述的语音应答系统进行语音合成的过程。参见图7，语音应答系统获得用户的输入语音后，经由语音识别模块和语音对话模块得到回复文本，语音对话模块基于当前用户身份从TTS参数库中确定与身份关联的基础TTS参数；基于回复文本、上下文信息从TTS参数库中确定强化TTS参数、背景音效；如果回复文本中存在与用户身份关联的目标字符，则还确定目标字符对应的用户偏好读音。之后，语音合成模块基于基于用户的输入语音或者用户的喜好(用户的喜好与用户的身份相关联)或者回复文本，从声学模型库中调用合适的声学模型，并通过声学模型结合TTS参数(基础TTS参数、强化TTS参数、目标字符与用户偏好读音之间的映射关系、背景音效中的一个或多个)进行语音合成，从而生成用于呈现给用户的回复语音。

为了便于理解本发明实施例的方案，下面以图8为例进行说明，图8示出了一种应用场景的语音合成过程，如图8所示，该应用场景中，语音应答系统获得用户的输入语音后，经由语音识别模块和语音对话模块得到的回复文本为“今天天气很好”，语音对话模块确定了该用户身份关联的基础TTS参数，以及基于回复文本的内容和上下文信息确定了语音情感参数、语音场景参数等强化TTS参数，以及基于回复文本的内容确定了背景音效，那么，语音合成模块可通过所选取的声学模型，基于所选取的基础TTS参数、语音情感参数、语音场景参数和背景音效对回复文本进行语音合成，即可最终生成用于回复用户的合成语音(jin1 tian1 tian1 qi4 hen3 hao3)。

需要说明的是，图4实施例仅仅是本发明的一种具体实施方式，在本发明其他可能的实施方式中还可能包括更多或更少的功能模块，且上文所述功能模块之间还可能会进行适当的拆分、组合、变更部署方式等。

比如，声学模型库1033可部署于TTS引擎1032中,以更加便利于TTS引擎调用声学模型以及通过声学模型进行语音合成。

比如，声学模型库1033也可部署于语音对话模块102中，或者部署在语音对话模块102之外的位置。

比如，在一可能实施方式中，PM模块1027和TTS参数库1026还可整合在一起并独立部署在语音对话模块102之外的位置。

比如，在一可能实施方式中，PM模块1027还可具体部署于TTS引擎1032中，也就是说“TTS参数管理”可作为TTS引擎1032的一个功能而实现。又比如，在一可能实施例中，意图识别模块1025还可具体部署于DM模块1023中，也就是说，“意图识别”可作为DM模块1023的一个功能而实现。

比如，在可能实施例中，TTS参数库1026可具体部署于PM模块1027中，即PM模块1027可将TTS参数按类别和用户身份进行组织和存储；或者，TTS参数库1026还可在语音对话模块102之外的位置进行独立部署；或者，声学模型库1033可在TTS模块103之外的位置进行独立部署；或者，声学模型库1033还可与TTS参数库1026部署在一起，等等。

又比如，在一可能实施方式中，如图9所示，为了丰富语音合成中TTS参数的可选择性，可将PM模块1027拆分成基础TTS参数管理模块1028和强化TTS参数管理模块1029。其中，基础TTS参数管理模块1028用于对TTS参数库1026中的基础TTS参数、定制字符读音表进行管理，管理方式包括根据用户对基础TTS参数进行设置的意图对一个或多个基础TTS参数执行查询、新增、删除、更新(更改)、选择、获取(确定)等操作，以及根据用户对目标字符对应的用户偏好读音进行设置的意图对定制字符读音表执行查询、新增、删除、更新(更改)、选择、获取(确定)等操作。在语音合成过程中，基础TTS参数管理模块1028还可用于获取与用户身份相关联的基础TTS参数、目标字符对应的用户偏好读音等等。强化TTS参数管理模块1029用于对TTS参数库1026中的强化TTS参数、音乐库进行管理，管理方式包括根据用户对强化TTS参数进行设置的意图对一个或多个强化TTS参数执行查询、新增、删除、更新(更改)、选择、获取(确定)等操作，以及根据用户的对背景音效进行设置的意图对音乐库执行查询、新增、删除、更新(更改)、选择、获取(确定)等操作。在语音合成过程中，强化TTS参数管理模块1029可根据回复文本的内容和上下文信息获取用于强化语音合成效果的强化TTS参数、背景音效。

需要说明的是，可能实施例中，上述图9实施例中的各个模块可以是软件模块，这些软件模块可存储于终端设备的存储器，并由终端设备的处理器来调用存储器中的这些模块来执行语音合成方法。另外可能实施例，上述图9实施例中的各个模块的实现形式可以是终端设备中的硬件部件。

又比如，在一可能实施方式中，所述强化TTS参数管理模块1029还可部署于TTS引擎1032中，也就是说“强化TTS参数管理”可作为TTS引擎1032的一个功能而实现。

还需要说明的是，为了便于本发明技术方案的理解，本文主要基于图4实施例所呈现的功能模块来描述本发明技术方案，而其他形式的功能模块实现方式将可类似地参考实现，本文不再一一赘述。

可以看到，实施本发明实施例的技术方案，在用户与终端的人机语音交互中，ASR模块识别用户的语音为文本后，语音对话模块一方面生成相应的回复文本，另一方面能够基于对话交互的回复文本以及对话上下文信息，结合当前用户的身份、喜好以及对话情景选择个性化的TTS参数，进而TTS模块能够根据这些个性化的TTS参数生成特定风格的回复语音，向用户提供个性化的语音合成效果，大大提升用户与终端的语音交互体验，改善人机对话的时效性。此外，终端也允许用户通过语音实时调教终端，更新与用户身份、喜好相关联的TTS参数，使得调教出来的终端更加贴近用户的交互喜好，最大化提升用户交互体验。

参见图10，基于上述系统架构和语音应答系统，下面描述本发明实施例提供的语音合成方法流程，从多侧的角度进行描述，该方法流程包括但不限于以下步骤：

步骤101.用户向终端输入语音，相应的，终端获取用户输入的语音。

本发明实施例中的终端可以是对话互动机器人、家用/商用机器人、智能音箱、智能台灯、智能家电、智能家具、智能交通工具，还可以是应用在智能手机、笔记本电脑、平板电脑等等移动设备上的语音助手/语音对话软件。具体实现还可参考图2或图3实施例的描述，这里不再赘述。

步骤102.终端识别用户输入语音的内容，将语音识别成文本。

具体实施例中，终端可通过其语音应答系统的ASR模块识别用户输入语音的内容，例如识别出用户输入语音的内容为：“说话太慢了，请说快一点吧”，“说话声音能不能大一点”，“‘白云深处有人家’的上一句是什么”等等。其中，ASR模块可直接使用当前商业ASR系统来具体实现，本领域技术人员已熟悉其实现方式，这里不展开描述。

步骤103.终端确定用户身份。

具体实施例中，终端可通过其语音应答系统的UM模块来识别用户的身份，比如，UM模块可通过声纹识别、人脸识别甚至多模态的生物特征识别的方式来确定语音输入者(即用户)的身份。可以理解的，如果终端识别出用户身份为本地已注册用户(如当前用户为xiaoming)，则后续可调取该用户对应的TTS参数；如果终端无法识别用户身份，则确定所述用户为陌生用户(如当前用户为xiaohua)，后续可调取默认的TTS参数。

步骤104.终端确定用户的说话意图。

具体实施例中，终端可结合其语音应答系统的NLU模块和意图识别模块来确定用户说话意图，实现过程包括如下：NLU模块对识别文本进行文本分析，包括分词、语义分析、词性分析等，识别其中的关键字/词。例如，针对TTS参数设置相关的关键字/词可以包括“声音”、“音量”、“说话速度”、“发音”、“感情”、“朗诵”、“快”，“慢”，“高兴”，“悲伤”等等。意图识别模块结合对话上下文，对识别文本进行指代消解、句子意思补全，进而可利用模板匹配方式或统计模型方式识别用户是否有更新TTS参数的意图，其中，所述指代消解是指在识别文本中确定代词指向哪个名词短语。

其中，对于模板匹配的方式，可首先分析常用指令中出现的关键字和以及词的组合，然后构造模板/规则用于匹配特定的意图，如文本句子里出现“…声音/说/讲/读…慢/快…”这样的句式模板，则可认为用户的说话意图是需要调整该用户对应的基础TTS参数中的音速(如音速提高或降低20％)；如文本句子里出现“…声音/说/讲/读…大声/小声/大/小…”这样的句式模板，则可认为用户的说话意图是需要调整该用户对应的基础TTS参数中的音量(如音量提高或降低20％)；如文本句子出现“刚才/刚刚说的…中的[词1]应该念/读…[词2]”这样的句式模板，则可认为用户的说话意图是需要更正/增添该用户对应的基础TTS参数中的定制字符读音表中的发音；如文本句子出现“…感情/情感/读/讲/说…高兴/欢乐/开心/愉快…”这样的句式模板，则可认为用户的说话意图是将语音情感参数设置为“轻度高兴”；如文本句子出现一个或多个诗/词句子，或者出现“…念/读/朗诵…诗/诗歌/词…”的句式模板，则可认为用户的说话意图是将语音场景参数设置为“诗歌朗读”，等等。

其中，对于统计模型的方法，可预先收集各种用户说话意图对应的常用的说法，对每一种说法意图进行类别标注，形成包含多种标注数据的训练集的，而后利用训练集的标注数据训练机器学习模型，训练算法包括但不限于支持向量机(Support VectorMachines，SVM)算法，朴素贝叶斯(Naive Bayes)算法，决策树(Decision Tree)算法、神经网络(Neural Network，NN)算法等。这样，模型训练好之后，在需要确定用户的说话意图时，将用户说话对应文本句子的关键字/词输入至该模型，就可以确定该文本句子对应的说话意图。进一步地，还可以预先对训练好的模型基于对话领域或话题类型进行分类，如划分成“天气”类、“诗词类”、“歌曲类”、“新闻类”、“生活交际类”、“电影”类、“体育”类等等的模型，这样，意图识别模块可根据当前对话状态以及文本句子的关键字/词确定对话领域或话题类型，然后意图识别模块优先将关键字/词作为输入对应的对话领域模型或话题类型模型中，进而确定该文本句子对应的说话意图。

步骤105.终端判断用户的说话意图是否为进行TTS参数的设置。

步骤106.如果判断说话意图为进行TTS参数的设置(如更新，删除，新增等操作)，则终端根据说话意图的指示执行TTS参数的设置操作。所述TTS参数包括与用户身份关联的音速、音量、音高各自的变化量等基础TTS参数以及定制字符读音表等；所述TTS参数还包括语音情感参数、语音场景参数等强化TTS参数、背景音效等。需要理解的是，在可能的实现中，强化TTS参数可能会与用户的身份相关联，也可能不需关联用户的身份。所述设置操作相应为新增TTS参数、删除TTS参数、更新(更改)TTS参数等操作。

具体实施例中，若用户为本地已注册用户，则可对与该用户身份相关联的TTS参数执行更新操作。若用户为未注册用户，那么可先为该用户创建/注册本地用户身份，该本地用户身份初始关联默认的TTS参数，然后再对与该用户身份相关联的默认TTS参数执行更新操作。

具体实施例中，终端可通过语音应答系统的PM模块，按照语音对话模块(如具体为NLU模块和/或意图识别模块)发出的TTS参数更新指令，对TTS参数库中用户身份关联的TTS参数执行更新操作。

举例来说，本发明实施例中，基础TTS参数表示相对于基础语音物理要素的变化量(或称变化系数)，对于基础TTS参数中预设音速、预设音量、预设音高的变化量，可按用户身份进行组织和存储，参见图11，图11示出了一种与用户身份关联的基础TTS参数的示例性图表，如图11所示，图表中的数组表示相对于语音合成中所选取的声学模型的预设音速、预设音量、预设音高的默认值的上升/下降比例。图表包括了未注册用户和已注册用户。其中，未注册用户表示尚未进行身份注册或认证未通过的用户，其关联的预设音速、预设音量、预设音高的变化量均为默认值0；已注册用户表示已进行身份注册且认证通过的用户，例如包括“xiaoming”、“xiaoming_mom”、“xiaoming_grandma”、“xiaoming_dad”等。可以看到，对于用户“xiaoming_grandma”，其关联的音速、音量、音高的基础TTS参数分别为：“-40％，+40％，+20％”，也就是说，在合成对应该用户的语音时，回复文本对应的基础语音将会降低40％的音速、增加40％的音量以及增加20％的音高。另外，还可以看到，这些已注册用户对应的预设音速、预设音量、预设音高的变化量可被执行新增、更正/更改、删除等操作，比如终端基于“xiaoming”的说话意图“增加音量”，将“xiaoming”关联预设音量的变化量在默认值“0”基础上提升到“+20％”；又比如终端基于“xiaoming_mom”的说话意图“降低音速”，将“xiaoming_mom”关联的预设音速的变化量在原先的“+40％”基础上降低到“+20％”，等等。

又举例来说，本发明实施例中，对于定制字符读音表，可按用户身份进行组织和存储，参见图12，图12示出了一种与用户身份关联的定制字符读音表的示例性图表，如图12所示，未注册用户对应的定制字符读音表为空，而已注册用户对应的定制字符读音表可基于该用户的喜好进行新增、更改、删除等操作。设置操作的对象可以是终端容易误读的或者用户所喜好的字、人名/地名、字母、特殊符号等等。定制字符读音表包括目标字符(串)与用户偏好读音(pronunciation)之间的映射关系，目标字符(串)可以是字(汉字或外文)、词语、短语、句子，还可以是数字、符号(如中文字符、外文字符、颜文字、标点符号、特殊符号…)等等。比如终端原本预置读音表“小猪佩奇”读音为“xiao3zhu1pei4qi2”，如果“xiaoming”的说话意图为将短语“小猪佩奇”中的“奇”的读音设置为“ki 1”，则终端将“小猪佩奇”与“xiao3 zhu1 pei4 ki1”作为一映射关系写入“xiaoming”关联的定制字符读音表。可以理解的是，图12所示图表仅仅是示例而非限制。

又举例来说，本发明实施例中，对于强化TTS参数中的语音情感参数，语音情感参数表征了语音中的语调变化，所谓语调变化，是指语音中声音的音高的升降、音量的轻重、音速的快慢、语音文字的停顿位置/停顿时间等等的变化。这些变化对于语音的表情达意而言，具有非常重要的作用，通过语调的变化能够使得语音呈现出来高兴、喜悦、难过、悲哀、愁苦、犹豫、轻松、坚定、豪迈等复杂的情感。

本发明具体实施例中，TTS参数库中维护有“语音对话模块建议的语音情感”与“语音情感参数”的映射关系，该映射关系例如为图13所示的情感参数修正映射表。基于不同的语音情感参数所合成的语音就会带上对应的情感口吻，如语音对话模块建议的语音情感为“中性情感(Neutral)”，那么语音合成模块基于中性情感的语音情感参数合成的语音将体现出中性情感的口吻(即不带任何情感特性)；语音对话模块建议的语音情感为“轻度高兴(Happy_low)”，那么语音合成模块基于轻度高兴的语音情感参数合成的语音则为带有轻度高兴的口吻；语音对话模块建议的语音情感为“轻度悲伤(Sad_low)”，那么语音合成模块基于轻度悲伤的语音情感参数合成的语音则为带有轻度悲伤的口吻，等等。可以理解的是，图13所示图表仅仅是示例而非限制。

本发明具体实施例中，语音情感参数除了与用户身份有关，还与回复文本以及上下文信息相关。在用户身份创建后，与用户身份关联的默认语音情感参数可对应为中性情感，在语音对话过程中终端可根据用户身份、回复文本以及上下文信息，综合确定在当前语音合成过程中所采用的语音情感参数。比如，如果终端判定回复文本以及上下文信息不指定语音情感，或者指定的语音情感与该用户默认的语音情感一致，则终端选择用户默认的语音情感应用到最终语音的合成，例如用户默认语音情感为“中性情感”，终端判定当前回复文本的语音合成没有指定的语音情感，则终端依旧采用“中性情感”应用到最终语音的合成；如果终端判定回复文本以及上下文信息需要指定语音情感，且指定的语音情感与该用户默认的语音情感不一致，那么终端自动将当前语音情感调整为终端所指定的语音情感，例如用户默认语音情感为“中性情感”，但是终端判定当前回复文本的语音合成需要“轻度高兴”的语音情感，那么终端采用“轻度高兴”的语音情感参数终语音的合成。

具体实施例中，终端可基于用户的说话意图更新该用户身份关联的语音情感参数。如图14所示，终端可根据“xiaoming_grandma”的说话意图，更改“xiaoming_grandma”关联的语音情感参数，即从默认“中性情感”的语音情感参数更改为“轻度高兴”的语音情感参数。可以理解的是，图14所示图表仅仅是示例而非限制。

又举例来说，本发明实施例中，对于强化TTS参数中的语音场景参数，语音场景参数表征了语音中的韵律节奏变化。所谓韵律节奏变化，是相对于普通对话的自然状态下的韵律节奏而言，具有更加明确清晰的韵律节奏和强烈情感表达，从而使得语音对话贴合特定的应用场景，韵律节奏的变化可体现在语音停顿位置/停顿时间变化、重音的位置变化、单词/单字的音长变化、单词/单字的音速变化等方面。这些韵律节奏的特定变化可具体呈现出“诗词朗诵”“歌曲哼唱(或儿歌哼唱)”“故事讲述”“新闻播报”等语音场景效果。

本发明具体实施例中，TTS参数库中维护有“语音对话模块建议的语音场景”与“语音场景参数”的映射关系，该映射关系例如为图15所示的场景参数修正映射表。可以理解的，基于不同的语音场景参数所合成的语音就会体现对应的场景口吻，如基于日常对话的语音场景参数合成的语音即体现出日常对话的口吻，基于诗词朗诵的语音场景参数合成的语音即体现出诗词朗诵的口吻，基于歌曲哼唱的语音场景参数合成的语音即体现出歌曲哼唱的口吻，等等。可以理解的是，图15所示图表仅仅是示例而非限制，在可能的实施例中，还可以基于实际应用的需要设计其他语音场景参数，如故事讲解，新闻播放等。

本发明具体实施例中，语音场景参数主要与回复文本以及上下文信息相关。参见图15，在用户身份创建后，与用户身份关联的默认语音场景参数对应的语音场景为“日常对话”，在语音对话过程中终端可根据用户身份、回复文本以及上下文信息，综合确定在当前语音合成过程中所采用的语音场景参数。比如，如果终端判定回复文本以及上下文信息不指定语音场景，或者指定的语音场景与该用户默认的语音场景一致，则终端选择用户默认的语音场景参数应用到最终语音的合成。例如，用户默认语音情感为“日常对话”，终端判定当前回复文本的语音合成没有指定的语音场景，则终端依旧采用“日常对话”应用到最终语音的合成；如果终端判定回复文本以及上下文信息需要指定语音场景，且指定的语音场景与该用户默认的语音场景不一致，那么终端自动将当前语音场景调整为终端所指定的语音场景。例如，用户默认语音情感为“日常对话”，但是终端判定当前回复文本的语音合成需要“诗词朗诵”的语音场景，那么终端采用“诗词朗诵”对应的语音场景参数应用到最终语音的合成。

具体实施例中，终端可基于用户的说话意图更新该用户身份关联的默认语音场景参数。如图16所示，终端可根据“xiaoming_dad”的说话意图，将“xiaoming_dad”的默认语音场景参数对应的语音场景从“日常对话”更改为“诗词朗诵”。可以理解的是，图16所示图表仅仅是示例而非限制。

需要说明的是，关于“诗词朗诵”、“歌曲哼唱(如儿歌哼唱)”等语音场景参数的相关内容还将在后文中详细描述，这里不再赘述。

此外，为了更好地实施本步骤，在一种可能实现方式中，意图识别模块确定TTS参数设置意图后，由PM模块执行具体的更新操作，其流程可具体实施如下：PM模块维护一个参数更新意图和具体操作接口的映射表，从而根据当前识别的意图ID确定对应的操作API。例如对于增加音量意图，其调用Update-Costomized-TTS-Parameters-volume接口，其输入是用户ID和调节幅度值；又例如对于更正符号读音的意图，其调用Update-Costomized-TTS-Parameters-pron接口，其输入是用户ID和需更正读音的符号以及目标读音串，等等。若当前用户为已注册用户，则PM模块执行相关的更新接口，实施上文所描述的TTS参数更新过程。若当前用户为未注册用户，则PM模块可为该陌生用户新增一条用户信息记录，其关联的TTS参数均使用默认值，然后再对其关联的TTS参数进行参数更新。

步骤107.终端结合上下文信息生成回复文本。

在一实施例中，如果用户的说话意图是对TTS参数进行设置，那么，终端基于用户的说话意图进行TTS参数设置后，生成回复文本，所述回复文本主要用于将终端已完成TTS参数设置的情况告知给用户。比如，当前用户输入语音所指示的用户意图为“提高音速”或“提高音量”，则可返回设置结果对应的预设文本作为回复文本，如回复文本对应为“说话速度已经快一点了”、“音量已经调大一点了”等等。

在又一实施例中，如果用户的说话意图并不是对TTS参数进行设置，那么，终端可结合用户说话的内容以及用户对话的上下文信息来生成用于答复用户的回复文本。比如，用户的输入语音的内容为“今天的天气情况如何”，则终端可查询本地网络资源或根据对话模型得到用于答复用户的回复文本，如回复文本为“今天天气很好，是个晴天”等等；用户的输入语音的内容为“‘白云深处有人家’的上一句是什么”，则终端可查询本地网络资源或根据对话模型得到回复文本“‘白云深处有人家’的上一句是‘远上寒山石径斜’”，等等。

具体实施例中，终端可通过语音应答系统的NLG模块结合DM模块中的上下文信息来生成回复文本。具体实现中，回复文本生成可以通过基于检索、基于模型生成等方式实现。

其中，对于基于检索的回复文本生成方式，具体做法可以是：预先准备好问答及答案对的语料，而在回复生成时找出语料中同当前问题的最佳匹配，继而将其相应的答案返回作为回复文本。

其中，对于基于模型生成的回复文本生成方式，具体做法可以是：预先根据大量的问题和答案对语料来训练出一个神经网络模型，在回复文本生成过程中，将问题作为该神经网络模型的输入，而计算出其对应的回复答案，该回复答案即可作为回复文本。

步骤108.终端确定当前回复文本所需用到的TTS参数。

具体实施例中，终端一方面可通过语音应答系统的PM模块(或基础TTS参数管理模块)确定与当前用户身份关联的基础TTS参数，如预设音高、预设音速和预设音量对应的基础TTS参数，以及文本中目标字符(串)的读音等；另一方面，可通过语音应答系统的PM模块(或强化TTS参数管理模块)根据回复文本的内容以及上下文信息确定对应的强化TTS参数，如语音情感参数、语音场景参数、背景音效等。

本发明具体实施例中，适合叠加背景音效的回复文本内容可以是诗歌词曲，可以是影视台词，也可以是具有情感极性的文字。需要说明的是，关于背景音效的相关内容将在后文中详细描述，这里不再赘述。

步骤109.终端根据所述当前输入语音从预设的声学模型库中选取声学模型。本步骤也可以在步骤108之前进行。

具体的，终端预设有声学模型库，声学模型库中可包括多个声学模型，例如通用声学模型、以及若干个性化声学模型，等等。这些声学模型皆为神经网络模型，这些神经网络模型可预先由不同的语料进行训练而成。对于每个声学模型而言，每个声学模型皆对应有各自的预设信息，这些预设信息可作为该声学模型的基础输入信息。例如，通用声学模型的预设信息可包括其该模型的预设音速、预设音量、预设音高、预设音色、预设语调、预设韵律节奏中的两个或两个以上；个性化声学模型的预设信息除了包括该模型的预设音速、预设音量、预设音高、预设音色、预设语调、预设韵律节奏中的两个或两个以上外，还可包括其他的个性化信息，比如包括口头禅、对特定场景的应答方式、智慧类型、性格类型、夹杂的流行语言或方言、对特定人物的称谓等等语言风格特征。

本发明实施例中，声学模型能够根据预设信息以及预设信息的变化信息，将回复文本转换成回复语音。这里所说的预设信息的变化信息即表示语音合成中所选取的基础TTS参数、强化TTS参数、目标字符与用户偏好读音之间的映射关系、背景音效等信息。通过通用声学模型合成的语音呈现正常、通用对话场景下的声音效果，而通过个性化声学模型合成的语音能够“人物模仿”的对话场景的声音效果。关于“人物模仿”的对话场景的实现方法将在后文详细描述。

一具体实施例中，终端根据所述当前输入语音从预设的声学模型库中选取声学模型，包括：终端根据所述用户的身份确定所述用户喜好的声学模型；从所述声学模型库的多个声学模型中选取所述用户喜好的声学模型。

又一具体实施例中，终端根据所述当前输入语音从预设的声学模型库中选取声学模型，包括：终端根据所述当前输入语音的内容，确定与所述用户的输入语音的内容相关的一个声模标识；所述声学模型的标识用于唯一性地表征该声学模型的声音特点，举例来说，某一声学模型的标识为“林志玲”，说明该声学模型用于合成“林志玲”类型的声音；某一声学模型的标识为“小沈阳玲”，说明该声学模型用于合成“小沈阳”类型的声音，等等。这样，如果输入语音的内容与“林志玲”相关，则可选择具有“林志玲”标识的声学模型。

又一具体实施例中，终端根据所述当前输入语音从预设的声学模型库中选取声学模型包括：终端根据所述用户的身份确定所述多个声学模型中的各个声学模型的权重值；其中，所述各个声学模型的权重值是用户预先设置的，或者，所述各个声学模型的权重值是预先通过学习用户的喜好而确定的。然后，将所述各个声学模型基于所述权重值进行加权叠加，得到综合的声学模型(可称为融合模型)，并选取所述融合模型。

步骤110.终端根据回复文本、所确定的TTS参数生成对应的调用指令。

具体实施例中，终端可通过语音应答系统的指令生成模块，根据回复文本、所确定的TTS参数等生成TTS引擎所需的调用指令。

举例来说，参见图17，在一应用场景中，当用户“xiaoming”的输入语音的内容为“‘白云深处有人家’的上一句是什么”时，终端相应生成的回复文本为：“白云深处有人家”的上一句是“远上寒山石径斜”；终端所确定的TTS参数以及终端基于回复文本和所确定的TTS参数生成的调用指令可示例性地参考图17所示图表的描述，这里不再赘述。

又举例来说，参见图18，在又一应用场景中，当用户“xiaoming”的输入语音为“说话声音能不能大一点”时，相应生成的回复文本为：“音量已经调大一点了”；终端所确定的TTS参数、以及基于回复文本和所确定的TTS参数生成的调用指令可示例性地参考图18所示图表的描述，这里不再赘述。

又举例来说，参见图19，在又一应用场景中，当用户“xiaoming_mom”的输入语音为““说话太慢了，请说快一点吧”时，相应生成的回复文本为：“说话速度已经快一点了”；终端所确定的TTS参数、以及基于回复文本和所确定的TTS参数生成的调用指令可示例性地参考图19所示图表的描述，这里不再赘述。

步骤111.终端基于调用指令执行语音合成操作，具体的，终端通过所述声学模型，根据所述声学模型的预设信息、所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成，得到回复语音。

具体实施例中，终端可通过语音应答系统的TTS引擎调用步骤S109所确定的声学模型来执行语音合成操作，从而将回复文本基于声学模型的预设信息以及相关的TTS参数进行语音合成，得到回复语音。其中，所述TTS引擎可以是采用基于统计参数合成方法构建的系统，其能充分考虑各种TTS参数而合成出不同风格的语音。

步骤112.终端向用户返回回复语音。

具体应用场景中，所述终端可通过扬声器向用户播放所述回复语音。在可能实施例中，所述终端还可以通过显示屏显示所述回复语音对应的回复文本。

为了更好理解本发明实施例中更新TTS参数的方案，下面将以更新定制字符读音表为例，详细描述基于上述图10实施例步骤S104-S106实现纠正用户指定的目标字符(如多音字)的读音的过程。参见图20，该过程包括但不限于以下步骤：

步骤S201.本步骤为上述图10实施例步骤S104的具体细化，在本步骤中，终端识别出用户的说话意图为更正目标字符的读音，比如更正某一个或多个多音字的多音。

具体实现中,假设用户的说话内容为“说错了,应该读xiao3qian4,而不是xiao3xi1”，终端通过NLU模块对识别文本进行文本分析后，识别出其中的关键词“说错了”、“应该读”。然后，意图识别模块使用这些关键词匹配到预设的句式模板“…念/读/叫/说错了…应该念/读/叫/说…而不是…”，从而确定当前用户的说话意图为“更正目标字符的读音”(即需要更新TTS参数)。

步骤S202.本步骤对应于上述图9实施例步骤S105，即终端判断用户的说话意图是否为更新TTS参数。

步骤S203-步骤S205.这几个步骤对应于上述图10实施例步骤S106，即终端执行说话意图指示的TTS参数的更新操作。步骤S203-步骤S205分别详细描述如下：

步骤S203.终端提取误读读音和目标读音。

具体实现中，终端的意图识别模块可基于匹配到的预设的句式模板，将“xiao3xi1”标为误读读音，将“xiao3qian4”标为目标读音。

步骤S204.终端根据误读读音及上下文信息确定目标字词(即要更正的目标字符)。

具体实现中，终端的DM模块可在上下文信息中找出终端在上一轮对话或上几轮对话所输出的对话文本，确定该对话文本中各字词的读音(如使用声学模型来确定读音)。例如，终端在上一轮对话的输出文本为“很高兴认识你，小茜”，终端确定其对应的读音为“hen3 gao1 xing4 ren4 shi2 ni3，xiao3 xi1”。这样，DM模块将所述误读读音同该所述输出文本的读音串进行匹配，就可以确定误读读音“xiao3 xi1”所对应的中文字词为“小茜”，即“小茜”为目标字词(即要更正的目标字符)。

步骤S205.终端将目标字词和目标读音加入到与用户身份关联的定制字符读音表。

具体实施例中，终端通过PM模块将目标字词“小茜”以及目标读音“xiao3 qian4”作为新的目标字符-读音对加入到与当前用户身份关联的定制字符读音表。可以理解的，在以后的人机对话中，当终端的回复文本中含有“小茜”时，PM模块将会根据定制字符读音表的记录来确定“小茜”的读音为“xiao3 qian4”。

可以看到，实施本发明实施例的技术方案，终端能够在语音对话中，基于终端也允许用户通过语音实时调教终端的语音应答系统，基于用户的意图纠正用户指定的目标字符(如多音字)的读音，从而更新与用户身份、喜好相关联的TTS参数，使得调教出来的终端更加贴近用户的交互喜好，最大化提升用户交互体验。

为了更好理解本发明实施例中根据用户或者当前对话上下文自适应选择TTS参数的方案，下面详细描述前述图10实施例中步骤S108的具体实现过程，参见图21，该过程可包括以下步骤：

步骤301.本步骤为前述图10实施例中步骤S103的细化，在本步骤中，终端确定当前用户的用户身份是否已注册(或身份验证是否通过)。

步骤302.若终端确定当前用户的用户身份已注册，则读取该用户关联的基础TTS参数。

如图11所示，例如当前用户是“xiaoming_grandma”，则可在TTS参数库中查找到用户“xiaoming_grandma”关联的基础TTS参数：预设音速的变化系数为-40％，预设音量的变化系数为+40％，预设音高的变化系数为+20％。

步骤303.若终端确定当前用户的用户身份还未注册(或未通过身份认证)，则获取默认的基础TTS参数。

例如当前用户是xiaohua，由于“xiaohua”的身份尚未注册，其在TTS参数库中并不存在，故可返回未注册用户相应的默认值(如图10所示预设音速、预设音量、预设音高的变化系数皆为0)作为当前用户的基础TTS参数。

步骤304：终端将回复文本同当前用户关联的定制字符读音表进行比较，判断所述文本中是否有存在匹配所述定制字符读音表的字/词/符号，若有，则于获取所述字/词/符号的目标读音。

举例来说，如图12所示，若当前用户是“xiaoming”，且当前回复文本中含有“小猪佩奇”，由于其在“xiaoming”关联的定制字符读音表中存在，则将此四字的读音标注为表中对应的读音：xiao3 zhu1 pei4 ki1。

步骤305：终端根据回复文本，从TTS参数库中获取对应的强化TTS参数中的语音情感参数。

具体实施例中，DM模块可预先设置有情感推荐模型，所述情感推荐模型基于大量带有情感标签的对话文本训练而成。故DM模块将回复文本输入至情感推荐模型，就可确定当前回复文本的情感类别(如高兴、悲伤等)及其情感程度(如轻度高兴、中度高兴等)。继而，PM模块根据DM模块的情感推荐结果从TTS参数库的情感参数修正映射表中确定语音情感参数。例如，如当前回复文本是“那太好了”，情感推荐模型针对该回复文本所推荐的情感为“中度高兴”，则PM模块获取如图13所示的情感参数修正映射表中“中度高兴”对应的语音情感参数。

步骤306：终端根据回复文本以及上下文信息，从TTS参数库中获取对应的强化TTS参数中的语音场景参数。

具体实施例中，DM模块可根据当前对话的上下文信息以及回复文本，确定当前对话的场景。进而，PM模块可根据所确定的对话场景，获取对应的强化语音参数中的语音场景参数。例如，当前回复文本为一句具体的七言诗(比如为“门泊东吴万里船”)，DM模块根据对话的上下文信息以及该回复文本确定当前对话场景为古诗接龙场景，此时DM模块可基于该场景定位语音场景为“诗词朗诵”，进而，PM模块获取如图15所示的场景参数修正映射表中“诗词朗诵”对应的语音场景参数。又例如，如果PM模块前对话的上下文信息以及回复文本确定当前是儿歌场景，则定位语音场景为“歌曲哼唱”，PM模块获取如图15所示的场景参数修正映射表中“歌曲哼唱”对应的语音场景参数。又例如，如果PM模块前对话的上下文信息以及回复文本确定当前是角色模仿场景，则定位语音场景为“人物模仿”，PM模块获取如图15所示的场景参数修正映射表中“人物模仿”对应的语音场景参数，等等。

可以看到，实施本发明实施例的技术方案，终端能够基于对话交互的回复文本以及对话上下文信息，为不同的用户选择不同的TTS参数(如基础TTS参数、目标字符的用户偏好读音、语音情感参数、语音场景参数等)，从而自动结合用户的喜好以及对话情景以生成不同风格的回复语音，向不同用户提供个性化的语音合成效果，大大提升用户与终端的语音交互体验，改善人机对话的时效性，提升用户交互体验。

为了更好理解本发明实施例的技术方案，下面以“诗词朗诵”的语音场景为例来描述本发明实施例的语音合成方法，参见图22，该方法可通过以下几个步骤进行描述：

步骤401、终端预设有“诗词朗诵”的语音场景参数。

具体实施例中，终端的TTS参数库预设有“诗词朗诵”的语音场景参数。“诗词朗诵”的语音场景注重语音的韵律节奏，“诗词朗诵”的语音场景参数用于调整符合特定句法格式的输入文本的语音停顿位置/停顿时间(即对文本内容的分词)、单字或单词朗读时长、重音位置，从而实现对韵律节奏进行强化。强化后的韵律节奏相对于普通对话时的自然状态的韵律节奏而言，具有更加清晰和强烈情感表述，例如，在朗读诗词、儿歌排比句等特定句法格式时，强化后的韵律节奏能够产生的“抑扬顿挫”感觉。

具体实现中，“诗词朗诵”的语音场景参数可通过韵律节奏模板来实现，对于每一种特定文学样式(或句法格式)的文本内容，可对应于一种或多种韵律节奏模板。对于每种韵律节奏模板而言，其定义了该模板中各个位置的字的音量变化(即该字音量的轻重)和音长的变化(即该字发音时间的长短)、以及该文本中语音的停顿位置/停顿时间(即对文本内容的分词)。韵律节奏模板的产生可以通过以下两种途径实现：

一种是采用现有的语法规定或者约定俗成的语法和规则来得到与句法格式关联的韵律节奏模板。例如，对于五言绝句(比如“白日依山尽”)的韵律节奏，在分词方法上可以有“2字-3字”以及“2字-2字-1字”的两种方法，其对应的每个字的朗读时间可分别为“短长-短短长”以及“短短-短短-长”，其对应每个字的读音轻重可分别为“轻重-轻轻重”和“轻轻-轻轻-重”。

另一种是根据声音模特朗读的特殊韵律节奏的语料进行训练和学习，基于统计、机器学习以及深度网络等框架获得包括停顿位置、单字或单词朗读长度以及重音位置的模型。模型训练好之后，将需要应用“诗词朗诵”模式的文本内容输入至该模型，就会得到该文本内容对应的韵律节奏模板。

步骤402、终端通过回复文本、上下文信息确定当前对话的语音场景为“诗词朗诵”的语音场景。

具体实施例中，终端可通过DM模块确定当前对话的语音场景为“诗词朗诵”的语音场景。具体的，DM模块确定当前对话为“诗词朗诵”的语音场景的方式可包括以下几种：

一种方式是在对话过程中，用户的输入语音所包含的用户意图明确指示当前对话为“诗词朗诵”的语音场景，DM模块结合意图识别模块确定了用户意图后，进而确定当前对话为“诗词朗诵”的语音场景。举例来说，用户输入语音指示终端进行唐诗朗诵或进行古诗词接龙，那么终端识别出用户意图后，自动将当前对话场景设置为“诗词朗诵”的语音场景。

一种方式是在普通对话中，用户虽没有明确的意图明确指示当前对话为“诗词朗诵”，但终端还是可通过DM模块也可以判断回复文本的内容是否涉及了诗、词、曲、赋等特定文学样式的一种或多种，比如涉及到五言绝句或七言绝句或律诗，或者涉及到具体的词牌或曲牌等。具体实现中，DM模块可通过文本搜索匹配或语义分析等方法，搜索本地预存的文库或者搜索网络服务器中的文库，文库中可包含各种各样的文学知识资料对应的文学样式，DM模块进而判断回复文本的内容是否存在于文库中，若存在，则将当前对话场景设置为“诗词朗诵”的语音场景。

还有一种方式是预先存储各种文学样式(或句法格式)对应的字数、句子个数、每句字数的顺序等文学样式特征，DM模块可通过分析回复文本中的标点(停顿)、字数、句子个数、每句字数的顺序等特征，将该回复文本中的一段文本或全部文本与预存的文学样式特征做匹配，如果匹配成功，则该符合预存的文学样式特征的一段文本或全部文本即可作为采用“诗词朗诵”的语音场景的文本。举例来说，五言绝句的文学样式特征包括：4个句子，每句皆5个字，共20字。五言律诗的文学样式特征包括：8个句子，每句皆5字，共40字。七言绝句的文学样式特征包括：4个句子，每句皆7个字，共28个字。又举例来说，宋词小令《如梦令》的文学样式特征包括：7个句子，各句的字数分别为6字、6字、5字、6字、2字、2字、6字。假如回复文本中的一段文本为“窗外群山如黛，教室百无聊赖。台上的老师，讲课语速澎湃。真快，真快，直叫骏马难逮。”，那么DM模块可确定文学样式特征符合《如梦令》的文学样式特征，从而将当前对话场景设置为“诗词朗诵”的语音场景。

步骤403、终端确定当前“诗词朗诵”语音场景对应的语音场景参数。

具体实施例中，终端通过PM模块确定当前“诗词朗诵”语音场景对应的语音场景参数。

在一可能的实现方式中，由于文学样式(或文学样式特征)与韵律节奏模板相关联。那么当确定了当前回复文本中所涉及的文学样式(或文学样式特征)后，PM模块即可从TTS参数库中获取与之关联的韵律节奏模板，该韵律节奏模板即包含了对应的语音场景参数(即包含了韵律节奏变化信息)，具体的，该语音场景参数包括该模板中各个位置的字的音量变化和音长的变化、以及该文本中语音的停顿位置/停顿时间等信息(参数)。例如，对于五言绝句的韵律节奏模板，韵律节奏模板对应的语音场景参数包括了具体的分词方法，每句话中的每个字的朗读时间长短，以及各个字的读音轻重的信息。

在又一可能实现方式中，语音场景参数的选择可能还与语音情感参数息息相关，也就是说，不同的情感类别(如高兴、悲伤)、不同的情感级别(如轻度高兴、中度高兴)都可能会对语音场景参数的造成影响，亦即会影响文学样式(或文学样式特征)对应的韵律节奏模板的具体参数。这样设计的好处是可以使得语音场景更加贴近于当前的语音情感，有利于最终的语音输出更加生动合理。

举例来说，对于五言绝句的一种韵律节奏模板，其标准的参数包括：在分词方法上为“2字-3字”，其对应的每个字的朗读时间可分别为“短长-短短长”，其对应每个字的读音轻重可分别为“轻重-轻轻重”。那么，在不同的语音情感参数下，该韵律节奏模板的最终语音呈现也会有差异，这种差异可以存在于断字、音调以及重音等的变化中。如下表1所示，表1示出了对于五言绝句的一种韵律节奏模板，不同的语音情感对该韵律节奏模板产生的影响。其中，表1所列的语音情感1、语音情感2、语音情感3可能表示情感类别(如高兴、中性情感、悲伤)，也可能表示情感级别(如轻度高兴、中度高兴、极度高兴)。因此，对于所确定的韵律节奏模板，PM模块可根据回复文本的语音情感参数，从类似于表1所示的规则中，确定出最终的语音场景参数。

表1

	语音情感1	语音情感2	语音情感3
				2字与3字之间间隔	1.1倍标准间隔时长	1.2倍标准间隔时长	1.3倍标准间隔时长
重读发音增加程度	1.05倍音量	1.10倍音量	1.15倍音量
				音调变化幅度	1.2倍基音标准差	1.4倍基音标准差	1.6倍基音标准差

需要说明的是，在结合语音情感与韵律节奏模板方面，本发明并不局限于表1所示的实施方式，在其他可能实施方式中，也通过深度学习的方式，采用支持向量机(SupportVector Machine，SVM)或深度神经网络基于大量的不同语音情感对应的韵律节奏模板进行模型训练，得到训练后的深度学习模型，这样，在实际应用中终端可将回复文本对应的标准韵律节奏模板以及回复文本对应的语音情感参数一起输入至深度学习模型，就可得到最终的语音场景参数。

步骤404、终端对回复文本的内容进行韵律节奏模板对齐，以便于后续的语音合成。

具体实施例中，在需要进行语音合成时，终端可将回复文本中的相关内容与“诗词朗诵”语音场景的韵律节奏模板进行对齐。具体的，终端可将回复文本中的相关内容对应声学模型库的读音与韵律节奏模板的参数结合，参考一定的尺度将韵律节奏模板的参数叠加到这些读音语段中。

又举例来说，参见图23，回复文本中包括“白日依山尽”这样的文本内容，“白日依山尽”属于五言绝句诗歌的第一句，如果单单只是采用通用声学模型对回复文本进行语音合成，那么其合成的语音(可称为基础读音语段)为“bai2 ri4 yi1 shan1 jin4”，各个字的基础读音的音长皆为0.1s，各个字的基础读音之间默认间隔为0。而本发明实施例中，终端在选取TTS参数的环节中在采用五言绝句对应的韵律节奏模板，这样后续通过通用声学模型对回复文本进行合成的过程中，额外采用了这个五言绝句对应的韵律节奏模板对这个基础读音语段进行了叠加，这样最终合成的语音中，如图23所示，在朗读时间方面，该语段中不同的字的读音的音长分别被不同程度地拉长(如“ri4”的音长变成0.17s，“shan1”的音长变为0.14s，“jin4”的音长变为0.17s)；在分词方面，“bai2 ri4”和“yi1 shan1 jin4”之间出现停顿,停顿时间为0.02s；在读音轻重方面，“ri4”和“jin4”均被加强了重音。也就是说，本发明实施例中将回复文本的内容与韵律节奏模板对齐后，后续经过TTS模块进行语音合成得到的语音将能够呈现出“诗歌朗诵”语音场景的效果。

下面以“歌曲哼唱(以儿歌哼唱为例)”的语音场景为例来描述本发明实施例的语音合成方法，参见图24，该方法可通过以下几个步骤进行描述：

步骤501、终端预设有“儿歌哼唱”的语音场景参数。

具体实施了中，终端的TTS参数库预设有“儿歌哼唱”的语音场景参数。在音乐中，时间被分成均等的基本单位，每个基本单位叫做一个“拍子”或称一拍。拍子的时值是以音符的时值来表示的，一拍的时值可以是四分音符(即以四分音符为一拍)，也可以是二分音符(以二分音符为一拍)或八分音符(以八分音符为一拍)。音乐的节奏一般以节拍来定义，例如4/4拍：4/4拍是4分音符为一拍，每小节4拍，可以有4个4分音符。所谓预设“儿歌哼唱”的语音场景参数，即预设各种各样儿歌的节拍类型，以及对需要以“儿歌哼唱”方式进行语音合成的回复文本内容进行文本分割的方式。

具体实施例中，对于“儿歌哼唱”的语音场景，可根据两个标点内的字数或分词后的每个字段的字数来确定儿歌的节拍。举例来说，对于这样儿歌类型的回复文本“小燕子，穿花衣，年年春天来这里，要问燕子你为啥来，燕子说，这里的春天最美丽”，可通过以下2两种方式来对回复文本进行文本分割，从而确定出最佳匹配的节拍：

一种方式是按照标点符号来切割回复文本，也就是说识别出该回复文本中的标点符号，由各个标点符号分割的各个字段的字数分别为“3,3,7,8,3,8”,可以看到，字数为“3”的字段出现得最多，所以，可确定与该回复文本最匹配的节拍是3的倍数，如3/3节拍、3/4节拍等。

另一种方式是按照分词结果来分割回复文本，分词结果例如为“小/燕子/穿/花衣/年年/春天/来/这里/要/问/燕子/你/为啥/来/燕子/说/这里/的/春天/最/美丽”，为了保持语义的连贯性，可以对分词的结果进行调整，将修饰名词的动词、形容词和副词，与被修饰的名词连接，合并为一个词。经过处理后，之前的分词结果进一步变为“小燕子/穿花衣/年年/春天/来这里/要/问燕子/你为啥/来/燕子说/这里的/春天/最美丽”，分割后的各个字段的字数分别为“3,3,2,2,3,1,3,3,1,3,3,2,3”，可以看到，字数为“3”的字段出现得最多，所以，可确定与该回复文本最匹配的节拍是3的倍数，如3/3节拍、3/4节拍等。

步骤502、终端通过回复文本、上下文信息确定当前对话的语音场景为“儿歌哼唱”的语音场景。

具体实施例中，终端可通过DM模块确定当前对话的语音场景为“儿歌哼唱”的语音场景。具体的，DM模块确定当前对话为“儿歌哼唱”的语音场景的方式可包括以下几种：

一种方式是在对话过程中，用户的输入语音所包含的用户意图明确指示当前对话为“儿歌哼唱”的语音场景，DM模块结合意图识别模块确定了用户意图后，进而确定当前对话为“儿歌哼唱”的语音场景。举例来说，用户输入语音指示终端唱儿歌，那么终端识别出用户意图后，自动将当前对话场景设置为“儿歌哼唱”的语音场景。

一种方式是在普通对话中，用户虽没有明确的意图明确指示当前对话为“儿歌哼唱”，但终端还是可通过DM模块也可以判断回复文本的内容是否涉及了儿歌的内容。具体实现中，DM模块可通过文本搜索匹配或语义分析等方法，搜索本地预存的儿歌库或者搜索网络服务器中的儿歌库，儿歌库中可包含各种各样的儿歌的歌词，DM模块进而判断回复文本的内容是否存在于这些儿歌歌词中，若存在，则将当前对话场景设置为“儿歌哼唱”的语音场景。

步骤503、终端确定当前“儿歌模式”对应的语音场景参数。

具体实施例中，终端通过PM模块确定当前“儿歌模式”对应的语音场景参数。具体的，PM模块可根据回复文本的内容确定文本分割的方式(参考上述步骤502所描述的两种方式)，采用该方式对回复文本进行文本分割，得到分割结果。继而，根据分割结果确定最佳匹配的节拍。

步骤504、终端对回复文本的内容进行节拍对齐，以便于后续的语音合成。

具体实施例中，终端可通过PM模块将回复文本的内容对齐所确定的节拍，以保证文本的各个字段与儿歌节拍的变化规律相融合。具体的，终端将切割好的文本字段按照节拍的变化规律与时间轴对齐。

又举例来说，回复文本中的某个字段的字数小于小节内拍子的数量，如该字段为2个字，而节拍为4/4拍，则搜索该字段前后相邻的文本字段，如果该字段之前的字段(或该字段之后的字段)的字数为2，则可以将该字段和该字段之前的字段合并，共同对齐小节内的4个拍子。如果前后的字段无法合并，或者合并后的字数仍然小于节拍数，则还可进一步通过以下方式进行节拍对齐。

一种方式是将文字比节拍数少的部分用空白填补。具体的，如果与一个小节的音乐匹配的文字数小于节拍数，在匹配时只要保证每一个字对应一个节拍在时间上的位置，剩余的部分用静音补齐。如图25中(a)所示，对于回复文本中的字段“小白兔”，其匹配的节拍类型是4/4拍，那么可将“小”“白”“兔”分别对齐小节内的第1拍、第2拍、第3拍，最后采用静音来补齐第4拍。需要说明的是，该图只是展示了一种实施情况，实际操作中，静音可能是第1到第4拍的任意一个位置。

另一种方式是通过拉长某一个字的音长来对齐节奏。具体的，当一个小节音乐匹配的字数小于节拍数时，可以通过拉长某一个或几个字的读音时间，来实现字和节拍对齐的目的。如图25中(b)所示，对于回复文本中的字段“小白兔”，其匹配的节拍类型是4/4拍，那么可将“小”“白”分别对齐小节内的第1拍、第2拍，对“兔”的读音进行拉长，使得“兔”对齐第3拍和第4拍。需要说明的是，该图只是展示了一种实施情况，实际操作中，读音拉长处理的对象可能是“小白兔”中的任意一个字。

再一种方式是平均拉长各个字的音长保证整体时间对齐。具体的，可采用平均延长文字字段中每一个字的读音时间的方法，让字的读音时间和音乐的节拍进行对齐。如图25中(c)所示，对于回复文本中的字段“小白兔”，其匹配的节拍类型是4/4拍，那么可以将每个字的朗读时间皆拉长为4/3拍的时长，就可以保证整个字段对齐节拍。

下面以用于实现“人物模仿”的声学模型为例来描述本发明实施例的语音合成方法，参见图26，该方法可通过以下几个步骤进行描述：

步骤601、终端的声学模型库预设有用于实现“人物模仿”的声学模型。

具体实施例中，终端的声学模型库预设有用于实现“人物模仿”的各种声学模型(即个性化声学模型)。“人物模仿”的声学模型可用于使合成语音具有特定人物的声音特点，所以”人物模仿”的声学模型的预设音色、预设语调、预设韵律节奏等信息与通用声学模型的这些信息会有所差异。“人物模仿”的声学模型所模仿的人物可能是用户本身的喜好的人物形象，可能是影视作品中的人物角色，还可能是多种预设声模与用户喜好的综合，例如，这些“人物模仿”的声学模型可以是用户模仿用户自身说话风格的声学模型；还可以是模仿其他人物说话特点的声学模型，例如用于模仿“林志玲/柔美声音”的声学模型，可以是模仿“小沈阳/搞笑声音”的声学模型，可以是模仿“刘德华/浑厚声音”的声学模型，等等。此外，在可能的实施例中，终端在语音合成过程中选取的并不是声学模型库中某个具体的声学模型，而是声学模型库中的多个声学模型的综合模型。

在声学模型库中，除了可预设某些特定的人物声音特点的声学模型外，还可将不同的语音特征、不同的语言风格特征按用户的喜好或需求进行组合，从而形成具有个性特点的声学模型。其中，语音特征包括说话的语速(音速)、语调、韵律节奏、音色等等，其中，音色的变化是声音除了有一个‘基音’外，还自然而然加上许多不同‘声音频率’与泛音‘交织’，就决定了不同的音色，使人听了以后能辨别出是不同的声音。这些不同声音所表征的人物可以是自然人(如用户、声模等)，也可以是动画角色或虚拟角色(如机器猫、洛天依等)。语言风格特征包括口头禅(包括常用语气词)、对特定场景的应答特点、智慧类型、性格类型、说话中夹杂的流行语言/方言、对特定人物的称谓等。也就是说，将不同的语音特征、不同的语言风格特征按用户的喜好或需求进行组合而成的声学模型，其预设信息除了包括预设音速、预设音量、预设音高、预设音色、预设语调和预设韵律节奏中的两个或两个以上等信息，还包括了语言风格特征。

下面详细描述这些语言风格特征：

用户的口头禅是指用户习惯在有意或无意间时常说的语句，比如，有些人在惊讶的情绪下，会在一句话前面加上一句“有没有搞错啊？”，有些人经常在句子中间加入“可能”“也许”这样不确定的词汇，此外，口头禅还可能包括常用语气词，如谐星小沈阳的标志性语气词“嚎”，会经常出现在语句的结尾处。

对特定场景的应答是指在某种特定的场景下，或对某个特定的问句，一个人最常用的答复。比如对“去哪里吃饭”这样的询问，某个人的特定场景应答可能是“随便”；又比如对“您要什么啤酒”这样的询问，某个人的特定场景应答可能是“青岛啤酒”，等等。

智慧类型是用来区分不同人群对不同内容呈现方式的理解能力倾向，智慧类型进一步包括如下几种：语言智能类型，这样的人阅读能力强，喜欢看文字描述的内容，玩文字游戏，善长写诗或写故事；逻辑数理智能类型，这样的人比较理智，善于运算，对数字敏感；音乐智能类型，这样的人对旋律和声音敏感，喜欢音乐，当有音乐在背景中时学习效率更高；空间智能类型，这样的人对周围环境敏感，喜欢读图表，善长绘画；运动智能类型，这样的人善长运用自己的身体，喜欢运动、动手制作；人际关系智能类型，这样的人善长理解和与他人沟通；自省智能类型，这样的人喜欢独立思考，自已设立目标；自然观察者智能类型，这样的人对星球上自然的生物感兴趣。对于同一个问题，上述不同智慧类型的人会有不同的回答，举例来说，对于问题“天上星星有多少颗？”，逻辑数理智能类型的人的回答可能是“肉眼可见的星星有6974颗”，而对于语言智能类型的人的回答可能是“七八个星天外，两三点雨山前。”而对于音乐智能类型的人可能会以歌曲来回答“天上的星星数不清，最亮的是你”(歌曲《双子星》)，等等。

性格类型是指不同性格特点的人对应的不同的语言风格。举例来说，性格稳重的人，其语言风格比较严谨；性格活泼的人，其语言风格幽默风趣；性格内向的人，其语言委婉含蓄，等等。

说话中夹杂方言是指一个人在说话时喜欢夹杂本国方言或者外文等，比如说谢谢的时候喜欢用粤语“唔该”或英语“Thank you”。说话中夹杂流行语言是指一个人在说话时喜欢夹杂用当前流行的词汇或网络用语来代替特定词汇，如一个人难过的时候说“蓝瘦香菇”来替代“难受”。

对特定人物的称谓是指对特定的人采用特定的称呼，如用户对特定人物王小明称呼为“王老师”或“老王”等等。

本发明具体实施例中，终端的语音应答系统可通过学习得到用户身份关联的语音特征、语言风格特征。具体实现中，可预先通过特征迁移的方法来获取和分析学习用户喜好，也就是说，可根据用户对其他维度信息的获取情况来确定用户的需求，从而进一步推测和判断用户可能喜爱的语音特征和语言风格特征。

例如，可分析和统计用户喜爱的歌曲的特征，根据该歌曲的节奏强弱特征来确定合成语音的语速(音速)的快慢以及韵律的强弱特征；根据歌曲对应歌手的嗓音特征来确定合成语音的音色特征；根据该歌曲的歌词的风格特征来确定合成语音的语言风格特征等。又例如，可分析和统计用户喜爱的电视节目、社交媒体内容等维度的特征，进行特征迁移模型的训练，从而应用该模型来推测用户可能喜爱的语音特征和语言风格特征

本发明具体实施例中，终端的语音应答系统还可通过多模态信息来获取和分析用户喜好，也就是说，通过对用户表情、关注度以及操作行为的统计，自动分析和推测用户对合成语音特征的喜好或需求。通过多模态的分析，不仅可以在产生个性化合成语音之前搜集用户对合成语音的需求，也可以在产生个性化语音产生之后，持续跟踪用户对该语音的喜好程度，根据此信息迭代优化合成语音的特征。

例如，可通过对用户在听到不同合成语音的表情进行情绪分析，可以间接获取用户对不同语音的喜好程度；又例如，可通过对用户在听到不同合成语音的关注度分析(关注度可以通过用户的表情信息获取，也可以通过用户的可穿戴设备获取的脑电或者生物电信号获得)来间接获取用户对于不同语音的喜好程度；又例如，可通过用户在听到不同合成语音时的操作习惯(如跳过语音或者快速播放语音可能代表用户不是很喜欢该语音)来间接获取用户对于不同合成语音的喜好程度。

下面分别描述具有特定人物声音特点的声学模型和通过多种声学模型融合而得到的综合模型(或称融合模型)。

(1)对于具有特定人物声音特点的声学模型，相对于普通人，电影、电视剧、动画片、网络视频作品等等影视作品中的人物角色(例如林志玲)或者配音(例如周星驰的配音)的语音表现能力更强、更生动有趣。此外，很多影视作品中经典的台词字段能够给人带来直接且强烈的情感表达。借助人们对这些人物角色或者配音或台词所表达情感的认知，可设置具体人物声音特点的声学模型来让合成语音的发音特征符合与这些人物角色或者配音或台词的声音特征，从而有效增强合成语音的表现能力和趣味性。

(3)对于通过多种声学模型融合而得到的综合模型，由于声学模型库中有多种声学模型，那么可预先获取了用户对语音的喜好或需求，然后将多种声学模型中的若干个模型进行融合，例如可将模仿“林志玲/柔美声音”的声学模型和模仿“小沈阳/搞笑声音”的声学模型进融合；例如也可将用户自身的语音特征、语言风格特征或者用户所喜欢的人物形象的语音特征、语言风格特征与某些影视作品中的人物形象对应的声音模型(如“林志玲/柔美声音”的声学模型、“小沈阳/搞笑声音”的声学模型)进行融合，从而得到最终的声学模型用于后续的语音合成。

下面描述一种具体的模型融合方式，这种方式中，声学模型库中的多个个性化声学模型的声音可分别用于实现浑厚、柔美、可爱、搞笑等类型的声音。终端在获取了用户对语音的喜好或需求(这些喜好或需求直接与用户的身份)相关联之后，确定用户对所述若干个声学模型各自的喜好系数，这些喜好系数表示对应的声学模型的权重值；其中，所述各个声学模型的权重值是用户根据自身的需求而预先手动设置的，或者，所述各个声学模型的权重值是终端预先通过学习用户的喜好而自动确定的。然后，终端可将所述各个声学模型基于所述权重值进行加权叠加，从而融合得到综合的声学模型。

具体的，在获取了用户对语音的喜好或需求之后，终端可以根据用户喜欢的语音特征、语言风格特征，选取其用户喜好或需求最高的一个或者几个维度的特征，在多个声学模型的声音里进行匹配，从而确定用户对不同声学模型的声音的喜爱系数，最终将各个声学模型的声音特征结合对应的喜爱系数进行融合，从而得到终的语音场景参数。

举例来说，如图27所示，图27所示的表格中示例性地给出了各种声音类型(浑厚、柔美、搞笑)对应的声音特征，可以看到，不同的声音类型其对应的语速、语调、韵律节奏、音色各有差异。假如在终端获取了用户对语音的喜好或需求之后，也可直接根据用户的身份(即用户的喜好或需求直接绑定于用户的身份)在多个声学模型的声音里进行匹配，从而确定用户对浑厚、柔美、可爱、搞笑等声音类型的喜爱系数分别为0.2、0.8和0.5，即，即这些声学模型的权重分别为0.2、0.8和0.5，将每种声音类型的语速音速、语调、韵律节奏、音色等进行加权叠加，即可得到最终的声学模型(即融合模型)。这样合成的语音场景参数在语速、语调、韵律节奏、音色上实现了对声学模型的声音转换，有利于产生类似“说话风趣的林志玲”或者“说唱模式林志玲”这样混合的声音效果。

本发明实施例并不限制于采用上述方式来获得多个声学模型综合的模型(简称融合模型)，例如在可能实施例中，也可基于用户主动向TTS参数库输入人物模仿数据或者用户向终端发出语音请求来形成最终的声学模型。举例来说，在一应用场景中，终端可以提供一种图形用户界面或语音交互界面，由用户根据其喜爱自行选择各个语音特征的参数和语言风格特征的参数，如图28所示，图28示出了一种语音特征的参数和语言风格特征的参数的选择界面。用户在该选择页面中，选择语音特征为“林志玲”声音的声学模型对应的语音特征，亦即将“林志玲”类型的声学模型对应的语音特征中的“语速、语调、韵律节奏、音色”等子参数的参数值作为融合模型对应的语音特征中的“语速、语调、韵律节奏、音色”等子参数的参数值。用户选择语言风格特征为“小沈阳”声音的声学模型对应的语言风格特征，亦即将“小沈阳”声音的声学模型对应的语言风格特征语言风格特征的“口头禅、对特定场景的应答、智慧类型、性格类型、夹杂方言/流行语言”等子参数的参数值作为融合模型对应的语言风格特征语言风格特征的“口头禅、对特定场景的应答、智慧类型、性格类型、夹杂方言/流行语言”等子参数的参数值。

例如，用户可预先向终端发出文字或语音的请求“请用林志玲的声音按小沈阳的语言风格来说话”，则终端的语音应答系统解析出用户的设置意图为将融合模型的语音特征中的语速、语调、韵律节奏和音色设置为“林志玲”声音的声学模型的语音特征的相关子参数值，且将融合模型的语言风格特征中的口头禅、对特定场景应答、智慧类型、性格类型和夹杂方言/流行语言设置为“小沈阳”声音的声学模型的语言风格特征的相关子参数值。

此外，在本发明可能的实施例中，终端也可根据用户的身份确定所述用户喜好的声学模型，这样终端在声音合成过程中可从所述声学模型库的多个声学模型中直接选取所述用户喜好的声学模型。

步骤602、终端通过用户的输入语音确定当前对话需要采用“人物模仿”的声学模型。

具体实施例中，终端可通过DM模块确定当前对话的对话需要设置为“人物模仿”的场景。具体的，DM模块确定当前对话为“人物模仿”的语音场景的方式可包括以下几种：

一种方式是在对话过程中，用户的输入语音所包含的用户意图明确指示当前对话为“人物模仿”的场景，DM模块结合意图识别模块确定了用户意图后，进而确定当前对话为“人物模仿”的场景。举例来说，用户输入语音指示终端用林志玲的声音说话，那么终端识别出用户意图后，自动将当前对话场景设置为“人物模仿”的场景。

一种方式是在普通对话中，用户虽没有明确的意图明确指示当前对话为“人物模仿”，但终端还是可通过DM模块也可以判断用户的输入语音对应的输入文本的内容是否涉及了人物模仿的内容。具体实现中，DM模块可通过全文匹配、关键词匹配和语义相似度匹配等方式来确定可以进行角色模仿的回复内容，这些内容包括歌词、声音特效、电影台词和动画片对话脚本等。其中，全文匹配的方式是指输入的文本与对应影视或音乐作品的一部分完全相同，关键词匹配的方式是指输入的文本与影视或音乐作品的一部分关键字相同，语义相似度匹配的方式是指输入的文本与影视或音乐作品的一部分语义相似匹配。

举例来说，输入文本为“他已经当过主角了，他讲到白日梦不是错，没有梦想的人才是咸鱼。在为梦想拼搏的这条路上，我努力过了就会有收获那就够了。”采用上述方式经过内容的匹配后，发现输入文本中的“没有梦想的人才是咸鱼”为属于可匹配内容，其匹配的内容是电影《少林足球》中的台词“做人要是没有理想，和咸鱼有什么区别”，语音为角色“周星驰”的配音。那么，则将当前对话设置为“人物模仿”的场景。

步骤603、终端从声学模型库中获取用于实现“人物模仿”对应的声学模型。

本发明一具体实施例中，终端可根据用户喜好从声学模型库中选取某一个声学模型或者某一个融合模型。

本发明又一具体实施例中，终端根据所述当前输入语音的内容，确定与所述当前输入语音的内容相关的声模标识，从所述声学模型库中选取对应于所述声模标识的声学模型。例如，终端可根据输入文本或用户喜好或回复文本确定当前合成语音需要采用“周星驰”类型的声音，则从声学模型库中选取“周星驰”声音类型的声学模型。

本发明又一具体实施例中，终端根据所述用户的身份选取所述声学模型中的多个声学模型后，确定所述多个声学模型中的各个声学模型的权重值(即喜好系数)；其中，所述各个声学模型的权重值是用户预先设置的，或者，所述各个声学模型的权重值是预先根据所述用户的喜好而确定的；然后将所述各个声学模型基于所述权重值进行融合，获得融合后的声学模型。

步骤604、终端通过所选取的声学模型进行后续的语音合成。

举例来说，如果采用通用声学模型进行语音合成，那么当用户发出的输入语音内容为“今天晚上在哪里吃饭？”，终端可能原定的合成语音为“今晚在XX地方吃饭”。而在“人物模仿”的场景下，终端通过所选取的“林志玲”声学模型和“小沈阳”声学模型的融合模型，最终合成的语音为“你知道嘛？今晚在XX地方吃饭，嚎”。这样输出的语音中的语音特征采用了“林志玲”声学模型的相关参数，从而体现了合成语音的柔美特点。输出的语音中的语言风格特征采用了“小沈阳”声学模型的相关参数，从而体现了合成语音的诙谐搞笑特点。也就是说，这样输出的合成语音实现了“用林志玲的声音按小沈阳的语言风格说话”的合成效果。

需要说明的是，本发明上述实施例所列举的“诗词朗诵”“歌曲哼唱”“人物模仿”等场景可能在语音合成过程中单独使用，也可能在语音合成过程中综合使用。举例来说，对于“诗歌朗诵”语音场景与“人物模仿”语音场景的组合，假设输入文本为“用林志玲的声音按小沈阳的语言风格来读一首五言绝句”，终端选取声学模型库中的“林志玲”声学模型和“小沈阳”声学模型的融合模型，并采用了TTS参数库中的“诗词朗诵”的语音场景参数(即五言绝句对应的韵律节奏模板)，对回复文本进行语音合成后最终输出的语音为“那我给你念一首诗呗，《登鹳雀楼》,你知道嘛？白日依山尽，黄河入海流，欲穷千里目，更上一层楼，嚎～”。也就是说，这段输出语音在合成过程中可既采用了如图28所示的“人物模仿”的融合模型，且在部分内容“白日依山尽，黄河入海流，欲穷千里目，更上一层楼”部分又采用了类似于图23所示的韵律节奏模板，从而即完成了与用户的实时语音交互，又满足用户的个性化需求，提升用户体验。

本发明具体实施例中，在合成语音后，为了增强各种TTS参数的表达效果，还可以在输出合成语音时，叠加背景音效。下面以对合成语音叠加“背景音效”的场景为例来描述本发明实施例的语音合成方法，参见图29，该方法可通过以下几个步骤进行描述：

步骤701、终端预设有音乐库。

具体实施例中，在所述终端的TTS参数库中预设有音乐库，所述音乐库包括多个音乐文件，这些音乐文件用于在语音合成过程中提供背景音效，所述背景音效具体是指音乐中的某个音乐片段(如纯乐曲或歌曲)或者声音特效(如影视音效、游戏音效、语言音效、动画音效等)。

步骤702、终端确定回复文本中具有适合叠加背景音乐的内容。

具体实施例中，终端可通过DM模块确定适合叠加背景音乐的内容。这些适合叠加背景音乐的内容可以是具有情感极性的文字，可以是诗歌词曲，可以是影视台词等等。举例来说，终端可通过DM模块识别句子中有情感倾向的词语，进而通过语法规则分析、机器学习分类等方法来确定回复文本中的短语、句子或者整个回复文本的情感状态。这个过程，可借助情感词典来识别这些有情感倾向的词语，情感词典是一个词语集合，该集合内的词都有明显的情感极性倾向，且情感词典也包含了这些词语的极性信息，例如，词典中的文字被标识了如下情感极性：快乐(happy)、喜欢(like)、悲伤(sadness)、惊讶(surprise)、愤怒(angry)、恐惧(fear)、厌恶(disgust)等情感极性类型，可能实施例中，不同的情感极性类型甚至还可进一步划分为多种程度的情感强度(如划分为五档的情感强度)。

步骤703、终端从所述音乐库确定要叠加的背景音效。

具体实施例中，终端通过PM模块确定TTS参数库中确定要叠加的背景音效。

举例来说，终端预先为音乐库中的各个音乐文件的不同片段(即子片段)设置情感极性类别的标识，例如这些片段被标识如下情感极性类型：快乐(happy)、喜欢(like)、悲伤(sadness)、惊讶(surprise)、愤怒(angry)、恐惧(fear)、厌恶(disgust)等。假设当前回复文本包括具有情感极性的文字，那么在步骤702确定了这些文字的情感极性类别后，终端通过PM模块在音乐库中查找具有相应的情感极性类别标识的音乐文件。在可能实施例中，如果情感极性类型还可进一步划分为多种程度的情感强度，则预先为音乐库中的各个子片段设置情感极性类别和情感强度的标识，那么在步骤702确定了这些文字的情感极性类别和情感强度后，在音乐库中查找具有相应的情感极性类别和情感强度的标识的子片段组合作为最终选取的背景音效。

举例来说，假设当前回复文本包括诗歌/词/曲的内容，那么终端通过PM模块在音乐库中寻找与该诗歌/词/曲的内容相关的纯乐曲或歌曲或音乐特效，如果能找到，则将关的纯乐曲或歌曲作为要叠加的背景音效。另外，如果预先为音乐库中的各个背景音效设置了情感极性类别的标识，那么还可在确定回复文本所包括诗歌/词/曲的内容的情感极性类别后，在音乐库中查找具有相应的情感极性类别标识的背景音效。在可能实施例中，如果情感极性类型还可进一步划分为多种程度的情感强度，则预先为音乐库中的各个背景音效设置情感极性类别和情感强度的标识，在确定回复文本所包括诗歌/词/曲的内容的情感极性类别和情感强度后，在音乐库中查找具有相应的情感极性类别和情感强度的标识的背景音效。

举例来说，假设当前回复文本包括诗“人物模仿”的内容，那么终端可通过PM模块在音乐库中寻找与该人物模仿的声模相关的纯乐曲或歌曲或音乐特效，例如所模仿的人物为声模“小沈阳”，那么可在在音乐库中查找声模“小沈阳”相关的歌曲(如歌曲《我叫小沈阳》)，进一步地，可以再根据对话的场景或回复文本的内容选择该歌曲中的某个歌曲片段作为最终的背景音效。

步骤704、终端将回复文本对齐所确定的背景音效，以便于后续的语音合成。

具体实施例中，终端可将回复文本中需要叠加背景音效地内容拆分成不同的部分(根据标点进行拆分或者进行分词处理)，每个部分可称为一个子内容，计算每个子内容的情感极性类型和情感强度。进而，确定将该内容所匹配的背景音效后，将该内容对齐所匹配的背景音效，即该内容的情感变化与背景音效的情感变化基本一致。

举例来说，参见图30，在一应用场景中，回复文本为“天气不错，国足又赢球了，好开心”，该回复文本的全部内容需要叠加背景音效，该回复文本拆分成“天气不错，”“国足又赢球了，”“好开心”三部分的子内容，且该各部分的情感极性类别皆为高兴(happy)，情感强度分别为0.48、0.60、0.55(由图中下半部分的黑点所表示)，各部分的读音总长度分别0.3s，0.5s，0.2s。通过上述步骤703已初步确定了一个情感极性类别为高兴(happy)的音乐文件，进一步地，可以对该音乐文件的情感变化轨迹进行计算和统计，得到该音乐中各个部分的情感强度。如图30中的波形图代表一段音乐，该音乐可划分为15个小片段，每个小片段音长为0.1s，根据其各个小片段的音强、节奏等参数，通过固定规则或者分类器进行计算，获得每一个小片段的情感强度，这15个小片段的情感强度分别为：0.41,0.65,0.53,0.51,0.34,0.40，0.63,0.43,0.52,0.33,0.45,0.53,0.44,0.42,0.41(由图中上半部分的黑点所表示)。可以看到，对于由第4、5、6小片段所构成的子片段，总音长为0.3s，且其中的最大情感强度为0.51(源于第4片段的情感强度0.51)；对于由第7、8、9、10、11小片段所构成的子片段，总音长为0.5s，且其中的最大情感强度为0.63(源于第7片段的情感强度0.63)；对于由第12、13小片段所构成的子片段，总音长为0.2s，且其中的最大情感强度为0.53(源于第4片段的情感强度0.53)。也就是说，这三个子片段的情感变化与回复文本的三部分的子内容的情感变化趋势基本一致(如图示中两个折线的变化轨迹基本一致)，所以由这个音乐文件中的这三个子片段组成的音乐片段即为与回复文本相匹配的背景音效。故可以将复文本的“天气不错，”“国足又赢球了，”“好开心”分别对齐这三个子片段，以便于在后续语音合成过程产生“语音叠加背景音效”的效果。

上文详细阐述了本发明实施例的系统框架、终端设备以及相关的语音合成方法，基于相同的发明构思，下面继续提供本发明实施例的硬件设备。

参见图31，图31是本发明实施例提供的一种语音合成设备200的结构示意图，如图31所示，设备200可以包括一个或者多个处理器2011、一个或多个存储器2012、音频电路2013。具体实现中，设备200还可以进一步包括输入单元2016、显示单元2019等部件，处理器2011可通过总线分别连接存储器2012、音频电路2013、输入单元2016、显示单元2019等部件。分别描述如下：

处理器2011是设备200的控制中心，利用各种接口和线路连接设备200的各个部件，在可能实施例中，处理器2011还可包括一个或多个处理核心。处理器2011可通过运行或执行存储在存储器2012内的软件程序(指令)和/或模块，以及调用存储在存储器2012内的数据来执行语音合成(比如执行图4或图9实施例中的各种模块的功能以及处理数据)，以便于实现设备200与用户之间的实时语音对话。

存储器2012可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器2012还可以包括存储器控制器，以提供处理器2011和输入单元2017对存储器2012的访问。存储器2012可具体用于存储软件程序(指令)、以及数据(声学模型库中的相关数据、TTS参数库中的相关数据)。

音频电路2013可提供设备200与用户之间的音频接口，音频电路2013可进一步连接有扬声器2014和传声器2015。一方面，传声器2015可收集用户的声音信号，并将收集的声音信号转换为电信号，由音频电路2013接收后转换为音频数据(即形成用户的输入语音)，再将音频数据传输至处理器2011进行语音处理，另一方面，处理器2011基于用户的输入语音来合成回复语音后，传输至音频电路2013，音频电路2013可将接收到的音频数据(即回复语音)转换后的电信号，进而传输到扬声器2014，由扬声器2014转换为声音信号输出，从而实现将回复语音呈现给用户，从而达到了设备200与用户之间的实时语音对话的目的。

输入单元2016可用于接收用户输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元2017可包括触敏表面2017以及其他输入设备2018。触敏表面2017也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作，并根据预先设定的程式驱动相应的连接装置。具体地，其他输入设备2018可以包括但不限于物理键盘、功能键、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元2019可用于显示由用户输入的信息或设备200提供给用户的信息(如回复语音的相关标识或者文字)以及设备200的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。具体的，显示单元2019可包括显示面板2020，可选的，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(OrganicLight-Emitting Diode,OLED)等形式来配置显示面板2020。虽然在图31中，触敏表面2017与显示面板2020是作为两个独立的部件，但是在某些实施例中，可以将触敏表面2017与显示面板2020集成而实现输入和输出功能。例如，触敏表面2017可覆盖显示面板2020，当触敏表面2017检测到在其上或附近的触摸操作后，传送给处理器2011以确定触摸事件的类型，随后处理器2011根据触摸事件的类型在显示面板2020上提供相应的视觉输出。

本领域技术人员可以理解，本发明实施例中设备200可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，设备200还可以进一步包括通信模块、摄像头等，在此不再赘述。

具体的，处理器2011可通过运行或执行存储在存储器2012内的软件程序(指令)、以及调用存储在存储器2012内的数据来实现本发明实施例的语音合成方法，包括：处理器2011根据用户的当前输入语音确定所述用户的身份；根据所述当前输入语音从所述声学模型库中获得声学模型，所述声学模型的预设信息包括预设音速、预设音量、预设音高、预设音色、预设语调和预设韵律节奏中的两个或两个以上；根据所述用户的身份从所述语音合成参数库中确定基础语音合成信息，所述基础语音合成信息包括所述预设音速、所述预设音量和所述预设音高中的一个或多个的变化量；根据所述当前输入语音确定回复文本；根据所述回复文本、上下文信息从所述语音合成参数库中确定强化语音合成信息，所述强化语音合成信息包括所述预设音色、所述预设语调和所述预设韵律节奏中的一个或多个的变化量；通过所述声学模型，根据所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成。

处理器2011执行语音合成方法的具体实施过程可参考前文的各个方法实施例，这里不再赘述。

需要说明的是，在可能的实现方式中，当图4或图9实施例中的模块为软件模块时，存储器2012可还用于存储这些软件模块，处理器2011可用于存储器2012内的软件程序(指令)和/或这些软件模块，以及调用存储在存储器2012内的数据来执行语音合成。

还需要说明的是，虽然图31仅仅是本发明语音合成设备的一种实现方式，所述设备200中处理器2011和存储器2012，在可能的实施例中，还可以是集成部署的。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者任意组合来实现。当使用软件实现时，可以全部或者部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令，在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络或其他可编程装置。所述计算机指令可存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网络站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、微波等)方式向另一个网络站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质，也可以是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如DVD等)、或者半导体介质(例如固态硬盘)等等。

在上述实施例中，对各个实施例的描述各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

根据用户的当前输入语音确定所述用户的身份；

根据所述当前输入语音从预设的声学模型库中获得声学模型，所述声学模型的预设信息包括预设音速、预设音量、预设音高、预设音色、预设语调和预设韵律节奏中的多个；

根据所述用户的身份确定基础语音合成信息，所述基础语音合成信息包括所述预设音速、所述预设音量和所述预设音高中的一个或多个的变化量；

根据所述当前输入语音确定回复文本；

根据所述回复文本、所述当前输入语音的上下文信息确定强化语音合成信息，所述强化语音合成信息包括所述预设音色、所述预设语调和所述预设韵律节奏中的一个或多个的变化量；所述上下文信息表示所述当前输入语音的上下文语境或者所述当前输入语音之前的历史输入语音；

通过所述声学模型，根据所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成。

2.根据权利要求1所述的方法，其特征在于，所述根据所述回复文本、上下文信息确定强化语音合成信息，包括：

根据所述回复文本确定所述回复文本的文学样式特征，所述文学样式特征包括所述回复文本中的部分或全部内容的句子个数、每句字数和句子字数的排列顺序中的一个或多个；

根据所述回复文本的文学样式特征选取对应的预设韵律节奏的变化量；其中，所述文学样式特征与所述预设韵律节奏的变化量之间具有对应关系，所述预设韵律节奏的变化量表示所述回复文本的部分或全部内容中的字符的朗读时长、朗读停顿位置、朗读停顿时间、重音各自的变化。

3.根据权利要求1所述的方法，其特征在于，所选取的声学模型的所述预设信息还包括语言风格特征，所述语言风格特征具体包括口头禅、对特定场景的应答方式、智慧类型、性格类型、夹杂的流行语言或方言、对特定人物的称谓中的一个或多个。

4.根据权利要求1-3任一项所述的方法，其特征在于，

所述声学模型库中的声学模型有多个；所述根据所述当前输入语音从预设的声学模型库中获得声学模型，包括：

根据所述用户的身份确定所述用户的喜好；

根据所述用户的喜好从所述声学模型库中选取声学模型。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述声学模型库中的声学模型有多个，每个声学模型分别具有一个声模标识；所述根据所述当前输入语音从预设的声学模型库中获得声学模型包括：

根据所述当前输入语音的内容，确定与所述当前输入语音的内容相关的声模标识；

从所述声学模型库中选取对应于所述声模标识的声学模型。

6.根据权利要求1-3任一项所述的方法，其特征在于，所述声学模型库中的声学模型有多个；

所述根据所述当前输入语音从预设的声学模型库中获得声学模型包括：

根据所述用户的身份选取所述声学模型中的多个声学模型；

确定所述多个声学模型中的各个声学模型的权重值；其中，所述各个声学模型的权重值是用户预先设置的，或者，所述各个声学模型的权重值是预先根据所述用户的喜好而确定的；

将所述各个声学模型基于所述权重值进行融合，获得融合后的声学模型。

7.根据权利要求1-3任一项所述的方法，其特征在于，所述根据用户的当前输入语音确定所述用户的身份之前，还包括：

根据所述用户的历史输入语音确定目标字符与用户偏好读音之间的对应关系，将所述目标字符与用户偏好读音之间的对应关系关联所述用户的身份；

相应的，所述通过所述声学模型，根据所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成，包括：

当所述回复文本中存在与所述用户的身份关联的所述目标字符时，通过所述声学模型，根据所述目标字符与用户偏好读音之间的对应关系、所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成。

8.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：根据所述回复文本从预设的音乐库中选取背景音效，所述背景音效为音乐或声音特效；

通过所述声学模型，根据所述背景音效、所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成。

9.根据权利要求8所述的方法，其特征在于，所述背景音效具有一个或多个情感极性类型的标识和情感强度的标识；所述情感极性类型的标识用于指示以下至少一种情感：快乐、喜欢、悲伤、惊讶、愤怒、恐惧、厌恶；所述情感强度的标识用于指示所述至少一种情感各自的程度值；

所述根据所述回复文本从预设的音乐库中选取背景音效，包括：

将所述回复文本的内容拆分成多个子内容，分别确定各个子内容的情感极性类型和情感强度；

根据所述各个子内容的情感极性类型和情感强度，在所述预设的音乐库中选取最匹配的背景音效；

其中，所述最匹配的背景音效包括多个子片段，各个子片段分别具有情感极性类型的标识和情感强度的标识，所述各个子片段具有的情感极性类型的标识所指示的情感极性类型分别与所述各个子内容的情感极性类型相同，且所述各个子片段具有的情感强度的标识所指示的情感强度之间的变化趋势与所述各个子内容的情感强度之间的变化趋势相一致。

10.一种语音合成设备，其特征在于，所述语音合成设备包括：

语音识别模块，用于接收用户的当前输入语音；

语音对话模块，用于根据用户的当前输入语音确定所述用户的身份；根据所述用户的身份确定基础语音合成信息；根据所述当前输入语音确定回复文本；根据所述回复文本、所述当前输入语音的上下文信息确定强化语音合成信息；所述上下文信息表示所述当前输入语音的上下文语境或者所述当前输入语音之前的历史输入语音；

语音合成模块，用于根据所述当前输入语音从预设的声学模型库中获得声学模型，所述声学模型的预设信息包括预设音速、预设音量、预设音高、预设音色、预设语调和预设韵律节奏中的多个；通过所述声学模型，根据所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成；

其中，所述基础语音合成信息包括所述声学模型的预设信息的所述预设音速、所述预设音量和所述预设音高中的一个或多个的变化量；所述强化语音合成信息包括所述声学模型的的预设信息的所述预设音色、所述预设语调和所述预设韵律节奏中的一个或多个的变化量。

11.根据权利要求10所述的设备，其特征在于，所述语音对话模块具体用于：

根据所述回复文本来确定所述回复文本的文学样式特征，所述文学样式特征包括所述回复文本中的部分或全部内容的句子个数、每句字数和句子字数的排列顺序中的一个或多个；

12.根据权利要求10所述的设备，其特征在于，所选取的声学模型的所述预设信息还包括语言风格特征，所述语言风格特征具体包括口头禅、对特定场景的应答方式、智慧类型、性格类型、夹杂的流行语言或方言、对特定人物的称谓中的一个或多个。

13.根据权利要求10-12任一项所述的设备，其特征在于，所述声学模型库中的声学模型有多个；所述语音合成模块具体用于：

根据所述用户的身份确定所述用户的喜好；根据所述用户的喜好从所述声学模型库中选取声学模型。

14.根据权利要求10-12任一项所述的设备，其特征在于，所述声学模型库中的声学模型有多个，每个声学模型分别具有一个声模标识；所述语音合成模块具体用于：

根据所述当前输入语音的内容，确定与所述当前输入语音的内容相关的声模标识；从所述声学模型库中选取对应于所述声模标识的声学模型。

15.根据权利要求10-12任一项所述的设备，其特征在于，所述声学模型库中的声学模型有多个；所述语音合成模块具体用于：

根据所述用户的身份选取所述声学模型中的多个声学模型；确定所述多个声学模型中的各个声学模型的权重值；其中，所述各个声学模型的权重值是用户预先设置的，或者，所述各个声学模型的权重值是预先根据所述用户的喜好而确定的；将所述各个声学模型基于所述权重值进行融合，获得融合后的声学模型。

16.根据权利要求10-12任一项所述的设备，其特征在于，

所述语音对话模块还用于：在所述语音识别模块接收用户的当前输入语音之前，根据所述用户的历史输入语音确定目标字符与用户偏好读音之间的对应关系，将所述目标字符与用户偏好读音之间的对应关系关联所述用户的身份；

所述语音合成模块具体用于：当所述回复文本中存在与所述用户的身份关联的所述目标字符时，通过所述声学模型，根据所述目标字符与用户偏好读音之间的对应关系、所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成。

17.根据权利要求10至12任一项所述的设备，其特征在于，

所述语音对话模块还用于：根据所述回复文本从预设的音乐库中选取背景音效，所述背景音效为音乐或声音特效；

所述语音合成模块具体用于：通过所述声学模型，根据所述背景音效、所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成。

18.根据权利要求17所述的设备，其特征在于，所述背景音效具有一个或多个情感极性类型的标识和情感强度的标识；所述情感极性类型的标识用于指示以下至少一种情感：快乐、喜欢、悲伤、惊讶、愤怒、恐惧、厌恶；所述情感强度的标识用于指示所述至少一种情感各自的程度值；

所述语音对话模块具体用于：将所述回复文本的内容拆分成多个子内容，分别确定各个子内容的情感极性类型和情感强度；根据所述各个子内容的情感极性类型和情感强度，在所述预设的音乐库中选取最匹配的背景音效；

19.一种计算机可读存储介质，其特征在于，

所述计算机可读存储介质存储有计算机程序，所述计算机程序被计算机设备执行时能够实现权利要求1至9任意一项所述的方法。