CN109461435B

CN109461435B - 一种面向智能机器人的语音合成方法及装置

Info

Publication number: CN109461435B
Application number: CN201811376508.6A
Authority: CN
Inventors: 贾志强; 俞晓君
Original assignee: Beijing Guangnian Infinite Technology Co ltd
Current assignee: Beijing Guangnian Infinite Technology Co ltd
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2022-07-01
Anticipated expiration: 2038-11-19
Also published as: CN109461435A

Abstract

一种面向智能机器人的语音合成方法及装置，该方法包括：步骤一、获取声音合成参数配置指令；步骤二、在对待转换文本信息进行TTS转换的过程中，基于声音合成参数配置指令，根据待转换文本的文本结构及文本所包含的情感参数，调整相应的声音合成参数，并基于调整后的声音合成参数对待转换文本信息进行TTS转换，得到所需要的音频信息。本方法能够在合成最终的语音合成效果之前，利用获取到的声音合成参数配置指令、待转换文本的文本结构以及文本所包含的情感参数对TTS转换过程中的声音合成参数进行调整干预，从而使得最终合成的语音更加具有情感，从而避免了现有技术合成的语音过于机械化的问题。

Description

一种面向智能机器人的语音合成方法及装置

技术领域

本发明涉及机器人技术领域，具体地说，涉及一种面向智能机器人的语音合成方法及装置。

背景技术

随着科学技术的不断发展，信息技术、计算机技术以及人工智能技术的引入，机器人的研究已经逐步走出工业领域，逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。而人们对于机器人的要求也从简单重复的机械动作提升为具有拟人问答、自主性及与其他机器人进行交互的智能机器人，人机交互也就成为决定智能机器人发展的重要因素。因此，提升智能机器人的交互能力，改善机器人的类人性和智能性，是现在亟需解决的重要问题。

发明内容

本发明提供了一种面向智能机器人的语音合成方法，所述方法包括：

步骤一、获取声音合成参数配置指令；

步骤二、在对待转换文本信息进行TTS转换的过程中，基于所述声音合成参数配置指令，根据待转换文本的文本结构及文本所包含的情感参数，调整相应的声音合成参数，并基于调整后的声音合成参数对所述待转换文本信息进行TTS转换，得到所需要的音频信息。

根据本发明的一个实施例，所述声音合成参数包括以下所列项中的任一项或几项：

声音波动幅度、基频、语速、音量、混响开关和朗读符号间隔时长。

根据本发明的一个实施例，在所述步骤二中，基于调整后的声音合成参数，利用预先训练得到的TTS转换模型来对所述待转换文本信息进行TTS转换。

根据本发明的一个实施例，利用预设语料集合来训练得到所述TTS转换模型，其中，所述预设语料集合包括多个训练语料，各个训练语料包含有待转换文本的文本结构以及对应的声母韵母信息和发音起止时间信息。

根据本发明的一个实施例，在所述调整相应的声音合成参数时，获取语音合成标签，所述语音合成标签包含：针对于特定交互场景的多个声音合成参数以及情感参数。

本发明还提供了一种程序产品，其上存储有可执行如上任一项所述的方法步骤的程序代码。

本发明还提供了一种面向智能机器人的人机交互系统，其特征在于，所述系统装配有操作系统，所述操作系统能够装载并执行如上所述的程序产品。

本发明还提供了一种面向智能机器人的语音合成装置，所述装置包括：

指令获取模块，其用于获取声音合成参数配置指令；

TTS转换模块，其用于在对待转换文本信息进行TTS转换的过程中，基于所述声音合成参数配置指令，根据待转换文本的文本结构及文本所包含的情感参数，调整相应的声音合成参数，并基于调整后的声音合成参数对所述待转换文本信息进行TTS转换，得到所需要的音频信息。

根据本发明的一个实施例，所述TTS转换模块配置为基于调整后的声音合成参数，利用预先训练得到的TTS转换模型来对所述待转换文本信息进行TTS转换。

根据本发明的一个实施例，利用预设语料集合来训练得到所述TTS转换模型，其中，所述预设语料集合包括多个训练语料，各个训练语料包含有待转换文本的文本结构对应的声母韵母信息和发音起止时间信息。

根据本发明的一个实施例，在所述调整相应的声音合成参数时，所述指令获取模块配置为获取语音合成标签，所述语音合成标签包含：针对于特定交互场景的多个声音合成参数，以及所述文本所包含的情感参数。

本发明还提供了一种儿童专用智能设备，所述设备包括智能机器人和云端服务器，所述智能机器人和云端服务器配合地获取声音合成参数配置指令并根据所获取到的声音合成参数配置指令以及待转换文本的文本结构和文本所包含的情感参数来调整相应的声音合成参数，进而利用调整后的声音合成参数来对待转换文本信息进行TTS转换，从而得到所需要的音频信息。

本发明所提供的面向智能机器人的语音合成方法以及装置能够在合成最终的语音合成效果之前，利用获取到的声音合成参数配置指令、待转换文本的文本结构以及文本所包含的情感参数对TTS转换过程中的声音合成参数进行调整干预，从而使得最终合成的语音更加具有情感，从而避免了现有技术合成的语音过于机械化的问题。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要的附图做简单的介绍：

图1是根据本发明一个实施例的面向智能机器人的语音合成方法的实现流程示意图；

图2是根据本发明一个实施例的用于获取声音合成参数配置指令的GUI界面示意图；

图3是根据本发明一个实施例的确定情感参数的实现流程示意图；

图4是根据本发明另一个实施例的面向智能机器人的语音合成方法的实现流程示意图；

图5是根据本发明一个实施例的面向智能机器人的语音合成装置的结构示意图；

图6是根据本发明一个实施例的儿童专用智能设备的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

同时，在以下说明中，出于解释的目的而阐述了许多具体细节，以提供对本发明实施例的彻底理解。然而，对本领域的技术人员来说显而易见的是，本发明可以不用这里的具体细节或者所描述的特定方式来实施。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

TTS技术又称文语转换技术，它能够将计算机产生的、或外部输入的文字信息转变为可以听得懂的、流利的语音输出的技术。TTS技术在文语转换系统中起着重要的作用，主要模拟人对自然语言的理解过程，包括文本规整、词的切分、语法分析和语义分析，从而使计算机对输入的文本能完全理解。

传统的语音合成技术可以将一句文本(例如中文、英文或是其他语言文字等)合成语音，而现有的语音合成技术所得到的语音听起来较为机械。在朗读有感情的内容时，现有的语音合成技术无法很好地模拟出文本所含有的情感，这样也就限制了语音合成技术的应用与发展。

针对现有技术中所存在的问题，本发明提供了一种新的面向智能机器人的语音合成方法，该方法通过对声音合成参数进行合理的条件，能够使得最终通过TTS转换得到的音频信息更加生动。

为了更加清楚地阐述本发明所提供的面向智能机器人的语音合成方法的实现原理、实现过程以及优点，以下分别结合不同的实施例来对该方法作进一步的说明。

实施例一：

图1示出了本实施例所提供的面向智能机器人的语音合成方法的实现流程示意图。

如图1所示，本实施例所提供的面向智能机器人的语音合成方法优选地首先会在步骤S101中获取声音合成参数配置指令。本实施例中，如图2所示，该方法优选地可以通过智能机器人人机交互的多模态输入端，经智能机器人的解析端以获取用户针对当前问答/聊天话题的交互指令，或者，童话故事、英语学习等内容输出的意图指令，该意图指令触发语音合成的步骤。该方法通过获取用户在智能机器人人机交互的多模态输入端，经智能机器人的解析端以获取用户意图指令，依据该意图指令生成相应的声音合成参数配置指令。

例如，本实施例中，该方法在步骤S101中所获取到的声音合成参数配置指令中所包含的声音合成参数优选地包括：声音波动幅度、基频、语速、音量、混响开关以及朗读符号间隔时长。

当然，在本发明的其他实施例中，根据实际需要，上述声音合成参数既可以仅包含以上所列项中的某一项或某几项，还可以包含其他未列出的合理项，抑或是以上所列项中的某一项或某几项与其他未列出的合理项的组合，本发明不限于此。

再次如图1所示，本实施例中，在得到声音合成参数配置指令后，在对待转换文本信息进行TTS转换的过程中，该方法会在步骤S102中基于步骤S101中所获取到的声音合成参数配置指令，来根据待转换文本的文本结构以及文本所包含的情感参数，来调整相应的语音合成参数。随后，在方法则会在步骤S103中基于调整后的声音合成参数来对待转换文本信息进行TTS转换，从而得到所需要的音频信息。

一方面，上述音频信息可以是针对与用户之间的多模态交互；另一方面，上述音频信息可以将故事内容、英语学习材料、绘本故事等，以生动地、富于感情地输出给用户。同时，伴随着音频信息，智能机器人配合地输出相关的多模态数据，如动作、表情数据以配合音频信息。

本实施例中，该方法在步骤S101中所获取到的声音合成参数配置指令包含了相应声音合成参数的配置值。因此，该方法在步骤S102中也就可以通过对步骤S101中所获取到的声音合成参数配置指令进行解析来得到各个声音合成参数的配置值。

例如，通过对声音合成参数配置指令进行解析，该方法在步骤S102中可以得到朗读符号间隔时长中句号后的间隔时长为300毫秒，问号和叹号后的间隔时长为450毫秒，段落与段落自检的间隔时长为600毫秒。通过合理的设定朗读符号间隔时长，该方法能够使得最终转换得到的音频信息听起来更加的合理、类人化，而不会像现有方法转换得到的音频信息那样听起来存在上气不接下气。

同时，本实施例中，该方法在调整声音合成参数的过程中，除了依据步骤S101中所获取到的声音合成参数配置指令外，还会基于待转换文本本身的文本结构以及文本所包含的情感参数。

本实施例中，待转换文本所包含的情感参数优选地通过对待转换文本进行情感分析来确定。其中，该方法优选地采用句子级分析方式来获取待转换文本的情感参数。

具体地，如图3所示，该方法优选地首先会在步骤S301中对待转换文本进行语句提取。根据待转换文本的文本结构，可以根据文本中的朗读符号(例如句号、问号以及叹号等)来对待转换文本进行分割，从而将待转换文本转换为多个语句。

在完成语句提取后，该方法会在步骤S302中对分割得到的各个语句进行特征词抽取。其中，特征词能够用于表征语句所隐含的情感。本实施例中，该方法在步骤S302中所抽取的特征词优选地包括连词以及否定词等。

在步骤S303中，该方法会对各个语句进行句法分析。具体地，该方法优选地会根据步骤S302中所抽取出的联系来确定句子中该连词前后的分词权重，而针对否定词则会进行极性反转或者双重否定的识别。

在步骤S304中，该方法则会根据各个语句中的情感词汇以及句法分析结果，综合确定出语句的评分，该评分则能够表征语句的情感参数。例如，语句的评分越低，那么语句所表征的情感越负面；语句的评分越高，那么语句所表征的情感越正面。

例如，如果语句的评分为-10，那么则表示该语句所表征的情感为极端负面的情感(例如暴躁、狂怒等)；如果语句的评分为-2，那么则表示该语句所表征的情感为较为负面的情感(例如心情低落等)；而如果语句的评分为0，那么则表示该语句所表征的情感为中性；如果语句的评分为+7，那么则表示该语句所表征的情感为较为正面的情感(例如十分喜悦)。

需要指出的是，在本发明的其他实施例中，根据实际需要，该方法还可以采用其他合理方式来确定待转换文本所包含的情感参数，本发明不限于此。例如，在本发明的一个实施例中，该方法所确定出的情感参数不仅仅包含情感的正面或是负面属性，还可以包含诸如“严肃的”、“深情的”等属性。

当然，在本发明的其他实施例中，该方法还可以采用其他合理方式来基于获取到的声音合成参数配置指令、待转换文本的文本结构以及文本所包含的情感参数，来对相应的声音合成参数进行调整，本发明同样不限于此。

本实施例中，该方法在对待转换文本信息进行TTS转换时，优选地基于调整后的声音合成参数，利用预先训练得到的TTS转换模型里对待转换文本信息进行TTS转换。

其中，该方法优选地利用预设语料集合来训练得到TTS转换所需要的TTS转换模型。本实施例中，上述预设语料集合优选地包括多个训练语料(例如5000到10000个语料)，各个训练语料均包含有相应的待转换文本的文本结构以及对应的声母韵母信息和发音起止时间信息。

从上述描述中可以看出，本发明所提供的面向智能机器人的语音合成方法能够在合成最终的语音合成效果之前，利用获取到的声音合成参数配置指令、待转换文本的文本结构以及文本所包含的情感参数对TTS转换过程中的声音合成参数进行调整干预，从而使得最终合成的语音更加具有情感，从而避免了现有技术合成的语音过于机械化的问题。

实施例二：

图4示出了本实施例所提供的面向智能机器人的语音合成方法的实现流程示意图。

如图4所示，本实施例所提供的面向智能机器人的语音合成方法优选地首先会在步骤S101中获取语音合成过程中所使用到的语音合成标签。其中，该方法所获取到的语音合成标签优选地包括这对特定交互场景的多个声音合成参数以及情感参数。

发明人通过对人与人的交互过程进行分析发现，在一个交互场景中，人所发出的语音通常并不是单单由某一个声音合成配置参数来决定的。例如，不同人的说话语速可能不同，因此单单依靠语速来体现交互过程中的情感是不准确的。而如果要求最终合成得到的音频信息能够准确表达出所需要的情感，那么也就需要通过调整大量的声音合成参数配置指令来实现，这仅仅需要设置声音合成参数的配置值的操作人员需要专业的知识，还需要耗费大量的时间来完成该操作。

因此，针对该问题，本实施例所提供的方法在步骤S401中直接获取的是语音合成过程中的语音合成标签。该语音合成标签中包含了对于所需要的交互场景(即特定交互场景)的多个声音合成参数以及情感参数，这样用户也就可以通过输入语音合成标签的方式来实现对声音合成参数的调整。

例如，如果所需要的音频信息是较为粗犷的，那么在现有技术中也就需要通过反复调整多个声音合成参数来能够实现上述效果，而利用本实施例所提供的方法时声音合成模型在运行时，调用“粗犷”这一语音合成标签即可实现上述效果。

在获取获取到语音合成标签后，该方法会在步骤S402中根据上述语音合成标签以及待转换文本的文本结构，来调整相应的声音合成参数。随后，该方法会在步骤S403中来基于调整后的声音合成参数对待转换文本信息进行TTS转换，得到所需要的音频信息。

需要指出的是，本实施例中，上述步骤S402以及步骤S403的实现原理以及实现过程与上述实施例一中步骤S102和步骤S103的实现原理以及实现过程类似，故在此不再对步骤S402以及步骤S403的具体内容进行赘述。

本发明还提供了一种程序产品以及面向智能机器人的人机交互系统。其中，该程序产品存储有可执行上述面向智能智能机器人的语音合成方法步骤的程序代码，而该人机交互系统则装配有相应的操作系统，该操作系统能够装载并执行上述程序产品。

同时，本发明还提供了一种面向智能机器人的语音合成装置以及包含该装置的儿童专用智能设备。

图5示出了本实施例所提供的面向智能机器人的语音合成装置的结构示意图。

如图5所示，本实施例所提供的面向智能机器人的语音合成装置优选地包括指令获取模块501和TTS转换模块502。其中，指令获取模块501用于获取声音合成参数配置指令，并将该声音合成参数配置指令传输至与之连接的TTS转换模块502。

本实施例中，指令获取模块501优选地为智能机器人人机交互的多模态输入端，智能机器人人机交互的多模态输入端，经智能机器人的解析端以获取用户针对当前问答/聊天话题的交互指令，或者，童话故事、英语学习等内容输出的意图指令的输入设备。用户可以通过智能机器人人机交互的多模态输入端，经智能机器人的解析端以获取用户针对童话故事、英语学习等内容输出的意图指令，配合所述指令获取模块501则可以通过获取意图指令生成相应的声音合成参数配置指令。

在对待转换文本信息进行TTS转换的过程中，TTS转换模块502能够基于指令获取模块501所传输来的声音合成参数配置指令，根据待转换文本的文本结构及文本所包含的情感参数，调整相应的声音合成参数，并基于调整后的声音合成参数对待转换文本信息进行TTS转换，得到所需要的音频信息。一方面，所述音频信息可以是针对与用户之间的多模态交互；另一方面，所述音频信息将故事内容、英语学习材料、绘本故事等，以生动的，富于感情地输出给用户。同时，伴随着音频信息，智能机器人配合地输出相关的多模态数据，如动作、表情数据以配合音频信息。

本实施例中，指令获取模块501以及TTS转换模块502实现其各自功能的具体原理以及过程与上述实施例一中步骤S103至步骤S103所涉及的内容类似，故在此不再对指令获取模块501以及TTS转换模块502的具体内容进行赘述。

当然，在本发明的其他实施例中，指令获取模块501所获取到的还可以为上述实施例二中所述的语音合成标签，指令获取模块501TTS转换模块502还可以采用如上述实施例二中步骤S401至步骤S403所公开的方式来实现对待转换文本信息的TTS转换，本发明不限于此。

本发明还提供了一种儿童专用智能设备。如图6所示，本实施例中，该儿童专用智能设备优选地包括智能机器人601和云端服务器602。其中，智能机器人601与云端服务器602能够配合地根据所获取到的声音合成参数配置指令以及待转换文本的文本结构和文本所包含的情感参数来调整相应的声音合成参数，进而利用调整后的声音合成参数来对待转换文本信息进行TTS转换，从而得到所需要的音频信息。

本实施例中，面向智能机器人的语音合成装置中的指令获取模块优选地配置在智能机器人601中。需要指出的是，本实施例中，智能机器人601可以为诸如平板电脑、儿童手表、机器人、手机、故事机或是绘本阅读机器人等设备。

在得到声音合成参数配置指令后，智能机器人601优选地会通过自身的通信模块来将上述声音合成参数配置指令上传至云端服务器602。云端服务器602能够根据所获取到的声音合成参数配置指令以及待转换文本的文本结构和文本所包含的情感参数来调整相应的声音合成参数，进而利用调整后的声音合成参数来对待转换文本信息进行TTS转换，从而得到所需要的音频信息。

云端服务器602会将转换得到的音频信息传输至智能机器人601，以由智能机器人601通过自身的输出模块向用户603输出。

需要指出的是，在本发明的不同实施例中，上述待转换文本既可以由智能机器人601来进行获取，也可以由与云端服务器602通信连接的其他设备来获取到，本发明不限于此。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构或处理步骤，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然上述示例用于说明本发明在一个或多个应用中的原理，但对于本领域的技术人员来说，在不背离本发明的原理和思想的情况下，明显可以在形式上、用法及实施的细节上作各种修改而不用付出创造性劳动。因此，本发明由所附的权利要求书来限定。

Claims

1.一种面向智能机器人的语音合成方法，其特征在于，所述方法包括：

步骤一、获取声音合成参数配置指令；所述声音合成参数配置指令中所包含的声音合成参数包括：声音波动幅度、基频、语速、音量、混响开关以及朗读符号间隔时长；

步骤二、在对待转换文本信息进行TTS转换的过程中，基于所述声音合成参数配置指令，根据待转换文本的文本结构及文本所包含的情感参数，调整相应的声音合成参数，并基于调整后的声音合成参数对所述待转换文本信息进行TTS转换，得到所需要的音频信息；

在所述步骤二中，通过对待转换文本进行情感分析来确定所述情感参数，包括以下操作：

依据待转换文本的文本结构，根据文本中的朗读符号来对待转换文本进行分割；

对分割得到的各个语句进行特征词抽取；

根据抽取出的连词来确定句子中该连词前后的分词权重，针对否定词进行极性反转或者双重否定的识别；得到句法分析结果；

根据各语句中的情感词汇以及句法分析结果，综合确定出语句的情感评分，以表征语句的情感参数。

2.如权利要求1所述的方法，其特征在于，在所述步骤二中，基于调整后的声音合成参数，利用预先训练得到的TTS转换模型来对所述待转换文本信息进行TTS转换。

3.如权利要求2所述的方法，其特征在于，利用预设语料集合来训练得到所述TTS转换模型，其中，所述预设语料集合包括多个训练语料，各个训练语料包含有待转换文本的文本结构以及对应的声母韵母信息和发音起止时间信息。

4.如权利要求1～3中任一项所述的方法，其特征在于，在所述调整相应的声音合成参数时，获取语音合成标签，所述语音合成标签包含：针对于特定交互场景的多个声音合成参数以及情感参数。

5.一种程序产品，其上存储有可执行如权利要求1～4中任一项所述的方法步骤的程序代码。

6.一种面向智能机器人的人机交互系统，其特征在于，所述系统装配有操作系统，所述操作系统能够装载并执行如权利要求5所述的程序产品。

7.一种面向智能机器人的语音合成装置，其特征在于，所述装置包括：

指令获取模块，其用于获取声音合成参数配置指令；所述声音合成参数配置指令中所包含的声音合成参数包括：声音波动幅度、基频、语速、音量、混响开关以及朗读符号间隔时长；

TTS转换模块，其用于在对待转换文本信息进行TTS转换的过程中，基于所述声音合成参数配置指令，根据待转换文本的文本结构及文本所包含的情感参数，调整相应的声音合成参数，并基于调整后的声音合成参数对所述待转换文本信息进行TTS转换，得到所需要的音频信息；

所述TTS转换模块配置为通过以下操作对待转换文本进行情感分析来确定所述情感参数：

对分割得到的各个语句进行特征词抽取；

8.如权利要求7所述的装置，其特征在于，所述TTS转换模块配置为基于调整后的声音合成参数，利用预先训练得到的TTS转换模型来对所述待转换文本信息进行TTS转换；

利用预设语料集合来训练得到所述TTS转换模型，其中，所述预设语料集合包括多个训练语料，各个训练语料包含有待转换文本的文本结构对应的声母韵母信息和发音起止时间信息；

在所述调整相应的声音合成参数时，所述指令获取模块配置为获取语音合成标签，所述语音合成标签包含：针对于特定交互场景的多个声音合成参数，以及所述文本所包含的情感参数。

9.一种儿童专用智能设备，其特征在于，所述设备包括智能机器人和云端服务器，所述智能机器人和云端服务器配合地执行如权利要求1～4中任一项所述的语音合成方法，用以获取声音合成参数配置指令，并根据所获取到的声音合成参数配置指令以及待转换文本的文本结构和文本所包含的情感参数来调整相应的声音合成参数，进而利用调整后的声音合成参数来对待转换文本信息进行TTS转换，从而得到所需要的音频信息。