CN109473090A

CN109473090A - 一种面向智能机器人的故事数据处理方法及装置

Info

Publication number: CN109473090A
Application number: CN201811155487.5A
Authority: CN
Inventors: 贾志强
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2019-03-15

Abstract

一种面向智能机器人的故事数据处理方法，其包括：步骤一、对待输出故事文本进行自然语言理解处理，得到待输出故事文本的文本特征信息；步骤二、确定文本特征信息所对应的配置信息；步骤三、根据配置信息调用相应的音乐和/或音效，并将音乐和/或音效添加到待输出故事文本所对应的TTS音频文件中，合成得到待输出故事音频。本方法借助于人工智能手段，只需要根据所提供的待输出故事文本即可生成一个丰富多彩的故事音频，相较于现有的TTS转换得到的故事音频更加地符合人类的使用特征，其可以有效避免所输出的故事音频过于机械化，这样也就可以使得用户能够享受到与“人”的交互过程，而不是与冷冰冰的机器人的交互过程。

Description

一种面向智能机器人的故事数据处理方法及装置

技术领域

本发明涉及机器人技术领域，具体地说，涉及一种面向智能机器人的故事数据处理方法及装置。

背景技术

随着科学技术的不断发展，信息技术、计算机技术以及人工智能技术的引入，机器人的研究已经逐步走出工业领域，逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。而人们对于机器人的要求也从简单重复的机械动作提升为具有拟人问答、自主性及与其他机器人进行交互的智能机器人，人机交互也就成为决定智能机器人发展的重要因素。因此，提升智能机器人的交互能力，改善机器人的类人性和智能性，是现在亟需解决的重要问题。

发明内容

为解决上述问题，本发明提供了一种面向智能机器人的故事数据处理方法，所述方法包括：

步骤一、对待输出故事文本进行自然语言理解处理，得到所述待输出故事文本的文本特征信息；

步骤二、确定所述文本特征信息所对应的配置信息；

步骤三、根据所述配置信息调用相应的音乐和/或音效，并将所述音乐和/或音效添加到所述待输出故事文本所对应的TTS音频文件中，合成得到待输出故事音频。

根据本发明的一个实施例，在所述步骤二中，根据所述文本特征信息所对应的语言风格特征确定其所对应的配置信息。

根据本发明的一个实施例，所述配置信息包括时间轴信息、音效标签信息、音乐标签信息和/或情感标签信息。

根据本发明的一个实施例，在所述步骤三中，

对所述待输出故事文本进行TTS转换，得到所述TTS音频；

根据所述音效标签信息、音乐标签信息和/或情感标签信息调用相应的音效和/或音乐，并将调用的音效和/或音乐按照所述时间轴信息添加到TTS音频文件中，合成得到所述待输出故事音频。

本发明还提供了一种程序产品，其上存储有可执行如上任一项所述的方法步骤的程序代码。

本发明还提供了一种面向智能机器人的故事数据处理装置，所述装置包括：

文本特征信息提取模块，其用于对待输出故事文本进行自然语言理解处理，得到所述待输出故事文本的文本特征信息；

配置信息确定模块，其用于确定所述文本特征信息所对应的配置信息；

音频合成模块，其用于根据所述配置信息调用相应的音乐和/或音效，并将所述音乐和/或音效添加到所述待输出故事文本所对应的TTS音频文件中，合成得到待输出故事音频。

根据本发明的一个实施例，所述配置信息确定模块配置为根据所述文本特征信息所对应的语言风格特征确定其所对应的配置信息。

根据本发明的一个实施例，所述配置信息包括时间轴信息、音效标签信息音乐标签信息和/或情感标签信息。

根据本发明的一个实施例，所述音频合成模块配置为对所述待输出故事文本进行TTS转换，得到所述TTS音频，并根据所述音效标签信息、音乐标签信息和/或情感标签信息调用相应的音效和/或音乐，随后将调用的音效和/或音乐按照所述时间轴信息添加到TTS音频文件中，合成得到所述待输出故事音频。

本发明还提供了一种儿童专用设备，所述儿童专用设备与云端服务器配合地执行如上所述程序产品的程序代码，并播放待输出故事音频。

本发明还提供了一种儿童故事机，所述儿童故事机包括：

如上所述的儿童专用设备，其用于对待输出故事文本进行自然语言理解处理，得到所述待输出故事文本的文本特征信息；

云端服务器，其用于通过执行如上所述的面向智能机器人的故事数据处理方法来根据接收到的待输出故事文本的文本特征信息合成待输出故事音频，并将所述待输出故事音频反馈至所述儿童专用设备，以由所述儿童专用设备输出。

本发明所提供的面向智能机器人的故事数据处理方法借助于人工智能手段，只需要根据所提供的待输出故事文本即可生成一个丰富多彩的故事音频。该故事音频既可以包含相应的音效，也可以包含相应的背景音乐，还可以包含不同的情感表达，因此其相较于现有的TTS转换得到的故事音频更加地符合人类的使用特征，其可以有效避免所输出的故事音频过于机械化，这样也就可以使得用户能够享受到与“人”的交互过程，而不是与冷冰冰的机器人的交互过程。

同时，本发明所提供的方法由于并不需要专业人员来进行大量重复性操作即可生成丰富多彩的故事音频，因此其可以极大的降低故事音频生成所需要的人工成本，并且其能够在较短时间内快速生成海量的故事音频内容。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要的附图做简单的介绍：

图1是根据本发明一个实施例的面向智能机器人的故事数据处理方法的实现流程示意图；

图2是根据本发明一个实施例的合成待输出故事音频的实现流程示意图；

图3是根据本发明一个实施例的面向智能机器人的故事数据处理装置的结构示意图；

图4是根据本发明一个实施例的儿童故事机的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

同时，在以下说明中，出于解释的目的而阐述了许多具体细节，以提供对本发明实施例的彻底理解。然而，对本领域的技术人员来说显而易见的是，本发明可以不用这里的具体细节或者所描述的特定方式来实施。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

随着人工智能技术的发展，在各个领域中都有所应用。以生活领域为例，为儿童服务的讲故事机器人被研发出来，他们能够极大地减轻父母的负担，通过给儿童读故事来提高他们的阅读习惯。

传统制作故事的方法是需要在录音棚内有专业人员(例如录音师以及录音声优等)来进行故事音频的制作。然而，现有的这种方法存在着制作成本高、耗费时间长的缺陷，对于现有这种方法来说，专业人员往往把大量的时间耗费在了单调、重复、没有创造性的工作上。

针对现有技术中所存在的上述问题，本发明提供了一种新的面向智能机器人的故事数据处理方法，该方法借助人工智能手段，只需要提供合适的故事文本即可基于故事文本生成一个丰富多彩的故事音频。

图1示出了本实施例所提供的面向智能机器人的故事数据处理方法的实现流程示意图。

如图1所示，本实施例所提供的面向智能机器人的故事数据处理方法首先会在步骤S101中对待输出故事文本进行自然语言理解处理，从而得到该待输出文本的文本特征信息。

本实施例中，由于待输出文本为自然语言文本，因此为了能够更加高效地进行数据处理，该方法在步骤S101中优选地首先会对待输出故事文本进行诸如分词、词法分析、语法分析以及语义分析等自然语言处理，随后再对自然语言处理后的故事文本进行自然语言理解处理，从而得到待输出故事文本的文本特征信息(例如确定出待输出故事文本中各个语句的各个词语等)。

需要指出的是，在本发明的不同实施例中，根据不同的需要，该方法可以采用不同的分析模型来对待输出故事文本进行自然语言处理，本发明不限于此。例如，在本发明的不同实施例中，该方法既可以采用基于集合论的模型来对待输出故事文本进行自然语言处理，也可以采用基于代数论的模型来对待输出故事文本进行自然语言处理，还可以采用基于概率统计论的模型来对待输出故事文本进行自然语言处理。

本实施例中，在得到待输出故事文本的文本特征信息后，该方法会在步骤S102中确定上述文本特征信息所对应的配置信息。具体地，本实施例中，该方法在步骤S102中优选地根据文本特征信息所对应的语言风格特征来确定其所对应的配置信息。

上述配置信息优选地包括：时间轴信息、音效标签信息、音乐标签信息以及情感标签信息。其中，时间轴信息能够表征出文本特征信息中各个字或者词的开始时间以及结束时间，音效标签信息能够表征出各个字或者词所对应的音效，音乐标签信息以及情感标签信息则能够表征出各个字或者词所对应的音乐以及情感。

音效标签信息能够决定如何将某个字或者词通过音频输出。例如，当某个字或者词的音效标签信息为“低音”时，该方法在输出该字或者词时则会调用低音音效。

类似地，根据音乐标签信息以及情感标签信息，该方法同样能够确定出输出某个字或者词时所需要调用的音乐以及情感模型。

需要指出的是，在本发明的其他实施例中，根据实际需要，该方法所确定出的配置信息既可以仅包含以上所列项中的某一项或某几项，也可以包含其他未列出的合理项，抑或是以上所列项中的某一项或某几项与其他未列出的合理项的组合，本发明不限于此。

本实施例中，该方法在步骤S102中优选地根据文本特征信息所对应的语言风格进行合成，在合成后也就可以确定出所合成的音频信息与文本信息之间的对应关系，而该对应关系也就可以作为上述配置信息。

本实施例中，该方法优选地按照某个字或者词是对话还是旁白来进行合成。当然，在本发明的其他实施例中，该方法还可以基于其他合理特征参数来进行合成，本发明不限于此。

如图1所示，本实施例中，在得到文本特征信息所对应的配置信息后，该方法会在步骤S103中根据配置信息调用相应的音乐和/或音效，并在步骤S104中将上述音乐和/或音效添加到待输出文本所对应的TTS音频文件中，从而合成得到待输出故事音频。

具体地，如图2所示，本实施例中，该方法优选地首先会在步骤S201中对待输出故事文本进行TTS转换，从而得到待输出故事文本所对应的TTS音频。TTS音频也就是通过对原始的待输出故事文本进行TTS处理所得到的音频，其并不包含任何的情感以及音效音乐信息。

在步骤S202中，该方法会根据步骤S102中所确定出的文本特征信息所对应的配置信息(例如时间轴信息、音效标签信息、音乐标签信息以及情感标签信息等)来调用相应的音效和/或音乐，并在步骤S203中将上述音效和/或音乐按照时间轴信息来添加到步骤S201中所得到的TTS音频文件中，这样也就可以合成得到对应于待输出故事文本的待输出故事音频。

具体地，本实施例中，该方法在合成待输出故事音频的过程中，可以通过将调用的音效和/或音乐按照时间轴信息来添加到TTS音频的不同音轨上，这样也就方便后续的音频分离等音频处理操作。

需要指出的是，本实施例中，该方法还可以在步骤S201中根据步骤S102中所确定出的部分文本特征信息来进行TTS转换。例如，在本发明的一个实施例中，该方法还可以在步骤S201中根据配置信息中的情感标签信息来进行TTS转换，这样转换得到的TTS音频也就包含了相应的情感特征。

本实施例中，为了快速实现最小的体验闭环，该方法优选地将音效插入某一语句之后。而在本发明的其他实施例中，根据实际需要，该方法还可以将音效插入某一语句之前，也可以将音效插入某一语句之中的任何位置，本发明不限于此。

由于本实施例所提供故事数据处理方法描述的是在计算机系统中实现的。该计算机系统例如可以设置在机器人的控制核心处理器中。例如，本文所述的方法可以实现为能以控制逻辑来执行的软件，其由机器人操作系统中的CPU来执行。本文所述的功能可以实现为存储在非暂时性有形计算机可读介质中的程序指令集合。

当以这种方式实现时，该计算机程序包括一组指令，当该组指令由计算机运行时其促使计算机执行能实施上述功能的方法。可编程逻辑可以暂时或永久地安装在非暂时性有形计算机可读介质中，例如只读存储器芯片、计算机存储器、磁盘或其他存储介质。除了以软件来实现之外，本文所述的逻辑可利用分立部件、集成电路、与可编程逻辑设备(诸如，现场可编程门阵列(FPGA)或微处理器)结合使用的可编程逻辑，或者包括它们任意组合的任何其他设备来体现。所有此类实施例旨在落入本发明的范围之内。

从上述描述中可以看出，本发明所提供的面向智能机器人的故事数据处理方法借助于人工智能手段，只需要根据所提供的待输出故事文本即可生成一个丰富多彩的故事音频。该故事音频既可以包含相应的音效，也可以包含相应的背景音乐，还可以包含不同的情感表达，因此其相较于现有的TTS转换得到的故事音频更加地符合人类的使用特征，其可以有效避免所输出的故事音频过于机械化，这样也就可以使得用户能够享受到与“人”的交互过程，而不是与冷冰冰的机器人的交互过程。

本发明还提供了一种程序产品，该程序产品存储有程序代码，该代码被操作系统执行时能够实现如上所述的面向智能机器人的故事数据处理方法。

同时，本发明还提供了一种面向智能机器人的故事数据处理装置。其中，图3示出了本实施例中该故事数据处理装置的结构示意图。

如图3所示，本实施例所提供的故事数据处理装置优选地包括：文本特征信息提取模块301、配置信息确定模块302以及音频合成模块303。其中，文本特征信息提取模块301用于对待输出故事文本进行自然语言理解处理，从而得到待输出故事文本的文本特征信息。

在得到待输出故事文本的文本特征信息后，文本特征信息提取模块301会将上述文本特征信息传输至配置信息确定模块302，以由配置信息确定模块302来根据接收到的文本特征信息确定出对应的配置信息。本实施例中，配置信息确定模块302所确定出的上述配置信息优选地包括：时间轴信息、音效标签信息、音乐标签信息以及情感标签信息。其中，时间轴信息能够表征出文本特征信息中各个字或者词的开始时间以及结束时间，音效标签信息能够表征出各个字或者词所对应的音效，音乐标签信息以及情感标签信息则能够表征出各个字或者词所对应的音乐以及情感。

在得到文本特征信息所对应的配置信息后，配置信息确定模块302会将上述配置信息传输至音频合成模块303。音频合成模块303能够根据上述配置信息来调用相应的音乐和/或音效，并将上述音乐和/或音效添加到待输出文本所对应的TTS音频文件中，从而合成得到待输出故事音频。

本实施例中，文本特征信息提取模块301、配置信息确定模块302以及音频合成模块303实现其各自功能的原理以及过程与上述步骤S101至步骤S104所公开的内容类似，故在此不再对文本特征信息提取模块301、配置信息确定模块302以及音频合成模块303的具体内容进行赘述。

此外，本发明还提供了一种儿童故事机。如图4所示，本实施例中，该儿童故事机包括儿童专用设备401以及云端服务器402。儿童专用设备401能够与云端服务器402配合地执行能够实现前述面向智能机器人的故事数据处理方法的程序代码，进而生成并输出对应于待输出故事文本的故事音频。

具体地，本实施例中，儿童专用设备401在获取到待输出故事文本后，会对待输出故事文本进行自然语言理解处理，从而得到待输出故事文本的文本特征信息。

需要指出的是，在本发明的不同实施例中，儿童专用设备能够根据实际需要而采用不同的方式来获取待输出故事文本。例如，在本发明的一个实施例中，儿童专用设备401会向儿童用户403输出诸如“你想听什么故事啊”的语音信息，在得到儿童用户403所输入的诸如“白雪公主”的反馈信息后，儿童专用设备401会从自身的数据存储库中调取对应于“白雪公主”的故事文本，这样也就得到了待输出故事文本。

在某些情况下，儿童用户403所希望听的故事是儿童专用设备401自身未存储的，此时本实施例中儿童专用设备401优选地会向云端服务器402输出相应的故事文本查询请求。云端服务器402则能够根据所接收到的故事文本查询请求来查找相应的故事文本数据，并将该故事文本数据发送至儿童专用设备401。

此外，根据实际需要，儿童专用设备401还可以通过扫描实体书籍来获取待输出故事文本。例如，在本发明的一个实施例中，当儿童用户指着实体数据中的某一段文字说“你给我将这个故事吧”时，儿童专用设备401则可以通过获取实体数据中的该段文字的图像并进行字符识别来获取到所需要输出的故事文本(即待输出故事文本)。

需要指出的是，本实施例中，儿童专用设备401确定待输出故事文本的文本特征信息的原理以及过程与上述步骤S101所公开的内容类似，故在此不再对儿童专用设备401确定待输出故事文本的文本特征信息的具体内容进行赘述。

本实施例中，儿童专用设备401在确定出待输出故事文本的文本特征信息后，其会将上述文本特征信息传输至云端服务器402，以由云端服务器402来根据上述文本特征信息合成待输出故事文本所对应的待输出故事音频。

需要说明的是，所述儿童专用设备可以为：平板电脑、儿童手表、机器人，手机，故事机，绘本阅读机器人。

具体地，本实施例中，云端服务器402合成待输出故事音频的具体原理以及过程与上述步骤S102至步骤S104所公开的内容类似，故在此不再对云端服务器402合成待输出故事音频的具体内容进行赘述。

在得到带输出故事音频后，云端服务器402会将上述待输出故事音频传输至儿童专用设备401，以由儿童专用设备401输出。

本实施例中，面向智能机器人的故事数据处理装置中的文本特征信息提取模块优选地集成在儿童专用设备401中，而配置信息确定模块以及音频合成模块则优选地集成在云端服务器402中。

需要指出的是，在本发明的其他实施例中，根据实际需要，儿童专用设备401还可以仅仅获取待输出故事文本，并将获取到的待输出故事文本传输至云端服务器402。这也就是说，对于待输出故事文本的自然语言处理过程也可以由云端服务器402来完成，这样也就可以有效利用云端服务器402强大的数据处理能力，从而进一步提高数据处理效率，缩短合成待输出故事音频所需要的时间。

在本发明的不同实施例中，上述儿童专用设备401可以为包括支持感知、控制等输入输出模块的智能设备，例如平板电脑、机器人、手机、故事机或儿童专用设备，能够给小朋友讲故事，实时解答小朋友提出的问题以及具备丰富的表演力。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构或处理步骤，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然上述示例用于说明本发明在一个或多个应用中的原理，但对于本领域的技术人员来说，在不背离本发明的原理和思想的情况下，明显可以在形式上、用法及实施的细节上作各种修改而不用付出创造性劳动。因此，本发明由所附的权利要求书来限定。

Claims

1.一种面向智能机器人的故事数据处理方法，其特征在于，所述方法包括：

步骤二、确定所述文本特征信息所对应的配置信息；

2.如权利要求1所述的方法，其特征在于，在所述步骤二中，根据所述文本特征信息所对应的语言风格特征确定其所对应的配置信息。

3.如权利要求1或2所述的方法，其特征在于，所述配置信息包括时间轴信息、音效标签信息、音乐标签信息和/或情感标签信息。

4.如权利要求3所述的方法，其特征在于，在所述步骤三中，

对所述待输出故事文本进行TTS转换，得到所述TTS音频；

5.一种程序产品，其上存储有可执行如权利要求1～4中任一项所述的方法步骤的程序代码。

6.一种面向智能机器人的故事数据处理装置，其特征在于，所述装置包括：

7.如权利要求6所述的装置，其特征在于，所述配置信息确定模块配置为根据所述文本特征信息所对应的语言风格特征确定其所对应的配置信息。

8.如权利要求6或7所述的装置，其特征在于，所述配置信息包括时间轴信息、音效标签信息音乐标签信息和/或情感标签信息。

9.如权利要求8所述的装置，其特征在于，所述音频合成模块配置为对所述待输出故事文本进行TTS转换，得到所述TTS音频，并根据所述音效标签信息、音乐标签信息和/或情感标签信息调用相应的音效和/或音乐，随后将调用的音效和/或音乐按照所述时间轴信息添加到TTS音频文件中，合成得到所述待输出故事音频。

10.一种儿童专用设备，其特征在于，所述儿童专用设备与云端服务器配合地执行如权利要求5所述的程序代码，播放待输出故事音频。

11.一种儿童故事机，其特征在于，所述儿童故事机包括：

如权利要求10所述的儿童专用设备，其用于对待输出故事文本进行自然语言理解处理，得到所述待输出故事文本的文本特征信息；

云端服务器，其用于通过执行如权利要求1～4中任一项所述的面向智能机器人的故事数据处理方法来根据接收到的待输出故事文本的文本特征信息合成待输出故事音频，并将所述待输出故事音频反馈至所述儿童专用设备，以由所述儿童专用设备输出。