CN109065018B

CN109065018B - 一种面向智能机器人的故事数据处理方法及系统

Info

Publication number: CN109065018B
Application number: CN201810961011.4A
Authority: CN
Inventors: 贾志强
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2018-08-22
Filing date: 2018-08-22
Publication date: 2021-09-10
Anticipated expiration: 2038-08-22
Also published as: CN109065018A

Abstract

本发明公开了一种面向智能机器人的故事数据处理方法以及系统。所述方法包括：获取故事文本数据；解析所述故事文本数据，获取故事文本解析结果；调用故事音乐模型，根据所述故事文本解析结果选取对应的音乐数据；将所述故事文本数据转化为故事语音数据；合成所述故事语音数据以及音乐数据，生成故事音频文件。

Description

一种面向智能机器人的故事数据处理方法及系统

技术领域

本发明涉及计算机领域，具体涉及一种面向智能机器人的故事数据处理方法及系统。

背景技术

在传统的人类日常生活中，文字阅读是人们鉴赏文学作品的主要途径。但是，在某些特定场景下，人们也通过声音鉴赏文学作品，例如，聆听评书、聆听朗诵等。其中最常见的，针对文字阅读能力不够的儿童，其通常是通过他人的讲述(听别人讲故事)来聆听文学作品。

随着多媒体技术的不断发展，越来越多的多媒体设备被应用于人类的日常生活当中。在多媒体技术的支持下，文学作品的声音形式的播放，尤其是讲故事，的主体逐渐转换到了多媒体设备上。

一般的，利用多媒体设备讲故事通常是事先人工讲故事并录制音频文件。多媒体设备只是播放录制好的音频文件。随着计算机技术的发展，为了简单方便的获取声源，在现有技术中，还采用了将文字数据转化为音频数据的方式。这样，就不需要人工进行文字朗诵并录音，只需要提供故事文本就可以实现利用多媒体设备讲故事。但是，利用计算机技术直接进行文本到语音的转换，只能保证文本内容的直接转换，其无法做到真人在故事讲述时的声情并茂，这就导致在现有技术中，基于文本转换技术的故事讲述十分干涩无趣，只能简单的传达直接的文字含义，用户体验很差。

发明内容

本发明提供了一种面向智能机器人的故事数据处理方法，所述方法包括：

获取故事文本数据；

解析所述故事文本数据，获取故事文本解析结果；

调用故事音乐模型，根据所述故事文本解析结果选取对应的音乐数据；

将所述故事文本数据转化为故事语音数据；

合成所述故事语音数据以及音乐数据，生成故事音频文件。

在一实施例中，解析所述故事文本数据，包括：

对所述故事文本数据进行文本识别，确定故事内容。

在一实施例中，解析所述故事文本数据，还包括：

基于文本识别结果对故事进行内容元素拆解，提取故事元素，所述故事元素包括故事的风格、人物和/或对话。

在一实施例中，调用故事音乐模型，其中：

确认用户身份，调用与所述用户身份匹配的故事音乐模型。

在一实施例中，所述故事音乐模型包括选曲范围设定和/或故事内容曲目对应关系。

在一实施例中，当用户为儿童用户时，调用儿童故事音乐模型，其中，所述儿童故事音乐模型的选曲范围匹配儿童用户。

本发明还提出了一种存储介质，所述存储介质上存储有可实现如本发明所述方法的程序代码。

本发明还提出了一种面向智能机器人的故事数据处理系统，所述系统包括：

文本获取模块，其配置为获取故事文本数据；

文本解析模块，其配置为解析所述故事文本数据，获取故事文本解析结果；

音乐模型库，其配置为保存故事音乐模型；

音乐选取模块，其配置为调用故事音乐模型，根据所述故事文本解析结果选取对应的音乐数据；

语音转化模块，其配置为将所述故事文本数据转化为故事语音数据；

语音合成模块，其配置为合成所述故事语音数据以及音乐数据，生成故事音频文件。

在一实施例中，所述系统还包括用户身份确认模块，其中：

所述用户身份确认模块配置为确认用户身份；

所述音乐选取模块配置为调用与所述用户身份匹配的故事音乐模型。

本发明还提出了一种智能故事机，所述故事机包括：

输入获取模块，其配置为采集用户多模态输入，确认用户故事需求；

如本发明所述的故事数据处理系统，其配置为根据所述用户故事需求获取对应的故事文本数据，生成故事音频文件；

播放模块，其配置为向用户播放所述故事音频文件。

相较于现有技术，根据本发明的方法及系统，可以生成文字讲述和音乐相结合的故事音频文件，从而大大提高讲述故事时聆听者的用户体验。

本发明的其它特征或优点将在随后的说明书中阐述。并且，本发明的部分特征或优点将通过说明书而变得显而易见，或者通过实施本发明而被了解。本发明的目的和部分优点可通过在说明书、权利要求书以及附图中所特别指出的步骤来实现或获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1以及图2是根据本发明实施例的方法流程图；

图3以及图4是根据本发明实施例的系统结构简图；

图5以及图6是根据本发明实施例的故事机结构简图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此本发明的实施人员可以充分理解本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程并依据上述实现过程具体实施本发明。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

针对上述问题，本发明提出了一种面向智能机器人的故事数据处理方法。在本发明的方法中，将故事的讲述与音乐相结合。具体的，在故事语音讲述的基础上增加音乐，从而烘托忽视内容的背景气氛，提高故事的生动性，提高聆听故事的用户体验。

进一步的，考虑到不同的音乐其对背景气氛的烘托作用是不同的，如果选择错了音乐，不但不能起到背景气氛烘托的作用，反而会打破故事讲诉的节奏与氛围，降低用户体验。因此，在一实施例中，在选择背景音乐时，首先对故事内容进行解析，挑选与故事内容匹配的背景音乐。

接下来基于附图详细描述根据本发明实施例的方法的详细流程，附图的流程图中示出的步骤可以在包含诸如一组计算机可执行指令的计算机系统中执行。虽然在流程图中示出了各步骤的逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

如图1所示，在一实施例中，本发明的方法包括以下步骤：

S110，获取故事文本数据；

S120，解析故事文本数据，获取故事文本解析结果；

S130，调用故事音乐模型，根据故事文本解析结果选取对应的音乐数据；

S140，将故事文本数据转化为故事语音数据；

S150，合成故事语音数据以及音乐数据，生成故事音频文件。

具体的，在一实施例中，基于文本识别技术对故事文本数据进行解析。具体的，在一实施例中，解析故事文本数据，包括：对故事文本数据进行文本识别，确定故事内容。

进一步的，考虑到计算机解析的特点，在一实施例中，采用元素分解的方式对故事文本数据进行解析。具体的，在一实施例中，基于文本识别结果对故事进行内容元素拆解，提取故事元素，故事元素包括故事的风格、人物和/或对话。

具体的，在一实施例中，将解析目标分为具体的几类(几种故事元素)，针对每一种故事元素进行关键词提取，将提取的关键词连同故事元素标签保存为解析结果。

进一步的，在实际应用场景中，不同的用户对于音乐的感官是不同的。也就是说，同一音乐对不同的聆听者所起到的气氛烘托效果是不同的。因此，在一实施例中，为了尽可能的提高用户体验，针对不同的故事聆听者选取不同的音乐。即，根据故事聆听者的身份选取对应的音乐数据，从而生成匹配故事聆听者的故事音频文件。

具体的，在一实施例中，在调用故事音乐模型时，确认用户身份，调用与用户身份匹配的故事音乐模型。

具体的，如图2所示，在一实施例中，本发明的方法包括以下步骤：

S210，获取故事文本数据；

S220，解析故事文本数据，获取故事文本解析结果；

S221，确认用户身份；

S222，调用与用户身份匹配的故事音乐模型；

S230，利用S270调用的故事音乐模型，根据故事文本解析结果选取对应的音乐数据；

S240，将故事文本数据转化为故事语音数据；

S250，合成故事语音数据以及音乐数据，生成故事音频文件。

进一步的，在实际应用场景中，针对特定故事讲述场景，匹配的音乐不止一首，这就为音乐的挑选增加了困难。因此，在一实施例中，针对不同的具体应用场景，首先限定音乐的挑选范围，然后在基于故事文本的解析结果，从范围内的音乐中选取匹配的音乐。具体的，在一实施例中，故事音乐模型包括选曲范围设定和/或故事内容曲目对应关系。

进一步的，在一实施例中，也可以不对音乐的选曲范围进行限定，而是在可以匹配故事文本的解析结果的音乐中随机进行挑选。具体的，在一实施例中，故事音乐模型包括仅包括故事内容曲目对应关系。

进一步的，在一实施例中，针对不同身份的用户构造不同故事音乐模型，具体的，故事模型所包含的选曲范围设定和/或故事内容曲目对应关系与用户身份相匹配。这样，在调用故事音乐模型时，确认用户身份，就可以调用与用户身份匹配的选曲范围设定和/或故事内容曲目对应关系。

进一步的，在实际应用场景中，不同身份用户在对音乐感官的不同主要集中在年龄差异上。不同年龄阶段的人群喜好的曲风、习惯听的曲目是不同的。因此，在一实施例中，在调用故事音乐模型时，确认用户年龄，调用与用户年龄阶段匹配的选曲范围设定和/或故事内容曲目对应关系。

进一步的，在根据年龄阶段划分音乐偏好时，很多年龄阶段所喜好的音乐是具有一定共性的。即，某些年龄阶段间的音乐偏好差异并不十分明显，很多音乐是多个年龄阶段的用户共同喜好的。但是，儿童用户群的音乐偏好特点差异却尤其突出，儿童偏好的音乐与其他音乐存在明显的差异。具体的，很多儿童喜好的音乐却会令成人感到无趣，并且，很多成人喜好的音乐是儿童无法理解的，甚至于，很多成人所喜好的乐曲并不适合儿童聆听或接受的。

因此，当音乐选择错误时，不仅会降低儿童用户的用户体体验，而且，由于儿童用户的接受能力很强，并且不具备筛选当前音乐是否适合自己聆听的能力，错误的音乐容易导致儿童用户对音乐的感观出现偏差。

因此，在一实施例中，针对儿童用户设定音乐的选曲范围。具体的，在一实施例中，当用户为儿童用户时，调用儿童故事音乐模型，其中，儿童故事音乐模型的选曲范围匹配儿童用户。

进一步的，在一实施例中，选曲范围的设定由用户指定。具体的，从用户处获取用户选曲范围设定，在进行音乐的选取时，基于故事音乐模型，在用户选曲范围设定所限定的曲目范围内进行挑选。

进一步的，基于本发明的方法，本发明还提出了一种存储介质，该存储介质上存储有可实现如本发明所述方法的程序代码。

进一步的，基于本发明的方法，本发明还提出了一种面向智能机器人的故事数据处理系统。

具体的，如图3所示，在一实施例中，系统包括：

文本获取模块310，其配置为获取故事文本数据；

文本解析模块320，其配置为解析故事文本数据，获取故事文本解析结果；

音乐模型库330，其配置为保存故事音乐模型；

音乐选取模块340，其配置为调用故事音乐模型，根据故事文本解析结果选取对应的音乐数据；

语音转化模块350，其配置为将故事文本数据转化为故事语音数据；

语音合成模块360，其配置为合成故事语音数据以及音乐数据，生成故事音频文件。

进一步的，在一实施例中，系统还包括音乐库，其配置为保存音乐数据，音乐选取模块配置为从音乐库保存的音乐数据中选取匹配的音乐数据。

进一步的，在一实施例中，系统不包括固定的音乐库，音乐选取模块在进行音乐的挑选时，从网络上存储的音乐或是用户指定的音乐中进行挑选。

进一步的，如图4所示，在一实施例中，系统还包括用户身份确认模块470，其中：

用户身份确认模块470配置为确认用户身份；

音乐选取模块440配置为调用与用户身份匹配的故事音乐模型。

进一步的，基于本发明提出的故事数据处理系统，本发明还提出了一种智能故事机。具体的，如图5所示，在一实施例中，故事机包括：

输入获取模块510，其配置为采集用户多模态输入，确认用户故事需求；

故事数据处理系统520，其配置为根据用户故事需求获取对应的故事文本数据，生成故事音频文件；

播放模块530，其配置为向用户播放故事音频文件。

具体的，如图6所示，在一实施例中，故事机包括智能设备610以及云端服务器620，其中：

云端服务器620包含故事数据处理系统630以及音乐数据库640。故事数据处理系统630配置为调用云端服务器620的能力接口获取故事文本数据并解析，从云端服务器620的音乐数据库中挑选音乐数据，生成并输出故事音频文件。具体的，多模态数据解析过程中各个能力接口分别调用对应的逻辑处理。

具体的，在一实施例中，云端服务器620的能力接口包括文本识别接口621、文本/语音转换接口622、音频合成接口623。

智能设备610包括人机交互输入输出模块611、通信模块612以及播放模块613。

人机交互输入输出模块611配置为获取用户的控制指令，确定用户故事聆听需求。

通信模块612配置为输出人机交互输入输出模块611获取到的用户故事聆听需求到云端服务器620，并接收来自云端服务器620的故事音频文件。

播放模块613配置为播放故事音频文件。

需要说明的是，所述智能设备可以为：人形智能机器人、儿童专用智能机器人、儿童故事机、平板、智能手机、儿童绘本阅读设备等，并不局限。

具体的，在一具体应用场景中，人机交互输入输出模块611获取用户的控制指令，确定用户故事聆听需求。

通信模块612将用户故事聆听需求发送到云端服务器620。

云端服务器620基于用户故事聆听需求选取对应的故事文本数据。云端服务器620中的故事数据处理系统获取故事文本数据并解析，从云端服务器620的音乐数据库中挑选音乐数据，生成并输出故事音频文件。

通信模块612接收云端服务器620发送的故事音频文件；

播放模块613播放通信模块612接收的故事音频文件。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。本发明所述的方法还可有其他多种实施例。在不背离本发明实质的情况下，熟悉本领域的技术人员当可根据本发明做出各种相应的改变或变形，但这些相应的改变或变形都应属于本发明的权利要求的保护范围。

Claims

1.一种面向智能机器人的故事数据处理方法，其特征在于，所述方法包括：

获取故事文本数据；

解析所述故事文本数据，获取故事文本解析结果；其中，采用元素分解的方式对故事文本数据进行解析，基于文本识别结果对故事文本数据进行内容元素拆解，提取故事元素，故事元素包括故事的风格、人物和/或对话；

具体地，提取故事元素的过程包括：将待解析的目标故事文本数据分为具体的几种故事元素并设置对应的标签，针对每一种故事元素进行关键词提取，将提取的关键词连同故事元素标签保存为解析结果；

确认用户身份，调用与所述用户身份匹配的故事音乐模型，并根据所述故事文本解析结果选取对应的音乐数据；其中，针对不同身份的用户构造不同故事音乐模型，所述故事音乐模型包括选曲范围设定和/或故事内容曲目对应关系，故事模型所包含的选曲范围设定和/或故事内容曲目对应关系与用户身份相匹配；选取对应的音乐数据的过程包括：

针对不同的具体应用场景，分别限定音乐的选曲范围，然后在基于故事文本数据的解析结果，从对应选曲范围内的音乐中选取匹配的音乐；

将所述故事文本数据转化为故事语音数据；

合成所述故事语音数据以及音乐数据，生成故事音频文件。

2.根据权利要求1所述的方法，其特征在于，解析所述故事文本数据，包括：

对所述故事文本数据进行文本识别，确定故事内容。

3.根据权利要求1所述的方法，其特征在于，当用户为儿童用户时，调用儿童故事音乐模型，其中，所述儿童故事音乐模型的选曲范围匹配儿童用户。

4.一种存储介质，其特征在于，所述存储介质上存储有可实现如权利要求1-3中任一项所述方法的程序代码。

5.一种面向智能机器人的故事数据处理系统，其特征在于，所述系统包括：

文本获取模块，其配置为获取故事文本数据；

所述文本解析模块进一步配置为：采用元素分解的方式对故事文本数据进行解析，基于文本识别结果对故事文本数据进行内容元素拆解，提取故事元素，故事元素包括故事的风格、人物和/或对话；

所述文本解析模块通过以下操作提取故事元素：将待解析的目标故事文本数据分为具体的几种故事元素并设置对应的标签，针对每一种故事元素进行关键词提取，将提取的关键词连同故事元素标签保存为解析结果；音乐模型库，其配置为保存故事音乐模型；

音乐选取模块，其配置为确认用户身份，调用与所述用户身份匹配的故事音乐模型，并根据所述故事文本解析结果选取对应的音乐数据；其中，针对不同身份的用户构造不同故事音乐模型，所述故事音乐模型包括选曲范围设定和/或故事内容曲目对应关系，故事模型所包含的选曲范围设定和/或故事内容曲目对应关系与用户身份相匹配；

所述音乐选取模块进一步配置为：针对不同的具体应用场景，分别限定音乐的选曲范围，然后在基于故事文本数据的解析结果，从对应选曲范围内的音乐中选取匹配的音乐；

6.根据权利要求5 所述的系统，其特征在于，所述系统还包括用户身份确认模块，其中：

所述用户身份确认模块配置为确认用户身份；

7.一种智能故事机，其特征在于，所述故事机包括：

如权利要求5或6所述的故事数据处理系统，其配置为根据所述用户故事需求获取对应的故事文本数据，生成故事音频文件；

播放模块，其配置为向用户播放所述故事音频文件。