CN110750996B

CN110750996B - 多媒体信息的生成方法、装置及可读存储介质

Info

Publication number: CN110750996B
Application number: CN201810789426.8A
Authority: CN
Inventors: 苏云琳
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2024-04-12
Anticipated expiration: 2038-07-18
Also published as: CN110750996A

Abstract

本发明提供的多媒体信息的生成方法、装置及可读存储介质，通过对电子书文本中的场景文本块进行语义分析，并根据分析结果提取场景文本块中的故事要素，其中所述场景文本块是由电子书文本中的连续若干语句组成的用于表示故事场景的文本信息；根据预设的多媒体素材库确定与故事要素匹配的多媒体素材，并将所述多媒体素材进行整合，获得场景文本块对应的多媒体信息，相对于现有技术中采用人工的方式将电子书文本转换为多媒体信息，本发明实现了多媒体信息的自动生成，其效率得到了有效提升，人工成本大大降低。

Description

多媒体信息的生成方法、装置及可读存储介质

技术领域

本发明涉及电子书数据处理技术，尤其涉及一种多媒体信息的生成方法、装置及可读存储介质。

背景技术

随着互联网技术应用越来越广泛，传统的纸质阅读方式已逐渐被电子书取代，电子书领域也涌现了很多优秀的作家以及其优秀的文学作品。为了让更多的人欣赏到这些优秀的文学作品，也为了让人更好的欣赏到这些优秀的文学作品，将文学作品以多媒体信息的方式进行呈现成为热门。

在现有技术中，将电子书文本转换为多媒体信息是通过人工实现的，具体包括人工阅读并理解电子书文本内容，根据文本内容找到合适的多媒体素材，编辑素材以使获得电子书相应的多媒体信息。

但是，采用人工方式会使得将电子书文本转换为多媒体信息的效率很低，人工成本高。

发明内容

针对上述提及的在现有技术的生成电子书对应的多媒体信息的效率较低的技术问题，本发明提供了一种多媒体信息的生成方法、装置及可读存储介质。

一方面，本发明提供了一种多媒体信息的生成方法，包括：

对电子书文本中的场景文本块进行语义分析，并根据分析结果提取场景文本块中的故事要素，其中所述场景文本块是由电子书文本中的连续若干语句组成的用于表示故事场景的文本信息；

根据预设的多媒体素材库确定与所述故事要素匹配的多媒体素材，将所述多媒体素材进行整合，获得所述场景文本块对应的多媒体信息。

在其中一种可选的实施方式中，所述故事要素包括人物要素和/或场景要素；

其中所述人物要素包括场景文本块中的角色，所述场景要素包括所述场景文本块所基于的故事场景。

在其中一种可选的实施方式中，所述根据预设的多媒体素材库确定与所述故事要素匹配的多媒体素材，包括：

根据所述多媒体素材库确定所述人物要素中的形象素材；

和/或，根据所述多媒体素材库与所述场景要素匹配的背景图像素材和/或背景音乐素材。

在其中一种可选的实施方式中，所述人物要素还包括角色的对话，所述根据预设的多媒体素材库确定与所述故事要素匹配的多媒体素材还包括：

根据所述多媒体素材库确定所述人物要素的语音素材；

根据所述人物要素的语音素材和角色的对话，生成对白音频。在其中一种可选的实施方式中，所述获得场景文本块对应的多媒体信息之后，还包括：

根据各场景文本块在电子书文本中出现的先后顺序，将所述各场景文本块对应的多媒体信息进行编辑，获得电子书文本对应的多媒体信息。

在其中一种可选的实施方式中，所述对电子书文本中的场景文本块进行语义分析之前，还包括：

根据电子书文本中各语句与其相邻的语句的关联度，将所述电子书文本划分为用于表示不同故事场景的多个场景文本块。

另一方面，本发明提供了一种多媒体信息的生成装置，包括：

故事要素提取模块，用于对电子书文本中的场景文本块进行语义分析，并根据分析结果提取场景文本块中的故事要素，其中所述场景文本块是由电子书文本中的连续若干语句组成的用于表示故事场景的文本信息；

素材匹配模块，用于根据预设的多媒体素材库确定与所述故事要素匹配的多媒体素材；

多媒体信息生成模块，用于将所述多媒体素材进行整合，获得所述场景文本块对应的多媒体信息。

在其中一种可选的实施方式中，所述素材匹配模块具体用于根据所述多媒体素材库确定所述人物要素中的形象素材；和/或，具体用于根据所述多媒体素材库与所述场景要素匹配的背景图像素材和/或背景音乐素材。

在其中一种可选的实施方式中，所述人物要素还包括角色的对话；

所述素材匹配模块具体用于根据所述多媒体素材库确定所述人物要素的语音素材；根据所述人物要素的语音素材和角色的对话，生成对白音频。

在其中一种可选的实施方式中，所述多媒体信息生成模块还用于在获得场景文本块对应的多媒体信息之后，根据各场景文本块在电子书文本中出现的先后顺序，将所述各场景文本块对应的多媒体信息进行编辑，获得电子书文本对应的多媒体信息。

在其中一种可选的实施方式中，还包括：场景划分模块；

所述故事要素提取模块对电子书文本中的场景文本块进行语义分析之前，所述场景划分模块用于根据电子书文本中各语句与其相邻的语句的关联度，将所述电子书文本划分为用于表示不同故事场景的多个场景文本块。再一方面，本发明还提供了一种多媒体信息的生成装置，包括：存储器、处理器以及计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如前任一实施方式所述的方法。

最后一方面，本发明提供了一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理执行以实现如前任一实施方式所述的方法。

本发明提供的多媒体信息的生成方法、装置及可读存储介质，通过对电子书文本中的场景文本块进行语义分析，并根据分析结果提取场景文本块中的故事要素，其中所述场景文本块是由电子书文本中的连续若干语句组成的用于表示故事场景的文本信息；根据预设的多媒体素材库确定与所述故事要素匹配的多媒体素材，并将所述多媒体素材进行整合，获得场景文本块对应的多媒体信息，相对于现有技术中采用人工的方式将电子书文本转换为多媒体信息，本发明实现了对多媒体信息的自动生成，其效率得到了有效提升，人工成本大大降低。

附图说明

图1为本发明实施例一提供的一种多媒体信息的生成方法的流程示意图；

图2为本发明实施例二提供的一种多媒体信息的生成方法的流程示意图；

图3为本发明实施例三提供的一种多媒体信息的生成方法的流程示意图；

图4为本发明实施例四提供的一种多媒体信息的生成装置的结构示意图；

图5为本发明实施例五提供的一种多媒体信息的生成装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在现有技术中，将电子书文本转换为多媒体信息是通过人工实现的，具体包括人工阅读并理解电子书文本内容，根据文本内容找到合适的多媒体素材，对多媒体素材进行编辑以获得电子书相应的多媒体信息。

但是，随着电子书平台涌现的文学作品数量的激增，采用传统的人工方式生成获得电子书对应的多媒体信息所需时间相对较长，生成效率较低，人工成本高。现有的多媒体信息的生成方式已无法满足日益增长的多媒体信息的获取需求。

针对上述提及的在现有技术的多媒体信息所需时间相对较长，生成效率较低的技术问题，本发明提供了一种多媒体信息的生成方法、装置及可读存储介质。

图1为本发明实施例一提供的一种多媒体信息的生成方法的流程示意图。

如图1所示，该生成方法包括：

步骤101、对电子书文本中的场景文本块进行语义分析，并根据分析结果提取场景文本块中的故事要素。

其中所述场景文本块是由电子书文本中的连续若干语句组成的用于表示故事场景的文本信息。

步骤102、根据预设的多媒体素材库确定与故事要素匹配的多媒体素材。

步骤103、将所述多媒体素材进行整合，获得场景文本块对应的多媒体信息。

需要说明的是，本发明提供的多媒体信息的生成方法的执行主体具体可为多媒体信息的生成装置，该生成装置可通过硬件和/或软件的方式实现。其可集成于电子书平台所基于的云端服务器中，与电子书平台所基于的存放有各类数据库的数据服务器配合使用，此外，生成装置所基于的服务器可与数据服务器为同一服务器，或者为隶属于同一服务器集群的不同服务器，本发明对此均不进行限制。电子书文本具体可为用户在电子书平台所发表的文学作品，文学作品的类型不做限制，而根据电子书文本生成的多媒体信息的类型则可包括游戏、音频剧等，这些多媒体信息可基于智能手机、平板电脑、电子阅读器等智能设备运行或播放，以供用户单独观看、收听或交互。这些多媒体信息还可与电子书文本进行集成，以供用户在阅读电子书的同时，播放、收听或运行多媒体信息。

在本实施方式中，为了使生成的多媒体信息准确表达电子书文本的含义，也为了便于后续的处理，首先，多媒体信息的生成装置可按照故事场景对电子书文本进行划分，并获得由连续若干语句组成的场景文本块，该场景文本块的数量一般为多个。

随后针对场景文本块进行语义分析，以获得该场景文本块中各语句对应的语义信息，并从这些语义信息中提取可用于概括或描述该场景文本块故事场景的故事要素。

随后，多媒体信息的生成装置还根据预设的多媒体素材库中确定与每个场景文本块的故事要素匹配的多媒体素材。其中，多媒体素材库为预设的数据库，其中保存有预存的各类多媒体素材，这些素材的类型包括但不限于音乐类型的素材、图像类型的素材、动画类型的素材。此外，在多媒体素材库中可采用多种方式确定与故事要素匹配的多媒体素材，例如，可通过对故事要素进行聚类分析确定故事要素所属集群类别标签，根据将类别标签对应的多媒体素材作为与其匹配的多媒体素材；或者，计算故事要素与多媒体素材之间的相似度或关联度，并将相似度或关联度最高的多媒体素材作为与其匹配的素材。然后，将多媒体素材与故事要素进行整合，以得到每个场景文本块对应的多媒体信息。

需要说明的是，本实施方式提供的多媒体信息可电子书平台结合使用，即当用户阅读电子书时，同步播放或执行与阅读部分相应的多媒体信息，其同步方式可采用现有技术，本实施方式对此不进行限制。

当然，可选的，在获得电子书文本的每个场景文本块对应的多媒体场景之后，可根据各场景文本块之间的关联关系将各多媒体信息进行串联整合，以得到电子书对应的多媒体信息，其中，各场景文本块之间的关联关系可为多种，如用于表示故事场景发生时间的时间关系，也可为场景文本块在电子书文本中出现的章节位置关系等等。

本发明实施例一提供的多媒体信息的生成方法通过对电子书文本中的场景文本块进行语义分析，并根据分析结果提取场景文本块中的故事要素，其中所述场景文本块是由电子书文本中的连续若干语句组成的用于表示故事场景的文本信息；根据预设的多媒体素材库中确定与故事要素匹配的多媒体素材，并将所述多媒体素材和所述故事要素进行整合，获得场景文本块对应的多媒体信息，相对于现有技术中采用人工的方式将电子书文本转换为多媒体信息，本发明实现了对多媒体信息的自动生成，其效率得到了有效提升，人工成本大大降低。

为了进一步描述本发明提供的多媒体信息的生成方法，在实施例一的基础上，图2为本发明实施例二提供的一种多媒体信息的生成方法的流程示意图。

图2所示，该生成方法包括：

步骤201、对电子书文本中的场景文本块进行语义分析，并根据分析结果确定人物要素和/或场景要素；

步骤202、根据所述多媒体素材库确定所述人物要素中的形象素材；和/或，根据所述多媒体素材库与所述场景要素匹配的背景图像素材和/或背景音乐素材；

步骤203、将所述多媒体素材进行整合，获得所述场景文本块对应的多媒体信息。

与实施例第一类似的是，本发明提供的多媒体信息的生成方法的执行主体具体可为多媒体信息的生成装置，该生成装置可通过硬件和/或软件的方式实现。其可集成于电子书平台所基于的云端服务器中，与电子书平台所基于的存放有各类数据库的数据服务器配合使用，此外，生成装置所基于的服务器可与数据服务器为同一服务器，或者为隶属于同一服务器集群的不同服务器，本发明对此均不进行限制。电子书文本具体可为用户在电子书平台所发表的文学作品，文学作品的类型不做限制，而根据电子书文本生成的多媒体信息的类型则可包括游戏、音频剧等，这些多媒体信息可基于智能手机、平板电脑、电子阅读器等智能设备运行或播放，以供用户观看、收听或交互。首先，多媒体信息的生成装置需要对电子书文本进行划分，获得用于表示不同故事场景的多个场景文本块，其中，每个场景文本块由电子书文本中的连续若干语句组成。其具体实现方式可参见实施例一相应部分，在此不进行赘述。

同时，考虑到电子书的内容一般是由若干故事串联而成的，每个故事均有相应的故事场景。举例来说，在一些言情小说中包括有在不同地点和不同时间发生的事件，其在某一地点和某一时间所发生的事件即可作为前述的电子书文本的其中一个故事场景；再例如，在一些人物传记中包括有来自不同人对主角的回忆叙述或记事，其每一回忆叙述或记事即可作为前述的电子书文本的其中一个故事场景。此时，针对前述的故事场景，多媒体信息需确定该故事场景对应场景文本块，即描述该事件所使用的连续若干语句。其中，这些连续若干语句可能来自于同一章节，也可能包括多个连续的章节。因此，为了使生成的多媒体信息准确表达电子书文本的含义，也为了便于后续的处理，首先，多媒体信息的生成装置可按照故事场景对电子书文本进行划分，并获得由连续若干语句组成的场景文本块，该场景文本块的数量一般为多个。

与实施例一不同的是，在本实施例二中，还可对电子书文本中的场景文本块进行语义分析，并根据分析结果提取场景文本块中的人物要素和/或场景要素；其中所述人物要素包括场景文本块中的角色，所述场景要素包括所述场景文本块所基于的故事场景。随后，可根据分析结果，根据多媒体素材库确定所述人物要素中的形象素材；和/或，根据所述多媒体素材库与所述场景要素匹配的背景图像素材和/或背景音乐素材。

具体来说，可采用对每个场景文本块进行语义分析，并根据分析结果提取每个场景文本块中的人物要素和/或场景要素的方式实现。如前所述的，电子书的内容一般是由若干故事串联而成的，每个故事均有相应的故事场景，在很多情况下，文本中对天气、地点、时间、人物动作等的文字描述，以及文本中人物之间的对话可用于反映故事场景。因此，通过对包括天气、地点、时间等的文字描述在内的场景要素以及包括角色在内的人物要素进行提取，从而可概括或描述该场景文本块故事场景。

进一步来说，在提取过程中，可首先根据每个场景文本块的各语句的字面特征，确定人物要素中的角色。举例来说，可采用字面特征可为符号特征，如用于象征对话的引号或冒号等，通过确定文中特定的符号特征的所在位置，从而提取获得对白语句以及对白语句以外的旁白语句；而字面特征可还可为关键字特征，如“某年某月”“某地”“某人说”等，其中的“某年某月”“某地”可用于定位场景要素所在位置，而“某人说”可用于定位对话语句所在的位置。通过利用这些符号特征或/和关键字特征可确定人物要素中角色的对话语句以及场景要素中的描述场景的语句。

当完成对对话语句的提取之后，还可对每个场景文本块中除对话语句以外的语句进行语义分析，以确定人物要素中的发起每个对话语句的角色。具体来说，针对于每各对话语句，还需要确定发起该对语句的角色，即需要确定是哪个人物说出的该对话语句。确定方式则可利用语义分析，如对对话语句前后的相邻语句中的每个词的词性进行分析，以确定发起对话语句的角色。

当完成对场景文本块的人物要素和/或场景要素的确定之后，还需根据预设的多媒体素材库中确定与每个场景文本块的人物要素和/或场景要素匹配的多媒体素材，并将每个场景文本块所述多媒体素材进行整合，获得每个场景文本块对应的多媒体信息。

在本实施例二中，针对于不同的多媒体信息的类型，提供了两种不同的多媒体信息的获取方式，其中将电子书文本改编或转换为以图像和文字结合显示为承载主体的多媒体信息，如游戏类型的多媒体信息，多媒体信息的生成的方式可采用如下的步骤2041a-步骤2042a；当需要将电子书文本改编或转换为以音频为承载主体的多媒体信息时，如音频剧或音乐剧类型的多媒体信息时，多媒体信息的生成的方式可采用如下的步骤2041b-步骤2043b。

上述的步骤2041a-步骤2042a可包括：

步骤2041a、根据多媒体素材库分别确定于人物要素中的每个角色的形象素材以及与场景要素匹配的背景图像素材。

步骤2042a、根据人物要素的每个角色的形象素材和与场景要素匹配的背景图像素材，生成多媒体信息。

具体来说，在上述步骤2041a-步骤2042a中，可针对场景文本块中出现的每个角色，即发起对话语句的每个角色，确定一个与之对应的形象素材；随后，对场景要素的语义进行分析确定与该语义匹配的背景图像素材，如当场景要素的语义中出现了阴天、公园、秋千等对环境描述的语句时，可在多媒体素材库中找到一张与该环境描述相应的图像，作为与其匹配的背景图像素材，确定的方式可采用如实施例一中所述的相似度或关联度匹配，或者，采用聚类匹配等等。

然后，需要根据人物要素的每个角色的形象素材和与场景要素匹配的背景图像素材，生成多媒体信息。具体的，可根据各对话语句和每个对白语句的角色的形象素材，生成对白界面，其中，对话界面中可包括形象素材显示部以及对白语句显示部，而对话界面可由多个连续的对白画面组成，需要将每一对白语句与其相应的角色的形象素材显示在同一对白画面中，而各对白画面之间的先后顺序需与对白语句在场景文本块中出现的先后顺序保持一致。最后，将背景图像素材嵌入所述对话界面，获得多媒体信息。

上述的步骤2041b-步骤2043b具体包括：

步骤2041b、根据多媒体素材库分别确定于人物要素中的每个角色的语音素材以及与场景要素匹配的背景音乐素材。

步骤2042b、根据人物要素中每个角色的语音素材和每个角色对应的对话，生成对白音频。

步骤2023b、将所述背景音乐素材和所述对白音频进行整合，获得多媒体信息。

具体来说，在上述步骤2041b-步骤2043b中，可针对场景文本块中出现的每个角色，即发起对白语句的每个角色，确定一个与之对应的语音素材，语音素材可以语音包的形式进行表示，其语音素材的来源可来自人工智能机械语音包或声优演员历史配音包。

随后，对场景要素的语义进行分析确定与该语义匹配的背景音乐素材，如当场景要素中出现了阴天、公园、秋千等对环境描述的语句时，可在多媒体素材库中找到一张与该环境描述相应的音乐，作为与其匹配的背景音乐素材，确定的方式可采用如实施例一中所述的相似度或关联度匹配，或者，采用聚类匹配等等。

然后，根据各对白语句和每个对白语句的角色的语音素材，生成对白音频。具体来说，首先需要根据每个角色的语音素材生成该角色对应的对白语句的语音，即生成朗读该角色的对话语句的声音。然后，根据各对白语句在场景文本块中出现的先后顺序，将各对白语句对应的语音进行串联生成对白音频。最后，将所述背景音乐素材和所述对白音频进行整合，获得多媒体信息。

再后，在获得电子书文本的每个场景文本块对应的多媒体信息之后，还可根据各场景文本块之间的关联关系将各多媒体信息进行串联整合，其中，各场景文本块之间的关联关系可为多种，如用于表示故事场景发生时间的时间关系，也可为场景文本块在电子书文本中出现的章节位置关系等等。在将各多媒体信息进行串联整合之后，即可得到电子书文本对应的多媒体信息。

本发明实施例二提供的多媒体信息的生成方法，在实施例一的基础上，还通过提取场景文本块中的人物要素和/或场景要素，更好的确定与每个场景文本块的多媒体素材，进而提高自动生成过程的智能化程度，提高了生成的多媒体信息与电子书文本的匹配程度。

在实施例一或实施例二的基础上，图3为本发明实施例三提供的一种多媒体信息的生成方法的流程示意图。如图3所示，该生成方法包括：

步骤301、对根据电子书文本中各语句与其相邻的语句的关联度，将所述电子书文本划分为用于表示不同故事场景的多个场景文本块。

其中，每个场景文本块由电子书文本中的连续若干语句组成。

步骤302、对电子书文本中的场景文本块进行语义分析，并根据分析结果提取场景文本块中的故事要素。

步骤303、根据预设的多媒体素材库确定与故事要素匹配的多媒体素材，并将所述多媒体素材进行整合，获得场景文本块对应的多媒体信息。

步骤304、根据各场景文本块在电子书文本中出现的先后顺序，将所述各多媒体信息进行编辑，获得电子书对应的多媒体信息。

在本实施例三中，与实施例一或二类似的是，本发明提供的多媒体信息的生成方法的执行主体具体可为多媒体信息的生成装置，该生成装置可通过硬件和/或软件的方式实现。其可集成于电子书平台所基于的云端服务器中，与电子书平台所基于的存放有各类数据库的数据服务器配合使用，此外，生成装置所基于的服务器可与数据服务器为同一服务器，或者为隶属于同一服务器集群的不同服务器，本发明对此均不进行限制。电子书文本具体可为用户在电子书平台所发表的文学作品，文学作品的类型不做限制，而根据电子书文本生成的多媒体信息的类型则可包括游戏、音频剧等，这些多媒体信息可基于智能手机、平板电脑、电子阅读器等智能设备运行或播放，以供用户观看、收听或交互。

与实施例一或二不同的是，在本实施例三中，媒体信息的生成装置需要对电子书文本进行划分，获得用于表示不同故事场景的多个场景文本块具体可采用对根据电子书文本中各语句与其相邻的语句的关联度，将所述电子书文本划分为用于表示不同故事场景的多个场景文本块的方式实现。

具体来说，在本实施例三中，可利用现有的语句关联度分析模型，计算每电子书文本中每一语句与其相邻语句的关联度。根据预设的关联度阈值划分场景文本块，以使相邻的两个场景文本块中前一场景文本块的最后一句语句与后一场景文本块的第一句语句之间的关联度低于该关联度阈值。

随后，与实施例一或实施例而类似的是对每个场景文本块进行语义分析，并根据分析结果提取每个场景文本块中的故事要素。根据预设的多媒体素材库中确定与每个场景文本块的故事要素匹配的多媒体素材，并将每个场景文本块的多媒体素材进行整合，获得每个场景文本块对应的多媒体信息。其具体实现方式可参见实施例一和实施例二中相应部分，本实施例在此不进行赘述。

最后，与前述实施方式不同的是，本实施例三中的根据各场景文本块之间的关联关系将各多媒体信息进行整合，获得电子书的多媒体信息具体可包括根据各场景文本块在电子书文本中出现的先后顺序，将所述各多媒体场景进行编辑，获得多媒体信息。具体来说，为了保证对电子书文本的高度还原，可按照场景文本块在电子书文本中出现的先后顺序对各多媒体信息进行排序，并将各多媒体信息编辑成电子书相应的多媒体信息。

本发明实施例三提供的多媒体信息的生成方法，在实施例一或实施例二的基础上，采用采用计算电子书文本中各语句与其相邻的语句的关联度的方式，对电子书文本划分，从而提高了划分得到的场景文本块的准确性，还通过根据各多媒体信息对应的场景文本块的出现先后顺序对各多媒体信息进行编辑，获得电子书的多媒体信息，从而保证对电子书文本的高还原度。

图4为本发明实施例四提供的一种多媒体信息的生成装置，如图4所示，该生成装置包括：

故事要素提取模块10，用于用于对电子书文本中的场景文本块进行语义分析，并根据分析结果提取场景文本块中的故事要素，其中所述场景文本块是由电子书文本中的连续若干语句组成的用于表示故事场景的文本信息；

素材匹配模块20，用于根据预设的多媒体素材库确定与所述故事要素匹配的多媒体素材；

多媒体信息生成模块30，用于将所述多媒体素材进行整合，获得所述场景文本块对应的多媒体信息。

在其中一种可选的实施方式中，，所述故事要素包括人物要素和/或场景要素；其中所述人物要素包括场景文本块中的角色，所述场景要素包括所述场景文本块所基于的故事场景。

在其中一种可选的实施方式中，所述素材匹配模块20具体用于根据所述多媒体素材库确定所述人物要素中的形象素材；和/或，具体用于根据所述多媒体素材库与所述场景要素匹配的背景图像素材和/或背景音乐素材。

在其中一种可选的实施方式中，所述人物要素还包括角色的对话；所述素材匹配模块20具体用于根据所述多媒体素材库确定所述人物要素的语音素材；根据所述人物要素的语音素材和角色的对话，生成对白音频。

在其中一种可选的实施方式中，所述多媒体信息生成模块30还用于在获得场景文本块对应的多媒体信息之后，根据各场景文本块在电子书文本中出现的先后顺序，将所述各场景文本块对应的多媒体信息进行编辑，获得电子书文本对应的多媒体信息。

在其中一种可选的实施方式中，还包括：场景划分模块；所述故事要素提取模块10对电子书文本中的场景文本块进行语义分析之前，所述场景划分模块用于根据电子书文本中各语句与其相邻的语句的关联度，将所述电子书文本划分为用于表示不同故事场景的多个场景文本块。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程以及相应的有益效果，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明实施例四提供的多媒体信息的生成装置，通过对电子书文本中的场景文本块进行语义分析，并根据分析结果提取场景文本块中的故事要素，其中所述场景文本块是由电子书文本中的连续若干语句组成的用于表示故事场景的文本信息；根据预设的多媒体素材库中确定与故事要素匹配的多媒体素材，并将所述多媒体素材和所述故事要素进行整合，获得场景文本块对应的多媒体信息，相对于现有技术中采用人工的方式将电子书文本转换为多媒体信息，本发明实现了对多媒体信息的自动生成，其效率得到了有效提升，人工成本大大降低。

图5为本发明实施例五提供的一种多媒体信息的生成装置的结构示意图。如图5所示，该多媒体信息的生成装置包括：存储器41、处理器42及存储在存储器41上并可在处理器42上运行的计算机程序，处理器42运行计算机程序时执行上述任一实施例的方法。

本发明还提供一种可读存储介质，包括程序，当其在终端上运行时，使得终端执行上述任一实施例的方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种多媒体信息的生成方法，其特征在于，包括：

根据电子书文本中各语句与其相邻的语句的关联度，将所述电子书文本划分为用于表示不同故事场景的多个场景文本块，包括：根据预设的关联度阈值划分场景文本块，以使相邻的两个场景文本块中前一场景文本块的最后一句语句与后一场景文本块的第一句语句之间的关联度低于该关联度阈值；

对电子书文本中的场景文本块进行语义分析，并根据分析结果提取场景文本块中的故事要素，其中，所述场景文本块是由电子书文本中的连续若干语句组成的用于表示故事场景的文本信息，所述故事要素包括人物要素和场景要素，人物要素包括场景文本块中的角色和角色的对话，所述场景要素包括所述场景文本块所基于的故事场景，所述故事要素用于概括或描述所述场景文本块的故事场景，包括：根据每个场景文本块的各语句的字面特征，确定人物要素中的角色；利用字面特征确定人物要素中角色的对话语句以及场景要素中的描述场景的语句；对每个场景文本块中除对话语句以外的语句进行语义分析，以确定人物要素中的发起每个对话语句的角色；

根据预设的多媒体素材库确定与所述故事要素匹配的多媒体素材，将所述多媒体素材进行整合，获得所述场景文本块对应的多媒体信息，包括：根据多媒体素材库分别确定于人物要素中的每个角色的形象素材以及与场景要素匹配的背景图像素材；根据人物要素的每个角色的形象素材和与场景要素匹配的背景图像素材，生成多媒体信息；或者，根据多媒体素材库分别确定于人物要素中的每个角色的语音素材以及与场景要素匹配的背景音乐素材；根据人物要素中每个角色的语音素材和每个角色对应的对话，生成对白音频；将所述背景音乐素材和所述对白音频进行整合，获得多媒体信息；

按照场景文本块在电子书文本中出现的先后顺序对各多媒体信息进行排序，并将各多媒体信息编辑成电子书相应的多媒体信息。

2.根据权利要求1所述的多媒体信息的生成方法，其特征在于，获得场景文本块对应的多媒体信息之后，还包括：

3.一种多媒体信息的生成装置，其特征在于，包括：

场景划分模块，用于根据电子书文本中各语句与其相邻的语句的关联度，将所述电子书文本划分为用于表示不同故事场景的多个场景文本块，包括：根据预设的关联度阈值划分场景文本块，以使相邻的两个场景文本块中前一场景文本块的最后一句语句与后一场景文本块的第一句语句之间的关联度低于该关联度阈值；

故事要素提取模块，用于对电子书文本中的场景文本块进行语义分析，并根据分析结果提取场景文本块中的故事要素，其中，所述场景文本块是由电子书文本中的连续若干语句组成的用于表示故事场景的文本信息，所述故事要素包括人物要素和场景要素，所述人物要素包括场景文本块中的角色和角色的对话，所述场景要素包括所述场景文本块所基于的故事场景，所述故事要素用于概括或描述所述场景文本块的故事场景，包括：根据每个场景文本块的各语句的字面特征，确定人物要素中的角色；利用字面特征确定人物要素中角色的对话语句以及场景要素中的描述场景的语句；对每个场景文本块中除对话语句以外的语句进行语义分析，以确定人物要素中的发起每个对话语句的角色；

素材匹配模块，用于根据预设的多媒体素材库确定与所述故事要素匹配的多媒体素材，包括：

根据多媒体素材库分别确定于人物要素中的每个角色的形象素材以及与场景要素匹配的背景图像素材，或者，根据多媒体素材库分别确定于人物要素中的每个角色的语音素材以及与场景要素匹配的背景音乐素材；

多媒体信息生成模块，用于将所述多媒体素材进行整合，获得所述场景文本块对应的多媒体信息，包括：

根据人物要素的每个角色的形象素材和与场景要素匹配的背景图像素材，生成多媒体信息，或者，根据人物要素中每个角色的语音素材和每个角色对应的对话，生成对白音频；将所述背景音乐素材和所述对白音频进行整合，获得多媒体信息；

4.根据权利要求3所述的多媒体信息的生成装置，其特征在于，

所述多媒体信息生成模块还用于在获得场景文本块对应的多媒体信息之后，根据各场景文本块在电子书文本中出现的先后顺序，将所述各场景文本块对应的多媒体信息进行编辑，获得电子书文本对应的多媒体信息。

5.一种多媒体信息的生成装置，其特征在于，包括：存储器、处理器以及计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-2任一项所述的方法。

6.一种可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理执行以实现如权利要求1-2任一项所述的方法。