CN108470036A

CN108470036A - 一种基于故事文本生成视频的方法和装置

Info

Publication number: CN108470036A
Application number: CN201810119374.3A
Authority: CN
Inventors: 罗玄
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2018-02-06
Filing date: 2018-02-06
Publication date: 2018-08-31

Abstract

本发明公开了一种基于故事文本生成视频的方法、装置、电子设备和计算机可读存储介质。该方法包括：从故事文本中提取场景描述信息，根据场景描述信息生成含有相应场景画面的图像；从故事文本中提取与所述场景描述信息对应的角色描述信息和角色行为信息；根据角色描述信息和角色行为信息在所述图像中添加具有相应行为的角色，并为所述图像生成时间标签；将生成的各图像按照对应的时间标签进行排序，生成视频。通过本技术方案，可将文字故事转换成视频观看，方便用户需求，且增加趣味性，提高用户的阅读体验。

Description

一种基于故事文本生成视频的方法和装置

技术领域

本发明涉及计算机网络领域，具体涉及一种基于故事文本生成视频的方法、装置、电子设备和计算机可读存储介质。

背景技术

当前，电子设备不断渗透到人们生活的方方面面。其中，越来越多的用户喜欢通过电子设备(如手机、PAD等)阅读故事，尤其喜欢阅读带有各种故事情节的小说。但用户在阅读小说时，往往因为小说中文字描述的故事情节缺少画面感而缺乏趣味性，降低了用户的阅读体验。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于故事文本生成视频的方法、装置、电子设备和计算机可读存储介质。

依据本发明的一个方面，提供了一种基于故事文本生成视频的方法，其中，该方法包括：

从故事文本中提取场景描述信息，根据场景描述信息生成含有相应场景画面的图像；

从故事文本中提取与所述场景描述信息对应的角色描述信息和角色行为信息；

根据角色描述信息和角色行为信息在所述图像中添加具有相应行为的角色，并为所述图像生成时间标签；

将生成的各图像按照对应的时间标签进行排序，生成视频。

可选地，其中，所述场景描述信息包括如下中的一种或多种：

地理位置信息；

地貌描述信息；

天气描述信息；

环境描述信息。

可选地，其中，根据场景描述信息生成含有相应场景画面的图像包括：

获取场景描述信息对应的语义特征向量；

将所述语义特征向量输入到实现文本转图像的神经网络中，得到该神经网络输出的图像。

可选地，其中，该方法进一步包括：

将生成的图像插入到所述故事文本中的相应位置处；其中，所述相应位置为：提取相应的场景描述信息的位置，或者提取相应的角色描述信息的位置，或者提取相应的角色行为信息的位置。

可选地，其中，该方法进一步包括：

在阅读所述故事文本的界面上提供视频播放控件；

当所述视频播放控件被触发时，播放所述视频。

可选地，其中，根据所述故事文本的章节，生成与各章节对应的视频；

在阅读所述故事文本的界面上，在该故事文本的各章节的起始/结束位置提供用于播放该章节对应的视频的视频播放控件。

依据本发明的另一个方面，提供了一种基于故事文本生成视频的装置，其中，该装置包括：

信息提取单元，适于从故事文本中提取场景描述信息，以及适于从故事文本中提取与所述场景描述信息对应的角色描述信息和角色行为信息；

图像生成单元，适于根据场景描述信息生成含有相应场景画面的图像，以及适于根据角色描述信息和角色行为信息在所述图像中添加具有相应行为的角色，并为所述图像生成时间标签；

视频合成单元，适于将生成的各图像按照对应的时间标签进行排序，生成视频。

地理位置信息；

地貌描述信息；

天气描述信息；

环境描述信息。

可选地，其中，

所述图像生成单元，适于获取场景描述信息对应的语义特征向量，将所述语义特征向量输入到实现文本转图像的神经网络中，得到该神经网络输出的图像。

可选地，其中，该装置进一步包括：

应用处理单元，适于将生成的图像插入到所述故事文本中的相应位置处；其中，所述相应位置为：提取相应的场景描述信息的位置，或者提取相应的角色描述信息的位置，或者提取相应的角色行为信息的位置。

可选地，其中，该装置进一步包括：

应用处理单元，适于在阅读所述故事文本的界面上提供视频播放控件；当所述视频播放控件被触发时，播放所述视频。

可选地，其中，

所述视频合成单元，适于根据所述故事文本的章节，生成与各章节对应的视频；

所述应用处理单元，适于在阅读所述故事文本的界面上，在该故事文本的各章节的起始/结束位置提供用于播放该章节对应的视频的视频播放控件。

依据本发明的又一个方面，提供了一种电子设备，其中，该电子设备包括：

处理器；以及，

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行根据上述中任一项所述的方法。

依据本发明的再一个方面，提供了一种计算机可读存储介质，其中，该计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现上述任一项所述的方法。

本发明的技术方案是从故事文本中提取场景描述信息，根据场景描述信息生成含有相应场景画面的图像；并从故事文本中提取与场景描述信息对应的角色描述信息和角色行为信息；再根据角色描述信息和角色行为信息在图像中添加具有相应行为的角色，并为图像生成时间标签；然后将生成的各图像按照对应的时间标签进行排序，生成视频。通过本技术方案，可将文字故事转换成视频观看，方便用户需求，且增加趣味性，提高用户的阅读体验。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的基于故事文本生成视频的方法流程示意图；

图2示出了根据本发明一个实施例的基于故事文本生成视频装置的结构示意图；

图3示出了根据本发明一个实施例的电子设备的结构示意图；

图4示出了根据本发明一个实施例的计算机可读存储介质的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的基于故事文本生成视频的方法流程示意图。如图1所示，该方法包括：

步骤S110，从故事文本中提取场景描述信息，根据场景描述信息生成含有相应场景画面的图像。

在本实施例中，故事文本可以是一篇小说，也可以是一本杂志中的故事。而场景描述信息是指故事文本中用以描述场景内容的文字信息。例如，“桃花林”、“柳絮飘舞”、“寂静犹如春晨的西湖”“暴雨交加的夜晚”等就是描述场景的文字信息，而本实施例的方法就是根据各种描述场景的文字信息生成带有场景的图像。例如，根据上述描述场景的文字，就可以生成画面为“桃花林”的图像，画面为“柳絮飘舞”的图像、画面为“寂静犹如春晨的西湖”等图像。

步骤S120，从故事文本中提取与场景描述信息对应的角色描述信息和角色行为信息。

在本实施例中，角色可以是一个人、一种动物，或者一个物品等。例如，一个少年、一块海绵、一只鸭子、一头狼等都可以成为角色。而角色描述信息是指描述角色特征的文字，包括但不限于面貌特征、衣着特征等。例如，“凶神恶煞”、“漂亮”、“温婉贤淑”、“灰色”“风流倜傥”等文字都可以用于描述角色特征。而角色行为信息是指描述角色在故事中发生的言行文字。例如，奔跑、打斗、做鬼脸、静止、玩耍、陪伴等文字都可以用于描述角色的行为，而本实施例的方法是根据描述角色的特征和角色的行为的文字生成对应图像。例如，可根据温婉贤淑的妇女陪伴漂亮的孩子在玩耍的文字描述，生成一幅“温婉贤淑的妇女陪伴漂亮的孩子在玩耍”的图像，或者根据风流倜傥的少年与凶神恶煞的狼在打斗的文字，生成一幅“风流倜傥的少年与凶神恶煞的狼在打斗”的图像等。

步骤S130，根据角色描述信息和角色行为信息在图像中添加具有相应行为的角色，并为图像生成时间标签；

本实施例，就是将上述生成带有动作和特征的角色图像添加到场景画面图像中，并按照故事文本中故事发生的时间的先后顺序标注图像。例如，可将“温婉贤淑的妇女陪伴漂亮的孩子在玩耍”和“风流倜傥的少年与凶神恶煞的狼在打斗”的图像添加到“寂静犹如春晨的西湖”的场景画面图像中。即组成了一幅“温婉贤淑的妇女陪伴漂亮的孩子在寂静犹如春晨的西湖旁边玩耍”的图像和一幅“风流倜傥的少年与凶神恶煞的狼在寂静犹如春晨的西湖旁边打斗”的图像。并且若故事中先描述的是“温婉贤淑的妇女陪伴漂亮的孩子在寂静犹如春晨的西湖旁边玩耍”，后描述“风流倜傥的少年与凶神恶煞的狼在寂静犹如春晨的西湖旁边打斗”，即可将“温婉贤淑的妇女陪伴漂亮的孩子在寂静犹如春晨的西湖旁边玩耍”的图像标记为帧1，“风流倜傥的少年与凶神恶煞的狼在寂静犹如春晨的西湖旁边打斗”的图像标记为帧2。

步骤S140，将生成的各图像按照对应的时间标签进行排序，生成视频。

在上述实施例的基础上，按照各图像的时间标签，对生成的各个图像排序，排序后的各个图像即组成了视频的各个帧。例如，可将上述例子中的图像按照标记顺序排序，即组成了一个温婉贤淑的妇女陪伴漂亮的孩子在寂静犹如春晨的西湖的旁边玩耍，随后风流倜傥的少年与凶神恶煞的狼在寂静犹如春晨的西湖的旁边打斗了起来的视频。

可知，在本实施例中，从故事文本中提取场景描述信息，根据场景描述信息生成含有相应场景画面的图像；从故事文本中提取与所述场景描述信息对应的角色描述信息和角色行为信息；根据角色描述信息和角色行为信息在所述图像中添加具有相应行为的角色，并为所述图像生成时间标签；将生成的各图像按照对应的时间标签进行排序，生成视频。通过本技术方案，可将文字故事转换成视频观看，方便用户需求，且增加趣味性，提高用户的阅读体验。

在本发明的一个实施例中，场景描述信息包括如下中的一种或多种：

地理位置信息；

地貌描述信息；

天气描述信息；

环境描述信息。

在本实施例中，地理位置信息是指故事文本中描述的地理位置，包括北京、上海、办公室、学校等这样的地点名称。例如，在赵县的一个小山村，这里的“赵县”和“小山村”就是位置地理信息。地貌描述信息是指故事中描述的地貌的特征情况，包括关于山川、河流、高山、大海等的描述。例如，巍峨的高山、奔腾汹涌的大海等就是描述地貌的信息。天气描述信息是指故事中描述的天气情况，包括绵绵细雨、晴空万里、瓢泼大雨等的描述。例如，小山村里突然下起瓢泼大雨，这里的“瓢泼大雨”就是天气情况。环境描述信息是指故事中描述的周围环境情况，包括温暖如春、寒冷、太阳高照、花红柳绿等文字就是对环境的描述。例如，小山村的四季都是花红柳绿的景色，这里的“花红柳绿”就是环境信息。

在本发明的一个实施例中，根据场景描述信息生成含有相应场景画面的图像包括：获取场景描述信息对应的语义特征向量；将语义特征向量输入到实现文本转图像的神经网络中，得到该神经网络输出的图像。

在进行图片生成时，需要将文字转换成实现文本转图片的神经网络可以识别的语义特征向量。例如，将文字转换成1000维的语义特征向量，然后将这1000维的语义特征向量输入到实现文本转图片的神经网络中，神经网络经过识别会输出对应的图片。

在本实施例中，具体是通过全连接网络把匹配的文本转换为特征向量，即把原始文本对应的one-hot编码的向量乘以一个矩阵转换为一个低维稠密的向量；通过全连接网络把不匹配的文本转换为特征向量。在神经网络中，全连接网络(即全连接层)在整个卷积神经网络中起到“分类器”的作用。如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话，全连接层起到将学到的“分布式特征表示”映射到样本标记空间的作用。

还需说明的是，将语义特征向量输入到实现文本转图片的神经网络中之前，还需进行的操作是，将语义特征向量与高斯白噪声向量进行整合；将整合后的向量输入到实现文本转图片视频的神经网络中。在本实施例中，这里的整合是将语义特征向量和高斯白噪声向量的位数进行叠加，例如，高斯白噪声向量是100维，文字转换成的是1000维的语义特征向量，则整合后就是1100维的向量，然后将1100维的向量输入到实现文本转图片的神经网络中。

本技术方案中的实现文本转图片的神经网络可以采用DC-GAN网络，主要由两部分组成，即Generator Network(生成网络)和Discriminator Network(判别网络)。生成对抗网络的训练过程如下：

1)准备训练数据，构成网络的输入，训练数据是用来学习模型参数的数据，由真实的图片x，与图片匹配的文本描述t，与图片不匹配的文本描述，训练的迭代次数s。

2)开始迭代。

3)通过全连接网络把匹配的文本t转换为特征向量h，即把原始文本对应的one-hot编码的向量乘以一个矩阵转换为一个低维稠密的向量。

4)通过全连接网络把不匹配的文本转换为特征向量。

5)生成一个随机的高斯噪声向量z。

6)把高斯噪声向量z和匹配文本特征向量h整合起来，并通过生成网络G，得到生成的与选择的文本对应的图片。

7)用判别网络来判断x和h的是否一致。

8)用判别网络来判断x和的是否一致。

9)用判别网络来判断和h的是否一致。

10)把判别网络输出的损失函数求和。

11)利用梯度下降法更新判别网络的参数。

12)求得判别网络的损失函数。

13)利用梯度下降法更新生成网络的参数。

上述的生成网络是一个反卷积网络，判别网络是一个卷积网络。生成对抗网络的生成图片的过程仅需要用到生成网络，即卷积网络。待训练完成之后，生成网络的参数已经优化完成，输入一段文本或者单词组合就能够通过生成网络得到一幅图片。

在本发明的一个实施例中，图1所示的方法进一步包括：将生成的图像插入到故事文本中的相应位置处；其中，相应位置为：提取相应的场景描述信息的位置，或者提取相应的角色描述信息的位置，或者提取相应的角色行为信息的位置。

在本实施例中，就是将场景图像插入到故事文本中描述场景的文字旁边，将角色特征图像插入到故事文本中描述角色信息的文字旁边，将角色动作图像插入到故事文本中描述角色行为的文字旁边。例如，可将“寂静犹如春晨的西湖”图像插入到小说中描述寂静犹如春晨的西湖的文字旁边，将“作出陪伴动作的温婉贤淑的妇女”图像插入到小说中描述漂亮的孩子中的文字旁边，将漂亮的孩子的图像插入到小说中描述漂亮的孩子的文字处。

在本发明的一个实施例中，图1所示的方法进一步包括：在阅读故事文本的界面上提供视频播放控件；当视频播放控件被触发时，播放视频。

在本实施例中，在阅读的故事文本的界面上设置开关按钮，即通过触动开关按钮控制根据故事文本生产的视频的播放。例如，可在小说《狼与少年》的阅读界面上设置开关按钮，当用于阅读《狼与少年》时，可以触发该开关按钮观看根据该小说生成的视频。

在本发明的一个实施例中，根据故事文本的章节，生成与各章节对应的视频；在阅读故事文本的界面上，在该故事文本的各章节的起始/结束位置提供用于播放该章节对应的视频的视频播放控件。

在上述实施例的基础上，将开关按钮设置在小说《狼与少年》中的各个章节的开始位置或者结束位置均可。例如，若一个温婉贤淑的妇女陪伴漂亮的孩子在寂静犹如春晨的西湖的旁边玩耍，风流倜傥的少年与凶神恶煞的狼在寂静犹如春晨的西湖的旁边打斗为一章节，就可将开关按钮设置在该章节的开始位置。从而方便了用户在每个章节的开始或结束位置通过触发开关按钮来观看本章节对应的视频，提升了趣味性。

图2示出了根据本发明一个实施例的基于故事文本生成视频装置的结构示意图。如图2所示，该基于故事文本生成视频的装置包括：

信息提取单元210，适于从故事文本中提取场景描述信息，以及适于从故事文本中提取与场景描述信息对应的角色描述信息和角色行为信息。

在本实施例中，故事文本可以是一篇小说，也可以是一本杂志中的故事。而场景描述信息是指故事文本中用以描述场景内容的文字信息。例如，“桃花林”、“柳絮飘舞”、“寂静犹如春晨的西湖”“暴雨交加的夜晚”等就是描述场景的文字信息，在本实施例中，角色可以是一个人、一种动物，或者一个物品等。例如，一个少年、一块海绵、一只鸭子、一头狼等都可以成为角色。而角色描述信息是指描述角色特征的文字，包括但不限于面貌特征、衣着特征等。例如，“凶神恶煞”、“漂亮”、“温婉贤淑”、“灰色”“风流倜傥”等文字都可以用于描述角色特征。而角色行为信息是指描述角色在故事中发生言行的文字。例如，奔跑、打斗、做鬼脸、静止、玩耍、陪伴等文字都可以用于描述角色的行为。

图像生成单元220，适于根据场景描述信息生成含有相应场景画面的图像，以及适于根据角色描述信息和角色行为信息在图像中添加具有相应行为的角色，并为图像生成时间标签。

在上述实施例的基础上，根据各种描述场景的文字信息生成带有场景的图像。例如，根据上述描述场景的文字，就可以生成画面为“桃花林”的图像，画面为“柳絮飘舞”的图像、画面为“寂静犹如春晨的西湖”等图像。根据上述描述角色特征，例如，凶神恶煞、漂亮、温婉贤淑、灰色、风流倜傥等文字，就可以生成画面为“凶神恶煞的狼”、“温婉贤淑的妇女”、“风流倜傥的少年”等图像。根据上述角色行为，例如，例如，奔跑、打斗、做鬼脸、静止、玩耍、陪伴等文字，就可以生成“做打斗动作的风流倜傥的少年”、“做陪伴动作的温婉贤淑的妇女”、“凶神恶煞的狼”等图像。并可将“做打斗动作的风流倜傥的少年”、“凶神恶煞的狼”、“做陪伴动作的温婉贤淑的妇女”的图像添加到“寂静犹如春晨的西湖”的图像中。

需要说明的是，在本实施例中还需将上述生成带有动作和特征的角色图像添加到场景画面图像中，并按照故事文本中故事发生的时间的先后顺序标注图像。例如，可将“温婉贤淑的妇女陪伴漂亮的孩子在玩耍”和“风流倜傥的少年与凶神恶煞的狼在打斗”的图像添加到“寂静犹如春晨的西湖”的场景画面图像中。即组成了一幅“温婉贤淑的妇女陪伴漂亮的孩子在寂静犹如春晨的西湖旁边玩耍”的图像和一幅“风流倜傥的少年与凶神恶煞的狼在寂静犹如春晨的西湖旁边打斗”的图像。并且若故事中先描述的是“温婉贤淑的妇女陪伴漂亮的孩子在寂静犹如春晨的西湖旁边玩耍”，后描述“风流倜傥的少年与凶神恶煞的狼在寂静犹如春晨的西湖旁边打斗”，即可将“温婉贤淑的妇女陪伴漂亮的孩子在寂静犹如春晨的西湖旁边玩耍”的图像标记为帧1，“风流倜傥的少年与凶神恶煞的狼在寂静犹如春晨的西湖旁边打斗”的图像标记为帧2。

视频合成单元230，适于将生成的各图像按照对应的时间标签进行排序，生成视频。

地理位置信息；

地貌描述信息；

天气描述信息；

环境描述信息。

在本发明的一个实施例中，图像生成单元220，适于获取场景描述信息对应的语义特征向量，将语义特征向量输入到实现文本转图像的神经网络中，得到该神经网络输出的图像。

2)开始迭代。

4)通过全连接网络把不匹配的文本转换为特征向量。

5)生成一个随机的高斯噪声向量z。

7)用判别网络来判断x和h的是否一致。

8)用判别网络来判断x和的是否一致。

9)用判别网络来判断和h的是否一致。

10)把判别网络输出的损失函数求和。

11)利用梯度下降法更新判别网络的参数。

12)求得判别网络的损失函数。

13)利用梯度下降法更新生成网络的参数。

在本发明的一个实施例中，该装置200进一步包括：

应用处理单元，适于将生成的图像插入到故事文本中的相应位置处；其中，相应位置为：提取相应的场景描述信息的位置，或者提取相应的角色描述信息的位置，或者提取相应的角色行为信息的位置。

在本发明的一个实施例中，该装置200进一步包括：

应用处理单元，适于在阅读故事文本的界面上提供视频播放控件；当视频播放控件被触发时，播放所述视频。

在本发明的一个实施例中，视频合成单元230，适于根据故事文本的章节，生成与各章节对应的视频；

应用处理单元，适于在阅读故事文本的界面上，在该故事文本的各章节的起始/结束位置提供用于播放该章节对应的视频的视频播放控件。

在上述实施例的基础上，可将开关按钮设置在小说《狼与少年》中的各个章节的开始位置或者结束位置均可。例如，若一个温婉贤淑的妇女陪伴漂亮的孩子在寂静犹如春晨的西湖的旁边玩耍，风流倜傥的少年与凶神恶煞的狼在寂静犹如春晨的西湖的旁边打斗为一章节，就可将开关按钮设置在该章节的开始位置。从而方便了用户在每个章节的开始或结束位置通过触发开关按钮来观看本章节对应的视频，，提升了趣味性。

综上所述，本发明是从故事文本中提取场景描述信息，根据场景描述信息生成含有相应场景画面的图像；从故事文本中提取与所述场景描述信息对应的角色描述信息和角色行为信息；根据角色描述信息和角色行为信息在所述图像中添加具有相应行为的角色，并为所述图像生成时间标签；将生成的各图像按照对应的时间标签进行排序，生成视频。通过本技术方案，可将文字故事转换成视频观看，方便用户需求，且增加趣味性，提高用户的阅读体验。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于故事文本生成视频的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图3示出了根据本发明一个实施例的电子设备的结构示意图。该电子设备300传统上包括处理器310和被安排成存储计算机可执行指令(程序代码)的存储器320。存储器320可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器320具有存储用于执行图1所示的以及各实施例中的任何方法步骤的程序代码340的存储空间330。例如，用于程序代码的存储空间330可以包括分别用于实现上面的方法中的各种步骤的各个程序代码340。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图4所述的计算机可读存储介质400。该计算机可读存储介质400可以具有与图3的电子设备中的存储器320类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常，存储单元存储有用于执行根据本发明的方法步骤的程序代码410，即可以由诸如310之类的处理器读取的程序代码，当这些程序代码由电子设备运行时，导致该电子设备执行上面所描述的方法中的各个步骤。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了A1、一种基于故事文本生成视频的方法，其中，该方法包括：

将生成的各图像按照对应的时间标签进行排序，生成视频。

A2、如A1所述的方法，其中，所述场景描述信息包括如下中的一种或多种：

地理位置信息；

地貌描述信息；

天气描述信息；

环境描述信息。

A3、如A1所述的方法，其中，根据场景描述信息生成含有相应场景画面的图像包括：

获取场景描述信息对应的语义特征向量；

A4、如A1-A3中任一项所述的方法，其中，该方法进一步包括：

A5、如A1-A3中任一项所述的方法，其中，该方法进一步包括：

在阅读所述故事文本的界面上提供视频播放控件；

当所述视频播放控件被触发时，播放所述视频。

A6、如A5所述的方法，其中，

根据所述故事文本的章节，生成与各章节对应的视频；

本发明还公开了B7、一种基于故事文本生成视频的装置，其中，该装置包括：

B8、如B7所述的装置，其中，所述场景描述信息包括如下中的一种或多种：

地理位置信息；

地貌描述信息；

天气描述信息；

环境描述信息。

B9、如B7所述的装置，其中，

B10、如B7-B9中任一项所述的装置，其中，该装置进一步包括：

B11、如B7-B9中任一项所述的装置，其中，该装置进一步包括：

B12、如B11所述的装置，其中，

本发明还公开了C13、一种电子设备，其中，该电子设备包括：

处理器；以及，

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行根据A1～A6中任一项所述的方法。

本发明还公开了D14、一种计算机可读存储介质，其中，该计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现A1～A6中任一项所述的方法。

Claims

1.一种基于故事文本生成视频的方法，其中，该方法包括：

将生成的各图像按照对应的时间标签进行排序，生成视频。

2.如权利要求1所述的方法，其中，所述场景描述信息包括如下中的一种或多种：

地理位置信息；

地貌描述信息；

天气描述信息；

环境描述信息。

3.如权利要求1所述的方法，其中，根据场景描述信息生成含有相应场景画面的图像包括：

获取场景描述信息对应的语义特征向量；

4.如权利要求1-3中任一项所述的方法，其中，该方法进一步包括：

5.如权利要求1-3中任一项所述的方法，其中，该方法进一步包括：

在阅读所述故事文本的界面上提供视频播放控件；

当所述视频播放控件被触发时，播放所述视频。

6.如权利要求5所述的方法，其中，

根据所述故事文本的章节，生成与各章节对应的视频；

7.一种基于故事文本生成视频的装置，其中，该装置包括：

8.如权利要求7所述的装置，其中，所述场景描述信息包括如下中的一种或多种：

地理位置信息；

地貌描述信息；

天气描述信息；

环境描述信息。

9.一种电子设备，其中，该电子设备包括：

处理器；以及，

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行根据权利要求1～6中任一项所述的方法。

10.一种计算机可读存储介质，其中，该计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现权利要求1～6中任一项所述的方法。