CN109344291B

CN109344291B - 一种视频生成方法及装置

Info

Publication number: CN109344291B
Application number: CN201811022626.7A
Authority: CN
Inventors: 孙译滨
Original assignee: Tencent Technology Wuhan Co Ltd
Current assignee: Tencent Technology Wuhan Co Ltd
Priority date: 2018-09-03
Filing date: 2018-09-03
Publication date: 2020-08-25
Anticipated expiration: 2038-09-03
Also published as: CN109344291A

Abstract

本发明涉及计算机技术领域，尤其涉及一种视频生成方法及装置，接收视频生成指令，获得用于生成视频的视频主题文本；获得视频主题文本对应的分词结果集，其中，分词结果集中至少包括一个分词；在包括多个图片素材的内容数据库中，为分词结果集中的各分词分别匹配图片素材以获得图片素材集，其中，每个图片素材包括图片和图片上标注的文本信息，与分词相匹配图片素材的文本信息的语义与分词的语义相匹配；生成包含图片素材集中各个图片素材的视频，其中，各个图片素材在视频中的出现顺序，与图片素材相匹配的分词在视频主题文本中出现的顺序一致，对视频主题文本进行分词拆分，与内容数据库进行匹配，可生成内容更多，提高视频生成准确性和效率。

Description

一种视频生成方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种视频生成方法及装置。

背景技术

目前，用户对于互联网内容要求越来越高，希望能制作出自己个性化的视频。现有技术中，视频的生成方法，主要是根据用户要求在一些热门的视频中人工进行筛选和提取，从而生成视频，但是，现有技术中人工操作，效率较低，并且这些热门的视频也都是人工进行标注的，成本较高，数量和内容较少，内容也比较单一，导致生成的视频内容也比较单一，视频质量较差，无法满足用户的需求。

发明内容

本发明实施例提供一种视频生成方法及装置，以解决现有技术中视频生成效率和准确性低的问题。

本发明实施例提供的具体技术方案如下：

本发明一个实施例提供了一种视频生成方法，包括：

接收视频生成指令，获得用于生成视频的视频主题文本；

获得所述视频主题文本对应的分词结果集，其中，所述分词结果集中至少包括一个分词，每个分词包含在所述视频主题文本中；

在包括多个图片素材的内容数据库中，为分词结果集中的各分词分别匹配图片素材以获得图片素材集，其中，每个图片素材包括图片和图片上标注的文本信息，与分词相匹配图片素材的文本信息的语义与分词的语义相匹配；

生成包含图片素材集中各个图片素材的视频，其中，各个图片素材在所述视频中的出现顺序，与图片素材相匹配的分词在所述视频主题文本中出现的顺序一致。

结合本发明的一个实施例，获得所述视频主题文本对应的分词结果集，具体包括：

对所述视频主题文本进行分词拆分，获得至少一个分词；

将获得的分词组合成所述分词结果集。

对所述视频主题文本进行分词拆分，获得至少一个分词；

根据各分词在所述视频主题文本中的顺序和词性，确定所述各分词的价值分值；

将价值分值高于设定阈值的分词组合成所述分词结果集。

结合本发明的一个实施例，所述生成包含图片素材集中各个图片素材的视频，具体包括：

根据与图片素材相匹配的分词在所述视频主题文本中出现的顺序，对所述图片素材集中的各图片素材进行排序；

根据所述各分词的价值分值和设定的视频时长，分别对所述图片素材集中各图片素材设置时间；

根据预设视频编码算法和所述各图片素材的时间，对所述排序后的图片素材集中各图片素材进行视频编码，生成视频。

结合本发明的一个实施例，进一步包括：

按照预设周期，获取预设的图片素材数据库中最新的图片素材；

对所述最新的图片素材进行文字识别，根据文字识别结果，对所述图片素材进行标注；

根据所述最新的图片素材和对应的标注信息，更新所述内容数据库。

本发明另一个实施例提供了一种视频生成方法，包括：

向服务器发送视频生成指令；

接收服务器返回的生成的视频，其中，所述视频是服务器通过执行以下步骤生成的：接收视频生成指令，获得用于生成视频的视频主题文本；获得所述视频主题文本对应的分词结果集，其中，所述分词结果集中至少包括一个分词，每个分词包含在所述视频主题文本中；在包括多个图片素材的内容数据库中，为分词结果集中的各分词分别匹配图片素材以获得图片素材集，其中，每个图片素材包括图片和图片上标注的文本信息，与分词相匹配图片素材的文本信息的语义与分词的语义相匹配；生成包含图片素材集中各个图片素材的视频，其中，各个图片素材在所述视频中的出现顺序，与图片素材相匹配的分词在所述视频主题文本中出现的顺序一致。

本发明另一个实施例提供了一种视频生成装置，包括：

第一获取模块，用于接收视频生成指令，获得用于生成视频的视频主题文本；

第二获取模块，用于获得所述视频主题文本对应的分词结果集，其中，所述分词结果集中至少包括一个分词，每个分词包含在所述视频主题文本中；

匹配模块，用于在包括多个图片素材的内容数据库中，为分词结果集中的各分词分别匹配图片素材以获得图片素材集，其中，每个图片素材包括图片和图片上标注的文本信息，与分词相匹配图片素材的文本信息的语义与分词的语义相匹配；

生成模块，用于生成包含图片素材集中各个图片素材的视频，其中，各个图片素材在所述视频中的出现顺序，与图片素材相匹配的分词在所述视频主题文本中出现的顺序一致。

结合本发明另一个实施例，获得所述视频主题文本对应的分词结果集时，所述第二获取模块具体用于：

对所述视频主题文本进行分词拆分，获得至少一个分词；

将获得的分词组合成所述分词结果集。

对所述视频主题文本进行分词拆分，获得至少一个分词；

将价值分值高于设定阈值的分词组合成所述分词结果集。

结合本发明另一个实施例，所述生成包含图片素材集中各个图片素材的视频时，所述生成模块具体用于：

结合本发明另一个实施例，进一步包括：

第三获取模块，用于按照预设周期，获取预设的图片素材数据库中最新的图片素材；

标注模块，用于对所述最新的图片素材进行文字识别，根据文字识别结果，对所述图片素材进行标注；

更新模块，用于根据所述最新的图片素材和对应的标注信息，更新所述内容数据库。

本发明另一个实施例提供了一种视频生成装置，包括：

发送模块，用于向服务器发送视频生成指令；

接收模块，用于接收服务器返回的生成的视频，其中，所述视频是服务器通过执行以下步骤生成的：接收视频生成指令，获得用于生成视频的视频主题文本；获得所述视频主题文本对应的分词结果集，其中，所述分词结果集中至少包括一个分词，每个分词包含在所述视频主题文本中；在包括多个图片素材的内容数据库中，为分词结果集中的各分词分别匹配图片素材以获得图片素材集，其中，每个图片素材包括图片和图片上标注的文本信息，与分词相匹配图片素材的文本信息的语义与分词的语义相匹配；生成包含图片素材集中各个图片素材的视频，其中，各个图片素材在所述视频中的出现顺序，与图片素材相匹配的分词在所述视频主题文本中出现的顺序一致。

本发明另一个实施例提供了一种服务器，包括：

至少一个存储器，用于存储程序指令；

至少一个处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行上述任一种视频生成方法。

本发明另一个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种视频生成方法的步骤。

本发明实施例中，接收视频生成指令，获得用于生成视频的视频主题文本；获得所述视频主题文本对应的分词结果集，其中，所述分词结果集中至少包括一个分词，每个分词包含在所述视频主题文本中；在包括多个图片素材的内容数据库中，为分词结果集中的各分词分别匹配图片素材以获得图片素材集，其中，每个图片素材包括图片和图片上标注的文本信息，与分词相匹配图片素材的文本信息的语义与分词的语义相匹配；生成包含图片素材集中各个图片素材的视频，其中，各个图片素材在所述视频中的出现顺序，与图片素材相匹配的分词在所述视频主题文本中出现的顺序一致，这样，生成视频时，对获得的视频主题文本进行分词拆分，进行匹配，从而生成用户所需的视频，节省人力和成本，并提高效率，并且分别将分词与包括标注后的图片素材的内容数据库进行匹配，内容数据库中图片素材可以通过文本信息自动进行标注，获得大量图片素材，图片素材数量更多，内容更加丰富多样，从而使得视频的可生成内容更多，更加丰富，生成的视频质量更高，更加准确，更能符合用户需求。

附图说明

图1为本发明实施例中视频生成方法的应用场景架构图；

图2为本发明实施例中一种视频生成方法流程图；

图3为本发明实施例中提供的视频主题文本的分词提取逻辑流程图；

图4为本发明实施例中提供的图片素材匹配和视频生成逻辑流程图；

图5为本发明实施例中提供的内容数据库生成逻辑流程图；

图6为本发明实施例中另一种视频生成方法流程图；

图7a为本发明实施例中用户在终端发送视频生成指令界面实现效果示意图；

图7b为本发明实施例中终端接收视频的界面实现效果示意图；

图8为本发明实施例中视频生成方法交互时序图；

图9为本发明实施例中一种视频生成装置结构示意图；

图10为本发明实施例中另一种视频生成装置结构示意图；

图11为本发明实施例中服务器结构示意图；

图12为本发明实施例中终端结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面先对几个概念进行简单介绍：

鬼畜视频：是一种搞怪视频类型，在视频网站上较为常见的原创视频类型，该类视频以高度同步、快速重复的素材配合背景音乐(Background music，BGM)来达到喜感效果，或通过视频或音频剪辑，用频率极高的重复画面或声音组合而成的一段节奏配合音画同步率极高的一类视频。

用户原创内容(User Generated Content，UGC)：用户将自己原创的内容通过互联网平台进行展示或者提供给其他用户，是一种用户使用互联网的新方式。

目前，个性化的视频制作也越来越受欢迎，但现有技术中，视频的生成也主要是根据用户要求在一些热门的视频中人工进行筛选和提取，人工进行操作，效率较低，并且这些热门的视频，也都是人工进行标注，因此可生成视频的内容数量比较少，内容也比较单一，导致生成的视频内容也比较单一，视频质量较差，无法满足用户的需求。

因此，本发明实施例中提供了一种新的视频生成方法，可以根据用户输入的视频主题文本，进行分词拆分，获得分词结果集，将分词结果集中各分词分别与包括多个图片素材的内容数据库进行匹配，获得匹配的图片素材集，进而根据图片素材集中各图片素材，生成视频，可以自动与内容数据库进行匹配，生成视频，提高效率，匹配的图片素材集与用户输入的视频主题文本相关，更能满足用户需求，并且内容数据库中各图片素材是包括图片和图片上标注的文本信息，本发明实施例中，可以提取图片中文字，对图片进行自动标注，节省大量人力，并且可以提升效率和图片素材的数量，丰富其内容，从而可以使得生成的视频内容更加丰富，提高视频质量。

并且，本发明实施例中，内容数据库可以基于漫画数据库生成，当然，并不仅限于漫画数据库，例如，可以基于在线漫画数据库平台或者漫画资源网站，其提供了多种漫画网络资源，可以从中选择部分或全部漫画，作为本发明实施例中的漫画数据库，对漫画数据库中漫画图片进行文字识别，并进行标注，生成带有标注的图片素材，即生成包括多个图片素材的内容数据库，丰富视频生成的图片素材，可以快速生成大量的标注的图片素材。

参阅图1所示，为本发明实施例中视频生成方法的应用场景架构图，至少包括终端、服务器。

终端可以是智能手机、平板电脑、便携式个人计算机等任何智能设备。终端上可以安装有各种应用程序(Application，APP)，例如视频APP。

终端与服务器之间通过互联网相连，实现相互之间的通信。可选地，上述的互联网使用标准通信技术和/或协议。互联网通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible Markup Language，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet Protocol Security，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

服务器为终端提供各种网络服务，对于不同的终端或终端上的应用程序，服务器可以认为是提供相应网络服务的后台服务器，例如，本发明实施例中，服务器可以是视频生成的后台服务器，为终端提供视频生成服务，用户通过终端提交视频生成指令，从而服务器可以根据用户的视频生成指令，生成视频，并将生成的视频返回给终端的用户。

其中，服务器可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。

为了解决现有技术中视频可生成内容较少、比较单一，降低了视频生成效率和准确性的问题，本发明实施例中，提供了一种视频生成方法，在一种可能的实施方式中，接收视频生成指令，获得用于生成视频的视频主题文本；获得视频主题文本对应的分词结果集，其中，分词结果集中至少包括一个分词，每个分词包含在视频主题文本中；在包括多个图片素材的内容数据库中，为分词结果集中的各分词分别匹配图片素材以获得图片素材集，其中，每个图片素材包括图片和图片上标注的文本信息，与分词相匹配图片素材的文本信息的语义与分词的语义相匹配；生成包含图片素材集中各个图片素材的视频，其中，各个图片素材在视频中的出现顺序，与图片素材相匹配的分词在视频主题文本中出现的顺序一致，这样，根据视频主题文本进行分词拆分，获得对应的分词结果集，并在内容数据库中进行匹配，获得图片素材集，从而生成视频，可以根据拆分的分词，自动在内容数据库中进行匹配，效率更高，速度也更快，并且与分词相匹配的内容数据库中包括多个标注后的图片，可以通过文本信息自动进行标注，获得大量图片素材，节省人力和成本，提升视频可生成内容的数量和内容的丰富性，进一步地，由于图片素材更加多样和丰富，因此还可以使得匹配更加准确和有效，从而提高视频生成质量，生成的视频准确性更高，更能满足用户的需求。

本发明实施例中，获得视频主题文本对应的分词结果集时，可以对视频主题文本进行分词拆分，将所有拆分的分词都作为分词结果集，用于进行匹配，可以保证匹配的图片素材最大可能的满足用户生成视频的需求，也可以对拆分的分词进行筛选，对于一些不重要的分词就过滤掉，不作为分词结果集，进行分词匹配，这样不仅可以在一定程度上保证准确性，还可以提高匹配效率，具体地提供了两种可能的实施方式：

第一种方式：对视频主题文本进行分词拆分，获得至少一个分词；将获得的分词组合成分词结果集。

第二种方式：对视频主题文本进行分词拆分，获得至少一个分词；根据各分词在视频主题文本中的顺序和词性，确定各分词的价值分值；将价值分值高于设定阈值的分词组合成所述分词结果集。

本发明实施例中，可以快速地生成大量标注的图片素材，即获得包括多个图片素材的内容数据库，该内容数据库用于分词匹配，还可以不断更新内容数据库，针对生成内容数据库，提供了一种可能的实施方式，按照预设周期，获取预设的图片素材数据库中最新的图片素材；对最新的图片素材进行文字识别，根据文字识别结果，对图片素材进行标注；根据最新的图片素材和对应的标注信息，更新内容数据库。

也就是说，本发明实施例中，可以通过文字识别，自动标注图片素材，不需要人工标注，节省大量的人力，节省成本，提高效率和速度，并且由于效率和速度更高，因此可以针对任意图片素材数据库，进行标注来获得和更新内容数据库，可选择的范围更广，更能满足用户自定义生成视频的需求，最终生成的视频质量也更高。

值得说明的是，本发明实施例中的系统结构示意图是为了更加清楚地说明本发明实施例中的技术方案，并不构成对本发明实施例提供的技术方案的限制，并且本发明实施例中也并不仅限于鬼畜视频，对于其它的应用场景和业务应用，本发明实施例提供的技术方案对于类似的问题，同样适用。

本发明各个实施例中，以视频生成方法用于图1所示的应用场景架构图为例进行示意性说明。

基于上述实施例，参阅图2所示，为本发明实施例中视频生成方法流程图，该方法包括：

步骤200：接收视频生成指令，获得用于生成视频的视频主题文本。

其中，视频主题文本表示该视频表达的主题。

例如，可以在终端上安装生成视频相关的APP，用户打开该APP后，若想要生成视频，则可以先输入想生成的视频表达的主题或观点的视频主题文本，例如为“燃烧吧冰雪”，然后点击提交，后台服务器即接收到视频生成指令，并获得视频主题文本，开始进行视频生成。

进一步地，用户在提交视频生成指令时，还可以设置视频时间等，本发明实施例中并不进行限制。

步骤210：获得视频主题文本对应的分词结果集，其中，分词结果集中至少包括一个分词，每个分词包含在视频主题文本中。

即将视频主题文本进行分词拆分，得到的分词结果集，具体地执行步骤210时，可以有以下两种方式：

第一种方式：对视频主题文本进行分词拆分，获得至少一个分词；将获得的分词组合成该分词结果集。

具体地，可以使用预设的分词算法，对视频主题文本进行分词拆分，例如，可以为视频主题文本进行断句、分词等，可以将各种动词、名词等按照正常语序拆分开。

其中，预设的分词算法，本发明实施例中并不进行限制，可以根据实际需求来进行选择和使用。

例如，视频主题文本为“我是一个学生”，分词的结果可以为“我”、“是”“一个”、“学生”，可以将拆分的获得的所有分词组成分词结果集，即分词结果集为“我是一个学生”。

也就是说，本发明实施例中可以将拆分获得的所有分词，都作为后续用于匹配的分词结果集，即将拆分的所有分词都进行匹配，这样，可以通过所有分词进行匹配，尽可能地保证最后匹配出的图片素材集可以涵盖这个视频主题文本，提高视频生成的准确性，更能满足用户需求。

第二种方式：首先，对视频主题文本进行分词拆分，获得至少一个分词。

然后，根据各分词在视频主题文本中的顺序和词性，确定各分词的价值分值。

具体地，可以分别设置分词在视频主题文本中的顺序和词性的权重，例如设置词性权重大于顺序权重，并在视频主题文本中顺序越靠前，价值分值越高，还可以设置各词性的价值分值，例如价值分值：动词>名词>形容词>副词等，从而可以确定各分词的价值分值，根据各分词的价值分值，将各分词进行排序，获得排序后的分词结果，目的是为了确定各分词的重要程度。

最后，将价值分值高于设定阈值的分词组合成该分词结果集。

例如，视频主题文本为“我是一个学生”，分词的结果可以为“我”、“是”“一个”、“学生”，进行价值评分后，例如价值分值从大到小为：“学生”>“我”>“一个”>“是”，并只有“学生”、“我”、“一个”的价值分值大于设定阈值，则得到的分词结果集为“学生我一个”。

也就是说，本发明实施例中，还可以从拆分出的分词中筛选出比较重要的分词，作为该视频主题文本的分词结果集，在进行匹配时，只需将这些比较重要的进行匹配，可以提效率和速度，并且由于只是舍弃了一些比较不重要的分词，因此对最后生成视频的准确性影响也较小。

进一步地，本发明实施例中，还可以结合第一种方式和第二种方式，获得分词结果集，提供了一种可能的实施方式，对视频主题文本进行分词拆分，获得至少一个分词；根据各分词在视频主题文本中的顺序和词性，确定各分词的价值分值，并根据价值分值将各分词进行排序，获得排序后的各分词，将带有顺序的各分词组合成该分词结果集。

步骤220：在包括多个图片素材的内容数据库中，为分词结果集中的各分词分别匹配图片素材以获得图片素材集，其中，每个图片素材包括图片和图片上标注的文本信息，与分词相匹配图片素材的文本信息的语义与分词的语义相匹配。

具体地，分别将各分词与图片素材的标注的文本信息进行匹配，获得匹配出的图片素材集。

并且，在进行匹配时，可以将分词结果集中分词依次进行匹配，也可以按照价值分值的顺序从高到低依次进行匹配。

进一步地，若一个分词匹配出多个图片素材，则可以根据图片素材的热度，来确定出热度最高的一个图片素材，作为该分词匹配出的图片素材，也可以根据其它指标，例如好评度等，本发明实施例中并不进行限制。

进一步地，若针对未匹配出图片素材集的分词，可以进行丢弃，在生成视频时就不用考虑该分词对应的图片素材了，或者还可以用系统默认搞笑视频，或者用户自定义等。

其中，本发明实施例中内容数据库的生成可以基于图片素材数据库，例如图片素材数据库为漫画数据库，当然本发明实施例中并不仅限于漫画数据库，可以对漫画数据库中漫画图片素材进行文字识别，并自动标注，从而生成并不断更新内容数据库，具体地本发明实施例中提供了一种可能的实施方式，按照预设周期，获取预设的图片素材数据库中最新的图片素材；对最新的图片素材进行文字识别，根据文字识别结果，对图片素材进行标注；根据最新的图片素材和对应的标注信息，更新内容数据库。

这样，对图片素材数据库中图片素材进行文字识别，提取图片素材上的文字，例如，采用光学字符识别(Optical Character Recognition，OCR)技术，将图片上的文字内容，智能识别成为可编辑的文本，从而根据识别出文字，对该图片素材进行标注，由于不需要人工操作，可以自动进行识别和标注，因此节省了时间，提高了效率，可以快速生成大量的标注的图片素材，并且还可以不断更新，节省人力和成本，并且可以丰富视频的图片素材，无需仅限制于在有限的热门视频中提取，从而由于使得图片内容数据库更加丰富多样，数量更多，获得效率更高，因此最终生成视频的内容也更加丰富，更加准确，视频质量也更高，更加符合和满足用户需求。

进一步地，本发明实施例中还可以由用户指定匹配的内容数据库的范围，例如，用户在需要生成视频时，还可以进行选择匹配范围，例如选择一本漫画或若干本漫画，这样，生成视频时，可以在用户选择的漫画书对应的内容数据库中进行匹配，进而匹配出的图片素材也都是在用户选择的漫画书中，也可以进一步提升视频质量，满足用户所需。

步骤230：生成包含图片素材集中各个图片素材的视频，其中，各个图片素材在视频中的出现顺序，与图片素材相匹配的分词在所述视频主题文本中出现的顺序一致。

执行步骤230时，具体包括：

首先，根据与图片素材相匹配的分词在视频主题文本中出现的顺序，对图片素材集中的各图片素材进行排序。

例如，视频主题文本为“我是一个学生”，分词结果集为“学生我一个”，其中各分词“学生”、“我”、“一个”分别对应的图片素材为图片素材1、图片素材2和图片素材3，根据分词在视频主题文本中出现的顺序，对图片素材进行排序，则排序后的图片素材为：图片素材2、图片素材3、图片素材1，进而可以得到符合用户输入视频主题文本顺序的图片素材集。

然后，根据各分词的价值分值和设定的视频时长，分别对图片素材集中各图片素材设置时间。

其中，视频时长可以是用户在提交视频生成指令时，输入或选择的，也可以是系统自带的固定时长，无需用户设置，对此本发明实施例中并不进行限制。

例如，设定的视频时长为100毫秒(ms)，排序后的图片素材为：图片素材2、图片素材3、图片素材1，根据图片素材对应的分词的价值分值，分配给各图片素材的时长从大到小为：图片素材1>图片素材2>图片素材3，例如，时长分别为50ms、26ms、24ms，进而根据图片素材的顺序和分配的时长，分别各图片素材设置时间，例如设置图片素材2的时间为0～26ms，图片素材3的时间为26～50ms，图片素材1的时间为50～100ms。

也就是说，本发明实施例中，可以为价值分值较高的分词对应的图片素材分配较长的时长，为价值分值较低的分词对应的图片素材分配较短的时长，这样，生成的视频中播放价值分值较高的分词对应的图片素材时间较长，可以更突出该价值分值较高的分词对应的图片素材，提高生成视频的准确性，更能满足用户需求。

最后，根据预设视频编码算法和各图片素材的时间，对排序后的图片素材集中各图片素材进行视频编码，生成视频。

具体地，根据各图片素材的时间和图片素材排序顺序，以及预设的视频编码参数，依次进行视频编码，生成视频。

例如，匹配的图片素材集中有3个图片素材，分别为图片素材a、图片素材b、图片素材c，时长分别为5s、4s、4s，排序后的图片素材为图片素材a、图片素材b、图片素材c，则生成一个时长为13s的视频，并且在该视频中图片素材出现顺序即分别为图片素材a、图片素材b、图片素材c，播放该视频时0～5s显示图片素材a、5～9s显示图片素材b、9～13s显示图片素材c，对于播放的效果，则根据设置的例如帧率或者分辨率等视频编码参数而定，根据不同的视频编码参数，会显示不同的播放效果。

进一步地，还可以根据预设音乐，为视频添加背景音乐。

其中，预设视频编码算法，本发明实施例中并不进行限制，例如，H.26x系列、运动图像专家组(Motion Picture Expert Group，MPEG)系列等，这样，进行视频编码后，就可以生成符合用户需求的视频，从而可以将生成的视频返回给终端的用户。

进一步地，将生成的视频发送给终端后，用户可以将视频进行分享，例如把视频分享到其它应用，例如微信、QQ等，还可以对视频进行处理，例如把视频转换成gif图，然后再将gif图分享，例如可以将gif图分享到微信当做表情包。

当然，对生成的视频还可以有其它应用，从而可以通过生成内容更加准确、更加丰富的视频，并通过分享进行传播，可以产生更多的UGC内容，例如评论、二次创作的内容等，可以丰富用户的使用，提高用户的使用体验，例如若内容数据库基于漫画数据库生成，从而可以将漫画图片生成视频，丰富漫画的消费形式，提高用户对漫画的使用和自定义需求，生成视频还可以反哺到漫画本身，提高漫画的消费和其它影响力。

采用具体应用场景进行示例性说明，以视频为鬼畜视频，图片素材数据库为漫画数据库为例。

目前，随着漫画、二次元等领域的发展，用户对这部分内容的消费方式和服务需求也越来越多样，其中，鬼畜视频也越来越受欢迎，用户对鬼畜视频的要求也越来越高，本发明实施例中可以基于漫画内容来生成鬼畜视频，不仅丰富鬼畜视频生成内容，也提高了漫画内容消费形式，具体地：

1)可以根据漫画数据库生成和更新内容数据库。

例如，从某漫画资源网站中获取某本漫画书籍资源，一本漫画书籍通常包括多个漫画图片，获得该漫画书籍的漫画图片，分别对各漫画图片进行文字识别，提取出漫画图片上的文字，并根据提取出的文字对漫画图片进行标注，将标注后的漫画图片加入到内容数据库中，不断更新内容数据库，从而可以将漫画内容生成内容数据库，作为生成视频的图片素材，进而即可以将漫画图片生成视频，也可以提升漫画的消费形式，并且由于是对漫画图片进行文字识别，并进行标注，漫画图片上的文字通常是说明和描述该漫画的，因此，标注的内容也是与漫画本身相关联的，标注的内容还包括有漫画本身的一些自由标签，这样，标注内容也更加多样，生成视频时也可以更准确生成与用户输入的视频主题文本相匹配的视频内容。

2)可以接收鬼畜视频生成指令，进而对视频主题文本进行分词，与该内容数据库匹配等操作，生成鬼畜视频。

例如，用户在浏览该漫画书籍时，若想将该漫画书籍的部分内容生成鬼畜视频，则可以输入视频主题文本，从而可以与该漫画书籍对应的标注后的漫画图片进行匹配，获得匹配的图片素材集，进而可以生成与该漫画书籍相关的鬼畜视频。

本发明实施例中，接收视频生成指令，获得用于生成视频的视频主题文本；获得视频主题文本对应的分词结果集，其中，分词结果集中至少包括一个分词，每个分词包含在视频主题文本中；在包括多个图片素材的内容数据库中，为分词结果集中的各分词分别匹配图片素材以获得图片素材集，其中，每个图片素材包括图片和图片上标注的文本信息，与分词相匹配图片素材的文本信息的语义与分词的语义相匹配；生成包含图片素材集中各个图片素材的视频，其中，各个图片素材在视频中的出现顺序，与图片素材相匹配的分词在视频主题文本中出现的顺序一致，这样，用户只需输入视频主题文本，即可以对视频主题文本进行分词拆分，并进行匹配，从而生成用户所需的视频，提高效率，节省人力和成本，并且内容数据库中包括多个图片和图片上标注的文本信息，可以通过文本信息自动进行标注，获得大量图片素材，图片素材数量更多，内容更加丰富多样，从而可以使得生成的视频质量更高，更加准确，更能满足用户的需求。

并且，本发明实施例中提供的视频生成方法，可以提供一种新的基于漫画内容的玩法，可以让用户体验到代入感更强的剧情中，提升用户的参与感，增强用户分享生成的视频的传播行为，从而可以提供一条针对内容、UGC生产以及内容社区三者联系起来的链条，例如当用户浏览漫画内容时，除了可以对漫画本身内容消费外，还可以与漫画内容产生互动，生成基于漫画内容的视频，进而可以在分享场景进行传播并产生更多的UGC内容，例如评论、二次创作的内容等。

下面采用具体的应用场景进行具体说明，基于上述实施例，本发明实施例中的视频生成方法的实现过程，可以分为以下三部分进行介绍：

第一部分：分词提取逻辑。参阅图3所示，为本发明实施例中提供的分词提取逻辑流程图，具体包括：

步骤300：对视频主题文本进行分词拆分，获得分词结果集。

步骤301：根据各分词在视频主题文本中的顺序和词性，确定各分词的价值分值，获得带有顺序的分词结果集。

值得说明的是，本发明实施例中图3所示，仅是一种可能的分词提取方法，在对分词进行匹配时，可以使用步骤300中获得分词结果集，可以使用步骤301中的带有顺序的分词结果集，按照顺序依次与内容数据库进行匹配，还可以对带有顺序的分词结果集进行筛选，只将其中价值分值高于设定阈值的分词与内容数据库进行匹配。

第二部分：图片素材匹配和视频生成逻辑，参阅图4所示，为本发明实施例中提供的图片素材匹配和视频生成逻辑流程图，具体包括：

步骤400：在包括多个图片素材的内容数据库中，为分词结果集中的各分词分别匹配图片素材以获得图片素材集。

这时，获得的图片素材集中包括各图片和各图片上标注的文本信息。

步骤401：根据与图片素材相匹配的分词在视频主题文本中出现的顺序，对图片素材集中的各图片素材进行排序。

这样，进行排序后，可以获得符合用户输入的视频主题文本顺序的图片素材集，便于后续视频生成，视频中各图片素材播放顺序可以与视频主题文本顺序符合。

步骤402：根据各分词的价值分值和设定的视频时长，分别对图片素材集中各图片素材设置时间，并根据预设视频编码算法和各图片素材的时间，对排序后的图片素材集中各图片素材进行视频编码，生成视频。

第三部分：内容数据库生成逻辑，以图片素材数据库为漫画数据为例进行说明，参阅图5所示，为本发明实施例中提供的内容数据库生成逻辑流程图，具体包括：

步骤500：按照预设周期，定时触发更新逻辑。

步骤501：获取漫画数据库中最新的图片素材，并对最新的图片素材进行文字识别。

步骤502：根据文字识别结果，对图片素材进行标注。

步骤503：根据最新的图片素材和对应的标注信息，更新内容数据库。

即将图片素材，以及图片素材上的标注信息，都保存到内容数据库中，不断更新内容数据库。

步骤504：对视频主题文本进行分词拆分，获得对应的分词结果集。

步骤505：在包括多个图片素材的内容数据库中，为分词分别进行匹配。

步骤506：根据匹配结果，获得匹配的图片素材集。

步骤507：生成包含图片素材集中各个图片素材的视频。

值得说明的是，上述步骤500-步骤503为内容数据库生成和更新方法，可以不断获得更多标注的漫画图片素材，步骤504-步骤507简单介绍了下基于内容数据库生成视频的流程，可以将用户输入的视频主题文本进行分词拆分，在内容数据库中进行匹配，得到匹配的图片素材集，进而进行视频编码等处理，生成符合用户需求的视频。

基于上述实施例，参阅图6所示，为本发明实施例中终端侧的视频生成方法流程图，该方法包括：

步骤600：向服务器发送视频生成指令；

步骤610：接收服务器返回的生成的视频，其中，视频是服务器通过执行以下步骤生成的：接收视频生成指令，获得用于生成视频的视频主题文本；获得视频主题文本对应的分词结果集，其中，分词结果集中至少包括一个分词，每个分词包含在视频主题文本中；在包括多个图片素材的内容数据库中，为分词结果集中的各分词分别匹配图片素材以获得图片素材集，其中，每个图片素材包括图片和图片上标注的文本信息，与分词相匹配图片素材的文本信息的语义与分词的语义相匹配；生成包含图片素材集中各个图片素材的视频，其中，各个图片素材在视频中的出现顺序，与图片素材相匹配的分词在所述视频主题文本中出现的顺序一致。

也就是说，本发明实施例中，用户可以基于终端向服务器发送视频生成指令，并接收服务器返回的视频，在终端向用户展示生成的视频，例如，参阅图7a所示，为本发明实施例中用户在终端发送视频生成指令的界面实现效果示意图，终端上可以安装有生成视频的相关APP，可以在终端的生成视频相关界面中设置一个输入框，并设置一个提交生成视频的按钮控件，用户打开进入该APP后，可以在该输入框中输入视频主题文本，输入完成后，点击该提交生成视频的按钮控件，即向服务器发送了视频生成指令，服务器接收到该视频生成指令时，开始生成视频。

又例如，参阅图7b所示，为本发明实施例中终端接收视频的界面实现效果示意图，终端接收到服务器返回的视频时，可以进行展示，并且还可以提供给用户播放、保存、分享等功能服务，例如，从图7b可知，可以在终端展示视频的相关界面中设置播放、保存、分享等按钮控件，例如，返回生成的视频为Aaaaa.mp4，用户可以点击播放按钮控件，播放该视频，也可以点击保存按钮控件，保存该视频，也可以点击分享按钮控件，将该视频分享到其它应用。

当然，上述实施例中的界面实现效果图也仅是一种可能的实现效果，还可以为其它控件实现，也可以包括更多不同控件等，对此并不进行限制。

基于上述实施例，参阅图8所示，为本发明实施例中视频生成方法交互时序图，该方法包括：

步骤800：终端向服务器发送视频生成指令。

步骤801：服务器接收终端发送的视频生成指令。

步骤802：服务器根据视频生成指令，生成视频。

步骤803：服务器将生成的视频返回给终端。

步骤804：终端接收服务器返回的生成的视频。

基于上述实施例，参阅图9所示，本发明实施例中，服务器侧的视频生成装置，该装置通过硬件或者软硬件的结合实现成为服务器的全部或者一部分，具体包括：

第一获取模块90，用于接收视频生成指令，获得用于生成视频的视频主题文本；

第二获取模块91，用于获得所述视频主题文本对应的分词结果集，其中，所述分词结果集中至少包括一个分词，每个分词包含在所述视频主题文本中；

匹配模块92，用于在包括多个图片素材的内容数据库中，为分词结果集中的各分词分别匹配图片素材以获得图片素材集，其中，每个图片素材包括图片和图片上标注的文本信息，与分词相匹配图片素材的文本信息的语义与分词的语义相匹配；

生成模块93，用于生成包含图片素材集中各个图片素材的视频，其中，各个图片素材在所述视频中的出现顺序，与图片素材相匹配的分词在所述视频主题文本中出现的顺序一致。

可选的，获得所述视频主题文本对应的分词结果集时，所述第二获取模块91具体用于：

对所述视频主题文本进行分词拆分，获得至少一个分词；

将获得的分词组合成所述分词结果集。

对所述视频主题文本进行分词拆分，获得至少一个分词；

将价值分值高于设定阈值的分词组合成所述分词结果集。

可选的，所述生成包含图片素材集中各个图片素材的视频时，所述生成模块93具体用于：

可选的，进一步包括：

第三获取模块94，用于按照预设周期，获取预设的图片素材数据库中最新的图片素材；

标注模块95，用于对所述最新的图片素材进行文字识别，根据文字识别结果，对所述图片素材进行标注；

更新模块96，用于根据所述最新的图片素材和对应的标注信息，更新所述内容数据库。

基于上述实施例，参阅图10所示，本发明实施例中，还提供了另一种终端侧的视频生成装置，该装置通过硬件或者软硬件的结合实现成为终端的全部或者一部分，具体包括：

发送模块1000，用于向服务器发送视频生成指令；

接收模块1010，用于接收服务器返回的生成的视频，其中，所述视频是服务器通过执行以下步骤生成的：接收视频生成指令，获得用于生成视频的视频主题文本；获得所述视频主题文本对应的分词结果集，其中，所述分词结果集中至少包括一个分词，每个分词包含在所述视频主题文本中；在包括多个图片素材的内容数据库中，为分词结果集中的各分词分别匹配图片素材以获得图片素材集，其中，每个图片素材包括图片和图片上标注的文本信息，与分词相匹配图片素材的文本信息的语义与分词的语义相匹配；生成包含图片素材集中各个图片素材的视频，其中，各个图片素材在所述视频中的出现顺序，与图片素材相匹配的分词在所述视频主题文本中出现的顺序一致。

基于上述实施例，参阅图11所示，本发明实施例中，一种服务器的结构示意图。

本发明实施例提供了一种服务器，该服务器可以包括处理器1110(CenterProcessing Unit，CPU)、存储器1120、输入设备1130和输出设备1140等，输入设备1130可以包括键盘、鼠标、触摸屏等，输出设备1140可以包括显示设备，如液晶显示器(LiquidCrystal Display，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器1120可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器1110提供存储器1120中存储的程序指令和数据。在本发明实施例中，存储器1120可以用于存储本发明实施例中视频生成方法的程序。

处理器1110通过调用存储器1120存储的程序指令，处理器1110用于按照获得的程序指令执行：

接收视频生成指令，获得用于生成视频的视频主题文本；

可选的，获得所述视频主题文本对应的分词结果集时，处理器1110具体用于：

对所述视频主题文本进行分词拆分，获得至少一个分词；

将获得的分词组合成所述分词结果集。

对所述视频主题文本进行分词拆分，获得至少一个分词；

将价值分值高于设定阈值的分词组合成所述分词结果集。

可选的，所述生成包含图片素材集中各个图片素材的视频时，处理器1110具体用于：

可选的，处理器1110进一步用于：

为便于说明，本发明中的实施例以包括触摸屏的便携式多功能装置1200作示例性说明，本领域技术人员可以理解的，本发明中的实施例同样适用于其他装置，例如手持设备、车载设备、可穿戴设备、计算设备，以及各种形式的用户设备(User Equipment，UE)，移动台(Mobile station，MS)，终端(terminal)，终端设备(Terminal Equipment)等等。

图12示出了根据一些实施例的包括触摸屏的便携式多功能装置1200的框图，所述装置1200可以包括输入单元1230、显示单元1240、重力加速度传感器1251、接近光传感器1252、环境光传感器1253、存储器1220、处理器1290、射频单元1210、音频电路1260、扬声器1261、麦克风1262、WiFi(wireless fidelity，无线保真)模块1270、蓝牙模块1280、电源1293、外部接口1297等部件。

本领域技术人员可以理解，图12仅仅是便携式多功能装置的举例，并不构成对便携式多功能装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

所述输入单元1230可用于接收输入的数字或字符信息，以及产生与所述便携式多功能装置的用户设置以及功能控制有关的键信号输入。具体地，输入单元1230可包括触摸屏1231以及其他输入设备1232。所述触摸屏1231可收集用户在其上或附近的触摸操作(比如用户使用手指、关节、触笔等任何适合的物体在触摸屏上或在触摸屏附近的操作)，并根据预先设定的程序驱动相应的连接装置。触摸屏可以检测用户对触摸屏的触摸动作，将所述触摸动作转换为触摸信号发送给所述处理器1290，并能接收所述处理器1290发来的命令并加以执行；所述触摸信号至少包括触点坐标信息。所述触摸屏1231可以提供所述装置1200和用户之间的输入界面和输出界面。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触摸屏。除了触摸屏1231，输入单元1230还可以包括其他输入设备。具体地，其他输入设备1232可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

所述显示单元1240可用于显示由用户输入的信息或提供给用户的信息以及装置1200的各种菜单。进一步的，触摸屏1231可覆盖显示面板，当触摸屏1231检测到在其上或附近的触摸操作后，传送给处理器1290以确定触摸事件的类型，随后处理器1290根据触摸事件的类型在显示面板上提供相应的视觉输出。在本实施例中，触摸屏与显示单元可以集成为一个部件而实现装置1200的输入、输出、显示功能；为便于描述，本发明实施例以触摸屏代表触摸屏和显示单元的功能集合；在某些实施例中，触摸屏与显示单元也可以作为两个独立的部件。

所述重力加速度传感器1251可检测各个方向上(一般为三轴)加速度的大小，同时，所述重力加速度传感器1251还可用于检测终端静止时重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等。

装置1200还可以包括一个或多个接近光传感器1252，用于当所述装置1200距用户较近时(例如当用户正在打电话时靠近耳朵)关闭并禁用触摸屏以避免用户对触摸屏的误操作；装置1200还可以包括一个或多个环境光传感器1253，用于当装置1200位于用户口袋里或其他黑暗区域时保持触摸屏关闭，以防止装置1200在锁定状态时消耗不必要的电池功耗或被误操作，在一些实施例中，接近光传感器和环境光传感器可以集成在一颗部件中，也可以作为两个独立的部件。至于装置1200还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。虽然图12示出了接近光传感器和环境光传感器，但是可以理解的是，其并不属于装置1200的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

所述存储器1220可用于存储指令和数据，存储器1220可主要包括存储指令区和存储数据区，存储数据区可存储关节触摸手势与应用程序功能的关联关系；存储指令区可存储操作系统、至少一个功能所需的指令等；所述指令可使处理器1290执行本发明实施例中的视频生成方法。

处理器1290是装置1200的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1220内的指令以及调用存储在存储器1220内的数据，执行装置1200的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1290可包括一个或多个处理单元；优选的，处理器1290可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1290中。在一些实施例中，处理器、存储器、可以在单一芯片上实现，在一些实施例中，他们也可以在独立的芯片上分别实现。在本发明实施例中，处理器1290还用于调用存储器中的指令以实现本发明实施例中的视频生成方法。

所述射频单元1210可用于收发信息或通话过程中信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1290处理；另外，将设计上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，射频单元1210还可以通过无线通信与网络设备和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，GSM)、通用分组无线服务(General PacketRadio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

音频电路1260、扬声器1261、麦克风1262可提供用户与装置1200之间的音频接口。音频电路1260可将接收到的音频数据转换后的电信号，传输到扬声器1261，由扬声器1261转换为声音信号输出；另一方面，麦克风1262将收集的声音信号转换为电信号，由音频电路1260接收后转换为音频数据，再将音频数据输出处理器1290处理后，经射频单元1210以发送给比如另一终端，或者将音频数据输出至存储器1220以便进一步处理，音频电路也可以包括耳机插孔1263，用于提供音频电路和耳机之间的连接接口。

WiFi属于短距离无线传输技术，装置1200通过WiFi模块1270可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图12示出了WiFi模块1270，但是可以理解的是，其并不属于装置1200的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

蓝牙是一种短距离无线通讯技术。利用蓝牙技术，能够有效地简化掌上电脑、笔记本电脑和手机等移动通信终端设备之间的通信，也能够成功地简化以上这些设备与因特网(Internet)之间的通信，装置1200通过蓝牙模块1280使装置1200与因特网之间的数据传输变得更加迅速高效，为无线通信拓宽道路。蓝牙技术是能够实现语音和数据无线传输的开放性方案。虽然图12示出了WiFi模块1270，但是可以理解的是，其并不属于装置1200的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

装置1200还包括给各个部件供电的电源1293(比如电池)，优选的，电源可以通过电源管理系统1294与处理器1290逻辑相连，从而通过电源管理系统1294实现管理充电、放电、以及功耗管理等功能。

装置1200还包括外部接口1297，所述外部接口可以是标准的Micro USB接口，也可以使多针连接器，可以用于连接装置1200与其他装置进行通信，也可以用于连接充电器为装置1200充电。

尽管未示出，装置1200还可以包括摄像头、闪光灯等，在此不再赘述。

基于上述实施例，本发明实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的视频生成方法。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种视频生成方法，其特征在于，包括：

接收视频生成指令，获得用于生成视频的视频主题文本；

在包括多个图片素材的内容数据库中，为分词结果集中的各分词分别匹配图片素材以获得图片素材集，其中，每个图片素材包括图片和图片上标注的文本信息，与分词相匹配图片素材的文本信息的语义与分词的语义相匹配；所述内容数据库的范围由用户指定；

2.如权利要求1所述的方法，其特征在于，获得所述视频主题文本对应的分词结果集，具体包括：

对所述视频主题文本进行分词拆分，获得至少一个分词；

将获得的分词组合成所述分词结果集。

3.如权利要求1所述的方法，其特征在于，获得所述视频主题文本对应的分词结果集，具体包括：

对所述视频主题文本进行分词拆分，获得至少一个分词；

将价值分值高于设定阈值的分词组合成所述分词结果集。

4.如权利要求3所述的方法，其特征在于，所述生成包含图片素材集中各个图片素材的视频，具体包括：

5.如权利要求1-4任一项所述的方法，其特征在于，进一步包括：

6.一种视频生成方法，其特征在于，包括：

向服务器发送视频生成指令；

接收服务器返回的生成的视频，其中，所述视频是服务器通过执行以下步骤生成的：接收视频生成指令，获得用于生成视频的视频主题文本；获得所述视频主题文本对应的分词结果集，其中，所述分词结果集中至少包括一个分词，每个分词包含在所述视频主题文本中；在包括多个图片素材的内容数据库中，为分词结果集中的各分词分别匹配图片素材以获得图片素材集，其中，每个图片素材包括图片和图片上标注的文本信息，与分词相匹配图片素材的文本信息的语义与分词的语义相匹配；所述内容数据库的范围由用户指定；生成包含图片素材集中各个图片素材的视频，其中，各个图片素材在所述视频中的出现顺序，与图片素材相匹配的分词在所述视频主题文本中出现的顺序一致。

7.一种视频生成装置，其特征在于，包括：

匹配模块，用于在包括多个图片素材的内容数据库中，为分词结果集中的各分词分别匹配图片素材以获得图片素材集，其中，每个图片素材包括图片和图片上标注的文本信息，与分词相匹配图片素材的文本信息的语义与分词的语义相匹配；所述内容数据库的范围由用户指定；

8.如权利要求7所述的装置，其特征在于，获得所述视频主题文本对应的分词结果集时，所述第二获取模块具体用于：

对所述视频主题文本进行分词拆分，获得至少一个分词；

将获得的分词组合成所述分词结果集。

9.如权利要求7所述的装置，其特征在于，获得所述视频主题文本对应的分词结果集时，所述第二获取模块具体用于：

对所述视频主题文本进行分词拆分，获得至少一个分词；

将价值分值高于设定阈值的分词组合成所述分词结果集。

10.如权利要求9所述的装置，其特征在于，所述生成包含图片素材集中各个图片素材的视频时，所述生成模块具体用于：

11.如权利要求7-10任一项所述的装置，其特征在于，进一步包括：

12.一种视频生成装置，其特征在于，包括：

发送模块，用于向服务器发送视频生成指令；

接收模块，用于接收服务器返回的生成的视频，其中，所述视频是服务器通过执行以下步骤生成的：接收视频生成指令，获得用于生成视频的视频主题文本；获得所述视频主题文本对应的分词结果集，其中，所述分词结果集中至少包括一个分词，每个分词包含在所述视频主题文本中；在包括多个图片素材的内容数据库中，为分词结果集中的各分词分别匹配图片素材以获得图片素材集，其中，每个图片素材包括图片和图片上标注的文本信息，与分词相匹配图片素材的文本信息的语义与分词的语义相匹配；所述内容数据库的范围由用户指定；生成包含图片素材集中各个图片素材的视频，其中，各个图片素材在所述视频中的出现顺序，与图片素材相匹配的分词在所述视频主题文本中出现的顺序一致。

13.一种服务器，其特征在于，包括：

至少一个存储器，用于存储程序指令；

至少一个处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行上述权利要求1-5任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-5中任意一项所述方法的步骤。