CN107943839A

CN107943839A - 基于图片和文字生成视频的方法、装置、设备及存储介质

Info

Publication number: CN107943839A
Application number: CN201711037005.1A
Authority: CN
Inventors: 孟子扬; 姚后清; 施鹏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-10-30
Filing date: 2017-10-30
Publication date: 2018-04-20

Abstract

本发明公开了基于图片和文字生成视频的方法、装置、设备及存储介质，其中方法包括：获取同时包含图片和对应的文字的图文单元；分别从图文单元中提取出文字和图片；根据文字生成音频及字幕；从互联网中挖掘文字的相关图片；根据相关图片、提取出的图片、音频及字幕生成视频。本发明所述方案实现了基于图片和文字快速高效地生成视频，提升了信息展示效果。

Description

基于图片和文字生成视频的方法、装置、设备及存储介质

【技术领域】

本发明涉及计算机应用技术，特别涉及基于图片和文字生成视频的方法、装置、设备及存储介质。

【背景技术】

随着技术的发展，视频尤其是短视频越来越流行，相比于传统的图文类形式，视频更加高效、生动，更符合用户的碎片化需求。

为此，提出了基于图片和文字自动生成视频的需求，但针对这一需求，现有技术中还没有一种有效的解决方式。

【发明内容】

有鉴于此，本发明提供了基于图片和文字生成视频的方法、装置、设备及存储介质。

具体技术方案如下：

一种基于图片和文字生成视频的方法，包括：

获取同时包含图片和对应的文字的图文单元；

分别从所述图文单元中提取出文字和图片；

根据所述文字生成音频及字幕；

从互联网中挖掘所述文字的相关图片；

根据所述相关图片、所述提取出的图片、所述音频及所述字幕生成视频。

根据本发明一优选实施例，所述根据所述文字生成音频及字幕包括：

从所述文字中提取出主题标签；

根据所述主题标签从所述文字中提取出核心内容；

生成所述核心内容对应的音频及字幕。

根据本发明一优选实施例，所述从所述文字中提取出主题标签包括：

从所述文字中提取出关键词；

过滤掉对于主题无意义的关键词，将剩余的关键词作为所述主题标签。

根据本发明一优选实施例，所述根据所述主题标签从所述文字中提取出核心内容包括：

从所述文字中提取出包含所述主题标签的内容，将提取出的内容作为所述核心内容。

根据本发明一优选实施例，所述从互联网中挖掘所述文字的相关图片包括以下之一或全部：

以所述主题标签作为关键词进行图片搜索，将搜索到的图片作为所述相关图片；

根据提取出的图片进行图片搜索，将搜索到的图片作为所述相关图片。

根据本发明一优选实施例，所述根据所述相关图片、所述提取出的图片、所述音频及所述字幕生成视频之前，进一步包括以下之一或全部：

过滤掉与所述核心内容的相关性低于预定阈值的图片；

过滤掉包含预定内容的图片。

根据本发明一优选实施例，所述预定内容包括：模糊区域、色情内容、水印。

一种基于图片和文字生成视频的装置，包括：获取单元、提取单元、第一生成单元、挖掘单元以及第二生成单元；

所述获取单元，用于获取同时包含图片和对应的文字的图文单元；

所述提取单元，用于分别从所述图文单元中提取出文字和图片；

所述第一生成单元，用于根据所述文字生成音频及字幕；

所述挖掘单元，用于从互联网中挖掘所述文字的相关图片；

所述第二生成单元，用于根据所述相关图片、所述提取出的图片、所述音频及所述字幕生成视频。

根据本发明一优选实施例，所述第一生成单元从所述文字中提取出主题标签，根据所述主题标签从所述文字中提取出核心内容，生成所述核心内容对应的音频及字幕。

根据本发明一优选实施例，所述第一生成单元从所述文字中提取出关键词，并过滤掉对于主题无意义的关键词，将剩余的关键词作为所述主题标签。

根据本发明一优选实施例，所述第一生成单元从所述文字中提取出包含所述主题标签的内容，将提取出的内容作为所述核心内容。

根据本发明一优选实施例，所述挖掘单元按照以下方式之一或全部从互联网中挖掘所述文字的相关图片：

根据本发明一优选实施例，所述挖掘单元进一步用于，针对所述相关图片以及所述提取出的图片，执行以下操作之一或全部：

过滤掉与所述核心内容的相关性低于预定阈值的图片；

过滤掉包含预定内容的图片。

一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如以上所述的方法。

基于上述介绍可以看出，采用本发明所述方案，可获取同时包含图片和对应的文字的图文单元，并分别从图文单元中提取出文字和图片，进而可根据提取出的文字生成音频及字幕，另外，还可从互联网中挖掘出文字的相关图片，进而根据挖掘出的相关图片、提取出的图片、音频及字幕生成视频，从而实现了基于图片和文字快速高效地生成视频，提升了信息展示效果等。

【附图说明】

图1为本发明所述基于图片和文字生成视频的方法第一实施例的流程图。

图2为对“国庆旅游的攻略”的文章进行拆解后得到的第一步对应的图文单元的示意图。

图3为对“国庆旅游的攻略”的文章进行拆解后得到的第二步对应的图文单元的示意图。

图4为从图2所示图文单元中提取出的文字的示意图。

图5为本发明所述根据提取出的文字生成音频及字幕的方法实施例的流程图。

图6为从图4所示文字中提取出的核心内容的示意图。

图7为图6所示核心内容对应的字幕的示意图。

图8为本发明所述搜索出的相关图片的示意图。

图9为本发明所述基于图片和文字生成视频的方法第二实施例的流程图。

图10为本发明所述基于图片和文字生成视频的装置实施例的组成结构示意图。

图11示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。

【具体实施方式】

为了使本发明的技术方案更加清楚、明白，以下参照附图并举实施例，对本发明所述方案进行进一步说明。

显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明所述基于图片和文字生成视频的方法第一实施例的流程图。如图1所示，包括以下具体实现方式。

在101中，获取同时包含图片和对应的文字的图文单元。

目前，互联网中存在着大量的图文类内容，如经验步骤类文章、图集新闻等。

比如，百度经验中一篇关于“国庆旅游的攻略”的文章，该文章为分步骤、图文并茂类文章，其中，第一步(1/5)为关于“广西龙脊”的介绍，包括图片和对应的文字，第二步(2/5)为关于“香格里拉巴拉格宗”的介绍，包括图片和对应的文字，其它各步(3/5、4/5、5/5)也分别为关于不同旅游景点的介绍，均包括图片和对应的文字。

上述每个步骤均可称为一个图文单元，也就是说，图文单元中包含图片和对应的文字。

可通过对上述文章进行拆解，得到各图文单元，如图2～3所示，图2为对“国庆旅游的攻略”的文章进行拆解后得到的第一步对应的图文单元的示意图，图3为对“国庆旅游的攻略”的文章进行拆解后得到的第二步对应的图文单元的示意图。

在102中，分别从图文单元中提取出文字和图片。

针对获取到的每个图文单元，可分别提取出其中的文字和图片。

可按照现有技术，通过对图文单元进行页面分析以及对超文本标记语言(HTML，HyperText Markup Language)进行解析等，从图文单元中分别提取出文字和图片。

如图4所示，图4为从图2所示图文单元中提取出的文字的示意图，从图2所示图文单元中提取出的图片即为图2中所示的三幅图片。

在103中，根据提取出的文字生成音频及字幕。

在从图文单元中提取出文字之后，可进一步根据提取出的文字生成音频及字幕。

图5为本发明所述根据提取出的文字生成音频及字幕的方法实施例的流程图。如图5所示，包括以下具体实现方式。

在501中，从文字中提取出主题标签。

可首先从文字中提取出关键词，之后可过滤掉对于主题无意义的关键词，将剩余的关键词作为主题标签。

可使用自然语言处理(NLP，Natural Language Processing)技术中的语义分析技术，如调用NLP的新版中文专名识别(nlpc_nerl_plus)的服务提取文字中的关键词。

以图4所示文字为例，调用nlpc_nerl_plus服务之后提取出的关键词包括：广西、每年、龙脊梯田、六合、蜿蜒。

之后，可通过调用postag服务并计算标签的词频-逆文件频率(TF-IDF，TermFrequency-Inverse Document Frequency)等，对提取出的关键词中对于主题无意义的关键词进行过滤，如过滤掉关键词“每年”、“六合”以及“蜿蜒”，从而得到作为主题标签的关键词“广西”和“龙脊梯田”。

在502中，根据主题标签从文字中提取出核心内容。

获取到主题标签之后，可根据主题标签从文字中提取出核心内容，即内容概要。

比如，可从文字中提取出包含主题标签的内容，将提取出的内容作为核心内容。图6为从图4所示文字中提取出的核心内容的示意图，如图6所示，相比于原来的文字，提取出的核心内容更为精简。

在503中，生成核心内容对应的音频及字幕。

在获取到核心内容之后，可分别生成核心内容对应的音频及字幕。

如可调用百度人工智能(AI，Artificial Intelligence)开放平台的语音合成技术，对核心内容进行语音合成，从而得到对应的音频，即将文本转换成富有感情色彩的类似真人语音音轨。

另外，还可生成核心内容对应的字幕，剔除标点等字符，如图7所示，图7为图6所示核心内容对应的字幕的示意图。

在104中，从互联网中挖掘文字的相关图片。

对于图6所示核心内容来说，对应的图片仅有三幅，数量很少，不足以构成一段视频，为此，还需要扩展出更多的图片，即从互联网中挖掘文字的相关图片。

比如，可用提取出的主题标签作为关键词进行图片搜索，将搜索到的图片作为挖掘出的相关图片。

若主题标签为“广西”、“龙脊梯田”，那么可利用百度图片搜索技术，将“广西”、“龙脊梯田”作为输入的关键词进行图片搜索，从而挖掘出互联网中无版权的相关图片，如图8所示，图8为本发明所述搜索出的相关图片的示意图。

或者，还可以根据提取出的图片进行图片搜索，将搜索到的图片作为挖掘出的相关图片。即利用百度图片搜索技术，将提取出的图片作为输入，搜索相关图片。

这样，对应于“广西”、“龙脊梯田”，获取到了多张图片，包括搜索到的相关图片以及从图文单元中提取出的图片。

这些图片中，很可能包含一些低质量的图片，需要过滤掉，为此，还可进一步执行以下操作之一或全部。

1)过滤掉与核心内容的相关性低于预定阈值的图片。

可预先挖掘互联网中的图片资源以及图片文字描述等，构建深度学习模型，即图文相关性模型，这样，针对待过滤的每张图片，可分别利用图文相关性模型评估出该图片与核心内容的相关性，并将评估出的相关性与预定阈值进行比较，若评估出的相关性低于预定阈值，则可过滤掉该图片，否则，可保留该图片，所述预定阈值的具体取值可根据实际需要而定。

2)过滤掉包含预定内容的图片。

可通过百度AI开放平台的图像审核技术，过滤掉包含预定内容的图片，比如，包含模糊区域的图片、包含色情内容的图片、包含水印的图片等。

在105中，根据相关图片、提取出的图片、音频及字幕生成视频。

可根据配置，动态计算字幕展现时长、音频切换时长、字幕字体、图片展示风格和背景音乐等自适应参数，进而调用百度AI以及FFMPEG视频编辑软件开发工具包(SDK，Software Development Kit)，将图片、音频以及字幕等进行融合，完成视频的生成等。

以之前提到的“国庆旅游的攻略”的文章为例，若从中拆解出了多个图文单元，那么可针对每个图文单元，分别按照上述102～104所示方式进行处理，从而分别得到每个图文单元对应的音频、字幕、图片等，进而可生成一个包含各个图文单元的内容的视频，比如，视频中可包括5段内容，其中第一段内容对应于第一图文单元，第二段内容对应于第二图文单元，依次类推，或者，也可以每个图文单元分别对应一个视频，具体实现方式不限。

基于上述介绍，图9为本发明所述基于图片和文字生成视频的方法第二实施例的流程图。如图9所示，包括以下具体实现方式。

在901中，获取同时包含图片和对应的文字的图文单元。

在902中，分别从图文单元中提取出文字和图片。

可通过对图文单元进行页面分析以及对HTML进行解析等，从图文单元中分别提取出文字和图片。

在903中，从文字中提取出主题标签。

如可首先从文字中提取出关键词，之后过滤掉对于主题无意义的关键词，将剩余的关键词作为主题标签。

在904中，根据主题标签从文字中提取出核心内容。

如可从文字中提取出包含主题标签的内容，将提取出的内容作为核心内容。

在905中，生成核心内容对应的音频及字幕。

可通过语音合成技术，对核心内容进行语音合成，从而得到对应的音频，并生成核心内容对应的字幕，剔除标点等字符。

在906中，以主题标签作为关键词进行图片搜索，将搜索到的图片作为挖掘出的相关图片。

通过挖掘，获取到了更多与提取出的文字相关的图片。

在907中，从搜索到的图片以及提取出的图片中过滤掉与核心内容的相关性低于预定阈值的图片以及包含预定内容的图片。

可过滤掉与核心内容的相关性低于预定阈值的图片，并过滤掉包含模糊区域的图片、包含色情内容的图片以及包含水印的图片等。

在908中，根据过滤后的图片、音频及字幕生成视频。

如果过滤后的图片的数量过多，那么可按照预定策略剔除其中的部分图片，所述预定策略具体为何种策略可根据实际需要而定，比如，可随机地剔除其中的部分图片，另外，各图片在视频中的展示顺序等也可根据实际需要而定。

可根据配置，动态计算字幕展现时长、音频切换时长、字幕字体、图片展示风格和背景音乐等自适应参数，进而将图片、音频以及字幕等进行融合，最终完成视频的生成等。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

总之，采用上述各方法实施例所述方案，可获取同时包含图片和对应的文字的图文单元，并分别从图文单元中提取出文字和图片，进而可根据提取出的文字生成音频及字幕，另外，还可从互联网中挖掘出文字的相关图片，进而根据挖掘出的相关图片、提取出的图片、音频及字幕生成视频，从而实现了基于图片和文字快速高效地生成视频，提升了信息展示效果等。

以上是关于方法实施例的介绍，以下通过装置实施例，对本发明所述方案进行进一步说明。

图10为本发明所述基于图片和文字生成视频的装置实施例的组成结构示意图。如图10所示，包括：获取单元1001、提取单元1002、第一生成单元1003、挖掘单元1004以及第二生成单元1005。

获取单元1001，用于获取同时包含图片和对应的文字的图文单元。

提取单元1002，用于分别从图文单元中提取出文字和图片。

第一生成单元1003，用于根据文字生成音频及字幕。

挖掘单元1004，用于从互联网中挖掘文字的相关图片。

第二生成单元1005，用于根据相关图片、提取出的图片、音频及字幕生成视频。

目前，互联网中存在着大量的图文类内容，如经验步骤类文章、图集新闻等。获取单元1001可从图文类内容中提取出图文单元，图文单元中同时包含图片和对应的文字。

提取单元1002可从图文单元中分别提取出文字和图片，之后，第一生成单元1003可根据文字生成音频及字幕，挖掘单元1004可从互联网中挖掘出文字的相关图片。

具体地，第一生成单元1003可从文字中提取出主题标签，根据主题标签从文字中提取出核心内容，进而生成核心内容对应的音频及字幕。

其中，第一生成单元1003可首先从文字中提取出关键词，之后过滤掉对于主题无意义的关键词，将剩余的关键词作为主题标签，进而可从文字中提取出包含主题标签的内容，将提取出的内容作为核心内容。

挖掘单元1004可以上述主题标签作为关键词进行图片搜索，将搜索到的图片作为相关图片，另外，还可根据提取出的图片进行图片搜索，将搜索到的图片作为相关图片。

之后，挖掘单元1004还可针对搜索到的相关图片以及提取出的图片，执行以下操作之一或全部：

过滤掉与核心内容的相关性低于预定阈值的图片；

过滤掉包含预定内容的图片。

针对待过滤的每张图片，可分别利用图文相关性模型评估出该图片与核心内容的相关性，并将评估出的相关性与预定阈值进行比较，若评估出的相关性低于预定阈值，则可过滤掉该图片。

另外，可过滤掉包含预定内容的图片，比如，包含模糊区域的图片、包含色情内容的图片、包含水印的图片等。

之后，第二生成单元1005可根据过滤后的图片、音频及字幕生成视频。

图10所示装置实施例的具体工作流程请参照前述各方法实施例中的相关说明，不再赘述。

图11示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图11显示的计算机系统/服务器12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于：一个或者多个处理器(处理单元)16，存储器28，连接不同系统组件(包括存储器28和处理器16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图11未显示，通常称为“硬盘驱动器”)。尽管图11中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图11所示，网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机系统/服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器16通过运行存储在存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现图1或9所示实施例中的方法，即获取同时包含图片和对应的文字的图文单元，分别从图文单元中提取出文字和图片，根据文字生成音频及字幕，从互联网中挖掘文字的相关图片，根据相关图片、提取出的图片、音频及字幕生成视频等。

具体实现请参照前述各实施例中的相关说明，不再赘述。

本发明同时公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时将实现如图1或9所示实施例中的方法。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法等，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于图片和文字生成视频的方法，其特征在于，包括：

获取同时包含图片和对应的文字的图文单元；

分别从所述图文单元中提取出文字和图片；

根据所述文字生成音频及字幕；

从互联网中挖掘所述文字的相关图片；

2.根据权利要求1所述的方法，其特征在于，

所述根据所述文字生成音频及字幕包括：

从所述文字中提取出主题标签；

根据所述主题标签从所述文字中提取出核心内容；

生成所述核心内容对应的音频及字幕。

3.根据权利要求2所述的方法，其特征在于，

所述从所述文字中提取出主题标签包括：

从所述文字中提取出关键词；

4.根据权利要求2所述的方法，其特征在于，

所述根据所述主题标签从所述文字中提取出核心内容包括：

5.根据权利要求2所述的方法，其特征在于，

所述从互联网中挖掘所述文字的相关图片包括以下之一或全部：

6.根据权利要求2所述的方法，其特征在于，

所述根据所述相关图片、所述提取出的图片、所述音频及所述字幕生成视频之前，进一步包括以下之一或全部：

过滤掉与所述核心内容的相关性低于预定阈值的图片；

过滤掉包含预定内容的图片。

7.根据权利要求6所述的方法，其特征在于，

所述预定内容包括：模糊区域、色情内容、水印。

8.一种基于图片和文字生成视频的装置，其特征在于，包括：获取单元、提取单元、第一生成单元、挖掘单元以及第二生成单元；

所述第一生成单元，用于根据所述文字生成音频及字幕；

所述挖掘单元，用于从互联网中挖掘所述文字的相关图片；

9.根据权利要求8所述的装置，其特征在于，

所述第一生成单元从所述文字中提取出主题标签，根据所述主题标签从所述文字中提取出核心内容，生成所述核心内容对应的音频及字幕。

10.根据权利要求9所述的装置，其特征在于，

所述第一生成单元从所述文字中提取出关键词，并过滤掉对于主题无意义的关键词，将剩余的关键词作为所述主题标签。

11.根据权利要求9所述的装置，其特征在于，

所述第一生成单元从所述文字中提取出包含所述主题标签的内容，将提取出的内容作为所述核心内容。

12.根据权利要求9所述的装置，其特征在于，

所述挖掘单元按照以下方式之一或全部从互联网中挖掘所述文字的相关图片：

13.根据权利要求9所述的装置，其特征在于，

所述挖掘单元进一步用于，针对所述相关图片以及所述提取出的图片，执行以下操作之一或全部：

过滤掉与所述核心内容的相关性低于预定阈值的图片；

过滤掉包含预定内容的图片。

14.根据权利要求13所述的装置，其特征在于，

所述预定内容包括：模糊区域、色情内容、水印。

15.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～7中任一项所述的方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1～7中任一项所述的方法。