CN107832382A

CN107832382A - 基于文字生成视频的方法、装置、设备及存储介质

Info

Publication number: CN107832382A
Application number: CN201711037003.2A
Authority: CN
Inventors: 施鹏; 孟子扬; 姚后清
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-10-30
Filing date: 2017-10-30
Publication date: 2018-03-23

Abstract

本发明公开了基于文字生成视频的方法、装置、设备及存储介质，其中方法包括：获取待处理的纯文字类的文本；根据文本生成音频及字幕；从互联网中挖掘文本的相关图片；根据相关图片、音频及字幕生成视频。本发明所述方案实现了基于文字快速高效地生成视频，提升了信息展示效果。

Description

基于文字生成视频的方法、装置、设备及存储介质

【技术领域】

本发明涉及计算机应用技术，特别涉及基于文字生成视频的方法、装置、设备及存储介质。

【背景技术】

随着技术的发展，视频尤其是短视频越来越流行，相比于纯文字类的文本，视频更加高效、生动，更符合用户的碎片化需求。

为此，提出了基于纯文字类的文本自动生成视频的需求，但针对这一需求，现有技术中还没有一种有效的解决方式。

【发明内容】

有鉴于此，本发明提供了基于文字生成视频的方法、装置、设备及存储介质。

具体技术方案如下：

一种基于文字生成视频的方法，包括：

获取待处理的纯文字类的文本；

根据所述文本生成音频及字幕；

从互联网中挖掘所述文本的相关图片；

根据所述相关图片、所述音频及所述字幕生成视频。

根据本发明一优选实施例，所述从互联网中挖掘所述文本的相关图片之前，进一步包括：

从所述文本中提取核心关键词；

所述从互联网中挖掘所述文本的相关图片包括：

以所述核心关键词作为关键词进行图片搜索，将搜索到的图片作为所述相关图片。

根据本发明一优选实施例，所述从所述文本中提取核心关键词包括：

按照以下方式之一或任意组合，对所述文本进行词的提取：

从所述文本中提取出rank值大于预定阈值的候选关键词；

从所述文本中提取出实体词；

从所述文本中提取出主题关键词；

将提取出的词进行汇总，从汇总结果中筛选出符合预定要求的词，将筛选出的词作为所述核心关键词。

根据本发明一优选实施例，所述从所述文本中提取出rank值大于预定阈值的候选关键词包括：

对所述文本进行词法分析，得到分词结果及词性；

对所述分词结果进行词性过滤，保留名词及专名；

从进行词性过滤后的分词结果中过滤掉停用词；

从进行停用词过滤后的分词结果中筛选出rank值大于预定阈值的分词结果，将筛选出的分词结果作为所述候选关键词。

根据本发明一优选实施例，所述从汇总结果中筛选出符合预定要求的词包括：

利用核心关键词词表对所述汇总结果进行过滤，保留所述汇总结果中位于所述核心关键词词表中的词，将所保留的词作为筛选出的符合预定要求的词。

根据本发明一优选实施例，所述根据所述文本生成音频及字幕包括：

根据所述核心关键词从所述文本中提取出核心内容；

生成所述核心内容对应的音频及字幕。

根据本发明一优选实施例，所述根据所述核心关键词从所述文本中提取出核心内容包括：

从所述文本中提取出包含所述核心关键词的内容，将提取出的内容作为所述核心内容。

根据本发明一优选实施例，所述根据所述相关图片、所述音频及所述字幕生成视频之前，进一步包括以下之一或全部：

过滤掉与所述文本的相关性低于预定阈值的图片；

过滤掉包含预定内容的图片。

根据本发明一优选实施例，所述预定内容包括：模糊区域、色情内容、水印。

一种基于文字生成视频的装置，包括：获取单元、第一生成单元、挖掘单元和第二生成单元；

所述获取单元，用于获取待处理的纯文字类的文本；

所述第一生成单元，用于根据所述文本生成音频及字幕；

所述挖掘单元，用于从互联网中挖掘所述文本的相关图片；

所述第二生成单元，用于根据所述相关图片、所述音频及所述字幕生成视频。

根据本发明一优选实施例，所述装置中进一步包括：提取单元；

所述提取单元，用于从所述文本中提取核心关键词；

所述挖掘单元以所述核心关键词作为关键词进行图片搜索，将搜索到的图片作为所述相关图片。

根据本发明一优选实施例，所述提取单元按照以下方式之一或任意组合，对所述文本进行词的提取：

从所述文本中提取出rank值大于预定阈值的候选关键词；

从所述文本中提取出实体词；

从所述文本中提取出主题关键词；

根据本发明一优选实施例，所述提取单元对所述文本进行词法分析，得到分词结果及词性，对所述分词结果进行词性过滤，保留名词及专名，从进行词性过滤后的分词结果中过滤掉停用词，从进行停用词过滤后的分词结果中筛选出rank值大于预定阈值的分词结果，将筛选出的分词结果作为所述候选关键词。

根据本发明一优选实施例，所述提取单元利用核心关键词词表对所述汇总结果进行过滤，保留所述汇总结果中位于所述核心关键词词表中的词，将所保留的词作为筛选出的符合预定要求的词。

根据本发明一优选实施例，所述第一生成单元根据所述核心关键词从所述文本中提取出核心内容，生成所述核心内容对应的音频及字幕。

根据本发明一优选实施例，所述第一生成单元从所述文本中提取出包含所述核心关键词的内容，将提取出的内容作为所述核心内容。

根据本发明一优选实施例，所述挖掘单元进一步用于，针对所述相关图片，执行以下操作之一或全部：

过滤掉与所述文本的相关性低于预定阈值的图片；

过滤掉包含预定内容的图片。

一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如以上所述的方法。

基于上述介绍可以看出，采用本发明所述方案，在获取到待处理的纯文字类的文本之后，可根据文本生成音频及字幕，并从互联网中挖掘出文本的相关图片，进而可根据相关图片、音频及字幕生成视频，从而实现了基于文字快速高效地生成视频，提升了信息展示效果等。

【附图说明】

图1为本发明所述基于文字生成视频的方法第一实施例的流程图。

图2为本发明所述一篇纯文字类文章的示意图。

图3为对图2所示文章进行解析后的结果示意图。

图4为本发明所述从文本中提取出候选关键词的方法实施例的流程图。

图5为本发明所述从文本中提取出核心关键词的过程示意图。

图6为本发明所述“心灵鸡汤类书籍，这一类的书籍往往有着很丰富、启迪人参的温暖语句，适合想要短时间提升自己修养的小清新一族”这一核心内容对应的字幕的示意图。

图7为本发明所述搜索出的相关图片的示意图。

图8为本发明所述基于文字生成视频的方法第二实施例的流程图。

图9为本发明所述基于文字生成视频的装置实施例的组成结构示意图。

图10示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。

【具体实施方式】

为了使本发明的技术方案更加清楚、明白，以下参照附图并举实施例，对本发明所述方案进行进一步说明。

显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明所述基于文字生成视频的方法第一实施例的流程图。如图1所示，包括以下具体实现方式。

在101中，获取待处理的纯文字类的文本。

目前，互联网中存在着大量纯文字类的文本，如纯文字类文章等。

图2为本发明所述一篇纯文字类文章的示意图。如图2所示，该文章为关于推荐提升修养的书的文章，可以看出，该文章中只有文字，没有图片。

针对上述文章，可通过分析超文本标记语言(HTML，HyperText Markup Language)页面，对文章进行解析等，从而将文章按段落进行划分并提取。

图3为对图2所示文章进行解析后的结果示意图。如图3所示，可得到“1、心灵鸡汤类书籍这一类的书籍往往…”、“2、哲学类历史类书籍这一类的书籍比较…”等段落。

根据每个段落，可分别得到一个待处理的文本，如“心灵鸡汤类书籍，这一类的书籍往往有着很丰富、启迪人参的温暖语句，适合想要短时间提升自己修养的小清新一族”。

在102中，根据文本生成音频及字幕。

针对待处理的文本，可首先从中提取出核心关键词，之后可根据核心关键词从文本中提取出核心内容，进而可生成核心内容对应的音频及字幕。

其中，可按照以下方式之一或任意组合，对文本进行词的提取：从文本中提取出rank值大于预定阈值的候选关键词；从文本中提取出实体词；从文本中提取出主题关键词；将提取出的词进行汇总，从汇总结果中筛选出符合预定要求的词，将筛选出的词作为核心关键词。

图4为本发明所述从文本中提取出候选关键词的方法实施例的流程图。如图4所示，包括以下具体实现方式。

在401中，对文本进行词法分析，得到分词结果及词性。

可通过调用lextag服务，对文本进行词法分析，从而得到分词结果以及每个分词结果的词性。

在402中，对分词结果进行词性过滤，保留名词及专名。

针对得到的各分词结果，可对其进行词性过滤，保留名词及专名，过滤掉除此之外的其它分词结果，专名包括人名、地名、机构名等。

在403中，从进行词性过滤后的分词结果中过滤掉停用词。

对于进行词性过滤后的分词结果，可进一步从中过滤掉停用词。

比如，可将进行词性过滤后的分词结果与停用词词表进行匹配，从而过滤掉位于停用词词表中的停用词。

在404中，从进行停用词过滤后的分词结果中筛选出rank值大于预定阈值的分词结果，将筛选出的分词结果作为候选关键词。

过滤掉停用词后，可调用wordrank服务计算各分词结果的rank值，并选出rank值大于预定阈值的分词结果，作为候选关键词，所述阈值的具体取值可根据实际需要而定，如2，rank值越高，说明词的重要性越高。

以上介绍的是如何从文本中提取出候选关键词，对于实体词，可调用百度自然语言处理(NLP，Natural Language Processing)中的nlpc_nerl_plus服务，从文本中提取出实体词，对于主题关键词，可调用百度NLP中的nlpc_keyphrase_v2服务，从文本中提取出主题关键词，即调用nlpc_keyphrase_v2服务对文本进行篇章关键词提取。

假设需要同时进行候选关键词、实体词以及主题关键词的提取，那么图5为本发明所述从文本中提取出核心关键词的过程示意图。如图5所示，对于提取出的候选关键词、实体词以及主题关键词，可对其进行汇总，并从汇总结果中过滤出符合预定要求的词，从而得到核心关键词。

比如，可利用核心关键词词表来对汇总结果进行过滤，保留汇总结果中位于核心关键词词表中的词，将所保留的词作为筛选出的符合预定要求的词。如何生成核心关键词词表不作限制，比如可预先人工生成。

在获取到核心关键词之后，还可进一步根据核心关键词从文本中提取出核心内容，进而生成核心内容对应的音频及字幕。

比如，可从文本中提取出包含核心关键词的内容，将提取出的内容作为核心内容。

需要说明的是，如果文本的内容较少，那么提取出的核心内容可能与文本本身相同。比如，对于“心灵鸡汤类书籍，这一类的书籍往往有着很丰富、启迪人参的温暖语句，适合想要短时间提升自己修养的小清新一族”这一文本，假设提取出核心关键词为“心灵鸡汤”、“书籍”，那么从该文本中提取出的核心内容可能会与该文本相同。但如果文本的内容较多，提取出的核心内容则通常与文本本身不同，为文本的内容概要。

无论是哪种方式，在提取出核心内容之后，均可生成核心内容对应的音频及字幕。

可调用百度人工智能(AI，Artificial Intelligence)开放平台的语音合成技术，对核心内容进行语音合成，从而得到对应的音频，即将文本转换成富有感情色彩的类似真人语音音轨。

另外，还可生成核心内容对应的字幕，剔除标点等字符，如图6所示，图6为本发明所述“心灵鸡汤类书籍，这一类的书籍往往有着很丰富、启迪人参的温暖语句，适合想要短时间提升自己修养的小清新一族”这一核心内容对应的字幕的示意图。

在103中，从互联网中挖掘文本的相关图片。

为了生成视频，除了需要有音频及字幕之外，还需要有足够的图片，为此，需要从互联网中挖掘文字的相关图片。

比如，可将上述核心关键词作为关键词进行图片搜索，将搜索到的图片作为相关图片。

假设核心关键词为“心灵鸡汤”、“书籍”，那么可利用百度图片搜索技术，将“心灵鸡汤”、“书籍”作为输入的关键词进行图片搜索，从而挖掘出互联网中无版权的相关图片，如图7所示，图7为本发明所述搜索出的相关图片的示意图。

这样，对应于“心灵鸡汤”、“书籍”，获取到了多张图片，这些图片中，很可能包含一些低质量的图片，需要过滤掉，为此，还可进一步执行以下操作之一或全部。

1)过滤掉与文本的相关性低于预定阈值的图片。

可预先挖掘互联网中的图片资源以及图片文字描述等，构建深度学习模型，即图文相关性模型，这样，针对待过滤的每张图片，可分别利用图文相关性模型评估出该图片与文本(或从文本中提取出的核心内容)的相关性，并将评估出的相关性与预定阈值进行比较，若评估出的相关性低于预定阈值，则可过滤掉该图片，否则，可保留该图片，所述预定阈值的具体取值可根据实际需要而定。

2)过滤掉包含预定内容的图片。

可通过百度AI开放平台的图像审核技术，过滤掉包含预定内容的图片，比如，包含模糊区域的图片、包含色情内容的图片、包含水印的图片等。

在104中，根据相关图片、音频及字幕生成视频。

可根据配置，动态计算字幕展现时长、音频切换时长、字幕字体、图片展示风格和背景音乐等自适应参数，进而可调用百度AI以及FFMPEG视频编辑软件开发工具包(SDK，Software Development Kit)，将图片、音频以及字幕等进行融合，完成视频的生成等。

以图2所示文章为例，若从中拆解出了多个文本，那么可针对每个文本，分别按照上述102～103等方式进行处理，从而分别得到每个文本对应的音频、字幕、图片等，进而可生成一个包含各个文本的内容的视频，比如，视频中可包括多段内容，其中第一段内容对应于“心灵鸡汤类书籍”，第二段内容对应于“哲学类历史类书籍”，依次类推，或者，也可以每个文本分别对应一个视频，具体实现方式不限。

基于上述介绍，图8为本发明所述基于文字生成视频的方法第二实施例的流程图。如图8所示，包括以下具体实现方式。

在801中，获取待处理的纯文字类的文本。

在802中，从文本中提取出rank值大于预定阈值的候选关键词。

可通过调用lextag服务，对文本进行词法分析，从而得到分词结果及词性，之后，可对分词结果进行词性过滤，保留名词及专名，进一步地，可将进行词性过滤后的分词结果与停用词词表进行匹配，从而过滤掉位于停用词词表中的停用词，过滤掉停用词后，可调用wordrank服务计算各分词结果的rank值，并选出rank值大于预定阈值的分词结果，作为候选关键词。

在803中，从文本中提取出实体词。

可调用百度NLP中的nlpc_nerl_plus服务，从文本中提取出实体词。

在804中，从文本中提取出主题关键词。

可调用百度NLP中的nlpc_keyphrase_v2服务，从文本中提取出主题关键词，即调用nlpc_keyphrase_v2服务对文本进行篇章关键词提取。

在805中，将提取出的词进行汇总，从汇总结果中筛选出符合预定要求的词，将筛选出的词作为核心关键词。

可利用核心关键词词表对汇总结果进行过滤，保留汇总结果中位于核心关键词词表中的词，将所保留的词作为筛选出的符合预定要求的词。

在806中，根据核心关键词从文本中提取出核心内容。

可从文本中提取出包含核心关键词的内容，将提取出的内容作为核心内容。

在807中，生成核心内容对应的音频及字幕。

可调用百度AI开放平台的语音合成技术，对核心内容进行语音合成，从而得到对应的音频，另外，还需要生成核心内容对应的字幕，剔除标点等字符。

在808中，以核心关键词作为关键词进行图片搜索，将搜索到的图片作为挖掘出的相关图片。

可利用百度图片搜索技术，将核心关键词作为输入的关键词进行图片搜索，从而挖掘出互联网中无版权的相关图片。

在809中，从相关图片中过滤掉与文本的相关性低于预定阈值的图片以及包含预定内容的图片。

针对待过滤的每张图片，可分别利用图文相关性模型评估出该图片与文本(或从文本中提取出的核心内容)的相关性，并将评估出的相关性与预定阈值进行比较，若评估出的相关性低于预定阈值，则可过滤掉该图片。

另外，还可过滤掉包含预定内容的图片，比如，包含模糊区域的图片、包含色情内容的图片、包含水印的图片等。

在810中，根据过滤后的相关图片、音频及字幕生成视频。

如果过滤后的图片的数量过多，那么可按照预定策略剔除其中的部分图片，所述预定策略具体为何种策略可根据实际需要而定，比如，可随机地剔除其中的部分图片，另外，各图片在视频中的展示顺序等也可根据实际需要而定。

可根据配置，动态计算字幕展现时长、音频切换时长、字幕字体、图片展示风格和背景音乐等自适应参数，进而将图片、音频以及字幕等进行融合，最终完成视频的生成等。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

总之，采用上述各方法实施例所述方案，在获取到待处理的纯文字类的文本之后，可根据文本生成音频及字幕，并从互联网中挖掘出文本的相关图片，进而可根据相关图片、音频及字幕生成视频，从而实现了基于文字快速高效地生成视频，提升了信息展示效果等。

以上是关于方法实施例的介绍，以下通过装置实施例，对本发明所述方案进行进一步说明。

图9为本发明所述基于文字生成视频的装置实施例的组成结构示意图。如图9所示，包括：获取单元901、第一生成单元902、挖掘单元903和第二生成单元904。

获取单元901，用于获取待处理的纯文字类的文本。

第一生成单元902，用于根据文本生成音频及字幕。

挖掘单元903，用于从互联网中挖掘文本的相关图片。

第二生成单元904，用于根据相关图片、音频及字幕生成视频。

上述装置中还可进一步包括：提取单元905，用于从文本中提取出核心关键词。

具体地，提取单元905可按照以下方式之一或任意组合，对文本进行词的提取：从文本中提取出rank值大于预定阈值的候选关键词；从文本中提取出实体词；从文本中提取出主题关键词；将提取出的词进行汇总，从汇总结果中筛选出符合预定要求的词，将筛选出的词作为核心关键词。

其中，提取单元905可对文本进行词法分析，得到分词结果及词性，并对分词结果进行词性过滤，保留名词及专名，进而可从进行词性过滤后的分词结果中过滤掉停用词，并从进行停用词过滤后的分词结果中筛选出rank值大于预定阈值的分词结果，将筛选出的分词结果作为候选关键词。

提取单元905在将提取出的候选关键词、实体词、主题关键词进行汇总后，可利用核心关键词词表对汇总结果进行过滤，保留汇总结果中位于核心关键词词表中的词，将所保留的词作为筛选出的符合预定要求的词，符合预定要求的词即为核心关键词。

在获取到核心关键词之后，第一生成单元902还可根据核心关键词从文本中提取出核心内容，进而生成核心内容对应的音频及字幕。

比如，第一生成单元902可从文本中提取出包含核心关键词的内容，将提取出的内容作为核心内容。

挖掘单元903可将上述核心关键词作为关键词进行图片搜索，将搜索到的图片作为相关图片。

另外，挖掘单元903还可针对搜索到的相关图片，进一步执行以下操作之一或全部：过滤掉与文本的相关性低于预定阈值的图片；过滤掉包含预定内容的图片。

包含预定内容的图片可以是指包含模糊区域的图片、包含色情内容的图片、包含水印的图片等。

最后由第二生成单元904根据相关图片、音频及字幕生成视频。

图9所示装置实施例的具体工作流程请参照前述各方法实施例中的相关说明，不再赘述。

图10示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图10显示的计算机系统/服务器12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于：一个或者多个处理器(处理单元)16，存储器28，连接不同系统组件(包括存储器28和处理器16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图10未显示，通常称为“硬盘驱动器”)。尽管图10中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图10所示，网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机系统/服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器16通过运行存储在存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现图1或8所示实施例中的方法，即获取待处理的纯文字类的文本，根据文本生成音频及字幕，从互联网中挖掘文本的相关图片，根据相关图片、音频及字幕生成视频等。

具体实现请参照前述各实施例中的相关说明，不再赘述。

本发明同时公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时将实现如图1或8所示实施例中的方法。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法等，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于文字生成视频的方法，其特征在于，包括：

获取待处理的纯文字类的文本；

根据所述文本生成音频及字幕；

从互联网中挖掘所述文本的相关图片；

根据所述相关图片、所述音频及所述字幕生成视频。

2.根据权利要求1所述的方法，其特征在于，

所述从互联网中挖掘所述文本的相关图片之前，进一步包括：

从所述文本中提取核心关键词；

所述从互联网中挖掘所述文本的相关图片包括：

3.根据权利要求2所述的方法，其特征在于，

所述从所述文本中提取核心关键词包括：

按照以下方式之一或任意组合，对所述文本进行词的提取：

从所述文本中提取出rank值大于预定阈值的候选关键词；

从所述文本中提取出实体词；

从所述文本中提取出主题关键词；

4.根据权利要求3所述的方法，其特征在于，

所述从所述文本中提取出rank值大于预定阈值的候选关键词包括：

对所述文本进行词法分析，得到分词结果及词性；

对所述分词结果进行词性过滤，保留名词及专名；

从进行词性过滤后的分词结果中过滤掉停用词；

5.根据权利要求3所述的方法，其特征在于，

所述从汇总结果中筛选出符合预定要求的词包括：

6.根据权利要求2所述的方法，其特征在于，

所述根据所述文本生成音频及字幕包括：

根据所述核心关键词从所述文本中提取出核心内容；

生成所述核心内容对应的音频及字幕。

7.根据权利要求6所述的方法，其特征在于，

所述根据所述核心关键词从所述文本中提取出核心内容包括：

8.根据权利要求1所述的方法，其特征在于，

所述根据所述相关图片、所述音频及所述字幕生成视频之前，进一步包括以下之一或全部：

过滤掉与所述文本的相关性低于预定阈值的图片；

过滤掉包含预定内容的图片。

9.根据权利要求8所述的方法，其特征在于，

所述预定内容包括：模糊区域、色情内容、水印。

10.一种基于文字生成视频的装置，其特征在于，包括：获取单元、第一生成单元、挖掘单元和第二生成单元；

所述获取单元，用于获取待处理的纯文字类的文本；

所述第一生成单元，用于根据所述文本生成音频及字幕；

所述挖掘单元，用于从互联网中挖掘所述文本的相关图片；

11.根据权利要求10所述的装置，其特征在于，

所述装置中进一步包括：提取单元；

所述提取单元，用于从所述文本中提取核心关键词；

12.根据权利要求11所述的装置，其特征在于，

所述提取单元按照以下方式之一或任意组合，对所述文本进行词的提取：

从所述文本中提取出rank值大于预定阈值的候选关键词；

从所述文本中提取出实体词；

从所述文本中提取出主题关键词；

13.根据权利要求12所述的装置，其特征在于，

所述提取单元对所述文本进行词法分析，得到分词结果及词性，对所述分词结果进行词性过滤，保留名词及专名，从进行词性过滤后的分词结果中过滤掉停用词，从进行停用词过滤后的分词结果中筛选出rank值大于预定阈值的分词结果，将筛选出的分词结果作为所述候选关键词。

14.根据权利要求12所述的装置，其特征在于，

所述提取单元利用核心关键词词表对所述汇总结果进行过滤，保留所述汇总结果中位于所述核心关键词词表中的词，将所保留的词作为筛选出的符合预定要求的词。

15.根据权利要求11所述的装置，其特征在于，

所述第一生成单元根据所述核心关键词从所述文本中提取出核心内容，生成所述核心内容对应的音频及字幕。

16.根据权利要求15所述的装置，其特征在于，

所述第一生成单元从所述文本中提取出包含所述核心关键词的内容，将提取出的内容作为所述核心内容。

17.根据权利要求10所述的装置，其特征在于，

所述挖掘单元进一步用于，针对所述相关图片，执行以下操作之一或全部：

过滤掉与所述文本的相关性低于预定阈值的图片；

过滤掉包含预定内容的图片。

18.根据权利要求17所述的装置，其特征在于，

所述预定内容包括：模糊区域、色情内容、水印。

19.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～9中任一项所述的方法。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1～9中任一项所述的方法。