CN107948730B

CN107948730B - 基于图片生成视频的方法、装置、设备及存储介质

Info

Publication number: CN107948730B
Application number: CN201711041184.6A
Authority: CN
Inventors: 姚后清; 施鹏; 孟子扬
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-10-30
Filing date: 2017-10-30
Publication date: 2020-11-20
Anticipated expiration: 2037-10-30
Also published as: CN107948730A

Abstract

本发明公开了基于图片生成视频的方法、装置、设备及存储介质，其中方法包括：识别出待处理的图片中的主体；获取主体的相关知识；根据相关知识生成音频及字幕；获取主体的相关图片；根据相关图片、待处理的图片、音频及字幕生成视频。本发明所述方案实现了基于图片快速高效地生成视频，提升了信息展示效果。

Description

基于图片生成视频的方法、装置、设备及存储介质

【技术领域】

本发明涉及计算机应用技术，特别涉及基于图片生成视频的方法、装置、设备及存储介质。

【背景技术】

随着技术的发展，视频尤其是短视频越来越流行，相比于图片，视频更加高效、生动，更符合用户的碎片化需求。

为此，提出了基于图片自动生成视频的需求，但针对这一需求，现有技术中还没有一种有效的解决方式。

【发明内容】

有鉴于此，本发明提供了基于图片生成视频的方法、装置、设备及存储介质。

具体技术方案如下：

一种基于图片生成视频的方法，包括：

识别出待处理的图片中的主体；

获取所述主体的相关知识；

根据所述相关知识生成音频及字幕；

获取所述主体的相关图片；

根据所述相关图片、所述待处理的图片、所述音频及所述字幕生成视频。

根据本发明一优选实施例，所述获取所述主体的相关知识包括：

通过搜索，获取关于所述主体的问答文本；

所述根据所述相关知识生成音频及字幕包括：

从获取到的问答文本中选出符合要求的问答文本；

根据选出的问答文本生成所述音频及所述字幕。

根据本发明一优选实施例，所述从获取到的问答文本中选出符合要求的问答文本包括：

将获取到的各问答文本按照点击率从高到低的顺序进行排序，选出排序后处于前N位的问答文本，N为大于一的正整数。

根据本发明一优选实施例，所述从获取到的问答文本中选出符合要求的问答文本进一步包括以下之一或任意组合：

过滤掉不属于预定主题的问答文本；

过滤掉问答质量评估结果低于预定阈值的问答文本；

对于语义重复的问答文本进行去重处理。

根据本发明一优选实施例，所述根据选出的问答文本生成所述音频及所述字幕包括：

针对选出的每个问答文本，分别获取所述问答文本的简要文字表达；

生成所述简要文字表达对应的音频及字幕。

根据本发明一优选实施例，所述获取所述主体的相关图片包括以下之一或全部：

通过所述主体的名称进行搜索，得到所述主体的相关图片；

通过所述待处理的图片进行搜索，得到所述主体的相关图片。

根据本发明一优选实施例，所述根据所述相关图片、所述待处理的图片、所述音频及所述字幕生成视频之前，进一步包括以下之一或全部：

过滤掉与所述字幕中的文字的相关性低于预定阈值的图片；

过滤掉包含预定内容的图片。

根据本发明一优选实施例，所述预定内容包括：模糊区域、色情内容、水印。

一种基于图片生成视频的装置，包括：主体识别单元、知识获取单元、第一生成单元、图片获取单元以及第二生成单元；

所述主体识别单元，用于识别出待处理的图片中的主体；

所述知识获取单元，用于获取所述主体的相关知识；

所述第一生成单元，用于根据所述相关知识生成音频及字幕；

所述图片获取单元，用于获取所述主体的相关图片；

所述第二生成单元，用于根据所述相关图片、所述待处理的图片、所述音频及所述字幕生成视频。

根据本发明一优选实施例，所述知识获取单元通过搜索，获取关于所述主体的问答文本，并从获取到的问答文本中选出符合要求的问答文本；

所述第一生成单元根据选出的问答文本生成所述音频及所述字幕。

根据本发明一优选实施例，所述知识获取单元将获取到的各问答文本按照点击率从高到低的顺序进行排序，选出排序后处于前N位的问答文本，N为大于一的正整数。

根据本发明一优选实施例，所述知识获取单元进一步用于，针对选出的N个问答文本，执行以下操作之一或任意组合：

过滤掉不属于预定主题的问答文本；

过滤掉问答质量评估结果低于预定阈值的问答文本；

对于语义重复的问答文本进行去重处理。

根据本发明一优选实施例，所述第一生成单元进一步用于，

生成所述简要文字表达对应的音频及字幕。

根据本发明一优选实施例，所述图片获取单元通过以下方式之一或全部获取所述主体的相关图片：

通过所述主体的名称进行搜索，得到所述主体的相关图片；

根据本发明一优选实施例，所述图片获取单元进一步用于，针对所述相关图片以及所述待处理的图片，执行以下操作之一或全部：

过滤掉与所述字幕中的文字的相关性低于预定阈值的图片；

过滤掉包含预定内容的图片。

一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如以上所述的方法。

基于上述介绍可以看出，采用本发明所述方案，针对待处理的图片，可首先识别出其中的主体，之后可分别获取主体的相关知识及相关图片，并根据相关知识生成音频及字幕，进而可根据相关图片、待处理的图片、音频及字幕生成所需的视频，从而实现了基于图片快速高效地生成视频，提升了信息展示效果等。

【附图说明】

图1为本发明所述基于图片生成视频的方法第一实施例的流程图。

图2为本发明所述待处理的图片的示意图。

图3为本发明所述搜索到的关于“柴犬”的问答文本的示意图。

图4为从图3所示问答文本中过滤掉的问答文本的示意图。

图5为本发明所述语义重复的两个问答文本的示意图。

图6为本发明所述字幕的示意图。

图7为本发明所述搜索出的“柴犬”的相关图片的示意图。

图8为本发明所述最终生成的视频的示意图。

图9为本发明所述基于图片生成视频的方法第二实施例的流程图。

图10为本发明所述基于图片生成视频的装置实施例的组成结构示意图。

图11示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。

【具体实施方式】

为了使本发明的技术方案更加清楚、明白，以下参照附图并举实施例，对本发明所述方案进行进一步说明。

显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明所述基于图片生成视频的方法第一实施例的流程图。如图1所示，包括以下具体实现方式。

在101中，识别出待处理的图片中的主体。

待处理的图片可以是一张，也可以是多张，如果是多张的话，其中的主体通常是相同的。图2为本发明所述待处理的图片的示意图。

可对待处理的图片中的主体进行识别，比如，可采用百度人工智能(AI，Artificial Intelligence)开放平台的图像识别技术，识别出待处理的图片中的主体，如图2所示的待处理的图片，识别出的主体将为“柴犬”。

在102中，获取识别出的主体的相关知识。

在识别出待处理的图片中的主体之后，可进一步获取识别出的主体的相关知识。比如，可通过搜索，获取关于主体的问答文本。

以识别出的主体为“柴犬”为例，可将“柴犬”作为关键词，通过搜索，获取到关于“柴犬”的问答文本，如图3所示，图3为本发明所述搜索到的关于“柴犬”的问答文本的示意图。

在103中，根据获取到的相关知识生成音频及字幕。

在获取到识别出的主体的相关知识之后，可根据获取到的相关知识来生成音频及字幕。

假设获取到的相关知识为关于主体的问答文本，由于获取到的问答文本的数量可能很多，质量等参差不齐，因此，可首先对获取到的问答文本进行筛选，从而选出符合要求的问答文本，进而根据选出的问答文本生成音频及字幕。

比如，可将获取到的各问答文本按照点击率(CTR，Click Through Rate)从高到低的顺序进行排序，选出排序后处于前N位的问答文本，选出的N个问答文本即为符合要求的问答文本。N为大于一的正整数，具体取值可根据实际需要而定。

在此基础上，还可进一步执行以下操作之一或任意组合。

1)过滤掉不属于预定主题的问答文本。

可通过调用知识搜索的tag服务，识别出各问答文本的主题，然后过滤掉不属于预定主题的问答文本。所述预定主题的具体内容可根据实际需要而定。

比如，预定主题为宠物类主题，那么则需要过滤掉不属于宠物类主题的非宠物类主题的问答文本。图4为从图3所示问答文本中过滤掉的问答文本的示意图。如图4所示，该问答文本的主题属于非宠物类主题，因此需要过滤掉。

2)过滤掉问答质量评估结果低于预定阈值的问答文本。

可通过调用预先训练得到的问答质量评估模型，分别确定出各问答文本的问答质量评估结果，比如，某一问答文本中的问题部分和回答部分的内容不对应，答非所问，那么该问答文本的问答质量评估结果的取值则会比较低。

可收集不同问答质量的问答文本作为训练样本，从而根据训练样本训练得到问答质量评估模型。

在得到某一问答文本的问答质量评估结果之后，可将该问答文本的问答质量评估结果与预定阈值进行比较，若低于预定阈值，则可将该问答文本过滤掉，否则，可保留该问答文本，所述预定阈值的具体取值同样可根据实际需要而定。

3)对于语义重复的问答文本进行去重处理。

在各问答文本中，可能存在语义重复的问答文本，比如，某两个问答文本的语义重复。如图5所示，图5为本发明所述语义重复的两个问答文本的示意图。

可通过调用知识搜索的聚合模型，保留更好更新的问答文本，如图5所示，可保留下面的问答文本，过滤掉上面的问答文本。

通过上述方式从获取到的问答文本中选出符合要求的问答文本之后，即可根据选出的问答文本生成音频及字幕。

比如，可首先针对选出的每个问答文本，分别获取该问答文本的简要文字表达，之后生成简要文字表达对应的音频及字幕。

考虑到问答文本中包含的内容可能比较多，不适合直接生成音频，可先对问答文本进行截取处理，从而得到问答文本的简要文字表达。

具体地，如果问答文本中的问题部分比较短即字数比较少，如“柴犬的习性习惯”，那么问题部分可保持不变，如果问题部分比较长，那么在保持表达的意思不变的前提下，可对问题部分进行截取处理。而回答部分通常比较长，需要进行截取处理，如问题“柴犬的习性习惯”，对于图3中所示的该问题的回答，截取处理后可为“柴犬习性聪明，身体清洁，体型较小但护卫性强，忠于主人，容易训练”。

通过上述处理，可得到如下短句：柴犬的习性习惯，柴犬习性聪明，身体清洁，体型较小但护卫性强，忠于主人，容易训练。按照同样的方式，可得到多个其它短句，如：一只纯种柴犬大概多少钱？现在的市场价格在3800元一只左右。

针对每个短句，可分别通过百度AI的语音合成技术，进行语音合成，从而生成各短句对应的音频，并确定先后顺序。

另外，还需要分别生成各短句对应的字幕，剔除标点等字符，图6为本发明所述字幕的示意图。

在104中，获取识别出的主体的相关图片。

对于识别出的主体，对应的图片仅有待处理的图片，图片数量较少，不足以构成一段视频，因此，还需要扩展出更多的图片，如搜索得到识别出的主体的相关图片。

搜索方式可以有以下两种：通过识别出的主体的名称进行搜索，得到识别出的主体的相关图片；通过待处理的图片进行搜索，得到识别出的主体的相关图片。其中，前一种方式为通过文字搜索相关图片的方式，后一种方式为通过图片搜索相关图片的方式。

假设识别出的主体为“柴犬”，那么对于前一种方式，可利用百度图片搜索技术，将“柴犬”作为输入的关键词进行图片搜索，从而挖掘出互联网中无版权的“柴犬”的相关图片，如图7所示，图7为本发明所述搜索出的“柴犬”的相关图片的示意图。假设待处理的图片为图2中所示的左侧图片，那么对于后一种方式，可利用百度图片搜索技术，将图2中所示的左侧图片作为输入，搜索得到相关图片。

这样，对应于识别出的主体“柴犬”，获取到了多张图片，包括待处理的图片以及搜索到的相关图片。

这些图片中，很可能包含一些低质量的图片，需要过滤掉，为此，还可进一步执行以下操作之一或全部。

1)过滤掉与字幕中的文字的相关性低于预定阈值的图片。

可预先挖掘互联网中的图片资源以及图片文字描述等，构建深度学习模型，即图文相关性模型，这样，针对待过滤的每张图片，可分别利用图文相关性模型评估出该图片与字幕中的文字的相关性，并将评估出的相关性与预定阈值进行比较，若评估出的相关性低于预定阈值，则可过滤掉该图片，否则，保留该图片，所述预定阈值的具体取值可根据实际需要而定。

2)过滤掉包含预定内容的图片。

可通过百度AI开放平台的图像审核技术，过滤掉包含预定内容的图片，比如，包括模糊区域的图片、包含色情内容的图片、包含水印的图片等。

在105中，根据获取到的相关图片、待处理的图片、音频及字幕生成视频。

可根据配置，动态计算字幕展现时长、音频切换时长、字幕字体、图片展示风格和背景音乐等自适应参数，进而调用百度AI以及FFMPEG视频编辑软件开发工具包(SDK，Software Development Kit)，将图片、音频以及字幕等进行融合，最终完成视频的生成和压缩，如图8所示，图8为本发明所述最终生成的视频的示意图。

基于上述介绍，图9为本发明所述基于图片生成视频的方法第二实施例的流程图。如图9所示，包括以下具体实现方式。

在901中，识别出待处理的图片中的主体。

待处理的图片可以是一张，也可以是多张。

在902中，通过搜索，获取关于识别出的主体的问答文本。

在903中，将获取到的各问答文本按照点击率从高到低的顺序进行排序，选出排序后处于前N位的问答文本，N为大于一的正整数。

在904中，从选出的问答文本中过滤掉不属于预定主题的问答文本。

可分别识别出选出的各问答文本的主题，进而过滤掉不属于预定主题的问答文本。

在905中，过滤掉问答质量评估结果低于预定阈值的问答文本。

可分别获取各问答文本的问答质量评估结果，并过滤掉问答质量评估结果低于预定阈值的问答文本。

在906中，对于语义重复的问答文本进行去重处理。

在各问答文本中，可能存在语义重复的问答文本，比如，某两个问答文本的语义重复，那么可保留更好更新的问答文本。

在907中，针对剩余的每个问答文本，分别获取其简要文字表达，并生成简要文字表达对应的音频及字幕。

考虑到问答文本中包含的内容可能比较多，不适合直接生成音频，为此，可先对问答文本进行截取处理，从而得到问答文本的简要文字表达。之后，可针对简要文字表达生成对应的音频及字幕。

在908中，通过搜索，获取识别出的主体的相关图片。

可采用以下搜索方式之一或全部：

通过识别出的主体的名称进行搜索，得到识别出的主体的相关图片；

通过待处理的图片进行搜索，得到识别出的主体的相关图片。

在909中，从搜索到的图片以及待处理图片中过滤掉相关性低于预定阈值的图片以及包含预定内容的图片。

可过滤掉与字幕中的文字的相关性低于预定阈值的图片，并过滤掉包括模糊区域的图片、包含色情内容的图片以及包含水印的图片等。

在910中，根据过滤后的图片、音频及字幕生成视频。

如果过滤后的图片的数量过多，那么可按照预定策略剔除其中的部分图片，所述预定策略具体为何种策略可根据实际需要而定，比如，可随机地剔除其中的部分图片，另外，各图片在视频中的展示顺序等也可根据实际需要而定。

可根据配置，动态计算字幕展现时长、音频切换时长、字幕字体、图片展示风格和背景音乐等自适应参数，进而将图片、音频以及字幕等进行融合，最终完成视频的生成等。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

总之，采用上述各方法实施例所述方案，针对待处理的图片，可首先识别出其中的主体，之后可分别获取主体的相关知识及相关图片，并根据相关知识生成音频及字幕，进而可根据相关图片、待处理的图片、音频及字幕生成所需的视频，从而实现了基于图片快速高效地生成视频，提升了信息展示效果等。

以上是关于方法实施例的介绍，以下通过装置实施例，对本发明所述方案进行进一步说明。

图10为本发明所述基于图片生成视频的装置实施例的组成结构示意图。如图10所示，包括：主体识别单元1001、知识获取单元1002、第一生成单元1003、图片获取单元1004以及第二生成单元1005。

主体识别单元1001，用于识别出待处理的图片中的主体。

知识获取单元1002，用于获取识别出的主体的相关知识。

第一生成单元1003，用于根据相关知识生成音频及字幕。

图片获取单元1004，用于获取识别出的主体的相关图片。

第二生成单元1005，用于根据相关图片、待处理的图片、音频及字幕生成视频。

主体识别单元1001可采用百度AI开放平台的图像识别技术，识别出待处理的图片中的主体。

之后，知识获取单元1002可通过搜索，获取识别出的主体的相关知识，比如，获取关于主体的问答文本，并可从获取到的问答文本中选出符合要求的问答文本。

另外，知识获取单元1002还可将获取到的各问答文本按照点击率从高到低的顺序进行排序，进而选出排序后处于前N位的问答文本，N为大于一的正整数。

在此基础上，知识获取单元1002还可针对选出的N个问答文本，进一步执行以下操作之一或任意组合：

过滤掉不属于预定主题的问答文本；

过滤掉问答质量评估结果低于预定阈值的问答文本；

对于语义重复的问答文本进行去重处理。

其中，可通过调用知识搜索的tag服务，识别出各问答文本的主题，然后过滤掉不属于预定主题的问答文本。

可通过调用预先训练得到的问答质量评估模型，分别确定出各问答文本的问答质量评估结果，在得到某一问答文本的问答质量评估结果之后，可将该问答文本的问答质量评估结果与预定阈值进行比较，若低于预定阈值，则可将该问答文本过滤掉。

另外，在各问答文本中，可能存在语义重复的问答文本，比如，某两个问答文本的语义重复，可通过调用知识搜索的聚合模型，保留更好更新的问答文本。

通过上述方式从获取到的问答文本中选出符合要求的问答文本之后，第一生成单元1003可针对选出的每个问答文本，分别获取问答文本的简要文字表达，并生成简要文字表达对应的音频及字幕。

对于识别出的主体，图片获取单元1004还可通过以下方式之一或全部获取其相关图片：通过识别出的主体的名称进行搜索，得到识别出的主体的相关图片；通过待处理的图片进行搜索，得到识别出的主体的相关图片；其中，前一种方式为通过文字搜索相关图片的方式，后一种方式为通过图片搜索相关图片的方式。

图片获取单元1004还可针对获取到的相关图片以及待处理的图片，进一步执行以下操作之一或全部：过滤掉与字幕中的文字的相关性低于预定阈值的图片；过滤掉包含预定内容的图片。

针对每张图片，可分别利用图文相关性模型评估出该图片与字幕中的文字的相关性，并将评估出的相关性与预定阈值进行比较，若评估出的相关性低于预定阈值，则可过滤掉该图片。

另外，可通过百度AI开放平台的图像审核技术，过滤掉包含预定内容的图片，比如，包括模糊区域的图片、包含色情内容的图片、包含水印的图片等。

之后，第二生成单元1005可根据配置，动态计算字幕展现时长、音频切换时长、字幕字体、图片展示风格和背景音乐等自适应参数，进而将过滤后的图片、音频以及字幕等进行融合，最终完成视频的生成等。

图10所示装置实施例的具体工作流程请参照前述各方法实施例中的相关说明，不再赘述。

图11示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图11显示的计算机系统/服务器12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于：一个或者多个处理器(处理单元)16，存储器28，连接不同系统组件(包括存储器28和处理器16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图11未显示，通常称为“硬盘驱动器”)。尽管图11中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图11所示，网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机系统/服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器16通过运行存储在存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现图1或9所示实施例中的方法，即识别出待处理的图片中的主体，获取识别出的主体的相关知识，根据相关知识生成音频及字幕，获取识别出的主体的相关图片，根据相关图片、待处理的图片、音频及字幕生成视频等。

具体实现请参照前述各实施例中的相关说明，不再赘述。

本发明同时公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时将实现如图1或9所示实施例中的方法。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法等，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于图片生成视频的方法，其特征在于，包括：

识别出待处理的图片中的主体；

通过搜索，获取关于所述主体的问答文本；

从获取到的问答文本中选出符合要求的问答文本；

针对选出的问答文本，执行以下操作之一或任意组合：过滤掉不属于预定主题的问答文本；过滤掉问答质量评估结果低于预定阈值的问答文本；对于语义重复的问答文本进行去重处理；

根据选出的问答文本生成音频及字幕；

获取所述主体的相关图片；

2.根据权利要求1所述的方法，其特征在于，

所述从获取到的问答文本中选出符合要求的问答文本包括：

3.根据权利要求1所述的方法，其特征在于，

所述根据选出的问答文本生成所述音频及所述字幕包括：

生成所述简要文字表达对应的音频及字幕。

4.根据权利要求1所述的方法，其特征在于，

所述获取所述主体的相关图片的方式包括以下之一或全部：

通过所述主体的名称进行搜索，得到所述主体的相关图片；

5.根据权利要求1所述的方法，其特征在于，

所述根据所述相关图片、所述待处理的图片、所述音频及所述字幕生成视频之前，进一步包括以下之一或全部：

过滤掉与所述字幕中的文字的相关性低于预定阈值的图片；

过滤掉包含预定内容的图片。

6.根据权利要求5所述的方法，其特征在于，

所述预定内容包括：模糊区域、色情内容、水印。

7.一种基于图片生成视频的装置，其特征在于，包括：主体识别单元、知识获取单元、第一生成单元、图片获取单元以及第二生成单元；

所述主体识别单元，用于识别出待处理的图片中的主体；

所述知识获取单元，用于通过搜索，获取关于所述主体的问答文本，并从获取到的问答文本中选出符合要求的问答文本；针对选出的问答文本，执行以下操作之一或任意组合：过滤掉不属于预定主题的问答文本；过滤掉问答质量评估结果低于预定阈值的问答文本；对于语义重复的问答文本进行去重处理；

所述第一生成单元，用于根据选出的问答文本生成音频及字幕；

所述图片获取单元，用于获取所述主体的相关图片；

8.根据权利要求7所述的装置，其特征在于，

所述知识获取单元将获取到的各问答文本按照点击率从高到低的顺序进行排序，选出排序后处于前N位的问答文本，N为大于一的正整数。

9.根据权利要求7所述的装置，其特征在于，

所述第一生成单元进一步用于，

生成所述简要文字表达对应的音频及字幕。

10.根据权利要求7所述的装置，其特征在于，

所述图片获取单元通过以下方式之一或全部获取所述主体的相关图片：

通过所述主体的名称进行搜索，得到所述主体的相关图片；

11.根据权利要求7所述的装置，其特征在于，

所述图片获取单元进一步用于，针对所述相关图片以及所述待处理的图片，执行以下操作之一或全部：

过滤掉与所述字幕中的文字的相关性低于预定阈值的图片；

过滤掉包含预定内容的图片。

12.根据权利要求11所述的装置，其特征在于，

所述预定内容包括：模糊区域、色情内容、水印。

13.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～6中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1～6中任一项所述的方法。