CN110324709A

CN110324709A - 一种视频生成的处理方法、装置、终端设备及存储介质

Info

Publication number: CN110324709A
Application number: CN201910673368.7A
Authority: CN
Inventors: 陈凌云
Original assignee: Xinhua Wisdom Cloud Technology Co Ltd
Current assignee: Xinhua Wisdom Cloud Technology Co Ltd
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2019-10-11

Abstract

本发明实施例公开了一种视频生成的处理方法、装置、终端设备及存储介质；所述方法包括：获取备选文本数据及所述备选文本数据对应的备选视频数据；基于所述备选文本数据，获取关键人物的第一文本数据，并生成所述关键人物的第一合成语音；基于所述备选视频数据，获取与所述第一合成语音匹配的第一图像；利用设置的视频模板，基于所述第一图像及所述第一合成语音，生成所述关键人物的第一视频。所述方法能够结合备选文本数据及视频数据，生成关键人物的文本数据以及对应的视频；且，所述方法可以通过配置的视频模板进行视频的生成，能够自动、批量的生成大量视频，提高了视频生成的效率。

Description

一种视频生成的处理方法、装置、终端设备及存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种视频生成的处理方法、装置、终端及存储介质。

背景技术

目前，主要通过人工输入文本或者终端设备的应用程序接口(API)输入文本后，生成虚拟主播的视频。而该种视频生成的方式内容单调，缺乏观赏性；且需要较多的人工介入，效率低、成本高，不适用于大批量的视屏生成场景。并且，也无法准确获取各个主播(关键人物)的合成语音。

发明内容

有鉴于此，本发明提供一种视频生成的方法、装置、终端设备及存储介质，以至少部分解决上述问题。

本发明的技术方案是这样实现的：

获取备选文本数据及所述备选文本数据对应的备选视频数据；

基于所述备选文本数据，获取关键人物的第一文本数据，并生成所述关键人物的第一合成语音；

基于所述备选视频数据，获取与所述第一合成语音匹配的第一图像；

利用设置的视频模板，基于所述第一图像及所述第一合成语音，生成所述关键人物的第一视频。

上述方案中，所述基于所述备选文本数据，获取关键人物的第一文本数据，并生成所述关键人物的第一合成语音，包括：

若确定所述备选文本数据为新闻类数据，将所述新闻类数据进行摘要提取，获得第一关键语句；

基于所述第一关键语句，生成包括至少一个第一子数据的第一文本数据；

为所述第一子数据配置第一关键人物，并基于所述第一子数据生成所述第一关键人物的第一合成语音。

上述方案中，所述将所述新闻类数据进行摘要提取，获得第一关键语句，包括：

将所述新闻类数据拆分为至少一个第一备选语句；

利用第一训练模型，计算出所述第一备选语句的分数；

若确定所述第一备选语句的分数大于第一阈值，确定所述第一备选语句为第一关键语句。

若确定所述备选文本数据为剧本类数据，根据演员表信息，确定出第二关键人物的第二子数据；其中，所述剧本类数据包括至少一个第二子数据的第一文本数据；

基于所述第二子数据，生成所述第二关键人物的第一合成语音。

上述方案中，所述基于所述备选视频数据，获取与所述第一合成语音匹配的第一图像，包括：

基于所述第一文本数据，确定所述第一合成语音在所述备选视频数据中的时间点信息；

基于所述时间点信息，从所述视频数据中提取与所述第一合成语音匹配的第一图像。

上述方案中，所述方法还包括：

设置视频模板；

其中，所述设置视频模板包括以下至少之一：

设置视频的文件目录；

设置视频的时长；

设置视频的关键人物的标识信息。

上述方案中，所述方法还包括以下至少之一：

将所述备选视频数据作为第一类播放视频，以及将所述第一视频作为第二类播放视频，在同一显示屏中进行呈现；

在所述第一视频中添加与所述第一视频对应的第一字幕；

在所述第一视频中添加与所述第一视频匹配的第一背景音乐；

在所述第一视频中添加与所述第一视频匹配的第一特定效果。

本发明实施例还提供了一种视频生成的处理装置，所述装置包括：

第一获取单元，用于获取备选文本数据及所述备选文本数据对应的备选视频数据；

第一处理单元，用于基于所述备选文本数据，获取关键人物的第一文本数据，并生成所述关键人物的第一合成语音；

第二获取单元，用于基于所述备选视频数据，获取与所述第一合成语音匹配的第一图像；

第二处理单元，用于利用设置的视频模板，基于所述第一图像及所述第一合成语音，生成所述关键人物的第一视频。

本发明实施例还提供了一种终端设备，其特征在于，所述终端设备包括：处理器和用于存储能够在处理器上运行计算机服务的存储器，其中所述处理器用于运行所述计算机服务时，实现本发明任一实施例所述的视频生成的处理方法。

本发明实施例还提供了一种存储介质，所述存储介质中有计算机可执行指令，其特征在于，所述计算机可执行指令被处理器执行实现本发明任一实施例所述的视频生成的处理方法。

本发明实施例提供的一种视频生成的处理方法，通过获取备选文本数据及所述备选文本对应的备选视频数据；基于所述备选文本数据，获取关键人物的第一文本数据，并生成所述关键人物的第一合成语音；如此，可以确定出备选文本数据中各关键人物的第一文本数据以及其对应的第一合成语音；再基于所述备选视频数据，获取与所述第一合成语音匹配的第一图像，能够获取关键人物对应的图像数据；如此，通过利用设置的视频模板，基于所述第一图像及所述第一合成语音，生成所述关键人物的第一视频，能够自动、批量的生成大量视频，提高了视频生成的效率。

附图说明

图1为本发明实施例提供的一种视频生成的处理方法的流程示意图；

图2为本发明实施例提供的另一种视频生成的处理方法的流程示意图；

图3为本发明实施例提供的又一种视频生成的处理方法的流程示意图；

图4为本发明实施例提供的一种视频生成的处理装置的结构示意图；

图5为本发明实施例提供的一种终端设备的硬件结构示意图。

具体实施方式

下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

如图1所示，本发明实施例提供了一种视频生成的处理方法，包括：

步骤101，获取备选文本数据及所述备选文本数据对应的备选视频数据；

步骤102，基于所述备选文本数据，获取关键人物的第一文本数据，并生成所述关键人物的第一合成语音；

步骤103，基于所述备选视频数据，获取与所述第一合成语音匹配的第一图像；

步骤104，利用设置的视频模板，基于所述第一图像及所述第一合成语音，生成所述关键人物的第一视频。

本发明实施例所述的方法应用于终端设备，所述终端设备包括但不限于以下至少之一：计算机、服务器、手机。

在一些实施例中，所述终端设备可以为设置音频采集装置和/或视频采集的装置。如此，所述获取备选文本数据对应的备选视频数据可以通过视频采集装置获取所述备选文本对应的视频数据。

在一些实施例中，所述终端设备还可以通过音频采集装置获取到与所述备选文本数据对应的语音数据。

在另一些实施例中，所述终端设备获取其它电子设备发送的所述备选文本数据及所述备选文本数据对应的备选视频数据。

其中，所述备选文本数据包括但不限于以下至少之一：新闻类数据和剧本类数据。其中，所述新闻类数据为没有预设说话角色的数据。例如，所述新闻类数据可以是新闻、资讯、和/或会议，等等；所述剧本类数据为有预设说话角色的数据。例如，所述剧本类数据可以为舞台剧本、电视剧剧本、和/或有演讲者的演讲稿，等等。

其中，所述关键人物包括一个或多个关键人物；所述关键人物为备选文本数据中每句或每段话的说话者。

在一些实施例中，所述关键人物为主播。

其中，所述获取关键人物的第一文本数据的一种实现方式为：若确定所述备选文本数据中含有预设角色，则确定每个预设角色对应的文本数据为各关键人物对应的第一文本数据。

所述获取关键人物的第一文本数据的另一种实现方式为：若确定所述备选文本数据中没有预设角色，则确定每句或者每段话的说话者为一关键人物；则所述关键人物的每句或者每段话对应的文本数据为第一文本数据。这里，在一可选实施例中，确定同类型的语句为同一关键人物的第一文本数据。

这里，可以理解的是，在所述终端设备中设置有语音分析装置，基于所述语音分析装置对所述第一文本数据进行语音识别，获得与所述第一文本数据对应的第一语音合成片段。

其中，所述生成所述关键人物的第一合成语音的一种实现方式为：确定所述关键人物的第一文本数据，将所述第一文本数据生成至少一个语音合成片段；将所述至少一个语音合成片段进行组合，生成第一合成语音。这里，所述第一文本数据包括至少一个子文本数据，每个子文本数据对应一个语音合成片段。

其中，所述步骤103的一种实现方式为：在备选视频数据中，确定与所述第一合成语音的第一文本数据对应的关键帧，从关键帧中获取第一图像。这里，所述关键帧包括一个或多个关键帧。如此，可以简化第一图像的获取。

在一些应用场景中，若所述备选文本为新闻类数据时，可能所述新闻类数据的内容过长，如此，可以对所述新闻类数据进行摘要提取，省去所述新闻类数据中冗余的数据，且同时保持所述新闻类数据的含义不变。

为了至少解决上述应用场景的部分问题，在一些实施例中，如图2所示，所述步骤102，包括：

步骤1021，若确定所述备选文本数据为新闻类数据，将所述新闻类数据进行摘要提取，获得第一关键语句；

其中，所述第一关键语句为表征所述新闻类数据的核心内容的信息。例如，在一应用场景中，需要对一则新闻(一般新闻包括标题、导语、主体、背景和结语五部分)进行语音播报时；可以提取标题、主体中讲述该事件的核心内容、背景中事情的起因等作为第一关键语句。

在一些实施例中，所述将新闻类数据进行摘要提取，获的第一关键语句，包括：

基于所述新闻类数据获取第一关键词组，获取所述第一关键词组对应的语句为第一关键语句。

例如，在上述应用场景中，可以从标题部分中提取人物、事件名称的关键字；从主体部分提取出时间、地点、事件经过的关键词；将所述人物、事件名称、时间、地点、事件对应的语句进行提取，以获得该新闻的第一关键语句。

如此，在本发明实施例中，可以获取简略版本的新闻类数据的同时，还能够保持所述新闻类数据的含义不变。

其中，所述第一子数据包括一个关键语句或多个关键语句；所述第一文本数据为包括至少一个第一子数据的集合。

其中，一个第一子数据对应一个第一关键人物。

在本发明实施例中，由于该备选文本数据为新闻类数据，因而该新闻类数据中对应的第一子数据是没有相应的预设角色的，因而可以为每个第一子数据配置相应的预设角色，即，为每个第一子数据配置第一关键人物；如此可以生成基于每个第一子数据对应的关键人物的第一合成语音。

在实际应用场景中，可以对一新闻类数据分配不同的第一关键人物。例如，对一则资讯信息，分配为第一关键人物A、第一关键人物B、第一关键人物A、第一关键人物B的穿插形式；其中若所述第一关键人物A为男性，则所述第一关键人物B为女性；若所述所第一关键人物A为老年人，则所述第一关键人物B为小孩；等等。

在一些实施例中，所述第一子数据包括多个第一关键语句，则对多个关键关键语句分别生成第一子语音片段；组合所述多个关键语句分别生成的第一子语音片段，以生成所述第一合成语音。

如此，在本发明实施例中，可以基于对新闻类数据的摘要提取，获得简略版本但是保持所述新闻类数据的含义的数据信息，能够简化合成语音的操作。且，本发明实施例还为每一关键语句配置相应的说话者角色，使得可以准确的生成基于各关键人物的视频。

在一些实施例中，所述将所述新闻类数据进行摘要提取，获得第一关键语句，包括：

将所述新闻类数据拆分为至少一个第一备选语句；

利用第一训练模型，计算出所述第一备选语句的分数；

在一实施例中，所述将新闻类数据拆分为至少一个第一备选语句包括：对新闻类数据按照特殊符号进行断句，获取至少一个第一备选语句；其中，所述特殊不符合包括以下至少之一：句号、感叹号、疑问号。

例如，所述新闻类数据包括5个特殊符号，依次为：第1和2个为句号，第3个是疑问号，第4个是句号，第5个为感叹号。则获取到的第一备选语句为5句，其中第1句为第1个句号之前的文本数据，第2句为第1个句号和第2个句号之间的文本数据，第3句为第2个句号和第3个疑问号之间的文本数据，第4句为第3个疑问号和第4个句号之间的文本数据，第5句为第4个句号和第5个感叹号之间的文本数据。

在另一实施例中，所述将所述新闻类数据拆分为至少一个第一备选语句，包括：利用word2vec embedding模型对所述新闻类数据进行拆分，以获得至少一个第一备选语句。

可以理解的是，word2vec embedding模型是Google实现word embedding模型的一种具体方法，其中，所述word embedding(词嵌入)模型是一种词向量的低维表示形式的训练模型。

如此，利用word2vec embedding算法可以实现对新闻类数据的降维，可以获得简略版本且与所述新闻类数据同含义的第一备选语句。

在一实施例中，所述第一训练模型为LexRank算法的训练模型。

其中，所述LexRank算法为密西根大学的GunesErkan和Dragomir R Radev提出的一种基于图论的自然语音处理方法。

所述利用利用第一训练模型，计算出所述第一备选语句的分数，具体为：

对所述第一备选语句之间的相似度的判断对所述新闻类数据进行分类；将所述第一备选语句作为节点构出一个标量图，节点间的连线代表两个所述第一备选语句的相似度。若确定两个所述第一备选语句无关，则所述两个所述第一备选语句所代表的节点间就没有连接；若确定两个所述第一备选语句相似程度越大，则所述两个所述第一备选语句的节点间的连线越粗。在对所述至少一个第一备选语句进行评分时，要充分考虑到每个所述第一备选语句所对应节点的连线数量以及连线粗细，即句子的核心性与相关程度大小。其中，连接数量越多，和/或连线越粗，所对应节点的第一备选语句的评分越高；连接数据越少，和/或连线越细，所对应节点的第一备选语句的评分越低。

在发明实施例中，可以将新闻类数据通过初步拆分，得到比较简略的第一备选语句；再通过将第一备选语句进行评分，获得分数比较高的第一关键语句，从而能够进一步简化所述新闻类数据；如此，能够获得简化版本且与所述新闻类数据同含义的第一关键语句，即省去了冗余、无聊的信息数据，从而能够提高用户对基于所述新闻类数据生成的视频的兴趣性，从而提升用户体验的满意度。

在另一些实施例中，如图2所示，所述步骤102包括：

步骤1022，若确定所述备选文本数据为剧本类数据，根据演员表信息，确定出第二关键人物的第二子数据；其中，所述剧本类数据包括至少一个第二子数据的第一文本数据；

在实际应用中，若所述备选文本数据为剧本类数据，则可以确定出该剧本类数据中个第二子数据的所对应的预设角色，即第二关键人物。

其中，演员表信息包括剧中人物信息或出演者信息。

例如，在一应用场景中，所述备选文本数据为一话剧剧本，该话剧剧本中包括：剧中人物、第一幕至第三幕的内容；其中，所述剧中人物为所述演员表信息；所述剧中人物包括：人物A、人物B、人物C，等等；所述第一幕至第三幕中的内容为所述第一文本数据；所述第一文本数据中包括有对应每个剧中人物的第二子数据；如，人物A对应着第一幕中的第2段话、第二幕中的第5段话、第8段话，等等；人物B对应中第一幕中的第1段话、第二幕中的第10-11段话、第3幕中的第1段话、第4段话，等等；人物C对应着第一幕中的3段话；如此，可以确定第二关键人物A所对应的第二子数据包括第一幕中的第2段话、第二幕中的第5段话、第8段话；第二关键人物B所对应的第二子数据包括第一幕中的第1段话、第二幕中的第10-11段话、第3幕中的第1段话、第4段话；第二关键人物C所对应的第二子数据包括第一幕中的3段话。

又如，在另一应用场景中，所述备选文本数据为一小品剧本；该小品剧本中包括：出演者人物，剧本台词；其中，所述出演者人物为所述演员表信息；各出演者人物分别为一个第二关键人物；各出演者人物中对应的剧本台词为所述出演者的第二子数据。

在本发明实施例中，若确定所述备选文本数据为剧本类数据，则确定所述剧本类数据有预定角色(即第二关键人物)，该第二关键人物可以基于剧本类数据中的演员表信息确定；如此，可以基于各预定角色在所述剧本类数据中所对应的文本数据，可以确定所述第二关键人物所对应的第二子数据，从而基于所述第二子数据合成所述第二关键人物的合成语音。

在一些实施例中，所述步骤103，包括：

其中，所述时间点信息包括表征一段时间的信息。例如，第一文本数据在所述备选视频中出现的时间点为第10分钟至10分20秒，则所述10分钟至10分20秒为所述时间点信息。

例如，在一应用场景中，若确定所述第一文本数据在备选文本数据对应的备选视频数据中出现的时间点为第1分钟至第1分钟10秒，则获取所述备选视频数据中第1分钟至第1分钟10秒的关键帧，基于所述关键帧获取所述第一图像。

其中，所述第一图像可以为关键人物表情、和/或动作等的图像。

在一实施例中，基于所述第一文本数据，生成第一合成语音的一种实现方式为：将所述第一文本数据输入到马尔科夫模型(HMM)模型中，以输出与所述第一文本数据对应的第一合成语音。

在另一些实施例中，还可以基于HMM模型，获取所述第一合成语音的元音时间序列。如此，可以基于所述第一合成语音的元音时间序列，获取所述第一合成语音匹配的第一图像。

其中，所述HMM模型为一种概率图模型，可以用来表示序列之间的相关关系；所述HMM模型常被用于对时序数据建模。

本发明实施例中，可以基于所述第一合成语音及其对应的第一文本数据，确定所述第一合成语音的时间序列(时间点信息)，从而基于所述时间序列确定出与第一合成语音匹配的关键人物的图像；从而可以有利于获得关键人物的视频。

在一些应用场景中，可以采用固定的视频模板，配置所述关键人物的视频。例如，所述视频模板包括但不限于以下之一：素材获取方式、关键人物生成配置。

其中，所述素材获取方式包括但不限于以下至少之一：素材的来源、标签命中规则、素材过滤规则、所属文件目录、素材类型、音/视频时长、素材的构图方式。这里，所述素材过滤规则包括素材的创建时间范围。

所述关键人物生成配置，包括但不限于以下至少之一：关键人物的性别、形象、表情、动作、图像背景。

在一可选实施例中，所述关键人物配置还可以以镜头为粒度进行配置。

为了统一不同视频以相同的格式进行配置，方便视频批量的生产，可以使视频基于预设的视频模块生成。在一些实施例中，所述方法还包括：

设置视频模板；

其中，所述设置视频模板包括以下至少之一：

设置视频的文件目录；

设置视频的时长；

设置视频的关键人物的标识信息。

其中，所述标识信息包括但不限于以下至少之一：性别、姓名、说话频率。

在本发明实施例中，通过设置视频的文件目录可以确定所述视频的存放位置；通过设置视频的时长，可以使得不用脚本数据对应的视频具有相同的播放时长；通过设置视频的关键人物的标识信息，可以确定各个视频的关键人物。

在一些实施例中，所述设置视频模块，还包括以下至少之一：

若检测到用户的第一操作，基于所述第一操作确定设置视频模块；

以预设的时间间隔，设置视频模块；

当新增至少一条新闻类数据和/或剧本类数据，设置视频模块。

在本发明实施例中，提供了多种触发设置视频模块的方式。

在一些实施例中，所述方法还包括以下至少之一：

在所述第一视频中添加与所述第一视频对应的第一字幕；

其中，所述第一特定效果为包括但不限于以下至少之一：具有转场的特定效果、具有省去视频的片头片尾的特定效果、具有标识电视台或电视频道的特定效果。

例如，在一应用场景中，在显示屏中的第一区域播放所述备选视频数据，在所述显示屏的第二区域播放所述第一视频；或者，利用所述关键人物的第一视频对所述备选视频数据进行讲解。其中，所述第一区域的面积大于所述第二区域的面积；或者，所述第一区域的在显示屏的中心区域位置，所述第二区域在所述显示屏的四周位置；或者，所述第一区域的背景颜色是彩色的，所述第二区域的背景颜色为白色的。如此，可以将所述备选视频作为第一类视频数据(主画面数据)，以及将所述第一视频作为第二类视频数据(辅助画面)进行设置在同一显示屏中显示。

又如，在一应用场景中，在显示屏播放第一视频时，可以对所述第一视频配置与所述第一视频对应的字幕；所述字幕的数据来自所述第一文本数据。如此，使得用户在观看所述关键人物的第一视频的同时，还能通过显示屏中的字幕了解到所述第一视频的内容。

这里，可以规定所述字幕的样式，字幕的特效。

在一可选实施例中，所述字幕还可以包括所述关键人物的标识信息或身份信息。

再如，在一应用场景中，在显示屏中播放所述第一视频的同时，还可以加入背景音乐(BGM)。如此，可以在所述第一视频中添加与所述第一视频匹配的第一背景音乐。若确定所述第一视频为青春类话剧，可以为所述第一视频配置欢快的第一背景音乐；若确定所述第一视频为伦理类短剧，可以为所述第一视频配置低沉的第一背景音乐；若确定所述第一视频为演讲类视频，可以为所述第一视频在不同时间段配置不同的第一背景音乐，或轻缓或高昂；等等。如此，可以调节所述第一视频的气氛，能够增加第一视频的情感的表达，丰富第一视频的播放。

再如，在一应用场景中，在显示屏播放第一视频时，可以采用不同的特效进行播放。如，若所述第一视频为戏剧视频，添加转场的特效，可以使得戏剧中的一幕幕连接起来，形成一个完整的视频片段。如，若所述第一视频为电视剧视频，可以通过快进片头片尾的特效，可以直接跳过电视剧视频的片头片尾。如，若在所述第一视频添加电视台或者电视频道专用标识(台标)，可以知晓所述第一视频的播放电视台或电视频道。

在本发明实施例中，可以将所述备选视频数据与所述第一视频组合播放，可以在第一视频中加入字幕配置、可以在所述第一视频中加入背景音乐、和/或可以在所述第一视频中添加特效等，能够丰富所述第一视频的播放，能够增益关键人物的第一视频播放的观赏性。

如图3所示，本发明实施例公开了一种视频生成的处理方法，所述方法包括以下步骤：

步骤S301a：获取新闻资讯数据；

可选地，终端设备获取新闻资讯数据。

这里，所述新闻资讯数据为上述实施例中的新闻类数据中的一种。

在一可选实施例中，所述步骤S301a还包括：获取与所述新闻资讯数据相对应的影视数据。

步骤S301b：获取剧情脚本数据；

可选地，所述终端设备获取剧情脚本数据、

这里，所述剧情脚本数据为上述实施例中的剧本类数据中的一种。

步骤S301c：获取影视数据；

可选地，所述终端设备获取与所述剧情脚本数据相对应的影视数据。

步骤S302：利用新闻摘要算法，获得第一关键语句；

可选地，所述终端设备将所述新闻资讯数据利用新闻摘要算法，获得第一关键语句；其中，所述第一关键语句为表征所述新闻资讯数据的核心内容的信息。

如此，可以简化所述新闻资讯数据的内容的同时，还能保持所述新闻资讯数据的含义不变。

步骤S303：提取关键人物的第一文本数据；

这里，所述关键人物包括第一关键人物和第二关键人物。其中，第一关键人物与所述新闻资讯数据对应，所述第二关键人物与所述剧情脚本数据对应。

这里，所述关键人物可以为主播。

可选地，若为新闻资讯数据，所述终端设备确定所述第一关键语句包括的第一子数据的第一关键人物；提取所述第一关键人物对应的第一子数据；确定所述多个第一关键人物对应的第一子数据为第一文本数据。

若为剧情脚本数据，所述终端设备基于所述演员表信息，确定所述第一关键语句中包括的第二子数据的第二关键人物；确定所述多个第二关键人物对应的第二子数据为第一文本数据。

步骤S304：合成所述关键人物的第一合成语音；

可选地，所述终端设备基于所述第一文本数据，合成所述关键人物的第一合成语音。

步骤S305：获取所述第一合成语音的语音时间序列；

可选地，所述终端设备获取所述第一合成语音的语音时间序列。

步骤S306：配置视频模板；

可选地，所述终端设备配置视频模块。

步骤S307：基于所述语音时间序列，生成生物状态序列；

可选地，所述终端设备基于所述语音时间序，生成生物状态序列；其中，所述生物状态序列用于获取图像；这里，所述生物状态序列用于获取与所述第一合成语音匹配的第一图像。

步骤S308：生成所述关键人物的视频；

可选地，所述终端设备基于所述生物状态序列获取与所述第一合成语音匹配的第一图像；基于所述第一合成语音及所述第一图像生成所述关键人物视频。

步骤S309：生成目标视频。

可选地，所述终端设备基于所述关键人物视频以及影视数据的结合，生成目标视频；其中，所述目标视频包括：音频和视频。

在一可选实施例中，所述目标视频还可以包括字幕。

在一可选实施例中，所述目标视频为包括所述关键人物的视频与所述影视数据的视频；所述关键人物的视频为所述影视数据的视频做讲解。

在本发明实施例中，可以对新闻资讯数据进行摘要提取，生成适合口播的角色脚本(即第一关键人物对应的第一子数据)，以及将剧情脚本数据生成适合口播的角色脚本(即第二关键人物的第二子数据)。

且，本发明实施例可以调度视频模块，生成关键人物(主播)的视频，无需消耗大量人工，能快速、批量生成主播的视频。且，本发明实施例中，还可以基于主播的视频以及影视数据进行结合，生成新的目标视频。

这里需要指出的是：以下视频生成的处理方法的描述，与上述视频生成的处理方法项描述是类似的，同方法的有益效果描述，不做赘述。对于本发明视频生成的处理装置实施例中未披露的技术细节，请参照本发明视频生成的处理方法实施例的描述。

如图4所示，本发明实施例还提供了一种视频生成的处理装置，所述装置包括：

第一获取单元41，用于获取备选文本数据及所述备选文本数据对应的备选视频数据；

第一处理单元42，用于基于所述备选文本数据，获取关键人物的第一文本数据，并生成所述关键人物的第一合成语音；

第二获取单元43，用于基于所述备选视频数据，获取与所述第一合成语音匹配的第一图像；

第二处理单元44，用于利用设置的视频模板，基于所述第一图像及所述第一合成语音，生成所述关键人物的第一视频。

在一些实施例中，所述第一处理单元42，用于若确定所述备选文本数据为新闻类数据，将所述新闻类数据进行摘要提取，获得第一关键语句；基于所述第一关键语句，生成包括至少一个第一子数据的第一文本数据；为所述第一子数据配置第一关键人物，并基于所述第一子数据生成所述第一关键人物的第一合成语音。

在一些实施例中，所述第一处理单元42，用于将所述新闻类数据拆分为至少一个第一备选语句；利用第一训练模型，计算出所述第一备选语句的分数；若确定所述第一备选语句的分数大于第一阈值，确定所述第一备选语句为第一关键语句。

在一些实施例中，所述第一处理单元42，还用于若确定所述备选文本数据为剧本类数据，根据演员表信息，确定出第二关键人物的第二子数据；其中，所述剧本类数据包括至少一个第二子数据的第一文本数据；基于所述第二子数据，生成所述第二关键人物的第一合成语音。

在一些实施例中，所述第二获取单元43，用于基于所述第一文本数据，确定所述第一合成语音在所述备选视频数据中的时间点信息；基于所述时间点信息，从所述视频数据中提取与所述第一合成语音匹配的第一图像。

在一些实施例中，所述装置还包括：视频模板配置单元45；其中，

所述视频模板配置单元45，还用于设置视频模板；

其中，所述设置视频模板包括以下至少之一：

设置视频的文件目录；

设置视频的时长；

设置视频的关键人物的标识信息。

在一些实施例中，所述第二处理单元44，还用于以下至少之一：

在所述第一视频中添加与所述第一视频对应的第一字幕；

如图5所示，本发明实施例还公开了一种终端设备，所述终端设备包括：处理器51和用于存储能够在处理器51上运行计算机服务的存储器52，其中所述处理器51用于运行所述计算机服务时，实现应用于所述终端设备的所述的视频生成的处理方法。

在一些实施例中，本发明实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

而处理器可能种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

在一些实施例中，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits，ASIC)、数字信号处理器(Digital SignalProcessing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(ProgrammableLogic Device，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本发明又一实施例提供了一种计算机存储介质，该计算机可读存储介质存储有可执行程序，所述可执行程序被处理器执行时，可实现应用于所述服务器或终端设备中的视频生成的处理方法的步骤。例如，如图1-图3所示的方法中的一个或多个。

在一些实施例中，所述计算机存储介质可以包括：U盘、移动硬盘、只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。

需要说明的是：本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种视频生成的处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述备选文本数据，获取关键人物的第一文本数据，并生成所述关键人物的第一合成语音，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述新闻类数据进行摘要提取，获得第一关键语句，包括：

将所述新闻类数据拆分为至少一个第一备选语句；

利用第一训练模型，计算出所述第一备选语句的分数；

4.根据权利要求1所述的方法，其特征在于，所述基于所述备选文本数据，获取关键人物的第一文本数据，并生成所述关键人物的第一合成语音，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述备选视频数据，获取与所述第一合成语音匹配的第一图像，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

设置视频模板；

其中，所述设置视频模板包括以下至少之一：

设置视频的文件目录；

设置视频的时长；

设置视频的关键人物的标识信息。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括以下至少之一：

在所述第一视频中添加与所述第一视频对应的第一字幕；

8.一种视频生成的处理装置，其特征在于，所述装置包括：

9.一种终端设备，其特征在于，所述终端设备包括：处理器和用于存储能够在处理器上运行计算机服务的存储器，其中所述处理器用于运行所述计算机服务时，实现权利要求1-7任一项所述的视频生成的处理方法。

10.一种存储介质，所述存储介质中有计算机可执行指令，其特征在于，所述计算机可执行指令被处理器执行实现权利要求1-7任一项所述的视频生成的处理方法。