CN110532426A

CN110532426A - 一种基于模板抽取多媒体素材生成视频的方法及系统

Info

Publication number: CN110532426A
Application number: CN201910795532.1A
Authority: CN
Inventors: 陈凌云; 滕思敏
Original assignee: Xinhua Wisdom Cloud Technology Co Ltd
Current assignee: Xinhua Wisdom Cloud Technology Co Ltd
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2019-12-03

Abstract

本发明公开一种基于模板抽取多媒体素材生成视频的方法，包括以下步骤：获取多媒体素材，预处理所述多媒体素材后进行标签化处理，输出各多媒体素材的标签，并按照预设的聚类规则将所述多媒体素材及其相对应的标签进行聚类，获得若干个数据集；获取用户输入的模板配置数据，根据所述模板配置数据和预设的初始模板建立视频模板；根据模板配置数据自动进行视频生成任务，此时根据模板配置数据按照标签抽取多媒体素材，根据所述模板配置数据和所抽取的多媒体素材生成视频并输出。本发明无需用户寻找、筛选、确认视频素材，也可根据用户需要自动进行视频生成任务，减少用户重复的操作流程。

Description

一种基于模板抽取多媒体素材生成视频的方法及系统

技术领域

本发明涉及视频生成技术领域，尤其涉及一种基于模板抽取多媒体素材生成视频的方法及系统。

背景技术

现有视频生成的技术通常为抽取视频或图片的数据特征，(包括视觉元素和音频元素)，与预设的视频模板进行匹配，利用匹配成功的视频模板生成视频。

现有视频生成的技术存在以下缺陷：

1、需要用户上传生成视频的视频素材，根据相匹配的视频模板对视频素材进行合成，无法实现批量、自动的视频生成；

2、现有技术用户无法根据其实际需要自行配置视频模板，也无法根据生成视频的效果自行调整视频模板。

综上，需要对现有技术做进一步改进。

发明内容

本发明针对现有技术中的缺点，提供了一种基于模板抽取多媒体素材生成视频的方法及系统。

为了解决上述技术问题，本发明通过下述技术方案得以解决：

一种基于模板抽取多媒体素材生成视频的方法，包括以下步骤：

获取多媒体素材，预处理所述多媒体素材后进行标签化处理，输出各多媒体素材的标签，并按照预设的聚类规则将所述多媒体素材及其相对应的标签进行聚类，获得若干个数据集；

获取用户输入的模板配置数据，根据所述模板配置数据和预设的初始模板建立视频模板，所述模板配置数据包括任务触发规则、素材抽取规则和模板样式数据，所述素材抽取规则用于指定数据集，还用于指定标签；

根据任务触发规则判断是否开始进行视频生成任务，当判定开始进行视频生成任务时，根据素材抽取规则从所指定的数据集中抽取与所指定的标签相对应多媒体素材，将所抽取的多媒体素材按照所述模板样式数据生成视频并输出。

作为一种可实施方式，所述任务触发规则包括手动触发、事件触发和/或定时触发；

所述手动触发是获取用户输入的模板选择信息，根据模板选择信息进行匹配，匹配成功时触发相应视频模板进行视频生成任务；

所述事件触发是设置触发词和触发词来源，根据触发词来源将各多媒体素材的标签与触发词相匹配，当匹配成功时触发相应视频模板进行视频生成任务；

所述定时触发是设置触发时间，根据触发时间定时触发相应视频模板进行视频生成任务。

作为一种可实施方式：

所述模板配置数据还包括素材排序规则，所述素材排序规则是将所抽取的多媒体素材根据时间和/或标签进行排序。

作为一种可实施方式，根据素材抽取规则从所指定的数据集中抽取与所指定的标签相对应多媒体素材的具体步骤为：

所述素材抽取规则还用于指定类型、指定来源、指定时长和指定数量；

根据指定类型、指定来源、指定时长对所指定的数据集中所有多媒体素材进行筛选，再从筛选通过的素材中按照指定的标签抽取指定数量的多媒体素材。

作为一种可实施方式，根据所抽取的多媒体素材和所述模板样式数据生成视频并输出后还包括效果调整步骤，具体步骤为：

获取用户输入的调整信息，根据调整信息对任务触发规则、素材抽取规则和/或模板样式数据进行相应调整，更新并保存调整后的视频模板，所述模板样式数据包括字幕样式数据、配乐样式数据、片头样式数据、片尾样式数据、转场样式数据、贴图样式数据、滤镜样式数据、台标样式数据和水印样式数据；

根据调整后的视频模板重新进行视频生成任务，生成调整后的视频并输出。

作为一种可实施方式，获取多媒体素材，预处理所述多媒体素材后进行标签化处理，输出各多媒体素材的标签，并按照预设的聚类规则将所述多媒体素材及其相对应的标签进行聚类，获得若干个数据集的具体步骤为：

获取多媒体素材，所述多媒体素材包括视频素材、音频素材、文本素材和图像素材，将所述多媒体素材分解为文本数据、音频数据和/或图像数据；

标签化处理所述文本数据，输出与文本数据相对应的实体标签、文本标签、分类标签和/或触发标签；

标签化处理所述音频数据，输出与所述音频数据相对应的声音标签；

标签化处理所述图像数据，输出与所述图像数据相对应的人脸标签、物体标签和/或场景标签；

将所述多媒体素材、分解获得的文本数据及其相对应的标签、分解获得的音频数据及其相对应的标签、分解获得的图像数据及其相对应的标签按照预设的聚类规则进行聚类，获得若干个数据集。

作为一种可实施方式，根据素材抽取规则从所指定的数据集中抽取与所指定的标签相对应多媒体素材后，还包括抽取字幕步骤，具体步骤为：

模板配置数据包括字幕抽取规则，所述字幕抽取规则是所抽取的多媒体素材与文本数据之间的映射关系，根据所述映射关系抽取与所抽取的多媒体素材相对应的文本数据作为字幕。

为解决上述技术问题，本发明还提出一种基于模板抽取多媒体素材生成视频的系统，包括：

素材处理模块，用于获取多媒体素材，预处理所述多媒体素材后进行标签化处理，输出各多媒体素材的标签，并按照预设的聚类规则将所述多媒体素材及其相对应的标签进行聚类，获得若干个数据集；

人机交互模块，用于获取用户输入的模板配置数据，根据所述模板配置数据和预设的初始模板建立视频模板，所述模板配置数据包括任务触发规则、素材抽取规则和模板样式数据，所述素材抽取规则用于指定数据集，还用于指定标签；

视频生成模块，用于根据任务触发规则判断是否开始进行视频生成任务，当判定开始进行视频生成任务时，根据素材抽取规则从所指定的数据集中抽取与所指定的标签相对应多媒体素材，将所抽取的多媒体素材按照所述模板样式数据生成视频并输出。

作为一种可实施方式，还包括效果调整模块，所述效果调整模块被配置为：

作为一种可实施方式，所述素材处理模块被配置为：

本发明由于采用了以上技术方案，具有显著的技术效果：

1、本发明通过对多媒体素材的标签化处理和模板配置数据的设计，使用户无需自行筛选、确定模板素材，能够简化用户的操作，提供工作效率。

2、本发明任务抽取规则的设计，无需用户手动操作即可实现视频模板对应的视频生成任务的自动进行，满足用户批量、自动生成视频的需要。

3、本发明对素材排序规则的设计，能够通过多种排序方式指定所抽取的多媒体素材的播放顺序，提高生成视频的灵活性。

4、本发明通过指定类型、指定来源、指定时长和指定数量对所抽取的多媒体素材做进一步限定，使所抽取的多媒体素材更贴合用户的需要。

5、本发明通过对效果调整步骤的设计，支持用户通过交互操作修改、调优视频模板，针对视频效果或者需求变更快速调整，使生成的视频更贴合用户的需要。

6、本发明通过将多媒体素材分解成文本数据、音频数据和/或图像数据，再针对各数据的特征进行标签化处理，使标签种类更加丰富全面，一方面便于后续视频生成任务按照标签抽取的多媒体素材更贴近用户的需要，另一方面能够便于用户针对不同任务目标配置视频模板。

7、本发明对字幕抽取规则的设计，能够自动提供更贴合所抽取的多媒体材料的字幕，与现有视频生成技术中无字幕或需要用户手动输入字幕相比，丰富所生成视频的视频内容同时，还能提高视频生成效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一种基于模板抽取多媒体素材生成视频的方法的流程示意图；

图2是实施例1中针对视频素材进行标签化处理的流程示意图；

图3是实施例1中调度视频生成任务的流程示意图；

图4是本发明一种基于模板抽取多媒体素材生成视频的模块连接示意图。

图中，1是素材获取模块、2是人机交互模块、3是视频生成模块、4是效果调整模块。

具体实施方式

下面结合实施例对本发明做进一步地详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

实施例1、一种基于模板抽取多媒体素材生成视频的方法，如图1所示，包括以下步骤：

S100、获取多媒体素材，预处理所述多媒体素材后进行标签化处理，输出各多媒体素材的标签，并按照预设的聚类规则将所述多媒体素材及其相对应的标签进行聚类，获得若干个数据集；

S200、获取用户输入的模板配置数据，根据所述模板配置数据和预设的初始模板建立视频模板，所述模板配置数据包括任务触发规则、素材抽取规则和模板样式数据，所述素材抽取规则用于指定数据集，还用于指定标签；

注，预设的初始模板中含有默认模板配置数据，根据用户输入的模板配置数据对默认模板配置数据进行配置，建立视频模板。

S300、根据任务触发规则判断是否开始进行视频生成任务，当判定开始进行视频生成任务时，根据素材抽取规则从所指定的数据集中抽取与所指定的标签相对应多媒体素材，将所抽取的多媒体素材按照所述模板样式数据生成视频并输出。

由上可知，本实施例中通过对多媒体素材标签化处理，并设置素材抽取规则，从而使用户无需自行筛选生成视频所用的多媒体素材，能够简化用户的操作，提供工作效率。本实施例中用户能够根据实际需要自行输入模板配置数据即可建立满足其需求的视频模板，与现有视频生成技术方案相比，灵活度更高。

现有技术中每个视频任务都需用户针对视频任务寻找视频素材，在进行另一个视频任务时，用户往往需要重新进行寻找，工作效率低，本实施例中通过将所有采集的多媒体素材进行聚类保存，同一数据集可以为若干个视频模板提供多媒体素材，从而实现对所保存多媒体素材的充分利用。

进一步地：

所述任务触发规则包括手动触发、事件触发和/或定时触发；

本实施例中，所述模板选择信息包括指定模板信息和指定数据集，所述指定模板信息可以为模板名称或模板ID，作为指定模板信息的模板名称或模板ID具有唯一性，即，用户选择数据集后选择视频模板，此时根据用户的操作信息生成模板选择信息，根据所述模板选择信息中的模板名称选择视频模板，此时调用该视频模板进行视频生成任务，并根据模板选择信息的指定数据集配置素材抽取规则，即，此时该视频模板按照素材抽取规则从模板选择信息所指定的数据集抽取多媒体素材。

注，本实施例中模板名称包括用户自动设定模板名和根据模板配置信息按照预设的规则自动生成的补充信息，所述预设的规则由用户根据实际需要自行设定，本实施例中预设的规则为抽取模板配置信息中指定标签和指定数据库作为模板名的补充信息，如补充信息为：标签(用户自定义的若干个标签)、数据集(比如体育赛事名)；补充信息中各变量的个数及位置可以灵活配置

所述事件触发是设置触发词和触发词来源，根据触发词来源将各多媒体素材的标签与触发词相匹配，当匹配成功时触发相应视频模板自动进行视频生成任务；

注，用户可根据实际需要设置触发词和触发词来源，如触发词可以为“比赛结束”、触发词来源可以为素材来源(如某机构)，还可以为数据集(如某比赛聚类生成的数据集)；

注，所述触发时间为时间点(如每天19:00)，也可是时间段(如每隔1h)，由用户根据其实际需要自行设定。

由上可知，本实施例中提出三种不同的触发规则，用户可根据其实际需要进行组合配置或单独配置，如用户可根据实际需要设置任务触发规则为定时触发和手动触发，此时对应视频根据定时触发的规则按时进行视频生成任务，还可在用户选择该视频模板生成视频时，实时进行视频生成任务。

本实施例对任务触发规则的设计，使用户仅需输入一次模板配置数据，即可按照所设置的任务触发规则自动进行同系列视频生成的任务，无需用户手动操作即可实现视频模板对应的视频生成任务的自动进行，减少人工操作量的同时还能保证同系列视频风格的统一。每个视频模板对应一个视频生成任务，由于本实施例可以通过配置任务触发规则令各视频生成任务自动开始，本实施例中，用户可根据实际需要建立多个不同任务的视频模板，各视频模板可以指定相同、部分相同、完全不同的多个数据集进行视频的自动生成。

进一步地，所述模板配置数据还包括素材排序规则，所述素材排序规则是将所抽取的多媒体素材根据时间和/或标签进行排序。

所述素材排序规则用于确认所抽取的多媒体素材的播放顺序。

上述根据时间进行排序可以为时间正序/倒序排列，所述时间的类型由用户根据实际情况自行设定，如素材创建时间(即，素材聚类后保存的时间)。

上述根据标签进行排序可以为用户根据实际需要，通过定义素材抽取规则中指定标签的顺序，对所抽取多媒体素材进行排序。

用户还可根据实际需要，将时间排序与标签排序结合，对所抽取的多媒体素材进行更复杂的排序，如(标签|标签|标签)&(标签|标签|标签)&时间正序，即，可进行标签组内/组件排序。

由上可知，本实施例中能够利用标签时间使用户能够根据实际需要对播放顺序进行更复杂的定义，灵活性更高。

进一步地，所述步骤S300中根据素材抽取规则从所指定的数据集中抽取与所指定的标签相对应多媒体素材的具体步骤为：

指定类型为指定抽取多媒体素材的类型，包括但不限于音频、视频、图像和文本类型的素材。

指定来源为指定多媒体素材的来源，包括但不限于机构和人。

指定时长为指定抽取的多媒体素材的时长(音频/视频)，如，0～30s内。

指定数量为指定抽取的多媒体素材的个数，如，本实施例中用户可指定抽取0～25个素材。

指定数据集为指定抽取的多媒体素材的范围，即，仅抽取指定的数据集中的多媒体素材。

指定标签为指定抽取的多媒体素材的标签，用户可根据实际需要自定义标签抽取公式，通过“或”“且”“非”来定义逻辑关系，如(标签|标签|标签)&(标签|标签|标签)。

除上述指定条件外，用户还可根据实际需要进行配置，如指定范围(指定抽取抽取的多媒体素材的时间范围，如只抽取半小时内获取的多媒体素材)。

当开始进行视频生成任务时，根据指定类型、指定来源、指定时长筛选出指定的数据集中满足上述指定条件的多媒体素材，之后再按照指定的标签抽取(随机抽取)指定数量的多媒体素材，使所抽取的多媒体素材更贴合用户的需要。

进一步地，步骤S300根据所抽取的多媒体素材和所述模板样式数据生成视频并输出后还包括效果调整步骤，具体步骤为：

注：基于同一视频模板反复调整时，可根据实际需要设置保存每一次调整获得的视频模板，或对已保存的视频模板进行更新。

当用户对输出的视频不满意时，可根据实际需要输入调整信息，此时根据所述调整信息对相应视频模板中任意模板配置数据进行调整，采用调整完成后的视频模板重新进行视频生成任务，重新生成视频，即，此时被调整的视频模板相当于步骤S200中预设的初始模板，用户输入的调整信息相当于步骤S200中用户输入的模板配置信息。

调整内容包括但不限于：

①、对任务触发规则进行调整，包括但不限于变更任务触发规则(如由定时触发变更为时间触发)、调整定时触发的触发时间(如由每天19:00变更为每隔6h)、调整事件触发的触发词(如将触发词由比赛结束调整为进球)；

②、对素材抽取规则进行调整，包括但不限于对指定数据集、指定标签、指定类型、指定来源、指定时长和指定数量的添加、删除或变更；

当用户对所抽取的多媒体素材不满意时，可根据实际情况对素材抽取规则做进一步的定义，调整后的视频模板将按照重新定义的素材抽取规则抽取多媒体素材，生成视频。而现有技术中用户查看视频时对提供的视频素材不满意时，往往需要重新人工筛选视频素材进行视频生成，工作效率低，人工成本大，不适用于大批量视频生成的场景。

注，本实施例中，如用户没有对素材抽取规则规则进行调整，重新进行视频生成任务将不重新抽取多媒体素材。

③、对素材排序规则进行调整，包括但不限于变更素材排序规则(如由时间排序变更为标签排序)、调整时间排序的方式(如时间正序、时间倒序)、调整时间排序的类型(如按照素材发布时间进行时间排序调整为素材获取时间进行时间排序)；

注，素材发布时间指该多媒体素材被发布在网上的时间，素材获取时间指本实施例中获取该素材的时间。

④、对模板样式进行调整，即，对字幕样式数据、配乐样式数据、片头样式数据、片尾样式数据、转场样式数据、贴图样式数据、滤镜样式数据、台标样式数据和/或水印样式数据进行调整；

字幕样式数据包括配置字幕的位置、颜色、字体、大小等数据；

配乐样式数据包括配乐类型(运动、端庄等)、循环规则(单曲循环、随机等)、音频间淡入淡出的规则、节奏规则(如根据重音自动配调节素材出现的时间)。

注，本实施例中配乐样式数据还包括配乐和字幕的映射关系，即，当用户通过配乐样式数据配置配乐与字幕相映射时，将根据字幕合成语音，作为配置的音频。

转场样式数据包括所抽取的多媒体素材间进行转场的方式和间隔时间等数据，由于本实施例设置转场样式数据，故无需指定播放时长。

滤镜包括对所抽取的多媒体素材的滤镜处理方式、滤镜处理的循环规则(单个、随机等)；台标样式数据和水印样式数据均包括形状、位置、大小、颜色等数据。

用户可输入调整信息对以上模板样式数据进行相应调整。

由上可知，本实施例可交互式修改视频模板的模板配置数据，一方面可以根据实际需要实时变更视频生成任务的触发方式，另一方面可以针对已生成视频做进一步调整，使生成的视频达到用户想要的效果。

进一步地，如图2所示，所述步骤S100中获取多媒体素材，预处理所述多媒体素材后进行标签化处理，输出各多媒体素材的标签，并按照预设的聚类规则将所述多媒体素材及其相对应的标签进行聚类，获得若干个数据集的具体步骤为：

更进一步地，上述获取多媒体素材，所述多媒体素材包括视频素材、音频素材、文本素材和图像素材，将所述多媒体素材分解为文本数据、音频数据和/或图像数据的具体步骤为：

通过接入爬虫获取、用户上传、通过API(Application Programming Interface,应用程序编程接口)添加等方式获取多媒体素材，所述多媒体素材包括视频素材(含直播视频和离线视频)、音频素材、文本素材和图像素材。

当多媒体素材为视频素材时，将所述视频素材进行转码后抽取所述视频素材中的文本(OCR识别)、音频数据，并抽取所述视频素材的关键帧，获取其图像数据；将所得音频数据识别成文本，识别所得的文本和上述抽取所得的文本共同构成所述视频素材中的文本数据，所述文本数据具有时间戳。

当多媒体素材为音频素材时，将所述音频素材进行转码后获得音频数据，并识别所述音频数据中的文本，获得所述音频素材的文本数据，所述文本数据具有时间戳。

注，本实施采用阿里云公开的语音识别算法，识别获得与音频数据相对应的文本数据。

当多媒体素材为图像素材时，将所述图像素材进行转码后获得图像数据，同时抽取所述图像数据中的文本，获得所述图像素材的文本数据。

更进一步地，所述标签化处理所述文本数据，输出与文本数据相对应的实体标签、文本标签、分类标签和/或触发标签的具体步骤为；

根据实际情况建立实体库、标签库和触发词库，所述实体库中保存个人和/或机构名称；

将分解获得的文本数据进行命名实体识别(NER)，本实施例中采用现有的NLTK(Natural Language Toolkit，自然语言处理工具包)实现，抽取出文本数据中命名实体作为实体标签；本实施例中还通过实体链接(Entity Linking)将所述实体标签与实体库里实体进行链接，从而消除歧义，实体链接为现有技术，故无需详细告知相关领域的技术人员也能实现。

将分解获得的文本数据和标签库里面的标签进行字符串精准匹配，即，进行文本标签识别，为文本数据标注相对应的文本标签。

根据预设的文本类型对分解获得的文本数据进行分类，根据分类结果为文本数据标注相对应的分类标签。预设的文本类型如包括社会、军事等类型，相关领域的技术人员可根据实际需要自行设定所述文本类型，本实施例中通过现有的fasttext模型实现按照文本类型对文本数据的分类。

将分解获得的文本数据和触发词库里面的触发词进行关键词匹配，当匹配成功时为文本数据标注相应的触发标签。

更进一步地，所述标签化处理所述音频数据，输出与所述音频数据相对应的声音标签的具体步骤为；

将音频数据分割成固定长度的音频片段，识别各音频片段中的声音，并根据识别结果为音频片段标注声音标签。

本实施例中将音频数据切割成切成3秒的音频片段，利用现有技术已公开的城市声音分类算法Urban Sound Classificaion识别算法对音频片段的按照声音类型进行分类，声音类型包括笑声/掌声/欢呼声等，根据识别结果输出相应的声音标签(即，笑声/掌声/欢呼声)。

更进一步地，标签化处理所述图像数据，输出与所述图像数据相对应的人脸标签、物体标签和/或场景标签的具体步骤为；

识别图像数据中的人脸，并根据识别结果标注相应的人脸标签，所得的人脸标签与上述实体库中实体相映射；本实施例中通过调用百度公开的人脸识别算法实现对图像数据的人脸识别。

识别图像数据中的物体，并根据识别结果输出对应的物体标签，本实施例中调用现有公开的yolo3算法，实现对图像数据中的物体的识别，相关领域的技术人员可根据实际需要自行设定需识别的物品，如警车、医生、消防员等。

识别图像数据中的场景，并根据识别结果输出对应的场景标签，本实施例中调用现有公开的MCE Loss算法，对图像数据中的水、湖泊，海洋、河流、植物、树、多云、男人、草、夜(傍)晚、花、道路、建筑、天空、山、田野、村庄、雨、背景虚化、交通工具、鸟、沙漠、女人、食物等场景进行识别，并输出相应的场景标签。

注，除上述输出标签的方式外，用户还可根据实际需要进行人工手动打标。

本发明通过将多媒体素材分解成文本数据、音频数据和/或图像数据，再针对各数据的特征进行标签化处理，使标签种类更加丰富全面，一方面便于后续视频生成任务按照标签抽取的多媒体素材更贴近用户的需要，另一方面能够便于用户针对不同任务目标配置视频模板。

以视频素材为例进行标签化处理的工作流程如图2所示，图2所示的素材中心中包含所有数据集。

更进一步地：将所述多媒体素材、分解获得的文本数据及其相对应的标签、分解获得的音频数据及其相对应的标签、分解获得的图像数据及其相对应的标签按照预设的聚类规则进行聚类，获得若干个数据集的具体步骤为：

所述预设的聚类规则是按照素材的来源、标签和/或文本信息(素材标题、素材正文)进行相似度比对，当相似度达到超过预设的相似度阈值时，本实施例中相似度阈值为0.9，将对应的多媒体素材放入同一个文件夹中，所述文件夹即所建立的数据集；

用户可根据实际需要自行设置聚类规则，如按照人脸标签进行聚类，将为每一个人脸建立一个数据集，此时用户可以配置视频模板生成展示某人图像的视频。注，用户还能对各多媒体素材进行手动归类整理。

本实施例通过机器聚类和人工聚类相结合建立若干个不同主题的数据集，从而实现对所获取的多媒体素材进行归类存档，为不同目标的视频任务提供丰富的视频素材。

进一步地，所述步骤S300中根据素材抽取规则从所指定的数据集中抽取与所指定的标签相对应多媒体素材后，还包括抽取字幕步骤，具体步骤为：

所抽取的多媒体素材与文本数据之间的映射关系包括：

音频数据与其识别获得的文本数据相映射，此时所抽取的多媒体素材含所述音频数据时，则采用与所述音频数据相对应的文本数据作为字幕。如抽取的多媒体素材为视频素材时，此时采用该视频素材中音频数据语音识别的文本数据作为字幕(注，此时还可采用所述音频数据配置生成视频的音频)。

图像数据的人脸标签与实体标签相映射，此时根据所抽取多媒体素材的人脸标签抽取具有相应实体标签的文本数据作为字幕。如所抽取多媒体素材的为图像数据，其人脸标签为某人物，此时抽取实体标签为所述人物文本数据作为字幕。

本实施例还可在获取多媒体素材的同时获取对该多媒体素材的摘要说明，作为该多媒体素材文本数据进行保存，此时可直接调取该文本数据作为字幕。如获取图像素材的同时采集对该图像素材的说明，当抽取该图像素材生成视频时，调用所采集的说明作为字幕。

现有利用视频模板生成视频的技术中，往往缺少字幕，即使有字幕也需要用户手动输入，本实施例中通过对字幕抽取规则的设计，使用户根据实际需要设置所抽取的多媒体素材与文本数据之间的映射关系，从而自动提供更贴合所抽取的多媒体材料的字幕，丰富所生成视频的视频内容同时，还能提高视频生成效率。

进一步地，如图3所示，所述步骤S300中将所抽取的多媒体素材按照所述模板样式数据生成视频并输出前，还包括视频生成任务调度的步骤，具体步骤如下：

用户通过人机交互界面输入模板配置数据、模板选择信息和调整信息，当触发开始进行视频生成任务时，所述视频生成任务进入MQ(消息队列)，此时对MQ(消息队列)中的视频生成任务进行调度。

解析视频生成任务，将视频生成任务按照模板配置数据拆分成若干个相互独立的元任务，所述元任务与除任务触发规则的模板配置数据一一对应(即，本实施例中按照素材抽取规则、字幕格式数据、配乐格式数据、转场格式数据、字幕格式数据、片头格式数据、片尾格式数据、水印格式数据、台标格式数据、贴图格式数据、滤镜格式数据、素材排序规则等将视频生成任务拆分为不同的原任务)；

判断所述视频生成任务为实时任务或离线任务，根据判断结果为视频生成任务赋予优先级并插入任务队列中，当所述视频生成任务为实时任务时，将解析获得的元任务赋予较高优先级插入任务队列，当所述视频生成任务为离线任务时，将解析获得的元任务赋予较低优先级插入任务队列；

上述较高优先级是高于离线任务优先级，即，优先处理实时任务。

注，本实施例中根据视频生成任务被触发的方式判断所述视频生成任务为实时任务或离线任务，当所述视频生成任务为定时触发/时间触发的自动生成任务时，判定其为离线任务，当所述视频生成任务为人工触发的任务时，判定其为实时任务。

当优先队列中存在视频生成任务时，按顺序从优先队列调取所述元任务进入模板任务队列，否则，从任务队列调取元任务进入模板任务队列；

根据各元任务进行视频渲染及和视频合成，生成与所述视频生成任务相对应的视频并输出。

注，视频渲染包括多个渲染阶段，每个渲染阶段包括所述多个元任务中至少一个元任务，每个渲染阶段的渲染结果为下一个渲染阶段的输入内容；

由上可知，用户通过人机交互界面建立视频模板、还通过人机交互界面手动触发视频生成任务，当触发视频生成任务后，所述视频生成任务进入MQ(消息队列)。视频生成任务进行解析后

当批量发起视频生成任务之后，对所有视频生成任务进行调度，维护和管理任务队列，交付任务处理结果，并实时根据任务调度的量级进行机器扩容缩容，从而保证视频合成效率，减少并发风险。

实施例2、一种基于模板抽取多媒体素材生成视频的系统，如图4所示，包括素材处理模块1、人机交互模块2和视频生成模块3；

素材处理模块1，用于获取多媒体素材，预处理所述多媒体素材后进行标签化处理，输出各多媒体素材的标签，并按照预设的聚类规则将所述多媒体素材及其相对应的标签进行聚类，获得若干个数据集；

人机交互模块2，用于获取用户输入的模板配置数据，根据所述模板配置数据和预设的初始模板建立视频模板，所述模板配置数据包括任务触发规则、素材抽取规则和模板样式数据，所述素材抽取规则用于指定数据集，还用于指定标签；

视频生成模块3，用于根据任务触发规则判断是否开始进行视频生成任务，当判定开始进行视频生成任务时，根据素材抽取规则从所指定的数据集中抽取与所指定的标签相对应多媒体素材，将所抽取的多媒体素材按照所述模板样式数据生成视频并输出。

进一步地，还包括效果调整模块4，所述效果调整模块被配置为：

进一步地，所述素材处理模块1被配置为：

进一步地，视频生成模块3包括任务调度中心和视频生成单元；

所述任务调度中心用于对进行的视频生成任务进行调度，任务调度中心被配置为：

解析视频生成任务，将视频生成任务按照模板配置数据拆分成若干个相互独立的元任务，所述元任务与除任务触发规则的模板配置数据一一对应；

判断所述视频生成任务为实时任务或离线任务，当所述视频生成任务为实时任务时，将解析获得的元任务插入优先队列，当所述视频生成任务为离线任务时，将解析获得的元任务插入任务队列；

所述视频生成单元用于按照视频生成任务生成相应视频，视频生成单元被配置为：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是：

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

此外，需要说明的是，凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化，均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于模板抽取多媒体素材生成视频的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于模板抽取多媒体素材生成视频的方法，其特征在于，所述任务触发规则包括手动触发、事件触发和/或定时触发；

3.根据权利要求1所述的一种基于模板抽取多媒体素材生成视频的方法，其特征在于：

4.根据权利要求1所述的一种基于模板抽取多媒体素材生成视频的方法，其特征在于，根据素材抽取规则从所指定的数据集中抽取与所指定的标签相对应多媒体素材的具体步骤为：

5.根据权利要求1所述的一种基于模板抽取多媒体素材生成视频的方法，其特征在于，根据所抽取的多媒体素材和所述模板样式数据生成视频并输出后还包括效果调整步骤，具体步骤为：

6.根据权利要求1至5任一所述的一种基于模板抽取多媒体素材生成视频的方法，其特征在于，获取多媒体素材，预处理所述多媒体素材后进行标签化处理，输出各多媒体素材的标签，并按照预设的聚类规则将所述多媒体素材及其相对应的标签进行聚类，获得若干个数据集的具体步骤为：

7.根据权利要求6所述的一种基于模板抽取多媒体素材生成视频的方法，其特征在于，根据素材抽取规则从所指定的数据集中抽取与所指定的标签相对应多媒体素材后，还包括抽取字幕步骤，具体步骤为：

8.一种基于模板抽取多媒体素材生成视频的系统，其特征在于，包括：

9.根据权利要求8所述的一种基于模板抽取多媒体素材生成视频的系统，其特征在于，还包括效果调整模块，所述效果调整模块被配置为：

10.根据权利要求8所述的一种基于模板抽取多媒体素材生成视频的系统，其特征在于，所述素材处理模块被配置为：