CN115357755B

CN115357755B - 视频生成方法、视频展示方法和装置

Info

Publication number: CN115357755B
Application number: CN202210958181.3A
Authority: CN
Inventors: 汪琦; 贺峰; 冯知凡; 柴春光
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-08-10
Filing date: 2022-08-10
Publication date: 2023-04-07
Anticipated expiration: 2042-08-10
Also published as: CN115357755A

Abstract

本公开提供了一种视频生成方法，涉及人工智能技术领域，尤其涉及知识图谱、自然语言处理技术领域。可应用于AIGC、智能创作等场景。具体实现方案为：获取针对事件序列的候选视频，事件序列包括M个事件节点信息，M为大于1的整数；将候选视频拆分为多个候选片段；将多个候选片段按照各自对应的事件节点进行划分，得到与M个事件节点各自对应的M个候选片段集合；针对每个候选片段集合，根据该候选片段集合中各个候选片段与对应事件节点之间的匹配度，从该候选片段集合中确定至少一个候选片段作为对应事件节点的目标片段；以及根据M个事件节点各自的目标片段，生成事件序列的视频。本公开还提供了一种视频展示方法、装置、电子设备和存储介质。

Description

视频生成方法、视频展示方法和装置

技术领域

本公开涉及人工智能技术领域，尤其涉及知识图谱、自然语言处理技术领域，可应用于AIGC(AI Generated Content，人工智能创造内容)、智能创作等场景。更具体地，本公开提供了一种视频生成方法、视频展示方法、装置、电子设备和存储介质。

背景技术

近年来，AI(Artificial Intelligence，人工智能)技术在内容创作方面的应用逐渐广泛。从AI只作为用于辅助内容创作的工具，到如今的AIGC已经能够独立完成写作、设计、绘画等创意性工作，进化速度十分明显。

AIGC已经广泛应用于各类场景，例如基于文字生成视频的场景，可以将文本转化成为视频，丰富用户的感知维度。

发明内容

本公开提供了一种视频生成方法、视频展示方法、装置、设备以及存储介质。

根据第一方面，提供了一种视频生成方法，该方法包括：获取针对事件序列的候选视频，其中，事件序列包括M个事件节点信息，其中，M为大于1的整数；将候选视频拆分为多个候选片段；将多个候选片段按照各自对应的事件节点进行划分，得到与M个事件节点各自对应的M个候选片段集合；针对每个候选片段集合，根据该候选片段集合中各个候选片段与对应事件节点之间的匹配度，从该候选片段集合中确定至少一个候选片段作为对应事件节点的目标片段；以及根据M个事件节点各自的目标片段，生成事件序列的视频。

根据第二方面，提供了一种视频展示方法，该方法包括：确定当前展示界面，当前展示界面包括目标事件的事件序列视频图标；以及响应于事件序列视频图标被选中，播放目标事件的事件序列视频；其中，事件序列视频是根据上述视频生成方法生成的。

根据第三方面，提供了一种视频生成装置，该装置包括：获取模块，用于获取针对事件序列的候选视频，其中，事件序列包括M个事件节点信息，其中，M为大于1的整数；拆分模块，用于将候选视频拆分为多个候选片段；划分模块，用于将多个候选片段按照各自对应的事件节点进行划分，得到与M个事件节点各自对应的M个候选片段集合；第一确定模块，用于针对每个候选片段集合，根据该候选片段集合中各个候选片段与对应事件节点之间的匹配度，从该候选片段集合中确定至少一个候选片段作为对应事件节点的目标片段；以及生成模块，用于根据M个事件节点各自的目标片段，生成事件序列的视频。

根据第四方面，提供了一种视频展示装置，该装置包括：第二确定模块，用于确定当前展示界面，当前展示界面包括目标事件的事件序列视频图标；以及展示模块，用于响应于事件序列视频图标被选中，播放目标事件的事件序列视频；其中，事件序列视频是根据上述视频生成装置生成的。

根据第五方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开提供的方法。

根据第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行根据本公开提供的方法。

根据第七方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本公开提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开的一个实施例的可以应用视频生成方法和视频展示方法的示例性系统架构示意图；

图2是根据本公开的一个实施例的视频生成方法的流程图；

图3是根据本公开的另一个实施例的视频生成方法的流程图；

图4是根据本公开的一个实施例的视频生成方法的示意图；

图5是根据本公开的一个实施例的跨模态匹配特征的确定方法的示意图；

图6是根据本公开的一个实施例的视频展示方法的流程图；

图7A是根据本公开的一个实施例的事件序列视频的展示效果图图7B～7C是根据本公开的一个实施例的展示界面示意图；

图8是根据本公开的一个实施例的视频生成装置的框图；

图9是根据本公开的一个实施例的视频展示装置的框图；

图10是根据本公开的一个实施例的视频生成方法和/或视频展示方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

伴随数据、算法、算力等核心技术的突破，AIGC正推动虚实共生趋势下内容创作的范式转变。近年来，围绕AI生产创造、人与AI交互的讨论一直不断。而随着AI技术不断迭代，作为除UGC(User generated content，用户原创内容)、PGC(Professionally generatedcontent，专业生产内容)以外的一种新型生产方式，AIGC已从概念走向落地。例如写稿机器人、AI手语主播以及AI虚拟数字人等产品已经在人们面前亮相。随着人工智能的发展，AIGC将在内容生成中占到更多比例。

由于AI可以帮助人在生产内容的过程中完成重复性的工作，提高生产流程的自动化水平，让机器去完成创作者不愿意做的“搬砖”工作，从而提高创作者的创作效率，所以AI已被用于做一些容错率比较高的场景，如基于文字生成视频(Text-To-Video)的场景，可以将文本转化成为视频，是一种跨模态的视频生成方法。

跨模态视频生成近年来成为一个比较热门的研究领域，但在众多多模态任务中，视觉生成相比语义理解、检索等任务都要更难，尤其是文本到视频的生成。这是由于文本到视频的转化难以保证逻辑性，例如生成图片像素、甚至是视频里连续的动作，真实性和语义一致性都有很大挑战。

一种文本生成视频方法，可以训练一个端到端模型，该模型的输入是各种VideoCaptioning(视频描述)文本信息，输出是一段视频。该端到端的视频生成方法得到的视频逻辑性和稳定性都较差。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

图1是根据本公开一个实施例的可以应用视频生成方法和视频展示方法的示例性系统架构示意图。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105进行交互，以接收或发送消息等。终端设备101、102、103可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机等等。

本公开实施例所提供的视频生成方法一般可以由服务器105执行。相应地，本公开实施例所提供的视频生成装置一般可以设置于服务器105中。本公开实施例所提供的视频展示方法一般可以由终端设备101、102、103执行。相应地，本公开实施例所提供的视频展示装置一般可以设置于终端设备101、102、103中。

图2是根据本公开的一个实施例的视频生成方法的流程图。

如图2所示，该视频生成方法200可以包括操作S210～操作S250。

在操作S210，获取针对事件序列的候选视频。

例如，互联网中的很多信息是关于事件的信息。针对一个事件主题连续发生的多个事件(也可以称为事件节点)可以称为事件脉络，该事件脉络中多个(例如M个，M为大于1的整数)事件节点的信息可以组成事件序列。事件脉络中M个事件节点是按照发生时间顺序排列的，因此，事件序列包含具有时间顺序的M个事件节点信息，每个事件节点信息包含该事件节点的标题信息和关联信息(例如相关联的视频、图像等信息)。

例如，针对一个主题为“XXX发新专辑”的事件，该事件序列可以表示为{[节点1：7月13日，XXX新专辑封面曝光]；[节点2：7月14日，XXX新专辑上线]；[节点3：7月15日，XXX第二波主打歌MV发布，并关联MV视频]；[节点4：7月16日，XXX回应新专辑销量问题]}。

针对上述事件序列，可以抽取各个事件节点信息中的标题、关键字等，组成短文本，根据抽取的每个事件节点的短文本生成该事件节点的文本特征(例如将短文本向量化)。M个事件节点信息的文本特征可以构成事件序列的结构化文本特征。

根据结构化文本特征可以拉取针对该事件序列的候选视频。例如可以计算该结构化文本特征与多个视频资源各自的特征(例如视频描述信息)之间的相似度，将相似度最高的前预设数量(例如100个)的视频资源确定为候选视频。多个视频资源可以来自特定的数据库、素材库以及网络搜索结果。

在操作S220，将候选视频拆分为多个候选片段。

例如，可以将候选视频以单个镜头画面为粒度进行拆分，得到多个候选片段。可以理解，每个候选片段是一个镜头画面，不存在镜头的切换。单镜头画面的候选片段有利于提取视觉特征，特征噪声小。

在操作S230，将多个候选片段按照各自对应的事件节点进行划分，得到与M个事件节点各自对应的M个候选片段集合。

例如，针对每个候选片段，可以确定该候选片段所属于的视频的发布时间，作为该候选片段的发布时间。还可以提取出候选片段的字幕、关键词等。根据该候选片段的字幕信息、关键词信息以及发布时间信息，可以确定与该候选片段对应的事件节点。

例如，事件序列具有M个事件节点，将多个候选片段按照各自对应的事件节点进行划分，可以得到M个候选片段集合，M个候选片段集合与M个事件节点各自对应。

在操作S240，针对每个候选片段集合，根据该候选片段集合中各个候选片段与对应事件节点之间的匹配度，从该候选片段集合中确定至少一个候选片段作为对应事件节点的目标片段。

例如，针对每个候选片段集合，可以评估该候选片段集合中的候选片段与对应事件节点的匹配度。根据匹配度对集合中的候选片段进行排序，排序高的候选片段可以作为对应事件节点的目标片段。

例如，针对每个候选片段，可以提取字幕、关键词等语义信息，并生成语义特征。还可以提取图像特征作为视觉特征。还可以根据作用在该候选片段上的操作行为(例如转发、点击、播放、浏览等)确定该候选片段的热度特征。还可以根据候选片段的清晰度或图像分辨率等确定候选片段的质量特征。

可以根据候选片段的视觉特征与对应事件节点的文本特征之间的关系(例如相似度)，确定该候选片段与对应事件节点之间的跨模态匹配特征。可以根据候选片段的语义特征与对应事件节点的文本特征之间的关系(例如相似度)，确定该候选片段与对应事件节点之间的文本匹配特征。根据跨模态匹配特征、文本匹配特征、热度特征以及质量特征等多个维度的特征可以确定候选片段的综合匹配度。

例如，针对每个候选片段集合，可以将该集合中综合匹配度最高的至少一个候选片段作为对应事件节点的目标片段。

在操作S250，根据M个事件节点各自的目标片段，生成事件序列的视频。

例如，可以按照M个事件节点的时间顺序，将M个事件节点的目标片段进行合成，得到合成视频。该合成视频由于包含了各个事件节点的目标片段，因此，该合成视频具有事件进展的逻辑性，可以作为事件序列的视频(可以称为事件序列视频)。

例如，为了保证事件序列视频的稳定性，可以在合成视频中彼此相邻的两个目标片段之间添加渲染画面，使得该彼此相邻的两个目标片段之间的切换更加流畅。

例如，针对彼此相邻的两个目标片段，可以将前一目标片段中的最后一帧的画面作为待渲染画面，将逐渐放大的该最后一帧画面作为渲染画面，并将渲染画面插入到该两个目标片段之间。在播放到前一目标片段的最后一帧画面时，可以展现最后一帧画面逐渐放大的渲染效果，待渲染画面播放完毕，可以切换到后一目标片段。

本公开实施例可以获取事件序列的候选视频，将候选视频拆分为多个候选片段，对候选片段进行事件节点的匹配、与对应事件节点之间匹配度的评估、选取目标片段以及目标片段的合成等一系列操作，可以针对事件序列进行精细化的视频生成，实现对事件脉络进行视频化播报。

此外，相比于端到端的视频生成方式，本实施例可以提高事件序列视频的质量、逻辑性和稳定性。

例如端到端的视频生成方式直接将文本转化为视频，难以保证视频画面的真实性以及语义一致性。本申请基于事件序列生成视频，能够保证事件序列视频的逻辑性。基于与事件序列中各个事件节点对应的候选片段的视觉特征、语义特征、热度特征以及质量特征确定目标片段，能够保证事件序列视频的真实性和质量。在将各个事件节点的目标片段进行合成的过程中添加渲染画面，能够保证事件序列视频的稳定性。

图3是根据本公开的另一个实施例的视频生成方法的流程图。

如图3所示，该视频生成方法可以包括操作S310～操作S380。

在操作S310，获取针对事件序列的候选视频。

在操作S320，将候选视频拆分为多个候选片段。

例如，操作S310～操作S320的具体实现方式参见上述操作S210～操作S220，这里不再赘述。

在操作S330，确定该候选片段集合中每个候选片段的视觉特征、语义特征、热度特征和质量特征。

例如，针对每个候选片段，可以根据该候选片段的字幕和关键词确定该候选片段在语义层面上的特征(语义特征)。根据该候选片段中的每一帧的图像特征可以确定该候选片段的视觉特征。

例如，根据作用在候选视频片段上的行为(例如点击、浏览、转发、显示等)信息，确定热度特征。例如被点击、浏览、转发的次数、被观看的时长等都可以作为热度特征。

例如，根据该候选片段的清晰度、片段内每一帧图像的分辨率等信息，可以确定该候选片段的质量特征。

在操作S340，根据候选片段的视觉特征与对应事件节点的文本特征之间的相似度，确定候选片段的跨模态匹配特征。

在操作S350，根据候选片段的语义特征与对应事件节点的文本特征之间的相似度，确定候选片段的文本匹配特征。

例如，针对每个候选片段，可以根据该候选片段的关键词、发布时间等，确定该候选片段的对应事件节点。

可以理解，候选片段具有视觉特征和语义特征，对应事件节点具有文本特征。可以分别计算候选片段的视觉特征与对应事件节点的文本特征之间的相似度，以及候选片段的语义特征与对应事件节点的文本特征之间的相似度。

例如，可以使用跨模态匹配算法计算候选片段的视觉特征和对应事件节点的文本特征之间的相似度，得到候选片段与对应事件节点之间的跨模态匹配特征。

例如，可以计算候选片段的语义特征与对应事件节点的文本特征之间的相似度，得到候选片段与对应事件节点之间的文本匹配特征。

在操作S360，根据候选片段的跨模态匹配特征、文本匹配特征、热度特征和清晰度特征，确定候选片段与对应事件节点的匹配度。

例如，可以将操作S340～S350确定的跨模态匹配特征、文本匹配特征以及操作S330确定的热度特征和质量特征组合在一起作为候选片段的总体特征。

例如，可以将多个候选片段的各自的总体特征输入到评估模型(例如rank模型)，评估模型对多个候选片段进行匹配度的评估，得到多个候选片段各自的匹配度评估值。

例如，与同一事件节点对应的候选片段可以组合在一起，作为该事件节点的候选片段集合。针对每个事件节点的候选片段集合，可以根据该集合中各个候选片段的匹配度评估值，对该集合中的候选片段进行排序，得到对应事件节点的候选片段排序结果。例如排序结果为Top1片段、Top2片段......TopK片段，K为大于2的整数。

在操作S370，针对每个候选片段集合，从候选片段集合中确定匹配度符合预设条件的至少一个候选片段，作为对应事件节点的目标片段。

在操作S380，根据M个事件节点各自的目标片段，生成事件序列的视频。

例如，操作S370～操作S380的具体实现方式参见上述操作S240～操作S250。这里不再赘述。

图4是根据本公开的一个实施例的视频生成方法的示意图。

如图4所示，本实施例包括事件序列确定模块410、事件解析模块420、候选片段确定模块430、目标片段确定模块440、后处理模块450以及事件序列视频460。

事件序列确定模块410用于确定事件序列中M个事件节点信息，M个事件节点例如包括事件1、事件2、.......、事件M(例如M大于2)。每个事件节点信息包括该事件节点的标题信息、时间信息以及关联信息(例如相关联的图像、视频、评论文本等)。

事件解析模块420用于解析出各个事件节点信息中的关键词，并将关键词进行向量化，生成文本特征。可以解析并生成M个事件节点的文本特征，构成结构化文本特征。例如事件解析模块420解析出结构化文本特征，该结构化文本特征中query_1表示事件序列中的第一个事件节点，该第一个事件节点的标题为“XXXX”，“X1”、“X2”可以表示该第一个事件节点的关键字(key_words)，“embedding1”表示该第一个事件节点的文本特征。类似的，query_2表示事件序列中的第二个事件节点，该第二个事件节点的标题为“YYYY”，“Y1”、“Y2”表示该第二个事件节点的关键字，“embedding2”表示该第二个事件节点的文本特征。

候选片段确定模块430包括候选视频确定单元431、视频处理单元432以及候选片段确定单元433。候选视频确定单元431用于根据结构化文本特征拉取候选视频。例如候选视频可以包括视频1、视频2、......视频T(T为大于2的整数，例如T＝10)，可以理解，候选视频可以包括事件节点关联的视频。视频处理单元432用于对候选视频进行过滤、拆条以及解析等操作。过滤操作例如包括从视频1、视频2、......视频T中过滤掉与事件序列相关性低的候选视频。拆条操作例如包括将候选视频以单个镜头画面为粒度进行拆分，得到多个候选片段。解析操作例如包括解析出候选片段中的字幕和关键词等。可以将视频处理单元432输出的多个候选片段输入候选片段确定单元433，候选片段确定单元433用于将输入的候选片段进行整理，例如按照时间顺序进行排列等，可以得到整理好的片段1、片段2、……、片段N(例如N＝100)。

目标片段确定模块440包括特征确定单元441、评估单元442以及目标片段确定单元443。

特征确定单元441用于针对每个候选片段提取语义特征、视觉特征、热度特征以及质量特征。利用视觉特征与对应事件节点的文本特征之间的相似度确定候选片段的跨模态匹配特征，利用语义特征与对应事件节点的文本特征之间的相似度确定候选片段的文本匹配特征。将候选片段的跨模态匹配特征、文本匹配特征、热度特征以及质量特征组合在一起形成候选片段的总体特征。

评估单元442用于将多个候选片段各自的总体特征(输入特征4421，不同的填充内容表示对应候选片段的特征)输入评估模型(例如rank模型)，得到多个候选片段各自的评估值，评估值例如可以表示候选片段与对应事件节点之间的匹配度。评估单元442还可以根据评估值对多个候选片段的特征进行排序，例如按照评估值从大到小的顺序进行排序，输出特征排序结果4422。

目标片段确定单元443用于将多个候选片段按照各自对应的事件节点进行划分，得到与M个事件节点各自对应的M个候选片段集合，M个候选片段集合例如包括集合1、......、集合M。针对每个候选片段集合，该集合内的候选片段按照评估值大小具有排列顺序，例如对于与第一个事件节点对应的候选片段集合1，可以包括按照评估值大小排序的K(K为大于1的整数，例如K＝5)个候选片段，K个候选片段的排列顺序为Top1片段、Top2片段、......、TopK片段。针对每个集合，可以从中选取评估值最高的至少一个候选片段作为对应事件的目标片段。例如，可以从集合1中选取Top1片段和Top2片段作为第一个事件节点的目标片段。

后处理模块450用于对目标片段进行去重、去水印、去OCR(去字幕)、去logo(标记)等操作，得到纯画面的目标片段。将M个事件节点的纯画面目标片段进行合成可以得到合成视频，对合成视频进行渲染，可以得到事件序列视频460。

下面对特征确定单元441中确定候选片段与对应事件之间的跨模态匹配特征的方法进行详细说明。

图5是根据本公开的一个实施例的跨模态匹配特征的确定方法的示意图。

如图5所示，候选片段501输入视觉特征提取网络510，可以得到视觉特征序列511。例如，视觉特征提取网络510可以是Faster R-CNN(Faster Region Convolutional NeuralNetworks，快速区域卷积神经网络)，用于对候选片段501中的每一帧图像进行特征提取，得到多个视觉特征V₁、V₂、V₃、......，组成视觉特征序列511。

事件节点信息502(例如包括标题、关键字等短文本)输入文本特征提取网络520，可以得到文本特征序列521。例如，文本特征提取网络520可以是BERT(BidirectionalEncoder Representation from Transformers，基于Transformer的双向编码表征)，用于对事件节点信息502的标题、关键字等短文本进行特征提取，得到多个文本特征T1、T₂、T₃、......，组成文本特征序列521。

可以计算视觉特征序列511和文本特征序列521之间的相似度(例如余弦距离等)，作为候选片段501与事件节点信息502之间的跨模态匹配特征503。

可以理解，跨模态匹配特征503可以作为候选片段501的一个维度的特征，可以与文本匹配特征、热度特征和质量特征一起组成候选片段501的总体特征。

本公开还提供了一种视频展示方法。

图6是根据本公开的一个实施例的视频展示方法的流程图。

如图6所示，该视频展示方法600包括操作S610～操作S620。

在操作S610，确定当前展示界面。

在操作S620，响应于事件序列视频图标被选中，播放目标事件的事件序列视频。

例如，当前展示界面可以包括目标事件的事件序列视频图标。响应于用户点击该事件序列视频图标可以播放该目标事件的事件序列视频。事件序列视频可以是根据上述视频生成方法确定的。

本公开实施例可以对事件信息进行视频化播报，丰富用户的感知维度。

图7A是根据本公开的一个实施例的事件序列视频的展示效果图。

例如，响应于事件序列视频图标被选中或点击，可以按照多个事件节点的时间顺序，依次播放多个事件节点各自的视频片段。响应于播放当前事件节点的视频片段，在当前事件节点的视频片段的画面上显示目标事件的主题、当前事件节点的标题信息以及时间信息。

如图7A所示，画面710～720可以是播放主题为“XXX发新专辑”的目标事件的事件序列视频过程中的画面。画面710可以是播放事件序列中的第一个事件节点的视频片段的画面，画面710可以展示目标事件主题“XXX发新专辑”，第一个事件节点的标题信息“XXX新专辑封面曝光”、第一个事件节点的时间信息“7月13日16：30”以及第一个事件节点的候选片段内容711，候选片段内容711例如可以是与“XXX新专辑封面”相关的图像或视频。

类似地，画面720可以是播放事件序列中的第二个事件节点的视频片段的画面，画面720可以展示目标事件主题“XXX发新专辑”，第二个事件节点的标题信息“XXX新专辑上线”、第二个事件节点的时间信息“7月14日09：00”以及第二个事件节点的候选片段内容721。候选片段内容721例如可以是XXX新专辑的MV片段等。

例如，画面710和画面720是按照各自对应的事件节点的时间顺序播放的。可以理解，先播放画面710，画面710播放完毕后，播放画面720。

图7B～7C是根据本公开的一个实施例的展示界面示意图。

如图7B所示，展示界面730可以是包含推荐列表的界面，推荐列表可以是各个互联网平台上的用于向用户推送信息的列表。推荐列表中的信息可以包括各种新闻、产品、事件等。针对推荐列表中的事件信息，可以在事件信息后面显示该事件的事件序列视频图标，通过点击该图标，可以播放事件序列视频。

例如，推荐列表中的第2位为主题是“XXX发新专辑”的事件消息，在该事件消息后可以设置有事件序列视频图标731，通过点击事件序列视频图标731可以播放该事件消息的完整事件序列视频。

如图7C所示，展示界面740可以包括搜索结果界面，该搜索结果界面是响应于目标事件的关键词的输入生成的。例如用户输入关键词“XXX新专辑”，可以显示展示界面740。

例如，展示界面740可以包括主题为“XXX发新专辑”的事件的多媒体卡片741，该多媒体卡片可以包括相关视频(例如专辑歌曲MV)和文本(例如相关报道)。在该多媒体卡片741下方可以设置有该事件的事件序列视频图标742。通过点击事件序列视频图标742可以播放该事件消息的完整事件序列视频。

本公开还提供了一种视频生成装置和视频展示装置。

图8是根据本公开的一个实施例的视频生成装置的框图。

如图8所示，该视频生成装置800包括获取模块801、拆分模块802、划分模块803、第一确定模块804以及生成模块805。

获取模块801用于获取针对事件序列的候选视频。事件序列包括M个事件节点信息，其中，M为大于1的整数。

拆分模块802用于将候选视频拆分为多个候选片段。

划分模块803用于将多个候选片段按照各自对应的事件节点进行划分，得到与M个事件节点各自对应的M个候选片段集合。

第一确定模块804用于针对每个候选片段集合，根据该候选片段集合中各个候选片段与对应事件节点之间的匹配度，从该候选片段集合中确定至少一个候选片段作为对应事件节点的目标片段。

生成模块805用于根据M个事件节点各自的目标片段，生成事件序列的视频。

获取模块801包括生成单元和候选视频确定单元。

生成单元用于生成事件序列的结构化文本特征。

候选视频确定单元，用于根据结构化文本特征与多个视频资源之间的相似度，从多个视频资源中确定候选视频。

第一确定模块804包括特征确定单元、匹配度确定单元以及目标片段确定单元。

特征确定单元用于针对每个候选片段集合，确定该候选片段集合中每个候选片段的视觉特征、语义特征、热度特征和质量特征。

匹配度确定单元用于针对每个候选片段，根据视觉特征、语义特征、热度特征和质量特征，确定候选片段与对应事件节点之间的匹配度。

目标片段确定单元用于从候选片段集合中确定匹配度符合预设条件的至少一个候选片段，作为对应事件节点的目标片段。

结构化文本特征包括M个事件节点各自的文本特征。

匹配度确定单元包括第一确定子单元、第二确定子单元和第三确定子单元。

第一确定子单元用于针对每个候选片段，根据候选片段的视觉特征与对应事件节点的文本特征之间的相似度，确定候选片段的跨模态匹配特征。

第二确定子单元用于根据候选片段的语义特征与对应事件节点的文本特征之间的相似度，确定候选片段的文本匹配特征。

第三确定子单元用于根据候选片段的跨模态匹配特征、文本匹配特征、热度特征和质量特征，确定候选片段与对应事件节点的匹配度。

M个事件节点具有时间顺序；生成模块805包括合成单元和渲染单元。

合成单元用于按照时间顺序，将M个事件节点的目标片段进行合成，得到合成视频。

渲染单元用于在合成视频中彼此相邻的两个目标片段之间，添加渲染画面，得到事件序列的视频。

拆分模块802用于将候选视频以单个镜头画面为粒度进行拆分，得到多个候选片段。

图9是根据本公开的一个实施例的视频展示装置的框图。

如图9所示，该视频展示装置900可以包括第二确定模块901和展示模块902。

第二确定模块901用于确定当前展示界面，当前展示界面包括目标事件的事件序列视频图标。

展示模块902用于响应于事件序列视频图标被选中，播放目标事件的事件序列视频。

事件序列视频是根据上述视频生成装置生成的。

目标事件包括主题以及具有时间顺序的多个事件节点信息，每个事件节点包括标题信息和时间信息，事件序列视频包括多个事件节点的视频片段；展示模块902包括播放单元和显示单元。

播放单元用于按照多个事件节点的时间顺序，依次播放多个事件节点各自的视频片段。

显示单元用于响应于播放当前事件节点的视频片段，在当前事件节点的视频片段的画面上显示目标事件的主题、当前事件节点的标题信息以及时间信息。

当前展示界面包括推荐列表界面，推荐列表包括目标事件的关键词信息以及事件序列视频图标。

当前展示界面包括搜索结果界面；装置还包括显示模块。

显示模块用于响应于目标事件的关键词的输入，显示搜索结果界面，搜索结果界面包括目标事件的多媒体卡片以及事件序列视频图标。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如视频生成方法和/或视频展示方法。例如，在一些实施例中，视频生成方法和/或视频展示方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的视频生成方法和/或视频展示方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频生成方法和/或视频展示方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视频生成方法，包括：

获取针对事件序列的候选视频，其中，所述事件序列包括M个事件节点信息，其中，M为大于1的整数；

将所述候选视频拆分为多个候选片段；

将所述多个候选片段按照各自对应的事件节点进行划分，得到与所述M个事件节点各自对应的M个候选片段集合；

针对每个候选片段集合，根据该候选片段集合中各个候选片段与对应事件节点之间的匹配度，从该候选片段集合中确定至少一个候选片段作为所述对应事件节点的目标片段；以及

根据所述M个事件节点各自的目标片段，生成所述事件序列的视频；

其中，所述针对每个候选片段集合，根据该候选片段集合中各个候选片段与对应事件节点之间的匹配度，从该候选片段集合中确定至少一个候选片段作为所述对应事件节点的目标片段包括：针对每个候选片段集合，

确定该候选片段集合中每个候选片段的视觉特征、语义特征、热度特征和质量特征；

针对每个候选片段，根据所述视觉特征、语义特征、热度特征和质量特征，确定所述候选片段与对应事件节点之间的匹配度；以及

从所述候选片段集合中确定所述匹配度符合预设条件的至少一个候选片段，作为所述对应事件节点的目标片段。

2.根据权利要求1所述的方法，其中，所述获取针对事件序列的候选视频包括：

生成所述事件序列的结构化文本特征；以及

根据所述结构化文本特征与多个视频资源之间的相似度，从所述多个视频资源中确定所述候选视频。

3.根据权利要求2所述的方法，其中，所述结构化文本特征包括所述M个事件节点各自的文本特征，所述针对每个候选片段，根据所述视觉特征、语义特征、热度特征和质量特征，确定所述候选片段与对应事件节点之间的匹配度包括：针对每个候选片段，

根据所述候选片段的视觉特征与所述对应事件节点的文本特征之间的相似度，确定所述候选片段的跨模态匹配特征；

根据所述候选片段的语义特征与所述对应事件节点的文本特征之间的相似度，确定所述候选片段的文本匹配特征；以及

根据所述候选片段的跨模态匹配特征、文本匹配特征、热度特征和质量特征，确定所述候选片段与所述对应事件节点的匹配度。

4.根据权利要求1所述的方法，其中，所述M个事件节点具有时间顺序；所述根据所述M个事件节点的目标片段，生成所述事件脉络的视频包括：

按照所述时间顺序，将所述M个事件节点的目标片段进行合成，得到合成视频；以及

在所述合成视频中彼此相邻的两个目标片段之间，添加渲染画面，得到所述事件序列的视频。

5.根据权利要求1所述的方法，其中，所述将所述候选视频拆分为多个候选片段包括：

将所述候选视频以单个镜头画面为粒度进行拆分，得到所述多个候选片段。

6.一种视频展示方法，包括：

确定当前展示界面，所述当前展示界面包括目标事件的事件序列视频图标；以及

响应于所述事件序列视频图标被选中，播放所述目标事件的事件序列视频；

其中，所述事件序列视频是根据权利要求1至5中任一项所述的方法生成的。

7.根据权利要求6所述的方法，其中，所述目标事件包括主题以及具有时间顺序的多个事件节点信息，每个事件节点包括标题信息和时间信息，所述事件序列视频包括所述多个事件节点的视频片段；所述播放所述目标事件的事件序列视频包括：

按照所述多个事件节点的时间顺序，依次播放所述多个事件节点各自的视频片段；

响应于播放当前事件节点的视频片段，在所述当前事件节点的视频片段的画面上显示所述目标事件的主题、当前事件节点的标题信息以及时间信息。

8.根据权利要求6所述的方法，其中，所述当前展示界面包括推荐列表界面，所述推荐列表包括所述目标事件的关键词信息以及所述事件序列视频图标。

9.根据权利要求6所述的方法，其中，所述当前展示界面包括搜索结果界面；所述方法还包括：

响应于所述目标事件的关键词的输入，显示所述搜索结果界面，所述搜索结果界面包括所述目标事件的多媒体卡片以及所述事件序列视频图标。

10.一种视频生成装置，包括：

获取模块，用于获取针对事件序列的候选视频，其中，所述事件序列包括M个事件节点信息，其中，M为大于1的整数；

拆分模块，用于将所述候选视频拆分为多个候选片段；

划分模块，用于将所述多个候选片段按照各自对应的事件节点进行划分，得到与所述M个事件节点各自对应的M个候选片段集合；

第一确定模块，用于针对每个候选片段集合，根据该候选片段集合中各个候选片段与对应事件节点之间的匹配度，从该候选片段集合中确定至少一个候选片段作为所述对应事件节点的目标片段；以及

生成模块，用于根据所述M个事件节点各自的目标片段，生成所述事件序列的视频；

其中，所述第一确定模块包括：

特征确定单元，用于针对每个候选片段集合，确定该候选片段集合中每个候选片段的视觉特征、语义特征、热度特征和质量特征；

匹配度确定单元，用于针对每个候选片段，根据所述视觉特征、语义特征、热度特征和质量特征，确定所述候选片段与对应事件节点之间的匹配度；以及

目标片段确定单元，用于从所述候选片段集合中确定所述匹配度符合预设条件的至少一个候选片段，作为所述对应事件节点的目标片段。

11.根据权利要求10所述的装置，其中，所述获取模块包括：

生成单元，用于生成所述事件序列的结构化文本特征；以及

候选视频确定单元，用于根据所述结构化文本特征与多个视频资源之间的相似度，从所述多个视频资源中确定所述候选视频。

12.根据权利要求11所述的装置，其中，所述结构化文本特征包括所述M个事件节点各自的文本特征，所述匹配度确定单元包括：

第一确定子单元，用于针对每个候选片段，根据所述候选片段的视觉特征与所述对应事件节点的文本特征之间的相似度，确定所述候选片段的跨模态匹配特征；

第二确定子单元，用于根据所述候选片段的语义特征与所述对应事件节点的文本特征之间的相似度，确定所述候选片段的文本匹配特征；以及

第三确定子单元，用于根据所述候选片段的跨模态匹配特征、文本匹配特征、热度特征和质量特征，确定所述候选片段与所述对应事件节点的匹配度。

13.根据权利要求10所述的装置，其中，所述M个事件节点具有时间顺序；所述生成模块包括：

合成单元，用于按照所述时间顺序，将所述M个事件节点的目标片段进行合成，得到合成视频；以及

渲染单元，用于在所述合成视频中彼此相邻的两个目标片段之间，添加渲染画面，得到所述事件序列的视频。

14.根据权利要求10所述的装置，其中，所述拆分模块用于将所述候选视频以单个镜头画面为粒度进行拆分，得到所述多个候选片段。

15.一种视频展示装置，包括：

第二确定模块，用于确定当前展示界面，所述当前展示界面包括目标事件的事件序列视频图标；以及

展示模块，用于响应于所述事件序列视频图标被选中，播放所述目标事件的事件序列视频；

其中，所述事件序列视频是根据权利要求10至14中任一项所述的装置生成的。

16.根据权利要求15所述的装置，其中，所述目标事件包括主题以及具有时间顺序的多个事件节点信息，每个事件节点包括标题信息和时间信息，所述事件序列视频包括所述多个事件节点的视频片段；所述展示模块包括：

播放单元，用于按照所述多个事件节点的时间顺序，依次播放所述多个事件节点各自的视频片段；

显示单元，用于响应于播放当前事件节点的视频片段，在所述当前事件节点的视频片段的画面上显示所述目标事件的主题、当前事件节点的标题信息以及时间信息。

17.根据权利要求15所述的装置，其中，所述当前展示界面包括推荐列表界面，所述推荐列表包括所述目标事件的关键词信息以及所述事件序列视频图标。

18.根据权利要求15所述的装置，其中，所述当前展示界面包括搜索结果界面；所述装置还包括：

显示模块，用于响应于所述目标事件的关键词的输入，显示所述搜索结果界面，所述搜索结果界面包括所述目标事件的多媒体卡片以及所述事件序列视频图标。

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至9中任一项所述的方法。