CN117478825B

CN117478825B - 虚拟会议的视频集锦获取方法、系统、设备及存储介质

Info

Publication number: CN117478825B
Application number: CN202311824647.1A
Authority: CN
Inventors: 卢丽华; 赵雅倩; 李茹杨; 魏辉; 张晓辉; 李仁刚
Original assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Current assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Priority date: 2023-12-27
Filing date: 2023-12-27
Publication date: 2024-04-16
Anticipated expiration: 2043-12-27
Also published as: CN117478825A

Abstract

本发明公开了一种虚拟会议的视频集锦获取方法、系统、设备及存储介质，涉及虚拟现实领域，为解决生成虚拟会议的视频集锦需要占用大量存储资源的问题，该视频集锦获取方法包括：确定虚拟会议中的多个关键事件；针对每一关键事件，确定关键事件的拍摄对象，控制虚拟相机对拍摄对象进行拍摄，得到关键事件的多个备选视频片段，将多个备选视频片段输入预设美学评价模型，得到各个备选视频片段的美学评分，将美学评分最高的备选视频片段确定为关键事件的输出视频片段；对各个关键事件的输出视频片段进行拼接，得到虚拟会议的视频集锦。本发明能够节省存储、时间与人力资源，保证视频集锦完整性的同时，提高视觉吸引力。

Description

虚拟会议的视频集锦获取方法、系统、设备及存储介质

技术领域

本发明涉及虚拟现实领域，特别涉及一种虚拟会议的视频集锦获取方法、系统、设备及存储介质。

背景技术

随着虚拟现实、增强现实、人工智能等技术的进步，促使虚拟会议系统作为元宇宙应用成功落地并蓬勃发展，提供了高沉浸感、高交互性的线上虚拟会议，不同于传统线上会议，在虚拟会议中，参会者以虚拟形象与他人交互，在虚拟会场走动，从任意视角观看会议等，具有高沉浸感和高交互性。随着越来越多的学术研讨会、展会等在虚拟会议系统中举办，用户需要通过会议摘要、视频集锦等，快速了解会议内容。

现有的研究工作大多针对传统线上或线下会议，以文本摘要的形式对会议内容进行总结与呈现，虽然文本摘要可以较好地记录涉及重要主题、关键决策和待完成的任务的会议内容，但丢弃了会议的视觉信息，特别是在重视视觉信息的虚拟会议中，不能直观与准确地反映会议内容。相比文本摘要，制作虚拟会议的视频集锦能够直观与准确地反映会议内容，但是目前生成虚拟会议集锦的方式，是将完整的虚拟会议记录为视频，并借助视频摘要生成技术，生成虚拟会议集锦，但是存储整个虚拟会议的视频需要占用大量存储，消耗大量人力与时间。

因此，如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。

发明内容

本发明的目的是提供一种虚拟会议的视频集锦获取方法、系统、设备及存储介质，能够节省存储、时间与人力资源，保证视频集锦完整性的同时，提高视觉吸引力。

为解决上述技术问题，本发明提供了一种虚拟会议的视频集锦获取方法，所述视频集锦获取方法包括：

确定虚拟会议中的多个关键事件；

针对每一所述关键事件，确定所述关键事件的拍摄对象，控制虚拟相机对所述拍摄对象进行拍摄，得到所述关键事件的多个备选视频片段，将多个所述备选视频片段输入预设美学评价模型，得到各个所述备选视频片段的美学评分，将所述美学评分最高的备选视频片段确定为所述关键事件的输出视频片段；

对各个所述关键事件的输出视频片段进行拼接，得到所述虚拟会议的视频集锦。

在一示例性实施例中，控制虚拟相机对所述拍摄对象进行拍摄的过程包括：

确定所述虚拟相机的至少一个目标移动轨迹；

控制所述虚拟相机分别按照每个所述目标移动轨迹对所述拍摄对象进行拍摄。

在一示例性实施例中，将多个所述备选视频片段输入预设美学评价模型，得到各个所述备选视频片段的美学评分的过程包括：

将每一所述备选视频片段及其对应的所述虚拟相机的目标移动轨迹输入预设美学评价模型，得到每一所述备选视频片段的美学评分。

在一示例性实施例中，将每一所述备选视频片段及其对应的所述虚拟相机的目标移动轨迹输入预设美学评价模型，得到每一所述备选视频片段的美学评分的过程包括：

将每一所述备选视频片段及其对应的所述虚拟相机的目标移动轨迹输入预设美学评价模型，以便通过所述美学评价模型进行评分操作得到每一所述备选视频片段的美学评分；

所述评分操作包括：

获取所述备选视频片段中与运动特征对应的第一特征数据；

获取所述备选视频片段对应的所述虚拟相机的目标移动轨迹的第二特征数据；

通过所述第二特征数据对所述第一特征数据进行加权，得到融合特征数据；

基于所述融合特征数据计算所述备选视频片段的美学评分。

在一示例性实施例中，所述预设美学评价模型包括运动特征提取模块、轨迹特征提取模块以及自适应融合模块以及美学评分计算模块，所述运动特征提取模块包括卷积层、池化层以及多层感知机层，所述轨迹特征提取模块包括多层感知机层以及最远点采样层，所述自适应融合模块包括自注意力层以及多层感知机层，所述美学评分计算模块包括多个多层感知机层和激活函数层；

获取所述备选视频片段中与运动特征对应的第一特征数据的过程包括：

利用所述运动特征提取模块中的卷积层、池化层以及多层感知机层对所述备选视频片段进行处理，得到与运动特征对应的第一特征数据；

获取所述备选视频片段对应的所述虚拟相机的目标移动轨迹的第二特征数据的过程包括：

利用所述轨迹特征提取模块中的多层感知机层以及最远点采样层对所述备选视频片段对应的所述虚拟相机的目标移动轨迹进行处理，得到第二特征数据；

通过所述第二特征数据对所述第一特征数据进行加权，得到融合特征数据的过程包括：

利用所述自适应融合模块中的自注意力层以及多层感知机层对所述第一特征数据和所述第二特征数据进行处理，得到所述融合特征数据；

基于所述融合特征数据计算所述备选视频片段的美学评分的过程包括：

利用所述美学评分计算模块中的多个多层感知机层和激活函数层对所述融合特征数据进行处理，得到所述美学评分。

在一示例性实施例中，确定所述虚拟相机的至少一个目标移动轨迹之前，所述视频集锦获取方法还包括：

生成并提示移动轨迹选择信息；

确定所述虚拟相机的至少一个目标移动轨迹的过程包括：

基于用户根据所述移动轨迹选择信息发送的第一用户操作指令确定所述虚拟相机的至少一个目标移动轨迹。

预先建立各个所述关键事件与所述虚拟相机的运动轨迹的对应关系；

确定所述虚拟相机的至少一个目标移动轨迹的过程包括：

基于所述关键事件与所述对应关系，确定所述虚拟相机的至少一个目标运动轨迹。

在一示例性实施例中，控制虚拟相机对所述拍摄对象进行拍摄之前，所述视频集锦获取方法还包括：

确定所述虚拟相机的至少一个目标拍摄景别；

控制虚拟相机对所述拍摄对象进行拍摄的过程包括：

控制所述虚拟相机分别按照各个所述目标拍摄景别对所述拍摄对象进行拍摄。

在一示例性实施例中，控制所述虚拟相机分别按照各个所述目标拍摄景别对所述拍摄对象进行拍摄之前，所述视频集锦获取方法还包括：

获取所述虚拟相机在不同的拍摄位置获取的图像数据；

基于各个所述图像数据确定所述虚拟相机在各个所述拍摄位置的拍摄景别。

在一示例性实施例中，基于各个所述图像数据确定所述虚拟相机在各个所述拍摄位置的拍摄景别的过程包括：

针对每一所述图像数据，获取所述图像数据中的拍摄对象对应的边界框及占比类别，根据所述图像数据的大小及所述边界框确定占比值，利用所述占比类别和所述占比值确定所述图像数据对应的拍摄位置的拍摄景别。

确定所述虚拟相机的至少一个目标拍摄视角；

控制虚拟相机对所述拍摄对象进行拍摄的过程包括：

控制所述虚拟相机分别按照各个所述目标拍摄视角对所述拍摄对象进行拍摄。

确定所述虚拟相机的目标拍摄参数，所述目标拍摄参数包括目标移动轨迹、目标拍摄角度以及目标拍摄景别中的至少两项；

控制所述虚拟相机按照所述目标拍摄参数对所述拍摄对象进行拍摄。

在一示例性实施例中，确定虚拟会议中的多个关键事件的过程包括：

获取虚拟会议的会议类型；

根据所述会议类型确定所述虚拟会议的多个关键事件。

在一示例性实施例中，确定所述关键事件的拍摄对象的过程包括：

确定所述关键事件在所述虚拟会议中所处的会议阶段；

基于所述会议阶段确定所述关键事件的拍摄对象。

在一示例性实施例中，所述会议阶段包括会议开始阶段和会议结束阶段；

基于所述会议阶段确定所述关键事件的拍摄对象的过程包括：

当所述会议阶段为所述会议开始阶段或所述会议结束阶段，确定所述关键事件的拍摄对象为会议主席台和/或会议观众席。

在一示例性实施例中，所述会议阶段还包括处于所述会议开始阶段和所述会议结束阶段之间的会议其他阶段；

当所述会议阶段为所述会议其他阶段，确定所述关键事件的拍摄对象为位于所述会议主席台上的用户对象。

在一示例性实施例中，对各个所述关键事件的输出视频片段进行拼接，得到所述虚拟会议的视频集锦的过程包括：

基于所述虚拟会议的所有所述关键事件，构建所述虚拟会议的故事线；

利用所述故事线对各个所述关键事件的输出视频片段进行拼接，得到所述虚拟会议的视频集锦。

在一示例性实施例中，该视频集锦获取方法还包括：

构建虚拟会议集锦美学数据集；所述虚拟会议集锦美学数据集包括每一所述关键事件对应的第一样本和第二样本，所述第一样本为基于预设拍摄参数拍摄到的所述关键事件对应的视频片段，所述第二样本为基于随机拍摄参数拍摄到的所述关键事件对应的视频片段，所述第一样本和所述第二样本均包括美学评分标记；

基于所述虚拟会议集锦美学数据集训练美学评价网络，得到预设美学评价模型。

为解决上述技术问题，本发明还提供了一种虚拟会议的视频集锦获取系统，所述视频集锦获取系统包括：

第一确定模块，用于确定虚拟会议中的多个关键事件；

美学处理模块，用于针对每一所述关键事件，确定所述关键事件的拍摄对象，控制虚拟相机对所述拍摄对象进行拍摄，得到所述关键事件的多个备选视频片段，将多个所述备选视频片段输入预设美学评价模型，得到各个所述备选视频片段的美学评分，将所述美学评分最高的备选视频片段确定为所述关键事件的输出视频片段；

拼接模块，用于对各个所述关键事件的输出视频片段进行拼接，得到所述虚拟会议的视频集锦。

为解决上述技术问题，本发明还提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上文任意一项所述的虚拟会议的视频集锦获取方法的步骤。

为解决上述技术问题，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上文任意一项所述的虚拟会议的视频集锦获取方法的步骤。

本发明提供了一种虚拟会议的视频集锦获取方法，首先确定虚拟会议中的多个关键事件，针对各个关键事件进行拍摄，得到备选视频片段进行存储即可，无需存储虚拟会议的完整视频，节省存储、时间与人力资源，然后对各个备选视频片段美学评价，得到各个备选视频片段的美学评分，选取各个关键事件的美学评分最高的备选视频片段进行拼接得到虚拟会议的视频集锦，保证视频集锦完整性的同时，提高视觉吸引力。本发明还提供了一种视频集锦获取系统、电子设备及计算机可读存储介质，具有和上述视频集锦获取方法相同的有益效果。

附图说明

为了更清楚地说明本发明实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的一种虚拟会议的视频集锦获取方法的步骤流程图；

图2-图5为本发明所提供的目标移动轨迹的示意图；

图6为本发明所提供的一种预设美学评价模型的结构示意图；

图7为本发明所提供的一种虚拟相机的拍摄视角的示意图；

图8为本发明所提供的一种虚拟会议集锦获取交互界面的示意图；

图9为本发明所提供的一种景别自动识别网络的结构示意图；

图10为本发明所提供的一种虚拟会议的视频集锦获取系统的结构示意图；

图11为本发明所提供的一种电子设备的结构示意图；

图12为本发明所提供的一种计算机可读存储介质的结构示意图。

具体实施方式

本发明的核心是提供一种虚拟会议的视频集锦获取方法、系统、设备及存储介质，能够节省存储、时间与人力资源，保证视频集锦完整性的同时，提高视觉吸引力。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一方面，请参照图1，图1为本发明所提供的一种虚拟会议的视频集锦获取方法的步骤流程图，该虚拟会议的视频集锦获取方法包括：

S101：确定虚拟会议中的多个关键事件；

本实施例中，考虑到虚拟会议的视频集锦需要叙述虚拟会议的关键事件及对应的背景信息，如虚拟会议的场地信息等，可预先设定虚拟会议的多个关键事件，包括但不限于会议开始事件、会议结束事件、报告人讲话事件、会后活动事件等。可以理解，在一场虚拟会议中，报告人讲话事件以及会后活动事件可以出现多次，如某一虚拟会议中，会议开始后，有三个报告人讲话，则报告人讲话事件存在三次。

上述虚拟会议的多个关键事件可以是用户预先设定的，也可以是用户根据当前虚拟会议实时选择的，本实施例在此不做具体限定。

S102：针对每一关键事件，确定关键事件的拍摄对象，控制虚拟相机对拍摄对象进行拍摄，得到关键事件的多个备选视频片段，将多个备选视频片段输入预设美学评价模型，得到各个备选视频片段的美学评分，将美学评分最高的备选视频片段确定为关键事件的输出视频片段；

为了节省存储资源，本实施例无需对整个虚拟会议进行视频录制，只需录制关键事件的视频，针对每一个关键事件，确定关键事件的拍摄对象，每个关键事件的拍摄对象可以为一个也可以为多个，当拍摄对象的个数为多个时，按照关键事件进行的时间顺序或预设顺序对多个拍摄对象依次或同时进行拍摄即可。拍摄对象为虚拟会议场地中的物体对象、人体对象等，针对不同的关键事件，其拍摄对象也可能不同。以一个关键事件为例进行说明，控制虚拟相机按照不同的集锦效果对该关键事件对应的拍摄对象进行拍摄，得到每一集锦效果下的备选视频片段，从而得到该关键事件对应的多个备选视频片段。

其中，集锦效果可以根据虚拟相机的移动路径和/或拍摄景别和/或拍摄视角确定，示例性地，集锦效果可以由环绕、平移、静止、放缩、远景、近景、中景、左正侧、左前、正面、右前、右正侧等中的一项或多项得到。

考虑到各个备选视频片段是在不同集锦效果下拍摄的，不同集锦效果下的备选视频片段具有不同的视觉效果，为了提高视频集锦的视觉冲击力，本实施例将每一关键事件对应的多个备选视频片段输入预设美学评价模型，通过预设美学评价模型输出各个备选视频片段的美学评分，选取美学评分最高的备选视频片段作为该关键事件的输出视频片段，其中，输出视频片段为用于进行视频集锦拼接的备选视频片段。

如果某一关键事件存在多个美学评分最高的备选视频片段，则可从中任选一个备选视频片段作为该关键事件的输出视频片段，也可以将美学评分最高的多个备选视频片段分别与该关键事件的上一关键事件的输出视频片段以及下一关键事件的输出视频片段进行拼接，在多个美学评分最高的备选视频片段中选择连贯性更高的备选视频片段作为该关键事件的输出视频片段，以保证后续基于美学评分最高的备选视频片段得到的视频集锦时具有较高的视觉冲击力。

S103：对各个关键事件的输出视频片段进行拼接，得到虚拟会议的视频集锦。

将各个关键事件对应的美学评分最高的输出视频片段进行拼接，在拼接时，需按照各个关键事件在虚拟会议中的先后顺序进行输出视频片段的拼接，示例性地，某一虚拟会议依次进行会议开始事件、报告人讲话事件、会议结束事件，会议开始事件对应的输出视频片段为a，报告人讲话事件的输出视频片段为b，会议结束事件对应的输出视频片段为c，则按照abc的顺序对输出视频片段进行拼接，得到虚拟会议的视频集锦，保证虚拟会议的视频集锦的完整性。

可见，本实施例中，首先确定虚拟会议中的多个关键事件，针对各个关键事件进行拍摄，得到备选视频片段进行存储即可，无需存储虚拟会议的完整视频，节省存储、时间与人力资源，然后对各个备选视频片段美学评价，得到各个备选视频片段的美学评分，选取各个关键事件的美学评分最高的备选视频片段进行拼接得到虚拟会议的视频集锦，保证视频集锦完整性的同时，提高视觉吸引力。

在上述实施例的基础上：

在一示例性实施例中，控制虚拟相机对拍摄对象进行拍摄的过程包括：

确定虚拟相机的至少一个目标移动轨迹；

控制虚拟相机分别按照每个目标移动轨迹对拍摄对象进行拍摄。

本实施例中，可以确定虚拟相机的至少一个目标移动轨迹，参照图2-图5所示，目标移动轨迹为环绕、平移、静止、放缩中的任一种，放缩指放大和缩小，为了获取拍摄对象在不同集锦效果下的备选视频片段，本实施例中可以确定多种目标移动轨迹，示例性地，假设确定的目标移动轨迹包括环绕和平移，则控制虚拟相机对拍摄对象环绕拍摄获取第一段备选视频片段，控制虚拟相机对拍摄对象平移拍摄获取第二段备选视频片段。

下面分别对不同移动轨迹进行说明，静止是指在任意视角，固定虚拟相机位姿，对拍摄对象进行拍摄；平移是指从任意视角开始，从一边到另一边水平移动虚拟相机，对拍摄对象进行拍摄；放缩是指在任意视角，虚拟相机向拍摄对象方向推进或远离进行拍摄；环绕是指从任意视角开始，虚拟相机以拍摄对象为中心进行移动拍摄。

在一示例性实施例中，将多个备选视频片段输入预设美学评价模型，得到各个备选视频片段的美学评分的过程包括：

将每一备选视频片段及其对应的虚拟相机的目标移动轨迹输入预设美学评价模型，得到每一备选视频片段的美学评分。

本实施例中，为了进一步提高集锦视频的视觉冲击力，将获取该备选视频片段的虚拟相机的目标移动轨迹也输入预设美学评价模型，以便通过备选视频片段和目标移动轨迹融合后进行美学评价，提高美学评分的准确性和可靠性。

在一示例性实施例中，将每一备选视频片段及其对应的虚拟相机的目标移动轨迹输入预设美学评价模型，得到每一备选视频片段的美学评分的过程包括：

将每一备选视频片段及其对应的虚拟相机的目标移动轨迹输入预设美学评价模型，以便通过美学评价模型进行评分操作得到每一备选视频片段的美学评分；

评分操作包括：

获取备选视频片段中与运动特征对应的第一特征数据；

获取备选视频片段对应的虚拟相机的目标移动轨迹的第二特征数据；

通过第二特征数据对第一特征数据进行加权，得到融合特征数据；

基于融合特征数据计算备选视频片段的美学评分。

在一示例性实施例中，预设美学评价模型包括运动特征提取模块、轨迹特征提取模块以及自适应融合模块以及美学评分计算模块，运动特征提取模块包括卷积层、池化层以及多层感知机层，轨迹特征提取模块包括多层感知机层以及最远点采样层，自适应融合模块包括自注意力层以及多层感知机层，美学评分计算模块包括多个多层感知机层和激活函数层；

获取备选视频片段中与运动特征对应的第一特征数据的过程包括：

利用运动特征提取模块中的卷积层、池化层以及多层感知机层对备选视频片段进行处理，得到与运动特征对应的第一特征数据；

获取备选视频片段对应的虚拟相机的目标移动轨迹的第二特征数据的过程包括：

利用轨迹特征提取模块中的多层感知机层以及最远点采样层对备选视频片段对应的虚拟相机的目标移动轨迹进行处理，得到第二特征数据；

通过第二特征数据对第一特征数据进行加权，得到融合特征数据的过程包括：

利用自适应融合模块中的自注意力层以及多层感知机层对第一特征数据和第二特征数据进行处理，得到融合特征数据；

基于融合特征数据计算备选视频片段的美学评分的过程包括：

利用美学评分计算模块中的多个多层感知机层和激活函数层对融合特征数据进行处理，得到美学评分。

参照图6所示，本实施例中的预设美学评价模型包括运动特征提取模块、轨迹特征提取模块、自适应融合模块和美学得分计算模块，其中，运动特征提取模块用于提取备选视频片段中的与运动特征对应的第一特征数据。

运动特征提取模块由多个卷积层、池化层和MLP（Multilayer Perceptron，多层感知机）层组成，最终得到备选视频片段的运动特征，其特征维度为L_m×C_m，其中L_m为视频帧数，C_m为每个视频帧中提取特征数据的长度。

轨迹特征提取模块用于提取目标移动轨迹中的轨迹特征。用一组拍摄点P={p₁，p₂，…，p_Np}来表示拍摄轨迹，即某一目标移动轨迹。其中，Np表示拍摄轨迹上点的数量。每个拍摄点p_j可分解为虚拟相机拍摄位置（x，y，z）和拍摄角度（α，β，γ），其中α，β，γ依次表示偏航角、俯仰角和滚转角。轨迹特征提取模块由多个MLP层和FPS（Farthest PointSampling，最远点采样）层组成，FPS层不断下采样，最终得到轨迹特征为1×C_s，C_s为轨迹特征的长度。其中，FPS层用于在点云上均匀地采样更少的点，使这些点可以比较好地表征点云的整体轮廓。

利用轨迹特征对运动特征进行加权，提取融合特征，自适应融合模块包括自注意力层和MLP层，自注意力层利用轨迹特征对运动特征进行加权，自适应融合轨迹和运动特征，经过MLP层，最终得到融合特征1×C_f，C_f为融合后的特征长度。

美学得分计算模块包括多个MLP和一层softmax（激活函数）层，以softmax分类概率为最终的美学得分。针对任一关键事件，采用不同的目标移动轨迹，得到的集锦备选视频片段的视觉效果都是不同的，因此可通过构建基于双流的预设美学评价模型，计算美学得分，选择得分最高的备选视频片段作为当前关键事件的集锦片段。

其中，softmax可以将一个数值向量归一化为一个概率分布向量，且各个概率之和为1，softmax可以用来作为神经网络的最后一层，用于多分类问题的输出。

在一示例性实施例中，控制虚拟相机对拍摄对象进行拍摄之前，视频集锦获取方法还包括：

确定虚拟相机的至少一个目标拍摄视角；

控制虚拟相机对拍摄对象进行拍摄的过程包括：

控制虚拟相机分别按照各个目标拍摄视角对拍摄对象进行拍摄。

参照图7所示，虚拟相机的移动轨迹的拍摄视角包括左正侧、左前、正面、右前和右正侧。

在一示例性实施例中，确定虚拟相机的至少一个目标移动轨迹之前，视频集锦获取方法还包括：

生成并提示移动轨迹选择信息；

确定虚拟相机的至少一个目标移动轨迹的过程包括：

基于用户根据移动轨迹选择信息发送的第一用户操作指令确定虚拟相机的至少一个目标移动轨迹。

在一示例性实施例中，确定虚拟相机的至少一个目标拍摄视角之前，视频集锦获取方法还包括：

生成并提示拍摄视角选择信息；

确定虚拟相机的至少一个目标拍摄视角的过程包括：

基于用户根据拍摄视角选择信息发送的第二用户操作指令确定虚拟相机的至少一个目标拍摄视角。

本实施例中，可以预先构建基于美学评分的虚拟会议集锦获取交互界面，在该虚拟会议集锦获取交互界面上显示移动轨迹选择信息，移动轨迹选择信息包括与平移、静止、放大、环绕、缩小对应的交互信息，还可以显示拍摄视角选择信息，拍摄视角选择信息包括左正侧、左前、正面、右前和右正侧对应的交互信息，每个交互信息在虚拟会议集锦获取交互界面上具有各自对应的交互位置。可以理解，用户在该虚拟会议集锦获取交互界面上触发任一个交互位置的交互信息，相当于输出一个与该交互信息对应的用户操作指令，示例性地，用户在该虚拟会议集锦获取交互界面上触发平移的交互信息，相当于用户发送与平移对应的第一用户操作指令，用户在该虚拟会议集锦获取交互界面上触发正面的交互信息，相当于用户发送与正面拍摄视角对应的第二用户操作指令，在接收到第一用户操作指令后，确定用户对该关键事件选择的目标移动轨迹为平移，在接收到第二用户操作指令后，确定用户对该关键事件选择的目标拍摄视角为正面。

作为另一种可选的实施例，在该虚拟会议集锦获取交互界面还可以显示与关键事件对应的信息，以便提醒用户及时设置虚拟相机所需的拍摄参数。假设关键事件包括会议开始事件、报告人讲话事件、会后活动事件、会议结束事件，则在会议开始时通过该虚拟会议集锦获取交互界面提示会议开始事件对应的提示信息，如将会议开始事件对应的提示信息在该虚拟会议集锦获取交互界面上突出显示，当会议开始事件结束后，即可将报告人讲话事件对应的提示信息在该虚拟会议集锦获取交互界面上突出显示，无需等待报告人讲话事件开始，以便获取的报告人讲话事件对应的备选视频片段完整，以此类推，直至获取到虚拟会议所有关键事件的备选视频片段。

在上述实施例的基础上，参照图8所示，该虚拟会议集锦获取交互界面还包括关键事件提醒区域、运动轨迹选择区域、拍摄视角选择区域和美学评价计算区域，用户可以在想要记录的时间节点，选择要记录的关键事件，然后选择合适的运动轨迹和拍摄视角，则系统可以自动以选择的运动轨迹和拍摄视角对关键事件进行记录，得到不同的集锦效果备选视频片段集。按照如上操作，用户可按照会议进行顺序一一记录需要的关键事件。若用户只在想要记录的时间节点，选择关键事件，不做拍摄视角和运动轨迹的选择，那系统会按照预设的拍摄参数对关键事件进行记录，得到不同的集锦效果备选视频片段。

预先建立各个关键事件与虚拟相机的运动轨迹的对应关系；

确定虚拟相机的至少一个目标移动轨迹的过程包括：

基于关键事件与对应关系，确定虚拟相机的至少一个目标运动轨迹。

预先建立各个关键事件与虚拟相机的目标拍摄视角的对应关系；

确定虚拟相机的至少一个目标拍摄视角的过程包括：

基于关键事件与对应关系，确定虚拟相机的至少一个目标拍摄视角。

本实施例中，可以预先设置各个关键事件与虚拟相机的目标拍摄视角以及目标运动轨迹的对应关系，当用户未进行选取时，可根据预设的对应关系为当前关键事件设置目标拍摄视角和目标运动轨迹。

确定虚拟相机的至少一个目标拍摄景别；

控制虚拟相机对拍摄对象进行拍摄的过程包括：

控制虚拟相机分别按照各个目标拍摄景别对拍摄对象进行拍摄。

其中，景别是指在焦距一定时，虚拟相机与拍摄对象的距离不同，而造成拍摄对象在虚拟相机中所呈现出的范围大小的区别。景别的划分，一般可分为五种，由近至远分别为特写（指人体肩部以上）、近景（指人体胸部以上）、中景（指人体膝部以上）、全景（人体的全部和周围部分环境）、远景（被摄体所处环境），可以理解，采用不同的景别，可以使备选视频片段的叙述、人物思想感情的表达、人物关系的处理更具有表现力，从而增强备选视频片段的视觉效果。

基于此，本实施例针对不同拍摄对象，定义不同的拍摄景别和移动轨迹。针对会议开始事件，可以按照放大的移动轨迹，从远景到中景，从观众席拍摄到主席台，针对会议结束事件，可以以缩小的运动轨迹，从中景到远景，从主席台拍摄到观众席。针对关键报告人讲话事件，可以以平移或环绕的移动轨迹，按照中景或近景的拍摄景别，拍摄主席台上的关键报告人。针对会后活动事件，可以以平移、环绕的移动轨迹，按照中景的拍摄景别，拍摄主席台上的活动。

可以理解，本实施例以不同的集锦效果记录关键事件，生成集锦备选视频片段集，针对每一关键事件，以上述定义的视角、拍摄景别和运动轨迹，利用虚拟相机进行拍摄记录，生成不同集锦效果的集锦备选视频片段。示例性地，每个备选视频片段至少包含一个镜头，时长为5秒。相比记录整个会议，然后利用视频摘要技术生成集锦，本发明不必记录整个会议，减少时间成本、空间代价以及计算资源。

在一示例性实施例中，控制虚拟相机分别按照各个目标拍摄景别对拍摄对象进行拍摄之前，视频集锦获取方法还包括：

获取虚拟相机在不同的拍摄位置获取的图像数据；

基于各个图像数据确定虚拟相机在各个拍摄位置的拍摄景别。

在一示例性实施例中，基于各个图像数据确定虚拟相机在各个拍摄位置的拍摄景别的过程包括：

针对每一图像数据，获取图像数据中的拍摄对象对应的边界框及占比类别，根据图像数据的大小及边界框确定占比值，利用占比类别和占比值确定图像数据对应的拍摄位置的拍摄景别。

考虑到虚拟会议进行的虚拟三维场景，包括主席台、观众席位置等，可直接设置拍摄视角和虚拟相机的移动轨迹，但是无法直接判断虚拟相机的拍摄景别，因此，本实施例中预先构建景别自动识别网络，该景别自动识别网络参照图9所示，包括主体检测模块和占比计算模块，其中，主体检测模块包括依次设置的卷积层、自注意力层、卷积层、自主力层、卷积层及自主力层。其中主体检测模块包括基于多层卷积层和Transformer（基于自注意力和跨越注意力机制的深度学习网络）的特征提取，以及基于多层MLP的边界框预测和占比类别预测。根据类别预测得到拍摄对象占比类别为全身或上半身或胸部以上。根据边界框预测得到边界框的中心点坐标（x_b，y_b）和边界框的长宽（H_b，W_b）。输入的图像数据，其大小为H_i×W_i×3，H_i和W_i分别为图像的长和宽，可以理解，图像数据即备选视频片段中的一帧图像对应的数据，占比计算模块计算。

α为占比值，当α＞70%，且占比类别为胸部以上，景别类别被识别为近景，当α＜30%，且占比类别为全身时，景别类别被识别为远景；当50%＜α＜60%，且占比类别为上半身时，景别类别被识别为近景。

定义景别自动识别网络的损失函数：

L_j=L_cls+L_box+L_cen；

；

其中，l_j为样本占比类别标签，表示样本的正确占比类别，a_j为softmax层的计算结果，L_cls为交叉熵损失函数。

；

其中t_b=（x_b，y_b，h_b，w_b）为预测的边界框，t_u=（x_u，y_u，h_u，w_u）为利用已有的FasterRCNN（Region Convolutional Neural Networks，区域卷积神经网络）网络预测的边界框真值，L_box为边界框回归损失函数。

；

其中，（x_i，y_i）为图像中心点坐标，L_cen为约束边界框的中心点接近图像中心点。

利用景别自动识别网络，设置近景、中景、远景位置。示例性地，可以以主席台上的演讲人为拍摄对象，距离主席台的不同位置，设置虚拟相机进行拍摄，得到一组图片，利用上述景别自动识别方法，识别不同拍摄位置的景别，并对近景、中景和远景的位置进行记录，以便后续基于设置好的拍摄景别对虚拟相机进行控制。

获取虚拟会议的会议类型；

根据会议类型确定虚拟会议的多个关键事件。

本实施例中，可以预先确定不同会议类型的虚拟会议的多个关键事件，并预存各个会议类型和多个关键事件的对应关系，在需要进行虚拟会议的视频集锦获取时，根据当前的虚拟会议的会议类型，确定当前虚拟会议的多个关键事件。

示例性地，针对会议类型为CA的虚拟会议，确定其对应的关键事件分别为a、b、c、d，针对会议类型为CB的虚拟会议，确定其对应的关键事件分别为a、e、d，针对会议类型为CC的虚拟会议，确定其对应的关键事件分别为a、b、c、e、d，若当前会议类型为CA，则可确定该虚拟会议的多个关键事件为a、b、c、d。

在一示例性实施例中，确定关键事件的拍摄对象的过程包括：

确定关键事件在虚拟会议中所处的会议阶段；

基于会议阶段确定关键事件的拍摄对象。

在一示例性实施例中，会议阶段包括会议开始阶段和会议结束阶段；

基于会议阶段确定关键事件的拍摄对象的过程包括：

当会议阶段为会议开始阶段或会议结束阶段，确定关键事件的拍摄对象为会议主席台和/或会议观众席。

在一示例性实施例中，会议阶段还包括处于会议开始阶段和会议结束阶段之间的会议其他阶段；

基于会议阶段确定关键事件的拍摄对象的过程包括：

当会议阶段为会议其他阶段，确定关键事件的拍摄对象为位于会议主席台上的用户对象。

本实施例中，可以预先确定当前关键事件处于虚拟会议的哪个阶段，如果当前关键事件处于会议开始阶段，此时可能需要进行会议背景介绍，包括会议场馆和参会人员情况，将当前关键事件对应的拍摄对象确定为场馆主席台和观众席，会议进行时，需要对各位关键报告人的讲话进行记录，因此，处于会议进行阶段的关键事件的拍摄对象为主席台上的关键报告人，会议结束时，需要对会议进行总结，处于会议结束阶段的关键事件的拍摄对象为场馆主席台和观众席。

在一示例性实施例中，对各个关键事件的输出视频片段进行拼接，得到虚拟会议的视频集锦的过程包括：

基于虚拟会议的所有关键事件，构建虚拟会议的故事线；

利用故事线对各个关键事件的输出视频片段进行拼接，得到虚拟会议的视频集锦。

本实施例中，基于关键事件，构建虚拟会议故事线，示例性地某一虚拟会议故事线可以为会议开始、关键报告人1讲话、关键报告人2讲话，…，关键报告人N讲话，会后活动1、会后活动2，…，会后活动M，会议结束，按照会议开始的输出视频片段、关键报告人1讲话的输出视频片段、关键报告人2讲话的输出视频片段，…，关键报告人N讲话的输出视频片段，会后活动1的输出视频片段、会后活动2的输出视频片段，…，会后活动M的输出视频片段，会议结束的输出视频片段的顺序进行拼接，得到虚拟会议的视频集锦，从而保证视频集锦的完整性。

在一示例性实施例中，该视频集锦获取方法还包括：

构建虚拟会议集锦美学数据集；虚拟会议集锦美学数据集包括每一关键事件对应的第一样本和第二样本，第一样本为基于预设拍摄参数拍摄到的关键事件对应的视频片段，第二样本为基于随机拍摄参数拍摄到的关键事件对应的视频片段，第一样本和第二样本均包括美学评分标记；

基于虚拟会议集锦美学数据集训练美学评价网络，得到预设美学评价模型。

构建虚拟会议集锦美学数据集训练美学评价网络，得到预设美学评价模型。该虚拟会议集锦美学数据集包括第一样本和第二样本，其中，第一样本来源于专业人士采集或剪辑，具体的，针对每一类关键事件，由专业人士设定相机的拍摄景别、拍摄视角、运动轨迹等参数，拍摄记录视频片段，或者有专业人士从已有的虚拟会议集锦中通过剪辑得到集锦视频片段。第二样本来源于随机设置相机参数，采集得到的视频，或者由专业人士设置错误的相机参数，在会议进行中采集得到视频片段。每个视频片段由专业人士标记其美学得分1-10分，其中，美学得分大于7分的为正样本，低于5分的为负样本，可令虚拟会议集锦美学数据集包含1000个正样本视频片段和1000个负样本视频片段，每个视频片段3~5秒，至少包含一个镜头。

综上所述，本发明设计了一种基于美学驱动的虚拟会议集锦获取方法，将虚拟会议记录和会议集锦生成统一为一个过程，可以在虚拟会议中进行自动记录会议关键事件，以及关键事件对应的具有美学的视频片段，以较少的时间、空间和计算资源，生成具有视觉冲击力的虚拟会议集锦。同时基于故事线的虚拟会议集锦关键事件记录方式保证生成会议集锦的完整性。进一步的，根据用户点击，对关键事件对应的视频片段进行记录，避免记录完整虚拟会议视频，节省存储、时间与人力资源。将集锦生成过程参数化为拍摄景别、运动规则的选择，并利用美学模型计算美学得分，获取具有视觉吸引力的虚拟会议集锦。利用分割获取拍摄主体在图片中的占比，根据占比识别拍摄景别，此外，本发明设计了一种双流美学模型，根据运动和轨迹信息，评价不同拍摄景别、运动轨迹的集锦视频的美学得分，并构建了基于美学评分的虚拟会议集锦获取交互界面，可快速生成虚拟会议集锦，方面用户使用。

第二方面，请参照图10，图10为本发明所提供的一种虚拟会议的视频集锦获取系统的结构示意图，视频集锦获取系统包括：

第一确定模块11，用于确定虚拟会议中的多个关键事件；

美学处理模块12，用于针对每一关键事件，确定关键事件的拍摄对象，控制虚拟相机对拍摄对象进行拍摄，得到关键事件的多个备选视频片段，将多个备选视频片段输入预设美学评价模型，得到各个备选视频片段的美学评分，将美学评分最高的备选视频片段确定为关键事件的输出视频片段；

拼接模块13，用于对各个关键事件的输出视频片段进行拼接，得到虚拟会议的视频集锦。

确定虚拟相机的至少一个目标移动轨迹；

评分操作包括：

获取备选视频片段中与运动特征对应的第一特征数据；

基于融合特征数据计算备选视频片段的美学评分。

在一示例性实施例中，视频集锦获取系统还包括：

提示管理模块，用于当确定虚拟相机的至少一个目标移动轨迹之前，生成并提示移动轨迹选择信息；

确定虚拟相机的至少一个目标移动轨迹的过程包括：

在一示例性实施例中，视频集锦获取系统还包括：

预处理模块，用于在确定虚拟相机的至少一个目标移动轨迹之前，预先建立各个关键事件与虚拟相机的运动轨迹的对应关系；

确定虚拟相机的至少一个目标移动轨迹的过程包括：

在一示例性实施例中，控制虚拟相机对拍摄对象进行拍摄之前，视频集锦获取系统还包括：

第二确定模块，用于确定虚拟相机的至少一个目标拍摄景别；

控制虚拟相机对拍摄对象进行拍摄的过程包括：

在一示例性实施例中，视频集锦获取系统还包括：

获取模块，用于在控制虚拟相机分别按照各个目标拍摄景别对拍摄对象进行拍摄之前，获取虚拟相机在不同的拍摄位置获取的图像数据；

第三确定模块，用于基于各个图像数据确定虚拟相机在各个拍摄位置的拍摄景别。

在一示例性实施例中，视频集锦获取系统还包括：

第四确定模块，用于在控制虚拟相机对拍摄对象进行拍摄之前，确定虚拟相机的至少一个目标拍摄视角；

控制虚拟相机对拍摄对象进行拍摄的过程包括：

在一示例性实施例中，视频集锦获取系统还包括：

第五确定模块，用于在控制虚拟相机对拍摄对象进行拍摄之前，确定虚拟相机的目标拍摄参数，目标拍摄参数包括目标移动轨迹、目标拍摄角度以及目标拍摄景别中的至少两项；

控制虚拟相机按照目标拍摄参数对拍摄对象进行拍摄。

获取虚拟会议的会议类型；

根据会议类型确定虚拟会议的多个关键事件。

确定关键事件在虚拟会议中所处的会议阶段；

基于会议阶段确定关键事件的拍摄对象。

基于会议阶段确定关键事件的拍摄对象的过程包括：

基于虚拟会议的所有关键事件，构建虚拟会议的故事线；

在一示例性实施例中，该视频集锦获取系统还包括：

模型构建模块，用于构建虚拟会议集锦美学数据集；虚拟会议集锦美学数据集包括每一关键事件对应的第一样本和第二样本，第一样本为基于预设拍摄参数拍摄到的关键事件对应的视频片段，第二样本为基于随机拍摄参数拍摄到的关键事件对应的视频片段，第一样本和第二样本均包括美学评分标记；

第三方面，请参照图11，图11为本发明所提供的一种电子设备的结构示意图，该电子设备包括：

存储器21，用于存储计算机程序；

处理器22，用于执行计算机程序时实现如上文任意一个实施例所描述的虚拟会议的视频集锦获取方法的步骤。

在上述实施例的基础上，该电子设备还包括：

输入接口23，与处理器22经过通信总线26相连，用于获取外部导入的计算机程序、参数和指令，经处理器22控制保存至存储器21中。该输入接口23可以与输入装置相连，接收用户手动输入的参数或指令。该输入装置可以是显示屏上覆盖的触摸层，也可以是终端外壳上设置的按键、轨迹球或触控板。

显示单元24，与处理器22经过通信总线26相连，用于显示处理器22发送的数据。该显示单元24可以为液晶显示屏或者电子墨水显示屏等。

网络端口25，与处理器22经过通信总线26相连，用于与外部各终端设备进行通信连接。该通信连接所采用的通信技术可以为有线通信技术或无线通信技术，如移动高清链接技术、通用串行总线、高清多媒体接口、无线保真技术、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术等。

对于本发明所提供的一种电子设备的介绍请参照上述实施例，本发明在此不再赘述。

本发明所提供的电子设备具有和上述虚拟会议的视频集锦获取方法相同的有益效果。

第四方面，请参照图12，图12为本发明所提供的一种计算机可读存储介质的结构示意图，计算机可读存储介质30上存储有计算机程序31，计算机程序31被处理器执行时实现如上文任意一个实施例所描述的虚拟会议的视频集锦获取方法的步骤。

该计算机可读存储介质30可以包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

对于本发明所提供的一种计算机可读存储介质的介绍请参照上述实施例，本发明在此不再赘述。

本发明所提供的计算机可读存储介质具有和上述虚拟会议的视频集锦获取方法相同的有益效果。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种虚拟会议的视频集锦获取方法，其特征在于，所述视频集锦获取方法包括：

确定虚拟会议中的多个关键事件；

针对每一所述关键事件，确定所述关键事件的拍摄对象，控制虚拟相机对所述拍摄对象进行拍摄，得到所述关键事件的多个备选视频片段并存储，将存储的多个所述备选视频片段分别输入预设美学评价模型，得到各个所述备选视频片段的美学评分，将所述美学评分最高的备选视频片段确定为所述关键事件的输出视频片段；

对各个所述关键事件的输出视频片段进行拼接，得到所述虚拟会议的视频集锦；

控制虚拟相机对所述拍摄对象进行拍摄的过程包括：

确定所述虚拟相机的至少一个目标移动轨迹；

控制所述虚拟相机分别按照每个所述目标移动轨迹对所述拍摄对象进行拍摄；

将存储的多个所述备选视频片段分别输入预设美学评价模型，得到各个所述备选视频片段的美学评分的过程包括：

将存储的每一所述备选视频片段及其对应的所述虚拟相机的目标移动轨迹输入预设美学评价模型，以便通过所述美学评价模型进行评分操作得到每一所述备选视频片段的美学评分；

所述评分操作包括：

获取所述备选视频片段中与运动特征对应的第一特征数据；

基于所述融合特征数据计算所述备选视频片段的美学评分。

2.根据权利要求1所述的虚拟会议的视频集锦获取方法，其特征在于，所述预设美学评价模型包括运动特征提取模块、轨迹特征提取模块以及自适应融合模块以及美学评分计算模块，所述运动特征提取模块包括卷积层、池化层以及多层感知机层，所述轨迹特征提取模块包括多层感知机层以及最远点采样层，所述自适应融合模块包括自注意力层以及多层感知机层，所述美学评分计算模块包括多个多层感知机层和激活函数层；

3.根据权利要求1所述的虚拟会议的视频集锦获取方法，其特征在于，确定所述虚拟相机的至少一个目标移动轨迹之前，所述视频集锦获取方法还包括：

生成并提示移动轨迹选择信息；

确定所述虚拟相机的至少一个目标移动轨迹的过程包括：

4.根据权利要求1所述的虚拟会议的视频集锦获取方法，其特征在于，确定所述虚拟相机的至少一个目标移动轨迹之前，所述视频集锦获取方法还包括：

确定所述虚拟相机的至少一个目标移动轨迹的过程包括：

5.根据权利要求1所述的虚拟会议的视频集锦获取方法，其特征在于，控制虚拟相机对所述拍摄对象进行拍摄之前，所述视频集锦获取方法还包括：

确定所述虚拟相机的至少一个目标拍摄景别；

控制虚拟相机对所述拍摄对象进行拍摄的过程包括：

6.根据权利要求5所述的虚拟会议的视频集锦获取方法，其特征在于，控制所述虚拟相机分别按照各个所述目标拍摄景别对所述拍摄对象进行拍摄之前，所述视频集锦获取方法还包括：

获取所述虚拟相机在不同的拍摄位置获取的图像数据；

7.根据权利要求6所述的虚拟会议的视频集锦获取方法，其特征在于，基于各个所述图像数据确定所述虚拟相机在各个所述拍摄位置的拍摄景别的过程包括：

8.根据权利要求1所述的虚拟会议的视频集锦获取方法，其特征在于，控制虚拟相机对所述拍摄对象进行拍摄之前，所述视频集锦获取方法还包括：

确定所述虚拟相机的至少一个目标拍摄视角；

控制虚拟相机对所述拍摄对象进行拍摄的过程包括：

9.根据权利要求1所述的虚拟会议的视频集锦获取方法，其特征在于，控制虚拟相机对所述拍摄对象进行拍摄之前，所述视频集锦获取方法还包括：

确定所述虚拟相机的目标拍摄参数，所述目标拍摄参数包括目标移动轨迹、目标拍摄视角以及目标拍摄景别中的至少两项；

10.根据权利要求1所述的虚拟会议的视频集锦获取方法，其特征在于，确定虚拟会议中的多个关键事件的过程包括：

获取虚拟会议的会议类型；

根据所述会议类型确定所述虚拟会议的多个关键事件。

11.根据权利要求1所述的虚拟会议的视频集锦获取方法，其特征在于，确定所述关键事件的拍摄对象的过程包括：

确定所述关键事件在所述虚拟会议中所处的会议阶段；

基于所述会议阶段确定所述关键事件的拍摄对象。

12.根据权利要求11所述的虚拟会议的视频集锦获取方法，其特征在于，所述会议阶段包括会议开始阶段和会议结束阶段；

13.根据权利要求12所述的虚拟会议的视频集锦获取方法，其特征在于，所述会议阶段还包括处于所述会议开始阶段和所述会议结束阶段之间的会议其他阶段；

14.根据权利要求1所述的虚拟会议的视频集锦获取方法，其特征在于，对各个所述关键事件的输出视频片段进行拼接，得到所述虚拟会议的视频集锦的过程包括：

15.根据权利要求1-14任意一项所述的虚拟会议的视频集锦获取方法，其特征在于，所述虚拟会议的视频集锦获取方法还包括：

16.一种虚拟会议的视频集锦获取系统，其特征在于，所述视频集锦获取系统包括：

第一确定模块，用于确定虚拟会议中的多个关键事件；

美学处理模块，用于针对每一所述关键事件，确定所述关键事件的拍摄对象，控制虚拟相机对所述拍摄对象进行拍摄，得到所述关键事件的多个备选视频片段并存储，将存储的多个所述备选视频片段分别输入预设美学评价模型，得到各个所述备选视频片段的美学评分，将所述美学评分最高的备选视频片段确定为所述关键事件的输出视频片段；

拼接模块，用于对各个所述关键事件的输出视频片段进行拼接，得到所述虚拟会议的视频集锦；

控制虚拟相机对所述拍摄对象进行拍摄的过程包括：

确定所述虚拟相机的至少一个目标移动轨迹；

所述评分操作包括：

获取所述备选视频片段中与运动特征对应的第一特征数据；

基于所述融合特征数据计算所述备选视频片段的美学评分。

17.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1-15任意一项所述的虚拟会议的视频集锦获取方法的步骤。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-15任意一项所述的虚拟会议的视频集锦获取方法的步骤。