CN117478824B

CN117478824B - 会议视频生成方法、装置、电子设备及存储介质

Info

Publication number: CN117478824B
Application number: CN202311817963.6A
Authority: CN
Inventors: 卢丽华; 魏辉; 张晓辉; 李茹杨; 赵雅倩; 李仁刚
Original assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Current assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Priority date: 2023-12-27
Filing date: 2023-12-27
Publication date: 2024-03-22
Anticipated expiration: 2043-12-27
Also published as: CN117478824A

Abstract

本发明提供一种会议视频生成方法、装置、电子设备及存储介质，涉及数据处理技术领域，包括：接收用户对第一虚拟会议的会议记录界面中第一关键事件的记录标识的第一输入；响应于所述第一输入，生成第一关键事件对应的第一视频片段；接收用户对所述第一视频片段对应第一视频效果优化界面的第二输入，所述第二输入用于确定所述第一视频片段的第一视频效果描述文本；响应于所述第二输入，将所述第一视频效果描述文本、所述第一视频效果描述文本对应的第一轨迹信息和所述第一视频片段输入虚拟会议效果生成模型，输出第一视频效果的第一视频片段。

Description

会议视频生成方法、装置、电子设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种会议视频生成方法、装置、电子设备及存储介质。

背景技术

随着虚拟现实、增强现实等技术的不断进步，提供了高沉浸感、高交互性的线上虚拟会议，使得参会者可以足不出户，即可以通过虚拟现实或者增强现实等技术参加会议。

大部分的传统线下会议，通常会通过文本摘要的方式来会议的重点内容来进行记录，虽然文本摘要可以较好地记录涉及重要主题、关键决策和任务的会议内容，但是在重视可视交互与视觉信息的虚拟会议中，不能直观与准确地反映会议内容。

因此，如何更好的记录虚拟会议中重要的会议内容，已经成为业界亟待解决的问题。

发明内容

本发明提供一种会议视频生成方法、装置、电子设备及存储介质，用以解决相关技术中如何更好的记录虚拟会议中重要的会议内容的内容。

本发明提供一种会议视频生成方法，包括：

接收用户对第一虚拟会议的会议记录界面中第一关键事件的记录标识的第一输入；

响应于所述第一输入，生成第一关键事件对应的第一视频片段；

接收用户对所述第一视频片段对应第一视频效果优化界面的第二输入，所述第二输入用于确定所述第一视频片段的第一视频效果描述文本；

响应于所述第二输入，将所述第一视频效果描述文本、所述第一视频效果描述文本对应的第一轨迹信息和所述第一视频片段输入虚拟会议效果生成模型，输出第一视频效果的第一视频片段。

根据本发明提供的一种会议视频生成方法，所述响应于所述第一输入，生成第一关键事件对应的第一视频片段，包括：

以静止的镜头记录所述第一虚拟会议中的所述第一关键事件，得到所述第一关键事件的至少一个第一事件镜头；每个所述第一事件镜头的时长为N秒，N为正整数；

将各个所述第一事件镜头输入镜头检测模型，得到各个所述第一事件镜头的镜头边界帧；

基于各个所述第一事件镜头的镜头边界帧，确定各个所述第一事件镜头的有效时长；

将第一目标事件镜头作为所述第一关键事件对应的第一视频片段；其中，所述第一目标事件镜头是各个所述第一事件镜头中有效时长最长的第一事件镜头。

根据本发明提供的一种会议视频生成方法，将各个所述第一事件镜头输入镜头检测模型，得到各个所述第一事件镜头的镜头边界帧，包括：

将各个所述第一事件镜头输入镜头检测模型，输出所述第一事件镜头中各个视频帧为视频边界帧的概率；

基于各个所述第一事件镜头中的起始边界帧和结束边界帧，确定各个所述第一事件镜头的镜头边界帧；

其中，所述起始边界帧和结束边界帧为所述第一事件镜头中为视频边界帧的概率最大的两个视频帧。

根据本发明提供的一种会议视频生成方法，接收用户对所述第一视频片段对应第一视频效果优化界面的第二输入，包括：

在所述第一视频片段对应第一视频效果优化界面显示M个视频效果描述文本标识，每个所述视频效果描述文本标识指示有一个视频效果描述文本；

接收用户点击所述M个视频效果描述文本标识中第一视频效果描述文本标识的第二输入，M为正整数；

其中，所述第一视频效果描述文本标识指示所述第一视频效果描述文本。

在所述第一视频片段对应第一视频效果优化界面显示视频效果描述文本输入子界面；

接收用户在所述视频效果描述文本输入子界面输入所述第一视频效果描述文本的第二输入。

根据本发明提供的一种会议视频生成方法，在所述输出第一视频效果的第一视频片段的步骤之后，还包括：

接收用于生成所述第一虚拟会议的虚拟会议视频的第三输入；

响应于所述第三输入，获取通过所述第一虚拟会议中各个关键事件对应的视频片段；

基于所述第一视频片段和各个关键事件对应的视频片段的视频生成时间，依时序将所述第一视频片段和各个关键事件对应的视频片段拼接为所述第一虚拟会议的虚拟会议集锦视频。

根据本发明提供的一种会议视频生成方法，所述各个关键事件对应的视频片段的生成方法，包括：

接收第四输入；其中，所述第四输入用于确定所述关键事件对应的视频片段的第二视频效果描述文本；

响应于所述第四输入，将所述第二视频效果描述文本、所述第二视频效果描述文本对应的第二轨迹信息和所述关键事件对应的视频片段输入虚拟会议效果生成模型，输出第二视频效果的视频片段。

根据本发明提供的一种会议视频生成方法，所述镜头检测模型包括：镜头特征提取模块和镜头预测模块；所述镜头特征提取模块包含多个卷积层、池化层和自注意力层，所述镜头预测模块包含多层感知器和激活函数层；

其中，所述镜头特征提取模块用于提取输入的事件镜头的镜头特征；

其中，所述镜头预测模块用于根据所述镜头特征提取模块输入的所述镜头特征检测中每一特征帧为镜头边界帧的概率。

根据本发明提供的一种会议视频生成方法，在所述将各个所述第一事件镜头输入镜头检测模型，得到各个所述第一事件镜头的镜头边界帧的步骤之前，还包括：

获取多个事件镜头样本和每个视频镜头样本对应的镜头边界标签；

将每个所述事件镜头样本和所述事件镜头样本对应的所述镜头边界标签作为一个第一训练样本，获取多个第一训练样本，利用多个第一训练样本对第一预设网络模型进行训练；

在满足第一预设训练条件的情况下，停止训练，得到所述镜头检测模型。

根据本发明提供的一种会议视频生成方法，所述虚拟会议效果生成模型包括：视频特征提取模块、特征扩散模块和动态辐射场模块，将所述第一视频效果描述文本、所述第一视频效果描述文本对应的第一轨迹信息和所述第一视频片段输入虚拟会议效果生成模型，输出第一视频效果的第一视频片段，包括：

所述视频特征提取模块提取所述第一视频片段的初始视频特征；

所述特征扩散模块根据所述第一视频效果描述文本和所述第一轨迹信息对所述初始视频特征进行优化，得到第一视频效果的第一视频特征；

通过投影将其转换为三维采样点的所述第一视频效果的第一视频特征，输入所述动态辐射场模块，得到第一视频效果的第一视频片段。

根据本发明提供的一种会议视频生成方法，在将所述第一视频效果描述文本、所述第一视频效果描述文本对应的第一轨迹信息和所述第一视频片段输入虚拟会议效果生成模型，输出第一视频效果的第一视频片段的步骤之前，还包括：

针对于任一视频效果，从多个不同的视角利用虚拟相机拍摄会议视频片段样本；

基于每个所述会议视频片段样本拍摄过程中的拍摄运动轨迹和所述拍摄运动轨迹对应的文字描述，确定每个所述会议视频片段样本对应的视频效果描述文本标签和轨迹信息标签；

将每个所述会议视频片段样本和所述会议视频片段样本对应的视频效果描述文本标签和轨迹信息标签作为一个第二训练样本，获取多个第二训练样本；

基于多个所述第二训练样本对第二预设网络模型进行训练。

根据本发明提供的一种会议视频生成方法，基于多个所述第二训练样本对第二预设网络模型进行训练的步骤之前，还包括：

将同一视频效果下任一视角的会议视频片段样本输入到初始预设网络模型中，输出其它视角的会议视频片段样本；

在满足第一预设训练条件的情况下，停止训练，得到所述第二预设网络模型。

根据本发明提供的一种会议视频生成方法，基于多个所述第二训练样本对第二预设网络模型进行训练的步骤，包括：

对于任意一个所述第二训练样本，将所述第二训练样本输入到所述第二预设网络模型，输出第二视频效果的第二视频片段；

基于所述第二视频效果的第二视频片段和所述第二训练样本对应的视频效果描述文本标签和轨迹信息标签，计算第一损失值；

在所述第一损失值小于第一预设阈值的情况下，停止训练，得到虚拟会议效果生成模型。

根据本发明提供的一种会议视频生成方法，所述第二预设网络模型包括：视频特征提取模块、特征扩散模块和动态辐射场模块、文本特征提取模块、轨迹特征提取模块和特征融合网络；

其中，所述视频特征提取模块包括多个卷积层和多层感知器；

其中，所述特征扩散模块包括跳跃连接的多个变换层；

其中，所述动态辐射场模块包括多个多层感知器；

其中，所述文本特征提取模块采用预训练语言模型；

其中，所述特征融合网络包括多个自注意力层和多层感知器。

根据本发明提供的一种会议视频生成方法，对于任意一个所述第二训练样本，将所述第二训练样本输入到所述第二预设网络模型，输出第二视频效果的第二视频片段，包括：

将所述会议视频片段样本输入所述视频特征提取模块，输出所述会议视频片段样本的初始视频特征；

将所述会议视频片段样本对应的视频效果描述文本标签输入所述文本特征提取模块，得到所述会议视频片段样本的文本特征；

将所述会议视频片段样本对应的轨迹信息标签输入所述轨迹特征提取模块，得到所述会议视频片段样本的轨迹特征；

将所述会议视频片段样本的文本特征和所述轨迹特征输入所述特征融合网络，输出文本特征和轨迹特征的去噪条件；

将所述去噪条件和所述会议视频片段样本的初始视频特征输入所述特征扩散模块，得到第二视频效果的第二视频特征；

将所述第二视频特征输入所述动态辐射场模块，输出所述第二视频效果的第二视频片段。

根据本发明提供的一种会议视频生成方法，将所述去噪条件和所述会议视频片段样本的初始视频特征输入所述特征扩散模块，得到第二视频效果的第二视频特征，包括:

通过马尔科夫扩散对所述初始视频特征逐步添加噪声，得到添加噪声后的初始视频特征；

根据文本特征和轨迹特征的所述去噪条件，利用所述变换层进行去噪，得到第二视频效果的第二视频特征。

根据本发明提供的一种会议视频生成方法，将所述第二视频特征输入所述动态辐射场模块，输出所述第二视频效果的第二视频片段，包括：

根据录制所述会议视频片段样本时的相机中心和正则化的光线方向，通过光线采样获取至少一个三维点；

利用根据录制所述会议视频片段样本时的相机位姿将所述三维点投影到所述第二视频特征的各个视频特征帧中，并经过动态辐射场模块中的多层感知器进行变换，获取各个视频特征帧中的三维点特征；

将各个视频特征帧中三维点的位置信息、三维点特征和预设时间信息输入所述动态辐射场模块，得到各个视频特征帧中三维点的运动流信息、颜色值信息、体密度信息和融合参数信息；

基于各个视频特征帧中三维点的运动流信息、颜色值信息、体密度信息和融合参数信息，确定第二视频效果的第二视频片段。

根据本发明提供的一种会议视频生成方法，所述第一关键事件包括以下至少一项：会议开始事件、会议结束事件、报告人讲话事件、问答环节事件、会后活动事件。

根据本发明提供的一种会议视频生成方法，所述第一视频效果描述文本包括以下至少一项：平移效果、环绕效果、放大效果和缩小效果。

本发明还提供一种会议视频生成装置，包括：

第一接收模块，用于接收用户对第一虚拟会议的会议记录界面中第一关键事件的记录标识的第一输入；

第一生成模块，用于响应于所述第一输入，生成第一关键事件对应的第一视频片段；

第二接收模块，用于接收用户对所述第一视频片段对应第一视频效果优化界面的第二输入，所述第二输入用于确定所述第一视频片段的第一视频效果描述文本；

第二生成模块，用于响应于所述第二输入，将所述第一视频效果描述文本、所述第一视频效果描述文本对应的第一轨迹信息和所述第一视频片段输入虚拟会议效果生成模型，输出第一视频效果的第一视频片段。

根据本发明提供的会议视频生成装置，所述装置还用于：

以静止的镜头记录所述第一虚拟会议中的所述第一关键事件，得到所述第一关键事件的至少一个第一事件镜头；每个所述第一事件镜头的时长为N秒；

根据本发明提供的会议视频生成装置，所述装置还用于：

根据本发明提供的会议视频生成装置，所述镜头检测模型包括：镜头特征提取模块和镜头预测模块；所述镜头特征提取模块包含多个卷积层、池化层和自注意力层，所述镜头预测模块包含多层感知器和激活函数层；

根据本发明提供的会议视频生成装置，所述装置还用于：

根据本发明提供的会议视频生成装置，所述虚拟会议效果生成模型包括：视频特征提取模块、特征扩散模块和动态辐射场模块，将所述第一视频效果描述文本、所述第一视频效果描述文本对应的第一轨迹信息和所述第一视频片段输入虚拟会议效果生成模型，输出第一视频效果的第一视频片段，包括：

根据本发明提供的会议视频生成装置，所述装置还用于：

基于多个所述第二训练样本对第二预设网络模型进行训练。

根据本发明提供的会议视频生成装置，所述装置还用于：

根据本发明提供的会议视频生成装置，所述第二预设网络模型包括：视频特征提取模块、特征扩散模块和动态辐射场模块、文本特征提取模块、轨迹特征提取模块和特征融合网络；

其中，所述特征扩散模块包括跳跃连接的多个变换层；

其中，所述动态辐射场模块包括多个多层感知器；

其中，所述文本特征提取模块采用预训练语言模型；

根据本发明提供的会议视频生成装置，所述装置还用于：

根据本发明提供的会议视频生成装置，所述第一关键事件包括以下至少一项：会议开始事件、会议结束事件、报告人讲话事件、问答环节事件、会后活动事件。

根据本发明提供的会议视频生成装置，所述第一视频效果描述文本包括以下至少一项：平移效果、环绕效果、放大效果和缩小效果。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述会议视频生成方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述会议视频生成方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述会议视频生成方法。

本发明提供的会议视频生成方法、装置、电子设备及存储介质，在用户参加第一虚拟会议的过程中，或者回顾第一虚拟会议的过程中，若判断当前虚拟会议中发生了需要进行记录第一关键事件，则可以通过第一输入来触发第一关键事件对应的会议视频的录制，从而有效保证虚拟会中的关键事件对应的视频能够得到录制，避免记录完整虚拟会议视频，节省存储、时间与人力资源；同时，用户还可以通过简单的视频效果描述文本的第二输入，进而为关键事件的视频片段进行视频效果优化，通过将视频效果描述文本、第一视频效果描述文本对应的轨迹信息和第一视频片段一起输入虚拟会议效果生成模型，最终可以得到通过第一视频效果进行展示的第一视频片段，进行视频效果优化后的视频片段更具视觉吸引力，能够给用户带来更好的观看体验。

附图说明

为了更清楚地说明本发明或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的会议视频生成方法流程示意图；

图2为本申请实施例提供的会议记录界面示意图；

图3为本申请实施例提供的第一视频效果优化界面显示示意图；

图4为本申请实施例所描述的镜头检测模型结构示意图；

图5为本申请实施例提供的第二预设网络模型结构示意图；

图6为本申请实施例提供的视频效果示意图；

图7为本申请实施例提供的会议视频生成装置结构示意图；

图8为本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本申请实施例提供的会议视频生成方法流程示意图，如图1所示，包括：

步骤110，接收用户对第一虚拟会议的会议记录界面中第一关键事件的记录标识的第一输入；

在本申请实施例中，电子设备接收用户对第一虚拟会议的会议记录界面中第一关键事件的记录标识的第一输入，该电子设备具体可以是指笔记本电脑、台式电脑、平板电脑、智能手机等具备输入功能的电子设备。

在本申请实施例中，虚拟会议可以是指利用虚拟现实技术，将远程参与者带到一个虚拟的会议室中，通过头戴式显示器、手柄等设备进行交互，以实现远程会议的效果。虚拟会议可以提高会议效率和参与体验，减少时间和旅行成本，为远程工作提供便利。

虚拟现实是一种计算机技术，通过模拟出虚拟世界来创造一种仿真的体验，让用户感觉自己置身于虚拟环境中。虚拟现实技术可以应用于游戏、培训、医疗、军事等领域，为用户提供沉浸式的体验。

在一个可选地实施例中，第一虚拟会议可以是正在进行中的会议，也可以是已经完成且被全程录像的虚拟会议。

在本申请实施例中，第一虚拟会议的会议记录界面，具体可以是在用于记录第一虚拟会议中关键事件的界面，图2为本申请实施例提供的会议记录界面示意图，如图2所示，在第一虚拟会议的会议记录界面可以显示有多种关键事件的记录标识，例如会议开始事件、会议结束事件、报告人讲话事件、问答环节事件、会后活动事件的记录标识，用户在点击关键事件的记录标识后，即可以触发对应关键事件的视频片段录制。

在一个可选地实施例中，第一关键事件的记录标识具体可以是图片标识，或者是文本标识，还可以是即包括图片又包括文本的标识。

本申请实施例中，该第一输入具体可以是用户点击第一关键事件的记录标识的操作，还可以是用语音指令等实现该第一输入的操作。

步骤120，响应于所述第一输入，生成第一关键事件对应的第一视频片段；

在本申请实施例中，电子设备响应于第一输入，在接受到用户的第一输入后，会触发系统会自动以静止的镜头记录第一关键事件以及第一关键事件发生的时间。每个视频片段至少包含一个镜头，每个镜头时长可以为5秒或者8秒。

本申请实施例中，虚拟会议的视频片段具体可以是通过虚拟相机的方式进行拍摄的，虚拟相机是在三维计算机图形学中使用的一种概念，通过设置参数来模拟相机的视角、焦距、曝光等属性，从而完成视频的录制。虚拟相机所拍摄到的画面是在计算机中生成的虚拟场景，相对于真实相机的拍摄，通常具有更高的创意和交互性，因此可以更加适用于虚拟会议等多人交互的使用场合。

然后，根据记录的镜头中有效镜头时长最长的镜头作为第一关键事件对应的第一视频片段。

在一个可选地实施例中，在生成第一关键事件对应的第一视频片段后，还可以接受用户对会议记录界面中关键事件的记录标识的其它输入，并且还可以响应其它输入继续生成对应关键事件的视频片段。

步骤130，接收用户对所述第一视频片段对应第一视频效果优化界面的第二输入，所述第二输入用于确定所述第一视频片段的第一视频效果描述文本；

在本申请实施例中，电子设备接收用户对所述第一视频片段对应第一视频效果优化界面的第二输入。

在本申请实施例中，第一视频片段对应第一视频效果优化界面，具体可以是用于对第一视频片段进行优化的界面，其具体可以是在生成第一视频片段后，通过用户的输入调出的界面，也可以是生成第一视频片段后自动弹出的界面。

在一个可选地实施例中，本申请实施例中的第一视频片段对应第一视频效果优化界面中可以包括有多个视频描述文本对应的文本标识。

在另一个可选地实施例中，本申请实施例中的第一视频片段对应第一视频效果优化界面中可以包括用于输入视频描述文本的文本输入框。

本申请实施例中所描述的第二输入具体可以是用户点击第一视频效果描述文本对应的文本标识的操作，还可以是用户在输入视频描述文本的文本输入框中输入第一视频效果描述文本的操作。

本申请实施例中所描述的视频效果描述文本具体可以是用于描述视频效果的文本信息，例如：“平移效果”、“环绕效果”、“放大效果”、“缩小效果”等。

步骤140，响应于所述第二输入，将所述第一视频效果描述文本、所述第一视频效果描述文本对应的第一轨迹信息和所述第一视频片段输入虚拟会议效果生成模型，输出第一视频效果的第一视频片段。

在本申请实施例中，电子设备响应于第二输入，可以首先根据第一视频效果描述文本获取关联的第一轨迹信息。

在一个可选地实施例中，可以预设存储多个视频效果描述文本，并且为每个视频效果描述文本关联存储器对应的轨迹信息。

在本申请实施例中，第一轨迹信息具体可以是指用一组点来表示虚拟相机运动轨迹。其中，/>表示拍摄轨迹上点的数量。每个轨迹上的点/>可分解为位置/>和角度/>，其中/>分别表示偏航角、俯仰角和滚转角。

在本申请实施例中，在将所述第一视频效果描述文本、所述第一视频效果描述文本对应的第一轨迹信息和所述第一视频片段做一个一组数据共同输入到虚拟会议效果生成模型后，模型可以输出具备第一视频效果的第一视频片段。

在本申请实施例中，在用户参加第一虚拟会议的过程中，或者回顾第一虚拟会议的过程中，若判断当前虚拟会议中发生了需要进行记录第一关键事件，则可以通过第一输入来触发第一关键事件对应的会议视频的录制，从而有效保证虚拟会议中的关键事件对应的视频能够得到录制，避免记录完整虚拟会议视频，节省存储、时间与人力资源；同时，用户还可以通过简单的视频效果描述文本的第二输入，进而为关键事件的视频片段进行视频效果优化，通过将视频效果描述文本、第一视频效果描述文本对应的轨迹信息和第一视频片段一起输入虚拟会议效果生成模型，最终可以得到通过第一视频效果进行展示的第一视频片段，进行视频效果优化后的视频片段更具视觉吸引力，能够给用户带来更好的观看体验。

在本申请实施例中，真实相机在拍摄过程中，若希望对拍摄角度或者拍摄视频的效果进行调整，往往需要通过真实相机的物理操作来实现，例如需要调整真实相机的物理拍摄角度，或者调整真实相机的物理拍摄位置、焦距等才能进行真实相机视频拍摄效果的调整。

由于虚拟相机在拍摄虚拟会议的过程，通过设置参数来模拟相机的视角、焦距、曝光等属性来生成对应视频片段的，因此虚拟相机的调整十分灵活，可以较为直观的根据文本描述或者轨迹信息来进行参数的调整，从而实现虚拟相机视角或者拍摄效果的调整，因此通过视频效果描述文本及对应的轨迹信息来对虚拟相机所拍摄的视频片段进行调整会更容易实现。

可选地，所述响应于所述第一输入，生成第一关键事件对应的第一视频片段，包括：

在本申请实施例中，静止的镜头记录所述第一虚拟会议中的所述第一关键事件，具体可以是指保持镜头静止来记录当前关键事件和关键事件发生的时间。

在一个可选地实施例中，由于记录第一关键事件的过程中，往往会拍摄多组第一关键事件的第一事件镜头，因此还可以进一步筛选有效镜头。

针对关键事件，利用镜头检测网络可以对上述得到的虚拟会议视频集中任一视频镜头进行镜头检测，确定各个第一事件镜头的有效时间。

本申请实施例中所描述的有效时长可以是一个事件镜头中的起始边界帧和结束边界帧之间的时长。

第一事件镜头的有效时长越长，这说明其中包含的有效视频帧越多，因此可以将各个所述第一事件镜头中有效时长最长的第一事件镜头作为第一目标事件镜头，并将第一目标事件镜头作为所述第一关键事件对应的第一视频片段。

可选地，将各个所述第一事件镜头输入镜头检测模型，得到各个所述第一事件镜头的镜头边界帧，包括：

在本申请实施例中，将各个所述第一事件镜头输入镜头检测模型：将已经标识的各个第一事件镜头作为输入，通过镜头检测模型进行处理。

输出所述第一事件镜头中各个视频帧为视频边界帧的概率：针对每个第一事件镜头，镜头检测模型会输出每个视频帧作为视频边界帧的概率。即镜头检测模型会判断每个视频帧是否是一个镜头的开始或结束帧。

基于各个所述第一事件镜头中的起始边界帧和结束边界帧，确定各个所述第一事件镜头的镜头边界帧：根据镜头检测模型输出的概率，选择概率最大的两个视频帧作为第一事件镜头的起始边界帧和结束边界帧。这些边界帧将用于确定第一事件镜头的实际边界。

通过镜头检测模型的输出结果，在已标识的第一事件镜头中确定起始边界帧和结束边界帧，以确定每个第一事件镜头的实际镜头边界。

在本申请实施例中，通过事件镜头中确定起始边界帧和结束边界帧，能够有效筛选出包含更有有效视频帧的事件镜头，将其保存为第一视频片段，可以有效保证第一视频片段的视频质量。

可选地，接收用户对所述第一视频片段对应第一视频效果优化界面的第二输入，包括：

本申请实施例中所描述的视频效果描述文本可以包括：静止效果、环绕效果、平移效果、放大效果、缩小效果，静止效果：在任意视角，固定虚拟相机位姿，对拍摄对象进行拍摄。平移效果：从任意视角开始，从一边到另一边水平移动虚拟相机，对拍摄对象进行拍摄。放缩效果：在任意视角，虚拟相机向被摄主体方法推进或远离进行拍摄。环绕效果：从任意视角开始，虚拟相机以被摄主体为中心进行移动拍摄。

在第一视频效果优化界面中可以显示多种不同的视频效果描述文本标识，该视频效果描述文本标识可以是图片标识或者是文字标识。

每个视频效果描述文本标识会指示一个视频描述文本，用户在选择对应的视频效果描述文本标识之后，可以根据该视频效果描述文本标识对应的视频效果描述文本作为第一视频片段对应的文本输入。

图3为本申请实施例提供的第一视频效果优化界面显示示意图，如图3所示，用户可以点击M个视频效果描述文本标识中的第一视频效果描述文本标识，此时电子设备会响应于该输入，将第一视频效果描述文本标识指示所述第一视频效果描述文本作为用户想要对第一视频片段进行优化的视频效果描述。

在本申请实施例中，视频效果描述文本输入子界面具体可以是用户通过文件输入的方式确定视频效果描述文本的界面，其具体可以表现为一个文本输入框。

用户可以在文本输入框中输入相关文字，进行完成对于第一视频效果描述文本的第二输入。

在本申请实施例中，用户可以第一视频片段对应第一视频效果优化界面完成第一视频效果描述文本的输入，进而有效的进行对应第一视频片段的调整。

可选地，在所述输出第一视频效果的第一视频片段的步骤之后，还包括：

在本申请实施例中，在完成第一视频会议的录制后，可能录制了多个关键事件的视频片段，且其中视频片段还可能是已经经过视频效果调整后的视频片段，而在完成整个第一视频会议的录制后，用户可能希望生成一个整体的关键事件的视频集锦。

因此可以通过用户的第三输入，来触发整体的关键事件的视频集锦的生成。

在一个可选地实施例中，该第三输入可以是用户点击“集锦生成”标识的操作，该集锦生成标识可以显示在第一虚拟会议的会议记录界面，或者视频效果优化界面中。该集锦生成标识可以是文本标识或者图片标识。

电子设备响应于该第三输入后，基于所述第一视频片段和各个关键事件对应的视频片段的视频生成时间，依时序将所述第一视频片段和各个关键事件对应的视频片段拼接为所述第一虚拟会议的虚拟会议集锦视频。

可选地，所述各个关键事件对应的视频片段的生成方法，包括：

即，在后续的视频片段的生成过程中，也可以通过第四输入来调整视频片段的视频效果。

在一个可选地实施例中，还可以预先设定各个关键事件的时间线，可以根据时间线提示用户点击关键事件的记录标识，然后按照时间线的顺序生成各个关键事件的视频片段，并且按照时间线将各个关键事件的视频片段拼接到一起，得到最终虚拟会议的虚拟会议集锦视频。

在本申请实施例中，通过依时序将所述第一视频片段和各个关键事件对应的视频片段拼接为所述第一虚拟会议的虚拟会议集锦视频，可以有效生成数据较为完备的虚拟会议集锦视频，能够便于用户查阅数据。

可选地，所述镜头检测模型包括：镜头特征提取模块和镜头预测模块；所述镜头特征提取模块包含多个卷积层、池化层和自注意力层，所述镜头预测模块包含多层感知器和激活函数层；

在所述将各个所述第一事件镜头输入镜头检测模型，得到各个所述第一事件镜头的镜头边界帧的步骤之前，还包括：

在本申请实施例中，图4为本申请实施例所描述的镜头检测模型结构示意图，如图4所示，镜头检测模型包括：镜头特征提取模块和镜头预测模块；镜头特征提取模块包含多个卷积层、池化层和自注意力层，输入关键事件对应的视频片段，得到镜头特征表示为，/>为视频长度，/>为特征维度。镜头预测模块包含多个多层感知器MLP和激活函数Softmax层，分类每一特征帧是否为镜头边界，得到每一帧为镜头边界帧的概率。

在本申请实施例中，第一预设训练条件具体可以是满足预设训练次数，或者满足预设训练时间，还可以是损失函数收敛。

在满足第一预设训练条件的情况下，说明此时模型已经完成训练，得到所述镜头检测模型，该镜头检测模型可以有效判断输入的视频片段中各个视频帧为镜头边界帧的概率，从而帮助用户筛选包含更多有效视频帧的视频。

可选地，所述虚拟会议效果生成模型包括：视频特征提取模块、特征扩散模块和动态辐射场模块，将所述第一视频效果描述文本、所述第一视频效果描述文本对应的第一轨迹信息和所述第一视频片段输入虚拟会议效果生成模型，输出第一视频效果的第一视频片段，包括：

在本申请实施例中，虚拟会议效果生成模型包括三部分：视频特征提取模块，基于条件去噪的特征扩散模块和基于运动流的动态辐射场模块。

视频特征提取模块可获取初始视频特征。然后，利用基于条件去噪的特征扩散模块，提取特定集锦效果视频的特征表示。通过投影将其转换为三维采样点的特征表示，输入基于运动流的动态辐射场，生成特定的集锦效果。

可选地，在将所述第一视频效果描述文本、所述第一视频效果描述文本对应的第一轨迹信息和所述第一视频片段输入虚拟会议效果生成模型，输出第一视频效果的第一视频片段的步骤之前，还包括：

基于多个所述第二训练样本对第二预设网络模型进行训练。

在本申请实施例中，通过虚拟相机拍摄多个不同视角的会议视频片段，以获得多个不同的视频效果样本。

确定每个会议视频片段样本对应的视频效果描述文本标签和轨迹信息标签：基于每个会议视频片段样本拍摄过程中的拍摄运动轨迹和对应的文字描述，确定每个视频效果样本的视频效果描述文本标签和轨迹信息标签。

将每个会议视频片段样本、视频效果描述文本标签和轨迹信息标签作为第二训练样本：将每个视频效果样本、视频效果描述文本标签和轨迹信息标签组合成一个第二训练样本，以进行训练。

获取多个第二训练样本，并利用这些样本对第二预设网络模型进行训练。

在本申请实施例中，为保证虚拟会议效果生成模型能够生成任意视角的平移、旋转、放缩视觉效果，需要大量的训练数据对其进行训练。针对任一视觉效果，从正面、左前、右前三个视角，利用虚拟相机拍摄得到视频，作为训练数据集。每个视频片段记录3秒。最终，针对任一视觉效果，获得1000个视频片段。记录拍摄运动轨迹以及对应的文字描述，作为每个视频的标签，用于扩散去噪过程。

可选地，基于多个所述第二训练样本对第二预设网络模型进行训练的步骤之前，还包括：

在本申请实施例中，利用两阶段训练策略来对虚拟会议效果生成模型进行训练，在第一阶段，在同一类视觉效果中，输入任一视角的视频，训练生成其他视角的视频。此阶段不需要输入对应的运动轨迹和文字描述，最终得到一个可以在同一集锦视觉效果，不同视角中进行视频生成的第二预设网络模型，为第二阶段网络训练，提供良好的网络权重初始值，加速网络收敛。

可选地，在完成第一阶段的训练后，可以开始进行第二阶段网络训练，基于多个所述第二训练样本对第二预设网络模型进行训练的步骤，包括：

在本申请实施例中，针对于针对环绕、平移等特定的视频效果，将轨迹和关键事件文本描述分别构建为轨迹和文本条件信息，并利用基于条件的特征扩散网络，对提取的初始视频特征进行优化，得到特定视频效果的视频特征。

可选地，所述第二预设网络模型包括：视频特征提取模块、特征扩散模块和动态辐射场模块、文本特征提取模块、轨迹特征提取模块和特征融合网络；

其中，所述特征扩散模块包括跳跃连接的多个变换层；

其中，所述动态辐射场模块包括多个多层感知器；

其中，所述文本特征提取模块采用预训练语言模型；

对于任意一个所述第二训练样本，将所述第二训练样本输入到所述第二预设网络模型，输出第二视频效果的第二视频片段，包括：

图5为本申请实施例提供的第二预设网络模型结构示意图，如图5所示，包括：视频特征提取模块、特征扩散模块和动态辐射场模块、文本特征提取模块、轨迹特征提取模块和特征融合网络；

特征扩散模型包括多个Transformer层和跳跃连接。轨迹特征提取采用PointNet++的编码器，文本特征提取采用BERT，特征融合网络包括多个自注意力层和MLP。

在本申请实施例中，可以利用视频特征提取模块，提取视频特征。

视频特征提取模块包括多个卷积层和MLP。对输入的关键事件视频片段，视频特征提取模块获取初始视频特征，其中/>表示视频帧数，表示视频帧特征维度。

在一个可选地实施例中，可以关键事件和视频效果，构建文本描述，如，以环绕视觉效果记录关键演讲人演讲事件。利用BERT作为文本特征提取器，获得文本特征，其中/>表示文本特征长度，/>表示文本特征维度。运动轨迹由（1）可得，利用PointNet++的编码器作为轨迹特征提取器，提取轨迹初始特征，并利用自注意力网络对其进行优化，得到轨迹特征/>，其中/>表示轨迹特征长度，/>表示轨迹特征维度。特征融合网络包括多个自注意力层和MLP，将文本和轨迹特征进行融合，得到去噪条件。

构建特征扩散模型，提取特定集锦效果视频的特征表示。特征扩散模型，包含加噪过程和去噪过程，对提取的视频特征进行提升，以获取可以生成目标集锦效果的特征表示。以文本和轨迹特征作为去噪条件，并利用Transformer在去噪过程中加入去噪条件。具体来讲，加噪过程为马尔科夫扩散：

逐步添加噪声得到添加噪声后的初始视频特征：

其中，为加入的高斯噪声，/>为超参，/>为单位矩阵，/>表示噪声序列，/>。

去噪网络结构包含多个Transformer层和跳跃连接。

去噪过程为：

特征扩散网络优化目标损失为：

最终得到第二视频效果的第二视频特征表示为。

可选地，将所述第二视频特征输入所述动态辐射场模块，输出所述第二视频效果的第二视频片段，包括：

在本申请实施例中，可以基于光线采样的方式得到三维点，并基于特定效果的视频特征获取三维点特征表示。

设录制所述会议视频片段样本的相机中心为，从相机中心向图像平面的像素发射光线，并对光线进行采样，得到/>个三维点，任意三维点表示为：

其中，为正则化的光线方向。

利用相机位姿对任意三维点进行投影，投影到图像区域，并经过MLP层进行变换，从当前图像帧中获取三维点特征/>：

在本申请实施例中，动态辐射场网络由多个MLP组成。将三维点位置、及其对应特征/>、时间/>一起输入到基于流的动态辐射场中，得到三维点的运动流/>、颜色值/>、体密度/>、融合参数/>：

给定帧预测的运动流/>，可以得到三维点在/>和/>帧的对应点/>和/>，利用/>帧的辐射场，可以得到/>和/>帧的预测的体密度和颜色为：

那么，在时间，像素的颜色计算为：

构建动态辐射场的loss约束：

在本申请实施例中，基于各个视频特征帧中三维点的运动流信息、颜色值信息、体密度信息和融合参数信息可以重构各个视频帧，然后根据重构的各个视频帧可以有效确定第二视频效果的第二视频片段。

在本申请实施例中，基于文本和轨迹的去噪扩散方法，利用去噪扩散模型，以文本描述和相机运动轨迹作为条件，从语义和几何角度明确去噪条件，提高去噪效率，学习融入拍摄轨迹的特征信息，获取高表达力的集锦效果特征表示。

可选地，所述第一视频效果描述文本包括以下至少一项：平移效果、环绕效果、放大效果和缩小效果。

图6为本申请实施例提供的视频效果示意图，如图6所示，包括：静止效果、环绕效果、平移效果和放缩效果的视频效果示意图。

在本申请实施例中，可以通过不同的视频效果描述文本生成丰富的视觉效果。

下面对本发明提供的会议视频生成装置进行描述，下文描述的会议视频生成装置与上文描述的会议视频生成方法可相互对应参照。

图7为本申请实施例提供的会议视频生成装置结构示意图，如图7所示，包括：

第一接收模块710用于接收用户对第一虚拟会议的会议记录界面中第一关键事件的记录标识的第一输入；

第一生成模块720用于响应于所述第一输入，生成第一关键事件对应的第一视频片段；

第二接收模块730用于接收用户对所述第一视频片段对应第一视频效果优化界面的第二输入，所述第二输入用于确定所述第一视频片段的第一视频效果描述文本；

第二生成模块740用于响应于所述第二输入，将所述第一视频效果描述文本、所述第一视频效果描述文本对应的第一轨迹信息和所述第一视频片段输入虚拟会议效果生成模型，输出第一视频效果的第一视频片段。

根据本发明提供的会议视频生成装置，所述装置还用于：

基于多个所述第二训练样本对第二预设网络模型进行训练。

根据本发明提供的会议视频生成装置，所述装置还用于：

其中，所述特征扩散模块包括跳跃连接的多个变换层；

其中，所述动态辐射场模块包括多个多层感知器；

其中，所述文本特征提取模块采用预训练语言模型；

根据本发明提供的会议视频生成装置，所述装置还用于：

本申请实施例中，在用户参加第一虚拟会议的过程中，或者回顾第一虚拟会议的过程中，若判断当前虚拟会议中发生了需要进行记录第一关键事件，则可以通过第一输入来触发第一关键事件对应的会议视频的录制，从而有效保证虚拟会中的关键事件对应的视频能够得到录制，避免记录完整虚拟会议视频，节省存储、时间与人力资源；同时，用户还可以通过简单的视频效果描述文本的第二输入，进而为关键事件的视频片段进行视频效果优化，通过将视频效果描述文本、第一视频效果描述文本对应的轨迹信息和第一视频片段一起输入虚拟会议效果生成模型，最终可以得到通过第一视频效果进行展示的第一视频片段，进行视频效果优化后的视频片段更具视觉吸引力，能够给用户带来更好的观看体验。

图8为本申请实施例提供的电子设备的结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行会议视频生成方法，该方法包括：接收用户对第一虚拟会议的会议记录界面中第一关键事件的记录标识的第一输入；

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的会议视频生成方法，该方法包括：接收用户对第一虚拟会议的会议记录界面中第一关键事件的记录标识的第一输入；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的会议视频生成方法，该方法包括：接收用户对第一虚拟会议的会议记录界面中第一关键事件的记录标识的第一输入；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种会议视频生成方法，其特征在于，包括：

响应于所述第二输入，将所述第一视频效果描述文本、所述第一视频效果描述文本对应的第一轨迹信息和所述第一视频片段输入虚拟会议效果生成模型，输出第一视频效果的第一视频片段；

其中，所述第一轨迹信息为所述第一视频效果描述文本关联存储的用于表示虚拟相机运动轨迹的一组数据点；

其中，所述响应于所述第一输入，生成第一关键事件对应的第一视频片段，包括：

2.根据权利要求1所述的会议视频生成方法，其特征在于，将各个所述第一事件镜头输入镜头检测模型，得到各个所述第一事件镜头的镜头边界帧，包括：

3.根据权利要求1所述的会议视频生成方法，其特征在于，接收用户对所述第一视频片段对应第一视频效果优化界面的第二输入，包括：

4.根据权利要求1所述的会议视频生成方法，其特征在于，接收用户对所述第一视频片段对应第一视频效果优化界面的第二输入，包括：

5.根据权利要求1所述的会议视频生成方法，其特征在于，在所述输出第一视频效果的第一视频片段的步骤之后，还包括：

响应于所述第三输入，获取所述第一虚拟会议中各个关键事件对应的视频片段；

6.根据权利要求5所述的会议视频生成方法，其特征在于，所述各个关键事件对应的视频片段的生成方法，包括：

响应于所述第四输入，将所述第二视频效果描述文本、所述第二视频效果描述文本对应的第二轨迹信息和所述关键事件对应的视频片段输入虚拟会议效果生成模型，输出第二视频效果的视频片段；

其中，所述第二轨迹信息为所述第二视频效果描述文本关联存储的用于表示虚拟相机运动轨迹的一组数据点。

7.根据权利要求1所述的会议视频生成方法，其特征在于，所述镜头检测模型包括：镜头特征提取模块和镜头预测模块；所述镜头特征提取模块包含多个卷积层、池化层和自注意力层，所述镜头预测模块包含多层感知器和激活函数层；

8.根据权利要求7所述的会议视频生成方法，其特征在于，在所述将各个所述第一事件镜头输入镜头检测模型，得到各个所述第一事件镜头的镜头边界帧的步骤之前，还包括：

获取多个事件镜头样本和每个事件镜头样本对应的镜头边界标签；

9.根据权利要求1所述的会议视频生成方法，其特征在于，所述虚拟会议效果生成模型包括：视频特征提取模块、特征扩散模块和动态辐射场模块，将所述第一视频效果描述文本、所述第一视频效果描述文本对应的第一轨迹信息和所述第一视频片段输入虚拟会议效果生成模型，输出第一视频效果的第一视频片段，包括：

10.根据权利要求9所述的会议视频生成方法，其特征在于，在将所述第一视频效果描述文本、所述第一视频效果描述文本对应的第一轨迹信息和所述第一视频片段输入虚拟会议效果生成模型，输出第一视频效果的第一视频片段的步骤之前，还包括：

基于多个所述第二训练样本对第二预设网络模型进行训练。

11.根据权利要求10所述的会议视频生成方法，其特征在于，基于多个所述第二训练样本对第二预设网络模型进行训练的步骤之前，还包括：

12.根据权利要求11所述的会议视频生成方法，其特征在于，基于多个所述第二训练样本对第二预设网络模型进行训练的步骤，包括：

13.根据权利要求12所述的会议视频生成方法，其特征在于，所述第二预设网络模型包括：视频特征提取模块、特征扩散模块和动态辐射场模块、文本特征提取模块、轨迹特征提取模块和特征融合网络；

其中，所述特征扩散模块包括跳跃连接的多个变换层；

其中，所述动态辐射场模块包括多个多层感知器；

其中，所述文本特征提取模块采用预训练语言模型；

14.根据权利要求13所述的会议视频生成方法，其特征在于，对于任意一个所述第二训练样本，将所述第二训练样本输入到所述第二预设网络模型，输出第二视频效果的第二视频片段，包括：

15.根据权利要求14所述的会议视频生成方法，其特征在于，将所述去噪条件和所述会议视频片段样本的初始视频特征输入所述特征扩散模块，得到第二视频效果的第二视频特征，包括:

16.根据权利要求15所述的会议视频生成方法，其特征在于，将所述第二视频特征输入所述动态辐射场模块，输出所述第二视频效果的第二视频片段，包括：

17.根据权利要求1所述的会议视频生成方法，其特征在于，所述第一关键事件包括以下至少一项：会议开始事件、会议结束事件、报告人讲话事件、问答环节事件、会后活动事件。

18.根据权利要求1所述的会议视频生成方法，其特征在于，所述第一视频效果描述文本包括以下至少一项：平移效果、环绕效果、放大效果和缩小效果。

19.一种会议视频生成装置，其特征在于，包括：

第二生成模块，用于响应于所述第二输入，将所述第一视频效果描述文本、所述第一视频效果描述文本对应的第一轨迹信息和所述第一视频片段输入虚拟会议效果生成模型，输出第一视频效果的第一视频片段；

其中，所述装置还用于：

20.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至18任一项所述会议视频生成方法。

21.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至18任一项所述会议视频生成方法。