CN113784189B

CN113784189B - 一种圆桌视频会议的生成方法、装置、介质和电子设备

Info

Publication number: CN113784189B
Application number: CN202111015245.8A
Authority: CN
Inventors: 王珂晟; 黄劲; 黄钢; 许巧龄
Original assignee: Oook Beijing Education Technology Co ltd
Current assignee: Oook Beijing Education Technology Co ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2023-08-01
Anticipated expiration: 2041-08-31
Also published as: US20230061662A1; CN113784189A; US11876843B2; TW202312102A; TWI802093B

Abstract

本公开提供了一种圆桌视频会议的生成方法、装置、介质和电子设备，本公开响应参会者的头部指示信息，通过当前展示者的视频从圆桌的座位号序列中确定滚动起点号，通过当前发言者的视频从圆桌的座位号序列中确定滚动终点号，进而获得目标座位号的滚动序列，依据滚动序列模拟圆桌中央的虚拟摄像头旋转拍摄的方式，滚动展示排列在两点间的参会者影像。从而在视频会议中营造出一种虚拟圆桌会议的场景。

Description

一种圆桌视频会议的生成方法、装置、介质和电子设备

技术领域

本公开涉及图像处理领域，具体而言，涉及一种圆桌视频会议的生成方法、装置、介质和电子设备。

背景技术

随着互联网技术的发展，基于互联网技术的视频会议能够实现多人同时进行远程通讯，既能够实现通话交流，也能够实现视频交流，很好的解决了远程多地开会的问题。

但是，当前视频会议的展示部分，常常是将多个参会者的视频随意摆放在终端的桌面中，且参会者的背景凌乱，破坏了会议的严肃性。

发明内容

本公开的目的在于提供一种圆桌视频会议的生成方法、装置、介质和电子设备，能够解决上述提到的至少一个技术问题。具体方案如下：

根据本公开的具体实施方式，第一方面，本公开提供一种圆桌视频会议的生成方法，包括：

从当前采集视频中获取当前参会者的头部指示信息；

响应于所述头部指示信息，从圆桌的座位号序列中获取当前展示者的视频对应的第一座位号和当前发言者的视频对应的第二座位号，所述第一座位号用于表征滚动起点号，所述第二座位号用于表征滚动终点号；

基于所述滚动起点号、所述滚动终点号和所述头部指示信息从所述座位号序列中确定所有目标座位号和所述目标座位号的滚动序列；

依据所述滚动序列和所述目标座位号对应的目标视频，生成并展示模拟圆桌会议形式的虚拟圆桌视频，其中，所述虚拟圆桌视频包括所述目标视频中参会者的影像依据所述滚动序列依次滚动展示至当前发言者的影像。

根据本公开的具体实施方式，第二方面，本公开提供一种圆桌视频会议的生成装置，包括：

获取单元，用于从当前采集视频中获取当前参会者的头部指示信息；

响应单元，用于响应于所述头部指示信息，从圆桌的座位号序列中获取当前展示者的视频对应的第一座位号和当前发言者的视频对应的第二座位号，所述第一座位号用于表征滚动起点号，所述第二座位号用于表征滚动终点号；

确定单元，用于基于所述滚动起点号、所述滚动终点号和所述头部指示信息从所述座位号序列中确定所有目标座位号和所述目标座位号的滚动序列；

生成单元，用于依据所述滚动序列和所述目标座位号对应的目标视频，生成并展示模拟圆桌会议形式的虚拟圆桌视频，其中，所述虚拟圆桌视频包括所述目标视频中参会者的影像依据所述滚动序列依次滚动展示至当前发言者的影像。

根据本公开的具体实施方式，第三方面，本公开提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上任一项所述圆桌视频会议的生成方法。

根据本公开的具体实施方式，第四方面，本公开提供一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上任一项所述圆桌视频会议的生成方法。

本公开实施例的上述方案与现有技术相比，至少具有以下有益效果：

附图说明

图1示出了根据本公开实施例的圆桌视频会议的生成方法的流程图；

图2示出了根据本公开实施例确定目标座位号的滚动序列的示意图；

图3示出了根据本公开实施例确定目标座位号的滚动序列的示意图；

图4示出了根据本公开实施例确定目标座位号的滚动序列的示意图；

图5示出了根据本公开实施例确定目标座位号的滚动序列的示意图；

图6示出了根据本公开实施例的获取当前参会者的头部指示信息的方法的流程图；

图7示出了根据本公开实施例的视频图像中的面部结构点的示意图；

图8示出了根据本公开实施例的生成并展示虚拟圆桌视频的方法的流程图；

图9示出了根据本公开实施例的生成并展示虚拟圆桌视频的方法的示意图；

图10示出了根据本公开实施例的圆桌视频会议的生成装置的单元框图；

图11示出了根据本公开实施例提供的一种电子设备连接结构示意图。

具体实施方式

为了使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开作进一步地详细描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

在本公开实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本公开实施例中可能采用术语第一、第二、第三等来描述，但这些描述不应限于这些术语。这些术语仅用来将描述区分开。例如，在不脱离本公开实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。

下面结合附图详细说明本公开的可选实施例。

实施例1

本公开实施例将所有参会者汇聚在一个虚拟圆桌前，每个参会者使用的终端能够根据参会者的头部指示信息，从终端当前展示者的影像滚动至展示当前发言者的影像。在滚动的过程中，模拟圆桌中央的虚拟摄像头旋转拍摄的方式，滚动展示排列在两者间的参会者影像。从而在视频会议中营造出一种虚拟圆桌会议的场景。

对此，如图1所示，对本公开提供的实施例，即一种圆桌视频会议的生成方法的实施例。

下面结合图1对本公开实施例进行详细说明。

步骤S101，从当前采集视频中获取当前参会者的头部指示信息。

当前采集视频是由当前参会者使用的当前终端通过摄像头采集的，比如，若当前参会者通过手机参加视频会议，则手机通过内置的摄像头采集视频；若当前参会者通过电脑参加视频会议，则电脑通过内置/外置的摄像头采集视频。

当前采集视频并不一定用于在当前终端中显示，而主要用于分析当前参会者是否发出了头部指示信息。该头部指示信息用于指示当前终端模拟圆桌会议场景滚动展示至当前发言者的影像。若当前终端前的当前参会者是当前发言者时，当前终端前才可能展示当前参会者的影像。

可选的，所述头部指示信息包括头部向左摆动信息或头部向右摆动信息。本公开实施例通过头部摆动方向指示虚拟摄像头旋转的方向。

步骤S102，响应于所述头部指示信息，从圆桌的座位号序列中获取当前展示者的视频对应的第一座位号和当前发言者的视频对应的第二座位号。

本公开实施例为每个参会者采集的视频提供了圆桌的座位号，该座位号是一个虚拟座位号。若虚拟摄像头旋转至该座位号时，则当前参会者使用的当前终端将展示该座位号对应的视频。

为了能够对所述座位号进行管理，本公开实施例提供了圆桌的座位号序列。该座位号序列记录了座位号与参会者的视频间的对应关系，以及座位号之间的相互关系。这种相互关系可以理解为座位号对应的视频在圆桌中的位置关系，也可以理解为座位号对应的参会者在圆桌中的位置关系。

圆桌的座位号序列可以根据参会者进入视频会议室的先后顺序自动建立，也可以根据参会者的身份预先设置。本公开不做特殊的限定。

所述当前展示者的视频，可以理解为在当前参会者的当前终端展示的参会者的视频。

所述当前发言者的视频，可以理解为在当前参会者的当前终端传出的当前发言者的音频。当前发言者的音频并不一定来自于当前展示者的原始视频，可能来自于另一个未展示的参会者的原始视频，则该未展示的参会者的原始视频也就是当前发言者的视频。

所述第一座位号用于表征滚动起点号，所述第二座位号用于表征滚动终点号。

步骤S103，基于所述滚动起点号、所述滚动终点号和所述头部指示信息从所述座位号序列中确定所有目标座位号和所述目标座位号的滚动序列。

所述目标座位号，可以理解为，虚拟摄像头从滚动起点号旋转至滚动终点号时，所经过的所有座位号。

为了方便对目标座位号进行有效的管理，本公开实施例提供了目标座位号的滚动序列。该滚动序列记录了目标座位号与参会者的视频间的对应关系，以及虚拟摄像头转动时所经过的目标座位号的顺序。这种目标座位号的顺序是基于座位号序列中座位号的关系建立的。

在一个具体实施例中，所述基于所述滚动起点号、所述滚动终点号和所述头部指示信息从圆桌的座位号序列中确定所有目标座位号和所述目标座位号的滚动序列，包括以下步骤：

步骤S103a，响应于所述滚动起点号小于所述滚动终点号，且所述头部指示信息包括头部向右摆动信息，从所述座位号序列中自所述滚动起点号顺序至所述滚动终点号确定所有目标座位号和所述目标座位号的滚动序列。

例如，如图2所示，座位号序列包括座位号1-12号，确定的滚动起点号为座位号4，滚动终点号为座位号9，若头部指示信息包括头部向右摆动信息，则滚动序列包括目标座位号4-9号。

步骤S103b，响应于所述滚动起点号小于所述滚动终点号，且所述头部指示信息包括头部向左摆动信息，从所述座位号序列中自所述滚动起点号逆序至所述座位号序列的起点号，以及自所述座位号序列的终点号逆序至所述滚动终点号确定所有目标座位号和所述目标座位号的滚动序列。

例如，如图3所示，继续上述例子，确定的滚动起点号为座位号4，滚动终点号为座位号9，若头部指示信息包括头部向左摆动信息，则滚动序列包括目标座位号4-1号和目标座位号12-9号。

步骤S103c，响应于所述滚动起点号大于所述滚动终点号，且所述头部指示信息包括头部向左摆动信息，从所述座位号序列中自所述滚动起点号逆序至所述滚动终点号确定所有目标座位号和所述目标座位号的滚动序列。

例如，如图4所示，继续上述例子，确定的滚动起点号为座位号9，滚动终点号为座位号4，若头部指示信息包括头部向左摆动信息，则滚动序列包括目标座位号9-4号。

步骤S103d，响应于所述滚动起点号大于所述滚动终点号，且所述头部指示信息包括头部向右摆动信息，从所述座位号序列中自所述滚动起点号顺序至所述座位号序列的终点号，以及自所述座位号序列的起点号顺序至所述滚动终点号确定所有目标座位号和所述目标座位号的滚动序列。

例如，如图5所示，继续上述例子，确定的滚动起点号为座位号9，滚动终点号为座位号4，若头部指示信息包括头部向右摆动信息，则滚动序列包括目标座位号9-12号和目标座位号1-4号。

步骤S104，依据所述滚动序列和所述目标座位号对应的目标视频，生成并展示模拟圆桌会议形式的虚拟圆桌视频。

其中，所述虚拟圆桌视频包括所述目标视频中参会者的影像依据所述滚动序列依次滚动展示至当前发言者的影像。例如，依据所述滚动序列依次水平滚动展示至当前发言者的影像。

本公开实施例响应参会者的头部指示信息，通过当前展示者的视频从圆桌的座位号序列中确定滚动起点号，通过当前发言者的视频从圆桌的座位号序列中确定滚动终点号，进而获得目标座位号的滚动序列，依据滚动序列模拟圆桌中央的虚拟摄像头旋转拍摄的方式，滚动展示排列在两点间的参会者影像。从而在视频会议中营造出一种虚拟圆桌会议的场景。

实施例2

由于本公开实施例是基于上述实施例进行进一步优化，基于相同方法以及相同名称含义的解释与上述实施例相同，此处不再赘述，如图6所示。

所述从当前采集视频中获取当前参会者的头部指示信息，包括以下步骤：

步骤S201，从所述当前采集视频中获取所述当前参会者的视频图像。

视频是由连续拍摄的一帧帧视频图像组成。因此，在分析视频时，也就是分析视频图像的变化。

步骤S202，确定所述视频图像中的面部结构点的二维位置信息和标记信息。

所述面部结构点标记在所述视频图像中当前参会者的面部区域。所有面部结构点是能够体现当前参会者面部姿态。如图7所示，网格的节点就是面部结构点A。而且面部结构点包括二维位置信息和标记信息，标记信息用于指示该二维位置信息对应当前参会者面部的位置特征，该位置特征是当前参会者面部固有的特征。例如，在左内眼角处的面部结构点标记为“J51”；在右内眼角处的面部结构点标记为“J52”。可选的，所述面部结构点包括五官特征点和脸型特征点。

步骤S203，基于所有面部结构点的二维位置信息和标记信息确定在指定方向上所述当前参会者的头部旋转信息。

例如，在空间坐标中，所述指定方向为X轴的正方向、Y轴的正方向和Z轴的正方向。

本公开实施例通过面部结构点确定当前参会者的头部旋转信息，若头部旋转信息满足指示条件，则基于头部旋转信息生成当前参会者的头部指示信息。例如，头部向右摆动信息或头部向左摆动信息。若面部结构点限制在五官特征点和/或脸型特征点，则能够较少数据处理量，提高了诗句处理的效率。

在一个具体实施例中，所述基于所有面部结构点的二维位置信息和标记信息确定在指定方向上所述当前参会者的头部旋转信息，包括以下步骤：

步骤S203-1，在所述视频图像的面部区域中，依据所述标记信息的连接关系规则，以每个二维位置信息作为顶点位置信息，获得面部网格信息。

所述连接关系规则规定了标记信息间的连接关系，例如，连接关系规则规定：标记信息“J52”与标记信息“J60”、“J61”和“J62”连接；因而，在所述视频图像的面部区域中，标记信息“J52”、“J60”、“J61”和“J62”对应的二维位置信息作为网格的顶点位置信息能够连接，从而生成面部网格信息。

面部网格信息包括每个网格顶点的二维位置信息和标记信息以及与该网格顶点相连接的相邻网格顶点的二维位置信息和标记信息。

步骤S203-2，将对应所述当前参会者的基准网格信息和面部网格信息输入训练后的神经网络模型，获取所述头部旋转信息。

其中，所述基准网格信息是基于所述当前参会者的基准图像中面部结构点的二维位置信息和标记信息获得的。

在视频会议开会前，当前终端利用当前参会者在多个特定角度拍摄的特定面部图像获得的基准图像和基准网格信息。主要作为对照数据用于分析当前参会者头部动作。

所述视频图像中的面部结构点与所述基准图像中的面部结构点在所述当前参会者的面部位置上具有对应关系。例如，当前参会者第一张图像的面部结构点与第二张图像的面部结构点均位于当前参会者面部区域中的左内眼角位置，因此，两张张图像的面部结构点在当前参会者的面部位置上具有对应关系。

本具体实施例利用该对应关系确定基准网格信息的面部结构点与面部网格信息的面部结构点的位置关系，然后通过训练后的神经网络模型获取在所述指定方向上当前参会者的头部旋转信息。减少了繁琐的三维计算，提高了分析头部动作的处理效率，以及视频会议的流畅度。

基准网格信息是作为判断头部旋转方向下面部图像的面部网格信息的参照信息。例如，基于标准面部图像生成基准网格信息。

训练神经网络模型时，将头部旋转方向以及该方向下的面部网格信息与基准网格信息作为训练样本，输入神经网络模型，直至达到预设精度。例如，头部旋转方向为左向，则将左向下的面部图像的面部网格信息与基准网格信息以及头部旋转方向作为样本，同一方向的样本可以选取几千组，将这些样本输入神经网络模型进行训练。

步骤S204，响应于所述头部旋转信息满足指示条件，基于所述头部旋转信息生成所述当前参会者的头部指示信息。

例如，若头部旋转信息为在水平方向上向右旋转角度大于或等于45度角，则头部指示信息包括头部向右摆动信息；若头部旋转信息为在水平方向上向左旋转角度大于或等于45度角，则头部指示信息包括头部向左摆动信息。

本公开实施例还提供了在视频会议开会前构建每个参会者的基准信息(比如基准图像和基准网格信息)的方法。

在一个具体实施例中，所述方法还包括以下步骤：

步骤S100-1，预先获取所述当前参会者在多个特定角度拍摄的特定面部图像。

例如，在视频会议开会前，当前参会者可以在进入电子会议室前拍摄特定面部图像，也可以是在注册电子会议室成员时拍摄特定面部图像。本公开实施例不作具体限制。

可选的，所述特定面部图像包括正面面部图像和两侧的侧部面部图像。这三张图像既能够将当前参会者的面部特点囊括在内，也减少了数据处理量，从而提高了视频会议的开会效率。

步骤S100-2，确定每张特定面部图像中的面部结构点的二维位置信息和标记信息。

所述面部结构点标记在所述特定面部图像中所述当前参会者的面部区域。

所述面部结构点与当前参会者的视频图像中的面部结构点在当前参会者的面部位置上具有对应关系。

步骤S100-3，在所述特定面部图像的面部区域中，依据所述标记信息的所述连接关系规则，以每个二维位置信息作为顶点位置信息，获得特定网格信息。

步骤S100-4，基于所述当前参会者的特定网格信息从基准面部模型库中获取面部结构匹配的基准图像和基准网格信息。

本具体实施例通过参会者的多张特定面部图像中的特定网格信息检索基准面部模型库中的面部网格信息，当特定网格信息与库中的面部网格信息匹配时，则库中的面部网格信息对应的基准信息就作为与参会者面部结构匹配的基准信息。通过多张二维的特定面部图像获得了基准信息，简化了数据获取步骤，提高了数据处理的通用性和效率。

实施例3

由于本公开实施例是基于上述实施例进行进一步优化，基于相同方法以及相同名称含义的解释与上述实施例相同，此处不再赘述，如图8所示。

所述依据所述滚动序列和所述目标座位号对应的目标视频，生成并展示模拟圆桌会议形式的虚拟圆桌视频，包括以下步骤：

步骤301，根据所述目标座位号对应的目标视频获取抠图视频。

所述抠图视频仅包括所述目标视频中参会者的影像。可以理解为，所述抠图视频也就是将视频中的参会者的背景影像删除，仅仅保留参会者的影像。为了能够实时的、快速的将视频转变成抠图视频，通常在采集视频时，将参会者的背景布置成单一颜色(比如绿色)。

步骤302，基于表征虚拟会议室设备的前景图像和表征虚拟会议室环境的背景图像与所述抠图视频中参会者的影像融合，获得所述目标座位号对应的虚拟参会视频。

所述前景图像和所述背景图像是预先设置的图像。例如，以圆桌图像作为虚拟会议室设备图像，以窗户和书架图像作为虚拟会议室环境图像，在融合时，利用圆桌图像遮挡住参会者的下半身影像，仅展示参会者的上半身影像，同时，将窗户和书架图像置于上半身影像后，从而每个目标座位号对应的虚拟参会视频均包括参会者坐在会议室的圆桌前参加会议的虚拟影像。

步骤303，依据所述滚动序列和所述目标座位号对应的虚拟参会视频，生成并展示所述虚拟圆桌视频。

本公开实施例为被展示的参会者影像添加了前景和背景，使视屏会议更接近真实会议场景，增加了会议的严肃性。

在一个具体实施例中，所述依据所述滚动序列和所述目标座位号对应的虚拟参会视频，生成并展示所述虚拟圆桌视频，包括以下步骤：

步骤303-1，获取连续时间点序列中每个时间点对应的第一虚拟参会图像和第二虚拟参会图像。

所述连续时间点序列是从滚动起点号滚动至滚动终点号所需要的时间点序列。所述连续时间点序列用于将多个目标视频中的视频图像时间对齐，以便同一时间点相关的目标视频图像能够生成虚拟合成图像。例如，连续时间点序列包括10个时间点：时间点T1～T10；在滚动中，与时间点T3相关的目标视频A和B，则需要将目标视频A和B中的人员合成至虚拟合成视频中。

其中，所述第一虚拟参会图像属于第一虚拟参会视频，所述第二虚拟参会图像属于第二虚拟参会视频。

在所述滚动序列中所述第一虚拟参会视频对应的目标座位号相邻排列在第二虚拟参会视频对应的目标座位号前。

例如，滚动序列包括目标座位号4-9，若第一虚拟参会视频对应的目标座位号为5，则第二虚拟参会视频对应的目标座位号为6。

步骤303-2，计算第一时间点在所述连续时间点序列中的排列序号与所述连续时间点序列的序列数量的百分比，获得切割比例。

例如，连续时间点序列包括10个时间点：时间点T1～T10；则连续时间点序列的序列数量为10，第一时间点是连续时间点序列中的T6，则T6在连续时间点序列中的排列序号为6，则切割比例＝排列序号/序列数量＝6/10＝60％。

步骤303-3，基于所述第一切割比例获得剩余的第二切割比例。

例如，继续上述例子，第二切割比例＝1-第一切割比例＝1-60％＝40％。

步骤303-4，对所述第一时间点对应的第二虚拟参会图像进行长度分隔，在滚动方向的反向侧获得基于所述第一切割比例分隔的第二分割图像，以及，对所述第一时间点对应的第一虚拟参会图像进行长度分隔，在所述滚动方向侧获得基于所述第二切割比例分隔的第一分割图像。

例如，继续上述例子，如图9所示，虚拟摄像头向右滚动，第一虚拟参会图像的长度＝第二虚拟参会图像的长度＝1000，则对第二虚拟参会图像分割后，获得第二虚拟参会图像左侧的第二分割图像，其长度＝1000×60％＝600；对第一虚拟参会图像分割后，获得第一虚拟参会图像右侧的第一分割图像，其长度＝1000×40％＝400。

步骤303-5，基于所述第一分割图像对应的目标座位号和所述第二分割图像对应的目标座位号生成与所述座位号序列相匹配的虚拟合成图像。

例如，假设座位号序列按照从左至右排列的，如果第一分割图像对应的目标座位号为5，第二分割图像对应的目标座位号为6，则第一分割图像在左，第二分割图像在右，进行合成，生成虚拟合成图像；继续上述例子，合成后生成的虚拟合成图像的长度＝400+600＝1000，也就是合称为一个完整的视频图像。

步骤303-6，基于所述连续时间点对应的虚拟合成图像，生成并展示所述虚拟圆桌视频的视频片段。

在滚动序列中，每两个相邻目标座位号对应的视频片段均通过上述方法合成虚拟合成图像，则所有视频片段便组成了虚拟圆桌视频。虚拟圆桌视频展示了虚拟摄像头旋转并逐一滚动目标参会者的影像。

实施例4

本公开还提供了与上述实施例承接的装置实施例，用于实现如上实施例所述的方法步骤，基于相同的名称含义的解释与如上实施例相同，具有与如上实施例相同的技术效果，此处不再赘述。

如图10所示，本公开提供一种圆桌视频会议的生成装置400，包括：

获取单元401，用于从当前采集视频中获取当前参会者的头部指示信息；

响应单元402，用于响应于所述头部指示信息，从圆桌的座位号序列中获取当前展示者的视频对应的第一座位号和当前发言者的视频对应的第二座位号，所述第一座位号用于表征滚动起点号，所述第二座位号用于表征滚动终点号；

确定单元403，用于基于所述滚动起点号、所述滚动终点号和所述头部指示信息从所述座位号序列中确定所有目标座位号和所述目标座位号的滚动序列；

生成单元404，用于依据所述滚动序列和所述目标座位号对应的目标视频，生成并展示模拟圆桌会议形式的虚拟圆桌视频，其中，所述虚拟圆桌视频包括所述目标视频中参会者的影像依据所述滚动序列依次滚动展示至当前发言者的影像。

可选的，所述生成单元404，包括：

抠图子单元，用于根据所述目标座位号对应的目标视频获取抠图视频，所述抠图视频仅包括所述目标视频中参会者的影像；

影像融合子单元，用于基于表征虚拟会议室设备的前景图像和表征虚拟会议室环境的背景图像与所述抠图视频中参会者的影像融合，获得所述目标座位号对应的虚拟参会视频；

第一生成子单元，用于依据所述滚动序列和所述目标座位号对应的虚拟参会视频，生成并展示所述虚拟圆桌视频。

可选的，所述第一生成子单元，包括：

图像获取子单元，用于获取连续时间点序列中每个时间点对应的第一虚拟参会图像和第二虚拟参会图像，其中，所述第一虚拟参会图像属于第一虚拟参会视频，所述第二虚拟参会图像属于第二虚拟参会视频，在所述滚动序列中所述第一虚拟参会视频对应的目标座位号相邻排列在第二虚拟参会视频对应的目标座位号前；

比例计算子单元，用于计算第一时间点在所述连续时间点序列中的排列序号与所述连续时间点序列的序列数量的百分比，获得第一切割比例；

比例获得子单元，用于基于所述第一切割比例获得剩余的第二切割比例；

图像分割子单元，用于对所述第一时间点对应的第二虚拟参会图像进行长度分隔，在滚动方向的反向侧获得基于所述第一切割比例分隔的第二分割图像，以及对所述第一时间点对应的第一虚拟参会图像进行长度分隔，在所述滚动方向侧获得基于所述第二切割比例分隔的第一分割图像；

图像合成子单元，用于基于所述第一分割图像对应的目标座位号和所述第二分割图像对应的目标座位号生成与所述座位号序列相匹配的虚拟合成图像；

片段生成子单元，用于基于所述连续时间点对应的虚拟合成图像，生成并展示所述虚拟圆桌视频的视频片段。

可选的，所述确定单元403，包括：

第一响应子单元，用于响应于所述滚动起点号小于所述滚动终点号，且所述头部指示信息包括头部向右摆动信息，从所述座位号序列中自所述滚动起点号顺序至所述滚动终点号确定所有目标座位号和所述目标座位号的滚动序列；

第二响应子单元，用于响应于所述滚动起点号小于所述滚动终点号，且所述头部指示信息包括头部向左摆动信息，从所述座位号序列中自所述滚动起点号逆序至所述座位号序列的起点号，以及自所述座位号序列的终点号逆序至所述滚动终点号确定所有目标座位号和所述目标座位号的滚动序列；

第三响应子单元，用于响应于所述滚动起点号大于所述滚动终点号，且所述头部指示信息包括头部向左摆动信息，从所述座位号序列中自所述滚动起点号逆序至所述滚动终点号确定所有目标座位号和所述目标座位号的滚动序列；

第四响应子单元，用于响应于所述滚动起点号大于所述滚动终点号，且所述头部指示信息包括头部向右摆动信息，从所述座位号序列中自所述滚动起点号顺序至所述座位号序列的终点号，以及自所述座位号序列的起点号顺序至所述滚动终点号确定所有目标座位号和所述目标座位号的滚动序列。

可选的，所述获取单元401，包括：

第一获取子单元，用于从所述当前采集视频中获取所述当前参会者的视频图像；

第一确定子单元，用于确定所述视频图像中的面部结构点的二维位置信息和标记信息，所述面部结构点标记在所述视频图像中当前参会者的面部区域；

第二确定子单元，用于基于所有面部结构点的二维位置信息和标记信息确定在指定方向上所述当前参会者的头部旋转信息；

第二生成子单元，用于响应于所述头部旋转信息满足指示条件，基于所述头部旋转信息生成所述当前参会者的头部指示信息。

可选的，所述第二确定子单元，包括：

第一获得子单元，用于在所述视频图像的面部区域中，依据所述标记信息的连接关系规则，以每个二维位置信息作为顶点位置信息，获得面部网格信息；

第二获取子单元，用于将对应所述当前参会者的基准网格信息和面部网格信息输入训练后的神经网络模型，获取所述头部旋转信息，其中，所述基准网格信息是基于所述当前参会者的基准图像中面部结构点的二维位置信息和标记信息获得的，所述视频图像中的面部结构点与所述基准图像中的面部结构点在所述当前参会者的面部位置上具有对应关系。

可选的，所述装置还包括：

预先获取单元，用于预先获取所述当前参会者在多个特定角度拍摄的特定面部图像；

结构确定单元，用于确定每张特定面部图像中的面部结构点的二维位置信息和标记信息，所述面部结构点标记在所述特定面部图像中所述当前参会者的面部区域；

获得单元，用于在所述特定面部图像的面部区域中，依据所述标记信息的所述连接关系规则，以每个二维位置信息作为顶点位置信息，获得特定网格信息；

网格获取单元，用于基于所述当前参会者的特定网格信息从基准面部模型库中获取面部结构匹配的基准图像和基准网格信息。

实施例5

如图11所示，本实施例提供一种电子设备，所述电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上实施例所述的方法步骤。

实施例6

本公开实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行如上实施例所述的方法步骤。

实施例7

下面参考图11，其示出了适于用来实现本公开实施例的电子设备的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图11示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图11所示，电子设备可以包括处理装置(例如中央处理器、图形处理器等)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有电子设备操作所需的各种程序和数据。处理装置501、ROM 502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

通常，以下装置可以连接至I/O接口505：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507；包括例如磁带、硬盘等的存储装置508；以及通信装置509。通信装置509可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图11示出了具有各种装置的电子设备，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置508被安装，或者从ROM 502被安装。在该计算机程序被处理装置501执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

Claims

1.一种圆桌视频会议的生成方法，其特征在于，包括：

从当前采集视频中获取当前参会者的头部指示信息；

2.根据权利要求1所述的方法，其特征在于，所述依据所述滚动序列和所述目标座位号对应的目标视频，生成并展示模拟圆桌会议形式的虚拟圆桌视频，包括：

根据所述目标座位号对应的目标视频获取抠图视频，所述抠图视频仅包括所述目标视频中参会者的影像；

基于表征虚拟会议室设备的前景图像和表征虚拟会议室环境的背景图像与所述抠图视频中参会者的影像融合，获得所述目标座位号对应的虚拟参会视频；

依据所述滚动序列和所述目标座位号对应的虚拟参会视频，生成并展示所述虚拟圆桌视频。

3.根据权利要求2所述的方法，其特征在于，所述依据所述滚动序列和所述目标座位号对应的虚拟参会视频，生成并展示所述虚拟圆桌视频，包括：

获取连续时间点序列中每个时间点对应的第一虚拟参会图像和第二虚拟参会图像，其中，所述第一虚拟参会图像属于第一虚拟参会视频，所述第二虚拟参会图像属于第二虚拟参会视频，在所述滚动序列中所述第一虚拟参会视频对应的目标座位号相邻排列在第二虚拟参会视频对应的目标座位号前；

计算第一时间点在所述连续时间点序列中的排列序号与所述连续时间点序列的序列数量的百分比，获得第一切割比例；

基于所述第一切割比例获得剩余的第二切割比例；

对所述第一时间点对应的第二虚拟参会图像进行长度分隔，在滚动方向的反向侧获得基于所述第一切割比例分隔的第二分割图像，以及，

对所述第一时间点对应的第一虚拟参会图像进行长度分隔，在所述滚动方向侧获得基于所述第二切割比例分隔的第一分割图像；

基于所述第一分割图像对应的目标座位号和所述第二分割图像对应的目标座位号生成与所述座位号序列相匹配的虚拟合成图像；

基于所述连续时间点对应的虚拟合成图像，生成并展示所述虚拟圆桌视频的视频片段。

4.根据权利要求1所述的方法，其特征在于，所述基于所述滚动起点号、所述滚动终点号和所述头部指示信息从圆桌的座位号序列中确定所有目标座位号和所述目标座位号的滚动序列，包括：

响应于所述滚动起点号小于所述滚动终点号，且所述头部指示信息包括头部向右摆动信息，从所述座位号序列中自所述滚动起点号顺序至所述滚动终点号确定所有目标座位号和所述目标座位号的滚动序列；

响应于所述滚动起点号小于所述滚动终点号，且所述头部指示信息包括头部向左摆动信息，从所述座位号序列中自所述滚动起点号逆序至所述座位号序列的起点号，以及自所述座位号序列的终点号逆序至所述滚动终点号确定所有目标座位号和所述目标座位号的滚动序列；

响应于所述滚动起点号大于所述滚动终点号，且所述头部指示信息包括头部向左摆动信息，从所述座位号序列中自所述滚动起点号逆序至所述滚动终点号确定所有目标座位号和所述目标座位号的滚动序列；

响应于所述滚动起点号大于所述滚动终点号，且所述头部指示信息包括头部向右摆动信息，从所述座位号序列中自所述滚动起点号顺序至所述座位号序列的终点号，以及自所述座位号序列的起点号顺序至所述滚动终点号确定所有目标座位号和所述目标座位号的滚动序列。

5.根据权利要求1所述的方法，其特征在于，所述从当前采集视频中获取当前参会者的头部指示信息，包括：

从所述当前采集视频中获取所述当前参会者的视频图像；

确定所述视频图像中的面部结构点的二维位置信息和标记信息，所述面部结构点标记在所述视频图像中当前参会者的面部区域；

基于所有面部结构点的二维位置信息和标记信息确定在指定方向上所述当前参会者的头部旋转信息；

响应于所述头部旋转信息满足指示条件，基于所述头部旋转信息生成所述当前参会者的头部指示信息。

6.根据权利要求5所述的方法，其特征在于，所述基于所有面部结构点的二维位置信息和标记信息确定在指定方向上所述当前参会者的头部旋转信息，包括：

在所述视频图像的面部区域中，依据所述标记信息的连接关系规则，以每个二维位置信息作为顶点位置信息，获得面部网格信息；

将对应所述当前参会者的基准网格信息和面部网格信息输入训练后的神经网络模型，获取所述头部旋转信息，其中，所述基准网格信息是基于所述当前参会者的基准图像中面部结构点的二维位置信息和标记信息获得的，所述视频图像中的面部结构点与所述基准图像中的面部结构点在所述当前参会者的面部位置上具有对应关系。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

预先获取所述当前参会者在多个特定角度拍摄的特定面部图像；

确定每张特定面部图像中的面部结构点的二维位置信息和标记信息，所述面部结构点标记在所述特定面部图像中所述当前参会者的面部区域；

在所述特定面部图像的面部区域中，依据所述标记信息的所述连接关系规则，以每个二维位置信息作为顶点位置信息，获得特定网格信息；

基于所述当前参会者的特定网格信息从基准面部模型库中获取面部结构匹配的基准图像和基准网格信息。

8.一种圆桌视频会议的生成装置，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至7中任一项所述的方法。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至7中任一项所述的方法。