CN117480776A

CN117480776A - 视频会议终端

Info

Publication number: CN117480776A
Application number: CN202280038638.7A
Authority: CN
Inventors: D·达奥; H·斯克兰斯塔德
Original assignee: Simple Framework Co ltd
Current assignee: Simple Framework Co ltd
Priority date: 2021-05-28
Filing date: 2022-05-27
Publication date: 2024-01-30
Also published as: WO2022248671A1; US20240214520A1; GB2607573A; GB2607573B; GB202107641D0; EP4349007A1; JP2024521292A; AU2022279584A1

Abstract

一种操作视频会议终端的计算机实现的方法。所述视频会议终端包括摄像机，其捕获显示视野的图像。所述方法包括：接收由所述视野内的空间边界定义的数据，所述空间边界至少部分地由距所述摄像机的距离定义；捕获所述视野的图像；识别所述摄像机的所述视野内的一个或多个人；估计所述摄像机的所述视野内的该人或每个人的位置；以及生成一个或多个视频信号，所述视频信号包括与被确定为在所述空间边界内的一个或多个人对应的一个或多个裁剪区域，以传输至接收器。

Description

视频会议终端

技术领域

本发明涉及计算机实现的方法和视频会议终端。

背景技术

近年来，视频会议和视频通话大受欢迎，使不同地点的用户无需前往同一地点，就可以进行面对面的讨论。商务会议、与学生的远程课程以及朋友和家人之间的非正式视频通话是视频会议技术的常见用途。视频会议可以使用智能手机或平板电脑、台式电脑或专用视频会议设备(有时称为终端)进行。

视频会议系统可通过数字网络在位于不同地点的两名或多名与会者之间传输视频和音频。位于每个不同地点的摄像机或网络摄像机可提供视频输入，并且位于不同地点的麦克风可提供音频输入。位于每个不同位置的屏幕、显示器、监视器、电视或投影仪可提供视频输出，并且位于每个不同地点的扬声器可提供音频输出。基于硬件或软件的编码器-解码器技术将模拟视频和音频数据压缩成数字数据包，以在数字网络上传输，并将数据解压缩以在不同地点输出。

一些视频会议系统包含自动框选算法，可查找并框选会议室中的人员，例如将他们从现有视频流中分离出来，然后裁剪出一个包含所有人员的区域，或将他们作为单独的视频流呈现出来。在某些情况下，例如具有玻璃墙或门的房间，或者开放空间，可能会检测到通话之外(即未参与通话)的不需要的人，并被视为用于框选。因此，希望能提高视频通话时人员检测和框选的可靠性。

发明内容

因此，在第一方面中，本发明的实施例提供操作视频会议终端的计算机实现的方法，所述视频会议终端包括摄像机，所述摄像机捕获显示视野的图像，其中所述方法包括：

接收由所述视野内的空间边界定义的数据，所述空间边界至少部分地由距所述摄像机的距离定义；

捕获所述视野的图像；

识别所述摄像机的所述视野内的一个或多个人；

估计所述摄像机的所述视野内的该人或每个人的位置；以及

生成一个或多个视频信号，所述视频信号包括与被确定为在所述空间边界内的一个或多个人对应的一个或多个裁剪区域，以传输至接收器。

通过定义空间边界，并且仅框选那些被确定在边界内的人，增强了人们在视频通话时被框定的可靠性。

下面将列出本发明的可选特征。它们可单独应用或与本发明的任何方面任意组合应用。

生成一个或多个视频信号可以包括：根据一个或多个估计位置确定所述一个或多个人中的至少一个在所述空间边界内；以及将被确定为在所述空间边界内的所述一个或多个人框选以产生相应的裁剪区域。生成所述一个或多个视频信号可以包括：对摄像机视野内的一个或多个人员进行框选，以生成一个或多个裁剪区域；根据一个或多个估计位置确定一个或多个人中哪些人在空间边界内；以及仅基于与空间边界内的一个或多个人相对应的裁剪区域生成一个或多个视频信号。

该方法可进一步地包括将一个或多个视频信号传输到接收器。接收器可以是经由计算机网络连接到第一视频会议终端的第二视频会议终端。

在适当的情况下，该方法的步骤可以以任何顺序进行。例如，接收定义空间边界的数据可以在捕获视野图像后进行。

通过框选，它可能意味着提取捕获图像的区域，该捕获图像包含被确定为在空间边界内的人，例如裁剪区域。这个框或裁剪区域比最初的捕获图像要小，被框选的人可能位于提取区域的中心位置。在某些例子中，裁剪区域中的一个或多个可只包含一个人。在某些例子中，裁剪区域中的一个或多个可包括多个人，每个人都被确定为在空间边界内。在一个例子中，提取的单个裁剪区域包含空间边界内确定的所有人。

该方法可进一步包括验证模式：在所述摄像机的所述视野内的所述图像中，根据每个人是在所述空间边界之内还是之外，标记每个人；以及向用户呈现标记过的图像以用于验证。然后，该用户可以更改定义空间边界的数据，以确保所有要被框选的人都在该空间边界内。

估计该人或每个人的所述位置可以是通过测量相应的人的一对或多对面部特征之间的距离来执行的。例如，可以通过获得人们的一对或多对面部特征点之间的平均距离，在捕获图像上检测这些特征点，在图像上计算它们之间的距离，基于摄像机图像形成的几何形状和摄像机参数估计人相对于摄像机的位置，以及从根据每对面部特征点的特征计算的多个距离中估计距离来执行这种估计。

估计距离可包括估计所述人的面部相对于所述摄像机的方位，以及基于估计的所述方位选择用于估计所述位置的多对所述面部特征点。

估计该人或每个人的所述位置可包括使用所述视频会议终端内的一个或多个加速度计来估计所述摄像机的方位。

估计该人或每个人的所述位置可包括使用所述视频会议终端内的一个或多个距离传感器。

空间边界至少部分地被定义为距摄像机的定位的距离。距离可以是径向距离，这实际上在地板上创建了圆形边界。在另一个例子中，空间边界特指距离摄像机侧面的距离和前方的距离，以在地板上创建矩形边界。空间边界还可以至少部分地由捕获图像的角度范围来定义。

该方法可包括用户输入步骤，在该步骤中，用户提供定义所述空间边界的数据。用户可通过用户界面提供数据，例如，通过用户界面定义距离摄像机侧面或前方的距离。用户可以通过使所述视频会议终端进入数据输入模式来提供所述数据，其中所述视频会议终端跟踪所述用户的定位，并且所述用户提示所述视频会议终端使用所述用户的一个或多个定位来定义所述空间边界。

该方法可以在视频流上执行，从而跟踪摄像机视野内的此人或每个人的位置，并且针对视野的多个图像重复生成一个或多个视频信号的步骤。

在第二方面中，本发明的实施例提供一种视频会议端点，包括被配置为捕获显示视野的图像的摄像机和处理器，其中所述处理器被配置为：

从所述摄像机获取所述视野的图像；

识别所述摄像机的所述视野内的一个或多个人；

估计所述摄像机的所述视野内的该人或每个人的位置；以及

第二方面的视频会议终端可被配置为执行第一方面所列的方法的特征中的任意一个或任意组合，只要它们是兼容的。

在第三方面中，本发明的实施例提供计算机实现的估计从人到摄像机的距离的方法，所述方法包括：

(a)通过所述摄像机获得该人的图像；

(b)识别存在于所述图像中的该人的面部区域；

(c)测量该人的多对面部特征点中的每一对之间的距离；

(d)使用所测量的距离中的每一个来估计该人距所述摄像机的距离；

(e)识别步骤(d)中最大的和/或最小的估计距离；以及

(f)基于所识别的最大的和/或最小的所述距离来估计该人相对于所述摄像机的位置。

在第四方面中，本发明的实施例提供被配置为执行第三方面的方法的视频会议终端。

本发明包括所描述的多方面和可选特征的组合，除非这种组合是明显不允许的或明确避免的。

本发明的其他方面提供：包含代码的计算机程序，当该程序在计算机上运行时，使计算机执行第一和/或第三方面的方法；计算机可读介质，其存储包含代码的计算机程序，当该程序在计算机上运行时，可使计算机执行第一和/或第三方面的方法；以及计算机系统，被编程以执行第一和/或第三方面的方法。

附图说明

下面将参照附图以举例的方式来描述本发明的实施例，附图中：

图1所示为视频会议终端；

图2所示为计算机实现的方法的流程图；

图3所示为视频会议套间，其包括如图1的视频会议终端；

图4所示为不同的视频会议套间，其包括如图1的视频会议终端；以及

图5所示为向用户显示的验证图像。

具体实施方式

下面将参照附图讨论本发明的多个方面和实施例。对于本领域技术人员来说，更多的方面和实施例将是显而易见的。

图1示出了视频会议终端100。终端包括处理器2，处理器2与易失性存储器4和非易失性存储器6相连接。易失性存储器4和非易失性存储器6中的一个或两个包含机器可执行指令，当这些指令在处理器上执行时，使处理器执行参照于图2讨论的方法。处理器2还与一个或多个摄像机102相连接，在该示例中只有单个摄像机，但也可以有多个摄像机来提供不同的视野或捕获模式(例如频率范围)。处理器还与一个或多个麦克风12，以及用户可输入数据的人机界面14(例如键盘或触摸显示屏)相连接。处理器还与网络接口8相连接，以允许数据通过网络传输。

图2示出了计算机实现的方法的流程图。在第一步骤202中，处理器接收定义一个或多个摄像机102的视野内的空间边界的数据。这些数据可通过例如人机界面14或网络接口8被接收。例如，该数据可以识别空间边界所界限的距摄像机之间的最大距离(例如以米为单位)。例如，该数据也可以识别空间边界所延伸的距摄像机之间的最大角度。在一个示例中，通过将视频会议终端进入数据输入模式的用户来接收数据，在数据输入模式中，处理器2通过一个或多个摄像机102跟踪用户的定位。然后，用户提示视频会议终端使用用户的当前定位来定义空间边界的顶点或边界线。例如，该提示可以通过用户以预定义的方式做手势来实现(例如，以“X”形的形式交叉他们的手臂)。然后，用户可以移动到另一点，重复该手势以定义第二个顶点或边界线，以此类推。

处理器接收到数据后，该方法进入步骤204，在该步骤中，通过摄像机捕获包含空间边界的视野图像。然后，处理器在步骤206中识别出视野内的所有人。这种人的识别可以例如通过被训练来识别图像中的人的机器学习模型执行。在一些示例中，可以使用经训练的卷积神经网络，如"你只看一次(you only look once)"(或YOLO)对象检测算法，或基于计算机视觉哈尔(Haar)特征的级联分类器，或定向梯度直方图，来识别图像中的人。处理器会递增计数器j，以显示在摄像机的视野中识别出的人数。之后，处理器进入由步骤208-216定义的循环。在步骤208中，在摄像机的视野内估计人i的位置。

在一些示例中，对视野中的人的位置或定位的估计分四个步骤进行：(i)估计人面部到摄像机的距离；(ii)计算人面部相对于摄像机水平方向的方向；(iii)通过使用终端的一个或多个加速度计计算摄像机的方位；以及(iv)计算人面部相对于视野内房间地面平面的方向。步骤(i)-(iii)可以任意顺序进行。第一步可以通过不同的方法完成，包括：(a)使用飞行时间传感器；(b)使用两台或多台摄像机的立体视觉；(c)对图像使用经训练的机器学习算法；(d)检测图像内的人面部，并使用面部边界框大小；(e)检测面部，然后检测眼睛、鼻子、嘴巴等面部特征点，并使用经预先训练的机器学习模型来估计距离；以及(f)检测人的关键特征，例如他们的头、耳朵、躯干，并使用经预先训练的机器学习模型，该模型假定至少某些关键特征之间的距离是恒定的。

也可以使用(e)的变体来估计人的位置。在人群中，成对的面部特征点之间的距离变化在10％以内。这些距离的例子包括两眼之间的距离、一侧眼睛与鼻尖之间的距离、一侧眼睛与嘴巴之间的距离、前额顶部与下巴之间的距离以及整个面部的宽度。在捕获的图像上，这些特征点被投影到摄像机焦平面上，因此捕获的图像上特征点之间的距离取决于面部的摄像机视角。当人将面部转向摄像机视角的一侧时，上述大部分距离都会缩短。不过也有一些不是，包括(例如)面部长度或一只可见的眼睛到嘴巴的距离。同样，当人抬起头时，他在图像上的面部投影长度会缩短，但面部宽度和眼睛距离保持不变。如果人转动面部，但保持面部正面对着摄像机，那么特征点距离(如眼距)就保持不变。假设特征点之间的距离小于人面部到摄像机的距离，摄像机图像形成允许导出公式，该公式将现实世界中两个特征点之间的距离与它们在图像上的距离以像素为单位相关联。这些公式有时被称为等价公式，表示三角形的比例特性。

例如，以f作为摄像机的焦距(米)，以d_real作为两个面部特征点在现实世界中的距离，以d_image作为两个面部地标在图像上的距离(像素长度单位)，以pixelSize作为像素的大小(米)，以d作为人到摄像机的距离，可以推导出以下结果：

如果面部是正面的，即连接两个面部特征点的直线平行于图像平面，则上述“小于或等于”变为相等。这意味着对于每一对特征点，上面公式右侧的值给出了从面部到摄像机的距离的一个上限。在此过程中，可以使用多对特征点和各自的d_real平均值。这样就可以得出到摄像机的估计距离。上述计算公式可以有多种变化，例如用摄像机的水平视野，HFOV，和传感器的像素分辨率宽度来代替焦距和像素尺寸：

水平视野和传感器的分辨率宽度可由垂直或对角线方向的等效实体取代。

通过知道距离和方向来唯一地识别出人的面部相对于摄像机位置的位置。该方向可以用诸如水平和倾斜的角度来描述。面部相对于摄像机水平面的方向可以从面部相对于图像中心的像素位置来计算。例如，如果面部在图像上相对于中心像素的位置是cx，那么远距摄像头的水平角度pan可计算为

或

对于采用鱼眼模型的广角镜头，可以省略atan和tan函数。

视频会议终端通常安装在相对于地面向上或向下倾斜的位置。摄像机的方向可以通过终端内的加速度计计算出来，加速度计可以感知重力，从而得出倾斜角度。根据上述角度可推算出地板的方向。例如，相对于地面的水平角度等于相对于摄像机水平面的水平角度，但相对于地面的倾斜角等于相对于摄像机水平面的倾斜角与摄像机倾斜角之和。

一旦估算出人的位置，该方法就会进入步骤210，在该步骤中，处理器会确定人i是否在之前定义的空间边界内。如果为是，则是“Y”，方法进入步骤212，该人被添加到框选列表(即包含要在一个或多个裁剪区域中框选的一个或多个人的列表)中。然后，方法进入步骤214，在该步骤中，i计数器递增。如果确定该人在空间边界之外，则是“N”，方法直接进入步骤214，不执行步骤212。

一旦计数器递增，处理器就会在步骤216中确定是否i＝j。也就是说，是否已对所有被识别的人的位置进行了估算，并与边界进行了比较。如果不是，则是“N”，该方法返回步骤208，并继续循环。应当注意，在一个示例中，该方法可以首先循环处理步骤206中识别的所有人，以估计他们的位置，然后循环处理每个估计位置，以确定他们是否在空间边界内。然后，该方法可以循环处理所有被确定在空间边界内的人，并将其框选。一旦估算出所有人员的位置，并确定是否对其进行框选，“Y”，方法就会进入步骤218，然后提取包含框选列表中一个或多个人的裁剪区域或每个裁剪区域。然后利用这些裁剪区域生成一个或多个单一视频流，每个视频流包含相应的裁剪区域，或一个包含多个裁剪区域的复合视频流。它们在步骤220中被传输。

在替代方法中，首先对步骤206中识别出的所有人进行框选，即为步骤206中识别出的每个人提取裁剪区域。接下来，该方法识别空间边界内的每个人，并将空间边界内包含人的裁剪区域与其余裁剪区域分开。然后，只使用空间边界内包含人的裁剪区域。

图3示出了视频会议套间，其包括如图1的视频会议终端100。摄像机102捕获视野106(由虚线表示)，其包括第一房间104和第二房间110。第一和第二房间由玻璃墙112隔开，在这个例子中，房间104是视频会议套间，房间110是办公室。空间边界108(由虚线表示)被定义为离摄像机的最大距离。在该示例中，这意味着人114a-114d在空间边界内，而人116(在摄像机102的视野106内但不在第一房间104内)不在空间边界内。因此，人114a-114d可被视频会议终端100框选，并且人116可被排除在外。

图4示出了不同的视频会议套间，其包括如图1的视频会议终端。相同的特征由相同的附图标记表示。与图3所示的例子相反，这里空间边界不仅由最大距离108定义，而且由图像的最大角度范围408进一步定义。通过适当地定义最大角度范围，人114a-114b可以被定义为在空间边界内，而人116可以被排除在空间边界之外。

图5示出了向用户显示的验证图像。该图提供了人在空间边界内或空间边界外的图形化指示，并与相应的人相关联。在该示例中，在空间边界内的人旁提供勾符号，而在空间边界外的人旁提供叉符号。可以提供其他图形指示，例如仅围绕被发现在空间边界内的人的边界框，或者围绕所有检测到的人的边界框，但是对于边界内和外的人具有不同的颜色。这可以允许用户定制定义空间边界的数据，以适当地排除或包括那些要被框选的人。

在说明书、以下权利要求书或附图中公开的特征，以其具体形式、或根据用于执行所公开功能的手段、或以获得所公开结果的方法或过程的形式来表示，可以单独地或以这些特征的任意组合来以不同的形式实现本发明。

虽然本发明已结合上文所述的示例性实施例进行了描述，但对于本领域的技术人员来说，在了解本公开内容后，许多等效的修改和变化将是显而易见的。因此，上文所述的本发明示例性实施例被认为是说明性的，而不是限制性的。在不脱离本发明的精神和范围的情况下，可以对所描述的实施例进行各种改变。

为避免任何疑问，本文提供的任何理论解释都是为了加深读者的理解。发明人不希望受这些理论解释中的任何一个的约束。

此处使用的任何章节标题仅用于结构目的，不得解释为限制所描述的主题。

在整个本说明书中，包括以下的权利要求书，除非上下文另有要求，否则单词“包含”和“包括”，以及诸如“包含”、“包涵”和“包括”的变体将被理解为暗示包含所述的确定的完整物或步骤或完整物组或步骤组，但不排除任何其他完整物或步骤或完整物组或步骤组。

必须注意，如说明书和所附权利要求中所使用的，单数形式“一”、“此”和“该”包括复数所指对象，除非上下文另有明确规定。此处的范围可表示为从“大约”一个特定值，和/或到“大约”另一个特定值。当表示这样一个范围时，另一个实施方案包括从一个特定值和/或到另一个特定值。同样，当数值被表示为近似值时，通过使用前置词“约”，可以理解为特定数值构成了另一个实施例。与数值相关的术语“约”是可选的，例如表示+/-10％。

Claims

1.一种操作视频会议终端的计算机实现的方法，所述视频会议终端包括摄像机，所述摄像机捕获显示视野的图像，其特征在于，所述方法包括：

捕获所述视野的图像；

识别所述摄像机的所述视野内的一个或多个人；

估计所述摄像机的所述视野内的该人或每个人的位置；以及

2.如权利要求1所述的计算机实现的方法，其特征在于，生成所述一个或多个视频信号包括：

根据一个或多个估计位置，确定所述一个或多个人中的至少一个在所述空间边界内；以及

将被确定为在所述空间边界内的所述一个或多个人框选以产生相应的裁剪区域。

3.如任一前述权利要求所述的计算机实现的方法，其特征在于，包括将所述视频信号或每个视频信号传输至所述接收器的步骤。

4.如任一前述权利要求所述的计算机实现的方法，其特征在于，还包括以下验证模式：

在所述摄像机的所述视野内的所述图像中，根据每个人是在所述空间边界之内还是之外，标记每个人；以及

向用户呈现标记过的所述图像以用于验证。

5.如任一前述权利要求所述的计算机实现的方法，其特征在于，估计该人或每个人的位置是通过测量相应的人的一对或多对面部特征点之间的距离来执行的。

6.如权利要求5所述的计算机实现的方法，其特征在于，测量多对所述面部特征点之间的多个距离，每个距离用于估计该人距所述摄像机的距离，并且使用估计距离中的最大的和/或最小的估计距离来估计该人或每个人的所述位置。

7.如权利要求5或6所述的计算机实现的方法，其特征在于，估计距离包括估计所述人的面部相对于所述摄像机的方位，以及基于估计的所述方位选择用于估计所述位置的多对所述面部特征点。

8.如任一前述权利要求所述的计算机实现的方法，其特征在于，估计此人或每个人的所述位置包括使用所述视频会议终端内的一个或多个加速度计来估计所述摄像机的方位。

9.如任一前述权利要求所述的计算机实现的方法，其特征在于，估计该人或每个人的所述位置包括使用所述视频会议终端内的一个或多个距离传感器。

10.如任一前述权利要求所述的计算机实现的方法，其特征在于，所述空间边界至少部分地由所捕获图像的角度范围进一步限定。

11.如任一前述权利要求所述的计算机实现的方法，其特征在于，所述方法包括用户输入步骤，在该步骤中，用户提供定义所述空间边界的所述数据。

12.如权利要求11所述的计算机实现的方法，其特征在于，所述用户经由用户界面提供所述数据。

13.如权利要求11所述的计算机实现的方法，其特征在于，所述用户通过使所述视频会议终端进入数据输入模式来提供所述数据，其中所述视频会议终端跟踪所述用户的定位，并且所述用户提示所述视频会议终端使用所述用户的一个或多个定位以定义所述空间边界。

14.一种视频会议终端，其包括被配置为捕获显示视野的图像的摄像机和处理器，其特征在于，所述处理器被配置为：

从所述摄像机获取所述视野的图像；

识别所述摄像机的所述视野内的一个或多个人；

估计所述摄像机的所述视野内的该人或每个人的位置；以及

15.如权利要求15所述的视频会议终端，其特征在于，生成所述一个或多个视频信号包括：

16.如权利要求15或16所述的视频会议终端，其特征在于，所述视频会议终端经由网络连接到接收器，并且所述处理器被配置为向所述接收器发送所述一个或多个视频信号。

17.如权利要求15-17中任意一项所述的视频会议终端，其特征在于，所述处理器被配置为执行以下验证模式：

向用户呈现标记过的所述图像以用于验证。

18.如权利要求15-18中任意一项所述的计算机实现的方法，其特征在于，所述处理器被配置为通过测量相应的人的一对或多对面部特征点之间的距离来估计该人或每个人的位置。

19.如权利要求19所述的视频会议终端，其特征在于，所述处理器被配置为测量多对面部特征点的特征之间的多个距离，使用所测量的每个距离估计该人距所述摄像机的距离，并且使用估计距离中的最大的和/或最小的估计距离来估计该人或每个人的位置。

20.一种估计从人到摄像机的距离的计算机实现的方法，所述方法包括：

(a)通过所述摄像机获得该人的图像；

(b)识别存在于所述图像中的该人的面部区域；

(c)测量该人的多对面部特征点中的每一对之间的距离；

(e)识别步骤(d)中最大的和/或最小的估计距离；以及

(f)基于所识别的最大的和/或最小的距离来估计该人相对于所述摄像机的位置。