CN117480776A - 视频会议终端 - Google Patents
视频会议终端 Download PDFInfo
- Publication number
- CN117480776A CN117480776A CN202280038638.7A CN202280038638A CN117480776A CN 117480776 A CN117480776 A CN 117480776A CN 202280038638 A CN202280038638 A CN 202280038638A CN 117480776 A CN117480776 A CN 117480776A
- Authority
- CN
- China
- Prior art keywords
- person
- camera
- distance
- computer
- spatial boundary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 53
- 230000005540 biological transmission Effects 0.000 claims abstract description 6
- 230000001815 facial effect Effects 0.000 claims description 18
- 238000012795 verification Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005010 torso Anatomy 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
- H04N7/152—Multipoint control units therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/2628—Alteration of picture size, shape, position or orientation, e.g. zooming, rotation, rolling, perspective, translation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Studio Devices (AREA)
- Image Analysis (AREA)
Abstract
一种操作视频会议终端的计算机实现的方法。所述视频会议终端包括摄像机,其捕获显示视野的图像。所述方法包括:接收由所述视野内的空间边界定义的数据,所述空间边界至少部分地由距所述摄像机的距离定义;捕获所述视野的图像;识别所述摄像机的所述视野内的一个或多个人;估计所述摄像机的所述视野内的该人或每个人的位置;以及生成一个或多个视频信号,所述视频信号包括与被确定为在所述空间边界内的一个或多个人对应的一个或多个裁剪区域,以传输至接收器。
Description
技术领域
本发明涉及计算机实现的方法和视频会议终端。
背景技术
近年来,视频会议和视频通话大受欢迎,使不同地点的用户无需前往同一地点,就可以进行面对面的讨论。商务会议、与学生的远程课程以及朋友和家人之间的非正式视频通话是视频会议技术的常见用途。视频会议可以使用智能手机或平板电脑、台式电脑或专用视频会议设备(有时称为终端)进行。
视频会议系统可通过数字网络在位于不同地点的两名或多名与会者之间传输视频和音频。位于每个不同地点的摄像机或网络摄像机可提供视频输入,并且位于不同地点的麦克风可提供音频输入。位于每个不同位置的屏幕、显示器、监视器、电视或投影仪可提供视频输出,并且位于每个不同地点的扬声器可提供音频输出。基于硬件或软件的编码器-解码器技术将模拟视频和音频数据压缩成数字数据包,以在数字网络上传输,并将数据解压缩以在不同地点输出。
一些视频会议系统包含自动框选算法,可查找并框选会议室中的人员,例如将他们从现有视频流中分离出来,然后裁剪出一个包含所有人员的区域,或将他们作为单独的视频流呈现出来。在某些情况下,例如具有玻璃墙或门的房间,或者开放空间,可能会检测到通话之外(即未参与通话)的不需要的人,并被视为用于框选。因此,希望能提高视频通话时人员检测和框选的可靠性。
发明内容
因此,在第一方面中,本发明的实施例提供操作视频会议终端的计算机实现的方法,所述视频会议终端包括摄像机,所述摄像机捕获显示视野的图像,其中所述方法包括:
接收由所述视野内的空间边界定义的数据,所述空间边界至少部分地由距所述摄像机的距离定义;
捕获所述视野的图像;
识别所述摄像机的所述视野内的一个或多个人;
估计所述摄像机的所述视野内的该人或每个人的位置;以及
生成一个或多个视频信号,所述视频信号包括与被确定为在所述空间边界内的一个或多个人对应的一个或多个裁剪区域,以传输至接收器。
通过定义空间边界,并且仅框选那些被确定在边界内的人,增强了人们在视频通话时被框定的可靠性。
下面将列出本发明的可选特征。它们可单独应用或与本发明的任何方面任意组合应用。
生成一个或多个视频信号可以包括:根据一个或多个估计位置确定所述一个或多个人中的至少一个在所述空间边界内;以及将被确定为在所述空间边界内的所述一个或多个人框选以产生相应的裁剪区域。生成所述一个或多个视频信号可以包括:对摄像机视野内的一个或多个人员进行框选,以生成一个或多个裁剪区域;根据一个或多个估计位置确定一个或多个人中哪些人在空间边界内;以及仅基于与空间边界内的一个或多个人相对应的裁剪区域生成一个或多个视频信号。
该方法可进一步地包括将一个或多个视频信号传输到接收器。接收器可以是经由计算机网络连接到第一视频会议终端的第二视频会议终端。
在适当的情况下,该方法的步骤可以以任何顺序进行。例如,接收定义空间边界的数据可以在捕获视野图像后进行。
通过框选,它可能意味着提取捕获图像的区域,该捕获图像包含被确定为在空间边界内的人,例如裁剪区域。这个框或裁剪区域比最初的捕获图像要小,被框选的人可能位于提取区域的中心位置。在某些例子中,裁剪区域中的一个或多个可只包含一个人。在某些例子中,裁剪区域中的一个或多个可包括多个人,每个人都被确定为在空间边界内。在一个例子中,提取的单个裁剪区域包含空间边界内确定的所有人。
该方法可进一步包括验证模式:在所述摄像机的所述视野内的所述图像中,根据每个人是在所述空间边界之内还是之外,标记每个人;以及向用户呈现标记过的图像以用于验证。然后,该用户可以更改定义空间边界的数据,以确保所有要被框选的人都在该空间边界内。
估计该人或每个人的所述位置可以是通过测量相应的人的一对或多对面部特征之间的距离来执行的。例如,可以通过获得人们的一对或多对面部特征点之间的平均距离,在捕获图像上检测这些特征点,在图像上计算它们之间的距离,基于摄像机图像形成的几何形状和摄像机参数估计人相对于摄像机的位置,以及从根据每对面部特征点的特征计算的多个距离中估计距离来执行这种估计。
估计距离可包括估计所述人的面部相对于所述摄像机的方位,以及基于估计的所述方位选择用于估计所述位置的多对所述面部特征点。
估计该人或每个人的所述位置可包括使用所述视频会议终端内的一个或多个加速度计来估计所述摄像机的方位。
估计该人或每个人的所述位置可包括使用所述视频会议终端内的一个或多个距离传感器。
空间边界至少部分地被定义为距摄像机的定位的距离。距离可以是径向距离,这实际上在地板上创建了圆形边界。在另一个例子中,空间边界特指距离摄像机侧面的距离和前方的距离,以在地板上创建矩形边界。空间边界还可以至少部分地由捕获图像的角度范围来定义。
该方法可包括用户输入步骤,在该步骤中,用户提供定义所述空间边界的数据。用户可通过用户界面提供数据,例如,通过用户界面定义距离摄像机侧面或前方的距离。用户可以通过使所述视频会议终端进入数据输入模式来提供所述数据,其中所述视频会议终端跟踪所述用户的定位,并且所述用户提示所述视频会议终端使用所述用户的一个或多个定位来定义所述空间边界。
该方法可以在视频流上执行,从而跟踪摄像机视野内的此人或每个人的位置,并且针对视野的多个图像重复生成一个或多个视频信号的步骤。
在第二方面中,本发明的实施例提供一种视频会议端点,包括被配置为捕获显示视野的图像的摄像机和处理器,其中所述处理器被配置为:
接收由所述视野内的空间边界定义的数据,所述空间边界至少部分地由距所述摄像机的距离定义;
从所述摄像机获取所述视野的图像;
识别所述摄像机的所述视野内的一个或多个人;
估计所述摄像机的所述视野内的该人或每个人的位置;以及
生成一个或多个视频信号,所述视频信号包括与被确定为在所述空间边界内的一个或多个人对应的一个或多个裁剪区域,以传输至接收器。
第二方面的视频会议终端可被配置为执行第一方面所列的方法的特征中的任意一个或任意组合,只要它们是兼容的。
在第三方面中,本发明的实施例提供计算机实现的估计从人到摄像机的距离的方法,所述方法包括:
(a)通过所述摄像机获得该人的图像;
(b)识别存在于所述图像中的该人的面部区域;
(c)测量该人的多对面部特征点中的每一对之间的距离;
(d)使用所测量的距离中的每一个来估计该人距所述摄像机的距离;
(e)识别步骤(d)中最大的和/或最小的估计距离;以及
(f)基于所识别的最大的和/或最小的所述距离来估计该人相对于所述摄像机的位置。
在第四方面中,本发明的实施例提供被配置为执行第三方面的方法的视频会议终端。
本发明包括所描述的多方面和可选特征的组合,除非这种组合是明显不允许的或明确避免的。
本发明的其他方面提供:包含代码的计算机程序,当该程序在计算机上运行时,使计算机执行第一和/或第三方面的方法;计算机可读介质,其存储包含代码的计算机程序,当该程序在计算机上运行时,可使计算机执行第一和/或第三方面的方法;以及计算机系统,被编程以执行第一和/或第三方面的方法。
附图说明
下面将参照附图以举例的方式来描述本发明的实施例,附图中:
图1所示为视频会议终端;
图2所示为计算机实现的方法的流程图;
图3所示为视频会议套间,其包括如图1的视频会议终端;
图4所示为不同的视频会议套间,其包括如图1的视频会议终端;以及
图5所示为向用户显示的验证图像。
具体实施方式
下面将参照附图讨论本发明的多个方面和实施例。对于本领域技术人员来说,更多的方面和实施例将是显而易见的。
图1示出了视频会议终端100。终端包括处理器2,处理器2与易失性存储器4和非易失性存储器6相连接。易失性存储器4和非易失性存储器6中的一个或两个包含机器可执行指令,当这些指令在处理器上执行时,使处理器执行参照于图2讨论的方法。处理器2还与一个或多个摄像机102相连接,在该示例中只有单个摄像机,但也可以有多个摄像机来提供不同的视野或捕获模式(例如频率范围)。处理器还与一个或多个麦克风12,以及用户可输入数据的人机界面14(例如键盘或触摸显示屏)相连接。处理器还与网络接口8相连接,以允许数据通过网络传输。
图2示出了计算机实现的方法的流程图。在第一步骤202中,处理器接收定义一个或多个摄像机102的视野内的空间边界的数据。这些数据可通过例如人机界面14或网络接口8被接收。例如,该数据可以识别空间边界所界限的距摄像机之间的最大距离(例如以米为单位)。例如,该数据也可以识别空间边界所延伸的距摄像机之间的最大角度。在一个示例中,通过将视频会议终端进入数据输入模式的用户来接收数据,在数据输入模式中,处理器2通过一个或多个摄像机102跟踪用户的定位。然后,用户提示视频会议终端使用用户的当前定位来定义空间边界的顶点或边界线。例如,该提示可以通过用户以预定义的方式做手势来实现(例如,以“X”形的形式交叉他们的手臂)。然后,用户可以移动到另一点,重复该手势以定义第二个顶点或边界线,以此类推。
处理器接收到数据后,该方法进入步骤204,在该步骤中,通过摄像机捕获包含空间边界的视野图像。然后,处理器在步骤206中识别出视野内的所有人。这种人的识别可以例如通过被训练来识别图像中的人的机器学习模型执行。在一些示例中,可以使用经训练的卷积神经网络,如"你只看一次(you only look once)"(或YOLO)对象检测算法,或基于计算机视觉哈尔(Haar)特征的级联分类器,或定向梯度直方图,来识别图像中的人。处理器会递增计数器j,以显示在摄像机的视野中识别出的人数。之后,处理器进入由步骤208-216定义的循环。在步骤208中,在摄像机的视野内估计人i的位置。
在一些示例中,对视野中的人的位置或定位的估计分四个步骤进行:(i)估计人面部到摄像机的距离;(ii)计算人面部相对于摄像机水平方向的方向;(iii)通过使用终端的一个或多个加速度计计算摄像机的方位;以及(iv)计算人面部相对于视野内房间地面平面的方向。步骤(i)-(iii)可以任意顺序进行。第一步可以通过不同的方法完成,包括:(a)使用飞行时间传感器;(b)使用两台或多台摄像机的立体视觉;(c)对图像使用经训练的机器学习算法;(d)检测图像内的人面部,并使用面部边界框大小;(e)检测面部,然后检测眼睛、鼻子、嘴巴等面部特征点,并使用经预先训练的机器学习模型来估计距离;以及(f)检测人的关键特征,例如他们的头、耳朵、躯干,并使用经预先训练的机器学习模型,该模型假定至少某些关键特征之间的距离是恒定的。
也可以使用(e)的变体来估计人的位置。在人群中,成对的面部特征点之间的距离变化在10%以内。这些距离的例子包括两眼之间的距离、一侧眼睛与鼻尖之间的距离、一侧眼睛与嘴巴之间的距离、前额顶部与下巴之间的距离以及整个面部的宽度。在捕获的图像上,这些特征点被投影到摄像机焦平面上,因此捕获的图像上特征点之间的距离取决于面部的摄像机视角。当人将面部转向摄像机视角的一侧时,上述大部分距离都会缩短。不过也有一些不是,包括(例如)面部长度或一只可见的眼睛到嘴巴的距离。同样,当人抬起头时,他在图像上的面部投影长度会缩短,但面部宽度和眼睛距离保持不变。如果人转动面部,但保持面部正面对着摄像机,那么特征点距离(如眼距)就保持不变。假设特征点之间的距离小于人面部到摄像机的距离,摄像机图像形成允许导出公式,该公式将现实世界中两个特征点之间的距离与它们在图像上的距离以像素为单位相关联。这些公式有时被称为等价公式,表示三角形的比例特性。
例如,以f作为摄像机的焦距(米),以dreal作为两个面部特征点在现实世界中的距离,以dimage作为两个面部地标在图像上的距离(像素长度单位),以pixelSize作为像素的大小(米),以d作为人到摄像机的距离,可以推导出以下结果:
如果面部是正面的,即连接两个面部特征点的直线平行于图像平面,则上述“小于或等于”变为相等。这意味着对于每一对特征点,上面公式右侧的值给出了从面部到摄像机的距离的一个上限。在此过程中,可以使用多对特征点和各自的dreal平均值。这样就可以得出到摄像机的估计距离。上述计算公式可以有多种变化,例如用摄像机的水平视野,HFOV,和传感器的像素分辨率宽度来代替焦距和像素尺寸:
水平视野和传感器的分辨率宽度可由垂直或对角线方向的等效实体取代。
通过知道距离和方向来唯一地识别出人的面部相对于摄像机位置的位置。该方向可以用诸如水平和倾斜的角度来描述。面部相对于摄像机水平面的方向可以从面部相对于图像中心的像素位置来计算。例如,如果面部在图像上相对于中心像素的位置是cx,那么远距摄像头的水平角度pan可计算为
或
对于采用鱼眼模型的广角镜头,可以省略atan和tan函数。
视频会议终端通常安装在相对于地面向上或向下倾斜的位置。摄像机的方向可以通过终端内的加速度计计算出来,加速度计可以感知重力,从而得出倾斜角度。根据上述角度可推算出地板的方向。例如,相对于地面的水平角度等于相对于摄像机水平面的水平角度,但相对于地面的倾斜角等于相对于摄像机水平面的倾斜角与摄像机倾斜角之和。
一旦估算出人的位置,该方法就会进入步骤210,在该步骤中,处理器会确定人i是否在之前定义的空间边界内。如果为是,则是“Y”,方法进入步骤212,该人被添加到框选列表(即包含要在一个或多个裁剪区域中框选的一个或多个人的列表)中。然后,方法进入步骤214,在该步骤中,i计数器递增。如果确定该人在空间边界之外,则是“N”,方法直接进入步骤214,不执行步骤212。
一旦计数器递增,处理器就会在步骤216中确定是否i=j。也就是说,是否已对所有被识别的人的位置进行了估算,并与边界进行了比较。如果不是,则是“N”,该方法返回步骤208,并继续循环。应当注意,在一个示例中,该方法可以首先循环处理步骤206中识别的所有人,以估计他们的位置,然后循环处理每个估计位置,以确定他们是否在空间边界内。然后,该方法可以循环处理所有被确定在空间边界内的人,并将其框选。一旦估算出所有人员的位置,并确定是否对其进行框选,“Y”,方法就会进入步骤218,然后提取包含框选列表中一个或多个人的裁剪区域或每个裁剪区域。然后利用这些裁剪区域生成一个或多个单一视频流,每个视频流包含相应的裁剪区域,或一个包含多个裁剪区域的复合视频流。它们在步骤220中被传输。
在替代方法中,首先对步骤206中识别出的所有人进行框选,即为步骤206中识别出的每个人提取裁剪区域。接下来,该方法识别空间边界内的每个人,并将空间边界内包含人的裁剪区域与其余裁剪区域分开。然后,只使用空间边界内包含人的裁剪区域。
图3示出了视频会议套间,其包括如图1的视频会议终端100。摄像机102捕获视野106(由虚线表示),其包括第一房间104和第二房间110。第一和第二房间由玻璃墙112隔开,在这个例子中,房间104是视频会议套间,房间110是办公室。空间边界108(由虚线表示)被定义为离摄像机的最大距离。在该示例中,这意味着人114a-114d在空间边界内,而人116(在摄像机102的视野106内但不在第一房间104内)不在空间边界内。因此,人114a-114d可被视频会议终端100框选,并且人116可被排除在外。
图4示出了不同的视频会议套间,其包括如图1的视频会议终端。相同的特征由相同的附图标记表示。与图3所示的例子相反,这里空间边界不仅由最大距离108定义,而且由图像的最大角度范围408进一步定义。通过适当地定义最大角度范围,人114a-114b可以被定义为在空间边界内,而人116可以被排除在空间边界之外。
图5示出了向用户显示的验证图像。该图提供了人在空间边界内或空间边界外的图形化指示,并与相应的人相关联。在该示例中,在空间边界内的人旁提供勾符号,而在空间边界外的人旁提供叉符号。可以提供其他图形指示,例如仅围绕被发现在空间边界内的人的边界框,或者围绕所有检测到的人的边界框,但是对于边界内和外的人具有不同的颜色。这可以允许用户定制定义空间边界的数据,以适当地排除或包括那些要被框选的人。
在说明书、以下权利要求书或附图中公开的特征,以其具体形式、或根据用于执行所公开功能的手段、或以获得所公开结果的方法或过程的形式来表示,可以单独地或以这些特征的任意组合来以不同的形式实现本发明。
虽然本发明已结合上文所述的示例性实施例进行了描述,但对于本领域的技术人员来说,在了解本公开内容后,许多等效的修改和变化将是显而易见的。因此,上文所述的本发明示例性实施例被认为是说明性的,而不是限制性的。在不脱离本发明的精神和范围的情况下,可以对所描述的实施例进行各种改变。
为避免任何疑问,本文提供的任何理论解释都是为了加深读者的理解。发明人不希望受这些理论解释中的任何一个的约束。
此处使用的任何章节标题仅用于结构目的,不得解释为限制所描述的主题。
在整个本说明书中,包括以下的权利要求书,除非上下文另有要求,否则单词“包含”和“包括”,以及诸如“包含”、“包涵”和“包括”的变体将被理解为暗示包含所述的确定的完整物或步骤或完整物组或步骤组,但不排除任何其他完整物或步骤或完整物组或步骤组。
必须注意,如说明书和所附权利要求中所使用的,单数形式“一”、“此”和“该”包括复数所指对象,除非上下文另有明确规定。此处的范围可表示为从“大约”一个特定值,和/或到“大约”另一个特定值。当表示这样一个范围时,另一个实施方案包括从一个特定值和/或到另一个特定值。同样,当数值被表示为近似值时,通过使用前置词“约”,可以理解为特定数值构成了另一个实施例。与数值相关的术语“约”是可选的,例如表示+/-10%。
Claims (20)
1.一种操作视频会议终端的计算机实现的方法,所述视频会议终端包括摄像机,所述摄像机捕获显示视野的图像,其特征在于,所述方法包括:
接收由所述视野内的空间边界定义的数据,所述空间边界至少部分地由距所述摄像机的距离定义;
捕获所述视野的图像;
识别所述摄像机的所述视野内的一个或多个人;
估计所述摄像机的所述视野内的该人或每个人的位置;以及
生成一个或多个视频信号,所述视频信号包括与被确定为在所述空间边界内的一个或多个人对应的一个或多个裁剪区域,以传输至接收器。
2.如权利要求1所述的计算机实现的方法,其特征在于,生成所述一个或多个视频信号包括:
根据一个或多个估计位置,确定所述一个或多个人中的至少一个在所述空间边界内;以及
将被确定为在所述空间边界内的所述一个或多个人框选以产生相应的裁剪区域。
3.如任一前述权利要求所述的计算机实现的方法,其特征在于,包括将所述视频信号或每个视频信号传输至所述接收器的步骤。
4.如任一前述权利要求所述的计算机实现的方法,其特征在于,还包括以下验证模式:
在所述摄像机的所述视野内的所述图像中,根据每个人是在所述空间边界之内还是之外,标记每个人;以及
向用户呈现标记过的所述图像以用于验证。
5.如任一前述权利要求所述的计算机实现的方法,其特征在于,估计该人或每个人的位置是通过测量相应的人的一对或多对面部特征点之间的距离来执行的。
6.如权利要求5所述的计算机实现的方法,其特征在于,测量多对所述面部特征点之间的多个距离,每个距离用于估计该人距所述摄像机的距离,并且使用估计距离中的最大的和/或最小的估计距离来估计该人或每个人的所述位置。
7.如权利要求5或6所述的计算机实现的方法,其特征在于,估计距离包括估计所述人的面部相对于所述摄像机的方位,以及基于估计的所述方位选择用于估计所述位置的多对所述面部特征点。
8.如任一前述权利要求所述的计算机实现的方法,其特征在于,估计此人或每个人的所述位置包括使用所述视频会议终端内的一个或多个加速度计来估计所述摄像机的方位。
9.如任一前述权利要求所述的计算机实现的方法,其特征在于,估计该人或每个人的所述位置包括使用所述视频会议终端内的一个或多个距离传感器。
10.如任一前述权利要求所述的计算机实现的方法,其特征在于,所述空间边界至少部分地由所捕获图像的角度范围进一步限定。
11.如任一前述权利要求所述的计算机实现的方法,其特征在于,所述方法包括用户输入步骤,在该步骤中,用户提供定义所述空间边界的所述数据。
12.如权利要求11所述的计算机实现的方法,其特征在于,所述用户经由用户界面提供所述数据。
13.如权利要求11所述的计算机实现的方法,其特征在于,所述用户通过使所述视频会议终端进入数据输入模式来提供所述数据,其中所述视频会议终端跟踪所述用户的定位,并且所述用户提示所述视频会议终端使用所述用户的一个或多个定位以定义所述空间边界。
14.一种视频会议终端,其包括被配置为捕获显示视野的图像的摄像机和处理器,其特征在于,所述处理器被配置为:
接收由所述视野内的空间边界定义的数据,所述空间边界至少部分地由距所述摄像机的距离定义;
从所述摄像机获取所述视野的图像;
识别所述摄像机的所述视野内的一个或多个人;
估计所述摄像机的所述视野内的该人或每个人的位置;以及
生成一个或多个视频信号,所述视频信号包括与被确定为在所述空间边界内的一个或多个人对应的一个或多个裁剪区域,以传输至接收器。
15.如权利要求15所述的视频会议终端,其特征在于,生成所述一个或多个视频信号包括:
根据一个或多个估计位置,确定所述一个或多个人中的至少一个在所述空间边界内;以及
将被确定为在所述空间边界内的所述一个或多个人框选以产生相应的裁剪区域。
16.如权利要求15或16所述的视频会议终端,其特征在于,所述视频会议终端经由网络连接到接收器,并且所述处理器被配置为向所述接收器发送所述一个或多个视频信号。
17.如权利要求15-17中任意一项所述的视频会议终端,其特征在于,所述处理器被配置为执行以下验证模式:
在所述摄像机的所述视野内的所述图像中,根据每个人是在所述空间边界之内还是之外,标记每个人;以及
向用户呈现标记过的所述图像以用于验证。
18.如权利要求15-18中任意一项所述的计算机实现的方法,其特征在于,所述处理器被配置为通过测量相应的人的一对或多对面部特征点之间的距离来估计该人或每个人的位置。
19.如权利要求19所述的视频会议终端,其特征在于,所述处理器被配置为测量多对面部特征点的特征之间的多个距离,使用所测量的每个距离估计该人距所述摄像机的距离,并且使用估计距离中的最大的和/或最小的估计距离来估计该人或每个人的位置。
20.一种估计从人到摄像机的距离的计算机实现的方法,所述方法包括:
(a)通过所述摄像机获得该人的图像;
(b)识别存在于所述图像中的该人的面部区域;
(c)测量该人的多对面部特征点中的每一对之间的距离;
(d)使用所测量的距离中的每一个来估计该人距所述摄像机的距离;
(e)识别步骤(d)中最大的和/或最小的估计距离;以及
(f)基于所识别的最大的和/或最小的距离来估计该人相对于所述摄像机的位置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB2107641.9A GB2607573B (en) | 2021-05-28 | 2021-05-28 | Video-conference endpoint |
GB2107641.9 | 2021-05-28 | ||
PCT/EP2022/064419 WO2022248671A1 (en) | 2021-05-28 | 2022-05-27 | Video-conference endpoint |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117480776A true CN117480776A (zh) | 2024-01-30 |
Family
ID=76741441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280038638.7A Pending CN117480776A (zh) | 2021-05-28 | 2022-05-27 | 视频会议终端 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20240214520A1 (zh) |
EP (1) | EP4349007A1 (zh) |
JP (1) | JP2024521292A (zh) |
CN (1) | CN117480776A (zh) |
AU (1) | AU2022279584A1 (zh) |
GB (1) | GB2607573B (zh) |
WO (1) | WO2022248671A1 (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10839257B2 (en) * | 2017-08-30 | 2020-11-17 | Qualcomm Incorporated | Prioritizing objects for object recognition |
US20190215464A1 (en) * | 2018-01-11 | 2019-07-11 | Blue Jeans Network, Inc. | Systems and methods for decomposing a video stream into face streams |
JP7225631B2 (ja) * | 2018-09-21 | 2023-02-21 | ヤマハ株式会社 | 画像処理装置、カメラ装置、および画像処理方法 |
US11386562B2 (en) * | 2018-12-28 | 2022-07-12 | Cyberlink Corp. | Systems and methods for foreground and background processing of content in a live video |
US10904446B1 (en) * | 2020-03-30 | 2021-01-26 | Logitech Europe S.A. | Advanced video conferencing systems and methods |
CN112672095B (zh) * | 2020-12-25 | 2022-10-25 | 联通在线信息科技有限公司 | 远程会议系统 |
-
2021
- 2021-05-28 GB GB2107641.9A patent/GB2607573B/en active Active
-
2022
- 2022-05-27 EP EP22733871.2A patent/EP4349007A1/en active Pending
- 2022-05-27 CN CN202280038638.7A patent/CN117480776A/zh active Pending
- 2022-05-27 WO PCT/EP2022/064419 patent/WO2022248671A1/en active Application Filing
- 2022-05-27 AU AU2022279584A patent/AU2022279584A1/en active Pending
- 2022-05-27 US US18/288,931 patent/US20240214520A1/en active Pending
- 2022-05-27 JP JP2023566604A patent/JP2024521292A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022248671A1 (en) | 2022-12-01 |
US20240214520A1 (en) | 2024-06-27 |
GB2607573A (en) | 2022-12-14 |
GB2607573B (en) | 2023-08-09 |
GB202107641D0 (en) | 2021-07-14 |
EP4349007A1 (en) | 2024-04-10 |
JP2024521292A (ja) | 2024-05-31 |
AU2022279584A1 (en) | 2023-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106228628B (zh) | 基于人脸识别的签到系统、方法和装置 | |
US7742624B2 (en) | Perspective improvement for image and video applications | |
CN106650671B (zh) | 人脸识别方法、装置及系统 | |
WO2017215295A1 (zh) | 一种摄像机参数调整方法、导播摄像机及系统 | |
CN107831904B (zh) | 电子设备及其操作方法 | |
TWI311286B (zh) | ||
JP5929221B2 (ja) | 関心領域の動的検知に基づいたシーン状態切換システム及び方法 | |
US20080151049A1 (en) | Gaming surveillance system and method of extracting metadata from multiple synchronized cameras | |
WO2014199786A1 (ja) | 撮影システム | |
JP2005149144A (ja) | 物体検出装置、物体検出方法、および記録媒体 | |
JP4144492B2 (ja) | 画像表示装置 | |
WO2020020022A1 (zh) | 视觉识别方法及其系统 | |
JP6946684B2 (ja) | 電子情報ボードシステム、画像処理装置、及びプログラム | |
CN107862713A (zh) | 针对轮询会场的摄像机偏转实时检测预警方法及模块 | |
JP2016213674A (ja) | 表示制御システム、表示制御装置、表示制御方法、及びプログラム | |
US10645339B1 (en) | Asymmetric video conferencing system and method | |
JPWO2009119288A1 (ja) | コミュニケーションシステム及びコミュニケーションプログラム | |
JPH0981732A (ja) | 領域抽出装置及びそれを用いた方向検出装置 | |
EP4187898A2 (en) | Securing image data from unintended disclosure at a videoconferencing endpoint | |
CN117480776A (zh) | 视频会议终端 | |
US20200252585A1 (en) | Systems, Algorithms, and Designs for See-through Experiences With Wide-Angle Cameras | |
Komiya et al. | Image-based attention level estimation of interaction scene by head pose and gaze information | |
CN115423728A (zh) | 一种图像处理方法、装置及系统 | |
CN112734657A (zh) | 基于人工智能和三维模型的云合影方法、装置及存储介质 | |
JP4586447B2 (ja) | 画像処理装置及び方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |