CN104737533A - 视频会议中的面部识别和面部图像的传输 - Google Patents

视频会议中的面部识别和面部图像的传输 Download PDF

Info

Publication number
CN104737533A
CN104737533A CN201380052000.XA CN201380052000A CN104737533A CN 104737533 A CN104737533 A CN 104737533A CN 201380052000 A CN201380052000 A CN 201380052000A CN 104737533 A CN104737533 A CN 104737533A
Authority
CN
China
Prior art keywords
image
face
video camera
participant
preferred
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201380052000.XA
Other languages
English (en)
Inventor
雅各布·贾瑞德·萨默斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Geithner Co
Original Assignee
Citrix Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Citrix Systems Inc filed Critical Citrix Systems Inc
Publication of CN104737533A publication Critical patent/CN104737533A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)

Abstract

本文的各个方面描述了由一个或多个摄影机接收一个或多个图像的新方法和新系统。一个或多个图像中的每个图像由一个或多个摄影机获得,在该一个或多个摄影机中一个或多个图像包含对应于人的面部图像。在一个实施例中,本公开的各个方面描述了用于从每个图像中提取每个面部图像的方法,在图像中每个面部图像对应于一个或多个所提取的面部图像的集合中的一个集合。该方法还包括根据每组将所提取的面部图像中的每个所提取的面部图像整理到一个或多个组中的独立的组中,其中每个组对应于每个人的面部图像。该方法还包括从一组或多组中的每组选出优选的面部图像以产生优选的图像,通过使用显示服务器,将优选的面部图像传输到客户端。

Description

视频会议中的面部识别和面部图像的传输
相关申请的交叉引用
本申请要求于2012年10月8日提交的序列号为13/647,205、题名为“在视频会议中的面部识别和面部图像的传输(Facial Recognition andTransmission of Facial Images in a Videoconference)”的美国专利申请的优先权,通过引用将它整体并入本申请。
技术领域
本公开中所描述的各个方面涉及在一个房间中的一个或多个人的面部图像的捕捉、处理和传输。
背景
当视频会议在发生在多方之间时,往往难以确定谁正在发言。通常,发言人的面部被指定了房间的座位安排的相同房间内的另一个人挡住。此外,面部图像的大小可能是不同的,这取决于每个人与正在捕捉视频会议的摄影机的距离。另外,取决于摄影机的视场,一个或多个发言者的面部可能是模糊的导致很难准确地确定谁正在讲话。此外,摄影机捕捉视频会议中参与者的面部图像的角度可能导致一个或多个视频会议的参与者不期望的侧面或后部头像。因此,发送到另一方的视频可能提供很少或没有提供关于谁正在发言的信息。
在视频会议期间,发言者的面部表情和嘴唇动作可能是部分不可见或全部不可见。这些面部表情和嘴唇动作确定正在发言的人或可以有助于更好的理解发言人所讲的话和他讲话时的表情。此外,发言者的面部表情也可以提供对他陈述的情感内容的理解(例如,发言者是高兴、愤怒、悲伤、兴奋等)。因此,多方之间通过视频会议呼叫的通信可能会遇到不能够看到发言者的面部图像的情况。
此外,如果发言者移动到摄影机视场范围内的房间中的另一个人的后面,那么摄影机可能不能继续捕捉发言者的图像。因此,在这种情况下,发言者可能彻底的从视频会议中消失,并且发言者的嘴唇动作可能不能够被摄影机捕捉到。
因此,基于以上内容,在从一方到一方或从一方到其它更多方的视频会议呼叫中存在提供捕捉、处理和传输面部图像的视图的更好的方法的需求。
概述
根据前述的背景,以下提出本公开的简要概述以便提供对本发明中所描述的一些方面的基本的理解。本概述不是综述的扩展,并不是意图识别关键或重要元素或划定权利要求的范围。下面的概述仅仅以简要的形式提出各种所描述的方面作为下面所提供的更详细的描述的序言。
为了阐述上述缺点和将通过阅读本公开认识到的另外的益处,本文说明性的各个方面的各个方面描述了用于捕捉、处理和从主机向客户端传输参与者的面部图像的新方法和新系统。
说明性实施例的各个方面基本上在至少一个下面的图中示出和/或结合至少一个下面的图进行了描述,同时在权利要求中更全面的进行阐述。
本公开的这些和其他优点、各个方面和新颖的特征,还有其中所说明的实施例的细节将从下面的描述和附图中得到更充分地理解。
附图说明
已经以通用的术语如此描述了本公开的多个方面,现在将参考附图,这些附图不需要按照比例绘制,并且其中:
图1A示出了本公开的各个方面可以被实现在其中的操作环境。
图1B示出了来自根据图1A中说明的说明性的操作环境的摄影机的透镜(perspective)的视场。
图1C示出了在由根据图1A中说明的说明性的操作环境的摄影机所捕捉的图像内识别或检测面部图像。
图1D示出了根据图1A中说明的说明性的操作环境的、参与者的面部图像已经被归一化之后的参与者的面部图像。
图1E示出了根据图1A中说明的说明性的操作环境,分类(collating)和和/或整理(sorting)参与者的归一化的面部图像。
图1F示出了根据图1A中说明的说明性的操作环境,将参与者的归一化的面部图像定位或布置到输出网格图案中。
图2A示出了本公开的各个方面可以在其中实现的示例性操作环境。
图2B示出了从由根据图2A中说明的说明性的操作环境的第一摄影机捕捉的图像采集的面部图像。
图2C示出了从由根据图2A中说明的说明性的操作环境的第二摄影机捕捉的图像采集的面部图像。
图2D示出了从由根据图2A中说明的说明性的操作环境的第三摄影机捕捉的图像采集的面部图像。
图2E示出了由根据图2A中说明的说明性的操作环境的第一摄影机所捕捉的、选出的面部图像的归一化。
图2F示出了由根据图2A中说明的说明性的操作环境的第二摄影机所捕捉的、选出的面部图像的归一化。
图2G示出了由根据图2A中说明的说明性的操作环境的第三摄影机所捕捉的、选出的面部图像的归一化。
图2H示出了对由根据图2A中说明的说明性的操作环境的每个摄影机所捕捉的面部图像进行整理和处理。
图2I示出了根据图2A中说明的说明性的操作环境,将参与者的归一化的面部图像定位或布置到空间图案中。
图2J示出了根据图2A中说明的说明性的操作环境,将参与者的归一化的面部图像定位或布置到输出网格图案中。
图3示出了对应于结合根据本公开的一个或多个说明性实施例的图1A和2A中的每个图所示的每个计算设备的通用计算设备的一个示例框图。
图4是说明在根据本发明的说明性实施例的主机处的一个或多个摄影机如何捕捉、处理和传输一个或多个面部图像到客户端的操作流程图。
详细说明
下面的各种实施例的描述参考了附图,附图形成了描述的一部分,并且在附图中通过图示的方式说明了各种实施例,在各种实施例中可以实践所描述的各个方面。应该理解的是,在不违背本公开的范围和精神的前提下,可以利用其它实施例,并且可以做结构和功能的修改。
正如本领域技术人员在阅读了以下公开所理解的,本公开中所描述的各个方面可以体现为方法、数据处理系统或仪器、或计算机程序产品。因此,这些方面可以采取纯硬件实施例、纯软件实施例或软件方面和硬件方面结合的实施例的形式。此外,这样的方面可以采取由一个或多个计算机可读储存介质所储存的计算机程序产品的形式,其中计算机可读储存介质具有体现在储存介质中或体现在储存介质上的计算机可读程序编码或指令。可以利用任何合适的计算机可读储存介质,包括硬盘驱动器、光盘(诸如CD和DVD)、和/或其他光学介质或光学驱动器、NAS(网络附加的储存器)设备、和/或任何它们的组合。此外,各种信号,诸如一个或多个数字信号,可以包括可在计算设备间传输的数据(未编码的数据、编码的数据或加密的数据)。计算设备可以包括一个或多个计算机(例如,PC、台式计算机、笔记本计算机)、一个或多个便携式无线计算设备(例如,无线电话、PDA、笔记本计算机、平板电脑)或包含能够执行固件和/或软件的处理器和存储器的任何一种计算设备。
图1A示出了本公开的各个方面可以在其中被实现的示例操作环境。该操作环境包括一个或多个人/参与者136、一个或多个人/参与者136围绕的会议室桌子132、显示器/电视/监视器140、摄影机104、计算设备112、局域网(LAN)124、广域网(WAN)128和互联网120。虽然图1A示出了单个计算设备112,在其它实施例中,单个计算设备112可以被两个或多于两个协同工作的计算设备代替以提供本公开所描述的功能。示例性的实施例说明了来自操作环境顶部的视图。在这个示例性的实施例中,摄影机104位于如所示的显示器140的顶部,但是它可以位于参与者前面的任何地方。摄影机104可以位于任何合适的高度以便允许所有参与者136的面部的清晰的视图。摄影机140可以位于提供房间内的参与者向下的视场的高度。在可代替的实施例中,显示器140可以包含摄影机104。摄影机140可被集成到显示器140中。在这个实施例中,可以使用单个摄影机140,因为当参与者看显示器时,参与者的位置定位成面对摄影机140。单个摄影机140能够提供捕捉所有参与者面部图像的视场。摄影机140的视场和角度可以被调整为捕捉房间内所有参与者。
摄影机104通过通信链路116通信耦合到计算设备112。通信链路116可以包括接线器,该接线器可被配置为遵从下面的硬接线协议来发送和接收信号:USB版本、火线(IEEE 1394)、以太网(IEEE 802.3版本)或任何其他有线协议。可代替的是,通信链路116可包含无线连接,下面的无线通信协议中的一个可以在该无线连接中使用:WLAN(IEEE 802.11x)、蓝牙、或任何其他类型的无线通信协议。计算设备112可以包含任何类型的计算机、便携式无线计算设备或包含能够执行固件和/或软件的处理器和存储器中的任何一种的计算设备。在另一个实施例中,可以并行使用几个计算设备112以处理由摄影机104提供的已捕捉的图像。计算设备112通过有线或无线连接126通信耦合到局域网(LAN)124。例如,有线连接可包含IEEE 802.3xx连接并且有线连接可包含IEEE 802.11xx连接。LAN124可包含一个或多个与计算设备112合作的其他计算设备(未示出),可以用于处理摄影机104输出的图像。一个或多个其他计算设备可以执行由已捕捉的图像提供的视频数据的并行处理。计算设备112可以通信耦合到LAN 124。计算设备也可以通信耦合到WAN 128。LAN 124可以包括路由器(未示出),用于路由和交换与示例性的802.3xx通信协议相关的数据包。例如,WAN 128可以通过调制解调器或网关(未示出)的方式连接到互联网120。互联网120可以由一个或多个互联网服务供应商(ISP)或电信运营商拥有和操作。虽然没有在图1A中示出,从摄影机所传输的、并由计算设备112所处理的视频数据通过互联网120传送到一个或多个接收方或接收客户端。一个或多个接收方可以使用它们各自的调制解调器或网关接收视频数据,而且视频数据可以被适当的处理并被显示在每方各自的显示器/电视/监视器处。
如在图1A中所示出的,视频会议的参与者136围坐在会议室桌子132周围。在这个示例性实施例中,一共有5个参与者(标记为1、2、3、4和P)。主持人(标记为P)在如所示的会议室桌的一个末端处。在这个实施例中,摄影机104定位成使得它在参与者136看显示器140时,面对参与者。因此,用于本示例性的操作环境的由摄影机104所捕捉的典型头像可出现,如在图1B中所示。
图1B示出了来自根据在图1A中所示的示例性操作环境的摄影机的透镜的视场。该视场说明了之前结合图1A所描述的由摄影机所捕捉的图像。根据摄影机的镜头,距它较近的物体将会较大,而远离它的物体将会较小。因此,参与者2和3相对于摄影机显得比参与者1和4更大。坐在会议室桌子132的最远端的主持人,P,在摄影机中显得最小。因而,参与者2和3的面部图像可能比参与者1和4的面部图像更大。根据摄影机140的透镜,位于距离摄影机140最远处的参与者,诸如参与者P,可能有最小的面部图像。
图1C示出了根据图1A中所示的说明性的操作环境的摄影机所捕捉的图像内识别或检测面部图像。如图1A中所示的计算设备112可被配置为执行识别、追踪和收集面部图像的算法,同时无视或丢弃非面部图像。通过使用人的典型面部特征,参与者的面部可以被识别出。例如,计算设备112可以执行识别各种面部特征的算法以确定参与者面部的中心位于摄影机的视场内的何处。如所示,计算设备112能够执行算法,比如从摄影机所捕捉的图像中识别或检测参与者面部图像的面部识别算法。面部识别算法可以用来分析任何由所捕捉的图像所提供的有区别的面部特征。例如,各种面部特征的相对位置(即,眼睛、鼻子、耳朵、嘴唇的位置)可以用来确定包括面部图像的要裁切的空间区域。一个或多个面部图像中的每个面部图像可以被检测并且如在图1C中示出的从左到右顺序放置。这些面部图像中的每个都可以由面部识别算法追踪。该算法可以确定、隔离和捕捉包括由摄影机捕捉的一个或多个面部图像的一个或多个区域。人面部识别算法可能不被用于每一帧。当人面部图像的位置已经在摄影机的视场内被确定时,面部识别算法就可以被置于空置状态直到确定面部图像已经移动为止。例如,当参与者移动或当面部特征改变时,可调用算法。例如,参与者可能从一个座位移动到另一个座位。面部识别算法可以被配置为追踪参与者的移动,使得面部图像可以被捕捉并且最终被提取。
图1D示出了根据图1A中所示的示例性操作环境中的、参与者面部图像已被归一化之后的参与者136的面部图像。如所示,在图1C中已经被识别和检测的面部图像由计算设备112在大小上进行归一化。计算设备112可以执行归一化面部图像或调整面部图像的大小的人面部识别算法,使得面部图像以大约相同的大小在接收方中出现。归一化可以通过调整面部图像的宽和/或高来完成。归一化可以通过水平放缩的方式发生,当水平地处理图像时,水平放缩可以由显示两个像素中的一个来完成。同样地,归一化可以通过垂直放缩的方式发生,在所捕捉的面部图像的视频处理期间,垂直放缩可以通过跳过相邻的水平扫描行执行。归一化可以允许每个面部图像适当的显示在视口(viewport)内。视口可以被定义为包括人的归一化面部图像的矩形区域。通过使用笛卡尔直角坐标系(例如,X和Y坐标)可以定义矩形区域。
图1E示出了根据在图1A中所示的示例性操作环境,分类/或整理参与者136的归一化的面部图像。例如,归一化的面部图像可以根据参与者的姓氏或任何其他参数进行重新分类和重组。
图1F示出了根据在图1A中所示的示例性操作环境,将参与者136归一化的面部图像定位或布置到输出网格图案中。使用计算设备112将所示网格图案通过控制的方式从主机传输到参加视频会议呼叫的一个或多个客户端或其它方。如所示,参与者P(即,主持人)位于网格图案的中心,使得参加视频会议的一方或其他多方可以很容易的将其注意力集中到主持人。参与者136的面部图像可以以任何所期望的图案被布置。每个视口的分辨率(像素数)可以基于要传输到客户端的视口数和可用带宽(主机和每个客户端之间的带宽)而确定。随着所传输的视口数的增加,带宽需求增加,如果带宽是固定的,则要求每个视口降低分辨率。因此,对于给定带宽,随着更多面部图像被传输,每视口的分辨率(图像分辨率)降低。
图2A示出了本公开的各个方面可以被实现在其中的示例操作环境。该操作环境包括一个或多个人/参与者236,一个或多个人/参与者236围坐在会议室桌子232周围;一些摄影机204、205、206;计算设备212;局域网224,其以通信耦合到广域网228和互联网220。示例性实施例示出了操作环境的顶部视图。摄影机204、205、206可以如图所示被定位在房间内的均匀间隔的位置处。摄影机204、205、206可以通过硬件接线连接的方式或通过无线连接的方式通信耦合到一起。摄影机204、205、206可以通过使用多种协议中的任何一种协议进行通信。虽然在图2A中未示出,但是摄影机204、205、206可以被联网到集线器中,该集线器通信耦合到计算设备212。例如,摄影机204、205、206可以使用USB协议版本、以太网协议、或任何其他硬件接线的通信协议进行通信。在另一个例子中,摄影机204、205、206可以使用无线协议,诸如IEEE 802.11xx或蓝牙协议进行通信。
摄影机204、205、206通过通信链路216的方式通信耦合到计算设备212。通信链路216可以包括有线连接器,该有线连接器可以被配置为发送和接收遵从下面的硬连线协议的信号:USB版本、火线(IEEE 1394)、以太网(IEEE 802.3版本)或任何其它有线协议。可代替的是,通信链路216可以包括无线连接,在该无线连接中可以使用下面的无线通信协议:WLAN(IEEE 802.11x)、蓝牙或任何其他类型的无线通信协议。计算设备212可以包括任何类型的计算机、便携式无线计算设备,或包括能够执行固件和/或软件的处理器和存储器的任何种类的计算设备。在另一个实施例张,几个计算设备212可以用来并行处理由摄影机204、205、206所提供的已捕捉的图像。计算设备212通过有线连接或无线连接226的方式通信耦合到局域网(LAN)224。例如,有线连接可以包括IEEE 802.3xx并且有线连接可以包括IEEE 802.11xx。LAN 224可以包括可以合作地处理由摄影机摄204、205、206输出的图像的一个或多个其他计算设备(未示出)。一个或多个其他计算设备可以执行由所捕捉的图像所提供的视频数据的并行处理。计算设备212,该计算设备212是LAN 224的一部分,可以通信耦合到广域网(WAN)228。LAN 224可以包括路由器(未示出)用于路由和交换与示例性802.3xx通信协议相关联的数据包。例如,WAN 228可以通过调制解调器或网关(未示出)连接到互联网220。互联网220可以由互联网服务供应商(ISP)或电信运营商拥有和操作。虽然没有在图2A中示出,但是从摄影机所传输的、并由计算设备212所处理的视频数据通过互联网220传送到一个或多个接收方或接收客户端。一个或多个接收方可以使用它们自己的各个调制解调器或网关接收视频数据,而且视频数据可以被适当的处理并被显示在每方各自的显示器/电视/监视器处。
如在图2A中所示,视频会议的参与者236围坐在会议室桌子232周围。在这个示例性实施例中,一共有5个参与者(标记为1、2、3、4和P)。在这个实施例中,摄影机204、205、206被定位为使得它们面对允许对于不同视场的不同视角处的参与者236。每个摄影机的视场和视角可以调整为最大化地捕捉房间内尽可能多的参与者的面部图像。每个摄影机的位置可以被调整为尽可能最大化参与者的面部视图的数目。由用于本示例性操作环境的摄影机204、205、206所捕捉和收集的典型头像可如图2B所示地出现。
图2B、2C和2D示出了来自根据图2A中所示的示例性操作环境的三个摄影机204、205、206的视图。在图2A中所示的计算设备212被配置为执行可以识别、追踪和收集面部图像,而忽视和丢弃非面部图像的面部识别算法。使用人的典型面部特征,可以将参与者的面部识别出来。例如,人面部识别算法可以识别各种面部特征以确定参与者的面部的中心在摄影机的视场中的位置。该位置可以用来使面部图像在对应于参与者的视口中心。面部图像识别算法也能够通过检测和处理参与者的嘴唇动作来确定哪个参与者正在发言。面部图像识别算法可以考虑在对应发言的最短时间段内的连续的嘴唇动作。每个摄影机的视场在每个图2B、2C和2D中示出。
图2B示出了从由根据在图2A中所示出的示例性操作环境的第一摄影机204所捕捉的图像收集的面部图像。虽然所捕捉的图像可能包括全部五个参与者,但是算法可能选择3、4和P而丢弃参与者1和2。由于参与者P离摄影机204最近,P显得比参与者3和4更大。第一摄影机204可以丢弃比如那些对应于参与者1和2的不包括参与者面部的某些部分的那些头像。例如,如果至少一个人的嘴唇的某些部分不出现,则面部识别算法可以丢弃参与者的图像。
图2C示出了从由根据在图2A中所示的示例性操作环境的第二摄影机205所捕捉的图像收集的面部图像。虽然所捕捉的图像可能包括全部的5个参与者,但是算法选择参与者1、4和P,而它丢弃了参与者2和3。由于参与者1和4离摄影机205最近,他们显得比参与者P更大。第二摄影机205可以丢弃比如那些对应于参与者2和3的不包括参与者面部的某些部分的那些头像。例如,如果至少一个人的嘴唇的某些部分不出现,则面部识别算法可以丢弃参与者的图像。
图2D出了根据从由根据在图2A中所示的示例性操作环境的第三摄影机206所捕捉的图像收集的面部图像。虽然所捕捉的图像可能包括全部的5个参与者,但是算法选择参与者1、2和P,而它丢弃了参与者3和4。由于参与者P离摄影机206最近,他显得比参与者1或2都大。第三摄影机206可以丢弃比如那些对应于参与者3和4的不包括参与者面部的某些部分的那些头像。例如,如果至少一个人的嘴唇的某些部分不出现,则面部识别算法可以丢弃参与者的图像。
算法可以平移(pan)、选择和裁切(crop)可以提供参与者至少一部分面部视图的头像图像。例如,算法可以只选择和收集头像图像,该头像图像提供参与者嘴唇的某些部分和至少一只眼睛。计算设备212,可能能够执行从摄影机所捕捉的图像中识别或检测参与者面部图像的算法。该算法可以用于分析由所捕捉的图像提供的任何有区别的面部特征。例如,各种面部特征的相对位置(即,眼睛、鼻子、耳朵、嘴唇的位置)可以用来确定要被裁切为最终显示的面部图像的空间区域。一个或多个面部图像中的每个都可以被检测出,并且如图2E、2F和2G所示,从左到右顺序定位。通过识别面部特征的方式,计算设备212可能能够确定包括参与者面部的空间区域。每个参与者的面部图像可以由算法追踪。算法可以在所捕捉的图像中确定对应于一个或多个这些面部图像的一个或多个区域。一个或多个区域中的每一个区域可以被定义为视口。如先前所描述的,视口可以被定义为包括特定参与者的面部图像的摄影机视场的矩形捕捉区域。视口可以通过使用笛卡尔坐标系定义。
算法可以被配置为丢弃不包含眼睛和/或嘴唇的一部分的头像图像,或基于其他特定标准的丢弃头像图像。算法可以将头像和存储在存储器、驱动器、或计算设备212的任何储存设备中的图像数据库进行比较。当数据库在实时的基础上接收另外的图片时,数据库可以被更新。算法可以被配置为锁定到面部图像和追踪参与者应该在摄影机视场内移动的面部图像。
计算设备212可以执行归一化或改变面部图像大小的算法,使得面部图像以大约相同的大小出现在接收方。归一化可以通过改变面部图像的宽度/或高度来完成。当水平的处理图像时,水平的放缩可以通过显示两个像素中的一个来完成。同样地,在视频处理期间,垂直放缩可以通过跳过相邻的水平扫描行来执行。归一化可以允许每个面部图像恰当地显示在视口内。此外,归一化面部图像允许面部图像以标准大小的视口呈现给视频会议的接收方。其它放缩技术可以被代替使用。
图2E示出了所选择的由根据在图2A中所示的示例性操作环境的第一摄影机204所捕捉的面部图像的归一化。在归一化处理过程期间,计算设备212可以有选择地放缩与每个参与者3和参与者4相关联的面部图像(在图2E的左侧示出)以匹配参与者P的面部图像大小。归一化后,每个参与者3、4和P的面部图像都是如图2E的右侧所示的相同的大小。
图2F示出所选择的由根据图2A中所示的示例性操作环境的第二摄影机205所捕捉的面部图像的归一化。在归一化处理过程期间,计算设备212可以有选择地放缩与参与者P相关联的面部图像(在图2F的左侧示出)以匹配每个参与者1和4的面部图像大小。归一化后,每个参与者1、4和P的面部图像都是如图2F的右侧所示的相同的大小。
图2G示出所选择的由根据图2A中所示的示例性操作环境的第三摄影机206所捕捉的面部图像的归一化。在归一化处理过程期间,计算设备212可以有选择地放缩与每个参与者1和参与者2相关联的面部图像(在图2G的左侧示出)以匹配参与者P的面部图像大小。归一化后,每个参与者1、2和P的面部图像都是如图2G的右侧所示的相同的大小。
图2H示出了由根据图2A中所示的示例性操作环境的每个摄影机204、205、206所捕捉的面部图像的整理和处理。所选择的参与者236的面部图像在归一化之后被分类以确定已经由摄影机204、205、206所捕捉的每个参与者的面部图像数。例如,对于参与者1有两张面部图像可选择,对于参与者2有一张面部图像,对于参与者3有一张面部图像,来自参与者4的有两张面部图像,而来自参与者P的有三张图像。对于每个参与者,计算设备212可以选择优选的面部图像用于从主机的计算设备到客户端或参与视频会议的其他方的传输。例如,对于参与者1的两张面部图像中的一张,对于参与者4的两张面部图像中的一张,对于参与者P的三张面部图像中的一张,由计算设备212选择为优选的面部图像。计算设备212可以使用面部识别算法确定优选的面部图像。例如,面部识别算法可以确定呈现一个人的嘴唇和/或眼睛的最佳视图的优选图像。在另一个实施例中,面部识别算法可以基于每个归一化的面部图像的分辨率来确定优选的图像。算法可以将具有最高分辨率的图像确定为优选的图像。由于只有一个面部图像可用于每个参与者3和参与者4,这些图像中的每个被选择用于传输到客户端。一组优选的图像(每个参与者一个)最终被传输到一个或多个客户端。
图2I示出了根据在图2A中所示的示例性操作环境,将参与者236的优选图像定位为或布置到空间图案。如所示,主持人位于参与者的中心,因为他被认为是关注的中心。相对的空间位置可以被并入网格或图案。网格的每个单元可以包括视口。
图2J中示出了根据在图2A的示例性操作环境,将参与者236的优选图像定位为或布置到输出网格图案。前述呈现的图案或网格从主机传输到其它的一个或多个参与视频会议呼叫的客户端。图案或网格可以由计算设备212确定以最大化功能和改进观看视频会议呼叫的其它方的通信。如所示,参与者P(即,主持人)位于网格图案的中心,使得视频会议中的一个或多个其他参与方可以很容易的将他们的注意力集中到主持人。所示的输出网格图案由计算设备212传输到参与视频会议呼叫的一方或多方。参与者236的优选面部图像被布置到图案或网格用于在每个客户端的监视器上显示。网格可以由布置到空间布局中的视口组成。例如,参与者P(也被称为主持人)可以位于网格的中心,因为注意力可以集中于他,如图2J所示。基于任何组织参数,参与者236优选的面部图像也可以从左到右,从上到下定位。例如,参与者的图像可以基于参与者的名或姓、通过等级或重要性、或通过房间内距离一定位置的距离空间地组织。每视口的分辨率可以基于要传输到客户端的视口数和可用带宽(主机和每个客户端之间)确定。随着所传输的视口数的增加,带宽要求增加,如果带宽是固定的,则要求降低每视口的分辨率。因此,对于给定带宽,随着更多的面部图像被传输,每视口的分辨率(图像分辨率)降低。计算设备212通过监测每个参与者的嘴唇的动作的方式,可能能够识别正在发言的每个参与者。面部识别算法可以被用于监测和追踪每个参与者的这样的嘴唇动作。
本公开的各个方面提供,可调整一个或多个摄影机视场中的每个摄影机视场以捕捉恰当的面部图像数。例如,算法可以确定提供很少价值或没有价值的后部头像。因此,这样的图像不可能被计算设备使用和处理。在一个实施例中,摄影机以每秒30帧的速率(fps)捕捉和输出视频。由于视频处理通常消耗相当大量的中央处理单元(CPU)资源,所以计算设备的处理器可以执行一个或多个算法以只更新那些包含人面部图像的所捕捉的视场的区域。例如,这些区域或视口可以通过摄影机编号和视口编号识别。视口编号可被用来识别区域,诸如,在所捕捉的图像中的矩形区域,其中所捕捉的图像包括捕捉图像中的一个或多个人的面部图像。摄影机编号和视口编号可以被用来识别包括面部图像的所捕捉的图像的区域。识别在包括面部图像的所捕捉的图像中的一个或多个区域中的每个区域之后,计算设备112、212中的处理器可以只处理对应于这些视口区域中的每个视口区域的像素,作为一种节省处理功率并且允许CPU用于其他处理任务的方式。
计算设备112、212也可以实现发出特定参与者正在发言的信号的特征。例如,该特征可以包括当对应的参与者正在发言时,突出显示一个或多个视口部分。突出显示可以包括对应于正在发言的参与者视口边框的闪烁或闪光。例如,包含参与者的视口的背景可以在特定颜色的阴影中,以表示这个参与者目前正在发言。其他视觉指示器可以用于表示视口中的参与者正在发言。当超过一个参与者发言时,每个参与者对应的视觉指示器可以被同时激活。
本公开的各个方面提供位于房间内用于确定哪个参与者目前正在发言的多个麦克风。麦克风可以围着会议室桌子间隔放置以区分哪个人正在发言。所接收的音频信号的强度或幅度可以用来确定哪个人正在发言。音频三角剖分算法可以由计算设备使用(图1A中的112、图2A中的212)以确定正在讲话的人的位置。从这个音频三角剖分算法所产生的信息或数据可以被用来补充前面所描述的面部识别算法。因此,在面部识别算法不能准确的确定谁正在发言时,音频三角剖分算法的使用可以由计算设备112、212调用。例如,如果对应摄影机的视角提供了参与者的侧面图,那么面部识别算法可能无法确定哪个参与者正在发言。对应的摄影机可能无法捕捉参与者的整个嘴唇区域。因此,面部识别算法不能基于嘴唇动作来确定正在发言的参与者。因此,在这种情况下,可使用音频三角剖分算法来确定哪个参与者正在讲话。无论什么时候计算设备112、212确定音频三角剖分法是必需的,都可以利用音频三角剖分法。计算设备112、212可以利用面部识别阈值的使用,当嘴唇动作最小化或对特定的参与者不可见时,该面部识别阈值触发音频三角剖分算法的调度(deployment)。面部识别算法可以通过存在于计算设备112、212中的面部识别引擎执行。面部识别算法可以通过存在于计算设备112、212中的音频三角剖分引擎执行。面部识别引擎和音频三角剖分引擎可以作为在任何计算设备中的可执行软件来实现。每个面部识别算法和音频三角剖分法可能不用于视频会议呼叫的视频流的每个帧。利用这些算法是必要的。例如,在面部图像的位置已被确定后,并且如果面部图像保持静止一段时间,则面部识别和音频三角剖分算法就可以停用。例如,当参与者移动时、或当诸如嘴唇动作和/或眼睛动作的面部特征被检测到或改变时,调用算法可能是必需的。
图3示出了对应于在结合根据本公开的一个实施例或多个实施例的每个图1A和图2A所示的每个计算设备的通用计算设备301(例如,包括使用了至少一个处理器和至少一个存储器的任何计算设备)的示例框图。根据一个方面或多个方面,通用计算设备301可以是在配置为给客户端访问设备提供虚拟机的单服务器桌面虚拟化系统或多服务器桌面虚拟化系统(例如,云系统)中的服务器。通用计算设备301可以具有处理器303,用于控制服务器和服务器相关组件的全部操作,服务器相关组件包括随机存取存储器(RAM)305﹑非易失性存储器307﹑输入/输出(I/O)模块309和存储器315。
I/O模块309可包括鼠标﹑键盘﹑触摸屏﹑扫描仪﹑光读取器﹑和/或触笔(或其他至少一个输入设备),通过这些组件通用计算设备301的用户可以提供输入,并且也可以包括用于提供音频输出的一个或多个扬声器和用于提供文本﹑试听﹑和/或图形输出的视频显示设备。软件可以存储于存储器315内和/或其他储存器以给处理器303提供用于能够使计算设备301执行各种功能指令。例如,存储器315可以存储由通用计算设备301所使用的软件,诸如操作系统317﹑应用程序319和相关数据库321。可代替的是,用于计算设备301的一些或全部计算机可执行指令可以体现在存储于非易失性存储器307的固件中。例如,非易失性存储器307可以包括只读存储器(ROM)﹑电可擦除ROM﹑或闪存存储器。
通用计算设备301实现用于在视频会议呼叫中传输图像的主机,通用计算设备301可通过到一个或多个计算设备340﹑342的一个或多个电信连接,通信耦合到其他客户端。一个或多个计算设备340可以通过WAN访问,而其他一个或多个计算设备342可以通过LAN访问。计算设备340、342可以包括桌面计算机﹑便携式计算机﹑移动通信设备或任何数字装置,该数字装置包括至少一个处理器和至少一个存储器。一个或多个计算设备340﹑342可以包括上述关于通用计算设备301的许多或全部元件。主机处的通用计算设备301可以与客户端处的一个或多个计算设备340﹑342通信。在图3中所描述的网络连接包括局域网(LAN)325和广域网(WAN)329,但是也可以包括其他网络(未示出)。通用计算设备301可以通过网络接口或适配器323连接到LAN 325。通用计算设备301可以包括调制解调器327或其它WAN网络接口,用于通过互联网330建立通过WAN329的通信。应该理解的是,所示的网络连接是说明性的,并且可以使用其他方式在通用计算设备301和一个或多个计算设备340﹑342之间建立通信链路。通用计算设备301和/或一个或多个计算设备340﹑342也可以是移动终端(例如,移动电话﹑智能电话﹑PDA﹑笔记本和类似的终端)。
本公开是与许多其他一般目的或专用目的计算系统环境或配置一同操作的。可能适用于与本公开一同使用的、熟知的计算系统﹑环境﹑和/或配置的例子包括,但不受限于个人计算机﹑服务器计算机﹑手持或便携式设备﹑多处理器系统﹑基于微处理器的系统﹑机顶盒﹑可编程电子消费品﹑网络PC﹑小型计算机﹑主机计算机﹑包括任何上述系统或设备的分布式计算环境等。
如图3所示,一个或多个客户端设备340﹑342可以与计算设备301和一个或多个服务器306a-306n通信。在一个实施例中,计算环境300可以包括安装在通用计算设备301/服务器106和客户端机器340﹑342之间的装置。该装置可以管理客户端/服务器连接,并且在一些情况下可在多个后端服务器306之间进行客户端连接负载平衡。
客户端设备340﹑342可以在一些实施例中被称为客户端机器或单组客户端机器,而服务器306可以被称为单个服务器或单组服务器。在一个实施例中,单个客户端机器(340或342)与多于一个服务器306和通用计算设备301通信,而在另一个实施例中,单个服务器306可以与多于一个客户端机器340﹑342通信。在又一个实施例中,单个客户端机器(340或342)与单个服务器(306a-n中的一个)通信。
在一些实施例中,一个或多个客户端设备340﹑342中的每个可以被称为下列术语中的任何一个术语:客户端机器;客户端;客户端计算机;客户端设备;客户端计算设备;本地机器;远程机器;客户端节点;终端;或终端节点。在一些实施例中,服务器306可以被称为下列术语中的任何一个术语:本地机器;远程机器;服务器群;或主机计算设备。
在一个实施例中,一个或多个客户端设备340﹑342中的每个可以包括虚拟机。虚拟机可以是任何虚拟机,而在一些实施例中,虚拟机可以是由通过思杰系统(Citrix System)﹑IBM﹑VMware开发的管理程序、或任何其他管理程序管理的任何虚拟机。在一些方面,虚拟机可以由管理程序管理,而在一些方面,虚拟机可通过在服务器306a-n上执行的管理程序或在一个多个客户端340、342上执行的管理程序管理。
客户端机器340可以执行﹑操作或另外提供可以是下列项中的任何一项的应用:软件;程序;可执行指令;虚拟机;管理程序;网页浏览器;基于网页的客户端;客户端服务器应用;瘦客户端计算客户端;ActiveX控件;Java程序;互联网语音协议(VoIP)相关的软件,如软IP电话;用于流视频和/或流音频的应用;用于便于实现实时数据通信的应用;HTTP客户端;FTP客户端;奥斯卡客户端(Oscar client);远程登录客户端;或任何其他可执行指令集合。
还有其他实施例包括一个或多个客户端设备340﹑342,其显示由在通用计算设备301和/或服务器306上远程地执行的应用所产生的应用输出。在这些实施例中,客户端设备340﹑342可以执行虚拟机接收方程序或应用以显示在应用窗口﹑浏览器﹑或其他输出窗口中的输出。在一个例子中,应用是在桌面上执行,而在其他例子中,应用是产生桌面视图的应用。桌面视图可以包括提供用于操作系统的实例的用户接口的图形壳,在其中可以集成本地和/或远程应用。在本文中所使用的应用是在操作系统的实例(并且可选地,还包括桌面)已经被加载之后执行的程序。
在一些实施例中,一个或多个通用计算设备301和/或服务器306可以执行远程呈现客户端或其他客户端或使用瘦客户端或远程显示协议来捕捉由在一个或多个通用计算设备301和/或服务器306上执行的应用所产生的显示输出并且传输应用显示输出到一个或多个远程客户端340﹑342的程序。瘦客户端或远程显示协议可以是下列协议中的任何一个:由位于弗罗里达的劳德代尔堡的思杰系统有限公司制造的独立计算体系结构(ICA)协议;或由位于华盛顿的雷德蒙德的微软公司制造的远程桌面协议(RDP)。
计算环境可包括多个服务器106a-106n,使得服务器可以在逻辑上一起组成一个服务器群(例如,在云计算环境中)。服务器群可以包括地理上分散而逻辑上组在一起的服务器、或者可以包括相互邻近放置且逻辑上组在一起的服务器。在一些实施例中,服务器群内的地理上分散的服务器106a-106n可以使用WAN、MAN或LAN通信,其中不同的地理区域可以表示为:不同的大洲;大洲的不同区域;不同国家;不同州;不同城市;不同校园;不同房间;或前述地理位置的任何组合。在一些实施例中,服务器群可以作为一个单个实体来管理,而在其他实施例中,服务器群可以包括多个服务器群。
在一些实施例中,服务器群可以包括执行基本相似类型的操作系统平台(例如,由位于华盛顿的雷德蒙德的微软公司制造的WINDOWS NT、UNIX、LINUX或雪豹(SNOW LEOPARD))的服务器306。在其他实施例中,服务器群可以包括执行第一类型操作系统平台的第一组服务器,和执行第二类型操作系统平台的第二组服务器。在其他实施例中,服务器群可以包括执行不同类型操作系统平台的服务器。
在一些实施例中,一个或多个服务器306可以是任何服务器类型。在其他实施例中,一个或多个服务器306可以是下列服务器类型中的任何一种:文件服务器、应用服务器;网络服务器(web server);代理服务器;装置;网络装置;网关;应用网关;网关服务器;虚拟化服务器;调度服务器(deployment server);SSL VPN服务器;防火墙;网络服务器;应用服务器或作为主应用服务器;执行现用目录的服务器或执行应用加速程序的服务器,该应用加速程序提供防火墙功能、应用功能或负载平衡功能。一些实施例包括第一服务器306a,其中该第一服务器接收来自客户端机器340、342的请求,转发请求到第二服务器306b-n,并且对客户端设备340、342所产生的请求响应以来自第二服务器306b-n的响应。第一服务器306a可以获得客户端机器340、342中的一个客户端机器可用的应用的枚举以及获取与服务器306的应用服务器相关的地址信息,该服务器306的应用服务器运行(hosting)所识别的应用的枚举内的应用。例如,第一服务器306a可以随后使用网络接口呈现对客户端请求的响应,并且直接与一个或多个客户端340、342通信以提供一个或多个客户端340、342对所识别的应用的访问。
在一些实施例中,客户端设备340、342可以是试图访问由服务器306提供的资源的客户端节点。在其他实施例中,服务器306可以向客户端340、342或客户端节点提供对拥有的(hosted)资源的访问。在一些实施例中,服务器306起到主节点的作用,使得主节点与一个或多个客户端340、342通信。在一些实施例中,主节点可以识别与运行所请求的应用的服务器(一个或多个服务器306中的)相关的地址信息,并将所述相关的地址信息提供到一个或多个客户端340、342和/或服务器306。但是,在其他实施例中,主节点可以是服务器群、客户端340、342、客户端节点簇或装置。
如图3所示,一个或多个客户端340、342和/或一个或多个服务器306可以通过互联网130传输数据。WAN 329和/或LAN 325可以包含一个或多个子网络,并且可通过使用包括在计算环境300内的客户端340、342、服务器306、计算设备301、以及数字装置的任何组合实现。通过使用下列网络类型的任何组合可以实现互联网330:ATM(异步传送模式);SONET(同步光纤网络);SDH(同步数字体系);无线和/或有线。WAN 329和LAN 325的网络拓扑结构在不同的实施例内可以是不同的,并且可能的网络拓扑结构包括但不受限于:总线型网络拓扑结构;星型网络拓扑结构;环形网络拓扑结构;基于转发器的网络拓扑结构;或分层星型网络拓扑结构。另外的实施例可以包括使用在移动设备之间通信的协议的移动电话网络,其中的协议可以包括,但不受限于:AMPS;TDMA;CDMA;GSM;GPRS;UMTS;LTE;WiMAX;EDGE;或能够传输数据到移动设备或从移动设备传输数据的任何其他协议。
图4是示出了主机处的一个或多个摄影机如何捕捉、处理和传输一个或多个参与者的面部图像到根据本公开的实施例的客户端的操作流程图。
在步骤404,使用一个或多个摄影机捕捉包括房间中的一个或多个参与者的图像。例如,在房间内的一个或多个参与者可与另一个房间位于另一位置的另外的一方或多方实施视频会议呼叫。例如,另外的一方或多方可以包含另一个企业或公司的成员。在一个实施例中,当人或参与者面对房间正面时,单个摄影机可以放置在人或参与者的前面。例如,摄影机可以放置在显示器或监视器的顶部。在另一个实施例中,一个或多个摄影机可以放置在房间内的不同位置以获取房间内一个或多个参与者的不同视场。例如,一个或多个摄影机可以策略性地放置在房间的不同侧面或角落以获得在房间内的参与者的不同的摄影机角度。
接着,在步骤408,一个或多个摄影机输出所捕捉的图像到计算设备用于检测、识别、选择和提取一个或多个与房间内一个或多个参与者相关的所捕捉的面部图像。计算设备接收由一个或多个摄影机所捕捉的任何图像。使用集线器或交换机,一个或多个摄影机可以通信耦合。一个或多个摄影机通过集线器或交换机使用任何类型的有线或无线协议连接到计算设备。计算设备可以执行用于处理所捕捉的图像的一个或多个算法。一个或多个算法可以包含如在本公开的前面所描述的面部识别算法或音频三角剖分算法。面部识别算法可以通过识别一个人的一个或多个面部特征的方式来识别和追踪参与者的面部。一个或多个面部特征可以包含眼睛、头发、头、鼻子、嘴唇、耳朵、胡子和/或胡须中的一个或多个。面部识别算法也可以被编程为分析和识别衣服,诸如丝巾、耳环、项链、帽子和其他类型由人穿戴的物品。通过识别这些特征和/或物品,面部识别算法可以识别人的面部的中心和确定要追踪和提取的图像的合适区域。由于人的面部可以再被识别后存储,计算设备的面部识别算法可以持续的追踪应该在摄影机视场内移动的面部。区域可以包括被称为视口的标准化的矩形区域。每个视口可以包含参与者的面部图像。面部图像可以被提取并且可以被叠加在包含合适的背景图像的视口上。优选的背景图像可以基于亮度、对比度、和所提取的面部图像的分辨率确定。背景可以由用户选择或可以由计算设备的处理器执行的面部识别算法模块自动产生。计算设备可以执行帧刷新或只更新这些视口区域,而不是更新整个所捕捉的图像,允许计算设备的处理器节省处理功率以用于所需的其他任务。面部识别算法也可以利用来确定哪个参与者正在发言。在识别和追踪每个面部图像后,面部识别算法可以分析每个面部图像的嘴唇动作。面部识别算法可以确定一定持续时间的嘴唇动作构成了讲话。因此,面部识别算法可以确定一个或多个参与者正在发言。当参与者的面部图像只包括嘴唇的一部分并且很难弄清参与者是否正在发言时,计算设备可以调用音频三角剖分算法的执行。例如,音频三角剖分算法可以利用麦克风系统的使用,在该麦克风系统中多个麦克风被圆形地安置并对准围绕视频会议室桌子的不同座位的位置处。一个或多个麦克风中的每一个可以被用来确定它接收的音频信号的角度、幅度或强度。音频信号可以包括来自参与者词语的发声。从这些麦克风中的每个麦克风所产生的音频信号可以被计算设备用来确定发声的位置,由此确定参与者的位置。因此,音频三角剖分算法可以确定一个或多个参与者中的哪个正在发言。面部识别算法和每个音频三角剖分算法中的每个都可以通过被存储在结合每个图1A和图2A描述的一个或多个计算设备的存储器中的软件的执行而被调用。例如,存储器可以包含硬盘驱动器。
接着,在步骤412,计算设备可以将一个或多个所提取的面部图像归一化为用于在视口显示的标准大小。视口可包括具有特定大小的矩形。视口的大小可以由基于一个或多个摄影机所捕捉的面部图像的面部图像算法确定。视口的大小可基于所捕捉的面部图像的分辨率。
在步骤416,一个或多个由每个摄影机所捕捉的归一化的面部图像可以针对每个参与者评估。在对于每帧时间(或持续时间)收集参与者的所有归一化的面部图像之后,对于每个参与者的优选的(或最好的)面部图像由面部识别算法选出。可以基于一个或多个因素为每个参与者选择优选的面部图像。每个参与者的每个归一化的面部图像的质量可以被评定。例如,当面部识别算法选择参与者面部图像时,摄影机相对于参与者的视角、面部图像的分辨率、在参与者上的形成的照明和投影全部可以是考虑的因素。在一些方面,每个归一化的面部图像可以与高分辨率控制图像进行比较。最接近控制图像的归一化面部图像可以被选择为优选的图像。
此后,在步骤420,优选的面部图像被整理和组织为用于显示在显示器或监视器上的逻辑顺序(logical order)。优选的面部图像可以使用多个视口被显示为网格图案。每个所选的归一化的面部图像可以使用标准大小的视口显示。视口的大小可以基于要发送到一个或多个客户端的优选的面部图像数确定。当优选的面部图像数很大时,视口的大小可以减小。优选的面部图像可以基于人的名或姓、人的等级或头衔、对于视频会议的主题的重要性或任何其他因素被整理。视频会议呼叫的主要主持人可以位于网格或图案的中心,使得当显示在客户端的监视器上时,他是注意力的中心。与优选的面部图像相关的视口也可以基于任何组织因素或参数在网格上从左到右和从顶部到底部组织。
接着,在步骤424,优选的面部图像可以被传输到参与视频会议呼叫的一个或多个客户端。一个或多个客户端中的每个客户端可以利用显示服务器用于在监视器上接收和显示优选的面部图像。在一个实施例中,例如,优选的面部图像如同在图2J中所示的网格图案的表示传输。主持人,P,位于网格的中心,而其他参与者(参与者1-4)围绕着他。优选的面部图像由客户端的计算设备接收并且在客户端的监视器处显示。
上述内容介绍了本公开的简明的概要以便提供一些方面的基本的理解。它的意图不是识别本发明的关键或重要元素或描述本发明的范围。虽然不是必需的,但是一个本领域的普通技术人员会明白,这里所描述的各个方面可以表现为方法、计算机系统或作为用于存储能够由计算机系统的处理器执行的计算机可执行指令的计算机可读介质。本发明的各个方面已经根据它的说明性的实施例进行了描述。通过回顾全部公开内容,本领域普通技术人员得到在所公开的发明的范围和精神内的很多其他的实施例、修改和变形。例如,根据本公开的各个方面,本领域的一个普通技术人员会明白在说明性的图中所说明的步骤可以不同于所叙述的顺序执行,并且说明性的一个或多个步骤可以是可选的。虽然一些实施例已经对关于特定例子进行了描述,但是其他实施例包括上面所描述的系统和技术的很多变形和置换。
虽然该主题已经用特定的语言对结构特征和/或方法动作进行了描述,应该理解的是,在附属权利要求中所定义的主题并不必受限于上面所描述的特定的特征和动作。相反,上面所描述的特定特征和动作作为实现权利要求的说明性的形式被公开。

Claims (20)

1.一种系统,包括:
一个或多个摄影机;
至少一个处理器;以及
至少一个存储器,所述至少一个存储器用于存储计算机可执行指令,其中,所述计算机可执行指令由所述至少一个处理器执行,将引起所述系统执行包括下列操作的方法:
通过所述一个或多个摄影机中的每个摄影机接收一个或多个图像,其中,所述一个或多个图像中的每个图像包括对应于一个或多个人的一个或多个面部图像,所述一个或多个图像中的所述每个图像对应于所述一个或多个摄影机中的每个摄影机;
从所述一个或多个图像中的每个图像提取所述一个或多个面部图像中的每个面部图像以产生所提取的面部图像的一个或多个集合;
按所述一个或多个集合中的每个集合将一个或多个所提取的面部图像中的每个所提取的面部图像整理到一个或多个组中的独立的组中,其中,所述一个或多个组中的每个组对应于所述一个或多个人中的每个人的面部图像;
从所述一个或多个组中的每个组中选出优选的面部图像以产生一个或多个优选的面部图像;以及
传输所述一个或多个优选的面部图像到显示服务器。
2.根据权利要求1所述的系统,其中,所述方法还包括:
使用面部识别算法来监测所述一个或多个人中的每个人的嘴唇动作;
基于所述嘴唇动作确定所述一个或多个人中的哪些人正在发言;以及
通过使用视口的特征在视觉上指示正在发言的所述一个或多个人。
3.根据权利要求2所述的系统,其中,所述计算设备包括下列项中的一个:桌面计算机、便携式计算机、无线电话和平板电脑。
4.根据权利要求1所述的系统,其中,针对所述一个或多个优选的面部图像中的每个优选的面部图像所传输的数据量是基于:
根据图像传输到所述显示服务器的所述一个或多个优选的面部图像的数目;以及
与所述系统和所述显示服务器之间的连接相关联的带宽。
5.根据权利要求1所述的系统,其中,所述一个或多个优选的面部图像中的每个优选的面部图像作为独立的流被传输到所述显示服务器,并且其中,所述一个或多个优选的面部图像中的每个优选的面部图像在监视器上的类似网格的图案上显示。
6.根据权利要求1所述的系统,其中,确定了所述一个或多个摄影机中的每个摄影机相对于特定空间位置的最佳宽度角和最佳视角。
7.一种系统,包括:
计算设备;以及
一个或多个第一摄影机,所述一个或多个第一摄影机通信耦合到所述计算设备,其中所述计算设备包括:
第二摄影机;
至少一个处理器;以及
至少一个存储器,所述至少一个存储器用于存储计算机可执行指令,其中,所述计算机可执行指令由所述至少一个处理器执行,将引起所述计算设备执行包括下列操作的方法:
通过所述一个或多个第一摄影机首先接收一个或多个第一图像,其中,所述一个或多个第一图像中的每个第一图像包括对应于一个或多个人的一个或多个第一面部图像;
通过所述第二摄影机随后接收第二图像,所述第二图像包括对应于所述一个或多个人的一个或多个第二面部图像;
从所述一个或多个第一图像中的每个第一图像首先提取所述一个或多个第一面部图像以产生一个或多个所提取的第一面部图像;
从所述第二图像中随后提取所述一个或多个第二面部图像中的每个第二面部图像以产生一个或多个所提取的第二面部图像;
确定所述一个或多个所提取的第二面部图像中的哪个所提取的第二面部图像对应于所述一个或多个所提取的第一面部图像中的所述每个所提取的第一面部图像;
将所述一个或多个所提取的第一面部图像中的每个所提取的第一面部图像和所述一个或多个所提取的第二面部图像中的每个所提取的第二面部图像整理到一个或多个组中,其中,每个组对应于所述一个或多个人中的一个人的一个或多个面部图像;
对所述一个或多个组中的每个组,选择所述一个人的所述一个或多个面部图像的优选的面部图像,其中在所述一个或多个组中的每个组上的所述选择产生一个或多个优选的面部图像的集合;以及
传输所述一个或多个优选的面部图像的所述集合到显示服务器。
8.根据权利要求7所述的系统,其中,所述一个或多个第一摄影机通过使用下列项中的一项或多项的方式通信耦合到所述计算设备:近场通信(NFC)连接、USB连接、IEEE 802.11连接和蓝牙连接。
9.根据权利要求7所述的系统,其中,所述一个或多个第一摄影机和所述第二摄影机位于不同的位置以允许相对于特定空间位置的不同视角。
10.根据权利要求7所述的系统,其中,所述优选的面部图像基于与存储在所述计算设备内的数据库中的高分辨率控制图像的比较而选出。
11.根据权利要求7所述的系统,其中,所述一个或多个优选的面部图像中的每个优选的面部图像被基于下列项调整大小:
与所述计算设备和所述显示服务器之间的连接相关联的带宽;以及
传输到所述显示服务器的所述一个或多个优选的图像的数目。
12.根据权利要求7所述的系统,其中,所述计算设备包括下列项中的一项:桌面计算机、无线电话和便携式平板电脑。
13.根据权利要求7所述的系统,其中,所述一个或多个优选的面部图像中的所述每个优选的面部图像作为独立的流被传输到所述显示服务器。
14.根据权利要求7所述的系统,其中,确定了所述一个或多个第一摄影机中的每个第一摄影机和所述第二摄影机相对于特定空间位置的最佳宽度角和最佳视角。
15.一种方法,包括:
通过所述一个或多个摄影机中的每个摄影机接收一个或多个图像,其中,所述一个或多个图像中的每个图像包括对应于一个或多个人的一个或多个面部图像,所述一个或多个图像中的所述每个图像对应于所述一个或多个摄影机中的每个摄影机;
从所述一个或多个图像中的每个图像提取所述一个或多个面部图像中的每个面部图像以产生所提取的面部图像的一个或多个集合;
按所述一个或多个集合中的每个集合将一个或多个所提取的面部图像中的每个所提取的面部图像整理到一个或多个组中的独立的组中,其中,所述一个或多个组中的每个组对应于所述一个或多个人中的每个人的面部图像;
从所述一个或多个组中的每一组中选出优选的面部图像以产生一个或多个优选的面部图像;以及
传输所述一个或多个优选的面部图像到显示服务器,其中,所述提取、所述整理、所述选择、及所述传输由执行计算机可执行指令的至少一个处理器来执行,其中所述计算机可执行指令存储在至少一个存储器中。
16.根据权利要求15所述的方法,其中,所述方法还包括:
使用面部识别算法监测所述一个或多个人中的每个人的嘴唇动作;
基于所述嘴唇动作确定所述一个或多个人中的哪些人正在发言;以及
通过使用视口的特征在视觉上指示正在发言的所述一个或多个人。
17.根据权利要求16所述的方法,其中,所述计算设备包括下列项中的一项:桌面计算机、便携式计算机、无线电话和平板电脑。
18.根据权利要求15所述的方法,其中,针对所述一个或多个优选的面部图像中的每个优选的面部图像所传输的数据量是基于:
根据图像传输到所述显示服务器的所述一个或多个优选的面部图像的数目;以及
与所述系统和所述显示服务器之间的连接相关联的带宽。
19.根据权利要求15所述的方法,其中,所述一个或多个优选的面部图像中的每个优选的面部图像作为独立的流被传输到所述显示服务器,并且其中,所述一个或多个优选的面部图像中的每个优选的面部图像在监视器上的类似网格的图案上显示。
20.根据权利要求15所述的方法,其中,确定所述一个或多个摄影机中的每个摄影机相对于特定空间位置的最佳宽度角和最佳视角。
CN201380052000.XA 2012-10-08 2013-09-19 视频会议中的面部识别和面部图像的传输 Pending CN104737533A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/647,205 2012-10-08
US13/647,205 US9076028B2 (en) 2012-10-08 2012-10-08 Facial recognition and transmission of facial images in a videoconference
PCT/US2013/060610 WO2014058590A2 (en) 2012-10-08 2013-09-19 Facial recognition and transmission of facial images in a videoconference

Publications (1)

Publication Number Publication Date
CN104737533A true CN104737533A (zh) 2015-06-24

Family

ID=49305145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380052000.XA Pending CN104737533A (zh) 2012-10-08 2013-09-19 视频会议中的面部识别和面部图像的传输

Country Status (4)

Country Link
US (2) US9076028B2 (zh)
EP (1) EP2904772A2 (zh)
CN (1) CN104737533A (zh)
WO (1) WO2014058590A2 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108494896A (zh) * 2018-02-08 2018-09-04 上海橙旺智能科技有限公司 投影终端、投影系统及投影方法
CN111034153A (zh) * 2017-07-31 2020-04-17 株式会社理光 通信系统,分散处理系统,分布式处理方法和记录介质
CN114827664A (zh) * 2022-04-27 2022-07-29 咪咕文化科技有限公司 多路直播混流方法、服务器、终端设备、系统及存储介质

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9361626B2 (en) * 2012-10-16 2016-06-07 Google Inc. Social gathering-based group sharing
CN104113721B (zh) * 2013-04-22 2017-08-18 华为技术有限公司 一种视频会议中会议材料的显示方法及装置
US9113036B2 (en) * 2013-07-17 2015-08-18 Ebay Inc. Methods, systems, and apparatus for providing video communications
KR20150034061A (ko) * 2013-09-25 2015-04-02 삼성전자주식회사 복수의 클라이언트들에 의한 촬영 환경 설정 방법 및 장치
US9693017B2 (en) * 2014-08-20 2017-06-27 Cisco Technology, Inc. Automatic switching between different cameras at a video conference endpoint based on audio
US10803160B2 (en) 2014-08-28 2020-10-13 Facetec, Inc. Method to verify and identify blockchain with user question data
CA2902093C (en) 2014-08-28 2023-03-07 Kevin Alan Tussy Facial recognition authentication system including path parameters
US11256792B2 (en) 2014-08-28 2022-02-22 Facetec, Inc. Method and apparatus for creation and use of digital identification
US10698995B2 (en) 2014-08-28 2020-06-30 Facetec, Inc. Method to verify identity using a previously collected biometric image/data
US10614204B2 (en) 2014-08-28 2020-04-07 Facetec, Inc. Facial recognition authentication system including path parameters
US10915618B2 (en) 2014-08-28 2021-02-09 Facetec, Inc. Method to add remotely collected biometric images / templates to a database record of personal information
US20160142462A1 (en) * 2014-11-19 2016-05-19 Cisco Technology, Inc. Displaying Identities of Online Conference Participants at a Multi-Participant Location
US20170053175A1 (en) * 2015-08-17 2017-02-23 Facetec, Inc. System and method for validating three-dimensional objects
ITUB20153347A1 (it) 2015-09-02 2017-03-02 Stefano Spattini Apparato per la videocomunicazione
US10771508B2 (en) 2016-01-19 2020-09-08 Nadejda Sarmova Systems and methods for establishing a virtual shared experience for media playback
US10534955B2 (en) * 2016-01-22 2020-01-14 Dreamworks Animation L.L.C. Facial capture analysis and training system
USD987653S1 (en) 2016-04-26 2023-05-30 Facetec, Inc. Display screen or portion thereof with graphical user interface
US9936162B1 (en) 2016-10-04 2018-04-03 Avaya Inc. System and method for processing digital images during videoconference
US9774823B1 (en) 2016-10-04 2017-09-26 Avaya Inc. System and method for processing digital images during videoconference
WO2019036630A1 (en) * 2017-08-17 2019-02-21 Google Llc SCALING AN IMAGE OF THE FACE OF A SPEAKER BASED ON THE DISTANCE OF THE FACE AND THE SIZE OF THE DISPLAY DEVICE
US10878824B2 (en) * 2018-02-21 2020-12-29 Valyant Al, Inc. Speech-to-text generation using video-speech matching from a primary speaker
DE102018206215A1 (de) * 2018-04-23 2019-10-24 Bayerische Motoren Werke Aktiengesellschaft Verfahren, Vorrichtung und Fortbewegungsmittel zur Erzeugung einer Mehrzahl unabhängiger Video-Datenströme
JP7225631B2 (ja) * 2018-09-21 2023-02-21 ヤマハ株式会社 画像処理装置、カメラ装置、および画像処理方法
US10924669B2 (en) * 2018-11-12 2021-02-16 Eagle Eye Networks, Inc. Persistent video camera and method of operation
US10795773B2 (en) * 2018-11-12 2020-10-06 Eagle Eye Networks, Inc Persistent video camera and method of operation
CN111770299B (zh) * 2020-04-20 2022-04-19 厦门亿联网络技术股份有限公司 一种智能视频会议终端的实时人脸摘要服务的方法及系统
US20220319034A1 (en) * 2020-06-04 2022-10-06 Plantronics, Inc. Head Pose Estimation in a Multi-Camera Teleconferencing System
WO2022115138A1 (en) * 2020-11-25 2022-06-02 Arris Enterprises Llc Video chat with plural users using same camera
US11451742B2 (en) * 2020-12-04 2022-09-20 Blackberry Limited Speech activity detection using dual sensory based learning
FR3118559B1 (fr) 2020-12-30 2023-03-31 Imprimerie Nat Système et procédé pour identifier et authentifier un utilisateur dans un système de visioconférence
US20220374636A1 (en) * 2021-05-24 2022-11-24 Microsoft Technology Licensing, Llc Object data generation for remote image processing

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1739966A1 (en) * 2005-06-30 2007-01-03 Pixartis SA System for videoconferencing
US20100123770A1 (en) * 2008-11-20 2010-05-20 Friel Joseph T Multiple video camera processing for teleconferencing
AU2008264173A1 (en) * 2008-12-23 2010-07-08 Canon Kabushiki Kaisha Splitting a single video stream into multiple viewports based on face detection
CN102713935A (zh) * 2010-01-20 2012-10-03 瑞典爱立信有限公司 会议室参与者辨识器

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5625704A (en) * 1994-11-10 1997-04-29 Ricoh Corporation Speaker recognition using spatiotemporal cues
GB2343586A (en) * 1998-11-06 2000-05-10 Nec Technologies Image display for mobile phones
US20070279483A1 (en) * 2006-05-31 2007-12-06 Beers Ted W Blended Space For Aligning Video Streams
US20080084429A1 (en) * 2006-10-04 2008-04-10 Sherman Locke Wissinger High performance image rendering for internet browser
US7847815B2 (en) * 2006-10-11 2010-12-07 Cisco Technology, Inc. Interaction based on facial recognition of conference participants
US8253770B2 (en) * 2007-05-31 2012-08-28 Eastman Kodak Company Residential video communication system
EP2263190A2 (en) * 2008-02-13 2010-12-22 Ubisoft Entertainment S.A. Live-action image capture
US8027521B1 (en) * 2008-03-25 2011-09-27 Videomining Corporation Method and system for robust human gender recognition using facial feature localization
US20100079573A1 (en) * 2008-09-26 2010-04-01 Maycel Isaac System and method for video telephony by converting facial motion to text
US8379937B1 (en) * 2008-09-29 2013-02-19 Videomining Corporation Method and system for robust human ethnicity recognition using image feature-based probabilistic graphical models
WO2010101697A2 (en) * 2009-02-06 2010-09-10 Oculis Labs, Inc. Video-based privacy supporting system
US20100332229A1 (en) * 2009-06-30 2010-12-30 Sony Corporation Apparatus control based on visual lip share recognition
US8395653B2 (en) * 2010-05-18 2013-03-12 Polycom, Inc. Videoconferencing endpoint having multiple voice-tracking cameras
JP5793353B2 (ja) * 2011-06-20 2015-10-14 株式会社東芝 顔画像検索システム、及び顔画像検索方法
US8730295B2 (en) * 2011-06-21 2014-05-20 Broadcom Corporation Audio processing for video conferencing
US9445046B2 (en) * 2011-06-24 2016-09-13 At&T Intellectual Property I, L.P. Apparatus and method for presenting media content with telepresence

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1739966A1 (en) * 2005-06-30 2007-01-03 Pixartis SA System for videoconferencing
US20100123770A1 (en) * 2008-11-20 2010-05-20 Friel Joseph T Multiple video camera processing for teleconferencing
AU2008264173A1 (en) * 2008-12-23 2010-07-08 Canon Kabushiki Kaisha Splitting a single video stream into multiple viewports based on face detection
CN102713935A (zh) * 2010-01-20 2012-10-03 瑞典爱立信有限公司 会议室参与者辨识器

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111034153A (zh) * 2017-07-31 2020-04-17 株式会社理光 通信系统,分散处理系统,分布式处理方法和记录介质
US11538276B2 (en) 2017-07-31 2022-12-27 Ricoh Company, Ltd. Communication system, distributed processing system, distributed processing method, and recording medium
CN108494896A (zh) * 2018-02-08 2018-09-04 上海橙旺智能科技有限公司 投影终端、投影系统及投影方法
CN108494896B (zh) * 2018-02-08 2021-01-26 上海橙旺智能科技有限公司 投影终端、投影系统及投影方法
CN114827664A (zh) * 2022-04-27 2022-07-29 咪咕文化科技有限公司 多路直播混流方法、服务器、终端设备、系统及存储介质
CN114827664B (zh) * 2022-04-27 2023-10-20 咪咕文化科技有限公司 多路直播混流方法、服务器、终端设备、系统及存储介质

Also Published As

Publication number Publication date
EP2904772A2 (en) 2015-08-12
US9076028B2 (en) 2015-07-07
WO2014058590A3 (en) 2014-10-16
WO2014058590A2 (en) 2014-04-17
US20140098174A1 (en) 2014-04-10
US9430695B2 (en) 2016-08-30
US20150310260A1 (en) 2015-10-29

Similar Documents

Publication Publication Date Title
CN104737533A (zh) 视频会议中的面部识别和面部图像的传输
US10659527B2 (en) Opportunistic crowd-based service platform
EP2642753B1 (en) Transmission terminal, transmission system, display control method, and display control program
US9124765B2 (en) Method and apparatus for performing a video conference
EP2571226B1 (en) Apparatus, System, and Method of Managing Data Transmission, and Recording Medium Storing Data Transmission Management Program
EP2363994A1 (en) Transmission management apparatus, transmission management system, transmission management method, and transmission management program
US20120016960A1 (en) Managing shared content in virtual collaboration systems
EP2894852A1 (en) Process for increasing the quality of experience for users that watch on their terminals a high definition video stream
CN105493501A (zh) 虚拟视觉相机
EP2892205B1 (en) Method and device for determining a sharing terminal
JP2019513275A (ja) 監視方法及び装置
US11290659B2 (en) Physical object-based visual workspace configuration system
CN102571631A (zh) 即时通信中动作图像信息的发送方法、终端和系统
CN108347427A (zh) 一种视频数据传输、处理方法、装置及终端、服务器
CN108353127A (zh) 基于深度相机的图像稳定
US20230132415A1 (en) Machine learning-based audio manipulation using virtual backgrounds for virtual meetings
CN110300290B (zh) 教学监控管理方法、装置及系统
WO2021226821A1 (en) Systems and methods for detection and display of whiteboard text and/or an active speaker
WO2024103975A1 (zh) 图像处理方法、图像处理系统、装置、设备及介质
CN113918327A (zh) 一种控制方法及装置
CN114520795A (zh) 群组创建方法、装置、计算机设备和存储介质
CN118069079A (zh) 多屏共享的方法、装置、设备及计算机存储介质
Kaiser et al. Automatic Camera Selection for Format Agnostic Live Event Broadcast Production
JP2006140921A (ja) 遠隔サポート装置
JP2016035720A (ja) 操作ログ記録プログラム、操作ログ記録方法及び端末装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20170117

Address after: American Florida

Applicant after: Geithner company

Address before: American Florida

Applicant before: Citrix Systems, Inc.

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150624