CN102598055A

CN102598055A - 视频会话的自动标记

Info

Publication number: CN102598055A
Application number: CN2010800476022A
Authority: CN
Inventors: R·K·赫吉; Z·刘
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2009-10-23
Filing date: 2010-10-12
Publication date: 2012-07-18
Also published as: JP2013509094A; US20110096135A1; WO2011049783A2; EP2491533A4; KR20120102043A; JP5739895B2; EP2491533A2; WO2011049783A3

Abstract

描述了用表示所识别的人或物体的元数据来标记视频会话，比如以便在所识别的面部在视频会话期间被示出时标识出与该面部相对应的人。该标识可以通过在视频会话上覆盖文本(例如这个人的姓名和/或其他相关信息)来进行。可以使用面部识别和/或其他(例如语音)识别来标识出某人。可以通过使用诸如日历信息之类的已知缩小信息来使面部识别过程更有效，所述缩小信息指示：在视频会话中被示出的会议受邀者是谁。

Description

视频会话的自动标记

背景

视频会议已经成为一种参与会谈、研究班和其他这样的活动的流行方式。在多方视频会议会话中，用户常常在他们的会议显示器上看见远程参与者，但是不知道该参与者是谁。用户在其他时间对某人是谁有模糊的概念，但是想要确切地知道，或者可能知道某些人的姓名，但是不知道哪个姓名配哪个人。用户有时不仅想要知道某人的姓名，而且想要知道其他信息，比如那个人在什么公司工作等等。这在一对多视频会议中是甚至更成问题的，其中在一对多视频会议中，可能存在彼此不认识的相对大量的人。

如今，除了偶然因素或者通过人们口头介绍他们自己(包括远程地通过视频)的多次介绍(常常是费时的)或者人具有用户能够看见的姓名标签、姓名牌等情况以外，不存在使用户获得这样的信息的方式。用户所期望的是，具有关于视频会议中的其他人的信息，包括但不必具有口头介绍等等。

概述

提供本概述以便以简化形式介绍将在以下的详细描述中进一步描述的一些代表性概念。本概述不旨在标识出所要求保护的主题的关键特征或必要特征，也不旨在以限制所要求保护的主题的范围的任何方式来使用。

简言之，在此所示的主题的各方面针对一种用来用相关联的元数据来识别诸如人或物体之类的实体的技术，所述元数据用于在该实体出现在视频会话中时标识出该实体。例如，当视频会话示出人的面部或物体时，该面部或物体可以用名称和/或其他相关信息来标记(例如通过文本覆盖)。

在一个方面，捕捉在视频会话内被示出的面部的图像。执行面部识别以获得与所识别的面部相关联的元数据。然后使用所述元数据来标记所述视频会话，以便在所识别的面部在所述视频会话期间被示出时标识出与所识别的面部相对应的人。可以通过诸如日历信息之类的其他已知缩小信息来缩小面部识别匹配过程，所述缩小信息指示：在视频会话中被示出的会议受邀者是谁。

结合附图阅读以下详细描述，本发明的其他优点会变得显而易见。

附图简述

作为示例而非限制，在附图中示出了本发明，附图中相同的附图标记指示相同或相似的元素，附图中：

图1是表示用于用标识出所感测实体(例如人或物体)的元数据来标记视频会话的示例环境的框图。

图2是表示基于面部识别来标记出现在视频会话中的面部的框图。

图3是用于通过搜索匹配来将元数据与实体的图像相关联的示例步骤的流程图。

图4示出了可以将本发明的各个方面集成到其中的计算环境的说明性示例。

详细描述

在此所述的本技术的各方面总体上针对的是：基于当前处于显示屏上的人或物体自动地将元数据(例如覆盖文本)插入到实况或预先记录/回放的视频会议会话中。总的来说，这是通过如下方式完成的：自动标识出该人或物体；以及然后使用该标识来检索相关信息，比如该人的姓名和/或其他数据。

应当理解，此处的任何示例均是非限制性的。当然，面部识别的使用在此被描述为一种类型的用于人的标识机构，然而，用于标识出人们、以及标识出诸如无生命物体之类的其他实体的其他传感器、机构和/或方式是等价的。因此，本发明不限于在此描述的任何具体的实施例、方面、概念、结构、功能或示例。相反，此处所描述的实施例、方面、概念、结构、功能或示例中的任一个都是非限制性的，并且本发明一般能够以在计算和数据检索和/或视频标记方面提供好处和优点的各种方式来使用。

图1示出了用于基于所识别的实体104(例如人或物体)的标识来输出元数据102的总的示例系统。诸如摄像机之类的一个或多个传感器106提供关于该实体104的所感测的数据，比如包含面部图像的帧或一组帧。可替代的相机可以是捕捉静止图像或一组静止图像的相机。缩小(narrowing)模块108接收所感测的数据，并且例如可以(以已知方式)选择为了识别的目的而可能最好地表示面部的一个帧。帧选择可以可替代地在其他地方执行，比如在识别机构110(在下面予以描述)中执行。

缩小模块108从一个或多个传感器106接收数据并且将其提供给识别机构110，(注意，在可替代的实现中，所述传感器中的一个或多个可以将它们的数据更直接地提供给识别机构110)。一般而言，识别机构110查询数据存储112以基于传感器提供的数据标识出实体104。注意，如下面将描述的那样，该查询可以被制定为基于从缩小模块108接收到的缩小信息来缩小搜索。

假定找到匹配，则识别机构110输出识别结果，例如所感测的实体104的元数据102。该元数据可以以任何合适的形式，例如可用于进一步查找的标识符(ID)和/或比如以文本、图形、视频、音频、动画等形式的已查找到的一组结果。

诸如摄像机之类的视频源114(其还可以是由虚线框/虚线指示的传感器)或视频回放机构提供视频输出116，例如视频流。当实体104被示出时，元数据102被标记机构118(直接地或以访问其他数据的方式)用于将相应信息与视频订阅源相关联。在图1的示例中，所得到的视频订阅源120被示为被诸如文本之类的元数据(或经由元数据所获得的信息)覆盖，但是这仅仅是一个示例。

另一示例输出是让显示器等等可供会谈或会议室的占用者查看，同时可能伴随有视频屏幕。当讲话者站在讲台后时、或者当讲话者小组中的一个人正在说话时，这个人的姓名可以出现在显示器上。观众中的提问者可以类似地被标识出并且让他或她的信息以这种方式被输出。

针对面部识别，对数据存储112的搜索可能是耗时的，由此基于其他信息对搜索的缩小可以是更有效的。为此目的，缩小模块108还可以从任何合适的信息提供者122(或多个提供者)接收与实体相关的附加信息。例如，可以在会议室中设置摄像机，并且可以把确认当时谁是会议室的受邀者的日历信息用于帮助缩小搜索。会议参与者通常为会议进行登记，并且因此可以提供这些参与者的列表以作为缩小搜索的附加的信息。获得缩小信息的其他方式可以包括：基于组织信息作出预测；基于过去的会谈(哪些人通常一起会谈)来学习会议出席模式；等等。缩小模块108可以将这样的信息转换成可被识别机构110用于为缩小搜索候选者而制定查询等的形式。

替代于或附加于面部识别，可行的是将各种其他类型的传感器用于标识和/或缩小。例如，可以将话筒耦合到语音识别技术，该语音识别技术可以将讲话者的语音与姓名相匹配，某人可以在相机捕捉其图像时讲出其姓名，其中姓名被识别为文本。徽章和/或姓名标签(nametag)可以比如通过文本识别或者通过配备可见条形码或者RFID技术等等而被阅读以直接标识出某人。还可以将感测用于缩小面部或语音识别搜索，例如许多类型的徽章在进入到建筑物后就已经被感测到，和/或RFID技术可以被用于确定谁进入了会谈或会议室。蜂窝电话或其他设备可以例如通过Bluetooth(蓝牙)技术来广播人的身份。

此外，数据存储112可以被数据提供者124用比可搜索到的全部可用数据更少的数据来填充。例如，公司雇员数据库可以维护其雇员的与这些雇员的ID徽章一起使用的图片。可以要求公司站点的访问者使他们的照片被拍摄以及提供他们的姓名以便被允许进入。可以首先构建和搜索仅有雇员和当前访问者的数据存储。对于较大的企业，进入特定建筑物的雇员可以通过他们的徽章这样做，并且因此处于建筑物内的当前在场的雇员通过徽章阅读器而被公知，由此可以首先搜索每建筑物的数据存储。

如果在搜索时为未发现合适的匹配(例如以足够的概率等级)，则可以扩展该搜索。使用上面的示例之一，如果一个雇员与另一人一起进入建筑物并且不使用他或她的徽章以用于进入，则对该建筑物的已知占用者的搜索将不会找到合适的匹配。在这样的情况下，该搜索可以被扩展到整个雇员数据库等等(例如以前的访问者)。注意，该结果最终可能是“人未被识别”等等。不正确的输入也可能导致问题，例如不良的照明、不良的查看角度等等。

物体可以类似地被识别以用于标记。例如，用户可以拿起设备或者出示比如数码相机的照片。可以用图像来搜索合适的数据存储以找到确切的品牌名称、型号、所建议的零售价格等等，这些信息然后可以被用于标记该图像的用户视图。

图2示出了基于面部识别的更具体的示例。用户与用户界面220交互以请求例如web服务之类的服务222标记一个或多个面部。web服务处的数据库可以用由相机224捕捉的一组面部来更新，并且因此可以在预期到请求的情况下开始获得和/或标记面部。还可以执行面部的自动和/或手动标记来更新数据库。

当视频捕捉源226获得面部图像228时，该图像被提供给面部识别机构230，该面部识别机构230调用web服务(或者提供给定面部或实体的元数据的任何其他机构)，从而请求将标记(或其他元数据)与面部一起返回。该web服务用该标记进行响应，该标记然后被传递给面部标记机构232，比如将文本覆盖在图像上的机构，由此提供该面部的经标记的图像234。面部识别机构230可以在本地高速缓存236中存储面部/标记信息以在下次出现该面部时标记该面部方面获得效率。

因此，面部识别可以通过将人面部的图像(可能与已知的任何缩小信息一起)发送给远程服务来在该远程服务处执行。然后，该服务执行合适的查询制定和/或匹配。然而，这些识别中的一些或全部可以在本地执行。例如，用户的本地计算机可以提取表示面部的一组特征，并且使用或发送这些特征以搜索这样的特征的远程数据库。更进一步，该服务可以接收视频订阅源，如果是这样，则该帧内的出现该面部的帧号或位置可以被发送给该服务，由此该服务可以提取图像以用于处理。

此外，如上所述，元数据不必包括标记，而是可以是可从中查找标记和/或其他信息的标识符等等。例如，可以使用标识符来确定：人的姓名身份；传记信息，比如这个人的公司；到这个人的网站、发布等等的连接；他或她的电话号码；电子邮件地址；在组织图内的位置；等等。

这样的附加信息可以取决于与用户界面220的用户交互。例如，用户可能首先仅仅看见标记，但是能够扩展和收缩关于该标记的附加信息。用户可能以其他方式与标记交互(例如点击该标记)以获得更多查看选项。

图3概括了用于通过面部识别来获得标记信息的示例过程，该过程始于步骤302，在步骤302，捕捉视频帧。可以从所述帧中提取图像，或者可以将一个或多个帧本身发送给识别机构，这由步骤304来表示。

步骤306和308表示在可用时对缩小信息的使用。如上所述，可以使用任何缩小信息来使搜索至少在最初时更有效。用于提供会议出席者的列表或会议参与者的登记列表的日历信息的上面的示例可以使搜索有效得多。

步骤310表示制定查询以将面部与人的身份相匹配。如上所述，该查询可以包括面部的列表以进行搜索。注意，步骤310还表示在可用时搜索本地高速缓存等等。

步骤312表示接收搜索的结果。在图3的示例中，第一搜索尝试的结果可以是身份或者“无匹配”结果，或者可能是具有一定概率的一组候选匹配。步骤314表示评估该结果；如果该匹配足够好，则步骤322表示返回针对该匹配的元数据。

如果未找到匹配，则步骤316表示：评估是否可以针对另一搜索尝试来扩展该搜索范围。举例来说，考虑：未被邀请的某人决定出席会议。通过日历信息缩小搜索将导致找不到该未被邀请的人的匹配。在这样的事件下，可以以某种方式扩展搜索范围(步骤320)，比如以查找公司内的在层次上高于或低于该出席者的人，例如他们将报告作给的人或向他们作报告的人。注意，可能需要重新制定查询以扩展搜索范围和/或可以搜索不同的数据存储。如果在步骤314仍未找到匹配，则搜索扩展可以在需要时继续到整个雇员数据库或者访问者数据等等。如果未找到匹配，则步骤318可以返回指示该未识别状态的某物。

示例性操作环境

图4示出了其上可实现图1-3的示例的合适的计算和联网环境400的一个示例。计算系统环境400只是合适计算环境的一个示例，而非意在暗示对本发明使用范围或功能有任何限制。也不应该将计算环境400解释为对示例性操作环境400中示出的任一组件或其组合有任何依赖性或要求。

本发明可用各种其他通用或专用计算系统环境或配置来操作。适用于本发明的公知计算系统、环境、和/或配置的示例包括但不限于：个人计算机、服务器计算机、手持式或膝上型设备、平板设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、微型计算机、大型计算机、包括任何以上系统或设备的分布式计算环境等等。

本发明可在诸如程序模块等由计算机执行的计算机可执行指令的通用上下文中描述。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。本发明也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实现。在分布式计算环境中，程序模块可以位于包括存储器存储设备在内的本地和/或远程计算机存储介质中。

参考图4，用于实现本发明的各方面的示例性系统可包括计算机410形式的通用计算设备。计算机410的组件可以包括但不限于：处理单元420、系统存储器430和将包括系统存储器在内的各种系统组件耦合至处理单元420的系统总线421。系统总线421可以是若干类型的总线结构中的任一种，包括使用各种总线体系结构中的任一种的存储器总线或存储器控制器、外围总线、以及局部总线。作为示例而非限制，这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线，以及也称为夹层(Mezzanine)总线的外围部件互连(PCI)总线。

计算机410通常包括各种计算机可读介质。计算机可读介质可以是能由计算机410访问的任何可用介质，并包含易失性和非易失性介质以及可移动、不可移动介质。作为示例而非限制，计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以存储诸如计算机可读的指令、数据结构、程序模块或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括，但不仅限于，RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁带盒、磁带、磁盘存储或其他磁存储设备，或可以用来存储所需信息并可以被计算机410访问的任何其他介质。通信介质通常以诸如载波或其他传输机构之类的已调制数据信号来具体化计算机可读指令、数据结构、程序模块或其他数据，并且包括任何信息传送介质。术语“已调制数据信号”是指具有以在信号中编码信息的方式被设定或改变其一个或多个特征的信号。作为示例而非限制，通信介质包括诸如有线网络或直接线连接之类的有线介质，以及诸如声学、RF、红外及其他无线介质之类的无线介质。上面各项中的任何项的组合也包括在计算机可读介质的范围内。

系统存储器430包括易失性和/或非易失性存储器形式的计算机存储介质，如只读存储器(ROM)431和随机存取存储器(RAM)432。包含诸如在启动期间帮助在计算机410内的元件之间传输信息的基本例程的基本输入/输出系统433(BIOS)通常储存储在ROM 431中。RAM 432通常包含处理单元420可立即访问和/或当前正在操作的数据和/或程序模块。作为示例而非限制，图4示出了操作系统434、应用程序435、其他程序模块436和程序数据437。

计算机410也可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例，图4示出了从不可移动、非易失性磁介质中读取或向其写入的硬盘驱动器441，从可移动、非易失性磁盘452中读取或向其写入的磁盘驱动器451，以及从诸如CD ROM或其他光学介质等可移动、非易失性光盘456中读取或向其写入的光盘驱动器455。可在示例性操作环境中使用的其他可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器441通常通过诸如接口440之类的不可移动存储器接口连接到系统总线421，并且磁盘驱动器451和光盘驱动器455通常通过诸如接口450之类的可移动存储器接口连接到系统总线421。

以上描述并在图4中示出的驱动器及其相关联的计算机存储介质为计算机410提供了对计算机可读指令、数据结构、程序模块和其他数据的存储。例如，在图4中，硬盘驱动器441被示为存储操作系统444、应用程序445、其他程序模块446和程序数据447。注意，这些组件可与操作系统434、应用程序435、其他程序模块436和程序数据437相同，也可与它们不同。操作系统444、应用程序445、其他程序模块446和程序数据447在这里被标注了不同的附图标记是为了说明至少它们是不同的副本。用户可通过诸如平板或者电子数字化仪464、话筒463、键盘462和定点设备461(通常指的是鼠标、跟踪球或触摸垫)等输入设备向计算机410输入命令和信息。图4中未示出的其他输入设备可以包括操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等。这些以及其他输入设备通常通过耦合到系统总线的用户输入接口460连接到处理单元420，但也可通过诸如并行端口、游戏端口或通用串行总线(USB)之类的其他接口和总线结构来连接。监视器491或其他类型的显示设备也通过诸如视频接口490之类的接口连接至系统总线421。监视器491也可以与触摸屏面板等集成。注意到监视器和/或触摸屏面板可以在物理上耦合至其中包括计算设备410的外壳，诸如在平板型个人计算机中。此外，诸如计算设备410等计算机还可以包括其他外围输出设备，诸如扬声器495和打印机496，它们可以通过输出外围接口494等连接。

计算机410可使用到一个或多个远程计算机(诸如，远程计算机480)的逻辑连接而在联网环境中操作。远程计算机480可以是个人计算机、服务器、路由器、网络PC、对等设备或其他常见网络节点，并且通常包括许多或所有以上相对计算机410所描述的元件，但在图4中仅示出了存储器存储设备481。图4中所示的逻辑连接包括一个或多个局域网(LAN)471和一个或多个广域网(WAN)473，但也可以包括其他网络。此类联网环境在办公室、企业范围的计算机网络、内联网和因特网中是常见的。

当在LAN联网环境中使用时，计算机410通过网络接口或适配器470连接到LAN 471。当在WAN联网环境中使用时，计算机410通常包括调制解调器472或用于通过诸如因特网等WAN 473建立通信的其他手段。可为内置或可为外置的调制解调器472可以经由用户输入接口460或其他合适的机构连接至系统总线421。诸如包括接口和天线的无线联网组件可通过诸如接入点或对等计算机等合适的设备耦合到WAN或LAN。在联网环境中，相对于计算机410所示的程序模块或其部分可被存储在远程存储器存储设备中。作为示例而非限制，图4示出了远程应用程序485驻留在存储器设备481上。可以理解，所示的网络连接是示例性的，也可以使用在计算机之间建立通信链路的其他手段。

辅助子系统499(例如，用于内容的辅助显示)可经由用户接口460连接，从而即使计算机系统的主要部分处于低功率状态中，也允许诸如程序内容、系统状态和事件通知等数据被提供给用户。辅助子系统499可连接至调制解调器472和/或网络接口470，从而在主处理单元420处于低功率状态中时，也允许在这些系统之间进行通信。

结语

尽管本发明易于作出各种修改和替换构造，但其某些说明性实施例在附图中示出并在上面被详细地描述。然而应当了解，这不旨在将本发明限于所公开的具体形式，而是相反地，旨在覆盖落入本发明的精神和范围之内的所有修改、替换构造和等效方案。

Claims

1.一种在计算环境中的系统，包括：传感器组，所述传感器组包括至少一个传感器；识别机构，所述识别机构基于从所述传感器接收的信息获得和输出与所识别的实体相关联的识别元数据；以及把对应于所述元数据的信息与示出所述实体的视频输出相关联的机构。

2.如权利要求1所述的系统，其特征在于，所述传感器组包括还提供所述视频输出的摄像机。

3.如权利要求1所述的系统，其特征在于，所述识别机构执行面部识别，并且其中所述识别机构耦合到数据存储，所述数据存储包含与面部相关的数据以及与面部相关的每个数据组的元数据，并且其中所述识别机构从所述传感器组获得面部的图像，并且在所述数据存储中搜索与面部相关的匹配数据组以获得所述元数据。

4.如权利要求1所述的系统，其特征在于，所述识别机构从信息提供者接收缩小信息，并且基于所述缩小信息来缩小对所述数据存储的搜索。

5.如权利要求1所述的系统，其特征在于，将对应于所述元数据的信息与所述视频输出相关联的机构用所述实体的名称来标记所述视频输出。

6.如权利要求1所述的系统，其特征在于，所述传感器组包括相机、话筒、RFID阅读器或徽章阅读器、或者相机、话筒、RFID阅读器或徽章阅读器的任何组合。

7.如权利要求1所述的系统，其特征在于，所述识别机构与web服务通信以获得所述元数据。

8.一种在计算环境中的方法，包括：

接收表示人或物体的数据；

将所述数据与元数据进行匹配；以及

当所述实体当前在视频会话期间被示出时将对应于所述元数据的信息插入到所述视频会话中。

9.如权利要求8所述的方法，其特征在于，接收表示所述人或物体的数据包括：接收图像，并且其中将所述数据与元数据进行匹配包括：在数据存储中搜索匹配的图像。

10.如权利要求8所述的方法，其特征在于，还包括：接收缩小信息，并且其中将所述数据与元数据进行匹配包括：制定至少部分基于所述缩小信息的查询。

11.如权利要求8所述的方法，其特征在于，接收所述数据包括：接收面部的图像，并且其中将所述数据与元数据进行匹配包括：执行面部识别。

12.如权利要求8所述的方法，其特征在于，插入对应于所述元数据的信息包括：用文本覆盖所述视频会话；或者用名称来标记所述实体；或者用文本覆盖所述视频会话和用名称来标记所述实体两者。

13.一个或多个具有计算机可执行指令的计算机可读介质，所述计算机可执行指令在被执行时执行以下步骤，包括：

捕捉在视频会话内被示出的面部的图像；

执行面部识别以获得与所识别的面部相关联的元数据；以及

基于所述元数据来标记所述视频会话，以便在所识别的面部在所述视频会话期间被示出时标识出与所识别的面部相对应的人。

14.如权利要求13所述的一个或多个计算机可读介质，其特征在于，还具有如下的计算机可执行指令，所述指令包括：使用缩小信息来帮助减小在执行面部识别时被搜索的候选面部的数目，其中所述缩小信息基于日历数据、所感测的数据、登记数据、预测数据或模式数据、或者日历数据、所感测的数据、登记数据、预测数据或模式数据的任何组合。

15.如权利要求13所述的一个或多个计算机可读介质，其特征在于，还具有如下的计算机可执行指令，所述指令包括：确定在第一面部识别尝试期间未找到合适的匹配；以及在第二面部识别尝试中扩展搜索范围。