CN102598055A - 视频会话的自动标记 - Google Patents

视频会话的自动标记 Download PDF

Info

Publication number
CN102598055A
CN102598055A CN2010800476022A CN201080047602A CN102598055A CN 102598055 A CN102598055 A CN 102598055A CN 2010800476022 A CN2010800476022 A CN 2010800476022A CN 201080047602 A CN201080047602 A CN 201080047602A CN 102598055 A CN102598055 A CN 102598055A
Authority
CN
China
Prior art keywords
data
metadata
information
video
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010800476022A
Other languages
English (en)
Inventor
R·K·赫吉
Z·刘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102598055A publication Critical patent/CN102598055A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Transfer Between Computers (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

描述了用表示所识别的人或物体的元数据来标记视频会话,比如以便在所识别的面部在视频会话期间被示出时标识出与该面部相对应的人。该标识可以通过在视频会话上覆盖文本(例如这个人的姓名和/或其他相关信息)来进行。可以使用面部识别和/或其他(例如语音)识别来标识出某人。可以通过使用诸如日历信息之类的已知缩小信息来使面部识别过程更有效,所述缩小信息指示:在视频会话中被示出的会议受邀者是谁。

Description

视频会话的自动标记
背景
视频会议已经成为一种参与会谈、研究班和其他这样的活动的流行方式。在多方视频会议会话中,用户常常在他们的会议显示器上看见远程参与者,但是不知道该参与者是谁。用户在其他时间对某人是谁有模糊的概念,但是想要确切地知道,或者可能知道某些人的姓名,但是不知道哪个姓名配哪个人。用户有时不仅想要知道某人的姓名,而且想要知道其他信息,比如那个人在什么公司工作等等。这在一对多视频会议中是甚至更成问题的,其中在一对多视频会议中,可能存在彼此不认识的相对大量的人。
如今,除了偶然因素或者通过人们口头介绍他们自己(包括远程地通过视频)的多次介绍(常常是费时的)或者人具有用户能够看见的姓名标签、姓名牌等情况以外,不存在使用户获得这样的信息的方式。用户所期望的是,具有关于视频会议中的其他人的信息,包括但不必具有口头介绍等等。
概述
提供本概述以便以简化形式介绍将在以下的详细描述中进一步描述的一些代表性概念。本概述不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在以限制所要求保护的主题的范围的任何方式来使用。
简言之,在此所示的主题的各方面针对一种用来用相关联的元数据来识别诸如人或物体之类的实体的技术,所述元数据用于在该实体出现在视频会话中时标识出该实体。例如,当视频会话示出人的面部或物体时,该面部或物体可以用名称和/或其他相关信息来标记(例如通过文本覆盖)。
在一个方面,捕捉在视频会话内被示出的面部的图像。执行面部识别以获得与所识别的面部相关联的元数据。然后使用所述元数据来标记所述视频会话,以便在所识别的面部在所述视频会话期间被示出时标识出与所识别的面部相对应的人。可以通过诸如日历信息之类的其他已知缩小信息来缩小面部识别匹配过程,所述缩小信息指示:在视频会话中被示出的会议受邀者是谁。
结合附图阅读以下详细描述,本发明的其他优点会变得显而易见。
附图简述
作为示例而非限制,在附图中示出了本发明,附图中相同的附图标记指示相同或相似的元素,附图中:
图1是表示用于用标识出所感测实体(例如人或物体)的元数据来标记视频会话的示例环境的框图。
图2是表示基于面部识别来标记出现在视频会话中的面部的框图。
图3是用于通过搜索匹配来将元数据与实体的图像相关联的示例步骤的流程图。
图4示出了可以将本发明的各个方面集成到其中的计算环境的说明性示例。
详细描述
在此所述的本技术的各方面总体上针对的是:基于当前处于显示屏上的人或物体自动地将元数据(例如覆盖文本)插入到实况或预先记录/回放的视频会议会话中。总的来说,这是通过如下方式完成的:自动标识出该人或物体;以及然后使用该标识来检索相关信息,比如该人的姓名和/或其他数据。
应当理解,此处的任何示例均是非限制性的。当然,面部识别的使用在此被描述为一种类型的用于人的标识机构,然而,用于标识出人们、以及标识出诸如无生命物体之类的其他实体的其他传感器、机构和/或方式是等价的。因此,本发明不限于在此描述的任何具体的实施例、方面、概念、结构、功能或示例。相反,此处所描述的实施例、方面、概念、结构、功能或示例中的任一个都是非限制性的,并且本发明一般能够以在计算和数据检索和/或视频标记方面提供好处和优点的各种方式来使用。
图1示出了用于基于所识别的实体104(例如人或物体)的标识来输出元数据102的总的示例系统。诸如摄像机之类的一个或多个传感器106提供关于该实体104的所感测的数据,比如包含面部图像的帧或一组帧。可替代的相机可以是捕捉静止图像或一组静止图像的相机。缩小(narrowing)模块108接收所感测的数据,并且例如可以(以已知方式)选择为了识别的目的而可能最好地表示面部的一个帧。帧选择可以可替代地在其他地方执行,比如在识别机构110(在下面予以描述)中执行。
缩小模块108从一个或多个传感器106接收数据并且将其提供给识别机构110,(注意,在可替代的实现中,所述传感器中的一个或多个可以将它们的数据更直接地提供给识别机构110)。一般而言,识别机构110查询数据存储112以基于传感器提供的数据标识出实体104。注意,如下面将描述的那样,该查询可以被制定为基于从缩小模块108接收到的缩小信息来缩小搜索。
假定找到匹配,则识别机构110输出识别结果,例如所感测的实体104的元数据102。该元数据可以以任何合适的形式,例如可用于进一步查找的标识符(ID)和/或比如以文本、图形、视频、音频、动画等形式的已查找到的一组结果。
诸如摄像机之类的视频源114(其还可以是由虚线框/虚线指示的传感器)或视频回放机构提供视频输出116,例如视频流。当实体104被示出时,元数据102被标记机构118(直接地或以访问其他数据的方式)用于将相应信息与视频订阅源相关联。在图1的示例中,所得到的视频订阅源120被示为被诸如文本之类的元数据(或经由元数据所获得的信息)覆盖,但是这仅仅是一个示例。
另一示例输出是让显示器等等可供会谈或会议室的占用者查看,同时可能伴随有视频屏幕。当讲话者站在讲台后时、或者当讲话者小组中的一个人正在说话时,这个人的姓名可以出现在显示器上。观众中的提问者可以类似地被标识出并且让他或她的信息以这种方式被输出。
针对面部识别,对数据存储112的搜索可能是耗时的,由此基于其他信息对搜索的缩小可以是更有效的。为此目的,缩小模块108还可以从任何合适的信息提供者122(或多个提供者)接收与实体相关的附加信息。例如,可以在会议室中设置摄像机,并且可以把确认当时谁是会议室的受邀者的日历信息用于帮助缩小搜索。会议参与者通常为会议进行登记,并且因此可以提供这些参与者的列表以作为缩小搜索的附加的信息。获得缩小信息的其他方式可以包括:基于组织信息作出预测;基于过去的会谈(哪些人通常一起会谈)来学习会议出席模式;等等。缩小模块108可以将这样的信息转换成可被识别机构110用于为缩小搜索候选者而制定查询等的形式。
替代于或附加于面部识别,可行的是将各种其他类型的传感器用于标识和/或缩小。例如,可以将话筒耦合到语音识别技术,该语音识别技术可以将讲话者的语音与姓名相匹配,某人可以在相机捕捉其图像时讲出其姓名,其中姓名被识别为文本。徽章和/或姓名标签(nametag)可以比如通过文本识别或者通过配备可见条形码或者RFID技术等等而被阅读以直接标识出某人。还可以将感测用于缩小面部或语音识别搜索,例如许多类型的徽章在进入到建筑物后就已经被感测到,和/或RFID技术可以被用于确定谁进入了会谈或会议室。蜂窝电话或其他设备可以例如通过Bluetooth(蓝牙)技术来广播人的身份。
此外,数据存储112可以被数据提供者124用比可搜索到的全部可用数据更少的数据来填充。例如,公司雇员数据库可以维护其雇员的与这些雇员的ID徽章一起使用的图片。可以要求公司站点的访问者使他们的照片被拍摄以及提供他们的姓名以便被允许进入。可以首先构建和搜索仅有雇员和当前访问者的数据存储。对于较大的企业,进入特定建筑物的雇员可以通过他们的徽章这样做,并且因此处于建筑物内的当前在场的雇员通过徽章阅读器而被公知,由此可以首先搜索每建筑物的数据存储。
如果在搜索时为未发现合适的匹配(例如以足够的概率等级),则可以扩展该搜索。使用上面的示例之一,如果一个雇员与另一人一起进入建筑物并且不使用他或她的徽章以用于进入,则对该建筑物的已知占用者的搜索将不会找到合适的匹配。在这样的情况下,该搜索可以被扩展到整个雇员数据库等等(例如以前的访问者)。注意,该结果最终可能是“人未被识别”等等。不正确的输入也可能导致问题,例如不良的照明、不良的查看角度等等。
物体可以类似地被识别以用于标记。例如,用户可以拿起设备或者出示比如数码相机的照片。可以用图像来搜索合适的数据存储以找到确切的品牌名称、型号、所建议的零售价格等等,这些信息然后可以被用于标记该图像的用户视图。
图2示出了基于面部识别的更具体的示例。用户与用户界面220交互以请求例如web服务之类的服务222标记一个或多个面部。web服务处的数据库可以用由相机224捕捉的一组面部来更新,并且因此可以在预期到请求的情况下开始获得和/或标记面部。还可以执行面部的自动和/或手动标记来更新数据库。
当视频捕捉源226获得面部图像228时,该图像被提供给面部识别机构230,该面部识别机构230调用web服务(或者提供给定面部或实体的元数据的任何其他机构),从而请求将标记(或其他元数据)与面部一起返回。该web服务用该标记进行响应,该标记然后被传递给面部标记机构232,比如将文本覆盖在图像上的机构,由此提供该面部的经标记的图像234。面部识别机构230可以在本地高速缓存236中存储面部/标记信息以在下次出现该面部时标记该面部方面获得效率。
因此,面部识别可以通过将人面部的图像(可能与已知的任何缩小信息一起)发送给远程服务来在该远程服务处执行。然后,该服务执行合适的查询制定和/或匹配。然而,这些识别中的一些或全部可以在本地执行。例如,用户的本地计算机可以提取表示面部的一组特征,并且使用或发送这些特征以搜索这样的特征的远程数据库。更进一步,该服务可以接收视频订阅源,如果是这样,则该帧内的出现该面部的帧号或位置可以被发送给该服务,由此该服务可以提取图像以用于处理。
此外,如上所述,元数据不必包括标记,而是可以是可从中查找标记和/或其他信息的标识符等等。例如,可以使用标识符来确定:人的姓名身份;传记信息,比如这个人的公司;到这个人的网站、发布等等的连接;他或她的电话号码;电子邮件地址;在组织图内的位置;等等。
这样的附加信息可以取决于与用户界面220的用户交互。例如,用户可能首先仅仅看见标记,但是能够扩展和收缩关于该标记的附加信息。用户可能以其他方式与标记交互(例如点击该标记)以获得更多查看选项。
图3概括了用于通过面部识别来获得标记信息的示例过程,该过程始于步骤302,在步骤302,捕捉视频帧。可以从所述帧中提取图像,或者可以将一个或多个帧本身发送给识别机构,这由步骤304来表示。
步骤306和308表示在可用时对缩小信息的使用。如上所述,可以使用任何缩小信息来使搜索至少在最初时更有效。用于提供会议出席者的列表或会议参与者的登记列表的日历信息的上面的示例可以使搜索有效得多。
步骤310表示制定查询以将面部与人的身份相匹配。如上所述,该查询可以包括面部的列表以进行搜索。注意,步骤310还表示在可用时搜索本地高速缓存等等。
步骤312表示接收搜索的结果。在图3的示例中,第一搜索尝试的结果可以是身份或者“无匹配”结果,或者可能是具有一定概率的一组候选匹配。步骤314表示评估该结果;如果该匹配足够好,则步骤322表示返回针对该匹配的元数据。
如果未找到匹配,则步骤316表示:评估是否可以针对另一搜索尝试来扩展该搜索范围。举例来说,考虑:未被邀请的某人决定出席会议。通过日历信息缩小搜索将导致找不到该未被邀请的人的匹配。在这样的事件下,可以以某种方式扩展搜索范围(步骤320),比如以查找公司内的在层次上高于或低于该出席者的人,例如他们将报告作给的人或向他们作报告的人。注意,可能需要重新制定查询以扩展搜索范围和/或可以搜索不同的数据存储。如果在步骤314仍未找到匹配,则搜索扩展可以在需要时继续到整个雇员数据库或者访问者数据等等。如果未找到匹配,则步骤318可以返回指示该未识别状态的某物。
示例性操作环境
图4示出了其上可实现图1-3的示例的合适的计算和联网环境400的一个示例。计算系统环境400只是合适计算环境的一个示例,而非意在暗示对本发明使用范围或功能有任何限制。也不应该将计算环境400解释为对示例性操作环境400中示出的任一组件或其组合有任何依赖性或要求。
本发明可用各种其他通用或专用计算系统环境或配置来操作。适用于本发明的公知计算系统、环境、和/或配置的示例包括但不限于:个人计算机、服务器计算机、手持式或膝上型设备、平板设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、微型计算机、大型计算机、包括任何以上系统或设备的分布式计算环境等等。
本发明可在诸如程序模块等由计算机执行的计算机可执行指令的通用上下文中描述。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。本发明也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实现。在分布式计算环境中,程序模块可以位于包括存储器存储设备在内的本地和/或远程计算机存储介质中。
参考图4,用于实现本发明的各方面的示例性系统可包括计算机410形式的通用计算设备。计算机410的组件可以包括但不限于:处理单元420、系统存储器430和将包括系统存储器在内的各种系统组件耦合至处理单元420的系统总线421。系统总线421可以是若干类型的总线结构中的任一种,包括使用各种总线体系结构中的任一种的存储器总线或存储器控制器、外围总线、以及局部总线。作为示例而非限制,这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线,以及也称为夹层(Mezzanine)总线的外围部件互连(PCI)总线。
计算机410通常包括各种计算机可读介质。计算机可读介质可以是能由计算机410访问的任何可用介质,并包含易失性和非易失性介质以及可移动、不可移动介质。作为示例而非限制,计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以存储诸如计算机可读的指令、数据结构、程序模块或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括,但不仅限于,RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁带盒、磁带、磁盘存储或其他磁存储设备,或可以用来存储所需信息并可以被计算机410访问的任何其他介质。通信介质通常以诸如载波或其他传输机构之类的已调制数据信号来具体化计算机可读指令、数据结构、程序模块或其他数据,并且包括任何信息传送介质。术语“已调制数据信号”是指具有以在信号中编码信息的方式被设定或改变其一个或多个特征的信号。作为示例而非限制,通信介质包括诸如有线网络或直接线连接之类的有线介质,以及诸如声学、RF、红外及其他无线介质之类的无线介质。上面各项中的任何项的组合也包括在计算机可读介质的范围内。
系统存储器430包括易失性和/或非易失性存储器形式的计算机存储介质,如只读存储器(ROM)431和随机存取存储器(RAM)432。包含诸如在启动期间帮助在计算机410内的元件之间传输信息的基本例程的基本输入/输出系统433(BIOS)通常储存储在ROM 431中。RAM 432通常包含处理单元420可立即访问和/或当前正在操作的数据和/或程序模块。作为示例而非限制,图4示出了操作系统434、应用程序435、其他程序模块436和程序数据437。
计算机410也可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例,图4示出了从不可移动、非易失性磁介质中读取或向其写入的硬盘驱动器441,从可移动、非易失性磁盘452中读取或向其写入的磁盘驱动器451,以及从诸如CD ROM或其他光学介质等可移动、非易失性光盘456中读取或向其写入的光盘驱动器455。可在示例性操作环境中使用的其他可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于,磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器441通常通过诸如接口440之类的不可移动存储器接口连接到系统总线421,并且磁盘驱动器451和光盘驱动器455通常通过诸如接口450之类的可移动存储器接口连接到系统总线421。
以上描述并在图4中示出的驱动器及其相关联的计算机存储介质为计算机410提供了对计算机可读指令、数据结构、程序模块和其他数据的存储。例如,在图4中,硬盘驱动器441被示为存储操作系统444、应用程序445、其他程序模块446和程序数据447。注意,这些组件可与操作系统434、应用程序435、其他程序模块436和程序数据437相同,也可与它们不同。操作系统444、应用程序445、其他程序模块446和程序数据447在这里被标注了不同的附图标记是为了说明至少它们是不同的副本。用户可通过诸如平板或者电子数字化仪464、话筒463、键盘462和定点设备461(通常指的是鼠标、跟踪球或触摸垫)等输入设备向计算机410输入命令和信息。图4中未示出的其他输入设备可以包括操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等。这些以及其他输入设备通常通过耦合到系统总线的用户输入接口460连接到处理单元420,但也可通过诸如并行端口、游戏端口或通用串行总线(USB)之类的其他接口和总线结构来连接。监视器491或其他类型的显示设备也通过诸如视频接口490之类的接口连接至系统总线421。监视器491也可以与触摸屏面板等集成。注意到监视器和/或触摸屏面板可以在物理上耦合至其中包括计算设备410的外壳,诸如在平板型个人计算机中。此外,诸如计算设备410等计算机还可以包括其他外围输出设备,诸如扬声器495和打印机496,它们可以通过输出外围接口494等连接。
计算机410可使用到一个或多个远程计算机(诸如,远程计算机480)的逻辑连接而在联网环境中操作。远程计算机480可以是个人计算机、服务器、路由器、网络PC、对等设备或其他常见网络节点,并且通常包括许多或所有以上相对计算机410所描述的元件,但在图4中仅示出了存储器存储设备481。图4中所示的逻辑连接包括一个或多个局域网(LAN)471和一个或多个广域网(WAN)473,但也可以包括其他网络。此类联网环境在办公室、企业范围的计算机网络、内联网和因特网中是常见的。
当在LAN联网环境中使用时,计算机410通过网络接口或适配器470连接到LAN 471。当在WAN联网环境中使用时,计算机410通常包括调制解调器472或用于通过诸如因特网等WAN 473建立通信的其他手段。可为内置或可为外置的调制解调器472可以经由用户输入接口460或其他合适的机构连接至系统总线421。诸如包括接口和天线的无线联网组件可通过诸如接入点或对等计算机等合适的设备耦合到WAN或LAN。在联网环境中,相对于计算机410所示的程序模块或其部分可被存储在远程存储器存储设备中。作为示例而非限制,图4示出了远程应用程序485驻留在存储器设备481上。可以理解,所示的网络连接是示例性的,也可以使用在计算机之间建立通信链路的其他手段。
辅助子系统499(例如,用于内容的辅助显示)可经由用户接口460连接,从而即使计算机系统的主要部分处于低功率状态中,也允许诸如程序内容、系统状态和事件通知等数据被提供给用户。辅助子系统499可连接至调制解调器472和/或网络接口470,从而在主处理单元420处于低功率状态中时,也允许在这些系统之间进行通信。
结语
尽管本发明易于作出各种修改和替换构造,但其某些说明性实施例在附图中示出并在上面被详细地描述。然而应当了解,这不旨在将本发明限于所公开的具体形式,而是相反地,旨在覆盖落入本发明的精神和范围之内的所有修改、替换构造和等效方案。

Claims (15)

1.一种在计算环境中的系统,包括:传感器组,所述传感器组包括至少一个传感器;识别机构,所述识别机构基于从所述传感器接收的信息获得和输出与所识别的实体相关联的识别元数据;以及把对应于所述元数据的信息与示出所述实体的视频输出相关联的机构。
2.如权利要求1所述的系统,其特征在于,所述传感器组包括还提供所述视频输出的摄像机。
3.如权利要求1所述的系统,其特征在于,所述识别机构执行面部识别,并且其中所述识别机构耦合到数据存储,所述数据存储包含与面部相关的数据以及与面部相关的每个数据组的元数据,并且其中所述识别机构从所述传感器组获得面部的图像,并且在所述数据存储中搜索与面部相关的匹配数据组以获得所述元数据。
4.如权利要求1所述的系统,其特征在于,所述识别机构从信息提供者接收缩小信息,并且基于所述缩小信息来缩小对所述数据存储的搜索。
5.如权利要求1所述的系统,其特征在于,将对应于所述元数据的信息与所述视频输出相关联的机构用所述实体的名称来标记所述视频输出。
6.如权利要求1所述的系统,其特征在于,所述传感器组包括相机、话筒、RFID阅读器或徽章阅读器、或者相机、话筒、RFID阅读器或徽章阅读器的任何组合。
7.如权利要求1所述的系统,其特征在于,所述识别机构与web服务通信以获得所述元数据。
8.一种在计算环境中的方法,包括:
接收表示人或物体的数据;
将所述数据与元数据进行匹配;以及
当所述实体当前在视频会话期间被示出时将对应于所述元数据的信息插入到所述视频会话中。
9.如权利要求8所述的方法,其特征在于,接收表示所述人或物体的数据包括:接收图像,并且其中将所述数据与元数据进行匹配包括:在数据存储中搜索匹配的图像。
10.如权利要求8所述的方法,其特征在于,还包括:接收缩小信息,并且其中将所述数据与元数据进行匹配包括:制定至少部分基于所述缩小信息的查询。
11.如权利要求8所述的方法,其特征在于,接收所述数据包括:接收面部的图像,并且其中将所述数据与元数据进行匹配包括:执行面部识别。
12.如权利要求8所述的方法,其特征在于,插入对应于所述元数据的信息包括:用文本覆盖所述视频会话;或者用名称来标记所述实体;或者用文本覆盖所述视频会话和用名称来标记所述实体两者。
13.一个或多个具有计算机可执行指令的计算机可读介质,所述计算机可执行指令在被执行时执行以下步骤,包括:
捕捉在视频会话内被示出的面部的图像;
执行面部识别以获得与所识别的面部相关联的元数据;以及
基于所述元数据来标记所述视频会话,以便在所识别的面部在所述视频会话期间被示出时标识出与所识别的面部相对应的人。
14.如权利要求13所述的一个或多个计算机可读介质,其特征在于,还具有如下的计算机可执行指令,所述指令包括:使用缩小信息来帮助减小在执行面部识别时被搜索的候选面部的数目,其中所述缩小信息基于日历数据、所感测的数据、登记数据、预测数据或模式数据、或者日历数据、所感测的数据、登记数据、预测数据或模式数据的任何组合。
15.如权利要求13所述的一个或多个计算机可读介质,其特征在于,还具有如下的计算机可执行指令,所述指令包括:确定在第一面部识别尝试期间未找到合适的匹配;以及在第二面部识别尝试中扩展搜索范围。
CN2010800476022A 2009-10-23 2010-10-12 视频会话的自动标记 Pending CN102598055A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/604,415 US20110096135A1 (en) 2009-10-23 2009-10-23 Automatic labeling of a video session
US12/604,415 2009-10-23
PCT/US2010/052306 WO2011049783A2 (en) 2009-10-23 2010-10-12 Automatic labeling of a video session

Publications (1)

Publication Number Publication Date
CN102598055A true CN102598055A (zh) 2012-07-18

Family

ID=43898078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010800476022A Pending CN102598055A (zh) 2009-10-23 2010-10-12 视频会话的自动标记

Country Status (6)

Country Link
US (1) US20110096135A1 (zh)
EP (1) EP2491533A4 (zh)
JP (1) JP5739895B2 (zh)
KR (1) KR20120102043A (zh)
CN (1) CN102598055A (zh)
WO (1) WO2011049783A2 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976828A (zh) * 2016-04-19 2016-09-28 乐视控股(北京)有限公司 一种声音区分方法和终端
CN107317817A (zh) * 2017-07-05 2017-11-03 广州华多网络科技有限公司 生成索引文件的方法、标识用户发言状态的方法和终端
CN108882033A (zh) * 2018-07-19 2018-11-23 北京影谱科技股份有限公司 一种基于视频语音的人物识别方法、装置、设备和介质
CN109034040A (zh) * 2018-07-19 2018-12-18 北京影谱科技股份有限公司 一种基于演员表的人物识别方法、装置、设备和介质
CN112218112A (zh) * 2015-06-16 2021-01-12 微软技术许可有限责任公司 媒体捕获事件中的实体的自动识别
CN112272828A (zh) * 2018-06-08 2021-01-26 微软技术许可有限责任公司 模糊与个人可识别信息(pii)有关的信息
CN114443190A (zh) * 2020-10-18 2022-05-06 国际商业机器公司 从远程引导的增强现实会话自动生成自引导的增强现实会话计划

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8630854B2 (en) 2010-08-31 2014-01-14 Fujitsu Limited System and method for generating videoconference transcriptions
US8791977B2 (en) * 2010-10-05 2014-07-29 Fujitsu Limited Method and system for presenting metadata during a videoconference
US9277248B1 (en) * 2011-01-26 2016-03-01 Amdocs Software Systems Limited System, method, and computer program for receiving device instructions from one user to be overlaid on an image or video of the device for another user
US20130083151A1 (en) * 2011-09-30 2013-04-04 Lg Electronics Inc. Electronic device and method for controlling electronic device
JP2013161205A (ja) * 2012-02-03 2013-08-19 Sony Corp 情報処理装置、情報処理方法、及びプログラム
US20130215214A1 (en) * 2012-02-22 2013-08-22 Avaya Inc. System and method for managing avatarsaddressing a remote participant in a video conference
US9966075B2 (en) * 2012-09-18 2018-05-08 Qualcomm Incorporated Leveraging head mounted displays to enable person-to-person interactions
US20140125456A1 (en) * 2012-11-08 2014-05-08 Honeywell International Inc. Providing an identity
US9256860B2 (en) 2012-12-07 2016-02-09 International Business Machines Corporation Tracking participation in a shared media session
US9124765B2 (en) * 2012-12-27 2015-09-01 Futurewei Technologies, Inc. Method and apparatus for performing a video conference
KR20150087034A (ko) 2014-01-21 2015-07-29 한국전자통신연구원 객체-콘텐츠 부가정보 상관관계를 이용한 객체 인식장치 및 그 방법
US10014008B2 (en) 2014-03-03 2018-07-03 Samsung Electronics Co., Ltd. Contents analysis method and device
US10079861B1 (en) 2014-12-08 2018-09-18 Conviva Inc. Custom traffic tagging on the control plane backend
US10320861B2 (en) * 2015-09-30 2019-06-11 Google Llc System and method for automatic meeting note creation and sharing using a user's context and physical proximity
WO2017066736A1 (en) * 2015-10-16 2017-04-20 Tribune Broadcasting Company, Llc Media-production system with social media content interface feature
US10289966B2 (en) * 2016-03-01 2019-05-14 Fmr Llc Dynamic seating and workspace planning
JP6161224B1 (ja) * 2016-12-28 2017-07-12 アンバス株式会社 人物情報表示装置、人物情報表示方法及び人物情報表示プログラム
US10671852B1 (en) 2017-03-01 2020-06-02 Matroid, Inc. Machine learning in video classification
KR101996371B1 (ko) * 2018-02-22 2019-07-03 주식회사 인공지능연구원 영상 캡션 생성 시스템과 방법 및 이를 위한 컴퓨터 프로그램
US10810457B2 (en) * 2018-05-09 2020-10-20 Fuji Xerox Co., Ltd. System for searching documents and people based on detecting documents and people around a table
US10999640B2 (en) 2018-11-29 2021-05-04 International Business Machines Corporation Automatic embedding of information associated with video content
US11356488B2 (en) 2019-04-24 2022-06-07 Cisco Technology, Inc. Frame synchronous rendering of remote participant identities
CN111522967B (zh) * 2020-04-27 2023-09-15 北京百度网讯科技有限公司 知识图谱构建方法、装置、设备以及存储介质
CN111930235A (zh) * 2020-08-10 2020-11-13 南京爱奇艺智能科技有限公司 基于vr设备的展示方法、装置以及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006344236A (ja) * 2006-08-04 2006-12-21 Nec Corp 顔メタデータ生成方法および装置、並びに顔認識方法およびシステム
US20070188596A1 (en) * 2006-01-24 2007-08-16 Kenoyer Michael L Sharing Participant Information in a Videoconference
KR20090073294A (ko) * 2007-12-31 2009-07-03 인하대학교 산학협력단 얼굴인식을 통한 영상에서의 사람 상호관계 추론 방법
US7564994B1 (en) * 2004-01-22 2009-07-21 Fotonation Vision Limited Classification system for consumer digital images using automatic workflow and face detection and recognition
CN101502088A (zh) * 2006-10-11 2009-08-05 思科技术公司 基于对会议参与者的脸部识别的交互
CN101540873A (zh) * 2009-05-07 2009-09-23 深圳华为通信技术有限公司 一种在视讯会议中提示发言人信息的方法、装置及系统

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6894714B2 (en) * 2000-12-05 2005-05-17 Koninklijke Philips Electronics N.V. Method and apparatus for predicting events in video conferencing and other applications
US7203692B2 (en) * 2001-07-16 2007-04-10 Sony Corporation Transcoding between content data and description data
US20030154084A1 (en) * 2002-02-14 2003-08-14 Koninklijke Philips Electronics N.V. Method and system for person identification using video-speech matching
JP4055539B2 (ja) * 2002-10-04 2008-03-05 ソニー株式会社 双方向コミュニケーションシステム
US7274822B2 (en) * 2003-06-30 2007-09-25 Microsoft Corporation Face annotation for photo management
US7164410B2 (en) * 2003-07-28 2007-01-16 Sig G. Kupka Manipulating an on-screen object using zones surrounding the object
JP4569471B2 (ja) * 2003-09-26 2010-10-27 株式会社ニコン 電子画像蓄積方法、電子画像蓄積装置、及び電子画像蓄積システム
JP2007067972A (ja) * 2005-08-31 2007-03-15 Canon Inc 会議システム及び会議システムの制御方法
US8125509B2 (en) * 2006-01-24 2012-02-28 Lifesize Communications, Inc. Facial recognition for a videoconference
JP2007272810A (ja) * 2006-03-31 2007-10-18 Toshiba Corp 人物認識システム、通行制御システム、人物認識システムの監視方法、および、通行制御システムの監視方法
WO2007132395A1 (en) * 2006-05-09 2007-11-22 Koninklijke Philips Electronics N.V. A device and a method for annotating content
US20080043144A1 (en) * 2006-08-21 2008-02-21 International Business Machines Corporation Multimodal identification and tracking of speakers in video
JP4914778B2 (ja) * 2006-09-14 2012-04-11 オリンパスイメージング株式会社 カメラ
US8253770B2 (en) * 2007-05-31 2012-08-28 Eastman Kodak Company Residential video communication system
JP4835545B2 (ja) * 2007-08-24 2011-12-14 ソニー株式会社 画像再生装置、撮像装置、および画像再生方法、並びにコンピュータ・プログラム
JP5459527B2 (ja) * 2007-10-29 2014-04-02 株式会社Jvcケンウッド 画像処理装置およびその方法
US8144939B2 (en) * 2007-11-08 2012-03-27 Sony Ericsson Mobile Communications Ab Automatic identifying
US20090210491A1 (en) * 2008-02-20 2009-08-20 Microsoft Corporation Techniques to automatically identify participants for a multimedia conference event
US20090232417A1 (en) * 2008-03-14 2009-09-17 Sony Ericsson Mobile Communications Ab Method and Apparatus of Annotating Digital Images with Data
US20090319388A1 (en) * 2008-06-20 2009-12-24 Jian Yuan Image Capture for Purchases
US20100085415A1 (en) * 2008-10-02 2010-04-08 Polycom, Inc Displaying dynamic caller identity during point-to-point and multipoint audio/videoconference
NO331287B1 (no) * 2008-12-15 2011-11-14 Cisco Systems Int Sarl Fremgangsmate og anordning for gjenkjenning av ansikter i en videostrom

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7564994B1 (en) * 2004-01-22 2009-07-21 Fotonation Vision Limited Classification system for consumer digital images using automatic workflow and face detection and recognition
US20070188596A1 (en) * 2006-01-24 2007-08-16 Kenoyer Michael L Sharing Participant Information in a Videoconference
JP2006344236A (ja) * 2006-08-04 2006-12-21 Nec Corp 顔メタデータ生成方法および装置、並びに顔認識方法およびシステム
CN101502088A (zh) * 2006-10-11 2009-08-05 思科技术公司 基于对会议参与者的脸部识别的交互
KR20090073294A (ko) * 2007-12-31 2009-07-03 인하대학교 산학협력단 얼굴인식을 통한 영상에서의 사람 상호관계 추론 방법
CN101540873A (zh) * 2009-05-07 2009-09-23 深圳华为通信技术有限公司 一种在视讯会议中提示发言人信息的方法、装置及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAOMING LIU ET AL.: "《Video-based face recognition using adaptive hidden Markov models》", 《PROCEEDINGS OF THE 2003 IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, vol. 1, 20 June 2003 (2003-06-20), pages 340 - 345 *
刘伟节等: "《一种改进的基于人脸特征的人脸检测方法》", 《计算机工程与应用》, no. 12, 31 December 2006 (2006-12-31), pages 50 - 52 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112218112A (zh) * 2015-06-16 2021-01-12 微软技术许可有限责任公司 媒体捕获事件中的实体的自动识别
CN112218112B (zh) * 2015-06-16 2022-06-17 微软技术许可有限责任公司 媒体捕获事件中的实体的自动识别
CN105976828A (zh) * 2016-04-19 2016-09-28 乐视控股(北京)有限公司 一种声音区分方法和终端
CN107317817A (zh) * 2017-07-05 2017-11-03 广州华多网络科技有限公司 生成索引文件的方法、标识用户发言状态的方法和终端
CN107317817B (zh) * 2017-07-05 2021-03-16 广州华多网络科技有限公司 生成索引文件的方法、标识用户发言状态的方法和终端
CN112272828A (zh) * 2018-06-08 2021-01-26 微软技术许可有限责任公司 模糊与个人可识别信息(pii)有关的信息
CN108882033A (zh) * 2018-07-19 2018-11-23 北京影谱科技股份有限公司 一种基于视频语音的人物识别方法、装置、设备和介质
CN109034040A (zh) * 2018-07-19 2018-12-18 北京影谱科技股份有限公司 一种基于演员表的人物识别方法、装置、设备和介质
CN108882033B (zh) * 2018-07-19 2021-12-14 上海影谱科技有限公司 一种基于视频语音的人物识别方法、装置、设备和介质
CN114443190A (zh) * 2020-10-18 2022-05-06 国际商业机器公司 从远程引导的增强现实会话自动生成自引导的增强现实会话计划

Also Published As

Publication number Publication date
US20110096135A1 (en) 2011-04-28
KR20120102043A (ko) 2012-09-17
EP2491533A4 (en) 2015-10-21
JP5739895B2 (ja) 2015-06-24
JP2013509094A (ja) 2013-03-07
EP2491533A2 (en) 2012-08-29
WO2011049783A2 (en) 2011-04-28
WO2011049783A3 (en) 2011-08-18

Similar Documents

Publication Publication Date Title
CN102598055A (zh) 视频会话的自动标记
US7991778B2 (en) Triggering actions with captured input in a mixed media environment
US7672543B2 (en) Triggering applications based on a captured text in a mixed media environment
US7920759B2 (en) Triggering applications for distributed action execution and use of mixed media recognition as a control input
KR100980748B1 (ko) 혼합 미디어 환경을 생성 및 사용하는 시스템 및 방법
CN104239408B (zh) 基于由移动设备记录的图像的内容的数据访问
CN101641948B (zh) 具有集成照片管理系统的移动设备
US20120086792A1 (en) Image identification and sharing on mobile devices
CN102542249A (zh) 视频内容中的脸部识别
US9479914B2 (en) Intuitive computing methods and systems
JP2009526302A (ja) デジタルデータに対するタグ付け方法及びシステム
US11880410B2 (en) Systems and methods for proactive information discovery with multiple senses
EP2079186A2 (en) Competition cheat-preventing system and method
EP2482210A2 (en) System and methods for creation and use of a mixed media environment
CN102822813A (zh) 基于辅助体验的配对
US20160034496A1 (en) System And Method For Accessing Electronic Data Via An Image Search Engine
US20070158403A1 (en) Business card information exchange device and method
US7286722B2 (en) Memo image managing apparatus, memo image managing system and memo image managing method
JP2006259893A (ja) 物体認識システム,コンピュータプログラム,および端末装置
JP2010218227A (ja) 電子アルバム作成装置、方法、プログラム、システム、サーバー、情報処理装置、端末装置、及び撮像装置
KR101174119B1 (ko) 광고 시스템 및 광고 제공 방법
US7738741B2 (en) Method and apparatus for RFID mapping to a digital camera and digital picture delivery system
KR20120109265A (ko) 방송연계 큐알코드를 이용한 식품정보 제공시스템 및 제공방법
KR100764089B1 (ko) Rfid/usn 기반의 쌍방향 정보교환이 가능한 태그리사이클링 시스템 및 그 방법
US8819534B2 (en) Information processing system and information processing method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1171280

Country of ref document: HK

ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150729

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150729

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120718