CN101952852A - 用于自动标识多媒体会议事件的参与者的技术 - Google Patents

用于自动标识多媒体会议事件的参与者的技术 Download PDF

Info

Publication number
CN101952852A
CN101952852A CN2009801060153A CN200980106015A CN101952852A CN 101952852 A CN101952852 A CN 101952852A CN 2009801060153 A CN2009801060153 A CN 2009801060153A CN 200980106015 A CN200980106015 A CN 200980106015A CN 101952852 A CN101952852 A CN 101952852A
Authority
CN
China
Prior art keywords
participant
input medium
media
medium stream
meeting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009801060153A
Other languages
English (en)
Inventor
P·塔尔卡
Q·霍金斯
K·沙尔马
A·巴塔查杰
R·G·柯特勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN101952852A publication Critical patent/CN101952852A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1822Conducting the conference, e.g. admission, detection, selection or grouping of participants, correlating users to one or more conference sessions, prioritising transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1827Network arrangements for conference optimisation or adaptation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/10Multimedia information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/06Selective distribution of broadcast services, e.g. multimedia broadcast multicast service [MBMS]; Services to user groups; One-way selective calling services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

描述了用于自动标识多媒体会议事件的参与者的技术。一种装置可包括可用于接收多媒体会议事件的会议受邀者列表的基于内容的注释组件。该基于内容的注释组件可从多个会议控制台接收多个输入媒体流。该基于内容的注释组件可以用关于每一个输入媒体流中的每一个参与者的标识信息来注释每一个输入媒体流的媒体帧,以形成对应的带注释媒体流。对其它实施例也予以描述并要求保护。

Description

用于自动标识多媒体会议事件的参与者的技术
背景
多媒体会议系统通常允许多个参与者通过网络在协作且实时的会议中进行通信并共享不同类型的媒体内容。该多媒体会议系统可使用各种图形用户界面(GUI)窗口或视图来显示不同类型的媒体内容。例如,一个GUI视图可能包括参与者的视频图像,另一GUI视图可能包括演示幻灯片、又一GUI视图可能包括参与者之间的文本消息,等等。以此方式,各个地理位置完全不同的参与者可以在与其中所有参与者都在一个房间中的物理会议环境类似的虚拟会议环境中交互并传递信息。
然而,在虚拟会议环境中,可能难以标识会议的各个参与者。这个问题通常随着会议参与者数量的增加而增加,由此可能导致参与者之间的混淆和不便。涉及改进虚拟会议环境中的标识技术的技术可改善用户体验和便利性。
概述
各实施例一般可涉及多媒体会议系统。某些实施例尤其可涉及用于自动标识多媒体会议事件的参与者的技术。多媒体会议事件可包括多个参与者,这些参与者中的某一些可聚集在会议室中,而其他参与者可以从远程位置参与多媒体会议事件。
例如,在一个实施例中,一种装置可包括可用于接收多媒体会议事件的会议受邀者列表的基于内容的注释组件。该基于内容的注释组件可从多个会议控制台接收多个输入媒体流。该基于内容的注释组件可以用关于每一个输入媒体流中的每一个参与者的标识信息来注释每一个输入媒体流的媒体帧,以形成对应的带注释媒体流。对其它实施例也予以描述并要求保护。
提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于限定所要求保护的主题的范围。
附图简述
图1示出了多媒体会议系统的一实施例。
图2示出了基于内容的注释组件的一实施例。
图3示出了多媒体会议服务器的一实施例。
图4示出了逻辑流程的一实施例。
图5示出了计算体系结构的一实施例。
图6示出了制品的一实施例。
详细描述
各实施例包括被安排成执行特定操作、功能或服务的物理或逻辑结构。这些结构可包括物理结构、逻辑结构或两者的组合。物理或逻辑结构可以使用硬件元素、软件元素或两者的组合来实现。然而,参考特定硬件或软件元素的对各实施例的描述旨在作为示例而非限制。使用硬件还是软件元素来实际地实施一实施例的决定取决于多个外部因素,诸如所需计算速率、功率电平、热容忍度、处理周期预算、输入数据率、输出数据率、存储器资源、数据总线速度、以及其他设计或性能约束。此外,物理或逻辑结构可具有对应的物理或逻辑连接以便在这些结构之间以电子信号或消息的形式传递信息。连接可包括如适于信息或特定结构的有线和/或无线连接。值得注意的是,任何对“一个实施例”或“一实施例”的引用都意味着结合该实施例所描述的特定的特征、结构、或特性被包括在至少一个实施例中。出现在说明书中各个地方的短语“在一实施例中”不必全都指的是同一实施例。
各实施例一般涉及被安排成通过网络向多个参与者提供会议和协作服务的多媒体会议系统。某些多媒体会议系统可被设计成用诸如因特网或万维网(“web”)等各种基于分组的网络操作以提供基于web的会议服务。这些实现有时被称为web会议系统。web会议系统的示例可包括由美国华盛顿州雷蒙德市的微软公司制作的
Figure BPA00001206683900021
OFFICE LIVE MEETING。其他多媒体会议系统可被设计成针对专用网络、公司、组织、或企业操作,并且可利用多媒体会议服务器,诸如由美国华盛顿州雷蒙德市的微软公司制作的MICROSOFT OFFICE COMMUNICATIONS SERVER。然而,可以理解,这些实现不限于这些示例。
多媒体会议系统可包括被安排成提供web会议服务的多媒体会议服务器或其他处理设备以及其他网络元件。例如,多媒体会议服务器可包括可用于控制和混合诸如web会议等会议和协作事件的不同类型的多媒体内容的服务器会议组件以及其他服务器元件。会议和协作事件可以指在实时或实况在线环境中提供各种类型的多媒体信息的任何多媒体会议事件,并且在此处有时被简称为“会议事件”、“多媒体事件”或“多媒体会议事件”。
在一个实施例中,多媒体会议系统还可包括被实现为会议控制台的一个或多个计算设备。每一个会议控制台都可被安排成通过连接到多媒体会议服务器来参与多媒体事件。来自各个会议控制台的不同类型的媒体信息可由多媒体会议服务器在多媒体事件期间接收,该服务器进而将媒体信息分发给参与多媒体事件的其他会议控制台中的部分或全部。由此,任何给定会议控制台可具有拥有不同类型媒体内容的多个媒体内容视图的显示器。以此方式,各个地理位置完全不同的参与者可以在与其中所有参与者都在一个房间中的物理会议环境类似的虚拟会议环境中交互并传递信息。
在虚拟会议环境中,可能难以标识会议的各个参与者。多媒体会议中的参与者通常在具有参与者名单的GUI视图中列出。该参与者名单可具有关于每一个参与者的某些标识信息,包括姓名、位置、图像、标题等。然而,参与者名单中的参与者和标识信息通常从用于加入多媒体会议事件的会议控制台导出。例如,参与者通常使用会议控制台来加入多媒体会议事件的虚拟会议室。在加入之前,参与者提供各种类型的标识信息以执行与多媒体会议服务器的认证操作。一旦多媒体会议服务器认证了参与者,该参与者就被允许访问虚拟会议室,并且多媒体会议服务器将标识信息添加到参与者名单。然而,在某些情况下,多个参与者可聚集在会议室中并共享耦合到本地会议控制台的各种类型的多媒体设备以便与具有远程会议控制台的其他参与者进行通信。因为存在单个本地会议控制台,所以会议室中的单个参与者通常使用本地会议控制台来代表该会议室中的所有参与者加入多媒体会议事件。在许多情况下,使用本地会议控制台的参与者可以不必向本地会议控制台注册。因此,多媒体会议服务器可能不具有关于会议室中的任何参与者的任何标识信息,并因此无法更新参与者名单。
该会议室情形造成关于标识参与者的其他问题。参与者名单和关于每一个参与者的对应标识信息通常在与具有多媒体内容的其他GUI视图分开的GUI视图中示出。在来自参与者名单的参与者和流传输视频内容中的参与者的图像之间不存在直接映射。因此,当会议室的视频内容包含该会议室中多个参与者的图像时,变得难以将参与者和标识信息映射到视频内容中的参与者。
为了解决这些和其他问题,某些实施例涉及用于自动标识多媒体会议事件的参与者的技术。更具体而言,某些实施例涉及用于自动标识从会议室记录的视频内容中的多个参与者的技术。例如,在一个实施例中,诸如多媒体会议服务器等装置可包括可用于接收多媒体会议事件的会议受邀者列表的基于内容的注释组件。该基于内容的注释组件可从多个会议控制台接收多个输入媒体流,这些输入媒体流中的一个可源自会议室中的本地会议控制台。该基于内容的注释组件可以用关于每一个输入媒体流中的每一个参与者的标识信息来注释每一个输入媒体流的媒体帧,以形成对应的带注释媒体流。该基于内容的注释组件可以靠近视频内容中的参与者注释、定位或定点标识信息,并随着参与者在视频内容中移动而移动标识信息。以此方式,该自动标识技术可允许多媒体会议事件的参与者更容易地在虚拟会议室中相互标识。结果,该自动标识技术可提高操作员、设备或网络的可承受性、可伸缩性、模块性、可扩展性或可互操作性。
图1示出了多媒体会议系统100的框图。多媒体会议系统100可以表示适用于实现各实施例的通用系统体系结构。多媒体会议系统100可以包括多个元素。元素可以包括被安排成执行特定操作的任何物理或逻辑结构。视给定的一组设计参数或性能约束的需要,每一元素可被实现为硬件、软件、或其任意组合。硬件元素的示例可以包括设备、组件、处理器、微处理器、电路、电路元件(例如,晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(ASIC)、可编程逻辑器件(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、存储器单元、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等。软件的示例可以包括任何软件组件、程序、应用软件、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、接口、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、文字、值、符号、或其任意组合。虽然图1中示出的多媒体会议系统100在特定拓扑结构中具有有限数量的元素,但可以理解多媒体会议系统100视给定实现所需在另选拓扑结构中可以包括更多或更少元素。各实施例在此上下文中不受限制。
在各实施例中,多媒体会议系统100可包括有线通信系统、无线通信系统或两者的组合,或者构成其一部分。例如,多媒体会议系统100可包括被安排成通过一种或多种类型的有线通信链路来传递信息的一个或多个元件。有线通信链路的示例可包括但不限于导线、电缆、总线、印刷电路板(PCB)、以太网连接、对等(P2P)连接、背板、交换光纤、半导体材料、双绞线、同轴电缆、光纤连接等。多媒体会议系统100还可包括被安排成通过一种或多种类型的无线通信链路来传递信息的一个或多个元件。无线通信链路的示例可包括但不限于无线电频道、红外频道、射频(RF)频道、无线保真(WiFi)频道、RF频谱的一部分、和/或一个或多个有许可证或无许可证的频带。
在各实施例中,多媒体会议系统100可被安排成传递、管理或处理不同类型的信息,诸如媒体信息和控制信息。媒体信息的示例一般可包括表示对用户有意义的内容的任何数据,如语音信息、视频信息、音频信息、图像信息、文本信息、数字信息、应用程序信息、字母数字符号、图形等。媒体信息有时也可被称为“媒体内容”。控制信息可以指的是表示对自动化系统有意义的命令、指令或控制字的任何数据。例如,控制信息可被用来将媒体信息路由通过一系统、在设备之间建立连接、指示设备以预定方式处理该媒体信息等。
在各实施例中,多媒体会议系统100可包括多媒体会议服务器130。该多媒体会议服务器130可包括被安排成通过网络120建立、管理或控制会议控制台110-1-m之间的多媒体会议呼叫的任何逻辑或物理实体。网络120可包括例如分组交换网络、电路交换网络或两者的组合。在各实施例中,多媒体会议服务器130可包括或被实现为任何处理或计算设备,诸如计算机、服务器、服务器阵列或服务器场、工作站、小型计算机、大型计算机、超级计算机等。多媒体会议服务器130可包括或实现适用于传递和处理多媒体信息的通用或专用计算体系结构。例如,在一个实施例中,多媒体会议服务器130可使用如参考图5描述的计算体系结构来实现。多媒体会议服务器130的示例可包括但不限于MICROSOFT OFFICE COMMUNICATIONS SERVER、MICROSOFTOFFICE LIVE MEETING服务器。
多媒体会议服务器130的特定实现可取决于将对多媒体会议服务器130使用的一组通信协议或标准而变化。在一个示例中,多媒体会议服务器130可根据因特网工程任务组(IETF)、多方多媒体会话控制(MMUSIC)工作组、会话发起协议(SIP)系列的标准和/或变体来实现。SIP是用于发起、修改、并终止交互式用户会话的建议标准,交互式用户会话涉及诸如视频、语音、即时消息通信、在线游戏和虚拟现实等多媒体元素。在另一示例中,多媒体会议服务器130可根据国际电信联盟(ITU)H.323系列的标准和/或变体来实现。该H.323标准定义用于协调会议呼叫操作的多点控制单元(MCU)。具体而言,MCU包括处理H.245信令的多点控制器(MC)以及用于混合并处理数据流的一个或多个多点处理器(MP)。SIP和H.323标准两者本质上都是用于网际协议语音(VoIP)或分组语音(VOP)多媒体会议呼叫操作的信令协议。然而,可以理解,可实现用于多媒体会议服务器130的其他信令协议并且仍然落在各实施例的范围内。
在通用操作中,多媒体会议系统100可用于多媒体会议呼叫。多媒体会议呼叫通常涉及在多个端点之间传递语音、视频和/或数据信息。例如,公共或专用分组网络120可用于音频会议呼叫、视频会议呼叫、音频/视频会议呼叫、协作文档共享和编辑等。分组网络120还可经由被安排成在电路交换信息和分组信息之间进行转换的一个或多个合适的VoIP网关来连接到公共交换电话网络(PSTN)。
为了通过分组网络120建立多媒体会议呼叫,每一个会议控制台110-1-m可使用诸如例如低带宽PSTN电话连接、中带宽DSL调制解调器连接或电缆调制解调器连接、以及局域网(LAN)上的高带宽内联网连接等以不同的连接速度或带宽操作的各种类型的有线或无线通信链路来经由分组网络120连接到多媒体会议服务器130。
在各实施例中,多媒体会议服务器1130可建立、管理和控制会议控制台110-1-m之间的多媒体会议呼叫。在某些实施例中,多媒体会议呼叫可包括使用提供全协作能力的web会议应用程序的实况基于web的会议呼叫。多媒体会议服务器130用作控制和分发会议中的媒体信息的中央服务器。它从各个会议控制台110-1-m接收媒体信息,执行对多种类型的媒体信息的混合操作,并将媒体信息转发给其他参与者中的部分或全部。会议控制台110-1-m中的一个或多个可通过连接到多媒体会议服务器130来加入会议。多媒体会议服务器130可实现用于以安全且受控的方式认证并添加会议控制台110-1-m的各种准入控制技术。
在各实施例中,多媒体会议系统100可包括被实现为会议控制台110-1-m的一个或多个计算设备,这些会议控制台经由网络120通过一个或多个通信连接连接到多媒体会议服务器130。例如,计算设备可实现可同时主存各自表示单独会议的多个会议控制台的客户机应用程序。类似地,客户机应用程序可接收多个音频、视频和数据流。例如,来自参与者中的全部或子集的视频流可作为马赛克显示在参与者的显示器上,且顶部窗口具有当前活跃说话者的视频而其他参与者的全景视图在其他窗口中。
会议控制台110-1-m可包括被安排成参与或参加由多媒体会议服务器130管理的多媒体会议呼叫的任何逻辑或物理实体。会议控制台110-1-m可被实现为任何设备,该设备在其最基本的形式中包括包含处理器和存储器的处理系统、一个或多个多媒体输入/输出(I/O)组件以及无线和/或有线网络连接。多媒体I/O组件的示例可包括音频I/O组件(例如,话筒、扬声器)、视频I/O组件(例如,摄像机、显示器)、触觉(I/O)组件(例如,振动器)、用户数据(I/O)组件(例如,键盘、拇指板、键区、触摸屏)等等。会议控制台110-1-m的示例可包括电话、VoIP或VOP电话、被设计成在PSTN上操作的分组电话、因特网电话、视频电话、蜂窝电话、个人数字助理(PDA)、组合蜂窝电话和PDA、移动计算设备、智能电话、单向寻呼机、双向寻呼机、消息收发设备、计算机、个人计算机(PC)、台式计算机、膝上型计算机、笔记本计算机、手持式计算机、网络设备等。在某些实现中,会议控制台110-1-m可使用与参考图5描述的计算体系结构类似的通用或专用计算体系结构来实现。
会议控制台110-1-m可包括或实现各个客户机会议组件112-1-n。客户机会议组件112-1-n可被设计成与多媒体会议服务器130中的服务器会议组件132互操作以建立、管理或控制多媒体会议事件。例如,客户机会议组件112-1-n可包括或实现适当的应用程序和用户界面控件以允许各个会议控制台110-1-m参与由多媒体会议服务器130推动的web会议。这可包括用于捕捉由会议控制台110-1-m的操作员提供的媒体信息的输入装置(例如,摄像机、话筒、键盘、鼠标、控制器等),以及用于再现由其他会议控制台110-1-m的操作员提供的媒体信息的输出装置(例如,显示器、扬声器等)。客户机会议组件112-1-n的示例可包括但不限于MICROSOFT OFFICE COMMUNICATOR或MICROSOFT OFFICE LIVE MEETING基于Windows的会议控制台等。
如图1所示的实施例所示,多媒体会议系统100可包括会议室150。企业或公司通常利用会议室来举行会议。这些会议包括多媒体会议事件,该多媒体会议事件具有位于会议室150内部的参与者以及位于会议室150外部的远程参与者。会议室150可具有可用于支持多媒体会议事件并在一个或多个远程会议控制台110-2-m和本地会议控制台110-1之间提供多媒体信息的各种计算和通信资源。例如,会议室150可包括位于会议室150内部的本地会议控制台110-1。
本地会议控制台110-1可以连接到能够捕捉、传递或再现多媒体信息的各种多媒体输入设备和/或多媒体输出设备。多媒体输入设备可包括被安排成从会议室150中的操作员捕捉或接收多媒体信息作为输入的任何逻辑或物理设备,包括音频输入设备、视频输入设备、图像输入设备、文本输入设备、以及其他多媒体输入装置。多媒体输入设备的示例可包括但不限于摄像机、话筒、话筒阵列、会议电话、白板、交互式白板、语音-文本组件、文本-语音组件、语音识别系统、定点设备、键盘、触摸屏、图形输入板计算机、手写识别设备等。摄像机的示例可包括全景相机(ringcam),诸如由美国华盛顿州雷蒙德市的微软公司制作的MICROSOFT ROUNDTABLE。MICROSOFTROUNDTABLE是具有向远程会议参与者提供坐在会议桌周围的每一个人的全景视频的360度相机的视频会议设备。多媒体输出设备可包括被安排成再现或显示来自远程会议控制台110-2-m的操作员的多媒体信息作为输出的任何逻辑或物理设备,包括音频输出设备、视频输出设备、图像输出设备、文本输出设备、以及其他多媒体输出装置。多媒体输出设备的示例可包括但不限于电子显示器、视频投影仪、扬声器、振动单元、打印机、传真机等。
会议室150中的本地会议控制台110-1可包括被安排成从包括参与者154-1-p的会议室150捕捉媒体内容并将该媒体内容流传送到多媒体会议服务器130的各种多媒体输入设备。在图1所示的实施例中,本地会议控制台110-1包括摄像机106和话筒阵列104-1-r。摄像机106可捕捉包括出现在会议室150中的参与者154-1-p的视频内容的视频内容,并经由本地会议控制台110-1将这些视频内容流传送到多媒体会议服务器130。类似地,话筒阵列104-1-r可捕捉包括来自出现在会议室150中的参与者154-1-p的音频内容的音频内容,并经由本地会议控制台110-1将这些音频内容流传送到多媒体会议服务器130。本地会议控制台还可包括诸如显示器或视频投影仪等各种媒体输出设备,用于示出具有经由多媒体会议服务器130接收到的来自使用远程会议控制台110-2-m的其他参与者的视频内容或音频内容的一个或多个GUI视图。
会议控制台110-1-m和多媒体会议服务器130可利用为给定多媒体会议事件建立的各种媒体连接来传递媒体信息和控制信息。媒体连接可使用诸如SIP系列协议等各种VoIP信令协议来建立。SIP系列协议是用于创建、修改和终止与一个或多个参与者的会话的应用层控制(信令)协议。这些会话包括因特网多媒体会议、因特网电话呼叫以及多媒体分发。会话中的成员可经由多播或经由单播关系的网格或其组合来进行通信。SIP被设计为总IETF多媒体数据和控制体系结构的一部分,该体系结构当前结合诸如用于保留网络资源的资源保留协议(RSVP)(IEEE RFC 2205)、用于传输实时数据并提供服务质量(QOS)反馈的实时传输协议(RTP)(IEEE RFC 1889)、用于控制流传输媒体的传递的实时流传输协议(RTSP)(IEEE RFC 2326)、用于经由多播广告多媒体会话的会话通告协议(SAP)、用于描述多媒体会话的会话描述协议(SDP)(IEEE RFC 2327)等协议。例如,会议控制台110-1-m可将SIP用作信令信道以设置媒体连接,并将RTP用作媒体信道以通过媒体连接传输媒体信息。
在通用操作中,可使用调度设备108来为多媒体会议系统100生成多媒体会议事件保留。该调度设备108可包括例如具有用于调度多媒体会议事件的适当硬件和软件的计算设备。例如,调度设备108可包括利用由美国华盛顿州雷蒙德市的微软公司制作的MICROSOFT OFFICE
Figure BPA00001206683900101
应用程序软件的计算机。MICROSOFT OFFICE OUTLOOK应用软件包括可用于调度多媒体会议事件的消息收发和协作客户机软件。操作员可使用MICROSOFTOFFICE OUTLOOK来将调度请求转换成要发送到会议受邀者列表的对MICROSOFT OFFICE LIVE MEETING事件。该调度请求可包括到多媒体会议事件的虚拟房间的超链接。受邀者可点击该超链接,并且会议控制台110-1-m启动web浏览器,连接到多媒体会议服务器130,并加入虚拟房间。一旦在那里,参与者就可呈现幻灯片演示,在内置白板以及其他工具上注释文档或进行集体讨论(brainstorm)。
操作员可使用调度设备108来为多媒体会议事件生成多媒体会议事件保留。该多媒体会议事件保留可包括多媒体会议事件的会议受邀者的列表。该会议受邀者列表可包括受邀参与多媒体会议事件的各个人的列表。在某些情况下,该会议受邀者列表只可包括获得参与多媒体事件的受邀并接受邀请的那些人。诸如Microsoft Outlook的邮件客户端等客户机应用程序将保留请求转发给多媒体会议服务器130。多媒体会议服务器130可接收多媒体会议事件保留,并且从诸如企业资源目录160等网络设备中检索会议受邀者的列表和会议受邀者的相关联信息。
企业资源目录160可包括发布操作员和/或网络资源的公共目录的网络设备。由企业资源目录160发布的网络资源的常见示例包括网络打印机。例如,在一个实施例中,企业资源目录160可被实现为MICROSOFT现用目
Figure BPA00001206683900102
现用目录是用于为网络计算机提供中央认证和授权服务的轻量级目录访问协议(LDAP)目录服务的一种实现。现用目录还允许管理员分配策略、部署软件并应用对组织的关键更新。现用目录将信息和设置存储在中央数据库中。现用目录网络可以在从具有几百个对象的小型安装到具有几百万个对象的大型安装的范围内变化。
在各实施例中,企业资源目录160可包括关于多媒体会议事件的各个会议受邀者的标识信息。该标识信息可包括能够唯一地标识每一个会议受邀者的任何类型的信息。例如,标识信息可包括但不限于姓名、位置、联系人信息、账号、职业信息、组织信息(例如,头衔)、个人信息、连接信息、到场信息、网络地址、媒体访问控制(MAC)地址、网际协议(IP)地址、电话号码、电子邮件地址、协议地址(例如,SIP地址)、设备标识符、硬件配置、软件配置、有线接口、无线接口、所支持的协议、以及其他所需信息。
多媒体会议服务器130可接收包括会议受邀者列表在内的多媒体会议事件保留,并从企业资源目录160中检索对应的标识信息。多媒体会议服务器130可使用该会议受邀者列表来帮助自动标识多媒体会议事件的参与者。
多媒体会议服务器130可实现用于自动标识多媒体会议事件的参与者的各种硬件和/或软件组件。更具体而言,多媒体会议服务器130可实现用于自动标识诸如会议室150中的参与者154-1-p等从会议室记录的视频内容中的多个参与者的技术。例如,在图1所示的实施例中,多媒体会议服务器130包括基于内容的媒体注释模块134。基于内容的注释组件134可被安排成从企业资源目录160接收多媒体会议事件的会议受邀者列表。基于内容的注释组件134还可从多个会议控制台110-1-m接收多个输入媒体流,这些输入媒体流中的一个可源自会议室150中的本地会议控制台110-1。基于内容的注释组件134可以用关于每一个输入媒体流中的每一个参与者的标识信息来注释每一个输入媒体流的一个或多个媒体帧,以形成对应的带注释媒体流。例如,基于内容的注释组件134可以用关于输入媒体流中的每一个参与者154-1-p的标识信息来注释从本地会议控制台110-1接收到的输入媒体流的一个或多个媒体帧,以形成对应的带注释媒体流。基于内容的注释组件134可以相对接近输入媒体流中的参与者154-1-p地注释、定位和定点标识信息,并随着参与者154-1-p在输入媒体流中移动而移动该标识信息。基于内容的注释组件134可参考图2来更详细地描述。
图2示出了基于内容的注释组件134的框图。基于内容的注释组件134可包括多媒体会议服务器130的一部分或子系统。基于内容的注释组件134可包括多个模块。这些模块可使用硬件元件、软件元件或硬件元件和软件元件的组合来实现。虽然如图2所示的基于内容的注释组件134具有呈特定拓扑结构的有限数量的元素,但可以理解,基于内容的注释组件134视给定实现所需可包括呈替换拓扑结构的更多或更少的元素。各实施例在此上下文中不受限制。
在图2所示的实施例中,基于内容的注释组件134可包括通信地耦合到参与者标识模块220和签名数据存储260的媒体分析模块210。签名数据存储260可存储各种类型的会议受邀者信息262。参与者标识模块220通信地耦合到媒体注释模块230和签名数据存储260。媒体注释模块230通信地耦合到媒体混合模块240和定位模块232。定位模块232通信地耦合到媒体分析模块210。媒体混合模块240可包括一个或多个缓冲器242。
基于内容的注释组件134中的媒体分析模块210可被安排成接收各种输入媒体流204-1-f作为输入。输入媒体流204-1-f各自可包括媒体控制台110-1-m和多媒体会议服务器130所支持的媒体内容流。例如,第一输入媒体流可表示来自远程会议控制台110-2-m的视频和/或音频流。该第一输入媒体流可包括只包含使用会议控制台110-2-m的单个参与者的视频内容。第二输入媒体流204-2可表示来自诸如摄像机106等摄像机的视频流以及来自耦合到本地会议控制台110-1的一个或多个话筒104-1-r的音频流。第二输入媒体流204-2可包括包含使用本地会议控制台110-1的多个参与者154-1-p的视频内容。其他输入媒体流204-3-f可具有包含不同数量参与者的媒体内容(例如,音频、视频或数据)的不同组合。
媒体分析模块210可检测出现在每一个输入媒体流204-1-f中的参与者154-1-p的数量。媒体分析模块210可使用输入媒体流204-1-f中的媒体内容的各种特性来检测参与者154-1-p的数量。例如,在一个实施例中,媒体分析模块210可对来自输入媒体流204-1-f的视频内容使用图像分析技术来检测参与者154-1-p的数量。例如,在一个实施例中,媒体分析模块210可对来自输入媒体流204-1-f的音频内容使用语音分析技术来检测参与者154-1-p的数量。例如,在一个实施例中,媒体分析模块210可对来自输入媒体流204-1-f的音频内容使用图像分析和语音分析两者来检测参与者154-1-p的数量。也可使用其他类型的媒体内容。
在一个实施例中,媒体分析模块210可对来自输入媒体流204-1-f的视频内容使用图像分析来检测参与者的数量。例如,媒体分析模块210可执行图像分析以便使用被设计成检测图像或图像序列中的人的任何常用技术来检测人类的特定特性。例如,在一个实施例中,媒体分析模块210可实现各种类型的脸部检测技术。脸部检测是确定任意数字图像中的人脸的位置和大小的计算机技术。该技术检测脸部特征并忽略任何其他事物,诸如建筑物、树和身体。媒体分析模块210可被安排成实现能够从包括人脸的可区别部分的小片中检测出局部视觉特征的脸部检测算法。当检测到脸部时,媒体分析模块210可更新指示对于给定输入媒体流204-1-f检测到的参与者数量的图像计数器。媒体分析模块210然后可对具有检测到的参与者的图像内容的图像块执行可任选的各种后处理操作,以准备进行脸部识别操作。这些后处理操作的示例可包括从图像或图像序列中提取表示脸部的视频内容,将所提取的视频内容规范化成特定大小(例如,64×64矩阵),并且均匀地量化RGB色空间(例如,64色)。媒体分析模块210可向参与者标识模块220输出图像计数器值以及每一个经处理的图像块。
在一个实施例中,媒体分析模块210可对来自输入媒体流204-1-f的音频内容使用语音分析来检测参与者的数量。例如,媒体分析模块210可执行语音分析以便使用被设计成检测音频段或或音频段序列中的人的任何常见技术来检测人类话音的特定特性。例如,在一个实施例中,媒体分析模块210可实现各种类型的语音或话音检测技术。当检测到人类语音时,媒体分析模块210可更新指示对于给定输入媒体流204-1-f检测到的参与者数量的语音计数器。媒体分析模块210可任选地对具有来自检测到的参与者的音频内容的音频块执行各种后处理操作,以准备进行语音识别操作。
一旦标识具有来自参与者的音频内容的音频块,媒体分析模块210然后就可标识对应于该音频块的图像块。这可例如通过将音频块的时序与图像块的时序进行比较,将音频块与来自图像块的嘴唇移动进行比较,以及其他音频/视频匹配技术来实现。例如,视频内容通常按照每秒多个媒体帧(例如,静止图像)来捕捉(通常以每秒15-60帧的数量级,但可使用其他速率)。这些媒体帧252-1-g以及对应的音频内容(例如,音频数据的每1/15到1/60秒)用作用于定位模块232的定位操作的帧。在记录音频时,音频通常以比视频高得多的速率来采样(例如,对于视频可每秒捕捉15到60个图像,但可捕捉数千个音频样本)。音频样本可以按各种不同的方式对应于特定视频帧。例如,范围从捕捉到一视频帧到捕捉到下一视频帧的音频样本可以是对应于该视频帧的音频帧。作为另一示例,以视频捕捉帧的时间为中心的音频样本可以是对应于该视频帧的音频帧。例如,如果视频是以每秒30帧捕捉的,则音频帧的范围可以从捕捉到该视频帧之前的1/60秒到捕捉到该视频帧之后的1/60秒。在某些情况下,音频内容可包括不直接对应于视频内容的数据。例如,音频内容可以是音乐的音轨而不是视频内容中的参与者的语音。在这些情况下,媒体分析模块210可丢弃该音频内容作为假肯定,并回退到脸部检测技术。
例如,在一个实施例中,媒体分析模块210可对来自输入媒体流204-1-f的音频内容使用图像分析和语音分析来检测参与者154-1-p的数量。例如,媒体分析210作为初始一轮可执行图像分析以检测参与者154-1-p的数量,并且然后作为后续一轮执行语音分析以确认对参与者154-1-p的数量的检测。对多种检测技术的使用可通过以消耗更多量的计算资源为代价提高检测操作的准确度来提供增强好处。
参与者标识模块220可被安排成将会议受邀者映射到每一个检测到的参与者。参与者标识模块220可接收三个输入,包括来自企业资源目录160的会议受邀者列表202、来自媒体分析模块210的媒体计数器值(例如,图像计数器值或语音计数器值)、以及来自媒体分析模块210的媒体块(例如,图像块或音频块)。参与者标识模块220然后可利用参与者标识算法以及这三个输入中的一个或多个来将会议受邀者映射到每一个检测到的参与者。
如上所述,会议受邀者列表202可包括被邀请到多媒体会议事件的各个人的列表。在某些情况下,会议受邀者列表202只可包括获得参与多媒体事件的邀请并接受邀请的那些人。另外,会议受邀者列表202还可包括与给定会议受邀者相关联的各种类型的信息。例如,会议受邀者列表202可包括关于给定会议受邀者的标识信息、关于给定会议受邀者的认证信息、会议受邀者所使用的会议控制台标识符等。
参与者标识算法可被设计成使用基于媒体计数器值的阈值判定来相对快速地标识会议参与者。这一参与者标识算法的伪代码的示例如下示出:
接收与会者列表;
For每一个媒体流:
  检测参与者数量(N);
  If N==1then参与者是媒体源,
     Else if N>1then
          在签名数据存储中查询会议受邀者信息,
          将签名匹配到媒体块;
End.
根据该参与者标识算法,参与者标识模块220确定第一输入媒体流204-1中的参与者数量是否等于一个参与者。如果为真(例如,N==1),则参与者标识模块220基于第一输入媒体流204-1的媒体源来将来自会议受邀者列表202的会议受邀者映射到第一输入媒体流204-1中的参与者。在这种情况下,第一输入媒体流204-1的媒体源可包括远程会议控制台10-2-m中的一个,如会议受邀者列表202或签名数据存储260中所标识的。因为在第一输入媒体流204-1中只检测到单个参与者,所以参与者标识算法假设该参与者不在会议室150中,并因此将该媒体块中的参与者直接映射到媒体源。以此方式,参与者标识模块220减少或避免了执行对从媒体分析模块210接收到的媒体块的进一步分析的需求,由此节省了计算资源。
然而,在某些情况下,多个参与者可聚集在会议室150中并共享耦合到本地会议控制台110-1的各种类型的多媒体设备以便与具有远程会议控制台110-2-m的其他参与者进行通信。因为存在单个本地会议控制台110-1,所以会议室150中的单个参与者(例如,参与者154-1)通常使用本地会议控制台110-1来代表该会议室150中的所有参与者154-2-p加入多媒体会议事件。因此,多媒体会议服务器130可具有关于参与者154-1的标识信息,但不具有关于会议室150中的其他参与者152-2-p的标识信息。
为了处理该情况,参与者标识模块220确定第二输入媒体流204-2中的参与者数量是否等于一个以上参与者。如果为真(例如,N>1),则参与者标识模块220基于脸部签名、语音签名、或脸部签名和语音签名的组合来将每一个会议受邀者映射到第二输入媒体流204-2中的每一个参与者。
如图2所示,参与者标识模块220可以通信地耦合到签名数据存储262。签名数据存储262可存储关于会议受邀者列表202中每一个会议受邀者的会议受邀者信息262。例如,会议受邀者信息262可包括对应于会议受邀者列表202中的每一个会议受邀者的各个会议受邀者记录,且这些会议受邀者记录具有受邀者标识符264-1-a、脸部签名266-1-b、语音签名268-1-c、以及标识信息270-1-d。会议受邀者记录所存储的各种类型的信息可以从各种源导出,诸如会议受邀者列表202、企业资源数据库260、先前的多媒体会议事件、会议控制台110-1-m、第三方数据库、或其他网络可访问资源。
在一个实施例中,参与者标识模块220可实现被安排成基于脸部签名266-1-b来对参与者执行脸部识别的脸部识别系统。脸部识别系统是用于从数字图像或来自视频源的视频媒体帧中自动标识或验证一个人的计算机应用程序。这样做的方式之一是通过比较从图像中选择的脸部特征和脸部数据库。这可使用任何数量的脸部识别系统来实现,诸如本征脸部系统、费舍尔脸部(fisherface)系统、隐马尔可夫模型系统、神经元刺激动态链接匹配系统等。参与者标识模块220可从媒体分析模块210接收图像块,并从这些图像块中提取各种脸部特征。参与者标识模块220可从签名数据存储260中检索一个或多个脸部签名266-1-b。脸部签名266-1-b可包含从参与者的已知图像中提取的各种脸部特征。参与者标识模块220可将来自图像块的脸部特征与不同的脸部签名266-1-b进行比较,并确定是否存在匹配。如果存在匹配,则参与者标识模块220可检索对应于脸部签名266-1-b的标识信息270-1-d,并向媒体注释模块230输出媒体块和标识信息270-1-d。例如,假设来自图像块的脸部特征匹配脸部签名266-1,则参与者标识模块220可检索对应于脸部签名266-1的标识信息270-1,并向媒体注释模块230输出该媒体块和标识信息270-1。
在一个实施例中,参与者标识模块220可实现被安排成基于语音签名268-1-c来对参与者执行语音识别的语音识别系统。语音识别系统是用于从一个或多个音频段中自动标识或验证一个人的计算机应用程序。语音识别系统可基于各个人的语音来标识这些人。语音识别系统从话音中提取各种特征,对这些特征建模,并使用这些特征基于他/她的语音来识别一个人。参与者标识模块220可从媒体分析模块210接收音频块,并从图像块中提取各种音频特征。参与者标识模块220可从签名数据存储260中检索语音签名268-1-c。语音签名268-1-c可包含从参与者的已知话音或语音模式中提取的各种话音或语音特征。参与者标识模块220可将来自图像块的音频特征与语音签名268-1-c进行比较,并确定是否存在匹配。如果存在匹配,则参与者标识模块220可检索对应于语音签名268-1-c的标识信息270-1-d,并向媒体注释模块230输出对应的图像块和标识信息270-1-d。
媒体注释模块230可用于用关于每一个输入媒体流204-1-f中的每一个所映射参与者的标识信息270-1-d来注释每一个输入媒体流204-1-f中的媒体帧252-1-g,以形成对应的带注释媒体流205。例如,媒体注释模块230从参与者标识模块220接收各个图像块和标识信息270-1-d。媒体注释模块230然后相对靠近所映射参与者地用标识信息270-1-d来注释一个或多个媒体帧252-1-g。媒体注释模块230可使用从定位模块232接收到的位置信息来精确地确定在哪里用标识信息270-1-d来注释一个或多个媒体帧252-1-g。
定位模块232通信地耦合到媒体注释模块230和媒体分析模块210,并且可用于确定关于输入媒体流204-1-f的媒体帧或连续媒体帧252-1-g中的所映射参与者154-1-p的位置信息。例如,在一个实施例中,位置信息可包括所映射参与者154-1-p的中心坐标256和边界区域258。
定位模块232管理并更新关于输入媒体流204-1-f的媒体帧252-1-g中的包括或可能包括人脸的每一个区域的位置信息。媒体帧252-1-g中的各个区域可从媒体分析模块210输出的图像块导出。例如,媒体分析模块210可输出关于用于形成具有检测到的参与者的图像块的媒体帧252-1-g中的每一个区域的位置信息。定位模块232可维护图像块的图像块标识符的列表以及媒体帧252-1-g中的每一个图像块的相关联位置信息。另外地或另选地,媒体帧252-1-g中的各个区域可以本机地由定位模块232通过独立于媒体分析模块210分析输入媒体帧204-1-f来导出。
在所示示例中,关于每一个区域的位置信息由中心坐标256和边界区域258来描述。包括参与者脸部的视频内容的各个区域由中心坐标256和边界区域258来定义。中心坐标256表示区域的近似中心,而边界区域258表示该中心坐标周围的任何几何形状。该几何形状可具有任何所需大小,并且可根据给定参与者154-1-p而变化。几何形状的示例可包括但不限于矩形、圆形、椭圆形、三角形、五边形、六边形或其他自由形式的形状。边界区域258定义媒体帧252-1-g中的包括脸部并由定位模块232跟踪的区域。
位置信息可还可包括标识位置272。标识位置272可包括边界区域258中用于注释标识信息270-1-d的位置。关于所映射参与者154-1-p的标识信息270-1-d可被放置在边界区域258中的任何地方。在应用中,从查看媒体帧252-1-g的人的观点来看,标识信息270-1-d应足够接近参与者154-1-p以便于参与者154-1-p的视频内容和关于参与者154-1-p的标识信息270之间的连接,同时降低或避免部分或完全遮住参与者154-1-p的视频内容的可能性。标识位置272可以是静态位置,或者可根据诸如参与者154-1-p的大小、参与者154-1-p的移动、媒体帧252-1-g中的背景对象的改变等因素来动态变化。
一旦媒体注释模块230接收到来自参与者标识模块220的各个图像块和标识信息270-1-d,媒体注释模块230就从定位模块232检索关于图像块的位置信息。媒体注释模块230基于该位置信息用关于每一个输入媒体流204-1-f中的每一个所映射参与者的标识信息270-1-d来注释每一个输入媒体流204-1-f中的媒体帧252-1-g的一个或多个。作为示例,假设媒体帧252-1可包括参与者154-1、154-2和154-3。还假设所映射参与者是参与者154-2。媒体注释模块230可接收来自参与者标识模块220的标识信息270-2,以及关于媒体帧252-1中的区域的位置信息。媒体注释模块230然后可以在标识位置272处用关于中心坐标256周围的边界区域258内的所映射参与者154-2的标识信息270-2来注释第二输入媒体流204-2的媒体帧252-1。在图1所示的实施例中,边界区域258包括矩形形状,并且媒体注释模块230将标识信息270-2定位在标识位置272处,该标识位置包括边界区域258中的处在参与者154-2的视频内容和边界区域258的边缘之间的空间中的右上角。
一旦媒体帧252-1-g的区域已经用关于所映射参与者154-1-p的标识信息270-1-d来注释,定位模块232就可使用跟踪列表来监视和跟踪输入媒体流204-1-f的后续媒体帧252-1-g中的参与者154-1-p的移动。一旦检测到了,定位模块232就在跟踪列表中跟踪所映射参与者154-1-p的所标识区域中的每一个。定位模块232使用各种视觉提示来在视频内容中逐帧跟踪各区域。所跟踪区域中的每一个脸部是一个人的至少一部分的图像。通常,人们能够在生成视频时移动,诸如站起、坐下、来回走、坐在他们的椅子上移动等。定位模块232逐帧跟踪包括脸部(一旦检测到)的区域,这通常在计算上与执行重复的脸部检测相比较不昂贵,而不是在输入媒体流204-1-f的每一个媒体帧252-1-g中执行脸部检测。
媒体混合模块240可以通信地耦合到媒体注释模块230。媒体混合模块240可被安排成从媒体注释模块230接收多个带注释媒体流205,并将该多个带注释媒体流205组合成混合输出媒体流260以供多个会议控制台110-1-m显示。媒体混合模块240可任选地利用缓冲器242和各种延迟模块来同步各个带注释媒体流205。媒体混合模块240可被实现为作为基于内容的注释组件134的一部分的MCU。另外地或另选地,媒体混合模块240可被实现为作为多媒体会议服务器130的服务器会议组件132的一部分的MCU。
图3示出了多媒体会议服务器130的框图。如图3所示,多媒体会议服务器130可接收各种输入媒体流204-1-m,使用基于内容的注释组件134来处理各种输入媒体流204-1-m,并输出多个混合输出媒体流206。输入媒体流204-1-m可表示源自各个会议控制台110-1m的不同媒体流,而混合输出媒体流206可表示在各个会议控制台110-1m处终止的相同媒体流。
计算组件302可表示用于支持或实现基于内容的注释组件134的各种计算资源。计算组件302的示例可包括但不限于处理器、存储器单元、总线、芯片、控制器、振荡器、系统时钟、以及其他计算平台或系统体系结构设备。
通信组件304可表示用于接收输入媒体流204-1m和发送混合输出媒体流206的各种通信资源。通信组件304的示例可包括但不限于接收机、发射机、收发机、网络接口、网络接口卡、无线电、基带处理器、滤波器、放大器、调制器、解调器、多路复用器、混合器、交换机、天线、协议栈、或其他通信平台或系统体系结构设备。
服务器会议组件132可表示用于建立、管理或控制多媒体会议事件的各种多媒体会议资源。服务器会议组件132可包括MCU以及其他元件。MCU是常用于桥接多媒体会议连接的设备。MCU通常是网络中为三个或更多个会议控制台110-1-m和网关提供参与多点会议的能力的端点。MCU通常包括多点控制器(MC)和各种多点处理器(MP)。例如,在一个实施例中,服务器会议组件132可实现用于MICROSOFT OFFICE LIVE MEETING或MICROSOFTOFFICE COMMUNICATIONS SERVER的硬件和软件。然而,可以理解,这些实现不限于这些示例。
用于上述实施例的操作可参考一个或多个逻辑流程来进一步描述。可以理解,除非另外指明,否则代表性的逻辑流程不一定要按所呈现的次序或者按任何特定次序来执行。而且,关于逻辑流程描述的各种活动可按串行或并行的方式执行。视给定一组设计和性能约束所需,逻辑流程可使用所述实施例的一个或多个硬件元素和/或软件元素或替换元素来实现。例如,逻辑流程可被实现为供逻辑设备(例如,通用或专用计算机)执行的逻辑(例如,计算机程序指令)。
图4示出逻辑流程400的一个实施例。逻辑流程400可表示由在此所描述的一个或多个实施例所执行的操作中的部分或全部。
如图4所示,逻辑流程400可接收多媒体会议事件的会议受邀者列表402。例如,多媒体会议服务器130的基于内容的注释组件134中的参与者标识模块220可接收多媒体会议事件的会议受邀者列表202和附带信息。会议受邀者列表220和附带信息中的全部或部分可从调度设备108和/或企业资源目录160处接收。
逻辑流程400可在框404从多个会议控制台接收多个输入媒体流。例如,媒体分析模块210可接收输入媒体流204-1-f,并向参与者标识模块220输出具有参与者的各个图像块。参与者标识模块220可使用这些图像块和各种脸部识别技术和/或语音识别技术来将这些参与者映射到来自会议受邀者列表202的会议受邀者264-1-a,并向媒体注释模块230输出图像块和对应的标识信息270-1-d。
逻辑流程400可在框406用关于每一个输入媒体流中的每一个参与者的标识信息来注释每一个输入媒体流的媒体帧,以形成对应的带注释媒体流。例如,媒体注释模块230可从参与者标识模块220接收图像块和对应的标识信息270-1-d,从定位模块232检索对应于图像块的位置信息,并且用关于每一个输入媒体流204-1-f中的每一个参与者154-1-p的标识信息270-1-d来注释每一个输入媒体流204-1-f的一个或多个媒体帧252-1-g,以形成对应的带注释媒体流205。
图5进一步示出了适于实现会议控制台110-1-m或多媒体会议服务器130的计算体系结构510的更详细框图。在基本配置中,计算体系结构510通常包括至少一个处理单元532和存储器534。存储器534可以使用能够存储数据的任何机器可读的或计算机可读介质来实现,包括易失性和非易失性存储器。例如,存储器534可以包括只读存储器(ROM)、随机存取存储器(RAM)、动态RAM(DRAM)、双数据率DRAM(DDRAM)、同步DRAM(SDRAM)、静态RAM(SRAM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、闪存、诸如铁电聚合物存储器等聚合物存储器、奥氏存储器、相变或铁电存储器、硅-氧化物-氮化物-氧化物-硅(SONOS)存储器、磁卡或光卡、或适于存储信息的任何其它类型的介质。如图5所示,存储器534可存储各种软件程序,诸如一个或多个应用程序536-1-t和附带数据。取决于实现,应用程序536-1-t的示例可包括服务器会议组件132、客户机会议组件112-1-n或基于内容的注释组件134。
计算体系结构510还可具有除其基本配置之外的附加特征和/或功能。例如,计算体系结构510可包括可移动存储538和不可移动存储540,这些存储还可包括如上所述的各种类型的机器可读的或计算机可读介质。计算体系结构510还可具有一个或多个输入设备544,如键盘、鼠标、笔、语音输入设备、触摸输入设备、测量设备、传感器等。计算体系结构510还可包括一个或多个输出设备542,诸如显示器、扬声器、打印机等。
计算体系结构510还可包括允许计算体系结构510与其它设备进行通信的一个或多个通信连接546。通信连接546可以包括各种类型的标准通信元件,如一个或多个通信接口、网络接口、网络接口卡(NIC)、无线电、无线发射机/接收机(收发机)、有线和/或无线通信介质、物理连接器等。通信介质通常以诸如载波或其他传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其他数据,并包括任意信息传送介质。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被设定或更改的信号。作为示例而非限制,通信介质包括有线通信介质和无线通信介质。有线通信介质的示例可以包括导线、电缆、金属线、印刷电路板(PCB)、背板、交换光纤、半导体材料、双绞线、同轴电缆、光纤、经传播的信号等。无线通信介质的示例可以包括声学、射频(RF)频谱、红外和其它无线介质。此处使用的术语机器可读介质和计算机可读介质旨在包括存储介质和通信介质两者。
图6示出了适用于存储包括逻辑流程400在内的用于各实施例的逻辑的制品600的图示。如图所示,制品600可包括存储介质602的存储逻辑604。存储介质602的示例可包括能够存储电子数据的一种或多种类型的计算机可读存储介质,包括易失性存储器或非易失性存储器、可移动或不可移动存储器、可擦除或不可擦除存储器、可写或可重写存储器等。逻辑604的示例可包括各种软件元素,诸如软件组件、程序、应用软件、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、过程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、文字、值、符号、或其任意组合。
例如,在一个实施例中,制品600和/或计算机可读存储介质602可存储包括可执行计算机程序指令的逻辑604,这些指令在被计算机执行时使该计算机执行根据所述实施例的方法和/或操作。可执行计算机程序指令可包括任何合适类型的代码,诸如源代码、已编译代码、已解释代码、可执行代码、静态代码、动态代码等。可执行计算机程序指令可根据用于指示计算机执行特定功能的预定义的计算机语言、方式或句法来实现。这些指令可使用任何合适的高级、低级、面向对象、可视、已编译和/或已解释编程语言来实现,诸如C、C++、Java、BASIC、Perl、Matlab、Pascal、VisualBASIC、汇编语言等。
各实施例可以使用硬件元素、软件元素或两者的组合来实现。硬件元素的示例可以包括如先前关于逻辑设备所提供的任何示例,且还可以包括微处理器、电路、电路元件(例如,晶体管、电阻器、电容器、电感器等等)、集成电路、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等等。软件元素的示例可以包括软件组件、程序、应用软件、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、过程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、文字、值、符号、或其任意组合。确定一实施例是否使用硬件元素和/或软件元素来实现可视给定实现所需根据任何数量的因素而变化,这些因素如所需计算速率、功率级、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度以及其它设计或性能约束。
某些实施例可使用表述“耦合的”和“连接的”及其派生词来描述。这些术语不必旨在互为同义词。例如,某些实施例可使用术语“连接的”和/或“耦合的”来描述以指示两个或更多元素彼此有直接的物理或电接触。然而,术语“耦合的”还可以意味着两个或更多元素彼此不直接接触,而仍彼此合作或交互。
要强调的是,提供了本公开的摘要以符合37C.F.R.1.72(b)节,该节要求使读者能快速确定本技术公开的特性的摘要。提交摘要的同时要明白,将不用它来解释或限制权利要求的范围或含义。另外,在前面的详细描述中,可以看到,出于将本公开连成一个整体的目的而将各种特征组合在一起放在单个实施例中。此公开方法将不被解释为反映所要求保护的实施例要求比每个权利要求中明确陈述的更多特征的意图。相反,如以下权利要求书所反映的,本发明的主题决不在于单个公开实施例的所有特征。从而,据此将所附权利要求结合进详细描述中,其中每个权利要求独立地代表一个单独的实施例。在所附权利要求书中,术语“包括”和“其中”分别用作术语“包含”和“其特征在于”的易懂的英文等价词。而且,术语“第一”、“第二”、“第三”等等只用作标记,而不旨在将数字要求强加于其对象上。
尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述具体特征和动作是作为实现权利要求的示例形式公开的。

Claims (20)

1.一种方法,包括:
接收多媒体会议事件的会议受邀者列表(402);
从多个会议控制台接收多个输入媒体流(404);以及
用关于每一个输入媒体流中的每一个参与者的标识信息来注释每一个输入媒体流的媒体帧以形成对应的带注释媒体流(406)。
2.如权利要求1所述的方法,其特征在于,包括:
检测每一个输入媒体流中的参与者数量;
将会议受邀者映射到每一个检测到的参与者;
检索关于每一个所映射的参与者的标识信息;以及
用关于每一个输入媒体流中的每一个所映射的参与者的标识信息来注释每一个输入媒体流的媒体帧以形成所述对应的带注释媒体流。
3.如权利要求2所述的方法,其特征在于,包括:
确定第一输入媒体流中的参与者数量等于一个参与者;以及
基于所述第一输入媒体流的媒体源来将会议受邀者映射到所述第一输入媒体流中的参与者。
4.如权利要求2所述的方法,其特征在于,包括:
确定第二输入媒体流中的参与者数量等于一个以上参与者;以及
基于脸部签名或语音签名来将会议受邀者映射到所述第二输入媒体流中的参与者。
5.如权利要求2所述的方法,其特征在于,包括确定关于输入媒体流的媒体帧或连续媒体帧中的所映射参与者的位置信息,所述位置信息包括所映射参与者的中心坐标和边界区域。
6.如权利要求2所述的方法,其特征在于,包括基于关于每一个所映射参与者的位置信息用关于每一个所映射参与者的标识信息来注释每一个输入媒体流的媒体帧。
7.如权利要求2所述的方法,其特征在于,包括用关于所映射参与者的所确定位置的中心坐标周围的边界区域内的每一个所映射参与者的标识信息来注释每一个输入媒体流的媒体帧。
8.如权利要求2所述的方法,其特征在于,包括将多个带注释媒体流组合成混合输出媒体流以供多个会议控制台显示。
9.一种包括含有指令的存储介质的制品,所述指令在被执行时使得系统能够:
接收多媒体会议事件的会议受邀者列表;
从多个会议控制台接收多个输入媒体流;以及
用关于每一个输入媒体流中的每一个参与者的标识信息来注释每一个输入媒体流的媒体帧以形成对应的带注释媒体流。
10.如权利要求9所述的制品,其特征在于,还包括指令,所述指令如果被执行则使所述系统能够:
检测每一个输入媒体流中的参与者数量;
将会议受邀者映射到每一个检测到的参与者;
检索关于每一个所映射参与者的标识信息;以及
用关于每一个输入媒体流中的每一个所映射参与者的标识信息来注释每一个输入媒体流的媒体帧以形成所述对应的带注释媒体流。
11.如权利要求9所述的制品,其特征在于,还包括指令,所述指令如果被执行则使所述系统能够:
确定第一输入媒体流中的参与者数量等于一个参与者;以及
基于所述第一输入媒体流的媒体源来将会议受邀者映射到所述第一输入媒体流中的参与者。
12.如权利要求9所述的制品,其特征在于,还包括指令,所述指令如果被执行则使所述系统能够:
确定第二输入媒体流中的参与者数量等于一个以上参与者;以及
基于脸部签名或语音签名来将会议受邀者映射到所述第二输入媒体流中的参与者。
13.一种包括基于内容的注释组件(134)的装置,所述基于内容的注释组件可用于接收多媒体会议事件的会议受邀者列表,从多个会议控制台(110)接收多个输入媒体流(204),并且用关于每一个输入媒体流中的每一个参与者的标识信息(270)来注释每一个输入媒体流的媒体帧(252)以形成对应的带注释媒体流(205)。
14.如权利要求13所述的装置,其特征在于,所述基于内容的注释组件包括:
媒体分析模块(210),所述媒体分析模块可用于检测每一个输入媒体流中的参与者数量;
通信地耦合到所述媒体分析模块的参与者标识模块(220),所述参与者标识模块可用于将会议受邀者映射到每一个检测到的参与者,并检索关于每一个所映射参与者的标识信息;以及
通信地耦合到所述参与者标识模块的媒体注释模块(230),所述媒体注释模块可用于用关于每一个输入媒体流中的每一个所映射参与者的标识信息来注释每一个输入媒体流的媒体帧以形成所述对应的带注释媒体流。
15.如权利要求14所述的装置,其特征在于,所述参与者标识模块可用于确定第一输入媒体流中的参与者数量等于一个参与者,并基于所述第一输入媒体流的媒体源来将会议受邀者映射到所述第一输入媒体流中的参与者。
16.如权利要求14所述的装置,其特征在于,所述参与者标识模块可用于确定第二输入媒体流中的参与者数量等于一个以上参与者,并基于脸部签名(266)、语音签名(268)或脸部签名和语音签名的组合来将会议受邀者映射到所述第二输入媒体流中的参与者。
17.如权利要求14所述的装置,其特征在于,包括通信地耦合到所述媒体注释模块的定位模块(232),所述定位模块可用于确定关于输入媒体流的媒体帧或连续媒体帧中的所映射参与者的位置信息,所述位置信息包括所映射参与者的中心坐标(256)和边界区域(258)。
18.如权利要求14所述的装置,其特征在于,所述媒体注释模块用于基于位置信息用关于每一个所映射参与者的标识信息来注释每一个输入媒体流的媒体帧。
19.如权利要求14所述的装置,其特征在于,包括通信地耦合到所述媒体注释模块的媒体混合模块(240),所述媒体混合模块可用于接收多个带注释媒体流,并将所述多个带注释媒体流组合成混合输出媒体流(206)以供多个会议控制台显示。
20.如权利要求14所述的装置,其特征在于,多媒体会议服务器(130)可用于管理所述多个会议控制台之间的多媒体会议事件的多媒体会议操作,所述多媒体会议服务器包括所述基于内容的注释组件。
CN2009801060153A 2008-02-20 2009-01-21 用于自动标识多媒体会议事件的参与者的技术 Pending CN101952852A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/033,894 US20090210491A1 (en) 2008-02-20 2008-02-20 Techniques to automatically identify participants for a multimedia conference event
US12/033,894 2008-02-20
PCT/US2009/031479 WO2009105303A1 (en) 2008-02-20 2009-01-21 Techniques to automatically identify participants for a multimedia conference event

Publications (1)

Publication Number Publication Date
CN101952852A true CN101952852A (zh) 2011-01-19

Family

ID=40956102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009801060153A Pending CN101952852A (zh) 2008-02-20 2009-01-21 用于自动标识多媒体会议事件的参与者的技术

Country Status (10)

Country Link
US (1) US20090210491A1 (zh)
EP (1) EP2257929A4 (zh)
JP (1) JP2011512772A (zh)
KR (1) KR20100116661A (zh)
CN (1) CN101952852A (zh)
BR (1) BRPI0906574A2 (zh)
CA (1) CA2715621A1 (zh)
RU (1) RU2488227C2 (zh)
TW (1) TW200943818A (zh)
WO (1) WO2009105303A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012109956A1 (zh) * 2011-02-15 2012-08-23 华为终端有限公司 视讯会议中会议信息的处理方法及设备
WO2016065540A1 (zh) * 2014-10-28 2016-05-06 华为技术有限公司 马赛克业务呈现/分发方法及装置
CN111258528A (zh) * 2018-12-03 2020-06-09 华为技术有限公司 语音用户界面的显示方法和会议终端
CN111786945A (zh) * 2020-05-15 2020-10-16 北京捷通华声科技股份有限公司 一种会议控制方法和装置
CN113287103A (zh) * 2019-08-05 2021-08-20 谷歌有限责任公司 媒体项中的事件进度检测

Families Citing this family (107)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10032452B1 (en) * 2016-12-30 2018-07-24 Google Llc Multimodal transmission of packetized data
US8125508B2 (en) * 2006-01-24 2012-02-28 Lifesize Communications, Inc. Sharing participant information in a videoconference
US8316308B2 (en) 2007-06-08 2012-11-20 Google Inc. Adaptive user interface for multi-source systems
US8243119B2 (en) 2007-09-30 2012-08-14 Optical Fusion Inc. Recording and videomail for video conferencing call systems
US8954178B2 (en) * 2007-09-30 2015-02-10 Optical Fusion, Inc. Synchronization and mixing of audio and video streams in network-based video conferencing call systems
US9448814B2 (en) * 2008-02-19 2016-09-20 Google Inc. Bridge system for auxiliary display devices
US11017428B2 (en) 2008-02-21 2021-05-25 Google Llc System and method of data transmission rate adjustment
US10013986B1 (en) 2016-12-30 2018-07-03 Google Llc Data structure pooling of voice activated data packets
WO2009129609A1 (en) * 2008-04-21 2009-10-29 Matthew Gibson System, method and computer program for conducting transactions remotely
WO2009134259A1 (en) * 2008-04-30 2009-11-05 Hewlett-Packard Development Company, L.P. Communication between scheduled and in progress event attendees
WO2009136905A1 (en) * 2008-05-05 2009-11-12 Hewlett-Packard Development Company, L.P. Communications prior to a scheduled event
US20100060713A1 (en) * 2008-09-10 2010-03-11 Eastman Kodak Company System and Method for Enhancing Noverbal Aspects of Communication
US8402391B1 (en) 2008-09-25 2013-03-19 Apple, Inc. Collaboration system
US8723911B1 (en) * 2008-10-06 2014-05-13 Verint Americas Inc. Systems and methods for enhancing recorded or intercepted calls using information from a facial recognition engine
NO331287B1 (no) * 2008-12-15 2011-11-14 Cisco Systems Int Sarl Fremgangsmate og anordning for gjenkjenning av ansikter i en videostrom
US8141115B2 (en) * 2008-12-17 2012-03-20 At&T Labs, Inc. Systems and methods for multiple media coordination
JP5236536B2 (ja) * 2009-03-09 2013-07-17 シャープ株式会社 画像表示/像検知装置、制御方法、制御プログラム、および該制御プログラムを記録したコンピュータ読み取り可能な記録媒体
JP5515448B2 (ja) * 2009-06-22 2014-06-11 株式会社リコー 遠隔会議支援システム
US8407287B2 (en) * 2009-07-14 2013-03-26 Radvision Ltd. Systems, methods, and media for identifying and associating user devices with media cues
US9538299B2 (en) 2009-08-31 2017-01-03 Hewlett-Packard Development Company, L.P. Acoustic echo cancellation (AEC) with conferencing environment templates (CETs)
US20110096699A1 (en) * 2009-10-27 2011-04-28 Sakhamuri Srinivasa Media pipeline for a conferencing session
US20110096135A1 (en) * 2009-10-23 2011-04-28 Microsoft Corporation Automatic labeling of a video session
US8131801B2 (en) * 2009-12-08 2012-03-06 International Business Machines Corporation Automated social networking based upon meeting introductions
EP2343668B1 (en) * 2010-01-08 2017-10-04 Deutsche Telekom AG A method and system of processing annotated multimedia documents using granular and hierarchical permissions
US8471889B1 (en) 2010-03-11 2013-06-25 Sprint Communications Company L.P. Adjusting an image for video conference display
US9082106B2 (en) * 2010-04-30 2015-07-14 American Teleconferencing Services, Ltd. Conferencing system with graphical interface for participant survey
US20110268262A1 (en) * 2010-04-30 2011-11-03 American Teleconferncing Services Ltd. Location-Aware Conferencing With Graphical Interface for Communicating Information
US8457118B2 (en) * 2010-05-17 2013-06-04 Google Inc. Decentralized system and method for voice and video sessions
JP5740972B2 (ja) * 2010-09-30 2015-07-01 ソニー株式会社 情報処理装置および情報処理方法
US10726861B2 (en) * 2010-11-15 2020-07-28 Microsoft Technology Licensing, Llc Semi-private communication in open environments
CN102006453B (zh) * 2010-11-30 2013-08-07 华为终端有限公司 视频信号的辅助信息叠加方法及装置
CN102547985B (zh) * 2010-12-27 2015-05-20 佛山络威网络技术有限公司 一种基于p2p递归的分布式wifi寻呼方法
AU2011353795B2 (en) * 2011-01-04 2016-02-04 Telefonaktiebolaget Lm Ericsson (Publ) Local media rendering
US20120179502A1 (en) * 2011-01-11 2012-07-12 Smart Technologies Ulc Method for coordinating resources for events and system employing same
US8989360B2 (en) * 2011-03-04 2015-03-24 Mitel Networks Corporation Host mode for an audio conference phone
TWI422227B (zh) * 2011-04-26 2014-01-01 Inventec Corp 多媒體會議系統與其服務方法
US9191616B2 (en) 2011-05-26 2015-11-17 Microsoft Technology Licensing, Llc Local participant identification in a web conferencing system
US9159037B2 (en) 2011-06-14 2015-10-13 Genesys Telecommunications Laboratories, Inc. Context aware interaction
US9130763B2 (en) 2011-06-20 2015-09-08 Microsoft Technology Licensing, Llc Automatic sharing of event content by linking devices
US9070242B2 (en) 2011-07-01 2015-06-30 Digital Creations, LLC Techniques for controlling game event influence and/or outcome in multi-player gaming environments
US20130201272A1 (en) * 2012-02-07 2013-08-08 Niklas Enbom Two mode agc for single and multiple speakers
US8892123B2 (en) 2012-03-07 2014-11-18 Microsoft Corporation Identifying meeting attendees using information from devices
US8850522B2 (en) 2012-03-27 2014-09-30 Microsoft Corporation Participant authentication and authorization for joining a private conference event via a conference event environment system
US9256457B1 (en) * 2012-03-28 2016-02-09 Google Inc. Interactive response system for hosted services
US9922334B1 (en) 2012-04-06 2018-03-20 Google Llc Providing an advertisement based on a minimum number of exposures
US9210361B2 (en) * 2012-04-24 2015-12-08 Skreens Entertainment Technologies, Inc. Video display system
US9743119B2 (en) 2012-04-24 2017-08-22 Skreens Entertainment Technologies, Inc. Video display system
US10499118B2 (en) 2012-04-24 2019-12-03 Skreens Entertainment Technologies, Inc. Virtual and augmented reality system and headset display
US11284137B2 (en) * 2012-04-24 2022-03-22 Skreens Entertainment Technologies, Inc. Video processing systems and methods for display, selection and navigation of a combination of heterogeneous sources
US10776830B2 (en) 2012-05-23 2020-09-15 Google Llc Methods and systems for identifying new computers and providing matching services
US10152723B2 (en) 2012-05-23 2018-12-11 Google Llc Methods and systems for identifying new computers and providing matching services
CN102843542B (zh) 2012-09-07 2015-12-02 华为技术有限公司 多流会议的媒体协商方法、设备和系统
US9058806B2 (en) 2012-09-10 2015-06-16 Cisco Technology, Inc. Speaker segmentation and recognition based on list of speakers
US20140129725A1 (en) * 2012-11-07 2014-05-08 Panasonic Corporation Of North America SmartLight Interaction System
US8902274B2 (en) 2012-12-04 2014-12-02 Cisco Technology, Inc. System and method for distributing meeting recordings in a network environment
US8886011B2 (en) 2012-12-07 2014-11-11 Cisco Technology, Inc. System and method for question detection based video segmentation, search and collaboration in a video processing environment
US9137489B2 (en) * 2012-12-28 2015-09-15 Ittiam Systems Pte. Ltd. Platform for end point and digital content centric real-time shared experience for collaboration
US20140211929A1 (en) * 2013-01-29 2014-07-31 Avaya Inc. Method and apparatus for identifying and managing participants in a conference room
US10735552B2 (en) 2013-01-31 2020-08-04 Google Llc Secondary transmissions of packetized data
US10650066B2 (en) 2013-01-31 2020-05-12 Google Llc Enhancing sitelinks with creative content
EP2804373A1 (en) * 2013-05-17 2014-11-19 Alcatel Lucent A method, and system for video conferencing
US20150254512A1 (en) * 2014-03-05 2015-09-10 Lockheed Martin Corporation Knowledge-based application of processes to media
US9661254B2 (en) 2014-05-16 2017-05-23 Shadowbox Media, Inc. Video viewing system with video fragment location
US9344520B2 (en) * 2014-05-27 2016-05-17 Cisco Technology, Inc. Method and system for visualizing social connections in a video meeting
EP3164963A4 (en) 2014-07-04 2018-04-04 Telefonaktiebolaget LM Ericsson (publ) Priority of uplink streams in video switching
TWI562640B (en) 2014-08-28 2016-12-11 Hon Hai Prec Ind Co Ltd Method and system for processing video conference
US20160261648A1 (en) * 2015-03-04 2016-09-08 Unify Gmbh & Co. Kg Communication system and method of using the same
US10542056B2 (en) 2015-03-04 2020-01-21 Unify Gmbh & Co. Kg Communication system and method of using the same
US20160269451A1 (en) * 2015-03-09 2016-09-15 Stephen Hoyt Houchen Automatic Resource Sharing
US9883003B2 (en) 2015-03-09 2018-01-30 Microsoft Technology Licensing, Llc Meeting room device cache clearing
US20160269254A1 (en) * 2015-03-09 2016-09-15 Michael K. Forney Meeting Summary
US10551913B2 (en) 2015-03-21 2020-02-04 Mine One Gmbh Virtual 3D methods, systems and software
US10853625B2 (en) 2015-03-21 2020-12-01 Mine One Gmbh Facial signature methods, systems and software
WO2017004241A1 (en) 2015-07-02 2017-01-05 Krush Technologies, Llc Facial gesture recognition and video analysis tool
US20170109351A1 (en) * 2015-10-16 2017-04-20 Avaya Inc. Stateful tags
RU2606314C1 (ru) * 2015-10-20 2017-01-10 Общество с ограниченной ответственностью "Телепорт Русь" Способ и система распространения медиа контента в пиринговой сети передачи данных
US10074364B1 (en) * 2016-02-02 2018-09-11 Amazon Technologies, Inc. Sound profile generation based on speech recognition results exceeding a threshold
US10289966B2 (en) * 2016-03-01 2019-05-14 Fmr Llc Dynamic seating and workspace planning
US9686510B1 (en) 2016-03-15 2017-06-20 Microsoft Technology Licensing, Llc Selectable interaction elements in a 360-degree video stream
US10204397B2 (en) 2016-03-15 2019-02-12 Microsoft Technology Licensing, Llc Bowtie view representing a 360-degree image
US9866400B2 (en) 2016-03-15 2018-01-09 Microsoft Technology Licensing, Llc Action(s) based on automatic participant identification
US10708313B2 (en) 2016-12-30 2020-07-07 Google Llc Multimodal transmission of packetized data
US10593329B2 (en) 2016-12-30 2020-03-17 Google Llc Multimodal transmission of packetized data
CN107506979A (zh) * 2017-08-25 2017-12-22 苏州市千尺浪信息技术服务有限公司 一种多方协同办公系统
NO20172029A1 (en) * 2017-12-22 2018-10-08 Pexip AS Visual control of a video conference
TWI690823B (zh) * 2018-05-21 2020-04-11 立新 陳 文件遠控系統
US10777186B1 (en) * 2018-11-13 2020-09-15 Amazon Technolgies, Inc. Streaming real-time automatic speech recognition service
US11386562B2 (en) 2018-12-28 2022-07-12 Cyberlink Corp. Systems and methods for foreground and background processing of content in a live video
US12026240B2 (en) * 2019-02-21 2024-07-02 Microsoft Technology Licensing, Llc Delegated authentication systems and techniques
CN112153321B (zh) * 2019-06-28 2022-04-05 华为技术有限公司 一种会议录制方法、装置及会议录制系统
TWI764020B (zh) * 2019-07-24 2022-05-11 圓展科技股份有限公司 視訊會議系統及其方法
US11012249B2 (en) * 2019-10-15 2021-05-18 Microsoft Technology Licensing, Llc Content feature based video stream subscriptions
US11456886B2 (en) * 2020-03-30 2022-09-27 Lenovo (Singapore) Pte. Ltd. Participant identification in mixed meeting
US11165992B1 (en) * 2021-01-15 2021-11-02 Dell Products L.P. System and method for generating a composited video layout of facial images in a video conference
US11294474B1 (en) * 2021-02-05 2022-04-05 Lenovo (Singapore) Pte. Ltd. Controlling video data content using computer vision
US11750671B2 (en) 2021-02-24 2023-09-05 Kyndryl, Inc. Cognitive encapsulation of group meetings
US11955127B2 (en) 2021-02-24 2024-04-09 Kyndryl, Inc. Cognitive correlation of group interactions
CN112866298A (zh) * 2021-04-09 2021-05-28 武汉吉迅信息技术有限公司 一种ims多媒体会议终端数据采集方法
US12068872B2 (en) * 2021-04-28 2024-08-20 Zoom Video Communications, Inc. Conference gallery view intelligence system
US11736660B2 (en) 2021-04-28 2023-08-22 Zoom Video Communications, Inc. Conference gallery view intelligence system
US20230033104A1 (en) * 2021-07-30 2023-02-02 Zoom Video Communications, Inc. Detecting user engagement and adjusting scheduled meetings
US11611600B1 (en) 2021-08-25 2023-03-21 Microsoft Technology Licensing, Llc Streaming data processing for hybrid online meetings
US11843898B2 (en) * 2021-09-10 2023-12-12 Zoom Video Communications, Inc. User interface tile arrangement based on relative locations of conference participants
CN116055667A (zh) * 2021-10-20 2023-05-02 瑞轩科技股份有限公司 会议系统及其操作方法
US11882383B2 (en) 2022-01-26 2024-01-23 Zoom Video Communications, Inc. Multi-camera video stream selection for in-person conference participants
US20230289740A1 (en) 2022-03-11 2023-09-14 Microsoft Technology Licensing, Llc Management of in room meeting participant
JP2024113943A (ja) * 2023-02-10 2024-08-23 株式会社オルツ 音声処理のためのプログラム、システム、および方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1842016A (zh) * 2005-03-31 2006-10-04 株式会社日立制作所 利用无线通信系统中的广播组播服务实现多方会议服务的方法和设备

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996038983A1 (en) * 1995-06-02 1996-12-05 Intel Corporation Method and apparatus for controlling participant input in a conferencing environment
JPH09271006A (ja) * 1996-04-01 1997-10-14 Ricoh Co Ltd 多地点テレビ会議装置
US7412533B1 (en) * 1997-03-31 2008-08-12 West Corporation Providing a presentation on a network having a plurality of synchronized media types
US7143177B1 (en) * 1997-03-31 2006-11-28 West Corporation Providing a presentation on a network having a plurality of synchronized media types
US6628767B1 (en) * 1999-05-05 2003-09-30 Spiderphone.Com, Inc. Active talker display for web-based control of conference calls
FR2799914B1 (fr) * 1999-10-14 2001-12-28 France Telecom Identification d'intervenant dans une telereunion
US6807574B1 (en) * 1999-10-22 2004-10-19 Tellme Networks, Inc. Method and apparatus for content personalization over a telephone interface
US7426750B2 (en) * 2000-02-18 2008-09-16 Verimatrix, Inc. Network-based content distribution system
US7647555B1 (en) * 2000-04-13 2010-01-12 Fuji Xerox Co., Ltd. System and method for video access from notes or summaries
US6809749B1 (en) * 2000-05-02 2004-10-26 Oridus, Inc. Method and apparatus for conducting an interactive design conference over the internet
US7130446B2 (en) * 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
US20050084086A1 (en) * 2002-02-15 2005-04-21 Hesse Thomas H. Systems and methods for conferencing among governed and external participants
US7051049B2 (en) * 2002-02-21 2006-05-23 International Business Machines Corporation Real-time chat and conference contact information manager
JP4055539B2 (ja) * 2002-10-04 2008-03-05 ソニー株式会社 双方向コミュニケーションシステム
US20040223631A1 (en) * 2003-05-07 2004-11-11 Roman Waupotitsch Face recognition based on obtaining two dimensional information from three-dimensional face shapes
US20050018828A1 (en) * 2003-07-25 2005-01-27 Siemens Information And Communication Networks, Inc. System and method for indicating a speaker during a conference
US7305078B2 (en) * 2003-12-18 2007-12-04 Electronic Data Systems Corporation Speaker identification during telephone conferencing
US20060031291A1 (en) * 2004-06-04 2006-02-09 Beckemeyer David S System and method of video presence detection
US7499075B2 (en) * 2004-09-28 2009-03-03 Seiko Epson Corporation Video conference choreographer
KR20070018269A (ko) * 2005-08-09 2007-02-14 주식회사 케이티 다지점 영상 회의 제어장치, 이를 이용한 영상 회의 서비스확장 시스템 및 그 방법
CN100459711C (zh) * 2005-09-09 2009-02-04 北京中星微电子有限公司 一种视频压缩方法及使用该方法的视频系统
US20070106724A1 (en) * 2005-11-04 2007-05-10 Gorti Sreenivasa R Enhanced IP conferencing service
US20070153091A1 (en) * 2005-12-29 2007-07-05 John Watlington Methods and apparatus for providing privacy in a communication system
US8125509B2 (en) * 2006-01-24 2012-02-28 Lifesize Communications, Inc. Facial recognition for a videoconference
KR101240261B1 (ko) * 2006-02-07 2013-03-07 엘지전자 주식회사 이동통신 단말기의 영상 통화 장치 및 방법
US7792263B2 (en) * 2006-02-15 2010-09-07 International Business Machines Corporation Method, system, and computer program product for displaying images of conference call participants
US7797383B2 (en) * 2006-06-21 2010-09-14 Cisco Technology, Inc. Techniques for managing multi-window video conference displays
US20080255840A1 (en) * 2007-04-16 2008-10-16 Microsoft Corporation Video Nametags

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1842016A (zh) * 2005-03-31 2006-10-04 株式会社日立制作所 利用无线通信系统中的广播组播服务实现多方会议服务的方法和设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012109956A1 (zh) * 2011-02-15 2012-08-23 华为终端有限公司 视讯会议中会议信息的处理方法及设备
WO2016065540A1 (zh) * 2014-10-28 2016-05-06 华为技术有限公司 马赛克业务呈现/分发方法及装置
CN106797445A (zh) * 2014-10-28 2017-05-31 华为技术有限公司 马赛克业务呈现/分发方法及装置
CN106797445B (zh) * 2014-10-28 2020-04-21 华为技术有限公司 马赛克业务呈现/分发方法及装置
CN111258528A (zh) * 2018-12-03 2020-06-09 华为技术有限公司 语音用户界面的显示方法和会议终端
CN111258528B (zh) * 2018-12-03 2021-08-13 华为技术有限公司 语音用户界面的显示方法和会议终端
CN113287103A (zh) * 2019-08-05 2021-08-20 谷歌有限责任公司 媒体项中的事件进度检测
CN111786945A (zh) * 2020-05-15 2020-10-16 北京捷通华声科技股份有限公司 一种会议控制方法和装置

Also Published As

Publication number Publication date
CA2715621A1 (en) 2009-08-27
EP2257929A4 (en) 2013-01-16
BRPI0906574A2 (pt) 2015-07-07
KR20100116661A (ko) 2010-11-01
RU2488227C2 (ru) 2013-07-20
JP2011512772A (ja) 2011-04-21
RU2010134765A (ru) 2012-02-27
EP2257929A1 (en) 2010-12-08
WO2009105303A1 (en) 2009-08-27
TW200943818A (en) 2009-10-16
US20090210491A1 (en) 2009-08-20

Similar Documents

Publication Publication Date Title
CN101952852A (zh) 用于自动标识多媒体会议事件的参与者的技术
CN102138324B (zh) 用于管理多媒体会议事件的媒体内容的技术
CN101946511A (zh) 用于为多媒体会议事件生成视觉合成的技术
CN104185965B (zh) 经由会议事件环境系统加入私人会议事件的参与者验证和授权
US9419810B2 (en) Location aware conferencing with graphical representations that enable licensing and advertising
US9082106B2 (en) Conferencing system with graphical interface for participant survey
US9544158B2 (en) Workspace collaboration via a wall-type computing device
CN102771082B (zh) 具有混合能力的设备和接口之间的通信会话
US8682973B2 (en) Multi-user and multi-device collaboration
US9189143B2 (en) Sharing social networking content in a conference user interface
US9106794B2 (en) Record and playback in a conference
US10372315B2 (en) Location-aware conferencing with calendar functions
US20110268262A1 (en) Location-Aware Conferencing With Graphical Interface for Communicating Information
CN102067579A (zh) 管理多媒体会议事件的白板的技术
US10841115B2 (en) Systems and methods for identifying participants in multimedia data streams
WO2011136786A1 (en) Systems, methods, and computer programs for providing a conference user interface
US20110270663A1 (en) Location-Aware Conferencing With Participant Rewards
EP3065339B1 (en) Record and playback in a conference
WO2011136789A1 (en) Sharing social networking content in a conference user interface
KR20030096146A (ko) 무선 인터넷과 휴대용 정보통신 단말기를 이용한 모바일협업 시스템 및 그 구현 방법
WO2011136787A1 (en) Conferencing application store
WO2011136792A1 (en) Distributing information between participants in a conference via a conference user interface

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110119