CN101371244A - 在启用网络的会议中对发言者分类 - Google Patents

在启用网络的会议中对发言者分类 Download PDF

Info

Publication number
CN101371244A
CN101371244A CNA2007800030448A CN200780003044A CN101371244A CN 101371244 A CN101371244 A CN 101371244A CN A2007800030448 A CNA2007800030448 A CN A2007800030448A CN 200780003044 A CN200780003044 A CN 200780003044A CN 101371244 A CN101371244 A CN 101371244A
Authority
CN
China
Prior art keywords
speech
participant
streams
audio stream
history
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007800030448A
Other languages
English (en)
Other versions
CN101371244B (zh
Inventor
A·W·克兰茨
D·库克利卡
W·钟
G-W·沈
Z·Z·袁
T·M·摩尔
D·利维恩
M·R·范巴斯克尔克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN101371244A publication Critical patent/CN101371244A/zh
Application granted granted Critical
Publication of CN101371244B publication Critical patent/CN101371244B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M7/00Arrangements for interconnection between switching centres
    • H04M7/006Networks other than PSTN/ISDN providing telephone service, e.g. Voice over Internet Protocol (VoIP), including next generation networks with a packet-switched transport layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • H04M3/569Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants using the instant speaker's algorithm
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/06Selective distribution of broadcast services, e.g. multimedia broadcast multicast service [MBMS]; Services to user groups; One-way selective calling services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephonic Communication Services (AREA)

Abstract

描述了在启用网络的会议中对发言者分类的系统、方法、和/或技术(“工具”)。在一些场合下,这个发言者的分类列表指示哪个发言者是主导者。通过这个分类列表,一个参与者的通信设备可以提供关于发言者的背景。在一些场合下,一个参与者的通信设备具有呈现发言者的实时视频或其他视觉标记,例如每个或最具主导地位的发言者的名字、图片、头衔、或位置。这些和其他关于发言者的背景可以帮助参与者更好地理解启用网络的会议中的讨论。

Description

在启用网络的会议中对发言者分类
背景
当前,许多人通过启用网络的会议来远程通信。启用网络的会议允许人们不必旅行就可在群组中交互。但是这些远程会议可能会混乱,因为它们提供的背景比亲自参加的会议少。例如,一个在伦敦的会议参与者可能不知道谁正在发言——是该公司在波士顿的首席技术官还是纽约的厂商。而且当多个参与者同时发言时会更加混乱。
概述
描述了在启用网络的会议中对发言者分类的系统、方法、和/或技术(“工具”)。在一些场合下,这个发言者的分类列表指示哪个发言者是主导者。通过这个分类列表,一个参与者的通信设备可以提供关于该发言者的背景。在一些场合下,一个参与者的通信设备具有呈现发言者的实时视频或者其他视觉标记,例如每个或最具主导地位的发言者的名字、图片、头衔、或位置的显示器。这些和其他关于发言者的背景可以帮助参与者更好地理解启用网络的会议中的讨论。
提供本概述用来以简化形式介绍将要在下面的详细描述中进一步描述的概念的选集。本概述既不旨在表示所要求保护的主题的关键或实质特征,也不旨在用来帮助确定所要求保护的主题的范围。
附图简述
图1示出该工具的不同示例性可在其中操作的一个示例性操作环境。
图2示出一个示例性中央通信拓扑。
图3示出一个示例性分布式通信拓扑。
图4示出音频流的示例性流程图,其模块在图1中描述。
图5示出第一示例性语音/时间图。
图6示出第二示例性语音/时间图。
图7是描述该工具可在启用网络的会议中分类和/或选择下主导发言者的不同方式的一个示例进程。
图8阐明在启用网络的会议中确定主导发言者的一个示例性算法。
在整个公开和附图中使用相同的数字以引用相同的组件和特征。
详细描述
概观
下面的文献描述能够在启用网络的会议中分类发言者的工具。当一个以上参与者正在或者最近一直发言,该工具可以基于参与者的发言历史和其他因素在参与者之间分类。该工具可以向参与者提供这个分类列表以便该参与者可以获得正在或者最近一直发言的参与者的背景。在一些场合下,所述工具也可指示哪位参与者是主导发言者。
该工具可在其中启用这些和其他技术的环境,在下面的一个题为示例性操作环境的章节被首先阐明。该章节之后是题为示例性主导发言者确定的描述示例性操作环境中的元素可能操作的示例性方式另一章节。随后是题为分类进程的描述该工具在启用网络的会议中可分类发言参与者的方式的另一章节。题为示例性算法的最后一章阐明分类发言者模块可选择主导发言者的示例性算法。
示例性操作环境
在详细描述该工具前,提供下面关于示例性操作环境的讨论以便帮助读者理解可采用该工具的各个发明性方面的一些方式。下面描述的环境仅构成一个例子并且不旨在将该工具的应用限于任何一个特定的操作环境。可使用其他环境,而不背离所要求保护的主题的精神和范围。
图1在100大体示出了一个这样的具有五个与会者的操作环境,参与者A被示为用通信设备102通信,参与者B被示为用通信设备104通信,参与者C被示为用通信设备106通信,参与者D被示为用连接到电话至网络通信设备110的电话108通信,参与者E被示为用通信设备112通信。在某些场合下,一个参与者可以包括多人——例如在两个人正在电话108上经由扬声器电话或启用电话网络的会议呼叫发言。
该环境也具有通信网络114,例如一个企业内联网或者一个全球互联网(例如,因特网)。参与者的设备可以能够直接地(例如,启用无线因特网的膝上型计算机、PDA或图形输入板PC,或者有线或无线连接到因特网的台式计算设备或启用VoIP的电话或蜂窝电话)或者间接地(例如,连接到电话至网络设备的电话)与网络通信。该会议可以通过分布式或者中央网络拓扑(或这些的组合)来启用。示例性的分布式和中央网络拓扑作为下面描述的一个例子的一部分被示出。
通信网络和/或任何这类设备,包括电话和电话至网络设备,可以是具有一个或多个处理器116和计算机可读媒体118的一个计算设备(每个设备用“○”标记以指示这个可能性)。计算机可读媒体包括媒体处理器120,它具有话音活动模块122、优先级模块124、能访问历史模块128的分类发言者模块126以及配置模块130中的一个或多个。处理器能够访问和/或执行计算机可读媒体。媒体处理器能够从参与者处接收一个或多个音频流并且输出参与者之一是主导发言者的指示。所述媒体处理器被示为一个内聚的单元,尽管它的各部分可不同放置,例如一些模块驻留在网络114中而另一些模块驻留在其他设备之一中。
每个参与者可以提供和接收音频流和在某些场合下的视频流。话音活动模块能够确定所提供的音频是否可能是参与者的言语。因此,如果参与者A咳嗽(这将音频提供给会议),那么话音活动模块可以确定这个咳嗽不是言语。例如,它可以通过测量流中音频的强度和持续时间来这样做。
优先级模块能够为不同的音频流设置加权因子,例如将一个主持人的音频流设为比某个其他参与者的音频流重要。优先级模块也能够基于将要在下面详细讨论的静态或动态性质来向参与者指派优先级。
分类发言者模块能够分类发言者和/或确定启用网络的会议中某一特定发言者为主导发言者。例如,在某一特定时间点,所述分类发言者模块可以基于含有言语的发言者音频流的移动平均数来确定一个发言的参与者比其他两个发言的参与者更具主导地位。为此,分类发言者模块可以使用历史模块。历史模块能够维护音频流的历史。在一些场合下,历史模块也可以基于移动平均值来向音频分组指派更高的权重或重要性(分组是流的不连续的部分),例如通过相比其他包,向更新近接收的包指派更高的权重。历史模块也可以动态地改变分类发言者模块每隔多久确定哪个参与者是主导发言者。
配置模块包括设置,例如分类发言者或确定主导发言者的间隔和使用言语历史的时间周期。这些设置可以被默认设置或者在会议前或会议期间被接收。
示例主导发言者确定
下面的讨论描述该工具确定启用因特网的会议中哪个参与者是主导发言者的示例性方式。该讨论使用图1中的操作环境100的元素,尽管其他元素或其他环境也可以被使用。
媒体处理器120在因特网会议呼叫中从参与者处接收音频流并且输出这些发言者中哪个是主导发言者的指示。会议呼叫可以用中央、分布式、或组合中央分布式通信拓扑来启用。示例的中央和分布式拓扑将在下面描述。
图2示出了一个示例性中央通信拓扑200。在这里,媒体流从由A到F的每个参与者传递到音频视频或仅音频MCU(多点控制单元)VoIP(因特网协议上的语音)服务器202。这个服务器将一个或多个媒体流传递到每个参与者。这个服务器可以选择性地仅发送由服务器接收的一个或一些媒体流的组合的单个媒体流。在这个示例性中央通信拓扑中,媒体处理器120由服务器202执行。
图3示出了一个示例性分布式通信拓扑300。在这里,媒体流从由A到D的每个参与者通过因特网或者直接或者通过网络地址翻译(NAT)或媒体中继或其组合传递到每个其他参与者。例如,参与者A到D可能正在线上聊天。例如,参与者B将他或她的媒体流(音频和某些场合下的视频)传递给每个参与者A,C,D。在这个分布式拓扑中,媒体处理器120由参与者的计算设备(例如,参与者的膝上型计算机)执行。
在这些拓扑或者组合拓扑中,媒体处理器120从会议参与者处接收音频流并且指示哪个是主导发言者。在中央通信拓扑中,MCU VoIP服务器202的媒体栈用传播给会议参与者的会议信息文档生成指示参与者的主导发言者状态的一个事件。在分布式通信拓扑中,每个参与者的通信设备(如果能够)生成指示参与者的主导发言者状态的一个事件。为了易于说明,下面的例子含有三个参与者,尽管可处理更多的参与者。
假设有分别使用图1中的设备102、104、106的三个会议参与者A、B、C。媒体处理器接收(以上面的拓扑中的任一个)来自参与者A的音频流“AA”、来自参与者B的音频流“BA”以及来自参与者C的音频流“CA”。这在图4中示出,图4示出了图1的模块122、124和126的流程图。这些模块是媒体处理器120(以虚线示出)的一部分,尽管它们可能是分立的或者仅仅表示执行特定动作的媒体处理器的一部分。
话音活动模块122以分组形式接收音频流;每个分组以特定周期接收,此处为每20毫秒或者在每个分组被接收时。话音活动模块确定来自A和B来的音频流是话音而来自C的音频流不是(例如,它是背景噪声、咳嗽或喷嚏)。话音活动模块输出两个活动发言者——被确定包含参与者A和B言语的两个媒体流。这些在图4中显示为“Av”“Bv”,并且也显示为图5中从T=0s到T=2s的时间内介于示例性言语/时间图500中T=0s和T=2s时的垂直线之间的来自“A”和“B”的水平线。注意到B从T=0s到T=1s以及T=1s与T=2s之间的大约200毫秒内没有说话。
基本上,A和B在最后两秒钟的至少一部分说话而C却没有。话音活动模块可以传递所有的音频流并且指示哪些表示言语或者仅仅传递它确定是言语的那些音频流。此处我们假设后者(图5中仅显示言语流)。话音活动模块也可以平衡音频流上的强度和增益,例如当一个参与者相比另一个参与者离自己的麦克风较近。
优先级模块124接收活动发言者流(或其指示)并且可以改变它们的相对重要性。在一些场合下,默认或在接收关于一个参与者的信息时,一些参与者被认为比其他参与者重要。例如,如果A的加权因子为2,那么他的言语将是其他参与者言语重要性的两倍。加权可以作为使用应用程序编程接口(API)配置的参数来被接收。此处所述参与者没有加权因子。
优先级模块也可以用来设置参与者的优先级以达到打破平局的目的。
分类发言者模块126接收此时没有加权信息也没有优先级的活动发言者音频流。分类发言者模块基于其活动言语的历史来确定哪个发言者是主导者。这个历史可以是某一段周期,甚至小到一个分组,或大到许多秒。历史被存储在历史模块128中。此处所用的言语周期是两秒。因为仅有A在最近两秒周期内一直说话,分类发言者模块确定A是T=1s的主导者(此时仅有一秒的历史)。
也以一定时间间隔,此处为每一秒(从T=1s开始)确定哪个是主导者。选择一秒作为时间间隔是因为人类言语通常持续一秒或更长。通常与会者会插入持续大约一秒或更长的有意义的言语——例如针对另一个参与者的问题回答“是”或“不是”。流中持续少于一秒的音频在会议中通常没有意义。大约两秒或更多秒的历史有助于使主导发言者不要被过于频繁地切换。比两秒钟长得多的历史(例如,30秒)将导致所述切换过于稀少以至于对参与者无益。如果主导发言者切换过于频繁,例如大约半秒钟或更少,则会议参与者可能难以跟踪哪个参与者正在发言或者难以使该背景与听到的言语相关。在一些场合下主导地位是哪个发言者在某一时期更加活跃的量度。在其他一些场合下主导地位基于这个或其他因素,例如发言者的重要性。
基于参与者A在最近两秒内发言多于参与者B,分类发言者模块在T=2s确定参与者A是主导发言者。然而,如果B有一个为2的加权因子,则A的发言需要至少是B的两倍。该模块表明A是主导发言者,在图4中示为“AD”,图5中在T=2s(两秒)上方一条垂直线上显示“A”。
注意到在3秒时,参与者B在前2秒将比参与者A发言更多并且将被指示为主导发言者,且在4秒时也被指示为主导发言者。在T=3s,B将在几乎全部最后两秒内发言。在T=4s,B的发音将会比参与者C的发言多。在T=5s,C的发音将会比B的发言多得多。注意到C在T=5s将成为主导发言者,尽管C当前不在发言。在一些场合下,主导发言者在确定主导发言者的时间间隔处不在发言。即使其他参与者在所述时间间隔正在发言这样,也可以是这样。在T=6s,分类发言者模块可指示没有发言者是主导者,因为没有人在最近一秒发言。分类发言模块也可不作出指示,因此允许C在T=6s仍然为主导发言者。
为了帮助读者理解该工具可以确定一个发言者为主导者的许多方式中的一些,以下给出示出不同发言者场景的其他例子。
例如,图6阐明另一个示例性言语/时间图600。此处假定没有给出加权因子并且当对尚未被指示为主导发言者的参与者有平局时给出优先级。
在T=0s到1s,话音活动模块每20毫秒(从T=0到T=1间50次)确定参与者A正在发言。这用从参与者A直到T=1s的实线示出。此时,优先级模块没有指示优先级。分类发言者模块在它的历史模块中保留这个历史,确定仅有A发言(用T=1s上方垂直线上方的“A”示出),并且指示A是主导发言者。
从T=1s到T=2s,话音活动模块确定所有三个参与者都在发言。这用介于T=1s和T=2s之间的来自A、B、C的三根实线示出。分类发言者模块确定A仍是主导发言者(如果先前指示的接收者仍是前面的主导发言者就不需要由分类发言者模块积极地指示)。
从T=2s到T=3s,话音活动模块确定所有三个参与者都在发言。这用介于T=2s和T=3s之间的三根来自A、B、C的三根实线示出。分类发言者模块确定所有三个参与者在同样的时间量内例如,全部最近两秒都积极地发言。在这个平局下,分类发言者模块可以任意选择一个主导发言者,基于哪个发言者首先加入会议来选择,或基于哪个发言者在平局存在前发言来选择。此处分类发言者模块基于哪个发言者在平局存在前发言来选择,因此选择A作为主导发言者。分类发言者模块向优先级模块指示A已经被选择。因此,分类发言者模块可首先基于某人是否为前一主导发言者在平局发言者之间选择。如果发言者中没有前一主导发言者并且之前都不曾是主导发言者,那么分类发言者模块可以选择第一个加入会议的人。之后,它可以清除主导发言者标志并再次经历上述步骤。
从T=3s到T=4s,话音活动模块确定参与者B和C在最近一秒钟内一直发言。基于此以及B和C在T=2s和T=3s发言的历史,分类发言者模块确定这是个平局并且基于B在C之前加入会议而选择B,并向优先级模块指示这个对B的选择。分类发言者模块指示B是主导发言者。
从T=4s到T=5s,话音活动模块确定参与者A和C在最近一秒内一直发言。基于此以及C在T=3s到T=4s发言而A没有发言的历史,分类发言者模块确定并且指示C是主导发言者。
从T=5s到T=6s,话音活动模块确定参与者A和C在最近一秒内一直发言。基于此以及A与C在T=4s到T=5s发言的历史,分类发言者模块确定这是一个平局。分类发言者模块确定C是主导发言者因为C在T=4s时是主导者。
在每个这些情况中,媒体处理器可以使用API用事件输出哪个参与者是主导发言者的指示。这个指示可以被参与者使用的设备接收。基于这个指示,设备可以提供有关主导发言者的背景,例如该参与者提供的实况视频,设备可以对其突出显示、扩展或示为主导者,或者可对主导发言者的图片、头衔以及位置突出显示、扩展或示为主导者。
分类进程
下面的讨论描述在启用网络的会议中工具分类发言参与者的不同方式。
图7是一个如此的示例性进程700。它被示出为一系列表示由例如媒体处理器120和分类发言者模块126的图1的操作环境100的元素执行的各个操作或动作的框。此处公开的这个和其他进程可以用任何合适的硬件、软件、固件或其组合来实现;在软件和固件的情况下,这些进程表示了实现为存储于计算机可读媒体中并且可由一个或多个处理器执行的计算机可执行指令的一组操作。
框702接收来自启用网络的会议中的三个或更多个参与者的音频流或者有关这些音频流的信息。这些音频流可以包括实时接收的分组,例如一个具有十个分组的两秒钟的音频流,每个分组表示从一个会议参与者处接收的20毫秒的音频。关于音频流的信息可以同样或者代替被接收,例如用或包括CSRC(贡献源)或带外信令机制。这些音频流或信息可由集中式通信拓扑中的中央服务器或分布式通信拓扑中的参与者通信设备执行的媒体处理器120接收。这些场景的例子在上面被描述。
框704或者通过分析音频流本身或通过分析关于音频流的信息来确定哪些音频流包含言语。在上面的一个例子中,话音活动模框122确定哪些音频流或其中的部分是言语以及哪些不是。话音活动模框可以确定参与者的音频流的某一部分不是言语而其他部分是。这可以有效地排除将一个参与者的音频流的一些分组确定为言语,因此减少了那个参与者将是最高类(即,主导)发言者的可能性。
框706可以将加权因子构建到确定包含言语的音频流或有关它们的信息中。这个加权因子可以表示由一个或多个参与者或默认设置作出的选择,例如使得对作为会议主持人或第一加入者的参与者赋予比另一参与者更大的权重。框706可以在框702和/或框704之前、之后或同时活动。在上面描述的例子中,优先级模块124含有或者接收加权因子并且应用这些到确定包含言语的音频流。
框708可以向音频流或者与那些音频流相关联的参与者添加优先级,优先级可用于在否则将平局的参与者之间针对主导发言者或在分类列表中较后位置作出决定。正如上面例子所阐明的,优先级模块124可以基于不同的因素打破参与者之间的平局。
框710保留音频流的历史。这个历史可以如上面所阐明地被保留在历史模块128中,并且可以基于接收音频流中的一个或多个言语分组(例如,两秒钟内接收100个分组)或者有关音频流的信息。此外,历史模块可以包含足够的关于音频流(例如,音频流被确定为包含某个数量的言语)和与他们相关联的参与者的历史,以使分类发言者模块126能够动态改变如何分类和确定主导地位。
框712基于已经被确定包含言语的音频流或有关音频流的信息的历史来分类音频流。框712也可以基于刚接收到的信息或针对每个音频流的单个分组来这样做。框712也可以确定哪个音频流和/或与它相关联的参与者是主导者。框712可以按特定时间间隔并基于来自配置模块130的历史的特定周期分类,尽管这些时间间隔和周期可能随时间改变。
例如,分类发言者模块126可以基于在先前两秒(即,以两秒为周期)的发言活动按一秒的时间间隔分类发言的参与者,正如上面在描述确定主导发言者的例子中所述。这些时间间隔和周期可能接收自配置模块130并且可以由默认或以其他方式设置。分类发言者模块可以接收其他时间间隔和周期,包括那些基于较长的、正在进行的言语历史。例如,如果一个参与者不间断发言超过指定或预先确定的周期(例如,八分钟),那么配置模块可以将时间间隔增加到三秒钟。或者媒体处理器可基于它的性能或媒体处理器或分类发言者模块执行于上的计算机设备的性能,来确定减少或增加时间间隔并因此改变配置模块中的设置。例如,媒体处理器可以将具有有限计算资源的蜂窝电话上的时间间隔增至四秒钟并将周期增至四秒、六秒或八秒。
在一个场合中,框712执行一个算法来分类有效发言参与者以确定主导地位。这个在稍后描述并在图8示出。
框714将发言参与者的分类列表提供给一个或多个启用网络的会议的参与者。这个分类列表可随事件并使用API提供。在分布式通信拓扑中,可本地使用事件来指示背景。在中央通信拓扑中,服务器可以将事件的通知分发给远程参与者而不必依赖于CSRC。例如,MCU VoIP服务器202可以将分类列表提供给电话108(电话可能不能接收CSRC)。然后电话可以向参与者D指示在这个分类列表中有什么(例如,哪个参与者是主导者)。
响应于这个指示,参与者的通信设备可能按上述不同的方式显示发言者状态(例如,主导者、第二人、第三人)。提供给参与者的背景可以帮助参与者更好地理解启用网络的会议中的讨论。
示例性算法
图8是用于确定启用网络的会议中的主导发言者的一个示例性算法800。它被示出为表示由例如话音模块122、分类发言者模块126、和历史模块128的图1的操作环境100中的元素执行的单个操作或动作的一系列框。这个进程可以与此处描述的其他进程一起或者分开进行。
按一个特定的时间间隔,框802确定会议中哪些参与者的音频流包含言语。框804基于随时间每一音频流包含言语的量为会议中每个参与者更新发言活动的移动平均数。
框806确定哪个音频流有最高的言语移动平均数。移动平均数可以基于一个特定周期内参与者的言语历史以及赋予那个言语的权重。例如,参与者的移动平均数可以用(例如,包含言语的分组的)运行的总和(runing sum)、一段时期内的平均数或其他可用来计算言语量的值的其他统计加权来计算。如果单个流有最高移动平均数,则框808将这个流标记为主导发言者。如果两个或多个流具有相同的言语最高移动平均数,则框810维持当前主导发言者。
如果两个或多个发言者平局并且没有一个是当前主导发言者,则框812将最不新近标记的流和/或更加新近包含言语的流标记为主导发言者。在第一种情况下,如果两个或多个流都不曾被标记为主导发言者,则框812将先加入会议的流标记为主导者。在第二种情况下,如果言语流中的两个具有相同的最高移动平均数并且其中仅有一个言语流在该时间间隔当前包含言语,则框812将当前包含言语的言语流标记为主导发言者。
在任何这些情况下,算法保留哪个流被指示为主导发言者以及可任选地它何时被选择的历史。这允许基于上面的算法处理将来的流间平局。
结论
上述系统、方法、和/或技术允许在启用网络的会议中分类发言者,包括哪个发言者是主导者。用这个分类列表,参与者的通信设备可以提供关于发言者的背景。这个背景可以帮助参与者更好地理解启用网络的会议中的讨论。尽管这些系统、方法、和技术用结构化特征和/或方法活动专用的语言被描述,但可以理解,所附权利要求书中定义的这些并不必限于所描述的具体特征或动作。相反,具体特征和动作作为实现所要求保护的系统、方法、和技术的示例性形式被公开。

Claims (20)

1.一种至少部分由计算设备执行的方法,包括:
接收被确定包含来自启用网络的会议中的参与者的言语的音频流或者关于被确定包含言语的所述音频流的信息;以及
基于已被确定包含言语的所述音频流或关于所述音频流的信息的历史来对所述音频流分类。
2.如权利要求1所述的方法,其特征在于,所述接收的动作接收被确定包含言语的音频流,且所述分类的动作基于已被确定包含言语的音频流的历史。
3.如权利要求1所述的方法,其特征在于,所述接收的动作接收关于被确定包含言语的所述音频流的信息的历史,且所述分类的动作基于关于已被确定包含言语的所述音频流的信息的历史。
4.如权利要求3所述的方法,其特征在于,所述有关被确定包含言语的所述音频流的信息包括CSRC(贡献源)。
5.如权利要求1所述的方法,还包括接收尚未被确定包含言语的音频流以及确定所述音频流包含言语。
6.如权利要求1所述的方法,还包括基于所述分类的动作确定所述参与者中的一个是主导发言者。
7.如权利要求6所述的方法,还包括指示哪个参与者是主导发言者。
8.如权利要求7所述的方法,其特征在于,所述指示的动作包括通知有效参与者使用的通信设备以使所述通信设备能够提供哪个参与者是主导发言者的视觉标记。
9.如权利要求8所述的方法,其特征在于,所述接收的动作包括接收含有被确定包含言语的音频流的一部分的分组,所述历史包括大约两秒或更多秒的所接收的分组,且所述确定的动作每半秒至一秒半被重复执行。
10.如权利要求1所述的方法,其特征在于,所述确定的动作还基于从中接收被确定包含言语的音频流的参与者的重要性。
11.一个或多个其中含有计算机可读指令的计算可读媒体,所述指令当由计算机设备执行时,使所述计算设备执行以下动作,包括:
确定含有三个或更多个参与者的启用网络的会议中的一个或多个音频流中哪些包含言语以提供言语流;
更新所述言语流的移动平均数,所述移动平均数至少部分基于一段时期内每一言语流中的言语量;
确定哪个言语流具有最高移动平均数;
如果仅有一个言语流具有最高移动平均数,则将那个言语流标记为主导发言者;或
如果言语流中有两个具有相同的最高移动平均数并且所述言语流中仅有一个当前包含言语,则将当前包含言语的所述言语流标记为主导发言者;以及
向所述启用网络的会议中的参与者指示所标记的言语流是有效的主导发言者,以使与所述主导发言者相关联的背景能够被提供给所述参与者。
12.如权利要求11所述的媒体,其特征在于,所述指示的动作大约每秒钟执行一次。
13.如权利要求11所述的媒体,还包括,如果所述言语流中的两个有相同的最高移动平均数并且所述言语流中的一个以上最新近包含言语,则将最新近包含言语的所述一个以上的言语流中最不新近标记的言语流标记为主导发言者。
14.一种至少部分由计算设备执行的方法,包括:
在有三个或更多个参与者的启用因特网的会议中从一个或多个参与者接收音频流;
确定哪些音频流包含言语以提供一个或多个言语流;
维护这些言语流的历史;
按一个时间间隔并基于这些言语流的历史的一个周期,确定所述参与者中的一个是主导发言者;以及
向所述三个或更多个参与者中的至少一个指示哪个参与者被确定为主导发言者。
15.如权利要求14所述的方法,还包括为所述言语流中的至少一个分配加权因子,且其中所述确定的动作还至少部分基于这个加权因子。
16.如权利要求14所述的方法,还包括将优先级添加到至少一个言语流,当两个或多个音频流的历史在其他方面相当时,所述优先级用来确定一个参与者是主导发言者,并且其中所述确定的动作基于这个优先级。
17.如权利要求14所述的方法,还包括基于这些言语流中至少一个的历史来改变时间间隔和用这个改变的时间间隔再次执行如权利要求14所述的方法。
18.如权利要求14所述的方法,还包括基于所述言语流中至少一个的先前历史改变所述周期,所述先前历史在所述周期的开始的历史之前,以及再次执行如权利要求14所述的方法,其中所述确定的动作基于这个改变的周期。
19.如权利要求14所述的方法,还包括基于被确定为主导发言者的所述参与者的言语流含有大于所述周期的言语而改变所述时间间隔和周期,以及使用这个改变的时间间隔并基于这个改变的周期再次执行如权利要求14所述的方法。
20.如权利要求14所述的方法,还包括基于所述计算设备的性能改变所述时间间隔和周期并且使用这个改变的时间间隔并基于这个改变的周期再次执行如权利要求14所述的方法。
CN2007800030448A 2006-01-13 2007-01-03 在启用网络的会议中对发言者分类 Expired - Fee Related CN101371244B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/275,559 US7664246B2 (en) 2006-01-13 2006-01-13 Sorting speakers in a network-enabled conference
US11/275,559 2006-01-13
PCT/US2007/000123 WO2007087123A1 (en) 2006-01-13 2007-01-03 Sorting speakers in a network-enabled conference

Publications (2)

Publication Number Publication Date
CN101371244A true CN101371244A (zh) 2009-02-18
CN101371244B CN101371244B (zh) 2012-06-13

Family

ID=38263178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800030448A Expired - Fee Related CN101371244B (zh) 2006-01-13 2007-01-03 在启用网络的会议中对发言者分类

Country Status (8)

Country Link
US (1) US7664246B2 (zh)
EP (1) EP1974283A1 (zh)
KR (1) KR20080085030A (zh)
CN (1) CN101371244B (zh)
BR (1) BRPI0706212A2 (zh)
CA (1) CA2631337A1 (zh)
RU (1) RU2008128430A (zh)
WO (1) WO2007087123A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102647578A (zh) * 2011-02-17 2012-08-22 鸿富锦精密工业(深圳)有限公司 视频切换系统及方法
CN103891271A (zh) * 2011-10-18 2014-06-25 统一有限责任两合公司 用于提供在会议中产生的数据的方法和设备
WO2016095244A1 (zh) * 2014-12-15 2016-06-23 深圳Tcl新技术有限公司 视频会议中视频窗口的调整方法及装置

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7499969B1 (en) * 2004-06-25 2009-03-03 Apple Inc. User interface for multiway audio conferencing
US20070206760A1 (en) * 2006-02-08 2007-09-06 Jagadish Bandhole Service-initiated voice chat
US7898950B2 (en) * 2006-08-18 2011-03-01 Microsoft Corporation Techniques to perform rate matching for multimedia conference calls
US8773494B2 (en) 2006-08-29 2014-07-08 Microsoft Corporation Techniques for managing visual compositions for a multimedia conference call
US20080101410A1 (en) * 2006-10-25 2008-05-01 Microsoft Corporation Techniques for managing output bandwidth for a conferencing server
US8385233B2 (en) * 2007-06-12 2013-02-26 Microsoft Corporation Active speaker identification
US8179821B2 (en) * 2007-06-25 2012-05-15 Comverse, Ltd. Identifying participants of an audio conference call
US9100319B2 (en) 2007-08-10 2015-08-04 Fortinet, Inc. Context-aware pattern matching accelerator
US8079084B1 (en) 2007-08-10 2011-12-13 Fortinet, Inc. Virus co-processor instructions and methods for using such
US20100225733A1 (en) * 2007-10-01 2010-09-09 Hewlett-Packard Development Company Systems and Methods for Managing Virtual Collaboration Systems
US8514265B2 (en) * 2008-10-02 2013-08-20 Lifesize Communications, Inc. Systems and methods for selecting videoconferencing endpoints for display in a composite video image
US8751565B1 (en) 2011-02-08 2014-06-10 Google Inc. Components for web-based configurable pipeline media processing
US8681866B1 (en) 2011-04-28 2014-03-25 Google Inc. Method and apparatus for encoding video by downsampling frame resolution
US9106787B1 (en) 2011-05-09 2015-08-11 Google Inc. Apparatus and method for media transmission bandwidth control using bandwidth estimation
US8913103B1 (en) 2012-02-01 2014-12-16 Google Inc. Method and apparatus for focus-of-attention control
US20130201272A1 (en) * 2012-02-07 2013-08-08 Niklas Enbom Two mode agc for single and multiple speakers
US8782271B1 (en) 2012-03-19 2014-07-15 Google, Inc. Video mixing using video speech detection
US9185429B1 (en) 2012-04-30 2015-11-10 Google Inc. Video encoding and decoding using un-equal error protection
CN102857732B (zh) * 2012-05-25 2015-12-09 华为技术有限公司 一种多画面视讯会议中的画面控制方法、设备及系统
US8970661B2 (en) 2012-10-20 2015-03-03 Microsoft Technology Licensing, Llc Routing for video in conferencing
US9172740B1 (en) 2013-01-15 2015-10-27 Google Inc. Adjustable buffer remote access
US9311692B1 (en) 2013-01-25 2016-04-12 Google Inc. Scalable buffer remote access
US9225979B1 (en) 2013-01-30 2015-12-29 Google Inc. Remote access encoding
EP2974253B1 (en) * 2013-03-15 2019-05-08 Dolby Laboratories Licensing Corporation Normalization of soundfield orientations based on auditory scene analysis
GB2513559B8 (en) 2013-04-22 2016-06-29 Ge Aviat Systems Ltd Unknown speaker identification system
WO2016126819A1 (en) * 2015-02-03 2016-08-11 Dolby Laboratories Licensing Corporation Optimized virtual scene layout for spatial meeting playback
JP6651989B2 (ja) * 2015-08-03 2020-02-19 株式会社リコー 映像処理装置、映像処理方法、及び映像処理システム
US10153002B2 (en) * 2016-04-15 2018-12-11 Intel Corporation Selection of an audio stream of a video for enhancement using images of the video
US20170344327A1 (en) * 2016-05-27 2017-11-30 Microsoft Technology Licensing, Llc Communication Visualisation
US10778728B2 (en) * 2016-12-02 2020-09-15 Microsoft Technology Licensing, Llc. Cognitive resource selection
US11363083B2 (en) 2017-12-22 2022-06-14 British Telecommunications Public Limited Company Managing streamed audio communication sessions
US11652857B2 (en) * 2020-12-10 2023-05-16 Verizon Patent And Licensing Inc. Computerized system and method for video conferencing priority and allocation using mobile edge computing
WO2022146169A1 (en) * 2020-12-30 2022-07-07 Ringcentral, Inc., (A Delaware Corporation) System and method for noise cancellation

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6457043B1 (en) * 1998-10-23 2002-09-24 Verizon Laboratories Inc. Speaker identifier for multi-party conference
US6466550B1 (en) 1998-11-11 2002-10-15 Cisco Technology, Inc. Distributed conferencing system utilizing data networks
JP2000270304A (ja) * 1999-03-17 2000-09-29 Nec Corp 多地点テレビ会議システム
JP2001326740A (ja) 2000-05-18 2001-11-22 Nec Corp 音声多重分離装置および音声多重分離方法
US6934756B2 (en) 2000-11-01 2005-08-23 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US6577333B2 (en) * 2000-12-12 2003-06-10 Intel Corporation Automatic multi-camera video composition
US6804340B2 (en) * 2001-05-03 2004-10-12 Raytheon Company Teleconferencing system
US6701293B2 (en) 2001-06-13 2004-03-02 Intel Corporation Combining N-best lists from multiple speech recognizers
US7558221B2 (en) * 2004-02-13 2009-07-07 Seiko Epson Corporation Method and system for recording videoconference data
US20070291667A1 (en) * 2006-06-16 2007-12-20 Ericsson, Inc. Intelligent audio limit method, system and node

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102647578A (zh) * 2011-02-17 2012-08-22 鸿富锦精密工业(深圳)有限公司 视频切换系统及方法
CN102647578B (zh) * 2011-02-17 2014-08-13 鸿富锦精密工业(深圳)有限公司 视频切换系统及方法
CN103891271A (zh) * 2011-10-18 2014-06-25 统一有限责任两合公司 用于提供在会议中产生的数据的方法和设备
WO2016095244A1 (zh) * 2014-12-15 2016-06-23 深圳Tcl新技术有限公司 视频会议中视频窗口的调整方法及装置
CN105791738A (zh) * 2014-12-15 2016-07-20 深圳Tcl新技术有限公司 视频会议中视频窗口的调整方法及装置

Also Published As

Publication number Publication date
CA2631337A1 (en) 2007-08-02
US7664246B2 (en) 2010-02-16
KR20080085030A (ko) 2008-09-22
BRPI0706212A2 (pt) 2011-03-15
RU2008128430A (ru) 2010-01-20
CN101371244B (zh) 2012-06-13
WO2007087123A1 (en) 2007-08-02
US20070165820A1 (en) 2007-07-19
EP1974283A1 (en) 2008-10-01

Similar Documents

Publication Publication Date Title
CN101371244B (zh) 在启用网络的会议中对发言者分类
US20200228358A1 (en) Coordinated intelligent multi-party conferencing
CN102138324B (zh) 用于管理多媒体会议事件的媒体内容的技术
US8477174B2 (en) Automatic video switching for multimedia conferencing
US8392503B2 (en) Reporting participant attention level to presenter during a web-based rich-media conference
US7248684B2 (en) System and method for processing conference collaboration records
US7698141B2 (en) Methods, apparatus, and products for automatically managing conversational floors in computer-mediated communications
EP1526706A2 (en) System and method for providing communication channels that each comprise at least one property dynamically changeable during social interactions
JP5959748B2 (ja) オーケストレーション・モデルを実施するビデオ会議システム
EP2342884B1 (en) Method of controlling a system and signal processing system
CN101983501A (zh) 具有语音消息概要的用户界面
CN101689997A (zh) 用于识别用来主持会议的多点控制单元的方法和系统
US20120259924A1 (en) Method and apparatus for providing summary information in a live media session
CN101421728A (zh) 挖掘关于服务的数据
CN109923833A (zh) 用于pstn服务的数据中心质心度量计算
CN101668163A (zh) 视讯会议中的点名方法和设备
EP2013768A2 (en) Methods and apparatuses for processing audio streams for use with multiple devices
CN110024353B (zh) 认知资源选择
CN101553801B (zh) 用于处理多个设备使用的音频流的方法和装置
EP1453287B1 (en) Automatic management of conversational groups
Tsankov et al. Modified Brady voice traffic model for WLAN and WMAN
CN105227895B (zh) Mcu堆叠中的视频布局及处理的方法
Soja et al. Determination of efficient bandwidth utilization during multicast using data envelopment analysis
CN116980395A (zh) 抖动缓冲区大小的调整方法、装置和计算机设备
Radenkovic et al. Supporting collaborative Audio in the Internet

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150428

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150428

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120613

Termination date: 20200103

CF01 Termination of patent right due to non-payment of annual fee