CN102209227A

CN102209227A - 在视频会议中增加翻译的方法和系统

Info

Publication number: CN102209227A
Application number: CN2011100762548A
Authority: CN
Inventors: D·利伯曼; A·卡普兰
Original assignee: Polycom Inc
Current assignee: Polycom Inc
Priority date: 2010-03-30
Filing date: 2011-03-29
Publication date: 2011-10-05
Also published as: JP2014056241A; EP2373016A2; JP5564459B2; JP2011209731A; US20110246172A1; AU2011200857A1; AU2011200857B2

Abstract

一种多语言多点视频会议系统提供了与会者发言的实时翻译。包含语音的音频流可以被转换为文字并作为字幕被插入视频流中。发言还可以通过以下方式从一种语言翻译成另一种语言：将翻译后的语音插入视频流中，选择字幕，或用由文字至语音引擎生成的其他语言的语音来代替原始音频流。不同与会者可以根据由与会者提供的关于期望语言的信息来接收相同发言的不同翻译。

Description

在视频会议中增加翻译的方法和系统

技术领域

本发明涉及视频会议通信，更具体地涉及多语言多点视频会议领域。

背景技术

视频会议可以去除许多限制。视频会议可以去除的一种物理限制是从一个地点(端点/终端)到另一地点的物理距离。视频会议可以产生来自世界不同地方的与会者(conferee)如同在一个房间里一样的体验。视频会议使得全世界的人们能够容易地彼此通信而不需要从一个地方旅行到另一地方，而旅行是昂贵、耗时并且污染空气的(由于需要使用汽车和/或飞机)。视频会议可以去除时间因素以及距离限制。随着可以在不同网络上使用的视频会议设备种类的增加，越来越多的人使用视频会议作为其通信工具。

在许多情况下，视频会议可以是多语言会议，会议中来自全球不同地方的人们需要以多种语言彼此说话。在端点位于不同国家、以不同语言发言的多点视频会议中，会议中的一些与会者可能需要以不是其母语的语言发言以便能够沟通和理解其它地点(端点)的与会者。有时，即使说相同语言但是有不同口音的人也可能在理解其他与会者上存在问题。这种情况可能导致理解上的不方便和/或错误。

在一些其他会议中，一个或多个与会者可能具有听力问题(例如，聋或听力损伤的人)。聋或听力损伤的人可能仅在其可以读出发言者的嘴唇时才能有效地参与视频会议，这在发言人没有出现在显示器上或缩放无效等情况下变得困难。

听力损伤或讲外语的与会者所使用的一种技术是依赖人类口译者传达会议的内容。典型地，口译者站得靠近与会者所处的会议室前部，以使听力损伤者观看口译者。

另一种使用的技术是在一个或多个端点使用闭路字幕引擎。一个或多个闭路字幕输入装置可以与一个或多个端点相关联。闭路字幕输入装置可以是计算机辅助转录装置，例如，计算机辅助实施翻译器、个人数字助理(PDA)、通用个人计算机等。为了启动闭路字幕特征，字幕员的端点的IP地址在闭路字幕输入装置的网络浏览器的字段中被输入。与该端点相关联的网页将显示，以及用户可以访问相关联的闭路字幕页面。一旦字幕员选择闭路字幕页面，字幕员可以开始将文字输入该当前字段中。文字然后被显示给参加视频会议的一个或多个端点。例如，文字可以被显示给第一端点、计算装置、个人数字助理(PDA)等。

字幕员可以选择向谁显示闭路字幕。字幕员可以决定在参加会议的所有地点显示文字，除了例如位置2和3。又例如，用户可以选择仅在位置5显示闭路字幕文字。换句话说，闭路字幕文字可以被组播给字幕员选择的与会者。

如上所讨论的，例如，字幕员可以通过输入特定端点的IP地址来访问网页。闭路字幕文字输入页面被显示以接收闭路字幕文字。字幕员通过闭路字幕输入装置将文字输入到当前文字输入框中。当字幕员点击屏幕上或闭路字幕输入装置上的“输入”或类似按钮时，在当前文字输入框中输入的文字被显示给与视频会议相关联的一个或多个端点。

在多语言视频会议中，为听力损伤者服务的人类口译者可能面临一些问题。例如，一个问题可能发生在一个以上的人在说话的情况下。人类口译者将不得不决定将哪个发言者翻译给听力损伤的听众，以及如何指出当前正被翻译的发言者。

依赖人类翻译员也可能降低视频会议的体验，因为在会议混音中，翻译员的音频可能与正被翻译的人的音频同时被听见。在需要多于一个人类翻译员同时翻译的情况下，这种烦扰可能是不能容忍的。此外，在长会议中，人类翻译员的注意力降低，并且翻译员可能开始出错，并在会议期间暂停。

此外，在使用由字幕员启动闭路字幕的情况下，字幕员输入翻译作为显示文字，字幕员必须能够识别谁应当看见闭路字幕文字。字幕员还必须输入文字以显示给与视频会议相关的一个或多个端点。因此，字幕员必须总是警惕，并且努力不犯人为错误。

多点控制单元(MCU)可以被用于管理视频通信会议(即，视频会议)。MCU是可以位于网络节点、终端或其它地方的会议控制实体。MCU可以根据一定标准从访问端口接收和处理多个媒体通道，并通过其他端口将它们分配至所连接的通道。MCU的示例包括由Polycom公司提供的MGC-100，RMX

(RMX 2000是Polycom公司的注册商标)。通用的MCU在多个专利和专利申请中公开，例如，美国专利第6,300,973、6,496,216、5,600,646、5,838,664和/或7,542,068号，其全部内容通过引用结合于此。一些MCU由两个逻辑模块组成：媒体控制器(MC)和媒体处理器(MP)。

终端(可以被称作端点)可以是网络上的实体，能够提供与其他终端或与MCU的实时、双向音频和/或视听通信。端点(终端)和MCU的更全面的定义可以在国际电信联盟(“ITU”)标准中找到，例如但不限于，H.320，H.324，和H.323，可以在ITU中找到它们。

连续呈现(continuous presence，CP)视频会议是一个终端处的与会者可以同时观看会议中的多个其他与会者的地点的视频会议。每个地点可以显示在布局的不同块(segment)中，每个块可以是相同大小或不同大小的一个或多个显示器。被显示并且与布局的多个块相关联的地点的选择在参加相同会议的不同与会者之间可以不同。在连续呈现(CP)布局中，从地点接收的视频图像被缩小和/或剪修以适合块的大小。

发明内容

下面描述的实施例解决了多语言视频会议中的上述一些缺点。然而，视频会议中的上述缺点不以任何方式限制本发明概念的范围。缺点被呈现仅用于示例。

在一个实施例中，可以在多点控制单元(MCU)中实现新颖的系统和方法，将具有其所有有点的通用MCU转换为多语言翻译视频会议MCU(MLTV-MCU)。

在多语言翻译视频会议(MLTV-MCU)的一个实施例中，MLTV-MCU可以被通知多点视频会议中的一个或多个接收到的音频流中哪些音频流需要被翻译，以及不同的音频流需要被翻译成的语言。MLTV-MCU可以将每种需要的音频流翻译成一种或多种期望的语言，而不需要人类干预。MLTV-MCU可以将一个或多个音频流的一种或多种翻译在一个或多个端点屏幕上显示为字幕(举例而言)。

MLTV-MCU的一个实施例可以利用MLTV-MCU接收来自每个端点的分离的音频流这一点。因此，MLTV-MCU可以分别地翻译每个接收到的音频流，然后将这些流混合在一起，从而确保高质量的音频流翻译。

当与会者参加多点会议时，MLTV-MCU可以询问是否需要翻译。在一个实施例中，这种询问可以在交互式声音响应(IVR)会议中实现，在该会议中，与会者可以被指示按下特定键以响应特定问题。在使用“点击和查看(click and view)”选项的其他实施例中，在与会者的端点上可以显示菜单。该菜单可以提供不同翻译选项。选项可以涉及语言和相关地点，例如与会者的语言；与会者的发言将被翻译成的语言；其音频将被翻译成与会者的语言的端点；与会者期望翻译成的语言；书面翻译，使用字幕，还是有声翻译；如果是有声翻译，翻译是女声还是男声，以何种口音等等。与会者例如可以通过使用游标来响应这些问题。一种点击和查看方法的示例在美国专利第7,542,068号中具体公开，其全部内容通过引用结合于此。

一种MLTV-MCU示例可以使用声音校准阶段，在该阶段，可以使用IVR或其他技术要求在相关地点的与会者“说出你的名字”，并且再说几个预定词，前者在连续呈现(CP)视频会议中是通用程序。在声音校准阶段，MLTV-MCU可以收集与需要被翻译的声音的特征(口音)有关的信息。这可以通过要求与会者说预定数量的词(例如“good morning”、“yes”、“no”、“day”等等)来完成。校准信息可以被保存在数据库中供将来使用。

在一些实施例中，校准阶段可以被用于识别接收到的音频流的语言。在这样的实施例中，接收者端点可以指示MLTV-MCU将以特定语言(例如英文)发言的任何端点翻译成例如中文。这样的MLTV-MCU可以将接收到的校准词的音频串与查找表中的多个条目进行比较。该查找表可以包括不同语言的预定词串。当接收到在接收到的音频串和查找表中的条目之间的匹配时，MLTV-MCU可以自动确定接收的音频流的语言。MLTV-MCU可以访问数据库，它可以在数据库中存储信息以供未来使用。MLTV-MCU的另一实施例可以使用自动识别接收到的音频流的语言的商业产品。关于自动语言识别的信息可以在M.Sugiyama的题目为“Automatic language recognitionusing acoustic features”的文章中找到，其出版在1991年的International Conference on Acoustics，Speech and Signal Processing的论文集中。在一些实施例中，可以采用反馈机制来通知与会者关于与会者语言的自动识别，允许与会者推翻(override)该自动决定。这种指示和推翻信息可以通过使用“点击和查看”选项来执行。

MLTV-MCU可以被配置为同时将多个接收到的音频流翻译并显示为字幕。将被翻译的多个接收到的音频流在一个实施例中可以是音频能量高于一定阈值的预定数量的音频流。例如，该预定数量可以在3至5的范围内。在一个实施例中，将被翻译的音频流可以是来自用户请求MLTV-MCU翻译的端点的音频流。每个音频流翻译可以被显示在不同行上或由不同指示器来区分。

在一个实施例中，指示器可以包括针对每个音频流具有不同颜色的字幕，在字幕的开始处具有已经被翻译的与会者/端点的名称。当前被选择要混合的音频流的字幕可以用粗体显示。主发言者可以以下划线和粗体来标记。可以根据接收/测量到的信号能量为每个音频流翻译字幕使用不同的字体大小。在一个实施例中，主发言者可以是音频能量水平高于其他与会者的音频能量达一定时间段的一定百分比的与会者。主发言者的视频图像可以显示在CP视频图像的最大窗口中。在一些实施例中，主发言者的窗口可以用彩色框标记。

一旦MLTV-MCU已经识别出需要翻译的音频流，识别出该音频流的语言，以及识别出该音频流将被翻译成的语言，MLTV-MCU就可以将音频流转换为书面文字。在该实施例中，MLTV-MCU可以访问将音频流转换为文字的语音至文字引擎(STTE)。STTE可以使用商业上可用的部件，例如由微软公司提供的Microsoft SpeechSDK，国际商用机器公司提供的IBM Embedded ViaVoice，以及其他。

MLTV-MCU的一个实施例可以利用MLTV-MCU接收来自每个端点的分离的音频流这一点。因此，MLTV-MCU可以在将流混合在一起之前，分别地将每个需要的接收到的音频流转换为文字，以提升音频流转换为文字的质量。在MLTV-MCU的一个实施例中，音频流可以在被传输至STTE之前，通过一个或多个通用MCU噪声过滤器，过滤音频流以改进来自STTE的结果的质量。MCU音频模块可以区分嗓音和非嗓音。因此，在一个实施例中，MCU可以去除音频流的非嗓音部分，以及进一步确保高质量结果。

在一个实施例中，MLTV-MCU可以进一步包括反馈机制，在其中，与会者可以接收关于与会者话语的翻译的可视的评估指示。如果STTE可以以两种不同方式翻译与会者的语音，其可以报告其可信度指示，例如，50％的可信度指示。STTE可以向MLTV-MCU报告其可信度评估，而MLTV-MCU可以将其作为等级显示在与会者的屏幕上。在另一个实施例中，MLTV-MCU可以在发言与会者的显示器上显示STTE已经转换的文字(以原始语言)，从而能够实现一种类型的发言者反馈，用于验证STTE的转换。在一些实施例中，当STTE不能成功转换某个声音段时，可以向发言者和/或字幕的接收者发送指示。

在音频流已经被STTE转换为文字之后，MLTV-MCU的一个实施例可以由翻译引擎(TE)将该文字翻译为另一种语言。不同的翻译引擎(TE)可以被不同的实施例使用。在一些实施例中，TE可以是网站，例如

Translate(Google是谷歌公司的注册商标)，以及

Babel fish网站(YAHOO！是雅虎公司的注册商标)。其他实施例可以使用例如由Babylon Ltd.提供的商业翻译引擎。翻译引擎可以是MLTV-MCU的一部分，或在替换实施例中，MLTV-MCU可以访问翻译引擎，或两者。

MLTV-MCU可以同时将不同语言的一种或多种文字翻译为不同语言的一种或多种文字。翻译文字可以由MLTV-MCU以适当定时安排顺序，以便在适当端点上以适当格式显示为字幕。MLTV-MCU可以在每个端点屏幕上同时显示一个或多个其他与会者的字幕。字幕可以是不同音频流的翻译文字，例如每个音频流可以具有不同语言。

在一些实施例中，MCU可以延迟音频流，以使音频和视频流同步(因为视频处理比音频处理花费更长的时间)。因此，MLTV-MCU的一个实施例可以为语音至文字转换和翻译使用延迟，从而使得字幕与视频和音频同步。

在一些实施例中，MLTV-MCU可以被配置为同时翻译不同的接收到的音频流，但是仅将音频能量高于预定值的音频流显示为字幕。

在另一实施例中，与会者(参加者/端点)可以书写文字或将书面文字发送至MLTV-MCU。MLTV-MCU可以将所接收到的书面文字转换为预定信号能量的音频流，并在混音器中混合该音频流。书面文字例如可以是接收到的音频流的翻译，等等。在另一实施例中，MLTV-MCU可以将文字翻译成另一语言，将翻译的文字转换为预定信号能量的音频流，以及在混音器中混合该音频流。MLTV-MCU可以包括可将文字转换为语音的部件(文字至语音引擎)，或者其可以访问这样的部件或网络服务路，或上述的两种选项。在这样的实施例中，其音频没有被翻译的与会者的音频可以在混合之前被延迟，以使音频与翻译的流同步。

在翻译被转换为语音的MLTV-MCU的一个实施例中，语音音量可以遵循接收到的音频流的音频能量指示。

在一个实施例中，被转换并翻译成文字的音频可以被保存为会议稿。会议稿例如可以被用作会议概要。会议稿可以包括被转换成了文字的每个音频的文字，或主发言者的音频的文字等。会议稿可以被发送给不同端点。每个端点可以接收与会者所选择的语言的会议稿。在会议稿中，可以具有关于哪些文字是由哪个与会者所讲、哪些文字被收听(在会议电话中被混合)、哪些文字没有被所有与会者收听等等的指示。指示可以包括在行的开头指出音频被转换为文字的人的姓名；为主发言者的文字使用粗体；根据测得的音频信号能量使用不同字体大小；等等。

根据附图和具体描述，本公开的这些和其他方面将清楚明白。上述概述不旨在总结每个可能的实施例或本发明的每个方面，本发明的其他特征和优点将在阅读下面的具体实施方式和附图以及所附权利要求之后变得清楚明白。

此外，尽管详细描述了特定实施例以向本领域技术人员示出发明原理，但是这些实施例容易具有各种修改和替换形式。因此，附图和书面描述不旨在以任何方式限制本发明的范围。

附图说明

附图被结合并构成本说明书的一部分，与具体描述一起示出了符合本发明的装置和方法的实施方式，用于解释符合本发明的优点和原理。附图中：

图1是示出了根据一个实施例的多媒体多点会议系统的一部分的框图；

图2示出了具有根据一个实施例的多语言翻译视频会议MCU(MLTV-MCU)的一部分的相关元件的框图；

图3示出了具有根据一个实施例的MLTV-MCU中的音频模块的一部分的相关元件的框图；

图4A和4B示出了根据一个实施例的具有添加的字幕的MLTV-MCU的布局显示；

图5是示出了根据一个实施例的音频翻译控制过程的相关步骤的流程图；以及

图6是示出了根据一个实施例的菜单生成器控制过程的相关步骤的流程图。

具体实施方式

在下面的描述中，为了解释的目的，大量特定细节被阐述以提供对本发明的透彻理解。然而，显然对于本领域的技术人员来说，本发明不需要这些特定细节也可以被实施。在其他情况下，以框图形式示出了结构和装置以避免模糊本发明。没有下标的参考标号被理解为涉及对应于该参考标号的所有下标的情况。此外，在本公开中使用的语言主要被选择用于可读性和指导的目的，并且可能没有被选择用于勾勒或限制发明主题，而是有必要凭借权利要求来确定这样的发明主题。在该说明书中，提到“一个实施例”或“实施例”表示结合这些实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中，而多次提到“一个实施例”或“实施例”不应被理解为必然都指相同实施例。

尽管下面的一些描述以涉及软件或固件的角度被描述，但是实施例可以根据需要以软件、固件或硬件的形式，包括软件、固件和硬件的任意组合，来实施在此描述的特征和功能。提到后台程序(daemon)、驱动、引擎、模块或例程不应被理解为暗示将该实施例限制到任何类型的实施方式。

现在转向附图，其中贯穿所描述的多个视图、示例性实施例、公开的方法、系统和装置的各方面和特征，类似的标号表示类似的部件。为了方便，相同组中可能仅有一些部件被标号标注。附图的目的是描述示例性实施例而不是用于限制或生产用途。图中示出的特征被选择仅仅是为了描述的方便和简洁。

图1示出了具有根据一个实施例的多媒体多点会议系统100的示例性部分的相关元件的框图。系统100可以包括网络110、一个或多个MCU 120A-C以及多个端点130A-N。在一些实施例中，网络110可以包括负载平衡器(LB)122。LB 122可以能够控制多个MCU120A-C。这促进了所有MCU 120A-C的有效使用，因为它们是从单个点控制和安排的。此外，通过将MCU 120A-C组合并从单个点控制它们，成功安排即席(impromptu)视频会议的可能性大大提高。在一个实施例中，LB 122可以是Polycom

7000(DMA是Polycom公司的注册商标)。关于LB 122的更多信息可以在美国专利第7,174,365号中找到，其全部内容为了所有目的通过引用结合于此。

端点是网络上的终端，能够提供与其他终端或与多点控制模块(MCU，下面将详细描述)的实时双向音频/视频/数据通信。端点可以提供仅仅语音，语音和视频，或语音、数据和视频通信，等等。视频会议端点通常包括显示模块，在其上可以显示来自一个或多个远程地点的视频图像。示例性端点包括

和

系列，每个都由Polycom公司提供(POLYCOM，VSX，和HDX是Polycom公司的注册商标)。多个端点(EP)130A-N可以通过网络110连接至一个或多个MCU 120A-C。在存在LB 122的实施例中，每个EP 130在连接至MCU 120A-C之一之前可以与LB 122通信。

MCU 120A-C是会议控制实体。在一个实施例中，MCU 120A-C可以位于网络110的节点中或位于从访问端口接收多个通道的终端中，并且根据一定标准，处理视听信号并将它们分配至所连接的通道。MCU 120A-C的实施例可以包括MGC-100和RMX

等等，这都是Polycom公司的产品(RMX 2000是Polycom公司的注册商标)。在一个实施例中，MCU 120A-C可以是IP MCU，其是工作在IP网络上的服务器。IP MCU 120A-C仅是可以实施本公开的教导的许多不同网络服务器中的一些。因此，本公开不仅仅局限于IPMCU实施例。

在一个实施例中，一个或多个MCU 120A-C可以是MLTV-MCU 120。LB 122可以进一步由一个或多个MLTV-MCU 120通知MLTV-MCU 120的能力，例如翻译能力。这样，当端点130要求字幕或翻译时，LB 122可以将EP 130指向作为MLTV-MCU的MCU120。

网络110可以表示单个网络或者两个或更多个网络的组合，例如综合服务数字网(ISDN)、公共交换电话网(PSTN)、异步传输模式(ATM)、因特网、电路交换网、内部网。网络上的多媒体通信可以基于诸如国际通信联盟(ITU)标准H.320，H.324，H.323，SIP标准等通信协议。

端点130A-N可以包括用户控制装置(为了清楚，图中未示出)，其可以作为EP 130中的与会者和MCU 120A-C之间的接口。用户控制装置可以包括：拨号键盘(例如电话的键盘)，其使用DTMF(双音多频)信号；专用控制装置，其在DTMF信号之外还可以使用其他控制信号；以及根据例如ITU标准H.244和H.281的远端摄像机控制信令模块。

端点130A-N还可以包括麦克风(为了清楚，图中未示出)，以使得端点处的与会者能够在会议中发言或加入其他与会者听见的声音和噪声；摄像机，允许端点130A-N将现场视频数据输入至会议；一个或多个扬声器，使得能够听见会议；以及显示器，使得会议能够在端点130A-N处被观看。缺少上述部件之一的端点130A-N可能在他们可以参加会议的方式上被限制。

所描述的系统100的部分仅包括和描述了相关元件。系统100的其他部分没有被描述。本领域技术人员应该理解，取决于其结构和系统的需求，每个系统100可以具有其他数量的端点130、网络110、LB 122以及MCU 120。然而，为了容易理解，示出了四个端点130和一个具有三个MCU 120的网络110。

图2示出了具有一个实施例的MLTV-MCU 200的一部分的相关元件的框图。MLTV-MCU的替换实施例可以具有其他部件和/或可以不包括图2中示出的所有部件。

MLTV-MCU 200可以包括网络接口(NI)210。NI 210可以作为多个端点130A-N和MLTV-MCU200内部模块/模块之间的接口。在一个方向上，NI 210可以通过网络110接收来自多个端点130A-N的多媒体通信。NI 210可以根据诸如H.320，H.323，H.321，H.324和会话发起协议(SIP)之类的通信标准处理接收到的多媒体通信。NI210可以将对接收到的多媒体通信进行处理后的压缩音频、压缩视频、数据和控制流传输至MLTV-MCU 200的适当模块。一些通信标准要求NI 210的处理包括将进入的多媒体通信解复用为压缩音频、压缩视频、数据和控制流。在一些实施例中，媒体在发送至MLTV-MCU 200之前可以首先被压缩，然后加密。

在另一方向上，NI 200可以通过网络110将来自MLTV-MCU200中间模块的多媒体通信传输至一个或多个端点130A-N。NI 210可以接收来自MLTV-MCU 200的各种模块的分开的流。NI 200可以根据通信标准复用并将这些流处理成为多媒体通信流。NI 210可以将多媒体通信传输至网络110，网络110将流运送至一个或多个端点130A-N。

关于不同网络上的端点和/或MCU之间通信的更多信息、以及描述信令、控制、压缩和如何设置视频电话的信息可以例如在ITU标准H.320，H.321，H.323，H.261，H.263和H.264中找到。

MLTV-MCU 200还可以包括音频模块220。音频模块220可经由NI 210并通过音频链路226接收来自多个端点130A-N的压缩音频流。音频模块220可以处理接收到的压缩音频流，可以解压缩(解码)并混合相关音频流，编码(压缩)并经由音频链路226和NI210向端点130A-N传输压缩编码混合后的信号。

在一个实施例中，根据每个单独端点130的需求，发送至每个端点130A-N的音频流可能不同。例如，音频流可以根据每个端点的不同通信标准被格式化。此外，发送至端点130的音频流可以不包括与该端点相关联的与会者的声音，而与会者的声音可以被包括在所有其他混合音频流中。

在一个实施例中，音频模块220可以包括至少一个DTMF模块225。DTMF 225可以从接收到的音频流中检测和捕获DTMF信号。DTMF模块225可以将DTMF信号转换为DTMF控制数据。DTMF模块225可以经由控制链路232将DTMF控制数据传输至控制模块230。DTMF控制数据可以被用于控制会议的特征。DTMF控制数据例如可以是由与会者通过点击和查看功能发送的命令。其他实施例中，在DTMF模块225之外或代替DTMF模块225，可以使用语音识别模块(未示出)。在这些实施例中，语音识别模块可以使用声音命令和与会者的响应来控制视频会议的参数。

进一步的实施例可以使用或具有交互式声音识别(IVR)模块，其在视觉菜单之外或代替视觉菜单来指示与会者。音频指令可以是视觉菜单的加强。例如，音频模块220可以生成音频菜单，用于指示与会者关于如何参加会议和/或如何操纵会议的参数。IVR模块没有在图2中示出。

在典型MCU的普通操作以外，作为具有会议翻译模块(CTM)222的结果，MLTV-MCU 200的实施例还能够进行另外的操作。CTM 222可以确定哪个接收的音频流需要被翻译。CTM 22可以例如将所识别的需要翻译的音频流传输至语音至文字引擎和翻译引擎。翻译的文字可以被传输至菜单生成器250。下面结合图3公开关于CTM 222和音频模块220的操作的更多信息。

在典型MCU的普通操作之外，作为具有控制模块230的结果，MLTV-MCU 200还能够进行另外的操作。控制模块230可以控制MLTV-MCU 200的操作及其中间模块的操作，中间模块诸如音频模块220、菜单生成器250、视频模块240等。控制模块230可以包括逻辑模块，其可以处理从MLTV-MCU 200的不同中间模块以及从诸如LB 122或EP 130等外部装置接收到的指令。状态和控制信息可以通过控制总线234、NI 210和网络110向外部装置发送。控制模块230可以处理经由控制链路232从DTMF模块225接收的、和/或经由控制链路236从CTM 222接收的指令。控制信号可以经由控制链路236、238、239和/或234被发送和接收。控制信号可以包括经由点击和查看功能或语音命令从与会者接收的信令和控制命令，从CTM 22接收的关于将被呈现的字幕的命令，等等。

控制模块230可以经由控制链路239控制菜单生成器250。在一个实施例中，控制模块230可以指示菜单生成器250向哪些地点以什么语言和什么格式呈现哪些字幕。控制模块230可以例如指示视频模块240关于所需的格局。下面结合图3、5和6更详细地描述控制模块230的一些独特操作。

在一个实施例中，菜单生成器(MG)250可以是逻辑模块，其生成显示在端点的显示器上的菜单和/或字幕。MG 250可以从不同的MLTV-MCU 200中间模块接收命令，诸如经由控制链路239从控制模块230，经由控制链路254从音频模块220等。在一个实施例中，MG 250可以经由文字链路252从音频模块220和经由总线239从控制模块230接收要显示的文字和制图指令。所接收的文字可以是其音频流位于音频混合中的发言与会者的翻译。MG 250可以生成字幕和/或菜单帧(frame)。字幕可以是从音频模块接收的文字的视觉图形。关于菜单生成器的更多信息可以在美国专利第7,542,068号中找到。在一些实施例中，诸如Qt Extended(以前被称为Qtopia)之类的商业的菜单生成器可以被用作MG 250。

在一个实施例中，字幕可以以一个人可以容易地区分哪个字幕是发言与会者的翻译的方式被格式化。下面结合图4公开关于字幕的更多信息。菜单帧可以包括供与会者选择的相关选项。

字幕可以是视频模块240能够处理的大小和格式的图形图像。字幕可以经由视频链路249发送至视频模块240。字幕可以根据从控制模块230和/或MG 250接收的控制信息显示在端点130A-N的显示器上。

字幕可以包括文字、图形和透明信息(关于字幕在视频图像上的位置的信息，会议视频图像可以被看作是透过部分透明的前景字幕的背景)。可以显示字幕，作为会议的通用视频图像的一部分的附加或替代。在另一实施例中，MG 250可以是视频模块240的一部分。下面结合图6描述关于MG 250的操作的更多细节。

视频模块240可以是逻辑模块，其接收、修改和发送压缩的视频流。视频模块240可以包括一个或多个输入模块242，其处理从一个或多个参加端点130A-N接收到的压缩输入视频流；以及一个或多个输出模块244，其可以生成组合的压缩输出视频流。压缩输出视频流可以由多个输入流和多个字幕和/或菜单组成，以形成表示用于多个端点130A-N中的一个或多个指定的端点130A-N的会议的视频流。组合的压缩输出视频流可以经由视频链路246被发送至NI 210。NI210可以将该一个或多个组合的压缩输出视频流传输至相关的一个或多个端点130A-N。

在一个实施例中，每个视频输入模块可以与一个端点130相关联。每个视频输出模块244可以与接收具有相同压缩参数的相同布局的一个或多个端点130相关联。每个输出模块244可以包括编辑器模块245。每个视频输出模块244可以根据为特定端点或端点组130A-N个性化的(individualized)布局产生组合的视频图像。每个视频输出模块244可以显示为多个端点130A-N中的特定端点或端点组个性化的字幕。

从输入模块242传送的未压缩视频数据可以在公共接口248上由输出模块244共享，公共接口可以包括时分多路复用(TDM)接口、基于包的接口、异步传输模式(ATM)接口、和/或共享存储器。公共接口248上的数据可以被完全解压缩或部分解压缩。

在一个实施例中，多个输出模块244中的每一个可以包括编辑器245。来自MG 250的视频数据例如可以根据从控制模块230接收的命令由适当输出模块244从公共接口248来捕获。每个适当输入模块可以将视频数据传输给编辑器245。编辑器245可以从不同视频源建立输出视频帧，还可以将菜单和/字幕帧包括到将被编码的下一帧存储中。编辑器245可以将每个字幕作为经由公共接口248接收的不同的视频源之一来处理。编辑器245可以将字幕的视频数据添加至布局作为视频图像的矩形或窗口之一。

屏幕布局上的每个矩形(块)或窗口可以包含从一个不同端点130接收到的视频图像，例如与该端点相关联的与会者的视频图像。在一个实施例中，来自MG 250的视频数据(例如，字幕)可以被放置在呈现产生所呈现的字幕的与会者的视频图像的窗口的上方或下方。

其他编辑器245可以将来自MG 250的视频数据看成是特殊的视频源，并将字幕显示为透明的且位于相关与会者的视频图像前面，从而菜单后面的视频图像仍然可以被看到。视频模块240的示例性操作在上面引用的美国专利第6,300,973号中被描述。视频模块240的其他示例性实施例在美国专利第7,535,485号和美国专利第7,542,068号中描述。

在一些实施例中，MG 250可以是向多于一个输出模块244生成所需的字幕的独立模块。在其他实施例中，MG 250可以是在每个输出模块244中的模块，用于生成个性化的菜单和/或字幕。

在一个实施例中，字幕可以被全面个性化。例如，字幕可以根据各个端点130A-N分别的请求在设置、外表和外观上被个性化。可替换地，字幕的外观可以基本上一致，尽管在字幕出现的时间等方面被个性化。

在一个实施例中，将视觉控制呈现给端点130A-N可以是在会议的主持人(图中未示出)预定和定义会议的模式(profile)时可以由主持人选择的选项。主持人可以与端点130A-N之一相关联，以及可以使用用户控制装置(图中未示出)来选择和定义会议的模式。主持人可以确定与会者在会议期间是否拥有(通过使用他们各自的用户控制装置)控制会议的设置(参数)的能力。在一个实施例中，当允许与会者具有控制会议设置的能力时，主持人在会议模式中将对应的选项选择为“开启”。

控制链路234、236、232、238和239，视频链路246和249，音频链路226，可以分别是被专门设计为并专用于承载控制信号、视频信号、音频信号和多媒体信号的链路。链路可以包括时分复用(TDM)接口、基于包的接口、异步传输模式(ATM)接口、和/或共享存储器。可替换地，它们可以由用于承载信号的通用电缆构成。在其他实施例中，链路例如可以承载光学信号，或可以是无线电波的通道，或者是其组合。

图3示出了具有根据一个实施例的音频模块300的示例性部分的相关元件的框图。音频模块300的可替换实施例可以具有其他部件和/或可以包括图3中示出的所有部件。音频模块300可以包括多个会议音频模块305A-N，一个会议音频模块305A-N针对音频模块300处理的一个会议。每个会议音频模块305A-N可以经由NI 210，通过压缩音频通用接口302，接收来自一个或多个端点130A-N的多个音频流。每个所接收的音频流可以被音频解码器(AD)310A-N解压缩、解码。

在一个实施例中的AD 310可以检测非嗓音信号以在嗓音和非嗓音音频信号之间进行区分。例如，被检测作为DTMF信号的音频流可以被传输至DTMF模块225，并且可以被转换为数字数据。数字数据被传输至控制模块230。数字数据例如可以是从端点130发送至MLTV-MCU 120A-C的命令。

每个音频流可以被AD 310A-N模块解压缩和/或解码。解码可以根据在接收到的压缩音频流中使用的压缩标准来进行。压缩标准可以包括ITU标准G.719，G.722等。在一个实施例中，AD 310A-N模块可以包括通用语音过滤器，其可以过滤出语音而去掉不同种类的噪声。AD 310A-N语音过滤器提高了音频质量。AD 310A-N可以通过一个或多个音频链路312输出过滤后的解压缩和/或解码的音频数据。

解码的音频数据在一个实施例中可以由信号能量分析器和控制器(SEAC)320经由链路322被采样。SEAC 320可以识别具有最高信号能量的预定数量的音频流(例如在3到5个流之间)。响应于检测到的信号能量，SEAC 320可以将一个或多个控制命令经由控制链路324发送至翻译器-选择器模块(TSM)360和一个或多个混合选择器330A-N。

至混合选择器330的控制命令例如可以指出选择哪些音频流来混合。在可替换实施例中，可以经由控制链路326从控制模块230接收关于哪些音频流要被混合的命令。在可替换实施例中，决定可以是来自SEAC 320和控制模块230的控制命令的组合。SEAC 320例如可以每隔预定时间段或每隔预定数量的帧来采样音频链路312。

TSM 360可以经由音频链路312从AD 310A-N接收解码的音频流。此外，TSM 360可以从SEAC 320接收指示哪些音频流需要被翻译的命令。响应于这些命令，TSM 360可以将所选的解码的音频流传输至一个或多个STTE 365A-X。在可替换实施例中，TSM 360可以拷贝需要被翻译的每个音频，并将音频流的拷贝传输至STTE365A-X，而将原始流传输至混合选择器330。

在一个实施例中，STTE 365A-X可以接收音频流并将音频流转换成文字流。STTE 365A-X可以是商业部件，例如，微软公司提供的Microsoft Speech SDK，国际商业机器公司提供的IBM EmbeddedViaVoice，以及MacSpeech公司提供的iListen。在一个实施例中，STTE 365可以是web服务，例如，Google Translate或Yahoo！Babel fish网站。在另一实施例中，STTE可以是上述的组合。每个STTE 365可以被用于一种或多种语言。在STTE 365A-X位于远程地点的一些实施例中，已经被选择进行翻译的所选音频流可以在被发送至STTE 365A-X之前被压缩。

在每个STTE 365A-X被用于几种语言的一个实施例中，TSM360可以根据音频流的语言确定哪个音频流被传输至哪个STTE365A-X。TSM 360可以将命令信息与音频流一起发送至STTE 365A-X。命令信息可以包括音频流的语言和该流应当被翻译成的语言。在另一实施例中，SEAC 320可以就音频流的目标语言直接指示每个STTE 365A-X。在一个实施例中，STTE 365A-X可能能够识别音频流的语言并使其本身适合于将所接收的音频翻译成所需的语言。在一个实施例中，所需的语言可以由SEAC 320定义。这样的实施例可以使用能够识别语言的商业产品，例如在1991年的InternationalConference on Acoustics，Speech and Signal Processing的论文集中出版的文章“Automatic Language Recognition Using AcousticFeatures”中描述的产品。

其他实施例可以使用确定音频流的语言和该音频流应当被翻译成的语言的其他方法。一种技术可以是通过识别作为音频流的源的端点(地点)，以及该音频流应当被发送到的端点。该信息可以从NI210(图2)和/或控制模块230接收，并且可以被包括在发送至SEAC 320的信息中。

另一实施例可以使用训练阶段，其中在作为连续呈现(CP)会议中的通用程序的“说出你的名字”请求之外，通过请求与会者说几个预定词，MLTV-MCU 200可以执行声音校准阶段。

声音校准阶段可以在视频会议开始时或在与会者加入会议时执行。声音校准阶段例如也可以由与会者启动。在声音校准阶段，TSM 360可以学习哪个与会者的声音需要被翻译。在一个实施例中，这可以通过要求与会者在声音校准阶段开始时说预定数量的词(诸如“good morning”、“yes”、“no”等)来实现。TSM 360然后可以将这些词的音频串与查找表中的多个条目进行比较。该查找表可以包括不同语言的预定词串。当接收到在所接收音频串与查找表中的条目之间的匹配时，TSM 360可以确定所接收的音频流的语言。TSM 360在一个实施例中可以访问数据库，它可以在该数据库中存储信息以供未来使用。

在一个实施例中，TSM 360可以通过使用点击和查看功能从一个或多个端点接收关于语言的信息。与会者可以输入关于与会者的语言和/或会议想要将他的话翻译成的语言，或他希望被翻译成与会者的语言的端点，与会者希望翻译成的语言，等等的信息。在其他实施例中，进行接收的与会者可以定义语言和/或与会者希望从中得到字幕的端点。在一个实施例中，在会议的任何阶段，与会者可以使用点击和查看功能输入上述信息。例如，该信息可以使用DTMF信号被传输。在另一实施例中，该识别可以是不同方法的组合。

在另一实施例中，TSM 360可以通过访问可以识别所讲语言并将该语言通知给TSM 360的模块来识别语言。该模块可以是内部或外部模块。该模块可以是商业模块，例如iListen或ViaVoice。TSM360可以执行上述技术的组合或没有提及的技术。

在STTE 365A-X已经将音频流转成文字流之后，STTE 365可以安排文字，从而其在适当位置具有逗号和句号，以帮助TE 367A-X更准确地翻译文字。STTE 365然后可以将转换后的文字的短语转发至一个或多个TE 367A-X中。TE 367A-X可以采用商业部件，例如由Systran软件公司提供的Systran，由Babylon有限公司提供的Babylon，以及由MacSpeech公司提供的iListen。在其他实施例中，TE 367可以访问web服务，例如Google Translate，或Yahoo！Babel fish网站。在另一实施例中，其可以是上面的组合。每个TE367可以提供一种不同语言或多种语言。

将每个文字翻译成哪种语言的决定可以通过确定文字流将被显示在哪个端点(地点)上作为字幕或通过接收关于需要被翻译给端点130中的与会者的语言的信息来实现。与会者可以使用点击和查看功能来识别目标语言。与会者可以输入关于与会者语言、和/或将被翻译的端点、应被翻译的语言等的信息。在一个实施例中，与会者可以在会议的任何阶段使用点击和查看功能输入上述信息。在一个实施例中，该信息可以在DTMF信号中被传输。在其他实施例中，识别可以是不同技术的组合，包括没有在此描述的技术。

TE 367可以将翻译的文字输出到菜单生成器250和/或文字至语音模块(TTS)369A-X，和/或到会议稿记录器370。菜单生成器230可以接收翻译的文字并将该文字转换为视频帧。菜单生成器250例如可以具有查找表，查找表可以在文字字母和其图形视频(字幕)之间进行匹配。菜单生成器250可以接收来自控制模块230和/或音频模块300的命令。在一个实施例中，命令可以包括哪些字幕显示给哪些端点，以哪种格式显示每个字幕(颜色、大小等)，等等。

菜单生成器250可以执行所接收的命令、修改字幕、以及将其传输至适当的视频输出模块244。关于菜单生成器250的更多信息将在结合上面的图2和下面的图6披露。

在一个实施例中，TE 367A-X可以将翻译的文字输出到会议稿记录器370。会议稿记录器370可以被用于会议讨论的记录。由会议稿记录器370存储的内容可以被发送给所有或一些与会者，分别以与会者的语言。在会议稿中，可能存在指示，其指示哪些文字是由主发言者所说，哪些文字被听见(混合在会议电话中)，哪些文字没有被所有与会者听见等。在一个实施例中，指示可以包括在行的开头指出音频被转换为文字的人的姓名，为主发言者的文字使用粗体，根据测量到的音频信号能量使用不同字母大小。

在一个实施例中，TE 367A-X可以将翻译的文字输出至TTS369A-X。TTS 369A-X可以将接收到的翻译文字转换为音频(采用与文字相同的语言)。TTS 369A-X然后可以将转换后的音频传输至TSM 360。在一个实施例中，TSM 360可以接收关于来自哪个TTS369A-X的哪个音频被传输至哪个混合选择器330A-N的命令。TSM360可以接收来自SEAC 320的命令。TTS 369A-X可以是商业部件，例如微软公司提供的Microsoft SAPI、或AT&T公司提供的NATURAL

(“NATURAL VOICE”是AT&T IntellectualProperty II，L.P.的注册商标)。

在一些实施例中，TSM 360可以包括缓冲器，用于延迟不需要翻译的流的音频数据，以使混合的音频与字幕同步。这些缓冲器还可以被用于同步音频和视频。

所选择的要被混合的音频流(包括来自TTS 367A-X的所选择的音频流)可以从TSM 360输出至适当的一个或多个混合选择器330A-N。在一个实施例中，每个接收端点130A-N可以具有一个混合选择器330。混合选择器330A-N可以将接收到的修改后的音频流转发至适当的混合器340A-N。在替换实施例中，单个选择器可以包括两个选择器TSM 360和混合选择器330A-N的功能。这两个选择器——TSM 360和混合选择器330A-N——被示出是为了简化本描述的教导。

在一个实施例中，每个端点130A-N可以有一个混合器。每个混合器340A-N可以将所选的输入音频流混合成一个混合的音频流。混合的音频流可以被发送至编码器350A-N。编码器350A-N可以将所接收的混合音频流编码，并将编码后的混合音频流输出至NI 210。编码可以根据所要求的音频压缩标准(例如，G.719，G.722等)来进行。

图4A和4B示出了根据一个实施例的多语言翻译视频会议的CP视频图像的快照。图4A和图4B示出了快照400和420。每个快照具有4块：快照400具有块401，402，403和404，而快照420具有块421，422，423和424。(图中的翻译文字是说明性的，仅用于示例，不打算作为原始语言的最好的可能翻译)。图4A被显示在日本端点。块402和403与讲日语之外的语言(在该示例中分别为俄语和英语)的与会者相关联，从而被翻译成日语的字幕已经被添加到410和412。在该实施例中，字幕位于每个被翻译块的底部。在可替换实施例中，所有的字幕可以使用不同颜色等被显示在一个区域中。块401与无声音的端点130(其音频信号能量低于其他的)相关联，从而其音频没有被听到(混合)，并且没有显示字幕。块404是其发言人讲日语的另一端点的块，因此他的音频没有被翻译，这是因为这是在日本终端(端点)130上观看。

图4B是显示在例如美国端点(终端)上的快照。块422，423和424是来自讲英语之外的语言的端点的音频和视频，因此具有翻译414，416和418的字幕已经被添加在块422，423和424中。与块421相关联的与会者的音频信号能量低于其他的，因此，其音频没有被听见并且没有显示字幕。在该实施例中，每个字幕以关于语言名称的指示开始，其中字幕是从该语言被翻译过来的。主发言人(日语与会者)(例如，具有最高音频信号能量达时间周期的一定百分比的发言人)下方的字幕418通过在字幕下面划线来表示。

字幕可以包括文字、图形和透明信息(与会议视频图像可以被看作是透过部分透明的前景图像的背景的程度有关的信息)。

图5是示出了根据一个实施例的音频翻译控制技术500的相关步骤的流程图。在一个实施例中，技术500可以由SEAC 320实现。技术500不包括用于确定哪些音频流将被混合或被定义为主发言人的常见过程。技术500仅用于处理翻译过程。一旦开始会议，技术500可以在块502开始。在块504，技术500可以获取关于参加会议的不同与会者(端点)所使用的语言的信息。语言信息可以包括与会者使用的语言以及与会者要求翻译的语言。不同技术可以被用于确定语言信息，包括上面没有描述的技术。

接下来，技术500可以在块506中通知TSM 360关于所获取的语言信息。也可以通知TSM 360不同参数，可以包括关于为每个端点设置的字幕颜色的信息，用于每个端点的音频混合信息，以及关于发送至适当的一个或多个STTE 365A-X和TE 367A-X的音频的信息。

然后多个并行线程可以在块508中被启动，每个需要被翻译的音频流一个(每个被译与会者(translated conferee)一个)。图5仅示出了在块508中启动的多个并行线程中的一个线程。每个线程包括块510至522或524。在块510，启动每个判定周期的循环。该循环可以通过等待一个等待周期D在块510开始。在一个实施例中，D可以在几十毫秒至几百毫秒的范围内。在等待周期D结束时，技术500可以在块514中检验相关被译与会者的音频流是否能够在音频混合(audio mix)中。关于音频流能否在混合中的判定可以取决于例如其音频能量与其他音频流的音频能量的比较。如果在块514判定该相关音频流不能在混合中，则技术500返回至块510并等待。如果在块514判定该相关音频流可以在混合中，则技术500进行到块516。

在块516，TSM可以被指示将相关音频流传输至适当的STTE365A-X和TE 367A-X。适当的STTE 365A-X和TE 367A-X可以分别基于相关被译与会者的讲话语言和其将被翻译成的语言。随后，在块520中需要判定该相关被译与会者是否为主发言人。如果在块520中判定为是，则菜单生成器250可以被指示524获取来自与该相关被译与会者相关联的一个或多个TE 367A-X的文字，以在块524中将该文字以主发言人格式呈现为字幕，格式可以包括不同的颜色、字体、字母大小、下划线等。接下来，技术500可以返回至块510。如果在块520中，相关被译与会者不是主发言人，则技术500可以进行到块522。在块522，菜单生成器250可以在块522中被指示从相关的一个或多个TE 367A-X获取文字，并在块522中将该文字以普通格式呈现为字幕，格式可以包括颜色、字体、字母大小等。接下来，技术500可以返回至块510。

图6是示出了根据一个实施例由MG 250执行的菜单生成器控制技术600的相关动作的流程图。一旦启动会议，技术600可以在块602开始。技术600可以在块604获取关于每个与会者(端点)的信息，包括哪个TE 367A-X关联到要求呈现字幕的端点130，以及将TE 367A-X关联到输出模块244的信息。

在块608中可以开始多个线程，需要翻译的接收端点130的每个输出模块244一个线程。图6仅示出了在块608中开始的多个并行线程中的一个线程。接下来，技术600可以在块610中等待指令。在一个实施例中，指令可以通过块522或524中的技术500来给出。如果在块610中接收到指令，则技术600可以进行到块612。对于接收到的指令中的每个TE 367A-X，来自相关TE 367A-X的文字流可以在块612中被收集。文字流可以在块612中被转换为适当设置(颜色、黑体、下划线等)的视频信息。该视频信息可以在块612中被传输至适当的输出模块的编辑器245。接下来，技术600可以返回至块610。

在该申请中，词语“模块”、“装置”、“部件”和“模块”可交换使用。被指定为一个模块或模块的任何东西都可以是独立的模块或专用模块。模块可以是模块化的或具有使其能被容易去除并用其他类似模块来代替的模块化的方面。每个模块可以是以下任一种或其任意组合：软件、硬件和/或固件。逻辑模块的软件可以体现在计算机可读介质上，计算机可读介质例如：读/写硬盘、CDROM、闪存、ROM等。为了执行特定任务，软件程序可以根据需要加载至适当处理器。

在本公开的描述和权利要求中，“包括”、“包含”、“具有”及其同根词被用于表示该动词的一个或多个对象不一定是该动词的一个或多个对象的构件、部件、元素、或部分的完整列表。

应该理解上述设备、系统和方法可以以多种方式改变，包括：改变步骤的顺序以及所使用的精确的实施方式。所述实施例包括不同的特征，不是所有这些特征在所有本发明的实施例中都需要。此外，本公开的一些实施例仅使用这些特征中的一些特征或可能的组合。本领域技术人员能够想到在所述实施例中提到的特征的不同组合。此外，本公开的一些实施例可以通过本公开中结合不同实施例描述的特征和元件的组合来实施。本发明的范围仅由所附的权利要求及其等同物限制。

尽管已经详细描述并在附图中示出了某些实施例，但是应该理解这样的实施例在不背离由所附权利要求确定的基本范围的情况下仅是示例性的而不用于限制。

Claims

1.一种用于视频会议多点控制单元的实时音频翻译器，包括：

控制器，用于检查多个音频流并选择所述多个音频流的子集以便翻译；

多个翻译器资源，用于翻译包含在所述多个音频流的所述子集中的语音；以及

翻译器资源选择器，耦连到所述控制器，用于将所述控制器选择的所述多个音频流的所述子集传递给所述多个翻译器资源以便翻译。

2.根据权利要求1所述的实时音频翻译器，其中所述多个翻译器资源包括：

多个语音至文字引擎(STTE)，每个STTE用于将在所述多个音频流的所述子集中的一个或多个音频流中的语音转换为一种或多种语言的文字；以及

多个翻译引擎(TE)，耦连至所述多个STTE，每个TE用于将文字从一种或多种语言翻译成一种或多种其他语言。

3.根据权利要求2所述的实时音频翻译器，其中所述多个翻译器资源进一步包括：

多个文字至语音引擎(TTS)，耦连至所述多个TE，每个TTS用于将一种或多种语言的文字转换为翻译后的音频流。

4.根据权利要求3所述的实时音频翻译器，进一步包括：

混合选择器，耦连到所述翻译器资源选择器，用于响应于命令选择音频流以混合至输出音频流中；

其中所述混合选择器用于从所述多个音频流的所述子集和所述多个TTS的翻译后的音频流中进行选择。

5.根据权利要求2所述的实时音频翻译器，其中所述多个STTE中的STTE用于将音频流中的语音转换为多种语言的文字。

6.根据权利要求1所述的实时音频翻译器，

其中所述多个音频流的所述子集是由所述控制器响应于所述多个音频流的所述子集的音频能量水平来选择的。

7.根据权利要求1所述的实时音频翻译器，其中所述翻译器资源选择器还用于将所述多个音频流的所述子集传输至所述多个翻译器资源。

8.根据权利要求1所述的实时音频翻译器，进一步包括：

混合选择器，耦连到所述翻译器资源选择器，用于响应于命令选择音频流以混合至输出音频流中。

9.根据权利要求8所述的实时音频翻译器，其中所述命令由所述控制器生成。

10.根据权利要求1所述的实时音频翻译器，进一步包括：

会议稿记录器，耦连到所述多个翻译器资源，并且用于记录由所述多个翻译器资源从语音转换成的文字。

11.一种多点控制单元(MCU)，用于从多个与会者接收多个输入音频流和多个输入视频流，以及将多个输出音频流和多个输出视频流发送至所述多个与会者，所述MCU包括：

网络接口，用于接收多个输入音频流和所述多个输入视频流，以及发送所述多个输出音频流和所述多个输出视频流；以及

音频模块，耦连至所述网络接口，包括：

实时翻译器模块，用于翻译包含在所述多个音频流中的至少一些音频流中的语音。

12.根据权利要求11所述的MCU，进一步包括：

菜单生成器模块，耦连至所述音频模块，用于生成与由所述实时翻译器模块翻译出的语音相对应的字幕；以及

视频模块，用于将所述多个输入视频流中的输入视频流和由所述菜单生成器模块生成的所述字幕相结合，产生所述多个输出视频流的输出视频流。

13.根据权利要求11所述的MCU，其中所述实时翻译器模块包括：

控制器，用于检查所述多个输入音频流并选择所述多个输入音频流的子集以便翻译；

多个翻译器资源，用于翻译包含在所述多个输入音频流的所述子集中的语音，包括：

多个语音至文字引擎(STTE)，每个STTE用于将在所述多个输入音频流的所述子集中的一个或多个音频流中的语音转换为一种或多种语言的文字；

多个翻译引擎(TE)，耦连至所述多个STTE，每个TE用于将文字从一种或多种语言翻译成一种或多种其他语言；以及

多个文字至语音引擎(TTS)，耦连至所述多个TE，每个TTS用于将一种或多种语言的文字转换为翻译后的音频流；以及

翻译器资源选择器，耦连至所述控制器，用于将所述控制器选择的所述多个音频流的所述子集传递给所述多个翻译器资源以便翻译。

14.根据权利要求13所述的MCU，

15.根据权利要求13所述的MCU，其中所述多个STTE中的STTE用于将音频流中的语音转换为多种语言的文字。

16.根据权利要求13所述的MCU，其中所述翻译器资源选择器还用于将所述多个音频流的所述子集传输至所述多个翻译器资源。

17.根据权利要求13所述的MCU，进一步包括：

18.根据权利要求17所述的MCU，其中所述命令由所述控制器生成。

19.根据权利要求17所述的MCU，其中所述混合选择器用于从所述多个音频流的所述子集和所述多个TTS的翻译后的音频流中进行选择。

20.根据权利要求13所述的MCU，进一步包括：

21.一种为视频会议中的多个与会者实时翻译音频流的方法，包括：

接收来自所述多个与会者的多个音频流；

识别从所述多个与会者中的第一与会者接收到的、将被为所述多个与会者中的第二与会者翻译的第一音频流；

将第一音频流传送到翻译资源；

生成第一音频流的翻译；以及

向第二与会者发送所述翻译。

22.根据权利要求21所述的方法，其中识别从所述多个与会者中的第一与会者接收到的、将被为所述多个与会者中的第二与会者翻译的第一音频流的动作包括：

识别第一与会者所讲的第一语言；

识别第二与会者期望的第二语言；以及

确定第一音频流是否包含将被翻译的第一语言的语音。

23.根据权利要求22所述的方法，其中识别第一与会者所讲的第一语言的动作包括：

请求第一与会者说出预定数量的词；以及

响应于第一与会者说出所述预定数量的词，自动识别第一语言。

24.根据权利要求21所述的方法，其中将第一音频流传送到翻译资源的动作包括：

将第一音频流传送到语音至文字引擎。

25.根据权利要求21所述的方法，其中生成第一音频流的翻译的动作包括：

将包含在第一音频流中的第一语言的语音转换为第一文字流；以及

将第一文字流翻译成第二语言的第二文字流。

26.根据权利要求25所述的方法，

其中，生成第一音频流的翻译的动作进一步包括：

将第二文字流转换成第二音频流，并且

其中，向第二与会者发送所述翻译的动作包括：

将第二音频流与所述多个音频流的子集混合以产生混合音频流；和

向第二与会者发送所述混合音频流。

27.根据权利要求21所述的方法，其中生成第一音频流的翻译的动作包括：

由会议稿记录器记录第一音频流的翻译。

28.根据权利要求21所述的方法，

其中生成第一音频流的翻译的动作包括：

将包含在所述音频流中的第一语言的语音转换为第一文字流；

将第一文字流翻译成第二语言的第二文字流；和

将第二语言的第二文字流转换为字幕，并且

其中向第二与会者发送所述翻译的动作包括：

将所述字幕插入视频流中；和

向第二与会者发送所述视频流和所述字幕。

29.根据权利要求21所述的方法，其中生成第一音频流的翻译的动作包括：

将第一与会者识别为主与会者；

将包含在第一音频流中的第一语言的语音转换为第一文字流；

将第一文字流翻译成第二语言的第二文字流；

将第二语言的第二文字流转换为字幕；以及

将表示第一与会者是主与会者的指示符与所述字幕相关联。