CN102209227A - 在视频会议中增加翻译的方法和系统 - Google Patents

在视频会议中增加翻译的方法和系统 Download PDF

Info

Publication number
CN102209227A
CN102209227A CN2011100762548A CN201110076254A CN102209227A CN 102209227 A CN102209227 A CN 102209227A CN 2011100762548 A CN2011100762548 A CN 2011100762548A CN 201110076254 A CN201110076254 A CN 201110076254A CN 102209227 A CN102209227 A CN 102209227A
Authority
CN
China
Prior art keywords
audio
audio stream
language
participant
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100762548A
Other languages
English (en)
Inventor
D·利伯曼
A·卡普兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Polycom Inc
Original Assignee
Polycom Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Polycom Inc filed Critical Polycom Inc
Publication of CN102209227A publication Critical patent/CN102209227A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/152Multipoint control units therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/20Aspects of automatic or semi-automatic exchanges related to features of supplementary services
    • H04M2203/2061Language aspects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

一种多语言多点视频会议系统提供了与会者发言的实时翻译。包含语音的音频流可以被转换为文字并作为字幕被插入视频流中。发言还可以通过以下方式从一种语言翻译成另一种语言:将翻译后的语音插入视频流中,选择字幕,或用由文字至语音引擎生成的其他语言的语音来代替原始音频流。不同与会者可以根据由与会者提供的关于期望语言的信息来接收相同发言的不同翻译。

Description

在视频会议中增加翻译的方法和系统
技术领域
本发明涉及视频会议通信,更具体地涉及多语言多点视频会议领域。
背景技术
视频会议可以去除许多限制。视频会议可以去除的一种物理限制是从一个地点(端点/终端)到另一地点的物理距离。视频会议可以产生来自世界不同地方的与会者(conferee)如同在一个房间里一样的体验。视频会议使得全世界的人们能够容易地彼此通信而不需要从一个地方旅行到另一地方,而旅行是昂贵、耗时并且污染空气的(由于需要使用汽车和/或飞机)。视频会议可以去除时间因素以及距离限制。随着可以在不同网络上使用的视频会议设备种类的增加,越来越多的人使用视频会议作为其通信工具。
在许多情况下,视频会议可以是多语言会议,会议中来自全球不同地方的人们需要以多种语言彼此说话。在端点位于不同国家、以不同语言发言的多点视频会议中,会议中的一些与会者可能需要以不是其母语的语言发言以便能够沟通和理解其它地点(端点)的与会者。有时,即使说相同语言但是有不同口音的人也可能在理解其他与会者上存在问题。这种情况可能导致理解上的不方便和/或错误。
在一些其他会议中,一个或多个与会者可能具有听力问题(例如,聋或听力损伤的人)。聋或听力损伤的人可能仅在其可以读出发言者的嘴唇时才能有效地参与视频会议,这在发言人没有出现在显示器上或缩放无效等情况下变得困难。
听力损伤或讲外语的与会者所使用的一种技术是依赖人类口译者传达会议的内容。典型地,口译者站得靠近与会者所处的会议室前部,以使听力损伤者观看口译者。
另一种使用的技术是在一个或多个端点使用闭路字幕引擎。一个或多个闭路字幕输入装置可以与一个或多个端点相关联。闭路字幕输入装置可以是计算机辅助转录装置,例如,计算机辅助实施翻译器、个人数字助理(PDA)、通用个人计算机等。为了启动闭路字幕特征,字幕员的端点的IP地址在闭路字幕输入装置的网络浏览器的字段中被输入。与该端点相关联的网页将显示,以及用户可以访问相关联的闭路字幕页面。一旦字幕员选择闭路字幕页面,字幕员可以开始将文字输入该当前字段中。文字然后被显示给参加视频会议的一个或多个端点。例如,文字可以被显示给第一端点、计算装置、个人数字助理(PDA)等。
字幕员可以选择向谁显示闭路字幕。字幕员可以决定在参加会议的所有地点显示文字,除了例如位置2和3。又例如,用户可以选择仅在位置5显示闭路字幕文字。换句话说,闭路字幕文字可以被组播给字幕员选择的与会者。
如上所讨论的,例如,字幕员可以通过输入特定端点的IP地址来访问网页。闭路字幕文字输入页面被显示以接收闭路字幕文字。字幕员通过闭路字幕输入装置将文字输入到当前文字输入框中。当字幕员点击屏幕上或闭路字幕输入装置上的“输入”或类似按钮时,在当前文字输入框中输入的文字被显示给与视频会议相关联的一个或多个端点。
在多语言视频会议中,为听力损伤者服务的人类口译者可能面临一些问题。例如,一个问题可能发生在一个以上的人在说话的情况下。人类口译者将不得不决定将哪个发言者翻译给听力损伤的听众,以及如何指出当前正被翻译的发言者。
依赖人类翻译员也可能降低视频会议的体验,因为在会议混音中,翻译员的音频可能与正被翻译的人的音频同时被听见。在需要多于一个人类翻译员同时翻译的情况下,这种烦扰可能是不能容忍的。此外,在长会议中,人类翻译员的注意力降低,并且翻译员可能开始出错,并在会议期间暂停。
此外,在使用由字幕员启动闭路字幕的情况下,字幕员输入翻译作为显示文字,字幕员必须能够识别谁应当看见闭路字幕文字。字幕员还必须输入文字以显示给与视频会议相关的一个或多个端点。因此,字幕员必须总是警惕,并且努力不犯人为错误。
多点控制单元(MCU)可以被用于管理视频通信会议(即,视频会议)。MCU是可以位于网络节点、终端或其它地方的会议控制实体。MCU可以根据一定标准从访问端口接收和处理多个媒体通道,并通过其他端口将它们分配至所连接的通道。MCU的示例包括由Polycom公司提供的MGC-100,RMX
Figure BDA0000052531340000031
(RMX 2000是Polycom公司的注册商标)。通用的MCU在多个专利和专利申请中公开,例如,美国专利第6,300,973、6,496,216、5,600,646、5,838,664和/或7,542,068号,其全部内容通过引用结合于此。一些MCU由两个逻辑模块组成:媒体控制器(MC)和媒体处理器(MP)。
终端(可以被称作端点)可以是网络上的实体,能够提供与其他终端或与MCU的实时、双向音频和/或视听通信。端点(终端)和MCU的更全面的定义可以在国际电信联盟(“ITU”)标准中找到,例如但不限于,H.320,H.324,和H.323,可以在ITU中找到它们。
连续呈现(continuous presence,CP)视频会议是一个终端处的与会者可以同时观看会议中的多个其他与会者的地点的视频会议。每个地点可以显示在布局的不同块(segment)中,每个块可以是相同大小或不同大小的一个或多个显示器。被显示并且与布局的多个块相关联的地点的选择在参加相同会议的不同与会者之间可以不同。在连续呈现(CP)布局中,从地点接收的视频图像被缩小和/或剪修以适合块的大小。
发明内容
下面描述的实施例解决了多语言视频会议中的上述一些缺点。然而,视频会议中的上述缺点不以任何方式限制本发明概念的范围。缺点被呈现仅用于示例。
在一个实施例中,可以在多点控制单元(MCU)中实现新颖的系统和方法,将具有其所有有点的通用MCU转换为多语言翻译视频会议MCU(MLTV-MCU)。
在多语言翻译视频会议(MLTV-MCU)的一个实施例中,MLTV-MCU可以被通知多点视频会议中的一个或多个接收到的音频流中哪些音频流需要被翻译,以及不同的音频流需要被翻译成的语言。MLTV-MCU可以将每种需要的音频流翻译成一种或多种期望的语言,而不需要人类干预。MLTV-MCU可以将一个或多个音频流的一种或多种翻译在一个或多个端点屏幕上显示为字幕(举例而言)。
MLTV-MCU的一个实施例可以利用MLTV-MCU接收来自每个端点的分离的音频流这一点。因此,MLTV-MCU可以分别地翻译每个接收到的音频流,然后将这些流混合在一起,从而确保高质量的音频流翻译。
当与会者参加多点会议时,MLTV-MCU可以询问是否需要翻译。在一个实施例中,这种询问可以在交互式声音响应(IVR)会议中实现,在该会议中,与会者可以被指示按下特定键以响应特定问题。在使用“点击和查看(click and view)”选项的其他实施例中,在与会者的端点上可以显示菜单。该菜单可以提供不同翻译选项。选项可以涉及语言和相关地点,例如与会者的语言;与会者的发言将被翻译成的语言;其音频将被翻译成与会者的语言的端点;与会者期望翻译成的语言;书面翻译,使用字幕,还是有声翻译;如果是有声翻译,翻译是女声还是男声,以何种口音等等。与会者例如可以通过使用游标来响应这些问题。一种点击和查看方法的示例在美国专利第7,542,068号中具体公开,其全部内容通过引用结合于此。
一种MLTV-MCU示例可以使用声音校准阶段,在该阶段,可以使用IVR或其他技术要求在相关地点的与会者“说出你的名字”,并且再说几个预定词,前者在连续呈现(CP)视频会议中是通用程序。在声音校准阶段,MLTV-MCU可以收集与需要被翻译的声音的特征(口音)有关的信息。这可以通过要求与会者说预定数量的词(例如“good morning”、“yes”、“no”、“day”等等)来完成。校准信息可以被保存在数据库中供将来使用。
在一些实施例中,校准阶段可以被用于识别接收到的音频流的语言。在这样的实施例中,接收者端点可以指示MLTV-MCU将以特定语言(例如英文)发言的任何端点翻译成例如中文。这样的MLTV-MCU可以将接收到的校准词的音频串与查找表中的多个条目进行比较。该查找表可以包括不同语言的预定词串。当接收到在接收到的音频串和查找表中的条目之间的匹配时,MLTV-MCU可以自动确定接收的音频流的语言。MLTV-MCU可以访问数据库,它可以在数据库中存储信息以供未来使用。MLTV-MCU的另一实施例可以使用自动识别接收到的音频流的语言的商业产品。关于自动语言识别的信息可以在M.Sugiyama的题目为“Automatic language recognitionusing acoustic features”的文章中找到,其出版在1991年的International Conference on Acoustics,Speech and Signal Processing的论文集中。在一些实施例中,可以采用反馈机制来通知与会者关于与会者语言的自动识别,允许与会者推翻(override)该自动决定。这种指示和推翻信息可以通过使用“点击和查看”选项来执行。
MLTV-MCU可以被配置为同时将多个接收到的音频流翻译并显示为字幕。将被翻译的多个接收到的音频流在一个实施例中可以是音频能量高于一定阈值的预定数量的音频流。例如,该预定数量可以在3至5的范围内。在一个实施例中,将被翻译的音频流可以是来自用户请求MLTV-MCU翻译的端点的音频流。每个音频流翻译可以被显示在不同行上或由不同指示器来区分。
在一个实施例中,指示器可以包括针对每个音频流具有不同颜色的字幕,在字幕的开始处具有已经被翻译的与会者/端点的名称。当前被选择要混合的音频流的字幕可以用粗体显示。主发言者可以以下划线和粗体来标记。可以根据接收/测量到的信号能量为每个音频流翻译字幕使用不同的字体大小。在一个实施例中,主发言者可以是音频能量水平高于其他与会者的音频能量达一定时间段的一定百分比的与会者。主发言者的视频图像可以显示在CP视频图像的最大窗口中。在一些实施例中,主发言者的窗口可以用彩色框标记。
一旦MLTV-MCU已经识别出需要翻译的音频流,识别出该音频流的语言,以及识别出该音频流将被翻译成的语言,MLTV-MCU就可以将音频流转换为书面文字。在该实施例中,MLTV-MCU可以访问将音频流转换为文字的语音至文字引擎(STTE)。STTE可以使用商业上可用的部件,例如由微软公司提供的Microsoft SpeechSDK,国际商用机器公司提供的IBM Embedded ViaVoice,以及其他。
MLTV-MCU的一个实施例可以利用MLTV-MCU接收来自每个端点的分离的音频流这一点。因此,MLTV-MCU可以在将流混合在一起之前,分别地将每个需要的接收到的音频流转换为文字,以提升音频流转换为文字的质量。在MLTV-MCU的一个实施例中,音频流可以在被传输至STTE之前,通过一个或多个通用MCU噪声过滤器,过滤音频流以改进来自STTE的结果的质量。MCU音频模块可以区分嗓音和非嗓音。因此,在一个实施例中,MCU可以去除音频流的非嗓音部分,以及进一步确保高质量结果。
在一个实施例中,MLTV-MCU可以进一步包括反馈机制,在其中,与会者可以接收关于与会者话语的翻译的可视的评估指示。如果STTE可以以两种不同方式翻译与会者的语音,其可以报告其可信度指示,例如,50%的可信度指示。STTE可以向MLTV-MCU报告其可信度评估,而MLTV-MCU可以将其作为等级显示在与会者的屏幕上。在另一个实施例中,MLTV-MCU可以在发言与会者的显示器上显示STTE已经转换的文字(以原始语言),从而能够实现一种类型的发言者反馈,用于验证STTE的转换。在一些实施例中,当STTE不能成功转换某个声音段时,可以向发言者和/或字幕的接收者发送指示。
在音频流已经被STTE转换为文字之后,MLTV-MCU的一个实施例可以由翻译引擎(TE)将该文字翻译为另一种语言。不同的翻译引擎(TE)可以被不同的实施例使用。在一些实施例中,TE可以是网站,例如
Figure BDA0000052531340000071
Translate(Google是谷歌公司的注册商标),以及
Figure BDA0000052531340000072
Babel fish网站(YAHOO!是雅虎公司的注册商标)。其他实施例可以使用例如由Babylon Ltd.提供的商业翻译引擎。翻译引擎可以是MLTV-MCU的一部分,或在替换实施例中,MLTV-MCU可以访问翻译引擎,或两者。
MLTV-MCU可以同时将不同语言的一种或多种文字翻译为不同语言的一种或多种文字。翻译文字可以由MLTV-MCU以适当定时安排顺序,以便在适当端点上以适当格式显示为字幕。MLTV-MCU可以在每个端点屏幕上同时显示一个或多个其他与会者的字幕。字幕可以是不同音频流的翻译文字,例如每个音频流可以具有不同语言。
在一些实施例中,MCU可以延迟音频流,以使音频和视频流同步(因为视频处理比音频处理花费更长的时间)。因此,MLTV-MCU的一个实施例可以为语音至文字转换和翻译使用延迟,从而使得字幕与视频和音频同步。
在一些实施例中,MLTV-MCU可以被配置为同时翻译不同的接收到的音频流,但是仅将音频能量高于预定值的音频流显示为字幕。
在另一实施例中,与会者(参加者/端点)可以书写文字或将书面文字发送至MLTV-MCU。MLTV-MCU可以将所接收到的书面文字转换为预定信号能量的音频流,并在混音器中混合该音频流。书面文字例如可以是接收到的音频流的翻译,等等。在另一实施例中,MLTV-MCU可以将文字翻译成另一语言,将翻译的文字转换为预定信号能量的音频流,以及在混音器中混合该音频流。MLTV-MCU可以包括可将文字转换为语音的部件(文字至语音引擎),或者其可以访问这样的部件或网络服务路,或上述的两种选项。在这样的实施例中,其音频没有被翻译的与会者的音频可以在混合之前被延迟,以使音频与翻译的流同步。
在翻译被转换为语音的MLTV-MCU的一个实施例中,语音音量可以遵循接收到的音频流的音频能量指示。
在一个实施例中,被转换并翻译成文字的音频可以被保存为会议稿。会议稿例如可以被用作会议概要。会议稿可以包括被转换成了文字的每个音频的文字,或主发言者的音频的文字等。会议稿可以被发送给不同端点。每个端点可以接收与会者所选择的语言的会议稿。在会议稿中,可以具有关于哪些文字是由哪个与会者所讲、哪些文字被收听(在会议电话中被混合)、哪些文字没有被所有与会者收听等等的指示。指示可以包括在行的开头指出音频被转换为文字的人的姓名;为主发言者的文字使用粗体;根据测得的音频信号能量使用不同字体大小;等等。
根据附图和具体描述,本公开的这些和其他方面将清楚明白。上述概述不旨在总结每个可能的实施例或本发明的每个方面,本发明的其他特征和优点将在阅读下面的具体实施方式和附图以及所附权利要求之后变得清楚明白。
此外,尽管详细描述了特定实施例以向本领域技术人员示出发明原理,但是这些实施例容易具有各种修改和替换形式。因此,附图和书面描述不旨在以任何方式限制本发明的范围。
附图说明
附图被结合并构成本说明书的一部分,与具体描述一起示出了符合本发明的装置和方法的实施方式,用于解释符合本发明的优点和原理。附图中:
图1是示出了根据一个实施例的多媒体多点会议系统的一部分的框图;
图2示出了具有根据一个实施例的多语言翻译视频会议MCU(MLTV-MCU)的一部分的相关元件的框图;
图3示出了具有根据一个实施例的MLTV-MCU中的音频模块的一部分的相关元件的框图;
图4A和4B示出了根据一个实施例的具有添加的字幕的MLTV-MCU的布局显示;
图5是示出了根据一个实施例的音频翻译控制过程的相关步骤的流程图;以及
图6是示出了根据一个实施例的菜单生成器控制过程的相关步骤的流程图。
具体实施方式
在下面的描述中,为了解释的目的,大量特定细节被阐述以提供对本发明的透彻理解。然而,显然对于本领域的技术人员来说,本发明不需要这些特定细节也可以被实施。在其他情况下,以框图形式示出了结构和装置以避免模糊本发明。没有下标的参考标号被理解为涉及对应于该参考标号的所有下标的情况。此外,在本公开中使用的语言主要被选择用于可读性和指导的目的,并且可能没有被选择用于勾勒或限制发明主题,而是有必要凭借权利要求来确定这样的发明主题。在该说明书中,提到“一个实施例”或“实施例”表示结合这些实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中,而多次提到“一个实施例”或“实施例”不应被理解为必然都指相同实施例。
尽管下面的一些描述以涉及软件或固件的角度被描述,但是实施例可以根据需要以软件、固件或硬件的形式,包括软件、固件和硬件的任意组合,来实施在此描述的特征和功能。提到后台程序(daemon)、驱动、引擎、模块或例程不应被理解为暗示将该实施例限制到任何类型的实施方式。
现在转向附图,其中贯穿所描述的多个视图、示例性实施例、公开的方法、系统和装置的各方面和特征,类似的标号表示类似的部件。为了方便,相同组中可能仅有一些部件被标号标注。附图的目的是描述示例性实施例而不是用于限制或生产用途。图中示出的特征被选择仅仅是为了描述的方便和简洁。
图1示出了具有根据一个实施例的多媒体多点会议系统100的示例性部分的相关元件的框图。系统100可以包括网络110、一个或多个MCU 120A-C以及多个端点130A-N。在一些实施例中,网络110可以包括负载平衡器(LB)122。LB 122可以能够控制多个MCU120A-C。这促进了所有MCU 120A-C的有效使用,因为它们是从单个点控制和安排的。此外,通过将MCU 120A-C组合并从单个点控制它们,成功安排即席(impromptu)视频会议的可能性大大提高。在一个实施例中,LB 122可以是Polycom
Figure BDA0000052531340000101
7000(DMA是Polycom公司的注册商标)。关于LB 122的更多信息可以在美国专利第7,174,365号中找到,其全部内容为了所有目的通过引用结合于此。
端点是网络上的终端,能够提供与其他终端或与多点控制模块(MCU,下面将详细描述)的实时双向音频/视频/数据通信。端点可以提供仅仅语音,语音和视频,或语音、数据和视频通信,等等。视频会议端点通常包括显示模块,在其上可以显示来自一个或多个远程地点的视频图像。示例性端点包括
Figure BDA0000052531340000102
Figure BDA0000052531340000103
系列,每个都由Polycom公司提供(POLYCOM,VSX,和HDX是Polycom公司的注册商标)。多个端点(EP)130A-N可以通过网络110连接至一个或多个MCU 120A-C。在存在LB 122的实施例中,每个EP 130在连接至MCU 120A-C之一之前可以与LB 122通信。
MCU 120A-C是会议控制实体。在一个实施例中,MCU 120A-C可以位于网络110的节点中或位于从访问端口接收多个通道的终端中,并且根据一定标准,处理视听信号并将它们分配至所连接的通道。MCU 120A-C的实施例可以包括MGC-100和RMX 
Figure BDA0000052531340000104
等等,这都是Polycom公司的产品(RMX 2000是Polycom公司的注册商标)。在一个实施例中,MCU 120A-C可以是IP MCU,其是工作在IP网络上的服务器。IP MCU 120A-C仅是可以实施本公开的教导的许多不同网络服务器中的一些。因此,本公开不仅仅局限于IPMCU实施例。
在一个实施例中,一个或多个MCU 120A-C可以是MLTV-MCU 120。LB 122可以进一步由一个或多个MLTV-MCU 120通知MLTV-MCU 120的能力,例如翻译能力。这样,当端点130要求字幕或翻译时,LB 122可以将EP 130指向作为MLTV-MCU的MCU120。
网络110可以表示单个网络或者两个或更多个网络的组合,例如综合服务数字网(ISDN)、公共交换电话网(PSTN)、异步传输模式(ATM)、因特网、电路交换网、内部网。网络上的多媒体通信可以基于诸如国际通信联盟(ITU)标准H.320,H.324,H.323,SIP标准等通信协议。
端点130A-N可以包括用户控制装置(为了清楚,图中未示出),其可以作为EP 130中的与会者和MCU 120A-C之间的接口。用户控制装置可以包括:拨号键盘(例如电话的键盘),其使用DTMF(双音多频)信号;专用控制装置,其在DTMF信号之外还可以使用其他控制信号;以及根据例如ITU标准H.244和H.281的远端摄像机控制信令模块。
端点130A-N还可以包括麦克风(为了清楚,图中未示出),以使得端点处的与会者能够在会议中发言或加入其他与会者听见的声音和噪声;摄像机,允许端点130A-N将现场视频数据输入至会议;一个或多个扬声器,使得能够听见会议;以及显示器,使得会议能够在端点130A-N处被观看。缺少上述部件之一的端点130A-N可能在他们可以参加会议的方式上被限制。
所描述的系统100的部分仅包括和描述了相关元件。系统100的其他部分没有被描述。本领域技术人员应该理解,取决于其结构和系统的需求,每个系统100可以具有其他数量的端点130、网络110、LB 122以及MCU 120。然而,为了容易理解,示出了四个端点130和一个具有三个MCU 120的网络110。
图2示出了具有一个实施例的MLTV-MCU 200的一部分的相关元件的框图。MLTV-MCU的替换实施例可以具有其他部件和/或可以不包括图2中示出的所有部件。
MLTV-MCU 200可以包括网络接口(NI)210。NI 210可以作为多个端点130A-N和MLTV-MCU200内部模块/模块之间的接口。在一个方向上,NI 210可以通过网络110接收来自多个端点130A-N的多媒体通信。NI 210可以根据诸如H.320,H.323,H.321,H.324和会话发起协议(SIP)之类的通信标准处理接收到的多媒体通信。NI210可以将对接收到的多媒体通信进行处理后的压缩音频、压缩视频、数据和控制流传输至MLTV-MCU 200的适当模块。一些通信标准要求NI 210的处理包括将进入的多媒体通信解复用为压缩音频、压缩视频、数据和控制流。在一些实施例中,媒体在发送至MLTV-MCU 200之前可以首先被压缩,然后加密。
在另一方向上,NI 200可以通过网络110将来自MLTV-MCU200中间模块的多媒体通信传输至一个或多个端点130A-N。NI 210可以接收来自MLTV-MCU 200的各种模块的分开的流。NI 200可以根据通信标准复用并将这些流处理成为多媒体通信流。NI 210可以将多媒体通信传输至网络110,网络110将流运送至一个或多个端点130A-N。
关于不同网络上的端点和/或MCU之间通信的更多信息、以及描述信令、控制、压缩和如何设置视频电话的信息可以例如在ITU标准H.320,H.321,H.323,H.261,H.263和H.264中找到。
MLTV-MCU 200还可以包括音频模块220。音频模块220可经由NI 210并通过音频链路226接收来自多个端点130A-N的压缩音频流。音频模块220可以处理接收到的压缩音频流,可以解压缩(解码)并混合相关音频流,编码(压缩)并经由音频链路226和NI210向端点130A-N传输压缩编码混合后的信号。
在一个实施例中,根据每个单独端点130的需求,发送至每个端点130A-N的音频流可能不同。例如,音频流可以根据每个端点的不同通信标准被格式化。此外,发送至端点130的音频流可以不包括与该端点相关联的与会者的声音,而与会者的声音可以被包括在所有其他混合音频流中。
在一个实施例中,音频模块220可以包括至少一个DTMF模块225。DTMF 225可以从接收到的音频流中检测和捕获DTMF信号。DTMF模块225可以将DTMF信号转换为DTMF控制数据。DTMF模块225可以经由控制链路232将DTMF控制数据传输至控制模块230。DTMF控制数据可以被用于控制会议的特征。DTMF控制数据例如可以是由与会者通过点击和查看功能发送的命令。其他实施例中,在DTMF模块225之外或代替DTMF模块225,可以使用语音识别模块(未示出)。在这些实施例中,语音识别模块可以使用声音命令和与会者的响应来控制视频会议的参数。
进一步的实施例可以使用或具有交互式声音识别(IVR)模块,其在视觉菜单之外或代替视觉菜单来指示与会者。音频指令可以是视觉菜单的加强。例如,音频模块220可以生成音频菜单,用于指示与会者关于如何参加会议和/或如何操纵会议的参数。IVR模块没有在图2中示出。
在典型MCU的普通操作以外,作为具有会议翻译模块(CTM)222的结果,MLTV-MCU 200的实施例还能够进行另外的操作。CTM 222可以确定哪个接收的音频流需要被翻译。CTM 22可以例如将所识别的需要翻译的音频流传输至语音至文字引擎和翻译引擎。翻译的文字可以被传输至菜单生成器250。下面结合图3公开关于CTM 222和音频模块220的操作的更多信息。
在典型MCU的普通操作之外,作为具有控制模块230的结果,MLTV-MCU 200还能够进行另外的操作。控制模块230可以控制MLTV-MCU 200的操作及其中间模块的操作,中间模块诸如音频模块220、菜单生成器250、视频模块240等。控制模块230可以包括逻辑模块,其可以处理从MLTV-MCU 200的不同中间模块以及从诸如LB 122或EP 130等外部装置接收到的指令。状态和控制信息可以通过控制总线234、NI 210和网络110向外部装置发送。控制模块230可以处理经由控制链路232从DTMF模块225接收的、和/或经由控制链路236从CTM 222接收的指令。控制信号可以经由控制链路236、238、239和/或234被发送和接收。控制信号可以包括经由点击和查看功能或语音命令从与会者接收的信令和控制命令,从CTM 22接收的关于将被呈现的字幕的命令,等等。
控制模块230可以经由控制链路239控制菜单生成器250。在一个实施例中,控制模块230可以指示菜单生成器250向哪些地点以什么语言和什么格式呈现哪些字幕。控制模块230可以例如指示视频模块240关于所需的格局。下面结合图3、5和6更详细地描述控制模块230的一些独特操作。
在一个实施例中,菜单生成器(MG)250可以是逻辑模块,其生成显示在端点的显示器上的菜单和/或字幕。MG 250可以从不同的MLTV-MCU 200中间模块接收命令,诸如经由控制链路239从控制模块230,经由控制链路254从音频模块220等。在一个实施例中,MG 250可以经由文字链路252从音频模块220和经由总线239从控制模块230接收要显示的文字和制图指令。所接收的文字可以是其音频流位于音频混合中的发言与会者的翻译。MG 250可以生成字幕和/或菜单帧(frame)。字幕可以是从音频模块接收的文字的视觉图形。关于菜单生成器的更多信息可以在美国专利第7,542,068号中找到。在一些实施例中,诸如Qt Extended(以前被称为Qtopia)之类的商业的菜单生成器可以被用作MG 250。
在一个实施例中,字幕可以以一个人可以容易地区分哪个字幕是发言与会者的翻译的方式被格式化。下面结合图4公开关于字幕的更多信息。菜单帧可以包括供与会者选择的相关选项。
字幕可以是视频模块240能够处理的大小和格式的图形图像。字幕可以经由视频链路249发送至视频模块240。字幕可以根据从控制模块230和/或MG 250接收的控制信息显示在端点130A-N的显示器上。
字幕可以包括文字、图形和透明信息(关于字幕在视频图像上的位置的信息,会议视频图像可以被看作是透过部分透明的前景字幕的背景)。可以显示字幕,作为会议的通用视频图像的一部分的附加或替代。在另一实施例中,MG 250可以是视频模块240的一部分。下面结合图6描述关于MG 250的操作的更多细节。
视频模块240可以是逻辑模块,其接收、修改和发送压缩的视频流。视频模块240可以包括一个或多个输入模块242,其处理从一个或多个参加端点130A-N接收到的压缩输入视频流;以及一个或多个输出模块244,其可以生成组合的压缩输出视频流。压缩输出视频流可以由多个输入流和多个字幕和/或菜单组成,以形成表示用于多个端点130A-N中的一个或多个指定的端点130A-N的会议的视频流。组合的压缩输出视频流可以经由视频链路246被发送至NI 210。NI210可以将该一个或多个组合的压缩输出视频流传输至相关的一个或多个端点130A-N。
在一个实施例中,每个视频输入模块可以与一个端点130相关联。每个视频输出模块244可以与接收具有相同压缩参数的相同布局的一个或多个端点130相关联。每个输出模块244可以包括编辑器模块245。每个视频输出模块244可以根据为特定端点或端点组130A-N个性化的(individualized)布局产生组合的视频图像。每个视频输出模块244可以显示为多个端点130A-N中的特定端点或端点组个性化的字幕。
从输入模块242传送的未压缩视频数据可以在公共接口248上由输出模块244共享,公共接口可以包括时分多路复用(TDM)接口、基于包的接口、异步传输模式(ATM)接口、和/或共享存储器。公共接口248上的数据可以被完全解压缩或部分解压缩。
在一个实施例中,多个输出模块244中的每一个可以包括编辑器245。来自MG 250的视频数据例如可以根据从控制模块230接收的命令由适当输出模块244从公共接口248来捕获。每个适当输入模块可以将视频数据传输给编辑器245。编辑器245可以从不同视频源建立输出视频帧,还可以将菜单和/字幕帧包括到将被编码的下一帧存储中。编辑器245可以将每个字幕作为经由公共接口248接收的不同的视频源之一来处理。编辑器245可以将字幕的视频数据添加至布局作为视频图像的矩形或窗口之一。
屏幕布局上的每个矩形(块)或窗口可以包含从一个不同端点130接收到的视频图像,例如与该端点相关联的与会者的视频图像。在一个实施例中,来自MG 250的视频数据(例如,字幕)可以被放置在呈现产生所呈现的字幕的与会者的视频图像的窗口的上方或下方。
其他编辑器245可以将来自MG 250的视频数据看成是特殊的视频源,并将字幕显示为透明的且位于相关与会者的视频图像前面,从而菜单后面的视频图像仍然可以被看到。视频模块240的示例性操作在上面引用的美国专利第6,300,973号中被描述。视频模块240的其他示例性实施例在美国专利第7,535,485号和美国专利第7,542,068号中描述。
在一些实施例中,MG 250可以是向多于一个输出模块244生成所需的字幕的独立模块。在其他实施例中,MG 250可以是在每个输出模块244中的模块,用于生成个性化的菜单和/或字幕。
在一个实施例中,字幕可以被全面个性化。例如,字幕可以根据各个端点130A-N分别的请求在设置、外表和外观上被个性化。可替换地,字幕的外观可以基本上一致,尽管在字幕出现的时间等方面被个性化。
在一个实施例中,将视觉控制呈现给端点130A-N可以是在会议的主持人(图中未示出)预定和定义会议的模式(profile)时可以由主持人选择的选项。主持人可以与端点130A-N之一相关联,以及可以使用用户控制装置(图中未示出)来选择和定义会议的模式。主持人可以确定与会者在会议期间是否拥有(通过使用他们各自的用户控制装置)控制会议的设置(参数)的能力。在一个实施例中,当允许与会者具有控制会议设置的能力时,主持人在会议模式中将对应的选项选择为“开启”。
控制链路234、236、232、238和239,视频链路246和249,音频链路226,可以分别是被专门设计为并专用于承载控制信号、视频信号、音频信号和多媒体信号的链路。链路可以包括时分复用(TDM)接口、基于包的接口、异步传输模式(ATM)接口、和/或共享存储器。可替换地,它们可以由用于承载信号的通用电缆构成。在其他实施例中,链路例如可以承载光学信号,或可以是无线电波的通道,或者是其组合。
图3示出了具有根据一个实施例的音频模块300的示例性部分的相关元件的框图。音频模块300的可替换实施例可以具有其他部件和/或可以包括图3中示出的所有部件。音频模块300可以包括多个会议音频模块305A-N,一个会议音频模块305A-N针对音频模块300处理的一个会议。每个会议音频模块305A-N可以经由NI 210,通过压缩音频通用接口302,接收来自一个或多个端点130A-N的多个音频流。每个所接收的音频流可以被音频解码器(AD)310A-N解压缩、解码。
在一个实施例中的AD 310可以检测非嗓音信号以在嗓音和非嗓音音频信号之间进行区分。例如,被检测作为DTMF信号的音频流可以被传输至DTMF模块225,并且可以被转换为数字数据。数字数据被传输至控制模块230。数字数据例如可以是从端点130发送至MLTV-MCU 120A-C的命令。
每个音频流可以被AD 310A-N模块解压缩和/或解码。解码可以根据在接收到的压缩音频流中使用的压缩标准来进行。压缩标准可以包括ITU标准G.719,G.722等。在一个实施例中,AD 310A-N模块可以包括通用语音过滤器,其可以过滤出语音而去掉不同种类的噪声。AD 310A-N语音过滤器提高了音频质量。AD 310A-N可以通过一个或多个音频链路312输出过滤后的解压缩和/或解码的音频数据。
解码的音频数据在一个实施例中可以由信号能量分析器和控制器(SEAC)320经由链路322被采样。SEAC 320可以识别具有最高信号能量的预定数量的音频流(例如在3到5个流之间)。响应于检测到的信号能量,SEAC 320可以将一个或多个控制命令经由控制链路324发送至翻译器-选择器模块(TSM)360和一个或多个混合选择器330A-N。
至混合选择器330的控制命令例如可以指出选择哪些音频流来混合。在可替换实施例中,可以经由控制链路326从控制模块230接收关于哪些音频流要被混合的命令。在可替换实施例中,决定可以是来自SEAC 320和控制模块230的控制命令的组合。SEAC 320例如可以每隔预定时间段或每隔预定数量的帧来采样音频链路312。
TSM 360可以经由音频链路312从AD 310A-N接收解码的音频流。此外,TSM 360可以从SEAC 320接收指示哪些音频流需要被翻译的命令。响应于这些命令,TSM 360可以将所选的解码的音频流传输至一个或多个STTE 365A-X。在可替换实施例中,TSM 360可以拷贝需要被翻译的每个音频,并将音频流的拷贝传输至STTE365A-X,而将原始流传输至混合选择器330。
在一个实施例中,STTE 365A-X可以接收音频流并将音频流转换成文字流。STTE 365A-X可以是商业部件,例如,微软公司提供的Microsoft Speech SDK,国际商业机器公司提供的IBM EmbeddedViaVoice,以及MacSpeech公司提供的iListen。在一个实施例中,STTE 365可以是web服务,例如,Google Translate或Yahoo!Babel fish网站。在另一实施例中,STTE可以是上述的组合。每个STTE 365可以被用于一种或多种语言。在STTE 365A-X位于远程地点的一些实施例中,已经被选择进行翻译的所选音频流可以在被发送至STTE 365A-X之前被压缩。
在每个STTE 365A-X被用于几种语言的一个实施例中,TSM360可以根据音频流的语言确定哪个音频流被传输至哪个STTE365A-X。TSM 360可以将命令信息与音频流一起发送至STTE 365A-X。命令信息可以包括音频流的语言和该流应当被翻译成的语言。在另一实施例中,SEAC 320可以就音频流的目标语言直接指示每个STTE 365A-X。在一个实施例中,STTE 365A-X可能能够识别音频流的语言并使其本身适合于将所接收的音频翻译成所需的语言。在一个实施例中,所需的语言可以由SEAC 320定义。这样的实施例可以使用能够识别语言的商业产品,例如在1991年的InternationalConference on Acoustics,Speech and Signal Processing的论文集中出版的文章“Automatic Language Recognition Using AcousticFeatures”中描述的产品。
其他实施例可以使用确定音频流的语言和该音频流应当被翻译成的语言的其他方法。一种技术可以是通过识别作为音频流的源的端点(地点),以及该音频流应当被发送到的端点。该信息可以从NI210(图2)和/或控制模块230接收,并且可以被包括在发送至SEAC 320的信息中。
另一实施例可以使用训练阶段,其中在作为连续呈现(CP)会议中的通用程序的“说出你的名字”请求之外,通过请求与会者说几个预定词,MLTV-MCU 200可以执行声音校准阶段。
声音校准阶段可以在视频会议开始时或在与会者加入会议时执行。声音校准阶段例如也可以由与会者启动。在声音校准阶段,TSM 360可以学习哪个与会者的声音需要被翻译。在一个实施例中,这可以通过要求与会者在声音校准阶段开始时说预定数量的词(诸如“good morning”、“yes”、“no”等)来实现。TSM 360然后可以将这些词的音频串与查找表中的多个条目进行比较。该查找表可以包括不同语言的预定词串。当接收到在所接收音频串与查找表中的条目之间的匹配时,TSM 360可以确定所接收的音频流的语言。TSM 360在一个实施例中可以访问数据库,它可以在该数据库中存储信息以供未来使用。
在一个实施例中,TSM 360可以通过使用点击和查看功能从一个或多个端点接收关于语言的信息。与会者可以输入关于与会者的语言和/或会议想要将他的话翻译成的语言,或他希望被翻译成与会者的语言的端点,与会者希望翻译成的语言,等等的信息。在其他实施例中,进行接收的与会者可以定义语言和/或与会者希望从中得到字幕的端点。在一个实施例中,在会议的任何阶段,与会者可以使用点击和查看功能输入上述信息。例如,该信息可以使用DTMF信号被传输。在另一实施例中,该识别可以是不同方法的组合。
在另一实施例中,TSM 360可以通过访问可以识别所讲语言并将该语言通知给TSM 360的模块来识别语言。该模块可以是内部或外部模块。该模块可以是商业模块,例如iListen或ViaVoice。TSM360可以执行上述技术的组合或没有提及的技术。
在STTE 365A-X已经将音频流转成文字流之后,STTE 365可以安排文字,从而其在适当位置具有逗号和句号,以帮助TE 367A-X更准确地翻译文字。STTE 365然后可以将转换后的文字的短语转发至一个或多个TE 367A-X中。TE 367A-X可以采用商业部件,例如由Systran软件公司提供的Systran,由Babylon有限公司提供的Babylon,以及由MacSpeech公司提供的iListen。在其他实施例中,TE 367可以访问web服务,例如Google Translate,或Yahoo!Babel fish网站。在另一实施例中,其可以是上面的组合。每个TE367可以提供一种不同语言或多种语言。
将每个文字翻译成哪种语言的决定可以通过确定文字流将被显示在哪个端点(地点)上作为字幕或通过接收关于需要被翻译给端点130中的与会者的语言的信息来实现。与会者可以使用点击和查看功能来识别目标语言。与会者可以输入关于与会者语言、和/或将被翻译的端点、应被翻译的语言等的信息。在一个实施例中,与会者可以在会议的任何阶段使用点击和查看功能输入上述信息。在一个实施例中,该信息可以在DTMF信号中被传输。在其他实施例中,识别可以是不同技术的组合,包括没有在此描述的技术。
TE 367可以将翻译的文字输出到菜单生成器250和/或文字至语音模块(TTS)369A-X,和/或到会议稿记录器370。菜单生成器230可以接收翻译的文字并将该文字转换为视频帧。菜单生成器250例如可以具有查找表,查找表可以在文字字母和其图形视频(字幕)之间进行匹配。菜单生成器250可以接收来自控制模块230和/或音频模块300的命令。在一个实施例中,命令可以包括哪些字幕显示给哪些端点,以哪种格式显示每个字幕(颜色、大小等),等等。
菜单生成器250可以执行所接收的命令、修改字幕、以及将其传输至适当的视频输出模块244。关于菜单生成器250的更多信息将在结合上面的图2和下面的图6披露。
在一个实施例中,TE 367A-X可以将翻译的文字输出到会议稿记录器370。会议稿记录器370可以被用于会议讨论的记录。由会议稿记录器370存储的内容可以被发送给所有或一些与会者,分别以与会者的语言。在会议稿中,可能存在指示,其指示哪些文字是由主发言者所说,哪些文字被听见(混合在会议电话中),哪些文字没有被所有与会者听见等。在一个实施例中,指示可以包括在行的开头指出音频被转换为文字的人的姓名,为主发言者的文字使用粗体,根据测量到的音频信号能量使用不同字母大小。
在一个实施例中,TE 367A-X可以将翻译的文字输出至TTS369A-X。TTS 369A-X可以将接收到的翻译文字转换为音频(采用与文字相同的语言)。TTS 369A-X然后可以将转换后的音频传输至TSM 360。在一个实施例中,TSM 360可以接收关于来自哪个TTS369A-X的哪个音频被传输至哪个混合选择器330A-N的命令。TSM360可以接收来自SEAC 320的命令。TTS 369A-X可以是商业部件,例如微软公司提供的Microsoft SAPI、或AT&T公司提供的NATURAL
Figure BDA0000052531340000211
(“NATURAL VOICE”是AT&T IntellectualProperty II,L.P.的注册商标)。
在一些实施例中,TSM 360可以包括缓冲器,用于延迟不需要翻译的流的音频数据,以使混合的音频与字幕同步。这些缓冲器还可以被用于同步音频和视频。
所选择的要被混合的音频流(包括来自TTS 367A-X的所选择的音频流)可以从TSM 360输出至适当的一个或多个混合选择器330A-N。在一个实施例中,每个接收端点130A-N可以具有一个混合选择器330。混合选择器330A-N可以将接收到的修改后的音频流转发至适当的混合器340A-N。在替换实施例中,单个选择器可以包括两个选择器TSM 360和混合选择器330A-N的功能。这两个选择器——TSM 360和混合选择器330A-N——被示出是为了简化本描述的教导。
在一个实施例中,每个端点130A-N可以有一个混合器。每个混合器340A-N可以将所选的输入音频流混合成一个混合的音频流。混合的音频流可以被发送至编码器350A-N。编码器350A-N可以将所接收的混合音频流编码,并将编码后的混合音频流输出至NI 210。编码可以根据所要求的音频压缩标准(例如,G.719,G.722等)来进行。
图4A和4B示出了根据一个实施例的多语言翻译视频会议的CP视频图像的快照。图4A和图4B示出了快照400和420。每个快照具有4块:快照400具有块401,402,403和404,而快照420具有块421,422,423和424。(图中的翻译文字是说明性的,仅用于示例,不打算作为原始语言的最好的可能翻译)。图4A被显示在日本端点。块402和403与讲日语之外的语言(在该示例中分别为俄语和英语)的与会者相关联,从而被翻译成日语的字幕已经被添加到410和412。在该实施例中,字幕位于每个被翻译块的底部。在可替换实施例中,所有的字幕可以使用不同颜色等被显示在一个区域中。块401与无声音的端点130(其音频信号能量低于其他的)相关联,从而其音频没有被听到(混合),并且没有显示字幕。块404是其发言人讲日语的另一端点的块,因此他的音频没有被翻译,这是因为这是在日本终端(端点)130上观看。
图4B是显示在例如美国端点(终端)上的快照。块422,423和424是来自讲英语之外的语言的端点的音频和视频,因此具有翻译414,416和418的字幕已经被添加在块422,423和424中。与块421相关联的与会者的音频信号能量低于其他的,因此,其音频没有被听见并且没有显示字幕。在该实施例中,每个字幕以关于语言名称的指示开始,其中字幕是从该语言被翻译过来的。主发言人(日语与会者)(例如,具有最高音频信号能量达时间周期的一定百分比的发言人)下方的字幕418通过在字幕下面划线来表示。
字幕可以包括文字、图形和透明信息(与会议视频图像可以被看作是透过部分透明的前景图像的背景的程度有关的信息)。
图5是示出了根据一个实施例的音频翻译控制技术500的相关步骤的流程图。在一个实施例中,技术500可以由SEAC 320实现。技术500不包括用于确定哪些音频流将被混合或被定义为主发言人的常见过程。技术500仅用于处理翻译过程。一旦开始会议,技术500可以在块502开始。在块504,技术500可以获取关于参加会议的不同与会者(端点)所使用的语言的信息。语言信息可以包括与会者使用的语言以及与会者要求翻译的语言。不同技术可以被用于确定语言信息,包括上面没有描述的技术。
接下来,技术500可以在块506中通知TSM 360关于所获取的语言信息。也可以通知TSM 360不同参数,可以包括关于为每个端点设置的字幕颜色的信息,用于每个端点的音频混合信息,以及关于发送至适当的一个或多个STTE 365A-X和TE 367A-X的音频的信息。
然后多个并行线程可以在块508中被启动,每个需要被翻译的音频流一个(每个被译与会者(translated conferee)一个)。图5仅示出了在块508中启动的多个并行线程中的一个线程。每个线程包括块510至522或524。在块510,启动每个判定周期的循环。该循环可以通过等待一个等待周期D在块510开始。在一个实施例中,D可以在几十毫秒至几百毫秒的范围内。在等待周期D结束时,技术500可以在块514中检验相关被译与会者的音频流是否能够在音频混合(audio mix)中。关于音频流能否在混合中的判定可以取决于例如其音频能量与其他音频流的音频能量的比较。如果在块514判定该相关音频流不能在混合中,则技术500返回至块510并等待。如果在块514判定该相关音频流可以在混合中,则技术500进行到块516。
在块516,TSM可以被指示将相关音频流传输至适当的STTE365A-X和TE 367A-X。适当的STTE 365A-X和TE 367A-X可以分别基于相关被译与会者的讲话语言和其将被翻译成的语言。随后,在块520中需要判定该相关被译与会者是否为主发言人。如果在块520中判定为是,则菜单生成器250可以被指示524获取来自与该相关被译与会者相关联的一个或多个TE 367A-X的文字,以在块524中将该文字以主发言人格式呈现为字幕,格式可以包括不同的颜色、字体、字母大小、下划线等。接下来,技术500可以返回至块510。如果在块520中,相关被译与会者不是主发言人,则技术500可以进行到块522。在块522,菜单生成器250可以在块522中被指示从相关的一个或多个TE 367A-X获取文字,并在块522中将该文字以普通格式呈现为字幕,格式可以包括颜色、字体、字母大小等。接下来,技术500可以返回至块510。
图6是示出了根据一个实施例由MG 250执行的菜单生成器控制技术600的相关动作的流程图。一旦启动会议,技术600可以在块602开始。技术600可以在块604获取关于每个与会者(端点)的信息,包括哪个TE 367A-X关联到要求呈现字幕的端点130,以及将TE 367A-X关联到输出模块244的信息。
在块608中可以开始多个线程,需要翻译的接收端点130的每个输出模块244一个线程。图6仅示出了在块608中开始的多个并行线程中的一个线程。接下来,技术600可以在块610中等待指令。在一个实施例中,指令可以通过块522或524中的技术500来给出。如果在块610中接收到指令,则技术600可以进行到块612。对于接收到的指令中的每个TE 367A-X,来自相关TE 367A-X的文字流可以在块612中被收集。文字流可以在块612中被转换为适当设置(颜色、黑体、下划线等)的视频信息。该视频信息可以在块612中被传输至适当的输出模块的编辑器245。接下来,技术600可以返回至块610。
在该申请中,词语“模块”、“装置”、“部件”和“模块”可交换使用。被指定为一个模块或模块的任何东西都可以是独立的模块或专用模块。模块可以是模块化的或具有使其能被容易去除并用其他类似模块来代替的模块化的方面。每个模块可以是以下任一种或其任意组合:软件、硬件和/或固件。逻辑模块的软件可以体现在计算机可读介质上,计算机可读介质例如:读/写硬盘、CDROM、闪存、ROM等。为了执行特定任务,软件程序可以根据需要加载至适当处理器。
在本公开的描述和权利要求中,“包括”、“包含”、“具有”及其同根词被用于表示该动词的一个或多个对象不一定是该动词的一个或多个对象的构件、部件、元素、或部分的完整列表。
应该理解上述设备、系统和方法可以以多种方式改变,包括:改变步骤的顺序以及所使用的精确的实施方式。所述实施例包括不同的特征,不是所有这些特征在所有本发明的实施例中都需要。此外,本公开的一些实施例仅使用这些特征中的一些特征或可能的组合。本领域技术人员能够想到在所述实施例中提到的特征的不同组合。此外,本公开的一些实施例可以通过本公开中结合不同实施例描述的特征和元件的组合来实施。本发明的范围仅由所附的权利要求及其等同物限制。
尽管已经详细描述并在附图中示出了某些实施例,但是应该理解这样的实施例在不背离由所附权利要求确定的基本范围的情况下仅是示例性的而不用于限制。

Claims (29)

1.一种用于视频会议多点控制单元的实时音频翻译器,包括:
控制器,用于检查多个音频流并选择所述多个音频流的子集以便翻译;
多个翻译器资源,用于翻译包含在所述多个音频流的所述子集中的语音;以及
翻译器资源选择器,耦连到所述控制器,用于将所述控制器选择的所述多个音频流的所述子集传递给所述多个翻译器资源以便翻译。
2.根据权利要求1所述的实时音频翻译器,其中所述多个翻译器资源包括:
多个语音至文字引擎(STTE),每个STTE用于将在所述多个音频流的所述子集中的一个或多个音频流中的语音转换为一种或多种语言的文字;以及
多个翻译引擎(TE),耦连至所述多个STTE,每个TE用于将文字从一种或多种语言翻译成一种或多种其他语言。
3.根据权利要求2所述的实时音频翻译器,其中所述多个翻译器资源进一步包括:
多个文字至语音引擎(TTS),耦连至所述多个TE,每个TTS用于将一种或多种语言的文字转换为翻译后的音频流。
4.根据权利要求3所述的实时音频翻译器,进一步包括:
混合选择器,耦连到所述翻译器资源选择器,用于响应于命令选择音频流以混合至输出音频流中;
其中所述混合选择器用于从所述多个音频流的所述子集和所述多个TTS的翻译后的音频流中进行选择。
5.根据权利要求2所述的实时音频翻译器,其中所述多个STTE中的STTE用于将音频流中的语音转换为多种语言的文字。
6.根据权利要求1所述的实时音频翻译器,
其中所述多个音频流的所述子集是由所述控制器响应于所述多个音频流的所述子集的音频能量水平来选择的。
7.根据权利要求1所述的实时音频翻译器,其中所述翻译器资源选择器还用于将所述多个音频流的所述子集传输至所述多个翻译器资源。
8.根据权利要求1所述的实时音频翻译器,进一步包括:
混合选择器,耦连到所述翻译器资源选择器,用于响应于命令选择音频流以混合至输出音频流中。
9.根据权利要求8所述的实时音频翻译器,其中所述命令由所述控制器生成。
10.根据权利要求1所述的实时音频翻译器,进一步包括:
会议稿记录器,耦连到所述多个翻译器资源,并且用于记录由所述多个翻译器资源从语音转换成的文字。
11.一种多点控制单元(MCU),用于从多个与会者接收多个输入音频流和多个输入视频流,以及将多个输出音频流和多个输出视频流发送至所述多个与会者,所述MCU包括:
网络接口,用于接收多个输入音频流和所述多个输入视频流,以及发送所述多个输出音频流和所述多个输出视频流;以及
音频模块,耦连至所述网络接口,包括:
实时翻译器模块,用于翻译包含在所述多个音频流中的至少一些音频流中的语音。
12.根据权利要求11所述的MCU,进一步包括:
菜单生成器模块,耦连至所述音频模块,用于生成与由所述实时翻译器模块翻译出的语音相对应的字幕;以及
视频模块,用于将所述多个输入视频流中的输入视频流和由所述菜单生成器模块生成的所述字幕相结合,产生所述多个输出视频流的输出视频流。
13.根据权利要求11所述的MCU,其中所述实时翻译器模块包括:
控制器,用于检查所述多个输入音频流并选择所述多个输入音频流的子集以便翻译;
多个翻译器资源,用于翻译包含在所述多个输入音频流的所述子集中的语音,包括:
多个语音至文字引擎(STTE),每个STTE用于将在所述多个输入音频流的所述子集中的一个或多个音频流中的语音转换为一种或多种语言的文字;
多个翻译引擎(TE),耦连至所述多个STTE,每个TE用于将文字从一种或多种语言翻译成一种或多种其他语言;以及
多个文字至语音引擎(TTS),耦连至所述多个TE,每个TTS用于将一种或多种语言的文字转换为翻译后的音频流;以及
翻译器资源选择器,耦连至所述控制器,用于将所述控制器选择的所述多个音频流的所述子集传递给所述多个翻译器资源以便翻译。
14.根据权利要求13所述的MCU,
其中所述多个音频流的所述子集是由所述控制器响应于所述多个音频流的所述子集的音频能量水平来选择的。
15.根据权利要求13所述的MCU,其中所述多个STTE中的STTE用于将音频流中的语音转换为多种语言的文字。
16.根据权利要求13所述的MCU,其中所述翻译器资源选择器还用于将所述多个音频流的所述子集传输至所述多个翻译器资源。
17.根据权利要求13所述的MCU,进一步包括:
混合选择器,耦连到所述翻译器资源选择器,用于响应于命令选择音频流以混合至输出音频流中。
18.根据权利要求17所述的MCU,其中所述命令由所述控制器生成。
19.根据权利要求17所述的MCU,其中所述混合选择器用于从所述多个音频流的所述子集和所述多个TTS的翻译后的音频流中进行选择。
20.根据权利要求13所述的MCU,进一步包括:
会议稿记录器,耦连到所述多个翻译器资源,并且用于记录由所述多个翻译器资源从语音转换成的文字。
21.一种为视频会议中的多个与会者实时翻译音频流的方法,包括:
接收来自所述多个与会者的多个音频流;
识别从所述多个与会者中的第一与会者接收到的、将被为所述多个与会者中的第二与会者翻译的第一音频流;
将第一音频流传送到翻译资源;
生成第一音频流的翻译;以及
向第二与会者发送所述翻译。
22.根据权利要求21所述的方法,其中识别从所述多个与会者中的第一与会者接收到的、将被为所述多个与会者中的第二与会者翻译的第一音频流的动作包括:
识别第一与会者所讲的第一语言;
识别第二与会者期望的第二语言;以及
确定第一音频流是否包含将被翻译的第一语言的语音。
23.根据权利要求22所述的方法,其中识别第一与会者所讲的第一语言的动作包括:
请求第一与会者说出预定数量的词;以及
响应于第一与会者说出所述预定数量的词,自动识别第一语言。
24.根据权利要求21所述的方法,其中将第一音频流传送到翻译资源的动作包括:
将第一音频流传送到语音至文字引擎。
25.根据权利要求21所述的方法,其中生成第一音频流的翻译的动作包括:
将包含在第一音频流中的第一语言的语音转换为第一文字流;以及
将第一文字流翻译成第二语言的第二文字流。
26.根据权利要求25所述的方法,
其中,生成第一音频流的翻译的动作进一步包括:
将第二文字流转换成第二音频流,并且
其中,向第二与会者发送所述翻译的动作包括:
将第二音频流与所述多个音频流的子集混合以产生混合音频流;和
向第二与会者发送所述混合音频流。
27.根据权利要求21所述的方法,其中生成第一音频流的翻译的动作包括:
由会议稿记录器记录第一音频流的翻译。
28.根据权利要求21所述的方法,
其中生成第一音频流的翻译的动作包括:
将包含在所述音频流中的第一语言的语音转换为第一文字流;
将第一文字流翻译成第二语言的第二文字流;和
将第二语言的第二文字流转换为字幕,并且
其中向第二与会者发送所述翻译的动作包括:
将所述字幕插入视频流中;和
向第二与会者发送所述视频流和所述字幕。
29.根据权利要求21所述的方法,其中生成第一音频流的翻译的动作包括:
将第一与会者识别为主与会者;
将包含在第一音频流中的第一语言的语音转换为第一文字流;
将第一文字流翻译成第二语言的第二文字流;
将第二语言的第二文字流转换为字幕;以及
将表示第一与会者是主与会者的指示符与所述字幕相关联。
CN2011100762548A 2010-03-30 2011-03-29 在视频会议中增加翻译的方法和系统 Pending CN102209227A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/749,832 US20110246172A1 (en) 2010-03-30 2010-03-30 Method and System for Adding Translation in a Videoconference
US12/749,832 2010-03-30

Publications (1)

Publication Number Publication Date
CN102209227A true CN102209227A (zh) 2011-10-05

Family

ID=44310337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100762548A Pending CN102209227A (zh) 2010-03-30 2011-03-29 在视频会议中增加翻译的方法和系统

Country Status (5)

Country Link
US (1) US20110246172A1 (zh)
EP (1) EP2373016A2 (zh)
JP (2) JP5564459B2 (zh)
CN (1) CN102209227A (zh)
AU (1) AU2011200857B2 (zh)

Cited By (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521221A (zh) * 2011-11-30 2012-06-27 江苏奇异点网络有限公司 具有文字输出功能的多语言会议信息输出方法
CN102572372A (zh) * 2011-12-28 2012-07-11 中兴通讯股份有限公司 会议纪要的提取方法和装置
CN103327397A (zh) * 2012-03-22 2013-09-25 联想(北京)有限公司 一种媒体文件的字幕同步显示方法及系统
CN103685985A (zh) * 2012-09-17 2014-03-26 联想(北京)有限公司 通话方法、发送装置、接收装置、语音处理和终端设备
CN103853709A (zh) * 2012-12-08 2014-06-11 上海能感物联网有限公司 计算机汉语有声影像资料自动加注中外文字幕的方法
CN103853704A (zh) * 2012-11-28 2014-06-11 上海能感物联网有限公司 计算机外语有声影像资料自动加注中外文字幕的方法
CN103873808A (zh) * 2012-12-13 2014-06-18 联想(北京)有限公司 数据处理的方法和装置
WO2014173370A1 (zh) * 2013-08-22 2014-10-30 中兴通讯股份有限公司 会议纪要的提取方法及装置
CN104301562A (zh) * 2014-09-30 2015-01-21 成都英博联宇科技有限公司 一种带即时打印功能的智能会议系统
CN104301557A (zh) * 2014-09-30 2015-01-21 成都英博联宇科技有限公司 一种带即时显示功能的智能会议系统
CN104539873A (zh) * 2015-01-09 2015-04-22 京东方科技集团股份有限公司 远程会议系统和进行远程会议的方法
CN104780335A (zh) * 2015-03-26 2015-07-15 中兴通讯股份有限公司 一种WebRTC P2P音视频通话的方法及装置
CN105159891A (zh) * 2015-08-05 2015-12-16 焦点科技股份有限公司 一种构建多语言网站实时翻译的方法
CN105632498A (zh) * 2014-10-31 2016-06-01 株式会社东芝 生成会议记录的方法、装置和系统
CN105721796A (zh) * 2016-03-23 2016-06-29 中国农业大学 一种视频字幕自动生成装置和方法
CN105791713A (zh) * 2016-03-21 2016-07-20 安徽声讯信息技术有限公司 一种智能语音文字字幕同步播音的装置
CN106027505A (zh) * 2016-05-10 2016-10-12 国家电网公司 一种反事故演习观摩系统
CN106462573A (zh) * 2014-05-27 2017-02-22 微软技术许可有限责任公司 通话中翻译
CN106507021A (zh) * 2015-09-07 2017-03-15 腾讯科技(深圳)有限公司 视频处理方法及终端设备
US9836458B1 (en) 2016-09-23 2017-12-05 International Business Machines Corporation Web conference system providing multi-language support
CN107480146A (zh) * 2017-08-07 2017-12-15 中译语通科技(青岛)有限公司 一种识别语种语音的会议纪要快速翻译方法
CN107484002A (zh) * 2017-08-25 2017-12-15 四川长虹电器股份有限公司 智能翻译字幕的方法
CN107483872A (zh) * 2017-08-27 2017-12-15 张红彬 视频通话系统及视频通话方法
CN107690089A (zh) * 2016-08-05 2018-02-13 阿里巴巴集团控股有限公司 数据处理方法、直播方法及装置
CN108009161A (zh) * 2017-12-27 2018-05-08 王全志 信息输出方法、装置
CN109104586A (zh) * 2018-10-08 2018-12-28 北京小鱼在家科技有限公司 特效添加方法、装置、视频通话设备以及存储介质
CN109348306A (zh) * 2018-11-05 2019-02-15 努比亚技术有限公司 视频播放方法、终端及计算机可读存储介质
CN109391836A (zh) * 2017-08-02 2019-02-26 甲骨文国际公司 用附加信息补充媒体流
CN109587429A (zh) * 2017-09-29 2019-04-05 北京国双科技有限公司 音频处理方法和装置
CN109688367A (zh) * 2018-12-31 2019-04-26 深圳爱为移动科技有限公司 多终端多语言实时视频群聊的方法和系统
CN109688363A (zh) * 2018-12-31 2019-04-26 深圳爱为移动科技有限公司 多终端多语言实时视频群内私聊的方法及系统
CN109743529A (zh) * 2019-01-04 2019-05-10 广东电网有限责任公司 一种多功能视频会议系统
CN109889764A (zh) * 2019-03-20 2019-06-14 上海高屋信息科技有限公司 会议系统
CN109949793A (zh) * 2019-03-06 2019-06-28 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
WO2019184650A1 (zh) * 2018-03-29 2019-10-03 华为技术有限公司 字幕生成方法及终端
CN110677613A (zh) * 2012-03-14 2020-01-10 谷歌有限责任公司 在视频会议期间修改参与者的外观
CN111447397A (zh) * 2020-03-27 2020-07-24 深圳市贸人科技有限公司 一种基于视频会议的翻译方法以及翻译装置
CN111709253A (zh) * 2020-05-26 2020-09-25 珠海九松科技有限公司 一种将方言自动转换为字幕的ai翻译方法和系统
CN111753558A (zh) * 2020-06-23 2020-10-09 北京字节跳动网络技术有限公司 视频翻译方法和装置、存储介质和电子设备
CN111787266A (zh) * 2020-05-22 2020-10-16 福建星网智慧科技有限公司 一种视讯ai实现方法及系统
CN111787267A (zh) * 2020-07-01 2020-10-16 广州科天视畅信息科技有限公司 会议视频字幕合成系统和方法
CN112153323A (zh) * 2020-09-27 2020-12-29 北京百度网讯科技有限公司 远程会议的同声传译方法、装置、电子设备和存储介质
CN112309419A (zh) * 2020-10-30 2021-02-02 浙江蓝鸽科技有限公司 多路音频的降噪、输出方法及其系统
CN112655036A (zh) * 2018-08-30 2021-04-13 泰勒维克教育公司 用于记录源媒体项目的口译的系统
CN112672099A (zh) * 2020-12-31 2021-04-16 深圳市潮流网络技术有限公司 字幕数据生成和呈现方法、装置、计算设备、存储介质
CN112684967A (zh) * 2021-03-11 2021-04-20 荣耀终端有限公司 一种用于字幕显示的方法及电子设备
CN112818703A (zh) * 2021-01-19 2021-05-18 传神语联网网络科技股份有限公司 基于多线程通信的多语种共识翻译系统与方法
TWI739377B (zh) * 2020-04-08 2021-09-11 瑞昱半導體股份有限公司 字幕影像產生裝置及方法
WO2022068067A1 (zh) * 2020-09-30 2022-04-07 常熟九城智能科技有限公司 一种视频会议信息处理方法、装置、电子设备及系统
CN115022574A (zh) * 2022-05-30 2022-09-06 北京字跳网络技术有限公司 字幕处理方法、装置、设备及存储介质
CN115066908A (zh) * 2019-12-09 2022-09-16 金京喆 用户终端及其控制方法

Families Citing this family (142)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9510044B1 (en) * 2008-06-18 2016-11-29 Gracenote, Inc. TV content segmentation, categorization and identification and time-aligned applications
US8885013B2 (en) * 2010-05-12 2014-11-11 Blue Jeans Network, Inc. Systems and methods for novel interactions with participants in videoconference meetings
US9124757B2 (en) 2010-10-04 2015-09-01 Blue Jeans Networks, Inc. Systems and methods for error resilient scheme for low latency H.264 video coding
US20120143592A1 (en) * 2010-12-06 2012-06-07 Moore Jr James L Predetermined code transmission for language interpretation
EP3054699B1 (en) * 2011-04-21 2017-09-13 Shah Talukder Flow-control based switched group video chat and real-time interactive broadcast
US9369673B2 (en) 2011-05-11 2016-06-14 Blue Jeans Network Methods and systems for using a mobile device to join a video conference endpoint into a video conference
US9300705B2 (en) 2011-05-11 2016-03-29 Blue Jeans Network Methods and systems for interfacing heterogeneous endpoints and web-based media sources in a video conference
US9247157B2 (en) * 2011-05-13 2016-01-26 Lattice Semiconductor Corporation Audio and video data multiplexing for multimedia stream switch
US8719031B2 (en) * 2011-06-17 2014-05-06 At&T Intellectual Property I, L.P. Dynamic access to external media content based on speaker content
US8175244B1 (en) * 2011-07-22 2012-05-08 Frankel David P Method and system for tele-conferencing with simultaneous interpretation and automatic floor control
US20130030789A1 (en) * 2011-07-29 2013-01-31 Reginald Dalce Universal Language Translator
US8706473B2 (en) * 2011-09-13 2014-04-22 Cisco Technology, Inc. System and method for insertion and removal of video objects
KR101830656B1 (ko) * 2011-12-02 2018-02-21 엘지전자 주식회사 이동 단말기 및 이의 제어방법
US9613639B2 (en) * 2011-12-14 2017-04-04 Adc Technology Inc. Communication system and terminal device
JP5892021B2 (ja) * 2011-12-26 2016-03-23 キヤノンマーケティングジャパン株式会社 会議サーバ、会議システム、会議サーバの制御方法、プログラムおよび記録媒体
US9007448B2 (en) * 2012-02-03 2015-04-14 Bank Of America Corporation Video-assisted customer experience
US9256457B1 (en) * 2012-03-28 2016-02-09 Google Inc. Interactive response system for hosted services
US9412372B2 (en) * 2012-05-08 2016-08-09 SpeakWrite, LLC Method and system for audio-video integration
US8874429B1 (en) * 2012-05-18 2014-10-28 Amazon Technologies, Inc. Delay in video for language translation
CN102821259B (zh) * 2012-07-20 2016-12-21 冠捷显示科技(厦门)有限公司 具有多国语言语音翻译的tv系统及其实现方法
JP5889162B2 (ja) * 2012-10-23 2016-03-22 日本電信電話株式会社 会議支援装置、会議支援システム、その方法及びプログラム
US9160967B2 (en) * 2012-11-13 2015-10-13 Cisco Technology, Inc. Simultaneous language interpretation during ongoing video conferencing
CA2799892C (en) * 2012-12-20 2016-11-22 Stenotran Services Inc. System and method for real-time multimedia reporting
US20140180671A1 (en) * 2012-12-24 2014-06-26 Maria Osipova Transferring Language of Communication Information
US9426415B2 (en) * 2012-12-28 2016-08-23 Ittiam Systems (P) Ltd. System, method and architecture for in-built media enabled personal collaboration on endpoints capable of IP voice video communication
IL225480A (en) * 2013-03-24 2015-04-30 Igal Nir A method and system for automatically adding captions to broadcast media content
CN104079861B (zh) * 2013-03-26 2017-07-25 联想(北京)有限公司 一种信息处理方法及电子设备
SG10201700886VA (en) * 2013-06-03 2017-03-30 Mach Zone Inc Systems and methods for multi-user multi-lingual communications
CN103686352A (zh) * 2013-11-15 2014-03-26 乐视致新电子科技(天津)有限公司 智能电视媒体播放器及其字幕处理方法、智能电视
KR102256291B1 (ko) * 2013-11-15 2021-05-27 삼성전자 주식회사 번역 상황을 인지하고 번역 기능을 수행하는 방법 및 이를 구현하는 전자장치
JP6148163B2 (ja) * 2013-11-29 2017-06-14 本田技研工業株式会社 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム
US20180034961A1 (en) 2014-02-28 2018-02-01 Ultratec, Inc. Semiautomated Relay Method and Apparatus
US20180270350A1 (en) 2014-02-28 2018-09-20 Ultratec, Inc. Semiautomated relay method and apparatus
US10878721B2 (en) 2014-02-28 2020-12-29 Ultratec, Inc. Semiautomated relay method and apparatus
US10389876B2 (en) 2014-02-28 2019-08-20 Ultratec, Inc. Semiautomated relay method and apparatus
US10304458B1 (en) * 2014-03-06 2019-05-28 Board of Trustees of the University of Alabama and the University of Alabama in Huntsville Systems and methods for transcribing videos using speaker identification
US20150347399A1 (en) * 2014-05-27 2015-12-03 Microsoft Technology Licensing, Llc In-Call Translation
US9542486B2 (en) * 2014-05-29 2017-01-10 Google Inc. Techniques for real-time translation of a media feed from a speaker computing device and distribution to multiple listener computing devices in multiple different languages
US9740687B2 (en) 2014-06-11 2017-08-22 Facebook, Inc. Classifying languages for objects and entities
US9477657B2 (en) * 2014-06-11 2016-10-25 Verizon Patent And Licensing Inc. Real time multi-language voice translation
US10218754B2 (en) 2014-07-30 2019-02-26 Walmart Apollo, Llc Systems and methods for management of digitally emulated shadow resources
EP3195579A4 (en) * 2014-08-05 2018-03-28 Speakez Ltd. Computerized simultaneous interpretation system and network facilitating real-time calls and meetings
WO2016047818A1 (ko) * 2014-09-23 2016-03-31 (주)두드림 멀티 코덱, 멀티 채널 기반의 동시통역 서비스 제공 시스템 및 방법
CN104301659A (zh) * 2014-10-24 2015-01-21 四川省科本哈根能源科技有限公司 一种多点视频汇聚识别系统
US9864744B2 (en) 2014-12-03 2018-01-09 Facebook, Inc. Mining multi-lingual data
US20160170970A1 (en) * 2014-12-12 2016-06-16 Microsoft Technology Licensing, Llc Translation Control
US10067936B2 (en) 2014-12-30 2018-09-04 Facebook, Inc. Machine translation output reranking
US9830404B2 (en) 2014-12-30 2017-11-28 Facebook, Inc. Analyzing language dependency structures
US9830386B2 (en) 2014-12-30 2017-11-28 Facebook, Inc. Determining trending topics in social media
US9477652B2 (en) 2015-02-13 2016-10-25 Facebook, Inc. Machine learning dialect identification
JP6507010B2 (ja) * 2015-03-30 2019-04-24 株式会社エヌ・ティ・ティ・データ ビデオ会議システムと音声認識技術を組み合わせた装置および方法
JP6068566B1 (ja) * 2015-07-08 2017-01-25 三菱電機インフォメーションシステムズ株式会社 画像送信システムおよび画像送信プログラム
US9734142B2 (en) 2015-09-22 2017-08-15 Facebook, Inc. Universal translation
US20170092274A1 (en) * 2015-09-24 2017-03-30 Otojoy LLC Captioning system and/or method
US9641563B1 (en) 2015-11-10 2017-05-02 Ricoh Company, Ltd. Electronic meeting intelligence
US11120342B2 (en) 2015-11-10 2021-09-14 Ricoh Company, Ltd. Electronic meeting intelligence
US9525830B1 (en) 2015-11-12 2016-12-20 Captioncall Llc Captioning communication systems
US9374536B1 (en) 2015-11-12 2016-06-21 Captioncall, Llc Video captioning communication system, devices and related methods for captioning during a real-time video communication session
US10133738B2 (en) 2015-12-14 2018-11-20 Facebook, Inc. Translation confidence scores
US9734143B2 (en) 2015-12-17 2017-08-15 Facebook, Inc. Multi-media context language processing
US9805029B2 (en) * 2015-12-28 2017-10-31 Facebook, Inc. Predicting future translations
US9747283B2 (en) 2015-12-28 2017-08-29 Facebook, Inc. Predicting future translations
US10002125B2 (en) 2015-12-28 2018-06-19 Facebook, Inc. Language model personalization
KR20170101629A (ko) * 2016-02-29 2017-09-06 한국전자통신연구원 스테레오 오디오 신호 기반의 다국어 오디오 서비스 제공 장치 및 방법
JPWO2017191711A1 (ja) * 2016-05-02 2019-03-07 ソニー株式会社 制御装置、制御方法およびコンピュータプログラム
US10902215B1 (en) 2016-06-30 2021-01-26 Facebook, Inc. Social hash for language models
US10902221B1 (en) 2016-06-30 2021-01-26 Facebook, Inc. Social hash for language models
KR101827773B1 (ko) * 2016-08-02 2018-02-09 주식회사 하이퍼커넥트 통역 장치 및 방법
KR101861006B1 (ko) * 2016-08-18 2018-05-28 주식회사 하이퍼커넥트 통역 장치 및 방법
JP6672114B2 (ja) * 2016-09-13 2020-03-25 本田技研工業株式会社 会話メンバー最適化装置、会話メンバー最適化方法およびプログラム
JP7000671B2 (ja) 2016-10-05 2022-01-19 株式会社リコー 情報処理システム、情報処理装置、及び情報処理方法
US10510051B2 (en) 2016-10-11 2019-12-17 Ricoh Company, Ltd. Real-time (intra-meeting) processing using artificial intelligence
US11307735B2 (en) 2016-10-11 2022-04-19 Ricoh Company, Ltd. Creating agendas for electronic meetings using artificial intelligence
US10572858B2 (en) 2016-10-11 2020-02-25 Ricoh Company, Ltd. Managing electronic meetings using artificial intelligence and meeting rules templates
US10860985B2 (en) 2016-10-11 2020-12-08 Ricoh Company, Ltd. Post-meeting processing using artificial intelligence
US10586527B2 (en) 2016-10-25 2020-03-10 Third Pillar, Llc Text-to-speech process capable of interspersing recorded words and phrases
US10375130B2 (en) 2016-12-19 2019-08-06 Ricoh Company, Ltd. Approach for accessing third-party content collaboration services on interactive whiteboard appliances by an application using a wrapper application program interface
US10298635B2 (en) 2016-12-19 2019-05-21 Ricoh Company, Ltd. Approach for accessing third-party content collaboration services on interactive whiteboard appliances using a wrapper application program interface
US10923121B2 (en) * 2017-08-11 2021-02-16 SlackTechnologies, Inc. Method, apparatus, and computer program product for searchable real-time transcribed audio and visual content within a group-based communication system
US10380249B2 (en) 2017-10-02 2019-08-13 Facebook, Inc. Predicting future trending topics
US11062271B2 (en) 2017-10-09 2021-07-13 Ricoh Company, Ltd. Interactive whiteboard appliances with learning capabilities
US10553208B2 (en) * 2017-10-09 2020-02-04 Ricoh Company, Ltd. Speech-to-text conversion for interactive whiteboard appliances using multiple services
US10956875B2 (en) 2017-10-09 2021-03-23 Ricoh Company, Ltd. Attendance tracking, presentation files, meeting services and agenda extraction for interactive whiteboard appliances
US10552546B2 (en) 2017-10-09 2020-02-04 Ricoh Company, Ltd. Speech-to-text conversion for interactive whiteboard appliances in multi-language electronic meetings
US11030585B2 (en) 2017-10-09 2021-06-08 Ricoh Company, Ltd. Person detection, person identification and meeting start for interactive whiteboard appliances
EP3474156A1 (en) * 2017-10-20 2019-04-24 Tap Sound System Real-time voice processing
US11328130B2 (en) * 2017-11-06 2022-05-10 Orion Labs, Inc. Translational bot for group communication
WO2019108231A1 (en) * 2017-12-01 2019-06-06 Hewlett-Packard Development Company, L.P. Collaboration devices
JP6948934B2 (ja) * 2017-12-19 2021-10-13 日本放送協会 コンテンツ加工システム、端末装置、およびプログラム
CN109982010A (zh) * 2017-12-27 2019-07-05 广州音书科技有限公司 一种实时显示的会议字幕系统
WO2019161229A1 (en) 2018-02-15 2019-08-22 DMAI, Inc. System and method for reconstructing unoccupied 3d space
US20190371318A1 (en) * 2018-02-15 2019-12-05 DMAI, Inc. System and method for adaptive detection of spoken language via multiple speech models
WO2019161207A1 (en) 2018-02-15 2019-08-22 DMAI, Inc. System and method for conversational agent via adaptive caching of dialogue tree
US10757148B2 (en) 2018-03-02 2020-08-25 Ricoh Company, Ltd. Conducting electronic meetings over computer networks using interactive whiteboard appliances and mobile devices
CN112055876A (zh) * 2018-04-27 2020-12-08 语享路有限责任公司 利用语音识别技术的多方对话记录/输出方法及用于其的装置
KR102067446B1 (ko) * 2018-06-04 2020-01-17 주식회사 엔씨소프트 자막 생성 방법 및 시스템
US11847425B2 (en) * 2018-08-01 2023-12-19 Disney Enterprises, Inc. Machine translation system for entertainment and media
US11361168B2 (en) * 2018-10-16 2022-06-14 Rovi Guides, Inc. Systems and methods for replaying content dialogue in an alternate language
US11342002B1 (en) * 2018-12-05 2022-05-24 Amazon Technologies, Inc. Caption timestamp predictor
KR102000282B1 (ko) * 2018-12-13 2019-07-15 주식회사 샘물정보통신 청각 기능 보조용 대화 지원 장치
US11328131B2 (en) * 2019-03-12 2022-05-10 Jordan Abbott ORLICK Real-time chat and voice translator
US11392754B2 (en) 2019-03-15 2022-07-19 Ricoh Company, Ltd. Artificial intelligence assisted review of physical documents
US11270060B2 (en) 2019-03-15 2022-03-08 Ricoh Company, Ltd. Generating suggested document edits from recorded media using artificial intelligence
US11080466B2 (en) 2019-03-15 2021-08-03 Ricoh Company, Ltd. Updating existing content suggestion to include suggestions from recorded media using artificial intelligence
US11573993B2 (en) 2019-03-15 2023-02-07 Ricoh Company, Ltd. Generating a meeting review document that includes links to the one or more documents reviewed
US11720741B2 (en) 2019-03-15 2023-08-08 Ricoh Company, Ltd. Artificial intelligence assisted review of electronic documents
US11263384B2 (en) 2019-03-15 2022-03-01 Ricoh Company, Ltd. Generating document edit requests for electronic documents managed by a third-party document management service using artificial intelligence
CN109873973B (zh) * 2019-04-02 2021-08-27 京东方科技集团股份有限公司 会议终端和会议系统
US11023690B2 (en) 2019-04-30 2021-06-01 Microsoft Technology Licensing, Llc Customized output to optimize for user preference in a distributed system
US11082457B1 (en) * 2019-06-27 2021-08-03 Amazon Technologies, Inc. Media transport system architecture
RU192148U1 (ru) * 2019-07-15 2019-09-05 Общество С Ограниченной Ответственностью "Бизнес Бюро" (Ооо "Бизнес Бюро") Устройство для аудиовизуальной навигации слепоглухих людей
JP2021022836A (ja) * 2019-07-26 2021-02-18 株式会社リコー 通信システム、通信端末、通信方法およびプログラム
US11587561B2 (en) * 2019-10-25 2023-02-21 Mary Lee Weir Communication system and method of extracting emotion data during translations
KR102178176B1 (ko) * 2019-12-09 2020-11-12 김경철 사용자 단말, 화상 통화 장치, 화상 통화 시스템 및 그 제어방법
KR102178174B1 (ko) * 2019-12-09 2020-11-12 김경철 사용자 단말, 방송 장치, 이를 포함하는 방송 시스템 및 그 제어방법
US11539900B2 (en) 2020-02-21 2022-12-27 Ultratec, Inc. Caption modification and augmentation systems and methods for use by hearing assisted user
KR102592613B1 (ko) * 2020-04-03 2023-10-23 한국전자통신연구원 자동 통역 서버 및 그 방법
US11776557B2 (en) 2020-04-03 2023-10-03 Electronics And Telecommunications Research Institute Automatic interpretation server and method thereof
US20210319189A1 (en) * 2020-04-08 2021-10-14 Rajiv Trehan Multilingual concierge systems and method thereof
CN113473238B (zh) * 2020-04-29 2022-10-18 海信集团有限公司 一种智能设备及视频通话时的同声翻译方法
CN113014853B (zh) * 2020-04-30 2022-11-11 北京字节跳动网络技术有限公司 互动信息处理方法、装置、电子设备及存储介质
CN113630620A (zh) * 2020-05-06 2021-11-09 阿里巴巴集团控股有限公司 多媒体文件播放系统、相关方法、装置及设备
KR102390187B1 (ko) * 2020-05-27 2022-04-25 네이버 주식회사 회의보조용 번역 도구를 위한 방법 및 시스템
CA3192234A1 (en) * 2020-09-09 2022-03-17 Swaroop Mahadeva An inclusive video-conference system and method
CN111813998B (zh) * 2020-09-10 2020-12-11 北京易真学思教育科技有限公司 一种视频数据处理方法、装置、设备及存储介质
JP6902302B1 (ja) * 2020-11-11 2021-07-14 祐次 廣田 自撮り顔動画が出勤するai電子勤務システム
CN114638237A (zh) * 2020-12-15 2022-06-17 华为云计算技术有限公司 一种实现同声传译的方法、装置及系统
TR202021891A2 (tr) * 2020-12-28 2021-02-22 Turkcell Technology Research And Development Co Vi̇deo konferans sunucusunda otomati̇k çevi̇ri̇ni̇n yapilmasini sağlayan bi̇r si̇stem
CN112738446B (zh) * 2020-12-28 2023-03-24 传神语联网网络科技股份有限公司 基于线上会议的同声传译方法及系统
US11870835B2 (en) * 2021-02-23 2024-01-09 Avaya Management L.P. Word-based representation of communication session quality
JP7284204B2 (ja) * 2021-03-03 2023-05-30 ソフトバンク株式会社 情報処理装置、情報処理方法及び情報処理プログラム
US11627223B2 (en) * 2021-04-22 2023-04-11 Zoom Video Communications, Inc. Visual interactive voice response
US12100385B2 (en) 2021-04-22 2024-09-24 Microsoft Technology Licensing, Llc Systems, methods and interfaces for multilingual processing
CN113380247A (zh) * 2021-06-08 2021-09-10 阿波罗智联(北京)科技有限公司 多音区语音唤醒、识别方法和装置、设备、存储介质
US11715475B2 (en) * 2021-09-20 2023-08-01 Beijing Didi Infinity Technology And Development Co., Ltd. Method and system for evaluating and improving live translation captioning systems
CA3232706A1 (en) * 2021-09-24 2023-03-30 Tony Chan Sion Moy Systems and methods for providing real-time automated language translations
CN114125358A (zh) * 2021-11-11 2022-03-01 北京有竹居网络技术有限公司 云会议字幕显示方法、系统、装置、电子设备和存储介质
US20230153547A1 (en) * 2021-11-12 2023-05-18 Ogoul Technology Co. W.L.L. System for accurate video speech translation technique and synchronisation with the duration of the speech
US20230352011A1 (en) * 2022-04-29 2023-11-02 Zoom Video Communications, Inc. Automatic switching between languages during virtual conferences
US20230351123A1 (en) * 2022-04-29 2023-11-02 Zoom Video Communications, Inc. Providing multistream machine translation during virtual conferences
FR3144350A1 (fr) * 2022-12-22 2024-06-28 Carlos Marcelo GUTIERREZ BRIDA Méthode pour acheminer un contenu numerique multimedia en temps reel a partir d’une fonction d’adressage et d’equipements de traduction
JP2024113943A (ja) * 2023-02-10 2024-08-23 株式会社オルツ 音声処理のためのプログラム、システム、および方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020188731A1 (en) * 2001-05-10 2002-12-12 Sergey Potekhin Control unit for multipoint multimedia/audio system
CN1411579A (zh) * 2000-03-07 2003-04-16 欧伊朋公司 通过数码网络播放多语言语音的方法和设备
CN1937664A (zh) * 2006-09-30 2007-03-28 华为技术有限公司 一种实现多语言会议的系统及方法
CN101155291A (zh) * 2006-09-27 2008-04-02 株式会社东芝 语音翻译设备、语音翻译方法以及输出经翻译的语音的终端

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0787472A (ja) * 1993-09-09 1995-03-31 Oki Electric Ind Co Ltd テレビ会議システム
US5457685A (en) * 1993-11-05 1995-10-10 The United States Of America As Represented By The Secretary Of The Air Force Multi-speaker conferencing over narrowband channels
WO1999063756A1 (en) * 1998-06-04 1999-12-09 Roberto Trinca Process for carrying out videoconferences with the simultaneous insertion of auxiliary information and films with television modalities
US6374224B1 (en) * 1999-03-10 2002-04-16 Sony Corporation Method and apparatus for style control in natural language generation
KR20010072936A (ko) * 1999-06-24 2001-07-31 요트.게.아. 롤페즈 정보 스트림의 포스트-동기화
US6377925B1 (en) * 1999-12-16 2002-04-23 Interactive Solutions, Inc. Electronic translator for assisting communications
JP2001282788A (ja) * 2000-03-28 2001-10-12 Kyocera Corp 電子辞書装置及び電子辞書装置の使用言語切替方法、記憶媒体
US7130790B1 (en) * 2000-10-24 2006-10-31 Global Translations, Inc. System and method for closed caption data translation
US7221405B2 (en) * 2001-01-31 2007-05-22 International Business Machines Corporation Universal closed caption portable receiver
US20030009342A1 (en) * 2001-07-06 2003-01-09 Haley Mark R. Software that converts text-to-speech in any language and shows related multimedia
US6771302B1 (en) * 2001-08-14 2004-08-03 Polycom, Inc. Videoconference closed caption system and method
KR100534409B1 (ko) * 2002-12-23 2005-12-07 한국전자통신연구원 자동 음성번역 서비스를 위한 전화망 사용자 인터페이스시스템 및 그 제어 방법
JP2006524856A (ja) * 2003-04-14 2006-11-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 自動ダビングをオーディオ・ビジュアル・ストリームに対して行うシステム及び方法
US20060227240A1 (en) * 2005-03-30 2006-10-12 Inventec Corporation Caption translation system and method using the same
US7830408B2 (en) * 2005-12-21 2010-11-09 Cisco Technology, Inc. Conference captioning
JP4466666B2 (ja) * 2007-03-14 2010-05-26 日本電気株式会社 議事録作成方法、その装置及びそのプログラム
JP5119055B2 (ja) * 2008-06-11 2013-01-16 日本システムウエア株式会社 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム
US8913188B2 (en) * 2008-11-12 2014-12-16 Cisco Technology, Inc. Closed caption translation apparatus and method of translating closed captioning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1411579A (zh) * 2000-03-07 2003-04-16 欧伊朋公司 通过数码网络播放多语言语音的方法和设备
US20020188731A1 (en) * 2001-05-10 2002-12-12 Sergey Potekhin Control unit for multipoint multimedia/audio system
CN101155291A (zh) * 2006-09-27 2008-04-02 株式会社东芝 语音翻译设备、语音翻译方法以及输出经翻译的语音的终端
CN1937664A (zh) * 2006-09-30 2007-03-28 华为技术有限公司 一种实现多语言会议的系统及方法

Cited By (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521221A (zh) * 2011-11-30 2012-06-27 江苏奇异点网络有限公司 具有文字输出功能的多语言会议信息输出方法
CN102572372A (zh) * 2011-12-28 2012-07-11 中兴通讯股份有限公司 会议纪要的提取方法和装置
CN110677613A (zh) * 2012-03-14 2020-01-10 谷歌有限责任公司 在视频会议期间修改参与者的外观
CN103327397A (zh) * 2012-03-22 2013-09-25 联想(北京)有限公司 一种媒体文件的字幕同步显示方法及系统
CN103685985A (zh) * 2012-09-17 2014-03-26 联想(北京)有限公司 通话方法、发送装置、接收装置、语音处理和终端设备
CN103853704A (zh) * 2012-11-28 2014-06-11 上海能感物联网有限公司 计算机外语有声影像资料自动加注中外文字幕的方法
CN103853709A (zh) * 2012-12-08 2014-06-11 上海能感物联网有限公司 计算机汉语有声影像资料自动加注中外文字幕的方法
CN103873808B (zh) * 2012-12-13 2017-11-07 联想(北京)有限公司 数据处理的方法和装置
CN103873808A (zh) * 2012-12-13 2014-06-18 联想(北京)有限公司 数据处理的方法和装置
WO2014173370A1 (zh) * 2013-08-22 2014-10-30 中兴通讯股份有限公司 会议纪要的提取方法及装置
CN104427292A (zh) * 2013-08-22 2015-03-18 中兴通讯股份有限公司 会议纪要的提取方法及装置
CN106462573B (zh) * 2014-05-27 2019-09-24 微软技术许可有限责任公司 通话中翻译
CN106462573A (zh) * 2014-05-27 2017-02-22 微软技术许可有限责任公司 通话中翻译
CN104301562A (zh) * 2014-09-30 2015-01-21 成都英博联宇科技有限公司 一种带即时打印功能的智能会议系统
CN104301557A (zh) * 2014-09-30 2015-01-21 成都英博联宇科技有限公司 一种带即时显示功能的智能会议系统
CN105632498A (zh) * 2014-10-31 2016-06-01 株式会社东芝 生成会议记录的方法、装置和系统
CN104539873B (zh) * 2015-01-09 2017-09-29 京东方科技集团股份有限公司 远程会议系统和进行远程会议的方法
CN104539873A (zh) * 2015-01-09 2015-04-22 京东方科技集团股份有限公司 远程会议系统和进行远程会议的方法
WO2016150235A1 (zh) * 2015-03-26 2016-09-29 中兴通讯股份有限公司 一种WebRTC P2P音视频通话的方法及装置
CN104780335A (zh) * 2015-03-26 2015-07-15 中兴通讯股份有限公司 一种WebRTC P2P音视频通话的方法及装置
CN105159891B (zh) * 2015-08-05 2018-05-04 焦点科技股份有限公司 一种构建多语言网站实时翻译的方法
CN105159891A (zh) * 2015-08-05 2015-12-16 焦点科技股份有限公司 一种构建多语言网站实时翻译的方法
CN106507021A (zh) * 2015-09-07 2017-03-15 腾讯科技(深圳)有限公司 视频处理方法及终端设备
CN105791713A (zh) * 2016-03-21 2016-07-20 安徽声讯信息技术有限公司 一种智能语音文字字幕同步播音的装置
CN105721796A (zh) * 2016-03-23 2016-06-29 中国农业大学 一种视频字幕自动生成装置和方法
CN106027505A (zh) * 2016-05-10 2016-10-12 国家电网公司 一种反事故演习观摩系统
CN107690089A (zh) * 2016-08-05 2018-02-13 阿里巴巴集团控股有限公司 数据处理方法、直播方法及装置
US9836458B1 (en) 2016-09-23 2017-12-05 International Business Machines Corporation Web conference system providing multi-language support
US10042847B2 (en) 2016-09-23 2018-08-07 International Business Machines Corporation Web conference system providing multi-language support
CN109391836B (zh) * 2017-08-02 2023-04-07 甲骨文国际公司 用附加信息补充媒体流
CN109391836A (zh) * 2017-08-02 2019-02-26 甲骨文国际公司 用附加信息补充媒体流
CN107480146A (zh) * 2017-08-07 2017-12-15 中译语通科技(青岛)有限公司 一种识别语种语音的会议纪要快速翻译方法
CN107484002A (zh) * 2017-08-25 2017-12-15 四川长虹电器股份有限公司 智能翻译字幕的方法
CN107483872A (zh) * 2017-08-27 2017-12-15 张红彬 视频通话系统及视频通话方法
CN109587429A (zh) * 2017-09-29 2019-04-05 北京国双科技有限公司 音频处理方法和装置
CN108009161A (zh) * 2017-12-27 2018-05-08 王全志 信息输出方法、装置
WO2019184650A1 (zh) * 2018-03-29 2019-10-03 华为技术有限公司 字幕生成方法及终端
CN112655036A (zh) * 2018-08-30 2021-04-13 泰勒维克教育公司 用于记录源媒体项目的口译的系统
CN112655036B (zh) * 2018-08-30 2022-10-11 泰勒维克教育公司 用于记录源媒体项目的口译的系统及方法
CN109104586A (zh) * 2018-10-08 2018-12-28 北京小鱼在家科技有限公司 特效添加方法、装置、视频通话设备以及存储介质
CN109104586B (zh) * 2018-10-08 2021-05-07 北京小鱼在家科技有限公司 特效添加方法、装置、视频通话设备以及存储介质
CN109348306A (zh) * 2018-11-05 2019-02-15 努比亚技术有限公司 视频播放方法、终端及计算机可读存储介质
CN109688363A (zh) * 2018-12-31 2019-04-26 深圳爱为移动科技有限公司 多终端多语言实时视频群内私聊的方法及系统
CN109688367A (zh) * 2018-12-31 2019-04-26 深圳爱为移动科技有限公司 多终端多语言实时视频群聊的方法和系统
CN109743529A (zh) * 2019-01-04 2019-05-10 广东电网有限责任公司 一种多功能视频会议系统
CN109949793A (zh) * 2019-03-06 2019-06-28 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN109889764A (zh) * 2019-03-20 2019-06-14 上海高屋信息科技有限公司 会议系统
CN115066908A (zh) * 2019-12-09 2022-09-16 金京喆 用户终端及其控制方法
CN111447397A (zh) * 2020-03-27 2020-07-24 深圳市贸人科技有限公司 一种基于视频会议的翻译方法以及翻译装置
TWI739377B (zh) * 2020-04-08 2021-09-11 瑞昱半導體股份有限公司 字幕影像產生裝置及方法
CN111787266A (zh) * 2020-05-22 2020-10-16 福建星网智慧科技有限公司 一种视讯ai实现方法及系统
CN111709253A (zh) * 2020-05-26 2020-09-25 珠海九松科技有限公司 一种将方言自动转换为字幕的ai翻译方法和系统
CN111709253B (zh) * 2020-05-26 2023-10-24 珠海九松科技有限公司 一种将方言自动转换为字幕的ai翻译方法和系统
CN111753558B (zh) * 2020-06-23 2022-03-04 北京字节跳动网络技术有限公司 视频翻译方法和装置、存储介质和电子设备
CN111753558A (zh) * 2020-06-23 2020-10-09 北京字节跳动网络技术有限公司 视频翻译方法和装置、存储介质和电子设备
CN111787267A (zh) * 2020-07-01 2020-10-16 广州科天视畅信息科技有限公司 会议视频字幕合成系统和方法
CN112153323A (zh) * 2020-09-27 2020-12-29 北京百度网讯科技有限公司 远程会议的同声传译方法、装置、电子设备和存储介质
CN112153323B (zh) * 2020-09-27 2023-02-24 北京百度网讯科技有限公司 远程会议的同声传译方法、装置、电子设备和存储介质
WO2022068067A1 (zh) * 2020-09-30 2022-04-07 常熟九城智能科技有限公司 一种视频会议信息处理方法、装置、电子设备及系统
CN112309419A (zh) * 2020-10-30 2021-02-02 浙江蓝鸽科技有限公司 多路音频的降噪、输出方法及其系统
CN112672099B (zh) * 2020-12-31 2023-11-17 深圳市潮流网络技术有限公司 字幕数据生成和呈现方法、装置、计算设备、存储介质
CN112672099A (zh) * 2020-12-31 2021-04-16 深圳市潮流网络技术有限公司 字幕数据生成和呈现方法、装置、计算设备、存储介质
CN112818703B (zh) * 2021-01-19 2024-02-27 传神语联网网络科技股份有限公司 基于多线程通信的多语种共识翻译系统与方法
CN112818703A (zh) * 2021-01-19 2021-05-18 传神语联网网络科技股份有限公司 基于多线程通信的多语种共识翻译系统与方法
CN112684967A (zh) * 2021-03-11 2021-04-20 荣耀终端有限公司 一种用于字幕显示的方法及电子设备
CN115022574A (zh) * 2022-05-30 2022-09-06 北京字跳网络技术有限公司 字幕处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
EP2373016A2 (en) 2011-10-05
AU2011200857A1 (en) 2011-10-20
JP2014056241A (ja) 2014-03-27
US20110246172A1 (en) 2011-10-06
JP2011209731A (ja) 2011-10-20
JP5564459B2 (ja) 2014-07-30
AU2011200857B2 (en) 2012-05-10

Similar Documents

Publication Publication Date Title
CN102209227A (zh) 在视频会议中增加翻译的方法和系统
CN110444196B (zh) 基于同声传译的数据处理方法、装置、系统和存储介质
US10176366B1 (en) Video relay service, communication system, and related methods for performing artificial intelligence sign language translation services in a video relay service environment
US8103507B2 (en) Searchable multimedia stream
CN205647778U (zh) 一种智能会议系统
US7774194B2 (en) Method and apparatus for seamless transition of voice and/or text into sign language
US20110055227A1 (en) Conference relay apparatus and conference system
WO2007142533A1 (en) Method and apparatus for video conferencing having dynamic layout based on keyword detection
US20120259924A1 (en) Method and apparatus for providing summary information in a live media session
CN110083847A (zh) 一种实现同步翻译的会议系统
EP3864650A1 (en) Transcription of communications
US20240233745A1 (en) Performing artificial intelligence sign language translation services in a video relay service environment
CN102262344A (zh) 可即时分享所播放投影片影像的投影机
US20230326369A1 (en) Method and apparatus for generating sign language video, computer device, and storage medium
CN110189745A (zh) 一种智能会议系统与移动设备的链接方法
CN112818708B (zh) 多终端多语种视频会议的语音翻译实时处理系统与方法
CN210091177U (zh) 一种实现同步翻译的会议系统
US20240154833A1 (en) Meeting inputs
JP2013201505A (ja) テレビ会議システム及び多地点接続装置並びにコンピュータプログラム
CN111526431A (zh) 为视音频节目实时添加字幕的设备
KR102546532B1 (ko) 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치
CN113810653A (zh) 基于音视频的主讲跟踪多方网络会议方法和系统
CN112232092A (zh) 具备机器与人工协同模式的同声传译方法以及系统
CN117688949A (zh) 数据处理方法及相关装置、设备和存储介质
CN117978945A (zh) 一种远程会议实现方法、系统及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20111005