CN106415541A - 实时翻译来自发言者计算设备的媒体馈送及分到多个不同语言的多个收听者计算设备的技术 - Google Patents

实时翻译来自发言者计算设备的媒体馈送及分到多个不同语言的多个收听者计算设备的技术 Download PDF

Info

Publication number
CN106415541A
CN106415541A CN201580028600.1A CN201580028600A CN106415541A CN 106415541 A CN106415541 A CN 106415541A CN 201580028600 A CN201580028600 A CN 201580028600A CN 106415541 A CN106415541 A CN 106415541A
Authority
CN
China
Prior art keywords
computing device
translation
listener
spokesman
media feeds
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201580028600.1A
Other languages
English (en)
Inventor
亚历山大·杰·卡斯贝特
约书亚·詹姆斯·埃斯泰勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN106415541A publication Critical patent/CN106415541A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Transfer Between Computers (AREA)
  • Navigation (AREA)

Abstract

一种计算机实现的技术能够包括从发言者计算设备接收由所述发言者计算设备捕获的表示发言者用户的发言的媒体馈送。所述技术能够包括:接收多个翻译请求,每个翻译请求是从与收听者用户相关联的收听者计算设备接收的并且与获取将所述媒体馈送翻译成所述收听者用户的偏好语言的翻译版本的请求相对应。所述技术能够包括:针对每个收听者用户,确定所述偏好语言。所述技术能够包括:针对所述翻译请求中的每一个,获取经机器翻译的媒体馈送,所述经机器翻译的媒体馈送对应于与所述翻译请求相关联的所述媒体馈送从所述源语言到所述收听者用户的所述偏好语言的翻译。所述技术还能够包括:将所述经机器翻译的媒体馈送输出至所述收听者计算设备。

Description

实时翻译来自发言者计算设备的媒体馈送及分到多个不同语 言的多个收听者计算设备的技术
相关申请的交叉引用
本申请要求于2014年5月29日提交的美国申请No.14/289,928的优先权。上述申请公开的全部内容通过引用合并于此。
技术领域
本公开大体上涉及机器翻译,并且更具体地涉及实时翻译来自发言者计算设备的媒体馈送以及分发到用多个不同语言的多个收听者计算设备。
背景技术
在本文中所提供的背景描述的目的在于大体呈现本公开的场境。目前提名的发明人的工作在该背景部分中所述的范围内以及描述中在提交时可能尚未作为现有技术的方面,都不应明确或隐含地被视为针对本公开的现有技术。
存在发言者正在用收听者不会说或不懂的语言进行发言的情况。一种情况是人工译员将发言者的话语略微延迟地翻译成收听者会说或懂得的语言。这也被称作人工翻译。当存在多个收听者以及不同的语言时,就会需要多个人工译员,这可能非常昂贵。因此,在语言翻译和分发领域中仍需改进。
发明内容
本发明提出一种计算机实现的技术。所述技术能够包括:在具有一个或多个处理器的服务器处从发言者计算设备接收媒体馈送,所述媒体馈送与发言者用户以源语言的发言的表示相对应,所述表示是由所述发言者计算设备捕获的。所述技术能够包括:在所述服务器处接收多个翻译请求,每个翻译请求是从与收听者用户相关联的收听者计算设备接收的并且与获取将所述媒体馈送翻译成所述收听者用户的目标语言的翻译版本的请求相对应。所述技术能够包括:在所述服务器处针对每个收听者用户确定偏好语言。所述技术能够包括:在所述服务器处,针对所述翻译请求中的每一个,获取经机器翻译的媒体馈送,所述经机器翻译的媒体馈送对应于与所述翻译请求相关联的所述媒体馈送从所述源语言到所述收听者用户的所述偏好语言的翻译。所述技术还能够包括:从所述服务器将所述经机器翻译的媒体馈送输出至所述收听者计算设备。
在一些实施例中,所述技术进一步包括:在所述服务器处,从所述发言者计算设备接收初始化请求,以便所述服务器响应于所述翻译请求而提供所述经机器翻译的媒体馈送。
在其他实施例中,所述技术进一步包括:响应于接收所述初始化请求,从所述服务器输出唯一标识符,其中,响应于在相应的收听者计算设备处输入所述唯一标识符而生成所述翻译请求中的每一个。
在一些实施例中,所述唯一标识符是唯一的统一资源定位符(URL)或者唯一的二维条形码。
在其他实施例中,在所述服务器处接收每个翻译请求包括:响应于所述发言者计算设备经由短程无线通信从其相应的收听者计算设备接收每个翻译请求,在所述服务器处从所述发言者计算设备接收每个翻译请求。
在一些实施例中,向其相应的收听者计算设备输出每个经机器翻译的媒体馈送包括:从所述服务器将每个经机器翻译的媒体馈送传送至所述发言者计算设备,其中,接收每个经翻译的媒体馈送使得所述发言者计算设备经由短程无线通信将每个经机器翻译的媒体馈送传送至其相应的收听者计算设备。
在其他实施例中,所述媒体馈送包括(i)源语言的音频流以及(ii)从所述音频流转录的源语言的文本中的至少一个。
在一些实施例中,所述经机器翻译的媒体馈送包括(i)目标语言的音频流以及(ii)从所述音频流转录的目标语言的文本中的至少一个。
在其他实施例中,所述发言者计算设备是移动计算设备。在一些实施例中,所述移动计算设备是可穿戴的计算机实现的眼镜。
本发明还提出一种系统。所述系统能够包括具有被配置成执行操作的一个或多个处理器的服务器。所述操作能够包括:从发言者计算设备接收媒体馈送,所述媒体馈送与发言者用户以源语言的发言的表示相对应,所述表示是由所述发言者计算设备捕获的。所述操作能够包括:接收多个翻译请求,每个翻译请求是从与收听者用户相关联的收听者计算设备接收的并且与获取将所述媒体馈送翻译成所述收听者用户的目标语言的翻译版本的请求相对应。所述操作能够包括:针对每个收听者用户,确定偏好语言。所述操作能够包括:针对所述翻译请求中的每一个,获取经机器翻译的媒体馈送,所述经机器翻译的媒体馈送对应于与所述翻译请求相关联的所述媒体馈送从所述源语言到所述收听者用户的所述偏好语言的翻译。所述操作还能够包括:将所述经机器翻译的媒体馈送输出至所述收听者计算设备。
在一些实施例中,所述操作进一步包括:从所述发言者计算设备接收初始化请求,以便所述服务器响应于所述翻译请求而提供所述经机器翻译的媒体馈送。
在其他实施例中,所述操作进一步包括:响应于接收所述初始化请求而输出唯一标识符,其中,响应于在相应的收听者计算设备处输入所述唯一标识符而生成所述翻译请求中的每一个。
在一些实施例中,所述唯一标识符是URL或者唯一的二维条形码。
在其他实施例中,在所述服务器处接收每个翻译请求包括:响应于所述发言者计算设备经由短程无线通信从其相应的收听者计算设备接收每个翻译请求,从所述发言者计算设备接收每个翻译请求。
在一些实施例中,向其相应的收听者计算设备输出每个经机器翻译的媒体馈送包括:将每个经机器翻译的媒体馈送传送至所述发言者计算设备,其中,接收每个经翻译的媒体馈送使得所述发言者计算设备经由短程无线通信将每个经机器翻译的媒体馈送传送至其相应的收听者计算设备。
在其他实施例中,所述媒体馈送包括(i)源语言的音频流以及(ii)从所述音频流转录的源语言的文本中的至少一个。
在一些实施例中,所述经机器翻译的媒体馈送包括(i)目标语言的音频流以及(ii)从所述音频流转录的目标语言的文本中的至少一个。
在其他实施例中,所述发言者计算设备是移动计算设备。在一些实施例中,所述移动计算设备是可穿戴的计算机实现的眼镜。
通过下文所所提供的详细描述,本公开的进一步适用领域将显而易见。应理解的是,详细描述和具体示例仅旨在说明性目的,而非旨在限制本公开的范围。
附图说明
从详细描述和附图中,本公开将得到更充分的理解,其中:
图1是根据本公开的一些实施方式的示例计算网络的功能性框图;
图2A是根据本公开的一些实施方式的示例服务器的功能性框图;
图2B是根据本公开的一些实施方式的一种用于媒体馈送的实时翻译和分发的示例技术的流程图;
图3A是根据本公开的一些实施方式的示例发言者计算设备的功能性框图;
图3B是根据本公开的一些实施方式的用于媒体馈送的实时翻译和分发的另一种示例技术的流程图;
图4A是根据本公开的一些实施方式的示例收听者计算设备的功能性框图;以及
图4B是根据本公开的一些实施方式的用于媒体馈送的实时翻译和分发的另一种示例技术的流程图。
具体实施方式
如上所述,在语言翻译和分发领域中仍需改进。对于多个不同语言的多个人工译员可能非常昂贵并且人工译员在翻译中产生略微延时。另一方面,常规的机器翻译系统可能非常繁复并且以多个不同语言协同多个用户非常耗时。此外,常规的机器翻译系统通常转录音频,并且事后再翻译音频(例如,用于视频的注释、配音和/或字幕),但它们无法将经翻译的音频和文本两者实时发送至请求的设备。更具体地,文本翻译时常首先被返回给请求的设备,同时需要单独的动作来请求音频翻译。
因此,提出用于实时翻译来自发言者计算设备的媒体馈送以及分发到用多个不同语言的多个收听者计算设备的技术。更具体地,所述技术允许收听者用户快速经由其计算设备加入自组织(ad-hoc)群组并且实时接收经翻译的媒体馈送。响应于来自发言者用户的初始化请求,发言者计算设备能够捕获来自发言者用户的音频流。发言者计算设备能够获取媒体馈送,其能够包括音频流、从音频流转录的文本或者其组合。发言者计算设备和/或服务器能够响应于接收初始化请求而输出唯一标识符,其能够供收听者计算设备使用于访问包含经翻译的媒体馈送的专用信道。
在特定的收听者计算设备处获取唯一标识符能够使得该收听者计算设备生成翻译请求并且将所述翻译请求传送至服务器。响应于接收翻译请求以及媒体馈送,服务器能够确定对应的收听者用户的偏好语言。例如,偏好语言可以被包括在翻译请求中。服务器能够再获取媒体馈送从其源语言到由偏好语言所指定的目标语言的翻译。这能够在服务器本身处和/或使用一个或多个其他服务器来完成。服务器能够再经由一个或多个专用信道将经翻译的媒体馈送输出至收听者计算设备。例如,每个目标语言可以有一个专用信道。
这些技术的一个示例实施方式涉及正向收听者用户群组陈述的发言者。例如,发言者用户能够是会议的主持人或者旅游团的导游。发言者用户能够具有移动计算设备,诸如计算机实现的眼镜。计算机实现的眼镜或者其他适当的可穿戴计算机实现的技术(例如,智能手表)能够允许发言者用户以更加有效的方式向收听者用户陈述/与收听者用户相交互。计算机实现的眼镜也能够允许发言者用户持续发言/陈述,同时还监视本公开的技术的状态(他/她的音频流的转录、接收经翻译的媒体馈送的收听者的数目和/或他们的语言等)。
在一个示例实施方式中,收听者用户可以身在外国并且由此他们的计算设备(例如,他们的移动电话)可能无法访问互联网,诸如经由蜂窝数据网络。一个这样的示例是收听者用户作为由发言者用户带领的旅行团的一部分。在这些状况下,发言者的计算设备能够被配置成经由短程无线通信(蓝牙、WiFi Direct、近场通信(NFC)等)与收听者计算设备通信并且充当收听者计算设备与服务器之间的代理服务器。因此,收听者计算设备或许能够在没有互联网访问的情况下提供翻译请求并且接收经翻译的媒体馈送。
本公开的技术也可应用于存在一个以上发言者用户以及一个或多个发言者计算设备的情况。在一些情形下,每个发言者用户也可以以不同的语言发言。在这些状况下,独立的音频流能够被识别、转录和翻译。在经翻译的媒体馈送中也可以识别特定的发言者用户,诸如在经翻译的媒体馈送中通过颜色编码转录文本。通过这种方式,收听者用户能够确定哪一个发言者用户与经翻译的媒体馈送的特定部分相关联。
虽然本公开的技术被描述为在远程硬件计算机服务器处实现,但应领会到,这些技术的至少一部分可以在本地实现。仅作示例,机器翻译可以由发言者计算设备来执行并且发言者计算设备可以再分发经机器翻译的媒体馈送,诸如,经由本文所讨论的短程无线通信介质。
现参照图1,图示出计算网络100。计算网络100包括被配置成执行本公开的翻译和分发技术中的至少一部分的示例服务器104。应领会的是,如本文所用的术语“服务器”能够指单个硬件计算机服务器以及并行操作的多个类似的服务器或者分布式架构。仅作示例,计算网络100可以包括用于拟将视频馈送翻译成的每个语言的服务器104。示例移动计算设备108被配置成经由网络112与服务器104通信。移动计算设备108的示例包括膝上型计算机、平板计算机、移动电话以及可穿戴技术,诸如智能电话、眼镜或者结合计算设备的其他可穿戴物件。然而,应领会到,本公开的技术能够在具有麦克风的任何计算设备处实现,例如桌面型计算机。
网络112能够包括局域网(LAN)、例如互联网的广域网(WAN)或者其组合。网络112也能够包括短程无线通信信道(蓝牙、WiFi Direct、NFC等)。移动计算设备108能够与发言者用户116相关联,所述发言者用户116正在向分别与示例计算设备124-1…124-N(统称为“计算设备124”)相关联的收听者用户120-1…120-N(N>1,统称为“收听者用户120)的群组发言。移动计算设备108以及计算设备124能够分别被称为“发言者计算设备108”以及“收听者计算设备124”。当发言者用户116正在用特定收听者用户120不会说或者不懂的语言进行发言时,根据本公开的技术,能够将实时翻译提供给与特定收听者用户120相关联的特定收听者计算设备124。
现参照图2A,图示出示例服务器104的功能性框图。服务器104能够包括通信设备200、处理器204以及存储器208。通信设备200能够包括被配置用于经由网络112与其他设备(例如,发言者计算设备108)通信的任何适当组件(例如,收发器)。处理器204能够控制服务器104的操作并且能够实现本公开的技术的至少一部分,下面对此进行更加详细的描述。应领会到,如本文所使用的术语“处理器”能够指单个处理器以及并行操作的多个处理器或者分布式架构两者。存储器208能够是被配置成在服务器104处存储信息的任何适当的存储介质(闪存、硬盘等)。
在一个示例实施方式中,服务器104能够初始地检测是否已从发言者计算设备108接收到初始化请求。该初始化请求能够指示发言者用户116想要其他人(例如,收听者120)能够获取来自发言者计算设备108的媒体馈送的翻译。如本文所用的术语“媒体馈送”能够指与由发言者计算设备108捕获的发言者用户116以源语言的发言的表示相对应的任何适当的媒体馈送。媒体馈送的示例包括音频流、从音频流所转录的文本以及其组合。响应于接收初始化请求,服务器104能够输出唯一标识符。该唯一标识符能够被使用于访问与媒体馈送的翻译相对应的信道。例如,可以针对将媒体馈送翻译成的每个语言存在一个信道。
输出唯一标识符能够包括将唯一标识符发布到可公开访问的网站或者将唯一标识符传送/广播至附近/邻近的计算设备,诸如收听者计算设备124。也可以使用用于将唯一标识符分发给可能感兴趣的参与者的其他适当的技术。唯一标识符的示例包括唯一的统一资源定位符(URL)以及唯一的二维条形码,诸如唯一的快速响应(QR)代码。获取唯一标识符能够使得特定收听者计算设备124生成翻译请求并且将所述翻译请求传送至服务器104。响应于接收翻译请求,服务器104能够确定对应收听者120的偏好语言,下面对此进行更加详细的描述。
服务器104能够再获取媒体馈送从其源语言到由收听者120的偏好语言所指定的一个或多个不同的目标语言的机器翻译。服务器104能够本身执行机器语言翻译和/或服务器104能够从一个或多个其他服务器获取机器语言翻译结果的至少一部分。在获取经翻译的媒体馈送之后,服务器104能够经由一个或多个信道输出经翻译的媒体馈送。在一个示例实施方式中,信道是仅在获取唯一标识符之后才能访问的专用信道。然而,应领会到,信道也可以是公用信道。正在访问专用信道的收听者计算设备124能够接收经翻译的媒体馈送,其能够包括经翻译的音频流、经翻译的文本或者其组合。收听者计算设备124能够再将经翻译的媒体馈送输出给其各自的收听者120。
现参照图2B,图示出用于媒体馈送的翻译和分发的示例技术250的流程图。在254处,服务器104能够确定是否已从发言者计算设备108接收到初始化请求。初始化请求将能够允许其他人经由一个或多个信道获取媒体馈送的翻译。如果已经接收到初始化请求,则技术250能够继续至258。如果尚未接收到初始化请求,则技术250能够结束或者返回至254。在258处,服务器104能够从发言者计算设备108接收媒体馈送。在262处,服务器104能够分别从与收听者用户120相关联的收听者计算设备124接收对于翻译媒体馈送的翻译请求。
在266处,服务器104能够确定针对每个收听者用户120的偏好语言。在270处,服务器104能够获取媒体馈送从其源语言到每个收听者用户120的偏好语言的机器翻译以获取至少一个经翻译的媒体馈送。例如,服务器104和/或一个或多个其他服务器能够执行翻译。在274处,服务器104能够经由一个或多个信道将每个经翻译的媒体馈送输出至其相应的收听者设备。例如,每个信道可以与特定的目标语言相对应,并且每个翻译请求将可以加入对应的信道,以便接收其对应的经翻译的媒体流。然后,技术250能够结束或者返回至254。
现参照图3A,图示出示例发言者计算设备108的功能性框图。发言者计算设备108能够包括通信设备300、处理器304、存储器308、显示器312、输入设备316以及音频捕获设备320(例如,麦克风)。通信设备300能够包括被配置用于经由网络112与其他设备(例如,服务器104)通信的任何适当组件(例如,收发器)。通信设备300也能够被配置用于经由短程无线通信介质(蓝牙、WiFi Direct、NFC等)与其他设备(例如,收听者计算设备124)通信。
处理器304能够控制发言者计算设备108的操作并且能够实现本公开的技术的至少一部分,下面对此进行更加详细的描述。存储器308能够是被配置成在发言者计算设备108处存储信息的任何适当的存储介质(闪存、硬盘等)。显示器312能够是被配置成显示信息的任何适当的显示器(显示器、触控显示器等),输入设备316能够是被配置成从发言者用户116接收输入的任何适当的输入设备(按钮、触控板等),并且音频捕获设备320能够是被配置成在发言者用户116正发言的同时捕获他/她的音频流的任何适当的麦克风。
在一个示例实施方式中,发言者计算设备108能够初始地从发言者用户116接收初始化请求,诸如经由输入设备316。响应于从发言者用户116接收初始化请求,发言者计算设备108能够将初始化请求传送至服务器104。接下来,发言者计算设备108能够使用音频捕获设备320来捕获表示发言者用户116发言的音频流。发言者计算设备108能够从所捕获的音频流中获取媒体馈送。在一些实施方式中,发言者计算设备108能够转录音频流转以获取文本。然而,如前所讨论,媒体馈送能够包括音频流、文本或者其组合。仅作示例,将音频流转录到何处的决定能够基于发言者计算设备108与服务器104之间的连接速度。响应于获取媒体馈送,发言者计算设备108能够将媒体馈送传送至服务器104,该服务器能够接着进行翻译/转录并且经由专用信道将经翻译的媒体馈送分发至收听者计算设备124。
现参照图3B,图示出用于媒体馈送的翻译和分发的另一个示例技术350的流程图。在354处,发言者计算设备108能够确定是否已从发言者用户116接收初始化请求。初始化请求将能够允许其他人(例如,收听者用户120)获取来自发言者计算设备108的媒体馈送的翻译。如果已经接收到初始化请求,则技术350能够继续至358。如果尚未接收到初始化请求,则技术350能够结束或者返回至354。在358处,发言者计算设备108能够将初始化请求传送至服务器104。将初始化请求传送至服务器104能够使得服务器104将唯一标识符传送/广播至附近/邻近的计算设备和/或在可公开访问网站处发布唯一标识符。
在362处,发言者计算设备108能够经由音频捕获设备320从发言者用户116接收音频流。在366处,发言者计算设备108能够将媒体馈送传送至服务器104。媒体馈送能够包括(i)音频流和/或(ii)诸如由发言者计算设备108从音频流转录的文本。将媒体馈送传送至服务器104能够使得服务器104将媒体馈送从其源语言翻译成由收听者用户120的偏好语言所指示的一个或多个目标,并且再经由一个或多个信道将经翻译的媒体馈送输出/分发至与收听者计算设备124相关联的计算设备。每个参与者/参与者设备表示经由其参与者设备输入唯一标识符以生成对服务器104的翻译请求的参与者。例如,每个专用信道可以与不同的目标语言相对应。然后,技术350能够结束或者返回至354。
现参照图4A,图示出示例收听者计算设备124中的一个的功能性框图。收听者计算设备124能够包括通信设备400、处理器404、存储器408、显示器412、输入设备416以及扬声器420。通信设备400能够包括被配置用于经由网络112与其他设备(例如,服务器104)通信的任何适当组件(例如,收发器)。通信设备400也能够被配置用于经由短程无线通信介质(蓝牙、WiFi Direct、NFC等)与其他设备(例如,发言者计算设备108)通信。
处理器404能够控制收听者计算设备124的操作并且能够实现本公开的技术的至少一部分,下面对此进行更加详细的描述。存储器408能够是被配置成在发言者计算设备108处存储信息的任何适当的存储介质(闪存、硬盘等)。显示器412能够是被配置成显示信息的任何适当的显示器(显示器、触控显示器等),输入设备416能够是被配置成从相应的收听者用户120接收输入的任何适当的输入设备(按钮、触控板、触控显示器、二维条形码扫描器等),并且音频输出设备320能够是被配置成将经翻译的音频流输出至收听者用户120的任何适当的扬声器或者其他音频输出设备(例如,耳机插孔)。
在一个示例实施方式中,收听者计算设备124能够初始地检测唯一标识符。如前所讨论,唯一标识符可以通过收听者计算设备108和/或通过服务器104而被传送/广播至收听者计算设备124。唯一标识符也可以被发布在可供收听者计算设备124访问的网站处。当检测到唯一标识符时,收听者计算设备124能够获取唯一标识符。获取唯一标识符的示例包括选择唯一的URL以及扫描唯一的二维条形码,诸如唯一的QR代码。响应于获取唯一标识符,收听者计算设备124能够生成翻译请求并且将所述翻译请求传送至服务器104,如下进行更加详细的描述。
在一个示例实施方式中,翻译请求能够包括收听者用户120的一个或多个偏好语言。替选地,服务器104可以响应于接收翻译请求而确定收听者的偏好语言,诸如通过使用收听者用户120的简档(例如,通用语言设置)。仅作示例,偏好语言可以是收听者计算设备124的当前显示语言。响应于将翻译请求传送至服务器104,收听者计算设备124能够经由相应的专用信道从服务器104接收经翻译的媒体馈送。在接收到经翻译的媒体馈送之后,收听者计算设备124能够将经翻译的媒体馈送输出给收听者用户120。例如,输出经翻译的媒体馈送能够包括在显示器412处输出经翻译的文本、经由音频输出设备420输出经翻译的音频流或者其组合。
现参照图4B,图示出用于媒体馈送的翻译和分发的另一个示例技术450的流程图。在454处,收听者计算设备124能够检测唯一标识符,以便获取来自发言者计算设备108的媒体馈送的翻译。如果已经检测到唯一标识符,则技术450能够继续至458。如果尚未检测到唯一标识符,则技术450能够结束或者返回至454。在458处,收听者计算设备124获取唯一标识符。例如,经由唯一的URL或者经由唯一的二维条形码(例如,唯一的QR代码),可以获取唯一标识符。在462处,收听者计算设备124响应于获取唯一标识符而将翻译请求传送至服务器124。
例如,响应于选择唯一的URL或者扫描唯一的二维条形码,可以生成和发送翻译请求。响应于将翻译请求传送至服务器104,在466处,收听者计算设备124从服务器104接收经翻译的媒体馈送。然而,在一些实施方式中,收听者计算设备124能够从发言者计算设备108接收经翻译的媒体馈送。在470处,收听者计算设备124输出经翻译的媒体馈送。这能够包括在显示器412处输出经翻译/经转录的文本和/或例如经由音频输出设备420(扬声器、耳机插孔等)输出经翻译的音频流。然后,技术450能够结束或者返回至454。
提供示例实施例使得本公开透彻完整,并将本发明的范围充分传达给本领域技术人员。本文阐明众多特定细节,诸如特定的组件、设备和方法的示例,以提供对本公开的实施例的透彻理解。对本领域技术人员显而易见的是,不必采用这些特定细节,示例实施例可以通过许多不同的形式来实现,而不应被解释为限定本公开的范围。在一些示例实施例中,公知程序、公知设备结构以及公知技术不再赘述。
本文所用术语的目的仅在于,描述特定的示例实施例,并不旨做出限制。如本文中所用,单数形式“一个(a)”、“一个(an)”和“所述(the)”可以旨在同样包括复数形式,除非上下文另有明确说明。术语“和/或”包括相关联的所列项目中的一个或多个的任意及全部组合。术语“包含(comprise)”、“包含(comprising)”、“包括(including)”和“具有(having)”是包括性的并且由此指定存在所述的特征、整数、步骤、操作、元素和/或组件,但不排除存在或者添加一个或多个其他的特征、整数、步骤、操作、元素、组件和/或其群组。本文中所述的方法步骤、过程以及操作不应被解释为必定要求其以所讨论或所图示的特定顺序来执行,除非特别指出执行顺序。还将理解的是,可以采用附加或替选的步骤。
尽管在本文中可以使用术语第一、第二、第三等来描述各种元素、组件、区域、层和/或部分,但这些元素、组件、区域、层和/或部分不应受到这些术语的限制。这些术语可以仅被使用于将一个元素、组件、区域、层或部分与另一区域、层或部分区分开来。诸如“第一”、“第二”和其他序数术语,在本文中使用的术语并非隐含序列或顺序,除非上下文明确指出。因此,在不背离示例实施例的教导的情况下,下文讨论的第一元素、组件、区域、层或部分能够被称为第二元素、组件、区域、层或部分。
如本文中所用,术语模块可以是指以下元素的一部分或者包括:专用集成电路(ASIC)、电子电路、组合逻辑电路、现场可编程门阵列(FPGA)、执行代码或者程序的处理器或处理器的分布式网络(共享、专用或者分组)以及联网集群或者数据中心内的储存器、提供所述功能的其他适当组件或者上述元素中的一些或全部的组合,诸如组合成片上系统。术语模块也可以包括存储器(共享、专用或者分组),其存储由一个或多个处理器来执行的代码。
如上所用,术语代码可以包括软件、固件、字节码和/或微码,并且可以是指程序、例程、函数、类别和/或对象。如上所用,共享的术语意指来自多模块的一些或全部代码可以使用单个(共享的)处理器来执行。此外,来自多模块的一些或全部代码可以由单个(共享的)存储器来存储。如上所用,术语群组意指来自单个模块的一些或全部代码可以使用处理器群组来执行。此外,来自单个模块的一些或全部代码可以使用存储器群组来存储。
本文中所述的技术可以通过由一个或多个处理器所执行的一个或多个计算机程序来实现。计算机程序包括存储在非暂时性有形计算机可读介质上的处理器可执行指令。计算机程序也可以包括所存储的数据。非暂时性有形计算机可读介质的非限制性示例是非易失性存储器、磁性存储以及光学存储。
以上描述的一些部分呈现关于信息操作的算法以及符号表示方面的所述技术。这些算法的描述和表示是数据处理领域的技术人员用来将他们工作的核心内容最有效地传达给本领域其它技术人员的手段。尽管在功能上或者逻辑上描述了这些操作,但这些操作应理解为由计算机程序来实现。另外,已证实方便的是,在不丧失一般性的前提下,将操作的这些布置称作模块或者命名为功能性名称。
除非根据以上讨论清楚而明确另外指出,否者应理解,在整体描述中,利用诸如“处理(processing)”、“计算(computing)”、“运算(calculating)”、“确定(determining)”或“显示(displaying)”等术语的讨论涉及计算机系统或者类似的电子计算设备的动作和处理过程,其对被表示为计算机系统的存储器或寄存器或者其他这样的信息存储、传输或显示设备内的物理(电子)量的数据进行操控和变换。
所述技术的某些方面包括本文中以算法形式描述的过程步骤和指令。应当指出,所述的过程步骤和指令能够被体现在软件、固件或者硬件中,并且当体现在软件中时,能够被下载以驻存在由实时网络操作系统所使用的不同平台上并且通过这些平台进行操作。
本公开还涉及一种用于执行本文所述的操作的装置。该装置可以具体被构建用于所需目的,或者其可以包括可由存储在计算机能够访问的计算机可读介质上的计算机程序来选择性激活或者重新配置的通用计算机。这样的计算机程序可以被存储在有形的计算机可读存储介质中,诸如但不限于,任何类型的盘(包括软盘、光盘、CD-ROM、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁卡或光卡、专用集成电路(ASIC)),或者适用于存储电子指令并且各自耦合至计算机系统总线的任何类型的介质。另外,在本说明书中所提及的计算机可以包括单个处理器,或者可以是为提高计算性能而采用多处理器设计的架构。
在本文中提出的算法和操作本质上不涉及任何特定的计算机或者其他装置。可以根据本文中所描述的教导来使用各种通用系统,或者已证实方便的是,构建更专用的装置来执行所需的方法步骤。各种这些系统所需的结构以及等同变化对于本领域技术人员而言是显而易见的。此外,本公开未参考任何特定编程语言来进行描述。将领会到,多种编程语言可以被用来实现如本文中所述的本公开的教导,并且提供对具体语言的任何引用是用于公开本发明的实现和最佳模式。
本公开非常适于众多拓扑上的广泛计算机网络系统。在这一领域内,大型网络的配置和管理包括存储设备和计算机,其可通信地被耦合至诸如互联网的网络上的不同计算机和存储设备。
出于图示和说明目的,提供了实施例的以上描述。并非旨在穷举或限定本公开。特定实施例的单独元素或特征通常不限于该特定实施例,而在适用时,即便未具体示出或描述,也可互换并且能够被使用于选定的实施例。同样也可以通过许多方式进行变化。这样的变化不被认为是偏离本公开,并且所有这样的修改都旨在包括在本公开的范围内。

Claims (20)

1.一种计算机实现的方法,包括:
在具有一个或多个处理器的服务器处,从发言者计算设备接收媒体馈送,所述媒体馈送与发言者用户以源语言的发言的表示相对应,所述表示是由所述发言者计算设备捕获的;
在所述服务器处接收多个翻译请求,每个翻译请求是从与收听者用户相关联的收听者计算设备接收的并且与获取将所述媒体馈送翻译成所述收听者用户的目标语言的翻译版本的请求相对应;
在所述服务器处针对每个收听者用户确定偏好语言;
在所述服务器处针对所述翻译请求中的每一个获取经机器翻译的媒体馈送,所述经机器翻译的媒体馈送对应于与所述翻译请求相关联的所述媒体馈送从所述源语言到所述收听者用户的所述偏好语言的翻译;以及
从所述服务器将所述经机器翻译的媒体馈送输出至所述收听者计算设备。
2.根据权利要求1所述的计算机实现的方法,进一步包括:在所述服务器处从所述发言者计算设备接收初始化请求,以便所述服务器响应于所述翻译请求而提供所述经机器翻译的媒体馈送。
3.根据权利要求2所述的计算机实现的方法,进一步包括:响应于接收所述初始化请求而从所述服务器输出唯一标识符,其中,响应于在相应的收听者计算设备处输入所述唯一标识符而生成所述翻译请求中的每一个。
4.根据权利要求3所述的计算机实现的方法,其中,所述唯一标识符是唯一的统一资源定位符(URL)或者唯一的二维条形码。
5.根据权利要求1所述的计算机实现的方法,其中,在所述服务器处接收每个翻译请求包括:响应于所述发言者计算设备经由短程无线通信从相应的收听者计算设备接收每个翻译请求而在所述服务器处从所述发言者计算设备接收每个翻译请求。
6.根据权利要求5所述的计算机实现的方法,其中,向相应的收听者计算设备输出每个经机器翻译的媒体馈送包括:从所述服务器将每个经机器翻译的媒体馈送传送至所述发言者计算设备,其中,接收每个经翻译的媒体馈送使得所述发言者计算设备经由短程无线通信将每个经机器翻译的媒体馈送传送至相应的收听者计算设备。
7.根据权利要求1所述的计算机实现的方法,其中,所述媒体馈送包括(i)所述源语言的音频流以及(ii)从所述音频流转录的所述源语言的文本中的至少一个。
8.根据权利要求1所述的计算机实现的方法,其中,所述经机器翻译的媒体馈送包括(i)所述目标语言的音频流以及(ii)从所述音频流转录的所述目标语言的文本中的至少一个。
9.根据权利要求1所述的计算机实现的方法,其中,所述发言者计算设备是移动计算设备。
10.根据权利要求9所述的计算机实现的方法,其中,所述移动计算设备是可穿戴的计算机实现的眼镜。
11.一种系统,所述系统包括具有被配置成执行操作的一个或多个处理器的服务器,所述操作包括:
从发言者计算设备接收媒体馈送,所述媒体馈送与发言者用户以源语言的发言的表示相对应,所述表示是由所述发言者计算设备捕获的;
接收多个翻译请求,每个翻译请求是从与收听者用户相关联的收听者计算设备接收的并且与获取将所述媒体馈送翻译成所述收听者用户的目标语言的翻译版本的请求相对应;
针对每个收听者用户,确定偏好语言;
针对所述翻译请求中的每一个,获取经机器翻译的媒体馈送,所述经机器翻译的媒体馈送对应于与所述翻译请求相关联的所述媒体馈送从所述源语言到所述收听者用户的所述偏好语言的翻译;以及
将所述经机器翻译的媒体馈送输出至所述收听者计算设备。
12.根据权利要求11所述的系统,其中,所述操作进一步包括:从所述发言者计算设备接收初始化请求,以便所述服务器响应于所述翻译请求而提供所述经机器翻译的媒体馈送。
13.根据权利要求12所述的系统,其中,所述操作进一步包括:响应于接收所述初始化请求而输出唯一标识符,其中,响应于在相应的收听者计算设备处输入所述唯一标识符而生成所述翻译请求中的每一个。
14.根据权利要求13所述的系统,其中,所述唯一标识符是唯一的统一资源定位符(URL)或者唯一的二维条形码。
15.根据权利要求11所述的系统,其中,在所述服务器处接收每个翻译请求包括:响应于所述发言者计算设备经由短程无线通信从相应的收听者计算设备接收每个翻译请求,从所述发言者计算设备接收每个翻译请求。
16.根据权利要求15所述的系统,其中,向相应的收听者计算设备输出每个经机器翻译的媒体馈送包括:将每个经机器翻译的媒体馈送传送至所述发言者计算设备,其中,接收每个经翻译的媒体馈送使得所述发言者计算设备经由短程无线通信将每个经机器翻译的媒体馈送传送至相应的收听者计算设备。
17.根据权利要求11所述的系统,其中,所述媒体馈送包括(i)所述源语言的音频流以及(ii)从所述音频流转录的所述源语言的文本中的至少一个。
18.根据权利要求11所述的系统,其中,所述经机器翻译的媒体馈送包括(i)所述目标语言的音频流以及(ii)从所述音频流转录的所述目标语言的文本中的至少一个。
19.根据权利要求11所述的系统,其中,所述发言者计算设备是移动计算设备。
20.根据权利要求19所述的系统,其中,所述移动计算设备是可穿戴的计算机实现的眼镜。
CN201580028600.1A 2014-05-29 2015-05-27 实时翻译来自发言者计算设备的媒体馈送及分到多个不同语言的多个收听者计算设备的技术 Pending CN106415541A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/289,928 2014-05-29
US14/289,928 US9542486B2 (en) 2014-05-29 2014-05-29 Techniques for real-time translation of a media feed from a speaker computing device and distribution to multiple listener computing devices in multiple different languages
PCT/US2015/032517 WO2015183854A1 (en) 2014-05-29 2015-05-27 Techniques for real-time translation of a media feed from a speaker computing device and distribution to multiple listener computing devices in multiple different languages

Publications (1)

Publication Number Publication Date
CN106415541A true CN106415541A (zh) 2017-02-15

Family

ID=53404873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580028600.1A Pending CN106415541A (zh) 2014-05-29 2015-05-27 实时翻译来自发言者计算设备的媒体馈送及分到多个不同语言的多个收听者计算设备的技术

Country Status (4)

Country Link
US (1) US9542486B2 (zh)
EP (1) EP3149619A1 (zh)
CN (1) CN106415541A (zh)
WO (1) WO2015183854A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108923810A (zh) * 2018-06-15 2018-11-30 Oppo广东移动通信有限公司 翻译方法及相关设备
CN111931521A (zh) * 2019-04-24 2020-11-13 奇酷互联网络科技(深圳)有限公司 语音翻译方法、可穿戴设备、终端设备及存储介质
CN112669812A (zh) * 2019-09-30 2021-04-16 梅州市青塘实业有限公司 一种耳机及其翻译方法和装置
CN113743132A (zh) * 2020-05-14 2021-12-03 大富科技(安徽)股份有限公司 智能终端及其翻译方法、存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160062987A1 (en) * 2014-08-26 2016-03-03 Ncr Corporation Language independent customer communications
US10417925B2 (en) * 2016-05-06 2019-09-17 Wolfgang Michael Klante Guided tour audio communication systems having optical reader programming
US10417349B2 (en) * 2017-06-14 2019-09-17 Microsoft Technology Licensing, Llc Customized multi-device translated and transcribed conversations
EP3474156A1 (en) * 2017-10-20 2019-04-24 Tap Sound System Real-time voice processing
CN110730952B (zh) * 2017-11-03 2021-08-31 腾讯科技(深圳)有限公司 处理网络上的音频通信的方法和系统
US20200075000A1 (en) * 2018-08-31 2020-03-05 Halloo Incorporated System and method for broadcasting from a group of speakers to a group of listeners

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5233663A (en) * 1991-03-28 1993-08-03 Wood William H Simultaneous interpretation system
US20090265175A1 (en) * 2008-04-16 2009-10-22 Broadcom Coropration Method and system for providing a translation service for a voice channel
CN102088456A (zh) * 2009-12-08 2011-06-08 国际商业机器公司 允许在多个参与者之间进行实时通信的方法和系统
CN102422639A (zh) * 2009-05-11 2012-04-18 思科技术公司 用于在会议环境中翻译参与者之间的通信的系统和方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6292769B1 (en) 1995-02-14 2001-09-18 America Online, Inc. System for automated translation of speech
US6711618B1 (en) * 1999-09-03 2004-03-23 Cisco Technology, Inc. Apparatus and method for providing server state and attribute management for voice enabled web applications
US7747434B2 (en) 2000-10-24 2010-06-29 Speech Conversion Technologies, Inc. Integrated speech recognition, closed captioning, and translation system and method
AUPR956901A0 (en) 2001-12-17 2002-01-24 Jayaratne, Neville Real time translator
WO2007120418A2 (en) 2006-03-13 2007-10-25 Nextwire Systems, Inc. Electronic multilingual numeric and language learning tool
US20080221862A1 (en) * 2007-03-09 2008-09-11 Yahoo! Inc. Mobile language interpreter with localization
US8515728B2 (en) * 2007-03-29 2013-08-20 Microsoft Corporation Language translation of visual and audio input
US20090037171A1 (en) 2007-08-03 2009-02-05 Mcfarland Tim J Real-time voice transcription system
US8489386B2 (en) 2009-02-27 2013-07-16 Research In Motion Limited Method and system for directing media streams during a conference call
US8379072B2 (en) * 2009-09-15 2013-02-19 Exhibitone Corporation Apparatus and method for realtime remote interpretation
US20110246172A1 (en) 2010-03-30 2011-10-06 Polycom, Inc. Method and System for Adding Translation in a Videoconference
US8494838B2 (en) 2011-11-10 2013-07-23 Globili Llc Systems, methods and apparatus for dynamic content management and delivery
US8838459B2 (en) 2012-02-29 2014-09-16 Google Inc. Virtual participant-based real-time translation and transcription system for audio and video teleconferences

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5233663A (en) * 1991-03-28 1993-08-03 Wood William H Simultaneous interpretation system
US20090265175A1 (en) * 2008-04-16 2009-10-22 Broadcom Coropration Method and system for providing a translation service for a voice channel
CN102422639A (zh) * 2009-05-11 2012-04-18 思科技术公司 用于在会议环境中翻译参与者之间的通信的系统和方法
CN102088456A (zh) * 2009-12-08 2011-06-08 国际商业机器公司 允许在多个参与者之间进行实时通信的方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108923810A (zh) * 2018-06-15 2018-11-30 Oppo广东移动通信有限公司 翻译方法及相关设备
CN111931521A (zh) * 2019-04-24 2020-11-13 奇酷互联网络科技(深圳)有限公司 语音翻译方法、可穿戴设备、终端设备及存储介质
CN112669812A (zh) * 2019-09-30 2021-04-16 梅州市青塘实业有限公司 一种耳机及其翻译方法和装置
CN113743132A (zh) * 2020-05-14 2021-12-03 大富科技(安徽)股份有限公司 智能终端及其翻译方法、存储介质

Also Published As

Publication number Publication date
US9542486B2 (en) 2017-01-10
WO2015183854A1 (en) 2015-12-03
EP3149619A1 (en) 2017-04-05
US20150347395A1 (en) 2015-12-03

Similar Documents

Publication Publication Date Title
CN106415541A (zh) 实时翻译来自发言者计算设备的媒体馈送及分到多个不同语言的多个收听者计算设备的技术
CN106372059B (zh) 信息输入方法和装置
PH12020551830A1 (en) Computerized systems and methods for determining authenticity using micro expressions
CN103873692B (zh) 一种分享资源的方法、装置及系统
CN109981787B (zh) 用于展示信息的方法和装置
JP7483929B2 (ja) 共同トレーニングモデルを評価するための方法及び装置
CN110534085B (zh) 用于生成信息的方法和装置
US11797948B2 (en) Method, apparatus and computer program product for improving event creation and modification in a group-based communication platform
US11244153B2 (en) Method and apparatus for processing information
CN110472558B (zh) 图像处理方法和装置
JP2021111414A (ja) 情報処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにプログラム
CN109815448B (zh) 幻灯片生成方法及装置
Conetta et al. Spatial audio quality perception (part 2): a linear regression model
CN115098633A (zh) 一种智能客服情感分析方法和系统、电子设备、存储介质
US10681402B2 (en) Providing relevant and authentic channel content to users based on user persona and interest
CN114513552A (zh) 数据处理方法、装置、设备及存储介质
CN110727775A (zh) 用于处理信息的方法和装置
US11575530B2 (en) Systems and methods for call initiation based on mobile device proximity
CN112214708A (zh) 页面生成方法、装置、电子设备和计算机可读介质
CN110335237B (zh) 用于生成模型的方法、装置和用于识别图像的方法、装置
CN111324470A (zh) 用于生成信息的方法及装置
CN115910062A (zh) 音频识别方法、装置、设备及存储介质
CN112446190A (zh) 生成风格转化文本的方法和装置
EP4284048A3 (en) Information processing apparatus and control method
CN111754984A (zh) 文本选取的方法、装置、设备和计算机可读介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: California, USA

Applicant after: Google Inc.

Address before: California, USA

Applicant before: Google Inc.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170215