CN110730952B

CN110730952B - 处理网络上的音频通信的方法和系统

Info

Publication number: CN110730952B
Application number: CN201780061339.4A
Authority: CN
Inventors: 熊飞; 史景慧; 陈磊; 任旻; 彭飞翔
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-11-03
Filing date: 2017-11-03
Publication date: 2021-08-31
Anticipated expiration: 2037-11-03
Also published as: US20200043481A1; WO2019084890A1; CN110730952A; US20210366471A1; US11114091B2

Abstract

一种处理网络上的音频通信的方法，所述方法包括：在第一客户端设备处：接收来自第二客户端设备的第一音频传输，所述第一音频传输以源语言提供，所述源语言不同于与所述第一客户端设备相关联的默认语言；获得所述第一客户端设备的当前用户语言属性，所述当前用户语言属性指示用于所述第一客户端设备处的通信会话的当前语言；如果所述当前用户语言属性表明，当前用于所述第一客户端设备处的所述通信会话的目标语言不同于与所述第一客户端设备相关联的所述默认语言：获得所述第一音频传输从所述源语言到所述目标语言的翻译；以及将所述目标语言的所述第一音频传输的所述翻译呈现给所述第一客户端设备处的用户。

Description

处理网络上的音频通信的方法和系统

技术领域

本公开涉及因特网技术领域，尤其涉及一种处理网络上的音频通信的方法和系统。

背景技术

因特网技术的发展以及通过网络的实时音频和视频通信使得人们之间的通信非常方便。当人们使用同一种语言进行通信时，在通信信道的两端捕获的语音音频能以双工方式传输，并且在接收端输出而没有显著的延迟。然而，有时，通信会话中的人们使用不同的语言，并且需要实时翻译以帮助人们有效地进行通信。有时，所使用的语言未必是预先指定的，并且临时设置翻译偏好可能是耗时且繁琐的，这会对用户体验产生负面影响。

发明内容

如背景技术中所论述，在建立音频/视频通信会话之前手动设置翻译偏好对于一些场景来说可能适用，但不能解决未预见的翻译需求或与语言偏好未知的其他人的即兴通信问题。举例来说，在群组会议场景或客户支持场景中，群组会议中的说话者可能偏爱使用不同的语言，并且在建立通信会话之前或在每个参与者说话之前可能并不知道这些语言。此外，当在通信会话期间不同的人在不同时间使用相同的客户端设备说话时，通信中说出的语言可能以相对不可预测的方式变化。在通信会话已经开始之后以及在用户开始说话之后尝试手动调整翻译偏好(例如，手动指定源语言和目标语言)会导致不必要的延迟和用户之间的通信中断。本文中所公开的解决方案可解决当前技术的上述不足。

如本文中所公开，在一些实施例中，一种处理网络上的音频通信的方法包括：在第一客户端设备处，所述第一客户端设备已通过所述网络与第二客户端设备建立音频和/或视频通信会话，在所述音频和/或视频通信会话期间，接收来自所述第二客户端设备的第一音频传输，其中，所述第一音频传输由所述第二客户端设备以源语言提供，所述源语言不同于与所述第一客户端设备相关联的默认语言；获得所述第一客户端设备的一个或多个当前用户语言属性，其中，所述一个或多个当前用户语言属性用于指示所述第一客户端设备处的所述音频和/或视频通信会话的当前语言；根据所述一个或多个当前用户语言属性确定目标语言，所述目标语言为推荐用于当前所述第一客户端设备处的语言，并且若所述目标语言不同于与所述第一客户端设备相关联的所述默认语言，获得所述源语言的所述第一音频传输从所述源语言到所述目标语言的翻译；以及将所述翻译呈现给所述第一客户端设备处的用户。

在一些实施例中，一种处理网络上的音频通信的方法包括：在服务器处，第一客户端设备通过所述网络与第二客户端设备建立音频和/或视频通信会话，在所述音频和/或视频通信会话期间，接收来自所述第二客户端设备的第一音频传输，其中，所述第一音频传输由所述第二客户端设备以源语言提供，所述源语言不同于与所述第一客户端设备相关联的默认语言；获得所述第一客户端设备的一个或多个当前用户语言属性，其中，所述一个或多个当前用户语言属性用于指示所述第一客户端设备处的所述音频和/或视频通信会话的当前语言；根据所述一个或多个当前用户语言属性确定目标语言，所述目标语言为推荐用于当前所述第一客户端设备处的语言，若所述目标语言不同于与所述第一客户端设备相关联的所述默认语言，获得所述第一音频传输从所述源语言到所述目标语言的翻译；以及将所述翻译发送给所述第一客户端设备，其中，将所述翻译呈现给所述第一客户端设备处的用户。

在一些实施例中，一种处理网络上的音频通信的第一客户端设备，在第一客户端设备处，所述第一客户端设备通过所述网络与第二客户端设备建立音频和/或视频通信会话，在所述音频和/或视频通信会话期间，所述第一客户端设备包括接收单元、获得单元和呈现单元：

所述接收单元，用于接收来自所述第二客户端设备的第一音频传输，其中，所述第一音频传输由所述第二客户端设备以源语言提供，所述源语言不同于与所述第一客户端设备相关联的默认语言；

所述获得单元，用于获得所述第一客户端设备的一个或多个当前用户语言属性，其中，所述一个或多个当前用户语言属性用于指示所述第一客户端设备处的所述音频和/或视频通信会话的当前语言；

所述获得单元还用于，根据所述一个或多个当前用户语言属性确定目标语言，所述目标语言为推荐用于当前所述第一客户端设备处的所述音频和/或视频通信会话的语言，若所述目标语言不同于与所述第一客户端设备相关联的所述默认语言，获得所述第一音频传输从所述源语言到所述目标语言的翻译；以及

所述呈现单元，用于将所述翻译呈现给所述第一客户端设备处的用户。

在一些实施例中，一种处理网络上的音频通信的服务器，通过所述服务器，第一客户端设备通过所述网络与第二客户端设备建立音频和/或视频通信会话，在所述音频和/或视频通信会话期间，所述服务器包括接收单元、获得单元和发送单元：

所述获得单元还用于，根据所述一个或多个当前用户语言属性确定目标语言，所述目标语言为推荐用于当前所述第一客户端设备处的语言，若所述目标语言不同于与所述第一客户端设备相关联的所述默认语言，获得所述第一音频传输从所述源语言到所述目标语言的翻译；

所述发送单元，用于将所述翻译发送给所述第一客户端设备，其中，将所述翻译呈现给所述第一客户端设备处的用户。

根据一些实施例，一种电子设备包括显示器、任选的触敏表面、任选的用以检测与触敏表面的接触强度的一个或多个传感器、任选的一个或多个触觉输出发生器、一个或多个处理器和存储一个或多个程序的存储器；所述一个或多个程序被配置成由所述一个或多个处理器执行且所述一个或多个程序包括指令，所述指令用于执行或致使执行本文中所描述的任何方法的操作。根据一些实施例，一种计算机可读存储介质具有存储在其中的指令，所述指令当由具有显示器、任选的触敏表面、任选的用以检测与所述触敏表面的接触强度的一个或多个传感器和任选的一个或多个触觉输出发生器的电子设备执行时致使所述设备执行或致使执行本文中所描述的任何方法的操作。根据一些实施例，在具有显示器、任选的触敏表面、任选的用以检测与触敏表面的接触强度的一个或多个传感器、任选的一个或多个触觉输出发生器、存储器和用以执行存储在存储器中的一个或多个程序的一个或多个处理器的电子设备上的图形用户界面包括本文中所描述的任何方法中所呈现的元件中的一个或多个，所述元件响应于输入而进行更新，如本文中所描述的任何方法中所描述。根据一些实施例，一种电子设备包括：显示器、任选的触敏表面、任选的用以检测与触敏表面的接触强度的一个或多个传感器和任选的一个或多个触觉输出发生器；以及用于执行或致使执行本文中所描述的任何方法的操作的构件。根据一些实施例，一种用于具有显示器、任选的触敏表面、任选的用以检测与触敏表面的接触强度的一个或多个传感器和任选的一个或多个触觉输出发生器的电子设备中的信息处理设备包括用于执行或致使执行本文中所描述的任何方法的操作的构件。

在一些实施例中，计算设备(例如，图1、图2的服务器系统108、204；图1和图2的客户端设备104、200、202；或这些服务器系统和客户端设备的组合)包括一个或多个处理器和存储一个或多个程序以由所述一个或多个处理器执行的存储器，所述一个或多个程序包括指令，所述指令用于执行或控制执行本文中所描述的任何方法的操作。在一些实施例中，一种非暂时性计算机可读存储介质存储一个或多个程序，所述一个或多个程序包括指令，所述指令在由具有一个或多个处理器的计算设备(例如，图1、图2的服务器系统108、204；图1和图2的客户端设备104、200、202；或这些服务器系统和客户端设备的组合)执行时致使所述计算设备执行或控制执行本文中所描述的任何方法的操作。在一些实施例中，计算设备(例如，图1、图2的服务器系统108、204；图1和图2的客户端设备104、200、202；或这些服务器系统和客户端设备的组合)包括用于执行或控制执行本文中所描述的任何方法的操作的构件。

根据以下描述，本申请案的各种优点显而易见。

附图说明

在下文中，由于结合附图对优选实施例进行详细描述，因此将更清楚地理解所公开技术的前述特征和优点以及其额外特征和优点。

为了更清楚地描述本公开技术的实施例或现有技术中的技术方案，下面简要介绍描述实施例或现有技术所需的附图。显然，以下描述中的附图仅示出了本公开技术的一些实施例，并且所属领域的一般技术人员仍然可在无需创造性劳动的情况下从这些附图中得出其它图式。

图1是根据一些实施例的服务器-客户端环境的框图。

图2A到图2B是示出根据一些实施例的经由服务器在网络上建立的第一客户端设备与第二客户端设备之间的音频和/或视频通信会话的框图。

图3到图5是根据一些实施例的在网络上的音频和/或视频通信会话期间第一客户端设备、第二客户端设备和服务器之间的交互的通信时序图。

图6A到图6G示出根据一些实施例的处理音频通信的方法的流程图。

图7A到图7F示出根据一些实施例的处理音频通信的方法的流程图。

图8是根据一些实施例的客户端设备的框图。

图9是根据一些实施例的服务器系统的框图。

在附图的多个视图中，相同的附图标记指代对应的部件。

具体实施方式

现在将详细参考实施例，在附图中示出所述实施例的示例。在以下详细描述中，阐述许多特定细节以便提供对本文中呈现的主题的透彻理解。但所属领域的技术人员将显而易知，可以在没有这些特定细节的情况下实践所述主题。在其它情况下，未详细描述众所周知的方法、程序、组件、和电路，以免不必要地混淆实施例的各方面。

下文参考本申请案的实施例中的附图清楚地并彻底地描述本申请案的实施例中的技术方案。显然，所描述的实施例仅是本申请案的实施例的一部分，而非全部的实施例。所属领域的一般技术人员在不付出创造性劳动的前提下基于本申请案的实施例获得的所有其它实施例应处于本申请案的保护范围内。

如图1所示，根据一些实施例，用于实时音频/视频通信平台的数据处理在服务器-客户端环境100中实施。根据一些实施例，服务器-客户端环境100包括在客户端设备104-1、104-2、104-3上执行的客户端侧处理102-1、102-2、102-3(在下文中称为“客户端侧模块102”)和在服务器系统108上执行的服务器侧处理106(在下文中称为“服务器侧模块106”)。客户端侧模块102通过一个或多个网络110与服务器侧模块106通信。客户端侧模块102提供社交网络平台的客户端侧功能并与服务器侧模块106通信。服务器侧模块106为各自驻留在相应客户端设备104上的任何数目个客户端模块102提供社交网络平台的服务器侧功能。

在一些实施例中，服务器侧模块106包括一个或多个处理器112(例如，图9中的处理器902)、会话数据库114、用户数据库116、到一个或多个客户端的I/O接口118和到一个或多个外部服务的I/O接口120。到一个或多个客户端的I/O接口118便于服务器侧模块106的面向客户端的输入和输出处理。会话数据库114存储用户已建立的通信会话(例如，虚拟会议室)的预设偏好，且用户数据库116存储用于通信平台中用户的用户配置文件。到一个或多个外部服务的I/O接口120便于与一个或多个外部服务122(例如，网络服务器或基于云的服务提供商，例如文件共享和数据存储服务)的通信。

客户端设备104的示例包括但不限于手持式计算机、可穿戴计算设备、个人数字助理(personal digital assistant，PDA)、平板计算机、膝上型计算机、桌上型计算机、蜂窝式电话、智能电话、增强型通用包无线电服务(enhanced general packet radio service，EGPRS)移动电话、媒体播放器、导航设备、游戏控制台、电视、遥控器、销售点(point ofsale，POS)终端、车载计算机、电子书阅读器，或这些数据处理设备或其它数据处理设备中的任何两个或两个以上的组合。

一个或多个网络110的示例包括局域网(local area network，LAN)和广域网(wide area network，WAN)，例如因特网。任选地，一个或多个网络110使用任何已知的网络协议来实施，包括各种有线或无线协议，例如以太网、通用串行总线(Universal SerialBus，USB)、FIREWIRE、长期演进(Long Term Evolution，LTE)、全球移动通信系统(GlobalSystem for Mobile Communication，GSM)、增强型数据GSM环境(Enhanced Data GSMEnvironment，EDGE)、码分多址(code division multiple access，CDMA)、时分多址(timedivision multiple access，TDMA)、蓝牙、Wi-Fi、因特网协议上话音(voice overInternet Protocol，VoIP)、Wi-MAX，或任何其它合适的通信协议。

服务器系统108实施于一个或多个独立式数据处理装置或分布式计算机网络上。在一些实施例中，服务器系统108还使用第三方服务提供商(例如，第三方云服务提供商)的各种虚拟设备和/或服务来提供服务器系统108的底层计算资源和/或基础设施资源。在一些实施例中，服务器系统108包括但不限于手持式计算机、平板计算机、膝上型计算机、桌上型计算机，或这些数据处理设备或其它数据处理设备中的任何两个或两个以上的组合。

服务器系统108还实施各种模块以用于支持实时音频/视频通信，例如位于不同位置的多个用户在在线虚拟会议室中的通信，所述模块包括音频/视频服务模块124、语音转文本模块126和翻译服务模块128等等。

图1中示出的服务器-客户端环境100包括客户端侧部分(例如，客户端侧模块102)和服务器侧部分(例如，服务器侧模块106)。在一些实施例中，数据处理被实施为安装在客户端设备104上的独立应用程序。另外，客户端-服务器环境100的客户端部分与服务器部分之间的功能划分可在不同实施例中变化。举例来说，在一些实施例中，客户端侧模块102是精简客户端，仅提供面向用户的输入和输出处理功能，并将所有其它数据处理功能委派给后端服务器(例如，服务器系统108)。尽管从服务器的角度描述了本技术的许多方面，但所属领域的技术人员在无需任何创造性劳动的情况下会明白客户端设备执行的对应动作。此外，本技术的一些方面可由服务器、客户端设备或服务器和客户端协作执行。

现在将注意力转向可在客户端设备104上实施的用户接口和相关联过程的实施例。

图2A到图2B是示出根据一些实施例的经由服务器在网络上建立的第一客户端设备(例如，客户端设备A)与第二客户端设备(例如，客户端设备B)之间的音频和/或视频通信会话的框图。

如图2A中所示，在一些实施例中，客户端设备A200(例如，图1中的客户端设备104-1)(例如，客户端设备A200可以为智能电话或计算机)的用户A需要经由音频和/或视频通信会话与客户端设备B 202(例如，客户端设备104-2)的用户B进行对话。客户端设备A将音频/视频通信请求(例如，经由客户端侧模块102-1)发送给服务器204(例如，服务器系统108)。响应于接收到该请求，服务器将所述请求传输到客户端设备B。当客户端设备B接收到该请求时，任选地在客户端设备B上(例如，在客户端侧模块102-2的用户界面中)显示呼叫提示。如果用户B接受呼叫请求(例如，当在客户端设备B上示出的用户界面中选择“接受”按钮206时)，那么用户B已接受客户端设备A发送的音频/视频通信请求的指示会被发送给用户A。举例来说，客户端设备B将接受指令发送给服务器。当服务器接收到该接受指令时，服务器建立支持客户端设备A到客户端设备B之间的音频/视频传输的音频/视频通信会话。在一些实施例中，服务器提供服务(例如，音频/视频传输服务、语音转文本服务、翻译服务、文件共享服务等等)。在一些实施例中，如果用户B拒绝音频/视频通信请求(例如，选择“拒绝”按钮207)，那么服务器会终止请求并将指示呼叫请求被拒绝的响应发送给客户端设备A。

图2B示出了在建立通信会话之后(例如，以图2A中所示的方式)，客户端设备A与客户端设备B之间的示范性音频和/或视频通信会话。尽管在通信会话中由参与方之一(例如，用户A)建立，但图2B中所示的示例交换可在任一方向上，其中两个设备的角色颠倒过来。

在一个示例中，首先，用户B经由客户端设备B与用户A通信。客户端设备B从用户B接收以第一源语言说出的连续语音输入(例如，用户B用英语说“How are you！”)和/或捕获在客户端设备B前的用户B的图像(例如，经由客户端设备B上的摄像头213捕获用户B的面部图像)。客户端设备B将已被捕获的音频和/或视频作为去往客户端设备A的一个或多个传输(例如，包、消息等等)或数据流(例如，示出为第一音频/视频传输215)传输到服务器。第一音频/视频传输包括从用户B接收的连续语音输入和所捕获图像流。在一些实施例中，客户端设备A与B之间的通信会话仅为没有视频通信的音频通信会话。

在图2B示出的一些实施例中，当服务器接收到客户端设备B的音频/视频服务模块217发送的第一音频/视频传输时，服务器将第一视频传输发送给客户端设备A并将第一音频传输发送给语音识别服务模块219(例如，由服务器或第三方服务提供商提供的语音识别服务模块)。语音识别服务模块219对第一音频传输执行语音转文本处理以生成源语言的文本串，并将源语言的文本串发送给翻译服务模块221(例如，服务器或第三方服务提供商提供的翻译模块)。翻译服务模块221将从第一视频传输生成的文本串从源语言(例如，从客户端设备B接收或以其它方式由服务器确定的源语言类型)翻译成目标语言(例如，从客户端设备A接收或以其它方式由服务器确定的目标语言类型)的文本串、发送从第一音频传输生成的文本串的翻译，以及任选地，将原始的第一音频传输和源语言的文本串发送给客户端设备A。在一些实施例中，翻译呈文本形式。在一些实施例中，翻译适于语音形式。在一些实施例中，将文本形式和语音形式一起发送给客户端设备A。在一些实施例中，移除第一音频传输的原始音频并用音频翻译替换。在一些实施例中，文本翻译作为隐藏字幕添加到原始音频传输。在一些实施例中，源语言的文本串作为隐藏字幕被添加。当客户端设备A接收到第一音频传输的翻译以及源语言的第一音频传输和文本串时，客户端设备A将翻译以及任选地源语言的文本串和音频呈现给用户A(例如，翻译显示在客户端设备A的显示器208上)(例如，示出为显示屏幕208上显示的呈中文223形式的翻译“你好”，和呈英语225形式的源语言“how are you”)。

在一些实施例中，当客户端设备A和客户端设备B已通过因特网建立实时视频通信会话时，存在用于在客户端设备A上呈现用户A的图形的小显示框(例如，示出为227)和用于在客户端设备A上呈现用户B的图形的大显示框229(例如，示出为229)。在一些实施例中，对于每个设备的当前识别的源语言的指示与设备的显示框相关联地显示。举例来说，客户端设备A处的显示框227具有指示中文是客户端设备A处当前使用的源语言的指示，且客户端设备A处的显示框229具有指示英语是客户端设备B处当前使用的源语言的指示。

在一些实施例中，存在客户端设备A处指定有默认语言。举例来说，在一些实施例中，客户端设备A的默认语言由服务器针对客户端设备A自动选择或者是优选语言，在视频通信会话开始之前，用户A已经在客户端设备A的语言设置中指定了所述优选语言。例如，用户A是中国用户，且用户A可在客户端设备A的语言设置中将其设备的默认语言预先指定为中文。再例如，当设置应用程序时，默认语言由服务器指定。在一些实施例中，到建立音频/视频通信会话时，用户A或服务器尚未设置默认语言。

在一些实施例中，当翻译服务模块检测到来自客户端设备B的第一音频传输中包括的源语言与客户端设备A的默认语言不同时，翻译服务模块或服务器从客户端设备A获得用户A的一个或多个用户语言属性(例如，用户的面部特征、客户端设备A的地理位置信息、在客户端设备A本地接收的音频消息等等)，并将源语言中的语音翻译成根据客户端设备A的用户语言属性确定的目标语言。目标语言有时不同于在建立通信会话之前针对客户端设备预先指定的默认语言，并且对目标语言的确定是基于在建立通信会话之后或正在建立通信会话时的用户语言属性实时收集。举例来说，使用例如英语的源语言的用户B在客户端设备B处说话，已经通过在设置界面中的先前用户输入将客户端设备A的默认语言指定为日语。然而，服务器在确定客户端设备A的用户语言属性时，确定当前用户A可能不是说日语者或不能够理解日语。服务器改为确定客户端设备A处的用户是讲中文的用户并且懂中文。然后，翻译服务模块使用英语作为源语言并使用中文作为目标语言来翻译在客户端设备B处接收的语音。

在一些实施例中，通过在客户端设备A处获得用户A的面部特征并获得客户端设备A的地理位置信息，客户端设备A获得客户端设备A的一个或多个当前用户语言属性。面部特征任选地包括指示用户A的种族或国籍的种族特征(例如，眼睛颜色、面部结构、头发颜色等等)，或用于确定当前正使用客户端设备A的用户A是否不同于设置客户端设备A的默认语言的用户的面部特征。第一客户端设备的地理位置信息任选地包括客户端设备A的当前位置和当前时间之前的预设时间段的历史位置，或客户端设备A的预先存储的位置。举例来说，在一些实施例中，客户端设备A捕获在客户端设备A处说话和/或收听的用户A的面部特征、获得客户端设备A的当前地理位置信息。

在一些实施例中，客户端设备A处的用户的面部特征和客户端设备A的地理位置信息组合用以将目标语言(例如，中文)推荐为客户端设备A所用的当前语言，而非与客户端设备A相关联的默认语言(例如，日语)。举例来说，客户端设备A基于面部特征确定当前用户A是白种人，并确定客户端设备A的当前位置位于北美。基于种族和地理位置信息的组合，客户端设备A表明，客户端设备A处使用的当前语言可能为英语，且因此使用英语作为当前使用客户端设备A的用户的翻译目标语言。在一些实施例中，如果已经通过设置界面中的先前用户输入指定了客户端设备A的默认语言，那么客户端设备A要求当前收集的面部特征和/或地理位置信息中的至少一个指示当前用户与指定客户端设备A的默认语言的用户不同。在一些实施例中，仅在客户端设备A接收到所推荐的目标语言是正确的推荐的确认之后，才在客户端设备A处向用户提供从源语言到目标语言的翻译。

在一些实施例中，在客户端设备A收集面部特征和地理位置信息并将所收集的信息发送给服务器之后，由通信会话的服务器执行目标语言的确定。在一些实施例中，基于在服务器上训练的数据模型确定目标语言，然后将目标语言存储在客户端设备A处。在一些实施例中，在客户端设备A确定目标语言将替代默认语言作为在客户端设备A处使用的所认可当前语言之前，客户端设备A呈现来自客户端设备A处的用户的确认请求。

在一些实施例中，客户端设备A在本地确定目标语言而不需将面部特征和地理位置信息传输到服务器，这有助于保护用户隐私并减少服务器负载。

在一些实施例中，通过获得在音频和/或视频通信会话期间在客户端设备A本地接收的音频输入，客户端设备A获得客户端设备A的一个或多个当前用户语言属性。在语言学上分析(例如，使用语言模型或语音模型来确定所说的语言)在客户端设备A本地接收的音频输入以将目标语言推荐为在客户端设备A处使用的当前语言。举例来说，客户端设备A或服务器将音频输入的语言类型识别为英语，并确定在客户端设备A处使用的当前语言是英语，且客户端设备A或服务器将推荐客户端设备A的目标语言为英语，而不是错误地将当前与客户端设备A相关联的默认语言当作客户端设备A处使用的当前语言。

图3是建立音频和/或视频通信会话的客户端设备A与第二客户端设备B之间通过服务器在网络上的交互的通信时序图。在一些实施例中，首先，客户端设备A通过服务器(例如，或者直接而非通过服务器)将音频/视频通信会话请求发送给第二客户端设备B，由302到304示出。当客户端设备B接受请求时(示出为306)，服务器建立客户端设备A与客户端设备B之间的音频和/或视频通信会话的连接(示出为308)。还参照图2A描述了从302到308的步骤。

当客户端设备B将以用户B的源语言说出的第一音频/视频传输发送给服务器时(示出为310)，服务器对源语言的第一音频传输执行语音转文本识别，以生成客户端设备B的源语言的文本表示(示出为312)。在服务器将源语言的文本串翻译成目标语言的文本串之前，服务器确定客户端设备B的源语言是不同于已由服务器针对客户端设备A自动选择的默认语言还是优选语言，在视频通信会话开始之前，用户已经在客户端设备A的语言设置中指定了所述优选语言。如果确定源语言不同于客户端设备A的默认语言(示出为314)，那么服务器将第一音频传输从源语言翻译成根据客户端设备A的当前用户语言属性确定的目标语言(例如，参照图2A和图2B所描述)(示出为316)。在一些实施例中，如果客户端设备B的源语言与客户端设备A的默认语言相同，那么服务器将不执行任何翻译。

在服务器完成第一音频传输从源语言到目标语言的翻译之后，服务器将源语言的第一音频传输和原始音频的翻译的文本表示发送给客户端设备A(示出为322)。客户端设备A接收源语言的第一音频传输和原始音频的翻译的文本表示，并在显示器上呈现文本表示(例如图2B中223和225所示)。

在一些实施例中，服务器根据用户B的声音特性生成模拟的第一音频传输，所述模拟的第一音频传输包括第一音频传输的翻译，并将模拟的第一音频传输发送给客户端设备A(示出为324和326)。举例来说，服务器获得第一音频传输中的话音的声音特性。声音特性任选地包括声纹或一组预定义的特性，例如人的话音的频率、音调、音高、持续时间、振幅等等。在一些实施例中，根据从第一音频传输获得的声音特性指示原始的第一音频传输是由男性、女性还是儿童说出，使用男性、女性或儿童的通用话音生成模拟的第一音频传输。在一些实施例中，模拟的第一音频传输紧密地模仿原始的第一音频传输的话音。

在一些实施例中，服务器根据服务器负载(例如，处理能力、存储器和网络带宽)和音频传输在客户端设备处被接收的速率，自动地在使用通用话音或特殊模拟的话音之间切换以说出翻译。举例来说，当服务器负载高于预定义阈值时，以根据原始的第一音频传输的声音特性的小子集(例如，仅主频率和音高)生成的话音提供模拟的第一音频传输；且当服务器负载低于预定义阈值时，以根据原始的第一音频传输的声音特性的较大子集(例如，更宽范围的频率、音高、振幅等等)生成的话音提供模拟的第一音频传输。

在一些实施例中，在接收到模拟的第一音频传输之后，客户端设备A在显示器上呈现翻译的文本表示，并在客户端设备A处为用户A输出模拟的第一音频传输。举例来说，在客户端设备A处播放目标语言的模拟的第一音频传输，代替源语言的原始的第一音频传输。在一些实施例中，在客户端设备A处的视频传输的片段的播放被延迟，使得从第二客户端设备接收的视频传输与在客户端设备A处的模拟的第一音频传输的播放同步。

图4是当将音频传输发送给客户端设备A时在客户端设备B处进行的处理的示例。

在一些实施例中，当用户B在客户端设备B处说话时(例如，如图2B中所示)，客户端设备B检测位于客户端设备B处的用户B的连续语音输入，并将连续语音输入的第一开始时间(例如，图4中的开始时间st1)标记为在客户端设备B处检测到的第一音频段的开头。当客户端设备B检测到连续语音输入中的第一预定义中断(例如，图4中的中断bk1)时，客户端设备将第一预定义中断bk1的第一结束时间(例如，图4中的结束时间et1)标记为第一音频段的结尾。在一些实施例中，连续语音输入被定义为连续话音输入流，仅包括小于预定义语音输入终止时间阈值的短暂中断。当超过语音输入终止时间阈值而未检测到话音输入时，认为连续语音输入终止。语音输入终止时间阈值长于用于识别连续语音输入中的中断的预定义时间阈值；且用于检测连续语音输入中的中断的时间阈值长于句子中的单词之间或句子中的两个子句之间的估计自然暂停。

在一些实施例中，在检测到连续语音输入中的第一预定义中断bk1之后，客户端B将第一音频段转换成第一音频包并将第一音频包发送给服务器(示出为412)。然后，服务器对第一音频包执行语音转文本识别并将第一音频段从源语言翻译成目标语言(示出为414)。服务器将第一音频段的翻译发送给客户端设备A，用于在客户端设备A处呈现翻译(示出为416和418)。在一些实施例中，音频包是根据预定义格式(例如Roshal ARchive(RAR)文件)编码和压缩的音频输入流的片段。

在一些实施例中，在生成第一音频包并发送第一音频包时(在步骤412处)，客户端设备B继续检测位于客户端设备B处的用户的连续语音输入。在生成并发送第一音频包时检测到的连续语音输入的至少一部分作为第一音频传输的第二部分包括在第一音频传输中。举例来说，当继续检测连续语音输入时，客户端设备B检测客户端设备B处的连续语音输入中的第二预定义中断(例如，图4中第二音频段段2结束时的中断bk2)。客户端设备B将第一预定义中断bk1的结束时间标记为第二音频段的第二开始时间(例如，图4中段2的开始时间st2)，并将第二预定义中断的第二结束时间(例如，图4中段2的结束时间et2)标记为在客户端设备B处检测到的第二音频段的结尾。客户端设备B生成第二音频包以包括第二音频段，并将第二音频包发送给客户端设备A(例如，图4中422到428所示)。

只要尚未检测到连续语音输入的终止，上述过程继续，并在连续语音输入中检测更多音频段，每个音频段用相应的开始时间戳(和任选地，相应的结束时间戳)标记、转换成相应的音频包，并根据音频段相应的开始时间戳依序发送给客户端设备A。因此，包括第一音频段和第二音频段的两个或两个以上的音频段从第一音频传输的源语言翻译成针对客户端设备A确定的目标语言，以便在客户端设备A处呈现。举例来说，第一音频传输包括在单独的音频包中接收到的一个或多个句子，所述单独的音频包分别到达服务器且具有不同报头和时间戳，每个句子分别从第一音频传输的源语言翻译成针对客户端设备A确定的目标语言，且在客户端设备A处呈现翻译。

在一些实施例中，当在客户端设备B处捕获连续语音输入时，客户端设备B使用客户端设备B处的摄像头连续地捕获视频，并用两个或两个以上的音频段的相应的开始时间戳(和任选地，相应的结束时间戳)来标记连续捕获的视频，其中客户端设备A(或服务器)使用相应的开始时间戳(和任选地，相应的结束时间戳)来同步视频的呈现和客户端设备A处的两个或两个以上的音频段的相应翻译。

图5是客户端设备A与客户端设备B之间在网络上的音频和/或视频通信会话期间的示例服务器侧处理的时序图。在一些实施例中，服务器204包括音频/视频服务器502、语音识别服务器504和翻译服务器506。在一些实施例中，服务器502、504和506由提供所述功能的服务器204的子模块替换。

在一些实施例中，在音频和/或视频通信会话期间，音频/视频服务器从客户端设备B接收用户B说出的源语言的第一音频/视频传输(示出为511)，并将第一音频传输发送给语音识别服务器(示出为513)。所述语音识别服务器识别第一音频传输并根据存储在语音识别服务器处的语音识别库或语言模型以源语言生成文本表示(示出为515)，并以源语言将文本表示发送给翻译服务器(示出为517)，用于准备将文本表示从源语言翻译成已针对客户端设备A确定的目标语言。然后，翻译服务器将目标语言请求发送给音频/视频服务器(示出为519)，用于确定是否需要翻译传输，且如果需要，应翻译成何种目标语言(例如，确定源语言是否与目标语言或默认语言相同)。

音频/视频服务器确定来自客户端设备A的用户语言属性，并将目标语言推荐为在客户端设备A处使用的当前语言(示出为521)。在一些实施例中，音频/视频服务器接收客户端设备A处的当前用户的面部特征和客户端设备A的当前地理位置，并确定当前用户的面部特征与客户端设备A的当前地理位置之间的关系(例如，面部特征是否表明与第一客户端设备的当前地理位置充分相关(例如，根据预定义准则)的种族或国籍)。当确定所述关系符合预定义准则时，音频/视频服务器推荐目标语言。举例来说，如果面部特征和地理位置都与同一语言相关，则推荐将所述语言作为目标语言。在一些实施例中，音频/视频服务器接收已在客户端设备A本地接收到的音频消息(例如，来自客户端设备A处的用户的口头指令或从用户A接收的作为音频/视频通信会话的一部分的语音输入)，并分析音频消息的语言特性。然后，根据音频消息的语言特性的分析结果，音频/视频服务器可推荐供翻译服务器使用的目标语言。

音频/视频服务器将所推荐的目标语言发送给翻译服务器(示出为523)。然后，翻译服务器将第一音频传输从源语言翻译成音频/视频服务器推荐的目标语言，并将第一音频传输的翻译发送给客户端设备A，以在客户端设备A处呈现翻译结果(例如，在第一客户端设备处提供翻译的文本表示和听觉表示)。

在一些实施例中，语音识别服务器识别第一音频传输中的话音的声音特性(示出为531)，并根据第一音频传输中的话音的声音特性生成模拟的第一音频传输(示出为533)和第一音频传输的翻译。声音特性可包括声纹或一组预定义的特性，例如人的话音的频率、音调、音高、持续时间、振幅等等。在由语音识别服务器生成的模拟的第一音频传输之后，语音识别服务器将模拟的第一音频传输发送给客户端设备A(示出为535)，用于呈现模拟的第一音频传输的翻译。

图6A到图6G示出在两个或两个以上的客户端设备之间提供音频通信会话的方法600的流程图。在一些实施例中，方法600由第一客户端设备结合服务器或独立于服务器来执行。举例来说，在一些实施例中，方法600由客户端设备104-1(例如，客户端侧模块102-1)结合服务器系统108(图1到图2)或服务器系统组件(例如，服务器侧模块106，图1到图2)来执行。在一些实施例中，方法600由存储在非暂时性计算机可读存储介质中的指令控管，且指令由客户端和服务器系统的一个或多个处理器执行。任选的操作由虚线(例如，具有虚线边框的框)指示。

在处理网络上的音频通信的方法600中，第一客户端设备已通过网络与第二客户端设备建立音频和/或视频通信会话(例如，第一设备的用户和第二设备的用户已通过在线电话会议服务提供商的服务器在因特网上建立实时视频会议)。在音频和/或视频通信会话期间：第一客户端设备从第二客户端设备接收(602)第一音频传输(例如，通过视频会议服务的服务器)，其中，第一音频传输由第二客户端设备以不同于与第一客户端设备相关联的默认语言(例如，由服务器针对第一客户端设备自动选择的默认语言，或在视频通信会话开始之前，用户已经在第一客户端设备的语言设置中指定的优选语言)的源语言提供。第一客户端设备获得(604)第一客户端设备的一个或多个当前用户语言属性(例如，用户的面部特征、地理位置信息、本地接收的音频消息等等)，其中，一个或多个当前用户语言属性指示用于第一客户端设备处的音频和/或视频通信会话的当前语言。当确定一个或多个当前用户语言属性推荐当前用于第一客户端设备处的音频和/或视频通信会话的目标语言，并且确定目标语言不同于与第一客户端设备相关联的默认语言时(606)：第一客户端设备获得(608)源语言的第一音频传输从源语言到目标语言的翻译；且第一客户端设备将目标语言的第一音频传输的翻译呈现(610)给第一客户端设备处的用户。举例来说，在一些实施例中，目标语言由第一客户端设备推荐。在一些实施例中，目标语言由服务器推荐。在一些实施例中，第一客户端设备确定目标语言是否与第一客户端设备相关联的默认语言相同。在一些实施例中，服务器作出关于目标语言是否与第一客户端设备相关联的默认语言相同的确定。在一些实施例中，目标语言的第一音频传输的翻译被呈现为第一客户端设备处的文本输出。在一些实施例中，第一音频传输的翻译被提供为第一客户端设备处的音频输出。在一些实施例中，在第一客户端设备处提供翻译的文本表示和听觉表示(例如，与对应于第一音频传输的视频的部分同步)。

在一些实施例中，获得第一客户端设备的一个或多个当前用户语言属性(例如，步骤604)包括(612)获得第一客户端设备处的用户的面部特征(例如，获得种族特征(例如，眼睛颜色、面部结构、头发颜色等等)，所述面部特征指示用户的种族或国籍，或获得用于确定当前正使用第一客户端设备的用户是否不同于设置第一客户端设备的默认语言的用户的面部特征)，以及获得第一客户端设备的地理位置信息(例如，包括第一客户端设备的当前位置和预设时间段的历史位置，或第一客户端设备的预先存储的位置)。第一客户端设备处的用户的面部特征和第一客户端设备的地理位置信息组合用(614)以将目标语言推荐为第一客户端设备所用的当前语言，而非与第一客户端设备相关联的默认语言。举例来说，在一些实施例中，第一客户端设备捕获在第一客户端设备处说话和/或收听的当前用户的面部特征、获得第一客户端设备的当前地理位置信息。在一些实施例中，第一客户端设备基于面部特征确定当前用户可能是白种人，并确定第一客户端设备的当前位置位于北美。基于种族和地理位置信息的组合，第一客户端设备表明，第一客户端设备处使用的当前语言可能为英语。在一些实施例中，如果已经通过设置界面中的先前用户输入指定了第一客户端设备的默认语言，那么第一客户端设备要求当前收集的面部特征和/或地理位置信息中的至少一个指示当前用户与指定第一客户端设备的默认语言的用户不同。在一些实施例中，在第一客户端设备收集面部特征和地理位置信息并将所收集的信息发送给服务器之后，由通信会话的服务器执行目标语言的确定。在一些实施例中，第一客户端设备在本地确定目标语言而不需将面部特征和地理位置信息传输到服务器，这有助于保护用户隐私并减少服务器负载。在一些实施例中，基于在服务器上训练的数据模型确定目标语言，然后将所述目标语言存储在第一客户端设备处。在一些实施例中，在第一客户端设备确定目标语言将替代默认语言作为在第一客户端设备处使用的所认可当前语言之前，第一客户端设备呈现对来自第一客户端设备处的用户的确认的请求。在一些实施例中，仅在第一客户端设备接收到所推荐的目标语言是正确的推荐的确认之后，才在第一客户端设备处向用户提供从源语言到目标语言的翻译。

在一些实施例中，获得第一客户端设备的一个或多个当前用户语言属性(例如，步骤604)包括(616)获得在音频和/或视频通信会话期间在第一客户端设备本地接收的音频输入。在语言学上分析(618)在第一客户端设备本地接收的音频输入(例如，使用语言模型或语音模型来确定所说的语言)以将目标语言推荐为在第一客户端设备处使用的当前语言。举例来说，在一些实施例中，第一客户端设备或服务器将音频输入的语言类型识别为英语，并确定在第一客户端设备处使用的当前语言是英语，且第一客户端设备或服务器将推荐第一客户端设备的目标语言为英语，而不是错误地将当前与第一客户端设备相关联的默认语言当作第一客户端设备处使用的当前语言。

在一些实施例中，第一客户端设备获得(622)第一音频传输中的话音的声音特性(例如，声纹或一组预定义的特性，例如人的话音的频率、音调、音高、持续时间、振幅等等)；且第一客户端设备根据第一音频传输中的话音的声音特性，生成(624)模拟的第一音频传输，所述模拟的第一音频传输包括根据第一音频传输的话音的声音特性而以目标语言说出的第一音频传输的翻译。举例来说，在一些实施例中，根据从第一音频传输获得的声音特性指示原始的第一音频传输是由男性、女性还是儿童说出，使用男性、女性或儿童的通用话音生成模拟的第一音频传输。在一些实施例中，模拟的第一音频传输紧密地模仿原始的第一音频传输的话音。在一些实施例中，系统(例如，服务器)根据服务器负载(例如，处理能力、存储器和网络带宽)和音频传输在第一客户端设备处被接收的速率，自动地在使用通用话音或特殊模拟的话音之间切换以说出翻译。举例来说，当服务器负载高于预定义阈值时，模拟的第一音频传输以根据原始的第一音频传输的声音特性的小子集生成的话音提供；且当服务器负载低于预定义阈值时，模拟的第一音频传输以根据原始的第一音频传输的声音特性的较大子集生成的话音提供。

在一些实施例中，将目标语言的第一音频传输的翻译呈现给第一客户端设备处的用户(例如，步骤610)包括：将目标语言的第一音频传输的翻译的文本表示呈现(626)给第一客户端设备处的用户；以及呈现(628)根据第一音频传输中的话音的声音特性生成的模拟的第一音频传输(例如，在第一客户端设备处播放目标语言的模拟的第一音频传输，代替源语言的原始的第一音频传输)。在一些实施例中，在第一客户端设备处的视频传输的片段的播放被延迟，使得从第二客户端设备接收的视频传输与在第一客户端设备处的模拟的第一音频传输的播放同步。

在一些实施例中，在音频和/或视频通信会话期间：第一客户端设备检测(632)连续语音输入(例如，连续语音输入被定义为仅包括小于预定义语音输入终止时间阈值的短暂中断的连续话音输入流)。当超过语音输入终止时间阈值而未检测到话音输入时，认为连续语音输入终止。语音输入终止时间阈值长于用于识别连续语音输入中的中断的预定义时间阈值；且用于检测连续语音输入中的中断的时间阈值长于句子的单词之间或句子的两个子句之间的估计自然暂停。)。第一客户端设备将第一连续语音输入的开始时间标记(634)为在第一客户端设备处检测到的第一音频段的开头。第一客户端设备检测(636)第一客户端设备处的连续语音输入中的第一预定义中断(例如，在至少一阈值时间量里检测在第一客户端设备处的连续音频输入流中不存在足够量的语音输入)。响应于检测到连续语音输入中的第一预定义中断，第一客户端设备将第一预定义中断的开始时间标记为在第一客户端设备处检测到的第一音频段的结尾，其中，第一音频段包括在发送给第二客户端设备的第二音频传输中。

在一些实施例中，在检测到连续语音输入中的第一预定义中断之后，第一客户端设备生成(642)包括第一音频段的第一音频包。第一客户端设备将第一音频包作为第二音频传输的第一部分发送(644)给第二客户端设备。在生成第一音频包并发送第一音频包时：第一客户端设备继续(646)检测位于第一客户端设备处的用户的连续语音输入，其中，在生成并发送第一音频包时检测到的连续语音输入的至少一部分作为第二音频传输的第二部分包括在第二音频传输中。举例来说，当继续检测连续语音输入时，第一客户端设备检测第一客户端设备处的连续语音输入中的第二预定义中断。第一客户端设备将第一预定义中断的结束时间标记为第二段的开始时间，并将第二预定义中断的开始时间标记为在第一客户端设备处检测到的第二音频段的结尾。第一客户端设备生成第二音频包以包括第二音频段，并将第二音频包发送给第二客户端设备。只要尚未检测到连续语音输入的终止，上述过程就继续，且检测更多音频段、转换成音频包并发送给第二客户端设备。在一些实施例中，将包括第一音频段和第二音频段的两个或两个以上的音频段翻译成第一音频传输的源语言，以便在第二客户端设备处呈现。举例来说，第二音频传输包括在单独的音频包中接收到的一个或多个句子，所述单独的音频包分别到达服务器且具有不同报头和时间戳，每个句子分别翻译成第一音频传输的源语言，且在第二客户端设备处呈现翻译。

在一些实施例中，在音频和/或视频通信会话期间：第一客户端设备识别(648)第一客户端设备处的连续语音输入(例如，连续话音输入流)中的两个或两个以上的音频段，每个音频段用相应的开始时间戳(和任选地，相应的结束时间戳)标记；第一客户端设备针对两个或两个以上的音频段中的每一个生成(650)相应的音频包(例如，音频包是根据预定义格式(例如RAR文件)编码和压缩的音频输入流的片段)；且第一客户端设备根据音频段的相应的开始时间戳依序将两个或两个以上的音频段的相应的音频包发送给第二客户端设备(例如，通过服务器发送或直接发送)。在一些实施例中，将音频包发送给负责翻译音频段的服务器，而不发送给第二客户端设备。在一些实施例中，音频包(例如，作为单独和离散的文件)的传输不依赖于在第一客户端设备处连续捕获的音频的传输(例如，通过连续流式传输)。

在一些实施例中，在音频和/或视频通信会话期间：当在第一客户端设备处捕获连续语音输入时，第一客户端设备使用第一客户端设备处的摄像头连续地捕获(656)视频；且第一客户端设备用两个或两个以上的音频段的相应的开始时间戳(和任选地，相应的结束时间戳)来标记连续捕获的视频，其中，第二客户端设备(或服务器)使用相应的开始时间戳(和任选地，相应的结束时间戳)来同步第二客户端设备处的视频的呈现和两个或两个以上的音频段的相应翻译。

应理解，图6A到图6G中描述操作的特定顺序仅是示范性的，并非意在指示所描述的顺序是可执行操作的唯一顺序。所属领域的一般技术人员将认识到各种方式来对本文中所描述的操作进行重新排序。另外，应注意，本文中参照其它方法描述的其它过程和/或本文中所描述的过程的细节也能以与上述方法600类似的方式应用。

图7A到图7F示出在两个或两个以上的客户端设备之间提供音频通信会话的方法700的流程图。在一些实施例中，方法600由服务器结合两个或两个以上的客户端设备来执行。举例来说，在一些实施例中，方法600由服务器108结合客户端设备104-1和104-2或客户端设备组件(例如，客户端侧模块102，图1到图2)来执行。在一些实施例中，方法700由存储在非暂时性计算机可读存储介质中的指令控管，且指令由客户端和服务器系统的一个或多个处理器执行。任选的操作由虚线(例如，具有虚线边框的框)指示。

通过服务器，第一客户端设备已通过网络与第二客户端设备建立音频和/或视频通信会话(例如，第一设备的用户和第二设备的用户已通过在线电话会议服务提供商的服务器在因特网上建立实时视频会议)。在音频和/或视频通信会话期间：服务器从第二客户端设备接收(702)第一音频传输，其中，第一音频传输由第二客户端设备以不同于与第一客户端设备相关联的默认语言(例如，由服务器针对第一客户端设备自动选择的默认语言，或在视频通信会话开始之前，用户已经在第一客户端设备的语言设置中指定的优选语言)的源语言提供。服务器获得(例如，从第一客户端设备，和/或任选地，另一服务器)第一客户端设备的一个或多个当前用户语言属性(例如，第一客户端设备处的用户的面部特征、地理位置信息(例如，当前位置和/或最近位置)、在第一客户端设备本地接收的音频消息等等)，其中，一个或多个当前用户语言属性指示用于第一客户端设备处的音频和/或视频通信会话的当前语言。当确定一个或多个当前用户语言属性推荐当前用于第一客户端设备处的音频和/或视频通信会话的目标语言，并且确定目标语言不同于与第一客户端设备相关联的默认语言时(706)：服务器获得(708)第一音频传输从源语言到目标语言的翻译；且服务器将目标语言的第一音频传输的翻译发送(710)给第一客户端设备，其中，将翻译呈现给第一客户端设备处的用户。举例来说，在一些实施例中，目标语言由第一客户端设备推荐。在一些实施例中，目标语言由服务器推荐。在一些实施例中，第一客户端设备确定目标语言是否与第一客户端设备相关联的默认语言相同。在一些实施例中，服务器作出关于目标语言是否与第一客户端设备相关联的默认语言相同的确定。在一些实施例中，目标语言的第一音频传输的翻译被呈现为第一客户端设备处的文本输出。在一些实施例中，第一音频传输的翻译被提供为第一客户端设备处的音频输出。在一些实施例中，在第一客户端设备处提供翻译的文本表示和听觉表示(例如，与对应于第一音频传输、文本模式或音频模式的视频的部分同步)。

在一些实施例中，获得一个或多个当前用户语言属性并推荐当前在第一客户端设备处用于音频和/或视频通信会话的目标语言(例如，步骤704)还包括：从第一客户端设备接收(712)当前用户的面部特征和第一客户端设备的当前地理位置；确定(714)当前用户的面部特征与第一客户端设备的当前地理位置之间的关系(例如，面部特征是否表明与第一客户端设备的当前地理位置充分相关(例如，根据预定义准则)的种族或国籍)；以及当确定所述关系符合预定义准则时，推荐(716)目标语言(例如，在一些实施例中，如果面部特征和地理位置都与同一语言相关，则推荐将所述语言作为目标语言)。

在一些实施例中，获得一个或多个当前用户语言属性并推荐当前在第一客户端设备处用于音频和/或视频通信会话的目标语言(例如，步骤704)还包括：从第一客户端设备接收(718)已在第一客户端设备本地接收到的音频消息；分析(720)在第一客户端设备本地接收到的音频消息的语言特性；并根据音频消息的语言特性的分析结果，推荐(722)当前用于第一客户端设备处的音频和/或视频通信会话的目标语言。

在一些实施例中，服务器获得(732)第一音频传输中的话音的声音特性(例如，声纹或一组预定义的特性，例如人的话音的频率、音调、音高、持续时间、振幅等等)；且服务器根据第一音频传输中的话音的声音特性，生成(734)模拟的第一音频传输，所述模拟的第一音频传输包括根据第一音频传输的话音的声音特性以目标语言说出的第一音频传输的翻译。在一些实施例中，将到第一客户端设备处的用户的目标语言的第一音频传输的翻译发送给第一客户端设备(例如，步骤710)包括：将到第一客户端设备处的用户的目标语言的第一音频传输的翻译的文本表示发送(736)给第一客户端设备；并将根据第一音频传输中的话音的声音特性生成的模拟的第一音频传输发送(738)给第一客户端设备(例如，将目标语言的模拟的第一音频传输代替源语言的原始的第一音频传输发送给第一客户端设备)。在一些实施例中，视频传输的片段到第一客户端设备的传输延迟，使得到第一客户端设备的视频传输与模拟的第一音频传输到第一客户端设备的传输同步。

在一些实施例中，从第二客户端设备接收第一音频传输(例如，步骤702)还包括：从第二客户端设备接收(742)第一音频传输的两个或两个以上的音频包，其中，该两个或两个以上的音频包已根据两个或两个以上的音频包的相应的时间戳依序从第二客户端设备发送，且其中，每个相应的时间戳指示在第一音频传输中识别的对应的音频段的开始时间。在一些实施例中，服务器可不按顺序接收两个或两个以上的音频包，且服务器根据时间戳将音频包重新布置。在一些实施例中，服务器不基于接收到的包的相应的时间戳对接收到的包进行排序，而是在已获得音频段中的至少两个的翻译之后，服务器仅基于两个或两个以上的音频包的相应的时间戳来对两个或两个以上的音频包中的音频段的翻译进行排序。在一些实施例中，获得第一音频传输从源语言到目标语言的翻译并将目标语言的第一音频传输的翻译发送给第一客户端设备(例如，步骤708和步骤710)还包括：根据两个或两个以上的音频包的相应的时间戳，依序获得(744)两个或两个以上的音频包从源语言到目标语言的相应翻译；以及在完成两个或两个以上的音频包中的至少一个的第一翻译之后并在完成两个或两个以上的音频包中的至少另一个的翻译之前，将所述第一翻译发送(746)给第一客户端设备。

在一些实施例中，服务器在从第一客户端设备接收第一音频传输的同时接收(748)第一视频传输，其中，第一视频传输用与两个或两个以上的音频包相同的时间戳集标记；并将具有相同的时间戳集的第一视频传输和第一音频传输中的两个或两个以上的音频包的相应翻译发送(750)给第一客户端设备，使得第一客户端设备根据相同的时间戳集同步呈现第一音频传输的两个或两个以上的音频包的相应翻译和第一视频传输。在一些实施例中，服务器例如通过用于音频和/或视频通信会话的专用网络连接，从第一客户端设备接收连续音频流和连续视频流。服务器逐个地从连续音频流中提取出音频段(例如，基于对连续音频流中体现的连续语音输入中的预定义中断的检测)。举例来说，服务器为每个识别的音频段生成音频包，并在检测到音频段的结尾时将音频包(例如，与连续音频流相对)发送给翻译服务器或服务器侧翻译模块，而服务器继续接收音频和视频流。在一些实施例中，服务器将视频流作为连续视频流传输到第二客户端设备，并将音频包的翻译作为音频和文本数据包传输到第二客户端设备，其中，第二客户端设备同步视频的呈现和音频包的翻译。在一些实施例中，服务器在视频流的适当位置处插入音频包的翻译，并将具有嵌入式翻译的视频流发送给第一客户端设备。

应理解，图7A到图7F中描述操作的特定顺序仅是示范性的，并非意在指示所描述的顺序是可执行操作的唯一顺序。所属领域的一般技术人员将认识到各种方式来对本文中所描述的操作进行重新排序。另外，应注意，本文中参照其它方法描述的其它过程和/或本文中所描述的过程的细节也能以与上述方法600类似的方式应用。

图8是示出根据一些实施例的与用户相关联的代表性客户端设备104的框图。客户端设备104通常包括一个或多个处理单元(central processing unit，CPU)802、一个或多个网络接口804、存储器806，以及用于互连这些组件(有时称为芯片组)的一个或多个通信总线808。客户端设备104还包括用户接口810。用户接口810包括实现媒体内容的呈现的一个或多个输出设备812，包括一个或多个扬声器和/或一个或多个视觉显示器。用户接口810还包括一个或多个输入设备814，包括便于用户输入的用户接口组件，例如键盘、鼠标、话音命令输入单元或麦克风、触摸屏显示器、触敏式输入垫、手势捕获摄像头，或其它输入按钮或控制件。此外，一些客户端设备104使用麦克风和话音识别或摄像头和手势识别来补充或替换键盘。在一些实施例中，客户端设备104还包括传感器，所述传感器提供关于客户端设备104的当前状态或与客户端设备104相关联的环境条件的背景信息。传感器包括但不限于一个或多个麦克风、一个或多个摄像头、环境光传感器、一个或多个加速度计、一个或多个陀螺仪、GPS定位系统、蓝牙或BLE系统、温度传感器、一个或多个运动传感器、一个或多个生物传感器(例如，皮肤电阻传感器、脉搏血氧定量计等等)，以及其它传感器。存储器806包括高速随机存取存储器，例如DRAM、SRAM、DDR RAM或其它随机存取固态存储器设备；以及任选地，包括非易失性存储器，例如一个或多个磁盘存储设备、一个或多个光盘存储设备、一个或多个快闪存储器设备，或一个或多个其它非易失性固态存储设备。存储器806任选地包括位置上远离一个或多个处理单元802的一个或多个存储设备。存储器806，或替代地，存储器806内的非易失性存储器包括非暂时性计算机可读存储介质。在一些实施例中，存储器806或存储器806的非暂时性计算机可读存储介质存储以下程序、模块和数据结构，或所述程序、模块和数据结构的子集或超集：

●操作系统816，包括用于处理各种基本系统服务和用于执行依赖于硬件的任务的程序；

●网络通信模块818，用于将客户端设备104连接到经由一个或多个网络接口804(有线或无线)连接到一个或多个网络110的其它计算设备(例如，服务器系统108)；

●呈现模块820，用于实现经由与用户接口810相关联的一个或多个输出设备812(例如，显示器、扬声器等等)呈现客户端设备104处的信息(例如，用于应用程序或社交网络平台的用户界面、小组件、网站和网站网页，和/或游戏、音频和/或视频内容、文本等等)；

●输入处理模块822，用于检测来自一个或多个输入设备814中的一个或多个用户输入或交互，并解译检测到的输入或交互；

●一个或多个应用程序824，所述应用程序由客户端设备104执行(例如，游戏、应用程序市场、支付平台，和/或其它网络或非基于网络的应用程序)；

●客户端侧模块102，所述客户端侧模块提供用于实时音频/视频通信的客户端侧数据处理和功能，包括但不限于：

○数据传输模块826，用于将音频/视频/文本数据传输到服务器和其它客户端设备并传输来自服务器和其它客户端设备的音频/视频/文本数据；

○翻译模块828，用于将音频或文本从一种语言翻译成另一种语言；

○语音识别模块830，用于对语音音频输入执行语音转文本转换；

○呈现模块832，用于以音频和/或文本形式呈现原始音频/视频和/或翻译；

○确定模块834，用于确定目标语言，并确定客户端设备的目标语言是否与针对客户端设备设置的默认语言相同；

○获得模块836，用于获得客户端设备的当前语言属性；和

○其它模块838，用于执行本文中阐述的其它功能。

上文识别的元件中的每一个可存储在先前提及的存储器设备中的一个或多个中，并对应于用于执行上述功能的指令集。上文识别的模块或程序(即，指令集)无需实施为单独的软件程序、程序、模块或数据结构，因此这些模块的各种子集可在各种实施例中组合或以其它方式重新布置。在一些实施例中，存储器806任选地存储上文识别的模块和数据结构的子集。此外，存储器806任选地存储上文未描述的额外模块和数据结构。

图9是示出根据一些实施例的服务器系统108的框图。服务器系统108通常包括一个或多个处理单元(central processing unit，CPU)902、一个或多个网络接口904(例如，包括到一个或多个客户端114的I/O接口和到一个或多个外部服务的I/O接口)、存储器906和用于互连这些组件(有时称为芯片组)的一个或多个通信总线908。服务器108还任选地包括用户接口910。用户接口910包括实现信息的呈现的一个或多个输出设备912和实现用户输入的一个或多个输入设备914。存储器906包括高速随机存取存储器，例如DRAM、SRAM、DDRRAM或其它随机存取固态存储器设备；以及任选地，包括非易失性存储器，例如一个或多个磁盘存储设备、一个或多个光盘存储设备、一个或多个快闪存储器设备，或一个或多个其它非易失性固态存储设备。存储器906任选地包括位置上远离一个或多个处理单元902的一个或多个存储设备。存储器906，或替代地，存储器906内的非易失性存储器包括非暂时性计算机可读存储介质。在一些实施例中，存储器906或存储器906的非暂时性计算机可读存储介质存储以下程序、模块和数据结构，或所述程序、模块和数据结构的子集或超集：

●操作系统916，包括用于处理各种基本系统服务和用于执行依赖于硬件的任务的程序；

●网络通信模块918，用于将服务器系统108连接到经由一个或多个网络接口904连接到一个或多个网络110的其它计算设备(例如，客户端设备104和外部服务)(有线或无线)；

●呈现模块920，用于实现信息的呈现；

●输入处理模块922，用于检测来自一个或多个输入设备814中的一个或多个用户输入或交互，并解译检测到的输入或交互；

●一个或多个服务器应用程序924，用于管理服务器操作；

●服务器侧模块106，所述服务器侧模块提供用于有助于客户端设备之间的音频/视频通信的服务器侧数据处理和功能，包括但不限于：

○数据传输模块926，用于将音频/视频/文本数据传输到服务器和其它客户端设备并传输来自服务器和其它客户端设备的音频/视频/文本数据；

○翻译模块928，用于将音频或文本从一种语言翻译成另一种语言；

○语音识别模块930，用于对语音音频输入执行语音转文本转换；

○获得模块932，用于获得客户端设备的当前语言属性；

○确定模块934，用于确定目标语言，并确定客户端设备的目标语言是否与针对客户端设备设置的默认语言相同；

○音频/视频处理模块936，用于分别处理用于音频处理和视频处理的输入流；和

○其它模块938，用于执行本文中阐述的其它功能。

上文识别的元件中的每一个可存储在先前提及的存储器设备中的一个或多个中，并对应于用于执行上述功能的指令集。上文识别的模块或程序(即，指令集)无需实施为单独的软件程序、程序或模块，因此这些模块的各种子集可在各种实施例中组合或以其它方式重新布置。在一些实施例中，存储器906任选地存储上文识别的模块和数据结构的子集。此外，存储器906任选地存储上文未描述的额外模块和数据结构。

在一些实施例中，服务器系统108的功能中的至少一些由客户端设备104执行，且这些功能的对应的子模块可位于客户端设备104而非服务器系统108内。在一些实施例中，客户端设备104的功能中的至少一些由服务器系统108执行，且这些功能的对应的子模块可位于服务器系统108而非客户端设备104内。图1到图5中分别示出的客户端设备104和服务器系统108仅为说明性的，且在各种实施例中，用于实施本文中所描述的功能的模块的不同配置是可能的。

虽然上文描述了特定实施例，但应理解，并不旨在将本申请案限制于这些特定实施例。相反，本申请案包括在所附权利要求的精神和范围内的替代、修改、和等同物。阐述了许多特定细节以提供对本文提出的主题的透彻理解。但是对于所属领域的普通技术人员来说显而易见的是，可以在没有这些具体细节的情况下实践主题。在其它情况下，未详细描述众所周知的方法、程序、组件、和电路，以免不必要地混淆实施例的各方面。

Claims

1.一种处理网络上的音频通信的方法，其特征在于，在第一客户端设备处，所述第一客户端设备通过所述网络与第二客户端设备建立音频和/或视频通信会话，在所述音频和/或视频通信会话期间，所述方法包括：

接收来自所述第二客户端设备的第一音频传输，其中，所述第一音频传输由所述第二客户端设备以源语言提供，所述源语言不同于与所述第一客户端设备相关联的默认语言；

获得所述第一客户端设备的一个或多个当前用户语言属性，其中，所述一个或多个当前用户语言属性用于指示所述第一客户端设备处的所述音频和/或视频通信会话的当前语言；

根据所述一个或多个当前用户语言属性确定目标语言，所述目标语言为推荐用于当前所述第一客户端设备处的语言；

若所述目标语言不同于所述默认语言，获得所述第一音频传输从所述源语言到所述目标语言的翻译；

将所述翻译呈现给所述第一客户端设备处的用户；

获得所述第一音频传输中的话音的声音特性；

当服务器负载高于预定义阈值时，根据原始的第一音频传输的声音特性的小子集生成的话音提供模拟的第一音频传输；

当服务器负载低于预定义阈值时，根据原始的第一音频传输的声音特性的大子集生成的话音提供模拟的第一音频传输；

所述模拟的第一音频传输包括根据所述声音特性，以所述目标语言说出的所述翻译；

在所述音频和/或视频通信会话期间，所述方法还包括：

使用开始时间戳或结束时间戳同步所述第一客户端设备处所述视频的呈现和多个音频段的相应翻译，所述开始时间戳或结束时间戳是当在所述第二客户端设备处捕获连续语音输入时，使用所述第二客户端设备处的摄像头连续地捕获视频；所述第二客户端设备根据所述多个音频段相应的开始时间戳或结束时间戳对所述连续捕获的视频进行标记并发送给所述第一客户端设备。

2.根据权利要求1所述的方法，其特征在于，所述获得所述第一客户端设备的所述一个或多个当前用户语言属性，包括：

获得所述第一客户端设备处的所述用户的面部特征和获得所述第一客户端设备的地理位置信息；

所述根据所述一个或多个当前用户语言属性确定目标语言，包括：

根据所述面部特征和所述地理位置信息的组合确定所述目标语言。

3.根据权利要求1所述的方法，其特征在于，所述获得所述第一客户端设备的所述一个或多个当前用户语言属性，包括：

获得所述音频和/或视频通信会话期间，在所述第一客户端设备本地接收的音频输入；

在语言学上分析在所述第一客户端设备本地接收的所述音频输入，以将所述目标语言推荐为在所述第一客户端设备处使用的所述当前语言。

4.根据权利要求1所述的方法，其特征在于，所述将所述翻译呈现给所述第一客户端设备处的用户，包括：

将所述翻译的文本表示呈现给所述第一客户端设备处的所述用户；

呈现所述模拟的第一音频传输。

5.根据权利要求1所述的方法，其特征在于，在所述音频和/或视频通信会话期间，所述方法还包括：

检测位于所述第一客户端设备处的用户的连续语音输入；

将第一连续语音输入的开始时间标记为在所述第一客户端设备处检测到的第一音频段的开头；

检测所述第一客户端设备处的所述连续语音输入中的第一预定义中断；

响应于检测到所述连续语音输入中的所述第一预定义中断，将所述第一预定义中断的开始时间标记为在所述第一客户端设备处检测到的所述第一音频段的结尾，其中，所述第一音频段包括在发送给所述第二客户端设备的第二音频传输中。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

在检测到所述连续语音输入中的所述第一预定义中断之后，生成第一音频包，所述第一音频包包括所述第一音频段；

将所述第一音频包作为所述第二音频传输的第一部分发送给所述第二客户端设备；

在生成所述第一音频包并发送所述第一音频包时：

继续检测位于所述第一客户端设备处的所述用户的所述连续语音输入，其中，在生成并发送所述第一音频包时检测到的所述连续语音输入中的至少一部分作为所述第二音频传输的第二部分包括在所述第二音频传输中。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

将包括所述第一音频段和第二音频段的多个音频段翻译成所述源语言，以便在所述第二客户端设备处呈现。

8.根据权利要求5所述的方法，其特征在于，在所述音频和/或视频通信会话期间，所述方法还包括：

识别连续语音输入中的多个音频段；

为所述多个音频段中的每一个生成相应的音频包；以及

根据所述音频段的相应的开始时间戳，依序将所述多个音频段相应的音频包发送给所述第二客户端设备。

9.一种用于电子设备中的信息处理设备，充当已通过网络与第二客户端设备建立音频和/或视频通信会话的第一客户端设备，其特征在于，在所述音频和/或视频通信会话期间，所述信息处理设备包括：

用于接收来自所述第二客户端设备的第一音频传输的构件，其中，所述第一音频传输由所述第二客户端设备以源语言提供，所述源语言不同于与所述第一客户端设备相关联的默认语言；

用于获得所述第一客户端设备的一个或多个当前用户语言属性的构件，其中，所述一个或多个当前用户语言属性用于指示所述第一客户端设备处的所述音频和/或视频通信会话的当前语言；

用于根据所述一个或多个当前用户语言属性确定目标语言，所述目标语言为推荐用于当前所述第一客户端设备处的语言；若所述目标语言不同于与所述第一客户端设备相关联的所述默认语言，进行以下操作的构件：

获得所述第一音频传输从所述源语言到所述目标语言的翻译；

将所述翻译呈现给所述第一客户端设备处的用户；

获得所述第一音频传输中的话音的声音特性；

在所述音频和/或视频通信会话期间，还包括：

10.一种电子设备，充当已通过网络与第二客户端设备建立音频和/或视频通信会话的第一客户端设备，其特征在于，包括：

一个或多个处理器；

存储器；和

一个或多个程序，其中，所述一个或多个程序存储在所述存储器中且被配置成由所述一个或多个处理器执行，所述一个或多个程序包括用于执行权利要求1到8中任一项所述的方法的指令。

11.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令在由具有一个或多个处理器的电子设备执行时致使所述设备在通过网络与第二客户端设备建立音频和/或视频通信会话的第一客户端设备处，在所述音频和/或视频通信会话期间，执行权利要求1到8中任一项所述的方法。

12.一种电子设备，充当已通过网络与第二客户端设备建立音频和/或视频通信会话的第一客户端设备，其特征在于，包括：

用于执行权利要求1到8中任一项所述的方法的构件。

13.一种信息处理设备，用于具有显示器和触敏表面的电子设备中，其特征在于，包括：

用于执行权利要求1到8中任一项所述的方法的构件。

14.一种处理网络上的音频通信的方法，其特征在于，在服务器处，第一客户端设备通过所述网络与第二客户端设备建立音频和/或视频通信会话，在所述音频和/或视频通信会话期间，所述方法包括：

若所述目标语言不同于与所述第一客户端设备相关联的所述默认语言，获得所述第一音频传输从所述源语言到所述目标语言的翻译；

将所述翻译发送给所述第一客户端设备，其中，将所述翻译呈现给所述第一客户端设备处的用户；

获得所述第一音频传输中的话音的声音特性；

在所述音频和/或视频通信会话期间，还包括：

第一客户端设备使用开始时间戳或结束时间戳同步所述第一客户端设备处所述视频的呈现和多个音频段的相应翻译，所述开始时间戳或结束时间戳是当在所述第二客户端设备处捕获连续语音输入时，使用所述第二客户端设备处的摄像头连续地捕获视频；所述第二客户端设备根据所述多个音频段相应的开始时间戳或结束时间戳对所述连续捕获的视频进行标记并发送给所述第一客户端设备。

15.根据权利要求14所述的方法，其特征在于，所述获得所述一个或多个当前用户语言属性，包括：

从所述第一客户端设备接收所述当前用户的面部特征和所述第一客户端设备的当前地理位置；

确定所述面部特征与所述当前地理位置之间的关系；

当确定所述关系符合预定义准则时，确定所述目标语言。

16.根据权利要求14所述的方法，其特征在于，所述获得所述一个或多个当前用户语言属性，包括：

从所述第一客户端设备接收已在所述第一客户端设备本地接收到的音频消息；

分析所述音频消息的语言特性，得到分析结果；

根据所述分析结果，确定所述目标语言。

17.根据权利要求14所述的方法，其特征在于，所述将所述翻译发送给所述第一客户端设备处的用户，包括：

将所述翻译的文本表示发送给所述第一客户端设备；

将所述模拟的第一音频传输发送给所述第一客户端设备。

18.根据权利要求15所述的方法，其特征在于，所述接收来自所述第二客户端设备的第一音频传输，包括：

从所述第二客户端设备接收所述第一音频传输的多个音频包，其中，所述多个音频包已根据所述多个音频包的相应的时间戳依序从所述第二客户端设备发送，其中，每个相应的时间戳指示在所述第一音频传输中识别的对应的音频段的开始时间。

19.根据权利要求18所述的方法，其特征在于，所述获得所述第一音频传输从所述源语言到所述目标语言的翻译，包括：

根据所述多个音频包的所述相应的时间戳，依序获得所述多个音频包从所述源语言到所述目标语言的相应翻译；

所述将所述翻译发送给所述第一客户端设备，包括：

在完成所述多个音频包中的至少一个的第一翻译之后并在完成所述多个音频包中的至少另一个的翻译之前，将所述第一翻译发送给所述第一客户端设备。

20.根据权利要求18所述的方法，其特征在于，所述方法还还包括：

在接收来自所述第一客户端设备的所述第一音频传输的同时，接收第一视频传输，其中，所述第一视频传输用与所述多个音频包相同的时间戳集标记；

将具有所述相同的时间戳集的所述第一视频传输和所述第一音频传输中的所述多个音频包的相应翻译发送给所述第一客户端设备，使得所述第一客户端设备根据所述相同的时间戳集同步呈现所述第一音频传输的所述多个音频包的相应翻译和所述第一视频传输。

21.一种用于电子设备中的信息处理设备，所述电子设备充当服务器，第一客户端设备通过所述服务器在网络上与第二客户端设备建立音频和/或视频通信会话，其特征在于，在所述音频和/或视频通信会话期间，所述信息处理设备包括：

用于根据所述一个或多个当前用户语言属性确定目标语言，所述目标语言为推荐用于当前所述第一客户端设备处的所述音频和/或视频通信会话的语言，若所述目标语言不同于与所述第一客户端设备相关联的所述默认语言，进行以下操作的构件：

获得所述第一音频传输中的话音的声音特性；

在所述音频和/或视频通信会话期间，还包括：

第一客户端使用开始时间戳或结束时间戳同步所述第一客户端设备处所述视频的呈现和多个音频段的相应翻译，所述开始时间戳或结束时间戳是当在所述第二客户端设备处捕获连续语音输入时，使用所述第二客户端设备处的摄像头连续地捕获视频；所述第二客户端设备根据所述多个音频段相应的开始时间戳或结束时间戳对所述连续捕获的视频进行标记并发送给所述第一客户端设备。

22.一种充当服务器的电子设备，第一客户端设备通过所述服务器在网络上与第二客户端设备建立音频和/或视频通信会话，其特征在于，包括：

一个或多个处理器；

存储器；和

一个或多个程序，其中，所述一个或多个程序存储在所述存储器中且被配置成由所述一个或多个处理器执行，所述一个或多个程序包括用于执行权利要求14到20中任一项所述的方法的指令。

23.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令在由具有一个或多个处理器的电子设备执行时致使所述设备在第一客户端设备通过所述服务器在网络上与第二客户端设备建立音频和/或视频通信会话，在所述音频和/或视频通信会话期间，执行权利要求14到20中任一项所述的方法。

24.一种充当服务器的电子设备，第一客户端设备通过所述服务器在网络上与第二客户端设备建立音频和/或视频通信会话，其特征在于，在所述音频和/或视频通信会话期间，所述电子设备包括：

用于执行权利要求14到20中任一项所述的方法的构件。

25.一种信息处理设备，用于具有显示器和触敏表面的电子设备中，其特征在于，包括：

用于执行权利要求14到20中任一项所述的方法的构件。