CN109286725B

CN109286725B - 翻译方法及终端

Info

Publication number: CN109286725B
Application number: CN201811198370.5A
Authority: CN
Inventors: 张鑫; 赵干
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-10-15
Filing date: 2018-10-15
Publication date: 2021-10-19
Anticipated expiration: 2038-10-15
Also published as: EP3852348A4; CN109286725A; US20210232777A1; EP3852348A1; US11893359B2; WO2020078336A1

Abstract

本申请公开了一种音频处理方法及终端，该方法可包括：第一终端采集第一用户的原音，并将其翻译为第一用户的译音，接收第二终端发送的第二用户的原音，并将其翻译为第二用户的译音；根据第一设置将第一用户的原音、译音、第二用户的译音中的至少一个发送给第二终端；根据第二设置播放第二用户的原音、译音、第一用户的译音中的至少一个。实施本申请，可以灵活地为通信双方提供不同的音频流。此外，可以实现通信时的自动双向翻译，让使用不同语言通话的双方正常交流。

Description

翻译方法及终端

技术领域

本申请涉及通信技术领域，特别涉及翻译方法及终端。

背景技术

随着通信技术的不断发展，越来越多的人们可以通过通信终端进行交流。随着用户越来越国际化，不同国家、不同语言的人们使用通信终端交流的需求也越来越多。但是，语言的差异给通话带来极大的不便。以中国和美国的用户通话为例，中国用户大多使用汉语，美国用户大多使用英语，语言不通成为两者之间交流的最大障碍。

为了让使用不同语言通话的双方能够和对方正常沟通，需要提出一种翻译方法，实现不同语言之间的转换，满足人们的通话需求。

发明内容

本申请提供了音频处理方法及终端，可以在通信时灵活地为用户提供不同的音频流，还可实现通信时的自动双向翻译。

第一方面，本申请提供一种音频处理方法，应用于第一终端，该方法可包括：第一终端采集第一用户的原音，获取第一用户的原音翻译得到的第一用户的译音，接收第二终端发送的第二用户的原音，获取第二用户的原音翻译得到的第二用户的译音；第一终端根据第一设置将第一译音和/或第一用户的原音发送给第二终端；第一终端根据第二设置播放第二译音和/或第二用户的原音；其中，第一译音包括：第一用户的译音和/或第二用户的译音；第二译音包括：第一用户的译音和/或第二用户的译音。

在第一方面的方法中，第一用户使用第一终端，第二用户使用第二终端。第一用户使用第一语言，第二用户使用第二语言，第一语言不同于第二语言。

实施第一方面的方法，在通信时，第一终端可以根据用户设置播放音频或者将音频发送给第二终端，可以灵活地为通信双方提供不同的音频流，从而使得通信双方听到自己希望听到的音频，可以提升通话过程中的用户体验。此外，只要有一端具有翻译能力，就可以实现通信时的自动双向翻译，可以让使用不同语言通话的双方正常交流。

结合第一方面，第一终端可以持续采集输入的音频流。第一终端可通过自带的麦克风采集输入的音频流，也可以通过第一终端外接的设备采集输入的音频流。这里，外接设备可以是带有麦克风的耳机，也可以是单独的麦克风。

在一些实施例中，第一终端具有通话静音功能。若第一用户开启了第一终端的通话静音功能，第一终端将暂停采集音频流。

结合第一方面，在一些实施例中，第一终端可以对持续采集到的音频流做降噪、回声抑制等处理。这样可以突出音频流中第一用户的原音，降低音频流中背景音或环境音对第一用户的原音的影响，可以保证后续的翻译质量。

结合第一方面，在一些实施例中，在采集到第一用户的原音后，第一终端可通过以下任意一种方式获取第一用户的译音：

(1)第一用户的译音由第一终端本地翻译得到。

可选的，第一终端可通过以下步骤对第一用户的原音做翻译处理：(a)语音识别。(b)文本校正。(c)翻译。(d)语音合成。

(2)第一终端将第一用户的原音发送给翻译服务器，由翻译服务器将第一用户的原音翻译为第一用户的译音后发送给第一终端。

翻译服务器是指具有翻译功能的服务器(例如Google的翻译服务器、微软的翻译服务器等)。翻译服务器对第一用户的原音做翻译处理的过程和第一终端对第一用户的原音做翻译处理相同，可参照相关描述。一些实施例中，翻译服务器对输入的音频流的格式有要求，因此，第一终端可对采集到的音频流做编码、重采样等处理，得到符合格式要求的音频流后再将其发送给翻译服务器。一些实施例中，翻译服务器返回给第一终端的译音可能经过压缩，因此，第一终端接收到第一用户的译音后，可对其做解码、重采样等处理。

结合第一方面，第二终端也可以持续采集第二用户的原音，并将第二用户的原音发送给第一终端。第二终端采集第二用户的原音的过程和第一终端采集第一用户的原音的过程相同，可参照相关描述。

结合第一方面，在接收到第二用户的原音后，第一终端可获取第二用户的原音翻译得到的第二用户的译音。和第一用户的译音类似，第二用户的译音可以由第一终端本地翻译得到，或者，由翻译服务器将第二用户的原音翻译为第二用户的译音后发送给第一终端，可参照前文相关描述。

结合第一方面，在一些实施例中，第一设置反映第二终端的通话模式。第二终端的通话模式包括：第二用户能否听到第一用户的原音、第一用户的译音、第二用户的译音等。这里，第二终端的通话模式可以由第一用户在第一终端中设置，也可以由第一终端默认设置。

第一终端可根据第一设置确定第一译音的具体内容。

结合第一方面，在一些实施例中，第一终端同时获取到第一用户的译音和第二用户的译音时，且第一译音包括第一用户的译音和第二用户的译音时，第一译音具体为第一终端将第一用户的译音和第二用户的译音拼接或者重叠后得到的第一混音。

第一终端可根据第一设置确定发送给第二终端的音频的具体内容。

结合第一方面，在一些实施例中，当第一终端同时获取到第一译音和第一用户的原音，且第一设置中设置发送第一译音和第一用户的原音时，第一终端根据第一设置将第一译音和/或第一用户的原音发送给第二终端，包括：第一终端将第一译音和第一用户的原音拼接或者重叠后得到的第二混音发送给第二终端。

结合第一方面，在一些实施例中，第二设置反映第一终端的通话模式。第一终端的通话模式包括：第一用户能否听到第二用户的原音、第二用户的译音、第一用户的译音等。这里，第一终端的通话模式可以由第一用户在第一终端中设置，也可以由第一终端默认设置。

第一终端可根据第二设置确定第二译音的具体内容。

结合第一方面，在一些实施例中，第一终端同时获取到第一用户的译音和第二用户的译音时，且第二译音包括第一用户的译音和第二用户的译音时，第二译音具体为第一终端将第一用户的译音和第二用户的译音拼接或者重叠后得到的第一混音。

第一终端可根据第二设置确定所播放音频的具体内容。

结合第一方面，在一些实施例中，当第一终端同时获取到第二译音和第二用户的原音，且第二设置中设置播放第二译音和第二用户的原音时，第一终端根据第二设置播放第二译音和/或第二用户的原音，包括：第一终端播放将第二译音和第二用户的原音拼接或者重叠后得到的第三混音，播放第三混音。

在一些实施例中，第一终端具有播放静音功能。若第一用户开启了第一终端的播放静音功能，第一终端将不再播放音频，或者，第一终端持续播放音频，但播放音频时的音量大小为0。

第二方面，本申请提供了一种第一终端，该第一终端可包括：音频流采集单元、调制解调单元、翻译引擎、翻译混音单元、上行混音单元和下行混音单元，其中，音频流采集单元连接翻译引擎和上行混音单元，调制解调单元连接翻译引擎和下行混音单元，翻译混音单元连接翻译引擎、上行混音单元和下行混音单元，其中：

音频流采集单元，用于采集第一用户的原音；

调制解调单元，用于解调第二用户的原音，第二用户的原音由第二终端发送给第一终端；

翻译引擎，用于将第一用户的原音翻译为第一用户的译音；还用于将第二用户的原音翻译为第二用户的译音；

翻译混音单元，用于接收翻译引擎输出的第一用户的译音和/或第二用户的译音，还用于根据第一设置将第一译音发送给上行混音单元；根据第二设置将第二译音发送给下行混音单元；其中，第一译音包括：第一用户的译音和/或第二用户的译音；第二译音包括：第一用户的译音和/或第二用户的译音；

上行混音单元，用于根据第一设置输出第一译音和/或第一用户的原音；

下行混音单元，用于根据第二设置输出第二译音和/或第二用户的原音；

结合第二方面，音频流采集单元可以持续采集输入的音频流。在一些实施例中，音频流采集单元可以是单独的麦克风。

结合第二方面，在一些实施例中，调制解调单元可以为调制解调器(modem)。

结合第二方面，在一些实施例中，翻译引擎可以在第一终端本地执行翻译操作，也可以将原音发送给翻译服务器，接收翻译服务器翻译原音后得到的译音。

第一设置和第二设置可参照第一方面的相关描述。

第一译音的具体内容和第一方面中的第一译音相同，第二译音的具体内容和第一方面中的第二译音相同，可参照相关描述。

结合第二方面，在一些实施例中，当翻译混音单元同时获取到第一用户的译音和第二用户的译音时，且根据第一设置第一译音包括第一用户的译音和第二用户的译音时，翻译混音单元具体用于将第一用户的译音和第二用户的译音拼接或者重叠后得到第一混音，将第一混音发送给上行混音单元。

结合第二方面，在一些实施例中，所述翻译混音单元同时获取到第一用户的译音和所述第二用户的译音时，且根据第二设置第二译音包括第一用户的译音和第二用户的译音时，翻译混音单元具体用于将第一用户的译音和第二用户的译音拼接或者重叠后得到第一混音，将第一混音发送给所述下行混音单元。

结合第二方面，在一些实施例中，当上行混音单元同时获取到第一译音和第一用户的原音，且第一设置中设置发送第一译音和第一用户的原音时，上行混音单元用于根据第一设置输出第一译音和/或第一用户的原音包括：上行混音单元用于将第一译音和第一用户的原音拼接或者重叠后得到第二混音，输出第二混音。

结合第二方面，在一些实施例中，当下行混音单元同时获取到第二译音和第二用户的原音，且第二设置中设置播放第二译音和第二用户的原音，下行混音单元用于根据第二设置输出第二译音和/或第二用户的原音包括：下行混音单元用于将第二译音和第二用户的原音拼接或者重叠后得到第三混音，输出第三混音。

结合第二方面，在一些实施例中，第一终端还可包括：上行通道和播放设备。上行通道连接上行混音单元，播放设备连接下行混音单元。上行通道用于将上行混音单元输出的第一译音和/或第一用户的原音发送给第二终端；播放设备用于播放下行混音单元输出的第二译音和/或第二用户的原音。上行通道可以实现为天线、移动通信模块、无线通信模块等。播放设备可包括：扬声器、听筒、耳机等。

结合第二方面，在一些实施例中，第一终端还可包括：显示单元。显示单元用于显示第一用户的原文、第一用户的译文、第二用户的原文、第二用户的译文。

结合第二方面，在一些实施例中，第一终端还可包括：音效处理单元，用于对持续采集到的音频流做降噪、回声抑制等处理。

结合第二方面，在一些实施例中，第一终端还可包括：静音控制单元，用于根据用户操作开启/关闭第一终端的通话静音功能。

结合第二方面，在一些实施例中，第一终端还可包括：播放设备选择单元，用于选择第一终端中用于播放下行混音单元输出的音频的设备。

第三方面，本申请提供一种第一终端，包括：一个或多个处理器、一个或多个存储器；所述一个或多个存储器与所述一个或多个处理器耦合，所述一个或多个存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，所述终端执行如第一方面提供的音频处理方法。

第四方面，本申请提供了一种计算机存储介质，包括计算机指令，当所述计算机指令在终端上运行时，使得所述终端执行如第一方面提供的音频处理方法。

第五方面，本申请提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如第一方面的音频处理方法。

实施本申请，在通信时，第一终端可以根据用户设置播放音频或者将音频发送给第二终端，可以灵活地为通信双方提供不同的音频流，从而使得通信双方听到自己希望听到的音频，可以提升通话过程中的用户体验。此外，只要有一端具有翻译能力，就可以实现通信时的自动双向翻译，可以让使用不同语言通话的双方正常交流。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1为用户通信时的场景示意图；

图2-图5为本申请提供的人机交互示意图；

图6A为本申请提供的终端100处理用户1的译音的流程示意图；

图6B为本申请提供的终端100处理用户2的译音的流程示意图；

图6C为本申请提供的终端100接收用户1的译音和用户2的译音时的场景示意图；

图6D为本申请提供的终端100处理用户1的译音和用户2的译音的流程示意图；

图7为本申请提供的终端100的上行混音流程示意图；

图8为本申请提供的终端100的下行混音流程示意图；

图9-图10为本申请提供的人机交互示意图；

图11为本申请提供的一种音频处理模块的结构示意图；

图12为本申请提供的终端100的结构示意图；

图13为本申请提供的终端100的软件结构框图；

图14为本申请提供的音频处理方法的流程示意图；

图15为本申请提供的第一终端的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本申请提供的翻译方法可以应用于如图1所示的场景，两个用户(用户1和用户2)使用终端(终端100和终端200)通信，该两个用户使用不同的语言，终端之间基于通信网络互联。本申请的翻译方法为双向翻译，即可以将通信双方的语言翻译为对方的语言，使得双方可以无障碍交流。这里，为了描述清楚，图1仅仅示出了两个用户通信的场景，具体实现中，不限于两个用户，本申请还可应用于多个用户使用终端通信的场景。

其中，该通信网络可以是局域网，也可以是通过中继(relay)设备转接的广域网。当该通信网络为广域网时，示例性的，该通信网络可以是第二代移动通信技术(the secondgeneration mobile communication technology，2G)网络(例如全球移动通信系统(global system for mobile communication，GSM))、第三代移动通信技术(3rd-generation wireless telephone technology，3G)网络、第四代移动通信技术(the 4thgeneration mobile communication technology，4G)网络、第五代移动通信技术(5th-generation mobile communication technology，5G)网络、未来演进的公共陆地移动网络(public land mobile network，PLMN)或因特网等。当该通信网络为局域网时，示例性的，该通信网络可以是wifi热点网络、wifi直连网络、蓝牙网络、zigbee网络或近场通信(nearfield communication，NFC)网络等近距离通信网络。在图1所示的场景中，终端100和终端200之间的通信连接可以由任意一方发起，在另一方接受后建立，还可以由任意一方终止。终端100和终端200之间可以通过通信网络通信，例如进行语音通话、文本通话或者视频通话等。

在如图1所示的场景中，用户1和用户2使用不同的语言。例如，用户1可使用汉语，用户2可使用英语、法语、俄语、西班牙语等。以下实施例将以用户1使用汉语，用户2使用英语为例，对本申请提供的翻译方法进行说明。

在如图1所示的场景中，终端100具有翻译能力，终端200可以具有翻译能力，也可以不具有翻译能力。其中，终端具有翻译能力是指：终端可以本地将一种语言翻译为另一种语言，或者，终端可以通过网络将一种语言发送至具有翻译功能的服务器(例如Google的翻译服务器、微软的翻译服务器等)，由服务器将该语言翻译为另一种语言后发送给该终端。上述提及的将一种语言翻译为另一种语言可以包括：将本端用户使用的语言翻译为对端用户使用的语言，以及，将对端用户使用的语言翻译为本端用户使用的语言。

在一些实施例中，当终端没有本地翻译能力且无法通过网络连接翻译服务器(例如终端为不能上网的非智能机或固定电话，或者，终端无法处于无网络区域等)时，该终端不具有翻译能力。这里，将一种语言翻译为另一种语言可包括：将一种语言的语音翻译为另一种语言的语音，或者，将一种语言的文字翻译为另一种语言的文字，或者，将一种语言的语音翻译为另一种语言的文字，或者，将一种语言的文字翻译为另一种语言的语音。

本申请中，在互联的多个终端中，有一方具有翻译能力或使用翻译能力，使用该多个终端通话的用户之间就可以正常沟通。在一方具有翻译能力时，互联的多个终端使用其的翻译能力进行通信，在多方具有翻译能力时，可由多个终端协商使用哪一个终端的翻译能力进行通信。

下面将基于图1所示的场景，结合附图和实际的应用场景，对本申请提供的翻译方法进行说明。

应用场景1：用户1和用户2通过终端进行语音通话，用户1使用汉语，用户2使用英语，双方使用终端100的翻译能力实现自动的双向翻译。其中，用户1使用终端100，用户2使用终端200。为了便于理解，下面以应用场景1中，用户1和用户2通话时的语音都被转换为文字展示在各自的终端界面上为例进行说明。在一些实施例中，终端100和/或终端200具有将语音转换为对应的文字的能力，例如，将汉语语音转换为汉语文字、将英语语音转换为英语文字等。这里，终端具有将语音转换为对应的文字的能力是指：终端可以根据终端本身的功能将语音为文字，或者，终端可以通过网络将语音发送至具有转换能力的服务器，由服务器将该语音转换为文字后发送给该终端。

在用户1和用户2进行语音通话之前，终端100和终端200之间需建立通信连接。举例来说，图2的2a为终端100的显示屏显示的一个最近的通话记录界面10，该界面中可以包括状态栏201、可隐藏的导航栏202，还有多个联系人选项例如“用户2”203等。状态栏201中可以包括运营商的名称(例如中国移动)、时间、WiFi图标、信号强度和当前的剩余电量。导航栏202中可以包括后退(back)键、主屏幕(home)键和多任务键等。此外，可以理解的是，在其他一些实施例中，状态栏201中还可以包括蓝牙图标、闹钟图标和外接设备图标等。

示例性地，参见图2的2a和2b，其示出了终端100和终端200建立通信连接的场景。如图所示，终端100响应于用户1对2a所示的最近的通话记录界面中“用户2”203的点击操作，显示如2b所示的语音呼叫界面，此时终端100请求和终端200建立通信连接。对应的，参见图2的2c，终端200接收到终端100的通信连接请求，显示如2c所示的界面。在用户2对2c所示的界面中的“接听”选项204输入操作(例如点击操作)后，终端100和终端200建立通信连接。

这里，不限于通过GSM网络进行语音呼叫的方式建立连接，终端100还可以通过其他方式请求和终端200建立通信连接，例如，可通过即时通讯应用(例如FaceTime、Skype、微信(WeChat)等)请求和终端200进行语音通话等。不限于终端100发起建立通信连接的请求，也可以由终端200发起建立通信连接的请求。

在一些实施例中，示例性地，参见图2的2d，终端100和终端200建立通信连接后，终端100可向用户1输出提示信息205，询问用户1是否开启自动双向翻译功能。示例性地，终端100响应于用户1对提示信息205中的选项“是”的点击操作后，终端100开启自动双向翻译功能。这里，在针对语音的自动双向翻译功能中，双向翻译是指，在用户1和用户2语音通话的过程中，终端100将来自用户1的中文语音翻译为英文语音或英文文本，将来自用户2的英文语音翻译为中文语音或中文文本。

可理解的，在其他实施例中，终端100可在和终端200建立通信连接之后，默认开启自动双向翻译功能。

示例性地，终端100和终端200建立通信连接，并且，终端100开启自动双向翻译功能之后，可显示如图3的3a所示的通话界面10。

在一些实施例中，该通话界面10可包括用于展示用户1和用户2之间语音通话时对应的文本的显示区域301。

在一些实施例中，该通话界面10还可包括通话模式的设置选项“设置通话模式”302。示例性地，参见图3中的3b，当终端100检测到用户作用于“设置通话模式”302的操作(例如点击操作)时，终端100显示如3b所示的设置界面20。该设置界面20可包括双方分别对应的多个通话模式选项。用户1可设置双方分别对应的通话模式。本申请中，可将用户1或用户2原始的音频流称为原音，将翻译后的音频流称为译音。还可将用户1或用户2的译音对应的文本称为译文。本申请中，对于终端100，还可以将用户1的原音称为上行原音，用户1的译音称为上行译音，用户2的原音称为下行原音，用户2的译音称为下行译音。

举例来说，针对用户1，其可选的通话模式可包括以下表1中的四种，可以理解地用户1的通话模式即终端100的通话模式：

表1

不限于表1中列出的几种通话模式，具体实现中，终端100还可提供更多的通话模式。例如，用户1可以仅听到用户2的原音和自己的译音等。

用户1可以根据自身的实际需求，为自己选择上述任意一种通话模式。其中，当用户1为自己选择模式1时，对于用户1来说是纯母语交流，可以通过自然的交流方式和用户2通话。当用户1为自己选择模式2时，可以根据对方的原音判断对方的语气，根据对方的译音了解对方的意图。当用户1为自己选择模式3时，可以听到自己的译音，若用户1有一定的英语基础，可以判断翻译后得到的译音的准确度，若该译音准确度较低，用户1可以重新发出原音或者通知用户2译音不准确，避免用户2误解。当用户1为自己选择模式4时，用户1可以判断自己译音的准确度，还可以判断用户2的语气。

对于终端100来说，在表1中的通话模式1下，终端100播放用户2的译音。在通话模式2下，终端100播放用户2的原音和译音。在通话模式3下，终端100播放用户1的译音和用户2的译音。在通话模式4下，终端100播放用户1的译音、用户2的原音和译音。

类似的，针对用户2，其可选的通话模式可包括以下表2中的四种，用户2的通话模式即终端200的通话模式：

表2

不限于表2中列出的几种通话模式，具体实现中，终端100还可提供更多的通话模式。例如，用户2可以仅听到用户2的原音和自己的译音等。

用户1可以根据实际需求，为用户2选择上述任意一种通话模式。其中，当用户1为用户2选择模式1时，对于用户2来说是纯母语交流，用户2可以通过自然的交流方式和用户1通话。当用户1为用户2选择模式2时，用户2可以根据用户1的原音判断对方的语气，根据用户1的译音了解对方的意图。当用户1为用户2选择模式3时，用户2可以听到自己的译音，若用户2有一定的中文基础，可以判断翻译后得到的译音的准确度，若该译音准确度较低，用户2可以重新发出原音或者通知用户1译音不准确，避免用户1误解。当用户1为用户2选择模式4时，用户2可以判断自己译音的准确度，还可以判断用户1的语气。

对于终端100来说，在表2中的通话模式1下，终端100将用户1的译音发送给终端200。在通话模式2下，终端100将用户1的原音和译音发送给终端200。在通话模式3下，终端100将用户1的译音和用户2的译音发送给终端200。在通话模式4下，终端100将用户2的译音、用户1的原音和译音发送给终端200。

可理解的，在一些实施例中，通信双方的通话模式还可由终端100默认设置。例如，终端100可默认为用户1选择表1的通话模式1，为用户2选择表2的通话模式1。

在一些实施例中，该通话界面10可包括语言设置选项“设置语言”306。示例性地，参见图3中的3c，当终端100检测到用户作用于“设置语言”306的操作(例如点击操作)时，终端100显示如3c所示的设置界面30。该设置界面30可包括通话双方分别对应的多个语言选项(例如汉语、英语、西班牙语等)。用户1可在多个语言选项中选择自己以及对方使用的语言。

可理解的，用户1可在获知用户2的母语时，可通过设置界面30为用户2选择对应的语言。在用户1为自己及用户2选择对应的语言后，终端100在后续的翻译过程中可以根据选择的语言，翻译双方的语音。例如，用户1使用汉语，用户2使用英语，终端100会本地或者通过翻译服务器将用户1的语言翻译为英语，将用户2的语言翻译为汉语。在一些实施例中，若用户1并不知道用户2的母语，则终端100可在接收到用户2的原音后，识别出用户2使用的语言。

在一些实施例中，该通话界面10可包括选项“拨号键盘”303。响应于用户1对“拨号键盘”303的点击操作，终端100可显示拨号键盘，以供用户1拨打其他用户的号码，和其他用户的终端建立通信连接。这里，当用户1拨打其他用户的号码时，可以是终止和用户2的通信连接后向其他用户请求建立通信连接，也可以是在保持和用户2的通信连接的同时向其他用户请求建立通信连接，即实现多方通话。

在一些实施例中，该通话界面10可包括选项“朗读对方译文”304。响应于用户1对“朗读对方译文”304的点击操作，终端100可开启“朗读对方译文”功能。开启“朗读对方译文”功能后，当终端100获取到用户2的译文时，终端100朗读该译文。终端100朗读译文时，先将译文合称为语音，再播放该语音。

在一些实施例中，该通话界面10可包括选项“朗读我的译文”305。响应于用户1对“朗读我的译文”305的点击操作，终端100可开启“朗读自己的译文”功能。开启“朗读自己的译文”功能后，当终端100获取到用户1的译文时，终端100朗读该译文。

在终端100中，“朗读对方译文”功能、“朗读自己的译文”功能和用户1的通话模式可以是并行的，互不影响。

终端100和终端200建立通信连接之后，用户1和用户2可以进行通话，下面通过一个具体的通话示例介绍应用场景1中的翻译过程。

在一些实施例中，终端100和终端200建立通信连接之后，终端100将持续采集输入的音频流，直至终端100和终端200之间的通信连接断开。这里，终端100可以通过自带的麦克风采集用户1输入的音频流，也可以通过终端100外接的设备采集用户1输入的音频流。这里，外接设备可以是带有麦克风的耳机，也可以是单独的麦克风。终端100采集的音频流可包括以下至少一项：用户1输入的语音、背景音或环境音。用户1输入的语音为用户1实际和用户2通话的内容，背景音或环境音是用户1所处通话环境周围的声音(例如鸟叫、汽车喇叭声等)。这里，用户1输入的语音即为用户1的原音。用户1在和用户2通话时，嘴巴会靠近麦克风，因此，大部分情况下用户1输入的语音的音量大小(可以通过分贝衡量)比背景音或环境音大。

在一些实施例中，终端100持续采集输入的音频流的过程中，用户1可以中断终端100采集音频流的过程。例如，用户1可以开启终端100的通话静音功能，开启通话静音功能后，终端100将暂停采集音频流。示例性地，参见图3的3a，通话界面10还可包括麦克风图标307，用户1可以点击麦克风图标307，响应于该点击操作，终端100将暂停采集音频流。进一步地，用户1可再次点击麦克风图标307，响应于该点击操作，终端100将恢复采集音频流。

在一些实施例中，终端100可以对持续采集到的音频流做降噪、回声抑制等处理。这样可以突出音频流中用户1输入的语音(即用户1的原音)，降低音频流中背景音或环境音对用户1输入的语音的影响，可以保证后续的翻译质量。

通过上述实施例，终端100可获取到原始的持续输入的音频流，或者，经过降噪、回声抑制等处理后的音频流。下面介绍终端100对获取到的音频流中用户1的原音做翻译处理的过程。

在一些实施例中，终端100可以对获取到的音频流做分割，得到一段段的音频流，并对分割后的一段段音频流做翻译处理。在一种可能的实施方式中，终端100可根据获取到的音频流的声音大小对其做分割。例如，当获取到的音频流中某一段音频流的声音分贝高于阈值时，将该段音频流单独分割出来，对其做翻译处理。在另一种可能的实施方式中，终端100可根据一定的时长对获取到的音频流做分割。例如，终端100可每隔5秒分割一段音频流，对每段音频流做翻译处理。

在一个具体的例子中，终端100通过自带的麦克风持续采集音频流，用户1向终端100输入中文语音“你好，我想买张机票”。终端100对采集到的音频流做降噪、回声抑制等处理，并分割出一段音频流。分割出的该段音频流包括用户1输入的中文语音“你好，我想买张机票”。

示例性地，参考图4的4a，终端100可将分割出的该段音频流中用户1输入的中文语音转换为中文文本“你好，我想买张机票”，并显示在终端100的通话界面10中的文本显示区域301中。可选的，终端100还可在文本显示区域301中显示用户1的头像或名字，用于标识该段中文文本对应的语音是用户1输入的。

终端100可通过以下任意一种方式对分割出的该段音频流做翻译处理：

(1)终端100本地对该段音频流做翻译处理。

具体的，终端100将一种语言的音频翻译为另一种语言的音频的过程可包括如下步骤：

(a)语音识别。具体的，终端100通过步骤1可将音频流中用户1的中文语音转换为中文文本。

(b)文本校正。具体的，终端100通过步骤2可将中文文本分解成句子，即断句。可选的，终端100还可通过步骤2为中文文本添加标点符号、去除中文文本中的不连贯字词(如“啊”、“嗯”及其他重复措辞等)等。通过步骤2，终端100可获取中文文本“你好，我想买张机票”。

(c)翻译。具体的，终端100可使用具有汉英互译功能的语言包翻译经过文本校正的中文文本，得到英文文本“hello，I want to buy a ticket”，即用户1的译文。这里，终端100可根据当前设置的双方语言选择对应的语言包。例如，参见图3实施例的3c，终端100当前的语言设置中，用户1使用汉语，用户2使用英语，因此，终端100选择具有汉英互译功能的语言包执行步骤3。

(d)语音合成。具体的，终端100还可将翻译得到的英文文本合成为英文语音，即得到用户1的译音。

可理解的，通过步骤(b)(c)可以将一种语言的文本翻译为另一种语言的文本，通过步骤(a)-(c)可以将一种语言的音频翻译为另一种语言的文本，通过步骤(b)-(d)，可以将一种语言的文本翻译为另一种语言的音频，通过步骤(a)-(d)，可以将一种语言的音频翻译为另一种语言的音频。

(2)终端100通过翻译服务器(例如Google的翻译服务器、微软的翻译服务器等)对该段音频流做翻译处理。

在一种实施方式中，终端100可以直接将将该段音频流发送给翻译服务器，并由翻译服务器翻译该段音频流。一些实施例中，翻译服务器对输入的音频流的格式有要求，因此，终端100可对该段音频流做编码、重采样等处理，得到符合格式要求的音频流后再将其发送给翻译服务器。这里，翻译服务器将一种语言的音频翻译为另一种语言的音频的过程可包括上述步骤：(a)语音识别。(b)文本校正。(c)翻译。(d)语音合成。

在另一种实施方式中，可由终端100执行上述步骤(a)，并将语音识别得到的中文文本发送给翻译服务器，由翻译服务器执行上述步骤(b)(c)(d)。

在另一种实施方式中，可由终端100执行上述步骤(a)，(d)，并将语音识别得到的中文文本发送给翻译服务器，由翻译服务器执行上述步骤(b)(c)。

翻译服务器获取到用户1的译文或用户1的译音后，可将用户1的译文或用户1的译音发送给终端100。一些实施例中，翻译服务器返回给终端100的英文译音可能经过压缩，因此，终端100接收到英文译音后，可对其做解码、重采样等处理。

通过上述(1)或(2)中任意一种翻译方式，终端100可以获取到翻译后的英文文本和/或英文语音，即用户1的译文和/或译音。在获取到用户1的译文或译音后，终端100可根据用户1设置的通话模式，对用户1的译文和/或译音做对应的处理。

示例性地，参考图4的4b，在一些实施例中，若终端100获取到用户1的译文，可将用户1的译文“hello，I want to buy a ticket”显示在通话界面10的文本显示区域301中。若终端100选择播放用户1的译音(即在用户1当前的通话模式中用户1可以听到自己的译音)，或者，终端100开启了“朗读我的译文”功能，则终端100还可朗读英文文本，使得用户1听到自己的译音。

类似的，若终端100获取到用户1的译音，若终端100选择播放用户1的译音(即在用户1当前的通话模式中用户1可以听到自己的译音)，则终端100可播放该译音。参考图4的4b，若该译音通过上述第(1)种方式由终端100通过本地翻译得到，则终端100还可将步骤(c)中生成的英文文本“hello，I want to buy a ticket”显示在通话界面10的文本显示区域301中。示例性地，若该译音由翻译服务器发送给终端100，则终端100还可将该译音转换为英文文本“hello，I want to buy a ticket”后显示在通话界面10的文本显示区域301中，参考图4的4b。进一步地，若终端100开启了“朗读我的译文”功能，则终端100还可朗读该英文文本，使得用户1听到自己的译音。

这里，终端100可通过听筒、扬声器或耳机等装置播放用户1的译音。

示例性地，终端200和终端100建立通信连接之后，终端200可显示如图5的5a所示的通话界面50。该通话界面50可包括用于展示用户2和用户1之间语音通话时对应的文字的显示区域501。

这里，在一些实施例中，由于用户1和用户2通话时，借用的是终端100的翻译能力，因此，终端100可用于设置通话双方的语言以及通话模式，终端200不用于设置双方的语言及通话模式。

在一些实施例中，通话界面50可包括选项“拨号键盘”504。响应于用户2对“拨号键盘”504的点击操作，终端200可显示拨号键盘，以供用户2拨打其他用户的号码，和其他用户的终端建立通信连接。

在一些实施例中，通话界面50可包括选项“朗读对方译文”505。响应于用户2对“朗读对方译文”505的点击操作，终端200可开启“朗读对方译文”功能。开启“朗读对方译文”功能后，当终端200接收终端100发送的用户1的译文时，终端200可朗读该译文。终端200朗读译文时，先将译文合称为语音，再播放该语音。

在一些实施例中，通话界面50可包括选项“朗读我的译文”506。响应于用户2对“朗读我的译文”506的点击操作，终端200可开启“朗读我的译文”功能。开启“朗读我的译文”功能后，当终端200接收终端100发送的用户2的译文时，终端200可朗读该译文。

终端100在获取到原始的持续输入的音频流，或者，经过降噪、回声抑制等处理后的音频流后，可将该音频流通过通信连接发送给终端200。相应地，终端200可接收到该音频流。若在用户2当前的通话模式中，用户2可以听到用户1的原音，则终端200播放该音频流，用户2可以听到用户1的原音“你好，我想买张机票”。示例性地，参见图5的5a，在一些实施例中，终端200接收到终端100发送的音频流后，可将该音频流中用户1的原音转换为中文文本“你好，我想买张机票”显示在通话界面50的文本显示区域501中。可选的，终端200还可在文本显示区域501中显示用户1的头像或名字，用于标识该段中文文本对应的语音是用户1的译音。

终端100在通过上述(1)或(2)中任意一种翻译方式获取到用户1的译文和/或译音后，还可将用户1的译文和/或译音通过通信连接发送给终端200。

示例性地，参见图5的5b，在一些实施例中，若终端200接收到用户1的译文，可将用户1的译文“hello，I want to buy a ticket”显示在通话界面50的文本显示区域501中。若在用户2当前的通话模式中用户2可以听到用户1的译音，或者，终端200开启了“朗读对方译文”功能，则终端200还可朗读该英文文本，使得用户2听到用户1的译音。

类似的，若在用户2当前的通话模式中用户2可以听到用户1的译音，则终端200可获取到用户1的译音，播放该译音。进一步地，参见图5的5b，终端200还可将该译音转换为英文文本“hello，I want to buy a ticket”后显示在通话界面50的文本显示区域501中。进一步地，若终端200开启了“朗读对方译文”功能，则终端200还可朗读该英文文本，使得用户2听到用户1的译音。

这里，终端200可通过听筒、扬声器或耳机等装置播放用户1的译音。

终端200显示用户1的译文或者播放用户1的译音后，用户2可获知用户1的请求，并向终端200输入英文原音“OK，which day do you prefer”。这里，终端200也可持续采集输入的音频流，终端200采集音频流的操作和终端100采集音频流的操作相同，可参照上述关于终端100持续采集输入的音频流的相关描述。

在一些实施例中，终端200持续采集输入的音频流的过程中，用户2可以中断终端200采集音频流的过程。例如，用户2可以开启终端200的通话静音功能，开启通话静音功能后，终端200将暂停采集音频流。示例性地，参见图5的5a，通话界面10还可包括麦克风图标502，用户2可以点击麦克风图标502，响应于该点击操作，终端200将暂停采集音频流。进一步地，用户2可再次点击麦克风图标502，响应于该点击操作，终端200将恢复采集音频流。

在一些实施例中，终端200可以对持续采集到的音频流做降噪、回声抑制等处理。

通过上述实施例，终端200可获取到原始的持续输入的音频流，或者，经过降噪、回声抑制等处理后的音频流。

终端200获取到音频流后，在一些实施例中，示例性地，参见图5的5c，终端200可将该音频流中用户2的原音转换为英文文本“OK，which day do you prefer”，并将英文文本显示在通话界面50的文本显示区域501中。可选的，终端200还可在文本显示区域501中显示用户2的头像或名字，用于标识该段英文文本对应的语音是用户2输入终端200的。

终端200获取到音频流后，还可将该音频流通过通信连接发送给终端100，相应地，终端100可接收到该音频流。若在用户1当前的通话模式中，用户1可以听到用户2的原音，则终端100播放接收到的该音频流。

在一些实施例中，终端100可以对终端200发送的音频流做分割，得到一段段的音频流，并对分割后的一段段音频流做翻译处理。这里，终端100分割终端200发送的音频流的方式和终端100分割自身获取的音频流的方式相同，可参照相关描述。

在一个具体的例子中，终端100分割出的一段音频流包括用户2输入的英文语音“OK，which day do you prefer”。示例性地，参考图4的4c，终端100可将分割出的该段音频流中用户2输入的英文语音转换为英文文本“OK，which day do you prefer”，并显示在终端100的通话界面10中的文本显示区域301。可选的，终端100还可在文本显示区域301中显示用户2的头像或名字，用于标识该段英文文本对应的语音是用户2的原音。

终端100可对分割出的该段音频流做翻译处理。终端100翻译终端200发送的音频流的方式和终端100翻译本端采集到的音频流的方式相同，可参照相关描述。

对终端200发送的音频流做翻译处理后，终端100可以获取到翻译后的中文文本和/或中文语音，即用户2的译文和/或译音。

在获取到用户2的译文或译音后，终端100可根据用户1设置的通话模式，对用户2的译文和/或译音做对应的处理。

示例性地，参考图4的4d，在一些实施例中，若终端100获取到用户2的译文，可将用户2的译文“好的，你想订哪天的”显示在通话界面10的文本显示区域301中。若终端100选择播放用户2的译音(即在用户1当前的通话模式中用户1可以听到用户2的译音)，或者，终端100开启了“朗读对方译文”功能，则终端100还可朗读该中文文本，使得用户1听到用户2的译音。

类似的，若终端100获取到用户2的译音，且终端100选择播放用户2的译音(即在用户1当前的通话模式中用户1可以听到用户2的译音)，则终端100可播放该译音。示例性地，参考图4的4d，若用户2的译音由终端100通过本地翻译得到，则终端100还可将终端100翻译过程中生成的中文文本“好的，你想订哪天的”后显示在通话界面10的文本显示区域301中。示例性地，参考图4的4d，若用户2的译音由翻译服务器发送给终端100，则终端100还可将该译音转换为中文文本“好的，你想订哪天的”后显示在通话界面10的文本显示区域301中。进一步地，若终端100开启了“朗读对方译文”功能，则终端100还可朗读该中文文本，使得用户1听到用户2的译音。

终端100在通过上述任意一种翻译方式获取到用户2的译文和/或译音后，还可将用户2的译文和/或译音通过通信连接发送给终端200。相应地，终端200可获取到用户2的译文和/或译音。

示例性地，参见图5的5d，在一些实施例中，若终端200获取到用户2的译文，可将用户2的译文“好的，你想订哪天的”显示在通话界面50的文本显示区域501中。若在用户2当前的通话模式中用户2可以听到自己的译音，或者，终端200开启了“朗读我的译文”功能，则终端200还可朗读该中文文本，使得用户2听到自己的译音。

类似的，若在用户2当前的通话模式中用户2可以听到自己的译音，则终端200可获取到用户2的译音，播放该译音。进一步地，参见图5的5d，终端200还可将该译音转换为中文文本“好的，你想订哪天的”后显示在通话界面50的文本显示区域501中。进一步地，若终端200开启了“朗读我的译文”功能，则终端200还可朗读该中文文本，使得用户2听到自己的译音。

在一些实施例中，终端100播放音频(例如用户1的译音、用户2的原音或译音等)时，用户1可以调节终端100的音频播放过程。例如，用户1可以开启终端100的播放静音功能。在一种实施方式中，开启播放静音功能后，终端100将不再播放音频。在另一种实施方式中，开启播放静音功能后，终端100持续播放音频，但播放音频时的音量大小为0。示例性地，参见图3的3a，终端100的通话界面10还可包括喇叭图标308，用户1可以点击喇叭图标308，响应于该点击操作，终端100开启播放静音功能。进一步地，用户1可再次点喇叭图标308，响应于该点击操作，终端100将关闭播放静音功能。

类似的，在一些实施例中，终端200播放音频(例如用户2的译音、用户1的原音或译音等)的过程中，用户2可以调节终端100的音频播放过程。例如，用户2可以开启终端200的播放静音功能。示例性地，参见图5的5a，通话界面50还可包括喇叭图标503，用户2可通过点击该喇叭图标503开启或关闭播放静音功能。

通过上述图4及图5实施例，用户1和用户2完成了简单的两句语音对答。后续用户1和用户2还可通过上述方式继续通话。

举例来说，后续用户1还可向终端100输入语音“我想要5月3号的”，用户2还可向终端200输入语音“OK，I will check it”。也就是说，用户1和用户2通话时输入原音的顺序如下：

(1)用户1的原音：“你好，我想买张机票”；

(2)用户2的原音：“OK，which day do you prefer”；

(3)用户1的原音：“我想要5月3号的”；

(4)用户2的原音：“OK，I will check it”。

终端100翻译双方的原音，获取到译音的顺序如下：

(5)用户1的译音：“Hello，I want to buy a ticket”；

(6)用户2的译音：“好的，你想订那天的”；

(7)用户1的译音：“I want a ticket of May 3th”；

(8)用户2的译音：“好的，我查下”。

下面基于上述的例子，描述在不同的通话模式下，用户1及用户2在通话过程中听到的音频。

当用户1在表1中的通话模式1下时，用户1在通话过程中依次听到的语音为：(6)(8)。在用户1看来，实际通话过程如下：

用户1：“你好，我想买张机票”；

用户2：“好的，你想订那天的”；

用户1：“我想要5月3号的”；

用户2：“好的，我查下”。

当用户1在表1中的通话模式2下时，用户1在通话过程中依次听到的语音为：(2)(6)(4)(8)。这里，用户1在其他通话模式下依次听到的语音不再赘述。

当用户2在表2中的通话模式1下时，用户2在通话过程中依次听到的语音为：(5)(7)。在用户2看来，实际通话过程如下：

用户1：“Hello，I want to buy a ticket”；

用户2：“OK，which day do you prefer”；

用户1：“I want a ticket of May 3th”；

用户2：“OK，I will check it”。

当用户2在表2中的通话模式2下时，用户2在通话过程中依次听到的语音为：(1)(5)(3)(7)。这里，用户1在其他通话模式下依次听到的语音不再赘述。

可理解的，终端100翻译通信双方的原音的速度很快，原音和译音/译文之间的时延很小，对于通信双方来说，几乎可以在输入原音的同时看到译文或听到译音。上述图4及图5实施例描述的翻译方法，可以实现通信双方的自动双向翻译，可以让使用不同语言通话的双方正常交流。此外，终端100可以根据通信双方的通话模式播放音频或者将音频发送给终端200，从而使得通信双方听到自己希望听到的音频，可以提升通话过程中的用户体验。

通过图4及图5实施例可知，在上述应用场景1中，终端100处理的译音有两种，一种是用户1的译音，另一种是用户2的译音。终端100可根据用户1及用户2的通话模式处理获取到的译音。

在一些实施例中，终端100有可能获取到用户1的译音。示例性地，参见图6A，其示出了在获取到用户1的译音时终端100的处理流程。该处理流程可包括如下步骤：

1、终端100获取到用户1的译音。

2、终端100根据用户2的通话模式判断是否将用户1的译音发送给终端200。

3、若步骤2中判断为是，终端100将用户1的译音送入上行通道。

4、若步骤2中判断为否，终端100不向上行通道送入用户1的译音。

5、终端100根据用户1的通话模式判断是否播放用户1的译音。

6、若步骤5中判断为是，终端100将用户1的译音送入下行通道。

7、若步骤5中判断为否，终端100不向下行通道送入用户1的译音。

可理解的，上述图6A中各个步骤的序号并不限定步骤执行的先后顺序。例如，步骤2和步骤5可以同时执行。

在一些实施例中，终端100有可能获取到用户2的译音。示例性地，参见图6B，其示出了在获取到用户2的译音时终端100的处理流程。该处理流程可包括如下步骤：

1、终端100获取到用户2的译音。

2、终端100根据用户2的通话模式判断是否将用户2的译音发送给终端200。

3、若步骤2中判断为是，终端100将用户2的译音送入上行通道。

4、若步骤2中判断为否，终端100不向上行通道送入用户2的译音。

5、终端100根据用户1的通话模式判断是否播放用户2的译音。

6、若步骤5中判断为是，终端100将用户2的译音送入下行通道。

7、若步骤5中判断为否，终端100不向下行通道送入用户2的译音。

可理解的，上述图6B中各个步骤的序号并不限定步骤执行的先后顺序。例如，步骤2和步骤5可以同时执行。

在一些实施例中，在同一时间段，终端100可能同时获取到用户1的译音和用户2的译音。

示例性地，图6C示出了可能的终端100同时获取两种译音的场景。其中，线段(1)(3)分别表示一段用户1的译音，线段(2)(4)分别表示一段用户2的译音，线段长度表示译音时长。如图所示，t1-t2时间段内，终端100同时获取到完整的用户1的译音和完整的用户2的译音，t3-t4时间段内，终端100同时获取到部分用户1的译音和部分用户2的译音。

示例性地，可参见图6D，图6D示出了在同时获取到两种译音时终端100的处理流程。该处理流程可包括如下步骤：

1、终端100同时获取到用户1的译音和用户2的译音。

3、终端100根据用户2的通话模式判断是否将用户1的译音发送给终端200。

4、若步骤2和步骤3中都判断为是，终端100可对用户1的译音和用户2的译音做混音处理，得到两种译音的混音，并该混音送入上行通道。

5、若步骤2中判断为是且步骤3中判断为否，终端100将用户2的译音送入上行通道。

6、若步骤2中判断为否且步骤3中判断为是，终端100将用户1的译音送入上行通道。

7、若步骤2和步骤3中都判断为否，终端100不向上行通道送入用户1的译音和用户2的译音。

8、终端100根据用户1的通话模式判断是否播放用户1的译音。

9、终端100根据用户1的通话模式判断是否播放用户2的译音。

10、若步骤8和步骤9中都判断为是，终端100可对用户1的译音和用户2的译音做混音处理，并将该混音送入下行通道。

11、若步骤8中判断为是且步骤9中判断为否，终端100将用户1的译音送入下行通道。

12、若步骤8中判断为否且步骤9中判断为是，终端100将用户2的译音送入下行通道。

13、若步骤8和步骤9中都判断为否，终端100不向下行通道送入用户1的译音和用户2的译音。

可理解的，上述图6D中各个步骤的序号并不限定步骤执行的先后顺序。例如，步骤2、步骤3、步骤8和步骤9可以同时执行。

在一种可能的实施方式中，终端100对用户1的译音和用户2的译音做混音处理是指，终端100将用户1的译音和用户2的译音拼接成一个音频流。在播放混音时，可以先后听到两种译音。这里，终端100可以按照任意顺序拼接两种译音，例如用户1的译音在用户2的译音之前，或者，用户2的译音在用户1的译音之前。

在另一种可能的实施方式中，终端100对用户1的译音和用户2的译音做混音处理是指，终端100将用户1的译音和用户2的译音混合或重叠在一起。在播放混音时，可以同时听到用户1的译音和用户2的译音。

在图6A、图6B及图6D实施例中，将音频送入上行通道后，终端100可通过通信连接将该音频发送给终端200。将音频送入下行通道后，终端100可播放该音频。

通过图4及图5实施例可知，在上述应用场景1中，终端100的上行通道中包含终端100获取的音频流(包含用户1的原音)，还有可能包含译音。这里的译音可能是以下任意一种：用户1的译音、用户2的译音、两种译音(用户1的译音和用户2的译音)的混音。

这里，上行通道包含的译音中，用户1的译音可以通过上述图6A中的步骤3或图6D中的步骤6得到，用户2的译音可以通过上述图6B中的步骤3或图6D中的步骤5得到，两种译音的混音可以通过上述图6D中的步骤4得到，可参见相关描述。在可选实施例中，用户1或用户2的译音有可能由翻译服务器翻译后发送给终端100，即上述译音有可能经过网络压缩。为了保证混音的效果，在一些实施例中，可对上述译音执行解码操作。

当终端100的上行通道中仅包含终端100获取的音频流，且终端选择将用户1的原音发送给终端200时，终端100将获取的音频流送入上行通道。

当终端100的上行通道中仅包含上述译音时，终端100将上述译音送入上行通道。

当终端100的上行通道中包含终端100获取的音频流和上述译音，且终端选择将用户1的原音发送给终端200时，终端100可以将终端100获取的音频流和上述译音做混音处理。这里，可以将该混音处理的过程称为上行混音过程。这里，终端100对终端100获取的音频流和上述译音做混音处理时的过程和图6D实施例中的混音过程类似，可以将终端100获取的音频流和上述译音按照一定顺序拼接起来，也可以重叠在一起，可以参照前文相关描述。在得到两者(终端100获取的音频流和上述译音)的混音后，终端100可以将该混音送入上行通道，通过通信连接发送给终端200。

示例性地，可参见图7，图7示出了一种可能的终端100对终端100获取的音频流和上述译音做混音处理时的流程。

在一些实施例中，终端100获取的音频流和上述译音的质量可能不同。反映音频质量的参数可包括：采样率、声道数等。为了保证混音的效果，可以对终端100获取的音频流或者上述译音执行重采样的操作。这里，可以以两者对应的采样率中较低的采样率(例如终端100获取的音频流的采样率)为标准，对另一个音频(例如上述译音)进行重采样，使得终端100获取的音频流和上述译音的采样率一致。

在一些实施例中，终端100获取的音频流和上述译音的音量大小可能不同。为了保证混音的效果，可以对终端100获取的音频流或者上述译音执行音量调整的操作，使得终端100获取的音频流和上述译音的音量一致。这里，图7中以对上述译音做音量调整为例进行说明。

通过图4及图5实施例可知，在上述应用场景1中，终端100的下行通道中可包含终端200发送的音频流(包含用户2的原音)，还有可能包含译音。这里，译音可能是以下任意一种：用户1的译音、用户2的译音、两种译音(用户1的译音和用户2的译音)的混音。

这里，下行通道包含的译音中，用户1的译音可以通过上述图6A中的步骤6或图6D中的步骤11得到，用户2的译音可以通过上述图6B中的步骤6或图6D中的步骤12得到，两种译音的混音可以通过上述图6D中的步骤10得到，可参见相关描述。在可选实施例中，用户1或用户2的译音有可能由翻译服务器翻译后发送给终端100，即上述译音有可能经过网络压缩。在一些实施例中，可对上述译音执行解码操作。

当终端100的下行通道中仅包含终端200发送的音频流，且终端100选择播放用户2的原音时，终端100将终端200发送的音频流送入下行通道。

当终端100的下行通道中仅包含上述译音时，终端100将上述译音送入下行通道。

当终端100的下行通道中包含终端200发送的音频流和上述译音，且终端100选择播放用户2的原音时，终端100可以将终端200发送的音频流和上述译音做混音处理。这里，终端100对终端200发送的音频流和上述译音做混音处理时的过程和图6D实施例中的混音过程类似，可以将终端200发送的音频流和上述译音按照一定顺序拼接起来，也可以重叠在一起，可以参照前文相关描述。在得到两者(终端200发送的音频流和上述译音)的混音后，终端100可以将该混音送入下行通道，播放将该混音。

示例性地，可参见图8，图8示出了一种可能的终端100对终端200发送的音频流和上述译音做混音处理时的流程。

在一些实施例中，终端200发送的音频流和上述译音的质量可能不同。为了保证混音的效果，终端100可以对终端200发送的音频流或者上述译音执行重采样的操作。这里，可以以两者对应的采样率中较低的采样率(例如终端200发送的音频流的采样率)为标准，对另一个音频(例如上述译音)进行重采样，使得终端200发送的音频流和上述译音的采样率一致。

在一些实施例中，终端200发送的音频流和上述译音的音量大小可能不同。为了保证混音的效果，终端100可以对终端200发送的音频流或者上述译音执行音量调整的操作，使得终端200发送的音频流和上述译音的音量一致。这里，图7中以对上述译音做音量调整为例进行说明。

在一种可能的实施方式中，当终端100开启了“朗读我的译文”功能或者“朗读对方译文”功能时，下行通道中还可能包含由用户1的译文合成的语音或者用户2的译文合成的语音。在一些情况下，终端100可对下行通道中的音频做混音处理。例如，当终端100的下行通道中包含用户1的译文合成的语音、终端200发送的音频流和上述译音，且终端100选择播放用户2的原音时，终端100对用户1的译文合成的语音、终端200发送的音频流和上述译音做混音处理后送入下行通道，播放该混音。以图8为例，图8中混音的左侧还可增加一条音频流，用于输入用户1的译文合成的语音，从而对用户1的译文合成的语音、终端200发送的音频流和上述译音做混音处理。

在一些实施例中，若终端100播放了用户2的译音，那么终端100可无需显示文本。具体的，在图4实施例中，终端100可以不用显示如图4所示的用户1的原音对应的文本、用户1的译文、用户2的原音对应的文本、用户2的译文等。

类似的，若终端200播放了用户1的译音，那么终端200可无需显示文本。具体的，在图5实施例中，终端200也可以不用显示如图5所示的用户1的原音对应的文本、用户1的译文、用户2的原音对应的文本、用户2的译文等。通过该实施例，用户1和用户2无需关注终端屏幕，将终端放在耳边就可以完成通话。

应用场景2：用户1和用户2通过终端进行视频通话，用户1使用汉语，用户2使用英语，双方使用终端100的翻译能力实现自动的双向翻译。

应用场景2和应用场景1类似，不同之处在于，终端100还需要通过摄像头持续采集用户1的画面并发送给终端200，终端200还需要通过摄像头持续采集用户2的画面并发送给终端100。

在一些实施例中，终端100可以在显示用户2的画面的同时显示双方交流时的文本。用户2的画面和双方交流时的文本可以在不同的显示区域显示，双方交流时的文本也可以悬浮显示在用户2的画面之上，这里不做限制。

类似的，在一些实施例中，终端200可以在显示用户1的画面的同时显示双方交流时的文本。这里，终端200的显示方式和终端100同时显示用户2的画面和双方交流时的文本的方式相同，可参照相关描述。

应用场景3：用户1和用户2通过终端进行文字交流，用户1使用汉语，用户2使用英语，双方使用终端100的翻译能力实现自动的双向翻译。用户1使用终端100，用户2使用终端200。

在用户1和用户2进行文字交流之前，终端100和终端200需建立通信连接。该通信连接可以参照图1实施例中的相关描述。举例来说，终端100可通过即时通讯应用(例如FaceTime、Skype、微信(WeChat)等)请求和终端200进行文字通话等。不限于终端100发起建立通信连接的请求，也可以由终端200发起建立通信连接的请求。

在一些实施例中，终端100和终端200建立通信连接后，终端100可向用户1输出提示信息，询问用户是否开启自动双向翻译功能。这里，可参照图2的2d及相关描述。

示例性地，终端100和终端200建立通信连接，并且，终端100开启自动双向翻译功能之后，可显示如图9的9a所示的通话界面90。

在一些实施例中，该通话界面90可包括用于展示用户1和用户2交流时的文本的显示区域901。

在一些实施例中，该通话界面90可包括文本输入框902。文本输入框902用于用户1输入文本。

在一些实施例中，该通话界面90还可包括语言设置选项“设置语言”903。这里，上述选项903的功能和图3实施例中终端100的通话界面10中的选项“设置语言”306的功能相同，可参照相关描述。

终端100和终端200建立通信连接之后，用户1和用户2可以进行文字交流，下面通过一个具体的通话示例介绍应用场景2中的翻译过程。

终端100可通过触摸屏、键盘等装置接收用户1输入的文本。例如，用户1可通过触摸屏上的文本输入框902输入文本。在一个具体的例子中，用户1向终端输入中文文本“你好，我想买张机票”。示例性地，参见图9的9a，在一些实施例中，终端100可在通话界面90中的文本显示区域901显示该中文文本。可选的，终端100还可在文本显示区域901中显示用户1的头像或名字，用于标识该段中文文本是用户1输入的。

终端100接收到用户1输入的中文文本后，可以对该中文文本做翻译处理。这里，终端100翻译用户1输入的文本的方式和应用场景1中终端100翻译语音的过程类似，可参照相关描述。可理解的，对文本做翻译处理后，终端100可获取到用户1的译文“hello，I want tobuy a ticket”。

示例性地，参考图9的9b，在一些实施例中，终端100获取到用户1的译文后，可将用户1的译文“hello，I want to buy a ticket”显示在通话界面90的文本显示区域901中。

示例性地，终端200和终端100建立通信连接之后，终端200可显示如图10的10a所示的通话界面100。

在一些实施例中，该通话界面100可包括用于展示用户2和用户1之间交流时的文本的显示区域1001。

在一些实施例中，该通话界面100还可包括文本输入框1002。文本输入框1002用于用户2输入文本。

终端100在接收到用户1输入的原始中文文本后，可将该中文文本通过通信连接发送给终端200。相应地，终端200可接收到该中文文本。示例性地，参见图10的10a，在一些实施例中，终端200可将接收到的该中文文本显示在显示区域1001中。可选的，终端200还可在文本显示区域1001中显示用户1的头像或名字，用于标识该段中文文本是用户1的原文本。

终端100在获取到用户1的译文“hello，I want to buy a ticket”后，还可将该译文通过通信连接发送给终端200。示例性地，参见图10的10b，在一些实施例中，终端200接收到用户1的译文后，可将用户1的译文“hello，I want to buy a ticket”显示在通话界面100的文本显示区域1001中。

终端200显示用户1的译文后，用户2可获知用户1的请求，并向终端200输入英文文本“OK，which day do you prefer”。用户2可通过触摸屏、键盘等装置向终端200输入的文本。例如，用户2可通过触摸屏上的文本输入框1002输入文本。终端200获取到用户2输入的英文文本后，在一些实施例中，示例性地，参见图10的10c，终端200可将英文文本显示在通话界面100的文本显示区域1001中。

终端200获取到用户2输入的英文文本后，可将该英文文本通过通信连接发送给终端100，相应地，终端100可接收到该英文文本。终端100接收到终端200发送的英文文本后，可以对该英文文本做翻译处理。这里，终端100翻译该英文文本的方式和应用场景1中终端100翻译语音的过程类似，可参照相关描述。可理解的，对文本做翻译处理后，终端100可获取到用户2的译文“好的，你想订哪天的”。

示例性地，参考图9的9d，终端100获取到用户2的译文后，可将用户2的译文“好的，你想订哪天的”显示在通话界面90的文本显示区域901中。

终端100获取到用户2的译文后，还可将用户2的译文通过通信连接发送给终端200。相应地，终端200可获取到用户2的译文。示例性地，参见图10的10d，在一些实施例中，终端200获取到用户2的译文后，可将用户2的译文“好的，你想订哪天的”显示在通话界面100的文本显示区域1001中。

通过上述图9及图10实施例，用户1和用户2完成了简单的两句文字交流。后续用户1和用户2还可通过上述方式继续通信。

参见图11，图11示出了一种可能的翻译引擎和音频处理模块的结构示意图。该翻译引擎和音频处理模块可以应用于终端100。终端100可以通过该翻译引擎和音频处理模块实现上述应用场景1中，用户1和用户2语音通话时的自动双向翻译。

翻译引擎与音频处理模块互相独立，音频处理模块负责输出上下行音频流(包含上下行原音)给翻译引擎，翻译引擎输出翻译后的上下行译音给音频处理模块。

其中，翻译引擎用于对音频处理模块输出的上下行音频流做翻译处理。这里，翻译引擎可利用终端100本地的翻译能力做翻译处理，也可以将上下行音频流发送给翻译服务器并由翻译服务器做翻译处理。在一些实施例中，翻译引擎可以在翻译过程中，将不同的原音分别发送给不同的翻译服务器做翻译处理。翻译引擎可以为软件模块。

如图11所示，音频处理模块可包括以下部件：

音频流采集单元，用于持续采集输入的音频流。该音频流可包括以下至少一项：用户1输入的语音、背景音或环境音。音频流采集单元可以为麦克风。

静音控制单元，用于根据用户操作开启/关闭终端100的通话静音功能。

音效处理单元，用于对持续采集到的音频流做降噪、回声抑制等处理。

上行采集单元，用于获取到经过降噪、回声抑制等处理后的音频流，并将该音频流发送至上行混音单元和翻译引擎。

调制解调单元，用于解调终端200发送的下行音频流。调制解调单元可以为调制解调器(modem)。

下行采集单元，用于获取调制解调单元解调后的音频流，并将该音频流发送至下行混音单元和翻译引擎。

翻译混音单元，用于接收翻译引擎输出的上行译音和/或下行译音，并根据用户1及用户2的通话模式处理上行译音和/或下行译音。这里，翻译混音单元的功能可参照图6A、图6B及6D实施例中各个步骤的相关描述。

上行混音单元，用于接收上行采集单元获取到的音频流和/或翻译引擎输出的译音，并根据用户2的通话模式处理上行采集单元获取到的音频流和/或翻译引擎输出的译音。这里，上行混音单元的功能可参照图7实施例的相关描述。

上行通道，用于将上行混音单元输出的音频通过通信连接发送给终端200。上行通道可以实现为天线、移动通信模块、无线通信模块等。

下行混音单元，用于接收下行采集单元获取到的音频流和/或翻译引擎输出的译音，并根据用户1的通话模式处理下行采集单元获取到的音频流和/或翻译引擎输出的译音。这里，下行混音单元的功能可参照图8实施例的相关描述。

下行通道，用于将下行混音单元输出的音频发送给播放设备。

播放设备选择单元，用于选择终端100中用于播放下行混音单元输出的音频的设备。

播放设备，用于播放下行混音单元输出的音频。播放设备可包括：扬声器、听筒、耳机等。

其中，静音控制单元、音效处理单元、上行采集单元、下行采集单元、翻译混音单元、上行混音单元、下行混音单元、播放设备选择单元的功能可以通过终端100的处理器内部实现。

可以理解地，上述静音控制单元、音效处理单元、上行采集单元、下行采集单元、播放设备选择单元可以根据实际产品的设计需要进行删减或增加。例如在一些实施例中，可以不用设置静音控制单元。

下面介绍本申请提供的终端100的一种实现方式。

本申请中，终端100可以为手机、平板电脑、个人数字助理(personal digitalassistant，PDA)、可穿戴设备等便携式电子设备。便携式电子设备的示例性实施例包括但不限于搭载iOS、android、microsoft或者其他操作系统的便携式电子设备。上述便携式电子设备也可以是其他便携式电子设备，诸如具有触敏表面(例如触控面板)的膝上型计算机(laptop)等。还应当理解的是，在本申请其他一些实施例中，终端也可以不是便携式电子设备，而是具有触敏表面(例如触控面板)的台式计算机。

图12示出了本申请的终端100一种可能的结构。

终端100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriberidentificationmodule，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对终端100的具体限定。在本申请另一些实施例中，终端100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是终端100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在本申请的一些实施例中，处理器110可用于对终端100采集到的上行音频流和终端200发送的下行音频流做处理。具体的，处理器110可以对终端100采集到的上行音频流做降噪、回声抑制等处理，并翻译处理后的上行音频流。处理器110还可以解调终端200发送的下行音频流，并翻译解调后的下行音频流。处理器110还可以控制通信单元与翻译服务器通信，获取上行译音、下行译音。处理器110还用于根据用户1及用户2的通话模式处理上行译音、下行译音、上行原音和下行原音，可参照图6A、图6B、6D、图7及图8实施例及相关描述。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K，充电器，闪光灯，摄像头193等。例如：处理器110可以通过I2C接口耦合触摸传感器180K，使处理器110与触摸传感器180K通过I2C总线接口通信，实现终端100的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现终端100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现终端100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为终端100充电，也可以用于终端100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他终端，例如AR设备等。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对终端100的结构限定。在本申请另一些实施例中，终端100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过终端100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为终端供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

终端100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。终端100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在终端100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(lownoise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在终端100上的包括无线局域网(wireless localarea networks，WLAN)(如无线保真(wirelessfidelity，Wi－Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequencymodulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，终端100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得终端100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code divisionmultiple access，CDMA)，宽带码分多址(wideband code division multiple access，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(globalnavigation satellite system，GLONASS)，北斗卫星导航系统(beidou navigationsatellite system，BDS)，准天顶卫星系统(quasi-zenith satellite system，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

终端100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquidcrystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emittingdiode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dotlight emitting diodes，QLED)等。在一些实施例中，终端100可以包括1个或N个显示屏194，N为大于1的正整数。

终端100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，终端100可以包括1个或N个摄像头193，N为大于1的正整数。在本申请的一些实施例中，摄像头193可用于捕获用户1的画面。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当终端100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。终端100可以支持一种或多种视频编解码器。这样，终端100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving pictureexpertsgroup，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现终端100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行终端100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储终端100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

终端100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。终端100可以通过扬声器170A收听音乐，或收听免提通话。在本申请的一些实施例中，扬声器170A可用于播放用户2的原音和译音、用户1的译音。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当终端100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。在本申请的一些实施例中，受话器170B可用于播放用户2的原音和译音、用户1的译音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。终端100可以设置至少一个麦克风170C。在另一些实施例中，终端100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，终端100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。在本申请的一些实施例中，麦克风170C可用于采集用户1输入的原始音频流。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动终端平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。

陀螺仪传感器180B可以用于确定终端100的运动姿态。

气压传感器180C用于测量气压。

磁传感器180D包括霍尔传感器。终端100可以利用磁传感器180D检测翻盖皮套的开合。

加速度传感器180E可检测终端100在各个方向上(一般为三轴)加速度的大小。

距离传感器180F，用于测量距离。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。终端100通过发光二极管向外发射红外光。终端100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定终端100附近有物体。当检测到不充分的反射光时，终端100可以确定终端100附近没有物体。

环境光传感器180L用于感知环境光亮度。

指纹传感器180H用于采集指纹。终端100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于终端100的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。终端100可以接收按键输入，产生与终端100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。终端100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同，也可以不同。

终端100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本发明实施例以分层架构的Android系统为例，示例性说明终端100的软件结构。

图13是本发明实施例的终端100的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图13所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图13所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供终端100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，终端振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

下面结合捕获拍照场景，示例性说明终端100软件以及硬件的工作流程。

当触摸传感器180K接收到触摸操作，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别该输入事件所对应的控件。以该触摸操作是触摸单击操作，该单击操作所对应的控件为相机应用图标的控件为例，相机应用调用应用框架层的接口，启动相机应用，进而通过调用内核层启动摄像头驱动，通过摄像头193捕获静态图像或视频。

基于前述图1-图11所示的一些实施例以及图12实施例描述的终端100，下面介绍本申请提供的音频处理方法。

参见图14，图14是本申请提供的音频处理方法的流程示意图。如图14所示，该方法包括：

S101、第一终端采集第一用户的原音，获取第一用户的原音翻译得到的第一用户的译音，接收第二终端发送的第二用户的原音，获取第二用户的原音翻译得到的第二用户的译音。

具体的，第一终端可以为图1实施例中的终端100，第一用户为用户1，第二终端可以为图1实施例中的终端200，第二用户为用户2。其中，第一用户使用第一语言，第二用户使用第二语言，第一语言不同于第二语言。本申请中，第一用户和第二用户通话时语言不同，需要借用第一终端的翻译能力。这里，关于翻译能力可参照图1实施例中的相关描述。

第一终端和第二终端通过通信网络建立通信连接。这里，第一终端和第二终端建立的通信连接可参考图1实施例中的相关描述。

本申请中，第一终端可以持续采集输入的音频流。第一终端可通过自带的麦克风采集输入的音频流，也可以通过第一终端外接的设备采集输入的音频流。这里，外接设备可以是带有麦克风的耳机，也可以是单独的麦克风。第一终端采集的音频流可包括以下至少一项：第一用户输入的语音、背景音或环境音。第一用户输入的语音为第一用户实际和第二用户通话的内容，背景音或环境音是第一用户所处通话环境周围的声音(例如鸟叫、汽车喇叭声等)。这里，第一用户输入的语音即为第一用户的原音。

在一些实施例中，第一终端可以对持续采集到的音频流做降噪、回声抑制等处理。这样可以突出音频流中第一用户的原音，降低音频流中背景音或环境音对第一用户的原音的影响，可以保证后续的翻译质量。

在采集到第一用户的原音后，第一终端可获取第一用户的原音翻译得到的第一用户的译音。第一终端可通过以下任意一种方式获取第一用户的译音：

(1)第一用户的译音由第一终端本地翻译得到。

在一些实施例中，第一终端可通过以下步骤对第一用户的原音做翻译处理：(a)语音识别。(b)文本校正。(c)翻译。(d)语音合成。这里，关于翻译中各个步骤的具体操作，可参照前文相关描述。

其中，翻译服务器是指具有翻译功能的服务器(例如Google的翻译服务器、微软的翻译服务器等)。翻译服务器将第一用户的原音翻译为第一用户的译音的过程和上述第一终端的翻译过程相同，可参照相关描述。一些实施例中，翻译服务器对输入的音频流的格式有要求，因此，第一终端可对采集到的音频流做编码、重采样等处理，得到符合格式要求的音频流后再将其发送给翻译服务器。一些实施例中，翻译服务器返回给第一终端的译音可能经过压缩，因此，第一终端接收到第一用户的译音后，可对其做解码、重采样等处理。

本申请中，第一终端可以接收第二终端发送的第二用户的原音。其中，第二终端也可以持续采集输入的音频流，该音频流中包括第二用户的原音。第二终端采集第二用户的原音的过程和第一终端采集第一用户的原音的过程相同，可参照相关描述。

在接收到第二用户的原音后，第一终端可获取第二用户的原音翻译得到的第二用户的译音。和第一用户的译音类似，第二用户的译音可以由第一终端本地翻译得到，或者，由翻译服务器将第二用户的原音翻译为第二用户的译音后发送给第一终端，可参照前文相关描述。

S102、第一终端根据第一设置将第一译音和/或第一用户的原音发送给第二终端。

在一些实施例中，第一设置反映第二终端的通话模式。第二终端的通话模式包括：第二用户能否听到第一用户的原音、第一用户的译音、第二用户的译音等。在一种可能的实施方式中，第二终端的通话模式可以为上述提及的用户2的通话模式，可参考表2中的各个模式，可参照相关描述。这里，第二终端的通话模式可以由第一用户在第一终端中设置，也可以由第一终端默认设置。

其中，第一译音包括：第一用户的译音和/或第二用户的译音。第一译音的具体内容由第一设置确定。在一些实施例中，第一译音可以包括图6A的步骤1-4、图6B的步骤1-4、图6D的步骤4-7中送入上行通道的音频，可参照相关描述。

本申请中，第一终端根据第一设置确定发送给第二终端的音频的具体内容。举例来说，在一种可能的实施方式中，若第一设置反映第二用户能听到第一用户的原音和第一用户的译音，则第一终端将第一用户的原音和第一译音发送给第二终端，且第一译音包括第一用户的译音。若第一设置反映第二用户能听到第一用户的原音、第一用户的译音和第二用户的译音，则第一终端将第一用户的原音和第一译音发送给第二终端，且第一译音包括第一用户的译音和第二用户的译音。

在一些实施例中，第一终端同时获取到第一用户的译音和第二用户的译音，且根据第一设置第一译音包括第一用户的译音和第二用户的译音时，第一译音具体为第一终端将第一用户的译音和第二用户的译音拼接或者重叠后得到的第一混音。这里，第一终端获取第一混音的过程可参照图6D的步骤4。

在一些实施例中，当第一终端同时获取到第一译音和第一用户的原音，且第一设置中设置发送第一译音和第一用户的原音时，第一终端根据第一设置将第一译音和/或第一用户的原音发送给第二终端，包括：第一终端将第一译音和第一用户的原音拼接或者重叠后得到的第二混音发送给第二终端。这里，第一终端获取第二混音的过程可参照图7所示的上行混音过程。这里，第一设置中设置发送第一译音和第一用户的原音是指，第二用户能够听到第一译音和第一用户的原音。

S103、第一终端根据第二设置播放第二译音和/或第二用户的原音。

在一些实施例中，第二设置反映第一终端的通话模式。第一终端的通话模式包括：第一用户能否听到第二用户的原音、第二用户的译音、第一用户的译音等。在一种可能的实施方式中，第一终端的通话模式可以为上述提及的用户1的通话模式，可参考表1中的各个模式，可参照相关描述。这里，第一终端的通话模式可以由第一用户在第一终端中设置，也可以由第一终端默认设置。

其中，第二译音包括：第一用户的译音和/或第二用户的译音。第二译音的具体内容由第二设置确定。在一些实施例中，第二译音可以包括图6A的步骤5-7、图6B的步骤5-7、图6D的步骤10-13中送入下行通道的音频，可参照相关描述。

本申请中，第一终端根据第二设置确定所播放音频的具体内容。举例来说，在一种可能的实施方式中，若第二设置反映第一用户能听到第二用户的原音和第二用户的译音，则第一终端播放第二用户的原音和第二译音，且第二译音包括第二用户的译音。若第二设置反映第一用户能听到第二用户的原音、第二用户的译音和第一用户的译音，则第一终端播放第二用户的原音和第一译音，且第一译音包括第一用户的译音和第二用户的译音。

在一些实施例中，第一终端同时获取到第一用户的译音和第二用户的译音时，且根据第二设置第二译音包括第一用户的译音和第二用户的译音时，第二译音具体为第一终端将第一用户的译音和第二用户的译音拼接或者重叠后得到的第一混音。这里，第一终端获取第一混音的过程可参照图6D的步骤10。

在一些实施例中，当第一终端同时获取到第二译音和第二用户的原音，且第二设置中设置播放第二译音和第二用户的原音时，第一终端根据第二设置播放第二译音和/或第二用户的原音，包括：第一终端播放将第二译音和第二用户的原音拼接或者重叠后得到的第三混音，播放第三混音。这里，第一终端获取第三混音的过程可参照图8所示的下行混音过程。这里，第二设置中设置播放第二译音和第二用户的原音是指，第一用户能够听到第二译音和第二用户的原音。

在一些实施例中，第一终端在获取到第一用户的原音、第一用户的译音、第二用户的原音、第二用户的译音后，还可将音频转换为对应的文本，并显示该文本。即，第一终端还可显示第一用户的原文、第一用户的译文、第二用户的原文、第二用户的译文。这里，第一终端显示各个文本的具体实现可参照图4实施例以及相关描述。

实施本申请的音频处理方法，在通信时，第一终端可以根据用户设置播放音频或者将音频发送给第二终端，可以灵活地为通信双方提供不同的音频流，从而使得通信双方听到自己希望听到的音频，可以提升通话过程中的用户体验。此外，只要有一端具有翻译能力，就可以实现通信时的自动双向翻译，可以让使用不同语言通话的双方正常交流。

参见图15，图15为本申请提供的一种第一终端的结构示意图。该第一终端可以为上述图1-图12实施例中的终端100，也可以为图14实施例中的第一终端。

如图所示，第一终端可包括：音频流采集单元1501、调制解调单元1502、翻译引擎1503、翻译混音单元1504、上行混音单元1505和下行混音单元1506，其中，音频流采集单元1501连接翻译引擎1503和上行混音单元1505，调制解调单元1502连接翻译引擎1503和下行混音单元1506，翻译混音单元1504连接翻译引擎1503、上行混音单元1505和下行混音单元1506。其中：

音频流采集单元1501，用于采集第一用户的原音。具体的，音频流采集单元1501可以持续采集输入的音频流。音频流采集单元1501可以是单独的麦克风。

调制解调单元1502，用于解调第二用户的原音，第二用户的原音由第二终端发送给第一终端。调制解调单元可以为调制解调器(modem)。

翻译引擎1503，用于将第一用户的原音翻译为第一用户的译音；还用于将第二用户的原音翻译为第二用户的译音。具体的，翻译引擎1503可以在第一终端本地执行翻译操作，也可以将原音发送给翻译服务器，接收翻译服务器翻译原音后得到的译音。翻译引擎1503翻译原音的过程可参照图14实施例中步骤S101的相关描述。

翻译混音单元1504，用于接收翻译引擎输出的第一用户的译音和/或第二用户的译音，还用于根据第一设置将第一译音发送给上行混音单元；根据第二设置将第二译音发送给下行混音单元；其中，第一译音包括：第一用户的译音和/或第二用户的译音；第二译音包括：第一用户的译音和/或第二用户的译音。

第一设置和第二设置可参照图14实施例中的相关描述，在此不赘述。

第一译音、第二译音的具体内容可参照图14实施例中的相关描述，在此不赘述。

具体的，翻译混音单元1504用于根据第一设置将对应的音频发送给上行混音单元，该音频可包括图6A的步骤1-4、图6B的步骤1-4、图6D的步骤4-7中送入上行通道的音频，可参照相关描述。翻译混音单元还用于根据第二设置将对应的音频发送给下行混音单元，该音频包括图6A的步骤5-7、图6B的步骤5-7、图6D的步骤10-13中送入下行通道的音频，可参照相关描述。

在一些实施例中，当翻译混音单元1504同时获取到第一用户的译音和第二用户的译音，且根据第一设置第一译音包括第一用户的译音和第二用户的译音时，翻译混音单元1504具体用于将第一用户的译音和第二用户的译音拼接或者重叠后得到第一混音，将第一混音发送给上行混音单元。这里，翻译混音单元1504获取第一混音的过程可参照图6D的步骤4。

在一些实施例中，所述翻译混音单元1504同时获取到第一用户的译音和所述第二用户的译音，且根据第二设置第二译音包括第一用户的译音和第二用户的译音时，翻译混音单元1504具体用于将第一用户的译音和第二用户的译音拼接或者重叠后得到第一混音，将第一混音发送给所述下行混音单元。这里，翻译混音单元1504获取第一混音的过程可参照图6D的步骤10。

上行混音单元1505，用于根据第一设置输出第一译音和/或第一用户的原音。

在一些实施例中，当上行混音单元1505同时获取到第一译音和第一用户的原音，且第一设置中设置发送第一译音和第一用户的原音时，上行混音单元1505用于根据第一设置输出第一译音和/或第一用户的原音包括：上行混音单元1505用于将第一译音和第一用户的原音拼接或者重叠后得到第二混音，输出第二混音。这里，上行混音单元1505获取第二混音的过程可参照图7所示的上行混音过程。

下行混音单元1506，用于根据第二设置输出第二译音和/或第二用户的原音。

在一些实施例中，当下行混音单元1506同时获取到第二译音和第二用户的原音，且第二设置中设置播放第二译音和第二用户的原音，下行混音单元1506用于根据第二设置输出第二译音和/或第二用户的原音包括：下行混音单元1506用于将第二译音和第二用户的原音拼接或者重叠后得到第三混音，输出第三混音。这里，下行混音单元1506获取第三混音的过程可参照图8所示的下行混音过程。在一些实施例中，图15所示的第一终端还可包括：上行通道和播放设备。上行通道连接上行混音单元，播放设备连接下行混音单元。上行通道用于将上行混音单元输出的第一译音和/或第一用户的原音发送给第二终端；播放设备用于播放下行混音单元输出的第二译音和/或第二用户的原音。上行通道可以实现为天线、移动通信模块、无线通信模块等。播放设备可包括：扬声器、听筒、耳机等。

在一些实施例中，图15所示的第一终端还可包括：显示单元。显示单元用于显示第一用户的原文、第一用户的译文、第二用户的原文、第二用户的译文。这里，第一终端显示各个文本的具体实现可参照图4实施例以及相关描述。

在一些实施例中，图15所示的第一终端还可包括：音效处理单元，用于对持续采集到的音频流做降噪、回声抑制等处理。

在一些实施例中，图15所示的第一终端还可包括：静音控制单元，用于根据用户操作开启/关闭第一终端的通话静音功能。

在一些实施例中，图15所示的第一终端还可包括：播放设备选择单元，用于选择第一终端中用于播放下行混音单元输出的音频的设备。

本申请的各实施方式可以任意进行组合，以实现不同的技术效果。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid StateDisk)等。

总之，以上所述仅为本发明技术方案的实施例而已，并非用于限定本发明的保护范围。凡根据本发明的揭露，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种翻译方法，应用于第一终端，其特征在于，包括：

所述第一终端采集第一用户的原音，获取所述第一用户的原音翻译得到的第一用户的译音，接收第二终端发送的第二用户的原音，获取所述第二用户的原音翻译得到的第二用户的译音；

所述第一终端将所述第一用户的译音和所述第二用户的译音拼接或者重叠，得到第一混音；

所述第一终端根据用户设置将所述第一混音和所述第一用户的原音发送给所述第二终端，

所述第一终端根据用户设置播放所述第一混音和所述第二用户的原音；

所述第一终端显示第一用户的原文、第一用户的译文、第二用户的原文、第二用户的译文；所述第一用户的原文为和所述第一用户的原音对应的文本，所述第一用户的译文为和所述第一用户的译音对应的文本；所述第二用户的原文为和所述第二用户的原音对应的文本，所述第二用户的译文为和所述第二用户的译音对应的文本。

2.根据权利要求1所述的方法，其特征在于，

所述第一用户的译音由所述第一终端本地翻译得到，或者，由翻译服务器将所述第一用户的原音翻译为所述第一用户的译音后发送给所述第一终端；

所述第二用户的译音由所述第一终端本地翻译得到，或者，由所述翻译服务器将所述第二用户的原音翻译为所述第二用户的译音后发送给所述第一终端。

3.根据权利要求1所述的方法，其特征在于，

所述第一终端根据用户设置将所述第一混音和所述第一用户的原音发送给所述第二终端，包括：所述第一终端根据用户设置将所述第一混音和所述第一用户的原音拼接或者重叠后得到的第二混音发送给所述第二终端。

4.根据权利要求1所述的方法，其特征在于，

所述第一终端根据用户设置播放所述第一混音和所述第二用户的原音，包括：所述第一终端根据用户设置播放将所述第一混音和所述第二用户的原音拼接或者重叠后得到的第三混音，播放所述第三混音。

5.一种第一终端，其特征在于，包括：音频流采集单元、调制解调单元、翻译引擎、翻译混音单元、上行混音单元、下行混音单元、上行通道和播放设备、显示单元，其中，所述音频流采集单元连接所述翻译引擎和所述上行混音单元，所述调制解调单元连接所述翻译引擎和所述下行混音单元，所述翻译混音单元连接所述翻译引擎、所述上行混音单元和所述下行混音单元，所述上行通道连接所述上行混音单元，所述播放设备连接所述下行混音单元；

所述音频流采集单元，用于采集第一用户的原音；

所述调制解调单元，用于解调第二用户的原音，所述第二用户的原音由第二终端发送给所述第一终端；

所述翻译引擎，用于将所述第一用户的原音翻译为第一用户的译音；还用于将所述第二用户的原音翻译为第二用户的译音；

所述翻译混音单元，用于接收所述翻译引擎输出的所述第一用户的译音和所述第二用户的译音，将所述第一用户的译音和所述第二用户的译音拼接或者重叠后得到第一混音，根据用户设置将所述第一混音发送给所述上行混音单元；根据用户设置将所述第一混音发送给所述下行混音单元；

所述上行混音单元，用于根据用户设置输出所述第一混音和所述第一用户的原音；

所述下行混音单元，用于根据用户设置输出所述第一混音和所述第二用户的原音；

所述上行通道用于将所述上行混音单元输出的所述第一混音和所述第一用户的原音发送给所述第二终端；

所述播放设备用于播放所述下行混音单元输出的所述第一混音和所述第二用户的原音；

所述显示单元，用于显示第一用户的原文、第一用户的译文、第二用户的原文、第二用户的译文；所述第一用户的原文为和所述第一用户的原音对应的文本，所述第一用户的译文为和所述第一用户的译音对应的文本；所述第二用户的原文为和所述第二用户的原音对应的文本，所述第二用户的译文为和所述第二用户的译音对应的文本。

6.根据权利要求5所述的第一终端，其特征在于，

所述翻译引擎，具体用于在所述第一终端本地将所述第一用户的原音翻译为所述第一用户的译音，将所述第二用户的原音翻译为所述第二用户的译音；或者，

所述翻译引擎，具体用于将所述第一用户的原音发送给翻译服务器，接收所述翻译服务器翻译所述第一用户的原音后得到的所述第一用户的译音，还用于将所述第二用户的原音发送给所述翻译服务器，接收所述翻译服务器翻译所述第二用户的原音后得到的所述第二用户的译音。

7.根据权利要求5所述的第一终端，其特征在于，

所述上行混音单元具体用于将所述第一混音和所述第一用户的原音拼接或者重叠后得到第二混音，输出所述第二混音。

8.根据权利要求5所述的第一终端，其特征在于，

所述下行混音单元具体用于将所述第一混音和所述第二用户的原音拼接或者重叠后得到第三混音，输出所述第三混音。

9.一种终端，其特征在于，包括：一个或多个处理器、一个或多个存储器；

所述一个或多个存储器与所述一个或多个处理器耦合，所述一个或多个存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，所述终端执行如权利要求1-4任一项所述的翻译方法。

10.一种计算机存储介质，其特征在于，包括计算机指令，当所述计算机指令在终端上运行时，使得所述终端执行如权利要求1-4任一项所述的翻译方法。