CN108874788A

CN108874788A - 语音翻译方法及装置

Info

Publication number: CN108874788A
Application number: CN201810652313.3A
Authority: CN
Inventors: 吴海辉
Original assignee: Shenzhen Water World Co Ltd
Current assignee: Shenzhen Water World Co Ltd
Priority date: 2018-06-22
Filing date: 2018-06-22
Publication date: 2018-11-23

Abstract

本发明揭示了一种语音翻译方法及装置，其中，语音翻译方法，包括：手机客户端采集用户的源语种的语音；对所述源语种的语音进行语音识别，将所述源语种的语音转换成对应的源语种的文字；通过调用第三方翻译接口获取所述源语种的文字对应的目标语种的音频文件。本发明通过直接在手机客户端完成将源语种的语音转换成对应的源语种的文字，并通过调用第三方翻译接口来实现对源语种的文字的文字转换和语音合成功能，提高了语音翻译的速度，并提升用户体验。

Description

语音翻译方法及装置

技术领域

本发明涉及领域电子技术领域，特别是涉及到一种语音翻译方法及装置。

背景技术

目前的手机客户端没有统一的语音助手进行对语音的识别及对语言的翻译，只能借助调用第三方的语音引擎来完成对语音的识别和文字的翻译功能。

现有的语音翻译方法，手机客户端在采集到用户的语音后，首先将语音数据发送给语音识别服务器进行语音识别，然后将语音识别服务器返回的文字反馈回手机客户端，待确认用户触发了翻译操作后，再向翻译服务器发送翻译请求，以获取翻译服务器返回的翻译结果，进而将翻译结果呈现给客户。这种翻译方法，需要终端与服务器之间进行多次数据交互，翻译过程耗时较长，速度慢，用户体验差。

发明内容

本发明的主要目的为提供一种语音翻译方法，旨在解决现有翻译方法的翻译过程耗时较长，速度慢，用户体验差的技术问题。

本发明提出一种语音翻译方法，包括：

手机客户端采集用户的源语种的语音；

对所述源语种的语音进行语音识别，将所述源语种的语音转换成对应的源语种的文字；

通过调用第三方翻译接口获取所述源语种的文字对应的目标语种的音频文件。

优选地，所述通过调用第三方翻译接口获取所述源语种的文字对应的目标语种的音频文件的步骤，包括：

通过调用集成于手机客户端的文字转换接口将所述源语种的文字转换成目标语种的文字；

通过调用集成于手机客户端的语音合成接口对所述目标语种的文字进行语音合成，获得目标语种的音频文件。

将所述源语种的文字发送至服务器，以便服务器通过调用指定文字转换引擎和语音合成引擎，将所述源语种的文字翻译成对应的目标语种的音频文件；

接收服务器反馈的所述音频文件。

优选地，所述通过调用第三方翻译接口获取所述源语种的文字对应的目标语种的音频文件的步骤之后，包括：

判断所述手机客户端内的指定播放器是否支持播放所述音频文件；

若否，则将所述音频文件的格式转换为所述指定播放器支持的格式。

将所述源语种的文字、所述目标语种的文字与所述音频文件一一对应地存储在手机客户端的指定内存区域；

接收用户的源语种的新语音，并将所述源语种的新语音转换成对应的源语种的新文字；

判断所述指定内存区域是否存在所述源语种的新文字；

若是，调用与所述源语种的新文字一一对应的目标语种的新音频文件。

本发明还提供了一种语音翻译装置，集成于手机客户端，包括：

采集模块，用于采集用户的源语种的语音；

语音识别模块，用于对所述源语种的语音进行语音识别，将所述源语种的语音转换成对应的源语种的文字；

获取模块，用于通过调用第三方翻译接口获取所述源语种的文字对应的目标语种的音频文件。

优选地，所述获取模块，包括：

文字转换单元，用于通过调用集成于手机客户端的文字转换接口将所述源语种的文字转换成目标语种的文字；

语音合成单元，用于通过调用集成于手机客户端的语音合成接口对所述目标语种的文字进行语音合成，获得目标语种的音频文件。

优选地，所述获取模块，包括：

发送单元，用于将所述源语种的文字发送至服务器，以便服务器通过调用指定文字转换引擎和语音合成引擎，将所述源语种的文字翻译成对应的目标语种的音频文件；

接收单元，用于接收服务器反馈的所述音频文件。

优选地，上述语音翻译装置，包括：

第一判断模块，用于判断所述手机客户端内的指定播放器是否支持播放所述音频文件；

转换模块，用于若不支持播放所述音频文件，则将所述音频文件的格式转换为所述指定播放器支持的格式。

优选地，上述语音翻译装置，包括：

存储模块，用于将所述源语种的文字、所述目标语种的文字与所述音频文件一一对应地存储在手机客户端的指定内存区域；

接收模块，用于接收用户的源语种的新语音，并将所述源语种的新语音转换成对应的源语种的新文字；

第二判断模块，用于判断所述指定内存区域是否存储所述源语种的新文字；

调用模块，用于若存在所述源语种的新文字，调用与所述源语种的新文字一一对应的目标语种的新音频文件。

本发明有益技术效果：本发明通过直接在手机客户端完成将源语种的语音转换成对应的源语种的文字，并通过调用第三方翻译接口来实现对源语种的文字的文字转换和语音合成功能，提高了语音翻译的速度，并提升用户体验；另外，手机客户端会将已经翻译过的源语种的文字及其对应的目标语种的音频文件存储于本地，使得在网络离线状态下能提供对有过翻译记录的语音的离线翻译功能，方便用户对某些已经有过翻译记录的语音进行再次翻译时，能够离线直接调用本地存储的音频文件，而对于手机客户端在网络在线状态下，用户对某些已经有过翻译记录的语音进行再次翻译时，能进一步提高翻译速度。

附图说明

图1本发明一实施例的语音翻译方法的流程示意图；

图2本发明一实施例的语音翻译装置的结构示意图；

图3本发明一实施例的获取模块的结构示意图；

图4本发明另一实施例的获取模块的结构示意图；

图5本发明另一实施例的获取模块的结构示意图；

图6本发明一实施例的语音翻译装置的优化结构示意图；

图7本发明另一实施例的语音翻译装置的优化结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变，所述的连接可以是直接连接，也可以是间接连接。

参照图1，本发明一实施例的语音翻译方法；包括：

S1：手机客户端采集用户的源语种的语音。

本实施例中，在将语音从一个语种转换成另一个语种时，原来的语种就被称为源语种，而输出的语种则被称为目标语种。另外，可通过手机客户端的麦克风来采集用户的源语种的语音。

S2：对所述源语种的语音进行语音识别，将所述源语种的语音转换成对应的源语种的文字。

本实施例中，手机客户端内部集成有语音识别接口，将源语种的语音转换成对应的源语种的文字是由手机客户端直接调用集成于手机客户端的语音识别接口来完成的，从而不需要将源语种的语音发送给语音识别引擎进行语音识别，之后手机客户端再接收语音识别反馈回的对应的源语种的文字，减少了手机客户端与服务器之间的数据交互次数，提高了将源语种的语音转换成对应的源语种的文字的速度，即提高了语音翻译的速度和提升用户体验。

S3：通过调用第三方翻译接口获取所述源语种的文字对应的目标语种的音频文件。

本实施例中，通过调用第三方翻译接口获取所述源语种的文字对应的目标语种的音频文件的过程包括文字转换和语音合成两个流程，首先对步骤S2中经过语音识别后获得的源语种的文字进行文字转换来获得对应的目标语种的文字；之后对获得的目标语种的文字进行语音合成，来得到目标语种的音频文件。

进一步地，本发明一实施例中，步骤S3，包括：

S31：通过调用集成于手机客户端的文字转换接口将所述源语种的文字转换成目标语种的文字。

本实施例中，由于文字转换接口是集成于手机客户端的，故手机客户端能直接调用文字转换接口来对源语种的文字进行文字转换，来将源语种的文字转换成对应的目标语种的文字，而不需要将源语种的文字发送给文字转换引擎进行文字转换，之后手机客户端再接收文字转换引擎反馈回的经过转换后的对应的源语种的目标语种的文字，减少了手机客户端与服务器之间的数据交互次数，提高了将所述源语种的文字转换成目标语种的文字的速度，也间接提高了语音翻译的速度。

S32：通过调用集成于手机客户端的语音合成接口对所述目标语种的文字进行语音合成，获得目标语种的音频文件。

本实施例中，由于语音合成接口是集成于手机客户端的，故手机客户端能直接调用语音合成接口来对目标语种的文字进行语音合成，来将目标语种的文字转换成对应的目标语种的音频文件，而不需要将目标语种的文字发送给语音合成引擎进行语音合成，之后手机客户端再接收语音合成引擎反馈回的对应的目标语种的音频文件，减少了手机客户端与服务器之间的数据交互次数，提高了获得目标语种的音频文件的速度，即提高了语音翻译的速度。

进一步地，本发明另一实施例中，步骤S30之前，包括：

S30：根据用户的设置或所述手机客户端当前的位置信息或历史使用信息，确定所述目标语种。

本实施例中，目标语种的确定方式为多种形式，可以由用户自行设置来确定。或者，也可以通过GPS、WIFI定准、基站定位等多种方式对手机客户端进行定位，以确定手机客户端当前的位置信息，从而将手机客户端所在位置对应为用户的常用语言类型，即用作目标语种。举例地，假设通过定位，确定终端位于英国，而英国国人常用的语言类型为英语，则可以将英语确定为目标语种，从而将源语种的文字翻译为内容对应的文字形式的英语后，再将文字形式的英语转换成对应的音频文件形式的英语。

或者，还可以根据手机客户端的历史使用信息，确定手机客户端所属的用户经常将语音数据翻译为哪种语言类型，从而将历史翻译频率最高的目标语言类型确定为当前采集的源语种的语音对应的目标语种。其中，历史使用信息，可以是用户利用手机客户端进行语音翻译的历史翻译记录或其它历史使用信息，此处不作限制。

通过根据用户的设置或所述手机客户端当前的位置信息或历史使用信息，来确定所述目标语种，综合考虑了多种因素，例如用户的设置或所述手机客户端当前的位置信息或历史使用信息，来智能地判定出用户所需的目标语种，极好地提高了用户体验。

进一步地，本发明另一实施例中，步骤S3，包括：

S33：将所述源语种的文字发送至服务器，以便服务器通过调用指定文字转换引擎和语音合成引擎，将所述源语种的文字翻译成对应的目标语种的音频文件。

本实施例中，手机客户端通过与服务器的交互，来调用指定的文字转换引擎和语音合成引擎，来将源语种的文字翻译成对应的目标语种的音频文件。优选地，手机客户端所集成的语音识别接口采用微软语音识别接口，指定的文字转换引擎采用微软翻译引擎，其中微软翻译引擎用于将源语种的文字转换成目标语种的文字，指定的语音合成引擎采用微软语音合成引擎。手机客户端先通过微软语音识别接口来将源语种的语音转换成对应的源语种的文字后，借助服务器来调用微软的语音引擎(包括微软翻译引擎与微软语音合成引擎)，来完成将源语种的语音翻译成目标语种的音频文件，翻译速度快。

S34：接收服务器反馈的所述音频文件。

本实施例中，服务器将上述音频文件发送给手机客户端，以供手机客户端进行处理。手机客户端在接收到服务器反馈的音频文件后，用户可根据自身的需求选择对音频文件进行播放或存储。

进一步地，本发明一实施例中，步骤S3之后，包括：

S4：判断所述手机客户端内的指定播放器是否支持播放所述音频文件。

S5：若否，则将所述音频文件的格式，转换为所述指定播放器支持的格式。

本实施例中，由于上述目标语种的音频文件的格式可以为多种格式，但手机客户端内的指定播放器支持播放的音频文件的格式是有限的。为了避免翻译得到的目标语种的音频文件的格式不支持在手机客户端进行播放的情况，手机客户端预先获取目标语种的音频文件的格式并判断手机客户端内的指定播放器是否支持播放，若不支持播放，则将目标语种的音频文件的格式进行转换，转换成手机客户端内的指定播放器支持播放的音频文件的格式，使得指定播放器能顺利对目标语种的音频文件进行播放，避免了用户不能通过手机客户端接听到其播放的目标语种的音频文件的情况，保障了用户的体验。

进一步地，本发明另一实施例中，步骤S3之后，包括：

S6：将所述源语种的文字、所述目标语种的文字与所述音频文件一一对应地存储在手机客户端的指定内存区域。

本实施例中，通过将源语种的文字、目标语种的文字与音频文件一一对应地存储在手机客户端的指定内存区域，能够实现当手机客户端处于网络离线状态下对存储的源语种的文字、目标语种的文字与音频文件的调用，提供对存在过翻译记录的语音的翻译功能。

S7：接收用户的源语种的新语音，并将所述源语种的新语音转换成对应的源语种的新文字。

本实施例中，接收的用户的源语种的新语音，是指与采集用户的源语种的语音的时刻不相同的新的源语种的语音，即用户的源语种的新语音是在采集用户的源语种的语音之后的时刻，才接收到的新的源语种的语音。举例地，接收的用户的源语种的新语音，可以为完成将上一个对用户的源语种的语音翻译成对应的目标语种的音频文件的整个翻译过程之后，才接收到的新的源语种的语音。

S8：判断所述指定内存区域是否存在所述源语种的新文字。

本实施例中，在将上述源语种的新语音通过调用集成于手机客户端的语音识别接口转换成对应的源语种的新文字后，手机客户端会筛选出存储有一一对应的源语种的文字、目标语种的文字与音频文件的指定内存区域内的源语种的文字，将上述源语种的新文字与指定内存区域内的源语种的文字一一匹配比对，来判断指定内存区域内是否存储有上述源语种的新文字。

S9：若是，调用与所述源语种的新文字一一对应的目标语种的新音频文件。

本实施例中，在将上述源语种的新文字与指定内存区域内的源语种的文字一一匹配比对后，如果指定内存区域内是存储有上述源语种的新文字，那么可以直接调用与上述源语种的新文字相同的源语种的文字的对应的目标语种的音频文件，在手机客户端处于网络在线状态时，可以省略掉对上述源语种的新文字的文字转换以及语音合成的步骤，提高了语音翻译的速度，而在手机客户端处于网络离线状态时，也能提供对有过翻译记录的源语种的文字的离线翻译功能，使得用户在手机客户端处于网络离线状态时也能使用部分的翻译功能，提升了用户体验。

参照图2，本发明一实施例的语音翻译装置，集成于手机客户端，包括：

采集模块1，用于采集用户的源语种的语音。

语音识别模块2，用于对所述源语种的语音进行语音识别，将所述源语种的语音转换成对应的源语种的文字。

获取模块3，用于通过调用第三方翻译接口获取所述源语种的文字对应的目标语种的音频文件。

参照图3，本发明一实施例中，上述获取模块3，包括：

文字转换单元31，用于通过调用集成于手机客户端的文字转换接口将所述源语种的文字转换成目标语种的文字。

语音合成单元32，用于通过调用集成于手机客户端的语音合成接口对所述目标语种的文字进行语音合成，获得目标语种的音频文件。

参照图4，本发明另一实施例中，上述获取模块3，还包括：

确定单元30，用于根据用户的设置或所述手机客户端当前的位置信息或历史使用信息，确定所述目标语种。

参照图5，本发明另一实施例中，上述获取模块3，包括：

发送单元33，用于将所述源语种的文字发送至服务器，以便服务器通过调用指定文字转换引擎和语音合成引擎，将所述源语种的文字翻译成对应的目标语种的音频文件。

接收单元34，用于接收服务器反馈的所述音频文件。

参照图6，本发明一实施例的语音翻译装置，包括：

第一判断模块4，用于判断所述手机客户端内的指定播放器是否支持播放所述音频文件。

转换模块5，用于若不支持播放所述音频文件，则将所述音频文件的格式转换为所述指定播放器支持的格式。

参照图7，本发明另一实施例的语音翻译装置，包括：

存储模块6，用于将所述源语种的文字、所述目标语种的文字与所述音频文件一一对应地存储在手机客户端的指定内存区域；

接收模块7，用于接收用户的源语种的新语音，并将所述源语种的新语音转换成对应的源语种的新文字；

第二判断模块8，用于判断所述指定内存区域是否存储所述源语种的新文字；

调用模块9，用于若存在所述源语种的新文字，调用与所述源语种的新文字一一对应的目标语种的新音频文件。

本发明实施例通过直接在手机客户端完成将源语种的语音转换成对应的源语种的文字，并通过调用第三方翻译接口来实现对源语种的文字的文字转换和语音合成功能，提高了语音翻译的速度，并提升用户体验；另外，手机客户端会将已经翻译过的源语种的文字及其对应的目标语种的音频文件存储于本地，使得在网络离线状态下能提供对有过翻译记录的语音的离线翻译功能，方便用户对某些已经有过翻译记录的语音进行再次翻译时，能够离线直接调用本地存储的音频文件，而对于手机客户端在网络在线状态下，用户对某些已经有过翻译记录的语音进行再次翻译时，能进一步提高翻译速度。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音翻译方法，其特征在于，包括：

手机客户端采集用户的源语种的语音；

2.根据权利要求1所述的语音翻译方法，其特征在于，所述通过调用第三方翻译接口获取所述源语种的文字对应的目标语种的音频文件的步骤，包括：

3.根据权利要求1所述的语音翻译方法，其特征在于，所述通过调用第三方翻译接口获取所述源语种的文字对应的目标语种的音频文件的步骤，包括：

接收服务器反馈的所述音频文件。

4.根据权利要求1所述的语音翻译方法，其特征在于，所述通过调用第三方翻译接口获取所述源语种的文字对应的目标语种的音频文件的步骤之后，包括：

5.根据权利要求1所述的语音翻译方法，其特征在于，所述通过调用第三方翻译接口获取所述源语种的文字对应的目标语种的音频文件的步骤之后，包括：

判断所述指定内存区域是否存在所述源语种的新文字；

6.一种语音翻译装置，集成于手机客户端，其特征在于，包括：

采集模块，用于采集用户的源语种的语音；

7.根据权利要求6所述的语音翻译装置，其特征在于，所述获取模块，包括：

8.根据权利要求6所述的语音翻译装置，其特征在于，所述获取模块，包括：

接收单元，用于接收服务器反馈的所述音频文件。

9.根据权利要求6所述的语音翻译装置，其特征在于，包括：

10.根据权利要求6所述的语音翻译装置，其特征在于，包括：

第二判断模块，用于判断所述指定内存区域是否存在所述源语种的新文字；