CN110119514A

CN110119514A - 信息的即时翻译方法、装置和系统

Info

Publication number: CN110119514A
Application number: CN201910260669.7A
Authority: CN
Inventors: 尼尔·萨霍塔; 李卓伦
Original assignee: Hangzhou Lingwosheng Intelligent Technology Co Ltd
Current assignee: Hangzhou Lingwosheng Intelligent Technology Co Ltd
Priority date: 2019-04-02
Filing date: 2019-04-02
Publication date: 2019-08-13
Also published as: WO2020198799A1

Abstract

本发明公开了一种信息的即时翻译方法、装置和系统。其中，该方法包括：获取发送端发送的信息；确定信息对应的源语言以及目标语言，其中，源语言为发送端所使用的语言类型，目标语言为接收信息的接收端所使用的语言类型；对信息进行预处理，得到预处理后的信息；将预处理后的信息由源语言翻译为目标语言，并将翻译后的信息发送至接收端。本发明解决了现有的即时翻译系统对信息进行翻译时准确度较低的技术问题。

Description

信息的即时翻译方法、装置和系统

技术领域

本发明涉及实时通信领域，具体而言，涉及一种信息的即时翻译方法、装置和系统。

背景技术

随着互联网技术的发展，人与人之间可进行即时通信，方便了人们的生活和工作。目前人们可通过文本和/或语音信息的方式与他人进行即时聊天。然而，不同国家的人在通过即时聊天软件进行沟通时，通常采用同一种语言进行沟通，由于双方语言不同，因此，在进行即时聊天时，可能会导致双方无法正确理解对方所表达的信息，影响用户体验。同样，对于同一国家不同区域的人而言，不同区域采用的方言不同，也会导致交流障碍。

虽然现有技术中已经存在能够进行即时聊天的产品，但这些产品在对语言进行翻译时，例如，对音频内容进行翻译时，尤其是对具有方言的音频内容进行翻译时，翻译的准确性较差。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种信息的即时翻译方法、装置和系统，以至少解决现有的即时翻译系统对信息进行翻译时准确度较低的技术问题。

根据本发明实施例的一个方面，提供了一种的信息的即时翻译方法，包括：获取发送端发送的信息；确定信息对应的源语言以及目标语言，其中，源语言为发送端所使用的语言类型，目标语言为接收信息的接收端所使用的语言类型；对信息进行预处理，得到预处理后的信息；将预处理后的信息由源语言翻译为目标语言，并将翻译后的信息发送至接收端。

根据本发明实施例的一个方面，提供了一种的信息的即时翻译系统，包括：发送端，用于发送信息；处理单元，用于获取信息，并检测信息对应的源语言以及目标语言，然后对信息进行预处理，得到预处理后的信息，其中，源语言为发送端所使用的语言类型，目标语言为接收信息的接收端所使用的语言类型；翻译系统，用于将预处理后的信息由源语言翻译为目标语言，并将翻译后的信息发送至接收端；接收端，用于接收语言类型为目标语言的信息。

根据本发明实施例的一个方面，提供了一种的信息的即时翻译装置，包括：获取模块，用于获取发送端发送的信息；检测模块，用于检测信息对应的源语言以及目标语言，其中，源语言为发送端所使用的语言类型，目标语言为接收信息的接收端所使用的语言类型；处理模块，用于对信息进行预处理，得到预处理后的信息；翻译模块，用于将预处理后的信息由源语言翻译为目标语言，并将翻译后的信息发送至接收端。

根据本发明实施例的另一方面，还提供了一种存储介质，该存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行信息的即时翻译方法。

根据本发明实施例的另一方面，还提供了一种处理器，该处理器用于运行程序，其中，程序运行时执行信息的即时翻译方法。

在本发明实施例中，采用对即时信息进行预处理的方式，通过在确定发送端发送的信息对应的源语言以及目标语言之后，对信息进行预处理，然后对预处理后的信息进行翻译，并将翻译后的信息发送至接收端。

在上述过程中，当接收端无法理解发送端所使用的语言时，即发送端对应的源语言与接收端对应的目标语言不同时，将发送端的信息翻译为接收端能够理解的目标语言的信息，从而达到了使发送端和接收端进行有效交流的目的。另外，在对信息进行翻译之前，首先对信息进行预处理，从而实现了提高翻译的准确度的技术效果。

由此可见，本申请所提供的方案可以解决现有的即时翻译系统对信息进行翻译时准确度较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种信息的即时翻译系统的示意图；

图2是根据本发明实施例的一种可选的即时翻译的流程图；

图3是根据本发明实施例的一种信息的即时翻译方法的流程图；

图4是根据本发明实施例的一种可选的信息翻译的框架图；

图5是根据本发明实施例的一种可选的信息翻译的流程图；

图6是根据本发明实施例的一种可选的静音检测器的检测流程图；

图7是根据本发明实施例的一种可选的语言识别的流程图；

图8是根据本发明实施例的一种可选的音频过滤的流程图；

图9是根据本发明实施例的一种可选的后处理的示意图；以及

图10是根据本发明实施例的一种信息的即时翻译装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种信息的即时翻译系统的实施例，其中，图1是根据本发明实施例的信息的即时翻译系统的示意图，如图1所示，该系统包括：客户端、处理单元以及翻译系统140。

由图1可知，客户端包括发送端110和接收端112，图1中示出了一个发送端和多个接收端，发送端与接收端之间通过网络120进行通讯；处理单元包括通讯主机130以及中间翻译系统10，其中，通讯主机130通过网络120与客户端进行通信。

具体的，发送端，用于发送信息；处理单元，用于获取信息，并检测信息对应的源语言以及目标语言，然后对信息进行预处理，得到预处理后的信息，其中，源语言为发送端所使用的语言类型，目标语言为接收信息的接收端所使用的语言类型；翻译系统，用于将预处理后的信息由源语言翻译为目标语言，并将翻译后的信息发送至接收端；接收端，用于接收语言类型为目标语言的信息。优选的，源语言与目标语言为不同种类的语言，例如，源语言为中文，目标语言为英文。

需要说明的是，发送端和接收端可以进行即时通讯/聊天，其中，发送端和接收端可以为相同类型的客户端，即时通讯/聊天包括所有类型的IP电话服务，例如，VOIP(Voiceover Internet Protocol)服务、视频会议、即时消息等。另外，发送端发送的信息可以为文本信息，也可以为音频信息，还可以为文本信息与音频信息的混合信息，而接收端所接收到的翻译后的信息可以为文本信息，也可以为音频信息，还可以为文本信息与音频信息的混合信息，即本申请可实现语音与文本之间的翻译、文本与文本之间的翻译、文本与语音之间的翻译以及语音与语音之间的翻译。可选的，上述信息可以为但不限于短消息、彩信、专用平台上的信息，例如，WhatsApp、Messenger、Instagram等。

在一种可选的实施例中，处理单元与翻译系统相互独立，翻译系统通过M2M接口与发送端和接收端进行通信，其中，M2M接口使用一个或多个应用程序编程接口(即API)，利用具有推送通知服务的网络协议进行通信。

可选的，发送端和接收端对应的操作系统可支持即时通讯/聊天的全过程。具体的，图2示出了即时翻译的流程图，其中，150为客户端(包括发送端和接收端)的信息传送平台，其中，客户端为安装在移动设备(例如，智能手机、智能手表等)或者其他计算机设备上的应用程序。在客户端110上操作的第一个用户(即用户1)能够通过注册或登录过程152进行即时信息的通信。客户端操作系统提供主菜单154，允许用户输入用户的详细信息和首选项，其中，首选项可以包括用户所选择的特定语言首选项。另外，客户端还可从其他信息(例如，用户的位置数据、设备设置数据)或数据内容解析得到用户的语言首选项，也可以从用户设置的默认信息中确定语言首选项。在确定语言首选项之后，将语言首选项存储在一个或多个位置，例如，客户端所在设备上的本地位置、通讯主机130或者中间翻译系统10中的存储器12中。需要说明的是，在确定了语言首选项之后，客户端将该语言首选项所对应的语言默认为用户所使用的语言。

由图2可知，客户端110还可与其他客户端112启动一对一会话，或在组聊会话中启动多个客户端。在即时信息建立之后，用户1可通过客户端发布信息，然后由通讯主机130进行管理。在对来自客户端110的信息进行处理时，通讯主机130需要启动初始化例程以确定接收端的语言首选项(如果通讯主机130尚不知道)。该初始化过程可向客户端112发送有关传入信息和请求信息的语言首选项的推送通知156，其中，可在接收端发布信息之前进行初始化历程。另外，如果存在多方聊天会话(即群聊)，则每个客户端112均可选择自己的语言首选项，以实现两种以上的语言的聊天会话。需要说明的是，在已知客户端112的语言首选项(例如来自以前的用户输入)或从其他信息可确定客户端112(即接收端)的语言首选项的情况下，可不执行上述初始化例程。

进一步地，通讯主机130将会话中的客户端的语言偏好信息(即语言首选项)提供给中间翻译系统10，以确定信息是否需要翻译。中间翻译系统10包括存储器12和信息处理器14，其中，信息处理器14用于进行预处理和/或后处理以提高翻译的准确性，此外，信息处理器14还用于确定发送端所使用的源语言，以及接收端所使用的目标语言，并确定源语言与目标语言是否相同，在确定源语言与目标语言不相同的情况下，通过中间翻译系统的接口将信息转发到翻译系统140，将信息翻译为目标语言对应的内容。

需要说明的是，翻译系统140可以是中间翻译系统10的专有翻译系统，也可以是商用翻译系统，还可以是混合系统，其中，在商用翻译系统中，翻译在使用专有数据的商用翻译服务中进行，混合系统主要是在特定的语料库中进行翻译，例如，特定技术领域的语料库、方言语料库等。此外，中间翻译系统还可将信息路由到多个翻译系统或子系统进行翻译，其中，中间翻译系统10与翻译系统140相互分离，使得用户的操作更具灵活性。可选的，翻译系统可以为IBM Watson Translator，它可以识别文本的语言并以编程方式将其翻译成不同的语言。

另外，中间翻译系统10还可接收翻译系统140的翻译内的，并将翻译内容返回至通讯主机130，以使通讯主机将翻译内容返给用户。该过程可由中间翻译系统10和信息处理器完成，在该过程中，中间翻译系统10充当消息总线，能够在即时通讯/聊天会话内允许同步信息，可选的，信息还可进行异步路由。

本发明还提供了一种用于对即时信息/聊天系统中的会话进行翻译的信息的即时翻译方法。需要说明的是，该方法可在上述信息的即时翻译系统中执行。其中，图3示出了该方法的流程图，由图3可知，该方法包括如下步骤：

步骤S302，获取发送端发送的信息。

在步骤S302中，信息可以为文本信息，也可以为以音频信息，还可以为文本信息与音频信息的混合信息，可选的，上述信息可以为但不限于短消息、彩信、专用平台上的信息，例如，WhatsApp、Messenger、Instagram等。

步骤S304，检测信息对应的源语言以及目标语言，其中，源语言为发送端所使用的语言类型，目标语言为接收信息的接收端所使用的语言类型。

可选的，优选的，源语言与目标语言为不同种类的语言，例如，源语言为中文，目标语言为英文。

在一种可选的方案中，通讯主机130可通过客户端设置的语言首选项来确定信息对应的源语言，以及接收端所对应的目标语言。另外，通讯主机130还可通过检测发送端所发送的信息来确定信息对应的语言。

步骤S306，对信息进行预处理，得到预处理后的信息。

需要说明的是，为了提高信息翻译的准确度，在对信息进行翻译之前，处理单元首先对信息进行预处理，并将预处理后的信息发送至翻译系统，由翻译系统进行翻译，可以提高翻译的准确度。其中，对信息进行预处理包括但不限于对音频信息进行静音检测、扬声器识别以及噪声净化，对文本信息进行标点检测。

步骤S308，将预处理后的信息由源语言翻译为目标语言，并将翻译后的信息发送至接收端。

需要说明的是，为提高翻译的准确性，翻译系统在对预处理后的信息进行翻译之后，还对翻译后的信息进行后处理，其中，后处理包括但不限于通过标点模型对翻译后的文本进行处理。

基于上述步骤S302至步骤S308所限定的方案，可以获知，采用对即时信息进行预处理的方式，通过在确定发送端发送的信息对应的源语言以及目标语言之后，对信息进行预处理，然后对预处理后的信息进行翻译，并将翻译后的信息发送至接收端。

容易注意到的是，当接收端无法理解发送端所使用的语言时，即发送端对应的源语言与接收端对应的目标语言不同时，将发送端的信息翻译为接收端能够理解的目标语言的信息，从而达到了使发送端和接收端进行有效交流的目的。另外，在对信息进行翻译之前，首先对信息进行预处理，从而实现了提高翻译的准确度的技术效果。

在一种可选的方案中，通讯主机130可通过如下任意一种方式确定信息对应的源语言：根据发送端所确定的语言首选项确定源语言，例如，发送端默认使用的语言(即语言首选项)为中文，则确定源语言为中文；根据发送端的位置信息确定源语言，具体的，通讯主机可检测客户端所在的位置，并根据具体的位置信息来确定发送端所使用的语言，例如，检测到客户端位于广东，则确定发送端使用的语言为粤语；对信息进行解析，得到解析结果，并根据解析结果确定源语言，例如，发送端发送了一段英文文字的信息，则确定发送端对应的源语言为英文。

需要说明的是，接收端对应的目标语言的确定方式与发送端的源语言的确定方式相同，在此不再赘述。

进一步地，在检测信息对应的源语言以及目标语言之后，通讯主机检测源语言和目标语言是否相同，其中，在检测到源语言与目标语言不同的情况下，对信息进行预处理；在检测到源语言与目标语言相同的情况下，发送信息至接收端，即在该种情况下，不再对发送端发送的信息进行翻译，直接将信息发送至接收端。

需要说明的是，在本申请中，发送端发送的信息可以为文本信息，也可以为音频信息。同样，接收端接收到的翻译后的信息也可以为文本信息，还可以为音频信息。可选的，发送端发送的信息与接收端接收到的信息可以为不同种类的信息，例如，发送端发送的信息为文本信息，接收端接收到的信息可以为文本信息，还可以为音频信息。

在一种可选的实施例中，图4示出了信息翻译的框架图，在图4中，信息传送平台150可以为行政商务版手表、生活时尚版手表、iOS手机、安卓手机、Chorme web浏览器以及火狐web浏览器等。信息传送平台可通过安全API与中间翻译系统10进行通讯，还可通过HTTP层的通讯系统160与中间翻译系统10进行通讯，其中，通讯系统160通过API与中间翻译系统通信。

可选的，翻译系统140包括多个子翻译系统，如在图4中，翻译系统包括140a、140b和140c三个子翻译系统，其中，第一子系统140a用于将音频信息翻译为文本信息，第二子系统140b用于将文本信息翻译为文本信息，第三子系统140c用于将文本信息翻译为音频信息。进一步地，第一子系统140a通过IPC(Inter-Process Communication，进程间通信)与SST模型训练的方式，将音频信息翻译为文本信息；第二子系统140b通过IPC与翻译模块进行通讯，将文本信息翻译为文本信息；第三子系统140c通过IPC与TTS(Text To Speech，从文本到语音)模型训练的方式，将文本信息翻译为音频信息。

在另一种可选的方案中，图5示出了信息翻译的流程图，具体的，信息传送平台150通过通讯主机将信息发送至内容处理器14中，如果信息为音频信息，则内容处理器14中的音频预处理模块16对音频信息进行处理，并将处理后的音频信息传送至翻译系统140中的第一子系统140a中进行翻译，然后再将翻译后的信息传送至第二系统140b进行再次翻译，得到翻译结果。最后将翻译结果返回至后处理模块18中，由后处理模块对翻译结果进行组合，并添加标点符号。然后根据需求将组合后的文本信息传送至第三子系统140c，或者经由通讯主机130返回至信息传送平台150。可选的，在上述过程中，音频预处理模块16可以为数字信号处理器。

在信息为文本信息的情况下，内容处理器14中的文本处理模块对文本信息进行处理，以检查不完整的标点符号，然后将原始的文本信息直接传递到第二子系统140b进行翻译，并对翻译后的文本信息进行标点符号的检查，再次将翻译后的文本信息传递至消息传送平台150，或者通过第三子系统140c将翻译后的文本信息输出为音频信息。

需要说明的是，如果源语言与目标语言相同，则可以将信息直接路由至信息传送平台。

在一种可选的实施例中，在信息为音频信息的情况下，中间翻译系统可对信息进行预处理，得到预处理后的信息。具体的，中间翻译系统对音频信息进行分组处理，得到多组子音频信息，其中，每组子音频信息具有相同的音频时长。然后，分别提取每组子音频信息中的特征信息。

可选的，每组子音频信息可以为一个音频数据包，其中，中间翻译系统可将音频信息分离成预定持续时长的音频帧，并检测每个音频帧内的语音特征，然后根据语音特征对多个音频帧进行分组，从而得到音频数据包，即上述子音频信息。

需要说明的是，由于音频时长较短的子音频信息不存在翻译服务上下文偏差的情况下，因此，对音频信息进行划分，可以提高音频信息的翻译的准确性。

可选的，对音频信息进行预处理主要包括三个阶段，即静音检测阶段、语言识别阶段以及过滤阶段。

具体的，在静音检测阶段中，音频预处理模块从音频信息中提取静音信息，并根据静音信息对音频信息进行分组处理，得到多组子音频信息。如图6所示的静音检测器的检测流程图，首先静音检测器对原始的音频信息流进行处理，以将其分组为音频数据包(即子音频信息)。需要说明的是，由于每个音频数据包可被单独翻译，可以避免翻译过程中的上下文差异，因此，将音频信息转换为较小的多个子音频信息，然后再对子音频信息进行翻译，并将翻译后的信息进行重组，得到长文本字符串，可以提高翻译的准确度。另外，为了使翻译结果具有上下文的关联性，音频预处理模块还可在预处理中提取音频信息的特征，并将提取到的特征应用在后处理模块18的标点符号模型，并经过适当训练。

需要说明的是，音频信息的特征具有不随时间变化的特性。在图6中，静音检测器通过语音窗口对音频信息进行截取，得到光谱特征，并将光谱特征缓存到缓冲区中，其中，语音窗口为一个时间窗口。可选的，截取到的光谱特征为平稳的信号。然后再使用具有有60％重叠的20ms的帧块对光谱特征进行分割，得到音频帧。然后使用傅立叶分析对音频帧进行语音活动检测(Voice Activity Detection，简称VAD)，其中，由于非重叠帧存在易切断语音窗口的边界处信号的问题，因此，在对音频帧进行语音活动检测的过程中，优先使用重叠帧。然后通过多线性傅里叶分析计算每个音频帧的能量，并计算预设时长内的音频帧的能量的平均值和标准偏差，并根据平均值和标准偏差来确定该音频帧的类型，其中，音频帧的类型包括噪声和静音，预设时长可以为500ms。

进一步地，在确定噪声和静音之后，可以确定每个样本(即预设时长内的音频帧，从第一个音频帧到最后一个音频帧)的1d马氏距离是否大于阈值。根据高斯分布，去除阈值大于等于97％的音频帧，生成音频数据包，如图6中，去除了虚线框标识的音频帧，剩余的音频帧生成音频数据包。另外，对音频数据包进行特征提取，可以提取到频率、幅度谱、阈值以及功率谱密度(Power Spectral Density，简称PSD)等特征。

需要说明的是，在得到多个音频帧之后，静音检测器将连续的样本组合在一起，以生成用于下一步处理的音频数据包。这些收集到的样本由静默的阈值长度定义，其中，静默的持续时间可以为1秒。语音活动中的静默代表句子的停顿，重组后的音频数据包代表了音频信息中的句子。

进一步地，在得到音频数据包之后，语言识别器对每组子音频信息进行频谱分析，得到分析结果，然后根据分析结果分别对每组子音频信息进行特征提取，得到特征信息，其中，特征信息包括如下至少之一：长时谱能量差异的频率系数、节距与畸变系数、音频速率、发音速率、音节速率、发音时间速率比。

具体的，图7示出了语言识别的流程图，其中，首先语言识别器对音频数据包进行频谱分析，得到分析结果，然后根据分析结果对音频数据包进行特征提取，如图7中的α。其中，所提取的特征以及其他有助于翻译的特征与建立的音频指纹相互兼容，包括基于存储在存储器12中或检索到的已建立的方言模型来识别目标语言的方言。

另外，在提取到特征信息之后，建立音频指纹库，将特征信息与音频指纹库中的音频数据进行匹配，然后根据匹配结果对音频数据包进行分组，如图7中，经过特征信息匹配之后，确定每个音频数据包的指纹特征，然后将具有相同指纹特征的音频数据包划分为一组，在图7中，特征信息P1和特征信息P3具有相同的指纹特征，划分至Tag1中，特征信息P2划分至Tag2中。

需要说明的是，在上述过程中，所提取到的特征还可用来与存储在内容处理器中的方言模型进行比较，以识别目标语言的任何特定方言。然后，将该方言与音频数据包进行关联并传送到翻译系统140中，以提高翻译准确度。

为提高信息的翻译准确度，在过滤阶段，过滤器还对特征信息进行过滤处理，具体的，音频预处理模块对特征信息进行过滤或放大处理，得到处理后的特征信息，并基于处理后的特征信息分别将每组子音频信息翻译为目标语言的文本信息，然后对文本信息进行组合处理，得到组合后的文本信息，最后对组合后的文本信息进行标点处理，得到目标文本信息。

对于方言的识别，音频预处理模块首先对特征信息进行过滤或放大处理，得到处理后的特征信息，然后从方言模型中确定与处理后的特征信息相匹配的方言信息，根据方言信息分别将每组子音频信息翻译为目标语言的文本信息，并对文本信息进行组合处理，得到组合后的文本信息，最后对组合后的文本信息进行标点处理，得到目标文本信息。

可选的，以对图7中的Tag1中的音频数据包进行处理为例进行说明。如图8所示的音频过滤的流程图，其中，对音频数据包进行过滤，可以达到增强音频信息并抑制噪声(例如，其他说话者的声音、环境周围的噪声等)的目的。可选的，可以采用数字滤波器对音频信息的特性信息进行放大和截断，使之更适合于数学模型。其中，数字滤波器包括高通滤波器和预加重滤波器，高通滤波器用于滤除频率较高但能量较低的环境噪声；预加重滤波器在增强高频的同时减弱低频，从而使音频信息的频谱更加平稳。

具体的，在图8中，1表示说话者的语音，2表示近处的噪声，3表示远处的噪声，通过对Tag1进行频谱分析，可以确定每个音频数据包所对应的特征信息，并对频谱分析的结果进行自适应分析和调整，进而完成对音频数据包的噪声过滤。在对噪声净化之后，音频数据包被传递到翻译系统140。可选的，音频数据包包括用于发起翻译请求的信息、源语言、目标语言、音频的相关信息(例如，样本大小、采样率、编码格式)以及方言。

在一种可选的实施例中，在信息为文本信息的情况下，处理单元基于深度学习模型对文本信息进行预处理，得到预处理后的信息，然后翻译系统对预处理后的信息进行翻译，得到翻译后的文本信息，并对翻译后的文本信息进行标点处理，得到目标文本信息。可选的，上述深度学习模型可以为但不限于RNN(Recurrent Neural Network，循环神经网络)模型。

在另一种可选的实施例中，在信息为文本信息的情况下，处理单元基于深度学习模型对文本信息进行预处理，得到预处理后的文本信息，然后翻译系统将预处理后的文本信息生成目标音频信息，其中，目标音频信息的语言类型为目标语言。可选的，目标音频信息的格式可以为但不限于wav(单声道和立体声)格式和flac格式，目标音频信息可以由男性声音播放，也可以由女性声音播放，优选的，与发送者相同性别的声音播放目标音频信息的声音。

需要说明的是，为了进一步提高翻译精度，在得到翻译结果之后，还可对翻译结果进行后处理(即翻译后的处理)。通常，预处理有助于改善语音输入工作流程。但是，后处理有助于通过句子和标点符号识别来改进文本结果。

可选的，如图9所示的后处理的示意图，在后处理过程中，通过重新组合文本信息，并添加标点符号来对上下文的语义进行调整。其中，在图9中，标点符号模型60以编程方式将标点符号添加到组合和翻译的文本中。通常，对于每个音频信息，在预处理阶段中生成多个音频数据包，并分别对其进行翻译；后处理阶段接收翻译后的音频数据包，并按照顺序对音频数据包进行组装，标点符号模型将标点符号应用于组合文本。标点符号模型60用于训练语法和标点文本。另外，还可将预处理阶段获得的特征信息输入到标点符号模型60中，以辅助模型决策。这些特征也用于标点符号模型60的训练，后处理阶段的输出由语言专家定期检查(即进行专家评审)，进行进一步的常规分析，分析前期执行的输入，并计算在不同样本大小下进行比较的比较矩阵，然后根据反馈来调整后处理模型以提高准确性

由上述内容可知，本申请所提供的方案，利用音频数据的预处理的组合来解析音频数据的句子，并通过使用来自预处理阶段的标点模型和数据对翻译的音频数据进行后处理，与现有的翻译服务相比，显著提高了翻译的准确度。

本发明还提供了一种信息的即时翻译装置，其中，图10示出了该装置的示意图，由图10可知，该装置包括：获取模块1001、检测模块1003、处理模块1005以及翻译模块1007。

其中，获取模块1001，用于获取发送端发送的信息；检测模块1003，用于检测信息对应的源语言以及目标语言，其中，源语言为发送端所使用的语言类型，目标语言为接收信息的接收端所使用的语言类型；处理模块1005，用于对信息进行预处理，得到预处理后的信息；翻译模块1007，用于将预处理后的信息由源语言翻译为目标语言，并将翻译后的信息发送至接收端。

此处，需要说明的是，上述获取模块1001、检测模块1003、处理模块1005以及翻译模块1007对应于实施例1中的步骤S302至步骤S308，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例所公开的内容。

需要说明的是，本实施例所提供的信息的即时翻译装置可执行实施例中的信息的即时翻译方法，相关内容已在上述实施例中进行说明，在此不再赘述。

根据本发明实施例的另一方面，还提供了一种存储介质，该存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述的信息的即时翻译方法。

根据本发明实施例的另一方面，还提供了一种处理器，该处理器用于运行程序，其中，程序运行时执行上述的信息的即时翻译方法。

本发明所属领域的技术人员将理解，在不脱离本发明的精神和范围的情况下，可以进行许多修改。

应理解，如果本文提及任何现有技术出版物，则此类参考不构成承认该出版物形成本领域公知常识的一部分。

在以下和前面的描述中的权利要求中，除非上下文由于明确的语言或必要的含义而另外要求，否则词语“包括”或诸如“包括”或“包含”的变体以包含的含义使用，即，指定所述特征的存在但不排除在本公开的各种实施例中存在或添加其他特征。

Claims

1.一种信息的即时翻译方法，其特征在于，包括：

获取发送端发送的信息；

检测所述信息对应的源语言以及目标语言，其中，所述源语言为所述发送端所使用的语言类型，所述目标语言为接收所述信息的接收端所使用的语言类型；

对所述信息进行预处理，得到预处理后的信息；

将所述预处理后的信息由所述源语言翻译为所述目标语言，并将翻译后的信息发送至所述接收端。

2.根据权利要求1所述的方法，其特征在于，通过如下任意一种方式确定所述信息对应的源语言，包括：

根据所述发送端所确定的语言首选项确定所述源语言；

根据所述发送端的位置信息确定所述源语言；

对所述信息进行解析，得到解析结果，并根据所述解析结果确定所述源语言。

3.根据权利要求1所述的方法，其特征在于，在检测所述信息对应的源语言以及目标语言之后，所述方法还包括：

检测所述源语言和所述目标语言是否相同；

在检测到所述源语言与所述目标语言不同的情况下，对所述信息进行所述预处理；

在检测到所述源语言与所述目标语言相同的情况下，发送所述信息至所述接收端。

4.根据权利要求1所述的方法，其特征在于，在所述信息为音频信息的情况下，对所述信息进行预处理，得到预处理后的信息，包括：

对所述音频信息进行分组处理，得到多组子音频信息，其中，每组子音频信息具有相同的音频时长；

分别提取所述每组子音频信息中的特征信息。

5.根据权利要求4所述的方法，其特征在于，对所述音频信息进行分组处理，得到多组子音频信息，包括：

从所述音频信息中提取静音信息；

根据所述静音信息对所述音频信息进行分组处理，得到所述多组子音频信息。

6.根据权利要求4所述的方法，其特征在于，分别提取所述每组子音频信息中的特征信息，包括：

对所述每组子音频信息进行频谱分析，得到分析结果；

根据所述分析结果分别对所述每组子音频信息进行特征提取，得到所述特征信息，其中，所述特征信息包括如下至少之一：长时谱能量差异的频率系数、节距与畸变系数、音频速率、发音速率、音节速率、发音时间速率比。

7.根据权利要求4所述的方法，其特征在于，将所述预处理后的信息由所述源语言翻译为所述目标语言，包括：

对所述特征信息进行过滤或放大处理，得到处理后的特征信息；

基于所述处理后的特征信息分别将所述每组子音频信息翻译为所述目标语言的文本信息；

对所述文本信息进行组合处理，得到组合后的文本信息；

对所述组合后的文本信息进行标点处理，得到目标文本信息。

8.根据权利要求4所述的方法，其特征在于，将所述预处理后的信息由所述源语言翻译为所述目标语言，包括：

从方言模型中确定与所述处理后的特征信息相匹配的方言信息；

根据所述方言信息分别将所述每组子音频信息翻译为所述目标语言的文本信息；

对所述文本信息进行组合处理，得到组合后的文本信息；

9.根据权利要求1所述的方法，其特征在于，在所述信息为文本信息的情况下，

对所述信息进行预处理，得到预处理后的信息，包括：基于深度学习模型对所述文本信息进行预处理，得到所述预处理后的信息；

将所述预处理后的信息由所述源语言翻译为所述目标语言，包括：对所述预处理后的信息进行翻译，得到翻译后的文本信息，并对所述翻译后的文本信息进行标点处理，得到目标文本信息。

10.根据权利要求1所述的方法，其特征在于，在所述信息为文本信息的情况下，

对所述信息进行预处理，得到预处理后的信息，包括：基于深度学习模型对所述文本信息进行预处理，得到预处理后的文本信息；

将所述预处理后的信息由所述源语言翻译为所述目标语言，包括：将所述预处理后的文本信息生成目标音频信息，其中，所述目标音频信息的语言类型为所述目标语言。

11.一种信息的即时翻译系统，其特征在于，包括：

发送端，用于发送信息；

处理单元，用于获取所述信息，并检测所述信息对应的源语言以及目标语言，然后对所述信息进行预处理，得到预处理后的信息，其中，所述源语言为所述发送端所使用的语言类型，所述目标语言为接收所述信息的接收端所使用的语言类型；

翻译系统，用于将所述预处理后的信息由所述源语言翻译为所述目标语言，并将翻译后的信息发送至所述接收端；

所述接收端，用于接收语言类型为所述目标语言的信息。

12.根据权利要求11所述的系统，其特征在于，所述翻译系统通过M2M接口与所述发送端和所述接收端进行通信，其中，所述M2M接口使用一个或多个应用程序编程接口，利用具有推送通知服务的网络协议进行通信。

13.根据权利要求11所述的系统，其特征在于，所述处理单元与所述翻译系统相互独立。

14.一种信息的即时翻译装置，其特征在于，包括：

获取模块，用于获取发送端发送的信息；

检测模块，用于检测所述信息对应的源语言以及目标语言，其中，所述源语言为所述发送端所使用的语言类型，所述目标语言为接收所述信息的接收端所使用的语言类型；

处理模块，用于对所述信息进行预处理，得到预处理后的信息；

翻译模块，用于将所述预处理后的信息由所述源语言翻译为所述目标语言，并将翻译后的信息发送至所述接收端。

15.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至10中任意一项所述的信息的即时翻译方法。

16.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至10中任意一项所述的信息的即时翻译方法。