CN112487833A

CN112487833A - 一种机器翻译方法及其翻译系统

Info

Publication number: CN112487833A
Application number: CN202011386106.1A
Authority: CN
Inventors: 王晓东; 梁镇爽; 张慧; 张扬
Original assignee: Global Tone Communication Technology Co ltd
Current assignee: Global Tone Communication Technology Co ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-03-12

Abstract

本发明实施例涉及计算机技术领域，具体公开了一种机器翻译方法及其翻译系统，用于将第一语言内容翻译为第二语言内容。本发明实施例提供的机器翻译方法及其翻译系统中通过对获取到第一语言内容进行分词处理并转化为词向量，通过调用训练好的翻译模型，将所述第一语言词向量与翻译模型中的第二语言词向量进行匹配，基于所述第一语言词向量与所述第二语言词向量的相似度，得到第一语言词向量在所述第二语言中对应的字或词，并对每个所述字或词进行排序组合，从而获得并输出与所述第一语言内容相对应的第二语言内容，从而实现将第一语言内容翻译为第二语言内容，解决了机器翻译模型在机器翻译的应用中，机器翻译速度较慢且准确度不高的问题。

Description

一种机器翻译方法及其翻译系统

技术领域

本发明实施例涉及计算机技术领域，具体是一种机器翻译方法及其翻译系统。

背景技术

机器翻译，又称为自动翻译，是利用计算机将一种自然语言转换为另一种自然语言的过程。它是计算语言学的一个分支，也是人工智能的终极目标之一。机器翻译技术的发展一直与计算机技术、信息论、语言学等学科的发展紧密相随。从早期的词典匹配，到词典结合语言学专家知识的规则翻译，再到基于语料库的统计机器翻译，随着计算机计算能力的提升和多语言信息的爆发式增长。

相关技术中，针对特定领域的机器翻译，需要设置特定的机器学习模型进行翻译，也即通过该特定领域的翻译语料样本对机器学习模型进行训练后，得到训练后的该特定领域的特定机器学习模型，并应用该特定机器学习模型对该特定领域的待翻译语句进行翻译。目前在进行机器翻译时，通常将待翻译信息以一定的划分单位划分成信息单元，对单个信息单元独立地进行翻译，例如，将信息单元依次输入到翻译模型中，翻译模型输出概率最大的译文信息。然而，这种方式得到的译文信息往往准确度不高，尤其是在实时翻译等对翻译速度要求较高的场景中，信息单元的信息粒度较小，因此译文信息的准确性更加难以得到保证，造成了采用上述方法得到的机器翻译模型在机器翻译的应用过程中，机器翻译速度较慢且准确度不高的问题。

发明内容

本发明实施例的目的在于提供一种机器翻译方法及其翻译系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明实施例提供如下技术方案：

一种机器翻译方法，用于将第一语言内容翻译为第二语言内容，所述方法包括：

获取第一语言内容，对所述第一语言内容进行处理，得到第一语言词语集；

调用word2vec模型，将所述第一语言词语集转化为第一语言词向量；

调用训练好的翻译模型，将所述第一语言词向量与翻译模型中的第二语言词向量进行匹配，得到所述第一语言词向量与所述第二语言词向量的相似度，并基于所述相似度，得到第一语言词向量在所述第二语言中对应的字或词，并对每个所述字或词进行排序组合，获得并输出与所述第一语言内容相对应的第二语言内容。

作为本发明实施例技术方案进一步的限定，在获取第一语言内容的步骤之前，所述机器翻译方法还包括构建翻译模型的步骤，所述构建翻译模型具体包括：

获取第一语言训练内容的标准文本、以及与所述第一语言训练内容的标准文本相对应的第二语言训练内容文本；

将所述第一语言训练内容的标准文本转化为第一语言训练内容的变形文本；

将所述第一语言训练内容的标准文本、第一语言训练内容的变形文本以及第二语言训练内容文本作为翻译模型的训练数据，并根据所述训练数据训练并构建所述翻译模型。

作为本发明实施例技术方案进一步的限定，所述方法还包括对输出的第二语言内容进行修正的步骤，所述对输出的第二语言内容进行修正的步骤具体包括：

对所述第二语言内容的字符进行特征提取，得到所述第二语言内容字符的语义特征，并根据得到的语义特征确定所述第二语言内容字符的语义表示；

基于所述第二语言内容字符的语义特征和所述第二语言内容字符的语义表示，确定当前对所述第二语言内容中各字符的操作标签，根据与所述操作标签对应的修正方式对所述第二语言内容的各字符进行修正，获得修正后的第二语言内容。

作为本发明实施例技术方案进一步的限定，在所述获取第一语言内容的步骤中，采用用户终端对用户所在场景进行内容识别，以获取第一语言内容；所述用户终端包括可穿戴设备或移动设备。

作为本发明实施例技术方案进一步的限定，所述获取第一语言内容的步骤包括：

接收文本信息，将所述文本信息确定为第一语言内容。

接收语音信息，对所述语音信息进行语音识别，将语音识别的文本信息确定为第一语言内容。

接收图像信息，对所述图像信息进行OCR识别，将OCR识别的文本信息确定为第一语言内容。

作为本发明实施例技术方案进一步的限定，所述对所述第一语言内容进行处理的步骤包括：对所述第一语言内容进行分词处理，得到第一语言词语集；

其中，所述分词处理包括：将包含第一语言内容的语句集与词典中的词条进行匹配，得到所述第一语言内容的语句集的分词结果，并将所述分词结果用空格符号隔开。

一种机器翻译系统，用于将第一语言内容翻译为第二语言内容，所述系统包括：获取模块，用于获取第一语言内容，对所述第一语言内容进行处理，得到第一语言词语集；

转化模块，用于调用word2vec模型，将所述第一语言词语集转化为第一语言词向量；以及

翻译模块，用于调用训练好的翻译模型，将所述第一语言词向量与翻译模型中的第二语言词向量进行匹配，得到所述第一语言词向量与所述第二语言词向量的相似度，并基于所述相似度，得到第一语言词向量在所述第二语言中对应的字或词，并对每个所述字或词进行排序组合，获得并输出与所述第一语言内容相对应的第二语言内容。

作为本发明实施例技术方案进一步的限定，所述系统还包括模型构建模块，所述模型构建模块包括：

文本获取单元，用于获取第一语言训练内容的标准文本、以及与所述第一语言训练内容的标准文本相对应的第二语言训练内容文本；

文本转化单元，用于将所述第一语言训练内容的标准文本转化为第一语言训练内容的变形文本；以及

模型训练单元，用于将所述第一语言训练内容的标准文本、第一语言训练内容的变形文本以及第二语言训练内容文本作为翻译模型的训练数据，并根据所述训练数据训练并构建所述翻译模型。

与现有技术相比，在本发明实施例提供的机器翻译方法中，通过对获取到第一语言内容进行分词处理并转化为词向量，通过调用训练好的翻译模型，将所述第一语言词向量与翻译模型中的第二语言词向量进行匹配，基于所述第一语言词向量与所述第二语言词向量的相似度，得到第一语言词向量在所述第二语言中对应的字或词，并对每个所述字或词进行排序组合，从而获得并输出与所述第一语言内容相对应的第二语言内容，从而实现将第一语言内容翻译为第二语言内容，解决了现有技术中机器翻译模型在机器翻译的应用过程中，机器翻译速度较慢且准确度不高的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。

图1为本发明实施例提供的适用于本发明实施例的机器翻译方法的网络结构图。

图2为本发明实施例一提供的机器翻译方法的流程图。

图3为本发明实施例二提供的机器翻译方法中构建翻译模型的流程框图。

图4为本发明实施例三提供的机器翻译方法中对输出的第二语言内容进行修正的步骤的流程框图。

图5为本发明实施例四提供的机器翻译系统的原理框图。

图6为本发明实施例五提供的机器翻译系统的原理框图。

图7为本发明实施例五提供的机器翻译系统中模型构建模块的结构框图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

机器翻译是利用计算机将一种自然语言转换为另一种自然语言的过程，随着计算机计算能力的提升和多语言信息的爆发式增长。相关技术中，针对特定领域的机器翻译，需要设置特定的机器学习模型进行翻译，也即通过该特定领域的翻译语料样本对机器学习模型进行训练后，得到训练后的该特定领域的特定机器学习模型，并应用该特定机器学习模型对该特定领域的待翻译语句进行翻译。

目前在进行机器翻译时，通常将待翻译信息以一定的划分单位划分成信息单元，对单个信息单元独立地进行翻译，这种方式得到的译文信息往往准确度不高，尤其是在实时翻译等对翻译速度要求较高的场景中，信息单元的信息粒度较小，因此译文信息的准确性更加难以得到保证，存在翻译速度较慢且准确度不高的问题。

本发明实施例针对现有技术中存在的翻译速度较慢且准确度不高的问题，通过对获取到第一语言内容进行分词处理并转化为词向量，通过调用训练好的翻译模型，将所述第一语言词向量与翻译模型中的第二语言词向量进行匹配，基于所述第一语言词向量与所述第二语言词向量的相似度，得到第一语言词向量在所述第二语言中对应的字或词，并对每个所述字或词进行排序组合，从而获得并输出与所述第一语言内容相对应的第二语言内容，从而实现将第一语言内容翻译为第二语言内容，不仅提高了翻译效率，还有效保证将第一语言内容翻译为第二语言内容的准确度。

其中，请参考图1，图1示出了可以应用本公开的机器翻译方法及其翻译系统的实施例的示例性系统架构10。

具体的，如图1所示，系统架构10可以包括用户终端11、网络12和服务器13。网络12可以是用以在用户终端11和服务器13之间提供通信链路的介质。网络12可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用用户终端11通过网络12与服务器13交互，以接收或发送消息等。用户终端11上可以安装有各种通讯客户端应用，例如机器翻译类应用、通话类应用、直播类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

用户终端11可以是硬件，也可以是软件。当用户终端11为硬件时，可以是具有通信功能的各种电子设备，包括但不限于可穿戴设备和移动设备等等。当用户终端11为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器13可以是提供各种服务的服务器，例如对用户终端11上的机器翻译类应用支持的后台服务器。服务器13可以接收用户终端11发送的第一语言内容。然后，服务器13可以对第一语言内容进行处理，得到第二语言内容。然后，服务器13可以将处理结果(第二语言内容)返回至用户终端11进行播放或者显示。

需要说明的是，本公开实施例所提供的机器翻译方法一般由服务器13执行，相应地，机器翻译装置一般设置于服务器13中。可选的，本公开实施例所提供的机器翻译方法也可以由用户终端11执行。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

实施例一：图2示出了本发明实施一提供的机器翻译方法的流程图。

该机器翻译方法，用于将第一语言内容翻译为第二语言内容，包括以下步骤：

步骤S100：获取第一语言内容，对所述第一语言内容进行处理，得到第一语言词语集；

在本实施例中，通过用户终端11获取第一语言内容，用户终端11将其获取的第一语言内容发送至作为执行主体的服务器13，即服务器13接收来自所述用户终端11的第一语言内容，并对第一语言内容进行处理，从而得到所需的第一语言词语集。

具体的，在本发明通过的优选实施方式中，在所述获取第一语言内容的步骤中，采用用户终端11对用户所在场景进行内容识别，以获取所述第一语言内容。

其中，所述用户终端11包括但不限于可穿戴设备、移动设备等等。

具体的，在本发明提供的一个优选实施方式中，所述获取第一语言内容的步骤包括：接收文本信息，将所述文本信息确定为第一语言内容。

在本发明实施例中，所述第一语言内容为可以进行直接获取的文本信息，该文本信息可以是用户通过所述的用户终端11进行键入，从而可直接获取文本信息。

另外，在本发明提供的又一个优选实施方式中，所述获取第一语言内容的步骤包括：接收语音信息，对所述语音信息进行语音识别，将语音识别的文本信息确定为第一语言内容。

在本发明提供的实施例中，对第一语言内容的获取可以是对语言信息中的文本信息进行间接的获取，即本发明实施例通过对用户的语音信息进行收录，然后利用所述用户终端11所携带的语音识别模块将语音信息转换为更为直观的文本信息，语音信息经语音识别模块转化为文本信息，该文本信息作为所述第一语言内容。

可以理解的是，在本发明提供的再一个优选实施方式中，所述获取第一语言内容的步骤包括：接收图像信息，对所述图像信息进行OCR识别，将OCR识别的文本信息确定为第一语言内容。

在本发明提供的实施例中，对通过用户终端11获取到的图像信息进行OCR扫描，获取扫描得到的目标文本；

具体的，在本发明实施例中，用户可以先通过用户终端11确定需要进行OCR识别的文本以及承载该文本的目标图片信息，然后对目标图像信息进行OCR扫描，从而得到识别出来的目标文本信息。

可以理解的是，上述对所述图像信息进行OCR识别的步骤可以实时获取扫描的结果，例如，用户手持包含OCR产品的用户终端11扫描目标图像信息上的文本时，可以一般扫描文本的同时，OCR产品实时地输出相应的识别结果，也即可以获取到该目标文本信息。随着用户拖动OCR产品对目标图像上的文本持续扫描，则相应获取扫描得到的目标文本信息也会持续增加，将OCR识别的目标文本信息确定为第一语言内容。

在本发明提供的又一个优选实施方式中，所述对所述第一语言内容进行处理的步骤包括：对所述第一语言内容进行分词处理，得到第一语言词语集。

其中，在本发明实施例中，所述的分词处理包括：将包含第一语言内容的语句集与词典中的词条进行匹配，得到所述第一语言内容的语句集的分词结果，并将所述分词结果用空格符号隔开。

所述将包含第一语言内容的语句集与词典中的词条进行匹配采用正向最大匹配法，所述正向最大匹配法的思想为从左到右将第一语言内容的语句文本中的几个连续字符与词典中的词条进行匹配，如果匹配上，则切分出一个词。

步骤S200：调用word2vec模型，将所述第一语言词语集转化为第一语言词向量；

Word2vec是用来产生词向量的模型，用来训练以重新建构语言学之词文本。

在本发明实施例提供的步骤S200中，作为执行主体的服务器13对调用word2vec模型，通过word2vec模型对服务器13所接收的来自所述用户终端11的第一语言内容进行转化为词向量的处理，从而得到所述的第一语言词向量。

步骤S300：调用训练好的翻译模型，将所述第一语言词向量与翻译模型中的第二语言词向量进行匹配，得到所述第一语言词向量与所述第二语言词向量的相似度，并基于所述相似度，得到第一语言词向量在所述第二语言中对应的字或词，并对每个所述字或词进行排序组合，获得并输出与所述第一语言内容相对应的第二语言内容。其中，选取相似度最大的词向量有助于提高翻译的精准度，另外，对字词的排列组合过程中，可依据第一语言内容在标准语言中的含义进行组合。

实施例二：在本发明实施例一提供的在获取第一语言内容的步骤之前，所述机器翻译方法还包括：步骤S800，构建翻译模型。

其中，图3示出了本实施例提供的机器翻译方法中构建翻译模型的流程框图。

具体的，请参阅图3，在本发明实施例提供的构建翻译模型的流程中，所述构建翻译模型的步骤S800具体包括：

步骤S801：获取第一语言训练内容的标准文本、以及与所述第一语言训练内容的标准文本相对应的第二语言训练内容文本；

步骤S802：将所述第一语言训练内容的标准文本转化为第一语言训练内容的变形文本；

步骤S803：将所述第一语言训练内容的标准文本、第一语言训练内容的变形文本以及第二语言训练内容文本作为翻译模型的训练数据，并根据所述训练数据训练并构建所述翻译模型。

实施例三：本发明实施例提供的机器翻译方法中还包括：

步骤S400：对输出的第二语言内容进行修正。

具体的，图4示出了本发明实施例三提供的机器翻译方法中对输出的第二语言内容进行修正的步骤S400的流程框图。

具体的，本发明实施例提供的机器翻译方法所包括的步骤S400具体包括：

步骤S401：对所述第二语言内容的字符进行特征提取，得到所述第二语言内容字符的语义特征，并根据得到的语义特征确定所述第二语言内容字符的语义表示；

步骤S402：基于所述第二语言内容字符的语义特征和所述第二语言内容字符的语义表示，确定当前对所述第二语言内容中各字符的操作标签，根据与所述操作标签对应的修正方式对所述第二语言内容的各字符进行修正，获得修正后的第二语言内容。

实施例四：本发明实施例提供了一种机器翻译系统900，该系统用于将第一语言内容翻译为第二语言内容。

图5示出了本发明实施例四提供的机器翻译系统900的原理框图。

具体的，在本发明实施例中，所述机器翻译系统900包括：

获取模块901，用于获取第一语言内容，对所述第一语言内容进行处理，得到第一语言词语集；

其中，在本发明实施例中，所述的分词处理包括：将包含第一语言内容的语句集与词典中的词条进行匹配，得到所述第一语言内容的语句集的分词结果，并将所述分词结果用空格符号隔开。所述将包含第一语言内容的语句集与词典中的词条进行匹配采用正向最大匹配法，所述正向最大匹配法的思想为从左到右将第一语言内容的语句文本中的几个连续字符与词典中的词条进行匹配，如果匹配上，则切分出一个词。

所述机器翻译系统900还包括：

转化模块902，用于调用word2vec模型，将所述第一语言词语集转化为第一语言词向量；作为执行主体的服务器13对调用word2vec模型，通过word2vec模型对服务器13所接收的来自所述用户终端11的第一语言内容进行转化为词向量的处理，从而得到所述的第一语言词向量。

所述机器翻译系统900还包括：

翻译模块903，用于调用训练好的翻译模型，将所述第一语言词向量与翻译模型中的第二语言词向量进行匹配，得到所述第一语言词向量与所述第二语言词向量的相似度，并基于所述相似度，得到第一语言词向量在所述第二语言中对应的字或词，并对每个所述字或词进行排序组合，获得并输出与所述第一语言内容相对应的第二语言内容。其中，选取相似度最大的词向量有助于提高翻译的精准度，另外，对字词的排列组合过程中，可依据第一语言内容在标准语言中的含义进行组合。

实施例五：本发明实施例提供了机器翻译系统900又一优选实施例。

具体的，图6示出了本发明实施例五提供的机器翻译系统900的原理框图。

具体的，在本发明实施例提供的机器翻译系统900中，所述机器翻译系统900还包括模型构建模块908。

图7示出了本发明实施例五提供的机器翻译系统中模型构建模块的结构框图。

所述模型构建模块908包括：

文本获取单元9081，用于获取第一语言训练内容的标准文本、以及与所述第一语言训练内容的标准文本相对应的第二语言训练内容文本；

文本转化单元9082，用于将所述第一语言训练内容的标准文本转化为第一语言训练内容的变形文本；以及

模型训练单元9083，用于将所述第一语言训练内容的标准文本、第一语言训练内容的变形文本以及第二语言训练内容文本作为翻译模型的训练数据，并根据所述训练数据训练并构建所述翻译模型。

综上所述，本发明实施例针对现有技术中存在的翻译速度较慢且准确度不高的问题，通过对获取到第一语言内容进行分词处理并转化为词向量，通过调用训练好的翻译模型，将所述第一语言词向量与翻译模型中的第二语言词向量进行匹配，基于所述第一语言词向量与所述第二语言词向量的相似度，得到第一语言词向量在所述第二语言中对应的字或词，并对每个所述字或词进行排序组合，从而获得并输出与所述第一语言内容相对应的第二语言内容，从而实现将第一语言内容翻译为第二语言内容，不仅提高了翻译效率，还有效保证将第一语言内容翻译为第二语言内容的准确度。

在本发明所提供的实施例中，应该理解到，所揭露的方法和系统，也可以通过其它的方式实现。以上所描述的方法和系统实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。

也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

可以替换的，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种机器翻译方法，用于将第一语言内容翻译为第二语言内容，其特征在于，所述方法包括：

2.根据权利要求1所述的机器翻译方法，其特征在于，在获取第一语言内容的步骤之前，所述机器翻译方法还包括构建翻译模型的步骤，所述构建翻译模型具体包括：

3.根据权利要求2所述的机器翻译方法，其特征在于，所述方法还包括对输出的第二语言内容进行修正的步骤，所述对输出的第二语言内容进行修正的步骤具体包括：

4.根据权利要求3所述的机器翻译方法，其特征在于，在所述获取第一语言内容的步骤中，采用用户终端对用户所在场景进行内容识别，以获取第一语言内容；所述用户终端包括可穿戴设备或移动设备。

5.根据权利要求4所述的机器翻译方法，其特征在于，所述获取第一语言内容的步骤包括：

接收文本信息，将所述文本信息确定为第一语言内容。

6.根据权利要求4所述的机器翻译方法，其特征在于，所述获取第一语言内容的步骤包括：

7.根据权利要求4所述的机器翻译方法，其特征在于，所述获取第一语言内容的步骤包括：

8.根据权利要求5-7任一所述的机器翻译方法，其特征在于，所述对所述第一语言内容进行处理的步骤包括：对所述第一语言内容进行分词处理，得到第一语言词语集；

9.一种机器翻译系统，用于将第一语言内容翻译为第二语言内容，其特征在于，所述系统包括：获取模块，用于获取第一语言内容，对所述第一语言内容进行处理，得到第一语言词语集；

10.根据权利要求9所述的机器翻译系统，其特征在于，所述系统还包括模型构建模块，所述模型构建模块包括：