CN111222342B

CN111222342B - 一种翻译方法和装置

Info

Publication number: CN111222342B
Application number: CN202010297144.3A
Authority: CN
Inventors: 李长亮; 廖敏鹏
Original assignee: Chengdu Kingsoft Interactive Entertainment Technology Co ltd; Beijing Kingsoft Software Co Ltd
Current assignee: Chengdu Kingsoft Interactive Entertainment Technology Co ltd; Beijing Kingsoft Software Co Ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2020-08-11
Anticipated expiration: 2040-04-15
Also published as: CN111222342A

Abstract

本申请提供一种翻译方法和装置，所述方法包括：接收第一语言文本，翻译所述第一语言文本获得第二语言初始文本；提取所述第一语言文本中的至少一个第一实体获得第一实体集，提取所述第二语言初始文本中的至少一个第二实体获得第二实体集；将所述第一实体集中的至少一个第一实体与所述第二实体集中的至少一个第二实体进行匹配，确定具有匹配关系的至少一个第一实体与至少一个第二实体；获取与所述具有匹配关系的至少一个第一实体对应的标准实体；将与所述第一实体具有匹配关系的至少一个第二实体替换为所述标准实体，以确定与所述第一语言文本对应的第二语言目标文本，提高第一语言文本翻译的第二语言目标文本的质量。

Description

一种翻译方法和装置

技术领域

本申请涉及计算机技术领域，特别涉及一种翻译方法和装置、计算设备以及计算机可读存储介质。

背景技术

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向，自然语言处理包括两种不同种语言间的翻译。

以中英文间的翻译为例，中文中会存在一定量的命名实体，命名实体一般指的是文本中具有特定意义或者指代性强的实体，通常包括人名、地名、组织机构名、日期时间、专有名词等。

目前，通过机器翻译将英文翻译成目标中文的过程中，针对英文中的人名、地名、组织机构名、专有名词等音译方式翻译文本，大多采用翻译模型直接翻译，由于命名实体类词语不同于其他具有真正对应表述意义的词语，所以翻译模型将英文翻译出来的目标中文中的命名实体不准确，而出现翻译错误的情况，导致由英文无法准确地翻译成目标中文，进而目标中文的翻译质量较差，难以满足高质量翻译的需求。

发明内容

有鉴于此，本申请实施例提供了一种翻译方法和装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

本申请实施例公开了一种翻译方法，包括：

接收第一语言文本，翻译所述第一语言文本获得第二语言初始文本；

提取所述第一语言文本中的至少一个第一实体获得第一实体集，提取所述第二语言初始文本中的至少一个第二实体获得第二实体集；

将所述第一实体集中的至少一个第一实体与所述第二实体集中的至少一个第二实体进行匹配，确定具有匹配关系的至少一个第一实体与至少一个第二实体；

获取与所述具有匹配关系的至少一个第一实体对应的标准实体；

将与所述第一实体具有匹配关系的至少一个第二实体替换为所述标准实体，以确定与所述第一语言文本对应的第二语言目标文本。

本申请实施例还公开了一种翻译装置，包括：

处理模块，被配置为接收第一语言文本，翻译所述第一语言文本获得第二语言初始文本；

提取模块，被配置为提取所述第一语言文本中的至少一个第一实体获得第一实体集，提取所述第二语言初始文本中的至少一个第二实体获得第二实体集；

匹配模块，被配置为将所述第一实体集中的至少一个第一实体与所述第二实体集中的至少一个第二实体进行匹配，确定具有匹配关系的至少一个第一实体与至少一个第二实体；

获取模块，被配置为获取与所述具有匹配关系的至少一个第一实体对应的标准实体；

确定模块，被配置为将与所述第一实体具有匹配关系的至少一个第二实体替换为所述标准实体，以确定与所述第一语言文本对应的第二语言目标文本。

本申请实施例公开了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现如上所述的翻译方法的步骤。

本申请实施例公开了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如上所述的翻译方法的步骤。

本申请提供的一种翻译方法和装置，通过对第一语言文本进行翻译获得第二语言初始文本，然后将提取的第一语言文本中的至少一个第一实体以及第二语言初始文本中的至少一个第二实体匹配，确定具有匹配关系的第一实体与第二实体，再获取与所述具有匹配关系的至少一个第一实体对应的标准实体，将所述第一实体与第二语言初始文本中的第二实体匹配且该第一实体与所述标准实体对应，与所述具有匹配关系的第一实体匹配的第二实体与所述标准实体不相同，那么第二语言初始文本中与所述具有匹配关系的第一实体匹配的第二实体为错误的，这样将所述第二语言初始文本中与所述第一实体匹配的第二实体替换成所述第一实体对应的标准实体，实现了由第一语言文本翻译所述第二语言初始文本中翻译错误的第二实体替换成正确的标准实体，进而保证得到所述第一语言文本对应的第二语言目标文本的准确度，提高第一语言文本翻译的第二语言目标文本的质量。

附图说明

图1是本申请实施例的计算设备的结构示意图；

图2是本申请第一实施例翻译方法的流程示意图；

图3是本申请第二实施例翻译方法的流程示意图；

图4是本申请中将第一实体集中第一实体与第二实体集中的第二实体进行匹配的方法流程示意图；

图5是本申请第三实施例翻译方法的流程示意图；

图6是本申请第三实施例翻译方法的模型结构示意图；

图7是本申请第四实施例的翻译装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

第一语言文本：是待翻译的某种语言形成的文字。

机器翻译：是利用计算机将一种自然语言（源语言）转换为另一种自然语言（目标语言）的过程。

第二语言初始文本：翻译第一语言文本获得的另一种语言的文本，也就是将一种自然语言翻译成另一种自然语言，将翻译获得的另一种自然语言作为第二语言初始文本。

命名实体：指文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。

第一实体：在第一语言文本中提取的命名实体。

第一实体集：包含至少一个第一实体的集合。

第二实体：在第二语言初始文本中提取的命名实体。

第二实体集：包含至少一个第二实体的集合。

实体规则库：规则库中的一个实体只准确对应一个标准实体。

标准实体：在实体规则库中与第一实体准确对应的实体。

第二语言目标文本：在第二语言初始文本中将具有匹配关系的所述第一实体匹配的第二实体对应替换成该第一实体对应的标准实体获得的文本。

神经机器翻译模型：指利用神经网络实现的机器翻译模型，如Transformer等。

one-hot编码：又称“独热编码”，即使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。例如语句1 -> [0,1,1,0,0,0,1,0,0]，语句2 -> [1,0,0,1,0,0,0,1,0]。

第一命名实体识别模型：用于提取第一语言文本中命名实体的模型。

第二命名实体识别模型：用于提取第二语言初始文本中命名实体的模型。

斯坦福命名实体识别模型（Stanford Named Entity Recognizer，简称StanfordNER Model）：一个基于Java语言实现的命名实体识别模型，可以识别文本中人名、地名、公司名、基因名或者蛋白质名等。

长短期记忆模型（Long Short-Term Memory，简称LSTM）：长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM是解决循环神经网络RNN结构中存在的“梯度消失”问题而提出的，是一种特殊的循环神经网络。

条件随机场（conditional random field，简称 CRF）模型，是一种鉴别式机率模型，是随机场的一种，常用于标注或分析序列资料，如自然语言文字或是生物序列。

读音规则：是一种以原语言读音为依据的翻译规则，一般根据原语言内容的发音在目标语言中寻找发音相近的内容进行替代翻译，通常用于姓名、企业、地名和国名等的翻译。

音译实体：将第二实体音译成的实体，比如第二实体为Chamberlain，则将第二实体音译成的音译实体为张伯伦，音译实体“张伯伦”仅是根据第二实体“Chamberlain”的读音翻译过来的。

余弦相似度：又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度。

读音匹配模型：根据第一实体和第二实体对应的音译实体，匹配第一实体与第二实体。

在本申请中，提供了一种翻译方法和装置、计算设备以及计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网（PSTN）、局域网（LAN）、广域网（WAN）、个域网（PAN）或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口（例如，网络接口卡（NIC））中的一个或多个，诸如IEEE802.11无线局域网（WLAN）无线接口、全球微波互联接入（Wi-MAX）接口、以太网接口、通用串行总线（USB）接口、蜂窝网络接口、蓝牙接口、近场通信（NFC）接口，等等。

在本说明书的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备（例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等）、移动电话（例如，智能手机）、可佩戴的计算设备（例如，智能手表、智能眼镜等）或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请第一实施例的翻译方法的示意性流程图，包括步骤202至步骤210。

步骤202：接收第一语言文本，翻译所述第一语言文本获得第二语言初始文本。

所述第一语言文本是待翻译的某种语言形成的文字，所述第一语言文本与所述第二语言初始文本为不同语种的语言文本，例如，第一语言文本可以为英文文本、第二语言初始文本为中文文本，或者第一语言文本为中文文本、第二语言初始文本为日文文本；或者第一语言文本为英文文本、第二语言初始文本为韩文文本，当然，第一语言文本和第二语言初始文本还可为其它语种的语言文本，本申请对此不作限定。

翻译所述第一语言文本获得第二语言初始文本，也就是将一种自然语言翻译成另一种自然语言，将翻译获得的另一种自然语言作为第二语言初始文本，比如，将中文文本翻译成英文文本，可以通过神经机器翻译模型来翻译所述第一语言文本，得到第二语言初始文本，通过接收第一语言文本后对其进行翻译，便于后续步骤对第二语言初始文本进行处理，确保后续步骤能够继续推进。

步骤204：提取所述第一语言文本中的至少一个第一实体获得第一实体集，提取所述第二语言初始文本中的至少一个第二实体获得第二实体集。

将所述第一语言文本中的命名实体提取出来作为第一实体，第一实体集中包含至少一个第一实体，将所述第二语言初始文本中的命名实体提取出来作为第二实体，第二实体集中包含至少一个第二实体，具体地，可以通过预训练好的第一命名实体识别模型和第二命名实体识别模型来分别将所述第一语言文本和所述第二语言初始文本中的命名实体提取出来。

将所述第一语言文本输入至第一命名实体识别模型中，获取所述第一命名实体识别模型输出的至少一个第一实体。

输出的第一实体可以为一个，也可以为多个，通常情况下是多个命名实体，例如可能存在地名、人名、国家名、专有名词一共4个命名实体，或者更多。比如，第一语言文本为“The Nobel Prize in medicine was awarded to American scientists Williamkaelin, Gregg Semenza and British scientist Peter Ratcliffe for theircontributions to the study of how cells sense and adapt to oxygen supply”。提取第一语言文本获得的三个第一实体分别为William Kaelin、Gregg Semenza和PeterRatcliffe。

翻译第一语言文本获得第二语言初始文本为“诺贝尔医学奖授予美国科学家威廉·开林、格雷格·塞门扎和英国科学家彼得·拉特克利夫，以表彰他们在研究细胞如何感应和适应氧气供应方面所作出的贡献”。

将所述第二语言初始文本输入至第二命名实体识别模型中，获取所述第二命名实体识别模型输出的至少一个第二实体。

上例中，提取第二语言初始文本获得的三个第二实体分别为威廉·开林、格雷格·塞门扎和彼得·拉特克利夫；还可以根据需求，提取出美国、英国、细胞、氧气几个第二实体。

步骤206：将所述第一实体集中的至少一个第一实体与所述第二实体集中的至少一个第二实体进行匹配，确定具有匹配关系的至少一个第一实体与至少一个第二实体。

本步骤中，将第一实体与第二实体建立匹配关系，所述匹配关系就是一个第一实体与一个第二实体对应。比如，上例中，第一实体中的“William Kaelin”与第二实体中的“威廉·开林”一一对应，第一实体“William Kaelin”与第二实体“威廉·开林”具有匹配关系；第一实体“Gregg Semenza”与第二实体“格雷格·塞门扎”匹配；第一实体“PeterRatcliffe”与第二实体“彼得·拉特克利夫”匹配。

在将至少一个第一实体与至少一个第二实体建立匹配关系后，将具有匹配关系的单个第一实体与单个第二实体的作为一组数据，比如，一个第一实体匹配后则获得一组数据，两个第一实体分别匹配后则获得两组数据，根据完成匹配的第一实体的数量确定获得几组数据。

所述步骤206包括步骤2062至步骤2068。

步骤2062：根据第二实体集中第二实体的读音规则，确定所述第二实体对应的音译实体。

所述读音规则是一种以自然语言的读音为依据的翻译形式，例如：第二实体为Chamberlain，则将第二实体音译成的音译实体为张伯伦，音译实体“张伯伦”仅是根据第二实体“Chamberlain”的读音翻译过来的，通过确定所述第二实体对应的音译实体，提高下述步骤中第二实体与第一实体匹配的准确度。

步骤2064：将所述第一实体集中第i个第一实体和所述第二实体对应的音译实体向量化，分别获得第i个第一实体向量和所述第二实体对应的音译实体向量,其中，1≤i≤n且i为正整数。

将所述第一实体与音译实体嵌入化处理，也就是将第一实体与音译实体输入翻译模型的嵌入层。更具体的是将第一实体或音译实体进行切分得到多个词单元，然后对每个词单元进行词嵌入处理，最后得到每个词单元的词向量，以便于下述步骤对第一实体与音译实体的相似度进行计算。

词嵌入实际上是一种将各个词单元在预定的向量空间中表示为实值向量的一类技术，每个词单元被映射成一个向量（初始随机化）。

使用嵌入层通常步骤一般是先预处理第一实体或音译实体，将每个词单元转化成one-hot形式的编码。而此词单元对应的词向量其实是算法模型的其中一部分，词向量用预定义的维度来表示，大小随机初始化。

步骤2066：计算所述第i个第一实体向量与每个所述第二实体对应的音译实体向量的相似值。

可以通过计算所述第一实体向量与每个所述第二实体对应的音译实体向量的欧式距离或余弦相似度或编辑距离，来确定所述第i个第一实体向量与每个所述第二实体对应的音译实体向量的相似值。

下面说明第一实体向量与所述第二实体对应的音译实体向量的余弦相似度的计算过程。

假设：第一个第一实体经嵌入化处理后得到的第一个实体向量A₁为(1，1，2，1，1，1，0，0，0)；

第一个音译实体经嵌入化处理后得到第一个音译实体向量B₁为(1，1，1，0，1，1，1，1，1)。

余弦相似度的计算公式如下：

（1）

其中，cos(θ)为余弦相似度的值，x_i为第一实体向量A₁的元素，y_i为音译实体向量B₁的元素，n为第一实体向量A₁和音译实体向量B₁的元素个数。

余弦相似度的计算过程如下：

=

=0.707

余弦相似值的取值范围在[-1,1]之间，余弦相似值越趋近于1，代表两个向量的方向越接近，也就是第一实体与音译实体越相似；余弦相似值越趋近于-1，两个向量的方向越相反，也就是第一实体与音译实体差异越大。

第一实体向量A₁与音译实体向量B₁的余弦相似值为0.707，所以第一实体与音译实体基本相似。

再计算第一个实体向量A₁与第二个音译实体向量B₂的余弦相似值，假设计算出来的余弦相似值为0.200，那么第一个第一实体与第二个音译实体存在较大差异。

依次类推，将第一个实体向量A₁与所有的译实体向量进行余弦相似值的计算，获取计算出的与第一个实体向量A₁相似值最高的第一个音译实体向量，则将第一个实体与第一个音译实体对应的第二实体匹配。

步骤2068：将相似值最高的音译实体向量对应的第二实体与所述第i个第一实体匹配。

通过将所述相似值最高的音译实体向量对应的第二实体与所述第一实体匹配，确保所述第一实体匹配到第二实体的准确度。

通过匹配至少一个所述第一实体与所述至少一个第二实体，也就是，所述第一语言文本中的第一实体翻译成第二语言初始文本中的某个命名实体，将所述第一实体以及该第一实体翻译后第二语言初始文本中的第二实体建立匹配关系，换言之，确保将所述第一语言文本中的第一实体与翻译后第二语言初始文本中的第二实体能够准确对应。

步骤208：获取与所述具有匹配关系的至少一个第一实体对应的标准实体。

所述标准实体即为建立匹配关系的第一实体翻译后准确度更高的实体，本步骤的该翻译动作，是不同于之前步骤202的翻译动作，而是采用另外一套翻译动作进行翻译，通过本步骤的翻译将再获得一个标准实体，该标准实体相较于步骤202获得的第二语言初始文本，本步骤由于采用的翻译方法可信性更高，因此翻译获得的标准实体可信性更高一些。

作为本发明的一个具体实施例，本步骤采用的翻译方法可以通过调动实体规则库来实现可信度更高的翻译动作。即，所述建立匹配关系的第一实体对应的标准实体的获取，可以通过获取实体规则库，所述实体规则库中包括成对的第一语言的命名实体和第二语言的命名实体，也就是在实体规则库中一个第一实体只准确对应一个标准实体。

比如，基于所述第一实体“William Kaelin”，在所述实体规则库中查找与所述第一实体“William Kaelin”对应的准确的标准实体“威廉·凯林”，以获得建立匹配关系的第一实体对应的标准实体。

步骤210：将与所述第一实体具有匹配关系的至少一个第二实体替换为所述标准实体，以确定与所述第一语言文本对应的第二语言目标文本。

在与所述第一实体具有匹配关系的第二实体与该第一实体对应的标准实体不相同的情况下，那么与具有匹配关系的第一实体匹配的第二实体翻译不准确或翻译错误，将所述第二语言初始文本中与该具有匹配关系的第一实体匹配的第二实体替换成所述标准实体。

在与所述第一实体具有匹配关系的第二实体与该第一实体对应的标准实体相同的情况下，那么与具有匹配关系的第一实体匹配的第二实体翻译准确，所述第二语言初始文本中与该具有匹配关系的第一实体匹配的第二实体无需替换。

通过与所述第一实体具有匹配关系的至少一个第二实体替换为所述标准实体，将完成替换的所述第二语言初始文本作为与所述第一语言文本对应的第二语言目标文本。

本实施例中通过对第一语言文本进行翻译获得第二语言初始文本，然后将提取的第一语言文本中的第一实体集中每个第一实体与第二实体集中第二实体匹配，分别确定建立匹配关系的第一实体与第二实体，再获取建立匹配关系的第一实体对应的标准实体，将所述第一实体与第二语言初始文本中的第二实体匹配且该第一实体与所述标准实体对应，这样会再获得一个标准实体，该标准实体相较于第二语言初始文本中提取的第二实体的准确度更高，将所述第二语言初始文本中与具有匹配关系的所述第一实体匹配的第二实体替换成所述第一实体对应的标准实体，进而提高得到与第一语言文本对应的第二语言目标文本的准确度，提高第一语言文本翻译的第二语言目标文本的质量。

图3是示出了根据本申请第二实施例的翻译方法的示意性流程图，包括步骤302至步骤316。

步骤302：接收第一语言文本，翻译所述第一语言文本获得第二语言初始文本。

步骤304：提取所述第一语言文本中的n个第一实体获得第一实体集，提取所述第二语言初始文本中m个第二实体获得第二实体集，其中，n和m为正整数。

所述步骤302至步骤304与上述步骤202至步骤204构思一致，具体参见步骤202至步骤204的说明，此处不再赘述。

步骤306：将所述第一实体集中第i个第一实体与所述第二实体集中的第二实体匹配，确定与所述具有匹配关系的第i个第一实体匹配的第二实体，其中，1≤i≤n且i为正整数。

本步骤中完成所述第一实体集中第一实体与所述第二实体集中的第二实体匹配。

参见图4所示，所述步骤306包括步骤402至步骤408。

步骤402：根据第二实体的读音规则，确定所述第二实体对应的音译实体。

将所述第二实体音译成音译实体，读音规则是一种以自然语言的读音为依据的翻译形式，例如：第二实体为Chamberlain，则将第二实体音译成的音译实体为张伯伦，音译实体“张伯伦”仅是根据第二实体“Chamberlain”的读音翻译过来的，通过确定所述第二实体对应的音译实体，提高下述步骤中第二实体与第一实体匹配的准确度。

步骤404：将所述具有匹配关系的第i个第一实体和所述第二实体对应的音译实体向量化分别获得第i个第一实体向量和所述第二实体对应的音译实体向量。

将所述第一实体与音译实体嵌入化处理，也就是将所述第一实体与音译实体映射成低维的向量，以便于下述步骤对第一实体与音译实体的相似度进行计算。

步骤406：计算所述第i个第一实体向量与每个所述第二实体对应的音译实体向量的相似值。

可以通过计算所述第i个第一实体向量与每个所述第二实体对应的音译实体向量的欧式距离或余弦相似度或编辑距离，来确定所述第i个第一实体向量与每个所述第二实体对应的音译实体向量的相似值。

步骤408：将相似值最高的音译实体向量对应的第二实体与所述第i个第一实体匹配。

通过将所述相似值最高的音译实体向量对应的第二实体与所述第i个第一实体匹配，提高所述第i个第一实体匹配到第二实体的准确率。

步骤308：获取与所述具有匹配关系的至少一个第一实体对应的标准实体。

本步骤中，通过获取与所述具有匹配关系的至少一个第一实体对应的标准实体，为下述步骤中能够将第一实体对应的第二实体替换成标准实体作铺垫，确保第一语言文本翻译所述第二语言初始文本中不准确或者翻译错误的第二实体替换成正确的标准实体，以提高第一语言文本翻译的第二语言目标文本的质量。

步骤310：判断所述具有匹配关系的第i个第一实体匹配的第二实体与所述第i个第一实体对应的标准实体是否相同，若是，则执行步骤314，若否，则执行步骤312。

在所述具有匹配关系的第i个第一实体匹配的第二实体与所述第i个第一实体对应的标准实体相同的情况，那么就无需对所述具有匹配关系第i个第一实体匹配的第二实体进行替换，直接进行下一个第一实体的匹配，省去了下述步骤中对所述第二实体进行替换的数据处理量，提高翻译第一语言文本获取对应的第二语言目标文本的效率。

步骤312：将所述第二语言初始文本中与所述具有匹配关系的第i个第一实体匹配的第二实体替换成所述标准实体。

在所述具有匹配关系的第i个第一实体匹配的第二实体与所述第i个第一实体对应的标准实体不相同的情况，那么所述具有匹配关系的第i个第一实体匹配的第二实体存在翻译不准确或翻译错误的情况，那么将所述第二语言初始文本中与所述具有匹配关系的第i个第一实体匹配的第二实体替换成所述标准实体，以减少标准实体替换时带来的数据处理量。

步骤314：将i自增1，判断自增后的i是否超过n，若是，执行步骤316，若否，执行步骤310。

通过将i自增1，以进行下一个第一实体的判断，进而确保逐一完成所有的具有匹配关系的第一实体是否正确的判定。

步骤316：将完成替换的所述第二语言初始文本作为与所述第一语言文本对应的第二语言目标文本。

本实施例中通过根据第二实体的读音规则，确定所述第二实体对应的音译实体，将所述第i个第一实体和所述第二实体对应的音译实体向量化分别获得第i个第一实体向量和所述第二实体对应的音译实体向量，实现所述第i个第一实体与第二实体的匹配，确保能够将所述第i个第一实体准确地匹配到第二实体，这样就能够将所述第二语言初始文本中与具有匹配关系的所述第一实体匹配的第二实体替换成所述第一实体对应的标准实体，实现了由第一语言文本翻译所述第二语言初始文本中不准确或者翻译错误的第二实体替换成正确的标准实体，提高第一语言文本翻译的第二语言目标文本的质量，进而提高得到所述第一语言文本对应的第二语言目标文本的准确度。

图5是示出了根据本申请第三实施例的翻译方法的示意性流程图，包括步骤502至步骤514。

步骤502：接收第一语言文本，翻译所述第一语言文本获得第二语言初始文本。

步骤504：将所述第一语言文本输入至第一命名实体识别模型中，所述第一命名实体识别模型输出至少一个第一实体以获得第一实体集。

所述第一命名实体识别模型可以为斯坦福命名实体识别模型（Stanford NERModel）来对所述第一语言文本中的第一实体进行提取。

步骤506：将所述第二语言初始文本输入至第二命名实体识别模型中，所述第二命名实体识别模型输出至少一个第二实体以获得第二实体集。

所述第二命名实体识别模型包括处理模型和标签生成模型。

所述处理模型可以为长短期记忆模型，通过长短期记忆模型搭建神经网络，充分考虑了前向的文本单元对第二语言初始文本的影响，提高下述步骤中命名实体识别的精准度。

对所述第二语言初始文本进行分词获取文本单元，将每个所述文本单元依次输入长短期记忆模型，所述长短期记忆模型输出每个所述文本单元对应的向量。

所述标签生成模型可以为条件随机场模型，将所述文本单元对应的向量输入条件随机场模型，所述条件随机场模型输出每个所述文本单元对应的标签，根据每个所述文本单元对应的标签确定所述第二语言文本中的至少一个第二实体。

比如，第二语言初始文本为“我想听张三的六月的雨”，训练好的条件随机场模型将所述第二语言文本标注为：我\O想\O听\O张\B-PER三\I-PER的\O六\B-NAME月\I-NAME的\I-NAME雨\I-NAME。

其中，“O”表示other；“B”表示“begin”，即实体的开始；“I”表示内部，“PER”和“NAME”分别表示实体的类别为人名和领域名。

通过将所述长短期记忆模型输出每个所述文本单元对应的向量输入条件随机场模型，自动标注出文本单元的类别，从而得到原始文本“我想听张三的六月的雨”中“张三”是人名实体以及“六月的雨”是歌曲名实体。

步骤508：将所述第一实体集中的至少一个第一实体与所述第二实体集中的至少一个第二实体分别输入至匹配模型中，获取所述匹配模型输出的具有匹配关系的第一实体与第二实体。

所述匹配模型可以为读音匹配模型。

根据第二实体的读音规则，确定所述第二实体对应的音译实体，将所述第一实体和所述第二实体对应的音译实体向量化分别获得第一实体向量和所述第二实体对应的音译实体向量，将所述第一实体向量和所述第二实体对应的音译实体向量输入至预训练好的读音匹配模型，获取所述读音匹配模型输出的具有匹配关系的第一实体与第二实体。

步骤510：获取实体规则库，基于具有匹配关系的至少一个所述第一实体，在所述实体规则库中查找与具有匹配关系的至少一个所述第一实体对应的标准实体。

获取具有匹配关系的至少一个第一实体与第二实体后，直接在实体规则库中查找到所有具有匹配关系的至少一个第一实体对应的标准实体，所述实体规则库中包括成对的第一语言的命名实体和第二语言的命名实体，也就是在实体规则库中一个第一实体只准确对应一个标准实体。

步骤512：在所述第二语言初始文本中确定与具有匹配关系的至少一个第一实体匹配的第二实体。

步骤514：在所述第二语言初始文本中将所述具有匹配关系的至少一个第一实体匹配的第二实体对应替换成所述第一实体对应的标准实体，以获得第二语言目标文本。

通过将查找到所有具有匹配关系的至少一个第一实体的对应的标准实体替换第二语言初始文本中具有匹配关系的至少一个所述第一实体匹配的第二实体，将替换后的第二语言初始文本作为第二语言目标文本，提高所述第一语言文本对应的第二语言目标文本的准确度。

本实施例中通过获取具有匹配关系的至少一个第一实体与第二实体后，直接在实体规则库中查找到所有具有匹配关系的至少一个第一实体的对应的标准实体，通过将查找到所有具有匹配关系的至少一个第一实体的对应的标准实体替换第二语言初始文本中确定的每个所述第一实体匹配的第二实体，一次性完成第二语言初始文本的替换，将替换后的第二语言初始文本作为第二语言目标文本。实现了由第一语言文本翻译所述第二语言初始文本中不准确或者翻译错误的第二实体替换成正确的标准实体，进而保证得到所述第一语言文本对应的第二语言目标文本的准确度，提高第一语言文本翻译的第二语言目标文本的质量。

下面结合图6对本实施例进行举例说明。

接收的第一语言文本：There are a thousand Hamlets in a thousand people’s eyes，Expecting Orhan Pamuk accepted by more readers.

通过机器翻译模型翻译所述第一语言文本获得的第二语言初始文本：一千个读者就有一千个海姆雷特，期待奥尔汗·帕默克被更多的读者理解和接受。

将所述第一语言文本输入至第一命名实体识别模型中，获取所述第一命名实体识别模型输出的两个第一实体“Hamlets”和“Orhan Pamuk”。

将所述第二语言初始文本输入至第二命名实体识别模型中，获取所述第二命名实体识别模型输出的两个第二实体海姆雷特和奥尔汗·帕默克。

将所述两个第一实体“Hamlets”和“Orhan Pamuk”与两个第二实体“海姆雷特”和“奥尔汗·帕默克”分别输入至读音匹配模型中，获取所述读音匹配模型输出的具有匹配关系的第一实体“Hamlets”与第二实体“海姆雷特”，以及具有匹配关系的第一实体“OrhanPamuk”与第二实体“奥尔汗·帕默克”。

获取实体规则库，基于具有匹配关系的所述第一实体“Hamlets”，在所述实体规则库中查找与第一实体“Hamlets”对应的标准实体“哈姆雷特”，在所述实体规则库中查找与第一实体“Orhan Pamuk”对应的标准实体“奥尔罕·帕默克”。

在所述第二语言初始文本中确定与具有匹配关系的每个第一实体匹配的第二实体，确定第二实体后的第二语言初始文本为“一千个读者就有一千个/海姆雷特/，期待/奥尔汗·帕默克/被更多的读者理解和接受”。

将第二实体中“海姆雷特”替换成标准实体“哈姆雷特”，将第二实体中“奥尔汗·帕默克”替换成标准实体“奥尔罕·帕默克”，获得第二语言目标文本为“一千个读者就有一千个哈姆雷特，期待奥尔罕·帕默克被更多的读者理解和接受”。将替换后的第二语言初始文本作为第二语言目标文本，也就是第一语言文本的翻译文本最终为第二语言目标文本，实现了由第一语言文本翻译所述第二语言初始文本中翻译错误的第二实体替换成正确的标准实体，进而保证得到所述第一语言文本对应的第二语言目标文本的准确度，提高第一语言文本翻译的第二语言目标文本的质量。

图7是本申请第四实施例翻译装置的结构示意图，包括：

处理模块702，被配置为接收第一语言文本，翻译所述第一语言文本获得第二语言初始文本；

提取模块704，被配置为提取所述第一语言文本中的至少一个第一实体获得第一实体集，提取所述第二语言初始文本中的至少一个第二实体获得第二实体集；

匹配模块706，被配置为将所述第一实体集中的至少一个第一实体与所述第二实体集中的至少一个第二实体进行匹配，确定具有匹配关系的至少一个第一实体与至少一个第二实体；

获取模块708，被配置为获取与所述具有匹配关系的至少一个第一实体对应的标准实体；

确定模块710，被配置为将与所述第一实体具有匹配关系的至少一个第二实体替换为所述标准实体，以确定与所述第一语言文本对应的第二语言目标文本。

所述提取模块704被进一步配置为：

将所述第一语言文本输入至第一命名实体识别模型中，所述第一命名实体识别模型输出至少一个第一实体以获得第一实体集；

将所述第二语言初始文本输入至第二命名实体识别模型中，所述第二命名实体识别模型输出至少一个第二实体以获得第二实体集。

所述第二命名实体识别模型包括处理模型和标签生成模型；

所述提取模块704被进一步配置为：

对所述第二语言文本进行分词获取文本单元；

将每个所述文本单元依次输入处理模型，所述处理模型输出每个所述文本单元对应的向量；

将所述文本单元对应的向量输入标签生成模型，所述标签生成模型输出每个所述文本单元对应的标签；

根据每个所述文本单元对应的标签确定所述第二语言初始文本中的至少一个第二实体。

所述第一实体集包括n个第一实体，其中，n为正整数；

所述匹配模块706被进一步配置为根据第二实体集中每个第二实体的读音规则，确定每个所述第二实体对应的音译实体；

将所述第一实体集中第i个第一实体和每个所述第二实体对应的音译实体向量化，分别获得第i个第一实体向量和每个所述第二实体对应的音译实体向量,其中，1≤i≤n且i为正整数；

计算所述第i个第一实体向量与每个所述第二实体对应的音译实体向量的相似值；

将相似值最高的音译实体向量对应的第二实体与所述第i个第一实体匹配。

所述确定模块710包括：

判断单元，被配置为判断所述具有匹配关系的第i个第一实体匹配的第二实体与所述第i个第一实体对应的标准实体是否相同，若是，则执行自增单元，若否，则执行替换单元；

替换单元，被配置为将所述第二语言初始文本中与所述具有匹配关系的第i个第一实体匹配的第二实体替换成所述标准实体；

自增单元，被配置为将i自增1，判断自增后的i是否超过n，若是，执行文本确定单元，若否，执行判断单元；

文本确定单元：将完成替换的所述第二语言初始文本作为与所述第一语言文本对应的第二语言目标文本。

所述匹配模块706还被配置为将所述第一实体集中的至少一个第一实体与所述第二实体集中的至少一个第二实体分别输入至匹配模型中，获取所述匹配模型输出的具有匹配关系的第一实体与第二实体；

所述确定模块710被进一步配置为：

在所述第二语言初始文本中确定与具有匹配关系的第一实体匹配的第二实体；

在所述第二语言初始文本中将具有匹配关系的所述第一实体匹配的第二实体对应替换成所述第一实体对应的标准实体，以获得第二语言目标文本。

所述匹配模型为读音匹配模型；

所述匹配模块706被进一步配置为：

根据第二实体集中第二实体的读音规则，确定所述第二实体对应的音译实体；

将所述第一实体和所述第二实体对应的音译实体向量化分别获得第一实体向量和所述第二实体对应的音译实体向量；

将所述第一实体向量和所述第二实体对应的音译实体向量输入至读音匹配模型，获取所述读音匹配模型输出的具有匹配关系的第一实体与第二实体。

所述获取模块708被进一步配置为：

获取实体规则库；

基于具有匹配关系的至少一个所述第一实体，在所述实体规则库中查找与具有匹配关系的至少一个所述第一实体对应的标准实体。

本实施例中通过提取所述第一语言文本中的至少一个第一实体以及所述第二语言初始文本中的至少一个第二实体，将所述至少一个第一实体与所述至少一个第二实体匹配，确定具有匹配关系的第一实体与第二实体，也就是将所述第一语言文本中的第一实体与翻译后第二语言初始文本中的第二实体对应，再获取具有匹配关系的第一实体对应的标准实体，将所述第一实体与第二语言初始文本中的第二实体匹配且该第一实体与所述标准实体对应，这样就能够将所述第二语言初始文本中与所述具有匹配关系的第一实体匹配的第二实体替换成所述第一实体对应的标准实体，实现了由第一语言文本翻译所述第二语言初始文本中不准确或者翻译错误的第二实体替换成正确的标准实体，进而保证得到所述第一语言文本对应的第二语言目标文本的准确度，提高第一语言文本翻译的第二语言目标文本的质量。

本申请一实施例还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现如前所述翻译方法的步骤。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述翻译方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述翻译方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述翻译方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种翻译方法，其特征在于，包括：

将与所述第一实体具有匹配关系的至少一个第二实体替换为所述标准实体，以确定与所述第一语言文本对应的第二语言目标文本；

其中，将所述第一实体集中的至少一个第一实体与所述第二实体集中的至少一个第二实体进行匹配，确定具有匹配关系的至少一个第一实体与至少一个第二实体，包括：

将所述第一实体集中的至少一个第一实体与所述第二实体对应的音译实体进行匹配，确定具有匹配关系的至少一个第一实体与至少一个第二实体。

2.根据权利要求1所述的方法，其特征在于，提取所述第一语言文本中的至少一个第一实体获得第一实体集，提取所述第二语言初始文本中的至少一个第二实体获得第二实体集，包括：

3.根据权利要求2所述的方法，其特征在于，所述第二命名实体识别模型包括处理模型和标签生成模型；

将所述第二语言初始文本输入至第二命名实体识别模型中，所述第二命名实体识别模型输出至少一个第二实体以获得第二实体集，包括：

对所述第二语言初始文本进行分词获取文本单元；

将每个所述文本单元输入处理模型，所述处理模型输出与每个所述文本单元对应的向量；

将所述与文本单元对应的向量输入标签生成模型，所述标签生成模型输出每个所述文本单元对应的标签；

根据每个所述文本单元对应的标签，确定所述第二语言初始文本中的至少一个第二实体以获得第二实体集。

4.根据权利要求1所述的方法，其特征在于，所述第一实体集中包括n个第一实体，其中，n为正整数；

将所述第一实体集中的至少一个第一实体与所述第二实体集中的至少一个第二实体进行匹配，确定具有匹配关系的至少一个第一实体与至少一个第二实体，包括：

将所述第一实体集中第i个第一实体和所述第二实体对应的音译实体向量化，分别获得第i个第一实体向量和所述第二实体对应的音译实体向量,其中，1≤i≤n且i为正整数；

计算所述第i个第一实体向量与所述第二实体对应的音译实体向量的相似值；

5.根据权利要求4所述的方法，其特征在于，将与所述第一实体具有匹配关系的至少一个第二实体替换为所述标准实体，以确定与所述第一语言文本对应的第二语言目标文本，包括：

S202：判断与第i个第一实体具有匹配关系的第二实体与所述第i个第一实体对应的标准实体是否相同，若是，则执行S206，若否，则执行S204；

S204：将所述第二语言初始文本中与所述第i个第一实体具有匹配关系的第二实体替换成所述标准实体；

S206：将i自增1，判断自增后的i是否超过n，若是，执行S208，若否，执行S202；

S208：将完成替换的所述第二语言初始文本作为与所述第一语言文本对应的第二语言目标文本。

6.根据权利要求1所述的方法，其特征在于，将所述第一实体集中的至少一个第一实体与所述第二实体集中的至少一个第二实体进行匹配，确定具有匹配关系的至少一个第一实体与至少一个第二实体，包括：

将所述第一实体集中的至少一个第一实体与所述第二实体集中的至少一个第二实体分别输入至匹配模型中，获取所述匹配模型输出的具有匹配关系的第一实体与第二实体；

将与所述第一实体具有匹配关系的至少一个第二实体替换为所述标准实体，以确定与所述第一语言文本对应的第二语言目标文本，包括：

在所述第二语言初始文本中确定与所述第一实体具有匹配关系的第二实体；

在所述第二语言初始文本中将与所述第一实体具有匹配关系的第二实体对应替换成所述第一实体对应的标准实体，以获得第二语言目标文本。

7.根据权利要求6所述的方法，其特征在于，所述匹配模型为读音匹配模型；

将所述第一实体集中的至少一个第一实体与所述第二实体集中的至少一个第二实体分别输入至匹配模型中，获取所述匹配模型输出的具有匹配关系的第一实体与第二实体，包括：

根据第二实体集中第二实体的读音，确定所述第二实体对应的音译实体；

8.根据权利要求1所述的方法，其特征在于，获取与所述具有匹配关系的至少一个第一实体对应的标准实体，包括：

获取实体规则库；

9.一种翻译装置，其特征在于，包括：

确定模块，被配置为将与所述第一实体具有匹配关系的至少一个第二实体替换为所述标准实体，以确定与所述第一语言文本对应的第二语言目标文本；

其中，所述匹配模块被进一步配置为根据第二实体集中每个第二实体的读音规则，确定每个所述第二实体对应的音译实体；

10.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-8任意一项所述方法的步骤。

11.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-8任意一项所述方法的步骤。