CN114638239A

CN114638239A - 基于知识库的机器翻译方法及系统

Info

Publication number: CN114638239A
Application number: CN202210305377.2A
Authority: CN
Inventors: 欧泽彬; 朱宪超; 张岳
Original assignee: Sichuan Lan Bridge Information Technology Co ltd; Westlake University
Current assignee: Sichuan Lan Bridge Information Technology Co ltd; Westlake University
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2022-06-17

Abstract

本发明提供一种基于知识库的机器翻译方法及系统，通过将知识库中所有第一二元组转化为包含索引向量的第二二元组；将当前翻译状态转化为查询向量；分别计算所述查询向量与知识库中所有索引向量的相似度分数，选出相似度分数高于预设阈值的索引向量对应的第一二元组作为候选二元组；根据待翻译语句、候选二元组以及当前翻译状态，计算候选译文词的概率分布，将概率分布最大的候选译文词作为目标译文词；重复上述步骤，直至目标译文达到预设长度为止。本发明能够很好地融入特定的领域知识，实现跨领域翻译，以及提高对长尾短语的翻译效果。

Description

基于知识库的机器翻译方法及系统

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种基于知识库的机器翻译方法、系统、计算机设备和存储介质。

背景技术

机器翻译系统主要解决在不改变表达语义的情况下，将给定源语言的输入转化成目标语言的输出的问题。为解决该问题，现有的机器翻译系统通常采用端到端神经网络，将经过前处理后的输入语句输入训练完的神经网络，再将神经网络的输出经过后处理展现给用户。

但基于端到端神经网络的机器翻译系统通常存在如下缺点：

(1)难以干预端到端神经网络的推理过程。训练完的模型是一个黑箱，只能给定输入得到输出，其内部基于矩阵运算的推理过程难以理解。

(2)难以融入领域知识。目标使用领域，如法律、医药、金融等，其术语、人名、组织机构、地名等通常有固定的翻译，这些领域知识通常难以可靠地融入到端到端的神经网络中。

(3)跨领域效果差。在某个领域内训练得到的神经网络在切换领域后效果通常会变差，现有技术手段为每个领域收集平行语料，单独训练对应的神经网络模型，但端到端神经网络通常需要大量平行语料进行训练，这导致新领域业务的成本变高。

(4)长尾短语和词翻译效果差。

因此，亟需一种能够融入领域知识，实现跨领域翻译以及对长尾短语和词有较好的翻译效果的机器翻译方法及装置。

发明内容

本发明实施例提供一种基于知识库的机器翻译方法、系统、计算机设备和存储介质，用以解决现有的机器翻译系统采用端对端神经网络存在难以融入特定领域的知识、切换领域会导致翻译效果变差和新领域翻译成本变高，以及对长尾短语和词的翻译效果差的问题。

为了实现上述目的，本发明实施例的第一方面，提供一种基于知识库的机器翻译方法，包括：

S1,将知识库中所有第一二元组转化为包含索引向量的第二二元组；

S2,将当前翻译状态转化为查询向量,所述当前翻译状态为已生成的译文；

S3,分别计算所述查询向量与知识库中所有索引向量的相似度分数，选出相似度分数高于预设阈值的索引向量对应的第一二元组作为候选二元组；

S4,根据待翻译语句、候选二元组以及当前翻译状态，计算候选译文词的概率分布，将概率分布最大的候选译文词作为目标译文词。

可选地，在第一方面的一种可能实现方式中，所述方法还包括：

检测目标译文的长度；

如果目标译文长度未达到预设长度，则重复步骤S1-S4直至目标译文达到预设长度为止。

可选地，在第一方面的一种可能实现方式中，通过以下公式计算所述相似度分数，包括：

s_ti＝s(q_t,k_i)

其中，q_t为所述查询向量，k_i为第二二元组的索引向量。

可选地，在第一方面的一种可能实现方式中，所述知识库是自动构建，所述自动构建是根据第一二元组中短语描述的不同而采取不同的构建方式，包括：

如果短语描述为短语的字典定义，则先去除短语中词的多种变化形式，再根据现有的字典或者搜索引擎查询短语的字典定义；

如果短语描述为短语的上下文情景，则获取相同领域中目标语言的单语语料，截取短语所在位置的预设范围内的上下文信息。

基于知识嵌入模型，将知识库中所有第一二元组的短语描述转化为索引向量；

基于查询嵌入模型，根据当前翻译状态和待翻译语句得到查询向量。

可选地，在第一方面的一种可能实现方式中，根据知识嵌入模型和查询嵌入模型的输入不同，对所述知识嵌入模型和查询嵌入模型的训练分为启发式训练和翻译端到端训练，包括：

所述启发式训练为根据知识嵌入模型和查询嵌入模型的当前翻译状态和短语描述的语义相关性构建监督信号；

所述翻译端到端训练为通过翻译目标函数产生的梯度更新知识嵌入模型和查询嵌入模型，其中查询嵌入模型固定使用启发式训练得到的模型参数。

可选地，在第一方面的一种可能实现方式中，在S4中，包括：

将所述候选二元组中的目标短语分别与待翻译语句进行组合，并将组合后的结果输入翻译模型，其中组合方式包括但不限于文本的前后拼接、基于神经网络的特征融合，输出候选词的初步概率分布；

将所述候选词的初步概率分布根据对应索引向量的相似度分数做加权求和处理，得到候选译文词的最终概率分布，并将概率分布最大的候选译文词作为目标译文词。

本发明实施例的第二方面，提供一种基于知识库的机器翻译系统，包括：

第一转化模块，用于将知识库中所有第一二元组转化为包含索引向量的第二二元组；

第二转化模块，用于将当前翻译状态转化为查询向量,所述当前翻译状态为已生成的译文；

候选二元组选择模块，用于分别计算所述查询向量与知识库中所有索引向量的相似度分数，选出相似度分数高于预设阈值的索引向量对应的第一二元组作为候选二元组；

概率分布计算模块，用于根据待翻译语句、候选二元组以及当前翻译状态，计算候选译文词的概率分布，将概率分布最大的候选译文词作为目标译文词。

可选地，在第二方面的一种可能实现方式中，其特征在于，所述候选二元组选择模块通过以下公式计算所述相似度分数，包括：

s_ti＝s(q_t,k_i)

其中，q_t为所述查询向量，k_i为第二二元组的索引向量。

本发明实施例的第三方面，提供一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。

本发明实施例的第四方面，提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可能设计的所述方法的步骤。

本发明提供的基于知识库的机器翻译方法、系统、计算机设备和存储介质，通过将知识库中所有第一二元组转化为包含索引向量的第二二元组；将当前翻译状态转化为查询向量,所述当前翻译状态为已生成的译文；分别计算所述查询向量与知识库中所有索引向量的相似度分数，选出相似度分数高于预设阈值的索引向量对应的第一二元组作为候选二元组；根据待翻译语句、候选二元组以及当前翻译状态，计算候选译文词的概率分布，将概率分布最大的候选译文词作为目标译文词；重复上述步骤，直至目标译文达到预设长度为止。本发明通过设置包含二元组的翻译知识库，可以通过在翻译知识库中加入特定的二元组来干预模型的生成，在翻译知识库中加入术语、人名、组织机构、地名等固定翻译能够很好地融入特定的领域知识，以及在翻译知识库中加入目标领域的平行语料实现跨领域翻译，在翻译知识库中加入长尾短语的目标翻译能加强对长尾短语的翻译效果。

附图说明

图1为基于知识库的机器翻译方法的第一种实施方式的流程图；

图2为基于知识库的机器翻译方法的第一种实施方式的结构流程示意图；

图3为基于知识库的机器翻译系统的第一种实施方式的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

应当理解，在本发明的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

应当理解，在本发明中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本发明中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含，“包含A、B或C”是指包含A、B、C三者之一，“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

应当理解，在本发明中，“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”，表示B与A相关联，根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。A与B的匹配，是A与B的相似度大于或等于预设的阈值。

取决于语境，如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

本发明提供一种基于知识库的机器翻译方法，如图1、2所示其流程图，包括：

步骤S1、将知识库中所有第一二元组转化为包含索引向量的第二二元组。

在本步骤中，翻译知识库是由一系列第一二元组(d_i，p_i)组成的，其中第一二元组包括短语描述d_i和短语p_i，其中短语d_i为翻译目标语言的短语，短语描述p_i可以为短语的字典定义、源语言翻译、短语出现的上下文语境等。翻译知识库的构建包含自动构建和人工构建，其中，人工构建是指人工填写二元组中的短语描述d_i和短语p_i。自动构建是指根据第一二元组中的短语描述的不同而采取不同的构建方式，即：如果短语描述d_i为短语的字典定义，则先去除短语中词的多种变化形式，再根据现有的字典或者搜索引擎查询短语的字典定义。如果短语描述d_i为短语的上下文情景，则获取相同领域中目标语言的单语语料，截取短语所在位置的预设范围内的上下文信息。如果短语描述d_i为短语对应的源语言短语：若短语p为整句话，则直接使用现有的平行语料库作为知识库便可；若p为短语，则可以使用翻译对齐(alignment)工具从平行语料库中挖掘出大量语言对(源语言短语，目标语言短语)，再根据一定的过滤即可得到知识库。

在建立翻译知识库后，会通过知识嵌入模型K将第一二元组中的短语描述转换成索引向量k_i，从而形成第二二元组(k_i,p_i)＝(K(d_i),p_i)。其中，知识嵌入模型K为一个序列编码模型，如使用标准的自注意力模型Transformer，或者循环神经网络LSTM，将得到的每个词的编码向量取平均得到d_i对应向量k_i。以输入的源语言句子为x，输出目标语言句子y＝[y₁,y₂,...,y_t,...]为例，知识嵌入模型K的输入为平行预料库中短语p_i对应的源语言句子。

步骤S2、将当前翻译状态转化为查询向量,所述当前翻译状态为已生成的译文。

在步骤S2中，会通过查询嵌入模型Q，根据当前翻译状态h_t和输入待翻译原文或者待翻译原文中的一句话得到查询向量q_t。其中，当前翻译状态h_t为已生成的译文,即前t-1步已经生成的词h_t＝y_1:t-1＝[y₁,y₂,...,y_t-1]。查询嵌入模型Q为一个序列编码模型，和知识嵌入模型K具有相同的模型结构，但不共享参数，以输入的源语言句子为x，输出目标语言句子y＝[y₁,y₂,...,y_t,...]为例，查询嵌入模型Q的输入为当前需要预测的源语言句子x，此时所有的q_t取共同的值q＝Q(x)。另外，本申请当翻译原文第一个词时，会基于输入原文以及一个特殊的开始符号<bos>，通过翻译模型T进行翻译。

步骤S3、分别计算所述查询向量与知识库中所有索引向量的相似度分数，选出相似度分数高于预设阈值的索引向量对应的第一二元组作为候选二元组。

在该步骤中，会计算使用查询嵌入模型Q输入的查询向量与翻译知识库中的所有索引向量之间的相似度分数，从中选择出相似度分数最高的n个索引向量对应的第一二元组(d_i，p_i)作为候选二元组。其中，通过以下公式计算相似度分数，即：s_ti＝s(q_t,k_i)＝q^Tk_i；其中，q_t为所述查询向量，k_i为第二二元组的索引向量。

步骤S4、根据待翻译语句、候选二元组以及当前翻译状态，计算候选译文词的概率分布，将概率分布最大的候选译文词作为目标译文词。

在步骤S4中，将待翻译语句，即输入的源语言句子X分别和检索到的候选二元组[(d₁,p₁),...,(d_n,p_n)]进行组合处理得到[x,p_i]，将该组合结果输入至翻译模型T中，得到下一个词的初步概率分布，其中组合方式包括但不限于文本的前后拼接(源语言句子x分别与检索到的二元组中的目标短语p_i首尾拼接得到[x,pi])、基于神经网络的特征融合；然后将组合不同短语得到初步候选词概率分布根据对应索引向量的相似度分数做加权求和处理，得到候选译文词的最终概率分布，即P(y_t)∝∑_is(q,k_i)P_i(y_t)；然后会根据贪心搜索算法选择最终概率分布最高的译文词作为目标译文词。其中，翻译模型T采用自回归生成，标准的序列到序列模型，例如Transformer；候选译文词的最终概率分布，即P(y_t)∝∑_is(q,k_i)P_i(y_t)需要对所有的y_t进行归一化处理，比如softmax，以此来保证输出符合概率分布。另外，基于翻译模型T每生成一个目标译文词时，都需要对当前翻译状态h_t进行状态更新。所述状态更新为：更新已生成的译文，例如：当前翻译状态h_t为“早上好”，基于翻译模型T生成目标译文词“小明”后，那么现在的当前翻译状态h_t为“早上好，小明”。

步骤S5、重复步骤S1-S4，直至目标译文达到预设长度为止。

在步骤S5中，在根据候选译文词的最终概率分布选择出当前待翻译词的翻译结果后，会根据上述步骤不断生成y₁,...,y_t,...,最后组成目标译文句子y；然后检测该目标译文句子的句子长度，如果该句子长度达到预设长度，或者输出的译文词是终止符号<eos>，则代表待翻译原文已经全部翻译完；相反如果该句子长度没有达到预设长度，或者输出的译文词不是终止符号<eos>，则需要重复执行步骤S1-S4，直至目标译文句子的句子长度达到预设长度为止或者输出终止符号。

在一个实施例中，根据知识嵌入模型和查询嵌入模型的输入不同，对所述知识嵌入模型和查询嵌入模型的训练分为启发式训练和翻译端到端训练，包括：

在该步骤中，知识嵌入模型K和查询嵌入模型Q输入的不同，分为启发式训练以及翻译端到端训练。其中启发式训练得到的模型参数可以作为翻译端到端训练的初始化，从而进一步提高性能。具体训练如下：

启发式训练：启发式训练需要根据知识嵌入模型K和查询嵌入模型Q的输入当前翻译状态h_t和短语描述d_i的语义相关性构建监督信号。当知识库为经过启发式训练结束后的Q和K可以通过翻译端到端训练继续提高性能，也可以就此固定参数，不参与到翻译端到端训练的过程。

翻译端到端训练：翻译端到端训练则通过翻译目标函数产生的梯度更新知识嵌入模型K和查询嵌入模型Q。查询嵌入模型Q可以直接利用翻译目标的梯度更新，但由于查询嵌入模型K的更新涉及到翻译知识库向量索引的更新，导致K的每次更新计算量极大，所以K通常固定使用启发式训练得到的模型参数，或者固定使用其它通用的序列模型的参数。因此避免了翻译知识库向量索引的更新带来的大量计算量，也可以周期性地更新向量索引，比如每训练50步才更新整个翻译知识库。

在一个实施例中，针对翻译模型T的模型训练包括：

将待翻译语句X，当前翻译状态h_t，以及候选二元组[(d₁,p₁),...,(d_n,p_n)]输入至翻译模型T中，得到当前候选词的概率分布P(y_t)。翻译的训练目标通常使用最大似然估计(Maximum likelihood estimation)，如果模型对应的参数为θ，则最大似然估计的目标为max_θ∑_tlog(P_θ(y_t'))，其中y_t'为训练样本里面真实的目标词。通常使用梯度下降(Gradientdescent)的方式最小化损失函数L(θ)＝-∑_tlog(P_θ(y_t'))对去求解上述目标。

本发明提供的基于知识库的机器翻译方法，通过将知识库中所有第一二元组转化为包含索引向量的第二二元组；将当前翻译状态转化为查询向量,所述当前翻译状态为已生成的译文；分别计算所述查询向量与知识库中所有索引向量的相似度分数，选出相似度分数高于预设阈值的索引向量对应的第一二元组作为候选二元组；根据待翻译语句、候选二元组以及当前翻译状态，计算候选译文词的概率分布，将概率分布最大的候选译文词作为目标译文词；重复上述步骤，直至目标译文达到预设长度为止。本发明通过设置包含二元组的翻译知识库，可以通过在翻译知识库中加入特定的二元组来干预模型的生成，在翻译知识库中加入术语、人名、组织机构、地名等固定翻译能够很好地融入特定的领域知识，以及在翻译知识库中加入目标领域的平行语料实现跨领域翻译，在翻译知识库中加入长尾短语的目标翻译能加强对长尾短语的翻译效果。

本发明的实施例还提供一种基于知识库的机器翻译系统，如图3所示，包括：

概率分布计算模块，用于根据待翻译语句、候选二元组以及当前翻译状态，计算候选译文词的概率分布，将概率分布最大的候选译文词作为目标译文词；

目标译文输出模块，用于重复执行上述模块，直至目标译文达到预设长度为止。

在一个实施例中，所述候选二元组选择模块通过以下公式计算所述相似度分数，包括：

s_ti＝s(q_t,k_i)

其中，q_t为所述查询向量，k_i为第二二元组的索引向量。

本发明提供的基于知识库的机器翻译系统，通过将知识库中所有第一二元组转化为包含索引向量的第二二元组；将当前翻译状态转化为查询向量,所述当前翻译状态为已生成的译文；分别计算所述查询向量与知识库中所有索引向量的相似度分数，选出相似度分数高于预设阈值的索引向量对应的第一二元组作为候选二元组；根据待翻译语句、候选二元组以及当前翻译状态，计算候选译文词的概率分布，将概率分布最大的候选译文词作为目标译文词；重复上述步骤，直至目标译文达到预设长度为止。本发明通过设置包含二元组的翻译知识库，可以通过在翻译知识库中加入特定的二元组来干预模型的生成，在翻译知识库中加入术语、人名、组织机构、地名等固定翻译能够很好地融入特定的领域知识，以及在翻译知识库中加入目标领域的平行语料实现跨领域翻译，在翻译知识库中加入长尾短语的目标翻译能加强对长尾短语的翻译效果。

其中，可读存储介质可以是计算机存储介质，也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如，可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(ApplicationSpecific Integrated Circuits，ASIC)中。另外，该ASIC可以位于用户设备中。当然，处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。

在上述终端或者服务器的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，DSP)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于知识库的机器翻译方法，所述知识库由多个第一二元组组成，所述第一二元组由短语描述和短语组成，其特征在于，包括：

2.根据权利要求1所述的基于知识库的机器翻译方法，其特征在于，所述方法还包括：

检测目标译文的长度；

3.根据权利要求1所述的基于知识库的机器翻译方法，其特征在于，通过以下公式计算所述相似度分数，包括：

s_ti＝s(q_t,k_i)

其中，q_t为所述查询向量，k_i为第二二元组的索引向量。

4.根据权利要求1所述的基于知识库的机器翻译方法，其特征在于，所述知识库是自动构建，所述自动构建是根据第一二元组中短语描述的不同而采取不同的构建方式，包括：

5.根据权利要求1所述的基于知识库的机器翻译方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的基于知识库的机器翻译方法，其特征在于，根据知识嵌入模型和查询嵌入模型的输入不同，对所述知识嵌入模型和查询嵌入模型的训练分为启发式训练和翻译端到端训练，包括：

7.根据权利要求1所述的基于知识库的机器翻译方法，其特征在于，在S4中，包括：

8.一种基于知识库的机器翻译系统，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任意一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任意一项所述的方法的步骤。