CN113688640B

CN113688640B - 一种用于医学文档翻译的神经网络机器翻译方法

Info

Publication number: CN113688640B
Application number: CN202111004538.6A
Authority: CN
Inventors: 林余楚; 刘思佑
Original assignee: Shenyi Information Technology Zhuhai Co ltd
Current assignee: Shenyi Information Technology Zhuhai Co ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2023-01-20
Anticipated expiration: 2041-08-30
Also published as: CN113688640A

Abstract

一种用于医学文档翻译的神经网络机器翻译方法，它属于机器翻译技术领域。本发明解决了采用现有方法对医学文档中的医学实体进行翻译的准确率低的问题。本发明方法的模型可以对医学命名实体有效的建模和学习，可以极大地帮助NMT系统缓解由于实体翻译不一致带来的一系列翻译问题，而且在逐句翻译时充分地考虑了文档中的上文信息，从而使得译文更具完整性、符合目标语言的语法结构、遵循原文语义，从而提高了医学实体翻译的准确率，带来译文质量的整体提升。本发明可以应用于对医学文档的翻译。

Description

一种用于医学文档翻译的神经网络机器翻译方法

技术领域

本发明属于机器翻译技术领域，具体涉及一种用于医学文档翻译的神经网络机器翻译方法。

背景技术

基于深度学习(DL)的神经网络(NN)目前已经成为人工智能领域的一种核心模型，广泛应用于语音识别，计算机视觉，自然语言处理等领域，并且神经网络模型在多种任务中表现出色，特别是机器翻译(MT)任务。在机器翻译领域，基于神经网络的机器翻译(NMT)的性能已超过了传统的基于统计的机器翻译模型(SMT)，成为目前最先进、最主流的机器翻译技术。标准的NMT模型在给定源端句子x＝x₁,…,x_I下，直接优化其目标句y＝y₁,…,y_J的条件概率：

其中，θ是模型的参数，y_＜j是部分翻译上下文。概率P(y|x)定义了基于神经网络的编码器-解码器框架。模型参数的训练过程就是最大化训练样本

的似然估计(likelihood)：

典型地，该框架可以采用不同的网络结构如循环神经网络(RNN)、卷积神经网络(CNN)和自关注神经网络(SAN)网络来实现。基于RNN的编码器-解码器框架(RNNsearch)结构如图1所示，编码器读入源端句子“喜欢这块蛋糕吗？”，“<eos>”是句子终结符，并通过RNN输出一个语义向量序列。解码器根据此向量表示，利用关注机制和RNN逐词地生成译文。

具体地，每个目标词的动态生成过程如图2所示：

1、生成源端向量表示序列：首先将离散的源端词表示转换成连续的空间表示(word embedding)，再将其输入到双向RNN中并得到向量序列，其中每个向量，即图1中下方虚线框内的每个圆点直条对应一个源端词。

2、生成当前时刻的源端上下文：注意力模型(attention model)读入由第1步产生的向量序列和解码器中前一时刻状态s_t-1为每个源端词输出一个对齐概率，即图1中的“0.0”或“1.0”，对齐概率的值越高，则表示这个源端词和待生成的目标词越相关，将概率和语义向量加权生成当前时刻的源端上下文表示c_t。

3、生成当前时刻目标端词：解码器读入第2步产生的c_t(表示当前时刻待翻译的源端内容总结)，前一时刻解码器状态s_t-1和前一个生成词y_t-1，输出当前时刻的解码器状态s_t。再根据当前时刻的解码器状态s_t，源端向量表示c_t和前一个生成词y_t-1，使用一个神经网络生成输出层(标准的Softmax操作)，并和所有目标端词进行比较，选择相似度，即概率最高的一个词作为t时刻译文y_t。

重复第2步～第3步，直到译文的全部目标词生成为止。

医学翻译指将一种语言的医学词汇或句子翻译成另一种语言。医学领域的翻译活动包括各种科学文章的翻译、诊断和实验室设备的文件、制药行业的信息、医疗记录、测试结果以及医学和健康领域的许多其他高度专业化的主题。

人工翻译需要译员不仅具备医学专业知识、理解医学术语，同时也要做好保密性。这对译员的要求很高，同时也增加了大量的人力成本。

由于医学领域含有大量的领域内专有名词(terminology)，通用领域的MT系统很难将专有名词准确地、完整地翻译成对应语言。此外，即使医药领域的MT系统，当同一个篇章存在多个相同或相似的专有名词时，其往往很难保证实体在多句译文中前后翻译一致。其主要原因是：1)缺乏很好的专有名词词典融入机制；2)当前MT系统为句子级的翻译框架，很难对上下文信息有全局建模的能力。因此，医学翻译给自动翻译系统带来了极大挑战。如表1所示，文本中含有多个医学领域命名实体，其中，实体“前列腺素E2”可以准确完整的被翻译，而实体“脂多糖”却被漏翻或错翻。当考虑句1～2为一个完整篇章时，实体“高迁移率族蛋白1”却在句1采用缩写译文而在句2中采用完整实体译文，前后翻译不一致。

表1

文献1(Chris Hokamp and Qun Liu.Lexically Constrained Decoding forSequence Generation Using Grid Beam Search.ACL2017.)提出了一种受限解码算法，可以将外部知识，如词典、术语等融入到模型输出中，而不需要改变任何的模型参数和训练数据。具体地，给定预定义的词汇或短语，该解码算法(Grid Beam Search)强制地在目标端生成这些内容。通用Beam Search方法为：在每个时刻，有大小为k的beam，包含k个长度为t的部分序列。不同时刻beam的更新关系，即对第t-1时刻的beam中的每个序列，产生n个候选，将得到的k*n个候选排序，得到的top-k候选作为t时刻的beam。最后一个时刻beam中的序列是完成的序列，可以作为最终的输出序列。文献1的方法为：上面beam扩展到grid的形式，和Beam search相比，多了约束的维度。grid(t,c)表示时刻t，有c个约束对应的beam。可以看出beam之间的更新关系为：将grid(t-1,c)中的每个候选扩展一个词，和grid(t-1,c-1)中的候选扩展一个约束词和并起来，选取top-n的候选，作为grid(t,c)中的候选。最终得到的输出序列为包含了所有约束的beam。

在医学翻译场景下，可以给定双语术语表，首先利用匹配算法遍历术语表源端和待翻译文本，一旦有匹配的术语将术语表目标端构成限制词表，然后采用文献1方法进行强制解码，使得翻译实体可以生成。

不同于文献1显性地解决实体翻译问题，文献2(Longyue Wang,Zhaopeng Tu,AndyWay,Qun Liu.Exploiting Cross-Sentence Context for Neural MachineTranslation.EMNLP2017.)则采用隐性的方法来缓解篇章翻译中翻译不一致的问题。

尽管上述技术能够在一定程度上缓解医学实体翻译一致性差的问题，并在一定程度上提升了翻译质量，但仍然存在两个问题：文献1的方法为强制解码，一旦术语词典错误，译文也会统一错误，文献1和文献2的方法在进行每个句子的翻译时，是假设文档内部句子之间是相互独立的，在进行单个句子的翻译时候均未考虑上下文信息，而篇章信息对机器翻译的影响又是非常大的，因此，采用现有方法对医学文档中的医学实体进行翻译的准确率仍然较低，翻译质量较差。

发明内容

本发明的目的是为解决采用现有方法对医学文档中的医学实体进行翻译的准确率低的问题，而提出一种用于医学文档翻译的神经网络机器翻译方法。

本发明为解决上述技术问题采取的技术方案是：

一种用于医学文档翻译的神经网络机器翻译方法，所述方法具体通过以下步骤实现：

步骤一、将当前待翻译的句子x_m作为源端句子，并选取出与源端句子x_m处于同一文档中的，位于源端句子x_m之前的K个句子x_m-K,…,x_m-1；

分别检索出源端句子x_m中每个词语对应的双语术语对以及选取出的K个句子中每个词语对应的双语术语对；

步骤二、构建神经网络机器翻译模型

所述神经网络机器翻译模型包括第一NMT编码器模块、第二NMT编码器模块、注意力模块和解码器模块；

其中，第一NMT编码器模块和第二NMT编码器模块均包括1-of-K映射层、词向量层和双向RNN层；

所述解码器模块包括词概率层和softmax层；

步骤三、第二NMT编码器模块读入选取出的K个句子以及K个句子对应的双语术语对，根据K个句子对应的双语术语对，对选取出的K个句子进行编码，输出历史向量表示；

步骤四、第一NMT编码器模块读入源端句子x_m以及源端句子x_m对应的双语术语对，并融入历史向量表示，输出源端句子x_m的向量表示；

步骤五、注意力模块读入第一NMT编码器模块的隐藏状态，输出源端句子x_m中每个词语的权重；

步骤六、解码器模块根据源端句子x_m的向量表示以及源端句子x_m中每个词语的权重生成源端句子的目标词；

步骤七、重复步骤一至步骤六的过程，直至整个文档中的全部句子处理完成。

本发明的有益效果是：本发明提出了一种用于医学文档翻译的神经网络机器翻译方法，采用本发明方法的模型可以对医学命名实体有效的建模和学习，可以极大地帮助NMT系统缓解由于实体翻译不一致带来的一系列翻译问题，而且在逐句翻译时充分地考虑了文档中的上文信息，从而使得译文更具完整性、符合目标语言的语法结构、遵循原文语义，从而提高了医学实体翻译的准确率，带来译文质量的整体提升。

附图说明

图1为基于RNN的编码器-解码器框架图；

图2为动态生成每个目标词的流程图；

图3为本发明方法的流程图；

图4为第二NMT编码器模块的工作原理图；

图5为解码器模块状态更新过程的示意图图一；

图6为解码器模块状态更新过程的示意图图二。

具体实施方式

具体实施方式一：结合图3说明本实施方式。本实施方式所述的一种用于医学文档翻译的神经网络机器翻译方法，该方法具体通过以下步骤实现：

步骤一、将当前待翻译的句子x_m作为源端句子，并选取出与源端句子x_m处于同一文档中的，紧位于源端句子x_m之前的K个句子x_m-K,…,x_m-1；其中，x_m为文档的第m个句子，x_m-K,…,x_m-1分别为文档的第m-K个,…,第m-1个句子；

若当前待翻译的句子x_m的上文不足K个句子，则采用占位符，比如K＝3，而当前句为文档的首句，那就在当前句的前面补两个占位符号代表前面为空。这样模型会学习到首句不需要额外信息；

分别检索出源端句子x_m中每个词语对应的双语术语对以及选取出的K个句子中每个词语对应的双语术语对；所述双语术语对由中文术语和英文术语组成；

步骤二、构建神经网络机器翻译模型

其中，第一NMT编码器模块和第二NMT编码器模块均包括1-of-K映射层(也称为on-hot)、词向量层和双向RNN层；

在第一NMT编码器模块和第二NMT编码器模块中，1-of-K映射层、词向量层和双向RNN层可以利用残差方式堆叠N层，第二NMT编码器模块的结构与第一NMT编码器模块类似，且层数、维度等大小都可以自由定义；

所述解码器模块包括词概率层和softmax层；

在解码器模块中，词概率层和softmax层可以利用残差方式堆叠N层；

步骤六、解码器模块根据源端句子x_m的向量表示以及源端句子x_m中每个词语的权重生成源端句子的目标词；生成的目标词即对源端句子的翻译结果；

具体实施方式二：结合图4说明本实施方式。本实施方式与具体实施方式一不同的是：所述步骤三的具体过程为：

令集合C＝{x_m-K，…,x_m-1}，对于C中的任意一个句子x_k，k＝m-K,m-K+1,…,m-1，根据x_k对应的单词{x_1,k,…,x_n,k,…,x_N,k}依次更新隐藏状态，x_n,k为句子x_k对应的第n个单词(所述的第n个单词由句子x_k的第n个词语和第n个词语对应的双术语对拼接而成)，N为句子x_k对应的单词的个数；

h_n,k＝f(h_n-1,k,x_n,k)

其中，f(·)是激活函数，h_n,k是第n个单词对应的隐藏状态，h_n-1,k是第n-1个单词对应的隐藏状态，h_N,k中存储了句子x_k对应的双语术语对的顺序敏感信息，用来表示整个句子的总结，记句子x_k的语句级表示S_k＝h_N,k；

对C中的每个句子分别进行处理后，得到C中的全部句子的语句级表示序列{S₁,…,S_k,…,S_K}；利用语句级表示序列计算各句子的循环状态；

h_k＝f(h_k-1,S_k)

其中，h_k-1是第k-1个句子对应的循环状态，h_k是k个句子对应的循环状态，它总结了之前处理到k位置的句子，同样，利用最后一个句子对应的循环状态来表示对全局上文的总结，即历史向量表示D＝h_K。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是：所述第一NMT编码器模块的初始化状态为D。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是：所述解码器模块的初始隐藏状态s′₀为：

s′₀＝tanh(W_sh_N+W_DD)

其中，W_s为h_N的权重，h_N是由选取出的每个句子的最后一个单词对应的隐藏状态组成的向量，W_D为D的权重。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：结合图5说明本实施方式。本实施方式与具体实施方式一至四之一不同的是：所述解码器模块隐藏状态的更新方式为：

s_i＝f(s_i-1,y_i-1,c_i,D)

其中，s_i为解码器模块在i时刻的隐藏状态，s_i-1为解码器模块在i-1时刻的隐藏状态，y_i-1是i-1时刻生成的目标词，c_i是第一NMT编码器在i时刻的句内上下文和的映射。

在这个策略中，D作为一个辅助信息来源，以更好地抓住原句的意思。现在的门控NMT译码器有四个输入，而不是原来的三个。嵌入句子内部和句子交叉上下文的串联[ci,D]，可以作为一个单独的表示提供给解码器。我们只需要修改相应的副表矩阵的大小，以减少修改的工作量。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：结合图6说明本实施方式。本实施方式与具体实施方式一至四之一不同的是：所述解码器模块隐藏状态的更新方式为：

其中，s_i为解码器模块在i时刻的隐藏状态，s_i-1为解码器模块在i-1时刻的隐藏状态，y_i-1是i-1时刻生成的目标词，c_i是第一NMT编码器在i时刻的句内上下文和的映射，z_i为中间变量，

为向量的乘法(element-wise multiplication，数组元素依次相乘)；

z_i＝f(U_zs_i-1+W_zy_i-1+C_zc_i)

其中，W_z,U_z,C_z为权重。

D中的每个元素输出一个0-1之间的数字，其中1表示“完全传输这个”，0表示“完全接收这个”。然后将全局上下文向量D处理为按元素进行的乘法，然后将其提供给解码器激活层。z_i与D具有相同的维数，因此全局上下文向量中的每个元素都有自己的权值。

其它步骤及参数与具体实施方式一至四之一相同。

考虑表1中的源端输入句1～2为一个完整篇章时，采用本发明方法对源端输入句1和源端输入句2进行翻译后，全部的实体“脂多糖”均被正确翻译，且对全部的实体“高迁移率族蛋白1”的翻译结果一致，证实了本发明方法的有效性。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种用于医学文档翻译的神经网络机器翻译方法，其特征在于，所述方法具体包括以下步骤：

步骤一、将当前待翻译的句子x_m作为源端句子，并选取出与源端句子x_m处于同一文档中的，位于源端句子x_m之前的K个句子x_m-K,…,x_m-1；其中，x_m为文档的第m个句子，x_m-K,…,x_m-1分别为文档的第m-K个,…,第m-1个句子；

步骤二、构建神经网络机器翻译模型

所述解码器模块包括词概率层和softmax层；

2.根据权利要求1所述的一种用于医学文档翻译的神经网络机器翻译方法，其特征在于，所述步骤三的具体过程为：

令集合C＝{x_m-K，…,x_m-1}，对于C中的任意一个句子x_k，k＝m-K,m-K+1,…,m-1，根据x_k对应的单词{x_1,k,…,x_n,k,…,x_N,k}依次更新隐藏状态，x_n,k为句子x_k对应的第n个单词，N为句子x_k对应的单词的个数；

h_n,k＝f(h_n-1,k,x_n,k)

其中，f(·)是激活函数，h_n,k是第n个单词对应的隐藏状态，h_n-1,k是第n-1个单词对应的隐藏状态，h_N,k中存储了句子x_k对应的双语术语对的顺序敏感信息，记句子x_k的语句级表示S_k＝h_N,k；

h_k＝f(h_k-1,S_k)

其中，h_k-1是第k-1个句子对应的循环状态，h_k是k个句子对应的循环状态，利用最后一个句子对应的循环状态来表示对全局上文的总结，即历史向量表示D＝h_K。

3.根据权利要求2所述的一种用于医学文档翻译的神经网络机器翻译方法，其特征在于，所述第一NMT编码器模块的初始化状态为D。

4.根据权利要求2所述的一种用于医学文档翻译的神经网络机器翻译方法，其特征在于，所述解码器模块的初始隐藏状态s′₀为：

s′₀＝tanh(W_sh_N+W_DD)

5.根据权利要求4所述的一种用于医学文档翻译的神经网络机器翻译方法，其特征在于，所述解码器模块隐藏状态的更新方式为：

s_i＝f(s_i-1,y_i-1,c_i,D)

其中，s_i为解码器模块在i时刻的隐藏状态，s_i-1为解码器模块在i-1时刻的隐藏状态，y_i-1是i-1时刻生成的目标词，c_i是第一NMT编码器在i时刻的源端向量表示。

6.根据权利要求4所述的一种用于医学文档翻译的神经网络机器翻译方法，其特征在于，所述解码器模块隐藏状态的更新方式为：

其中，s_i为解码器模块在i时刻的隐藏状态，s_i-1为解码器模块在i-1时刻的隐藏状态，y_i-1是i-1时刻生成的目标词，c_i是第一NMT编码器在i时刻的源端向量表示，z_i为中间变量，

为向量的乘法；

z_i＝f(U_zs_i-1+W_zy_i-1+C_zc_i)

其中，W_z,U_z,C_z为权重。