CN109740169A

CN109740169A - 一种基于词典和seq2seq预训练机制的中医古籍翻译方法

Info

Publication number: CN109740169A
Application number: CN201910020459.0A
Authority: CN
Inventors: 高升; 徐亨如; 李思; 徐雅静
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2019-05-10
Anticipated expiration: 2039-01-09
Also published as: CN109740169B

Abstract

本发明公开了一种基于词典和seq2seq预训练机制的中医典籍古文翻译方法，属于信息处理领域。该方法的特征包括：先预训练一个通用的seq2seq古文翻译模型，再基于词典，在中医专业知识的指导下，训练针对中医典籍的古文翻译模型。具体特征为：编码器和中医专业知识编码器分别用循环神经网络将古文编码得到内容向量，中医专业知识编码得到专业向量；将内容向量作为另一个循环神经网络的初始参数，输入特定开始字符，开始解码；将上一时刻解码器的输出、内容向量、专业向量拼接作为下一时刻解码器的输入，直至解码器输出结束符。本发明通过预训练通用的seq2seq古文翻译模型，并基于词典，在中医专业知识的指导下对中医典籍古文翻译进行优化，取得了很好的应用效果。

Description

一种基于词典和seq2seq预训练机制的中医古籍翻译方法

技术领域

本发明涉及信息处理领域，特别涉及一种基于词典和seq2seq预训练机制的中医古籍翻译方法

背景技术

机器翻译应用非常广泛，传统的机器翻译基于统计的方法，需要耗费大量的人力，且效果不好。目前主流的方法是基于神经网络的神经翻译，基于seq2seq的神经翻译方法和基于注意力机制的神经翻译方法都取得了很好的效果。seq2seq又称编码器-解码器方法，由编码器和解码器组成，分为编码和解码两个阶段。在编码阶段，将待翻译文本编码成定长向量，在解码阶段，根据编码得到的定长向量以及前一个词翻译的结果，得到下一个词的翻译结果。神经机器翻译已经开始商用，但在汉语古文到现代汉语的翻译中还没有特别好的效果，尤其是在中医典籍古文翻译领域，还没有成熟的方法和模型。主要原因有两点，一是目前中医古文翻译适用语料很少，难以训练复杂的神经网络模型。二是中医知识非常专业，使用通用的翻译模型翻译出的结果往往质量很低。本发明为了解决上述问题，提出了一种基于词典和seq2seq预训练机制的中医典籍古文翻译方法。

发明内容

为了解决现有的技术问题，本发明提供了一种基于词典和seq2seq预训练机制的中医典籍古文翻译方法，方案如下。

第一部分：训练通用的seq2seq古文翻译模型

神经网络模型需要大量的语料进行模型训练，由于中医典籍古文翻译的训练语料很少，目前世面上只有《黄帝内经》、《难经》、《伤寒杂病论》、《神农本草经》中医四大经典有现代汉语翻译版本，进行人工标准对人力资源消耗过大，因此，我们先训练通用的古文翻译模型，通用的古文翻译模型，训练语料来源于古诗，古词，古文，这些古诗词、古文都有翻译好的翻译版本，可以训练出通用的seq2seq古文翻译模型。

步骤一，建立古文词表和现代汉语词表，并将所有的古文和现代汉语的每个词语都映射为相应的词向量。

步骤二，将古文的词向量拼接，即将输入的古汉语文本映射为一个古文文本矩阵。

步骤三，编码阶段，使用一个循环神经网络对古文文本矩阵进行编码，将古文映射成一个定长的向量。

步骤四，解码阶段，根据编码器得到的定长向量，作为另一个循环神经网络的初始参数，拼接特定的开始字符和步骤三得到的定长向量，作为解码器的输入，开始解码。

步骤五，拼接上一个时刻解码器的输出和步骤三得到的定长向量，作为下一个时刻解码器的输入，每个时刻的输出经过一个前向神经网络，并在现代汉语词表上得到翻译结果，直到解码器输出的翻译结果为结束符，解码结束。

第二部分：在通用的seq2seq古文翻译模型基础上，由专业的中医知识指导，训练针对中医典籍的古文翻译模型。

第一部分训练的是一个通用的古文翻译模型，这个模型训练语料充分，可以在通用领域取得较好效果，但由于中医领域的高度专业化，我们需要针对中医典籍古文翻译进行优化。这部分的训练语料为《黄帝内经》、《难经》、《伤寒杂病论》、《神农本草经》中医四大经典，及他们的现代汉语翻译文章。

步骤一，由第一部分得到的古文词表和现代汉语词表，将中医典籍的古文和现代汉语映射成词向量

步骤二，对于中医古文的专有名词，由《中医名词词典》，得到他们已有的现代汉语专业解释，并根据已有的现代汉语词表，将专业解释映射成词向量。

步骤三，重载第一部分训练得到的模型，加入中医专业知识编码结构，将针对本句古文的中医专业知识编码成中医专业知识向量。按第一部分的步骤三-步骤五进行训练，使得翻译模型适应中医典籍领域。和第一部分不同的是，解码阶段的输入由步骤三得到的定长向量、上一个时刻的输出、中医专业知识向量共同得到。

附图说明

图1是本发明提供的通用的seq2seq古文翻译模型结构图。

图2是本发明提供的针对基于中医专业知识指导的中医典籍古文翻译模型结构图。

图3为长短期记忆网络单元的内部结构图。

具体实施方式

接下来将对本发明的实施方案作更详细的描述。

首先使用大量的古文-现代汉语平行语料训练通用的seq2seq古文翻译模型。图1是通用的seq2seq 古文翻译模型结构图，其中包括：

步骤S1:古文和现代汉语分别向量化；

步骤S2：拼接古文词向量得到编码器输入；

步骤S3：编码阶段，用循环神经网络编码古文信息；

步骤S4：输入特定的开始符，开始解码；

步骤S5：由编码器得到的固定向量、解码器上一时刻的输出得到解码器的输入，解码直至输出停止符。

下面对第一部分的每个步骤进行具体的说明：

步骤S1：古文和现代汉语分别向量化。本发明首先分别针对古语和现代汉语，建立词语到词向量编号的映射字典，将文本中各个词语映射为相应的词语编号。建立词向量矩阵，每一行行号对应相应的词语编号，每一行代表一个词向量。假设中文词语共有N个，那么词向量矩阵可以表示为一个N*d的矩阵，其中d表示词向量的维度，每一个词语都可以用一个d维的向量进行表示，即e_i。

步骤S2：拼接古文词向量得到编码器输入。对于古语的输入文本，假设该句话中一共有n个词语，每一个词语都由一个d维的向量表示，将该句中的所有词语的词向量拼接，可以得到编码器的输入矩阵，输入矩阵可以表示为x。

其中，x_i表示文本中第i个单词的词向量，n表示文本长度即文本中词语个数，表示向量的列连接。

步骤S3：编码阶段，用一个双向循环神经网络编码古文信息，记为LSTM_e。循环神经网络可以很好的提取文本的上下文信息，循环神经网络可以关注到更长时间的依赖关系，更好的捕捉文章的整体信息。传统的循环神经网络会出现梯度消失及梯度爆炸的问题，而长短期记忆网络(LSTM)可以很好的解决这个问题。长短期记忆网络中利用输入门，忘记门，输出门可以更有效的控制学习到长距离的依赖关系。

图3给出了一种长短期记忆网络的单元结构，时刻t时可以描述为：

i_t＝σ(W_i·x_t+U_i·h_t-1+b_i)

f_t＝σ(W_f·x_t+U_f·h_t-1+b_f)

o_t＝σ(W_o·x_t+U_o·h_t-1+b_o)

其中x是输入的向量，C是记忆单元，i是输入门，f是忘记门，o是输出门。σ是sigmoid激活函数。是数值对位相乘，·是矩阵相乘。W和U分别是输入和隐藏层的权重矩阵，b是偏置。是记忆单元的候选值，由当前的输入与之前的隐藏层状态共同决定。C_t通过输入门和忘记门分别作用于记忆单元候选值和前一时刻记忆单元的值共同作用。

单向的长短期记忆网络虽然也能很好的提取网络信息但是不能提取反向的信息。我们使用双向的长短期记忆网络对古文进行语义信息编码。双向长短期记忆网络有两个方向的记忆单元，分别抽取正向及反向的文本信息。循环神经网络的最后时刻的隐层被认为包含了整个序列的所有信息，因此我们将正向及反向单元的最后时刻的隐层进行拼接，作为古文的语义向量表示。

其中表示正向的长短期记忆网络在最后时刻的隐层，表示反向的长短期记忆网络在t时刻的隐层。

步骤S4：输入特定的开始符，开始解码。在步骤3中我们得到了古文的语义表示向量context，该向量蕴含了该古文的所有信息。接下来我们需要用这个向量context，得到现代汉语的翻译。我们使用如步骤S3类似的长短期记忆网络(LSTM)，不同的是，这里我们的长短期记忆网络和步骤三的参数不同，且只有单向，记为LSTM_d,并用context向量初始化步骤S4的长短期记忆网络。我们设定两个特殊的符号，一个是开始符，另一个是结束符。我们首先拼接开始符及步骤三的context向量，输入到步骤S4的长短期记忆网络，得到第一个时刻的输出此时，解码阶段开始。

步骤S5：根据编码器得到的语义向量context和已经生成的输出序列解码，直至输出停止符。拼接第一个时刻得到的输出以及步骤S3生成的context向量，作为第二时刻解码器的输入进行解码，以此类推，每个时刻的输出经过一个前向神经网络(fc)，并在现代汉语词表上得到翻译结果，直到该翻译结果为另一个特殊字符结束符，解码结束。

即

之后是在专业中医知识的指导下，训练适用于中医领域的特定翻译模型。在专业中医知识的指导下，我们使用有古文-现代汉语平行语料的《黄帝内经》、《难经》、《伤寒杂病论》、《神农本草经》四部经典中医典籍对模型进行优化。

图二是针对中医典籍古文翻译的网络结构图，其中包括：

步骤S1：中医古文和现代汉语分别向量化；

步骤S2：中医古文的中医专有名词，得到其专业现代汉语解释；

步骤S3：列拼接中医古文词向量得到编码器输入，列拼接现代汉语专业解释词向量，经过中医专业知识编码器，得到专业知识编码向量；

步骤S4：输入特定的开始符，开始解码；

步骤S5：由编码器得到的固定向量、解码器上一时刻的输出、专业知识编码向量共同获得该解码器的输入，解码直至输出停止符；

图2重载了图一的模型，编码器LSTM_e和解码器LSTM_d由图一的编码器和解码器初始化，并且相比图1增加了中医专业知识编码器LSTM_z，编码器、解码器、中医专业知识编码器均可训练、可更新。我们将通过《中医名词词典》得到的中医专业知识向量化，作为中医专业知识编码器的输入,输入矩阵可以表示成m。

中医专业知识编码器LSTM_z采用的结构和编码器一样，也是双向的长短期记忆网络，将正向及反向单元最后时刻的隐层进行拼接，作为中医专业知识的语义向量表示。

在解码阶段，步骤S3生成的context向量，以及中医专业知识的语义向量expert，经过一个前向神经网络，得到指导向量expert′,拼接上一个时刻解码器的输出和expert′,作为这一时刻解码器的输入，并按照第一部分的方案进行解码。

expert′＝fc([expert,context])

以上结合附图对所提出的一种基于词典和seq2seq预训练机制的中医典籍古文翻译方法及各模块的具体实施方式进行了阐述。通过以上实施方式的描述，所属领域的一般技术人员可以清楚的了解到本发明可借助软件加必需的通用硬件平台的方式来实现。

依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

以上所述的本发明实施方式，并不构成对发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于词典和seq2seq预训练机制的中医古籍翻译方法，其特征在于，所述方法包含以下结构和步骤：

第一部分，训练通用的seq2seq古文翻译模型，

(1.1)古文和现代汉语词语分别向量化，分别建立古文和现代汉语的词典，对输入文本的词语进行映射，将词语转换为相应的词向量；

(1.2)对步骤(1.1)得到的古文各词语词向量进行列拼接，得到编码器输入；

(1.3)编码阶段，使用循环神经网络对古文进行语义信息编码，将步骤(1.2)得到的向量作为编码器的输入，编码成一个定长的语义向量context；

(1.4)解码阶段，用步骤(1.3)得到的context向量初始化用于解码的循环神经网络，使用特定的开始符，作为解码器第一时刻的输入，开始解码；

(1.5)解码直至输出停止符，列拼接步骤(1.3)得到的语义向量context和上一时刻解码器的输出，得到下一时刻的解码器输入，输入至解码器，将解码器输出经过前向神经网络得到翻译结果，解码直至解码器输出停止符,解码结束。

第二部分，基于中医字典，在中医专业知识指导下，训练针对中医典籍的古文翻译模型，

(2.1)由第一部分得到的古文词表和现代汉语词表，将中医典籍的古文和现代汉语映射成词向量；

(2.2)对步骤(2.1)得到的古文的文本矩阵进行列拼接，得到编码器输入，对于中医古文的专有名词，由《中医名词词典》，得到现代汉语专业解释，并根据已有的现代汉语词表，将现代汉语专业解释映射成词向量。

(2.3)重载第一部分训练得到的模型，加入中医专业知识编码结构，得到中医专业知识编码向量，并按第一部分的步骤二-步骤五进行训练，和第一部分不同的是，步骤三得到的定长向量先和中医专业知识编码向量列连接，再经过一个前向神经网络，得到指导向量，解码阶段的输入由上一个时刻解码器的输出和指导向量列拼接得到。

2.如权利要求1所述的方法，其特征在于，所述第二部分步骤(2.2)具体包括：

(2.2.1)根据《中医名词词典》，提取出中医古文专有名词；

(2.2.2)根据《中医名词词典》，得到(2.2.1)中中医古文专有名词的现代汉语专业解释；

(2.2.3)根据(1.1)得到的现代汉语词表，将现代汉语专业解释映射成词向量。

3.如权利要求1所述的方法，其特征在于，所述第二部分步骤(2.3)具体包括：

(2.3.1)循环神经单元对步骤(2.2)得到的现代汉语专业解释词向量进行处理；

(2.3.2)拼接正向和反向最后一个时刻循环神经网络的隐层矩阵，得到中医专业知识编码向量；

(2.3.3)重载第一部分训练得到的模型，按第一部分的步骤二-步骤五进行训练。

4.如权利要求3所述的方法，其特征在于，第二部分编码器、解码器的初始参数为第一部分编码器、解码器的参数，且参数可更新、可训练。

5.如权利要求1所述的方法，其特征在于，第二部分解码器输入由指导向量和解码器上一个时刻的输出列拼接得到，其中指导向量由步骤(1.3)得到的context向量和步骤(2.3)得到的中医专业知识编码向量列拼接后经过一个前向神经网络得到。

6.如权利要求1所述的方法，其特征在于，网络第一部分的训练语料为具有古文-现代汉语平行语料的语料，包括古诗、古词、古文，网络第二部分的训练语料为《黄帝内经》、《难经》、《伤寒杂病论》、《神农本草经》四部经典中医典籍，网络第二部分的中医专业知识词典为《中医名词词典》。