CN113657119A

CN113657119A - 基于预训练语言模型的古今汉语自然语言处理方法

Info

Publication number: CN113657119A
Application number: CN202110957080.XA
Authority: CN
Inventors: 王鑫; 季紫荆
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2021-11-16
Anticipated expiration: 2041-08-19
Also published as: CN113657119B

Abstract

本发明公开了一种基于预训练语言模型的古今汉语自然语言处理方法，包括：将中文语料(文言文或白话文)输入到预训练语言模型；根据语料类型分别进行不同的预训练任务，以捕获多层级语义信息，获取文本表示；将生成的语料表示输入卷积层，得到更多可学习的表示；通过开关机制切换路径，根据语料类型选择通过句子级聚合或更新门以进一步优化表示；输出最终的中文语料表示。本发明能够充分利用文言文和白话文的特点执行不同的预训练任务，并且可以通过开关机制灵活调整模型结构，以根据语料类型采取不同方法优化语料表示，有效地捕获古今汉语的语料特征，在文言文和白话文的多项自然语言处理任务中实现了更高的准确率和召回率，具有良好的实用性。

Description

基于预训练语言模型的古今汉语自然语言处理方法

技术领域

本发明涉及一种语言处理方法，尤其涉及一种面向自然语言处理的预训练模型。

背景技术

近年来，自然语言处理(Natural Language Processing)技术的快速发展使得人类使用自然语言与计算机进行通信成为可能。与此同时，深度学习(Deep Learning)技术被广泛应用于各个领域，基于深度学习的预训练模型将自然语言处理带入一个新时代。预训练语言模型(Pre-trained Language Model)极大地提升了语言信息表示的效果，成为目前自然语言处理领域的重要研究方向。预训练模型的目标在于使预训练好的模型处于良好的初始状态，在下游任务中达到更好的性能表现，同时减少训练代价，配合下游任务实现更快的收敛速度，从而有效提高模型性能，尤其是对一些训练数据比较稀缺的任务。预训练模型的应用通常分为两步：首先，在计算性能满足的情况下用某个较大的数据集训练出一个较好的模型；其次，根据不同的任务改造预训练模型，用新任务的数据集在预训练模型上进行微调。

在下游任务中应用预训练语言模型表示的方法有两种：基于特征的方法和微调的方法。ELMo等预训练语言模型使用基于特征的方法，将预训练的表示作为额外的特征输入到特定于任务的模型中；GPT则使用微调的方法，引入少量的特定于任务的参数，并通过简单地微调预训练的参数来对下游任务进行训练。早期的预训练语言模型大多是单向的，对句子层级的任务并非最优，且对于token层级的任务非常不利。

BERT模型是预训练语言模型的代表之一，旨在通过联合调节左右上下文来预训练深度双向表示，主要分为两个阶段：预训练(Pre-training)和微调(Fine-tuning)。预训练阶段模型通过两种预训练任务来训练无标注数据，包括遮蔽语言模型任务和下一句话预测任务。微调阶段模型使用预训练参数初始化，然后使用下游任务的标注数据来微调参数。由于BERT模型结构简单且极具有效性，陆续出现了众多在其基础上进行改进的模型，对于英语外的其他常用语言，研究人员也提出了针对不同语言的预训练模型。汉语是世界上现存历史最悠久的自然语言，包含口语和书面语两部分，在其3000年历史中，存在两种发展形态，古代书面汉语被称为文言文，现代书面汉语被称为白话文。针对中文的预训练语言模型研究近年来引起广泛关注，现有的中文预训练模型处理中文的能力已经在BERT模型的基础上得到进一步提升。然而，中文预训练语言模型仍然存在需要解决的关键挑战：

(1)没有根据文言文的特点提出针对性改进的模型。现有的中文预训练语言模型大多集中在白话文上，而现有的文言文预训练语言模型仅使用文言语料进行预训练，没有针对性地修改模型结构和优化训练过程。因此，设计出符合文言文特点的预训练语言模型已成为一个亟待解决的技术问题。

(2)没有考虑到文言文和白话文的内在联系。如前所述，文言文和白话文是同一种语言在不同时期的两种发展形态，尽管在语法和词义上均有较大差别，但在构词方法和基本词汇的一致性上有着内在的联系。因此，建立文言文和白话文联合预训练框架能够充分利用它们的内在一致性，增强模型对于中文语料的表示能力，是中文预训练语言模型未来研究的一个重要方向。

发明内容

针对上述现有技术，综上所述，随着预训练模型的发展，基于深度学习的自然语言处理预训练技术是人工智能的学术前沿问题，具有非常高的学术价值和潜在应用价值。本发明面向文言文及白话文构建了一个联合预训练语言框架，称为CANCN-BERT模型，并设计了针对两种发展形态的预训练任务和模型结构。本发明可以解决现有技术中未能充分利用古今汉语的特点对预训练任务和模型结构进行针对性调整的问题，进一步提高预训练语言模型处理文言文和白话文的性能。

为了解决上述技术问题，本发明提出的一种基于预训练语言模型的古今汉语自然语言处理方法，主要包括：

(1)将中文语料输入预训练语言模型，所述的中文语料包括文言文和白话文中的一种或两种；

(2)预训练阶段，根据语料类型分别设计多层级预训练任务，以捕获多层级语义信息；

(3)将预训练语言模型生成的语料表示输入卷积层，得到更多的可学习表示；

(4)获取通过卷积层得到的语料表示，根据语料类型，通过开关机制切换路径，选择后续采取的优化方法；

(5)输出最终的中文语料表示。

进一步讲，本发明所述的基于预训练语言模型的古今汉语自然语言处理方法，其中：

步骤(1)的具体过程是：根据中文的两个发展阶段划分为两种发展形态，即文言文和白话文，并将所述的中文语料输入BERT预训练语言模型中。

步骤(2)中，根据语料类型分别设计多层级预训练任务，包括以下两种情形中的一种或是两种：

1)针对文言文设计的多层级预训练任务，包括：词级别随机长度遮蔽任务随机选择长度为1到最大长度的目标进行遮蔽；将最大长度设置为3，即遮蔽目标最多由3个字组成；句子级别句子顺序预测任务使用来自同一文档的两个连续文段作为正例，并以50％的概率调换两个连续段落的顺序作为反例，避免文段主题的差别，促使模型专注于对句子间的连贯性进行学习；文档级别标题内容匹配任务采用的是句子顺序预测任务的二元分类任务，用于捕获高级语义信息，预训练阶段采用中国古代诗词数据集，使用标题内容匹配的诗词作为正例，并以50％的概率破坏标题与相应诗歌内容之间的匹配作为反例。

2)针对白话文设计的多层级预训练任务包括，包括：词级别全词遮蔽任务先执行中文分词，之后在遮蔽过程中会将同属于一个词的字符全部进行遮蔽；句子级别句子顺序预测任务与文言文相同；开头结尾对应任务同样是一种二元分类任务，预训练阶段使用人民日报数据集，经过预处理提取出每篇文章的开头和结尾，以开头结尾匹配的文段作为正例，并以50％的概率打乱开头和结尾的对应关系作为反例。

步骤(3)的具体过程包括：将预训练语言模型生成的语料表示输入到一个卷积层，通过使用tanh激活函数，非线性地将词嵌入转换为更高级别的特征；对于字符向量x_t，经过卷积层后其表示定义为：

x_t＝tanh(W_tx_t+b_t) (1)

式(1)中，W_t表示权重矩阵，b_t表示偏置向量。

步骤(4)中，切换路径的开关机制是：经过卷积层得到的语料表示，根据语料类型通过开关机制切换路径，选择不同的优化表示方法；如果语料为文言文，则关闭通向句子级聚合的开关，打开通向更新门的开关；如果语料为白话文，则关闭通向更新门的开关，打开通向句子级聚合的开关。

步骤(4)中，选择后续采取的优化方法，包括以下两种情形中的一种或两种：

1)文言文设计的字符表示优化方法，包括：设计了一个句子级聚合来有效地使用相邻字符信息，利用滑动窗口机制并人为设置窗口大小；窗口在目标句上划定的范围内滑动，从窗口第一次包含目标字符开始，到窗口最后一次包含目标字符结束，所有经过的词以及目标字符本身都被视为字符的邻居；在滑动过程中，如果目标词是句子中的第一个或最后一个词，则窗口滑动范围等于窗口大小；采用平均聚合方法，在给定窗口中聚合词向量的邻居信息，将聚合过程定义为AGG，字符向量x_t在窗口尺寸w下的聚合结果

定义为：

式(2)中，x_j是邻居字符向量，p_t和p_j分别是字符向量x_t和邻居字符向量x_j的位置，s是句子的长度；经过线性变换x_t的新表示h_t定义为：

式(3)中，W_s是一个可学习的权重矩阵，σ是一个激活函数，所述激活函数为ReLU。

2)针对白话文设计的字符表示优化方法，包括：定义了一个更新门z_t来确定句子中单词信息被保留的程度；每个词信息通过sigmoid函数传递，得到的值在0到1之间；更新门定义为：

z_t＝σ(W_zx_t+b_z) (4)

式(4)中，W_z和b_z分别表示权重矩阵和偏置向量，x_t是经过卷积层得到的tanh输出；将x_t与sigmoid输出z_t相乘，输出节点特征h_t所携带的信息定义为：

h_t＝z_t ox_t (5)

式(5)中，o表示哈达玛积。

步骤(5)的具体过程包括：经过预训练语言模型、卷积层并通过句子级聚合或更新门对字符表示进一步优化后，将得到的最终语料表示输出。

与现有技术相比，本发明的有益效果是：

针对中文的两种发展形态(文言文和白话文)，本发明提出了一个面向文言文和白话文的联合预训练语言模型。中文被合理地分为文言文和白话文，并针对这两种形态分别提出了多层次的预训练任务，旨在根据它们的不同特征，在训练过程中充分捕获语料中包含的语义信息，以生成准确的表示。此外，本发明设计了一个联合框架，模型结构可以通过开关机制灵活调整，从而采用不同的优化方法，以适应文言文和白话文的特点，增强模型的表示能力，以便有效地处理中文语料。

附图说明

图1是本发明处理方法的整体模型框架图；

图2是本发明处理方法的工作流程图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步的说明，但下述实施例绝非对本发明有任何限制。

图1示出了本发明的模型框架图。本发明考虑了中文的两种发展形态，包括文言文和白话文。新模型在预训练过程中针对这两种形态分别设计不同的预训练任务：对于文言文，采取词级别随机长度遮蔽任务，句子级别句子顺序预测任务以及文档级别标题内容匹配任务；对于白话文，采取词级别全词遮蔽任务，句子级别句子顺序预测任务以及文档级别开头结尾对应任务。此外，本发明针对模型结构进行优化，输入的文本经过新的预训练语言模型处理后生成词嵌入，并将生成的词嵌入经过卷积层，随后使用开关机制控制通过的优化路径。对于含有较多复杂信息的白话文，引入更新门判断每个词的保留程度，以消除无关信息的干扰，捕获长距离依赖。而对于简明扼要的文言文，每个字往往包含更多信息，引入句子级聚合操作聚合邻居信息，进一步加强当前节点表示，从而充分捕获文本中的语义信息，提升模型表示能力。最后将生成的语料表示输出。

图2示出了本发明基于预训练语言模型的古今汉语自然语言处理方法的工作流程，主要包括：将中文语料输入以BERT系列模型为代表的预训练语言模型。在预训练阶段，针对输入的语料类型，执行不同的多级预训练任务；如果语料为文言文，则执行词级别随机长度遮蔽任务，句子级别句子顺序预测任务以及文档级别标题内容匹配任务；如果语料为白话文，则执行词级别全词遮蔽任务，句子级别句子顺序预测任务以及文档级别开头结尾对应任务。将预训练语言模型输出的语料表示输入卷积层，得到更多的可学习表示。通过开关机制切换路径，根据语料类型决定后续采用的优化方法；如果语料为文言文，则通过句子级聚合优化表示；如果语料为现代文，则通过更新门优化表示。输出最终的中文语料表示。

本发明基于预训练语言模型的古今汉语自然语言处理方法的具体步骤如下：

步骤1：输入中文语料，将语料输入到预训练语言模型。即根据中文的两个发展阶段，将中文语料划分为文言文和白话文，并将所述的中文语料输入BERT预训练语言模型中。

本发明中，采用当前自然语言处理领域的主流技术预训练语言模型来获取输入文本的词嵌入。基于谷歌提出的BERT模型结构，模型使用了当前流行的特征提取器Transformer，并在预训练过程中利用双向信息来获得具有丰富语义信息的词表示。

步骤2：根据语料类型分别设计不同的多层级预训练任务，以捕获多层级语义信息。

如果语料为文言文，则执行词级别随机长度遮蔽任务，句子级别句子顺序预测任务以及文档级别标题内容匹配任务。文言文中单字往往可以表达完整含义，无需对其进行分词，因此采用一种已被证明简单有效的随机长度遮蔽任务，并随机选择长度为1到最大长度的目标进行遮蔽。如果将最大长度定义为N，则遮蔽片段长度为1到最大长度N，可得到遮蔽片段长度为n的概率，具体采用以下公式：

n的取值范围，k的取值范围在公式中定义为1到N。

此外，使用句子顺序预测任务代替BERT原始的下一句话预测任务，使用来自同一文档的两个连续文段作为正例，并以50％的概率将两个连续段落的顺序交换作为反例，避免文段主题的差别，促使模型专注于对句子间的连贯性进行学习。

由于现有的文言文数据集多为古籍，文章不是独立的章节，不符合首尾对应的特点，而古代诗词往往篇幅较短，标题通常包含诗词的主题，因此对于文言文，本发明提出文档级别标题内容匹配任务，这是一种类似于句子顺序预测任务的二元分类任务，用于捕获高级语义信息。具体来说，本发明采用中国古代诗词数据集，以标题和内容匹配的诗词作为正例，并以50％的概率打乱诗词的标题与内容之间的匹配作为反例。

如果语料为白话文，则执行词级别全词遮蔽任务，句子级别句子顺序预测任务以及文档级别开头结尾对应任务。白话文与文言文的主要区别在于文言文通常以单字表达完整的意思，而在白话文中，一般由多个字组成的词包含完整的信息，并且每个词之间没有明显的分隔。考虑到这些，本发明采用全词遮蔽任务来捕获词级信息，首先对文段进行中文分词，之后在遮蔽过程中当遮蔽了来自某个词语的字时，便也将组成这个词的其他文字进行遮蔽。为了捕获句子级别的信息，本发明采用与文言文相同的句子顺序预测任务。此外，在白话文中，最常用的写作结构是总分总。开头的作用是引导全文，点明主旨并为下文做铺垫，结尾的作用是总结全文，概括中心思想，并与开头相呼应。为此，本发明提出了一种新的预训练任务，称为开头结尾对应任务，以捕获高级语义信息。具体来说，本发明实施例，使用人民日报数据集，提取文章的开头和结尾，将开头结尾匹配的文段作为正例，并以50％的概率将开头和结尾的对应关系打乱作为反例。

步骤3：将预训练语言模型生成的语料表示输入卷积层，得到更多可学习表示。

为了获得更多可学习的表示，本发明引入一个卷积层，将预训练语言模型生成的语料表示输入到一个卷积层，通过使用tanh激活函数，非线性地将词嵌入转换为更高级别的特征。对于字符向量x_t，具体采用经过卷积层后其表示定义为以下公式(1)：

x_t＝tanh(W_tx_t+b_t) (1)

其中，W_t表示权重矩阵，b_t表示偏置向量。

步骤4：通过开关机制切换路径，根据语料类型选择采用的优化方法。

经过卷积层得到的语料表示，根据语料类型通过开关机制切换路径，选择不同的优化表示方法。如果语料为文言文，则关闭通向句子级聚合的开关，打开通向更新门的开关，即当语料为文言文时，采用句子级聚合优化生成的表示；如果语料为白话文，则关闭通向更新门的开关，打开通向句子级聚合的开关，即当语料为白话文时，采用更新门优化生成的表示。

文言文设计的字符表示优化方法，为了增强字符表示，本发明设计了一个句子级聚合来有效地使用相邻字符信息，利用滑动窗口机制并人为设置窗口大小。窗口在目标句上划定的范围内滑动，从窗口第一次包含目标字符开始，到窗口最后一次包含目标字符结束，所有经过的词以及目标字符本身都被视为字符的邻居。在滑动过程中需要考虑两种特殊情况，即如果目标词是句子中的第一个或最后一个词，则窗口滑动范围等于窗口大小。出于简洁性考虑，在实验中使用平均聚合方法，在给定窗口中聚合词向量的邻居信息。本发明将聚合过程定义为AGG，得到字符向量x_t在窗口尺寸w下的聚合结果

具体采用以下公式(2)：

其中x_j是邻居字符向量，p_t和p_j分别是字符向量x_t和邻居字符向量x_j的位置，而s是句子的长度。然后由线性变换得到x_t的新表示h_t，具体采用以下公式(3)：

其中W_s是一个可学习的权重矩阵，σ是一个激活函数，例如ReLU。

针对白话文设计的字符表示优化方法，为了在句子中捕获更多关键和有意义的信息，本发明定义了一个更新门z_t来确定句子中单词信息被保留的程度；每个词信息通过sigmoid函数传递，得到的值在0到1之间，值越接近0，越容易被丢弃，而越接近1，越意味着保留。更新门定义为：

z_t＝σ(W_zx_t+b_z) (4)

其中W_z和b_z分别表示权重矩阵和偏置向量，x_t是经过卷积层得到的tanh输出；将x_t与sigmoid输出z_t相乘，以决定输出节点特征h_t所携带的信息，具体采用以下公式(5)：

h_t＝z_t ox_t (5)

其中o表示哈达玛积。

步骤5：输出最终的语料表示。

经过预训练语言模型、卷积层并通过开关机制选择句子级聚合或更新门对字符表示进一步优化后，将得到的最终语料表示输出。

尽管上面结合附图对本发明进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨的情况下，还可以做出很多变形，这些均属于本发明的保护之内。

Claims

1.一种基于预训练语言模型的古今汉语自然语言处理方法，包括以下步骤：

(2)在预训练阶段，根据语料类型分别设计多层级预训练任务，以捕获多层级语义信息；

(5)输出最终的中文语料表示。

2.如权利要求1所述的基于预训练语言模型的古今汉语自然语言处理方法，其特征在于，步骤(1)的具体过程是：根据中文的两个发展阶段，将中文语料划分为文言文和白话文，并将所述的中文语料输入BERT预训练语言模型中。

3.如权利要求1所述的基于预训练语言模型的古今汉语自然语言处理方法，其特征在于，步骤(2)中，根据语料类型分别设计多层级预训练任务，包括以下两种情形中的一种或是两种：

1)针对文言文设计的多层级预训练任务，包括：词级别随机长度遮蔽任务随机选择长度为1到最大长度的目标进行遮蔽；将最大长度设置为3，即遮蔽目标最多由3个字组成；句子级别句子顺序预测任务使用来自同一文档的两个连续文段作为正例，并以50％的概率调换两个连续段落的顺序作为反例，避免文段主题的差别，促使模型专注于对句子间的连贯性进行学习；文档级别标题内容匹配任务采用的是句子顺序预测任务的二元分类任务，用于捕获高级语义信息，预训练阶段采用中国古代诗词数据集，使用标题内容匹配的诗词作为正例，并以50％的概率破坏标题与相应诗歌内容之间的匹配作为反例；

4.如权利要求1所述的基于预训练语言模型的古今汉语自然语言处理方法，其特征在于，步骤(3)的具体过程包括：

将预训练语言模型生成的语料表示输入到一个卷积层，通过使用tanh激活函数，非线性地将词嵌入转换为更高级别的特征；对于字符向量x_t，经过卷积层后其表示定义为：

x_t＝tanh(W_tx_t+b_t) (1)

式(1)中，W_t表示权重矩阵，b_t表示偏置向量。

5.如权利要求1所述的基于预训练语言模型的古今汉语自然语言处理方法，其特征在于，步骤(4)中，切换路径的开关机制是：经过卷积层得到的语料表示，根据语料类型通过开关机制切换路径，选择不同的优化表示方法；

如果语料为文言文，则关闭通向句子级聚合的开关，打开通向更新门的开关；如果语料为白话文，则关闭通向更新门的开关，打开通向句子级聚合的开关。

6.如权利要求1所述的基于预训练语言模型的古今汉语自然语言处理方法，其特征在于，步骤(4)中，选择后续采取的优化方法，包括以下两种情形中的一种或两种：

定义为：

式(3)中，W_s是一个可学习的权重矩阵，σ是一个激活函数，所述激活函数为ReLU；

z_t＝σ(W_zx_t+b_z) (4)

式(5)中，

表示哈达玛积。

7.如权利要求1所述的基于预训练语言模型的古今汉语自然语言处理方法，其特征在于，步骤(5)的具体过程包括：经过预训练语言模型、卷积层并通过句子级聚合或更新门对字符表示进一步优化后，将得到的最终语料表示输出。