CN113657119A - 基于预训练语言模型的古今汉语自然语言处理方法 - Google Patents
基于预训练语言模型的古今汉语自然语言处理方法 Download PDFInfo
- Publication number
- CN113657119A CN113657119A CN202110957080.XA CN202110957080A CN113657119A CN 113657119 A CN113657119 A CN 113657119A CN 202110957080 A CN202110957080 A CN 202110957080A CN 113657119 A CN113657119 A CN 113657119A
- Authority
- CN
- China
- Prior art keywords
- language
- training
- chinese
- level
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000003058 natural language processing Methods 0.000 title claims abstract description 22
- 230000002776 aggregation Effects 0.000 claims abstract description 21
- 238000004220 aggregation Methods 0.000 claims abstract description 21
- 239000000463 material Substances 0.000 claims abstract description 19
- 230000007246 mechanism Effects 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 24
- 230000000873 masking effect Effects 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 20
- 238000005457 optimization Methods 0.000 claims description 17
- 238000013461 design Methods 0.000 claims description 11
- 238000011161 development Methods 0.000 claims description 11
- 230000018109 developmental process Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 7
- 238000006116 polymerization reaction Methods 0.000 claims description 4
- 230000000717 retained effect Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 239000011541 reaction mixture Substances 0.000 claims 1
- 238000013135 deep learning Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于预训练语言模型的古今汉语自然语言处理方法,包括:将中文语料(文言文或白话文)输入到预训练语言模型;根据语料类型分别进行不同的预训练任务,以捕获多层级语义信息,获取文本表示;将生成的语料表示输入卷积层,得到更多可学习的表示;通过开关机制切换路径,根据语料类型选择通过句子级聚合或更新门以进一步优化表示;输出最终的中文语料表示。本发明能够充分利用文言文和白话文的特点执行不同的预训练任务,并且可以通过开关机制灵活调整模型结构,以根据语料类型采取不同方法优化语料表示,有效地捕获古今汉语的语料特征,在文言文和白话文的多项自然语言处理任务中实现了更高的准确率和召回率,具有良好的实用性。
Description
技术领域
本发明涉及一种语言处理方法,尤其涉及一种面向自然语言处理的预训练模型。
背景技术
近年来,自然语言处理(Natural Language Processing)技术的快速发展使得人类使用自然语言与计算机进行通信成为可能。与此同时,深度学习(Deep Learning)技术被广泛应用于各个领域,基于深度学习的预训练模型将自然语言处理带入一个新时代。预训练语言模型(Pre-trained Language Model)极大地提升了语言信息表示的效果,成为目前自然语言处理领域的重要研究方向。预训练模型的目标在于使预训练好的模型处于良好的初始状态,在下游任务中达到更好的性能表现,同时减少训练代价,配合下游任务实现更快的收敛速度,从而有效提高模型性能,尤其是对一些训练数据比较稀缺的任务。预训练模型的应用通常分为两步:首先,在计算性能满足的情况下用某个较大的数据集训练出一个较好的模型;其次,根据不同的任务改造预训练模型,用新任务的数据集在预训练模型上进行微调。
在下游任务中应用预训练语言模型表示的方法有两种:基于特征的方法和微调的方法。ELMo等预训练语言模型使用基于特征的方法,将预训练的表示作为额外的特征输入到特定于任务的模型中;GPT则使用微调的方法,引入少量的特定于任务的参数,并通过简单地微调预训练的参数来对下游任务进行训练。早期的预训练语言模型大多是单向的,对句子层级的任务并非最优,且对于token层级的任务非常不利。
BERT模型是预训练语言模型的代表之一,旨在通过联合调节左右上下文来预训练深度双向表示,主要分为两个阶段:预训练(Pre-training)和微调(Fine-tuning)。预训练阶段模型通过两种预训练任务来训练无标注数据,包括遮蔽语言模型任务和下一句话预测任务。微调阶段模型使用预训练参数初始化,然后使用下游任务的标注数据来微调参数。由于BERT模型结构简单且极具有效性,陆续出现了众多在其基础上进行改进的模型,对于英语外的其他常用语言,研究人员也提出了针对不同语言的预训练模型。汉语是世界上现存历史最悠久的自然语言,包含口语和书面语两部分,在其3000年历史中,存在两种发展形态,古代书面汉语被称为文言文,现代书面汉语被称为白话文。针对中文的预训练语言模型研究近年来引起广泛关注,现有的中文预训练模型处理中文的能力已经在BERT模型的基础上得到进一步提升。然而,中文预训练语言模型仍然存在需要解决的关键挑战:
(1)没有根据文言文的特点提出针对性改进的模型。现有的中文预训练语言模型大多集中在白话文上,而现有的文言文预训练语言模型仅使用文言语料进行预训练,没有针对性地修改模型结构和优化训练过程。因此,设计出符合文言文特点的预训练语言模型已成为一个亟待解决的技术问题。
(2)没有考虑到文言文和白话文的内在联系。如前所述,文言文和白话文是同一种语言在不同时期的两种发展形态,尽管在语法和词义上均有较大差别,但在构词方法和基本词汇的一致性上有着内在的联系。因此,建立文言文和白话文联合预训练框架能够充分利用它们的内在一致性,增强模型对于中文语料的表示能力,是中文预训练语言模型未来研究的一个重要方向。
发明内容
针对上述现有技术,综上所述,随着预训练模型的发展,基于深度学习的自然语言处理预训练技术是人工智能的学术前沿问题,具有非常高的学术价值和潜在应用价值。本发明面向文言文及白话文构建了一个联合预训练语言框架,称为CANCN-BERT模型,并设计了针对两种发展形态的预训练任务和模型结构。本发明可以解决现有技术中未能充分利用古今汉语的特点对预训练任务和模型结构进行针对性调整的问题,进一步提高预训练语言模型处理文言文和白话文的性能。
为了解决上述技术问题,本发明提出的一种基于预训练语言模型的古今汉语自然语言处理方法,主要包括:
(1)将中文语料输入预训练语言模型,所述的中文语料包括文言文和白话文中的一种或两种;
(2)预训练阶段,根据语料类型分别设计多层级预训练任务,以捕获多层级语义信息;
(3)将预训练语言模型生成的语料表示输入卷积层,得到更多的可学习表示;
(4)获取通过卷积层得到的语料表示,根据语料类型,通过开关机制切换路径,选择后续采取的优化方法;
(5)输出最终的中文语料表示。
进一步讲,本发明所述的基于预训练语言模型的古今汉语自然语言处理方法,其中:
步骤(1)的具体过程是:根据中文的两个发展阶段划分为两种发展形态,即文言文和白话文,并将所述的中文语料输入BERT预训练语言模型中。
步骤(2)中,根据语料类型分别设计多层级预训练任务,包括以下两种情形中的一种或是两种:
1)针对文言文设计的多层级预训练任务,包括:词级别随机长度遮蔽任务随机选择长度为1到最大长度的目标进行遮蔽;将最大长度设置为3,即遮蔽目标最多由3个字组成;句子级别句子顺序预测任务使用来自同一文档的两个连续文段作为正例,并以50%的概率调换两个连续段落的顺序作为反例,避免文段主题的差别,促使模型专注于对句子间的连贯性进行学习;文档级别标题内容匹配任务采用的是句子顺序预测任务的二元分类任务,用于捕获高级语义信息,预训练阶段采用中国古代诗词数据集,使用标题内容匹配的诗词作为正例,并以50%的概率破坏标题与相应诗歌内容之间的匹配作为反例。
2)针对白话文设计的多层级预训练任务包括,包括:词级别全词遮蔽任务先执行中文分词,之后在遮蔽过程中会将同属于一个词的字符全部进行遮蔽;句子级别句子顺序预测任务与文言文相同;开头结尾对应任务同样是一种二元分类任务,预训练阶段使用人民日报数据集,经过预处理提取出每篇文章的开头和结尾,以开头结尾匹配的文段作为正例,并以50%的概率打乱开头和结尾的对应关系作为反例。
步骤(3)的具体过程包括:将预训练语言模型生成的语料表示输入到一个卷积层,通过使用tanh激活函数,非线性地将词嵌入转换为更高级别的特征;对于字符向量xt,经过卷积层后其表示定义为:
xt=tanh(Wtxt+bt) (1)
式(1)中,Wt表示权重矩阵,bt表示偏置向量。
步骤(4)中,切换路径的开关机制是:经过卷积层得到的语料表示,根据语料类型通过开关机制切换路径,选择不同的优化表示方法;如果语料为文言文,则关闭通向句子级聚合的开关,打开通向更新门的开关;如果语料为白话文,则关闭通向更新门的开关,打开通向句子级聚合的开关。
步骤(4)中,选择后续采取的优化方法,包括以下两种情形中的一种或两种:
1)文言文设计的字符表示优化方法,包括:设计了一个句子级聚合来有效地使用相邻字符信息,利用滑动窗口机制并人为设置窗口大小;窗口在目标句上划定的范围内滑动,从窗口第一次包含目标字符开始,到窗口最后一次包含目标字符结束,所有经过的词以及目标字符本身都被视为字符的邻居;在滑动过程中,如果目标词是句子中的第一个或最后一个词,则窗口滑动范围等于窗口大小;采用平均聚合方法,在给定窗口中聚合词向量的邻居信息,将聚合过程定义为AGG,字符向量xt在窗口尺寸w下的聚合结果定义为:
式(2)中,xj是邻居字符向量,pt和pj分别是字符向量xt和邻居字符向量xj的位置,s是句子的长度;经过线性变换xt的新表示ht定义为:
式(3)中,Ws是一个可学习的权重矩阵,σ是一个激活函数,所述激活函数为ReLU。
2)针对白话文设计的字符表示优化方法,包括:定义了一个更新门zt来确定句子中单词信息被保留的程度;每个词信息通过sigmoid函数传递,得到的值在0到1之间;更新门定义为:
zt=σ(Wzxt+bz) (4)
式(4)中,Wz和bz分别表示权重矩阵和偏置向量,xt是经过卷积层得到的tanh输出;将xt与sigmoid输出zt相乘,输出节点特征ht所携带的信息定义为:
ht=zt oxt (5)
式(5)中,o表示哈达玛积。
步骤(5)的具体过程包括:经过预训练语言模型、卷积层并通过句子级聚合或更新门对字符表示进一步优化后,将得到的最终语料表示输出。
与现有技术相比,本发明的有益效果是:
针对中文的两种发展形态(文言文和白话文),本发明提出了一个面向文言文和白话文的联合预训练语言模型。中文被合理地分为文言文和白话文,并针对这两种形态分别提出了多层次的预训练任务,旨在根据它们的不同特征,在训练过程中充分捕获语料中包含的语义信息,以生成准确的表示。此外,本发明设计了一个联合框架,模型结构可以通过开关机制灵活调整,从而采用不同的优化方法,以适应文言文和白话文的特点,增强模型的表示能力,以便有效地处理中文语料。
附图说明
图1是本发明处理方法的整体模型框架图;
图2是本发明处理方法的工作流程图。
具体实施方式
下面结合附图及具体实施例对本发明做进一步的说明,但下述实施例绝非对本发明有任何限制。
图1示出了本发明的模型框架图。本发明考虑了中文的两种发展形态,包括文言文和白话文。新模型在预训练过程中针对这两种形态分别设计不同的预训练任务:对于文言文,采取词级别随机长度遮蔽任务,句子级别句子顺序预测任务以及文档级别标题内容匹配任务;对于白话文,采取词级别全词遮蔽任务,句子级别句子顺序预测任务以及文档级别开头结尾对应任务。此外,本发明针对模型结构进行优化,输入的文本经过新的预训练语言模型处理后生成词嵌入,并将生成的词嵌入经过卷积层,随后使用开关机制控制通过的优化路径。对于含有较多复杂信息的白话文,引入更新门判断每个词的保留程度,以消除无关信息的干扰,捕获长距离依赖。而对于简明扼要的文言文,每个字往往包含更多信息,引入句子级聚合操作聚合邻居信息,进一步加强当前节点表示,从而充分捕获文本中的语义信息,提升模型表示能力。最后将生成的语料表示输出。
图2示出了本发明基于预训练语言模型的古今汉语自然语言处理方法的工作流程,主要包括:将中文语料输入以BERT系列模型为代表的预训练语言模型。在预训练阶段,针对输入的语料类型,执行不同的多级预训练任务;如果语料为文言文,则执行词级别随机长度遮蔽任务,句子级别句子顺序预测任务以及文档级别标题内容匹配任务;如果语料为白话文,则执行词级别全词遮蔽任务,句子级别句子顺序预测任务以及文档级别开头结尾对应任务。将预训练语言模型输出的语料表示输入卷积层,得到更多的可学习表示。通过开关机制切换路径,根据语料类型决定后续采用的优化方法;如果语料为文言文,则通过句子级聚合优化表示;如果语料为现代文,则通过更新门优化表示。输出最终的中文语料表示。
本发明基于预训练语言模型的古今汉语自然语言处理方法的具体步骤如下:
步骤1:输入中文语料,将语料输入到预训练语言模型。即根据中文的两个发展阶段,将中文语料划分为文言文和白话文,并将所述的中文语料输入BERT预训练语言模型中。
本发明中,采用当前自然语言处理领域的主流技术预训练语言模型来获取输入文本的词嵌入。基于谷歌提出的BERT模型结构,模型使用了当前流行的特征提取器Transformer,并在预训练过程中利用双向信息来获得具有丰富语义信息的词表示。
步骤2:根据语料类型分别设计不同的多层级预训练任务,以捕获多层级语义信息。
如果语料为文言文,则执行词级别随机长度遮蔽任务,句子级别句子顺序预测任务以及文档级别标题内容匹配任务。文言文中单字往往可以表达完整含义,无需对其进行分词,因此采用一种已被证明简单有效的随机长度遮蔽任务,并随机选择长度为1到最大长度的目标进行遮蔽。如果将最大长度定义为N,则遮蔽片段长度为1到最大长度N,可得到遮蔽片段长度为n的概率,具体采用以下公式:
n的取值范围,k的取值范围在公式中定义为1到N。
此外,使用句子顺序预测任务代替BERT原始的下一句话预测任务,使用来自同一文档的两个连续文段作为正例,并以50%的概率将两个连续段落的顺序交换作为反例,避免文段主题的差别,促使模型专注于对句子间的连贯性进行学习。
由于现有的文言文数据集多为古籍,文章不是独立的章节,不符合首尾对应的特点,而古代诗词往往篇幅较短,标题通常包含诗词的主题,因此对于文言文,本发明提出文档级别标题内容匹配任务,这是一种类似于句子顺序预测任务的二元分类任务,用于捕获高级语义信息。具体来说,本发明采用中国古代诗词数据集,以标题和内容匹配的诗词作为正例,并以50%的概率打乱诗词的标题与内容之间的匹配作为反例。
如果语料为白话文,则执行词级别全词遮蔽任务,句子级别句子顺序预测任务以及文档级别开头结尾对应任务。白话文与文言文的主要区别在于文言文通常以单字表达完整的意思,而在白话文中,一般由多个字组成的词包含完整的信息,并且每个词之间没有明显的分隔。考虑到这些,本发明采用全词遮蔽任务来捕获词级信息,首先对文段进行中文分词,之后在遮蔽过程中当遮蔽了来自某个词语的字时,便也将组成这个词的其他文字进行遮蔽。为了捕获句子级别的信息,本发明采用与文言文相同的句子顺序预测任务。此外,在白话文中,最常用的写作结构是总分总。开头的作用是引导全文,点明主旨并为下文做铺垫,结尾的作用是总结全文,概括中心思想,并与开头相呼应。为此,本发明提出了一种新的预训练任务,称为开头结尾对应任务,以捕获高级语义信息。具体来说,本发明实施例,使用人民日报数据集,提取文章的开头和结尾,将开头结尾匹配的文段作为正例,并以50%的概率将开头和结尾的对应关系打乱作为反例。
步骤3:将预训练语言模型生成的语料表示输入卷积层,得到更多可学习表示。
为了获得更多可学习的表示,本发明引入一个卷积层,将预训练语言模型生成的语料表示输入到一个卷积层,通过使用tanh激活函数,非线性地将词嵌入转换为更高级别的特征。对于字符向量xt,具体采用经过卷积层后其表示定义为以下公式(1):
xt=tanh(Wtxt+bt) (1)
其中,Wt表示权重矩阵,bt表示偏置向量。
步骤4:通过开关机制切换路径,根据语料类型选择采用的优化方法。
经过卷积层得到的语料表示,根据语料类型通过开关机制切换路径,选择不同的优化表示方法。如果语料为文言文,则关闭通向句子级聚合的开关,打开通向更新门的开关,即当语料为文言文时,采用句子级聚合优化生成的表示;如果语料为白话文,则关闭通向更新门的开关,打开通向句子级聚合的开关,即当语料为白话文时,采用更新门优化生成的表示。
文言文设计的字符表示优化方法,为了增强字符表示,本发明设计了一个句子级聚合来有效地使用相邻字符信息,利用滑动窗口机制并人为设置窗口大小。窗口在目标句上划定的范围内滑动,从窗口第一次包含目标字符开始,到窗口最后一次包含目标字符结束,所有经过的词以及目标字符本身都被视为字符的邻居。在滑动过程中需要考虑两种特殊情况,即如果目标词是句子中的第一个或最后一个词,则窗口滑动范围等于窗口大小。出于简洁性考虑,在实验中使用平均聚合方法,在给定窗口中聚合词向量的邻居信息。本发明将聚合过程定义为AGG,得到字符向量xt在窗口尺寸w下的聚合结果具体采用以下公式(2):
其中xj是邻居字符向量,pt和pj分别是字符向量xt和邻居字符向量xj的位置,而s是句子的长度。然后由线性变换得到xt的新表示ht,具体采用以下公式(3):
其中Ws是一个可学习的权重矩阵,σ是一个激活函数,例如ReLU。
针对白话文设计的字符表示优化方法,为了在句子中捕获更多关键和有意义的信息,本发明定义了一个更新门zt来确定句子中单词信息被保留的程度;每个词信息通过sigmoid函数传递,得到的值在0到1之间,值越接近0,越容易被丢弃,而越接近1,越意味着保留。更新门定义为:
zt=σ(Wzxt+bz) (4)
其中Wz和bz分别表示权重矩阵和偏置向量,xt是经过卷积层得到的tanh输出;将xt与sigmoid输出zt相乘,以决定输出节点特征ht所携带的信息,具体采用以下公式(5):
ht=zt oxt (5)
其中o表示哈达玛积。
步骤5:输出最终的语料表示。
经过预训练语言模型、卷积层并通过开关机制选择句子级聚合或更新门对字符表示进一步优化后,将得到的最终语料表示输出。
尽管上面结合附图对本发明进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨的情况下,还可以做出很多变形,这些均属于本发明的保护之内。
Claims (7)
1.一种基于预训练语言模型的古今汉语自然语言处理方法,包括以下步骤:
(1)将中文语料输入预训练语言模型,所述的中文语料包括文言文和白话文中的一种或两种;
(2)在预训练阶段,根据语料类型分别设计多层级预训练任务,以捕获多层级语义信息;
(3)将预训练语言模型生成的语料表示输入卷积层,得到更多的可学习表示;
(4)获取通过卷积层得到的语料表示,根据语料类型,通过开关机制切换路径,选择后续采取的优化方法;
(5)输出最终的中文语料表示。
2.如权利要求1所述的基于预训练语言模型的古今汉语自然语言处理方法,其特征在于,步骤(1)的具体过程是:根据中文的两个发展阶段,将中文语料划分为文言文和白话文,并将所述的中文语料输入BERT预训练语言模型中。
3.如权利要求1所述的基于预训练语言模型的古今汉语自然语言处理方法,其特征在于,步骤(2)中,根据语料类型分别设计多层级预训练任务,包括以下两种情形中的一种或是两种:
1)针对文言文设计的多层级预训练任务,包括:词级别随机长度遮蔽任务随机选择长度为1到最大长度的目标进行遮蔽;将最大长度设置为3,即遮蔽目标最多由3个字组成;句子级别句子顺序预测任务使用来自同一文档的两个连续文段作为正例,并以50%的概率调换两个连续段落的顺序作为反例,避免文段主题的差别,促使模型专注于对句子间的连贯性进行学习;文档级别标题内容匹配任务采用的是句子顺序预测任务的二元分类任务,用于捕获高级语义信息,预训练阶段采用中国古代诗词数据集,使用标题内容匹配的诗词作为正例,并以50%的概率破坏标题与相应诗歌内容之间的匹配作为反例;
2)针对白话文设计的多层级预训练任务包括,包括:词级别全词遮蔽任务先执行中文分词,之后在遮蔽过程中会将同属于一个词的字符全部进行遮蔽;句子级别句子顺序预测任务与文言文相同;开头结尾对应任务同样是一种二元分类任务,预训练阶段使用人民日报数据集,经过预处理提取出每篇文章的开头和结尾,以开头结尾匹配的文段作为正例,并以50%的概率打乱开头和结尾的对应关系作为反例。
4.如权利要求1所述的基于预训练语言模型的古今汉语自然语言处理方法,其特征在于,步骤(3)的具体过程包括:
将预训练语言模型生成的语料表示输入到一个卷积层,通过使用tanh激活函数,非线性地将词嵌入转换为更高级别的特征;对于字符向量xt,经过卷积层后其表示定义为:
xt=tanh(Wtxt+bt) (1)
式(1)中,Wt表示权重矩阵,bt表示偏置向量。
5.如权利要求1所述的基于预训练语言模型的古今汉语自然语言处理方法,其特征在于,步骤(4)中,切换路径的开关机制是:经过卷积层得到的语料表示,根据语料类型通过开关机制切换路径,选择不同的优化表示方法;
如果语料为文言文,则关闭通向句子级聚合的开关,打开通向更新门的开关;如果语料为白话文,则关闭通向更新门的开关,打开通向句子级聚合的开关。
6.如权利要求1所述的基于预训练语言模型的古今汉语自然语言处理方法,其特征在于,步骤(4)中,选择后续采取的优化方法,包括以下两种情形中的一种或两种:
1)文言文设计的字符表示优化方法,包括:设计了一个句子级聚合来有效地使用相邻字符信息,利用滑动窗口机制并人为设置窗口大小;窗口在目标句上划定的范围内滑动,从窗口第一次包含目标字符开始,到窗口最后一次包含目标字符结束,所有经过的词以及目标字符本身都被视为字符的邻居;在滑动过程中,如果目标词是句子中的第一个或最后一个词,则窗口滑动范围等于窗口大小;采用平均聚合方法,在给定窗口中聚合词向量的邻居信息,将聚合过程定义为AGG,字符向量xt在窗口尺寸w下的聚合结果定义为:
式(2)中,xj是邻居字符向量,pt和pj分别是字符向量xt和邻居字符向量xj的位置,s是句子的长度;经过线性变换xt的新表示ht定义为:
式(3)中,Ws是一个可学习的权重矩阵,σ是一个激活函数,所述激活函数为ReLU;
2)针对白话文设计的字符表示优化方法,包括:定义了一个更新门zt来确定句子中单词信息被保留的程度;每个词信息通过sigmoid函数传递,得到的值在0到1之间;更新门定义为:
zt=σ(Wzxt+bz) (4)
式(4)中,Wz和bz分别表示权重矩阵和偏置向量,xt是经过卷积层得到的tanh输出;将xt与sigmoid输出zt相乘,输出节点特征ht所携带的信息定义为:
7.如权利要求1所述的基于预训练语言模型的古今汉语自然语言处理方法,其特征在于,步骤(5)的具体过程包括:经过预训练语言模型、卷积层并通过句子级聚合或更新门对字符表示进一步优化后,将得到的最终语料表示输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110957080.XA CN113657119B (zh) | 2021-08-19 | 2021-08-19 | 基于预训练语言模型的古今汉语自然语言处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110957080.XA CN113657119B (zh) | 2021-08-19 | 2021-08-19 | 基于预训练语言模型的古今汉语自然语言处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113657119A true CN113657119A (zh) | 2021-11-16 |
CN113657119B CN113657119B (zh) | 2024-04-30 |
Family
ID=78492490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110957080.XA Active CN113657119B (zh) | 2021-08-19 | 2021-08-19 | 基于预训练语言模型的古今汉语自然语言处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657119B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271751A (zh) * | 2023-11-16 | 2023-12-22 | 北京百悟科技有限公司 | 交互方法、装置、设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110543567A (zh) * | 2019-09-06 | 2019-12-06 | 上海海事大学 | 一种基于a-gcnn网络和acelm算法的中文文本情感分类方法 |
CN111382580A (zh) * | 2020-01-21 | 2020-07-07 | 沈阳雅译网络技术有限公司 | 一种面向神经机器翻译的编码器-解码器框架预训练方法 |
CN111709243A (zh) * | 2020-06-19 | 2020-09-25 | 南京优慧信安科技有限公司 | 一种基于深度学习的知识抽取方法与装置 |
CN112163429A (zh) * | 2020-09-27 | 2021-01-01 | 华南理工大学 | 结合循环网络及bert的句子相关度获取方法、系统及介质 |
CN113190659A (zh) * | 2021-06-29 | 2021-07-30 | 中南大学 | 基于多任务联合训练的文言文机器阅读理解方法 |
-
2021
- 2021-08-19 CN CN202110957080.XA patent/CN113657119B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110543567A (zh) * | 2019-09-06 | 2019-12-06 | 上海海事大学 | 一种基于a-gcnn网络和acelm算法的中文文本情感分类方法 |
CN111382580A (zh) * | 2020-01-21 | 2020-07-07 | 沈阳雅译网络技术有限公司 | 一种面向神经机器翻译的编码器-解码器框架预训练方法 |
CN111709243A (zh) * | 2020-06-19 | 2020-09-25 | 南京优慧信安科技有限公司 | 一种基于深度学习的知识抽取方法与装置 |
CN112163429A (zh) * | 2020-09-27 | 2021-01-01 | 华南理工大学 | 结合循环网络及bert的句子相关度获取方法、系统及介质 |
CN113190659A (zh) * | 2021-06-29 | 2021-07-30 | 中南大学 | 基于多任务联合训练的文言文机器阅读理解方法 |
Non-Patent Citations (1)
Title |
---|
虞宁翌;饶高琦;荀恩东;: "文言信息的自动抽取:基于统计和规则的尝试", 中文信息学报, no. 06, 15 November 2015 (2015-11-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271751A (zh) * | 2023-11-16 | 2023-12-22 | 北京百悟科技有限公司 | 交互方法、装置、设备和存储介质 |
CN117271751B (zh) * | 2023-11-16 | 2024-02-13 | 北京百悟科技有限公司 | 交互方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113657119B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tan et al. | Neural machine translation: A review of methods, resources, and tools | |
CN108733792B (zh) | 一种实体关系抽取方法 | |
Zhu et al. | CAN-NER: Convolutional attention network for Chinese named entity recognition | |
CN108984526B (zh) | 一种基于深度学习的文档主题向量抽取方法 | |
Chang et al. | Chinese named entity recognition method based on BERT | |
CN109753566B (zh) | 基于卷积神经网络的跨领域情感分析的模型训练方法 | |
CN108009154B (zh) | 一种基于深度学习模型的图像中文描述方法 | |
Zhang et al. | LSTM-CNN hybrid model for text classification | |
Zhao et al. | Attention-Based Convolutional Neural Networks for Sentence Classification. | |
Lin et al. | Automatic translation of spoken English based on improved machine learning algorithm | |
CN109492215A (zh) | 新闻实体识别方法、装置、计算机设备和存储介质 | |
CN108228569B (zh) | 一种基于松散条件下协同学习的中文微博情感分析方法 | |
CN109086865B (zh) | 一种基于切分循环神经网络的序列模型建立方法 | |
CN109086269A (zh) | 一种基于语义资源词表示和搭配关系的语义双关语识别方法 | |
Zhang et al. | Research on keyword extraction of Word2vec model in Chinese corpus | |
CN114218928A (zh) | 一种基于图知识和主题感知的抽象文本摘要方法 | |
CN113609849A (zh) | 一种融合先验知识模型的蒙古语多模态细粒度情感分析方法 | |
CN112883153A (zh) | 基于信息增强bert的关系分类方法及装置 | |
CN113139575A (zh) | 一种基于条件嵌入预训练语言模型的图像标题生成方法 | |
CN113657119B (zh) | 基于预训练语言模型的古今汉语自然语言处理方法 | |
Hou et al. | Review of research on task-oriented spoken language understanding | |
Yang | Natural language processing based on convolutional neural network and semi supervised algorithm in deep learning | |
CN112560440B (zh) | 一种基于深度学习的面向方面级情感分析的句法依赖方法 | |
CN111026848B (zh) | 一种基于相似上下文和强化学习的中文词向量生成方法 | |
Fu et al. | CGSPN: cascading gated self-attention and phrase-attention network for sentence modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |