CN112613316A - 一种生成古汉语标注模型的方法和系统 - Google Patents

一种生成古汉语标注模型的方法和系统 Download PDF

Info

Publication number
CN112613316A
CN112613316A CN202011617362.7A CN202011617362A CN112613316A CN 112613316 A CN112613316 A CN 112613316A CN 202011617362 A CN202011617362 A CN 202011617362A CN 112613316 A CN112613316 A CN 112613316A
Authority
CN
China
Prior art keywords
model
loss
entity
punctuation
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011617362.7A
Other languages
English (en)
Other versions
CN112613316B (zh
Inventor
胡韧奋
李绅
诸雨辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Normal University
Original Assignee
Beijing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Normal University filed Critical Beijing Normal University
Priority to CN202011617362.7A priority Critical patent/CN112613316B/zh
Publication of CN112613316A publication Critical patent/CN112613316A/zh
Application granted granted Critical
Publication of CN112613316B publication Critical patent/CN112613316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种生成古汉语标注模型的方法和系统,包括S1、训练生成能够表征上下文语义的语言模型;S2、构建多任务联合学习模型;S3、同时训练所述语言模型和多任务联合学习模型,所述语言模型和多任务联合学习模型组成古汉语标注模型。通过本发明中,可以同时对标点、引号、书名、实体进行标注,而且在自动标点、书名、实体识别等任务上的F1指标达到90%以上,实现了和人工相仿的古汉语信息标注效果。

Description

一种生成古汉语标注模型的方法和系统
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种生成古汉语标注模型的方法和系统。
背景技术
汉语典籍是中华传统文化的重要载体,但古汉语表达的一个重要特点是缺乏标点,且语法和语义表达与现代白话文有较大差异。因此,在古籍整理和出版工作中,往往需要依靠专家进行人工断句标点、专名标注、注释、翻译等,以辅助现代人理解古文。人工整理古籍需要花费大量的时间和精力,且对整理者的古汉语知识有很高要求,以至于大量古籍因缺乏人力而处于未经整理状态。由于大量古籍的断句标点、专名标注尚未实现,注释、翻译等工作则更无人问津。伴随大数据、人工智能等技术迅猛发展,为提升古籍整理效率,出现了一批计算机辅助古籍整理的工作,例如:
(1)北京大学的俞敬松、魏一和中国社会科学院的张永伟《基于BERT的古文断句研究与应用》,采用了基于BERT的神经网络标点模型,初步实现了计算机在不超过长度为64字文本上的自动标点。
南京师范大学李斌等人的《一种古汉语文本的一体化自动词法分析方法及系统》和程宁等人的《基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究》,采用Bi-LSTM-CRF结构的神经网络,实现了对古文断句和词法标记(分词及词性)的识别。
北京科技大学谢永红等《一种面向中医古籍文献的命名实体识别方法和装置》提出了一种基于领域词表的短语自动挖掘方法,从而对中医古籍文献中的命名实体进行识别。
北京信息科技大学刘秀磊等《基于LatticeLSTM的古文领域命名实体识别方法和系统》提出了一种基于LatticeLSTM的古籍命名实体识别方法。
(2)基于多任务的联合学习技术在对话系统的自然语言理解领域有少量方案。鞠剑勋等人的《自然语言理解方法及系统》采用词向量作为输入,使用长短时记忆神经网络(LSTM)模型进行编码,再将其输出与正确答案进行比较,训练过程中对第一损失和第二损失求和,作为模型优化目标。鄂海红等人的《双向的意图槽值交叉相关的任务型对话理解系统及方法》采用词向量作为输入,采用双向长短时记忆神经网络(Bi-LSTM)模型进行编码,与前一个技术相比,在解码阶段其增加了额外的SF子网络和ID子网络,将意图学习的信息引入槽值学习,并将槽值学习的信息引入意图学习。该方法分阶段地训练两个模型,并利利用子网络学习不同阶段模型彼此之间的影响,通过反复迭代,使得两个模型参数相互影响,与前一个技术不同的是,该技术中两个模型的优化目标是独立的。
但上述技术存在如下缺陷:
(1)对古籍文本的处理仅针对单独的任务(如标点、实体)或面向专门的领域(如中医),缺乏通用的古籍文本信息标注技术。
(2)现有技术未考虑到古籍标点和实体等任务存在知识关联性,仅针对单任务建模,模型很难捕捉不同任务之间的依赖性。试看下例:
此即昔人所谓东坡诗如大家妇女大踏步走出山谷便不免花面丫头屏角窥人扭捏作态之意(柳亚子《磨剑室杂拉话》)
该例的理解关键在于“山谷”指黄庭坚(实体知识),柳亚子意在比较苏东坡和黄庭坚两人的诗风,如果单独学习实体表示,则容易误标点为:“……大踏步走出山谷,便不免花面丫头……。”而正确标点应为:“此即昔人所谓东坡诗如大家妇女,大踏步走出,山谷便不免花面丫头,屏角窥人,扭捏作态之意。”
(3)深度学习模型的训练往往依赖于大规模带标签数据,而古汉语标注资源往往较为稀缺,且标注不充分,尤其是古籍命名实体数据。现有方法往往直接使用深度学习模型对已有数据进行训练,未考虑到模型在小样本上学习不充分、难以收敛的问题。
由于现有技术存在上述不足,导致古籍文本信息的标注效果不佳。即使在训练数据十分充足的断句标点任务上引入深度学习模型,其自动标点的F1指标只有70%左右(俞敬松等人)。
发明内容
针对现有技术的不足,本发明通过训练古汉语语言模型、共享知识编码器,在联合学习的损失函数中设置了条件项,大幅提高了标点和实体等信息的标注效果,在自动标点、书名、实体识别等任务上的F1指标达到90%以上,实现了和人工相仿的古汉语信息标注效果。
为实现上述目的,本发明通过以下技术方案予以实现。
根据本发明的一个方面,提出一种生成古汉语标注模型的方法,包括:
S1、训练生成能够表征上下文语义的语言模型;
S2、构建多任务联合学习模型;
S3、同时训练所述语言模型和多任务联合学习模型,所述语言模型和多任务联合学习模型组成古汉语标注模型。
进一步的,在所述步骤S1中,所述语言模型为BERT模型。
进一步的,所述步骤S2包括:
S21、构建句读标点分类器;
S22、构建书名分类器;
S23、构建引号分类器;
S24、构建实体分类器;
其中,所述句读标点分类器的输入为所述语言模型的输出向量;所述书名分类器、引号分类器和实体分类器的输入为所述语言模型的输出向量与所述句读标点分类器的输出向量的拼接。
进一步的,所述句读标点分类器包括标点全连接神经网络和标点softmax分类器;书名分类器为书名CRF分类器;引号分类器为引号CRF分类器;实体分类器包括实体全连接神经网络和实体softmax分类器。
进一步的,在所述步骤S3中,语言模型和多任务联合学习模型的全局损失函数定义为:
Loss=sign(ypunctuation)*Losspunctuation+sign(ybook)*Lossbook+sign(yquotation)*Lossquotation+sign(yentity)*Lossentity
Figure BDA0002877140040000031
Figure BDA0002877140040000032
Figure BDA0002877140040000033
Figure BDA0002877140040000034
其中,sign(y)是符号函数,即如果y>0,则输出1,如果y=0,则输出0;ypunctuation是句读标点的标准答案,Losspunctuation是句读标点的损失,yquotation是引号的标准答案,Lossquotation是引号的损失,ybook是书名的标准答案,Lossbook是书名的损失,yentity是实体的标准答案,Lossentity是实体的损失;y是标准答案对应的标签;
Figure BDA0002877140040000041
是模型预测的标签;y*是实体的标准答案设置多种取值;Cross_entropy是交叉熵损失,OTHER表示未分类实体。
进一步的,训练时,根据反向传播算法更新多任务联合学习模型的参数和所述语言模型的参数。
根据本发明的另一方面,提出一种生成古汉语标注模型的系统,包括:语言模型构建模块、多任务联合学习模型构建模块和古汉语标注模型训练模块,其中,
所述语言模型构建模块,用于训练生成能够表征上下文语义的语言模型;
所述多任务联合学习模型构建模块,用于构建多任务联合学习模型,以识别标点、书名、引号和命名实体;
所述古汉语标注模型训练模块,用于利用采集的带标注数据,根据反向传播算法对语言模型和多任务联合学习模型同时进行训练,训练结束后所形成的语言模型和多任务联合学习模型组成古汉语标注模型。
进一步的,所述句读标点分类器与语言模型相连接,接收语言模型输出的向量;所述语言模型的输出与句读标点分类器的输出拼接形成拼接向量,作为书名分类器、引号分类器和实体分类器的输入。
进一步的,所述古汉语标注模型训练模块包含字符表生成单元、编码单元和预测及训练单元,其中:
字符表生成单元,用于对收集的带标注文本进行统计,并建立字符表;
编码单元,用于将待预测的文本根据字符表转换成对应的编号;
预测及训练单元,用于将已经转化为编码的文本输入语言模型和多任务联合学习模型,计算出预测标签后,根据对应的正确标签与模型预测的结果计算多任务联合学习模型的全局损失,然后根据反向传播算法同时更新语言模型和多任务联合学习模型的参数,最终的语言模型和多任务联合学习模型构成古汉语标注模型。
进一步的,语言模型和多任务联合学习模型的全局损失函数为:
Loss=sign(ypunctuation)*Losspunctuation+sign(ybook)*Lossbook+sign(yquotation)*Lossquotation+sign(yentity)*Lossentity
Figure BDA0002877140040000051
Figure BDA0002877140040000052
Figure BDA0002877140040000053
Figure BDA0002877140040000054
其中,sign(y)是符号函数,即如果y>0,则输出1,如果y=0,则输出0;ypunctuation是句读标点的标准答案,Losspunctuation是句读标点的损失,yquotation是引号的标准答案,Lossquotation是引号的损失,ybook是书名的标准答案,Lossbook是书名的损失,yentity是实体的标准答案,Lossentity是实体的损失,OTHER表示未识别实体,y为标准答案对应的标签;
Figure BDA0002877140040000055
为模型预测的标签;y*为实体的标准答案设置为多种取值。
本发明的有益效果:
(1)能够同时标注句读标点、引号、书名号、地名、人名、年号等信息,而且提升了标注信息的准确率。
(2)本发明大幅提高了标点和实体等信息的标注效果,在多种数据上(古文、诗、词等)自动标点和命名实体识别F1指标均超过90%以上,实现了和人工相仿的古汉语信息标注效果。
(3)现有技术未考虑到古汉语标注资源稀缺、标注不充分等问题,往往直接使用深度学习模型对已有数据进行训练,未考虑到模型在小样本上学习不充分、难以收敛的问题。本发明在设计时,采用了三种机制缓解小样本学习不充分的问题:第一、训练古汉语语言模型对古汉语语言知识进行表示;第二、通过联合学习使得多任务共享知识编码器,从而小样本任务(如实体识别)可以获益于大样本任务(如断句标点)的知识编码;第三、针对数据稀缺及标注不充分的问题,在联合学习的损失函数中设置了条件项,使得在训练标注程度不同的数据时可以有不同的优化目标。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例的生成古汉语标注模型的方法流程示意图;
图2为本发明一个实施例的使用古汉语标注模型进行标注的示意图;
图3为本发明一个实施例的生成古汉语标注模型的系统的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明提供的一种生成古汉语标注模型的方法和系统进行详细描述。
在以下的描述中,将描述本发明的多个不同的方面,然而,对于本领域内的普通技术人员而言,可以仅仅利用本发明的一些或者全部结构来实施本发明。为了解释的明确性而言,阐述了特定的数目、配置和顺序,但是很明显,在没有这些特定细节的情况下也可以实施本发明。在其他情况下,为了不混淆本发明,对于一些众所周知的特征将不再进行详细阐述。
本发明提出一种生成古汉语标注模型的方法,可以对古汉语中多种类型的标点和命名实体进行识别。如图1所示,向模型输入语句后,可以输出(1)识别的句读标点:包括逗号、句号、顿号、分号、冒号、叹号、问号、点号八种用于句读的标点;(2)识别的书名:(3)识别的引号范围;(4)识别的命名实体,包括人名、地名、年号、其他等不同类型的实体。
本发明的生成古汉语标注模型的方法,如图1所示,包括如下步骤:
S1、训练生成能够表征上下文语义的语言模型;
S2、构建多任务联合学习模型;
S3、同时训练所述语言模型和多任务联合学习模型,所述语言模型和多任务联合学习模型组成古汉语标注模型。
在步骤S1中,通过收集大量古汉语文本,然后对其进行训练,以得到语言模型。具体步骤如下:
步骤S11、收集大量古汉语文本,可以是无标注数据,也可以是有标注的数据。其中,无标注数据指的是文本中只有中文字符,不包括句读标点和实体信息的标注。
步骤S12、训练得到能够表征上下文语义的语言模型,如BERT模型,该模型是Devlin等研究者在2018年提出的,采用大规模、与特定NLP任务无关的文本语料进行训练,其训练任务包括词语遮罩预测(mask language model)和下一句预测(next sentenceprediction),通过训练调整模型参数,使得模型能够对词语和句子的语义信息进行编码。
BERT模型包括输入层、若干层Transformer编码器、输出层。输入层输入的是文本的token向量、位置向量、片段向量,模型参数可以随机初始化,然后根据原始文本给出的标准答案和模型预测的差异用反向传播算法调整模型参数。具体的实现属于现有技术,可参考论文《BERT:Pre-training of deep bidirectional transformers for languageunderstanding》及其开源代码https://github.com/google-research/bert
在发明中,可以利用收集的大量古汉语文本语料进行BERT语言模型的训练。首先对文本中的字符进行统计,建立输入的字符表,之后对每一个输入的文本按照字符表中的顺序转变成编号;然后输入模型的输入层,并根据模型计算出语言模型任务的预测结果;最后根据原始文本给出的标准答案和模型预测的差异用反向传播算法调整模型参数。这样就完成训练,得到了BERT语言模型。该模型可以对古汉语语言知识进行编码,为后续标注任务的学习提供古汉语知识表征基础。将未标记的文本输入BERT模型后,输出为文本信息的向量表示,其中每个字符对应一个768维的向量,该向量编码了当前字符的上下文语义信息。
在本步骤中,能够表征上下文语义的语言模型包括但不限于BERT模型,比如,还有ELMO、RoBERTa、ERNIE、XLNET等模型。
在步骤S2中,构建多任务联合学习模型。考虑到标点识别、书名识别、引号识别和命名实体识别这4个不同任务(标点识别为大样本任务,其他3个为小样本任务)之间存在知识依赖,且小样本任务训练数据不充分等问题,本发明对四个子任务进行联合学习。联合学习通过两种机制实现:(1)四个任务共享BERT语言模型的知识编码器;(2)小样本任务(书名、引号、实体识别)接收大样本任务(句读标点识别)的处理信号。具体包括如下步骤。
步骤S21、构建句读标点分类器。
将BERT语言模型编码的语义向量表示作为输入,通过句读标点分类器对句读标点信息进行训练,输出每个字符添加不同标点(包括无标点)的概率分布。句读标点分类器包括标点全连接神经网络和标点softmax分类器,具体来说,将BERT输出的768维字符向量表示通过一层全连接神经网络,变成9维向量(维度为待预测标点数量+1,考虑无标点情形),之后对该向量使用softmax函数,得到9维概率向量,该向量上的每一维代表了模型对每种标点(包括无标点)的预测概率。训练或预测时,选定其中概率最大的标记作为句读标点输出。
考虑到句读标点任务的带标注数据较为充分,而其他子任务的(如实体识别)缺乏大规模标注数据,为了使得小样本任务获益于大样本任务的知识编码,此处将句读标点的softmax分类器的输出——概率分布向量拼接到BERT编码的字符向量之后,即在每个字符由BERT模型输出的768维的向量基础上拼接9维的句读标点概率分布向量,得到777维的向量。
步骤S22、构建书名分类器。
将拼接后的777维向量表示输入书名号分类器,学习书名的预测,即学习文本中的每个字符对应的书名标签。
书名分类器可以采用条件随机场模型CRF,该模型是由Lafferty等研究者在2001年提出的一种典型的判别式模型。它在观测序列的基础上对目标序列进行建模,重点解决序列化标注的问题。条件随机场模型既具有判别式模型的优点,又具有产生式模型考虑到上下文标记间的转移概率,以序列化形式进行全局参数优化和解码的特点,解决了其他判别式模型(如最大熵马尔科夫模型)难以避免的标记偏置问题。
在本发明中,采用CRF模型来构建书名CRF分类器,其输入为拼接后的777维向量,输出为当前文本中每个字符对应的书名标签。
步骤S23、构建引号分类器。
将拼接后的777维向量表示输入引号分类器,学习引号的预测,即学习文本中的每个字符对应的引号标签。同样,可以采用CRF模型来构建引号CRF分类器。
步骤S24、构建实体分类器。
将拼接后的777维向量表示经过实体全连接神经网络和实体分类器,学习实体的预测,即学习文本中的每个字符对应的实体标签。实体分类器可以为softmax分类器。
在步骤S3中,利用采集的带标注数据,根据反向传播算法对语言模型和多任务联合学习模型同时进行训练(即再次对语言模型进行训练),训练结束后所形成的语言模型和多任务联合学习模型组成古汉语标注模型。具体的训练步骤如下:
步骤S31、收集带标注文本,对其进行统计,并建立字符表。
步骤S32、将文本根据字符表转换成对应的编号,输入语言模型和多任务联合学习模型。
可以按如下方法将收集的文本转换成文本和标签的形式。
·标点:逗号(DOU)、句号(JU)、顿号(DUN)、分号(FEN)、冒号(MAO)、叹号(TAN)、问号(WEN)、点号(DIAN);
·书名范围(BOOK);
·引号范围(YIN);
·实体:未分类实体(OTHER)、人名(PER)、地名(LOC)、年号(NIAN);
并辅以S(单独标记)、B(开始标记)、I(中间标记)、E(结尾标记)、O(无标记)来生成文本对应的标签,样例如下表所示:
Figure BDA0002877140040000091
有标注数据包含句读标点,或仅标注实体位置,或包含实体位置及类型,也可以是以上多种信息同时存在,将用于多任务联合学习的古汉语文本标注模型训练。
步骤S33、在模型计算出预测标签后,根据对应的正确标签与模型预测的结果计算多任务联合学习模型的全局损失(Loss)。
在设计全局损失函数时,针对实体识别数据稀缺及标注不充分的问题,本发明设置了条件项Lossentity,使得在训练标注程度不同的数据时可以有不同的优化目标。
具体来说,联合学习模型的损失函数定义如下:
Loss=sign(ypunctuation)*Losspunctuation+sign(ybook)*Lossbook+sign(yquotation)*Lossquotation+sign(yentity)*Lossentity
Figure BDA0002877140040000101
Figure BDA0002877140040000102
Figure BDA0002877140040000103
Figure BDA0002877140040000104
其中,sign(y)是符号函数,即如果y>0,则输出1,如果y=0,则输出0;ypunctuation是句读标点的标准答案,Losspunctuation是句读标点的损失,yquotation是引号的标准答案,Lossquotation是引号的损失,ybook是书名的标准答案,Lossbook是书名的损失,yentity是实体的标准答案,Lossentity是实体的损失,OTHER表示未识别实体。
下面对Lossentity的计算进行具体说明:深度学习模型的训练往往依赖于大规模带标签数据,而古汉语标注资源往往较为稀缺,且标注不充分,尤其是古籍命名实体数据。因此针对实体识别数据标注不充分的问题,在计算Lossentity时按照数据标注程度不同来进行损失求解:当数据标注有实体类型时,采用
Figure BDA0002877140040000105
计算损失,即根据标准答案y和模型预测
Figure BDA0002877140040000106
计算交叉熵损失;当数据未标注实体类型时,采用
Figure BDA0002877140040000107
计算损失,即根据部分标准答案和模型预测
Figure BDA0002877140040000108
计算交叉熵损失。举例来说,实体标签的取值范围是{PERSON-X,LOCATION-X,NIANHAO-X},其中X可以是B、I、E、S。训练时,当数据中的实体标有类型,即当entity(实体)是PERSON、LOCATION、NIANHAO的时候,按正常的交叉熵计算Loss。当实体只有位置没有类型,即实体是OTHER的时候,正确标签y变为y*,当B、I、E、S位置信息预测正确时即可视为正确。
y:标准答案对应的标签;
Figure BDA0002877140040000109
模型预测的标签;
y*:实体的标准答案设置为多种取值。
交叉熵(Cross_entropy)损失可通过下式计算:
Figure BDA0002877140040000111
其中
Figure BDA0002877140040000112
代表softmax函数输出的概率分布中模型预测的第t个标签对应的概率得分,yt代表标准答案中第t个标签对应的取值。
例如:实体为PERSON-S,则按照正确标签PERSON-S计算交叉熵Cross_entropy;实体为OTHER-S,则模型预测为PERSON-S、LOCATION-S、NIANHAO-S均视为正确。
步骤S34、根据反向传播算法同时更新BERT语言模型和多任务联合学习模型的参数,最终的语言模型和多任务联合学习模型构成古汉语标注模型。
在一个实施例中,首先搜集了约20G古汉语文本语料库,包含无标注数据和有标注数据,进行BERT语言模型训练。训练时,采用12层Transformer模型,hidden size为768,自注意力机制的head数量为12,总参数量为1.1亿,设置最大长为256,采用4块2080ti型号GPU并行训练200万步得到语言模型。
得到训练好的古汉语BERT语言模型后,采集了约10G有标注数据,其中包括大量含句读标点的数据和少量含书名、引号、实体标注的数据,进行多任务联合学习模型训练。训练时,将预训练的BERT模型作为编码器,输入文本,可以获得每个字符对应语境向量编码,从而以此为文本表征进行多任务学习。在本实施例中,采用全连接神经网络和softmax分类器学习句读标点,采用CRF模型学习引号和书名预测,采用全连接神经网络和softmax分类器学习实体识别。通过句读标点、书名、引号、实体四项任务的联合损失对分类器和语言模型的参数进行更新。采用4块2080ti型号GPU并行训练500万步得到最终的古汉语标注模型。
此模型使用时,输入文本,输出标注好的文本,如图2所示:
输入文本为:郭熙山水畫論云春山艷冶而如笑夏山蒼翠而如滴秋山明净而如妝冬山慘淡而如睡
句读标点预测:郭熙山水畫論云:春山艷冶而如笑,夏山蒼翠而如滴,秋山明净而如妝,冬山慘淡而如睡。
书名预测:郭熙《山水畫論》云春山艷冶而如笑夏山蒼翠而如滴秋山明净而如妝冬山慘淡而如睡
引号预测:郭熙山水畫論云“春山艷冶而如笑夏山蒼翠而如滴秋山明净而如妝冬山慘淡而如睡”
实体预测:郭熙山水畫論云春山艷冶而如笑夏山蒼翠而如滴秋山明净而如妝冬山慘淡而如睡
最终结果:郭熙《山水畫論》云:“春山艷冶而如笑,夏山蒼翠而如滴,秋山明净而如妝,冬山慘淡而如睡。”
在模型评测时,在句读标点任务上分别对诗、词、古文三种文体进行评测,包括5000首古诗、359首词、5000段古文。在书名、引号和实体识别任务上,对同样的5000段古文进行了评测。上述评测数据覆盖了不同文体和朝代,结果如下表所示。
任务 Precision(%) Recall(%) F1(%)
句读标点(诗) 99.10 99.25 99.18
句读标点(词) 95.91 95.17 95.54
句读标点(古文) 89.06 89.16 89.11
引号(古文) 83.00 80.07 81.51
书名(古文) 89.65 91.66 90.65
实体(古文) 91.06 95.92 93.43
根据本发明的另一方面,提出一种生成古汉语标注模型的系统,如图3所示,包括:语言模型构建模块、多任务联合学习模型构建模块和古汉语标注模型训练模块。
语言模型构建模块,用于训练生成能够表征上下文语义的语言模型,如BERT、ELMO、RoBERTa、ERNIE、XLNET等模型。模型的输出为向量。
多任务联合学习模型构建模块,用于构建多任务联合学习模型,用于标点识别、书名识别、引号识别和命名实体识别这4个不同任务,这四个任务共享BERT语言模型的输出向量;同时,小样本任务(书名、引号、实体识别)接收大样本任务(句读标点识别)的处理信号。具体来说,多任务联合学习模型包括句读标点分类器、书名分类器、引号分类器和实体分类器。句读标点分类器与语言模型相连接,接收语言模型输出的向量。语言模型的输出与句读标点分类器的输出拼接形成拼接向量,作为书名分类器、引号分类器和实体分类器的输入。句读标点分类器、书名分类器、引号分类器和实体分类器的组成如上文所述。
古汉语标注模型训练模块,用于利用采集的带标注数据,根据反向传播算法对语言模型和多任务联合学习模型同时进行训练(即再次对语言模型进行训练),训练结束后所形成的语言模型和多任务联合学习模型组成古汉语标注模型。
古汉语标注模型训练模块包含字符表生成单元、编码单元和预测及训练单元。具体的训练步骤如下:
字符表生成单元,用于对收集的带标注文本进行统计,并建立字符表,字符表的内容包括字符、编号。
编码单元,用于将待预测的文本根据字符表转换成对应的编号,输入语言模型和多任务联合学习模型。
在一个实施例中,可以按如下方法对收集的文本进行转换。
·标点:逗号(DOU)、句号(JU)、顿号(DUN)、分号(FEN)、冒号(MAO)、叹号(TAN)、问号(WEN)、点号(DIAN);
·书名范围(BOOK);
·引号范围(YIN);
·实体:未分类实体(OTHER)、人名(PER)、地名(LOC)、年号(NIAN);
并辅以S(单独标记)、B(开始标记)、I(中间标记)、E(结尾标记)、O(无标记)来生成文本对应的标签,样例如下表所示:
Figure BDA0002877140040000131
有标注数据包含句读标点,或仅标注实体位置,或包含实体位置及类型,也可以是以上多种信息同时存在,将用于多任务联合学习的古汉语文本标注模型训练。
预测及训练单元,用于将已经转化为编码的文本输入语言模型和多任务联合学习模型,计算出预测标签后,根据对应的正确标签与模型预测的结果计算多任务联合学习模型的全局损失(Loss),然后根据反向传播算法同时更新BERT语言模型和多任务联合学习模型的参数,最终的语言模型和多任务联合学习模型构成古汉语标注模型。
在设计全局损失函数时,针对实体识别数据稀缺及标注不充分的问题,本发明设置了条件项Lossentity,使得在训练标注程度不同的数据时可以有不同的优化目标。具体来说,联合学习模型的损失函数定义如下:
Loss=sign(ypunctuation)*Losspunctuation+sign(ybook)*Lossbook+sign(yquotation)*Lossquotation+sign(yentity)*Lossentity
Figure BDA0002877140040000141
Figure BDA0002877140040000142
Figure BDA0002877140040000143
Figure BDA0002877140040000144
其中,sign(y)是符号函数,即如果y>0,则输出1,如果y=0,则输出0;ypunctuation是句读标点的标准答案,Losspunctuation是句读标点的损失,yquotation是引号的标准答案,Lossquotation是引号的损失,ybook是书名的标准答案,Lossbook是书名的损失,yentity是实体的标准答案,Lossentity是实体的损失,OTHER表示未识别实体。损失函数的具体说明如上文所述。
通过以上步骤,本发明构建了基于语言模型和多任务联合学习的古汉语标注模型,该技术实现了古籍标点和实体识别等任务之间的知识共享,帮助模型在小样本和数据标注不充分的前提下进行训练,从而能够对古籍文本进行高效、高质量的多信息标注。本发明大幅提高了标点和实体等信息的标注效果,在自动标点、书名、实体识别等任务上的F1指标达到90%以上,实现了和人工相仿的古汉语信息标注效果。
以上实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种生成古汉语标注模型的方法,其特征在于,该方法包括:
S1、训练生成能够表征上下文语义的语言模型;
S2、构建多任务联合学习模型;
S3、同时训练所述语言模型和多任务联合学习模型,所述语言模型和多任务联合学习模型组成古汉语标注模型。
2.根据权利要求1所述的生成方法,其特征在于,在所述步骤S1中,所述语言模型为BERT模型。
3.根据权利要求1所述的生成方法,其特征在于,所述步骤S2包括:
S21、构建句读标点分类器;
S22、构建书名分类器;
S23、构建引号分类器;
S24、构建实体分类器;
其中,所述句读标点分类器的输入为所述语言模型的输出向量;所述书名分类器、引号分类器和实体分类器的输入为所述语言模型的输出向量与所述句读标点分类器的输出向量的拼接。
4.根据权利要求3所述的生成方法,其特征在于,所述句读标点分类器包括标点全连接神经网络和标点softmax分类器;书名分类器为书名CRF分类器;引号分类器为引号CRF分类器;实体分类器包括实体全连接神经网络和实体softmax分类器。
5.根据权利要求1所述的生成方法,其特征在于,在所述步骤S3中,多任务联合学习模型的全局损失函数定义为:
Loss=sign(ypunctuation)*Losspunctuation+sign(ybook)*Lossbook+sign(yquotation)*Lossquotation+sign(yentity)*Lossentity
Figure FDA0002877140030000011
Figure FDA0002877140030000012
Figure FDA0002877140030000013
Figure FDA0002877140030000014
其中,sign(y)是符号函数,即如果y>0,则输出1,如果y=0,则输出0;ypunctuation是句读标点的标准答案,Losspunctuation是句读标点的损失,yquotation是引号的标准答案,Lossquotation是引号的损失,ybook是书名的标准答案,Lossbook是书名的损失,yentity是实体的标准答案,Lossentity是实体的损失;y是标准答案对应的标签;
Figure FDA0002877140030000021
是模型预测的标签;y*是实体的标准答案设置多种取值;Cross_entropy是交叉熵损失,OTHER表示未分类实体。
6.根据权利要求5所述的方法,其特征在于,训练时,根据反向传播算法更新多任务联合学习模型的参数和所述语言模型的参数。
7.一种生成古汉语标注模型的系统,其特征在于,所述系统包括:语言模型构建模块、多任务联合学习模型构建模块和古汉语标注模型训练模块,其中,
所述语言模型构建模块,用于训练生成能够表征上下文语义的语言模型;
所述多任务联合学习模型构建模块,用于构建多任务联合学习模型,以识别标点、书名、引号和命名实体;
所述古汉语标注模型训练模块,用于利用采集的带标注数据,根据反向传播算法对语言模型和多任务联合学习模型同时进行训练,训练结束后所形成的语言模型和多任务联合学习模型组成古汉语标注模型。
8.根据权利要求7所述的系统,其特征在于,所述句读标点分类器与语言模型相连接,接收语言模型输出的向量;所述语言模型的输出与句读标点分类器的输出拼接形成拼接向量,作为书名分类器、引号分类器和实体分类器的输入。
9.根据权利要求7所述的系统,其特征在于,所述古汉语标注模型训练模块包含字符表生成单元、编码单元和预测及训练单元,其中:
字符表生成单元,用于对收集的带标注文本进行统计,并建立字符表;
编码单元,用于将待预测的文本根据字符表转换成对应的编号;
预测及训练单元,用于将已经转化为编码的文本输入语言模型和多任务联合学习模型,计算出预测标签后,根据对应的正确标签与模型预测的结果计算多任务联合学习模型的全局损失,然后根据反向传播算法同时更新语言模型和多任务联合学习模型的参数,最终的语言模型和多任务联合学习模型构成古汉语标注模型。
10.根据权利要求9所述的系统,其特征在于,语言模型和多任务联合学习模型的全局损失函数为:
Loss=sign(ypunctuation)*Losspunctuation+sign(ybook)*Lossbook+sign(yquotation)*Lossquotation+sign(yentity)*Lossentity
Figure FDA0002877140030000031
Figure FDA0002877140030000032
Figure FDA0002877140030000033
Figure FDA0002877140030000034
其中,sign(y)是符号函数,即如果y>0,则输出1,如果y=0,则输出0;ypunctuation是句读标点的标准答案,Losspunctuation是句读标点的损失,yquotation是引号的标准答案,Lossquotation是引号的损失,ybook是书名的标准答案,Lossbook是书名的损失,yentity是实体的标准答案,Lossentity是实体的损失,OTHER表示未识别实体,y为标准答案对应的标签;
Figure FDA0002877140030000035
为模型预测的标签;y*为实体的标准答案设置为多种取值。
CN202011617362.7A 2020-12-31 2020-12-31 一种生成古汉语标注模型的方法和系统 Active CN112613316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011617362.7A CN112613316B (zh) 2020-12-31 2020-12-31 一种生成古汉语标注模型的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011617362.7A CN112613316B (zh) 2020-12-31 2020-12-31 一种生成古汉语标注模型的方法和系统

Publications (2)

Publication Number Publication Date
CN112613316A true CN112613316A (zh) 2021-04-06
CN112613316B CN112613316B (zh) 2023-06-20

Family

ID=75249499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011617362.7A Active CN112613316B (zh) 2020-12-31 2020-12-31 一种生成古汉语标注模型的方法和系统

Country Status (1)

Country Link
CN (1) CN112613316B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090290802A1 (en) * 2008-05-22 2009-11-26 Microsoft Corporation Concurrent multiple-instance learning for image categorization
CN109829159A (zh) * 2019-01-29 2019-05-31 南京师范大学 一种古汉语文本的一体化自动词法分析方法及系统
CN110046248A (zh) * 2019-03-08 2019-07-23 阿里巴巴集团控股有限公司 用于文本分析的模型训练方法、文本分类方法和装置
CN110309511A (zh) * 2019-07-04 2019-10-08 哈尔滨工业大学 基于共享表示的多任务语言分析系统及方法
CN110909549A (zh) * 2019-10-11 2020-03-24 北京师范大学 对古汉语进行断句的方法、装置以及存储介质
CN110941700A (zh) * 2019-11-22 2020-03-31 福州大学 一种基于多任务联合学习的论辩挖掘系统及其工作方法
CN111222339A (zh) * 2020-01-13 2020-06-02 华南理工大学 一种基于对抗多任务学习的医疗咨询命名实体识别方法
CN111309915A (zh) * 2020-03-03 2020-06-19 爱驰汽车有限公司 联合学习的自然语言训练方法、系统、设备及存储介质
CN111581350A (zh) * 2020-04-30 2020-08-25 识因智能科技(北京)有限公司 一种基于预训练语言模型的多任务学习阅读理解方法
CN111914559A (zh) * 2020-07-31 2020-11-10 平安科技(深圳)有限公司 基于概率图模型的文本属性抽取方法、装置及计算机设备
CN111985239A (zh) * 2020-07-31 2020-11-24 杭州远传新业科技有限公司 实体识别方法、装置、电子设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090290802A1 (en) * 2008-05-22 2009-11-26 Microsoft Corporation Concurrent multiple-instance learning for image categorization
CN109829159A (zh) * 2019-01-29 2019-05-31 南京师范大学 一种古汉语文本的一体化自动词法分析方法及系统
CN110046248A (zh) * 2019-03-08 2019-07-23 阿里巴巴集团控股有限公司 用于文本分析的模型训练方法、文本分类方法和装置
CN110309511A (zh) * 2019-07-04 2019-10-08 哈尔滨工业大学 基于共享表示的多任务语言分析系统及方法
CN110909549A (zh) * 2019-10-11 2020-03-24 北京师范大学 对古汉语进行断句的方法、装置以及存储介质
CN110941700A (zh) * 2019-11-22 2020-03-31 福州大学 一种基于多任务联合学习的论辩挖掘系统及其工作方法
CN111222339A (zh) * 2020-01-13 2020-06-02 华南理工大学 一种基于对抗多任务学习的医疗咨询命名实体识别方法
CN111309915A (zh) * 2020-03-03 2020-06-19 爱驰汽车有限公司 联合学习的自然语言训练方法、系统、设备及存储介质
CN111581350A (zh) * 2020-04-30 2020-08-25 识因智能科技(北京)有限公司 一种基于预训练语言模型的多任务学习阅读理解方法
CN111914559A (zh) * 2020-07-31 2020-11-10 平安科技(深圳)有限公司 基于概率图模型的文本属性抽取方法、装置及计算机设备
CN111985239A (zh) * 2020-07-31 2020-11-24 杭州远传新业科技有限公司 实体识别方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蒋彦廷 等: "基于 BERT 模型的图书表示学习与多标签分类研究", 《新世纪图书馆》, no. 9, pages 38 - 44 *

Also Published As

Publication number Publication date
CN112613316B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN108388560B (zh) 基于语言模型的gru-crf会议名称识别方法
CN110020438A (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN110287323B (zh) 一种面向目标的情感分类方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN109508459B (zh) 一种从新闻中提取主题和关键信息的方法
CN113642330A (zh) 基于目录主题分类的轨道交通规范实体识别方法
CN112836046A (zh) 一种四险一金领域政策法规文本实体识别方法
CN112541356B (zh) 一种生物医学命名实体识别的方法和系统
CN110781290A (zh) 一种长篇章结构化文本摘要提取方法
CN112101041A (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
Gao et al. Named entity recognition method of Chinese EMR based on BERT-BiLSTM-CRF
CN108874896A (zh) 一种基于神经网络和幽默特征的幽默识别方法
CN111832293A (zh) 基于头实体预测的实体和关系联合抽取方法
CN112101014B (zh) 一种混合特征融合的中文化工文献分词方法
CN114239574A (zh) 一种基于实体和关系联合学习的矿工违规行为知识抽取方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN116432645A (zh) 一种基于预训练模型的交通事故命名实体识别方法
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN117010387A (zh) 融合注意力机制的RoBERTa-BiLSTM-CRF语音对话文本命名实体识别系统
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant