CN115203507A - 一种面向文书领域的基于预训练模型的事件抽取方法 - Google Patents
一种面向文书领域的基于预训练模型的事件抽取方法 Download PDFInfo
- Publication number
- CN115203507A CN115203507A CN202210566651.1A CN202210566651A CN115203507A CN 115203507 A CN115203507 A CN 115203507A CN 202210566651 A CN202210566651 A CN 202210566651A CN 115203507 A CN115203507 A CN 115203507A
- Authority
- CN
- China
- Prior art keywords
- model
- event
- word
- trigger
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 91
- 238000012549 training Methods 0.000 title claims abstract description 55
- 238000003062 neural network model Methods 0.000 claims abstract description 22
- 238000005516 engineering process Methods 0.000 claims abstract description 20
- 238000002372 labelling Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000000034 method Methods 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 9
- 230000009193 crawling Effects 0.000 claims description 8
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 238000003064 k means clustering Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000009472 formulation Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- Mathematical Physics (AREA)
- Human Resources & Organizations (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Technology Law (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- Biophysics (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种面向文书领域的基于预训练模型的事件抽取方法,属于文书智能技术应用领域。本发明利用爬虫技术爬取公开文书语料,并对数据进行清洗和预处理;根据专业知识构建事件触发词和论元信息表并完成进一步拓展;根据触发词表和对应事件论元信息制定问题对模板,并按照指定格式完成模板数据标注;搭建触发词识别和事件论元信息抽取任务联合的神经网络模型Bert+Softmax,通过加载模型参数对预测数据集进行预测得到事件抽取结果。本发明将事件抽取任务转化为机器阅读理解任务,提升了事件抽取的准确性,使模型具有类人一样的理解力,且模型泛化能力和灵活性更强,在文书事件抽取应用中取得了较好的结果。
Description
技术领域
本发明属于文书智能技术应用领域,具体涉及一种面向文书领域的基于预训练模型的事件抽取方法。
背景技术
随着人工智能和大数据技术越来越多的应用,海量文书智能化处理技术成为目前研究的热门方向。面对大量非结构化文书,难以从文书中抓取关键信息,进一步利用文书信息高效地开展工作。文书包含大量相关的要素信息,比如实体,关系以及事件要素。通过实体,关系以及事件信息抽取可以获得关键信息。
目前,事件抽取任务有两种实现方法,一种是基于特征抽取的模板匹配方法,一种是基于神经网络的模型学习方法。基于特征抽取的模板匹配方法需要根据特定领域知识库制定满足目标事件信息模板,通过模板匹配完成事件抽取任务。该方法在特定领域内可以获得较高准确率,但是系统的可移植性差,且泛化能力也不好。当使用场景发生变化时,往往需要重新根据新领域场景知识制定新的模板。然而,新模板的制定耗时耗力,同时还需要新领域知识专家的指导,这显然不是可取的。基于神经网络的模型学习方法将事件抽取任务转换为事件触发词和相应事件论元参数识别任务,该方法能够自动学习事件特征,主要在于神经网络模型的构建。现有基于神经网络模型的事件抽取方法中事件论元信息识别通常采用实体识别技术,因这种技术方法主要依赖实体识别效果导致事件抽取任务的性能较差。所以,为了解决该问题,本发明采用自然语言领域阅读理解方式搭建神经网络模型实现事件触发词识别和事件论元信息抽取任务,完成事件抽取。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是如何提供一种面向文书领域的基于预训练模型的事件抽取方法,以解决现有基于神经网络模型的事件抽取方法中事件论元信息识别通常采用实体识别技术导致事件抽取任务的性能较差的问题。
(二)技术方案
为了解决上述技术问题,本发明提出一种面向文书领域的基于预训练模型的事件抽取方法,该方法包括如下步骤:
步骤S1,利用爬虫技术爬取已公开的文书并对其进行去噪处理,包括特殊符号处理,脏数据去除,分词和停用词过滤;
步骤S2,基于文书业务需求制定原始触发词表和事件论元表并进行词表拓展;
步骤S3,根据触发词表和事件论元表构造问题对模板,并对问题对数据完成指定格式标注;
步骤S4,基于Bert预训练语言模型搭建触发词识别和事件论元识别联合神经网络模型,采用Adam算法训练和验证神经网络模型,优化模型参数使模型达到收敛状态并对其保存;
步骤S5,使用模型分别对触发词和事件论元信息进行预测和去重处理,从而获得事件抽取结果。
进一步地,所述步骤S1具体包括:使用爬虫技术获取文书相关网站已经公开的文书文本数据,基于正则匹配、字符串处理算法查找并删除空文本文书,以及处理文书中空行、特殊符号,统一处理数据清洗,并使用Jieba分词工具以及已有专用停用词表对文书数据进行分词和停用词过滤处理。
进一步地,所述步骤S2具体包括:根据文书领域专业知识制定原始触发词表和事件论元表,并利用语义聚类算法实现词表拓展,词表拓展实现步骤为: S21、加载步骤S1处理完成的语料分词结果,利用Word2vec获取语料分词词向量表示;S22、基于K-means聚类算法计算分词的语义距离,获取与原始触发词和事件论元同义的词集;S23、基于S22步骤的同义词集,进一步根据人工经验更新原始触发词表和事件论元表,完成词表拓展。
进一步地,所述步骤S3具体包括:基于上述步骤S2拓展的触发词表和事件论元表,构建阅读理解任务的问题对模板,模板为:[CLS]问题[SEP]问题所在答案的文本[SEP],问题围绕wh_word,即通过what,who,where进行问题设置。
进一步地,对于同一个触发词存在多种事件论元,或者对于同一事件论元存在多个触发词,一个触发词和一组事件论元对应多个问题对。
进一步地,根据指定格式对问题对模板数据进行标注,利用正则匹配算法获得问题对应答案在文本中的起止位置、有无答案信息进而完成语料标注。
进一步地,所述步骤S4具体包括:构建基于Bert+Softmax的阅读理解式神经网络模型,该模型由触发词识别和事件论元信息抽取两个子任务构成,将步骤S3获得的标注语料按照比例7:2:1进行训练数据、验证数据和测试数据划分,将训练数据集和验证数据集分别输入Bert+Softmax模型中进行训练和验证,由于该模型由两个阶段子任务联合生成,所以该模型联合损失函数为两个子任务分别损失函数之和,通过调节网络参数优化联合损失函数使模型达到收敛状态,最终保存收敛时模型参数。
进一步地,神经网络模型由触发词识别和事件论元信息抽取两阶段子任务构成;该模型首先基于Bert预训练模型进行词向量表征,接着通过添加Softmax 层进行触发词分类,并通过二分类网络进行事件论元起止位置预测,最后将触发词多分类任务和论元预测任务合并完成模型的联合训练;Bert预训练模型由 12层Transformer Encoder模块拼接,采用双向注意力机制以Masked LM和Next Sentence Prediction作为目标任务进行模型训练。
进一步地,将训练集和验证集语料输入模型进行训练和验证,使用Adam算法对参数做相应调节和优化,当模型达到收敛状态时保存对应网络参数;该模型损失函数为两个子任务的损失函数之和,模型联合损失函数设置为: Loss=λ*Ltrigger+Larguments,其中,Ltrigger为触发词识别任务损失函数,Larguments为事件论元信息抽取任务损失函数,λ参数用来调整模型联合损失函数的下降速率,而参数λ取值依赖于触发词和事件论元类别数量λ=numtrigger/numarguments。
进一步地,所述步骤S5具体包括:将测试集数据输入模型进行触发词识别和事件论元信息抽取预测,并使用文本匹配算法对触发词和事件论元信息做去重处理,最终获得事件抽取结果。
(三)有益效果
本发明提出一种面向文书领域的基于预训练模型的事件抽取方法,本发明创新点在于使用自然语言技术领域机器阅读理解任务进行事件抽取,并且通过使用具有自注意力机制编码的预训练语言模型进行词向量表征,同时构建触发词识别多分类模型和事件论元信息起止位置预测的二分类模型,联合调节网络参数使模型达到收敛状态。这种交互式提取文本语义特征的方法使得模型具备类人一样的文字理解能力,可以更准确进行事件抽取任务。
附图说明
图1为本发明基于文书事件抽取方法的流程图;
图2为本发明基于Bert预训练神经网络模型的结构图。
具体实施方式
为使本发明的目的、内容和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明旨在解决当前事件抽取任务面临的挑战,提出一种面向文书领域的基于预训练模型的事件抽取方法。
Bert模型是一种双向自注意力机制模型,通过提取上下文特征进行单词词向量生成,并且是一种动态词向量表征方式,可以解决传统类似Word2vec, FastText等静态词嵌入技术存在的一词多义无法表征问题,从而更灵活更丰富的获取单词语义信息,通过在Bert模型层上接Softmax层实现下游阅读理解任务模型构建,该模型是一种端到端式的模型,主要由触发词识别和事件论元信息抽取两阶段子任务组成。
本发明提供了一种面向文书领域的基于预训练模型的事件抽取方法,其中包括:步骤一,利用爬虫技术爬取公开文书语料,并对数据进行清洗和预处理;步骤二,根据专业知识构建事件触发词和论元信息表并完成进一步拓展;步骤三,根据触发词表和对应事件论元信息制定问题对模板,并按照指定格式完成模板数据标注(查找答案信息起止位置进行标注);步骤四,搭建触发词识别和事件论元信息抽取任务联合的神经网络模型Bert+Softmax,该模型使用Bert基线模型进行词向量表征,而Bert模型由Transformer Encoder模块组成,并采用双向自注意力机制进行语义特征提取,很大程度上增强了模型对于文书上下文信息的语义理解能力;步骤五,通过加载模型参数对预测数据集进行预测得到事件抽取结果。本发明将事件抽取任务转化为机器阅读理解任务,提升了事件抽取的准确性,使模型具有类人一样的理解力,且模型泛化能力和灵活性更强,在文书事件抽取应用中取得了较好的结果。
本发明所述技术方案需要完成以下步骤:
步骤S1,利用爬虫技术爬取已公开的文书并对其进行去噪处理,包括特殊符号处理,脏数据去除,分词和停用词过滤等;
步骤S2,基于文书业务需求制定原始触发词表和事件论元表并进行词表拓展;
步骤S3,根据触发词表和事件论元表构造问题对模板,并对问题对数据完成指定格式标注;
步骤S4,基于Bert预训练语言模型搭建触发词识别和事件论元识别联合神经网络模型,采用Adam算法训练和验证神经网络模型,优化模型参数使模型达到收敛状态并对其保存;
步骤S5,使用模型分别对触发词和事件论元信息进行预测和去重处理,从而获得事件抽取结果。
本发明的文书事件抽取方法的一个实施例中,所述步骤S1,使用爬虫技术获取文书相关网站已经公开的文书文本数据,基于正则匹配、字符串处理算法查找并删除空文本文书,以及处理文书中空行、特殊符号、字符,统一处理中文处理等数据清洗,并使用Jieba分词工具以及已有专用停用词表对文书数据进行分词和停用词过滤处理。
本发明的文书事件抽取方法的一个实施例中,所述步骤S2中,根据文书领域专业知识制定原始触发词表和事件论元表,并利用语义聚类算法实现词表拓展。词表拓展实现步骤:S21、加载步骤S1处理完成的语料分词结果,利用 Word2vec获取语料分词词向量表示;S22、基于K-means聚类算法计算分词的语义距离,获取与原始触发词和事件论元同义的词集;S23、基于S22步骤的同义词集,进一步根据人工经验更新原始触发词表和事件论元表,完成词表拓展。
本发明的文书事件抽取方法的一个实施例中,所述步骤S3中,基于上述步骤S2拓展的触发词表和事件论元表,构建阅读理解任务的问题对模板。模板为: [CLS]问题[SEP]问题所在答案的文本[SEP],问题主要围绕wh_word,即通过 what,who,where进行问题设置。
对于同一个触发词可以存在多种事件论元,或者说对于同一事件论元可以存在多个触发词,而一个触发词和一组事件论元可以对应多个问题对,这种模板扩展策略可以解决海量文书存在的模型语料数据稀疏问题。
根据指定格式对问题对模板数据进行标注,主要利用正则匹配算法获得问题对应答案在文本中的起止位置、有无答案等信息进而完成语料标注。
本发明的文书事件抽取方法的一个实施例中,所述步骤S4中,构建基于 Bert+Softmax的阅读理解式神经网络模型,该模型由触发词识别和事件论元信息抽取两个子任务构成,将步骤S3获得的标注语料按照比例7:2:1进行训练数据、验证数据和测试数据划分,将训练数据集和验证数据集分别输入 Bert+Softmax模型中进行训练和验证,由于该模型由两个阶段子任务联合生成,所以该模型联合损失函数为两个子任务分别损失函数之和,通过调节网络参数优化联合损失函数使模型达到收敛状态,最终保存收敛时模型参数。
本发明的文书事件抽取方法的一个实施例中,所述步骤S5中,将测试集数据输入模型进行触发词识别和事件论元信息抽取预测,并使用文本匹配算法对触发词和事件论元信息做去重处理,最终获得事件抽取结果。
图1为一种基于文书的事件抽取方法的流程图,参考图1,对本发明技术方案实施例子做进一步陈述:
实施例一:文书获取和预处理(去噪)
本实施例包括以下步骤:
A.使用网络爬虫技术爬取公开文书原始语料,主要包括网页URL抓取、网页数据解析、文书语料存储。首先使用爬虫框架Scrapy爬取文书公开网站的结构化数据;其次利用BeautifulSoup4库进行网页数据解析;最后将文书语料以 Json格式保存。
B.文书原始语料预处理,首先使用文本匹配算法查找并删除空数据以及未包含目标信息的语料;其次,对文书中特殊符号、标点不一致、多余空行空格以及可能存在的未解析网页数据等类似噪声数据进行处理;最后,使用Jieba 分词工具对语料进行分词和停用词过滤(需要加载专用分词词典和停用词词典)。
实施例二:结合文书专业知识制定原始触发词表和事件论元表,并使用实施例一获得的可用文书语料做词表拓展。根据可用文书语料制定不同触发词对应的事件论元。通过使用K-means聚类算法计算语义距离获得原始词表对应的同义词集,利用经验知识以及专业知识完成触发词表和事件论元词表拓展完成触发词表和事件论元词表拓展。这种词表拓展策略主要解决了模型数据稀疏问题,有利于增强模型学习能力。
实施例三:基于触发词表和事件论元表进行问题对模板构建以及模型训练语料标注。
本实施例包括以下步骤:
A.文书语料问题对模板构建。此外,对触发词的同义词做同理问题对模板制定。根据模型输入构造的模板,用[SEP]分割,前半段表示问题,后半段表示问题所在答案的文本,这样的输入就是想让模型学习这种寻找文本中问题对应答案位置的能力,这样模型可以识别出文本中的触发词。
B.使用文本匹配算法获得模板数据中答案项在文书中起止位置和有无答案等信息,并按照模型训练数据格式完成问题对模板标注。如果对多样本数据同时进行事件抽取存在单个样本数据过长时,可以将长样本数据切分为多个子样本,通过抽取子样本事件并对其进行合并得到长样本数据所有事件。但是如果是对多个样本逐个进行事件抽取就不需要标注ID标签。
实施例四:基于Bert基线模型搭建端对端的阅读理解式神经网络模型,该模型由触发词识别和事件论元信息抽取两阶段子任务构成。如图2所示,该模型首先基于Bert预训练模型进行词向量表征,接着通过添加Softmax层进行触发词分类,并通过二分类网络进行事件论元起止位置预测,最后将触发词多分类任务和论元预测任务合并完成模型的联合训练。Bert预训练模型由12层 Transformer Encoder模块拼接,采用双向注意力机制以Masked LM和Next Sentence Prediction作为目标任务进行模型训练,这种预训练语言模型可以更深层次地挖掘和理解文书语义信息,并动态表示词向量,解决相同词在不同场景下的语义表示。同时,由于每个文书存在多个触发词,因此文书触发词识别是一个多分类任务,需要在Bert模型上添加Softmax层完成触发词分类预测。
将训练集和验证集语料输入模型进行训练和验证,使用Adam算法对参数做相应调节和优化,当模型达到收敛状态时保存对应网络参数。由于该模型由两个阶段子任务联合生成,所以该模型损失函数为两个子任务的损失函数之和,模型联合损失函数设置为:Loss=λ*Ltrigger+Larguments,其中,Ltrigger为触发词识别任务损失函数,Larguments为事件论元信息抽取任务损失函数,由于触发词识别和事件论元信息两个子任务收敛速率不一致,因此需要添加λ参数来调整模型联合损失函数的下降速率,而参数λ取值依赖于触发词和事件论元类别数量 (λ=numtrigger/numarguments)。
实施例五:
使用测试集数据输入模型进行触发词识别和事件论元信息抽取预测,根据文本匹配算法对触发词和事件论元信息做去重处理,最终获得事件抽取结果。去重策略为:将单个样本预测得到的触发词和对应论元分别存入对应列表中,每次存入一个触发词和对应论元时,首先判断对应列表中是否已经存在将要存入的事件触发词或对应论元,如果未存在则存入列表,否则不存入。
实施例六:
一种面向文书领域的基于预训练模型的事件抽取方法,包括下述步骤:
步骤一,文书获取和预处理,主要是爬取公开的文书语料,并对语料进行去噪处理,包括删除文书空行或者特殊符号、处理中英文字符不一致以及处理部分未成功解析的网页数据,最后对语料做分词和停用词过滤处理;
步骤二,基于文书业务需求制定原始触发词表和事件论元表并进行词表拓展,词表拓展策略采用K-means聚类算法计算单词语义距离获得原始词表同义词集并更新词表;
步骤三,根据触发词表和事件论元表构造问题对模板,主要围绕4w (what,who,which,where)制定同一触发词和事件论元对应问题,从而生成问题对模板,同时对问题对数据进行标注,包含问题对应答案在文本中的起止位置以及是否存在答案等信息;
步骤四,基于Bert预训练语言模型搭建触发词识别和事件论元抽取任务联合的神经网络模型,在Bert模型层上接Softmax层进行触发词识别和论元抽取联合损失函数优化,保存模型收敛时的超参数;
步骤五,加载上述保存的模型参数,使用测试集数据预测模型输出结果,并对预测的事件触发词和事件论元进行去重处理,最终获得事件抽取结果。
进一步地,使用爬虫技术和网页数据解析技术获取公开文书语料数据,并利用正则匹配技术和字符串处理算法查找和删除空文本文书,对文书中空行、特殊符号、中英文字符不一致问题进行数据清洗,除此,利用领域专业知识构建专用分词词典和停用词表,使用Jieba分词工具对语料数据进行分词和停用词过滤。
进一步地,根据文书领域专业知识制定原始触发词表和事件论元表,并利用语义聚类算法实现词表拓展。词表拓展实现步骤:A.加载步骤一处理完成的语料分词结果,利用Word2vec获取语料分词词向量表示;B.基于K-means聚类算法计算语义距离,获取与原始触发词和事件论元同义的词集;C.基于B步骤同义词集,进一步根据人工经验更新原始触发词表和事件论元表,完成词表拓展。
进一步地,基于上述步骤二更新的触发词表和事件论元表,构建阅读理解任务的问题对模板。问题对模板构建主要是触发词和事件论元对应的问题制定,问题制定围绕wh_word,即通过what,who,where进行问题设置。
对于同一个触发词可以存在多种事件论元,或者说对于同一事件论元可以存在多个触发词,而一个触发词和一组事件论元可以对应多个问题对,这种问题对模板扩展策略可以解决海量文书存在的模型语料数据稀疏问题。
根据指定格式对问题对模板数据进行标注,主要利用正则匹配算法获得问题对应答案在文本中的起止位置、有无答案等信息进而完成语料标注。
进一步地,构建基于Bert+Softmax的阅读理解式神经网络模型,该模型由触发词识别和事件论元信息抽取两个子任务构成,将步骤三获得的标注语料按照比例7:2:1进行训练数据、验证数据和测试数据划分,将训练数据集和验证数据集分别输入Bert+Softmax模型中进行训练和验证,由于该模型由两个阶段子任务联合生成,所以该模型联合损失函数为两个子任务分别损失函数之和,通过调节网络参数优化联合损失函数使模型达到收敛状态,最终保存收敛时模型参数。
进一步地,将测试集数据输入模型进行触发词识别和事件论元信息抽取预测,并使用文本匹配算法对触发词和事件论元信息做去重处理,最终获得事件抽取结果。
本发明针对现有事件抽取任务不足,达到的改善效果为:现有传统基于模式匹配方式的事件抽取技术严重依赖规则模板,使其拓展性和移植性较差,无法适应多种复杂案由场景下文书的事件抽取任务。另外,现有深度学习方式的事件抽取技术虽然可以解决传统模式匹配技术存在的不足,但是又需要依赖相关专业知识制定和拓展事件抽取所需的触发词和事件论元词表,并且无法准确识别模型未训练过的文书语料,导致事件抽取任务泛化能力弱,无法更好适应不同类型文书事件抽取任务。本发明从深度理解文书语义层面出发,基于Bert 预训练语言模型获取文书词向量表征,并在Bert模型基础上增加Softmax层构建阅读理解式的神经网络模型,使模型具备类人理解能力,更深层词提取文书特征,更准确抽取事件信息。本发明面向文书领域的基于预训练模型的事件抽取方法可以更好适用不同文书类型,在事件抽取任务中具有良好的使用效果。
本发明创新点在于使用自然语言技术领域机器阅读理解任务进行事件抽取,并且通过使用具有自注意力机制编码的预训练语言模型进行词向量表征,同时构建触发词识别多分类模型和事件论元信息起止位置预测的二分类模型,联合调节网络参数使模型达到收敛状态。这种交互式提取文本语义特征的方法使得模型具备类人一样的文字理解能力,可以更准确进行事件抽取任务。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种面向文书领域的基于预训练模型的事件抽取方法,其特征在于,该方法包括如下步骤:
步骤S1,利用爬虫技术爬取已公开的文书并对其进行去噪处理,包括特殊符号处理,脏数据去除,分词和停用词过滤;
步骤S2,基于文书业务需求制定原始触发词表和事件论元表并进行词表拓展;
步骤S3,根据触发词表和事件论元表构造问题对模板,并对问题对数据完成指定格式标注;
步骤S4,基于Bert预训练语言模型搭建触发词识别和事件论元识别联合神经网络模型,采用Adam算法训练和验证神经网络模型,优化模型参数使模型达到收敛状态并对其保存;
步骤S5,使用模型分别对触发词和事件论元信息进行预测和去重处理,从而获得事件抽取结果。
2.如权利要求1所述的面向文书领域的基于预训练模型的事件抽取方法,其特征在于,所述步骤S1具体包括:使用爬虫技术获取文书相关网站已经公开的文书文本数据,基于正则匹配、字符串处理算法查找并删除空文本文书,以及处理文书中空行、特殊符号,统一处理数据清洗,并使用Jieba分词工具以及已有专用停用词表对文书数据进行分词和停用词过滤处理。
3.如权利要求2所述的面向文书领域的基于预训练模型的事件抽取方法,其特征在于,所述步骤S2具体包括:根据文书领域专业知识制定原始触发词表和事件论元表,并利用语义聚类算法实现词表拓展,词表拓展实现步骤为:S21、加载步骤S1处理完成的语料分词结果,利用Word2vec获取语料分词词向量表示;S22、基于K-means聚类算法计算分词的语义距离,获取与原始触发词和事件论元同义的词集;S23、基于S22步骤的同义词集,进一步根据人工经验更新原始触发词表和事件论元表,完成词表拓展。
4.如权利要求3所述的面向文书领域的基于预训练模型的事件抽取方法,其特征在于,所述步骤S3具体包括:基于上述步骤S2拓展的触发词表和事件论元表,构建阅读理解任务的问题对模板,模板为:[CLS]问题[SEP]问题所在答案的文本[SEP],问题围绕wh_word,即通过what,who,where进行问题设置。
5.如权利要求4所述的面向文书领域的基于预训练模型的事件抽取方法,其特征在于,对于同一个触发词存在多种事件论元,或者对于同一事件论元存在多个触发词,一个触发词和一组事件论元对应多个问题对。
6.如权利要求4所述的面向文书领域的基于预训练模型的事件抽取方法,其特征在于,根据指定格式对问题对模板数据进行标注,利用正则匹配算法获得问题对应答案在文本中的起止位置、有无答案信息进而完成语料标注。
7.如权利要求1-6任一项所述的面向文书领域的基于预训练模型的事件抽取方法,其特征在于,所述步骤S4具体包括:构建基于Bert+Softmax的阅读理解式神经网络模型,该模型由触发词识别和事件论元信息抽取两个子任务构成,将步骤S3获得的标注语料按照比例7:2:1进行训练数据、验证数据和测试数据划分,将训练数据集和验证数据集分别输入Bert+Softmax模型中进行训练和验证,由于该模型由两个阶段子任务联合生成,所以该模型联合损失函数为两个子任务分别损失函数之和,通过调节网络参数优化联合损失函数使模型达到收敛状态,最终保存收敛时模型参数。
8.如权利要求7所述的面向文书领域的基于预训练模型的事件抽取方法,其特征在于,神经网络模型由触发词识别和事件论元信息抽取两阶段子任务构成;该模型首先基于Bert预训练模型进行词向量表征,接着通过添加Softmax层进行触发词分类,并通过二分类网络进行事件论元起止位置预测,最后将触发词多分类任务和论元预测任务合并完成模型的联合训练;Bert预训练模型由12层Transformer Encoder模块拼接,采用双向注意力机制以Masked LM和Next Sentence Prediction作为目标任务进行模型训练。
9.如权利要求7所述的面向文书领域的基于预训练模型的事件抽取方法,其特征在于,将训练集和验证集语料输入模型进行训练和验证,使用Adam算法对参数做相应调节和优化,当模型达到收敛状态时保存对应网络参数;该模型损失函数为两个子任务的损失函数之和,模型联合损失函数设置为:Loss=λ*Ltrigger+Larguments,其中,Ltrigger为触发词识别任务损失函数,Larguments为事件论元信息抽取任务损失函数,λ参数用来调整模型联合损失函数的下降速率,而参数λ取值依赖于触发词和事件论元类别数量λ=numtrigger/numarguments。
10.如权利要求7所述的面向文书领域的基于预训练模型的事件抽取方法,其特征在于,所述步骤S5具体包括:将测试集数据输入模型进行触发词识别和事件论元信息抽取预测,并使用文本匹配算法对触发词和事件论元信息做去重处理,最终获得事件抽取结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210566651.1A CN115203507A (zh) | 2022-05-23 | 2022-05-23 | 一种面向文书领域的基于预训练模型的事件抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210566651.1A CN115203507A (zh) | 2022-05-23 | 2022-05-23 | 一种面向文书领域的基于预训练模型的事件抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115203507A true CN115203507A (zh) | 2022-10-18 |
Family
ID=83576487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210566651.1A Pending CN115203507A (zh) | 2022-05-23 | 2022-05-23 | 一种面向文书领域的基于预训练模型的事件抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115203507A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304077A (zh) * | 2022-12-19 | 2023-06-23 | 河海大学 | 一种基于异构图的水旱灾害文本事件抽取方法 |
CN116861901A (zh) * | 2023-07-04 | 2023-10-10 | 广东外语外贸大学 | 一种基于多任务学习的中文事件检测方法、系统和电子设备 |
CN117874261A (zh) * | 2024-03-12 | 2024-04-12 | 北京邮电大学 | 基于课程学习的问答式事件抽取方法以及相关设备 |
-
2022
- 2022-05-23 CN CN202210566651.1A patent/CN115203507A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304077A (zh) * | 2022-12-19 | 2023-06-23 | 河海大学 | 一种基于异构图的水旱灾害文本事件抽取方法 |
CN116861901A (zh) * | 2023-07-04 | 2023-10-10 | 广东外语外贸大学 | 一种基于多任务学习的中文事件检测方法、系统和电子设备 |
CN116861901B (zh) * | 2023-07-04 | 2024-04-09 | 广东外语外贸大学 | 一种基于多任务学习的中文事件检测方法、系统和电子设备 |
CN117874261A (zh) * | 2024-03-12 | 2024-04-12 | 北京邮电大学 | 基于课程学习的问答式事件抽取方法以及相关设备 |
CN117874261B (zh) * | 2024-03-12 | 2024-05-28 | 北京邮电大学 | 基于课程学习的问答式事件抽取方法以及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021147726A1 (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN111190997B (zh) | 一种使用神经网络和机器学习排序算法的问答系统实现方法 | |
CN111831789B (zh) | 一种基于多层语义特征提取结构的问答文本匹配方法 | |
CN111639171A (zh) | 一种知识图谱问答方法及装置 | |
CN115203507A (zh) | 一种面向文书领域的基于预训练模型的事件抽取方法 | |
CN111159485A (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN113094578A (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
CN113743119B (zh) | 中文命名实体识别模块、方法、装置及电子设备 | |
CN113806554B (zh) | 面向海量会议文本的知识图谱构建方法 | |
CN116127090B (zh) | 基于融合和半监督信息抽取的航空系统知识图谱构建方法 | |
CN111581368A (zh) | 一种基于卷积神经网络的面向智能专家推荐的用户画像方法 | |
CN116304066A (zh) | 一种基于提示学习的异质信息网络节点分类方法 | |
CN114911945A (zh) | 基于知识图谱的多价值链数据管理辅助决策模型构建方法 | |
CN113010683B (zh) | 基于改进图注意力网络的实体关系识别方法及系统 | |
CN112307048B (zh) | 语义匹配模型训练方法、匹配方法、装置、设备及存储介质 | |
CN113988079A (zh) | 一种面向低数据的动态增强多跳文本阅读识别处理方法 | |
CN115408488A (zh) | 用于小说场景文本的分割方法及系统 | |
CN116662565A (zh) | 基于对比学习预训练的异质信息网络关键词生成方法 | |
CN111400492A (zh) | 基于sfm-dcnn的层次特征文本分类方法和系统 | |
CN113378024B (zh) | 一种基于深度学习面向公检法领域的相关事件识别方法 | |
Le Huy et al. | Keyphrase extraction model: a new design and application on tourism information | |
CN113505583A (zh) | 基于语义决策图神经网络的情感原因子句对提取方法 | |
CN117271558A (zh) | 语言查询模型构建方法、查询语言获取方法及相关装置 | |
CN116662566A (zh) | 一种基于对比学习机制的异质信息网络链路预测方法 | |
CN113010676B (zh) | 一种文本知识提取方法、装置及自然语言推断系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |