CN117648397A - 篇章事件抽取方法、系统、设备及存储介质 - Google Patents
篇章事件抽取方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN117648397A CN117648397A CN202311470833.XA CN202311470833A CN117648397A CN 117648397 A CN117648397 A CN 117648397A CN 202311470833 A CN202311470833 A CN 202311470833A CN 117648397 A CN117648397 A CN 117648397A
- Authority
- CN
- China
- Prior art keywords
- instruction
- event
- argument
- chapter
- fine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 74
- 239000000463 material Substances 0.000 claims abstract description 83
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 claims abstract description 25
- 238000013528 artificial neural network Methods 0.000 claims abstract description 23
- 238000004140 cleaning Methods 0.000 claims abstract description 14
- 238000004590 computer program Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000014509 gene expression Effects 0.000 claims description 5
- 238000012946 outsourcing Methods 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000005406 washing Methods 0.000 claims 1
- 238000000034 method Methods 0.000 abstract description 22
- 230000006698 induction Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 238000013467 fragmentation Methods 0.000 description 2
- 238000006062 fragmentation reaction Methods 0.000 description 2
- 239000003999 initiator Substances 0.000 description 2
- 244000239634 longleaf box Species 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 235000002198 Annona diversifolia Nutrition 0.000 description 1
- 241000282842 Lama glama Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000031864 metaphase Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明提出一种篇章事件抽取方法、系统、设备及存储介质,该方法包括:从开源新闻和预设新闻数据库中选取新闻素材样本并清洗;分别设计理论通用论元指令模板和理论精细论元指令模板,将新闻素材样本输入ChatGPT中,得到实际通用论元指令和实际精细论元指令;获取篇章指令集;基于篇章指令集,结合训练后的LoRA神经网络,对开源大语言模型进行指令精调,得到目标大语言模型;调试目标大语言模型对应的输出指令,将待测篇章输入到调试后的目标大语言模型中,得到抽取事件。本发明构造的篇章事件大语言模型有效地优化了其归纳总结能力差、事件过于冗余、泛化能力差、领域适应性差以及多步误差带来的整体准确率低等问题。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种篇章事件抽取方法、系统、设备及存储介质。
背景技术
篇章事件抽取是自然语言处理的一项子任务,其在信息挖掘、舆情分析等多个行业均具有广阔的应用场景,是自然语言处理领域的重要研究方向和研究热点之一,也是人工智能走向成熟的重要标志之一。
目前市场上的事件抽取方法大多数是基于句子级别的,并且抽取流程是串行的:即先通过序列标注模型抽取出句子所包含的事件类型和事件触发词;然后基于事件触发词,通过指针网络模型依次抽取出句子中的各个事件角色和事件要素;最后基于原始句子,通过摘要模型抽取出事件名称。对于篇章事件的抽取,传统的做法大多是直接使用篇章的主旨段落或者对篇章进行摘要生成,转化为句子级别的事件抽取。
对于传统的句子级别的事件抽取所导致的归纳总结能力差、事件过于冗余、泛化能力差、领域适应性差以及多步误差带来的整体准确率低等问题;目前开源的大语言模型等在篇章事件抽取任务上表现出的输出格式不稳定、事件名称及事件论元中存在胡编乱造的成分以及模型不遵循输入指令等问题。
发明内容
本发明提供一种篇章事件抽取方法、系统、设备及存储介质,其主要目的在于有效地优化了传统方法篇章事件归纳总结能力差、事件过于冗余、泛化能力差、领域适应性差以及多步误差带来的整体准确率低等问题。
第一方面,本发明实施例提供一种篇章事件抽取方法,包括:
从开源新闻和预设新闻数据库中选取新闻素材样本,并对所述新闻素材样本进行清洗;
分别设计理论通用论元指令模板和理论精细论元指令模板,以所述理论通用论元指令模板和所述理论精细论元指令模板为基础,将所述新闻素材样本输入ChatGPT中,得到所述新闻素材样本对应的实际通用论元指令和所述新闻素材样本对应的实际精细论元指令;
基于所述实际通用论元指令和所述实际精细论元指令,进行扩展,得到所述新闻素材样本对应的负样本指令和热点推送指令,所述实际通用论元指令、所述实际精细论元指令、所述负样本指令和所述热点推送指令组成篇章指令集;
基于所述新闻素材样本、所述实际通用论元指令、所述实际精细论元指令、所述负样本指令和所述热点推送指令,结合训练后的LoRA神经网络,对开源大语言模型进行指令精调,得到目标大语言模型;
调试所述目标大语言模型对应的输出指令,获取最佳输出指令和调试后的目标大语言模型;
将待测篇章输入到所述调试后的目标大语言模型中,得到抽取事件。
进一步地,所述基于所述新闻素材样本、所述实际通用论元指令、所述实际精细论元指令、所述负样本指令和所述热点推送指令,结合训练后的LoRA神经网络,对开源大语言模型进行指令精调,得到目标大语言模型,包括:
基于所述新闻素材样本、所述实际通用论元指令、所述实际精细论元指令、所述负样本指令和所述热点推送指令,对LoRA神经网络进行训练,得到训练后的LoRA神经网络;
将训练后的LoRA神经网络的权重参数迁移到所述开源大语言模型中;
训练所述开源大预言模型中未被迁移的权重参数,得到训练后的LoRA神经网络。
进一步地,所述训练所述开源大预言模型中未被迁移的权重参数,得到训练后的LoRA神经网络,计算公式如下:
W=W0+ΔW=W0+HK,
其中,W表示所述训练后的LoRA神经网络的权重参数,W0表示所述开源大语言模型中由训练后的LoRA神经网络迁移过来的权重参数,ΔW表示所述开源大预言模型中未被迁移的权重参数,H表示升维矩阵,K表示降维矩阵。
进一步地,所述对所述新闻素材样本进行清洗,包括:
删除字数小于300或者大于1000字的新闻素材样本;
对新闻素材样本进行数据源分类,从军事、政治、外交、安全、经济、科技、娱乐类别中各选取预设数量;
通过正则表达式过滤新闻素材样本中的表情符号、无效网址、前端代码。
进一步地,所述理论通用论元指令模板,具体如下:
[事件名称,事件类别,事件时间,事件地点,事件主体,事件客体]。
进一步地,所述理论精细论元指令模板,具体如下:
[事件名称,事件类别,精细论元1,…,精细论元N],N为正整数。
第二方面,本发明实施例提供一种篇章事件抽取系统,包括:
清洗模块,用于从开源新闻和预设新闻数据库中选取新闻素材样本,并对所述新闻素材样本进行清洗;
指令模块,用于分别设计理论通用论元指令模板和理论精细论元指令模板,以所述理论通用论元指令模板和所述理论精细论元指令模板为基础,将所述新闻素材样本输入ChatGPT中,得到所述新闻素材样本对应的实际通用论元指令和所述新闻素材样本对应的实际精细论元指令;
扩展模块,用于基于所述实际通用论元指令和所述实际精细论元指令,进行扩展,得到所述新闻素材样本对应的负样本指令和热点推送指令,所述实际通用论元指令、所述实际精细论元指令、所述负样本指令和所述热点推送指令组成篇章指令集;
精调模块,用于基于所述新闻素材样本、所述实际通用论元指令、所述实际精细论元指令、所述负样本指令和所述热点推送指令,结合训练后的LoRA神经网络,对开源大语言模型进行指令精调,得到目标大语言模型;
调试模块,用于调试所述目标大语言模型对应的输出指令,获取最佳输出指令和调试后的目标大语言模型;
抽取模块,用于将待测篇章输入到所述调试后的目标大语言模型中,得到抽取事件。
第三方面,本发明实施例提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种篇章事件抽取方法的步骤。
第四方面,本发明实施例提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述一种篇章事件抽取方法的步骤。
本发明提出的一种篇章事件抽取方法、系统、设备及存储介质,通过设计理论通用论元指令模板和理论精细论元指令模板两类指令模板,基于ChatGPT获取新闻素材样本标注数据,得到实际通用论元指令和实际精细论元指令;再结合下游任务的使用场景,基于实际通用论元指令和实际精细论元指令构建了高质量的篇章指令集;最后基于Lora精调技术形成了目标大语言模型。
相比于传统的抽取式事件模型,本发明构造的篇章事件大语言模型有效地优化了其归纳总结能力差、事件过于冗余、泛化能力差、领域适应性差以及多步误差带来的整体准确率低等问题。
相比于开源的大语言模型,本发明构造的篇章事件大语言模型有效地优化了其输出格式不稳定、事件名称及事件论元中存在胡编乱造的成分以及模型不遵循输入指令等问题。
附图说明
图1为本发明实施例提供的一种篇章事件抽取方法的流程图;
图2为本发明实施例提供的一种篇章事件抽取系统的结构示意图;
图3为本发明实施例提供的一种计算机设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面详细描述本申请的实施方式,实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性地,仅用于解释本申请,而不能理解为对本申请的限制。
为了使本技术领域的人员更好地理解本申请的方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例中,至少一个是指一个或多个;多个,是指两个或两个以上。在本申请的描述中,“第一”、“第二”、“第三”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本说明书中描述的参考“一种实施方式”或“一些实施方式”等意味着在本申请的一个或多个实施方式中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
目前市场的主流做法存在以下几点问题:
第一,句子级别的事件信息往往较为单一,无法有效地概括整篇文章所包含的整体意思,没有归纳总结能力;同时,一篇文章往往包含多个句子,不同的句子可能讲述相似的内容,导致最终抽取出的事件过于冗杂,影响下游任务的应用。
第二,传统的句子级别的事件抽取方法基于监督模型,需要事先定义好事件类别和事件要素进行监督训练,其泛化能力和领域适应性较差。
第三,传统的句子级别的事件抽取方法是串行的,即先抽取事件类型和事件触发词,再抽取事件角色和事件要素,最后抽取出事件名称,模型存在多步误差,整体准确率较低。
另外,基于目前开源的大语言模型如llama2、chatglm-6b等进行篇章事件抽取,存在以下问题:
第一,由于生成式模型的随机性和不稳定性,导致模型的输出格式千变万化,无法有效地解析,影响下游任务的应用。
第二,由于开源大语言模型自身性能的原因,导致在事件名称、事件论元等的抽取中往往会有胡编乱造的成分,影响事件整体的准确率。
第三,开源大语言模型在篇章事件抽取这样的复杂任务上的表现不够好,通常会不遵循输入的指令,抽取的事件类别与输入的指令不相关或者抽取出指令之外的内容,因此需要进行进一步精调。
针对传统的事件抽取技术存在的问题,本发明从以下几个方面进行改进:
对于传统的句子级别的事件抽取所导致的归纳总结能力差、事件过于冗余、泛化能力差、领域适应性差以及多步误差带来的整体准确率低等问题,本发明基于大语言模型和迁移学习进行篇章事件抽取。
一方面,大语言模型在大批量无监督数据上进行了预训练,具有强大的先验知识,其对于篇章新闻的归纳总结能力要远远优于传统的抽取式模型;同时,大语言模型具有较强的零样本推理能力,因此其针对事件抽取任务的泛化能力和领域适应性也远远优于传统的抽取式模型;另一方面,基于大语言模型进行篇章事件抽取,能够直接生成篇章的核心事件,这就很好的解决了事件冗杂的问题;同时,大语言模型是自回归的生成式模型,模型只有单步误差,整体准确率相对较高。
对于目前开源的大语言模型如llama2、chatglm-6b等在篇章事件抽取任务上表现出的输出格式不稳定、事件名称及事件论元中存在胡编乱造的成分以及大语言模型不遵循输入指令等问题,本发明构造一批高质量的篇章指令集,并对开源大语言模型进行指令精调。
篇章指令集分为四个部分,以满足不同的任务场景。
第一部分是以“事件名称,事件类别,事件主体,事件客体,事件时间,事件地点”的形式,以满足开放域&通用篇章事件抽取的需求。
第二部分是以“事件名称,事件类别,精细论元1,精细论元2,...”的形式,以满足精细化篇章事件抽取的需求,此处,精细论元是指详细描述篇章事件的细节信息。
第三部分不限定事件要素,仅让大语言模型抽取出篇章中的核心事件,以满足热点事件实时推送的需求。
第四部分为负样本数据,以解决开源大语言模型胡编乱造的问题。
另外,本发明实施例中大语言模型的输出都要求以中文,并且以标准的json格式返回,从而解决输出格式不稳定的问题。最后,基于Lora技术,结合高质量的篇章指令集对开源大语言模型进行指令精调。
图1为本发明实施例提供的一种篇章事件抽取方法的流程图,如图1所示,该方法包括:
S110,从开源新闻和预设新闻数据库中选取新闻素材样本,并对所述新闻素材样本进行清洗;
从开源新闻和预设新闻数据库中选取新闻素材样本,本发明实施例中预设新闻数据库为Gdelt数据库,Gdelt数据库每时每刻监控着每个国家的几乎每个角落的100多种语言的新闻媒体,包括印刷的、广播的和web形式的,识别人员、位置、组织、数量、主题、数据源、情绪、报价、图片和每秒都在推动全球社会的事件,Gdelt数据库为全球提供了一个自由开放的计算平台。
Gdelt数据库主要包含两大数据集:Event Database(事件数据库)、GlobalKnowledge Graph(GKG,全球知识图谱),记录了从1969年至今的新闻,并于每十五分钟更新一次数据。
对选取的新闻素材样本进行数据清洗,具体如下:
①去除字数小于300或者大于1000字的新闻素材样本。
②对新闻素材样本进行数据源分类,从军事、政治、外交、安全、经济、科技、娱乐等类别中各选取一部分,保证新闻素材样本领域的均衡性,在实际实施过程中,可以从新闻素材样本中匹配与军事、整治、外交、安全、经济、科技和娱乐这些相关的预设关键词,根据匹配结果对新闻素材样本进行分类。
③通过正则表达式过滤新闻素材样本中的表情符号、无效网址、前端代码等无效信息,形成高质量的新闻素材样本。
通过上述三个步骤依次对新闻素材样本进行清洗,得到清洗后的新闻素材样本。
S120,分别设计理论通用论元指令模板和理论精细论元指令模板,以所述理论通用论元指令模板和所述理论精细论元指令模板为基础,将所述新闻素材样本输入ChatGPT中,得到所述新闻素材样本对应的实际通用论元指令和所述新闻素材样本对应的实际精细论元指令;
人工设计两类指令模板:理论通用论元指令模板和理论精细论元指令模板,基于ChatGPT构造批量的篇章事件标注数据。
第一类指令模板(理论通用论元指令模板)的样例如下:
从给定的新闻素材样本中抽取出一个或者几个根事件,并提取以下六部分要素:[“事件名称”,“事件类别”,“事件时间”,“事件地点”,“事件主体”,“事件客体”]。
根事件指新闻素材样本中的最主要或最核心事件,而子事件是与根事件的相关度较高的事件,在抽取时一定不要抽取子事件。在抽取根事件时,相同事件不要重复抽取。
为了避免过度碎片化,如果多个事件在语义上是相互关联的,并构成了一个更大的事件,请将它们合并成一个事件,并在事件名称中予以体现。人物类型的要素只保留姓名即可,如果遇到同种要素有多个的情况请将该要素合并为一个列表返回。
事件主体是根事件的发起者。如果新闻素材样本中不包含某个要素,请返回“未提及”。并将结果以一个json列表的形式返回。
第一类指令模板侧重于生成包含通用事件论元的篇章事件信息,并以指定的json列表的形式返回。通过第一类指令模板得到的数据记为标注数据1。
第二类指令模板(理论精细论元指令模板)的样例如下:[事件名称,事件类别,精细论元1,…,精细论元N],N为正整数。
需要说明的是,精细论元是指详细描述新闻素材样本预设细节信息的数据,比如新闻素材样本的目的、原因、影响、历史因素等,精细论元的个数可以根据实际情况确定,本发明实施例对此不做具体限定。
从给定的新闻素材样本中抽取出一个或者几个根事件,并提取所有相关要素,根事件指新闻素材样本中的主要或核心事件,而子事件是根事件的一部分,在抽取时不对子事件进行单独抽取。在抽取根事件时,相同事件一定不要重复抽取,避免过度碎片化。如果多个事件在语义上是相互关联的,并构成了一个更大的事件,请将它们合并成一个事件,并在事件名称中予以体现。人物类型的要素只保留姓名即可,如果遇到同种要素有多个的情况请将该要素合并为一个列表返回,“事件主体”是根事件的发起者。
如果文本中不包含某个要素,请返回“未提及”。请将结果以一个json列表的形式返回。比如将给大语言模型一个例子,请大语言模型参照例子去进行这个任务,输入的文本是“A国于11月15日向B国发射了一连串导弹,击中了全国各地的能源基础设施,使基辅和其他城市陷入黑暗。”然后大语言模型返回一个json列表:[{“事件名称”:“A国发射导弹袭击B国的能量基础设施”,“事件类别”:“袭击事件”,“袭击地点”:“B国”,“袭击时间”:“11月15日”,“袭击者”:“A国”,“袭击目标”:“全国各地的能量基础设备”,“目的”:“未提及”}]。现在,请参照例子从以下述文本中抽取出重要事件。
第二类指令模板侧重于生成包含精细化事件论元的篇章事件信息,并以指定的json列表的形式返回。通过第二类指令模板得到的数据记为标注数据2。
S130,基于所述实际通用论元指令和所述实际精细论元指令,进行扩展,得到所述新闻素材样本对应的负样本指令和热点推送指令,所述实际通用论元指令、所述实际精细论元指令、所述负样本指令和所述热点推送指令组成篇章指令集;
对S120中得到的标注数据1和标注数据2进行改造,形成篇章指令集,根据下游任务的需求将数据集改造为四种类型。
通过对标注数据1进行改造得到指令数据1,指令数据1的样例如下:
{“type”:“files_name”,“conversations”:[{“from”:“human”,“value”:“现在要进行一个篇章级事件抽取任务:请从给定的文章中,找出文章所描述的核心事件并提取出[“事件名称”,“事件类别”,“事件时间”,“事件地点”,“事件主体”,“事件客体”]六个事件要素”。
如果文章中不包含某个要素,请返回“未提及”。最后请将结果以一个json列表的形式返回。“文章为:标题:...。正文:...。”},{“from”:“assistant”,“value”:{“事件名称”:“A国成为C国最大的石油供应国”,“事件类别”:“能源供应”,“事件时间”:“2021年10月”,“事件地点”:“C国”,“事件主体”:“A国”,“事件客体”:“C国”}}]}。
指令数据1侧重于包含通用事件论元的篇章事件信息抽取,以满足通用&开放域篇章事件抽取的需求。
通过对标注数据2进行改造得到指令数据2,指令数据2的样例如下:
{“type”:“files_name”,“conversations”:[{“from”:“human”,“value”:“现在你要进行一个篇章级事件抽取任务:请从给定的文章中,找出文章所描述的核心事件并按照{“选举事件”:[“事件名称”,“选举时间”,“选举地点”,“候选人”,“选举制度”,“选举结果”,“选举影响”]}提取出事件要素”。
如果文本中不包含某个要素,请返回“未提及”。最后请将结果以一个json列表的形式返回。“文章为:标题:...。正文:...。”,{“from”:“assistant”,“value”:{“事件名称”:“阿拉斯加中期选举”,“事件类别”:“选举事件”,“选举时间”:“11月”,“选举地点”:“阿拉斯加”,“候选人”:[“玛丽·佩托拉”,“尼克·贝吉奇三世”,“萨拉·佩林”],“选举制度”:“排名选择投票”,“选举结果”:“玛丽·佩托拉胜出”,“选举影响”:“众议院控制权决定”}}]}。
指令数据2侧重于包含给定的精细事件论元的篇章事件信息抽取,以满足给定精细化论元来进行篇章事件抽取的需求。
通过对标注数据2进行改造得到指令数据3,指令数据3的样例如下:
{“type”:“files_name”,“conversations”:[{“from”:“human”,“value”:“”现在要进行一个篇章级事件抽取任务:请从给定的文章中,找出文章所描述的核心事件并按照{“政治争议”:[“事件名称”,“争议方”,“争议内容”]}提取出事件要素。如果文本中不包含某个要素,请返回“未提及”。
最后请将结果以一个json列表的形式返回。文章为:“标题:...。正文:...。”},{“from”:“assistant”,“value”:“抱歉,这篇文章中并没有需要关注的事件”}]}。
指令数据3作为指令数据集的负样本数据,即当新闻素材中不包含给定的精细事件论元时,直接返回空的json列表。这部分数据的构建可以利用不同领域的素材交叉生成,这样素材中都不可能存在给定的精细事件论元。
通过对标注数据2进行改造得到指令数据4,指令数据4的样例如下:
{“type”:“files_name”,“conversations”:[{“from”:“human”,“value”:“现在你要进行一个篇章级事件抽取任务:请从给定的文章中,找出文章所描述的核心事件并提取出事件相关要素”。如果文本中不包含某个要素,请返回“未提及”。最后请将结果以一个json列表的形式返回。文章为:标题:...。正文:...。},{“from”:“assistant”,“value”:{“事件名称”:“邦迪海滩裸体拍照活动”,“事件类别”:“慈善活动”,“活动地点”:“邦迪海滩”,“活动时间”:“未提及”,“活动组织”:“皮肤检查冠军”,“合作方”:“斯宾塞·图尼克”,“参与人员数量”:“超过2500人”,“特别关注人物”:“克里斯·海姆斯沃斯”}}]}。
指令数据4并不指定模型生成通用事件论元或者是精细化事件论元,而是让模型自己来归纳总结,可以满足每日热点素材推送的需求,该需求关注更多的是事件名称。
对得到的指令数据1、2、3、4进行整合,得到最终的篇章指令集。
S140,基于所述新闻素材样本、所述实际通用论元指令、所述实际精细论元指令、所述负样本指令和所述热点推送指令,结合训练后的LoRA神经网络,对开源大语言模型进行指令精调,得到目标大语言模型;
基于上面得到的篇章指令集以及Lora精调技术,对开源大语言模型进行指令精调,本发明实施例中大语言模型为llama2,基本过程如下:
需要说明的是,llama2是meta最新开源的语言大模型,训练数据集2万亿token,上下文长度是由llama的2048扩展到4096,可以理解和生成更长的文本,包括7B、13B和70B三个模型,在各种基准集的测试上表现突出。
Lora是一种轻量级大语言模型精调技术,假设原始大语言模型llama2的权重参数为W0,精调之后形成的篇章事件大模型的权重参数为W,整个训练过程中精调的参数为ΔW,那么有:
W=W0+ΔW,
将待训练的参数ΔW分解为降维矩阵H以及升维矩阵K,那么有:
W=W0+ΔW=W0+HK,
其中,W0∈Rd×k表示原始大语言模型llama2的权重参数,H∈Rd×r表示升维矩阵,用全0矩阵初始化;K∈Rr×k表示降维矩阵,用随机高斯分布初始化;r为秩,是先验参数且r≤min(d,k)。在整个训练过程中,H、K是可训练参数,其他都是先验参数和固定参数。
在模型前向训练过程中,W0和ΔW都会乘以相同的输入x,也就是:
L=W0x+ΔWx=W0x+HKx,
模型的训练目标为:
min(L'-L),
其中,L'为真实答案,L为模型输出。由此进行多轮迭代,直至模型收敛。最终得到精调之后的篇章事件大模型。
基于上面得到的目标大语言模型,给定新闻素材,进行模型的推理和结果的输出,基本过程如下:
1)基于目标大语言模型,设计最佳指令模板进行模型的推理。由于在开源语言大模型的基础上精调得到的目标大语言模型对于复杂指令模板的理解能力尚不如ChatGPT,因此需要根据具体的应用场景,调试出最佳的指令模板,样例如下:
现在你要进行一个篇章级事件抽取任务:请从给定的文章中,提取出若干个重要的篇章级事件,每个事件包括6个要素:事件名称、事件类别、事件时间、事件地点、事件主体和事件客体,其中事件名称不少于10个字,不超过30字。你只可以根据文章中的信息使用中文回答,不可以在要素中添加编造的内容。如果要素在文章中没有被明确提及,请回答“未提及”。最后请以json的格式输出。文章为:标题:...。正文:...。
S150,调试所述目标大语言模型对应的输出指令,获取最佳输出指令和调试后的目标大语言模型;
对于同一篇章事件测试集,基于传统的抽取式模型进行篇章事件抽取,F1值为45.9%,同时模型不具备领域迁移能力;采用开源的语言大模型进行篇章事件抽取,F1值为57.7%,并且通常不遵循输入指令,输入格式不稳定;利用本发明提出的基于语言大模型和迁移学习的篇章事件抽取技术,F1值为78.5%,并且具有较好的泛化性和领域迁移能力。
S160,将待测篇章输入到所述调试后的目标大语言模型中,得到抽取事件。
最后将待测篇章输入到调试后的目标大语言模型中,得到抽取事件。
本发明提出的一种篇章事件抽取方法,通过设计理论通用论元指令模板和理论精细论元指令模板两类指令模板,基于ChatGPT获取新闻素材样本标注数据,得到实际通用论元指令和实际精细论元指令;再结合下游任务的使用场景,基于实际通用论元指令和实际精细论元指令构建了高质量的篇章指令集;最后基于Lora精调技术形成了目标大语言模型。
相比于传统的抽取式事件模型,本发明构造的篇章事件大语言模型有效地优化了其归纳总结能力差、事件过于冗余、泛化能力差、领域适应性差以及多步误差带来的整体准确率低等问题。
相比于开源的大语言模型,本发明构造的篇章事件大语言模型有效地优化了其输出格式不稳定、事件名称及事件论元中存在胡编乱造的成分以及模型不遵循输入指令等问题。
图2为本发明实施例提供的一种篇章事件抽取系统的结构示意图,如图2所示,该系统包括清洗模块210、指令模块220、扩展模块230、精调模块240、调试模块250和抽取模块260,其中:
清洗模块,用于从开源新闻和预设新闻数据库中选取新闻素材样本,并对所述新闻素材样本进行清洗;
指令模块,用于分别设计理论通用论元指令模板和理论精细论元指令模板,以所述理论通用论元指令模板和所述理论精细论元指令模板为基础,将所述新闻素材样本输入ChatGPT中,得到所述新闻素材样本对应的实际通用论元指令和所述新闻素材样本对应的实际精细论元指令;
扩展模块,用于基于所述实际通用论元指令和所述实际精细论元指令,进行扩展,得到所述新闻素材样本对应的负样本指令和热点推送指令,所述实际通用论元指令、所述实际精细论元指令、所述负样本指令和所述热点推送指令组成篇章指令集;
精调模块,用于基于所述新闻素材样本、所述实际通用论元指令、所述实际精细论元指令、所述负样本指令和所述热点推送指令,结合训练后的LoRA神经网络,对开源大语言模型进行指令精调,得到目标大语言模型;
调试模块,用于调试所述目标大语言模型对应的输出指令,获取最佳输出指令和调试后的目标大语言模型;
抽取模块,用于将待测篇章输入到所述调试后的目标大语言模型中,得到抽取事件。
本实施例为与上述方法实施例相对应的系统实施例,其具体实施过程与上述方法实施例相同,详情请参考上述方法实施例,本系统实施例在此不再赘述。
上述篇章事件抽取系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图3为本发明实施例提供的一种计算机设备的结构示意图,该计算机设备可以是服务器,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机存储介质、内存储器。该计算机存储介质存储有操作系统、计算机程序和数据库。该内存储器为计算机存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行篇章事件抽取方法过程中生成或获取的数据,如新闻素材样本。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种篇章事件抽取方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中的篇章事件抽取方法的步骤。或者,处理器执行计算机程序时实现篇章事件抽取系统这一实施例中的各模块/单元的功能。
在一实施例中,提供一计算机存储介质,该计算机存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中篇章事件抽取方法的步骤。或者,该计算机程序被处理器执行时实现上述篇章事件抽取系统这一实施例中的各模块/单元的功能。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (9)
1.一种篇章事件抽取方法,其特征在于,包括:
从开源新闻和预设新闻数据库中选取新闻素材样本,并对所述新闻素材样本进行清洗;
分别设计理论通用论元指令模板和理论精细论元指令模板,以所述理论通用论元指令模板和所述理论精细论元指令模板为基础,将所述新闻素材样本输入ChatGPT中,得到所述新闻素材样本对应的实际通用论元指令和所述新闻素材样本对应的实际精细论元指令;
基于所述实际通用论元指令和所述实际精细论元指令,进行扩展,得到所述新闻素材样本对应的负样本指令和热点推送指令,所述实际通用论元指令、所述实际精细论元指令、所述负样本指令和所述热点推送指令组成篇章指令集;
基于所述新闻素材样本、所述实际通用论元指令、所述实际精细论元指令、所述负样本指令和所述热点推送指令,结合训练后的LoRA神经网络,对开源大语言模型进行指令精调,得到目标大语言模型;
调试所述目标大语言模型对应的输出指令,获取最佳输出指令和调试后的目标大语言模型;
将待测篇章输入到所述调试后的目标大语言模型中,得到抽取事件。
2.根据权利要求1所述的篇章事件抽取方法,其特征在于,所述基于所述新闻素材样本、所述实际通用论元指令、所述实际精细论元指令、所述负样本指令和所述热点推送指令,结合训练后的LoRA神经网络,对开源大语言模型进行指令精调,得到目标大语言模型,包括:
基于所述新闻素材样本、所述实际通用论元指令、所述实际精细论元指令、所述负样本指令和所述热点推送指令,对LoRA神经网络进行训练,得到训练后的LoRA神经网络;
将训练后的LoRA神经网络的权重参数迁移到所述开源大语言模型中;
训练所述开源大预言模型中未被迁移的权重参数,得到训练后的LoRA神经网络。
3.根据权利要求2所述的篇章事件抽取方法,其特征在于,所述训练所述开源大预言模型中未被迁移的权重参数,得到训练后的LoRA神经网络,计算公式如下:
W=W0+ΔW=W0+HK,
其中,W表示所述训练后的LoRA神经网络的权重参数,W0表示所述开源大语言模型中由训练后的LoRA神经网络迁移过来的权重参数,ΔW表示所述开源大预言模型中未被迁移的权重参数,H表示升维矩阵,K表示降维矩阵。
4.根据权利要求1所述的篇章事件抽取方法,其特征在于,所述对所述新闻素材样本进行清洗,包括:
删除字数小于300或者大于1000字的新闻素材样本;
对新闻素材样本进行数据源分类,从军事、政治、外交、安全、经济、科技、娱乐类别中各选取预设数量;
通过正则表达式过滤新闻素材样本中的表情符号、无效网址、前端代码。
5.根据权利要求1所述的篇章事件抽取方法,其特征在于,所述理论通用论元指令模板,具体如下:
[事件名称,事件类别,事件时间,事件地点,事件主体,事件客体]。
6.根据权利要求1所述的篇章事件抽取方法,其特征在于,所述理论精细论元指令模板,具体如下:
[事件名称,事件类别,精细论元1,…,精细论元N],N为正整数。
7.一种篇章事件抽取系统,其特征在于,包括:
清洗模块,用于从开源新闻和预设新闻数据库中选取新闻素材样本,并对所述新闻素材样本进行清洗;
指令模块,用于分别设计理论通用论元指令模板和理论精细论元指令模板,以所述理论通用论元指令模板和所述理论精细论元指令模板为基础,将所述新闻素材样本输入ChatGPT中,得到所述新闻素材样本对应的实际通用论元指令和所述新闻素材样本对应的实际精细论元指令;
扩展模块,用于基于所述实际通用论元指令和所述实际精细论元指令,进行扩展,得到所述新闻素材样本对应的负样本指令和热点推送指令,所述实际通用论元指令、所述实际精细论元指令、所述负样本指令和所述热点推送指令组成篇章指令集;
精调模块,用于基于所述新闻素材样本、所述实际通用论元指令、所述实际精细论元指令、所述负样本指令和所述热点推送指令,结合训练后的LoRA神经网络,对开源大语言模型进行指令精调,得到目标大语言模型;
调试模块,用于调试所述目标大语言模型对应的输出指令,获取最佳输出指令和调试后的目标大语言模型;
抽取模块,用于将待测篇章输入到所述调试后的目标大语言模型中,得到抽取事件。
8.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述篇章事件抽取方法的步骤。
9.一种计算机存储介质,所述计算机存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述篇章事件抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311470833.XA CN117648397A (zh) | 2023-11-07 | 2023-11-07 | 篇章事件抽取方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311470833.XA CN117648397A (zh) | 2023-11-07 | 2023-11-07 | 篇章事件抽取方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117648397A true CN117648397A (zh) | 2024-03-05 |
Family
ID=90045706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311470833.XA Pending CN117648397A (zh) | 2023-11-07 | 2023-11-07 | 篇章事件抽取方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117648397A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400431A (zh) * | 2020-03-20 | 2020-07-10 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
CN115455939A (zh) * | 2022-09-21 | 2022-12-09 | 合肥讯飞数码科技有限公司 | 篇章级事件抽取方法、装置、设备及存储介质 |
CN115510212A (zh) * | 2022-10-14 | 2022-12-23 | 达而观数据(成都)有限公司 | 一种文本事件抽取方法、装置、设备及存储介质 |
CN115587591A (zh) * | 2022-10-31 | 2023-01-10 | 电子科技大学 | 一种基于mrc的事件抽取方法 |
WO2023035330A1 (zh) * | 2021-09-13 | 2023-03-16 | 深圳前海环融联易信息科技服务有限公司 | 一种长文本事件抽取方法、装置、计算机设备及存储介质 |
CN115952791A (zh) * | 2022-12-24 | 2023-04-11 | 中国科学院新疆理化技术研究所 | 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质 |
CN116450827A (zh) * | 2023-04-13 | 2023-07-18 | 中国科学院软件研究所 | 一种基于大规模语言模型的事件模板归纳方法和系统 |
CN116682524A (zh) * | 2023-07-17 | 2023-09-01 | 北京惠每云科技有限公司 | 病历质控方法、装置、电子设备及存储介质 |
CN116822651A (zh) * | 2023-06-30 | 2023-09-29 | 平安科技(深圳)有限公司 | 基于增量学习的大模型参数微调方法、装置、设备及介质 |
CN116975241A (zh) * | 2023-09-20 | 2023-10-31 | 广东技术师范大学 | 基于大语言模型的肝癌辅助诊断与问答方法、系统及介质 |
-
2023
- 2023-11-07 CN CN202311470833.XA patent/CN117648397A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400431A (zh) * | 2020-03-20 | 2020-07-10 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
WO2023035330A1 (zh) * | 2021-09-13 | 2023-03-16 | 深圳前海环融联易信息科技服务有限公司 | 一种长文本事件抽取方法、装置、计算机设备及存储介质 |
CN115455939A (zh) * | 2022-09-21 | 2022-12-09 | 合肥讯飞数码科技有限公司 | 篇章级事件抽取方法、装置、设备及存储介质 |
CN115510212A (zh) * | 2022-10-14 | 2022-12-23 | 达而观数据(成都)有限公司 | 一种文本事件抽取方法、装置、设备及存储介质 |
CN115587591A (zh) * | 2022-10-31 | 2023-01-10 | 电子科技大学 | 一种基于mrc的事件抽取方法 |
CN115952791A (zh) * | 2022-12-24 | 2023-04-11 | 中国科学院新疆理化技术研究所 | 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质 |
CN116450827A (zh) * | 2023-04-13 | 2023-07-18 | 中国科学院软件研究所 | 一种基于大规模语言模型的事件模板归纳方法和系统 |
CN116822651A (zh) * | 2023-06-30 | 2023-09-29 | 平安科技(深圳)有限公司 | 基于增量学习的大模型参数微调方法、装置、设备及介质 |
CN116682524A (zh) * | 2023-07-17 | 2023-09-01 | 北京惠每云科技有限公司 | 病历质控方法、装置、电子设备及存储介质 |
CN116975241A (zh) * | 2023-09-20 | 2023-10-31 | 广东技术师范大学 | 基于大语言模型的肝癌辅助诊断与问答方法、系统及介质 |
Non-Patent Citations (2)
Title |
---|
Z. ZINONOS, S. GKELIOS, A. F. KHALIFEH, D. G. HADJIMITSIS, Y. S. BOUTALIS AND S. A. CHATZICHRISTOFIS: "Grape Leaf Diseases Identification System Using Convolutional Neural Networks and LoRa Technology", IEEE ACCESS, vol. 10, 23 December 2021 (2021-12-23) * |
柯沛, 雷文强, 黄民烈: "以ChatGPT为代表的大型语言模型研究进展", 中国科学基金, vol. 37, no. 5, 25 September 2023 (2023-09-25) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jenset et al. | Quantitative historical linguistics: A corpus framework | |
Carley et al. | Toward an interoperable dynamic network analysis toolkit | |
Widdows | Semantic vector products: Some initial investigations | |
Qin et al. | DuerQuiz: A personalized question recommender system for intelligent job interview | |
EP2601573A1 (en) | Method and system for integrating web-based systems with local document processing applications | |
Peters | Design and implementation of a chatbot in the context of customer support | |
Paydar et al. | A semi-automated approach to adapt activity diagrams for new use cases | |
Bao et al. | Text generation from tables | |
Wu et al. | PaintKG: the painting knowledge graph using bilstm-crf | |
Annervaz et al. | Natural language requirements quality analysis based on business domain models | |
Alves et al. | UNER: Universal Named-Entity RecognitionFramework | |
Mushtaq et al. | Educational data classification framework for community pedagogical content management using data mining | |
Balali et al. | A supervised approach to predict the hierarchical structure of conversation threads for comments | |
CN117648397A (zh) | 篇章事件抽取方法、系统、设备及存储介质 | |
Lupea et al. | Formal concept analysis of a Romanian emotion lexicon | |
Kasegn et al. | Spatial locality based identifier name recommendation | |
Hailemichael et al. | Fake news detection for amharic language using deep learning | |
Gudmundsson et al. | Swedish Natural Language Processing with Long Short-term Memory Neural Networks: A Machine Learning-powered Grammar and Spell-checker for the Swedish Language | |
Wang et al. | Recognizing sentiment of relations between entities in text | |
CN116385600B (zh) | 遥感图像目标特性的分布式表征方法、系统及电子设备 | |
Stavarache et al. | BlogCrawl: Customized crawling of online communities | |
Raunola | Creation of a Finnish social media analyser | |
Risch | Reader comment analysis on online news platforms | |
Swati et al. | A Commonsense-Infused Language-Agnostic Learning Framework for Enhancing Prediction of Political Polarity in Multilingual News Headlines | |
Cui et al. | An intelligent q&a system based on the lda topic model for the teaching of database principles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |