CN114880431A - 一种基于prompt的事件论元抽取方法及系统 - Google Patents

一种基于prompt的事件论元抽取方法及系统 Download PDF

Info

Publication number
CN114880431A
CN114880431A CN202210505997.0A CN202210505997A CN114880431A CN 114880431 A CN114880431 A CN 114880431A CN 202210505997 A CN202210505997 A CN 202210505997A CN 114880431 A CN114880431 A CN 114880431A
Authority
CN
China
Prior art keywords
argument
event
entity
span
original text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210505997.0A
Other languages
English (en)
Inventor
李海莉
周云彦
董深泼
涂宏魁
王晓东
李东升
陈飞
常韬
蔡蕾
白皓
徐秋波
李敏裕
贾腾飞
李林燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202210505997.0A priority Critical patent/CN114880431A/zh
Publication of CN114880431A publication Critical patent/CN114880431A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于prompt的事件论元抽取方法及系统,方法包括:将原始文本输入到预先通过训练的实体识别模型中,识别得到原始文本中的所有实体以及实体在原始文本中开始的位置和结束的位置span;将原始文本输入到预先通过Prompts训练的事件论元抽取模型中,识别得到原始文本中的每个实体所属的论元角色类型;基于原始文本中的每个实体所属的论元角色类型,对论元角色的论元span进行校正。本发明在事件论元抽取时,生成的提示能够同时记录触发词信息、事件类型信息、事件多种论元信息、事件多种论元角色信息,进而满足了事件论元多种角色的准确识别需求。

Description

一种基于prompt的事件论元抽取方法及系统
技术领域
本发明涉及事件论元抽取技术领域,尤其涉及一种基于prompt的事件论元抽取方法及系统。
背景技术
随着互联网及大量应用的飞速发展,产生了海量非结构化文本数据。如果能把这些散乱的、形式各异的文档信息抽取出来并存储为标准化的结构形式,意义将是十分显著的。对军事、商业、医疗等领域的应用而言,从相应领域的海量信息中获取有用信息,有助于用户从历史事件的演化过程学习到类似事件的发展态势,帮助用户及时采取相应的措施。人力搜索是信息收集传统采用的方式,比如通过专业团队查阅大量的多模态数据,通过信息的搜集和整理获取某一事件的发展脉络。但是,在信息爆炸的年代,如何准确、实时感知目标事件的发展态势,以辅助紧急事件进行推理决策,是事件抽取亟待解决的问题。
事件抽取是一种可从非结构化信息中抽取用户感兴趣的信息,并以结构化形式呈现出来的信息抽取技术,它能帮助用户及时了解什么人(物)、因为什么原因、采用什么方式、在什么时间、在什么地点、做了什么事等信息,使得用户根据类似事件发展脉络预测后续可能发生的事件及其可能产生的影响,并据此采取相应的措施。事件抽取需要从文本中抽取触发词和对应的论元并完成事件触发词检测、事件触发词分类和事件论元识别、事件论元角色分类等四个任务。事件触发词检测是检测出文本中触发事件发生的词语,事件类型分类是判断当前触发词触发的事件所属哪个事件类型,事件论元识别是识别出文本中的词语(实体、值、时间等)是否参与到事件的发生中,事件论元角色分类是判断事件论元在事件中充当的具体角色(时间、地点、攻击者、被攻击者等)。然而,大多数事件抽取方法将事件抽取视为两个阶段的问题,包括事件检测和事件论元抽取,事件检测包括事件触发词检测和事件触发词分类,事件论元抽取包括事件论元识别和事件论元角色分类。现在的事件抽取技术多集中研究事件检测任务而对事件论元抽取任务的研究较少。因为事件类型只是对于发生事件的一个笼统的表述,不能完整体现事情发生的全貌,必须由事件论元的补充来完善事件类型的语义,由此可知事件论元抽取在事件抽取中的重要性。
现有的基于prompt(提示)的事件论元抽取方法,无法同时满足事件论元抽取的高效性和准确性需求。
发明内容
有鉴于此,本发明提供了一种基于prompt的事件论元抽取方法及系统,生成的提示能够同时记录触发词信息、事件类型信息、事件多种论元信息、事件多种论元角色信息,进而满足了事件论元多种角色的准确识别需求。
本发明提供了一种基于prompt的事件论元抽取方法,包括:
将原始文本输入到预先通过训练的实体识别模型中,识别得到所述原始文本中的所有实体以及实体在所述原始文本中开始的位置和结束的位置span;
将所述原始文本输入到预先通过Prompts训练的事件论元抽取模型中,识别得到所述原始文本中的每个实体所属的论元角色类型;
基于所述原始文本中的每个实体所属的论元角色类型,对论元角色的论元span进行校正。
优选地,将原始文本输入到预先通过训练的实体识别模型中,识别得到所述原始文本中的所有实体以及实体在所述原始文本中开始的位置和结束的位置span,包括:
将长度为n的原始文本X={x1,x2,...,xn}输入到预先通过训练的实体识别模型的BERT中,获取输入序列中每个token的词向量W={w1,w2,...,wn};
将所述词向量W={w1,w2,...,wn}输入到预先通过训练的实体识别模型的前馈神经网络层中,利用pi=FFN(wi)计算每个词向量属于不同实体类别标签的概率向量P={p1,p2,...,pn};
将所述概率向量P={p1,p2,...,pn}输入到预先通过训练的实体识别模型的条件随机场,根据得分公式
Figure BDA0003636928620000031
计算输入序列映射到所有可能输出实体标签序列的得分,再通过最大化公式
Figure BDA0003636928620000032
得到输入序列的最优标签序列Y’,其中,yi,ti分别表示xi映射到标签ti的非标准化概率,
Figure BDA0003636928620000033
表示从ti转移到ti+1的转移得分,其中A的权重在CRF训练过程中获得并得到更新,T是所有可能标记路径的集合;
结合所述最优标签序列Y’和所述原始文本的输入序列X,得到输入序列中存在的实体以及实体span信息。
优选地,所述将所述原始文本输入到预先通过Prompts训练的事件论元抽取模型中,识别得到所述原始文本中的每个实体所属的论元角色类型,包括:
将长度为n的所述原始文本和所述原始文本中所含的触发词以及触发词触发的事件类型、该事件类型涉及的k个时间论元角色种类拼接起来作为输入数据I=[{arguementrole1,arguement role2,...,arguement rolek},{trigger,event-subevent},{x1,x2,...,xn}];
将所述输入数据I输入到预先通过Prompts训练的事件论元抽取模型中,得到所有实体带有触发词信息、事件类型信息、论元角色类别信息的词向量W’={w’1,w’2,...,w’n};
将所述词向量W’输入到角色类型标记器中计算得到原始文本中的事件论元角色序列向量矩阵Mk×n
优选地,所述基于所述原始文本中的每个实体所属的论元角色类型,对论元角色的论元span进行校正,包括:
根据所述原始文本中的事件论元角色序列向量矩阵Mk×n中的数值,判断哪个span范围的token是事件论元;
将判断得到的事件论元span1与实体span2信息进行比较;
若事件论元span1与对应实体span2相同,则事件论元span即为span1
若事件论元span1与对应实体span2不相同,且span1的范围在span2内部,则事件论元span即为span2
若事件论元span1对应的token不是实体,则该事件论元判断错误。
优选地,预先训练实体识别模型包括:
将长度为n的原始文本X={x1,x2,...,xn}输入到实体识别模型的BERT中,获取输入序列中每个token的词向量W={w1,w2,...,wn};
将所述词向量W={w1,w2,...,wn}输入到实体识别模型的前馈神经网络层中,利用pi=FFN(wi)计算每个词向量属于不同实体类别标签的概率向量P={p1,p2,...,pn};
将所述概率向量P={p1,p2,...,pn}输入到实体识别模型的条件随机场,根据得分公式
Figure BDA0003636928620000041
计算输入序列映射到所有可能输出实体标签序列的得分,再通过最大化公式
Figure BDA0003636928620000042
得到输入序列的最优标签序列Y’,其中,yi,ti分别表示xi映射到标签ti的非标准化概率,
Figure BDA0003636928620000043
表示从ti转移到ti+1的转移得分,其中A的权重在CRF训练过程中获得并得到更新,T是所有可能标记路径的集合;
判断最优标签序列Y’与真实实体序列Y是否一致,若不一致则重复上述过程,直至最优标签序列Y’与真实实体序列Y一致时完成实体识别模型训练。
优选地,预先通过Prompts训练事件论元抽取模型,包括:
将长度为n的所述原始文本和所述原始文本中所含的触发词以及触发词触发的事件类型、该事件类型涉及的k个时间论元角色种类拼接起来作为输入数据I=[{arguementrole1,arguement role2,...,arguement rolek},{trigger,event-subevent},{x1,x2,...,xn}];
初始化Prompts参数;
将所述输入数据I输入到事件论元抽取模型中,得到所有实体带有触发词信息、事件类型信息、论元角色类别信息的词向量W’={w’1,w’2,...,w’n};
将所述词向量W’输入到角色类型标记器中计算得到向量矩阵Mk×n’,判断所述向量矩阵Mk×n’与原始文本中的事件论元角色序列向量矩阵Mk×n是否一致,若不一致则重复上述过程,直至计算得到的Mk×n’与Mk×n一致时完成事件论元抽取模型训练。
一种基于prompt的事件论元抽取系统,包括:
实体识别模块,用于将原始文本输入到预先通过训练的实体识别模型中,识别得到所述原始文本中的所有实体以及实体在所述原始文本中开始的位置和结束的位置span;
实体角色分类模块,用于将所述原始文本输入到预先通过Prompts训练的事件论元抽取模型中,识别得到所述原始文本中的每个实体所属的论元角色类型;
论元角色决策模块,用于基于所述原始文本中的每个实体所属的论元角色类型,对论元角色的论元span进行校正。
优选地,所述实体识别模块具体用于:
将长度为n的原始文本X={x1,x2,...,xn}输入到预先通过训练的实体识别模型的BERT中,获取输入序列中每个token的词向量W={w1,w2,...,wn};
将所述词向量W={w1,w2,...,wn}输入到预先通过训练的实体识别模型的前馈神经网络层中,利用pi=FFN(wi)计算每个词向量属于不同实体类别标签的概率向量P={p1,p2,...,pn};
将所述概率向量P={p1,p2,...,pn}输入到预先通过训练的实体识别模型的条件随机场,根据得分公式
Figure BDA0003636928620000061
计算输入序列映射到所有可能输出实体标签序列的得分,再通过最大化公式
Figure BDA0003636928620000062
得到输入序列的最优标签序列Y’,其中,yi,ti分别表示xi映射到标签ti的非标准化概率,
Figure BDA0003636928620000063
表示从ti转移到ti+1的转移得分,其中A的权重在CRF训练过程中获得并得到更新,T是所有可能标记路径的集合;
结合所述最优标签序列Y’和所述原始文本的输入序列X,得到输入序列中存在的实体以及实体span信息。
优选地,所述实体角色分类模块具体用于:
将长度为n的所述原始文本和所述原始文本中所含的触发词以及触发词触发的事件类型、该事件类型涉及的k个时间论元角色种类拼接起来作为输入数据I=[{arguementrole1,arguement role2,...,arguement rolek},{trigger,event-subevent},{x1,x2,...,xn}];
将所述输入数据I输入到预先通过Prompts训练的事件论元抽取模型中,得到所有实体带有触发词信息、事件类型信息、论元角色类别信息的词向量W’={w’1,w’2,...,w’n};
将所述词向量W’输入到角色类型标记器中计算得到原始文本中的事件论元角色序列向量矩阵Mk×n
优选地,所述论元角色决策模块具体用于:
根据所述原始文本中的事件论元角色序列向量矩阵Mk×n中的数值,判断哪个span范围的token是事件论元;
将判断得到的事件论元span1与实体span2信息进行比较;
若事件论元span1与对应实体span2相同,则事件论元span即为span1
若事件论元span1与对应实体span2不相同,且span1的范围在span2内部,则事件论元span即为span2
若事件论元span1对应的token不是实体,则该事件论元判断错误。
优选地,所述系统还包括实体识别模型训练模块,具体用于:
将长度为n的原始文本X={x1,x2,...,xn}输入到实体识别模型的BERT中,获取输入序列中每个token的词向量W={w1,w2,...,wn};
将所述词向量W={w1,w2,...,wn}输入到实体识别模型的前馈神经网络层中,利用pi=FFN(wi)计算每个词向量属于不同实体类别标签的概率向量P={p1,p2,...,pn};
将所述概率向量P={p1,p2,...,pn}输入到实体识别模型的条件随机场,根据得分公式
Figure BDA0003636928620000071
计算输入序列映射到所有可能输出实体标签序列的得分,再通过最大化公式
Figure BDA0003636928620000072
得到输入序列的最优标签序列Y’,其中,yi,ti分别表示xi映射到标签ti的非标准化概率,
Figure BDA0003636928620000073
表示从ti转移到ti+1的转移得分,其中A的权重在CRF训练过程中获得并得到更新,T是所有可能标记路径的集合;
判断最优标签序列Y’与真实实体序列Y是否一致,若不一致则重复上述过程,直至最优标签序列Y’与真实实体序列Y一致时完成实体识别模型训练。
优选地,所述系统还包括事件论元抽取模型训练模块,具体用于:
将长度为n的所述原始文本和所述原始文本中所含的触发词以及触发词触发的事件类型、该事件类型涉及的k个时间论元角色种类拼接起来作为输入数据I=[{arguementrole1,arguement role2,...,arguement rolek},{trigger,event-subevent},{x1,x2,...,xn}];
初始化Prompts参数;
将所述输入数据I输入到事件论元抽取模型中,得到所有实体带有触发词信息、事件类型信息、论元角色类别信息的词向量W’={w’1,w’2,...,w’n};
将所述词向量W’输入到角色类型标记器中计算得到向量矩阵Mk×n’,判断所述向量矩阵Mk×n’与原始文本中的事件论元角色序列向量矩阵Mk×n是否一致,若不一致则重复上述过程,直至计算得到的Mk×n’与Mk×n一致时完成事件论元抽取模型训练。
综上所述,本发明公开了一种基于prompt的事件论元抽取方法,首先将原始文本输入到预先通过训练的实体识别模型中,识别得到原始文本中的所有实体以及实体在原始文本中开始的位置和结束的位置span;然后将原始文本输入到预先通过Prompts训练的事件论元抽取模型中,识别得到原始文本中的每个实体所属的论元角色类型;基于原始文本中的每个实体所属的论元角色类型,对论元角色的论元span进行校正。本发明在事件论元抽取时,生成的提示能够同时记录触发词信息、事件类型信息、事件多种论元信息、事件多种论元角色信息,进而满足了事件论元多种角色的准确识别需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明公开的一种基于prompt的事件论元抽取方法实施例的流程图;
图2为本发明公开的实体识别模型的示意图;
图3为本发明公开的事件论元抽取模型的示意图;
图4为本发明公开的一种基于prompt的事件论元抽取系统实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
当需要基于prompt对事件论元进行抽取时,可预先对模型进行训练,其中,模型训练阶段包括对实体识别模型的训练和通过Prompts对事件论元抽取模型进行训练。
其中,实体识别模型训练是将原始文本X={x1,x2,...,xn}输入到实体识别模型中,并将原始文本的真实实体序列Y作为标签,对实体识别模型进行训练,使得训练后的实体识别模型最终能输出与Y完全相同的结果,其中,实体识别模型的示意图如图2所示。
具体的,在对实体识别模型训练时可以包括以下步骤:
步骤1、将长度为n的原始文本X={x1,x2,...,xn}输入到实体识别模型的BERT(Bidirectional Encoder Representation from Transformers)中,获取输入序列中每个token(标记)的词向量W={w1,w2,...,wn};
步骤2、将词向量W={w1,w2,...,wn}输入到实体识别模型的前馈神经网络(Feed-forward Network,FFN)层中,利用pi=FFN(wi)计算每个词向量属于不同实体类别标签的概率向量P={p1,p2,...,pn};
步骤3、将概率向量P={p1,p2,...,pn}输入到实体识别模型的条件随机场(Conditional Random Field,CRF),根据得分公式
Figure BDA0003636928620000101
计算输入序列映射到所有可能输出实体标签序列的得分,再通过最大化公式
Figure BDA0003636928620000102
得到输入序列的最优标签序列Y’,其中,yi,ti分别表示xi映射到标签ti的非标准化概率,
Figure BDA0003636928620000103
表示从ti转移到ti+1的转移得分,其中A的权重在CRF训练过程中获得并得到更新,T是所有可能标记路径的集合;
步骤4、判断最优标签序列Y’与真实实体序列Y是否一致,若不一致则重复上述过程,直至最优标签序列Y’与真实实体序列Y一致时完成实体识别模型训练。
其中,事件论元抽取模型的prompt训练阶段是通过将预处理过的文本输入到事件论元抽取模型中,并将原始文本中的事件论元角色序列向量矩阵Mk×n作为标签,对模型进行训练,使得训练过程中生成的prompts包含有与指定触发词和事件类型相关的事件论元和事件论元角色等信息,并最终能输出与Mk×n完全相同的结果。
具体的,事件论元抽取模型的prompt训练阶段包括以下步骤:
步骤1、将长度为n的原始文本和原始文本中所含的触发词以及触发词触发的事件类型、该事件类型涉及的k个时间论元角色种类拼接起来作为输入数据I=[{arguementrole1,arguement role2,...,arguement rolek},{trigger,event-subevent},{x1,x2,...,xn}];
步骤2、初始化Prompts参数;
步骤3、将输入数据I输入到事件论元抽取模型中,得到所有实体带有触发词信息、事件类型信息、论元角色类别信息的词向量W’={w’1,w’2,...,w’n};
步骤4、将词向量W’输入到角色类型标记器中计算得到向量矩阵Mk×n’,判断向量矩阵Mk×n’与原始文本中的事件论元角色序列向量矩阵Mk×n是否一致,若不一致则重复上述过程,直至计算得到的Mk×n’与Mk×n一致时完成事件论元抽取模型训练。
在对实体识别模型的训练和通过Prompts对事件论元抽取模型进行训练完成后,可基于通过训练的实体识别模型和通过Prompts训练的事件论元抽取模型对事件论元进行抽取。
如图1所示,为本发明实施例公开的一种基于prompt的事件论元抽取方法的流程图,所述方法可以包括以下步骤:
S101、将原始文本输入到预先通过训练的实体识别模型中,识别得到原始文本中的所有实体以及实体在原始文本中开始的位置和结束的位置span;
实体识别阶段是识别输入文本X={x1,x2,...,xn}中的所有实体及其span,span指的是实体在文本中开始的位置和结束的位置。具体包括以下步骤:
步骤1、将长度为n的原始文本X={x1,x2,...,xn}输入到预先通过训练的实体识别模型的BERT中,获取输入序列中每个token的词向量W={w1,w2,...,wn};
步骤2、将词向量W={w1,w2,...,wn}输入到预先通过训练的实体识别模型的前馈神经网络层中,利用pi=FFN(wi)计算每个词向量属于不同实体类别标签的概率向量P={p1,p2,...,pn};
步骤3、将概率向量P={p1,p2,...,pn}输入到预先通过训练的实体识别模型的条件随机场,根据得分公式
Figure BDA0003636928620000111
计算输入序列映射到所有可能输出实体标签序列的得分,再通过最大化公式
Figure BDA0003636928620000112
得到输入序列的最优标签序列Y’,其中,yi,ti分别表示xi映射到标签ti的非标准化概率,
Figure BDA0003636928620000121
表示从ti转移到ti+1的转移得分,其中A的权重在CRF训练过程中获得并得到更新,T是所有可能标记路径的集合;
步骤4、结合最优标签序列Y’和原始文本的输入序列X,得到输入序列中存在的实体以及实体span信息。
S102、将原始文本输入到预先通过Prompts训练的事件论元抽取模型中,识别得到原始文本中的每个实体所属的论元角色类型;
实体角色分类是识别输入文本X={x1,x2,...,xn}中的每个实体所属的论元角色类型。具体包括以下步骤:
步骤1、将长度为n的原始文本和原始文本中所含的触发词以及触发词触发的事件类型、该事件类型涉及的k个时间论元角色种类拼接起来作为输入数据I=[{arguementrole1,arguement role2,...,arguement rolek},{trigger,event-subevent},{x1,x2,...,xn}];
步骤2、将输入数据I输入到预先通过Prompts训练的事件论元抽取模型中,得到所有实体带有触发词信息、事件类型信息、论元角色类别信息的词向量W’={w’1,w’2,...,w’n};
步骤3、将词向量W’输入到角色类型标记器中计算得到一个真实向量矩阵Mk×n
S103、基于原始文本中的每个实体所属的论元角色类型,对论元角色的论元span进行校正。
论元角色决策阶段是对实体角色分类阶段得到的论元角色的论元span进行校正。具体包括:
根据真实向量矩阵Mk×n中的数值,判断哪个span范围的token是事件论元;将判断得到的事件论元span1与实体span2信息进行比较;若事件论元span1与对应实体span2相同,则事件论元span即为span1;若事件论元span1与对应实体span2不相同,且span1的范围在span2内部,则事件论元span即为span2;若事件论元span1对应的token不是实体,则该事件论元判断错误。
如图4所示,为本发明实施例公开的一种基于prompt的事件论元抽取系统的结构示意图,所述系统可以包括:
实体识别模块401,用于将原始文本输入到预先通过训练的实体识别模型中,识别得到原始文本中的所有实体以及实体在原始文本中开始的位置和结束的位置span;
实体识别阶段是识别输入文本X={x1,x2,...,xn}中的所有实体及其span,span指的是实体在文本中开始的位置和结束的位置。具体包括以下步骤:
步骤1、将长度为n的原始文本X={x1,x2,...,xn}输入到预先通过训练的实体识别模型的BERT中,获取输入序列中每个token的词向量W={w1,w2,...,wn};
步骤2、将词向量W={w1,w2,...,wn}输入到预先通过训练的实体识别模型的前馈神经网络层中,利用pi=FFN(wi)计算每个词向量属于不同实体类别标签的概率向量P={p1,p2,...,pn};
步骤3、将概率向量P={p1,p2,...,pn}输入到预先通过训练的实体识别模型的条件随机场,根据得分公式
Figure BDA0003636928620000131
计算输入序列映射到所有可能输出实体标签序列的得分,再通过最大化公式
Figure BDA0003636928620000132
得到输入序列的最优标签序列Y’,其中,yi,ti分别表示xi映射到标签ti的非标准化概率,
Figure BDA0003636928620000133
表示从ti转移到ti+1的转移得分,其中A的权重在CRF训练过程中获得并得到更新,T是所有可能标记路径的集合;
步骤4、结合最优标签序列Y’和原始文本的输入序列X,得到输入序列中存在的实体以及实体span信息。
实体角色分类模块402,用于将原始文本输入到预先通过Prompts训练的事件论元抽取模型中,识别得到原始文本中的每个实体所属的论元角色类型;
实体角色分类是识别输入文本X={x1,x2,...,xn}中的每个实体所属的论元角色类型。具体包括以下步骤:
步骤1、将长度为n的原始文本和原始文本中所含的触发词以及触发词触发的事件类型、该事件类型涉及的k个时间论元角色种类拼接起来作为输入数据I=[{arguementrole1,arguement role2,...,arguement rolek},{trigger,event-subevent},{x1,x2,...,xn}];
步骤2、将输入数据I输入到预先通过Prompts训练的事件论元抽取模型中,得到所有实体带有触发词信息、事件类型信息、论元角色类别信息的词向量W’={w’1,w’2,...,w’n};
步骤3、将词向量W’输入到角色类型标记器中计算得到一个真实向量矩阵Mk×n
论元角色决策模块403,用于基于原始文本中的每个实体所属的论元角色类型,对论元角色的论元span进行校正。
论元角色决策阶段是对实体角色分类阶段得到的论元角色的论元span进行校正。具体包括:
根据真实向量矩阵Mk×n中的数值,判断哪个span范围的token是事件论元;将判断得到的事件论元span1与实体span2信息进行比较;若事件论元span1与对应实体span2相同,则事件论元span即为span1;若事件论元span1与对应实体span2不相同,且span1的范围在span2内部,则事件论元span即为span2;若事件论元span1对应的token不是实体,则该事件论元判断错误。
综上所述,本发明在事件论元抽取时,生成的提示能够同时记录触发词信息、事件类型信息、事件多种论元信息、事件多种论元角色信息,进而满足了事件论元多种角色的准确识别需求。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (12)

1.一种基于prompt的事件论元抽取方法,其特征在于,包括:
将原始文本输入到预先通过训练的实体识别模型中,识别得到所述原始文本中的所有实体以及实体在所述原始文本中开始的位置和结束的位置span;
将所述原始文本输入到预先通过Prompts训练的事件论元抽取模型中,识别得到所述原始文本中的每个实体所属的论元角色类型;
基于所述原始文本中的每个实体所属的论元角色类型,对论元角色的论元span进行校正。
2.根据权利要求1所述的方法,其特征在于,将原始文本输入到预先通过训练的实体识别模型中,识别得到所述原始文本中的所有实体以及实体在所述原始文本中开始的位置和结束的位置span,包括:
将长度为n的原始文本X={x1,x2,...,xn}输入到预先通过训练的实体识别模型的BERT中,获取输入序列中每个token的词向量W={w1,w2,...,wn};
将所述词向量W={w1,w2,...,wn}输入到预先通过训练的实体识别模型的前馈神经网络层中,利用pi=FFN(wi)计算每个词向量属于不同实体类别标签的概率向量P={p1,p2,...,pn};
将所述概率向量P={p1,p2,...,pn}输入到预先通过训练的实体识别模型的条件随机场,根据得分公式
Figure FDA0003636928610000011
计算输入序列映射到所有可能输出实体标签序列的得分,再通过最大化公式
Figure FDA0003636928610000012
得到输入序列的最优标签序列Y’,其中,yi,ti分别表示xi映射到标签ti的非标准化概率,
Figure FDA0003636928610000013
表示从ti转移到ti+1的转移得分,其中A的权重在CRF训练过程中获得并得到更新,T是所有可能标记路径的集合;
结合所述最优标签序列Y’和所述原始文本的输入序列X,得到输入序列中存在的实体以及实体span信息。
3.根据权利要求2所述的方法,其特征在于,所述将所述原始文本输入到预先通过Prompts训练的事件论元抽取模型中,识别得到所述原始文本中的每个实体所属的论元角色类型,包括:
将长度为n的所述原始文本和所述原始文本中所含的触发词以及触发词触发的事件类型、该事件类型涉及的k个时间论元角色种类拼接起来作为输入数据I=[{arguementrole1,arguement role2,...,arguement rolek},{trigger,event-subevent},{x1,x2,...,xn}];
将所述输入数据I输入到预先通过Prompts训练的事件论元抽取模型中,得到所有实体带有触发词信息、事件类型信息、论元角色类别信息的词向量W’={w’1,w’2,...,w’n};
将所述词向量W’输入到角色类型标记器中计算得到原始文本中的事件论元角色序列向量矩阵Mk×n
4.根据权利要求3所述的方法,其特征在于,所述基于所述原始文本中的每个实体所属的论元角色类型,对论元角色的论元span进行校正,包括:
根据所述原始文本中的事件论元角色序列向量矩阵Mk×n中的数值,判断哪个span范围的token是事件论元;
将判断得到的事件论元span1与实体span2信息进行比较;
若事件论元span1与对应实体span2相同,则事件论元span即为span1
若事件论元span1与对应实体span2不相同,且span1的范围在span2内部,则事件论元span即为span2
若事件论元span1对应的token不是实体,则该事件论元判断错误。
5.根据权利要求4所述的方法,其特征在于,预先训练实体识别模型包括:
将长度为n的原始文本X={x1,x2,...,xn}输入到实体识别模型的BERT中,获取输入序列中每个token的词向量W={w1,w2,...,wn};
将所述词向量W={w1,w2,...,wn}输入到实体识别模型的前馈神经网络层中,利用pi=FFN(wi)计算每个词向量属于不同实体类别标签的概率向量P={p1,p2,...,pn};
将所述概率向量P={p1,p2,...,pn}输入到实体识别模型的条件随机场,根据得分公式
Figure FDA0003636928610000031
计算输入序列映射到所有可能输出实体标签序列的得分,再通过最大化公式
Figure FDA0003636928610000032
得到输入序列的最优标签序列Y’,其中,yi,ti分别表示xi映射到标签ti的非标准化概率,
Figure FDA0003636928610000033
表示从ti转移到ti+1的转移得分,其中A的权重在CRF训练过程中获得并得到更新,T是所有可能标记路径的集合;
判断最优标签序列Y’与真实实体序列Y是否一致,若不一致则重复上述过程,直至最优标签序列Y’与真实实体序列Y一致时完成实体识别模型训练。
6.根据权利要求5所述的方法,其特征在于,预先通过Prompts训练事件论元抽取模型,包括:
将长度为n的所述原始文本和所述原始文本中所含的触发词以及触发词触发的事件类型、该事件类型涉及的k个时间论元角色种类拼接起来作为输入数据I=[{arguementrole1,arguement role2,...,arguement rolek},{trigger,event-subevent},{x1,x2,...,xn}];
初始化Prompts参数;
将所述输入数据I输入到事件论元抽取模型中,得到所有实体带有触发词信息、事件类型信息、论元角色类别信息的词向量W’={w’1,w’2,...,w’n};
将所述词向量W’输入到角色类型标记器中计算得到向量矩阵Mk×n’,判断所述向量矩阵Mk×n’与原始文本中的事件论元角色序列向量矩阵Mk×n是否一致,若不一致则重复上述过程,直至计算得到的Mk×n’与Mk×n一致时完成事件论元抽取模型训练。
7.一种基于prompt的事件论元抽取系统,其特征在于,包括:
实体识别模块,用于将原始文本输入到预先通过训练的实体识别模型中,识别得到所述原始文本中的所有实体以及实体在所述原始文本中开始的位置和结束的位置span;
实体角色分类模块,用于将所述原始文本输入到预先通过Prompts训练的事件论元抽取模型中,识别得到所述原始文本中的每个实体所属的论元角色类型;
论元角色决策模块,用于基于所述原始文本中的每个实体所属的论元角色类型,对论元角色的论元span进行校正。
8.根据权利要求7所述的系统,其特征在于,所述实体识别模块具体用于:
将长度为n的原始文本X={x1,x2,...,xn}输入到预先通过训练的实体识别模型的BERT中,获取输入序列中每个token的词向量W={w1,w2,...,wn};
将所述词向量W={w1,w2,...,wn}输入到预先通过训练的实体识别模型的前馈神经网络层中,利用pi=FFN(wi)计算每个词向量属于不同实体类别标签的概率向量P={p1,p2,...,pn};
将所述概率向量P={p1,p2,...,pn}输入到预先通过训练的实体识别模型的条件随机场,根据得分公式
Figure FDA0003636928610000041
计算输入序列映射到所有可能输出实体标签序列的得分,再通过最大化公式
Figure FDA0003636928610000042
得到输入序列的最优标签序列Y’,其中,yi,ti分别表示xi映射到标签ti的非标准化概率,
Figure FDA0003636928610000043
表示从ti转移到ti+1的转移得分,其中A的权重在CRF训练过程中获得并得到更新,T是所有可能标记路径的集合;
结合所述最优标签序列Y’和所述原始文本的输入序列X,得到输入序列中存在的实体以及实体span信息。
9.根据权利要求8所述的系统,其特征在于,所述实体角色分类模块具体用于:
将长度为n的所述原始文本和所述原始文本中所含的触发词以及触发词触发的事件类型、该事件类型涉及的k个时间论元角色种类拼接起来作为输入数据I=[{arguementrole1,arguement role2,...,arguement rolek},{trigger,event-subevent},{x1,x2,...,xn}];
将所述输入数据I输入到预先通过Prompts训练的事件论元抽取模型中,得到所有实体带有触发词信息、事件类型信息、论元角色类别信息的词向量W’={w’1,w’2,...,w’n};
将所述词向量W’输入到角色类型标记器中计算得到原始文本中的事件论元角色序列向量矩阵Mk×n
10.根据权利要求9所述的系统,其特征在于,所述论元角色决策模块具体用于:
根据所述原始文本中的事件论元角色序列向量矩阵Mk×n中的数值,判断哪个span范围的token是事件论元;
将判断得到的事件论元span1与实体span2信息进行比较;
若事件论元span1与对应实体span2相同,则事件论元span即为span1
若事件论元span1与对应实体span2不相同,且span1的范围在span2内部,则事件论元span即为span2
若事件论元span1对应的token不是实体,则该事件论元判断错误。
11.根据权利要求10所述的系统,其特征在于,还包括实体识别模型训练模块,具体用于:
将长度为n的原始文本X={x1,x2,...,xn}输入到实体识别模型的BERT中,获取输入序列中每个token的词向量W={w1,w2,...,wn};
将所述词向量W={w1,w2,...,wn}输入到实体识别模型的前馈神经网络层中,利用pi=FFN(wi)计算每个词向量属于不同实体类别标签的概率向量P={p1,p2,...,pn};
将所述概率向量P={p1,p2,...,pn}输入到实体识别模型的条件随机场,根据得分公式
Figure FDA0003636928610000061
计算输入序列映射到所有可能输出实体标签序列的得分,再通过最大化公式
Figure FDA0003636928610000062
得到输入序列的最优标签序列Y’,其中,yi,ti分别表示xi映射到标签ti的非标准化概率,
Figure FDA0003636928610000063
表示从ti转移到ti+1的转移得分,其中A的权重在CRF训练过程中获得并得到更新,T是所有可能标记路径的集合;
判断最优标签序列Y’与真实实体序列Y是否一致,若不一致则重复上述过程,直至最优标签序列Y’与真实实体序列Y一致时完成实体识别模型训练。
12.根据权利要求11所述的系统,其特征在于,还包括事件论元抽取模型训练模块,具体用于:
将长度为n的所述原始文本和所述原始文本中所含的触发词以及触发词触发的事件类型、该事件类型涉及的k个时间论元角色种类拼接起来作为输入数据I=[{arguementrole1,arguement role2,...,arguement rolek},{trigger,event-subevent},{x1,x2,...,xn}];
初始化Prompts参数;
将所述输入数据I输入到事件论元抽取模型中,得到所有实体带有触发词信息、事件类型信息、论元角色类别信息的词向量W’={w’1,w’2,...,w’n};将所述词向量W’输入到角色类型标记器中计算得到向量矩阵Mk×n’,判断所述向量矩阵Mk×n’与原始文本中的事件论元角色序列向量矩阵Mk×n是否一致,若不一致则重复上述过程,直至计算得到的Mk×n’与Mk×n一致时完成事件论元抽取模型训练。
CN202210505997.0A 2022-05-10 2022-05-10 一种基于prompt的事件论元抽取方法及系统 Pending CN114880431A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210505997.0A CN114880431A (zh) 2022-05-10 2022-05-10 一种基于prompt的事件论元抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210505997.0A CN114880431A (zh) 2022-05-10 2022-05-10 一种基于prompt的事件论元抽取方法及系统

Publications (1)

Publication Number Publication Date
CN114880431A true CN114880431A (zh) 2022-08-09

Family

ID=82675522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210505997.0A Pending CN114880431A (zh) 2022-05-10 2022-05-10 一种基于prompt的事件论元抽取方法及系统

Country Status (1)

Country Link
CN (1) CN114880431A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116757159A (zh) * 2023-08-15 2023-09-15 昆明理工大学 一种端到端的多任务联合篇章级事件抽取方法及系统
CN116861014A (zh) * 2023-09-05 2023-10-10 联通在线信息科技有限公司 一种基于预训练语言模型的图像信息抽取方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116757159A (zh) * 2023-08-15 2023-09-15 昆明理工大学 一种端到端的多任务联合篇章级事件抽取方法及系统
CN116757159B (zh) * 2023-08-15 2023-10-13 昆明理工大学 一种端到端的多任务联合篇章级事件抽取方法及系统
CN116861014A (zh) * 2023-09-05 2023-10-10 联通在线信息科技有限公司 一种基于预训练语言模型的图像信息抽取方法及装置
CN116861014B (zh) * 2023-09-05 2024-01-26 联通在线信息科技有限公司 一种基于预训练语言模型的图像信息抽取方法及装置

Similar Documents

Publication Publication Date Title
CN114880431A (zh) 一种基于prompt的事件论元抽取方法及系统
CN107526799A (zh) 一种基于深度学习的知识图谱构建方法
CN106202030B (zh) 一种基于异构标注数据的快速序列标注方法及装置
CN113033438B (zh) 一种面向模态非完全对齐的数据特征学习方法
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN114417851B (zh) 一种基于关键词加权信息的情感分析方法
CN113128203A (zh) 基于注意力机制的关系抽取方法、系统、设备及存储介质
CN113901170A (zh) 结合Bert模型和模板匹配的事件抽取方法及系统、电子设备
CN114065702A (zh) 一种融合实体关系和事件要素的事件检测方法
CN115545021A (zh) 一种基于深度学习的临床术语识别方法与装置
CN109710756B (zh) 基于语义角色标注的文书体裁分类系统及方法
CN116962089B (zh) 一种针对信息安全的网络监测方法及系统
CN112380861B (zh) 模型训练方法、装置及意图识别方法、装置
CN112597299A (zh) 文本的实体分类方法、装置、终端设备和存储介质
CN117272142A (zh) 一种日志异常检测方法、系统及电子设备
CN116595994A (zh) 基于提示学习的矛盾信息预测方法、装置、设备及介质
CN113792140A (zh) 文本处理方法、装置及计算机可读存储介质
CN114417016A (zh) 一种基于知识图谱的文本信息匹配方法、装置及相关设备
CN113887241A (zh) 基于机器阅读理解的语义角色标注方法、装置及介质
CN113535888A (zh) 一种情感分析装置、方法、计算设备及可读存储介质
CN110909546A (zh) 一种文本数据的处理方法、装置、设备及介质
CN111949768B (zh) 一种文件分类方法
CN118069789B (zh) 一种面向立法意见的关键信息抽取方法、系统及设备
CN118069818B (zh) 一种基于大语言模型增强的知识问答方法
CN112395870B (zh) 一种文本处理方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination