CN116049446B - 一种事件抽取方法、装置、设备及计算机可读存储介质 - Google Patents
一种事件抽取方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN116049446B CN116049446B CN202310212003.0A CN202310212003A CN116049446B CN 116049446 B CN116049446 B CN 116049446B CN 202310212003 A CN202310212003 A CN 202310212003A CN 116049446 B CN116049446 B CN 116049446B
- Authority
- CN
- China
- Prior art keywords
- representing
- event
- word
- vector
- argument
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 78
- 239000013598 vector Substances 0.000 claims abstract description 118
- 238000000547 structure data Methods 0.000 claims abstract description 85
- 239000003550 marker Substances 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 48
- 230000006870 function Effects 0.000 claims description 35
- 239000011159 matrix material Substances 0.000 claims description 33
- 238000000034 method Methods 0.000 claims description 23
- 238000010586 diagram Methods 0.000 claims description 20
- 239000010410 layer Substances 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000001537 neural effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 239000002356 single layer Substances 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种事件抽取方法、装置、设备及计算机可读存储介质,包括:获取句子文本,并将所述句子文本构建成图结构数据;对所述图结构数据中的每个节点进行初始化向量编码,并基于图注意网络模型对节点向量编码进行更新;调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取,其中,事件提取包括事件类型识别,事件触发词识别和事件论元识别,旨在解决无法捕获长距离依赖信息以及重叠事件问题。
Description
技术领域
本发明涉及信息抽取领域,特别涉及一种事件抽取方法、装置、设备及计算机可读存储介质。
背景技术
事件抽取是自然语言处理中的一项十分重要且非常具有挑战性的任务,其目的是抽取文本中的事件信息。虽然目前事件抽取已经有了大量的研究,但大多数方法都假设句子中没有重叠事件的情况,使得这些方法并不适合处理具有重叠事件问题的场景。并且,现有的大多数事件抽取方法并不能有效的捕获到句子中与重叠事件有关的信息,比如触发词和论元在句子中的间距太远,这种长距离依赖信息就难以被捕获。
有鉴于此,提出本申请。
发明内容
本发明公开了一种事件抽取方法、装置、设备及计算机可读存储介质,旨在解决无法捕获长距离依赖信息以及重叠事件问题;
本发明第一实施例提供了一种事件抽取方法,包括:
获取句子文本,并将所述句子文本构建成图结构数据;
对所述图结构数据中的每个节点进行初始化向量编码,并基于图注意网络模型对节点向量编码进行更新;
调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取,其中,事件提取包括事件类型识别,事件触发词识别和事件论元识别。
优选地,所述将所述句子文本构建成图结构数据具体为:
对句子进行依存句法分析,构建以字为节点,以依存关系为连接边的依存图结构数据;
对句子进行命名实体识别,构建以命名实体为节点,以实体与实体首尾字的映射关系为连接,以及构成实体的字序列之间双向连接的实体图结构数据;
构建以字自身为起点和终点的自连接图结构数据;
将所述依存图结构数据、所述实体图结构数据和所述自连接图结构数据的节点特征进行加权求和、边进行合并,构建句子所对应的图结构数据。
优选地,所述对所述图结构数据中的每个节点进行初始化向量编码,并基于图注意网络模型对节点向量编码进行更新具体为:
对句子文本中任一字进行向量编码,得到对应的特征向量,,维度包括利用BERT获取的预训练特征、查找随机初始化的词性矩阵获取的词性特征和利用绝对位置获取的位置特征,使用BERT对实体进行向量编码,得到任一实体对应的特征向量;
对图结构数据中的任意两个节点之间进行注意力系数eij的计算,如公式(1)所示:
其中,代表第个节点的邻居集合,k表示第i个节点的第k个邻居节点,LeakyReLU代表非线性激活函数,LeakyReLU函数的输出值定义为,score小于0的值置为-0.2,score大于0则保持原值,如公式(3)所示:
优选地,所述调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取,其中,事件提取包括事件类型识别,事件触发词识别和事件论元识别具体为:
利用条件层标准化模块(condition layer normalization, CLN)将预测的事件类型与字信息进行融合,如公式(8)~(10)所示:
其中,代表句子文本,代表预测到的事件类型,代表sigmoid函数,代表触发词的起始位置,代表触发词的终止位置;和代表维度为的权重矩阵,和代表偏置项;代表句子文本中第个字的向量编码;得到触发词起始位置和终止位置的标注概率序列,起始位置,终止位置,其中,代表句子文本的长度;将任一阈值的字作为触发词的起始位置,将任一阈值的字作为触发词的终止位置,得到事件的触发词,其中;
其中,为sigmoid函数,代表句子文本中第个字的向量编码;与为论元角色的权重矩阵和偏置项;每个论元角色会得到一组论元起始位置和终止位置的标注概率序列,对于任意论元的标注概率序列起始位置,终止位置,将任一阈值的字作为触发词的起始位置,将任一阈值的字作为触发词的终止位置,得到该事件的论元角色集合;
根据上述操作,基于图注意力网络和二进制标记网络的事件抽取的损失函数如下式(19):
其中,rl的含义是预测到的事件论元,代表训练数据集,X代表代表训练集中第X条训练样例,代表当前句子文本事件类型的集合,代表当前句子文本在给定事件类型时的触发词的集合,代表当前句子文本在给定事件类型和事件触发词时的论元角色的集合,其中,,分别对应的公式如下式(20)~(22):
其中,代表当前输入句子的长度,代表事件类型的预测概率,代表触发词起始位置的预测概率,代表触发词终止位置的预测概率,代表事件论元起始位置的预测概率,代表事件论元终止位置预测的概率,代表训练数据中事件类型的真实0/1标签,代表训练数据中触发词起始位置的真实0/1标签,代表训练数据中触发词终止位置的真实0/1标签,代表训练数据中事件论元起始位置的真实0/1标签,代表训练数据中事件论元终止位置的真实0/1标签;之后针对损失函数Loss使用梯度下降算法在训练集上更新网络参数,保存固定训练轮次中Loss最低的模型。
将测试句子文本送入训练好的事件抽取联合模型中,输出对应的事件类型信息,事件类型信息包括:事件类型、事件触发词和事件论元。
本发明第二实施例提供了一种事件抽取装置,包括:
图结构数据构建单元,用于获取句子文本,并将所述句子文本构建成图结构数据;
节点向量编码更新单元,用于对所述图结构数据中的每个节点进行初始化向量编码,并基于图注意网络模型对节点向量编码进行更新;
事件提取单元,用于调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取,其中,事件提取包括事件类型识别,事件触发词识别和事件论元识别。
本发明第三实施例提供了一种事件抽取设备,包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如上任意一项所述的一种事件抽取方法。
本发明第四实施例提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行,以实现如上任意一项所述的一种事件抽取方法。
基于本发明提供的一种事件抽取方法、装置、设备及计算机可读存储介质,通过先将所述句子文本构建成图结构数据,接着对所述图结构数据中的每个节点进行初始化向量编码,并基于图注意网络模型对节点向量编码进行更新;调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取,其中,事件提取包括事件类型识别,事件触发词识别和事件论元识别,可以看出:以依存句法关系为理论基础构建图结果数据,利用命名实体识别技术(NER)为图结构数据融入实体信息,通过图注意力网络学习到句子中元素的相互依赖性。该模型不但可以有效的抽取事件,而且通过二进制标记网络解决了重叠事件问题。
附图说明
图1是本发明第一实施例提供的一种事件抽取方法的流程示意图;
图2是本发明提供的基于图注意力网络和二进制标记网络的事件抽取模型示意图;
图3是本发明第一实施例提供的一种事件抽取装置的模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
实施例中提及的“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换,以使这里描述的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
以下结合附图对本发明的具体实施例做详细说明。
本发明公开了一种事件抽取方法、装置、设备及计算机可读存储介质,旨在解决无法捕获长距离依赖信息以及重叠事件问题;
请参阅图1图2,本发明第一实施例提供了一种事件抽取方法,其可由事件抽取设备(以下简称抽取设备)来执行,特别的,由所述抽取设备内的一个或者多个处理器来执行,以至少实现如下步骤:
S101,获取句子文本,并将所述句子文本构建成图结构数据;
在本实施例中,所述抽取设备可为台式电脑、笔记本电脑、服务器、工作站等具有数据处理分析能力的终端,其中,所述抽取设备内可安装有相应的操作系统以及应用软件,并通过操作系统以及应用软件的结合来实现本实施例所需的功能。
具体地,在本实施例中,将所述句子文本构建成图结构数据具体可以包括:
对句子进行依存句法分析,构建以字为节点,以依存关系为连接边的依存图结构数据;
对句子进行命名实体识别,构建以命名实体为节点,以实体与实体首尾字的映射关系为连接,以及构成实体的字序列之间双向连接的实体图结构数据;
构建以字自身为起点和终点的自连接图结构数据;
将所述依存图结构数据、所述实体图结构数据和所述自连接图结构数据的节点特征进行加权求和、边进行合并,构建句子所对应的图结构数据。
更具体地:
步骤 1.1、给定样本量为的事件样本数据集,其中,任一事件样本为,表示事件样本数据集的数量;每个事件样本包含句子文本,其中,任一字为,代表句子的长度;事件类型集合,其中,任一事件类型为,代表事件类型集合的长度;对应的触发词集合为,其中,任一触发词为,代表触发词的中的任一字,代表触发词的长度,代表触发词集合的长度;事件论元集合,其中,任一事件论元为,代表事件论元集合的长度;将事件数据集按比例划分为训练集,其中任一训练集样本为,代表训练事件样本数据集的数量;验证集,其中任一验证集样本为,代表测试事件样本数据集的数量;测试集,其中任一测试集样本为,代表测试事件样本数据集的数量。
步骤 1.2、根据步骤1.1所述,对句子文本进行依存句法分析。依据句法分析结果构建出依存图结构数据,其中代表依存图结构数据的节点,对应句子文本中的字,代表依存图结构数据的依存关系边集合,代表其中的第条边,代表边集合的长度。通过命名实体识别技术(NER)抽取实体,构建以实体为节点,实体与实体首尾字的映射关系为边,以及构成实体的字序列之间双向连接边的实体图结构数据,其中代表实体图结构数据的实体节点集合,代表其中第节点,代表节点集合的长度,代表实体图结构数据中实体与实体首尾字的映射关系为连接及构成实体的字序列之间双向连接的集合,代表其中第条边,代表依存图结构数据的边集合的长度。通过连接字自身,构建以字自身为起点和终点的自连接图结构数据,其中代表自连接图结构数据的节点,对应句子文本中的字,代表自连接图结构数据的依存关系边集合,代表其中第一条边,代表边集合的长度。将进行融合,包括,字节点向量的加权求和,相同边的合并,以此构建融合图结构数据,其中代表融合图结构数据的节点,代表其中第节点,,代表融合图结构数据的边集合,代表其中第一条边,代表边集合的长度。
S102,对所述图结构数据中的每个节点进行初始化向量编码,并基于图注意网络模型对节点向量编码进行更新;
具体地,在本实施例中:
对句子文本中任一字进行向量编码,得到对应的特征向量,,维度包括利用BERT获取的预训练特征、查找随机初始化的词性矩阵获取的词性特征和利用绝对位置获取的位置特征,使用BERT对实体进行向量编码,得到任一实体对应的特征向量;
其中,代表第个节点的邻居集合,k表示第i个节点的第k个邻居节点,LeakyReLU代表非线性激活函数,LeakyReLU函数的输出值定义为,score小于0的值置为-0.2,score大于0则保持原值,如公式(3)所示:
S103,调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取,其中,事件提取包括事件类型识别,事件触发词识别和事件论元识别。
具体地:在本实施例中:
利用条件层标准化模块(condition layer normalization, CLN)将预测的事件类型与字信息进行融合,如公式(8)~(10)所示:
其中,代表句子文本,代表预测到的事件类型,代表sigmoid函数,代表触发词的起始位置,代表触发词的终止位置;和代表维度为的权重矩阵,和代表偏置项;代表句子文本中第个字的向量编码;得到触发词起始位置和终止位置的标注概率序列,起始位置,终止位置,其中,代表句子文本的长度;将任一阈值的字作为触发词的起始位置,将任一阈值的字作为触发词的终止位置,得到事件的触发词,其中;
其中,为指示函数,其中,为指示函数,代表论元的起始位置,代表可训练的权重举证,为偏移项,代表乱云的结束位置,代表可训练的权重举证,为偏移项。判断当前所识别的论元是否属于该事件类型,如公式(18)所示:
其中,为sigmoid函数,代表句子文本中第个字的向量编码;与为论元角色的权重矩阵和偏置项;每个论元角色会得到一组论元起始位置和终止位置的标注概率序列,对于任意论元的标注概率序列起始位置,终止位置,将任一阈值的字作为触发词的起始位置,将任一阈值的字作为触发词的终止位置,得到该事件的论元角色集合;
根据上述操作,基于图注意力网络和二进制标记网络的事件抽取的损失函数如下式(19):
其中,rl的含义是预测到的事件论元,代表训练数据集,X代表代表训练集中第X条训练样例,代表当前句子文本事件类型的集合,代表当前句子文本在给定事件类型时的触发词的集合,代表当前句子文本在给定事件类型和事件触发词时的论元角色的集合,其中,,分别对应的公式如下式(20)~(22):
其中,代表当前输入句子的长度,代表事件类型的预测概率,代表触发词起始位置的预测概率,代表触发词终止位置的预测概率,代表事件论元起始位置的预测概率,代表事件论元终止位置预测的概率,代表训练数据中事件类型的真实0/1标签,代表训练数据中触发词起始位置的真实0/1标签,代表训练数据中触发词终止位置的真实0/1标签,代表训练数据中事件论元起始位置的真实0/1标签,代表训练数据中事件论元终止位置的真实0/1标签;之后针对损失函数Loss使用梯度下降算法在训练集上更新网络参数,保存固定训练轮次中Loss最低的模型;
将测试句子文本送入训练好的事件抽取联合模型中,输出对应的事件类型信息,事件类型信息包括:事件类型、事件触发词和事件论元。
以下通过一个例子对上述实施例做进一步描述:
输入测试事件数据示例如下,content代表句子文本,events代表事件集,type代表事件的类型,trigger代表触发词,args代表论元:
{"content": "一般情况下,上市公司获得重要股东净增持,尽管增持的表现各异,比如新奥股份的增持是“左右口袋倒腾”性质,三泰控股的增持带有利益捆绑式,万达信息的增持是纾困式+举牌式,都是彰显了股东对公司未来发展和业绩预期的坚定信心。",
"events": [
{"type": "投资", "trigger": {"span": [37, 39], "word": "增持"}, "args": {"obj": [{"span": [32, 36], "word": "新奥股份"}]}},
{"type": "投资", "trigger": {"span": [56, 58], "word": "增持"}, "args": {"obj": [{"span": [51, 55], "word": "三泰控股"}]}},
{"type": "股份股权转让", "trigger": {"span": [37, 39], "word": "增持"}, "args": {"obj-org": [{"span": [32, 36], "word": "新奥股份"}]}},
]}
将给定的句子文本“一般情况下,上市公司获得重要股东净增持,尽管增持的表现各异,比如新奥股份的增持......”按照句号、分号和感叹号进行切分。切分后的任一句子文本记作,代表句子的长度。依据句法分析结果构建出依存图结构数据,其中代表依存图结构数据的节点,对应句子文本中的字,代表依存图结构数据的依存关系边集合,代表其中的第条边,代表边集合的长度。通过命名实体识别技术(NER)抽取实体,构建以实体为节点,实体与实体首尾字的映射关系为边,以及构成实体的字序列之间双向连接边的实体图结构数据,其中代表实体图结构数据的实体节点集合,代表其中第节点,代表节点集合的长度,代表实体图结构数据中实体与实体首尾字的映射关系为连接及构成实体的字序列之间双向连接的集合,代表其中第条边,代表依存图结构数据的边集合的长度。通过连接字自身,构建以字自身为起点和终点的自连接图结构数据,其中代表自连接图结构数据的节点,对应句子文本中的字,代表自连接图结构数据的依存关系边集合,代表其中第一条边,代表边集合的长度。将进行融合,包括,字节点向量的加权求和,相同边的合并,以此构建融合图结构数据,其中代表融合图结构数据的节点,代表其中第节点,,代表融合图结构数据的边集合,代表其中第一条边,代表边集合的长度。
利用CLN模块将事件类型信息与文本的字节点进行融合,并将融合后的字向量输入到事件触发词识别模块来识别事件的触发词,该模块的阈值设置为0.5,阈值设置为0.5。可得到在已知事件类型的条件下的抽取结果为{{"type": "投资", "trigger": {"span": [37, 39], "word": "增持"}},{"type": "投资", "trigger": {"span": [56,58], "word": "增持"}},{"type": "股份股权转让", "trigger": {"span": [37, 39],"word": "增持"}},......}。
继续利用CLN模块将触发词信息与文本的字节点进行融合,并将融合后的字向量输入到事件论元识别模块来识别事件的论元,该模块的阈值设置为0.5,阈值设置为0.5。可得到已知事件类型和触发词的条件下的抽取结果为{{"type": "投资", "trigger": {"span": [37, 39], "word": "增持"}, "args": {"obj": [{"span": [32,36], "word": "新奥股份"}]}}, {"type": "投资", "trigger": {"span": [56, 58], "word": "增持"}, "args": {"obj": [{"span": [51, 55], "word": "三泰控股"}]}},{"type": "股份股权转让", "trigger": {"span": [37, 39], "word": "增持"}, "args": {"obj-org": [{"span": [32, 36], "word": "新奥股份"}]}}, ......}
至此,图注意力网络和二进制标记网络的事件抽取方法与系统全部结束。
请参阅图3,本发明第二实施例提供了一种事件抽取装置,包括:
图结构数据构建单元201,用于获取句子文本,并将所述句子文本构建成图结构数据;
节点向量编码更新单元202,用于对所述图结构数据中的每个节点进行初始化向量编码,并基于图注意网络模型对节点向量编码进行更新;
事件提取单元203,用于调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取,其中,事件提取包括事件类型识别,事件触发词识别和事件论元识别。
本发明第三实施例提供了一种事件抽取设备,包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如上任意一项所述的一种事件抽取方法。
本发明第四实施例提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行,以实现如上任意一项所述的一种事件抽取方法。
基于本发明提供的一种事件抽取方法、装置、设备及计算机可读存储介质,通过先将所述句子文本构建成图结构数据,接着对所述图结构数据中的每个节点进行初始化向量编码,并基于图注意网络模型对节点向量编码进行更新;调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取,其中,事件提取包括事件类型识别,事件触发词识别和事件论元识别,可以看出:以依存句法关系为理论基础构建图结果数据,利用命名实体识别技术(NER)为图结构数据融入实体信息,通过图注意力网络学习到句子中元素的相互依赖性。该模型不但可以有效的抽取事件,而且通过二进制标记网络解决了重叠事件问题。
示例性地,本发明第三实施例和第四实施例中所述的计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述实现一种事件抽取设备中的执行过程。例如,本发明第二实施例中所述的装置。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种事件抽取方法的控制中心,利用各种接口和线路连接整个所述实现对基于一种事件抽取方法的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现一种事件抽取方法的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘、智能存储卡(Smart Media Card, SMC)、安全数字(Secure Digital, SD)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述实现的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一个计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (5)
1.一种事件抽取方法,其特征在于,包括:
获取句子文本,并将所述句子文本构建成图结构数据;
对所述图结构数据中的每个节点进行初始化向量编码,并基于图注意力网络模型对节点向量编码进行更新,具体为:
对句子文本中任一字进行向量编码,得到对应的特征向量,,维度包括利用BERT获取的预训练特征、查找随机初始化的词性矩阵获取的词性特征和利用绝对位置获取的位置特征,使用BERT对实体进行向量编码,得到任一实体对应的特征向量;
对图结构数据中的任意两个节点之间进行注意力系数eij的计算,如公式(1)所示:
其中,代表第个节点的邻居集合,k表示第i个节点的第k个邻居节点,LeakyReLU代表非线性激活函数,LeakyReLU函数的输出值定义为,score小于0的值置为-0.2,score大于0则保持原值,如公式(3)所示:
调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取,其中,事件提取包括事件类型识别,事件触发词识别和事件论元识别,具体为:建立事件类型集合的初始化事件类型向量矩阵;利用注意力机制来计算事件类型与句子文本对应的字节点中每个之间的相关性,如公式(5)~(6)所示:
利用条件层标准化模块CLN将预测的事件类型与字信息进行融合,如公式(8)~(10)所示:
其中,代表句子文本,代表预测到的事件类型,代表sigmoid函数,代表触发词的起始位置,代表触发词的终止位置;和代表维度为的权重矩阵,和代表偏置项;代表句子文本中第个字的向量编码;得到触发词起始位置和终止位置的标注概率序列,起始位置,终止位置,其中,代表句子文本的长度;将任一阈值的字作为触发词的起始位置,将任一阈值的字作为触发词的终止位置,得到事件的触发词,其中;
其中,为sigmoid函数,代表句子文本中第个字的向量编码;与为论元角色的权重矩阵和偏置项;每个论元角色会得到一组论元起始位置和终止位置的标注概率序列,对于任意论元的标注概率序列起始位置,终止位置,将任一阈值的字作为触发词的起始位置,将任一阈值的字作为触发词的终止位置,得到该事件的论元角色集合;
根据上述操作,基于图注意力网络和二进制标记网络的事件抽取的损失函数如下式(19):
其中,rl的含义是预测到的事件论元,代表训练数据集,X代表训练集中第X条训练样例,代表当前句子文本事件类型的集合,代表当前句子文本在给定事件类型时的触发词的集合,代表当前句子文本在给定事件类型和事件触发词时的论元角色的集合,其中,,分别对应的公式如下式(20)~(22):
其中,代表当前输入句子的长度,代表事件类型的预测概率,代表触发词起始位置的预测概率,代表触发词终止位置的预测概率,代表事件论元起始位置的预测概率,代表事件论元终止位置预测的概率,代表训练数据中事件类型的真实0/1标签,代表训练数据中触发词起始位置的真实0/1标签,代表训练数据中触发词终止位置的真实0/1标签,代表训练数据中事件论元起始位置的真实0/1标签,代表训练数据中事件论元终止位置的真实0/1标签;之后针对损失函数Loss使用梯度下降算法在训练集上更新网络参数,保存固定训练轮次中Loss最低的模型;
将测试句子文本送入训练好的事件抽取联合模型中,输出对应的事件类型信息,事件类型信息包括:事件类型、事件触发词和事件论元。
2.根据权利要求1所述的一种事件抽取方法,其特征在于,所述将所述句子文本构建成图结构数据具体为:
对句子进行依存句法分析,构建以字为节点,以依存关系为连接边的依存图结构数据;
对句子进行命名实体识别,构建以命名实体为节点,以实体与实体首尾字的映射关系为连接,以及构成实体的字序列之间双向连接的实体图结构数据;
构建以字自身为起点和终点的自连接图结构数据;
将所述依存图结构数据、所述实体图结构数据和所述自连接图结构数据的节点特征进行加权求和、边进行合并,构建句子所对应的图结构数据。
3.一种事件抽取装置,其特征在于,包括:
图结构数据构建单元,用于获取句子文本,并将所述句子文本构建成图结构数据;
节点向量编码更新单元,用于对所述图结构数据中的每个节点进行初始化向量编码,并基于图注意力网络模型对节点向量编码进行更新,具体用于:
对句子文本中任一字进行向量编码,得到对应的特征向量,,维度包括利用BERT获取的预训练特征、查找随机初始化的词性矩阵获取的词性特征和利用绝对位置获取的位置特征,使用BERT对实体进行向量编码,得到任一实体对应的特征向量;
对图结构数据中的任意两个节点之间进行注意力系数eij的计算,如公式(1)所示:
其中,代表第个节点的邻居集合,k表示第i个节点的第k个邻居节点,LeakyReLU代表非线性激活函数,LeakyReLU函数的输出值定义为,score小于0的值置为-0.2,score大于0则保持原值,如公式(3)所示:
事件提取单元,用于调用二进制标记网络对更新后的节点向量编码及句子文本进行事件提取,其中,事件提取包括事件类型识别,事件触发词识别和事件论元识别,具体用于:建立事件类型集合的初始化事件类型向量矩阵;利用注意力机制来计算事件类型与句子文本对应的字节点中每个之间的相关性,如公式(5)~(6)所示:
利用条件层标准化模块CLN将预测的事件类型与字信息进行融合,如公式(8)~(10)所示:
其中,代表句子文本,代表预测到的事件类型,代表sigmoid函数,代表触发词的起始位置,代表触发词的终止位置;和代表维度为的权重矩阵,和代表偏置项;代表句子文本中第个字的向量编码;得到触发词起始位置和终止位置的标注概率序列,起始位置,终止位置,其中,代表句子文本的长度;将任一阈值的字作为触发词的起始位置,将任一阈值的字作为触发词的终止位置,得到事件的触发词,其中;
其中,为sigmoid函数,代表句子文本中第个字的向量编码;与为论元角色的权重矩阵和偏置项;每个论元角色会得到一组论元起始位置和终止位置的标注概率序列,对于任意论元的标注概率序列起始位置,终止位置,将任一阈值的字作为触发词的起始位置,将任一阈值的字作为触发词的终止位置,得到该事件的论元角色集合;
根据上述操作,基于图注意力网络和二进制标记网络的事件抽取的损失函数如下式(19):
其中,rl的含义是预测到的事件论元,代表训练数据集,X代表训练集中第X条训练样例,代表当前句子文本事件类型的集合,代表当前句子文本在给定事件类型时的触发词的集合,代表当前句子文本在给定事件类型和事件触发词时的论元角色的集合,其中,,分别对应的公式如下式(20)~(22):
其中,代表当前输入句子的长度,代表事件类型的预测概率,代表触发词起始位置的预测概率,代表触发词终止位置的预测概率,代表事件论元起始位置的预测概率,代表事件论元终止位置预测的概率,代表训练数据中事件类型的真实0/1标签,代表训练数据中触发词起始位置的真实0/1标签,代表训练数据中触发词终止位置的真实0/1标签,代表训练数据中事件论元起始位置的真实0/1标签,代表训练数据中事件论元终止位置的真实0/1标签;之后针对损失函数Loss使用梯度下降算法在训练集上更新网络参数,保存固定训练轮次中Loss最低的模型;
将测试句子文本送入训练好的事件抽取联合模型中,输出对应的事件类型信息,事件类型信息包括:事件类型、事件触发词和事件论元。
4.一种事件抽取设备,其特征在于,包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如权利要求1至2任意一项所述的一种事件抽取方法。
5.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行,以实现如权利要求1至2任意一项所述的一种事件抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310212003.0A CN116049446B (zh) | 2023-03-07 | 2023-03-07 | 一种事件抽取方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310212003.0A CN116049446B (zh) | 2023-03-07 | 2023-03-07 | 一种事件抽取方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116049446A CN116049446A (zh) | 2023-05-02 |
CN116049446B true CN116049446B (zh) | 2023-06-06 |
Family
ID=86133341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310212003.0A Active CN116049446B (zh) | 2023-03-07 | 2023-03-07 | 一种事件抽取方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116049446B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134757A (zh) * | 2019-04-19 | 2019-08-16 | 杭州电子科技大学 | 一种基于多头注意力机制的事件论元角色抽取方法 |
CN114444484A (zh) * | 2022-01-13 | 2022-05-06 | 重庆邮电大学 | 一种基于双层图的文档级事件抽取方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220398384A1 (en) * | 2020-12-25 | 2022-12-15 | Boe Technology Group Co., Ltd. | Text extraction method and device, computer readable storage medium and electronic device |
CN114201583A (zh) * | 2021-12-10 | 2022-03-18 | 北京工商大学 | 一种基于图注意力网络的中文金融事件自动抽取方法及系统 |
CN114841140A (zh) * | 2022-04-27 | 2022-08-02 | 迈容智能科技(上海)有限公司 | 依存分析模型及基于依存分析的中文联合事件抽取方法 |
CN115392248A (zh) * | 2022-06-22 | 2022-11-25 | 北京航空航天大学 | 一种基于上下文和图注意力的事件抽取方法 |
-
2023
- 2023-03-07 CN CN202310212003.0A patent/CN116049446B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134757A (zh) * | 2019-04-19 | 2019-08-16 | 杭州电子科技大学 | 一种基于多头注意力机制的事件论元角色抽取方法 |
CN114444484A (zh) * | 2022-01-13 | 2022-05-06 | 重庆邮电大学 | 一种基于双层图的文档级事件抽取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116049446A (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3926531B1 (en) | Method and system for visio-linguistic understanding using contextual language model reasoners | |
CN111949802B (zh) | 医学领域知识图谱的构建方法、装置、设备及存储介质 | |
CN113204952A (zh) | 一种基于聚类预分析的多意图与语义槽联合识别方法 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN113536784B (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
US20210004603A1 (en) | Method and apparatus for determining (raw) video materials for news | |
CN114140673A (zh) | 一种违规图像识别方法、系统及设备 | |
CN113239702A (zh) | 意图识别方法、装置、电子设备 | |
CN111967253A (zh) | 一种实体消歧方法、装置、计算机设备及存储介质 | |
CN117558270B (zh) | 语音识别方法、装置、关键词检测模型的训练方法和装置 | |
WO2022262080A1 (zh) | 一种对话关系处理方法、计算机及可读存储介质 | |
CN117235605B (zh) | 一种基于多模态注意力融合的敏感信息分类方法及装置 | |
CN113051384B (zh) | 基于对话的用户画像抽取方法及相关装置 | |
CN114692624A (zh) | 一种基于多任务迁移的信息抽取方法、装置及电子设备 | |
CN114385812A (zh) | 用于文本的关系抽取方法及系统 | |
CN114266252A (zh) | 命名实体识别方法、装置、设备及存储介质 | |
CN112417874A (zh) | 命名实体的识别方法和装置、存储介质、电子装置 | |
CN116049446B (zh) | 一种事件抽取方法、装置、设备及计算机可读存储介质 | |
CN114330350B (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 | |
CN114238587A (zh) | 阅读理解方法、装置、存储介质及计算机设备 | |
CN113704466A (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 | |
CN113111855A (zh) | 一种多模态情感识别方法、装置、电子设备及存储介质 | |
CN111159339A (zh) | 一种文本匹配处理方法和装置 | |
CN111860662B (zh) | 一种相似性检测模型的训练方法及装置、应用方法及装置 | |
CN113762998B (zh) | 类别分析方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |