CN116629237B - 基于逐步集成多层注意力的事件表示学习方法及系统 - Google Patents
基于逐步集成多层注意力的事件表示学习方法及系统 Download PDFInfo
- Publication number
- CN116629237B CN116629237B CN202310917751.9A CN202310917751A CN116629237B CN 116629237 B CN116629237 B CN 116629237B CN 202310917751 A CN202310917751 A CN 202310917751A CN 116629237 B CN116629237 B CN 116629237B
- Authority
- CN
- China
- Prior art keywords
- event
- phrase
- word
- representing
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000009466 transformation Effects 0.000 claims abstract description 12
- 230000008569 process Effects 0.000 claims abstract description 8
- 238000006243 chemical reaction Methods 0.000 claims description 22
- 230000002776 aggregation Effects 0.000 claims description 18
- 238000004220 aggregation Methods 0.000 claims description 18
- 239000008358 core component Substances 0.000 claims description 18
- 238000013507 mapping Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 241000282414 Homo sapiens Species 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 5
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 claims description 4
- 239000010931 gold Substances 0.000 claims description 4
- 229910052737 gold Inorganic materials 0.000 claims description 4
- 238000011144 upstream manufacturing Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 230000002262 irrigation Effects 0.000 claims 1
- 238000003973 irrigation Methods 0.000 claims 1
- 239000012634 fragment Substances 0.000 abstract 1
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种基于逐步集成多层注意力的事件表示学习方法及系统,该方法包括:获取文本中词语的结点嵌入表示,利用文本生成词语依存树及词语短语树,并构建词语‑短语依存树以及短语‑结构依存树,以词语的结点嵌入表示作为初始输入,采用上一层的输出转化为下一层输入的方式依次对词语依存树、词语‑短语依存树和短语‑结构依存树的结点嵌入表示进行更新,得到事件嵌入表示;每层转化包含转化注意力系数和语义重要性注意力系数,揭示转化过程中结点的不同重要程度。本发明不依赖于事先给定的各种关系,通过词语‑短语‑结构‑对象的转化策略,有指导地逐步编码事件及其上下文中蕴含的语义信息,利用包含事件的文本片段实现事件嵌入表示学习。
Description
技术领域
本发明属于信息抽取技术领域,特别涉及一种基于逐步集成多层注意力的事件表示学习方法及系统。
背景技术
事件嵌入表示学习方法早期主要建模事件元素间的点乘信息;随后,通过利用事件之间的各种关系和外部知识,提高事件嵌入表示的区分度。这些方法存在以下局限:只针对抽取的事件元素进行编码、事件之间存在哪些关系需要事先给定,同时无法适用于不存在指定关系的情景、依赖外部知识。
发明内容
鉴于上述状况,本发明的主要目的是为了提出一种基于逐步集成多层注意力的事件表示学习方法及系统,以解决上述技术问题。
本发明提供了一种基于逐步集成多层注意力的事件表示学习方法,所述方法包括如下步骤:
步骤1、对文本的词语进行向量化,利用双向长短期记忆网络捕获文档中词的序列信息,以得到词语的结点嵌入表示;
步骤2、对文本进行句法解析,生成词语依存树及词语短语树;
步骤3、根据人类理解自然语言时,从词语、短语、结构到对象的理解过程,将词语依存树中属于短语范围的词语信息聚合至短语中心词,以短语中心词代表整个短语,得到词语-短语依存树;
再将所得词语-短语依存树中非核心成分结点信息向上合并至核心成分结点中,利用核心成分结点揭示事件语义,形成结构化的事件核心结点,通过若干结构化的事件核心结点构成短语-结构依存树;
步骤4、以词语的结点嵌入表示作为初始输入,采用上一层的输出根据词语聚合成短语的不同重要程度以及形成的短语对理解事件语义的不同重要程度转化为下一层的输入的方式依次对词语依存树、词语-短语依存树和短语-结构依存树的结点嵌入表示进行更新,以得到每个事件嵌入表示;
步骤5、判断属于同一个文本中的事件数量是否支持构建事件关联图,若是,则利用文本中事件信息构建事件关联图,将事件嵌入表示输入事件关联图进行更新,以捕获得到以事件为单位的全局信息。
本发明不依赖于事先给定的各种关系和外部知识,通过词语-短语-结构-对象的转化策略,有指导地逐步编码事件及其上下文中蕴含的语义信息,进而利用包含事件的文本片段即可实现事件嵌入表示学习。
本发明还提供了一种基于逐步集成多层注意力的事件表示学习系统,所述系统包括:
编码层:用于对文本的词语进行向量化;
Bi-LSTM层:用于利用双向长短期记忆网络对每个词语进行编码,以捕获文档中词的序列信息,得到隐含状态向量,隐含状态向量既词语的结点嵌入表示;
树构建模块:用于对文本进行句法解析,生成词语依存树及词语短语树;
根据人类理解自然语言时,从词语、短语、结构到对象的理解过程,将词语依存树中属于短语范围的词语信息聚合至短语中心词,以短语中心词代表整个短语,得到词语-短语依存树;
再将所得词语-短语依存树中非核心成分结点信息向上合并至核心成分结点中,利用核心成分结点揭示事件语义,形成结构化的事件核心结点,若干结构化的事件核心结点构成短语-结构依存树;
GAT-转化模块:用于以词语的结点嵌入表示作为初始输入,采用上一层的输出根据词语聚合成短语的不同重要程度以及形成的短语对理解事件语义的不同重要程度转化为下一层的输入的方式依次对词语依存树、词语-短语依存树和短语-结构依存树的结点嵌入表示进行更新,得到每个事件嵌入表示;
判断属于同一个文本中的事件数量是否支持构建事件关联图,若是,则利用文本中事件信息构建事件关联图,将事件嵌入表示输入事件关联图进行更新,捕获以事件为单位的全局信息。
进一步的,还包括有下游任务模块:用于监督上游任务的训练,生成对应的事件嵌入表示。
进一步的,GAT-转化模块包括分别设置于聚合层、合并层、映射层和事件应用层的神经网络(GAT)和设置于聚合层、合并层、映射层,并与图神经网络对应转化模块,图神经网络(GAT)根据输入的结点嵌入表示和图结构,更新结点的嵌入表示;转化模块主要负责相邻层之间不同树结构的转化,保证GAT的有效执行。
本发明的附加方面与优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明提出的基于逐步集成多层注意力的事件表示学习方法的流程图;
图2为本发明提出的基于逐步集成多层注意力的事件表示学习系统的拓扑图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。
请参阅图1,本发明实施例提供了一种基于逐步集成多层注意力的事件表示学习方法,所述方法包括如下步骤:
步骤1、对文本的词语进行向量化,利用双向长短期记忆网络捕获文档中词的序列信息,以得到词语的结点嵌入表示;
进一步的,利用双向长短期记忆网络对每个词语进行编码的方法具体包括:
将每个词语,采用前向LSTM编码/>至/>的上下文信息/>,再采用后向LSTM编码至/>的上下文/>,具体如下:
;
;
将和/>进行拼接作为词语/>经过Bi-LSTM后的特征表示,记为/>。其中,表示拼接操作,/>表示词语/>对应的向量表示,/>表示文本包含的词语数量。
步骤2、对文本进行句法解析,生成词语依存树(TDP)及词语短语树(TPP);
步骤3、根据人类理解自然语言时,从词语、短语、结构到对象的理解过程,将词语依存树中属于短语范围的词语信息聚合至短语中心词,以短语中心词代表整个短语,以得到词语-短语依存树(TPDP);
再将所得词语-短语依存树中非核心成分结点信息向上合并至核心成分结点中,利用核心成分结点揭示事件语义,形成结构化的事件核心结点,通过若干结构化的事件核心结点构成短语-结构依存树(PSDP);
其中,核心结点包括充当谓语的结点、依存关系类型为主谓关系或谓宾关系的结点、语义角色标注词语为时间或地点涵义的结点。
步骤4、以词语的结点嵌入表示作为初始输入,采用上一层的输出根据词语聚合成短语的不同重要程度以及形成的短语对理解事件语义的不同重要程度转化为下一层的输入的方式依次对词语依存树、词语-短语依存树和短语-结构依存树的结点嵌入表示进行更新,以得到每个事件嵌入表示;
优选的,将更新后的词语依存树结点转化成下一层的输入存在如下关系式:
;
其中,表示非线性函数,/>表示注意力的头数,/>表示基于词语聚合成短语的不同重要程度所构建的聚合层转化注意力系数,/>表示基于形成的短语对理解事件语义的不同重要程度所构建的聚合层语义重要性系数,/>采用随机初始化生成,/>表示哈达马积,即矩阵对应元素相乘,/>表示转置操作,/>根据词语依存树(TDP)生成,/>表示聚合层词语-短语的聚合矩阵,/>表示词语-短语依存树中结点的个数,/>表示GAT网络在聚合层输出的嵌入表示,/>表示在聚合层转化后输出的嵌入表示。
优选的,将更新后的词语-短语依存树结点转化成下一层的输入存在如下关系式:
;
其中,表示基于词语聚合成短语的不同重要程度所构建的合并层转化注意力系数,/>根据词语-短语依存树(TPDP)生成,/>表示合并层词语-短语的聚合矩阵,/>表示基于形成的短语对理解事件语义的不同重要程度所构建的合并层语义重要性系数,/>采用随机初始化生成,/>表示短语-结构依存树中合并属于相同事件结点后的结点个数,/>表示GAT网络在合并层输出的嵌入表示,/>表示合并层产生的每个结点的向量维度,/>表示在合并层转化后输出的嵌入表示。
优选的,将更新后的短语-结构依存树结点转化成下一层的输入存在如下关系式:
;
其中,表示基于词语聚合成短语的不同重要程度所构建的映射层转化注意力系数,/>根据短语-结构依存树(PSDP)生成,/>表示映射层词语-短语的聚合矩阵,/>表示基于形成的短语对理解事件语义的不同重要程度所构建的映射层语义重要性系数,/>采用随机初始化生成,/>表示短语-结构依存树中事件结点数量,/>表示GAT网络在映射层输出的嵌入表示,/>表示映射层产生的每个结点的向量维度,/>表示在映射层转化后输出的嵌入表示。
步骤5、判断属于同一个文本中的事件数量是否支持构建事件关联图,若是,则利用文本中事件信息构建事件关联图,将事件嵌入表示输入事件关联图进行更新,以捕获得到以事件为单位的全局信息。
优选的,将事件嵌入表示输入事件关联图进行更新存在如下关系式:
;
其中,表示更新后的事件嵌入表示,/>表示事件应用层的嵌入表示,表示对事件应用层的嵌入表示/>进行图注意力编码,/>存在如下关系式:
;
其中,存在如下关系式:
;
其中,表示池化操作,/>表示由Bi-LSTM输出的词语嵌入根据词语依存树揭示的事件所包含的词语组成的事件嵌入表示。
步骤6,将事件嵌入表示灌溉给下游任务,利用下游任务监督上游模型的训练,生成对应的事件嵌入表示。
进一步的,聚合层转化注意力系数、合并层转化注意力系数和映射层转化注意力系数均采用同一转化注意力系数计算方式,转化注意力系数表达式为:
;
其中,表示非线性函数,/>表示转化注意力系数中的元素,/>表示激活函数,/>表示结点/>的权重向量,/>表示当前层产生的每个结点的向量维度,/>表示聚合层产生的每个结点的向量维度,/>表示结点/>的嵌入表示。
进一步的,在执行上述步骤1至步骤5中,对应的训练方法包括如下训练步骤:
给定的黄金标签;
将最终的事件嵌入表示输入全连接网络;
采用softmax函数计算第i个事件e i 在各标签上的概率分布,概率分布表达式为:
;
其中,表示权重矩阵,/>表示偏置项,/>表示事件/>在参数/>下的最终标签输出,表示第/>个事件的嵌入表示;
采用带权重的交叉熵损失函数作为目标函数计算黄金标签与最终的概率分布的损失值,通过最小化损失以提高输出最终的事件嵌入表示的准确性,目标函数表达式为:
;
其中,表示短语-结构依存树中事件结点数量,/>表示/>类别的权重。
本发明根据概率分布实现主题事件抽取,在抽取完成后还可以采用精确率、召回率、F1值作为评价指标,以评价文档级事件抽取的效果;
;
其中,Precision表示精确率,Recall表示召回率,TP表示被预测为正且真实值为正的样本数,FP表示被预测为正但真实值为负的样本数,FN为被预测为负但真实值为正的样本数。
与现有技术相比,本发明的有益效果为:
1) 本发明不依赖于事先给定的各种关系和外部知识,通过词语-短语-结构-对象的转化策略,有指导地逐步编码事件及其上下文中蕴含的语义信息,进而利用包含事件的文本片段即可实现事件嵌入表示学习。
2) 根据词语聚合成短语的不同重要程度以及形成的短语对理解事件语义的不同重要程度定义注意力机制,揭示每一步转化过程中各原对象在形成新对象时的不同关注度以及形成的新对象对理解事件语义的不同重要程度。
请参照图2,本发明实施例还提供一种基于逐步集成多层注意力的事件表示学习系统,所述系统包括:
编码层:用于对文本的词语进行向量化;
Bi-LSTM层:用于利用双向长短期记忆网络对每个词语进行编码,以捕获文档中词的序列信息,得到隐含状态向量,隐含状态向量既词语的结点嵌入表示;
树构建模块:用于对文本进行句法解析,生成词语依存树及词语短语树;
根据人类理解自然语言时,从词语、短语、结构到对象的理解过程,将词语依存树中属于短语范围的词语信息聚合至短语中心词,以短语中心词代表整个短语,得到词语-短语依存树;
再将所得词语-短语依存树中非核心成分结点信息向上合并至核心成分结点中,利用核心成分结点揭示事件语义,形成结构化的事件核心结点,若干结构化的事件核心结点构成短语-结构依存树;
GAT-转化模块:用于以词语的结点嵌入表示作为初始输入,采用上一层的输出根据词语聚合成短语的不同重要程度以及形成的短语对理解事件语义的不同重要程度转化为下一层的输入的方式依次对词语依存树、词语-短语依存树和短语-结构依存树的结点嵌入表示进行更新,得到每个事件嵌入表示;
判断属于同一个文本中的事件数量是否支持构建事件关联图,若是,则利用文本中事件信息构建事件关联图,将事件嵌入表示输入事件关联图进行更新,捕获以事件为单位的全局信息。
进一步的,还包括有下游任务模块:用于监督上游任务的训练,生成对应的事件嵌入表示。
进一步的,GAT-转化模块包括分别设置于聚合层、合并层、映射层和事件应用层的神经网络(GAT)和设置于聚合层、合并层、映射层,并与图神经网络对应转化模块,图神经网络(GAT)根据输入的结点嵌入表示和图结构,更新结点的嵌入表示;转化模块主要负责相邻层之间不同树结构的转化,保证GAT的有效执行。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (6)
1.一种基于逐步集成多层注意力的事件表示学习方法,其特征在于,所述方法包括如下步骤:
步骤1、对文本的词语进行向量化,利用双向长短期记忆网络捕获文档中词的序列信息,以得到词语的结点嵌入表示;
步骤2、对文本进行句法解析,生成词语依存树及词语短语树;
步骤3、根据人类理解自然语言时,从词语、短语、结构到对象的理解过程,将词语依存树中属于短语范围的词语信息聚合至短语中心词,以短语中心词代表整个短语,以得到词语-短语依存树;
再将所得词语-短语依存树中非核心成分结点信息向上合并至核心成分结点中,利用核心成分结点揭示事件语义,形成结构化的事件核心结点,通过若干结构化的事件核心结点构成短语-结构依存树;
步骤4、以词语的结点嵌入表示作为初始输入,采用上一层的输出根据词语聚合成短语的不同重要程度以及形成的短语对理解事件语义的不同重要程度转化为下一层的输入的方式依次对词语依存树、词语-短语依存树和短语-结构依存树的结点嵌入表示进行更新,以得到每个事件嵌入表示;
步骤5、判断属于同一个文本中的事件数量是否支持构建事件关联图,若是,则利用文本中事件信息构建事件关联图,将事件嵌入表示输入事件关联图进行更新,以捕获得到以事件为单位的全局信息;
在步骤4中,将更新后的词语依存树结点转化成下一层的输入存在如下关系式:
;
其中,表示非线性函数,/>表示注意力的头数,/>表示基于词语聚合成短语的不同重要程度所构建的聚合层转化注意力系数,/>表示基于形成的短语对理解事件语义的不同重要程度所构建的聚合层语义重要性系数,/>采用随机初始化生成,/>表示哈达马积,即矩阵对应元素相乘,/>表示转置操作,/>根据词语依存树生成,表示聚合层词语-短语的聚合矩阵,/>表示文本包含的词语数量,/>表示词语-短语依存树中结点的个数,/>表示GAT网络在聚合层输出的嵌入表示,/>表示在聚合层转化后输出的嵌入表示;
将更新后的词语-短语依存树结点转化成下一层的输入存在如下关系式:
;
其中,表示基于词语聚合成短语的不同重要程度所构建的合并层转化注意力系数,/>根据词语-短语依存树生成,/>表示合并层词语-短语的聚合矩阵,/>表示基于形成的短语对理解事件语义的不同重要程度所构建的合并层语义重要性系数,/>采用随机初始化生成,/>表示短语-结构依存树中合并属于相同事件结点后的结点个数,/>表示GAT网络在合并层输出的嵌入表示,/>表示合并层产生的每个结点的向量维度,/>表示在合并层转化后输出的嵌入表示;
将更新后的短语-结构依存树结点转化成下一层的输入存在如下关系式:
;
其中,表示基于词语聚合成短语的不同重要程度所构建的映射层转化注意力系数,/>根据短语-结构依存树生成,/>表示映射层词语-短语的聚合矩阵,/>表示基于形成的短语对理解事件语义的不同重要程度所构建的映射层语义重要性系数,/>采用随机初始化生成,/>表示短语-结构依存树中事件结点数量,表示GAT网络在映射层输出的嵌入表示,/>表示映射层产生的每个结点的向量维度,/>表示在映射层转化后输出的嵌入表示;
在步骤5中,将事件嵌入表示输入事件关联图进行更新存在如下关系式:
;
其中,表示更新后的事件嵌入表示,/>表示事件应用层的嵌入表示,/>表示对事件应用层的嵌入表示/>进行图注意力编码,/>存在如下关系式:
;
其中,存在如下关系式:
;
其中,表示池化操作,/>表示由Bi-LSTM输出的词语嵌入根据词语依存树揭示的事件所包含的词语组成的事件嵌入表示。
2.根据权利要求1所述的一种基于逐步集成多层注意力的事件表示学习方法,其特征在于,所述方法还包括步骤6:
将事件嵌入表示灌溉给下游任务,利用下游任务监督上游模型的训练,以生成对应的事件嵌入表示。
3.根据权利要求1所述的一种基于逐步集成多层注意力的事件表示学习方法,其特征在于,在执行上述步骤1至步骤5中,对应的训练方法包括如下训练步骤:
给定的黄金标签;
将最终的事件嵌入表示输入全连接网络;
采用softmax函数计算第个事件/>在各标签上的概率分布,概率分布表达式为:
;
其中,表示权重矩阵,/>表示偏置项, />表示事件/>在参数/>下的最终标签输出,/>表示第/>个事件的嵌入表示;
采用带权重的交叉熵损失函数作为目标函数计算黄金标签与最终的概率分布的损失值,通过最小化损失以提高输出最终的事件嵌入表示的准确性,目标函数表达式为:
;
其中,表示短语-结构依存树中事件结点数量,/>表示/>类别的权重。
4.根据权利要求1所述的一种基于逐步集成多层注意力的事件表示学习方法,其特征在于,在步骤1中,利用双向长短期记忆网络对每个词语进行编码的方法具体包括:
将每个词语,采用前向LSTM编码/>至/>的上下文信息/>,再采用后向LSTM编码/>至的上下文/>;
将和/>进行拼接作为词语/>经过Bi-LSTM后的特征表示。
5.根据权利要求1至4任意一项所述的一种基于逐步集成多层注意力的事件表示学习方法,其特征在于,聚合层转化注意力系数、合并层转化注意力系数和映射层转化注意力系数均采用同一转化注意力系数计算方式,转化注意力系数表达式为:
;
其中,表示非线性函数,/>表示转化注意力系数中的元素,/>表示激活函数,/>表示结点/>的权重向量,/>表示当前层产生的每个结点的向量维度, />表示聚合层产生的每个结点的向量维度,/>表示结点/>的嵌入表示。
6.一种基于逐步集成多层注意力的事件表示学习系统,其特征是,所述系统应用如权利要求1所述的基于逐步集成多层注意力的事件表示学习方法,所述系统包括:
编码层:用于对文本的词语进行向量化;
Bi-LSTM层:用于利用双向长短期记忆网络对每个词语进行编码,以捕获文档中词的序列信息,得到隐含状态向量,隐含状态向量既词语的结点嵌入表示;
树构建模块:用于对文本进行句法解析,生成词语依存树及词语短语树;
根据人类理解自然语言时,从词语、短语、结构到对象的理解过程,将词语依存树中属于短语范围的词语信息聚合至短语中心词,以短语中心词代表整个短语,得到词语-短语依存树;
再将所得词语-短语依存树中非核心成分结点信息向上合并至核心成分结点中,利用核心成分结点揭示事件语义,形成结构化的事件核心结点,若干结构化的事件核心结点构成短语-结构依存树;
GAT-转化模块:用于以词语的结点嵌入表示作为初始输入,采用上一层的输出根据词语聚合成短语的不同重要程度以及形成的短语对理解事件语义的不同重要程度转化为下一层的输入的方式依次对词语依存树、词语-短语依存树和短语-结构依存树的结点嵌入表示进行更新,得到每个事件嵌入表示;
判断属于同一个文本中的事件数量是否支持构建事件关联图,若是,则利用文本中事件信息构建事件关联图,将事件嵌入表示输入事件关联图进行更新,捕获以事件为单位的全局信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310917751.9A CN116629237B (zh) | 2023-07-25 | 2023-07-25 | 基于逐步集成多层注意力的事件表示学习方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310917751.9A CN116629237B (zh) | 2023-07-25 | 2023-07-25 | 基于逐步集成多层注意力的事件表示学习方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116629237A CN116629237A (zh) | 2023-08-22 |
CN116629237B true CN116629237B (zh) | 2023-10-10 |
Family
ID=87603152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310917751.9A Active CN116629237B (zh) | 2023-07-25 | 2023-07-25 | 基于逐步集成多层注意力的事件表示学习方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116629237B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613326A (zh) * | 2020-12-18 | 2021-04-06 | 北京理工大学 | 一种融合句法结构的藏汉语言神经机器翻译方法 |
CN112633010A (zh) * | 2020-12-29 | 2021-04-09 | 山东师范大学 | 基于多头注意力和图卷积网络的方面级情感分析方法及系统 |
CN113221539A (zh) * | 2021-07-08 | 2021-08-06 | 华东交通大学 | 一种集成句法信息的嵌套命名实体识别方法与系统 |
WO2021213155A1 (zh) * | 2020-11-25 | 2021-10-28 | 平安科技(深圳)有限公司 | 文本添加标点的方法、装置、介质及电子设备 |
CN113641820A (zh) * | 2021-08-10 | 2021-11-12 | 福州大学 | 基于图卷积神经网络的视角级文本情感分类方法及系统 |
US11194972B1 (en) * | 2021-02-19 | 2021-12-07 | Institute Of Automation, Chinese Academy Of Sciences | Semantic sentiment analysis method fusing in-depth features and time sequence models |
CN114444473A (zh) * | 2022-04-11 | 2022-05-06 | 江西财经大学 | 基于多通道层次图注意力网络的开放事件抽取方法与系统 |
CN114840633A (zh) * | 2022-06-08 | 2022-08-02 | 浙江华巽科技有限公司 | 一种基于异构关联子图的关键词生成方法 |
CN115062146A (zh) * | 2022-06-07 | 2022-09-16 | 重庆邮电大学 | 基于BiLSTM结合多头注意力的中文重叠事件抽取系统 |
CN115809345A (zh) * | 2022-12-01 | 2023-03-17 | 西南科技大学 | 一种基于知识图谱的多源数据差异溯源检索方法 |
WO2023050470A1 (zh) * | 2021-09-30 | 2023-04-06 | 深圳市检验检疫科学研究院 | 一种基于多层图注意力网络的事件检测方法及装置 |
CN116303996A (zh) * | 2023-05-25 | 2023-06-23 | 江西财经大学 | 基于多焦点图神经网络的主题事件抽取方法 |
CN116383399A (zh) * | 2023-03-01 | 2023-07-04 | 武汉大学 | 一种事件舆情风险预测方法及系统 |
-
2023
- 2023-07-25 CN CN202310917751.9A patent/CN116629237B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021213155A1 (zh) * | 2020-11-25 | 2021-10-28 | 平安科技(深圳)有限公司 | 文本添加标点的方法、装置、介质及电子设备 |
CN112613326A (zh) * | 2020-12-18 | 2021-04-06 | 北京理工大学 | 一种融合句法结构的藏汉语言神经机器翻译方法 |
CN112633010A (zh) * | 2020-12-29 | 2021-04-09 | 山东师范大学 | 基于多头注意力和图卷积网络的方面级情感分析方法及系统 |
US11194972B1 (en) * | 2021-02-19 | 2021-12-07 | Institute Of Automation, Chinese Academy Of Sciences | Semantic sentiment analysis method fusing in-depth features and time sequence models |
CN113221539A (zh) * | 2021-07-08 | 2021-08-06 | 华东交通大学 | 一种集成句法信息的嵌套命名实体识别方法与系统 |
CN113641820A (zh) * | 2021-08-10 | 2021-11-12 | 福州大学 | 基于图卷积神经网络的视角级文本情感分类方法及系统 |
WO2023050470A1 (zh) * | 2021-09-30 | 2023-04-06 | 深圳市检验检疫科学研究院 | 一种基于多层图注意力网络的事件检测方法及装置 |
CN114444473A (zh) * | 2022-04-11 | 2022-05-06 | 江西财经大学 | 基于多通道层次图注意力网络的开放事件抽取方法与系统 |
CN115062146A (zh) * | 2022-06-07 | 2022-09-16 | 重庆邮电大学 | 基于BiLSTM结合多头注意力的中文重叠事件抽取系统 |
CN114840633A (zh) * | 2022-06-08 | 2022-08-02 | 浙江华巽科技有限公司 | 一种基于异构关联子图的关键词生成方法 |
CN115809345A (zh) * | 2022-12-01 | 2023-03-17 | 西南科技大学 | 一种基于知识图谱的多源数据差异溯源检索方法 |
CN116383399A (zh) * | 2023-03-01 | 2023-07-04 | 武汉大学 | 一种事件舆情风险预测方法及系统 |
CN116303996A (zh) * | 2023-05-25 | 2023-06-23 | 江西财经大学 | 基于多焦点图神经网络的主题事件抽取方法 |
Non-Patent Citations (3)
Title |
---|
Qian Chen ; Wenyu Zhang.Forecasting Stock Prices Using a Hybrid Deep Learning Model Integrating Attention Mechanism, Multi-Layer Perceptron, and Bidirectional Long-Short Term Memory Neural Network.IEEE Access.2020,第117365-117376页. * |
文本情感分析的特征表示方法研究;姚思诚;中国优秀硕士学位论文全文数据库;第I138-3373页 * |
融合句法依存树注意力的关系抽取研究;张翠;周茂杰;杨志清;;广东通信技术(10);第46-50+74页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116629237A (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112163426B (zh) | 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法 | |
US11256487B2 (en) | Vectorized representation method of software source code | |
JP7468929B2 (ja) | 地理知識取得方法 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN110188979B (zh) | 水行业应急决策生成方法及装置 | |
CN110458181A (zh) | 一种基于宽度随机森林的句法依存模型、训练方法和分析方法 | |
CN106844327B (zh) | 文本编码方法及系统 | |
Zhou | A review of text classification based on deep learning | |
CN103324954A (zh) | 一种基于树结构的图像分类方法及其系统 | |
CN111274790A (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
CN114722820A (zh) | 基于门控机制和图注意力网络的中文实体关系抽取方法 | |
CN114925195A (zh) | 一种融合词汇编码与结构编码的标准内容文本摘要生成方法 | |
CN114841151B (zh) | 基于分解-重组策略的医学文本实体关系联合抽取方法 | |
CN115392248A (zh) | 一种基于上下文和图注意力的事件抽取方法 | |
CN113128237A (zh) | 一种服务资源的语义表征模型构建方法 | |
CN108875024B (zh) | 文本分类方法、系统、可读存储介质及电子设备 | |
CN112100486B (zh) | 一种基于图模型的深度学习推荐系统及其方法 | |
CN116629237B (zh) | 基于逐步集成多层注意力的事件表示学习方法及系统 | |
CN113190655A (zh) | 一种基于语义依赖的空间关系抽取方法及装置 | |
CN116993185A (zh) | 时间序列预测方法、装置、设备及存储介质 | |
CN114065769B (zh) | 情感原因对抽取模型的训练方法、装置、设备及介质 | |
CN113434698B (zh) | 基于全层级注意力的关系抽取模型建立方法及其应用 | |
CN112528015B (zh) | 在消息交互传播中进行谣言判别的方法及装置 | |
CN114936296B (zh) | 超大规模知识图谱存储的索引方法、系统及计算机设备 | |
CN115238075B (zh) | 一种基于超图池化的文本情感分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |