CN114841140A - 依存分析模型及基于依存分析的中文联合事件抽取方法 - Google Patents

依存分析模型及基于依存分析的中文联合事件抽取方法 Download PDF

Info

Publication number
CN114841140A
CN114841140A CN202210452892.3A CN202210452892A CN114841140A CN 114841140 A CN114841140 A CN 114841140A CN 202210452892 A CN202210452892 A CN 202210452892A CN 114841140 A CN114841140 A CN 114841140A
Authority
CN
China
Prior art keywords
word
event
vector
dependency
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210452892.3A
Other languages
English (en)
Inventor
吴昆�
丁国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mairong Intelligent Technology Shanghai Co ltd
Original Assignee
Mairong Intelligent Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mairong Intelligent Technology Shanghai Co ltd filed Critical Mairong Intelligent Technology Shanghai Co ltd
Priority to CN202210452892.3A priority Critical patent/CN114841140A/zh
Publication of CN114841140A publication Critical patent/CN114841140A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于依存分析的中文联合事件抽取方法,首先引入了依存分析构建句法结构加强了信息的深度交互;其次为弥合字词的不一致性设计了三种类型的边表示以计算图卷积特征;最终通过对事件触发词分类任务以及事件论元分类任务联合学习,缓解了传统管道式方法的级联误差传播问题,提升了从文档中抽取事件触发词以及论元的效果。基于依存分析的中文联合事件抽取模型,在对语义进行编码的同时融入了句法结构信息,增强了字之间的信息流动,并且针对中文分词的特性为构建无向图设计了不同类型的边表示。本发明通过融入中文文本中包含的句法结构知识丰富了语义特征表示,并且使用联合学习的方法有效的提高了句子级事件抽取的效果。

Description

依存分析模型及基于依存分析的中文联合事件抽取方法
技术领域
本发明属于自然语言处理中信息抽取的事件抽取研究领域,具体涉及一种依存分析模型及基于依存分析的中文联合事件抽取方法。
背景技术
互联网的高速发展带来了海量的数据,其中蕴含的信息具有极大的价值,而如何在数以亿计的数据中快速定位到所需信息一直是亟待解决的问题。数据的载体多种多样,例如声音、图像、文本等。语言作为人类沟通最重要的途径,对其的研究有助于帮助机器理解人类智能,由此诞生了自然语言处理领域。而文本与语言密不可分,人类的绝大部分知识都是以语言文字的形式记载和流传下来的,因此对于文本的研究一直是人工智能的核心部分。结合上述研究领域和问题,信息抽取类任务应运而生,其用于在文本中将人们所需的核心信息提取出来。
事件抽取作为信息抽取领域内的核心任务,旨在将事件从自然文本中提取出来并以表格类的结构化形式用以表示。一个完整的事件由一个定义事件类型的事件触发词和多个事件涉及的论元构成,触发词和论元常为实体。按照抽取阶段划分,事件抽取任务可分解为事件触发词抽取和事件论元抽取两个子任务。事件触发词抽取是将指示事件类型的关键单词(常为动词或名词)从文本中抽取出来,而事件论元抽取则是在已知事件触发词及事件类型的基础上将该事件涉及的所有论元抽取出来。对于完整事件抽取任务,传统的管道式方法将上述两个子任务依次执行,但是该方法存在较为严重的级联误差传播问题。
为了削弱管道式事件抽取方法带来的级联误差传播问题,出现了将两个子任务使用同一模型共同训练的联合事件抽取模型。但现有联合事件抽取方法在抽取论元时仅仅关注文本语义信息,而对于句法结构信息涉猎较少。因此如何在编码过程中融入句法结构信息以指导信息的抽取具有广泛的研究价值。
发明内容
本发明所要解决的技术问题是:提供一种依存分析模型及基于依存分析的中文联合事件抽取方法,解决了现有技术中涉及句法结构信息的事件论元抽取算法涉及少影响数据处理精度及效率的问题。
本发明为解决上述技术问题采用以下技术方案:
一种基于文本表征的依存分析模型构建方法,首先,将文本进行分词,并且使用依存句法分析得到词与词之间的主从关系,建立词与词之间的依存关系;其次,构建三种类型的边,并对应三种类型的边分别生成三个二维邻接矩阵构建图表示,使用无向图表示该依存关系;然后,将初始文本表征输入图卷积神经网络,使用无向图聚合邻居节点信息,将卷积神经网络的输出与初始文本表征进行融合;最后,将融合后得到的分类向量作为该模型的输出。
使用无向图表示依存关系的具体过程如下:
将词之间的依存关系简化为词首字间的依存关系,构建三种类型的边表示,分别为ealong,eloop,erev;依照预先建立的依存关系为三种边构建二维邻接矩阵,将依存关系抽象为无向图表示;所述邻接矩阵均以单字为节点,若两个节点之间存在关系,则将邻接矩阵对应位置的值置为1,反之置为0。
所述融合获取分类向量的具体过程如下:
将获取的词嵌入文本表征,作为图卷积神经网络的初始输入,结合无向图对邻居节点信息进行聚合,计算图卷积向量;将三种边类型的图卷积向量进行拼接,并使用激活函数更新第k+1层的节点向量,将最后一层图卷积网络的输出和词嵌入文本表征结合,获取最终的分类向量,其中,k表示图卷积的层数。
根据如下公式计算图卷积向量
Figure BDA0003619505720000021
Figure BDA0003619505720000022
其中,v表示当前更新节点,K(v,u)指示当前边的类型,对应于ealong,eloop,erev三种,N(v,K(v,u))是当前节点在当前边的邻居节点集合,即二维邻接矩阵中值为1的部分,
Figure BDA0003619505720000023
Figure BDA0003619505720000024
是节点和边类型约束的权重矩阵和偏移量参数。
所述依存句法分析中,使用官方工具包Stanford CoreNLP进行中文文本依存关系分析,首先将中文文本进行分词,经过依存分析得到以词为单位的支配词与从属词之间的中文句法依存关系。
一种基于依存分析的中文联合事件抽取方法,包括如下步骤:
步骤1、预处理包含事件类型以及描述该事件的输入文本,使用预训练语言模型对数据集中的文本进行编码,得到模型的初始文本表征;
步骤2、将原始输入文本进行分词,并将分词结果和步骤1得到的文本表征输入所述依存分析模型,获取融合分类向量;
步骤3、将步骤2中得到的分类向量输入事件触发词分类器,使用0/1标注格式对每个事件类型的候选触发词的首尾索引进行预测,计算当前字是触发词开始和结束的分类概率向量pts/te
步骤4、将步骤2得到的分类向量输入事件论元分类器,使用0/1标注格式对每个角色类型的候选论元的首尾索引进行预测,计算当前字是该论元开始和结束字的分类概率向量pas/ae
步骤5、使用步骤3得到的向量pts/te和步骤4得到的向量pas/ae分别进行触发词和论元的抽取,通过参数共享和联合学习进行训练,经过迭代得到最优模型。
所述步骤1的具体过程如下:
划分训练集和测试集,将文档中的长文档分隔为固定长度为200个字的句子集合,其中一个句子对应数据集中的一条样本,使用预训练语言模型BERT进行词嵌入表示得到初始文本表征h。
所述步骤3的具体过程如下:
将步骤2所得融合分类向量输入事件触发词分类器,使用独立前馈神经网络为每一个事件类型计算当前字是触发词开始和结束的分类概率:
pts/te(i)=W1ts/te(tanh(W2ts/te·gi+b2ts/te))+b1ts/te
其中ts指示触发词开始索引,te指示触发词结束索引。W1ts,b1ts,W1te,b1te,W2ts,b2ts,W2te,b2te均为可学习参数矩阵。
所述步骤4的具体过程如下:
将步骤2所得的融合分类向量输入事件论元分类器,使用前馈神经网络为每一个论元角色计算当前字是该论元开始和结束字的分类概率:
pas/ae(i)=W1as/ae(tanh(W2as/ae·gi+b2as/ae))+b1as/ae
其中as指示论元开始索引,ae指示论元结束索引。W1as,b1as,W1ae,b1ae,W2as,b2as,W2ae,b2ae均为可学习参数矩阵。
所述步骤5的具体过程如下:
将步骤3得到的向量pts/te和步骤4得到的向量pas/ae使用多个二分类器进行分类,使用argmax函数得到预测的0/1标签,指示当前字是否为特定事件触发词或者论元角色的实体开头或者结尾,同时抽取出事件触发词以及事件涉及论元:
yts/te=argmax(pts/te)
yas/ae=argmax(pas/ae)。
与现有技术相比,本发明具有以下有益效果:
1、该方案首先引入了依存分析构建句法结构加强了信息的深度交互;其次为弥合字词的不一致性设计了三种类型的边表示以计算图卷积特征;最终通过对事件触发词分类任务以及事件论元分类任务联合学习,缓解了传统管道式方法的级联误差传播问题,提升了从文档中抽取事件触发词以及论元的效果。
2、基于依存分析的中文联合事件抽取模型,在对语义进行编码的同时融入了句法结构信息,增强了字之间的信息流动,并且针对中文分词的特性为构建无向图设计了不同类型的边表示。
3、该方案通过依存分析对单词间的直接关联关系进行建模,并且使用图卷积神经网络将这种句法结构信息与文本语义信息相结合,最终用于联合事件抽取任务,从而同时提升事件触发词和事件论元的抽取结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明一种基于依存分析的中文联合事件抽取方法流程图。
图2是本发明使用的依存分析主从依赖关系示意图。
图3是本发明使用的基于三种边的依存关系抽象示意图。
图4是本发明中图卷积神经网络使用的无向图示意图。
图5是本发明进行中文联合事件抽取任务的整体结构示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
为了更好说明本实施例,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。
本发明的目的在于克服现有技术存在的缺陷,提供一种基于依存分析的中文联合事件抽取方法,以在缓解级联误差传播的基础上更好地利用句法结构信息,将结构与语义相结合,最终提升算法的分类精度。
为解决上述技术问题,本发明基于依存分析构建单词之间基于句法结构的关联信息,并使用图卷积神经网络建模这种依赖信息,并将句法信息与语义信息进行充分融合以得到用于分类的好的向量表示。提出并实现了一种新颖的中文联合事件抽取方法。
本发明的创新主要包括以下几方面:
1)提出使用依存句法分析在文本语义中融入句法结构信息。
2)提出三种类型的边使用图卷积网络从中文文本中聚合邻居节点特征。
3)提出基于依存分析的联合学习模型共同学习触发词抽取和论元抽取两个子任务。
一种基于文本表征的依存分析模型构建方法,首先,将文本进行分词,并且使用依存句法分析得到词与词之间的主从关系,建立词与词之间的依存关系;其次,构建三种类型的边,并对应三种类型的边分别生成三个二维邻接矩阵构建图表示,使用无向图表示该依存关系;然后,将初始文本表征输入图卷积神经网络,使用无向图聚合邻居节点信息,将卷积神经网络的输出与初始文本表征进行融合;最后,将融合后得到的分类向量作为该模型的输出。
使用无向图表示依存关系的具体过程如下:
将词之间的依存关系简化为词首字间的依存关系,构建三种类型的边表示,分别为ealong,eloop,erev;e是代表边的意思,along是一种类型,ealong表示along类型的边;依照预先建立的依存关系为三种边构建二维邻接矩阵,将依存关系抽象为无向图表示;所述邻接矩阵均以单字为节点,若两个节点之间存在关系,则将邻接矩阵对应位置的值置为1,反之置为0。
所述融合获取分类向量的具体过程如下:
将获取的词嵌入文本表征,作为图卷积神经网络的初始输入,结合无向图对邻居节点信息进行聚合,计算图卷积向量;将三种边类型的图卷积向量进行拼接,并使用激活函数更新第k+1层的节点向量,将最后一层图卷积网络的输出和词嵌入文本表征结合,获取最终的分类向量,其中,k表示图卷积的层数。
根据如下公式计算图卷积向量
Figure BDA0003619505720000051
Figure BDA0003619505720000061
其中,v表示当前更新节点,K(v,u)指示当前边的类型,对应于ealong,eloop,erev三种,N(v,K(v,u))是当前节点在当前边的邻居节点集合,即二维邻接矩阵中值为1的部分,
Figure BDA0003619505720000062
Figure BDA0003619505720000063
是节点和边类型约束的权重矩阵和偏移量参数。
所述依存句法分析中,使用官方工具包Stanford CoreNLP进行中文文本依存关系分析,首先将中文文本进行分词,经过依存分析得到以词为单位的支配词与从属词之间的中文句法依存关系。
一种基于依存分析的中文联合事件抽取方法,包括如下步骤:
步骤1、预处理包含事件类型以及描述该事件的输入文本,使用预训练语言模型对数据集中的文本进行编码,得到模型的初始文本表征;
步骤2、将原始输入文本进行分词,并将分词结果和步骤1得到的文本表征输入所述依存分析模型,获取融合分类向量;
步骤3、将步骤2中得到的分类向量输入事件触发词分类器,使用0/1标注格式对每个事件类型的候选触发词的首尾索引进行预测,计算当前字是触发词开始和结束的分类概率向量pts/te
步骤4、将步骤2得到的分类向量输入事件论元分类器,使用0/1标注格式对每个角色类型的候选论元的首尾索引进行预测,计算当前字是该论元开始和结束字的分类概率向量pas/ae
步骤5、使用步骤3得到的向量pts/te和步骤4得到的向量pas/ae分别进行触发词和论元的抽取,通过参数共享和联合学习进行训练,经过迭代得到最优模型。
具体实施例,如图1至图5所示,
一种基于依存分析的联合事件抽取方法,该方法包括以下步骤:
S1:预处理包含事件类型以及描述该事件的输入文本,使用预训练语言模型对数据集中的文本进行编码,得到模型的初始文本表征;
S2:将原始输入文本进行分词,并且使用依存句法分析得到词与词之间的主从关系,在句子中,如果一个词修饰另一个词,则称修饰词为从属词,被修饰的词语称为支配词,两者之间的语法关系称为依存关系;
S3:使用无向图表示步骤S2得到的依存关系,设计了三种类型的边表示,分别为ealong,eloop,erev,对应于三种类型的边分别生成三个二维邻接矩阵,构建无向图表示;所述邻接矩阵均以单字为节点,若两个节点之间存在关系,则将邻接矩阵对应位置的值置为1,反之置为0;
S4:将步骤S1得到的初始文本表征输入图卷积神经网络,使用步骤S3构建的无向图聚合邻居节点信息,计算图卷积向量;将三种边类型的图卷积向量进行拼接,并使用激活函数更新第k+1层的节点向量,将最后一层图卷积网络的输出和词嵌入文本表征结合,获取最终的分类向量,其中,k表示图卷积的层数;
S5:将步骤4得到的分类向量输入事件触发词分类器,使用0/1标注格式对每个事件类型的候选触发词的首尾索引进行预测,计算当前字是触发词开始和结束的分类概率向量pts/te
S6:将步骤4得到的分类向量输入事件论元分类器,使用0/1标注格式对每个角色类型的候选论元的首尾索引进行预测,计算当前字是该论元开始和结束字的分类概率向量pas/ae
S7:使用步骤5得到的向量pts/te和步骤6得到的向量pas/ae分别进行触发词和论元的抽取,通过参数共享和联合学习进行训练,经过迭代得到最优模型。
所述步骤S1的具体过程如下:
将训练模型所用数据集划分为训练集和测试集,将数据集中的文档以最大长度200个字分隔为句子集合,以句子为单位进行触发词和事件论元抽取,其中,一个句子对应数据集中的一条样本,使用预训练的语言模型BERT进行编码,将每个字映射到固定维度dh的向量以得到通用的语义嵌入文本表征h:
{h1,h2,...,hN}=BERT{t1,t2,...,tN}
其中hi为对应于每个字的词嵌入表征,N指示文本序列长度;文本表征h的大小为N*dh
所述步骤S2的具体过程如下:
使用官方工具Stanford CoreNLP进行分词和依存句法分析,对于中文文本,Stanford CoreNLP首先进行分词,紧接着以词为单位得到词语之间基于中文语法的关系,即支配词与从属词间的关系,例如直接宾语(dobj)、复合名词修饰(nmod)、从句补语(ccomp)等,依存分析直接结果示意图如图2所示,得到中文分词结果和依存句法树结构。
例如“首钢”和“斥资”这两个词之间用nsubj(名词主语)类型的边相连接,表示“斥资”这个动作的名词主语是“首钢”;“1993年”和“斥资”这两个词之间用nmod(复合名词修饰)类型的边相连,表示“1993年”修饰“斥资”这个行为。
所述步骤S3的具体过程如下:
步骤S300:使用无向图表示文本依存关系。
步骤S301:由于步骤S1得到的词嵌入文本表征以字为单位,而步骤S2得到的句法依存关系以词为单位,导致依存分析的结果无法直接使用;为了弥合两阶段差异,需要将依存关系转换为以字为单位的无向图表示;因此将词之间的直接关联转换为词的首字之间的直接关联,同时为了不丢失分词结果的信息,引入了自循环边(loop)表示字在分词结果中属于同一词。
步骤302:为了区分节点在原依存分析树中的信息流向,设计了along类型的边表示从支配词流入从属词的边,rev类型的边表示从从属词流入支配词的边。最终经过上述步骤简化得到的依存分析关系图如图3所示。例如“首”和“斥”这两个字之间分别有along类型的边和rev类型的边,“首”和“钢”这两个字之间有loop类型的边。
步骤303:结合图4对于上述三种边构建三个邻接矩阵表示依存关系无向图。三个邻接矩阵的大小均为N*N,N为文本长度,也指代节点个数;其中文本中的每个字为一个节点,若两个节点存在关联,则将其在邻接矩阵中的对应值置为1,反之为0。所述步骤S4的具体过程如下:
步骤S400:基于步骤S3得到邻接矩阵使用图卷积神经网络聚合邻居节点信息。
步骤S401:将步骤S1得到的词嵌入作为图卷积神经网络的初始输入。
Figure BDA0003619505720000081
其中hi是文本中第i个字的词嵌入表示,vi指示该字的节点表示,0指代卷积神经网络层数,即当前向量仅包含自身节点信息,还未开始聚合信息。
步骤S402:使用步骤S3得到的无向图进行信息聚合,V=(v1,v2,...,vN)是节点的集合。对于第k层的图卷积神经网络,我们对任意v∈V计算图卷积向量
Figure BDA0003619505720000082
Figure BDA0003619505720000091
其中v表示当前更新节点,K(v,u)指示当前边的类型,对应于along,loop,rev三种,N(v,K(v,u))是当前节点在当前边的邻居节点集合,即二维邻接矩阵中值为1的部分,
Figure BDA0003619505720000092
Figure BDA0003619505720000093
是节点和边类型约束的权重矩阵和偏移量参数。经过该步骤节点不断聚合来自依存分析结果中邻居节点的信息,并且随着图卷积神经网络层数的增加,当前节点还能聚合来自几跳外的邻居节点信息。
步骤S403:步骤S402得到三种边类型的隐藏向量表示,将三者进行拼接并使用激活函数f得到第k+1层向前传递的最终向量
Figure BDA0003619505720000094
完成了图节点向量的更新。
Figure BDA0003619505720000095
步骤S404:将最后一层图卷积网络的输出和步骤S1得到的词嵌入h融合得到用于分类触发词和事件角色的向量g:
Figure BDA0003619505720000096
其中,i指示当前字索引,hi是原始语义向量,
Figure BDA0003619505720000097
是经过几跳迭代融合了句法结构信息的图卷积神经网络的输出向量,λ为超参数,控制依存句法分析的影响因子。
所述步骤S5的具体过程如下:
将步骤S4所得向量g分别输入两个双仿射层(即所述的输入事件触发词分类器),得到对应于事件触发词首尾索引的概率矩阵,使用前馈神经网络为每一个事件类型的开始和结束字计算其分类概率pts/te
pts/te(i)=W1ts/te(tanh(W2ts/te·gi+b2ts/te))+b1ts/te
其中,W1ts,b1ts,W1te,b1te,W2ts,b2ts,W2te,b2te均为可学习参数矩阵,pts指示触发词开始索引,pte指示当前字成为触发词结束(end)位置索引的概率,二者大小均为N*nume*2,其中,N为文本序列长度,nume为事件类型数目。
所述步骤S6的具体过程如下:
将步骤S4所得向量g输入另外两个独立的双仿射层(即所述的事件论元分类器),得到对应于事件论元首尾索引的概率矩阵pas/ae,使用前馈神经网络为每一个论元角色的开始和结束字计算其分类概率:
pas/ae(i)=W1as/ae(tanh(W2as/ae·gi+b2as/ae))+b1as/ae
其中W1as,b1as,W1ae,b1ae,W2as,b2as,W2ae,b2ae均为可学习参数矩阵,pas指示当前字成为某一论元开始(start)位置索引的概率,pae指示当前字成为某一论元结束(end)位置索引的概率,二者大小均为N*numr*2,其中,numr为论元角色数目。
所述步骤S7的具体过程如下:
步骤S700:同时抽取事件触发词及事件论元。
步骤S701:将步骤S5所得向量pts/te使用触发词分类器进行分类,使用argmax函数得到预测的0/1标签,1代表该字是某一触发词的开始/结束索引,反之为0,并且得到事件类型。
yts/te=argmax(pts/te)
步骤S702:将步骤S6所得向量pas/ae使用论元分类器进行分类,使用argmax函数得到预测的0/1标签1代表该字是某一事件论元的开始/结束索引,反之则为0。
yas/ae=argmax(pas/ae)。
综上所述,本方案使用预训练的语言模型BERT模型将文本序列编码成词嵌入表示;使用官方工具进行分析得到中文句法结构蕴含的依存关系;针对中文特性设计三种不同类型的边表示并且使用二维矩阵将依存关系抽象为无向图表示;依据无向图使用图神经网络进行邻居节点信息聚合得到融合了中文句法结构信息的分类表征;使用事件分类器抽取事件触发词以及事件类型;使用论元分类器得到该事件涉及所有相关元素。本发明通过融入中文文本中包含的句法结构知识丰富了语义特征表示,并且使用联合学习的方法有效的提高了句子级事件抽取的效果。
至此,基于依存分析的中文联合事件抽取方法已经完成。通过上述方案,充分挖掘并利用了中文句法信息以增强文本语义,在编码过程中充分考虑了中文语句的特点将文本依存关系构建成无向图表示,并且使用图卷积神经网络充分融合了事件文本中蕴含的句法结构信息,增强了文本上下文的关联,最终使用联合学习的方式使得事件触发词及元素抽取的精度和性能得以提升。
本领域技术人员应该理解,本领域技术人员在结合现有技术以及上述实施例可以实现变化例,在此不做赘述。这样的变化例并不影响本发明的实质内容,在此不予赘述。
以上对本发明的较佳实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施;任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例,这并不影响本发明的实质内容。因此,本发明的保护范围应以权利要求的保护范围为准,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围。

Claims (10)

1.一种基于文本表征的依存分析模型构建方法,其特征在于:首先,将文本进行分词,并且使用依存句法分析得到词与词之间的主从关系,建立词与词之间的依存关系;其次,构建三种类型的边,并对应三种类型的边分别生成三个二维邻接矩阵构建图表示,使用无向图表示该依存关系;然后,将初始文本表征输入图卷积神经网络,使用无向图聚合邻居节点信息,将卷积神经网络的输出与初始文本表征进行融合;最后,将融合后得到的分类向量作为该模型的输出。
2.根据权利要求1所述的基于文本表征的依存分析模型构建方法,其特征在于:使用无向图表示依存关系的具体过程如下:
将词之间的依存关系简化为词首字间的依存关系,构建三种类型的边表示,分别为ealong,eloop,erev;依照预先建立的依存关系为三种边构建二维邻接矩阵,将依存关系抽象为无向图表示;所述邻接矩阵均以单字为节点,若两个节点之间存在关系,则将邻接矩阵对应位置的值置为1,反之置为0。
3.根据权利要求2所述的基于文本表征的依存分析模型构建方法,其特征在于:所述融合获取分类向量的具体过程如下:
将获取的词嵌入文本表征,作为图卷积神经网络的初始输入,结合无向图对邻居节点信息进行聚合,计算图卷积向量;将三种边类型的图卷积向量进行拼接,并使用激活函数更新第k+1层的节点向量,将最后一层图卷积网络的输出和词嵌入文本表征结合,获取最终的分类向量,其中,k表示图卷积的层数。
4.根据权利要求3所述的基于文本表征的依存分析模型构建方法,其特征在于:根据如下公式计算图卷积向量
Figure FDA0003619505710000011
Figure FDA0003619505710000012
其中,v表示当前更新节点,K(v,u)指示当前边的类型,对应于ealong,eloop,erev三种,N(v,K(v,u))是当前节点在当前边的邻居节点集合,即二维邻接矩阵中值为1的部分,
Figure FDA0003619505710000013
Figure FDA0003619505710000014
是节点和边类型约束的权重矩阵和偏移量参数。
5.根据权利要求1所述的基于文本表征的依存分析模型构建方法,其特征在于:所述依存句法分析中,使用官方工具包Stanford CoreNLP进行中文文本依存关系分析,首先将中文文本进行分词,经过依存分析得到以词为单位的支配词与从属词之间的中文句法依存关系。
6.一种基于依存分析的中文联合事件抽取方法,其特征在于:包括如下步骤:
步骤1、预处理包含事件类型以及描述该事件的输入文本,使用预训练语言模型对数据集中的文本进行编码,得到模型的初始文本表征;
步骤2、将原始输入文本进行分词,并将分词结果和步骤1得到的文本表征输入权利要求1至5中任一项所述依存分析模型,获取融合分类向量;
步骤3、将步骤2中得到的分类向量输入事件触发词分类器,使用0/1标注格式对每个事件类型的候选触发词的首尾索引进行预测,计算当前字是触发词开始和结束的分类概率向量pts/te
步骤4、将步骤2得到的分类向量输入事件论元分类器,使用0/1标注格式对每个角色类型的候选论元的首尾索引进行预测,计算当前字是该论元开始和结束字的分类概率向量pas/ae
步骤5、使用步骤3得到的向量pts/te和步骤4得到的向量pas/ae分别进行触发词和论元的抽取,通过参数共享和联合学习进行训练,经过迭代得到最优模型。
7.根据权利要求6所述的基于依存分析的中文联合事件抽取方法,其特征在于:所述步骤1的具体过程如下:
划分训练集和测试集,将文档中的长文档分隔为固定长度为200个字的句子集合,其中一个句子对应数据集中的一条样本,使用预训练语言模型BERT进行词嵌入表示得到初始文本表征h。
8.根据权利要求6所述的基于依存分析的中文联合事件抽取方法,其特征在于:所述步骤3的具体过程如下:
将步骤2所得融合分类向量输入事件触发词分类器,使用独立前馈神经网络为每一个事件类型计算当前字是触发词开始和结束的分类概率:
pts/te(i)=W1ts/te(tanh(W2ts/te·gi+b2ts/te))+b1ts/te
其中ts指示触发词开始索引,te指示触发词结束索引。W1ts,b1ts,W1te,b1te,W2ts,b2ts,W2te,b2te均为可学习参数矩阵。
9.根据权利要求6所述的基于依存分析的中文联合事件抽取方法,其特征在于:所述步骤4的具体过程如下:
将步骤2所得的融合分类向量输入事件论元分类器,使用前馈神经网络为每一个论元角色计算当前字是该论元开始和结束字的分类概率:
pas/ae(i)=W1as/ae(tanh(W2as/ae·gi+b2as/ae))+b1as/ae
其中as指示论元开始索引,ae指示论元结束索引。W1as,b1as,W1ae,b1ae,W2as,b2as,W2ae,b2ae均为可学习参数矩阵。
10.根据权利要求6所述的基于多层级注意力机制的事件论元抽取方法,其特征在于:所述步骤5的具体过程如下:
将步骤3得到的向量pts/te和步骤4得到的向量pas/ae使用多个二分类器进行分类,使用argmax函数得到预测的0/1标签,指示当前字是否为特定事件触发词或者论元角色的实体开头或者结尾,同时抽取出事件触发词以及事件涉及论元:
yts/te=argmax(pts/te)
yas/ae=argmax(pas/ae)。
CN202210452892.3A 2022-04-27 2022-04-27 依存分析模型及基于依存分析的中文联合事件抽取方法 Pending CN114841140A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210452892.3A CN114841140A (zh) 2022-04-27 2022-04-27 依存分析模型及基于依存分析的中文联合事件抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210452892.3A CN114841140A (zh) 2022-04-27 2022-04-27 依存分析模型及基于依存分析的中文联合事件抽取方法

Publications (1)

Publication Number Publication Date
CN114841140A true CN114841140A (zh) 2022-08-02

Family

ID=82568000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210452892.3A Pending CN114841140A (zh) 2022-04-27 2022-04-27 依存分析模型及基于依存分析的中文联合事件抽取方法

Country Status (1)

Country Link
CN (1) CN114841140A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116049446A (zh) * 2023-03-07 2023-05-02 华侨大学 一种事件抽取方法、装置、设备及计算机可读存储介质
CN116049345A (zh) * 2023-03-31 2023-05-02 江西财经大学 基于双向事件完全图的文档级事件联合抽取方法及系统
CN116628210A (zh) * 2023-07-24 2023-08-22 广东美的暖通设备有限公司 基于对比学习对智慧楼宇故障事件抽取的故障确定方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116049446A (zh) * 2023-03-07 2023-05-02 华侨大学 一种事件抽取方法、装置、设备及计算机可读存储介质
CN116049345A (zh) * 2023-03-31 2023-05-02 江西财经大学 基于双向事件完全图的文档级事件联合抽取方法及系统
CN116049345B (zh) * 2023-03-31 2023-10-10 江西财经大学 基于双向事件完全图的文档级事件联合抽取方法及系统
CN116628210A (zh) * 2023-07-24 2023-08-22 广东美的暖通设备有限公司 基于对比学习对智慧楼宇故障事件抽取的故障确定方法
CN116628210B (zh) * 2023-07-24 2024-03-19 广东美的暖通设备有限公司 基于对比学习对智慧楼宇故障事件抽取的故障确定方法

Similar Documents

Publication Publication Date Title
Nandwani et al. A primal dual formulation for deep learning with constraints
Zhang et al. Learning structured representation for text classification via reinforcement learning
CN114841140A (zh) 依存分析模型及基于依存分析的中文联合事件抽取方法
CN111985245A (zh) 基于注意力循环门控图卷积网络的关系提取方法及系统
CN112507699B (zh) 一种基于图卷积网络的远程监督关系抽取方法
JP2010250814A (ja) 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法
CN113392651A (zh) 训练词权重模型及提取核心词的方法、装置、设备和介质
JP2017076281A (ja) 単語埋込学習装置、テキスト評価装置、方法、及びプログラム
Wang et al. Tag-enhanced tree-structured neural networks for implicit discourse relation classification
CN114217766A (zh) 基于预训练语言微调与依存特征的半自动需求抽取方法
CN114218928A (zh) 一种基于图知识和主题感知的抽象文本摘要方法
CN114880427A (zh) 基于多层级注意力机制的模型、事件论元抽取方法及系统
CN116562286A (zh) 一种基于混合图注意力的智能配置事件抽取方法
CN114818682B (zh) 基于自适应实体路径感知的文档级实体关系抽取方法
CN116414988A (zh) 基于依赖关系增强的图卷积方面级情感分类方法及系统
CN114491029B (zh) 基于图神经网络的短文本相似度计算方法
CN114065770B (zh) 一种基于图神经网络构建语义知识库的方法及系统
CN110377753A (zh) 基于关系触发词与gru模型的关系抽取方法及装置
CN113449517B (zh) 基于bert门控多窗口注意力网络模型的实体关系抽取方法
CN113408289B (zh) 一种多特征融合的供应链管理实体知识抽取的方法及系统
CN116468030A (zh) 一种基于多任务神经网络的端到端方面级情感分析方法
CN113901813A (zh) 一种基于主题特征和隐式句子结构的事件抽取方法
Castellana et al. Learning from non-binary constituency trees via tensor decomposition
CN113111288A (zh) 一种融合非结构化和结构化信息的Web服务分类方法
Li et al. Using big data from the web to train chinese traffic word representation model in vector space

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination