CN111581396B - 一种基于多维特征融合与依存句法的事件图谱构建系统及方法 - Google Patents

一种基于多维特征融合与依存句法的事件图谱构建系统及方法 Download PDF

Info

Publication number
CN111581396B
CN111581396B CN202010373498.1A CN202010373498A CN111581396B CN 111581396 B CN111581396 B CN 111581396B CN 202010373498 A CN202010373498 A CN 202010373498A CN 111581396 B CN111581396 B CN 111581396B
Authority
CN
China
Prior art keywords
event
events
text
relationship
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010373498.1A
Other languages
English (en)
Other versions
CN111581396A (zh
Inventor
饶元
王硕
樊笑冰
刘旭辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202010373498.1A priority Critical patent/CN111581396B/zh
Publication of CN111581396A publication Critical patent/CN111581396A/zh
Application granted granted Critical
Publication of CN111581396B publication Critical patent/CN111581396B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于多维特征融合与依存句法的事件图谱构建系统及方法,通过利用多维特征融合的事件抽取、事件修正与对齐、基于增强结构化事件的关系抽取、基于依存句法与图注意力网络的因果关系抽取、事件图谱生成模块的联合学习,实现了基于多维特征融合与依存句法的事件图谱构建方法。本发明通过增强的结构化事件的五元组信息、四个维度的事件间关系构建事件图谱,克服了现有技术中事件表示简单且依赖NLP工具、事件关系单一、未同时考虑事件与事件间关系对事件图谱构建的影响的缺陷。本发明提出的事件图谱构建方法,依据下游任务不同,可以将四种维度的事件间关系任意组合,学习事件图谱的结构特性与潜在的知识联系,从而辅助下游应用。

Description

一种基于多维特征融合与依存句法的事件图谱构建系统及 方法
【技术领域】
本发明属于电子信息技术领域,涉及一种基于多维特征融合与依存句法的事件图谱构建系统及方法。
【背景技术】
大数据时代的知识图谱技术将海量信息以结构化的“实体-关系-实体”三元组进行连接与存储,从而将网络中海量的非结构化与半结构化信息有效的组织起来,并构成了知识语义网络,在司法、金融、突发事件等相关领域的取得了突出的应用效果,成为目前人工智能应用的重要方向之一。但随着业务需求的增长,传统的知识图谱所描述的实体及实体间的关系对已无法满足不同的智能化系统对知识推理与服务的需求。一方面,知识图谱在知识表示上,所描述的知识大多为相对确定的静态知识,无法适应知识的快速变化而导致已有知识的失效;另一方面,在基于知识图谱的知识推理应用上,“实体-关系-实体”的组织结构可回答“什么是什么的问题”,却不能回答“什么事”,“为什么”,“接下来是什么”等具有逻辑与时序性的复杂问题,同时也无法对一些事件的演化规律进行推理与预测。例如,在面对着网络中的大量突发事件处理应用中,利用传统的知识图谱已无法追踪预测突发事件、判断其影响力来辅助突发事件的决策;特别是在司法领域的应用上,检察官在实际办案过程中也往往需要人工梳理分析案件中不同事件间的人物关系、空间关系、时序关系等,从而判断案件中存在的可疑点或矛盾点,或利用以往案例库信息,来寻找不同案件间的局部关联性,并从中发现更细粒度的事件线索来辅助案件分析与决策。因此,如何将构建一个有效的事件图谱来辅助不同业务的具体应用,则是人工智能应用领域中一个亟需解决的问题。
目前事件图谱构建方法主要存在以下四个方面的问题:
一是事件表示简单,定义不统一,且抽取依赖NLP工具,会造成误差传播问题。事件作为构建事件图谱的元节点,其表示形式的合理性与准确性对事件图谱构建起着关键性的作用;
二是事件间关系单一,多数研究仅针对因果关系或者时序关系进行研究。而事件关系则是事件图谱构建的重中之重,在事件预测与推理、智能问答、故事线生成等应用上,事件多维度的关系会从不同侧面反映出事物发展的规律与模式。但现有研究往往还忽略了空间关系、深层次的语义关系的重要性;
三是未同时考虑事件与事件间关系对事件图谱构建的影响,而现有研究往往仅从结构化元事件的抽取性能或事件间关系的抽取性能上来考虑事件图谱的构建质量,这种评价方式并不完善;
四是由于文本的多源性以及表述的独特性,多个文本或单个文本内部可能存在共指事件,从而导致事件图谱较为冗余。
【发明内容】
本发明的目的在于解决现有技术中的问题,提供一种基于多维特征融合与依存句法的事件图谱构建系统及方法,该方法通过利用多维特征融合的事件抽取、事件修正与对齐、基于增强结构化事件的关系抽取、基于依存句法与图注意力网络的因果关系抽取、事件图谱生成模块的联合学习,实现了基于多维特征融合与依存句法的事件图谱构建方法。
为达到上述目的,本发明采用以下技术方案予以实现:
一种基于多维特征融合与依存句法的事件图谱构建系统,包括:
多维特征融合的事件抽取模块,用于采用预训练语言模型BERT学习文本向量表示,与事件元素的实体类型倾向性特征、词性倾向性特征相融合,同时使用多尺度卷积神经网络与双向长短期记忆网络捕捉不同长度事件元素的多尺度局部突出特征与上下文语境特征,最终采用CRF获取最佳序列标注;
事件修正与对齐模块,用于采用事件修正将事件的时间与地点元素标准化,通过判断事件关键信息是否缺失过滤掉不完备事件,并利用语义相似度计算方法将共指事件对齐,从而获得增强的结构化事件;
基于增强结构化事件的关系抽取模块,用于利用事件修正与对齐模块来获取并增强结构化事件中的时间与地点元素,通过时序关系、空间关系的定义,抽取事件间的时序关系与空间关系;然后利用增强的结构化事件进行相似度计算,再通过设置阈值表示判断两事件是否语义相关,从而抽取语义关系;
基于依存句法与图注意力网络的因果关系抽取模块,用于将图注意力网络引入因果关系抽取中,通过Bi-GRU获取文本的上下文语境表示,与基于句法依存关系的图注意力网络联合对文本数据的图结构及因与果之间的依赖关系进行建模,并通过CRF获取原因事件与结果事件的标注结果;
事件图谱生成模块,用于将增强的结构化事件与多维事件关系处理成Neo4j支持的存储形式,通过Neo4j的Import模块导入Neo4j,生成事件图谱。
本发明还公开了一种基于多维特征融合与依存句法的事件图谱构建方法,包括以下步骤:
阶段0:数据预处理与标记
步骤0:将新闻文本数据利用jieba分词工具将句子分解为单词序列,并给出新闻文本中所对应的事件标签、事件元素的时间、地点、参与者、对象、触发词的标签、因事件、果事件以及其他事件标签;
步骤1:对于事件图谱构建中事件抽取任务定义如下:假设每一篇新闻报道R由n个事件构成,即R={e1,e2,…,en},对于每个事件e,其事件定义为e=def{P,O,T,L,D};其中,P表示事件的主体或客体,代表人;O表示事件的主体或客体,代表物;T表示事件的发生时间;L表示事件的发生地点,上述元素统称为事件元素,并且事件可形式化地表示为<时间、地点、参与者、对象、触发词>的五元组;事件的抽取任务则是从非结构化文本中识别事件五元组,并将事件元素角色分类;因果关系抽取任务是识别新闻中的事件的类型M,M∈{cause,effect,other},分别表示因事件、果事件、其他事件;
阶段1:多维特征融合的联合事件抽取
步骤2:采用BERT编码层的后四层输出的拼接向量作为输入句子的向量表示;
Bi=concat(bi,…,bL) (1)
其中,bi预训练语言模型BERT第i层编码层的输出,L为BERT编码层的层数;
步骤3:将其与BERT输出特征相融合作为文本的嵌入表示,词性与实体类型采用Pyltp进行标注,并将其特征编码,则文本嵌入表示为:
Figure BDA0002479249420000041
其中,Posi表示词性倾向特征,Entityi表示实体类型特征;
步骤4:获取到文本嵌入表示后,采用BiLSTM获取文本的上下文语境表示,此时的隐藏层状态
Figure BDA0002479249420000042
表示为:
Figure BDA0002479249420000043
步骤5:将文本嵌入
Figure BDA0002479249420000051
表示输入至Multi-CNN中,利用尺度分别为1、3、5的卷积核获取不同尺度的感受野,通过多尺度的卷积核编码不同长度事件元素的多尺度局部突出特征,卷积操作如下:
cij=f(wj·xi:i+h-1+bj) (4)
其中,j,b∈R,wj表示第j个滤波器,b表示偏置项,f表示一个非线性函数,h表示卷积核大小;
步骤6:将文本嵌入
Figure BDA0002479249420000052
尺度为1、3、5卷积核的Multi-CNN的输出向量C1,C3,C5、BiLSTM的隐藏层状态/>
Figure BDA0002479249420000053
拼接为最后的多维度特征向量O:
Figure BDA0002479249420000054
通过一个全连接层将特征O映射到样本空间,并添加Dropout层防止模型训练过程中出现过拟合现象;
步骤7:将全连接层输出输入到CRF中,获取最佳序列标注;即给定一个句子S=(x1,x2,...,xn),其预测结果为Y=(y1,y2,...,yn),其评分函数如下:
Figure BDA0002479249420000055
其中,H是分数转换的矩阵,
Figure BDA0002479249420000056
表示从第i个标签到第i+1个标签的转换分数,P是是全连接层的输出矩阵,/>
Figure BDA0002479249420000057
表示第i个词的标签类别是yi的得分;
步骤8:利用softmax将预测得分映射到相应类别的概率;
Figure BDA0002479249420000058
其中,Y'表示所有可能的标记序列;在训练过程中采用负的对数概率作为损失函数
Figure BDA0002479249420000059
如下:
Figure BDA00024792494200000510
阶段2:事件修正与对齐
步骤9:采用结构化事件中存在的上下文事件时间或新闻报道时间,来对事件发生时间进行补充修正;同时,采用Python中的cpca模块作为外部知识对空间信息进行修正;
步骤10:对缺少关键信息的所有不完备的事件直接进行过滤;
步骤11:在事件对齐过程中,采用语义相似度计算将事件对齐;采用word2vec训练词向量将事件元素表示成文本空间向量,将相似度计算简化成向量空间的向量计算,通过向量的夹角余弦距离度量两事件的语义相似度;若a1i=(x11,x12,...,x1n),a2i=(x21,x22,...,x2n)分别表示事件event1和事件event2的事件元素,事件元素的余弦相似度计算与归一化如下:
Figure BDA0002479249420000061
Figure BDA0002479249420000062
阶段3:基于增强结构化事件的关系抽取
步骤12:采用增强的结构化事件作为输入;其中,时序关系是指事件A和事件B之间存在时间上的先后顺序,即事件A发生在事件B之后或之前,或在没有时间信息时在原文中的序列关系;若多个事件之间的时间元素不为空时,则判断事件发生时间的先后顺序,将其作为事件间的时序关系,若事件时间元素为空时,则将此事件与上下文事件的序列关系作为时序关系;
步骤13:采用增强的结构化事件作为输入;其中,空间关系是指事件A的发生地点与事件B的发生地点所在省份或市区相同的关系;若事件event1、event2仅有省级信息,且两事件在地点元素上具有相同的省级信息,则认为其空间相关;类似地,若一事件包括市级信息,则从市级上分析与其空间相关的事件,若相同,则认为其空间相关;
步骤14:采用增强的结构化事件作为输入;其中,语义关系是指事件A的事件元素与事件B的事件元素之间存在相似关系,当相似度越高时,认为两事件潜在的语义关系越密切;采用步骤11中的语义相似度计算方法,其两事件间相似度大小作为两事件语义相似程度;
阶段4:基于依存句法与图注意力网络的因果关系抽取
步骤15:采用新闻文本作为输入;其中,因果关系指事件A的发生引起事件B的发生,其中事件A称为原因事件,事件B成为结果事件;利用图注意力网络与传统的Bi-GRU+CRF相结合的方法抽取因果关系;首先,采用Word2vec训练词向量,将文本转化为输入特征向量;同时,利用句法依存分析工具StanfordCoreNLP将句子处理成依存句法结构形式,并采用有向图邻接矩阵存储形式进行存储;
步骤16:将输入特征向量输入双向GRU,获取单词的隐藏层状态
Figure BDA0002479249420000071
Figure BDA0002479249420000072
步骤17:将Bi-GRU层输出的上下文特征向量
Figure BDA0002479249420000073
和句法依存分析得到的邻接矩阵输入GAT层进行图注意力计算;对于句法依存树中每个顶点词,计算与其句法依存关系相邻顶点词的注意力因子eij,然后将注意力因子进行归一化得到注意力系数αij,通过注意力系数αij对特征进行加权求和,得到每个顶点在GAT层的输出特征/>
Figure BDA0002479249420000074
Figure BDA0002479249420000075
Figure BDA0002479249420000076
Figure BDA0002479249420000081
步骤18:采用了多头注意力把互相独立的注意力向量进行拼接,得到单层GAT的输出特征向量
Figure BDA0002479249420000082
Figure BDA0002479249420000083
步骤19:将GAT网络堆叠为n层,在最后一层GAT网络的输出上取前n层GAT网络输出的平均值;通过GAT网络建模图形数据,并通过注意力机制将注意力放在原因事件词和结果事件词上,为其分配权重;
Figure BDA0002479249420000084
步骤20:将GAT层的输出特征向量输入CRF层,即给定一个句子X=(x1,x2,...,xn),事件因果关系预测结果为Y=(y1,y2,...,yn),采用下式对其事件类型进行评分:
Figure BDA0002479249420000085
其中,H是分数转换的矩阵,
Figure BDA0002479249420000086
表示从第i个标签到第i+1个标签的转换分数,P是GAT层的输出矩阵,其大小为N×K,N是词的数量,K是标签类别;然后利用softmax将预测得分映射到相应因果关系类别的概率:
Figure BDA0002479249420000087
其中,Y′代表所有可能的标记序列;采用负的对数概率作为损失函数
Figure BDA0002479249420000088
Figure BDA0002479249420000089
步骤21:采用增强的结构化事件将因果关系中事件结构化,并将共指事件对齐;
阶段5:事件图谱生成
步骤22:为阶段2获取的每一个事件分配一个唯一的id,并将增强的结构化事件以csv格式存储,同时将事件时序、空间、语义、因果关系通过<事件id,关系类型,事件id>三元组以csv格式存储;
步骤23:将事件节点集及事件间关系集的csv文件通过Neo4j的import模块批量导入Neo4j数据库中,在导入过程中将事件作为节点,事件元素五元组作为事件节点的属性,分别为:时间、地点、参与者、对象、触发词;事件间关系作为边,边的类型有:时序关系、空间关系、语义关系、因果关系;依据需求构建单维事件图谱或多维事件图谱,将时序关系与因果关系相结合构建两维事件图谱。
所述步骤11中,在事件event1和事件event2的相似度计算过程中,仅选取两事件间均不为空的事件元素来衡量两事件间的语义相似度,其计算如下:
Figure BDA0002479249420000091
事件间相似度越接近于1,则两个事件的相似度越高,且这两事件越可能是共指事件,故若事件语义相似度大于设置阈值μ时,则认为两事件共指,则过滤掉其中事件元素较少的事件。
与现有技术相比,本发明具有以下有益效果:
本发明通过增强的结构化事件的五元组信息、四个维度的事件间关系构建事件图谱,克服了现有技术中事件表示简单且依赖NLP工具、事件关系单一、未同时考虑事件与事件间关系对事件图谱构建的影响的缺陷。
进一步的,本发明统一将事件表示成<时间、地点、参与者、对象、触发词>的五元组信息,将事件发生的时间和地点作为事件元素之一,事件知识可以随着时间和空间的变化而改变。此外,在抽取过程中将事件元素的实体类型倾向性与词性倾向性特征纳入考虑,通过上下文语境特征与多尺度特征的融合的方法提高了事件抽取的性能,增强了事件图谱的中事件表示的合理性与准确性;
进一步的,本发明利用事件上下文信息以及外部知识对事件元素进行修正与标准化,提高了事件图谱的完备性,利用语义相似度计算将共指事件对齐,降低了事件图谱的冗余性;
进一步的,本发明充分利用结构化的事件信息抽取时序关系、空间关系及语义关系,增加了事件关系的维度,可以从不同侧面反映事物发展规律与模式,辅助提高事件预测与推理、智能问答、故事线生成等应用性能;
进一步的,本发明将因果关系抽取任务形式化为序列标注任务从而可抽取多因多果式、一因多果式、多因一果式的因果关系,将图注意力网络引入因果关系抽取模型中,对图数据结构进行半监督学习,并通过依存句法的邻接矩阵表示与Bi-GRU隐藏层输出进行图注意力计算,将独立的词特征通过依赖关系和GAT网络为邻接节点分配不同大小的注意力权重,进而聚焦于比较重要的词特征以及因果之间潜在的依赖关系,从而提高因果关系抽取的性能。
进一步的,本发明提出的事件图谱构建方法,依据下游任务不同,可以将四种维度的事件间关系任意组合,学习事件图谱的结构特性与潜在的知识联系,从而辅助下游应用。
【附图说明】
图1为本发明的整体逻辑架构图;
图2为本发明中使用的句法依存分析;
图3本发明中涉及到的句法依存的有向图矩阵;
图4为本发明中涉及的两维时序因果图谱;
图5为本发明中涉及的单维因果图谱。
【具体实施方式】
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,不是全部的实施例,而并非要限制本发明公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要的混淆本发明公开的概念。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
本发明公开的上下文中,当将一层/元件称作位于另一层/元件“上”时,该层/元件可以直接位于该另一层/元件上,或者它们之间可以存在居中层/元件。另外,如果在一种朝向中一层/元件位于另一层/元件“上”,那么当调转朝向时,该层/元件可以位于该另一层/元件“下”。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
参见图1,本发明基于多维特征融合与依存句法的事件图谱构建系统,通过利用多维特征融合的事件抽取、事件修正与对齐、基于增强结构化事件的关系抽取、基于依存句法与图注意力网络的因果关系抽取、事件图谱生成模块的联合学习,实现了基于多维特征融合与依存句法的事件图谱构建方法。本发明主要涉及五个模块:
模块1.多维特征融合的事件抽取模块:由于现有模型多为流水线模式存在级联误差、传统语言表示模型无法一词多义进行建模、以及未考虑到事件元素的倾向性特征等问题,故将其转化为序列标注任务来联合抽取事件触发词及事件元素,并采用预训练语言模型BERT学习文本向量表示,与事件元素的实体类型倾向性特征、词性倾向性特征相融合,建模更为丰富的特征,同时使用多尺度卷积神经网络与双向长短期记忆网络捕捉不同长度事件元素的多尺度局部突出特征与上下文语境特征,最终采用CRF获取最佳序列标注。
模块2.事件修正与对齐模块:为了提高事件图谱的构建质量及其可解释性,故采用事件修正将事件的时间与地点元素标准化,通过判断事件关键信息是否缺失过滤掉不完备事件,并利用语义相似度计算方法将共指事件对齐,从而获得增强的结构化事件。
模块3.基于增强结构化事件的关系抽取模块:为了解决现有事件图谱构建中存在事件关系单一的问题,本发明首先利用事件修正与对齐模块来获取并增强结构化事件中的时间与地点元素,通过时序关系、空间关系的定义,抽取事件间的时序关系与空间关系;然后利用增强的结构化事件进行相似度计算,再通过设置阈值表示判断两事件是否语义相关,从而抽取语义关系;
模块4.基于依存句法与图注意力网络的因果关系抽取模块:为了识别隐式因果关系及多因多果式因果关系,本发明将图注意力网络引入因果关系抽取中,通过Bi-GRU获取文本的上下文语境表示,与基于句法依存关系的图注意力网络联合对文本数据的图结构及因与果之间的依赖关系进行建模,并通过CRF获取原因事件与结果事件的标注结果。
模块5.事件图谱生成模块:将增强的结构化事件与多维事件关系处理成Neo4j支持的存储形式,通过Neo4j的Import模块导入Neo4j,生成事件图谱。
本发明明基于多维特征融合与依存句法的事件图谱构建方法,包括以下步骤:
阶段0:数据预处理与标记
步骤0:将新闻文本数据利用jieba分词工具将句子分解为单词序列,并给出新闻文本中所对应的事件标签、事件元素的时间、地点、参与者、对象、触发词的标签、因事件、果事件、其他事件标签;
步骤1:对于事件图谱构建中事件抽取任务定义如下:假设每一篇新闻报道R由n个事件构成,即R={e1,e2,...,en},对于每个事件e,其事件定义为e=def{P,O,T,L,D},其中,参与者P表示事件的主体或客体,通常为人;对象O也表示事件的主体或客体,通常为物;时间T表示事件的发生时间;地点L表示事件的发生地点,上述元素统称为事件元素,并且事件可形式化地表示为<时间、地点、参与者、对象、触发词>的五元组。因此,事件的抽取任务则是从非结构化文本中识别事件五元组,并将事件元素角色分类;而因果关系抽取任务则是识别新闻中的事件的类型M,M∈{cause,effect,other},分别表示因事件、果事件、其他事件。
阶段1:多维特征融合的联合事件抽取
步骤2:句子编码层主要为了解决传统语言表示模型无法对一词多义建模的问题,采用BERT编码层的后四层输出的拼接向量作为输入句子的向量表示。
Bi=concat(bi,...,bL) (1)
其中,bi预训练语言模型BERT第i层编码层的输出,L为BERT编码层的层数。
步骤3:由于事件元素信息具有明显的词性倾向性与实体类型倾向性,故将其与BERT输出特征相融合作为文本的嵌入表示,其中词性与实体类型采用Pyltp进行标注,并将其特征编码,则文本嵌入可表示为:
Figure BDA0002479249420000141
其中,Posi表示词性倾向特征,Entityi表示实体类型特征;
步骤4:获取到文本嵌入表示后,采用BiLSTM获取文本的上下文语境表示,此时的隐藏层状态
Figure BDA0002479249420000142
表示为:
Figure BDA0002479249420000143
/>
步骤5:多尺度特征获取,将文本嵌入
Figure BDA0002479249420000144
表示输入至Multi-CNN中,利用尺度分别为1、3、5的卷积核获取不同尺度的感受野,通过多尺度的卷积核编码不同长度事件元素的多尺度局部突出特征,卷积操作如下:
cij=f(wj·xi:i+h-1+bj) (4)
其中,j,b∈R,wj表示第j个滤波器,b表示偏置项,f表示一个非线性函数,h表示卷积核大小。
步骤6:为了削弱BiLSTM、Multi-CNN带来的误差,借鉴残差网络的思想,将文本嵌入
Figure BDA0002479249420000151
尺度为1、3、5卷积核的Multi-CNN的输出向量C1,C3,C5、BiLSTM的隐藏层状态/>
Figure BDA0002479249420000152
拼接为最后的多维度特征向量O。
Figure BDA0002479249420000153
通过一个全连接层将特征O映射到样本空间,并添加Dropout层防止模型训练过程中出现过拟合现象。
步骤7:将全连接层输出输入到CRF中,获取最佳序列标注。即给定一个句子S=(x1,x2,…,xn),其预测结果为Y=(y1,y2,…,yn),其评分函数如下:
Figure BDA0002479249420000154
其中,H是分数转换的矩阵,
Figure BDA0002479249420000155
表示从第i个标签到第i+1个标签的转换分数,P是全连接层的输出矩阵,/>
Figure BDA0002479249420000156
表示第i个词的标签类别是yi的得分;
步骤8:利用softmax将预测得分映射到相应类别的概率。
Figure BDA0002479249420000157
Y'表示所有可能的标记序列;在训练过程中采用负的对数概率作为损失函数
Figure BDA0002479249420000158
如下:
Figure BDA0002479249420000159
在模型的训练过程中,应尽可能使损失降到最低。
阶段2:事件修正与对齐
步骤9:事件修正,由于新闻表述的独特性导致事件抽取后的时间和地点元素信息不完善且非标准化,但时序关系与空间关系抽取的性能又与这两个元素质量息息相关,因此,采用结构化事件中存在的上下文事件时间或新闻报道时间,来对事件发生时间进行补充修正,并将其统一转化为形如“20200303”的形式。同时,采用Python中的cpca模块作为外部知识对空间信息,如省、市、区等不同地名信息进行修正。
步骤10:针对不完备事件进行过滤,具有完备信息的事件中至少包括一个参与者或对象(主体或客体之一)与触发词,根据这一判断规则,对缺少关键信息的所有不完备的事件直接进行过滤。
步骤11:在事件对齐过程中,由于同一事件的不同描述会导致文本中存在大量的共指事件,并会造成事件图谱冗余或冲突,故采用语义相似度计算将事件对齐。采用word2vec训练词向量将事件元素表示成文本空间向量,将相似度计算简化成向量空间的向量计算,通过向量的夹角余弦距离度量两事件的语义相似度。若a1i=(x11,x12,…,x1n),a2i=(x21,x22,…,x2n)分别表示事件event1和事件event2的事件元素,事件元素的余弦相似度计算与归一化如下:
Figure BDA0002479249420000161
Figure BDA0002479249420000162
在新闻事件的表述过程中,表示事件发生的关键事件元素经过过滤与补全后,都不能为空,因此,在事件event1和事件event2的相似度计算过程中,仅选取两事件间均不为空的事件元素来衡量两事件间的语义相似度,其计算如下:
Figure BDA0002479249420000163
事件间相似度越接近于1,则两个事件的相似度越高,且这两事件越可能是共指事件,故若事件语义相似度大于设置阈值μ时,则认为两事件共指,则过滤掉其中事件元素较少的事件。
阶段3:基于增强结构化事件的关系抽取
步骤12:采用增强的结构化事件作为输入,其中,时序关系是指事件A和事件B之间存在时间上的先后顺序,即事件A发生在事件B之后或之前,或在没有时间信息时在原文中的序列关系。若多个事件之间的时间元素不为空时,则判断事件发生时间的先后顺序,将其作为事件间的时序关系,若事件时间元素为空时,则将此事件与上下文事件的序列关系作为时序关系。
步骤13:采用增强的结构化事件作为输入,其中,空间关系是指事件A的发生地点与事件B的发生地点所在省份或市区相同的关系。若事件event1、event2仅有省级信息,且两事件在地点元素上具有相同的省级信息,则认为其空间相关。类似地,若一事件包括市级信息,则从市级上分析与其空间相关的事件,若相同,则认为其空间相关。
步骤14:采用增强的结构化事件作为输入,其中,语义关系是指事件A的事件元素与事件B的事件元素之间存在相似关系,当相似度越高时,认为两事件潜在的语义关系越密切。采用步骤11中的语义相似度计算方法,其两事件间相似度大小作为两事件语义相似程度。
阶段4:基于依存句法与图注意力网络的因果关系抽取
步骤15:采用新闻文本作为输入,其中,因果关系指事件A的发生引起事件B的发生,其中事件A称为原因事件,事件B成为结果事件。利用图注意力网络与传统的Bi-GRU+CRF相结合的方法抽取因果关系。首先,采用Word2vec训练词向量,将文本转化为输入特征向量。同时,利用句法依存分析工具StanfordCoreNLP将句子处理成依存句法结构形式,如图2所示。并采用有向图邻接矩阵存储形式进行存储,如图3。
步骤16:将输入特征向量输入双向GRU,获取单词的隐藏层状态
Figure BDA0002479249420000181
/>
Figure BDA0002479249420000182
步骤17:将Bi-GRU层输出的上下文特征向量
Figure BDA0002479249420000183
和句法依存分析得到的邻接矩阵输入GAT层进行图注意力计算。对于句法依存树中每个顶点词,计算与其句法依存关系相邻顶点词的注意力因子eij,然后将注意力因子进行归一化得到注意力系数αij,通过注意力系数αij对特征进行加权求和,得到每个顶点在GAT层的输出特征/>
Figure BDA0002479249420000184
Figure BDA0002479249420000185
Figure BDA0002479249420000186
Figure BDA0002479249420000187
步骤18:为了使GAT的学习训练过程更加稳定,采用了多头注意力把互相独立的注意力向量进行拼接,得到单层GAT的输出特征向量
Figure BDA0002479249420000188
Figure BDA0002479249420000189
步骤19:将GAT网络堆叠为n层,在最后一层GAT网络的输出上取前n层GAT网络输出的平均值。通过GAT网络建模图形数据,并通过注意力机制将注意力更多地放在原因事件词和结果事件词上,为其分配更大的权重。
Figure BDA00024792494200001810
步骤20:将GAT层的输出特征向量输入CRF层,即给定一个句子X=(x1,x2,...,xn),事件因果关系预测结果为Y=(y1,y2,...,yn),采用下式对其事件类型进行评分:
Figure BDA0002479249420000191
其中,H是分数转换的矩阵,
Figure BDA0002479249420000192
表示从第i个标签到第i+1个标签的转换分数,P是GAT层的输出矩阵,其大小为N×K,N是词的数量,K是标签类别,然后利用softmax将预测得分映射到相应因果关系类别的概率:
Figure BDA0002479249420000193
其中,Y′代表所有可能的标记序列。采用负的对数概率作为损失函数
Figure BDA0002479249420000194
如下所示:
Figure BDA0002479249420000195
步骤21:由于因果关系是在新闻文本上抽取的,事件为非结构化的文本,故采用增强的结构化事件将因果关系中事件结构化,并将共指事件对齐。
阶段5:事件图谱生成
步骤22:为阶段2获取的每一个事件分配一个唯一的id,并将增强的结构化事件以csv格式存储,同时将事件时序、空间、语义、因果关系通过<事件id,关系类型,事件id>三元组以csv格式存储。
步骤23:将事件节点集及事件间关系集的csv文件通过Neo4j的import模块批量导入Neo4j数据库中,在导入过程中将事件作为节点,事件元素五元组作为事件节点的属性,分别为:时间、地点、参与者、对象、触发词。事件间关系作为边,边的类型有:时序关系、空间关系、语义关系、因果关系。在应用过程中,可依据需求构建单维事件图谱或多维事件图谱,将时序关系与因果关系相结合构建两维事件图谱的示例如图4,单维因果关系如图5。
本发明适用于事件图谱构建任务,能够准确、高效地从文本中自动检测事件元素以及因果关系,并利用事件元素进行时序关系、空间关系、语义关系的抽取工作,从而实现事件图谱的构建,并可依据需求来构建多维度事件图谱。
下面通过几个实施例对本发明做进一步详细的说明:
实施例1:
2008年5月12日14时28分左右,汶川县发生了7.8级地震。
经模块一事件抽取后,得到结构化事件<时间:2008年5月12日14时28分,地点:汶川县,触发词:地震>,可得到事件的时间元素、地点元素、触发词,而时间和地点元素是事件间时序关系抽取与空间关系抽取的基础。由于新闻表达的独特性,时间和地点元素可能不全或不统一,通过事件修正将时间序列化、地点经省市区标准化,便于时序关系、空间关系的抽取,在本实施例中经事件修正后得到增强的结构化事件<时间:20080512,地点:四川省阿坝藏族羌族自治州汶川县,触发词:地震>。
实施例2:
2008年5月12日四川汶川县发生地震后,对云南昭通等地造成一定的影响,部分房屋已出现倒损。
经模块一事件抽取后得到事件,event1<时间:12日,地点:四川汶川县,触发词:地震>,event2<地点:云南昭通等地,对象:部分房屋,触发词:倒损>。
经模块二事件修正后得到事件event1<时间:20080512,地点:四川省阿坝藏族羌族自治州汶川县,触发词:地震>,event2<地点:云南省昭通市等地,对象:部分房屋,触发词:倒损>。通过事件对齐可将实施例1中的事件与实施例2中的event1进行对齐。
经模块三后可抽取时序关系,<event1,时序关系(TR),event2>。
通过模块四后可抽取一阶隐式因果关系,<event1,因果关系(CR),event2>。
通过上述模块获取的增强结构化事件以及事件间多维关系,可构建事件图谱。如图4和图5。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (3)

1.一种基于多维特征融合与依存句法的事件图谱构建系统,其特征在于,包括:
多维特征融合的事件抽取模块,用于采用预训练语言模型BERT学习文本向量表示,与事件元素的实体类型倾向性特征、词性倾向性特征相融合,同时使用多尺度卷积神经网络与双向长短期记忆网络捕捉不同长度事件元素的多尺度局部突出特征与上下文语境特征,最终采用CRF获取最佳序列标注;
事件修正与对齐模块,用于采用事件修正将事件的时间与地点元素标准化,通过判断事件关键信息是否缺失过滤掉不完备事件,并利用语义相似度计算方法将共指事件对齐,从而获得增强的结构化事件;
基于增强结构化事件的关系抽取模块,用于利用事件修正与对齐模块来获取并增强结构化事件中的时间与地点元素,通过时序关系、空间关系的定义,抽取事件间的时序关系与空间关系;然后利用增强的结构化事件进行相似度计算,再通过设置阈值表示判断两事件是否语义相关,从而抽取语义关系;
基于依存句法与图注意力网络的因果关系抽取模块,用于将图注意力网络引入因果关系抽取中,通过Bi-GRU获取文本的上下文语境表示,与基于句法依存关系的图注意力网络联合对文本数据的图结构及因与果之间的依赖关系进行建模,并通过CRF获取原因事件与结果事件的标注结果;
事件图谱生成模块,用于将增强的结构化事件与多维事件关系处理成Neo4j支持的存储形式,通过Neo4j的Import模块导入Neo4j,生成事件图谱。
2.一种基于多维特征融合与依存句法的事件图谱构建方法,其特征在于,包括以下步骤:
阶段0:数据预处理与标记
步骤0:将新闻文本数据利用jieba分词工具将句子分解为单词序列,并给出新闻文本中所对应的事件标签、事件元素的时间、地点、参与者、对象、触发词的标签、因事件、果事件以及其他事件标签;
步骤1:对于事件图谱构建中事件抽取任务定义如下:假设每一篇新闻报道R由n个事件构成,即R={e1,e2,...,en},对于每个事件e,其事件定义为e=def{P,O,T,L,D};其中,P表示事件的主体或客体,代表人;O表示事件的主体或客体,代表物;T表示事件的发生时间;L表示事件的发生地点,上述元素统称为事件元素,并且事件可形式化地表示为<时间、地点、参与者、对象、触发词>的五元组;事件的抽取任务则是从非结构化文本中识别事件五元组,并将事件元素角色分类;因果关系抽取任务是识别新闻中的事件的类型M,M∈{cause,effect,other},分别表示因事件、果事件、其他事件;
阶段1:多维特征融合的联合事件抽取
步骤2:采用BERT编码层的后四层输出的拼接向量作为输入句子的向量表示;
Bi=concat(bi,...,bL) (1)
其中,bi预训练语言模型BERT第i层编码层的输出,L为BERT编码层的层数;
步骤3:将其与BERT输出特征相融合作为文本的嵌入表示,词性与实体类型采用Pyltp进行标注,并将其特征编码,则文本嵌入表示为:
Figure FDA0002479249410000021
/>
其中,Posi表示词性倾向特征,Entityi表示实体类型特征;
步骤4:获取到文本嵌入表示后,采用BiLSTM获取文本的上下文语境表示,此时的隐藏层状态
Figure FDA0002479249410000031
表示为:
Figure FDA0002479249410000032
步骤5:将文本嵌入
Figure FDA0002479249410000033
表示输入至Multi-CNN中,利用尺度分别为1、3、5的卷积核获取不同尺度的感受野,通过多尺度的卷积核编码不同长度事件元素的多尺度局部突出特征,卷积操作如下:
cij=f(wj·xi:i+h-1+bj) (4)
其中,j,b∈R,wj表示第j个滤波器,b表示偏置项,f表示一个非线性函数,h表示卷积核大小;
步骤6:将文本嵌入
Figure FDA0002479249410000034
尺度为1、3、5卷积核的Multi-CNN的输出向量C1,C3,C5、BiLSTM的隐藏层状态/>
Figure FDA0002479249410000035
拼接为最后的多维度特征向量O:
Figure FDA0002479249410000036
通过一个全连接层将特征O映射到样本空间,并添加Dropout层防止模型训练过程中出现过拟合现象;
步骤7:将全连接层输出输入到CRF中,获取最佳序列标注;即给定一个句子S=(x1,x2,…,xn),其预测结果为Y=(y1,y2,…,yn),其评分函数如下:
Figure FDA0002479249410000037
其中,H是分数转换的矩阵,
Figure FDA0002479249410000038
表示从第i个标签到第i+1个标签的转换分数,P是是全连接层的输出矩阵,/>
Figure FDA0002479249410000039
表示第i个词的标签类别是yi的得分;
步骤8:利用softmax将预测得分映射到相应类别的概率;
Figure FDA00024792494100000310
其中,Y'表示所有可能的标记序列;在训练过程中采用负的对数概率作为损失函数
Figure FDA00024792494100000311
如下:
Figure FDA0002479249410000041
阶段2:事件修正与对齐
步骤9:采用结构化事件中存在的上下文事件时间或新闻报道时间,来对事件发生时间进行补充修正;同时,采用Python中的cpca模块作为外部知识对空间信息进行修正;
步骤10:对缺少关键信息的所有不完备的事件直接进行过滤;
步骤11:在事件对齐过程中,采用语义相似度计算将事件对齐;采用word2vec训练词向量将事件元素表示成文本空间向量,将相似度计算简化成向量空间的向量计算,通过向量的夹角余弦距离度量两事件的语义相似度;若a1i=(x11,x12,…,x1n),a2i=(x21,x22,…,x2n)分别表示事件event1和事件event2的事件元素,事件元素的余弦相似度计算与归一化如下:
Figure FDA0002479249410000042
Figure FDA0002479249410000043
阶段3:基于增强结构化事件的关系抽取
步骤12:采用增强的结构化事件作为输入;其中,时序关系是指事件A和事件B之间存在时间上的先后顺序,即事件A发生在事件B之后或之前,或在没有时间信息时在原文中的序列关系;若多个事件之间的时间元素不为空时,则判断事件发生时间的先后顺序,将其作为事件间的时序关系,若事件时间元素为空时,则将此事件与上下文事件的序列关系作为时序关系;
步骤13:采用增强的结构化事件作为输入;其中,空间关系是指事件A的发生地点与事件B的发生地点所在省份或市区相同的关系;若事件event1、event2仅有省级信息,且两事件在地点元素上具有相同的省级信息,则认为其空间相关;类似地,若一事件包括市级信息,则从市级上分析与其空间相关的事件,若相同,则认为其空间相关;
步骤14:采用增强的结构化事件作为输入;其中,语义关系是指事件A的事件元素与事件B的事件元素之间存在相似关系,当相似度越高时,认为两事件潜在的语义关系越密切;采用步骤11中的语义相似度计算方法,其两事件间相似度大小作为两事件语义相似程度;
阶段4:基于依存句法与图注意力网络的因果关系抽取
步骤15:采用新闻文本作为输入;其中,因果关系指事件A的发生引起事件B的发生,其中事件A称为原因事件,事件B成为结果事件;利用图注意力网络与传统的Bi-GRU+CRF相结合的方法抽取因果关系;首先,采用Word2vec训练词向量,将文本转化为输入特征向量;同时,利用句法依存分析工具StanfordCoreNLP将句子处理成依存句法结构形式,并采用有向图邻接矩阵存储形式进行存储;
步骤16:将输入特征向量输入双向GRU,获取单词的隐藏层状态
Figure FDA0002479249410000051
Figure FDA0002479249410000052
步骤17:将Bi-GRU层输出的上下文特征向量
Figure FDA0002479249410000053
和句法依存分析得到的邻接矩阵输入GAT层进行图注意力计算;对于句法依存树中每个顶点词,计算与其句法依存关系相邻顶点词的注意力因子eij,然后将注意力因子进行归一化得到注意力系数αij,通过注意力系数αij对特征进行加权求和,得到每个顶点在GAT层的输出特征/>
Figure FDA0002479249410000054
Figure FDA0002479249410000055
Figure FDA0002479249410000061
Figure FDA0002479249410000062
/>
步骤18:采用了多头注意力把互相独立的注意力向量进行拼接,得到单层GAT的输出特征向量
Figure FDA0002479249410000063
Figure FDA0002479249410000064
步骤19:将GAT网络堆叠为n层,在最后一层GAT网络的输出上取前n层GAT网络输出的平均值;通过GAT网络建模图形数据,并通过注意力机制将注意力放在原因事件词和结果事件词上,为其分配权重;
Figure FDA0002479249410000065
步骤20:将GAT层的输出特征向量输入CRF层,即给定一个句子X=(x1,x2,…,xn),事件因果关系预测结果为Y=(y1,y2,…,yn),采用下式对其事件类型进行评分:
Figure FDA0002479249410000066
其中,H是分数转换的矩阵,
Figure FDA0002479249410000067
表示从第i个标签到第i+1个标签的转换分数,P是GAT层的输出矩阵,其大小为N×K,N是词的数量,K是标签类别;然后利用softmax将预测得分映射到相应因果关系类别的概率:
Figure FDA0002479249410000068
其中,Y′代表所有可能的标记序列;采用负的对数概率作为损失函数
Figure FDA0002479249410000069
Figure FDA00024792494100000610
步骤21:采用增强的结构化事件将因果关系中事件结构化,并将共指事件对齐;
阶段5:事件图谱生成
步骤22:为阶段2获取的每一个事件分配一个唯一的id,并将增强的结构化事件以csv格式存储,同时将事件时序、空间、语义、因果关系通过<事件id,关系类型,事件id>三元组以csv格式存储;
步骤23:将事件节点集及事件间关系集的csv文件通过Neo4j的import模块批量导入Neo4j数据库中,在导入过程中将事件作为节点,事件元素五元组作为事件节点的属性,分别为:时间、地点、参与者、对象、触发词;事件间关系作为边,边的类型有:时序关系、空间关系、语义关系、因果关系;依据需求构建单维事件图谱或多维事件图谱,将时序关系与因果关系相结合构建两维事件图谱。
3.根据权利要求2所述的基于多维特征融合与依存句法的事件图谱构建方法,其特征在于,所述步骤11中,在事件event1和事件event2的相似度计算过程中,仅选取两事件间均不为空的事件元素来衡量两事件间的语义相似度,其计算如下:
Figure FDA0002479249410000071
事件间相似度越接近于1,则两个事件的相似度越高,且这两事件越可能是共指事件,故若事件语义相似度大于设置阈值μ时,则认为两事件共指,则过滤掉其中事件元素较少的事件。
CN202010373498.1A 2020-05-06 2020-05-06 一种基于多维特征融合与依存句法的事件图谱构建系统及方法 Active CN111581396B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010373498.1A CN111581396B (zh) 2020-05-06 2020-05-06 一种基于多维特征融合与依存句法的事件图谱构建系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010373498.1A CN111581396B (zh) 2020-05-06 2020-05-06 一种基于多维特征融合与依存句法的事件图谱构建系统及方法

Publications (2)

Publication Number Publication Date
CN111581396A CN111581396A (zh) 2020-08-25
CN111581396B true CN111581396B (zh) 2023-03-31

Family

ID=72126183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010373498.1A Active CN111581396B (zh) 2020-05-06 2020-05-06 一种基于多维特征融合与依存句法的事件图谱构建系统及方法

Country Status (1)

Country Link
CN (1) CN111581396B (zh)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112214607B (zh) * 2020-09-07 2021-06-11 深圳市镜象科技有限公司 基于人工智能的交互方法、心理干预系统、终端和介质
CN112270205A (zh) * 2020-09-22 2021-01-26 苏州千视通视觉科技股份有限公司 一种案件侦查方法及装置
CN112328801B (zh) * 2020-09-28 2022-06-14 西南电子技术研究所(中国电子科技集团公司第十研究所) 事件知识图谱预测群体性事件的方法
CN112182308B (zh) * 2020-09-29 2023-03-24 华中师范大学 基于多热编码的多特征融合深度知识追踪方法及系统
CN112217674B (zh) * 2020-10-12 2021-12-28 西安交通大学 基于因果网络挖掘和图注意力网络的告警根因识别方法
CN112199491B (zh) * 2020-10-14 2022-04-22 中国科学院计算技术研究所厦门数据智能研究院 一种基于bert与先验知识特征的关系五元组抽取方法
CN112257648A (zh) * 2020-11-03 2021-01-22 泰山学院 基于改进的循环神经网络的信号分类识别方法
CN112288658B (zh) * 2020-11-23 2023-11-28 杭州师范大学 一种基于多残差联合学习的水下图像增强方法
CN112487143B (zh) * 2020-11-30 2022-11-18 重庆邮电大学 一种基于舆情大数据分析的多标签文本分类方法
CN112560460B (zh) * 2020-12-08 2022-02-25 北京百度网讯科技有限公司 抽取结构化信息的方法、装置、电子设备和可读存储介质
CN112580328A (zh) * 2020-12-11 2021-03-30 上海明略人工智能(集团)有限公司 事件信息的抽取方法及装置、存储介质、电子设备
CN112463970B (zh) * 2020-12-16 2022-11-22 吉林大学 一种基于时间关系对文本包含的因果关系进行抽取的方法
CN112738647B (zh) * 2020-12-28 2022-04-01 中山大学 一种基于多层级编码-解码器的视频描述方法及系统
CN112632223B (zh) * 2020-12-29 2023-01-20 天津汇智星源信息技术有限公司 案事件知识图谱构建方法及相关设备
CN113761337B (zh) * 2020-12-31 2023-10-27 国家计算机网络与信息安全管理中心 基于事件隐式要素与显式联系的事件预测方法和装置
CN112765994A (zh) * 2021-01-26 2021-05-07 武汉大学 一种基于深度学习的信息要素联合抽取方法及系统
CN112836502B (zh) * 2021-03-01 2023-05-09 中央财经大学 一种金融领域事件隐式因果关系抽取方法
CN113190684B (zh) * 2021-03-23 2022-06-17 电子科技大学 一种基于路径质量判别的强化学习知识图谱推理方法
CN112860918B (zh) * 2021-03-23 2023-03-14 四川省人工智能研究院(宜宾) 一种基于协同演化建模的时序知识图谱表示学习方法
CN113080864B (zh) * 2021-04-07 2022-02-01 电子科技大学 一种通过自动睡眠分期结果的常见睡眠疾病检测方法
CN113111644A (zh) * 2021-04-22 2021-07-13 上海云从企业发展有限公司 文本识别方法、装置及计算机存储介质
CN113239142B (zh) * 2021-04-26 2022-09-23 昆明理工大学 融合句法信息的无触发词事件检测方法
CN113312490B (zh) * 2021-04-28 2023-04-18 乐山师范学院 一种针对突发事件的事件知识图谱构建方法
CN113255320A (zh) * 2021-05-13 2021-08-13 北京熙紫智数科技有限公司 基于句法树和图注意力机制的实体关系抽取方法及装置
CN113033215B (zh) * 2021-05-18 2021-08-13 华南师范大学 情感检测方法、装置、设备以及存储介质
CN113407645A (zh) * 2021-05-19 2021-09-17 福建福清核电有限公司 一种基于知识图谱的声像档案智能编研方法
CN113420117B (zh) * 2021-06-23 2023-10-20 北京交通大学 一种基于多元特征融合的突发事件分类方法
CN113312500B (zh) * 2021-06-24 2022-05-03 河海大学 一种面向大坝安全运行的事件图谱构建方法
CN113779190B (zh) * 2021-07-20 2023-08-18 中国科学院自动化研究所 事件因果关系识别方法、装置、电子设备与存储介质
CN113486657B (zh) * 2021-07-26 2023-01-17 刘德喜 一种基于知识辅助的情感-原因对抽取系统
CN113590978A (zh) * 2021-08-05 2021-11-02 迪爱斯信息技术股份有限公司 一种热点事件识别方法和系统
CN113779220B (zh) * 2021-09-13 2023-06-23 内蒙古工业大学 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法
CN113901210B (zh) * 2021-09-15 2022-12-13 昆明理工大学 利用局部多头注意力机制融合词-音节对的泰文和缅甸文词性标注方法
CN114281940B (zh) * 2021-12-07 2023-04-18 江苏联著实业股份有限公司 一种基于语义工程和案例学习的计算机认知方法及系统
CN114417835A (zh) * 2021-12-29 2022-04-29 国网天津市电力公司 一种基于深度学习算法的审计知识图谱实体抽取方法
CN114020936B (zh) * 2022-01-06 2022-04-01 北京融信数联科技有限公司 多模态事理图谱的构建方法、系统和可读存储介质
CN114064937A (zh) * 2022-01-14 2022-02-18 云孚科技(北京)有限公司 一种事理图谱自动构建方法和系统
CN114398500B (zh) * 2022-01-29 2022-09-09 哈尔滨工业大学 一种基于图增强预训练模型的事件预测方法
CN114153996B (zh) * 2022-02-10 2022-04-12 北京帝测科技股份有限公司 多图注意力协同的地学知识图谱更新方法和装置
CN114706992B (zh) * 2022-02-17 2022-09-30 中科雨辰科技有限公司 一种基于知识图谱的事件信息处理系统
CN114648015B (zh) * 2022-03-15 2022-11-15 北京理工大学 一种基于依存关系注意力模型的方面级情感词识别方法
CN114707517B (zh) * 2022-04-01 2024-05-03 中国人民解放军国防科技大学 一种基于开源数据事件抽取的目标跟踪方法
CN114444472B (zh) * 2022-04-02 2022-07-12 北京百度网讯科技有限公司 文本处理方法、装置、电子设备和存储介质
CN115272404B (zh) * 2022-06-17 2023-07-18 江南大学 一种基于核空间和隐式空间特征对齐的多目标跟踪方法
CN116069955A (zh) * 2023-03-06 2023-05-05 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于mdata模型的时空知识抽取方法
CN116051909B (zh) * 2023-03-06 2023-06-16 中国科学技术大学 一种直推式零次学习的未见类图片分类方法、设备及介质
CN116028631B (zh) * 2023-03-30 2023-07-14 粤港澳大湾区数字经济研究院(福田) 一种多事件检测方法及相关设备
CN116151375B (zh) * 2023-04-20 2023-07-14 南京信息工程大学 一种基于反事实与路径挖掘的事件溯因推理方法
CN116303996B (zh) * 2023-05-25 2023-08-04 江西财经大学 基于多焦点图神经网络的主题事件抽取方法
CN117273243B (zh) * 2023-11-21 2024-02-09 数据空间研究院 一种用于时序事件预测的数据处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377738A (zh) * 2019-07-15 2019-10-25 昆明理工大学 融合依存句法信息和卷积神经网络的越南语新闻事件检测方法
WO2020001373A1 (zh) * 2018-06-26 2020-01-02 杭州海康威视数字技术股份有限公司 一种本体构建方法及装置
CN110727796A (zh) * 2019-09-17 2020-01-24 华南理工大学 面向分级读物的多尺度难度向量分类方法
CN111079430A (zh) * 2019-10-21 2020-04-28 国家电网公司华中分部 一种组合深度学习和概念图谱的电力故障事件抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020001373A1 (zh) * 2018-06-26 2020-01-02 杭州海康威视数字技术股份有限公司 一种本体构建方法及装置
CN110377738A (zh) * 2019-07-15 2019-10-25 昆明理工大学 融合依存句法信息和卷积神经网络的越南语新闻事件检测方法
CN110727796A (zh) * 2019-09-17 2020-01-24 华南理工大学 面向分级读物的多尺度难度向量分类方法
CN111079430A (zh) * 2019-10-21 2020-04-28 国家电网公司华中分部 一种组合深度学习和概念图谱的电力故障事件抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
事件知识图谱构建技术与应用综述;项威;《计算机与现代化》;20200115(第01期);全文 *
基于表示学习的跨模态检索模型与特征抽取研究综述;李志义等;《情报学报》;20180424(第04期);全文 *

Also Published As

Publication number Publication date
CN111581396A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN111581396B (zh) 一种基于多维特征融合与依存句法的事件图谱构建系统及方法
CN112241481B (zh) 基于图神经网络的跨模态新闻事件分类方法及系统
Mao et al. Mapping near-real-time power outages from social media
CN106447066A (zh) 一种大数据的特征提取方法和装置
CN113626589B (zh) 一种基于混合注意力机制的多标签文本分类方法
CN114896388A (zh) 一种基于混合注意力的层级多标签文本分类方法
CN113254507B (zh) 一种数据资产目录智能构建盘点方法
CN113254675B (zh) 基于自适应少样本关系抽取的知识图谱构建方法
CN114911945A (zh) 基于知识图谱的多价值链数据管理辅助决策模型构建方法
CN113051922A (zh) 一种基于深度学习的三元组抽取方法及系统
CN115526236A (zh) 一种基于多模态对比学习的文本网络图分类方法
CN114896386A (zh) 基于BiLSTM的电影评论语义情感分析方法及系统
CN112417063A (zh) 一种基于异构关系网络的相容功能项推荐方法
CN115688784A (zh) 一种融合字与词语特征的中文命名实体识别方法
CN117312989A (zh) 一种基于GCN和RoBERTa的上下文感知的列语义识别方法和系统
Wang et al. Weighted graph convolution over dependency trees for nontaxonomic relation extraction on public opinion information
CN113239694B (zh) 一种基于论元短语的论元角色识别的方法
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN113516094A (zh) 一种用于为文档匹配评议专家的系统以及方法
CN117271701A (zh) 一种基于tggat和cnn的系统运行异常事件关系抽取方法及系统
CN117236676A (zh) 一种基于多模态事件抽取的rpa流程挖掘方法和装置
CN111985204A (zh) 一种海关进出口商品税号预测方法
CN114757183B (zh) 一种基于对比对齐网络的跨领域情感分类方法
CN114638222B (zh) 自然灾害数据的分类方法及其模型训练方法、装置
CN116561272A (zh) 开放域视觉语言问答方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant