CN115062136A - 基于图神经网络的事件消歧方法及其相关设备 - Google Patents
基于图神经网络的事件消歧方法及其相关设备 Download PDFInfo
- Publication number
- CN115062136A CN115062136A CN202210442385.1A CN202210442385A CN115062136A CN 115062136 A CN115062136 A CN 115062136A CN 202210442385 A CN202210442385 A CN 202210442385A CN 115062136 A CN115062136 A CN 115062136A
- Authority
- CN
- China
- Prior art keywords
- event
- interaction coefficient
- neural network
- matrix
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 45
- 230000003993 interaction Effects 0.000 claims abstract description 173
- 239000013598 vector Substances 0.000 claims abstract description 111
- 239000011159 matrix material Substances 0.000 claims abstract description 103
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 39
- 238000010586 diagram Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 230000011218 segmentation Effects 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 10
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 235000012730 carminic acid Nutrition 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例属于计算机领域,涉及一种基于图神经网络的事件消歧方法及其相关设备,包括:对事件语料进行分词操作、命名实体识别操作和事件抽取操作,获得词语、实体和事件元素;计算第一交互系数、第二交互系数、第三交互系数和第四交互系数,以生成初始向量,对初始向量归一化,获得目标向量;目标向量组成目标连接图的邻接矩阵,基于邻接矩阵生成目标矩阵;基于目标矩阵构建多层卷积神经网络,将目标连接图中的节点转化为节点特征矩阵,将节点特征矩阵输入至多层卷积神经网络中,获得图特征向量;计算图特征向量的平均值,获得事件特征向量;将事件特征向量输入至二分类神经网络,获得二分类结果。本申请提高了消歧的准确率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及基于图神经网络的事件消歧方法及其相关设备。
背景技术
事件抽取是自然语言处理领域的重要任务,在智能问答、机器阅读等领域都有广泛应用。其中,事件共指消解(event coreference resolution)是事件抽取中的一个重要子任务,其主要目的是将表述形式不一致的同一事件识别出来,从而减少对后续语义分析带来的干扰。
目前,事件共指消解的主要方法多为基于特征工程。例如申请号为CN202010860468.3的专利公开了一种事件共指消解的方法。通过对采集的若干文本数据进行分阶段消歧得到文本数据;但该专利中提到的消歧方法较为简单,且分阶段这样的级联消解方式会让上一个阶段的错误传导到下一个阶段,从而最后的效果出现错误连乘效应,极大影响消歧的准确率。
发明内容
本申请实施例的目的在于提出一种基于图神经网络的事件消歧方法及其相关设备,提高了消歧的准确率。
为了解决上述技术问题,本申请实施例提供一种基于图神经网络的事件消歧方法,采用了如下所述的技术方案:
一种基于图神经网络的事件消歧方法,包括下述步骤:
接收事件语料,对所述事件语料分别进行分词操作、命名实体识别操作和事件抽取操作,分别获得多个词语、多个实体和多个事件元素;
基于所述词语、实体和事件元素计算第一交互系数、第二交互系数、第三交互系数和第四交互系数;
根据所述第一交互系数、第二交互系数、第三交互系数和第四交互系数生成初始向量,并对所述初始向量进行归一化处理,获得目标向量;
基于所述词语、所述实体和所述事件元素构建目标连接图,所有所述目标向量组成所述目标连接图的邻接矩阵,基于所述邻接矩阵生成目标矩阵;
基于所述目标矩阵构建多层卷积神经网络,将所述目标连接图中的节点转化为节点特征矩阵,将所述节点特征矩阵输入至所述多层卷积神经网络中,获得输出的所述目标连接图中每个节点的图特征向量;
计算每条所述事件语料中的事件元素对应的图特征向量的平均值,获得事件特征向量;
将任意两个所述事件特征向量输入至预训练的二分类神经网络中,获得输出的二分类结果。
进一步的,所述基于所述词语、实体和事件元素计算第一交互系数、第二交互系数、第三交互系数和第四交互系数的步骤包括:
计算所述事件元素与所述实体之间的交互系数,作为第一交互系数,并计算所述实体之间的交互系数,作为第二交互系数;
调用句法识别工具对所述事件语料进行句法识别,获得依存句法树,根据所述依存句法树确定依存句法交互系数,作为第三交互系数;
确定在预设知识库中每个所述词语的近义词的数量和下位词的数量,根据所述近义词的数量和下位词的数量计算所述词语之间的语义交互系数,作为第四交互系数。
进一步的,所述计算所述事件元素与所述实体之间的交互系数,作为第一交互系数的步骤包括:
通过如下公式计算所述第一交互系数:
进一步的,所述计算所述实体之间的交互系数,作为第二交互系数的步骤包括:
将所述实体转换为词向量,根据所述词向量计算所述词语之间的余弦相似度,作为所述第二交互系数。
进一步的,根据所述依存句法树确定依存句法交互系数,作为第三交互系数的步骤包括:
在所述依存句法树中,若在同一个句子中的词语之间存在依存关系,则对应的所述第三交互系数为1;
在所述依存句法树中,若在同一个句子中的词语之间不存在依存关系,则对应的所述第三交互系数为0;
若任意两个所述词语不在同一个句子中,则对应的所述第三交互系数为0。
进一步的,所述基于所述目标矩阵构建多层卷积神经网络的步骤包括:
所述多层卷积神经网络的计算公式为:
进一步的,所述将所述目标连接图中的节点转化为节点特征矩阵的步骤包括:
将目标连接图中的节点输入至预训练的BERT语言模型中,获得输出的节点特征向量;
根据所有所述节点特征向量生成所述节点特征矩阵。
为了解决上述技术问题,本申请实施例还提供一种基于图神经网络的事件消歧装置,采用了如下所述的技术方案:
一种基于图神经网络的事件消歧装置,包括:
接收模块,用于接收事件语料,对所述事件语料分别进行分词操作、命名实体识别操作和事件抽取操作,分别获得多个词语、多个实体和多个事件元素;
第一计算模块,用于基于所述词语、实体和事件元素计算第一交互系数、第二交互系数、第三交互系数和第四交互系数;
生成模块,用于根据所述第一交互系数、第二交互系数、第三交互系数和第四交互系数生成初始向量,并对所述初始向量进行归一化处理,获得目标向量;
构建模块,用于基于所述词语、所述实体和所述事件元素构建目标连接图,所有所述目标向量组成所述目标连接图的邻接矩阵,基于所述邻接矩阵生成目标矩阵;
输入模块,用于基于所述目标矩阵构建多层卷积神经网络,将所述目标连接图中的节点转化为节点特征矩阵,将所述节点特征矩阵输入至所述多层卷积神经网络中,获得输出的所述目标连接图中每个节点的图特征向量;
第二计算模块,用于计算每条所述事件语料中的事件元素对应的图特征向量的平均值,获得事件特征向量;
获得模块,用于将任意两个所述事件特征向量输入至预训练的二分类神经网络中,获得输出的二分类结果。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现上述的基于图神经网络的事件消歧方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述的基于图神经网络的事件消歧方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请通过基于所述词语、实体和事件元素计算第一交互系数、第二交互系数、第三交互系数和第四交互系数,进而生成目标向量,将实体、语法、语义等信息融合,通过基于目标向量构建多层卷积神经网络,并将节点特征矩阵输入至多层卷积神经网络,获得图特征向量,实现通过多层卷积神经网络得到更深层次的语义向量,并通过二分类神经网络的分类方法实现事件共指消解,这是一种端到端的事件共指消解方法,减少了级联消解方式带来的错误传导效应,提高了消歧的准确率。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的基于图神经网络的事件消歧方法的一个实施例的流程图;
图3是根据本申请的基于图神经网络的事件消歧装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
附图标记:200、计算机设备;201、存储器;202、处理器;203、网络接口;300、基于图神经网络的事件消歧装置;301、接收模块;302、第一计算模块;303、生成模块;304、构建模块;305、输入模块;306、第二计算模块;307、获得模块。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104 和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面 3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的基于图神经网络的事件消歧方法一般由服务器/终端设备执行,相应地,基于图神经网络的事件消歧装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的基于图神经网络的事件消歧方法的一个实施例的流程图。所述的基于图神经网络的事件消歧方法,包括以下步骤:
S1:接收事件语料,对所述事件语料分别进行分词操作、命名实体识别操作和事件抽取操作,分别获得多个词语、多个实体和多个事件元素。
在本实施例中,对事件语料进行分词,获得多个词语,多个词语形成分词集合W,W={w1,w2,...,wD}。通过命名实体识别技术识别事件语料中的实体,获得多个实体,多个实体形成实体集合EN,EN={et1,et2,...,etN}。事件元素角色采用本领域ACE(Auto ContentExtraction,自动内容提取) 评测会议中定义的角色,包括事件类型、事件触发词、事件涉及人物、事件涉及地点、事件涉及时间等元素。采用事件抽取方法识别事件(一个事件即指一条事件语料)中的事件元素角色,获得多个事件元素,多个事件元素形成事件元素集合EE,EE={ee1,ee2,...,eeM}。
需要说明的是:由于分词、命名实体识别、事件抽取技术已较为成熟,本申请不限定具体方法。
在本实施例中,基于图神经网络的事件消歧方法运行于其上的电子设备 (例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收事件语料。需要指出的是,上述无线连接方式可以包括但不限于3G/4G/5G 连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband) 连接、以及其他现在已知或将来开发的无线连接方式。
S2:基于所述词语、实体和事件元素计算第一交互系数、第二交互系数、第三交互系数和第四交互系数。
在本实施例中,通过词语、实体和事件元素计算多个维度的交互系数,即第一交互系数、第二交互系数、第三交互系数和第四交互系数。
S3:根据所述第一交互系数、第二交互系数、第三交互系数和第四交互系数生成初始向量,并对所述初始向量进行归一化处理,获得目标向量。
具体的,所述基于所述词语、实体和事件元素计算第一交互系数、第二交互系数、第三交互系数和第四交互系数的步骤包括:
计算所述事件元素与所述实体之间的交互系数,作为第一交互系数,并计算所述实体之间的交互系数,作为第二交互系数;
调用句法识别工具对所述事件语料进行句法识别,获得依存句法树,根据所述依存句法树确定依存句法交互系数,作为第三交互系数;
确定在预设知识库中每个所述词语的近义词的数量和下位词的数量,根据所述近义词的数量和下位词的数量计算所述词语之间的语义交互系数,作为第四交互系数。
在本实施例中,在预设知识库WordNet中寻找分词集合中每个词语的近义词、上位词和下位词的各自出现的频率(即数量)。设词语Wi的近义词的数量为synonnum(Wi),下位词的数量为hyponnum(Wi)。概括性较强的单词叫做特定性较强的单词的上位词(hypernym),特定性较强的单词叫做概括性较强的单词的下位词(hyponym)。举例来说,猩红色、鲜红色、胭脂红、绯红色都是“红色”的下位词,而红色则是猩红色的上位词。
进一步的,所述计算所述事件元素与所述实体之间的交互系数,作为第一交互系数的步骤包括:
通过如下公式计算所述第一交互系数:
在本实施例中,第一交互系数又称为事件元素与实体之间的交互系数。编辑距离是用来度量两个序列相似程度的指标。通俗地来讲,编辑距离指的是在两个单词<w_1,w_2>之间,由其中一个单词w_1转换为另一个单词w_2所需要的最少单字符编辑操作次数。在这里定义的单字符编辑操作有且仅有三种:插入、删除、替换。例如:十二月转换到腊月,首先需要将十字删除,然后将二替换为腊,因此十二月到腊月的编辑距离为2。
另外,所述计算所述实体之间的交互系数,作为第二交互系数的步骤包括:
将所述实体转换为词向量,根据所述词向量计算所述词语之间的余弦相似度,作为所述第二交互系数。
在本实施例中,第二交互系数又称为实体间交互系数。对识别出来的实体,在预置的词向量集中查找其对应的词向量。其中,预置的词向量集可采用互联网公开的词向量集,例如谷歌、腾讯等公司公开的词向量集,词向量集中包含了每个词对应的词向量。实体间交互系数为 其中,cosine为余弦相似度。
同时,根据所述依存句法树确定依存句法交互系数,作为第三交互系数的步骤包括:
在所述依存句法树中,若在同一个句子中的词语之间存在依存关系,则对应的所述第三交互系数为1;
在所述依存句法树中,若在同一个句子中的词语之间不存在依存关系,则对应的所述第三交互系数为0;
若任意两个所述词语不在同一个句子中,则对应的所述第三交互系数为0。
在本实施例中,第三交互系数又称为基于句法的交互系数。采用NLTK (naturallanguage toolkit,自然语言处理工具包)等工具,识别每个句子(即每条事件语料)的依存句法关系,形成依存句法树。包括:主谓关系、动宾关系等,例如:他弹奏钢琴。经过依存句法分析后,可以识别出“他”与“弹奏”之间存在主谓关系。“弹奏”与“钢琴”之间存在动宾关系。将依存句法交互系数作为第三交互系数。
另外,所述根据所述近义词的数量和下位词的数量计算所述词语之间的语义交互系数,作为第四交互系数的步骤包括:
根据如下公式计算所述第四交互系数:
在本实施例中,分词集合中所有词语的所述近义词的总数为synonnum,所有下位词的总数为hyponnum。第四交互系数又称为基于语义的交互系数。
此外,在所述对所述初始向量进行归一化处理,获得目标向量的步骤包括:
通过如下公式对所述初始向量进行归一化处理:
在本实施例中,通过对初始向量进行归一化处理,便于后续的数据处理。 qT是一个在神经网络训练过程中可学习得到的向量,qT的初始值随机指定。
S4:基于所述词语、所述实体和所述事件元素构建目标连接图,所有所述目标向量组成所述目标连接图的邻接矩阵,基于所述邻接矩阵生成目标矩阵。
在本实施例中,构造包含所述词语、所述实体和所述事件元素的目标连接图。所述词语、所述实体和所述事件元素均作为所述目标连接图中的节点。
具体的,所述基于所述邻接矩阵生成目标矩阵的步骤包括:
计算所述目标连接图的出入度矩阵;
基于所述邻接矩阵和所述出入度矩阵计算目标矩阵。
在本实施例中,通过邻接矩阵计算目标连接图的出入度矩阵,进一步恩局邻接矩阵和出入度矩阵计算目标矩阵。
进一步的,通过如下公式计算所述出入度矩阵:
Dii=∑jAij,其中,Dii为所述出入度矩阵,Aij为所述邻接矩阵。
通过如下公式计算所述目标矩阵:
在本实施例中,邻接矩阵(Adjacency Matrix):是表示节点之间相邻关系 (即边)的矩阵。Aij为所述目标连接图的邻接矩阵,A∈Rn×n,A中的元素即为所述目标向量aij,n为图G的所有节点数目,A为n×n的矩阵。
S5:基于所述目标矩阵构建多层卷积神经网络,将所述目标连接图中的节点转化为节点特征矩阵,将所述节点特征矩阵输入至所述多层卷积神经网络中,获得输出的所述目标连接图中每个节点的图特征向量。
在本实施例中,基于所述目标矩阵构建多层卷积神经网络(GraphConvolutional Network,GCN),多层卷积神经网络的层数可以根据实际操作中的需要设置。将节点特征矩阵输入至所述多层卷积神经网络中,经过迭代方式计算后,多层卷积神经网络最后一层的输出的向量为所述目标连接图中每个节点的对应的图特征向量。
进一步的,所述将所述目标连接图中的节点转化为节点特征矩阵的步骤包括:
将目标连接图中的节点输入至预训练的BERT语言模型中,获得输出的节点特征向量,其中,每个所述节点特征向量的维度为m;
根据所有所述节点特征向量生成所述节点特征矩阵。
在本实施例中,BERT全称为Bidirectional Encoder Representation fromTransformers,是一个预训练的语言表征模型。所述节点特征矩阵为 X∈Rn×m,其中,n为所述目标连接图(或者称为图G)中所有节点的数量,每个所述节点特征向量的维度为m。
此外,所述基于所述目标矩阵构建多层卷积神经网络的步骤包括:
所述多层卷积神经网络的计算公式为:
在本实施例中,L(j)表示所述多层卷积神经网络的第j层,L(0)=X,其中, X为上述节点特征矩阵。
S6:计算每条所述事件语料中的事件元素对应的图特征向量的平均值,获得事件特征向量。
在本实施例中,计算每条所述事件语料(或称为每个事件)中的事件元素对应的图特征向量的平均值(即算数平均值),得到每个事件的事件特征向量。
S7:将任意两个所述事件特征向量输入至预训练的二分类神经网络中,获得输出的二分类结果。
在本实施例中,通过有监督学习方式判断两个事件的共指关系。设置标签为1和0,其中,1表示两个事件为共指事件,0表示两个事件非共指事件。构建二分类神经网络,采用交叉熵损失函数训练所述二分类神经网络,以每个事件的事件特征向量作为输入,获得训练后的所述二分类神经网络输出二分类结果,即两个事件是否为同一个事件。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种基于图神经网络的事件消歧装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的基于图神经网络的事件消歧装置300包括:接收模块301、第一计算模块302、生成模块303、构建模块304、输入模块305、第二计算模块306以及获得模块307。其中:接收模块301,用于接收事件语料,对所述事件语料分别进行分词操作、命名实体识别操作和事件抽取操作,分别获得多个词语、多个实体和多个事件元素;第一计算模块302,用于基于所述词语、实体和事件元素计算第一交互系数、第二交互系数、第三交互系数和第四交互系数;生成模块303,用于根据所述第一交互系数、第二交互系数、第三交互系数和第四交互系数生成初始向量,并对所述初始向量进行归一化处理,获得目标向量;构建模块304,用于基于所述词语、所述实体和所述事件元素构建目标连接图,所有所述目标向量组成所述目标连接图的邻接矩阵,基于所述邻接矩阵生成目标矩阵;输入模块305,用于基于所述目标矩阵构建多层卷积神经网络,将所述目标连接图中的节点转化为节点特征矩阵,将所述节点特征矩阵输入至所述多层卷积神经网络中,获得输出的所述目标连接图中每个节点的图特征向量;第二计算模块306,用于计算每条所述事件语料中的事件元素对应的图特征向量的平均值,获得事件特征向量;获得模块307,用于将任意两个所述事件特征向量输入至预训练的二分类神经网络中,获得输出的二分类结果。
在本实施例中,本申请通过基于基于所述词语、实体和事件元素计算第一交互系数、第二交互系数、第三交互系数和第四交互系数,进而生成目标向量,将实体、语法、语义等信息融合,通过基于目标向量构建多层卷积神经网络,并将节点特征矩阵输入至多层卷积神经网络,获得图特征向量,实现通过多层卷积神经网络得到更深层次的语义向量,并通过二分类神经网络的分类方法实现事件共指消解,这是一种端到端的事件共指消解方法,减少了级联消解方式带来的错误传导效应,提高了消歧的准确率。
生成模块303包括第一生成子模块、第二生成子模块和第三生成子模块,其中,所述第一生成子模块用于计算所述事件元素与所述实体之间的交互系数,作为第一交互系数,并计算所述实体之间的交互系数,作为第二交互系数;所述第二生成子模块用于调用句法识别工具对所述事件语料进行句法识别,获得依存句法树,根据所述依存句法树确定依存句法交互系数,作为第三交互系数;所述第三生成子模块用于确定在预设知识库中每个所述词语的近义词的数量和下位词的数量,根据所述近义词的数量和下位词的数量计算所述词语之间的语义交互系数,作为第四交互系数。
在本实施例的一些可选的实现方式中,所述第一生成子模块进一步用于,通过如下公式计算所述第一交互系数:
在本实施例的一些可选的实现方式中,所述第一生成子模块进一步用于,将所述实体转换为词向量,根据所述词向量计算所述词语之间的余弦相似度,作为所述第二交互系数。
所述第二生成子模块包括第一生成单元、第二生成单元和第三生成单元,其中,所述第一生成单元包括在所述依存句法树中,在同一个句子中的词语之间存在依存关系时,对应的所述第三交互系数为1;所述第二生成单元包括在所述依存句法树中,在同一个句子中的词语之间不存在依存关系时,对应的所述第三交互系数为0;所述第三生成单元包括在任意两个所述词语不在同一个句子中时,对应的所述第三交互系数为0。
在本实施例的一些可选的实现方式中,所述第三生成子模块进一步用于:根据如下公式计算所述第四交互系数:
在本实施例的一些可选的实现方式中,所述生成模块303进一步用于通过如下公式对所述初始向量进行归一化处理:
所述构建模块304包括第一计算子模块和第二计算子模块,其中,所述第一计算子模块用于计算所述目标连接图的出入度矩阵;所述第二计算子模块用于基于所述邻接矩阵和所述出入度矩阵计算目标矩阵。
所述第一计算子模块进一步用于通过如下公式计算所述出入度矩阵:
Dii=∑jAij,其中,Dii为所述出入度矩阵,Aij为所述邻接矩阵。
所述第二计算子模块进一步用于通过如下公式计算所述目标矩阵:
所述输入模块305包括输入子模块和矩阵生成子模块,其中,所述输入子模块用于将目标连接图中的节点输入至预训练的BERT语言模型中,获得输出的节点特征向量,其中,每个所述节点特征向量的维度为m;所述矩阵生成子模块用于根据所有所述节点特征向量生成所述节点特征矩阵。
在本实施例的一些可选的实现方式中,输入模块305进一步包括所述多层卷积神经网络的计算公式为:
本申请通过基于基于所述词语、实体和事件元素计算第一交互系数、第二交互系数、第三交互系数和第四交互系数,进而生成目标向量,将实体、语法、语义等信息融合,通过基于目标向量构建多层卷积神经网络,并将节点特征矩阵输入至多层卷积神经网络,获得图特征向量,实现通过多层卷积神经网络得到更深层次的语义向量,并通过二分类神经网络的分类方法实现事件共指消解,这是一种端到端的事件共指消解方法,减少了级联消解方式带来的错误传导效应,提高了消歧的准确率。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备200包括通过系统总线相互通信连接存储器201、处理器 202、网络接口203。需要指出的是,图中仅示出了具有组件201-203的计算机设备200,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器201至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器201可以是所述计算机设备200的内部存储单元,例如该计算机设备200的硬盘或内存。在另一些实施例中,所述存储器201也可以是所述计算机设备200的外部存储设备,例如该计算机设备200上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器201还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中,所述存储器201通常用于存储安装于所述计算机设备200的操作系统和各类应用软件,例如基于图神经网络的事件消歧方法的计算机可读指令等。此外,所述存储器201还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器202在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器202通常用于控制所述计算机设备200的总体操作。本实施例中,所述处理器202用于运行所述存储器201中存储的计算机可读指令或者处理数据,例如运行所述基于图神经网络的事件消歧方法的计算机可读指令。
所述网络接口203可包括无线网络接口或有线网络接口,该网络接口203 通常用于在所述计算机设备200与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于图神经网络的事件消歧方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘) 中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (10)
1.一种基于图神经网络的事件消歧方法,其特征在于,包括下述步骤:
接收事件语料,对所述事件语料分别进行分词操作、命名实体识别操作和事件抽取操作,分别获得多个词语、多个实体和多个事件元素;
基于所述词语、实体和事件元素计算第一交互系数、第二交互系数、第三交互系数和第四交互系数;
根据所述第一交互系数、第二交互系数、第三交互系数和第四交互系数生成初始向量,并对所述初始向量进行归一化处理,获得目标向量;
基于所述词语、所述实体和所述事件元素构建目标连接图,所有所述目标向量组成所述目标连接图的邻接矩阵,基于所述邻接矩阵生成目标矩阵;
基于所述目标矩阵构建多层卷积神经网络,将所述目标连接图中的节点转化为节点特征矩阵,将所述节点特征矩阵输入至所述多层卷积神经网络中,获得输出的所述目标连接图中每个节点的图特征向量;
计算每条所述事件语料中的事件元素对应的图特征向量的平均值,获得事件特征向量;
将任意两个所述事件特征向量输入至预训练的二分类神经网络中,获得输出的二分类结果。
2.根据权利要求1所述的基于图神经网络的事件消歧方法,其特征在于,所述基于所述词语、实体和事件元素计算第一交互系数、第二交互系数、第三交互系数和第四交互系数的步骤包括:
计算所述事件元素与所述实体之间的交互系数,作为第一交互系数,并计算所述实体之间的交互系数,作为第二交互系数;
调用句法识别工具对所述事件语料进行句法识别,获得依存句法树,根据所述依存句法树确定依存句法交互系数,作为第三交互系数;
确定在预设知识库中每个所述词语的近义词的数量和下位词的数量,根据所述近义词的数量和下位词的数量计算所述词语之间的语义交互系数,作为第四交互系数。
4.根据权利要求2所述的基于图神经网络的事件消歧方法,其特征在于,所述计算所述实体之间的交互系数,作为第二交互系数的步骤包括:
将所述实体转换为词向量,根据所述词向量计算所述词语之间的余弦相似度,作为所述第二交互系数。
5.根据权利要求2所述的基于图神经网络的事件消歧方法,其特征在于,根据所述依存句法树确定依存句法交互系数,作为第三交互系数的步骤包括:
在所述依存句法树中,若在同一个句子中的词语之间存在依存关系,则对应的所述第三交互系数为1;
在所述依存句法树中,若在同一个句子中的词语之间不存在依存关系,则对应的所述第三交互系数为0;
若任意两个所述词语不在同一个句子中,则对应的所述第三交互系数为0。
7.根据权利要求1所述的基于图神经网络的事件消歧方法,其特征在于,所述将所述目标连接图中的节点转化为节点特征矩阵的步骤包括:
将目标连接图中的节点输入至预训练的BERT语言模型中,获得输出的节点特征向量;
根据所有所述节点特征向量生成所述节点特征矩阵。
8.一种基于图神经网络的事件消歧装置,其特征在于,包括:
接收模块,用于接收事件语料,对所述事件语料分别进行分词操作、命名实体识别操作和事件抽取操作,分别获得多个词语、多个实体和多个事件元素;
第一计算模块,用于基于所述词语、实体和事件元素计算第一交互系数、第二交互系数、第三交互系数和第四交互系数;
生成模块,用于根据所述第一交互系数、第二交互系数、第三交互系数和第四交互系数生成初始向量,并对所述初始向量进行归一化处理,获得目标向量;
构建模块,用于基于所述词语、所述实体和所述事件元素构建目标连接图,所有所述目标向量组成所述目标连接图的邻接矩阵,基于所述邻接矩阵生成目标矩阵;
输入模块,用于基于所述目标矩阵构建多层卷积神经网络,将所述目标连接图中的节点转化为节点特征矩阵,将所述节点特征矩阵输入至所述多层卷积神经网络中,获得输出的所述目标连接图中每个节点的图特征向量;
第二计算模块,用于计算每条所述事件语料中的事件元素对应的图特征向量的平均值,获得事件特征向量;
获得模块,用于将任意两个所述事件特征向量输入至预训练的二分类神经网络中,获得输出的二分类结果。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于图神经网络的事件消歧方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于图神经网络的事件消歧方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210442385.1A CN115062136A (zh) | 2022-04-25 | 2022-04-25 | 基于图神经网络的事件消歧方法及其相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210442385.1A CN115062136A (zh) | 2022-04-25 | 2022-04-25 | 基于图神经网络的事件消歧方法及其相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115062136A true CN115062136A (zh) | 2022-09-16 |
Family
ID=83196427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210442385.1A Pending CN115062136A (zh) | 2022-04-25 | 2022-04-25 | 基于图神经网络的事件消歧方法及其相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115062136A (zh) |
-
2022
- 2022-04-25 CN CN202210442385.1A patent/CN115062136A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
WO2021121198A1 (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
WO2021135455A1 (zh) | 语义召回方法、装置、计算机设备及存储介质 | |
CN112231569A (zh) | 新闻推荐方法、装置、计算机设备及存储介质 | |
CN112686022A (zh) | 违规语料的检测方法、装置、计算机设备及存储介质 | |
KR20160147303A (ko) | 기억 능력을 이용하는 다중 사용자 기반의 대화 관리 방법 및 이를 수행하는 장치 | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN114357117A (zh) | 事务信息查询方法、装置、计算机设备及存储介质 | |
US20230008897A1 (en) | Information search method and device, electronic device, and storage medium | |
CN116796857A (zh) | 一种llm模型训练方法、装置、设备及其存储介质 | |
CN115438149A (zh) | 一种端到端模型训练方法、装置、计算机设备及存储介质 | |
CN112528040B (zh) | 基于知识图谱的引导教唆语料的检测方法及其相关设备 | |
CN117275466A (zh) | 一种业务意图识别方法、装置、设备及其存储介质 | |
CN116755688A (zh) | 组件处理方法、装置、计算机设备及存储介质 | |
CN116881446A (zh) | 一种语义分类方法、装置、设备及其存储介质 | |
WO2023137903A1 (zh) | 基于粗糙语义的回复语句确定方法、装置及电子设备 | |
CN114742058B (zh) | 一种命名实体抽取方法、装置、计算机设备及存储介质 | |
CN115238077A (zh) | 基于人工智能的文本分析方法、装置、设备及存储介质 | |
CN115827865A (zh) | 一种融合多特征图注意力机制的不良文本分类方法及系统 | |
CN112199954B (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN114637831A (zh) | 基于语义分析的数据查询方法及其相关设备 | |
CN114490946A (zh) | 基于Xlnet模型的类案检索方法、系统及设备 | |
CN115809313A (zh) | 一种文本相似度确定方法及设备 | |
CN115062136A (zh) | 基于图神经网络的事件消歧方法及其相关设备 | |
CN113807920A (zh) | 基于人工智能的产品推荐方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |