CN111767408B - 一种基于多种神经网络集成的因果事理图谱构建方法 - Google Patents

一种基于多种神经网络集成的因果事理图谱构建方法 Download PDF

Info

Publication number
CN111767408B
CN111767408B CN202010459865.XA CN202010459865A CN111767408B CN 111767408 B CN111767408 B CN 111767408B CN 202010459865 A CN202010459865 A CN 202010459865A CN 111767408 B CN111767408 B CN 111767408B
Authority
CN
China
Prior art keywords
event
events
result
data
causal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010459865.XA
Other languages
English (en)
Other versions
CN111767408A (zh
Inventor
云红艳
胡欢
云洋
李正民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao University
Original Assignee
Qingdao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University filed Critical Qingdao University
Priority to CN202010459865.XA priority Critical patent/CN111767408B/zh
Publication of CN111767408A publication Critical patent/CN111767408A/zh
Application granted granted Critical
Publication of CN111767408B publication Critical patent/CN111767408B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于网络信息技术领域,涉及一种基于多种神经网络集成的因果事理图谱构建方法,先将获取的语料库的获取采用BIO序列标注体系标注数据且分割数据,再用BERT+Bi‑LSTM+Attention+CRF模型进行事件抽取,事件关系抽取时先基于事件抽取元素(<O,V>)组合成事件并定义事件对及规则特征,再结合事件间规则特征与Bi‑GRU模型抽取因果关系;然后基于事件对利用相似度计算,选取分数最高的两个事件组合成<事件i,相似,事件j>三元组,再基于事件关系抽取组合<原因事件,因果,结果事件>三元组,接着采用Neo4j图数据库持久化存储,搭建事理逻辑知识库构建出面向热点话题的因果事理图谱,构建的因果事理图谱能够深层次的提取语义信息,有利于相关监管部门及个人用户对热点事件的实时掌控。

Description

一种基于多种神经网络集成的因果事理图谱构建方法
技术领域:
本发明属于网络信息技术领域,涉及一种基于多种神经网络集成的因果事理图谱构建方法。
背景技术:
自从Hinton在Natures上发表深度学习的文章,人工智能新的浪潮随之到来。2012年,CNN夺冠ImageNet,2014年,港中文实验室DeppID算法模型首次超过人眼识别人脸率,2016年,AlphaGo战胜人类高水平围棋选手,2018,谷歌发布Cloud AutoML。但随之人工智能发展进入下一个阶段,让机器去学习掌握人类的知识。例如,理解人类的常识知识“吃饱了”后就会“不饿”。基于深度学习的隐式消费意图研究,能够能让机器知道“结婚”事件伴随“买房子”、“去旅行”等一系列后续消费事件。现有的对话系统、问答系统基于大规模语料中用最大似然估计的方法训练语料集,是一种针对特定模式的记忆。人类的语言知识及语境是复杂多变的,目前机器学习的知识堆上下文前因后果的学习还需要进一步的研究与探索。事理逻辑知识库的构建及其内在信息的挖掘的研究,必将会推动人工智能应用的发展。
Google、Bing、Baidu等将知识图谱技术运用在搜索引擎中,使搜索的时间、准确性及对用户的兴趣得到了大大提升。但是其主要研究的是实体和实体之间的关系,对于事件及事件之间的逻辑挖掘仍缺乏。事理图谱概念的提出,揭示事件的演化规律和发展模式,其包含的事理逻辑知识,事件之间顺承、因果及上下位等关系,对人工智能领域的应用及任务具有潜在的巨大价值。
目前事理图谱的构建及应用研究处于初步阶段,各路学者对其研究中,在构建中阐明存在两大难点:(1)事件抽取:在自然文本中抽取出定义的事件元素如触发词、事件主体、时间、地点等。(2)事件关系抽取:显式的关系抽取依赖于关联词库,隐式关系抽取在没有关联词的情况下抽取出顺承、因果、上下位关系等。在事理图谱的应用研究中跟知识图谱一样具有多样的应用场景,如消费者意图挖掘、问答系统、辅助决策系统、对话生成等。
发明内容:
本发明的目的在于克服现有技术存在的缺点,设计一种基于多种神经网络集成的因果事理图谱构建方法,包含3个主要关键技术:(1)事件抽取:首先是语料库的获取,采用Scrapy与无监督学习Kmeans算法,其次是事件的定义及采用BIO序列标注体系标注数据且分割数据成训练集、验证集与测试集,接着用BERT+Bi-LSTM+Attention+CRF模型进行事件抽取;(2)事件关系抽取:首先是基于事件抽取元素(<O,V>)组合成事件,接着定义事件对及规则特征,然后结合事件间规则特征与Bi-GRU模型抽取因果关系;(3)事件知识存储:首先基于事件对利用相似度计算,选取分数最高的两个事件组合成<事件i,相似,事件j>三元组,然后基于事件关系抽取组合<原因事件,因果,结果事件>三元组,接着采用Neo4j图数据库持久化存储,搭建事理逻辑知识库构建出面向热点话题的因果事理图谱。
为了实现上述发明目的,本发明所述基于多种神经网络集成的因果事理图谱构建方法包括以下步骤:
步骤1:采用开源的Scrapy框架爬取互联网平台发布的数据,爬取的内容为标题、内容和时间,Spider向引擎发送请求,调度器接收到向调度器发送请求,通过URL向互联网发送请求,抓取的数据返回给Spider做处理,然后采用Xpath语句处理<h3 id=“title”>、<div class=“date”>、<span>标签,将获取的数据交给管道存储为以时间降序的CSV格式,形成以时间降序存储热点话题文本数据集;
步骤2:根据步骤1将获取的热点话题文本数据集采用无监督学习kmeans算法进行文本聚类分析;
步骤3:定义事件的组成元素,再利用步骤2获取的数据源采用BIO序列标注体系对文本数据标注;
步骤4:根据步骤3标注的数据采用BERT模型空间向量化数据源,接着结合Bi-LSTM+Attention+CRF模型抽取出事件元素;
步骤5:根据步骤4事件抽取结果构建候选事件对;
步骤6:定义事件间规则特征模板且结合Bi-GRU抽取模型识别因果关系;
步骤7:根据步骤5获取<原因事件,因果,结果事件>三元组,再根据步骤4组成的事件对采用余弦相似度计算获取<事件i,相似,事件j>三元组,然后利用Neo4j图数据库存储事件逻辑知识;
步骤8:根据步骤7存储的事理逻辑知识库采用HTML5、py2neo和VIS.JS相关技术将存储在Neo4j中的事件知识封装展现,实现因果事理图谱可视化。
本发明步骤2具体包含以下步骤:
步骤2.1:首先做分词、去重和特征提取等预处理,接着采用word2vec模型对文章标题数据集进行向量化表示,设定维度为128,最终表达的结果如0.172414 -0.0910630.255125 -0.837163 0.434872 -0.499848 -0.972818 -0.236247 -0.652281 0.4068520.849602 -0.685552 0.672314 -0.591763 0.355425 -0.232163 0.834272 -0.192848 -0.172218 -0.939247 -0.252581 0.606252 0.143602 -0.485952 0.831824 -0.1289530.946825 -0.336163……
步骤2.2:先对128为空间向量化的数据采用PCA降维至32维,其后从数据中选择k个对象作为初始聚类中心,接着计算每个聚类对象到聚类中心的距离来划分,然后再次计算每个聚类中心,随后计算标准测度函数,当达到最大迭代次数100时,则停止,否则,继续操作。
本发明步骤3具体包含以下步骤:
步骤3.1:定义事件的组成元素:设事件E由五个基本要素组成,表示为五元组E={O,V,P,T,L},O为事件参与者,V为事件触发词语,P为事件发生地点,T为事件发生时间,L为事件发生程度,事件发生程度包括不断、很、非常、相当、一点和明显地;
步骤3.2:采用BIO的标注体系,“B-X”属于X类型且以此元素为开头,“I-X”属于X类型的中间位置,“O”不属于任何类型;
步骤3.3:根据3.2标注结果的文档集,按照8:1:1的比例划分训练集、验证集、测试集。
本发明步骤4具体包含以下步骤:
步骤4.1:输入层:神经网络模型的输入需定长的文本,本发明设置size=228,少于设置的size用‘u’补齐,大于设置size的文本减短。
步骤4.2:BERT词嵌入层:设由步骤3标注的文档集用D={p1,p2,p3,...pn},每个文档用pi={w1,w2,w3,...wm},其中wi表示词,设存在词向量矩阵为
Figure GDA0002658736430000031
其中Wk是通过训练学习得到的参数矩阵,dw是词向量的维度,V是固定大小的词汇表,设置每个词的维度为128,最终通过BERT模型空间向量化的结果表达为ei=Wwvi
步骤4.3:Bi-LSTM层:将文档中的预处理的词向量输入到Bi-LSTM神经网络模型中,通过其存在三个门控系统,将历史信息、重要信息、无用信息双向学习上下文信息,最后输出为
Figure GDA0002658736430000042
其中Fi由前向当前细胞状态乘以输出门的权重矩阵输出的当前隐状态,Ri由后向当前细胞状态乘以输出门的权重矩阵输出的当前隐状态;
步骤4.4:Attention层:设Bi-LSTM层的输出为H=[h1,h2,h3,...hn],得到权重矩阵过程中需学习参数M=tanh(H),α=softmax(wTM),其中wT为训练学习的参数转置,r=HαT,最终输出的结果为hi=tanh(r);
步骤4.5:CRF输出层:设每个hi对应的得分为oi,则oi=Whi,W为训练的参数矩阵,
Figure GDA0002658736430000041
其中y为预测结果,T为转换矩阵,yi为文档D的标签序列,基于BIO体系标注体系,输出的结果为yr=argmax(score(D,y)),即为事件抽取结果。
本发明步骤5具体包含以下步骤:
步骤5.1:根据步骤4事件抽取结果,将每句事件段中标注的事件参与者与事件触发词(<O,V>)组合成一个事件;
步骤5.2:设语料库中事件的集合E={e1,e2,e3,...en},构建的事件对<ei,ej,y>,其中y∈{-1,0,1},-1表示ei为ej的原因事件,0表示ei、ej没有因果关系,1表示ej为ei的结果事件。
本发明步骤6具体包含以下步骤:
步骤6.1:选取七个方面作为话题事件间规则特征:(1)触发词:去除两个事件触发词的词尾,将剩下来的词干做比较,若相同特征值为1,否则为0;(2)触发词词性:若两个事件触发词的词性相同,特征值为1,否则为0;(3)触发词语义角色:指名词及动词组成的语义结构后,名词在其担任的角色,若语义角色相同特征值为1,否则为0;(4)触发词句法结构:反映触发词在句中的成分,若相同特征值为1,否则为0;(5)事件间间隔事件数目:设间隔事件数的区间在[0,3],若事件间隔数在此区间特征值为1,否则为0;(6)事件间相对距离:设相对距离空间[0,60],若事件间相对距离在此区间特征值为1,否则为0;(7)事件时态:若事件发生在同一时态或结果事件时态在原因之后特征值为1,若结果事件时态在原因事件前,特征值为0;
步骤6.2:采用BERT模型空间向量化事件句,将事件ei及ej在对应的事件句中用Bi-GRU网络模型正反向学习;
步骤6.3:注意力机制层:设事件ei的所对应事件句抽取隐含语义信息结果为Hi=[H1,H2,H3,...Hn],事件ei触发词的空间向量矩阵为Wi=[wi,wi,wi,...wi],其中n是事件句的个数,最终事件的语义特征表达式结果为
Figure GDA0002658736430000051
步骤6.4:输出层:设识别结果为Y,ei的事件语义表达为hi∈Rd的事件语义表达hj=Rd,其中d为词向量维度,事件间特征规则为F,模型训练权重W∈r(2d+Fn)m,其中m=3,Fn=7,偏置b∈Rn,则输出层最终分类结果表达为Y=softmax(W[hi,hj,F]+b)。
本发明步骤7具体包含以下步骤:
步骤7.1:根据步骤4抽取结果组成的事件对采用余弦相似度计算,计算公式为
Figure GDA0002658736430000052
其中a,b为通过BERT模型空间向量化的事件表达,夹角越小,两个向量越相似,从而两个事件越相似;
步骤7.2:基于步骤4事件抽取及步骤6事件关系抽取获得<事件原因,因果,事件结果>、<事件i,相似,事件j>三元组形式并采用Neo4j图数据库持久化存储数据。
本发明步骤8具体包含以下步骤:
步骤8.1:编写三元组解释器,将三元组中数据抽取成Node及Relation节点数据,配置host、http_port等参数驱动Neo4j图数据库。
步骤8.2:加载Py2Neo第三方库,首先使用Node()函数可将事件原因、事件结果、事件i,事件j转换成Neo4j中节点,其次用Relationship()函数可将节点之间通过因果、相似事件连接,关系的属性可使用**properties参数设置。最后动态生成cypher语句生成节点和边。
本发明与现有技术相比,具有以下优点:一是基于BERT对热点话题事件文本数据集进行向量化表示,其上下文的联系更密切,表达方式更准确;二是结合Bi-LSTM+Atteion+CRF抽取模型使事件抽取结果的准确性更高,数据集中F1值可达到91%。结;三是事件间的特征模板与Bi-GRU抽取模型是的事件因果关系结果本发明数据集中的F1值达到86%,相比传统关系抽取模型准确率更高;四是采用Neo4j图数据是的查询的效率更优于传统关系型数据库,能够深层次的提取语义信息,有利于相关监管部门及个人用户对热点事件的实时掌控。
附图说明:
图1为本发明的构建方法流程图。
图2为本发明所建立的事件抽取模型结构图。
图3为本发明所建立的事件因果关系抽取模型结构图。
图4为本发明所建立的事件知识存储流程图。
图5为本发明实施例构建的面向热点话题的因果事理图谱。
具体实施方式:
下面通过实施例并结合附图对本发明进行详细说明。
实施例:
本实施例面向热点话题的因果事理图谱构建过程包括以下步骤:
步骤1:采用开源的Scrapy框架爬取互联网平台发布的数据,爬取的内容为标题、内容和时间且以时间降序存储热点话题文本数据集;
步骤2:根据步骤1将获取的热点话题文本数据集采用无监督学习kmeans算法进行文本聚类分析;
步骤3:定义事件的组成元素,再利用步骤2获取的数据源采用BIO序列标注体系对文本数据标注;
步骤4:根据步骤3标注的数据采用BERT模型空间向量化数据源,接着结合Bi-LSTM+Attention+CRF模型抽取出事件元素;
步骤5:根据步骤4事件抽取结果构建候选事件对;
步骤6:定义事件间规则特征模板且结合Bi-GRU抽取模型识别因果关系;
步骤7:根据步骤5获取<原因事件,因果,结果事件>三元组,再根据步骤4组成的事件对采用余弦相似度计算获取<事件i,相似,事件j>三元组。接着利用Neo4j图数据库存储事件逻辑知识;
步骤8:根据步骤7存储的事理逻辑知识库采用HTML5、py2neo和VIS.JS相关技术将存储在Neo4j中的事件知识封装展现,实现因果事理图谱可视化。
本实施例步骤1具体包含以下步骤:
步骤1.1:爬取农业农村部网站(http://www.moa.gov.cn/)中关于猪瘟的话题,设定爬取的内容为Item为标题(title)、时间(time)、内容(content);
步骤1.2:Spider向引擎发送请求,调度器接收到向调度器发送请求,通过URL向互联网发送请求,抓取的数据返回给Spider做处理。然后采用Xpath语句处理<h3 id=“title”>、<div class=“date”>、<span>标签。最后将获取的数据交给管道存储为以时间降序的CSV格式。
本实施例步骤2具体包含以下步骤:
步骤2.1:首先做分词、去重和特征提取等预处理,接着采用word2vec模型对文章标题数据集进行向量化表示,设定维度为128,最终表达的结果如0.172414 -0.0910630.255125 -0.837163 0.434872 -0.499848 -0.972818 -0.236247 -0.652281 0.4068520.849602 -0.685552 0.672314 -0.591763 0.355425 -0.232163 0.834272 -0.192848 -0.172218 -0.939247 -0.252581 0.606252 0.143602 -0.485952 0.831824 -0.1289530.946825 -0.336163……
步骤2.2:先对128为空间向量化的数据采用PCA降维至32维,其后从数据中选择k个对象作为初始聚类中心,接着计算每个聚类对象到聚类中心的距离来划分,然后再次计算每个聚类中心,随后计算标准测度函数,当达到最大迭代次数100时,则停止,否则,继续操作,本实施例爬取的互联网数据最终选择中心点的k取值为3,最后采用Kmeans聚类算法将数据划分。
本实施例步骤3具体包含以下步骤:
步骤3.1:定义事件的组成元素:设事件E由五个基本要素组成,表示为五元组E={O,V,P,T,L},O为事件参与者,V为事件触发词语,P为事件发生地点,T为事件发生时间,L为事件发生程度,事件发生程度包括不断、很、非常、相当、一点和明显地;
步骤3.2:采用BIO的标注体系,如“B-X”属于X类型且以此元素为开头“I-X”属于X类型的中间位置,“O”不属于任何类型,如猪瘟话题中某段内容标注的数据形式“2018/B-T年/I-T 8/I-T月/I-T初/O,中/B-L国/I-L首/O例/O非/B-O洲/I-O猪/I-O瘟/I-O疫/O情/O出/B-V现/B-V并/O不/B-L断/I-L延/B-V续/I-V,截/O至/O 2019/B-T年/I-T 3/I-T月/O,生/B-O猪/I-O存/I-O栏/I-O及/O能/O繁/B-O母/I-O猪/I-O存/I-O栏/I-O下/B-V降/I-V了/O 18.8%/O和/O 21%/0,生/B-0猪/I-O养/I-O殖/I-O布/I-O局/I-O发/O生/O变/B-V化/I-V,猪/B-O肉/I-O消/I-O费/I-O的/O活/O力/O表/O现/O不/B-V足/I-V,且/O母/B-O猪/I-O存/I-O栏/I-O下/B-V降/I-O对/O猪/B-O肉/I-O市/I-O场/I-O的/O冲/B-V击/I-L最/O大/O,价/B-O格/I-O上/B-V涨/I-V明/B-L显B/L,年/O平/B-L均/I-L涨/O幅/O达/O到/O 21.4%/O。”;
步骤3.3:根据3.2标注结果的文本数据集,按照8:1:1的比例划分训练集、验证集、测试集。
本实施例步骤4具体包含以下步骤:
步骤4.1:输入层:神经网络模型的输入需定长的文本,本发明设置size=228,少于设置的size用‘u’补齐,大于设置size的文本减短。
步骤4.2:BERT词嵌入层:设由步骤3标注的文档集用每个文档用D={p1,p2,p3,...pn},每个文档用pi={w1,w2,w3,...wn},其中wi表示词,设存在词向量矩阵为
Figure GDA0002658736430000081
其中Wk是通过训练学习得到的参数矩阵,dw是词向量的维度,V是固定大小的词汇表,本实施例设置每个词的维度为128,最终通过BERT模型空间向量化的结果表达为ei=Wwvi
步骤4.3:Bi-LSTM层:将文档中的预处理的词向量输入到Bi-LSTM神经网络模型中,通过其存在三个门控系统,将历史信息、重要信息、无用信息双向学习上下文信息,最后输出为
Figure GDA0002658736430000092
其中Fi由前向当前细胞状态乘以输出门的权重矩阵输出的当前隐状态,Ri由后向当前细胞状态乘以输出门的权重矩阵输出的当前隐状态;
步骤4.4:Attention层:设Bi-LSTM层的输出为H=[h1,h2,h3,...hn],得到权重矩阵过程中需学习参数M=tanh(H),α=softmax(wTM),其中wT为训练学习的参数转置,r=HαT,最终输出的结果为hi=tanh(r);
步骤4.5:CRF输出层:设每个hi对应的得分为oi,则oi=Whi,W为训练的参数矩阵,
Figure GDA0002658736430000091
其中y为预测结果,T为转换矩阵,yi为文档D的标签序列;最终基于采用的BIO体系标注体系,输出的结果为yr=argmax(score(D,y))。
本实施例步骤5具体包含以下步骤:
步骤5.1:根据步骤4事件抽取结果,将每句事件段中标注的事件参与者与事件触发词(<O,V>)组合成一个事件,如中国出现、中国延续、非洲猪瘟出现、非洲猪瘟延续、生猪存栏下降、母猪存栏下降、生猪养殖布局变化、猪肉消费不足、价格上涨等;
步骤5.2:设语料库中事件的集合E={e1,e2,e3,...en},构建的事件对<ei,ej,y>,其中y∈{-1,0,1},-1表示ei为ej的原因事件,0表示ei、ej没有因果关系,1表示为的结果事件,本实施例中<母猪存栏下降,猪肉消费不足,-1>,<中国出现,非洲猪瘟出现,0>,<猪肉消费不足,母猪存栏下降,1>。
本实施例步骤6具体包含以下步骤:
步骤6.1:选取7个方面作为话题事件间规则特征:(1)触发词:去除两个事件触发词的词尾,将剩下来的词干做比较,若相同特征值为1,否则为0;(2)触发词词性:若两个事件触发词的词性相同,特征值为1,否则为0;(3)触发词语义角色:指名词及动词组成的语义结构后,名词在其担任的角色,若语义角色相同特征值为1,否则为0;(4)触发词句法结构:反映触发词在句中的成分,若相同特征值为1,否则为0;(5)事件间间隔事件数目:设间隔事件数的区间在[0,3],若事件间隔数在此区间特征值为1,否则为0;(6)事件间相对距离:设相对距离空间[0,60],若事件间相对距离在此区间特征值为1,否则为0;(7)事件时态:若事件发生在同一时态或结果事件时态在原因之后特征值为1,若结果事件时态在原因事件前,特征值为0;
步骤6.2:采用BERT模型空间向量化事件句,将事件ei及ej在对应的事件句中用Bi-GRU网络模型正反向学习;
步骤6.3:注意力机制层:设事件ei的所对应事件句抽取隐含语义信息结果为Hi=[H1,H2,H3,...Hn],事件ei触发词的空间向量矩阵为Wi=[wi,wi,wi,...wi],其中n是事件句的个数,最终事件的语义特征表达式结果为
Figure GDA0002658736430000101
步骤6.3:输出层:设识别结果为Y,ei的事件语义表达为hi∈Rd的事件语义表达hj=Rd,其中d为词向量维度,事件间特征规则为F,模型训练权重W∈r(2d+Fn)m,其中m=3,Fn=7,偏置b∈Rn,则输出层最终分类结果表达为Y=softmax(W[hi,hj,F]+b)。
本实施例步骤7具体包含以下步骤:
步骤7.1:根据步骤4抽取结果组成的事件对采用余弦相似度计算,计算公式为
Figure GDA0002658736430000102
其中a,b为通过BERT模型空间向量化的事件表达,夹角越小,两个向量越相似,从而两个事件越相似,如猪瘟事件语料库中抽取出的结果事件“生猪存栏下降”相似的结果事件有生猪减少(0.736),猪肉板块下降(0.634),猪肉板块跌停(0.279)。本实施例选取相似度结果分数值从高到低两个事件为相似事件;
步骤7.2:基于步骤4事件抽取及步骤6事件关系抽取获得<事件原因,因果,事件结果>、<事件i,相似,事件j>三元组形式,由于传统关系型数据库存储结构化数据,而Neo4j图数据库存储的数据格式可以是不同形式,随着三元组数据的增加,其查询的效率更优于关系型数据库,因此为了更方便系统功能的开发及数据的查询业务,本实施例采用Neo4j图数据库持久化存储数据。
本实施例步骤8具体包含以下步骤:
步骤8.1:编写三元组解释器,将三元组中数据抽取成Node及Relation节点数据。配置host、http_port等参数驱动Neo4j图数据库;
步骤8.2:加载Py2Neo第三方库,首先使用Node()函数可将事件原因、事件结果、事件i、事件j转换成Neo4j中节点,其次用Relationship()函数可将节点之间通过因果、相似事件连接,关系的属性可使用**properties参数设置。最后动态生成Cypher语句生成节点和边,得到的因果事理图谱如图5所示。
本实施例中未具体描述的方法或算法均采用本领域已有的现有技术。

Claims (8)

1.一种基于多种神经网络集成的因果事理图谱构建方法,其特征在于包括以下步骤:
步骤1:采用开源的Scrapy框架爬取互联网平台发布的数据,爬取的内容为标题、内容和时间,Spider向引擎发送请求,调度器接收到向调度器发送请求,通过URL向互联网发送请求,抓取的数据返回给Spider做处理,然后采用Xpath语句处理<h3 id=“title”>、<divclass=“date”>、<span>标签,将获取的数据交给管道存储为以时间降序的CSV格式,形成以时间降序存储热点话题文本数据集;
步骤2:根据步骤1将获取的热点话题文本数据集采用无监督学习kmeans算法进行文本聚类分析;
步骤3:定义事件的组成元素,再利用步骤2获取的数据源采用BIO序列标注体系对文本数据标注;
步骤4:根据步骤3标注的数据采用BERT模型空间向量化数据源,接着结合Bi-LSTM+Attention+CRF模型抽取出事件元素;
步骤5:根据步骤4事件抽取结果构建候选事件对;
步骤6:定义事件间规则特征模板且结合Bi-GRU抽取模型识别因果关系;
步骤7:根据步骤5获取<原因事件,因果,结果事件>三元组,再根据步骤4组成的事件对采用余弦相似度计算获取<事件i,相似,事件j>三元组,然后利用Neo4j图数据库存储事件逻辑知识;
步骤8:根据步骤7存储的事理逻辑知识库采用HTML5、py2neo和VIS.JS相关技术将存储在Neo4j中的事件知识封装展现,实现因果事理图谱可视化。
2.根据权利要求1所述基于多种神经网络集成的因果事理图谱构建方法,其特征在于步骤2具体包含以下步骤:
步骤2.1:首先做分词、去重和特征提取预处理,接着采用word2vec模型对文章标题数据集进行向量化表示,设定维度为128,最终表达的结果为0.172414 -0.091063 0.255125-0.837163 0.434872-0.499848 -0.972818 -0.236247 -0.652281 0.406852 0.849602 -0.685552 0.672314 -0.591763 0.355425 -0.232163 0.834272 -0.192848 -0.172218 -0.939247 -0.252581 0.606252 0.143602 -0.485952 0.831824 -0.128953 0.946825 -0.336163……
步骤2.2:先对128为空间向量化的数据采用PCA降维至32维,其后从数据中选择k个对象作为初始聚类中心,接着计算每个聚类对象到聚类中心的距离来划分,然后再次计算每个聚类中心,随后计算标准测度函数,当达到最大迭代次数100时,则停止,否则,继续操作。
3.根据权利要求1所述基于多种神经网络集成的因果事理图谱构建方法,其特征在于步骤3具体包含以下步骤:
步骤3.1:定义事件的组成元素:设事件E由五个基本要素组成,表示为五元组E={O,V,P,T,L},O为事件参与者,V为事件触发词语,P为事件发生地点,T为事件发生时间,L为事件发生程度,事件发生程度包括不断、很、非常、相当、一点和明显地;
步骤3.2:采用BIO的标注体系,“B-X”属于X类型且以此元素为开头,“I-X”属于X类型的中间位置,“O”不属于任何类型;
步骤3.3:根据3.2标注结果的文档集,按照8:1:1的比例划分训练集、验证集、测试集。
4.根据权利要求1所述基于多种神经网络集成的因果事理图谱构建方法,其特征在于步骤4具体包含以下步骤:
步骤4.1:输入层:神经网络模型的输入需定长的文本,设置size=228,少于设置的size用‘u’补齐,大于设置size的文本减短;
步骤4.2:BERT词嵌入层:设由步骤3标注的文档集用D={p1,p2,p3,...pn},每个文档用pi={w1,w2,w3,...wm},其中wi表示词,设存在词向量矩阵为
Figure QLYQS_1
其中Wk是通过训练学习得到的参数矩阵,dw是词向量的维度,V是固定大小的词汇表,设置每个词的维度为128,最终通过BERT模型空间向量化的结果表达为ei=Wwvi
步骤4.3:Bi-LSTM层:将文档中的预处理的词向量输入到Bi-LSTM神经网络模型中,通过其存在三个门控系统,将历史信息、重要信息、无用信息双向学习上下文信息,最后输出为
Figure QLYQS_2
其中Fi由前向当前细胞状态乘以输出门的权重矩阵输出的当前隐状态,Ri由后向当前细胞状态乘以输出门的权重矩阵输出的当前隐状态;
步骤4.4:Attention层:设Bi-LSTM层的输出为H=[h1,h2,h3,...hn],得到权重矩阵过程中需学习参数M=tanh(H),α=softmax(wTM),其中wT为训练学习的参数转置,r=HαT,最终输出的结果为hi=tanh(r);
步骤4.5:CRF输出层:设每个hi对应的得分为oi,则oi=Whi,W为训练的参数矩阵,
Figure QLYQS_3
其中y为预测结果,T为转换矩阵,yi为文档D的标签序列,基于BIO体系标注体系,输出的结果为yt=argmax(score(D,y)),即为事件抽取结果。
5.根据权利要求1所述基于多种神经网络集成的因果事理图谱构建方法,其特征在于步骤5具体包含以下步骤:
步骤5.1:根据步骤4事件抽取结果,将每句事件段中标注的事件参与者与事件触发词(<O,V>)组合成一个事件;
步骤5.2:设语料库中事件的集合E={e1,e2,e3,...en},构建的事件对<ei,ej,y>,其中y∈{-1,0,1},-1表示ei为ej的原因事件,0表示ei、ej没有因果关系,1表示ej为ei的结果事件。
6.根据权利要求1所述基于多种神经网络集成的因果事理图谱构建方法,其特征在于步骤6具体包含以下步骤:
步骤6.1:选取七个方面作为话题事件间规则特征:(1)触发词:去除两个事件触发词的词尾,将剩下来的词干做比较,若相同特征值为1,否则为0;(2)触发词词性:若两个事件触发词的词性相同,特征值为1,否则为0;(3)触发词语义角色:指名词及动词组成的语义结构后,名词在其担任的角色,若语义角色相同特征值为1,否则为0;(4)触发词句法结构:反映触发词在句中的成分,若相同特征值为1,否则为0;(5)事件间间隔事件数目:设间隔事件数的区间在[0,3],若事件间隔数在此区间特征值为1,否则为0;(6)事件间相对距离:设相对距离空间[0,60],若事件间相对距离在此区间特征值为1,否则为0;(7)事件时态:若事件发生在同一时态或结果事件时态在原因之后特征值为1,若结果事件时态在原因事件前,特征值为0;
步骤6.2:采用BERT模型空间向量化事件句,将事件ei及ej在对应的事件句中用Bi-GRU网络模型正反向学习;
步骤6.3:注意力机制层:设事件ei的所对应事件句抽取隐含语义信息结果为Hi=[H1,H2,H3,...Hn],事件ei触发词的空间向量矩阵为Wi=[wi,wi,wi,...wi],其中n是事件句的个数,最终事件的语义特征表达式结果为
Figure QLYQS_4
步骤6.4:输出层:设识别结果为Y,ei的事件语义表达为hi∈Rd的事件语义表达hj=Rd,其中d为词向量维度,事件间特征规则为F,模型训练权重W∈r(2d+Fn)m,其中m=3,Fn=7,偏置b∈Rn,则输出层最终分类结果表达为Y=softmax(W[hi,hj,F]+b)。
7.根据权利要求1所述基于多种神经网络集成的因果事理图谱构建方法,其特征在于步骤7具体包含以下步骤:
步骤7.1:根据步骤4抽取结果组成的事件对采用余弦相似度计算,计算公式为
Figure QLYQS_5
其中a,b为通过BERT模型空间向量化的事件表达,夹角越小,两个向量越相似,从而两个事件越相似;
步骤7.2:基于步骤4事件抽取及步骤6事件关系抽取获得<事件原因,因果,事件结果>、<事件i,相似,事件j>三元组形式并采用Neo4j图数据库持久化存储数据。
8.根据权利要求1所述基于多种神经网络集成的因果事理图谱构建方法,其特征在于步骤8具体包含以下步骤:
步骤8.1:编写三元组解释器,将三元组中数据抽取成Node及Relation节点数据,配置host、http_port参数驱动Neo4j图数据库;
步骤8.2:加载Py2Neo第三方库,首先使用Node()函数可将事件原因、事件结果、事件i,事件j转换成Neo4j中节点,其次用Relationship()函数可将节点之间通过因果、相似事件连接,关系的属性使用**properties参数设置,最后动态生成cypher语句生成节点和边。
CN202010459865.XA 2020-05-27 2020-05-27 一种基于多种神经网络集成的因果事理图谱构建方法 Active CN111767408B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010459865.XA CN111767408B (zh) 2020-05-27 2020-05-27 一种基于多种神经网络集成的因果事理图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010459865.XA CN111767408B (zh) 2020-05-27 2020-05-27 一种基于多种神经网络集成的因果事理图谱构建方法

Publications (2)

Publication Number Publication Date
CN111767408A CN111767408A (zh) 2020-10-13
CN111767408B true CN111767408B (zh) 2023-06-09

Family

ID=72719626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010459865.XA Active CN111767408B (zh) 2020-05-27 2020-05-27 一种基于多种神经网络集成的因果事理图谱构建方法

Country Status (1)

Country Link
CN (1) CN111767408B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329467B (zh) * 2020-11-03 2022-09-30 腾讯科技(深圳)有限公司 地址识别方法、装置、电子设备以及存储介质
CN112417161B (zh) * 2020-11-12 2022-06-24 福建亿榕信息技术有限公司 一种基于模式扩充及bert分类的知识图谱上下位关系识别的方法和存储设备
CN112507124B (zh) * 2020-12-04 2024-03-19 武汉大学 一种基于图模型的篇章级别事件因果关系抽取方法
CN112559656A (zh) * 2020-12-09 2021-03-26 河海大学 基于水文事件的事理图谱构建方法
CN112463970B (zh) * 2020-12-16 2022-11-22 吉林大学 一种基于时间关系对文本包含的因果关系进行抽取的方法
CN112667808A (zh) * 2020-12-23 2021-04-16 沈阳新松机器人自动化股份有限公司 一种基于bert模型的关系抽取方法及其系统
CN112632972B (zh) * 2020-12-25 2024-03-15 浙江国际海运职业技术学院 一种电网设备故障报告内故障信息的快速提取方法
CN112860908A (zh) * 2021-01-27 2021-05-28 云南电网有限责任公司电力科学研究院 基于多源异构电力设备数据的知识图谱自动化构建方法
CN112836502B (zh) * 2021-03-01 2023-05-09 中央财经大学 一种金融领域事件隐式因果关系抽取方法
CN113204952B (zh) * 2021-03-26 2023-09-15 南京邮电大学 一种基于聚类预分析的多意图与语义槽联合识别方法
CN113191148B (zh) * 2021-04-30 2024-05-28 西安理工大学 一种基于半监督学习和聚类的轨道交通实体识别方法
US11922129B2 (en) 2021-06-22 2024-03-05 International Business Machines Corporation Causal knowledge identification and extraction
CN113590824A (zh) * 2021-07-30 2021-11-02 平安科技(深圳)有限公司 因果事理图谱的构建方法、装置及相关设备
CN114064937A (zh) * 2022-01-14 2022-02-18 云孚科技(北京)有限公司 一种事理图谱自动构建方法和系统
CN114676840A (zh) * 2022-01-27 2022-06-28 广州数说故事信息科技有限公司 一种基于海量数据的因果事理组提取方法、系统及计算机可读存储介质
CN114880491B (zh) * 2022-07-08 2022-09-23 云孚科技(北京)有限公司 一种事理图谱自动构建方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951438A (zh) * 2017-02-13 2017-07-14 北京航空航天大学 一种面向开放域的事件抽取系统及方法
CN108897989A (zh) * 2018-06-06 2018-11-27 大连理工大学 一种基于候选事件元素注意力机制的生物事件抽取方法
CN110633409A (zh) * 2018-06-20 2019-12-31 上海财经大学 一种融合规则与深度学习的汽车新闻事件抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7685099B2 (en) * 2007-06-28 2010-03-23 Microsoft Corporation Forecasting time-independent search queries

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951438A (zh) * 2017-02-13 2017-07-14 北京航空航天大学 一种面向开放域的事件抽取系统及方法
CN108897989A (zh) * 2018-06-06 2018-11-27 大连理工大学 一种基于候选事件元素注意力机制的生物事件抽取方法
CN110633409A (zh) * 2018-06-20 2019-12-31 上海财经大学 一种融合规则与深度学习的汽车新闻事件抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
事件知识图谱构建技术与应用综述;项威;;计算机与现代化(01);全文 *

Also Published As

Publication number Publication date
CN111767408A (zh) 2020-10-13

Similar Documents

Publication Publication Date Title
CN111767408B (zh) 一种基于多种神经网络集成的因果事理图谱构建方法
CN106570708B (zh) 一种智能客服知识库的管理方法及系统
WO2018010365A1 (zh) 一种跨媒体检索方法
CN113239700A (zh) 改进bert的文本语义匹配设备、系统、方法及存储介质
CN113312452B (zh) 基于多任务学习的篇章级文本连贯性分类方法
CN108681574B (zh) 一种基于文本摘要的非事实类问答答案选择方法及系统
CN111274790B (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN111930942A (zh) 文本分类方法、语言模型训练方法、装置及设备
CN111858896B (zh) 一种基于深度学习的知识库问答方法
CN111291556A (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN111159345B (zh) 一种中文知识库答案获取方法及其装置
CN113515632B (zh) 基于图路径知识萃取的文本分类方法
CN111143574A (zh) 一种基于少数民族文化知识图谱的查询及可视化系统构建方法
CN109409433A (zh) 一种社交网络用户的人格识别系统和方法
CN112632250A (zh) 一种多文档场景下问答方法及系统
Burges Towards the machine comprehension of text: An essay
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN115238691A (zh) 基于知识融合的嵌入的多意图识别与槽位填充模型
Ashangani et al. Semantic video search by automatic video annotation using TensorFlow
WO2022061877A1 (zh) 事件抽取和抽取模型训练的方法和装置、设备、介质
Ordonez et al. Learning to name objects
Ma et al. Hybrid answer selection model for non-factoid question answering
CN112445887B (zh) 基于检索的机器阅读理解系统的实现方法及装置
CN115169429A (zh) 一种轻量化方面级文本情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant