CN111767408A - 一种基于多种神经网络集成的因果事理图谱构建方法 - Google Patents
一种基于多种神经网络集成的因果事理图谱构建方法 Download PDFInfo
- Publication number
- CN111767408A CN111767408A CN202010459865.XA CN202010459865A CN111767408A CN 111767408 A CN111767408 A CN 111767408A CN 202010459865 A CN202010459865 A CN 202010459865A CN 111767408 A CN111767408 A CN 111767408A
- Authority
- CN
- China
- Prior art keywords
- event
- result
- data
- word
- events
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明属于网络信息技术领域,涉及一种基于多种神经网络集成的因果事理图谱构建方法,先将获取的语料库的获取采用BIO序列标注体系标注数据且分割数据,再用BERT+Bi‑LSTM+Attention+CRF模型进行事件抽取,事件关系抽取时先基于事件抽取元素(<O,V>)组合成事件并定义事件对及规则特征,再结合事件间规则特征与Bi‑GRU模型抽取因果关系;然后基于事件对利用相似度计算,选取分数最高的两个事件组合成<事件i,相似,事件j>三元组,再基于事件关系抽取组合<原因事件,因果,结果事件>三元组,接着采用Neo4j图数据库持久化存储,搭建事理逻辑知识库构建出面向热点话题的因果事理图谱,构建的因果事理图谱能够深层次的提取语义信息,有利于相关监管部门及个人用户对热点事件的实时掌控。
Description
技术领域:
本发明属于网络信息技术领域,涉及一种基于多种神经网络集成的因果事理 图谱构建方法。
背景技术:
自从Hinton在Natures上发表深度学习的文章,人工智能新的浪潮随之到 来。2012年,CNN夺冠ImageNet,2014年,港中文实验室DeppID算法模型首次 超过人眼识别人脸率,2016年,AlphaGo战胜人类高水平围棋选手,2018,谷歌 发布Cloud AutoML。但随之人工智能发展进入下一个阶段,让机器去学习掌握 人类的知识。例如,理解人类的常识知识“吃饱了”后就会“不饿”。基于深度 学习的隐式消费意图研究,能够能让机器知道“结婚”事件伴随“买房子”、“去 旅行”等一系列后续消费事件。现有的对话系统、问答系统基于大规模语料中用 最大似然估计的方法训练语料集,是一种针对特定模式的记忆。人类的语言知识及语境是复杂多变的,目前机器学习的知识堆上下文前因后果的学习还需要进一 步的研究与探索。事理逻辑知识库的构建及其内在信息的挖掘的研究,必将会推 动人工智能应用的发展。
Google、Bing、Baidu等将知识图谱技术运用在搜索引擎中,使搜索的时间、 准确性及对用户的兴趣得到了大大提升。但是其主要研究的是实体和实体之间的 关系,对于事件及事件之间的逻辑挖掘仍缺乏。事理图谱概念的提出,揭示事件 的演化规律和发展模式,其包含的事理逻辑知识,事件之间顺承、因果及上下位 等关系,对人工智能领域的应用及任务具有潜在的巨大价值。
目前事理图谱的构建及应用研究处于初步阶段,各路学者对其研究中,在构 建中阐明存在两大难点:(1)事件抽取:在自然文本中抽取出定义的事件元素如 触发词、事件主体、时间、地点等。(2)事件关系抽取:显式的关系抽取依赖于 关联词库,隐式关系抽取在没有关联词的情况下抽取出顺承、因果、上下位关系 等。在事理图谱的应用研究中跟知识图谱一样具有多样的应用场景,如消费者意 图挖掘、问答系统、辅助决策系统、对话生成等。
发明内容:
本发明的目的在于克服现有技术存在的缺点,设计一种基于多种神经网络集 成的因果事理图谱构建方法,包含3个主要关键技术:(1)事件抽取:首先是语料 库的获取,采用Scrapy与无监督学习Kmeans算法,其次是事件的定义及采用BIO 序列标注体系标注数据且分割数据成训练集、验证集与测试集,接着用 BERT+Bi-LSTM+Attention+CRF模型进行事件抽取;(2)事件关系抽取:首先是基 于事件抽取元素(<O,V>)组合成事件,接着定义事件对及规则特征,然后结合事 件间规则特征与Bi-GRU模型抽取因果关系;(3)事件知识存储:首先基于事件对 利用相似度计算,选取分数最高的两个事件组合成<事件i,相似,事件j>三元 组,然后基于事件关系抽取组合<原因事件,因果,结果事件>三元组,接着采用 Neo4j图数据库持久化存储,搭建事理逻辑知识库构建出面向热点话题的因果事 理图谱。
为了实现上述发明目的,本发明所述基于多种神经网络集成的因果事理图谱 构建方法包括以下步骤:
步骤1:采用开源的Scrapy框架爬取互联网平台发布的数据,爬取的内容为 标题、内容和时间,Spider向引擎发送请求,调度器接收到向调度器发送请求, 通过URL向互联网发送请求,抓取的数据返回给Spider做处理,然后采用Xpath 语句处理<h3 id=“title”>、<div class=“date”>、<span>标签,将获取的 数据交给管道存储为以时间降序的CSV格式,形成以时间降序存储热点话题文本 数据集;
步骤2:根据步骤1将获取的热点话题文本数据集采用无监督学习kmeans 算法进行文本聚类分析;
步骤3:定义事件的组成元素,再利用步骤2获取的数据源采用BIO序列标 注体系对文本数据标注;
步骤4:根据步骤3标注的数据采用BERT模型空间向量化数据源,接着结合 Bi-LSTM+Attention+CRF模型抽取出事件元素;
步骤5:根据步骤4事件抽取结果构建候选事件对;
步骤6:定义事件间规则特征模板且结合Bi-GRU抽取模型识别因果关系;
步骤7:根据步骤5获取<原因事件,因果,结果事件>三元组,再根据步骤 4组成的事件对采用余弦相似度计算获取<事件i,相似,事件j>三元组,然后 利用Neo4j图数据库存储事件逻辑知识;
步骤8:根据步骤7存储的事理逻辑知识库采用HTML5、py2neo和VIS.JS 相关技术将存储在Neo4j中的事件知识封装展现,实现因果事理图谱可视化。
本发明步骤2具体包含以下步骤:
步骤2.1:首先做分词、去重和特征提取等预处理,接着采用word2vec模型 对文章标题数据集进行向量化表示,设定维度为128,最终表达的结果如 0.172414 -0.0910630.255125 -0.837163 0.434872-0.499848 -0.972818 -0.236247 -0.652281 0.4068520.849602 -0.685552 0.672314 -0.591763 0.355425 -0.232163 0.834272 -0.192848 -0.172218 -0.939247 -0.252581 0.606252 0.143602 -0.485952 0.831824 -0.1289530.946825 -0.336163……
步骤2.2:先对128为空间向量化的数据采用PCA降维至32维,其后从数据 中选择k个对象作为初始聚类中心,接着计算每个聚类对象到聚类中心的距离来 划分,然后再次计算每个聚类中心,随后计算标准测度函数,当达到最大迭代次 数100时,则停止,否则,继续操作。
本发明步骤3具体包含以下步骤:
步骤3.1:定义事件的组成元素:设事件E由五个基本要素组成,表示为五 元组E={O,V,P,T,L},O为事件参与者,V为事件触发词语,P为事件发生地点,T 为事件发生时间,L为事件发生程度,事件发生程度包括不断、很、非常、相当、 一点和明显地;
步骤3.2:采用BIO的标注体系,“B-X”属于X类型且以此元素为开头,“I-X” 属于X类型的中间位置,“O”不属于任何类型;
步骤3.3:根据3.2标注结果的文档集,按照8:1:1的比例划分训练集、验 证集、测试集。
本发明步骤4具体包含以下步骤:
步骤4.1:输入层:神经网络模型的输入需定长的文本,本发明设置size=228, 少于设置的size用‘u’补齐,大于设置size的文本减短。
步骤4.2:BERT词嵌入层:设由步骤3标注的文档集用D={p1,p2,p3,…pn}, 每个文档用pi={w1,w2,w3,…wm},其中wi表示词,设存在词向量矩阵为 其中Wk是通过训练学习得到的参数矩阵,dw是词向量的维度,V 是固定大小的词汇表,设置每个词的维度为128,最终通过BERT模型空间向量 化的结果表达为ei=Wwvi;
步骤4.3:Bi-LSTM层:将文档中的预处理的词向量输入到Bi-LSTM神经网 络模型中,通过其存在三个门控系统,将历史信息、重要信息、无用信息双向学 习上下文信息,最后输出为其中Fi由前向当前细胞状态乘以输出 门的权重矩阵输出的当前隐状态,Ri由后向当前细胞状态乘以输出门的权重矩 阵输出的当前隐状态;
步骤4.4:Attention层:设Bi-LSTM层的输出为H=[h1,h2,h3,...hn],得到 权重矩阵过程中需学习参数M=tanh(H),α=softmax(wTM),其中wT为训练学习的 参数转置,r=HαT,最终输出的结果为hi=tanh(r);
步骤4.5:CRF输出层:设每个hi对应的得分为oi,则oi=Whi,W为训练的参 数矩阵,其中y为预测结果,T为转换矩阵, yi为文档D的标签序列,基于BIO体系标注体系,输出的结果为yr= argmax(score(D,y)),即为事件抽取结果。
本发明步骤5具体包含以下步骤:
步骤5.1:根据步骤4事件抽取结果,将每句事件段中标注的事件参与者与 事件触发词(<O,V>)组合成一个事件;
步骤5.2:设语料库中事件的集合E={e1,e2,e3,…en},构建的事件对 <ei,ej,y>,其中y∈{-1,0,1},-1表示ei为ej的原因事件,0表示ei、ej没有因 果关系,1表示ej为ei的结果事件。
本发明步骤6具体包含以下步骤:
步骤6.1:选取七个方面作为话题事件间规则特征:(1)触发词:去除两个事 件触发词的词尾,将剩下来的词干做比较,若相同特征值为1,否则为0;(2) 触发词词性:若两个事件触发词的词性相同,特征值为1,否则为0;(3)触发词 语义角色:指名词及动词组成的语义结构后,名词在其担任的角色,若语义角色 相同特征值为1,否则为0;(4)触发词句法结构:反映触发词在句中的成分,若 相同特征值为1,否则为0;(5)事件间间隔事件数目:设间隔事件数的区间在 [0,3],若事件间隔数在此区间特征值为1,否则为0;(6)事件间相对距离:设相 对距离空间[0,60],若事件间相对距离在此区间特征值为1,否则为0;(7)事件时态:若事件发生在同一时态或结果事件时态在原因之后特征值为1,若结果事 件时态在原因事件前,特征值为0;
步骤6.2:采用BERT模型空间向量化事件句,将事件ei及ej在对应的事件句 中用Bi-GRU网络模型正反向学习;
步骤6.3:注意力机制层:设事件ei的所对应事件句抽取隐含语义信息结果 为Hi=[H1,H2,H3,...Hn],事件ei触发词的空间向量矩阵为 Wi=[wi,wi,wi,...wi],其中n是事件句的个数,最终事件的语义特征表达式结 果为
步骤6.4:输出层:设识别结果为Y,ei的事件语义表达为hi∈Rd的事件语 义表达hj=Rd,其中d为词向量维度,事件间特征规则为F,模型训练权重 W∈r(2d+Fn)m,其中m=3,Fn=7,偏置b∈Rn,则输出层最终分类结果表达为 Y=softmax(W[hi,hj,F]+b)。
本发明步骤7具体包含以下步骤:
步骤7.2:基于步骤4事件抽取及步骤6事件关系抽取获得<事件原因,因果, 事件结果>、<事件i,相似,事件j>三元组形式并采用Neo4j图数据库持久化存 储数据。
本发明步骤8具体包含以下步骤:
步骤8.1:编写三元组解释器,将三元组中数据抽取成Node及Relation节 点数据,配置host、http_port等参数驱动Neo4j图数据库。
步骤8.2:加载Py2Neo第三方库,首先使用Node()函数可将事件原因、事 件结果、事件i,事件j转换成Neo4j中节点,其次用Relationship()函数可将 节点之间通过因果、相似事件连接,关系的属性可使用**properties参数设置。 最后动态生成cypher语句生成节点和边。
本发明与现有技术相比,具有以下优点:一是基于BERT对热点话题事件文 本数据集进行向量化表示,其上下文的联系更密切,表达方式更准确;二是结合 Bi-LSTM+Atteion+CRF抽取模型使事件抽取结果的准确性更高,数据集中F1值 可达到91%。结;三是事件间的特征模板与Bi-GRU抽取模型是的事件因果关系 结果本发明数据集中的F1值达到86%,相比传统关系抽取模型准确率更高;四 是采用Neo4j图数据是的查询的效率更优于传统关系型数据库,能够深层次的提 取语义信息,有利于相关监管部门及个人用户对热点事件的实时掌控。
附图说明:
图1为本发明的构建方法流程图。
图2为本发明所建立的事件抽取模型结构图。
图3为本发明所建立的事件因果关系抽取模型结构图。
图4为本发明所建立的事件知识存储流程图。
图5为本发明实施例构建的面向热点话题的因果事理图谱。
具体实施方式:
下面通过实施例并结合附图对本发明进行详细说明。
实施例:
本实施例面向热点话题的因果事理图谱构建过程包括以下步骤:
步骤1:采用开源的Scrapy框架爬取互联网平台发布的数据,爬取的内容为 标题、内容和时间且以时间降序存储热点话题文本数据集;
步骤2:根据步骤1将获取的热点话题文本数据集采用无监督学习kmeans 算法进行文本聚类分析;
步骤3:定义事件的组成元素,再利用步骤2获取的数据源采用BIO序列标 注体系对文本数据标注;
步骤4:根据步骤3标注的数据采用BERT模型空间向量化数据源,接着结合 Bi-LSTM+Attention+CRF模型抽取出事件元素;
步骤5:根据步骤4事件抽取结果构建候选事件对;
步骤6:定义事件间规则特征模板且结合Bi-GRU抽取模型识别因果关系;
步骤7:根据步骤5获取<原因事件,因果,结果事件>三元组,再根据步骤 4组成的事件对采用余弦相似度计算获取<事件i,相似,事件j>三元组。接着 利用Neo4j图数据库存储事件逻辑知识;
步骤8:根据步骤7存储的事理逻辑知识库采用HTML5、py2neo和VIS.JS 相关技术将存储在Neo4j中的事件知识封装展现,实现因果事理图谱可视化。
本实施例步骤1具体包含以下步骤:
步骤1.1:爬取农业农村部网站(http://www.moa.gov.cn/)中关于猪瘟的话 题,设定爬取的内容为Item为标题(title)、时间(time)、内容(content);
步骤1.2:Spider向引擎发送请求,调度器接收到向调度器发送请求,通过 URL向互联网发送请求,抓取的数据返回给Spider做处理。然后采用Xpath语 句处理<h3 id=“title”>、<div class=“date”>、<span>标签。最后将获取 的数据交给管道存储为以时间降序的CSV格式。
本实施例步骤2具体包含以下步骤:
步骤2.1:首先做分词、去重和特征提取等预处理,接着采用word2vec模型 对文章标题数据集进行向量化表示,设定维度为128,最终表达的结果如 0.172414 -0.0910630.255125 -0.837163 0.434872 -0.499848 -0.972818 -0.236247 -0.652281 0.4068520.849602 -0.685552 0.672314 -0.591763 0.355425 -0.232163 0.834272 -0.192848 -0.172218 -0.939247 -0.252581 0.606252 0.143602 -0.485952 0.831824 -0.1289530.946825 -0.336163……
步骤2.2:先对128为空间向量化的数据采用PCA降维至32维,其后从数据 中选择k个对象作为初始聚类中心,接着计算每个聚类对象到聚类中心的距离来 划分,然后再次计算每个聚类中心,随后计算标准测度函数,当达到最大迭代次 数100时,则停止,否则,继续操作,本实施例爬取的互联网数据最终选择中心 点的k取值为3,最后采用Kmeans聚类算法将数据划分。
本实施例步骤3具体包含以下步骤:
步骤3.1:定义事件的组成元素:设事件E由五个基本要素组成,表示为五 元组E={O,V,P,T,L},O为事件参与者,V为事件触发词语,P为事件发生地点,T 为事件发生时间,L为事件发生程度,事件发生程度包括不断、很、非常、相当、 一点和明显地;
步骤3.2:采用BIO的标注体系,如“B-X”属于X类型且以此元素为开头“I-X” 属于X类型的中间位置,“O”不属于任何类型,如猪瘟话题中某段内容标注的数 据形式“2018/B-T年/I-T 8/I-T月/I-T初/O,中/B-L国/I-L首/O例/O非/B-O洲/I-O猪/I-O瘟/I-O疫/O情/O出/B-V现/B-V并/O不/B-L断/I-L 延/B-V续/I-V,截/O至/O 2019/B-T年/I-T 3/I-T月/O,生/B-O猪/I-O存 /I-O栏/I-O及/O能/O繁/B-O母/I-O猪/I-O存/I-O栏/I-O下/B-V降 /I-V了/O 18.8%/O和/O 21%/0,生/B-0猪/I-O养/I-O殖/I-O布/I-O局/I-O 发/O生/O变/B-V化/I-V,猪/B-O肉/I-O消/I-O费/I-O的/O活/O力/O表 /O现/O不/B-V足/I-V,且/O母/B-O猪/I-O存/I-O栏/I-O下/B-V降/I-O 对/O猪/B-O肉/I-O市/I-O场/I-O的/O冲/B-V击/I-L最/O大/O,价/B-O 格/I-O上/B-V涨/I-V明/B-L显B/L,年/O平/B-L均/I-L涨/O幅/O达/O到/O 21.4%/O。”;
步骤3.3:根据3.2标注结果的文本数据集,按照8:1:1的比例划分训练集、 验证集、测试集。
本实施例步骤4具体包含以下步骤:
步骤4.1:输入层:神经网络模型的输入需定长的文本,本发明设置size=228, 少于设置的size用‘u’补齐,大于设置size的文本减短。
步骤4.2:BERT词嵌入层:设由步骤3标注的文档集用每个文档用 D={p1,p2,p3,…pn},每个文档用pi={w1,w2,w3,…wn},其中wi表示词,设存在 词向量矩阵为其中Wk是通过训练学习得到的参数矩阵,dw是词向 量的维度,V是固定大小的词汇表,本实施例设置每个词的维度为128,最终通 过BERT模型空间向量化的结果表达为ei=Wwvi;
步骤4.3:Bi-LSTM层:将文档中的预处理的词向量输入到Bi-LSTM神经网 络模型中,通过其存在三个门控系统,将历史信息、重要信息、无用信息双向学 习上下文信息,最后输出为其中Fi由前向当前细胞状态乘以输出门 的权重矩阵输出的当前隐状态,Ri由后向当前细胞状态乘以输出门的权重矩阵输 出的当前隐状态;
步骤4.4:Attention层:设Bi-LSTM层的输出为H=[h1,h2,h3,...hn],得到 权重矩阵过程中需学习参数M=tanh(H),α=softmax(wTM),其中wT为训练学习 的参数转置,r=HαT,最终输出的结果为hi=tanh(r);
步骤4.5:CRF输出层:设每个hi对应的得分为oi,则oi=Whi,W为训练的参 数矩阵,其中y为预测结果,T为转换矩阵,yi为文档D的标签序列;最终基于采用的BIO体系标注体系,输出的结果为 yr=argmax(score(D,y))。
本实施例步骤5具体包含以下步骤:
步骤5.1:根据步骤4事件抽取结果,将每句事件段中标注的事件参与者与 事件触发词(<O,V>)组合成一个事件,如中国出现、中国延续、非洲猪瘟出现、 非洲猪瘟延续、生猪存栏下降、母猪存栏下降、生猪养殖布局变化、猪肉消费不 足、价格上涨等;
步骤5.2:设语料库中事件的集合E={e1,e2,e3,…en},构建的事件对 <ei,ej,y>,其中y∈{-1,0,1},-1表示ei为ej的原因事件,0表示ei、ej没有因 果关系,1表示ej为ei的结果事件,本实施例中<母猪存栏下降,猪肉消费不足, -1>,<中国出现,非洲猪瘟出现,0>,<猪肉消费不足,母猪存栏下降,1>。
本实施例步骤6具体包含以下步骤:
步骤6.1:选取7个方面作为话题事件间规则特征:(1)触发词:去除两个事 件触发词的词尾,将剩下来的词干做比较,若相同特征值为1,否则为0;(2) 触发词词性:若两个事件触发词的词性相同,特征值为1,否则为0;(3)触发词 语义角色:指名词及动词组成的语义结构后,名词在其担任的角色,若语义角色 相同特征值为1,否则为0;(4)触发词句法结构:反映触发词在句中的成分,若 相同特征值为1,否则为0;(5)事件间间隔事件数目:设间隔事件数的区间在 [0,3],若事件间隔数在此区间特征值为1,否则为0;(6)事件间相对距离:设相 对距离空间[0,60],若事件间相对距离在此区间特征值为1,否则为0;(7)事件 时态:若事件发生在同一时态或结果事件时态在原因之后特征值为1,若结果事 件时态在原因事件前,特征值为0;
步骤6.2:采用BERT模型空间向量化事件句,将事件ei及ej在对应的事件句 中用Bi-GRU网络模型正反向学习;
步骤6.3:注意力机制层:设事件ei的所对应事件句抽取隐含语义信息结果 为Hi=[H1,H2,H3,…Hn],事件ei触发词的空间向量矩阵为 Wi=[wi,wi,wi,…wi],其中n是事件句的个数,最终事件的语义特征表达式结 果为
步骤6.3:输出层:设识别结果为Y,ei的事件语义表达为hi∈Rd的事件语 义表达hj=Rd,其中d为词向量维度,事件间特征规则为F,模型训练权重 W∈r(2d+Fn)m,其中m=3,Fn=7,偏置b∈Rn,则输出层最终分类结果表达为 Y=softmax(W[hi,hj,F]+b)。
本实施例步骤7具体包含以下步骤:
步骤7.1:根据步骤4抽取结果组成的事件对采用余弦相似度计算,计算公 式为其中a,b为通过BERT模型空间向量化的事件表达,夹角越 小,两个向量越相似,从而两个事件越相似,如猪瘟事件语料库中抽取出的结果 事件“生猪存栏下降”相似的结果事件有生猪减少(0.736),猪肉板块下降(0.634), 猪肉板块跌停(0.279)。本实施例选取相似度结果分数值从高到低两个事件为相 似事件;
步骤7.2:基于步骤4事件抽取及步骤6事件关系抽取获得<事件原因,因果, 事件结果>、<事件i,相似,事件j>三元组形式,由于传统关系型数据库存储结 构化数据,而Neo4j图数据库存储的数据格式可以是不同形式,随着三元组数据 的增加,其查询的效率更优于关系型数据库,因此为了更方便系统功能的开发及 数据的查询业务,本实施例采用Neo4j图数据库持久化存储数据。
本实施例步骤8具体包含以下步骤:
步骤8.1:编写三元组解释器,将三元组中数据抽取成Node及Relation节 点数据。配置host、http_port等参数驱动Neo4j图数据库;
步骤8.2:加载Py2Neo第三方库,首先使用Node()函数可将事件原因、事 件结果、事件i、事件j转换成Neo4j中节点,其次用Relationship()函数可将 节点之间通过因果、相似事件连接,关系的属性可使用**properties参数设置。 最后动态生成Cypher语句生成节点和边,得到的因果事理图谱如图5所示。
本实施例中未具体描述的方法或算法均采用本领域已有的现有技术。
Claims (8)
1.一种基于多种神经网络集成的因果事理图谱构建方法,其特征在于包括以下步骤:
步骤1:采用开源的Scrapy框架爬取互联网平台发布的数据,爬取的内容为标题、内容和时间,Spider向引擎发送请求,调度器接收到向调度器发送请求,通过URL向互联网发送请求,抓取的数据返回给Spider做处理,然后采用Xpath语句处理<h3 id=“title”>、<divclass=“date”>、<span>标签,将获取的数据交给管道存储为以时间降序的CSV格式,形成以时间降序存储热点话题文本数据集;
步骤2:根据步骤1将获取的热点话题文本数据集采用无监督学习kmeans算法进行文本聚类分析;
步骤3:定义事件的组成元素,再利用步骤2获取的数据源采用BIO序列标注体系对文本数据标注;
步骤4:根据步骤3标注的数据采用BERT模型空间向量化数据源,接着结合Bi-LSTM+Attention+CRF模型抽取出事件元素;
步骤5:根据步骤4事件抽取结果构建候选事件对;
步骤6:定义事件间规则特征模板且结合Bi-GRU抽取模型识别因果关系;
步骤7:根据步骤5获取<原因事件,因果,结果事件>三元组,再根据步骤4组成的事件对采用余弦相似度计算获取<事件i,相似,事件j>三元组,然后利用Neo4j图数据库存储事件逻辑知识;
步骤8:根据步骤7存储的事理逻辑知识库采用HTML5、py2neo和VIS.JS相关技术将存储在Neo4j中的事件知识封装展现,实现因果事理图谱可视化。
2.根据权利要求1所述基于多种神经网络集成的因果事理图谱构建方法,其特征在于步骤2具体包含以下步骤:
步骤2.1:首先做分词、去重和特征提取预处理,接着采用word2vec模型对文章标题数据集进行向量化表示,设定维度为128,最终表达的结果为0.172414 -0.091063 0.255125-0.837163 0.434872-0.499848 -0.972818 -0.236247 -0.652281 0.406852 0.849602 -0.685552 0.672314 -0.591763 0.355425 -0.232163 0.834272 -0.192848 -0.172218 -0.939247 -0.252581 0.606252 0.143602 -0.485952 0.831824 -0.128953 0.946825 -0.336163……
步骤2.2:先对128为空间向量化的数据采用PCA降维至32维,其后从数据中选择k个对象作为初始聚类中心,接着计算每个聚类对象到聚类中心的距离来划分,然后再次计算每个聚类中心,随后计算标准测度函数,当达到最大迭代次数100时,则停止,否则,继续操作。
3.根据权利要求1所述基于多种神经网络集成的因果事理图谱构建方法,其特征在于步骤3具体包含以下步骤:
步骤3.1:定义事件的组成元素:设事件E由五个基本要素组成,表示为五元组E={O,V,P,T,L},O为事件参与者,V为事件触发词语,P为事件发生地点,T为事件发生时间,L为事件发生程度,事件发生程度包括不断、很、非常、相当、一点和明显地;
步骤3.2:采用BIO的标注体系,“B-X”属于X类型且以此元素为开头,“I-X”属于X类型的中间位置,“O”不属于任何类型;
步骤3.3:根据3.2标注结果的文档集,按照8:1:1的比例划分训练集、验证集、测试集。
4.根据权利要求1所述基于多种神经网络集成的因果事理图谱构建方法,其特征在于步骤4具体包含以下步骤:
步骤4.1:输入层:神经网络模型的输入需定长的文本,本发明设置size=228,少于设置的size用‘u’补齐,大于设置size的文本减短。
步骤4.2:BERT词嵌入层:设由步骤3标注的文档集用D={p1,p2,p3,...pn},每个文档用pi={w1,w2,w3,...wm},其中wi表示词,设存在词向量矩阵为其中Wk是通过训练学习得到的参数矩阵,dw是词向量的维度,V是固定大小的词汇表,设置每个词的维度为128,最终通过BERT模型空间向量化的结果表达为ei=Wwvi;
步骤4.3:Bi-LSTM层:将文档中的预处理的词向量输入到Bi-LSTM神经网络模型中,通过其存在三个门控系统,将历史信息、重要信息、无用信息双向学习上下文信息,最后输出为其中Fi由前向当前细胞状态乘以输出门的权重矩阵输出的当前隐状态,Ri由后向当前细胞状态乘以输出门的权重矩阵输出的当前隐状态;
步骤4.4:Attention层:设Bi-LSTM层的输出为H=[h1,h2,h3,...hn],得到权重矩阵过程中需学习参数M=tanh(H),α=softmax(wTM),其中wT为训练学习的参数转置,r=HαT,最终输出的结果为hi=tanh(r);
5.根据权利要求1所述基于多种神经网络集成的因果事理图谱构建方法,其特征在于步骤5具体包含以下步骤:
步骤5.1:根据步骤4事件抽取结果,将每句事件段中标注的事件参与者与事件触发词(<O,V>)组合成一个事件;
步骤5.2:设语料库中事件的集合E={e1,e2,e3,...en},构建的事件对<ei,ej,y>,其中y∈{-1,0,1},-1表示ei为ej的原因事件,0表示ei、ej没有因果关系,1表示ej为ei的结果事件。
6.根据权利要求1所述基于多种神经网络集成的因果事理图谱构建方法,其特征在于步骤6具体包含以下步骤:
步骤6.1:选取七个方面作为话题事件间规则特征:(1)触发词:去除两个事件触发词的词尾,将剩下来的词干做比较,若相同特征值为1,否则为0;(2)触发词词性:若两个事件触发词的词性相同,特征值为1,否则为0;(3)触发词语义角色:指名词及动词组成的语义结构后,名词在其担任的角色,若语义角色相同特征值为1,否则为0;(4)触发词句法结构:反映触发词在句中的成分,若相同特征值为1,否则为0;(5)事件间间隔事件数目:设间隔事件数的区间在[0,3],若事件间隔数在此区间特征值为1,否则为0;(6)事件间相对距离:设相对距离空间[0,60],若事件间相对距离在此区间特征值为1,否则为0;(7)事件时态:若事件发生在同一时态或结果事件时态在原因之后特征值为1,若结果事件时态在原因事件前,特征值为0;
步骤6.2:采用BERT模型空间向量化事件句,将事件ei及ej在对应的事件句中用Bi-GRU网络模型正反向学习;
步骤6.3:注意力机制层:设事件ei的所对应事件句抽取隐含语义信息结果为Hi=[H1,H2,H3,...Hn],事件ei触发词的空间向量矩阵为Wi=[wi,wi,wi,...wi],其中n是事件句的个数,最终事件的语义特征表达式结果为
步骤6.4:输出层:设识别结果为Y,ei的事件语义表达为hi∈Rd的事件语义表达hj=Rd,其中d为词向量维度,事件间特征规则为F,模型训练权重W∈r(2d+Fn)m,其中m=3,Fn=7,偏置b∈Rn,则输出层最终分类结果表达为Y=softmax(W[hi,hj,F]+b)。
8.根据权利要求1所述基于多种神经网络集成的因果事理图谱构建方法,其特征在于步骤8具体包含以下步骤:
步骤8.1:编写三元组解释器,将三元组中数据抽取成Node及Relation节点数据,配置host、http_port参数驱动Neo4j图数据库;
步骤8.2:加载Py2Neo第三方库,首先使用Node()函数可将事件原因、事件结果、事件i,事件j转换成Neo4j中节点,其次用Relationship()函数可将节点之间通过因果、相似事件连接,关系的属性使用**properties参数设置。最后动态生成cypher语句生成节点和边。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010459865.XA CN111767408B (zh) | 2020-05-27 | 2020-05-27 | 一种基于多种神经网络集成的因果事理图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010459865.XA CN111767408B (zh) | 2020-05-27 | 2020-05-27 | 一种基于多种神经网络集成的因果事理图谱构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111767408A true CN111767408A (zh) | 2020-10-13 |
CN111767408B CN111767408B (zh) | 2023-06-09 |
Family
ID=72719626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010459865.XA Active CN111767408B (zh) | 2020-05-27 | 2020-05-27 | 一种基于多种神经网络集成的因果事理图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111767408B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329467A (zh) * | 2020-11-03 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 地址识别方法、装置、电子设备以及存储介质 |
CN112417161A (zh) * | 2020-11-12 | 2021-02-26 | 福建亿榕信息技术有限公司 | 一种基于模式扩充及bert分类的知识图谱上下位关系识别的方法和存储设备 |
CN112463970A (zh) * | 2020-12-16 | 2021-03-09 | 吉林大学 | 一种基于时间关系对文本包含的因果关系进行抽取的方法 |
CN112507124A (zh) * | 2020-12-04 | 2021-03-16 | 武汉大学 | 一种基于图模型的篇章级别事件因果关系抽取方法 |
CN112559656A (zh) * | 2020-12-09 | 2021-03-26 | 河海大学 | 基于水文事件的事理图谱构建方法 |
CN112632972A (zh) * | 2020-12-25 | 2021-04-09 | 浙江国际海运职业技术学院 | 一种电网设备故障报告内故障信息的快速提取方法 |
CN112667808A (zh) * | 2020-12-23 | 2021-04-16 | 沈阳新松机器人自动化股份有限公司 | 一种基于bert模型的关系抽取方法及其系统 |
CN112836502A (zh) * | 2021-03-01 | 2021-05-25 | 中央财经大学 | 一种金融领域事件隐式因果关系抽取方法 |
CN112860908A (zh) * | 2021-01-27 | 2021-05-28 | 云南电网有限责任公司电力科学研究院 | 基于多源异构电力设备数据的知识图谱自动化构建方法 |
CN113191148A (zh) * | 2021-04-30 | 2021-07-30 | 西安理工大学 | 一种基于半监督学习和聚类的轨道交通实体识别方法 |
CN113204952A (zh) * | 2021-03-26 | 2021-08-03 | 南京邮电大学 | 一种基于聚类预分析的多意图与语义槽联合识别方法 |
CN113590824A (zh) * | 2021-07-30 | 2021-11-02 | 平安科技(深圳)有限公司 | 因果事理图谱的构建方法、装置及相关设备 |
CN114064937A (zh) * | 2022-01-14 | 2022-02-18 | 云孚科技(北京)有限公司 | 一种事理图谱自动构建方法和系统 |
CN114676840A (zh) * | 2022-01-27 | 2022-06-28 | 广州数说故事信息科技有限公司 | 一种基于海量数据的因果事理组提取方法、系统及计算机可读存储介质 |
CN114880491A (zh) * | 2022-07-08 | 2022-08-09 | 云孚科技(北京)有限公司 | 一种事理图谱自动构建方法和系统 |
US11922129B2 (en) | 2021-06-22 | 2024-03-05 | International Business Machines Corporation | Causal knowledge identification and extraction |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090006284A1 (en) * | 2007-06-28 | 2009-01-01 | Microsoft Corporation | Forecasting time-independent search queries |
CN106951438A (zh) * | 2017-02-13 | 2017-07-14 | 北京航空航天大学 | 一种面向开放域的事件抽取系统及方法 |
CN108897989A (zh) * | 2018-06-06 | 2018-11-27 | 大连理工大学 | 一种基于候选事件元素注意力机制的生物事件抽取方法 |
CN110633409A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
-
2020
- 2020-05-27 CN CN202010459865.XA patent/CN111767408B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090006284A1 (en) * | 2007-06-28 | 2009-01-01 | Microsoft Corporation | Forecasting time-independent search queries |
CN106951438A (zh) * | 2017-02-13 | 2017-07-14 | 北京航空航天大学 | 一种面向开放域的事件抽取系统及方法 |
CN108897989A (zh) * | 2018-06-06 | 2018-11-27 | 大连理工大学 | 一种基于候选事件元素注意力机制的生物事件抽取方法 |
CN110633409A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
Non-Patent Citations (1)
Title |
---|
项威;: "事件知识图谱构建技术与应用综述", 计算机与现代化, no. 01 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329467A (zh) * | 2020-11-03 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 地址识别方法、装置、电子设备以及存储介质 |
CN112417161B (zh) * | 2020-11-12 | 2022-06-24 | 福建亿榕信息技术有限公司 | 一种基于模式扩充及bert分类的知识图谱上下位关系识别的方法和存储设备 |
CN112417161A (zh) * | 2020-11-12 | 2021-02-26 | 福建亿榕信息技术有限公司 | 一种基于模式扩充及bert分类的知识图谱上下位关系识别的方法和存储设备 |
CN112507124B (zh) * | 2020-12-04 | 2024-03-19 | 武汉大学 | 一种基于图模型的篇章级别事件因果关系抽取方法 |
CN112507124A (zh) * | 2020-12-04 | 2021-03-16 | 武汉大学 | 一种基于图模型的篇章级别事件因果关系抽取方法 |
CN112559656A (zh) * | 2020-12-09 | 2021-03-26 | 河海大学 | 基于水文事件的事理图谱构建方法 |
CN112463970A (zh) * | 2020-12-16 | 2021-03-09 | 吉林大学 | 一种基于时间关系对文本包含的因果关系进行抽取的方法 |
CN112667808A (zh) * | 2020-12-23 | 2021-04-16 | 沈阳新松机器人自动化股份有限公司 | 一种基于bert模型的关系抽取方法及其系统 |
CN112632972A (zh) * | 2020-12-25 | 2021-04-09 | 浙江国际海运职业技术学院 | 一种电网设备故障报告内故障信息的快速提取方法 |
CN112632972B (zh) * | 2020-12-25 | 2024-03-15 | 浙江国际海运职业技术学院 | 一种电网设备故障报告内故障信息的快速提取方法 |
CN112860908A (zh) * | 2021-01-27 | 2021-05-28 | 云南电网有限责任公司电力科学研究院 | 基于多源异构电力设备数据的知识图谱自动化构建方法 |
CN112836502A (zh) * | 2021-03-01 | 2021-05-25 | 中央财经大学 | 一种金融领域事件隐式因果关系抽取方法 |
CN112836502B (zh) * | 2021-03-01 | 2023-05-09 | 中央财经大学 | 一种金融领域事件隐式因果关系抽取方法 |
CN113204952A (zh) * | 2021-03-26 | 2021-08-03 | 南京邮电大学 | 一种基于聚类预分析的多意图与语义槽联合识别方法 |
CN113204952B (zh) * | 2021-03-26 | 2023-09-15 | 南京邮电大学 | 一种基于聚类预分析的多意图与语义槽联合识别方法 |
CN113191148A (zh) * | 2021-04-30 | 2021-07-30 | 西安理工大学 | 一种基于半监督学习和聚类的轨道交通实体识别方法 |
CN113191148B (zh) * | 2021-04-30 | 2024-05-28 | 西安理工大学 | 一种基于半监督学习和聚类的轨道交通实体识别方法 |
US11922129B2 (en) | 2021-06-22 | 2024-03-05 | International Business Machines Corporation | Causal knowledge identification and extraction |
CN113590824A (zh) * | 2021-07-30 | 2021-11-02 | 平安科技(深圳)有限公司 | 因果事理图谱的构建方法、装置及相关设备 |
CN114064937A (zh) * | 2022-01-14 | 2022-02-18 | 云孚科技(北京)有限公司 | 一种事理图谱自动构建方法和系统 |
CN114676840A (zh) * | 2022-01-27 | 2022-06-28 | 广州数说故事信息科技有限公司 | 一种基于海量数据的因果事理组提取方法、系统及计算机可读存储介质 |
CN114880491A (zh) * | 2022-07-08 | 2022-08-09 | 云孚科技(北京)有限公司 | 一种事理图谱自动构建方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111767408B (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767408B (zh) | 一种基于多种神经网络集成的因果事理图谱构建方法 | |
CN113239700A (zh) | 改进bert的文本语义匹配设备、系统、方法及存储介质 | |
CN108681574B (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
CN113312452B (zh) | 基于多任务学习的篇章级文本连贯性分类方法 | |
CN111274790B (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
Zhang et al. | Learning distributed representations of data in community question answering for question retrieval | |
Cai et al. | Intelligent question answering in restricted domains using deep learning and question pair matching | |
CN111930942A (zh) | 文本分类方法、语言模型训练方法、装置及设备 | |
Zhang et al. | Effective subword segmentation for text comprehension | |
CN113515632B (zh) | 基于图路径知识萃取的文本分类方法 | |
CN111143574A (zh) | 一种基于少数民族文化知识图谱的查询及可视化系统构建方法 | |
Yu et al. | Question classification based on MAC-LSTM | |
CN114298055B (zh) | 基于多级语义匹配的检索方法、装置、计算机设备和存储介质 | |
CN115238691A (zh) | 基于知识融合的嵌入的多意图识别与槽位填充模型 | |
CN112417155B (zh) | 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质 | |
CN112800244B (zh) | 一种中医药及民族医药知识图谱的构建方法 | |
He et al. | From context-aware to knowledge-aware: Boosting OOV tokens recognition in slot tagging with background knowledge | |
Peng et al. | MPSC: A multiple-perspective semantics-crossover model for matching sentences | |
Chen et al. | Question answering over knowledgebase with attention-based LSTM networks and knowledge embeddings | |
CN110674293B (zh) | 一种基于语义迁移的文本分类方法 | |
Karpagam et al. | Deep learning approaches for answer selection in question answering system for conversation agents | |
CN115169429A (zh) | 一种轻量化方面级文本情感分析方法 | |
Chen et al. | Text summarization generation based on semantic similarity | |
Guo | An automatic scoring method for Chinese-English spoken translation based on attention LSTM | |
Su | Construction model and evaluation of dynamic knowledge map for deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |