CN111160536A - 基于碎片化知识下的卷积嵌入表示推理方法 - Google Patents
基于碎片化知识下的卷积嵌入表示推理方法 Download PDFInfo
- Publication number
- CN111160536A CN111160536A CN202010002425.1A CN202010002425A CN111160536A CN 111160536 A CN111160536 A CN 111160536A CN 202010002425 A CN202010002425 A CN 202010002425A CN 111160536 A CN111160536 A CN 111160536A
- Authority
- CN
- China
- Prior art keywords
- fact
- triples
- vector
- triple
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
本发明涉及一种基于碎片化知识下的卷积嵌入表示推理方法,包括以下步骤:获取事实三元组;判断事实三元组中实体和关系是否已经训练;去掉头实体或者尾实体,使完整的事实三元组破坏并形成缺失事实三元组,并将其放入CE‑RCF模型中计算得到评估结果,如果该评估结果大于设定阈值,则将事实三元组标记为已训练事实三元组;判断未训练事实三元组数量是否大于阈值,如果大于阈值则将全部事实三元组放入CE‑RCF模型中进行参数训练,否则将当前事实三元组标记为未训练事实三元组;将未训练的事实三元组和已训练事实三元组共同取出并合并,输入CE‑RCF模型进行训练或重新训练;将合并后的全部事实三元组标记为已训练事实三元组并存储,得到完善后的事实三元组。
Description
技术领域
本发明涉及知识图谱下的海量数据存储与推理领域,具体涉及一种基于碎片化知识下的卷积嵌入表示推理方法。
背景技术
目前,卷积嵌入表示推理算法现有关系图卷积网络R-GCN和二维卷积知识图嵌入ConvE。前者使用卷积算子来捕获图中的局部信息,它可以在计算每个节点的卷积时采用相同的聚合方案。R-GCN模型主要是对GCNs(图神经网络)进行扩展,将其从局部图领域扩展到可以处理大规模知识图,图神经网络可以被理解为简单可微的消息传递框架的特殊情况。ConvE模型首先对头实体嵌入向量和关系嵌入向量连接并整形成一个矩阵,将这个矩阵视为图片矩阵,然后使用卷积对这个“图片”进行特征图的提取。得到特征图之后,展平并全连接,然后与权重矩阵W相乘得到一个与尾实体维度相同的向量,最后将这个向量与全部尾实体相乘,得到的结果经过logistic-sigmoid函数处理成零到一之间的一系列值作为事实三元组的可信程度。
R-GCN模型只能处理无向图,无法解决现实生活中有向知识图的问题;ConvE模型效果不错,但它在进入卷积之前需要把头实体嵌入向量和关系嵌入向量进行连接操作,因此模型的效果与两者的二维形状有关,不同的形状的连接方式可能导致不同的效果,并且头实体与关系的交互仅发生在连接处,浪费了两者大量的维度信息。另外,ConvE模型只考虑了事实三元组本身的信息,忽略了知识库中其他实体对事实三元组的影响。由于知识碎片的到来将使得知识库动态变化,现有嵌入表示推理方法无法解决动态碎片化推理问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于碎片化知识下的卷积嵌入表示推理方法,结合碎片化知识动态特点进行模型学习与推理,能够适应动态碎片知识进行模型学习与推理。
为实现上述目的,本发明采用如下技术方案:
一种基于碎片化知识下的卷积嵌入表示推理方法,包括以下步骤:
步骤S1:从百科页面中的词条提取关键字,并使用CyPher语法存入neo4j数据库;
步骤S2:从neo4j数据库获取事实三元组;
步骤S3:判断事实三元组中实体和关系是否已经训练,如果已训练则进行步骤S4,否则进行步骤S5;
步骤S4:去掉头实体或者尾实体,使完整的事实三元组破坏并形成缺失事实三元组,并将其放入CE-RCF模型中计算得到评估结果,如果该评估结果大于设定阈值,则将事实三元组标记为已训练事实三元组;
步骤S5:判断未训练事实三元组数量是否大于阈值,如果大于阈值则将全部事实三元组放入CE-RCF模型中进行参数训练,否则将当前事实三元组标记为未训练事实三元组;
步骤S6:判断是否需要开启下一次,如果不需要开启下一次训练则直接将该事实三元组标记为未训练的事实三元组并存储起来,否则将未训练的事实三元组和已训练事实三元组共同取出并合并,输入CE-RCF模型进行训练或重新训练;
步骤S7:将合并后的全部事实三元组标记为已训练事实三元组并存储,得到完善后的事实三元组。
进一步的,所述CE-RCF模型具体为:
1)知识库中有一个事实三元组(hi,rj,tk),将头实体嵌入向量hi视为一张图片,并将每个头实体嵌入向量整形为一个矩阵"Image"i如公式所示:
"Image"i=res(hi)
4)将所有特征图Fml i,j整形并全连接为向量Fvi,j
5)将向量Fvi,j经过全连接网络,并使用激活函数转化为d维特征
根据上述过程,将事实三元组(hi,rj,tk)的得分转化为头实体嵌入表示hi在关系rj下的特征与尾实体tk的契合程度的问题,事实三元组(hi,rj,tk)的得分score(hi,rj,tk)表示为:
进一步的,所述卷积滤波器权重矩阵具体为:
根据上述过程,将事实三元组(hi,rj,tk)的得分score(hi,rj,tk)函数由变换为:
进一步的,所述步骤S6具体为:
步骤S61:判断事实三元组数组中头实体、关系与尾实体是否都存在于现有模型中,如果存在则进行有效推理校验,根据校验结果来判断该事实三元组是否能直接使用;只要三元组有一个元素不在现有模型中或有效推理校验结果表明该事实三元组不能直接使用,则检测未训练事实三元组数量是否达到开启下一次训练的标准;
步骤S62:如果校验结果表明该事实三元组能直接使用,则将其标记为已训练事实三元组并存储起来;如果不需要开启下一次则直接将该事实三元组标记为未训练的事实三元组”并存储起来,否则将未训练的事实三元组和已训练事实三元组共同取出并合并,并进行训练或重新训练。
本发明与现有技术相比具有以下有益效果:
1、本发明结合碎片化知识动态特点进行模型学习与推理,能够适应动态碎片知识进行模型学习与推理。
2、本发明法简化了实体与关系的连接操作,设计了可以包含全部实体信息的特定关系的卷积滤波器权重生成方式,并以此来提取头实体的特征。提高了链路预测性能。
附图说明
图1是本发明方法流程图;
图2是本发明一实施例中CE-RCF整体模型图;
图3是本发明一实施例中生成卷积滤波器权重矩阵可视化;
图4是本发明一实施例中卷积滤波器权重矩阵神经网络可视化。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于碎片化知识下的卷积嵌入表示推理方法,包括以下步骤:
步骤S1:从百科页面中的词条提取关键字,并使用CyPher语法存入neo4j数据库;
步骤S2:从neo4j数据库获取事实三元组;
步骤S3:判断事实三元组中实体和关系是否已经训练,如果已训练则进行步骤S4,否则进行步骤S5;
步骤S4:去掉头实体或者尾实体,使完整的事实三元组破坏并形成缺失事实三元组,并将其放入CE-RCF模型中计算得到评估结果,如果该评估结果大于设定阈值,则将事实三元组标记为已训练事实三元组;
步骤S5:判断未训练事实三元组数量是否大于阈值,如果大于阈值则将全部事实三元组放入CE-RCF模型中进行参数训练,否则将当前事实三元组标记为未训练事实三元组;
步骤S6:判断事实三元组数组中头实体、关系与尾实体是否都存在于现有模型中,如果存在则进行有效推理校验,根据校验结果来判断该事实三元组是否能直接使用;只要三元组有一个元素不在现有模型中或有效推理校验结果表明该事实三元组不能直接使用,则检测未训练事实三元组数量是否达到开启下一次训练的标准;如果校验结果表明该事实三元组能直接使用,则将其标记为已训练事实三元组并存储起来;如果不需要开启下一次则直接将该事实三元组标记为未训练的事实三元组”并存储起来,否则将未训练的事实三元组和已训练事实三元组共同取出并合并,并进行训练或重新训练。
步骤S7:将合并后的全部事实三元组标记为已训练事实三元组并存储,得到完善后的事实三元组。
在本实施例中,预定义如下表:
表1相关名词符号及其含义
表2相关函数符号及其含义
表3相关其他符号及其含义
对于关系的类型有如表4所示4种。
表4相关系类型
其中一对一关系(1-1)为简单关系,多对一关系(N-1)、一对多关系(1-N)、多对多关系(N-N)为复杂关系。
在本实施例中,在ConvE的基础上提出了一种新的卷积链路预测模型CE-RCF,去掉了其中的头实体嵌入和关系嵌入连接过程,让头实体嵌入向量进行卷积不受二维形状和与关系连接方式的影响,并设计了卷积时使用的滤波器权重矩阵的生成方式,让包含全部实体信息的卷积滤波器权重与头实体嵌入向量交互:关系嵌入向量与实体嵌入向量点积后与权重矩阵相乘,生成卷积滤波器权重矩阵。CE-RCF模型可视化如图2所示,所述CE-RCF模型具体为:
1)知识库中有一个事实三元组(hi,rj,tk),将头实体嵌入向量hi视为一张图片,并将每个头实体嵌入向量整形为一个矩阵"Image"i如公式所示:
"Image"i=res(hi)
3)将头实体图片矩阵"Image"i经过所有卷积滤波器权重矩阵Fl rj进行卷积后得到该m个特征图Fml i,j,其中l∈[0,m),
4)将所有特征图Fml i,j整形并全连接为向量Fvi,j
根据上述过程,将事实三元组(hi,rj,tk)的得分转化为头实体嵌入表示hi在关系rj下的特征与尾实体tk的契合程度的问题,事实三元组(hi,rj,tk)的得分score(hi,rj,tk)表示为:
根据上述过程,将事实三元组(hi,rj,tk)的得分score(hi,rj,tk)函数由变换为:
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (4)
1.一种基于碎片化知识下的卷积嵌入表示推理方法,其特征在于,包括以下步骤:
步骤S1:从百科页面中的词条提取关键字,并使用CyPher语法存入neo4j数据库;
步骤S2:从neo4j数据库获取事实三元组;
步骤S3:判断事实三元组中实体和关系是否已经训练,如果已训练则进行步骤S4,否则进行步骤S5;
步骤S4:去掉头实体或者尾实体,使完整的事实三元组破坏并形成缺失事实三元组,并将其放入CE-RCF模型中计算得到评估结果,如果该评估结果大于设定阈值,则将事实三元组标记为已训练事实三元组;
步骤S5:判断未训练事实三元组数量是否大于阈值,如果大于阈值则将全部事实三元组放入CE-RCF模型中进行参数训练,否则将当前事实三元组标记为未训练事实三元组;
步骤S6:判断是否需要开启下一次,如果不需要开启下一次训练则直接将该事实三元组标记为未训练的事实三元组并存储起来,否则将未训练的事实三元组和已训练事实三元组共同取出并合并,输入CE-RCF模型进行训练或重新训练;
步骤S7:将合并后的全部事实三元组标记为已训练事实三元组并存储,得到完善后的事实三元组。
2.根据权利要求1所述的基于碎片化知识下的卷积嵌入表示推理方法,其特征在于,所述CE-RCF模型具体为:
1)知识库中有一个事实三元组(hi,rj,tk),将头实体嵌入向量hi视为一张图片,并将每个头实体嵌入向量整形为一个矩阵"Image"i如公式所示:
"Image"i=res(hi)
4)将所有特征图Fml i,j整形并全连接为向量Fvi,j
根据上述过程,将事实三元组(hi,rj,tk)的得分转化为头实体嵌入表示hi在关系rj下的特征与尾实体tk的契合程度的问题,事实三元组(hi,rj,tk)的得分score(hi,rj,tk)表示为:
3.根据权利要求2所述的基于碎片化知识下的卷积嵌入表示推理方法,其特征在于,所述卷积滤波器权重矩阵具体为:
根据上述过程,将事实三元组(hi,rj,tk)的得分score(hi,rj,tk)函数由变换为:
4.根据权利要求1基于碎片化知识下的卷积嵌入表示推理方法,其特征在于,所述步骤S6具体为:
步骤S61:判断事实三元组数组中头实体、关系与尾实体是否都存在于现有模型中,如果存在则进行有效推理校验,根据校验结果来判断该事实三元组是否能直接使用;只要三元组有一个元素不在现有模型中或有效推理校验结果表明该事实三元组不能直接使用,则检测未训练事实三元组数量是否达到开启下一次训练的标准;
步骤S62:如果校验结果表明该事实三元组能直接使用,则将其标记为已训练事实三元组并存储起来;如果不需要开启下一次则直接将该事实三元组标记为未训练的事实三元组”并存储起来,否则将未训练的事实三元组和已训练事实三元组共同取出并合并,并进行训练或重新训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010002425.1A CN111160536B (zh) | 2020-01-02 | 2020-01-02 | 基于碎片化知识下的卷积嵌入表示推理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010002425.1A CN111160536B (zh) | 2020-01-02 | 2020-01-02 | 基于碎片化知识下的卷积嵌入表示推理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111160536A true CN111160536A (zh) | 2020-05-15 |
CN111160536B CN111160536B (zh) | 2022-06-21 |
Family
ID=70561252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010002425.1A Active CN111160536B (zh) | 2020-01-02 | 2020-01-02 | 基于碎片化知识下的卷积嵌入表示推理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111160536B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753054A (zh) * | 2020-06-22 | 2020-10-09 | 神思电子技术股份有限公司 | 一种基于图神经网络的机器阅读推断方法 |
CN114861665A (zh) * | 2022-04-27 | 2022-08-05 | 北京三快在线科技有限公司 | 一种强化学习模型训练以及确定数据关系的方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897273A (zh) * | 2017-04-12 | 2017-06-27 | 福州大学 | 一种基于知识图谱的网络安全动态预警方法 |
CN107766483A (zh) * | 2017-10-13 | 2018-03-06 | 华中科技大学 | 一种基于知识图谱的交互式问答方法及系统 |
US20180113940A1 (en) * | 2016-10-21 | 2018-04-26 | Fujitsu Limited | Program, method, and system for execution of software services |
CN108874878A (zh) * | 2018-05-03 | 2018-11-23 | 众安信息技术服务有限公司 | 一种知识图谱的构建系统及方法 |
-
2020
- 2020-01-02 CN CN202010002425.1A patent/CN111160536B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180113940A1 (en) * | 2016-10-21 | 2018-04-26 | Fujitsu Limited | Program, method, and system for execution of software services |
CN106897273A (zh) * | 2017-04-12 | 2017-06-27 | 福州大学 | 一种基于知识图谱的网络安全动态预警方法 |
CN107766483A (zh) * | 2017-10-13 | 2018-03-06 | 华中科技大学 | 一种基于知识图谱的交互式问答方法及系统 |
CN108874878A (zh) * | 2018-05-03 | 2018-11-23 | 众安信息技术服务有限公司 | 一种知识图谱的构建系统及方法 |
Non-Patent Citations (3)
Title |
---|
HUILING LU ET AL.: "Analysis of film data based on Neo4j", 《017 IEEE/ACIS 16TH INTERNATIONAL CONFERENCE ON COMPUTER AND INFORMATION SCIENCE (ICIS)》 * |
张霞: "基于亲属关系网络的子图查询方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
汪璟玢 等: "结合Rete的RDF数据分布式并行推理算法", 《模式识别与人工智能》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753054A (zh) * | 2020-06-22 | 2020-10-09 | 神思电子技术股份有限公司 | 一种基于图神经网络的机器阅读推断方法 |
CN111753054B (zh) * | 2020-06-22 | 2023-02-03 | 神思电子技术股份有限公司 | 一种基于图神经网络的机器阅读推断方法 |
CN114861665A (zh) * | 2022-04-27 | 2022-08-05 | 北京三快在线科技有限公司 | 一种强化学习模型训练以及确定数据关系的方法及装置 |
CN114861665B (zh) * | 2022-04-27 | 2023-01-06 | 北京三快在线科技有限公司 | 一种强化学习模型训练以及确定数据关系的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111160536B (zh) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109711883B (zh) | 基于U-Net网络的互联网广告点击率预估方法 | |
CN113065974B (zh) | 一种基于动态网络表示学习的链路预测方法 | |
CN111160536B (zh) | 基于碎片化知识下的卷积嵌入表示推理方法 | |
CN112287997A (zh) | 一种基于生成式对抗网络的深度图卷积模型防御方法 | |
CN110175248B (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
US10749882B2 (en) | Network security system and methods for encoding network connectivity for activity classification | |
CN110222795B (zh) | 基于卷积神经网络的p2p流量的识别方法及相关装置 | |
CN113378160A (zh) | 一种基于生成式对抗网络的图神经网络模型防御方法及装置 | |
CN113268675B (zh) | 一种基于图注意力网络的社交媒体谣言检测方法和系统 | |
Yang et al. | Adversarial attacks on brain-inspired hyperdimensional computing-based classifiers | |
Xiao et al. | Network security situation prediction method based on MEA-BP | |
CN113449853A (zh) | 一种图卷积神经网络模型及其训练方法 | |
CN111291078B (zh) | 一种域名匹配检测方法及装置 | |
CN112860977A (zh) | 一种基于卷积神经网络的链路预测方法 | |
CN113256507B (zh) | 一种针对二进制流量数据生成图像的注意力增强方法 | |
CN114265954B (zh) | 基于位置与结构信息的图表示学习方法 | |
CN116543250A (zh) | 一种基于类注意力传输的模型压缩方法 | |
CN114398977A (zh) | 一种基于对抗样本的网络欺骗流量生成方法 | |
CN113191144B (zh) | 一种基于传播影响力的网络谣言识别系统及方法 | |
CN115620038A (zh) | 共性知识约束的遥感样本迁移方法 | |
CN110009579B (zh) | 一种基于头脑风暴优化算法的图像复原方法及系统 | |
CN115587187A (zh) | 基于小样本的知识图谱补全方法 | |
CN113807370A (zh) | 数据处理方法、装置、设备、存储介质及计算机程序产品 | |
CN113590720A (zh) | 数据分类方法、装置、计算机设备和存储介质 | |
CN115913792B (zh) | Dga域名的鉴别方法、系统及可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |