CN110717617A - 一种基于深度图网络自编码器的无监督关系预测方法 - Google Patents

一种基于深度图网络自编码器的无监督关系预测方法 Download PDF

Info

Publication number
CN110717617A
CN110717617A CN201910849178.6A CN201910849178A CN110717617A CN 110717617 A CN110717617 A CN 110717617A CN 201910849178 A CN201910849178 A CN 201910849178A CN 110717617 A CN110717617 A CN 110717617A
Authority
CN
China
Prior art keywords
matrix
test
encoder
training
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910849178.6A
Other languages
English (en)
Inventor
蔡瑞初
陈学信
郝志峰
温雯
吴迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910849178.6A priority Critical patent/CN110717617A/zh
Publication of CN110717617A publication Critical patent/CN110717617A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于深度图网络自编码器的无监督关系预测方法,包括采集具有目标关系m对、实体数量为n的实体对数据集X;对实体对数据进行预处理,将实体对数据划分K份测试集和训练集的组合;将测试集转换成测试矩阵Atest,将训练集转换成训练矩阵Atrain;对训练集矩阵Atest规范化处理为邻接矩阵
Figure DDA0002196322570000011
定义编码器和解码器,搭建预测模型;将预测模型遍历k份测试集和训练集进行训练并关系重构,得到k个训练后的预测模型;遍历k个训练后的预测模型,获取目标关系的预测。本发明采用图卷积神经网络完成目标关系预测,在图的边预测时完成节点嵌入向量由转导问题变为归纳问题。

Description

一种基于深度图网络自编码器的无监督关系预测方法
技术领域
本发明涉及大数据分析领域,尤其涉及一种基于深度图网络自编码器的无监督关系预测方法。
背景技术
使用基于计算的关系预测算法是机器学习一个很重要的应用。目前的主要方法是把推荐问题的矩阵分解算法迁移到了这个问题上。然而,当这方法被迁移到求图上的节点表示的时候,会变成是一种直接编码的方法,独立地为每个节点训练出一个唯一嵌入向量,有以下不足的地方:
(1)编码器内部节点之间没有参数共享(i.e.,编码器只是关于任意节点标识号的嵌入向量查询)。由于参数共享可以作为一种强大的正则化形式,这会产生统计学的有效性变低的问题,又由于每个节点的嵌入向量的计算都是独立,又导致了计算上的效率变低,这意味着参数数量必然随着
Figure BDA0002196322550000011
的增加而增加。
(2)直接编码方法在编码期间无法利用节点的属性。在许多规模很大的图上,节点都是有属性的,例如社交网络上的用户简介中的信息,这往往与节点在图中的位置以及扮演的角色高度关联。
(3)直接编码方法存在固有的转导问题,即无法生成在训练集中没有见到的节点的嵌入向量。
为解决以上全部问题,本文引入了新颖的图卷积神经网络完成目标关系预测。图是一种普遍存在的数据结构,近年来图神经网络快速发展,与传统的神经网络相比,图神经网络的优势在于能把图作为输入,而不是形态必须规整的数据结构,然后学习推理和预测对象及其关系如何随时间演变。但是一般的图神经网络边预测模型,只能解决上述问题的前两个,而无法完成在边预测时也能完成节点嵌入向量由转导问题变成归纳问题。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷(不足),提供一种基于深度图网络自编码器的无监督关系预测方法。
本发明旨在至少在一定程度上解决上述技术问题。
为了达到上述技术效果,本发明的技术方案如下:
一种基于深度图网络自编码器的无监督关系预测方法,包括如下步骤:
S10采集具有目标关系m对、实体数量为n的实体对数据集X;
S20对实体对数据进行预处理,将实体对数据划分K份测试集和训练集的组合;
S30将测试集转换成测试矩阵Atest,将训练集转换成训练矩阵Atrain
S40对训练集矩阵Atest规范化处理为邻接矩阵
Figure BDA0002196322550000021
S50定义编码器和解码器,搭建预测模型;
S60将预测模型遍历k份测试集和训练集进行训练并关系重构,得到k个训练后的预测模型;
S70遍历k个训练后的预测模型,获取目标关系的预测。
优选地,所述S20具体方法为:
对实体对数据进行K折交叉验证,所述K折交叉验证是指将实体对数据集平均分成k份,假设实体对数据集为X,实体对数据集的总样本数为s,那么X被平均分成k份后,得到{X1,X2,...,Xk},且
Figure BDA0002196322550000022
表示第i个数据集的样本数,依次把Xi作为评价模型的测试集,其余的Xj(j≠i,1≤j≤k)并成一个集合,作为训练集,以此将实体对数据划分成K个不同测试集和训练集的组合以供训练。
优选地,所述S30具体方法为:
将测试集转换成测试矩阵Atest:假设测试集的样本数为p,训练集的样本数是t,则每个测试集和训练集组合的总样本数s=p+t,每个样本集共有n个节点,那么测试矩阵Atest={{xi,xj}|x≠j,x,j=1,...,n},其中{xi,xj}代表节点xi与节点xj连接而成的无向边,建立一个其中元素全为0的n×n的矩阵Atest,那么对于测试集中的任意一{xi,xj},令Atest中第xi行第xj列和第xj行,第xi列均取1;
将训练集转换成训练矩阵Atrain:训练集={{xi,xj}|x≠j,x,j=1,...,n},建立一个元素全为0的n×n矩阵Atrain,那么,对于训练集中任意一{xi,xj},我们令Atrain中第xi行,第xi列和第xi行,第xi列均取1。
优选地,所述S40对训练集矩阵Atest规范化处理为邻接矩阵
Figure BDA00021963225500000327
的计算式如下:
Figure BDA0002196322550000031
Figure BDA0002196322550000032
其中,I是n×n的单位矩阵,即除了对角线元素是1之外,其他位置的元素均是0,
Figure BDA0002196322550000033
Figure BDA0002196322550000034
矩阵的度矩阵,它是一个对角矩阵,其对角线上的元素被定义为
Figure BDA0002196322550000035
表示
Figure BDA0002196322550000036
矩阵的第i行第j列的元素,dii表示度矩阵
Figure BDA0002196322550000037
第i行第i列的元素。
优选地,所述S50中的编码器定义如下:
Figure BDA0002196322550000038
Figure BDA0002196322550000039
Figure BDA00021963225500000310
Figure BDA00021963225500000311
Figure BDA00021963225500000312
编码器最后的输出是
Figure BDA00021963225500000313
Figure BDA00021963225500000314
用于解码器,
解码器定义如下:
Figure BDA00021963225500000315
其中,Y∈{I,A},当Y=A时,
Figure BDA00021963225500000316
和HY去除边,当Y=I时,
Figure BDA00021963225500000317
和HY去除节点,Dropout(Y,p)是随机失活函数,它将以概率p对矩阵的每一个元素独立地进行置0,Y是n×n的节点特征矩阵,W1,W2是可训练的参数矩阵,W1的维度为n×d1,W2的维度为n×d2,d1、d2是预定值,
Figure BDA00021963225500000318
是节点特征矩阵Y经过Dropout后的n×n节点特征矩阵,ReLu和Sigmoid是激活函数,具体的表达式如下:
ReLu(x)=max(x,0)
Figure BDA00021963225500000319
HY是经过第一层编码器
Figure BDA00021963225500000320
映射后的n×d1的矩阵输出,该矩阵的每一行是相应节点特征在d1维隐空间内的隐藏表示,故HY是一个节点隐藏表示矩阵,是HY经过Dropout作用后的n×d1节点隐藏表示矩阵,ZY是经过编码器
Figure BDA00021963225500000322
映射后n×d2的矩阵输出,该矩阵的每一行是相应节点特征在d2维隐空间内的隐藏表示,故ZY是一个节点隐藏表示矩阵,
Figure BDA00021963225500000323
是ZY经过Dropout作用后得到的n×d2节点隐藏表示矩阵,的意思是矩阵
Figure BDA00021963225500000325
的转置,
Figure BDA00021963225500000326
是n×n的重构邻接矩阵。
优选地,所述S60预测模型遍历k份测试集和训练集进行训练中每份测试集和训练集组合的训练具体为:
S601将n×n的单位矩阵I和测试矩阵Atest分别输入到编码器中,先令Y=I,编码器输出再令Y=Atest,编码器输出
Figure BDA0002196322550000042
Figure BDA0002196322550000043
Figure BDA0002196322550000044
输入解码器中,得到两个重构邻接矩阵
Figure BDA0002196322550000045
Figure BDA0002196322550000046
并将重构邻接矩阵
Figure BDA0002196322550000047
与Atrain计算负对数似然得到LossI,将重构邻接矩阵
Figure BDA0002196322550000048
与Atrain计算负对数似然得到LossA,负对数似然计算公式如下:
Figure BDA0002196322550000049
Figure BDA00021963225500000410
LossTotal=LossI+ρ·LossA
采用ρ代表LossI与LossA间的重要性衡量,取预定阈值,若ρ>1,说明LossA比LossI重要;反之,则LossI比LossA重要;
计算LossI与LossA的和为LossTotal
S602对LossTotal采用梯度反向传播算法极小化负对数似然,设定最大训练轮数T,迭代训练,模型训练完成,获取训练后预测模型;
S603计算预测模型最终重构的邻接矩阵。
优选地,所述S603具体为:
S6031令编码器和解码器的Dropout的概率为0,停止Dropout;
S6032把单位矩阵I和A分别输入到编码器中,先令Y=I,得到编码器的输出
Figure BDA00021963225500000411
后,再令Y=A,又得到编码器的输出
Figure BDA00021963225500000412
把编码器的两个节点隐藏表示矩阵:
Figure BDA00021963225500000413
再输入到解码器中,得到的两个重构邻接矩阵
Figure BDA00021963225500000416
求两个重构邻接矩阵
Figure BDA00021963225500000417
的几何平均,得到模型最终的重构邻接矩阵
Figure BDA00021963225500000419
即:
Figure BDA00021963225500000420
优选地,所述S70的具体方法为:
设置矩阵A对角线右侧元素中所有0的位置用集合C表示,然后对重构邻接矩阵
Figure BDA00021963225500000421
中所有属于集合C的位置上的元素进行降序排序,获取排序靠前的节点位置关系,将其视为预测的目标关系。
优选地,所述S20之后,所述S30之前还包括:
S80为实体对数据集中每个实体赋予唯一的标识号。
与现有技术相比,本发明技术方案的有益效果是:本发明采用图卷积神经网络完成目标关系预测,图是一种普遍存在的数据结构,图神经网络的优势在于能把图作为输入,而不是形态必须规整的数据结构,然后学习推理和预测对象及其关系如何随时间演变,特别是在图的边预测时完成节点嵌入向量由转导问题变成归纳问题,在对边极度稀疏的图进行目标关系预测(即边预测)时,如果缺乏节点特征数据,一般的图卷积神经网络(GCN)会令节点特征矩阵为单位矩阵,然后进行预测。实质上,由于GCN内部具有Dropout,模型在训练时,如果单位矩阵的第i行的非0元素被随机地置0,那么
Figure BDA0002196322550000051
中的第i行全为0,即第i个节点的特征向量上的元素全为0。由GCN的空间卷积原理可知,此时等价于第i个节点在训练期间被随机地去除了。但是,因为去除节点的时候会连同其邻接的全部边一并去除,这对于边极度稀疏的图来说是非常激进的,容易让模型陷入过拟合效应。为了弥补这个不足,本文提供一种在去除节点的时候,加入只去除边的技术。不仅有效地、系统地强迫模型执行节点级别的随机去除,而且进一步微调边级别上的随机去除。所以,本发明在结构上,又与一般单路径的图卷积神经网络不同,本发明采用双路径结构(双路径结构是指当Y=A时,
Figure BDA0002196322550000053
和HY去除边,当Y=I时,和HY去除节点)对模型进行训练。每一个路径对应上述的节点级别和边级别上的随机去除。这样做带来的直接有益效果是目标关系预测的准确率提升了,说明基于节点和边级别的去除技术使得能够最小化由于边稀疏而带来的模型过拟合效应,预测出来的目标关系更可信。
附图说明
图1为本发明的方法流程图。
图2为本发明的模型搭建的原理图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
一种基于深度图网络自编码器的无监督关系预测方法,包括如下步骤:
S10采集具有目标关系m对、实体数量为n的实体对数据集X;
S20对实体对数据进行预处理,将实体对数据划分K份测试集和训练集的组合;
S30将测试集转换成测试矩阵Atest,将训练集转换成训练矩阵Atrain
S40对训练集矩阵Atest规范化处理为邻接矩阵
S50定义编码器和解码器,搭建预测模型;
S60将预测模型遍历k份测试集和训练集进行训练并关系重构,得到k个训练后的预测模型;
S70遍历k个训练后的预测模型,获取目标关系的预测。
优选地,所述S20具体方法为:
对实体对数据进行K折交叉验证,所述K折交叉验证是指将实体对数据集平均分成k份,假设实体对数据集为X,实体对数据集的总样本数为s,那么X被平均分成k份后,得到{X1,X2,...,Xk},且
Figure BDA0002196322550000061
|Xi|,表示第i个数据集的样本数,依次把Xi作为评价模型的测试集,其余的Xj(j≠i,1≤j≤k)并成一个集合,作为训练集,以此将实体对数据划分成K个不同测试集和训练集的组合以供训练。
优选地,所述S30具体方法为:
将测试集转换成测试矩阵Atest:假设测试集的样本数为p,训练集的样本数是t,则每个测试集和训练集组合的总样本数s=p+t,每个样本集共有n个节点,那么测试矩阵Atest={{xi,xj}|x≠j,x,j=1,...,n},其中{xi,xj}代表节点xi与节点xj连接而成的无向边,建立一个其中元素全为0的n×n的矩阵Atest,那么对于测试集中的任意一{xi,xj},令Atest中第xi行第xj列和第xj行,第xi列均取1;
将训练集转换成训练矩阵Atrain:训练集={{xi,xj}|x≠j,x,j=1,...,n},建立一个元素全为0的n×n矩阵Atrain,那么,对于训练集中任意一{xi,xj},我们令Atrain中第xi行,第xj列和第xj行,第xi列均取1。
优选地,所述S40对训练集矩阵Atest规范化处理为邻接矩阵
Figure BDA0002196322550000064
的计算式如下:
Figure BDA0002196322550000071
其中,I是n×n的单位矩阵,即除了对角线元素是1之外,其他位置的元素均是0,
Figure BDA0002196322550000072
Figure BDA0002196322550000073
矩阵的度矩阵,它是一个对角矩阵,其对角线上的元素被定义为表示
Figure BDA0002196322550000075
矩阵的第i行第j列的元素,dii表示度矩阵第i行第i列的元素。
优选地,所述S50中的编码器定义如下:
Figure BDA0002196322550000077
Figure BDA0002196322550000078
编码器最后的输出是
Figure BDA00021963225500000712
Figure BDA00021963225500000713
用于解码器,
解码器定义如下:
Figure BDA00021963225500000714
其中,Y∈{I,A},当Y=A时,
Figure BDA00021963225500000715
和HY去除边,当Y=I时,
Figure BDA00021963225500000716
和HY去除节点,Dropout(Y,p)是随机失活函数,它将以概率p对矩阵的每一个元素独立地进行置0,Y是n×n的节点特征矩阵,W1,W2是可训练的参数矩阵,W1的维度为n×d1,W2的维度为n×d2,d1、d2是预定值,
Figure BDA00021963225500000717
是节点特征矩阵Y经过Dropout后的n×n节点特征矩阵,ReLu和Sigmoid是激活函数,具体的表达式如下:
ReLu(x)=max(x,0)
Figure BDA00021963225500000718
HY是经过第一层编码器映射后的n×d1的矩阵输出,该矩阵的每一行是相应节点特征在d1维隐空间内的隐藏表示,故HY是一个节点隐藏表示矩阵,
Figure BDA00021963225500000720
是HY经过Dropout作用后的n×d1节点隐藏表示矩阵,ZY是经过编码器
Figure BDA00021963225500000721
映射后n×d2的矩阵输出,该矩阵的每一行是相应节点特征在d2维隐空间内的隐藏表示,故ZY是一个节点隐藏表示矩阵,
Figure BDA00021963225500000722
是ZY经过Dropout作用后得到的n×d2节点隐藏表示矩阵,
Figure BDA00021963225500000723
的意思是矩阵
Figure BDA00021963225500000724
的转置,
Figure BDA00021963225500000725
是n×n的重构邻接矩阵。
优选地,所述S60预测模型遍历k份测试集和训练集进行训练中每份测试集和训练集组合的训练具体为:
S601将n×n的单位矩阵I和测试矩阵Atest分别输入到编码器中,先令Y=I,编码器输出再令Y=Atest,编码器输出
Figure BDA0002196322550000082
Figure BDA0002196322550000084
输入解码器中,得到两个重构邻接矩阵
Figure BDA0002196322550000085
Figure BDA0002196322550000086
并将重构邻接矩阵
Figure BDA0002196322550000087
与Atrain计算负对数似然得到LossI,将重构邻接矩阵
Figure BDA0002196322550000088
与Atrain计算负对数似然得到LossA,负对数似然计算公式如下:
Figure BDA0002196322550000089
Figure BDA00021963225500000810
LossTotal=LossI+ρ·LossA
采用ρ代表LossI与LossA间的重要性衡量,取预定阈值,若ρ>1,说明LossA比LossI重要;反之,则LossI比LossA重要;
计算LossI与LossA的和为LossTotal
S602对LossTotal采用梯度反向传播算法极小化负对数似然,设定最大训练轮数T,迭代训练,模型训练完成,获取训练后预测模型;
S603计算预测模型最终重构的邻接矩阵。
优选地,所述S603具体为:
S6031令编码器和解码器的Dropout的概率为0,停止Dropout;
S6032把单位矩阵I和A分别输入到编码器中,先令Y=I,得到编码器的输出
Figure BDA00021963225500000811
后,再令Y=A,又得到编码器的输出
Figure BDA00021963225500000812
把编码器的两个节点隐藏表示矩阵:
Figure BDA00021963225500000813
Figure BDA00021963225500000814
再输入到解码器中,得到的两个重构邻接矩阵
Figure BDA00021963225500000815
Figure BDA00021963225500000816
求两个重构邻接矩阵
Figure BDA00021963225500000817
Figure BDA00021963225500000818
的几何平均,得到模型最终的重构邻接矩阵即:
Figure BDA00021963225500000820
优选地,所述S70的具体方法为:
设置矩阵A对角线右侧元素中所有0的位置用集合C表示,然后对重构邻接矩阵
Figure BDA00021963225500000821
中所有属于集合C的位置上的元素进行降序排序,获取排序靠前的节点位置关系,将其视为预测的目标关系。
优选地,所述S20之后,所述S30之前还包括:
S80为实体对数据集中每个实体赋予唯一的标识号。
实操实例:
步骤1:首先从某个关系数据库收下载构成协同致死(即目标关系就是协同致死)的基因对(实体对)数据集文件和数据集中包含的基因(实体)文件,涉及6375个实体,共19677个已知能构成目标关系的实体对。实体对数据集的局部如表格2所示:
所涉及的实体数据集文件的局部如表1所示:
A2M
A2ML1
AADAT
AAR2
AATF
表1
文件中的每一行(共19667行)的两个字符串表示能够构成目标关系的两个实体。为了使得后面的步骤描述更加简洁易懂,这里在讲述预处理部分时,只针对其中前5个实体对的变化:
BTG2 SESN1
EGR1 FOSB
MYOF PINK1
DNAJB6 GLUD1
GLUD1 TMEM126B
表2
步骤2:对6375个实体进行排列(排列的原则可以是任意的,这里直接是使用Python语言调用集合函数后返回的排列结果),其中,用数字0表示排在首位的实体,用数字1表示排在第二位的实体,……,排在最后一位的实体用数字6374表示,表格2中,用对应的数字替换,得到的结果如表格3所示:
Figure BDA0002196322550000101
表3
上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
步骤3:对经过数字化(又叫令牌化)的实体对,进行5折交叉验证,具体地,我们把19677个实体对X,平均分成5个部分X1∪X2∪X3∪X4∪X5=X,每部分有19677/5≈3936个实体对。然后按照交叉验证的原则,我们构造出5个(训练集,测试集)组合,即(X1∪X2∪X3∪X4,X5),(X1∪X2∪X3∪X5,X4),(X1∪X2∪X4∪X5,X3),(X1∪X3∪X4∪X5,X2),(X2∪X3∪X4∪X5,X1)。
步骤4:对每个(训练集,测试集)组合矩阵化,例如对于(X1∪X2∪X3∪X4,X5),我们要分别把训练集(X1∪X2∪X3∪X4,X5)和验证集X5矩阵化。
矩阵化的具体操作如下:
分别初始化两个6375×6375全零矩阵Atrain和Atest;根据训练集X1∪X2∪X3∪X4任意一个元素,如(557,4868),那么令Atrain第557行,第4868列的位置和第4868行,第557列的位置分别置1。,
这样将会得到5个(Atrain,Atest)组合。
步骤5:对每个组合中的Atrain进行规范化,式子如下:
Figure BDA0002196322550000102
Figure BDA0002196322550000103
这样将会得到5个
Figure BDA0002196322550000109
组合。Atrain将作为节点的特征矩阵使用。
步骤6:准备另外一个节点特征矩阵:6375×6375的单位矩阵I,即只有矩阵对角线上的元素为1,其余位置为0的矩阵。
步骤7:选定第i个
Figure BDA00021963225500001010
组合(i=1,2,...,5)
步骤8:单位矩阵I进入自编码器,过程如下:
Figure BDA0002196322550000104
Figure BDA0002196322550000105
Figure BDA0002196322550000106
Figure BDA0002196322550000107
Figure BDA0002196322550000108
Figure BDA0002196322550000111
其中,Dropout是随机失活函数。
步骤9:单位矩阵Atrain进入自编码器,过程如下:
Figure BDA0002196322550000112
Figure BDA0002196322550000114
Figure BDA0002196322550000115
Figure BDA0002196322550000116
Figure BDA0002196322550000117
步骤10:计算损失:
Figure BDA0002196322550000118
Figure BDA0002196322550000119
LossTotal=LossI+ρ·LossA
ρ=1
步骤11:重复步骤7~102000轮(即训练模型),又或者1000轮之后:
LossTotal<10-5
可以提前终止训练模型。
步骤12:评价模型:
对模型的两个输出
Figure BDA00021963225500001111
求几何平均作为模型的最终输出:
调用Python的第三方库Scikit-learn,计算
Figure BDA00021963225500001113
和Atest中指定位置的AUC、AUPR、F1
在计算F1指标时,需要事先对
Figure BDA00021963225500001114
进行如下的转换:
对于
Figure BDA00021963225500001115
中的每个元素,如果大于0.987,则置1;否则,则置0。
步骤13:回到步骤7,当i>5,跳转到步骤14。
步骤14:计算AUC、AUPR、F1的平均值以及95%的置信区间,得到结果如表四下:
AUC AUC F<sub>1</sub>
0.8788±0.0068 0.3440±0.0299 0.5520±0.01282
表四
步骤15:目标关系预测,设A中所有位置记为C,所有为1的位置集合记为C1,此时我们只评价
Figure BDA0002196322550000121
和Atest中关于C-C1的位置。如果
Figure BDA0002196322550000122
则判断该实体对{x,y}能构成目标关系,否则,不能构成目标关系。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (9)

1.一种基于深度图网络自编码器的无监督关系预测方法,其特征在于,包括如下步骤:
S10 采集具有目标关系m对、实体数量为n的实体对数据集X;
S20 对实体对数据进行预处理,将实体对数据划分K份测试集和训练集的组合;
S30 将测试集转换成测试矩阵Atest,将训练集转换成训练矩阵Atrain
S40 对训练集矩阵Atest规范化处理为邻接矩阵
S50 定义编码器和解码器,搭建预测模型;
S60 将预测模型遍历k份测试集和训练集进行训练并关系重构,得到k个训练后的预测模型;
S70 遍历k个训练后的预测模型,获取目标关系的预测。
2.如权利要求1所述的基于深度图网络自编码器的无监督关系预测方法,其特征在于,所述S20具体方法为:
对实体对数据进行K折交叉验证,所述K折交叉验证是指将实体对数据集平均分成k份,假设实体对数据集为X,实体对数据集的总样本数为s,那么X被平均分成k份后,得到{X1,X2,...,Xk},且|Xi|’表示第i个数据集的样本数,依次把Xi作为评价模型的测试集,其余的Xj(j≠i,1≤j≤k)并成一个集合,作为训练集,以此将实体对数据划分成K个不同测试集和训练集的组合以供训练。
3.如权利要求2所述的基于深度图网络自编码器的无监督关系预测方法,其特征在于,所述S30具体方法为:
将测试集转换成测试矩阵Atest:假设测试集的样本数为p,训练集的样本数是t,则每个测试集和训练集组合的总样本数s=p+t,每个样本集共有n个节点,那么测试矩阵Atest={{xi,xj}|x≠j,x,j=1,...,n},其中{xi,xj}代表节点xi与节点xj连接而成的无向边,建立一个其中元素全为0的n×n的矩阵Atest,那么对于测试集中的任意一{xi,xj},令Atest中第xi行第xj列和第xj行,第xi列均取1;
将训练集转换成训练矩阵Atrain:训练集={{xi,xj}|x≠j,x,j=1,...,n},建立一个元素全为0的n×n矩阵Atrain,那么,对于训练集中任意一{xi,xj},我们令Atrain中第xi行,第xj列和第xj行,第xi列均取1。
4.如权利要求2所述的基于深度图网络自编码器的无监督关系预测方法,其特征在于,所述S40对训练集矩阵Atest规范化处理为邻接矩阵
Figure FDA0002196322540000021
的计算式如下:
Figure FDA0002196322540000022
Figure FDA0002196322540000023
其中,I是n×n的单位矩阵,即除了对角线元素是1之外,其他位置的元素均是0,
Figure FDA0002196322540000024
Figure FDA0002196322540000025
矩阵的度矩阵,它是一个对角矩阵,其对角线上的元素被定义为
Figure FDA0002196322540000026
Figure FDA0002196322540000027
表示
Figure FDA0002196322540000028
矩阵的第i行第j列的元素,dii表示度矩阵第i行第i列的元素。
5.如权利要求2所述的基于深度图网络自编码器的无监督关系预测方法,其特征在于,所述S50中的编码器定义如下:
Figure FDA00021963225400000210
Figure FDA00021963225400000212
Figure FDA00021963225400000213
Figure FDA00021963225400000214
编码器最后的输出是
Figure FDA00021963225400000215
Figure FDA00021963225400000216
用于解码器,
解码器定义如下:
Figure FDA00021963225400000217
其中,Y∈{I,A},当Y=A时,
Figure FDA00021963225400000218
和HY去除边,当Y=I时,和HY去除节点,Dropout(Y,p)是随机失活函数,它将以概率p对矩阵的每一个元素独立地进行置0,Y是n×n的节点特征矩阵,W1、W2是可训练的参数矩阵,W1的维度为n×d1,W2的维度为n×d2,d1、d2是预定值,是节点特征矩阵Y经过Dropout后的n×n节点特征矩阵,ReLu和Sigmoid是激活函数,具体的表达式如下:
ReLu(x)=max(x,0)
Figure FDA00021963225400000221
HY是经过第一层编码器
Figure FDA0002196322540000031
映射后的n×d1的矩阵输出,该矩阵的每一行是相应节点特征在d1维隐空间内的隐藏表示,故HY是一个节点隐藏表示矩阵,
Figure FDA0002196322540000032
是HY经过Dropout作用后的n×d1节点隐藏表示矩阵,ZY是经过编码器
Figure FDA0002196322540000033
映射后n×d2的矩阵输出,该矩阵的每一行是相应节点特征在d2维隐空间内的隐藏表示,故ZY是一个节点隐藏表示矩阵,
Figure FDA0002196322540000034
是ZY经过Dropout作用后得到的n×d2节点隐藏表示矩阵,
Figure FDA0002196322540000035
的意思是矩阵的转置,
Figure FDA0002196322540000037
是n×n的重构邻接矩阵。
6.如权利要求1所述的基于深度图网络自编码器的无监督关系预测方法,其特征在于,所述S60将预测模型遍历k份测试集和训练集进行训练并关系重构,得到k个训练后的预测模型的方法具体为:
S601 将n×n的单位矩阵I和测试矩阵Atest分别输入到编码器中,先令Y=I,编码器输出
Figure FDA0002196322540000038
再令Y=Atest,编码器输出
Figure FDA0002196322540000039
Figure FDA00021963225400000310
Figure FDA00021963225400000311
输入解码器中,得到两个重构邻接矩阵
Figure FDA00021963225400000313
并将重构邻接矩阵
Figure FDA00021963225400000314
与Atrain计算负对数似然得到LossI,将重构邻接矩阵
Figure FDA00021963225400000315
与Atrain计算负对数似然得到LossA,负对数似然计算公式如下:
Figure FDA00021963225400000317
LossTotal=LossI+ρ·LossA
采用ρ代表LossI与LossA间的重要性衡量,取预定阈值,若ρ>1,说明LossA比LossI重要;反之,则LossI比LossA重要;
计算LossI与LossA的和为LossTotal
S602 对LossTotal采用梯度反向传播算法极小化负对数似然,设定最大训练轮数T,迭代训练,模型训练完成,获取训练后预测模型;
S603 计算预测模型最终重构的邻接矩阵。
7.如权利要求6所述的基于深度图网络自编码器的无监督关系预测方法,其特征在于,所述S603具体为:
S6031 令编码器和解码器的Dropout的概率为0,停止Dropout;
S6032 把单位矩阵I和A分别输入到编码器中,先令Y=I,得到编码器的输出
Figure FDA0002196322540000041
后,再令Y=A,又得到编码器的输出
Figure FDA0002196322540000042
把编码器的两个节点隐藏表示矩阵:再输入到解码器中,得到的两个重构邻接矩阵
Figure FDA0002196322540000045
Figure FDA0002196322540000046
求两个重构邻接矩阵
Figure FDA0002196322540000047
Figure FDA0002196322540000048
的几何平均,得到模型最终的重构邻接矩阵
Figure FDA0002196322540000049
即:
8.如权利要求1所述的基于深度图网络自编码器的无监督关系预测方法,其特征在于,所述S70的具体方法为:
设置矩阵A对角线右侧元素中所有0的位置用集合C表示,然后对重构邻接矩阵
Figure FDA00021963225400000411
中所有属于集合C的位置上的元素进行降序排序,获取排序靠前的节点位置关系,将其视为预测的目标关系。
9.如权利要求1所述的基于深度图网络自编码器的无监督关系预测方法,其特征在于,所述S20之后,所述S30之前还包括:
S80为实体对数据集中每个实体赋予唯一的标识号。
CN201910849178.6A 2019-09-09 2019-09-09 一种基于深度图网络自编码器的无监督关系预测方法 Pending CN110717617A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910849178.6A CN110717617A (zh) 2019-09-09 2019-09-09 一种基于深度图网络自编码器的无监督关系预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910849178.6A CN110717617A (zh) 2019-09-09 2019-09-09 一种基于深度图网络自编码器的无监督关系预测方法

Publications (1)

Publication Number Publication Date
CN110717617A true CN110717617A (zh) 2020-01-21

Family

ID=69209741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910849178.6A Pending CN110717617A (zh) 2019-09-09 2019-09-09 一种基于深度图网络自编码器的无监督关系预测方法

Country Status (1)

Country Link
CN (1) CN110717617A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111541572A (zh) * 2020-04-26 2020-08-14 武汉理工大学 一种低约束条件的随机机会网络图的精确重构方法
CN111666772A (zh) * 2020-06-18 2020-09-15 南昌大学 一种基于深度图神经网络的关键词抽取方法
CN111814685A (zh) * 2020-07-09 2020-10-23 西安电子科技大学 基于双支路卷积自编码器的高光谱图像分类方法
CN111950594A (zh) * 2020-07-14 2020-11-17 北京大学 基于子图采样的大规模属性图上的无监督图表示学习方法和装置
CN112070422A (zh) * 2020-11-05 2020-12-11 广州竞远安全技术股份有限公司 一种基于神经网络的安全测评师派工系统及方法
CN113194493A (zh) * 2021-05-06 2021-07-30 南京大学 基于图神经网络的无线网络数据缺失属性恢复方法及装置
CN114387608A (zh) * 2022-03-24 2022-04-22 华南理工大学 一种联合卷积与图神经网络的表格结构识别方法
CN115631799A (zh) * 2022-12-20 2023-01-20 深圳先进技术研究院 样本表型的预测方法、装置、电子设备及存储介质

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111541572A (zh) * 2020-04-26 2020-08-14 武汉理工大学 一种低约束条件的随机机会网络图的精确重构方法
CN111541572B (zh) * 2020-04-26 2021-08-17 武汉理工大学 一种低约束条件的随机机会网络图的精确重构方法
CN111666772A (zh) * 2020-06-18 2020-09-15 南昌大学 一种基于深度图神经网络的关键词抽取方法
CN111814685A (zh) * 2020-07-09 2020-10-23 西安电子科技大学 基于双支路卷积自编码器的高光谱图像分类方法
CN111814685B (zh) * 2020-07-09 2024-02-09 西安电子科技大学 基于双支路卷积自编码器的高光谱图像分类方法
CN111950594A (zh) * 2020-07-14 2020-11-17 北京大学 基于子图采样的大规模属性图上的无监督图表示学习方法和装置
CN111950594B (zh) * 2020-07-14 2023-05-05 北京大学 基于子图采样的大规模属性图上的无监督图表示学习方法和装置
CN112070422A (zh) * 2020-11-05 2020-12-11 广州竞远安全技术股份有限公司 一种基于神经网络的安全测评师派工系统及方法
CN113194493A (zh) * 2021-05-06 2021-07-30 南京大学 基于图神经网络的无线网络数据缺失属性恢复方法及装置
CN114387608A (zh) * 2022-03-24 2022-04-22 华南理工大学 一种联合卷积与图神经网络的表格结构识别方法
CN115631799A (zh) * 2022-12-20 2023-01-20 深圳先进技术研究院 样本表型的预测方法、装置、电子设备及存储介质
CN115631799B (zh) * 2022-12-20 2023-03-28 深圳先进技术研究院 样本表型的预测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110717617A (zh) 一种基于深度图网络自编码器的无监督关系预测方法
CN107622182B (zh) 蛋白质局部结构特征的预测方法及系统
CN109036553B (zh) 一种基于自动抽取医疗专家知识的疾病预测方法
Xu et al. Bayesian variable selection and estimation for group lasso
US9129222B2 (en) Method and apparatus for a local competitive learning rule that leads to sparse connectivity
KR20210040248A (ko) 물질의 생성 구조-특성 역 계산 공동 설계
CN111080360B (zh) 行为预测方法、模型训练方法、装置、服务器及存储介质
CN109389151A (zh) 一种基于半监督嵌入表示模型的知识图谱处理方法和装置
Zhang et al. An interval weighed fuzzy c-means clustering by genetically guided alternating optimization
CN114118369B (zh) 一种基于群智能优化的图像分类卷积神经网络设计方法
CN109389171A (zh) 基于多粒度卷积降噪自动编码器技术的医疗图像分类方法
Li et al. Hilbert curve projection distance for distribution comparison
CN114880538A (zh) 基于自监督的属性图社团检测方法
CN111126560A (zh) 一种基于云遗传算法优化bp神经网络的方法
CN114880490A (zh) 一种基于图注意力网络的知识图谱补全方法
CN109214401A (zh) 基于层次化自动编码器的sar图像分类方法及装置
Zhang et al. Deep compression of probabilistic graphical networks
Baswade et al. A comparative study of k-means and weighted k-means for clustering
CN114037014A (zh) 基于图自编码器的引用网络聚类方法
Geleta et al. Deep variational autoencoders for population genetics
CN117093849A (zh) 一种基于自动生成模型的数字矩阵特征分析方法
CN116384471A (zh) 模型剪枝方法、装置、计算机设备、存储介质和程序产品
Termritthikun et al. Neural architecture search and multi-objective evolutionary algorithms for anomaly detection
CN114625886A (zh) 基于知识图谱小样本关系学习模型的实体查询方法及系统
Wu [Retracted] An Information Entropy Embedding Feature Selection Based on Genetic Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200121