CN110196995B - 一种基于带偏置随机游走的复杂网络特征提取方法 - Google Patents

一种基于带偏置随机游走的复杂网络特征提取方法 Download PDF

Info

Publication number
CN110196995B
CN110196995B CN201910359959.7A CN201910359959A CN110196995B CN 110196995 B CN110196995 B CN 110196995B CN 201910359959 A CN201910359959 A CN 201910359959A CN 110196995 B CN110196995 B CN 110196995B
Authority
CN
China
Prior art keywords
node
processing object
complex network
nodes
random walk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910359959.7A
Other languages
English (en)
Other versions
CN110196995A (zh
Inventor
公茂果
魏甜甜
王善峰
刘文枫
王麒翔
张明阳
李豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910359959.7A priority Critical patent/CN110196995B/zh
Publication of CN110196995A publication Critical patent/CN110196995A/zh
Application granted granted Critical
Publication of CN110196995B publication Critical patent/CN110196995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/18Network design, e.g. design based on topological or interconnect aspects of utility systems, piping, heating ventilation air conditioning [HVAC] or cabling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Abstract

本发明提供了一种基于带偏置随机游走的复杂网络特征提取方法,包括构建复杂网络;对复杂网络中的所有节点的文本数据进行处理,得到所有节点的段落向量;将复杂网络中的任一节点作为初始节点;将初始节点作为当前节点,计算当前节点与当前节点的每个连接节点之间转移概率,采样并选取得到采样的转移概率所对应的连接节点,重复上述操作得到n个采样的转移概率所对应的连接节点,由初始节点和n个采样的转移概率所对应的连接节点构成复杂网络中任一节点的带偏置的随机游走序列,总共得到复杂网络中任一节点的r个带偏置的随机游走序列,最终得到所有节点的特征向量;本发明能够有效提高复杂网络特征提取的效率,提高了网络分析任务的精度。

Description

一种基于带偏置随机游走的复杂网络特征提取方法
技术领域
本发明属于复杂网络技术领域,具体涉及一种基于带偏置随机游走的复杂网络特征提取方法。
背景技术
随着信息技术的广泛使用,社交网络、引用网络等复杂网络的分析任务变得异常重要。网络中的个体及其相互之间的关系可以抽象为复杂网络,其中节点可以代表复杂网络中的个体,边可以代表个体间的连接关系。复杂网络具有复杂的网络结构与丰富的节点信息。大规模网络中的节点数达数百万级别,但具有稀疏性,通常只有小部分节点相互连接;
复杂网络的特征提取方法吸引了越来越多学者的关注,受Skip-Gram模型的启发,Perozzi等人提出了一种名为DeepWalk的方法,将复杂网络中采样得到的随机游走序列作为词序列来学习节点的向量表示。但是该方法中随机游走序列的产生是完全随机的,没有考虑到节点的社区属性以及节点的文本信息对随机游走序列的影响,导致该方法在处理网络分析任务时精度较低。Tang等人提出LINE方法,利用复杂网络的一阶相似度和二阶相似度来抓住复杂网络的局部和全局结构特征;Cao等人提出了GraRep方法,此方法引入了结构矩阵,并且使用奇异值分解算法获得复杂网络中节点的基于全局结构的特征向量;但是LINE方法与GraRep方法仅考虑了复杂网络的结构信息,而忽略了伴随节点的丰富的文本信息,导致这些方法在处理网络分析任务时精度较低。Tu等人提出了CANE方法,根据节点不同的邻居,学习节点多样的特征向量;Yang等人提出了TADW方法,设计一个文本矩阵,采用矩阵分解方法分解这个矩阵得到节点的特征向量;CANE方法和TADW方法在利用复杂网络结构信息与节点的文本信息时,没有考虑到它们的共同作用,只是分别将两种信息得到的特征向量连接起来,导致这些方法在处理网络分析任务时精度较低。
发明内容
针对现有技术在处理网络分析任务时精度低的缺点,本申请的目的在于,提供了一种基于带偏置随机游走的复杂网络特征提取方法。
为了实现上述目的,本发明采取以下技术方案予以实现:
一种基于带偏置随机游走的复杂网络特征提取方法,具体包括以下步骤:
步骤1、构建复杂网络;
还包括以下步骤:
步骤2、对复杂网络中所有节点的文本数据进行训练,得到所有节点的段落向量;
步骤3、将复杂网络中的任一节点作为初始节点,将初始节点作为当前节点;
步骤4、以当前节点为处理对象,获取处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置;
通过所有节点的段落向量,计算得到处理对象与处理对象的每个连接节点之间的文本权重偏置;
通过处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置及处理对象与处理对象的每个连接节点之间的文本权重偏置,计算得到处理对象与处理对象的每个连接节点之间的转移概率;
采用别名采样方法对处理对象与处理对象的每个连接节点之间的转移概率进行采样,得到采样的转移概率;选取得到所述采样的转移概率所对应的连接节点;将采样的转移概率所对应的连接节点作为当前节点;
步骤5、重复执行步骤4n-1(n>1)次,直至选取得到n-1个采样的转移概率所对应的连接节点,此时共得到n个采样的转移概率所对应的连接节点;由初始节点和n个采样的转移概率所对应的连接节点构成所述复杂网络中任一节点的带偏置的随机游走序列;将初始节点作为当前节点;
步骤6,重复执行步骤4-5r-1(r>1)次,直至得到所述复杂网络中任一节点的r-1个带偏置的随机游走序列,此时共得到所述复杂网络中任一节点的r个带偏置的随机游走序列,从而得到所述复杂网络中所有节点的r个带偏置的随机游走序列;
步骤7、将所述复杂网络中所有节点的r个带偏置的随机游走序列输入到Skip-Gram模型,采用优化算法对Skip-Gram模型进行优化,得到所有节点的特征向量。
进一步的,所述步骤2中,采用Doc2vec模型对复杂网络中所有节点的文本数据进行训练,得到每个节点的段落向量。
进一步的,所述步骤4中获取处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置,具体包括:
当处理对象为初始节点时,将处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置均定义为1;
当处理对象不是初始节点时,采用公式(1)获取处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置;
Figure BDA0002046562760000041
其中,dlx(i)表示处理对象的前驱节点l与处理对象的第i个连接节点x之间的最短距离,dlx(i)∈{0,1,2},i为大于0的自然数;a(l,x(i))表示处理对象的前驱节点l与处理对象的第i个连接节点x之间的结构搜索偏置,a(l,x(i))∈[0,1];p表示概率参数,q表示程度参数,且p和q均为实数。
进一步的,所述步骤4中通过所有节点的段落向量,计算得到处理对象与处理对象的每个连接节点之间的文本权重偏置,具体采用公式(2)进行计算:
Figure BDA0002046562760000042
其中,t(v,x(i))表示处理对象v与处理对象的第i个连接节点x之间的文本权重偏置值,t(v,x(i))∈[0,1],i为大于0的自然数,
Figure BDA0002046562760000043
表示处理对象v的段落向量,
Figure BDA0002046562760000044
表示处理对象v的第i个连接节点x的段落向量,
Figure BDA0002046562760000045
表示段落向量
Figure BDA0002046562760000046
的模值,
Figure BDA0002046562760000047
为实数;
Figure BDA0002046562760000048
表示段落向量
Figure BDA0002046562760000049
的模值,
Figure BDA00020465627600000410
为实数。
进一步的,所述步骤4中通过处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置及处理对象与处理对象的每个连接节点之间的文本权重偏置,计算得到处理对象与处理对象的每个连接节点之间的转移概率,具体采用公式(3)进行计算:
π(v,x(i))=a(l,x(i))·t(v,x(i))·wvx(i) (3)
其中,π(v,x(i))表示处理对象v与处理对象的第i个连接节点x之间的转移概率,π(v,x(i))∈[0,1],i为大于0的自然数;wvx(i)表示处理对象v与处理对象的第i个连接节点x之间的权重值,wvx(i)为实数;a(l,x(i))表示处理对象v的前驱节点l与处理对象的第i个连接节点x之间的结构搜索偏置;t(v,x(i))表示处理对象v与处理对象的第i个连接节点x之间的文本权重偏置。
进一步的,所述步骤7中,采用的优化算法为随机梯度下降算法。
与现有的技术相比,本发明的有益效果如下:
1、本发明通过能够探索复杂网络节点多样邻居的结构搜索偏置、能够表达节点的文本数据之间相似程度的文本权重偏置,共同指导获取更有效的带偏置的随机游走序列,最终得到节点的特征向量;相比于现有方法,本发明具有更好的鲁棒性和灵活性,能够有效提高复杂网络特征提取的效率,得到的节点的特征向量在处理网络分析任务时,具有很高的准确度,提高了网络分析任务的精度。
2、本发明中结构搜索偏置利用概率参数和程度参数共同探索复杂网络中节点多样的邻居,充分利用网络结构的同质性与结构等价性,使得提取的属于相似的社区结构、具有相似结构属性的节点的特征向量在所映射的低维向量空间中的距离更加紧密;采用Doc2vec模型训练复杂网络中所有节点的文本数据,来得到文本权重偏置,Doc2vec模型能够挖掘到文本数据的深层语义信息,使最终得到的节点的特征向量质量更好,在处理网络分析任务时具有更高的准确度。
附图说明
图1是本发明的流程图;
图2为本发明与现有方法在Cora网络上的节点聚类实验的NMI对比图;
图3为本发明与现有方法在CiteSeer-M6网络上的节点聚类实验的NMI对比图。
具体实施方式
以下结合附图和实施例对本发明的技术方案进行详细说明。
实施例
如图1所示,本发明提供了一种基于带偏置随机游走的复杂网络特征提取方法,具体包括以下步骤:
步骤1、构建复杂网络;
具体的,由多个节点、节点之间连接的边及节点的文本数据构成复杂网络,所述节点为现实世界中存在的复杂系统的实体或元素;所述节点之间连接的边为节点之间的相互关系;在所述复杂网络中节点之间的边没有方向;
本实施例中所述复杂网络直接采用现有的复杂网络Cora或CiteSeer-M6;
步骤2、对复杂网络中所有节点的文本数据进行训练,得到所有节点的段落向量;
步骤3、将复杂网络中的任一节点作为初始节点,将初始节点作为当前节点v;
步骤4、以当前节点为处理对象,获取处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置;
通过所有节点的段落向量,计算得到处理对象与处理对象的每个连接节点之间的文本权重偏置;
通过处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置及处理对象与处理对象的每个连接节点之间的文本权重偏置,计算得到处理对象与处理对象的每个连接节点之间的转移概率;
采用别名采样方法对处理对象与处理对象的每个连接节点之间的转移概率进行采样,得到采样的转移概率;选取得到所述采样的转移概率所对应的连接节点;将采样的转移概率所对应的连接节点作为当前节点;
所述当前节点的连接节点是指复杂网络中,与当前节点有连接关系的节点;所述当前节点的前驱节点是指当前节点的前一个当前节点;
步骤5、重复执行步骤4n-1(n>1)次,直至选取得到n-1个采样的转移概率所对应的连接节点,此时共得到n个采样的转移概率所对应的连接节点;由初始节点和n个采样的转移概率所对应的连接节点构成所述复杂网络中任一节点的带偏置的随机游走序列;将初始节点作为当前节点;所述n个采样的转移概率所对应的连接节点包括选取得到的采样的转移概率所对应的连接节点和n-1个采样的转移概率所对应的连接节点;
步骤6、重复执行步骤4至步骤5r-1(r>1)次,直至得到所述复杂网络中任一节点的r-1个带偏置的随机游走序列,此时共得到所述复杂网络中任一节点的r个带偏置的随机游走序列,从而得到所述复杂网络中的所有节点的r个带偏置的随机游走序列;
所述复杂网络中任一节点的r个带偏置的带偏置的随机游走序列包括构成的所述复杂网络中任一节点的带偏置的随机游走序列和得到的所述复杂网络中任一节点的r-1个带偏置的随机游走序列;
步骤7、将所述复杂网络中的所有节点的r个带偏置的随机游走序列输入到Skip-Gram模型,采用优化算法对Skip-Gram模型进行优化,得到所有节点的特征向量。
本发明中采用别名采样方法,在时间复杂度仅为O(1)的情况下,对处理对象与其每个连接节点之间的转移概率进行采样,转移概率越大,被采样的可能性越大。由于别名采样方法进行采样具有一定的随机性,采样值可以为转移概率中的任意值,使得得到复杂网络中任一节点的r个带偏置的随机游走序列不相同。
本发明提出的基于带偏置随机游走的复杂网络特征提取方法,通过能够探索复杂网络节点多样邻居的结构搜索偏置、能够表达节点的文本数据之间相似程度的文本权重偏置,共同指导获取更有效的带偏置的随机游走序列,最终得到节点的特征向量;相比于现有方法,本发明具有更好的鲁棒性和灵活性,能够有效提高复杂网络特征提取的效率,得到的节点的特征向量在处理网络分析任务时,具有很高的准确度,提高了网络分析任务的精度。
具体的,所述步骤2中,采用Doc2vec模型对复杂网络中所有节点的文本数据进行训练,得到所有节点的段落向量
Figure BDA0002046562760000081
具体的,所述步骤4中获取处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置,具体包括:
当处理对象为初始节点时,由于当前节点没有前驱节点,处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置均定义为1;
当处理对象不是初始节点时,采用公式(1)获取处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置;
Figure BDA0002046562760000091
其中,dlx(i)表示处理对象的前驱节点l与处理对象的第i个连接节点x之间的最短距离,dlx(i)∈{0,1,2},i为大于0的自然数;a(l,x(i))表示处理对象的前驱节点l与处理对象的第i个连接节点x之间的结构搜索偏置,a(l,x(i))∈[0,1];p表示概率参数,q表示程度参数,且p和q均为实数。
当概率参数p取值小于1且小于程度参数q时,控制游走返回前驱节点,保持游走的步伐靠近起始节点;当概率参数p取值大于1且大于程度参数q时,则尽量避免在接下来的几步中,游走还徘徊在已经遍历过的节点,鼓励适度的探索,避免了采样中的两跳冗余;当概率参数q大于1,则游走的步伐偏向于靠近前驱节点。这样的遍历获得起始节点的局部结构和近似广度优先搜索行为;相反,当概率参数q小于1,则游走更倾向于访问更远离前驱节点的节点,反映了深度优先搜索,鼓励外向探索。
具体的,所述步骤4中通过所有节点的段落向量,计算得到处理对象与处理对象的每个连接节点之间的文本权重偏置,具体采用公式(2)进行计算:
Figure BDA0002046562760000092
其中,t(v,x(i))表示处理对象v与处理对象的第i个连接节点x之间的文本权重偏置值,t(v,x(i))∈[0,1],i为大于0的自然数,
Figure BDA0002046562760000101
表示处理对象v的段落向量,
Figure BDA0002046562760000102
表示处理对象v的第i个连接节点x的段落向量,
Figure BDA0002046562760000103
表示段落向量
Figure BDA0002046562760000104
的模值,
Figure BDA0002046562760000105
为实数;
Figure BDA0002046562760000106
表示段落向量
Figure BDA0002046562760000107
的模值,
Figure BDA0002046562760000108
为实数。
考虑到Doc2vec模型能够提取文本深层语义信息,本实施例采用Doc2vec模型中的PV-DBOW算法对复杂网络中所有节点的文本数据进行训练;将复杂网络中每个节点的文本数据映射为固定长度的真实值向量,称此向量为段落向量
Figure BDA0002046562760000109
节点附属的文本信息体现出节点在内容上的属性,若两个节点文本的内容相似,那么这两个节点的相关性较强,映射到低维空间时,其向量表示距离应该相近,因此采用余弦距离度量向量表示之间的相似度。
具体的,所述步骤4中通过处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置及处理对象与处理对象的连接节点之间的文本权重偏置,具体采用公式(3)计算得到处理对象与处理对象的每个连接节点之间的转移概率,
π(v,x(i))=a(l,x(i))·t(v,x(i))·wvx(i) (3)
其中,π(v,x(i))表示处理对象v与处理对象的第i个连接节点x之间的转移概率,π(v,x(i))∈[0,1],i为大于0的自然数;wvx(i)表示处理对象v与处理对象的第i个连接节点x之间的权重值,wvx(i)为实数;a(l,x(i))表示处理对象v的前驱节点l与处理对象的第i个连接节点x之间的结构搜索偏置;t(v,x(i))表示处理对象v与处理对象的第i个连接节点x之间的文本权重偏置。
π(v,x(i))的值越大,代表处理对象的前驱节点l与处理对象的第i个连接节点x之间的结构搜索偏置值和处理对象与处理对象的第i个连接节点x之间的文本权重偏置值越高。
本方式中,所述的结构搜索偏置利用概率参数和程度参数共同探索复杂网络中节点多样的邻居,充分利用网络结构的同质性与结构等价性,使得提取的属于相似的社区结构、具有相似结构角色的节点的特征向量在所映射的低维特征空间中的距离更加紧密;采用Doc2vec模型训练复杂网络中所有节点的文本数据,得到文本权重偏置,Doc2vec模型能够挖掘到文本数据的深层语义信息,使最终得到的节点的特征向量质量更好,在处理网络分析任务时具有更高的准确度。
具体的,所述步骤7中,采用的优化算法为随机梯度下降算法;
所述Skip-Gram模型的目标函数为:
Figure BDA0002046562760000111
其中,V表示复杂网络中的节点集合,u表示节点集合中的任意一节点,f表示从节点到低维向量表示的映射函数;Zu表示节点u的配分函数;Ns(u)表示节点u的所有邻居节点构成的集合,邻居节点包括与节点u相连接的节点,以及与节点u属性相同的节点;ni表示集合Ns(u)中的第i个节点;Nt(u)表示节点u与复杂网络中其他节点之间的文本权重偏置值中较高值的k个节点的集合,k>0;nj表示集合Nt(u)中的第j个节点。
为了说明本发明的有效性和适应性,将本发明与现有方法(DeepWalk、LINE、GraRep、TADW、CANE)在真实世界中两个不同规模大小的复杂网络Cora和CiteSeer-M6上获得的所有节点的特征向量进行对比实验,网络规模如表1所示:
表1.复杂网络结构参数
网络名称 节点数 边数 标签类别
Cora 2,277 5,214 7
CiteSeer-M6 4,398 5,636 6
第一部分:本发明与现有方法在Cora和CiteSeer-M6网络上获得的所有节点的特征向量进行节点分类实验;随机采样30%、50%、70%和90%的节点的特征向量作为训练数据,使用逻辑回归算法对训练数据进行处理,得到4个分类器;分别将剩余的70%、50%、30%、10%的节点的特征向量输入到4个分类器中进行测试,得到节点的预测标签类别;将所得到的节点的预测标签类别与真实的标签类别进行对比,计算得到如表2和3所示的Micro-F1(微观F1)值,当Micro-F1值越高,代表提取到的特征向量的效果越好。从表2和3可以看出,本发明提出的基于带偏置随机游走的复杂网络特征提取算法所得到节点的特征向量,分别采用不同比例的特征向量在处理分类器时,本发明的Micro-F1值均高于现有方法,在输入比例为90%时,本发明在Cora网络上得到的特征向量达到了85.83%的准确率,在CiteSeer-M6网络上达到85.61%的准确率;因此,本发明在Cora和CiteSeer-M6网络上得到的特征向量有效提高了在处理网络任务时的精度。
表2.在Cora网络上节点分类实验的Micro-F1值
Figure BDA0002046562760000131
表3.在CiteSeer-M6网络上节点分类实验的Micro-F1值
Figure BDA0002046562760000132
第二部分:本发明与现有方法在Cora、CiteSeer-M6网络上获得的所有节点的特征向量进行节点聚类实验。分别将本发明与现有方法在Cora、CiteSeer-M6网络上得到的所有节点的特征向量作为训练数据,输入到k-means算法中获得节点的预测标签,以节点的标签类别作为真实值,将所得到的节点的预测标签与真实的标签类别进行对比,计算NMI(标准化互信息指标)值来评价聚类效果,NMI值越高,代表提取到的特征向量的效果越好;
为了避免测试结果的偶然性,分别将本发明与现有方法进行十次节点聚类实验,得到如图2所示的本发明与现有方法在Cora网络上的节点聚类实验的NMI对比图,及如图3所示的本发明与现有方法在CiteSeer-M6网络上的节点聚类实验的NMI对比图;从图2和3可以看出,本发明在Cora和CiteSeer-M6网络上提取的节点的特征向量的聚类效果均优于现有方法,达到令人满意的聚类效果,特别是本发明相比于DeepWalk方法,本发明得到节点的特征向量的聚类准确率提升了35%,表明本发明提取的特征向量在处理网络任务时具有较高的精度。

Claims (6)

1.一种基于带偏置随机游走的复杂网络特征提取方法,具体包括以下步骤:
步骤1、构建复杂网络;
其特征在于,还包括以下步骤:
步骤2、对复杂网络中所有节点的文本数据进行训练,得到所有节点的段落向量;
步骤3、将复杂网络中的任一节点作为初始节点,将初始节点作为当前节点;
步骤4、以当前节点为处理对象,获取处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置;
通过所有节点的段落向量,计算得到处理对象与处理对象的每个连接节点之间的文本权重偏置;
通过处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置及处理对象与处理对象的每个连接节点之间的文本权重偏置,计算得到处理对象与处理对象的每个连接节点之间的转移概率;
采用别名采样方法对处理对象与处理对象的每个连接节点之间的转移概率进行采样,得到采样的转移概率;选取得到所述采样的转移概率所对应的连接节点;将采样的转移概率所对应的连接节点作为当前节点;
步骤5、重复执行步骤4n-1(n>1)次,直至选取得到n-1个采样的转移概率所对应的连接节点,此时共得到n个采样的转移概率所对应的连接节点;由初始节点和n个采样的转移概率所对应的连接节点构成所述复杂网络中任一节点的带偏置的随机游走序列;将初始节点作为当前节点;
步骤6,重复执行步骤4-5r-1(r>1)次,直至得到所述复杂网络中任一节点的r-1个带偏置的随机游走序列,此时共得到所述复杂网络中任一节点的r个带偏置的随机游走序列,从而得到所述复杂网络中所有节点的r个带偏置的随机游走序列;
步骤7、将所述复杂网络中所有节点的r个带偏置的随机游走序列输入到Skip-Gram模型,采用优化算法对Skip-Gram模型进行优化,得到所有节点的特征向量。
2.如权利要求1所述的基于带偏置随机游走的复杂网络特征提取方法,其特征在于,所述步骤2中,采用Doc2vec模型对复杂网络中所有节点的文本数据进行训练,得到每个节点的段落向量。
3.如权利要求1所述的基于带偏置随机游走的复杂网络特征提取方法,其特征在于,所述步骤4中获取处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置,具体包括:
当处理对象为初始节点时,将处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置均定义为1;
当处理对象不是初始节点时,采用公式(1)获取处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置;
Figure FDA0002046562750000021
其中,dlx(i)表示处理对象的前驱节点l与处理对象的第i个连接节点x之间的最短距离,dlx(i)∈{0,1,2},i为大于0的自然数;a(l,x(i))表示处理对象的前驱节点l与处理对象的第i个连接节点x之间的结构搜索偏置,a(l,x(i))∈[0,1];p表示概率参数,q表示程度参数,且p和q均为实数。
4.如权利要求1所述的基于带偏置随机游走的复杂网络特征提取方法,其特征在于,所述步骤4中通过所有节点的段落向量,计算得到处理对象与处理对象的每个连接节点之间的文本权重偏置,具体采用公式(2)进行计算:
Figure FDA0002046562750000031
其中,t(v,x(i))表示处理对象v与处理对象的第i个连接节点x之间的文本权重偏置值,t(v,x(i))∈[0,1],i为大于0的自然数;
Figure FDA0002046562750000032
表示处理对象v的段落向量,
Figure FDA0002046562750000033
表示处理对象v的第i个连接节点x的段落向量;
Figure FDA0002046562750000034
表示段落向量
Figure FDA0002046562750000035
的模值,
Figure FDA0002046562750000036
为实数;
Figure FDA0002046562750000037
表示段落向量
Figure FDA0002046562750000038
的模值,
Figure FDA0002046562750000039
为实数。
5.如权利要求1所述的基于带偏置随机游走的复杂网络特征提取方法,其特征在于,所述步骤4中通过处理对象的前驱节点与处理对象的每个连接节点之间的结构搜索偏置及处理对象与处理对象的每个连接节点之间的文本权重偏置,计算得到处理对象与处理对象的每个连接节点之间的转移概率,具体采用公式(3)进行计算:
π(v,x(i))=a(l,x(i))·t(v,x(i))·wvx(i) (3)
其中,π(v,x(i))表示处理对象v与处理对象的第i个连接节点x之间的转移概率,π(v,x(i))∈[0,1],i为大于0的自然数;wvx(i)表示处理对象v与处理对象的第i个连接节点x之间的权重值,wvx(i)为实数;a(l,x(i))表示处理对象v的前驱节点l与处理对象的第i个连接节点x之间的结构搜索偏置;t(v,x(i))表示处理对象v与处理对象的第i个连接节点x之间的文本权重偏置。
6.如权利要求1所述的基于带偏置随机游走的复杂网络特征提取方法,其特征在于,所述步骤7中,采用的优化算法为随机梯度下降算法。
CN201910359959.7A 2019-04-30 2019-04-30 一种基于带偏置随机游走的复杂网络特征提取方法 Active CN110196995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910359959.7A CN110196995B (zh) 2019-04-30 2019-04-30 一种基于带偏置随机游走的复杂网络特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910359959.7A CN110196995B (zh) 2019-04-30 2019-04-30 一种基于带偏置随机游走的复杂网络特征提取方法

Publications (2)

Publication Number Publication Date
CN110196995A CN110196995A (zh) 2019-09-03
CN110196995B true CN110196995B (zh) 2022-12-06

Family

ID=67752206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910359959.7A Active CN110196995B (zh) 2019-04-30 2019-04-30 一种基于带偏置随机游走的复杂网络特征提取方法

Country Status (1)

Country Link
CN (1) CN110196995B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597665B (zh) * 2020-05-15 2023-05-23 天津科技大学 一种基于网络分区的层次网络嵌入方法
CN112347260A (zh) * 2020-11-24 2021-02-09 深圳市欢太科技有限公司 数据处理方法、装置以及电子设备
CN112925627B (zh) * 2021-03-25 2022-03-29 上海交通大学 基于图形处理器的图采样和随机游走加速方法及系统
CN114826921A (zh) * 2022-05-05 2022-07-29 苏州大学应用技术学院 基于抽样子图的网络资源动态分配方法、系统及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7103524B1 (en) * 2001-08-28 2006-09-05 Cadence Design Systems, Inc. Method and apparatus for creating an extraction model using Bayesian inference implemented with the Hybrid Monte Carlo method
WO2012066951A1 (ja) * 2010-11-18 2012-05-24 ソニー株式会社 データ処理装置、データ処理方法、およびプログラム
WO2016090877A1 (zh) * 2014-12-09 2016-06-16 深圳大学 一种广义最大度随机游走图抽样算法
CN109308497A (zh) * 2018-10-27 2019-02-05 北京航空航天大学 一种基于多标签网络的多向量表示学习方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7103524B1 (en) * 2001-08-28 2006-09-05 Cadence Design Systems, Inc. Method and apparatus for creating an extraction model using Bayesian inference implemented with the Hybrid Monte Carlo method
WO2012066951A1 (ja) * 2010-11-18 2012-05-24 ソニー株式会社 データ処理装置、データ処理方法、およびプログラム
WO2016090877A1 (zh) * 2014-12-09 2016-06-16 深圳大学 一种广义最大度随机游走图抽样算法
CN109308497A (zh) * 2018-10-27 2019-02-05 北京航空航天大学 一种基于多标签网络的多向量表示学习方法

Also Published As

Publication number Publication date
CN110196995A (zh) 2019-09-03

Similar Documents

Publication Publication Date Title
CN109902145B (zh) 一种基于注意力机制的实体关系联合抽取方法和系统
CN110196995B (zh) 一种基于带偏置随机游走的复杂网络特征提取方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
Trisedya et al. Entity alignment between knowledge graphs using attribute embeddings
CN108846029B (zh) 基于知识图谱的情报关联分析方法
CN111666406B (zh) 基于自注意力的单词和标签联合的短文本分类预测方法
CN110765277B (zh) 一种基于知识图谱的移动端的在线设备故障诊断方法
CN111651447B (zh) 一种智能建造全寿期数据处理分析管控系统
CN107239512B (zh) 一种结合评论关系网络图的微博垃圾评论识别方法
CN112214335B (zh) 基于知识图谱和相似度网络的Web服务发现方法
CN110633365A (zh) 一种基于词向量的层次多标签文本分类方法及系统
CN111160564A (zh) 一种基于特征张量的中文知识图谱表示学习方法
CN113486667A (zh) 一种基于实体类型信息的医疗实体关系联合抽取方法
CN113743119B (zh) 中文命名实体识别模块、方法、装置及电子设备
CN116127095A (zh) 一种序列模型与知识图谱结合的问答方法
Lai et al. Transconv: Relationship embedding in social networks
Jiang et al. Boosting facial expression recognition by a semi-supervised progressive teacher
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN109145083A (zh) 一种基于深度学习的候选答案选取方法
CN112417170B (zh) 面向不完备知识图谱的关系链接方法
CN114254093A (zh) 多空间知识增强的知识图谱问答方法及系统
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN112163069A (zh) 一种基于图神经网络节点特征传播优化的文本分类方法
CN110516026A (zh) 基于图正则化非负矩阵分解的在线单模态哈希检索方法
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant