CN107291803A - 一种融合多类型信息的网络表示方法 - Google Patents
一种融合多类型信息的网络表示方法 Download PDFInfo
- Publication number
- CN107291803A CN107291803A CN201710337894.7A CN201710337894A CN107291803A CN 107291803 A CN107291803 A CN 107291803A CN 201710337894 A CN201710337894 A CN 201710337894A CN 107291803 A CN107291803 A CN 107291803A
- Authority
- CN
- China
- Prior art keywords
- node
- vector
- network
- sample
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种融合多类型信息的网络表示方法,包括:步骤1,读取网络结构信息及节点属性信息;步骤2,将所述节点属性信息转换为向量;步骤3,利用降维技术对所述向量进行降维,生成属性特征向量;步骤4,根据所述网络结构信息,生成对应的矩阵G(V,E),其中V表示节点集合,E表示边集合;步骤5,初始化所述节点属性特征向量;步骤6,利用随机游走和滑动窗口方法构建训练样本;步骤7,调整节点向量值,以获得最大化条件概率;步骤8,输出调整后的节点向量作为网络表示。本发明能够高效地融合网络中的多种类型信息,学习到的网络表示可以用于复杂网络的理解挖掘。
Description
技术领域
本发明一般涉及网络中的随机游走技术、维度规约方法及最优化方法,特别是批量梯度下降方法。
背景技术
随着技术的迅速发展,各种大型的网络如雨后春笋般涌现,信息技术行业往往面临着对各种复杂网络的理解挖掘。复杂网络包括现有的社交网络(微信好友之间的关系)、文献引用网络(Citeseer、Cora、PubMed)等,而理解挖掘包括但不限于节点分类、聚类,边预测,网络主题挖掘等。比如我们可以根据微信好友之间的关系构建一张网络,通过理解挖掘,为用户推荐与其相似的用户,这里用到边预测等技术。理解挖掘需要尽量多地利用网络中提供的信息,包括网络结构信息和节点属性信息等。融合多种信息有利于提高理解挖掘的精度。
然而目前的网络挖掘,主要存在以下几个难点:1、高维度:大型网络有上亿个节点,如果不进行降维,直接利用One-hot的表示方法,将会容易导致维度灾难;2、信息源多:除了网络结构信息,还会存在节点相关的属性信息,边相关的属性信息,简单的对这些信息进行拼接,效果并不是很理想,如何有效地融合多类型信息成为了急需解决的问题;3、高度稀疏:节点之间的边并不是很多,因此网络一般都是高度稀疏的,一般的理解挖掘方法难以处理这种高度稀疏的数据。
现有的方法中,还没有一个有效的方法能够高效地解决上述诸多问题。Planetoid试图将多种信息源进行融合,然而使用了半监督的方法进行融合,导致学习出来的网络表示受限于节点标签信息,无法用于无标签的网络表示学习。此外,TADW方法则通过矩阵分解的方式尝试将两种信息源进行融合,但是不够直接,没办法给出比较圆满的解释。综上,现有的网络表示学习方法的主要局限性就是没办法直接高效地将两种信息源进行融合,学习网络表示。因此,需要对现有技术进行改进。
发明内容
本发明提供一种融合多类型信息的网络表示方法,以解决现有技术中,没办法有效融合多种信息源学习网络表示的缺点。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现。
提供一种融合多类型信息的网络表示方法,包括:步骤1,读取网络结构信息及节点属性信息;步骤2,将所述节点属性信息转换为向量;步骤3,利用降维技术对所述向量进行降维,生成属性特征向量;步骤4,根据所述网络结构信息,生成对应的矩阵G(V,E),其中V表示节点集合,E表示边集合;步骤5,初始化所述节点属性特征向量;步骤6,结合随机游走和滑动窗口法构建训练样本;步骤7,调整节点向量值,以获得最大化条件概率;步骤8,输出调整后的节点向量作为网络表示。
优选地,所述步骤6,利用随机游走和滑动窗口方法构建训练样本包括:步骤61,依次取网络中的每个节点,作为随机游走路径的当前节点;步骤62,从游走路径当前节点的邻居节点中随机抽取一个节点,并把它添加到游走路径的最后,并更新为当前节点;步骤63,重复上述过程,直至游走路径的长度等于自定义数值r(r>0);步骤64,生成的所有路径存放在集合S中,其中集合的大小等于节点的数量;步骤65,根据集合S,按照一定规则为步骤2中的所有元素构建正样本,每个正样本都是一个三元对,所有正样本存放在正样本集合中;步骤66,为正样本集合中的每个样本,构建负样本,每个负样本也是一个三元对,存放在负样本集合中;步骤67,合并上述正样本集合和负样本集合,以获取训练样本。
优选地,所述步骤7,包括;步骤71,将所述训练样本分成若干份;步骤72,利用批量梯度下降方法,计算上述每份样本的梯度,并更新节点向量。
与现有技术相比,本发明具有如下优点和技术效果:通过降维技术将节点属性信息进行降维,并且通过最大化条件概率使得学习到的网络表示向量有效地融合了多种信息源,克服了之前方法存在的不足与局限性。而且学习到的向量是低维度的,解决了网络理解挖掘中存在的问题:高维度、高度稀疏。学习到的向量可以直接计算节点之间的相似度,从而解决了相似度度量的问题。
附图说明
为了更清楚地说明本发明实施例技术中的技术方案,下面将对实施例技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为实施方式中融合多类型信息的网络表示方法的流程图。
具体实施方式
以下结合附图对本发明的实施方式作进一步说明,但本发明的实施不限于此。
如图1,融合多类型信息的网络表示方法的主要流程包括以下步骤:
步骤1,读入网络结构信息(边)及节点属性信息,其中节点属性信息包括节点内容,标签等。
步骤2,将读取的属性信息表示为向量。
步骤3,通过降维技术对步骤2中的向量进行降维,生成属性特征向量。
步骤4,根据网络结构信息,生成对应的网络G(V,E),V是节点集合,E是边集合。
步骤5,随机初始化节点向量,其中长度等于节点属性特征向量。
步骤6,利用随机游走和滑动窗口方法,构建训练样本。
步骤7,调整节点向量,已获得最大化条件概率P,其中最大化条件概率P为周围节点的属性特征向量与当前节点的节点向量的比值。
步骤8,输出调整后的节点向量作为网络表示。
优选地,步骤6包括以下步骤:
步骤61,依次取网络中的每个节点,作为随机游走路径的当前节点。
步骤62,从游走路径当前节点的邻居节点中随机抽取一个节点,并把它添加到游走路径的最后,并更新为当前节点。
步骤63,重复上述过程,直至游走路径的长度等于r(r>0,由用户指定)。
步骤64,将生成的所有路径存放在集合S中,其中集合的大小等于节点的数量。
步骤65,令集合D0和D1为空集;从步骤(b)生成的集合S中取一个元素出来,记为p;依次从p中取出一个节点,记为vi;将在p中距离vi长度小于w(w:上下文窗口,大小由用户指定)的每一个节点vj取出来,构建三元对(vi,vj,1)并添加到集合D1中;重复上述步骤,直至处理完S中的每一个元素。
步骤66,从上述步骤生成的集合D1中,依次取出一个三元对,记为(vi,vj,1);对于每个三元对(vi,vj,1),从所有节点中随机抽取N个节点,N由用户指定,抽取的每个节点vc与vi构成一个三元对(vi,vc,-1),作为(vi,vj,1)对应的负样本并将其添加到集合D0中;重复上述处理,直至处理完D1中的每一个元素。
步骤67,合并集合D1和D0,合并后的集合记为D,D即为训练样本。
优选地,步骤7包括以下步骤:
步骤71,将步骤6中生成的训练样本D分割成b份(b由用户指定),第i份记作Di;将条件概率P(周围节点的属性特征向量|当前节点的网络表示向量)公式化表示为:
其中ψj表示节点j的属性特征向量,φi表示节点i的网络表示向量。由于公式中的分母部分计算时间复杂度很高,因此,本发明采用负采样的方法,将其转换为如下代理函数:
其中γ表示c是否为i的正样本,若γ=1则表示c是i的正样本,否则,若γ=-1则表示c是i的负样本,σ(x)=1/(1+exp(-x))是一个sigmoid函数。最后,目标函数公式化为:
步骤72,对于每份训练样本Di,计算目标函数关于Φ的梯度并根据公式:进行更新。其中η是学习率,由用户指定。
Claims (3)
1.一种融合多类型信息的网络表示方法,包括:
步骤1,读取网络结构信息及节点属性信息;
步骤2,将所述节点属性信息转换为向量;
步骤3,利用降维技术对所述向量进行降维,生成属性特征向量;
步骤4,根据所述网络结构信息,生成对应的矩阵G(V,E),其中V表示节点集合,E表示边集合;
步骤5,初始化所述属性特征向量;
步骤6,结合随机游走和滑动窗口法构建训练样本;
步骤7,调整节点向量值,以获得最大化条件概率;
步骤8,输出调整后的节点向量作为网络表示。
2.根据权利要求1所述的融合多类型信息的网络表示方法,其中所述步骤6,利用随机游走和滑动窗口法方法构建训练样本包括:
步骤61,依次取网络中的每个节点,作为随机游走路径的当前节点;
步骤62,从游走路径当前节点的邻居节点中随机抽取一个节点,并把它添加到游走路径的最后,并更新为当前节点;
步骤63,重复上述过程,直至游走路径的长度等于自定义数值r(r>0);
步骤64,生成的所有路径存放在集合S中,其中集合的大小等于节点的数量;
步骤65,根据集合S,按照一定规则为步骤2中的所有元素构建正样本,每个正样本都是一个三元对,所有正样本存放在正样本集合中;
步骤66,为正样本集合中的每个样本,构建负样本,每个负样本也是一个三元对,存放在负样本集合中;
步骤67,合并上述正样本集合和负样本集合,以获取训练样本。
3.根据权利要求1或2所述的融合多类型信息的网络表示方法,其中所述步骤7,调整节点向量值,以获得最大化条件概率包括;
步骤71,将所述训练样本分成若干份;
步骤72,利用批量梯度下降方法,计算上述每份样本的梯度,并更新节点向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710337894.7A CN107291803A (zh) | 2017-05-15 | 2017-05-15 | 一种融合多类型信息的网络表示方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710337894.7A CN107291803A (zh) | 2017-05-15 | 2017-05-15 | 一种融合多类型信息的网络表示方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107291803A true CN107291803A (zh) | 2017-10-24 |
Family
ID=60095310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710337894.7A Pending CN107291803A (zh) | 2017-05-15 | 2017-05-15 | 一种融合多类型信息的网络表示方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107291803A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416535A (zh) * | 2018-03-27 | 2018-08-17 | 中国科学技术大学 | 基于深度学习的专利价值评估的方法 |
CN109189936A (zh) * | 2018-08-13 | 2019-01-11 | 天津科技大学 | 一种基于网络结构和语义相关性度量的标签语义学习方法 |
CN109460427A (zh) * | 2018-11-08 | 2019-03-12 | 广东工业大学 | 一种面向用户动态偏好挖掘的节目嵌入方法 |
CN109639469A (zh) * | 2018-11-30 | 2019-04-16 | 中国科学技术大学 | 一种联合学习稀疏属性网络表征方法及系统 |
CN109800342A (zh) * | 2018-12-13 | 2019-05-24 | 中国科学院信息工程研究所 | 一种基于节点影响力的多关系网络数据量化表示方法 |
CN109829500A (zh) * | 2019-01-31 | 2019-05-31 | 华南理工大学 | 一种职位构图和自动聚类方法 |
CN110377822A (zh) * | 2019-06-25 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 用于网络表征学习的方法、装置及电子设备 |
CN110866190A (zh) * | 2019-11-18 | 2020-03-06 | 支付宝(杭州)信息技术有限公司 | 训练用于表征知识图谱的图神经网络模型的方法及装置 |
WO2020057283A1 (zh) * | 2018-09-20 | 2020-03-26 | 阿里巴巴集团控股有限公司 | 无监督模型评估方法、装置、服务器及可读存储介质 |
WO2020147595A1 (zh) * | 2019-01-16 | 2020-07-23 | 阿里巴巴集团控股有限公司 | 获取实体间关系表达的方法、系统和设备、广告召回系统 |
CN111597397A (zh) * | 2020-05-13 | 2020-08-28 | 云南电网有限责任公司电力科学研究院 | 适用于多层融合复杂网络的重要节点组的挖掘方法 |
CN111815403A (zh) * | 2020-06-19 | 2020-10-23 | 北京石油化工学院 | 商品推荐方法、装置及终端设备 |
CN112417236A (zh) * | 2020-10-29 | 2021-02-26 | 汉海信息技术(上海)有限公司 | 训练样本获取方法、装置、电子设备及存储介质 |
CN114650171A (zh) * | 2022-02-24 | 2022-06-21 | 中国电子科技集团公司第十五研究所 | 一种多层融合信标检测与路径还原方法和装置 |
-
2017
- 2017-05-15 CN CN201710337894.7A patent/CN107291803A/zh active Pending
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416535A (zh) * | 2018-03-27 | 2018-08-17 | 中国科学技术大学 | 基于深度学习的专利价值评估的方法 |
CN108416535B (zh) * | 2018-03-27 | 2021-08-13 | 中国科学技术大学 | 基于深度学习的专利价值评估的方法 |
CN109189936A (zh) * | 2018-08-13 | 2019-01-11 | 天津科技大学 | 一种基于网络结构和语义相关性度量的标签语义学习方法 |
CN109189936B (zh) * | 2018-08-13 | 2021-07-27 | 天津科技大学 | 一种基于网络结构和语义相关性度量的标签语义学习方法 |
WO2020057283A1 (zh) * | 2018-09-20 | 2020-03-26 | 阿里巴巴集团控股有限公司 | 无监督模型评估方法、装置、服务器及可读存储介质 |
US10997528B2 (en) | 2018-09-20 | 2021-05-04 | Advanced New Technologies Co., Ltd. | Unsupervised model evaluation method, apparatus, server, and computer-readable storage medium |
TWI710970B (zh) * | 2018-09-20 | 2020-11-21 | 開曼群島商創新先進技術有限公司 | 無監督模型評估方法、裝置、伺服器及可讀儲存媒體 |
CN109460427A (zh) * | 2018-11-08 | 2019-03-12 | 广东工业大学 | 一种面向用户动态偏好挖掘的节目嵌入方法 |
CN109639469A (zh) * | 2018-11-30 | 2019-04-16 | 中国科学技术大学 | 一种联合学习稀疏属性网络表征方法及系统 |
CN109800342A (zh) * | 2018-12-13 | 2019-05-24 | 中国科学院信息工程研究所 | 一种基于节点影响力的多关系网络数据量化表示方法 |
WO2020147595A1 (zh) * | 2019-01-16 | 2020-07-23 | 阿里巴巴集团控股有限公司 | 获取实体间关系表达的方法、系统和设备、广告召回系统 |
CN109829500B (zh) * | 2019-01-31 | 2023-05-02 | 华南理工大学 | 一种职位构图和自动聚类方法 |
CN109829500A (zh) * | 2019-01-31 | 2019-05-31 | 华南理工大学 | 一种职位构图和自动聚类方法 |
CN110377822A (zh) * | 2019-06-25 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 用于网络表征学习的方法、装置及电子设备 |
CN110377822B (zh) * | 2019-06-25 | 2024-04-16 | 腾讯科技(深圳)有限公司 | 用于网络表征学习的方法、装置及电子设备 |
CN110866190A (zh) * | 2019-11-18 | 2020-03-06 | 支付宝(杭州)信息技术有限公司 | 训练用于表征知识图谱的图神经网络模型的方法及装置 |
CN111597397A (zh) * | 2020-05-13 | 2020-08-28 | 云南电网有限责任公司电力科学研究院 | 适用于多层融合复杂网络的重要节点组的挖掘方法 |
CN111597397B (zh) * | 2020-05-13 | 2023-01-20 | 云南电网有限责任公司电力科学研究院 | 适用于多层融合复杂网络的重要节点组的挖掘方法 |
CN111815403A (zh) * | 2020-06-19 | 2020-10-23 | 北京石油化工学院 | 商品推荐方法、装置及终端设备 |
CN111815403B (zh) * | 2020-06-19 | 2024-05-10 | 北京石油化工学院 | 商品推荐方法、装置及终端设备 |
CN112417236A (zh) * | 2020-10-29 | 2021-02-26 | 汉海信息技术(上海)有限公司 | 训练样本获取方法、装置、电子设备及存储介质 |
CN112417236B (zh) * | 2020-10-29 | 2024-05-10 | 汉海信息技术(上海)有限公司 | 训练样本获取方法、装置、电子设备及存储介质 |
CN114650171A (zh) * | 2022-02-24 | 2022-06-21 | 中国电子科技集团公司第十五研究所 | 一种多层融合信标检测与路径还原方法和装置 |
CN114650171B (zh) * | 2022-02-24 | 2023-04-18 | 中国电子科技集团公司第十五研究所 | 一种多层融合信标检测与路径还原方法、装置和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291803A (zh) | 一种融合多类型信息的网络表示方法 | |
CN113544711B (zh) | 用于使用聚类收缩的混合算法系统和方法 | |
Zhang et al. | Efficient evolutionary search of attention convolutional networks via sampled training and node inheritance | |
CN110138595A (zh) | 动态加权网络的时间链路预测方法、装置、设备及介质 | |
Datta et al. | Automating the construction of jet observables with machine learning | |
CN111325340B (zh) | 信息网络关系预测方法及系统 | |
EP4131076A1 (en) | Serialized data processing method and device, and text processing method and device | |
Chen et al. | The multi-criteria minimum spanning tree problem based genetic algorithm | |
Zhang et al. | Time series prediction using Lyapunov exponents in embedding phase space | |
WO2016095068A1 (en) | Pedestrian detection apparatus and method | |
Sutton-Charani et al. | Learning decision trees from uncertain data with an evidential EM approach | |
CN109614612A (zh) | 一种基于seq2seq+attention的中文文本纠错方法 | |
Khoshraftar et al. | Dynamic graph embedding via lstm history tracking | |
CN116994093A (zh) | 基于对偶图卷积神经网络的高光谱图像分类方法 | |
Wang et al. | A band selection approach based on Lévy sine cosine algorithm and alternative distribution for hyperspectral image | |
Das et al. | Enhanced Bayesian network models for spatial time series prediction | |
Rustamov et al. | Interpretable graph-based semi-supervised learning via flows | |
Ortelli et al. | Faster estimation of discrete choice models via dataset reduction | |
CN116611527A (zh) | 量子电路处理方法、装置及电子设备 | |
CN112347369B (zh) | 基于网络表征的集成学习动态社会网络链路预测方法 | |
Yamauchi et al. | Contrasting vertical and horizontal transmission of typological features | |
US10726090B1 (en) | Per-user accuracy measure for social network based geocoding algorithms | |
Nilsson et al. | Tree Ensembles for Contextual Bandits | |
Hu et al. | A physics-driven deep-learning inverse solver for subsurface sensing | |
Sharma et al. | Link prediction algorithm for co-authorship networks using Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171024 |
|
RJ01 | Rejection of invention patent application after publication |