CN109522953A - 基于网络嵌入算法和cnn对图结构数据进行分类的方法 - Google Patents
基于网络嵌入算法和cnn对图结构数据进行分类的方法 Download PDFInfo
- Publication number
- CN109522953A CN109522953A CN201811349731.1A CN201811349731A CN109522953A CN 109522953 A CN109522953 A CN 109522953A CN 201811349731 A CN201811349731 A CN 201811349731A CN 109522953 A CN109522953 A CN 109522953A
- Authority
- CN
- China
- Prior art keywords
- data
- network
- cnn
- graph structure
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于网络嵌入算法和CNN对图结构数据分类的方法。通过网络嵌入算法,可以将图结构数据嵌入到高维空间中,从而提取出图结构数据的特征并且将难以处理的非欧式数据转化为易于处理的欧式数据,再通过栅格化方法将高维向量表示处理成图片表示放在CNN中进行训练和测试,最终实现了对图结构数据的分类。和传统的方法相比,本发明运用了深度学习的方法,分类的准确度高,并且使得人们图结构数据的特征有了更多的理解。本方法在社交网络、生物网络、点云数据的处理等方面都有极大的用处。
Description
技术领域
本方案涉及对图结构的数据进行分类,研究对图结构数据分类的计算机算法,具体涉及到网络嵌入算法和CNN(卷积神经网络)图片分类技术。
背景技术
图结构的数据,即由节点和连边构成的数据,表示对象及其相互之间的联系。现如今,图结构的数据已经是最常用的数据类型之一,比如人与人之间的关系构成了社交网络、城市之间的道路连接构成了交通网络、科研论文之间的引用构成了科学家合作网等等。
对图结构的数据进行分类的研究非常有意义。首先,我们知道,目前深度学习技术在图像数据和文本数据的处理上都取得了非常好的效果,比如CNN(卷积神经网络)在图片分类和识别上精度很高,以CNN为基础的计算机视觉研究在物体识别、人脸识别问题上甚至超过了人类的识别准确度;另外,RNN(循环神经网络)可以很好的处理文本数据,这也使得自然语言处理研究在文本识别,语音等领域都取得到了突破性成果。而对于图结构数据,现在仍没有好的深度学习的方法进行学习,因此对图结构数据进行分类的算法的提出不仅能够对相关算法进行补充,使人们更好的理解图结构的数据,而且未来也能够很好的应用在现实生活中大量的图结构的数据的处理上。
另外,图结构数据的分类算法有非常广泛的应用。例如,在社交网络中,对于互联网上的多个在线社区,不同社区都有着完全不同的社交网络结构。同时,从表现上来看,有的社区发展得好,有些社区发展得不好。已有的研究结果表明,社交网络结果对社区的发展起到了重要的作用。那么一个好的社交网络分类器就应该能精准地区分出好的社区和不好的社区,从而为社区发展作出预测。再比如,国际贸易中存在着大量不同种的商品,对这些商品进行分类这个问题一直是困然人们的主要问题。以往,人们是根据产品的属性进行人为划分的。已有的研究表明,不同属性的产品具有完全不同的国际贸易网络结构,例如附加值高的产品往往具备更深的交易链条。那么,对不同种产品的国际贸易网络结构做出区分就能够很方便地帮助我们对它所代表的产品做出区分,并且减少人为因素的干扰。另外,图结构数据分类算法的研究还能扩展到预测问题,例如,我们可以根据一个国家的产业网络来预测该国的经济发展,或者根据一家公司的互动结构来预测公司的业绩水平等等。
现如今,基于自然语言处理的技术,一些科学家提出了一些网络特征学习的算法,通过将网络节点嵌入到高维空间,可以实现网络结构数据的映射,例如Deepwalk算法可以将每个网络节点嵌入到15-20维的高维空间里,每一个节点的向量可以被看作是提取出的网络中的信息。通过网络嵌入,可以对网络节点的特征进行很好的学习。网络嵌入的方法也有很多的应用,比如社区探测、节点分类和链接预测。但是网络嵌入更多的是对网络上节点的分类预测等等,缺乏对整个网络分类的研究。而基于网络嵌入算法提取出的网络特征,再结合图像分类算法CNN,本发明提出对图结构数据进行分类的算法。
图像分类算法CNN是多层卷积神经网络,是包含了多个卷积层和池化层构成的特征抽取器。在卷积神经网络中,卷积层通过局部感知和权值共享进行特征提取,池化层通过采样来对不同位置的特征进行聚合,可以看作是从更高维度进行特征提取。
基于网络嵌入算法和CNN,我们提出的方法首先通过deepwalk将网络嵌入到高维空间,嵌入算法保持了网络的拓扑性质。然后通过PCA降维成二维表示,将二维表示看做每一个点的坐标,通过栅格化将得到网络的灰度图表示,最后将图片放入CNN中进行训练。通过对训练好的模型进行测试,我们可以得到网络的分类结果。
发明内容
我们的方法基于网络嵌入算法deepwalk和图片分类算法CNN,对获取到的网络数据进行分类。网络嵌入算法deepwalk将数据从网络表示嵌入到高维空间,转化为向量表示,使得网络数据从原始的非欧空间的数据转化成欧氏空间的数据,然后通过栅格化处理我们将高维空间的数据转化成了二维图片表示,进而通过CNN进行分类。我们方法的具体步骤如下:
1)获取数据(获取网络结构的数据)
获取网络结构的数据,比如社交网络数据、蛋白质相互作用网络、国际贸易网络数据等等。
2)对数据进行网络嵌入
通过在一个普通的网络上进行大规模的随机游走,从而生成大量的节点序列,然后再将这些序列输入给Word2Vec算法,得到每一个节点的欧氏空间坐标表示。
3)嵌入后的数据处理成图片
通过Deepwalk后我们得到了整个网络在高维空间中的表达,再把每个节点的坐标利用PCA技术进行降维,得到二维空间中的网络表达。但是这样得到的表示是一个点云,我们需要把它进行栅格化变成图像。我们把所有二维散点图所覆盖的区域,划分为若干28*28等大小的方格区域,方格区域中每有一个点则该域的值+1,从而可以由一张散点图得到一个整数值矩阵。而整数值矩阵又可绘成一张灰度图像,从而完成将二维散点图转换为可供卷积神经网络训练的图像。
4)用CNN对图片进行分类
在CNN中,我们设计的网络架构包含2个卷积池化层,1个全连接层,1个输出层。其中卷积核的大小为5*5,池化为2*2,做max-pooling,第一层有3个卷积核,第二层有5个卷积核,全连接层有50个神经元。
5)获取分类的结果
将二维栅格化后的图像输入给卷积神经网络,就可以得到每一个网络的分类。
有益效果
1.本方法可以对社交网络、贸易网络等图结构数据进行很好的分类,并且对于结构不同的网络,本方法都可以处理并且又较好的处理效果。
2.和传统的统计计算的方法相比,本方法易于训练,并且具有较好的鲁棒性。
3.除了较好的分类效果,本方法还可以对CNN提取出的特征进行分析。
附图说明
图1为本发明图结构数据分类算法示意图;
图2为贸易网络分类效果示意图。
具体实施方式
下边对本方法的技术细节进行详细说明。
本方法的思路是对于图结构的数据分类问题,首先用网络嵌入算法将网络表示转化为高维空间向量表示,然后通过转化成图片再利用卷积神经网络CNN实现分类任务。本方法的流程如图1所示,接下来以国际贸易网络分类为例,详细介绍具体步骤:
步骤1:贸易数据预处理
我们的数据集来源自国家经济研究局(http://cid.econ.ucdavis.edu/nberus.html)提供的从1962年到2000年的4位编码(SITC4)的国际贸易数据集,涵盖了62-00年各国各产品的总贸易额,其中贸易产品可以分为10大类,分别是农业,矿产,制造业等等.本方法对数据进行处理后,得到每一年每一个大类下每一个产品的数据,将进口国家作为流入节点,出口国家作为流出节点,贸易额的大小决定作为连边权重,进而得到有权有向的贸易网络。另外,国际贸易网中除了从单一产品(例如玉米)的角度来提炼出该产品的国际贸易网络模型,也考虑了两个或更多产品的组合(例如玉米+小麦)所形成的国际贸易网,连边即玉米+小麦产品贸易的连边和流量。把所有的产品聚合在一起的网络,就是我们通常意义上的国际贸易网络。网络数据如图1.a所示。
步骤2:将网络嵌入到高维空间
对于国际贸易网这种加权有向网络,网络上的随机游走首先会选择一个起点,然后根据连边流量计算跳转概率来选择下一步的跳转节点,贸易网络上的跳转是从流出节点到流入节点之间的跳转,这样不断重复最后得到一定长度的节点序列,最终得到整个网络的“语料”,将语料放在word2vec中得到每一个节点的向量表示。将DeepWalk算法用在国际贸易网上,可以将贸易网络嵌入到高维空间中。
步骤3:将嵌入的网络栅格化成图片表示
通过Deepwalk后我们得到了整个网络在高维空间中的表达,再把每个节点的坐标利用PCA技术进行降维,得到二维空间中的网络表达(见图1.b)。但是这样的到的表示是一个点云,我们需要把它进行栅格化变成图像。我们把所有二维散点图所覆盖的区域,划分为若干28*28等大小的方格区域,方格区域中每有一个点则该域的值+1,从而可以由一张散点图得到一个整数值矩阵。而整数值矩阵又可绘成一张灰度图像,从而完成将二维散点图转换为可供卷积神经网络训练的图像(见图1.c)。
步骤4:通过CNN进行训练和测试
在CNN中,本方法设计的网络架构(见图1.d)包含2个卷积池化层,1个全连接层,1个输出层。其中卷积核的大小为5*5,池化为2*2,做max-pooling,第一层有3个卷积核,第二层有5个卷积核,全连接层有50个神经元,learning rate为0.01,mini-batch为100。
在CNN训练完成后,将新的国际贸易网络放进去测试,就可以得到贸易网络的正确分类。国际贸易网络的分类效果如图2所示,可以看到分类的准确率达到99%以上。
Claims (1)
1.基于网络嵌入算法和CNN对图结构数据进行分类的方法,其特征在于,具体步骤如下:
1)获取数据,即获取获取网络结构的数据如社交网络数据、蛋白质相互作用网络、国际贸易网络数据;
2)对数据进行网络嵌入
通过在一个普通的网络上进行随机游走,从而生成节点序列,然后再将这些序列输入给Word2Vec算法,得到每一个节点的欧氏空间坐标表示;
3)嵌入后的数据处理成图片
通过Deepwalk后,得到整个网络在高维空间中的表达,再把每个节点的坐标利用PCA技术进行降维,得到二维空间中的网络表达;但是这样得到的表示是一个点云,需要把它进行栅格化变成图像;把所有二维散点图所覆盖的区域,划分为若干28*28大小的方格区域,方格区域中每有一个点则该域的值+1,从而由一张散点图得到一个整数值矩阵;而整数值矩阵绘成一张灰度图像,从而完成将二维散点图转换为可供卷积神经网络训练的图像;
3)用CNN对图片进行分类
在CNN中,网络架构包含2个卷积池化层,1个全连接层,1个输出层;其中卷积核的大小为5*5,池化为2*2,做max-pooling,第一层有3个卷积核,第二层有5个卷积核,全连接层有50个神经元;
4)获取分类的结果
将二维栅格化后的图像输入给卷积神经网络,就得到每一个网络的分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811349731.1A CN109522953A (zh) | 2018-11-13 | 2018-11-13 | 基于网络嵌入算法和cnn对图结构数据进行分类的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811349731.1A CN109522953A (zh) | 2018-11-13 | 2018-11-13 | 基于网络嵌入算法和cnn对图结构数据进行分类的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109522953A true CN109522953A (zh) | 2019-03-26 |
Family
ID=65776591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811349731.1A Withdrawn CN109522953A (zh) | 2018-11-13 | 2018-11-13 | 基于网络嵌入算法和cnn对图结构数据进行分类的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109522953A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111047596A (zh) * | 2019-12-12 | 2020-04-21 | 中国科学院深圳先进技术研究院 | 一种三维点云实例分割方法、系统及电子设备 |
CN111209611A (zh) * | 2020-01-08 | 2020-05-29 | 北京师范大学 | 一种基于双曲几何的有向网络空间嵌入方法 |
CN112364983A (zh) * | 2020-11-12 | 2021-02-12 | 浙江工业大学 | 一种基于多通道图卷积神经网络的蛋白质互作网络节点分类方法 |
CN113851192A (zh) * | 2021-09-15 | 2021-12-28 | 安庆师范大学 | 氨基酸一维属性预测模型训练方法、装置及属性预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341611A (zh) * | 2017-07-06 | 2017-11-10 | 浙江大学 | 一种基于卷积神经网络的业务流程推荐方法 |
CN108537121A (zh) * | 2018-03-07 | 2018-09-14 | 中国科学院西安光学精密机械研究所 | 气象环境参数与图像信息融合的自适应遥感场景分类方法 |
CN108764007A (zh) * | 2018-02-10 | 2018-11-06 | 集智学园(北京)科技有限公司 | 基于ocr与文本分析技术对注意力的测量方法 |
-
2018
- 2018-11-13 CN CN201811349731.1A patent/CN109522953A/zh not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341611A (zh) * | 2017-07-06 | 2017-11-10 | 浙江大学 | 一种基于卷积神经网络的业务流程推荐方法 |
CN108764007A (zh) * | 2018-02-10 | 2018-11-06 | 集智学园(北京)科技有限公司 | 基于ocr与文本分析技术对注意力的测量方法 |
CN108537121A (zh) * | 2018-03-07 | 2018-09-14 | 中国科学院西安光学精密机械研究所 | 气象环境参数与图像信息融合的自适应遥感场景分类方法 |
Non-Patent Citations (1)
Title |
---|
RUYUE XIN ET AL.: "Complex Network Classification with Convolutional Neural Network", 《ARXIV:1802.00539V1》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111047596A (zh) * | 2019-12-12 | 2020-04-21 | 中国科学院深圳先进技术研究院 | 一种三维点云实例分割方法、系统及电子设备 |
CN111209611A (zh) * | 2020-01-08 | 2020-05-29 | 北京师范大学 | 一种基于双曲几何的有向网络空间嵌入方法 |
CN112364983A (zh) * | 2020-11-12 | 2021-02-12 | 浙江工业大学 | 一种基于多通道图卷积神经网络的蛋白质互作网络节点分类方法 |
CN112364983B (zh) * | 2020-11-12 | 2024-03-22 | 浙江工业大学 | 一种基于多通道图卷积神经网络的蛋白质互作网络节点分类方法 |
CN113851192A (zh) * | 2021-09-15 | 2021-12-28 | 安庆师范大学 | 氨基酸一维属性预测模型训练方法、装置及属性预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Amin et al. | End-to-end deep learning model for corn leaf disease classification | |
Boughida et al. | A novel approach for facial expression recognition based on Gabor filters and genetic algorithm | |
Ouyang et al. | A 3D-CNN and LSTM based multi-task learning architecture for action recognition | |
Yu et al. | Mixed pooling for convolutional neural networks | |
Hu et al. | Deep convolutional neural networks for hyperspectral image classification | |
CN109522953A (zh) | 基于网络嵌入算法和cnn对图结构数据进行分类的方法 | |
Alharan et al. | A cluster-based feature selection method for image texture classification | |
CN110413924A (zh) | 一种半监督多视图学习的网页分类方法 | |
CN108108751A (zh) | 一种基于卷积多特征和深度随机森林的场景识别方法 | |
CN103020265A (zh) | 图像检索的方法和系统 | |
Can et al. | Evaluating shape representations for Maya glyph classification | |
Alam et al. | A multi-view convolutional neural network approach for image data classification | |
CN116152561A (zh) | 基于卷积神经网络和增强图注意力网络的融合网络的图像分类方法 | |
Farooque et al. | Swin transformer with multiscale 3D atrous convolution for hyperspectral image classification | |
Singh et al. | A sparse coded composite descriptor for human activity recognition | |
Guo et al. | An Improved Neural Network Model Based on Inception‐v3 for Oracle Bone Inscription Character Recognition | |
Hu et al. | Hyperspectral Image Classification via Multi-Scale Multi-Angle Attention Network | |
Kotwal et al. | Yolov5-based convolutional feature attention neural network for plant disease classification | |
Diqi et al. | Implementation of CNN for plant leaf classification | |
Lespinats et al. | ClassiMap: A new dimension reduction technique for exploratory data analysis of labeled data | |
Sai et al. | Flower Identification and Classification applying CNN through Deep Learning Methodologies | |
Singh et al. | Cucumber leaf disease detection and classification using a deep convolutional neural network | |
SUN et al. | Hyperspectral Image Classification Based on A Multi‐Scale Weighted Kernel Network | |
De Sabbata et al. | Deep learning geodemographics with autoencoders and geographic convolution | |
CN113989671A (zh) | 基于语义感知与动态图卷积的遥感场景分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190326 |