CN110209825B - 一种基于宽度学习系统的快速网络表征学习方法 - Google Patents

一种基于宽度学习系统的快速网络表征学习方法 Download PDF

Info

Publication number
CN110209825B
CN110209825B CN201910522281.XA CN201910522281A CN110209825B CN 110209825 B CN110209825 B CN 110209825B CN 201910522281 A CN201910522281 A CN 201910522281A CN 110209825 B CN110209825 B CN 110209825B
Authority
CN
China
Prior art keywords
network
vector
characterization
generating
learning system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910522281.XA
Other languages
English (en)
Other versions
CN110209825A (zh
Inventor
左毅
蒋龙
李铁山
陈俊龙
马赫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Maritime University
Original Assignee
Dalian Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Maritime University filed Critical Dalian Maritime University
Priority to CN201910522281.XA priority Critical patent/CN110209825B/zh
Publication of CN110209825A publication Critical patent/CN110209825A/zh
Priority to JP2020017578A priority patent/JP6812035B2/ja
Application granted granted Critical
Publication of CN110209825B publication Critical patent/CN110209825B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于宽度学习系统的快速网络表征学习算法,具有如下步骤:S1、导入基于文本的网络图模块,将网络拓扑结构解析后保存成字典的格式,字典中的key代表网络节点,key对应的value是一个列表,表示该节点所在边的另一端节点序列;S2、对网络节点进行随机游走,生成游走序列;S3、构建基于宽度学习系统的网络表征学习模型,将S2中生成的游走序列以及维数为K的表征向量作为输入,在特征向量层生成网络节点的特征向量,在增强向量层通过引入激活函数增强网络表征学习模型的非线性分类能力,最终实现基于文本的网络多标签分类。本发明算法中采用了宽度学习系统模型,能够快速完成网络节点的表征学习。

Description

一种基于宽度学习系统的快速网络表征学习方法
技术领域
本发明属于自然语言处理领域,提出了一种采用宽度学习系统进行网络表征学习及对网络中的节点进行多标签分类的方法,涉及网络中节点的特征表示,构建宽度学习系统网络的分类模型,以及生成训练数据等。
背景技术
基于随机游走的网络表征算法,例如DeepWalk,利用了word2vec的方法,将网络中的节点类比成自然语言处理中的单词,将网络中每一条连接路径比作自然语言处理中的句子;利用SkipGram算法来计算网络节点之间的连接结构及生成节点的向量表示。既反映了相应网络节点与其周围相邻节点联系的结构特征,又实现了节点的低维向量表示。这就为网络表征问题,提供了利用机器学习算法处理的思路。
宽度学习系统采用类似于随机向量函数链接神经网络(Random Vector FunctionLink Neural Network,RVFLNN)的结构,很好地解决了传统神经网络耗时较长的问题。现在,宽度学习系统(Broad Learning System,BLS)逐渐成为一种典型的优化传统神经网络以及深度神经网络的机器学习算法。
宽度学习系统由特征向量层、增强向量层和输出层组成,其中的特征向量层和增强向量层共同作为系统的输入。在特征向量层,通过随机生成的权重对输入样本进行特征提取。在增强向量层,通过正交规范化的随机权重对特征向量进行增强计算,并引入激活函数来增强模型的非线性分类能力。最终通过对特征向量层和增强向量层的合成矩阵进行伪逆运算,即可求出系统输入到输出的权重矩阵,从而实现网络节点的多标签分类。
网络表征学习的目标是将网络中的节点表示成低维的向量形式,从而可以更加灵活地应用于不同的数据挖掘任务中。传统的网络表征学习通过邻接矩阵对网络图进行重建,用邻接矩阵的列向量作为图节点的表示向量。这种表示形式的缺点在于:网络图中任意两个节点不一定是相连的,通常一个节点仅有很少的邻节点,因此其邻接矩阵为稀疏矩阵。在表征大规模网络时,由于节点的数目很多,使得以邻接矩阵直接表示网络图的效率明显降低。
网络节点的多标签分类问题也是网络表征的核心问题之一。由于网络节点的标签个数并不固定,因此,多标签分类问题比传统的二分类问题复杂得多,对于进行分类的算法要求也更高。同时,其分类结果的评价指标也与二分类不同,通常使用F1函数进行评价,是对分类结果的准确率和召回率的加权平均。由于不同的类别标签在数量上的表现极不均衡,因此需要对每一个类别的F1函数再做一次加权平均,通常包括“micro”、“macro”等加权方式。但是,传统网络表征的多标签分类的准确率相对较低。
发明内容
本发明针对大规模的无向网络,提出了一种利用宽度学习系统建立网络分类模型,来实现网络表征学习的快速方法。本发明采用的技术手段如下:
一种基于宽度学习系统的快速网络表征学习算法,具有如下步骤:
S1、导入基于文本的网络图模块,将网络拓扑结构解析后保存成字典的格式,字典中的key代表网络节点,key对应的value是一个列表,表示该节点所在边的另一端节点序列;
S2、对网络节点进行随机游走,生成游走序列;
S3、构建基于宽度学习系统的网络表征学习模型,将S2中生成的游走序列以及维数为K的表征向量作为输入,在特征向量层生成网络节点的特征向量,在增强向量层通过引入激活函数增强网络表征学习模型的非线性分类能力,最终实现基于文本的网络多标签分类。
所述步骤S2中生成游走序列的具体步骤如下:
假设随机游走的次数为N,在每次游走前,对网络节点的序列进行洗牌以保证其随机性,然后依次从每一个网络节点开始游走,到达指定长度L后,从下一个网络节点继续开始游走,直到最后一个网络节点,根据设定的游走次数N,对此过程迭代若干次,返回随机游走的路径集合。
所述步骤S3中基于宽度学习系统的网络表征学习模型的训练过程为:
生成特征向量:建立输入数据到特征向量映射,生成网络节点的特征向量;
生成增强向量:通过激活函数增强网络表征学习模型的非线性分类能力;
进行伪逆的计算,完成基于宽度学习系统的网络表征学习模型从系统输入到输出权重的训练。
所述S3中基于宽度学习系统的网络表征学习模型的训练过程为:
S31、生成n1维随机权重矩阵We,对每个样本特征进行一次权值随机的卷积和偏置,并进行归一化和稀疏化表示,此时的输入即为网络节点的表征向量,其维度为K,特征向量H1的维度为n1,窗口数为n2
S32、生成正交规范化的随机权重矩阵Wh,将S31中产生的特征向量映射到一个维度为n3的空间上,生成增强向量H2,并通过激活函数增强网络表征学习模型的非线性分类能力;
S33、将特征向量H1和增强向量H2共同作为基于宽度学习系统的网络表征学习模型的输出H3
S34、伪逆的计算,当输出为H3,其维度为n1×n2+n3,标签向量为Y,两者的连接权重为W时,有H3·W=Y,由于H3在多数情况下不存在逆矩阵,因此W的求解就需要通过H3的伪逆
Figure BDA0002097091900000031
求解,得到
Figure BDA0002097091900000032
完成基于宽度学习系统的网络表征学习模型从系统输入到输出权重的训练。
本发明与现有技术相比有以下优点:
第一,本发明算法中采用了宽度学习系统模型,能够快速完成网络节点的表征学习。
第二,本发明采用的基于宽度学习系统的网络表征学习模型,既不需要多层权重连接,也不需要利用梯度下降来更新权值,因此该算法能够快速实现网络的多标签分类。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的具体实施方式中基于宽度学习系统的快速网络表征学习算法的流程图。
图2是宽度学习系统的网络表征图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1和图2所示,一种基于宽度学习系统的快速网络表征学习算法,具有如下步骤:
S1、导入基于文本的网络图模块,将网络拓扑结构解析后保存成字典的格式,字典中的key代表网络节点,key对应的value是一个列表,表示该节点所在边的另一端节点序列;
S2、对网络节点进行随机游走,生成游走序列,具体为:
在每次游走前,对网络节点的序列进行洗牌以保证其随机性,然后依次从每一个网络节点开始游走,到达指定长度L后,从下一个网络节点继续开始游走,直到最后一个网络节点,根据设定的游走次数N,对此过程迭代若干次,返回随机游走的路径集合。
S3、构建基于宽度学习系统的网络表征学习模型,将S2中生成的游走序列以及维数为K的表征向量作为输入,在特征向量层生成网络节点的特征向量,在增强向量层通过引入激活函数增强网络表征学习模型的非线性分类能力,最终实现基于文本的网络多标签分类。
基于宽度学习系统的网络表征学习模型的训练过程为:
S31、生成n1维随机权重矩阵We,对每个样本特征进行一次权值随机的卷积和偏置,并进行归一化和稀疏化表示,此时的输入即为网络节点的表征向量X,生成特征向量zi的公式为
Figure BDA0002097091900000041
zi的维度为n1,生成n2个特征向量
Figure BDA0002097091900000042
S32、生成正交规范化的随机权重矩阵Wh,将S31中产生的特征向量映射到一个维度为n3的空间上,生成增强向量H2,并通过sigmoid激活函数增强网络表征学习模型的非线性分类能力;如果
Figure BDA0002097091900000043
则生成增强向量H2的公式为ξ(ZWhh);
S33、将特征向量H1和增强向量H2合并为T维表征向量H3(T=n1×n2+ n3),H3即为基于宽度学习系统的网络表征学习模型的输出;
S34、伪逆的计算,当输出为H3,标签向量为Y,两者的连接权重为W时,有H3·W=Y,由于H3在多数情况下不存在逆矩阵,因此W的求解就需要通过H3的伪逆
Figure BDA0002097091900000044
求解,得到
Figure BDA0002097091900000045
完成基于宽度学习系统的网络表征学习模型从系统输入到输出权重的训练。
综上,本发明针对网络表征设计了一种利用宽度学习系统的分类模型,相比于传统多标签分类方法,该算法可以更快地实现分类,且分类准确率更高。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (1)

1.一种基于宽度学习系统的快速网络表征学习方法,其特征在于具有如下步骤:
S1、导入基于文本的网络图模块,将网络拓扑结构解析后保存成字典的格式,字典中的key代表网络节点,key对应的value是一个列表,表示该网络节点所在边的另一端节点序列;
S2、对网络节点进行随机游走,生成游走序列;
S3、构建基于宽度学习系统的网络表征学习模型,将S2中生成的游走序列以及维数为K的表征向量X作为输入,所述表征向量X为网络节点的表征向量X,在特征向量层生成网络节点的特征向量Z,在增强向量层通过引入激活函数增强网络表征学习模型的非线性分类能力,最终实现基于文本的网络多标签分类;
所述步骤S2中生成游走序列的具体步骤如下:
假设随机游走的次数为N,在每次游走前,对网络节点的序列进行洗牌以保证其随机性,然后依次从每一个网络节点开始游走,到达指定长度L后,从下一个网络节点继续开始游走,直到最后一个网络节点,根据设定的游走次数N,对此过程迭代若干次,返回随机游走的路径集合;
所述步骤S3中基于宽度学习系统的网络表征学习模型的训练过程为:
S31、生成n1维随机权重矩阵We,对每个样本特征进行一次权值随机的卷积和偏置,并进行归一化和稀疏化表示,此时的输入即为网络节点的表征向量X,生成特征向量zi的公式为
Figure FDA0002839737230000011
zi的维度为n1,生成n2个特征向量
Figure FDA0002839737230000012
S32、生成正交规范化的随机权重矩阵Wh,将S31中产生的特征向量Z映射到一个维度为n3的空间上,生成增强向量H2,并通过sigmoid激活函数增强网络表征学习模型的非线性分类能力;如果
Figure FDA0002839737230000013
则生成增强向量H2的公式为ξ(ZWhh);
S33、将特征向量H1和增强向量H2合并为T维表征向量H3(T=n1×n2+n3),H3即为基于宽度学习系统的网络表征学习模型的输出,其中特征向量H1即为特征向量Z;
S34、伪逆的计算,当输出为H3,标签向量为Y,两者的连接权重为W时,有H3·W=Y,由于H3在多数情况下不存在逆矩阵,因此W的求解就需要通过H3的伪逆
Figure FDA0002839737230000021
求解,得到
Figure FDA0002839737230000022
完成基于宽度学习系统的网络表征学习模型从系统输入到输出权重的训练。
CN201910522281.XA 2019-06-17 2019-06-17 一种基于宽度学习系统的快速网络表征学习方法 Active CN110209825B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910522281.XA CN110209825B (zh) 2019-06-17 2019-06-17 一种基于宽度学习系统的快速网络表征学习方法
JP2020017578A JP6812035B2 (ja) 2019-06-17 2020-02-05 ブロードラーニングシステムに基づく高速ネットワーク表現学習の方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910522281.XA CN110209825B (zh) 2019-06-17 2019-06-17 一种基于宽度学习系统的快速网络表征学习方法

Publications (2)

Publication Number Publication Date
CN110209825A CN110209825A (zh) 2019-09-06
CN110209825B true CN110209825B (zh) 2021-02-12

Family

ID=67793057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910522281.XA Active CN110209825B (zh) 2019-06-17 2019-06-17 一种基于宽度学习系统的快速网络表征学习方法

Country Status (2)

Country Link
JP (1) JP6812035B2 (zh)
CN (1) CN110209825B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826570B (zh) * 2019-10-25 2022-09-27 西安科技大学 一种ect两相流基于宽度学习的流型识别方法
CN110879859A (zh) * 2019-11-23 2020-03-13 安徽大学 一种保存序列关联关系的属性网络表示学习方法
SG11202100444SA (en) * 2020-01-08 2021-08-30 Ping An Technology Shenzhen Co Ltd Knowledge graph-based case retrieval method, device and equipment, and storage medium
CN111540405B (zh) * 2020-04-29 2023-07-07 新疆大学 一种基于快速网络嵌入的疾病基因预测方法
CN112508192B (zh) * 2020-12-21 2022-04-22 华南理工大学 一种具有深度结构的增量堆叠式宽度学习系统
CN113640380B (zh) * 2021-06-07 2023-05-09 济南大学 钢轨伤损检测多级分类方法及系统
CN113408297B (zh) * 2021-06-30 2023-08-18 北京百度网讯科技有限公司 生成节点表示的方法、装置、电子设备和可读存储介质
CN113628059B (zh) * 2021-07-14 2023-09-15 武汉大学 一种基于多层图注意力网络的关联用户识别方法及装置
CN113657479B (zh) * 2021-08-12 2022-12-06 广东省人民医院 一种新型多尺度深宽结合的病理图片分类方法、系统及介质
CN114492569B (zh) * 2021-12-20 2023-08-29 浙江大学 一种基于宽度学习系统的台风路径分类方法
CN114298200A (zh) * 2021-12-23 2022-04-08 电子科技大学(深圳)高等研究院 基于深度并行时序关系网络的异常数据诊断方法
CN114611691B (zh) * 2022-03-11 2024-05-14 华南理工大学 一种基于精度的宽度学习动态节点调整方法
CN115146695B (zh) * 2022-03-23 2024-04-02 北京工业大学 一种基于超图注意力网络的公共交通出行群体分类方法
CN114741507B (zh) * 2022-03-25 2024-02-13 西北大学 基于Transformer的图卷积网络的引文网络分类模型建立及分类
CN115967631A (zh) * 2022-12-19 2023-04-14 天津大学 一种基于宽度学习的物联网拓扑优化方法及其应用
CN115685308B (zh) * 2022-12-27 2023-03-17 成都理工大学 一种基于域随机化的缪子成像方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8433670B2 (en) * 2011-03-03 2013-04-30 Xerox Corporation System and method for recommending items in multi-relational environments
JP5697202B2 (ja) * 2011-03-08 2015-04-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 用語の対応を見出す方法、プログラム及びシステム
CN103473262B (zh) * 2013-07-17 2016-12-28 北京航空航天大学 一种基于关联规则的Web评论观点自动分类系统及分类方法
CN106897254B (zh) * 2015-12-18 2020-01-21 清华大学 一种网络表示学习方法
JP6757913B2 (ja) * 2016-02-26 2020-09-23 国立研究開発法人情報通信研究機構 画像クラスタリングシステム、画像クラスタリング方法、画像クラスタリングプログラム、および、コミュニティ構造検出システム
CN107180023B (zh) * 2016-03-11 2022-01-04 科大讯飞股份有限公司 一种文本分类方法及系统
CN107330049B (zh) * 2017-06-28 2020-05-22 北京搜狐新媒体信息技术有限公司 一种新闻热度预估方法及系统
CN108734301A (zh) * 2017-06-29 2018-11-02 澳门大学 一种机器学习方法和机器学习装置
CN108399238A (zh) * 2018-03-01 2018-08-14 福州大学 一种融合文本概念化和网络表示的观点检索系统及方法
CN109117943B (zh) * 2018-07-24 2022-09-30 中国科学技术大学 利用多属性信息增强网络表征学习的方法
CN109726268A (zh) * 2018-08-29 2019-05-07 中国人民解放军国防科技大学 基于分层神经网络的文本表示方法和装置
CN109543176B (zh) * 2018-10-17 2023-01-20 中山大学 一种基于图向量表征的丰富短文本语义方法及装置
CN109472626B (zh) * 2018-11-26 2020-08-18 浙江大学 一种面向手机租赁业务的智能金融风险控制方法及系统
CN109615008B (zh) * 2018-12-11 2022-05-13 华中师范大学 基于堆叠宽度学习的高光谱图像分类方法和系统

Also Published As

Publication number Publication date
CN110209825A (zh) 2019-09-06
JP6812035B2 (ja) 2021-01-13
JP2020205029A (ja) 2020-12-24

Similar Documents

Publication Publication Date Title
CN110209825B (zh) 一种基于宽度学习系统的快速网络表征学习方法
CN109816009B (zh) 基于图卷积的多标签图像分类方法、装置及设备
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN109934261B (zh) 一种知识驱动参数传播模型及其少样本学习方法
CN110472090B (zh) 基于语义标签的图像检索方法以及相关装置、存储介质
CN110048827B (zh) 一种基于深度学习卷积神经网络的类模板攻击方法
CN110826338B (zh) 一种单选择门与类间度量的细粒度语义相似识别的方法
CN106997474A (zh) 一种基于深度学习的图节点多标签分类方法
CN113705811B (zh) 模型训练方法、装置、计算机程序产品及设备
CN111860783B (zh) 图节点低维表征学习方法、装置、终端设备及存储介质
CN109614611B (zh) 一种融合生成非对抗网络与卷积神经网络的情感分析方法
CN113628059B (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN110532452B (zh) 一种基于gru神经网络的新闻网站通用爬虫设计方法
CN114330966A (zh) 一种风险预测方法、装置、设备以及可读存储介质
CN110837830A (zh) 一种基于时空卷积神经网络的图像字符识别方法
Hur et al. Entropy-based pruning method for convolutional neural networks
TWI770967B (zh) 一種神經網路的訓練方法、視頻識別方法及電腦設備和電腦可讀儲存介質
Xia et al. Combination of multi‐scale and residual learning in deep CNN for image denoising
CN111310996B (zh) 基于图自编码网络的用户信任关系预测方法及系统
CN107798331B (zh) 离变焦图像序列特征提取方法和装置
CN113609819A (zh) 标点符号确定模型及确定方法
CN109033304A (zh) 基于在线深层主题模型的多模态检索方法
CN111882048A (zh) 一种神经网络结构搜索方法及相关设备
US11615611B2 (en) Signal retrieval device, method, and program
JP6927409B2 (ja) 情報処理装置、制御方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant