CN107492038A - 一种基于神经网络的社区发现方法 - Google Patents

一种基于神经网络的社区发现方法 Download PDF

Info

Publication number
CN107492038A
CN107492038A CN201710838110.9A CN201710838110A CN107492038A CN 107492038 A CN107492038 A CN 107492038A CN 201710838110 A CN201710838110 A CN 201710838110A CN 107492038 A CN107492038 A CN 107492038A
Authority
CN
China
Prior art keywords
node
community discovery
network
neutral net
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710838110.9A
Other languages
English (en)
Inventor
张舒
吴大雷
张秀真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ji'nan Junda Information Technology Co Ltd
Original Assignee
Ji'nan Junda Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ji'nan Junda Information Technology Co Ltd filed Critical Ji'nan Junda Information Technology Co Ltd
Priority to CN201710838110.9A priority Critical patent/CN107492038A/zh
Publication of CN107492038A publication Critical patent/CN107492038A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Tourism & Hospitality (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于神经网络的社区发现方法。本发明所述基于神经网络的社区发现方法,将神经网络算法应用到社区发现过程中,结合了神经网络在学习特征方面的优势,可以根据实际需要,设置学习得到的节点特征向量维度,将网络节点的结构特征和内容信息特征有效结合。

Description

一种基于神经网络的社区发现方法
技术领域
本发明涉及一种基于神经网络的社区发现方法,属于网络分析与数据挖掘的技术领域。
背景技术
复杂网络是复杂系统的抽象,现实中许多复杂系统都可以用复杂网络的相关特性进行描述和分析。针对复杂网络的分析已成为最重要的交叉型研究领域之一,当前网络研究中的一个热点是围绕网络中固有的社区结构展开。社区这一概念的原始定义是有相同特点或者兴趣爱好的一类人组成的团体。当开始将网络结构作为反映真实世界复杂系统的模型,社区的概念已经不仅仅局限于人类关系,而是逐步扩展到了各种各样的网络中。社区发现的任务就是识别检测出网络中由节点组成的一系列群体;这些群体内部节点之间联系紧密,而群体之间的节点连接则相对稀疏,我们将这些群体称之为社区。
对网络结构进行社区发现具有重要的意义,它不仅能直观地表现出不同种类的网络中模块化的分组结构,还可以帮助人们认识网络所代表的社会现象和系统、理解网络的功能和作用、发现网络中隐藏的信息和规律、预测网络的行为和变化以及指导人们解决网络所代表的现实问题等。
神经网络(名词解释:神经网络通过模拟大脑神经元网络处理、记忆信息的方式进行信息处理,它是通过对人脑神经元进行抽象,而建立的一种运算模型,由大量的神经元节点组成。)神经网络的研究很早就已经出现,它是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应。神经网络在自然语言处理领域得到了非常好的应用。其中,在自然语言处理领域的一个经典模型是CBOW模型,它的网络结构包括三层:输入层、投影层、输出层。该模型的宗旨是在已知当前词的上下文的情况下,预测当前词,并在这个过程中学习到文档中所有词的特征向量。
随着机器学习技术的发展,基于机器学习算法的社区发现方法也越来越多。但是,基本都包括以下几个步骤:1.根据网络的结构,提取网络中节点的特征表示向量;2.计算节点特征向量间的距离或相似度等指标;3.对第二步骤得到的计算结果使用传统机器学习算法对节点聚类,得到最终的社区划分结果。在这个过程中,如何有效的提取网络结构特征表示对于最终社区发现结果至关重要。然而,现在已有的提取特征的方法不能取得很好的效果,并且均不具有普适性和一般性。
发明内容
针对现有技术的不足,本发明提供一种基于神经网络的社区发现方法。
本发明的技术方案为:
一种基于神经网络的社区发现方法,具体步骤包括:
1)根据网络节点的连接关系,通过随机游走算法提取节点序列;所述步骤1)的具体过程如下:
给定要进行社区发现任务的网络图,输入游走长度l和游走序列的个数n;通过随机游走算法,得到该网络图下的n条长度均为l个节点的节点序列;
2)将步骤1)提取的节点序列作为神经网络的输入进行训练,学习网络节点的结构特征表示向量;所述步骤2)的具体步骤包括:
首先设置结构特征表示向量的维数d,然后将步骤1)得到的n条节点序列作为学习模型的输入训练神经网络参数,最后输出网络节点的d维结构特征表示向量。
3)选择机器学习算法,选择和计算相应的度量指标;所述度量指标包括,网络节点的结构特征表示向量之间的距离或节点相似度;
4)将步骤3)得到的计算结果作为传统聚类算法的输入,得到社区发现的最终结果。
根据本发明优选的,所述步骤1)中随机游走算法的具体过程为:给定一个网络图,选择一个网络节点作为出发点,随机地选择出发点的邻居节点,记录从出发点至该邻居节点的路径,然后将该邻居节点作为新的出发点,重复以上过程;被随机选出的网络节点在网络图上构成一个随机游走的节点序列。
根据本发明优选的,所述步骤2)的学习模型为CBOW。
根据本发明优选的,所述步骤3)的具体步骤包括:
根据选择的机器学习算法,选择相应的度量指标;如果选择k-means聚类算法,则选择距离作为度量指标;如果选择基于相似度矩阵进行社区发现的方法,则选择节点相似度作为度量指标,计算网络节点的相似度矩阵;根据步骤2)得到的反映节点结构的结构特征表示向量组成的特征矩阵,计算选定的度量指标。
进一步优选的,所述基于相似度矩阵进行社区发现的方法为谱方法。
进一步优选的,如果数据集不仅包括节点的网络连接关系,还包括网络中节点属性的特征表示(例如表示学生的节点属性为性别,其中男为1,女为0),则计算网络节点的属性特征之间的距离或相似度;将网络节点的结构和属性特征两个方面的特征向量计算得到的度量指标通过权重结合得到网络节点之间的综合距离或相似度;所述权重为设定值,两项权重之和为1。
进一步优选的,所述节点相似度为余弦相似度或Jacarrd相似度。
根据本发明优选的,所述步骤4)的具体步骤包括:
根据所述度量指标通过机器学习算法对网络节点进行聚类,聚类结果即社区发现的最终结果。
本发明的有益效果为:
1.本发明所述基于神经网络的社区发现方法,将神经网络算法应用到社区发现过程中,结合了神经网络在学习特征方面的优势,可以根据实际需要,设置学习得到的节点特征向量维度,将网络节点的结构特征和内容信息特征有效结合;
2.本发明所述基于神经网络的社区发现方法,不针对特定场景和目标,适合处理现实生活中存在的大部分网络,具有较好的普适性和灵活性。
附图说明
图1为现有技术中基于机器学习算法的社区发现方法通用框架;
图2为本发明所述基于神经网络的社区发现方法的流程示意图。
具体实施方式
下面结合实施例和说明书附图对本发明做进一步说明,但不限于此。
实施例1
如图2所示。
一种基于神经网络的社区发现方法,具体步骤包括:
1)根据网络节点的连接关系,通过随机游走算法提取节点序列;所述步骤1)的具体过程如下:
给定要进行社区发现任务的网络图,输入游走长度l和游走序列的个数n;通过随机游走算法,得到该网络图下的n条长度均为l个节点的节点序列;
2)将步骤1)提取的节点序列作为神经网络的输入进行训练,学习网络节点的结构特征表示向量;所述步骤2)的具体步骤包括:
首先设置结构特征表示向量的维数d,然后将步骤1)得到的n条节点序列作为学习模型的输入训练神经网络参数,最后输出网络节点的d维结构特征表示向量。
3)选择机器学习算法,选择和计算相应的度量指标;所述度量指标包括,网络节点的结构特征表示向量之间的距离或节点相似度;
4)将步骤3)得到的计算结果作为传统聚类算法的输入,得到社区发现的最终结果。
实施例2
如实施例1所述的基于神经网络的社区发现方法,所不同的是,所述步骤1)中随机游走算法的具体过程为:给定一个网络图,选择一个网络节点作为出发点,随机地选择出发点的邻居节点,记录从出发点至该邻居节点的路径,然后将该邻居节点作为新的出发点,重复以上过程;被随机选出的网络节点在网络图上构成一个随机游走的节点序列。
实施例3
如实施例1所述的基于神经网络的社区发现方法,所不同的是,所述步骤2)的学习模型为CBOW。
实施例4
如实施例1所述的基于神经网络的社区发现方法,所不同的是,所述步骤3)的具体步骤包括:
根据选择的机器学习算法,选择相应的度量指标;如果选择k-means聚类算法,则选择距离作为度量指标;如果选择基于相似度矩阵进行社区发现的方法,则选择节点相似度作为度量指标,计算网络节点的相似度矩阵;根据步骤2)得到的反映节点结构的结构特征表示向量组成的特征矩阵,计算选定的度量指标。
实施例5
如实施例4所述的基于神经网络的社区发现方法,所不同的是,所述基于相似度矩阵进行社区发现的方法为谱方法。
实施例6
如实施例4所述的基于神经网络的社区发现方法,所不同的是,如果数据集不仅包括节点的网络连接关系,还包括网络中节点属性的特征表示,则计算网络节点的属性特征之间的距离或相似度;将网络节点的结构和属性特征两个方面的特征向量计算得到的度量指标通过权重结合得到网络节点之间的综合距离或相似度;所述权重为设定值,两项权重之和为1。
实施例7
如实施例4所述的基于神经网络的社区发现方法,所不同的是,所述节点相似度为余弦相似度或Jacarrd相似度。
实施例8
如实施例1所述的基于神经网络的社区发现方法,所不同的是,所述步骤4)的具体步骤包括:根据所述度量指标通过机器学习算法对网络节点进行聚类,聚类结果即社区发现的最终结果。

Claims (8)

1.一种基于神经网络的社区发现方法,其特征在于,具体步骤包括:
1)根据网络节点的连接关系,通过随机游走算法提取节点序列;所述步骤1)的具体过程如下:
给定要进行社区发现任务的网络图,输入游走长度l和游走序列的个数n;通过随机游走算法,得到该网络图下的n条长度均为l个节点的节点序列;
2)将步骤1)提取的节点序列作为神经网络的输入进行训练,学习网络节点的结构特征表示向量;所述步骤2)的具体步骤包括:
首先设置结构特征表示向量的维数d,然后将步骤1)得到的n条节点序列作为学习模型的输入训练神经网络参数,最后输出网络节点的d维结构特征表示向量;
3)选择机器学习算法,选择和计算相应的度量指标;所述度量指标包括,网络节点的结构特征表示向量之间的距离或节点相似度;
4)将步骤3)得到的计算结果作为传统聚类算法的输入,得到社区发现的最终结果。
2.根据权利要求1所述的基于神经网络的社区发现方法,其特征在于,所述步骤1)中随机游走算法的具体过程为:给定一个网络图,选择一个网络节点作为出发点,随机地选择出发点的邻居节点,记录从出发点至该邻居节点的路径,然后将该邻居节点作为新的出发点,重复以上过程;被随机选出的网络节点在网络图上构成一个随机游走的节点序列。
3.根据权利要求1所述的基于神经网络的社区发现方法,其特征在于,所述步骤2)的学习模型为CBOW。
4.根据权利要求1所述的基于神经网络的社区发现方法,其特征在于,所述步骤3)的具体步骤包括:
根据选择的机器学习算法,选择相应的度量指标;如果选择k-means聚类算法,则选择距离作为度量指标;如果选择基于相似度矩阵进行社区发现的方法,则选择节点相似度作为度量指标,计算网络节点的相似度矩阵;根据步骤2)得到的反映节点结构的结构特征表示向量组成的特征矩阵,计算选定的度量指标。
5.根据权利要求4所述的基于神经网络的社区发现方法,其特征在于,所述基于相似度矩阵进行社区发现的方法为谱方法。
6.根据权利要求4所述的基于神经网络的社区发现方法,其特征在于,如果数据集不仅包括节点的网络连接关系,还包括网络中节点属性的特征表示,则计算网络节点的属性特征之间的距离或相似度;将网络节点的结构和属性特征两个方面的特征向量计算得到的度量指标通过权重结合得到网络节点之间的综合距离或相似度;所述权重为设定值,两项权重之和为1。
7.根据权利要求4所述的基于神经网络的社区发现方法,其特征在于,所述节点相似度为余弦相似度或Jacarrd相似度。
8.根据权利要求1所述的基于神经网络的社区发现方法,其特征在于,所述步骤4)的具体步骤包括:根据所述度量指标通过机器学习算法对网络节点进行聚类,聚类结果即社区发现的最终结果。
CN201710838110.9A 2017-09-18 2017-09-18 一种基于神经网络的社区发现方法 Pending CN107492038A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710838110.9A CN107492038A (zh) 2017-09-18 2017-09-18 一种基于神经网络的社区发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710838110.9A CN107492038A (zh) 2017-09-18 2017-09-18 一种基于神经网络的社区发现方法

Publications (1)

Publication Number Publication Date
CN107492038A true CN107492038A (zh) 2017-12-19

Family

ID=60651808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710838110.9A Pending CN107492038A (zh) 2017-09-18 2017-09-18 一种基于神经网络的社区发现方法

Country Status (1)

Country Link
CN (1) CN107492038A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767262A (zh) * 2017-10-24 2018-03-06 上海点融信息科技有限责任公司 信息处理方法、装置和计算机可读存储介质
CN110532436A (zh) * 2019-07-17 2019-12-03 中国人民解放军战略支援部队信息工程大学 基于社区结构的跨社交网络用户身份识别方法
CN110535910A (zh) * 2019-07-30 2019-12-03 平安科技(深圳)有限公司 断点用户的召回方法、装置及存储介质
CN110705709A (zh) * 2019-10-14 2020-01-17 支付宝(杭州)信息技术有限公司 训练图神经网络模型的方法和装置
CN113176917A (zh) * 2020-01-27 2021-07-27 富士胶片商业创新有限公司 用于对比网络分析和可视化的系统和方法
CN113570391A (zh) * 2021-09-24 2021-10-29 平安科技(深圳)有限公司 基于人工智能的社群划分方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997474A (zh) * 2016-12-29 2017-08-01 南京邮电大学 一种基于深度学习的图节点多标签分类方法
CN106997373A (zh) * 2016-12-29 2017-08-01 南京邮电大学 一种基于深度置信网络的链路预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997474A (zh) * 2016-12-29 2017-08-01 南京邮电大学 一种基于深度学习的图节点多标签分类方法
CN106997373A (zh) * 2016-12-29 2017-08-01 南京邮电大学 一种基于深度置信网络的链路预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PEROZZI B等: "《 DeepWalk:Online Learning of Social Representations》", 《HTTP:/ /PEROZZI.NET/PUBLICATIONS/14_KDD_DEEPWALK.PDF》 *
吴钟刚等: "《一种基于局部相似性的社区发现算法》", 《计算机工程》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767262A (zh) * 2017-10-24 2018-03-06 上海点融信息科技有限责任公司 信息处理方法、装置和计算机可读存储介质
CN107767262B (zh) * 2017-10-24 2020-07-28 上海点融信息科技有限责任公司 信息处理方法、装置和计算机可读存储介质
CN110532436A (zh) * 2019-07-17 2019-12-03 中国人民解放军战略支援部队信息工程大学 基于社区结构的跨社交网络用户身份识别方法
CN110532436B (zh) * 2019-07-17 2021-12-03 中国人民解放军战略支援部队信息工程大学 基于社区结构的跨社交网络用户身份识别方法
CN110535910A (zh) * 2019-07-30 2019-12-03 平安科技(深圳)有限公司 断点用户的召回方法、装置及存储介质
CN110535910B (zh) * 2019-07-30 2022-11-25 平安科技(深圳)有限公司 断点用户的召回方法、装置及存储介质
CN110705709A (zh) * 2019-10-14 2020-01-17 支付宝(杭州)信息技术有限公司 训练图神经网络模型的方法和装置
CN110705709B (zh) * 2019-10-14 2021-03-23 支付宝(杭州)信息技术有限公司 训练图神经网络模型的方法和装置
CN113176917A (zh) * 2020-01-27 2021-07-27 富士胶片商业创新有限公司 用于对比网络分析和可视化的系统和方法
CN113570391A (zh) * 2021-09-24 2021-10-29 平安科技(深圳)有限公司 基于人工智能的社群划分方法、装置、设备及存储介质
CN113570391B (zh) * 2021-09-24 2022-02-01 平安科技(深圳)有限公司 基于人工智能的社群划分方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN107492038A (zh) 一种基于神经网络的社区发现方法
Bang et al. Explaining a black-box by using a deep variational information bottleneck approach
CN106021364B (zh) 图片搜索相关性预测模型的建立、图片搜索方法和装置
Zhao et al. Progressive privileged knowledge distillation for online action detection
CN110347932B (zh) 一种基于深度学习的跨网络用户对齐方法
CN109299657B (zh) 基于语义注意力保留机制的群体行为识别方法及装置
CN108235003B (zh) 基于3d卷积神经网络的立体视频质量评价方法
Lee et al. Style2vec: Representation learning for fashion items from style sets
CN110866134B (zh) 一种面向图像检索的分布一致性保持度量学习方法
CN110807509A (zh) 一种基于贝叶斯神经网络的深度知识追踪方法
CN113380360B (zh) 一种基于多模态病历图的相似病历检索方法及系统
CN113987155B (zh) 一种融合知识图谱与大规模用户日志的会话式检索方法
CN108074203A (zh) 一种教学调整方法和装置
KR20190066849A (ko) 빅데이터와 머신러닝 기반의 학생 맞춤형 인공지능 stem 교육 플랫폼
CN109614480A (zh) 一种基于生成式对抗网络的自动摘要的生成方法及装置
CN107145934A (zh) 一种基于增强局部搜索能力的人工蜂群优化方法
CN115471885A (zh) 动作单元相关性学习方法、装置、电子设备及存储介质
Wei et al. (Retracted) Image analysis and pattern recognition method of three-dimensional process in physical education teaching based on big data
CN111949894B (zh) 一种基于多空间交互的协同过滤个性化推荐方法
CN109359190A (zh) 一种基于评价对象阵营的立场分析模型构建方法
Wang et al. Temporal dual-attributed network generation oriented community detection model
Liu et al. An Evaluation of GPT-4V and Gemini in Online VQA
Tai et al. [Retracted] Breakdancing Movement Based on Image Recognition Promotes Preschool Children’s Executive Function and Intervention Plan
Ali S et al. Multi-class LDA classifier and CNN feature extraction for student performance analysis during Covid-19 pandemic
CN115795993A (zh) 一种双向判别性特征对齐的分层知识融合方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171219