CN105184075A - 适用tcmf网络的基于多三角形群组相似性凝聚的重叠社区发现方法 - Google Patents
适用tcmf网络的基于多三角形群组相似性凝聚的重叠社区发现方法 Download PDFInfo
- Publication number
- CN105184075A CN105184075A CN201510553048.XA CN201510553048A CN105184075A CN 105184075 A CN105184075 A CN 105184075A CN 201510553048 A CN201510553048 A CN 201510553048A CN 105184075 A CN105184075 A CN 105184075A
- Authority
- CN
- China
- Prior art keywords
- corporations
- node
- tcmf
- network
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000003814 drug Substances 0.000 title abstract description 15
- 229940079593 drug Drugs 0.000 title abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000007418 data mining Methods 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005054 agglomeration Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000004850 protein–protein interaction Effects 0.000 description 1
Abstract
本发明提供一种适用TCMF网络的基于多三角形群组相似性凝聚的重叠社区发现方法,包括如下步骤:1)寻找初始社团阶段:a寻找中心点,并初始化社团;b搜索多三角形群组,加入到初始社团;c重复上述步骤直到中心点的度数小于阈值;d将未分派的结点加入到初始社团;e结束;2)合并初始社团阶段:a计算每两个社团之间的相似度;b选择最相似的两个社团合并;c重复以上步骤直到结束。基于多三角形群组相似性凝聚的重叠社团发现方法适用于TCMF网络,利用多三角形的技术大大提高了社团划分的准确度,可以从TCMF网络当中准确地发现药群社区结构信息。
Description
技术领域
本发明涉及一种中药方剂挖掘的方法,尤其涉及适用TCMF网络的基于多三角形群组相似性凝聚的重叠社区发现方法。
背景技术
在复杂网络分析中对网络社团结构的研究已经有很长的历史,其涉及到计算机科学、社会学、生命科学等各个领域。分析网络中的社团结构,对于分析网络结构与了解网络特性都是非常重要的。现实世界中有很多的真实复杂网络,如社会网络、互联网页面间互相链接网络、文献引用网络、生物学网络(如蛋白质相互作用网络)、论文合著网络等等。不同的真实网络结构代表其研究方向的现实意义,中药方剂(TraditionalChineseMedicineFormula,简写TCMF)网络也属于真实复杂网络当中的一种,如图1所示为TCMF网络。
中医药方剂(TCMF)网络具有明显社区结构,它不仅具有重叠结点,还具有重叠边,另外TCMF网络还具有一定的层次性,但通过实验表明,一些传统的重叠社区发现方法(如LFM方法、CPM方法等)并不适用于TCMF网络。
利用数据挖掘技术对中药复方数据进行药群社区挖掘最常用的方法是以聚类为主的数据挖掘研究模式,其对相似的药物进行聚合来发现药群社区。本发明尝试在已经构建好的TCMF药物网络中利用基于多三角形群组相似性凝聚的重叠社区发现方法来挖掘药性相似的药物组。
CN201210110861.6提供一种适用中药方剂(TraditionalChineseMedicineHerbs,以下简称TCMF)网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法,包括如下步骤:1)共近邻相似三元组凝聚阶段a寻找所有三元组;b对任意两个三元组计算相似度;c给定三元组的相似度阈值,合并相似度高于相似度阈值的三元组对作为初始社区;d结束;2)簇合并阶段a计算任意两个初始社区的距离;b定初始社区距离阈值,合并距离小于距离阈值的两个初始社区;c结束。通过三个参数α,β,γ的设定能挖掘TCMF网络的高重叠及层次药群社区结构,为方剂配伍中核心药群发现提供了解决方案。其中该方法当中寻找初始社团阶段的复杂度高,TCMF网络当中药群社团发现的准确性亦有待提高。
发明内容
本发明所要解决的技术问题是,提供一种适用TCMF网络的基于多三角形群组相似性凝聚的重叠社团发现方法,为TCMF网络提供了中药方剂挖掘的解决方案。
为解决上述问题,本发明技术方案是:适用TCMF网络的基于多三角形群组相似性凝聚的重叠社区发现方法,包括如下步骤:
1)寻找初始社团:
a寻找中心点,并初始化社团;
b搜索多三角形群组,加入到初始社团;
c重复上述步骤直到中心点的度数小于阈值;
d将未分派的结点加入到初始社团;
e结束;
2)合并初始社团:
a计算每两个社团之间的相似度;
b选择最相似的两个社团合并;
c重复以上步骤直到结束。
步骤1)-a中所述的中心点是利用结点的度数服从幂率分布,根据度数从大到小寻找中心点。
其中步骤1)-b中所述的多三角形群组是指搜索能够与中心点构成三角形的所有它的邻接结点,并将这些邻接结点加入到社团当中,构成多三角形群组。
其中步骤1)-c中所述的阈值一般情况为所有结点的平均度数。
其中步骤1)-d中所述的将未分派的结点加入到初始社团的规则是,若该结点的度数为0时,该结点作为单独社团;若该结点的度数为1时,该结点加入其邻接结点的社团当中;若该结点的度数大于1时,统计其邻接结点属于各个社团的个数,将其加入到个数最多的社团当中。
其中步骤2)-a中所述的两个社团之间的相似度公式如下:
其中Na∩Nb表示社团a和b中共有的结点个数,MIN{Na,Nb}表示a和b中最小的结点个数。
本发明的有益效果:本发明的适用TCMF网络的基于多三角形群组相似性凝聚的重叠社团发现方法为中医药复方数据挖掘提供了一种新的方法,该方法通过多三角形群组技术提高了社团发现的准确性,提供了准确的药群社区信息。
寻找初始社团阶段中,本发明使用种子扩散的方法,根据节点度数大小寻找中心点,根据多三角形技术将周围节点加入的以该中心点形成的社团当中;而现有技术基于搜索的过程,首先寻找所有单独的三元组,然后根据三元组的相似度,将高于相似度阈值的三元组合并后作为初始社团。
初始社团合并阶段(基于社团相似性公式有所不同):本发明采用效率更高的公式。现有三元组相似性凝聚:以三元组的相似度公式定义。
本发明关键技术是:采用多三角形技术,即搜索能够与中心点构成三角形的所有它的邻接结点,并将这些邻接结点加入到社团当中,构成多三角形群组。
本发明的优势在于:中心点根据节点的度数由高到低选取,再根据多三角形技术依次扩散,省去繁琐的公式计算过程,减少了寻找初始社团的时间复杂度,通过实验证明该方法提高了TCMF网络当中药群社团发现的准确性。
附图说明
图1为适用TCMF网络的基于多三角形群组相似性凝聚的重叠社区发现方法的流程图。
图2为形成多三角形群组流程图。
图3为社团相似性凝聚流程图。
图4为社团相似性凝聚流程图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
如图1所示,中医药方剂(TCMF)网络具有明显社区结构,TCMF网络的构建过程为:遍历中医药方剂数据库,根据每味药两两之间的贡献度值来构建得到TCMF网络。
如图2所示,本发明实施例的适用TCMF网络的基于多三角形群组相似性凝聚的重叠社团发现方法的流程图。适用TCMF网络的基于多三角形群组相似性凝聚的重叠社团发现方法包括两个阶段:寻找初始社团阶段和合并初始社团阶段。其具体步骤如下:
1)寻找初始社团:
a寻找中心点,并初始化社团;
b搜索多三角形群组,加入到初始社团;
c重复上述步骤直到中心点的度数小于阈值;
d将未分派的结点加入到初始社团;
e结束;
2)合并初始社团:
a计算每两个社团之间的相似度;
b选择最相似的两个社团合并;
c重复以上步骤直到结束。
如图3所示给出了形成一个多三角形的流程图。本发明定义了多三角形群组作为初始社团结构,其中考虑了中心点不能太多,否则会增加计算的复杂性,由阈值参数β控制所有中心点的个数,β代表所有结点的平均度数。β是指当前网络当中所有结点的平均度数,若选取的结点度数大于该参数,就将该结点作为中心点进行接下来的判断,否则舍弃。
形成多三角形的具体步骤如下:
步骤3-1为寻找中心点p,根据结点度数由大到小寻找,并且初始化社团c;
步骤3-2为判断中心点p的度数是否大于阈值参数β,若大于阈值参数β,执行步骤3-3,否则执行步骤3-9;阈值参数β指上面提及的当前网络当中所有结点的平均度数
步骤3-3为寻找p点的邻接结点a;
步骤3-4为判断是否遍历结束,若遍历结束,返回执行步骤3-1继续寻找中心点p,否知执行步骤3-5;
步骤3-5为寻找结点a的邻接结点b;
步骤3-6为判断是否遍历结束,若遍历结束,返回执行步骤3-3继续寻找中心点p的邻接结点,否知执行步骤3-7;
步骤3-7为判断结点a、b与p是否能构成三角形,若不能构成三角形,返回执行步骤3-5继续寻找结点a的邻接结点,否知执行步骤3-8;
步骤3-8为将结点a、b加入到初始社团c中,并返回执行步骤3-5;
步骤3-9为图3的结束。
如图4所示为社团相似性凝聚流程图,具体步骤如下:
步骤4-1为判断是否有两个以上的社团,若有两个以上社团,则执行步骤4-2,否则执行步骤4-4;
步骤4-2为计算每两个社团之间相似度,其中两个社团之间的相似度公式如下:
其中Na∩Nb表示a和b中共有的结点个数,MIN{Na,Nb}表示a和b中最小的结点个数。
步骤4-3为比较每两个社团相似度,合并最相似的两个社团,并且返回执行步骤4-1;
步骤4-4为图4的结束。
综上所述,本发明的适用TCMF网络的基于多三角形群组相似性层次凝聚的重叠社团发现方法利用多三角形的技术大大提高了社团划分的准确度,可以从TCMF网络当中准确地发现药群社区结构信息。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。
Claims (3)
1.适用TCMF网络的基于多三角形群组相似性凝聚的重叠社区发现方法,其特征在于,包括如下步骤:
1)寻找初始社团:
a寻找中心点,并初始化社团;
b搜索多三角形群组,加入到初始社团;
c重复上述步骤直到中心点的度数小于阈值;
d将未分派的结点加入到初始社团;
e结束;
2)合并初始社团:
a计算每两个社团之间的相似度;
b选择最相似的两个社团合并;
c重复以上步骤直到结束;
其中步骤1)-a中所述的中心点是利用结点的度数服从幂率分布,根据度数从大到小寻找中心点;
其中步骤1)-b中所述的多三角形群组是指搜索能够与中心点构成三角形的所有它的邻接结点,并将这些邻接结点加入到社团当中,构成多三角形群组;
其中步骤1)-c中所述的阈值为所有结点的平均度数。
2.根据权利要求1所述的适用TCMF网络的基于多三角形群组相似性凝聚的重叠社区发现方法,其特征在于,其中步骤1)-d中所述的将未分派的结点加入到初始社团的规则是,若该结点的度数为0时,该结点作为单独社团;若该结点的度数为1时,该结点加入其邻接结点的社团当中;若该结点的度数大于1时,统计其邻接结点属于各个社团的个数,将其加入到个数最多的社团当中。
3.根据权利要求1所述的适用TCMF网络的基于多三角形群组相似性凝聚的重叠社区发现方法,其特征在于,其中步骤2)-a中所述的两个社团之间的相似度公式如下:
其中Na∩Nb表示社团a和b中共有的结点个数,MIN{Na,Nb}表示a和b中最小的结点个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510553048.XA CN105184075B (zh) | 2015-09-01 | 2015-09-01 | 适用tcmf网络的基于多三角形群组相似性凝聚的重叠社区发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510553048.XA CN105184075B (zh) | 2015-09-01 | 2015-09-01 | 适用tcmf网络的基于多三角形群组相似性凝聚的重叠社区发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105184075A true CN105184075A (zh) | 2015-12-23 |
CN105184075B CN105184075B (zh) | 2018-07-06 |
Family
ID=54906153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510553048.XA Active CN105184075B (zh) | 2015-09-01 | 2015-09-01 | 适用tcmf网络的基于多三角形群组相似性凝聚的重叠社区发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105184075B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106022936A (zh) * | 2016-05-25 | 2016-10-12 | 南京大学 | 适用论文合作网络的基于社团结构的影响最大化算法 |
CN107133877A (zh) * | 2017-06-06 | 2017-09-05 | 安徽师范大学 | 网络中重叠社团的挖掘方法 |
CN107222334A (zh) * | 2017-05-24 | 2017-09-29 | 南京大学 | 适用于社交网络的基于核心三角的局部社团发现方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102646168A (zh) * | 2012-04-16 | 2012-08-22 | 南京大学 | 适用中药方剂网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法 |
CN102682162A (zh) * | 2012-04-24 | 2012-09-19 | 河海大学 | 基于复杂网络社区发现的层次重叠核心药群发现方法 |
CN103577592A (zh) * | 2013-11-13 | 2014-02-12 | 西安工程大学 | 基于性格相似度匹配计算的网络社区用户好友推荐方法 |
CN104268271A (zh) * | 2014-10-13 | 2015-01-07 | 北京建筑大学 | 一种兴趣和网络结构双内聚的社交网络社区发现方法 |
CN104537126A (zh) * | 2015-01-29 | 2015-04-22 | 中南大学 | 一种基于边图随机游走的重叠社区发现方法 |
-
2015
- 2015-09-01 CN CN201510553048.XA patent/CN105184075B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102646168A (zh) * | 2012-04-16 | 2012-08-22 | 南京大学 | 适用中药方剂网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法 |
CN102682162A (zh) * | 2012-04-24 | 2012-09-19 | 河海大学 | 基于复杂网络社区发现的层次重叠核心药群发现方法 |
CN103577592A (zh) * | 2013-11-13 | 2014-02-12 | 西安工程大学 | 基于性格相似度匹配计算的网络社区用户好友推荐方法 |
CN104268271A (zh) * | 2014-10-13 | 2015-01-07 | 北京建筑大学 | 一种兴趣和网络结构双内聚的社交网络社区发现方法 |
CN104537126A (zh) * | 2015-01-29 | 2015-04-22 | 中南大学 | 一种基于边图随机游走的重叠社区发现方法 |
Non-Patent Citations (5)
Title |
---|
ANDREA LANCICHINETTI等: "Detecting the overlapping and hierarchical community structure in complex networks", 《NEW JOURNAL OF PHYSICS》 * |
张振宇等: "复杂网络中重叠社区检测", 《计算机工程与科学》 * |
范超翔等: "基于用户节点相似度的局部社团挖掘", 《信息安全与通信保密》 * |
贺超波等: "面向大规模社交网络的潜在好友推荐方法", 《合肥工业大学学报(自然科学版)》 * |
马菲: "基于复杂网络的重叠社团发现算法", 《中国优秀硕士学位论文全文数据库 基础科学辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106022936A (zh) * | 2016-05-25 | 2016-10-12 | 南京大学 | 适用论文合作网络的基于社团结构的影响最大化算法 |
CN106022936B (zh) * | 2016-05-25 | 2020-03-20 | 南京大学 | 适用论文合作网络的基于社团结构的影响最大化算法 |
CN107222334A (zh) * | 2017-05-24 | 2017-09-29 | 南京大学 | 适用于社交网络的基于核心三角的局部社团发现方法 |
CN107133877A (zh) * | 2017-06-06 | 2017-09-05 | 安徽师范大学 | 网络中重叠社团的挖掘方法 |
CN107133877B (zh) * | 2017-06-06 | 2021-02-09 | 安徽师范大学 | 网络中重叠社团的挖掘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105184075B (zh) | 2018-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zou et al. | Finding top-k maximal cliques in an uncertain graph | |
CN102768670B (zh) | 基于节点属性标签传播的网页聚类方法 | |
CN103678671B (zh) | 一种社交网络中的动态社区检测方法 | |
CN106503148B (zh) | 一种基于多知识库的表格实体链接方法 | |
CN105279187A (zh) | 一种基于边聚集系数的社会网络群体划分方法 | |
CN108170613B (zh) | 一种软件测试用例自动生成方法 | |
CN105184075A (zh) | 适用tcmf网络的基于多三角形群组相似性凝聚的重叠社区发现方法 | |
CN102945516B (zh) | 多级网络计划的进度分析方法 | |
CN104268271A (zh) | 一种兴趣和网络结构双内聚的社交网络社区发现方法 | |
CN105138600B (zh) | 基于图结构匹配的社交网络分析方法 | |
CN107317704A (zh) | 一种基于紧密度和结构洞的复杂网络重要节点排序方法 | |
CN103400299B (zh) | 基于重叠点识别的网络重叠社团检测方法 | |
Das et al. | Comparing Zagreb indices and coindices of trees | |
CN103116574A (zh) | 从自然语言文本挖掘领域过程本体的方法 | |
CN109634987A (zh) | 电网图数据库的查询方法及装置 | |
CN102682162A (zh) | 基于复杂网络社区发现的层次重叠核心药群发现方法 | |
CN102799625A (zh) | 一种挖掘社交网络中话题核心圈的方法及系统 | |
CN102722530B (zh) | 一种复杂网络中的社团探测方法 | |
CN103559318B (zh) | 对异质信息网络包含的对象进行排序的方法 | |
CN102646168B (zh) | 适用中药方剂网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法 | |
CN103927325B (zh) | 一种对url进行分类的方法及装置 | |
CN105302823A (zh) | 重叠社区并行发现的方法及系统 | |
CN116645484B (zh) | 地质曲面模型的构建方法、装置、电子设备及存储介质 | |
Peng et al. | Member promotion in social networks via skyline | |
CN104331664A (zh) | 一种在取证场景下自动分析未知恶意程序特征的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |