CN102646168A - 适用中药方剂网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法 - Google Patents
适用中药方剂网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法 Download PDFInfo
- Publication number
- CN102646168A CN102646168A CN2012101108616A CN201210110861A CN102646168A CN 102646168 A CN102646168 A CN 102646168A CN 2012101108616 A CN2012101108616 A CN 2012101108616A CN 201210110861 A CN201210110861 A CN 201210110861A CN 102646168 A CN102646168 A CN 102646168A
- Authority
- CN
- China
- Prior art keywords
- tcmf
- network
- tlv triple
- overlapping
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000005054 agglomeration Methods 0.000 title claims abstract description 10
- 230000002776 aggregation Effects 0.000 title claims abstract description 10
- 239000003814 drug Substances 0.000 title abstract description 22
- 235000008216 herbs Nutrition 0.000 title abstract description 3
- 230000008520 organization Effects 0.000 claims description 14
- 229940079593 drug Drugs 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000007418 data mining Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 2
- 229940126532 prescription medicine Drugs 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000000796 flavoring agent Substances 0.000 description 1
- 235000019634 flavors Nutrition 0.000 description 1
- 230000006916 protein interaction Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种适用中药方剂(Traditional Chinese Medicine Herbs,以下简称TCMF)网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法,包括如下步骤:1)共近邻相似三元组凝聚阶段a寻找所有三元组;b对任意两个三元组计算相似度;c给定三元组的相似度阈值,合并相似度高于相似度阈值的三元组对作为初始社区;d结束;2)簇合并阶段a计算任意两个初始社区的距离;b定初始社区距离阈值,合并距离小于距离阈值的两个初始社区;c结束。本发明的基于TCMF网络的层次重叠核心药群发现方法为TCMF网络发现提供了一种新的方法,该方法通过三个参数α,β,γ的设定能挖掘TCMF网络的高重叠及层次药群社区结构,为方剂配伍中核心药群发现提供了解决方案。
Description
技术领域
本发明涉及一种中药方剂(Traditional Chinese Medicine Herbs,以下简称TCMF)挖掘的方法,尤其涉及适用TCMF网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法。
背景技术
目前利用数据挖掘技术探讨方剂配伍规律的研究主要有以下三种模式:以分类为主的数据挖掘研究模式,以聚类为主的数据挖掘研究模式和以关联规则挖掘为主的研究模式。
用网络的观点描述客观世界起源于1736年德国数学家Eular解决哥尼斯堡七桥问题。利用网络的拓扑结构来挖掘其功能模块和组织结构是社团结构发现的主要目标,迄今为止有大量的研究者投入了很大的努力,学术界已提出了许多社团发现方法,Fortunato对这些方法提供了一个较为全面的总结,给出了三个较为常见的社区结构定义:局部定义、全局定义和结点相似度定义,事实上还有边相似度定义。
现实世界中有很多的真实复杂网络,如社会网络、互联网页面间互相链接网络、文献引用网络、生物学网络(如蛋白质相互作用网络)、论文合著网络等等。不同的真实网络结构代表其研究方向的现实意义,中药方剂(Traditional Chinese Medicine Formula,简写TCMF)网络是区别于传统复杂网络的真实网络,如图1所示为TCMF网络,附图2所示为两种网络重叠对比。
TCMF网络社团结构代表了一类具有潜在组方可能的药群,TCMF网络不仅有重叠结点,还具有重叠边,另外TCMF网络也有一定的层次性,大的组方药群中包含有小的更紧密组方药群,TCMF网络层次性一定程度上可以用来探索症候与症状的关系。传统的层次重叠社区发现方法(如LFM方法、边凝聚方法等)并不适用于TCMF网络
发明内容
本发明所要解决的技术问题是提供一种适用TCMF网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法,为TCMF网络挖掘的应用提供解决方案。
技术方案:为解决上述问题,本发明的适用TCMF网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法包括如下步骤:
1)共近邻相似三元组凝聚阶段
a寻找所有三元组;
b对任意两个三元组计算相似度;
c给定三元组的相似度阈值β,合并相似度高于相似度阈值β的三元组对作为初始社区;
d结束;
2)簇合并阶段
a计算任意两个初始社区的距离;
b定初始社区距离阈值γ,合并距离小于距离阈值γ的两个初始社区;
c结束。
本发明中,步骤1)-a中所述的三元组为图中三结点完全图。
本发明中,步骤1)-b中所述的两个三元组的相似度公式定义如下:
S(Tr,Ts)=α·J(Tr,Ts)+(1-α)·J(N(Tr),N(Ts))·sign(J(Tr,Ts))
(1)
其中,Tr和Ts为TCMF网络中三元组,N(Tr)和N(Ts)分别为Tr和Ts的邻居结点,sign(X)定义如下:
J(Tr,Ts)为Jaccard相似系数,Jaccard相似系数定义如下:
参数α控制内部重叠及邻居重叠所占的权重。
进一步,本发明中,步骤2)-a中的初始社区距离公式定义如下:
本发明的有益效果:本发明的基于共近邻相似三角形凝聚的层次重叠社区发现方法为TCMF网络发现提供了一种新的方法,该方法通过三个参数α,β,γ的设定能挖掘TCMF网络的高重叠及层次药群社区结构,为方剂配伍中核心药群发现提供了解决方案。
附图说明
图1为TCMF网络图。
图2为TCMF网络重叠与传统网络重叠对比图。
图3为本发明实施例的基于共近邻相似三角形凝聚的层次重叠社区发现方法的流程图。
图4为图3中共近邻相似三元组凝聚为初始社区C的流程图。
图5为图3中簇合并阶段的流程图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
如图1所示,中医药方剂(TCMF)网络具有明显社区结构,TCMF网络的构建过程为:遍历方剂数据库,对每味药计算出现贡献度(Appear Contribution,简写AC)值,去除AC<min_ac的药物,剩余药物两两组合,再次遍历方剂数据库并计算二元组药物AC值,去除AC<min_ac的二元组,然后对于剩余二元组药物组合成三元组并计算三元组药物AC值,去除AC<min_ac的三元组,初始TCMF网络为空(没有结点和边),遍历每个三元组药物组合,把其中任两个药物组合作为一条边不断的加入到TCMF网络中,从而构建得到TCMF网络。其中min_ac为给定AC阈值,n元组出现贡献度AC计算公式为:
如图2所示为构建的TCMF网络重叠与传统网络重叠的对比,TCMF网络具有高重叠特点,不仅具有重叠结点,还有重叠边,这实际上反映了方剂存在“单方->基本方->复方”的衍变及加减方等特点。
如图3为本发明实施例的基于共近邻相似三角形凝聚的层次重叠社区发现方法的流程图。基于共近邻相似三角形凝聚的层次重叠社区发现方法包括如下步骤:
1)共近邻相似三元组凝聚阶段
a寻找所有三元组;
b对任意两个三元组计算相似度;
c给定三元组的相似度阈值β,合并相似度高于相似度阈值β的三元组对作为初始社区;
d结束;
2)簇合并阶段
a计算任意两个初始社区的距离;
b定初始社区距离阈值γ,合并距离小于距离阈值γ的两个初始社区;
c结束。
如图4所示为图3中共近邻相似三元组凝聚阶段流程图。本发明定义的三元组相似度考虑了以下几种情况:第一,重叠结点占总结点数之比;第二,三元组邻居结点重叠占邻居结点数之比;第三,去除了两个三元组没有公共点而只计算邻居结点的特殊情况,例如图2(b)中TCMF网络重叠的两个三元组{b,c,d}和{e,f,g},它们有共同的邻居结点{a},但是这两个三元组的相似度不能太大。对于该相似度的定义可以简单理解为两个有交集的三元组的内部结点重叠度及邻居结点重叠度的加权和,由参数α控制内部重叠及邻居重叠所占的权重。
共近邻相似三元组凝聚阶段的具体步骤如下:
步骤1-0为方法开始;
步骤1-1为输入,包括TCMF网络,阈值参数α,β(默认α=0.7,β=0.25);
步骤1-2为在TCMF网络中寻找所有三元组,该三元组为三结点完全图;
步骤1-3为预设外层循环变量r=0;
步骤1-4为预设内层循环变量s=r+1;
步骤1-5为按照公式(1):S(Tr,Ts)=α·J(Tr,Ts)+(1-α)·J(N(Tr),N(Ts))·sign(J(Tr,Ts))计算三元组Tr,Ts的相似度S(Tr,Ts),若S(Tr,Ts)>β,执行步骤1-6,否则执行步骤1-7;
步骤1-6为合并三元组Tr,Ts,结果加入初始社区集合C;
步骤1-7为循环变量s自增1;
步骤1-8为判断s是否越过集合T元素边界,若未越界则执行步骤1-5,否则执行步骤1-9;
步骤1-9为循环变量r自增1;
步骤1-10为判断r是否为集合T最后一个元素的下标,若是则执行步骤1-11,否则执行步骤1-4;
步骤1-11为将步骤1-2中没有覆盖到的TCMF网络中的二元组加入初始社区集合C;
步骤1-12为返回初始社区C,共近邻相似三元组凝聚步骤结束
其中T为TCMF网络中二元组和三元组集合,C为共近邻相似三元组凝聚阶段输出的初始社区划分结果集合。
如图5所示为图3中簇合并步骤流程图,具体步骤如下:
步骤2-0为簇合并步骤开始;
步骤2-1为预设外层循环变量r=0;
步骤2-2为预设内层循环变量s=r+1;
步骤2-3为按照公式(4): 计算初始社区Cr,Cs的距离,若D(Cr,Cs)<γ,则执行步骤2-4,否则执行步骤2-5;
步骤2-4为合并初始社区Cr,Cs,结果加入集合R;
步骤2-5为循环变量s自增1;
步骤2-6为判断s是否越过集合C元素边界,若未越界则执行步骤2-3,否则执行步骤2-7;
步骤2-7为循环变量r自增1;
步骤2-8为判断r是否为集合C最后一个元素的下标,若是则执行步骤2-9,否则执行步骤2-2;
步骤2-9为返回结果集合C,本层簇合并步骤结束;
其中,R为社区划分结果,且簇合并可能执行多次,通示不断增大参数值γ(0.0-1.0)来得到不同的划分层次。
综上所述,本发明的基于共近邻相似三角形凝聚的层次重叠社区发现方法为TCMF网络发现提供了一种新的方法,该方法通过三个参数α,β,γ的设定能挖掘TCMF网络的高重叠及层次药群社区结构,为方剂配伍中核心药群发现提供了解决方案。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。
Claims (4)
1.一种适用TCMF网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法,其特征在于,包括如下步骤:
1)共近邻相似三元组凝聚阶段
a寻找所有三元组;
b对任意两个三元组计算相似度;
c合并相似度高于相似度阈值的三元组对,作为初始社区;
d结束;
2)簇合并阶段
a计算任意两个初始社区的距离;
b合并距离小于社区距离阈值的两个初始社区;
c结束。
2.根据权利要求1所述的适用TCMF网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法,其特征在于,其中步骤1)-a中所述的三元组为图中三结点完全图。
3.根据权利要求1所述的适用TCMF网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法,其特征在于,其中步骤1)-b中所述的两个三元组的相似度公式定义如下:
S(Tr,Ts)=α·J(Tr,Ts)+(1-α)·J(N(Tr),N(Ts))·sign(J(Tr,Ts))
其中,Tr和Ts为TCMF网络中三元组,N(Tr)和N(Ts)分别为Tr和Ts的邻居结点,sign(X)定义如下:
J(Tr,Ts)为Jaccard相似系数,Jaccard相似系数定义如下:
参数α控制内部重叠及邻居重叠所占的权重。
4.根据权利要求1所述的适用TCMF网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法,其特征在于,其中步骤2)-a中的初始社区距离公式定义如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210110861.6A CN102646168B (zh) | 2012-04-16 | 2012-04-16 | 适用中药方剂网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210110861.6A CN102646168B (zh) | 2012-04-16 | 2012-04-16 | 适用中药方剂网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102646168A true CN102646168A (zh) | 2012-08-22 |
CN102646168B CN102646168B (zh) | 2014-12-17 |
Family
ID=46658985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210110861.6A Expired - Fee Related CN102646168B (zh) | 2012-04-16 | 2012-04-16 | 适用中药方剂网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102646168B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103914493A (zh) * | 2013-01-09 | 2014-07-09 | 北大方正集团有限公司 | 一种微博用户群体结构发现分析方法及系统 |
CN104820775A (zh) * | 2015-04-17 | 2015-08-05 | 南京大学 | 一种中药方剂核心药物的发现方法 |
CN105184075A (zh) * | 2015-09-01 | 2015-12-23 | 南京大学 | 适用tcmf网络的基于多三角形群组相似性凝聚的重叠社区发现方法 |
CN107222334A (zh) * | 2017-05-24 | 2017-09-29 | 南京大学 | 适用于社交网络的基于核心三角的局部社团发现方法 |
CN107292126A (zh) * | 2017-05-04 | 2017-10-24 | 浙江大学 | 一种中药对复杂性疾病所致“失和”网络整合调节作用的定量评价方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060271564A1 (en) * | 2005-05-10 | 2006-11-30 | Pekua, Inc. | Method and apparatus for distributed community finding |
CN101383748A (zh) * | 2008-10-24 | 2009-03-11 | 北京航空航天大学 | 一种复杂网络中的社区划分方法 |
CN101661482A (zh) * | 2008-08-27 | 2010-03-03 | 国际商业机器公司 | 在网络中识别相似子图的方法和设备 |
-
2012
- 2012-04-16 CN CN201210110861.6A patent/CN102646168B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060271564A1 (en) * | 2005-05-10 | 2006-11-30 | Pekua, Inc. | Method and apparatus for distributed community finding |
CN101661482A (zh) * | 2008-08-27 | 2010-03-03 | 国际商业机器公司 | 在网络中识别相似子图的方法和设备 |
CN101383748A (zh) * | 2008-10-24 | 2009-03-11 | 北京航空航天大学 | 一种复杂网络中的社区划分方法 |
Non-Patent Citations (3)
Title |
---|
刘熙等: ""基于最大频繁项集的层次聚类方法"", 《广西师范大学学报:自然科学版》 * |
林友芳等: ""一种有效的社会网络社区发现模型和算法"", 《计算机研究与发展》 * |
潘磊等: ""基于权重的Jaccard相似度度量的实体识别方法"", 《北京交通大学学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103914493A (zh) * | 2013-01-09 | 2014-07-09 | 北大方正集团有限公司 | 一种微博用户群体结构发现分析方法及系统 |
CN104820775A (zh) * | 2015-04-17 | 2015-08-05 | 南京大学 | 一种中药方剂核心药物的发现方法 |
CN105184075A (zh) * | 2015-09-01 | 2015-12-23 | 南京大学 | 适用tcmf网络的基于多三角形群组相似性凝聚的重叠社区发现方法 |
CN105184075B (zh) * | 2015-09-01 | 2018-07-06 | 南京大学 | 适用tcmf网络的基于多三角形群组相似性凝聚的重叠社区发现方法 |
CN107292126A (zh) * | 2017-05-04 | 2017-10-24 | 浙江大学 | 一种中药对复杂性疾病所致“失和”网络整合调节作用的定量评价方法 |
CN107292126B (zh) * | 2017-05-04 | 2019-12-24 | 浙江大学 | 一种中药对复杂性疾病所致“失和”网络整合调节作用的定量评价方法 |
CN107222334A (zh) * | 2017-05-24 | 2017-09-29 | 南京大学 | 适用于社交网络的基于核心三角的局部社团发现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102646168B (zh) | 2014-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102646168A (zh) | 适用中药方剂网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法 | |
CN102682162A (zh) | 基于复杂网络社区发现的层次重叠核心药群发现方法 | |
Zhou et al. | Identifying ecological corridors and networks in mountainous areas | |
Su et al. | Urban land pattern impacts on floods in a new district of China | |
Korro Bañuelos et al. | The role of information management for the sustainable conservation of cultural heritage | |
Zhu et al. | Indirect damage of urban flooding: Investigation of flood-induced traffic congestion using dynamic modeling | |
Zhang | Managing sandstorms through resettling pastoralists in China: how multiple forms of power govern the environment at/across scales | |
Xu et al. | China: a new trajectory prioritizing rural rather than urban development? | |
Liu et al. | Evaluation of the spatiotemporal evolution of China’s ecological spatial network function–structure and its pattern optimization | |
Ayouche et al. | Structure and dynamics of the Ras al Hadd oceanic dipole in the Arabian Sea | |
Zhu et al. | Spatial morphological characteristics and evolution of traditional villages in the mountainous area of Southwest Zhejiang | |
Diao et al. | The culture-oriented urban regeneration: place narrative in the case of the inner city of Haiyan (Zhejiang, China) | |
Perović et al. | Creative Street Regeneration in the Context of Socio-Spatial Sustainability: A Case Study of a Traditional City Centre in Podgorica, Montenegro | |
Tan et al. | CityGML in the Integration of BIM and the GIS: Challenges and Opportunities | |
Gazzeh et al. | Impacts of COVID-19 pandemic on the global flows of people and goods: Implications on the dynamics of urban systems | |
Shen et al. | Transition of urban morphology in the mountainous areas since early-modern times from the perspective of urban historic landscape—A GIS tools and historical map translation approach | |
Yin et al. | A comparative study of urban spatial characteristics of the capitals of tang and song dynasties based on space syntax | |
Chen et al. | Generative design of outdoor green spaces based on generative adversarial networks | |
Leonardi et al. | Turbo-roundabouts as an instrument for improving the efficiency and safety in urban area: an Italian case study | |
Zhang et al. | Research and evaluation of the mountain settlement space based on the theory of “Flânuer” in the digital age——taking Yangchan Village in Huangshan City, Anhui Province, as an example | |
Pan et al. | Evaluation and analysis of CFI schemes with different length of displaced left-turn lanes with entropy method | |
McMichael | Global citizenship and multiple sovereignties: Reconstituting modernity | |
Suchoń et al. | Historical analysis of the example of nowy sącz in space syntax perspective. guidelines for future development of urban matrix in medium-sized cities | |
Guo et al. | An innovative signal timing strategy for implementing contraflow left-turn lanes at signalized intersections with split phasing | |
Xu et al. | Expanding domain knowledge elements for metro construction safety risk management using a co-occurrence-based pathfinding approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C56 | Change in the name or address of the patentee | ||
CP02 | Change in the address of a patent holder |
Address after: 225400 Taixing Jiangsu Economic Development Zone, Taixing City Industrial Park, Industrial Park Patentee after: Nanjing University Address before: 210093 Nanjing, Gulou District, Jiangsu, No. 22 Hankou Road Patentee before: Nanjing University |
|
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20141217 Termination date: 20180416 |
|
CF01 | Termination of patent right due to non-payment of annual fee |