CN106126649B - 一种相似中药材挖掘方法及装置 - Google Patents
一种相似中药材挖掘方法及装置 Download PDFInfo
- Publication number
- CN106126649B CN106126649B CN201610473054.9A CN201610473054A CN106126649B CN 106126649 B CN106126649 B CN 106126649B CN 201610473054 A CN201610473054 A CN 201610473054A CN 106126649 B CN106126649 B CN 106126649B
- Authority
- CN
- China
- Prior art keywords
- medicinal material
- cluster
- drug
- similarity
- chinese medicine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Medicines Containing Plant Substances (AREA)
Abstract
本发明提供了一种相似中药材挖掘方法及装置,该方法包括:S1:对于给定的药物集合,构建关于其中每一个药材的常用配伍药物集合和配伍药物词频集合;S2:基于步骤S1中的每个药材的常用配伍集合的相似性,计算药物集合中任意两个药材之间的相似度,并形成药物相似度矩阵;S3:将药物集合中的每个药材作为一个聚类,根据步骤S2中得到的药物相似性矩阵,并利用分层聚类的方式建立相似度大于参考阈值的聚类的聚类集,每个聚类中的药材为相似药材。本发明利用大数据挖掘方法代替挖掘中药药物相似性的关系,可应对海量中药数据的分析,且挖掘精度较高。
Description
技术领域
本发明涉及医药学数据挖掘领域,尤其涉及一种相似中药材挖掘方法及装置。
背景技术
中药材是中药方剂、中成药的组成单元,是各大中药诊所、药房以及中药制药厂必不可少的原料。实际情况中,常出现某一种药材,例如虎骨、犀角等已被列为濒危中药品种或受保护不被国家允许开采的行列,或是某一药材因市场紧缺而不能及时到位,同时,根据病人的经济能力,某些名贵中药材也被排除到了用药考虑范围。以上各种情况,均使得原有药方中的配伍药物缺失而使得病人不能按方抓药。而目前,对于稀缺中药材的替代品寻找大多依赖中医从医人员的学识和经验进行人工寻找,面对海量的中药材数据和数量庞大的稀缺药材替代品需求显得力所不及。
随着医疗电子和数据库技术的发展,从海量的药材药物、方剂数据中运用数据挖掘手段提取病症、药物的相互关系和规律,为寻找稀缺药材的替代品提供了思路。
发明内容
本发明所要解决的是提供一种能够基于分层聚类的方式挖掘出相似的中药材的相似中药材挖掘方法及装置。
为了解决上述技术问题,本发明提供了如下的技术方案:
一种相似中药材挖掘方法,包括以下步骤:
S1:对于给定的药物集合X=(x1,...,xi,...xN),构建关于其中每一个药材的常用配伍药物集合A(xi)和配伍药物词频集合F(xi),其中,xi表示药材,i=1,2,...,N;
S2:基于所述步骤S1中的每个药材的常用配伍集合的相似性,计算所述药物集合中任意两个药材之间的相似度,并形成药物相似度矩阵;其中所述药物相似矩阵的第i行、第j列的元素表示计算得到的所述药物集合中第i个药材和第j个药材的相似度;
S3:将所述药物集合中的每个药材作为一个聚类,根据步骤S2中得到的所述药物相似性矩阵,并利用分层聚类的方式建立相似度大于参考阈值的聚类的聚类集,每个所述聚类中的药材为相似药材。
其中,所述步骤S1进一步包括:
S11:针对所述药物集合中的每一个药材,在中药药方数据库中查询所有包含该药材的药方,统计与该药材配伍使用的频次较高的前M种中药材(y1,y2,...,yM)组成所述药材的常用配伍药物集合A(xi)={y1,y2,...,ym,...,yM};
S12:将所述M种中药材在所述药方中出现的相对词频(fi(y1),fi(y2),...,fi(yM))保存成所述药材的配伍药物词频集合F(xi)={fi(y1),fi(y2),...,fi(ym),...,fi(yM)},其中,ym表示与所述药材配伍使用的中药材中按出现频次由高到低顺序排列的第m个中药材,fi(ym)表示其出现的相对词频,m=1,2,...,M,fi(y1)≥fi(y2)≥...≥fi(yM)。
其中,M≥15。
其中,所述步骤S2包括:
S21:分别计算所述药物集合中任意两个药材的常用配伍集合的并集;
S22:分别构建表征两个所述药材的配伍关系的特征向量ti=[t1,t2,...,tl,...tL]T和gj=[g1,g2,...,gl,...gL]T,其中符号[]T表示向量转置,tl和gl分别表示特征向量ti和gj中的第l个元素,其取值为
其中,el表示并集中第l个元素,fi(el)表示el属于xi的常用配伍药物集合A(xi)的情况下,在对应的配伍药物词频集合F(xi)中的相对词频取值;
S23:计算所述步骤S22得到的两个特征向量ti和gj的余弦相似度作为两个药材之间的相似度,所述相似度根据下式计算获得:
S24:基于步骤S23中得到的所述药物集合中所有的药材对之间的相似度获得药物相似度矩阵P=[ρi,j]N×N,其中所述药物相似矩阵的第i行、第j列的元素ρi,j表示计算得到的所述药物集合中第i个药材xi和第j个药材xj的相似度,N表示所述药物集合中包含的药材个数。
其中,所述步骤S3进一步包括:
S31:将所述药物集合中的每一个药材作为一个聚类ci=(xi),并形成一个初始化的聚类集C=(c1,...,ci,...cN);
S32:根据步骤S2得到的所述药物相似度矩阵计算所述聚类集中的每一个聚类对(ci,cj)之间的相似度si,j,并获得具有最大相似度的一个聚类对(ci′,cj′),其中i=1,2,...,N,j=1,2,...,N且i≠j,i′=1,2,...,N,j′=1,2,...,N且i′≠j′;
步骤S33:比较步骤S32得到的最大相似度(smax)的值是否大于预先设置的聚类相似度阈值,若大于,则执行步骤S34,否则直接执行步骤S36;
步骤S34:根据步骤S32得到的结果,将具有最大相似度的两个聚类ci′和cj′合并成一个新的聚类ck=ci′∪cj′,同时合并ci′和cj′里的中药材元素,形成更新后的聚类集C;
步骤S35:重复执行步骤S32~S34,直到步骤S33中的最大相似度smax的值是小于所述聚类相似度阈值;
步骤S36:对于药材xm,在所述更新后的聚类集C中查询出包含xm的聚类c′,则聚类c′中的除xm之外的其它中药材元素即为挖掘到的和药材xm的相似度不小于阈值的相似中药材。
其中,所述步骤S32中计算所述聚类集中每个聚类对的相似度的方法包括:
S321:从聚类ci和聚类cj中各抽取一个元素组成药材对,共产生K1×K2个这样的药材对,其中K1表示聚类ci中的元素个数,K2表示聚类cj中的元素个数;
S322:对上述K1×K2个药材对,在步骤S2得到的药物相似度矩阵P中查询每个药材对之间的相似度取值,并取其中的最小值作为聚类ci和聚类cj之间的相似度si,j。
一种相似中药材挖掘装置,其应用如上所述的相似中药材挖掘方法,且所述装置包括:
中药方数据库,其内存储有药方数据;
输入装置,其配置为输入药材名称;
数据处理装置,其配置为构建聚类集,且所述聚类集内包括多个聚类,且所述聚类内的药材之间的相似度大于参考阈值;
查询装置,其配置为在所述聚类集中查询包括所输入的药材的聚类,并且该聚类内的其他药材为所要查找的相似药材。
其中,所述数据处理装置进一步配置为基于药物集合中各药物的配伍集合获取药物相似矩阵,并计算所述聚类集中的每一个聚类对(ci,cj)之间的相似度si,j,通过比较获得具有最大相似度的一个聚类对(ci′,cj′)和聚类相似阈值,执行更新所述聚类集。
其中,所述数据处理装置获取药物相似矩阵的方法包括:
分别计算所述药物集合中任意两个药材的常用配伍集合的并集;
分别构建表征两个所述药材的配伍关系的特征向量ti=[t1,t2,...,tl,...tL]T和gj=[g1,g2,...,gl,...gL]T,其中符号[]T表示向量转置,tl和gl分别表示特征向量ti和gj中的第l个元素,其取值为
其中,el表示并集中第l个元素,fi(el)表示el属于xi的常用配伍药物集合A(xi)的情况下,在对应的配伍药物词频集合F(xi)中的相对词频取值;
计算两个特征向量ti和gj的余弦相似度作为两个药材之间的相似度,所述相似度根据下式计算获得:
基于得到的所述药物集合中所有的药材对之间的相似度获得药物相似度矩阵P=[ρi,j]N×N,其中所述药物相似矩阵的第i行、第j列的元素ρi,j表示计算得到的所述药物集合中第i个药材xi和第j个药材xj的相似度,N表示所述药物集合中包含的药材个数。
其中,所述数据处理装置获取所述药物配伍集合的方法包括:针对所述药物集合中的每一个药材,在中药药方数据库中查询所有包含该药材的药方,统计与该药材配伍使用的频次较高的前M种中药材(y1,y2,...,yM)组成所述药材的常用配伍药物集合A(xi)={y1,y2,...,ym,...,yM}。
与现有技术相比,本发明的有益效果在于:
(1)本发明可以使用分层聚类大数据挖掘方法代替传统人工靠学识和经验的方法去挖掘中药药物相似性的关系,可应对海量中药数据的分析;
(2)本发明的分层聚类相似性度量充分考虑了中药方剂中的配伍规律特性,使挖掘结果更加客观、可靠。
附图说明
图1为本发明实施例中的一种倒状聚类树的示意图;
图2为本发明实施例中的一种相似中药材挖掘方法的流程图;
图3为图2中步骤S1的原理流程图;
图4为图2中步骤S2的原理流程图;
图5为图2中步骤S3的原理流程图;
图6为本发明实施例中的一种相似中药材挖掘装置的原理框图。
具体实施方式
下面,结合附图对本发明的具体实施例进行详细的描述,但不作为本发明的限定。
本发明提供了一种相似中药材挖掘方法,该方法基于分层聚类(HierarchicalClustering)的方式实现,具有较高精度的挖掘方法,也具有更有效的挖掘效率。
首先,在详细介绍本发明的实施方式的细节之前,先简单描述分层聚类的一些概念和步骤。
分层聚类是一种无监督学习聚类算法,通过构建具有层次的倒状聚类树,逐步产生嵌套聚类的层次。如图1所示,为本发明实施例中的一种倒状聚类树的示意图。其中,在树的最底层是未进行聚类的节点,每上一层是嵌套下一层的聚类。根据聚类方式,分层聚类可分为自下而上的合并聚类,以及自上而下的分裂聚类,本发明专利利用合并聚类进行。
对于给定的数据集D=(d1,...,di,...dN),合并聚类步骤为:
1)将数据集D中的每一个数据di作为一个聚类ci=(di),形成一个初始化的聚类集C=(c1,...,ci,...cN);
2)计算聚类集C中的每个聚类对(ci,cj)之间的相似度,该相似度的衡量取决于聚类中所有节点之间的最大的距离;
3)选取具有最大相似度的两个聚类(ci,cj)合并成一个新的聚类ck=ci∪cj,同时合并ci和cj里的数据;
4)重复执行上述两步骤,同时根据需要的产生的聚类数目或设置相似度阈值终止条件,得到最终的聚类结果。
本发明实施例中采用如上的分层聚类方式进行相似中药材的数据挖掘,具体的,如图2所示为本发明实施例中的一种相似中药材挖掘方法的流程图。其中可以包括以下步骤:
S1:对于给定的药物集合X=(x1,...,xi,...xN),构建关于该药物集合X中的每一个药材xi的常用配伍药物集合A(xi)和配伍药物词频集合F(xi),其中,xi表示药材,i=1,2,...,N;本实施例中,如图3所示,针对药物集合X中的每一个药材xi,构建其常用配伍药物集合A(xi)和配伍药物词频集合F(xi)的方法包括:
S11:针对所述药物集合中的每一个药材,在中药药方数据库中查询所有包含该药材的药方,统计与该药材配伍使用的频次较高的前M种中药材(y1,y2,...,yM)组成所述药材的常用配伍药物集合A(xi)={y1,y2,...,ym,...,yM};
S12:将所述M种中药材在所述药方中出现的相对词频(fi(y1),fi(y2),...,fi(yM))保存成所述药材的配伍药物词频集合F(xi)={fi(y1),fi(y2),...,fi(ym),...,fi(yM)},其中,ym表示与所述药材配伍使用的中药材中按出现频次由高到低顺序排列的第m个中药材,fi(ym)表示其出现的相对词频,m=1,2,...,M,fi(y1)≥fi(y2)≥...≥fi(yM),其中M可以是大于或等于15的任意数值。
S2:基于步骤S1中的每个药材的常用配伍集合的相似性,计算所述药物集合中任意两个药材之间的相似度,并形成N×N维药物相似度矩阵P=[ρi,j]N×N,其中矩阵P的第i行、第j列的元素ρi,j表示计算得到的药物集合X中第i个药材xi和第j个药材xj的相似度;
S3:将所述药物集合中的每个药材作为一个聚类,根据步骤S2中得到的所述药物相似性矩阵,并利用分层聚类的方式建立相似度大于参考阈值聚类的聚类集,每个所述聚类中的药材为相似药材。
图4为是根据本发明实施例的一种基于分层聚类的相似中药材挖掘方法的步骤S2的流程图,该步骤S2又可以包括:
S21:分别计算所述药物集合中任意两个药材的常用配伍集合的并集;即,针对药物集合X中任意两个药材xi和xj,计算药材xi的常用配伍药物集合A(xi)和药材xj的常用配伍药物集合A(xj)的并集E=A(xi)UA(xj)={e1,e2,…el…,eL},其中L表示并集E中元素个数,el表示并集E中第l个元素,l=1,2,...,L;
S22:分别构建表征两个药材xi和xj的L维配伍关系的特征向量ti=[t1,t2,...,tl,…tL]T和gj=[g1,g2,..,gl,...gL]T,其中符号[]T表示向量转置,tl和gl分别表示特征向量ti和gj中的第l个元素,其取值为
其中,el表示并集中第l个元素,fi(el)表示el属于xi的常用配伍药物集合A(xi)的情况下,在对应的配伍药物词频集合F(xi)中的相对词频取值;
S23:计算所述步骤S22得到的两个特征向量ti和gj的余弦相似度作为两个药材xi和xj之间的相似度,所述相似度根据下式计算获得:
S24:重复步骤S21-S23,并基于步骤S23中得到的所述药物集合中所有的药材对之间的相似度获得N×N维药物相似度矩阵P=[ρi,j]N×N,其中所述药物相似矩阵的第i行、第j列的元素ρi,j表示计算得到的所述药物集合中第i个药材xi和第j个药材xj的相似度,N表示所述药物集合中包含的药材个数。
图5所示,为本发明实施例中的相似中药材挖掘方法中基于分层聚类的挖掘方法的流程图,即图2中步骤S3的流程图,其中可以包括:
S31:将所述药物集合X中的每一个药材xi作为一个聚类ci=(xi),并形成一个初始化的聚类集C=(c1,...,ci,...cN),并设置聚类相似度阈值为η,该阈值的设定可以根据不同的需求进行设置,如80%-95%中任意一个数值。
S32:根据步骤S2得到的所述药物相似度矩阵P计算所述聚类集C中的每一个聚类对(ci,cj)之间的相似度si,j,并并通过大小对比后获得具有最大相似度的一个聚类对(ci′,cj′),其中i=1,2,...,N,j=1,2,...,N且i≠j,i′=1,2,...,N,j′=1,2,…,N且i′≠j′;本实施例中,计算所述聚类集C中每个聚类对(ci,cj)的相似度的方法包括:
S321:从聚类ci和聚类cj中各抽取一个元素组成药材对,共产生K1×K2个这样的药材对,其中K1表示聚类ci中的元素个数,K2表示聚类cj中的元素个数;
S322:对上述K1×K2个药材对,在步骤S2得到的药物相似度矩阵P中查询每个药材对之间的相似度取值,并取其中的最小值作为聚类ci和聚类cj之间的相似度si,j。
步骤S33:比较步骤S32得到的最大相似度(smax)的值是否大于预先设置的聚类相似度阈值η,若大于,则执行步骤S34,否则直接执行步骤S36;
步骤S34:根据步骤S32得到的结果,将具有最大相似度的两个聚类ci′和cj′合并成一个新的聚类ck=ci′∪cj′,同时合并ci′和cj′里的中药材元素,形成更新后的聚类集C;
步骤S35:重复执行步骤S32~S34,直到步骤S33中的最大相似度smax的值是小于所述聚类相似度阈值;
步骤S36:对于药材xm,在所述更新后的聚类集C中查询出包含xm的聚类c′,则聚类c′中的除xm之外的其它中药材元素即为挖掘到的和药材xm的相似度不小于阈值的相似中药材。也就是说,对于给定药物集合X中的某一个稀缺中药材xm,在聚类集C中查询到包含xm的聚类c′,则聚类c′中的除xm之外的其它中药材元素即为挖掘到的药材xm的相似度不小于阈值η的相似中药材。
综上,本发明提供了一种基于分层聚类的相似中药材挖掘方法,通过使用分层聚类大数据挖掘方法代替传统人工靠学识和经验的方法去挖掘中药药物相似性的关系,可应对海量中药数据的分析,得到稀缺中药材更加客观、可靠的相似药材替代品。
另外,本发明还提供了一种相似中药材挖掘装置的原理框图,其中应用了如上所述的相似中药材挖掘方法。具体如图6所示,为本发明实施例中一种相似中药材挖掘装置的原理框图,其中,本实施例中所提供的相似中药材挖掘装置可以包括:中药方数据库1、输入装置2、数据处理装置3和查询装置4。其中,中药方数据库内存储有药方数据;本实施例中的中药方数据库1内优选存储有足够大量的药方数据,以保证挖掘装置的挖掘精度。输入装置2配置为输入药材名称,以便于查询与该输入药材相似的中药材。数据处理装置3可以用于构建聚类集,且所述聚类集内包括多个聚类,且每个聚类中的药材的相似度大于参考阈值类;查询装置4其配置为在所述聚类集中查询包括所输入的药材的聚类,并输出该聚类的全部药材名称,该聚类内的其他药材为所要查找的相似药材。其中,查询装置4可以将所查询到的结果输出在显示设备上,以方便用户查看。
其中,数据处理装置3进一步配置为基于药物集合中各药物的配伍集合获取药物相似矩阵,并计算所述聚类集中的每一个聚类对(ci,cj)之间的相似度si,j,通过比较获得具有最大相似度的一个聚类对(ci′,cj′)和聚类相似阈值,执行更新所述聚类集。
其中,数据处理装置3获取药物相似矩阵的方法包括:
分别计算所述药物集合中任意两个药材的常用配伍集合的并集;
分别构建表征两个所述药材的配伍关系的特征向量ti=[t1,t2,…,tl,…tL]T和gj=[g1,g2,…,gl,…gL]T,其中符号[]T表示向量转置,tl和gl分别表示特征向量ti和gj中的第l个元素,其取值为
其中,el表示并集中第l个元素,fi(el)表示el属于xi的常用配伍药物集合A(xi)的情况下,在对应的配伍药物词频集合F(xi)中的相对词频取值;
计算两个特征向量ti和gj的余弦相似度作为两个药材之间的相似度,所述相似度根据下式计算获得:
基于得到的所述药物集合中所有的药材对之间的相似度获得药物相似度矩阵P=[ρi,j]N×N,其中所述药物相似矩阵的第i行、第j列的元素ρi,j表示计算得到的所述药物集合中第i个药材xi和第j个药材xj的相似度,N表示所述药物集合中包含的药材个数。
另外,数据处理装置获取所述药物配伍集合的方法包括:针对所述药物集合中的每一个药材,在中药药方数据库中查询所有包含该药材的药方,统计与该药材配伍使用的频次较高的前M种中药材(y1,y2,...,yM)组成所述药材的常用配伍药物集合A(xi)={y1,y2,...,ym,...,yM}。
综上,本发明使用分层聚类大数据挖掘方法代替传统人工靠学识和经验的方法去挖掘中药药物相似性的关系,可应对海量中药数据的分析,得到稀缺中药材更加客观、可靠的相似药材替代品。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。
Claims (9)
1.一种相似中药材挖掘方法,其特征在于,包括以下步骤:
S1:对于给定的药物集合X=(x1,...,xi,...xN),构建关于其中每一个药材的常用配伍药物集合A(xi)和配伍药物词频集合F(xi),其中,xi表示药材,i=1,2,...,N;
S2:基于所述步骤S1中的每个药材的常用配伍集合的相似性,计算所述药物集合中任意两个药材之间的相似度,并形成药物相似度矩阵;其中所述药物相似矩阵的第i行、第j列的元素表示计算得到的所述药物集合中第i个药材和第j个药材的相似度;
S3:将所述药物集合中的每个药材作为一个聚类,根据步骤S2中得到的所述药物相似性矩阵,并利用分层聚类的方式建立相似度大于参考阈值的聚类的聚类集,每个所述聚类中的药材为相似药材;
其中,所述步骤S2包括:
S21:分别计算所述药物集合中任意两个药材的常用配伍集合的并集;
S22:分别构建表征两个所述药材的配伍关系的特征向量ti=[t1,t2,...,tl,...tL]T和gj=[g1,g2,..,gl,...gL]T,其中符号[]T表示向量转置,tl和gl分别表示特征向量ti和gj中的第l个元素,其取值为
其中,el表示并集中第l个元素,fi(el)表示el属于xi的常用配伍药物集合A(xi)的情况下,在对应的配伍药物词频集合F(xi)中的相对词频取值;
S23:计算所述步骤S22得到的两个特征向量ti和gj的余弦相似度作为两个药材之间的相似度,所述相似度根据下式计算获得:
S24:基于步骤S23中得到的所述药物集合中所有的药材对之间的相似度获得药物相似度矩阵P=[ρi,j]N×N,其中所述药物相似矩阵的第i行、第j列的元素ρi,j表示计算得到的所述药物集合中第i个药材xi和第j个药材xj的相似度,N表示所述药物集合中包含的药材个数。
2.根据权利要求1所述的相似中药材挖掘方法,其特征在于,所述步骤S1进一步包括:
S11:针对所述药物集合中的每一个药材,在中药药方数据库中查询所有包含该药材的药方,统计与该药材配伍使用的频次较高的前M种中药材(y1,y2,...,yM)组成所述药材的常用配伍药物集合A(xi)={y1,y2,...,ym,...,yM};
S12:将所述M种中药材在所述药方中出现的相对词频(fi(y1),fi(y2),...,fi(yM))保存成所述药材的配伍药物词频集合F(xi)={fi(y1),fi(y2),...,fi(ym),...,fi(yM)},其中,ym表示与所述药材配伍使用的中药材中按出现频次由高到低顺序排列的第m个中药材,fi(ym)表示其出现的相对词频,m=1,2,...,M,fi(y1)≥fi(y2)≥...≥fi(yM)。
3.根据权利要求2所述的相似中药材挖掘方法,其特征在于,其中,M≥15。
4.根据权利要求1所述的相似中药材挖掘方法,其特征在于,所述步骤S3进一步包括:
S31:将所述药物集合中的每一个药材作为一个聚类ci=(xi),并形成一个初始化的聚类集C=(c1,...,ci,...cN);
S32:根据步骤S2得到的所述药物相似度矩阵计算所述聚类集中的每一个聚类对(ci,cj)之间的相似度si,j,并获得具有最大相似度的一个聚类对(ci′,cj′),其中i=1,2,...,N,j=1,2,...,N且i≠j,i′=1,2,...,N,j′=1,2,...,N且i′≠j′;
步骤S33:比较步骤S32得到的最大相似度(smax)的值是否大于预先设置的聚类相似度阈值,若大于,则执行步骤S34,否则直接执行步骤S36;
步骤S34:根据步骤S32得到的结果,将具有最大相似度的两个聚类ci′和cj′合并成一个新的聚类ck=ci′∪cj′,同时合并ci′和cj′里的中药材元素,形成更新后的聚类集C;
步骤S35:重复执行步骤S32~S34,直到步骤S33中的最大相似度smax的值是小于所述聚类相似度阈值;
步骤S36:对于药材xm,在所述更新后的聚类集C中查询出包含xm的聚类c′,则聚类c′中的除xm之外的其它中药材元素即为挖掘到的和药材xm的相似度不小于阈值的相似中药材。
5.根据权利要求4所述的相似中药材挖掘方法,其特征在于,所述步骤S32中计算所述聚类集中每个聚类对的相似度的方法包括:
S321:从聚类ci和聚类cj中各抽取一个元素组成药材对,共产生K1×K2个这样的药材对,其中K1表示聚类ci中的元素个数,K2表示聚类cj中的元素个数;
S322:对上述K1×K2个药材对,在步骤S2得到的药物相似度矩阵P中查询每个药材对之间的相似度取值,并取其中的最小值作为聚类ci和聚类cj之间的相似度si,j。
6.一种相似中药材挖掘装置,其应用如权利要求1-5中任意一项所述的相似中药材挖掘方法,且所述装置包括:
中药方数据库,其内存储有药方数据;
输入装置,其配置为输入药材名称;
数据处理装置,其配置为构建聚类集,且所述聚类集内包括多个聚类,且所述聚类内的药材之间的相似度大于参考阈值;
查询装置,其配置为在所述聚类集中查询包括所输入的药材的聚类,并且该聚类内的其他药材为所要查找的相似药材。
7.根据权利要求6所述的装置,其特征在于,所述数据处理装置进一步配置为基于药物集合中各药物的配伍集合获取药物相似矩阵,并计算所述聚类集中的每一个聚类对(ci,cj)之间的相似度si,j,通过比较获得具有最大相似度的一个聚类对(ci′,cj′)和聚类相似阈值,执行更新所述聚类集。
8.根据权利要求7所述的装置,其特征在于,所述数据处理装置获取药物相似矩阵的方法包括:
分别计算所述药物集合中任意两个药材的常用配伍集合的并集;
分别构建表征两个所述药材的配伍关系的特征向量ti=[t1,t2,...,tl,...tL]T和gj=[g1,g2,...,gl,...gL]T,其中符号[]T表示向量转置,tl和gl分别表示特征向量ti和gj中的第l个元素,其取值为
其中,el表示并集中第l个元素,fi(el)表示el属于xi的常用配伍药物集合A(xi)的情况下,在对应的配伍药物词频集合F(xi)中的相对词频取值;
计算两个特征向量ti和gj的余弦相似度作为两个药材之间的相似度,所述相似度根据下式计算获得:
基于得到的所述药物集合中所有的药材对之间的相似度获得药物相似度矩阵P=[ρi,j]N×N,其中所述药物相似矩阵的第i行、第j列的元素ρi,j表示计算得到的所述药物集合中第i个药材xi和第j个药材xj的相似度,N表示所述药物集合中包含的药材个数。
9.根据权利要求7所述的装置,其特征在于,所述数据处理装置获取所述药物配伍集合的方法包括:针对所述药物集合中的每一个药材,在中药药方数据库中查询所有包含该药材的药方,统计与该药材配伍使用的频次较高的前M种中药材(y1,y2,...,yM)组成所述药材的常用配伍药物集合A(xi)={y1,y2,...,ym,...,yM}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610473054.9A CN106126649B (zh) | 2016-06-24 | 2016-06-24 | 一种相似中药材挖掘方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610473054.9A CN106126649B (zh) | 2016-06-24 | 2016-06-24 | 一种相似中药材挖掘方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106126649A CN106126649A (zh) | 2016-11-16 |
CN106126649B true CN106126649B (zh) | 2019-07-23 |
Family
ID=57265572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610473054.9A Active CN106126649B (zh) | 2016-06-24 | 2016-06-24 | 一种相似中药材挖掘方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106126649B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108122005B (zh) * | 2017-12-19 | 2021-09-21 | 浙江大学 | 一种临床药物层次分类的方法 |
CN108577238A (zh) * | 2018-03-27 | 2018-09-28 | 合肥龙图腾信息技术有限公司 | 一种自动查找中药材系统 |
CN108647484B (zh) * | 2018-05-17 | 2020-10-23 | 中南大学 | 一种基于多元信息集成和最小二乘法的药物关系预测方法 |
CN109145162B (zh) * | 2018-08-21 | 2021-06-15 | 慧安金科(北京)科技有限公司 | 用于确定数据相似度的方法、设备和计算机可读存储介质 |
CN109284420B (zh) * | 2018-08-31 | 2020-11-13 | 国科赛思(北京)科技有限公司 | 电子元器件替代选型系统及替代选型方法 |
CN110010251B (zh) * | 2019-02-01 | 2022-04-15 | 华南师范大学 | 一种中药社团信息生成方法、系统、装置和存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663108A (zh) * | 2012-04-16 | 2012-09-12 | 南京大学 | 基于复杂网络模型并行化标签传播算法的药物社团发现方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060052943A1 (en) * | 2004-07-28 | 2006-03-09 | Karthik Ramani | Architectures, queries, data stores, and interfaces for proteins and drug molecules |
-
2016
- 2016-06-24 CN CN201610473054.9A patent/CN106126649B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663108A (zh) * | 2012-04-16 | 2012-09-12 | 南京大学 | 基于复杂网络模型并行化标签传播算法的药物社团发现方法 |
Non-Patent Citations (2)
Title |
---|
中医药方剂相似度模型;操牡丹 等;《计算机工程》;20090820;第35卷(第16期);第275-276页 |
基于数据挖掘方法的综合症-药物关系挖掘;李仁泽;《中国优秀硕士学位论文全文数据库 信息科技辑》;20131015(第10期);第I138-264页,正文第4.1-4.4节 |
Also Published As
Publication number | Publication date |
---|---|
CN106126649A (zh) | 2016-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106126649B (zh) | 一种相似中药材挖掘方法及装置 | |
CN108595614A (zh) | 应用于his系统的数据表映射方法 | |
CN106933994B (zh) | 一种基于中医药知识图谱的核心症证关系构建方法 | |
Psorakis et al. | Overlapping community detection using Bayesian non-negative matrix factorization | |
CN109063094A (zh) | 一种建立中医药知识图谱的方法 | |
Lee et al. | Defining predictive probability functions for species sampling models | |
CN102122325B (zh) | 一种中药方剂功效自动分析方法 | |
CN104484845B (zh) | 基于医学信息本体数据库的疾病自我分析平台 | |
CN104866979A (zh) | 一种突发急性传染病的中医病例数据处理方法和系统 | |
Lee et al. | Community detection: effective evaluation on large social networks | |
CN104463754A (zh) | 基于疾病特征的医学信息本体数据库的建立方法 | |
CN106529138A (zh) | 信息推送方法和装置 | |
CN112199425A (zh) | 基于混合数据库结构的医疗大数据中心及其建设方法 | |
Adhikari et al. | Propagation-based temporal network summarization | |
CN113222181A (zh) | 一种面向k-means聚类算法的联邦学习方法 | |
Tan et al. | A new species of Omeisaurus (Dinosauria: sauropoda) from the Middle Jurassic of Yunyang, Chongqing, China | |
CN116564553A (zh) | 一种基于共病特征的用药效果预测方法 | |
CN104820775A (zh) | 一种中药方剂核心药物的发现方法 | |
CN104933320B (zh) | 一种基于加权PageRank算法的方剂药物属性定量方法及系统 | |
CN105701330B (zh) | 健康信息处理方法及系统 | |
Malini et al. | Opinion mining on movie reviews | |
Lee et al. | Benchmarking community detection methods on social media data | |
CN109493940A (zh) | 基于深度学习和知识库的处方个性化推荐方法和系统 | |
Ravat et al. | A temporal object-oriented data warehouse model | |
Jin et al. | CUDAP: A Novel Clustering Algorithm for Uncertain Data Based on Approximate Backbone. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |