CN106126649B

CN106126649B - 一种相似中药材挖掘方法及装置

Info

Publication number: CN106126649B
Application number: CN201610473054.9A
Authority: CN
Inventors: 黄亦谦
Original assignee: Beijing Kilo-Ampere Wise Man Information Technology Co Ltd
Current assignee: Beijing Kilo-Ampere Wise Man Information Technology Co Ltd
Priority date: 2016-06-24
Filing date: 2016-06-24
Publication date: 2019-07-23
Anticipated expiration: 2036-06-24
Also published as: CN106126649A

Abstract

本发明提供了一种相似中药材挖掘方法及装置，该方法包括：S1：对于给定的药物集合，构建关于其中每一个药材的常用配伍药物集合和配伍药物词频集合；S2：基于步骤S1中的每个药材的常用配伍集合的相似性，计算药物集合中任意两个药材之间的相似度，并形成药物相似度矩阵；S3：将药物集合中的每个药材作为一个聚类，根据步骤S2中得到的药物相似性矩阵，并利用分层聚类的方式建立相似度大于参考阈值的聚类的聚类集，每个聚类中的药材为相似药材。本发明利用大数据挖掘方法代替挖掘中药药物相似性的关系，可应对海量中药数据的分析，且挖掘精度较高。

Description

一种相似中药材挖掘方法及装置

技术领域

本发明涉及医药学数据挖掘领域，尤其涉及一种相似中药材挖掘方法及装置。

背景技术

中药材是中药方剂、中成药的组成单元，是各大中药诊所、药房以及中药制药厂必不可少的原料。实际情况中，常出现某一种药材，例如虎骨、犀角等已被列为濒危中药品种或受保护不被国家允许开采的行列，或是某一药材因市场紧缺而不能及时到位，同时，根据病人的经济能力，某些名贵中药材也被排除到了用药考虑范围。以上各种情况，均使得原有药方中的配伍药物缺失而使得病人不能按方抓药。而目前，对于稀缺中药材的替代品寻找大多依赖中医从医人员的学识和经验进行人工寻找，面对海量的中药材数据和数量庞大的稀缺药材替代品需求显得力所不及。

随着医疗电子和数据库技术的发展，从海量的药材药物、方剂数据中运用数据挖掘手段提取病症、药物的相互关系和规律，为寻找稀缺药材的替代品提供了思路。

发明内容

本发明所要解决的是提供一种能够基于分层聚类的方式挖掘出相似的中药材的相似中药材挖掘方法及装置。

为了解决上述技术问题，本发明提供了如下的技术方案：

一种相似中药材挖掘方法，包括以下步骤：

S1：对于给定的药物集合X＝(x₁,...,x_i,...x_N)，构建关于其中每一个药材的常用配伍药物集合A(x_i)和配伍药物词频集合F(x_i)，其中，x_i表示药材，i＝1,2,...,N；

S2：基于所述步骤S1中的每个药材的常用配伍集合的相似性，计算所述药物集合中任意两个药材之间的相似度，并形成药物相似度矩阵；其中所述药物相似矩阵的第i行、第j列的元素表示计算得到的所述药物集合中第i个药材和第j个药材的相似度；

S3：将所述药物集合中的每个药材作为一个聚类，根据步骤S2中得到的所述药物相似性矩阵，并利用分层聚类的方式建立相似度大于参考阈值的聚类的聚类集，每个所述聚类中的药材为相似药材。

其中，所述步骤S1进一步包括：

S11：针对所述药物集合中的每一个药材，在中药药方数据库中查询所有包含该药材的药方，统计与该药材配伍使用的频次较高的前M种中药材(y₁,y₂,...,y_M)组成所述药材的常用配伍药物集合A(x_i)＝{y₁,y₂,...,y_m,...,y_M}；

S12：将所述M种中药材在所述药方中出现的相对词频(f_i(y₁),f_i(y₂),...,f_i(y_M))保存成所述药材的配伍药物词频集合F(x_i)＝{f_i(y₁),f_i(y₂),...,f_i(y_m),...,f_i(y_M)}，其中，y_m表示与所述药材配伍使用的中药材中按出现频次由高到低顺序排列的第m个中药材，f_i(y_m)表示其出现的相对词频，m＝1,2,...,M，f_i(y₁)≥f_i(y₂)≥...≥f_i(y_M)。

其中，M≥15。

其中，所述步骤S2包括：

S21：分别计算所述药物集合中任意两个药材的常用配伍集合的并集；

S22：分别构建表征两个所述药材的配伍关系的特征向量t_i＝[t₁,t₂,...,t_l,...t_L]^T和g_j＝[g₁,g₂,...,g_l,...g_L]^T，其中符号[]^T表示向量转置，t_l和g_l分别表示特征向量t_i和g_j中的第l个元素，其取值为

其中，e_l表示并集中第l个元素，f_i(e_l)表示e_l属于x_i的常用配伍药物集合A(x_i)的情况下，在对应的配伍药物词频集合F(x_i)中的相对词频取值；

S23：计算所述步骤S22得到的两个特征向量t_i和g_j的余弦相似度作为两个药材之间的相似度，所述相似度根据下式计算获得：

S24：基于步骤S23中得到的所述药物集合中所有的药材对之间的相似度获得药物相似度矩阵P＝[ρ_i,j]_N×N，其中所述药物相似矩阵的第i行、第j列的元素ρ_i,j表示计算得到的所述药物集合中第i个药材x_i和第j个药材x_j的相似度，N表示所述药物集合中包含的药材个数。

其中，所述步骤S3进一步包括：

S31：将所述药物集合中的每一个药材作为一个聚类c_i＝(x_i)，并形成一个初始化的聚类集C＝(c₁,...,c_i,...c_N)；

S32：根据步骤S2得到的所述药物相似度矩阵计算所述聚类集中的每一个聚类对(c_i,c_j)之间的相似度s_i,j，并获得具有最大相似度的一个聚类对(c_i′,c_j′)，其中i＝1,2,...,N，j＝1,2,...,N且i≠j，i′＝1,2,...,N，j′＝1,2,...,N且i′≠j′；

步骤S33：比较步骤S32得到的最大相似度(s_max)的值是否大于预先设置的聚类相似度阈值，若大于，则执行步骤S34，否则直接执行步骤S36；

步骤S34：根据步骤S32得到的结果，将具有最大相似度的两个聚类c_i′和c_j′合并成一个新的聚类c_k＝c_i′∪c_j′，同时合并c_i′和c_j′里的中药材元素，形成更新后的聚类集C；

步骤S35：重复执行步骤S32～S34，直到步骤S33中的最大相似度s_max的值是小于所述聚类相似度阈值；

步骤S36：对于药材x_m，在所述更新后的聚类集C中查询出包含x_m的聚类c′，则聚类c′中的除x_m之外的其它中药材元素即为挖掘到的和药材x_m的相似度不小于阈值的相似中药材。

其中，所述步骤S32中计算所述聚类集中每个聚类对的相似度的方法包括：

S321：从聚类c_i和聚类c_j中各抽取一个元素组成药材对，共产生K₁×K₂个这样的药材对，其中K₁表示聚类c_i中的元素个数，K₂表示聚类c_j中的元素个数；

S322：对上述K₁×K₂个药材对，在步骤S2得到的药物相似度矩阵P中查询每个药材对之间的相似度取值，并取其中的最小值作为聚类c_i和聚类c_j之间的相似度s_i,j。

一种相似中药材挖掘装置，其应用如上所述的相似中药材挖掘方法，且所述装置包括：

中药方数据库，其内存储有药方数据；

输入装置，其配置为输入药材名称；

数据处理装置，其配置为构建聚类集，且所述聚类集内包括多个聚类，且所述聚类内的药材之间的相似度大于参考阈值；

查询装置，其配置为在所述聚类集中查询包括所输入的药材的聚类，并且该聚类内的其他药材为所要查找的相似药材。

其中，所述数据处理装置进一步配置为基于药物集合中各药物的配伍集合获取药物相似矩阵，并计算所述聚类集中的每一个聚类对(c_i,c_j)之间的相似度s_i,j，通过比较获得具有最大相似度的一个聚类对(c_i′,c_j′)和聚类相似阈值，执行更新所述聚类集。

其中，所述数据处理装置获取药物相似矩阵的方法包括：

分别计算所述药物集合中任意两个药材的常用配伍集合的并集；

分别构建表征两个所述药材的配伍关系的特征向量t_i＝[t₁,t₂,...,t_l,...t_L]^T和g_j＝[g₁,g₂,...,g_l,...g_L]^T，其中符号[]^T表示向量转置，t_l和g_l分别表示特征向量t_i和g_j中的第l个元素，其取值为

计算两个特征向量t_i和g_j的余弦相似度作为两个药材之间的相似度，所述相似度根据下式计算获得：

基于得到的所述药物集合中所有的药材对之间的相似度获得药物相似度矩阵P＝[ρ_i,j]_N×N，其中所述药物相似矩阵的第i行、第j列的元素ρ_i,j表示计算得到的所述药物集合中第i个药材x_i和第j个药材x_j的相似度，N表示所述药物集合中包含的药材个数。

其中，所述数据处理装置获取所述药物配伍集合的方法包括：针对所述药物集合中的每一个药材，在中药药方数据库中查询所有包含该药材的药方，统计与该药材配伍使用的频次较高的前M种中药材(y₁,y₂,...,y_M)组成所述药材的常用配伍药物集合A(x_i)＝{y₁,y₂,...,y_m,...,y_M}。

与现有技术相比，本发明的有益效果在于：

(1)本发明可以使用分层聚类大数据挖掘方法代替传统人工靠学识和经验的方法去挖掘中药药物相似性的关系，可应对海量中药数据的分析；

(2)本发明的分层聚类相似性度量充分考虑了中药方剂中的配伍规律特性，使挖掘结果更加客观、可靠。

附图说明

图1为本发明实施例中的一种倒状聚类树的示意图；

图2为本发明实施例中的一种相似中药材挖掘方法的流程图；

图3为图2中步骤S1的原理流程图；

图4为图2中步骤S2的原理流程图；

图5为图2中步骤S3的原理流程图；

图6为本发明实施例中的一种相似中药材挖掘装置的原理框图。

具体实施方式

下面，结合附图对本发明的具体实施例进行详细的描述，但不作为本发明的限定。

本发明提供了一种相似中药材挖掘方法，该方法基于分层聚类(HierarchicalClustering)的方式实现，具有较高精度的挖掘方法，也具有更有效的挖掘效率。

首先，在详细介绍本发明的实施方式的细节之前，先简单描述分层聚类的一些概念和步骤。

分层聚类是一种无监督学习聚类算法，通过构建具有层次的倒状聚类树，逐步产生嵌套聚类的层次。如图1所示，为本发明实施例中的一种倒状聚类树的示意图。其中，在树的最底层是未进行聚类的节点，每上一层是嵌套下一层的聚类。根据聚类方式，分层聚类可分为自下而上的合并聚类，以及自上而下的分裂聚类，本发明专利利用合并聚类进行。

对于给定的数据集D＝(d₁,...,d_i,...d_N)，合并聚类步骤为：

1)将数据集D中的每一个数据d_i作为一个聚类c_i＝(d_i)，形成一个初始化的聚类集C＝(c₁,...,c_i,...c_N)；

2)计算聚类集C中的每个聚类对(c_i,c_j)之间的相似度，该相似度的衡量取决于聚类中所有节点之间的最大的距离；

3)选取具有最大相似度的两个聚类(c_i,c_j)合并成一个新的聚类c_k＝c_i∪c_j，同时合并c_i和c_j里的数据；

4)重复执行上述两步骤，同时根据需要的产生的聚类数目或设置相似度阈值终止条件，得到最终的聚类结果。

本发明实施例中采用如上的分层聚类方式进行相似中药材的数据挖掘，具体的，如图2所示为本发明实施例中的一种相似中药材挖掘方法的流程图。其中可以包括以下步骤：

S1：对于给定的药物集合X＝(x₁,...,x_i,...x_N)，构建关于该药物集合X中的每一个药材x_i的常用配伍药物集合A(x_i)和配伍药物词频集合F(x_i)，其中，x_i表示药材，i＝1,2,...,N；本实施例中，如图3所示，针对药物集合X中的每一个药材x_i，构建其常用配伍药物集合A(x_i)和配伍药物词频集合F(x_i)的方法包括：

S12：将所述M种中药材在所述药方中出现的相对词频(f_i(y₁),f_i(y₂),...,f_i(y_M))保存成所述药材的配伍药物词频集合F(x_i)＝{f_i(y₁),f_i(y₂),...,f_i(y_m),...,f_i(y_M)}，其中，y_m表示与所述药材配伍使用的中药材中按出现频次由高到低顺序排列的第m个中药材，f_i(y_m)表示其出现的相对词频，m＝1,2,...,M，f_i(y₁)≥f_i(y₂)≥...≥f_i(y_M)，其中M可以是大于或等于15的任意数值。

S2：基于步骤S1中的每个药材的常用配伍集合的相似性，计算所述药物集合中任意两个药材之间的相似度，并形成N×N维药物相似度矩阵P＝[ρ_i,j]_N×N，其中矩阵P的第i行、第j列的元素ρ_i,j表示计算得到的药物集合X中第i个药材x_i和第j个药材x_j的相似度；

S3：将所述药物集合中的每个药材作为一个聚类，根据步骤S2中得到的所述药物相似性矩阵，并利用分层聚类的方式建立相似度大于参考阈值聚类的聚类集，每个所述聚类中的药材为相似药材。

图4为是根据本发明实施例的一种基于分层聚类的相似中药材挖掘方法的步骤S2的流程图，该步骤S2又可以包括：

S21：分别计算所述药物集合中任意两个药材的常用配伍集合的并集；即，针对药物集合X中任意两个药材x_i和x_j，计算药材x_i的常用配伍药物集合A(x_i)和药材x_j的常用配伍药物集合A(x_j)的并集E＝A(x_i)UA(x_j)＝{e₁,e₂,…e_l…,e_L}，其中L表示并集E中元素个数，e_l表示并集E中第l个元素，l＝1,2,...,L；

S22：分别构建表征两个药材x_i和x_j的L维配伍关系的特征向量t_i＝[t₁,t₂,...,t_l,…t_L]^T和g_j＝[g₁,g₂,..,g_l,...g_L]^T，其中符号[]^T表示向量转置，t_l和g_l分别表示特征向量t_i和g_j中的第l个元素，其取值为

S23：计算所述步骤S22得到的两个特征向量t_i和g_j的余弦相似度作为两个药材x_i和x_j之间的相似度，所述相似度根据下式计算获得：

S24：重复步骤S21-S23，并基于步骤S23中得到的所述药物集合中所有的药材对之间的相似度获得N×N维药物相似度矩阵P＝[ρ_i,j]_N×N，其中所述药物相似矩阵的第i行、第j列的元素ρ_i,j表示计算得到的所述药物集合中第i个药材x_i和第j个药材x_j的相似度，N表示所述药物集合中包含的药材个数。

图5所示，为本发明实施例中的相似中药材挖掘方法中基于分层聚类的挖掘方法的流程图，即图2中步骤S3的流程图，其中可以包括：

S31：将所述药物集合X中的每一个药材x_i作为一个聚类c_i＝(x_i)，并形成一个初始化的聚类集C＝(c₁,...,c_i,...c_N)，并设置聚类相似度阈值为η，该阈值的设定可以根据不同的需求进行设置，如80％-95％中任意一个数值。

S32：根据步骤S2得到的所述药物相似度矩阵P计算所述聚类集C中的每一个聚类对(c_i,c_j)之间的相似度s_i,j，并并通过大小对比后获得具有最大相似度的一个聚类对(c_i′,c_j′)，其中i＝1,2,...,N，j＝1,2,...,N且i≠j，i′＝1,2,...,N，j′＝1,2,…,N且i′≠j′；本实施例中，计算所述聚类集C中每个聚类对(c_i,c_j)的相似度的方法包括：

步骤S33：比较步骤S32得到的最大相似度(s_max)的值是否大于预先设置的聚类相似度阈值η，若大于，则执行步骤S34，否则直接执行步骤S36；

步骤S36：对于药材x_m，在所述更新后的聚类集C中查询出包含x_m的聚类c′，则聚类c′中的除x_m之外的其它中药材元素即为挖掘到的和药材x_m的相似度不小于阈值的相似中药材。也就是说，对于给定药物集合X中的某一个稀缺中药材x_m，在聚类集C中查询到包含x_m的聚类c′，则聚类c′中的除x_m之外的其它中药材元素即为挖掘到的药材x_m的相似度不小于阈值η的相似中药材。

综上，本发明提供了一种基于分层聚类的相似中药材挖掘方法，通过使用分层聚类大数据挖掘方法代替传统人工靠学识和经验的方法去挖掘中药药物相似性的关系，可应对海量中药数据的分析，得到稀缺中药材更加客观、可靠的相似药材替代品。

另外，本发明还提供了一种相似中药材挖掘装置的原理框图，其中应用了如上所述的相似中药材挖掘方法。具体如图6所示，为本发明实施例中一种相似中药材挖掘装置的原理框图，其中，本实施例中所提供的相似中药材挖掘装置可以包括：中药方数据库1、输入装置2、数据处理装置3和查询装置4。其中，中药方数据库内存储有药方数据；本实施例中的中药方数据库1内优选存储有足够大量的药方数据，以保证挖掘装置的挖掘精度。输入装置2配置为输入药材名称，以便于查询与该输入药材相似的中药材。数据处理装置3可以用于构建聚类集，且所述聚类集内包括多个聚类，且每个聚类中的药材的相似度大于参考阈值类；查询装置4其配置为在所述聚类集中查询包括所输入的药材的聚类，并输出该聚类的全部药材名称，该聚类内的其他药材为所要查找的相似药材。其中，查询装置4可以将所查询到的结果输出在显示设备上，以方便用户查看。

其中，数据处理装置3进一步配置为基于药物集合中各药物的配伍集合获取药物相似矩阵，并计算所述聚类集中的每一个聚类对(c_i,c_j)之间的相似度s_i,j，通过比较获得具有最大相似度的一个聚类对(c_i′,c_j′)和聚类相似阈值，执行更新所述聚类集。

其中，数据处理装置3获取药物相似矩阵的方法包括：

分别构建表征两个所述药材的配伍关系的特征向量t_i＝[t₁,t₂,…,t_l,…t_L]^T和g_j＝[g₁,g₂,…,g_l,…g_L]^T，其中符号[]^T表示向量转置，t_l和g_l分别表示特征向量t_i和g_j中的第l个元素，其取值为

另外，数据处理装置获取所述药物配伍集合的方法包括：针对所述药物集合中的每一个药材，在中药药方数据库中查询所有包含该药材的药方，统计与该药材配伍使用的频次较高的前M种中药材(y₁,y₂,...,y_M)组成所述药材的常用配伍药物集合A(x_i)＝{y₁,y₂,...,y_m,...,y_M}。

综上，本发明使用分层聚类大数据挖掘方法代替传统人工靠学识和经验的方法去挖掘中药药物相似性的关系，可应对海量中药数据的分析，得到稀缺中药材更加客观、可靠的相似药材替代品。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种相似中药材挖掘方法，其特征在于，包括以下步骤：

S3：将所述药物集合中的每个药材作为一个聚类，根据步骤S2中得到的所述药物相似性矩阵，并利用分层聚类的方式建立相似度大于参考阈值的聚类的聚类集，每个所述聚类中的药材为相似药材；

其中，所述步骤S2包括：

S22：分别构建表征两个所述药材的配伍关系的特征向量t_i＝[t₁,t₂,...,t_l,...t_L]^T和g_j＝[g₁,g₂,..,g_l,...g_L]^T，其中符号[]^T表示向量转置，t_l和g_l分别表示特征向量t_i和g_j中的第l个元素，其取值为

2.根据权利要求1所述的相似中药材挖掘方法，其特征在于，所述步骤S1进一步包括：

3.根据权利要求2所述的相似中药材挖掘方法，其特征在于，其中，M≥15。

4.根据权利要求1所述的相似中药材挖掘方法，其特征在于，所述步骤S3进一步包括：

5.根据权利要求4所述的相似中药材挖掘方法，其特征在于，所述步骤S32中计算所述聚类集中每个聚类对的相似度的方法包括：

6.一种相似中药材挖掘装置，其应用如权利要求1-5中任意一项所述的相似中药材挖掘方法，且所述装置包括：

中药方数据库，其内存储有药方数据；

输入装置，其配置为输入药材名称；

7.根据权利要求6所述的装置，其特征在于，所述数据处理装置进一步配置为基于药物集合中各药物的配伍集合获取药物相似矩阵，并计算所述聚类集中的每一个聚类对(c_i,c_j)之间的相似度s_i,j，通过比较获得具有最大相似度的一个聚类对(c_i′,c_j′)和聚类相似阈值，执行更新所述聚类集。

8.根据权利要求7所述的装置，其特征在于，所述数据处理装置获取药物相似矩阵的方法包括：

9.根据权利要求7所述的装置，其特征在于，所述数据处理装置获取所述药物配伍集合的方法包括：针对所述药物集合中的每一个药材，在中药药方数据库中查询所有包含该药材的药方，统计与该药材配伍使用的频次较高的前M种中药材(y₁,y₂,...,y_M)组成所述药材的常用配伍药物集合A(x_i)＝{y₁,y₂,...,y_m,...,y_M}。