CN108122005A

CN108122005A - 一种临床药物层次分类的方法

Info

Publication number: CN108122005A
Application number: CN201711379919.6A
Authority: CN
Inventors: 李昊旻; 曾娴; 段会龙
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-12-19
Filing date: 2017-12-19
Publication date: 2018-06-05
Anticipated expiration: 2037-12-19
Also published as: CN108122005B

Abstract

本发明公开了一种临床药物层次分类的方法，包括：从患者的临床电子病历数据库中获取药物和诊断关系，利用统计学方法建立药物‑诊断二值矩阵；以药物‑诊断二值矩阵为基础，利用Jaccard相似系数计算药物‑药物之间的距离，建立药物‑药物距离矩阵；以药物‑药物距离矩阵为基础，利用K‑means聚类算法对临床药物进行顶层分类；在每个顶层分类内部，根据药物‑药物距离关系进行顶层分类内部的层次聚类；在顶层分类之间，根据顶层分类之间的距离关系进行顶层分类之间的层次聚类；合并顶层分类内部的层次聚类和顶层分类之间的层次聚类，形成临床药物的层次分类。本发明的方法是基于临床电子病历数据、面向所有临床药物建立统一的药物层次分类的方法。

Description

一种临床药物层次分类的方法

技术领域

本发明涉及药物分类，尤其涉及一种临床药物层次分类的方法。

背景技术

药物可以通过其不同的化学结构、作用机制、作用方式或者使用疗法等方式来分类。当前应用最广的药物分类系统包括了世界卫生组织维护ATC(Anatomical TherapeuticChemical Classification)、美国退伍军人事务部退伍军人健康管理局维护的NDF-RT(National Drug File Reference Terminology)以及欧洲药品市场研究协会EphMRA(European Pharmaceutical Market Research Association)的分类系统等。但是即使是使用最为广泛的ATC分类系统中，所能涵盖的临床药物只是其中的一小部分，同时对于像我国这样存在大量中成药的情况下(2017版的国家基本医疗等保险药品目录中包含了中成药1238个，相比于西药的1297个应该说占据半壁江山)，临床中更是存在大量的药物无法归入到现有体系之中，这使得在开展一些临床药物的定量计算或者大数据分析的时候缺乏有效的手段。

现有的药物分类体系都是由药学方面的专家，通过构建一套分类依据，然后人工来构建的，一方面是不同药物以及不同市场中的大量药物出现的速度超出了专家维护的速度，另一方面一种固定分类体系有时候不能准确的给某种药物找到合适的分类，比如中成药不能依据其分子结构来分类，化药也不能根据中医理论来分类，从而影响到他对于临床药物的覆盖。为了应对这样的问题，近年来开始有研究者利用大规模的生物医学数据库中的数据比如化学结构、文献共现、生物靶标等来定量评估药物和药物之间的距离，以此来帮助构建一个药物分类体系服务于特定的目标，比如药物功能预测、药物重定位等。

但是这些方法目前普遍缺乏对于中成药的支持，一方面中成药不具备相关的分子结构、生物靶标等信息，另一方面相关的研究文献也比较少，从公开的数据库和文献中无法获得足够的资源来开展这方面的研究。

发明内容

本发明提供了一种临床药物层次分类的方法，是基于临床电子病历数据、面向所有临床药物建立统一的药物层次分类的方法。

本发明提供了如下技术方案：

一种临床药物层次分类的方法，包括以下步骤：

(1)从患者的临床电子病历数据库中获取药物和诊断关系，利用统计学方法建立药物-诊断二值矩阵；

(2)以药物-诊断二值矩阵为基础，利用Jaccard相似系数计算药物-药物之间的距离，建立药物-药物距离矩阵；

(3)以药物-药物距离矩阵为基础，利用K-means聚类算法对临床药物进行顶层分类；

(4)在每个顶层分类内部，根据药物-药物距离关系进行顶层分类内部的层次聚类；

(5)在顶层分类之间，根据顶层分类之间的距离关系进行顶层分类之间的层次聚类；

(6)合并顶层分类内部的层次聚类和顶层分类之间的层次聚类，形成临床药物的层次分类。

本发明的临床药物层次分类方法是基于临床电子病历数据、面向所有临床药物建立统一的药物层次分类的方法，可应用于特定临床机构建立自己的覆盖所有临床用药的层次分类体系，并可建立药物和药物之间定量的距离衡量，可应用于多种需要定量计算药物的场景中。

优选的，步骤(1)包括：

(1-1)从患者的临床电子病历数据库中获取患者的用药数据及对应就诊的诊断列表，形成药物-诊断关系对，获取各药物-诊断关系对在临床电子病历数据库中出现的频率，建立药物-诊断频率矩阵；

(1-2)计算每个药物-诊断关系对的超几何P值，并利用邦弗罗尼校正，校正后的超几何P值小于设定阈值时取值为1，否则取值为0，建立药物-诊断二值矩阵。

优选的，所述的设定阈值为0.05。

优选的，步骤(2)中，建立药物-药物距离矩阵的方法包括：

(2-1)以药物-诊断二值矩阵为基础，利用Jaccard相似因子计算可以获得两个药物之间的相似性，计算公式为：

其中，J(d_i，d_j)表示药物i和j的Jaccard相似系数，d_i代表药物i对应的诊断集二值向量，d_j代表药物j对应的诊断集二值向量；

(2-1)根据两个药物之间的相似性可以计算该两药物之间的距离，计算公式为：

d_J(d_i，d_j)＝1-J(d_i，d_j) (ii)，

其中，d_J(d_i，d_j)表示药物i和j的Jaccard距离，J(d_i，d_j)表示药物i和j的Jaccard相似系数；

(2-3)根据药物之间的距离建立药物-药物距离矩阵。

优选的，步骤(3)和步骤(4)之间还包括：通过重采样方法或Jaccard相似性评估方法筛选确定顶层分类的个数。

为了确保聚类的稳定性，通过重采样方法或Jaccard相似性评估方法确定最好的顶层分类数目，使用最佳的顶层分类数目把临床药物分为对应的几个顶层分类。

对于每个顶层分类中的药物，利用其中的药物-药物距离关系进行层次聚类；对于顶层分类间，可以通过步骤(5)进行顶层分类间的层次聚类。

优选的，步骤(5)包括：

(5-1)分别获取与每个顶层分类相关联的诊断列表，获取每个诊断的ICD-10编码的信息；

通过式(iii)获取ICD-10编码的信息，

其中，IC(a)代表ICD-10编码a的信息量，leaves(a)代表ICD-10编码a包含的叶子节点的数量，subsumers(a)代表了ICD-10编码a上层节点的数量，leaves(root)代表了ICD-10编码根节点下所有叶子节点的数量；

(5-2)利用ICD-10编码的层次结构评估两个ICD-10编码之间的相似性，从而获得两个诊断列表之间的距离；

通过式(iv)计算两个ICD-10编码之间的相似性，

其中，CSim(a，b)代表ICD-10编码a和b的相似性距离，IC(a)代表ICD-10编码a的信息量，IC(b)代表ICD-10编码b的信息量，IC(c)代表ICD-10编码a和b的最近的共同祖先节点c的信息量；

通过式(v)计算两个诊断列表之间的距离，

其中，SSim(A，B)代表诊断集A和B的相似性距离，其中a为诊断集A中的一个诊断ICD-10编码，b为诊断集B中的一个诊断ICD-10编码，CSim(a，b)代表了诊断编码a和b的相似性距离，|A|代表诊断集A包含的诊断数量，|B|代表诊断集B中包含的诊断数量；

(5-3)以诊断列表之间的距离分别作为与其相关联的顶层分类之间的距离，并基于该距离在顶层分类之间进行层次聚类。

最后，合并顶层分类内部的层次聚类和顶层分类之间的层次聚类，即可完成对临床药物的层次分类。

与现有技术相比，本发明的有益效果为：

首先，本发明的分类方法可以覆盖所有临床药物，以往药物分类方法都是基于固定的分类标准，当出现复合药物、中成药物等情况时，不能按统一标准分类或者无法唯一的归类；

其次，本发明的分类方法本身是基于定量的药物和药物距离关系建立的，因此天然获得的这种定量信息可以服务于定量的药物大数据分析，传统的分类方法中通常是基于各种标准的，需要转化为特定模型来评估药物距离。

附图说明

图1为本发明的临床药物层次分类方法的流程示意图；

图2为临床药物顶层分类之间的层次关系图；

图3为第7个顶层分类内部的层次关系图；

图4为第23个顶层分类内部的层次关系图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

本发明的临床药物层次分类的方法的流程如图1所示，包括以下步骤：

药物-诊断频率矩阵的建立方法：

临床电子病历系统中通常都包含有患者以此住院所有的诊断信息以及住院期间所有的药物医嘱信息。通过数据库查询可以获得一个患者住院对应的诊断列表和药物列表，然后一对一形成一个药物-诊断关系对。通过设定一定的时间范围，比如一年，通常一个具有1000张病床的医院会有大约5万次住院，从而形成大量的药物-诊断关系对。然后可以建立一个矩阵，每一列代表一个诊断，每一行代表一个药物，每个矩阵值代表了药物-诊断对在整个数据集中出现的次数。

药物-诊断二值矩阵的建立方法：

基于药物-诊断频率矩阵，计算每个药物-诊断的超几何P-value值(可使用各种统计工具，如R语言stats包中的phyper函数计算)，由此可以获得一个药物-诊断P-value矩阵，由于我们在同一个大数据集上要同时检验所有药物-诊断关系的独立假设，为了有效控制其中的一类错误(即伪阳性，药物-诊断本没有关系而判断为有统计意义)，对于这个P-value利用邦弗罗尼校正，每个P-value乘以药物-诊断对的个数。对于校正后的P-value，如果小于0.05，这个矩阵值设为1，其它情况矩阵值设为0，由此可以获得药物-诊断的二值矩阵。

药物-药物距离矩阵的建立方法：

基于药物-诊断二值矩阵，每个药物行都是一个二值向量，利用公式(i)的Jaccard相似因子计算可以获得两个药物相似性，从而利用公式(ii)可以获得两个药物的距离评估，由此可以建立药物-药物的距离矩阵(当利用R语言时，可以直接调用dist(method＝’binary’)函数来计算)。

d_J(d_i，d_j)＝1-J(d_i，d_j) (ii)，

其中，d_J(d_i，d_j)表示药物i和j的Jaccard距离，J(d_i，d_j)表示药物i和j的Jaccard相似系数。

临床药物顶层分类的方法：

利用K-Means方法对于药物-药物距离矩阵进行聚类可以获得K个顶层分类，但是如何选择合适的K值在不同场景中需要通过一定的筛选策略完成，本方法中利用重采样方式测试不同K值下所生成的聚类的稳定性(在R语言中，可以利用fpc包的clusterboot来完成)，通过选取最好的K值来完成药物顶层分类，获得K个药物列表。

临床药物顶层分类内部的层次聚类方法：

对于每个顶层分类，其中包含了一个药物列表，从之前的药物-药物距离矩阵中可以获得这个药物列表的子集，利用药物-药物距离矩阵可以进行顶层分类内部的层次聚类(在R语言中可直接调用stats包的hclust函数获得层次聚类)。

临床药物顶层分类之间的层次聚类方法：

药物顶层分类之间层次聚类也需要获得顶层分类之间的距离，本发明中使用顶层分类关联的诊断列表来计算分类之间的距离。每个诊断都具有ICD-10编码，利用ICD-10编码的层次结构有许多不同计算方法可以来评估两个诊断编码的距离。

例如，通过公式(iii)可以获得一个ICD-10编码的信息量，然后利用公式(iv)可以计算出两个ICD-10编码的相似性，利用公式(v)可以获得两个诊断列表的相似性，由此可以定量获得药物顶层分类之间的距离，并基于这个距离可以对顶层分类进行层次聚类。

通过式(iii)获取ICD-10编码的信息，

步骤(5-2)中，通过式(iv)计算两个ICD-10编码之间的相似性，

通过式(v)计算两个诊断列表之间的距离，

其中，SSim(A，B)代表诊断集A和B的相似性距离，其中a为诊断集A中的一个诊断ICD-10编码，b为诊断集B中的一个诊断ICD-10编码，CSim(a，b)代表了诊断编码a和b的相似性距离，|A|代表诊断集A包含的诊断数量，|B|代表诊断集B中包含的诊断数量。

合并药物顶层分类之间的层次聚类和顶层分类内部的层次聚类，从而形成了一个统一的药物层次分类体系。

应用例

以某三甲医院2016年住院患者电子病历数据为基础，其中包含了53922个住院案例的812554个用药信息和339269个诊断信息，获取到6039728个药物-诊断对，其中包含1210个不同药物和6901个不同诊断。通过重采样评估选择了生成36个药物顶层分类，如图2所示。

每个药物顶层分类内部都生成了层次关系，如图3和图4所示。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种临床药物层次分类的方法，其特征在于，包括以下步骤：

2.根据权利要求1的临床药物层次分类的方法，其特征在于，步骤(1)包括：

3.根据权利要求2的临床药物层次分类的方法，其特征在于，所述的设定阈值为0.05。

4.根据权利要求1任一项所述的临床药物层次分类的方法，其特征在于，步骤(2)中，建立药物-药物距离矩阵的方法包括：

d_J(d_i，d_j)＝1-J(d_i，d_j) (ii)，

(2-3)根据药物之间的距离建立药物-药物距离矩阵。

5.根据权利要求1～4任一项所述的临床药物层次分类的方法，其特征在于，步骤(3)和步骤(4)之间还包括：通过重采样方法或Jaccard相似性评估方法筛选确定顶层分类的个数。

6.根据权利要求1所述的临床药物层次分类的方法，其特征在于，步骤(5)包括：

7.根据权利要求6所述的临床药物层次分类的方法，其特征在于，步骤(5-1)中，通过式(iii)获取ICD-10编码的信息，

步骤(5-2)中，通过式(iv)计算两个ICD-10编码之间的相似性，

通过式(v)计算两个诊断列表之间的距离，

<mrow> <mi>S</mi> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>,</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>a</mi> <mo>&Element;</mo> <mi>A</mi> <mo>,</mo> <mi>b</mi> <mo>&Element;</mo> <mi>B</mi> </mrow> </msub> <mi>C</mi> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>a</mi> <mo>,</mo> <mi>b</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>|</mo> <mi>A</mi> <mo>|</mo> <mo>&CenterDot;</mo> <mo>|</mo> <mi>B</mi> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mi>v</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow>