CN109830302B

CN109830302B - 用药模式挖掘方法、装置和电子设备

Info

Publication number: CN109830302B
Application number: CN201910081077.9A
Authority: CN
Inventors: 尚小溥; 许吴环; 黄慧群; 赵红梅; 张润彤
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2021-04-06
Anticipated expiration: 2039-01-28
Also published as: CN109830302A

Abstract

本发明实施例公开了一种用药模式挖掘方法，用于佐证疾病治疗的用药模式，包括如下步骤：接收输入的电子病例文本信息；基于电子病历文本信息,进行数据提取和分词；基于数据提取和分词，进行用药模式挖掘，获取患者群和药品分类，并且进行交叉匹配；基于交叉匹配的结果，获取疾病治疗的用药模式。通过使用该用药模式挖掘方法，能够在一定程度上避免现有电子病历存在数据丰富却不能有效佐证患者潜在的治疗用药模式的问题，更好的作用于用药模式差异小的疾病、提高临床诊疗效率。

Description

用药模式挖掘方法、装置和电子设备

技术领域

本本发明属于医药化工领域，尤其涉及一种用药模式挖掘方法、装置和电子设备。

背景技术

随着医疗技术的快速发展和医疗信息系统的普及应用，海量的医学数据随之产生。其中，电子病历(EMR)以电子化方式管理有关个人健康状态和医疗保健行为的信息，记录了患者详细的诊疗过程，数据内容丰富。

虽然电子病历记载有大量的历史数据，并且，其中的数据检索和简单的统计功能可以满足日常工作需要，但是对于疾病治疗，尤其是治疗特征不明显且治疗过程相似度较高的病例，没有太多实质性的帮助。很多时候，治疗用药模式产生于数据，但是相对于数据的表面值，而医生更关注隐藏在数据中的深层意义，以及潜在的治疗用药模式。

因此，现有电子病历存在数据丰富却不能有效佐证患者潜在的治疗用药模式的问题。

发明内容

鉴于上述问题，本发明旨在提出一种用药模式挖掘方法，用于佐证疾病治疗的用药模式，一定程度上避免现有电子病历存在数据丰富却不能有效佐证患者潜在的治疗用药模式的问题，更好的作用于用药模式差异小的疾病、提高临床诊疗效率。

第一方面，本发明实施例提供一种用药模式挖掘方法，包括如下步骤：接收输入的电子病例文本信息；基于所述电子病历文本信息,进行数据提取和分词；基于所述数据提取和所述分词，进行用药模式挖掘，获取患者群和药品分类，并且进行交叉匹配；基于所述交叉匹配的结果，获取疾病治疗的用药模式。

根据本发明用药模式挖掘方法实施例的一种具体实现方式，所述数据提取包括药品名称；所述分词包括使用频率和持续时间。

根据本发明用药模式挖掘方法实施例的一种具体实现方式，所述基于所述数据提取和所述分词，进行用药模式挖掘，获取患者群和药品分类，并且进行交叉匹配包括：

采用二维矩阵展示每位患者的用药过程；

评估患者用药的相似性；

使用谱聚类算法对患者进行聚类，获取患者群；

基于概率图模型进行用药模式挖掘，获取药品分类；

将患者群和药品分类进行交叉匹配。

根据本发明用药模式挖掘方法方法实施例的一种具体实现方式，所述评估患者用药的相似性包括：

采用Jaccard相似度系数计算患者相似性；

所述Jaccard相似度系数定义如下：

其中，

J代表所述Jaccard相似度系数；

A代表第一患者所用药物的样本集，B代表第二患者所用药物的样本集。

根据本发明用药模式挖掘方法实施例的一种具体实现方式，所述概率图模型为LDA模型；基于所述LDA模型进行用药模式挖掘的步骤包括：

随机选择一个用药模式的第一分布，所述第一用药模式分布服从第一参数的狄利克雷分布；

随机选择一个用药模式和药物使用频率的第二分布，所述第二分布服从第二参数的狄利克雷分布；

随机选择一个用药模式和药物持续天数的第三分布，所述第三分布服从第三参数的狄利克雷分布；

对一个病人的药物治疗随机选择一个第四分布，所述第四分布服从第四参数的狄利克雷分布；

重复如下子步骤：

从所述第四分布的多项式分布中，以概率的方式描述一个用药模式，

从所述第二分布中以概率的方式描述一个药物使用频率，

从所述第三分布中以概率的方式描述一个药物持续天数。

第二方面，本发明实施例提供了一种用药模式挖掘装置，包括：

接收模块，用于接收输入的电子病例文本信息；

数据提取和分词模块，用于基于输入的电子病历文本信息,进行数据提取和分词；

用药模式挖掘模块，用于基于所述数据提取和所述分词，进行用药模式挖掘，获取患者群和药品分类，并且进行交叉匹配；

获取模块，用于基于所述交叉匹配的结果，获取疾病治疗的用药模式。

根据本发明用药模式挖掘装置实施例的一种具体实现方式，所述数据提取包括药品名称；所述分词包括使用频率和持续时间。

根据本发明用药模式挖掘装置实施例的一种具体实现方式，所述用药模式挖掘模块包括：

显示子模块，用于采用二维矩阵展示每位患者的用药过程；

评估子模块，用于评估患者用药的相似性；

聚类子模块，用于使用谱聚类算法对患者进行聚类，获取患者群；

挖掘子模块，用于基于概率图模型进行用药模式挖掘，获取药品分类；

匹配子模块，用于将患者群和药品分类进行交叉匹配。

根据本发明用药模式挖掘装置实施例的一种具体实现方式，所述评估子模块包括：

采用Jaccard相似度系数计算患者相似性；

所述Jaccard相似度系数定义如下：

其中，

J代表所述Jaccard相似度系数；

根据本发明用药模式挖掘装置实施例的一种具体实现方式，所述概率图模型为LDA模型；基于所述LDA模型的所述挖掘子模块包括：

第一选择单元，用于随机选择一个用药模式的第一分布，所述第一用药模式分布服从第一参数的狄利克雷分布；

第二选择单元，用于随机选择一个用药模式和药物使用频率的第二分布，所述第二分布服从第二参数的狄利克雷分布；

第三选择单元，用于随机选择一个用药模式和药物持续天数的第三分布，所述第三分布服从第三参数的狄利克雷分布；

第四选择单元，用于对一个病人的药物治疗随机选择一个第四分布，所述第四分布服从第四参数的狄利克雷分布；

第五描述单元，包括：

第一描述子单元，用于从所述第四分布的多项式分布中，以概率的方式描述一个用药模式，

第二描述子单元，用于从所述第二分布中以概率的方式描述一个药物使用频率，

第三描述子单元，用于从所述第三分布中以概率的方式描述一个药物持续天数。

第三方面，本发明实施例还提供了一种电子设备，该电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述第一方面或第一方面的任一实现方式中的用药模式挖掘方法。

第四方面，本发明实施例还提供了一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令用于使该计算机执行前述第一方面或第一方面的任一实现方式中的用药模式挖掘方法。

第五方面，本发明实施例还提供了一种计算机程序产品，该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序，该计算机程序包括程序指令，当该程序指令被计算机执行时，使该计算机执行前述第一方面或第一方面的任一实现方式中的用药模式挖掘方法。

本发明实施例提供的用药模式挖掘方法、装置、电子设备、非暂态计算机可读存储介质及计算机程序产品，用于佐证疾病治疗的用药模式，包括如下步骤：接收输入的电子病例文本信息；基于电子病历文本信息,进行数据提取和分词；基于数据提取和分词，进行用药模式挖掘，获取患者群和药品分类，并且进行交叉匹配；基于交叉匹配的结果，获取疾病治疗的用药模式。通过使用该用药模式挖掘方法、装置、电子设备、非暂态计算机可读存储介质及计算机程序产品，能够在一定程度上避免现有电子病历存在数据丰富却不能有效佐证患者潜在的治疗用药模式的问题，更好的作用于用药模式差异小的疾病、提高临床诊疗效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例用药模式挖掘方法的总体框架图；

图2为发明实施例用药模式挖掘方法的总体步骤流程图；

图3为本发明实施例中关键用药信息的提取方式示例图；

图4为本发明实施例中步骤S23的具体步骤流程图；

图5A为本发明实施例中患者x的P-M矩阵示例图；

图5B为本发明实施例中患者y的P-M矩阵示例图；

图6为本发明实施例中P-P矩阵式示例图；

图7为本发明实施例中图切割示例图；

图8为本发明实施例中步骤43的具体步骤流程图；

图9为本发明实施例用药模式挖掘概率图模型示意图；

图10为本发明实施例中步骤S44的具体步骤流程图；

图11为本发明实施例中交叉匹配示例图；

图12为本发明实施例用药模式挖掘装置的结构框图；

图13为本发明实施例电子设备中控制部的结构框图；。

具体实施方式

下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

参见图1和图2，图1为本发明实施例用药模式挖掘方法的总体框架图；图2为发明实施例用药模式挖掘方法的总体步骤流程图。

本发明实施例提出的用药模式挖掘方法能更好地作用于用药模式差异小的疾病，最终得到某类疾病治疗的用药模式，该实施例的方法包括如下步骤：

步骤S21，接收输入的电子病历文本信息。

步骤S22，基于输入的电子病历文本信息,进行数据提取和分词。

参照图3，图3为本发明实施例中关键用药信息的提取方式示例图。数据提取和分词是数据挖掘的前提。单个药品的专业名称通常是唯一的，因此在非结构化电子病例文本中提取出药品名相较于其他数据(如，病情的描述)的提取来说相对简单。在药物治疗数据的提取过程中，我们借助院方提供的医药词典来进一步提取电子病例文本中的药品名。而对于药品名周围围绕的使用频率和持续时间等带有指导性的信息，我们采用关键词的方式提进行抽取。

步骤S23，基于数据提取和分词，进行用药模式挖掘，获取患者群和药品分类，并且进行交叉匹配。

参照图4，图4为本发明实施例中步骤S23的具体步骤流程图，包括：

步骤S41，以P-M矩阵方式展示患者用药治疗情况。

在电子病例结构化的基础上，我们采用二维矩阵来展示每位患者的用药过程。矩阵的每列代表处于住院过程的第几天，每行代表一种用药。假设Π^ξ是患者ξ的一个P-M矩阵，

为Π^ξ中的一个元素。若该患者在住院第j^th天使用了药品i则

否则

参照图5A和图5B，图5A为本发明实施例中患者x的P-M矩阵示例图，图5B为本发明实施例中患者y的P-M矩阵示例图。其中患者x的住院天数为10天，患者y的住院天数为12天。

步骤S42，采用Jaccard相似度系数计算患者用药相似性。

相似度是对相似用药模式下的患者进行聚类分析时的重要参考因素。本发明实施例采用Jaccard系数评估患者用药的相似性。其中，Jaccard相似度系数J的定义如下：

其中，A代表第一患者所用药物的样本集，B代表第二患者所用药物的样本集。上述定义可理解为样本集的交集大小除以并集大小。样本集A和B的相似度可由(2)求得

J_d为Jaccard距离，即样本集A和B的距离，用来表征样本集A和B的相似度。

根据(1)和(2)两个公式，我们可以基于P-M矩阵计算出不同患者间的相似度，进而建立患者-患者矩阵(P-P矩阵)来描述不同患者间的相似度。为了能够更好地展示患者相似度矩阵，我们抽取了其中20位患者的用药数据来建立P-P矩阵。

参照6，图6为本发明实施例中P-P矩阵式示例图，其中P-P矩阵为对称矩阵，其中PJ中的元素pj_ab代表患者a和患者b间的用药相似度。

步骤S43，使用谱聚类算法对患者进行聚类，获取患者群。

在以上相似度分析的基础上，我们进一步实现关系图PG，图中每个患者之间以不同权值的线进行连接，权值大小代表患者用药相似度高低。同时，我们通过切断权值较低的连线将关系图PG切分成多个子图，将用药模式发现问题转化成图切割问题，而切割后的每个子图代表一个用药模式下的患者，每个子图中的患者具有相似度较高的用药模式。在通过关系图进行相似用药患者聚类的研究中，图切割的目的是将用药模式相似度低的患者群区分开，同时聚合用药模式相似度高的患者。

参照图7，图7为本发明实施例中图切割示例图，解释了相似用药模式患者聚类的谱聚类方法。假设α,β,χ,δ,ε,

分别代表不同患者，患者间连线权值与P-P矩阵的患者相似度一致。通过切割权值为0.2和0.3的边，将图7中的六个病人分成两类，每类患者间具有相似的用药模式，不同类别间的距离尽可能远。

参照图8，图8为本发明实施例中步骤S43的具体步骤流程图，可以将患者谱聚类过程总结为以下步骤：

步骤S81，输入患者相似度矩阵PJ和拟聚类个数K；

步骤S82，根据患者相似度矩阵PJ计算出对角矩阵D和对称矩阵A，在此基础上得出拉普拉斯矩阵L and L’，其中L＝D-A,L’＝D^-1/2LD^-1/2；

步骤S83，计算出L’:Ve＝{v_e1,v_e2,…,v_em}的特征值和对应的特征向量；

步骤S84，根据最初的K个特征向量V_K＝{v_e1,v_e2,…,v_ek}对患者进行聚类。

上述步骤中，L和L’代表拉普拉斯矩阵，D代表对角矩阵，A代表对称矩阵，K代表拟聚类个数。

对于对角矩阵D而言，这里代入患者相似度矩阵后，每一个对角线上的数[i,i]代表第i位患者与其他所有患者的用药相似度的总和。

对于对称矩阵A而言，这里代入患者相似度矩阵后，A矩阵对角线的数全为0，即[Ii,i]＝0,而[i,j](i≠j)指第i名患者与第j名患者的用药相似度。

值得注意的是，步骤S81中的谱聚类个数是需要提前确定的，而谱聚类的个数可通过下一节的LDA模型分析得出。在步骤S84中，需要选择K-means或其他聚类方法得出最终聚类结果。

谱聚类方法的核心伪代码如下：

步骤S44，基于LDA模型进行用药模式挖掘，获取药品分类。

在使用LDA的电子病例文本挖据研究中，单个病人的电子病历文本可视为一个文档，对应的药品名可视为词，而潜在的用药模式则可视为待挖掘的主题。然而，实际上，医生常用<药品名：一天的服用频率，持续天数>来记录电子病例中患者的用药过程。因此在药品名抽样过程中，需要体现治疗过程中药品的实际服用日和持续天数等信息。参照图9，图9为本发明实施例用药模式挖掘概率图模型示意图，在传统LDA模型基础上进行了改进。

参照图10，图10为本发明实施例中步骤S44的具体步骤流程图，具体步骤如下所示：

步骤S101，随机选择一个用药模式分布Φ，Φ服从参数为β的狄利克雷分布(Φ～Dir(β))。

步骤S102，随机选择一个用药模式和药物使用频率的分布δ，δ服从参数为v的狄利克雷分布(δ～Dir(v))。

步骤S103，随机选择一个用药模式和药物持续天数的分布ρ，ρ服从参数为η的狄利克雷分布(ρ～Dir(η))。

步骤S104，对一个病人的药物治疗D随机选择一个分布θ，θ服从参数为α的狄利克雷分布(θ～Dir(α))。

步骤S105，重复下面三个子步骤选择D：

步骤S1051，从多项式分布θ(z～multi(θ))中，以概率的方式描述一个用药模式。

步骤S1052，从δ中以概率的方式描述一个药物使用频率l。

步骤S1053，从ρ中以概率的方式描述一个药物持续天数f。

吉布斯采样(Gibbs Sampling)是解决LDA问题的一个有效方式。我们需要得到p(z,w,f,l|α,β,ν,η)，和药物i在药物模式k上的条件概率分布。这种概率可以用p(z_i＝k|z_Γi,w,f|α,β,ν,η)来表示，z_Γi是没有药物i的用药模式分布。最终，当吉布斯采样收敛时，我们能得到特定药物模式下药物i的概率。

根据图9，我们能得到如下的联合概率：

其中，

这里的Δ(α)是一个狄利克雷三角函数，并且

是将用药模式c分配给患者τ的计数。

相似地，我们能使用下列等式：

其中，Δν(β),Δν(η),和Δν(ν)是狄利克雷三角函数；

是将药物w分配给用药模式c的计数；

是将使用频率为m的药物w分配给用药模式c的计数；

是将持续天数为q的药物w分配给用药模式c的计数。

因此，联合概率分布(3)可以用下面的(8)表示：

根据Gamma函数的特点，即Γ(α+1)＝αΓ(α+1)，我们有(9):

因此，吉布斯采样参数

和

是需要的，并且我们使用这些参数来计算用药模式的分布。用药挖掘模式与药物产生过程相反。

当使用基于LDA方法时，吉布斯采样的参数，以及聚类数量(也就是用药模式类别的数量)应该作为输入参数给出。在本发明实施例的工作框架中，我们推荐根据实际的临床情景来决定聚类数量。

步骤S45，将患者群和药品分类进行交叉匹配。

在电子病例文本的挖掘过程中，谱聚类方法能将相似度较低的患者切分开，最终聚类出多组相互间相似度较高的患者群；LDA模型能计算出每位患者用药模式的相似度，随后将药品分成多个类别，即我们说的用药模式。值得注意的是，在LDA模型中，同一个药品可能同时出现在多个不同的用药模式中。

参照图11，图11为本发明实施例中交叉匹配示例图。图11中K＝3，我们可以看出，基于LDA模型生成的用药模式之间存在药品重叠，而谱聚类方法能将不同的患者群完全区分开。

医生常常在同一治疗阶段根据患者病情使用多种功效不同的药品，患者的治疗模式间具有一定的相似性。为了在治疗特征不明显且治疗过程相似度较高的病例中发现患者潜在的治疗模式，可以进一步将谱聚类结果和LDA结果进行交叉匹配，并使交叉匹配达到最大覆盖范围，提高挖掘结果的临床意义。交叉匹配过程的核心代码如下：

步骤S24，基于交叉匹配的结果，获取疾病治疗的用药模式。

本发明实施例，用于佐证疾病治疗的用药模式，包括接收输入的电子病例文本信息；基于电子病历文本信息,进行数据提取和分词；基于数据提取和分词，进行用药模式挖掘，获取患者群和药品分类，并且进行交叉匹配；基于交叉匹配的结果，获取疾病治疗的用药模式，能够在一定程度上避免现有电子病历存在数据丰富却不能有效佐证患者潜在的治疗用药模式的问题，更好的作用于用药模式差异小的疾病、提高临床诊疗效率。

第二方面，本发明实施例还提供了一种用药模式挖掘装置。参照图12，图12为本发明实施例用药模式挖掘装置的结构框图，该实施例的装置包括：

接收模块121，用于接收输入的电子病例文本信息；

数据提取和分词模块122，用于基于输入的电子病历文本信息,进行数据提取和分词；

用药模式挖掘模块123，用于基于数据提取和分词，进行用药模式挖掘，获取患者群和药品分类，并且进行交叉匹配；

获取模块124，用于基于交叉匹配的结果，获取疾病治疗的用药模式。

各模块具体涉及的功能与其对应的方法实施例中的内容相对应，在此不再赘述。

第三方面，本发明实施例还提供了一种电子设备。

图13示出了本发明实施例电子设备中控制部的结构框图，控制部130包括至少一个处理器131(例如CPU)，至少一个输入输出接口134，存储器132，和至少一个通信总线133，用于实现这些部件之间的连接通信。至少一个处理器131用于执行存储器132中存储的计算机指令，以使至少一个处理器131能够执行前述任一分表方法的实施例。存储器132为非暂态存储器(non-transitory memory)，其可以包含易失性存储器，例如高速随机存取存储器(RAM：Random Access Memory)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个输入输出接口134(可以是有线或者无线通信接口)实现与至少一个其他设备或单元之间的通信连接。

在一些实施方式中，存储器132存储了程序1321，处理器131执行程序1321，用于执行前述任一用药模式挖掘方法中的内容。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将

一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。

在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用药模式挖掘方法，其特征在于，所述方法包括如下步骤：

接收输入的电子病历文本信息；

基于所述电子病历文本信息,进行数据提取和分词；

基于所述数据提取和所述分词，进行用药模式挖掘，获取患者群和药品分类，并且进行交叉匹配，包括：采用二维矩阵展示每位患者的用药过程；评估患者用药的相似性；使用谱聚类算法对患者进行聚类，获取患者群；基于概率图模型进行用药模式挖掘，获取药品分类；将患者群和药品分类进行交叉匹配；

基于所述交叉匹配的结果，获取疾病治疗的用药模式；

其中，所述基于概率图模型进行用药模式挖掘为：

基于LDA模型进行用药模式挖掘，包括：

随机选择一个用药模式的第一分布，所述第一分布服从第一参数的狄利克雷分布；

重复如下子步骤：

从所述第二分布中以概率的方式描述一个药物使用频率，

从所述第三分布中以概率的方式描述一个药物持续天数。

2.根据权利要求1所述用药模式挖掘方法，其特征在于，

所述数据提取包括药品名称；

所述分词包括使用频率和持续时间。

3.根据权利要求2所述用药模式挖掘方法，其特征在于，

所述评估患者用药的相似性包括：

采用Jaccard相似度系数计算患者相似性；

所述Jaccard相似度系数定义如下：

其中，

J代表所述Jaccard相似度系数；

4.一种用药模式挖掘装置，其特征在于，包括：

接收模块，用于接收输入的电子病历文本信息；

用药模式挖掘模块，用于基于所述数据提取和所述分词，进行用药模式挖掘，获取患者群和药品分类，并且进行交叉匹配，包括：采用二维矩阵展示每位患者的用药过程；评估患者用药的相似性；使用谱聚类算法对患者进行聚类，获取患者群；基于概率图模型进行用药模式挖掘，获取药品分类；将患者群和药品分类进行交叉匹配；

获取模块，用于基于所述交叉匹配的结果，获取疾病治疗的用药模式；

其中，所述基于概率图模型进行用药模式挖掘为：

基于LDA模型进行用药模式挖掘，包括：

重复如下子步骤：

从所述第二分布中以概率的方式描述一个药物使用频率，

从所述第三分布中以概率的方式描述一个药物持续天数。

5.根据权利要求4所述用药模式挖掘装置，其特征在于，

所述数据提取包括药品名称；

所述分词包括使用频率和持续时间。

6.根据权利要求5所述用药模式挖掘装置，其特征在于，

所述用药模式挖掘模块包括：

显示子模块，用于采用二维矩阵展示每位患者的用药过程；

评估子模块，用于评估患者用药的相似性；

匹配子模块，用于将患者群和药品分类进行交叉匹配。

7.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述权利要求1-3任一项所述用药模式挖掘方法。