CN111477295B

CN111477295B - 一种基于隐语义模型的中医组方推荐方法及系统

Info

Publication number: CN111477295B
Application number: CN202010279991.7A
Authority: CN
Inventors: 李巧勤; 巩小强; 刘勇国; 杨尚明
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2022-06-03
Anticipated expiration: 2040-04-10
Also published as: CN111477295A

Abstract

本发明公开了一种基于隐语义模型的中医组方推荐方法及系统，该方法包括以下步骤：S0：采集某种疾病的多例医案信息，医案信息包括医案数及每例医案对应症状和药物；S1：根据步骤S0采集的信息，基于对医案库中症状和对应处方的隐语义分析，提取出隐含证候，发现隐含证候、症状和药物间存在的关系，建立基于症状‑证候‑药物的主题模型，并进行参数学习训练；S2：输入待检测的用户症状，从基于症状‑证候‑药物的主题模型结果中获取的症状、证候、药物之间的对应关系，进行相应处方推荐，并输出推荐结果，为医生诊疗过程的组方提供参考和辅助决策。

Description

一种基于隐语义模型的中医组方推荐方法及系统

技术领域

本发明涉及计算机技术在中医药领域的应用，尤其涉及一种基于隐语义模型的中医组方推荐方法及系统。

背景技术

千百年来累积的大量中医医案数据是历史传承下来的宝贵财富。当前对中医诊疗经验的继承大多基于分析总结先前的处方，但是大多数处方是凭经验主观给出，缺乏客观标准，中医系统体系也是由主观理解和推断构成。由于缺少科学数据的支撑和解释，使得在实践中很多人对中医给出的不同组方结果存在怀疑，因此，对中医组方的过程数据化十分重要。随着计算机技术在中医药领域的应用，近年来，有研究者使用关联规则、聚类分析、复杂网络分析等方法进行中医组方规律挖掘，文献[J.Wu,W.Guo,Y.Tang,et al.A study ofTCM master Yan Zhenghua's medication rule in prescriptions for digestivesystem diseases based on Apriori and complex system entropy cluster[J].Journal of Traditional Chinese Medical Sciences,2015,2(4):241-247.]使用Apriori关联规则方法挖掘关于消化系统疾病的方剂用药规律，结果发现了治疗该病的15种核心药物、22种核心药对及8种核心药组；文献[周伟,王峰,王崇骏,等.利用效用度挖掘核心药物及配伍规律[J].计算机科学与探索,2013,7(11):994-1001.]使用重叠社团发现算法挖掘关于肺痿疾病的方剂配伍规律，结果发现了治疗该病的42种核心药物及30种核心药对。

然而，使用关联分析、聚类分析、复杂网络分析等常用数据挖掘方法难以建模中医诊疗过程中的隐含证候，而证候是医师在开方过程中必不可少的基础依据，导致现有组方规律挖掘方法所得结果的准确度不高。

发明内容

本发明所要解决的技术问题是现有的中医组方规律挖掘方法往往使用关联分析、聚类分析、复杂网络分析等常用数据挖掘方法,建模过程中没有考虑隐含证候，导致现有组方规律挖掘方法所得结果的准确度不高的问题。本发明提供了解决上述问题的一种基于隐语义模型的中医组方推荐方法及系统，本发明构建一种基于隐含狄利克雷分布(LatentDirichlet Allocation,LDA)模型的中医组方研究方法，结合隐含证候建模，提高了中医组方推荐的精度和效率，为中医医师诊疗过程的组方提供辅助决策。

本发明通过下述技术方案实现：

一种基于隐语义模型的中医组方推荐方法，该方法包括以下步骤：

S0：采集某种疾病的多例医案信息，医案信息包括医案数及每例医案对应症状和药物；

S1：根据步骤S0采集的信息，基于对医案库中症状和对应处方的隐语义分析，提取出隐含证候，发现隐含证候、症状和药物间存在的关系，建立基于症状-证候-药物的主题模型，并进行参数学习训练；

S2：输入待检测的用户症状，从基于症状-证候-药物的主题模型结果中获取的症状、证候、药物之间的对应关系，进行相应处方推荐，并输出推荐结果，为医生诊疗过程的组方提供参考和辅助决策。

工作原理是：基于现有的中医组方规律挖掘方法往往使用关联分析、聚类分析、复杂网络分析等常用数据挖掘方法，建模过程中没有考虑隐含证候，导致现有组方规律挖掘方法所得结果的准确度不高的问题。本发明采用上述方案基于对医案中症状和对应处方的隐语义分析，提取出隐含证候，发现隐含证候、症状和药物间存在的关系，建立一个基于中医医案挖掘的主题模型；具体地，通过基于对医案库中症状和对应处方的隐语义分析，提取出隐含证候，发现隐含证候、症状和药物间存在的关系，并构建了一种基于症状-证候-药物的主题模型并训练模型，结合了隐含证候来建模，克服了现有技术中医组方规律挖掘缺乏对隐含证候的考虑；然后，把待检测的用户症状输入到训练好的模型中获取症状、证候、药物之间的对应关系，进行相应处方推荐，提高了中医组方推荐的精度和效率，为中医医师诊疗过程的组方提供辅助决策。

进一步地，所述步骤S1具体包括基于症状-证候-药物的主题模型的生成；

假设一例医案被视为一篇文档，一种证候被视为一个主题；令|P|为临床医案数，每例医案p包含

种症状和

种药物，h_pn为医案p中的第n种药物，s_pm为医案p中的第m种症状，z_pmn为词h_pn和s_pm的潜在证候分布；K为证候主题数，每个主题k∈[1,…,K]表示一种证候；

为证候k∈[1,…,K]上S维的证候-症状多项式分布，用于描述不同症状对证侯的重要性，其中，S为医案集包含的症状总数；

为证候k∈[1,…,K]上H维的证候-药物多项式分布，用于描述不同药物治疗一种证侯的重要性，其中，H为医案集包含的药物总数；对于某种证候下的所有词，假设

和

相互独立；θ_p为医案p上K维的医案-证候多项式分布；x为二元变量值，取值范围为{symptom,herb}，以此来表达所生成词的2种不同类型，若x＝symptom，则表示所生成词为症状，否则为药物；α、β、γ分别为Dirichlet先验分布的超参数；基于症状-证候-药物主题模型SSHTM的生成过程如下所示：

步骤1：对于每个主题k∈[1,…,K]，

服从参数为β的狄利克雷先验分布，

服从参数为γ的狄利克雷先验分布：

步骤2：对于每例医案p∈P，θ_p服从参数为α的狄利克雷先验分布：θ_p～Dirichlet(α)；

步骤3：对于包含于每例医案p中的每个词，主题z_pmn服从参数为θ_p的多项式分布：z_pmn～Multi(θ_p)；

步骤4：若x＝symptom，则症状s_pm服从参数为

的多项式分布：

若x＝herb，则药物h_pn服从参数为

的多项式分布：

进一步地，所述步骤S1还包括基于症状-证候-药物的主题模型的参数学习训练；

其中，参数θ_pk、

及

的计算分别如下：

其中，θ_pk表示医案p包含证候k的概率，

表示证候k包含症状s的概率，

表示证候k包含药物h的概率；α、β、γ分别为1、0.1、0.1，

表示医案p的症状分配给主题k的次数，

表示医案p的药物分配给主题k的次数，

表示在医案集中症状m分配给主题k的次数，

表示在医案集中药物n分配给主题k的次数。

进一步地，所述步骤S2中对输入的待检测用户的症状，进行预处理，将其表示为一个n维向量，n为包含于医案集的症状数；其中，每种症状用0、1编码表示，若输入症状存在，则编码为1，否则为0。

进一步地，所述步骤S2具体包括如下子步骤：

S21：构建症状-药物矩阵，获取症状与药物之间的对应关系；

构建症状-药物矩阵，其第i行j列的元素表示为p(h_j|s_i)，即治疗症状s_i的药物包含h_j的概率，其计算如下所示：

其中，z为基于症状-证候-药物的主题模型中的证候主题，K为主题数，p(h_j|z)即为SSHTM模型中的参数

p(z|s_i)表示症状s_i包含于证候z的概率：

其中，p(s_i|z)为SSHTM模型中的参数

p(s_i)表示症状s_i在医案集M中的出现频率，p(z)为主题z的先验概率，将其看作为一个常数；

S22：对所有症状计算每种药物的排序值Rank，并选择具有较大排序值的药物作为其推荐药物，并将这些推荐药物的组合作为治疗患者的推荐处方；

S221：基于输入的患者症状及其对应权重，计算所有症状下每种药物的排序值Rank，其计算如下所示：

其中，weight(s_i)表示症状s_i的权重，若输入症状包含s_i，则为1，否则为0；

S222：对所有药物的Rank值进行降序排列，并选择前N个药物作为其推荐药物，并将这N个药物的组合作为治疗患者症状的推荐处方，记为：pres.＝{H(N)}。

另一方面，本发明还提供了一种基于隐语义模型的中医组方推荐系统，该系统支持上述的一种基于隐语义模型的中医组方推荐方法，包括：

医案信息采集模块：用于采集某种疾病的多例医案信息，医案信息包括医案数及每例医案对应症状和药物；

基于症状-证候-药物的主题模型构建及训练模块：连接医案信息采集模块，基于对医案中症状和对应处方的隐语义分析，提取出隐含证候，发现隐含证候、症状和药物间存在的关系，建立基于症状-证候-药物的主题模型，并进行模型训练及保存；

用户信息输入模块：用于获取待检测用户的症状，并进行预处理相关解析；

中医组方推荐模块：分别连接用户信息输入模块和基于症状-证候-药物的主题模型构建及训练模块，用于根据输入待检测用户的症状，从基于症状-证候-药物的主题模型结果中获取的症状、证候、药物之间的对应关系，进行相应处方推荐，并输出推荐结果，为医生诊疗过程的组方提供参考和辅助决策。

进一步地，所述基于症状-证候-药物的主题模型构建及训练模块包括模型生成单元，模型生成单元包括：

种症状和

和

对于每个主题k∈[1,…,K]，

服从参数为β的狄利克雷先验分布，

服从参数为γ的狄利克雷先验分布：

对于每例医案p∈P，θ_p服从参数为α的狄利克雷先验分布：θ_p～Dirichlet(α)；

对于包含于每例医案p中的每个词，主题z_pmn服从参数为θ_p的多项式分布：z_pmn～Multi(θ_p)；

若x＝symptom，则症状s_pm服从参数为

的多项式分布：

若x＝herb，则药物h_pn服从参数为

的多项式分布：

进一步地，所述基于症状-证候-药物的主题模型构建及训练模块还包括参数学习单元，参数学习单元用于根据模型生成单元构建的模型，并对模型进行训练；其中训练过程中的参数θ_pk、

及

的计算分别如下：

其中，θ_pk表示医案p包含证候k的概率，

表示证候k包含症状s的概率，

表示证候k包含药物h的概率；α、β、γ分别为1、0.1、0.1，

表示医案p的症状分配给主题k的次数，

表示医案p的药物分配给主题k的次数，

表示在医案集中症状m分配给主题k的次数，

表示在医案集中药物n分配给主题k的次数。

进一步地，所述中医组方推荐模块包括构建症状-药物矩阵单元和排序推荐单元，其中，构建症状-药物矩阵单元包括：

p(z|s_i)表示症状s_i包含于证候z的概率：

其中，p(s_i|z)为SSHTM模型中的参数

排序推荐单元包括：

基于输入的患者症状及其对应权重，计算所有症状下每种药物的排序值Rank，其计算如下所示：

对所有药物的Rank值进行降序排列，并选择前N个药物作为其推荐药物，并将这N个药物的组合作为治疗患者症状的推荐处方，记为：pres.＝{H(N)}。

本发明与现有技术相比，具有如下的优点和有益效果：

1、本发明一种基于隐语义模型的中医组方推荐方法及系统，基于对医案中症状和对应处方的隐语义分析，提取出隐含证候，发现隐含证候、症状和药物间存在的关系，建立一个基于中医医案挖掘的主题模型；

2、本发明一种基于隐语义模型的中医组方推荐方法及系统，从基于症状-证候-药物的主题模型SSHTM结果中获取的症状、证候、药物之间的对应关系，提出了基于症状推荐处方的方法，为医生诊疗过程的组方提供参考和辅助决策。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明一种基于隐语义模型的中医组方推荐方法流程图。

图2为本发明基于症状-证候-药物的主题模型SSHTM的概率图模型表示图。

图3为本发明实施例处方生成过程示例图。

图4为本发明一种基于隐语义模型的中医组方推荐系统框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

如图1至图4所示，本发明一种基于隐语义模型的中医组方推荐方法，该方法包括以下步骤：

具体地，所述步骤S1具体包括基于症状-证候-药物的主题模型的生成；

如图2所示为基于症状-证候-药物的主题模型的概率图模型表示，其中，假设一例医案被视为一篇文档，一种证候被视为一个主题；令|P|为临床医案数，每例医案p包含

种症状和

和

步骤1：对于每个主题k∈[1,…,K]，

服从参数为β的狄利克雷先验分布，

服从参数为γ的狄利克雷先验分布：

步骤4：若x＝symptom，则症状s_pm服从参数为

的多项式分布：

若x＝herb，则药物h_pn服从参数为

的多项式分布：

所述步骤S1还包括基于症状-证候-药物的主题模型的参数学习训练；

其中，参数θ_pk、

及

的计算分别如下：

其中，θ_pk表示医案p包含证候k的概率，

表示证候k包含症状s的概率，

表示证候k包含药物h的概率；α、β、γ分别为1、0.1、0.1，

表示医案p的症状分配给主题k的次数，

表示医案p的药物分配给主题k的次数，

表示在医案集中症状m分配给主题k的次数，

表示在医案集中药物n分配给主题k的次数。

具体地，所述步骤S2中对输入的待检测用户的症状，进行预处理，将其表示为一个n维向量，n为包含于医案集的症状数；其中，每种症状用0、1编码表示，若输入症状存在，则编码为1，否则为0。

具体地，利用基于症状-证候-药物的主题模型的参数预测症状所对应的药物，即以给定的患者症状作为输入，推荐相应治疗的药物。因此，本发明结合基于症状-证候-药物的主题模型SSHTM，给出基于症状的处方推荐方法，该方法首先构建了一种症状-药物矩阵，以此获取症状与药物之间的对应关系；然后针对所有症状计算每种药物的排序值Rank，并选择具有较大Rank值的药物作为其推荐药物，并将这些推荐药物的组合作为治疗患者的推荐处方。

基于患者症状发现对应药物的流程如图3所示，图3中最终的生姜、茯苓、桂枝对应的输出Rank值为0.7、0.6、0.5。患者所有症状及其权重作为输入，将其用一个S维向量表示，若输入症状存在，则权重为1，否则为0；输出则为与患者症状最相关的药物集合。

所述步骤S2具体包括如下子步骤：

S21：构建症状-药物矩阵，获取症状与药物之间的对应关系；

p(z|s_i)表示症状s_i包含于证候z的概率：

其中，p(s_i|z)为SSHTM模型中的参数

本发明以慢性肾病中医临床医案为研究基础，以慢性肾病的多例医案信息来实施本发明方法；具体地，以慢性肾小球肾炎组方来说明，如下表1所示，本发明方法较于使用常用统计方法分析中医组方规律得到的结果，本发明的组方规律研究方法可以达到更高的准确率。

表1慢性肾小球肾炎组方推荐结果

我们邀请了成都中医药大学的中医医师分析了表1的处方推荐结果，实验基于1959例慢性肾病医案发现使用该方法推荐获得的处方，其准确度达到78.68％，均优于现有方法的预测精度。

工作原理是：基于现有的中医组方规律挖掘方法往往使用关联分析、聚类分析、复杂网络分析等常用数据挖掘方法建模过程中没有考虑隐含证候，导致现有组方规律挖掘方法所得结果的准确度不高的问题。本发明采用上述方案基于对医案中症状和对应处方的隐语义分析，提取出隐含证候，发现隐含证候、症状和药物间存在的关系，建立一个基于中医医案挖掘的主题模型；具体地，通过基于对医案库中症状和对应处方的隐语义分析，提取出隐含证候，发现隐含证候、症状和药物间存在的关系，并构建了一种基于症状-证候-药物的主题模型并训练模型，结合了隐含证候来建模，克服了现有技术中医组方规律挖掘缺乏对隐含证候的考虑；然后，把待检测的用户症状输入到训练好的模型中获取症状、证候、药物之间的对应关系，进行相应处方推荐，提高了中医组方推荐的精度和效率，为中医医师诊疗过程的组方提供辅助决策。

实施例2

如图1至图4所示，本实施例与实施例1的区别在于，本实施例提供了一种基于隐语义模型的中医组方推荐系统，该系统支持实施1中的一种基于隐语义模型的中医组方推荐方法，如图4所示，该系统包括：

种症状和

和

对于每个主题k∈[1,…,K]，

服从参数为β的狄利克雷先验分布，

服从参数为γ的狄利克雷先验分布：

若x＝symptom，则症状s_pm服从参数为

的多项式分布：

若x＝herb，则药物h_pn服从参数为

的多项式分布：

及

的计算分别如下：

其中，θ_pk表示医案p包含证候k的概率，

表示证候k包含症状s的概率，

表示证候k包含药物h的概率；α、β、γ分别为1、0.1、0.1，

表示医案p的症状分配给主题k的次数，

表示医案p的药物分配给主题k的次数，

表示在医案集中症状m分配给主题k的次数，

表示在医案集中药物n分配给主题k的次数。

p(z|s_i)表示症状s_i包含于证候z的概率：

其中，p(s_i|z)为SSHTM模型中的参数

排序推荐单元包括：

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于隐语义模型的中医组方推荐方法，其特征在于，该方法包括以下步骤：

S2：输入待检测的用户症状，从基于症状-证候-药物的主题模型结果中获取的症状、证候、药物之间的对应关系，进行相应处方推荐，并输出推荐结果，为医生诊疗过程的组方提供参考和辅助决策；

所述步骤S1具体包括基于症状-证候-药物的主题模型的生成；

种症状和

种药物，h_pn为医案p中的第n种药物，s_pm为医案p中的第m种症状，z_pmn为词h_pn和s_pm的潜在证候分布；K为证候主题数，每个主题k∈[1，…，K]表示一种证候；

为证候k∈[1，…，K]上S维的证候-症状多项式分布，用于描述不同症状对证侯的重要性，其中，S为医案集包含的症状总数；

为证候k∈[1，…，K]上H维的证候-药物多项式分布，用于描述不同药物治疗一种证侯的重要性，其中，H为医案集包含的药物总数；对于某种证候下的所有词，假设

和

相互独立；θ_p为医案p上K维的医案-证候多项式分布；x为二元变量值，取值范围为{symptom，herb}，以此来表达所生成词的2种不同类型，若x＝symptom，则表示所生成词为症状，否则为药物；α、β、γ分别为Dirichlet先验分布的超参数；基于症状-证候-药物主题模型SSHTM的生成过程如下所示：

步骤1：对于每个主题k∈[1，…，K]，