CN111477295B - 一种基于隐语义模型的中医组方推荐方法及系统 - Google Patents
一种基于隐语义模型的中医组方推荐方法及系统 Download PDFInfo
- Publication number
- CN111477295B CN111477295B CN202010279991.7A CN202010279991A CN111477295B CN 111477295 B CN111477295 B CN 111477295B CN 202010279991 A CN202010279991 A CN 202010279991A CN 111477295 B CN111477295 B CN 111477295B
- Authority
- CN
- China
- Prior art keywords
- symptom
- symptoms
- syndrome
- drug
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/10—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/90—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to alternative medicines, e.g. homeopathy or oriental medicines
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Medicinal Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Alternative & Traditional Medicine (AREA)
- Pharmacology & Pharmacy (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Medical Preparation Storing Or Oral Administration Devices (AREA)
Abstract
本发明公开了一种基于隐语义模型的中医组方推荐方法及系统,该方法包括以下步骤:S0:采集某种疾病的多例医案信息,医案信息包括医案数及每例医案对应症状和药物;S1:根据步骤S0采集的信息,基于对医案库中症状和对应处方的隐语义分析,提取出隐含证候,发现隐含证候、症状和药物间存在的关系,建立基于症状‑证候‑药物的主题模型,并进行参数学习训练;S2:输入待检测的用户症状,从基于症状‑证候‑药物的主题模型结果中获取的症状、证候、药物之间的对应关系,进行相应处方推荐,并输出推荐结果,为医生诊疗过程的组方提供参考和辅助决策。
Description
技术领域
本发明涉及计算机技术在中医药领域的应用,尤其涉及一种基于隐语义模型的中医组方推荐方法及系统。
背景技术
千百年来累积的大量中医医案数据是历史传承下来的宝贵财富。当前对中医诊疗经验的继承大多基于分析总结先前的处方,但是大多数处方是凭经验主观给出,缺乏客观标准,中医系统体系也是由主观理解和推断构成。由于缺少科学数据的支撑和解释,使得在实践中很多人对中医给出的不同组方结果存在怀疑,因此,对中医组方的过程数据化十分重要。随着计算机技术在中医药领域的应用,近年来,有研究者使用关联规则、聚类分析、复杂网络分析等方法进行中医组方规律挖掘,文献[J.Wu,W.Guo,Y.Tang,et al.A study ofTCM master Yan Zhenghua's medication rule in prescriptions for digestivesystem diseases based on Apriori and complex system entropy cluster[J].Journal of Traditional Chinese Medical Sciences,2015,2(4):241-247.]使用Apriori关联规则方法挖掘关于消化系统疾病的方剂用药规律,结果发现了治疗该病的15种核心药物、22种核心药对及8种核心药组;文献[周伟,王峰,王崇骏,等.利用效用度挖掘核心药物及配伍规律[J].计算机科学与探索,2013,7(11):994-1001.]使用重叠社团发现算法挖掘关于肺痿疾病的方剂配伍规律,结果发现了治疗该病的42种核心药物及30种核心药对。
然而,使用关联分析、聚类分析、复杂网络分析等常用数据挖掘方法难以建模中医诊疗过程中的隐含证候,而证候是医师在开方过程中必不可少的基础依据,导致现有组方规律挖掘方法所得结果的准确度不高。
发明内容
本发明所要解决的技术问题是现有的中医组方规律挖掘方法往往使用关联分析、聚类分析、复杂网络分析等常用数据挖掘方法,建模过程中没有考虑隐含证候,导致现有组方规律挖掘方法所得结果的准确度不高的问题。本发明提供了解决上述问题的一种基于隐语义模型的中医组方推荐方法及系统,本发明构建一种基于隐含狄利克雷分布(LatentDirichlet Allocation,LDA)模型的中医组方研究方法,结合隐含证候建模,提高了中医组方推荐的精度和效率,为中医医师诊疗过程的组方提供辅助决策。
本发明通过下述技术方案实现:
一种基于隐语义模型的中医组方推荐方法,该方法包括以下步骤:
S0:采集某种疾病的多例医案信息,医案信息包括医案数及每例医案对应症状和药物;
S1:根据步骤S0采集的信息,基于对医案库中症状和对应处方的隐语义分析,提取出隐含证候,发现隐含证候、症状和药物间存在的关系,建立基于症状-证候-药物的主题模型,并进行参数学习训练;
S2:输入待检测的用户症状,从基于症状-证候-药物的主题模型结果中获取的症状、证候、药物之间的对应关系,进行相应处方推荐,并输出推荐结果,为医生诊疗过程的组方提供参考和辅助决策。
工作原理是:基于现有的中医组方规律挖掘方法往往使用关联分析、聚类分析、复杂网络分析等常用数据挖掘方法,建模过程中没有考虑隐含证候,导致现有组方规律挖掘方法所得结果的准确度不高的问题。本发明采用上述方案基于对医案中症状和对应处方的隐语义分析,提取出隐含证候,发现隐含证候、症状和药物间存在的关系,建立一个基于中医医案挖掘的主题模型;具体地,通过基于对医案库中症状和对应处方的隐语义分析,提取出隐含证候,发现隐含证候、症状和药物间存在的关系,并构建了一种基于症状-证候-药物的主题模型并训练模型,结合了隐含证候来建模,克服了现有技术中医组方规律挖掘缺乏对隐含证候的考虑;然后,把待检测的用户症状输入到训练好的模型中获取症状、证候、药物之间的对应关系,进行相应处方推荐,提高了中医组方推荐的精度和效率,为中医医师诊疗过程的组方提供辅助决策。
进一步地,所述步骤S1具体包括基于症状-证候-药物的主题模型的生成;
假设一例医案被视为一篇文档,一种证候被视为一个主题;令|P|为临床医案数,每例医案p包含种症状和种药物,hpn为医案p中的第n种药物,spm为医案p中的第m种症状,zpmn为词hpn和spm的潜在证候分布;K为证候主题数,每个主题k∈[1,…,K]表示一种证候;为证候k∈[1,…,K]上S维的证候-症状多项式分布,用于描述不同症状对证侯的重要性,其中,S为医案集包含的症状总数;为证候k∈[1,…,K]上H维的证候-药物多项式分布,用于描述不同药物治疗一种证侯的重要性,其中,H为医案集包含的药物总数;对于某种证候下的所有词,假设和相互独立;θp为医案p上K维的医案-证候多项式分布;x为二元变量值,取值范围为{symptom,herb},以此来表达所生成词的2种不同类型,若x=symptom,则表示所生成词为症状,否则为药物;α、β、γ分别为Dirichlet先验分布的超参数;基于症状-证候-药物主题模型SSHTM的生成过程如下所示:
步骤2:对于每例医案p∈P,θp服从参数为α的狄利克雷先验分布:θp~Dirichlet(α);
步骤3:对于包含于每例医案p中的每个词,主题zpmn服从参数为θp的多项式分布:zpmn~Multi(θp);
进一步地,所述步骤S1还包括基于症状-证候-药物的主题模型的参数学习训练;
其中,θpk表示医案p包含证候k的概率,表示证候k包含症状s的概率,表示证候k包含药物h的概率;α、β、γ分别为1、0.1、0.1,表示医案p的症状分配给主题k的次数,表示医案p的药物分配给主题k的次数,表示在医案集中症状m分配给主题k的次数,表示在医案集中药物n分配给主题k的次数。
进一步地,所述步骤S2中对输入的待检测用户的症状,进行预处理,将其表示为一个n维向量,n为包含于医案集的症状数;其中,每种症状用0、1编码表示,若输入症状存在,则编码为1,否则为0。
进一步地,所述步骤S2具体包括如下子步骤:
S21:构建症状-药物矩阵,获取症状与药物之间的对应关系;
构建症状-药物矩阵,其第i行j列的元素表示为p(hj|si),即治疗症状si的药物包含hj的概率,其计算如下所示:
S22:对所有症状计算每种药物的排序值Rank,并选择具有较大排序值的药物作为其推荐药物,并将这些推荐药物的组合作为治疗患者的推荐处方;
S221:基于输入的患者症状及其对应权重,计算所有症状下每种药物的排序值Rank,其计算如下所示:
其中,weight(si)表示症状si的权重,若输入症状包含si,则为1,否则为0;
S222:对所有药物的Rank值进行降序排列,并选择前N个药物作为其推荐药物,并将这N个药物的组合作为治疗患者症状的推荐处方,记为:pres.={H(N)}。
另一方面,本发明还提供了一种基于隐语义模型的中医组方推荐系统,该系统支持上述的一种基于隐语义模型的中医组方推荐方法,包括:
医案信息采集模块:用于采集某种疾病的多例医案信息,医案信息包括医案数及每例医案对应症状和药物;
基于症状-证候-药物的主题模型构建及训练模块:连接医案信息采集模块,基于对医案中症状和对应处方的隐语义分析,提取出隐含证候,发现隐含证候、症状和药物间存在的关系,建立基于症状-证候-药物的主题模型,并进行模型训练及保存;
用户信息输入模块:用于获取待检测用户的症状,并进行预处理相关解析;
中医组方推荐模块:分别连接用户信息输入模块和基于症状-证候-药物的主题模型构建及训练模块,用于根据输入待检测用户的症状,从基于症状-证候-药物的主题模型结果中获取的症状、证候、药物之间的对应关系,进行相应处方推荐,并输出推荐结果,为医生诊疗过程的组方提供参考和辅助决策。
进一步地,所述基于症状-证候-药物的主题模型构建及训练模块包括模型生成单元,模型生成单元包括:
假设一例医案被视为一篇文档,一种证候被视为一个主题;令|P|为临床医案数,每例医案p包含种症状和种药物,hpn为医案p中的第n种药物,spm为医案p中的第m种症状,zpmn为词hpn和spm的潜在证候分布;K为证候主题数,每个主题k∈[1,…,K]表示一种证候;为证候k∈[1,…,K]上S维的证候-症状多项式分布,用于描述不同症状对证侯的重要性,其中,S为医案集包含的症状总数;为证候k∈[1,…,K]上H维的证候-药物多项式分布,用于描述不同药物治疗一种证侯的重要性,其中,H为医案集包含的药物总数;对于某种证候下的所有词,假设和相互独立;θp为医案p上K维的医案-证候多项式分布;x为二元变量值,取值范围为{symptom,herb},以此来表达所生成词的2种不同类型,若x=symptom,则表示所生成词为症状,否则为药物;α、β、γ分别为Dirichlet先验分布的超参数;基于症状-证候-药物主题模型SSHTM的生成过程如下所示:
对于每例医案p∈P,θp服从参数为α的狄利克雷先验分布:θp~Dirichlet(α);
对于包含于每例医案p中的每个词,主题zpmn服从参数为θp的多项式分布:zpmn~Multi(θp);
其中,θpk表示医案p包含证候k的概率,表示证候k包含症状s的概率,表示证候k包含药物h的概率;α、β、γ分别为1、0.1、0.1,表示医案p的症状分配给主题k的次数,表示医案p的药物分配给主题k的次数,表示在医案集中症状m分配给主题k的次数,表示在医案集中药物n分配给主题k的次数。
进一步地,所述中医组方推荐模块包括构建症状-药物矩阵单元和排序推荐单元,其中,构建症状-药物矩阵单元包括:
构建症状-药物矩阵,其第i行j列的元素表示为p(hj|si),即治疗症状si的药物包含hj的概率,其计算如下所示:
排序推荐单元包括:
基于输入的患者症状及其对应权重,计算所有症状下每种药物的排序值Rank,其计算如下所示:
其中,weight(si)表示症状si的权重,若输入症状包含si,则为1,否则为0;
对所有药物的Rank值进行降序排列,并选择前N个药物作为其推荐药物,并将这N个药物的组合作为治疗患者症状的推荐处方,记为:pres.={H(N)}。
本发明与现有技术相比,具有如下的优点和有益效果:
1、本发明一种基于隐语义模型的中医组方推荐方法及系统,基于对医案中症状和对应处方的隐语义分析,提取出隐含证候,发现隐含证候、症状和药物间存在的关系,建立一个基于中医医案挖掘的主题模型;
2、本发明一种基于隐语义模型的中医组方推荐方法及系统,从基于症状-证候-药物的主题模型SSHTM结果中获取的症状、证候、药物之间的对应关系,提出了基于症状推荐处方的方法,为医生诊疗过程的组方提供参考和辅助决策。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明一种基于隐语义模型的中医组方推荐方法流程图。
图2为本发明基于症状-证候-药物的主题模型SSHTM的概率图模型表示图。
图3为本发明实施例处方生成过程示例图。
图4为本发明一种基于隐语义模型的中医组方推荐系统框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
如图1至图4所示,本发明一种基于隐语义模型的中医组方推荐方法,该方法包括以下步骤:
S0:采集某种疾病的多例医案信息,医案信息包括医案数及每例医案对应症状和药物;
S1:根据步骤S0采集的信息,基于对医案库中症状和对应处方的隐语义分析,提取出隐含证候,发现隐含证候、症状和药物间存在的关系,建立基于症状-证候-药物的主题模型,并进行参数学习训练;
S2:输入待检测的用户症状,从基于症状-证候-药物的主题模型结果中获取的症状、证候、药物之间的对应关系,进行相应处方推荐,并输出推荐结果,为医生诊疗过程的组方提供参考和辅助决策。
具体地,所述步骤S1具体包括基于症状-证候-药物的主题模型的生成;
如图2所示为基于症状-证候-药物的主题模型的概率图模型表示,其中,假设一例医案被视为一篇文档,一种证候被视为一个主题;令|P|为临床医案数,每例医案p包含种症状和种药物,hpn为医案p中的第n种药物,spm为医案p中的第m种症状,zpmn为词hpn和spm的潜在证候分布;K为证候主题数,每个主题k∈[1,…,K]表示一种证候;为证候k∈[1,…,K]上S维的证候-症状多项式分布,用于描述不同症状对证侯的重要性,其中,S为医案集包含的症状总数;为证候k∈[1,…,K]上H维的证候-药物多项式分布,用于描述不同药物治疗一种证侯的重要性,其中,H为医案集包含的药物总数;对于某种证候下的所有词,假设和相互独立;θp为医案p上K维的医案-证候多项式分布;x为二元变量值,取值范围为{symptom,herb},以此来表达所生成词的2种不同类型,若x=symptom,则表示所生成词为症状,否则为药物;α、β、γ分别为Dirichlet先验分布的超参数;基于症状-证候-药物主题模型SSHTM的生成过程如下所示:
步骤2:对于每例医案p∈P,θp服从参数为α的狄利克雷先验分布:θp~Dirichlet(α);
步骤3:对于包含于每例医案p中的每个词,主题zpmn服从参数为θp的多项式分布:zpmn~Multi(θp);
所述步骤S1还包括基于症状-证候-药物的主题模型的参数学习训练;
其中,θpk表示医案p包含证候k的概率,表示证候k包含症状s的概率,表示证候k包含药物h的概率;α、β、γ分别为1、0.1、0.1,表示医案p的症状分配给主题k的次数,表示医案p的药物分配给主题k的次数,表示在医案集中症状m分配给主题k的次数,表示在医案集中药物n分配给主题k的次数。
具体地,所述步骤S2中对输入的待检测用户的症状,进行预处理,将其表示为一个n维向量,n为包含于医案集的症状数;其中,每种症状用0、1编码表示,若输入症状存在,则编码为1,否则为0。
具体地,利用基于症状-证候-药物的主题模型的参数预测症状所对应的药物,即以给定的患者症状作为输入,推荐相应治疗的药物。因此,本发明结合基于症状-证候-药物的主题模型SSHTM,给出基于症状的处方推荐方法,该方法首先构建了一种症状-药物矩阵,以此获取症状与药物之间的对应关系;然后针对所有症状计算每种药物的排序值Rank,并选择具有较大Rank值的药物作为其推荐药物,并将这些推荐药物的组合作为治疗患者的推荐处方。
基于患者症状发现对应药物的流程如图3所示,图3中最终的生姜、茯苓、桂枝对应的输出Rank值为0.7、0.6、0.5。患者所有症状及其权重作为输入,将其用一个S维向量表示,若输入症状存在,则权重为1,否则为0;输出则为与患者症状最相关的药物集合。
所述步骤S2具体包括如下子步骤:
S21:构建症状-药物矩阵,获取症状与药物之间的对应关系;
构建症状-药物矩阵,其第i行j列的元素表示为p(hj|si),即治疗症状si的药物包含hj的概率,其计算如下所示:
S22:对所有症状计算每种药物的排序值Rank,并选择具有较大排序值的药物作为其推荐药物,并将这些推荐药物的组合作为治疗患者的推荐处方;
S221:基于输入的患者症状及其对应权重,计算所有症状下每种药物的排序值Rank,其计算如下所示:
其中,weight(si)表示症状si的权重,若输入症状包含si,则为1,否则为0;
S222:对所有药物的Rank值进行降序排列,并选择前N个药物作为其推荐药物,并将这N个药物的组合作为治疗患者症状的推荐处方,记为:pres.={H(N)}。
本发明以慢性肾病中医临床医案为研究基础,以慢性肾病的多例医案信息来实施本发明方法;具体地,以慢性肾小球肾炎组方来说明,如下表1所示,本发明方法较于使用常用统计方法分析中医组方规律得到的结果,本发明的组方规律研究方法可以达到更高的准确率。
表1慢性肾小球肾炎组方推荐结果
我们邀请了成都中医药大学的中医医师分析了表1的处方推荐结果,实验基于1959例慢性肾病医案发现使用该方法推荐获得的处方,其准确度达到78.68%,均优于现有方法的预测精度。
工作原理是:基于现有的中医组方规律挖掘方法往往使用关联分析、聚类分析、复杂网络分析等常用数据挖掘方法建模过程中没有考虑隐含证候,导致现有组方规律挖掘方法所得结果的准确度不高的问题。本发明采用上述方案基于对医案中症状和对应处方的隐语义分析,提取出隐含证候,发现隐含证候、症状和药物间存在的关系,建立一个基于中医医案挖掘的主题模型;具体地,通过基于对医案库中症状和对应处方的隐语义分析,提取出隐含证候,发现隐含证候、症状和药物间存在的关系,并构建了一种基于症状-证候-药物的主题模型并训练模型,结合了隐含证候来建模,克服了现有技术中医组方规律挖掘缺乏对隐含证候的考虑;然后,把待检测的用户症状输入到训练好的模型中获取症状、证候、药物之间的对应关系,进行相应处方推荐,提高了中医组方推荐的精度和效率,为中医医师诊疗过程的组方提供辅助决策。
实施例2
如图1至图4所示,本实施例与实施例1的区别在于,本实施例提供了一种基于隐语义模型的中医组方推荐系统,该系统支持实施1中的一种基于隐语义模型的中医组方推荐方法,如图4所示,该系统包括:
医案信息采集模块:用于采集某种疾病的多例医案信息,医案信息包括医案数及每例医案对应症状和药物;
基于症状-证候-药物的主题模型构建及训练模块:连接医案信息采集模块,基于对医案中症状和对应处方的隐语义分析,提取出隐含证候,发现隐含证候、症状和药物间存在的关系,建立基于症状-证候-药物的主题模型,并进行模型训练及保存;
用户信息输入模块:用于获取待检测用户的症状,并进行预处理相关解析;
中医组方推荐模块:分别连接用户信息输入模块和基于症状-证候-药物的主题模型构建及训练模块,用于根据输入待检测用户的症状,从基于症状-证候-药物的主题模型结果中获取的症状、证候、药物之间的对应关系,进行相应处方推荐,并输出推荐结果,为医生诊疗过程的组方提供参考和辅助决策。
进一步地,所述基于症状-证候-药物的主题模型构建及训练模块包括模型生成单元,模型生成单元包括:
假设一例医案被视为一篇文档,一种证候被视为一个主题;令|P|为临床医案数,每例医案p包含种症状和种药物,hpn为医案p中的第n种药物,spm为医案p中的第m种症状,zpmn为词hpn和spm的潜在证候分布;K为证候主题数,每个主题k∈[1,…,K]表示一种证候;为证候k∈[1,…,K]上S维的证候-症状多项式分布,用于描述不同症状对证侯的重要性,其中,S为医案集包含的症状总数;为证候k∈[1,…,K]上H维的证候-药物多项式分布,用于描述不同药物治疗一种证侯的重要性,其中,H为医案集包含的药物总数;对于某种证候下的所有词,假设和相互独立;θp为医案p上K维的医案-证候多项式分布;x为二元变量值,取值范围为{symptom,herb},以此来表达所生成词的2种不同类型,若x=symptom,则表示所生成词为症状,否则为药物;α、β、γ分别为Dirichlet先验分布的超参数;基于症状-证候-药物主题模型SSHTM的生成过程如下所示:
对于每例医案p∈P,θp服从参数为α的狄利克雷先验分布:θp~Dirichlet(α);
对于包含于每例医案p中的每个词,主题zpmn服从参数为θp的多项式分布:zpmn~Multi(θp);
其中,θpk表示医案p包含证候k的概率,表示证候k包含症状s的概率,表示证候k包含药物h的概率;α、β、γ分别为1、0.1、0.1,表示医案p的症状分配给主题k的次数,表示医案p的药物分配给主题k的次数,表示在医案集中症状m分配给主题k的次数,表示在医案集中药物n分配给主题k的次数。
进一步地,所述中医组方推荐模块包括构建症状-药物矩阵单元和排序推荐单元,其中,构建症状-药物矩阵单元包括:
构建症状-药物矩阵,其第i行j列的元素表示为p(hj|si),即治疗症状si的药物包含hj的概率,其计算如下所示:
排序推荐单元包括:
基于输入的患者症状及其对应权重,计算所有症状下每种药物的排序值Rank,其计算如下所示:
其中,weight(si)表示症状si的权重,若输入症状包含si,则为1,否则为0;
对所有药物的Rank值进行降序排列,并选择前N个药物作为其推荐药物,并将这N个药物的组合作为治疗患者症状的推荐处方,记为:pres.={H(N)}。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种基于隐语义模型的中医组方推荐方法,其特征在于,该方法包括以下步骤:
S0:采集某种疾病的多例医案信息,医案信息包括医案数及每例医案对应症状和药物;
S1:根据步骤S0采集的信息,基于对医案库中症状和对应处方的隐语义分析,提取出隐含证候,发现隐含证候、症状和药物间存在的关系,建立基于症状-证候-药物的主题模型,并进行参数学习训练;
S2:输入待检测的用户症状,从基于症状-证候-药物的主题模型结果中获取的症状、证候、药物之间的对应关系,进行相应处方推荐,并输出推荐结果,为医生诊疗过程的组方提供参考和辅助决策;
所述步骤S1具体包括基于症状-证候-药物的主题模型的生成;
假设一例医案被视为一篇文档,一种证候被视为一个主题;令|P|为临床医案数,每例医案p包含种症状和种药物,hpn为医案p中的第n种药物,spm为医案p中的第m种症状,zpmn为词hpn和spm的潜在证候分布;K为证候主题数,每个主题k∈[1,…,K]表示一种证候;为证候k∈[1,…,K]上S维的证候-症状多项式分布,用于描述不同症状对证侯的重要性,其中,S为医案集包含的症状总数;为证候k∈[1,…,K]上H维的证候-药物多项式分布,用于描述不同药物治疗一种证侯的重要性,其中,H为医案集包含的药物总数;对于某种证候下的所有词,假设和相互独立;θp为医案p上K维的医案-证候多项式分布;x为二元变量值,取值范围为{symptom,herb},以此来表达所生成词的2种不同类型,若x=symptom,则表示所生成词为症状,否则为药物;α、β、γ分别为Dirichlet先验分布的超参数;基于症状-证候-药物主题模型SSHTM的生成过程如下所示:
步骤2:对于每例医案p∈P,θp服从参数为α的狄利克雷先验分布:θp~Dirichlet(α);
步骤3:对于包含于每例医案p中的每个词,主题zpmn服从参数为θp的多项式分布:zpmn~Multi(θp);
所述步骤S1还包括基于症状-证候-药物的主题模型的参数学习训练;
其中,θpk表示医案p包含证候k的概率,表示证候k包含症状s的概率,表示证候k包含药物h的概率;表示医案p的症状分配给主题k的次数,表示医案p的药物分配给主题k的次数,表示在医案集中症状m分配给主题k的次数,表示在医案集中药物n分配给主题k的次数;
所述步骤S2中对输入的待检测用户的症状,进行预处理,将其表示为一个n维向量,n为包含于医案集的症状数;其中,每种症状用0、1编码表示,若输入症状存在,则编码为1,否则为0;
所述步骤S2具体包括如下子步骤:
S21:构建症状-药物矩阵,获取症状与药物之间的对应关系;
构建症状-药物矩阵,其第i行j列的元素表示为p(hj|si),即治疗症状si的药物包含hj的概率,其计算如下所示:
S22:对所有症状计算每种药物的排序值Rank,并选择具有较大排序值的药物作为其推荐药物,并将这些推荐药物的组合作为治疗患者的推荐处方;
S221:基于输入的患者症状及其对应权重,计算所有症状下每种药物的排序值Rank,其计算如下所示:
其中,weight(si)表示症状si的权重,若输入症状包含si,则为1,否则为0;
S222:对所有药物的Rank值进行降序排列,并选择前N个药物作为其推荐药物,并将这N个药物的组合作为治疗患者症状的推荐处方,记为:pres.={H(N)}。
2.一种基于隐语义模型的中医组方推荐系统,其特征在于,该系统支持上述权利要求1所述的一种基于隐语义模型的中医组方推荐方法,包括:
医案信息采集模块:用于采集某种疾病的多例医案信息,医案信息包括医案数及每例医案对应症状和药物;
基于症状-证候-药物的主题模型构建及训练模块:连接医案信息采集模块,基于对医案中症状和对应处方的隐语义分析,提取出隐含证候,发现隐含证候、症状和药物间存在的关系,建立基于症状-证候-药物的主题模型,并进行模型训练及保存;
用户信息输入模块:用于获取待检测用户的症状,并进行预处理相关解析;
中医组方推荐模块:分别连接用户信息输入模块和基于症状-证候-药物的主题模型构建及训练模块,用于根据输入待检测用户的症状,从基于症状-证候-药物的主题模型结果中获取的症状、证候、药物之间的对应关系,进行相应处方推荐,并输出推荐结果,为医生诊疗过程的组方提供参考和辅助决策;
所述基于症状-证候-药物的主题模型构建及训练模块包括模型生成单元,模型生成单元包括:
假设一例医案被视为一篇文档,一种证候被视为一个主题;令|P|为临床医案数,每例医案p包含种症状和种药物,hpn为医案p中的第n种药物,spm为医案p中的第m种症状,zpmn为词hpn和spm的潜在证候分布;K为证候主题数,每个主题k∈[1,…,K]表示一种证候;为证候k∈[1,…,K]上S维的证候-症状多项式分布,用于描述不同症状对证侯的重要性,其中,S为医案集包含的症状总数;为证候k∈[1,…,K]上H维的证候-药物多项式分布,用于描述不同药物治疗一种证侯的重要性,其中,H为医案集包含的药物总数;对于某种证候下的所有词,假设和相互独立;θp为医案p上K维的医案-证候多项式分布;x为二元变量值,取值范围为{symptom,herb},以此来表达所生成词的2种不同类型,若x=symptom,则表示所生成词为症状,否则为药物;α、β、γ分别为Dirichlet先验分布的超参数;基于症状-证候-药物主题模型SSHTM的生成过程如下所示:
对于每例医案p∈P,θp服从参数为α的狄利克雷先验分布:θp~Dirichlet(α);
对于包含于每例医案p中的每个词,主题zpmn服从参数为θp的多项式分布:zpmn~Multi(θp);
其中,θpk表示医案p包含证候k的概率,表示证候k包含症状s的概率,表示证候k包含药物h的概率;表示医案p的症状分配给主题k的次数,表示医案p的药物分配给主题k的次数,表示在医案集中症状m分配给主题k的次数,表示在医案集中药物n分配给主题k的次数;
所述中医组方推荐模块包括构建症状-药物矩阵单元和排序推荐单元,其中,构建症状-药物矩阵单元包括:
构建症状-药物矩阵,其第i行j列的元素表示为p(hj|si),即治疗症状si的药物包含hj的概率,其计算如下所示:
排序推荐单元包括:
基于输入的患者症状及其对应权重,计算所有症状下每种药物的排序值Rank,其计算如下所示:
其中,weight(si)表示症状si的权重,若输入症状包含si,则为1,否则为0;
对所有药物的Rank值进行降序排列,并选择前N个药物作为其推荐药物,并将这N个药物的组合作为治疗患者症状的推荐处方,记为:pres.={H(N)}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010279991.7A CN111477295B (zh) | 2020-04-10 | 2020-04-10 | 一种基于隐语义模型的中医组方推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010279991.7A CN111477295B (zh) | 2020-04-10 | 2020-04-10 | 一种基于隐语义模型的中医组方推荐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111477295A CN111477295A (zh) | 2020-07-31 |
CN111477295B true CN111477295B (zh) | 2022-06-03 |
Family
ID=71751531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010279991.7A Active CN111477295B (zh) | 2020-04-10 | 2020-04-10 | 一种基于隐语义模型的中医组方推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111477295B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112992378B (zh) * | 2021-04-25 | 2021-09-03 | 南京大经中医药信息技术有限公司 | 一种多维度中药方剂推荐方法和推荐系统 |
CN113066561A (zh) * | 2021-04-30 | 2021-07-02 | 河南科技大学 | 一种基于lda主题模型的中医药材推荐方法 |
CN116469527B (zh) * | 2023-04-21 | 2023-09-08 | 脉景(杭州)健康管理有限公司 | 一种中药处方的优化推荐方法、系统及设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103365978A (zh) * | 2013-07-01 | 2013-10-23 | 浙江大学 | 基于lda主题模型的中医药数据挖掘方法 |
CN107887022A (zh) * | 2017-11-09 | 2018-04-06 | 淮阴工学院 | 一种基于sstm的中医证候智能诊断方法 |
CN108231200A (zh) * | 2018-01-11 | 2018-06-29 | 浙江大学 | 一种基于主题模型和ilp的看病攻略生成方法 |
CN108231146A (zh) * | 2017-12-01 | 2018-06-29 | 华南师范大学 | 一种基于深度学习的医疗记录模型构建方法、系统及装置 |
CN109215777A (zh) * | 2018-08-03 | 2019-01-15 | 电子科技大学 | 中医文献智能挖掘与组方辅助决策方法及系统 |
CN110223749A (zh) * | 2019-06-14 | 2019-09-10 | 电子科技大学 | 基于pcnn网络和注意力机制的中医辨证辅助决策方法 |
CN110299206A (zh) * | 2018-03-21 | 2019-10-01 | 华东师范大学 | 一种多内容隐含狄利克雷分布模型及中医医案隐含病机挖掘方法 |
CN110335684A (zh) * | 2019-06-14 | 2019-10-15 | 电子科技大学 | 基于主题模型技术的中医智能辨证辅助决策方法 |
CN110929511A (zh) * | 2018-09-04 | 2020-03-27 | 清华大学 | 一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190259482A1 (en) * | 2018-02-20 | 2019-08-22 | Mediedu Oy | System and method of determining a prescription for a patient |
-
2020
- 2020-04-10 CN CN202010279991.7A patent/CN111477295B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103365978A (zh) * | 2013-07-01 | 2013-10-23 | 浙江大学 | 基于lda主题模型的中医药数据挖掘方法 |
CN107887022A (zh) * | 2017-11-09 | 2018-04-06 | 淮阴工学院 | 一种基于sstm的中医证候智能诊断方法 |
CN108231146A (zh) * | 2017-12-01 | 2018-06-29 | 华南师范大学 | 一种基于深度学习的医疗记录模型构建方法、系统及装置 |
CN108231200A (zh) * | 2018-01-11 | 2018-06-29 | 浙江大学 | 一种基于主题模型和ilp的看病攻略生成方法 |
CN110299206A (zh) * | 2018-03-21 | 2019-10-01 | 华东师范大学 | 一种多内容隐含狄利克雷分布模型及中医医案隐含病机挖掘方法 |
CN109215777A (zh) * | 2018-08-03 | 2019-01-15 | 电子科技大学 | 中医文献智能挖掘与组方辅助决策方法及系统 |
CN110929511A (zh) * | 2018-09-04 | 2020-03-27 | 清华大学 | 一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法 |
CN110223749A (zh) * | 2019-06-14 | 2019-09-10 | 电子科技大学 | 基于pcnn网络和注意力机制的中医辨证辅助决策方法 |
CN110335684A (zh) * | 2019-06-14 | 2019-10-15 | 电子科技大学 | 基于主题模型技术的中医智能辨证辅助决策方法 |
Non-Patent Citations (2)
Title |
---|
基于隐语义模型的中医在线辅助诊疗系统;张颖等;《计算机应用》;20170615;第303-307页 * |
融合LSTM和LDA差异的新闻文本关键词抽取方法;宁珊; 严馨; 周枫; 王红斌; 张金鹏;《计算机工程与科学》;20200101;第42卷(第1期);第153-160页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111477295A (zh) | 2020-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111477295B (zh) | 一种基于隐语义模型的中医组方推荐方法及系统 | |
WO2017152802A1 (zh) | 将文本类医疗报告转换为结构化数据的智能系统及方法 | |
US8626533B2 (en) | Patient data mining with population-based analysis | |
US20080033894A1 (en) | Prognosis Modeling From One or More Sources of Information | |
CN110021364A (zh) | 基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测系统 | |
CN108511056A (zh) | 基于脑卒中患者相似性分析的治疗方案推荐方法及系统 | |
CN109830302B (zh) | 用药模式挖掘方法、装置和电子设备 | |
CN108962394B (zh) | 一种医疗数据决策支持方法及系统 | |
CN116364299B (zh) | 一种基于异构信息网络的疾病诊疗路径聚类方法及系统 | |
CN116013534A (zh) | 一种基于医学指南和数据的临床辅助决策方法及系统 | |
CN112466462B (zh) | 一种基于图深度学习的emr信息关联及演化方法 | |
CN116910172B (zh) | 基于人工智能的随访量表生成方法及系统 | |
CN106845118A (zh) | 一种基于电子病历共享文档的辅诊用药系统及方法 | |
CN109360658A (zh) | 一种基于词向量模型的疾病模式挖掘方法及装置 | |
CN114783603A (zh) | 基于多源图神经网络融合的患病风险预测方法及系统 | |
Chou et al. | Extracting drug utilization knowledge using self-organizing map and rough set theory | |
CN114420279A (zh) | 一种医疗资源推荐方法、装置、设备及存储介质 | |
JP7198959B1 (ja) | 情報処理方法、コンピュータプログラム及び情報処理装置 | |
WO2023240837A1 (zh) | 基于病患数据的服务包生成方法、装置、设备及存储介质 | |
KR102571593B1 (ko) | 의료기관 간 의료데이터통합을 이용한 관심패턴 후보탐색방법과 장치 | |
CN115579153A (zh) | 问诊评价方法、问诊评价装置、电子设备和可读存储介质 | |
CN114627993A (zh) | 信息预测方法、装置、存储介质及计算机设备 | |
Kumar et al. | NATURAL LANGUAGE PROCESSING: HEALTHCARE ACHIEVING BENEFITS VIA NLP | |
US20180173850A1 (en) | System and Method of Semantic Differentiation of Individuals Based On Electronic Medical Records | |
Prabhakar et al. | Neural language modeling of unstructured clinical notes for automated patient phenotyping |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |