CN113066561A - 一种基于lda主题模型的中医药材推荐方法 - Google Patents
一种基于lda主题模型的中医药材推荐方法 Download PDFInfo
- Publication number
- CN113066561A CN113066561A CN202110485011.3A CN202110485011A CN113066561A CN 113066561 A CN113066561 A CN 113066561A CN 202110485011 A CN202110485011 A CN 202110485011A CN 113066561 A CN113066561 A CN 113066561A
- Authority
- CN
- China
- Prior art keywords
- syndrome
- treatment
- traditional chinese
- medical record
- chinese medicine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003814 drug Substances 0.000 title claims abstract description 116
- 238000000034 method Methods 0.000 title claims abstract description 42
- 239000000463 material Substances 0.000 title claims description 21
- 238000011282 treatment Methods 0.000 claims abstract description 48
- 229940079593 drug Drugs 0.000 claims abstract description 47
- 238000003745 diagnosis Methods 0.000 claims abstract description 7
- 208000011580 syndromic disease Diseases 0.000 claims description 103
- 238000002560 therapeutic procedure Methods 0.000 claims description 7
- 230000001225 therapeutic effect Effects 0.000 claims description 6
- 201000010099 disease Diseases 0.000 claims description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000005065 mining Methods 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 abstract 1
- 238000005070 sampling Methods 0.000 description 6
- 208000024891 symptom Diseases 0.000 description 6
- 230000008506 pathogenesis Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000002555 auscultation Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 208000035850 clinical syndrome Diseases 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 241000411851 herbal medicine Species 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 229940126680 traditional chinese medicines Drugs 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/90—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to alternative medicines, e.g. homeopathy or oriental medicines
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Pharmacology & Pharmacy (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medicinal Chemistry (AREA)
- Toxicology (AREA)
- Alternative & Traditional Medicine (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Medicines Containing Plant Substances (AREA)
Abstract
一种基于LDA主题模型的中医药材推荐方法,涉及中医药材推荐技术领域,将机器学习中的隐狄利克雷模型应用于中医药材推荐中,建立相应的主题模型,从而观察推荐药材的准确性,为中医药材推荐提供初筛和决策支持。本发明有益效果:克服了现有技术中中医组方规律挖掘缺乏对隐含治法的考虑的问题,提高了中医组方推荐的精度和效率,为中医医师诊疗过程的组方提供初筛和辅助决策支持。
Description
技术领域
本发明属于中医药材推荐技术领域,具体涉及一种基于LDA主题模型的中医药材推荐方法。
背景技术
中医药文化是中国历代著名中医在长期的实践和临床治疗中形成的一种医学文化,承载着中华民族几千年宝贵的经验和理论知识。证候概括为一系列有相互关联的症状总称,即通过望、闻、问、切四诊所获知的疾病过程中表现在整体层次上的机体反应状态及其运动、变化,简称证或者候,证候也是中医确立治疗原则、采用最恰当技术方法开展诊疗活动的基本依据。药方是传统中医文化的智慧结晶和组成部分,是为治疗某种疾病而组合起来的若干种药材的名称、剂量和用法。
当前中医诊疗经验大多基于分析总结先前的药方,但是大多数药方是凭经验主观给出,缺乏客观标准,中医系统体系也是由主观理解和推断构成。由于缺少科学数据的支撑和解释,使得在实践中很多人对中医给出的不同药方结果存在怀疑,因此,对中医药方的过程数据化十分重要。
发明内容
本发明所要解决的技术问题是提供一种基于LDA主题模型的中医药材推荐方法,挖掘出证候和药材之间的隐含关系,观察推荐药材的准确性,为中医药材推荐提供初筛和决策支持,解决现有药方凭经验主观给出,缺乏客观标准等问题。
本发明为解决上述技术问题所采用的技术方案是:一种基于LDA主题模型的中医药材推荐方法,包括以下步骤:
步骤一、采集某种疾病的多例医案信息,对医案数据进行预处理,经处理后的每例医案信息包含一组证候单词s和药材单词h;
步骤二、通过对医案中的证候和对应处方的隐语义分析挖掘出主题z,z为药材单词h和证候单词s的潜在治法分布,发现隐含治法、证候和药物间存在的关系,构建基于证候—治法—药物的主题模型并进行参数学习训练;
步骤三、把待检测的用户证候输入训练好的模型中,获取证候、治法和药物之间的对应关系,进行相应处方推荐并输出推荐结果,为医生诊疗过程的组方提供参考和辅助。
本发明所述步骤二中构建基于证候—治法—药物的主题模型的具体方法为:假设每例医案被视为一篇文档,一个病机被视为一个主题,令|C|为临床医案数,每例医案c包含一组证候和n种药物,hcn为医案c中的第n种药物,sc为医案c中的证候,z为药材单词h和证候单词s的潜在治法分布;K为治法主题数,每个治法主题k∈[1,…,K]表示一种治法;为治法k∈[1,…,K]上S维的证候-治法多项式分布,用于描述不同证候对治法的重要性,其中,S为医案集包含的治法总数;为治法k∈[1,…,K]上H维的治法-药物多项式分布,用于描述不同药物治疗一种治法的重要性,其中,H为医案集包含的药物总数;对于某种治法下的所有词,假设和相互独立;θC为医案C上K维的医案-证候多项式分布;x为二元变量值,取值范围为{syndrome,herb},以此来表达所生成词的2种不同类型,若x=syndrome,则表示所生成词为证候,否则为药物;α、β、γ分别为狄利克雷先验分布的超参数,基于证候-治法-药物的主题模型如下所示:(1)对于每个治法主题k∈[1,…,K],服从参数为β的狄利克雷先验分布,服从参数为γ的狄利克雷先验分布:
(2)对于每例医案c∈C,θc服从参数为α的狄利克雷先验分布:θc~Dirichlet(α);
(3)对于包含于每例医案c中的词,治法主题z服从参数为θc的多项式z~Multi(θc);
本发明所述步骤三中对待检测的用户证候进行相应处方推荐的具体方法为:
(1)构建证候-药物矩阵,其第i行第j列的元素表示为p(hj|si),即治疗证候si的药物包含hj的概率:
(2)基于输入的证候,计算该证候下每种药物h的排序值Rank,其计算如下所示:
对所有药物的Rank值进行降序排列,并选择前N个药物作为其推荐药物,并将这N个药物的组合作为治疗患者证候的推荐处方。
本发明的有益效果是:本发明通过对医案库中证候和对应处方的隐语义分析,提取出隐含治法,科学准确地找出隐含治法、证候和药物间存在的关系,并构建基于证候-治法-药物的主题模型并训练模型,结合了隐含治法来建模,克服了现有技术中中医组方规律挖掘缺乏对隐含治法的考虑的问题;然后,把待检测的用户证候输入到训练好的模型中,获取证候、治法、药物之间的对应关系,进行相应处方推荐,提高了中医组方推荐的精度和效率,为中医医师诊疗过程的组方提供初筛和辅助决策支持。
具体实施方式
本发明提供一种基于LDA主题模型的中医药材推荐方法,包括以下内容:
1.医案预处理
首先采集某种疾病的多例医案信息,对医案数据进行预处理,经处理后的每例医案信息包含一组证候单词s和药材单词h。
2.挖掘隐含病机建立模型
通过处理后的医案中证候单词s和药物单词h,构建基于证候—治法—药物的主题模型,并进行参数学习训练。
假设每例病案被视为一篇文档,一个病机被视为一个主题,令|C|为临床医案数,每例医案c包含一组证候和n种药物,hcn为医案c中的第n种药物,sc为医案c中的证候,z为药材单词h和证候单词s的潜在治法分布;K为治法主题数,每个治法主题k∈[1,…,K]表示一种治法;为治法k∈[1,…,K]上S维的证候-治法多项式分布,用于描述不同证候对治法的重要性,其中,S为医案集包含的治法总数;为治法k∈[1,…,K]上H维的治法-药物多项式分布,用于描述不同药物治疗一种治法的重要性,其中,H为医案集包含的药物总数;对于某种治法下的所有词,假设和相互独立;θC为医案C上K维的医案-证候多项式分布;x为二元变量值,取值范围为{syndrome,herb},以此来表达所生成词的2种不同类型,若x=syndrome,则表示所生成词为证候,否则为药物;α、β、γ分别为Dirichlet先验分布的超参数,基于证候-治法-药物主题模型的生成过程如下所示:
(2)对于每例医案c∈C,θc服从参数为α的狄利克雷先验分布:θc~Dirichlet(α);
(3)对于包含于每例医案c中的词,治法主题z服从参数为θc的多项式z~Multi(θc);
3.模型参数学习训练
在模型构建过程中,使用Gibbs抽样方法进行参数学习。当x=syndrome时,利用Gibbs抽样生成主题zs=k的概率计算公式如下:
p(zs=k|x=symptom,s,h)
当=herb时,利用Gibbs抽样生成主题zh=k的概率计算公式如下:
p(zh=k|x=herb,s,h)
4.中医药材推荐
把待检测的用户证候输入到训练好的模型中获取证候、治法、药物之间的对应关系,进行相应处方推荐,提高中医组方推荐的精度和效率,为中医医师诊疗过程的组方提供辅助决策。中药材推荐具体步骤:
(1)构建证候-药物矩阵,其第i行j列的元素表示为p(hj|si),即治疗证候si的药物包含hj的概率:
(2)基于输入的证候,计算每种证候下每种药物h的排序值Rank,其计算如下所示:
对所有药物的Rank值进行降序排列,并选择前N个药物作为其推荐药物,并将这N个药物的组合作为治疗患者证候的推荐处方,记为:pres.={H(N)}。
在中医药材推荐中,,为了能够准确的对证候做出分析以及给出合理的药材推荐,因此我们提出了基于主题模型的中医药材推荐方法,通过发现临床病例中所包含的开处方原则,达到中药材推荐的目的,从辩证记录的产生关系角度分析中医临床证候和中医药材,即发现中医证候与临床医生开处方向量之间的定量关系。
中医是中国传统医学,所以用中医的数据来对结果进行分析和比较。在提供的实验数据集中,样本集“证候/药材”进行试验,通过对证候和药材建立联系,找出之间的相关联的主题,实现对中医药材的推荐。
具体地,一种发现中医证候与处方推荐之间的定量关系的方法如下所示:
第一步:按照先验概率p(si)选择一个中医证候si;
第二步:根据证候-治法的Dirichlet先验分布α中取样生成中医证候si的治法分布θi;
第三步:从治法的多项式分布θi中取样生成中医证候si的第j个治法zij;
第六步:采用该治法下的top-N个药材作为推荐结果。
Claims (3)
1.一种基于LDA主题模型的中医药材推荐方法,其特征在于,包括以下步骤:
步骤一、采集某种疾病的多例医案信息,对医案数据进行预处理,经处理后的每例医案信息包含一组证候单词s和药材单词h;
步骤二、通过对医案中的证候和对应处方的隐语义分析挖掘出主题z,z为药材单词h和证候单词s的潜在治法分布,发现隐含治法、证候和药物间存在的关系,构建基于证候—治法—药物的主题模型并进行参数学习训练;
步骤三、把待检测的用户证候输入训练好的模型中,获取证候、治法和药物之间的对应关系,进行相应处方推荐并输出推荐结果,为医生诊疗过程的组方提供参考和辅助。
2.根据权利要求1所述的一种基于LDA主题模型的中医药材推荐方法,其特征在于:所述步骤二中构建基于证候—治法—药物的主题模型的具体方法为:假设每例医案被视为一篇文档,一个病机被视为一个主题,令|C|为临床医案数,每例医案c包含一组证候和n种药物,hcn为医案c中的第n种药物,sc为医案c中的证候,z为药材单词h和证候单词s的潜在治法分布;K为治法主题数,每个治法主题k∈[1,…,K]表示一种治法;为治法k∈[1,…,K]上S维的证候-治法多项式分布,用于描述不同证候对治法的重要性,其中,S为医案集包含的治法总数;为治法k∈[1,…,K]上H维的治法-药物多项式分布,用于描述不同药物治疗一种治法的重要性,其中,H为医案集包含的药物总数;对于某种治法下的所有词,假设和相互独立;θC为医案C上K维的医案-证候多项式分布;x为二元变量值,取值范围为{syndrome,herb},以此来表达所生成词的2种不同类型,若x=syndrome,则表示所生成词为证候,否则为药物;α、β、γ分别为狄利克雷先验分布的超参数,基于证候-治法-药物的主题模型如下所示:
(2)对于每例医案c∈C,θc服从参数为α的狄利克雷先验分布:θc~Dirichlet(α);
(3)对于包含于每例医案c中的词,治法主题z服从参数为θc的多项式z~Multi(θc);
3.根据权利要求1所述的一种基于LDA主题模型的中医药材推荐方法,其特征在于,所述步骤三中对待检测的用户证候进行相应处方推荐的具体方法为:
(1)构建证候-药物矩阵,其第i行j列的元素表示为p(hj|si),即治疗证候si的药物包含hj的概率:
(2)基于输入的证候,计算该证候下每种药物h的排序值Rank,其计算如下所示:
对所有药物的Rank值进行降序排列,并选择前N个药物作为其推荐药物,并将这N个药物的组合作为治疗患者证候的推荐处方。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110485011.3A CN113066561A (zh) | 2021-04-30 | 2021-04-30 | 一种基于lda主题模型的中医药材推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110485011.3A CN113066561A (zh) | 2021-04-30 | 2021-04-30 | 一种基于lda主题模型的中医药材推荐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113066561A true CN113066561A (zh) | 2021-07-02 |
Family
ID=76567987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110485011.3A Pending CN113066561A (zh) | 2021-04-30 | 2021-04-30 | 一种基于lda主题模型的中医药材推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113066561A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109243567A (zh) * | 2018-08-14 | 2019-01-18 | 山东科技大学 | 一种基于处方数据挖掘的药物推荐方法 |
CN111477295A (zh) * | 2020-04-10 | 2020-07-31 | 电子科技大学 | 一种基于隐语义模型的中医组方推荐方法及系统 |
-
2021
- 2021-04-30 CN CN202110485011.3A patent/CN113066561A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109243567A (zh) * | 2018-08-14 | 2019-01-18 | 山东科技大学 | 一种基于处方数据挖掘的药物推荐方法 |
CN111477295A (zh) * | 2020-04-10 | 2020-07-31 | 电子科技大学 | 一种基于隐语义模型的中医组方推荐方法及系统 |
Non-Patent Citations (4)
Title |
---|
尹裴 等: "《基于LDA主题模型和领域本体的中文产品评论细粒度情感分析》", 31 October 2018, 同济大学出版社 * |
张颖: "中医诊疗数据的隐语义分析技术", 《中国优秀博硕士学位论文全文数据库(硕士) 医药卫生科技辑》 * |
张颖等: "基于隐语义模型的中医在线辅助诊疗系统", 《计算机应用》 * |
武朝尉 等: "基于主题模型的中医辨证关系探索", 《中华医学图书情报杂志》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alnæs et al. | Brain heterogeneity in schizophrenia and its association with polygenic risk | |
Simmons et al. | Text mining for precision medicine: bringing structure to EHRs and biomedical literature to understand genes and health | |
Picardi et al. | Delusional themes across affective and non-affective psychoses | |
Hlatky et al. | Tying clinical research to patient care by use of an observational database | |
CN1613069A (zh) | 利用基于群体的分析挖掘病人数据 | |
CN113539515B (zh) | 临床需求挖掘方法、装置、电子设备和存储介质 | |
CN111048173B (zh) | 一种用药数据推送方法及装置 | |
CN111477295B (zh) | 一种基于隐语义模型的中医组方推荐方法及系统 | |
Moon et al. | Artificial neural networks in neurorehabilitation: A scoping review | |
Su et al. | Cognitive profile difference between Allen Cognitive Levels 4 and 5 in schizophrenia | |
Hane et al. | Predicting onset of dementia using clinical notes and machine learning: case-control study | |
Tang et al. | Comparing different algorithms for the course of Alzheimer’s disease using machine learning | |
Trommer et al. | Exercise interventions for adults with cancer receiving radiation therapy alone | |
Butler et al. | The data gap in the EHR for clinical research eligibility screening | |
Park | Decomposing the effects of familiarity with music cues on stride length and variability in persons with Parkinson’s disease: on the role of covariates | |
CN113066561A (zh) | 一种基于lda主题模型的中医药材推荐方法 | |
CN113517044A (zh) | 基于药代学评价胞二磷胆碱的临床数据处理方法及系统 | |
Zhang et al. | Risk factors and drug discovery for cognitive impairment in type 2 diabetes mellitus using artificial intelligence interpretation and graph neural networks | |
Tache et al. | Text mining of medical records | |
Yang et al. | The Effectiveness of Personalized Nursing on Quality of Life in Cardiovascular Disease Patients: A Systematic Review and Meta-analysis | |
Lu et al. | Neurobiology for human suicide | |
Lamer et al. | Standardized description of the feature extraction process to transform raw data into meaningful information for enhancing data reuse: Consensus study | |
Zhao et al. | Clinical Traditional Chinese Medicine Research in Hospitals and Its Clinical Value Analysis | |
Englehart | Implementing the Condensed Memorial Symptom Assessment Scale on an Inpatient Oncology Unit | |
Van Raan et al. | Discovery of patterns of scientific and technological development and knowledge transfer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210702 |
|
RJ01 | Rejection of invention patent application after publication |