CN109243567B - 一种基于处方数据挖掘的药物推荐方法 - Google Patents
一种基于处方数据挖掘的药物推荐方法 Download PDFInfo
- Publication number
- CN109243567B CN109243567B CN201810920564.5A CN201810920564A CN109243567B CN 109243567 B CN109243567 B CN 109243567B CN 201810920564 A CN201810920564 A CN 201810920564A CN 109243567 B CN109243567 B CN 109243567B
- Authority
- CN
- China
- Prior art keywords
- medicine
- efficacy
- patient
- drug
- diagnosis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/10—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
- G16H20/13—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients delivered from dispensers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Pathology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Chemical & Material Sciences (AREA)
- Medicinal Chemistry (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于处方数据挖掘的药物推荐方法,属于计算机技术领域,本发明直接使用病人的处方药物日志,具有较高的完备性且容易获得,与传统方法直接在医嘱指令级粒度进行推荐不同,本发明首先在较高粒度级预测翌日可能的诊疗主题组合,再结合各个诊疗主题下的药物分布预测各个药物的服用概率,得到的预测结果具有较好的可解释性;本发明使用概率后缀树进行医疗诊治过程的建模和服用药物的预测,该模型更加接近诊疗过程的实际情况,基于概率后缀树得到的药物推荐结果准确率较传统方法有较高的提升。
Description
技术领域
本发明属于计算机技术领域,具体涉及一种基于处方数据挖掘的药物推荐方法。
背景技术
科学用药对于提高疾病治疗效果具有重要作用,然而,药物处方的开具当前主要依赖于医师个人的专业知识和经验。实际上,医疗信息系统积累有大量历史病患的处方日志,而且,同一病种所需的药物功效、用药模式通常有一定的规律可循。基于处方数据对所需药物及用药模式进行挖掘分析、进而为医生制定用药方案时提供药物推荐功能具有重要意义。但是现有的推荐方法要么粒度过细、模型复杂,得到的结果解释性差,要么推荐的准确性差,应用性不强。
发明内容
针对现有技术中存在的上述技术问题,本发明提出了一种基于处方数据挖掘的药物推荐方法,设计合理,克服了现有技术的不足,具有良好的效果。
为了实现上述目的,本发明采用如下技术方案:
一种基于处方数据挖掘的药物推荐方法,首先进行如下假设:
(1)假设特定病种治疗所需的药物功效分为多个主题,患者每日所服药物按照多项分布服务于部分功效主题,且每个功效主题下需要采用的药物也服从多项分布,在此假定下借助LDA模型从服药日志中训练患者每个诊疗日的功效主题分布以及每个功效主题下的药物分布;(2)根据功效主题分布的相似性对不同的诊疗日进行聚类,同一簇中各个诊疗日用药具有类似的功效组合,用相同的标签对其进行标注,将每个患者的用药流程转换为一个功效组合标签序列;(3)假设每日用药的功效组合服从变阶马尔科夫模型,基于历史患者的功效组合标签序列构造概率后缀树,基于此概率后缀树对处于诊疗过程中的患者进行逐日用药推荐;
所述的基于处方数据挖掘的药物推荐方法,具体包括如下步骤:
步骤1:获取数据;通过医院信息系统获取往届病人的处方药物信息,并进行脱敏处理,包括病人编号、病人确诊病种、病人用药开始、结束时间以及药物名称,最终整理成所需的日志格式;
步骤2:数据预处理;为保证原始数据的准确可靠,选择以药物治疗为主要治疗手段的病症为研究对象,通过诊断结论筛选某一病种病人,过滤住院时间过长或者过短的病人日志,此外,剔除处方中出现总次数少于或者多于某一阈值的药物,保留的记录包括病人ID和服药时间信息、药物名称;
步骤3:类比LDA主题模型中词、文档、文档集的概念,将患者单日所服药物的总和类比为一个文档,每种药物类比为一个词,借助LDA主题模型对药物进行聚类,每个类实际对应一个药物功效主题,同时得到各个患者各个诊疗日的药物功效主题分布以及各个功效主题下药物的多项式分布;
步骤4:使用K-means++算法对功效主题分布相似的诊疗日进行聚类,聚类标签作为这些诊疗日药物功效组合的标识;
步骤5:结合患者历史用药信息构建各个患者的每日用药功效组合标签序列,以这些序列为输入训练出该类病症药物治疗过程的概率后缀树模型;
步骤6:从概率后缀树模型的根节点出发,按序列倒序的方式与各层节点进行匹配,寻找能匹配成功的原序列的最长后缀,假设匹配成功时位于节点Node(S)处,该节点之标签对应的后继标签概率向量记为PNext(Node(S));记功效组合标签X对应的功效主题多项式分布中,主题t对应的出现概率为PEffTop|DateClu(X)|t,功效主题t对应的药物多项式分布中,药物drug对应的出现概率为Pdrug|EffTop(t)|drug,则对于任意药物d,其翌日服用的概率计算公式如下所示,其中t与X分别取尽所有的药物功效主题与功效组合标签:
PDrug|Seq(d,S)=∑X∑tPdrug|EffTop(t)|d*PEffiTop|DateClu(X)|t*PNext(Node(S))|X。
本发明所带来的有益技术效果:
1、在药物或者治疗手段推荐方面,传统手段综合运用患者各项检查数据、医嘱指令数据,通过关联规则分析、最近邻算法、逻辑回归、贝叶斯网络等方法进行治疗手段预测和推荐,但这类方法通常要求掌握患者的病症和各项身体指标数据,而这些数据有时难以掌握和利用,而本发明直接使用病人的处方药物日志,具有较高的完备性且容易获得。
2、与传统方法直接在医嘱指令级粒度进行推荐不同,本发明首先在较高粒度级预测翌日可能的诊疗主题组合,再结合各个诊疗主题下的药物分布预测各个药物的服用概率,得到的预测结果具有较好的可解释性。
3、本发明使用概率后缀树进行医疗诊治过程的建模和服用药物的预测,该模型更加接近诊疗过程的实际情况,基于概率后缀树得到的药物推荐结果准确率较传统方法有较高的提升。
附图说明
图1是本发明方法的流程图。
图2是某病人诊疗过程所对应的概率后缀树实例图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
一种基于处方数据挖掘的药物推荐方法,其流程如图1所示,包括如下步骤:
步骤1:以来自多参数智能监测数据库(MIMIC-III Clinical Database)的医疗数据为例,该数据库主要记录了自2001-2012年间约40000名入住重症监护室病人的诊疗信息。其中表1中各列依次为医嘱行号、病人ID,用药类型以及用药起止日期(数据集中的时间进行了脱敏处理)。另有住院信息表(ADMISSIONS)记录了病人住院时的登记信息,包括住院时间、出院时间以及诊断结论等信息。
表1患者处方表示例
步骤2:为保证原始数据的准确可靠,选择以药物治疗为主要治疗手段的病症为研究对象。具体而言,选择诊断结论为“SEPSIS”且诊疗记录数量介于200到400之间的患者处方数据为数据源。此外,剔除处方中出现总次数少于5次、多于2000的药物,剩余药物323种。在此基础上,基于患者处方数据生成表2所示的患者用药日志,共包含用药记录34929条,2328个诊疗日,病人日均用药大约在15种左右。每条记录包括病人ID和服药时间信息、药物名称。
表2患者用药日志示例
步骤3:将患者的每日用药记录类比为文档,将药物类比为单词,并假定医生制定用药方案时以一定的概率按照多项式分布服务于多个功效主题,每个功效主题下的药物也服从一个多项式分布,借助LDA模型对患者的用药日志数据进行主题模型训练,进而得到患者每个诊疗日的功效主题分布以及每个功效主题下的药物分布,如表3所示展示了各个主题下概率最高的前十个词。
表3各药物主题数为12时主题下概率最大的前十个项目
步骤4:使用K-means++算法对功效主题分布相似的诊疗日进行聚类,共聚成16个类,聚类标签作为这些诊疗日药物功效组合的标识;
步骤5:结合患者历史用药信息可以构建各个患者的每日用药功效组合标签序列,以这些序列为输入可以训练出该类病症药物治疗过程的概率后缀树模型;图2所示为某一病人的诊疗序列为:“1-2-2-1-2-3-1-2-3”的概率后缀树。
步骤6:以图2所示概率后缀树为例,假设待预测患者前三天用药的功效组合标签序列为“112”。首先,从根节点出发找不到与序列“112”的逆序“211”完全匹配的路径,为此,舍弃原序列“112”中的第一个元素。对于剩余的子序列“12”,显然存在根节点出发的路径与其逆序完全匹配,且匹配完成后位于树中第三层标签为“1”的节点,该节点对应的后继标签条件概率向量为PNext(Node("112"))=(0,1/3,2/3)。
假设共有3类药物功效组合标签、4个药物功效主题、5种药物。第2个功效组合标签下功效主题的出现概率向量PEffiTop|DateClu(2)=(0,1/4,3/4,0),第3个功效组合标签下功效主题的概率向量PEffiTop|DateClu(3)=(0,0,1/2,1/2);第2个功效主题下药物的出现概率向量为Pdrug|EffTop(2)=(0,2/5,3/5,0,0),类似地,Pdrug|EffTop(3)=(0,0,1/5,4/5,0),Pdrug|EffTop(4)=(0,0,0,3/5,2/5)。则根据前述计算公式,第四天患者服用第二种药物B的概率为其他药物的出现概率类似可得,将所有药物按照出现概率值由大到小排列即得患者的下一步药物推荐方案。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (1)
1.一种基于处方数据挖掘的药物推荐方法,其特征在于:首先进行如下假设:
(1)假设特定病种治疗所需的药物功效分为多个主题,患者每日所服药物按照多项分布服务于部分功效主题,且每个功效主题下需要采用的药物也服从多项分布,在此假定下借助LDA模型从服药日志中训练患者每个诊疗日的功效主题分布以及每个功效主题下的药物分布;(2)假设同一簇中各个诊疗日用药具有类似的功效组合;(3)假设每日用药的功效组合服从变阶马尔科夫模型,基于历史患者的功效组合标签序列构造概率后缀树,基于此概率后缀树对处于诊疗过程中的患者进行逐日用药推荐;
所述的基于处方数据挖掘的药物推荐方法,具体包括如下步骤:
步骤1:获取数据;通过医院信息系统获取往届病人的处方药物信息,并进行脱敏处理,包括病人编号、病人确诊病种、病人用药开始、结束时间以及药物名称,最终整理成所需的日志格式;
步骤2:数据预处理;为保证原始数据的准确可靠,选择以药物治疗为主要治疗手段的病症为研究对象,通过诊断结论筛选某一病种病人,过滤住院时间过长或者过短的病人日志,此外,剔除处方中出现总次数少于或者多于某一阈值的药物,保留的记录包括病人ID和服药时间信息、药物名称;
步骤3:类比LDA主题模型中词、文档、文档集的概念,将患者单日所服药物的总和类比为一个文档,每种药物类比为一个词,借助LDA主题模型对药物进行聚类,每个类实际对应一个药物功效主题,同时得到各个患者各个诊疗日的药物功效主题分布以及各个功效主题下药物的多项式分布;
步骤4:使用K-means++算法对功效主题分布相似的诊疗日进行聚类,聚类标签作为这些诊疗日药物功效组合的标识;
步骤5:结合患者历史用药信息构建各个患者的每日用药功效组合标签序列,以这些序列为输入训练出该类病症药物治疗过程的概率后缀树模型;
步骤6:从概率后缀树模型的根节点出发,按序列倒序的方式与各层节点进行匹配,寻找能匹配成功的原序列的最长后缀,假设匹配成功时位于节点Node(S)处,该节点之标签对应的后继标签概率向量记为PNext(Node(S));记功效组合标签X对应的功效主题多项式分布中,主题t对应的出现概率为PEffTop|DateClu(X)|t,功效主题t对应的药物多项式分布中,药物drug对应的出现概率为Pdrug|EffTop(t)|drug,则对于任意药物d,其翌日服用的概率计算公式如下所示,其中t与X分别取尽所有的药物功效主题与功效组合标签:
PDrug|Seq(d,S)=∑X∑tPdrug|EffTop(t)|d*PEffiTop|DateClu(X)|t*PNext(Node(S))|X。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810920564.5A CN109243567B (zh) | 2018-08-14 | 2018-08-14 | 一种基于处方数据挖掘的药物推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810920564.5A CN109243567B (zh) | 2018-08-14 | 2018-08-14 | 一种基于处方数据挖掘的药物推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109243567A CN109243567A (zh) | 2019-01-18 |
CN109243567B true CN109243567B (zh) | 2021-11-02 |
Family
ID=65071244
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810920564.5A Active CN109243567B (zh) | 2018-08-14 | 2018-08-14 | 一种基于处方数据挖掘的药物推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109243567B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109830302B (zh) * | 2019-01-28 | 2021-04-06 | 北京交通大学 | 用药模式挖掘方法、装置和电子设备 |
CN109947901B (zh) * | 2019-02-20 | 2020-10-20 | 杭州师范大学 | 基于多层感知机和自然语言处理技术的方剂功效预测方法 |
CN111640481B (zh) * | 2020-05-22 | 2023-06-20 | 南京大学 | 一种基于多源数据融合的帕金森氏病药物推荐模型 |
CN112420153B (zh) * | 2020-11-26 | 2022-11-15 | 山东浪潮科学研究院有限公司 | 一种基于gan的中药方剂改进的方法 |
CN113066561A (zh) * | 2021-04-30 | 2021-07-02 | 河南科技大学 | 一种基于lda主题模型的中医药材推荐方法 |
CN112992370B (zh) * | 2021-05-06 | 2021-07-30 | 四川大学华西医院 | 一种无监督的基于电子病历的医疗行为合规性评估方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104584021A (zh) * | 2014-11-07 | 2015-04-29 | 曹庆恒 | 一种智能选药的方法、系统和设备 |
CN105612551A (zh) * | 2013-03-15 | 2016-05-25 | I2Dx有限公司 | 个体化用药中信息的电子递送 |
CN105760705A (zh) * | 2016-05-20 | 2016-07-13 | 陕西科技大学 | 一种基于大数据的医疗诊断系统 |
CN107318267A (zh) * | 2013-08-12 | 2017-11-03 | 豪夫迈·罗氏有限公司 | 用于治疗补体相关的病症的组合物和方法 |
CN107341345A (zh) * | 2017-06-22 | 2017-11-10 | 厦门大学 | 一种基于电子病历大数据的临床合理用药风险评估方法 |
CN107578797A (zh) * | 2016-07-04 | 2018-01-12 | 胡峰 | 一种基于云计算的健康诊疗方案推荐的方法及其系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10796801B2 (en) * | 2006-02-13 | 2020-10-06 | David G. Silverman | Method and system for assessing, quantifying, coding and communiicating patient's health and perioperative risk |
US20160224760A1 (en) * | 2014-12-24 | 2016-08-04 | Oncompass Gmbh | System and method for adaptive medical decision support |
-
2018
- 2018-08-14 CN CN201810920564.5A patent/CN109243567B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105612551A (zh) * | 2013-03-15 | 2016-05-25 | I2Dx有限公司 | 个体化用药中信息的电子递送 |
CN107318267A (zh) * | 2013-08-12 | 2017-11-03 | 豪夫迈·罗氏有限公司 | 用于治疗补体相关的病症的组合物和方法 |
CN104584021A (zh) * | 2014-11-07 | 2015-04-29 | 曹庆恒 | 一种智能选药的方法、系统和设备 |
CN105760705A (zh) * | 2016-05-20 | 2016-07-13 | 陕西科技大学 | 一种基于大数据的医疗诊断系统 |
CN107578797A (zh) * | 2016-07-04 | 2018-01-12 | 胡峰 | 一种基于云计算的健康诊疗方案推荐的方法及其系统 |
CN107341345A (zh) * | 2017-06-22 | 2017-11-10 | 厦门大学 | 一种基于电子病历大数据的临床合理用药风险评估方法 |
Non-Patent Citations (4)
Title |
---|
"Big data system for information aggregation and model comparison for precison medicine";ziwei zhu 等;《2017 IEEE International Copnference on Big Data(BIGDATA)》;20180115;4878-4880 * |
"医疗大数据应用需求分析与平台建设构想";汪鹏 等;《中国医院管理》;20150605;40-42 * |
MaLDA:基于LDA的用药分析;周靖等;《计算机工程与应用》;20160915(第18期);8-13 * |
于跃." 基于大数据挖掘的药品不良反应知识整合与利用研究".《中国博士学位论文全文数据库 医药卫生科技辑》.2016,E079-4. * |
Also Published As
Publication number | Publication date |
---|---|
CN109243567A (zh) | 2019-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109243567B (zh) | 一种基于处方数据挖掘的药物推荐方法 | |
Solares et al. | Deep learning for electronic health records: A comparative review of multiple deep neural architectures | |
Beam et al. | Translating artificial intelligence into clinical care | |
US11464455B2 (en) | Method and apparatus of context-based patient similarity | |
Jia et al. | A patient-similarity-based model for diagnostic prediction | |
US20220261693A1 (en) | Methods and systems for classification to prognostic labels using expert inputs | |
CN110880362A (zh) | 一种大规模医疗数据知识挖掘与治疗方案推荐系统 | |
EP3382584A1 (en) | A system and a method to predict patient behaviour | |
WO2021114635A1 (zh) | 患者分群模型构建方法、患者分群方法及相关设备 | |
CN112908452A (zh) | 事件数据建模 | |
Zebin et al. | A deep learning approach for length of stay prediction in clinical settings from medical records | |
CN112447270A (zh) | 一种用药推荐方法、装置、设备及存储介质 | |
CN117854748A (zh) | 一种基于知识图谱和生成式大模型的问诊方法及系统 | |
CN116910172A (zh) | 基于人工智能的随访量表生成方法及系统 | |
Al-Aiad et al. | Survey: deep learning concepts and techniques for electronic health record | |
Nasiri et al. | A medical case-based reasoning approach using image classification and text information for recommendation | |
WO2022229964A1 (en) | Method of generating a diseases database, usage of the diseases database, and system therefor | |
Sheeran et al. | A framework for big data technology in health and healthcare | |
CN118230878A (zh) | 基于深度学习的智能病例随访系统、方法及存储介质 | |
Ahangaran et al. | A novel method for predicting the progression rate of ALS disease based on automatic generation of probabilistic causal chains | |
US20220139556A1 (en) | System and method for determining patient health indicators through machine learning model | |
Theodorou et al. | TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic Tree-Based Memory Network | |
US11170315B2 (en) | Methods and systems for providing dynamic constitutional guidance | |
Yan et al. | Generating Synthetic Electronic Health Record Data Using Generative Adversarial Networks: Tutorial | |
Partovi et al. | MiPy: A Framework for Benchmarking Machine Learning Prediction of Unplanned Hospital and ICU Readmission in the MIMIC-IV Database |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |