CN106874668B - 一种基于全记忆事件序列挖掘模型的用药分析方法 - Google Patents

一种基于全记忆事件序列挖掘模型的用药分析方法 Download PDF

Info

Publication number
CN106874668B
CN106874668B CN201710077612.4A CN201710077612A CN106874668B CN 106874668 B CN106874668 B CN 106874668B CN 201710077612 A CN201710077612 A CN 201710077612A CN 106874668 B CN106874668 B CN 106874668B
Authority
CN
China
Prior art keywords
event
medication
memory
sequence
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710077612.4A
Other languages
English (en)
Other versions
CN106874668A (zh
Inventor
熊贇
林涛
朱扬勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201710077612.4A priority Critical patent/CN106874668B/zh
Publication of CN106874668A publication Critical patent/CN106874668A/zh
Application granted granted Critical
Publication of CN106874668B publication Critical patent/CN106874668B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • G06F19/3456
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Medical Preparation Storing Or Oral Administration Devices (AREA)

Abstract

本发明属于数据挖掘、医疗信息和大数据技术领域,具体为一种基于全记忆事件序列挖掘模型的用药分析方法。本发明方法将原始用药数据转换成类别型的用药事件发生序列,把所有类别型用药事件序列的每个用药事件节点转换为欧式空间的多维向量表示;然后根据要预测的用药事件的前一个节点来对所有历史记录的事件加权求和,形成预测事件的记忆的特征表示,作为预测下一个事件向量的分类器的标准输入,把要预测的事件的多维向量表示作为输出,训练一个预测模型,再把欧式空间的多维向量映射回原来的类别型空间,使用所有用药事件序列训练;最后,对于新的用药事件序列,输入训练好的模型,用于预测未来事件。本方法能够利用尽可能多的数据来用于决策,从而减少决策的失误。

Description

一种基于全记忆事件序列挖掘模型的用药分析方法
技术领域
本发明属于数据挖掘、医疗信息和大数据技术领域,具体涉及一种基于全记忆事件序列挖掘模型的用药分析方法。
背景技术
有效的用药方案对于患者获取最佳治疗是非常重要的。利用已经积累的大规模的患者临床用药历史数据进行分析建模,有助于医生对患者下一步用药提供决策支持。数据挖掘方法已经被用于用药分析,传统的用药数据挖掘方法采用频繁模式挖掘发现频繁出现的用药组合,推断药物之间的关联。然而,一方面,不考虑用药顺序的频繁模式挖掘忽略了疾病演变的特征对用药的影响;另一方面,虽然已有考虑“序”和时间特征的频繁序列模式挖掘方法被使用,然而,大量冗余的结果模式和关联规则限制了方法的实际应用。更重要的是,患者的用药并不是简单的考虑先后关系,还需要考虑在治疗过程中前序不同时间点的用药对目标时间点的用药的影响的差异。
本发明针对患者用药历史数据,提出一种基于全记忆事件序列挖掘模型的用药分析方法。首先,采用事件序列形式建模表示用药历史数据,即形成用药事件序列;然后,针对患者疾病随时间的变化,以及用药受不同阶段用药情况的影响,将需要预测事件的时间节点前的所有事件看作为预测事件的记忆,对预测事件记忆加权构成事件记忆特征表示,并构建训练数据集;再构建训练模型,设置损失函数,求解参数;最后,对于待预测用药事件序列实现事件预测。该方法不仅考虑了时间顺序,以及不同阶段患者用药的影响差异,而且对比以往的一阶或高阶事件序列分析方法,能够利用尽可能多的数据来用于决策,从而减少决策的失误。
发明内容
本发明的主要目的是提供一种基于用药记录数据的用药分析方法,能够使用患者周期内所有历史用药事件记忆来帮助预测下一个用药事件的发生。
本发明提供了一种基于全记忆事件序列挖掘模型的用药分析方法,事件序列的记忆是以预测事件的时间节点为前提定义的,在预测事件的时间节点前的所有事件被看作为预测事件的记忆。本发明的主要思想是:将原始用药数据转换成类别型的用药事件发生序列,把所有类别型用药事件序列的每个用药事件节点转换为欧式空间的多维向量表示,此基础上,根据要预测的用药事件的前一个节点(称为当前事件)来对所有历史记录的事件(预测事件的记忆,设置一个特定的记忆长度阈值,选择高于该阈值的序列用于构造训练数据集)加权求和,形成预测事件的记忆的特征表示,作为预测下一个事件向量的分类器的标准输入,把要预测的事件的多维向量表示作为输出,训练一个预测模型,再把欧式空间的多维向量映射回原来的类别型空间,使用所有用药事件序列训练;最后,对于新的用药事件序列,输入训练好的模型,用于预测未来事件。该方法不仅考虑了时间顺序,以及不同阶段患者用药的影响差异,而且对比以往的一阶或高阶事件序列分析方法,能够利用尽可能多的数据来用于决策,从而减少决策的失误。
本发明提供的基于全记忆事件序列挖掘模型的用药分析方法,其流程如图1所示,具体步骤如下:
(1)首先,对患者历史用药数据进行预处理,即采集用药事件序列的原始数据,将原始用药数据转换成用药事件发生序列;然后,对用药事件序列数据进行处理,将序列中的每个事件都用一个或多个类别型的变量进行表示;
(2)对于已经处理好的类别型变量表示的事件序列,设置一个特定的记忆长度阈值,选择高于该阈值的序列用于构造训练数据集;
(3)采用基于全记忆事件序列方法构建训练预测模型;
(4)对于新的用药事件序列,输入预测模型实现对未来时间节点的用药事件进行预测。
本发明步骤(1)中,患者历史用药数据的事件序列的转化表示,将患者历史用药记录表示为事件,每个事件用一个或多个类别型变量表示。
本发明步骤(2)中,将患者用药的历史事件作为记忆序列,形成记忆特征表示。
本发明步骤(4)中,把新的用药事件序列作为训练好的预测模型的输入,使用模型输出预测结果。
本发明步骤(2)中,构造训练数据集方法的具体步骤为:
(1)设置一个特定的记忆长度阈值M,要高于这个阈值的序列才用于构造训练数据集合;
(2)对于每个事件 序列,从第M+1个时间 节点开始设置预测节点,采集训练集;预测节点的每个类别变量作为模型的输出,当前节点之前的所有节点作为模型的输入;预测节点不断向右移动,每移动一个时间节点就形成一个或多个新的训练数据。如图2所示。
本发明步骤(3)中,构建训练模型方法的具体步骤为:
(1)设置一个最大记忆数量T,使用的记忆数量不能超过这个数量,通常设置大于数据中大部分序列的长度;
(2)初始化变换矩阵A,把预测事件的前一个事件投影到多维连续空间中的向量,并求和形成一个向量q
(3)初次化变换矩阵B、C,把预测事件之前的所有事件(前一个事件除外)分别投影到多维连续空间中的多个向量,这些称为记忆向量,表示预测事件的所有记忆;
(4)使用向量q和经过B投影矩阵变换后的向量做内积,形成权重向量,再使用这些权重向量和经过C投影矩阵变换后的记忆向量加权求和,形成最终的一个记忆向量表示m
(5)向量m和向量q相加,作为预测分类器的输入,并使用一个变换矩阵W,投影到原始的离散事件空间,再使用softmax函数,得到下一个预测事件的每一项的概率;
(6)使用交叉熵损失函数作为目标函数,使用梯度下降的方法求参数,即求得参数A、B、C和W。
这里,变换矩阵A、B、C可以是随机投影矩阵(或其它离散变量的嵌入式方法embedding matrix)。
本发明方法可根据患者用药记录数据来对患者用药情况进行数据分析,并对患者后期用药情况和疾病或并发症进行推断。
本发明方法对事件序列进行预测,对比以往的一阶或高阶事件序列分析方法,能够利用尽可能多的数据来用于决策,从而减少决策的失误。
附图说明
图1为本发明的挖掘方法流程示意图。
图2为本发明方法中构造训练集的方法示例图。
图3为发明方法的具体实施方式示例图。
具体实施方式
下面给出该方法的具体实施方式,如图3所示。
(1)用药事件序列生成:统计所有用药事件序列中的出现的用药事件内容,用离散变量的集合表示用药事件序列中的每个用药事件,例如,(1,3,5)-(6,7)-(8)是一个长度为3的用药事件序列,每个用药事件序列的节点用离散变量的集合表示。例如,上面的用药事件序列中假设一共有8种药物,每种药物对应的离散变量表示为1~8,那么上述序列表示患者第一次用了1,3,5这三个编号的药物,第二次用了6,7这两个编号的药物,第三次使用了8这个编号的药物。
(2)训练数据集构造:使用上述生成的用药事件离散序列来构建训练数据集(X,Y),其中,X是分类器的输入,Y是分类器的输出。根据预先指定的最短记忆长度M,把一个N个事件的用药事件序列分为|N-M|个训练数据集合,每个训练数据集合的形式分别是(X=x1,x2,x3,…,xT,y), 其中y是原始序列中xT的下一个事件,也就是xT+1。例如,对于上例中的用药事件序列,如果指定最短历史记忆长度为2(即M=2),那么,该序列可以作为其中一个训练数据集,X=[x1,x2]=[(1,3,5),(6,7)],y=(8),其中x1=(1,3,5),x2=(6,7)。
例如:在图2中,假设其中一个事件序列数据样本为(1,2)-(5)-(9,1)-(7)-(13),如果设置最短记忆长度为2,则可以形成以下4个训练样本:第1和第2个训练样本是以第3个时间节点的事件为预测事件,标签分别为9和1,输入为(1,2)-5。第2个训练样本以第4个时间节点的事件为预测事件,标签为7,输入为(1,2)-(5)-(9,1)。第4个样本以第5个时间节点的事件为预测事件,标签为13,输入为(1,2)-(5)-(9,1)-(7)。
(3)使用一个随机投影矩阵C(或其它离散变量的嵌入式方法embedding matrix),把输入变量x中的前T-1个离散变量集合序列[x1,x2,…,xT-2,xT-1]转变成一个欧氏空间的多维连续向量序列[xc1,xc2,…,xcT-2,xcT-1],其中,每个xci是一个多维连续向量。实现的方法是把每个离散变量用C矩阵的对应的列表示,然后,一个时间节点上的事件的所有离散变量对应的多维连续变量相加,形成表示一个事件的多维向量,例如,在上面的例子中,x1=(1,3,5),xc1=(C~1+C~3+C~5)是矩阵C的对应第1,3,5这三列相加,使用数学表达式的方法就是把一个事件里的每个离散变量使用one-hot方法表示,即xi1=0000010…00,那么xci=C*xi1+C*xi2+C*xi3
(4)使用另一个随机投影矩阵B(或其它离散变量嵌入式方法),把[x1,x2,…,xT-2,xT-1]用欧氏空间的多维连续向量表示为[xb1,xb2,…,xbT-2,xbT-1]。其中每个事件xbi是一个多维连续向量。实现的方法和上面的步骤相同,只是投影矩阵不同。其中B、C矩阵和下面提到的A矩阵都可以看做是特征矩阵,也可以看做是模型的参数,作用在于把离散事件序列的输入转换为多维度欧式空间的特征。
(5)使用第三个随机投影矩阵A把当前事件集合[xT]用一个欧式空间的高维连续向量表示[xq]。在上面的例子中,x2=xT=(6,7),那么xq=A~6+B~7,也就是把矩阵A的第6列和第7列相加,来表示xq这个欧式空间的多维向量。
(6)把xq分别和[xb1,xb2,…,xbT-2,xbT-1]做向量内积,得到一个权重向量P=(p1,p2,…,pT-1)。
(7)把权重向量p1,p2,…,pT-1分别乘以xb1,xb2,…,xbT-2,xbT-1,再求和,得到输出记忆向量O=p1*xb1+…+pT-1*xbT-1
(8)把xq和O相加,得到分类器的输入向量。
(9)分类器的输出设置为:y=softmax(W(xq+O)),其中,y是输出的离散变量。W是D*|V|的矩阵,其中D是提前设置的多维向量的维度,|V|是所有出现的用药事件内容的个数。
(10)设置交叉熵损失函数
Figure DEST_PATH_IMAGE001
,作为训练这个预测 模型的目标函数。其中yik=1,表示一个训练样本的输出为离散索引k(表示药物标号),yik-就 是预测的概率取值,取值为0~1之间,由上一步的softmax函数得到。
(11)训练模型,即求解参数A、B、C和W,这里使用梯度下降方法求解。
(12)预测:对于一个序列[x1,x2,…,xT],要预测xT+1,按照前面(1)~(9)步骤,得到要输出的事件的类别型变量表示,再根据事件的内容编码解释数据的内容。例如,如果模型的输出结果是5,那么对应的预测结果就是5所对应的药物。
(13)例如:在图3中,当一个训练样本为(1,2)-(5)-(9,1)-(7)-(13),其中标签为(13),输入为(1,2)-(5)-(9,1)-(7),根据步骤(3)~(10),事件变量(7)和(1,2)-(5)-(9,1)分别形成最后的多维欧式空间中的向量q和m,然后相加作为分类器的输入,使用W矩阵和softmax函数形成最后的输出,并和真实标签共同计算交叉熵损失函数。

Claims (5)

1.基于全记忆事件序列挖掘模型的用药分析方法,其特征在于,具体步骤为:
(1)首先,对患者历史用药数据进行预处理,即采集用药事件序列的原始数据,将原始用药数据转换成用药事件发生序列;然后,对用药事件序列数据进行处理,将序列中的每个事件都用一个或多个类别型的变量进行表示;
(2)对于已经处理好的类别型变量表示的事件序列,设置一个特定的记忆长度阈值,选择高于该阈值的序列用于构造训练数据集;
(3)采用基于全记忆事件序列方法构建训练预测模型;
所述构建训练预测模型方法的具体步骤为:
(a)设置一个最大记忆数量T,使用的记忆数量不能超过这个数量,通常设置大于数据中大部分序列的长度;
(b)初始化变换矩阵A,把预测事件的前一个事件投影到多维连续空间中的向量,并求和形成一个向量q
(c)初始化变换矩阵B、C,把预测事件之前的所有事件分别投影到多维连续空间中的多个向量,这些称为记忆向量,表示预测事件的所有记忆;
(d )使用向量q和经过B投影矩阵变换后的向量做内积,形成权重向量,再使用这些权重向量和经过C投影矩阵变换后的记忆向量加权求和,形成最终的一个记忆向量表示m
(e )向量m和向量q相加,作为预测分类器的输入,并使用一个变换矩阵W,投影到原始的离散事件空间,再使用softmax函数,得到下一个预测事件的每一项的概率;
(f )使用交叉熵损失函数作为目标函数,使用梯度下降的方法求参数,即求得参数A、B、C和W;
(4)对于新的用药事件序列,输入预测模型实现对未来时间节点的用药事件进行预测。
2.如权利要求1所述的基于全记忆事件序列挖掘模型的用药分析方法,其特征在于,步骤(1)中的患者历史用药数据的事件序列的转化表示方法,该步骤将患者历史用药记录表示为事件,每个事件用一个或多个类别型变量表示。
3.如权利要求1所述的基于全记忆事件序列挖掘模型的用药分析方法,其特征在于,步骤(2)中将患者用药的历史事件作为记忆序列,形成记忆特征表示。
4.如权利要求1所述的基于全记忆事件序列挖掘模型的用药分析方法,其特征在于,步骤(4)把新的用药事件序列作为训练好的预测模型的输入,使用模型输出预测结果。
5.如权利要求1所述的基于全记忆事件序列挖掘模型的用药分析方法,其特征在于,步骤(2)中所述构造训练数据集方法的具体步骤为:
(1)设置一个特定的记忆长度阈值M,高于这个阈值的序列才用于构造训练数据集合;
(2)对于每个事件序列,从第M+1个时间节点开始设置预测节点,采集训练集;预测节点的每个类别变量作为模型的输出,当前节点之前的所有节点作为模型的输入;预测节点不断向右移动,每移动一个时间节点就形成一个或多个新的训练数据。
CN201710077612.4A 2017-02-14 2017-02-14 一种基于全记忆事件序列挖掘模型的用药分析方法 Active CN106874668B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710077612.4A CN106874668B (zh) 2017-02-14 2017-02-14 一种基于全记忆事件序列挖掘模型的用药分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710077612.4A CN106874668B (zh) 2017-02-14 2017-02-14 一种基于全记忆事件序列挖掘模型的用药分析方法

Publications (2)

Publication Number Publication Date
CN106874668A CN106874668A (zh) 2017-06-20
CN106874668B true CN106874668B (zh) 2020-05-12

Family

ID=59166759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710077612.4A Active CN106874668B (zh) 2017-02-14 2017-02-14 一种基于全记忆事件序列挖掘模型的用药分析方法

Country Status (1)

Country Link
CN (1) CN106874668B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107978373A (zh) * 2017-11-23 2018-05-01 吉林大学 一种基于共训练的半监督生物医学事件抽取方法
CN109960246B (zh) * 2017-12-22 2021-03-30 华为技术有限公司 动作控制方法及装置
CN108806799B (zh) * 2018-06-12 2020-10-27 天津开心生活科技有限公司 治疗模式分类模型的建立方法、装置、介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101499078A (zh) * 2008-02-03 2009-08-05 黄林 用于查询个性化医药保健信息的人机对话系统及方案
US8073859B2 (en) * 2000-10-09 2011-12-06 Battelle Memorial Institute Sequential pattern data mining and visualization
CN102469964A (zh) * 2009-06-30 2012-05-23 雅培糖尿病护理公司 分析物监测装置和使用方法
CN102704054A (zh) * 2012-05-29 2012-10-03 河海大学常州校区 基于时间序列挖掘的梳棉机智能匀整系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7277752B2 (en) * 2002-06-11 2007-10-02 Matos Jeffrey A System for cardiac resuscitation
US20140236025A1 (en) * 2013-02-15 2014-08-21 Michael L. Sheldon Personal Health Monitoring System

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8073859B2 (en) * 2000-10-09 2011-12-06 Battelle Memorial Institute Sequential pattern data mining and visualization
CN101499078A (zh) * 2008-02-03 2009-08-05 黄林 用于查询个性化医药保健信息的人机对话系统及方案
CN102469964A (zh) * 2009-06-30 2012-05-23 雅培糖尿病护理公司 分析物监测装置和使用方法
CN102704054A (zh) * 2012-05-29 2012-10-03 河海大学常州校区 基于时间序列挖掘的梳棉机智能匀整系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Top-k Similarity Join in Heterogeneous Information Networks;Yun Xiong.et.;《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》;20150630;第27卷(第6期);第1710-1723页 *
基于处方数据的医院药品需求量的关联性预测方法研究;崔盛楠;《中国优秀硕士学位论文全文数据库 医药卫生科技辑》;20160315(第3期);第E079-153页 *

Also Published As

Publication number Publication date
CN106874668A (zh) 2017-06-20

Similar Documents

Publication Publication Date Title
CN110334843B (zh) 一种时变注意力改进Bi-LSTM的住院就医行为预测方法及装置
Dennis et al. AGFS: Adaptive Genetic Fuzzy System for medical data classification
Dangare et al. A data mining approach for prediction of heart disease using neural networks
Ziasabounchi et al. ANFIS based classification model for heart disease prediction
CN109785928A (zh) 诊疗方案推荐方法、装置及存储介质
CN106778014A (zh) 一种基于循环神经网络的患病风险预测方法
CN106874668B (zh) 一种基于全记忆事件序列挖掘模型的用药分析方法
Fida et al. Heart disease classification ensemble optimization using genetic algorithm
CN115644823B (zh) 康复效果动态预测及个体化干预系统
JP2016197330A (ja) 分析システム、リハビリテーション支援システム、方法およびプログラム
CN109492748B (zh) 一种基于卷积神经网络的电力系统的中长期负荷预测模型建立方法
WO2022166158A1 (zh) 一种基于卷积生存网络的血透并发症长期风险预测系统
CN115985503B (zh) 基于集成学习的癌症预测系统
CN114611384A (zh) 基于图神经网络的医学知识图谱节点重要性评估方法
TW202129535A (zh) 視頻分析方法及其相關的模型訓練方法、電子設備、儲存介質
Barhate et al. Analysis of classifiers for prediction of type ii diabetes mellitus
Da et al. Brain CT image classification with deep neural networks
CN107578822B (zh) 一种针对医疗多模态大数据的预处理及特征提取方法
Alturki et al. Predictors of readmissions and length of stay for diabetes related patients
CN110335160B (zh) 一种基于分组和注意力改进Bi-GRU的就医迁移行为预测方法及系统
Anderies et al. Prediction of heart disease UCI dataset using machine learning algorithms
JP7131616B2 (ja) 時系列データ処理装置
CN109858937A (zh) 基于深度学习的期货商品价格趋势预测方法
Jani et al. Heart disease prediction and analysis using ensemble architecture
CN112364924A (zh) 一种基于深度学习的口腔医疗图像识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant