CN108806767B - 基于电子病历的疾病症状关联分析方法 - Google Patents

基于电子病历的疾病症状关联分析方法 Download PDF

Info

Publication number
CN108806767B
CN108806767B CN201810619124.6A CN201810619124A CN108806767B CN 108806767 B CN108806767 B CN 108806767B CN 201810619124 A CN201810619124 A CN 201810619124A CN 108806767 B CN108806767 B CN 108806767B
Authority
CN
China
Prior art keywords
rule
electronic medical
candidate
association
medical record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810619124.6A
Other languages
English (en)
Other versions
CN108806767A (zh
Inventor
李芳芳
段昱
毛星亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201810619124.6A priority Critical patent/CN108806767B/zh
Publication of CN108806767A publication Critical patent/CN108806767A/zh
Application granted granted Critical
Publication of CN108806767B publication Critical patent/CN108806767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种基于电子病历的疾病症状关联分析方法,包括获取电子病历的数据并处理;构建不平衡数据集的分类器;采用分类器对疾病症状进行关联分析。本发明通过对电子病历进行处理获取基础数据,然后根据基础数据构造相应的新型不平衡数据集的分类器,再利用该分类器进行疾病与症状的关联分析,因此本发明方法能够对疾病症状进行较为准确的关联,而且方法简答、科学和可靠。

Description

基于电子病历的疾病症状关联分析方法
技术领域
本发明具体涉及一种基于电子病历的疾病症状关联分析方法。
背景技术
随着信息技术的高速发展,我国的医疗事业也随之进入了信息化时代。由于国家政策的支持以及我国人口众多,因此在我国每天都会产生大量的医疗数据,而电子病历(Electronic Medical Record,EMR)是这些医疗数据的主要载体。
随着智能化时代的到来,疾病的诊疗也已经逐步开启了智能化时代,即利用现有的技术资料,以及患者的实际病情和相关数据,对患者的疾病进行辅助性的预测或辅助性的预诊断,从而为医护人员提供一定的帮助。电子病历中包括了患者的基本信息、疾病症状以及疾病种类等非常重要的信息,因此对电子病历的处理也成为了智能医疗的基础工作之一。
在对电子病历进行分类时,其往往是一个不平衡数据集,那么对于电子病历的处理的本质就是对不平衡数据集的处理。目前的不平衡数据集的分类方法,往往较为复杂,而且精度相对不高,影响了不平衡数据集的分类效果。正因如此,对于电子病历的处理效果也相对不佳,从而严重影响了后续的工作。
发明内容
本发明的目的在于提供一种能够对疾病症状进行较为准确的关联的基于电子病历的疾病症状关联分析方法。
本发明提供的这种基于电子病历的疾病症状关联分析方法,包括如下步骤:
S1.获取电子病历的数据,对电子病历进行预处理并转换为结构化数据;
S2.构建不平衡数据集的分类器;
S3.根据步骤S2得到的分类器,对疾病症状进行关联分析。
步骤S1所述的对电子病历进行预处理并转换为结构化数据,具体为采用如下步骤进行预处理和转换:
A.确定电子病历中的疾病特征;
B.对电子病历中的缺失值进行填充;
C.对电子病历中的连续特征进行离散化处理。
步骤S2所述的构建不平衡数据集的分类器,具体为采用如下步骤构建分类器:
(1).获取电子病历中的训练数据,得到训练数据的候选频繁项集;
(2).对步骤(1)得到的候选频繁项集进行过滤;
(3).将候选关联规则分类至相应类别的规则集合中;
(4).衡量规则前件和后件的相关性,从而得到各类别相关的分类关联规则;
(5).以规则强度作为衡量指标对步骤(4)得到的分类关联规则进行过滤和排序,从而得到分类器。
步骤(1)所述的得到训练数据的候选频繁项集,具体为对训练数据采用Apriori算法,同时设置最小支持度阈值,从而得到满足最小支持度阈值的候选频繁项集。
步骤(2)所述的对候选频繁项集进行过滤,具体为设置最小增比率阈值,然后采用如下规则进行过滤:
若频繁项集的增比率低于最小增比率阈值,则将该频繁项集过滤;
若频繁项集的增比率大于或等于最小增比率阈值,则将该频繁项集保留;
若频繁项集的增比率无穷大,则该频繁项集的增比率定义为该类别相关的所有频繁项集的增比率的均值。
所述的增比率,具体为采用如下算式计算频繁项集的增比率:
Figure BDA0001697618840000031
式中ER(x→C)为规则x→C的增比率,CSup(x→C)为类支持度且CSup(x→C)=N(x∪C)/N(C),N(x∪C)表示x和C同时出现在事务集D中的次数,N(C)表示类C在事务集中出现的次数,x表示规则前件,
Figure BDA0001697618840000032
表示类C的补类。
步骤(3)所述的将候选关联规则分类至相应类别的规则集合,具体为设置增比置信度阈值,然后采用如下规则进行分类:
若候选关联规则的增比置信度大于或等于增比置信度阈值,则将该关联规则加入到对应类别的规则集合中;
若候选关联规则的增比置信度小于增比置信度阈值,则将该关联规则删除。
所述的候选关联规则的增比置信度,具体为采用如下算式计算增比置信度:
ERC(x→C)=ER(x→C)*Confidence(x→C)
式中ERC(x→C)为规则x→C的增比置信度,ER(x→C)为规则x→C的增比率,Confidence(x→C)为规则x→C的置信度,x为规则前件,C为规则后件。
步骤(4)所述的衡量规则前件和后件的相关性并得到各类别相关的分类关联规则,具体为采用如下步骤进行衡量并得到分类关联规则:
1).采用如下公式计算规则A→B的兴趣度:
Figure BDA0001697618840000041
式中lift(A→B)为规则A→B的兴趣度,P(A∪B)为A∪B出现的概率,P(A)为A出现的概率,P(B)为B出现的概率;
2).采用如下规则进行判断:
若候选关联规则的兴趣度大于或等于设定的最小兴趣度阈值,则将该候选关联规则加入到对应类别的分类关联规则;
若候选关联规则的兴趣度小于设定的最小兴趣度阈值,则进行后续步骤;
3).判断候选关联规则的兴趣度与2-最小兴趣度阈值的关系:
若候选关联规则的兴趣度小于2-最小兴趣度阈值的关系,则得到候选关联规则的负关联规则,计算对应的负关联规则的支持度和置信度;
否则将该规则删除;
4).判断步骤3)得到的负关联规则的支持度和置信度与最小阈值之间的关系:
若负关联规则的支持度大于或等于支持度最小阈值且负关联规则的置信度大于或等于置信度最小阈值,则将该候选关联规则加入到对应类别的分类关联规则;
否则将该规则删除。
步骤(5)所述的以规则强度作为衡量指标对得到的分类关联规则进行过滤和排序从而得到分类器,具体为采用如下步骤进行过滤、排序并得到分类器:
ⅰ.采用如下公式计算分类关联规则的规则强度:
Figure BDA0001697618840000042
式中RS(A→B)为规则A→B的规则强度,supp为规则A→B的支持度,conf为规则A→B的置信度,er为规则A→B的增比率,lift为规则A→B的的兴趣度;
ⅱ.对于任意规则Rp和Rn,若Rp是Rn的泛化规则且RS(Rp)>RS(Rn),则认定规则Rn是冗余并将规则Rn删除;
ⅲ.对最终的规则按类别进行排序,从而形成最终的分类器。
步骤S3所述的对疾病症状进行关联分析,具体为采用如下规则进行关联分析:对于病人的任意症状,若该症状在步骤S2得到的分类器的分类关联规则中出现,则将症状的当前权重加上该分类关联规则的规则强度作为该症状的新的权重,从而得到最终的疾病症状的权重;所述的权重越大,表明该疾病与该症状的关联性越大。
本发明提供的这种基于电子病历的疾病症状关联分析方法,通过对电子病历进行处理获取基础数据,然后根据基础数据构造相应的新型不平衡数据集的分类器,再利用该分类器进行疾病与症状的关联分析,因此本发明方法能够对疾病症状进行较为准确的关联,而且方法简答、科学和可靠。
附图说明
图1为本发明方法的方法流程图。
图2为本发明方法中的不平衡数据集的分类器的构造方法流程图。
图3为本发明的实施例的年龄值分布示意图。
图4为本发明的实施例的眼压值分布示意图。
具体实施方式
如图1所示为本发明方法的方法流程图:本发明提供的这种基于电子病历的疾病症状关联分析方法,包括如下步骤:
S1.获取电子病历的数据,对电子病历进行预处理并转换为结构化数据;具体为采用如下步骤进行预处理和转换:
A.确定电子病历中的疾病特征;
对电子病历中的实体进行识别,从而识别出症状描述部分,并经过与医护人员的确认,确认最终的症状描述;
B.对电子病历中的缺失值进行填充;在具体实施时,可以采用SPSS的多重插补算法对缺失数据进行填补;
C.对电子病历中的连续特征进行离散化处理;
S2.构建不平衡数据集的分类器;具体为采用如下步骤构建分类器:
(1).获取电子病历中的训练数据,得到训练数据的候选频繁项集;具体为对训练数据采用Apriori算法,同时设置最小支持度阈值,从而得到满足最小支持度阈值的候选频繁项集;
(2).对步骤(1)得到的候选频繁项集进行过滤;具体为设置最小增比率阈值,然后采用如下规则进行过滤:
若频繁项集的增比率低于最小增比率阈值,则将该频繁项集过滤;
若频繁项集的增比率大于或等于最小增比率阈值,则将该频繁项集保留;
若频繁项集的增比率无穷大,则该频繁项集的增比率定义为该类别相关的所有频繁项集的增比率的均值;
采用如下算式计算频繁项集的增比率:
Figure BDA0001697618840000061
式中ER(x→C)为规则x→C的增比率,CSup(x→C)为类支持度且CSup(x→C)=N(x∪C)/N(C),N(x∪C)表示x和C同时出现在事务集D中的次数,N(C)表示类C在事务集中出现的次数,x表示规则前件,
Figure BDA0001697618840000071
表示类C的补类;
(3).将候选关联规则分类至相应类别的规则集合中;具体为设置增比置信度阈值,然后采用如下规则进行分类:
若候选关联规则的增比置信度大于或等于增比置信度阈值,则将该关联规则加入到对应类别的规则集合中;
若候选关联规则的增比置信度小于增比置信度阈值,则将该关联规则删除;
采用如下算式计算增比置信度:
ERC(x→C)=ER(x→C)*Confidence(x→C)
式中ERC(x→C)为规则x→C的增比置信度,ER(x→C)为规则x→C的增比率,Confidence(x→C)为规则x→C的置信度,x为规则前件,C为规则后件;
(4).衡量规则前件和后件的相关性,从而得到各类别相关的分类关联规则;具体为采用如下步骤进行衡量并得到分类关联规则:
1).采用如下算式计算候选关联规则的兴趣度;
Figure BDA0001697618840000072
式中lift(A→B)为规则A→B的兴趣度,P(A∪B)为A∪B出现的概率,P(A)为A出现的概率,P(B)为B出现的概率;兴趣度常被应用于关联规则的挖掘中,是一种经典的、有效的关联规则相关性衡量标准;
若lift(A→B)<1,则表示规则前件A和规则后件B是负相关的,即A会抑制B的出现;
若lift(A→B)=1,则表示规则前件A和规则后件B是独立不想关的,即A出现与否不会影响B的出现;
若lift(A→B)>1,则表示规则前件A和规则后件B是正相关的,即A会促进B的出现;
2).采用如下规则进行判断:
若候选关联规则的兴趣度大于或等于设定的最小兴趣度阈值,则将该候选关联规则加入到对应类别的分类关联规则;
若候选关联规则的兴趣度小于设定的最小兴趣度阈值,则进行后续步骤;
3).判断候选关联规则的兴趣度与2-最小兴趣度阈值的关系:
若候选关联规则的兴趣度小于2-最小兴趣度阈值的关系,则得到候选关联规则的负关联规则,计算对应的负关联规则的支持度和置信度;
否则将该规则删除;
4).判断步骤3)得到的负关联规则的支持度和置信度与最小阈值之间的关系:
若负关联规则的支持度大于或等于支持度最小阈值且负关联规则的置信度大于或等于置信度最小阈值,则将该候选关联规则加入到对应类别的分类关联规则;
否则将该规则删除;
(5).以规则强度作为衡量指标对步骤(4)得到的分类关联规则进行过滤和排序,从而得到分类器;具体为采用如下步骤进行过滤、排序并得到分类器:
ⅰ.采用如下公式计算分类关联规则的规则强度:
Figure BDA0001697618840000091
式中RS(A→B)为规则A→B的规则强度,supp为规则A→B的支持度,conf为规则A→B的置信度,er为规则A→B的增比率,lift为规则A→B的的兴趣度;
ⅱ.对于任意规则Rp和Rn,若Rp是Rn的泛化规则且RS(Rp)>RS(Rn),则认定规则Rn是冗余并将规则Rn删除;
ⅲ.对最终的规则按类别进行排序,从而形成最终的分类器;
S3.根据步骤S2得到的分类器,对疾病症状进行关联分析;具体为采用如下规则进行关联分析:对于病人的任意症状,若该症状在步骤S2得到的分类器的分类关联规则中出现,则将症状的当前权重加上该分类关联规则的规则强度作为该症状的新的权重,从而得到最终的疾病症状的权重;所述的权重越大,表明该疾病与该症状的关联性越大。
以下结合一个具体实施例对本发明方法进行进一步说明:
数据预处理:
在进行关联规则分类算法实验之前,需要确定用于训练分类模型的特征。采用CRF算法对眼科电子病历中的主诉以及现病史部分进行症状实体识别,确定了眼红、眼胀等十个特征。
根据与医护人员的沟通,还确定了包括病历中的性别、年龄、婚姻状况、视力、眼压、体温、脉搏以及专科检查表格中的数据包括角膜相关特征、巩膜相关特征等八大类特征;通过入院诊断,加入了患者是否患有白内障、高血压、糖尿病、心脏病等八种疾病作为特征。由于医生个人书写习惯不同,疾病的描述会有些许不同,例如“心脏病”,病历中也有不同的表达,如:“冠心病”、“冠状动脉周硬化”,可以将这些表述进行统一。如果患者患有相应的疾病,则在该特征上取值为“1”,否则取值为“0”。通过人工干预分析既往史部分,加入了是否有过手术史这个特征。性别、婚姻状况、是否有过手术史这三个特征的取值及其数值表示如下表1所示。
表1性别、婚姻状况、是否手术特征取值
特征名 特征取值及数值表示
性别 男:1;女:2
婚姻状况 已婚:1;未婚:2
是否有过手术史 否:1;是:2
由于专科检查中的特征较多,因此只列举角膜、巩膜相关特征的取值。通过对病历数据集中专科检查表的每个相关特征进行统计分析,并加入人工干预,确定了角膜相关特征包括:角膜是否混浊、角膜是否水肿、角膜细胞个数是否正常、角膜KP取值、以及其它;巩膜相关特征包括:是否充血、是否黄染、巩膜睫状区是否压痛、以及其它。症状的描述并没有统一标准。对这些表达意思相同但描述不同的症状特征进行统一化。这两类相关特征的取值及其数值化表示如表2和表3所示。
表2角膜相关特征
Figure BDA0001697618840000111
表3巩膜相关特征
特征名 特征取值及数值表示
巩膜充血 否:0,是:1
巩膜黄染 否:0,是:1
巩膜睫状区压痛 否:0,是:1
巩膜其它 正常:0,滤过泡异常:1,其它:2
经过以上步骤后,确定了用于此次研究的57个特征,现在需要对特征数值化编号,由于特征较多,现举例说明特征编号的情况,如表4所示。在对特征进行编号后,每个特征值就是相应的特征编号加上如上所述的对应取值来表示的。表5是特征值的完整表示及其说明的举例。
表4特征编号
特征名 特征编号
性别 01
年龄 02
婚姻状况 03
…… ……
异物感 15
视物模糊 16
…… ……
是否有过手术史 57
表5特征值说明举例
Figure BDA0001697618840000121
由于病历存在记录不完整的情况,本发明采用SPSS中的多重插补方法对缺失数据进行填补。
SPSS(Statistical Product and Service Solutions)是由IBM公司推出的一款用于统计分析、数据挖掘、缺失值填补、分析预测等的一款软件。在这里,例举了眼压、体温这两个特征多重填补后的误差分析结果,如表6至表7所示。
表6眼压误差分析
Figure BDA0001697618840000122
表7体温误差分析
Figure BDA0001697618840000131
从多重插补的误差分析结果可以看出,采用SPSS进行此次缺失值插补后的误差在允许范围之内。最后,取五组缺失估计值的平均值作为最终的缺失插补值。
在上述的57个特征中,年龄、视力、眼压、体温、脉搏这五个特征是连续型的,需要对其离散化处理。离散化后的数据对异常数据的鲁棒性会更高,并且,将特征离散化后,分类器模型也会更加稳定。例如,将年龄0-10划分为一个区间,不会因为一个患者年龄增长一岁而变成了另外一个人。
在这里,举例说明对年龄和眼压的离散化操作。图3和图4分别是年龄、眼压的值分布图,根据这些图中显示的人数变化趋势,并参考医学标准,例如在对眼压进行划分的时候,既根据分布图又参考了医学中的正常眼压范围标准,因此,本文将眼压10-21mmHg划分为一个区间。年龄、眼压的数值离散化如表8和表9所示。
表8年龄离散化示意表
年龄 离散值
0<x<10 1
10<=x<35 2
35<=x<50 3
50<=x<65 4
65<=x<80 5
80<=x 6
表9眼压离散化
年龄 离散值
x<5 1
5<=x<10 2
10<=x<=21 3
22<=x<30 4
30<=x<40 5
40<=x<55 6
55<=x 7
构造分类器;
然后采用构造的分类器,对疾病症状进行关联分析:
得到的分类关联规则构成分类器后,可以实现对眼科电子病历的二分类(青光眼类和非青光眼类),这些分类规则还可以用于分析青光眼患者的主要症状特征。表10和表11分别列举了青光眼相关规则和非青光眼相关规则中规则强度前十的分类规则。
表10规则强度前10的青光眼相关分类规则
编号 规则 规则强度
1 056 063 381→青光眼 1.1008
2 171 461 482→青光眼 1.1008
3 012 111 191→青光眼 1.0954
4 012 191 571→青光眼 1.0954
5 101 111 381 501→青光眼 1.0954
6 031 101 381501 571→青光眼 1.0954
7 012 171 191→青光眼 1.0954
8 101 171 381 501→青光眼 1.0954
9 055 501→青光眼 1.0952
10 056 323→青光眼 1.0952
从表10中可知,第一条规则“056 063 381→青光眼”表示的是如果40<=眼压<55并且80<=脉搏<100并且瞳孔对光反应迟钝的话,那么该患者很有可能患有青光眼;第二条规则表示的是如果视力下降并且视网膜出血并且视网膜萎缩,那么该患者很有可能患有青光眼;第7条规则表示如果性别为女性且视力下降且角膜水肿,那么该患者很有可能患有青光眼;第9条规则表示如果30<=眼压<40且该患者患有白内障,那么该患者有很大的可能患有青光眼。
表11规则强度前10的非青光眼相关分类规则
编号 规则 规则强度
1 053 074 571→非青光眼 0.8335
2 053 063 571→非青光眼 0.8031
3 012 053 571→非青光眼 0.7980
4 053 571→非青光眼 0.7825
5 053 074→非青光眼 0.7717
6 043 053→非青光眼 0.7593
7 332 341→非青光眼 0.7493
8 053 471→非青光眼 0.7465
9 341 351→非青光眼 0.7399
10 053 063 074→非青光眼 0.7389
从表11中可知,第一条规则表示的是如果10<=眼压<21且80<=脉搏<100且未曾有过手术史,那么该患者很有可能不是青光眼患者;第6条规则表示如果0.3<=视力<0.6且10<=眼压<21,那么该患者很有可能不是青光眼患者;第8条规则表示的是如果10<=眼压<21且视网膜有渗出,那么该患者很有可能不是青光眼患者,而是患有其它眼科疾病;第10条规则表示如果10<=眼压<21且36.5<=体温<=36.9且80<=脉搏<100,那么该患者很有可能患有其它眼科疾病,而非青光眼。
本发明通过对有关青光眼类的分类关联规则中出现过的症状特征进行加权求和,分析了青光眼患者的主要症状特征。分析过程为:对于新算法得到的所有和青光眼相关的分类规则中,对于任意一个症状a(即一个特征值),如果a在某一条规则中出现了,那么a的权重累加上该条规则的规则强度。对于a出现过的每一条规则,都将a的权重对其规则强度进行累加,并将最后的结果作为元素a的权重。
表12例举了权重较大的10个症状特征,并对值进行了说明。
表12症状举例
编号 规则 规则强度
1 501 患有白内障
2 171 视力下降
3 063 36.5<=体温<=36.9
4 381 瞳孔对光反应迟钝
5 012 女性
6 111 眼睛痛
7 433 晶状体的皮质以及核混浊
8 572 曾有过手术史
9 101 眼睛胀
10 041 0<=视力<0.1
表12显示了在青光眼患者中普遍存在的症状,例如患有白内障、视力下降等,并且女性患者较男性患者更易患青光眼,因此女性患者在平日里,要更加注意自己的眼部健康状况,提早发现、提早治疗。如果出现眼睛痛、胀或者视力下降的情况,应该及时去医院进行检查。

Claims (8)

1.一种基于电子病历的疾病症状关联分析方法,包括如下步骤:
S1.获取电子病历的数据,对电子病历进行预处理并转换为结构化数据;
S2.构建不平衡数据集的分类器;具体为采用如下步骤构建分类器:
(1).获取电子病历中的训练数据,得到训练数据的候选频繁项集;具体为对训练数据采用Apriori算法,同时设置最小支持度阈值,从而得到满足最小支持度阈值的候选频繁项集;
(2).对步骤(1)得到的候选频繁项集进行过滤;
(3).将候选关联规则分类至相应类别的规则集合中;
(4).衡量规则前件和后件的相关性,从而得到各类别相关的分类关联规则;
(5).以规则强度作为衡量指标对步骤(4)得到的分类关联规则进行过滤和排序,从而得到分类器;具体为采用如下步骤进行过滤、排序并得到分类器:
ⅰ.采用如下公式计算分类关联规则的规则强度:
Figure FDA0003142023820000011
式中RS(A→B)为规则A→B的规则强度,sup p为规则A→B的支持度,conf为规则A→B的置信度,er为规则A→B的增比率,lift为规则A→B的的兴趣度;
ⅱ.对于任意规则Rp和Rn,若Rp是Rn的泛化规则且RS(Rp)>RS(Rn),则认定规则Rn是冗余并将规则Rn删除;
ⅲ.对最终的规则按类别进行排序,从而形成最终的分类器;
S3.根据步骤S2得到的分类器,对疾病症状进行关联分析。
2.根据权利要求1所述的基于电子病历的疾病症状关联分析方法,其特征在于步骤S1所述的对电子病历进行预处理并转换为结构化数据,具体为采用如下步骤进行预处理和转换:
A.确定电子病历中的疾病特征;
B.对电子病历中的缺失值进行填充;
C.对电子病历中的连续特征进行离散化处理。
3.根据权利要求2所述的基于电子病历的疾病症状关联分析方法,其特征在于步骤(2)所述的对候选频繁项集进行过滤,具体为设置最小增比率阈值,然后采用如下规则进行过滤:
若频繁项集的增比率低于最小增比率阈值,则将该频繁项集过滤;
若频繁项集的增比率大于或等于最小增比率阈值,则将该频繁项集保留;
若频繁项集的增比率无穷大,则该频繁项集的增比率定义为该类别相关的所有频繁项集的增比率的均值。
4.根据权利要求3所述的基于电子病历的疾病症状关联分析方法,其特征在于所述的增比率,具体为采用如下算式计算频繁项集的增比率:
Figure FDA0003142023820000021
式中ER(x→C)为规则x→C的增比率,CSup(x→C)为类支持度且CSup(x→C)=N(x∪C)/N(C),N(x∪C)表示x和C同时出现在事务集D中的次数,N(C)表示类C在事务集中出现的次数,x表示规则前件,
Figure FDA0003142023820000022
表示类C的补类。
5.根据权利要求4所述的基于电子病历的疾病症状关联分析方法,其特征在于步骤(3)所述的将候选关联规则分类至相应类别的规则集合,具体为设置增比置信度阈值,然后采用如下规则进行分类:
若候选关联规则的增比置信度大于或等于增比置信度阈值,则将该关联规则加入到对应类别的规则集合中;
若候选关联规则的增比置信度小于增比置信度阈值,则将该关联规则删除。
6.根据权利要求5所述的基于电子病历的疾病症状关联分析方法,其特征在于所述的候选关联规则的增比置信度,具体为采用如下算式计算增比置信度:
ERC(x→C)=ER(x→C)*Confidence(x→C)
式中ERC(x→C)为规则x→C的增比置信度,ER(x→C)为规则x→C的增比率,Confidence(x→C)为规则x→C的置信度,x为规则前件,C为规则后件。
7.根据权利要求6所述的基于电子病历的疾病症状关联分析方法,其特征在于步骤(4)所述的衡量规则前件和后件的相关性并得到各类别相关的分类关联规则,具体为采用如下步骤进行衡量并得到分类关联规则:
1).采用如下公式计算规则A→B的兴趣度:
Figure FDA0003142023820000031
式中lift(A→B)为规则A→B的兴趣度,P(A∪B)为A∪B出现的概率,P(A)为A出现的概率,P(B)为B出现的概率;
2).采用如下规则进行判断:
若候选关联规则的兴趣度大于或等于设定的最小兴趣度阈值,则将该候选关联规则加入到对应类别的分类关联规则;
若候选关联规则的兴趣度小于设定的最小兴趣度阈值,则进行后续步骤;
3).判断候选关联规则的兴趣度与2-最小兴趣度阈值的关系:
若候选关联规则的兴趣度小于2-最小兴趣度阈值的关系,则得到候选关联规则的负关联规则,计算对应的负关联规则的支持度和置信度;
否则将该规则删除;
4).判断步骤3)得到的负关联规则的支持度和置信度与最小阈值之间的关系:
若负关联规则的支持度大于或等于支持度最小阈值且负关联规则的置信度大于或等于置信度最小阈值,则将该候选关联规则加入到对应类别的分类关联规则;
否则将该规则删除。
8.根据权利要求1或2所述的基于电子病历的疾病症状关联分析方法,其特征在于步骤S3所述的对疾病症状进行关联分析,具体为采用如下规则进行关联分析:对于病人的任意症状,若该症状在步骤S2得到的分类器的分类关联规则中出现,则将症状的当前权重加上该分类关联规则的规则强度作为该症状的新的权重,从而得到最终的疾病症状的权重;所述的权重越大,表明该疾病与该症状的关联性越大。
CN201810619124.6A 2018-06-15 2018-06-15 基于电子病历的疾病症状关联分析方法 Active CN108806767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810619124.6A CN108806767B (zh) 2018-06-15 2018-06-15 基于电子病历的疾病症状关联分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810619124.6A CN108806767B (zh) 2018-06-15 2018-06-15 基于电子病历的疾病症状关联分析方法

Publications (2)

Publication Number Publication Date
CN108806767A CN108806767A (zh) 2018-11-13
CN108806767B true CN108806767B (zh) 2021-10-22

Family

ID=64086500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810619124.6A Active CN108806767B (zh) 2018-06-15 2018-06-15 基于电子病历的疾病症状关联分析方法

Country Status (1)

Country Link
CN (1) CN108806767B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767819B (zh) * 2018-12-11 2021-06-04 东软集团股份有限公司 病历的分组方法、装置、存储介质和电子设备
CN111341454B (zh) * 2018-12-19 2023-07-25 中国电信股份有限公司 数据挖掘方法和装置
CN110085323B (zh) * 2019-04-19 2021-04-30 北京工业大学 一种基于电子病历的诊疗路径发现方法
CN111081370B (zh) * 2019-10-25 2023-11-03 中国科学院自动化研究所 一种用户分类方法及装置
CN112349399B (zh) * 2020-11-12 2022-05-24 杭州火树科技有限公司 基于关联算法的手术缺漏自动检测方法
CN112908484A (zh) * 2021-01-18 2021-06-04 吾征智能技术(北京)有限公司 一种跨模态融合分析疾病的系统、设备、存储介质
CN113282686B (zh) * 2021-06-03 2023-11-07 光大科技有限公司 一种不平衡样本的关联规则确定方法及装置
CN113420375B (zh) * 2021-06-14 2022-05-31 西北工业大学 基于Apriori建立工艺-质量-不平衡量关联关系模型的方法
CN113643815A (zh) * 2021-08-31 2021-11-12 平安医疗健康管理股份有限公司 疾病并发症的预测方法、装置、计算机设备和存储介质
CN115281602B (zh) * 2022-10-08 2023-01-24 北京大学第三医院(北京大学第三临床医学院) 一种用于青光眼的研究瞳孔对光反射障碍的动态分析系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202883A (zh) * 2016-06-28 2016-12-07 成都中医药大学 一种基于大数据分析建立疾病云图的方法
CN106383920A (zh) * 2016-11-28 2017-02-08 东南大学 一种基于关联规则的重特大交通事故致因识别方法
CN106529580A (zh) * 2016-10-24 2017-03-22 浙江工业大学 结合edsvm的软件缺陷数据关联分类方法
CN107730336A (zh) * 2016-08-12 2018-02-23 苏宁云商集团股份有限公司 一种在线交易中的商品推送方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202883A (zh) * 2016-06-28 2016-12-07 成都中医药大学 一种基于大数据分析建立疾病云图的方法
CN107730336A (zh) * 2016-08-12 2018-02-23 苏宁云商集团股份有限公司 一种在线交易中的商品推送方法及装置
CN106529580A (zh) * 2016-10-24 2017-03-22 浙江工业大学 结合edsvm的软件缺陷数据关联分类方法
CN106383920A (zh) * 2016-11-28 2017-02-08 东南大学 一种基于关联规则的重特大交通事故致因识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
An Analysis of the Surviva bility in SEER Breast Cancer Data Using Association Rule Mining;Fangfang Li 等;《SpaCCS 2016 Workshops》;20161231;第184–194页 *
基于支持度和增比率的改进关联分类算法;王卫平 等;《计算机工程与科学》;20160229;第38卷(第2期);第370-375页 *
杨开明.糖尿病中医临床数据挖掘技术研究.《中国优秀硕士学位论文全文数据库信息科技辑》.2014,(第2期),第I138-470页. *
糖尿病中医临床数据挖掘技术研究;杨开明;《中国优秀硕士学位论文全文数据库信息科技辑》;20140215(第2期);第I138-470页 *

Also Published As

Publication number Publication date
CN108806767A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN108806767B (zh) 基于电子病历的疾病症状关联分析方法
Lavric et al. KeratoDetect: keratoconus detection algorithm using convolutional neural networks
Chakravarthy et al. Characterizing disease burden and progression of geographic atrophy secondary to age-related macular degeneration
Rotchford et al. Glaucoma in Zulus: a population-based cross-sectional survey in a rural district in South Africa
Dandona et al. Design of a population-based study of visual impairment in India: The Andhra Pradesh Eye Disease Study.
Kovalyk et al. PAPILA: Dataset with fundus images and clinical data of both eyes of the same patient for glaucoma assessment
US20220230300A1 (en) Using Deep Learning to Process Images of the Eye to Predict Visual Acuity
Yousefi et al. Learning from data: recognizing glaucomatous defect patterns and detecting progression from visual field measurements
Wu et al. Vision-related quality of life in glaucoma patients and its correlations with psychological disturbances and visual function indices
Gibson Frequency and predictors of missed visits to primary care and eye care providers for annually recommended diabetes preventive care services over a two-year period among US adults with diabetes
Kamiya et al. Prediction of keratoconus progression using deep learning of anterior segment optical coherence tomography maps
Hagman Comparison of resource utilization in the treatment of open‐angle glaucoma between two cities in Finland: is more better?
CN112700858A (zh) 一种儿童青少年近视预警方法及设备
Gupta et al. An efficient model for detection and classification of internal eye diseases using deep learning
Martinez-Perez et al. Artificial intelligence applied to ophthalmology and optometry: A citation network analysis
Khanna et al. Longitudinal Andhra Pradesh Eye Disease Study: rationale, study design and research methodology
Gange et al. A comparison of methods for correlated ordinal measures with ophthalmic applications
Leite et al. Machine Learning automatic assessment for glaucoma and myopia based on Corvis ST data
CN115910328A (zh) 一种基于人工智能分析的角膜塑形镜验配系统
EP4258205A1 (en) Quality control method and quality control system for data annotation on fundus image
da Silva et al. Modeling ordinal longitudinal outcomes: an applied perspective of marginal and conditional approaches.
Hill Making decisions in ophthalmology
Kinori et al. Correlation of refractive error with anisometropia development in early childhood
Ranadive et al. Predicting Glaucoma Diagnosis Using AI
Poostchi Epidemiology of eye disease in the UK: the Bridlington Eye Assessment Project

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant