CN108806767A

CN108806767A - 基于电子病历的疾病症状关联分析方法

Info

Publication number: CN108806767A
Application number: CN201810619124.6A
Authority: CN
Inventors: 李芳芳; 段昱; 毛星亮
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2018-06-15
Filing date: 2018-06-15
Publication date: 2018-11-13
Anticipated expiration: 2038-06-15
Also published as: CN108806767B

Abstract

本发明公开了一种基于电子病历的疾病症状关联分析方法，包括获取电子病历的数据并处理；构建不平衡数据集的分类器；采用分类器对疾病症状进行关联分析。本发明通过对电子病历进行处理获取基础数据，然后根据基础数据构造相应的新型不平衡数据集的分类器，再利用该分类器进行疾病与症状的关联分析，因此本发明方法能够对疾病症状进行较为准确的关联，而且方法简答、科学和可靠。

Description

基于电子病历的疾病症状关联分析方法

技术领域

本发明具体涉及一种基于电子病历的疾病症状关联分析方法。

背景技术

随着信息技术的高速发展，我国的医疗事业也随之进入了信息化时代。由于国家政策的支持以及我国人口众多，因此在我国每天都会产生大量的医疗数据，而电子病历(Electronic Medical Record，EMR)是这些医疗数据的主要载体。

随着智能化时代的到来，疾病的诊疗也已经逐步开启了智能化时代，即利用现有的技术资料，以及患者的实际病情和相关数据，对患者的疾病进行辅助性的预测或辅助性的预诊断，从而为医护人员提供一定的帮助。电子病历中包括了患者的基本信息、疾病症状以及疾病种类等非常重要的信息，因此对电子病历的处理也成为了智能医疗的基础工作之一。

在对电子病历进行分类时，其往往是一个不平衡数据集，那么对于电子病历的处理的本质就是对不平衡数据集的处理。目前的不平衡数据集的分类方法，往往较为复杂，而且精度相对不高，影响了不平衡数据集的分类效果。正因如此，对于电子病历的处理效果也相对不佳，从而严重影响了后续的工作。

发明内容

本发明的目的在于提供一种能够对疾病症状进行较为准确的关联的基于电子病历的疾病症状关联分析方法。

本发明提供的这种基于电子病历的疾病症状关联分析方法，包括如下步骤：

S1.获取电子病历的数据，对电子病历进行预处理并转换为结构化数据；

S2.构建不平衡数据集的分类器；

S3.根据步骤S2得到的分类器，对疾病症状进行关联分析。

步骤S1所述的对电子病历进行预处理并转换为结构化数据，具体为采用如下步骤进行预处理和转换：

A.确定电子病历中的疾病特征；

B.对电子病历中的缺失值进行填充；

C.对电子病历中的连续特征进行离散化处理。

步骤S2所述的构建不平衡数据集的分类器，具体为采用如下步骤构建分类器：

(1).获取电子病历中的训练数据，得到训练数据的候选频繁项集；

(2).对步骤(1)得到的候选频繁项集进行过滤；

(3).将候选关联规则分类至相应类别的规则集合中；

(4).衡量规则前件和后件的相关性，从而得到各类别相关的分类关联规则；

(5).以规则强度作为衡量指标对步骤(4)得到的分类关联规则进行过滤和排序，从而得到分类器。

步骤(1)所述的得到训练数据的候选频繁项集，具体为对训练数据采用Apriori算法，同时设置最小支持度阈值，从而得到满足最小支持度阈值的候选频繁项集。

步骤(2)所述的对候选频繁项集进行过滤，具体为设置最小增比率阈值，然后采用如下规则进行过滤：

若频繁项集的增比率低于最小增比率阈值，则将该频繁项集过滤；

若频繁项集的增比率大于或等于最小增比率阈值，则将该频繁项集保留；

若频繁项集的增比率无穷大，则该频繁项集的增比率定义为该类别相关的所有频繁项集的增比率的均值。

所述的增比率，具体为采用如下算式计算频繁项集的增比率：

式中ER(x→C)为规则x→C的增比率，CSup(x→C)为类支持度且CSup(x→C)＝N(x∪C)/N(C)，N(x∪C)表示x和C同时出现在事务集D中的次数，N(C)表示类C在事务集中出现的次数，x表示规则前件，表示类C的补类。

步骤(3)所述的将候选关联规则分类至相应类别的规则集合，具体为设置增比置信度阈值，然后采用如下规则进行分类：

若候选关联规则的增比置信度大于或等于增比置信度阈值，则将该关联规则加入到对应类别的规则集合中；

若候选关联规则的增比置信度小于增比置信度阈值，则将该关联规则删除。

所述的候选关联规则的增比置信度，具体为采用如下算式计算增比置信度：

ERC(x→C)＝ER(x→C)*Confidence(x→C)

式中ERC(x→C)为规则x→C的增比置信度，ER(x→C)为规则x→C的增比率，Confidence(x→C)为规则x→C的置信度，x为规则前件，C为规则后件。

步骤(4)所述的衡量规则前件和后件的相关性并得到各类别相关的分类关联规则，具体为采用如下步骤进行衡量并得到分类关联规则：

1).采用如下公式计算规则A→B的兴趣度：

式中lift(A→B)为规则A→B的兴趣度，P(A∪B)为A∪B出现的概率，P(A)为A出现的概率，P(B)为B出现的概率；

2).采用如下规则进行判断：

若候选关联规则的兴趣度大于或等于设定的最小兴趣度阈值，则将该候选关联规则加入到对应类别的分类关联规则；

若候选关联规则的兴趣度小于设定的最小兴趣度阈值，则进行后续步骤；

3).判断候选关联规则的兴趣度与2-最小兴趣度阈值的关系：

若候选关联规则的兴趣度小于2-最小兴趣度阈值的关系，则得到候选关联规则的负关联规则，计算对应的负关联规则的支持度和置信度；

否则将该规则删除；

4).判断步骤3)得到的负关联规则的支持度和置信度与最小阈值之间的关系：

若负关联规则的支持度大于或等于支持度最小阈值且负关联规则的置信度大于或等于置信度最小阈值，则将该候选关联规则加入到对应类别的分类关联规则；

否则将该规则删除。

步骤(5)所述的以规则强度作为衡量指标对得到的分类关联规则进行过滤和排序从而得到分类器，具体为采用如下步骤进行过滤、排序并得到分类器：

ⅰ.采用如下公式计算分类关联规则的规则强度：

式中RS(A→B)为规则A→B的规则强度，supp为规则A→B的支持度，conf为规则A→B的置信度，er为规则A→B的增比率，lift为规则A→B的的兴趣度；

ⅱ.对于任意规则R_p和R_n，若R_p是R_n的泛化规则且RS(R_p)＞RS(R_n)，则认定规则R_n是冗余并将规则R_n删除；

ⅲ.对最终的规则按类别进行排序，从而形成最终的分类器。

步骤S3所述的对疾病症状进行关联分析，具体为采用如下规则进行关联分析：对于病人的任意症状，若该症状在步骤S2得到的分类器的分类关联规则中出现，则将症状的当前权重加上该分类关联规则的规则强度作为该症状的新的权重，从而得到最终的疾病症状的权重；所述的权重越大，表明该疾病与该症状的关联性越大。

本发明提供的这种基于电子病历的疾病症状关联分析方法，通过对电子病历进行处理获取基础数据，然后根据基础数据构造相应的新型不平衡数据集的分类器，再利用该分类器进行疾病与症状的关联分析，因此本发明方法能够对疾病症状进行较为准确的关联，而且方法简答、科学和可靠。

附图说明

图1为本发明方法的方法流程图。

图2为本发明方法中的不平衡数据集的分类器的构造方法流程图。

图3为本发明的实施例的年龄值分布示意图。

图4为本发明的实施例的眼压值分布示意图。

具体实施方式

如图1所示为本发明方法的方法流程图：本发明提供的这种基于电子病历的疾病症状关联分析方法，包括如下步骤：

S1.获取电子病历的数据，对电子病历进行预处理并转换为结构化数据；具体为采用如下步骤进行预处理和转换：

A.确定电子病历中的疾病特征；

对电子病历中的实体进行识别，从而识别出症状描述部分，并经过与医护人员的确认，确认最终的症状描述；

B.对电子病历中的缺失值进行填充；在具体实施时，可以采用SPSS的多重插补算法对缺失数据进行填补；

C.对电子病历中的连续特征进行离散化处理；

S2.构建不平衡数据集的分类器；具体为采用如下步骤构建分类器：

(1).获取电子病历中的训练数据，得到训练数据的候选频繁项集；具体为对训练数据采用Apriori算法，同时设置最小支持度阈值，从而得到满足最小支持度阈值的候选频繁项集；

(2).对步骤(1)得到的候选频繁项集进行过滤；具体为设置最小增比率阈值，然后采用如下规则进行过滤：

若频繁项集的增比率无穷大，则该频繁项集的增比率定义为该类别相关的所有频繁项集的增比率的均值；

采用如下算式计算频繁项集的增比率：

式中ER(x→C)为规则x→C的增比率，CSup(x→C)为类支持度且CSup(x→C)＝N(x∪C)/N(C)，N(x∪C)表示x和C同时出现在事务集D中的次数，N(C)表示类C在事务集中出现的次数，x表示规则前件，表示类C的补类；

(3).将候选关联规则分类至相应类别的规则集合中；具体为设置增比置信度阈值，然后采用如下规则进行分类：

若候选关联规则的增比置信度小于增比置信度阈值，则将该关联规则删除；

采用如下算式计算增比置信度：

ERC(x→C)＝ER(x→C)*Confidence(x→C)

式中ERC(x→C)为规则x→C的增比置信度，ER(x→C)为规则x→C的增比率，Confidence(x→C)为规则x→C的置信度，x为规则前件，C为规则后件；

(4).衡量规则前件和后件的相关性，从而得到各类别相关的分类关联规则；具体为采用如下步骤进行衡量并得到分类关联规则：

1).采用如下算式计算候选关联规则的兴趣度；

式中lift(A→B)为规则A→B的兴趣度，P(A∪B)为A∪B出现的概率，P(A)为A出现的概率，P(B)为B出现的概率；兴趣度常被应用于关联规则的挖掘中，是一种经典的、有效的关联规则相关性衡量标准；

若lift(A→B)＜1，则表示规则前件A和规则后件B是负相关的，即A会抑制B的出现；

若lift(A→B)＝1，则表示规则前件A和规则后件B是独立不想关的，即A出现与否不会影响B的出现；

若lift(A→B)＞1，则表示规则前件A和规则后件B是正相关的，即A会促进B的出现；

2).采用如下规则进行判断：

3).判断候选关联规则的兴趣度与2-最小兴趣度阈值的关系：

否则将该规则删除；

(5).以规则强度作为衡量指标对步骤(4)得到的分类关联规则进行过滤和排序，从而得到分类器；具体为采用如下步骤进行过滤、排序并得到分类器：

ⅰ.采用如下公式计算分类关联规则的规则强度：

ⅲ.对最终的规则按类别进行排序，从而形成最终的分类器；

S3.根据步骤S2得到的分类器，对疾病症状进行关联分析；具体为采用如下规则进行关联分析：对于病人的任意症状，若该症状在步骤S2得到的分类器的分类关联规则中出现，则将症状的当前权重加上该分类关联规则的规则强度作为该症状的新的权重，从而得到最终的疾病症状的权重；所述的权重越大，表明该疾病与该症状的关联性越大。

以下结合一个具体实施例对本发明方法进行进一步说明：

数据预处理：

在进行关联规则分类算法实验之前，需要确定用于训练分类模型的特征。采用CRF算法对眼科电子病历中的主诉以及现病史部分进行症状实体识别，确定了眼红、眼胀等十个特征。

根据与医护人员的沟通，还确定了包括病历中的性别、年龄、婚姻状况、视力、眼压、体温、脉搏以及专科检查表格中的数据包括角膜相关特征、巩膜相关特征等八大类特征；通过入院诊断，加入了患者是否患有白内障、高血压、糖尿病、心脏病等八种疾病作为特征。由于医生个人书写习惯不同，疾病的描述会有些许不同，例如“心脏病”，病历中也有不同的表达，如：“冠心病”、“冠状动脉周硬化”，可以将这些表述进行统一。如果患者患有相应的疾病，则在该特征上取值为“1”，否则取值为“0”。通过人工干预分析既往史部分，加入了是否有过手术史这个特征。性别、婚姻状况、是否有过手术史这三个特征的取值及其数值表示如下表1所示。

表1性别、婚姻状况、是否手术特征取值

特征名	特征取值及数值表示
		性别	男：1；女：2
婚姻状况	已婚：1；未婚：2
		是否有过手术史	否：1；是：2

由于专科检查中的特征较多，因此只列举角膜、巩膜相关特征的取值。通过对病历数据集中专科检查表的每个相关特征进行统计分析，并加入人工干预，确定了角膜相关特征包括：角膜是否混浊、角膜是否水肿、角膜细胞个数是否正常、角膜KP取值、以及其它；巩膜相关特征包括：是否充血、是否黄染、巩膜睫状区是否压痛、以及其它。症状的描述并没有统一标准。对这些表达意思相同但描述不同的症状特征进行统一化。这两类相关特征的取值及其数值化表示如表2和表3所示。

表2角膜相关特征

表3巩膜相关特征

特征名	特征取值及数值表示
		巩膜充血	否：0，是：1
巩膜黄染	否：0，是：1
		巩膜睫状区压痛	否：0，是：1
巩膜其它	正常：0，滤过泡异常：1，其它：2

经过以上步骤后，确定了用于此次研究的57个特征，现在需要对特征数值化编号，由于特征较多，现举例说明特征编号的情况，如表4所示。在对特征进行编号后，每个特征值就是相应的特征编号加上如上所述的对应取值来表示的。表5是特征值的完整表示及其说明的举例。

表4特征编号

特征名	特征编号
		性别	01
年龄	02
		婚姻状况	03
……	……
		异物感	15
视物模糊	16
		……	……
是否有过手术史	57

表5特征值说明举例

由于病历存在记录不完整的情况，本发明采用SPSS中的多重插补方法对缺失数据进行填补。

SPSS(Statistical Product and Service Solutions)是由IBM公司推出的一款用于统计分析、数据挖掘、缺失值填补、分析预测等的一款软件。在这里，例举了眼压、体温这两个特征多重填补后的误差分析结果，如表6至表7所示。

表6眼压误差分析

表7体温误差分析

从多重插补的误差分析结果可以看出，采用SPSS进行此次缺失值插补后的误差在允许范围之内。最后，取五组缺失估计值的平均值作为最终的缺失插补值。

在上述的57个特征中，年龄、视力、眼压、体温、脉搏这五个特征是连续型的，需要对其离散化处理。离散化后的数据对异常数据的鲁棒性会更高，并且，将特征离散化后，分类器模型也会更加稳定。例如，将年龄0-10划分为一个区间，不会因为一个患者年龄增长一岁而变成了另外一个人。

在这里，举例说明对年龄和眼压的离散化操作。图3和图4分别是年龄、眼压的值分布图，根据这些图中显示的人数变化趋势，并参考医学标准，例如在对眼压进行划分的时候，既根据分布图又参考了医学中的正常眼压范围标准，因此，本文将眼压10-21mmHg划分为一个区间。年龄、眼压的数值离散化如表8和表9所示。

表8年龄离散化示意表

年龄	离散值
		0<x<10	1
10<＝x<35	2
		35<＝x<50	3
50<＝x<65	4
		65<＝x<80	5
80<＝x	6

表9眼压离散化

年龄	离散值
		x<5	1
5<＝x<10	2
		10<＝x<＝21	3
22<＝x<30	4
		30<＝x<40	5
40<＝x<55	6
		55<＝x	7

构造分类器；

然后采用构造的分类器，对疾病症状进行关联分析：

得到的分类关联规则构成分类器后，可以实现对眼科电子病历的二分类(青光眼类和非青光眼类)，这些分类规则还可以用于分析青光眼患者的主要症状特征。表10和表11分别列举了青光眼相关规则和非青光眼相关规则中规则强度前十的分类规则。

表10规则强度前10的青光眼相关分类规则

编号	规则	规则强度
			1	056 063 381→青光眼	1.1008
2	171 461 482→青光眼	1.1008
			3	012 111 191→青光眼	1.0954
4	012 191 571→青光眼	1.0954
			5	101 111 381 501→青光眼	1.0954
6	031 101 381501 571→青光眼	1.0954
			7	012 171 191→青光眼	1.0954
8	101 171 381 501→青光眼	1.0954
			9	055 501→青光眼	1.0952
10	056 323→青光眼	1.0952

从表10中可知，第一条规则“056 063 381→青光眼”表示的是如果40<＝眼压<55并且80<＝脉搏<100并且瞳孔对光反应迟钝的话，那么该患者很有可能患有青光眼；第二条规则表示的是如果视力下降并且视网膜出血并且视网膜萎缩，那么该患者很有可能患有青光眼；第7条规则表示如果性别为女性且视力下降且角膜水肿，那么该患者很有可能患有青光眼；第9条规则表示如果30<＝眼压<40且该患者患有白内障，那么该患者有很大的可能患有青光眼。

表11规则强度前10的非青光眼相关分类规则

编号	规则	规则强度
			1	053 074 571→非青光眼	0.8335
2	053 063 571→非青光眼	0.8031
			3	012 053 571→非青光眼	0.7980
4	053 571→非青光眼	0.7825
			5	053 074→非青光眼	0.7717
6	043 053→非青光眼	0.7593
			7	332 341→非青光眼	0.7493
8	053 471→非青光眼	0.7465
			9	341 351→非青光眼	0.7399
10	053 063 074→非青光眼	0.7389

从表11中可知，第一条规则表示的是如果10<＝眼压<21且80<＝脉搏<100且未曾有过手术史，那么该患者很有可能不是青光眼患者；第6条规则表示如果0.3<＝视力<0.6且10<＝眼压<21，那么该患者很有可能不是青光眼患者；第8条规则表示的是如果10<＝眼压<21且视网膜有渗出，那么该患者很有可能不是青光眼患者，而是患有其它眼科疾病；第10条规则表示如果10<＝眼压<21且36.5<＝体温<＝36.9且80<＝脉搏<100，那么该患者很有可能患有其它眼科疾病，而非青光眼。

本发明通过对有关青光眼类的分类关联规则中出现过的症状特征进行加权求和，分析了青光眼患者的主要症状特征。分析过程为：对于新算法得到的所有和青光眼相关的分类规则中，对于任意一个症状a(即一个特征值)，如果a在某一条规则中出现了，那么a的权重累加上该条规则的规则强度。对于a出现过的每一条规则，都将a的权重对其规则强度进行累加，并将最后的结果作为元素a的权重。

表12例举了权重较大的10个症状特征，并对值进行了说明。

表12症状举例

编号	规则	规则强度
			1	501	患有白内障
2	171	视力下降
			3	063	36.5<＝体温<＝36.9
4	381	瞳孔对光反应迟钝
			5	012	女性
6	111	眼睛痛
			7	433	晶状体的皮质以及核混浊
8	572	曾有过手术史
			9	101	眼睛胀
10	041	0<＝视力<0.1

表12显示了在青光眼患者中普遍存在的症状，例如患有白内障、视力下降等，并且女性患者较男性患者更易患青光眼，因此女性患者在平日里，要更加注意自己的眼部健康状况，提早发现、提早治疗。如果出现眼睛痛、胀或者视力下降的情况，应该及时去医院进行检查。

Claims

1.一种基于电子病历的疾病症状关联分析方法，包括如下步骤：

S2.构建不平衡数据集的分类器；

S3.根据步骤S2得到的分类器，对疾病症状进行关联分析。

2.根据权利要求1所述的基于电子病历的疾病症状关联分析方法，其特征在于步骤S1所述的对电子病历进行预处理并转换为结构化数据，具体为采用如下步骤进行预处理和转换：

A.确定电子病历中的疾病特征；

B.对电子病历中的缺失值进行填充；

C.对电子病历中的连续特征进行离散化处理。

3.根据权利要求1或2所述的基于电子病历的疾病症状关联分析方法，其特征在于步骤S2所述的构建不平衡数据集的分类器，具体为采用如下步骤构建分类器：

(2).对步骤(1)得到的候选频繁项集进行过滤；

(3).将候选关联规则分类至相应类别的规则集合中；

4.根据权利要求3所述的基于电子病历的疾病症状关联分析方法，其特征在于步骤(2)所述的对候选频繁项集进行过滤，具体为设置最小增比率阈值，然后采用如下规则进行过滤：

5.根据权利要求4所述的基于电子病历的疾病症状关联分析方法，其特征在于所述的增比率，具体为采用如下算式计算频繁项集的增比率：

6.根据权利要求3所述的基于电子病历的疾病症状关联分析方法，其特征在于步骤(3)所述的将候选关联规则分类至相应类别的规则集合，具体为设置增比置信度阈值，然后采用如下规则进行分类：

7.根据权利要求6所述的基于电子病历的疾病症状关联分析方法，其特征在于所述的候选关联规则的增比置信度，具体为采用如下算式计算增比置信度：

ERC(x→C)＝ER(x→C)*Confidence(x→C)

8.根据权利要求3所述的基于电子病历的疾病症状关联分析方法，其特征在于步骤(4)所述的衡量规则前件和后件的相关性并得到各类别相关的分类关联规则，具体为采用如下步骤进行衡量并得到分类关联规则：

1).采用如下公式计算规则A→B的兴趣度：

2).采用如下规则进行判断：

3).判断候选关联规则的兴趣度与2-最小兴趣度阈值的关系：

否则将该规则删除；

否则将该规则删除。

9.根据权利要求3所述的基于电子病历的疾病症状关联分析方法，其特征在于步骤(5)所述的以规则强度作为衡量指标对得到的分类关联规则进行过滤和排序从而得到分类器，具体为采用如下步骤进行过滤、排序并得到分类器：

ⅰ.采用如下公式计算分类关联规则的规则强度：

式中RS(A→B)为XXXXX，supp为规则A→B的支持度，conf为规则A→B的置信度，er为规则A→B的增比率，lift为规则A→B的的兴趣度；

ⅲ.对最终的规则按类别进行排序，从而形成最终的分类器。

10.根据权利要求1或2所述的基于电子病历的疾病症状关联分析方法，其特征在于步骤S3所述的对疾病症状进行关联分析，具体为采用如下规则进行关联分析：对于病人的任意症状，若该症状在步骤S2得到的分类器的分类关联规则中出现，则将症状的当前权重加上该分类关联规则的规则强度作为该症状的新的权重，从而得到最终的疾病症状的权重；所述的权重越大，表明该疾病与该症状的关联性越大。