CN108346474B

CN108346474B - 基于单词的类内分布与类间分布的电子病历特征选择方法

Info

Publication number: CN108346474B
Application number: CN201810208599.6A
Authority: CN
Inventors: 彭访; 方胜群; 蔡志平; 吴喜军; 孙文成
Original assignee: Hunan Lanqingting Network Technology Co ltd
Current assignee: Hunan Lanqingting Network Technology Co ltd; National University of Defense Technology
Priority date: 2018-03-14
Filing date: 2018-03-14
Publication date: 2021-09-28
Anticipated expiration: 2038-03-14
Also published as: CN108346474A

Abstract

本发明涉及基于单词的类内分布与类间分布的电子病历特征选择方法。本发明首先构建了疾病、药品词典，其次总结了中文病历中症状词分布的三大特点，然后对收集到的病人病历进行预处理，将分词结果保存到数据库中。本发明根据关键症状词在疾病内的分布情况及疾病间的分布情况计算单词对于不同疾病的代表度，且在考虑疾病间分布情况时，分析了疾病与疾病间的关联性对于特征选择的影响，在特征选择时保证关联性高的疾病间的特征尽量相似，关联性低的疾病间的特征尽量排斥。

Description

基于单词的类内分布与类间分布的电子病历特征选择方法

技术领域

本发明涉及在疾病智能诊断和中文文本特征选择领域，基于单词在同类病人和异类病人间的分布情况，来实现疾病特征提取过程，并基于提取的特征利用SVM(支持向量机)实现疾病智能诊断。

背景技术

疾病诊断具有很大的不确定性，给诊断决策过程增加了难度；同时，随着医学科学的发展，临床分科越来越细，临床医师的知识面也越来越窄，他们往往只关注于自己的专科，很难将病人作为一个有机整体进行全面的考虑，这给诊断过程带来了一定的风险。疾病智能诊断研究的问题主要为如何让计算机模拟医学专家诊断病人的过程，根据病人电子病历自动准确地判断病人的患病情况，做出智能化诊断支持。智能诊断的结果虽然不能代替医师给出最终的诊断结论，但是在诊断过程中起到了一个重要的参考作用，可以有效提高医师的诊断效率。

特征选择也称特征子集选择，或属性选择，是指从已有的M个特征中选择N个特征(M>N)使得系统的特定指标(如分类准确率等)最优化，是从原始特征中选择出一组最有效的特征以降低数据集维度的过程，是提高学习算法性能的一个重要手段，也是模式识别中关键的数据预处理步骤。特征选择过程一般包括产生过程、评价函数、停止准则、验证过程四部分：

(1)产生过程：产生过程是搜索特征子集的过程，负责为评价函数提供特征子集，常见的搜索策略主要有三种，分别为完全搜索、启发式搜索和随机搜索。完全搜索就是枚举特征集中的所有特征组合从而选出最优的特征子集，复杂度为O(2n)，因此实际应用中几乎不用；启发式搜索策略主要有序列前向选择(SFS)和序列后向选择(SBS)，主要思想为贪心思想，因此有时候容易陷入到局部最优中；随机搜索策略基于对分类有效性的评估，在计算过程中对每个特征赋予一定的权重，然后根据自适应的阈值或者用户自定义的阈值来对特征重要性进行评估，选择大于阈值的特征；

(2)评价函数：评价函数是评价一个特征子集好坏程度的一个准则，可分为两种：一种是用于单独地衡量每个特征的预测能力的评价标准；另一种是用于评价某个特征子集整体预测性能的评价标准；

(3)停止准则：停止标准决定什么时候停止搜索，即结束算法的执行。常见的停止准则一般有1)执行时间，即事先规定了算法执行的时间，当达到所指定的时间就强制算法运行，并输出结果；2)评价次数，即指定算法需要运行的次数，通常用于规定随机搜索的次数；3)设置阈值，一般是给算法的目标值设置一个评价阈值，通过目标与该阈值的比较决定算法停止与否；

(4)验证过程：在验证数据集上验证选出来的特征子集的有效性；

常见的特征选择方法大致分为三类：过滤式(filter)、包裹式(wrapper)、嵌入式(embedding)。

(a)过滤式方法先对数据集进行特征选择，然后再训练学习器，特征选择过程与后续学习器无关。这相当于先用特征选择过程对初始特征进行“过滤”，再用过滤后的特征来训练模型。

(b)包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价准则。换言之，包裹式特征选择的目的就是为给定学习器选择最有利于其性能、“量身定做”的特征子集。

(c)嵌入式特征选择是将特征选择过程与学习器训练过程融为一体，两者在同一个优化过程中完成，即在学习器训练过程中自动地进行了特征选择。

发明内容

本发明所要解决的技术问题是，对病人的电子病历实现特征选择过程，并利用SVM分类器实现疾病诊断；

首先，针对病历文本包含大量的医学专用词语，且否定性词语或短语频繁出现的特点，利用国家食品药品监督局的药品信息和ICD-10编码中的疾病信息构建了疾病、药品词典，利用该词典提高分词质量，保证在进行特征选择时关键症状词不会被错误切割，并通过总结医生或护士常用否定词语构建否定词列表，过滤病历中的否定性词语或短语，排除无用信息；

其次，通过对中文电子病历的分析，总结病历文本中关键症状词分布的特点，即1)特征词重复次数低，关键的症状及体征信息不会多次出现；2)患同类疾病的病人病历中包含的关键症状词重叠度很高，如泌尿道感染的病人病历中基本都会出现尿路感染、尿频、尿急等词；3)疾病间的关联性会影响疾病间关键症状的相似性，即具有高关联性的疾病间的关键症状相似度应该较高，而关联性很低的疾病间的关键症状应该具有排斥性，根据这三个特点，可以更好地对病历文本进行特征选择；

然后，对收集到的病人病历进行预处理，将病历中的否定性短语过滤，作为噪音直接消除；利用分词工具词典添加功能将疾病、药品名称导入词典并对病历进行分词，将病历中的专业疾病、药品名称准确地提取出来，最后将分词结果保存到数据库中；

为了分析疾病关联性对于特征选择的影响，需要统计不同疾病间的关联度，为了判断两种疾病间是否相关，计算两种疾病在训练集的病人中的共现度，即两种疾病在病人中共同出现的次数，将共现度与预先设置的阈值k进行比较，若共现度大于k，则认为这两个疾病之间存在关联，若共现度小于k，则认为这两个疾病之间不存在关联；

对中文病历进行特征选择前，需要对病历分词，一方面病人病历中通常包含大量噪声，如在记录病人信息时出现大量错别字或不同医院的书写方式不一致，如“寒颤”与“寒战”、“湿罗音”与“湿啰音”等，且病历中包含大量医学专业词汇，如“慢性咽喉痛”等，直接使用通用的分词工具，如Ansj、盘古分词等很难取得很好的分词效果；另一方面，通过对中文电子病历的总结分析，发现中文病历具有以下三个特点：

(1)特征词重复性低。病历描述的内容并非通过重复表达关键词的形式来突出语义内涵，关键的症状及体征信息不会多次出现；

(2)患同类疾病的病人病历中包含的关键症状词重叠度很高，如泌尿道感染的病人病历中基本都会出现尿路感染、尿频、尿急等词；

(3)疾病间的关联性会影响不同疾病的关键症状的相似性，即具有高关联性的疾病间的关键症状相似度应该较高，而关联性很低的疾病间的关键症状应该具有排斥性。

传统的特征选择方法，如信息增益(IG)、期望交叉熵(ECE)、互信息(MI)等，并不是按类别计算统计值，选出的特征都是全局意义上的，没有从局部考虑特征项对单个类别的区分能力，全局意义上的词可能存在多类的指示意义，但是有些词条对于单个类别的区别度非常大，如“肺感染”、“肺实变”基本上只出现在肺炎感染一类的病人病历中，如果从全局意义上考虑，这些词的函数值可能并不是很大，很可能被忽略掉。另外，传统的特征选择方法没有考虑类别间的关联性对于特征选择过程的影响，每个类别的特征词都是独立选取，但在临床医学中，很多疾病之间都存在关联性，而这种关联性又会影响疾病间的关键症状词的相似度。

为了识别病历中的医学专业词汇，本发明中从国家食品药品监督管理总局官网爬取了药品名称，并提取了ICD-10疾病编码中所有中文疾病名称，利用药品名称和疾病名称扩展了分词词库；为了过滤病历中大量出现的否定短语，如“未闻及湿罗音”、“否定肝炎病史”等，本发明中根据病历中常见的否定性词语，构建了否定词列表。

在本发明中，为了更好地对病人病历进行特征选择，根据病人电子病历的三大特点，利用特征在当前疾病i中的分布情况及在其他疾病中的分布情况，计算特征对于i的代表度，并按该值的大小为i进行特征选择。做出以下符号假设：共有N类疾病，分别为X₁、X₂…、X_N，X_i中共有R_i位病人，R_i位病人的病历中所有单词出现次数之和为W_i，对于X_i中的某个单词w，X_i中w的出现次数为w_i，Xi下的病人的病历中包含词w的病人数量为r_i，则w对于X_i的代表度计算公式如下：

rep_w为单词w对于X_i的代表度，等式右边第一项中的W_i/w_i为w在Xi中的TF值的倒数，传统的TF值衡量的是单词在当前文档或类别下出现的次数，该值越大代表单词出现次数越大，根据病历的第一个特点，即关键症状词的重复次数低，故用TF的倒数值来衡量w在X_i中的重复次数，该值越大代表特征重复次数越低，代表度也就越大，由于W_i大于w_i，为了保证计算结果在0～1之间，需对W_i/w_i取对数；第二项r_i/R_i表示在X_i中病历包含w的病人数量占X_i中总病人数量的比例，该值越大表示X_i中越多的病人病历中包含w，根据病历的第二个特点，即患同类疾病的病人病历中包含的关键症状词重叠度很高，X_i中越多的病人病历中出现w，表示w对X_i的代表度越大；第三项表示w在除X_i之外的其他疾病中的重复次数的乘积，sim_ij表示X_i和X_j的相似度，k表示预先设置的阈值。根据病历的第三个特点，关联性较高的疾病间的关键症状词具有相似性，关联性很低的疾病间的关键症状词具有排斥性，当sim_ij大于k时，认为X_i和X_j具有较高关联性，故X_j中病历包含单词w的病历数量应该也较大，所以X_j中病历包含w的病人数量用r_j/R_j表示，而当sim_ij小于时，认为X_i和X_j关联性很低，故X_j中病历包含w的病历数量应该很小，所以X_j中病历包含w的病人数量用log R_j/r_j表示。

利用上述公式计算出X_i中的每个单词对于X_i的代表度，之后将单词按代表度大小从大到小排序，选出前n个单词作为X_i的特征，其他的N-1类疾病可以按照同样的方式进行特征选择。因为本发明是基于单词在同类疾病下的分布情况和异类疾病下的分布情况进行特征选择，所以我们为本发明命名：基于单词的类内分布与类间分布的电子病历特征选择方法。

本发明的优点在于通过对中文电子病历的分析，总结了病历文本的特点，根据关键症状词在疾病内的分布情况及疾病间的分布情况计算单词对于不同疾病的代表度，且在考虑疾病间分布情况时，分析了疾病与疾病间的关联性对于特征选择的影响，在特征选择时保证关联性高的疾病间的特征尽量相似，关联性低的疾病间的特征尽量排斥。这是本发明的优点和创新点。

附图说明

图1是本发明的流程图；

图2是本发明所使用的疾病类型和训练集、测试集大小；

图3是本发明中的特征选择方法得到的不同疾病的部分关键症状词；

图4是使用本发明中的特征选择方法得到的特征，在二分类时取得的准确率和漏报率；

图5是使用本发明中的特征选择方法得到的特征，在三分类时取得的准确率和漏报率。

具体实施方式

以下结合附图对本发明做进一步详细说明。

图1是本发明的详细流程图。本发明中使用的电子病历是来自于湖南省某医院的真实病人病历，病历内容主要包括病人从入院到出院期间的一系列记录，如主治医师查房等；在对病历预处理时，对病历进行文本扫描，基于本发明中建立的否定词列表，将病历中类似“未闻及湿罗音”的否定短语删除，之后使用基于中科院ICTCLAS分词算法开发的Java开源分词工具Ansj对病历进行中文分词，为提高分词效果，利用Ansj的词典加载功能将本发明中根据国家食品药品监督局的药品信息和ICD-10的疾病信息构建的词典导入工具中；为验证本发明中提出特征选择方法的有效性，利用本发明的特征选择方法对分词结果进行特征选择，然后利用SVM分类算法对特征选择后的结果进行训练，构建分类模型，并用测试集对分类模型进行测试，从分类结果的准确率和漏报率分析特征选择方法的有效性。

图2是本发明中使用的疾病类型和训练集、测试集大小。本发明中共分析了三种疾病：临床脓毒血症、主要表浅切口感染及泌尿道感染。为保证训练集大小对最终分类效果的影响，每种疾病选取了大概250位病人进行训练。

图3是本发明中的特征选择方法得到的三种疾病的前8种特征。对于临床脓毒血症，前8种特征中包括脓毒症、感染性休克、败血症等词；对于主要表浅切口感染，前8种特征中包括伤口感染、伤口红肿、切口感染等词；对于泌尿道感染，前8种特征中包括尿路感染、尿痛、尿频、尿急等词。通过查阅相关医学文献，发现这些特征都能较好地代表对应的疾病。

图4是使用本发明中的特征选择方法得到的特征，在二分类时取得的准确率和漏报率。从三种疾病依次选出两种疾病进行二分类，依次统计每次二分类的准确率和漏报率。从结果可以看出，当二分类目标中包括临床脓毒血症时，临床脓毒血症的准确率和漏报率均比其他两类好，说明使用本发明的特征选择方法选出的临床脓毒血症的特征十分具有代表性。从三次二分类的结果可以看出，准确率均能维持在80％以上，漏报率维持在20％以下，结果都比较令人满意。

图5是使用本发明中的特征选择方法得到的特征，在三分类时取得的准确率和漏报率。三分类时，根据BR-SVM思想，为每种疾病训练一个SVM分类器，训练时以对应疾病作为正类，其他疾病作为反类，测试时将待分类病人依次输入三个分类器并记录所有分为为正类的结果。从结果可以看出，三类疾病的准确率都在80％以上，漏报率都在20％以下，结果都比较令人满意。

Claims

1.基于单词的类内分布与类间分布的电子病历特征选择方法，利用症状词在疾病内的分布情况及疾病间的分布情况对病历文本进行特征选择，其特征在于，

其次，通过对中文电子病历的分析，总结病历文本中关键症状词分布的特点，即1)特征词重复次数低，关键的症状及体征信息不会多次出现；2)患同类疾病的病人病历中包含的关键症状词重叠度高；3)疾病间的关联性会影响疾病间关键症状的相似性；

在计算每个单词对于每种疾病的代表度时，共包括N类疾病，分别为，对于疾病

，为计算其中的每个单词对于

的代表度，需分别统计

中的病人数量，记为

，统计

位病人的病历中所有单词出现次数之和,记为

；对于

中的某个单词w，统计

下的病人的病历中包含词w的病人数量，记为

，统计除

外的其他N-1类疾病下的病历的中包含词w的病人数量，记为

，j＝1,2,3…,N，j≠i；

其中：单词对于每种疾病的代表度的计算公式如下：

其中，

表示单词w对于

的代表度，等式右边第一项中的

为w在

中的TF值的倒数；第二项

表示在

中病历包含w的病人数量占

中总病人数量的比例，该值越大表示

中越多的病人病历中包含w；第三项表示单词w在除

之外的其他疾病中的重复次数的乘积，

表示

和

的相似度，k表示预先设置的阈值。

2.根据权利要求1所述的基于单词的类内分布与类间分布的电子病历特征选择方法，其特征在于，为了分析疾病关联性对于特征选择的影响，需要统计不同疾病间的关联度，为了判断两种疾病间是否相关，计算两种疾病在训练集的病人中的共现度，即两种疾病在病人中共同出现的次数，将共现度与预先设置的阈值k进行比较，若共现度大于k，则认为这两个疾病之间存在关联，若共现度小于k，则认为这两个疾病之间不存在关联。