CN112133390A - 一种基于电子病历的肝病认知系统 - Google Patents

一种基于电子病历的肝病认知系统 Download PDF

Info

Publication number
CN112133390A
CN112133390A CN202010981672.0A CN202010981672A CN112133390A CN 112133390 A CN112133390 A CN 112133390A CN 202010981672 A CN202010981672 A CN 202010981672A CN 112133390 A CN112133390 A CN 112133390A
Authority
CN
China
Prior art keywords
liver disease
data
medical record
characteristic information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010981672.0A
Other languages
English (en)
Other versions
CN112133390B (zh
Inventor
杜登斌
李宗博
杜小军
杜乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuzheng Intelligent Technology Beijing Co ltd
Original Assignee
Wuzheng Intelligent Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuzheng Intelligent Technology Beijing Co ltd filed Critical Wuzheng Intelligent Technology Beijing Co ltd
Priority to CN202010981672.0A priority Critical patent/CN112133390B/zh
Publication of CN112133390A publication Critical patent/CN112133390A/zh
Application granted granted Critical
Publication of CN112133390B publication Critical patent/CN112133390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明提出了一种基于电子病历的肝病认知系统。包括:预处理模块,获取历史病历数据,提取肝病数据信息,对肝病数据信息进行预处理,获取预处理后的肝病数据信息作为待划分数据;特征划分模块,用于通过ICTCLAS分词工具从待划分数据中划分出肝病描述特征信息,并生成对应的肝病描述特征信息数据集;筛选模块,用于通过IV值分析方法对肝病描述特征信息数据集进行特征筛选,并生成对应特征表格,将该特征表格作为诊断系统模型;预测认知模块,用于获取待诊断肝病描述特征信息,利用诊断系统模型对待诊断肝病描述特征信息进行诊断认知。本发明通过IV值分析法来剔除肝病描述特征信息数据集中的冗余特征,提高特征分析的准确度,提高整个认知系统的稳定性。

Description

一种基于电子病历的肝病认知系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于电子病历的肝病认知系统。
背景技术
肝病是一种具有危害性大、流行性广泛、治愈率低、死亡率高等特点的传染病。常见的肝病有肝炎、肝硬化、肝脓肿、脂肪性肝病、酒精性肝病、原发性肝癌等。
现有的肝病认知技术就是通过给定肝病患者的数据信息,然后通过数据分析技术对肝病患者的数据信息进行分析,得到肝病多项特征,然后通过分析方法对肝病多项特征进行分析,根据分析结果对肝病进行认知,但是由于只能从病历中获取患者的数据信息,所以数据信息样本量小,而且特征较多,从而会导致冗余特征较多,影响分析的精确度,降低认知结果的准确性。所以,亟需一种基于电子病历的肝病认知系统。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
有鉴于此,本发明提出了一种基于电子病历的肝病认知系统,旨在解决现有技术无法实现通过IV值分析法剔除患者数据信息中的冗余特征,提高特征分析的准确度以及稳定性的技术问题。
本发明的技术方案是这样实现的:
一方面,本发明提供了一种基于电子病历的肝病认知系统,所述基于电子病历的肝病认知系统包括:
预处理模块,用于获取历史病历数据,从该历史病历数据中提取肝病数据信息,对所述肝病数据信息进行预处理,获取预处理后的肝病数据信息作为待划分数据;
特征划分模块,用于通过ICTCLAS分词工具从待划分数据中划分出肝病描述特征信息,根据肝病描述特征信息生成对应的肝病描述特征信息数据集;
筛选模块,用于通过IV值分析方法对肝病描述特征信息数据集进行特征筛选,筛选出最终肝病描述特征信息,根据该最终肝病描述特征信息生成对应特征表格,并将该特征表格作为诊断系统模型;
预测认知模块,用于获取待诊断肝病病历数据,从该待诊断肝病病历数据中提取待诊断肝病描述特征信息,利用诊断系统模型对待诊断肝病描述特征信息进行诊断认知。
在以上技术方案的基础上,优选的,预处理模块包括数据整理模块,用于获取历史病历数据,从该历史病历数据中提取肝病数据信息,设定预处理规则,所述预处理规则包括:数据完整性检测、数据填充以及数据删除,根据该预处理规则对肝病数据信息进行预处理,获取预处理后的肝病数据信息作为待划分数据,并对待划分数据进行肝病类别标注,所述肝病类别包括:肝炎、肝硬化、肝脓肿以及肝损伤。
在以上技术方案的基础上,优选的,特征划分模块包括数据扩充模块,用于通过ICTCLAS分词工具从待划分数据中划分出肝病描述特征信息,并根据该特征信息获取相似肝病病历数据,从相似肝病病历数据中提取对应的相似肝病描述特征信息以及对应的肝病类别标注,将肝病描述特征信息以及相似肝病描述特征信息组合作为待聚类肝病描述特征信息数据集。
在以上技术方案的基础上,优选的,特征划分模块包括聚类划分模块,用于通过K-means聚类算法按照不同肝病特征信息对待聚类肝病描述特征信息数据集进行聚类划分,获取至少一个肝病描述特征信息数据集。
在以上技术方案的基础上,优选的,筛选模块包括模型构建模块,用于通过IV值分析方法对肝病描述特征信息数据集进行特征筛选,获取筛选后的肝病描述特征信息作为最终肝病描述特征信息,根据该最终肝病描述特征信息生成对应特征表格,并将该特征表格作为诊断系统模型。
在以上技术方案的基础上,优选的,筛选模块包括IV值分析公式单元,包括:
Figure BDA0002687753280000031
其中,n代表病历样本在该特征上分成的组数,pni表示该病历样本第i组数据中白样本占所有白样本的比例,pyi表示该病历样本第i组数据中黑样本占所有黑样本的比例。
在以上技术方案的基础上,优选的,预测认知模块包括报告生成模块,用于获取待诊断肝病病历数据,从该待诊断肝病病历数据中提取待诊断肝病描述特征信息,利用诊断系统模型中的特征表格对待诊断肝病描述特征信息进行匹配,查找匹配成功的最终肝病描述特征信息对应的肝病类别,并生成对应的认知报告。
更进一步优选的,所述基于电子病历的肝病认知设备包括:
预处理单元,用于获取历史病历数据,从该历史病历数据中提取肝病数据信息,对所述肝病数据信息进行预处理,获取预处理后的肝病数据信息作为待划分数据;
特征划分单元,用于通过ICTCLAS分词工具从待划分数据中划分出肝病描述特征信息,根据肝病描述特征信息生成对应的肝病描述特征信息数据集;
筛选单元,用于通过IV值分析方法对肝病描述特征信息数据集进行特征筛选,筛选出最终肝病描述特征信息,根据该最终肝病描述特征信息生成对应特征表格,并将该特征表格作为诊断系统模型;
预测认知单元,用于获取待诊断肝病病历数据,从该待诊断肝病病历数据中提取待诊断肝病描述特征信息,利用诊断系统模型对待诊断肝病描述特征信息进行诊断认知。
本发明的一种基于电子病历的肝病认知系统相对于现有技术具有以下有益效果:
(1)通过ICTCLAS分词工具从待划分数据中划分出肝病描述特征信息,获取与肝病相关的关联症状,能够提高系统的认知准确度以及稳定性;
(2)通过IV值分析方法对肝病描述特征信息数据集进行特征筛选,在样本量小、特征较多的情况下,剔除冗余特征、正确的选择特征会对模型整体的准确性和稳定性有着质的提升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明基于电子病历的肝病认知系统第一实施例的结构框图;
图2为本发明基于电子病历的肝病认知系统的第二实施例结构框图;
图3为本发明基于电子病历的肝病认知系统的第三实施例结构框图;
图4为本发明基于电子病历的肝病认知系统的第四实施例结构框图;
图5为本发明基于电子病历的肝病认知系统的第五实施例结构框图;
图6为本发明基于电子病历的肝病认知设备结构框图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
如图1所示,图1为本发明基于电子病历的肝病认知系统第一实施例的结构框图。其中,所述基于电子病历的肝病认知系统包括:预处理模块10、特征划分模块20、筛选模块30和预测认知模块40。
预处理模块10,用于获取历史病历数据,从该历史病历数据中提取肝病数据信息,对所述肝病数据信息进行预处理,获取预处理后的肝病数据信息作为待划分数据;
特征划分模块20,用于通过ICTCLAS分词工具从待划分数据中划分出肝病描述特征信息,根据肝病描述特征信息生成对应的肝病描述特征信息数据集;
筛选模块30,用于通过IV值分析方法对肝病描述特征信息数据集进行特征筛选,筛选出最终肝病描述特征信息,根据该最终肝病描述特征信息生成对应特征表格,并将该特征表格作为诊断系统模型;
预测认知模块40,用于获取待诊断肝病病历数据,从该待诊断肝病病历数据中提取待诊断肝病描述特征信息,利用诊断系统模型对待诊断肝病描述特征信息进行诊断认知。
应当理解的是,本实施例还提出另一种基于电子病历的肝病认知系统:通过数据预处理对电子病历中肝病基本数据信息进行处理(数据转换、数据填充、数据删除等),标注肝病类别,获取维度数相同、信息完整的病历集合;使用ICTCLAS作为分词工具对电子病历中医生诊断结论进行症状分词处理,扩展病历样本维度,获取待训练病历数据集;通过K-means聚类算法对肝病病症相似的样本数据进行聚类,获取数据集的聚类分块;使用IV值分析法剔除冗余或不相关的特征进行特征筛选;然后利用AdaBoost算法构建肝病诊断系统模型;最后通过模型预测待识别数据所属肝病类别。
进一步地,如图2所示,基于上述各实施例提出本发明基于电子病历的肝病认知系统的第二实施例结构框图,在本实施例中,预处理模块10还包括:
数据整理模块101,用于获取历史病历数据,从该历史病历数据中提取肝病数据信息,设定预处理规则,所述预处理规则包括:数据完整性检测、数据填充以及数据删除,根据该预处理规则对肝病数据信息进行预处理,获取预处理后的肝病数据信息作为待划分数据,并对待划分数据进行肝病类别标注,所述肝病类别包括:肝炎、肝硬化、肝脓肿以及肝损伤。
应当理解的是,本实施例利用预处理模块处理肝病基本数据信息和标注肝病类别。在处理之前,系统会获取历史病历数据,从该历史病历数据中提取肝病数据信息,设定预处理规则,根据该预处理规则对肝病数据信息进行预处理,获取预处理后的肝病数据信息作为待划分数据,并对待划分数据进行肝病类别标注。
所谓数据预处理即对不规整、不统一的数据进行类型变换,数据填充、数据删除等操作。数据转换包括二值型数据转换(例如病历中性别字段只有“男”或“女”,即可将性别分别表示“0”或“1”)、多值型数据转换(例如病历中年龄字段范围处于“10-20”、“20-30”、“30-40”等,即可转换为“1”、“2”、“3”、“4”等)。
数据填充即对病历中检查项目(活化部分凝血活、因子VIII/因子IX促凝活性、游离肝素时间、纤维蛋白原测定、纤溶酶原测定、复钙交叉试验(CRT,PRT)、D二聚体(DD)、血清甘氨酰脯氨、比格凝血活酶生、凝血因子活性测、凝血酶原消耗试、凝血因子ⅩⅢ定、纤溶酶原活性(PLG,A)、肝素-抗凝血酶、血清铝、血液半乳糖、半乳糖耐量试验、血清已糖、血清总脂、血清游离胆固醇、血清胆固醇酯、血清总蛋白、血清白蛋白、苹果酸脱氢酶、中性粒细胞杀菌、血小板凝集功能、部分凝血活酶时、部分凝血活酶活、凝血因子活性测、尿谷草转移酶、红细胞变形性等)相关空值字段进行均值填充,用以提高模型训练的精准性。
肝病类别标注为单一患病,即患者病历标签只对应肝病类别集合(肝炎、肝硬化、肝脓肿、脂肪性肝病、酒精性肝病、原发性肝癌、肝囊肿、肝损伤、肝外胆管损伤、肝纤维化、肝腺瘤、肝性血卟啉病综合征、肝血管瘤、肝炎后综合征、肝炎双重感染、肝硬化男性性功能减弱综合征、肝源性肾损害、胆囊-结肠肝曲粘连综合征、胆汁性肝硬化、丁型病毒性肝炎、非寄生虫性肝囊肿等)中的一种。
进一步地,如图3所示,基于上述各实施例提出本发明基于电子病历的肝病认知系统的第三实施例结构框图,在本实施例中,特征划分模块20还包括:
数据扩充模块201,用于通过ICTCLAS分词工具从待划分数据中划分出肝病描述特征信息,并根据该特征信息获取相似肝病病历数据,从相似肝病病历数据中提取对应的相似肝病描述特征信息以及对应的肝病类别标注,将肝病描述特征信息以及相似肝病描述特征信息组合作为待聚类肝病描述特征信息数据集。
聚类划分模块202,用于通过K-means聚类算法按照不同肝病特征信息对待聚类肝病描述特征信息数据集进行聚类划分,获取至少一个肝病描述特征信息数据集。
应当理解的是,本实施例还通过ICTCLAS分词工具从待划分数据中划分出肝病描述特征信息,并根据该特征信息获取相似肝病病历数据,从相似肝病病历数据中提取对应的相似肝病描述特征信息以及对应的肝病类别标注,扩展患者病历样本维度,将肝病描述特征信息以及相似肝病描述特征信息组合作为待聚类肝病描述特征信息数据集。
应当理解的是,肝病因起病隐匿,病程时间长,病因复杂等原因,对临床诊断预测带来巨大挑战。运用机器学习进行高效准确的医疗决策,往往需要与肝病相关的更多样本特征。病历中诊断结论字段记录了对应肝病类别的详细临床表现,是肝病病症的最重要体现。
应当理解的是,本实施例中通过使用ICTCLAS分词工具将诊断结论字段分词处理,获取与所患肝病相关的关联症状特点,是提高模型预测准确性的重要途径。比如诊断结论字段为“患者面容发黄、食欲减退、有肝肿大、伴有发热、出现黄疸、全身乏力等症状、有关节疼痛等肝外表现、ALT,AST升高、胆红素偏高等”,分词处理后可得到“面容发黄”、“食欲减退”、“肝肿大”、“发热”、“黄疸”、“全身乏力”、“关节疼痛”、“ALT,AST升高”、“胆红素偏高”等重要特征。
应当理解的是,本实施例还会通过K-means聚类算法对相似肝病病例数据进行聚类分块。病历数据集中含有很多相相似的肝病病历样本(如急性丙肝、慢性丙肝等),为便于模型训练并提高模型的泛化能力,特地按相似病历样本将数据集进行聚类分块划分。聚类的原理是以样本数据对象间的距离作为聚类标准,即样本间距离越小则表示两样本具有较高的相似性,并会朝向一个中心点聚集;而距离越大则表示相似性较低,并远离该中心点。重复上述过程,直到相应标准测试函数收敛为止。
应当理解的是,K-means算法作为一种经典的聚类算法,有着广泛应用,给定聚类K和数据集T={t1,t2,…,tn},ti=(xi,yi),其基本思想如下:
随机选择K作为初始质心点;对于所剩下的对象,则根据它们与这些聚类中心的距离,分别将其分配给与其最相似的聚类;计算每个所获新聚类的聚类中心;如果满足标准,则停止;否则跳转到步骤2,直到满足停止条件。停止条件设定如下:没有需要分配的任务到不同的簇时,质心不再发生变化,或均方误差值E下降幅度很小,计算公式
Figure BDA0002687753280000081
其中,ck是第k个簇,mk是簇ck的质心,d(x,mk)是x和质心mk之间的距离,距离公式为:
Figure BDA0002687753280000082
本实施例中,使用K-means算法主要为了分割数据集,根据某个特征做聚类分成若干的小数据集,提高模型精准度。具体到本步骤,选定“消化道出血”症状作为聚类特征,由于数据跨越度较大,聚类区分效果明显。常见肝病类别通常计为15种,此处K值最终选定为15,并找到15个聚类中心点,通过聚类算法得到15个子块数据集。
进一步地,如图4所示,基于上述各实施例提出本发明基于电子病历的肝病认知系统的第四实施例结构框图,在本实施例中,筛选模块30包括:
模型构建模块301,用于通过IV值分析方法对肝病描述特征信息数据集进行特征筛选,获取筛选后的肝病描述特征信息作为最终肝病描述特征信息,根据该最终肝病描述特征信息生成对应特征表格,并将该特征表格作为诊断系统模型。
IV值分析公式单元302,包括:
Figure BDA0002687753280000083
其中,n代表病历样本在该特征上分成的组数,pni表示该病历样本第i组数据中白样本占所有白样本的比例,pyi表示该病历样本第i组数据中黑样本占所有黑样本的比例。
应当理解的是,本实施例中,系统还会通过IV值分析方法对肝病描述特征信息数据集进行特征筛选,获取筛选后的肝病描述特征信息作为最终肝病描述特征信息,根据该最终肝病描述特征信息生成对应特征表格,并将该特征表格作为诊断系统模型。
即对数据集中肝病样本数据进行特征筛选。特征筛选对后期的建模预测起着关键性的作用,尤其是在样本量小、特征较多的情况下,剔除冗余特征、正确的选择特征会对模型整体的准确性和稳定性有着质的提升。IV值分析是常见的特征值筛选方法,衡量了某个特征对目标的影响程度。其基本思想是根据该特征所命中黑白样本的比率与总黑白样本的比率,来对比和计算其关联程度,计算公式如下:
Figure BDA0002687753280000091
其中,n代表病历样本在该特征上分成的组数,pni表示该病历样本第i组数据中白样本占所有白样本的比例,pyi表示该病历样本第i组数据中黑样本占所有黑样本的比例。
应当理解的是,对肝病描述特征信息数据集进行上述IV值分析法得到筛选后的肝病样本特征数据(最终选定出20个对肝病有较大影响的特征作为后续模型的输入变量,包括性别、年龄、体重、黄疸、蜘蛛痣、酒精性弱视、乏力、关节疼痛、谷丙转氨酶、谷草转氨酶、碱性磷酸酶、谷氨酰转肽酶、总蛋白、总胆红素、间接胆红素、直接胆红素、甲胎蛋白等),有利于降低噪声信息的干扰,加快模型训练时的收敛速度以及减少时间开销。
应当理解的是,之后系统会利用AdaBoost算法通过对特征筛选后的聚类分块数据集进行训练构建肝病诊断系统模型。作为一种流行的集成学习算法,AdaBoost算法完全基于多种基本分类器进行最终的决策,可以有效提高模型的鲁棒性。该算法是通过每个病历样本对应的权重来实现,给定训练样本集D={(x1,y1),(x2,y2)...(xn,yn),y∈{1,2,3,4,5,6,...}},其中y标签数值对应肝病类别集合中某种肝病。初始时每个病历样本所对应的权重相等,即
Figure BDA0002687753280000101
并按照给定分块病历样板数据集进行训练,训练出一弱分类器h1。对于h1错分的病历样本适当增加该权重,未错分的样本适当降低其权重,以此更新训练集样本的分布。在新的样本分布下,再次对基本学习分类器进行训练,得到h2。反复迭代T次,得到T个弱分类器,最终的集成分类器是每个基本分类器的加权投票,具体到本应用,选取SVM作为基本分类器。算法具体流程如下:
(1)给定训练样本集,每一个训练样本集有初始化权重
Figure BDA0002687753280000102
(2)计算基本分类器的训练偏差
Figure BDA0002687753280000103
(3)循环迭代T次,并对每个训练样本的权重进行更新,
Figure BDA0002687753280000104
其中Zt是标准化因子,
Figure BDA0002687753280000105
ht是基本分类器;
(4)最后得到的强分类器H是可通过多个带权重的基本分类器所表示,即
Figure BDA0002687753280000106
应当理解的是,在获得模型之后,系统会利用网格搜索法对基本分类器SVM进行参数调优,进行模型优化。关于SVM参数的优化选取,一般通过大量的实验比较来确定参数,这种方法不仅浪费时间,而且不易寻得最优参数。网格搜索法是将待搜索参数在一定的空间范围中划分成网格,通过遍历网格中所有的点来寻找最优参数。这种方法在寻优区间足够大且步距足够小的情况下可以找出全局最优解。寻优过程如下:设定网格搜索变量(C,g)的范围及搜索步距。其中C的初始设置为[2-9,26],g的初始设置为[2-9,23],初始步距为(0.5,2)。采用K-CV交叉验证方式对各训练集进行训练测试,其中K值设定为5,得到使SVM分类准确率最高的局部最优参数即C=1、g=0.00092。最后根据得到的最优局部参数,选择临近搜索区间进行二次寻优,步距与上述步距相等。上述过程具有不易过早收敛且易于快速定位参数空间等特点,可高效实现参数调优。
进一步地,如图5所示,基于上述各实施例提出本发明基于电子病历的肝病认知系统的第五实施例结构框图,在本实施例中,预测认知模块40包括:
报告生成模块401,用于获取待诊断肝病病历数据,从该待诊断肝病病历数据中提取待诊断肝病描述特征信息,利用诊断系统模型中的特征表格对待诊断肝病描述特征信息进行匹配,查找匹配成功的最终肝病描述特征信息对应的肝病类别,并生成对应的认知报告。
应当理解的是,最后通过模型预测单元对待测试的肝病病历样本数据进行预测,推导可能的肝病类别。待测试肝病病历数据经上述实施例步骤处理后,得到适合模型输入的肝病描述特征信息。该数据经上述所训练的预测模型即可得到预测类别,即利用诊断系统模型中的特征表格对待诊断肝病描述特征信息进行匹配,查找匹配成功的最终肝病描述特征信息对应的肝病类别,并生成对应的认知报告。
这样,基于电子病历的肝病诊断系统可对非结构化的肝病病历数据进行数据预处理获得格式规整、标准统一的基本数据信息,经特征筛选等操作,构建优化模型并提供预测帮助。随着后续病历数据的积累丰富,诊断模型的性能会逐渐提高,该诊断系统会在疾病风险预测与疾病智能诊断等方面发挥重要的辅助作用,可极大的提高诊断准确度,最大限度地降低漏诊和误诊风险,并减少了不必要的医疗过程。
需要说明的是,以上仅为举例说明,并不对本申请的技术方案构成任何限定。
通过上述描述不难发现,本实施例提出了一种基于电子病历的肝病认知系统,包括:预处理模块,用于获取历史病历数据,从该历史病历数据中提取肝病数据信息,对所述肝病数据信息进行预处理,获取预处理后的肝病数据信息作为待划分数据;特征划分模块,用于通过ICTCLAS分词工具从待划分数据中划分出肝病描述特征信息,根据肝病描述特征信息生成对应的肝病描述特征信息数据集;筛选模块,用于通过IV值分析方法对肝病描述特征信息数据集进行特征筛选,筛选出最终肝病描述特征信息,根据该最终肝病描述特征信息生成对应特征表格,并将该特征表格作为诊断系统模型;预测认知模块,用于获取待诊断肝病病历数据,从该待诊断肝病病历数据中提取待诊断肝病描述特征信息,利用诊断系统模型对待诊断肝病描述特征信息进行诊断认知。本实施例通过IV值分析法来剔除肝病描述特征信息数据集中的冗余特征,提高特征分析的准确度,提高整个认知系统的稳定性。
此外,本发明实施例还提出一种基于电子病历的肝病认知设备。如图6所示,该基于电子病历的肝病认知设备包括:预处理单元10、特征划分单元20、筛选单元30以及预测认知单元40。
预处理单元10,用于获取历史病历数据,从该历史病历数据中提取肝病数据信息,对所述肝病数据信息进行预处理,获取预处理后的肝病数据信息作为待划分数据;
特征划分单元20,用于通过ICTCLAS分词工具从待划分数据中划分出肝病描述特征信息,根据肝病描述特征信息生成对应的肝病描述特征信息数据集;
筛选单元30,用于通过IV值分析方法对肝病描述特征信息数据集进行特征筛选,筛选出最终肝病描述特征信息,根据该最终肝病描述特征信息生成对应特征表格,并将该特征表格作为诊断系统模型;
预测认知单元40,用于获取待诊断肝病病历数据,从该待诊断肝病病历数据中提取待诊断肝病描述特征信息,利用诊断系统模型对待诊断肝病描述特征信息进行诊断认知。
此外,需要说明的是,以上所描述的装置实施例仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的基于电子病历的肝病认知系统,此处不再赘述。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于电子病历的肝病认知系统,其特征在于,所述基于电子病历的肝病认知系统包括:
预处理模块,用于获取历史病历数据,从该历史病历数据中提取肝病数据信息,对所述肝病数据信息进行预处理,获取预处理后的肝病数据信息作为待划分数据;
特征划分模块,用于通过ICTCLAS分词工具从待划分数据中划分出肝病描述特征信息,根据肝病描述特征信息生成对应的肝病描述特征信息数据集;
筛选模块,用于通过IV值分析方法对肝病描述特征信息数据集进行特征筛选,筛选出最终肝病描述特征信息,根据该最终肝病描述特征信息生成对应特征表格,并将该特征表格作为诊断系统模型;
预测认知模块,用于获取待诊断肝病病历数据,从该待诊断肝病病历数据中提取待诊断肝病描述特征信息,利用诊断系统模型对待诊断肝病描述特征信息进行诊断认知。
2.如权利要求1所述的基于电子病历的肝病认知系统,其特征在于:预处理模块包括数据整理模块,用于获取历史病历数据,从该历史病历数据中提取肝病数据信息,设定预处理规则,所述预处理规则包括:数据完整性检测、数据填充以及数据删除,根据该预处理规则对肝病数据信息进行预处理,获取预处理后的肝病数据信息作为待划分数据,并对待划分数据进行肝病类别标注,所述肝病类别包括:肝炎、肝硬化、肝脓肿以及肝损伤。
3.如权利要求2所述的基于电子病历的肝病认知系统,其特征在于:特征划分模块包括数据扩充模块,用于通过ICTCLAS分词工具从待划分数据中划分出肝病描述特征信息,并根据该特征信息获取相似肝病病历数据,从相似肝病病历数据中提取对应的相似肝病描述特征信息以及对应的肝病类别标注,将肝病描述特征信息以及相似肝病描述特征信息组合作为待聚类肝病描述特征信息数据集。
4.如权利要求3所述的基于电子病历的肝病认知系统,其特征在于:特征划分模块包括聚类划分模块,用于通过K-means聚类算法按照不同肝病特征信息对待聚类肝病描述特征信息数据集进行聚类划分,获取至少一个肝病描述特征信息数据集。
5.如权利要求4所述的基于电子病历的肝病认知系统,其特征在于:筛选模块包括模型构建模块,用于通过IV值分析方法对肝病描述特征信息数据集进行特征筛选,获取筛选后的肝病描述特征信息作为最终肝病描述特征信息,根据该最终肝病描述特征信息生成对应特征表格,并将该特征表格作为诊断系统模型。
6.如权利要求5所述的基于电子病历的肝病认知系统,其特征在于:筛选模块包括IV值分析公式单元,包括:
Figure FDA0002687753270000021
其中,n代表病历样本在该特征上分成的组数,pni表示该病历样本第i组数据中白样本占所有白样本的比例,pyi表示该病历样本第i组数据中黑样本占所有黑样本的比例。
7.如权利要求6所述的基于电子病历的肝病认知系统,其特征在于:预测认知模块包括报告生成模块,用于获取待诊断肝病病历数据,从该待诊断肝病病历数据中提取待诊断肝病描述特征信息,利用诊断系统模型中的特征表格对待诊断肝病描述特征信息进行匹配,查找匹配成功的最终肝病描述特征信息对应的肝病类别,并生成对应的认知报告。
8.一种基于电子病历的肝病认知设备,其特征在于,所述基于电子病历的肝病认知设备包括:
预处理单元,用于获取历史病历数据,从该历史病历数据中提取肝病数据信息,对所述肝病数据信息进行预处理,获取预处理后的肝病数据信息作为待划分数据;
特征划分单元,用于通过ICTCLAS分词工具从待划分数据中划分出肝病描述特征信息,根据肝病描述特征信息生成对应的肝病描述特征信息数据集;
筛选单元,用于通过IV值分析方法对肝病描述特征信息数据集进行特征筛选,筛选出最终肝病描述特征信息,根据该最终肝病描述特征信息生成对应特征表格,并将该特征表格作为诊断系统模型;
预测认知单元,用于获取待诊断肝病病历数据,从该待诊断肝病病历数据中提取待诊断肝病描述特征信息,利用诊断系统模型对待诊断肝病描述特征信息进行诊断认知。
CN202010981672.0A 2020-09-17 2020-09-17 一种基于电子病历的肝病认知系统 Active CN112133390B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010981672.0A CN112133390B (zh) 2020-09-17 2020-09-17 一种基于电子病历的肝病认知系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010981672.0A CN112133390B (zh) 2020-09-17 2020-09-17 一种基于电子病历的肝病认知系统

Publications (2)

Publication Number Publication Date
CN112133390A true CN112133390A (zh) 2020-12-25
CN112133390B CN112133390B (zh) 2024-03-22

Family

ID=73846173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010981672.0A Active CN112133390B (zh) 2020-09-17 2020-09-17 一种基于电子病历的肝病认知系统

Country Status (1)

Country Link
CN (1) CN112133390B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112786207A (zh) * 2021-01-28 2021-05-11 联仁健康医疗大数据科技股份有限公司 数据筛选模型建立及数据筛选方法、装置、设备和介质
CN114429407A (zh) * 2021-12-21 2022-05-03 华能澜沧江水电股份有限公司 辅助服务考核数据处理方法及装置

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004295485A (ja) * 2003-03-27 2004-10-21 Sanyo Electric Co Ltd 診療支援装置、診療支援方法、診療支援プログラム及び電子カルテ
CN105468900A (zh) * 2015-11-20 2016-04-06 邹远强 一种基于知识库的智能病历录入平台
CN106295148A (zh) * 2016-08-01 2017-01-04 苏翀 基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其系统
CN106934223A (zh) * 2017-02-28 2017-07-07 思派(北京)网络科技有限公司 一种基于大数据的血液病智能分类系统及方法
KR101884609B1 (ko) * 2017-05-08 2018-08-02 (주)헬스허브 모듈화된 강화학습을 통한 질병 진단 시스템
CN108831559A (zh) * 2018-06-20 2018-11-16 清华大学 一种中文电子病历文本分析方法与系统
CN108932976A (zh) * 2018-06-11 2018-12-04 西安医学院 一种非酒精性脂肪性肝病无创性诊断程序
CN110070128A (zh) * 2019-04-22 2019-07-30 深圳市绘云生物科技有限公司 一种基于随机森林模型的慢性肝病风险评估系统
CN110097975A (zh) * 2019-04-28 2019-08-06 湖南省蓝蜻蜓网络科技有限公司 一种基于多模型融合的医院感染智能诊断方法及系统
CN110742595A (zh) * 2019-11-12 2020-02-04 中润普达(十堰)大数据中心有限公司 基于认知云系统的异常血压监护系统
CN110993098A (zh) * 2019-12-06 2020-04-10 高春芳 一种新型血液多指标肝癌诊断模型(gap-talad)的建立和应用
CN111429985A (zh) * 2020-03-02 2020-07-17 北京嘉和海森健康科技有限公司 电子病历数据处理方法及系统
CN111429989A (zh) * 2020-04-21 2020-07-17 北京嘉和海森健康科技有限公司 一种生成诊前病历的方法及装置
CN111563891A (zh) * 2020-05-09 2020-08-21 吾征智能技术(北京)有限公司 基于颜色认知的疾病预测系统
CN111599463A (zh) * 2020-05-09 2020-08-28 吾征智能技术(北京)有限公司 基于声音认知模型的智能辅助诊断系统
CN111638282A (zh) * 2020-06-03 2020-09-08 西安交通大学 一种用于肝病快速筛查的便携式检测设备及检测方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004295485A (ja) * 2003-03-27 2004-10-21 Sanyo Electric Co Ltd 診療支援装置、診療支援方法、診療支援プログラム及び電子カルテ
CN105468900A (zh) * 2015-11-20 2016-04-06 邹远强 一种基于知识库的智能病历录入平台
CN106295148A (zh) * 2016-08-01 2017-01-04 苏翀 基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其系统
CN106934223A (zh) * 2017-02-28 2017-07-07 思派(北京)网络科技有限公司 一种基于大数据的血液病智能分类系统及方法
KR101884609B1 (ko) * 2017-05-08 2018-08-02 (주)헬스허브 모듈화된 강화학습을 통한 질병 진단 시스템
CN108932976A (zh) * 2018-06-11 2018-12-04 西安医学院 一种非酒精性脂肪性肝病无创性诊断程序
CN108831559A (zh) * 2018-06-20 2018-11-16 清华大学 一种中文电子病历文本分析方法与系统
CN110070128A (zh) * 2019-04-22 2019-07-30 深圳市绘云生物科技有限公司 一种基于随机森林模型的慢性肝病风险评估系统
CN110097975A (zh) * 2019-04-28 2019-08-06 湖南省蓝蜻蜓网络科技有限公司 一种基于多模型融合的医院感染智能诊断方法及系统
CN110742595A (zh) * 2019-11-12 2020-02-04 中润普达(十堰)大数据中心有限公司 基于认知云系统的异常血压监护系统
CN110993098A (zh) * 2019-12-06 2020-04-10 高春芳 一种新型血液多指标肝癌诊断模型(gap-talad)的建立和应用
CN111429985A (zh) * 2020-03-02 2020-07-17 北京嘉和海森健康科技有限公司 电子病历数据处理方法及系统
CN111429989A (zh) * 2020-04-21 2020-07-17 北京嘉和海森健康科技有限公司 一种生成诊前病历的方法及装置
CN111563891A (zh) * 2020-05-09 2020-08-21 吾征智能技术(北京)有限公司 基于颜色认知的疾病预测系统
CN111599463A (zh) * 2020-05-09 2020-08-28 吾征智能技术(北京)有限公司 基于声音认知模型的智能辅助诊断系统
CN111638282A (zh) * 2020-06-03 2020-09-08 西安交通大学 一种用于肝病快速筛查的便携式检测设备及检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIN YU JIN等: "Medical aided diagnosis using electronic medical records besed on LDA and word vector model", 4TH INTERNATIONAL CONFERENCE ON INFORMATION SCEINCE AND CONTROL ENGINEERING, pages 443 - 445 *
苗丰顺 等: "基于CatBoost 算法的糖尿病预测方法", 计算机系统应用, vol. 28, no. 9, pages 215 - 218 *
贺灏: "AdaBoost人脸检测算法的改进与实现", 信息科技辑, 16 March 2010 (2010-03-16), pages 138 - 550 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112786207A (zh) * 2021-01-28 2021-05-11 联仁健康医疗大数据科技股份有限公司 数据筛选模型建立及数据筛选方法、装置、设备和介质
CN114429407A (zh) * 2021-12-21 2022-05-03 华能澜沧江水电股份有限公司 辅助服务考核数据处理方法及装置

Also Published As

Publication number Publication date
CN112133390B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
He et al. An end-to-end steel surface defect detection approach via fusing multiple hierarchical features
CN102222178B (zh) 一种筛选和/或设计针对多靶标的药物的方法
CN110163258A (zh) 一种基于语义属性注意力重分配机制的零样本学习方法及系统
US20160070950A1 (en) Method and system for automatically assigning class labels to objects
Ayeldeen et al. Prediction of liver fibrosis stages by machine learning model: A decision tree approach
Li et al. Protein contact map prediction based on ResNet and DenseNet
CN111626336A (zh) 一种基于不平衡数据集的地铁故障数据分类方法
CN112133390A (zh) 一种基于电子病历的肝病认知系统
CN112035620B (zh) 医疗查询系统的问答管理方法、装置、设备及存储介质
CN110288028A (zh) 心电检测方法、系统、设备及计算机可读存储介质
Gupta et al. Deep metric learning for identification of mitotic patterns of HEp-2 cell images
CN111863135B (zh) 一种假阳性结构变异过滤方法、存储介质及计算设备
Prihandoko et al. City health prediction model using random forest classification method
Wu et al. The local maximum clustering method and its application in microarray gene expression data analysis
KR102359652B1 (ko) 클래스 연관 규칙을 이용한 질병 분류 시스템 및 방법
Tewolde et al. Particle swarm optimization for classification of breast cancer data using single and multisurface methods of data separation
CN115204475A (zh) 一种戒毒场所安全事件风险评估方法
Du et al. Bytecover3: Accurate Cover Song Identification On Short Queries
Can et al. Automated protein classification using consensus decision
Usha et al. Predicting Heart Disease Using Feature Selection Techniques Based on Data Driven Approach
CN114999566B (zh) 基于词向量表征和注意力机制的药物重定位方法及系统
CN116226629B (zh) 一种基于特征贡献的多模型特征选择方法及系统
CN115240775B (zh) 基于stacking集成学习策略的Cas蛋白预测方法
Aung et al. Automatic protein structure classification through structural fingerprinting
JP2890753B2 (ja) 特徴選択方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant