CN111403024A - 一种基于医疗数据来获得疾病判定模型的方法及装置 - Google Patents

一种基于医疗数据来获得疾病判定模型的方法及装置 Download PDF

Info

Publication number
CN111403024A
CN111403024A CN201910000850.4A CN201910000850A CN111403024A CN 111403024 A CN111403024 A CN 111403024A CN 201910000850 A CN201910000850 A CN 201910000850A CN 111403024 A CN111403024 A CN 111403024A
Authority
CN
China
Prior art keywords
sample set
patient
disease
data
physical examination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910000850.4A
Other languages
English (en)
Inventor
龙泉
郭潇宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yiyiyun Technology Co ltd
Original Assignee
Tianjin Happiness Life Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Happiness Life Technology Co ltd filed Critical Tianjin Happiness Life Technology Co ltd
Priority to CN201910000850.4A priority Critical patent/CN111403024A/zh
Publication of CN111403024A publication Critical patent/CN111403024A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于医疗数据来获得疾病判定模型的方法及装置,方法包括:根据患者的历史医疗数据来选择患者样本集;对患者样本集进行预处理,以获得代表患者样本集的初始特征集;对初始特征集进行特征选择,以获得经筛选后的筛后特征集;利用筛后特征集来训练逻辑回归模型,以获得训练后的逻辑回归模型作为疾病判定模型,疾病判定模型用于判定新患者是否患有特定疾病。通过本发明的技术方案,可实现基于患者的历史医疗数据得到能够用于评估指定对象是否患有特定疾病的疾病判定模型,即核保业务中可通过该疾病判定模型来评估待核保对象是否患有特定疾病,减少核保过程中的人工干预程度以提高核保业务的执行效率。

Description

一种基于医疗数据来获得疾病判定模型的方法及装置
技术领域
本发明涉及医疗数据处理领域,尤其涉及一种基于医疗数据来获得疾病判定模型的方法及装置。
背景技术
在检机构是对患者(例如体检对象)进行体检的机构,目前市场上有大量的体检机构会产生与患者相关的历史体检数据,这些历史体检数据会在一定程度上反映患者的身体状况(例如是否具有特定的疾病)。
医疗机构是对患者进行诊断和提供医疗服务(例如治疗疾病)的机构,目前公立医院和私立医院在对患者进行诊治(包括诊断和治疗)的过程中会产生大量的诊断历史数据,这些诊断历史数据会较清晰的反映患者的身体状况(例如是否具有特定的疾病,以及这些疾病的诊疗情况)。
目前,在实现核保业务的过程中,通常需要人工评估待核保对象是否患有特定疾病,以便用户决定是否对待核保对象进行核保或是否针对待核保对象设置其对应的核保条件。
不难看出,人工评估待核保对象是否患有特定疾病时,将会因人工干预程度过高而影响核保业务的执行效率,因此,如何在核保业务中充分利用历史体检数据及历史诊断数据等历史医疗数据来提高核保业务的执行效率则成为亟待解决的问题。
发明内容
本发明提供一种基于医疗数据来获得疾病判定模型的方法、装置、计算机可读存储介质及计算机设备,可实现基于患者的历史医疗数据得到能够用于评估指定对象是否患有特定疾病的疾病判定模型,即核保业务中可通过该疾病判定模型来评估待核保对象是否患有特定疾病,减少核保过程中的人工干预程度以提高核保业务的执行效率。
第一方面,本发明提供了基于医疗数据来获得疾病判定模型的方法,包括:
根据患者的历史医疗数据来选择患者样本集,所述患者样本集包括正样本集和负样本集,所述正样本集表示患有特定集合的患者的样本集合,所述负样本集表示未患有特定疾病的患者的样本集合;
对所述患者样本集进行预处理,以获得代表所述患者样本集的初始特征集;
对所述初始特征集进行特征选择,以获得经筛选后的筛后特征集;
利用所述筛后特征集来训练逻辑回归模型,以获得训练后的逻辑回归模型作为疾病判定模型,所述疾病判定模型用于判定新患者是否患有所述特定疾病。
优选地,
所述历史医疗数据包括患者的历史体检数据和/或历史诊断数据;
在所述历史医疗数据为患者的历史体检数据时,所述正样本集包括从所述体检机构提供的与所述特定疾病相关的体检项目中选择出的、患有所述特定疾病的患者的样本集合;所述负样本集包括从所述体检机构提供的与所述特定疾病相关的体检项目中选择出的、未患有所述特定疾病的患者的样本集合;
在所述历史医疗数据为患者的历史诊断数据时,所述正样本集包括从所述医疗机构提供的与所述特定疾病相关的诊断项目中选择出的、患有所述特定疾病的患者的样本集合;所述负样本集包括从所述医疗机构提供的与所述特定疾病相关的诊断项目中选择出的、未患有所述特定疾病的患者的样本集合。
优选地,
所述根据患者的历史医疗数据来选择患者样本集,还包括:
在所述正样本集中的样本数量大于所述负样本集中的样本数量时,对所述正样本集进行下采样或对所述负样本集进行上采样;
或,
在所述正样本集中的样本数量小于所述负样本集中的样本数量时,对所述正样本集进行上采样或对所述负样本集进行下采样。
优选地,
所述对所述患者样本集进行预处理,包括:
将所述患者样本集中与患者相关的检验结果数据进行标准化处理,其中所述检验结果数据为来自不同体检机构和/或不同医疗机构的采用有差异的正常值范围而产生的数据;
将所述患者样本集中与患者相关的所述检查结果数据进行结构化处理,所述检查结果数据包括表示与所述特定疾病相关的症状是否存在的类别型变量、以及表示与所述特定疾病相关的器官的测量值的连续型变量;
对所述类别型变量进行one-hot编码,以及对所述连续型变量保持所述测量值;
对所述患者样本集中的空缺值采用均值填充或者众数填充;
根据所述患者样本集的特征分布,采用离差标准化或Z-score标准化方法针对每个患者的特征取值进行计算,使得不同特征之间有可比性。
优选地,
所述对所述初始特征集进行特征选择,包括:采用卡方检验和随机森林进行特征选择,以获得经筛选后的筛后特征集;
和/或,
所述利用所述筛后的特征集来训练逻辑回归模型,包括:采用十折交叉验证方法来训练所述逻辑回归模型,其中,采用精确率、召回率、或者受试者工作特征曲线来评估所述逻辑回归模型,以调整训练所述逻辑回归模型时依赖的参数参数。
第二方面,本发明提供了一种基于医疗数据来获得疾病判定模型的装置,包括:
样本选择模块,用于根据患者的历史医疗数据来选择患者样本集,所述患者样本集包括正样本集和负样本集,所述正样本集表示患有特定集合的患者的样本集合,所述负样本集表示未患有特定疾病的患者的样本集合;
预处理模块,用于对所述患者样本集进行预处理,以获得代表所述患者样本集的初始特征集;
特征选择模块,用于对所述初始特征集进行特征选择,以获得经筛选后的筛后特征集;
模型训练模块,用于利用所述筛后特征集来训练逻辑回归模型,以获得训练后的逻辑回归模型作为疾病判定模型,所述疾病判定模型用于判定新患者是否患有所述特定疾病。
优选地,
还包括:重采样模块;其中,
所述重采样模块,用于在所述正样本集中的样本数量大于所述负样本集中的样本数量时,对所述正样本集进行下采样或对所述负样本集进行上采样;或,在所述正样本集中的样本数量小于所述负样本集中的样本数量时,对所述正样本集进行上采样或对所述负样本集进行下采样。
优选地,
所处预处理模块,用于执行如下步骤:
将所述患者样本集中与患者相关的检验结果数据进行标准化处理,其中所述检验结果数据为来自不同体检机构和/或不同医疗机构的采用有差异的正常值范围而产生的数据;
将所述患者样本集中与患者相关的所述检查结果数据进行结构化处理,所述检查结果数据包括表示与所述特定疾病相关的症状是否存在的类别型变量、以及表示与所述特定疾病相关的器官的测量值的连续型变量;
对所述类别型变量进行one-hot编码,以及对所述连续型变量保持所述测量值;
对所述患者样本集中的空缺值采用均值填充或者众数填充;
根据所述患者样本集的特征分布,采用离差标准化或Z-score标准化方法针对每个患者的特征取值进行计算,使得不同特征之间有可比性。
第三方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如第一方面中任一所述的方法。
第四方面,本发明提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如第一方面中任一所述的方法。
本发明提供了一种基于医疗数据来获得疾病判定模型的方法、装置、计算机可读存储介质及计算机设备,可实现基于患者的历史医疗数据得到能够用于评估指定对象是否患有特定疾病的疾病判定模型,即核保业务中可通过该疾病判定模型来评估待核保对象是否患有特定疾病,减少核保过程中的人工干预程度以提高核保业务的执行效率。
附图说明
为了更清楚地说明本发明实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种基于医疗数据来获得疾病判定模型的方法的流程示意图;
图2为本发明一实施例提供的一种基于医疗数据来获得疾病判定模型的装置的结构示意图;
图3为本发明一实施例提供的另一种基于医疗数据来获得疾病判定模型的装置的结构示意图;
图4为本发明一实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于医疗数据来获得疾病判定模型的方法,包括如下步骤:
步骤101,根据患者的历史医疗数据来选择患者样本集,所述患者样本集包括正样本集和负样本集,所述正样本集表示患有特定集合的患者的样本集合,所述负样本集表示未患有特定疾病的患者的样本集合;
步骤102,对所述患者样本集进行预处理,以获得代表所述患者样本集的初始特征集;
步骤103,对所述初始特征集进行特征选择,以获得经筛选后的筛后特征集;
步骤104,利用所述筛后特征集来训练逻辑回归模型,以获得训练后的逻辑回归模型作为疾病判定模型,所述疾病判定模型用于判定新患者是否患有所述特定疾病。
如图1所示的实施例,可实现基于患者的历史医疗数据得到能够用于评估指定对象是否患有特定疾病的疾病判定模型,即核保业务中可通过该疾病判定模型来评估待核保对象是否患有特定疾病,减少核保过程中的人工干预程度以提高核保业务的执行效率。
根据本公开的实施例,在所述历史医疗数据为患者的历史体检数据时,所述正样本集包括从所述体检机构提供的与所述特定疾病相关的体检项目中选择出的、患有所述特定疾病的患者的样本集合;所述负样本集包括从所述体检机构提供的与所述特定疾病相关的体检项目中选择出的、未患有所述特定疾病的患者的样本集合。
作为示例,针对体检人员,可以根据体检项目空值率最低的前n种项目来选择患者样本集(包括正样本集和负样本集),这是因为体检机构提供的体检套餐中经常含有不同的体检项目,不同的患者选择的体检项目也不尽相同,因此选择大部分人群都会选择的体检项目(这些体检项目会有相应的体检结果值,而不会为空),能够更好的反映整体人群的带病情况(例如患有特定疾病的风险高低等)。优选地,针对大部分人群都会选择的体检项目,还可以进一步针对患者人群的特殊情况来进行样本选择,例如某些体检项目会更大程度地与特定疾病相关,此时可以选择患病人群的体检空值率最低的前n种项目作为样本选择的标准。其中n的取值,可以进行调整,以使得选择后的负样本集中的负样本数量大于正样本集中的正样本数量(这也反映了普通人群中,未患病人群比患病人群多的实际情况)。
根据本公开的实施例,在所述历史医疗数据为患者的历史诊断数据时,所述正样本集包括从所述医疗机构提供的与所述特定疾病相关的诊断项目中选择出的、患有所述特定疾病的患者的样本集合;所述负样本集包括从所述医疗机构提供的与所述特定疾病相关的诊断项目中选择出的、未患有所述特定疾病的患者的样本集合。
作为示例,针对被诊断和被治疗人员,可以根据与所述特定疾病相关的诊断项目(例如与心脏疾病相关的科室包括心内或心外室,这些科室提供有相应的诊断项目,例如心电图、心动超声等诊断项目)来选择患者样本集(包括正样本集和负样本集)。优选地,由于与特定疾病相关的诊断项目可能较多(例如与肾脏疾病相关的诊断项目可能包括尿常规、尿沉渣、B超检查、24小时尿蛋白定量,尿酶检测等),医生针对不同的患者选择的诊断项目也不尽相同,因此此时可以选择医生经常推荐的诊断项目(这些诊断项目会有相应的诊断结果值,而不会为空),这样能够更好的反映整体人群的带病情况(例如患有特定疾病的风险高低等)。优选地,针对医生经常推荐的诊断项目,还可以进一步针对患者人群的特殊情况来进行样本选择,例如某些诊断项目会更大程度地与特定疾病相关,此时可以选择患病人群的诊断空值率最低的前m种项目作为样本选择的标准。其中m的取值,可以进行调整,以使得选择后的负样本集中的负样本数量大于正样本集中的正样本数量(这也反映了普通人群中,未患病人群比患病人群多的实际情况)。
根据本公开的实施例,患者的历史体检数据与患者的诊断历史数据还可以相互结合使用。例如在体检项目缺失时,可以结合诊断项目来获取患者样本集。又例如在诊断项目缺失(或者数量有限时,比如诊断项目过少,此时未诊断出某疾病的患者,未必不存在某疾病)时,可以结合体检项目来获取患者样本集。
为了确保正样本集与负样本保持平衡,根据本公开的实施例,在所述正样本集中的样本数量大于所述负样本集中的样本数量时,对所述正样本集进行下采样或对所述负样本集进行上采样;或,在所述正样本集中的样本数量小于所述负样本集中的样本数量时,对所述正样本集进行上采样或对所述负样本集进行下采样。
该实施例中,针对特定疾病,患者样本集可能是不平衡的患者样本集,此时可以对不平衡的患者样本集进行重采样,以使得所述正样本集和所述负样本集保持平衡,这些样本集后续会作为训练样本使用。重采样可以分为上采样及下采样。其中,上采样的实质也就是内插或插值,此时新的采样率的大小大于原采样率的大小。下采样又称为降采样,此时新的采样率的大小小于原采样率的大小。例如,重采样可以采用最邻近法、双线性内插法以及三次卷积内插法。
举例来说,对正样本集进行下采样之后,正样本集中的正样本数量会减少,以便使得正样本集的数量接近负样本集的数量,从而使得所述正样本集和所述负样本集保持平衡;又如,对负样本集进行上采样之后,负样本集中的负样本数量会增多,以便使得负样本集的数量接近正样本集的数量,从而使得所述正样本集和所述负样本集保持平衡。相应的,对正样本集进行上采样之后,正样本集中的正样本数量会增多,以便使得正样本集的数量接近负样本集的数量,从而使得所述正样本集和所述负样本集保持平衡;又如,对所述负样本集进行下采样之后,负样本集中的正样本数量会减少,以便使得负样本集的数量接近正样本集的数量,从而使得所述正样本集和所述负样本集保持平衡。
根据本公开的实施例,所述对所述患者样本集进行预处理,具体可以通过如下各个步骤A1~A5实现,包括:
A1、将所述患者样本集中与患者相关的检验结果数据进行标准化处理,其中所述检验结果数据为来自不同体检机构和/或不同医疗机构的采用有差异的正常值范围而产生的数据。
举例来说,不同体检机构和/或不同医疗机构可能会采用有差异的正常值范围(即正常值范围的标准不同),此时可以对不同体检机构和/或不同医疗机构产生的检验结果数据进行标准化计算,使得不同患者的同一特征(例如检验结果)有可比性。
A2、将所述患者样本集中与患者相关的所述检查结果数据进行结构化处理,所述检查结果数据包括表示与所述特定疾病相关的症状是否存在的类别型变量、以及表示与所述特定疾病相关的器官的测量值的连续型变量。
举例来说,针对检查项目的检查所见、检查结论等描述性文字,可以进行文本结构化,从而提取相应的信息。例如,针对与所述特定疾病相关的症状是否存在,可以产生类别型变量(例如1表示存在,0表示不存在)。例如,针对与所述特定疾病相关的器官的测量值,可以产生连续型变量(例如结节大小)。
A3、对所述类别型变量进行one-hot编码,以及对所述连续型变量保持所述测量值。
本领域技术人员应当理解的,独热编码(One-Hot编码)是将类别变量转换为机器学习算法易于利用的一种形式的过程。例如,针对连续型变量,可以获取原值,不作处理。
A4、对所述患者样本集中的空缺值采用均值填充或者众数填充。
举例来说,如果患者样本集中存在空缺值,则可以采用均值填充或者众数填充来进行填充,以使得数据完整。其中,均值例如为某一特征的均值。众数例如为某一特征的众数。
A5、根据所述患者样本集的特征分布,采用离差标准化或Z-score标准化方法针对每个患者的特征取值进行计算,使得不同特征之间有可比性。
这里,考虑模型训练的收敛速度,可以对所有变量进行标准化。特征标准化指的是根据特征的分布,对每个患者的该特征取值进行计算,使不同特征之间有可比性。可以采用的特征标准化方法包括离差标准化和Z-score标准化(也称为Z分)。其中,离散标准化又称为最小-最大规范化,其计算方法为x=(x-xmin)/(xmax-xmin),将特征的取值变换[0,1]之间。其中,z-score标准化又称为零-均值规范化、或者标准差标准化,其计算方法为x=(x-μ)/σ,即特征的取值减去该特征的均值,再除以该特征的标准差。本公开实施例中可以采用以上两种标准化方式。
根据本公开的实施例,所述对所述初始特征集进行特征选择,包括:采用卡方检验和随机森林进行特征选择,以获得经筛选后的筛后特征集。
该实施例中,模型特征过多,容易造成模型过拟合,因此需要进行特征选择。模型特征选择是提高建模精度的重要方案,例如特征选择可以采用对冗余及不相关特征进行删除,从而将高维空间的样本实现降维,以便将特征空间通过映射或者是变换的方式转换到低维空间,达到降噪、防止过拟合、提高模型泛化能力等目的。例如,在模型训练前,可以采用Filter方法、Wrapper方法及Embedded方法来进行特征选择(例如其对所有特征进行打分,生成不同的特征组合并计算获取最优组合,从选择既定模型中对提高模型准确性最好的特征)。本公开是实施例中采用卡方检验和随机森林来选择特征,综合两种方法选出的特征,可以获取参与建模的最优特征。此外,还可以采用人工特征选择,即从原始数据中人工的找出一些具有物理意义的特征。
根据本公开的实施例,所述利用所述筛后的特征集来训练逻辑回归模型,包括:采用十折交叉验证方法来训练所述逻辑回归模型,其中,采用精确率、召回率、或者受试者工作特征曲线来评估所述逻辑回归模型,以调整训练所述逻辑回归模型时依赖的参数参数。
逻辑回归模型又称为LR模型或者logistic回归分析,逻辑回归是一种有监督的统计学习方法,主要用于对样本进行分类,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率。例如,筛后特征集可以用来训练逻辑回归模型,以获得训练后的逻辑回归模型作为疾病判定模型,其中,疾病判定模型用于判定新患者是否患有所述特定疾病。
这里,十折交叉验证(10-fold cross-validation)可以用来测试算法准确性,是常用的测试方法,例如将数据集分成十份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。例如筛后特征集在训练逻辑回归模型的过程中,可以采用十折交叉验证,以便获得训练后的逻辑回归模型(例如获得逻辑回归模型的相应参数)。
这里,精确率、召回率、或者受试者工作特征曲线可以用来评估训练后的逻辑回归模型。例如,精确率(Precision)是正类并且被预测为正类的样本占所有预测为正类的比例,精确率更为关注将负样本错分为正样本的情况。召回率(Recall)是正类并且被预测为正类的样本占所有实际为正类样本的比例,召回率更为关注将正样本分类为负样本的情况。受试者工作曲线(ROC(Receiver Operating Characteristic)曲线)可以用于二分类判别效果的分析与评价,一般自变量为连续变量,因变量为二分类变量。例如,受试者工作特征曲线下方面积可以作为调优目标,根据该值,可以调整逻辑回归模型的参数(例如正则化参数),从而最终获得疾病判定模型。
在一种具体的业务场景中,本公开实施例的疾病判定模型例如可以应用于核保业务。保险核保简称核保,是指保险人对投保申请进行审核,决定是否接受承保这一风险,并在接受承保风险的情况下,确定承保条件的过程。传统核保主要依靠核保人员的经验判断,根据被保险人的年龄、性别、是否育龄、职业、习惯嗜好、生存环境,对被保险人进行人工风险评定,同时参考被保险人的不良嗜好、居住地、个人病史、家族病史、体格及身体情况。部分保险公司采用再保手册,根据被保险人的健康状况,生成评点,确定被保险人的风险等级,予以标准体承保、加费承保、除外处理,拒保四种处理。核保的重要考虑因素之一是被保险人的带病状况。核保人员对于被保险人自身疾病的判定,主要依赖核保人员对再保手册的理解和自身的医学知识,经验丰富的核保人员对风险的识别能力强,但该类核保人员培养困难。并且,目前保险公司采用的纯人工核保方法,人工干预程度过高,效率低下,对核保人员的医学知识要求高,判断标准不统一,风控手段不够有效。
本公开实施例得到的疾病判定模型可以给出被保险人(待核保对象)疾病风险提示,为核保人员生成核保结论,提供参考,并在一定程度统一了核保人员对被保险人带病情况的评估结果,处理速度快,降低了对核保人员的医学知识要求。因此本公开的基于医疗数据来获得疾病判定模型的方法可以应用于面向健康险核保的疾病风险模型建模,此时可以依靠体检机构和医疗机构(例如医院)历史沉积的体检数据及诊断数据,建立疾病风险判定模型,能为核保人员提供疾病风险提示,一定程度统一了核保人员对被保险人带病情况的评估结果,处理速度快,降低了对核保人员的医学知识要求,从而便于大幅度提高核保业务的执行效率。
基于与本发明方法实施例相同的构思,请参考图2,本发明实施例还提供了一种基于医疗数据来获得疾病判定模型的装置,其具体包括:
样本选择模块201,用于根据患者的历史医疗数据来选择患者样本集,所述患者样本集包括正样本集和负样本集,所述正样本集表示患有特定集合的患者的样本集合,所述负样本集表示未患有特定疾病的患者的样本集合;
预处理模块202,用于对所述患者样本集进行预处理,以获得代表所述患者样本集的初始特征集;
特征选择模块203,用于对所述初始特征集进行特征选择,以获得经筛选后的筛后特征集;
模型训练模块204,用于利用所述筛后特征集来训练逻辑回归模型,以获得训练后的逻辑回归模型作为疾病判定模型,所述疾病判定模型用于判定新患者是否患有所述特定疾病。
请参考图3,本发明一个实施例中,该装置还包括:重采样模块301;其中,
所述重采样模块301,用于在所述正样本集中的样本数量大于所述负样本集中的样本数量时,对所述正样本集进行下采样或对所述负样本集进行上采样;或,在所述正样本集中的样本数量小于所述负样本集中的样本数量时,对所述正样本集进行上采样或对所述负样本集进行下采样。
本发明一个实施例中,所处预处理模块202,用于执行如下步骤A1~A5:
A1、将所述患者样本集中与患者相关的检验结果数据进行标准化处理,其中所述检验结果数据为来自不同体检机构和/或不同医疗机构的采用有差异的正常值范围而产生的数据;
A2、将所述患者样本集中与患者相关的所述检查结果数据进行结构化处理,所述检查结果数据包括表示与所述特定疾病相关的症状是否存在的类别型变量、以及表示与所述特定疾病相关的器官的测量值的连续型变量;
A3、对所述类别型变量进行one-hot编码,以及对所述连续型变量保持所述测量值;
A4、对所述患者样本集中的空缺值采用均值填充或者众数填充;
A5、根据所述患者样本集的特征分布,采用离差标准化或Z-score标准化方法针对每个患者的特征取值进行计算,使得不同特征之间有可比性。
为了描述的方便,描述以上装置实施例时以功能分为各种单元或模块分别描述,在实施本发明时可以把各单元或模块的功能在同一个或多个软件和/或硬件中实现。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明任意一个实施例中提供的基于医疗数据来获得疾病判定模型的方法。
请参考图4,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序所述处理器执行所述计算机程序时,实现如本发明任意一个实施例中提供的基于医疗数据来获得疾病判定模型的方法。
具体第,存储器可以包括内存以及非易失性存储器。
可选地,计算机设备还包括内部总线、网络接口。
当然,该计算机设备还可能包括其他业务所需要的硬件。
内存具体可以是高速随机存取存储器(Random-Access Memory,RAM);非易失性存储器(non-volatile memory)具体可以是1个或多个磁盘存储器。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry StandardArchitecture,工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线或EISA(Extended IndustryStandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。
在一种可能实现的方式中,处理器从非易失性存储器中读取对应的计算机程序到处理器中运行,处理器执行存储器所存放的计算机程序,以通过执行的计算机程序实现本发明任一实施例中提供的基于医疗数据来获得疾病判定模型的方法。
处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块(也就是计算机程序)可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的计算机可读存储介质中。
本领域内的技术人员应明白,本发明的实施例可提供为方法或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或软件和硬件相结合的形式。
本发明中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种基于医疗数据来获得疾病判定模型的方法,其特征在于,包括:
根据患者的历史医疗数据来选择患者样本集,所述患者样本集包括正样本集和负样本集,所述正样本集表示患有特定集合的患者的样本集合,所述负样本集表示未患有特定疾病的患者的样本集合;
对所述患者样本集进行预处理,以获得代表所述患者样本集的初始特征集;
对所述初始特征集进行特征选择,以获得经筛选后的筛后特征集;
利用所述筛后特征集来训练逻辑回归模型,以获得训练后的逻辑回归模型作为疾病判定模型,所述疾病判定模型用于判定新患者是否患有所述特定疾病。
2.根据权利要求1所述的方法,其特征在于,
所述历史医疗数据包括患者的历史体检数据和/或历史诊断数据;
在所述历史医疗数据为患者的历史体检数据时,所述正样本集包括从所述体检机构提供的与所述特定疾病相关的体检项目中选择出的、患有所述特定疾病的患者的样本集合;所述负样本集包括从所述体检机构提供的与所述特定疾病相关的体检项目中选择出的、未患有所述特定疾病的患者的样本集合;
在所述历史医疗数据为患者的历史诊断数据时,所述正样本集包括从所述医疗机构提供的与所述特定疾病相关的诊断项目中选择出的、患有所述特定疾病的患者的样本集合;所述负样本集包括从所述医疗机构提供的与所述特定疾病相关的诊断项目中选择出的、未患有所述特定疾病的患者的样本集合。
3.根据权利要求1或2所述的方法,其特征在于,
所述根据患者的历史医疗数据来选择患者样本集,还包括:
在所述正样本集中的样本数量大于所述负样本集中的样本数量时,对所述正样本集进行下采样或对所述负样本集进行上采样;
或,
在所述正样本集中的样本数量小于所述负样本集中的样本数量时,对所述正样本集进行上采样或对所述负样本集进行下采样。
4.根据权利要求1或2所述的方法,其特征在于,
所述对所述患者样本集进行预处理,包括:
将所述患者样本集中与患者相关的检验结果数据进行标准化处理,其中所述检验结果数据为来自不同体检机构和/或不同医疗机构的采用有差异的正常值范围而产生的数据;
将所述患者样本集中与患者相关的所述检查结果数据进行结构化处理,所述检查结果数据包括表示与所述特定疾病相关的症状是否存在的类别型变量、以及表示与所述特定疾病相关的器官的测量值的连续型变量;
对所述类别型变量进行one-hot编码,以及对所述连续型变量保持所述测量值;
对所述患者样本集中的空缺值采用均值填充或者众数填充;
根据所述患者样本集的特征分布,采用离差标准化或Z-score标准化方法针对每个患者的特征取值进行计算,使得不同特征之间有可比性。
5.根据权利要求1或2所述的方法,其特征在于,
所述对所述初始特征集进行特征选择,包括:采用卡方检验和随机森林进行特征选择,以获得经筛选后的筛后特征集;
和/或,
所述利用所述筛后的特征集来训练逻辑回归模型,包括:采用十折交叉验证方法来训练所述逻辑回归模型,其中,采用精确率、召回率、或者受试者工作特征曲线来评估所述逻辑回归模型,以调整训练所述逻辑回归模型时依赖的参数参数。
6.一种基于医疗数据来获得疾病判定模型的装置,其特征在于,包括:
样本选择模块,用于根据患者的历史医疗数据来选择患者样本集,所述患者样本集包括正样本集和负样本集,所述正样本集表示患有特定集合的患者的样本集合,所述负样本集表示未患有特定疾病的患者的样本集合;
预处理模块,用于对所述患者样本集进行预处理,以获得代表所述患者样本集的初始特征集;
特征选择模块,用于对所述初始特征集进行特征选择,以获得经筛选后的筛后特征集;
模型训练模块,用于利用所述筛后特征集来训练逻辑回归模型,以获得训练后的逻辑回归模型作为疾病判定模型,所述疾病判定模型用于判定新患者是否患有所述特定疾病。
7.根据权利要求6所述的装置,其特征在于,
还包括:重采样模块;其中,
所述重采样模块,用于在所述正样本集中的样本数量大于所述负样本集中的样本数量时,对所述正样本集进行下采样或对所述负样本集进行上采样;或,在所述正样本集中的样本数量小于所述负样本集中的样本数量时,对所述正样本集进行上采样或对所述负样本集进行下采样。
8.根据权利要求6所述的装置,其特征在于,
所处预处理模块,用于执行如下步骤:
将所述患者样本集中与患者相关的检验结果数据进行标准化处理,其中所述检验结果数据为来自不同体检机构和/或不同医疗机构的采用有差异的正常值范围而产生的数据;
将所述患者样本集中与患者相关的所述检查结果数据进行结构化处理,所述检查结果数据包括表示与所述特定疾病相关的症状是否存在的类别型变量、以及表示与所述特定疾病相关的器官的测量值的连续型变量;
对所述类别型变量进行one-hot编码,以及对所述连续型变量保持所述测量值;
对所述患者样本集中的空缺值采用均值填充或者众数填充;
根据所述患者样本集的特征分布,采用离差标准化或Z-score标准化方法针对每个患者的特征取值进行计算,使得不同特征之间有可比性。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5中任一所述的方法。
CN201910000850.4A 2019-01-02 2019-01-02 一种基于医疗数据来获得疾病判定模型的方法及装置 Pending CN111403024A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910000850.4A CN111403024A (zh) 2019-01-02 2019-01-02 一种基于医疗数据来获得疾病判定模型的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910000850.4A CN111403024A (zh) 2019-01-02 2019-01-02 一种基于医疗数据来获得疾病判定模型的方法及装置

Publications (1)

Publication Number Publication Date
CN111403024A true CN111403024A (zh) 2020-07-10

Family

ID=71430174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910000850.4A Pending CN111403024A (zh) 2019-01-02 2019-01-02 一种基于医疗数据来获得疾病判定模型的方法及装置

Country Status (1)

Country Link
CN (1) CN111403024A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933281A (zh) * 2020-09-30 2020-11-13 平安科技(深圳)有限公司 一种疾病分型的确定系统、方法、装置及存储介质
CN111986804A (zh) * 2020-08-31 2020-11-24 平安医疗健康管理股份有限公司 基于体温数据进行模型训练的方法、装置和计算机设备
CN112102955A (zh) * 2020-09-07 2020-12-18 武汉科瓴智能科技有限公司 一种基于高斯混合模型的患者疾病预测控制系统与方法
CN112635069A (zh) * 2020-12-14 2021-04-09 内蒙古卫数数据科技有限公司 一种基于常规检验数据的肺结核智能识别方法
CN112750530A (zh) * 2021-01-05 2021-05-04 上海梅斯医药科技有限公司 一种模型的训练方法、终端设备和存储介质
WO2023155441A1 (zh) * 2022-02-15 2023-08-24 康键信息技术(深圳)有限公司 医疗资源推荐方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682412A (zh) * 2016-12-22 2017-05-17 浙江大学 一种基于医疗体检数据的糖尿病预测方法
CN106874663A (zh) * 2017-01-26 2017-06-20 中电科软件信息服务有限公司 心脑血管疾病风险预测方法及系统
CN108648827A (zh) * 2018-05-11 2018-10-12 北京邮电大学 心脑血管疾病风险预测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682412A (zh) * 2016-12-22 2017-05-17 浙江大学 一种基于医疗体检数据的糖尿病预测方法
CN106874663A (zh) * 2017-01-26 2017-06-20 中电科软件信息服务有限公司 心脑血管疾病风险预测方法及系统
CN108648827A (zh) * 2018-05-11 2018-10-12 北京邮电大学 心脑血管疾病风险预测方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111986804A (zh) * 2020-08-31 2020-11-24 平安医疗健康管理股份有限公司 基于体温数据进行模型训练的方法、装置和计算机设备
CN112102955A (zh) * 2020-09-07 2020-12-18 武汉科瓴智能科技有限公司 一种基于高斯混合模型的患者疾病预测控制系统与方法
CN112102955B (zh) * 2020-09-07 2024-03-15 武汉科瓴智能科技有限公司 一种基于高斯混合模型的患者疾病预测控制系统与方法
CN111933281A (zh) * 2020-09-30 2020-11-13 平安科技(深圳)有限公司 一种疾病分型的确定系统、方法、装置及存储介质
CN111933281B (zh) * 2020-09-30 2021-02-12 平安科技(深圳)有限公司 一种疾病分型的确定系统、方法、装置及存储介质
CN112635069A (zh) * 2020-12-14 2021-04-09 内蒙古卫数数据科技有限公司 一种基于常规检验数据的肺结核智能识别方法
CN112750530A (zh) * 2021-01-05 2021-05-04 上海梅斯医药科技有限公司 一种模型的训练方法、终端设备和存储介质
WO2023155441A1 (zh) * 2022-02-15 2023-08-24 康键信息技术(深圳)有限公司 医疗资源推荐方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111403024A (zh) 一种基于医疗数据来获得疾病判定模型的方法及装置
US11954902B2 (en) Generalizable medical image analysis using segmentation and classification neural networks
JP7547326B2 (ja) 臨床試験をデザインするシステムと方法
US20170147777A1 (en) Method and apparatus for predicting health data value through generation of health data pattern
US6277071B1 (en) Chronic disease monitor
Ferrante et al. Primary care utilization and colorectal cancer incidence and mortality among medicare beneficiaries: a population-based, case–control study
Sandoval-Garcia et al. Retinal arteriolar tortuosity and fractal dimension are associated with long-term cardiovascular outcomes in people with type 2 diabetes
Perez-Padilla et al. Instability in the COPD diagnosis upon repeat testing vary with the definition of COPD
CN113936762A (zh) 基于区块链的智能医疗就诊数据存储方法及平台
Kristensen et al. Resources allocation and health care needs in diabetes care in Danish GP clinics
Jairam et al. A review of artificial intelligence in mammography
CN114913977A (zh) 一种糖尿病足风险评估方法、装置、设备及存储介质
Innes et al. Hydronephrosis severity clarifies prognosis and guides management for emergency department patients with acute ureteral colic
Kendle et al. Insomnia during pregnancy and severe maternal morbidity in the united states: nationally representative data from 2006 to 2017
CN111340636B (zh) 数据有效性检测方法、装置、计算机设备和存储介质
Ignell et al. Model for individual prediction of diabetes up to 5 years after gestational diabetes mellitus
Sampson et al. Evaluation of focus and deep learning methods for automated image grading and factors influencing image quality in adaptive optics ophthalmoscopy
Pong et al. Application of a deep learning neural network for voiding dysfunction diagnosis using a vibration sensor
Norbye et al. The association between health anxiety, physical disease and cardiovascular risk factors in the general population–a cross-sectional analysis from the Tromsø study: Tromsø 7
CN112102244A (zh) 胎儿超声标准切面图像检测方法、计算机设备和存储介质
JP2021532445A (ja) 臨床アセスメントへのコンテキストデータの組み込み
Endevelt et al. Does low socioeconomic status affect use of nutritional services by pre‐diabetes patients?
Secretariat Neuroimaging for the evaluation of chronic headaches: an evidence-based analysis
Zheng et al. Assessing accuracy of mammography in the presence of verification bias and intrareader correlation
Panova et al. The neural network technology application for prediction of preeclampsia in pregnant women with chronic arterial hypertension

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230220

Address after: Room 304, Unit 1, Floor 4, Building 9, West District, No. 9 Courtyard, Linglong Road, Haidian District, Beijing, 100089

Applicant after: BEIJING YIYIYUN TECHNOLOGY Co.,Ltd.

Address before: 301800 220-41, customs building, Tianjin Baodi energy saving and environmental protection industrial zone, Baodi District, Tianjin

Applicant before: TIANJIN HAPPINESS LIFE TECHNOLOGY Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200710