CN109493975B

CN109493975B - 基于xgboost模型的慢性病复发预测方法、装置和计算机设备

Info

Publication number: CN109493975B
Application number: CN201811560282.5A
Authority: CN
Inventors: 郑劲平; 陈一君; 梁振宇; 李菁; 张冬莹; 罗俊宇
Original assignee: Guangzhou Tianpeng Computer Technology Co ltd; First Affiliated Hospital of Guangzhou Medical University
Current assignee: Guangzhou Tian Peng computer science and Technology Co., Ltd.; First Affiliated Hospital of Guangzhou Medical University
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2021-10-01
Anticipated expiration: 2038-12-20
Also published as: CN109493975A

Abstract

本申请涉及一种基于xgboost模型的慢性病复发预测方法、装置和计算机设备。所述方法包括：获取待测诊断数据；所述待测诊断数据包括有进出院时间；根据所述进出院时间，将所述待测诊断数据作为模型训练样本；采用所述模型训练样本训练所述xgboost模型，得到训练后模型；所述训练后模型用于对所述待测诊断数据进行慢性病复发预测。通过本方案的采用，可以解决训练样本分布不平衡的问题，进而提高慢性病复发预测结果的准确性。

Description

基于xgboost模型的慢性病复发预测方法、装置和计算机设备

技术领域

本申请涉及疾病防控领域，特别是涉及一种基于xgboost模型的慢性病复发预测方法、装置、计算机设备和存储介质。

背景技术

慢性阻塞性肺部疾病(Chronic obstructive pulmonary disease，COPD)，简称为慢阻肺，一直是一种难以治愈的慢性阻塞性疾病。据统计，2015年，全球估计有317万人死于慢性阻塞性肺病，占同年世界死亡率的5％；2016年全球有2.51亿例慢性阻塞性肺部疾病病例，慢阻肺对人类生命的威胁已经不容忽视。

为了改善这一情况，越来越多的学者和医学机构开始关注对该慢性病在一年内的复发预测，以此来防范该疾病病情的加重。然而，现有的慢性病复发预测方法，存在较多的数据缺失、数据不均，导致数据结果的准确度不高。

因此，现有的慢性病复发预测方法存在着计算结果准确率低的问题。

发明内容

基于此，有必要针对上述慢性病复发预测方法存在着计算结果准确率低的技术问题，提供一种能够合理解决上述技术问题的、基于xgboost模型的慢性病复发预测方法、装置、计算机设备和存储介质。

一种基于xgboost模型的慢性病复发预测方法，所述方法包括：

获取待测诊断数据；所述待测诊断数据包括有进出院时间；

根据所述进出院时间，将所述待测诊断数据作为模型训练样本；

采用所述模型训练样本训练所述xgboost模型，得到训练后模型；所述训练后模型用于对所述待测诊断数据进行慢性病复发预测。

在其中一个实施例中，所述获取待测诊断数据，包括：

获取慢性病诊断数据；

将所述慢性病诊断数据按照正则表达方式，或命名实体识别方式，提取有用的诊断数据，作为所述待测诊断数据。

在其中一个实施例中，在所述根据所述进出院时间，将所述待测诊断数据作为模型训练样本之前，还包括：

确定所述待测诊断数据中的单项缺失数据；

获取所述单项缺失数据的数据缺失量；

根据所述数据缺失量，对所述待测诊断数据进行空值处理，得到有效的待测诊断数据。

在其中一个实施例中，所述根据所述数据缺失量，对所述待测诊断数据进行空值处理，得到有效的待测诊断数据，包括：

获取所述待测诊断数据的单项数据总量；

计算所述数据缺失量与所述单项数据总量的比值，得到数据缺失百分比；

当所述数据缺失百分比小于预设的百分比阈值时，计算所述待测诊断数据中的单项数据平均值，作为所述单项缺失数据的数值。

在其中一个实施例中，当所述数据缺失百分比大于等于所述百分比阈值时，删除所述单项数据。

在其中一个实施例中，在所述得到训练后模型之后，还包括：

获取所述慢性病复发预测的预测结果；

计算所述预测结果的精确率和召回率；

根据所述精确率和所述召回率，生成模型评价结果；所述模型评价结果用于表示所述训练后模型的预测准确性。

一种慢性病复发预测装置，所述装置包括：

数据获取模块，用于获取待测诊断数据；所述待测诊断数据包括有进出院时间；

样本确定模块，用于根据所述进出院时间，将所述待测诊断数据作为模型训练样本；

模型获取模块，用于采用所述模型训练样本训练所述xgboost模型，得到训练后模型；所述训练后模型用于对所述待测诊断数据进行慢性病复发预测。

在其中一个实施例中，所述数据获取模块包括：

数据获取子模块，用于获取慢性病诊断数据；

数据提取子模块，用于将所述慢性病诊断数据按照正则表达方式，和/或命名实体识别方式，提取有用的诊断数据，作为所述待测诊断数据。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待测诊断数据；所述待测诊断数据包括有进出院时间；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待测诊断数据；所述待测诊断数据包括有进出院时间；

上述慢性病复发预测方法、装置、计算机设备和存储介质，通过获取待测诊断数据，利用待测诊断数据中的进出院时间，来判断该待测诊断数据是否可作为模型训练样本，以及，在可作为模型训练样本的基础上，按照一定规则训练xgboost模型，确定模型训练样本后，采用模型训练样本训练xgboost模型，得到训练后模型，即可利用训练后模型对所述待测诊断数据进行慢性病复发预测。采用该方法，可以解决训练样本分布不平衡的问题，进而提高慢性病复发预测结果的准确性。

附图说明

图1为一个实施例中慢性病复发预测方法的流程示意图；

图2为一个实施例中慢性病复发预测装置的结构框图；

图3为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，预测模型选择xgboost(Extreme Gradient Boosting)，其主要算法思想为用初始样本训练一个基学习器，根据学习表现对样本分布进行调整，使得表现差的样本获得更多的关注，然后不断迭代用调整分布后的样本训练下一个基学习器，直到基学习器数量达到指定数目。

在一个实施例中，如图1所示，提供了一种基于xgboost模型的慢性病复发预测方法，包括以下步骤：

步骤S110，获取待测诊断数据；所述待测诊断数据包括有进出院时间。

其中，待测诊断数据是指病人的入院诊断信息中，与慢性病诊断结果存在关联性的特征数据，例如，年龄、性别、有无咳嗽病史、各项检验检测指标等。

其中，进出院时间是指病人至少一次的入院时间，和/或出院时间，例如，某个病人于2019年1月1日第一次入院，于2019年1月13日第一次出院，又于2019年5月20日第二次入院，则该病人的进出院时间包括2019年1月1日、2019年1月13日以及2019年5月20日。

具体实现中，病人入院治疗，医生不仅会记录下该病人的性别、年龄等个人信息，还会记录该病人的各项生命体征数据，以及该病人做某些项目诊断后的诊断结果数据，而所有针对该病人建立的数据集合中，存有与慢性病有直接关系的数据，则首先获取该数据，即获取待测诊断数据，待测诊断数据包括有病人的入院时间或出院时间，以及多次进出院情况下的具体明细。

例如，某个病人在2019年1月1日入院诊断治疗慢性病，在获取到该病人相关资料信息后，可能还将记录获取该病人做某项常规检查的检查结果。其中，待测诊断数据包括年龄、性别、有无咳嗽病史、各项检验检测指标等，而非待测诊断数据包括国籍、所在床位等。

步骤S120，根据所述进出院时间，将所述待测诊断数据作为模型训练样本。

其中，模型训练样本是指用于对数据模型指向性构建的参数。

具体实现中，为了利用一个已训练构建好的模型来判断是否有病人在一年内病情加重再次入院，则需获取到多个病人的待测诊断数据，根据各个病人的进出院时间，判定不同病人的待测诊断数据是否可被作为模型训练样本来训练模型，或者判定不同病人的待测诊断数据在作为模型训练样训练模型时，应该以什么样的规则进行训练。

例如，某个病人的进出院时间包括：2019年1月1日的入院时间，而当前时间为2019年1月3日，即该病人的进出院时间不包括出院时间，则该病人的待测诊断数据不能作为模型训练样本。

又例如，某个病人的进出院时间包括：2019年1月1日的入院时间、2019年1月15日的出院时间，则不管该病人是否有二次入院时间，均可以将该病人的待测诊断数据作为模型训练样本。

步骤S130，采用所述模型训练样本训练所述xgboost模型，得到训练后模型；所述训练后模型用于对所述待测诊断数据进行慢性病复发预测。

其中，训练后模型是指利用模型训练样本训练xgboost模型，得到的确定模型。

具体实现中，针对不同病人待测诊断数据中的进出院时间，判定哪些待测诊断数据可以作为模型训练样本，以及，测诊断数据应该按照何种规则作为模型训练样本后，将按照预设的规则，利用模型训练样本训练xgboost模型，则可得到训练后模型。模型训练完成之后，即可得到一个确定的、可作慢性病复发预测的xgboost模型。

在实际应用中，xgboost模型仅针对结构化信息提取有用特征作为待测诊断数据，因此，其模型训练样本主要基于结构化信息进行处理。模型搭建好后把训练词向量输入到模型，经过一段时间训练后，即可获得一个确定的模型，然后进行慢性病复发预测，特别是慢性阻塞性肺部疾病。

上述慢性病复发预测方法中，通过获取待测诊断数据，利用待测诊断数据中的进出院时间，来判断该待测诊断数据是否可作为模型训练样本，以及，在可作为模型训练样本的基础上，按照一定规则训练xgboost模型，确定模型训练样本后，采用模型训练样本训练xgboost模型，得到训练后模型，即可利用训练后模型对所述待测诊断数据进行慢性病复发预测。采用该方法，可以解决训练样本分布不平衡的问题，进而提高慢性病复发预测结果的准确性。

在一个实施例中，所述步骤S110，包括：

获取慢性病诊断数据；将所述慢性病诊断数据按照正则表达方式，或命名实体识别方式，提取有用的诊断数据，作为所述待测诊断数据。

其中，慢性病诊断数据是指病人入院的病例信息。

其中，正则表达方式(Regular Expression)，在代码中其常被简写为regex、regexp或RE，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法，是计算机科学的一个概念；正则表达方式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串；在很多文本编辑器里，正则表达式通常被用来检索、替换那些匹配某个模式的文本。

其中，命名实体识别方式(Named Entity Recognition)，简称NER，又称作专名识别，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等，以及自定义实体类别比如时间、数量、货币、比例数值等文字。目前NER有两个显著的特点，即识别和分类。

具体实现中，首先获取慢性病诊断数据，即获取到病人的病例信息，进而采用正则表达方式，或命名实体识别方式提取在慢性病诊断数据中的、有用的特征信息，作为待测诊断数据。

需要说明的是，待测诊断数据可以是以整数类型进行存储，若待测诊断数据中存在有离散型数据，比如性别，则可以用整数1表示男，整数2表示女，以此类推。若待测诊断数据中存在有未提及的数据项，则以空值表示。

在一个实施例中，在所述步骤S120之前，还包括：

确定所述待测诊断数据中的单项缺失数据；获取所述单项缺失数据的数据缺失量；根据所述数据缺失量，对所述待测诊断数据进行空值处理，得到有效的待测诊断数据。

其中，单项缺失数据是指待测诊断数据包含的众多数据项中、某一项数据下，存在有空值表示的缺失数据，例如，病人甲、丁的“年龄”是缺失数据、病人乙、丙的“有无咳嗽史”是缺失数据。

其中，数据缺失量是指待测诊断数据中、某项数据的所有缺失量，例如，“年龄”项中，有28个病人的“年龄”项数据缺失，则单项缺失数据的数据缺失量是指：“年龄”项缺失数据的缺失量为28。

具体实现中，由于在获取待测诊断数据期间，存在有部分数据项为“空值”表示该项数据缺失，因此，不能表示“空值”的数据项放入模型训练样本中必须对缺失数据项进行“空值”处理。那么，首先要确定待测诊断数据中的单项缺失数据，对于缺失数据，以数据项为单位进行统计，即“年龄”项和“性别”项分开计算；然后，统计各单项数据中的数据缺失数量，即分别统计“年龄”项存在有缺失量、“性别”项存在有缺失量；最后，根据统计得到的数据缺失量分别进行空值处理，并在空值处理完成后得到有效的待测诊断数据。

例如，存在有200份待测诊断数据，其中“年龄”项有36个缺失、“性别”项有8个缺失。

在一个实施例中，所述根据所述数据缺失量，对所述待测诊断数据进行空值处理，得到有效的待测诊断数据，包括：

获取所述待测诊断数据的单项数据总量；计算所述数据缺失量与所述单项数据总量的比值，得到数据缺失百分比；当所述数据缺失百分比小于预设的百分比阈值时，计算所述待测诊断数据中的单项数据平均值，作为所述单项缺失数据的数值。

其中，单项数据总量是指待测诊断数据的总量，即待测诊断数据有N份，则单项数据总量也应该有N份，例如，100、200、300。

其中，数据缺失百分比是指单项数据中，缺失量占总量的大小，例如，“年龄”项中的数据缺失百分比为20％，若“年龄”的单项数据总量为200，则其数据缺失量为40。

其中，百分比阈值是预设的、不同处理方式的百分比临界值，例如，30％、50％。

其中，单项数据平均值是指待测诊断数据中、单项数据中已存在数据的平均值，例如，20、40、60。

具体实现中，若待测诊断数据中存在有“空值”表示的缺失数据，首先要分别获取某一项数据的总量；然后，计算该项数据中、数据缺失占数据总量的比例，得出数据缺失百分比；最后，比较该计算得出的数据缺失百分比是否超过了预设的百分比阈值，若未超过，则以该项数据中已存在数据的平均值，补充作为缺失数据的数值。

需要说明的是，还可以是用单项数据中的众数作为单项缺失数据的数值，而当单项数据中的众数存在多个时，可以是其中随机的一个。

例如，“年龄”项数据的数据总量是200，其中数据缺失量为20，则其数据缺失百分比为10％，若此时百分比阈值为30％，则“年龄”项数据的数据缺失百分比小于预设的百分比阈值。此时，计算得到另外180个数据的平均值为23，则将20项缺失数据的数值取作23。

在一个实施例中，当所述数据缺失百分比大于等于所述百分比阈值时，删除所述单项数据。

其中，单项数据是指缺失某项数据中的所有值，例如，“年龄”项数据、“性别”项数据。

具体实现中，若待测诊断数据中存在有“空值”表示的缺失数据，首先要分别获取某一项数据的总量；然后，计算该项数据中、数据缺失占数据总量的比例，得出数据缺失百分比；比较该计算得出的数据缺失百分比是否超过了预设的百分比阈值，若到达或超过，则删除该缺失的数据。

例如，“年龄”项数据的数据总量是200，其中数据缺失量为50，则其数据缺失百分比为25％，若此时百分比阈值为20％，则“年龄”项数据的数据缺失百分比大于预设的百分比阈值。此时，将“年龄”项数据删除。

在一个实施例中，在所述步骤S130之后，还包括：

获取所述慢性病复发预测的预测结果；计算所述预测结果的精确率和召回率；根据所述精确率和所述召回率，生成模型评价结果；所述模型评价结果用于表示所述训练后模型的预测准确性。

其中，预测结果是指利用训练后模型进行各项待测诊断数据测试后，得到的测试结果。

其中，精确率是指正确被检索结果与实际被检索结果的比值，例如，正确被检索结果为20个，实际被检索结果为50个，则精确率为40％。

其中，召回率是指正确被检索结果与应该被检索结果的比值，例如，正确被检索结果为20个，应该被检索结果为20个，则召回率为100％。

其中，模型评价结果是指对训练后模型预测准确性的定义。

具体实现中，要解释精确率和召回率，可以通过下述例子进行说明：

假如某个班级有男生80人，女生20人，共计100人，目标是找出所有女生。现在挑选出50个人，其中20人是女生，另外还错误的把30个男生也当作女生挑选出来了，则准确率的计算方式：20个女生/(20个女生+30个误判为女生的男生)，结果是40％；召回率的计算方式：20个女生/(20个女生+0个误判为男生的女生)，结果是100％。因此，要测试训练后模型的预测准确性，可以用精确率和召回率来衡量模型的好坏。

需要说明的是，在少量数据集上用xgboost模型预测计算，其效果比卷积神经网络模型好，但如果数据量稍大，采用LightGBM模型可以并行计算，以减少训练时间。

根据本发明实施例提供的方案，通过获取慢性病诊断数据，利用正则表达方式，或命名实体识别方式，提取有用的诊断数据，得到待测诊断数据。此外，由于待测诊断数据中可能存在有缺失数据，所以需对缺失数据进行空值处理，最后利用精确率和召回率来衡量训练后模型对慢性病复发预测的准确性。采用该方法，可以解决训练样本分布不平衡的问题，进一步提高慢性病复发预测结果的准确性。

在一个实施例中，所述步骤S110，包括：

获取慢性病诊断数据；确定所述慢性病诊断数据的预测影响系数；所述预测影响系数根据对所述慢性病复发预测的重要程度确定；根据所述预测影响系数，在所述慢性病诊断数据中提取有用的诊断数据，作为所述待测诊断数据。

其中，慢性病诊断数据是指病人入院的病例信息。

其中，预测影响系数是指病人的病例信息中，对慢性病复发预测结果有直接的重要程度，若对慢性病复发预测重要的，则预测影响系数相对较大，若对慢性病复发预测不重要的，则预测影响系数相对较小。

具体实现中，首先获取慢性病诊断数据，即获取到病人的病例信息，进而获取慢性病诊断数据中，不同数据对慢性病复发预测的重要影响程度，则可确定慢性病诊断数据的预测影响系数，最终根据预测影响系数，在慢性病诊断数据中提取出有用的诊断数据，作为待测诊断数据。

例如，慢性病诊断数据中包括有年龄、性别、有无咳嗽病史、各项检验检测指标、国籍、床位号等，确定不同数据的预测影响系数，可以得到年龄、性别、有无咳嗽病史、各项检验检测指标等数据的预测影响系数为1，国籍、床位号等数据的预测影响系数为0。

在一个实施例中，所述进出院时间包括初次进出院时间和/或再次进出院时间。

其中，初次进出院时间是指病人的第一次入院时间，和/或第一次出院时间，例如，2019年1月1日、2019年1月23日。

其中，再次进出院时间是指病人的再次入院时间，和/或再次出院时间，例如，2019年5月21日、2019年6月1日。

具体实现中，病人的进出院时间可以是只包含有初次进出院时间，或只包含有再次进出院时间，还可以是包含初次进出院时间和再次进出院时间。

例如，某个病人的病例信息中包含第一次入院时间为2019年1月1日、第一次出院时间为2019年1月23日、再次入院时间为2019年5月21日以及再次出院时间为2019年6月1日。

在一个实施例中，当所述进出院时间包括初次进出院时间时，所述初次进出院时间包括初次入院时间和/或初次出院时间；当所述进出院时间包括再次进出院时间时，所述再次进出院时间包括再次入院时间和/或再次出院时间。

具体实现中，当进出院时间包括初次进出院时间时，可以是仅包含第一次入院时间，或第一次出院时间，还可以是包含第一次入院时间和第一次出院时间；当进出院时间包括再次进出院时间时，可以是仅包含再次入院时间，或再次出院时间，还可以是包含再次入院时间和再次出院时间。

在一个实施例中，当所述进出院时间包括初次出院时间和再次入院时间时，所述步骤S120，包括：

获取所述初次出院时间和所述再次入院时间；计算所述再次入院时间与所述初次出院时间的间隔时间；当所述间隔时间小于365时，生成所述待测诊断数据的正标签，并且，当所述间隔时间大于等于365时，生成所述待测诊断数据的负标签；将所述正标签的待测诊断数据与所述负标签的待测诊断数据按预设比例，作为所述模型训练样本。

其中，间隔时间是指再次入院时间与所述初次出院时间的时间差值，例如，初次出院时间为2019年1月1日，再次入院时间为2019年1月31日，则间隔时间为29天。

具体实现中，当进出院时间中包括有初次出院时间和再次入院时间时，计算再次入院时间与初次出院时间的时间差值，得到间隔时间，然后判断该间隔时间域是否小于一年，即365天。当间隔时间小于365时，生成待测诊断数据的正标签，即将该病人的病例信息生成一个标签值为1的正标签；当间隔时间大于等于365时，生成待测诊断数据的负标签，即将该病人的病例信息生成一个标签值为0的负标签，标签生成后即完成了对病人病例信息的归类，即将待测诊断数据完成了正、负标签的二分类操作。完成待测诊断数据添加标签额步骤后，将正标签的待测诊断数据与负标签的待测诊断数据，按预设比例，作为xgboost模型训练样本。

例如，某个病人的初次出院时间为2019年1月1日，再次入院时间为2019年1月31日，则间隔时间为29天，小于365天，即将该病人的待测诊断数据生成一个正标签，表示对该病人病例信息的一次分类。

在一个实施例中，将所述正标签的待测诊断数据与所述负标签的待测诊断数据按1：1.5的比例，作为所述模型训练样本。

具体实现中，为了避免待测诊断数据的标签颜总分布不均衡，可以将标注正标签与负标签的待测诊断数据，按照1:1.5的比例作为模型训练样本训练模型。

例如，按照正负标签1:1.5的比例选择训练样本，则可以是选择50个带有正标签的待测诊断数据，选择75个带有负标签的待测诊断数据，作为模型训练样本训练xgboost模型。

根据本发明实施例提供的方案，通过获取慢性病诊断数据，利用慢性病诊断数据对慢性病复发预测的重要程度来确定其预测影响系数，以得到待测诊断数据。此外，通过进出院时间来判断该待测诊断数据所指病人是否是一年内再次入院治疗，以此定义各待测诊断数据的标签。通过各待测诊断数据的标签类型选择模型训练样本，以求训练出可对慢性病复发进行预测的xgboost模型。采用该方法，可以解决训练样本分布不平衡的问题，进一步提高慢性病复发预测结果的准确性。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图2所示，提供了一种慢性病复发预测装置，包括：数据获取模块210、样本确定模块220、模型获取模块230，其中：

数据获取模块210，用于获取待测诊断数据；所述待测诊断数据包括有进出院时间；

样本确定模块220，用于根据所述进出院时间，将所述待测诊断数据作为模型训练样本；

模型获取模块230，用于采用所述模型训练样本训练所述xgboost模型，得到训练后模型；所述训练后模型用于对所述待测诊断数据进行慢性病复发预测。

根据本发明实施例提供的方案，通过获取待测诊断数据，利用待测诊断数据中的进出院时间，来判断该待测诊断数据是否可作为模型训练样本，以及，在可作为模型训练样本的基础上，按照一定规则训练xgboost模型，确定模型训练样本后，采用模型训练样本训练xgboost模型，得到训练后模型，即可利用训练后模型对所述待测诊断数据进行慢性病复发预测。采用该方案，可以解决训练样本分布不平衡的问题，进而提高慢性病复发预测结果的准确性。

在一个实施例中，所述数据获取模块210包括：

数据获取子模块，用于获取慢性病诊断数据；数据提取子模块，用于将所述慢性病诊断数据按照正则表达方式，和/或命名实体识别方式，提取有用的诊断数据，作为所述待测诊断数据。

在一个实施例中，所述装置还包括：

缺失数据确定模块，用于确定所述待测诊断数据中的单项缺失数据；缺失量获取模块，用于获取所述单项缺失数据的数据缺失量；空值处理模块，用于根据所述数据缺失量，对所述待测诊断数据进行空值处理，得到有效的待测诊断数据。

在一个实施例中，所述空值处理模块包括：

数据总量获取子模块，用于获取所述待测诊断数据的单项数据总量；百分比计算子模块，用于计算所述数据缺失量与所述单项数据总量的比值，得到数据缺失百分比；平均值处理子模块，用于当所述数据缺失百分比小于预设的百分比阈值时，计算所述待测诊断数据中的单项数据平均值，作为所述单项缺失数据的数值。

在一个实施例中，所述空值处理模块还包括：

数据删除子模块，用于当所述数据缺失百分比大于等于所述百分比阈值时，删除所述单项数据。

在一个实施例中，所述装置还包括：

预测结果获取模块，用于获取所述慢性病复发预测的预测结果；预测结果计算模块，用于计算所述预测结果的精确率和召回率；评价结果生成模块，用于根据所述精确率和所述召回率，生成模型评价结果；所述模型评价结果用于表示所述训练后模型的预测准确性。

根据本发明实施例提供的方案，通过获取慢性病诊断数据，利用正则表达方式，或命名实体识别方式，提取有用的诊断数据，得到待测诊断数据。此外，由于待测诊断数据中可能存在有缺失数据，所以需对缺失数据进行空值处理，最后利用精确率和召回率来衡量训练后模型对慢性病复发预测的准确性。采用该方案，可以解决训练样本分布不平衡的问题，进一步提高慢性病复发预测结果的准确性。

关于慢性病复发预测装置的具体限定可以参见上文中对于慢性病复发预测方法的限定，在此不再赘述。上述慢性病复发预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储第三方通讯设备的账户信息。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种慢性病复发预测方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待测诊断数据；所述待测诊断数据包括有进出院时间；

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取慢性病诊断数据；将所述慢性病诊断数据按照正则表达方式，和/或命名实体识别方式，提取有用的诊断数据，作为所述待测诊断数据。

当所述数据缺失百分比大于等于所述百分比阈值时，删除所述单项数据。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待测诊断数据；所述待测诊断数据包括有进出院时间；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于xgboost模型的慢性病复发预测的装置，其特征在于，所述装置包括：

数据获取模块，用于获取待测诊断数据；所述待测诊断数据包括进出院时间；

样本确定模块，用于根据所述进出院时间，将所述待测诊断数据作为模型训练样本，其中当所述进出院时间包括初次出院时间和再次入院时间时，获取所述初次出院时间和所述再次入院时间；计算所述再次入院时间与所述初次出院时间的间隔时间；当所述间隔时间小于365天时，生成所述待测诊断数据的正标签，并且，当所述间隔时间大于等于365天时，生成所述待测诊断数据的负标签，将所述正标签的待测诊断数据与所述负标签的待测诊断数据按预设比例，作为所述模型训练样本；

2.根据权利要求1所述的装置，其特征在于，所述将所述正标签的待测诊断数据与所述负标签的待测诊断数据按1：1.5的比例，作为所述模型训练样本。

3.根据权利要求1所述的装置，其特征在于，包括：

所述数据获取模块，用于获取慢性病诊断数据；

所述样本确定模块，用于将所述慢性病诊断数据按照正则表达方式，或命名实体识别方式，提取有用的诊断数据，作为所述待测诊断数据。

4.根据权利要求1所述的装置，其特征在于，所述装置还包括：

缺失数据确定模块，用于确定所述待测诊断数据中的单项缺失数据；

缺失量获取模块，用于获取所述单项缺失数据的数据缺失量；

空值处理模块，用于根据所述数据缺失量，对所述待测诊断数据进行空值处理，得到有效的待测诊断数据。

5.根据权利要求4所述的装置，其特征在于，所述空值处理模块包括：

数据总量获取子模块，用于获取所述待测诊断数据的单项数据总量；

百分比计算子模块，用于计算所述数据缺失量与所述单项数据总量的比值，得到数据缺失百分比；

平均值处理子模块，用于当所述数据缺失百分比小于预设的百分比阈值时，计算所述待测诊断数据中的单项数据平均值，作为所述单项缺失数据的数值。

6.根据权利要求5所述的装置，其特征在于，所述空值处理模块还包括：

7.根据权利要求1所述的装置，其特征在于，还包括：

预测结果获取模块，用于获取所述慢性病复发预测的预测结果；

预测结果计算模块，用于计算所述预测结果的精确率和召回率；

评价结果生成模块，用于根据所述精确率和所述召回率，生成模型评价结果；所述模型评价结果用于表示所述训练后模型的预测准确性。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以下的步骤：

获取待测诊断数据；所述待测诊断数据包括进出院时间；

根据所述进出院时间，将所述待测诊断数据作为模型训练样本，其中当所述进出院时间包括初次出院时间和再次入院时间时，获取所述初次出院时间和所述再次入院时间；计算所述再次入院时间与所述初次出院时间的间隔时间；当所述间隔时间小于365天时，生成所述待测诊断数据的正标签，并且，当所述间隔时间大于等于365天时，生成所述待测诊断数据的负标签，将所述正标签的待测诊断数据与所述负标签的待测诊断数据按预设比例，作为所述模型训练样本；

采用所述模型训练样本训练xgboost模型，得到训练后模型；采用所述训练后模型对所述待测诊断数据进行慢性病复发预测。

9.根据权利要求8所述的计算机设备，其特征在于，所述将所述正标签的待测诊断数据与所述负标签的待测诊断数据按1：1.5的比例，作为所述模型训练样本。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现以下步骤：

获取待测诊断数据；所述待测诊断数据包括进出院时间；

11.根据权利要求10所述的计算机可读存储介质，其特征在于，所述将所述正标签的待测诊断数据与所述负标签的待测诊断数据按1：1.5的比例，作为所述模型训练样本。