CN112786207A

CN112786207A - 数据筛选模型建立及数据筛选方法、装置、设备和介质

Info

Publication number: CN112786207A
Application number: CN202110119589.7A
Authority: CN
Inventors: 莫国龙; 赵永杰; 白永申; 安超
Original assignee: Lianren Healthcare Big Data Technology Co Ltd
Current assignee: Lianren Healthcare Big Data Technology Co Ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-05-11

Abstract

本发明实施例公开了一种数据筛选模型建立及数据筛选方法、装置、设备和介质，其中，模型建立方法包括：获取带有丙肝患者标签或非丙肝患者标签的预设项目临床数据；对预设项目临床数据进行数据预处理；基于预处理后的预设项目临床数据进行特征筛选处理，筛选出重要性满足预设条件的预设项目临床数据，作为感兴趣特征数据；将感兴趣特征数据输入至预设分类模型进行分类模型训练，当预设分类模型输出的分类结果与感兴趣特征数据对应的真实标签间损失函数满足预设收敛条件时，得到目标数据筛选模型。本发明实施例实现了基于对丙型肝炎患者以及非丙型肝炎患者的临床大数据的处理与分析，获取特征数据，建立用于筛选出目标患者数据的数据筛选模型。

Description

数据筛选模型建立及数据筛选方法、装置、设备和介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种数据筛选模型建立及数据筛选方法、装置、设备和介质。

背景技术

丙型肝炎是一种由丙型肝炎病毒感染引起的病毒性肝炎。主要经输血、针刺、吸毒、母婴等途径传播，可分为急性丙型肝炎和慢性丙型肝炎，少数病例可能会发展为肝硬化和肝癌。

由于丙型肝炎具有传播性，若能够根据与丙型肝炎的临床检验数据快速分析识别，对临床数据进行分类与筛选，能够在一定程度上辅助临床医生对病患数据的了解与认知。但是，目前还没有系统性的数据分析与筛选模型能够实现上述功能。

发明内容

本发明实施例提供了一种数据筛选模型建立及数据筛选方法、装置、设备和介质，以实现基于对丙型肝炎患者以及非丙型肝炎患者的临床数据的处理与分析，建立用于筛选出目标患者数据的数据筛选模型，从而实现快速的获取数据分析结果，能够辅助临床工作。

第一方面，本发明实施例提供了一种数据筛选模型建立方法，该方法包括：

获取带有丙型肝炎患者标签或非丙型肝炎患者标签的预设项目临床数据；

对所述预设项目临床数据进行数据预处理；

基于预处理后的预设项目临床数据进行特征筛选处理，筛选出重要性满足预设条件的预设项目临床数据，作为感兴趣特征数据；

将所述感兴趣特征数据输入至预设分类模型进行分类模型训练，当所述预设分类模型输出的分类结果与所述感兴趣特征数据对应的真实标签间损失函数满足预设收敛条件时，得到目标数据筛选模型。

可选的，获取带有丙型肝炎患者标签或非丙型肝炎患者标签的预设项目临床数据，包括：

从多个业务系统中读取带有丙型肝炎患者标签或非丙型肝炎患者标签，且进行加密处理的患者基础信息，以及各患者的临床数据，其中，所述患者基础信息包括患者编号、姓名、性别及年龄中至少一个，所述临床数据包括与丙型肝炎相关联的临床检验数据；

对所述患者基础信息进行解密操作，得到与各条患者基础信息对应的患者虚拟标识及预设基础信息项，其中，所述预设基础信息项为所述患者基础信息中的信息项，所述患者虚拟标识是将预设基础信息项与对应的临床数据相关联的标识；

根据所述虚拟标识将各患者的预设基础信息项与对应的临床数据进行拼接，得到带有丙型肝炎患者标签或非丙型肝炎患者标签的预设项目临床数据。

可选的，所述对所述预设项目临床数据进行数据预处理，包括：

将所述预设项目临床数据保存在数据仓库中，并删除同一患者的重复的预设项目临床数据；和/或，

删除在一条患者数据的数据尾部存在一个或多个预设项目的数据缺失的预设项目临床数据；和/或，

针对存在数据异常项目或在一条患者数据的头部或中间部位有数据缺失项的预设项目临床数据，计算不同患者的预设项目临床数据中所述数据异常项目或数据缺失项目对应的数据的众数，将所述众数替换对应的异常或缺失的数据。

可选的，基于预处理后的预设项目临床数据进行特征筛选处理，筛选出重要性满足预设条件的预设项目临床数据，作为感兴趣特征数据，包括：

将预处理后的预设项目临床数据中连续数据进行离散化处理，使各预设项目临床数据均为离散数据；

将各预设项目离散的临床数据进一步进行性离散化处理；

将进一步离散处理后的各预设项目临床数据进行归一化处理，使各预设项目临床数据具有相同量纲；

将归一化处理后的各预设项目临床数据进行筛选，筛选出重要性满足预设条件的预设项目临床数据作为感兴趣特征数据。

可选的，将归一化处理后的各预设项目临床数据进行筛选，筛选出重要性满足预设条件的预设项目临床数据作为感兴趣特征数据，包括：

将归一化处理后的各项临床数据输入至预设提升树模型，由所述预设提升树模型计算并输出各预设项目临床数据特征重要度值；

对各预设项目临床数据特征重要度值进行排序，并将重要度值排序满足预设条件的数据作为感兴趣特征数据。

第二方面，本发明实施例提供了一种数据筛选方法，该方法包括：

获取待筛选预设项目临床数据，并对所述待筛选预设项目临床数据进行预处理得到预设感兴趣特征数据；

将所述预设感兴趣特征数据输入至，经任一实施例所述的数据筛选模型建立方法，确定的数据筛选模型中，使所述数据筛选模型确定并输出目标数据；

其中，所述预设项目临床数据是用于建立所述数据筛选模型的临床数据中对应项目的临床数据，所述预设感兴趣特征数据是所述数据筛选模型建立过程中筛选出的感兴趣特征数据项目对应的数据。

第三方面，本发明实施例还提供了一种数据筛选模型建立装置，该装置包括：

数据获取模块，用于获取带有丙型肝炎患者标签或非丙型肝炎患者标签的预设项目临床数据；

数据预处理模块，用于对所述预设项目临床数据进行数据预处理；

特征筛选模块，用于基于预处理后的预设项目临床数据进行特征筛选处理，筛选出重要性满足预设条件的预设项目临床数据，作为感兴趣特征数据；

模型建立模块，用于将所述感兴趣特征数据输入至预设分类模型进行分类模型训练，当所述预设分类模型输出的分类结果与所述感兴趣特征数据对应的真实标签间损失函数满足预设收敛条件时，得到目标数据筛选模型。

第四方面，本发明实施例还提供了一种数据筛选装置，该装置包括：

数据预处理模块，用于获取待筛选预设项目临床数据，并对所述待筛选预设项目临床数据进行预处理得到预设感兴趣特征数据；

数据筛选模块，用于将所述预设感兴趣特征数据输入至，经权利要求1-5中任一所述的数据筛选模型建立方法，确定的数据筛选模型中，使所述数据筛选模型确定并输出目标数据；

第五方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所提供的数据筛选模型建立方法或数据筛选方法。

第六方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的数据筛选模型建立方法或数据筛选方法。

上述发明中的实施例具有如下优点或有益效果：

本发明实施例，通过基于带有丙型肝炎患者标签或非丙型肝炎患者标签的预设项目临床数据，并在数据预处理之后从中提取出重要性满足预设条件的预设项目临床数据，作为感兴趣特征数据，进而将所述感兴趣特征数据输入至预设分类模型进行分类模型训练，当所述预设分类模型输出的分类结果与所述感兴趣特征数据对应的真实标签间损失函数满足预设收敛条件时，得到目标数据筛选模型；解决了现有技术中未能基于大量的丙型肝炎患者以及非丙型肝炎患者的临床数据进行分析并学习数据特征，筛选出目标数据的问题，实现了基于对丙型肝炎患者以及非丙型肝炎患者的临床大数据的处理与分析，获取特征数据，建立用于筛选出目标患者数据的数据筛选模型，使目标数据，能够辅助临床工作。

附图说明

图1是本发明实施例一提供的一种数据筛选模型建立方法的流程图；

图2是本发明实施例一提供的一种ALB数据分类图；

图3是本发明实施例一提供的一种临床数据特征重要度值展示图；

图4是本发明实施例一提供的一种数据筛选模型训练效果图；

图5是本发明实施例二提供的一种数据筛选方法的流程图；

图6是本发明实施例三提供的一种数据筛选模型建立装置的结构示意图；

图7是本发明实施例四提供的一种数据筛选装置的结构示意图；

图8是本发明实施例五提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种数据筛选模型建立方法的流程图，本实施例可适用于基于大量的丙型肝炎相关的临床数据建立丙型肝炎数据筛选模型的情况。该方法可以由配置于数据筛选模型建立装置执行，该装置可以由软件和/或硬件的方式来实现，集成于具有应用开发功能的电子设备中。

如图1所示，数据筛选模型建立方法包括以下步骤：

S110、获取带有丙型肝炎患者标签或非丙型肝炎患者标签的预设项目临床数据。

本实施例中建立的数据筛选模型，主要的应用场景是对与丙型肝炎相关联的临川检验数据及其他相关数据进行筛选，从而筛选出目标数据。具体的，目标数据可以是在一定概率上属于丙型肝炎患者的(即数据标签为丙型肝炎患者)数据，可以是从确诊的或未确诊的丙型肝炎患者数据进行筛选，以筛选出符合设定条件的患者数据，从而使目标数据起到辅助的作用，给相关人员以参考。因此，在模型建立阶段采用的样本数据为丙型肝炎患者和非丙型肝炎患者的预设项目的临床数据。其中，预设项目临床数据可以是任何在临床中采集的与丙型肝炎相关的数据，包括数据采集对象(丙型肝炎患者或非丙型肝炎患者)的基本信息、患者生活习惯或身体状态方面的数据，以及通过生物化学实验进行测得的指标数据。示例性的，预设项目临床数据包括性别、是否吸烟、是否饮酒、ALB血蛋白及ALP碱性磷酸酶等10余项与肝病相关的血样检测指标特征中至少一个。每一条样本数据即为一个数据采集对象的所有预设项目临床数据，该对象是丙型肝炎患者或者非丙型肝炎患者即为该条样本数据的数据标签，即在大体上将样本数据分类为丙型肝炎患者的预设项目临床数据和非丙型肝炎患者的预设项目临床数据。

进一步的，样本数据的来源通常是各个医院方的业务系统，数据之间并未产生联系，形成数据孤岛，无法直接以及充分利用历史数据，需要从各医院方将获取到的数据进行整合，通过大数据整合技术将分散在各个业务系统中的数据进行抽取与整理，形成一份可用于模型训练的数据以及后续需要分类的数据。这里采用的数据抽取工具为开源工具sqoop。通过sqoop将模型所需要的数据分别从不同业务系统中抽取出来，并保存到分布式数据库Hive中。

进一步的，为了保护患者的隐私，从医院方获取到的临床数据通常是进行加密的，包括患者基础信息以及与丙型肝炎相关的临床数据项两部分。在进行数据整合的过程中，最主要的是进行数据解密，以及数据拼接，从而获得完整的一条样本数据。

具体的，执行数据筛选模型建立的装置，能够读取的数据均为带有丙型肝炎患者标签或非丙型肝炎患者标签，且进行加密处理的患者基础信息，以及各患者的与丙型肝炎相关的临床数据。这是院方对数据进行加密处理的结果，会隐藏患者的姓名、身份证号码及医保卡等患者基础信息，并将各患者与其对应的临床数据建立关联关系。因此，在读取了患者基础信息及临床数据之后，对患者基础信息进行解密操作，得到与各条患者基础信息对应的患者虚拟标识及预设基础信息项，其中，患者虚拟标识是将患者基础信息与对应的预设项目临床数据相关联的标识，预设基础信息项为患者基础信息中的信息项，例如病患性别、与年龄，主要目的是方便院方能够将数据筛选模型的结果与真实的数据相关联。然后，再通过患者虚拟标识将各患者的基础信息与对应的临床信息进行拼接，得到隐私加临床共存的数据，即带有丙型肝炎患者标签或非丙型肝炎患者标签的预设项目临床数据。

若是，执行数据筛选模型建立的装置能够直接获得满足需求的带有丙型肝炎患者标签或非丙型肝炎患者标签的预设项目临床数据，便可以直接进行后续的数据处理过程。

S120、对所述预设项目临床数据进行数据预处理。

通常，在将患者基础信息与临床数据关联(拼接)保存后，会出现因数据同步延迟问题导致出现患者预设基础信息项或者临床数据不统一或不同步的情况，因此，会出现数据缺失、重复及数据超出范围的情况。经过数据同步延时处理后，仍然出现数据缺失或重复时，则需要对数据进行数据清洗预处理。

具体的，在本实施例中，数据保存到hive数据仓库中，考虑到效率问题，可以采用spark对数据进行预处理工作。

由于数据在原始库中存在重复的样本，导致数据在合并后仍然存在重复信息。但相同的数据对于模型来说并不会产生正向效果，反而会因为重复数据的出现而增加计算量开销，计算时间增长。因此需要判断数据是否出现重复，若有重复数据则仅保留一条，其余删除即可。这里需要说明的是，重复数据需要整条数据中的每一个字段对应都相同才判断为重复数据。针对重复出现的样本数据，需要进行删除，即删除同一患者的重复的预设项目临床数据，例如一个患者的数据重复出现了两次，那么将其中一份数据删除即可。

由于数据为检验指标的历史数据，检验指标均为人为采集，机器生成。其中较老的一批数据为人为录入数据，因此会存在数据缺失。而根据数据缺失情况分析主要分为数据头部或中部缺失，另一部分为数据尾部缺失。头部或中部缺失根据分析为检验机器无法得到该项指标造成，而尾部缺失则为系统错误导致数据缺失后格式无法对齐导致。上述两种情况中，第一种情况可以明确为哪一项指标缺失，可采用该项指标的中位数对其进行修复。而第二种情况因为无法判断为哪项指标缺失导致而无法进行修复，只能将该情况数据进行剔除。

进一步的，业务系统在保存数据的时候会因为不同的仪器设计以及人工录入的原因导致数据指标超出应该在的范围内。例如：性别保存为其他，ALT(谷丙转氨酶)为负数，PROT(蛋白质含量)为999等。此类数据均为异常范围数据，需要将其删除与替换。其中，每项指标均有其正常数据范围，若超出该范围即可判定为异常数据。针对存在数据异常项目的预设项目临床数据，先将异常数据剔除，此项变为空数据，然后计算不同患者的预设项目临床数据中数据异常项目对应的数据的众数，利用确定的众数替换异常的数据即可。需要注意的是，若异常数据在转为空数据后与该存在异常数据的项目原有缺失数据占比和超过整体数据量的15％，则该存在异常数据的项目成为不可用特征数据，失去数据价值，最终会影响到模型建立的结果，需要删除该存在异常数据的项目，即整列删除，此特征数据，不再纳入模型训练(建立)样本数据中。

S130、基于预处理后的预设项目临床数据进行特征筛选处理，筛选出重要性满足预设条件的预设项目临床数据，作为感兴趣特征数据.

具体的，由于预设项目临床数据存在多个数据项目，不同的数据项对模型建立的结果影响不同，需要从预设项目临床数据中筛选出对模型建立的结果影响较大的数据项作为特征数据，进行模型的训练，以保证模型的训练效率。

首先，预设项目临床数据中的各项目数据，分为数值型连续特征数据(如ALB、ALP、ALT等检验指标)与类别型离散特征数据(如性别、是否吸烟及是否喝酒等)，因为所有数据均放到同一可比较维度下进行计算才能更加准确的让模型理解，所以需要进一步的将数据进行统一。具体的，针对数值型连续特征数据，可结合数据分析结果进行特征扩充。示例性的，可以统计出不同数值范围及不同性别的ALB这一数据特征的分类情况，分类结果可如图2所示的ALB数据分类图。从图2中可以看出，ALB数值这一特征，可分类得到多个特征。进一步的，连续数据存在大小关系，但为了让模型更加充分的理解数据，可以根据现有的连续数据生成相关的离散数据。即将预处理后的预设项目临床数据中连续数据进行离散化处理，使各预设项目临床数据均为离散数据。例如，年龄原始数据范围在20-90岁之间的整数，可以进行平均分段操作将年龄划分为以10岁为一个阶段，并生成一列数据。如20-30、30-40等，这样就能将数据从连续数据转换为离散数据。

再进一步的，考虑到不同数据范围不同，且不同数值之间不具备可比较性，例如ALB和ALP之间是不具有可比性的。因此需要对现有的连续数据进行进一步处理，将所有数据均放到同一可比较维度下进行计算才能更加准确的让模型理解。示例性的，可以采用最大最小归一算法进行数据的处理，即先将需要进行归一化处理的数据减去其所在列中的最小值得到第一差值，然后将需要进行归一化处理的数据所在列的最大值减去最小值得到第二差值，最后再用第一差值除以第二差值，得到归一化处理后的数值。

针对类别型离散特征数据，以及由数值型连续特征数据处理得到的离散型特征数据，由于数据数值会存在大小的逻辑关系，而离散数据并非存在大小关系，因此，将各预设项目离散的临床数据进一步进行性离散化处理。例如，将性别值为(0或1)的情况转换为性别男1和性别女0，或性别男0，性别女1。也就是将原来的一项为性别的特征转换为两项分别为性别男和性别女，其中，是对应性别时值为1，否则为0。这样的离散特征将不在受到其中大小关系的影响。

经过上述操作之后，会生成比原有预设项目临床数据和新的项目数据特征更多的特征，这些特征中，有些会对模型有影响，有些没有。需要在最终模型训练之前，再从更多的特征中进行筛选，选出对数据筛选模型影响更大，更加重要的特征，以提高模型的计算效率。在本实施例中，特征重要度计算方法主要采用lightgbm提升树模型进行特征重要度选择计算，将归一化处理后的各项临床数据输入至lightgbm模型，由lightgbm模型计算并输出各预设项目临床数据特征重要度值；进而对各预设项目临床数据特征重要度值进行排序，并将重要度值排序满足预设条件的数据作为感兴趣特征数据。在一个具体实例中，一些在临床采集数据的特征重要度计算结果可参考图3所示的特征重要度(importance)展示图表。具体的，在图3中，column列为各预设临床数据项目特征名称，importance列为各特征对应的重要度数值。其中，ALP为碱性磷酸酶，AST为天门冬氨酸氨基转移酶，ALT为谷丙转氨酶，CHE为胆碱酯酶，GGT为谷氨酰转肽酶，PROT为总蛋白，BIL为尿胆红素，Age为年龄，CREA为肌酐，ALB为血蛋白，CHOL为总胆固醇，f标识女性，m表示男性。经过特征重要度计算，我们可以发现，性别特征在转变为f和m后对模型计算结果均不会产生影响，因此后续及模型搭建中可将该部分数据进行剔除。从中也可以发现，在历史数据中，是否会患有丙型肝炎与性别是男还是女无关。

S140、将所述感兴趣特征数据输入至预设分类模型进行分类模型训练，当所述预设分类模型输出的分类结果与所述感兴趣特征数据对应的真实标签间损失函数满足预设收敛条件时，得到目标数据筛选模型。

在本实施例中，考虑到后续部署的可实施与操作性，采用传统机器学习中的XGBoost或lightgbm等提升树模型架构进行模型训练，将所述感兴趣特征数据输入至预设提升树模型进行分类模型训练，使模型学习丙型肝炎患者和非丙型肝炎患者的相同项目的临床特征数据，最终能够识别出各输入数据的标签，进行数据的分类。当预设提升树模型输出的分类结果与感兴趣特征数据对应的丙型肝炎患者标签或非丙型肝炎患者标签间损失函数满足预设收敛条件时，得到目标数据筛选模型。其中，模型的分类结果包括感兴趣特征数据对应的对象是丙型肝炎患者的概率值，因此，可以通过目标数据筛选模型筛选出在一定概率上属于丙型肝炎患者的数据，从而确定筛选出的目标数据。

当然，可用于分类的模型有很多均可以实现本实施例的方法，但是经过在实例中的数据测试，lightgbm的最终模型效果以及评估指标相较于其他模型更优，因此，采用lightgbm进行模型训练，模型训练的效果图可参考图3所示的效果图。图4中，横坐标为假阳性率(False Positive Rate)，纵坐标为真阳性率(True Positive Rate)。实线为ROC曲线(receiver operating characteristic curve，受试者工作特征曲线)较靠近左上角，模型输出结果的准确性就较高。

本实施例的技术方案，通过基于带有丙型肝炎患者标签或非丙型肝炎患者标签的预设项目临床数据，并在数据预处理之后从中提取出重要性满足预设条件的预设项目临床数据，作为感兴趣特征数据，进而将所述感兴趣特征数据输入至预设分类模型进行分类模型训练，当所述预设分类模型输出的分类结果与所述感兴趣特征数据对应的真实标签间损失函数满足预设收敛条件时，得到目标数据筛选模型；解决了现有技术中未能基于大量的丙型肝炎患者以及非丙型肝炎患者的临床数据进行分析并学习数据特征，筛选出目标数据的问题，实现了基于对丙型肝炎患者以及非丙型肝炎患者的临床大数据的处理与分析，获取特征数据，建立用于筛选出目标患者数据的数据筛选模型，使目标数据，能够辅助临床工作。

实施例二

图5为本发明实施例二提供的一种数据筛选方法的流程图，本实施例可适用于对丙型肝炎相关临床数据进行筛选的情况。该方法可以由数据筛选装置执行，该装置可以由软件和/或硬件的方式来实现，集成于具有应用开发功能的计算机设备中。

如图5所示，数据筛选方法包括以下步骤：

S210、获取待筛选预设项目临床数据，并对所述待筛选预设项目临床数据进行预处理得到预设感兴趣特征数据。

当在实验过程中或是应用过程中，有需要进行筛选的丙型肝炎相关的预设项目临床数据时，便可以采用由本发明实例提供的数据筛选模型建立方法建立的数据筛选模型进行数据的筛选。

首先，就是对待筛选预设项目临床数据进行预处理，如异常的数据纠正、数据离散化处理、数据归一化处理及将不属于预设感兴趣特征数据进行删除等操作，最终得到预设感兴趣特征数据。当然，预设项目临床数据是与用于建立数据筛选模型的临床数据中相对应项目的临床数据，预设感兴趣特征数据是与数据筛选模型建立过程中筛选出的感兴趣特征数据项目对应的特征数据。

S220、将所述预设感兴趣特征数据输入至，经任一实施例所述的数据筛选模型建立方法，确定的数据筛选模型中，使所述数据筛选模型确定并输出目标数据。

将数据预处理后得到的，与待筛选预设项目临床数据对应的预设感兴趣特征数据输入至由本发明实例提供的数据筛选模型建立方法建立的数据筛选模型，即可通过模型计算并输出待筛选预设项目临床数据属于丙型肝炎患者的概率。

这里需要说明的是，该模型并不用于对丙型肝炎进行诊断，只是基于大数据的学习，对临床数据进行分类筛选，通常输出的结果不会是百分之百，对于非丙型肝炎患者来说，可以将数据作为参考，以作为警示，提醒大家注意保持身体健康的状态。

在一种实施方式中，可将该数据筛选模型嵌入应用到血液样本识别仪器中，通过与仪器连接的计算机设备计算并执行相应的数据处理与数据筛选过程，比如现在的血液样本分析仪，在生成各项数据检查指标后通过模型就可以计算出该血液样本含有丙型肝炎病毒的概率，并随报告同时生成。这样就能够快速得知该样本的安全性。本实施例的技术方案，通过对待筛选预设项目临床数据进行预处理得到预设感兴趣特征数据，然后将预设感兴趣特征数据输入至，本发明任一实施例提供的数据筛选模型建立方法确定的数据筛选模型中，从而得到待筛选预设项目临床数据的标签为丙型肝炎患者的概率，以快速筛选出目标数据。

实施例三

图6为本发明实施例三提供的一种数据筛选模型建立装置的结构示意图，本实施例可适用于基于大量的丙型肝炎相关的临床数据建立丙型肝炎数据筛选模型的情况。

如图6所示，数据筛选模型建立装置包括数据获取模块310、数据预处理模块320、特征筛选模块330和模型建立模块340。

其中，数据获取模块310，用于获取带有丙型肝炎患者标签或非丙型肝炎患者标签的预设项目临床数据；数据预处理模块320，用于对所述预设项目临床数据进行数据预处理；特征筛选模块330，用于基于预处理后的预设项目临床数据进行特征筛选处理，筛选出重要性满足预设条件的预设项目临床数据，作为感兴趣特征数据；模型建立模块340，用于将所述感兴趣特征数据输入至预设分类模型进行分类模型训练，当所述预设分类模型输出的分类结果与所述感兴趣特征数据对应的真实标签间损失函数满足预设收敛条件时，得到目标数据筛选模型。

可选的，数据获取模块310用于：

可选的，数据预处理模块320用于：

可选的，所述特征筛选模块330用于：

将各预设项目离散的临床数据进一步进行性离散化处理；

可选的，所述特征筛选模块330还用于：

本发明实施例所提供的数据筛选模型建立装置可执行本发明任意实施例所提供的数据筛选模型建立方法，具备执行方法相应的功能模块和有益效果。

实施例四

图7为本发明实施例四提供的一种数据筛选装置的结构示意图，本实施例可适用于基于数据筛选模型筛选出目标患者数据的情况。

如图7所示，数据筛选装置包括数据预处理模块410和数据筛选模块420。

其中，数据预处理模块410，用于获取待筛选预设项目临床数据，并对所述待筛选预设项目临床数据进行预处理得到预设感兴趣特征数据；数据筛选模块420，用于将所述预设感兴趣特征数据输入至，经任一实施例所述的数据筛选模型建立方法，确定的数据筛选模型中，使所述数据筛选模型确定并输出目标数据；其中，所述预设项目临床数据是用于建立所述数据筛选模型的临床数据中对应项目的临床数据，所述预设感兴趣特征数据是所述数据筛选模型建立过程中筛选出的感兴趣特征数据项目对应的数据。

本实施例的技术方案，通过对待筛选预设项目临床数据进行预处理得到预设感兴趣特征数据，然后将预设感兴趣特征数据输入至，本发明任一实施例提供的数据筛选模型建立方法确定的数据筛选模型中，从而得到待筛选预设项目临床数据的标签为丙型肝炎患者的概率，以快速筛选出目标数据。

本发明实施例所提供的数据筛选装置可执行本发明任意实施例所提供的数据筛选方法，具备执行方法相应的功能模块和有益效果。

实施例五

图8为本发明实施例四提供的一种电子设备的结构示意图。图8示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图8显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。计算机设备12可以任意具有计算能力的终端设备，如智能控制器及服务器、手机等终端设备。

如图8所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如系统存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的一种数据筛选模型建立方法步骤，该方法包括：

对所述预设项目临床数据进行数据预处理；

例如，还可以实现本发明实施例所提供的一种数据筛选方法步骤，该方法包括：

实施例六

本实施例六提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如实现本发明实施例所提供的一种数据筛选模型建立方法步骤，该方法包括：

对所述预设项目临床数据进行数据预处理；

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++、Python，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种数据筛选模型建立方法，其特征在于，包括：

对所述预设项目临床数据进行数据预处理；

2.根据权利要求1所述的方法，其特征在于，获取带有丙型肝炎患者标签或非丙型肝炎患者标签的预设项目临床数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述预设项目临床数据进行数据预处理，包括：

4.根据权利要求1中所述的方法，其特征在于，基于预处理后的预设项目临床数据进行特征筛选处理，筛选出重要性满足预设条件的预设项目临床数据，作为感兴趣特征数据，包括：

将各预设项目离散的临床数据进一步进行性离散化处理；

5.根据权利要求4所述的方法，其特征在于，将归一化处理后的各预设项目临床数据进行筛选，筛选出重要性满足预设条件的预设项目临床数据作为感兴趣特征数据，包括：

6.一种数据筛选方法，其特征在于，所述方法包括：

将所述预设感兴趣特征数据输入至，经权利要求1-5中任一所述的数据筛选模型建立方法，确定的数据筛选模型中，使所述数据筛选模型确定并输出目标数据；

7.一种数据筛选模型建立装置，其特征在于，包括：

8.一种数据筛选装置，其特征在于，所述装置还包括：

9.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的数据筛选模型建立方法或如权利要求6所述的数据筛选方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的数据筛选模型建立方法或如权利要求6所述的数据筛选方法。