CN114936204A

CN114936204A - 一种特征筛选方法、装置、存储介质及电子设备

Info

Publication number: CN114936204A
Application number: CN202210619079.0A
Authority: CN
Inventors: 成晓亮; 张磊; 周岳; 张伟; 郑可嘉
Original assignee: Nanjing Pinsheng Medical Technology Co ltd; Jiangsu Pinsheng Medical Technology Group Co ltd
Current assignee: Nanjing Pinsheng Medical Technology Co ltd; Jiangsu Pinsheng Medical Technology Group Co ltd
Priority date: 2022-06-01
Filing date: 2022-06-01
Publication date: 2022-08-23

Abstract

本发明公开了一种特征筛选方法、装置、存储介质及电子设备。方法包括：获取原始临床数据和原始组学数据，分别将原始临床数据和原始组学数据进行数据转换，得到用于特征筛选的临床数据和组学数据；对于临床数据和组学数据中的各数据特征，分别确定各数据特征的筛选影响参数，并基于筛选影响参数从所述各数据特征中筛选候选数据特征；基于候选数据特征确定特征子集，并基于各特征子集进行以分类为处理目标的机器学习模型训练；基于各机器学习模型的训练过程数据确定处理目标的对应的目标数据特征。通过对临床数据和组学数据进行特征筛选，提高了特征筛选的全面性。对临床数据和组学数据进行双重筛选，从不同维度进行筛选，提高了特征筛选的准确性。

Description

一种特征筛选方法、装置、存储介质及电子设备

技术领域

本发明涉及数据处理技术领域，尤其涉及一种特征筛选方法、装置、存储介质及电子设备。

背景技术

目前质谱技术正在蓬勃发展，并广泛应用于临床多领域的检测项目，包括内分泌、心血管、肿瘤、和药物治疗等等。质谱技术是实现精准诊断和精准医疗必不可少的工具。基于质谱技术，可以获得临床样本的蛋白质组学，代谢组学，脂质组学等多种组学大数据。相应的，如何对质谱技术带来的多组学数据进行合理有效的分析是研究的关键点和热点之一。

在实现本发明的过程中，发现现有技术中至少存在以下技术问题：目前，部分机构或者研究者开发出对部分组学数据进行分析的系统，但该系统分析对象具有局限性，同时存在使用复杂、分析不全面的问题。

发明内容

本发明提供了一种特征筛选方法、装置、存储介质及电子设备，以解决提高特征筛选的准确性和全面性。

根据本发明的一方面，提供了一种特征筛选方法，包括：

获取原始临床数据和原始组学数据，分别将所述原始临床数据和所述原始组学数据进行数据转换，得到用于特征筛选的临床数据和组学数据；

对于所述临床数据和组学数据中的各数据特征，分别确定各数据特征的筛选影响参数，并基于所述筛选影响参数从所述各数据特征中筛选候选数据特征；

基于所述候选数据特征确定特征子集，并基于各特征子集进行处理目标的机器学习模型训练；

基于各机器学习模型的训练过程数据确定所述处理目标的对应的目标数据特征。

根据本发明的另一方面，提供了一种特征筛选装置，包括：

数据转换模块，用于获取原始临床数据和原始组学数据，分别将所述原始临床数据和所述原始组学数据进行数据转换，得到用于特征筛选的临床数据和组学数据；

候选特征筛选模块，用于对于所述临床数据和组学数据中的各数据特征，分别确定各数据特征的筛选影响参数，并基于所述筛选影响参数从所述各数据特征中筛选候选数据特征；

模型训练模块，用于基于所述候选数据特征确定特征子集，并基于各特征子集进行处理目标的机器学习模型训练；

目标数据特征确定模块，用于基于各机器学习模型的训练过程数据确定所述处理目标的对应的目标数据特征。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的特征筛选方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的特征筛选方法。

本实施例的技术方案，通过在原始临床数据和原始组学数据中筛选目标数据特征，提高了筛选出的目标数据特征的全面性。同时，对原始临床数据和原始组学数据分别基于不同的转化方式进行数据转换，得到满足筛选条件的临床数据和组学数据，便于对得到的临床数据和组学数据进行特征筛选，解决了临床数据的数据项多样化、数据内容多样化的问题。进一步的，对满足筛选条件的临床数据和组学数据进行双重筛选，从不同维度进行筛选，提高了特征筛选的准确性。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种特征筛选方法的流程示意图；

图2是本发明实施例提供的一种特征筛选方法的流程图；

图3是本发明实施例提供的一种特征筛选方法的流程图；

图4是本发明实施例提供的一种特征筛选方法的流程图；

图5是本发明实施例提供的一种特征筛选装置的结构示意图；

图6是实现本发明实施例的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1是本发明实施例提供的一种特征筛选方法的流程示意图，本实施例可适用于在大量数据特征中筛选用于预测处理目标的数据特征的情况，该方法可以由特征筛选装置来执行，该特征筛选装置可以采用硬件和/或软件的形式实现，该特征筛选装置可配置于诸如计算机、服务器等的电子设备中。如图1所示，该方法包括：

S110、获取原始临床数据和原始组学数据，分别将所述原始临床数据和所述原始组学数据进行数据转换，得到用于特征筛选的临床数据和组学数据。

S120、对于所述临床数据和组学数据中的各数据特征，分别确定各数据特征的筛选影响参数，并基于所述筛选影响参数从所述各数据特征中筛选候选数据特征。

S130、基于所述候选数据特征确定特征子集，并基于各特征子集进行处理目标的机器学习模型训练。

S140、基于各机器学习模型的训练过程数据确定所述处理目标的对应的目标数据特征。

其中，原始临床数据可以是通过数据采集设备采集得到，或者可以是历史采集数据，示例性的，原始临床数据包括但不限于血压、心率、呼吸次数等。原始组学数据可以是通过质谱技术得到的，例如原始组学数据包括但不限于蛋白质组学、代谢组学、脂质组学。需要说明的是，原始临床数据和原始组学数据为通过采集对象授权采集的，以及在完成特征筛选后，删除原始临床数据和原始组学数据，避免采集对象的数据泄露。

本实施例中，原始临床数据和原始组学数据可以分别包括多种数据项，每一数据项可以对应多个数据内容。对于有监督类型数据，任一数据项可以通过以下方式进行记录

其中x_i表示第i个样本特征向量，N表示有i＝1,…,N个样本特征向量。x_i的维度记为j＝1,…,D,每个维度x^(j)表示第j个特征，共有D个特征。y_i表示x_i的标签，y是分类型数据，该分类标签基于处理目标确定，处理目标可以是分类处理的目标维度，例如可以是基于任意疾病维度的分类。如果y是二分类，比如y_i可以是1或0的一种类型；如果y是多分类，比如y_i可以是0、1或2的一种类型，需要说明的是，此处的0、1或2分别作为一个分类标签，对各分类标签对应的具体内容不作限定。对于无监督类型数据，输入数据统一记为

此处没有标签。

本实施例中，原始临床数据和原始组学数据不符合统计学规律特性，无法对原始临床数据和原始组学数据直接进行筛选，分别将原始临床数据和原始组学数据进行数据转换，用于特征筛选的临床数据和组学数据。需要说明的是，原始临床数据和原始组学数据的转换方式不同，以及不同的原始临床数据的数据转换方式不同，可根据原始临床数据和原始组学数据中各数据项的数据类型和数据分布特征中的一项或多项确定对应的转换方式。

在一些实施例中，将所述原始临床数据进行数据转换，得到用于特征筛选的临床数据，包括：对于所述原始临床数据中的任一原始临床数据特征，确定所述原始临床数据特征的数据类型，根据原始临床数据特征的数据类型和数据分布特征，确定数据转换规则，并基于确定的数据转换规则对所述原始临床数据特征对应的数据值进行数据转换。

原始临床数据的集合可标记为

原始临床数据中的每一数据项均可以作为原始临床数据特征，原始临床数据中包括多个原始临床数据特征。由于原始临床数据的各原始临床数据特征的数据类型不同，分布特征不同，相应的，根据每一原始临床数据特征的数据类型和数据分布特征确定对应的数据转换规则，以将每一原始临床数据特征的数据内容转换为符合特征筛选条件的数据内容，即用于特征筛选的临床数据。

原始临床数据特征的数据类型可以包括分类型和数值型；其中，分类型的数据特征，其不同对象的数据内容有限，且属于固定的数据内容范围。数值型的数据特征，其不同对象的数据为非固定数据，可以是数据范围内的任意数据，且不局限正数。例如，某一分类型的原始临床数据特征，其任一对象的数据内容为{1，0}中的任一项，即任一对象的数据内容为0或1，不存在其他数据形式。某一数值型的原始临床数据特征，其任一对象的数据内容可以是(0,1)，相应的，其不同对象的数据内容为大于0小于1的任意数值，例如，0.5、0.33、0.96、0.5689等。

本实施例中，根据原始临床数据特征对应的数据内容的数值类型和数据值数量确定原始临床数据特征的数据类型，其中，数值类型可以是整数型和小数型，例如分类型的原始临床数据特征对应的数值类型可以是整数型，数值型的原始临床数据特征对应的数值类型可以包括整数型和小数型。数据值数量可以是非重复数据值的数量，其中，分类型的原始临床数据特征对应的数据值数量为有限的，且数据值数量较小，例如小于数量阈值，数值型的原始临床数据特征对应的数据值数量较大，或者数据值数量大于数量阈值。

可选的，所述确定所述原始临床数据特征的数据类型，包括：对所述原始临床数据特征的数据值进行去重处理，得到去重后的数据值；在去重后的各数据值满足整数且数据值数量小于等于预设阈值的情况下，确定所述原始临床数据特征的数据类型为分类型，以及在去重后的各数据值不满足整数且数据值数量小于等于预设阈值的情况下，确定所述原始临床数据特征的数据类型为数值型。通过对原始临床数据特征进行去重处理，去除重复的数据值，得到唯一性的数据值，得到原始临床数据特征的唯一性数据集合，可记为集合

统计该数据集合中数据值数量以及各数据中的数值类型，若集合中数据值满足整数且数据值数量小于等于预设阈值，则确定该原始临床数据特征的数据类型为分类型，相应的，若集合中数据值不是整数，或者集合中数据值的数据值数量大于预设阈值，则确定该原始临床数据特征的数据类型为数值型。其中，预设阈值可以是5，对此不作限定，可根据需求设置。示例性的，如果s₁各元素为整数且n≤5，x⁽¹⁾记为分类型数据0₁，否则为数值型数据1₁，判断结果存储在向量s＝(a₁)中，a为0或者1，其中，a为0表征分类型，a为1表征数值型。对于其他的原始临床数据特征分别通过上述判定过程确定对应的数据类型，得到原始临床数据中各原始临床数据特征的数据类型向量s＝(a₁,a₂,…,a_d)，a为0或者1。进一步的，不同的原始临床数据特征可同步执行上述判定过程，以提高数据类型的判定效率。

在上述实施例的基础上，预先设置数据转换规则库，该数据转换规则库中预先设置多个数据转换规则，以及各数据转换规则对应的数据类型和数据分布特征。相应的，根据原始临床数据特征的数据类型和数据分布特征，确定数据转换规则，包括：原始临床数据特征的数据类型和数据分布特征，在预先设置的数据转换规则库中进行匹配，根据匹配结果确定原始临床数据特征的数据转换规则。本实施例中，可以是将转换前的原始临床数据记为x⁽¹⁾，转换后的临床数据记为xx⁽¹⁾。

对于分类型的原始临床数据特征，即a为1的原始临床数据特征，其数据转换规则可以是不进行转换，相应的，xx⁽¹⁾＝x⁽¹⁾。

对于数值型的原始临床数据特征，即a为0的原始临床数据特征，若数据分布特征满足数据值无负数，且数据值位于[0,1]之间，则调用第一数据转换规则，该第一数据转换规则为

其中，若x⁽¹⁾＝0，则重新设置x⁽¹⁾＝1/(2N)，若x⁽¹⁾＝1，则重新设置x⁽¹⁾＝1-1/(2N)。

对于数值型的原始临床数据特征，若数据分布特征满足数据值无负数，且数据值包括[0,1]之外的数据值，则调用第二数据转换规则，该第二数据转换规则可以是将原始临床数据特征对应的数据值划分为三段数据集，例如可以是根据数据值大小进行数据集的划分，分别计算每一段数据集的方差和均值，以及方差和均值的比值variance/mean。在各个数据集的方差和均值的比值相同的情况下，对各数据值进行开平方转换，即

若各个数据集的，方差与均值四次方的比值variance/mean⁴相同，则对各数据值进行倒数转换，即xx⁽¹⁾＝1/(x⁽¹⁾)。

对于数值型的原始临床数据特征，若数据分布特征满足数据值无负数，且数据值呈现正偏态分布，即原始临床数据特征对应数据值的均值大于中位数大于众数，且不是所有值在[0,1]之间。调用第三数据转换规则，该第三数据转换规则可以是对数转换方法，具体的，根据数据值的大小，确定对数转换的底数，若最大的数据值大于第一预设阈值，例如第一预设阈值可以是100，则底数可以是10，若最大的数据值小于第一预设阈值，则底数可以是2。示例性的，若maxx⁽¹⁾>100，则xx⁽¹⁾＝log10(x⁽¹⁾)若maxx⁽¹⁾＜100,则xx⁽¹⁾＝log2(x⁽¹⁾)。

对于数值型的原始临床数据特征，若数据分布特征满足数据值无负数，且数据值呈现负偏态分布，即原始临床数据特征对应数据值的均值小于中位数小于众数，且不是所有值在[0,1]之间。调用第四数据转换规则，该第四数据转换规则可以是平方转换方法，即xx⁽¹⁾＝(x⁽¹⁾)²。

对于不满足上述数据分布特征的数值型的原始临床数据特征，例如存在数据值为负数的原始临床数据特征等，可不进行转换，即xx⁽¹⁾＝x⁽¹⁾。

在一些实施例中，将所述原始组学数据进行数据转换，得到用于特征筛选的组学数据，包括：对于所述原始组学数据中的任一原始组学数据特征，对各所述原始组学数据特征对应的数据值进行预设方式的数据转换。其中，每一原始组学数据特征可基于相同的预设方式进行数据转换，示例性的，预设方式可以是对数转换方式，进一步的，可以是以2为底数的对数转换方式。

本实施例中，通过获取原始临床数据和原始组学数据，保证了数据特征的全面性，不局限于组学数据，增加了临床数据，相应的，从原始临床数据和原始组学数据中筛选特征，提高了特征筛选的全面性，避免了仅从组学数据中筛选特征的局限性。进一步的，对原始临床数据和原始组学数据分别基于不同的转化方式进行数据转换，得到满足筛选条件的临床数据和组学数据，便于对得到的临床数据和组学数据进一步进行分析处理。

临床数据和组学数据中数据特征的种类多，仅有局部的数据特征对处理目标存在影响，即处理目标对应的目标数据特征仅为临床数据和组学数据中的部分特征，且不同处理目标对应的目标数据特征可以不同。需要说明的是，处理目标可以是对输入数据在任一维度的分类预测，示例性的，处理目标基于健康维度的分类预测、基于某一疾病维度的分类预测等。

在上述实施例的基础上，对于进行筛选的临床数据和组学数据中的各数据特征进行双重筛选，其中，双重筛选包括对单一数据特征的初步筛选和数据特征组合的再次筛选。基于双重筛选得到处理目标的对应的目标数据特征。目标数据特征可以是包括多个特征，目标数据特征中的任一数据特征可以是属于临床数据，也可以是属于组学数据。

在单一数据特征的初步筛选中，对于临床数据和组学数据中每一数据特征，确定该数据特征的筛选影响参数，该筛选影响参数可以是多个，对此不作限定，用于表征该数据参数对处理目标的影响程度，基于各数据特征的筛选影响参数，筛选出对处理目标存在影响力的候选数据特征，以及剔除对处理目标不存在影响力的数据特征，实现对数据特征的初步筛选。通过初步筛选减少了临床数据和组学数据中数据特征的数量，简化了数据特征组合的再次筛选过程，提高的再次筛选的针对性和有效性。

在数据特征组合的再次筛选过程中，基于候选数据特征中的局部或全部数据特征确定多个特征子集，基于每一特征子集进行处理目标的机器学习模型训练，通过机器学习模型的训练结果反向验证特征子集的准确性，进一步的，通过机器学习模型的训练结果在多个特征子集中确定目标数据特征。

在基于每一特征子集进行处理目标的机器学习模型训练的过程中，基于相同的训练方式，得到多个机器学习模型，其中，相同的训练方式包括但不限于相同的样本数量、相同的损失函数、相同的学习率、相同的迭代次数等。对于训练完成的机器学习模型，可选的，机器学习模型的训练结果可以包括但不限于用于表征训练完成度的第一参数、用于表征模型精度的第二参数等。可选的，机器学习模型的训练结果可以包括但不限于模型的预测评估信息。通过上述参数中的一项或多项，或者预测评估信息筛选最优机器学习模型，相应的，可将最优机器学习模型对应的特征子集确定为目标数据特征。

在上述实施例的基础上进行了细化，图2是本发明实施例提供的一种特征筛选方法的流程图，可选的，所述数据特征的筛选影响参数包括如下的一项或多项：数据特征与处理目标的关联性、数据特征预测处理目标的重要性、数据特征预测处理目标的预测系数。相应的，如图2所示，该方法包括：

S210、获取原始临床数据和原始组学数据，分别将所述原始临床数据和所述原始组学数据进行数据转换，得到用于特征筛选的临床数据和组学数据。

S220、对于所述临床数据和组学数据中的各数据特征，分别确定各数据特征的如下一项或多项：数据特征与处理目标的关联性、数据特征预测处理目标的重要性、数据特征预测处理目标的预测系数，并基于所述数据特征与处理目标的关联性、数据特征预测处理目标的重要性、数据特征预测处理目标的预测系数中的一项或多项从所述各数据特征中筛选候选数据特征。

S230、基于所述候选数据特征确定特征子集，并基于各特征子集进行处理目标的机器学习模型训练。

S240、基于各机器学习模型的训练过程数据确定所述处理目标的对应的目标数据特征。

原始临床数据的数据特征的集合可标记为

原始组学数据的数据特征的合集可标记为

且d_clinical+d_omic＝D。相应的，经过数据转换后的数据特征为

其中，xx_i为转换后的数据特征，yy_i为标签。

针对用于特征筛选的临床数据和组学数据中的每一数据特征，分别计算筛选影响参数。其中，数据特征与处理目标的关联性是通过数值的方式表征数据特征与处理目标之间的关联关系，其中，数据特征与处理目标之间的关联关系可以包括正向关联关系和负向关联关系。通过计算数据特征与处理目标的关联性，可去除数据特征与处理目标的关联性不满足关联条件的数据特征。

需要说明的是，由于临床数据和组学数据中数据特征的多样性，不同的数据特征需要采用不同的计算方式，得到数据特征与处理目标的关联性。具体的，数据特征与处理目标的关联性的确定方式包括：根据所述数据特征的数据类型，调用对应的关联性处理规则，得到所述数据特征与处理目标的关联性。其中，数据特征的数据类型包括分类型和数值型。此处，组学数据中各数据特征的数据类型的判断方式，与临床数据中各数据特征的数据类型的判断方式相同，不再赘述。

本实施例中，关联性处理规则中包括卡方检验(Chi-square test)、费希尔精确检测(Fisher's exact test)、T检验方法(student’s t-test)、曼-惠特尼U检验方法(Mann–Whitney U test)、ANOVA(Analysis of variance)方法、KW检验(Kruskal-Wallis H-test)和互信息方法(Mutual Information)的一种或多种。对于不同数据类型的数据特征，可通过上述一种或多种的检测方法确定数据特征与处理目标的关联性。

所述数据特征与处理目标的关联性包括第一关联性和第二关联性。对于标签y为二分类的数据特征，可计算数据特征与处理目标的第一关联性，对于标签y为三分类或多分类的数据特征，可计算数据特征与处理目标的第一关联性和第二关联性。

示例性的，对于分类型的数据特征，其关联性处理规则中包括卡方检验和费希尔精确检测，将该数据特征的数据内容和处理目标对应的标签作为输入信息，计算得到该数据特征与处理目标的关联性，即第一关联性P值。对于数值型且标签y为二分类的数据特征，其关联性处理规则中包括T检验方法和曼-惠特尼U检验方法，计算得到该数据特征与处理目标的关联性，即第一关联性P值。对于分类型且标签y为多分类的数据特征，其关联性处理规则中ANOVA方法、KW检验和互信息方法，具体的，可基于ANOVA方法、KW检验计算得到该数据特征与处理目标的第一关联性P值，以及基于互信息方法计算得到该数据特征与处理目标的第二关联性MI值。

遍历临床数据和组学数据中的各数据特征，依次计算每一数据特征与处理目标的关联性，并基于数据特征与处理目标的关联性进行初步的特征筛选。其中，针对第一关联性P值，一般P值小于0.05可认为数据特征与处理目标的关联性在统计上是显著，不限于此值，数据特征与处理目标的第一关联性P值越小，表明数据特征与处理目标的关联性在统计上越显著；数据特征与处理目标的第一关联性大，一般P值大于0.05，不限于此值，表明数据特征与处理目标的关联性在统计上不显著。针对第二关联性MI值，数据特征与处理目标的第二关联性为0，表明数据特征与处理目标不存在关联性，数据特征与处理目标的第二关联性不为0，表明数据特征与处理目标存在关联性。

可选的，基于所述筛选影响参数从所述各数据特征中筛选候选数据特征，包括：对于标签为二分类的数据特征，若所述数据特征的第一关联性小于预设关联阈值，则将所述数据特征为候选数据特征；对于标签为多分类的数据特征，若所述数据特征的第一关联性小于预设关联阈值，或者，所述数据特征的第二关联性不为零，则将所述数据特征为候选数据特征。本实施例中，通过剔除第一关联性P值大于等于预设关联阈值，以及剔除第二关联性MI值为零的数据特征，上述数据特征与处理目标不存在关联性，或者关联性弱，实现在单一数据特征维度上对数据特征的初步筛选。

数据特征预测处理目标的重要性为大量数据特征中每一数据特征相对于处理目标的重要性。数据特征预测处理目标的重要性为数值形式，数值越大，数据特征相对于处理目标越重要。本实施例中，可以是通过机器学习的方式实现确定数据特征预测处理目标的重要性。可选的，确定数据特征预测处理目标的重要性的机器学习模型可以是随机森林模型。其中，该随机森林模型中的模型超参数可通过随机搜索方法优化得到。

相应的，数据特征预测处理目标的重要性的确定方法包括：将数据特征和标签特征输入至预先训练的随机森林模型中，得到所述随机森林模型输出的数据特征预测处理目标的重要性importance。此处作为随机森林模型输入的数据特征可以是临床数据和组学数据中全部数据特征，还可以是经过数据特征与处理目标关联性筛选得到的数据特征。对经过数据特征与处理目标关联性筛选得到的数据特征进一步基于数据特征预测处理目标的重要性进行再次筛选，减少了数据特征预测处理目标的重要性筛选过程中计算量，实现了对数据特征的多维度筛选，提高筛选准确性。

对于数据特征预测处理目标的重要性为零，表明相对于处理目标，该数据特征不重要，即该数据特征对处理目标不存在影响，相应的，在一些实施例中，可从临床数据和组学数据中剔除数据特征预测处理目标的重要性为零的数据特征，或者从输入的数据特征中剔除数据特征预测处理目标的重要性为零的数据特征，以得到更新的候选数据特征。

数据特征预测处理目标的预测系数为数据特征在预测处理目标的过程中的权重，该预测系数可以是正数或负数。数据特征预测处理目标的预测系数的绝对值越大，表明该数据特征对处理目标的影响越大，在数据特征预测处理目标的预测系数为零的情况下，表明该数据特征对处理目标的无影响。

本实施例中，可以是通过机器学习的方式实现确定数据特征预测处理目标的预测系数。可选的，用于确定数据特征预测处理目标的预测系数的机器学习模型可以是逻辑回归模型，示例性的，该逻辑回归模型可以是惩罚因子为elasticnet的逻辑回归模型，该逻辑回归模型中的超参数可以是通过网格搜索方法优化得到。

相应的，数据特征预测处理目标的预测系数的确定方法包括：将数据特征和标签特征输入至预先训练的逻辑回归模型，得到所述逻辑回归模型输出的数据特征预测处理目标的预测系数。此处作为逻辑回归模型输入的数据特征可以是临床数据和组学数据中全部数据特征，还可以是经过数据特征与处理目标关联性筛选得到的数据特征，还可以是经过数据特征与处理目标关联性、数据特征预测处理目标的重要性共同筛选得到的数据特征。

在一些实施例中，可从临床数据和组学数据中剔除数据特征预测处理目标的预测系数为零的数据特征，或者从输入的数据特征中剔除数据特征预测处理目标的预测系数为零的数据特征，以得到更新的候选数据特征。

在一实施例中，基于所述筛选影响参数从所述各数据特征中筛选候选数据特征，包括：对于任一数据特征，其数据特征预测处理目标的重要性、数据特征预测处理目标的预测系数均为零的情况下，剔除所述数据特征。需要说明的是，可以是从临床数据和组学数据中全部数据特征中剔除数据特征预测处理目标的重要性、数据特征预测处理目标的预测系数均为零的数据特征，还可以是从经过数据特征与处理目标关联性筛选得到的候选数据特征中剔除数据特征预测处理目标的重要性、数据特征预测处理目标的预测系数均为零的数据特征，更新候选数据特征。

在一些实施例中，每一数据特征分别计算多个筛选影响参数，并基于多个筛选影响参数共同对数据特征进行筛选。可选的，基于所述筛选影响参数从所述各数据特征中筛选候选数据特征，包括：对于任一数据特征，基于所述数据特征与处理目标的关联性、数据特征预测处理目标的重要性、数据特征预测处理目标的预测系数确定所述数据特征与处理目标的总关联信息；基于各数据特征对应的总关联信息确定候选数据特征。可选的，可基于所述数据特征与处理目标的关联性、数据特征预测处理目标的重要性、数据特征预测处理目标的预测系数分别对应的权重进行加权处理，得到数据特征与处理目标的总关联信息。可选的，调用预先设置的计算规则(例如可以是计算公式)，对于每一数据特征，将数据特征与处理目标的关联性、数据特征预测处理目标的重要性、数据特征预测处理目标的预测系数带入上述计算规则中，得到数据特征与处理目标的总关联信息。

示例性的，如下是数据特征与处理目标的总关联信息的一种计算方式的实例：

数据特征与处理目标的第一关联性，MI为数据特征与处理目标的第二关联性，二分类时MI默认为0，coefficient为数据特征预测处理目标的预测系数，importance为数据特征预测处理目标的重要性。D_filt-embed为数据特征的数量，该数据特征可以是依次经过数据特征与处理目标的关联性、数据特征预测处理目标的重要性、数据特征预测处理目标的预测系数筛选后的候选数据特征的数量。

根据score(x^(j))，反映特征和分类目标y的总关联程度，得分越高，关联程度越强。在一些实施例中，将基于总关联信息对数据特征进行排序，例如从高到低进行排序，将排序中的前n个数据特征确定为候选数据特征。在一些实施例中，可根据总关联信息排序的候选数据特征进行划分，将候选数据特征划分为多个特征组合，例如最优特征集、次优特征集等。

在一些实施例中，对于临床数据和组学数据中的全部数据特征，基于数据特征与处理目标的关联性进行筛选，得到初始的候选数据特征，其候选数据特征集合标记为j＝1,…,D_filt。基于数据特征预测处理目标的重要性、数据特征预测处理目标的预测系数对上述候选数据特征进行进一步筛选，得到j＝1,…,D_filt-embed个更新后的候选数据特征。基于总关联信息将特征进行降序排列，排序的结果记为

对

中排序的D_filt-embed个特征,结合样本数目，取出前top count＝positive samples*5个特征，这里的5为默认值，不局限于该值，positive samples为阳性样本数量，可以灵活调整topcount的数目。这些top count特征有最高的得分，为最优特征集，记为

剩余特征为次优特征集，记为

如果D_filt-embed≤positive samples*5,则D_filt-embed＝D_top _count，此时有用特征数目较少，可将全部有用特征视为最优特征集，无次优特征集。输出最优特征集和次优特征集，该最优特征集和次优特征集中的数据特征为候选数据特征。

在上述实施例的基础上，对筛选得到的候选优先级，通过特征子集的形式进行数据特征组合的再次筛选，以得到目标数据特征。

本实施例的技术方案，对于转换后的临床数据特征和组学数据特征，通过分别确定各个数据特征的多个筛选影响参数，并基于多个筛选影响参数的一项或多项对各数据特征进行多个维度的特征筛选，提高了特征筛选的全面性和准确性，同时实现了从单维和多维的数据特征筛选，进一步的，对筛选得到的候选数据特征进行数据特征组合的再次筛选，以得到目标数据特征，进一步提高数据特征筛选的准确性。

在上述实施例的基础上进行了细化，图3是本发明实施例提供的一种特征筛选方法的流程图，可选的，所述基于各机器学习模型的训练过程数据确定所述处理目标的对应的目标数据特征，包括：对于任一机器学习模型，基于所述机器学习模型训练过程数据中的训练数据和验证数据，分别确定训练指标和测试指标，并基于所述训练指标和测试指标确定所述机器学习模型对应特征子集的拟合类型，其中，所述拟合类型包括过拟合、欠拟合和正常拟合；将所述正常拟合的特征子集为所述处理目标的目标数据特征组。相应的，如图3所示，该方法包括：

S310、获取原始临床数据和原始组学数据，分别将所述原始临床数据和所述原始组学数据进行数据转换，得到用于特征筛选的临床数据和组学数据。

S320、对于所述临床数据和组学数据中的各数据特征，分别确定各数据特征的筛选影响参数，并基于所述筛选影响参数从所述各数据特征中筛选候选数据特征。

S330、基于所述候选数据特征确定特征子集，并基于各特征子集进行处理目标的机器学习模型训练。

S340、对于任一机器学习模型，基于所述机器学习模型训练过程数据中的训练数据和验证数据，分别确定训练指标和测试指标，并基于所述训练指标和测试指标确定所述机器学习模型对应特征子集的拟合类型，其中，所述拟合类型包括过拟合、欠拟合和正常拟合。

S350、将所述正常拟合的特征子集为所述处理目标的目标数据特征组。

本实施例中，在筛选出的候选数据特征中确定多个特征子集，以通过机器学习的方式验证每一特征子集对处理目标的影响程度，进而反向筛选特征子集。

在一些实施例中，基于所述候选数据特征确定特征子集，包括：基于所述候选数据特征的全部或局部确定多个特征子集。例如，对于包括局部特征的特征子集，该特征子集中数据特征的数量可以是随机的，特征子集中数据特征也可以是随机的。例如，特征子集中包含数据特征的数量依次为1、2…D_filt-embed(候选数据特征的总数量)，对于任一数量的特征子集为多个，每一特征子集中的数据特征为随机的。

在一些实施例中，基于所述候选数据特征确定特征子集，包括：基于阳性样本数量确定特征子集中特征数量，基于所述特征数量在候选数据特征中确定多个特征子集。

特征子集中特征数量范围基于阳性样本数量确定，例如特征子集中最大特征数量为阳性样本数量与预设数值的比值，该预设数值可以15。需要说明的是，预设数值不做局限，可根据用户需求设置。相应的，特征子集中特征数量位于

positivesamples为阳性样本数量。以阳性样本数量为150为例，相应的，特征子集中特征数量位于[1,10]，即特征子集中特征数量可以是1，2,3,4,5,6,7,8,9,10中的一项或多项，相应的，基于上述任一特征数量，确定对应的特征子集。每一特征数量可对应形成多个特征子集。

在一些实施例中，特征数量n位于

特征组合的数目为

其中，D_top _count为最优特征集中数据特征的数量。相应的，每一特征子集由最优特征集中的候选数据特征组合得到。

对于每一特征子集，确定包含特征子集中各数据特征的样本数据，对样本数据进行交叉验证，可得到用于训练机器学习模型的训练集和验证集。此处不限定交叉验证的方式，例如可以包括但不限于Repeated K-fold、LeaveOneOut和LeavePOut。在一些实施例中，为例避免个体数据对训练过程导致的影响，可对样本数据进行个体化分组，即将属于同一个体的样本数据划分为一个数据组，并基于个体数据组进行交叉验证，以得到训练集和验证集。

本实施例中，针对每一特征子集可基于一种或多种类型的机器学习模型进行训练，通过多类型的机器学习模型对同一特征子集进行验证，避免机器学习模型导致的个体影响。例如，机器学习模型包括但不限于岭回归分类、逻辑回归(特别的，惩罚因子类型设置为4种，分别是无、l1、l2和elasticnet)、随机森林、旋转森林、随机梯度下降集成方法(stochastic gradient descent，SGD)、支持向量机、自适应增强(AdaBoost)、XGBoost、k-近邻分类、朴素贝叶斯、神经网络等。

在一些实施例中，若阳性样本数目N_positive _samples＜1000的为小样本，机器学习模型可默认设置为逻辑回归，进一步的用户可以优先选择岭回归分类、逻辑回归(惩罚因子类型有4种，分别是无、l1、l2和elasticnet)、随机森林、支持向量机、朴素贝叶斯、k-近邻分类的任意一种。大样本可以任意选择模块提供的机器学习方法的一种，机器学习模型可默认设置为随机森林。所有线性机器学习方法超参数采用网格搜索方法优化(包括岭回归分类、逻辑回归)，其它非线性机器学习方法采用随机搜索方法优化。

对于小样本，采用交叉验证(cross-validation)的方法将样本分为训练集和测试集，训练集用来建模，测试集用来测试模型性能。模块默认交叉验证的倍数(fold)为10，重复次数(repeated times)为10。模块允许用户自行设置倍数和重复次数，设置倍数范围fold≥2,重复次数repeated times≥1且均为整数。模块默认大样本数据分成训练集(总样本数目的70％，此处不限于此分割比例)和测试集(总样本数目的30％，此处不限于此分割比例)，训练集用来建模，测试集用来测试模型性能，用户也可设置成交叉验证方法分割数据集。

基于每一特征子集训练分别得到一个或多个机器学习模型，具体的，通过训练集中的训练数据和验证集中的验证数据对各机器学习模型进行训练，相应的，确定用于评价机器学习模型的训练指标和测试指标。其中，训练指标和测试指标的指标类型数量分别为至少一个，且训练指标和测试指标的指标类型相同，例如训练指标和测试指标分别包括但不限于曲线下面积AUCROC(Receiver operating characteristic curve)、敏感度(sensitivity)、特异度(specificity)、正确率(accuracy)、平衡的准确率评分(balanced-accuracy)、精确度(precision)、F1 score、阴性预测率(NPV，Negative predictivevalue)。

基于上述指标评价机器学习模型，以筛选得到满足机器学习模型训练条件的机器学习模型，其中，对于不满足机器学习模型训练条件的机器学习模型，表明其对应的特征子集中数据特征的组合不准确，无法准确预测处理目标，相应的，对于满足机器学习模型训练条件的机器学习模型，表明其对应的特征子集中数据特征的组合准确，可准确预测处理目标。

可选的，基于所述训练指标和测试指标确定所述机器学习模型对应特征子集的拟合类型，包括：在存在至少一个指标类型，满足所述训练指标和所述测试指标的差值小于等于负数预设阈值的情况下，确定所述机器学习模型对应特征子集的拟合类型为欠拟合；在存在至少一个指标类型，满足所述训练指标与所述测试指标的差值大于等于正数预设阈值的情况下，确定所述机器学习模型对应特征子集的拟合类型为过拟合；对于各指标类型，在训练指标和所述测试指标的差值大于等于负数预设阈值，且所述训练指标与所述测试指标的差值小于等于正数预设阈值阈值的情况下，确定所述机器学习模型对应特征子集的拟合类型为正常拟合。上述预设阈值均不限于本文所述预设阈值。

对于机器学习模型的训练指标和测试指标，可记录为

其中，trainset_c为第c个的特征组合的训练指标，testset_c为第c个的特征组合的测试指标。对于每一组训练指标和测试指标，如果出现至少一个trainset₁-testset₁≤-0.05的情况，不限于此负数预设阈值，确定机器学习模型对应特征子集的拟合类型为欠拟合，可将该特征子集标记为underfitting。对于每一组训练指标和测试指标，如果出现至少一个trainset₁-testset₁≥0.25的情况，不限于此正数预设阈值，则确定机器学习模型对应特征子集的拟合类型为过拟合，可将该特征子集标记为overfitting。对于未出现欠拟合和过拟合情况的特征子集，确定该特征子集的拟合类型为正常拟合，可将该特征子集标记为balanced。

针对每一机器学习模型的训练过程数据，例如1,2,…,C(D_{top count},n)个特征子集，分别执行上述判定过程，以得到各机器学习模型对应特征子集的拟合类型，并返回判定结果

b的取值为underfitting、overfitting或者balanced。Underfitting和overfitting说明对应的特征组合得到的模型欠拟合和过拟合，这样的特征组合不能作为输入数据的重要标志物，需要去除，这一步实际上也是一种包裹式特征选择，筛选得到对目标对象的目标数据特征，即预测分类标签y的重要标志物组合。相应的，输出结果

和

进一步，基于上述输出结果，确定balanced对应的特征子集，该特征子集中的数据特征为目标数据特征。

本实施例提供的技术方案，通过在初步筛选得到的候选数据特征中，确定多个特征子集，并通过机器学习的方式，得到各特征子集对应的机器学习模型。通过机器学习模型的训练过程数据统计得到用于评价机器学习模型质量的训练指标和验证指标，并基于训练指标和验证指标对各个机器学习模型进行拟合程度的评价，对于过拟合和欠拟合的机器学习模型，其对应的特征子集不能作为处理目标的重要标志物，并予以剔除，保留正常拟合的机器学习模型对应的特征子集，作为处理目标的目标数据特征。在初步筛选的基础上，对候选数据特征再次进行包裹式特征筛选，提高了特征筛选的准确性。

在上述实施例的基础上，在基于各特征子集进行处理目标的机器学习模型训练的过程中，所述方法还包括：基于已完成训练的特征子集的训练时长，预测未训练的特征子集的预测训练时长，并显示所述预测训练时长。

由于特征子集数量多，相应的，需要进行训练的机器学习模型的数量多，导致整体耗时长。通过基于已完成训练的特征子集的训练时长，预测未训练的特征子集的预测训练时长，将预测训练时长进行实时显示，便于操作人员对运行时间进行预判。

其中，已完成训练的特征子集的训练时长可以是任一已完成训练的特征子集的训练时长，例如可以是第一个完成训练的特征子集的训练时长，还可以是多个或所有已完成训练的特征子集的训练时长的均值。相应的，基于未完成训练的训练子集的数量，和单一已完成训练的特征子集的训练时长，确定预测训练时长。

示例性的，运算开始计时时间为t1，对第一个特征组合构成的数据特征和标签y，使用相应的机器学习方法和数据集分割方法，在训练集上建模型，模型运行完毕，统计计算训练集上的模型性能评估的8个指标，随后在测试集上测试模型性能，并计算测试集上的模型性能评估的8个指标，训练集和测试集总计16个指标结果保存在集合output＝{trainset₁,testset₁}。运算完毕，计时结束，时间为t2。t2-t1为第一个特征组合的运行时间，基于特征子集的数量和第一个特征组合的运行时间，可预测整体的训练时长；例如C(D_{top count},n)*(t2-t1)为C(D_{top count},n)个特征运行时间的估计值，并返回，操作人员可以看到模型运行的总时间。基于未训练的特征子集的数量和第一个特征组合的运行时间，可确定剩余的预测训练时长。通过将预测训练时长进行显示，便于用户直观的确定剩余时长。

某些情况下，模型运行的总时间较长，用户可以中止模型运行，运行中止并返回以运行完毕的结果。

在上述实施例的基础上，本发明实施例提供了一种特征筛选方法的优先实例。参见图4，图4是本发明实施例提供的一种特征筛选方法的流程图。图4中提供了用于支持特征筛选的系统结构，该系统结构包括特征转化模块、特征筛选模块、分类机器需求模块，其中，特征转化模块用于对原始临床数据进行转换，得到满足筛选条件的临床数据，特征筛选模块用于对转化得到的临床数据和组学数据进行单一特征维度的初步筛选，分类机器学习模块用于通过特征子集的形式，以机器学习模型训练的方式进行验证，筛选得到处理目标对应的目标数据特征的组合。上述各模块可单独调用，例如在仅存在数据转换需求的情况下，可单独调用临床特征转换模块，在仅存在特征维度筛选的需求下，可单独调用特征筛选模块，在仅存在以特征子集的筛选需求下，可单独调用分类机器需求模块。上述各模块还可以根据调用顺序依次调用，例如依次调用特征转化模块、特征筛选模块、分类机器需求模块，以实现对临床数据和组学数据的多重特征筛选。

具体的，特征转化模块对输入的样本数据判断数据类型，根据数据类型确定对应的转换方法，转换方法包括：不同底数对数转换方法、平方转换方法、开方转换方法、逻辑回归转换方法和倒数转换方法，经转换后输出转换后的数据集。

特征筛选模块对输入的样本数据进行数据类型的判断，经过过滤式特征筛选、嵌入式特征筛选以及去除无用数据特征后，对剩余的候选数据特征进行重要性排序，输出最优特征集合次优特征集。

分类机器需求模块用于根据输入的样本数据确定用于训练的机器学习模型，并基于样本数据的数量确定模型特征数目范围，在最优特征集中确定多个组合特征，即特征子集。在机器学习模型的训练过程中，确定运行时间，并展示。对于训练完成的机器学习模型进行模型评估，例如通过曲线下面积、敏感度、特异度、正确率、平衡的准确率评分、精确度、F1 score、阴性预测率作为评估指标，基于指标评价对训练完成的机器学习模型进行分类，进一步的，对机器学习模型对应的特征子集进行分类，以输出符合筛选条件的特征子集，作为处理目标的目标数据特征。

图5是本发明实施例提供的一种特征筛选装置的结构示意图。如图5所示，该装置包括：

数据转换模块410，用于获取原始临床数据和原始组学数据，分别将所述原始临床数据和所述原始组学数据进行数据转换，得到用于特征筛选的临床数据和组学数据；

候选特征筛选模块420，用于对于所述临床数据和组学数据中的各数据特征，分别确定各数据特征的筛选影响参数，并基于所述筛选影响参数从所述各数据特征中筛选候选数据特征；

模型训练模块430，用于基于所述候选数据特征确定特征子集，并基于各特征子集进行处理目标的机器学习模型训练；

目标数据特征确定模块440，用于基于各机器学习模型的训练过程数据确定所述处理目标的对应的目标数据特征。

可选的，数据转换模块410包括：

临床数据转换单元，用于对于所述原始临床数据中的任一原始临床数据特征，确定所述原始临床数据特征的数据类型，根据原始临床数据特征的数据类型和数据分布特征，确定数据转换规则，并基于确定的数据转换规则对所述原始临床数据特征对应的数据值进行数据转换。

组学数据转换模块，用于对于所述原始组学数据中的任一原始组学数据特征，对各所述原始组学数据特征对应的数据值进行预设方式的数据转换。

可选的，所述数据类型包括分类型和数值型；

临床数据转换单元用于：对所述原始临床数据特征的数据值进行去重处理，得到去重后的数据值；

在去重后的各数据值满足整数且数据值数量小于等于预设阈值的情况下，确定所述原始临床数据特征的数据类型为分类型，以及在去重后的各数据值不满足整数且数据值数量小于等于预设阈值的情况下，确定所述原始临床数据特征的数据类型为数值型。

可选的，临床数据转换单元用于：

原始临床数据特征的数据类型和数据分布特征，在预先设置的数据转换规则库中进行匹配，根据匹配结果确定原始临床数据特征的数据转换规则；

其中，所述数据转换规则库中预先设置的多个数据转换规则，以及各数据转换规则对应的数据类型和数据分布特征。

在上述实施例的基础上，可选的，所述数据特征的筛选影响参数包括如下的一项或多项：数据特征与处理目标的关联性、数据特征预测处理目标的重要性、数据特征预测处理目标的预测系数。

可选的，候选特征筛选模块420包括：

关联性确定单元，用于根据所述数据特征的数据类型，调用对应的关联性处理规则，得到所述数据特征与处理目标的关联性。

可选的，所述数据特征与处理目标的关联性包括第一关联性和第二关联性；

相应的，候选特征筛选模块420还包括：

第一筛选单元，用于对于标签为二分类的数据特征，若所述数据特征的第一关联性小于预设关联阈值，则将所述数据特征为候选数据特征；对于标签为多分类的数据特征，若所述数据特征的第一关联性小于预设关联阈值，或者，所述数据特征的第二关联性不为零，则将所述数据特征为候选数据特征。

可选的，候选特征筛选模块420包括：

特征重要性确定单元，用于将数据特征和标签特征输入至预先训练的随机森林模型中，得到所述随机森林模型输出的数据特征预测处理目标的重要性；

预测系数确定单元，用于将数据特征和标签特征输入至预先训练的逻辑回归模型，得到所述逻辑回归模型输出的数据特征预测处理目标的预测系数。

相应的，候选特征筛选模块420还包括：

第二筛选单元，用于对于任一数据特征，其数据特征预测处理目标的重要性、数据特征预测处理目标的预测系数均为零的情况下，剔除所述数据特征。

候选特征筛选模块420还包括：

第三筛选单元，用于对于任一数据特征，基于所述数据特征与处理目标的关联性、数据特征预测处理目标的重要性、数据特征预测处理目标的预测系数确定所述数据特征与处理目标的总关联信息；基于各数据特征对应的总关联信息确定候选数据特征。

可选的，模型训练模块430包括：

特征子集确定单元，用于基于所述候选数据特征的全部或局部确定多个特征子集；或者，基于阳性样本数量确定特征子集中特征数量，基于所述特征数量在候选数据特征中确定多个特征子集。

可选的，目标数据特征确定模块440包括：

拟合类型确定单元，用于对于任一机器学习模型，基于所述机器学习模型训练过程数据中的训练数据和验证数据，分别确定训练指标和测试指标，并基于所述训练指标和测试指标确定所述机器学习模型对应特征子集的拟合类型，其中，所述拟合类型包括过拟合、欠拟合和正常拟合；

目标数据特征确定单元，用于将所述正常拟合的特征子集为所述处理目标的目标数据特征组。

可选的，所述训练指标和测试指标的指标类型数量分别为至少一个；

拟合类型确定单元用于：

在存在至少一个指标类型，满足所述训练指标和所述测试指标的差值小于等于负数预设阈值情况下，确定所述机器学习模型对应特征子集的拟合类型为欠拟合；

在存在至少一个指标类型，满足所述训练指标与所述测试指标的差值大于等于预设正数阈值的情况下，确定所述机器学习模型对应特征子集的拟合类型为过拟合；

对于各指标类型，训练指标和所述测试指标的差值大于等于负数预设阈值情况下，且所述训练指标与所述测试指标的差值小于等于预设正数阈值的情况下，确定所述机器学习模型对应特征子集的拟合类型为正常拟合。

在上述实施例的基础上，该装置还包括：

训练时长显示模块，用于基于已完成训练的特征子集的训练时长，预测未训练的特征子集的预测训练时长，并显示所述预测训练时长。

本发明实施例所提供的特征筛选装置可执行本发明任意实施例所提供的特征筛选方法，具备执行方法相应的功能模块和有益效果。

图6是本发明实施例提供的一种电子设备的结构示意图。电子设备10旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图6所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如特征筛选方法。

在一些实施例中，特征筛选方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的特征筛选方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行特征筛选方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的特征筛选方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使处理器执行一种特征筛选方法，该方法包括：

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种特征筛选方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述原始临床数据和所述原始组学数据进行数据转换，得到用于特征筛选的临床数据和组学数据，包括：

对于所述原始临床数据中的任一原始临床数据特征，确定所述原始临床数据特征的数据类型，根据原始临床数据特征的数据类型和数据分布特征，确定数据转换规则，并基于确定的数据转换规则对所述原始临床数据特征对应的数据值进行数据转换；

对于所述原始组学数据中的任一原始组学数据特征，对各所述原始组学数据特征对应的数据值进行预设方式的数据转换。

3.根据权利要求2所述的方法，其特征在于，所述数据类型包括分类型和数值型；

所述确定所述原始临床数据特征的数据类型，包括：

对所述原始临床数据特征的原始数据值进行去重处理，得到去重后的数据值；

在去重后的各数据值同时满足2个条件即为整数且数据值数量小于等于预设阈值的情况下，确定所述原始临床数据特征的数据类型为分类型，以及在去重后的各数据值不同时满足2个条件即为整数且数据值数量小于等于预设阈值的情况下，确定所述原始临床数据特征的数据类型为数值型；

和/或，

所述根据原始临床数据特征的数据类型和数据分布特征，确定数据转换规则，包括：

其中，所述数据转换规则库中预先设置多个数据转换规则，以及各数据转换规则对应的数据类型和数据分布特征。

4.根据权利要求1所述的方法，其特征在于，所述数据特征的筛选影响参数包括如下的一项或多项：数据特征与处理目标的关联性、数据特征预测处理目标的重要性、数据特征预测处理目标的预测系数；

其中，所述数据特征与处理目标的关联性的确定方式包括：根据所述数据特征的数据类型，调用对应的关联性处理规则，得到所述数据特征与处理目标的关联性；

所述数据特征预测处理目标的重要性的确定方法包括：将数据特征和标签特征输入至预先训练的随机森林模型中，得到所述随机森林模型输出的数据特征预测处理目标的重要性；

所述数据特征预测处理目标的预测系数的确定方法包括：将数据特征和标签特征输入至预先训练的逻辑回归模型，得到所述逻辑回归模型输出的数据特征预测处理目标的预测系数。

5.根据权利要求4所述的方法，其特征在于，所述数据特征与处理目标的关联性包括第一关联性和第二关联性；

所述基于所述筛选影响参数从所述各数据特征中筛选候选数据特征，包括：对于标签为二分类的数据特征，若所述数据特征的第一关联性小于预设关联阈值，则将所述数据特征为候选数据特征；对于标签为多分类的数据特征，若所述数据特征的第一关联性小于预设关联阈值，或者，所述数据特征的第二关联性不为零，则将所述数据特征为候选数据特征；

和/或，

所述基于所述筛选影响参数从所述各数据特征中筛选候选数据特征，包括：对于任一数据特征，在其数据特征预测处理目标的重要性、数据特征预测处理目标的预测系数均为零的情况下，剔除所述数据特征；

和/或，

所述基于所述筛选影响参数从所述各数据特征中筛选候选数据特征，包括：对于任一数据特征，基于所述数据特征与处理目标的关联性、数据特征预测处理目标的重要性、数据特征预测处理目标的预测系数确定所述数据特征与处理目标的总关联信息；基于各数据特征对应的总关联信息确定候选数据特征。

6.根据权利要求1所述的方法，其特征在于，所述基于所述候选数据特征确定特征子集，包括：

基于所述候选数据特征的全部或局部确定多个特征子集；或者，基于阳性样本数量确定特征子集中特征数量，基于所述特征数量在候选数据特征中确定多个特征子集；

和/或，

所述基于各机器学习模型的训练过程数据确定所述处理目标的对应的目标数据特征，包括：对于任一机器学习模型，基于所述机器学习模型训练过程数据中的训练数据和验证数据，分别确定训练指标和测试指标，并基于所述训练指标和测试指标确定所述机器学习模型对应特征子集的拟合类型，其中，所述拟合类型包括过拟合、欠拟合和正常拟合；将所述正常拟合的特征子集为所述处理目标的目标数据特征组；

其中，所述训练指标和测试指标的指标类型数量分别为至少一个；

所述基于所述训练指标和测试指标确定所述机器学习模型对应特征子集的拟合类型，包括：在存在至少一个指标类型，满足所述训练指标与所述测试指标的差值小于等于负数预设阈值的情况下，确定所述机器学习模型对应特征子集的拟合类型为欠拟合；

在存在至少一个指标类型，满足所述训练指标与所述测试指标的差值大于等于正数预设阈值的情况下，确定所述机器学习模型对应特征子集的拟合类型为过拟合；

对于各指标类型，所述训练指标与所述测试指标的差值大于等于所述负数预设阈值且小于等于所述正数预设阈值的情况下，确定所述机器学习模型对应特征子集的拟合类型为正常拟合。

7.根据权利要求1所述的方法，其特征在于，在基于各特征子集进行处理目标的机器学习模型训练的过程中，所述方法还包括：

基于已完成训练的特征子集的训练时长，预测未训练的特征子集的预测训练时长，并显示所述预测训练时长。

8.一种特征筛选装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的特征筛选方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的特征筛选方法。