CN115423600B

CN115423600B - 数据筛选方法、装置、介质及电子设备

Info

Publication number: CN115423600B
Application number: CN202211009156.7A
Authority: CN
Inventors: 王吉驰; 林庆治
Original assignee: Qianhai Feisuan Yunchuang Data Technology Shenzhen Co ltd
Current assignee: Qianhai Feisuan Yunchuang Data Technology Shenzhen Co ltd
Priority date: 2022-08-22
Filing date: 2022-08-22
Publication date: 2023-08-04
Anticipated expiration: 2042-08-22
Also published as: CN115423600A

Abstract

本公开涉及一种数据筛选方法、装置、介质及电子设备，涉及数据科学技术领域，该方法包括：获取多种自变量数据以及多种自变量数据对应的因变量数据；再根据因变量数据的数据类型处理多种自变量数据，获得多种自变量数据每种对应的第一筛选系数；利用预设筛选算法根据多种自变量数据和因变量数据，获得多种自变量数据每种对应的第二筛选系数；在进行数据筛选时，从多种自变量数据中，筛选出第一筛选系数大于第一预设阈值，和/或第二筛选系数大于第二预设阈值的自变量数据作为目标数据，通过两个筛选系数同时筛选，提高目标数据筛选的准确率，并且自动筛选出目标数据，提高了目标数据筛选的效率。

Description

数据筛选方法、装置、介质及电子设备

技术领域

本公开涉及数据科学技术领域，具体地，涉及一种数据筛选方法、装置、介质及电子设备。

背景技术

随着互联网信息技术的发展，人们在浏览页面或者执行某个操作时，会产生大量的数据，对这些数据进行分析可以反映各个事件之间的关联性。在数据科学领域，例如风控技术领域，通常会对上述数据进行筛选。在传统的筛选方式中，主要依赖于筛选人员的主观筛选，筛选过程较为耗时，而且效率低下。

发明内容

本公开的目的是提供一种数据筛选方法、装置、介质及电子设备，旨在解决上述问题。

为了实现上述目的，本公开第一方面提供一种数据筛选方法，所述方法包括：获取多种自变量数据，并获取所述多种自变量数据对应的因变量数据；根据所述因变量数据的数据类型处理所述多种自变量数据，获得所述多种自变量数据每种对应的第一筛选系数；利用预设筛选算法根据所述多种自变量数据和所述因变量数据，获得所述多种自变量数据每种对应的第二筛选系数；从所述多种自变量数据中确定目标数据，其中，所述目标数据对应的第一筛选系数大于第一预设阈值，和/或所述目标数据对应的第二筛选系数大于第二预设阈值。

可选地，所述根据所述因变量数据的数据类型处理所述多种自变量数据，获得所述多种自变量数据每种对应的第一筛选系数，包括：当所述因变量数据的数据类型为离散型时，对每种自变量数据中的多个自变量数值进行分箱处理，获得多个分箱；根据所述多个分箱各自的自变量数值，计算所述多个分箱各自对应的WOE值，获得多个WOE值；当所述多个WOE值表征出单调性时，根据所述多个分箱各自对应的WOE值，计算所述每种自变量数据对应的第一筛选系数，其中，所述第一筛选系数为IV值；当所述多个WOE值表征出非单调性时，重新执行所述对每种自变量数据中的多个自变量数值进行分箱处理，获得多个分箱的步骤，直至重新获得的多个WOE值表征出单调性。

可选地，所述当所述因变量数据的数据类型为离散型时，所述对每种自变量数据中的多个自变量数值进行分箱处理，获得多个分箱，包括：当所述因变量数据的数据类型为离散型时，针对多种自变量数据中的离散型的自变量数据，获取多种离散型的自变量数据中每种在所述多种自变量数据中的占比作为第一占比，以及获取每种离散型的自变量数据中坏样本的占比作为第二占比；按照预设顺序对多个第一占比进行排序，获得排序结果；按照所述排序结果对所述多种离散型的自变量数据进行排序，并按照预设卡方值和多个第二占比，对排序后的自变量数据进行分箱处理，获得所述多个分箱。

可选地，所述当所述因变量数据的数据类型为离散型时，所述对每种自变量数据中的多个自变量数值进行分箱处理，获得多个分箱，包括：当所述因变量数据的数据类型为离散型时，针对多种自变量数据中的连续型的自变量数据，对每种连续型的自变量数据中的多个自变量数值进行分箱处理，获得多个初始分箱；按照预设卡方值对所述多个初始分箱进行合并处理，获得所述多个分箱。

可选地，所述根据所述因变量数据的数据类型处理所述多种自变量数据，获得所述多种自变量数据每种对应的第一筛选系数，包括：当所述因变量数据的数据类型为连续型时，获得所述多种自变量数据每种对应的第一筛选系数，所述第一筛选系数为相关系数。

可选地，所述当所述因变量数据的数据类型为连续型时，获得所述多种自变量数据每种对应的第一筛选系数，包括：当所述因变量数据的数据类型为连续型，且所述自变量数据的数据类型为连续型时，按照person相关系数算法计算所述多种自变量数据每种对应的第一筛选系数。

可选地，所述当所述因变量数据的数据类型为连续型时，获得所述多种自变量数据每种对应的第一筛选系数，包括：当所述因变量数据的数据类型为连续型，且所述自变量数据的数据类型为离散型时，按照spearman相关系数算法计算所述多种自变量数据每种对应的第一筛选系数。

本公开第二方面提供一种数据筛选装置，所述装置包括：变量获取模块，用于获取多种自变量数据，并获取所述多种自变量数据对应的因变量数据；第一系数获取模块，用于根据所述因变量数据的数据类型处理所述多种自变量数据，获得所述多种自变量数据每种对应的第一筛选系数；第二系数获取模块，用于利用预设筛选算法根据所述多种自变量数据和所述因变量数据，获得所述多种自变量数据每种对应的第二筛选系数；确定模块，用于从所述多种自变量数据中确定目标数据，其中，所述目标数据对应的第一筛选系数大于第一预设阈值，和/或所述目标数据对应的第二筛选系数大于第二预设阈值。

本公开第三方面提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本公开第四方面提供一种电子设备，存储器，其上存储有计算机程序；处理器，用于执行所述存储器中的所述计算机程序，以实现上述方法的步骤。

本公开提供的数据筛选方法、装置、介质及电子设备，获取多种自变量数据以及多种自变量数据对应的因变量数据；再根据因变量数据的数据类型处理多种自变量数据，获得多种自变量数据每种对应的第一筛选系数；利用预设筛选算法根据多种自变量数据和因变量数据，获得多种自变量数据每种对应的第二筛选系数；在进行数据筛选时，从多种自变量数据中，筛选出第一筛选系数大于第一预设阈值，和/或第二筛选系数大于第二预设阈值的自变量数据作为目标数据，通过两个筛选系数筛选，提高目标数据筛选的准确率，并且自动筛选出目标数据，提高了目标数据筛选的效率。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种数据筛选方法的流程图；

图2是图1中步骤S120的子步骤流程图；

图3是根据一示例性实施例示出的一种数据筛选装置的框图；

图4是根据一示例性实施例示出的一种电子设备700的框图；

图5是根据一示例性实施例示出的一种电子设备1900的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

随着互联网信息技术的发展，人们在浏览页面或者执行某个操作时，会产生大量的数据，对这些数据进行分析可以反映各个事件之间的关联性。在数据科学技术领域，尤其是在风控技术领域，通常会对上述数据进行筛选。例如，筛选出数据中具有泄露风险的数据。这里的泄露风险的数据指的是，由因变量数据衍生变换而产生的数据，或者是该泄露风险的数据存在数据穿越，它在时间跨度上本应该是属于测试集，但表现其对应的特征信息而泄露到训练集或者观察期的数据集中。在传统的筛选方式中，主要依赖于筛选人员的主观地进行筛选。例如，先对自变量数据和因变量数据通过相关性矩阵计算找到相关性强的特征，再进一步通过数据对比或者分组箱体图等方式进行数据探索，最后再通过筛选人员人为地观察后进行区分，找到具有上述数据。需要人工介入观察的方式，如果数据众多，例如，数据超过10000条以上，逐个排查比较繁琐、耗时且容易出错，并且筛选效率低下。

本公开提供了一种数据筛选方法，数据筛选方法用于如图3所示的数据筛选装置100、图4所述的电子设备700以及图5所示的电子设备1900。本实施例中以应用于电子设备，电子设备可以是服务器，该服务器可以为银行的用于评估信用风险的服务器。电子设备还可以是与服务器连接的终端。请参阅图1，所述数据筛选方法可以包括以下步骤：

步骤S110、获取多种自变量数据，并获取所述多种自变量数据对应的因变量数据。

自变量数据是基于用户的操作直接产生的。针对不同的业务产生的自变量数据不同，例如，用户在线上浏览或者执行等操作后，通常会留下大量的网络操作数据。或者是，用户在填写某些信息后，再由操作人员将该信息录入管理系统或者服务器等。因变量数据是受到自变量数据影响的数据。

电子设备从自变量数据的存储位置获取多种自变量数据。示例性地，针对银行信用卡的场景，自变量数据包括用户个人基本信息、用户申请表数据、还款计划表数据、第三方渠道的数据以及公务系统的征信数据等种类。例如，电子设备从银行的数据库中获取用户个人基本信息、用户申请表数据和还款计划表数据。其中，用户个人基本信息可以包括用户姓名、籍贯、出生日期、住址、联系方式等，用户申请表数据可以包括用户姓名、住址、联系方式、担保人信息、申请金额、申请日期、资金用途、收入、职业等，还款计划表可以包括用户姓名、借贷期数、每期还款金额、利息、逾期惩罚等。电子设备可以预先与第三方渠道对应的设备(例如服务器或者终端)建立连接，电子设备从上述设备获取第三方渠道的数据，第三方渠道的数据包括用户的其余借贷信息、第三方渠道的名称、在第三方渠道的还款情况等。电子设备可以从公务系统中查询用户的征信数据，其中，该征信数据包括资质、消费能力、还款能力、历史信用等。每种自变量数据中包括多个自变量数值，例如，某种自变量数据为年龄，自变量数据年龄包括的自变量数值可以为10岁、20岁、30岁等。

获取多种自变量数据对应的因变量数据。在一种实施方式中，在自变量数据的存储位置中预先保存了多种自变量数据对应的因变量数据。在获取自变量数据的同时，通过获取自变量数据的途径，从存储位置获取多种自变量数据对应的因变量数据。

在另一种实施方式中，在自变量数据的存储位置中未保存多种自变量数据对应的因变量数据。在获取到自变量数据后，可以由评估人员设置多种自变量数据对应的因变量数据。

示例性地，针对银行信用卡的场景，获得的因变量数据的数据类型可以为离散型的，例如因变量数据可以为好用户或者坏用户。获得的因变量数据的数据类型可以为连续型的，例如因变量数据可以为分数(如99分)。

需要说明的是，本实施例中的每种自变量数据指的是某一类自变量数据，例如，某种自变量数据为年龄。每种自变量数据包括多个自变量数值，以个数为单位的自变量数据指的是某一具体的数值或者内容。例如，某种自变量数据为年龄，年龄包括多个自变量数值，多个自变量数值可以为45岁、20岁、31岁等。

步骤S120、根据所述因变量数据的数据类型处理所述多种自变量数据，获得所述多种自变量数据每种对应的第一筛选系数。

针对因变量数据的数据类型不同，对自变量数据有不同的处理方式，从而获得不同类型的筛选系数。根据因变量数据的数据类型处理多个自变量数值，单独计算多种自变量数据每种对应的第一筛选系数。其中，每个自变量数据对应的第一筛选系数用于每种自变量数据与因变量数据之间的关联关系或者关联性。第一筛选系数与自变量数据和因变量数据之间的关联性成正比，即第一筛选系数越大，该第一筛选系数对应的自变量数据和因变量数据之间的关联性越强，反之，第一筛选系数越小，该第一筛选系数对应的自变量数据和因变量数据的关联性越弱。

在一种实施方式中，获取多种自变量数据，根据因变量数据和每种自变量数据之间的关联关系获得第一筛选系数，从而逐个获得多种自变量数据中每种自变量数据对应的第一筛选系数。

步骤S130、利用预设筛选算法根据所述多种自变量数据和所述因变量数据，获得所述多种自变量数据每种对应的第二筛选系数。

利用预设筛选算法，例如，预设算法可以为LightGBM算法、XGBoost算法等，根据多种自变量数据和因变量数据，获得多种自变量数据各种对应的第二筛选系数。计算多种自变量数据与因变量数据之间的关联关系，从该关联关系中获取每种自变量数据对应的第二筛选系数。

在一种实施方式中，根据多种自变量数据和因变量数据，获取每种自变量数据和因变量数据之间的关系，多种自变量数据中的每种自变量数据对应的第二筛选系数可以表征每种自变量数据和因变量数据之间的关系。

另外，除了使用筛选算法外，还可以筛选算法预先训练出筛选模型，利用筛选模型，根据所述多种自变量数据和所述因变量数据，获得所述多种自变量数据中每种对应的第二筛选系数。例如，将多种自变量数据和因变量数据划分为训练集和测试集，训练集和数据集划分比例可以为7:3。通过训练集训练出筛选模型，将测试集中是数据输入筛选模型，获得模型的输出结果，输出结果中的AUC(Area Under Curve，曲线和坐标轴围成的面积)大于0.95，说明筛选模型训练可用。将测试集中的数据通过训练成功的筛选模型输出每种自变量数据对应的第二筛选系数。可选地，模型可以只输出第二筛选系数大小排名前预设个数(例如前十个)，其余第二筛选系数对因变量数据的影响极小甚至无影响，所以无需输出。

步骤S140、从所述多种自变量数据中确定目标数据，其中，所述目标数据对应的第一筛选系数大于第一预设阈值，和/或所述目标数据对应的第二筛选系数大于第二预设阈值。

通过第一筛选系数和第二筛选系数两种方式进行筛选，预先设置第一筛选系数对应的第一预设阈值，以及预先设置第二筛选系数对应的第二预设阈值。在进行筛选时，从多种自变量数据中，筛选出第一筛选系数大于第一预设阈值，和/或第二筛选系数大于第二预设阈值的自变量数据作为目标数据。筛选出的目标数据与因变量数据之间的相关性强。

本实施例提供的数据筛选方法，获取多种自变量数据以及多种自变量数据对应的因变量数据；再根据因变量数据的数据类型处理多种自变量数据，获得多种自变量数据每种对应的第一筛选系数；利用预设筛选算法根据多种自变量数据和因变量数据，获得多种自变量数据每种对应的第二筛选系数；在进行数据筛选时，从多种自变量数据中，筛选出第一筛选系数大于第一预设阈值，和/或第二筛选系数大于第二预设阈值的自变量数据作为目标数据，通过两个筛选系数筛选，提高目标数据筛选的准确率，并且自动筛选出目标数据，提高了目标数据筛选的效率。

可选地，可以通过筛选模型进一步判断目标数据是对因变量数据影响较大。在多种自变量数据中将目标数据剔除，将其余数据输入筛选模型中，获得筛选模型输出结果。输出结果中的AUC相较于之前的ACU下降幅度超出5％，再次证明前述筛选出的目标数据对因变量数据影响较大，前述自动筛选出的目标数据精确、稳定。

可选地，数字科学技术领域，尤其是在风控技术领域，因变量数据受到多种自变量数据的综合影响，因此通过多种自变量数据综合评估出的因变量数据更具备稳定性和可靠性。在训练风控模型时，由于目标数据对因变量数据的影响过大，而掩盖了其他种类的自变量数据的影响，训练出来的模型对因变量数据的评估可能不可靠或者不稳定。因此，可以将多种自变量数据中的目标数据直接剔除，或者是后续相应的建模人员或者业务人员便对目标数据进行审核，最终判定是否需要剔除，用剩余的数据和因变量数据训练风控模型，使得获得的风控模型可以更加准确、综合的评估因变量数据。通过风控模型可用实现风险评估、信用卡评分或者是精准营销。

可选地，在步骤S110中获得了多种自变量数据后，为了便于后续步骤处理该数据，可以对多种自变量数据进行预处理。如下，将多种自变量数据并表处理为二维表格数据。该并表处理可以理解为，多种自变量数据可能来自不同的客户，或者是来自不同的表格，将多种自变量数据并表处理到同一张二维表格中。例如，原本的自变量数据如表1和表2所示，其中，表1记录的是用户张三的自变量数据，表2记录的是用户李四的自变量数据。对表1和表2转换处理为二维表格数据如表3所示。

表1

姓名	出生日期	月收入(元)	借贷情况
				张三	2000年1月1日	5000	无

表2

姓名	出生日期	月收入(元)	借贷情况
				李四	1999年1月3日	4500	无

表3

姓名	出生日期	月收入(元)	借贷情况
				张三	2000年1月1日	5000	无
李四	1999年1月3日	4500	无

如表3所示，在二维表格数据中，存在4种自变量数据，分别为姓名、出生日期、月收入和借贷情况。自变量数据姓名包括2个自变量数值，分别为张三和李四。

需要说明的是，自变量数据的形式可以不限于表的形式，还可以为软文的形式。

可选地，预处理还可以包括对数据进行清洗，例如对缺失率过多的列进行识别后，再对该行进行补值或剔除。对日期列进行转换，单一值列数据进行相应的剔除，并且对错乱的字符串离散列进行剔除(剔除可以减少后续的计算量)等。

可选地，预处理还可以包括对自变量数据中的文字数据进行标签化处理。例如，预先构建正面、负面和中性三种性质的词库。然后通过jieba分词对文字数据进行分词，再对分词后的文字提取关键词，将关键词与上述三种性质的词库进行比对，当分词后的文字落入对应的词库，以该词库的性质作为分词后的文字的标签。例如，正面文字的标签可以为00，负面文字的标签可以为01，中性文字的标签可以为11。

可选地，对出生日期类型的自变量数据转换为用户年龄。

在本实施例中，通过对自变量数据进行转换、补齐、剔除等预处理，便于后续对自变量数据的处理，提升数据筛选效率。

可选地，在获得多种自变量数据时，有的自变量数据可能对因变量数据无影响。因此，从多种自变量数据中获取目标数据，将多种自变量数据中除目标自变量数据外的其余自变量数据(其余自变量数据例如姓名)剔除，获得的目标自变量数据对因变量数据存在影响。再将目标自变量数据进行预处理，预处理方式与上一实施例的类似，在此不再赘述。

在根据因变量数据的数据类型处理多个自变量数值时，处理方式还可以与自变量数据的数据类型有关。在一种实施方式中，因变量数据的数据类型为离散型时，请参阅图2，步骤S120包括如下子步骤：

子步骤S121、当所述因变量数据的数据类型为离散型时，对每种自变量数据中的多个自变量数值进行分箱处理，获得多个分箱。

在因变量数据的数据类型为离散型时，对多种自变量数据中的每种自变量数据进行分箱处理，获得多个分箱，每个分箱中包括至少一个自变量数值。可以理解的是，每种自变量数据中包括多个自变量数值，对每种自变量数据中的多个自变量数值进行分箱处理，获得多个分箱，每个分箱中有该种类的至少一个自变量数值。

可选地，在前述已经对自变量数据预处理的情况下，考虑到对于缺失率超过50％以上的特征，已经进行剔除处理，如果在自变量数据中仍存在对于有实际业务含义的缺失值，此时也可以将缺失值作为单独一箱进行处理。同样，对于奇异值或离群值等特殊值，如果同样有实际业务含义，在划分分组时候也可以单独处理为一个分箱。

可选地，在对每种自变量数据进行分箱处理时，分箱的方式可以与自变量数据的数据类型有关。在一种方式中，当所述因变量数据的数据类型为离散型时，针对多种自变量数据中的离散型的自变量数据，例如，离散型的自变量数据为学历、姓名等，获取多种离散型的自变量数据中每种在所述多种自变量数据中的占比作为第一占比(可以理解为每种自变量数据在总的自变量数据中的占比)，以及获取每种离散型的自变量数据中坏样本在该种自变量数据中的占比作为第二占比。再按照预设顺序对多个第一占比进行排序，获得排序结果。预设顺序可以为数值从大到小的顺序，也可以为数值从小到大的顺序。按照所述排序结果对所述多种离散型的自变量数据进行排序，并按照预设卡方值和多个第二占比，对排序后的自变量数据进行分箱处理，获得所述多个分箱。例如，将编码后的各个组别依照第二占比相邻的分箱不断循环进行合并处理，并且计算合并后对应分箱的卡方值，如果计算出的卡方值达到阈值则停止合并，获得最终的多个分箱。如果计算出的卡方值未到达阈值，则继续使用预设卡方值进行分箱合并，直到合并后的分箱计算出的卡方值到达阈值，获得最终的多个分箱。其中，预设卡方值可以为最小卡方值3.84。通过上述分箱处理，将离散的自变量数据合并成更少的状态。需要说明的是，在多种自变量数据中可能既存在离散型的自变量数据，也存在连续型的自变量数据，对其中的离散型自变量数据用本方式进行分箱。

作为另一方式，当所述因变量数据的数据类型为离散型时，针对多种自变量数据中的连续型的自变量数据，例如，连续型的自变量数据为年龄、收入等，对多个连续型的自变量数据进行分箱处理，获得多个初始分箱。例如，可以按照预先设置的等值或者等距对多个连续型的自变量数据进行初步的分箱处理。按照预设卡方值对所述多个初始分箱进行合并处理，获得所述多个分箱。其中，预设卡方值可以为最小卡方值3.84。设定最小卡方值，整体只需要经过一次分箱合并，可以提升分箱速度，而且通过卡方分箱的方式，可降低后续分箱调整的复杂程度。通过分箱处理，将连续的自变量离散化。需要说明的是，在多种自变量数据中可能既存在离散型的自变量数据，也存在连续型的自变量数据，对其中的连续型自变量数据用本方式进行分箱。

子步骤S122、根据所述多个分箱各自的自变量数值，计算所述多个分箱各自对应的WOE值，获得多个WOE值。

根据多个分箱中每个分箱的至少一个自变量数值，计算每个分箱的WOE(Weightof Evidence，证据权重)值，获得多个WOE值。为便于获取多个WOE值的单调性，设置横坐标为每个分箱的下标，纵坐标为每个分组WOE值，于是对于每种自变量数据，都可以得到一组WOE条状图。

子步骤S123、判断所述多个WOE值是否表征出单调性。

其中，单调性可以为单调递增或者单调递减。对于一种自变量数据获得多个WOE值，电子设备遍历上述一组WOE值，比较一组WOE值前后两个WOE值的大小，获得WOE值的变化趋势。如果变化趋势为逐次降低，说明多个WOE值表征出单调递减。如果变化趋势为逐次递增说明多个WOE值表征出单调递减。

若多个WOE值表征出单调性，则流程进入步骤S124。若多个WOE值未表征出单调性，则流程回到步骤S121，重新执行步骤S121，对该种自变量数据重新进行分箱，计算重新分箱后的多个WOE值，直到重新获得的多个WOE值表征出单调性，在计算出IV(InfromationValue，信息价值)值。

示例性的，如果获得的多个WOE值为[0.1,0.2,0.21,0.1,0.4]，遍历多个WOE值，0.2大于0.1，记录数加1，0.21大于0.2记录数再次加1，继续遍历0.1小于0.21，记录数减去1，0.4大于0.1，记录数继续加1，最终记录数3大于0，则该特征整体WOE趋势单调递增，但是第三次遍历的时候，出现偏差，这个时候将第三组和第四组合并，然后再重新计算各组的WOE值，使得所有分组WOE趋势单调。最终根据调整后的分箱，计算对应的IV值。

子步骤S124、根据所述多个分箱各自对应的WOE值，计算所述每种自变量数据对应的第一筛选系数。

其中，所述第一筛选系数为IV值。IV值用来表示某一种自变量数据对因变量数据预测的贡献程度，即IV值表征的是特征的预测能力。IV值还可以理解为用来表示自变量数据和因变量数据之间的关联性。通常IV值越高，该种自变量数据的预测能力越强，反之，IV值越高，自变量数据的预测能力越弱。在本实施例中，如果IV值可以分布在0.02至0.5之间，则该IV值对应的自变量数据对因变量数据的影响在正常范围内。如果IV值低于0.02，说明该IV值对应的自变量数据对因变量数据的影响较低，可以对该自变量数据进行剔除，不用于预测因变量数据。如果IV值超过0.5，说明该IV值对应的自变量数据对因变量数据的影响较大，该自变量数据和因变量数据之间有强关联性。因此，在第一筛选系数为IV值时，可以将第一预设阈值设置为0.5。

每种自变量数据计算出一个IV值，多种自变量数据计算出多个IV值，将多个IV值进行排序，例如按照从小到大的顺序排序，或者按照从大到小的顺序排序。将排序后的IV值保存为字典格式。

在另一种实施方式中，当因变量数据的数据类型为连续型时，步骤S120包括：当所述因变量数据的数据类型为连续型时，获得所述多种自变量数据每种对应的第一筛选系数，所述第一筛选系数为相关系数。相关系数是一种统计指标，是研究每种自变量数据和因变量数据之间相关程度(或者说关联性)的量。相关性系数可以为皮尔逊相关系数。相关系数与关联性成正比。相关系数越大，则每种自变量数据和因变量数据之间的关联性越强。反正，相关系数越小，则每种自变量数据和因变量数据之间的关联性越弱。在本实施方式中，相关系数在0.8至1.0之间，表征该种自变量数据和因变量数据之间极强相关。相关系数在0.6至0.8之间，表示该种自变量数据和因变量数据之间强相关。相关系数在0.4至0.6之间，表示该种自变量数据和因变量数据之间的中等程度相关。相关系数在0.2至0.4之间，表示该种自变量数据和因变量数据之间的弱相关。相关系数在0至0.02之间，表示该种自变量数据和因变量数据之间极弱相关或无相关。因此，在第一筛选系数为相关系数时，第一预设阈值可以为0.8。

本实施方式中的处理方式还可以与自变量数据的数据类型相关。当所述因变量数据的数据类型为连续型，且所述自变量数据的数据类型为连续型时，按照person相关系数算法计算所述多种自变量数据每种对应的第一筛选系数。

当所述因变量数据的数据类型为连续型，且所述自变量数据的数据类型为离散型时，按照spearman相关系数算法计算所述多种自变量数据每种对应的第一筛选系数。

为实现上述方法类实施例，本实施例提供一种数据筛选装置，图3是根据一示例性实施例示出的一种数据筛选装置的框图。参照图3，所述数据筛选装置100包括：变量获取模块110、第一系数获取模块120、第二系数获取模块130和确定模块140。

变量获取模块110，用于获取多种自变量数据，并获取所述多种自变量数据对应的因变量数据；

第一系数获取模块120，用于根据所述因变量数据的数据类型处理所述多个自变量数值，获得所述多种自变量数据每种对应的第一筛选系数；

第二系数获取模块130，用于利用预设筛选算法根据所述多种自变量数据和所述因变量数据，获得所述多种自变量数据每种对应的第二筛选系数；

确定模块140，用于从所述多种自变量数据中确定目标数据，其中，所述目标数据对应的第一筛选系数大于第一预设阈值，和/或所述目标数据对应的第二筛选系数大于第二预设阈值。

可选地，第一系数获取模块120包括：分箱模块、WOE值获取模块、IV值获取模块和重新分箱模块。

分箱模块，用于当所述因变量数据的数据类型为离散型时，对每种自变量数据中的多个自变量数值进行分箱处理，获得多个分箱；

WOE值获取模块，用于根据所述多个分箱各自的自变量数值，计算所述多个分箱各自对应的WOE值，获得多个WOE值；

IV值获取模块，用于当所述多个WOE值表征出单调性时，根据所述多个分箱各自对应的WOE值，计算所述每种自变量数据对应的第一筛选系数，其中，所述第一筛选系数为IV值；

重新分箱模块，用于当所述多个WOE值表征出非单调性时，重新执行所述对每种自变量数据中的多个自变量数值进行分箱处理，获得多个分箱的步骤，直至重新获得的多个WOE值表征出单调性。

可选地，分箱模块包括：占比统计模块、排序模块以及第一分箱模块。

占比统计模块，用于当所述因变量数据的数据类型为离散型时，针对多种自变量数据中的离散型的自变量数据，获取多种离散型的自变量数据中每种在所述多种自变量数据中的占比作为第一占比，以及获取每种离散型的自变量数据中坏样本的占比作为第二占比；

排序模块，用于按照预设顺序对多个第一占比进行排序，获得排序结果；

第一分箱模块，用于按照所述排序结果对所述多种离散型的自变量数据进行排序，并按照预设卡方值和多个第二占比，对排序后的自变量数据进行分箱处理，获得所述多个分箱。

可选地，分箱模块包括：初始分箱模块以及第二分箱模块。

初始分箱模块，用于当所述因变量数据的数据类型为离散型时，针对多种自变量数据中的连续型的自变量数据，对多个连续型的自变量数据进行分箱处理，获得多个初始分箱；

第二分箱模块，用于按照预设卡方值对所述多个初始分箱进行合并处理，获得所述多个分箱。

可选地，第一系数获取模块120包括：第一筛选系数获取模块。

第一筛选系数获取模块，用于当所述因变量数据的数据类型为连续型时，获得所述多种自变量数据每种对应的第一筛选系数，所述第一筛选系数为相关系数。

可选地，第一筛选系数获取模块包括：第一预设算法获取模块。

第一预设算法获取模块，用于当所述因变量数据的数据类型为连续型，且所述自变量数据的数据类型为连续型时，按照person相关系数算法计算所述多种自变量数据每种对应的第一筛选系数，其中，所述第一筛选系数为相关系数。

可选地，第一筛选系数获取模块包括：第二预设算法获取模块。

第二预设算法获取模块，用于当所述因变量数据的数据类型为连续型，且所述自变量数据的数据类型为离散型时，按照spearman相关系数算法计算所述多种自变量数据每种对应的第一筛选系数。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种电子设备700的框图。如图4所示，该电子设备700可以包括：处理器701，存储器702。该电子设备700还可以包括多媒体组件703，输入/输出(I/O)接口704，以及通信组件705中的一者或多者。

其中，处理器701用于控制该电子设备700的整体操作，以完成上述的数据筛选方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作，这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件705可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的数据筛选方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的数据筛选方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器702，上述程序指令可由电子设备700的处理器701执行以完成上述的数据筛选方法。

图5是根据一示例性实施例示出的一种电子设备1900的框图。例如，电子设备1900可以被提供为一服务器。参照图5，电子设备1900包括处理器1922，其数量可以为一个或多个，以及存储器1932，用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器1922可以被配置为执行该计算机程序，以执行上述的数据筛选方法。

另外，电子设备1900还可以包括电源组件1926和通信组件1950，该电源组件1926可以被配置为执行电子设备1900的电源管理，该通信组件1950可以被配置为实现电子设备1900的通信，例如，有线或无线通信。此外，该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统，例如WindowsServer^TM，Mac OS X^TM，Unix^TM，Linux^TM等等。

在另一示例性实施例中，还提供了一种包括程序指令的非临时性计算机可读存储介质，该程序指令被处理器执行时实现上述的数据筛选方法的步骤。例如，该非临时性计算机可读存储介质可以为上述包括程序指令的存储器1932，上述程序指令可由电子设备1900的处理器1922执行以完成上述的数据筛选方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的数据筛选方法的代码部分。

综上所述，本公开提供的数据筛选方法、装置、介质及电子设备，获取多种自变量数据以及多种自变量数据对应的因变量数据；再根据因变量数据的数据类型处理多种自变量数据，获得多种自变量数据每种对应的第一筛选系数；利用预设筛选算法根据多种自变量数据和因变量数据，获得多种自变量数据每种对应的第二筛选系数；在进行数据筛选时，从多种自变量数据中，筛选出第一筛选系数大于第一预设阈值，和/或第二筛选系数大于第二预设阈值的自变量数据作为目标数据，通过两个筛选系数同时筛选，提高目标数据筛选的准确率，自动筛选出目标数据，提高了目标数据筛选的效率。并且，本公开高效且精准的实现了自动化数据筛选功能，更智能化的对数据特征识别。通过自动化数据清洗，以及相应的统计指标计算如缺失率，单一值个数等，将不符合要求的自变量数据进行剔除操作从而优化数据质量，提升验证效率。对于因变量数据的处理多样，自动化检测因变量数据的数据类型，并对缺失值进行剔除处理和对多分类目标值二分类处理。使得后续步骤可兼容IV值计算，提升整个检验流程的稳健性。通过设定最小卡方值自动化处理分箱，并根据WOE趋势调整分箱结果可使得特征可解释性更强。将IV值较大的特征记录为潜在风险泄露特征，并进一步通过数据审核和相关树模型算法验证结果和对应的特征重要性，大大提升了数据泄露检验的准确性。考虑到连续型目标变量，又提供了初始相关性检验的方式，也大大提升了数据泄露检验的多样性和范围，使得整个流程可处理更多错综复杂的数据泄露问题，从而得到较为精准的结果。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种数据筛选方法，其特征在于，包括：

获取多种自变量数据，并获取所述多种自变量数据对应的因变量数据；

根据所述因变量数据的数据类型处理所述多种自变量数据，获得所述多种自变量数据每种对应的第一筛选系数，其中，当所述因变量数据的数据类型为离散型时，所述第一筛选系数为IV值，当所述因变量数据的数据类型为连续型时，所述第一筛选系数为相关系数；

利用预设筛选算法根据所述多种自变量数据和所述因变量数据，获得所述多种自变量数据每种对应的第二筛选系数；

从所述多种自变量数据中确定目标数据，其中，所述目标数据对应的第一筛选系数大于第一预设阈值，和所述目标数据对应的第二筛选系数大于第二预设阈值；

将所述多种自变量数据中的所述目标数据剔除后输入筛选模型，获得所述筛选模型输出的输出结果；

若所述输出结果中的AUC值比将所述多种自变量数据输入所述筛选模型输出的结果的AUC值低至少5％，则确定所述目标数据为最终的目标数据。

2.根据权利要求1所述的方法，其特征在于，所述根据所述因变量数据的数据类型处理所述多种自变量数据，获得所述多种自变量数据每种对应的第一筛选系数，包括：

当所述因变量数据的数据类型为离散型时，对每种自变量数据中的多个自变量数值进行分箱处理，获得多个分箱；

根据所述多个分箱各自的自变量数值，计算所述多个分箱各自对应的WOE值，获得多个WOE值；

当所述多个WOE值表征出单调性时，根据所述多个分箱各自对应的WOE值，计算所述每种自变量数据对应的第一筛选系数，其中，所述第一筛选系数为IV值；

当所述多个WOE值表征出非单调性时，重新执行所述对每种自变量数据中的多个自变量数值进行分箱处理，获得多个分箱的步骤，直至重新获得的多个WOE值表征出单调性。

3.根据权利要求2所述的方法，其特征在于，所述当所述因变量数据的数据类型为离散型时，所述对每种自变量数据中的多个自变量数值进行分箱处理，获得多个分箱，包括：

当所述因变量数据的数据类型为离散型时，针对多种自变量数据中的离散型的自变量数据，获取多种离散型的自变量数据中每种在所述多种自变量数据中的占比作为第一占比，以及获取每种离散型的自变量数据中坏样本在该种自变量数据中的占比作为第二占比；

按照预设顺序对多个第一占比进行排序，获得排序结果；

按照所述排序结果对所述多种离散型的自变量数据进行排序，并按照预设卡方值和多个第二占比，对排序后的自变量数据进行分箱处理，获得所述多个分箱。

4.根据权利要求2所述的方法，其特征在于，所述当所述因变量数据的数据类型为离散型时，所述对每种自变量数据中的多个自变量数值进行分箱处理，获得多个分箱，包括：

当所述因变量数据的数据类型为离散型时，针对多种自变量数据中的连续型的自变量数据，对每种连续型的自变量数据中的多个自变量数值进行分箱处理，获得多个初始分箱；

按照预设卡方值对所述多个初始分箱进行合并处理，获得所述多个分箱。

5.根据权利要求1所述的方法，其特征在于，所述根据所述因变量数据的数据类型处理所述多种自变量数据，获得所述多种自变量数据每种对应的第一筛选系数，包括：

当所述因变量数据的数据类型为连续型时，获得所述多种自变量数据每种对应的第一筛选系数，所述第一筛选系数为相关系数。

6.根据权利要求5所述的方法，其特征在于，所述当所述因变量数据的数据类型为连续型时，获得所述多种自变量数据每种对应的第一筛选系数，包括：

当所述因变量数据的数据类型为连续型，且所述自变量数据的数据类型为连续型时，按照person相关系数算法计算所述多种自变量数据每种对应的第一筛选系数。

7.根据权利要求5所述的方法，其特征在于，所述当所述因变量数据的数据类型为连续型时，获得所述多种自变量数据每种对应的第一筛选系数，包括：

8.一种数据筛选装置，其特征在于，所述装置包括：

变量获取模块，用于获取多种自变量数据，并获取所述多种自变量数据对应的因变量数据；

第一系数获取模块，用于根据所述因变量数据的数据类型处理所述多种自变量数据，获得所述多种自变量数据每种对应的第一筛选系数，其中，当所述因变量数据的数据类型为离散型时，所述第一筛选系数为IV值，当所述因变量数据的数据类型为连续型时，所述第一筛选系数为相关系数；

第二系数获取模块，用于利用预设筛选算法根据所述多种自变量数据和所述因变量数据，获得所述多种自变量数据每种对应的第二筛选系数；

确定模块，用于从所述多种自变量数据中确定目标数据，其中，所述目标数据对应的第一筛选系数大于第一预设阈值，和所述目标数据对应的第二筛选系数大于第二预设阈值；将所述多种自变量数据中的所述目标数据剔除后输入筛选模型，获得所述筛选模型输出的输出结果；若所述输出结果中的AUC值比将所述多种自变量数据输入所述筛选模型输出的结果的AUC值低至少5％，则确定所述目标数据为最终的目标数据。

9.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-7中任一项所述方法的步骤。