CN112395478B

CN112395478B - 一种双模型共用的数据筛选方法及系统

Info

Publication number: CN112395478B
Application number: CN202110059089.9A
Authority: CN
Inventors: 路林林
Original assignee: Shenzhen Suoxinda Data Technology Co ltd; Soxinda Beijing Data Technology Co ltd
Current assignee: Shenzhen Suoxinda Data Technology Co ltd; Soxinda Beijing Data Technology Co ltd
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2021-04-27
Anticipated expiration: 2041-01-18
Also published as: CN112395478A

Abstract

本发明公开了一种双模型共用的数据筛选方法及系统，其中所述方法包括：从历史用户信息数据库获取历史用户信息，得到第一标签数据集，并构建第一逻辑回归模型；基于第一逻辑回归模型对所述历史用户信息进行第二次标签化处理，得到第三标签数据集，并构建第二逻辑回归模型；基于第一逻辑回归模型和第二逻辑回归模型对当前输入的用户数据进行筛选。与现有技术相比，本发明通过引入不确定类的标签以及再分类建模，减少由于模型的不适用对申请者的申请结果造成的误判，使得模型的考量更加全面，数据得到更好的应用。

Description

一种双模型共用的数据筛选方法及系统

技术领域

本发明属于大数据分析与数据挖掘领域，尤其涉及一种双模型共用的数据筛选方法及系统。

背景技术

在移动、联通等营业厅办理手续中，通常需要对用户进行评估，是否适于使用某项增值业务。而对用户进行评估，最常见的主流算法是逻辑回归模型，通常通过对用户的各种属性特征进行预处理后，再使用逻辑回归模型做二分类判断，即把用户分为两类，一类为正常用户；一类为非正常用户。这种方法存在的问题是①模型对部分用户不适用；②无法衡量模型的不确定性。

发明内容

为了解决上述问题，本发明提出一种方法将模型可能不适用的数据挑出来以“不确定”为新的标签，即把模型不适用的数据作为一类，重新对数据进行三分类建模，这样给出的结果中就有了不确定类，从而结合二分类结果，就可以衡量该用户是否为不确定。

就此，本发明提供一种双模型共用的数据筛选方法，包括以下步骤：

从历史用户信息数据库获取历史用户信息；

对所述历史用户信息进行第一标签化处理，将用户分为第一类标签用户和第二类标签用户，并构建为第一标签数据集；

基于所述第一标签数据集构建第一逻辑回归模型；

基于所述第一逻辑回归模型对所述历史用户信息进行第二标签化处理，将用户重新分为第一类标签用户和第二类标签用户，并构建第二标签数据集；

基于所述第一标签数据集和所述第二标签数据集获取第三标签数据集，所述第三标签数据集包括第一类标签用户、第二类标签用户和第三类标签用户；

基于所述第三标签数据集构建第二逻辑回归模型；

对当前输入的用户数据进行筛选。

进一步，其中所述第一逻辑回归模型为二分类逻辑回归模型。

进一步，其中构建第一逻辑回归模型包括以下步骤：

对所述第一标签数据集中的数据进行探索性分析；

对经过上述分析后的数据进行数据预处理，获得预处理数据；

对所述预处理数据进行变量分箱，获得变量分箱数据；

对所述变量分箱数据进行WOE编码；

对编码后的数据进行变量选择；

基于逻辑回归算法构建第一逻辑回归模型。

进一步，其中所述基于所述第一标签数据集和所述第二标签数据集获取第三标签数据集，包括：

将所述第一标签数据集与所述第二标签数据集进行比较；

将所述第二标签数据集中标签与所述第一标签数据集中标签不同的数据修改为新的标签；

基于新的标签数据，获取第三标签数据集。

进一步，其中所述第一标签化处理是针对所述历史用户信息基于已有的审核标准通过人工标定。

进一步，其中所述第二逻辑回归模型为三分类逻辑回归模型。

进一步，其中所述基于所述第三标签数据集构建第二逻辑回归模型，包括：

分别以第一类标签用户、第二类标签用户和第三类标签用户作为二分类逻辑回归模型中某一方用户，得到三种不同的模型；

基于三种不同模型分别对某一用户进行二分类判断，得到三分类逻辑回归模型。

进一步，其中基于三种不同模型分别对某一用户进行二分类判断，得到三分类逻辑回归模型，包括：

分别采用三种模型对某一用户判断为“1”或“0”的概率值进行比较；

在三种模型中概率值最大的模型，即为该用户的归属类。

进一步，其中对当前输入的用户数据进行筛选，包括：

基于需求，对当前输入的用户数据基于第一逻辑回归模型和第二逻辑回归模型的比较结果进行筛选。

在本发明的另一方面，提出了一种基于上述方法的双模型共用的数据筛选系统，其特征在于，其包括：

历史用户信息数据库，其用于存储历史用户信息；

标签化处理模块，其用于对所述历史用户信息进行第一标签化处理和第二标签化处理，将用户分为第一类标签用户和第二类标签用户；

标签数据集构建模块，其用于构建为第一标签数据集、第二标签数据集和第三标签数据集；

第一逻辑回归模型建模模块，其用于基于所述第一标签数据集构建第一逻辑回归模型；

第二逻辑回归模型建模模块，其用于基于所述第三标签数据集构建第二逻辑回归模型；

信息输入模块，其用于接收用户输入信息；

数据筛选模块，其用于对接收的用户输入信息进行筛选。

与现有技术相比，本发明通过引入不确定类的标签以及再分类建模，减少由于模型的不适用对申请者的申请结果造成的误判，使得模型的考量更加全面，数据得到更好的应用。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，并且相同或对应的标号表示相同或对应的部分，其中：

图1是示出根据本发明实施例的一种双模型共用的数据筛选方法流程图；

图2是示出根据本发明某一实施例的构建第一逻辑回归模型的流程图；

图3是示出根据本发明某一实施例的获取第三标签数据集的流程图；以及

图4是示出根据本发明实施例的一种双模型共用的数据筛选系统的结构框图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述……，但这些……不应限于这些术语。这些术语仅用来将……区分开。例如，在不脱离本发明实施例范围的情况下，第一……也可以被称为第二……，类似地，第二……也可以被称为第一……。

下面结合附图详细说明本发明的可选实施例。

实施例一、

如图1所示，本发明公开了一种双模型共用的数据筛选方法，包括以下步骤：

从历史用户信息数据库获取历史用户信息；

基于所述第一标签数据集构建第一逻辑回归模型；

基于所述第三标签数据集构建第二逻辑回归模型；

对当前输入的用户数据进行筛选。

实施例二、

本发明提出了一种双模型共用的数据筛选方法，包括以下步骤：

从历史用户信息数据库获取历史用户信息；

通过标签化处理模块对所述历史用户信息进行第一标签化处理，将用户分为第一类标签用户和第二类标签用户，并构建为第一标签数据集；

基于所述第一标签数据集构建第一逻辑回归模型；

基于所述第三标签数据集构建第二逻辑回归模型；

对当前输入的用户数据进行筛选。

进一步，如图2所示，其中构建第一逻辑回归模型包括以下步骤：

对所述第一标签数据集中的数据进行探索性分析；

对所述预处理数据进行变量分箱，获得变量分箱数据；

对所述变量分箱数据进行WOE编码；

对编码后的数据进行变量选择；

基于逻辑回归算法构建第一逻辑回归模型。

进一步，如图3所示，其中所述基于所述第一标签数据集和所述第二标签数据集获取第三标签数据集，包括：

将所述第一标签数据集与所述第二标签数据集进行比较；

基于新的标签数据，获取第三标签数据集。

在三种模型中概率值最大的模型，即为该用户的归属类。

进一步，其中对当前输入的用户数据进行筛选，包括：

实施例三、

（一）训练集数据说明

建模使用的数据：审核机构已有的以前审批过的申请者的各种属性的数据。这些数据可能包括：婚姻状态，家庭人口数，子女数量，职业，年龄，年收入，工龄，通信费用、其他增值业务使用情况等。审核机构可以根据自己的标准给这些申请者贴标签，这些标签是：正常用户、不正常用户。这样，本实施例就得到了一个有标签的数据集，可以供本实施例作为模型的训练集使用。这个数据集的所有的属性特征是输入X，标签是输出Y。假设该数据集有n个申请者的信息，那么本实施例就得到了n个样本，每个样本均有一个X，一个Y。

（二）二分类建模

建模方法：这里本实施例采用逻辑回归算法进行二分类建模。具体步骤包括：探索性分析、数据预处理、变量分箱、WOE编码、变量选择、逻辑回归算法建模。

2.1探索性分析

该步骤是对所有的变量或某些变量及标签值进行探索性分析，通过直方图、箱线图、散点图等对变量的情况有大概的了解。该步骤的目的是：剔除某些错误数据很多的变量、对哪些变量很重要有个大概直观的了解，比如最大最小值、数据分布情况等，以决定需要怎样的数据预处理。

2.2数据预处理

①首先，对整个训练数据集的缺失值进行处理，处理方法可以是使用有缺失值的变量的平均值代替缺失值。除了平均值，也可以选中位数、1/4中位数、3/4中位数、最小值、最大值等其他方法对缺失值进行处理。②处理完缺失值，下一步是对X中的各变量进行归一化处理，比如原始数据中申请者的年龄值在1-100之间，年收入在20000-1000000之间，经过归一化后的年龄和年收入的范围都在同一区间，比如归一化后的年龄在0-1之间，归一化后的年收入也在0-1之间。归一化方法也有很多种，比如使用（某变量的原始值-该变量的最小值）/(该变量的最大值 - 该变量的最小值)作为归一化的值等。归一化的目的是为了使不同的变量对模型的影响差别不要太大，否则数值很大的属性对分类结果会有很大影响，而数值很小的属性对分类起不到很大作用。③把正常用户的标签设置为0，不正常用户的标签设置为1。

2.3 变量分箱

分箱，顾名思义，把变量分到箱子里，原来这个变量的一些值是不一样的，被分到同一个箱子里后，就变成一样了。做分箱是为了合理地处理数据集中的缺失值和异常值，使得模型更稳定。另外，变量分箱也由于减少了数据值的量使得逻辑回归模型更简单，不容易过拟合。这里注意，分箱是针对每个变量分别做分箱，比如对所有的年龄做分箱，对所有的年收入做分箱。分箱方法可以是自上而下或自下而上。自上而下即最开始把所有变量都放到一个箱子里，然后再按照某种规则把他们分到多个箱子，一步一步，直到箱子个数满足需要。自下而上即先把所有的值先每个值给个箱子，然后再按照某种规则一步步合并箱子，直到箱子个数满足要求。目前最常用的分箱方法叫Chimerge分箱法，是一种自下而上的分箱法。

2.4 WOE编码

这一步骤是对上一步骤分到箱子里的变量进行编码，即数值会变为编码后的值。举个例子，对于变量第k箱的WOE值为：

WOEk = log(p1/p2) 其中概率p1为第k箱中所有非正常用户占整个数据集中的所有非正常用户的比率，概率p2为第k箱中所有正常用户占整个数据集中的所有正常用户的比率。如果p1<p2,则WOE为负值，如果p1>p2，则WOE为正值，如果p1=p2,则WOE=0。WOE编码值能反映自变量的取值对结果判断（正常用户还是非正常用户）的贡献情况，比如如果贡献很小，那么WOE值的绝对值很小。

2.5 变量选择

经过WOE编码后，所有的数据预处理和特征工程就完成了。下一步，是做变量选择，这一步骤是为了减少使用的变量，因为申请者的属性变量太多，在建模时如果全部使用容易造成过拟合，以及一些变量之间的相关性会导致模型的不稳定性。因此，这一步骤需要做变量选择。变量选择有多种方法，包括但不限于：①基于IV值的变量选择。②基于逐步回归的变量选择③基于特征重要性的变量选择，比如：随机森林法、随机梯度下降等。变量选择这一步骤消除了线性相关性强的变量，避免模型不稳定的问题。

2.6 逻辑回归算法建模

下一步使用挑选的变量，作为输入变量，标签Y作为预测值，进行逻辑回归建模。建模后，形成的逻辑回归模型可以用来对新的申请者进行分类，判断新的申请者是属于正常用户还是非正常用户的。

（三）找到模型判断错误的训练集数据

经过第二步逻辑回归建模后，本实施例得到了一个模型，称之为模型A，该模型A可以根据申请者的属性计算是否应该通过审核。使用模型A，本实施例对原训练数据集进行计算，可以给出对训练数据集的标签，标签包括0和1，分别代表正常用户和非正常用户，本实施例将这个计算出的正常用户和非正常用户的标签称为“二分类标签”。

不难想到，模型得到的二分类标签和原始的训练集自带的标签有不一致的地方，即有些本来被标记为非正常用户，在“二分类标签”中给的是正常用户；反之亦然。由于原始数据是真实情况，是不会出错的。则出错的是“二分类标签”。而“二分类标签”会出错的原因在于二分类逻辑回归模型并不能完全描述数据集中的所有数据，举例来说，模型A对于某些申请者适用性良好，但是对其他一些申请者效果不好，也就是说模型A对其他一些申请者判断失误。解决上述存在的问题时，本实施例认为这些模型A判断失误的申请者的数据，是因为这些申请者的数据用模型A不能确定。则接下来的解决方案是：本实施例给这些判断失误的数据一个新的更改后的标签：不确定。即本来只有2类标签：正常用户和非正常用户。现在变成了3类标签：不确定、正常用户、非正常用户。有了这新的三类标签，下一步重新建模。

（四）三分类逻辑回归建模

三分类逻辑回归建模和二分类逻辑回归建模相似，唯一的不同在于标签值改变了。具体的操作如下：第三步得到的三类标签：不确定、正常用户、非正常用户，本实施例采取“一”对“其他”的方法，每次挑选其中一个作为“1”，其他两类的标签写为“0”。这样就又变成了一个二分类问题。“不确定”作为“1”，得到一个模型B；“正常用户”作为“1”，得到一个模型C；“非正常用户”作为“1”，得到模型D。因为逻辑回归模型最终输出的概率值，本实施例分别取出模型B\C\D对某申请者判断为“1”的概率进行比较，即三个数字比较，数字较大的即为归属类。这样，本实施例就形成了一个三分类逻辑回归模型E，把申请人分为了3类。

其中，三分类逻辑回归模型公式为：

三分类1：第一类别标签，设f(x) =1；第二、三类别标签，设f(x)=0。代入逻辑回归公式建模，得到参数w1, w1 =

，其中x表示输入的特征，n表示特征个数，w表示该特征的权重，T表示转置；

三分类2：第二类别标签，设f(x) =1；第一、三类别标签，设f(x)=0。代入逻辑回归公式建模，得到参数w2, w2 =

三分类3：第三类别标签，设f(x) =1；第一、二类别标签，设f(x)=0。代入逻辑回归公式建模，得到参数w3, w3 =

对每一样本x, 计算可得

式中，

；

，,即为第i类。

（五）合并结果

有两种方案来满足不同的需求。

（1）如果需要不确定性的衡量，那么直接找出二分类结果和三分类结果不一致的数据，就是本实施例给出的最终结果：正常用户、非正常用户、不确定。

（2）如果必须给出两种结果，不能给不确定类，那么直接比较二分类逻辑回归模型和三分类逻辑回归模型得到的概率p值进行比较，p值较大且不是不确定的类即为最终类，如果p值较大的类是不确定类，则把最终类确定为模型A的分类结果。

实施例四、

如图4所示，本发明还提出了一种双模型共用的数据筛选系统，其包括：

历史用户信息数据库，其用于存储历史用户信息；

信息输入模块，其用于接收用户输入信息；

数据筛选模块，其用于对接收的用户输入信息进行筛选。

实施例五、

本公开实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行如上实施例所述的方法步骤。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(AN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

以上介绍了本发明的较佳实施方式，旨在使得本发明的精神更加清楚和便于理解，并不是为了限制本发明，凡在本发明的精神和原则之内，所做的修改、替换、改进，均应包含在本发明所附的权利要求概括的保护范围之内。

Claims

1.一种双模型共用的数据筛选方法，其特征在于，包括以下步骤：

从历史用户信息数据库获取历史用户信息；

基于所述第一标签数据集构建第一逻辑回归模型；

基于所述第三标签数据集构建第二逻辑回归模型；

对当前输入的用户数据进行筛选，包括：

基于需求，对当前输入的用户数据基于第一逻辑回归模型和第二逻辑回归模型的比较结果进行筛选；

其中，所述基于所述第一标签数据集和所述第二标签数据集获取第三标签数据集，包括：

将所述第一标签数据集与所述第二标签数据集进行比较；

基于新的标签数据，获取第三标签数据集。

2.如权利要求1所述方法，其特征在于，其中所述第一逻辑回归模型为二分类逻辑回归模型。

3.如权利要求2所述方法，其特征在于，其中构建第一逻辑回归模型包括以下步骤：

对所述第一标签数据集中的数据进行探索性分析；

对所述预处理数据进行变量分箱，获得变量分箱数据；

对所述变量分箱数据进行WOE编码；

对编码后的数据进行变量选择；

基于逻辑回归算法构建第一逻辑回归模型。

4.如权利要求1所述方法，其特征在于，其中所述第一标签化处理是针对所述历史用户信息基于已有的审核标准通过人工标定。

5.如权利要求1所述方法，其特征在于，其中所述第二逻辑回归模型为三分类逻辑回归模型。

6.如权利要求5所述方法，其特征在于，其中所述基于所述第三标签数据集构建第二逻辑回归模型，包括：

7.如权利要求6所述方法，其特征在于，其中基于三种不同模型分别对某一用户进行二分类判断，得到三分类逻辑回归模型，包括：

在三种模型中概率值最大的模型，即为该用户的归属类。

8.一种如权利要求1-7任意一个所述方法的双模型共用的数据筛选系统，其特征在于，其包括：

历史用户信息数据库，其用于存储历史用户信息；

标签数据集构建模块，其用于构建为第一标签数据集、第二标签数据集和第三标签数据集，所述第三标签数据集包括第一类标签用户、第二类标签用户和第三类标签用户；

信息输入模块，其用于接收用户输入信息；

数据筛选模块，其用于对接收的用户输入信息进行筛选，包括：

其中，所述其用于构建为第一标签数据集、第二标签数据集和第三标签数据集，包括：

将所述第一标签数据集与所述第二标签数据集进行比较；

基于新的标签数据，获取第三标签数据集。