CN111984636A

CN111984636A - 数据建模方法和装置、设备及存储介质

Info

Publication number: CN111984636A
Application number: CN202010641373.2A
Authority: CN
Inventors: 王建刚
Original assignee: Suzhou Yanshu Information Technology Co ltd
Current assignee: Suzhou Yanshu Information Technology Co ltd
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2020-11-24
Anticipated expiration: 2040-07-06
Also published as: CN111984636B

Abstract

本申请公开了一种数据建模方法，通过获取已进行异常值处理的入模变量，其中，入模变量为多个，获取入模变量中的数据，将各入模变量中的数据进行分段得到多个数据段，计算各入模变量的信息值，并基于入模变量建立目标模型。由于先确定了入模变量，并且使用了已进行异常值处理的入模变量，避免了大量繁琐且无用的异常数据处理工作，极大地减少了分析人员的工作量并提高了建模效率。

Description

数据建模方法和装置、设备及存储介质

技术领域

本公开涉及数据建模领域，尤其涉及一种数据建模方法和装置、设备及存储介质。

背景技术

在数据建模中,样本数据中经常存在异常值的情况，异常值是指样本中的个别值，其数值明显偏离它(或他们)所属样本的其余观测值。异常值的常见类型分为以下几种：数据输入错误、测量误差、故意的异常值、数据处理错误、抽样错误、自然异常值。

常见的异常值处理方法：直接删除法、等宽分箱平滑、等比分箱平滑、均值替换和回归插补法。

在进行数据挖掘建模分析时，经常会涉及到几十上百个,甚至上千变量，如果每个变量都去执行异常值的处理流程，势必会造成工作量大，效率低下等问题。

发明内容

有鉴于此，本公开提出了一种数据建模方法，包括：

获取已进行异常值处理的入模变量；其中，所述入模变量为多个；

获取所述入模变量中的数据；

将各所述入模变量中的所述数据进行分段得到多个数据段；

计算各所述入模变量的信息值，并基于所述入模变量建立目标模型。

在一种可能的实现方式中，所述获取入模变量包括：

获取样本数据集，基于所述样本数据集构造多个变量；其中，每个所述变量中均包含有多个样本数据；

将各所述变量中的所述样本数据进行分段得到多个样本数据段；

计算各所述变量的信息值，由多个所述变量中选择所述入模变量，并基于所选择的所述入模变量建立用于查找并修正异常值的初始模型。

在一种可能的实现方式中，基于所述样本数据集构造多个变量，包括：

获取所述样本数据集中的各所述样本数据和预先设置的各所述变量的变量名；

根据各所述样本数据的属性和各所述变量名，将各所述样本数据归属到相应的所述变量中；

其中，所述样本数据的属性与所述变量名相对应。

在一种可能的实现方式中，将各所述变量中的所述样本数据进行分段得到多个样本数据段，包括：

将各所述变量中所包含的样本数据依据预设条件进行分段，得到多个初始数据段；

依据同一变量中任意两个所述初始数据段之间的相似度，对各所述初始数据段进行合并或保留，得到所述样本数据段。

在一种可能的实现方式中，依据同一变量中任意两个所述初始数据段之间的相似度，对各所述初始数据段进行合并或保留，包括：

获取同一变量下各所述初始数据段在另一变量中所对应的权值；其中，所述权值为各所述初始数据段中各所述样本数据在另一变量所对应的样本数据的均值、众数中的任意一种；

若两个所述初始数据段的权值的差值小于或等于设定值，则合并两个所述初始数据段后作为一个所述样本数据段；

若两个所述初始数据段的权值的差值大于所述设定值，则保留两个所述初始数据段分别作为所述样本数据段。

在一种可能的实现方式中，获取同一变量下各所述初始数据段在另一变量中所对应的权值包括：

获取各所述初始数据段中各样本数据在另一变量中所对应的样本数据；

基于所述初始数据段中各样本数据在另一变量中所对应的样本数据进行计算，得到所述初始数据段在另一变量中所对应的权值。

在一种可能的实现方式中，计算各所述变量的信息值，由多个所述变量中选择所述入模变量，并基于所选择的所述入模变量建立模型时，采用递归算法进行所述入模变量的选择。

根据本公开的另一方面，提供了一种数据建模装置，其特征在于，包括入模变量获取模块、数据分段模块和模型建立模块；

所述入模变量获取模块，被配置为获取已进行异常值处理的入模变量；其中，所述入模变量为多个；

获取所述入模变量中的数据；

所述数据分段模块，被配置为将各所述入模变量中的所述数据进行分段得到多个数据段；

所述模型建立模块，被配置为计算各所述入模变量的信息值，并基于所述入模变量建立目标模型。

根据本公开的另一方面，提供了一种数据建模设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令时实现前面任一所述的方法。

根据本公开的另一方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现前面任一所述的方法。

通过获取已进行异常值处理的入模变量，其中，入模变量为多个，获取入模变量中的数据，将各入模变量中的数据进行分段得到多个数据段，计算各入模变量的信息值，并基于入模变量建立目标模型。由于先确定了入模变量，并且使用了已进行异常值处理的入模变量，避免了大量繁琐且无用的异常数据处理工作，极大地减少了分析人员的工作量并提高了建模效率。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出本公开的数据建模方法的流程图；

图2示出本公开的数据建模方法的变量示意图；

图3示出本公开的数据建模方法的数据分段示意图；

图4示出本公开的数据建模方法的信息值示意图；

图5示出本公开的数据建模方法的趋势关系示意图；

图6示出本公开的数据建模方法的异常值示意图；

图7示出本公开的数据建模装置的框图；

图8示出本公开的数据建模设备的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

图1示出根据本公开一实施例的数据建模方法的流程图。如图1所示，该数据建模方法包括：

步骤S100，获取已进行异常值处理的入模变量，其中，入模变量为多个，获取入模变量中的数据，步骤S200，将各入模变量中的数据进行分段得到多个数据段，步骤S300，计算各入模变量的信息值，并基于入模变量建立目标模型。

具体的，参见图1，首先执行步骤S100，获取已进行异常值处理的入模变量，其中，入模变量为多个，获取入模变量中的数据。

在一种可能的实现方式中，首先需要进行第一次数据建模，其中，不对数据中的异常值进行处理，先获取样本数据集，基于样本数据集构造多个变量，其中，每个变量中均包含有多个样本数据，举例来说，构造变量包括：获取数据组中的样本数据和预先设置的各变量的变量名，根据各样本数据的属性和各变量名，将各样本数据归属到相应的变量中，其中，样本数据的属性与变量名相对应。举例来说，在硬盘中存储有购买产品的数据，即样本数据，参见图2，变量包括“deadline”、“buyamount”、“buytime_new”、“weekd”，这些字符即为变量的变量名，其中每组下面都有对应的数据，将每组的下的数据与对应的变量名进行关联，即，每个数据的值都可以赋值给当前变量，也就完成了变量构造。

进一步的，将各变量中的样本数据进行分段得到多个数据段，由于异常值不会影响程序的正常进行，于是在该步骤均不对异常值进行处理。此外，在构造出的众多变量中，只有极少数变量会成为入模变量，如果对变量一一进行处理，会造成大量工作的浪费。

在一种可能的实现方式中，将各变量中所包含的样本数据依据预设条件进行分段，得到多个初始数据段，依据同一变量中任意两个初始数据段之间的相似度，对各初始数据段进行合并或保留，得到数据段。举例来说，参见图3，以其中QR_BUYAMOUT_04Q变量为例，其中分段分别为0(zero)的数据段、从0到50000的数据段，从50000至150000的数据段，还有大于150000的数据段，共五个分段，其中每段的间隔并不相同，若将此变量表示第四季度的销售情况，以全部商品的销售量作为数据组，则先将销售量以50000为预设间隔进行分段得到初始数据段，销售量为零的商品分入zero数据段，销售量为0到50000的商品分入0到50000的初始数据段，销售量为50000到100000的商品分入50000到100000的初始数据段，销售量为100000到150000的商品分入100000到150000的初始数据段，销售量大于150000的商品分入大于150000的初始数据段，接着，若以商品的价格为相似度的依据，销售量为零的商品的价格为20000元以上，销售量为0到50000的商品价格在1500元至1600元，销售量为50000到100000的商品价格为100元至120元，销售量为100000到150000的商品价格在80元至95元，销售量大于150000的商品的价格为500元到700元，其中，依据同一变量中任意两个初始数据段之间的相似度，对各初始数据段进行合并或保留包括：获取同一变量下各所述初始数据段在另一变量中所对应的权值，其中，权值为各初始数据段中各数据在另一变量所对应的数据的均值、众数中的任意一种，若两个初始数据段的权值的差值小于或等于设定值，则合并两个初始数据段，若两个初始数据段的权值的差值大于设定值，则保留两个初始数据段。

其中，获取同一变量下各初始数据段在另一变量中所对应的权值包括：获取各初始数据段中各数据在另一变量中所对应的数据，基于初始数据段中各数据在另一变量中所对应的数据进行计算，得到初始数据段在另一变量中所对应的权值。此处，需要说明的是，权值指的是在各变量中的数据进行分段过程中，对所得到的各初始数据段进行合并或保留时的参考值。

其中，在一种可能的实现方式中，权值可以采用均值、众数和方差等各种统计数来表征。

举例来说，在QR_BUYAMOUT_04Q变量下得到以下几个初始数据段：“MISSING”数据段、0(zero)的数据段、从0到50000的数据段，从50000到100000的数据段，从50000至150000的数据段，还有大于150000的数据段。

然后，对于0(zero)的数据段、从0到50000的数据段，从50000至150000的数据段，还有大于150000的数据段这四个初始数据段进行再次分段。其中，再次分段时，分别计算出各初始数据段在金额这一变量下的权值。

如：权值采用均值来表征时，可以先确定上述初始数据段中各数据在金额这一变量下所对应的数据。即，0(zero)这一初始数据段包括一个数据0。然后确定0在金额变量中所对应的数据为：20000。由此，通过均值计算方式得到0(zero)这一初始数据段在金额变量下的权值为20000。对于0到50000这一初始数据段，包括数据100、数据1300、数据20000和数据40000这四个样本数据，这四个样本数据在金额变量中所对应的数据分别为：1500、1520、1580和1600，通过均值计算方式得到0到50000这一初始数据段在金额变量下的权值为1550，通过上述的方式分别计算出从50000到100000的数据段、从50000至150000的数据段、还有大于150000的数据段的权值，分别为110、90、600，依据各权值之间的差值来看，从50000到100000的数据段和从50000至150000的数据段的权值差值仅为20，且两个数据段相邻，则合并这两个初始数据段，最终得到四个样本数据段。

进一步的，计算各变量的信息值，由多个变量中选择入模变量，并基于所选择的入模变量建立初始模型。

在一种可能的实现方式中，计算出各变量的信息值，信息值(IV值)主要用来对输入变量进行编码和预测能力评估。信息值的大小即表示该变量预测能力的强弱。信息值计算步骤如下：

分组后，对于第i段，WOE(WOE全称为“weight of evidence”，即证据权重。直观上讲，WOE是对原始变量的一种编码形式，要对一个变量进行WOE编码，首先需要把这个变量进行分组处理，即分箱或离散化，常用离散

化的方法有等宽分组，等高分组，或者利用决策树分组)的计算公式如下：

其中，WOE表示“当前分段中响应客户占所有响应客户的比例”(即，P_yi)和“当前分段中没有响应的客户占所有没有响应客户的比例”(即，P_ni)的差异。其中，y_i为当前分段中响应客户，y_s为所有响应客户，n_i为当前分段中没有响应的客户，n_s为所有没有响应客户。

对于分段i，其对应的信息值使用以下公式进行计算，其中，n是分段个数。

计算了一个变量的各个分组的信息值之后，我们就可以计算整个变量的信息值：

即，同一变量中每一段的信息值相加得到这个变量的信息值。

参见图4，在所有变量计算完信息值后，每个变量(Characteristic)分别对应一个信息值(Information Value)。在信息值计算时，异常值不会对程序运行造成影响。

在一种可能的实现方式中，参见图4，根据所述信息值将多个变量从大到小进行排序，通过递归算法选择部分变量建立初始模型。举例来说，获取所有变量的信息值，如果变量为100个，先将这100个变量由大到小进行排序，可以选取其中前30个变量，通过递归算法选择部分所述变量建立初始模型，即根据这30个变量的相关性，从中选取一部分变量，最后通过递归算法再从30个变量中筛选处10个变量，并将这10个变量入模，建立初始模型。

建立初始模型之后即可对所建立的初始模型进行验证和应用所建立的初始模型进行数据统计分析。即，参见图5，依据上述任一方式建立的初始模型输出趋势关系，供研究人员查看，可以在模型结果解释与验证环节，以及研究各变量和分析目标的趋势关系时，根据之前的变量分段结果，直接对验证集的变量(即所有变量)进行相应的评分，得出结果并研究各分段与目标变量之间的趋势关系，可以发现与业务现状不一致、业务常识不一致、模型评分不一致的异常情况，对异常点进行分析穿透，发现变量的异常原因。例如：在模型结果显示的变量分段中，某个分段的范围严重偏离变量整体分布，或者在应用模型为验证集打分时，发现在某个分段范围内没有测试样本出现，由此可以考虑在该变量该分段内的训练集样本为异常值。由此，可以查看训练集该变量的分布情况，结合相关业务知识和经验，找出存在于该变量中的异常值，分析异常值产生的原因并加以处理，以及规范数据收集流程，完善数据集。参见图6，图6为入模变量“TR_STD_金额”的分段情况，该变量由“金额”变量构造而来，含义为近12个月的月金额总值的标准差，理论上该变量的取值范围是0到正无穷，不应该出现“缺失”，而分段结果却有“MISSING”显示，由此便可以看出原数据有异常情况存在，接下来便可以根据结果倒推回数据，找出问题所在并解决问题。这种事后处理的思路不仅为工作人员避免了大量且无效的工作，还能够快速、精准的找出“有价值”的异常值，简单高效的优化数据集并提升模型效果。在经过第一次建模的基础上，可以知道哪些变量会入模，由此可知入模变量，以及入模变量对应的数据，在经过工作人员对入模变量中的数据进行分析和修改之后，即可得到已进行异常值处理的入模变量以及入模变量所对应的数据。

进一步的，参见图1，在得到已进行异常值处理的入模变量后即可进行步骤S200和步骤S300，将各入模变量中的数据进行分段得到多个数据段，计算各入模变量的信息值，并基于入模变量建立目标模型，得到正确的模型结果。即进行第二次建模，其中，数据分段的方法和信息值计算等步骤与第一次建模的方法相同或相似，此处不再进行赘述。

需要说明的是，尽管以上述各个步骤作为示例介绍了本公开的数据建模方法如上，但本领域技术人员能够理解，本公开应不限于此。事实上，用户完全可根据个人喜好和/或实际应用场景灵活设定数据建模方法，只要达到所需功能即可。

这样，通过获取已进行异常值处理的入模变量，其中，入模变量为多个，获取入模变量中的数据，将各入模变量中的数据进行分段得到多个数据段，计算各入模变量的信息值，并基于入模变量建立目标模型。由于先确定了入模变量，并且使用了已进行异常值处理的入模变量，避免了大量繁琐且无用的异常数据处理工作，极大地减少了分析人员的工作量并提高了建模效率。

进一步的，根据本公开的另一方面，还提供了一种数据建模装置100。由于本公开实施例的数据建模装置100的工作原理与本公开实施例的数据建模方法的原理相同或相似，因此重复之处不再赘述。参见图7，本公开实施例的数据建模装置100包括入模变量获取模块110、数据分段模块120和模型建立模块130；

入模变量获取模块110，被配置为获取已进行异常值处理的入模变量；其中，入模变量为多个；

获取入模变量中的数据；

数据分段模块120，被配置为将各入模变量中的数据进行分段得到多个数据段；

模型建立模块130，被配置为计算各入模变量的信息值，并基于入模变量建立目标模型。

更进一步地，根据本公开的另一方面，还提供了一种数据建模设备200。参阅图8，本公开实施例数据建模设备200包括处理器210以及用于存储处理器210可执行指令的存储器220。其中，处理器210被配置为执行可执行指令时实现前面任一所述的数据建模方法。

此处，应当指出的是，处理器210的个数可以为一个或多个。同时，在本公开实施例的数据建模设备200中，还可以包括输入装置230和输出装置240。其中，处理器210、存储器220、输入装置230和输出装置240之间可以通过总线连接，也可以通过其他方式连接，此处不进行具体限定。

存储器220作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序和各种模块，如：本公开实施例的数据建模方法所对应的程序或模块。处理器210通过运行存储在存储器220中的软件程序或模块，从而执行数据建模设备200的各种功能应用及数据处理。

输入装置230可用于接收输入的数字或信号。其中，信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出装置240可以包括显示屏等显示设备。

根据本公开的另一方面，还提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，计算机程序指令被处理器210执行时实现前面任一所述的数据建模方法。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种数据建模方法，其特征在于，包括：

获取所述入模变量中的数据；

将各所述入模变量中的所述数据进行分段得到多个数据段；

2.根据权利要求1所述的方法，其特征在于，所述获取入模变量包括：

3.根据权利要求2所述的方法，其特征在于，基于所述样本数据集构造多个变量，包括：

其中，所述样本数据的属性与所述变量名相对应。

4.根据权利要求2所述的方法，其特征在于，将各所述变量中的所述样本数据进行分段得到多个样本数据段，包括：

5.根据权利要求4所述的方法，其特征在于，依据同一变量中任意两个所述初始数据段之间的相似度，对各所述初始数据段进行合并或保留，包括：

6.根据权利要求5所述的方法，其特征在于，获取同一变量下各所述初始数据段在另一变量中所对应的权值包括：

7.根据权利要求2所述的方法，其特征在于，计算各所述变量的信息值，由多个所述变量中选择所述入模变量，并基于所选择的所述入模变量建立模型时，采用递归算法进行所述入模变量的选择。

8.一种数据建模装置，其特征在于，包括入模变量获取模块、数据分段模块和模型建立模块；

获取所述入模变量中的数据；

9.一种数据建模设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令时实现权利要求1至7中任意一项所述的方法。

10.一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。