CN111582501A

CN111582501A - 一种学习建模中数据处理方法

Info

Publication number: CN111582501A
Application number: CN202010392818.8A
Authority: CN
Inventors: 马秀霖
Original assignee: Inspur Software Co Ltd
Current assignee: Inspur Software Co Ltd
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2020-08-25

Abstract

本发明提供一种学习建模中数据处理方法，属于Python机器学习建模解决技术领域，本发明以幂律关系为基础，针对符合长尾分布的y变量，利用log变换、等宽标准化，从而将所需信息量很大的回归问题转化为所需信息量较小的多分类问题，以便后续建模工作顺利进行。

Description

一种学习建模中数据处理方法

技术领域

本发明涉及Python机器学习建模解决技术领域，尤其涉及一种学习建模中数据处理方法。

背景技术

幂律是来自上世纪20年代对于英语单词频率的分析，真正常用的单词量很少，很多单词不常被使用，语言学家发现单词使用的频率和它的使用优先度是一个常数次幂的反比关系。精确地说，简单来说，幂律就是两个通俗的定律，一个是“长尾”理论，只有少数大的门户网站是很多人关注的，但是还有一个长长的尾巴，就是小网站，小公司。长尾理论就是对幂律通俗化的解释。另外一个通俗解释就是马太效应，穷者越穷富者越富。

离散化是程序设计中一个常用的技巧，它可以有效的降低时间复杂度。其基本思想就是在众多可能的情况中，只考虑需要用的值。离散化可以改进一个低效的算法，甚至实现根本不可能实现的算法，等宽离散化是将连续数据按照等宽区间标准离散化数据，比如属性值在[0，60]之间，最小值为0，最大值为60，我们要将其分为3等分，则区间被划分为[0,20]、[21,40]、[41，60]，每个属性值对应属于它的那个区间。

在对现实世界数据进行机器学习建模过程中，常常碰到长尾分布的连续型y变量，其相空间很大，且数值精度较高，比如，营销市场状态下的商户的销量、销额和库存等，当使用机器学习算法对这种y变量进行预测时，常会因为x变量没有强特征作为支撑导致不能精准预测y变量。这就导致存在误差较大并无法做出合理预测。

发明内容

本发明提出了一种学习建模中数据处理方法，解决机器学习算法建模过程中针对符合长尾分布的因变量基于幂律关系离散化科学处理的问题。

本发明实现对机器学习数据建模中的符合长尾分布y变量，进行log变换使其符合正态分布，然后在对变换后的连续型变量进行等宽区间离散化从而将所需信息量很大的回归问题转化为所需信息量较小的多分类问题,保证预测数据的精准性。

本发明的技术方案是：

一种学习建模中数据处理方法，包括如下步骤：

1)采集数据、对数据进行预处理；

2)查看展示数据是否符合长尾分部；

3)进行幂律变换，等宽标准化变换为离散变量。

进一步的，

基于幂律关系，对符合长尾分布的y变量进行log变换，使其符合正态分布，然后在对变换后的连续型变量进行等宽区间离散化。

进一步的，

基于python环境，安装数据分析挖掘核心库，采集y变量数据，编写python脚本，对数据进行预处理。

进一步的，

所述预处理，包含空值填充、异常值处理。

进一步的，

所述数据分析挖掘核心库包括numpy、pandas、keras。

进一步的，

安装matlibplot画图工具库，通过python脚本对y变量的数据特征分布进行展示。

进一步的，

将符合长尾分布的y变量取log变换，通过python脚本画图展示，展示数据特征分布是否为正态分布，对正态分布后的数据进行等宽标准化变换将初始的连续型y变量转换为离散型y变量。

进一步的，

整个过程中的数据均与机器学习建模相连通，通过机器学习建模再进行预测。

本发明的有益效果是

1)减少机器学习建模的强特征依赖

基于长尾分布的幂律转换能够进一步挖掘所有自变量特征与因变量y特征存在的潜在幂律关系，减少机器学习建模过程中的特征依赖。

2)提高预测回归模型的准确性

长尾分布转换为正态分布后，为合理的等宽标准化提供了可能，也为合理的对连续型变量的离散化提供了科学依据，转换为多分类问题后，比单纯的回归预测更加准确。

附图说明

图1是本发明的工作流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种学习建模中数据处理方法，本发明基于幂律关系，对符合长尾分布的y变量进行log变换，使其符合正态分布，然后在对变换后的连续型变量进行等宽区间离散化，从而将所需信息量很大的回归问题转化为所需信息量较小的多分类问题,保证预测数据的精准性，以便后续工作顺利进行。

技术实现方案如下：

(1)数据采集、数据预处理

基于python环境，安装numpy、pandas、keras等数据分析挖掘核心库，采集y变量数据，编写python脚本，对数据进行预处理，包含空值填充、异常值处理等。

(2)查看y变量数据统计分布

安装matlibplot画图工具库，通过python脚本对y变量的数据特征分布进行展示，根据判断是否属于长尾分布。

(3)进行幂律变换，等宽标准化变换为离散变量

将符合长尾分布的y变量取log(对数)变换，通过python脚本画图展示，展示数据特征分布是否为正态分布，对正态分布后的数据进行等宽标准化变换将初始的连续型y变量转换为离散型y变量，从而将所需信息量很大的回归问题转化为所需信息量较小的多分类问题。

本发明以幂律关系为基础，针对符合长尾分布的y变量，利用log变换、等宽标准化，从而将所需信息量很大的回归问题转化为所需信息量较小的多分类问题，以便后续建模工作顺利进行。

本发明基于幂律关系，能够进一步挖掘所有自变量特征与因变量y特征的潜在关系，在不依赖强特征的情况下，有效建模。

本发明基于等宽离散化，将复杂的回归问题转化为离散变量的多分类问题，预测结果更加精准有效。

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种学习建模中数据处理方法，其特征在于，

包括如下步骤：

1)采集数据、对数据进行预处理；

2)查看展示数据是否符合长尾分部；

3)进行幂律变换，等宽标准化变换为离散变量。

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求3所述的方法，其特征在于，

所述预处理，包含空值填充、异常值处理。

5.根据权利要求3所述的方法，其特征在于，

所述数据分析挖掘核心库包括numpy、pandas、keras。

6.根据权利要求2所述的方法，其特征在于，

7.根据权利要求2所述的方法，其特征在于，

8.根据权利要求1所述的方法，其特征在于，