CN111582501A - 一种学习建模中数据处理方法 - Google Patents
一种学习建模中数据处理方法 Download PDFInfo
- Publication number
- CN111582501A CN111582501A CN202010392818.8A CN202010392818A CN111582501A CN 111582501 A CN111582501 A CN 111582501A CN 202010392818 A CN202010392818 A CN 202010392818A CN 111582501 A CN111582501 A CN 111582501A
- Authority
- CN
- China
- Prior art keywords
- data
- variable
- distribution
- transformation
- learning modeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 8
- 238000010801 machine learning Methods 0.000 claims abstract description 11
- 238000009826 distribution Methods 0.000 claims description 31
- 238000000034 method Methods 0.000 claims description 18
- 230000009466 transformation Effects 0.000 claims description 10
- 238000013515 script Methods 0.000 claims description 9
- 238000011551 log transformation method Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000007405 data analysis Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 208000025174 PANDAS Diseases 0.000 claims description 3
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 claims description 3
- 235000016496 Panda oleosa Nutrition 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 3
- 238000007418 data mining Methods 0.000 claims description 2
- 240000000220 Panda oleosa Species 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 240000004718 Panda Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- JLQUFIHWVLZVTJ-UHFFFAOYSA-N carbosulfan Chemical compound CCCCN(CCCC)SN(C)C(=O)OC1=CC=CC2=C1OC(C)(C)C2 JLQUFIHWVLZVTJ-UHFFFAOYSA-N 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种学习建模中数据处理方法,属于Python机器学习建模解决技术领域,本发明以幂律关系为基础,针对符合长尾分布的y变量,利用log变换、等宽标准化,从而将所需信息量很大的回归问题转化为所需信息量较小的多分类问题,以便后续建模工作顺利进行。
Description
技术领域
本发明涉及Python机器学习建模解决技术领域,尤其涉及一种学习建模中数据处理方法。
背景技术
幂律是来自上世纪20年代对于英语单词频率的分析,真正常用的单词量很少,很多单词不常被使用,语言学家发现单词使用的频率和它的使用优先度是一个常数次幂的反比关系。精确地说,简单来说,幂律就是两个通俗的定律,一个是“长尾”理论,只有少数大的门户网站是很多人关注的,但是还有一个长长的尾巴,就是小网站,小公司。长尾理论就是对幂律通俗化的解释。另外一个通俗解释就是马太效应,穷者越穷富者越富。
离散化是程序设计中一个常用的技巧,它可以有效的降低时间复杂度。其基本思想就是在众多可能的情况中,只考虑需要用的值。离散化可以改进一个低效的算法,甚至实现根本不可能实现的算法,等宽离散化是将连续数据按照等宽区间标准离散化数据,比如属性值在[0,60]之间,最小值为0,最大值为60,我们要将其分为3等分,则区间被划分为[0,20]、[21,40]、[41,60],每个属性值对应属于它的那个区间。
在对现实世界数据进行机器学习建模过程中,常常碰到长尾分布的连续型y变量,其相空间很大,且数值精度较高,比如,营销市场状态下的商户的销量、销额和库存等,当使用机器学习算法对这种y变量进行预测时,常会因为x变量没有强特征作为支撑导致不能精准预测y变量。这就导致存在误差较大并无法做出合理预测。
发明内容
本发明提出了一种学习建模中数据处理方法,解决机器学习算法建模过程中针对符合长尾分布的因变量基于幂律关系离散化科学处理的问题。
本发明实现对机器学习数据建模中的符合长尾分布y变量,进行log变换使其符合正态分布,然后在对变换后的连续型变量进行等宽区间离散化从而将所需信息量很大的回归问题转化为所需信息量较小的多分类问题,保证预测数据的精准性。
本发明的技术方案是:
一种学习建模中数据处理方法,包括如下步骤:
1)采集数据、对数据进行预处理;
2)查看展示数据是否符合长尾分部;
3)进行幂律变换,等宽标准化变换为离散变量。
进一步的,
基于幂律关系,对符合长尾分布的y变量进行log变换,使其符合正态分布,然后在对变换后的连续型变量进行等宽区间离散化。
进一步的,
基于python环境,安装数据分析挖掘核心库,采集y变量数据,编写python脚本,对数据进行预处理。
进一步的,
所述预处理,包含空值填充、异常值处理。
进一步的,
所述数据分析挖掘核心库包括numpy、pandas、keras。
进一步的,
安装matlibplot画图工具库,通过python脚本对y变量的数据特征分布进行展示。
进一步的,
将符合长尾分布的y变量取log变换,通过python脚本画图展示,展示数据特征分布是否为正态分布,对正态分布后的数据进行等宽标准化变换将初始的连续型y变量转换为离散型y变量。
进一步的,
整个过程中的数据均与机器学习建模相连通,通过机器学习建模再进行预测。
本发明的有益效果是
1)减少机器学习建模的强特征依赖
基于长尾分布的幂律转换能够进一步挖掘所有自变量特征与因变量y特征存在的潜在幂律关系,减少机器学习建模过程中的特征依赖。
2)提高预测回归模型的准确性
长尾分布转换为正态分布后,为合理的等宽标准化提供了可能,也为合理的对连续型变量的离散化提供了科学依据,转换为多分类问题后,比单纯的回归预测更加准确。
附图说明
图1是本发明的工作流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种学习建模中数据处理方法,本发明基于幂律关系,对符合长尾分布的y变量进行log变换,使其符合正态分布,然后在对变换后的连续型变量进行等宽区间离散化,从而将所需信息量很大的回归问题转化为所需信息量较小的多分类问题,保证预测数据的精准性,以便后续工作顺利进行。
技术实现方案如下:
(1)数据采集、数据预处理
基于python环境,安装numpy、pandas、keras等数据分析挖掘核心库,采集y变量数据,编写python脚本,对数据进行预处理,包含空值填充、异常值处理等。
(2)查看y变量数据统计分布
安装matlibplot画图工具库,通过python脚本对y变量的数据特征分布进行展示,根据判断是否属于长尾分布。
(3)进行幂律变换,等宽标准化变换为离散变量
将符合长尾分布的y变量取log(对数)变换,通过python脚本画图展示,展示数据特征分布是否为正态分布,对正态分布后的数据进行等宽标准化变换将初始的连续型y变量转换为离散型y变量,从而将所需信息量很大的回归问题转化为所需信息量较小的多分类问题。
本发明以幂律关系为基础,针对符合长尾分布的y变量,利用log变换、等宽标准化,从而将所需信息量很大的回归问题转化为所需信息量较小的多分类问题,以便后续建模工作顺利进行。
本发明基于幂律关系,能够进一步挖掘所有自变量特征与因变量y特征的潜在关系,在不依赖强特征的情况下,有效建模。
本发明基于等宽离散化,将复杂的回归问题转化为离散变量的多分类问题,预测结果更加精准有效。
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (8)
1.一种学习建模中数据处理方法,其特征在于,
包括如下步骤:
1)采集数据、对数据进行预处理;
2)查看展示数据是否符合长尾分部;
3)进行幂律变换,等宽标准化变换为离散变量。
2.根据权利要求1所述的方法,其特征在于,
基于幂律关系,对符合长尾分布的y变量进行log变换,使其符合正态分布,然后在对变换后的连续型变量进行等宽区间离散化。
3.根据权利要求2所述的方法,其特征在于,
基于python环境,安装数据分析挖掘核心库,采集y变量数据,编写python脚本,对数据进行预处理。
4.根据权利要求3所述的方法,其特征在于,
所述预处理,包含空值填充、异常值处理。
5.根据权利要求3所述的方法,其特征在于,
所述数据分析挖掘核心库包括numpy、pandas、keras。
6.根据权利要求2所述的方法,其特征在于,
安装matlibplot画图工具库,通过python脚本对y变量的数据特征分布进行展示。
7.根据权利要求2所述的方法,其特征在于,
将符合长尾分布的y变量取log变换,通过python脚本画图展示,展示数据特征分布是否为正态分布,对正态分布后的数据进行等宽标准化变换将初始的连续型y变量转换为离散型y变量。
8.根据权利要求1所述的方法,其特征在于,
整个过程中的数据均与机器学习建模相连通,通过机器学习建模再进行预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010392818.8A CN111582501A (zh) | 2020-05-11 | 2020-05-11 | 一种学习建模中数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010392818.8A CN111582501A (zh) | 2020-05-11 | 2020-05-11 | 一种学习建模中数据处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111582501A true CN111582501A (zh) | 2020-08-25 |
Family
ID=72124866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010392818.8A Pending CN111582501A (zh) | 2020-05-11 | 2020-05-11 | 一种学习建模中数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111582501A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022188574A1 (zh) * | 2021-03-12 | 2022-09-15 | 山东英信计算机技术有限公司 | 一种回归任务的深度学习方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1085429A1 (en) * | 1999-09-20 | 2001-03-21 | NCR International, Inc. | Classifying data in a database |
CN107016571A (zh) * | 2017-03-31 | 2017-08-04 | 北京百分点信息科技有限公司 | 数据预测方法及其系统 |
-
2020
- 2020-05-11 CN CN202010392818.8A patent/CN111582501A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1085429A1 (en) * | 1999-09-20 | 2001-03-21 | NCR International, Inc. | Classifying data in a database |
CN107016571A (zh) * | 2017-03-31 | 2017-08-04 | 北京百分点信息科技有限公司 | 数据预测方法及其系统 |
Non-Patent Citations (2)
Title |
---|
乔莹莹: "基于数值预测的机器学习相关算法综述" * |
浅梦: "呈现长尾分布的连续特征如何离散化比较合理" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022188574A1 (zh) * | 2021-03-12 | 2022-09-15 | 山东英信计算机技术有限公司 | 一种回归任务的深度学习方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104461863A (zh) | 一种业务系统测试方法、设备及系统 | |
CN110399268B (zh) | 一种异常数据检测的方法、装置及设备 | |
CN108694221B (zh) | 数据实时分析方法、模块、设备和装置 | |
CN112052138A (zh) | 业务数据质量检测方法、装置、计算机设备及存储介质 | |
CN109523117A (zh) | 风险预测方法、装置、计算机设备和存储介质 | |
CN111680855A (zh) | 一种项目全过程风险自动检测预警方法及系统 | |
CN111754317A (zh) | 一种金融投资数据测评方法及系统 | |
CN112801315A (zh) | 电力二次设备的状态诊断方法、装置及终端 | |
CN111582501A (zh) | 一种学习建模中数据处理方法 | |
CN110674631A (zh) | 一种基于版本提交信息的软件缺陷自动分派方法及系统 | |
CN117035563B (zh) | 产品质量安全风险监测方法、设备、监测系统及介质 | |
CN109917776B (zh) | 风力发电机组的故障智能分析方法及装置 | |
CN108255819A (zh) | 一种基于分析工具spark的增值税数据整合方法及系统 | |
CN110807082A (zh) | 质量抽检项目确定方法、系统、电子设备及可读存储介质 | |
CN102279793A (zh) | 一种基于熵的构件可信度量方法 | |
CN112685456A (zh) | 一种用户访问数据的处理方法、装置及计算机系统 | |
CN112329108A (zh) | 一种地铁车站优化抗浮验算方法及系统 | |
CN113656666B (zh) | 继电保护定值数据交互方法 | |
Bauer et al. | Evaluating the effects of a low-carbon energy transition on existing US fossil energy communities | |
CN110110814B (zh) | 基于连续MapReduce的分布并行PCA过程监测建模方法 | |
CN117541412A (zh) | 一种基于数据处理的财务成本挖掘与分析方法及系统 | |
CN117113508A (zh) | 一种建筑信息模型bim的数据生成方法及系统 | |
CN116415563A (zh) | 报表解析方法、装置、电子设备及存储介质 | |
Viedt et al. | Prescriptive and descriptive quality metrics for the quality assessment of operational data | |
Kanto et al. | Logistic Regression With Non-Financial Liability Ratings on The Indonesia Stock Exchange |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200825 |