CN110377592A - 定量变量到虚拟变量的数据预处理方法、装置及终端设备 - Google Patents
定量变量到虚拟变量的数据预处理方法、装置及终端设备 Download PDFInfo
- Publication number
- CN110377592A CN110377592A CN201910540953.XA CN201910540953A CN110377592A CN 110377592 A CN110377592 A CN 110377592A CN 201910540953 A CN201910540953 A CN 201910540953A CN 110377592 A CN110377592 A CN 110377592A
- Authority
- CN
- China
- Prior art keywords
- data
- quantitative variable
- quantitative
- variable
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000007781 pre-processing Methods 0.000 title claims abstract description 24
- 238000004590 computer program Methods 0.000 claims description 14
- 230000032258 transport Effects 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 32
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 238000007418 data mining Methods 0.000 description 3
- 239000004744 fabric Substances 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Complex Calculations (AREA)
Abstract
本发明适用于数据处理技术领域,提供了一种定量变量到虚拟变量的数据预处理方法、装置及终端设备,所述方法包括:获取数据源中的多个数据对象;将对应同一个对象属性且属于非数值数据的一组对象属性数据转化成一组数值数据,并作为一组定量变量;将对应同一个对象属性且属于数值数据的一组对象属性数据作为一组定量变量;每组所述定量变量组合成一个定量变量集合;计算每个所述定量变量集合的统计特征,若判定所述定量变量集合满足正态分布,则将每个所述定量变量归类至区间长度相等的多个预设数据区间,将其对应的预设虚拟变量作为每个所述定量变量的预处理结果。本发明对数值数据和非数值数据预处理,大大提升了数据预处理结果的数据量和质量。
Description
技术领域
本发明属于数据处理技术领域,尤其涉及一种定量变量到虚拟变量的数据预处理方法、装置及终端设备。
背景技术
现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。而数据挖掘在数学建模中占有很重要的地位,是数学建模的基础,只有得到好的数据才能保证得出的数学模型的真实性与准确性。为了提高数据挖掘的质量产生了数据预处理技术。目前使用的数据预处理方式由于删除了非数值数据,对源数据的利用率低,使得结果不够准确,因此,亟需一种新的数据预处理方法以解决现有技术的问题。
发明内容
有鉴于此,本发明实施例提供了一种定量变量到虚拟变量的数据预处理方法、装置及终端设备,本发明提供的数据预处理方案提升了数据量,并且提高了数据的质量。
本发明实施例的第一方面提供了一种定量变量到虚拟变量的数据预处理方法,包括:
获取数据源中的多个数据对象,每个数据对象均包括与一个或多个对象属性对应的对象属性数据;
将对应同一个对象属性且属于非数值数据的一组对象属性数据转化成一组数值数据,并作为一组定量变量;将对应同一个对象属性且属于数值数据的一组对象属性数据作为一组定量变量;其中,每组所述定量变量组合成一个定量变量集合;
计算每个所述定量变量集合的统计特征;
若根据所述统计特征判定所述定量变量集合满足正态分布,则根据每个所述定量变量的数值大小,将所述定量变量集合中的每个所述定量变量归类至区间长度相等的多个预设数据区间;
将每个所述定量变量的归类后的所述预设数据区间对应的预设虚拟变量,作为每个所述定量变量的预处理结果。
本发明实施例的第二方面提供了一种定量变量到虚拟变量的数据预处理装置,包括:
获取单元,用于获取数据源中的多个数据对象,每个数据对象均包括与一个或多个对象属性对应的对象属性数据;
组合单元,用于将对应同一个对象属性且属于非数值数据的一组对象属性数据转化成一组数值数据,并作为一组定量变量;将对应同一个对象属性且属于数值数据的一组对象属性数据作为一组定量变量;其中,每组所述定量变量组合成一个定量变量集合;
计算单元,用于计算每个所述定量变量集合的统计特征;
第一归类单元,用于若根据所述统计特征判定所述定量变量集合满足正态分布,则根据每个所述定量变量的数值大小,将所述定量变量集合中的每个所述定量变量归类至区间长度相等的多个预设数据区间;
确定单元,用于将每个所述定量变量的归类后的所述预设数据区间对应的预设虚拟变量,作为每个所述定量变量的预处理结果。
本发明实施例的第三方面提供了一种终端设备,包括存储器以及处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如第一方面所述数据预处理方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述数据预处理方法的步骤。
在本发明实施例中,先将数据源中属于非数值数据的对象属性数据转换成数值数据,这样数据源中均为数值数据,然后将对应相同对象属性的数值数据组合成一个定量变量集合后,在计算每个所述定量变量集合的统计特征;若根据所述统计特征判定所述定量变量集合满足正态分布,则根据每个所述定量变量的数值大小,将所述定量变量集合中的每个所述定量变量归类至区间长度相等的多个预设数据区间;最后将每个所述定量变量的归类后的所述预设数据区间对应的预设虚拟变量,作为每个所述定量变量的预处理结果。通过本发明的技术方案,实现了对数据源中数值数据和非数值数据的预处理,大大提升了数据预处理结果的数据量,并且将定量变量转换成对应的虚拟变量,提高了数据的质量,从而进一步提高了基于数据预处理得到的数据进行后续建模的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种定量变量到虚拟变量的数据预处理方法的实现流程图;
图2是本发明实施例提供的另一种定量变量到虚拟变量的数据预处理方法的实现流程图;
图3是本发明实施例提供的另一种定量变量到虚拟变量的数据预处理方法的实现流程图;
图4是本发明实施例提供的一种定量变量到虚拟变量的数据预处理装置的结构框图;
图5是本发明实施例提供的另一种定量变量到虚拟变量的数据预处理装置的结构框图;
图6是本发明实施例提供的另一种定量变量到虚拟变量的数据预处理装置的结构框图;
图7是本发明实施例提供的另一种定量变量到虚拟变量的数据预处理装置的结构框图;
图8是本发明实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
另外,在本发明中若涉及“第一”或“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”或“第二”等的特征可以明示或者隐含地包括至少一个该特征。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1示出了本发明实施例提供的定量变量到虚拟变量的数据预处理方法的实现流程,该方法流程包括步骤S101至S104。该方法适用于对数据进行预处理的情形。该方法由定量变量到虚拟变量的数据预处理装置执行,所述定量变量到虚拟变量的数据预处理装置配置于终端设备,可由软件和/或硬件实现。各步骤的具体实现原理如下。
S101,获取数据源中的多个数据对象,每个数据对象均包括与一个或多个对象属性对应的对象属性数据。
其中,数据源为样本数据的来源。从数据源中筛选出数据进行数据预处理后作为样本数据,从而依赖样本数据完成如系统模型等的构建。
数据源包括多个数据对象,数据对象为数据的唯一标志。根据数据源的不同,数据对象包括但不限于姓名、IP地址等。针对每个数据对象而言,均包括与一个或多个对象属性分别对应的对象属性数据。根据数据源的不同,对象属性包括但不限于性别、年龄、订单总量、销售总额、提成金额等。
对象属性数据包括数值数据和非数值数据。数值数据指的是对象属性数据为数值,例如,以数字0至9组合形成的数值;非数值数据指的是对象属性数据为非数值,例如,文字等。
本发明实施例中,检测数据源中数据对应的ASCII码,当数据对应的ASCII码为0至9或者0至9的数字组合形成的数值时,则确定该数据为数值数据,其他为非数值数据,从而将数据源中的数值数据和非数值数据进行区分。
也就是说,通过数据源的数据对应的ASCII码确定出数据源中哪些属于数值数据,哪些属于非数值数据。
S102,将对应同一个对象属性且属于非数值数据的一组对象属性数据转化成一组数值数据,并作为一组定量变量;将对应同一个对象属性且属于数值数据的一组对象属性数据作为一组定量变量;其中,每组所述定量变量组合成一个定量变量集合。
如前所述,对象属性数据包括数值数据和非数值数据。非数值数据通常为类别数据。在本实施例中先将非数值数据转化成数值数据,最后使得每个对象属性对应的数据均为数值数据,并作为定量变量,从而在后续过程中完成从定量变量到虚拟变量的数据预处理过程。在本发明实施例中,通过将非数值数据转化成数值数据作为定量变量集合,增加了样本数据量,也提高了后续系统建模的准确度。
并非每个数据对象的对象属性数据都是数值数据的情况下,在本实施例将数据源中的数值数据和转化成数值数据后的非数值数据作为定量变量,也就是作为后续建立模型的样本数据。对应每个对象属性的一组属于数值数据的所述对象属性数据作为一组定量变量,形成一个定量变量集合,在数据对象具有多个对象属性的情况下,则针对多个对象属性形成多个定量变量集合。
例如,数据源包括四个数据对象,数据对象为姓名,四个姓名分别为张三,李四,王五和赵六。其中,每个数据对象包括性别,年龄,月均订单量和月均收入等四个对象属性。如下表1所示。
表1:
对于上述表1的数据,对象属性为“年龄”、“月均订单量”和“月均收入”对应的数据为数值数据,直接作为定量变量。而对象属性为“性别”对应的数据为类别数据,首先将其转化为数值数据后作为定量变量,例如,男转化成1,女转化成0。
因而,针对表1的数据源,筛选出来的定量变量如下表2所示。
表2:
针对对象属性“性别”形成的定量变量集合为{1,0,1,0};针对对象属性“年龄”形成的定量变量集合为{30,24,28};针对对象属性“月均订单量”形成的定量变量集合为{43,34,36,50};针对对象属性“月均收入”形成的定量变量集合为{8000,7000,7500,12000}。共四个定量变量集合。
S103,计算每个所述定量变量集合的统计特征。
其中,在步骤102确定了定量变量集合之后,计算每个所述定量变量集合的统计特征。统计特征至少包括均值和方差,还可以包括但不限于饱和度、标准差和分位数等。
当定量变量集合中包括的N个定量变量依次为:X1,X2,X3,.....,XN,则均值E的计算公式为:方差Var的计算公式为:标准差为
饱和度为对象属性数据非空数量与对象属性数据的全部数量的比值。例如,当数据源包括100个数据对象时,每个数据对象包括一个对象属性数据,正常情况下,一共有100个对象属性数据,但是可能某些数据对象的对象属性数据由于某些原因未能采集到,造成缺失,也就是说此时数据对象的对象属性数据为空。当有5个对象属性数据为空,另外95个对象属性数据为非空。则计算饱和度为95/100=95%。
分位数指的就是连续分布函数中的一个点,这个点对应概率p。若概率0<p<1,随机变量X或它的概率分布的分位数Za,是指满足条件p(X≤Za)=α的实数。
在分别计算每个所述定量变量集合的统计特征之后,根据所述统计特征判断所述定量变量集合是否满足正态分布,若满足正态分布,则执行步骤104。
S104,若根据所述统计特征判定所述定量变量集合满足正态分布,则根据每个所述定量变量的数值大小,将所述定量变量集合中的每个所述定量变量归类至区间长度相等的多个预设数据区间。
其中,若根据所述统计特征判定所述定量变量集合满足正态分布,说明所述定量变量集合满足自然规律,样本数据为科学合理的取样,这种情况下后续直接利用样本数据进行系统模型的构建结果将更为准确。
具体地,根据所述统计特征判定所述定量变量集合满足正态分布,包括:根据所述方差和所述均值计算偏度和峰度,若所述偏度和所述峰度都为0,则判定所述定量变量集合满足正态分布。
根据所述方差Var和所述均值E计算每个所述定量变量Xi的偏度bsi,偏度bsi的计算公式为:根据所述方差Var和所述均值E计算每个所述定量变量Xi的峰度ki,峰度ki的计算公式为:当所述偏度bsi和所述峰度ki都为0,则判定所述定量变量集合满足正态分布。
当所述定量变量集合满足正态分布,将每个所述定量变量归类至区间长度相等的多个预设数据区间。其中,预设数据区间的长度为经验值,可以预先在系统中设置好,也可以根据需求由用户自行调整,也可以在用户调整之后将设置值设为系统默认值。本发明对此不做具体限制。需要说明的是,针对每个定量变量集合而言,其归类的预设数据区间通常情况下是不相同的。
例如,针对满足正态分布的定量变量集合{1,4,6,7,10,13,14,16,18},将定量变量集合中的每个定量归类至区间长度均为5的4个预设数据区间[0,5),[5,10),[10,15)和[10,20]。将1和4归类至预设数据区间[0,5);将6、7和10归类至预设数据区间[5,10);将13和14归类至预设数据区间[10,15);将16和18归类至预设数据区间[10,20]。可以理解的是,定量变量集合并非真的满足正态分布,此处示例性描述只是为了说明如何将定量变量归类至预设数据区间,不能解释为对本发明具体实现的限制。
S105,将每个所述定量变量的归类后的所述预设数据区间对应的预设虚拟变量,作为每个所述定量变量的预处理结果。
其中,在步骤104将每个定量变量归类至了一个预设数据区间,每个预设数据区间预设有对应的预设虚拟变量,在步骤105中,将归类后的预设数据区间对应的预设虚拟变量作为所述定量变量的预处理结果。
例如,延续步骤104的示例,4个预设数据区间[0,5),[5,10),[10,15)和[10,20]对应的预设虚拟变量依次为:0001,0010,0011和0100。由于1和4归类至预设数据区间[1,5),因而1和4对应的预处理结果为0001;由于6、7和10归类至预设数据区间[5,10),因而6、7和10对应的预处理结果为0010;由于13和14归类至预设数据区间[10,15),因而13和14对应的预处理结果为0011;将16和18归类至预设数据区间[10,20],因而16和18对应的预处理结果为0100。需要说明的是,此处仅为示例性说明,不能解释为对本发明具体实现的限制。
在本发明实施例中,将数据源中的非数值数据转化成数值数据,将对应相同数据对象的数值数据组合成一个定量变量集合后,计算每个所述定量变量集合的统计特征;若根据所述统计特征判定所述定量变量集合满足正态分布,则根据每个所述定量变量的数值大小,将每个所述定量变量归类至区间长度相等的多个预设数据区间;最后将每个所述定量变量的归类后的所述预设数据区间对应的预设虚拟变量,作为每个所述定量变量的预处理结果。通过本发明的技术方案,保留了数据源的数值数据和非数据数据,提升了预处理结果的数据量;并且,同时实现了从定量变量到虚拟变量的转换过程,将数据合理化转换,提高了数据的质量。
可选地,在本发明其他实施例中,在上述图1所述实施例的基础上,如图2所示,在步骤103之后还包括,步骤106,若根据所述统计特征判定所述定量变量集合不满足正态分布,则根据每个所述定量变量的数值大小,将所述定量变量集合中的每个所述定量变量归类至区间长度不完全相同的多个预设数据区间。
其中,若根据所述统计特征判定所述定量变量集合不满足正态分布,说明所述定量变量集合不满足自然规律,样本数据为不科学不合理的取样,这种情况下后续直接利用样本数据进行系统模型的构建结果将不准确,因而在本发明实施例中,提出将每个定量变量归类至区间长度不完全相同的多个预设数据区间,以调整样本数据的不合理性,提升了数据的质量,从而提高后续系统模型构建的准确度。
具体地,根据所述统计特征判定所述定量变量集合不满足正态分布,包括:根据所述方差和所述均值计算偏度和峰度,若所述偏度和所述峰度不全都为0,则判定所述定量变量集合不满足正态分布。
根据所述方差Var和所述均值E计算每个所述定量变量Xi的偏度bsi,偏度bsi的计算公式为:根据所述方差Var和所述均值E计算每个所述定量变量Xi的峰度ki,峰度ki的计算公式为:当所述偏度bsi和所述峰度ki不全都为0,则判定所述定量变量集合不满足正态分布。
当所述定量变量集合不满足正态分布,将每个所述定量变量归类至区间长度不完全相等的多个预设数据区间。其中,每个预设数据区间的长度为经验值,可以预先在系统中设置好,也可以根据需求由用户自行调整,也可以在用户调整之后将设置值设为系统默认值。本发明对此不做具体限制。
例如,针对不满足正态分布的定量变量集合{1,7,13,16,18,21,25,37,41},将定量变量集合中的每个定量归类至区间长度不完全相等的4个预设数据区间[0,5),[5,15),[15,20)和[20,40]。将1归类至预设数据区间[0,5);将7和13归类至预设数据区间[5,15);将16和18归类至预设数据区间[15,20);将21、25、37和41归类至预设数据区间[20,40]。可以理解的是,此处示例性描述只是为了说明如何将定量变量归类至预设数据区间,不能解释为对本发明具体实现的限制。
可选地,在本发明其他实施例中,在上述图1或图2所述实施例的基础上,增加了数据筛选的过程,此处以在图1所示实施例基础上进行改进为例进行说明。如图3所示,数据预处理方法,在步骤101之后,步骤102之前还包括步骤107,筛选出消除共线性的所述对象属性数据。
本发明实施例在图1所示实施例的基础上,增加了步骤107,筛选出消除共线性的对象属性数据。其余步骤请参见前述描述,此处不再赘述。
由于对应不同对象属性的对象属性数据之间可能存在某种联系,比如成正相关或反相关等,因此,对于这种存在联系的对象属性数据,在本发明实施例中,仅选择一组形成一个定量变量集合,也就是说,筛选出消除共线性的对象属性数据。基于这种筛选,在确保最终建模的准确度的前提下,减少了数据处理量,提高了数据预处理的效率。
也就是说,在数据对象存在多个对象属性的情况下,对多个对象属性消除共线性,筛选出定量变量。需要说明的是,在消除共线性的对象属性数据之后,在执行后续的步骤时,针对的处理对象为消除了共线性的对象属性数据。
示例性地,如表2所示的数据源,对象属性为“月均订单量”的对象属性数据,与对象属性为“月均收入”的对象属性数据之间存在正相关的关系,因此,在这两个对象属性之间仅选择一个形成定量变量集合。
在这种情况下,针对表1的数据源,筛选出来的定量变量如下表3或表4所示。
表3:
性别 | 年龄 | 月均收入 |
1 | 30 | 8000 |
0 | 24 | 7000 |
1 | 28 | 7500 |
0 | - | 12000 |
表4:
表3中,针对对象属性“性别”形成的定量变量集合为{1,0,1,0};针对对象属性“年龄”形成的定量变量集合为{30,24,28};针对对象属性“月均收入”形成的定量变量集合为{8000,7000,7500,12000}。共3个定量变量集合。
表4中,针对对象属性“性别”形成的定量变量集合为{1,0,1,0};针对对象属性“年龄”形成的定量变量集合为{30,24,28};针对对象属性“月均订单量”形成的定量变量集合为{43,34,36,50}。共3个定量变量集合。
可选地,在本发明其他实施例中,在上述任一实施例的基础上,在步骤计算每个所述定量变量集合的统计特征之后,还包括:将所述定量变量集合的每个所述统计特征作为一个定量变量,添加至所述定量变量集合。
在本实施例中,针对每个定量变量集合计算统计特征之后,将统计特征也添加至对应的定量变量集合,进一步增加了定量变量集合的数量,也就是说进一步增加了样本数量,从而进一步提高后续建模的准确度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的定量变量到虚拟变量的数据预处理方法,图4-6示出了本发明实施例提供的定量变量到虚拟变量的数据预处理装置的结构框图,为了便于说明,仅示出了与本发明实施例相关的部分。
参照图4,该定量变量到虚拟变量的数据预处理装置包括:
获取单元41,用于获取数据源中的多个数据对象,每个数据对象均包括与一个或多个对象属性对应的对象属性数据;
组合单元42,用于将对应同一个对象属性且属于非数值数据的一组对象属性数据转化成一组数值数据,并作为一组定量变量;将对应同一个对象属性且属于数值数据的一组对象属性数据作为一组定量变量;其中,每组所述定量变量组合成一个定量变量集合;
计算单元43,用于计算每个所述定量变量集合的统计特征;
第一归类单元44,用于若根据所述统计特征判定所述定量变量集合满足正态分布,则根据每个所述定量变量的数值大小,将所述定量变量集合中的每个所述定量变量归类至区间长度相等的多个预设数据区间;
确定单元45,用于将每个所述定量变量的归类后的所述预设数据区间对应的预设虚拟变量,作为每个所述定量变量的预处理结果。
可选地,如图5所示,该定量变量到虚拟变量的数据预处理装置,还包括:
第二归类单元46,用于若根据所述统计特征判定所述定量变量集合不满足正态分布,则根据每个所述定量变量的数值大小,将所述定量变量集合中的每个所述定量变量归类至区间长度不完全相同的多个预设数据区间。
可选地,所述统计特征至少包括方差和均值;
相应的,所述根据所述统计特征判定所述定量变量集合满足正态分布,包括:
根据所述方差和所述均值计算偏度和峰度,若所述偏度和所述峰度都为0,则判定所述定量变量集合满足正态分布。
可选地,所述统计特征至少包括方差和均值;
相应的,所述根据所述统计特征判定所述定量变量集合不满足正态分布,包括:
根据所述方差和所述均值计算偏度和峰度,若所述偏度和所述峰度不全为0,则判定所述定量变量集合不满足正态分布。
可选地,如图6所示,该定量变量到虚拟变量的数据预处理装置,还包括:
添加单元47,用于将所述定量变量集合的每个所述统计特征作为一个定量变量,添加至所述定量变量集合。
可选地,如图7所示,该定量变量到虚拟变量的数据预处理装置,还包括:
筛选单元48,用于筛选出消除共线性的所述对象属性数据。
图8是本发明一实施例提供的终端设备的示意图。如图8所示,该实施例的终端设备8包括:处理器80、存储器81以及存储在所述存储器81中并可在所述处理器80上运行的计算机程序82,例如定量变量到虚拟变量的数据预处理程序。所述处理器80执行所述计算机程序82时实现上述定量变量到虚拟变量的数据预处理方法的实施例中的步骤,例如图1所示的步骤S101至S105。或者,所述处理器80执行所述计算机程序82时实现上述各装置实施例中各模块/单元的功能,例如图4所示模块41至45的功能。
示例性的,所述计算机程序82可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器81中,并由所述处理器80执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序82在所述终端设备8中的执行过程。
所述终端设备8可以是笔记本,个人电脑,PAD,或服务器等。所述终端设备8可包括,但不仅限于,处理器80、存储器81。本领域技术人员可以理解,图8仅仅是终端设备8的示例,并不构成对终端设备8的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器80可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器81可以是所述终端设备8的内部存储单元,例如终端设备8的硬盘或内存。所述存储器81也可以是所述终端设备8的外部存储设备,例如所述终端设备8上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器81还可以既包括所述终端设备8的内部存储单元也包括外部存储设备。所述存储器81用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器81还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种定量变量到虚拟变量的数据预处理方法,其特征在于,包括:
获取数据源中的多个数据对象,每个数据对象均包括与一个或多个对象属性对应的对象属性数据;
将对应同一个对象属性且属于非数值数据的一组对象属性数据转化成一组数值数据,并作为一组定量变量;将对应同一个对象属性且属于数值数据的一组对象属性数据作为一组定量变量;其中,每组所述定量变量组合成一个定量变量集合;
计算每个所述定量变量集合的统计特征;
若根据所述统计特征判定所述定量变量集合满足正态分布,则根据每个所述定量变量的数值大小,将所述定量变量集合中的每个所述定量变量归类至区间长度相等的多个预设数据区间;
将每个所述定量变量的归类后的所述预设数据区间对应的预设虚拟变量,作为每个所述定量变量的预处理结果。
2.如权利要求1所述的数据预处理方法,其特征在于,所述计算所述所述定量集合变量的统计特征之后,还包括:
若根据所述统计特征判定所述定量变量集合不满足正态分布,则根据每个所述定量变量的数值大小,将所述定量变量集合中的每个所述定量变量归类至区间长度不完全相同的多个预设数据区间。
3.如权利要求1或2所述的数据预处理方法,其特征在于,所述统计特征至少包括方差和均值;
相应的,所述根据所述统计特征判定所述定量变量集合满足正态分布,包括:
根据所述方差和所述均值计算偏度和峰度,若所述偏度和所述峰度都为0,则判定所述定量变量集合满足正态分布。
4.如权利要求2所述的数据预处理方法,其特征在于,所述统计特征至少包括方差和均值;
相应的,所述根据所述统计特征判定所述定量变量集合不满足正态分布,包括:
根据所述方差和所述均值计算偏度和峰度,若所述偏度和所述峰度不全为0,则判定所述定量变量集合不满足正态分布。
5.如权利要求1或2所述的数据预处理方法,其特征在于,所述计算每个所述定量变量集合的统计特征之后,还包括:
将所述定量变量集合的每个所述统计特征作为一个定量变量,添加至所述定量变量集合。
6.如权利要求1或2所述的数据预处理方法,其特征在于,所述获取数据源中的多个数据对象,每个数据对象均包括与一个或多个对象属性对应的对象属性数据之后,还包括:
筛选出消除共线性的所述对象属性数据。
7.一种定量变量到虚拟变量的数据预处理装置,其特征在于,包括:
获取单元,用于获取数据源中的多个数据对象,每个数据对象均包括与一个或多个对象属性对应的对象属性数据;
组合单元,用于将对应同一个对象属性且属于非数值数据的一组对象属性数据转化成一组数值数据,并作为一组定量变量;将对应同一个对象属性且属于数值数据的一组对象属性数据作为一组定量变量;其中,每组所述定量变量组合成一个定量变量集合;
计算单元,用于计算每个所述定量变量集合的统计特征;
第一归类单元,用于若根据所述统计特征判定所述定量变量集合满足正态分布,则根据每个所述定量变量的数值大小,将所述定量变量集合中的每个所述定量变量归类至区间长度相等的多个预设数据区间;
确定单元,用于将每个所述定量变量的归类后的所述预设数据区间对应的预设虚拟变量,作为每个所述定量变量的预处理结果。
8.如权利要求7所述的数据预处理装置,其特征在于,还包括:
第二归类单元,用于若根据所述统计特征判定所述定量变量集合不满足正态分布,则根据每个所述定量变量的数值大小,将所述定量变量集合中的每个所述定量变量归类至区间长度不完全相同的多个预设数据区间。
9.一种终端设备,包括存储器以及处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至6任一项所述数据预处理方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述数据预处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910540953.XA CN110377592B (zh) | 2019-06-21 | 2019-06-21 | 定量变量到虚拟变量的数据预处理方法、装置及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910540953.XA CN110377592B (zh) | 2019-06-21 | 2019-06-21 | 定量变量到虚拟变量的数据预处理方法、装置及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110377592A true CN110377592A (zh) | 2019-10-25 |
CN110377592B CN110377592B (zh) | 2024-04-05 |
Family
ID=68250576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910540953.XA Active CN110377592B (zh) | 2019-06-21 | 2019-06-21 | 定量变量到虚拟变量的数据预处理方法、装置及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110377592B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110137842A1 (en) * | 2009-12-07 | 2011-06-09 | At&T Intellectual Property I, L.P. | Method for constructing a tree of linear classifiers to predict a quantitative variable |
CN105243608A (zh) * | 2015-10-29 | 2016-01-13 | 国家电网公司 | 基于输变电工程造价设计要素的线路工程造价估算方法 |
CN105516206A (zh) * | 2016-01-28 | 2016-04-20 | 西南大学 | 基于偏最小二乘的网络入侵检测方法及系统 |
CN108133418A (zh) * | 2017-03-02 | 2018-06-08 | 明特奇点医疗科技(北京)有限公司 | 实时信用风险管理系统 |
US20180285391A1 (en) * | 2017-04-02 | 2018-10-04 | Sas Institute Inc. | Methods, Mediums, and Systems for Data Harmonization and Data Mapping in Specified Domains |
CN109064023A (zh) * | 2018-08-02 | 2018-12-21 | 锐思达(广州)信息科技有限公司 | 一种人力效能管理系统的方法和装置 |
CN109345369A (zh) * | 2018-08-22 | 2019-02-15 | 平安普惠企业管理有限公司 | 备付金的配置方法及终端设备 |
CN109388678A (zh) * | 2017-08-07 | 2019-02-26 | 奥的斯电梯公司 | 使用异构源进行电梯状况监测 |
-
2019
- 2019-06-21 CN CN201910540953.XA patent/CN110377592B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110137842A1 (en) * | 2009-12-07 | 2011-06-09 | At&T Intellectual Property I, L.P. | Method for constructing a tree of linear classifiers to predict a quantitative variable |
CN105243608A (zh) * | 2015-10-29 | 2016-01-13 | 国家电网公司 | 基于输变电工程造价设计要素的线路工程造价估算方法 |
CN105516206A (zh) * | 2016-01-28 | 2016-04-20 | 西南大学 | 基于偏最小二乘的网络入侵检测方法及系统 |
CN108133418A (zh) * | 2017-03-02 | 2018-06-08 | 明特奇点医疗科技(北京)有限公司 | 实时信用风险管理系统 |
US20180285391A1 (en) * | 2017-04-02 | 2018-10-04 | Sas Institute Inc. | Methods, Mediums, and Systems for Data Harmonization and Data Mapping in Specified Domains |
CN109388678A (zh) * | 2017-08-07 | 2019-02-26 | 奥的斯电梯公司 | 使用异构源进行电梯状况监测 |
CN109064023A (zh) * | 2018-08-02 | 2018-12-21 | 锐思达(广州)信息科技有限公司 | 一种人力效能管理系统的方法和装置 |
CN109345369A (zh) * | 2018-08-22 | 2019-02-15 | 平安普惠企业管理有限公司 | 备付金的配置方法及终端设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110377592B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017133492A1 (zh) | 一种风险评估方法和系统 | |
CN107633265A (zh) | 用于优化信用评估模型的数据处理方法及装置 | |
CN107705149A (zh) | 数据实时监控方法、装置、终端设备及存储介质 | |
WO2016101628A1 (zh) | 一种数据建模中的数据处理方法及装置 | |
CN110956273A (zh) | 融合多种机器学习模型的征信评分方法及系统 | |
CN110111113B (zh) | 一种异常交易节点的检测方法及装置 | |
WO2021254027A1 (zh) | 一种可疑社团的识别方法、装置、存储介质和计算机设备 | |
CN106384282A (zh) | 构建决策模型的方法和装置 | |
CN103678659A (zh) | 一种基于随机森林算法的电子商务网站欺诈用户识别方法及系统 | |
CN116596095B (zh) | 基于机器学习的碳排放量预测模型的训练方法及装置 | |
CN110533116A (zh) | 基于欧式距离的自适应集成的不平衡数据分类方法 | |
CN108846097A (zh) | 用户的兴趣标签表示方法、文章推荐方法、及装置、设备 | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
CN106127570A (zh) | 征信系统的稳定性指标生成方法及装置 | |
CN113177585A (zh) | 一种用户分类方法、装置、电子设备及存储介质 | |
CN109829721A (zh) | 基于异质网络表征学习的线上交易多主体行为建模方法 | |
CN108647714A (zh) | 负面标签权重的获取方法、终端设备及介质 | |
CN111798304A (zh) | 一种风险贷款确定方法、装置、电子设备及存储介质 | |
CN113240259B (zh) | 规则策略组的生成方法、系统及电子设备 | |
CN106447385A (zh) | 数据处理方法和装置 | |
Ramik et al. | Fuzzy mathematical programming: a unified approach based on fuzzy relations | |
CN105447117A (zh) | 一种用户聚类的方法和装置 | |
CN114722295B (zh) | 一种基于互联网的技术推广系统及方法 | |
CN110059749B (zh) | 重要特征的筛选方法、装置及电子设备 | |
CN110377592A (zh) | 定量变量到虚拟变量的数据预处理方法、装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |