CN106096224A - 对无序分类变量信息无损分组的方法及装置 - Google Patents
对无序分类变量信息无损分组的方法及装置 Download PDFInfo
- Publication number
- CN106096224A CN106096224A CN201610309708.4A CN201610309708A CN106096224A CN 106096224 A CN106096224 A CN 106096224A CN 201610309708 A CN201610309708 A CN 201610309708A CN 106096224 A CN106096224 A CN 106096224A
- Authority
- CN
- China
- Prior art keywords
- variable
- packet
- unordered
- unordered classified
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Z—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
- G16Z99/00—Subject matter not provided for in other main groups of this subclass
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种对无序分类变量信息无损分组的方法及装置,包括步骤:在二值型目标变量的监督下,对无序分类变量中每个类别的值分别计算证据权重值;将所述证据权重值进行等深分组,划分为M个区间,并将所述M个区间作为无序分类变量的分组。本发明中公开的对无序分类变量信息无损分组的方法及装置,分组过程简单易理解,运算速度快,能够很好的保留无序分类变量对目标变量的区分能力。
Description
技术领域
本发明涉及无序分类变量的分组领域,特别涉及一种对无序分类变量信息无损分组的方法及装置。
背景技术
随着互联网、云计算、物联网等技术的发展,带来了各行业中数据量的爆发式增长,在这些数据中,无序型的分类变量占有很大一部分,针对这些无序分类变量,需要有快速有效的方法进行数据的预处理,从而快速的发现数据中的价值。
目前对于数据预处理中的变量分组问题,绝大多数人研究的都是对连续型变量的分组或者说分箱。对于无序型的分类变量怎么实现有效信息无损的分组,基本会采取两种处理方式:一种是通过经验去进行分组,这种方式效率极其低下,而且不能保证有效果;另一种是不进行分组直接拿来使用,这种方式,对于无序分类变量的值分布很广泛时,在后续的建模等应用时效果往往会很差。
发明内容
本发明的主要目的为提供一种对无序分类变量信息无损分组的方法及装置,分组过程简单易理解,运算速度快,能够很好的保留无序分类变量对目标变量的区分能力。
本发明提出一种对无序分类变量信息无损分组的方法,包括步骤:
在二值型目标变量的监督下,对无序分类变量中每个类别的值分别计算证据权重值;
将所述证据权重值进行等深分组,划分为M个区间,并将所述M个区间作为无序分类变量的分组。
进一步地,所述计算证据权重值的计算公式为:
其中,N0为全体无序分类变量样本中目标变量为0的样本数量,N1为全 体无序分类变量样本中目标变量为1的样本数量,为某类别数目下目标变量为0的样本数量,为某类别数目下目标变量为1的样本数量,WOEattribute为证据权重计算结果值。
进一步地,所述将M个区间作为无序分类变量的分组的步骤之后还可以包括:
计算分组后的无序分类变量对目标变量的信息值。
进一步地,所述计算分组后的无序分类变量对目标变量的信息值的计算公式为:
其中,N0为全体无序分类变量样本中目标变量为0的样本数量,N1为全体无序分类变量样本中目标变量为1的样本数量,为某类别数目下目标变量为0的样本数量,为某类别数目下目标变量为1的样本数量,WOEattribute为分组后每组无序分类变量对应的证据权重计算结果值,IV为信息值。
本发明还提供了一种对无序分类变量信息无损分组的装置,包括:
证据权重计算单元,在二值型目标变量的监督下,对无序分类变量中每个类别的值分别计算证据权重值;所述无序分类变量具有任意多个类别;
等深分组单元,将所述证据权重值进行等深分组,划分为M个区间,并将所述M个区间作为无序分类变量的分组。
进一步地,所述证据权重计算单元的计算公式为:
其中,N0为全体无序分类变量样本中目标变量为0的样本数量,N1为全体无序分类变量样本中目标变量为1的样本数量,为某类别数目下目标变量为0的样本数量,为某类别数目下目标变量为1的样本数量,WOEattribute为证据权重计算结果值。
进一步地,还包括:
信息值计算单元,计算分组后的无序分类变量对目标变量的信息值。
进一步地,所述信息值计算单元的计算公式为:
其中,N0为全体无序分类变量样本中目标变量为0的样本数量,N1为全体无序分类变量样本中目标变量为1的样本数量,为某类别数目下目标变量为0的样本数量,为某类别数目下目标变量为1的样本数量,WOEattribute为分组后每组无序分类变量对应的证据权重计算结果值,IV为信息值。
本发明中提出的对无序分类变量信息无损分组的方法及装置,具有以下有益效果:
本发明中提出的对无序分类变量信息无损分组的方法及装置,通过将无序分类变量转换为一一对应的有大小区分的WOE值,再对WOE值进行区间的等深划分,并将划分结果作为该无序分类变量的最终分组结果。本发明中的方法及装置可以适用于各行业中对无序分类变量的分组,分组过程简单易理解,运算速度快,而且能够很好的保留无序分类变量对目标变量的区分能力,实现信息无损分组。通过计算分组后的每组无序分类变量对目标变量的信息值,对本发明中分组结果进行效果验证。
附图说明
图1是本发明一实施例中对无序分类变量信息无损分组的方法示意图;
图2是本发明另一实施例中对无序分类变量信息无损分组的方法示意图;
图3是本发明一实施例中对无序分类变量信息无损分组的装置结构示意图;
图4是本发明另一实施例中对无序分类变量信息无损分组的装置结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,为本发明一实施例中对无序分类变量信息无损分组的方法步骤示 意图。
本发明一实施例中提出一种对无序分类变量信息无损分组的方法,包括:
步骤S1,在二值型目标变量的监督下,对无序分类变量中每个类别的值分别计算证据权重值;
步骤S2,将上述证据权重值进行等深分组,划分为M个区间,并将上述M个区间作为无序分类变量的分组。
目前,对于无序型分类变量实现有效信息无损的分组,基本会采取两种处理方式:一种是通过经验去进行分组,这种方式效率极其低下,而且不能保证有效果;另一种是不进行分组直接拿来使用,这种方式,对于无序分类变量的值分布很广泛时,在后续的建模等应用时效果往往会很差。在本实施例中,通过将无序分类变量转换为一一对应的有大小区分的WOE值,再对WOE值进行区间的等深划分,并将划分结果作为该无序分类变量的最终分组结果。本实施例中的方法可以适用于各行业中对无序分类变量的分组,分组过程简单易理解,运算速度快,而且能够很好的保留无序分类变量对目标变量的区分能力,实现信息无损分组。
进一步地,上述步骤S1中,计算证据权重值的计算公式为:
其中,N0为全体无序分类变量样本中目标变量为0的样本数量,N1为全体无序分类变量样本中目标变量为1的样本数量,为某类别数目下目标变量为0的样本数量,为某类别数目下目标变量为1的样本数量,WOEattribute为证据权重计算结果值。
进一步地,参照图2,上述将M个区间作为无序分类变量的分组的步骤之后还可以包括:
步骤S3,计算分组后的无序分类变量对目标变量的信息值。
为了验证上一实施例中对无序分类变量信息无损分组的方法的效果,在本实施例中通过计算分组后的无序分类变量对目标变量的信息值,对分组进行效果验证。本实施例中的效果验证,可采用实验的方式进行对比验证。对照组采用不对无序分类变量进行分组或按照业务经验等方式进行分组,按照业务经验进行分组往往会需要大量的时间进行人工分组;实验组采用上一实施例中的方案进行分组。对比实验组和对照组对目标变量的信息值贡献,即可进行效果验 证。信息值是衡量一个变量对目标变量区分能力的大小,在正常情况下无序分类变量分组后对目标变量的信息值越大,效果越好。
进一步地,上述计算分组后的无序分类变量对目标变量的信息值的计算公式为:
其中,N0为全体无序分类变量样本中目标变量为0的样本数量,N1为全体无序分类变量样本中目标变量为1的样本数量,为某类别数目下目标变量为0的样本数量,为某类别数目下目标变量为1的样本数量,WOEattribute为分组后每组无序分类变量对应的证据权重计算结果值,IV为信息值。
在一具体实施例中,通过对某一真实的数据集来进行验证,数据条数为9650452条,目标变量为二值型,设为Y,取值为0、1,其对应的数量分别为9468561和181891,无序分类变量(X)的类别对应为211个国家和地区,设为K。其中,K∈{x|x≥100,x为整数}。
采用上述分组方法对无序分类变量的处理流程如下:
1.对无序分类变量X的211个国家和地区(即K=211),在目标变量Y的监督下计算其每一个值对应的WOE值:
2.对无序分类变量X的211个国家和地区对应的WOE值进行M个区间的等深分组,其中,M∈{x|5≤x≤20,x为整数}。
本实施例中进行了分组数为5组和10组的实验,即M=5和M=10。
3.将无序分类变量X的211个国家和地区对应的WOE值分组后的结果作为无序分类变量X的最终分组结果。
4.对无序分类变量X分组后的结果重新计算每组的WOE值。
分为5组时:
分为10组时:
5.计算分组后的无序分类变量对目标变量的信息值(IV值)。
划分为5组时的信息值:
划分为10组时的信息值:
6.为了对比分组效果,本实例分别计算了无序分类变量在完全不分组、按洲分组及按地域进行分组的情况下对目标变量的信息值(IV值)。
本实施例实例中计算的结果参照表一以及表二,其中表一为对照组数据结果,其采用不对无序分类变量进行分组或按照业务经验等方式进行分组:表二为实验组数据结果,采用本发明实施例中分组方法。
表一
表二
通过对比表一和表二,可以发现本发明实施例中提供的方法能够在实现对无序分类变量进行快速分组的同时,保证了该无序分类变量对目标变量的区分能力不会下降,即表二中在划分为10组和5组的情况下的IV值比表一中不分组和按业务经验分组后的IV值要大,而IV值越大,分组效果越好。
参照图3,为本发明一实施例中对无序分类变量信息无损分组的装置结构示意图。
本发明一实施例中还提供了一种对无序分类变量信息无损分组的装置,包括:
证据权重计算单元10,在二值型目标变量的监督下,对无序分类变量中每个类别的值分别计算证据权重值;上述无序分类变量具有任意多个类别;
等深分组单元20,将上述证据权重值进行等深分组,划分为M个区间,并将上述M个区间作为无序分类变量的分组。
目前,对于无序型分类变量实现有效信息无损的分组,基本会采取两种处理方式:一种是通过经验去进行分组,这种方式效率极其低下,而且不能保证有效果;另一种是不进行分组直接拿来使用,这种方式,对于无序分类变量的值分布很广泛时,在后续的建模等应用时效果往往会很差。在本实施例中,通过证据权重计算单元10将无序分类变量转换为一一对应的有大小区分的WOE值,再通过等深分组单元20对WOE值进行区间的等深划分,并将划分结果作为该无序分类变量的最终分组结果。本实施例中的装置可以适用于各行业中对无序分类变量的分组,分组过程简单易理解,运算速度快,而且能够很好的保留无序分类变量对目标变量的区分能力,实现信息无损分组。
进一步地,上述证据权重计算单元10的计算公式为:
其中,N0为全体无序分类变量样本中目标变量为0的样本数量,N1为全体无序分类变量样本中目标变量为1的样本数量,为某类别数目下目标变量为0的样本数量,为某类别数目下目标变量为1的样本数量,WOEattribute为证据权重计算结果值。
进一步地,参照图4,上述对无序分类变量信息无损分组的装置还包括:
信息值计算单元30,计算分组后的无序分类变量对目标变量的信息值。
为了验证上一实施例中对无序分类变量信息无损分组的方法的效果,在本实施例中通过计算分组后的无序分类变量对目标变量的信息值,对分组进行效果验证。本实施例中的效果验证,可采用实验的方式进行对比验证。对照组采用不对无序分类变量进行分组或按照业务经验等方式进行分组,按照业务经验进行分组往往会需要大量的时间进行人工分组;实验组采用上一实施例中的方案进行分组。对比实验组和对照组对目标变量的信息值贡献,即可进行效果验证。信息值是衡量一个变量对目标变量区分能力的大小,在通常情况下,无序分类变量分组后对目标变量的信息值越大,效果越好。在具体实施例中进行效果验证的方法步骤可参考上述的一个具体实施例。
进一步地,上述信息值计算单元的计算公式为:
其中,N0为全体无序分类变量样本中目标变量为0的样本数量,N1为全体无序分类变量样本中目标变量为1的样本数量,为某类别数目下目标变量为0的样本数量,为某类别数目下目标变量为1的样本数量,WOEattribute为分组后每组无序分类变量对应的证据权重计算结果值,IV为信息值。
综上所述,为本发明实施例中提出的对无序分类变量信息无损分组的方法及装置,通过将无序分类变量转换为一一对应的有大小区分的WOE值,再对WOE值进行多个区间的等深划分,并将划分结果作为该无序分类变量的最终分组结果。本发明实施例中的方法及装置可以适用于各行业中对无序分类变量的分组,分组过程简单易理解,运算速度快,而且能够很好的保留无序分类变量对目标变量的区分能力,实现信息无损分组。通过计算分组后的每组无序分类变量对目标变量的信息值,对本发明实施例中的分组结果进行效果验证。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种对无序分类变量信息无损分组的方法,其特征在于,包括步骤:
在二值型目标变量的监督下,对无序分类变量中每个类别的值分别计算证据权重值;
将所述证据权重值进行等深分组,划分为M个区间,并将所述M个区间作为无序分类变量的分组。
2.根据权利要求1所述的对无序分类变量信息无损分组的方法,其特征在于,所述计算证据权重值的计算公式为:
其中,N0为全体无序分类变量样本中目标变量为0的样本数量,N1为全体无序分类变量样本中目标变量为1的样本数量,为某类别数目下目标变量为0的样本数量,为某类别数目下目标变量为1的样本数量,WOEattribute为证据权重计算结果值。
3.根据权利要求1所述的对无序分类变量信息无损分组的方法,其特征在于,所述将M个区间作为无序分类变量的分组的步骤之后还可以包括:
计算分组后的无序分类变量对目标变量的信息值。
4.根据权利要求3所述的对无序分类变量信息无损分组的方法,其特征在于,所述计算分组后的无序分类变量对目标变量的信息值的计算公式为:
其中,N0为全体无序分类变量样本中目标变量为0的样本数量,N1为全体无序分类变量样本中目标变量为1的样本数量,为某类别数目下目标变量为0的样本数量,为某类别数目下目标变量为1的样本数量,WOEattribute为分组后每组无序分类变量对应的证据权重计算结果值,IV为信息值。
5.一种对无序分类变量信息无损分组的装置,其特征在于,包括:
证据权重计算单元,在二值型目标变量的监督下,对无序分类变量中每个类别的值分别计算证据权重值;所述无序分类变量具有任意多个类别;
等深分组单元,将所述证据权重值进行等深分组,划分为M个区间,并将所述M个区间作为无序分类变量的分组。
6.根据权利要求5所述的对无序分类变量信息无损分组的装置,其特征在于,所述证据权重计算单元的计算公式为:
其中,N0为全体无序分类变量样本中目标变量为0的样本数量,N1为全体无序分类变量样本中目标变量为1的样本数量,为某类别数目下目标变量为0的样本数量,为某类别数目下目标变量为1的样本数量,WOEattribute为证据权重计算结果值。
7.根据权利要求5所述的对无序分类变量信息无损分组的装置,其特征在于,还包括:
信息值计算单元,计算分组后的无序分类变量对目标变量的信息值。
8.根据权利要求7所述的对无序分类变量信息无损分组的装置,其特征在于,所述信息值计算单元的计算公式为:
其中,N0为全体无序分类变量样本中目标变量为0的样本数量,N1为全体无序分类变量样本中目标变量为1的样本数量,为某类别数目下目标变量为0的样本数量,为某类别数目下目标变量为1的样本数量,WOEattribute为分组后每组无序分类变量对应的证据权重计算结果值,IV为信息值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610309708.4A CN106096224A (zh) | 2016-05-10 | 2016-05-10 | 对无序分类变量信息无损分组的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610309708.4A CN106096224A (zh) | 2016-05-10 | 2016-05-10 | 对无序分类变量信息无损分组的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106096224A true CN106096224A (zh) | 2016-11-09 |
Family
ID=57230745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610309708.4A Pending CN106096224A (zh) | 2016-05-10 | 2016-05-10 | 对无序分类变量信息无损分组的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106096224A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829886A (zh) * | 2018-06-27 | 2018-11-16 | 厦门集微科技有限公司 | 一种分箱方法和装置 |
CN110969861A (zh) * | 2019-12-20 | 2020-04-07 | 中国移动通信集团黑龙江有限公司 | 一种车辆识别方法、装置、设备及计算机存储介质 |
WO2021051583A1 (zh) * | 2019-09-16 | 2021-03-25 | 平安科技(深圳)有限公司 | 变量的传输和收集方法、装置及计算机可读存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103336844A (zh) * | 2013-07-22 | 2013-10-02 | 广西师范大学 | 大数据rd分割方法 |
-
2016
- 2016-05-10 CN CN201610309708.4A patent/CN106096224A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103336844A (zh) * | 2013-07-22 | 2013-10-02 | 广西师范大学 | 大数据rd分割方法 |
Non-Patent Citations (4)
Title |
---|
DAVID A. COHN ET AL.: "Active Learning with Statistical Models", 《JOURNAL OF ARTIFICIAL INTELLIGENCE RESEARCH》 * |
卢辉,著: "《数据挖掘与数据化运行实战:思路、方法、技巧与应用》", 30 June 2013, 机械工业出版社 * |
陈广洲,等: "一种信息量和专家证据权重法耦合的成矿预测方法", 《测绘科学》 * |
马姆杜.雷法特,著: "《信用风险评分卡研究-基于SAS的开发与实施》", 31 July 2013, 社会科学文献出版社 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829886A (zh) * | 2018-06-27 | 2018-11-16 | 厦门集微科技有限公司 | 一种分箱方法和装置 |
WO2021051583A1 (zh) * | 2019-09-16 | 2021-03-25 | 平安科技(深圳)有限公司 | 变量的传输和收集方法、装置及计算机可读存储介质 |
CN110969861A (zh) * | 2019-12-20 | 2020-04-07 | 中国移动通信集团黑龙江有限公司 | 一种车辆识别方法、装置、设备及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104899267B (zh) | 一种社交网站账号相似度的综合数据挖掘方法 | |
CN103279478B (zh) | 一种基于分布式互信息文档特征提取方法 | |
CN105975478A (zh) | 一种基于词向量分析的网络文章所属事件的检测方法和装置 | |
CN104536953B (zh) | 一种文本情绪极性的识别方法及装置 | |
CN104317784A (zh) | 一种跨平台用户识别方法和系统 | |
CN107391772A (zh) | 一种基于朴素贝叶斯的文本分类方法 | |
CN105138653A (zh) | 一种基于典型度和难度的题目推荐方法及其推荐装置 | |
CN102156873B (zh) | 一种基于混沌的机械零部件早期单点故障检测与分类方法 | |
CN106096224A (zh) | 对无序分类变量信息无损分组的方法及装置 | |
CN104915356A (zh) | 一种文本分类校正方法及装置 | |
CN106991090A (zh) | 舆情事件实体的分析方法及装置 | |
CN104008420A (zh) | 一种基于自动编码机的分布式离群点检测方法及系统 | |
CN105893388A (zh) | 一种基于类间区分度及类内高表征度的文本特征提取方法 | |
CN106202181A (zh) | 一种情感分类方法、装置及系统 | |
CN104504583A (zh) | 分类器的评价方法 | |
CN109033322A (zh) | 一种多维数据的测试方法和装置 | |
CN105912762A (zh) | 一种确定飞机翼面载荷分布的方法与装置 | |
CN102411592B (zh) | 一种文本分类方法和装置 | |
CN103473275A (zh) | 一种采用多特征融合的图像自动标注方法和系统 | |
CN107070897A (zh) | 入侵检测系统中基于多属性哈希去重的网络日志存储方法 | |
CN103207804B (zh) | 基于集群作业日志的MapReduce负载模拟方法 | |
CN110413856A (zh) | 分类标注方法、装置、可读存储介质及设备 | |
CN110389932A (zh) | 电力文件自动分类方法及装置 | |
CN103731416B (zh) | 一种基于网络流量的协议识别方法和系统 | |
CN106326335A (zh) | 一种基于显著属性选择的大数据归类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161109 |