CN112115316A - 一种分箱方法、装置、电子设备及存储介质 - Google Patents

一种分箱方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112115316A
CN112115316A CN201910537685.6A CN201910537685A CN112115316A CN 112115316 A CN112115316 A CN 112115316A CN 201910537685 A CN201910537685 A CN 201910537685A CN 112115316 A CN112115316 A CN 112115316A
Authority
CN
China
Prior art keywords
box
binning
trend
result
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910537685.6A
Other languages
English (en)
Other versions
CN112115316B (zh
Inventor
刘洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Zhenshi Information Technology Co Ltd
Original Assignee
Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Zhenshi Information Technology Co Ltd filed Critical Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority to CN201910537685.6A priority Critical patent/CN112115316B/zh
Publication of CN112115316A publication Critical patent/CN112115316A/zh
Application granted granted Critical
Publication of CN112115316B publication Critical patent/CN112115316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种分箱方法、装置、电子设备及存储介质。其中方法包括:基于当前自变量对样本进行统计;根据所述当前自变量的信息增益对所述样本的进行分箱,生成初始分箱结果;计算各箱的证据权重,根据所述各箱的证据权重确定因变量随当前自变量的变化趋势;根据所述变化趋势,对所述初始分箱结果中与所述变化趋势不相同的异常箱进行调节,生成目标分箱结果。本实施例的技术方案,通过在初始分箱结果的基础上,对局部趋势不符合整体趋势的异常箱进行调整,优化分箱结果,得到目标分箱结果,其中,目标分箱结果中各箱的证据权重符合整体趋势,便于观测当前自变量对因变量的影响程度,简化了对自变量的分析过程。

Description

一种分箱方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种分箱方法、装置、电子设备及存储介质。
背景技术
随着电商行业的不断发展,物流行业也随之快速发展。在物流信息处理中,二分类是一种常见分类方式。在建立二分类模型时,需要对原始数据进行处理,得到与分类目标相关的自变量,选择与因变量关系比较强的因变量进行建模,以增强分类的准确性。因此,分析自变量和因变量的关系在二分类的建模中使至关重要的。
在统计学中,证据权重(Weight of Evidence)是一种评估自变量对因变量影响的重要指标。给定一组样本,证据权重的定义为这组样本中正负样本比例的对数值,例如在用户流失预测中可以定义为流失的用户和非流失用户数量比例的对数值。证据权重随自变量的变化关系可用来判断自变量和因变量的关系。
计算证据权重需要对样本进行分组,将样本分组的操作称为分箱,证据权重的计算结果极大程度上取决于分箱,合理的分箱方式所得到的证据权重能够体现出自变量与因变量固有的关联性,帮助数据科学家更好地进行预测建模,而不合理的分箱方法则会丢失重要信息,导致误判,从而影响最终模型的效果。
目前的样本分箱方式大致分为两种:一是按照分位数对样本进行分箱;二是利用信息论对样本进行分箱。上述两种分箱方法,第一种按照分位数分箱倾向于让每个箱中的样本更加平均,而体现出证据权重随自变量的自然变化趋势;第二种从信息论的角度对分箱所能够带来的额外信息进行了优化。然而,这两种方式都没有强调自变量与因变量关系的可解释性,即,随着自变量值的变化,证据权重的值是否以人的经验可理解的方式变化。在统计模型中选择不可解释的自变量容易引入潜在的不稳定因素。如果自变量和因变量之间存在着固有的相关性,各个分箱的证据权重却没有体现出相应的变化趋势,说明分箱的方法并不是十分合理。
发明内容
本发明提供一种分箱方法、装置、电子设备及存储介质,以优化对样本数据的分箱。
第一方面,本发明实施例提供了一种分箱方法,包括:
基于当前自变量对样本进行统计;
根据所述当前自变量的信息增益对所述样本的进行分箱,生成初始分箱结果;
计算各箱的证据权重,根据所述各箱的证据权重确定因变量随当前自变量的变化趋势;
根据所述变化趋势,对所述初始分箱结果中与所述变化趋势不相同的异常箱进行调节,生成目标分箱结果。
第二方面,本发明实施例还提供了一种分箱装置,包括:
样本统计模块,用于基于当前自变量对样本进行统计;
初始分箱模块,用于根据所述当前自变量的信息增益对所述样本的进行分箱,生成初始分箱结果;
变化趋势确定模块,用于计算各箱的证据权重,根据所述各箱的证据权重确定因变量随当前自变量的变化趋势;
目标分箱结果确定模块,用于根据所述变化趋势,对所述初始分箱结果中与所述变化趋势不相同的异常箱进行调节,生成目标分箱结果。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本申请任意实施例提供的分箱方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请任意实施例提供的分箱方法。
本发明实施例提供的技术方案,通过基于信息增益对样本进行分箱,得到初始分箱结果的基础上,对局部趋势不符合整体趋势的异常箱进行调整,优化分箱结果,得到目标分箱结果,其中,目标分箱结果中各箱的证据权重符合整体趋势,便于观测当前自变量对因变量的影响程度,简化了对自变量的分析过程。
附图说明
图1是本发明实施例一提供的一种分箱方法的流程示意图;
图2是本申请实施例提供的证据权重对比示意图;
图3是本申请实施例二提供的一种分箱方法的流程示意图;
图4是本申请实施例二提供的一种变化趋势标签的设置示意图;
图5是本申请实施例三提供的分箱装置的结构示意图;
图6为本发明实施例四提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种分箱方法的流程示意图,本实施例可适用于对样本进行精确分箱的情况,该方法可以由本申请实施例提供的分箱装置来执行,具体包括如下步骤:
S110、基于当前自变量对样本进行统计。
S120、根据所述当前自变量的信息增益对所述样本的进行分箱,生成初始分箱结果。
S130、计算各箱的证据权重,根据所述各箱的证据权重确定因变量随当前自变量的变化趋势。
S140、根据所述变化趋势,对所述初始分箱结果中与所述变化趋势不相同的异常箱进行调节,生成目标分箱结果。
其中,自变量是引起因变量发生变法的因素或条件,在本实施例中,因变量可以是以物流用户是否流失,相应的,自变量是影响物流用户流失的因素,例如可以是包括如下三个维度的数据:商家属性数据、运单属性数据和物流属性数据,其中,商家属性数据包括但不限于客单价、GMV(Gross Merchandise Volume,网站成交金额),运单属性信息包括但不限于运单量、单均运费、单均重量等,物流属性数据包括但不限于投诉量、失效数据(例如履约率等)。需要说明的是,本实施例中,样本的自变量为在预设数值范围内变化的数值参数,与样本的静态属性无关,示例性的,商家名称、运单号码等不属于自变量。
获取样本数据,样本数据中包括上述自变量对应的数据以及分类标签,其中,分类标签包括流失标签和非流失标签,具体的,可以是将预设时间段(例如可以是三个月)内不发单样本的分类标签确定为流失标签,反之,将预设时间段内发单样本的分类标签确定为非流失标签。可选的,可以是将样本中数据直接作为自变量,还可以对上述数据进行预处理,将预处理后的数据作为自变量,其中预处理方式本实施例中不做限定,可根据用户需求确定,示例性的,可以是将运单量、某时间段内运单量的均值或者某时间段内运单量方差分别作为用于判断物流用户是否流失的自变量。
基于上述任一自变量执行本申请中的分箱方法,以单均运费为当前自变量,介绍分箱方法。步骤S110中基于当前自变量对样本进行统计,可以是根据当前自变量的数值对样本进行统计,具体的,可以是统计具有同一当前自变量的数值的样本进行统计。示例性的,单均运费的数值可以是8、9、10、11、12、13、14、15、16等,每一个单均运费的数值可以是对应的多个样本数据,统计每一个数值对应的样本。
步骤S120中,根据当前自变量的信息增益对所述样本的进行分箱,其中,信息增益可以是分箱操作使得每一个箱中正负样本比例发生变化带来的额外的信息,分箱操作的信息增益可以是分箱操作前样本的信息熵与分箱后样本的信息熵的差值。示例性的,一组样本X中包括n1个正样本和n0个负样本,其中,负样本的比例为
Figure BDA0002101681280000061
正样本的比例为
Figure BDA0002101681280000062
这一组样本X的信息熵为
Figure BDA0002101681280000063
分箱操作A将样本X分为m各部分,每一部分记为Xi,则该分割操作A对应的信息熵为
Figure BDA0002101681280000064
则可确定分箱操作A的信息增益为H(X)-H(X|A)。
可选的,所述根据所述当前自变量的信息增益对所述样本的进行分箱,生成初始分箱结果,包括:对所述样本中当前自变量的数值进行排序;根据各当前自变量的数值对应样本的分类标签确定候选分割点;计算各候选分割点的信息增益,在任一箱中,基于最大信息增益的候选分割点对所述箱进行分割。其中,将当前自变量的数值按照由小到大的升序进行排序,示例性的,单均运费的数值进行排序可以是8、9、10、11、12、13、14、15、16。每一个数值对应至少一个样本,每一个数值对应的样本可以是全部为正样本,可以是全部为负样本,还可以是同时包括正样本和负样本。需要说明的是,在本实施例中,可以是分类标签为流失标签的样本确定为正样本,将分类标签为非流失标签的样本确定为负样本。在其他实施例中,还可以是将分类标签为流失标签的样本确定为付样本,将分类标签为非流失标签的样本确定为正样本,对此不作限定。当相邻数值对应的样本的分类标签不相同时,则在该相邻数据之间设置候选分割点,当相邻的数值分别对应的两个或两个以上的样本时,若该相邻数值中一个数值的任一样本的分类标签与另一数据的任一样本的分类标签不同时,在该相邻数据之间设置候选分割点,只有当相邻数值对应的全部样本的分类标签相同,则在该相邻数据之间不设置候选分割点。
根据上述信息增益的计算方式,计算以每一个候选分割点进行分箱操作时的信息增益,在每一个箱内,以最大信息增益对应的候选分割点进行分箱操作。具体的,首先将全部样本视为在一个箱内,基于最大信息增益对应的候选分割点将样本分割在两个箱内,进一步的,对于分割得到的每一个箱,基于箱内当前的最大信息增益对应的候选分割点进行分箱,基于递归方式执行分箱操作直到无法分箱,得到初始分箱结果。
可选的,在基于最大信息增益对应的候选分割点对所述箱进行分割之前,还包括:计算分割前后存储样本信息的空间损耗;基于所述最大信息增益与所述空间损耗进行比较,根据比较结果确定是否执行分割操作。由于电子设备需对样本进行存储,其中,存储信息可以是包括但不限于样本数据、样本的分类标签、每一个分割点的位置,在进行分箱操作前后存储样本信息的占用不同,当分箱操作后存储样本信息的占用空间小于或等于分箱操作前存储样本信息的占用空间(即分割前后存储样本信息的空间损耗小于或等于0),则基于最大信息增益对应的候选分割点对所述箱进行分割;当分箱操作后存储样本信息的占用空间大于分箱操作前存储样本信息的占用空间时(即分割前后存储样本信息的空间损耗大于0),将最大信息增益与空间损耗进行比较,当最大信息增益大于空间损耗时,基于最大信息增益对应的候选分割点对所述箱进行分割,当最大信息增益小于或等于空间损耗时,取消基于最大信息增益对应的候选分割点的分箱操作。其中,由于信息增益和空间损耗均可以用bit表示,可以进行数值比较。本实施例中,通过计算分割前后的空间损耗,避免无限制的分割,减小无效分箱操作。
证据权重(Weight of Evidence)用于评估自变量对因变量的影响程度,对应一组样本,证据权重定义为正负样本比例的对数值。示例性的,一组样本中包括n1个正样本和n0个负样本,对样本进行分箱,第i箱中包括ni1个正样本和ni0个负样本,则第i箱的证据权重为
Figure BDA0002101681280000081
其中,
Figure BDA0002101681280000082
基于上述公式,可计算初始分箱结果中每一箱的证据权重。根据每一个箱的证据权重可确定因变量随当前自变量的变化趋势。其中,自变量与因变量的变化趋势可以是正相关、负相关和U相关,示例性的,以物流用户的流失为例,若物流用户的流失情况随当前自变量(例如单均运费)的增大而加重,则自变量与因变量的变化趋势为正相关,若物流用户的流失情况随当前自变量的增大而减轻,则自变量与因变量的变化趋势为负相关,若当前自变量的增大,物流用户的流失情况先增后减或者先减后增,则自变量与因变量的变化趋势为U相关。本实施例中,可根据初始分箱结果中每一个箱的证据权重,确定因变量随当前自变量的变化趋势。可选的,可以是将全部箱分别三部分,分别确定每一部分中各箱的证据权重均值,如果三部分中证据权重均值依次增大,可确定因变量随当前自变量的变化趋势为正相关,如果三部分中证据权重均值依次减小,可确定因变量随当前自变量的变化趋势为负相关,如果中间部分的证据权重均值大于前后两部分的证据权重均值,或者中间部分的证据权重均值小于前后两部分的证据权重均值,可确定因变量随当前自变量的变化趋势为U相关。
根据因变量随当前自变量的变化趋势,确定初始分箱结果中的异常箱,其中,异常箱与相邻箱的变化趋势不符合因变量随当前自变量的变化趋势。示例性的,因变量随当前自变量的变化趋势为正相关,例如物流用户的流失随单均运费的增大而加重,而异常箱的证据权重小于前一箱的证据权重。本实施例中,对异常箱进行调节,可选的,将异常箱与相邻箱进行合并,生成新的箱,使得新的箱的证据权重符合因变量随当前自变量的变化趋势。依次检测并调节初始分箱结果中的异常箱,直到所有箱的证据权重的变化趋势符合因变量随当前自变量的变化趋势,得到目标分箱结果。
本实施例提供的技术方案,通过基于信息增益对样本进行分箱,得到初始分箱结果的基础上,对局部趋势不符合整体趋势的异常箱进行调整,优化分箱结果,得到目标分箱结果,其中,目标分箱结果中各箱的证据权重符合整体趋势,便于观测当前自变量对因变量的影响程度,简化了对自变量的分析过程。
在上述实施例的基础上,在生成目标分箱结果之后,还包括:计算所述目标分箱结果中各箱的证据权重,将各箱的证据权重以预设方式进行显示。其中,预设方式包括但不限于直方图、曲线或者表格。示例性的,参见图2,图2是申请实施例提供的证据权重对比示意图,其中,图2中左图为仅基于信息增益进行分箱后得到的各箱的证据权重,右图为基于分位数进行分箱得到的各箱的证据权重,中图为基于本申请的分箱方法得到的分箱的证据权重。通过图2中图可直观获知,自变量越大,证据权重越小,具体的,单均运费越大,用户流失越严重。而左右两个图中无法直观确定的自变量与因变量的关系,进一步的,根据其变化趋势无法确定自变量是否适合用于建立分类模型。
需要说明的是,图2中左图为初始分箱结果中证据权重的显示图,根据步骤S130可知因变量与当前自变量的变化趋势为负相关,根据步骤S140可知第二个箱为异常箱,将异常箱与相邻箱(例如第三个箱)合并,生成新的箱,新的箱符合整体趋势,调节后存在异常箱,得到目标分箱结果(即图2中图)。
本实施例中,在获取目标分箱结果后,将目标分箱结果中各箱的证据权重进行可视化的显示,便于直观的获知当前自变量对因变量的影响以及影响程度,确定自变量与因变量之间的固有关联,简化分箱后的数据处理和分析。
进一步的,在确定各个自变量对因变量的影响之后,可根据各个自变量对因变量的影响预测物流用户的流失原因,便于对流失用户进行维护。可选的,还可以是基于对因变量的影响强烈的自变量建立分类模型,该分类模型可用于预测用户是否会存在流失现象,便于对预测流失用户进行提前维护和关注。
实施例二
图3是本申请实施例提供的一种分箱方法的流程示意图,在上述实施例的基础上,对分箱方法进行细化,具体包括:
S210、基于当前自变量对样本进行统计。
S220、根据所述当前自变量的信息增益对所述样本的进行分箱,生成初始分箱结果。
S230、在初始分箱结果中,计算各箱的证据权重,根据相邻箱的证据权重的变化设置所述相邻箱的变化趋势标签。
S240、根据各相邻箱的变化趋势标签确定因变量随当前自变量的变化趋势标签序列。
S250、根据变化趋势标签序列所述初始分箱结果中的各箱划分为两组。
S260、根据变化趋势标签确定所述组的变化趋势。
S270、在任一组中,循环确定与所述组的变化趋势不同的异常箱,将所述异常箱与相邻箱进行合并,生成目标分箱结果。
在得到初始分箱结果后,计算各箱的证据权重,并根据各箱的证据权重确定相邻箱的变化趋势,如果前一箱的证据权重大于后一箱的证据权重,则该相邻箱的变化趋势为减小,设置减小标签,如果前一箱的证据权重小于后一箱的证据权重,则该相邻箱的变化趋势为增大,设置增大标签。可选的,增大标签可以是1,减小标签可以是-1。示例性的,参见图4,图4是本申请实施例提供的一种变化趋势标签的设置示意图。如图4,根据各相邻箱的变化趋势标签,得到初始分箱结果中变化趋势标签序列,例如可以是[-1,-1,-1,1,-1,1,1]。
由于因变量与自变量之间的变化趋势包括正相关、负相关和U相关,为了提高数据处理效率,采用统一处理方式对上述不同变化趋势的数据进行处理。本实施例中,将初始分箱结果中的各箱划分为两组,在每一个组中的变化趋势为单调变化,可处理正相关、负相关和U相关任一种变化趋势。可选的,根据变化趋势标签序列所述初始分箱结果中的各箱划分为两组,包括:以任一相邻箱的间隙为待分割点,基于所述变化趋势标签计算各待分割点的信息增益;基于最大信息增益对应的待分割点将所述初始分箱结果中的各箱划分为两组。其中,将增大标签确定为正样本,将减小标签确定为负样本,基于信息增益的计算方式,确定各个待分割点的信息增益,并将各个待分割点的信息增益进行数值比较,确定最大信息增益,以及最大信息增益对应的待分割点。基于最大信息增益对应的待分割点将所述初始分箱结果中的各箱划分为两组,简化了复杂变化趋势,尤其是将U相关的变化趋势划分为两个单调的变化趋势,可基于同一种处理方式对分组后的各箱数据进行处理,无需考虑不同的变化趋势。示例性的,图4中以第四箱和第五箱之间的间隙为分割点(图4中虚线)将初始分箱结果分为两个组,左组和右组。
对于任一组,根据变化趋势标签确定所述任一组的变化趋势,包括:统计所述组中增大标签的数量和减小标签的数量;若所述增大标签的数量大于所述减小标签的数量,则确定所述组的变化趋势为增大;若所述增大标签的数量小于所述减小标签的数量,确定所述组的变化趋势为减小。图4中左组的变化趋势为单调下降,右组的变化趋势为单调上升。
本实施例中,基于组的整体变化趋势调节不符合整体变化趋势的箱,依次确定组中的异常箱,其中,异常箱的一侧的变化趋势与组的整体变化趋势一致,另一侧的变化趋势与组的整体变化趋势不一致。图4中左组不存在异常箱,右组中存在异常箱。
对异常箱进行调节可以是将异常箱与相邻箱进行合并,使得合并得到的新的箱符合组的整体变化趋势即可。可选的,将所述异常箱与相邻箱进行合并,生成新的箱,包括:分别计算异常箱与左右相邻箱合并后的证据权重;分别确定所述异常箱在合并前的证据权重与所述左右相邻箱合并后的证据权重的差值;将所述异常箱与最小差值对应的相邻箱进行合并,生成新的箱。本实施例中,合并前后证据权重的差值可表征进行合并的两个箱的数据的相似度,差值越小,相似度越高,差值越大,相似度越小。通过将异常箱与最小差值对应的相邻箱进行合并,即将相似度较高的两个箱进行合并,有利于突出当前自变量的不同数值对应样本的差异性,便于更加直观的体现当前自变量对因变量的影响程度。
实施例三
图5是本申请实施例三提供的分箱装置的结构示意图,该分箱装置包括:
样本统计模块310,用于基于当前自变量对样本进行统计;
初始分箱模块320,用于根据所述当前自变量的信息增益对所述样本的进行分箱,生成初始分箱结果;
变化趋势确定模块330,用于计算各箱的证据权重,根据所述各箱的证据权重确定所述因变量随当前自变量的变化趋势;
目标分箱结果确定模块340,用于根据所述变化趋势,对所述初始分箱结果中与所述变化趋势不相同的异常箱进行调节,生成目标分箱结果。
可选的,初始分箱模块320包括:
数值排序单元,用于对所述样本中当前自变量的数值进行排序;
候选分割点确定单元,用于根据各当前自变量的数值对应样本的分类标签确定候选分割点;
初始分箱单元,用于计算各候选分割点的信息增益,在任一箱中,基于最大信息增益的候选分割点对所述箱进行分割。
可选的,初始分箱模块320还包括:
空间损耗计算单元,用于在基于最大信息增益对应的候选分割点对所述箱进行分割之前,计算分割前后存储样本信息的空间损耗;
比较结果确定单元,用于基于所述最大信息增益与所述空间损耗进行比较,根据比较结果确定是否执行分割操作。
可选的,变化趋势确定模块330用于:
在初始分箱结果中,根据相邻箱的证据权重的变化设置所述相邻箱的变化趋势标签;
根据各相邻箱的变化趋势标签确定所述因变量随当前自变量的变化趋势标签序列。
可选的,目标分箱结果确定模块340包括:
分组单元,用于根据变化趋势标签序列所述初始分箱结果中的各箱划分为两组;
变化趋势确定单元,用于根据变化趋势标签确定任一组的变化趋势;
异常箱更新单元,用于确定与所述组的变化趋势不同的异常箱,将所述异常箱与相邻箱进行合并,生成新的箱。
可选的,分组单元用于:
以任一相邻箱的间隙为待分割点,基于所述变化趋势标签计算各待分割点的信息增益;
基于最大信息增益对应的待分割点将所述初始分箱结果中的各箱划分为两组。
可选的,所述变化趋势标签包括增大标签和减小标签。
可选的,变化趋势确定单元用于:
统计所述组中增大标签的数量和减小标签的数量;
若所述增大标签的数量大于所述减小标签的数量,则确定所述组的变化趋势为增大;
若所述增大标签的数量小于所述减小标签的数量,确定所述组的变化趋势为减小。
可选的,异常箱更新单元用于:
分别计算异常箱与左右相邻箱合并后的证据权重;
确定所述异常箱在合并前的证据权重与所述左右相邻箱合并后的证据权重的差值;
将所述异常箱与最小差值对应的相邻箱进行合并,生成新的箱。
可选的,分箱装置还包括:
证据权重显示模块,用于在生成目标分箱结果之后,计算所述目标分箱结果中各箱的证据权重,将各箱的证据权重以预设方式进行显示。
本申请实施例提供的分箱装置可执行本发明任意实施例所提供的分箱方法,具备执行分箱方法相应的功能模块和有益效果。
实施例四
图6为本发明实施例四提供的一种电子设备的结构示意图。图6示出了适于用来实现本发明实施方式的电子设备512的框图。图6显示的电子设备512仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。设备512典型的是承担图像分类功能的电子设备。
如图6所示,电子设备512以通用计算设备的形式表现。电子设备512的组件可以包括但不限于:一个或者多个处理器516,存储装置528,连接不同系统组件(包括存储装置528和处理器516)的总线518。
总线518表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
电子设备512典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备512访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置528可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)530和/或高速缓存存储器532。电子设备512可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统534可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory,CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线518相连。存储装置528可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块526的程序536,可以存储在例如存储装置528中,这样的程序模块526包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块526通常执行本发明所描述的实施例中的功能和/或方法。
电子设备512也可以与一个或多个外部设备514(例如键盘、指向设备、摄像头、显示器524等)通信,还可与一个或者多个使得用户能与该电子设备512交互的设备通信,和/或与使得该电子设备512能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口522进行。并且,电子设备512还可以通过网络适配器520与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器520通过总线518与电子设备512的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备512使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理器516通过运行存储在存储装置528中的程序,从而执行各种功能应用以及数据处理,例如实现本发明上述实施例所提供的分箱方法。
实施例五
本发明实施例五还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的分箱方法。
当然,本发明实施例所提供的一种计算机可读存储介质,其上存储的计算机程序不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的分箱方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (12)

1.一种分箱方法,其特征在于,包括:
基于当前自变量对样本进行统计;
根据所述当前自变量的信息增益对所述样本的进行分箱,生成初始分箱结果;
计算各箱的证据权重,根据所述各箱的证据权重确定因变量随当前自变量的变化趋势;
根据所述变化趋势,对所述初始分箱结果中与所述变化趋势不相同的异常箱进行调节,生成目标分箱结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述当前自变量的信息增益对所述样本的进行分箱,生成初始分箱结果,包括:
对所述样本中当前自变量的数值进行排序;
根据各当前自变量的数值对应样本的分类标签确定候选分割点;
计算各候选分割点的信息增益,在任一箱中,基于最大信息增益的候选分割点对所述箱进行分割。
3.根据权利要求2所述的方法,其特征在于,在基于最大信息增益对应的候选分割点对所述箱进行分割之前,还包括:
计算分割前后存储样本信息的空间损耗;
基于所述最大信息增益与所述空间损耗进行比较,根据比较结果确定是否执行分割操作。
4.根据权利要求1所述的方法,其特征在于,所述根据所述各箱的证据权重确定因变量随当前自变量的变化趋势,包括:
在初始分箱结果中,根据相邻箱的证据权重的变化设置所述相邻箱的变化趋势标签;
根据各相邻箱的变化趋势标签确定所述因变量随当前自变量的变化趋势标签序列。
5.根据权利要求4所述的方法,其特征在于,根据所述变化趋势,对所述初始分箱结果中与所述变化趋势不相同的异常箱进行调节,生成目标分箱结果,包括:
根据变化趋势标签序列所述初始分箱结果中的各箱划分为两组;
根据变化趋势标签确定任一组的变化趋势;
在所述任一组中,循环确定与所述组的变化趋势不同的异常箱,将所述异常箱与相邻箱进行合并,生成目标分箱结果。
6.根据权利要求5所述的方法,其特征在于,根据变化趋势标签序列所述初始分箱结果中的各箱划分为两组,包括:
以任一相邻箱的间隙为待分割点,基于所述变化趋势标签计算各待分割点的信息增益;
基于最大信息增益对应的待分割点将所述初始分箱结果中的各箱划分为两组。
7.根据权利要求5所述的方法,其特征在于,所述变化趋势标签包括增大标签和减小标签,其中,根据变化趋势标签确定所述组的变化趋势,包括:
统计所述组中增大标签的数量和减小标签的数量;
若所述增大标签的数量大于所述减小标签的数量,则确定所述组的变化趋势为增大;
若所述增大标签的数量小于所述减小标签的数量,确定所述组的变化趋势为减小。
8.根据权利要求5所述的方法,其特征在于,将所述异常箱与相邻箱进行合并,生成新的箱,包括:
分别计算异常箱与左右相邻箱合并后的证据权重;
分别确定所述异常箱在合并前的证据权重与所述左右相邻箱合并后的证据权重的差值;
将所述异常箱与最小差值对应的相邻箱进行合并,生成新的箱。
9.根据权利要求1-8任一所述的方法,其特征在于,在生成目标分箱结果之后,还包括:
计算所述目标分箱结果中各箱的证据权重,将各箱的证据权重以预设方式进行显示。
10.一种分箱装置,其特征在于,包括:
样本统计模块,用于基于当前自变量对样本进行统计;
初始分箱模块,用于根据所述当前自变量的信息增益对所述样本的进行分箱,生成初始分箱结果;
变化趋势确定模块,用于计算各箱的证据权重,根据所述各箱的证据权重确定因变量随当前自变量的变化趋势;
目标分箱结果确定模块,用于根据所述变化趋势,对所述初始分箱结果中与所述变化趋势不相同的异常箱进行调节,生成目标分箱结果。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-9中任一所述的分箱方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的分箱方法。
CN201910537685.6A 2019-06-20 2019-06-20 一种分箱方法、装置、电子设备及存储介质 Active CN112115316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910537685.6A CN112115316B (zh) 2019-06-20 2019-06-20 一种分箱方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910537685.6A CN112115316B (zh) 2019-06-20 2019-06-20 一种分箱方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112115316A true CN112115316A (zh) 2020-12-22
CN112115316B CN112115316B (zh) 2023-10-03

Family

ID=73795876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910537685.6A Active CN112115316B (zh) 2019-06-20 2019-06-20 一种分箱方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112115316B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113205880A (zh) * 2021-04-30 2021-08-03 广东省人民医院 基于LogitBoost的心脏疾病预后预测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140028708A1 (en) * 2012-07-25 2014-01-30 International Business Machines Corporation Graphically representing tags in a networked computing environment
CN108733631A (zh) * 2018-04-09 2018-11-02 中国平安人寿保险股份有限公司 一种数据评估方法、装置、终端设备及存储介质
CN108829886A (zh) * 2018-06-27 2018-11-16 厦门集微科技有限公司 一种分箱方法和装置
CN109840843A (zh) * 2019-01-07 2019-06-04 杭州排列科技有限公司 基于相似性合并的连续型特征自动分箱算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140028708A1 (en) * 2012-07-25 2014-01-30 International Business Machines Corporation Graphically representing tags in a networked computing environment
CN108733631A (zh) * 2018-04-09 2018-11-02 中国平安人寿保险股份有限公司 一种数据评估方法、装置、终端设备及存储介质
CN108829886A (zh) * 2018-06-27 2018-11-16 厦门集微科技有限公司 一种分箱方法和装置
CN109840843A (zh) * 2019-01-07 2019-06-04 杭州排列科技有限公司 基于相似性合并的连续型特征自动分箱算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
E. CARVOU; N. BEN JEMA; B. MITCHELL; C. GAUTHEROT; J. RIVENC; L. COLCHEN: "Contact behavior of electrical vehicle-battery junction box under high shorting and breaking current", 《26TH INTERNATIONAL CONFERENCE ON ELECTRICAL CONTACTS (ICEC 2012)》 *
伍立志;贾孝霞;沈其君;: "样本量及抽样过程对线性模型中自变量重要性估计方法的影响研究", 中国卫生统计, no. 02 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113205880A (zh) * 2021-04-30 2021-08-03 广东省人民医院 基于LogitBoost的心脏疾病预后预测方法及装置
CN113205880B (zh) * 2021-04-30 2022-09-23 广东省人民医院 基于LogitBoost的心脏疾病预后预测方法及装置

Also Published As

Publication number Publication date
CN112115316B (zh) 2023-10-03

Similar Documents

Publication Publication Date Title
CN107608964B (zh) 基于弹幕的直播内容的筛选方法、装置、设备及存储介质
CN110708285B (zh) 流量监控方法、装置、介质及电子设备
CN111125266A (zh) 数据处理方法、装置、设备及存储介质
CN113763502B (zh) 一种图表生成方法、装置、设备和存储介质
CN115063875A (zh) 模型训练方法、图像处理方法、装置和电子设备
CN113761334A (zh) 一种可视化推荐方法、装置、设备和存储介质
CN111651552A (zh) 结构化信息确定方法、装置和电子设备
CN113034046A (zh) 一种数据风险计量方法、装置、电子设备及存储介质
CN110895706B (zh) 一种目标聚类数的获取方法、装置及计算机系统
CN112328869A (zh) 一种用户贷款意愿的预测方法、装置及计算机系统
CN114078008A (zh) 异常行为检测方法、装置、设备及计算机可读存储介质
CN112115316B (zh) 一种分箱方法、装置、电子设备及存储介质
CN110264311B (zh) 一种基于深度学习的商业推广信息精准推荐方法及系统
CN116701411A (zh) 一种多领域数据归档方法、装置、介质及设备
CN110796381A (zh) 建模数据评价指标的处理方法、装置、终端设备及介质
CN116245630A (zh) 一种反欺诈检测方法、装置、电子设备及介质
CN111737371B (zh) 可动态预测的数据流量检测分类方法及装置
CN112527851B (zh) 用户特征数据筛选方法、装置及电子设备
WO2022183019A1 (en) Methods for mitigation of algorithmic bias discrimination, proxy discrimination and disparate impact
CN114881227A (zh) 模型压缩方法、图像处理方法、装置和电子设备
CN110147441B (zh) 数据的整合显示方法、装置、终端设备及介质
GB2608112A (en) System and method for providing media content
CN112463844A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN112906723A (zh) 一种特征选择的方法和装置
CN111984637A (zh) 数据建模中的缺失值处理方法和装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant