CN110717509B - 基于树分裂算法的数据样本分析方法及装置 - Google Patents
基于树分裂算法的数据样本分析方法及装置 Download PDFInfo
- Publication number
- CN110717509B CN110717509B CN201910828492.6A CN201910828492A CN110717509B CN 110717509 B CN110717509 B CN 110717509B CN 201910828492 A CN201910828492 A CN 201910828492A CN 110717509 B CN110717509 B CN 110717509B
- Authority
- CN
- China
- Prior art keywords
- sample
- data
- user
- preset
- tree splitting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 111
- 238000012284 sample analysis method Methods 0.000 title claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims abstract description 76
- 238000000034 method Methods 0.000 claims abstract description 30
- 230000006399 behavior Effects 0.000 claims abstract description 25
- 238000001514 detection method Methods 0.000 claims description 25
- 238000004458 analytical method Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 5
- 230000003542 behavioural effect Effects 0.000 claims description 4
- 238000007405 data analysis Methods 0.000 abstract description 20
- 230000006870 function Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000013145 classification model Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000013138 pruning Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 210000003734 kidney Anatomy 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012502 risk assessment Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及预测模型技术领域,揭示了一种基于树分裂算法的数据样本分析方法及装置。所述方法包括:获取当前树分裂算法所应用的目标场景;判断目标场景是否为预设样本重要性分布不均的场景;如果是,将当前树分裂算法的基尼系数计算方式设置为预设计算方式;根据预设计算方式计算当前树分裂算法中每一叶节点对应的基尼系数;根据每一叶节点对应的基尼系数选取叶节点对应的分裂标准;根据分裂标准对目标场景中的数据样本进行树分裂得到目标数据,能够满足对于目标函数重要性不等的情况进行数据分析的需求,提高数据分析的稳定性,更为全面地对用户行为进行分析。
Description
技术领域
本发明涉及预测模型技术领域,特别涉及一种基于树分裂算法的数据样本分析方法及装置及装置、电子设备。
背景技术
目前,常见的树模型算法包括决策树、随机森林和GBDT等,这些树模型算法进行树分裂的参考标准主要是利用GINI系数等作为评价标准,GINI系数也称为基尼系数,用于度量随机变量的不确定度的大小。其中,利用GINI系数作为评价标准的树分裂方式是基于目标函数重要性相等的前提来进行的。通过实践发现,在采用树模型算法预测用户行为,向用户进行智能推荐的过程中,用户的目标样本对预测用户行为具有重要意义,但可能由于目标样本的样本数量较少,算法无法考虑到样本之间重要性程度不对等的因素,使得在预测用户行为的过程中目标样本未发挥足够的作用。可见,当前的树模型算法进行树分裂的方式无法满足对于目标函数重要性不等的情况进行数据分析的需求。
发明内容
为了解决相关技术中存在的无法满足对于目标函数重要性不等的情况进行数据分析的需求的问题,本发明提供了一种基于树分裂算法的数据样本分析方法及装置。
本发明实施例第一方面公开了一种基于树分裂算法的数据样本分析方法及装置,所述方法包括:
获取当前树分裂算法所应用的目标场景;
判断所述目标场景是否为预设样本重要性分布不均的场景;其中,所述预设样本重要性分布不均的场景是指所述目标场景中存在数据样本的样本数量低于所述数据样本的重要性对应的预设样本数量;
如果是,将所述当前树分裂算法的基尼系数计算方式设置为预设计算方式;
根据所述预设计算方式计算所述当前树分裂算法中每一叶节点对应的基尼系数;
根据所述每一叶节点对应的基尼系数选取所述叶节点对应的分裂标准;
根据所述分裂标准对所述目标场景中的数据样本进行树分裂得到目标数据。
作为一种可选的实施方式,在本发明实施例第一方面中,在判断出所述目标场景为预设样本重要性分布不均的场景之后,所述方法还包括:
当所述目标场景为预设反欺诈场景时,获取样本数据集,所述样本数据集至少包括历史欺诈数据和历史正常数据;
根据所述样本数据集获取所述当前树分裂算法相匹配的叶节点,并执行所述将所述当前树分裂算法的基尼系数计算方式设置为预设计算方式的步骤。
作为一种可选的实施方式,在本发明实施例第一方面中,所述将所述当前树分裂算法的基尼系数计算方式设置为预设计算方式,包括:
根据所述样本数据集对应的样本实际分布情况将所述当前树分裂算法的基尼系数计算方式设置为预设计算方式。
作为一种可选的实施方式,在本发明实施例第一方面中,所述根据所述预设计算方式计算所述当前树分裂算法中每一叶节点对应的基尼系数,包括:
将所述当前树分裂算法中每一叶节点按照分裂标准集合所包括的若干分裂标准进行划分;
根据所述预设计算方式计算划分后的叶节点对应的若干分裂标准相匹配的若干基尼系数;
所述根据所述每一叶节点对应的基尼系数选取所述叶节点对应的分裂标准,包括:
选取所述若干基尼系数中最小的基尼系数对应的分裂标准作为所述叶节点的分裂标准。
作为一种可选的实施方式,在本发明实施例第一方面中,所述根据所述分裂标准对所述目标场景中的数据样本进行树分裂得到目标数据,包括:
根据所述分裂标准对与所述分裂标准相匹配的当前叶节点进行划分,获得下一层叶节点;
将所述下一层叶节点确定为当前叶节点,并执行所述根据所述每一叶节点对应的基尼系数选取所述叶节点对应的分裂标准的步骤。
作为一种可选的实施方式,在本发明实施例第一方面中,在所述根据所述分裂标准对所述目标场景中的数据样本进行树分裂得到目标数据之后,所述方法还包括:
当树分裂后的节点总量大于预设总量时,获取目标树模型;
将待检测数据输入所述目标树模型,获得所述目标树模型输出的与所述待检测数据相匹配的反欺诈检测结果。
作为一种可选的实施方式,在本发明实施例第一方面中,在所述获得所述目标树模型输出的与所述待检测数据相匹配的反欺诈检测结果之后,所述方法还包括:
当接收到针对所述反欺诈检测结果的报错指令时,将所述反欺诈检测结果与所述待检测数据存储至预设数据库,以使用户根据所述预设数据库中存储的数据分析错误原因。
本发明实施例第二方面公开了一种基于树分裂算法的数据样本分析装置,所述装置包括:
第一获取单元,用于获取当前树分裂算法所应用的目标场景;
判断单元,用于判断所述目标场景是否为预设样本重要性分布不均的场景;
设置单元,用于在所述判断单元判断出所述目标场景为预设样本重要性分布不均的场景时,将所述当前树分裂算法的基尼系数计算方式设置为预设计算方式;
计算单元,用于根据所述预设计算方式计算所述当前树分裂算法中每一叶节点对应的基尼系数;
选取单元,用于根据所述每一叶节点对应的基尼系数选取所述叶节点对应的分裂标准;
树分裂单元,用于根据所述分裂标准对所述目标场景中的数据样本进行树分裂得到目标数据。
本发明实施例第三方面公开了一种电子设备,所述电子设备包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现本发明实施例第一方面公开的基于树分裂算法的数据样本分析方法。
本发明实施例第四方面公开了一种计算机可读存储介质,其存储计算机程序,所述计算机程序使得计算机执行本发明实施例第一方面公开的基于树分裂算法的数据样本分析方法。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明所提供的基于树分裂算法的数据样本分析方法包括如下步骤:获取当前树分裂算法所应用的目标场景;判断目标场景是否为预设样本重要性分布不均的场景;如果是,将当前树分裂算法的基尼系数计算方式设置为预设计算方式;根据预设计算方式计算当前树分裂算法中每一叶节点对应的基尼系数;根据每一叶节点对应的基尼系数选取叶节点对应的分裂标准;根据所述分裂标准对目标场景中的数据样本进行树分裂得到目标数据。
此方法下,通过在判断出当前树分裂算法所应用的目标场景为预设样本重要性分布不均的场景时,根据预设计算方式计算当前树分裂算法中每一叶节点对应的基尼系数,然后选取出叶节点对应的分裂标准,并根据该分裂标准对数据样本进行树分裂,能够满足对于目标函数重要性不等的情况进行数据分析的需求,提高数据分析的稳定性,更为全面地对用户行为进行分析。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是本发明实施例公开的一种装置的结构示意图;
图2是本发明实施例公开的一种基于树分裂算法的数据样本分析方法及装置的流程图;
图3是本发明实施例公开的另一种基于树分裂算法的数据样本分析方法及装置的流程图;
图4是本发明实施例公开的一种基于树分裂算法的数据样本分析装置的结构示意图;
图5是本发明实施例公开的另一种基于树分裂算法的数据样本分析装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
实施例一
本发明的实施环境可以是电子设备,例如智能手机、平板电脑、台式电脑。
图1是本发明实施例公开的一种装置的结构示意图。装置100可以是上述电子设备。如图1所示,装置100可以包括以下一个或多个组件:处理组件102,存储器104,电源组件106,多媒体组件108,音频组件110,传感器组件114以及通信组件116。
处理组件102通常控制装置100的整体操作,诸如与显示,电话呼叫,数据通信,相机操作以及记录操作相关联的操作等。处理组件102可以包括一个或多个处理器118来执行指令,以完成下述的方法的全部或部分步骤。此外,处理组件102可以包括一个或多个模块,用于便于处理组件102和其他组件之间的交互。例如,处理组件102可以包括多媒体模块,用于以方便多媒体组件108和处理组件102之间的交互。
存储器104被配置为存储各种类型的数据以支持在装置100的操作。这些数据的示例包括用于在装置100上操作的任何应用程序或方法的指令。存储器104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(StaticRandomAccess Memory,简称SRAM),电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。存储器104中还存储有一个或多个模块,用于该一个或多个模块被配置成由该一个或多个处理器118执行,以完成如下所示方法中的全部或者部分步骤。
电源组件106为装置100的各种组件提供电力。电源组件106可以包括电源管理系统,一个或多个电源,及其他与为装置100生成、管理和分配电力相关联的组件。
多媒体组件108包括在装置100和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(Liquid Crystal Display,简称LCD)和触摸面板。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。屏幕还可以包括有机电致发光显示器(Organic Light Emitting Display,简称OLED)。
音频组件110被配置为输出和/或输入音频信号。例如,音频组件110包括一个麦克风(Microphone,简称MIC),当装置100处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器104或经由通信组件116发送。在一些实施例中,音频组件110还包括一个扬声器,用于输出音频信号。
传感器组件114包括一个或多个传感器,用于为装置100提供各个方面的状态评估。例如,传感器组件114可以检测到装置100的打开/关闭状态,组件的相对定位,传感器组件114还可以检测装置100或装置100一个组件的位置改变以及装置100的温度变化。在一些实施例中,该传感器组件114还可以包括磁传感器,压力传感器或温度传感器。
通信组件116被配置为便于装置100和其他设备之间有线或无线方式的通信。装置100可以接入基于通信标准的无线网络,如WiFi(Wireless-Fidelity,无线保真)。在本发明实施例中,通信组件116经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在本发明实施例中,通信组件116还包括近场通信(Near Field Communication,简称NFC)模块,用于以促进短程通信。例如,在NFC模块可基于射频识别(Radio FrequencyIdentification,简称RFID)技术,红外数据协会(Infrared DataAssociation,简称IrDA)技术,超宽带(Ultra Wideband,简称UWB)技术,蓝牙技术和其他技术来实现。
在示例性实施例中,装置100可以被一个或多个应用专用集成电路(ApplicationSpecific Integrated Circuit,简称ASIC)、数字信号处理器、数字信号处理设备、可编程逻辑器件、现场可编程门阵列、控制器、微控制器、微处理器或其他电子元件实现,用于执行下述方法。
实施例二
请参阅图2,图2是本发明实施例公开的一种基于树分裂算法的数据样本分析方法的流程图。如图2所示该基于树分裂算法的数据样本分析方法可以包括以下步骤:
201、获取当前树分裂算法所应用的目标场景。
本发明实施例中,可以通过当前树分裂算法的特征数据获取当前树分裂算法所应用的目标场景,使得目标场景的识别更加准确。树分裂算法应用的场景可以是人群划分、数据归类、智能推荐等场景,具体地,在金融行业可以用树分裂算法做贷款风险评估,在保险行业可以用树分裂算法做险种推广预测,在医疗行业可以用树分裂算法生成辅助诊断处置模型等等。
202、判断目标场景是否为预设样本重要性分布不均的场景;如果是,执行步骤203;如果否,结束本流程。
本发明实施例中,预设样本重要性分布不均的场景是指目标场景中存在数据样本的样本数量低于数据样本的重要性对应的预设样本数量;预设样本重要性分布不均是指样本差异非常大,例如在1000条数据样本的数据集中,某个数据样本占有10条样本分类,低于预设样本数量50条的限定数值,那么在计算过程中该数据样本将被算法忽略,其特征就无法实现完整特征值的覆盖,导致样本重要性分布不均,使得提取到的特征过少,即使得到分类模型,也容易过度依赖于有限的数量样本而导致过拟合问题,当分类模型应用于新的数据上时,会降低分类模型的准确性和健壮性。预设样本重要性分布不均的场景包括智能推荐、反欺诈、设备故障等。
203、将当前树分裂算法的基尼系数计算方式设置为预设计算方式。
本发明实施例中,预设计算方式为引入实际样本分布的计算方式,其中,GINI系数的原始表达公式如下:
其中,G(vi)表示在取值i时的基尼系数,表示在取值i时的为标签j的概率,k表示标签数,并且GINI系数的值越大数据的不确定性越高,GINI系数的值越小数据的不确定性越低。
作为一种可选的实施方式,可以根据预设样本重要性分布不均的场景的类别设置多种预设计算方式,其中,一种预设样本重要性分布不均的场景对应一种预设计算方式,在执行步骤203时,识别预设样本重要性分布不均的场景的类别,根据预设样本重要性分布不均的场景的类别将当前树分裂算法的基尼系数计算方式设置为该场景的类别对应的预设计算方式。实施该实施方式,可以根据场景类别选择对应的预设计算方式,能够提高数据分析的适应性和准确性。
204、根据预设计算方式计算当前树分裂算法中每一叶节点对应的基尼系数。
本发明实施例中,基尼系数是指从样本集中随机选择两个样本点,如果该样本集是纯的,那么这两个样本点属于相同的类的概率是1,其中,基尼系数越小,表示子样本的纯净度越好,分裂效果越好。通过预设计算方式计算出当前树分裂算法中每一叶节点对应的基尼系数,可以进一步确定每一叶节点如何进行分裂。
205、根据每一叶节点对应的基尼系数选取叶节点对应的分裂标准。
本发明实施例中,从每一叶节点对应的基尼系数选取基尼系数较小时叶节点对应的分裂标准,可以使得叶节点分裂后产生更加均匀的子节点。
206、根据分裂标准对目标场景中的数据样本进行树分裂得到目标数据。
本发明实施例中,可以通过根据实际分布情况和自然重要性分布获得的节点对应的分裂标准,从而能够实现对目标函数重要性不等时的树分裂,提高数据分析时的稳定性。
作为一种可选的实施方式,根据分裂标准对目标场景中的数据样本进行树分裂得到目标数据,可以通过以下方式实现:假设在反欺诈领域中对用户样本进行行为分析,则在步骤205中确定得到的分裂标准可以是若干用于判断反欺诈行为的行为指标,如某一叶节点用以判定用户样本是否有失信记录,并将失信用户样本与未失信用户样本进行分裂,则可将具备失信记录的用户样本归类为黑名单用户样本;此外,树分裂过程还可根据实际需求,对黑名单用户样本或者未被列入黑名单用户样本的继续进行树分裂,进而得到若干个对应于不同行为指标的用户类别,从而根据若干用户类别及其对应的行为指标,构建得到目标数据,并通过目标数据对新用户进行分析确定新用户的用户类别,及时辨识出高风险的失信用户。
可见,实施图2所描述的方法,能够通过在判断出当前树分裂算法所应用的目标场景为预设样本重要性分布不均的场景时,根据预设计算方式计算当前树分裂算法中每一叶节点对应的基尼系数,然后选取出叶节点对应的分裂标准,并根据该分裂标准进行树分裂,能够满足对于目标函数重要性不等的情况进行数据分析的需求,提高数据分析的稳定性,更为全面地对用户行为进行分析。
实施例三
请参阅图3,图3是本发明实施例公开的另一种基于树分裂算法的数据样本分析方法的流程图。如图3所示,该基于树分裂算法的数据样本分析方法可以包括以下步骤:
301、获取当前树分裂算法所应用的目标场景。
302、判断目标场景是否为预设样本重要性分布不均的场景;如果是,执行步骤303;如果否,结束本流程。
303、当目标场景为预设反欺诈场景时,获取样本数据集,该样本数据集至少包括历史欺诈数据和历史正常数据。
本发明实施例中,反欺诈场景是对包含交易诈骗、网络诈骗、电话诈骗和盗卡盗号等欺诈行为进行识别的场景,在线反欺诈是互联网金融必不可少的一部分,常见的反欺诈系统包括用户行为风险识别引擎、征信系统和黑名单系统等。
304、根据样本数据集获取当前树分裂算法相匹配的叶节点,并根据样本数据集对应的样本实际分布情况将当前树分裂算法的基尼系数计算方式设置为预设计算方式。
本发明实施例中,预设计算方式的公式如下:
其中,新引入的pj,n表示待处理样本集中标签j对应的样本数据的自然占比,这一计算方式可以根据样本分布实际情况来计算基尼系数,对现有的基尼系数计算方式进行加权,从而能够处理重要性程度分布不均的样本数据,提高了数据分析的精准度。
可以理解的是,在目标场景为预设反欺诈场景时,根据包含历史欺诈数据和历史正常数据的样本数据集可以获取当前树分裂算法相匹配的叶节点,从而实现生成检测反欺诈的决策树,实现相应的反欺诈功能。
305、将当前树分裂算法中每一叶节点按照分裂标准集合所包括的若干分裂标准进行划分。
306、根据预设计算方式计算划分后的叶节点对应的若干分裂标准相匹配的若干基尼系数。
307、选取若干基尼系数中最小的基尼系数对应的分裂标准作为叶节点的分裂标准。
本发明实施例中,每一个叶节点对应的属性特征可以包括多种分裂标准,根据预设计算方式计算按照每一分裂标准分裂之后叶节点对应的基尼系数,从中选取基尼系数最小时对应的分裂标准。
308、根据分裂标准对与分裂标准相匹配的当前叶节点进行划分,获得下一层叶节点。
309、将下一层叶节点确定为当前叶节点,并跳转至步骤307。
本发明中,可以重复执行按照预设计算方式计算每一叶节点对应的基尼系数用以选取分裂标准对该叶节点进行分裂,直至满足停止分裂条件。
310、当树分裂后的节点总量大于预设总量时,获取目标树模型。
作为一种可选的实施方式,可以重复执行步骤307-步骤309,直至样本数据集不可再分时停止树分裂,获得最终树模型,判断该最终树模型的节点总量是否大于预设总量,如果是,在最终树模型中确定目标树模型,并对最终树模型进行后置剪枝获得目标树模型。实施该实施方式,通过后置剪枝的方式获得目标树模型,能够降低过拟合。
311、将待检测数据输入目标树模型,获得目标树模型输出的与待检测数据相匹配的反欺诈检测结果。
本发明中,当前树分裂算法所应用的目标场景为反欺诈场景时,可以利用最终获取的目标树模型获得反欺诈检测结果,有利于提高反欺诈结果的获取效率,并且获取得到的反欺诈结果由于引入了目标的重要性评估结果,因而更加准确。
312、当接收到针对反欺诈检测结果的报错指令时,将反欺诈检测结果与待检测数据存储至预设数据库,以使用户根据预设数据库中存储的数据分析错误原因。
本发明中,在输出反欺诈检测结果时,如果接收到针对该反欺诈检测结果的报错指令,则可以将该反欺诈检测结果与该待检测数据存储至预设数据库,便于后续进行错误分析。
可见,实施图3所描述的方法,能够通过在判断出当前树分裂算法所应用的目标场景为预设样本重要性分布不均的场景时,根据预设计算方式计算当前树分裂算法中每一叶节点对应的基尼系数,然后选取出叶节点对应的分裂标准,并根据该分裂标准进行树分裂,能够满足对于目标函数重要性不等的情况进行数据分析的需求,提高数据分析的稳定性。此外,还能够利用最终获取的目标树模型获得反欺诈检测结果,有利于提高反欺诈结果的获取效率,并且获取得到的反欺诈结果由于引入了目标的重要性评估结果,能够提高评估的准确性。
实施例四
请参阅图4,图4是本发明实施例公开的一种基于树分裂算法的数据样本分析装置的结构示意图。如图4所示,该基于树分裂算法的数据样本分析装置可以包括:第一获取单元401、判断单元402、设置单元403、计算单元404、选取单元405以及树分裂单元406,其中,
第一获取单元401,用于获取当前树分裂算法所应用的目标场景。
本发明实施例中,第一获取单元401用于通过当前树分裂算法的特征数据获取当前树分裂算法所应用的目标场景,使得目标场景的识别更加准确。树分裂算法应用的场景可以是人群划分、数据归类、智能推荐等场景,具体地,在金融行业可以用树分裂算法做贷款风险评估,在保险行业可以用树分裂算法做险种推广预测,在医疗行业可以用树分裂算法生成辅助诊断处置模型等等。
判断单元402,用于判断目标场景是否为预设样本重要性分布不均的场景。
本发明实施例中,预设样本重要性分布不均是指样本差异非常大,例如在1000条数据样本的数据集中,其中占有10条样本分类,那么其特征就无法实现完整特征值的覆盖,导致样本重要性分布不均,使得提取到的特征过少,即使得到分类模型,也容易过度依赖于有限的数量样本而导致过拟合问题,当分类模型应用于新的数据上时,会降低分类模型的准确性和健壮性。预设样本重要性分布不均的场景包括智能推荐、反欺诈、设备故障等。
设置单元403,用于在判断单元402判断出目标场景为预设样本重要性分布不均的场景时,将当前树分裂算法的基尼系数计算方式设置为预设计算方式。
本发明实施例中,预设计算方式为引入实际样本分布的计算方式,其中,GINI系数的原始表达公式如下:
其中,G(vi)表示在取值i时的基尼系数,表示在取值i时的为标签j的概率,k表示标签数,并且GINI系数的值越大数据的不确定性越高,GINI系数的值越小数据的不确定性越低。
作为一种可选的实施方式,设置单元403用于根据预设样本重要性分布不均的场景的类别设置多种预设计算方式,其中,一种预设样本重要性分布不均的场景对应一种预设计算方式,在执行步骤203时,识别预设样本重要性分布不均的场景的类别,根据预设样本重要性分布不均的场景的类别将当前树分裂算法的基尼系数计算方式设置为该场景的类别对应的预设计算方式。实施该实施方式,可以根据场景类别选择对应的预设计算方式,能够提高数据分析的适应性和准确性。
计算单元404,用于根据预设计算方式计算当前树分裂算法中每一叶节点对应的基尼系数。
本发明实施例中,基尼系数是指从样本集中随机选择两个样本点,如果该样本集是纯的,那么这两个样本点属于相同的类的概率是1,其中,基尼系数越小,表示子样本的纯净度越好,分裂效果越好。通过预设计算方式计算出当前树分裂算法中每一叶节点对应的基尼系数,可以进一步确定每一叶节点如何进行分裂。
选取单元405,用于根据每一叶节点对应的基尼系数选取叶节点对应的分裂标准。
本发明实施例中,选取单元405用于从每一叶节点对应的基尼系数选取基尼系数较小时叶节点对应的分裂标准,可以使得叶节点分裂后产生更加均匀的子节点。
树分裂单元406,用于根据分裂标准对目标场景中的数据样本进行树分裂得到目标数据。
本发明实施例中,树分裂单元406用于通过根据实际分布情况和自然重要性分布获得的节点对应的分裂标准,从而能够实现对目标函数重要性不等时的树分裂,提高数据分析时的稳定性。
作为一种可选的实施方式,树分裂单元406根据分裂标准对目标场景中的数据样本进行树分裂得到目标数据,可以通过以下方式实现:假设在反欺诈领域中对用户样本进行行为分析,则选取单元405确定得到的分裂标准可以是若干用于判断反欺诈行为的行为指标,如某一叶节点用以判定用户样本是否有失信记录,并将失信用户样本与未失信用户样本进行分裂,则树分裂单元406可将具备失信记录的用户样本归类为黑名单用户样本;此外,树分裂单元406还可根据实际需求,对黑名单用户样本或者未被列入黑名单用户样本的继续进行树分裂,进而得到若干个对应于不同行为指标的用户类别,从而根据若干用户类别及其对应的行为指标,构建得到目标数据,并通过目标数据对新用户进行分析确定新用户的用户类别,及时辨识出高风险的失信用户。
可见,实施图4所描述的基于树分裂算法的数据样本分析装置,能够通过在判断出当前树分裂算法所应用的目标场景为预设样本重要性分布不均的场景时,根据预设计算方式计算当前树分裂算法中每一叶节点对应的基尼系数,然后选取出叶节点对应的分裂标准,并根据该分裂标准进行树分裂,能够满足对于目标函数重要性不等的情况进行数据分析的需求,提高数据分析的稳定性,更为全面地对用户行为进行分析。
实施例五
请参阅图5,图5是本发明实施例公开的另一种基于树分裂算法的数据样本分析装置的结构示意图。图5所示的基于树分裂算法的数据样本分析装置是由图4所示的基于树分裂算法的数据样本分析装置进行优化得到的。与图4所示的基于树分裂算法的数据样本分析装置相比较,图5所示的基于树分裂算法的数据样本分析装置还可以包括:第二获取单元407、第三获取单元408、第四获取单元409、结果获得单元410以及数据存储单元411,其中,
第二获取单元407,用于在判断单元402判断出目标场景为预设样本重要性分布不均的场景之后,当目标场景为预设反欺诈场景时,获取样本数据集,样本数据集至少包括历史欺诈数据和历史正常数据。
本发明实施例中,反欺诈场景是对包含交易诈骗、网络诈骗、电话诈骗和盗卡盗号等欺诈行为进行识别的场景,在线反欺诈是互联网金融必不可少的一部分,常见的反欺诈系统包括用户行为风险识别引擎、征信系统和黑名单系统等。
第三获取单元408,用于根据样本数据集获取当前树分裂算法相匹配的叶节点,并执行设置单元403将当前树分裂算法的基尼系数计算方式设置为预设计算方式。
设置单元403用于将当前树分裂算法的基尼系数计算方式设置为预设计算方式的方式具体为:
设置单元403,用于根据样本数据集对应的样本实际分布情况将当前树分裂算法的基尼系数计算方式设置为预设计算方式。
本发明实施例中,预设计算方式的公式如下:
其中,新引入的pj,n表示待处理样本集中标签j对应的样本数据的自然占比,这一计算方式可以根据样本分布实际情况来计算基尼系数,对现有的基尼系数计算方式进行加权,从而能够处理重要性程度分布不均的样本数据,提高了数据分析的精准度。
可以理解的是,在目标场景为预设反欺诈场景时,根据包含历史欺诈数据和历史正常数据的样本数据集可以获取当前树分裂算法相匹配的叶节点,从而实现生成检测反欺诈的决策树,实现相应的反欺诈功能。
计算单元404用于根据预设计算方式计算当前树分裂算法中每一叶节点对应的基尼系数的方式具体为:
计算单元404,用于将当前树分裂算法中每一叶节点按照分裂标准集合所包括的若干分裂标准进行划分;以及根据预设计算方式计算划分后的叶节点对应的若干分裂标准相匹配的若干基尼系数。
选取单元405用于根据每一叶节点对应的基尼系数选取叶节点对应的分裂标准的方式具体为:
选取单元405,用于选取若干基尼系数中最小的基尼系数对应的分裂标准作为叶节点的分裂标准。
本发明实施例中,每一个叶节点对应的属性特征可以包括多种分裂标准,根据预设计算方式计算按照每一分裂标准分裂之后叶节点对应的基尼系数,从中选取基尼系数最小时对应的分裂标准。
树分裂单元406用于根据分裂标准进行树分裂的方式具体为:
树分裂单元406,用于根据分裂标准对与分裂标准相匹配的当前叶节点进行划分,获得下一层叶节点;以及将下一层叶节点确定为当前叶节点,并执行选取单元405根据每一叶节点对应的基尼系数选取叶节点对应的分裂标准。
本发明中,可以重复执行按照预设计算方式计算每一叶节点对应的基尼系数用以选取分裂标准对该叶节点进行分裂,直至满足停止分裂条件。
第四获取单元409,用于在树分裂单元406根据分裂标准进行树分裂之后,当树分裂后的节点总量大于预设总量时,获取目标树模型;
作为一种可选的实施方式,第四获取单元409用于样本数据集不可再分时停止树分裂,获得最终树模型,判断该最终树模型的节点总量是否大于预设总量,如果是,在最终树模型中确定目标树模型,并对最终树模型进行后置剪枝获得目标树模型。实施该实施方式,通过后置剪枝的方式获得目标树模型,能够降低过拟合。
结果获得单元410,用于将待检测数据输入目标树模型,获得目标树模型输出的与待检测数据相匹配的反欺诈检测结果。
本发明中,当前树分裂算法所应用的目标场景为反欺诈场景时,可以利用最终获取的目标树模型获得反欺诈检测结果,有利于提高反欺诈结果的获取效率,并且获取得到的反欺诈结果由于引入了目标的重要性评估结果,因而更加准确。
数据存储单元411,用于在结果获得单元410获得目标树模型输出的与待检测数据相匹配的反欺诈检测结果之后,当接收到针对反欺诈检测结果的报错指令时,将反欺诈检测结果与待检测数据存储至预设数据库,以使用户根据预设数据库中存储的数据分析错误原因。
本发明中,在输出反欺诈检测结果时,如果接收到针对该反欺诈检测结果的报错指令,则可以将该反欺诈检测结果与该待检测数据存储至预设数据库,便于后续进行错误分析。
可见,实施图5所描述的基于树分裂算法的数据样本分析装置,能够通过在判断出当前树分裂算法所应用的目标场景为预设样本重要性分布不均的场景时,根据预设计算方式计算当前树分裂算法中每一叶节点对应的基尼系数,然后选取出叶节点对应的分裂标准,并根据该分裂标准进行树分裂,能够满足对于目标函数重要性不等的情况进行数据分析的需求,提高数据分析的稳定性。此外,还能够利用最终获取的目标树模型获得反欺诈检测结果,有利于提高反欺诈结果的获取效率,并且获取得到的反欺诈结果由于引入了目标的重要性评估结果,能够提高评估的准确性。
本发明还提供一种电子设备,该电子设备包括:
处理器;
存储器,该存储器上存储有计算机可读指令,该计算机可读指令被处理器执行时,实现如前所示的基于树分裂算法的数据样本分析方法。
该电子设备可以是图1所示装置100。
在一示例性实施例中,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如前所示的基于树分裂算法的数据样本分析方法。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (6)
1.一种基于树分裂算法的数据样本分析方法,其特征在于,应用于反欺诈领域中对用户样本进行行为分析,所述方法包括:
获取当前树分裂算法所应用的目标场景;
判断所述目标场景是否为预设样本重要性分布不均的场景;其中,所述预设样本重要性分布不均的场景是指所述目标场景中存在用户样本的样本数量低于所述用户样本的重要性对应的预设样本数量;
若所述目标场景为预设样本重要性分布不均的场景,当所述目标场景为预设反欺诈场景时,获取样本数据集,所述样本数据集至少包括历史欺诈数据和历史正常数据;
根据所述样本数据集获取所述当前树分裂算法相匹配的叶节点,并根据所述样本数据集对应的样本实际分布情况将当前树分裂算法的基尼系数计算方式设置为预设计算方式;
根据预设计算方式计算当前树分裂算法中每一叶节点对应的基尼系数;
根据每一叶节点对应的基尼系数选取叶节点对应的分裂标准,所述叶节点的分裂标准是若干用于判断反欺诈行为的行为指标;
判定所述用户样本是否有失信记录,并将失信用户样本与未失信用户样本进行分裂,将具备失信记录的用户样本归类为黑名单用户样本;
对黑名单用户样本或者未被列入黑名单用户样本的继续进行树分裂,得到若干个对应于不同行为指标的用户类别;
根据若干用户类别及其对应的行为指标,构建得到目标数据,并通过所述目标数据对新用户进行分析确定新用户的用户类别,辨识出高风险的失信用户。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当树分裂后的节点总量大于预设总量时,获取目标树模型;
将待检测数据输入所述目标树模型,获得所述目标树模型输出的与所述待检测数据相匹配的反欺诈检测结果。
3.根据权利要求2所述的方法,其特征在于,在所述获得所述目标树模型输出的与所述待检测数据相匹配的反欺诈检测结果之后,所述方法还包括:
当接收到针对所述反欺诈检测结果的报错指令时,将所述反欺诈检测结果与所述待检测数据存储至预设数据库,以使用户根据所述预设数据库中存储的数据分析错误原因。
4.一种基于树分裂算法的数据样本分析装置,其特征在于,应用于反欺诈领域中对用户样本进行行为分析,所述装置包括:
第一获取单元,用于获取当前树分裂算法所应用的目标场景;
判断单元,用于判断所述目标场景是否为预设样本重要性分布不均的场景;
设置单元,用于若所述目标场景为预设样本重要性分布不均的场景,当所述目标场景为预设反欺诈场景时,获取样本数据集,所述样本数据集至少包括历史欺诈数据和历史正常数据;根据所述样本数据集获取所述当前树分裂算法相匹配的叶节点,并根据所述样本数据集对应的样本实际分布情况将当前树分裂算法的基尼系数计算方式设置为预设计算方式;
计算单元,用于根据预设计算方式计算当前树分裂算法中每一叶节点对应的基尼系数;
选取单元,用于根据每一叶节点对应的基尼系数选取叶节点对应的分裂标准,所述叶节点的分裂标准是若干用于判断反欺诈行为的行为指标;
树分裂单元,用于判定所述用户样本是否有失信记录,并将失信用户样本与未失信用户样本进行分裂,将具备失信记录的用户样本归类为黑名单用户样本;对黑名单用户样本或者未被列入黑名单用户样本的继续进行树分裂,得到若干个对应于不同行为指标的用户类别;根据若干用户类别及其对应的行为指标,构建得到目标数据,并通过所述目标数据对新用户进行分析确定新用户的用户类别,辨识出高风险的失信用户。
5.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~3中任一项所述的基于树分裂算法的数据样本分析方法的步骤。
6.一种计算机可读存储介质,其特征在于,其存储计算机程序,所述计算机程序使得计算机执行权利要求1~3任一项所述的基于树分裂算法的数据样本分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910828492.6A CN110717509B (zh) | 2019-09-03 | 2019-09-03 | 基于树分裂算法的数据样本分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910828492.6A CN110717509B (zh) | 2019-09-03 | 2019-09-03 | 基于树分裂算法的数据样本分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110717509A CN110717509A (zh) | 2020-01-21 |
CN110717509B true CN110717509B (zh) | 2024-04-05 |
Family
ID=69210284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910828492.6A Active CN110717509B (zh) | 2019-09-03 | 2019-09-03 | 基于树分裂算法的数据样本分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110717509B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652278B (zh) * | 2020-04-30 | 2024-04-30 | 中国平安财产保险股份有限公司 | 用户行为检测方法、装置、电子设备及介质 |
CN111860831B (zh) * | 2020-06-19 | 2023-01-10 | 苏州浪潮智能科技有限公司 | 一种基于PyTorch框架的自动重计算方法、装置 |
CN111814846B (zh) * | 2020-06-19 | 2023-08-01 | 浙江大华技术股份有限公司 | 属性识别模型的训练方法、识别方法及相关设备 |
CN116502255B (zh) * | 2023-06-30 | 2023-09-19 | 杭州金智塔科技有限公司 | 基于秘密分享的特征提取方法以及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010044674A (ja) * | 2008-08-18 | 2010-02-25 | Nippon Hoso Kyokai <Nhk> | データ分類装置及びデータ分類プログラム |
CN105095238A (zh) * | 2014-05-04 | 2015-11-25 | 中国银联股份有限公司 | 用于检测欺诈交易的决策树生成方法 |
WO2016090290A1 (en) * | 2014-12-05 | 2016-06-09 | Alibaba Group Holding Limited | Method and apparatus for decision tree based search result ranking |
CN110019106A (zh) * | 2019-03-21 | 2019-07-16 | 国网江西省电力有限公司萍乡供电分公司 | 一种智能电网的电力营销海量数据处理方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170083920A1 (en) * | 2015-09-21 | 2017-03-23 | Fair Isaac Corporation | Hybrid method of decision tree and clustering technology |
-
2019
- 2019-09-03 CN CN201910828492.6A patent/CN110717509B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010044674A (ja) * | 2008-08-18 | 2010-02-25 | Nippon Hoso Kyokai <Nhk> | データ分類装置及びデータ分類プログラム |
CN105095238A (zh) * | 2014-05-04 | 2015-11-25 | 中国银联股份有限公司 | 用于检测欺诈交易的决策树生成方法 |
WO2016090290A1 (en) * | 2014-12-05 | 2016-06-09 | Alibaba Group Holding Limited | Method and apparatus for decision tree based search result ranking |
CN110019106A (zh) * | 2019-03-21 | 2019-07-16 | 国网江西省电力有限公司萍乡供电分公司 | 一种智能电网的电力营销海量数据处理方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于基尼系数的决策树在涉恐情报分析中的应用;李勇男;蒋东龙;梅建明;;情报杂志;20170418(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110717509A (zh) | 2020-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717509B (zh) | 基于树分裂算法的数据样本分析方法及装置 | |
CN107818344B (zh) | 用户行为进行分类和预测的方法和系统 | |
US11501161B2 (en) | Method to explain factors influencing AI predictions with deep neural networks | |
US20190370695A1 (en) | Enhanced pipeline for the generation, validation, and deployment of machine-based predictive models | |
CN107590224B (zh) | 基于大数据的用户偏好分析方法与装置 | |
CN113627566B (zh) | 一种网络诈骗的预警方法、装置和计算机设备 | |
CN110378386B (zh) | 基于有监督的无标记异常识别方法、装置及存储介质 | |
US20190005421A1 (en) | Utilizing voice and metadata analytics for enhancing performance in a call center | |
JP6869347B2 (ja) | リスク制御イベント自動処理の方法および装置 | |
US11620474B2 (en) | Model reselection for accommodating unsatisfactory training data | |
CN109257354B (zh) | 基于模型树算法的异常流量分析方法及装置、电子设备 | |
CN111898675B (zh) | 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备 | |
CN114693192A (zh) | 风控决策方法、装置、计算机设备和存储介质 | |
US20240086736A1 (en) | Fault detection and mitigation for aggregate models using artificial intelligence | |
CN115409518A (zh) | 用户交易风险预警方法及装置 | |
CN110288468B (zh) | 数据特征挖掘方法、装置、电子设备及存储介质 | |
CN110334008B (zh) | 一种数据自动化处理方法、装置、电子设备及存储介质 | |
CN110457365B (zh) | 基于时序并行的决策树生成方法及装置、电子设备 | |
AU2021276239A1 (en) | Identifying claim complexity by integrating supervised and unsupervised learning | |
CN112734307A (zh) | 一种在线实时企业画像生成方法、装置、设备及存储介质 | |
CN109284307B (zh) | 一种流量数据的聚类处理方法、装置及电子设备 | |
CN109491970B (zh) | 面向云存储的不良图片检测方法、装置及存储介质 | |
CN114119037B (zh) | 一种基于大数据的营销反作弊系统 | |
CN116167454A (zh) | 智能化的二分类模型训练方法及装置 | |
CN110689166B (zh) | 一种基于随机梯度下降算法的用户行为分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |