CN111105144A - 数据处理方法、装置和目标对象风险监控方法 - Google Patents

数据处理方法、装置和目标对象风险监控方法 Download PDF

Info

Publication number
CN111105144A
CN111105144A CN201911173683.XA CN201911173683A CN111105144A CN 111105144 A CN111105144 A CN 111105144A CN 201911173683 A CN201911173683 A CN 201911173683A CN 111105144 A CN111105144 A CN 111105144A
Authority
CN
China
Prior art keywords
current
data
attribute data
variable
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911173683.XA
Other languages
English (en)
Inventor
董肖凯
樊帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Financial Technology Nanjing Co Ltd
Original Assignee
Suning Financial Technology Nanjing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Financial Technology Nanjing Co Ltd filed Critical Suning Financial Technology Nanjing Co Ltd
Priority to CN201911173683.XA priority Critical patent/CN111105144A/zh
Publication of CN111105144A publication Critical patent/CN111105144A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本申请涉及一种数据处理方法、装置、计算机设备和存储介质。该方法包括:获取目标对象的属性数据,属性数据为连续型数据;根据目标预设分箱标准对属性数据进行分箱处理,得到多个当前箱体,各个当前箱体包括对应的当前离散型数据;获取各个当前箱体对应的第一阈值和第二阈值;根据第一阈值和第二阈值对各个当前箱体中的当前离散型数据进行更新,得到目标对象对应的目标离散型数据,目标离散型数据作为建立目标对象风险监控模型的特征向量。此外,还提供了一种目标对象风险监控方法、装置、计算机设备和存储介质。

Description

数据处理方法、装置和目标对象风险监控方法
技术领域
本申请涉及计算机技术领域,特别是涉及一种数据处理方法、装置、计算机设备和存储介质,以及目标对象风险监控方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,出现了机器学习技术,机器学习在人工智能领域起到至关重要的作用,而特征工程是机器学习中最重要的步骤,也是机器学习模型建立的必要前提,其中,风险监控模型是机器学习模型中的一种,然而在建立风险监控模型时,需要对连续型变量进行离散化处理,离散化处理后的特征能够降低模拟过拟合的风险,提高风险监控模型的稳定性。其中,目前典型的连续型变量的离散化处理是分箱处理,得到分箱后的箱体,但是由于分箱得到的箱体过多以及箱体内的离散型数据数目过多,导致连续型变量离散化处理不准确,进一步造成后续风险监控模型出现过拟合现象,因此造成风险监控模型输出的风险监控结果不准确。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高离散处理的准确性从而提高风险监控模型的准确率的数据处理方法、装置、计算机设备和存储介质,以及目标对象风险监控方法、装置、计算机设备和存储介质。
一种数据处理方法,该方法包括:
获取目标对象的属性数据,属性数据为连续型数据;
根据目标预设分箱标准对属性数据进行分箱处理,得到多个当前箱体,各个当前箱体包括对应的当前离散型数据;
获取各个当前箱体对应的第一阈值和第二阈值;
根据第一阈值和第二阈值对各个当前箱体中的当前离散型数据进行更新,得到目标对象对应的目标离散型数据,目标离散型数据作为建立目标对象风险监控模型的特征向量。
一种数据处理装置,该装置包括:
属性数据获取模块,用于获取目标对象的属性数据,属性数据为连续型数据;
属性数据处理模块,用于根据目标预设分箱标准对属性数据进行分箱处理,得到多个当前箱体,各个当前箱体包括对应的当前离散型数据;
权重因子获取模块,用于获取各个当前箱体对应的第一阈值和第二阈值;
离散型数据生成模块,用于根据第一阈值和第二阈值对各个当前箱体中的当前离散型数据进行更新,得到目标对象对应的目标离散型数据,目标离散型数据作为建立目标对象风险监控模型的特征向量。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取目标对象的属性数据,属性数据为连续型数据;
根据目标预设分箱标准对属性数据进行分箱处理,得到多个当前箱体,各个当前箱体包括对应的当前离散型数据;
获取各个当前箱体对应的第一阈值和第二阈值;
根据第一阈值和第二阈值对各个当前箱体中的当前离散型数据进行更新,得到目标对象对应的目标离散型数据,目标离散型数据作为建立目标对象风险监控模型的特征向量。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取目标对象的属性数据,属性数据为连续型数据;
根据目标预设分箱标准对属性数据进行分箱处理,得到多个当前箱体,各个当前箱体包括对应的当前离散型数据;
获取各个当前箱体对应的第一阈值和第二阈值;
根据第一阈值和第二阈值对各个当前箱体中的当前离散型数据进行更新,得到目标对象对应的目标离散型数据,目标离散型数据作为建立目标对象风险监控模型的特征向量。
一种目标对象风险监控方法,该方法包括:
获取当前目标对象的当前属性数据,当前属性数据为连续型数据;
将当前属性数据输入至已构建好的目标对象风险监控模型,目标对象风险监控模型是对目标对象连续型的属性数据进行分箱处理,对分箱处理得到的当前箱体进行更新得到目标离散型数据,根据目标离散型数据构建得到的;
通过目标对象风险监控模型输出得到当前目标对象对应的风险监控结果。
一种目标对象风险监控装置,该装置包括:
当前属性数目获取模块,用于获取当前目标对象的当前属性数据,当前属性数据为连续型数据;
目标对象风险监控模型输入模块,用于将当前属性数据输入至已构建好的目标对象风险监控模型,目标对象风险监控模型是对目标对象连续型的属性数据进行分箱处理,对分箱处理得到的当前箱体进行更新得到目标离散型数据,根据目标离散型数据构建得到的;
目标对象风险监控模型输出模块,用于通过目标对象风险监控模型输出得到当前目标对象对应的风险监控结果。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取当前目标对象的当前属性数据,当前属性数据为连续型数据;
将当前属性数据输入至已构建好的目标对象风险监控模型,目标对象风险监控模型是对目标对象连续型的属性数据进行分箱处理,对分箱处理得到的当前箱体进行更新得到目标离散型数据,根据目标离散型数据构建得到的;
通过目标对象风险监控模型输出得到当前目标对象对应的风险监控结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取当前目标对象的当前属性数据,当前属性数据为连续型数据;
将当前属性数据输入至已构建好的目标对象风险监控模型,目标对象风险监控模型是对目标对象连续型的属性数据进行分箱处理,对分箱处理得到的当前箱体进行更新得到目标离散型数据,根据目标离散型数据构建得到的;
通过目标对象风险监控模型输出得到当前目标对象对应的风险监控结果。
上述数据处理方法、装置、计算机设备和存储介质,以及目标对象风险监控方法、装置、计算机设备和存储介质,获取目标对象的属性数据,属性数据为连续型数据;根据目标预设分箱标准对属性数据进行分箱处理,得到多个当前箱体,各个当前箱体包括对应的当前离散型数据;获取各个当前箱体对应的第一阈值和第二阈值;根据第一阈值和第二阈值对各个当前箱体中的当前离散型数据进行更新,得到目标对象对应的目标离散型数据,目标离散型数据作为建立目标对象风险监控模型的特征向量。
因此,由于分箱得到的箱体可能过多以及箱体内的离散型数据数目可能过多,可以对分箱处理得到的各个当前箱体进行更新调整,具体可以是计算各个当前箱体对应的第一阈值和第二阈值,进而根据第一阈值和第二阈值对各个当前箱体中的当前离散型数据进行更新调整,得到各个目标箱体。通过这种方法,可以对一开始分箱处理得到的当前箱体进行调整,避免分箱得到的箱体过多以及箱体内的离散型数据数目过多,提高连续型的属性数据离散化处理的准确性,从而避免后续目标对象风险监控模型建立时出现过拟合现象,提高目标对象风险监控模型风险监控的准确率。
附图说明
图1为一个实施例中数据处理方法的应用环境图;
图2为一个实施例中数据处理方法的流程示意图;
图2A为一个实施例中分箱处理步骤的示意图;
图3为一个实施例中连续型的属性数据分箱处理步骤的流程示意图;
图4为一个实施例中第一切分点确定步骤的流程示意图;
图5为一个实施例中切分影响因子计算步骤的流程示意图;
图6为一个实施例中第二切分点计算步骤的流程示意图;
图7为一个实施例中权重因子计算步骤的流程示意图;
图8为一个实施例中当前箱体更新步骤的流程示意图;
图9为一个实施例中目标对象风险监控方法的流程示意图;
图10为一个实施例中数据处理装置的结构框图;
图11为一个实施例中目标对象风险监控装置的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的数据处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
具体地,终端102可将目标对象的属性数据发送至服务器104,其中属性数据为连续型数据。服务器104获取到目标对象的属性数据后,根据目标预设分箱标准对属性数据进行分箱处理,得到多个当前箱体,各个当前箱体包括对应的当前离散型数据;获取各个当前箱体对应的第一阈值和第二阈值;根据第一阈值和第二阈值对各个当前箱体中的当前离散型数据进行更新,得到目标对象对应的目标离散型数据,目标离散型数据作为建立目标对象风险监控模型的特征向量。进一步地,服务器104可将目标离散型数据发送至终端102,供终端102使用。
在一个实施例中,如图2所示,提供了一种数据处理方法,以该方法应用于图1中的终端或服务器为例进行说明,包括以下步骤:
步骤202,获取目标对象的属性数据,属性数据为连续型数据。
其中,目标对象是符合条件的对象,可以是用户、图片等,属性数据是与目标对象属性相关的数据,如目标对象为用户时,属性数据可以是用户基本数据,如年龄等。其中,这里的属性数据是指连续型数据,所谓连续型数据是指如果属性数据X的所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任一点的随机数据。例如,一批电子元件的寿命、实际中常遇到的测量误差、用户的年龄、用户的评定成绩等都是连续型数据。而与连续型数据相对的是离散型数据,所谓离散型数据是指数据对应的数值可以按一定顺序一一列举,通常以整数位取值的变量。如职工人数、工厂数、机器台数、用户性别等。其中,数据库中已经定义好目标对象的各个数据的类型,数据库中存储不同类型的数据,不同类型的数据包括连续型数据和离散型数据。具体地,服务器可以直接从数据库中存储的数据中获取目标对象对应的连续型数据,即目标对象的属性数据。
步骤204,根据目标预设分箱标准对属性数据进行分箱处理,得到多个当前箱体,各个当前箱体包括对应的当前离散型数据。
其中,这里的预设分箱标准是用来切分连续型的属性数据分箱处理的,目标预设分箱标准可以从预设分箱标准集合中选取得到,预设分箱标准集合中包括多个预设分箱标准,预设分箱标准可以是ks分箱标准、iv分箱标准、ig分箱标准、gini分箱标准等等。其中,不同的预设分箱标准对应的分箱处理方式不同。其中,分箱处理就是将连续型的属性数据离散化,得到离散型数据。
具体地,从预设分箱标准集合中获得目标预设分箱标准后,可根据目标预设分箱标准对各个连续型的属性数据进行分箱处理。其中,分箱处理可以是对各个连续型的属性数据进行离散化处理,具体可以是从各个连续型的属性数据中确定当前切分点,根据当前切分点对各个连续型的属性数据进行切分,得到切分后的多个箱体,再从各个箱体确定对应的切分点,根据切分点对对应的箱体进行切分,以此类推,直至满足收敛条件,从而得到多个当前箱体,此时当前箱体包括对应的当前离散型数据。也就是说,经过分箱处理后,所有连续型数据已经转换成离散型数据了。
其中,从各个连续型的属性数据中确定当前切分点可以遍历各个连续型的属性数据,获取各个连续型的属性数据对应的变量标签,根据变量标签统计各个连续型的属性数据在预设统计周期对应的切分影响因子,根据切分影响因子确定当前切分点。所谓切分影响因子是用来确定当前切分点的,例如,将切分影响因子最大的作为当前切分点。
其中,从切分后的各个箱体确定对应的切分点可以是根据各个箱体中的连续型的属性数据对应的变量标签计算得到各个箱体对应的切分点,具体可以是统计各个箱体正变量标签数和负变量标签数,以及统计各个箱体对应的总变量标签数,根据正变量标签数、负变量标签数和总变量标签数计算得到各个箱体对应的切分点。
其中,收敛条件可自定义,自定义可以是根据实际业务场景或者产品需求确定得到。自定义可以是当当前箱体的变量数小于预设阈值时,则可认为满足收敛条件,或者还可以是当当前箱体的正变量标签数达到预设数目,则可认为满足收敛条件等等。
在一个实施例中,如图2A所示,图2A示出一个实施例中分箱处理步骤的示意图,图2A中的X表示连续型的年龄数据,Y表示连续型的属性数据对应的变量标签,Y为0表示负变量标签,Y为1表示正变量标签,data_xy表示连续型的年龄数据和对应的变量标签组成的数组。具体地,首先遍历各个连续型的年龄数据,根据各个连续型的年龄数据对应的变量标签统计各个连续型的年龄数据在预设统计周期对应的切分影响因子,根据切分影响因子确定当前切分点为X=27时,根据当前切分点对各个连续型的年龄数据进行切分,得到两个箱体,分别为图2A中的左箱和右箱。
进一步地,再分别从左箱和右箱确定对应的切分点,具体可以是统计左箱和右箱对应的正变量标签数和负变量标签数,以及统计左箱和右箱对应的总变量标签数,根据左箱和右箱对应的正变量标签数、负变量标签数和总变量标签数计算分别得到左箱和右箱对应的切分点,例如左箱的切分点为X=25,右箱的切分点为X=37,根据切分点对对应的箱体进行切分,依次类推,直至满足收敛条件,最后得到6个当前箱体,各个当前箱体包括对应的当前离散型数据,如第1个当前箱体的当前离散型数据为:20-22,当前离散型数据由这3个连续型的年龄数据X=20、X=22、X=22组成的。
步骤206,获取各个当前箱体对应的第一阈值和第二阈值。
其中,由于分箱处理过程导致的箱体可能过多或者箱体中的离散型数据数目过多,容易导致后续机器学习模型出现过拟合现象,为了避免这一个问题,需要对分箱处理得到的各个当前箱体进行调整,而这里的第一阈值和第二阈值就是用来调整分箱处理得到的各个当前箱体的。
具体地,在得到各个当前箱体后,当前箱体包括对应的离散型数据,离散型数据是连续型的属性数据离散化得到的,当前箱体的当前离散型数据由对应的连续型的属性数据组成的,例如,当前离散型数据为X=20-22,包括4个连续型的属性数据X=20、X=22、X=22、X=22。因此,可根据当前箱体的当前离散型数据计算对应的第一阈值和第二阈值。具体可以是,统计各个当前箱体对应的总正变量标签数和总负变量标签数,获取第一当前箱体对应的正变量标签数和负变量标签数,根据正变量标签数和总正变量标签数计算得到正变量比例,根据负变量标签数和总负变量标签数计算得到负变量比例,最后根据正变量比例和负变量比例计算得到第一阈值和第二阈值。其中,第一阈值和第二阈值的计算公式可以不同,而计算变量都为正变量比例和负变量比例。其中,第一阈值可以是woe值,第二阈值可以是iv值。
在一个实施例中,第一阈值可是woe值,第二阈值是iv值,第i个当前箱体对应的第一阈值woe值的计算方式可以如以下公式所示:
Figure BDA0002289415940000071
其中,%goodi指第i个当前箱体中正变量标签数占总体正变量标签数的比例,即正变量比例;%badi表示第i个当前箱体中负变量标签数占总体变量标签数的比例,即负变量比例,而woei表示第i个当前箱体对应的第一阈值。
其中,第i个当前箱体对应的第二阈值iv值的计算方式可以如以下公式所示:
Figure BDA0002289415940000072
其中,%goodi指第i个当前箱体中正变量标签数占总体正变量标签数的比例,即正变量比例;%badi表示第i个当前箱体中负变量标签数占总体变量标签数的比例,即负变量比例,而iv表示第i个当前箱体对应的第二阈值。
步骤208,根据第一阈值和第二阈值对各个当前箱体中的当前离散型数据进行更新,得到目标对象对应的目标离散型数据,目标离散型数据作为建立目标对象风险监控模型的特征向量。
具体地,在获得各个当前箱体对应的第一阈值和第二阈值后,为了避免分箱处理过程导致的箱体可能过多或者箱体中的离散型数据数目过多,容易导致后续机器学习模型出现过拟合现象,需要对各个当前箱体进行更新,具体可以是根据第一阈值和第二阈值对各个当前箱体中的当前离散型数据进行更新,得到各个目标箱体,各个目标箱体包括对应的目标离散型数据。
其中,对当前箱体的当前离散型数据进行更新可以合并多个当前箱体、删除当前箱体的离散型数据、增加当前箱体的离散型数据等方式,得到各个目标箱体,此时各个目标箱体包括对应的目标离散型数据。
其中,根据第一阈值和第二阈值对各个当前箱体中的当前离散型数据进行更新具体可以是合并相邻的两个当前箱体,根据两个相邻的当前箱体对应的第一阈值计算权重因子差异值,当权重因子差异值满足预设差异值阈值时,根据两个相邻的当前箱体对应的第二阈值合并两个当前箱体,具体可以是将第二阈值小的当前箱体合并至第二阈值大的当前箱体,从而得到一个新的当前箱体,即为目标箱体。
在另一个实施例中,可根据各个当前箱体对应的第一阈值和第二阈值计算对应的权重影响因子,根据权重影响因子确定对应的当前箱体是否满足判断条件,如果不满足判断条件,则重新确定当前箱体对应的切分点,再根据切分点对当前箱体切分,直至满足判断条件,得到多个目标箱体。切分点的计算方式在上述内容已经详细解释说明了,在此不作任何赘述。
其中,得到的目标离散型数据可以作为建立目标对象风险监控模型的特征向量,目标对象风险监控模型是用来监控目标对象的风险的模型,输入目标对象对应的连续型属性数据至目标对象风险监控模型中,经过目标对象风险监控模型的计算,输出目标对象对应的风险监控结果。然而,再目标对象风险监控模型建立时,可以将目标离散数据作为目标对象风险监控模型的特征向量进行建模,经过目标对象风险监控模型的训练得到已训练的目标对象风险监控模型。
上述数据处理方法中,获取目标对象的属性数据,属性数据为连续型数据,根据目标预设分箱标准对属性数据进行分箱处理,得到多个当前箱体,各个当前箱体包括对应的当前离散型数据,获取各个当前箱体对应的第一阈值和第二阈值,根据第一阈值和第二阈值对各个当前箱体中的当前离散型数据进行更新,得到目标对象对应的目标离散型数据,目标离散型数据作为建立目标对象风险监控模型的特征向量。
因此,由于分箱得到的箱体可能过多以及箱体内的离散型数据数目可能过多,可以对分箱处理得到的各个当前箱体进行更新调整,具体可以是计算各个当前箱体对应的第一阈值和第二阈值,进而根据第一阈值和第二阈值对各个当前箱体中的当前离散型数据进行更新调整,得到各个目标箱体。通过这种方法,可以对一开始分箱处理得到的当前箱体进行调整,避免分箱得到的箱体过多以及箱体内的离散型数据数目过多,提高连续型的属性数据离散化处理的准确性,从而避免后续目标对象风险监控模型建立时出现过拟合现象,提高目标对象风险监控模型风险监控的准确率。
在一个实施例中,如图3所示,属性数据存在对应的变量标签,根据目标预设分箱标准对属性数据进行分箱处理,得到多个当前箱体,各个当前箱体包括对应的当前离散型数据,包括:
步骤302,获取预设分箱标准集合,从预设分箱标准集合中确定目标预设分箱标准,不同预设分箱标准对应的切分点的确定方式不同。
步骤304,根据目标预设分箱标准从各个属性数据中确定对应的第一切分点,根据第一切分点对各个属性数据进行切分,得到切分后的多个第一箱体,第一箱体包括对应的第一连续型数据。
其中,这里的预设分箱标准是用来衡量连续型的属性数据分箱处理的,目标预设分箱标准可以从预设分箱标准集合中选取得到,预设分箱标准集合中包括多个预设分箱标准,预设分箱标准可以是ks分箱标准、iv分箱标准、ig分箱标准、gini分箱标准等等。其中,不同的预设分箱标准对应的分箱处理方式不同。其中,分箱处理就是将连续型的属性数据离散化,得到离散型数据。因为分箱处理方式是根据切分点进行分箱的,因此不同的预设分箱标准对应的切分点的确定方式不同。
具体地,终端或服务器中可预先存储各个预设分箱标准,从而组成预设分箱标准集合,在获取到连续型的属性数据时,获取存储的预设分箱标准集合,从预设分箱标准集合中确定目标预设分箱标准。其中,目标预设分箱标准的确定方式可自定义,自定义可以是根据实际业务需求或者产品应用场景进行确定得到,例如自定义可以是根据各个预设分箱标准的优先级,将优先级高的作为目标预设分箱标准。
其中,这里的第一切分点是用来切分连续型的属性数据的,在获得目标预设分箱标准后,可根据目标预设分箱标准对各个连续型的属性数据进行分箱处理。其中,分箱处理可以是对各个连续型的属性数据进行离散化处理,具体可以是从各个连续型的属性数据中确定第一切分点,根据第一切分点对各个连续型的属性数据进行切分,得到切分后的多个第一箱体,此时第一箱体包括对应的第一连续型数据。
步骤306,根据各个第一箱体中的第一连续型数据计算得到对应的第二切分点,根据第二切分点对对应的第一箱体进行切分,得到切分后的多个第二箱体,第二箱体包括对应的第二连续型数据。
步骤308,将第二箱体作为第一箱体,重新返回根据各个第一箱体中的第一连续型数据计算得到对应的第二切分点的步骤,直至满足收敛条件,得到多个当前箱体,当前箱体包括对应的当前离散型数据。
其中,由于各个连续型的的属性数据只进行了一次切分,因此切分得到的各个箱体中的连续型的属性数据数目过多,容易导致后续目标对象风险监控模型出现过拟合的现象,因此为了避免这一个现象,因此需要继续对切分后的第一箱体进行切分,直至满足收敛条件,得到多个当前箱体,此时各个当前箱体包括对应的当前离散型数据。也就是说,满足收敛条件的当前箱体中的所有连续型的属性数据已经全部转换成离散型数据了。
其中,对切分后的第一箱体进行切分具体可以是根据各个第一箱体中的第一连续型数据计算得到对应的第二切分点,根据第二切分点对对应的第一箱体进行切分,得到切分后的多个第二箱体,将第二箱体作为第一箱体,重新返回根据各个第一箱体中的第一连续型数据计算得到对应的第二切分点的步骤,直至满足收敛条件,得到多个当前箱体,当前箱体包括对应的当前离散型数据。其中,收敛条件可自定义,自定义可以是当当前箱体的数据数小于预设阈值时,则可认为满足收敛条件,或者还可以是当当前箱体的正变量标签数达到预设数目,则可认为满足收敛条件等等。
在一个实施例中,如图4所示,根据目标预设分箱标准从各个属性数据中确定对应的第一切分点,包括:
步骤402,获取各个属性数据对应的预设统计周期。
步骤404,根据各个属性数据对应的变量标签,统计各个预设统计周期对应的正变量标签数和负变量标签数。
其中,预设统计周期是预先设置用来统计连续型的属性数据的变量标签数的周期,可以预先根据业务需求或者实际应用场景设置各个连续型的属性数据对应的预设统计周期,各个连续型的属性数据对应的预设统计周期可以设置成相同的,也可以设置成不同的。
其中,连续型的属性数据都存在对应的变量标签,变量标签为正变量标签或负变量标签。具体地,获取各个连续型的属性数据对应的预设统计周期,根据连续型的属性数据的变量标签,统计各个连续型的属性数据在各个预设统计周期对应的正变量标签数和负变量标签数。其中,统计可以是求和等。正变量标签数是在预设统计周期内所有变量标签为正变量标签的总数目,同样地,负变量标签数是在预设统计周期内所有变量标签为负变量标签的总数目。
例如,如下表格所示,表格示出各个连续型的属性数据X和对应的变量标签Y,其中,Y=0为负变量标签,Y=1为正变量标签:
Figure BDA0002289415940000111
步骤406,根据各个预设周期对应的正变量标签数和负变量标签数计算得到各个属性数据对应的切分影响因子。
步骤408,根据各个属性数据对应的切分影响因子确定第一切分点。
其中,在得到各个预设统计周期对应的正变量标签数和负变量标签数后,可根据各个预设周期对应的正变量标签数和负变量标签数计算得到各个连续型的属性数据对应的切分影响因子,再根据切分影响因子确定第一切分点。所谓切分影响因子是用来确定第一切分点的,例如,将切分影响因子最大的作为第一切分点。
其中,切分影响因子是根据各个预设周期对应的正变量标签数和负变量标签数计算得到的,计算方式可以自定义,自定义可以是正变量标签数占比与负变量标签数占比的差的绝对值(bad_rate-good_rate),即,绝对值为切分影响因子,然后再取最大的绝对值为第一切分点。其中,正变量标签数占比是正变量标签数占总变量标签数的比例,同样地负变量标签数占比是负变量标签数占总变量标签数的比例。
在一个实施例中,如图5所示,根据各个预设周期对应的正变量标签数和负变量标签数计算得到各个属性数据对应的切分影响因子,包括:
步骤502,获取各个预设统计周期对应的总变量标签数。
步骤504,根据各个预设统计周期的正变量标签数和总变量标签数计算得到对应的第一比例。
其中,由于连续型的属性数据都存在对应的变量标签,变量标签为正变量标签、负变量标签中的一种,这里的总变量标签数是指预设统计周期内累计的所有连续型的属性数据的总数目。因此,可统计各个预设统计周期内累计的所有连续型的属性数据的总数目,即各个预设统计周期对应的总变量标签数。
其中,这里的第一比例是指各个预设统计周期的正变量标签占总变量标签的比例,可以是将正变量标签与总变量标签的比值作为第一比例。具体可以是,获取各个预设统计周期累计的所有连续型的属性数据对应的总变量标签数,统计各个预设统计周期内正变量标签数,计算正变量标签数和总变量标签数的比值,将得到的比值作为第一比例。
例如,如下表格所示,表格示出各个连续型的属性数据X和对应的变量标签Y,其中,Y=0为负变量标签,Y=1为正变量标签:
Figure BDA0002289415940000121
其中,若预设统计周期为X=25对应的预设统计周期,预设统计周期对应的总变量标签数为3个,分别为X=22对应的变量标签、X=23对应的变量标签、X=25对应的变量标签,统计预设统计周期的正变量标签数为1个,即X=22对应的变量标签为正变量标签,因此,第一比例可以为正变量标签数占总变量标签数的比值:1/3。
步骤506,根据各个预设统计周期的负变量标签数和总变量标签数计算得到对应的第二比例。
步骤508,根据各个预设统计周期的第一比例和第二比例计算得到各个属性数据对应的切分影响因子。
其中,由于连续型的属性数据都存在对应的变量标签,变量标签为正变量标签、负变量标签中的一种,这里的总变量标签数是指预设统计周期内累计的所有连续型的属性数据的总数目。因此,可统计各个预设统计周期内累计的所有连续型的属性数据的总数目,即各个预设统计周期对应的总变量标签数。
其中,这里的第二比例是指各个预设统计周期的负变量标签占总变量标签的比例,可以是将负变量标签与总变量标签的比值作为第二比例。具体可以是,获取各个预设统计周期累计的所有连续型的属性数据对应的总变量标签数,统计各个预设统计周期内负变量标签数,计算负变量标签数和总变量标签数的比值,将得到的比值作为第二比例。
进一步地,在获得第一比例和第二比例后,可根据各个预设统计周期的第一比例和第二比例计算得到各个连续型的属性数据对应的切分影响因子。其中,计算方式可自定义,自定义方式可以是对第一比例和第二比例进行均值计算,将均值计算得到的结果作为切分影响因子,还可以是对第一比例和第二比例进行加权求和计算,将计算得到的结果作为切分影响因子等等。例如,如下表格所示,表格示出各个连续型的属性数据X和对应的变量标签Y,其中,Y=0为负变量标签,Y=1为正变量标签:
Figure BDA0002289415940000131
其中,若预设统计周期为X=25对应的预设统计周期,预设统计周期对应的总变量标签数为3个,分别为X=22对应的变量标签、X=23对应的变量标签、X=25对应的变量标签,统计预设统计周期的正变量标签数为1个,即X=22对应的变量标签为正变量标签,因此,第一比例可以为正变量标签数占总变量标签数的比值:1/3。
其中,若预设统计周期为X=25对应的预设统计周期,预设统计周期对应的总变量标签数为3个,分别为X=22对应的变量标签、X=23对应的变量标签、X=25对应的变量标签,统计预设统计周期的负变量标签数为2个,即X=23对应的变量标签为负变量标签,X=25对应的变量标签为负变量标签,因此,第二比例可以为负变量标签数占总变量标签数的比值:2/3。
最后,可以根据第一比例和第二比例计算得到对应的切分影响因子为:
Figure BDA0002289415940000132
在一个实施例中,如图6所示,根据各个第一箱体中的第一连续型数据计算得到对应的第二切分点,包括:
步骤602,统计各个第一箱体中第一连续型数据对应的总变量标签数。
步骤604,获取各个第一箱体中第一连续型数据对应的第一正变量标签数,根据第一正变量标签数和总变量标签数计算得到正变量标签比例。
其中,连续型的属性数据都存在对应的变量标签,因此连续型的属性数据的数量就是变量标签的数量。而这里的总变量标签数是第一箱体的所有连续型的属性数据对应的变量标签的总数目,即第一箱体中所有连续型的属性数据的数量。由于根据第一切分点对连续型的属性数据进行切分后,得到切分后的第一箱体,第一箱体中包括多个连续型数据,统计切分后的各个第一箱体中第一连续型数据的数量,得到各个第一箱体中第一连续型数据对应的总变量标签数。
其中,变量标签为正变量标签、负变量标签中的一种,而这里的第一正变量标签数是指第一箱体中第一连续数据对应的变量标签为正变量标签的数目,因此,统计各个第一箱体中第一连续数据对应的变量标签为正变量标签的数目,即第一正变量标签数。进一步地,再根据第一正变量标签数和总变量标签数计算得到正变量标签比例。计算方式可以是,将第一正变量标签数和总变量标签数的比值作为正变量标签比例。
步骤606,获取各个第一箱体中第一连续型数据对应的第一负变量标签数,根据第一负变量标签数和总变量标签数计算得到负变量标签比例。
步骤608,根据各个第一箱体的正变量标签比例和负变量标签比例计算得到对应的第二切分点。
其中,连续型的属性数据对应的变量标签为正变量标签、负变量标签中的一种,而这里的第一负变量标签数是指第一箱体中第一连续数据对应的变量标签为负变量标签的数目,因此,统计各个第一箱体中第一连续型数据对应的变量标签为负变量标签的数目,即第一负变量标签数。进一步地,再根据第一负变量标签数和总变量标签数计算得到负变量标签比例。计算方式可以是,将第一负变量标签数和总变量标签数的比值作为负变量标签比例。
进一步地,在得到各个第一箱体的正变量比例和负变量标签比例后,可根据各个第一箱体的正变量标签比例和负变量标签比例计算得到对应的第二切分点。其中,计算第二切分点的计算方式可自定义,自定义可以是计算正变量标签比例与负变量标签比例的差值,将差值的绝对值作为第二切分点,或者还可以是计算正变量标签比例和负变量标签比例的均值,将均值作为第二切分点,或者还可以是对正变量标签比例和负变量标签比例进行加权求和,将加权求和得到的结果作为第二切分点等等。
在一个实施例中,如图7所示,属性数据存在对应的变量标签,变量标签为正变量标签和负变量标签中的一种,获取各个当前箱体对应的第一阈值和第二阈值,包括:
步骤702,统计当前箱体对应的总正变量标签数和总负变量标签数。
步骤704,获取第一当前箱体对应的第一当前正变量标签数和第一当前负变量标签数。
步骤706,根据第一当前正变量标签数和总正变量标签数计算得到第一当前正变量比例,根据第一当前负变量标签数和总负变量标签数计算得到第一当前负变量比例。
其中,连续型的属性数据存在对应的变量标签,变量标签为正变量标签和负变量标签中的一种,这里的总正变量标签数是指所有当前箱体连续型数据的变量标签为正变量标签的总数目,同样地,总负变量标签数是指所有当前箱体连续型数据的变量标签为负变量标签的总数目。具体地,在根据目标预设分箱标准对多个连续型数据进行分箱处理,得到多个当前箱体后,虽然当前箱体中包括对应的当前离散型数据,但是当前离散型数据是通过连续型的属性数据离散化处理得到的,因此可通过当前离散型数据可以得知对应的连续型数据,统计所有当前箱体中变量标签为正变量标签的总数目和变量标签为负变量标签的总数目,即统计得到所有当前箱体对应的总正变量标签数和总负变量标签数。
其中,第一当前箱体是从所有当前箱体中选取其中一个当前箱体作为第一当前箱体,其中,第一当前箱体的选取方式可自定义,自定义可以是随机选取,也可以是依次将当前箱体作为第一当前箱体。
其中,第一当前正变量标签数是第一当前箱体中变量标签为正变量标签的总数目,同样地,第一当前负变量标签数是第一当前箱体中变量标签为负变量标签的总数目。具体地,从所有当前箱体中选取得到第一当前箱体后,统计第一当前箱体中变量标签为正变量标签的总数目得到第一当前正变量标签数,统计第一当前箱体中变量标签为负变量标签的总数目得到第一当前负变量标签数。
进一步地,可根据第一当前正变量标签数和总正变量标签数计算得到第一当前正变量比例,根据第一当前负变量标签数和总负变量标签数计算得到第一当前负变量比例。其中,第一当前正变量比例的计算方式具体可以是将第一当前正变量标签数与总正变量标签数的比值作为第一当前正变量比例,第一当前负变量比例的计算方式具体可以是将第一当前负变量标签数与总负变量标签数的比值作为第一当前负变量比例。
步骤708,根据第一当前正变量比例和第一当前负变量比例计算得到第一当前箱体对应的第一阈值和第二阈值。
步骤710,获取下一个第一当前箱体,将下一个第一当前箱体作为第一当前箱体,返回获取第一当前箱体对应的第一当前正变量标签数和第一当前负变量标签数的步骤,直至得到各个当前箱体对应的第一阈值和第二阈值。
具体地,在得到第一当前箱体对应的第一当前正变量比例和第一当前负变量比例后,可根据第一当前正变量比例和第一当前负变量比例计算得到第一当前箱体对应的第一阈值和第二阈值。其中,第一阈值和第二阈值的计算公式可以不同,而计算变量都为第一当前正变量比例和第一当前负变量比例。其中,第一阈值可以是woe值,第二阈值可以是iv值。
在一个实施例中,第一阈值可是woe值,第二阈值是iv值,第i个当前箱体为第一当前箱体,第i个当前箱体对应的第一阈值woe值的计算方式可以如以下公式所示:
Figure BDA0002289415940000161
其中,%goodi指第i个当前箱体中正变量标签数占总体正变量标签数的比例,即正变量比例;%badi表示第i个当前箱体中负变量标签数占总体变量标签数的比例,即负变量比例,而woei表示第i个当前箱体对应的第一阈值。
其中,第i个当前箱体对应的第二阈值iv值的计算方式可以如以下公式所示:
Figure BDA0002289415940000162
其中,%goodi指第i个当前箱体中正变量标签数占总体正变量标签数的比例,即正变量比例;%badi表示第i个当前箱体中负变量标签数占总体变量标签数的比例,即负变量比例,而iv表示第i个当前箱体对应的第二阈值。
其中,在得到第一当前箱体得第一阈值和第二阈值后,需要从所有得当前箱体中获取下一个第一当前箱体,将下一个第一当前箱体作为第一当前箱体,返回获取第一当前箱体对应的第一当前正变量标签数和第一当前负变量标签数的步骤,直至得到各个当前箱体对应的第一阈值和第二阈值。通过该方法,可以计算得到各个箱体对应的第一阈值和第二阈值。
在一个实施例中,如图8所示,根据第一阈值和第二阈值对各个当前箱体中的当前离散型数据进行更新,得到目标对象对应的目标离散型数据,包括:
步骤802,根据相邻当前箱体的第一阈值计算得到权重因子差异值。
步骤804,当权重因子差异值小于预设差异值时,根据相邻当前箱体对应的第二阈值进行合并,得到目标离散型数据。
其中,由于分箱处理过程导致的箱体可能过多或者箱体中的离散型数据数目过多,容易导致后续机器学习模型出现过拟合现象,为了避免这一个问题,需要对分箱处理得到的各个当前箱体进行调整,而这里的第一阈值和第二阈值就是用来调整分箱处理得到的各个当前箱体的。
因此,在得到各个当前箱体对应的第一阈值和第二阈值后,可根据各个当前对应的第一阈值和第二阈值对各个当前箱体中的当前离散型数据进行更新,得到各个目标箱体。其中,更新的方式可以是合并方式,将符合条件的当前箱体进行合并,合并成一个新的箱体,即目标箱体。
具体可以是,根据相邻的两个当前箱体的第一阈值计算得到权重因子差异值。这里的权重因子差异值的计算可以是计算两个相邻当前箱体的第一阈值的差值,将差值作为权重因子差异值,或者还可以是计算两个相邻当前箱体第一阈值的均值,将均值作为权重因子差异值等。
进一步地,在得到两个相邻当前箱体的权重因子差异值后,获取预设差异值,判断权重因子差异值是否小于预设差异值,当权重因子差异值小于预设差异值时,合并两个相邻当前箱体,具体可以是通过两个相邻当前箱体的第二阈值进行合并,具体可以是将第二阈值小的当前箱体合并至第二阈值大的当前箱体中,得到一个新的目标箱体。因此,目标箱体中包括两个相邻的当前箱体的离散型数据,组成目标离散型数据。其中,预设差异值可自定义,可以根据实际需求或者实际业务应用场景进行确定得到的。
在一个实施例中,如图9所示,提供了一种目标对象风险监控方法,以该方法应用于图1中的终端或服务器为例进行说明,包括以下步骤:
步骤902,获取当前目标对象的当前属性数据,当前属性数据为连续型数据。
其中,当前目标对象可以是符合条件的对象,可以是用户、图片等,当前属性数据是与当前目标对象属性相关的数据,如当前目标对象为用户时,当前属性数据可以是用户基本数据,如年龄等。其中,这里的当前属性数据是指连续型数据,所谓连续型数据是指如果属性数据X的所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任一点的随机数据。
步骤904,将当前属性数据输入至已构建好的目标对象风险监控模型,目标对象风险监控模型是对目标对象连续型的属性数据进行分箱处理,对分箱处理得到的当前箱体进行更新得到目标离散型数据,根据目标离散型数据构建得到的。
具体地,在获取得到当前目标对象的当前属性数据后,可以将当前属性数据输入至已构建好的目标对象风险监控模型,其中,这里的目标对象风险监控模型是对目标对象连续型的属性数据进行分箱处理,对分箱处理得到的当前箱体进行更新得到目标离散型数据,根据目标离散型数据构建得到的,在图2所示的实施例中已经做了详细说明,在此不作任何赘述。
步骤906,通过目标对象风险监控模型输出得到当前目标对象对应的风险监控结果。
具体地,将当前目标对象的当前属性数据输入至目标对象风险监控模型后,目标对象风险监控模型可对当前目标对象的当前属性数据进行离散化处理,计算得到当前目标对象对应的风险监控结果。例如,当前目标对象的当前属性数据为用户的年龄,将用户的年龄输入至目标对象风险监控模型中,得到与目标对象风险监控模型对应的风险监控结果,如该用户是否存在违约、超期不良记录的结果等等。
其中,一种目标对象风险监控方法可以应用在服务接入控制技术中。例如,在一个实施例中,提供服务接入控制方法,该方法可以包括步骤:接收目标服务的接入请求,该接入请求携带待接入对象的属性数据,根据待接入对象的属性数据获取与待接入对象的属性数据对应的风险监控结果,根据目标风险监控结果判断是否准许所述待接入对象接入所述目标服务,若是,控制所述待接入对象接入所述目标服务。
其中,服务接入请求是用来请求接入目标服务的,具体可以通过点击操作或者语音操作触发生成。而服务接入请求中携带待接入对象的属性数据,由于目标对象风险监控方法中,目标对象风险监控模型输出的风险监控结果是根据输入的目标对象的属性数据得到的,因此可根据目标对象的属性数据得到对应的风险监控结果。
因此,在服务接入控制技术中,当接收到服务接入请求后,可根据服务接入请求中的待接入对象的属性数据获取对应的目标风险监控结果,其中,这里的待接入对象是指等待接入服务的对象,与目标对象是同一概念,可以是用户、图片等等。
进一步,再根据目标风险监控结果判断是否准许待接入对象接入目标服务,具体可以是,判断目标风险监控结果是否存在对应的目标服务,当存在与目标风险监控结果对应的目标服务后,控制待接入对象接入目标服务,反之,当不存在与目标风险监控结果对应的目标服务后,说明该待接入对象不能接入服务,可拒绝该待接入对象接入目标服务。或者还可以是,获取服务对应的风险监控结果接入条件,检测目标风险监控结果是否满足风险监控结果接入条件,若满足,则控制该待接入对象接入目标服务,反之,则拒绝该待接入对象接入目标服务。
例如,待接入对象的属性数据是23岁的用户A,将该待接入对象的属性数据通过服务接入请求发送至服务器(终端),服务器接收到该服务接入请求后,获取对应的目标风险监控结果为:存在违约次数100次,进一步根据该违约次数判定该用户存在不好的信用,拒绝该待接入对象接入目标服务。
上述服务接入控制方法,可以通过风险监控结果来控制待接入对象接入服务,当风险监控结果满足接入条件时,或者存在对应的接入服务时,可以控制该待接入对象接入服务,降低服务的接入风险,保证服务的接入安全性。
在一个具体的实施例中,提供了一种数据处理方法,具体包括以下步骤:
1、获取目标对象的属性数据,属性数据为连续型数据,属性数据存在对应的变量标签,变量标签为正变量标签和负变量标签中的一种。
2、根据目标预设分箱标准对属性数据进行分箱处理,得到多个当前箱体,各个当前箱体包括对应的当前离散型数据。
2-1、获取预设分箱标准集合,从预设分箱标准集合中确定目标预设分箱标准,不同预设分箱标准对应的切分点的确定方式不同。
2-2、根据目标预设分箱标准从各个属性数据中确定对应的第一切分点,根据第一切分点对各个属性数据进行切分,得到切分后的多个第一箱体,第一箱体包括对应的第一连续型数据。
2-2-1、获取各个属性数据对应的预设统计周期。
2-2-2、根据各个属性数据对应的变量标签,统计各个预设统计周期对应的正变量标签数和负变量标签数。
2-2-3、根据各个预设周期对应的正变量标签数和负变量标签数计算得到各个属性数据对应的切分影响因子。
2-2-3-1、获取各个预设统计周期对应的总变量标签数。
2-2-3-2、根据各个预设统计周期的正变量标签数和总变量标签数计算得到对应的第一比例。
2-2-3-3、根据各个预设统计周期的负变量标签数和总变量标签数计算得到对应的第二比例。
2-2-3-4、根据各个预设统计周期的第一比例和第二比例计算得到各个属性数据对应的切分影响因子。
2-2-4、根据各个连续型的属性数据对应的切分影响因子确定第一切分点。
2-3、根据各个第一箱体中的第一连续型数据计算得到对应的第二切分点,根据第二切分点对对应的第一箱体进行切分,得到切分后的多个第二箱体,第二箱体包括对应的第二连续型数据。
2-3-1、统计各个第一箱体中第一连续型数据对应的总变量标签数。
2-3-2、获取各个第一箱体中第一连续型数据对应的第一正变量标签数,根据第一正变量标签数和总变量标签数计算得到正变量标签比例。
2-3-3、获取各个第一箱体中第一连续型数据对应的第一负变量标签数,根据第一负变量标签数和总变量标签数计算得到负变量标签比例。
2-3-4、根据各个第一箱体的正变量标签比例和负变量标签比例计算得到对应的第二切分点。
2-4、将第二箱体作为第一箱体,重新返回根据各个第一箱体中的第一连续型数据计算得到对应的第二切分点的步骤,直至满足收敛条件,得到多个当前箱体,当前箱体包括对应的当前离散型数据。
3、获取各个当前箱体对应的第一阈值和第二阈值。
3-1、统计当前箱体对应的总正变量标签数和总负变量标签数。
3-2、获取第一当前箱体对应的第一当前正变量标签数和第一当前负变量标签数。
3-3、根据第一当前正变量标签数和总正变量标签数计算得到第一当前正变量比例,根据第一当前负变量标签数和总负变量标签数计算得到第一当前负变量比例。
3-4、根据第一当前正变量比例和第一当前负变量比例计算得到第一当前箱体对应的第一阈值和第二阈值。
3-5、获取下一个第一当前箱体,将下一个第一当前箱体作为第一当前箱体,返回获取第一当前箱体对应的第一当前正变量标签数和第一当前负变量标签数的步骤,直至得到各个当前箱体对应的第一阈值和第二阈值。
4、根据第一阈值和第二阈值对各个当前箱体中的当前离散型数据进行更新,得到目标对象对应的目标离散型数据,目标离散型数据作为建立目标对象风险监控模型的特征向量。
4-1、根据相邻当前箱体的第一阈值计算得到权重因子差异值。
4-2、当权重因子差异值小于预设差异值时,根据相邻当前箱体的第二阈值进行合并,得到目标箱体。
5、获取当前目标对象的当前属性数据,当前属性数据为连续型数据。
6、将当前属性数据输入至已构建好的目标对象风险监控模型,目标对象风险监控模型是对目标对象连续型的属性数据进行分箱处理,对分箱处理得到的当前箱体进行更新得到目标离散型数据,根据目标离散型数据构建得到的。
7、通过目标对象风险监控模型输出得到当前目标对象对应的风险监控结果。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图10所示,提供了一种数据处理装置1000,包括:属性数据获取模块1002、属性数据处理模块1004、权重因子获取模块1006和离散型数据生成模块1008,其中:
属性数据获取模块1002,用于获取目标对象的属性数据,属性数据为连续型数据。
属性数据处理模块1004,用于根据目标预设分箱标准对属性数据进行分箱处理,得到多个当前箱体,各个当前箱体包括对应的当前离散型数据。
权重因子获取模块1006,用于获取各个当前箱体对应的第一阈值和第二阈值。
离散型数据生成模块1008,用于根据第一阈值和第二阈值对各个当前箱体中的当前离散型数据进行更新,得到目标对象对应的目标离散型数据,目标离散型数据作为建立目标对象风险监控模型的特征向量。
在一个实施例中,如图11所示,提供了一种目标对象风险监控装置1100,包括:当前属性数目获取模块1102,目标对象风险监控模型输入模块1104和目标对象风险监控模型输出模块1106,其中:
当前属性数目获取模块1102,用于获取当前目标对象的当前属性数据,当前属性数据为连续型数据。
目标对象风险监控模型输入模块1104,用于将当前属性数据输入至已构建好的目标对象风险监控模型,目标对象风险监控模型是对目标对象连续型的属性数据进行分箱处理,对分箱处理得到的当前箱体进行更新得到目标离散型数据,根据目标离散型数据构建得到的。
目标对象风险监控模型输出模块1106,用于通过目标对象风险监控模型输出得到当前目标对象对应的风险监控结果。
关于数据处理装置的具体限定可以参见上文中对于数据处理方法的限定,在此不再赘述。上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图12示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端102或服务器104。如图12所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现数据处理方法或目标对象风险监控方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行数据处理方法或目标对象风险监控方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述数据处理方法或目标对象风险监控方法的步骤。此处数据处理方法或目标对象风险监控方法的步骤可以是上述各个实施例的数据处理方法或目标对象风险监控方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述数据处理方法或目标对象风险监控方法的步骤。此处数据处理方法或目标对象风险监控方法的步骤可以是上述各个实施例的数据处理方法或目标对象风险监控方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种数据处理方法,所述方法包括:
获取目标对象的属性数据,所述属性数据为连续型数据;
根据目标预设分箱标准对所述属性数据进行分箱处理,得到多个当前箱体,各个所述当前箱体包括对应的当前离散型数据;
获取各个所述当前箱体对应的第一阈值和第二阈值;
根据所述第一阈值和所述第二阈值对各个所述当前箱体中的当前离散型数据进行更新,得到所述目标对象对应的目标离散型数据,所述目标离散型数据作为建立目标对象风险监控模型的特征向量。
2.根据权利要求1所述的方法,其特征在于,所述属性数据存在对应的变量标签,所述根据目标预设分箱标准对所述属性数据进行分箱处理,得到多个当前箱体,各个所述当前箱体包括对应的当前离散型数据,包括:
获取预设分箱标准集合,从所述预设分箱标准集合中确定目标预设分箱标准,不同预设分箱标准对应的切分点的确定方式不同;
根据所述目标预设分箱标准从各个所述属性数据中确定对应的第一切分点,根据所述第一切分点对各个所述属性数据进行切分,得到切分后的多个第一箱体,所述第一箱体包括对应的第一连续型数据;
根据各个所述第一箱体中的第一连续型数据计算得到对应的第二切分点,根据所述第二切分点对对应的第一箱体进行切分,得到切分后的多个第二箱体,所述第二箱体包括对应的第二连续型数据;
将所述第二箱体作为所述第一箱体,重新返回根据各个所述第一箱体中的第一连续型数据计算得到对应的第二切分点的步骤,直至满足收敛条件,得到多个当前箱体,所述当前箱体包括对应的当前离散型数据。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标预设分箱标准从各个所述属性数据中确定对应的第一切分点,包括:
获取各个所述属性数据对应的预设统计周期;
根据各个所述属性数据对应的变量标签,统计各个预设统计周期对应的正变量标签数和负变量标签数;
根据各个所述预设周期对应的所述正变量标签数和所述负变量标签数计算得到各个属性数据对应的切分影响因子;
根据各个所述属性数据对应的切分影响因子确定所述第一切分点。
4.根据权利要求3所述的方法,其特征在于,所述根据各个所述预设周期对应的所述正变量标签数和所述负变量标签数计算得到各个属性数据对应的切分影响因子,包括:
获取各个所述预设统计周期对应的总变量标签数;
根据各个所述预设统计周期的正变量标签数和总变量标签数计算得到对应的第一比例;
根据各个所述预设统计周期的负变量标签数和总变量标签数计算得到对应的第二比例;
根据各个所述预设统计周期的第一比例和第二比例计算得到各个属性数据对应的切分影响因子。
5.根据权利要求2所述的方法,其特征在于,所述根据各个所述第一箱体中的第一连续型数据计算得到对应的第二切分点,包括:
统计各个所述第一箱体中第一连续型数据对应的总变量标签数;
获取各个所述第一箱体中第一连续型数据对应的第一正变量标签数,根据所述第一正变量标签数和所述总变量标签数计算得到正变量标签比例;
获取各个所述第一箱体中第一连续型数据对应的第一负变量标签数,根据所述第一负变量标签数和所述总变量标签数计算得到负变量标签比例;
根据各个所述第一箱体的正变量标签比例和负变量标签比例计算得到对应的第二切分点。
6.根据权利要求1所述的方法,其特征在于,所述属性数据存在对应的变量标签,所述变量标签为正变量标签和负变量标签中的一种,所述获取各个所述当前箱体对应的第一阈值和第二阈值,包括:
统计所述当前箱体对应的总正变量标签数和总负变量标签数;
获取第一当前箱体对应的第一当前正变量标签数和第一当前负变量标签数;
根据所述第一当前正变量标签数和所述总正变量标签数计算得到第一当前正变量比例,根据所述第一当前负变量标签数和所述总负变量标签数计算得到第一当前负变量比例;
根据所述第一当前正变量比例和所述第一当前负变量比例计算得到所述第一当前箱体对应的第一阈值和第二阈值;
获取下一个第一当前箱体,将所述下一个第一当前箱体作为所述第一当前箱体,返回获取第一当前箱体对应的第一当前正变量标签数和第一当前负变量标签数的步骤,直至得到各个所述当前箱体对应的第一阈值和第二阈值。
7.根据权利要求1所述的方法,其特征在于,所述根据所述第一阈值和所述第二阈值对各个所述当前箱体中的当前离散型数据进行更新,得到所述目标对象对应的目标离散型数据,包括:
根据相邻当前箱体的第一阈值计算得到权重因子差异值;
当所述权重因子差异值小于预设差异值时,根据相邻当前箱体对应的第二阈值进行合并,得到目标离散型数据。
8.一种目标对象风险监控方法,其特征在于,所述方法包括:
获取当前目标对象的当前属性数据,所述当前属性数据为连续型数据;
将所述当前属性数据输入至已构建好的目标对象风险监控模型,所述目标对象风险监控模型是对目标对象连续型的属性数据进行分箱处理,对分箱处理得到的当前箱体进行更新得到目标离散型数据,根据目标离散型数据构建得到的;
通过所述目标对象风险监控模型输出得到所述当前目标对象对应的风险监控结果。
9.一种数据处理装置,其特征在于,所述装置包括:
属性数据获取模块,用于获取目标对象的属性数据,所述属性数据为连续型数据;
属性数据处理模块,用于根据目标预设分箱标准对所述属性数据进行分箱处理,得到多个当前箱体,各个所述当前箱体包括对应的当前离散型数据;
权重因子获取模块,用于获取各个所述当前箱体对应的第一阈值和第二阈值;
离散型数据生成模块,用于根据所述第一阈值和所述第二阈值对各个所述当前箱体中的当前离散型数据进行更新,得到所述目标对象对应的目标离散型数据,所述目标离散型数据作为建立目标对象风险监控模型的特征向量。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
CN201911173683.XA 2019-11-26 2019-11-26 数据处理方法、装置和目标对象风险监控方法 Pending CN111105144A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911173683.XA CN111105144A (zh) 2019-11-26 2019-11-26 数据处理方法、装置和目标对象风险监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911173683.XA CN111105144A (zh) 2019-11-26 2019-11-26 数据处理方法、装置和目标对象风险监控方法

Publications (1)

Publication Number Publication Date
CN111105144A true CN111105144A (zh) 2020-05-05

Family

ID=70421361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911173683.XA Pending CN111105144A (zh) 2019-11-26 2019-11-26 数据处理方法、装置和目标对象风险监控方法

Country Status (1)

Country Link
CN (1) CN111105144A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819024A (zh) * 2020-07-10 2021-05-18 腾讯科技(深圳)有限公司 模型处理方法、用户数据处理方法及装置、计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334954A (zh) * 2018-01-22 2018-07-27 中国平安人寿保险股份有限公司 逻辑回归模型的构建方法、装置、存储介质及终端
CN109325792A (zh) * 2017-07-31 2019-02-12 北京嘀嘀无限科技发展有限公司 信用评估变量的分箱方法及分箱装置、设备和存储介质
CN109360084A (zh) * 2018-09-27 2019-02-19 平安科技(深圳)有限公司 征信违约风险的评估方法及装置、存储介质、计算机设备
CN109598095A (zh) * 2019-01-07 2019-04-09 平安科技(深圳)有限公司 评分卡模型的建立方法、装置、计算机设备和存储介质
CN110288350A (zh) * 2019-04-24 2019-09-27 武汉众邦银行股份有限公司 用户价值预测方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325792A (zh) * 2017-07-31 2019-02-12 北京嘀嘀无限科技发展有限公司 信用评估变量的分箱方法及分箱装置、设备和存储介质
CN108334954A (zh) * 2018-01-22 2018-07-27 中国平安人寿保险股份有限公司 逻辑回归模型的构建方法、装置、存储介质及终端
CN109360084A (zh) * 2018-09-27 2019-02-19 平安科技(深圳)有限公司 征信违约风险的评估方法及装置、存储介质、计算机设备
CN109598095A (zh) * 2019-01-07 2019-04-09 平安科技(深圳)有限公司 评分卡模型的建立方法、装置、计算机设备和存储介质
CN110288350A (zh) * 2019-04-24 2019-09-27 武汉众邦银行股份有限公司 用户价值预测方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819024A (zh) * 2020-07-10 2021-05-18 腾讯科技(深圳)有限公司 模型处理方法、用户数据处理方法及装置、计算机设备
CN112819024B (zh) * 2020-07-10 2024-02-13 腾讯科技(深圳)有限公司 模型处理方法、用户数据处理方法及装置、计算机设备

Similar Documents

Publication Publication Date Title
CN110598845B (zh) 数据处理方法、装置、计算机设备和存储介质
CN112330685B (zh) 图像分割模型训练、图像分割方法、装置及电子设备
US20190057284A1 (en) Data processing apparatus for accessing shared memory in processing structured data for modifying a parameter vector data structure
CN108510402A (zh) 险种信息推荐方法、装置、计算机设备及存储介质
CN104679818A (zh) 一种视频关键帧提取方法及系统
CN113536139B (zh) 基于兴趣的内容推荐方法、装置、计算机设备及存储介质
US10963799B1 (en) Predictive data analysis of stocks
CN110888911A (zh) 样本数据处理方法、装置、计算机设备及存储介质
CN112560444A (zh) 文本处理方法、装置、计算机设备和存储介质
CN113379301A (zh) 通过决策树模型对用户进行分类的方法、装置和设备
CN112785005A (zh) 多目标任务的辅助决策方法、装置、计算机设备及介质
CN111507285A (zh) 人脸属性识别方法、装置、计算机设备和存储介质
CN110457361B (zh) 特征数据获取方法、装置、计算机设备和存储介质
CN112784102B (zh) 视频检索方法、装置和电子设备
CN111105144A (zh) 数据处理方法、装置和目标对象风险监控方法
CN112990583A (zh) 一种数据预测模型的入模特征确定方法及设备
CN111158732B (zh) 访问数据处理方法、装置、计算机设备及存储介质
CN111598093A (zh) 图片中文字的结构化信息生成方法、装置、设备及介质
CN114266324B (zh) 模型可视化建模方法、装置、计算机设备及存储介质
CN115758271A (zh) 数据处理方法、装置、计算机设备和存储介质
CN115424001A (zh) 场景相似度估计方法、装置、计算机设备和存储介质
CN115222112A (zh) 一种行为预测方法、行为预测模型的生成方法及电子设备
CN111159450A (zh) 图片分类方法、装置、计算机设备和存储介质
CN114331379B (zh) 用于输出待办任务的方法、模型训练方法和装置
CN115456167B (zh) 轻量级模型训练方法、图像处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200505

RJ01 Rejection of invention patent application after publication