CN108460673A - 一种训练数据的处理方法及装置 - Google Patents

一种训练数据的处理方法及装置 Download PDF

Info

Publication number
CN108460673A
CN108460673A CN201710098465.9A CN201710098465A CN108460673A CN 108460673 A CN108460673 A CN 108460673A CN 201710098465 A CN201710098465 A CN 201710098465A CN 108460673 A CN108460673 A CN 108460673A
Authority
CN
China
Prior art keywords
sample
training sample
value
characteristic variable
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710098465.9A
Other languages
English (en)
Inventor
张柯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201710098465.9A priority Critical patent/CN108460673A/zh
Publication of CN108460673A publication Critical patent/CN108460673A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本文公开了一种训练数据的处理方法及装置,用于处理一个或多个原始训练样本,每个原始训练样本包括样本标签以及至少一个特征变量;上述训练数据的处理方法,包括:确定用于对样本标签进行调整的特征变量;针对所确定的每个特征变量,确定特征变量的取值范围,并在取值范围内确定至少两个分位值;针对每个原始训练样本,分别确定原始训练样本中该特征变量的值和每个分位值的比较结果,并根据每个比较结果分别对原始训练样本的样本标签进行调整,得到对应的目标训练样本,以便采用目标训练样本进行模型训练。

Description

一种训练数据的处理方法及装置
技术领域
本发明涉及数据处理领域,尤其涉及一种训练数据的处理方法及装置。
背景技术
目前,通常可以采用训练数据进行模型训练,以得到具有特定功能的数据模型。比如,针对特定业务场景的用户识别或预测需求,可以基于训练样本采用相应的算法进行模型训练,以构建特定业务场景的用户识别或预测模型。然而,如何对已有的训练数据进行处理以优化训练得到的模型(比如,提升对特定用户的识别能力)是需要解决的问题。
以信用贷款业务的催收评分模型为例,催收评分模型是预测早期逾期客户转变成不良客户的概率的计量工具。催收评分模型的建模目标在于区分高不良风险的逾期客户(比如,模型输出结果为1时识别为高不良风险的逾期客户)和低不良风险的逾期客户(比如,模型输出结果为0时识别为低不良风险的逾期客户);但是对于不同严重程度的高不良风险的逾期客户(以下简称为高风险不良客户)没有选择性,也就是说,逾期10块钱的高风险不良客户和逾期10000块的高风险不良客户对催收评分模型来讲不良严重程度是相同的,或者还款率10%的高风险不良客户和还款率90%的高风险不良客户对催收评分模型而言不良严重程度是相同的,即基于现有的训练数据训练得到的模型无法对高风险不良客户进行进一步区分,导致催收评分模型的识别目标和催收业务的实际运营目标并不完全一致,影响催收效率的提升。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本申请实施例提供一种训练数据的处理方法及装置,通过对每个原始训练样本进行处理得到更新样本标签后的多个目标训练样本,使得在进行模型训练时增加对所选择的特征变量的进一步考量,以对模型识别结果进行优化。
第一方面,本申请实施例提供一种训练数据的处理方法,用于处理一个或多个原始训练样本;所述每个原始训练样本包括样本标签以及至少一个特征变量;所述处理方法包括:
确定用于对所述样本标签进行调整的特征变量;
针对所确定的每个特征变量,确定所述特征变量的取值范围,并在所述取值范围内,确定至少两个分位值;
针对每个原始训练样本,分别确定所述原始训练样本中所述特征变量的值和每个分位值的比较结果,并根据每个比较结果分别对所述原始训练样本的样本标签进行调整,得到对应的目标训练样本,以便采用所述目标训练样本进行模型训练。
其中,所述样本标签的值可以为0或1;所述根据每个比较结果分别对所述原始训练样本的样本标签进行调整,得到对应的目标训练样本,可以包括以下之一:
针对每个分位值,若所述原始训练样本中所述特征变量的值大于或等于所述分位值,在所述目标训练样本中保持所述样本标签的值;若所述原始训练样本中所述特征变量的值小于所述分位值,在所述目标训练样本中调整所述样本标签的值为0;
针对每个分位值,若所述原始训练样本中所述特征变量的值小于或等于所述分位值,在所述目标训练样本中保持所述样本标签的值;若所述原始训练样本中所述特征变量的值大于所述分位值,在所述目标训练样本中调整所述样本标签的值为0。
其中,所述针对所确定的每个特征变量,确定所述特征变量的取值范围,并在所述取值范围内,确定至少两个分位值,可以包括:
筛选出符合预定条件的原始训练样本;
针对所确定的每个特征变量,根据筛选出的原始训练样本中所述特征变量的值,确定所述特征变量的取值范围,在所述取值范围内,确定至少两个互不相同的分位值。
其中,所述处理方法可以用于处理一个或多个符合预定条件的原始训练样本。
其中,所述符合预定条件的原始训练样本可以包括:样本标签的值为1的原始训练样本。
第二方面,本申请实施例还提供一种训练数据的处理装置,用于处理一个或多个原始训练样本;所述每个原始训练样本包括样本标签以及至少一个特征变量;所述处理装置包括:
第一处理模块,用于确定用于对所述样本标签进行调整的特征变量;
第二处理模块,用于针对所确定的每个特征变量,确定所述特征变量的取值范围,并在所述取值范围内,确定至少两个分位值;
第三处理模块,用于针对每个原始训练样本,分别确定所述原始训练样本中所述特征变量的值和每个分位值的比较结果,并根据每个比较结果分别对所述原始训练样本的样本标签进行调整,得到对应的目标训练样本,以便采用所述目标训练样本进行模型训练。
其中,所述样本标签的值可以为0或1;所述第三处理模块可以用于通过以下一种方式根据每个比较结果分别对所述原始训练样本的样本标签进行调整,得到对应的目标训练样本:
针对每个分位值,若所述原始训练样本中所述特征变量的值大于或等于所述分位值,在所述目标训练样本中保持所述样本标签的值;若所述原始训练样本中所述特征变量的值小于所述分位值,在所述目标训练样本中调整所述样本标签的值为0;
针对每个分位值,若所述原始训练样本中所述特征变量的值小于或等于所述分位值,在所述目标训练样本中保持所述样本标签的值;若所述原始训练样本中所述特征变量的值大于所述分位值,在所述目标训练样本中调整所述样本标签的值为0。
第三方面,本申请实施例还提供一种训练数据的处理方法,用于处理一个或多个原始借贷训练样本,每个原始借贷训练样本包括样本标签以及至少一个特征变量;所述样本标签用于指示所述原始借贷训练样本是否存在贷款逾期风险;所述处理方法包括:
确定用于对所述样本标签进行调整的特征变量;
针对所确定的每个特征变量,确定所述特征变量的取值范围,并在所述取值范围内,确定至少两个分位值;
针对每个原始借贷训练样本,分别确定所述原始借贷训练样本中所述特征变量的值和每个分位值的比较结果,并根据每个比较结果分别对所述原始借贷训练样本的样本标签进行调整,得到对应的目标借贷训练样本,以便采用所述目标借贷训练样本进行模型训练。
其中,所述用于对所述样本标签进行调整的特征变量可以包括以下至少之一:欠款金额、欠款时长、逾期还款金额、逾期还款时长。
第四方面,本申请实施例还提供一种训练数据的处理装置,用于处理一个或多个原始训练样本;所述每个原始训练样本包括样本标签以及至少一个特征变量;所述处理装置包括:处理器和存储器;其中,所述存储器用于存储用于数据处理的程序;该用于数据处理的程序在被所述处理器读取执行时,执行以下操作:
确定用于对所述样本标签进行调整的特征变量;针对所确定的每个特征变量,确定所述特征变量的取值范围,并在所述取值范围内,确定至少两个分位值;针对每个原始训练样本,分别确定所述原始训练样本中所述特征变量的值和每个分位值的比较结果,并根据每个比较结果分别对所述原始训练样本的样本标签进行调整,得到对应的目标训练样本,以便采用所述目标训练样本进行模型训练。
本申请实施例还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现上述第一方面或第三方面的训练数据的处理方法。
在本申请实施例中,确定用于对样本标签进行调整的特征变量;针对所确定的每个特征变量,确定特征变量的取值范围,并在取值范围内,确定至少两个分位值;针对每个原始训练样本,分别确定原始训练样本中用于对样本标签进行调整的特征变量的值和每个分位值的比较结果,并根据每个比较结果分别对原始训练样本的样本标签进行调整,得到对应的目标训练样本,以便采用目标训练样本进行模型训练。如此,针对每个原始训练样本可以得到至少两个目标训练样本,且每个目标训练样本的样本标签是根据原始训练样本中用于对样本标签进行调整的特征变量的值与分位值的比较结果确定的,使得在进行模型训练时增加了对特征变量的进一步考量,以对模型识别结果进行优化。在实际应用中,可以提高数据模型的建模目标与业务运营目标的一致性,从而提高业务效率。
当然,实施本申请的任一产品不一定需要同时达到以上所有优点。
附图说明
图1为本申请实施例的一种训练数据的处理方法的流程图;
图2为本申请实施例中一个原始训练样本得到对应的目标训练样本的举例示意图;
图3为本申请实施例中特征变量的取值范围内的分位值的一种示意图;
图4为本申请实施例中特征变量的取值范围内的分位值的另一种示意图;
图5为本申请实施例的一种训练数据的处理装置的示意图;
图6为本申请实施例的另一种训练数据的处理方法的流程图。
具体实施方式
以下结合附图对本申请实施例进行详细说明,应当理解,以下所说明的实施例仅用于说明和解释本申请,并不用于限定本申请。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
需要说明的是,如果不冲突,本申请实施例以及实施例中的各个特征可以相互结合,均在本申请的保护范围之内。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
一些实施方式中,执行训练数据的处理方法的计算设备可包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存(memory)。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。内存可能包括模块1,模块2,……,模块N(N为大于2的整数)。
计算机可读介质包括永久性和非永久性、可移动和非可移动存储介质。存储介质可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM),快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本申请实施例提供一种训练数据的处理方法,用于处理一个或多个原始训练样本;其中,每个原始训练样本包括样本标签以及至少一个特征变量。经过本实施例的训练数据的处理方法得到的目标训练样本用于进行模型训练,例如,用于训练识别预定业务场景下的预定对象的数据模型。比如,在信用贷款业务场景下,本实施例的处理方法可以用于处理原始借贷训练样本,并基于处理后的目标借贷训练样本进行模型训练,得到用于预测信用贷款业务中的高风险不良客户的数据模型;又比如,采用本实施例的方法根据电商购物平台的客户数据训练得到的数据模型,可以用于识别电商购物平台中的超级VIP客户(比如,消费金额较大的高端客户)。然而,本申请对于应用本实施例的业务场景并不限定。在实际应用中,可以根据实际业务需求,确定合适的训练样本按照本实施例的处理方法进行数据处理。
其中,原始训练样本的样本标签的值可以为0或1,用于指示原始训练样本是否属于预定对象(比如,信用贷款业务中的不良客户)。比如,样本标签的值为0,则原始训练样本不属于预定对象,样本标签的值为1,则原始训练样本属于预定对象。
其中,每个特征变量用于描述原始训练样本在某一方面的信息。比如,在信用贷款业务中,原始借贷训练样本的特征变量可以包括:欠款金额、欠款时长、逾期还款金额、逾期还款时长等。
本实施例提供的训练数据的处理方法可以应用于服务端。服务端可以指服务端计算设备(例如,服务器)或者服务端计算设备上运行的虚拟机。比如,服务端可以从存储预定业务场景信息的数据库,获取多个原始训练样本,再进行后续处理得到目标训练样本,进行模型训练,以得到数据模型。然而,本申请对此并不限定。在其他实施方式中,本实施例提供的训练数据的处理方法也可以应用于客户端。其中,客户端可以指客户端计算设备或者客户端计算设备上的应用程序(APP)。
如图1所示,本申请实施例的训练数据的处理方法包括以下步骤:
步骤101:确定用于对样本标签进行调整的特征变量;
步骤102:针对所确定的每个特征变量,确定特征变量的取值范围,并在取值范围内,确定至少两个分位值;
步骤103:针对每个原始训练样本,分别确定原始训练样本中特征变量的值和每个分位值的比较结果,并根据每个比较结果分别对原始训练样本的样本标签进行调整,得到对应的目标训练样本,以便采用目标训练样本进行模型训练。
其中,在步骤101中所确定的特征变量可以直接指定,或者,也可以通过预设规则从原始训练样本包括的多个特征变量中进行选择。其中,预设规则可以根据实际业务场景的运营目标确定,或者,模型训练方向确定。以信用贷款的催收业务为例,催收业务的运营目标为预测不良客户,召回不良金额,此时,预设规则可以设置为:欠款金额越多的不良客户,不良程度越高。如此,在步骤101所确定的特征变量可以确定为欠款金额。其中,根据业务运营的实际目标,指定用于对样本标签进行调整的特征变量,或者提供确定用于对样本标签进行调整的特征变量的选择依据,可以使得建模目标贴近业务实际运营目标,从而得到能够提高业务效率的数据模型。
其中,在步骤101所确定的特征变量可以为一个或多个,本申请对此并不限定。需要说明的是,在所确定的特征变量为多个时,针对每个确定的特征变量进行单独处理,即,针对步骤101所确定的每个特征变量均进行步骤102和步骤103的处理;其中,在根据步骤101所确定的一个特征变量的取值范围内的分位值进行样本标签调整时,步骤101所确定的其他特征变量的处理方式和普通的特征变量(即原始训练样本中未被指定或选择用于对样本标签进行调整的特征变量)一样。
在本实施例中,处理一个原始训练样本可以对应得到多个目标训练样本,每个目标训练样本同样包括样本标签以及特征变量。每个原始训练样本与其对应的目标训练样本的样本标签可能相同或不同,每个原始训练样本与其对应的目标训练样本的特征变量相同。当步骤101所确定的用于对样本标签进行调整的特征变量为一个时,针对每个原始训练样本处理得到的目标训练样本的数目等于该特征变量的分位值的数目。
在本实施例中,在得到目标训练样本之后,可以利用逻辑回归算法进行模型训练,然而,本申请对此并不限定。在其他实现方式中,可以采用其他机器学习算法进行模型训练。
在本实施例中,根据一个原始训练样本可以得到多个目标训练样本,通过本实施例的处理增加了训练样本的数目,而且目标训练样本的样本标签是根据用于对样本标签进行调整的特征变量的值确定的,从而在模型训练中增加了用于对样本标签进行调整的特征变量的权重。比如,将测试样本输入由目标训练样本训练得到的数据模型之后,输出结果可以为概率值,用于指示测试样本属于预定对象(比如,高风险不良客户)的概率。以预定对象为高风险不良客户为例,在数据模型考量了不良客户的严重程度,因此,输出的概率值越大,可以说明不良客户的不良严重程度越高。在实际应用中,可以从预测出的不良客户中,根据概率值由高至低的排序,筛选出不良严重程度较高的高风险不良客户。
一些实现方式中,本实施例的训练数据的处理方法可以用于仅处理符合预定条件的原始训练样本,比如,样本标签的值为1的原始训练样本。
一些实现方式中,步骤102可以包括:
筛选出符合预定条件的原始训练样本;
针对所确定的每个特征变量,根据筛选出的原始训练样本中该特征变量的值,确定该特征变量的值的切分范围,在该取值范围内,确定至少两个互不相同的分位值。
其中,符合预定条件的原始训练样本可以包括:样本标签的值为1的原始训练样本,即属于预定对象的原始训练样本。
在本实现方式中,先筛选出属于预定对象的原始训练样本,根据这些原始训练样本中该特征变量的值,确定最大值和最小值,在小于或等于最大值且大于或等于最小值的范围内,确定至少两个值作为分位值。
一些实现方式中,步骤103可以包括以下之一:
针对每个分位值,若原始训练样本中用于对样本标签进行调整的特征变量的值大于或等于该分位值,在目标训练样本中保持该样本标签的值;若原始训练样本中该特征变量的值小于该分位值,在目标训练样本中调整该样本标签的值为0;
针对每个分位值,若原始训练样本中用于对样本标签进行调整的特征变量的值小于或等于该分位值,在目标训练样本中保持该样本标签的值;若原始训练样本中该特征变量的值大于该分位值,在目标训练样本中调整该样本标签的值为0。
其中,可以根据实际应用,确定如何根据分位值与特征变量的值的比较结果,调整样本标签。
其中,在比较结果采用0或1表示,且样本标签的值为0或1时,可以通过两者的按位与操作,确定原始训练样本对应的目标训练样本的样本标签的值(0或1)。然而,本申请对此并不限定。在其他实现方式中,当比较结果采用条件判断结果“True”或者“False”表示,原始训练样本的样本标签也采用“True”或者“False”表示时,可以通过条件与操作,确定原始训练样本对应的目标训练样本的样本标签(“True”或者“False”);比如,当原始训练样本中特征变量的值大于或等于分位值时,可以确定比较结果为“True”,反之,为“False”。
下面参照图2,通过一个原始训练样本举例说明本实施例的处理流程。其中,该原始训练样本的样本标签的值可以为1(比如,原始训练样本为不良客户),选择特征变量P用于对样本标签进行调整,其中,特征变量P的值为D。在图2中,省略绘示了该原始训练样本包括的其他特征变量及对应的值。需要说明的是,这个原始训练样本及其对应的每个目标训练样本中包括的其他特征变量及对应的值均相同。换言之,可以先确定原始训练样本的多个副本,针对每个副本,按照特征变量P的值与一个分位值的比较结果,调整该副本中样本标签的值;经过上述处理之后的一个副本即为这个原始训练样本对应的一个目标训练样本。
其中,根据多个原始训练样本中特征变量P的值,可以确定特征变量P的最大值为M,最小值为m,因此,在M至m之间选择一个或多个值(比如,c1、c2……cn)作为分位值。
以分位值c1为例,在原始训练样本的样本标签的值为1时,若原始训练样本中特征变量P的值D大于或等于c1,则对应的目标训练样本的样本标签的值为1;若原始训练样本中特征变量P的值D小于c1,则对应的目标训练样本的样本标签的值为0。在原始训练样本的样本标签的值为0时,无论特征变量P的值与c1的比较结果如何,对应的目标训练样本的样本标签的值均为0。关于其他分位值的说明相同,故于此不再赘述。
在图2中,以原始训练样本中特征变量P的值D大于c2且小于c3为例,原始训练样本在分位值c1对应的目标训练样本的样本标签的值为1,在分位值c2对应的目标训练样本的样本标签的值为1,在分位值c3至cn分别对应的目标训练样本的样本标签的值均为0。
需要说明的是,在其他实现方式中,以分位值c1为例,在原始训练样本的样本标签的值为1时,若原始训练样本中特征变量P的值D大于或等于c1,则对应的目标训练样本的样本标签的值为0;若原始训练样本中特征变量P的值D小于c1,则对应的目标训练样本的样本标签的值为1。在原始训练样本的样本标签的值为0时,无论特征变量P的值与c1的比较结果如何,对应的目标训练样本的样本标签的值均为0。关于其他分位值的说明相同,故于此不再赘述。
下面以信用贷款的催收业务场景为例,对本实施例的训练数据的处理方法进行举例说明。
其中,预定对象为催收业务场景下的不良客户,且不良客户的欠款金额越大,其不良严重程度越高。据此,用于对样本标签进行调整的特征变量确定为欠款金额。
在原始训练样本中,样本标签的值可以为0或1;样本标签的值为1,代表原始训练样本属于不良客户,样本标签的值为0,代表原始训练样本不属于不良客户。
如表1所示,以原始训练样本X0、X1以及X2为例,其中,原始训练样本X1和X2被定义为不良客户。
表1
Sample Old_Label 欠款金额
X0 0 0
X1 1 A(A大于0)
X2 1 B(B大于0)
…… …… ……
根据表1,对所有样本标签(Old_Label)的值为1的原始训练样本进行统计,确定样本标签的值为1的原始训练样本中的欠款金额的范围;此时,由于根据样本标签对原始训练样本进行了筛选,因此,确定的欠款金额的范围是针对不良客户的。
其中,经过统计可以得到样本标签的值为1的原始训练样本中的欠款金额的最小值(Min)和最大值(Max);在最小值和最大值确定的范围内可以确定两个分位值(Cut0和Cut1),如图3所示。比如,分位值Cut0可以为最小值Min,分位值Cut1可以为最小值与最大值之间的中间值。
其中,针对分位值Cut0,样本标签的值为0的原始训练样本对应的目标训练样本的样本标签的值仍旧为0;样本标签的值为1的原始训练样本对应的目标训练样本的样本标签的值需要重新定义,如果欠款金额大于或等于Cut0,则对应的目标训练样本的样本标签的值为1,否则为0。其中,样本标签的值为1的原始训练样本的欠款金额均大于或等于最小值(Min),因此,原始训练样本对应的目标训练样本的样本标签(New_Label)的值和原样本标签(Old_Label)的值相同。
其中,针对分位值Cut1,样本标签的值为0的原始训练样本对应的目标训练样本的样本标签的值仍为0;样本标签的值为1的原始训练样本的对应的目标训练样本的样本标签的值需要重新定义,如果欠款金额大于或等于Cut1,则对应的目标训练样本的样本标签的值为1,否则对应的目标训练样本的样本标签的值为0。以表1中的A小于Cut1且大于Cut0,B大于Cut1为例。对表1的原始训练样本(X0、X1及X2)按照Cut0和Cut1编码完成后的目标训练样本可以如表2所示。其中,表2中的第一组X0至X2的样本标签(New_Label)是根据欠款金额与Cut0的比较结果以及原始训练样本的样本标签(Old_Label)确定的,第二组X0至X2的样本标签(New_Label)是根据欠款金额与Cut1的比较结果以及原始训练样本的样本标签(Old_Label)确定的。
表2
参照表2可知,样本X0对应的两个目标训练样本的样本标签的值仍都为0。样本X1在Cut0对应的目标训练样本的样本标签的值为1,但在Cut1对应的目标训练样本的样本标签的值为0;样本X2对应的两个目标训练样本的样本标签的值都为1,这正好跟不良客户的不良严重程度定义一致。
在本实例中,样本X0和对应的目标训练样本是一样的,即包括的特征变量和样本标签均一致;样本X1和对应的一个目标训练样本是一样的,与另一个目标训练样本的样本标签不同;样本X2和对应的两个目标训练样本是一样的。
需要说明的是,针对样本标签(Old_Label)的值为0的原始训练样本,在得到多个相同的目标训练样本时,可以仅保留一个目标训练样本。
在其他实现方式中,可以选择更多的分位值。比如,经过统计可以得到样本标签的值为1的原始训练样本中的欠款金额的最小值(Min)和最大值(Max);在最小值和最大值确定的范围内可以确定10个分位值,如图4所示,比如可以选择从Min、P10、P20一直到P90共10个分位值,此时,最终得到的目标训练样本可以如表3所示。
以分位值Min为例,针对每个原始训练样本,根据D>=Min&&Old_Label==1确定对应的目标训练样本的样本标签;若D大于或等于Min且Old_Label=1,则对应的目标训练样本的样本标签为1,否则对应的目标训练样本的样本标签为0;其中,D为对应的原始训练样本中的欠款金额,Old_Label为原始训练样本的样本标签。同理,在其他分位值,针对每个原始训练样本进行类似的处理得到对应的目标训练样本。在本实例中,Old_Label=1表示原始训练样本的样本标签指示原始训练样本为不良客户。
表3
后续,可以使用表3指示的训练数据(包括各个特征变量以及样本标签)进行模型训练,以得到数据模型;通过数据模型对测试样本进行测试,可以得到测试样本属于不良客户的概率值。
相较于采用原始训练样本训练得到的催收评分模型,本实施例得到的催收评分模型在维持不良客户抓取能力的基础上(KS/Recall(召回率)/Precision(精确率)指标接近),能有效提升不良金额的召回率。即,本实施例获取的数据模型可以抓到逾期性质更严重(此处为欠款金额大)的不良客户。由于小微企业信贷的催收业务往往量大而催收资源紧缺,因此,本实施例的方案可以提升催收效率,从而避免损失。
需要注意的是,在本实施例中,通过增加训练样本的数目,反映所选择的特征变量对预定对象的程度影响,从而在对预定对象的识别结果中反映严重程度。
本申请实施例还提供一种训练数据的处理装置,用于处理一个或多个原始训练样本;每个原始训练样本包括样本标签以及至少一个特征变量;
如图5所示,本实施例提供的训练数据的处理装置包括:
第一处理模块501,用于确定用于对样本标签进行调整的特征变量;
第二处理模块502,用于针对所确定的每个特征变量,确定该特征变量的取值范围,并在该取值范围内,确定至少两个分位值;
第三处理模块503,用于针对每个原始训练样本,分别确定该原始训练样本中该特征变量的值和每个分位值的比较结果,并根据每个比较结果分别对该原始训练样本的样本标签进行调整,得到对应的目标训练样本,以便采用目标训练样本进行模型训练。
一些实现方式中,样本标签的值可以为0或1;
第三处理模块503可以用于通过以下一种方式根据每个比较结果分别对原始训练样本的样本标签进行调整,得到对应的目标训练样本:
针对每个分位值,若原始训练样本中特征变量的值大于或等于分位值,在目标训练样本中保持样本标签的值;若原始训练样本中特征变量的值小于分位值,在目标训练样本中调整样本标签的值为0;
针对每个分位值,若原始训练样本中特征变量的值小于或等于分位值,在目标训练样本中保持样本标签的值;若原始训练样本中特征变量的值大于分位值,在目标训练样本中调整样本标签的值为0。
一些实现方式中,第二处理模块502可以用于通过以下方式针对所确定的每个特征变量,确定特征变量的取值范围,并在取值范围内,确定至少两个分位值:
筛选出符合预定条件的原始训练样本;
针对所确定的每个特征变量,根据筛选出的原始训练样本中该特征变量的值,确定该特征变量的取值范围,在该取值范围内,确定至少两个互不相同的分位值。
一些实现方式中,本实施例的处理装置可以用于处理一个或多个符合预定条件的原始训练样本。
其中,符合预定条件的原始训练样本可以包括:样本标签的值为1的原始训练样本。
关于本实施例提供的训练数据的处理装置的详细操作过程可以参照图1对应的方法实施例的描述,故于此不再赘述。
本申请实施例还提供一种训练数据的处理装置,用于处理一个或多个原始训练样本;每个原始训练样本包括样本标签以及至少一个特征变量;
本实施例的处理装置包括:存储器和处理器;其中,存储器用于存储用于数据处理的程序;该用于数据处理的程序在被处理器读取执行时,执行以下操作:
确定用于对样本标签进行调整的特征变量;针对所确定的每个特征变量,确定该特征变量的取值范围,并在该取值范围内,确定至少两个分位值;针对每个原始训练样本,分别确定该原始训练样本中该特征变量的值和每个分位值的比较结果,并根据每个比较结果分别对该原始训练样本的样本标签进行调整,得到对应的目标训练样本,以便采用目标训练样本进行模型训练。
本实施例中,用于数据处理的程序在被处理器读取执行时,所执行的操作对应于图1所示的方法实施例中的步骤101至步骤103;该程序所执行的操作的其它细节可参见图1对应的方法实施例,故于此不再赘述。
本申请实施例还提供一种训练数据的处理方法,用于处理一个或多个原始借贷训练样本,每个原始借贷训练样本包括样本标签以及至少一个特征变量;样本标签用于指示原始借贷训练样本是否存在贷款逾期风险。
如图6所示,本实施例提供的训练数据的处理方法,包括:
步骤601:确定用于对样本标签进行调整的特征变量;
步骤602:针对所确定的每个特征变量,确定该特征变量的取值范围,并在取值范围内,确定至少两个分位值;
步骤603:针对每个原始借贷训练样本,分别确定该原始借贷训练样本中该特征变量的值和每个分位值的比较结果,并根据每个比较结果分别对原始借贷训练样本的样本标签进行调整,得到对应的目标借贷训练样本,以便采用目标借贷训练样本进行模型训练。
一些实现方式中,步骤601中所确定的用于对样本标签进行调整的特征变量可以包括以下至少之一:欠款金额、欠款时长、逾期还款金额、逾期还款时长。
在步骤601中所确定的用于对样本标签进行调整的特征变量为欠款金额时,本实施例可以参照图3或图4对应的示例说明,故于此不再赘述。
关于本实施例的相关说明可以参照上述信用贷款的催收业务场景的描述,故于此不再赘述。
此外,本申请实施例还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现图1或图6所示实施例中的训练数据的处理方法。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本申请不限制于任何特定形式的硬件和软件的结合。
以上显示和描述了本申请的基本原理和主要特征和本申请的优点。本申请不受上述实施例的限制,上述实施例和说明书中描述的只是说明本申请的原理,在不脱离本申请精神和范围的前提下,本申请还会有各种变化和改进,这些变化和改进都落入要求保护的本申请范围内。

Claims (10)

1.一种训练数据的处理方法,其特征在于,用于处理一个或多个原始训练样本;所述每个原始训练样本包括样本标签以及至少一个特征变量;
所述处理方法包括:
确定用于对所述样本标签进行调整的特征变量;
针对所确定的每个特征变量,确定所述特征变量的取值范围,并在所述取值范围内,确定至少两个分位值;
针对每个原始训练样本,分别确定所述原始训练样本中所述特征变量的值和每个分位值的比较结果,并根据每个比较结果分别对所述原始训练样本的样本标签进行调整,得到对应的目标训练样本,以便采用所述目标训练样本进行模型训练。
2.根据权利要求1所述的处理方法,其特征在于,所述样本标签的值为0或1;
所述根据每个比较结果分别对所述原始训练样本的样本标签进行调整,得到对应的目标训练样本,包括以下之一:
针对每个分位值,若所述原始训练样本中所述特征变量的值大于或等于所述分位值,在所述目标训练样本中保持所述样本标签的值;若所述原始训练样本中所述特征变量的值小于所述分位值,在所述目标训练样本中调整所述样本标签的值为0;
针对每个分位值,若所述原始训练样本中所述特征变量的值小于或等于所述分位值,在所述目标训练样本中保持所述样本标签的值;若所述原始训练样本中所述特征变量的值大于所述分位值,在所述目标训练样本中调整所述样本标签的值为0。
3.根据权利要求1所述的处理方法,其特征在于,所述针对所确定的每个特征变量,确定所述特征变量的取值范围,并在所述取值范围内,确定至少两个分位值,包括:
筛选出符合预定条件的原始训练样本;
针对所确定的每个特征变量,根据筛选出的原始训练样本中所述特征变量的值,确定所述特征变量的取值范围,在所述取值范围内,确定至少两个互不相同的分位值。
4.根据权利要求1所述的处理方法,其特征在于,所述处理方法用于处理一个或多个符合预定条件的原始训练样本。
5.根据权利要求3或4所述的处理方法,其特征在于,所述符合预定条件的原始训练样本包括:样本标签的值为1的原始训练样本。
6.一种训练数据的处理装置,其特征在于,用于处理一个或多个原始训练样本;所述每个原始训练样本包括样本标签以及至少一个特征变量;
所述处理装置包括:
第一处理模块,用于确定用于对所述样本标签进行调整的特征变量;
第二处理模块,用于针对所确定的每个特征变量,确定所述特征变量的取值范围,并在所述取值范围内,确定至少两个分位值;
第三处理模块,用于针对每个原始训练样本,分别确定所述原始训练样本中所述特征变量的值和每个分位值的比较结果,并根据每个比较结果分别对所述原始训练样本的样本标签进行调整,得到对应的目标训练样本,以便采用所述目标训练样本进行模型训练。
7.根据权利要求6所述的处理装置,其特征在于,所述样本标签的值为0或1;
所述第三处理模块用于通过以下一种方式根据每个比较结果分别对所述原始训练样本的样本标签进行调整,得到对应的目标训练样本:
针对每个分位值,若所述原始训练样本中所述特征变量的值大于或等于所述分位值,在所述目标训练样本中保持所述样本标签的值;若所述原始训练样本中所述特征变量的值小于所述分位值,在所述目标训练样本中调整所述样本标签的值为0;
针对每个分位值,若所述原始训练样本中所述特征变量的值小于或等于所述分位值,在所述目标训练样本中保持所述样本标签的值;若所述原始训练样本中所述特征变量的值大于所述分位值,在所述目标训练样本中调整所述样本标签的值为0。
8.一种训练数据的处理方法,其特征在于,用于处理一个或多个原始借贷训练样本,每个原始借贷训练样本包括样本标签以及至少一个特征变量;所述样本标签用于指示所述原始借贷训练样本是否存在贷款逾期风险;
所述处理方法包括:
确定用于对所述样本标签进行调整的特征变量;
针对所确定的每个特征变量,确定所述特征变量的取值范围,并在所述取值范围内,确定至少两个分位值;
针对每个原始借贷训练样本,分别确定所述原始借贷训练样本中所述特征变量的值和每个分位值的比较结果,并根据每个比较结果分别对所述原始借贷训练样本的样本标签进行调整,得到对应的目标借贷训练样本,以便采用所述目标借贷训练样本进行模型训练。
9.根据权利要求8所述的处理方法,其特征在于,所述用于对所述样本标签进行调整的特征变量包括以下至少之一:欠款金额、欠款时长、逾期还款金额、逾期还款时长。
10.一种训练数据的处理装置,其特征在于,用于处理一个或多个原始训练样本;所述每个原始训练样本包括样本标签以及至少一个特征变量;
所述处理装置包括:处理器和存储器;其中,所述存储器用于存储用于数据处理的程序;该用于数据处理的程序在被所述处理器读取执行时,执行以下操作:
确定用于对所述样本标签进行调整的特征变量;
针对所确定的每个特征变量,确定所述特征变量的取值范围,并在所述取值范围内,确定至少两个分位值;
针对每个原始训练样本,分别确定所述原始训练样本中所述特征变量的值和每个分位值的比较结果,并根据每个比较结果分别对所述原始训练样本的样本标签进行调整,得到对应的目标训练样本,以便采用所述目标训练样本进行模型训练。
CN201710098465.9A 2017-02-22 2017-02-22 一种训练数据的处理方法及装置 Pending CN108460673A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710098465.9A CN108460673A (zh) 2017-02-22 2017-02-22 一种训练数据的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710098465.9A CN108460673A (zh) 2017-02-22 2017-02-22 一种训练数据的处理方法及装置

Publications (1)

Publication Number Publication Date
CN108460673A true CN108460673A (zh) 2018-08-28

Family

ID=63220034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710098465.9A Pending CN108460673A (zh) 2017-02-22 2017-02-22 一种训练数据的处理方法及装置

Country Status (1)

Country Link
CN (1) CN108460673A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147938A (zh) * 2019-04-23 2019-08-20 北京淇瑀信息科技有限公司 一种训练样本生成方法、装置、系统和记录介质
CN110689070A (zh) * 2019-09-25 2020-01-14 第四范式(北京)技术有限公司 一种业务预测模型的训练方法及装置
CN115034317A (zh) * 2022-06-17 2022-09-09 中国平安人寿保险股份有限公司 保单识别模型的训练方法和装置、保单识别方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147938A (zh) * 2019-04-23 2019-08-20 北京淇瑀信息科技有限公司 一种训练样本生成方法、装置、系统和记录介质
CN110689070A (zh) * 2019-09-25 2020-01-14 第四范式(北京)技术有限公司 一种业务预测模型的训练方法及装置
CN110689070B (zh) * 2019-09-25 2023-04-07 第四范式(北京)技术有限公司 一种业务预测模型的训练方法及装置
CN115034317A (zh) * 2022-06-17 2022-09-09 中国平安人寿保险股份有限公司 保单识别模型的训练方法和装置、保单识别方法和装置

Similar Documents

Publication Publication Date Title
CN107783734A (zh) 一种基于超融合存储系统的资源分配方法、装置及终端
CN108460681A (zh) 一种风险管控方法及装置
CN110097450A (zh) 车贷风险评估方法、装置、设备和存储介质
CN112541817A (zh) 一种个人消费贷款潜在客户的营销响应处理方法及系统
CN111882426B (zh) 业务风险分类器训练方法、装置、设备及存储介质
CN110009474A (zh) 一种信用风险评估方法、装置和电子设备
CN108460673A (zh) 一种训练数据的处理方法及装置
CN111222994A (zh) 客户风险评估方法、装置、介质和电子设备
CN111882140A (zh) 风险评测方法、模型训练方法、装置、设备及存储介质
CN111260368A (zh) 一种账户交易风险判断方法、装置及电子设备
CN109636181A (zh) 一种用户信用分计算方法及系统
CN112052385A (zh) 一种投融资项目推荐方法、装置、电子设备和可读存储介质
CN108038692A (zh) 角色识别方法、装置及服务器
CN109218211A (zh) 数据流的控制策略中阈值的调整方法、装置和设备
CN108681969A (zh) 终端、投资项目的确定方法及其装置和可读存储介质
CN116935428A (zh) 票据识别方法、装置和处理器及电子设备
CN113506164B (zh) 一种风控决策方法、装置、电子设备及机器可读存储介质
CN114841797A (zh) 基于Drools规则引擎确定业务处理规则的方法及装置
CN114266653A (zh) 集成学习的客户贷款风险预估方法
CN108090088A (zh) 特征提取方法及装置
CN113610629A (zh) 一种从大规模特征集中筛选客户数据特征的方法及装置
CN113610175A (zh) 一种业务策略生成方法、装置及计算机可读存储介质
CN110442501A (zh) 模拟业务异常的方法、装置及电子设备
CN116012123B (zh) 一种基于Rete算法的风控规则引擎方法及系统
CN110147938A (zh) 一种训练样本生成方法、装置、系统和记录介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180828