CN112927071A - 一种贷后行为特征加工的方法与装置 - Google Patents
一种贷后行为特征加工的方法与装置 Download PDFInfo
- Publication number
- CN112927071A CN112927071A CN202110429088.9A CN202110429088A CN112927071A CN 112927071 A CN112927071 A CN 112927071A CN 202110429088 A CN202110429088 A CN 202110429088A CN 112927071 A CN112927071 A CN 112927071A
- Authority
- CN
- China
- Prior art keywords
- data
- post
- processing
- loan
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 68
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000004140 cleaning Methods 0.000 claims abstract description 33
- 238000009795 derivation Methods 0.000 claims abstract description 14
- 230000002159 abnormal effect Effects 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000007619 statistical method Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000003542 behavioural effect Effects 0.000 claims description 5
- 238000012512 characterization method Methods 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 230000008520 organization Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 238000011161 development Methods 0.000 claims description 3
- 238000011835 investigation Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 2
- 238000013480 data collection Methods 0.000 claims 2
- 230000007812 deficiency Effects 0.000 claims 2
- 230000014509 gene expression Effects 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 4
- 230000006399 behavior Effects 0.000 description 42
- 238000010586 diagram Methods 0.000 description 10
- 238000003860 storage Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 238000010187 selection method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种贷后行为特征加工的方法与装置,所述方法包括以下步骤:数据采集与清洗,获取整个系统中所需的数据对象,进行数据清洗,所述数据清洗为特征工程处理;贷后行为特征衍生,对清洗后的用户贷后表现数据依次进行特征分类、特征分组汇总和特征分组后统计并衍生出可解释的汇总字段;结果输出,将数据采集与清洗步骤和贷后行为特征衍生步骤中获取到的所有特征进行汇总,通过用户号码进行关联合并,完成后作为结果输出。所述方法和装置能够深入挖掘隐藏信息,提高了特征利用率和模型表现效果。
Description
技术领域
本发明涉及计算机与通信领域,具体涉及一种贷后行为特征加工的方法与装置。
背景技术
贷款人的还款行为可以通过违约情况进行分析,违约是指借款人到了应还款日没有按约定足额归还贷款本息的行为,从而导致借款人账户状态变为逾期。借款人在还清当期逾期金额后,账户状态转为正常,再次违约后,账户状态又会变成逾期,因此违约率是动态变化变化的过程。已经申请通过的贷款人,完成一笔或多笔订单之后,根据已完成订单中的还款行为表现,进行提炼特征,可用于预测逾期概率,进行贷中风险侦测。也可以用在额度管理、流失预警、产品营销等方面。数据和特征决定了机器学习模型的上限,特征的选取与特征工程的处理在整个建模流程中起着至关重要的作用。
能够预测贷款人是否能够按期还款行为,对不同类型的产品的还款行为进行预测,能够更好地阈值用户的金融服务需求,针对金融资源进行更加合理的分配。目前的技术主要是从建模角度出发,侧重于建模的方法,而很少介绍贷款行为特征选择与加工的方法。本装置从用户贷款后的多个维度考虑,获取并加工特征,输出后的结果可以直接用于模型。为额度管理、流失预警、产品营销等场景提供数据基础。
发明内容
针对现有技术存在的问题,本发明的目的在于解决现有技术中针对贷款行为特征选择与加工方面隐藏信息挖掘能力低和特征利用效率差、模型表现效果不佳的技术问题,提供一种贷后行为特征加工的方法与装置,能够从用户贷款后的多个维度考虑,获取并加工特征,输出后的结果可以直接用于模型,提高特征利用率和模型表现效果。
本发明提供一种贷后行为特征加工的方法,所述方法包括以下步骤:
数据采集与清洗,获取整个系统中所需的数据对象,进行数据清洗,所述数据清洗为特征工程处理;
贷后行为特征衍生,对清洗后的用户贷后表现数据依次进行特征分类、特征分组汇总和特征分组后统计并衍生出可解释的汇总字段;
结果输出,将数据采集与清洗步骤和贷后行为特征衍生步骤中获取到的所有特征进行汇总,通过用户号码进行关联合并,完成后作为结果输出。
进一步,数据采集与清洗步骤中,获取整个系统中所需的数据对象,包含用户的贷后行为类、申请贷款类、app操作行为类、第三方数据类和/或内部数据类;其中贷后行为类特征包括:订单基本信息、还款行为、逾期行为和/或催收行为;申请贷款类包含用户基本情况、申请记录和/或授信信息;app操作类为app中埋点数据;第三方数据包括征信、多头、从第三方机构获取的数据。内部数据类包括机构内部保存的信用卡、理财储蓄、商城消费、生活缴费、和/或关联网络特征。
进一步,数据采集与清洗步骤中,数据清洗包括无量纲化处理、缺失值处理、异常值处理和离散数据处理。
进一步,所述无量纲化处理是使不同规格的数据转换到同一规格;
所述缺失值处理,对于缺失比例在50%以下的,通过平均数、中位数或众数进行填充,缺失比例在50%以上90%以下的,使用负数填充;对于缺失比例在90%以上且没有业务含义的直接删除该字段,有业务含义的加入业务规则中;
所述异常值处理,利用箱线图法,首先计算出可接受范围内的数值,在可接受范围之外的数值认为是异常值;对异常值的样本进行删除,或者进行异常值替换;
所述离散数据处理,是将类别型数据转化为可以放入模型进行计算的数值;将字符串类型的特征进行one-hot-encoding处理。
进一步,所述异常值处理步骤中,采用适用于连续数据的无监督异常检测方法的孤立森林算法代替箱线图法。
进一步,在贷后行为特征衍生步骤中,包含以下三个步骤;其中,
第一步,特征分类,将特征分为四类,第一类为次数、期数、或天数特征;第二类是与金额特征;第三类是贷款时间特征,包括用户每笔借款的借款时间、放款时间、分期订单的每期还款时间、逾期时间或逾期还款时间;第四类是时间窗口统计特征,包括设定时间内借款情况和逾期情况。
第二步,特征分组汇总,对于一个用户名下的N笔贷款订单,对各个订单分别汇总为N个订单特征,再将N个订单特征汇总成所述用户的特征;
第三步,对于特征分组后统计,并衍生出用户级别的特征,其中统计方法包括统计学分析法、占比分析法、差距计算法、和/或混合计算法。
进一步,所述统计学分析法,是对第二步中分组的特征进行统计分析,求出其统计学指标,包括最大值、最小值、平均值、求和、中位数、四分之一分位数、四分之三分位数、和/或方差;
所述占比分析法,是指计算各项比例,包括逾期期数占总期数的比例、提前还款订单占总订单比例、在贷订单占总订单比例、逾期金额占总金额的比例、3个月内借款金额占总借款金额的比例、和/或1个月内逾期天数大于7天的比例;
所述差距计算法,是指计算最早一次借款与最近一次借款的时间差、和/或最高一笔借款金额与最低一笔借款金额的差值;
混合计算法,是指将上述的三种方法混合使用。
进一步,结果输出步骤中,将已经获取到的所有特征进行汇总,包括数据采集与清洗装置中的所有特征以及贷后行为特征衍生装置中衍生的特征,汇总时通过身份证号或者客户编号进行关联合并;完成后可作为结果输出,以供后续模型开发使用。
另一方面,本发明提供一种贷后行为特征加工的装置,包括数据采集与清洗单元、贷后行为特征衍生单元、结果输出单元三个部分;所述装置能够实施根据本发明所述的贷后行为特征加工的方法。
进一步,数据采集与清洗装置中对于数据的清洗包括无量纲化处理、缺失值处理、异常值处理和离散数据处理。
本发明提供的贷款行为特征加工方法和装置可直接部署到系统中,实现特征的自动化采集、加工、封装。本方法中,列出了银行或其他金融机构实际业务中使用到的多个维度特征,并对可用于建模的各类特征进行了分类汇总。
与直接使用贷后特征相比,对贷后行为数据的加工与衍生充分挖掘了特征的隐藏信息,提高了特征的利用效率。在实际模型应用中,可明显提升模型的表现效果。
附图说明
图1示出了根据本发明的贷款行为特征加工的方法与装置的系统架构图;
图2示出了根据本发明的贷款行为特征加工的方法与装置的用户样本分级示意图。
具体实施方式
下面将结合附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
根据附图1-2,本发明揭示了一种贷款行为特征选择与加工的方法和装置,所述装置可实现自动化处理特征,输出后的结果可直接进行不同场景下的模型中应用。参阅图1,所述贷款行为特征选择与加工方法包括数据采集与清洗、贷后行为特征衍生、结果输出三个步骤;相应地,所述贷款行为特征选择与加工方法装置包括数据采集与清洗单元、贷后行为特征衍生单元、结果输出单元三个部分。
数据采集与清洗单元获取整个系统中所需的数据对象,包含用户的贷后行为类、申请贷款类、app操作行为类、第三方数据类、其他内部数据等。贷后行为类特征主要包括:订单基本信息、还款行为、逾期行为、催收行为等。申请贷款类包含用户基本情况(性别、年龄、婚姻状况等)、申请记录(申请次数,申请时间间隔、拒绝次数等)、授信信息(授信额度、授信等级等)等。app操作类主要为app中埋点数据。第三方数据包括征信、多头等,从第三方机构获取的数据。其他内部数据主要为机构内部保存的其他数据,如信用卡、理财储蓄、商城消费、生活缴费、关联网络等相关的特征。数据采集源表应为可回溯数据表,记录了用户在各时间点那一时刻所产生的数据。其中,还款行为样本应是用户贷款订单中每期的还款情况。其他特征可视情况而定,一般为用户级别样本,用户样本如图2所示。采集数据时,应注意特征含义与特征产生的时间,避免出现数据穿越问题。
完成数据采集后,需进行特征工程处理,主要包括无量纲化处理、缺失值处理、异常值处理、离散数据处理等清洗。
其中,无量纲化处理主要使不同规格的数据转换到同一规格,主要采用标准化的方法,公式为
缺失值处理中,如果缺失比例在90%以上,若没有明显业务含义的建议直接删除该字段,若有业务含义且与结果相关性较高的,建议加入业务规则中。如果缺失比例在90%以下,缺失比例较小事可以考虑通过平均数、中位数或众数进行填充,确实比例较大是建议使用负数填充,如-1或-99999。优选地,所述缺失值处理,对于缺失比例在50%以下的,通过平均数、中位数或众数进行填充,缺失比例在50%以上90%以下的,使用负数填充;对于缺失比例在90%以上且没有业务含义的直接删除该字段,有业务含义的加入业务规则中;
异常值处理中,有箱线图法、孤立森林(Isolation Forest)等方法。常用的有箱线图法,首先计算出第一四分位数(Q1)、中位数、第三四分位数(Q3)。令IQR=Q3-Q1,那么Q3+1.5(IQR)和Q1-1.5(IQR)之间的值就是可接受范围内的数值,这两个值之外的数认为是异常值。发现异常值后,可以对异常值比例较高的样本进行删除,或者进行异常值替换。
离散数据处理是将类别型数据转化为可以放入模型进行计算的数值。这部分特征往往都是字符串类型,可以进行one-hot-encoding处理。
清洗完成后,进行下一步处理。
贷后行为特征衍生装置中,对用户已经产生的贷后表现数据进行特征分类、特征分组汇总、特征分组后统计,衍生出可解释的汇总字段。
第一步,对贷后行为特征进行分类。第一类为次数/期数/天数相关特征,主要表现为:借款次数/期数/天数、逾期次数/期数/天数、提前还款次数/期数/天数、当前在贷次数/期数/天数等等。第二类是与金额相关的特征,主要变现为借款本金/利息、逾期金额/利息/罚息,待还本金/利息/罚息等等。第三类特征是贷款时间相关的,主要表现为用户每笔借款的借款时间、放款时间、分期订单的每期还款时间、逾期时间、逾期还款时间等等。第四类特征为时间窗口统计相关的,主要表现为7天/1个月/3个月/6个月/12个月内借款情况,7天/1个月/3个月/6个月/12个月内逾期情况等等。
第二步,对特征进行分组汇总。如图2,如果是分期贷款订单,通过数据采集与清洗装置中获取到的数据为订单每一期层面的样本数据,如用户甲申请了两笔分期贷款订单,订单a和订单b,订单a目前还款到低12期,包括订单a第1期、订单a第2期等,订单b目前还款到期6期,包括订单b第1期,订单b第2期等。而最终处理完成的数据为用户层面的样本数据,如用户甲。所以需要先将贷款订单的每一期特征汇总成每一笔订单特征,再将用户的每一笔订单特征汇总成用户特征。在图2上即表现为,先将订单a的第1~12期特征汇总成订单a的特征,订单b的第1~6期特征汇总成订单b的特征,再将订单a与订单b的特征汇总成用户甲的特征。
第三步,对分组后的特征进行统计,并最终衍生出用户级别的特征,统计方法可根据具体业务含义制定。第一种处理方法为统计学分析法,对第二步中分组的特征进行统计方面的分析,求出其最大值、最小值、平均值、求和、中位数、四分之一分位数、四分之三分位数、方差等统计学指标。例如,针对逾期期数字段,可以求出用户多笔订单中的逾期期数最大值/最小值/平均值/中位数/总数、借款金额的最大值/最小值/平均值/中位数/总数等等。第二种处理方法为占比分析法,例如逾期期数占总期数的比例、提前还款订单占总订单比例、在贷订单占总订单比例、逾期金额占总金额的比例、3个月内借款金额占总借款金额的比例、1个月内逾期天数大于7天的比例等。第三种处理方法为差距计算法,例如最早一次借款与最近一次借款的时间差、最高一笔借款金额与最低一笔借款金额的差值等。第四种处理方法是混合计算法,将上述的三种方法混合使用,例如借款频率,是使用第三种差距计算法计算出时间差后,使用比例计算法将时间差除以借款次数,而借款次数是用第一种统计学分析法计算求和得到的。
结果输出装置中,将已经获取到的所有特征进行汇总,包括数据采集与清洗装置中的所有特征以及贷后行为特征衍生装置中衍生的特征,汇总时通过身份证号或者客户号进行关联合并。完成后可作为结果输出,以供后续模型开发使用。
本发明可直接部署到系统中,实现特征的自动化采集、加工、封装。
与直接使用贷后特征相比,对贷后行为数据的加工与衍生充分挖掘了特征的隐藏信息,提高了特征的利用效率。在实际模型应用中,可明显提升模型的表现效果。
本方法中,列出了银行或其他金融机构实际业务中使用到的多个维度特征,并对可用于建模的各类特征进行了分类汇总。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
Claims (10)
1.一种贷后行为特征加工的方法,其特征在于,所述方法包括以下步骤:
数据采集与清洗,获取整个系统中所需的数据对象,进行数据清洗,所述数据清洗为特征工程处理;
贷后行为特征衍生,对清洗后的用户贷后表现数据依次进行特征分类、特征分组汇总和特征分组后统计并衍生出可解释的汇总字段;
结果输出,将数据采集与清洗步骤和贷后行为特征衍生步骤中获取到的所有特征进行汇总,通过用户号码进行关联合并,完成后作为结果输出。
2.根据权利要求1所述的贷后行为特征加工的方法,其特征在于,数据采集与清洗步骤中,获取整个系统中所需的数据对象,包含用户的贷后行为类、申请贷款类、app操作行为类、第三方数据类和/或内部数据类;其中贷后行为类特征包括:订单基本信息、还款行为、逾期行为和/或催收行为;申请贷款类包含用户基本情况、申请记录和/或授信信息;app操作类为app中埋点数据;第三方数据包括征信、多头、从第三方机构获取的数据。内部数据类包括机构内部保存的信用卡、理财储蓄、商城消费、生活缴费、和/或关联网络特征。
3.根据权利要求1所述的贷后行为特征加工的方法,其特征在于,数据采集与清洗步骤中,数据清洗包括无量纲化处理、缺失值处理、异常值处理和离散数据处理。
4.根据权利要求3所述的贷后行为特征加工的方法,其特征在于,
所述无量纲化处理是使不同规格的数据转换到同一规格,采用标准化的方法;
所述缺失值处理,对于缺失比例在50%以下的,通过平均数、中位数或众数进行填充,缺失比例在50%以上90%以下的,使用负数填充;对于缺失比例在90%以上且没有业务含义的直接删除该字段,有业务含义的加入业务规则中;
所述异常值处理,利用箱线图法计算出可接受范围内的数值,在可接受范围外的数值认为是异常值;对异常值的样本进行删除,或者进行异常值替换;
所述离散数据处理,是将类别型数据转化为可以放入模型进行计算的数值;将字符串类型的特征进行one-hot-encoding处理。
5.根据权利要求4所述的贷后行为特征加工的方法,其特征在于,所述异常值处理步骤中,采用适用于连续数据的无监督异常检测方法的孤立森林算法代替箱线图法。
6.根据权利要求1所述的贷后行为特征加工的方法,其特征在于,在贷后行为特征衍生步骤中,包含以下三个步骤;其中,
第一步,特征分类,将特征分为四类,第一类为次数、期数、或天数特征;第二类是与金额特征;第三类是贷款时间特征,包括用户每笔借款的借款时间、放款时间、分期订单的每期还款时间、逾期时间或逾期还款时间;第四类是时间窗口统计特征,包括设定时间内借款情况和逾期情况;
第二步,特征分组汇总,对于一个用户名下的N笔贷款订单,对各个订单分别汇总为N个订单特征,再将N个订单特征汇总成所述用户的特征;
第三步,对于特征分组后统计,并衍生出用户级别的特征,其中统计方法包括统计学分析法、占比分析法、差距计算法、和/或混合计算法。
7.根据权利要求6所述的贷后行为特征加工的方法,其特征在于,
所述统计学分析法,是对第二步中分组的特征进行统计分析,求出其统计学指标,包括最大值、最小值、平均值、求和、中位数、四分之一分位数、四分之三分位数、和/或方差;
所述占比分析法,是指计算各项比例,包括逾期期数占总期数的比例、提前还款订单占总订单比例、在贷订单占总订单比例、逾期金额占总金额的比例、3个月内借款金额占总借款金额的比例、和/或1个月内逾期天数大于7天的比例;
所述差距计算法,是指计算最早一次借款与最近一次借款的时间差、和/或最高一笔借款金额与最低一笔借款金额的差值;
混合计算法,是指将上述的三种方法混合使用。
8.根据权利要求1所述的贷后行为特征加工的方法,其特征在于,
结果输出步骤中,将已经获取到的所有特征进行汇总,包括数据采集与清洗装置中的所有特征以及贷后行为特征衍生装置中衍生的特征,汇总时通过身份证号或者客户编号进行关联合并;完成后可作为结果输出,以供后续模型开发使用。
9.一种贷后行为特征加工的装置,其特征在于,包括数据采集与清洗单元、贷后行为特征衍生单元、结果输出单元三个部分;所述装置能够实施权利要求1-7任一项所述的贷后行为特征加工的方法。
10.根据权利要求8所述的贷后行为特征加工的装置,其特征在于,数据采集与清洗装置中对于数据的清洗包括无量纲化处理、缺失值处理、异常值处理和离散数据处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110429088.9A CN112927071A (zh) | 2021-04-21 | 2021-04-21 | 一种贷后行为特征加工的方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110429088.9A CN112927071A (zh) | 2021-04-21 | 2021-04-21 | 一种贷后行为特征加工的方法与装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112927071A true CN112927071A (zh) | 2021-06-08 |
Family
ID=76174629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110429088.9A Pending CN112927071A (zh) | 2021-04-21 | 2021-04-21 | 一种贷后行为特征加工的方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112927071A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113781210A (zh) * | 2021-09-29 | 2021-12-10 | 中国银行股份有限公司 | 基于客户金融交易数据结构的自动化特征工程方法及装置 |
CN117670510A (zh) * | 2023-11-30 | 2024-03-08 | 广东省中保小额贷款股份有限公司 | 一种小额贷款管理系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106339942A (zh) * | 2016-08-31 | 2017-01-18 | 国信优易数据有限公司 | 一种金融信息处理方法和系统 |
CN108229542A (zh) * | 2017-12-21 | 2018-06-29 | 中智诚征信有限公司 | 一种基于时序分析技术的循环借贷信用风险监测方法 |
CN109947811A (zh) * | 2017-11-29 | 2019-06-28 | 北京京东金融科技控股有限公司 | 通用特征库生成方法及装置、存储介质、电子设备 |
CN110738564A (zh) * | 2019-10-16 | 2020-01-31 | 信雅达系统工程股份有限公司 | 贷后风险评估方法及装置、存储介质 |
-
2021
- 2021-04-21 CN CN202110429088.9A patent/CN112927071A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106339942A (zh) * | 2016-08-31 | 2017-01-18 | 国信优易数据有限公司 | 一种金融信息处理方法和系统 |
CN109947811A (zh) * | 2017-11-29 | 2019-06-28 | 北京京东金融科技控股有限公司 | 通用特征库生成方法及装置、存储介质、电子设备 |
CN108229542A (zh) * | 2017-12-21 | 2018-06-29 | 中智诚征信有限公司 | 一种基于时序分析技术的循环借贷信用风险监测方法 |
CN110738564A (zh) * | 2019-10-16 | 2020-01-31 | 信雅达系统工程股份有限公司 | 贷后风险评估方法及装置、存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113781210A (zh) * | 2021-09-29 | 2021-12-10 | 中国银行股份有限公司 | 基于客户金融交易数据结构的自动化特征工程方法及装置 |
CN117670510A (zh) * | 2023-11-30 | 2024-03-08 | 广东省中保小额贷款股份有限公司 | 一种小额贷款管理系统 |
CN117670510B (zh) * | 2023-11-30 | 2024-05-28 | 广东省中保小额贷款股份有限公司 | 一种小额贷款管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Koh et al. | A two-step method to construct credit scoring models with data mining techniques | |
CN110400215B (zh) | 面向企业家族的小微企业信用评估模型构建方法及系统 | |
US11783338B2 (en) | Systems and methods for outlier detection of transactions | |
CN106897930A (zh) | 一种信用评估的方法及装置 | |
CN109829721B (zh) | 基于异质网络表征学习的线上交易多主体行为建模方法 | |
CN107944738A (zh) | 一种税务信用积分计算方法及装置 | |
CN112927071A (zh) | 一种贷后行为特征加工的方法与装置 | |
US20210125272A1 (en) | Using Inferred Attributes as an Insight into Banking Customer Behavior | |
CN107133862B (zh) | 动态产生增强信用评估的详细交易支付经历的方法和系统 | |
CN111090780A (zh) | 可疑交易信息的确定方法及装置、存储介质、电子设备 | |
CN108197795A (zh) | 恶意团体账户识别方法、装置、终端及存储介质 | |
CN113506113B (zh) | 一种基于关联网络的信用卡套现团伙挖掘方法及系统 | |
CN112950359B (zh) | 一种用户识别方法和装置 | |
CN103678322A (zh) | 一种样本数据的整合系统及方法 | |
CN110458581B (zh) | 商户业务周转异常的识别方法及装置 | |
CN116777633A (zh) | 基于数据管理的金融资产管理系统 | |
Pham et al. | Analysis model for decentralized lending protocols | |
CN116361542A (zh) | 产品推荐方法、装置、计算机设备和存储介质 | |
CN112950350B (zh) | 一种基于机器学习的贷款产品推荐方法及系统 | |
CN112101950B (zh) | 可疑交易监测模型特征提取方法及装置 | |
CN114493853A (zh) | 信用等级评价方法、装置、电子设备及存储介质 | |
CN113869423A (zh) | 一种营销响应模型构建方法、设备及介质 | |
Zang | Construction of Mobile Internet Financial Risk Cautioning Framework Based on BP Neural Network | |
CN113011784A (zh) | 监管报送数据的处理模型及方法 | |
CN113935574B (zh) | 异常交易的监测方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210608 |
|
RJ01 | Rejection of invention patent application after publication |