CN113947476A - 失信客户识别方法、装置、设备及存储介质 - Google Patents

失信客户识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113947476A
CN113947476A CN202111218444.9A CN202111218444A CN113947476A CN 113947476 A CN113947476 A CN 113947476A CN 202111218444 A CN202111218444 A CN 202111218444A CN 113947476 A CN113947476 A CN 113947476A
Authority
CN
China
Prior art keywords
model
preset
client
field
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111218444.9A
Other languages
English (en)
Inventor
李潇
岳帅
吴艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Fuli Technology Co Ltd
Original Assignee
Shanghai Fuli Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Fuli Technology Co Ltd filed Critical Shanghai Fuli Technology Co Ltd
Priority to CN202111218444.9A priority Critical patent/CN113947476A/zh
Publication of CN113947476A publication Critical patent/CN113947476A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Technology Law (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种失信客户识别方法、装置、设备及存储介质。该方法包括:在获取到识别指令时,从数据库中获取若干条待识别数据;从该数据中按照预设模板选择各待识别数据对应的字段信息;根据字段信息生成特征信息;将特征信息输入至预先训练好的目标融合模型中,得到输出的坏客户浓度挖掘结果,根据该结果确定对应的失信客户,其中,目标融合模型由预设决策树模型、预设普里姆算法模型、预设逻辑回归模型以及预设梯度提升模型叠加融合而成。通过上述方式,基于决策树模型、普里姆算法模型、逻辑回归模型以及梯度提升模型叠加融合后的模型挖掘坏客户浓度,解决了使用单模型挖掘坏客户时识别出的坏客户浓度较低,识别精度不高的问题。

Description

失信客户识别方法、装置、设备及存储介质
技术领域
本发明涉及风控管理技术领域,尤其涉及一种失信客户识别方法、装置、设备及存储介质。
背景技术
传统的风控技术,多由各机构的风控团队以人工的方式进行经验控制。但随着互联网大数据等技术不断发展,传统的风控方式已逐渐不能支撑机构的业务扩展;而大数据中对多维度、大量数据的智能处理,批量标准化的执行流程,更能贴合信息时代风控业务的发展要求。在小微企业客户信贷申请过程中,为了保证信贷申请的小微企业客户都是好客户(即借款申请后能还款的客户),迫切需要金融平台能设计一套可以识别出全部失信客户(又称坏客户,即借款申请后不还款的客户)的模型。一般采用单模型进行信息挖掘,但是这种方式识别出的坏客户浓度较低,即识别精度不高。坏客户浓度是指在面对大量数据时,识别出的坏客户数与坏客户总数的占比。上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种失信客户识别方法、装置、设备及存储介质,旨在解决当前采用单模型挖掘坏客户时,识别出的坏客户浓度较低,识别精度不高的技术问题。
为实现上述目的,本发明提供了一种失信客户识别方法,所述方法包括以下步骤:
在获取到失信客户识别指令时,从数据库中获取若干条待识别数据;
从所述若干条待识别数据中按照预设字段选择模板选择各条待识别数据对应的字段信息;
根据所述字段信息生成特征信息;
将所述特征信息输入至预先训练好的目标融合模型中,得到所述目标融合模型输出的坏客户浓度挖掘结果,根据所述坏客户浓度挖掘结果确定对应的失信客户,其中,所述目标融合模型由预设决策树模型、预设普里姆算法模型、预设逻辑回归模型以及预设梯度提升模型叠加融合而成。
可选地,所述在获取到失信客户识别指令时,从数据库中获取若干条待识别数据之前,所述方法还包括:
从数据集中获取若干客户分别对应的全部字段信息;
对所述全部字段信息做哑变量转换处理,得到全部特征信息;
根据所述全部特征信息确定各字段项分别对应的预测能力信息值;
根据所述预测能力信息值对各字段项进行筛选,得到剩余字段项;
根据所述剩余字段项生成预设字段选择模板。
可选地,所述根据所述预测能力信息值对各字段项进行筛选,得到剩余字段项,包括:
将各字段项对应的所述预测能力信息值分别与预设数值范围进行比对,得到比对结果;
根据所述比对结果对各字段项进行筛选,得到剩余字段项。
可选地,所述对所述全部字段信息做哑变量转换处理,得到全部特征信息之后,所述方法还包括:
将各字段信息以及对应的特征信息写入预设特征转换映射表;
所述根据所述字段信息生成特征信息,包括:
根据所述字段信息查找所述预设特征转换映射表,确定对应的特征信息。
可选地,所述在获取到失信客户识别指令时,从数据库中获取若干条待识别数据之前,所述方法还包括:
获取预设初始样本集;
根据所述预设字段选择模板对所述预设初始样本集进行选择,得到若干条样本数据;
根据所述若干条样本数据对初始融合模型进行训练,得到训练好的所述目标融合模型。
可选地,所述根据所述若干条样本数据对初始融合模型进行训练,得到训练好的所述目标融合模型,包括:
根据所述若干条样本数据按照预设比例随机生成训练集以及测试集;
根据预先训练好的目标决策树模型、目标普里姆算法模型、目标逻辑回归模型以及目标梯度提升模型分别对所述训练集以及所述测试集进行预测,得到第一预测结果以及第二预测结果;
根据所述第一预测结果对所述训练集进行调整,生成目标训练集;
根据所述第二预测结果对所述测试集进行调整,生成目标验证集;
根据所述目标训练集对初始融合模型进行训练,并根据所述目标验证集进行验证,在验证通过时,得到训练好的所述目标融合模型。
可选地,所述根据预先训练好的目标决策树模型、目标普里姆算法模型、目标逻辑回归模型以及目标梯度提升模型分别对所述训练集以及所述测试集进行预测,得到第一预测结果以及第二预测结果之前,所述方法还包括:
获取各算法模型对应的配置参数;
根据所述配置参数配置各算法模型对应的训练条件;
在所述训练条件下根据所述训练集分别对初始决策树模型、初始普里姆算法模型、初始逻辑回归模型以及初始梯度提升模型进行训练,得到所述目标决策树模型、所述目标普里姆算法模型、所述目标逻辑回归模型以及所述目标梯度提升模型。
此外,为实现上述目的,本发明还提出一种失信客户识别装置,所述失信客户识别装置包括:
获取模块,用于在获取到失信客户识别指令时,从数据库中获取若干条待识别数据;
选择模块,用于从所述若干条待识别数据中按照预设字段选择模板选择各条待识别数据对应的字段信息;
特征生成模块,用于根据所述字段信息生成特征信息;
识别模块,用于将所述特征信息输入至预先训练好的目标融合模型中,得到所述目标融合模型输出的坏客户浓度挖掘结果,根据所述坏客户浓度挖掘结果确定对应的失信客户,其中,所述目标融合模型由预设决策树模型、预设普里姆算法模型、预设逻辑回归模型以及预设梯度提升模型叠加融合而成。
此外,为实现上述目的,本发明还提出一种失信客户识别设备,所述失信客户识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的失信客户识别程序,所述失信客户识别程序配置为实现如上文所述的失信客户识别方法。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有失信客户识别程序,所述失信客户识别程序被处理器执行时实现如上文所述的失信客户识别方法。
本发明通过在获取到失信客户识别指令时,从数据库中获取若干条待识别数据;从若干条待识别数据中按照预设字段选择模板选择各条待识别数据对应的字段信息;根据字段信息生成特征信息;将特征信息输入至预先训练好的目标融合模型中,得到目标融合模型输出的坏客户浓度挖掘结果,根据坏客户浓度挖掘结果确定对应的失信客户,其中,目标融合模型由预设决策树模型、预设普里姆算法模型、预设逻辑回归模型以及预设梯度提升模型叠加融合而成。通过上述方式,基于预设字段选择模板选择合适的字段信息,基于决策树模型、普里姆算法模型、逻辑回归模型以及梯度提升模型叠加融合后的模型挖掘坏客户浓度,根据各个客户对应的待识别数据识别出失信客户,解决了使用单模型挖掘坏客户时识别出的坏浓度较低,识别精度不高的问题。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的失信客户识别设备的结构示意图;
图2为本发明失信客户识别方法第一实施例的流程示意图;
图3为本发明失信客户识别方法第二实施例的流程示意图;
图4为本发明失信客户识别方法第三实施例的流程示意图;
图5为本发明失信客户识别方法一实施例的决策树图;
图6为本发明失信客户识别装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的失信客户识别设备结构示意图。如图1所示,该失信客户识别设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解,图1中示出的结构并不构成对失信客户识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及失信客户识别程序。
在图1所示的失信客户识别设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明失信客户识别设备中的处理器1001、存储器1005可以设置在失信客户识别设备中,所述失信客户识别设备通过处理器1001调用存储器1005中存储的失信客户识别程序,并执行本发明实施例提供的失信客户识别方法。
本发明实施例提供了一种失信客户识别方法,参照图2,图2为本发明失信客户识别方法第一实施例的流程示意图。
本实施例中,所述失信客户识别方法包括以下步骤:
步骤S10:在获取到失信客户识别指令时,从数据库中获取若干条待识别数据。
可以理解的是,本实施例的执行主体为失信客户识别设备,所述失信客户识别设备可以为计算机、服务器等设备,还可以为其他具备推理计算能力的设备,本实施例对此不加以限制。
需要说明的是,失信客户识别指令为管理人员在系统中输入的识别指令,用于对现存的客户数据进行坏客户浓度挖掘并分析坏客户分布,数据库为本地大数据平台数据库,具体地,失信客户识别设备安装有金融平台,小微企业在金融平台前端页面申请后,基于金融平台启动查询系统,获取该小微企业相关的字段信息,并将字段信息结构化存储于本地大数据平台数据仓库,在获取到失信客户识别指令时,从本地大数据平台数据库中获取若干条待识别数据,其中,若干条待识别数据可以为数据库中存储的全部客户数据,也可以为一个时间段内提交申请的客户数据,例如,5天内提交申请的客户数据,每条待识别数据代表着一个客户对应的全部字段信息。
步骤S20:从所述若干条待识别数据中按照预设字段选择模板选择各条待识别数据对应的字段信息。
可以理解的是,在进行失信客户识别时,从本地大数据平台数据库中获取全部客户或者若干个客户对应的全部字段信息,即若干条待识别数据,根据预设字段选择模板对全部字段信息进行筛选,得到各条待识别数据对应的字段信息,字段信息为各条待识别数据中各项指标对应的指标值,例如,指标名为“企业主学历”,待识别客户对于的字段信息为“本科”。
在具体实现中,提前根据各字段对应的预测能力信息值选择符合要求的多个字段,根据符合要求的多个字段生成预设字段选择模板,从而从各待识别数据对应的全部字段信息中选择具有有效信息的字段信息。
步骤S30:根据所述字段信息生成特征信息。
可以理解的是,特征信息为模型可计算的信息,可选地,将变量类型为字符型的字段信息做哑变量转换处理,得到特征信息。例如,指标名为“企业主学历”,对应的全部变量分别为“高中及以下”、“大专”、“本科”以及“研究生”,进行哑变量转换处理后,得到待识别客户的字段信息“本科”对应的变量映射值为[0,1,0]。
步骤S40:将所述特征信息输入至预先训练好的目标融合模型中,得到所述目标融合模型输出的坏客户浓度挖掘结果,根据所述坏客户浓度挖掘结果确定对应的失信客户,其中,所述目标融合模型由预设决策树模型、预设普里姆算法模型、预设逻辑回归模型以及预设梯度提升模型叠加融合而成。
可以理解的是,目标融合模型由预设决策树模型、预设prim算法模型、预设逻辑回归模型以及预设Xgboost模型叠加融合而成,提前对目标融合模型进行训练,基于训练好的目标融合模型对各条待识别数据对应的特征信息进行识别,得到坏客户浓度挖掘结果,具体地,坏客户浓度挖掘结果可以为当前识别到的坏客户数量与待识别客户总数之间的比值,由于现有的单模型挖掘坏客户时识别出的坏客户浓度低,例如,同一批次待识别数据代表着20个客户,实际有10个坏客户,单模型挖掘时,仅能识别出6个坏客户,而通过本实施例的目标融合模型进行坏客户挖掘可以从20个客户中识别出8个坏客户,提高了识别精度,从而确定各条待识别数据对应的客户是否为借款申请后能还款的客户,如果不是,选择对应的应急策略在金融平台前端页面回应该客户的借款申请,例如,提示“申请失败”。
本实施例通过在获取到失信客户识别指令时,从数据库中获取若干条待识别数据;从若干条待识别数据中按照预设字段选择模板选择各条待识别数据对应的字段信息;根据字段信息生成特征信息;将特征信息输入至预先训练好的目标融合模型中,得到目标融合模型输出的坏客户浓度挖掘结果,根据坏客户浓度挖掘结果确定对应的失信客户,其中,目标融合模型由预设决策树模型、预设普里姆算法模型、预设逻辑回归模型以及预设梯度提升模型叠加融合而成。通过上述方式,基于预设字段选择模板选择合适的字段信息,基于决策树模型、普里姆算法模型、逻辑回归模型以及梯度提升模型叠加融合后的模型挖掘坏客户浓度,根据各个客户对应的待识别数据识别出失信客户,解决了使用单模型挖掘坏客户时识别出的坏浓度较低,识别精度不高的问题。
参考图3,图3为本发明失信客户识别方法第二实施例的流程示意图。
基于上述第一实施例,本实施例失信客户识别方法在所述步骤S10之前,还包括:
步骤S101:从数据集中获取若干客户分别对应的全部字段信息。
可以理解的是,全部字段信息为企业建模字段中各项指标对应的变量值,进一步地,在步骤S101之前,随机从本地大数据平台数据库中获取全部的结构化字段,从中随机挑选若干条字段作为企业建模字段,结合表1举例进行说明,表1为本发明一实例的企业建模字段表,从本地大数据平台数据库中获取大量样本数据,随机挑选16个指标,每个指标包含不同的变量值,构建企业建模字段表。
假设在数据集中A客户企业主学历指标为“本科”,企业所在地区指标为“华中”……,B客户企业主学历指标为“研究生”,企业所在地区指标为“华北”,从数据集中获取A客户以及B客户分别对应的字段信息,得到A客户对应的“本科”、“华中”……,B客户对应“研究生”、“华北”……。
表1:
Figure BDA0003311353600000081
步骤S102:对所述全部字段信息做哑变量转换处理,得到全部特征信息。
需要说明的是,本实施例对全部字段信息中的字符型变量进行哑变量转换处理,从而将所有字符型变量转化为模型可计算的变量,哑变量(DummyVariable),也叫虚拟变量,用于反映某个变量的不同属性。具体参照表2,表2为本发明一实例的预设特征转换映射表,其中包含5个指标对应的变量映射值。
表2:
Figure BDA0003311353600000091
具体地,根据全部特征信息(即各变量值)确定各项指标对应变量的全部种类,根据全部种类进行哑变量转换,从而确定各种类变量对应的特征信息。
进一步地,所述步骤S102之后,所述方法还包括:将各字段信息以及对应的特征信息写入预设特征转换映射表;
所述步骤S30,包括:根据所述字段信息查找所述预设特征转换映射表,确定对应的特征信息。
可以理解的是,参照表2,将各类型的字段信息以及对应的特征信息存储于预设特征转换映射表,即将各类型的变量以及对应的变量映射值存储于预设特征转换映射表,在获取到待识别客户的各项指标的变量值时,从预设特征转换映射表中查找对应的变量映射值,例如,待识别客户企业主学历指标对应的字段信息为“本科”,查找预设特征转换映射表,确定对应的特征信息为“0,1,0”。
步骤S103:根据所述全部特征信息确定各字段项分别对应的预测能力信息值。
需要说明的是,预测能力信息值为IV值(Information Value),用于表示对应特征信息的预测能力强弱,在具体实现中,各特征信息的IV值以WOE计算为基础进行确定,WOE的全称是“weight of evidence”,即证据权重,WOE计算可以理解为对某一特征信息进行WOE编码,首先基于特征信息进行分组处理,对于第i组,根据公式(1)计算对应的WOE:
Figure BDA0003311353600000101
其中,#Bi是第i箱中坏客户数量,#Gi是第i箱中好客户数量,#BT是所有组总样本的坏客户数,#GT是所有组总样本的好客户数。WOE实质上表示的是当前分组中每组好坏客户数占总的好坏客户数比例的差异。如果WOE的绝对值越大,这种差异就越明显,绝对值越小就表明差异不明显。假设变量x有n个分组,第i组的WOE值为WOEi,根据公式(2)计算变量x对应的IV值:
Figure BDA0003311353600000102
其中,坏客户占比为前分组中坏客户数量以及整体样本坏客户数量之间的比值,好客户占比是当前分组中好客户数量与整体样本好客户数量之间的比值。
步骤S104:根据所述预测能力信息值对各字段项进行筛选,得到剩余字段项。
应当理解的是,根据预测能力信息值从各字段项中选出合适的字段项,得到剩余字段项。具体地,所述步骤S104,包括:将各字段项对应的所述预测能力信息值分别与预设数值范围进行比对,得到比对结果;根据所述比对结果对各字段项进行筛选,得到剩余字段项。
需要说明的是,参照表3进行举例说明,表3为本发明一实例的IV值分布表,当字段项的IV值小于0.02时,表征该字段项不具有显著贡献度,应该从数据集中剔除;当字段项的IV值在0.02至0.5之间时,该特征具有显著贡献度,并且IV值越大,对应的特征信息输入模型后,模型效果越好;当字段项的IV值大于0.5时,该特征非常显著,以至于输入至模型后,会击穿模型的效果,使得模型过拟合,因此应剔除该字段项。本实施例设置预设数值范围为0.02至0.5。
表3:
变量名称 IV值
近2年企业公积金人均月缴纳额 0.48
月进账金额 0.47
近1年有无企业公积金详情 0.42
企业主婚姻状况 0.28
流动比率 0.28
资产负债率 0.26
企业规模 0.21
企业所在地区 0.17
企业主学历 0.15
余额日均 0.04
经营年限 0.03
企业类型 0.01
月出账金额 0.01
结息日均 0.01
速动比率 0.01
现金比率 0.01
结合表3举例说明,剩余字段项包括:近2年企业公积金人均月缴纳额、月进账金额、近1年有无企业公积金详情、企业主婚姻状况、流动比率、资产负债率、企业规模、企业所在地区、企业主学历、余额日均以及经营年限。
步骤S105:根据所述剩余字段项生成预设字段选择模板。
可以理解的是,结合表3进行举例说明,根据剩余字段项:近2年企业公积金人均月缴纳额、月进账金额、近1年有无企业公积金详情、企业主婚姻状况、流动比率、资产负债率、企业规模、企业所在地区、企业主学历、余额日均以及经营年限生成预设字段选择模板,在根据预设字段选择目标从数据库中选择待识别客户对应的字段信息时,从全部字段中选择近2年企业公积金人均月缴纳额对应的字段信息、月进账金额对应的字段信息……,从而得到具有显著贡献度的特征信息,使得模型识别精度提高。
本实施例通过从数据集中获取若干客户分别对应的全部字段信息;对全部字段信息做哑变量转换处理,得到全部特征信息;根据全部特征信息确定各字段项分别对应的预测能力信息值;根据预测能力信息值对各字段项进行筛选,得到剩余字段项;根据剩余字段项生成预设字段选择模板;在获取到失信客户识别指令时,从数据库中获取若干条待识别数据;从若干条待识别数据中按照预设字段选择模板选择各条待识别数据对应的字段信息;根据字段信息生成特征信息;将特征信息输入至预先训练好的目标融合模型中,得到目标融合模型输出的坏客户浓度挖掘结果,根据坏客户浓度挖掘结果确定对应的失信客户,其中,目标融合模型由预设决策树模型、预设普里姆算法模型、预设逻辑回归模型以及预设梯度提升模型叠加融合而成。通过上述方式,计算各字段的预测能力信息值,根据预测能力强的字段生成预设字段选择模板,基于预设字段选择模板从各条待识别数据的全部字段信息中选择预测能力强的字段信息,为模型识别提供更具贡献度的特征信息,基于决策树模型、普里姆算法模型、逻辑回归模型以及梯度提升模型叠加融合后的模型挖掘坏客户浓度,根据各个客户对应的待识别数据识别出失信客户,解决了使用单模型挖掘坏客户时识别出的坏浓度较低,识别精度不高的问题。
参考图4,图4为本发明失信客户识别方法第三实施例的流程示意图。
基于上述第一实施例,本实施例失信客户识别方法在所述步骤S10之前,还包括:
步骤S01:获取预设初始样本集。
可以理解的是,预设初始样本集中包含大量的样本数据,样本数据包括全部字段项对应的字段信息以及标注信息,标注信息为工人标记的好客户或坏客户。
步骤S02:根据所述预设字段选择模板对所述预设初始样本集进行选择,得到若干条样本数据。
需要说明的是,根据预设字段选择模板从各样本对应的全部字段项中选择更具贡献度的字段项,得到若干条样本数据,各条样本数据包含多个字段信息以及标注信息,结合表3进行说明,经过预设字段选择模板选择后,各样本数据种包含字段项近2年企业公积金人均月缴纳额对应的字段信息,但是不包含字段项现金比率对应的字段信息。
步骤S03:根据所述若干条样本数据对初始融合模型进行训练,得到训练好的所述目标融合模型。
需要说明的是,在进行训练前,对各条样本数据中属性为字符型变量的字段信息通过查找预设特征转换映射表,确定对应的特征信息。将若干条样本数据对应的特征信息输入至初始融合模型,得到模型预测结果,根据标注信息以及预测结果确定损失值,依据损失值对初始融合模型进行内部参数调整,以对初始融合模型进行训练。
进一步地,所述步骤S03,包括:根据所述若干条样本数据按照预设比例随机生成训练集以及测试集;根据预先训练好的目标决策树模型、目标普里姆算法模型、目标逻辑回归模型以及目标梯度提升模型分别对所述训练集以及所述测试集进行预测,得到第一预测结果以及第二预测结果;根据所述第一预测结果对所述训练集进行调整,生成目标训练集;根据所述第二预测结果对所述测试集进行调整,生成目标验证集;根据所述目标训练集对初始融合模型进行训练,并根据所述目标验证集进行验证,在验证通过时,得到训练好的所述目标融合模型。
可以理解的是,对若干条样本数据按照预设比例随机拆分为训练集(Train Data)和测试集(Test Data),预设比例可以为7:3。根据训练好的目标决策树模型、目标prim模型、目标逻辑回归模型以及目标Xgboost模型分别预测Train Data和Test Data得到各模型对应的预测结果predict,将各模型针对训练集的多个第一预测结果组合成新的特征作为新的训练集,将各模型针对测试集的多个第二预测结果取均值得到新的验证集,根据新的目标训练集对初始融合模型进行训练,并根据目标验证集对模型进行验证,得到训练好的目标融合模型。
进一步地,所述根据预先训练好的目标决策树模型、目标普里姆算法模型、目标逻辑回归模型以及目标梯度提升模型分别对所述训练集以及所述测试集进行预测,得到第一预测结果以及第二预测结果之前,所述方法还包括:获取各算法模型对应的配置参数;根据所述配置参数配置各算法模型对应的训练条件;在所述训练条件下根据所述训练集分别对初始决策树模型、初始普里姆算法模型、初始逻辑回归模型以及初始梯度提升模型进行训练,得到所述目标决策树模型、所述目标普里姆算法模型、所述目标逻辑回归模型以及所述目标梯度提升模型。
需要说明的是,参照表4,表4为本发明一实例的剩余字段项以及英文变量表示表,本实施例根据中文名称对应的英文全写或缩写将中文变量命名为英文变量。
表4:
变量名称 英文名称 IV值
近2年企业公积金人均月缴纳额 bus_accfund_pay_amount_2y 0.48
月进账金额 Mon_rece_amount 0.47
近1年有无企业公积金详情 bus_accfund_detai_1y 0.42
企业主婚姻状况 bus_owners_mar 0.28
流动比率 current_ratio 0.28
资产负债率 Asset_liability_ratio 0.26
企业规模 bus_scale 0.21
企业所在地区 bus_location 0.17
企业主学历 bus_owners_edu 0.15
余额日均 balance_day_ave 0.04
经营年限 management_years 0.03
本实施例中决策树模型的参数具体设置为:max_depth参数表征决策树的最大层数,为了防止过拟合,设置为4层;min_samples_leaf表征每个决策树的叶子上面的样本数量,本实施例设置为50,即少于50个样本就会被剪掉该叶子节点;min_samples_split参数表征决策树分裂最少要有多少个样本才能形成一个新的分支,本实施例设置为50,即少于50个样本就不再进行分裂新的树了。参照图5,图5为本发明失信客户识别方法一实施例的决策树图,结合具体11257行样本实例,经过决策树模型训练生成如图5所示决策树图,训练好的目标决策树模型对应的坏客户浓度计算为:(4945*0.074)/(11257*0.046)=70.8%。
本实施例中prim模型的参数具体设置为:peel_alpha表征初始超参数,一般按照0.01、0.05、0.1量级进行初始化,本实施例将peel_alpha设置为0.05;mass_min表征目标命中率,本实施例设置为0.05,即坏客户占比为5%以下的区域自动剔除。结合具体11257行样本实例,本实施例prim挖掘坏客户浓度为Coverage值75.2%。
本实施例中逻辑回归模型的参数具体设置为:C的默认值是0,C值越小,则正则化强度越大,为了防止模型过拟合,本实施例将C设置为0.1;将class_weight选择balanced,即逻辑回归模型会根据训练样本量来计算权重。同一种类型的样本量越多,则权重越低,样本量越少,则权重越高。参照表5,表5为一实例的逻辑回归模型客群模型报告,结合具体11257行样本实例,经过逻辑回归模型训练生成如表5所示的客群模型报告,前6箱的样本占总人数的30%,捕捉到的坏客户占所有坏客户的69.5%,这就代表如果拒绝分数最低的30%人,可以捕捉到69.50%的坏客户浓度。
表5:
Figure BDA0003311353600000161
本实施例中Xgboost模型的参数具体设置为:boosting_type本实施例选择gbdt梯度提升算法;max_depth表征树深度,为了防止过拟合,本实施例树的深度选择2;为了保持样本均衡度,导致模型训练不会发生过拟合分别将数据采样subsample和特征采样colsample_bytree均设置为0.7;初始化学习率learning_rate,本实施例先将学习率定一个较高的值0.1,在模型迭代过程中,会逐渐趋于平缓;将auc作为评估指标eval_metric,每次模型迭代训练(early_stopping_rounds)100次即停止。参照表6,表6为一实例的Xgboost模型客群模型报告,结合具体11257行样本实例,经过Xgboost模型训练生成如表6所示的客群模型报告,前6箱的样本占总人数的30%,捕捉到的坏客户占所有坏客户的72.6%,这就代表如果拒绝分数最低的30%人,可以捕捉到72.6%的坏客户浓度。
表6:
Figure BDA0003311353600000171
本实施例的目标融合模型相比对单模型决策树、Prim算法、逻辑回归以及Xgboost模型,预测的坏客户浓度更高,达到了82.8%,预测的坏客户浓度计算结果[(70.8%+75.2%+69.5%+72.6%)*(1+0.15)]/4=82.8%。
本实施例通过获取预设初始样本集;根据预设字段选择模板对预设初始样本集进行选择,得到若干条样本数据;根据若干条样本数据对初始融合模型进行训练,得到训练好的目标融合模型;在获取到失信客户识别指令时,从数据库中获取若干条待识别数据;从若干条待识别数据中按照预设字段选择模板选择各条待识别数据对应的字段信息;根据字段信息生成特征信息;将特征信息输入至预先训练好的目标融合模型中,得到目标融合模型输出的坏客户浓度挖掘结果,根据坏客户浓度挖掘结果确定对应的失信客户,其中,目标融合模型由预设决策树模型、预设普里姆算法模型、预设逻辑回归模型以及预设梯度提升模型叠加融合而成。通过上述方式,根据样本集按照预设字段选择模板选择具有贡献度的字段,得到样本数据,通过样本数据对基于决策树模型、普里姆算法模型、逻辑回归模型以及梯度提升模型叠加融合后的模型进行训练,得到训练好的目标融合模型,根据训练好的目标融合模型挖掘坏客户浓度,根据各个客户对应的待识别数据识别出失信客户,解决了使用单模型挖掘坏客户时识别出的坏浓度较低,识别精度不高的问题。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有失信客户识别程序,所述失信客户识别程序被处理器执行时实现如上文所述的失信客户识别方法。
由于本存储介质采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
参照图6,图6为本发明失信客户识别装置第一实施例的结构框图。
如图6所示,本发明实施例提出的失信客户识别装置包括:
获取模块10,用于在获取到失信客户识别指令时,从数据库中获取若干条待识别数据。
选择模块20,用于从所述若干条待识别数据中按照预设字段选择模板选择各条待识别数据对应的字段信息。
特征生成模块30,用于根据所述字段信息生成特征信息。
识别模块40,用于将所述特征信息输入至预先训练好的目标融合模型中,得到所述目标融合模型输出的坏客户浓度挖掘结果,根据所述坏客户浓度挖掘结果确定对应的失信客户,其中,所述目标融合模型由预设决策树模型、预设普里姆算法模型、预设逻辑回归模型以及预设梯度提升模型叠加融合而成。
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
本实施例通过在获取到失信客户识别指令时,从数据库中获取若干条待识别数据;从若干条待识别数据中按照预设字段选择模板选择各条待识别数据对应的字段信息;根据字段信息生成特征信息;将特征信息输入至预先训练好的目标融合模型中,得到目标融合模型输出的坏客户浓度挖掘结果,根据坏客户浓度挖掘结果确定对应的失信客户,其中,目标融合模型由预设决策树模型、预设普里姆算法模型、预设逻辑回归模型以及预设梯度提升模型叠加融合而成。通过上述方式,基于预设字段选择模板选择合适的字段信息,基于决策树模型、普里姆算法模型、逻辑回归模型以及梯度提升模型叠加融合后的模型挖掘坏客户浓度,根据各个客户对应的待识别数据识别出失信客户,解决了使用单模型挖掘坏客户时识别出的坏浓度较低,识别精度不高的问题。
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的失信客户识别方法,此处不再赘述。
在一实施例中,所述失信客户识别装置还包括选择模板生成模块;
所述选择模板生成模块,用于从数据集中获取若干客户分别对应的全部字段信息,对所述全部字段信息做哑变量转换处理,得到全部特征信息,根据所述全部特征信息确定各字段项分别对应的预测能力信息值,根据所述预测能力信息值对各字段项进行筛选,得到剩余字段项,根据所述剩余字段项生成预设字段选择模板。
在一实施例中,所述选择模板生成模块,还用于将各字段项对应的所述预测能力信息值分别与预设数值范围进行比对,得到比对结果,根据所述比对结果对各字段项进行筛选,得到剩余字段项。
在一实施例中,所述特征生成模块30,还用于将各字段信息以及对应的特征信息写入预设特征转换映射表,根据所述字段信息查找所述预设特征转换映射表,确定对应的特征信息。
在一实施例中,所述失信客户识别装置还包括训练模块;
所述训练模块,用于获取预设初始样本集,根据所述预设字段选择模板对所述预设初始样本集进行选择,得到若干条样本数据,根据所述若干条样本数据对初始融合模型进行训练,得到训练好的所述目标融合模型。
在一实施例中,所述训练模块,还用于根据所述若干条样本数据按照预设比例随机生成训练集以及测试集;根据预先训练好的目标决策树模型、目标普里姆算法模型、目标逻辑回归模型以及目标梯度提升模型分别对所述训练集以及所述测试集进行预测,得到第一预测结果以及第二预测结果;根据所述第一预测结果对所述训练集进行调整,生成目标训练集;根据所述第二预测结果对所述测试集进行调整,生成目标验证集;根据所述目标训练集对初始融合模型进行训练,并根据所述目标验证集进行验证,在验证通过时,得到训练好的所述目标融合模型。
在一实施例中,所述训练模块,还用于获取各算法模型对应的配置参数;根据所述配置参数配置各算法模型对应的训练条件;在所述训练条件下根据所述训练集分别对初始决策树模型、初始普里姆算法模型、初始逻辑回归模型以及初始梯度提升模型进行训练,得到所述目标决策树模型、所述目标普里姆算法模型、所述目标逻辑回归模型以及所述目标梯度提升模型。
此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory,ROM)/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种失信客户识别方法,其特征在于,所述失信客户识别方法包括:
在获取到失信客户识别指令时,从数据库中获取若干条待识别数据;
从所述若干条待识别数据中按照预设字段选择模板选择各条待识别数据对应的字段信息;
根据所述字段信息生成特征信息;
将所述特征信息输入至预先训练好的目标融合模型中,得到所述目标融合模型输出的坏客户浓度挖掘结果,根据所述坏客户浓度挖掘结果确定对应的失信客户,其中,所述目标融合模型由预设决策树模型、预设普里姆算法模型、预设逻辑回归模型以及预设梯度提升模型叠加融合而成。
2.如权利要求1所述的失信客户识别方法,其特征在于,所述在获取到失信客户识别指令时,从数据库中获取若干条待识别数据之前,所述方法还包括:
从数据集中获取若干客户分别对应的全部字段信息;
对所述全部字段信息做哑变量转换处理,得到全部特征信息;
根据所述全部特征信息确定各字段项分别对应的预测能力信息值;
根据所述预测能力信息值对各字段项进行筛选,得到剩余字段项;
根据所述剩余字段项生成预设字段选择模板。
3.如权利要求2所述的失信客户识别方法,其特征在于,所述根据所述预测能力信息值对各字段项进行筛选,得到剩余字段项,包括:
将各字段项对应的所述预测能力信息值分别与预设数值范围进行比对,得到比对结果;
根据所述比对结果对各字段项进行筛选,得到剩余字段项。
4.如权利要求2所述的失信客户识别方法,其特征在于,所述对所述全部字段信息做哑变量转换处理,得到全部特征信息之后,所述方法还包括:
将各字段信息以及对应的特征信息写入预设特征转换映射表;
所述根据所述字段信息生成特征信息,包括:
根据所述字段信息查找所述预设特征转换映射表,确定对应的特征信息。
5.如权利要求1所述的失信客户识别方法,其特征在于,所述在获取到失信客户识别指令时,从数据库中获取若干条待识别数据之前,所述方法还包括:
获取预设初始样本集;
根据所述预设字段选择模板对所述预设初始样本集进行选择,得到若干条样本数据;
根据所述若干条样本数据对初始融合模型进行训练,得到训练好的所述目标融合模型。
6.如权利要求5所述的失信客户识别方法,其特征在于,所述根据所述若干条样本数据对初始融合模型进行训练,得到训练好的所述目标融合模型,包括:
根据所述若干条样本数据按照预设比例随机生成训练集以及测试集;
根据预先训练好的目标决策树模型、目标普里姆算法模型、目标逻辑回归模型以及目标梯度提升模型分别对所述训练集以及所述测试集进行预测,得到第一预测结果以及第二预测结果;
根据所述第一预测结果对所述训练集进行调整,生成目标训练集;
根据所述第二预测结果对所述测试集进行调整,生成目标验证集;
根据所述目标训练集对初始融合模型进行训练,并根据所述目标验证集进行验证,在验证通过时,得到训练好的所述目标融合模型。
7.如权利要求6所述的失信客户识别方法,其特征在于,所述根据预先训练好的目标决策树模型、目标普里姆算法模型、目标逻辑回归模型以及目标梯度提升模型分别对所述训练集以及所述测试集进行预测,得到第一预测结果以及第二预测结果之前,所述方法还包括:
获取各算法模型对应的配置参数;
根据所述配置参数配置各算法模型对应的训练条件;
在所述训练条件下根据所述训练集分别对初始决策树模型、初始普里姆算法模型、初始逻辑回归模型以及初始梯度提升模型进行训练,得到所述目标决策树模型、所述目标普里姆算法模型、所述目标逻辑回归模型以及所述目标梯度提升模型。
8.一种失信客户识别装置,其特征在于,所述失信客户识别装置包括:
获取模块,用于在获取到失信客户识别指令时,从数据库中获取若干条待识别数据;
选择模块,用于从所述若干条待识别数据中按照预设字段选择模板选择各条待识别数据对应的字段信息;
特征生成模块,用于根据所述字段信息生成特征信息;
识别模块,用于将所述特征信息输入至预先训练好的目标融合模型中,得到所述目标融合模型输出的坏客户浓度挖掘结果,根据所述坏客户浓度挖掘结果确定对应的失信客户,其中,所述目标融合模型由预设决策树模型、预设普里姆算法模型、预设逻辑回归模型以及预设梯度提升模型叠加融合而成。
9.一种失信客户识别设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的失信客户识别程序,所述失信客户识别程序配置为实现如权利要求1至7中任一项所述的失信客户识别方法。
10.一种存储介质,其特征在于,所述存储介质上存储有失信客户识别程序,所述失信客户识别程序被处理器执行时实现如权利要求1至7任一项所述的失信客户识别方法。
CN202111218444.9A 2021-10-19 2021-10-19 失信客户识别方法、装置、设备及存储介质 Pending CN113947476A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111218444.9A CN113947476A (zh) 2021-10-19 2021-10-19 失信客户识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111218444.9A CN113947476A (zh) 2021-10-19 2021-10-19 失信客户识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113947476A true CN113947476A (zh) 2022-01-18

Family

ID=79331591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111218444.9A Pending CN113947476A (zh) 2021-10-19 2021-10-19 失信客户识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113947476A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757304A (zh) * 2022-06-10 2022-07-15 北京芯盾时代科技有限公司 一种数据识别方法、装置、设备及存储介质
CN115905924A (zh) * 2022-12-06 2023-04-04 济南亚海凛米网络科技服务有限公司 基于人工智能物联网的数据处理方法、系统及云平台

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757304A (zh) * 2022-06-10 2022-07-15 北京芯盾时代科技有限公司 一种数据识别方法、装置、设备及存储介质
CN115905924A (zh) * 2022-12-06 2023-04-04 济南亚海凛米网络科技服务有限公司 基于人工智能物联网的数据处理方法、系统及云平台
CN115905924B (zh) * 2022-12-06 2023-08-11 济南亚海凛米网络科技服务有限公司 基于人工智能物联网的数据处理方法、系统及云平台

Similar Documents

Publication Publication Date Title
US8340995B2 (en) Method and system of using artifacts to identify elements of a component business model
CN113947476A (zh) 失信客户识别方法、装置、设备及存储介质
Alonso Robisco et al. Measuring the model risk-adjusted performance of machine learning algorithms in credit default prediction
US20220398610A1 (en) Method of forecasting store demand based on artificial intelligence and system therefor
US20200294073A1 (en) Platform for In-Memory Analysis of Network Data Applied to Logistics For Best Facility Recommendations with Current Market Information
CN107622326A (zh) 用户分类、可用资源预测方法、装置及设备
CN112232944B (zh) 一种评分卡创建方法、装置和电子设备
CN108038655A (zh) 部门需求的推荐方法、应用服务器及计算机可读存储介质
CN111738762A (zh) 不良资产回收价的确定方法、装置、设备和存储介质
CN107305565A (zh) 信息处理装置、信息处理方法以及信息处理设备
Huy et al. Resource management projects in entrepreneurship and retain customer based on big data analysis and artificial intelligence
CN116150663A (zh) 数据分级方法、装置、计算机设备和存储介质
CN113919558A (zh) 产品销量预测方法及装置
US20140149186A1 (en) Method and system of using artifacts to identify elements of a component business model
CN114092057A (zh) 一种项目模型的构建方法、装置、终端设备和存储介质
JP2003524222A (ja) 金融サービス商品を開発及び管理するシステムと方法
Iwai et al. A New XGBoost Inference with Boundary Conditions in Real Estate Price Prediction
Barr Predicting Credit Union Customer Churn Behavior Using Decision Trees, Logistic Regression, and Random Forest Models
Saldanha-da-Gama et al. Distributionally Robust Facility Location
CN112418260A (zh) 模型训练方法、信息提示方法、装置、设备及介质
Yaman et al. Pilot Location Selection for Cargomatics: Contactless Parcel Pick-Up Points
CN118260683B (zh) 一种基于大数据的反欺诈模型训练方法及系统
Escobar et al. Blockchain and Sustainability in the Public Sector: A Risk Management Perspective
Arsic et al. Integral model of management support: review of quantitative management techniques
Shen et al. A Dynamic Financial Distress Forecast Model with Time-Weighting Based on Random Forest

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination