CN109523185A - 基于人工智能生成催收评分卡的方法、装置及存储介质 - Google Patents
基于人工智能生成催收评分卡的方法、装置及存储介质 Download PDFInfo
- Publication number
- CN109523185A CN109523185A CN201811433898.6A CN201811433898A CN109523185A CN 109523185 A CN109523185 A CN 109523185A CN 201811433898 A CN201811433898 A CN 201811433898A CN 109523185 A CN109523185 A CN 109523185A
- Authority
- CN
- China
- Prior art keywords
- model data
- data set
- overdue
- collection
- scorecard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Technology Law (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开内容的实施例公开了一种基于人工智能生成催收评分卡的方法和装置。该方法包括:获取模型数据集合;对所述模型数据集合进行数据清洗并将清洗后的模型数据集合根据是否逾期分为未逾期模型数据集合和逾期模型数据集合;使用K折叠交叉验证方法分别将未逾期模型数据集合和逾期模型数据集合分为与未逾期模型数据集合相关联的第一训练集和第一验证集以及与逾期模型数据集合相关联的第二训练集和第二验证集;以及使用逻辑回归方法和XGBoost方法分别基于所述第一训练集和第一验证集获得与所述未逾期模型数据集合相关联的第一催收评分卡,并且基于所述第二训练集和第二验证集获得与所述逾期模型数据集合相关联的第二催收评分卡。
Description
技术领域
本公开内容属于信息技术领域,尤其涉及一种基于人工智能生成催收评分卡的方法、装置以及一种相应的计算机可读存储介质。
背景技术
传统的催收行业是劳动密集型的行业,受限于时间、地点、天气等多方面因素,处理催收业务消耗的时间成本和人力成本较大,机构(例如互联网金融公司)出于控制成本的目的,多以对话(例如语音、邮件、短信等)催收为主。
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。随着大数据和人工智能技术的发展,催收行业开始向技巧型和智能化发展。例如,有的机构可以通过采用机器语音或者智能客服来取代人工坐席。
不管采用哪种催收手段,如何对不同的客户进行风险评级,从而决定匹配何种催收方式,进而提高催收效率都是首要的技术问题。
在催收评分卡方面,行业内催收评分卡主要研究客户的历史还款行为,对于历史催收记录则并没有形成深层次的挖掘。此外,未联动A卡(申请时的评分卡)对客户进行多维度建模。再者,行业内大部分评分卡都是静态评分卡,未能逐日迭代,也就形成不了动态评分卡,从而更加精准的对客户进行有效贷后管理。
发明内容
本公开内容的实施例提供了一种基于人工智能生成催收评分卡的方法、装置和相应的计算机可读存储介质,使得能够获得不同客群的动态评分卡,即对于不同客群利用不同的评分卡从而得到更为精准的风险评估结果,从而为提高催收效率、提升催收效果和用户体验提供技术保障。
为此,本公开内容的实施例的第一方面提出了一种基于人工智能生成催收评分卡的方法,所述方法包括:
获取模型数据集合;
对所述模型数据集合进行数据清洗并将清洗后的模型数据集合根据是否逾期分为未逾期模型数据集合和逾期模型数据集合;
使用K折叠交叉验证方法分别将未逾期模型数据集合和逾期模型数据集合分为与未逾期模型数据集合相关联的第一训练集和第一验证集以及与逾期模型数据集合相关联的第二训练集和第二验证集;以及
使用逻辑回归方法和XGBoost方法分别基于所述第一训练集和第一验证集获得与所述未逾期模型数据集合相关联的第一催收评分卡,并且基于所述第二训练集和第二验证集获得与所述逾期模型数据集合相关联的第二催收评分卡。
本公开内容的实施例的第二方面提出了一种基于人工智能生成催收评分卡的装置,所述装置包括:
处理器;以及
存储器,其用于存储指令,当所述指令被执行时使得所述处理器执行以下操作:
获取模型数据集合;
对所述模型数据集合进行数据清洗并将清洗后的模型数据集合根据是否逾期分为未逾期模型数据集合和逾期模型数据集合;
使用K折叠交叉验证方法分别将未逾期模型数据集合和逾期模型数据集合分为与未逾期模型数据集合相关联的第一训练集和第一验证集以及与逾期模型数据集合相关联的第二训练集和第二验证集;以及
使用逻辑回归方法和XGBoost方法分别基于所述第一训练集和第一验证集获得与所述未逾期模型数据集合相关联的第一催收评分卡,并且基于所述第二训练集和第二验证集获得与所述逾期模型数据集合相关联的第二催收评分卡。
本公开内容的实施例的第三方面提出了一种计算机可读存储介质,包括计算机可执行指令,所述计算机可执行指令在装置中运行时使得所述装置执行根据本公开内容的实施例的第一方面所述的基于人工智能生成催收评分卡的方法。
依据本公开内容的实施例的基于人工智能生成催收评分卡的方法、装置以及相对应的计算机可读存储介质通过对客户进行分群并分别进行建模,从而排除了不进行客户分群造成的偏差和噪音;此外,依据本公开内容的技术方案深度挖掘客户的历史还款记录和客户与催收人员的沟通数据,使得模型更加精准,辅助建立更加精准的催收策略。本公开内容的其他优势将在下文中进一步说明。
附图说明
结合附图并参考以下详细说明,本公开内容的各实施例的特征、优点及其他方面将变得更加明显,在此以示例性而非限制性的方式示出了本公开内容的若干实施例,在附图中:
图1示出了本公开内容的实施例可以应用于其中的基于人工智能生成催收评分卡的示例性环境100的示意架构图;
图2示出了根据本公开内容的实施例的基于人工智能生成催收评分卡的方法200的流程图。
图3示出了根据本公开内容的实施例的基于人工智能生成催收评分卡的装置300的示意图。
具体实施方式
以下参考附图详细描述本公开内容的各个示例性实施例。附图中的流程图和框图示出了根据本公开内容的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每一个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每一个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。
本文所使用的术语“包括”、“包含”及类似术语是开放性的术语,即“包括/包含但不限于”,表示还可以包括其他内容。术语“基于”是“至少部分地基于"。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”等等。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当视为说明书的一部分。对于附图中的各单元之间的连线,仅仅是为了便于说明,其表示至少连线两端的单元是相互通信的,并非旨在限制未连线的单元之间无法通信。
为了便于描述,下面对本公开内容中出现的一些术语进行说明,应当理解,本公开内容中所使用的术语应解释为具有与其在本说明书的上下文及有关领域中的意义一致的意义。
本公开内容中的术语“客户”是指为满足生产、生活消费而需要购买和使用机构提供的产品或是接受机构提供的服务的用户群体。
本公开内容中的术语“员工”是指机构中用于向用户提供服务(例如,与用户进行交互式对话等)的群体。
本公开内容中的术语“用户画像”是指用于刻画用户特征的标签集合,诸如用户的年龄、性别、地域、所在城市、星座、学历、家庭结构、婚姻状况、兴趣爱好、性格、收入、消费能力、偿还习惯、偿还能力、偿还意愿、通话习惯、所属购买群体等。
本公开内容中的术语“用户基本信息”可以包括但不限于用户的年龄、性别、地域、所在城市、星座、学历、家庭结构、婚姻状况、兴趣爱好、收入等。
本公开内容中的术语“用户行为信息”可以包括但不限于消费信息、借贷信息、偿还信息(例如,偿还时间等)、通话信息(例如,通话时长、通话时间段、通话接通率、通话语速、语气和语态等)等。
本公开内容中的术语“员工画像”是指用于刻画员工特征的标签集合,例如员工的年龄、性别、地域、所在城市、星座、学历、家庭结构、婚姻状况、兴趣爱好、工作年限、性格、催收能力、职业素养、通话习惯等。
本公开内容中的术语“员工基本信息”可以包括但不限于用户的年龄、性别、地域、所在城市、星座、学历、家庭结构、婚姻状况、兴趣爱好、工作年限等。
本公开内容中的术语“员工行为信息”可以包括但不限于通话信息(例如,通话时长、通话时间段、通话接通率、通话语速、语气和语态等)等。
本公开内容中的术语“产品画像”是指用于刻画产品的特征的标签集合,例如产品在开发设计时面向的购买群体、产品在实际销售时面向的购买群体等。
本公开内容中的术语“第一”、“第二”仅用于描述指代、目的或某具体事物,而不能理解为指示或暗示相对重要性,或者隐含指明所指示的技术特征的数量。
本公开内容中的术语“多个”是指两个或两个以上。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当视为说明书的一部分。对于附图中的各单元之间的连线,仅仅是为了便于说明,其表示至少连线两端的单元是相互通信的,并非旨在限制未连线的单元之间无法通信。
在介绍本申请所提出的解决方案之前,申请人首先介绍一下目前的现有技术现状。在贷后作为风险控制的重要环节,一直是网贷公司关注的重点,针对不同的逾期状态,进行对应的催收策略,当前传统的催收方式主要还是短信、打电话、催员上门,一般短信催收用于逾期天数较短的案件,逾期天数达到一定天数之后坐席开始进行电话催收,部分逾期严重的案件会安排催员上门催收。申请人针对存量客户具有完善的贷后管理和催收体系,分别针对C、M1、M2、M3、M3+以上分别制定了不同的催收策略,在人员管理方面,注重梯队建设,针对不同的逾期状态客户匹配最优的人员。
但是,传统的催收方式随着业务量的增大,需要消耗大量的人力,同时对于同一逾期状态属性不同的客户未能有策略性的最优催收方法,这样的催收往往伴随着成本的不断增加,给公司带来更多的成本压力,催收效果也未能有显著提高。
传统的贷后催收以及风险控制未能对每一个客户进行科学的属性分析以及针对性的风险控制,申请人建立了大数据贷后平台,针对这些海量数据,通过大数据分析,文本挖掘,语音语义分析,建立了针对每个存量客户的催收评分卡,同时结合当前迅速发展的人工智能技术,让机器代替人工去解决一些基础性的预催收以及短期逾期的催收提醒,中期逾期的催收干预,以及违约客户的深度挖掘,从而搭建了一套针对每一个客户的智能贷后风险平台,从根本上实现了对每个存量客户的贷后管理和风险预警,在提高催收效率的同时也实现了对公司运营成本的降低。
具体而言,在贷后管理方面,目前行业内的贷后管理集中在对于不同逾期状态客户的管理,极少对未违约客户进行贷后预警以及风险识别,例如,现在的催收主要是针对已经逾期的客户,通过短信打电话外访等形式将已经拖欠的款项追回,是一种滞后性的风险控制;也未对同一逾期状态的客户进行区别性的管理,例如,现在同一逾期状态的客户,催员所用的话术以及催收方法是相同的,没有一种指导性的方法可以将这些同一逾期状态的客户进行一个区分,不同属性的客户所用方法需要有区别;现在的贷后风险控制还是以人工催收为主,未能将人工智能技术深入应用在催收管理以及风险预警的各个方面。
另一方面,在催收评分卡方面,行业内催收评分卡主要研究客户的历史还款行为,对于历史催收记录则并没有形成深层次的挖掘。此外,未联动A卡(申请时的评分卡)对客户进行多维度建模。再者,行业内大部分评分卡都是静态评分卡,未能逐日迭代,也就形成不了动态评分卡,从而更加精准的对客户进行有效贷后管理。
基于以上现状,本申请的申请人提出了以下将详细介绍的解决方案,该解决方案能够应用于图1所示生成催收评分卡的场景之中,图1示出了本公开内容的实施例可以应用于其中的基于人工智能生成催收评分卡的示例性环境100的示意架构图。
示例性环境100包括机构(例如,互联网金融公司)的员工101-103、业务处理平台110。员工101-103可以通过有线或无线方式连接到业务处理平台110。业务处理平台110可以处理与用户相关的各种业务。在示例性环境110中,业务处理平台110连接到网络111(例如,有线或无线通信网络),并且网络111经由通信链路112(例如,有线或无线链路)与机构所服务的用户121-123相连接。业务处理平台110可以提供例如语音处理模块、邮件处理模块、短信处理模块等对话处理模块,使得机构的员工101-103能够通过这些模块,经由网络111与机构所服务的用户121-123进行交互式对话(例如,语音、邮件、短信等)。当用户121-123中的用户未能按时偿还机构的产品(例如,金融产品)时,机构可以处理与该产品相关联的催收业务。如前所述,出于控制成本的目的,机构多以对话(例如,语音、邮件、短信等)催收为主,其中,使机构的员工101-103中的员工能够经由网络111与该用户进行交互式对话以进行催收。应当理解,图1中示出的员工和用户的数量仅是示意而非限制,其可以是任意数量。
图2示出了依据本公开内容的实施例的基于人工智能生成催收评分卡的方法200的流程图。从图中可以看出,该方法200至少包括以下四个步骤,即首先在方法步骤210中将获取模型数据集合。
具体而言,建立模型数据集合,也就是将当前已有数据进行分类汇总,其主要包括以下几类信息:
a、客户基本信息,例如提取客户申请贷款时的信息,主要包括月收入、年龄、性别、居住城市、行业、学历等。
b、客户还款记录:根据客户在模型执行前的还款行为,提取字段月还金额,还款时间、剩余本金比例、首次逾期期数等,同时建立还款记录衍生字段约80个,如:历史最大逾期天数/取数月MOB、3个月最大逾期天数6个月变化率等
c、客户催收记录:催员在对客户进行催收时,会在催收系统形成相应的催收记录,提取这些文本信息,包括:跳票次数、承诺还款次数、前一次催收客户状态等,同时,在催员与客户互动时,利用语音识别技术以及自然语言处理(NLP:Natural LanguageProcessing)技术提取客户回答的关键字,匹配当前已有敏感度词库,形成敏感词字段作为变量,这些敏感词字段包括积极敏感词字段、中性敏感词字段、消极敏感词字段,每个字段下面会有不同的标签分类,若客户的回答命中某一个标签,即被归为某个敏感词下面的某一类,譬如:催员在与客户的互动中,催员问客户什么时候还款,客户回答:“没钱”,即命中消极敏感词下“不打算还款”标签;同时,根据这些标签,还可以建立更多的衍生变量,如“过去三个月客户不打算还款次数”等,形成更多的数据维度
d、客户关联方信息:利用知识图谱(Knowledge Graph),找出强连通图,并把它标记出来,形成强风险关联点,基于动态的网络分析,形成动态的客户强关联信息提取,建立客户关联信息字段,如客户与黑中介联系强弱(举例说明:当客户A在知识图谱中与B某有关系传递,B某与C某有关系传递,C某为某黑中介,则通过知识图谱中的层级数给定关系强弱系数)、客户所在区域风险强度(举例说明:根据客户A常在活动区域与黑中介的某个位置实体有关系传递,则认为客户A有违约风险),目前知识图谱构建的主要方法为神经网络。
接下来,该方法200还包括数据清洗和处理步骤220,在方法步骤220中,对所述模型数据集合进行数据清洗并将清洗后的模型数据集合根据是否逾期分为未逾期模型数据集合和逾期模型数据集合。然后,在方法步骤230中,使用K折叠交叉验证方法分别将未逾期模型数据集合和逾期模型数据集合分为与未逾期模型数据集合相关联的第一训练集和第一验证集以及与逾期模型数据集合相关联的第二训练集和第二验证集。
具体而言,基于前一方法步骤210中的模型数据集合,进行数据清洗、筛选、处理。首先需要对模型数据集合进行建模对象的划分:即传统建模整合建模数据,使用数据挖掘和机器学习的方法建立催收评分卡;本次建模打破传统建模大而全的整体性分析,对客户进行分群。例如可以将客户分为正常客户,逾期0-7天客户,逾期8-30天客户。对于正常客户,计算其剩余本金比例,将正常客户根据剩余本金比例划分为两大类;对于逾期客户,计算其近三个月回款率,将逾期客户根据回款率划分两大类。基于以上计算形成针对不同客群的六套评分卡体系。
优选地,针对正常客户,预测未来发生违约概率,将对客户潜在流失的精准预估转化成模型的打分,辅助催收部门制定预防流失策略。针对逾期0-7天客户,预测客户未来还款概率,将对客户潜在还款概率的精准预估转化成模型打分,辅助催收部门制定催回策略。针对逾期8-30天客户,预测客户未来还款概率,精准挖掘潜在的高概率还款客户,辅助催收部门快速精准重点催收高评分客户。建模时间窗口为6个月前的放款,对于建模样本随机按照一定比例抽样,利用k-fold cross validation(k-折叠交叉验证)方法对模型划分训练集与验证集,找到使得模型泛化性能最优的超参值。
最后,在方法步骤240中,使用逻辑回归方法和XGBoost方法分别基于所述第一训练集和第一验证集获得与所述未逾期模型数据集合相关联的第一催收评分卡,并且基于所述第二训练集和第二验证集获得与所述逾期模型数据集合相关联的第二催收评分卡。
具体而言,在方法步骤230完成数据的清洗、处理与筛选后,对于有独立性的变量用决策树、卡方分箱做分组计算,剔除iv值小的变量,对剩下的变量用逻辑回归(LogisticRegression:LR)以及XGBoost算法确定最终进入模型的变量,通过AUC以及KS指标来确定模型的效果优劣,根据信用评分打分逻辑,确定每个变量的分组得分,并用测试集去验证模型结果的准确性,最终形成针对催收对象的综合评分以及风险等级。
优选地,该方法200还能够包括根据更新后的模型数据集合对所述第一催收评分卡和所述第二催收评分卡进行迭代,以获得更新后的第一催收评分卡和更新后的第二催收评分卡。
具体而言,根据前述步骤得到的变量以及各组分值,确定评分卡打分逻辑,并部署在规则引擎中,每日迭代模型,根据模型结果,制定针对于不同催收对象的催收策略,实现催员与客户的有效沟通以及数据的实时更新与反馈,形成一套基于动态数据的多维度的催收评分卡。
上述的模型数据集合包括与客户相关联的基本信息、还款记录、催收记录和/或关联方信息。而催收记录包括跳票次数、承诺还款次数和/或前一次催收客户状态。其中,所述关联方信息包括通过知识图谱而确定为与所述客户关联的第三方的信息。
更为优选地,该方法还能够包括以下步骤(在图中未示出):
将所述逾期模型数据集合根据逾期时间的长短进一步划分为第一逾期模型数据集合和第二逾期模型数据集合;以及
使用逻辑回归方法和XGBoost方法分别基于所述第一逾期模型数据集合获得第三催收评分卡,并且基于所述第二逾期模型数据集合获得第四催收评分卡。
更为优选地,该方法还能够包括以下步骤(在图中未示出):
将未逾期模型数据集合根据剩余本金比例分为第一未逾期模型数据集合和第二未逾期模型数据集合;
将逾期模型数据集合根据回款率以及逾期时间的长短分为第一逾期模型数据集合、第二逾期模型数据集合、第三逾期模型数据集合和第四逾期模型数据集合;以及
使用逻辑回归方法和XGBoost方法分别获得与所述第一未逾期模型数据集合、所述第二未逾期模型数据集合、所述第一逾期模型数据集合、所述第二逾期模型数据集合、所述第三逾期模型数据集合以及所述第四逾期模型数据集合相关联的六个催收评分卡。
传统催收评分卡主要是依赖于客户的基本信息及还款记录,本公开内容在传统催收评分卡的基础之上,增加了结构化的催收记录,以及利用NLP技术抓取的非结构化的动态催收记录,同时,与传统评分卡不同的是本公开内容利用知识图谱的分析,增加了对于被催对象的实时的关联信息的提取,不仅仅利用被催对象的行为来预测其未来的还款意愿,更通过知识图谱,利用被催对象的关联人信息预测其未来的还款意愿。且在以上六个模型中,我们通过对六类客户分别建模,排除不进行客户分群造成的偏差和噪音,深度挖掘客户的历史还款记录和客户与催收人员的沟通数据,使得模型更加精准,辅助建立更加精准的策略。
另外或替代地,上述方法能够通过计算机程序产品,即计算机可读存储介质来实现。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开内容的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
图3示出了根据本公开内容的实施例的基于人工智能生成催收评分卡的装置300的示意图。应当理解,装置300可以实现图2中的基于人工智能生成催收评分卡的方法200的功能。从图3中可以看出基于人工智能生成催收评分卡的装置300包括处理器301和存储器302。处理器301可以是中央处理器(CPU)、微控制器、专用集成电路(ASIC)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、或是被配置为实现本公开内容的实施例的一个或多个集成电路。存储器302可以包括易失性存储器,也可以包括非易失性存储器,诸如ROM、RAM、移动盘、磁盘、光盘和U盘等。当存储在存储器302中的指令执行时使得处理器301执行以下操作:
获取模型数据集合;
对所述模型数据集合进行数据清洗并将清洗后的模型数据集合根据是否逾期分为未逾期模型数据集合和逾期模型数据集合;
使用K折叠交叉验证方法分别将未逾期模型数据集合和逾期模型数据集合分为与未逾期模型数据集合相关联的第一训练集和第一验证集以及与逾期模型数据集合相关联的第二训练集和第二验证集;以及
使用逻辑回归方法和XGBoost方法分别基于所述第一训练集和第一验证集获得与所述未逾期模型数据集合相关联的第一催收评分卡,并且基于所述第二训练集和第二验证集获得与所述逾期模型数据集合相关联的第二催收评分卡。
在依据本公开内容的一个实施例中,当所述指令被执行时还使得所述处理器执行以下操作:
根据更新后的模型数据集合对所述第一催收评分卡和所述第二催收评分卡进行迭代,以获得更新后的第一催收评分卡和更新后的第二催收评分卡。
在依据本公开内容的一个实施例中,所述模型数据集合包括与客户相关联的基本信息、还款记录、催收记录和/或关联方信息。
在依据本公开内容的一个实施例中,所述催收记录包括跳票次数、承诺还款次数和/或前一次催收客户状态。
在依据本公开内容的一个实施例中,所述关联方信息包括通过知识图谱而确定为与所述客户关联的第三方的信息。
在依据本公开内容的一个实施例中,当所述指令被执行时还使得所述处理器执行以下操作:
将所述逾期模型数据集合根据逾期时间的长短进一步划分为第一逾期模型数据集合和第二逾期模型数据集合;以及
使用逻辑回归方法和XGBoost方法分别基于所述第一逾期模型数据集合获得第三催收评分卡,并且基于所述第二逾期模型数据集合获得第四催收评分卡。
在依据本公开内容的一个实施例中,当所述指令被执行时还使得所述处理器执行以下操作:
将未逾期模型数据集合根据剩余本金比例分为第一未逾期模型数据集合和第二未逾期模型数据集合;
将逾期模型数据集合根据回款率以及逾期时间的长短分为第一逾期模型数据集合、第二逾期模型数据集合、第三逾期模型数据集合和第四逾期模型数据集合;以及
使用逻辑回归方法和XGBoost方法分别获得与所述第一未逾期模型数据集合、所述第二未逾期模型数据集合、所述第一逾期模型数据集合、所述第二逾期模型数据集合、所述第三逾期模型数据集合以及所述第四逾期模型数据集合相关联的六个催收评分卡。
一般而言,本公开内容的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开内容的实施例的各方面图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
应当注意,尽管在上文的详细描述中提及了装置的若干模块或单元,但是这种划分仅仅是示例性而非强制性的。实际上,根据本公开内容的实施例,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
以上所述仅为本公开内容的实施例可选实施例,并不用于限制本公开内容的实施例,对于本领域的技术人员来说,本公开内容的实施例可以有各种更改和变化。凡在本公开内容的实施例的精神和原则之内,所作的任何修改、等效替换、改进等,均应包含在本公开内容的实施例的保护范围之内。
虽然已经参考若干具体实施例描述了本公开内容的实施例,但是应该理解,本公开内容的实施例并不限于所公开的具体实施例。本公开内容的实施例旨在涵盖在所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释,从而包含所有这样的修改及等同结构和功能。
Claims (15)
1.一种基于人工智能生成催收评分卡的方法,其特征在于,所述方法包括:
获取模型数据集合;
对所述模型数据集合进行数据清洗并将清洗后的模型数据集合根据是否逾期分为未逾期模型数据集合和逾期模型数据集合;
使用K折叠交叉验证方法分别将未逾期模型数据集合和逾期模型数据集合分为与未逾期模型数据集合相关联的第一训练集和第一验证集以及与逾期模型数据集合相关联的第二训练集和第二验证集;以及
使用逻辑回归方法和XGBoost方法分别基于所述第一训练集和第一验证集获得与所述未逾期模型数据集合相关联的第一催收评分卡,并且基于所述第二训练集和第二验证集获得与所述逾期模型数据集合相关联的第二催收评分卡。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据更新后的模型数据集合对所述第一催收评分卡和所述第二催收评分卡进行迭代,以获得更新后的第一催收评分卡和更新后的第二催收评分卡。
3.根据权利要求1或2所述的方法,其特征在于,所述模型数据集合包括与客户相关联的基本信息、还款记录、催收记录和/或关联方信息。
4.根据权利要求3所述的方法,其特征在于,所述催收记录包括跳票次数、承诺还款次数和/或前一次催收客户状态。
5.根据权利要求3所述的方法,其特征在于,所述关联方信息包括通过知识图谱而确定为与所述客户关联的第三方的信息。
6.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
将所述逾期模型数据集合根据逾期时间的长短进一步划分为第一逾期模型数据集合和第二逾期模型数据集合;以及
使用逻辑回归方法和XGBoost方法分别基于所述第一逾期模型数据集合获得第三催收评分卡,并且基于所述第二逾期模型数据集合获得第四催收评分卡。
7.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
将未逾期模型数据集合根据剩余本金比例分为第一未逾期模型数据集合和第二未逾期模型数据集合;
将逾期模型数据集合根据回款率以及逾期时间的长短分为第一逾期模型数据集合、第二逾期模型数据集合、第三逾期模型数据集合和第四逾期模型数据集合;以及
使用逻辑回归方法和XGBoost方法分别获得与所述第一未逾期模型数据集合、所述第二未逾期模型数据集合、所述第一逾期模型数据集合、所述第二逾期模型数据集合、所述第三逾期模型数据集合以及所述第四逾期模型数据集合相关联的六个催收评分卡。
8.一种基于人工智能生成催收评分卡的装置,其特征在于,包括:
处理器;以及
存储器,其用于存储指令,当所述指令被执行时使得所述处理器执行以下操作:
获取模型数据集合;
对所述模型数据集合进行数据清洗并将清洗后的模型数据集合根据是否逾期分为未逾期模型数据集合和逾期模型数据集合;
使用K折叠交叉验证方法分别将未逾期模型数据集合和逾期模型数据集合分为与未逾期模型数据集合相关联的第一训练集和第一验证集以及与逾期模型数据集合相关联的第二训练集和第二验证集;以及
使用逻辑回归方法和XGBoost方法分别基于所述第一训练集和第一验证集获得与所述未逾期模型数据集合相关联的第一催收评分卡,并且基于所述第二训练集和第二验证集获得与所述逾期模型数据集合相关联的第二催收评分卡。
9.根据权利要求1所述的装置,其特征在于,当所述指令被执行时还使得所述处理器执行以下操作:
根据更新后的模型数据集合对所述第一催收评分卡和所述第二催收评分卡进行迭代,以获得更新后的第一催收评分卡和更新后的第二催收评分卡。
10.根据权利要求8或9所述的装置,其特征在于,所述模型数据集合包括与客户相关联的基本信息、还款记录、催收记录和/或关联方信息。
11.根据权利要求10所述的装置,其特征在于,所述催收记录包括跳票次数、承诺还款次数和/或前一次催收客户状态。
12.根据权利要求10所述的装置,其特征在于,所述关联方信息包括通过知识图谱而确定为与所述客户关联的第三方的信息。
13.根据权利要求8或9所述的装置,其特征在于,当所述指令被执行时还使得所述处理器执行以下操作:
将所述逾期模型数据集合根据逾期时间的长短进一步划分为第一逾期模型数据集合和第二逾期模型数据集合;以及
使用逻辑回归方法和XGBoost方法分别基于所述第一逾期模型数据集合获得第三催收评分卡,并且基于所述第二逾期模型数据集合获得第四催收评分卡。
14.根据权利要求8或9所述的装置,其特征在于,当所述指令被执行时还使得所述处理器执行以下操作:
将未逾期模型数据集合根据剩余本金比例分为第一未逾期模型数据集合和第二未逾期模型数据集合;
将逾期模型数据集合根据回款率以及逾期时间的长短分为第一逾期模型数据集合、第二逾期模型数据集合、第三逾期模型数据集合和第四逾期模型数据集合;以及
使用逻辑回归方法和XGBoost方法分别获得与所述第一未逾期模型数据集合、所述第二未逾期模型数据集合、所述第一逾期模型数据集合、所述第二逾期模型数据集合、所述第三逾期模型数据集合以及所述第四逾期模型数据集合相关联的六个催收评分卡。
15.一种计算机可读存储介质,包括计算机可执行指令,所述计算机可执行指令在装置中运行时使得所述装置执行根据权利要求1至7中任一项所述的基于人工智能生成催收评分卡的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811433898.6A CN109523185A (zh) | 2018-11-28 | 2018-11-28 | 基于人工智能生成催收评分卡的方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811433898.6A CN109523185A (zh) | 2018-11-28 | 2018-11-28 | 基于人工智能生成催收评分卡的方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109523185A true CN109523185A (zh) | 2019-03-26 |
Family
ID=65794828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811433898.6A Pending CN109523185A (zh) | 2018-11-28 | 2018-11-28 | 基于人工智能生成催收评分卡的方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109523185A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111986018A (zh) * | 2019-05-22 | 2020-11-24 | 财付通支付科技有限公司 | 基于预定催收系统的账单催收方法、装置及电子设备 |
CN114745472A (zh) * | 2022-03-29 | 2022-07-12 | 京东科技控股股份有限公司 | 一种催收业务处理方法和系统 |
CN114996371A (zh) * | 2022-08-03 | 2022-09-02 | 广东中盈盛达数字科技有限公司 | 基于图论算法的关联企业反欺诈模型构建方法及系统 |
-
2018
- 2018-11-28 CN CN201811433898.6A patent/CN109523185A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111986018A (zh) * | 2019-05-22 | 2020-11-24 | 财付通支付科技有限公司 | 基于预定催收系统的账单催收方法、装置及电子设备 |
CN114745472A (zh) * | 2022-03-29 | 2022-07-12 | 京东科技控股股份有限公司 | 一种催收业务处理方法和系统 |
CN114996371A (zh) * | 2022-08-03 | 2022-09-02 | 广东中盈盛达数字科技有限公司 | 基于图论算法的关联企业反欺诈模型构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109509086A (zh) | 基于人工智能的处理催收业务的方法、装置及存储介质 | |
TWI788529B (zh) | 基於lstm模型的信用風險預測方法及裝置 | |
CN108846520B (zh) | 贷款逾期预测方法、装置以及计算机可读存储介质 | |
TW202022769A (zh) | 風險辨識模型訓練方法、裝置及伺服器 | |
CN109409677A (zh) | 企业信用风险评估方法、装置、设备及存储介质 | |
CN109767312B (zh) | 一种信用评估模型训练、评估方法与装置 | |
CN111080338B (zh) | 用户数据的处理方法、装置、电子设备及存储介质 | |
CN115310425B (zh) | 基于政策文本分类和关键信息识别的政策文本分析方法 | |
CN110276679A (zh) | 一种面向深度学习的网络个人信贷欺诈行为检测方法 | |
CN109359818A (zh) | 一种对企业进行风险量化评估的方法及六棱星模型 | |
CN104616198A (zh) | 一种基于文本分析的p2p网络借贷风险预测系统 | |
Lu et al. | Goal-oriented dialogue policy learning from failures | |
CN109523185A (zh) | 基于人工智能生成催收评分卡的方法、装置及存储介质 | |
CN110532398A (zh) | 基于多任务联合神经网络模型的家族图谱自动构建方法 | |
CN111199469A (zh) | 用户还款模型生成方法、装置及电子设备 | |
CN112989761A (zh) | 文本分类方法及装置 | |
CN110276677A (zh) | 基于大数据平台的还款预测方法、装置、设备及存储介质 | |
CN110688478A (zh) | 一种答案排序方法、装置及存储介质 | |
Gu et al. | Predicting stock prices with FinBERT-LSTM: Integrating news sentiment analysis | |
Ardakani et al. | Big Data Analytics for Smart Urban Systems | |
US20230252387A1 (en) | Apparatus, method and recording medium storing commands for providing artificial-intelligence-based risk management solution in credit exposure business of financial institution | |
CN109635289A (zh) | 词条分类方法及审计信息抽取方法 | |
Rahahleh et al. | The artificial intelligence in the audit on reliability of accounting information and earnings manipulation detection | |
Prasanth et al. | Intelligent loan eligibility and approval system based on random forest algorithm using machine learning | |
CN110489660A (zh) | 一种社交媒体公开数据的用户经济状况画像方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190326 |
|
RJ01 | Rejection of invention patent application after publication |