CN115587887A - 基于供应链金融业务的团队欺诈识别方法及装置 - Google Patents

基于供应链金融业务的团队欺诈识别方法及装置 Download PDF

Info

Publication number
CN115587887A
CN115587887A CN202211260736.3A CN202211260736A CN115587887A CN 115587887 A CN115587887 A CN 115587887A CN 202211260736 A CN202211260736 A CN 202211260736A CN 115587887 A CN115587887 A CN 115587887A
Authority
CN
China
Prior art keywords
risk
enterprise
sample
data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211260736.3A
Other languages
English (en)
Inventor
吕思凝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shangyin Microchip Technology Co ltd
Original Assignee
Beijing Shangyin Microchip Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shangyin Microchip Technology Co ltd filed Critical Beijing Shangyin Microchip Technology Co ltd
Priority to CN202211260736.3A priority Critical patent/CN115587887A/zh
Publication of CN115587887A publication Critical patent/CN115587887A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Technology Law (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提供一种基于供应链金融业务的团队欺诈识别方法及装置,所述方法包括:获取第一预设数量的风险企业的历史交易数据;提取历史交易数据中的风险因素,并确定各个风险因素在风险企业和正常企业之间的特征差异,得到各个存在明显差异的风险因素;量化各个存在明显差异的风险因素,得到风险指标;根据风险指标进行模型训练,得到评分模型;基于评分模型,识别企业供应链金融业务中各个企业存在的团队欺诈风险。通过上述方法能够合理分配银行供应链金融额度,使真正有融资需求的企业实现融资。

Description

基于供应链金融业务的团队欺诈识别方法及装置
技术领域
本发明涉及金融技术领域,尤其涉及一种基于供应链金融业务的团队欺诈识别方法及装置。
背景技术
供应链金融对商业银行的价值在于:供应链金融实现银企互利共赢,在供应链金融模式下,银行脱离单个企业的局限,站在产业供应链的全局和高度,向所有成员的企业进行融资安排,通过中小企业与核心企业的资信捆绑来提供授信。
但是,在实际开展业务时,很多企业伪造贸易背景,从上游企业收集融资电子凭证,将电子凭证出售给下游企业,帮助下游企业进行融资的同时赚取服务费,这种行为不仅扰乱了正常的市场环境,还占用了银行供应链金融方面的额度,使真正有融资需求的企业无法进行融资。
发明内容
有鉴于此,本发明实施例提供一种基于供应链金融业务的团队欺诈识别方法及装置,以实现合理分配银行供应链金融额度,使真正有融资需求的企业实现融资的目的。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面公开了一种基于供应链金融业务的团队欺诈识别方法,所述方法包括:
获取第一预设数量的风险企业的历史交易数据,所述历史交易数据包括企业供应链金融业务中的业务数据和工商司法数据;
提取所述历史交易数据中的风险因素,并确定各个所述风险因素在所述风险企业和正常企业之间的特征差异,得到各个存在明显差异的风险因素;
量化各个所述存在明显差异的风险因素,得到风险指标;
根据所述风险指标进行模型训练,得到评分模型;
基于所述评分模型,识别所述企业供应链金融业务中各个企业存在的团队欺诈风险。
可选的,所述提取所述历史交易数据中的风险因素,并确定各个所述风险因素在所述风险企业和正常企业之间的特征差异,得到各个存在明显差异的风险因素,包括:
提取所述历史交易数据中的风险因素,并确定各个所述风险因素的解释性;
根据各个所述风险因素的解释性,得到各个解释性较强的风险因素;
比较各个所述解释性较强的风险因素在所述风险企业和正常企业之间的特征差异,得到各个存在明显差异的风险因素。
可选的,所述量化各个所述存在明显差异的风险因素,得到风险指标,包括:
将各个所述存在明显差异的风险因素进行特征构造,得到已特征构造的风险因素;
对所述已特征构造的风险因素进行特征选择,得到各个已处理数据;
分析各个所述已处理数据,得到各个所述已处理数据的内在关联性;
根据各个所述已处理数据的内在关联性,抽取所述企业供应链金融业务中的第二预设数量的链条企业的部分数据作为模型样本;
对所述模型样本中的样本变量进行分组、合并和转换,得到各个预测能力较强的样本变量。
可选的,所述对所述已特征构造的风险因素进行特征选择,得到各个已处理数据,包括:
利用过滤法,对所述已特征构造的风险因素进行特征选择,得到各个已处理数据;
或者,
利用包装法,对所述已特征构造的风险因素进行特征选择,得到各个所述已处理数据;
或者,
利用嵌入法,对所述已特征构造的风险因素进行特征选择,得到各个所述已处理数据。
可选的,所述对所述模型样本中的样本变量进行分组、合并和转换,得到各个预测能力较强的样本变量,包括:
若所述模型样本中的样本变量为连续变量,确定分割点的数量;
基于所述切割点的数量,将所述样本变量分为多个区间段,并确定每一所述区间段的样本变量的预测能力,所述区间段的数量等于所述切割点的数量加1;
比较每一所述区间段的样本变量的预测能力,得到各个预测能力较强的样本变量;
若所述模型样本中的样本变量为离散变量,确定每一所述样本变量的预测能力;
将各个具有相近的预测能力的样本变量合并为一组,得到多组样本变量;
比较每组所述样本变量的预测能力,得到各个所述预测能力较强的样本变量。
可选的,所述根据所述风险指标进行模型训练,得到评分模型,包括:
将各个所述预测能力较强的样本变量进行逻辑回归运算,得到初始回归模型;
基于初始回归模型,模拟各个企业存在团队欺诈风险的第一风险概率;
通过概率分数转换算法,将各个所述第一风险概率转换成分数,得到初始评分卡;
将所述初始评分卡进行拒绝推论,得到样本数据,所述样本数据包括核准企业的企业数据和申请被拒绝企业的企业数据;
利用所述样本数据,重新对各个所述预测能力较强的样本变量进行分组,得到第二数据集;
利用所述第二数据集,建立逻辑回归模型;
基于所述逻辑回归模型,模拟各个所述企业存在团队欺诈风险的第二风险概率;
通过所述概率分数转换算法,将各个所述第二风险概率转换成分数,得到最终评分卡;
基于所述最终评分卡,创建评分模型。
可选的,所述将初始评分卡进行拒绝推论,得到样本数据,包括:
确定申请被拒绝企业,并获取所述申请被拒绝企业的企业数据;
利用所述初始评分卡对所述申请被拒绝企业进行评分,得到每一所述申请被拒绝企业被审批成为好客户的概率和坏客户的概率;
按照所述申请被拒绝企业被审批成为好客户的概率和坏客户的概率,将所述申请被拒绝企业的企业数据添加至所述模型样本中,得到样本数据。
可选的,在所述基于所述评分模型,识别企业供应链金融业务中各个企业存在的团队欺诈风险之前,还包括:
校验所述评分模型的预测能力和稳定性。
可选的,还包括:
建立多种报表;
基于所述报表,对所述评分模型的有效性和稳定性进行监测。
本发明实施例第二方面公开了一种基于供应链金融业务的团队欺诈识别装置,所述装置包括:
获取模块,用于获取第一预设数量的风险企业的历史交易数据,所述历史交易数据包括企业供应链金融业务中的业务数据和工商司法数据;
处理模块,用于提取所述历史交易数据中的风险因素,并确定各个所述风险因素在所述风险企业和正常企业之间的特征差异,得到各个存在明显差异的风险因素;
量化模块,用于量化各个所述存在明显差异的风险因素,得到风险指标;
模型训练模块,用于根据所述风险指标进行模型训练,得到评分模型;
识别模块,用于基于所述评分模型,识别所述企业供应链金融业务中各个企业存在的团队欺诈风险。
基于上述本发明实施例提供的一种基于供应链金融业务的团队欺诈识别方法及装置,所述方法包括:获取第一预设数量的风险企业的历史交易数据,所述历史交易数据包括企业供应链金融业务中的业务数据和工商司法数据;提取所述历史交易数据中的风险因素,并确定各个所述风险因素在所述风险企业和正常企业之间的特征差异,得到各个存在明显差异的风险因素;量化各个所述存在明显差异的风险因素,得到风险指标;根据所述风险指标进行模型训练,得到评分模型;基于所述评分模型,识别所述企业供应链金融业务中各个企业存在的团队欺诈风险。在本方案中,在提取风险因素后,确定各个风险因素在风险企业和正常企业之间的特征差异,对各个存在明显差异的风险因素进行量化,根据得到的风险指标构建评分模型,并利用评分模型进行团队欺诈风险识别,从而能够合理分配银行供应链金融额度,使真正有融资需求的企业实现融资。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种基于供应链金融业务的团队欺诈识别方法的流程示意图;
图2为本发明实施例提供的一种得到各个存在明显差异的风险因素的流程示意图;
图3为本发明实施例提供的一种量化各个存在明显差异的风险因素的流程示意图;
图4为本发明实施例提供的一种对模型样本中的样本变量进行分组、合并和转换的流程示意图;
图5为本发明实施例提供的一种创建评分模型的流程示意图;
图6为本发明实施例提供的一种将初始评分卡进行拒绝推论的流程示意图;
图7为本发明实施例提供的一种基于供应链金融业务的团队欺诈识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。
由背景技术可知,在实际开展业务时,很多企业伪造贸易背景,从上游企业收集融资电子凭证,将电子凭证出售给下游企业,帮助下游企业进行融资的同时赚取服务费,这种行为不仅扰乱了正常的市场环境,还占用了银行供应链金融方面的额度,使真正有融资需求的企业无法进行融资。
因此,本发明实施例提供一种基于供应链金融业务的团队欺诈识别方法及装置,在本方案中,在提取风险因素后,确定各个风险因素在风险企业和正常企业之间的特征差异,对各个存在明显差异的风险因素进行量化,根据得到的风险指标构建评分模型,并利用评分模型进行团队欺诈风险识别,从而能够合理分配银行供应链金融额度,使真正有融资需求的企业实现融资。
如图1所示,为本发明实施例提供的一种基于供应链金融业务的团队欺诈识别方法的流程示意图,该方法主要包括以下步骤:
步骤S101:获取第一预设数量的风险企业的历史交易数据。
在步骤S101中,历史交易数据包括企业供应链金融业务中的业务数据和工商司法数据。
优选的,第一预设数量为40。
在具体实现步骤S101的过程中,抽取第一预设数量的风险企业,并获取这些风险企业的历史交易数据,即获取这些风险企业的企业供应链金融业务中的业务数据和工商司法数据。
例如,抽取40家风险企业,并获取这40家风险企业的企业供应链金融业务中的业务数据和工商司法数据。
步骤S102:提取历史交易数据中的风险因素,并确定各个风险因素在风险企业和正常企业之间的特征差异,得到各个存在明显差异的风险因素。
举例说明各个风险因素在风险企业和正常企业之间的特征差异。
例如,在额度来源方数量方面,团伙欺诈风险企业具有众多额度来源方。
在供应商行业分布方面,风险企业上下游企业行业分布非常广泛。
在相互维护企业方面,风险企业与众多的关联企业相互维护。
在具体实现步骤S102的过程中,根据所获取的历史交易数据,也就是根据企业供应链金融业务中的业务数据和工商司法数据,提取其中的风险因素,观察各个风险因素在风险企业和正常企业之间的特征,比较各个风险因素在风险企业和正常企业之间的特征,得出各个风险因素在风险企业和正常企业之间的特征差异,进而得到各个存在明显差异的风险因素。
可选的,执行步骤S102提取历史交易数据中的风险因素,并确定各个风险因素在风险企业和正常企业之间的特征差异,得到各个存在明显差异的风险因素的过程,如图2所示,为本发明实施例提供的一种得到各个存在明显差异的风险因素的流程示意图,主要包括以下步骤:
步骤S201:提取历史交易数据中的风险因素,并确定各个风险因素的解释性。
在具体实现步骤S201的过程中,根据所获取的历史交易数据,也就是根据企业供应链金融业务中的业务数据和工商司法数据,提取其中的风险因素,观察并确定各个风险因素的解释性。
可以理解的是,从业务角度观察各个风险因素在业务中的解释性。
步骤S202:根据各个风险因素的解释性,得到各个解释性较强的风险因素。
在具体实现步骤S202的过程中,根据各个风险因素的解释性,并比较各个风险因素的解释性,得到各个解释性较强的风险因素。
步骤S203:比较各个解释性较强的风险因素在风险企业和正常企业之间的特征差异,得到各个存在明显差异的风险因素。
在具体实现步骤S203的过程中,观察各个解释性较强的风险因素在风险企业和正常企业之间的特征,比较各个解释性较强的风险因素在风险企业和正常企业之间的特征,得出各个解释性较强的风险因素在风险企业和正常企业之间的特征差异,进而得到各个存在明显差异的风险因素。
需要说明的是,得到各个存在明显差异的风险因素,也就是提取出各个存在明显差异的风险因素,结合各个存在明显差异的风险因素和企业业务数据,作为模型训练的基础。
其中,企业业务数据包括但不限于上下游企业分布、融资金额分布、融资来源分布和融资凭证经手数量等数据信息。
步骤S103:量化各个存在明显差异的风险因素,得到风险指标。
在步骤S103中,量化包括但不限于特征构造、特征选择、数据分析、变量选择及转换。
在具体实现步骤S103的过程中,将得到的各个存在明显差异的风险因素进行量化,得到风险指标。
可以理解的是,将得到的各个存在明显差异的风险因素进行特征构造、特征选择、数据分析、变量选择及转换,得到风险指标。
可选的,执行步骤S103量化各个存在明显差异的风险因素,得到风险指标的过程,如图3所示,为本发明实施例提供的一种量化各个存在明显差异的风险因素的流程示意图,主要包括以下步骤:
步骤S301:将各个存在明显差异的风险因素进行特征构造,得到已特征构造的风险因素。
在步骤S301中,特征构造包括但不限于上级企业数量、上级企业行业分布、融资凭证经手、额度来源方、凭证被流转比例、凭证被直接签发比例、被链条企业维护情况、相互维护情况和基础的统计信息的构造。
其中,基础的统计信息包括均值、最大值、最小值、方差、变异系数、与其他特征交叉信息和互相比值、趋势性、同比、环比、时间间隔类、分布峰度和偏度。
需要说明的是,将各个存在明显差异的风险因素进行特征构造是为后续模型训练提供数据基础。
步骤S302:对已特征构造的风险因素进行特征选择,得到各个已处理数据。
优选的,在一具体实施例中,利用过滤法,对已特征构造的风险因素进行特征选择,得到各个已处理数据。
需要说明的是,过滤法主要是对单个特征进行选择,主要方法有:方差、相关性、多变量的相关性、卡方检验和互信息。
在实际应用中,主要对特征的方差(波动)、IV(Information Value,信息量)、PSI(PopulationStability Index,群体稳定性指数)、相关性和多变量的相关性进行选择。
优选的,在另一具体实施例中,利用包装法,对已特征构造的风险因素进行特征选择,得到各个已处理数据。
需要说明的是,包装法是指递归特征消除。
需要说明的是,特征较多时,包装法可以等训练好一个基础模型时,对入选的模型进行特征的选择。
优选的,在又一具体实施例中,利用嵌入法,对已特征构造的风险因素进行特征选择,得到各个已处理数据。
需要说明的是,嵌入法可应用于带有惩罚项的模型和降维。
其中,带有惩罚项的模型包括但不限于逻辑回归模型、GBDT(Gradient BoostingDecision Tree,梯度提升决策树)模型和XGBoost(eXtreme Gradient Boosting,极端梯度提升)模型。
降维主要是进行主成分分析和线性判别。
需要说明的是,上述说明内容是对所获取的历史交易数据进行整理,得到企业供应链金融业务中的业务数据和工商司法数据。
步骤S303:分析各个已处理数据,得到各个已处理数据的内在关联性。
在具体实现步骤S303的过程中,对各个已处理数据进行分析,查找出各个已处理数据的内在关联性,即得到各个已处理数据的内在关联性。
步骤S304:根据各个已处理数据的内在关联性,抽取企业供应链金融业务中的第二预设数量的链条企业的部分数据作为模型样本。
优选的,第二预设数量为20余万。
在具体实现步骤S304的过程中,根据各个已处理数据的内在关联性,确定企业供应链金融业务中的第二预设数量的链条企业,抽取这些链条企业的部分数据,并将这些链条企业的部分数据作为模型样本。
例如,根据各个已处理数据的内在关联性,抽取在企业供应链金融业务中积累的20余万家链条企业的部分数据作为模型样本。
步骤S305:对模型样本中的样本变量进行分组、合并和转换,得到各个预测能力较强的样本变量。
在步骤S305中,采用best-ks和ChiMerge等分箱方法,并进行WOE(WeightofEvidence,证据权重)编码,实现对模型样本中的样本变量进行分组、合并和转换。
需要说明的是,在本发明实施例中,预测能力较强的样本变量为符合建模条件的具有较强预测能力的样本变量。
其中,建模条件包括但不限于模型区分能力较强、业务解释性较强、对模型的区分效果产生显著影响、单调性和相关性符合要求。
换而言之,预测能力较强的样本变量为模型区分能力较强、业务解释性较强、对模型的区分效果产生显著影响、单调性和相关性符合要求的样本变量中的一种或多种。
可选的,执行步骤S305对模型样本中的样本变量进行分组、合并和转换,得到各个预测能力较强的样本变量的过程,如图4所示,为本发明实施例提供的一种对模型样本中的样本变量进行分组、合并和转换的流程示意图,主要包括以下步骤:
步骤S401:判断模型样本中的样本变量是否为连续变量,若是,执行步骤S402,若否,执行步骤S405。
在步骤S401中,样本变量包括但不限于连续变量和离散变量。
在具体实现步骤S401的过程中,判断模型样本中的样本变量是否为连续变量,若是,执行步骤S402,若否,说明模型样本中的样本变量为离散变量,则执行步骤S405。
需要说明的是,如果样本变量为离散变量,每个变量值都有一定的预测能力。
步骤S402:确定分割点的数量。
在步骤S402中,确定分割点的依据是:首先,计算每一个分割点的KS(Kolmogorov-Smirnov)值,保证每一箱分割点KS值最大,并保证bad rate(坏样本率)不单调。
在具体实现步骤S402的过程中,在确定模型样本中的样本变量为连续变量的情况下,确定分割点的数量。
步骤S403:基于切割点的数量,将样本变量分为多个区间段,并确定每一区间段的样本变量的预测能力。
在步骤S403中,区间段的数量等于切割点的数量加1。
在具体实现步骤S403的过程中,基于切割点的数量,将样本变量进行分割,得到多个区间段,并确定每一区间段的样本变量的预测能力。
步骤S404:比较每一区间段的样本变量的预测能力,得到各个预测能力较强的样本变量。
在具体实现步骤S404的过程中,将每一区间段的样本变量的预测能力进行比较,得出比较结果,并根据比较结果,确定各个预测能力较强的样本变量,即得到各个预测能力较强的样本变量。
基于上述说明内容,可以理解的是,寻找合适的切割点把样本变量分为几个区间段,以使其具有最强的预测能力。
举例说明步骤S402至步骤S404,客户年龄就是连续变量,在这几步就是要研究分成几组、每组切割点在哪里预测能力是最强的。
步骤S405:确定每一样本变量的预测能力。
在具体实现步骤S405的过程中,在确定模型样本中的样本变量为离散变量的情况下,确定每一样本变量的预测能力。
步骤S406:将各个具有相近的预测能力的样本变量合并为一组,得到多组样本变量。
步骤S407:比较每组样本变量的预测能力,得到各个预测能力较强的样本变量。
在具体实现步骤S407的过程中,将每组样本变量的预测能力进行比较,得出比较结果,并根据比较结果,确定各个预测能力较强的样本变量,即得到各个预测能力较强的样本变量。
需要说明的是,通过对样本变量的分割、分组和合并转换,最终剔除掉预测能力较弱的样本变量,筛选出符合小额贷款实际业务需求、具有较强预测能力的样本变量,使建立的模型更加有效。
步骤S104:根据风险指标进行模型训练,得到评分模型。
可选的,执行步骤S104根据风险指标进行模型训练,得到评分模型的过程,如图5所示,为本发明实施例提供的一种创建评分模型的流程示意图,主要包括以下步骤:
步骤S501:将各个预测能力较强的样本变量进行逻辑回归运算,得到初始回归模型。
在步骤S501中,各个预测能力较强的样本变量形成最新数据集。
在具体实现步骤S501的过程中,将各个预测能力较强的样本变量进行逻辑回归运算,也就是说,利用由各个预测能力较强的样本变量形成的最新数据集进行逻辑回归运算,得到初始回归模型。
步骤S502:基于初始回归模型,模拟各个企业存在团队欺诈风险的第一风险概率。
在具体实现步骤S502的过程中,基于初始回归模型,模拟各个企业存在团队欺诈风险的第一风险概率,也就是说,在初始回归模型的基础上,依据初始回归模型模拟出各个企业存在团队欺诈风险的第一风险概率。
步骤S503:通过概率分数转换算法,将各个第一风险概率转换成分数,得到初始评分卡。
在步骤S503中,概率分数转换算法即为概率与分数之间的转换算法。
在具体实现步骤S503的过程中,通过概率分数转换算法,也就是通过概率与分数之间的转换算法,将各个企业存在团队欺诈风险的第一风险概率转换成分数,得到初始评分卡。
步骤S504:将初始评分卡进行拒绝推论,得到样本数据。
在步骤S504中,样本数据包括核准企业的企业数据和申请被拒绝企业的企业数据。
拒绝推论,即申请被拒绝的客户数据未纳入评分系统,导致样本选取的非随机性,整体情况因此被扭曲,评分模型的有效性降低。
需要说明的是,进行拒绝推论时,以一定的统计手段进行推测。
可选的,执行步骤S504将初始评分卡进行拒绝推论,得到样本数据的过程,如图6所示,为本发明实施例提供的一种将初始评分卡进行拒绝推论的流程示意图,主要包括以下步骤:
步骤S601:确定申请被拒绝企业,并获取申请被拒绝企业的企业数据。
步骤S602:利用初始评分卡对申请被拒绝企业进行评分,得到每一申请被拒绝企业被审批成为好客户的概率和坏客户的概率。
步骤S603:按照申请被拒绝企业被审批成为好客户的概率和坏客户的概率,将申请被拒绝企业的企业数据添加至模型样本中,得到样本数据。
可以理解的是,按照申请被拒绝企业被审批成为好客户的权重和坏客户的权重,将申请被拒绝企业的企业数据添加至模型样本中,得到样本数据。
步骤S505:利用样本数据,重新对各个预测能力较强的样本变量进行分组,得到第二数据集。
在具体实现步骤S505的过程中,利用拒绝推论后得到的样本数据,重新对各个预测能力较强的样本变量进行分组,得到第二数据集。
也就是说,利用拒绝推论后得到的核准企业的企业数据和申请被拒绝企业的企业数据,重新对各个预测能力较强的样本变量进行分组,得到第二数据集。
需要说明的是,利用样本数据,重新对各个预测能力较强的样本变量进行分组的执行原理和过程与上述对模型样本中的样本变量进行分组的执行原理和过程相同,可参见,这里不再赘述。
步骤S506:利用第二数据集,建立逻辑回归模型。
步骤S507:基于逻辑回归模型,模拟各个企业存在团队欺诈风险的第二风险概率。
在具体实现步骤S507的过程中,基于逻辑回归模型,模拟各个企业存在团队欺诈风险的第二风险概率,也就是说,在逻辑回归模型的基础上,依据逻辑回归模型模拟出各个企业存在团队欺诈风险的第二风险概率。
步骤S508:通过概率分数转换算法,将各个第二风险概率转换成分数,得到最终评分卡。
在具体实现步骤S508的过程中,通过概率分数转换算法,也就是通过概率与分数之间的转换算法,将各个企业存在团队欺诈风险的第二风险概率转换成分数,得到最终评分卡。
步骤S509:基于最终评分卡,创建评分模型。
步骤S105:基于评分模型,识别企业供应链金融业务中各个企业存在的团队欺诈风险。
在具体实现步骤S105的过程中,评分模型创建完成后,基于该评分模型,对企业供应链金融业务中各个企业存在的团队欺诈风险进行识别,从而能够及时发现企业供应链金融业务中团队欺诈风险。
可选的,在执行步骤S105基于评分模型,识别企业供应链金融业务中各个企业存在的团队欺诈风险之前,还包括:
校验评分模型的预测能力和稳定性。
需要说明的是,评分模型建立后,需要对评分模型的预测能力和稳定性进行检验后,才能运用到实际业务中。
需要说明的是,评分模型的校验方法和标准包括但不限于交换曲线、K-S指标、基尼Gini数和AR(Accuracy Ratio)值。
一般来说,如果模型的K-S值达到30%,则该模型是有效的,超过30%以上,则模型区分度越高。
在本发明实施例中,模型的K-S值达到40%以上,已经可以上线使用。
可选的,在执行步骤S105基于评分模型,识别企业供应链金融业务中各个企业存在的团队欺诈风险之后,还包括:
步骤S11:建立多种报表。
步骤S12:基于报表,对评分模型的有效性和稳定性进行监测。
例如,模型实施后,建立稳定性监控报表,比较新申请客户与开发样本客户的分值分布,监控模型的有效性。
建立特征分析报表,比较当前和开发期间的每个记分卡特征的分布,监控模型的有效性。
建立欺诈分析报表,评估不同分数段的欺诈表现,并且与开发时的预测进行比较,监控客户质量。
建立最后分值分析报表,分析不同分数段的客户。
基于本发明实施例提供的一种基于供应链金融业务的团队欺诈识别方法,通过获取第一预设数量的风险企业的历史交易数据,历史交易数据包括企业供应链金融业务中的业务数据和工商司法数据;提取历史交易数据中的风险因素,并确定各个风险因素在风险企业和正常企业之间的特征差异,得到各个存在明显差异的风险因素;量化各个存在明显差异的风险因素,得到风险指标;根据风险指标进行模型训练,得到评分模型;基于评分模型,识别企业供应链金融业务中各个企业存在的团队欺诈风险。在本方案中,在提取风险因素后,确定各个风险因素在风险企业和正常企业之间的特征差异,对各个存在明显差异的风险因素进行量化,根据得到的风险指标构建评分模型,并利用评分模型进行团队欺诈风险识别,从而能够合理分配银行供应链金融额度,使真正有融资需求的企业实现融资。
与上述本发明实施例图1示出的一种基于供应链金融业务的团队欺诈识别方法相对应,本发明实施例还对应提供了一种基于供应链金融业务的团队欺诈识别装置,如图7所示,该装置包括:获取模块71、处理模块72、量化模块73、模型训练模块74和识别模块75。
获取模块71,用于获取第一预设数量的风险企业的历史交易数据。
其中,历史交易数据包括企业供应链金融业务中的业务数据和工商司法数据。
处理模块72,用于提取历史交易数据中的风险因素,并确定各个风险因素在风险企业和正常企业之间的特征差异,得到各个存在明显差异的风险因素。
量化模块73,用于量化各个存在明显差异的风险因素,得到风险指标。
模型训练模块74,用于根据风险指标进行模型训练,得到评分模型。
识别模块75,用于基于评分模型,识别企业供应链金融业务中各个企业存在的团队欺诈风险。
可选的,基于上述图7示出的处理模块72,所述处理模块72包括:
提取单元,用于提取历史交易数据中的风险因素,并确定各个风险因素的解释性。
得到单元,用于根据各个风险因素的解释性,得到各个解释性较强的风险因素。
比较单元,用于比较各个解释性较强的风险因素在风险企业和正常企业之间的特征差异,得到各个存在明显差异的风险因素。
可选的,基于上述图7示出的量化模块73,所述量化模块73包括:
特征构造单元,用于将各个存在明显差异的风险因素进行特征构造,得到已特征构造的风险因素。
特征选择单元,用于对已特征构造的风险因素进行特征选择,得到各个已处理数据。
分析单元,用于分析各个已处理数据,得到各个已处理数据的内在关联性。
抽取单元,用于根据各个已处理数据的内在关联性,抽取企业供应链金融业务中的第二预设数量的链条企业的部分数据作为模型样本。
处理单元,用于对模型样本中的样本变量进行分组、合并和转换,得到各个预测能力较强的样本变量。
可选的,基于上述图7示出的量化模块73,所述特征选择单元具体用于:
利用过滤法,对已特征构造的风险因素进行特征选择,得到各个已处理数据。
或者,利用包装法,对已特征构造的风险因素进行特征选择,得到各个已处理数据。
或者,利用嵌入法,对已特征构造的风险因素进行特征选择,得到各个已处理数据。
可选的,基于上述图7示出的量化模块73,所述处理单元包括:
第一判断处理子单元,用于若模型样本中的样本变量为连续变量,确定分割点的数量。
分段子单元,用于基于切割点的数量,将样本变量分为多个区间段,并确定每一区间段的样本变量的预测能力。
其中,区间段的数量等于切割点的数量加1。
第一比较子单元,用于比较每一区间段的样本变量的预测能力,得到各个预测能力较强的样本变量。
第二判断处理子单元,用于若模型样本中的样本变量为离散变量,确定每一样本变量的预测能力。
合并子单元,用于将各个具有相近的预测能力的样本变量合并为一组,得到多组样本变量。
第二比较子单元,用于比较每组样本变量的预测能力,得到各个预测能力较强的样本变量。
可选的,基于上述图7示出的模型训练模块74,所述模型训练模块74包括:
第一逻辑回归运算单元,用于将各个预测能力较强的样本变量进行逻辑回归运算,得到初始回归模型。
第一模拟单元,用于基于初始回归模型,模拟各个企业存在团队欺诈风险的第一风险概率。
第一转换单元,用于通过概率分数转换算法,将各个第一风险概率转换成分数,得到初始评分卡。
拒绝推论单元,用于将初始评分卡进行拒绝推论,得到样本数据。
其中,样本数据包括核准企业的企业数据和申请被拒绝企业的企业数据。
分组单元,用于利用样本数据,重新对各个预测能力较强的样本变量进行分组,得到第二数据集。
建立单元,用于利用第二数据集,建立逻辑回归模型。
第二模拟单元,用于基于逻辑回归模型,模拟各个企业存在团队欺诈风险的第二风险概率。
第二转换单元,用于通过概率分数转换算法,将各个第二风险概率转换成分数,得到最终评分卡。
创建单元,用于基于最终评分卡,创建评分模型。
可选的,基于上述图7示出的模型训练模块74,所述拒绝推论单元包括:
获取子单元,用于确定申请被拒绝企业,并获取申请被拒绝企业的企业数据。
评分子单元,用于利用初始评分卡对申请被拒绝企业进行评分,得到每一申请被拒绝企业被审批成为好客户的概率和坏客户的概率。
添加子单元,用于按照申请被拒绝企业被审批成为好客户的概率和坏客户的概率,将申请被拒绝企业的企业数据添加至模型样本中,得到样本数据。
可选的,基于上述图7示出的基于供应链金融业务的团队欺诈识别装置,结合图7,该基于供应链金融业务的团队欺诈识别装置还进一步设置了校验模块。
校验模块,用于校验评分模型的预测能力和稳定性。
可选的,基于上述图7示出的基于供应链金融业务的团队欺诈识别装置,结合图7,该基于供应链金融业务的团队欺诈识别装置还进一步设置了监测模块。
监测模块,用于建立多种报表;基于报表,对评分模型的有效性和稳定性进行监测。
需要说明的是,上述本发明实施例公开的基于供应链金融业务的团队欺诈识别装置中的各个模块具体的原理和执行过程,与上述本发明实施基于供应链金融业务的团队欺诈识别方法相同,可参见上述本发明实施例公开的基于供应链金融业务的团队欺诈识别方法中相应的部分,这里不再进行赘述。
基于本发明实施例提供的一种基于供应链金融业务的团队欺诈识别装置,通过获取第一预设数量的风险企业的历史交易数据,历史交易数据包括企业供应链金融业务中的业务数据和工商司法数据;提取历史交易数据中的风险因素,并确定各个风险因素在风险企业和正常企业之间的特征差异,得到各个存在明显差异的风险因素;量化各个存在明显差异的风险因素,得到风险指标;根据风险指标进行模型训练,得到评分模型;基于评分模型,识别企业供应链金融业务中各个企业存在的团队欺诈风险。在本方案中,在提取风险因素后,确定各个风险因素在风险企业和正常企业之间的特征差异,对各个存在明显差异的风险因素进行量化,根据得到的风险指标构建评分模型,并利用评分模型进行团队欺诈风险识别,从而能够合理分配银行供应链金融额度,使真正有融资需求的企业实现融资。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于供应链金融业务的团队欺诈识别方法,其特征在于,所述方法包括:
获取第一预设数量的风险企业的历史交易数据,所述历史交易数据包括企业供应链金融业务中的业务数据和工商司法数据;
提取所述历史交易数据中的风险因素,并确定各个所述风险因素在所述风险企业和正常企业之间的特征差异,得到各个存在明显差异的风险因素;
量化各个所述存在明显差异的风险因素,得到风险指标;
根据所述风险指标进行模型训练,得到评分模型;
基于所述评分模型,识别所述企业供应链金融业务中各个企业存在的团队欺诈风险。
2.根据权利要求1所述的方法,其特征在于,所述提取所述历史交易数据中的风险因素,并确定各个所述风险因素在所述风险企业和正常企业之间的特征差异,得到各个存在明显差异的风险因素,包括:
提取所述历史交易数据中的风险因素,并确定各个所述风险因素的解释性;
根据各个所述风险因素的解释性,得到各个解释性较强的风险因素;
比较各个所述解释性较强的风险因素在所述风险企业和正常企业之间的特征差异,得到各个存在明显差异的风险因素。
3.根据权利要求1所述的方法,其特征在于,所述量化各个所述存在明显差异的风险因素,得到风险指标,包括:
将各个所述存在明显差异的风险因素进行特征构造,得到已特征构造的风险因素;
对所述已特征构造的风险因素进行特征选择,得到各个已处理数据;
分析各个所述已处理数据,得到各个所述已处理数据的内在关联性;
根据各个所述已处理数据的内在关联性,抽取所述企业供应链金融业务中的第二预设数量的链条企业的部分数据作为模型样本;
对所述模型样本中的样本变量进行分组、合并和转换,得到各个预测能力较强的样本变量。
4.根据权利要求3所述的方法,其特征在于,所述对所述已特征构造的风险因素进行特征选择,得到各个已处理数据,包括:
利用过滤法,对所述已特征构造的风险因素进行特征选择,得到各个已处理数据;
或者,
利用包装法,对所述已特征构造的风险因素进行特征选择,得到各个所述已处理数据;
或者,
利用嵌入法,对所述已特征构造的风险因素进行特征选择,得到各个所述已处理数据。
5.根据权利要求3所述的方法,其特征在于,所述对所述模型样本中的样本变量进行分组、合并和转换,得到各个预测能力较强的样本变量,包括:
若所述模型样本中的样本变量为连续变量,确定分割点的数量;
基于所述切割点的数量,将所述样本变量分为多个区间段,并确定每一所述区间段的样本变量的预测能力,所述区间段的数量等于所述切割点的数量加1;
比较每一所述区间段的样本变量的预测能力,得到各个预测能力较强的样本变量;
若所述模型样本中的样本变量为离散变量,确定每一所述样本变量的预测能力;
将各个具有相近的预测能力的样本变量合并为一组,得到多组样本变量;
比较每组所述样本变量的预测能力,得到各个所述预测能力较强的样本变量。
6.根据权利要求1所述的方法,其特征在于,所述根据所述风险指标进行模型训练,得到评分模型,包括:
将各个所述预测能力较强的样本变量进行逻辑回归运算,得到初始回归模型;
基于初始回归模型,模拟各个企业存在团队欺诈风险的第一风险概率;
通过概率分数转换算法,将各个所述第一风险概率转换成分数,得到初始评分卡;
将所述初始评分卡进行拒绝推论,得到样本数据,所述样本数据包括核准企业的企业数据和申请被拒绝企业的企业数据;
利用所述样本数据,重新对各个所述预测能力较强的样本变量进行分组,得到第二数据集;
利用所述第二数据集,建立逻辑回归模型;
基于所述逻辑回归模型,模拟各个所述企业存在团队欺诈风险的第二风险概率;
通过所述概率分数转换算法,将各个所述第二风险概率转换成分数,得到最终评分卡;
基于所述最终评分卡,创建评分模型。
7.根据权利要求6所述的方法,其特征在于,所述将初始评分卡进行拒绝推论,得到样本数据,包括:
确定申请被拒绝企业,并获取所述申请被拒绝企业的企业数据;
利用所述初始评分卡对所述申请被拒绝企业进行评分,得到每一所述申请被拒绝企业被审批成为好客户的概率和坏客户的概率;
按照所述申请被拒绝企业被审批成为好客户的概率和坏客户的概率,将所述申请被拒绝企业的企业数据添加至所述模型样本中,得到样本数据。
8.根据权利要求1所述的方法,其特征在于,在所述基于所述评分模型,识别企业供应链金融业务中各个企业存在的团队欺诈风险之前,还包括:
校验所述评分模型的预测能力和稳定性。
9.根据权利要求1所述的方法,其特征在于,还包括:
建立多种报表;
基于所述报表,对所述评分模型的有效性和稳定性进行监测。
10.一种基于供应链金融业务的团队欺诈识别装置,其特征在于,所述装置包括:
获取模块,用于获取第一预设数量的风险企业的历史交易数据,所述历史交易数据包括企业供应链金融业务中的业务数据和工商司法数据;
处理模块,用于提取所述历史交易数据中的风险因素,并确定各个所述风险因素在所述风险企业和正常企业之间的特征差异,得到各个存在明显差异的风险因素;
量化模块,用于量化各个所述存在明显差异的风险因素,得到风险指标;
模型训练模块,用于根据所述风险指标进行模型训练,得到评分模型;
识别模块,用于基于所述评分模型,识别所述企业供应链金融业务中各个企业存在的团队欺诈风险。
CN202211260736.3A 2022-10-14 2022-10-14 基于供应链金融业务的团队欺诈识别方法及装置 Pending CN115587887A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211260736.3A CN115587887A (zh) 2022-10-14 2022-10-14 基于供应链金融业务的团队欺诈识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211260736.3A CN115587887A (zh) 2022-10-14 2022-10-14 基于供应链金融业务的团队欺诈识别方法及装置

Publications (1)

Publication Number Publication Date
CN115587887A true CN115587887A (zh) 2023-01-10

Family

ID=84780285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211260736.3A Pending CN115587887A (zh) 2022-10-14 2022-10-14 基于供应链金融业务的团队欺诈识别方法及装置

Country Status (1)

Country Link
CN (1) CN115587887A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115841279A (zh) * 2023-02-20 2023-03-24 塔比星信息技术(深圳)有限公司 供应链数据评估方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115841279A (zh) * 2023-02-20 2023-03-24 塔比星信息技术(深圳)有限公司 供应链数据评估方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110263827B (zh) 基于交易规律识别的异常交易检测方法及装置
CN116342259A (zh) 一种用户信用自动评级方法、装置、电子设备及介质
CN111784508A (zh) 企业风险评估方法、装置及电子设备
CN112102073A (zh) 信贷风险控制方法及系统、电子设备及可读存储介质
CN111583012B (zh) 融合文本信息的信用债发债主体违约风险评估方法
CN113537807B (zh) 一种企业智慧风控方法及设备
CN114048436A (zh) 一种预测企业财务数据模型构建方法及构建装置
CN111091276A (zh) 企业风险评分方法、装置、计算机设备和存储介质
CN115587887A (zh) 基于供应链金融业务的团队欺诈识别方法及装置
CN107346515A (zh) 一种信用卡账户分期预测方法及装置
CN116128627A (zh) 风险预测方法、装置、电子设备及存储介质
CN112419030A (zh) 财务舞弊风险评估的方法、系统及设备
CN114139931A (zh) 企业数据评估方法、装置、计算机设备及存储介质
CN113919932A (zh) 一种基于贷款申请评分模型的客户评分偏移检测方法
CN111191889A (zh) 一种基于逻辑回归与投票式模型集成的评分卡开发方法
CN111724009A (zh) 风险评估方法、风控系统及风险评估设备
CN114626940A (zh) 数据分析方法、装置及电子设备
Tunç Feature selection in credibility study for finance sector
CN110619564A (zh) 一种反欺诈特征生成方法和装置
CN114092216A (zh) 企业信贷评级方法、装置、计算机设备和存储介质
CN114219611A (zh) 贷款额度计算方法、装置、计算机设备和存储介质
CN113269412A (zh) 风险评估方法及相关装置
CN112308466A (zh) 企业资质审核方法、装置、计算机设备和存储介质
CN113822751A (zh) 一种线上贷款的风险预测方法
CN113450208A (zh) 贷款风险变动预警、模型训练方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination