CN116384751A - 对风险指标进行标准化和风险评级预测的方法及计算设备 - Google Patents

对风险指标进行标准化和风险评级预测的方法及计算设备 Download PDF

Info

Publication number
CN116384751A
CN116384751A CN202310398907.7A CN202310398907A CN116384751A CN 116384751 A CN116384751 A CN 116384751A CN 202310398907 A CN202310398907 A CN 202310398907A CN 116384751 A CN116384751 A CN 116384751A
Authority
CN
China
Prior art keywords
risk
index
sample
data
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310398907.7A
Other languages
English (en)
Inventor
靳佳为
程会芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhige Digital Technology Co ltd
Original Assignee
Shenzhen Zhige Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhige Digital Technology Co ltd filed Critical Shenzhen Zhige Digital Technology Co ltd
Priority to CN202310398907.7A priority Critical patent/CN116384751A/zh
Publication of CN116384751A publication Critical patent/CN116384751A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种生成风险样本及训练风险评级预测模型的方法及计算设备。一种基于电商数据生成风险样本的方法包括:获取电商数据样本;确定用于对所述电商数据样本进行统计计算的多个时间片;对所述电商数据样本根据属性维度组合的筛选结果按所述多个时间片进行指标统计并计算风险指标,从而得到风险样本;根据所述属性维度组合对所述风险指标进行数据标准化。该方案通过对风险指标进行标准化处理,使之可用于预测或训练模型,并能够提升模型的收敛速度和精度。

Description

对风险指标进行标准化和风险评级预测的方法及计算设备
技术领域
本申请涉及机器学习及商业大数据技术领域,具体而言,涉及一种基于电商大数据对风险指标进行标准化及进行风险评级预测的方法及计算设备。
背景技术
随着网络计算技术的发展,电子商务活动中产生了大量的商业大数据。例如,与传统行业相比,电商在其生态价值链上会产生海量可获取的原始电商数据。这些数据的获取、加工、或者有效利用,可对企业经营活动提供帮助,或者对企业经营决策提供支持。
虽然这些电商大数据可资利用,例如用于计算一些企业评级的风险指标,但这些风险指标存在随不同统计维度产生偏差等问题。
在所述背景技术部分公开的上述信息仅用于加强对本申请的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请旨在提供一种基于电商大数据对风险指标进行标准化及进行风险评级预测的方法及计算设备,通过对风险指标进行标准化处理,使之可用于预测或训练模型,并能够提升模型的收敛速度和精度。
本申请的其该用户特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请的一方面,提供一种基于电商大数据对风险指标进行标准化的方法,包括:获取电商数据样本;确定用于对所述电商数据样本进行统计计算的多个时间片;对所述电商数据样本根据属性维度组合的筛选结果按所述多个时间片进行指标统计并计算风险指标,从而得到风险样本;根据所述属性维度组合对所述风险指标进行数据标准化。
根据本申请的另一方面,提供一种基于大数据进行风险评级预测的方法,包括:获取目标客户的电商数据样本;根据前述方法,基于所述电商数据样本,获得标准化的多个风险指标,所述多个风险指标划分为至少一个风险维度;将所述多个风险指标放入随机森林模型进行计算,其中所述随机森林模型包括第一组决策树和第二组决策树,所述第一组决策树获取所述多个风险指标,所述第二组决策树分别获取各风险维度的风险指标;获取随机森林模型的输出结果,得到总体风险预测和风险画像。
根据本申请的另一方面,提供一种计算设备,包括:处理器;存储器,所述存储器上存储有计算机程序;当所述处理器执行所述计算机程序时实现前述方法。
根据本申请的另一方面,提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现前述的方法。
根据一些实施例,通过对风险指标进行标准化处理,使之可用于预测或训练模型,并能够提升模型的收敛速度和精度,避免时间、地域、品类等不同维度对模型训练和预测产生影响。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
通过参照附图详细描述其示例实施例,本申请的上述和其它目标、特征及优点将变得更加显而易见。
图1示出本申请技术方案的一种应用场景的示意图。
图2A示出根据本申请示例实施例的利用商业大数据进行风险评级预测的随机森林模型。
图2B示出根据本申请示例实施例的利用商业大数据进行风险评级预测的随机森林模型的训练模式。
图3示出根据本申请示例实施例的随机森林模型利用商业大数据进行风险评级的方法。
图4示出根据示例实施例对风险指标进行标准化的过程。
图5示出根据本申请实施例的训练风险评级预测模型的方法流程图。
图6示出根据本申请实施例通过半监督学习进行样本标签化的方法流程图。
图7示出根据本申请示例实施例的总体风险预测和风险画像的示例。
图8示出根据本申请示例实施例的计算设备的框图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本申请将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员可以理解的是,本文所描述的实施例可以与其它实施例相结合。
金融机构传统上对电商企业进行风险管理是以线下对企业的尽职调查为主。通过对公司经营状况、公司财产线索、法人财产线索(房产、车等)、银行信用状况、债务状况、法律诉讼等方面的调查,对企业进行风险评估。调查的数据来源主要包括企业财报、银行流水、纳税申报表、工商信息平台、房产局数据库、中登网数据库等。这种方式的主要问题在于,线下调查的人力成本和时间成本相对较高,数据的可信度(财报)、数据的清晰度(银行流水)均无法保证,而且数据无法批量获取。数据的获取通常依赖人工操作处理,这相对于电商平台上产生的海量数据而言是远远不能完成处理任务的。
此外,金融机构一般通过人工经验或者建立风险评分卡的方式进行风险评级预测。首先,结合样本标签对风险指标进行卡方分箱(基于逻辑回归算法),就是将连续型的数据离散化,比如年龄这个变量可以分箱为0-18,18-30,30-45,45-60等。接着,计算不同指标不同区间的风险得分。最后,将目标用户的风险指标匹配对应区间的风险得分并加总得到总风险评分。
风险评分卡无法进行用户风险画像,例如对电商而言,从不同风险维度(库存,销售)进行评分。此外,该方法的准确率并不是很高。因为形式非常的简单(非常类似线性模型),很难去拟合数据的真实分布。然而,目前业内缺乏一个可以将多维度风险指标输出为风险评级的模型。
为此,本申请实施例提出一种对风险指标进行标准化和基于商业大数据进行风险评级预测的方法,可为金融机构提供可信赖的融资依据。
下面参照实施例对本申请的技术方案进行详细说明。
图1示出本申请技术方案的一种应用场景的示意图。
参见图1,在电商系统中,电商价值链上产生的数据会沉淀在电商平台的数据库中。为了获取这些沉淀数据,可以通过电商授权方式,通过电商平台的API接口将数据授权给根据本申请实施例的数据处理系统使用。此外,系统还可通过与电商业务的其他主要参与者(包括第三方支付、物流商、仓储服务商)进行以接口等形式的数据对接,实时获取用户多个维度(销售,库存,流量,政策性违规,物流,结算等)的原始电商数据,并可使用分布式技术手段进行存储和计算。
根据本申请实施例的数据处理系统在接到授权后,将电商平台中相应电商的原始电商数据拉取到数据处理系统关联的存储系统。根据一些实施例,该存储系统可以是分布式存储系统。
根据本申请实施例的数据处理系统对数据进行处理,例如通过标准化处理,得到可以后续使用的数据。然后,可结合行业经验、商业模型、财务模型和/或统计模型等,通过机器学习等方式得到电商企业的风险评级结果和风险画像并提供给银行等金融机构,作为可信赖的融资依据。
图2A示出根据本申请示例实施例的利用商业大数据进行风险评级预测的随机森林模型。
图2A所示的随机森林模型可以基于商业大数据(例如,电商大数据)对企业进行风险评级预测,从而为金融机构提供融资依据。
图2B示出根据本申请示例实施例的利用商业大数据进行风险评级预测的随机森林模型的训练模式。
随机森林构造了多个决策树,当需要对某个样本进行预测时,统计森林中的每棵树对该样本的预测结果,然后通过投票法从这些预测结果中选出最后的结果。随机体现在两个方面,一个是随机取特征,另一个是随机取样本,让森林中的每棵树既有相似性又有差异性。随机森林作为一种Bagging(装袋算法)集成学习算法,会对原始电商数据集进行采样,得到新的数据集。随机选取原数据集中的一个样本并添加至新数据集,多次操作,形成不同的训练集。换言之,随机森林可以从多数类中独立随机抽取出若干子集,将每个子集与少数类数据联合起来训练生成多个基分类器,再加权组成新的分类器来处理数据不平衡问题。随机森林是一类基础而且常用的非线性分类和回归方法。
参见图2A,根据示例实施例的随机森林模型包括n+i个决策树,其中n个第一组决策树获取k个风险指标,i个第二组决策树分别获取i个风险维度中特定维度的风险指标。
参见图2B,在对该模型进行训练时,该第一组决策树随机获取多个标记样本和该多个风险指标,该第二组决策树随机获取训练样本且分别获取各风险维度的风险指标。
风险指标可包括但不限于例如销售同比环比、库存周转率、流量转化率、侵权投诉数、回款率等。风险维度包括但不限于库存、销售、退货、结算等。这些风险指标可基于商业大数据获得。
根据示例实施例的随机森林模型,将客户风险画像功能嵌入了风险评级模型之中,既节省了时间和计算成本,也使得风险画像获得了随机森林算法的加持。
图3示出根据本申请示例实施例的随机森林模型利用电商大数据进行风险评级预测的方法。
参见图3,在S301,获取目标客户的风险样本,风险样本具有多个风险指标,多个风险指标可划分为至少一个风险维度。
根据示例实施例,多个风险指标可包括基于时间片的统计指标。
例如,该多个风险指标可包括但不限于基于时间片的销售同比环比、库存周转率、流量转化率、侵权投诉数、回款率等。
多个风险指标可划分为至少一个风险维度,例如,销售同比环比、库存周转率和回款率可分别划分至销售、库存、结算三个风险维度。
根据示例实施例,可通过后面参照图4所说明的方法获得风险样本并对样本的风险指标进行标准化处理。
在S303,将多个风险指标放入随机森林模型进行计算。
根据示例实施例,该随机森林模型包括第一组决策树和第二组决策树。该第一组决策树获取该多个风险指标,该第二组决策树分别获取各风险维度的风险指标。
在S305,获取随机森林模型的输出结果,得到总体风险预测和风险画像。
例如,可将第一组决策树和第二组决策树输出的结果(例如,平均值)作为目标用户的总体风险预测,将第二组决策树输出的各风险维度的风险预测作为风险画像,参见图7给出的总体风险预测和风险画像的示例。
根据一些实施例,第二组决策树的输出为平均逾期概率,第二组决策树的输出分别为退货风险、库存风险、基础风险、结算表现和销售表现。
根据一些实施例,该总体风险预测值作为目标用户的未来运营状况预测。根据一些实施例,该方法用于金融机构对电商进行风险评级。
根据一些实施例,根据多个样本的特定指标,对多个样本的预测值进行加权平均。例如,可根据销售额指标对预测值进行加权平均。
根据本申请的示例实施例,使用随机森林替代逻辑回归作为底层算法。在使用随机森林算法生成子决策树时,以特定数量的子树选取特定风险维度的风险指标。通过将用户风险画像功能嵌入风险评级模型之中,既节省了时间和计算成本,也使得风险画像获得了随机森林算法的加持。这样,根据示例实施例的方法获得的预测结果更加准确。此外,可同时可降低过拟合问题出现的可能性。
根据一些实施例,在获取风险指标后,可通过与以前获得的风险指标比对,获得异常变化信息,从而发出预警。例如,同比销售下降超过80%同行业竞争者,或者冗余库存比超过80%同行业竞争者,或者日销售高于近30天日销售平均值3个标准差以上时,可发出预警信息,从而可将风险控制在最小范围内。
图4示出根据示例实施例对风险指标进行标准化的过程。
在通过数据接口获得商业大数据后,可对获取的原始电商数据进行统计加工,生成标记样本和风险指标。然后,可对风险指标进行标准化处理,以用于预测或用于训练模型。通过数据标准化,可以提升模型的收敛速度和精度,并且可以去除时间、地域、品类等的影响。
根据一些实施例,首先可结合RFM模型、财务模型、电商运营指标体系等,确定风险指标。
RFM模型是衡量客户价值和客户创造利益能力的重要工具和手段。在众多的客户关系管理(CRM)的分析模式中,RFM模型是被广泛提到的。该模型通过一个客户的近期购买行为、购买的总体频率以及花了多少钱三项指标来描述该客户的价值状况。
财务模型是将企业的各种信息按照价值创造的主线进行分类、整理和链接,以完成对企业财务绩效的分析、预测和评估等功能。总体运营指标可包括流量类指标、销售转换指标、商品类指标等。
根据一些实施例,作为风险指标的退货率可定义为退货单数与总单数的比值,回款率可定义为平台打到客户账户的款项总金额与平台销售总金额的比值,售出率可定义为销售商品数量与平均库存的比值。
在S401,获取电商数据样本。
在电商系统中,电商价值链上产生的数据会沉淀在电商平台的数据库中。为了获取这些沉淀数据,可以通过电商授权方式,利用电商平台的API接口将数据拉取保存到存储系统,再处理为电商数据样本保存。然后可从存储系统获取电商数据样本。,按照预定周期的滑动时间窗口从至少一个预定周期的电商数据获取至少一个时间窗口的风险样本。这样,通过时间窗口的使用,可以扩大风险样本的数量,这对于满足模型训练所需的样本数量尤其有用。
在S403,确定用于对电商数据样本进行统计计算的多个时间片。
根据示例实施例,在一个时间窗口内可设定例如0-7天、8-14天、15-21天、22-28天等时间片,以对电商数据样本进行统计,诸如统计每个样本中订单数、退货单数、回款金额等指标的时间片统计值。通过多个时间片统计,可以扩大风险指标的数量,如下面所详细描述的。
在S405,对电商数据样本根据属性维度组合的筛选结果按多个时间片进行指标统计并计算风险指标,从而得到风险样本。
例如,对电商数据样本按品类、地域和时间窗口的属性维度组合进行退货单数、总销售金额等指标的时间片统计,然后可根据各指标的时间片统计结果和风险指标定义计算风险指标,得到包括多个风险指标的风险样本。表1和表2给出示例的风险样本的统计数据和风险指标。
表1.多维度统计数据示例
Figure BDA0004178706220000081
Figure BDA0004178706220000091
表2.风险指标示例
Figure BDA0004178706220000092
在S407,根据属性维度组合对风险指标进行数据标准化,以消除或降低因维度不同产生偏差的可能性。
根据示例实施例,筛选属性维度组合相同的风险样本集合,计算集合中风险指标的平均值以及标准差。
根据一些实施例,可对风险指标进行z-score(zero-mean normalization)标准化处理。标准化结果
Figure BDA0004178706220000093
x为风险指标值,/>
Figure BDA0004178706220000094
为风险指标的平均值,s为标准差。表3为标准化后的示例结果。
表3.风险指标标准化示例
Figure BDA0004178706220000095
Figure BDA0004178706220000101
图5示出根据本申请实施例的训练风险评级预测模型的方法流程图。
参见图5,在S501,获取标签化的训练样本。
训练样本可以通过多种标注方式来填加标签。例如,可以采用人工标注的方式对样本进行标签化来确定训练样本。也可以通过半监督学习的方式进行样本标签化过程,从而通过数据生成标签,以生成训练样本,如后面参照图6所描述的。
根据一些实施例,可通过后面参照图6描述的方法利用半监督学习进行样本标签化,并将标签化样本的至少部分作为训练样本。
在S503,选择多个风险指标。
根据示例实施例,可先对指标进行筛选,保留重要性排名较高前k个风险指标,以减轻模型的运算任务。
根据一些实施例,可以使用简单的逻辑回归模型,使用回归系数作为筛选标准。此外,也可以使用正则化L1,L2筛选。
根据一些实施例,可以对指标空间应用KS检验排序,保留重要性排名在前的k个风险指标。
KS检验(Kolmogorov-Smirnov检验)用于检验一个分布是否符合某种理论分布或比较两个经验分布是否有显著差异。在风控中,KS检验常用于评估风险指标区分度。区分度越大,说明风险指标的风险排序能力(ranking ability)越强。KS统计量是基于经验累积分布函数(Empirical Cumulative Distribution Function,ECDF)建立的。检验统计量为:
B(x),指特定指标小于等于x的样本中,坏样本的占比。
G(x),指特定指标小于等于x的样本中,好样本的占比。
检验过程如下:
(1)提出假设H0:B(x)=G(x)。
(2)计算特定指标好样本累计频率与坏样本累计频率的绝对差,令最大的绝对差为D,D=max{|B(x)-G(x)|}。
根据一些实施例,还包括对多个风险指标进行标准化处理,如参照图4所描述的。
(3)使用D作为特定指标的KS分值并排序。
通过对风险指标进行特征筛选,可以得到准确率更高的风险评级得分,并可减轻模型的运算任务。
在S505,将多个风险指标划分为至少一个风险维度。例如,可以按库存维度、销售维度、市场维度、用户维度、财务维度等对风险指标进行分组,以得到目标用户不同风险维度的评级得分。
在S507,基于训练样本和多个风险指标及至少一个风险维度,训练随机森林模型。
根据示例实施例,该随机森林模型包括第一组决策树和第二组决策树。该第一组决策树随机获取多个标记样本和该多个风险指标,该第二组决策树随机获取训练样本且分别获取各风险维度的风险指标。
所述第一组决策树和所述第二组决策树输出的结果(例如平均值)可作为总体风险预测值。
此外,可以将目标用户的样本和风险指标放入训练得到的随机森林模型,分别取所述第二组决策树输出的结果作为所述预定维度的风险预测值,例如库存维度的风险预测值。
根据一些实施例,还可将第一组决策树和第二组决策树的平均oob得分(袋外错误率,out-of-bag error)作为评测标准,对随机森林模型的参数进行优化,从而得到优化后的模型。
图6示出根据本申请实施例通过半监督学习进行样本标签化的方法流程图。
在对模型进行训练时,需要大量标签化训练样本。训练样本可以通过多种标注方式来填加标签。例如,可以采用人工标注的方式对样本进行标签化来确定训练样本。人工标注往往需要花费大量的人工成和时间,而且由于现实条件的限制,有时是难以完成的。也可以通过半监督学习的方式进行样本标签化过程,从而通过数据生成标签,以生成训练样本。
在对电商的银行贷款逾期进行风险评级预测时,采用迁移学习的思想进行标签化,将对用户未来贷款风险逾期概率的预测迁移为对用户未来运营状况的预测。迁移学习是将某个领域或任务上学习到的知识或模式应用到不同但相关的领域或问题中。无监督迁移学习即目标领域没有标注数据的迁移学习任务(目前企业B端数据广泛缺乏标注)。迁移学习是基于:特征空间中的部分特征是领域独享的,而另一部分特征是领域共享且可泛化的,即企业运营状况与贷款逾期概率具有大量共享特征。
根据示例实施例,用有标签数据训练一个分类器,然后用这个分类器对无标签数据进行分类。挑选分类正确置信度高的无标签样本,把选出来的无标签样本用来训练分类器。例如,无标签数据放入分类器后,输出概率>0.95标记为负样本,输出概率<0.05标记为正样本。
参见图6,在S601,对风险指标空间进行降维并对样本排序,得到初始标记样本。
根据示例实施例,可通过主要成分分析(PCA,principal components analysis),对风险指标空间进行降维并对样本排序。
根据实施例,可通过PCA把原先的k个特征用数目更少的m个特征取代,新特征是旧特征的线性组合。这些线性组合最大化样本方差,尽量使新的m个特征互不相关。从旧特征到新特征的映射捕获数据中的固有变异性。根据实施例,可将m设定为1,使每一个样本对应一个风险值(降至一维的特征空间),并按照风险值对样本排序。表4给出示例的风险指标空间降维后的样本排序。以一定的比例将排序好的样本中的头部样本和尾部样本挑选出来分别标记为正样本和负样本,得到初始标记样本,放入样本空间。然后,可重复执行S603和S605,直至样本空间中标记样本的数量达到阈值。
表4.风险指标空间降维后的样本排序示例
Figure BDA0004178706220000121
Figure BDA0004178706220000131
在S603,利用样本空间中的标记样本训练分类模型。
将样本空间中的标记样本切割为训练集与测试集,并放入分类模型进行训练,例如放入决策树模型进行训练,得到训练后的分类模型。
在S605,通过训练后的分类模型进行样本标签化,利用得到的标记样本扩充样本空间。
将之前未标记的样本放入训练后的分类模型中,得到对未标记样本的预测标记概率并排序,并以一定的比例将得到的排序样本中的头部样本和尾部样本挑选出来分别标记为正样本和负样本,放入已有标记样本的样本空间中,扩充样本空间。
这样,通过半监督学习的方式进行样本标签化,从而通过数据生成标签,以生成训练样本,节省了人力。此外,还可以消除特征之间的共线性。
图8示出根据本申请示例实施例的计算设备的框图。
如图8所示,该计算设备30包括处理器12和存储器14。计算设备30还可以包括总线22、网络接口16以及I/O接口18。处理器12、存储器14、网络接口16以及I/O接口18可以通过总线22相互通信。
处理器12可以包括一个或多个通用CPU(Central Processing Unit,中央处理器)、微处理器、或专用集成电路等,用于执行相关程序指令。
存储器14可以包括易失性存储器形式的机器系统可读介质,例如随机存取存储器(RAM)、只读存储器(ROM)和/或高速缓存存储器。存储器14用于存储包含指令的一个或多个程序以及数据。处理器12可读取存储在存储器14中的指令以执行上述根据本申请实施例的方法。
计算设备30也可以通过网络接口16与一个或者多个网络通信。该网络接口16可以是有线网络接口或无线网络接口,也可以是虚拟网络接口。
计算设备30也可以通过输入/输出(I/O)接口18与一个或多个外部设备(例如音频输入设备、音频输出设备、摄像头、键盘、鼠标、显示器、各类传感器等)通信。
总线22可以包括地址总线、数据总线、控制总线等。总线22提供了各组件之间交换信息的通路。
需要说明的是,在具体实施过程中,计算设备30还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。计算机可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC)、网络存储设备、云存储设备,或适合于存储指令和/或数据的任何类型的媒介或设备。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包括存储计算机程序的非瞬时性计算机可读存储介质,该计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种方法的部分或全部步骤。
本领域的技术人员可以清楚地了解到本申请的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件,其中硬件例如可以是现场可编程门阵列、集成电路等。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
以上对本申请实施例进行了详细描述和解释。应清楚地理解,本申请描述了如何形成和使用特定示例,但本申请不限于这些示例的任何细节。相反,基于本申请公开的内容的教导,这些原理能够应用于许多其它实施例。
通过对示例实施例的描述,本领域技术人员易于理解,根据本申请实施例的风险评级预测方法至少具有以下优点中的一个或多个。
根据一些实施例,通过将电商运营中产生的大数据转化为风险指标体系,再转化为风险评级模型,可以为提供企业风险评级预测。
根据一些实施例,基于从电商的大数据得到的风险指标空间的维度划分(库存、销售、结算等),提供了针对不同维度的风险评分画像。
根据一些实施例,金融机构可以在准入阶段通过以这些根据本申请技术方案得到的具有高可信度的风险指标为基础的风险运营报告来进行风险准入评级,节省了人力和时间,并且结果相对更加可靠。
根据一些实施例,基于电商大数据,通过机器学习,对企业风险评级进行预测,从而为金融机构提供可信赖的融资依据。
根据一些实施例,通过训练得到的随机森林模型,将客户风险画像功能嵌入了风险评级模型之中,既节省了时间和计算成本,也使得风险画像获得了随机森林算法的加持。
根据一些实施例,通过半监督学习的方式进行样本标签化,从而通过数据生成标签,以生成训练样本,节省了人力。
根据一些实施例,使用随机森林替代逻辑回归作为底层模型。在使用随机森林模型生成子决策树时,以特定数量的子树选取特定风险维度的风险指标。通过将用户风险画像功能嵌入风险评级模型之中,既节省了时间和计算成本,也使得风险画像获得了随机森林模型的加持。这样,根据示例实施例的方法获得的模型预测结果更加准确。
依据以下条款可更好地理解前述内容:
条款1、一种基于电商大数据对风险指标进行标准化的方法,其特征在于,包括:
获取电商数据样本;
确定用于对所述电商数据样本进行统计计算的多个时间片;
对所述电商数据样本根据属性维度组合按所述多个时间片进行指标统计并计算风险指标,从而得到风险样本;
根据所述属性维度组合对所述风险指标进行数据标准化。
条款2、如条款1所述的方法,其特征在于,所述获取电商数据样本,包括:
按照预定周期的滑动时间窗口从至少一个预定周期的电商数据获取至少一个时间窗口的风险样本。
条款3、如条款1所述的方法,其特征在于,对所述电商数据样本根据属性维度组合的筛选结果按所述多个时间片进行指标统计并计算风险指标,包括:
根据各指标的时间片统计结果和风险指标定义计算风险指标。
条款4、如条款1所述的方法,其特征在于,所述风险指标包括销售同比环比、库存周转率、流量转化率、侵权投诉数、回款率中的一种或多种。
条款5、如条款4所述的方法,其特征在于,所述属性维度组合包括:品类、地域、时间窗口。
条款6、如条款1所述的方法,其特征在于,根据所述属性维度组合对所述风险指标进行数据标准化,包括:
筛选属性维度组合相同的风险样本集合;
计算集合中风险指标的平均值以及标准差;
根据所述平均值和标准差对风险指标进行标准化,标准化结果为风险指标和平均值的差与所述标准差之比。
条款7、一种基于大数据进行风险评级预测的方法,其特征在于,包括:
获取目标客户的电商数据样本;
根据条款1-6中任一项所述的方法,基于所述电商数据样本,获得标准化的多个风险指标,所述多个风险指标划分为至少一个风险维度;
将所述多个风险指标放入随机森林模型进行计算,其中所述随机森林模型包括第一组决策树和第二组决策树,所述第一组决策树获取所述多个风险指标,所述第二组决策树分别获取各风险维度的风险指标;
获取随机森林模型的输出结果,同时得到总体风险预测和风险画像。
条款8、如条款7所述的方法,其特征在于,将所述第一组决策树和所述第二组决策树输出的平均值作为所述目标用户的总体风险预测值。
条款9、如条款7所述的方法,其特征在于,将所述第二组决策树输出的各风险维度的风险预测作为风险画像。
条款10、如条款7所述的方法,其特征在于,所述至少一个风险维度包括:退货风险、库存风险、基础风险、结算表现和销售表现中的至少一种。
条款11、如条款7所述的方法,其特征在于,所述方法用于金融机构对电商的贷款逾期进行风险评级预测。
条款12、如条款7所述的方法,其特征在于,还包括:
在获取总体风险预测和风险画像后,通过与前期的总体风险预测和风险画像比对;
如果存在异常变化信息,则发出预警。
条款13、一种计算设备,其特征在于,包括:
处理器;
存储器,所述存储器上存储有计算机程序;
当所述处理器执行所述计算机程序时实现如条款1-12中任一项所述的方法。
以上具体地示出和描述了本申请的示例性实施例。应可理解的是,本申请不限于这里描述的详细结构、设置方式或实现方法;相反,本申请意图涵盖包含在所附条款的精神和范围内的各种修改和等效设置。

Claims (13)

1.一种基于电商大数据对风险指标进行标准化的方法,其特征在于,包括:
获取电商数据样本;
确定用于对所述电商数据样本进行统计计算的多个时间片;
对所述电商数据样本根据属性维度组合的筛选结果按所述多个时间片进行指标统计并计算风险指标,从而得到风险样本;
根据所述属性维度组合对所述风险指标进行数据标准化。
2.如权利要求1所述的方法,其特征在于,所述获取电商数据样本,包括:
按照预定周期的滑动时间窗口从至少一个预定周期的电商数据获取至少一个时间窗口的风险样本。
3.如权利要求1所述的方法,其特征在于,对所述电商数据样本根据属性维度组合的筛选结果按所述多个时间片进行指标统计并计算风险指标,包括:
根据各指标的时间片统计结果和风险指标定义计算风险指标。
4.如权利要求1所述的方法,其特征在于,所述风险指标包括销售同比环比、库存周转率、流量转化率、侵权投诉数、回款率中的一种或多种。
5.如权利要求4所述的方法,其特征在于,所述属性维度组合包括:品类、地域及时间窗口。
6.如权利要求1所述的方法,其特征在于,根据所述属性维度组合对所述风险指标进行数据标准化,包括:
筛选属性维度组合相同的风险样本集合;
计算集合中风险指标的平均值以及标准差;
根据所述平均值和标准差对风险指标进行标准化,标准化结果为风险指标和平均值的差与所述标准差之比。
7.一种基于大数据进行风险评级预测的方法,其特征在于,包括:
获取目标客户的电商数据样本;
根据权利要求1-6中任一项所述的方法,基于所述电商数据样本,获得标准化的多个风险指标,所述多个风险指标划分为至少一个风险维度;
将所述多个风险指标放入随机森林模型进行计算,其中所述随机森林模型包括第一组决策树和第二组决策树,所述第一组决策树获取所述多个风险指标,所述第二组决策树分别获取各风险维度的风险指标;
获取随机森林模型的输出结果,同时得到总体风险预测和风险画像。
8.如权利要求7所述的方法,其特征在于,将所述第一组决策树和所述第二组决策树输出的平均值作为所述目标用户的总体风险预测值。
9.如权利要求7所述的方法,其特征在于,将所述第二组决策树输出的各风险维度的风险预测作为风险画像。
10.如权利要求7所述的方法,其特征在于,所述至少一个风险维度包括:退货风险、库存风险、基础风险、结算表现和销售表现中的至少一种。
11.如权利要求7所述的方法,其特征在于,所述方法用于金融机构对电商的贷款逾期进行风险评级预测。
12.如权利要求7所述的方法,其特征在于,还包括:
在获取总体风险预测和风险画像后,通过与前期的总体风险预测和风险画像比对;
如果存在异常变化信息,则发出预警。
13.一种计算设备,其特征在于,包括:
处理器;
存储器,所述存储器上存储有计算机程序;
当所述处理器执行所述计算机程序时实现如权利要求1-12中任一项所述的方法。
CN202310398907.7A 2023-04-04 2023-04-04 对风险指标进行标准化和风险评级预测的方法及计算设备 Pending CN116384751A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310398907.7A CN116384751A (zh) 2023-04-04 2023-04-04 对风险指标进行标准化和风险评级预测的方法及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310398907.7A CN116384751A (zh) 2023-04-04 2023-04-04 对风险指标进行标准化和风险评级预测的方法及计算设备

Publications (1)

Publication Number Publication Date
CN116384751A true CN116384751A (zh) 2023-07-04

Family

ID=86978618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310398907.7A Pending CN116384751A (zh) 2023-04-04 2023-04-04 对风险指标进行标准化和风险评级预测的方法及计算设备

Country Status (1)

Country Link
CN (1) CN116384751A (zh)

Similar Documents

Publication Publication Date Title
Kotu et al. Predictive analytics and data mining: concepts and practice with rapidminer
Tsai et al. Predicting stock returns by classifier ensembles
CN108711107A (zh) 智能融资服务推荐方法及其系统
US20160019218A1 (en) System and method for using data incident based modeling and prediction
CN113095927B (zh) 一种反洗钱可疑交易识别方法及设备
Omidi et al. The efficacy of predictive methods in financial statement fraud
CN113256409A (zh) 基于机器学习的银行零售客户流失预测方法
CN113111924A (zh) 电力客户分类方法及装置
Jain et al. NFT Appraisal Prediction: Utilizing Search Trends, Public Market Data, Linear Regression and Recurrent Neural Networks
Deng et al. An intelligent system for insider trading identification in Chinese security market
CN115545886A (zh) 逾期风险识别方法、装置、设备及存储介质
Han et al. Semi-supervised clustering for financial risk analysis
Attanasio et al. Leveraging the explainability of associative classifiers to support quantitative stock trading
Zhou et al. Research on corporate financial performance prediction based on self‐organizing and convolutional neural networks
CN116523301A (zh) 基于电商大数据进行风险评级预测的系统
Sebt et al. Implementing a data mining solution approach to identify the valuable customers for facilitating electronic banking
Chen et al. Predicting a corporate financial crisis using letters to shareholders
Yang et al. An evidential reasoning rule-based ensemble learning approach for evaluating credit risks with customer heterogeneity
CN116384751A (zh) 对风险指标进行标准化和风险评级预测的方法及计算设备
CN116384750A (zh) 生成标记样本及训练风险评级预测模型的方法及计算设备
CN116385151A (zh) 基于大数据进行风险评级预测的方法及计算设备
CN116384749A (zh) 训练风险评级预测模型的方法及计算设备
Fedyk News-driven trading: who reads the news and when
Sönmez et al. Big data analytics and models
Yin et al. Real-Trading-Oriented Price Prediction With Explainable Multiobjective Optimization in Quantitative Trading

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination