CN116542760A - 一种用于评估数据的方法和装置 - Google Patents
一种用于评估数据的方法和装置 Download PDFInfo
- Publication number
- CN116542760A CN116542760A CN202310446410.8A CN202310446410A CN116542760A CN 116542760 A CN116542760 A CN 116542760A CN 202310446410 A CN202310446410 A CN 202310446410A CN 116542760 A CN116542760 A CN 116542760A
- Authority
- CN
- China
- Prior art keywords
- data
- annual
- accessed
- evaluation
- data source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000011156 evaluation Methods 0.000 claims abstract description 114
- 230000000694 effects Effects 0.000 claims abstract description 26
- 230000015654 memory Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 230000032683 aging Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 9
- 238000005096 rolling process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000009825 accumulation Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000005291 magnetic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Computational Linguistics (AREA)
- Technology Law (AREA)
- Educational Administration (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明的目的是提供一种用于评估数据的方法和装置。所述方法包括:基于多个评估指标来对待接入的一个或多个数据源的数据价值进行评估;基于得到的评估结果,将评估效果满足预定要求的数据源进行接入,以用于后续的预测。本申请实施例具有以下优点:基于多维度指标来评估从第三方接入的数据源的数据价值,从而筛选出评估效果满足要求的数据源用于后续的预测,提升了数据价值评估的全面性和准确性;本申请实施例的方案基于已接入的数据源来预测不同客群的年化收入和年化坏账,提升了数据预测的准确性;根据本申请实施例的方案基于预测的年化收入和年化坏账来核算数据源的投资回报率,为评估数据源的价值提供了进一步的参考。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于评估数据的方法和装置。
背景技术
基于现有技术的方案,在对从第三方接入的数据源的价值进行评估时,一般采取的评估方式包括:1)基于最新的A卡(Application score card)来回溯外部特征,基于融入A卡后的KS(Kolmogorov-Smirnov)提升来进行评估;2)评估单特征风险的提升度。
然而,基于现有技术的方案仅评估风险增益,该评估方式较为单一,而没有考虑数据本身的现金价值,因而无法全面地、准确地对数据源的数据价值进行评估。
发明内容
本发明的目的是提供一种用于评估数据的方法和装置。
根据本申请的实施例,提供了一种用于评估数据的方法,其中,所述方法包括:
基于多个评估指标来对待接入的一个或多个数据源的数据价值进行评估;
基于得到的评估结果,将评估效果满足预定要求的数据源进行接入,以用于后续的预测。
根据一个实施例,所述基于多个评估指标来对待接入的一个或多个数据源的数据价值进行评估的步骤包括:基于准入类评估指标、定额类评估指标和定价类评估指标中的至少一类评估指标来对待接入的数据源进行评估。
根据一个实施例,基于定额类的评估指标来进行评估时,所述方法包括:基于待接入的数据源中的资产相关数据,估算用户收入;基于用户的收入和负债来预测用户额度。
根据一个实施例,所述方法包括:基于已接入的数据源,预测目标客群的年化收入和年化坏账。
根据一个实施例,所述预测目标客群的年化收入和年化坏账包括:基于已接入的数据源,构建分别用于预测年化收入和年化坏账的模型,并使用的数据来训练用于预测年化收入和年化坏账的模型;基于训练好的模型来分别预测目标客群的年化收入和年化坏账。
根据一个实施例,所述方法采用LSTM模型来预测年化坏账。
根据本申请的实施例,提供了一种用于基于多个评估指标来对待接入的一个或多个数据源的数据价值进行评估的装置;
用于基于评估结果,将评估结果满足要求的外部数据作为用于进行预测的预测数据基于得到的评估结果,将评估效果满足预定要求的数据源进行接入,以用于后续的预测的装置。
根据本申请的实施例,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现本申请实施例的方法。
根据本申请的实施例,提供了一种计算机可读的存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本申请实施例的方法。
与现有技术相比,本申请实施例具有以下优点:基于多维度指标来评估从第三方接入的数据源的数据价值,从而筛选出评估效果满足要求的数据源用于后续的预测,提升了数据价值评估的全面性和准确性;本申请实施例的方案基于已接入的数据源来预测不同客群的年化收入和年化坏账,提升了数据预测的准确性;根据本申请实施例的方案基于预测的年化收入和年化坏账来核算数据源的投资回报率,为评估数据源的价值提供了进一步的参考。
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出了根据本申请实施例的评估数据的方法流程图;
图2示出了根据本申请实施例的评估数据并预测年化收入和年化坏账的方法流程图;
图3示出了根据本申请实施例的用于评估数据的装置的结构示意图;
图4示出了根据本申请实施例的用于评估数据并预测年化收入和年化坏账的装置的结构示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
在上下文中所称“计算机设备”,也称为“电脑”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的存续指令来执行预定处理过程,或是由ASIC、FPGA、DSP等硬件执行预定处理过程,或是由上述二者组合来实现。计算机设备包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。
所述计算机设备包括用户设备与网络设备。其中,所述用户设备包括但不限于电脑、智能手机、PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述计算机设备可单独运行来实现本申请,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本申请。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
需要说明的是,所述用户设备、网络设备和网络等仅为举例,其他现有的或今后可能出现的计算机设备或网络如可适用于本申请,也应包含在本申请保护范围以内,并以引用方式包含于此。
后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时,用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。
这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本申请的示例性实施例的目的。但是本申请可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。
应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
应当理解的是,当一个单元被称为“连接”或“耦合”到另一单元时,其可以直接连接或耦合到所述另一单元,或者可以存在中间单元。与此相对,当一个单元被称为“直接连接”或“直接耦合”到另一单元时,则不存在中间单元。应当按照类似的方式来解释被用于描述单元之间的关系的其他词语(例如“处于...之间”相比于“直接处于...之间”,“与...邻近”相比于“与...直接邻近”等等)。
这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
下面结合附图对本发明作进一步详细描述。
图1示出了根据本申请实施例的评估数据的方法流程图。所述方法包括步骤S1、步骤S2和步骤S3。
参照图1在步骤S1中,基于多个评估指标来对待接入的一个或多个数据源的数据价值进行评估。
其中,所述待接入的数据源包括从第三方机构接入的数据。例如,风险评分或多头借贷等相关的数据。
优选地,所述数据源包括资产类数据,所述资产类数据包括各种与用户资产相关的数据,例如用户的房贷、车贷、车辆残值等实体类资产相关的数据,或者,股票债券等非实体类资产相关的数据。
其中,所述数据价值用于指示待接入的数据源的评估效果,从而基于评估效果来对待接入的数据源进行筛选。
根据一个实施例,所述方法基于准入类评估指标、定额类评估指标和定价类评估指标中的至少一类评估指标来对待接入的数据源进行评估。
下面分别对准入类评估指标、定额类评估指标和定价类评估指标进行介绍:
准入类评估指标
所述准入类评估指标包括各种用于指示风控授信环节是否允许用户授信通过的信息。
其中,所述准入类评估指标包括但不限于外部数据的覆盖率、信息值(Information Valve,IV)、KS(Kolmogorov-Smirnov)。
优选地,所述准入类评估指标还包括风控模型的A卡(Application score card,用于贷前评估)和B卡(Behavior score card,用于贷中评估)的AUC(Area Under Curve,曲线下面积)提升。
基于准入类评估指标对待接入的数据源进行评估时,所述方法获取与所采用的准入类评估指标相关的数据,并基于获得的数据来计算采用的各个准入类评估指标的数值。
定额类评估指标
所述定额类评估指标用于确定可授信的用户额度。
根据一个实施例,所述定额类评估指标包括但不限于以下至少任一项:
1)测试资产数据按系数折算得到的用户收入;
2)收入相关数据;包括各种可用推算用户收入的指标,例如,房贷、车贷等;
3)负债相关数据;包括各种可用推算用户负债的数据。
定价类评估指标
所述定价类评估指标包括各种用于确定风险定价的信息,例如日利率、年利率等。
根据一个实施例,基于定额类的评估指标来进行评估时,所述方法包括步骤S4和步骤S5。
在步骤S4中,基于外部数据中的资产相关数据,估算用户收入。
在步骤S5中,基于用户的收入和负债来预测用户额度。
具体地,基于用户的收入和负债计算用户在当前月的现金流,接着基于用户当前月现金流得到预测的用户额度。
下面以车辆残值数据为例,通过以下流程来估算用户额度:
车辆购置价=车产残值/{(1-0.6%)^车龄区间均值(月级)};
购车时的家庭年收入=车辆购置价/q%;
家庭现收入=购车时的家庭年收入/((1-n%)^车龄区间均值);
用户当前月现金流(PMT)=家庭现收入/2-负债;
假设用户当月现金流为月还款额,则现金流折算到现值即为用户可授信额度PV:PV=用户额度=PMT[1-(1+r)-N]/r。
其中,q%表示家庭年收入的车辆购置价值(策略值:100%),n%表示家庭年收入增长率(策略值:5%),r表示月利率,N表示期数(一般用)。
继续参照图1,在步骤S2中,基于得到的评估结果,将评估效果满足预定要求的数据源进行接入,以用于后续的预测。
所述方法可直接将使用一个或多个评估指标的数值作为评估结果,并基于数值大小来确定评估效果满足预定要求。
例如,使用覆盖率、IV和KS对待接入的数据源进行评估时将计算得到的覆盖率数值、IV数值和KS数值作为评价结果,如果覆盖率数值、IV数值和KS数值均高于对应的预定阈值,则接入该数据源。
或者,所述方法基于预定的评分计算规则来计算得到一个或多个评估指标的数值对应的评分,并将评分作为评估结果。
根据一个实施例,基于准入类评估指标对待接入的数据源进行评估时,将该数据源与贷前分层进行交叉分析,从而确定该数据源在贷前分层上是否带来额外增益,并将额外增益作为评估结果。如果有额外增益,则确定该数据源的评估效果满足要求。
根据一个实施例,基于定额类评估指标对待接入的数据源进行评估时,所述方法基于预测的用户额度,得到基于该用户额度授信通过后带来的新增授信额度总和,并将新增授信额度作为评价结果。如果新增授信额度大于预定阈值,则确定该数据源的评估效果满足要求。
根据一个实施例,基于定价类评估指标对待接入的数据源进行评估时,所述方法采用uplift模型预测出用户对于定价的敏感度,并将AUUC(Area Under Uplift Curve)指标作为评价结果。如果模型的AUUC指标上升,则确定该数据源的评估效果满足要求。优选地,在模型预测出用户利率敏感性后,可以对用户在当前策略框架下给定的利率进行修正和调整,如果对一部分用户提高利率后,这部分用户的平均用信率大于等于提高利率前的平均用信率,则认为在业务应用层面也是符合预期的,并确定该数据源在模型指标和业务应用上的评估效果满足要求。
根据本申请实施例的方法,基于多维度指标来评估从第三方接入的数据源的数据价值,从而筛选出评估效果满足要求的数据源用于后续的预测,提升了数据价值评估的全面性和准确性。
图2示出了根据本申请实施例的评估数据并预测年化收入和年化坏账的方法流程图。
参照图2,所述方法包括步骤S1、步骤S2和步骤S3。
所述步骤S1和步骤S2已在前文中进行描述,此处不再赘述。
在步骤S3中,基于已接入的数据源,预测目标客群的年化收入和年化坏账。
具体地,所述步骤S3包括步骤S301和步骤S302。
在步骤S301中,基于所述预测数据,构建分别用于预测年化收入和年化坏账的模型,并使用的数据来训练用于预测年化收入和年化坏账的模型。
在步骤S302中,基于训练好的模型来分别预测目标客群的年化收入和年化坏账。
其中,目标客群的年化收入为呈线性增长,而目标客群的年化坏账则呈非线性增长。
例如,计算年化收入时,通过“实际收入=固定应收收入-提前还款损失收入-坏账损失收入”和相关历史数据,计算过去多个mob(month on book,用于表示放款后经历的月份个数)的实际收入,并根据增长率来预测未来mob12(即放款日后第12个完整月份)的收入,进而得到预测的目标客群的年化收入。
其中,目标客群的年化坏账呈非线性增长。并且,年化坏账与不同客群历史还款表现,经济周期,政策变化等有直接的关系,不便于直接量化预测。
根据一个实施例,所述方法采用长短期记忆(Long Short-Term Memory,LSTM)模型来预测年化坏账。
优选地,构建用于预测期末坏账的LSTM模型,并基于目标客群的还款特征,采用A股市场月级增长率作为调整因子,将每一期末的坏账率作为目标变量,来训练所述LSTM模型。
例如,采用滚动窗口构建长短期记忆LSTM模型来预测未来mob坏账。该滚动窗口指的是在LSTM滚动窗口,即我们在LSTM下一时刻的输入往后移动一个步长,使用第2至4个mob的特征来预测第5个mob是否坏账,以此类推,每次移动一个步长来预测其下个mob的坏账情况。
在本示例构建LSTM模型的过程中,首先需要确定LSTN的参数seq_len、input_size和batch_size,具体来说,预测未来mob坏账这一问题中,使用前3个mob来预测下一个mob是否坏账,那么seq_len=3;使用前3个mob中每一个mob的【年龄、性别、学历、缴纳公积金、储蓄险、车残值】6个维度的特征来预测下一mob的情况,那么input_size=6;本示例在深度学习模型的训练中采用batch_size数目的样本来更新梯度,提升了计算速度。
根据本实施例的方法,基于已接入的数据源来预测不同客群的年化收入和年化坏账,提升了数据预测的准确性。
根据一个实施例,所述方法还包括步骤S6。
在步骤S6中,基于预测的目标客群的年化收入和年化坏账,得到已接入数据源的年化投资回报率(ROI)。
具体地,所述方法将从征信报告中解析得到的用户画像类数据作为对照组,将该用户画像类数据以及接入的数据源中的预定数据作为实验组。接着,通过实验组和对照组的盈利信息,得到已接入数据源的ROI。
例如,实验组数据包括储蓄险、车残值以及从征信报告解析的用户画像类数据(年龄、性别、学历、缴纳公积金等),对照组数据仅包括从征信报告解析的用户画像类数据(年龄、性别、学历、缴纳公积金等)。接着基于历史数据和以下公式来计算实验组和对照组的件均盈利:
实验组件均盈利=(收入-坏账)/借据;
对照组件均盈利=(收入-坏账)/借据;
接着,基于以下公式来计算总盈利,进而得到已接入数据源的ROI:
总盈利=(实验组-对照组)*实验借据数-数据成本。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于预测的目标客群的年化收入和年化坏账,得到已接入数据源的年化投资回报率的实现方式,均应包含在本发明的范围内。根据本实施例的方法对已接入的数据源的投资回报率
根据本申请实施例的方法,基于预测的年化收入和年化坏账来核算数据源的投资回报率,为评估数据源的价值提供了进一步的参考。
图3示出了根据本申请实施例的用于评估数据的装置的结构示意图。所述装置包括:用于基于多个评估指标来对待接入的一个或多个数据源的数据价值进行评估的装置(以下简称“价值评估装置1”),用于基于评估结果,将评估结果满足要求的外部数据作为用于进行预测的预测数据基于得到的评估结果,将评估效果满足预定要求的数据源进行接入,以用于后续的预测的装置(以下简称“数据接入装置2”)。
参照图3,价值评估装置1基于多个评估指标来对待接入的一个或多个数据源的数据价值进行评估。
其中,所述待接入的数据源包括从第三方机构接入的数据。例如,风险评分或多头借贷等相关的数据。
优选地,所述数据源包括资产类数据,所述资产类数据包括各种与用户资产相关的数据,例如用户的房贷、车贷、车辆残值等实体类资产相关的数据,或者,股票债券等非实体类资产相关的数据。
其中,所述数据价值用于指示待接入的数据源的评估效果,从而基于评估效果来对待接入的数据源进行筛选。
根据一个实施例,价值评估装置1基于准入类评估指标、定额类评估指标和定价类评估指标中的至少一类评估指标来对待接入的数据源进行评估。
下面分别对准入类评估指标、定额类评估指标和定价类评估指标进行介绍:
准入类评估指标
所述准入类评估指标包括各种用于指示风控授信环节是否允许用户授信通过的信息。
其中,所述准入类评估指标包括但不限于外部数据的覆盖率、信息值(Information Valve,IV)、KS(Kolmogorov-Smirnov)。
优选地,所述准入类评估指标还包括风控模型的A卡(Application score card,用于贷前评估)和B卡(Behavior score card,用于贷中评估)的AUC(Area Under Curve,曲线下面积)提升。
价值评估装置1基于准入类评估指标对待接入的数据源进行评估时,所述装置获取与所采用的准入类评估指标相关的数据,并基于获得的数据来计算采用的各个准入类评估指标的数值。
定额类评估指标
所述定额类评估指标用于确定可授信的用户额度。
根据一个实施例,所述定额类评估指标包括但不限于以下至少任一项:
1)测试资产数据按系数折算得到的用户收入;
2)收入相关数据;包括各种可用推算用户收入的指标,例如,房贷、车贷等;
3)负债相关数据;包括各种可用推算用户负债的数据。
定价类评估指标
所述定价类评估指标包括各种用于确定风险定价的信息,例如日利率、年利率等。
根据一个实施例,基于定额类的评估指标来进行评估时,所述装置包括用于基于外部数据中的资产相关数据,估算用户收入的装置(以下简称“收入估算装置”),和用于基于用户的收入和负债来预测用户额度的装置(以下简称“额度预测装置”)。
收入估算装置基于外部数据中的资产相关数据,估算用户收入。
额度预测装置基于用户的收入和负债来预测用户额度。
具体地,额度预测装置基于用户的收入和负债计算用户在当前月的现金流,接着基于用户当前月现金流得到预测的用户额度。
下面以车辆残值数据为例,额度预测装置通过以下流程来估算用户额度:
车辆购置价=车产残值/{(1-0.6%)^车龄区间均值(月级)};
购车时的家庭年收入=车辆购置价/q%;
家庭现收入=购车时的家庭年收入/((1-n%)^车龄区间均值);
用户当前月现金流(PMT)=家庭现收入/2-负债;
假设用户当月现金流为月还款额,则现金流折算到现值即为用户可授信额度PV:PV=用户额度=PMT[1-(1+r)-N]/r。
其中,q%表示家庭年收入的车辆购置价值(策略值:100%),n%表示家庭年收入增长率(策略值:5%),r表示月利率,N表示期数(一般用)。
继续参照图3,数据接入装置2基于得到的评估结果,将评估效果满足预定要求的数据源进行接入,以用于后续的预测。
所述数据接入装置2可直接将使用一个或多个评估指标的数值作为评估结果,并基于数值大小来确定评估效果满足预定要求。
例如,使用覆盖率、IV和KS对待接入的数据源进行评估时将计算得到的覆盖率数值、IV数值和KS数值作为评价结果,如果覆盖率数值、IV数值和KS数值均高于对应的预定阈值,则接入该数据源。
或者,所述数据接入装置2基于预定的评分计算规则来计算得到一个或多个评估指标的数值对应的评分,并将评分作为评估结果。
根据一个实施例,数据接入装置2基于准入类评估指标对待接入的数据源进行评估时,将该数据源与贷前分层进行交叉分析,从而确定该数据源在贷前分层上是否带来额外增益,并将额外增益作为评估结果。如果有额外增益,则确定该数据源的评估效果满足要求。
根据一个实施例,数据接入装置2基于定额类评估指标对待接入的数据源进行评估时,所述方法基于预测的用户额度,得到基于该用户额度授信通过后带来的新增授信额度总和,并将新增授信额度作为评价结果。如果新增授信额度大于预定阈值,则确定该数据源的评估效果满足要求。
根据一个实施例,数据接入装置2基于定价类评估指标对待接入的数据源进行评估时,所述方法采用uplift模型预测出用户对于定价的敏感度,并将AUUC(Area UnderUplift Curve)指标作为评价结果。如果模型的AUUC指标上升,则确定该数据源的评估效果满足要求。优选地,在模型预测出用户利率敏感性后,可以对用户在当前策略框架下给定的利率进行修正和调整,如果对一部分用户提高利率后,这部分用户的平均用信率大于等于提高利率前的平均用信率,则认为在业务应用层面也是符合预期的,并确定该数据源在模型指标和业务应用上的评估效果满足要求。
根据本申请实施例的装置,基于多维度指标来评估从第三方接入的数据源的数据价值,从而筛选出评估效果满足要求的数据源用于后续的预测,提升了数据价值评估的全面性和准确性。
图4示出了根据本申请实施例的用于评估数据并预测年化收入和年化坏账的装置的结构示意图。图4所示的装置包括价值评估装置1、数据接入装置2和用于基于已接入的数据源,预测目标客群的年化收入和年化坏账的装置(以下简称“数据预测装置3”)。
所述价值评估装置1和数据接入装置2的操作已在前文中进行描述,此处不再赘述。
数据预测装置3基于已接入的数据源,预测目标客群的年化收入和年化坏账。
具体地,所述数据预测装置3基于所述预测数据,构建分别用于预测年化收入和年化坏账的模型,并使用的数据来训练用于预测年化收入和年化坏账的模型。
接着,数据预测装置3基于训练好的模型来分别预测目标客群的年化收入和年化坏账。
其中,目标客群的年化收入为呈线性增长,而目标客群的年化坏账则呈非线性增长。
例如,计算年化收入时,数据预测装置3通过“实际收入=固定应收收入-提前还款损失收入-坏账损失收入”和相关历史数据,计算过去多个mob(month on book,用于表示放款后经历的月份个数)的实际收入,并根据增长率来预测未来mob12(即放款日后第12个完整月份)的收入,进而得到预测的目标客群的年化收入。
其中,目标客群的年化坏账呈非线性增长。并且,年化坏账与不同客群历史还款表现,经济周期,政策变化等有直接的关系,不便于直接量化预测。
根据一个实施例,数据预测装置3采用长短期记忆LSTM模型来预测年化坏账。
优选地,数据预测装置3构建用于预测期末坏账的LSTM模型,并基于目标客群的还款特征,采用A股市场月级增长率作为调整因子,将每一期末的坏账率作为目标变量,来训练所述LSTM模型。
例如,数据预测装置3采用滚动窗口构建长短期记忆LSTM模型来预测未来mob坏账。该滚动窗口指的是在LSTM滚动窗口,即我们在LSTM下一时刻的输入往后移动一个步长,使用第2至4个mob的特征来预测第5个mob是否坏账,以此类推,每次移动一个步长来预测其下个mob的坏账情况。
在本示例构建LSTM模型的过程中,首先需要确定LSTN的参数seq_len、input_size和batch_size,具体来说,预测未来mob坏账这一问题中,使用前3个mob来预测下一个mob是否坏账,那么seq_len=3;使用前3个mob中每一个mob的【年龄、性别、学历、缴纳公积金、储蓄险、车残值】6个维度的特征来预测下一mob的情况,那么input_size=6;本示例在深度学习模型的训练中,采用batch_size数目的样本来更新梯度,提升了计算速度。
根据本实施例的方法,基于已接入的数据源来预测不同客群的年化收入和年化坏账,提升了数据预测的准确性。
根据一个实施例,所述装置还包括用于基于预测的目标客群的年化收入和年化坏账,得到已接入数据源的年化投资回报率的装置(以下简称“回报预测装置”)。
回报预测装置基于预测的目标客群的年化收入和年化坏账,得到已接入数据源的年化投资回报率(ROI)。
具体地,回报预测装置将从征信报告中解析得到的用户画像类数据作为对照组,将该用户画像类数据以及接入的数据源中的预定数据作为实验组。接着,通过实验组和对照组的盈利信息,得到已接入数据源的ROI。
例如,实验组数据包括储蓄险、车残值以及从征信报告解析的用户画像类数据(年龄、性别、学历、缴纳公积金等),对照组数据仅包括从征信报告解析的用户画像类数据(年龄、性别、学历、缴纳公积金等)。接着回报预测装置基于历史数据和以下公式来计算实验组和对照组的件均盈利:
实验组件均盈利=(收入-坏账)/借据;
对照组件均盈利=(收入-坏账)/借据;
接着,基于以下公式来计算总盈利,进而得到已接入数据源的ROI:
总盈利=(实验组-对照组)*实验借据数-数据成本。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于预测的目标客群的年化收入和年化坏账,得到已接入数据源的年化投资回报率的实现方式,均应包含在本发明的范围内。根据本实施例的方法对已接入的数据源的投资回报率
根据本申请实施例的装置,基于预测的年化收入和年化坏账来核算数据源的投资回报率,为评估数据源的价值提供了进一步的参考。
本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个功能或步骤的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (10)
1.一种用于评估数据的方法,其中,所述方法包括:
基于多个评估指标来对待接入的一个或多个数据源的数据价值进行评估;
基于得到的评估结果,将评估效果满足预定要求的数据源进行接入,以用于后续的预测。
2.根据权利要求1所述的方法,其中,所述基于多个评估指标来对待接入的一个或多个数据源的数据价值进行评估的步骤包括:
基于准入类评估指标、定额类评估指标和定价类评估指标中的至少一类评估指标来对待接入的数据源进行评估。
3.根据权利要求2所述的方法,其中,基于定额类的评估指标来进行评估时,所述方法包括:
基于待接入的数据源中的资产相关数据,估算用户收入;
基于用户的收入和负债来预测用户额度。
4.根据权利要求1所述的方法,其中,所述方法包括:
基于已接入的数据源,预测目标客群的年化收入和年化坏账。
5.根据权利要求4所述的方法,其中,所述预测目标客群的年化收入和年化坏账包括:
基于已接入的数据源,构建分别用于预测年化收入和年化坏账的模型,并使用的数据来训练用于预测年化收入和年化坏账的模型;
基于训练好的模型来分别预测目标客群的年化收入和年化坏账。
6.根据权利要求4或5所述的方法,其中,所述方法采用LSTM模型来预测年化坏账。
7.一种用于评估数据的装置,其中,所述装置包括:
用于基于多个评估指标来对待接入的一个或多个数据源的数据价值进行评估的装置;
用于基于评估结果,将评估结果满足要求的外部数据作为用于进行预测的预测数据基于得到的评估结果,将评估效果满足预定要求的数据源进行接入,以用于后续的预测的装置。
8.根据权利要求7所述的装置,其中,所述用于基于多个评估指标来对待接入的一个或多个数据源的数据价值进行评估的装置用于:
基于准入类评估指标、定额类评估指标和定价类评估指标中的至少一类评估指标来对待接入的数据源进行评估。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6中任一所述的方法。
10.一种计算机可读的存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310446410.8A CN116542760A (zh) | 2023-04-24 | 2023-04-24 | 一种用于评估数据的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310446410.8A CN116542760A (zh) | 2023-04-24 | 2023-04-24 | 一种用于评估数据的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116542760A true CN116542760A (zh) | 2023-08-04 |
Family
ID=87453453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310446410.8A Pending CN116542760A (zh) | 2023-04-24 | 2023-04-24 | 一种用于评估数据的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116542760A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117709906A (zh) * | 2024-02-04 | 2024-03-15 | 杭银消费金融股份有限公司 | 一种外部数据源查询决策方法与装置 |
-
2023
- 2023-04-24 CN CN202310446410.8A patent/CN116542760A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117709906A (zh) * | 2024-02-04 | 2024-03-15 | 杭银消费金融股份有限公司 | 一种外部数据源查询决策方法与装置 |
CN117709906B (zh) * | 2024-02-04 | 2024-05-14 | 杭银消费金融股份有限公司 | 一种外部数据源查询决策方法与装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kapinos et al. | A top-down approach to stress-testing banks | |
US8498954B2 (en) | Managing operations of a system using non-linear modeling techniques | |
CN110020862B (zh) | 一种业务风险评估方法、装置和计算机可读存储介质 | |
D'Espallier et al. | Does the investment opportunities bias affect the investment–cash flow sensitivities of unlisted SMEs? | |
KR20040019378A (ko) | 재정 계획 및 자문 제공 시스템 및 방법 | |
AU2010202773A1 (en) | Public sector value model | |
US20210034712A1 (en) | Diagnostics framework for large scale hierarchical time-series forecasting models | |
CN110135702A (zh) | 一种实时更新的还款积极度评估方法、装置、系统和记录介质 | |
Kabaivanov et al. | Artificial intelligence in real estate market analysis | |
CN105447649A (zh) | 一种企业资金流动风险评估系统 | |
CN116542760A (zh) | 一种用于评估数据的方法和装置 | |
Shibamoto et al. | Japan’s monetary policy: a literature review and empirical assessment | |
US20230306515A1 (en) | Systems and Computer-Implemented Methods for Capital Management | |
JPWO2021260678A5 (zh) | ||
Miao et al. | Discount shock, price–rent dynamics, and the business cycle | |
JP6771513B2 (ja) | 債務不履行確率を算出する装置、方法及びそのためのプログラム | |
CN111899093B (zh) | 一种违约损失率的预测方法及装置 | |
US20120265558A1 (en) | Unemployment indicator prediction | |
CN113807943A (zh) | 一种不良资产的多因子估值方法及系统、介质、设备 | |
US20160092982A1 (en) | Systems and methods for improved loan reset and related processing | |
JP2021502653A (ja) | 目標の達成可能性に関する、可視表現の自動化された準備のためのシステム及び方法 | |
CN113988457A (zh) | 一种用户活期存款的数据生成方法及系统 | |
CN115983884A (zh) | 现金流估值模型构建方法及装置 | |
Bayar et al. | Private Company Valuation | |
KANGOGO | FINANCIAL DISTRESS AND PERFORMANCE OF SELECTED FIRMS LISTED AT NAIROBI SECURITIES EXCHANGE, KENYA. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |