CN111382909A - 基于生存分析模型扩展坏样本的拒绝推断方法及相关设备 - Google Patents
基于生存分析模型扩展坏样本的拒绝推断方法及相关设备 Download PDFInfo
- Publication number
- CN111382909A CN111382909A CN202010171274.2A CN202010171274A CN111382909A CN 111382909 A CN111382909 A CN 111382909A CN 202010171274 A CN202010171274 A CN 202010171274A CN 111382909 A CN111382909 A CN 111382909A
- Authority
- CN
- China
- Prior art keywords
- bad
- samples
- sample
- model
- rejected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Abstract
本发明提供一种基于生存分析模型扩展坏样本的拒绝推断方法及相关设备,基于生存分析模型扩展坏样本的拒绝推断方法包括:利用已标注的好坏样本的逾期标签,采用生存分析方法训练坏样本推断模型;利用所述坏样本推断模型预测各拒绝样本逾期超过预定天数的概率;根据各拒绝样本逾期超过预定天数的概率,选取部分拒绝样本作为推断坏样本;以及利用根据已标注的好坏样本、推断坏样本建立评分卡模型。本发明提供的基于生存分析模型扩展坏样本的拒绝推断方法及装置充分利用样本信息,且缓解预测模型偏差问题,提高模型效果及稳定性。
Description
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种基于生存分析模型扩展坏样本的拒绝推断方法及相关设备。
背景技术
近年来,得益于移动互联网和大数据技术的飞速发展,诸如云计算等云端设备服务提供或者实体设备服务提供业务也日益发展。然而设备服务使用者使用设备时的使用风险是设备服务提供方在提供设备服务前需要预测的。
评分卡技术自20世纪七八十年代开始广泛使用,迄今为止已成为最广泛,发展最完善的大数据风控技术。利用评分卡技术构建评分模型能够帮助预测单个用户的风险水平,是管控风险的重要技术手段。其中,申请评分卡用于用户审批阶段,但是常见的申请评分卡仅利用审批通过的样本训练模型,而实际场景下需要对所有用户包括被拒绝用户进行风险水平评估,这就导致了模型训练和实际使用时的人群不一致,这样训练出来的模型是有偏的。拒绝推断技术研究如何有效利用被拒绝的样本数据,能够在一定程度上解决模型有偏问题。开发申请评分卡时需要利用拒绝推断技术,在审批策略增加新规则的同时,也优化了历史准确率不高的弱规则,保证业务能够稳健快速发展。
目前,开发评分卡模型,目标变量通常为二分类变量,即将一定时期内逾期超过一定天数的人作为坏样本,完全无逾期或轻度逾期的人作为好样本,剩余的定义为灰色,不作为样本参与建模。事实上,样本的逾期时长具有重要的建模意义,简单地凭借经验将样本进行二分损失了大量的信息。但是现有的拒绝推断技术依旧没能跳出“二分”的框架,样本信息利用不够充分。
通常情况下,开发申请评分卡的时候定义接近真实坏样本的目标变量,比如MOB6(用户授信成功后6个月)内是否出现30天以上的逾期。现有的拒绝推断技术完全利用二分类算法,基于二分类的算法推断样本的权重,推断拒绝样本为坏样本等然后再构建接近全样本的评分卡模型。另外二分类算法会排除灰色样本的干扰,在限定MOB6下,会存在一定量样本表现时间不够长,逾期1至30天的样本,一定比例的样本回迁移到M2(逾期31至60天的样本)。
由此可见,现有技术中,对于设备服务使用者使用设备时的使用风险的预测中,并未充分利用样本信息,且预测模型存在偏差,模型效果及稳定性难以提高。
发明内容
本发明为了克服上述现有技术存在的缺陷,提供一种基于生存分析模型扩展坏样本的拒绝推断方法及相关设备,以解决或缓解上述现有技术存在的缺陷。
根据本发明的一个方面,提供一种基于生存分析模型扩展坏样本的拒绝推断方法,包括:
利用已标注的好坏样本的逾期标签,采用生存分析方法训练坏样本推断模型;
利用所述坏样本推断模型预测各拒绝样本逾期超过预定天数的概率;
根据各拒绝样本逾期超过预定天数的概率,选取部分拒绝样本作为推断坏样本;以及
利用根据已标注的好坏样本、推断坏样本建立评分卡模型。
在本发明的一些实施例中,根据各拒绝样本逾期超过预定天数的概率,选取部分拒绝样本作为推断坏样本之后还包括:
计算推断坏样本的权重;
对应地,所述评分卡模型还依据所述推断坏样本的权重建立。
在本发明的一些实施例中,所述推断坏样本的权重w根据如下公式计算:
其中,p为推断坏样本的数量与拒绝样本的数量之比,D0为已标注的坏样本的数量,x为推断坏样本的数量。
在本发明的一些实施例中,所述根据各拒绝样本逾期超过预定天数的概率,选取部分拒绝样本作为推断坏样本包括:
判断预定比例的拒绝样本的数量是否大于已标注的坏样本的数量;
若否,则选取预定比例的拒绝样本作为推断坏样本;
若是,则按已标注的坏样本的数量自拒绝样本中选取推断坏样本。
在本发明的一些实施例中,所述预定比例为10%至60%。
在本发明的一些实施例中,所述评分卡模型采用二分类算法建立,所述二分类算法包括XGBoost算法和/或逻辑回归算法。
在本发明的一些实施例中,所述生存分析方法为比例风险回归模型。
在本发明的一些实施例中,所述评分卡模型用于预测设备服务使用方的风险评分,所述好坏样本基于设备服务使用方使用设备服务的设备参数标注,所述拒绝样本为被拒绝提供设备服务的用户样本。
根据本发明的又一方面,还提供一种基于生存分析模型扩展坏样本的拒绝推断装置,包括:
训练模块,用于利用已标注的好坏样本的逾期标签,采用生存分析方法训练坏样本推断模型;
概率预测模块,用于利用所述坏样本推断模型预测各拒绝样本的于预定时间段后的生成概率;
选取模块,用于根据各拒绝样本的逾期超过预定天数的概率,选取部分拒绝样本作为推断坏样本;
建立模块,用于利用根据已标注的好坏样本、推断坏样本建立评分卡模型。
根据本发明的又一方面,还提供一种电子设备,所述电子设备包括:处理器;存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如上所述基于生存分析模型扩展坏样本的拒绝推断方法的步骤。
根据本发明的又一方面,还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述基于生存分析模型扩展坏样本的拒绝推断方法的步骤。
相比现有技术,本发明的优势在于:
在设备服务使用者使用设备时的使用风险的预测中,充分利用样本信息,且缓解预测模型偏差问题,提高模型效果及稳定性。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显。
图1示出了根据本发明实施例的基于生存分析模型扩展坏样本的拒绝推断方法的流程图。
图2示出了根据本发明具体实施例的推断坏样本选取的流程图。
图3示出了根据本发明实施例的基于生存分析模型扩展坏样本的拒绝推断装置的示意图。
图4示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。
图5示意性示出本公开示例性实施例中一种电子设备示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
为了解决现有技术的缺陷,为了在设备服务使用者使用设备时的使用风险的预测中,充分利用样本信息,且缓解预测模型偏差问题,提高模型效果及稳定性,本发明提供一种基于生存分析模型扩展坏样本的拒绝推断方法、装置、电子设备、存储介质。
首先参见图1,图1示出了根据本发明实施例的基于生存分析模型扩展坏样本的拒绝推断方法的示意图。基于生存分析模型扩展坏样本的拒绝推断方法包括如下步骤:
步骤S110:利用已标注的好坏样本的逾期标签,采用生存分析方法训练坏样本推断模型;
步骤S120:利用所述坏样本推断模型预测各拒绝样本逾期超过预定天数的概率;
步骤S130:根据各拒绝样本逾期超过预定天数的概率,选取部分拒绝样本作为推断坏样本;以及
步骤S140:利用根据已标注的好坏样本、推断坏样本建立评分卡模型。
本发明提供的基于生存分析模型扩展坏样本的拒绝推断方法,在设备服务使用者使用设备时的使用风险的预测中,充分利用样本信息,且缓解预测模型偏差问题,提高模型效果及稳定性。
在本发明的各个实施例中,在应用于借用硬件设备时,好坏样本为借用硬件设备的用户样本,拒绝样本为未能借用硬件设备的用户样本。具体而言,对于借用硬件设备的用户样本,可按预定规则将该些用户样本标注为好样本和坏样本(还可以包括不用于模型建立和训练的灰度样本)。预定规则例如可以包括未逾期归还硬件设备的用户为好样本,归还硬件设备逾期超过预定天数的用户为坏样本(未标注为好样本和坏样本的用户样本为灰度样本)。进一步地,本发明还对这些好坏样本进行逾期标签的标注。逾期标签可以包括逾期天数及该样本是否删失。上述步骤S110正是利用这些好坏样本及他们的逾期标签来训练坏样本推断模型。
具体而言,生存分析是指一系列用来探究所感兴趣的事件的发生时间的统计方法。利用生存分析不仅能够发现变量与某个事件发生与否的关系,还能建立变量与事件发生时间的数学模型。
生存分析方法作为一种样本扩展技术手段也被用到申请评分卡上。论文(Evaluation of Different Approaches to Reject Inference:a case study inCredit Risk)发表了利用参数生存分析方法,目标变量定义为到首次逾期还款时长,并假设目标变量服从对数正态分布,预测拒绝样本到首次逾期还款。参数生存分析法常用的分别包括,指数分布,韦伯(Welbull)分布,正态分布,对数正态分布,伽马分布,Logistic分布,Log-logistic分布。在实际业务上,时长的分布非常复杂,针对右删失数据,可以通过作图检测方法来判断样本数据的分布情况,针对不同的分布类型对生存概率做转化( 等等)与生存时间的对数log t作图,评估拟合程度。由于通过图形的方法判断分布,存在人为主观因素,对参数的估计会有一定影响。
本发明的优选实施例中,采用的生存分析方法为非参数方法,即比例风险回归模型。生存分析中的COX比例风险回归模型在建模时充分利用了事件发生时长这一信息,而二元逻辑回归将事件发生与否作为目标变量,完全忽略了事件发生时长这一含义丰富的变量。当能够获取事件发生时间时,生存分析中的COX比例风险回归模型相较于二元逻辑回归是一种更加有效的模型。由此,本发明的优选实施例中,不需要判断生存时长的分布函数,简化流程和避免分布函数选取不合理造成的偏差。
具体而言,预定天数可以为5天、10天、15天、30天等。本发明可以依据实际需求对预定天数进行设定。在此不予赘述。
在本发明的一些实施例中,根据各拒绝样本逾期超过预定天数的概率,选取部分拒绝样本作为推断坏样本之后还包括如下步骤:计算推断坏样本的权重。对应地,所述评分卡模型还依据所述推断坏样本的权重建立。
所述推断坏样本的权重w根据如下公式计算:
其中,p为推断坏样本的数量与拒绝样本的数量之比,D0为已标注的坏样本的数量,x为推断坏样本的数量。具体而言,考虑到推断坏样本并非为实际标注的坏样本,因此,在将推断坏样本引入模型建立时,为各推断坏样本设置权重,以与标注的坏样本进行区分。本发明通过上述公式,以推断坏样本的数量、已标注坏样本的数量、拒绝样本的数量量化推断坏样本的权重,以调整用于建立模型的样本从而优化模型准确率及模型稳定性。在一些实施例中,权重可以通过如下方式引入模型建立:权重与各推断坏样本(例如提取为特征向量后)的乘积作为建立评分卡模型时的样本输入。本发明并非以此为限制,上述权重还可以通过其它计算方式以与推断坏样本结合作为建立评分卡模型时的样本输入。
在本发明的一些实施例中,所述根据各拒绝样本逾期超过预定天数的概率,选取部分拒绝样本作为推断坏样本的实现可以参见图2,图2共示出如下步骤:
步骤S131:判断预定比例的拒绝样本的数量是否大于已标注的坏样本的数量;
若否,则执行步骤S132:选取预定比例的拒绝样本作为推断坏样本;
若是,则执行步骤S133:按已标注的坏样本的数量自拒绝样本中选取推断坏样本。
由此,上述步骤保证推断坏样本的数量不大于标注坏样本的数量,从而保证在建立评分卡模型时,至少一半的坏样本为已标注坏样本,避免当推断坏样本存在误差时,对建立评分卡模型的影响。
在本发明的一些实施例中,用于选取推断坏样本的所述预定比例为10%至60%。具体而杨,将生存概率位于各拒绝样本中前10%至60%的拒绝样本作为推断坏样本。上述预定比例在增加坏样本的扩展数量的同时,避免过多的推断坏样本影响评分卡模型的建立和训练。
在本发明的一些实施例中,所述评分卡模型采用二分类算法建立。所采用的二分类算法例如为XGBoost算法和/或逻辑回归算法。由此,通过已标注的好坏样本、推断坏样本及推断坏样本的权重对评分卡模型的建立与训练,从而在实际使用时可以预测用户的风险评分,风险评分越高越接近好样本,风险评分越低越接近坏样本。
在本发明的一些实施例中,所述评分卡模型用于预测设备服务使用方的风险评分,所述好坏样本基于设备服务使用方使用设备服务的设备参数标注,所述拒绝样本为被拒绝提供设备服务的用户样本。例如,当设备服务使用方使用设备服务归还设备后,若设备性能参数(如显示屏坏像素点比例、设备电池预测寿命、显示屏触控灵敏度等)指示该设备影响再次使用时,将该设备服务使用方标注为坏样本。当设备服务使用方使用设备服务归还设备后,若设备性能参数指示该设备不影响再次使用时,将该设备服务使用方标注为好样本。在一些变化例中,还可以根据用户逾期归还设备的时间,对设备服务使用方进行标注。例如,将归还设备逾期超过30天的设备服务使用方标注为坏样本,将未逾期的设备服务使用方标注为好样本。本发明还可以实现更多的变化方式。
下面通过具体算法的比较,说明本发明的优势。
比较中采用两种算法,一个是线性模型(逻辑回归),一个树模型(XGBoost)分别在1)好坏(KGB)样本(未做拒绝推断处理);2)结合权重的好坏样本(采用样本重加权法或扩张法(Re-weighting/Augmentation),利用全样本(包括接受和拒绝样本,目标变量的定义是否通过)训练模型,模型打分得到每个样本的通过概率,计算通过率倒数,或者根据通过率排序等分k组,计算组内的实际通过率,计算倒数,作为权重,近似得到全样本,基于观察到的好坏样本以及权重训练评分卡模型);3)好坏样本结合推断坏样本(本发明的拒绝推断技术)上训练建模,统计常用模型的评估指标AUC(Area Underthe Curve/Area UndertheReceiver Operating Characteristics)和KS(Kolmogorov-Smirnov)值(参考表1结果),分析不同拒绝推断的模型表现情况。得出以下结论,
1.做拒绝推断和不做拒绝推断的比较。在本发明提供的样本上,基于拒绝推断并对模型的稳健性有较大改善(跨期验证和训练集的AUC和KS非常稳定),通过拒绝推断技术能完善“坏”样本信息,使得模型参数估计值更接近真实值;
2.本发明提供的推断技术和现有的推断技术的比较。本发明对样本扩展后的(好坏样本结合推断坏样本),利用逻辑回归建模,跨期的表现(模型效果和稳定性)都比结合权重的好坏样本好。而XGBoost算法在两种推断技术的稳定性和模型表现效果比较接近。
表1拒绝推断的效果比较
注:KGB(好坏样本),在通过的样本且已知“好”,”坏”样本下建模
KGB+Weight(结合权重的好坏样本),在通过的样本且已知“好”,”坏”样本+权重建模
KGB+RTB(好坏样本结合推断坏样本),在通过的样本且已知“好”,”坏”样本+推断的”坏“样本建模。
由此,本发明解决审批策略造成样本偏差问题,确保业务稳健快速增长。本技术采用非参数生存分析方法对拒绝样本的推断,准确预估拒绝样本的设备服务使用后的表现,为申请评分的开发提供更为准确的样本。
以上仅仅是本发明的具体实现方式,本发明并非以此为限制。
本发明还提供一种基于生存分析模型扩展坏样本的拒绝推断装置,图3示出了根据本发明实施例的基于生存分析模型扩展坏样本的拒绝推断装置的示意图。基于生存分析模型扩展坏样本的拒绝推断装置200包括训练模块210、概率预测模块220、选取模块230以及建立模块240。
训练模块210用于利用已标注的好坏样本的逾期标签,采用生存分析方法训练坏样本推断模型。
概率预测模块220用于利用所述坏样本推断模型预测各拒绝样本的于预定时间段后的生成概率。
选取模块230用于根据各拒绝样本的逾期超过预定天数的概率,选取部分拒绝样本作为推断坏样本。
建立模块240用于利用根据已标注的好坏样本、推断坏样本建立评分卡模型。
本发明提供的基于生存分析模型扩展坏样本的拒绝推断装置,在设备服务使用者使用设备时的使用风险的预测中,充分利用样本信息,且缓解预测模型偏差问题,提高模型效果及稳定性。
图3仅仅是示意性的示出本发明提供的基于生存分析模型扩展坏样本的拒绝推断装置,在不违背本发明构思的前提下,模块的拆分、合并、增加都在本发明的保护范围之内。本发明提供的基于生存分析模型扩展坏样本的拒绝推断装置可以由软件、硬件、固件、插件及他们之间的任意组合来实现,本发明并非以此为限。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被例如处理器执行时可以实现上述任意一个实施例中所述基于生存分析模型扩展坏样本的拒绝推断方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述基于生存分析模型扩展坏样本的拒绝推断方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图4所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品400,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在租户计算设备上执行、部分地在租户设备上执行、作为一个独立的软件包执行、部分在租户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到租户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在本公开的示例性实施例中,还提供一种电子设备,该电子设备可以包括处理器,以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一个实施例中所述基于生存分析模型扩展坏样本的拒绝推断方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图5来描述根据本发明的这种实施方式的电子设备600。图5显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述基于生存分析模型扩展坏样本的拒绝推断方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1至图2中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得租户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述基于生存分析模型扩展坏样本的拒绝推断方法。
相比现有技术,本发明的优势在于:
在设备服务使用者使用设备时的使用风险的预测中,充分利用样本信息,且缓解预测模型偏差问题,提高模型效果及稳定性。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
Claims (11)
1.一种基于生存分析模型扩展坏样本的拒绝推断方法,其特征在于,包括:
利用已标注的好坏样本的逾期标签,采用生存分析方法训练坏样本推断模型;
利用所述坏样本推断模型预测各拒绝样本逾期超过预定天数的概率;
根据各拒绝样本逾期超过预定天数的概率,选取部分拒绝样本作为推断坏样本;以及
利用根据已标注的好坏样本、推断坏样本建立评分卡模型。
2.如权利要求1所述的基于生存分析模型扩展坏样本的拒绝推断方法,其特征在于,根据各拒绝样本逾期超过预定天数的概率,选取部分拒绝样本作为推断坏样本之后还包括:
计算推断坏样本的权重;
对应地,所述评分卡模型还依据所述推断坏样本的权重建立。
4.如权利要求1所述的基于生存分析模型扩展坏样本的拒绝推断方法,其特征在于,所述根据各拒绝样本逾期超过预定天数的概率,选取部分拒绝样本作为推断坏样本包括:
判断预定比例的拒绝样本的数量是否大于已标注的坏样本的数量;
若否,则选取预定比例的拒绝样本作为推断坏样本;
若是,则按已标注的坏样本的数量自拒绝样本中选取推断坏样本。
5.如权利要求3所述的基于生存分析模型扩展坏样本的拒绝推断方法,其特征在于,所述预定比例为10%至60%。
6.如权利要求1所述的基于生存分析模型扩展坏样本的拒绝推断方法,其特征在于,所述评分卡模型采用二分类算法建立,所述二分类算法包括XGBoost算法和/或逻辑回归算法。
7.如权利要求1所述的基于生存分析模型扩展坏样本的拒绝推断方法,其特征在于,所述生存分析方法为比例风险回归模型。
8.如权利要求1至7任一项所述的基于生存分析模型扩展坏样本的拒绝推断方法,其特征在于,所述评分卡模型用于预测设备服务使用方的风险评分,所述好坏样本基于设备服务使用方使用设备服务的设备参数标注,所述拒绝样本为被拒绝提供设备服务的用户样本。
9.一种基于生存分析模型扩展坏样本的拒绝推断装置,其特征在于,包括:
训练模块,用于利用已标注的好坏样本的逾期标签,采用生存分析方法训练坏样本推断模型;
概率预测模块,用于利用所述坏样本推断模型预测各拒绝样本的于预定时间段后的生成概率;
选取模块,用于根据各拒绝样本的逾期超过预定天数的概率,选取部分拒绝样本作为推断坏样本;
建立模块,用于利用根据已标注的好坏样本、推断坏样本建立评分卡模型。
10.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如权利要求1至8任一项所述的基于生存分析模型扩展坏样本的拒绝推断步骤。
11.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至8任一项所述的基于生存分析模型扩展坏样本的拒绝推断步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010171274.2A CN111382909A (zh) | 2020-03-12 | 2020-03-12 | 基于生存分析模型扩展坏样本的拒绝推断方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010171274.2A CN111382909A (zh) | 2020-03-12 | 2020-03-12 | 基于生存分析模型扩展坏样本的拒绝推断方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111382909A true CN111382909A (zh) | 2020-07-07 |
Family
ID=71219039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010171274.2A Pending CN111382909A (zh) | 2020-03-12 | 2020-03-12 | 基于生存分析模型扩展坏样本的拒绝推断方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111382909A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200392A (zh) * | 2020-11-30 | 2021-01-08 | 上海冰鉴信息科技有限公司 | 业务预测方法及装置 |
CN112507612A (zh) * | 2020-11-30 | 2021-03-16 | 上海交通大学 | 一种预测机器损坏时间的生存分析方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106779457A (zh) * | 2016-12-29 | 2017-05-31 | 深圳微众税银信息服务有限公司 | 一种企业信用评估方法及系统 |
CN108053310A (zh) * | 2017-11-24 | 2018-05-18 | 深圳市牛鼎丰科技有限公司 | 信用风险评分方法、装置、计算机设备及存储介质 |
CN110689427A (zh) * | 2019-10-12 | 2020-01-14 | 杭州绿度信息技术有限公司 | 一种基于生存分析的消费分期违约概率模型 |
US20200027157A1 (en) * | 2018-07-17 | 2020-01-23 | Adobe Inc. | Generating synthetic data using reject inference processes for modifying lead scoring models |
CN110827143A (zh) * | 2019-11-08 | 2020-02-21 | 支付宝(杭州)信息技术有限公司 | 训练信用评分模型的方法、装置及设备 |
-
2020
- 2020-03-12 CN CN202010171274.2A patent/CN111382909A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106779457A (zh) * | 2016-12-29 | 2017-05-31 | 深圳微众税银信息服务有限公司 | 一种企业信用评估方法及系统 |
CN108053310A (zh) * | 2017-11-24 | 2018-05-18 | 深圳市牛鼎丰科技有限公司 | 信用风险评分方法、装置、计算机设备及存储介质 |
US20200027157A1 (en) * | 2018-07-17 | 2020-01-23 | Adobe Inc. | Generating synthetic data using reject inference processes for modifying lead scoring models |
CN110689427A (zh) * | 2019-10-12 | 2020-01-14 | 杭州绿度信息技术有限公司 | 一种基于生存分析的消费分期违约概率模型 |
CN110827143A (zh) * | 2019-11-08 | 2020-02-21 | 支付宝(杭州)信息技术有限公司 | 训练信用评分模型的方法、装置及设备 |
Non-Patent Citations (1)
Title |
---|
SERGIU LUCA、等: "evaluation of difference approaches to reject inference:a case study in credit risk" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200392A (zh) * | 2020-11-30 | 2021-01-08 | 上海冰鉴信息科技有限公司 | 业务预测方法及装置 |
CN112507612A (zh) * | 2020-11-30 | 2021-03-16 | 上海交通大学 | 一种预测机器损坏时间的生存分析方法 |
CN112200392B (zh) * | 2020-11-30 | 2021-03-19 | 上海冰鉴信息科技有限公司 | 业务预测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180308160A1 (en) | Risk assessment method and system | |
CN110070391B (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
CN112270545A (zh) | 基于迁移样本筛选的金融风险预测方法、装置和电子设备 | |
CN111340616B (zh) | 线上贷款的审批方法、装置、设备及介质 | |
CN111192131A (zh) | 金融风险预测方法、装置和电子设备 | |
WO2018157808A1 (zh) | 互联网征信评估方法和系统 | |
CN110288459A (zh) | 贷款预测方法、装置、设备及存储介质 | |
CN110930249A (zh) | 大型企业信用风险预测方法及系统、存储介质及电子设备 | |
CN110135702A (zh) | 一种实时更新的还款积极度评估方法、装置、系统和记录介质 | |
CN114219360A (zh) | 基于模型优化的监控安全预测方法及系统 | |
CN111967954A (zh) | 一种资源归还增比确定方法、装置和电子设备 | |
Byanjankar | Predicting credit risk in Peer-to-Peer lending with survival analysis | |
CN111798310A (zh) | 基于Cox回归和逻辑回归的拒绝推断方法及电子设备 | |
CN111382909A (zh) | 基于生存分析模型扩展坏样本的拒绝推断方法及相关设备 | |
CN113298121B (zh) | 基于多数据源建模的消息发送方法、装置和电子设备 | |
CN111210332A (zh) | 贷后管理策略生成方法、装置及电子设备 | |
US20210357699A1 (en) | Data quality assessment for data analytics | |
CN112488865A (zh) | 基于金融时间节点的金融风险预测方法、装置和电子设备 | |
CN110610415B (zh) | 一种模型更新的方法和装置 | |
CN111510473A (zh) | 访问请求处理方法、装置、电子设备和计算机可读介质 | |
CN116664306A (zh) | 风控规则的智能推荐方法、装置、电子设备及介质 | |
CN113298120B (zh) | 基于融合模型的用户风险预测方法、系统和计算机设备 | |
CN114298825A (zh) | 还款积极度评估方法及装置 | |
CN108805603A (zh) | 营销活动质量评估方法、服务器及计算机可读存储介质 | |
CN114463119A (zh) | 信用评估方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |