CN110909963A - 一种信用评分卡模型训练方法及纳税人非正常风险评估方法 - Google Patents
一种信用评分卡模型训练方法及纳税人非正常风险评估方法 Download PDFInfo
- Publication number
- CN110909963A CN110909963A CN201811071953.1A CN201811071953A CN110909963A CN 110909963 A CN110909963 A CN 110909963A CN 201811071953 A CN201811071953 A CN 201811071953A CN 110909963 A CN110909963 A CN 110909963A
- Authority
- CN
- China
- Prior art keywords
- continuous
- taxpayer
- features
- optimal
- monotonicity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 title claims abstract description 33
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 31
- 238000012502 risk assessment Methods 0.000 title claims abstract description 16
- 238000007477 logistic regression Methods 0.000 claims abstract description 14
- 238000000926 separation method Methods 0.000 claims description 55
- 230000009467 reduction Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000003672 processing method Methods 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 claims 1
- 230000006399 behavior Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 12
- 230000011218 segmentation Effects 0.000 description 11
- 230000008859 change Effects 0.000 description 4
- 230000002265 prevention Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
- 238000012559 user support system Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/10—Tax strategies
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Technology Law (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种信用评分卡模型训练方法及纳税人非正常风险评估方法。本发明的风险评估方法包括:s1步训练样本的获取,s2步初始特征的获取,s3步对类别特征的连续化,s4步连续特征初始分箱点的选取,s5步连续特征最优分箱点的选取,s6步连续特征分箱结果单调性的保证,s7步特征选择选择预测性高的特征,s8步利用逻辑回归模型进行风险模型的训练,以及s9步利用学习到的纳税人非正常风险模型对纳税人的非正常风险进行预测。本发明提高了模型的预测结果,可以提前发现潜在的风险纳税人,帮助税务机关提早对风险纳税人的领票、开票行为进行控制,加大犯罪分子开设企业进行发票虚开的成本。
Description
技术领域
本发明涉及一种信用评分卡模型及纳税人非正常风险评估方法,具体的说是一种利用信息增益计算WOE分箱并根据信用评分卡模型对分箱结果单调性的要求自动合并WOE分箱的信用评分卡模型及纳税人非正常风险评估方法,属于计算机大数据处理领域。
背景技术
信用评分卡是一种成熟的信用评估模型,主要应用于金融领域的金融风险预测,是一种将原始特征通过WOE(Weight of Evidence,证据权重)编码方式进行离散化之后运用逻辑回归模型进行二分类的广义线性模型。运用数理统计技术,通过对个人、企业的基本信息、信贷情况、人脉关系、身份特质、资产状况、行为偏好等数据进行深度挖掘,发现蕴藏在海量数据中,能够反映个人或企业风险特征、预期信贷表现规律,并利用评分的形式表现出来,辅助银行进行客户获取、贷款审批、贷后管理等。
同银行等金融机构需要对个人和企业进行风险防控一样,税务领域也存在很多税收风险,存在故意偷税、漏税、骗税以及因为做出了这些税收违法行为而发生走逃的风险企业和个人,如果已办理税务登记的纳税人未按照规定的期限申报纳税,在税务机关责令其限期改正后,逾期没有改正,并且经过税务机关派员实地检查,查无下落且无法强制其履行纳税义务的纳税人就会被认定为非正常纳税人,此类故意走逃的纳税人,税务机关很难追踪到该风险纳税人来收缴违法偷、漏、骗税款,因此,税务部门非常有必要提前对此类纳税人进行防控。可以借鉴金融领域的信用评分卡模型对纳税人的非正常风险进行提前预测,辅助税收征管和税收风险的防控。信用评分卡模型本身是利用统计分析、机器学习等手段从数据中学习规律,但是在实际运用过程中,依然存在大量需要专业人员进行模型优化的工作,其中主要体现在信用评分卡模型的WOE分箱过程。WOE是一种对连续特征进行离散化的手段,将连续特征划分为不同的分段,统计每个分段好坏样本占比与整体样本好坏占比的差异,差异越大,风险区分能力就越明显。正是因为WOE分箱对风险的区分能力使得信用评分卡模型具有非常好的可解释性,所以得到了广泛的应用。但是标准的WOE分箱过程通常是采用等频或等距的方式进行分箱,而不同的特征,最优分箱方式各不相同,通常还需要经过专业人士进行分箱的合并工作,并保证分箱结果的单调性。这部分工作在信用评分卡模型中占据了大量的时间。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种最优WOE分箱的信用评分卡模型,用来进行纳税人的非正常风险评估。
本发明提供一种最优WOE分箱的信用评分卡模型及纳税人非正常风险评估方法,采用有监督的方式计算WOE(Weight of Evidence,证据权重)的分箱,首先通过等频的方式选择连续特征的初始分箱点,然后利用信息增益来选择最优的分箱点进行分箱,并通过自动合并不满足单调条件的分箱来保证分箱结果的单调性,同时可以根据业务需要,支持对U型单调性的支持。通过这种自动计算最优WOE分箱的方式,可以显著减少税务专家进行人工调整WOE分箱的工作,避免了人工合并WOE分箱来保证分箱的单调性。同时,因为在进行WOE分箱过程中通过信息增益的方式考虑了不同分箱方式下黑白样本的分布,使得分箱结果更合理,在减少人工操作的过程中提高评分卡模型的准确性。而通过应用经过优化后的评分卡模型,可以更精确的预测纳税人成为非正常户的风险,帮助税务机关提前发现风险纳税人,对其进行风险的防控,减少税款的损失,提早进行税款的追缴。
本发明的技术方案为:
一种信用评分卡模型的特征数据生成方法,其步骤包括:
1)将纳税人状态为非正常的纳税人作为黑样本、纳税人状态为正常的纳税人作为白样本,并对黑样本和白样本进行特征提取;其中提取的特征分为类别特征和连续特征,对类别特征进行连续化,生成对应的连续特征;
2)对于每一连续特征,选取该连续特征的初始分箱点,然后从初始分箱点中选择一个最优分箱点,根据该最优分箱点将该连续特征的特征值划分为两部分,然后再分别对这两部分递归选择最优分箱点,直到满足设定条件,得到该连续特征的一组最优分箱点;然后检测该连续特征的最优分箱点的分箱结果单调性;如果不满足单调性,则对该连续特征的最优分箱点的分箱结果进行合并,直到连续特征的分箱结果满足单调性。
进一步的,所述设定条件为当前得到的最优分箱点的个数达到设定个数,或当前选择最优分箱点划分得到的每个部分的样本标记类别均相同,或者继续进行划分得到的信息增益小于设定信息增益阈值。
进一步的,选取所述最优分箱点的方法为:计算不同分箱点进行分箱后得到的信息增益,选择信息增益最大的分箱点作为最优分箱点。
进一步的,从分箱结果中选择不满足单调性的相邻分箱中WOE最接近的相邻分箱进行合并,使得最后的分箱结果满足单调性。
进一步的,对类别特征进行连续化的方法为:统计类别特征在不同取值时的WOE值来代替原始特征值,生成对应的连续特征;其中,为类别特征f取值为i时的WOE值,Bi为特征f取值为i时对应的黑样本数量,Btotal为整个训练样本中黑样本的数量,Gi为特征f取值为i的情况下白样本的数量,Gtotal为整个训练样本中白样本的数量。
进一步的,提取的特征包括但不限于以下特征:纳税人基本信息、纳税人申报信息、纳税人纳税信息、纳税人接受发票和开具发票信息、纳税人的关系网络。
一种信用评分卡模型训练方法,其步骤包括:
1)将纳税人状态为非正常的纳税人作为黑样本、纳税人状态为正常的纳税人作为白样本,并对黑样本和白样本进行特征提取;其中提取的特征分为类别特征和连续特征,对类别特征进行连续化,生成对应的连续特征;
2)对于每一连续特征,选取该连续特征的初始分箱点,然后从初始分箱点中选择一个最优分箱点,根据该最优分箱点将该连续特征的特征值划分为两部分,然后再分别对这两部分递归选择最优分箱点,直到满足设定条件,得到该连续特征的一组最优分箱点;然后检测该连续特征的最优分箱点的分箱结果单调性;如果不满足单调性,则对该连续特征的最优分箱点的分箱结果进行合并,直到连续特征的分箱结果满足单调性;
3)采用满足单调性的各连续特征对信用评分卡模型进行训练;其中,根据纳税人被标记为黑样本的标记日期,对各黑样本设立历史期、观察期、表现期;用白样本的连续特征和黑样本中历史期的样本连续特征数据对信用评分卡模型进行训练,将观察期的样本连续特征输入训练得到的信用评分卡模型,将输出的预测结果与表现期的样本数据进行对比,对训练得到的信用评分卡模型模型的风险预测准确性进行评估。
进一步的,对步骤2)处理后的连续特征进行降维处理,然后进行步骤3);其中,降维处理方法为:计算每个连续特征的信息量值,所述信息量值为通过对每个分箱的WOE值进行加权求和得到,将信息量值小于设定阈值的特征过滤掉。
进一步的,所述信用评分卡模型为逻辑回归模型。
一种纳税人非正常风险评估方法,其步骤包括:
1)将纳税人状态为非正常的纳税人作为黑样本、纳税人状态为正常的纳税人作为白样本,并对黑样本和白样本进行特征提取;其中提取的特征分为类别特征和连续特征,对类别特征进行连续化,生成对应的连续特征;
2)对于每一连续特征,选取该连续特征的初始分箱点,然后从初始分箱点中选择一个最优分箱点,根据该最优分箱点将该连续特征的特征值划分为两部分,然后再分别对这两部分递归选择最优分箱点,直到满足设定条件,得到该连续特征的一组最优分箱点;然后检测该连续特征的最优分箱点的分箱结果单调性;如果不满足单调性,则对该连续特征的最优分箱点的分箱结果进行合并,直到连续特征的分箱结果满足单调性;
3)采用满足单调性的各连续特征对信用评分卡模型进行训练;其中,根据纳税人被标记为黑样本的标记日期,对各黑样本设立历史期、观察期、表现期;用白样本的连续特征和黑样本中历史期的样本连续特征数据对信用评分卡模型进行训练,将观察期的样本连续特征输入训练得到的信用评分卡模型,将输出的预测结果与表现期的样本数据进行对比,对训练得到的信用评分卡模型模型的风险预测准确性进行评估;
4)提取待预测纳税人的特征并对生成对应的满足单调性的连续特征;
5)将该待预测纳税人的连续特征输入步骤3)训练得到的信用评分卡模型,得到该待预测纳税人的评估结果。
本发明包括图1所示的9部分,包括s1步训练样本的获取,s2步初始特征的获取,s3步对类别特征的连续化,s4步连续特征初始分箱点的选取,s5步连续特征最优分箱点的选取,s6步连续特征分箱结果单调性的保证,s7步特征选择选择预测性高的特征,s8步利用逻辑回归模型进行风险模型的训练,以及s9步利用学习到的纳税人非正常风险模型对纳税人的非正常风险进行预测。
第s1步样本选取,主要用来选择训练信用评分卡模型的样本数据。样本的选取与模型的预测目标息息相关,需要选择正确的黑白样本,并保证足够的数据量,在本发明中,用于训练信用评分卡模型的黑白样本根据纳税人的状态进行划分,将纳税人状态为非正常的纳税人作为黑样本,纳税人状态为正常的纳税人作为白样本。并根据纳税人认定为非正常纳税人的日期,对样本设立历史期、表现期、观察期等时间节点。选取历史期的样本进行模型的训练,表现期的样本进行预测,在观察期评估样本的预测结果。
第s2步是特征的获取,主要用来将所有可用特征数据进行收集、整理、合并,为模型提供原始输入数据,其中主要包括纳税人基本信息、纳税人申报信息、纳税人纳税信息、纳税人接受发票和开具发票信息以及纳税人的关系网络等五方面的数据。并且需要在此步骤中对特征数据进行校验修正,比如需要对特征的缺失情况进行分析处理。特征数据可以分为类别特征和连续特征,比如教育程度(小学、中学、大学)为类别特征,销售额为连续特征。
第s3步是类别特征的连续化。本发明采用WOE值来对类别型特征进行连续化的转换,统计类别特征在不同取值时在整个样本上的WOE值来替代原始的类别变量的值。比如教育程度这个特征,假如训练数据整体样本中黑样本有100条,白样本有200条,教育程度为小学的样本中黑样本有50条,白样本有100条,教育程度为中学的样本中黑样本有30条,白样本有50条,教育程度为大学的样本中黑样本有20条,白样本有50条,则教育程度取值为小学时WOE值为ln((50/100)/(100/200))、教育程度取值为中学时WOE值为ln((30/100)/(50/200))、教育程度取值为大学时WOE值为ln((20/100)/(50/200))。该步骤计算得到的特征可以直接输入到逻辑回归模型中作为逻辑回归模型的特征,也可以经过分箱的步骤再进行一次分箱操作。
第s4步是连续特征初始分箱点的选取。要对连续特征进行分箱处理,分箱点的选取是必不可少的,本发明对无监督和有监督的分箱方式进行了结合,首先采用无监督的方式进行初始分箱点的选取,初始分箱点的选取有等宽和等频两种方式,等宽的选取方式将特征的值域分成具有相同宽度的区间,而区间的个数由用户指定,等频的选取方式将相同数量的对象放进每个区间。等宽法对异常点比较敏感,倾向于不均匀地把实例分布到各个箱中,有些箱中包括许多实例,而另外一些箱中又一个实例都没有。这样会严重地损坏特征建立好的决策结构的能力。因此,本发明采用了等频的方式来计算初始的分箱点,并通过设置较大的分箱数量来保证下一步最优分箱点的选取时能够计算出最优的分箱点方案。
第s5步是连续特征最优分箱点的选取。本发明通过有监督的方式从s4步中选取的初始分箱点中选择一组最优的分箱点,替代原来人工进行分箱调整的工作。本发明选择基于信息熵的最优分箱点选择方法,使用类标信息计算和确定分割点,采用有监督的、自顶向下的分裂技术。首先,选择一个分箱点将连续特征值切分成两部分,让两个结果区间产生最小熵(即计算不同分箱点进行分箱后得到的信息增益,选择信息增益最大的分箱点作为最优分箱点);然后,再对这两个区间,重复此分割过程,直到区间的个数达到用户指定的个数,或满足终止条件(当得到的每个区间中的样本标记类别都是一样或者继续进行划分得到的信息增益小于用户指定的信息增益阈值时,即停止离散化过程;比如如果年龄这个特征24~30这个区间全是白样本,那这个区间就不需要继续进行分箱了)。
第s6步是连续特征分箱结果单调性的保证。所谓分箱结果的单调性是将一个连续特征的所有分箱按照每个分箱区间的最小值对所有分箱进行排序,排序后的分箱的对应的WOE值处于递增或递减状态,或者对于某些特征可以支持U型单调性,即排序后的分箱对应的WOE值存在先增后减或者先减后增的趋势。为了使得模型具有更好的可解释性,评分卡模型一般要求所有的特征在进行WOE分箱后要保证具有单调性或者U型单调性。本发明采用逐步合并非单调分箱的方式来自动调整分箱使得最后的分箱结果能够保证分箱的单调性;这是一个逐步合并的过程,如果不满足单调性,则会选择不满足单调性的相邻分箱中WOE最接近的相邻分箱进行合并。
第s7步是特征选择。特征选择是从已有的所有特征中选择最有效的特征以降低数据维度的过程,是提高算法性能的一种重要手段。本发明主要采用两种方式来进行特征选择,一种方式是基于s5步骤的WOE分箱结果,计算每个连续特征的IV(Information Value,信息量)值,IV值通过对每个分箱的WOE值进行加权求和得到,衡量特征对类标的预测能力,将IV值小于阈值的特征过滤掉,即通过IV值将预测能力低的特征过滤掉。另外一种方式是采用皮尔森相关系数计算特征两两之间的线性相关性,对于皮尔森相关系数大于设定阈值的特征对,通过比较两个特征分别与类别变量(类别变量就是标志样本为黑样本还是白样本的变量)之间的相关性,保留与类别变量相关性高的特征,去掉与类别变量相关性低的特征。通过这一步去掉特征中具有线性关系的特征。
第s8步是逻辑回归风险评估模型的训练。在本模型中,采用信用评分卡模型中常用的逻辑回归模型作为风险评估模型,逻辑回归模型具有简单、稳定,可解释性强的优点,业务人员可以将逻辑回归模型学习到的权重对应到实际业务场景,对预测结果进行解释。同时可解释性还能帮助进行模型的检查和排错。
第s9步是纳税人变为非正常户的风险预测。利用第8步学习到的模型,来预测纳税人未来变为非正常户的概率。对于高分的纳税人需要进行重点的风险防控。同时,因为纳税人的申报、纳税、开票、纳税人关系等信息会随时间发生变化,因此需要定期的更新纳税人的风险分,及时发现潜在风险纳税人。
本发明的有益之处是:
本发明采用最优WOE分箱的信用评分卡模型来对非正常纳税人进行风险评估。显著降低了模型构建时间,减少了人工进行模型调整的工作量,同时也提高了模型的预测结果,通过将其应用到风险纳税人预测,可以提前发现潜在的风险纳税人,帮助税务机关提早对风险纳税人的领票、开票行为进行控制,加大犯罪分子开设企业进行发票虚开的成本。
附图说明
图1为本发明的整体模块构成图;
图2为最优分箱节点选取流程图;
图3为区间单调性保证流程图。
具体实施方式
本部分对发明的具体实施方式进行详细描述。
本发明提出的最优WOE分箱信用评分卡模型及纳税人非正常风险评估方法主要分为图1所示的s1~s9共9个步骤。
其中s1步骤为样本选取,样本选取阶段主要是确定黑白样本的划分和样本选取的时间区间。在本发明中,主要目标是预测纳税人成为非正常户的风险,所以将纳税人状态为非正常的纳税人作为黑样本,将纳税人状态为正常的纳税人作为白样本。同时按照纳税人成为非正常户的时间划分历史期、观察期、表现期,用历史期的样本进行模型的训练,观察期的样本作为测试样本,用训练得到的模型预测纳税人风险,在表现期观察测试样本的真实风险,对模型的风险预测准确性进行评估。
s2步骤为特征获取,该步骤主要是选取所有可以获得的纳税人的登记信息、申报信息、纳税信息、发票信息和纳税人关系等数据,并对获取到的信息进行初步的分析和处理。主要包括两个步骤:
1.缺失值填充
可以根据不同特征的具体业务特性,选择采用平均值、中位数、众数等直接进行填充,或者选择与样本相近的样本的特征值进行填充,或者直接构造新的预测模型,预测该列特征的缺失值。
2.特征值变化范围小的特征过滤
对于某些特征的取值集中在某个值的特征可以直接去除掉,因为此类特征包含的信息量太低,基本无法在模型中起到作用。
s3步骤为类别特征连续化,该步骤通过指定需要进行连续化的类别特征,统计其在不同取值时的WOE值来代替原始特征值。计算方法如下:
其中为特征f取值为i的情况下的woe值,Bi为特征f取值为i时对应的黑样本数量,Btotal为整个训练样本中黑样本的数量,Gi为特征f取值为i的情况下白样本的数量,Gtotal为整个训练样本中白样本的数量。样本中特征f的取值则被替换为
s4步骤为连续特征初始分箱点的选取,本发明采用等频的方式来选择初始的分箱点。默认计算特征的百分位数作为特征的初始分箱点。百分位数表示的是将连续特征在样本中的所有取值按照从小到大的顺序排序,并计算相应的累计百分位,某一个百分位所对应数据的值就称为这一百分位的百分位数。即将一组数据从小到大排序,处于p%位置的值称第p百分位数。百分位数生成的100个分箱点还需要进行去重处理,将相邻的数值相同的分箱点进行去重。
s5步骤为连续特征的最优分箱点的选取。如图2所示,本发明通过分裂的方法来选取WOE的最优分箱点,采用信息增益来决定最优的特征分箱点,将整个区间划分为左右子区间,并递归的对左右子区间以相同的方式进行区间分裂,直到满足一定的分裂条件。同时为了优化信息增益计算过程中的计算量,可以利用区间中好坏样本的统计值替代实际样本,使得每次区间划分时不需要从样本中再计算信息熵,显著加快计算时间。主要步骤如下:
1.首先统计整个训练样本集中好坏样本的数量存入数组CountAll,使得CountAll[0]=坏样本数量,CountAll[1]=好样本数量;
2.按升序对s4步骤中得到的分箱点进行排序;
3.统计每个分割点(分箱点)到左侧相邻分割点之间好坏样本的数量,存储到二维数组SampleCount,以年龄特征为例,假设分割点为10、20、30、……、100、110,10对应的是年龄小于等于10的好坏样本的数量,20对应的是[10,20)之间的好坏样本的数量,同理110统计的是[100,110)之间好坏样本的数量。
分割点 | 10 | 20 | 30 | ...... | 100 | 110 |
坏样本数量 | 4 | 100 | ...... | 20 | 10 | |
好样本数量 | 2 | 3000 | ...... | 80 | 50 |
4.初始化CountLeft为{0,0},CountLeft[0]表示坏样本的数量,CountLeft[1]表示好样本的数量;
5.计算当前整个区间的信息熵;比如对年龄这个特征,取值范围是1~100,选择的初始分箱点刚好是1、2、3、…、99、100。首先从这里面选择一个最优的分箱点,计算把每个点作为分箱点时的信息增益,这时整个区间指的是1~100这个区间,假如计算得到40作为分割点信息增益最大,那就把区间划分为1~40和40~100两部分,然后再分别对这两个区间进行相同的操作,比如在对1~40这个区间中选择分裂点时,其整个区间值得就是1~40了。
6.从左到右遍历分割点,设当前遍历到的分割点的下标为i,做如下计算:
a)CountLeft[0]+=SampleCount[i][0]
b)CountLeft[0]+=SampleCount[i][1]
c)CountAll[0]-=SampleCount[i][0]
d)CountAll[1]-=SampleCount[i][1]
CountLeft统计若以当前分割点i进行分割,其左侧区间好坏样本的数量,CountAll为右侧区间好坏样本的数量。
计算连续特征以当前分割点进行分割之后的信息熵为Hsplit,而Hleft为左侧区间的信息熵,Hright为右侧区间的信息熵。
然后可以根据以上数据计算连续特征以当前节点进行分割得到的信息增益Gaini:Gaini=H-Hsplit。
7.如果选择6中信息增益最大的分箱点进行分割得到的信息增益大于用户设定的最小信息增益,且划分后的左右区间的好坏样本数量均大于0,则对左右区间迭代进行区间的划分,否则,不再进行区间划分。
s6步骤为连续特征分箱结果单调性的保证。单调性保证的过程如图3所示,首先需要计算现有区间的数量是否大于用户设置的最小区间数量的阈值,如果现有区间的数量小于用户设置的最小区间的阈值,则直接结束单调性保证过程,否则,计算现有区间是否不满足单调性条件。判断单调性条件的方式为统计现有区间中所有相邻区间的单调性变动次数,如果单调性变动次数等于0,则满足单调性条件,如果单调性变动次数为1,则需要确定用户是否设置在单调性保证过程中支持U型单调性,如果用户选择支持U型单调性,则单调性变动次数为1时时满足单调性的,否则其他情况下为不满足单调性,需要按如下方式进行单调性的调整。
首先需要标记相邻区间的单调关系,然后对于相邻标记不同的区间,计算相邻区间的WOE的差异的绝对值,最后从单调性不同的相邻区间中选取WOE差异最小的相邻区间,并将这两个相邻区间进行合并。然后迭代进行区间单调性的判断,继续区间的合并调整,直到所有分箱区间满足单调性或分箱区间的数量小于等于用户设置的最小区间数量的阈值。
此处以对年龄这个特征的WOE分箱的单调性保证为例说明单调性保证的整个过程。
假设上一步得到的年龄的最优分箱为如下形式,且用户设置的最小分箱数量阈值为3,分箱支持U型单调性。
上表中最小值和最大值用于标注特征区间范围,坏样本数量为所有样本中该特征落在这个区间的坏样本的数量,好样本数量为所有样本中该特征落在这个区间的好样本的数量,总坏样本数量和总好样本数量就是统计的整个训练数据集中好坏样本的数量。区间WOE是根据WOE的定义,用当前区间的好坏样本比例除以总样本中好坏样本比例并取自然对数得到的。相邻区间单调关系是计算了根据当前区间与其上一个区间的WOE值的大小关系计算出来的,
如果当前区间WOE值大于上一区间的WOE值,则标记为1,否则标记为0。
从表中的数据可以看出,区间数量为5,大于最小分箱数量阈值的,相邻区间单调性变化次数为2,不满足单调性要求,需要进行单调性的调整。
然后计算存在单调性变化的相邻区间的WOE差异值,本例中主要是1~2、2~3和3~4这三个相邻区间的单调性导致了单调性不一致,分别计算这3个相邻区间的WOE差异值,1~2之间的差异值为0.12,2~3之间的差异值为2.15,3~4之间的差异值为1.91,选择差异最小的相邻区间进行合并,即选择将1~2进行合并。合并结果如下表。
本例中,合并后的表区间数量依然大于用户设定的最小区间数量的阈值,但是满足先减后增的U型单调性,单调性已经得到保证。
S7步为特征选择,特征选择步骤首先根据上一步特征分割的结果,通过IV值进行选择,将IV值低的特征去掉,然后根据皮尔森相关性再次进行特征选择,计算特征与特征之间的线性相关性,对于线性相关性高的特征,比较两个特征分别于类别之间的相关性,保留与类别之间相关性高的特征,去掉与类别相关性低的特征。
S8逻辑回归风险评估模型训练,采用常见的逻辑回归模型,将S7步骤最后选出的特征输入到逻辑回归模型中,学习每个特征对于最终风险评估得分的权重。然后计算最终的风险得分。
S9纳税人非正常风险预测,在训练好模型以后就可以利用训练好的模型对纳税人的风险分进行定期更新,随着纳税人申报、纳税、开票、纳税人关系的变化,纳税人的风险分也会动态的发生变化,使得税务机关可以及时发现潜在风险纳税人,对其进行管控。
以上包含了本发明优选实施例的说明,这是为了详细说明本发明的技术特征,并不是想要将发明内容限制在实施例所描述的具体形式中,依据本发明内容主旨进行的其他修改和变型也受本专利保护。本发明内容的主旨是由权利要求书所界定,而非有实施例的具体描述所界定。
Claims (10)
1.一种信用评分卡模型的特征数据生成方法,其步骤包括:
1)将纳税人状态为非正常的纳税人作为黑样本、纳税人状态为正常的纳税人作为白样本,并对黑样本和白样本进行特征提取;其中提取的特征分为类别特征和连续特征,对类别特征进行连续化,生成对应的连续特征;
2)对于每一连续特征,选取该连续特征的初始分箱点,然后从初始分箱点中选择一个最优分箱点,根据该最优分箱点将该连续特征的特征值划分为两部分,然后再分别对这两部分递归选择最优分箱点,直到满足设定条件,得到该连续特征的一组最优分箱点;然后检测该连续特征的最优分箱点的分箱结果单调性;如果不满足单调性,则对该连续特征的最优分箱点的分箱结果进行合并,直到连续特征的分箱结果满足单调性。
2.如权利要求1所述的方法,其特征在于,所述设定条件为当前得到的最优分箱点的个数达到设定个数,或当前选择最优分箱点划分得到的每个部分的样本标记类别均相同,或者继续进行划分得到的信息增益小于设定信息增益阈值。
3.如权利要求1或2所述的方法,其特征在于,选取所述最优分箱点的方法为:计算不同分箱点进行分箱后得到的信息增益,选择信息增益最大的分箱点作为最优分箱点。
4.如权利要求1所述的方法,其特征在于,从分箱结果中选择不满足单调性的相邻分箱中WOE最接近的相邻分箱进行合并,使得最后的分箱结果满足单调性。
6.如权利要求1所述的方法,其特征在于,提取的特征包括但不限于以下特征:纳税人基本信息、纳税人申报信息、纳税人纳税信息、纳税人接受发票和开具发票信息、纳税人的关系网络。
7.一种信用评分卡模型训练方法,其步骤包括:
1)将纳税人状态为非正常的纳税人作为黑样本、纳税人状态为正常的纳税人作为白样本,并对黑样本和白样本进行特征提取;其中提取的特征分为类别特征和连续特征,对类别特征进行连续化,生成对应的连续特征;
2)对于每一连续特征,选取该连续特征的初始分箱点,然后从初始分箱点中选择一个最优分箱点,根据该最优分箱点将该连续特征的特征值划分为两部分,然后再分别对这两部分递归选择最优分箱点,直到满足设定条件,得到该连续特征的一组最优分箱点;然后检测该连续特征的最优分箱点的分箱结果单调性;如果不满足单调性,则对该连续特征的最优分箱点的分箱结果进行合并,直到连续特征的分箱结果满足单调性;
3)采用满足单调性的各连续特征对信用评分卡模型进行训练;其中,根据纳税人被标记为黑样本的标记日期,对各黑样本设立历史期、观察期、表现期;用白样本的连续特征和黑样本中历史期的样本连续特征数据对信用评分卡模型进行训练,将观察期的样本连续特征输入训练得到的信用评分卡模型,将输出的预测结果与表现期的样本数据进行对比,对训练得到的信用评分卡模型模型的风险预测准确性进行评估。
8.如权利要求7所述的方法,其特征在于,对步骤2)处理后的连续特征进行降维处理,然后进行步骤3);其中,降维处理方法为:计算每个连续特征的信息量值,所述信息量值为通过对每个分箱的WOE值进行加权求和得到,将信息量值小于设定阈值的特征过滤掉。
9.如权利要求7所述的方法,其特征在于,所述信用评分卡模型为逻辑回归模型。
10.一种纳税人非正常风险评估方法,其步骤包括:
1)将纳税人状态为非正常的纳税人作为黑样本、纳税人状态为正常的纳税人作为白样本,并对黑样本和白样本进行特征提取;其中提取的特征分为类别特征和连续特征,对类别特征进行连续化,生成对应的连续特征;
2)对于每一连续特征,选取该连续特征的初始分箱点,然后从初始分箱点中选择一个最优分箱点,根据该最优分箱点将该连续特征的特征值划分为两部分,然后再分别对这两部分递归选择最优分箱点,直到满足设定条件,得到该连续特征的一组最优分箱点;然后检测该连续特征的最优分箱点的分箱结果单调性;如果不满足单调性,则对该连续特征的最优分箱点的分箱结果进行合并,直到连续特征的分箱结果满足单调性;
3)采用满足单调性的各连续特征对信用评分卡模型进行训练;其中,根据纳税人被标记为黑样本的标记日期,对各黑样本设立历史期、观察期、表现期;用白样本的连续特征和黑样本中历史期的样本连续特征数据对信用评分卡模型进行训练,将观察期的样本连续特征输入训练得到的信用评分卡模型,将输出的预测结果与表现期的样本数据进行对比,对训练得到的信用评分卡模型模型的风险预测准确性进行评估;
4)提取待预测纳税人的特征并对生成对应的满足单调性的连续特征;
5)将该待预测纳税人的连续特征输入步骤3)训练得到的信用评分卡模型,得到该待预测纳税人的评估结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811071953.1A CN110909963A (zh) | 2018-09-14 | 2018-09-14 | 一种信用评分卡模型训练方法及纳税人非正常风险评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811071953.1A CN110909963A (zh) | 2018-09-14 | 2018-09-14 | 一种信用评分卡模型训练方法及纳税人非正常风险评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110909963A true CN110909963A (zh) | 2020-03-24 |
Family
ID=69812342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811071953.1A Pending CN110909963A (zh) | 2018-09-14 | 2018-09-14 | 一种信用评分卡模型训练方法及纳税人非正常风险评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110909963A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652504A (zh) * | 2020-06-01 | 2020-09-11 | 泰康保险集团股份有限公司 | 数据处理装置 |
CN111695084A (zh) * | 2020-04-26 | 2020-09-22 | 北京奇艺世纪科技有限公司 | 模型生成方法、信用评分生成方法、装置、设备及存储介质 |
CN112053233A (zh) * | 2020-09-04 | 2020-12-08 | 天元大数据信用管理有限公司 | 基于gra的动态中小企业信用评分方法及系统 |
CN112085585A (zh) * | 2020-08-03 | 2020-12-15 | 北京贝壳时代网络科技有限公司 | 一种信用风险等级评估方法及系统 |
CN112348520A (zh) * | 2020-10-21 | 2021-02-09 | 上海淇玥信息技术有限公司 | 基于XGBoost的风险评估方法、装置和电子设备 |
CN112801775A (zh) * | 2021-01-29 | 2021-05-14 | 中国工商银行股份有限公司 | 客户信用评价方法及装置 |
CN112819034A (zh) * | 2021-01-12 | 2021-05-18 | 平安科技(深圳)有限公司 | 数据分箱阈值计算方法、装置、计算机设备及存储介质 |
WO2021151305A1 (zh) * | 2020-07-16 | 2021-08-05 | 平安科技(深圳)有限公司 | 基于缺失数据的样本分析方法、装置、电子设备及介质 |
CN113822755A (zh) * | 2021-09-27 | 2021-12-21 | 武汉众邦银行股份有限公司 | 一种特征离散化技术对个人用户信用风险的识别方法 |
CN114398942A (zh) * | 2021-12-08 | 2022-04-26 | 河北航天信息技术有限公司 | 一种基于集成的个人所得税异常检测方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100082469A1 (en) * | 2008-09-30 | 2010-04-01 | Sas Institute Inc. | Constrained Optimized Binning For Scorecards |
CN106779457A (zh) * | 2016-12-29 | 2017-05-31 | 深圳微众税银信息服务有限公司 | 一种企业信用评估方法及系统 |
CN108334954A (zh) * | 2018-01-22 | 2018-07-27 | 中国平安人寿保险股份有限公司 | 逻辑回归模型的构建方法、装置、存储介质及终端 |
-
2018
- 2018-09-14 CN CN201811071953.1A patent/CN110909963A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100082469A1 (en) * | 2008-09-30 | 2010-04-01 | Sas Institute Inc. | Constrained Optimized Binning For Scorecards |
CN106779457A (zh) * | 2016-12-29 | 2017-05-31 | 深圳微众税银信息服务有限公司 | 一种企业信用评估方法及系统 |
CN108334954A (zh) * | 2018-01-22 | 2018-07-27 | 中国平安人寿保险股份有限公司 | 逻辑回归模型的构建方法、装置、存储介质及终端 |
Non-Patent Citations (1)
Title |
---|
王梦雪: "基于机器学习技术的 P2P 风控模型研究", 《中国优秀硕士学位论文全文数据库 信息科技 经济与管理科学》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695084A (zh) * | 2020-04-26 | 2020-09-22 | 北京奇艺世纪科技有限公司 | 模型生成方法、信用评分生成方法、装置、设备及存储介质 |
CN111652504A (zh) * | 2020-06-01 | 2020-09-11 | 泰康保险集团股份有限公司 | 数据处理装置 |
WO2021151305A1 (zh) * | 2020-07-16 | 2021-08-05 | 平安科技(深圳)有限公司 | 基于缺失数据的样本分析方法、装置、电子设备及介质 |
CN112085585A (zh) * | 2020-08-03 | 2020-12-15 | 北京贝壳时代网络科技有限公司 | 一种信用风险等级评估方法及系统 |
CN112053233A (zh) * | 2020-09-04 | 2020-12-08 | 天元大数据信用管理有限公司 | 基于gra的动态中小企业信用评分方法及系统 |
CN112053233B (zh) * | 2020-09-04 | 2023-11-14 | 天元大数据信用管理有限公司 | 基于gra的动态中小企业信用评分方法及系统 |
CN112348520A (zh) * | 2020-10-21 | 2021-02-09 | 上海淇玥信息技术有限公司 | 基于XGBoost的风险评估方法、装置和电子设备 |
CN112819034A (zh) * | 2021-01-12 | 2021-05-18 | 平安科技(深圳)有限公司 | 数据分箱阈值计算方法、装置、计算机设备及存储介质 |
CN112801775A (zh) * | 2021-01-29 | 2021-05-14 | 中国工商银行股份有限公司 | 客户信用评价方法及装置 |
CN113822755A (zh) * | 2021-09-27 | 2021-12-21 | 武汉众邦银行股份有限公司 | 一种特征离散化技术对个人用户信用风险的识别方法 |
CN113822755B (zh) * | 2021-09-27 | 2023-09-05 | 武汉众邦银行股份有限公司 | 一种特征离散化技术对个人用户信用风险的识别方法 |
CN114398942A (zh) * | 2021-12-08 | 2022-04-26 | 河北航天信息技术有限公司 | 一种基于集成的个人所得税异常检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909963A (zh) | 一种信用评分卡模型训练方法及纳税人非正常风险评估方法 | |
CN110866819A (zh) | 一种基于元学习的自动化信贷评分卡生成方法 | |
CN111461216A (zh) | 一种基于机器学习的案件风险识别方法 | |
CN112418738B (zh) | 一种基于逻辑回归的员工操作风险预测方法 | |
Dbouk et al. | Towards a machine learning approach for earnings manipulation detection | |
CN110866832A (zh) | 一种风险控制方法、系统、存储介质及计算设备 | |
CN110689437A (zh) | 一种基于随机森林的通信施工项目财务风险预测方法 | |
CN114022269A (zh) | 一种公共信用领域企业信用风险评估方法 | |
CN114493619A (zh) | 一种基于电力数据的企业征信标签构建方法 | |
CN112037006A (zh) | 小微企业的信用风险识别方法及装置 | |
CN114219611A (zh) | 贷款额度计算方法、装置、计算机设备和存储介质 | |
Fikriya et al. | Support Vector Machine Predictive Analysis Implementation: Case Study of Tax Revenue in Government of South Lampung | |
CN108197740A (zh) | 企业倒闭预测方法、电子设备和计算机存储介质 | |
CN114219606A (zh) | 一种基于电力数据的用电企业信用评价的方法和系统 | |
CN113554278A (zh) | 一种动态柔性规则的公司经营危机预警方法和系统 | |
Lee et al. | Application of machine learning in credit risk scorecard | |
Liu et al. | RETRACTED ARTICLE: Company financial path analysis using fuzzy c-means and its application in financial failure prediction | |
CN112396507A (zh) | 基于阴影划分的集成svm个人信用评估方法 | |
CN114549213B (zh) | 一种基金产品的分析管理方法、装置及系统 | |
Nazari et al. | Using the Hybrid Model for Credit Scoring (Case Study: Credit Clients of microloans, Bank Refah-Kargeran of Zanjan, Iran) | |
Chang et al. | Vehicle leasing credit risk assessment modeling by applying extended logistic regression | |
CN118333738A (zh) | 构建零售信用风险预测模型的方法和信用卡业务Scorealpha模型 | |
CN118691393A (zh) | 构建零售信用风险预测模型的方法和零售信贷Scoresigmam1模型 | |
CN117994017A (zh) | 构建零售信用风险预测模型的方法和线上信贷业务Scoredelta模型 | |
CN118071482A (zh) | 构建零售信用风险预测模型的方法和消费信贷业务Scorebetad模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200324 |
|
RJ01 | Rejection of invention patent application after publication |