CN117591945A - 一种基于动态支持向量机的企业信用评分样本标注方法 - Google Patents
一种基于动态支持向量机的企业信用评分样本标注方法 Download PDFInfo
- Publication number
- CN117591945A CN117591945A CN202311413885.3A CN202311413885A CN117591945A CN 117591945 A CN117591945 A CN 117591945A CN 202311413885 A CN202311413885 A CN 202311413885A CN 117591945 A CN117591945 A CN 117591945A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- enterprise credit
- training
- credit scoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 33
- 238000012706 support-vector machine Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000012795 verification Methods 0.000 claims abstract description 12
- 238000013145 classification model Methods 0.000 claims abstract description 10
- 238000009826 distribution Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 26
- 238000012216 screening Methods 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000007477 logistic regression Methods 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000010219 correlation analysis Methods 0.000 claims description 4
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000013075 data extraction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 2
- 238000004220 aggregation Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 238000005065 mining Methods 0.000 claims description 2
- 239000000523 sample Substances 0.000 claims 6
- 239000000758 substrate Substances 0.000 claims 2
- 230000002159 abnormal effect Effects 0.000 description 7
- 238000005457 optimization Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
- G06F18/15—Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于动态支持向量机的企业信用评分样本标注方法,属于金融样本标注领域,本发明利用使用企业信用的历史数据,采用动态的支持向量机分类模型,并采用基于交叉验证的网格搜索对模型参数进行训练,完成分类工作;后续对新获取的数据进行同样步骤的数据预处理,并作为样本对模型训练,更新相关模型系数,以适应数据的动态分布,以该模型对无标签样本进行标注。能够更加准确的标记出数据的标签。
Description
技术领域
本发明涉及金融样本标注领域,尤其涉及一种基于动态支持向量机的企业信用评分样本标注方法。
背景技术
随着互联网的迅速发展,人们的日常工作与生活习惯发生了质的改变。互联网技术的发展和应用以迅雷不及掩耳之式渗透到各行各业,尤其是金融行业,传统金融行业正接受着大数据、互联网以及用户体验不平衡不对称的严峻考验。大数据风控技术已经成为业内人士最关注的一个大数据应用焦点。金融风控模型是互联网金融健康成长的必然趋势。当前我国互联网金融信用体系还不是很完善,征信系统和有关法律都含有一定的缺陷。
信用评分模型常用的方法是逻辑回归,逻辑回归的训练是需要有标签的数据;另外,在进行特征工程指标重要性分析时,也需要有标签的数据,比如相关性分析、xgboost指标重要性分析等;然而,很多情况下,不能以现有的指标为所有的训练数据标注合适的标签,这会使得逻辑回归建立信用评分模型的训练样本不足,或者无法训练。
逻辑回归(Logistic regression)是机器学习领域最为常见的模型方法之一,常常用于作为处理各种任务的基准模型(baseline)。当然各类任务往往最后所用模型的性能远超过逻辑回归方法,但是其模型结构的复杂度和训练时间也往往超过逻辑回归方法;因其可解释性高的优点,在风控建模方面有广泛的应用。
开发信用评分模型的首要目标就是知道来者是好人还是坏人,他未来会不会出现逾期、失联等。所以,如何定义一个借款人的好坏十分讲究,并不是一个人有过逾期欠款他就不是好人了,毕竟发生逾期的原因总是多方面的,有的仅仅是偶尔忘了,这部分总体还是好人,而有的是中途发生财务原因暂时无力偿还,还有的严重一点就是主观上存在坏的目的,借了钱就消失赖账,甚至是身份被骗子盗用。所以,建模过程中,为了训练出一个优质的模型,需要正确地定义好坏样本。
发明内容
为了解决以上技术问题,本发明提供了一种基于动态支持向量机的企业信用评分样本标注方法。
本发明的技术方案是:
一种基于动态支持向量机的企业信用评分样本标注方法,可以利用使用企业信用的历史数据,采用动态的支持向量机分类模型,并采用基于交叉验证的网格搜索对模型参数进行训练,完成分类工作。后续对新获取的数据进行同样步骤的数据预处理,并作为样本对模型训练,更新相关模型系数,以适应数据的动态分布,以该模型对无标签样本进行标注,解决信用评分模型建模样本标签不足的问题,同时,很大程度上节约了人力成本以及人工标注的时间。
本发明选用含有标签的企业信用数据进行训练,数据进行缺失值、同值分析,进行特征的第一次筛选,然后基于KS分箱的信息熵方法对特征进行细致的筛选,完成特征筛选步骤。对筛选完成的数据样本进行训练集和测试集的划分,以完成后续模型训练工作。提出一种动态的支持向量机分类模型,并采用基于交叉验证的网格搜索对模型参数进行训练,完成分类工作。后续对新获取的数据进行同样步骤的数据预处理,并作为样本对模型训练,更新相关模型系数,以适应数据的动态分布,为后续的企业进行标记。
进一步的,
基于历史数据从高维数据中获得用于构建企业信用评分模型的数据信息,相关数据源包括监管数据、征信数据等,通过对多源异构数据分析、融合、汇聚形成标准数据库,基于标准数据库筛选建立企业信用评分模型指标体系;通过数据清洗、无效值处理、同值统计、缺失值统计、缺失值填充等流程构建企业信用评分模型特征工程;根据部分意义明确的指标,确定部分样本的标签;基于有标签的样本,对动态支持向量机进行训练,获取初始的样本标记标签模型,对无标签的样本进行标记,并使用所有含有标签的数据进行后续信用评分模型的建设;随着有标签的数据量增加,对初始的样本标记标签模型进行动态训练,以用于无标签样本的标注。
具体如下
标准数据库建立步骤:多源数据包括部门数据、互联网数据、第三方数据共计三方数据源,三方数据源通过数据汇聚、融合比对等建立标准数据库;
企业信用评分模型指标体系的建立步骤:基于建立的多源数据标准库,建设用于企业信用评分的指标体系,构建指标的数据主要来源于工商、变更、行政处罚、失信、负债、税务等数据中;另外,投资、担保、分支、法人等关系数据也用于构建部分指标;
筛选好坏含义明确的指标,为部分样本标注标签;入模指标通过数据清洗、无效值处理、同值统计、缺失值统计、共线性分析等特征工程,并提出基于KS分箱的信息熵法进行特征选择,提出动态的支持向量机分类模型,并采用基于交叉验证的网格搜索对模型参数进行训练,得到初步的标注模型,后续对新获取的数据进行同样步骤的数据预处理,并作为样本对模型训练,更新相关模型系数,以适应数据的动态变化,为未标注的样本打标签,用于后续企业信用评分模型的训练。
企业信用评分模型建立步骤:上述步骤中指标进行了数据清洗、无效值处理、同值统计、缺失值统计等特征工程;以训练得到的标签标注模型对所有的样本标注标签,然后进行企业信用评分的常用步骤,包括相关性分析、共线性分析,去除指标之间相关性,共线性过高的指标;xgboost指标重要性分析,筛选出对模型其关键作用的指标;对指标进行分布检验并做转换;基于逻辑回归训练模型;评分卡转换。
所述标准数据库构建的步骤
多源异构数据的治理:多源数据来源于企业、部门、互联网等多方来源,包括结构化的数据以及半结构化数据,既包括存量数据也包括API接口提供的数据。半结构化的数据需要经过文本数据处理、数据提取、数据的结构化处理等形成结构化的入库数据,通过建立统一的数据标准规范对入库的多源数据进行规范化管理,互联网数据等可存储数据定期拉取,实时接口数据通过内存进行处理,结合批流处理模式对数据进行数据加工处理、数据标准化、轻特征挖掘等;
数据融合:三方多源数据通过横纵向数据融合,多源互补数据、冗余数据、重叠数据通过不同的融合策略最终融合汇聚到统一的数据库中,数据库存储多源数据融合之后的标准库数据、加工所得指标库、特征库等信息。
所述指标体系的两部分组成及构建的步骤:
企业信用评分的指标体系基于建立的多源数据标准库,从数据中建设用于企业信用评分指标体系。
本发明在构建分类器时,提出动态的支持向量机,可以利用历史数据进行初次模型的训练,然后随着时间的推移,可以利用后续更新数据对模型进行优化,提高模型的适应性与鲁棒性。
本发明在进行模型参数训练时,提出一种基于交叉验证的网格搜索方法,网格搜索可以有效覆盖最优参数的取值范围,而使用K折交叉验证可以减少网格搜索的时间成本消耗,以期最快的速度获得最优参数,能够有效提高分类精度,对企业标注具有促进作用。
本发明设计详细特征选择步骤,采用基于KS分箱的信息熵法,一方面能够减少离群点、空值等异常噪声的影响,另一方面,可以很好的测定每一特征对数据正常或者异常的贡献度,特征选择的关键影响到后续模型的准确度。
本发明的有益效果是
本发明提出了一种基于动态支持向量机的企业信用评分样本标注方法,基于用户汇聚的多源数据,通过数据之间融合比对,不同原始字段对齐,对多源异构数据分析融合等方法建立形成标准数据库;基于建立的标准数据库,从高维数据中获取有助于信用评分建模的信息;基于标准数据库筛选建立信用评分指标体系,通过数据清洗、无效值处理、同值统计、缺失值统计等流程初步筛选形成信用评分入模特征;以具有明确好坏含义的指标对部分样本进行标注;使用动态的支持向量机分类模型,并采用基于交叉验证的网格搜索对模型参数进行训练,得到初步的标注模型,后续对新获取的数据进行同样步骤的数据预处理,并作为样本对模型训练,更新相关模型系数,以适应数据的动态变化;用所有的样本进行信用评分模型的训练。与现有技术相比,具有如下的有益结果:
1、相较于传统的标签标注方法,本发明在构建信用评分模型的好坏标签时,首先基于具有明确好坏含义的指标为部分样本标注标签,然后基于动态支持向量机,为其他未标注样本打标签;该方法很大程度上节约了人力成本以及人工标注的时间。
2、本发明在构建分类器时,提出动态的支持向量机,可以利用历史数据进行初次模型的训练,然后随着时间的推移,可以利用后续更新数据对模型进行优化,提高模型的适应性与鲁棒性;
3、伴随海量数据的汇聚、科技的不断进步,监督学习已应用到许多领域,而且很多方面都会存在等,本发明提出的方法对各个场景均适用,从数据的角度,对特征重要性进行量化分析,应用前景极为广阔。
附图说明
图1是本发明的工作流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种基于动态支持向量机的企业信用评分样本标注方法,动态支持向量机是基于标准支持向量机的变形,能够根据数据样本的变动,量化出数据上的差距,并进行模型参数的调整,能够更加准确的标记出数据的标签。
实现步骤主要包括:基于用户汇聚的多源数据,通过数据之间融合比对,不同原始字段对齐,对多源异构数据分析融合等方法建立形成企业标准数据库;基于建立的标准数据库,从高维数据中获取有助于建设信用评分模型的数据信息;基于标准数据库筛选建立信用评分指标体系,通过数据清洗、无效值处理、同值统计、缺失值统计等流程完成指标数据的预处理工作;筛选含义明确的指标,为部分样本标注标签;提出基于KS分箱的信息熵法进行深度特征选择,使用动态的支持向量机分类模型,并采用基于交叉验证的网格搜索对模型参数进行训练,得到初步的标注模型,后续对新获取的数据进行同样步骤的数据预处理,并作为样本对模型训练,更新相关模型系数,以适应数据的动态分布;得到含有标签的样本数据用于后续企业信用评分模型训练。
1.多源异构数据分析融合建立标准数据库
用户的多源异构数据覆盖用户的部门数据,用户的互联网数据包括经营、投资、知识产权等数据,用户的第三方数据包括用户对外担保、用水用电、股权质押、土地抵押及转让、重要股东质押等信息。多源数据中既包括入库的存量数据,也包括API接口数据,既包括结构化的基本信息、变更、认定信息等数据,也包括半结构化的数据。
半结构化数据需要通过文本数据处理、数据提取、数据结构化方法等形成结构化的数据入库保存,入库的结构化数据需要经过数据对齐、融合比对等方法建立统一的标准数据表格,针对某一维度的信息建立覆盖多范围的标准数据表格,不同数据源之间数据进行融合比对,建立统一的标准数据集,主要包括数据源之间的融合,将具有互补关系的数据对齐融合,将具有冗余关系的数据进行去重处理,选取数据质量较好的数据。多维度数据经过融合比对后形成标准数据集,存储于标准数据库中。
2.构建用于信用评分的指标体系
基于建立的多源数据标准库,建设用于信用评分的指标体系,构建指标的数据主要来源于工商、变更、行政处罚、失信、负债、税务等数据中;另外,投资、担保、分支、法人等关系数据也用于构建部分指标。
3.指标数据的预处理
通过无效值处理、同值统计、缺失值统计等流程完成指标数据的预处理工作;无效值处理主要是去除电话编码,地址编码等信息;同值统计处理对只含同值的字段、同值率高于80%的字段进行去除;缺失值统计处理对全部缺失、字段缺失率高于80%的字段进行去除。
4.基于动态支持向量机的分类模型
指标通过数据清洗、无效值处理、同值统计、缺失值统计等特征工程后,筛选具有明确含义的指标(包括缺失值、同值统计分析去掉的指标),对部分样本进行标注;使用动态的支持向量机分类模型,并采用基于交叉验证的网格搜索对模型参数进行训练,得到初步的标注模型,后续对新获取的数据进行同样步骤的数据预处理,并作为样本对模型训练,更新相关模型系数;信用评分模型训练、评分输出。
4.1特征工程
首先对入模指标中的无效值进行处理,对部分可量化指标进行数值量化;然后对入模指标进行缺失值统计,去除缺失值大于80%的训练指标;针对剩余指标进行同值率的统计,去除属性只有一个值的特征,去除属性同值率大于80%的指标。
4.2筛选具有明确含义的指标并标注部分样本
根据最近5年是否进入失信库、纳税人等级、是否欠税等具有明确好坏含义的指标标注部分样本。(一般该部分指标覆盖率极低,所以标注的样本并不够用于信用评分模型的训练)
4.3特征选择
对有标签的企业信用数据采用相关系数法,选取与目标变量相关性较高的特征;信息熵法,选取信息熵较小的特征。可以减少数据维度,减少计算复杂度和计算时间;提高模型精度,减少冗余信息,提高可解释性。
在本步骤中,先使用相关系数法对所有特征进行初步的筛选;然后本发明提出一种基于ks分箱的信息熵法,进行细致的筛选。具体过程如下:
将归一化的数据按照等宽的原则把各个特征的数据分成若干个区间。统计每个特征每个区间内正常、异常数据的数量,
Goodnum(i)=正常数据数量
Badnum(i)=异常数据数量
其中i为该特征的第i个划分区间。
计算每个区间内正常、异常数据的累积数量,
Goodcum(i)=ΣGoodnum(i)
Badcum(i)=ΣBadnum(i)
计算每个区间内正常、异常数据的累积比例。
计算每个区间内异常数据与正常数据比的差值,并取绝对值。
Δ(i)=|Badratio(i)-Goodratio(i)|
对差值进行求和,得到KS值。
依据此过程,对所有的特征进行KS值计算。以KS分箱的区间为基础,以区间的均值作为取值点xi,并计算各个区间的取值占比P(xi),计算每个区间的信息熵
H(xi)=-P(xi)log2(P(xi))
对应特征X的熵
计算各个特征的基于KS分箱的信息熵
Hks(X)=KS(X)*H(X)
将各信息熵进行排序,选择低于某一阈值的加权信息熵的特征入模。
4.4基于动态支持向量机的分类模型
支持向量机的优化问题如下:
s.t.yi(w·xi+b)≥1-ξi,ξi≥0,i=1,2,…,n
通过历史数据的训练得到wold和bold,对后续获得新数据{(xi,yi)}new
据此更新模型参数,以适应新的数据分布。优化问题转化为
s.t.yi(w·xi+b)≥1-αξi,ξi≥0,i=1,2,…,n,w=wold+Δw,b=bold+Δb
其中,Δw和Δb是更新后的模型参数与旧模型参数的差异.
我们使用拉格朗日乘子法将优化问题转化为对偶形式:
其中,αi是拉格朗日乘子。
然后,通过求解以下优化问题来更新模型参数:
更新后的模型参数为:
获得新的模型
f(x)=sign(wnewx+bnew).
另外,在对参数C进行参数训练时,提出一种基于交叉验证的网格搜索,将所有的样本划分为k部分,对C取值从较大范围取k-1个值[C1,C2,...,Ck-1],每个参数取值对应一个训练样本,在第k部分样本上进行验证,取最好两参数的值Cp,Cq,取两者之间的k-1个值,对样本重新进行k折划分,再次训练取两个表现较好的参数,…,直到所有参数的验证值误差在某个阈值内时(一般取3%),确定最终的参数Cz。。
4.5标注无标签样本
根据训练的标签标注模型对未标注的样本进行标注。
4.6信用评分模型训练
对所有的样本标注相应的标签,进行信用评分模型的训练。
(1)相关性分析、共线性分析,去除指标之间相关性,共线性过高的指标;
(2)xgboost指标重要性分析,筛选出对模型其关键作用的指标;
(3)对指标进行分布检验并做转换;
(4)基于逻辑回归训练模型;
(5)评分卡转换。
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (8)
1.一种基于动态支持向量机的企业信用评分样本标注方法,其特征在于,
利用使用企业信用的历史数据,采用动态的支持向量机分类模型,并采用基于交叉验证的网格搜索对模型参数进行训练,完成分类工作;后续对新获取的数据进行同样步骤的数据预处理,并作为样本对模型训练,更新相关模型系数,以适应数据的动态分布,以该模型对无标签样本进行标注。
2.根据权利要求1所述的方法,其特征在于,
选用含有标签的企业信用数据进行训练,数据进行缺失值、同值分析,进行特征的第一次筛选,然后基于KS分箱的信息熵方法对特征进行筛选,完成特征筛选步骤;
对筛选完成的数据样本进行训练集和测试集的划分,以完成后续模型训练工作。
3.根据权利要求2所述的方法,其特征在于,
基于历史数据从高维数据中获得用于构建企业信用评分模型的数据信息,通过对多源异构数据分析、融合、汇聚形成标准数据库,基于标准数据库筛选建立企业信用评分模型指标体系;
通过数据清洗、无效值处理、同值统计、缺失值统计、缺失值填充的流程构建企业信用评分模型特征工程;根据部分意义明确的指标,确定部分样本的标签;
基于有标签的样本,对动态支持向量机进行训练,获取初始的样本标记标签模型,对无标签的样本进行标记,并使用所有含有标签的数据进行后续信用评分模型的建设;随着有标签的数据量增加,对初始的样本标记标签模型进行动态训练,以用于无标签样本的标注。
4.根据权利要求3所述的方法,其特征在于,
标准数据库建立步骤:多源数据包括部门数据、互联网数据、第三方数据共计三方数据源,三方数据源通过数据汇聚、融合比对建立标准数据库。
5.根据权利要求4所述的方法,其特征在于,
企业信用评分模型指标体系基于建立的多源数据标准库,建设用于企业信用评分的指标体系;
筛选好坏含义明确的指标,为部分样本标注标签;入模指标通过数据清洗、无效值处理、同值统计、缺失值统计、共线性分析的特征工程。
6.根据权利要求5所述的方法,其特征在于,
企业信用评分模型:上述步骤中指标进行了数据清洗、无效值处理、同值统计、缺失值统计的特征工程;以训练得到的标签标注模型对所有的样本标注标签,然后进行企业信用评分的步骤,包括相关性分析、共线性分析,去除指标之间相关性,共线性过高的指标;xgboost指标重要性分析,筛选出对模型其关键作用的指标;对指标进行分布检验并做转换;基于逻辑回归训练模型;评分卡转换。
7.根据权利要求6所述的方法,其特征在于,
所述标准数据库构建的步骤:
多源异构数据的治理:多源数据包括结构化数据以及半结构化数据,既包括存量数据也包括API接口提供的数据;
半结构化的数据需要经过文本数据处理、数据提取、数据的结构化处理形成结构化的入库数据,通过建立统一的数据标准规范对入库的多源数据进行规范化管理,互联网数据可存储数据定期拉取,实时接口数据通过内存进行处理,结合批流处理模式对数据进行数据加工处理、数据标准化、轻特征挖掘;
数据融合:三方多源数据通过横纵向数据融合,多源互补数据、冗余数据、重叠数据通过不同的融合策略最终融合汇聚到统一的数据库中,数据库存储多源数据融合之后的标准库数据、加工所得指标库、特征库的信息。
8.根据权利要求7所述的方法,其特征在于,
企业信用评分的指标体系基于建立的多源数据标准库,从数据中建设用于企业信用评分指标体系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311413885.3A CN117591945A (zh) | 2023-10-30 | 2023-10-30 | 一种基于动态支持向量机的企业信用评分样本标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311413885.3A CN117591945A (zh) | 2023-10-30 | 2023-10-30 | 一种基于动态支持向量机的企业信用评分样本标注方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117591945A true CN117591945A (zh) | 2024-02-23 |
Family
ID=89919135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311413885.3A Pending CN117591945A (zh) | 2023-10-30 | 2023-10-30 | 一种基于动态支持向量机的企业信用评分样本标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117591945A (zh) |
-
2023
- 2023-10-30 CN CN202311413885.3A patent/CN117591945A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110889556B (zh) | 一种企业经营风险特征数据信息提取方法和提取系统 | |
CN109918511B (zh) | 一种基于bfs和lpa的知识图谱反欺诈特征提取方法 | |
CN111882446B (zh) | 一种基于图卷积网络的异常账户检测方法 | |
CN105426441B (zh) | 一种时间序列自动预处理方法 | |
CN114757432B (zh) | 基于流程日志和多任务学习的未来执行活动及时间预测方法及系统 | |
CN111667135B (zh) | 一种基于典型特征提取的负荷结构解析方法 | |
CN113886372A (zh) | 一种基于改进层次分析法的用户画像构建方法 | |
CN116257759A (zh) | 一种深度神经网络模型的结构化数据智能分类分级系统 | |
CN116861924A (zh) | 基于人工智能的项目风险预警方法及系统 | |
CN115081485B (zh) | 一种基于ai的漏磁内检测数据自动分析方法 | |
CN116883184A (zh) | 一种基于大数据的财税智能化分析方法 | |
CN117591945A (zh) | 一种基于动态支持向量机的企业信用评分样本标注方法 | |
CN115221045A (zh) | 一种基于多任务多视角学习的多目标软件缺陷预测方法 | |
CN107506461A (zh) | 一种关于影视剧本的智能分析与风险评估的方法 | |
CN115099504A (zh) | 基于知识图谱补全模型的文物安防风险要素识别方法 | |
Giusto et al. | Nowcasting us business cycle turning points with vector quantization | |
CN114462516B (zh) | 一种企业信用评分样本标注方法及装置 | |
CN111815458A (zh) | 基于细粒度量化标注和集成方法的动态投资组合配置方法 | |
Li et al. | Evaluating roving patrol effectiveness by GPS trajectory | |
CN110689241A (zh) | 一种基于大数据的电网实物资产评价系统 | |
CN116843368B (zh) | 基于arma模型的营销数据处理方法 | |
CN117540035B (zh) | 一种基于实体类型信息融合的rpa知识图谱构建方法 | |
CN113962568A (zh) | 基于支持向量机的模型标签标注方法、设备及介质 | |
Guo et al. | Research on the Identification System of Power Big Data Attribute Entities based on Artificial Intelligence Algorithm | |
Afanasieva et al. | Application of The Clustering In Software Development Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |