CN115062687A - 企业信用监控方法、装置、设备及存储介质 - Google Patents
企业信用监控方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115062687A CN115062687A CN202210508136.8A CN202210508136A CN115062687A CN 115062687 A CN115062687 A CN 115062687A CN 202210508136 A CN202210508136 A CN 202210508136A CN 115062687 A CN115062687 A CN 115062687A
- Authority
- CN
- China
- Prior art keywords
- data
- index
- decision
- index data
- indexes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012544 monitoring process Methods 0.000 title claims abstract description 21
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 238000012216 screening Methods 0.000 claims abstract description 47
- 238000004140 cleaning Methods 0.000 claims abstract description 34
- 230000009467 reduction Effects 0.000 claims abstract description 31
- 238000012706 support-vector machine Methods 0.000 claims abstract description 19
- 230000007547 defect Effects 0.000 claims abstract description 16
- 238000004458 analytical method Methods 0.000 claims description 18
- 238000007477 logistic regression Methods 0.000 claims description 17
- 230000002159 abnormal effect Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 230000002950 deficient Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract description 19
- 238000011156 evaluation Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000007306 turnover Effects 0.000 description 7
- 238000012806 monitoring device Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000013210 evaluation model Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Educational Administration (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开提供了一种企业信用监控方法、装置、设备及存储介质,所述方法包括:获取第一指标数据,第一指标数据包括多条历史经营数据,每条历史经营数据包括一个统计周期的多个经营指标的数据;对第一指标数据进行第一清洗,得到无缺陷经营指标的第二指标数据;根据第二指标数据的逾期风险相关性,对经营指标进行降维筛选,得到决策指标;基于决策指标和第一指标数据,得到第三指标数据,第三指标数据中的每条历史经营数据仅包括所述决策指标;对第三指标数据用支持向量机进行分析,计算决策面;将当期的经营数据用所述决策面进行分类,确定是否有逾期风险。本公开实施例的方法对计算机硬件要求低,降低了计算难度,提高了算力。
Description
技术领域
本公开涉及计算机领域,尤其涉及一种企业信用监控方法、装置、设备及存储介质。
背景技术
及时准确掌握合作企业的信用,能够及时规避风险。例如,供应链企业信用等级低,逾期风险高。根据企业运营财务报表评价信用时效性及准确性差。采用经营数据评价信用,数据维度大,计算难度高,对计算机的硬件和算力要求高。
发明内容
本公开提供了一种企业信用监控方法、装置、设备及存储介质,以至少解决现有技术中存在的以上技术问题。
根据本公开的第一方面,提供了一种企业信用监控方法,所述方法包括:
获取第一指标数据,所述第一指标数据包括多条历史经营数据,每条所述历史经营数据包括一个统计周期的多个经营指标的数据;
对所述第一指标数据进行第一清洗,得到无缺陷经营指标的第二指标数据;
根据所述第二指标数据的逾期风险相关性,对所述经营指标进行降维筛选,得到决策指标;
基于所述决策指标和所述第一指标数据,得到第三指标数据,所述第三指标数据中的每条历史经营数据仅包括所述决策指标;
对所述第三指标数据用支持向量机进行分析,计算决策面;
将当期的经营数据用所述决策面进行分类,确定是否有逾期风险。
在一可实施方式中,所述缺陷经营指标包括数据缺失、数据异常或数据错误的所述经营指标;
对所述第一指标数据进行第一清洗,包括:
删除包括数据缺失或数据错误的历史经营数据条;
删除数据缺失和数据错误的比例达到阈值的所述经营指标。
在一可实施方式中,对所述第一指标数据进行第一清洗,还包括:删除包括数据异常的历史经营数据条;
其中,用DBSCAN聚类算法基于距离对所述第一指标数据进行聚类分析,确定所述经营指标是否数据异常。
在一可实施方式中,根据所述第二指标数据的逾期风险相关性,对所述经营指标进行降维筛选,包括:
采用逻辑回归对所述第二指标数据处理,进行所述经营指标降维筛选,所述逻辑回归的公式如下:
式中,p表示逾期率,自变量Xm为所述第二指标数据中的所述经营指标,βm对应每个所述经营指标在计算逾期率时的权重,权重越大,对应的所述经营指标与逾期率相关性越大。
在一可实施方式中,采用逻辑回归对所述第二指标数据处理,进行所述经营指标降维筛选时,引入贝叶斯信息准则惩罚机制,
BIC=kln(n)-2ln(L)
式中,k为所述第二指标数据中的指标个数,n为所述第二指标数据中所述历史经营数据的条数,L为似然函数;
选择BIC最小的所述经营指标组合为决策指标组。
在一可实施方式中,根据逾期风险相关性对所述第二指标数据中的所述经营指标进行降维筛选,还包括:
对所述第二指标数据中的所述经营指标的值进行标准化转换,得到经营指标标准值,转换公式如下,
经营指标标准值=(经营指标原数值-经营指标最小值)/(经营指标最大值-经营指标最小值);
所述逻辑回归的公式中,自变量Xm为所述经营指标标准值。
在一可实施方式中,基于所述决策指标和所述第一指标数据,得到第三指标数据,包括:
提取所述第一指标数据中的决策指标的数据,对提取的所述数据进行第二清洗,得到无缺陷经营指标的所述第三指标数据,所述缺陷经营指标包括数据缺失、数据异常或数据错误的所述经营指标。
在一可实施方式中,对提取的所述数据进行第二清洗,包括:
删除包括数据缺失或数据错误的历史经营数据条;
删除包括数据异常的历史经营数据条。
在一可实施方式中,对所述第三指标数据用支持向量机进行分析,计算决策面,包括:
将自变量X={X1,X2,...,Xn}和二元变量y={-1,1}输入所述支持向量机,其中自变量xi分别对应所述决策指标,i=1,2,…,n,y=±1分别对应正类和负类,所述第三指标数据所在的特征空间存在的决策边界将第三指标数据按正类和负类分开,并使得第三指标数据点到决策边界的距离大于1,
WTX+b>1时,y=1
WTX+b<-1时,y=-1
决策边界为:WTX+b=0。
根据本公开的第二方面,提供了一种企业信用监控装置,所述装置包括:
获取模块,其用于获取第一指标数据,所述第一指标数据包括多条历史经营数据,每条所述历史经营数据包括一个统计周期的多个经营指标的数据;
预处理模块,其用于对所述第一指标数据进行第一清洗,得到无缺陷经营指标的第二指标数据;
筛选模块,其用于根据所述第二指标数据的逾期风险相关性,对所述经营指标进行降维筛选,得到决策指标;
所述筛选模块还用于基于所述决策指标和所述第一指标数据,得到第三指标数据,所述第三指标数据中的每条历史经营数据仅包括所述决策指标;
分析模块,其用于对所述第三指标数据用支持向量机进行分析,计算决策面;将当期的经营数据用所述决策面进行分类,确定是否有逾期风险。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开所述的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开所述的方法。
本公开的企业信用监控方法、装置、设备及存储介质,通过对第一指标数据进行清洗,得到无缺陷经营指标的第二指标数据,避免影响后的决策指标的筛选,进而影响信用评价结果,根据所述第二指标数据的逾期风险相关性对经营指标进行降维筛选,得到决策指标,降低了指标维度,降低了计算难度,对计算机硬件要求低,而且避免丢失重要指标,进而影响评价结果。基于所述决策指标和所述第一指标数据得到第三指标数据,能够得到尽可能多的可用数据,对第三指标数据用支持向量机进行分析,计算决策面,将当期的经营数据用所述决策面进行分类,确定是否有逾期风险。本公开实施例的方法对计算机硬件要求低,降低了计算难度,提高了算力。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1示出了本公开实施例企业信用监控方法的实现流程示意图;
图2示出了本公开实施例企业信用监控方法具体应用时得到的决策边界和部分数据点的实现流程示意图;
图3示出了本公开实施例企业信用监控方法具体应用时用得到的决策边界对测试集进行分类的部分示意图;
图4示出了本公开实施例企业信用监控装置的结构示意图;
图5示出了本公开实施例一种电子设备的组成结构示意图。
具体实施方式
为使本公开的目的、特征、优点能够更加的明显和易懂,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而非全部实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
参见图1,本公开实施例提供了一种企业信用监控方法,该方法包括:
获取第一指标数据,第一指标数据包括多条历史经营数据,每条历史经营数据包括一个统计周期的多个经营指标的数据;
对第一指标数据中的数据进行第一清洗,得到无缺陷经营指标的第二指标数据;
根据第二指标数据的逾期风险相关性,对经营指标进行降维筛选,得到决策指标;
基于决策指标和第一指标数据,得到第三指标数据,第三指标数据中的每条历史经营数据仅包括决策指标;
对第三指标数据用支持向量机进行分析,计算决策面;
将当期的经营数据用决策面进行分类,确定是否有逾期风险。
本公开的企业信用监控方法中,通过对第一指标数据进行清洗,得到无缺陷经营指标的第二指标数据,避免影响后的决策指标的筛选,进而影响信用评价结果,根据第二指标数据的逾期风险相关性对经营指标进行降维筛选,得到决策指标,降低了指标维度,降低了计算难度,对计算机硬件要求低,而且避免丢失重要指标,进而影响评价结果。基于决策指标和第一指标数据得到第三指标数据,能够得到尽可能多的可用数据,对第三指标数据用支持向量机进行分析,计算决策面,将当期的经营数据用决策面进行分类,确定是否有逾期风险。本公开实施例的方法对计算机硬件要求低,降低了计算难度,提高了算力。
本公开实施例中,可以是通过数据接口从供应链交易平台提取下游供应商的经营数据。具体实施中,可以是从企业ERP(Enterprise Resource Planning,企业资源规划)系统自动提取经营数据。经营数据可以是包括经营和销售相关数据,示例性实施例中,经营数据可以包括库存金额、应收金额、进货额、库存周转、自投比例、销售金额、OTC(order tocash,订单到实际付款的时长,单位:天)、应收周转、销量环比和现金点等各经营指标的数据,获取的经营数据按月度为统计周期。第一指标数据中不限于同一个企业的经营数据,例如,可以提取企业A和企业B的2021年1月的经营数据,这样2021年1月的统计周期包括两条历史经营数据。
本公开实施例中,通过对第一指标数据进行第一清洗,可以初步的筛除缺陷经营指标,数据清洗可以包括数据类型,缺失值,数据集规模,各经营指标下的数据分布情况等。
在一可实施方式中,缺陷经营指标包括数据缺失、数据异常或数据错误的经营指标。如某一经营指标数据缺失,则为缺陷经营指标,清洗时,可以删除具有数据缺失的历史经营数据条。数据错误可以包括两类:一是格式错误,即不是数值格式;二是业务逻辑错误,如库存周转天数等指标一定为非负数,如果为负则判断为错误值。与其他数据差别较大的数据为异常值。
在一可实施方式中,对第一指标数据进行第一清洗,包括:删除包括缺陷经营指标的历史经营数据条。例如,某一条历史经营数据中的一个或多个经营指标数据缺失或数据错误,则删除该条历史经营数据。再如,某一条历史经营数据中的一个或多个经营指标数据异常,则删除该条历史经营数据。
在一可实施方式中,对第一指标数据进行第一清洗,还包括:删除数据缺失和数据错误的比例达到阈值的经营指标。例如,第一指标数据中,某一经营指标的数据缺失和数据错误的数量占该经营指标总数量(与第一指标数据中的历史经营数据的条数相等)的比例达到阈值时,可以认为这个经营指标重要性低,将该经营指标从第一指标数据中删除。该阈值可以根据需要、经验及统计等得到。例如,该阈值可以为25%。如第一指标数据中,应收周转这一指标的数据缺失和数据错误的比例达到25%时,可以将应收周转这一指标从第一指标数据中删除。
在一可实施方式中,对数据进行清洗时,可以选用聚类算法基于距离对第一指标数据中各经营指标的数据分别进行聚类分析,确定异常值。具体实施中,可以采用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类算法基于距离对第一指标数据进行聚类分析。通过调整距离参数(半径)来调整对异常值的确定。例如,可以选择较大的距离参数,以避免删除过多周期的数据导致丢失特征。选择聚类算法对异常值进行判断,可以综合考虑所有变量。
示例性实施例中,调整距离参数包括:对每个变量进行对数转换后,分别统计置信区间,例如3-sigma置信区间外的数据数量,调整距离参数,使得到的离群点数量接近各变量置信区间外的数据数量。
在一可实施方式中,根据第二指标数据的逾期风险相关性,对经营指标进行降维筛选,包括:采用逻辑回归对第二指标数据处理,进行经营指标的降维筛选,逻辑回归的公式如下:
式中,p表示逾期率,自变量Xm为第二指标数据中的经营指标,βm对应每个经营指标在计算逾期率时的权重,权重越大,对应的经营指标与逾期率相关性越大。本公开实施例中,根据经营指标与预期风险的相关性,对经营指标进行降维筛选,得到与逾期率最为相关的经营指标,可以降低计算难度,并且避免丢失重要指标。
在一可实施方式中,采用逻辑回归对第二指标数据处理,进行经营指标降维筛选时,引入贝叶斯信息准则惩罚机制,
BIC=kln(n)-2ln(L)
式中,k为第二指标数据中的经营指标个数,n为第二指标数据中历史经营数据的条数,L为似然函数,可以选择最大似然。选择BIC最小的经营指标组合为决策指标组。BIC综合评估降维筛选模型的准确性和参数数量,式中,第一项kln(n)衡量参数数量,参数越多,第一项越大;第二项2ln(L)衡量模型贴合度,L越小,预测值越贴合真实值。选择BIC最小的经营指标组合为筛选后的决策性指标。
在一可实施方式中,根据逾期风险相关性对第二指标数据中的经营指标进行降维筛选,还包括:对第二指标数据中的经营指标的值进行标准化转换,得到经营指标标准值,转换公式如下,
经营指标标准值=(经营指标原数值-经营指标最小值)/(经营指标最大值-经营指标最小值);
逻辑回归的公式中,自变量Xm为经营指标标准值。
本公开实施例中,将所有数据转换为0-1的值,避免不同经营指标间的量级差异对后续分析造成影响。
在一可实施方式中,基于决策指标和第一指标数据得到第三指标数据,包括:提取第一指标数据中的决策指标的数据,对提取的数据进行第二清洗,得到无缺陷经营指标的第三指标数据,缺陷经营指标包括数据缺失、数据异常或数据错误的经营指标,具体可参考第一清洗部分的相关说明。
对提取的数据进行第二清洗,包括:删除包括数据缺失或数据错误的历史经营数据条;删除包括数据异常的历史经营数据条。具体可参考第一清洗部分的相关说明。
其他示例性实施例中,将第一清洗时删除的,包括决策指标的历史经营数据条加入到第二指标数据,并进行第二清洗,得到第三指标数据。
本公开实施例中,第一指标数据中的删除的历史经营数据条中,有些可能会包括完整的决策指标,将该部分数据条参与分析,增加了样本数量。
在一可实施方式中,对第三指标数据用支持向量机进行分析,计算决策面,包括:将自变量X={X1,X2,...,Xn}和二元变量y={-1,1}输入支持向量机,其中自变量xi分别对应决策指标,i=1,2,…,n,y=±1分别对应正类和负类,第三指标数据所在的特征空间存在的决策边界将第三指标数据按正类和负类分开,并使得第三指标数据点到决策边界的距离大于1,
WTX+b>1时,y=1
WTX+b<-1时,y=-1
决策边界为:WTX+b=0。
将当期数据的决策性指标代入以上公式,用决策边界预测是否会逾期。
在一可实施方式中,本公开实施例的企业信用监控方法还包括:将预测结果与实际结果对比,得到预测的正确率;在正确率小于第一阈值时,重新计算决策面。在期末结余得到是否逾期的实际结果时,将当期的实际结果与预测结果进行比对,计算判断正确率。如果正确率过低,则需要重新计算决策面。以对是否逾期的评价模型进行调整。
在一可实施方式中,在重新计算决策面之前,先确定当期数据是否有问题,具体包括:对一定时期(例如一年)内的逾期和未逾期数据分别进行聚类分析。若当期数据被识别为离群值达到第二阈值时,继续根据下期数据预测是否逾期,若下期的预测的正确率未恢复正常,则重新计算决策面。
在一可实施方式中,重新计算决策面,包括:删除第二指标数据中一年以上的数据,加入当期数据;进行降维筛选和决策面计算;将当期数据用重新计算出来的决策面进行分类;若正确率大于第二阈值,更新决策面。
在一可实施方式中,在上述实施例的基础上,若重新计算出的决策面预测的正确率仍然低于第二阈值,在第一指标数据中加入本年数据,重复数据清洗、筛选和决策面计算。
下面通过具体应用,对本公开实施例的方法的方案和效果进行说明。
从ERP系统自动提取客户的经营情况数据,汇总成按月度为统计周期的数据,包括多种量化的经营指标,并存储在数据库,如Hadoop数据库中。从Hadoop数据库中,导出部分数据作为实验数据。实验数据共18291条,10个数值型经营指标:库存金额、应收金额、进货额、库存周转、自投比例、销售金额、OTC天数、应收周转、销量环比和现金点。根据数据缺失和数据错误删除数据条和经营指标,剩余实验数据共10985条,7个数值型经营指标,删除了数据缺失和数据错误的数量达到25%的应收周转、销量环比和销售金额。
用DBSCAN聚类算法基于距离对所述第一指标数据进行聚类分析,确定所述经营指标是否数据异常,删除包括数据异常的经营指标的历史经营数据条。调整距离参数时,参考每个变量的数值分布。经营指标应近似于正态分布,对每个经营指标分别进行对数变换后,统计3-sigma置信区间(标准正态分布的3-sigma区间内比例约为99.7%)的数据量,得到异常值数量在69-114之间。调整距离参数使得判断为异常的数据数量在此区间内,最后得到距离参数=2.5,数据异常的数据条数为87条。删除后得到实验数据10898条。
为避免不同经营指标间的量级差异对后续分析造成影响,对所有数据进行标准化转换,得到经营指标标准值,经营指标标准值=(经营指标原数值-经营指标最小值)/(经营指标最大值-经营指标最小值),将所有数据转换为0-1的值。转换后的数据样例见下表1。表1中示出了5条数据。
表1
库存金额 | 应收金额 | 进货额 | 库存周转 | 自投比例 | 销售金额 | OTC | 现金点 | 是否逾期 |
0.692156 | 0.654342 | 0.654965 | 0.577934 | 0.758041 | 0.638547 | 0.700572 | 0.506422 | 0 |
0.533343 | 0.609145 | 0.471639 | 0.433964 | 0.761264 | 0.459158 | 0.670744 | 0.506422 | 0 |
0.641512 | 0.773046 | 0.674586 | 0.438924 | 0.758041 | 0.657747 | 0.722182 | 0.506422 | 0 |
0.602981 | 0.701920 | 0.504608 | 0.488254 | 0.709103 | 0.491419 | 0.913978 | 0.612296 | 1 |
0.692156 | 0.654342 | 0.654965 | 0.577934 | 0.758041 | 0.638547 | 0.700572 | 0.506422 | 0 |
由于负样本和正样本数量差距过多,随机抽选1000个正样本与107个负样本组成实验数据,按照8:2划分训练集和测试集,记录逻辑回归准确率和BIC值,用BIC值进行变量筛选。部分结果见下表2。
表2
变量(经营指标) | 准确率 | BIC |
全部变量 | 88.1% | 28.74 |
库存金额,现金点,自投比例,OTC | 90.3% | 24.26 |
应收金额,进货额,库存周转 | 88.7% | 18.94 |
现金点,自投比例 | 91.2% | 14.46 |
现金点,自投比例,OTC | 92.3% | 14.79 |
为方便后续展示,选择双变量中BIC值最小的现金点和自投比例作为输入支持向量机中的变量。
使用原实验数据,进行数据第二清洗,删除数据缺失和数据错误的数据条后剩余数据共12527条。异常值判断与之前相似,先对所有数值进行对数转换后,统计1-sigma置信区间内的数据量。得到:自投比例中1-sigma置信区间内数据量为11378;现金点中1-sigma置信区间内数据量为10763。
同样使用DBSCAN对数据进行聚类,调整距离参数=0.5,剩余实验数据共11098条(其中负样本120条),对其进行标准化转换,得到实验数据。样例数据见下表3。
表3
自投比例 | 现金点 | 是否逾期 |
0.758041787 | 0.218104292 | 0 |
0.761264881 | 0.436208584 | 0 |
0.761264881 | 0.781895708 | 0 |
0.440109801 | 0.436208584 | 0 |
0.392637646 | 0.345687124 | 0 |
0.709103244 | 0.612296158 | 1 |
随机抽选1000条正样本与负样本组成实验数据,按照8:2划分训练集和测试集,选用kernel=线性分类进行分析,得到分类准确率=91.7%,通过系数计算出斜率=-0.88,截距=-1。决策边界和部分数据点参加图2,图中矩形点表示逾期数据点。
用训练集计算出的决策面(-W[0]/W[1]*x-I/W[1])对测试集进行分类,部分结果参见图3。
本公开实施例提供了一种企业信用监控装置,该装置包括获取模块、预处理模块、筛选模块和分析模块,获取模块用于获取第一指标数据,第一指标数据包括多条历史经营数据,每条历史经营数据包括一个统计周期的多个经营指标的数据。预处理模块用于对第一指标数据中的数据进行第一清洗,得到无缺陷经营指标的第二指标数据。筛选模块用于根据第二指标数据的逾期风险相关性,对经营指标进行降维筛选,得到决策指标。预处理模块还用于基于决策指标和第一指标数据,得到第三指标数据,第三指标数据中的每条历史经营数据仅包括决策指标。分析模块用于对第三指标数据用支持向量机进行分析,计算决策面;分析模块还用于将当期的经营数据用决策面进行分类,确定是否有逾期风险。
本公开的企业信用监控装置中,预处理模块通过对第一指标数据进行清洗,得到无缺陷经营指标的第二指标数据,避免影响后的决策指标的筛选,进而影响信用评价结果,筛选模块根据第二指标数据的逾期风险相关性对经营指标进行降维筛选,得到决策指标,降低了指标维度,降低了计算难度,对计算机硬件要求低,而且避免丢失重要指标,进而影响评价结果。预处理模块基于决策指标和第一指标数据得到第三指标数据,能够得到尽可能多的可用数据,分析模块对第三指标数据用支持向量机进行分析,计算决策面,将当期的经营数据用决策面进行分类,确定是否有逾期风险。本公开实施例的装置对计算机硬件要求低,降低了计算难度,提高了算力。
在一可实施方式中,缺陷经营指标包括数据缺失、数据异常或数据错误的经营指标。
在一可实施方式中,预处理模块对第一指标数据进行第一清洗时,包括:删除包括缺陷经营指标的历史经营数据条。
在一可实施方式中,预处理模块对第一指标数据进行第一清洗,还包括:删除数据缺失和数据错误的比例达到阈值的经营指标。
在一可实施方式中,预处理模块对第一指标数据进行第一清洗时,可以选用聚类算法基于距离对第一指标数据中各经营指标的数据分别进行聚类分析,确定异常值。具体实施中,可以采用DBSCAN(Density-Based Spatial Clustering of Applications withNoise)聚类算法基于距离对第一指标数据进行聚类分析。通过调整距离参数(半径)来调整对异常值的确定。例如,可以选择较大的距离参数,以避免删除过多周期的数据导致丢失特征。
在一可实施方式中,预处理模块调整距离参数包括:对每个变量进行对数转换后,分别统计置信区间,例如3-sigma置信区间外的数据数量,调整距离参数,使得到的离群点数量接近各变量置信区间外的数据数量。
在一可实施方式中,筛选模块根据第二指标数据的逾期风险相关性,对经营指标进行降维筛选,包括:采用逻辑回归对第二指标数据处理,进行经营指标的降维筛选,逻辑回归的公式如下:
式中,p表示逾期率,自变量Xm为第二指标数据中的经营指标,βm对应每个经营指标在计算逾期率时的权重,权重越大,对应的经营指标与逾期率相关性越大。
在一可实施方式中,筛选模块采用逻辑回归对第二指标数据处理,进行经营指标降维筛选时,引入贝叶斯信息准则惩罚机制,
BIC=kln(n)-2ln(L)
式中,k为第二指标数据中的经营指标个数,n为历史经营数据的条数,L为似然函数,可以选择最大似然。选择BIC最小的经营指标组合为决策指标组。BIC综合评估降维筛选模型的准确性和参数数量,式中,第一项kln(n)衡量参数数量,参数越多,第一项越大;第二项2ln(L)衡量模型贴合度,L越小,预测值越贴合真实值。选择BIC最小的经营指标组合为筛选后的决策性指标。
在一可实施方式中,筛选模块根据逾期风险相关性对第二指标数据中的经营指标进行降维筛选,还包括:对第二指标数据中的经营指标的值进行标准化转换,得到经营指标标准值,转换公式如下,
经营指标标准值=(经营指标原数值-经营指标最小值)/(经营指标最大值-经营指标最小值);
逻辑回归的公式中,自变量Xm为经营指标标准值。
在一可实施方式中,分析模块基于决策指标和第一指标数据得到第三指标数据,包括:提取第一指标数据中的决策指标的数据,对提取的数据进行第二清洗,得到无缺陷经营指标的第三指标数据。
在一可实施方式中,分析模块基于决策指标和第一指标数据得到第三指标数据,包括:将第一清洗时删除的,包括决策指标的历史经营数据条加入到第二指标数据,并进行第二清洗,得到第三指标数据。
在一可实施方式中,分析模块对第三指标数据用支持向量机进行分析,计算决策面,包括:将自变量X={X1,X2,...,Xn}和二元变量y={-1,1}输入支持向量机,其中自变量xi分别对应决策指标,i=1,2,…,n,y=±1分别对应正类和负类,第三指标数据所在的特征空间存在的决策边界将第三指标数据按正类和负类分开,并使得第三指标数据点到决策边界的距离大于1,
WTX+b>1时,y=1
WTX+b<-1时,y=-1
决策边界为:WTX+b=0。
将当期数据的决策性指标代入以上公式,用决策边界预测是否会逾期。
在一可实施方式中,本公开实施例的企业信用监控装置还包括验证模块,验证模块用于将预测结果与实际结果对比,得到预测的正确率;在正确率小于第一阈值时,重新计算决策面。在期末结余得到是否逾期的实际结果时,将当期的实际结果与预测结果进行比对,计算判断正确率。如果正确率过低,则需要重新计算决策面。以对是否逾期的评价模型进行调整。
在一可实施方式中,在重新计算决策面之前,验证模块先确定当期数据是否有问题,具体包括:对一定时期(例如一年)内的逾期和未逾期数据分别进行聚类分析。若当期数据被识别为离群值达到第二阈值时,继续根据下期数据预测是否逾期,若下期的预测的正确率未恢复正常,则重新计算决策面。
在一可实施方式中,验证模块重新计算决策面,包括:删除第二指标数据中一年以上的数据,加入当期数据;进行降维筛选和决策面计算;将当期数据用重新计算出来的决策面进行分类;若正确率大于第二阈值,更新决策面。
在一可实施方式中,在上述实施例的基础上,若重新计算出的决策面预测的正确率仍然低于第二阈值,验证模块在第一指标数据中加入本年数据,重复数据清洗、筛选和决策面计算。
本公开实施例的企业信用监控装置能够实现上述实施例的方法,以上针对企业信用监控装置实施例的描述与前述方法实施例的描述是类似的,具有同前述方法实施例相似的有益效果,因此不做赘述。对于本公开企业信用监控装置实施例的描述尚未披露的技术细节,请参照本公开前述方法实施例的描述而理解,为节约篇幅,因此不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。
图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图5所示,设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如企业信用监控方法。例如,在一些实施例中,企业信用监控方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时,可以执行上文描述的企业信用监控方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行企业信用监控方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。
Claims (11)
1.一种企业信用监控方法,其特征在于,所述方法包括:
获取第一指标数据,所述第一指标数据包括多条历史经营数据,每条所述历史经营数据包括一个统计周期的多个经营指标的数据;
对所述第一指标数据进行第一清洗,得到无缺陷经营指标的第二指标数据;
根据所述第二指标数据的逾期风险相关性,对所述经营指标进行降维筛选,得到决策指标;
基于所述决策指标和所述第一指标数据,得到第三指标数据,所述第三指标数据中的每条历史经营数据仅包括所述决策指标;
对所述第三指标数据用支持向量机进行分析,计算决策面;
将当期的经营数据用所述决策面进行分类,确定是否有逾期风险。
2.根据权利要求1所述的方法,其特征在于,所述缺陷经营指标包括数据缺失、数据异常或数据错误的所述经营指标;
对所述第一指标数据进行第一清洗,包括:
删除包括数据缺失或数据错误的历史经营数据条;
删除数据缺失和数据错误的比例达到阈值的所述经营指标。
3.根据权利要求2所述的方法,其特征在于,对所述第一指标数据进行第一清洗,还包括:删除包括数据异常的历史经营数据条;
其中,用DBSCAN聚类算法基于距离对所述第一指标数据进行聚类分析,确定所述经营指标是否数据异常。
5.根据权利要求4所述的方法,其特征在于,采用逻辑回归对所述第二指标数据处理,进行所述经营指标降维筛选时,引入贝叶斯信息准则惩罚机制,
BIC=kln(n)-2ln(L)
式中,k为所述第二指标数据中的指标个数,n为所述第二指标数据中所述历史经营数据的条数,L为似然函数;
选择BIC最小的所述经营指标组合为决策指标组。
6.根据权利要求4所述的方法,其特征在于,根据逾期风险相关性对所述第二指标数据中的所述经营指标进行降维筛选,还包括:
对所述第二指标数据中的所述经营指标的值进行标准化转换,得到经营指标标准值,转换公式如下,
经营指标标准值=(经营指标原数值-经营指标最小值)/(经营指标最大值-经营指标最小值);
所述逻辑回归的公式中,自变量Xm为所述经营指标标准值。
7.根据权利要求1所述的方法,其特征在于,基于所述决策指标和所述第一指标数据,得到第三指标数据,包括:
提取所述第一指标数据中的决策指标的数据,对提取的所述数据进行第二清洗,得到无缺陷经营指标的所述第三指标数据,所述缺陷经营指标包括数据缺失、数据异常或数据错误的所述经营指标;
对提取的所述数据进行第二清洗,包括:
删除包括数据缺失或数据错误的历史经营数据条;
删除包括数据异常的历史经营数据条。
8.根据权利要求1所述的方法,其特征在于,对所述第三指标数据用支持向量机进行分析,计算决策面,包括:
将自变量X={X1,X2,...,Xn}和二元变量y={-1,1}输入所述支持向量机,其中自变量xi分别对应所述决策指标,i=1,2,…,n,y=±1分别对应正类和负类,所述第三指标数据所在的特征空间存在的决策边界将第三指标数据按正类和负类分开,并使得第三指标数据点到决策边界的距离大于1,
WTX+b>1时,y=1
WTX+b<-1时,y=-1
决策边界为:WTX+b=0。
9.一种企业信用监控装置,其特征在于,所述装置包括:
获取模块,其用于获取第一指标数据,所述第一指标数据包括多条历史经营数据,每条所述历史经营数据包括一个统计周期的多个经营指标的数据;
预处理模块,其用于对所述第一指标数据进行第一清洗,得到无缺陷经营指标的第二指标数据;
筛选模块,其用于根据所述第二指标数据的逾期风险相关性,对所述经营指标进行降维筛选,得到决策指标;
所述筛选模块还用于基于所述决策指标和所述第一指标数据,得到第三指标数据,所述第三指标数据中的每条历史经营数据仅包括所述决策指标;
分析模块,其用于对所述第三指标数据用支持向量机进行分析,计算决策面;将当期的经营数据用所述决策面进行分类,确定是否有逾期风险。
10.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
11.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210508136.8A CN115062687A (zh) | 2022-05-10 | 2022-05-10 | 企业信用监控方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210508136.8A CN115062687A (zh) | 2022-05-10 | 2022-05-10 | 企业信用监控方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115062687A true CN115062687A (zh) | 2022-09-16 |
Family
ID=83197627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210508136.8A Pending CN115062687A (zh) | 2022-05-10 | 2022-05-10 | 企业信用监控方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115062687A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116227961A (zh) * | 2022-12-05 | 2023-06-06 | 贝壳找房(北京)科技有限公司 | 一种资源分配方法、装置、设备及计算机可读存储介质 |
-
2022
- 2022-05-10 CN CN202210508136.8A patent/CN115062687A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116227961A (zh) * | 2022-12-05 | 2023-06-06 | 贝壳找房(北京)科技有限公司 | 一种资源分配方法、装置、设备及计算机可读存储介质 |
CN116227961B (zh) * | 2022-12-05 | 2024-04-09 | 贝壳找房(北京)科技有限公司 | 一种资源分配方法、装置、设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108256898B (zh) | 一种产品销量预测方法、系统及存储介质 | |
JP4358475B2 (ja) | 信用評価システム | |
CN110995459B (zh) | 异常对象识别方法、装置、介质及电子设备 | |
CN108364106A (zh) | 一种报销单风险预测方法、装置、终端设备及存储介质 | |
CN110163457B (zh) | 一种业务指标的异常定位方法和装置 | |
CN112734559A (zh) | 企业信用风险评价方法、装置及电子设备 | |
CN112116184A (zh) | 使用历史检验数据的工厂风险估计 | |
CN113837596B (zh) | 一种故障确定方法、装置、电子设备及存储介质 | |
CN110930179A (zh) | 任务评估方法、系统、设备和计算机可读存储介质 | |
CN112116185A (zh) | 使用历史检验数据的检验风险估计 | |
CN114219545A (zh) | 一种数据处理的方法和装置 | |
CN113034046A (zh) | 一种数据风险计量方法、装置、电子设备及存储介质 | |
CN115545481A (zh) | 一种风险等级确定方法、装置、电子设备及存储介质 | |
CN116128135A (zh) | 数据处理方法及装置、电子设备和存储介质 | |
Kim et al. | Predicting corporate defaults using machine learning with geometric-lag variables | |
CN115062687A (zh) | 企业信用监控方法、装置、设备及存储介质 | |
CN117575804A (zh) | 一种货物资产风险分析方法、系统及介质 | |
JP2020135434A (ja) | 企業情報処理装置、企業のイベント予測方法及び予測プログラム | |
CN115795345A (zh) | 信息处理方法、装置、设备及存储介质 | |
CN113296836B (zh) | 训练模型的方法、测试方法、装置、电子设备及存储介质 | |
CN115481803A (zh) | 基于行业拥挤度的金融时间序列预测方法、装置及设备 | |
CN113052604A (zh) | 一种对象检测方法、装置、设备及存储介质 | |
CN112906723A (zh) | 一种特征选择的方法和装置 | |
CN112132689A (zh) | 一种基于时序因子事件的推荐方法和装置 | |
CN115187387B (zh) | 一种风险商家的识别方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |