CN111738843A - 一种使用流水数据的量化风险评价系统和方法 - Google Patents

一种使用流水数据的量化风险评价系统和方法 Download PDF

Info

Publication number
CN111738843A
CN111738843A CN202010604555.2A CN202010604555A CN111738843A CN 111738843 A CN111738843 A CN 111738843A CN 202010604555 A CN202010604555 A CN 202010604555A CN 111738843 A CN111738843 A CN 111738843A
Authority
CN
China
Prior art keywords
data
index
value
type
credit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010604555.2A
Other languages
English (en)
Other versions
CN111738843B (zh
Inventor
朱志伟
刘炳文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
3golden Beijing Information Technology Co ltd
Original Assignee
3golden Beijing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 3golden Beijing Information Technology Co ltd filed Critical 3golden Beijing Information Technology Co ltd
Priority to CN202010604555.2A priority Critical patent/CN111738843B/zh
Publication of CN111738843A publication Critical patent/CN111738843A/zh
Application granted granted Critical
Publication of CN111738843B publication Critical patent/CN111738843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Quality & Reliability (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种使用流水数据的客观信用评价方法,包括如下步骤:数据采集步骤:至少以数据挖掘机器人挖掘、政务平台导入和自行填报中的一种采集方法采集评价目标的行为规律型数据,且经至少一种数据入口提交至对应的系统中;数据处理步骤:包括目标筛选步骤和数学模型计算步骤,所述目标筛选步骤包括数据清洗、异常值查找、目标分类、数据种类完整度检查;所述数学模型计算步骤包括客观信用评分、额度计算;结果输出步骤:所述结果输出包括信用指数、信用额度和明细数据,以及目标监测;所述目标监测步骤包括按一定周期更新信用指数、信用额度和明细数据,并对超出变化阈值的指标或评分项提出预警。

Description

一种使用流水数据的量化风险评价系统和方法
技术领域
本发明属于数据处理领域,特别涉及一种使用流水数据的客观信用评价方法及系统。
背景技术
随着信息技术的迅猛发展,大数据已成为当今世界的重要发展趋势。根据联合国的研究报告,全球的数据存量从2005年的150EB(艾字节)增长到2010年的1200EB,并预计将以40%的年增长率继续增长,2020年将达到2007年的44 倍,平均20个月翻一番。1EB等于260B(字节),相当于13亿中国人人手一本500页的书加起来的信息量。我们每天的生活都被大数据包围着,一切行为和事件都以数据形式被记录、存储和处理。小到个人、企业,大到集团、区域、城市,越来越多的行业、部门正在经历大数据浪潮带来的革命性影响。大数据之大,不仅在于其容量大,而是通过数据的挖掘、交换、整合和分析,发现数据背后隐藏的客观信用、投资价值、智慧决策等,从而带来大价值、大知识和大发展。那么,如何来挖掘数据中的价值?传统的分析思维是固化的,其分析基础是资产=负债+所有者权益,分析对象是小数据,即二维、静态的结构化数据及合计数,而大数据是大容量、动态的、多样性的,如果继续使用过去的分析方法来分析大数据,无异于管中窥豹、盲人摸象。因此,现有技术中需要打破传统数据分析模式的限制,从新的维度深入挖掘数据价值,通过对企业、个人等经济体历史明细数据的挖掘、分析,并与自有大数据库、第三方数据服务商、互联网等多渠道获取的大数据相结合进行对比分析,对经济体进行全方位的数据分析,帮助管理主体利用数据认知经济体的运营健康状况。
发明内容
为了解决本发明所提出的技术问题,本发明的第一个目的是提供了使用流水数据的客观信用评价方法,包括如下步骤:
数据采集步骤:至少以数据挖掘机器人挖掘、政务平台导入和自行填报中的一种采集方法采集评价目标的行为规律型数据,且经至少一种数据入口提交至对应的系统中;
数据处理步骤:包括目标筛选步骤和数学模型计算步骤,所述目标筛选步骤包括数据清洗、异常值查找、目标分类、数据种类完整度检查;所述数学模型计算步骤包括客观信用评分、额度计算;
结果输出步骤:所述结果输出包括信用指数、信用额度和明细数据,以及目标监测;所述目标监测步骤包括按一定周期更新信用指数、信用额度和明细数据,并对超出变化阈值的指标或评分项提出预警;
所述数据挖掘机器人采集的数据包括来自电子化交易平台的纵向过程数据,所述纵向过程数据包括订单数据、入库数据、出库数据;所述自行填报的数据包括B2G信息平台采集的行为规律数据,所述行为规律数据包括销售、产品、交易对手、人力、银行流水、税收数据。
本发明的第二个目的是提供了使用流水数据的客观信用评价系统,所述系统包括至少一个处理器;以及
存储器,其存储有指令,当通过至少一个处理器来执行该指令时,实施本发明所提供的方法。
本发明的有益效果在于,利用本发明的使用流水数据的客观信用评价方法或系统,银行等金融机构可利用数据体检来对经济体的客观信用进行评价和监测,作为信用融资的放款依据和贷后监管手段;股权投资者可利用数据体检评估经济体的投资价值,作为投前筛选、投后监管的有效方法;政府、经济园区管委会等管理者可利用数据体检得到经济体的健康报告、打分排名,作为社会公共管理、招商引资等的决策辅助工具。在多年的数据分析实践过程中,利用海量的企业数据库积累及新增数据对原有算法、分析结果、合理性进行验证,同时修正指标设定、分析模型、经验初始赋值等,使评估系统无限接近真实情况。
附图说明
图1整体实现方法;
图2总体技术流程图;
图3目标筛选技术流程图;
具体实施方式
本发明的一些实施例的使用流水数据的客观信用评价方法,参考图1、图2,包括如下步骤:
数据采集步骤:至少以数据挖掘机器人挖掘、政务平台导入和自行填报中的一种采集方法采集评价目标的行为规律型数据,且经至少一种数据入口提交至对应的系统中;
数据处理步骤:包括目标筛选步骤和数学模型计算步骤,所述目标筛选步骤包括数据清洗、异常值查找、目标分类、数据种类完整度检查;所述数学模型计算步骤包括客观信用评分、额度计算;
结果输出步骤:所述结果输出包括信用指数、信用额度和明细数据,以及目标监测;所述目标监测步骤包括按一定周期更新信用指数、信用额度和明细数据,并对超出变化阈值的指标或评分项提出预警;
所述数据挖掘机器人采集的数据包括来自电子化交易平台的纵向过程数据,所述纵向过程数据包括订单数据、入库数据、出库数据;所述自行填报的数据包括B2G信息平台采集的行为规律数据,所述行为规律数据包括销售、产品、交易对手、人力、银行流水、税收数据。
本发明的一些实施例中,通过各种途径采集到经济体运营数据后,首先需要对数据进行清洗。系统通过对经济体自身数据分析、结合相似经济体的数据比对,检验数据的真实性、排除异常值。根据评价体系的分析维度,对清洗后的数据进行预分类,原始数据按经济体的经营过程和经营结果两个方向被划分为不同类别的网格数据,并进行数据种类完整度的检查系统利用符合数据种类完整度标准的数据构建评价体系中的各项指标,再通过相应的数学模型计算经济体信用评价各方面的子项得分,并综合计算得出经济体的总体信用指数和信用额度。对于不同数据种类完整度和监管要求的经济体,平台将进行不同频率的数据更新,相应地更新其各项指标评分、信用指数和信用额度等。
在本发明的一些实施例中,数据清洗的方法包括:
过滤掉格式异常数据、数据类型错误数据、数据缺失数据、文件错传数据;
利用数据库对各种结构和非结构化数据自动归纳、分类,从中去除不合规的数据;经过数据清洗的数据已经去除了基本的数据异常,但是还未检验数据中的离群值;
将数据清洗后数据按照稳定性进行第一次分类,得到具有宽数据稳定区间 (置信区间宽)的不稳定数据和具有窄稳定区间(置信区间窄)的稳定数据;
将第一次分类后的数据按照数据深度和数据广度进行第二次分类,分类后的数据按照数据深度和数据广度二次分类,按照数据深度分类,得到基础数据(原始数据)、特征指标(重要指标)和模型分析(模型计算出的指标)三类数据;按照数据广度分类,得到过程数据、结果数据、时间序列;
数据标准化(归一化),再基于数据密度、离群值、关联性和模式识别中的至少一种建模方法进行第三次分类,得到有异常值数据和无异常值数据,有异常的数据按照每一种建模方法对数据打分,分数越高的数据越有可能成为异常值;
将所述有异常值数据进行重复异常结果排序、筛选(多种模型结果的交、并),按照异常值算法的有效性检验;设定异常警戒参数后还原数据;将还原数据在有限的人工干预下主观排查后标记异常,得到形成特征数据;
将所述无异常值数据和所述特征数据,按照半监督的异常值查找方法,得到精确度曲线标记特征,作为监督数据进入数据库;
目标分类对异常查找后的目标对象划分多种类型,每种类型对应一种或多种特征点,每种类型的目标侧重的数据类型不同,最后按照分类后的特征点给出对应权重,进行数据种类完整度计算;按照不同类型目标的关注度不同,为每一种类型的目标确定核心数据,该核心数据提炼出数据种类完整度、指数、额度的权重较大的特征点;例如以脑力密集型为主的科技型企业人力数据反映了企业的未来发展,销售数据反映其产品的市场认可,这两种数据为其核心数据,从中提炼出科技型企业的人力流动,销售金额等特征,将其归类到对应数据库中,得出该企业的发展轨迹、现状和前景;同时,按照类型分类后的数据按照结果数据和过程数据的相关性再次进行异常值检查;
数据种类完整度检查数据种类完整度在三个维度展开,种类完整度按照行为规律型分为销售、流水、人力、能耗等,数据种类越多,评分越高;每一类型的目标不同种类的数据对应不同的权重(机器给出),给出权重越高的数据类型,得分越高;例如科技型企业人力和销售的权重较高,缺少这一项,得分会比少给银行流水低很多;历史完整度依据提供数据的历史时间给出,历史数据越长,完整度评分越高;给出的数据越新,完整度评分越高;颗粒度中,明细数据种类完整度越高,年度数据种类完整度最低。
在本发明的一些实施例中,数据标准化(归一化)后,基于数据密度、离群值、关联性和模式识别等建模方法分别对这些分类数据做异常值检查;多种模型检查后均无异常值出现的数据标记后作为监督数据进入数据库,有异常的数据按照每一种建模方法对数据打分,分数越高的数据越有可能成为异常值;根据异常值排序结果与真实值的比较,判断模型的有效性,选择一种或多种模型应用,并据此设定异常值的警戒参数将异常值与真实值比较后确定为机器异常值检验结果。有限人工判断后的数据确定为真正异常值,标记为异常而弃用,同时作为监督数据进入数据库。
在本发明的一些实施例中,所述异常值查找的方法还包括:针对数值型的数据,当具有充分的数据与先验统计分布知识时,选取标准的统计分布检测法识别异常值;当数据量的规模较小时,选择密度模型法识别异常值;当数据量充足,而缺少先验统计分布知识时,选取数据簇模型识别异常值;当数据具有明确的时间先后顺序特征,并满足稳态序列判断标准条件,选取基于时间序列原理的模型识别异常值;针对非数值型的数据,由于字符变量,主要分析类型数据相互之间的关联度,以及各项集出现的频繁度的差异性;
优选的检验方法如下:
1)密度检测法,当数据量不充分时使用异常;
2)时间序列检测法,当数据具有明确的时间顺序特征,且满足时间序列稳定性要求时,利用时间序列原理识别数据序列中的异常值;
3)AVF检测法,根据分类属性值的频繁程度识别字符型。
4.如权利要求1所述的方法,其特征在于,所述数据种类完整度检查包括种类检查、历史、颗粒度检查,通过机器挖掘权重,其中种类检查公式表示为:
Figure RE-GDA0002627486720000061
其中,m表示数据类型的总数(例如总共有七种数据类型,m=7);x表示数据类型的种类;(例如x(销售记录)=3,x(银行流水)=4,x(工资记录)=5,x(应收账款)=6,x(用电)=7,x(用水)=8,x(房产+土地)=9,x(车辆+其他固定资产)=10) 缺失数据法计算公式为:
F(X)最终=F(X)-F(X)缺失 式2
其中,F(X)最终表示数据种类完整度的最终得分;F(X)为填报数据种类计算结果;F(X)缺失表示未填报数据种类计算结果。
例1:缺失工资记录。
Figure BDA0002560499980000071
缺失x=5这一项,就用x=5带入公式(工资记录项)减去x=4带入公式 (银行流水项)。
例2:缺失工资,银行流水。
Figure BDA0002560499980000072
缺失x=5,x=4这两项,缺失项连在一起,就用x=5带入公式(工资记录项)减去x=3带入公式(销售记录项)。
例3:缺失用电,工资。
Figure BDA0002560499980000073
缺失x=7,x=5这两项,缺失项不连在一起,分别减去缺失项。
例4:只有工资项。
Figure BDA0002560499980000074
相当于缺失x=10~6,小于x=4的项。
在本发明的一些实施例中,历史数据的所述数据完整度计算:
对每一种数据按照公司成立时间长度—提交数据时间长度=0做判断,如果为0,F(X)=10,其他情况下,每一种数据:
Figure BDA0002560499980000081
其中,k=0.11,a=23.55,x为获得的历史数据月数;
对所有数据得到的数据种类完整度作算术平均,F(X)为最终的历史数据种类完整度的值;
所述颗粒度检查包括明细、月度、年度,计算方法为:
Figure BDA0002560499980000082
对每一种数据运算公式:
F(x)=log(1+3x)*10
其中,x(单笔记录)=3,x(月合计数)=2,x(年合计数)=1;
Figure BDA0002560499980000083
其中,最终数据种类完整度为上述三项完整度的算术平均。
在本发明的一些实施例中,所述客观信用评分包括至少四级评分体系,第一级为总分,根据目标对象的各种特征点,综合行业数据和宏观数据给出;第二级为一级分类评分,按照数据类型(销售、人力,能耗,流水等)和数据定性(稳定、效率、成长性、规模)分别给出对应评分;第三级为二级分类评分,对一级分类的子项分别评分;第四级囊括了目标对象各个方面的数据,并按照其特征点由机器赋予相应权重。
在本发明的一些实施例中,所述额度计算方法包括:
额度计算按照链式和填报式(行为规律型)目标分别按照公式累加给出,每项金额乘以对应关注的指数,相加后为最终的授信额度;例如对于链式企业,额度重点关注供应链系统的各个环节,如订单项,应收账款项等,填报企业关注固定资产、银行余额、销售额、人力成本等信息。
在本发明的一些实施例中,所述客观信用评分方法包括如下步骤:
同一指标体系内取值范围大的数据,先对该指标体系内每个数据转换为以10 为底的对数;
波动率指标的计算:所有指标为加权波动率;
Figure BDA0002560499980000091
其中,ηi表示n个指标值中第i个指标的数值,
Figure BDA0002560499980000099
为n个指标值的期望;
集中度指标的计算:做赫芬达尔指数转换,公式为:
Figure BDA0002560499980000092
其中,X为该指标的合计数,Xi第i项的值,Si为第i项占合计数的比, N为该指标中的总项数;
指标标准化:所述指标标准化包括:
1)大者为优的指标利用下述公式标准化:
Figure BDA0002560499980000093
其中,yij为第i点第j项指标的标准化值,
Figure BDA0002560499980000094
为第j项指标的最大值, xij为i点第j项指标的值,
Figure BDA0002560499980000095
为第j项指标的最小值;2)小者为优的指标利用下面公式标准化
Figure BDA0002560499980000096
其中yij为第i点j项指标的标准化值,
Figure BDA0002560499980000097
为第j项指标的最大值,xij为 i点第j项指标的值,
Figure BDA0002560499980000098
为第j项指标的最小值;
3)稳定为优的指标采用下述方法标准化:包括指标最优值K的确定:
i)
Figure BDA0002560499980000101
其中k表示第j项指标的最优值,ai为i点的j项指标值,xij为i点 j指标的转换值;其中Yij为i点j指标的标准化值,为xij的最大值,
Figure BDA0002560499980000102
为 xij的最小值;
ii)
Figure BDA0002560499980000103
计算指标熵值:
1)应用公式:
Figure BDA0002560499980000104
其中,计算第j项指标下i点指标值所占比重pij,m为该指标中的指标点数;
2)应用公式:
Figure BDA0002560499980000105
其中,计算第j项指标的熵值ej,其中k=1/ln(m),ln为自然对数,m为该指标中的总点数;
计算指标权重:
1)计算差异系数δj=1-ej,δ值越大,权重越大;
2)应用公式:
Figure BDA0002560499980000106
其中,计算各项指标的权重,其中Wj为第j项指标权重,n为指标个数;
计算信用指数:运用公式,
Figure BDA0002560499980000111
计算健康指数,其中Ii为i点的信用指数,pij为i点第j项指标的比重, Wj为第j项指标权重,n为指标个数。
在本发明的一些实施例中,所述结果输出步骤中,
目标监测分为监测重点、监测等级、监测功能,监测重点包括链式、填报式、行为规律式等级别,监测等级包括按地区分、按行业分、按评分等级分;监测功能包括明细数据类型、颗粒度、综合指数变化、关键指标变化;
目标监测的内容主要有自我认知和辅助监管两个方面,自我认知了解自身的经营、管理情况;辅助监管可以监管下属目标,也可以监管其他目标;每一方面内容有三个维度,数据深度,数据广度和时间尺度;
数据深度包括基础数据(原始数据)、特征指标(关键指标)和模型分析出的结果;对基础数据,在时间序列尺度上统计其变化规律,利用原始数据计算出指标,并找出特征指标,利用降维找出综合指标,或者利用将特征指标在时间序列上分解为趋势、周期,挖掘出隐藏特征;模型分析主要有预测、趋势和周期以及相关性三类;
在数据广度中,相关性检验过程变量和结果变量之间的相关性,对于选定的指标,选取其中两个或者多个指标计算其关联性,优化后按照关联系数从高到低排序并作为一个关联结果,将时间序列上的各种关联结果动态数据对比,实现动态监管指标关联性的变化;
时间尺度分别分析历史数据、目前经营状况并预测三个月内的数据;预测模型中,检测过数据稳定性的数据进入模型,利用这些数据做模型检测,选出最优模型,进行预测,对预测结果与理想预测见过比对,检验模型的有效性,最终应用模型。
本说明书中描述的主题的实施方式和功能性操作可以在以下中实施:数字电子电路,有形实施的计算机软件或者固件,计算机硬件,包括本说明书中公开的结构及其结构等同体,或者上述中的一者以上的组合。本说明书中描述的主题的实施方式可以被实施为一个或多个计算机程序,即,一个或多个有形非暂时性程序载体上编码的计算机程序指令的一个或多个模块,用以被数据处理设备执行或者控制数据处理设备的操作。
作为替代或者附加,程序指令可以被编码在人工生成的传播信号上,例如,机器生成的电信号、光信号或者电磁信号,上述信号被生成为编码信息以传递到用数据处理设备执行的适当的接收器设备。计算机存储介质可以是机器可读存储装置、机器可读的存储基片、随机或者串行存取存储器装置或者上述装置中的一种或多种的组合。
术语“数据处理设备”包含所有种类的用于处理数据的设备、装置以及机器,作为实例,包括可编程处理器、计算机或者多重处理器或者多重计算机。设备可以包括专用逻辑电路,例如,FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。设备除了包括硬件之外,还可以包括创建相关计算机程序的执行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统或者它们中的一种或多种的组合代码。
计算机程序(还可以被称为或者描述为程序、软件、软件应用、模块、软件模块、脚本或者代码)可以以任意形式的编程语言而被写出,包括编译语言或者解释语言或者声明性语言或过程式语言,并且计算机程序可以以任意形式展开,包括作为独立程序或者作为模块、组件、子程序或者适于在计算环境中使用的其他单元。计算机程序可以但不必须对应于文件系统中的文件。程序可以被存储在保存其他程序或者数据的文件的一部分中,例如,存储在如下中的一个或多个脚本:在标记语言文档中;在专用于相关程序的单个文件中;或者在多个协同文件中,例如,存储一个或多个模块、子程序或者代码部分的文件。计算机程序可以被展开为执行在一个计算机或者多个计算机上,所述计算机位于一处,或者分布至多个场所并且通过通信网络而互相连接。
在本说明书中描述的处理和逻辑流程可以由一个或多个可编程计算机执行,该计算机通过运算输入数据并且生成输出而执行一个或多个的计算机程序,以运行函数。处理和逻辑流程还可以由专用逻辑电路,例如,FPGA(可现场编程门阵列) 或者ASIC(专用集成电路)执行,并且设备也可以被实施为专用逻辑电路。
适于实行计算机程序的计算机包括并且示例性地可以基于通用微处理器或者专用微处理器或者上述处理器两者,或者任意其他种类的中央处理单元。通常地,中央处理单元将接收来自只读存储器或者随机存取存储器或者这两者的指令和数据。计算机的主要元件是用于运行或者执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器装置。通常地,计算机还将包括或者是可操作性地耦合,以从用于存储数据的一个或多个大容量存储装置接收数据或者传递数据到大容量存储装置,或者接收和传递两者,该大容量存储器例如为磁盘、磁光盘或者光盘。然而,计算机不必须具有这样的装置。此外,计算机可以被嵌入到另一装置中,例如,移动电话、个人数字助理(PDA)、移动音频或者视频播放器、游戏主控台、全球定位系统(GPS)接收器或者可移动存储设备,例如,通用串行总线(USB) 闪存盘等。
适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失存储器、介质和存储器装置,作为实例,包括:半导体存储器装置,例如,EPROM、 EEPROM和闪速存储器装置;磁盘,例如,内置硬盘或者可移动磁盘;磁光盘;CD-ROM 和DVD-ROM盘。处理器和存储器可以补充以或者并入至专用逻辑电路。
为了发送与用户的交互,本说明书中描述的主题的实施方式可以被实施在计算机上,该计算机具有:显示装置,例如,CRT(阴极射线管)或者LCD(液晶显示器) 监控器,用于向用户显示信息;以及键盘和例如鼠标或者追踪球这样的定位装置,用户利用它们可以将输入发送到计算机。其他种类的装置也可以用于发送与用户的交互;例如,提供给用户的反馈可以是任意形式的传感反馈,例如,视觉反馈、听觉反馈或者触觉反馈;以及来自用户的输入可以以任意形式接收到,包括声响输入、语音输入或者触觉输入。另外,计算机可以通过将文档发送至由用户使用的装置并且接收来自该装置的文档而与用户交互;例如,通过响应于接收到的来自网络浏览器的请求,而将网页发送到用户的客户端装置上的网络浏览器。
本说明书中描述的主题的实施方式可以在计算系统中实施,该计算系统包括例如数据服务器这样的后端组件,或者包括例如应用服务器这样的中间组件,或者包括例如客户端计算机这样的前端组件,该客户端计算机具有图形用户界面或者网络浏览器,用户可以通过图形用户界面或者网络浏览器而与本说明书中描述的主题的实施进行交互,或者该
计算机系统包括一个或多个这种后端组件、中间组件或者前端组件的任意组合。系统中的组件可以通过例如通信网络的任意形式或介质的数字数据通信而互相连接。通信网络的实例包括局域网络(“LAN”)和广域网络(“WAN”),例如,因特网。__计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离,并且通常通过通信网络而交互。客户端与服务器之间的关系利用在各自的计算机上运行并且具有彼此之间的客户端-服务器关系的计算机程序而产生。
虽然本说明书包含很多具体的实施细节,但是这些不应当被解释为对任何发明的范围或者对可以要求保护的内容的范围的限制,而是作为可以使特定发明的特定实施方式具体化的特征的说明。在独立的实施方式的语境中的本说明书中描述的特定特征还可以与单个实施方式组合地实施。相反地,在单个实施方式的语境中描述的各种特征还可以独立地在多个实施方式中实施,或者在任何合适的子组合中实施。此外,虽然以上可以将特征描述为组合作用并且甚至最初这样要求,但是来自要求的组合的一个或多个特征在一些情况下可以从该组合去掉,并且要求的组合可以转向子组合或者子组合的变形。
相似地,虽然以特定顺序在附图中描述了操作,但是不应当理解为:为了实现期望的结果,要求这样的操作以示出的特定顺序或者以顺序次序而执行,或者所有图示的操作都被执行。在特定情况下,多任务处理和并行处理可以是有利的。此外,上述实施方式中的各种系统模块和组件的分离不应当理解为在所有实施方式中要求这样的分离,并且应当理
解程序组件和系统可以通常被一体化在单个软件产品中或者打包至多个软件产品中。
已经描述了主题的特定实施方式。其他实施方式在以下权利要求的范围内。例如,在权利要求中记载的活动可以以不同的顺序执行并且仍旧实现期望的结果。作为一个实例,为了实现期望的结果,附图中描述的处理不必须要求示出的特定顺序或者顺序次序。在特定实现中,多任务处理和并行处理可以是有优势的。

Claims (10)

1.一种使用流水数据的客观信用评价方法,其特征在于,包括如下步骤:
数据采集步骤:至少以数据挖掘机器人挖掘、政务平台导入和自行填报中的一种采集方法采集评价目标的行为规律型数据,且经至少一种数据入口提交至对应的系统中;
数据处理步骤:包括目标筛选步骤和数学模型计算步骤,所述目标筛选步骤包括数据清洗、异常值查找、目标分类、数据种类完整度检查;所述数学模型计算步骤包括客观信用评分、额度计算;
结果输出步骤:所述结果输出包括信用指数、信用额度和明细数据,以及目标监测;所述目标监测步骤包括按一定周期更新信用指数、信用额度和明细数据,并对超出变化阈值的指标或评分项提出预警;
所述数据挖掘机器人采集的数据包括来自电子化交易平台的纵向过程数据,所述纵向过程数据包括订单数据、入库数据、出库数据;所述自行填报的数据包括B2G信息平台采集的行为规律数据,所述行为规律数据包括销售、产品、交易对手、人力、银行流水、税收数据。
2.如权利要求1所述的方法,其特征在于:
数据清洗的方法包括:
过滤掉格式异常数据、数据类型错误数据、数据缺失数据、文件错传数据;
利用数据库对各种结构和非结构化数据自动归纳、分类,从中去除不合规的数据;经过数据清洗的数据已经去除了基本的数据异常,但是还未检验数据中的离群值;
异常值查找的方法包括:
将数据清洗后数据按照稳定性进行第一次分类,得到具有宽数据稳定区间(置信区间宽)的不稳定数据和具有窄稳定区间(置信区间窄)的稳定数据;
将第一次分类后的数据按照数据深度和数据广度进行第二次分类,分类后的数据按照数据深度和数据广度二次分类,按照数据深度分类,得到基础数据(原始数据)、特征指标(重要指标)和模型分析(模型计算出的指标)三类数据;按照数据广度分类,得到过程数据、结果数据、时间序列;
数据标准化(归一化),再基于数据密度、离群值、关联性和模式识别中的至少一种建模方法进行第三次分类,得到有异常值数据和无异常值数据,有异常的数据按照每一种建模方法对数据打分,分数越高的数据越有可能成为异常值;
将所述有异常值数据进行重复异常结果排序、筛选(多种模型结果的交、并),按照异常值算法的有效性检验;设定异常警戒参数后还原数据;将还原数据在有限的人工干预下主观排查后标记异常,得到形成特征数据;
将所述无异常值数据和所述特征数据,按照半监督的异常值查找方法,得到精确度曲线标记特征,作为监督数据进入数据库;
目标分类对异常查找后的目标对象划分多种类型,每种类型对应一种或多种特征点,每种类型的目标侧重的数据类型不同,最后按照分类后的特征点给出对应权重,进行数据种类完整度计算;按照不同类型目标的关注度不同,为每一种类型的目标确定核心数据,该核心数据提炼出数据种类完整度、指数、额度的权重较大的特征点;例如以脑力密集型为主的科技型企业人力数据反映了企业的未来发展,销售数据反映其产品的市场认可,这两种数据为其核心数据,从中提炼出科技型企业的人力流动,销售金额等特征,将其归类到对应数据库中,得出该企业的发展轨迹、现状和前景;同时,按照类型分类后的数据按照结果数据和过程数据的相关性再次进行异常值检查;
数据种类完整度检查数据种类完整度在三个维度展开,种类完整度按照行为规律型分为销售、流水、人力、能耗等,数据种类越多,评分越高;每一类型的目标不同种类的数据对应不同的权重(机器给出),给出权重越高的数据类型,得分越高;例如科技型企业人力和销售的权重较高,缺少这一项,得分会比少给银行流水低很多;历史完整度依据提供数据的历史时间给出,历史数据越长,完整度评分越高;给出的数据越新,完整度评分越高;颗粒度中,明细数据种类完整度越高,年度数据种类完整度最低。
3.如权利要求2所述的方法,其特征在于:所述异常值查找的方法还包括:针对数值型的数据,当具有充分的数据与先验统计分布知识时,选取标准的统计分布检测法识别异常值;当数据量的规模较小时,选择密度模型法识别异常值;当数据量充足,而缺少先验统计分布知识时,选取数据簇模型识别异常值;当数据具有明确的时间先后顺序特征,并满足稳态序列判断标准条件,选取基于时间序列原理的模型识别异常值;针对非数值型的数据,由于字符变量,主要分析类型数据相互之间的关联度,以及各项集出现的频繁度的差异性;
优选的检验方法如下:
1)密度检测法,当数据量不充分时使用异常;
2)时间序列检测法,当数据具有明确的时间顺序特征,且满足时间序列稳定性要求时,利用时间序列原理识别数据序列中的异常值;
3)AVF检测法,根据分类属性值的频繁程度识别字符型。
4.如权利要求1所述的方法,其特征在于,所述数据种类完整度检查包括种类检查、历史、颗粒度检查,通过机器挖掘权重,其中种类检查公式表示为:
Figure RE-FDA0002627486710000031
其中,m表示数据类型的总数(例如总共有七种数据类型,m=7);x表示数据类型的种类;(例如x(销售记录)=3,x(银行流水)=4,x(工资记录)=5,x(应收账款)=6,x(用电)=7,x(用水)=8,x(房产+土地)=9,x(车辆+其他固定资产)=10)缺失数据法计算公式为:
F(X)最终=F(X)-F(X)缺失 式2
其中,F(X)最终表示数据种类完整度的最终得分;F(X)为填报数据种类计算结果;F(X)缺失表示未填报数据种类计算结果。
5.如权利要求4所述的方法,其特征在于,历史数据的所述数据完整度计算:
对每一种数据按照公司成立时间长度—提交数据时间长度=0做判断,如果为0,F(X)=10,其他情况下,每一种数据:
Figure FDA0002560499970000041
其中,k=0.11,a=23.55,x为获得的历史数据月数;
对所有数据得到的数据种类完整度作算术平均,F(X)为最终的历史数据种类完整度的值;
所述颗粒度检查包括明细、月度、年度,计算方法为:
Figure FDA0002560499970000042
对每一种数据运算公式:
F(x)=log(1+3x)*10
其中,x(单笔记录)=3,x(月合计数)=2,x(年合计数)=1;
Figure FDA0002560499970000043
其中,最终数据种类完整度为上述三项完整度的算术平均。
6.如权利要求1所述的方法,其特征在于,所述客观信用评分包括至少四级评分体系,第一级为总分,根据目标对象的各种特征点,综合行业数据和宏观数据给出;第二级为一级分类评分,按照数据类型(销售、人力,能耗,流水等)和数据定性(稳定、效率、成长性、规模)分别给出对应评分;第三级为二级分类评分,对一级分类的子项分别评分;第四级囊括了目标对象各个方面的数据,并按照其特征点由机器赋予相应权重。
7.如权利要求1所述的方法,其特征在于,所述额度计算方法包括:
额度计算按照链式和填报式(行为规律型)目标分别按照公式累加给出,每项金额乘以对应关注的指数,相加后为最终的授信额度;例如对于链式企业,额度重点关注供应链系统的各个环节,如订单项,应收账款项等,填报企业关注固定资产、银行余额、销售额、人力成本等信息。
8.如权利要求1所述的方法,其特征在于,所述客观信用评分方法包括如下步骤:
同一指标体系内取值范围大的数据,先对该指标体系内每个数据转换为以10为底的对数;
波动率指标的计算:所有指标为加权波动率;
Figure FDA0002560499970000051
其中,ηi表示n个指标值中第i个指标的数值,
Figure FDA0002560499970000052
为n个指标值的期望;
集中度指标的计算:做赫芬达尔指数转换,公式为:
Figure FDA0002560499970000053
其中,X为该指标的合计数,Xi第i项的值,Si为第i项占合计数的比,N为该指标中的总项数;
指标标准化:所述指标标准化包括:
1)大者为优的指标利用下述公式标准化:
Figure FDA0002560499970000054
其中,yij为第i点第j项指标的标准化值,
Figure FDA0002560499970000055
为第j项指标的最大值,xij为i点第j项指标的值,
Figure FDA0002560499970000056
为第j项指标的最小值;2)小者为优的指标利用下面公式标准化
Figure FDA0002560499970000057
其中yij为第i点j项指标的标准化值,
Figure FDA0002560499970000058
为第j项指标的最大值,xij为i点第j项指标的值,
Figure FDA0002560499970000059
为第j项指标的最小值;
3)稳定为优的指标采用下述方法标准化:包括指标最优值K的确定:
i)
Figure FDA0002560499970000061
Figure FDA0002560499970000062
其中k表示第j项指标的最优值,ai为i点的j项指标值,xij为i点j指标的转换值;其中Yij为i点j指标的标准化值,为xij的最大值,
Figure FDA0002560499970000063
为xij的最小值;
ii)
Figure FDA0002560499970000064
计算指标熵值:
1)应用公式:
Figure FDA0002560499970000065
其中,计算第j项指标下i点指标值所占比重pij,m为该指标中的指标点数;
2)应用公式:
Figure FDA0002560499970000066
其中,计算第j项指标的熵值ej,其中k=1/ln(m),ln为自然对数,m为该指标中的总点数;
计算指标权重:
1)计算差异系数δj=1-ej,δ值越大,权重越大;
2)应用公式:
Figure FDA0002560499970000067
其中,计算各项指标的权重,其中Wj为第j项指标权重,n为指标个数;
计算信用指数:运用公式,
Figure FDA0002560499970000071
计算健康指数,其中Ii为i点的信用指数,pij为i点第j项指标的比重,Wj为第j项指标权重,n为指标个数。
9.如权利要求1所述的方法,其特征在于,所述结果输出步骤中,
目标监测分为监测重点、监测等级、监测功能,监测重点包括链式、填报式、行为规律式等级别,监测等级包括按地区分、按行业分、按评分等级分;监测功能包括明细数据类型、颗粒度、综合指数变化、关键指标变化;
目标监测的内容主要有自我认知和辅助监管两个方面,自我认知了解自身的经营、管理情况;辅助监管可以监管下属目标,也可以监管其他目标;每一方面内容有三个维度,数据深度,数据广度和时间尺度;
数据深度包括基础数据(原始数据)、特征指标(关键指标)和模型分析出的结果;对基础数据,在时间序列尺度上统计其变化规律,利用原始数据计算出指标,并找出特征指标,利用降维找出综合指标,或者利用将特征指标在时间序列上分解为趋势、周期,挖掘出隐藏特征;模型分析主要有预测、趋势和周期以及相关性三类;
在数据广度中,相关性检验过程变量和结果变量之间的相关性,对于选定的指标,选取其中两个或者多个指标计算其关联性,优化后按照关联系数从高到低排序并作为一个关联结果,将时间序列上的各种关联结果动态数据对比,实现动态监管指标关联性的变化;
时间尺度分别分析历史数据、目前经营状况并预测三个月内的数据;预测模型中,检测过数据稳定性的数据进入模型,利用这些数据做模型检测,选出最优模型,进行预测,对预测结果与理想预测见过比对,检验模型的有效性,最终应用模型。
10.一种使用流水数据的客观信用评价系统,其特征在于,所述系统包括至少一个处理器;以及
存储器,其存储有指令,当通过至少一个处理器来执行该指令时,实施按照权利要求1-9任一项所述的方法。
CN202010604555.2A 2020-06-29 2020-06-29 一种使用流水数据的量化风险评价系统和方法 Active CN111738843B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010604555.2A CN111738843B (zh) 2020-06-29 2020-06-29 一种使用流水数据的量化风险评价系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010604555.2A CN111738843B (zh) 2020-06-29 2020-06-29 一种使用流水数据的量化风险评价系统和方法

Publications (2)

Publication Number Publication Date
CN111738843A true CN111738843A (zh) 2020-10-02
CN111738843B CN111738843B (zh) 2021-10-19

Family

ID=72651602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010604555.2A Active CN111738843B (zh) 2020-06-29 2020-06-29 一种使用流水数据的量化风险评价系统和方法

Country Status (1)

Country Link
CN (1) CN111738843B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434065A (zh) * 2020-11-20 2021-03-02 上海孚厘科技有限公司 一种基于银行流水区间数据的预测处理方法
CN112749155A (zh) * 2021-01-29 2021-05-04 北京城建勘测设计研究院有限责任公司 基于离散度最小原则勘察试验数据自动处理的方法
CN113537558A (zh) * 2021-06-03 2021-10-22 广州快批信息科技有限公司 物料需求自动向上游同步的处理方法、装置及终端设备
CN114356902A (zh) * 2021-12-14 2022-04-15 中核武汉核电运行技术股份有限公司 工业数据质量管理方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120095802A1 (en) * 2010-10-18 2012-04-19 The Coca-Cola Company System and methods for evaluating political, social, and economic risk associated with a geographic region
CN106780140A (zh) * 2016-12-15 2017-05-31 国网浙江省电力公司 基于大数据的电力信用评价方法
CN108564286A (zh) * 2018-04-19 2018-09-21 天合泽泰(厦门)征信服务有限公司 一种基于大数据征信的人工智能金融风控授信评定方法和系统
CN109086977A (zh) * 2018-07-11 2018-12-25 国网浙江省电力公司 一种售电公司综合价值评价方法
CN109784707A (zh) * 2019-01-04 2019-05-21 深圳壹账通智能科技有限公司 企业信用评估方法、装置、计算机设备和存储介质
CN110163467A (zh) * 2019-04-02 2019-08-23 苏州纤联电子商务有限公司 一种基于纺织行业中小型企业信用的风险量化建模方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120095802A1 (en) * 2010-10-18 2012-04-19 The Coca-Cola Company System and methods for evaluating political, social, and economic risk associated with a geographic region
CN106780140A (zh) * 2016-12-15 2017-05-31 国网浙江省电力公司 基于大数据的电力信用评价方法
CN108564286A (zh) * 2018-04-19 2018-09-21 天合泽泰(厦门)征信服务有限公司 一种基于大数据征信的人工智能金融风控授信评定方法和系统
CN109086977A (zh) * 2018-07-11 2018-12-25 国网浙江省电力公司 一种售电公司综合价值评价方法
CN109784707A (zh) * 2019-01-04 2019-05-21 深圳壹账通智能科技有限公司 企业信用评估方法、装置、计算机设备和存储介质
CN110163467A (zh) * 2019-04-02 2019-08-23 苏州纤联电子商务有限公司 一种基于纺织行业中小型企业信用的风险量化建模方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434065A (zh) * 2020-11-20 2021-03-02 上海孚厘科技有限公司 一种基于银行流水区间数据的预测处理方法
CN112749155A (zh) * 2021-01-29 2021-05-04 北京城建勘测设计研究院有限责任公司 基于离散度最小原则勘察试验数据自动处理的方法
CN113537558A (zh) * 2021-06-03 2021-10-22 广州快批信息科技有限公司 物料需求自动向上游同步的处理方法、装置及终端设备
CN113537558B (zh) * 2021-06-03 2024-06-04 广州快批信息科技有限公司 物料需求自动向上游同步的处理方法、装置及终端设备
CN114356902A (zh) * 2021-12-14 2022-04-15 中核武汉核电运行技术股份有限公司 工业数据质量管理方法及装置

Also Published As

Publication number Publication date
CN111738843B (zh) 2021-10-19

Similar Documents

Publication Publication Date Title
CN111738843B (zh) 一种使用流水数据的量化风险评价系统和方法
CN114066242A (zh) 一种企业风险的预警方法及装置
CN101493913A (zh) 一种评估网上用户信用的方法及系统
CN111428113B (zh) 一种基于模糊综合评判的网络舆论引导效果预测方法
Li et al. Research and application of random forest model in mining automobile insurance fraud
CN112419029B (zh) 类金融机构风险监控方法、风险模拟系统及存储介质
CN114048436A (zh) 一种预测企业财务数据模型构建方法及构建装置
CN112419030B (zh) 财务舞弊风险评估的方法、系统及设备
CN111369344A (zh) 一种动态生成预警规则的方法和装置
Xu et al. Novel key indicators selection method of financial fraud prediction model based on machine learning hybrid mode
CN115544519A (zh) 对计量自动化系统威胁情报进行安全性关联分析的方法
Prathap et al. Geospatial crime analysis to determine crime density using Kernel density estimation for the Indian context
CN112950359B (zh) 一种用户识别方法和装置
CN117593142A (zh) 财务风险评估管理方法及系统
Yi-bin et al. Improvement of ID3 algorithm based on simplified information entropy and coordination degree
CN114511022B (zh) 特征筛选、行为识别模型训练、异常行为识别方法及装置
Yang et al. Data preparation for machine learning in rock engineering
CN102096692A (zh) 网站访客价值评估系统及方法
CN114626940A (zh) 数据分析方法、装置及电子设备
CN113641825A (zh) 基于客观信息论的智慧法院系统大数据处理方法及装置
CN116109211B (zh) 基于设备数字化的设备运行水平分析方法及装置
Wu et al. Variation-Incentive Loss Re-weighting for Regression Analysis on Biased Data
CN115131039B (zh) 基于非线性降维的企业风险评估方法、计算机设备及存储介质
Unnikrishnan et al. A Literature Review of Sentiment Evolution
Jiang et al. Construction of Potential Customer Index System Under Machine Learning Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant