CN112529679A - 企业授信模型的构建方法、装置、设备及可读存储介质 - Google Patents
企业授信模型的构建方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN112529679A CN112529679A CN202011573662.XA CN202011573662A CN112529679A CN 112529679 A CN112529679 A CN 112529679A CN 202011573662 A CN202011573662 A CN 202011573662A CN 112529679 A CN112529679 A CN 112529679A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- data
- model
- information
- industrial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000007477 logistic regression Methods 0.000 claims description 43
- 238000012549 training Methods 0.000 claims description 34
- 230000001419 dependent effect Effects 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 30
- 230000007246 mechanism Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 13
- 238000012417 linear regression Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 abstract description 12
- 238000004891 communication Methods 0.000 description 6
- 238000013475 authorization Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/123—Tax preparation or submission
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Technology Law (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种企业授信模型的构建方法、装置、设备及可读存储介质,该企业授信模型的构建方法包括以下步骤:预先构建纳税数据预测模型;获取企业的工商数据,将所述工商数据输入至所述纳税数据预测模型,得到所述工商数据对应的纳税数据;基于所述工商数据、所述工商数据对应的衍生数据和所述纳税数据,进行构建企业授信模型,以在构建所述企业授信模型完成后,基于所述企业授信模型进行预测目标客户的信用风险。本发明可以更加全面地对企业的信用风险进行评估,从而使得预测目标客户的信用风险结果更加可靠,解决了现有的企业信用评分技术无法全面多维度地评价企业的风险水平的技术问题。
Description
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及一种企业授信模型的构建方法、装置、设备及可读存储介质。
背景技术
随着计算机技术的发展,越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。
现有的基于工商数据的企业的信用评分技术包括专家评分卡和基于工商数据构建统计模型其中。其中,专家评分模型是根据专家的业务经验,将信用风险分解为多个评价维度,然后人为地给每一个评价维度赋予一定的权重,最终把所有维度的加权评分之和作为最终的评分。基于工商数据的信用评分卡是基于企业的工商数据利用逻辑回归的算法构建统计模型,得出不同维度的贡献权重,再计算所有维度的加权评分之和,并通过激活函数转换为最终的概率评分。
但是,实际上部分企业只有工商数据没有税务数据,因此仅基于工商数据构建的统计模型智能反映客户的一部分信息,导致现有的企业信用评分技术无法全面多维度地评价企业的风险水平。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种企业授信模型的构建方法、装置、设备及可读存储介质,旨在解决现有的企业信用评分技术无法全面多维度地评价企业的风险水平的技术问题。
为实现上述目的,本发明提供一种企业授信模型的构建方法,所述企业授信模型的构建方法包括以下步骤:
预先构建纳税数据预测模型;
获取企业的工商数据,将所述工商数据输入至所述纳税数据预测模型,得到所述工商数据对应的纳税数据;
基于所述工商数据、所述工商数据对应的衍生数据和所述纳税数据,进行构建企业授信模型,以在构建所述企业授信模型完成后,基于所述企业授信模型进行预测目标客户的信用风险。
可选地,所述基于所述工商数据、所述工商数据对应的衍生数据和所述纳税数据,进行构建企业授信模型的步骤包括:
将所述工商数据、所述工商数据对应的衍生数据和所述纳税数据作为自变量;
基于预设的逻辑回归模型对应的逻辑函数,计算所述自变量对应的因变量;
基于所述因变量和所述自变量优化所述逻辑回归模型,以构建企业授信模型。
可选地,所述基于所述因变量和所述自变量优化所述逻辑回归模型,以构建企业授信模型的步骤包括:
基于预设的损失函数,确定所述因变量对应的损失量以及梯度;
基于所述损失量,确定所述自变量对应的海森矩阵;
根据所述海森矩阵和梯度优化所述逻辑回归模型,以构建企业授信模型。
可选地,所述基于所述工商数据、所述工商数据对应的衍生数据和所述纳税数据,进行构建企业授信模型的步骤之前,还包括:
按照风险业务对应的业务逻辑,将所述工商数据分成企业基本信息、财务信息和非财务信息;
分别对所述企业基本信息、所述财务信息和所述非财务信息进行处理,确定所述工商数据对应的衍生数据,其中,所述衍生数据包括所述企业基本信息对应的衍生数据、所述财务信息对应的衍生数据以及所述非财务信息对应的衍生数据。
可选地,对所述企业基本信息进行处理,确定所述企业基本信息对应的衍生数据的步骤包括:
若所述企业基本信息为文本类信息,则基于词向量模型,将所述文本类信息转换成词向量,得到所述文本类信息对应的衍生数据;
若所述企业基本信息为字符型信息,则通过卡方分箱将所述企业基本信息转化成证据权重,得到所述字符型信息对应的衍生数据;
若所述企业基本信息为数值型信息,则通过等频分箱将所述企业基本信息转转化成证据权重,得到所述数值型信息对应的衍生数据。
可选地,分别对所述财务信息和所述非财务信息进行处理,确定所述工商数据对应的衍生数据的步骤包括:
通过等频分箱将所述财务信息转化成证据权重,得到所述财务信息对应的衍生数据;
按照所述非财务信息对应的分类信息对所述非财务信息进行分段细分,得到所述非财务信息对应的衍生数据,其中,所述非财务信息包括失信被执行信息和行政处罚信息,所述失信被执行信息对应的分类信息包括失信人类型、公布时间或被执行人履约情况中的至少一种,所述行政处罚信息对应的分类信息包括案由、执行类型、处罚种类或处罚金额中的至少一种。
可选地,所述预先构建纳税数据预测模型的步骤包括:
获取多个不同机构的训练数据,其中,所述机构包含纳税数据和工商数据,将所述机构的纳税数据和工商数据作为训练数据;
将所述训练数据输入至预设的线性回归模型,以构建纳税数据预测模型。
此外,为实现上述目的,本发明还提供一种企业授信模型的构建装置,所述企业授信模型的构建装置包括:
第一构建模块,用于预先构建纳税数据预测模型;
预测模块,用于获取企业的工商数据,将所述工商数据输入至所述纳税数据预测模型,得到所述工商数据对应的纳税数据;
第二构建模块,用于基于所述工商数据、所述工商数据对应的衍生数据和所述纳税数据,进行构建企业授信模型,以在构建所述企业授信模型完成后,基于所述企业授信模型进行预测目标客户的信用风险。
此外,为实现上述目的,本发明还提供一种企业授信模型的构建设备,所述企业授信模型的构建设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的企业授信模型的构建程序,所述企业授信模型的构建程序被所述处理器执行时实现如上述的企业授信模型的构建方法的步骤。
此外,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质上存储有企业授信模型的构建程序,所述企业授信模型的构建程序被处理器执行时实现如上述的企业授信模型的构建方法的步骤。
本发明通过预先构建纳税数据预测模型;获取企业的工商数据,将所述工商数据输入至所述纳税数据预测模型,得到所述工商数据对应的纳税数据;基于所述工商数据、所述工商数据对应的衍生数据和所述纳税数据,进行构建企业授信模型,以在构建所述企业授信模型完成后,基于所述企业授信模型进行预测目标客户的信用风险。在本实施例中,当一些企业的工商数据未包含纳税数据时,通过纳税数据预测模型对企业缺失的纳税数据进行补全,可以使得企业授信模型的训练数据更加全面,之后根据所补全的纳税数据和原有的工商数据以及工商数据的衍生数据进行构建企业授信模型,使得企业授信模型更加全面地对企业的信用风险进行评估,从而使得预测目标客户的信用风险结果更加可靠,解决了现有的企业信用评分技术无法全面多维度地评价企业的风险水平的技术问题。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的企业授信模型的构建设备结构示意图;
图2为本发明企业授信模型的构建方法第一实施例的流程示意图;
图3为本发明企业授信模型的构建方法第二实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的企业授信模型的构建设备结构示意图。
本发明实施例企业授信模型的构建设备可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该企业授信模型的构建设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,企业授信模型的构建设备还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在企业授信模型的构建设备移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别企业授信模型的构建设备姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,企业授信模型的构建设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的企业授信模型的构建设备结构并不构成对企业授信模型的构建设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及企业授信模型的构建程序。
在图1所示的企业授信模型的构建设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的企业授信模型的构建程序。
在本实施例中,企业授信模型的构建设备包括:存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的企业授信模型的构建程序,其中,处理器1001调用存储器1005中存储的企业授信模型的构建程序时,并执行以下操作:
预先构建纳税数据预测模型;
获取企业的工商数据,将所述工商数据输入至所述纳税数据预测模型,得到所述工商数据对应的纳税数据;
基于所述工商数据、所述工商数据对应的衍生数据和所述纳税数据,进行构建企业授信模型,以在构建所述企业授信模型完成后,基于所述企业授信模型进行预测目标客户的信用风险。
进一步地,处理器1001可以调用存储器1005中存储的企业授信模型的构建程序,还执行以下操作:
将所述工商数据、所述工商数据对应的衍生数据和所述纳税数据作为自变量;
基于预设的逻辑回归模型对应的逻辑函数,计算所述自变量对应的因变量;
基于所述因变量和所述自变量优化所述逻辑回归模型,以构建企业授信模型。
进一步地,处理器1001可以调用存储器1005中存储的企业授信模型的构建程序,还执行以下操作:
基于预设的损失函数,确定所述因变量对应的损失量以及梯度;
基于所述损失量,确定所述自变量对应的海森矩阵;
根据所述海森矩阵和梯度优化所述逻辑回归模型,以构建企业授信模型。
进一步地,处理器1001可以调用存储器1005中存储的企业授信模型的构建程序,还执行以下操作:
按照风险业务对应的业务逻辑,将所述工商数据分成企业基本信息、财务信息和非财务信息;
分别对所述企业基本信息、所述财务信息和所述非财务信息进行处理,确定所述工商数据对应的衍生数据,其中,所述衍生数据包括所述企业基本信息对应的衍生数据、所述财务信息对应的衍生数据以及所述非财务信息对应的衍生数据。
进一步地,处理器1001可以调用存储器1005中存储的企业授信模型的构建程序,还执行以下操作:
若所述企业基本信息为文本类信息,则基于词向量模型,将所述文本类信息转换成词向量,得到所述文本类信息对应的衍生数据;
若所述企业基本信息为字符型信息,则通过卡方分箱将所述企业基本信息转化成证据权重,得到所述字符型信息对应的衍生数据;
若所述企业基本信息为数值型信息,则通过等频分箱将所述企业基本信息转转化成证据权重,得到所述数值型信息对应的衍生数据。
进一步地,处理器1001可以调用存储器1005中存储的企业授信模型的构建程序,还执行以下操作:
通过等频分箱将所述财务信息转化成证据权重,得到所述财务信息对应的衍生数据;
按照所述非财务信息对应的分类信息对所述非财务信息进行分段细分,得到所述非财务信息对应的衍生数据,其中,所述非财务信息包括失信被执行信息和行政处罚信息,所述失信被执行信息对应的分类信息包括失信人类型、公布时间或被执行人履约情况中的至少一种,所述行政处罚信息对应的分类信息包括案由、执行类型、处罚种类或处罚金额中的至少一种。
进一步地,处理器1001可以调用存储器1005中存储的企业授信模型的构建程序,还执行以下操作:
获取多个不同机构的训练数据,其中,所述机构包含纳税数据和工商数据,将所述机构的纳税数据和工商数据作为训练数据;
将所述训练数据输入至预设的线性回归模型,以构建纳税数据预测模型。
本发明还提供一种企业授信模型的构建方法,参照图2,图2为本发明企业授信模型的构建方法第一实施例的流程示意图。
在本实施例中,企业授信模型的构建方法包括以下步骤:
步骤S10,预先构建纳税数据预测模型;
在本实施例中,在构建企业授信模型之前,预先构建纳税数据预测模型,构建完成的纳税数据预测模型的模型函数包含了工商数据与纳税数据之间的函数映射关系,即往纳税数据预测模型中输入工商数据,纳税数据预测模型可以根据函数映射关系,计算得到工商数据对应的纳税数据。
进一步地,所述预先构建纳税数据预测模型的步骤包括:
步骤S11,获取多个不同机构的训练数据,其中,所述机构包含纳税数据和工商数据,将所述机构的纳税数据和工商数据作为训练数据;
步骤S12,将所述训练数据输入至预设的线性回归模型,以构建纳税数据预测模型。
在本实施例中,在构建纳税数据预测模型过程中,首先获取多个不同企业机构的训练数据,其中,所提供训练数据的企业机构需要同时包含纳税数据和工商数据,才能将该企业机构的纳税数据和工商数据作为训练数据;之后,将训练数据输入至预设的线性回归模型,以对线性回归模型进行训练,以构建纳税数据预测模型,在训练完成线性回归模型后,得到纳税数据预测模型。具体地,将训练数据中的工商数据(以下称为工商训练数据)输入至该预设的线性回归模型,以使线性回归模型输出该工商训练数据对应的中间训练结果;之后,基于预设的损失函数,计算中间训练结果对应的梯度信息;最后,基于梯度信息优化该线性回归模型,在损失函数对应的梯度信息小于预设梯度阈值时模型构建完成,得到税务数据预测模型。
步骤S20,获取企业的工商数据,将所述工商数据输入至所述纳税数据预测模型,得到所述工商数据对应的纳税数据;
其中,企业的工商数据指的是包含企业的基本工商信息、法律诉讼信息、知识产权信息、失信被执行信息等与企业经营相关的数据信息,工商数据可以由银行提供,或者是由工商局所提供。
在本实施例中,获取企业的工商数据,并将工商数据输入至预先构建的纳税数据预测模型中,以供纳税数据预测模型根据其训练完成的模型参数和函数映射关系,计算输入工商数据对应的纳税数据。其中,纳税数据的计算方式可以由以下数学关系式表示:纳税数据=f(工商数据),其中,函数f(x)表示纳税数据预测模型的函数映射关系,因此,由于目前从工商数据源拿到的信息还不丰富,对于从业务理解角度对小微企业信用风险影响较大的纳税信息暂未覆盖,本发明对于纳税数据,预先利用同时拥有工商数据和纳税数据的企业作为样本构建纳税数据预测模型,当某企业只有工商数据但缺乏纳税数据时,再将模型应用到只有工商数据的企业身上,根据纳税数据预测模型和该企业的工商数据对该企业的纳税数据进行预测,实现对企业的相关信息进行补全。
步骤S30,基于所述工商数据、所述工商数据对应的衍生数据和所述纳税数据,进行构建企业授信模型,以在构建所述企业授信模型完成后,基于所述企业授信模型进行预测目标客户的信用风险。
在本实施例中,预先根据企业的工商数据,对工商数据进行处理,确定工商数据对应的衍生数据。之后,将工商数据、工商数据对应的衍生数据和纳税数据输入至预设的逻辑回归模型中,对该逻辑回归模型进行训练,并优化该逻辑回归模型,在优化完成逻辑回归模型后,得到企业授信模型。其中,企业授信模型为一种将信用风险大小量化为评分的数理统计模型。最终,在构建完成企业授信模型之后,根据企业授信模型可以对任意目标客户进行预测其信用风险。需要说明的是,在构建完成企业授信模型之后,由于衍生数据和纳税数据实质上是对工商数据进行了数据补全,因此,使得企业授信模型的训练数据更加全面,并且根据原有的工商数据、衍生数据和纳税数据进行构建企业授信模型,使得企业授信模型更加全面地对企业的信用风险进行评估,从而使得预测目标客户的信用风险结果更加可靠。
本实施例提出的企业授信模型的构建方法,通过预先构建纳税数据预测模型;获取企业的工商数据,将所述工商数据输入至所述纳税数据预测模型,得到所述工商数据对应的纳税数据;基于所述工商数据、所述工商数据对应的衍生数据和所述纳税数据,进行构建企业授信模型,以在构建所述企业授信模型完成后,基于所述企业授信模型进行预测目标客户的信用风险。在本实施例中,当一些企业的工商数据未包含纳税数据时,通过纳税数据预测模型对企业缺失的纳税数据进行补全,可以使得企业授信模型的训练数据更加全面,之后根据所补全的纳税数据和原有的工商数据以及工商数据的衍生数据进行构建企业授信模型,使得企业授信模型更加全面地对企业的信用风险进行评估,从而使得预测目标客户的信用风险结果更加可靠,解决了现有的企业信用评分技术无法全面多维度地评价企业的风险水平的技术问题。
基于第一实施例,提出本发明企业授信模型的构建方法的第二实施例,参照图3,在本实施例中,步骤S30包括:
步骤S31,将所述工商数据、所述工商数据对应的衍生数据和所述纳税数据作为自变量;
步骤S32,基于预设的逻辑回归模型对应的逻辑函数,计算所述自变量对应的因变量;
步骤S33,基于所述因变量和所述自变量优化所述逻辑回归模型,以构建企业授信模型。
在本实施例中,预先根据企业的工商数据,对工商数据进行加工处理,确定工商数据对应的衍生数据。之后,将工商数据、工商数据对应的衍生数据和纳税数据作为逻辑回归模型的自变量,并将该自变量输入至预设的逻辑回归模型中,以对该逻辑回归模型进行训练;之后,根据该逻辑回归模型对应的模型参数和逻辑函数计算自变量对应的因变量,其中,因变量为逻辑回归模型基于自变量输出的模型输出值;得到因变量对应的自变量之后,根据因变量和自变量对该逻辑回归模型进行优化,在优化完成逻辑回归模型后,得到企业授信模型。其中,企业授信模型为一种将信用风险大小量化为评分的数理统计模型。
进一步地,所述基于所述因变量和所述自变量优化所述逻辑回归模型,以构建企业授信模型的步骤包括:
步骤S331,基于预设的损失函数,确定所述因变量对应的损失量以及梯度;
步骤S332,基于所述损失量,确定所述自变量对应的海森矩阵;
步骤S333,根据所述海森矩阵和梯度优化所述逻辑回归模型,以构建企业授信模型。
需要说明的是,预先构建对应逻辑回归模型的损失函数,其中,损失函数是将逻辑回归模型输入的自变量的取值映射为因变量时的“风险”或“损失”的函数,损失函数用于对逻辑回归模型进行优化。
在本实施例中,得到因变量对应的自变量之后,根据预设的损失函数,将因变量和自变量代入损失函数中计算因变量对应的损失量,以及对于损失函数,求损失函数对自变量的偏导数,并将因变量和自变量代入损失函数对自变量的偏导数中,计算得到因变量对应梯度信息。之后,根据损失量和自变量,将损失量和自变量代入计算海森矩阵的公式,计算得到自变量对应的海森矩阵。最后,根据海森矩阵和梯度,对逻辑回归模型的模型参数进行更新,在更新逻辑回归模型后检测逻辑回归模型是否满足训练停止条件,若满足训练停止条件,则停止训练逻辑回归模型,训练逻辑回归模型完成得到对应的企业授信模型。若不满足训练停止条件,则获取新的工商数据、新的工商数据对应的衍生数据和纳税数据,继续基于新的工商数据、新的工商数据对应的衍生数据和纳税数据,进行训练逻辑回归模型,直至逻辑回归模型满足训练停止条件。
进一步地,所述基于所述工商数据、所述工商数据对应的衍生数据和所述纳税数据,进行构建企业授信模型的步骤之前,还包括:
步骤S40,按照风险业务对应的业务逻辑,将所述工商数据分成企业基本信息、财务信息和非财务信息;
步骤S50,分别对所述企业基本信息、所述财务信息和所述非财务信息进行处理,确定所述工商数据对应的衍生数据,其中,所述衍生数据包括所述企业基本信息对应的衍生数据、所述财务信息对应的衍生数据以及所述非财务信息对应的衍生数据。
在本实施例中,预先根据企业的工商数据,对工商数据进行加工处理,确定工商数据对应的衍生数据。具体地,按照风险业务的业务逻辑,将工商数据分成企业基本信息、财务信息和非财务信息,之后分别对企业基本信息、财务信息和非财务进行进行加工处理,在处理完成后得到工商数据对应的衍生数据,其中,工商数据对应的衍生数据包括企业基本信息对应的衍生数据、财务信息对应的衍生数据以及非财务信息对应的衍生数据。
进一步地,对所述企业基本信息进行处理,确定所述企业基本信息对应的衍生数据的步骤包括:
步骤S501,若所述企业基本信息为文本类信息,则基于词向量模型,将所述文本类信息转换成词向量,得到所述文本类信息对应的衍生数据;
步骤S502,若所述企业基本信息为字符型信息,则通过卡方分箱将所述企业基本信息转化成证据权重,得到所述字符型信息对应的衍生数据;
步骤S503,若所述企业基本信息为数值型信息,则通过等频分箱将所述企业基本信息转转化成证据权重,得到所述数值型信息对应的衍生数据。
在本实施例中,企业基本信息包括文本类信息、字符型信息和数值型信息,若企业基本信息为文本类的企业基本信息(文本类信息),则将文本类信息输入至预先训练完成的词向量模型中,以使词向量模型文本类的企业基本信息转换成词向量,得到文本类信息对应的衍生数据。当企业基本信息为字符型信息时,通过卡方分箱将字符型的企业基本信息(字符型信息)转化成证据权重,得到字符型信息对应的衍生数据,该字符型信息对应的证据权重即为字符型信息对应的衍生数据。当企业基本信息为数值型信息时,通过等频分箱将数值型的企业基本信息(数值型信息)转化成证据权重,得到数值型信息对应的衍生数据,该数值型信息对应的证据权重即为数值型信息对应的衍生数据。
进一步地,分别对所述财务信息和所述非财务信息进行处理,确定所述工商数据对应的衍生数据的步骤包括:
步骤S511,通过等频分箱将所述财务信息转化成证据权重,得到所述财务信息对应的衍生数据;
步骤S512,按照所述非财务信息对应的分类信息对所述非财务信息进行分段细分,得到所述非财务信息对应的衍生数据,其中,所述非财务信息包括失信被执行信息和行政处罚信息,所述失信被执行信息对应的分类信息包括失信人类型、公布时间或被执行人履约情况中的至少一种,所述行政处罚信息对应的分类信息包括案由、执行类型、处罚种类或处罚金额中的至少一种。
在本实施例中,除企业基本信息之外,工商数据还包括财务信息和非财务信息。分别对工商数据中的财务信息和非财务信息进行加工处理,确定工商数据对应的衍生数据,具体地,对于工商数据中的财务信息,通过等频分箱将财务信息转化成证据权重,得到财务信息对应的衍生数据。财务信息包括企业的资产负债表和利润表,其中,对于财务信息对应的资产负债表,对资产负债表的资产区间进行等频分箱后转化成证据权重,得到资产负债表对应的衍生数据;对于财务信息对应的利润表,对利润表中的营业收入、营业成本、财务费用或者管理费用中的至少一种指标进行等频分箱后转化成证据权重,得到各个指标对应的衍生数据。
对于工商数据中的非财务信息,先确定非财务信息对应的分类信息,根据非财务信息对应的分类信息对非财务信息进行分段细分,得到非财务信息对应的衍生数据。需要说明的是,分类信息表示非财务信息的分类标准,即可以根据分类信息对非财务信息进行分类。其中,非财务信息包括失信被执行信息和行政处罚信息,失信被执行信息对应的分类信息包括失信人类型、公布时间或被执行人履约情况中的至少一种,行政处罚信息对应的分类信息包括案由、执行类型、处罚种类或处罚金额中的至少一种。
本实施例提出的企业授信模型的构建方法,通过将所述工商数据、所述工商数据对应的衍生数据和所述纳税数据作为自变量;基于预设的逻辑回归模型对应的逻辑函数,计算所述自变量对应的因变量;基于所述因变量和所述自变量优化所述逻辑回归模型,以构建企业授信模型。在本实施例中,将工商数据、工商数据对应的衍生数据和纳税数据作为自变量,以根据纳税数据和原有的工商数据以及工商数据的衍生数据进行构建企业授信模型,使得企业授信模型更加全面地对企业的信用风险进行评估,从而使得预测目标客户的信用风险结果更加可靠,解决了现有的企业信用评分技术无法全面多维度地评价企业的风险水平的技术问题。
此外,本发明实施例还提出一种企业授信模型的构建装置,所述企业授信模型的构建装置包括:
第一构建模块,用于预先构建纳税数据预测模型;
预测模块,用于获取企业的工商数据,将所述工商数据输入至所述纳税数据预测模型,得到所述工商数据对应的纳税数据;
第二构建模块,用于基于所述工商数据、所述工商数据对应的衍生数据和所述纳税数据,进行构建企业授信模型,以在构建所述企业授信模型完成后,基于所述企业授信模型进行预测目标客户的信用风险。
进一步地,所述第二构建模块,还用于:
将所述工商数据、所述工商数据对应的衍生数据和所述纳税数据作为自变量;
基于预设的逻辑回归模型对应的逻辑函数,计算所述自变量对应的因变量;
基于所述因变量和所述自变量优化所述逻辑回归模型,以构建企业授信模型。
进一步地,所述第二构建模块,还用于:
基于预设的损失函数,确定所述因变量对应的损失量以及梯度;
基于所述损失量,确定所述自变量对应的海森矩阵;
根据所述海森矩阵和梯度优化所述逻辑回归模型,以构建企业授信模型。
进一步地,所述第二构建模块,还用于:
按照风险业务对应的业务逻辑,将所述工商数据分成企业基本信息、财务信息和非财务信息;
分别对所述企业基本信息、所述财务信息和所述非财务信息进行处理,确定所述工商数据对应的衍生数据,其中,所述衍生数据包括所述企业基本信息对应的衍生数据、所述财务信息对应的衍生数据以及所述非财务信息对应的衍生数据。
进一步地,所述第二构建模块,还用于:
若所述企业基本信息为文本类信息,则基于词向量模型,将所述文本类信息转换成词向量,得到所述文本类信息对应的衍生数据;
若所述企业基本信息为字符型信息,则通过卡方分箱将所述企业基本信息转化成证据权重,得到所述字符型信息对应的衍生数据;
若所述企业基本信息为数值型信息,则通过等频分箱将所述企业基本信息转转化成证据权重,得到所述数值型信息对应的衍生数据。
进一步地,所述第二构建模块,还用于:
通过等频分箱将所述财务信息转化成证据权重,得到所述财务信息对应的衍生数据;
按照所述非财务信息对应的分类信息对所述非财务信息进行分段细分,得到所述非财务信息对应的衍生数据,其中,所述非财务信息包括失信被执行信息和行政处罚信息,所述失信被执行信息对应的分类信息包括失信人类型、公布时间或被执行人履约情况中的至少一种,所述行政处罚信息对应的分类信息包括案由、执行类型、处罚种类或处罚金额中的至少一种。
进一步地,所述第一构建模块,还用于:
获取多个不同机构的训练数据,其中,所述机构包含纳税数据和工商数据,将所述机构的纳税数据和工商数据作为训练数据;
将所述训练数据输入至预设的线性回归模型,以构建纳税数据预测模型。
此外,本发明实施例还提出一种可读存储介质,所述可读存储介质上存储有企业授信模型的构建程序,所述企业授信模型的构建程序被处理器执行时实现如上述中任一项所述的企业授信模型的构建方法的步骤。
本发明可读存储介质具体实施例与上述企业授信模型的构建方法的各实施例基本相同,在此不再详细赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种企业授信模型的构建方法,其特征在于,所述企业授信模型的构建方法包括以下步骤:
预先构建纳税数据预测模型;
获取企业的工商数据,将所述工商数据输入至所述纳税数据预测模型,得到所述工商数据对应的纳税数据;
基于所述工商数据、所述工商数据对应的衍生数据和所述纳税数据,进行构建企业授信模型,以在构建所述企业授信模型完成后,基于所述企业授信模型进行预测目标客户的信用风险。
2.如权利要求1所述的企业授信模型的构建方法,其特征在于,所述基于所述工商数据、所述工商数据对应的衍生数据和所述纳税数据,进行构建企业授信模型的步骤包括:
将所述工商数据、所述工商数据对应的衍生数据和所述纳税数据作为自变量;
基于预设的逻辑回归模型对应的逻辑函数,计算所述自变量对应的因变量;
基于所述因变量和所述自变量优化所述逻辑回归模型,以构建企业授信模型。
3.如权利要求2所述的企业授信模型的构建方法,其特征在于,所述基于所述因变量和所述自变量优化所述逻辑回归模型,以构建企业授信模型的步骤包括:
基于预设的损失函数,确定所述因变量对应的损失量以及梯度;
基于所述损失量,确定所述自变量对应的海森矩阵;
根据所述海森矩阵和梯度优化所述逻辑回归模型,以构建企业授信模型。
4.如权利要求1所述的企业授信模型的构建方法,其特征在于,所述基于所述工商数据、所述工商数据对应的衍生数据和所述纳税数据,进行构建企业授信模型的步骤之前,还包括:
按照风险业务对应的业务逻辑,将所述工商数据分成企业基本信息、财务信息和非财务信息;
分别对所述企业基本信息、所述财务信息和所述非财务信息进行处理,确定所述工商数据对应的衍生数据,其中,所述衍生数据包括所述企业基本信息对应的衍生数据、所述财务信息对应的衍生数据以及所述非财务信息对应的衍生数据。
5.如权利要求4所述的企业授信模型的构建方法,其特征在于,对所述企业基本信息进行处理,确定所述企业基本信息对应的衍生数据的步骤包括:
若所述企业基本信息为文本类信息,则基于词向量模型,将所述文本类信息转换成词向量,得到所述文本类信息对应的衍生数据;
若所述企业基本信息为字符型信息,则通过卡方分箱将所述企业基本信息转化成证据权重,得到所述字符型信息对应的衍生数据;
若所述企业基本信息为数值型信息,则通过等频分箱将所述企业基本信息转转化成证据权重,得到所述数值型信息对应的衍生数据。
6.如权利要求4所述的企业授信模型的构建方法,其特征在于,分别对所述财务信息和所述非财务信息进行处理,确定所述工商数据对应的衍生数据的步骤包括:
通过等频分箱将所述财务信息转化成证据权重,得到所述财务信息对应的衍生数据;
按照所述非财务信息对应的分类信息对所述非财务信息进行分段细分,得到所述非财务信息对应的衍生数据,其中,所述非财务信息包括失信被执行信息和行政处罚信息,所述失信被执行信息对应的分类信息包括失信人类型、公布时间或被执行人履约情况中的至少一种,所述行政处罚信息对应的分类信息包括案由、执行类型、处罚种类或处罚金额中的至少一种。
7.如权利要求1至6任一项所述的企业授信模型的构建方法,其特征在于,所述预先构建纳税数据预测模型的步骤包括:
获取多个不同机构的训练数据,其中,所述机构包含纳税数据和工商数据,将所述机构的纳税数据和工商数据作为训练数据;
将所述训练数据输入至预设的线性回归模型,以构建纳税数据预测模型。
8.一种企业授信模型的构建装置,其特征在于,所述企业授信模型的构建装置包括:
第一构建模块,用于预先构建纳税数据预测模型;
预测模块,用于获取企业的工商数据,将所述工商数据输入至所述纳税数据预测模型,得到所述工商数据对应的纳税数据;
第二构建模块,用于基于所述工商数据、所述工商数据对应的衍生数据和所述纳税数据,进行构建企业授信模型,以在构建所述企业授信模型完成后,基于所述企业授信模型进行预测目标客户的信用风险。
9.一种企业授信模型的构建设备,其特征在于,所述企业授信模型的构建设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的企业授信模型的构建程序,所述企业授信模型的构建程序被所述处理器执行时实现如权利要求1至7中任一项所述的企业授信模型的构建方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有企业授信模型的构建程序,所述企业授信模型的构建程序被处理器执行时实现如权利要求1至7中任一项所述的企业授信模型的构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011573662.XA CN112529679A (zh) | 2020-12-25 | 2020-12-25 | 企业授信模型的构建方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011573662.XA CN112529679A (zh) | 2020-12-25 | 2020-12-25 | 企业授信模型的构建方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112529679A true CN112529679A (zh) | 2021-03-19 |
Family
ID=74976770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011573662.XA Pending CN112529679A (zh) | 2020-12-25 | 2020-12-25 | 企业授信模型的构建方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112529679A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114298427A (zh) * | 2021-12-30 | 2022-04-08 | 北京金堤科技有限公司 | 企业属性数据预测方法、装置、电子设备及存储介质 |
CN116245670A (zh) * | 2023-05-12 | 2023-06-09 | 辽联(北京)数据科技开发有限公司 | 基于双标签模型处理财税数据的方法、装置、介质和设备 |
-
2020
- 2020-12-25 CN CN202011573662.XA patent/CN112529679A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114298427A (zh) * | 2021-12-30 | 2022-04-08 | 北京金堤科技有限公司 | 企业属性数据预测方法、装置、电子设备及存储介质 |
CN114298427B (zh) * | 2021-12-30 | 2024-04-19 | 北京金堤科技有限公司 | 企业属性数据预测方法、装置、电子设备及存储介质 |
CN116245670A (zh) * | 2023-05-12 | 2023-06-09 | 辽联(北京)数据科技开发有限公司 | 基于双标签模型处理财税数据的方法、装置、介质和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180165769A1 (en) | System, device, method, and readable storage medium for issuing auto insurance investigation task | |
CN110264093B (zh) | 信用模型的建立方法、装置、设备及可读存储介质 | |
CN111813532A (zh) | 一种基于多任务机器学习模型的图像管理方法及装置 | |
CN112785005B (zh) | 多目标任务的辅助决策方法、装置、计算机设备及介质 | |
CN112529679A (zh) | 企业授信模型的构建方法、装置、设备及可读存储介质 | |
CN111476144B (zh) | 行人属性识别模型确定方法、装置及计算机可读存储介质 | |
CN112381236A (zh) | 联邦迁移学习的数据处理方法、装置、设备及存储介质 | |
CN112418443A (zh) | 基于迁移学习的数据处理方法、装置、设备及存储介质 | |
CN112990583A (zh) | 一种数据预测模型的入模特征确定方法及设备 | |
CN116228391A (zh) | 一种风险识别方法、装置、存储介质及电子设备 | |
CN112529699A (zh) | 企业授信模型的构建方法、装置、设备及可读存储介质 | |
CN114387089A (zh) | 客户信用风险评估方法、装置、设备及存储介质 | |
US20210365831A1 (en) | Identifying claim complexity by integrating supervised and unsupervised learning | |
CN115203194A (zh) | 一种元数据信息的生成方法、相关装置、设备及存储介质 | |
CN112418442A (zh) | 联邦迁移学习的数据处理方法、装置、设备及存储介质 | |
CN112418441A (zh) | 基于迁移学习的数据处理方法、装置、设备及存储介质 | |
US20200342302A1 (en) | Cognitive forecasting | |
CN112734568B (zh) | 信用评分卡模型构建方法、装置、设备及可读存储介质 | |
CN113420538B (zh) | 数值格式智能显示方法、设备终端及计算机可读存储介质 | |
CN116932553A (zh) | 尽职调查表单的构建方法、装置、设备及存储介质 | |
CN117710020B (zh) | 一种基于大数据的用户喜好的分析方法 | |
KR102313676B1 (ko) | 정보 보호 인증을 위한 프로젝트에 대한 정보를 수집하고 분석하기 위한 전자 장치 및 그 동작 방법 | |
US20230367780A1 (en) | Data enrichment using name, location, and image lookup | |
US20220261575A1 (en) | Prediction device, prediction method, prediction program | |
CN112669142A (zh) | 高维行为数据的建模方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210319 |