CN114519529A - 基于卷积自编码器的企业信用评级方法、设备及介质 - Google Patents

基于卷积自编码器的企业信用评级方法、设备及介质 Download PDF

Info

Publication number
CN114519529A
CN114519529A CN202210158895.6A CN202210158895A CN114519529A CN 114519529 A CN114519529 A CN 114519529A CN 202210158895 A CN202210158895 A CN 202210158895A CN 114519529 A CN114519529 A CN 114519529A
Authority
CN
China
Prior art keywords
fields
enterprise
data
encoder
entering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210158895.6A
Other languages
English (en)
Inventor
陈晨
崔乐乐
杨宝华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyuan Big Data Credit Management Co Ltd
Original Assignee
Tianyuan Big Data Credit Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyuan Big Data Credit Management Co Ltd filed Critical Tianyuan Big Data Credit Management Co Ltd
Priority to CN202210158895.6A priority Critical patent/CN114519529A/zh
Publication of CN114519529A publication Critical patent/CN114519529A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Educational Administration (AREA)
  • Technology Law (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了基于卷积自编码器的企业信用评级方法、设备及介质,方法包括:获取企业画像维度表,并根据企业画像维度表中包含的各预设字段进行数据采集,得到对应的多条企业数据;对企业数据进行数据选取以及数据清洗处理,得到入模字段以及对应的入模企业数据;根据入模字段,将对应的入模企业数据分别输入至基于卷积自编码器的网络模型,得到与入模字段分别对应的重构数据;根据入模字段,将对应的重构数据分别进行预设次数的K‑means聚类,得到对应的聚类结果,并根据聚类结果确定企业信用评级。通过结合卷积自编码器以及K‑means算法,进行深度学习分析,进而得到企业信用评级,有利于建立对企业的初步认知,建立对企业经营和发展状况风险点的全面把控。

Description

基于卷积自编码器的企业信用评级方法、设备及介质
技术领域
本申请涉及机器学习技术领域,具体涉及一种基于卷积自编码器的企业信用评级方法、设备及介质。
背景技术
随着大数据、机器学习以及人工智能等技术的发展,传统的金融运营服务模式也随之发生了很大的变化。随着互联网金融的迅速发展,对各类企业的金融大数据进行风险评估或信用评级变的日益重要。
通过金融大数据对企业进行全方位的解读有利于银行或其他金融机构建立对企业的初步认知,以及建立对企业经营和发展状况风险点的全面把控,方便银行或其他金融机构对企业进行相应的贷款或调息操作。而如何将机器学习、人工智能技术与金融大数据进行相结合,从而构建相应的企业信用评级模型,则是亟待解决的问题。
发明内容
为了解决上述问题,本申请提出了基于卷积自编码器的企业信用评级方法、设备及介质,包括:
第一方面,本申请提出了基于卷积自编码器的企业信用评级方法,包括:获取企业画像维度表,并根据所述企业画像维度表中包含的各预设字段进行数据采集,得到对应的多条企业数据;对所述企业数据进行数据选取以及数据清洗处理,得到入模字段以及对应的入模企业数据;根据所述入模字段,将对应的所述入模企业数据分别输入至基于卷积自编码器的网络模型,得到与所述入模字段分别对应的重构数据;根据所述入模字段,将对应的所述重构数据分别进行预设次数的K-means聚类,得到对应的聚类结果,并根据所述聚类结果确定企业信用评级。
在一个示例中,对所述企业数据进行数据选取以及数据清洗处理,得到入模字段以及对应的入模企业数据,具体包括:根据所述预设字段以及对应多条所述企业数据,将缺失值大于第一预设阈值的所述企业数据以及对应的所述预设字段进行删除处理,得到删除后的字段,以及与所述删除后的字段对应的删除后的企业数据;在所述删除后的字段中,根据预存的选取规则选取预设数量的字段以及对应的企业数据,得到清洗后的字段,以及与所述清洗后的字段对应的清洗后的企业数据。
在一个示例中,在所述删除后的字段中,根据预存的选取规则选取预设数量的字段以及对应的企业数据,得到清洗后的字段,以及与所述清洗后的字段对应的清洗后的企业数据之后,所述方法还包括:在所述清洗后的字段中选取相关性大于第二预设阈值的多个字段,并在所述相关性大于第二预设阈值的多个字段中选取对应的企业数据最多的字段进行保留,其余字段及对应的企业数据进行删除;在剩余字段中,确定缺失值大于第三预设阈值的企业数据对应的字段,并将所述缺失值大于第三预设阈值的企业数据进行均值处理,并补充至对应的字段;得到入模字段以及对应的入模企业数据。
在一个示例中,在所述删除后的字段中,根据预存的选取规则选取预设数量的字段以及对应的企业数据,得到清洗后的字段,以及与所述清洗后的字段对应的清洗后的企业数据,具体包括:在所述删除后的字段中选取相关性大于第四预设阈值的多个字段,并在所述相关性大于第四预设阈值的多个字段中选取对应的企业数据最多的字段进行保留,其余字段及对应的企业数据进行删除;在所述删除后的字段中,筛选得到第一预设数量的次数字段,所述次数字段为,反映统计次数的字段;在所述删除后的字段中,筛选得到第二预设数量的时间字段,所述时间字段为,反映最远或最近时间的字段;在所述删除后的字段中,筛选得到第三预设数量的数值字段,所述数值字段为,反映需要进行数值运算的字段;在所述删除后的字段中,筛选得到第四预设数量的简单字段,所述简单字段为,反映无需进行数值运算的字段;得到清洗后的字段,以及与所述清洗后的字段对应的清洗后的企业数据。
在一个示例中,根据所述入模字段,将对应的所述入模企业数据分别输入至基于卷积自编码器的网络模型,得到与所述入模字段分别对应的重构数据之前,所述方法还包括:根据所述入模字段,将对应的所述入模企业数据分别输入至待训练的基于卷积自编码器的网络模型进行训练;根据训练结果,对所述待训练的基于卷积自编码器的网络模型进行参数调整;重复训练,直至所述待训练的卷积自编码器的网络模型的输出结果与输入的所述入模企业数据之间的均方误差小于第五预设阈值;得到基于卷积自编码器的网络模型。
在一个示例中,根据训练结果,对所述待训练的基于卷积自编码器的网络模型进行参数调整,具体包括:对所述待训练的基于卷积自编码器的网络模型的学习率、网络结构以及feature map对应的数值进行调整。
在一个示例中,根据所述入模字段,将对应的所述重构数据分别进行预设次数的K-means聚类,得到对应的聚类结果,并根据所述聚类结果确定企业信用评级,具体包括:根据所述入模字段,将对应的所述重构数据分别进行预设次数的K-means聚类,得到对应的聚类结果,所述聚类结果包括:聚簇标号、与所述聚簇标号对应的中心值;确定中心值最大的聚簇标号,以及与所述聚簇标号对应的入模字段,并将所述中心值最大的聚簇标号作为对应的入模字段的评价参数。
在一个示例中,确定中心值最大的聚簇标号,以及与所述聚簇标号对应的入模字段,并将所述中心值最大的聚簇标号作为对应的入模字段的评价参数之后,所述方法还包括:根据所述入模字段,得到分别对应的评价参数,并通过评级算法对所述分别对应的评价参数进行计算,以得到企业信用评级。
另一方面,本申请还提出了基于卷积自编码器的企业信用评级设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如下指令:获取企业画像维度表,并根据所述企业画像维度表中包含的各预设字段进行数据采集,得到对应的多条企业数据;对所述企业数据进行数据选取以及数据清洗处理,得到入模字段以及对应的入模企业数据;根据所述入模字段,将对应的所述入模企业数据分别输入至基于卷积自编码器的网络模型,得到与所述入模字段分别对应的重构数据;根据所述入模字段,将对应的所述重构数据分别进行预设次数的K-means聚类,得到对应的聚类结果,并根据所述聚类结果确定企业信用评级。
另一方面,本申请还提出了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:获取企业画像维度表,并根据所述企业画像维度表中包含的各预设字段进行数据采集,得到对应的多条企业数据;对所述企业数据进行数据选取以及数据清洗处理,得到入模字段以及对应的入模企业数据;根据所述入模字段,将对应的所述入模企业数据分别输入至基于卷积自编码器的网络模型,得到与所述入模字段分别对应的重构数据;根据所述入模字段,将对应的所述重构数据分别进行预设次数的K-means聚类,得到对应的聚类结果,并根据所述聚类结果确定企业信用评级。
通过本申请提出的基于卷积自编码器的企业信用评级方法、设备及介质能够带来如下有益效果:通过结合卷积自编码器以及K-means算法,对企业的各类字段进行深度学习以及深入分析,进而得到对应的企业信用评级,有利于银行或其他金融机构建立对企业的初步认知,以及建立对企业经营和发展状况风险点的全面把控,方便银行或其他金融机构对企业进行相应的贷款或调息操作。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中基于卷积自编码器的企业信用评级方法的流程示意图;
图2(a)为本申请实施例中重构数据的第一次K-means聚类示意图;
图2(b)为本申请实施例中重构数据的第二次K-means聚类示意图;
图2(c)为本申请实施例中重构数据的第三次K-means聚类示意图;
图2(d)为本申请实施例中重构数据的第四次K-means聚类示意图;
图2(e)为本申请实施例中重构数据的第五次K-means聚类示意图;
图3为本申请实施例中基于卷积自编码器的企业信用评级设备的示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先需要说明的是,本申请记载的基于卷积自编码器的企业信用评级方法,可以以程序或算法的形式存储在相应的终端中,为支持该系统的正常运行,终端内应该具备相应的硬件,例如处理器、存储器、通讯模块等,进而实现对系统,也即上述程序以及算法的支持。此外,终端还可以与远端服务器进行交互,通过利用远端服务器的硬件以及相应算力,以实现与上述相同的功能。此外,终端的形式包括但不限于:个人计算机、智能手机、平板电脑或其他具备相应功能的终端设备。用户可以通过系统本身、APP或WEB网页等形式来登录该系统,以实现对系统中的相应功能进行控制、调配以及监控。
以下结合附图,详细说明本申请各实施例提供的技术方案。
如图1所示,本申请实施例提供的基于卷积自编码器的企业信用评级方法,包括:
S101:获取企业画像维度表,并根据所述企业画像维度表中包含的各预设字段进行数据采集,得到对应的多条企业数据。
具体地,针对不同的企业,可以设置有不同的企业画像维度表,企业画像维度表可以预存在于系统进行交互的存储器或数据库中,系统即可以调取存储器或数据库中的企业画像维度表。
在本申请实施例中,企业画像维度表可以包括:企业背景、企业稳定性、经营能力、企业信誉度、司法风险、经营风险、企业增信、信用风险以及科技创新能力等维度。
同时,企业背景包括但不限于以下预设字段:注册资本、从业人数、成立日期、企业类型、企业类别、行业类别、营业时间、邮政编码。
企业稳定性包括但不限于以下预设字段:企业变更次数、股权变更次数。
经营能力包括但不限于以下预设字段:网店个数、企业分支机构数、企业投资次数、对外担保次数、对外投资次数、企业中标次数、招聘记录条数。
企业信誉度包括但不限于以下预设字段:企业参保时长、单位单价事业保险累计欠缴金额、单位参加职工基本医疗保险累计欠缴金额、单位参加工伤保险累计欠缴金额、单位参加城镇职工基本养老保险累计欠缴金额、单位参加生育保险累计欠缴金额、企业产品被抽查的合格率。
司法风险包括但不限于以下预设字段:起诉数量、被诉数量、诉讼金额标的。
经营风险包括但不限于以下预设字段:是否列入经营异常、企业是否存在行政处罚记录、企业股权出质记录数、企业累计欠税额、公司是否有个人行政处罚。
企业增信包括但不限于以下预设字段:是否列为驰名商标、是否列为著名商标、是否列为守合同重信用企业、是否属于当地鼓励政策名单。
信用风险包括但不限于以下预设字段:是否列入失信黑名单、是否为工商部失信企业。
科技创新能力包括但不限于以下预设字段:企业软件著作权登记次数、企业专利申请次数、企业是否用于域名的知识产权。
进而,系统即可根据上述各预设字段进行数据采集,采集方式包括但不限于:对应官方网址的查询、互联网关键词搜索并爬取、电话问询等。
进而,系统即可以得到与各预设字段对应的多条企业数据。
S102:对所述企业数据进行数据选取以及数据清洗处理,得到入模字段以及对应的入模企业数据。
具体地,系统根据预设字段以及对应的多条企业数据,将缺失值大于第一预设阈值的企业数据以及对应的预设字段进行删除处理,得到删除后的字段,以及与删除后的字段对应的删除后的企业数据。
进而,系统在删除后的字段中,根据预存的选取规则选取预设数量的字段以及对应的企业数据,得到清洗后的字段,以及与清洗后的字段对应的清洗后的企业数据。
上述通过选取规则进行字段选取,具体包括:在删除后的字段中选取相关性大于第四预设阈值的多个字段,并在相关性大于第四预设阈值的多个字段中选取对应的企业数据最多的字段进行保留,其余字段及对应的企业数据进行删除。
需要说明的是,此处的相关性即可通过系统中的语义识别算法进行识别,在多个字段存在大于第四预设阈值的相关性时,说明其语义十分相似,能够反映的数据也相似,因此无需对多个字段进行全部保留,进保留存在企业数据最多的字段即可。
进而,系统在删除后的字段中,筛选得到第一预设数量的次数字段,次数字段为,反映统计次数的字段。例如,起诉数量字段对应的企业数据为10,该起诉数量字段即次数字段。
进而,系统在删除后的字段中,筛选得到第二预设数量的时间字段,时间字段为,反映最远或最近时间的字段。例如,营业时间字段对应的企业数据为3,该营业时间字段即时间字段。
进而,系统在删除后的字段中,筛选得到第三预设数量的数值字段,数值字段为,反映需要进行数值运算的字段。例如,邮政编码字段对应的企业数据为250002,而该数据对应的数值过大,难以直接作为入模企业数据,因此需要进行相应的计算,例如将250002除以100000,并取小数作为入模企业数据。此处需要进行简单计算处理的字段即数值字段。还需要说明的是,选取得到的数值字段需要根据该字段对应的运算规则进行相应运算后,再作为最终的企业数据。
进而,系统在删除后的字段中,筛选得到第四预设数量的简单字段,简单字段为,反映无需进行数值运算的字段。也即,与上述数值字段不同的,无需进行运算的字段。
还需要说明的是,系统在删除的字段中进行的筛选或选取的过程,选取后的字段即从原删除的字段中进行再次删除,以避免同一个字段被选取多次的情况出现。
通过上述技术方案,即可得到清洗后的字段,以及与清洗后的字段对应的清洗后的企业数据。通过数据清洗,即可保障选取得到的字段以及企业数据具备更好的代表性以及特征性。
此外,系统在删除后的字段中,根据预存的选取规则选取预设数量的字段以及对应的企业数据,得到清洗后的字段,以及与清洗后的字段对应的清洗后的企业数据之后,系统还可以:
系统在清洗后的字段中选取相关性大于第二预设阈值的多个字段,并在相关性大于第二预设阈值的多个字段中选取对应的企业数据最多的字段进行保留,其余字段及对应的企业数据进行删除。
需要说明的是,此处的相关性选取与上述技术方案类似,具体实现方式在此不再赘述,同时,由于此处为第二次相关性选取,因此,第二预设阈值小于上述第四预设阈值,即第二次选取的相关性与上文中的相关性相比更小,有利于更加精简数据。
进而,系统在剩余字段中,确定缺失值大于第三预设阈值的企业数据对应的字段,并将缺失值大于第三预设阈值的企业数据进行均值处理,并补充至对应的字段。
此外,还需要说明的是,系统在进行数据采集的过程中,可能采集到的某些企业数据不存在对应的预设字段,此时系统即可以根据该企业数据以及该企业数据的网页说明,构建新的字段,例如邮政编码。
进而,在本申请实施例中,通过上述数据选取以及数据清洗处理,最终可以得到十二个入模字段,如下表所示:
Figure BDA0003513528480000091
需要说明的是,上表中的字段描述与入模字段的顺序为一一对应,在下文中得到的最终聚类结果中,会通过与此处相同的字段描述进行结果展示。
S103:根据所述入模字段,将对应的所述入模企业数据分别输入至基于卷积自编码器的网络模型,得到与所述入模字段分别对应的重构数据。
具体的,在这之前,系统还需要训练得到基于卷积自编码器的网络模型。
具体包括:
系统根据入模字段,将对应的入模企业数据分别输入至待训练的基于卷积自编码器的网络模型进行训练。
进而,系统根据训练结果,对待训练的基于卷积自编码器的网络模型进行参数调整。
参数调整具体包括:对待训练的基于卷积自编码器的网络模型的学习率、网络结构以及feature map对应的数值进行调整。
进而,重复训练,直至待训练的卷积自编码器的网络模型的输出结果与输入的入模企业数据之间的均方误差小于第五预设阈值。
进而,系统得到基于卷积自编码器的网络模型。
S104:根据所述入模字段,将对应的所述重构数据分别进行预设次数的K-means聚类,得到对应的聚类结果,并根据所述聚类结果确定企业信用评级。
具体地,如图2(a)-图2(e)所示,在本申请实施例中,将企业注册资本字段对应的重构数据进行连续五次K-means聚类,得到对应的聚类结果,即图2(e)作为最终的聚类结果,并采集对应的数值数据。
进而,将所有入模字段分别对应的重构数据分别进行五次K-means聚类,得到如下表所示的聚类结果。
Figure BDA0003513528480000101
Figure BDA0003513528480000111
进而,系统得到聚类结果,聚类结果包括:聚簇标号、与聚簇标号对应的中心值。
需要说明的是,上表中的0、1、2即三个聚簇标号,聚簇标号下方的数值即中心值。
进而,系统确定中心值最大的聚簇标号,以及与聚簇标号对应的入模字段,并将中心值最大的聚簇标号作为对应的入模字段的评价参数。
例如,上述表格中的RECGAP对应的入模字段为注册资本,而在该RECGAP对应的聚簇中,中心值最大的值为0.40378964,与0.40378964对应的聚簇标号为2,此时2即作为该入模字段,也即注册资本的评价参数。
进而,系统根据入模字段,得到分别对应的评价参数,并通过评级算法对分别对应的评价参数进行计算,以得到企业信用评级。
在本申请实施例中,当最大中心值出现在1簇中,说明该入模字段对应的企业的信用评级较高,当最大中心值出现在0簇中,说明该入模字段对应的企业的信用评级中等,当最大中心值出现在2簇中,说明该入模字段对应的企业的信用评级较差。
此外,评级算法即可以通过对多个评价参数进行累加或添加系数进行相应计算,以得到企业最终综合的信用评级。
在一个实施例中,如图3所示,本申请还提供了基于卷积自编码器的企业信用评级设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如下指令:
获取企业画像维度表,并根据所述企业画像维度表中包含的各预设字段进行数据采集,得到对应的多条企业数据;
对所述企业数据进行数据选取以及数据清洗处理,得到入模字段以及对应的入模企业数据;
根据所述入模字段,将对应的所述入模企业数据分别输入至基于卷积自编码器的网络模型,得到与所述入模字段分别对应的重构数据;
根据所述入模字段,将对应的所述重构数据分别进行预设次数的K-means聚类,得到对应的聚类结果,并根据所述聚类结果确定企业信用评级。
在一个实施例中,本申请还提供了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
获取企业画像维度表,并根据所述企业画像维度表中包含的各预设字段进行数据采集,得到对应的多条企业数据;
对所述企业数据进行数据选取以及数据清洗处理,得到入模字段以及对应的入模企业数据;
根据所述入模字段,将对应的所述入模企业数据分别输入至基于卷积自编码器的网络模型,得到与所述入模字段分别对应的重构数据;
根据所述入模字段,将对应的所述重构数据分别进行预设次数的K-means聚类,得到对应的聚类结果,并根据所述聚类结果确定企业信用评级。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备和介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的设备和介质与方法是一一对应的,因此,设备和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述设备和介质的有益技术效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.基于卷积自编码器的企业信用评级方法,其特征在于,包括:
获取企业画像维度表,并根据所述企业画像维度表中包含的各预设字段进行数据采集,得到对应的多条企业数据;
对所述企业数据进行数据选取以及数据清洗处理,得到入模字段以及对应的入模企业数据;
根据所述入模字段,将对应的所述入模企业数据分别输入至基于卷积自编码器的网络模型,得到与所述入模字段分别对应的重构数据;
根据所述入模字段,将对应的所述重构数据分别进行预设次数的K-means聚类,得到对应的聚类结果,并根据所述聚类结果确定企业信用评级。
2.根据权利要求1所述的基于卷积自编码器的企业信用评级方法,其特征在于,对所述企业数据进行数据选取以及数据清洗处理,得到入模字段以及对应的入模企业数据,具体包括:
根据所述预设字段以及对应多条所述企业数据,将缺失值大于第一预设阈值的所述企业数据以及对应的所述预设字段进行删除处理,得到删除后的字段,以及与所述删除后的字段对应的删除后的企业数据;
在所述删除后的字段中,根据预存的选取规则选取预设数量的字段以及对应的企业数据,得到清洗后的字段,以及与所述清洗后的字段对应的清洗后的企业数据。
3.根据权利要求2所述的基于卷积自编码器的企业信用评级方法,其特征在于,在所述删除后的字段中,根据预存的选取规则选取预设数量的字段以及对应的企业数据,得到清洗后的字段,以及与所述清洗后的字段对应的清洗后的企业数据之后,所述方法还包括:
在所述清洗后的字段中选取相关性大于第二预设阈值的多个字段,并在所述相关性大于第二预设阈值的多个字段中选取对应的企业数据最多的字段进行保留,其余字段及对应的企业数据进行删除;
在剩余字段中,确定缺失值大于第三预设阈值的企业数据对应的字段,并将所述缺失值大于第三预设阈值的企业数据进行均值处理,并补充至对应的字段;
得到入模字段以及对应的入模企业数据。
4.根据权利要求2所述的基于卷积自编码器的企业信用评级方法,其特征在于,在所述删除后的字段中,根据预存的选取规则选取预设数量的字段以及对应的企业数据,得到清洗后的字段,以及与所述清洗后的字段对应的清洗后的企业数据,具体包括:
在所述删除后的字段中选取相关性大于第四预设阈值的多个字段,并在所述相关性大于第四预设阈值的多个字段中选取对应的企业数据最多的字段进行保留,其余字段及对应的企业数据进行删除;
在所述删除后的字段中,筛选得到第一预设数量的次数字段,所述次数字段为,反映统计次数的字段;
在所述删除后的字段中,筛选得到第二预设数量的时间字段,所述时间字段为,反映最远或最近时间的字段;
在所述删除后的字段中,筛选得到第三预设数量的数值字段,所述数值字段为,反映需要进行数值运算的字段;
在所述删除后的字段中,筛选得到第四预设数量的简单字段,所述简单字段为,反映无需进行数值运算的字段;
得到清洗后的字段,以及与所述清洗后的字段对应的清洗后的企业数据。
5.根据权利要求1所述的基于卷积自编码器的企业信用评级方法,其特征在于,根据所述入模字段,将对应的所述入模企业数据分别输入至基于卷积自编码器的网络模型,得到与所述入模字段分别对应的重构数据之前,所述方法还包括:
根据所述入模字段,将对应的所述入模企业数据分别输入至待训练的基于卷积自编码器的网络模型进行训练;
根据训练结果,对所述待训练的基于卷积自编码器的网络模型进行参数调整;
重复训练,直至所述待训练的卷积自编码器的网络模型的输出结果与输入的所述入模企业数据之间的均方误差小于第五预设阈值;
得到基于卷积自编码器的网络模型。
6.根据权利要求5所述的基于卷积自编码器的企业信用评级方法,其特征在于,根据训练结果,对所述待训练的基于卷积自编码器的网络模型进行参数调整,具体包括:
对所述待训练的基于卷积自编码器的网络模型的学习率、网络结构以及feature map对应的数值进行调整。
7.根据权利要求1所述的基于卷积自编码器的企业信用评级方法,其特征在于,根据所述入模字段,将对应的所述重构数据分别进行预设次数的K-means聚类,得到对应的聚类结果,并根据所述聚类结果确定企业信用评级,具体包括:
根据所述入模字段,将对应的所述重构数据分别进行预设次数的K-means聚类,得到对应的聚类结果,所述聚类结果包括:聚簇标号、与所述聚簇标号对应的中心值;
确定中心值最大的聚簇标号,以及与所述聚簇标号对应的入模字段,并将所述中心值最大的聚簇标号作为对应的入模字段的评价参数。
8.根据权利要求7所述的基于卷积自编码器的企业信用评级方法,其特征在于,确定中心值最大的聚簇标号,以及与所述聚簇标号对应的入模字段,并将所述中心值最大的聚簇标号作为对应的入模字段的评价参数之后,所述方法还包括:
根据所述入模字段,得到分别对应的评价参数,并通过评级算法对所述分别对应的评价参数进行计算,以得到企业信用评级。
9.基于卷积自编码器的企业信用评级设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如下指令:
获取企业画像维度表,并根据所述企业画像维度表中包含的各预设字段进行数据采集,得到对应的多条企业数据;
对所述企业数据进行数据选取以及数据清洗处理,得到入模字段以及对应的入模企业数据;
根据所述入模字段,将对应的所述入模企业数据分别输入至基于卷积自编码器的网络模型,得到与所述入模字段分别对应的重构数据;
根据所述入模字段,将对应的所述重构数据分别进行预设次数的K-means聚类,得到对应的聚类结果,并根据所述聚类结果确定企业信用评级。
10.一种非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:
获取企业画像维度表,并根据所述企业画像维度表中包含的各预设字段进行数据采集,得到对应的多条企业数据;
对所述企业数据进行数据选取以及数据清洗处理,得到入模字段以及对应的入模企业数据;
根据所述入模字段,将对应的所述入模企业数据分别输入至基于卷积自编码器的网络模型,得到与所述入模字段分别对应的重构数据;
根据所述入模字段,将对应的所述重构数据分别进行预设次数的K-means聚类,得到对应的聚类结果,并根据所述聚类结果确定企业信用评级。
CN202210158895.6A 2022-02-21 2022-02-21 基于卷积自编码器的企业信用评级方法、设备及介质 Pending CN114519529A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210158895.6A CN114519529A (zh) 2022-02-21 2022-02-21 基于卷积自编码器的企业信用评级方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210158895.6A CN114519529A (zh) 2022-02-21 2022-02-21 基于卷积自编码器的企业信用评级方法、设备及介质

Publications (1)

Publication Number Publication Date
CN114519529A true CN114519529A (zh) 2022-05-20

Family

ID=81599854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210158895.6A Pending CN114519529A (zh) 2022-02-21 2022-02-21 基于卷积自编码器的企业信用评级方法、设备及介质

Country Status (1)

Country Link
CN (1) CN114519529A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151867A (zh) * 2023-09-20 2023-12-01 江苏数诚信息技术有限公司 一种基于大数据的企业异常识别方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151867A (zh) * 2023-09-20 2023-12-01 江苏数诚信息技术有限公司 一种基于大数据的企业异常识别方法及系统
CN117151867B (zh) * 2023-09-20 2024-04-30 江苏数诚信息技术有限公司 一种基于大数据的企业异常识别方法及系统

Similar Documents

Publication Publication Date Title
Mota et al. Determinants of the capital structure of Portuguese firms with investments in Angola
CN109472646A (zh) 一种金融产品推荐方法及装置
Mueller et al. Measuring and mapping the emergence of the digital economy: a comparison of the market capitalization in selected countries
CN107688645B (zh) 一种保单数据处理方法及终端设备
CN104866484A (zh) 一种数据处理方法和装置
Yu et al. On some models for value-at-risk
Ye et al. Internet big data and capital markets: a literature review
Wang et al. Data-driven prediction of contract failure of public-private partnership projects
Alexander et al. Research challenges in financial data modeling and analysis
JP2022096632A (ja) コンピュータ実装方法、コンピュータシステムおよびコンピュータプログラム(データ属性に基づくデータセットのランク付け)
Laborda et al. An endogenous approach to the cyclicality of R&D investment under credit constraints: firms’ cash flow matters!
CN114519529A (zh) 基于卷积自编码器的企业信用评级方法、设备及介质
JP6978582B2 (ja) 予測業務支援装置および予測業務支援方法
CN102496126A (zh) 一种托管资产交易数据监控设备
US20210133171A1 (en) Computer-based data collection, management, and forecasting
CN111882113B (zh) 一种企业手机银行用户的预测方法和装置
Petris et al. Bubble tests in the London housing market: A borough level analysis
US10872376B2 (en) Systems and computer-implemented processes for occupational risk assessment
Pasayat et al. Determination of essential features for predicting start-up success: an empirical approach using machine learning
US20210407010A1 (en) System and method for providing investment information
CN108874762A (zh) 一种投资研究报告在线显示系统和方法
Thakkar et al. Complex Proportion Assessment Method (COPRAS)
Retrialisca et al. The maturity measurement of big data adoption in manufacturing companies using the TDWI maturity model
CN111882417A (zh) 一种财务分析方法及装置
Kadiri ROLES OF INFORMATION TECHNOLOGY IN THE MANAGEMENT OF SMALL AND MEDIUM SCALE ENTERPRISES IN ILORIN METROPOLIS

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination