CN115131039B - 基于非线性降维的企业风险评估方法、计算机设备及存储介质 - Google Patents

基于非线性降维的企业风险评估方法、计算机设备及存储介质 Download PDF

Info

Publication number
CN115131039B
CN115131039B CN202210805969.0A CN202210805969A CN115131039B CN 115131039 B CN115131039 B CN 115131039B CN 202210805969 A CN202210805969 A CN 202210805969A CN 115131039 B CN115131039 B CN 115131039B
Authority
CN
China
Prior art keywords
enterprise
feature
risk
dimension
constructing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210805969.0A
Other languages
English (en)
Other versions
CN115131039A (zh
Inventor
张宏鑫
吴泓嘉
邹姗辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202210805969.0A priority Critical patent/CN115131039B/zh
Publication of CN115131039A publication Critical patent/CN115131039A/zh
Application granted granted Critical
Publication of CN115131039B publication Critical patent/CN115131039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Theoretical Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于非线性降维的企业风险评估方法,包括如下步骤:通过层次分析法构造层次模型,进而得到评估企业综合风险的关键维度;通过网络爬虫收集待评估企业相关数据,对数据进行处理,得到风险维度分数X;构造高斯混合模型GMM,对企业风险进行分类;使用t‑SNE对风险维度分数X进行降维,设定特征原语、基本值和运算操作,给定构造特征树的目标函数;构建企业风险评估的可视化系统,并提供用户交互接口;使用可视化系统探索数据并构造特征树,获得用于对分类结果进行解释的特征表达式。本发明可以结合专业人员的分析经验,有效地量化企业的经营健康程度,并提供多因素、可解释的企业风险评估结果。

Description

基于非线性降维的企业风险评估方法、计算机设备及存储介质
技术领域
本发明涉及风险评估技术领域,具体涉及一种基于非线性降维的企业风险评估方法与系统。
背景技术
对于企业外部人员,比如投资机构,投资人,咨询团队,政府部门等来说,评估一个企业的综合风险,包括企业法律风险、董监高人员风险、舆论风险、经营风险、信用风险,有利于避免决策失误。而通过企业间的横向比较,从数据中了解企业风险的一般规律,也有利于决策的制订。然而,现有的企业风险评估方法存在以下问题:
(1)目前市场上存在的企业查询分析软件往往聚焦于单个企业,对批量企业进行调研和深入分析是耗时耗力的,并且缺乏企业之间的横向比较,难以揭示企业风险的一般规律。
(2)基于经验的规则决策方法,如AHP[Saaty T L.What is the analytichierarchy process?[M].Mathematical models for decision support.Springer,Berlin,Heidelberg,1988:109-121.]、ANP[Saaty T L,Vargas L G.The analyticnetwork process[M].Decision making with the analytic networkprocess.Springer,Boston,MA,2013:1-40.]、DEMATEL[Si S L,You X Y,Liu H C,etal.DEMATEL Technique:A Systematic Review of the State-of-the-Art Literatureon Methodologies and Applications[J].Mathematical Problems in Engineering,2018,2018:1-33.]、粗糙集决策[Roman Sowiński,Greco S,Matarazzo B.Rough Sets inDecision Making[J].Springer New York,2015.]和模糊决策[Hong D H,Choi CH.Multicriteria fuzzy decision-making problems based on vague set theory[J].Fuzzy Sets&Systems,2000,114(1):103-113.]等,虽然能对复杂的企业风险决策问题提供针对性的经验规则,但是这些规则依赖于制定者本身,缺少数据支撑,不具有普适性,而且以决策结果为导向的粗粒度评估方式忽略了细节。
(3)基于数据驱动的机器学习方法,例如随机森林[Chen Y,Zheng W,Li W,etal.Large Group Activity Security Risk Assessment and Risk Early Warning Basedon Random Forest Algorithm[J].Pattern Recognition Letters,2021.],以及PCA,t-SNE[Laurens V D M,Hinton G.Visualizing Data using t-SNE[J].Journal of MachineLearning Research,2008,9(2605):2579-2605.],K-means等降维和聚类方法,虽然可以从企业高维数据中发掘潜在复杂特征、提高分析效率,但是缺乏对机器分析结果进行解释。而且,分析人员难以通过这些方法进行交互式数据探查,以从数据中发现问题。
因此需要一种针对大批量企业的综合性风险评估方法,高效、细粒度、多角度地量化企业状况,判断企业是否具有风险,提供可读的对于机器分析结果的解释,为决策提供依据。并且提供一个启发式、人机协同的、支持企业间的横向比较的可视化分析系统,帮助分析人员直观地探索数据,获得洞见。
发明内容
为了解决上述问题,本发明提出了一种基于非线性降维的企业风险评估方法,具体包括如下内容:
一种基于非线性降维的企业风险评估方法,包括以下步骤:
S1、通过层次分析法构造层次模型,进而得到评估企业综合风险的关键维度;
S2、通过网络爬虫收集待评估企业相关数据,对数据进行处理,得到风险维度分数X;
S3、构造高斯混合模型GMM,对企业风险进行分类;
S4、使用t-SNE对风险维度分数X进行降维,设定特征原语、基本值和运算操作,给定构造特征树的目标函数;
S5、构建企业风险评估的可视化系统,并提供用户交互接口;
S6、使用可视化系统探索数据并构造特征树,获得用于对分类结果进行解释的特征表达式。
进一步的,步骤S1具体包括:
S11、确定层次模型的结构,包括目标层、标准层和维度层;其中目标层为企业综合评估得分;标准层包括企业法律风险、董监高人员风险、舆论风险、经营风险和信用风险5个标准;维度层为标准层细分出来的多个风险维度;
S12、确定层次单排序和层次总排序,并进行一致性检验,得到维度层中评估企业综合风险的n个关键维度和维度层到目标层的归一化权重。
进一步的,步骤S2具体包括:
S21、通过爬虫技术从互联网中获取每个待评估企业的数据,包括n个风险维度的数据;
S22、对数据进行清洗,并将文本类型的数据进行数值化;
S23、使用分段函数将每个维度的数据映射为分数,获得风险维度分数X;
S24、使用所述归一化权重,对X加权平均,计算目标层企业综合评估得分。
进一步的,步骤S3具体包括:
S31、构造高斯混合模型GMM,拟合所述风险维度分数X,通过EM算法求解GMM中的参数;
S32、输入企业的风险维度分数,通过最大化后验概率,获得风险类别;
S33、将所述企业综合评估得分进行可视化,直观地考察GMM的分类结果。
进一步的,步骤S4具体包括:
S41、使用所述风险维度分数X训练t-SNE模型,得到企业在非线性降维空间中的坐标;
S42、选取n个风险维度中的若干个,设置为特征原语d;使用K-means在d所对应的维度上进行聚类,将这些维度划分为若干个不重叠的数值区域作为d的基本值v;
S43、设定三种二元运算操作∩,∪,-:
a∩b:=Na∩b=Na∩Nb={x|x∈Na or x∈Nb},
a∪b:=Na∪b=Na∪Nb={x|x∈Na and x∈Nb},
Figure BDA0003737304760000042
其中a,b为任意的特征原语,x为任意企业,Na,Nb分别为符合a,b所描述的的企业集合,定义为特征树的节点,特征原语加上基本值与这三种运算的组合为特征表达式;
S44、给定特征树的目标函数如下:
Figure BDA0003737304760000041
其中,
Figure BDA0003737304760000045
为特征树的根节点,根节点是符合特征原语
Figure BDA0003737304760000046
所描述的企业集合,
Figure BDA0003737304760000043
为损失函数,o为待求解的感兴趣企业的特征原语,|·|符号表示节点中的企业数量,λ为正则化系数,Height表示特征树的高度。
进一步的,步骤S5具体包括:
S51、设计特征原语视图,可视化层次模型的维度层及其权重;
S52、设计总体视图,在非线性降维分布展示t-SNE降维后的企业,每个点代表一家企业,用指定颜色编码企业分类结果,在特征原语量化中,通过平行坐标轴展示所述风险维度分数的分布;
S53、设计统计视图,量化值分布展示所述企业综合评估得分的分布,用指定颜色编码企业分类结果,次级量化值分布展示加权后标准层的分布;
S54、设计特征结构建模视图,可视化特征树。
进一步的,步骤S6具体包括:
S61、基于分析人员输入的企业编号和尺度阈值,计算特征树的目标节点;
S62、遍历所有特征原语和基本值,计算每两个特征原语∩,∪,-运算后的损失,推荐损失最小的特征原语与运算方式;
S63、基于推荐的特征原语与运算方式,迭代更新生成特征树根节点,并通过损失函数
Figure BDA0003737304760000044
计算目标节点与根节点之间的损失;
S64、当损失不再减少时,特征树构造完毕,当前特征树根节点对应用于对分类结果进行解释的特征表达式。
本发明还提供一种计算机设备,包括存储器和处理器,所述存储器和处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行前述的企业风险评估方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行前述的企业风险评估方法。
本发明的基于非线性降维的企业风险评估方法,其优点为:
(1)建立了一个新的层次模型,将复杂的企业风险评估问题分解成层次清晰的风险维度分数,多角度地量化企业的风险程度;
(2)提供无监督的风险企业分类方法,将企业分为正常与异常两个风险类别,判断企业是否具有风险;
(3)基于t-SNE非线性降维,本发明设计了一种新颖的构造特征建模法,通过特征表达式提供可读的对于机器分析结果的细粒度解释;
(4)设计了一套可视化系统,方便分析人员直观地探索与比较企业数据,并启发式地辅助用户构造特征树与输出相似企业。
附图说明
图1为本发明的基于非线性降维的企业风险评估方法实施例的步骤示意图。
图2为本发明的基于非线性降维的企业风险评估方法实施例的层次模型的结构。
图3(a)和图3(b)为本发明的基于非线性降维的企业风险评估方法实施例中高斯混合模型对企业进行分类前后的企业综合评估得分分布可视化示意图,图3(a)为分类前分布,图3(a)为分类后分布。
图4为本发明的基于非线性降维的企业风险评估方法实施例中所关注企业邻域的三层尺度。
图5为本发明的基于非线性降维的企业风险评估方法实施例中特征树和最终得到的特征表达式。
图6为本发明的基于非线性降维的企业风险评估方法实施例的可视化系统总览图,包括特征原语视图、总体视图、统计视图和特征结构建模视图。
图7是本发明实施例提出的一种计算机设备的硬件结构示意图。
具体实施方式
为了进一步理解本发明,下面结合实施例对本发明优选实施方案进行描述,但是应当理解,这些描述只是为进一步说明本发明的特征和优点,而不是对本发明权利要求的限制。
本发明提供了一种基于非线性降维的企业风险评估方法,如图1所示,在一示例性实施例中,其包括如下步骤:
第一步,通过层次分析法构造层次模型,进而得到评估企业综合风险的关键维度。
在一示例中,首先,确定包括目标层、标准层和维度层的层次模型,如图2所示。然后,确定层次单排序和层次总排序,分别构造判断矩阵进行一致性校验,得到28个评估企业综合风险的关键维度,以及维度层到目标层的归一化权重。
第二步,通过网络爬虫收集待评估企业相关数据,对数据进行处理,得到风险维度分数X。
在一示例中,上述过程包括:首先,整理企业名单,核对企业名称以及去除已经注销和吊销的企业。编写python爬虫工具,从企查查、微博等网站获取企业数据,每个企业的数据包括28个风险维度。然后,对数据中的NULL值或者NAN值补零。将企业描述、标签、舆论新闻等文本类型数据进行数值化。数值化过程包括:企业描述中含有理财、投资、区块链、教育机构、房地产等词语,将敏感行业维度的值设为1,否则为0;根据标签中含有经营异常和A级纳税人的企业,将对应维度设置为1;舆论新闻使用预训练过的BERT模型将文本情绪分为正、中立、负情绪,分别数值化为1,0,-1。将数值数据映射为分数数据,对数据进行规范化处理,这个过程,通过分段函数,将数据映射为具有可比性的分数数据,例如实缴注册资本比得分的分段函数为:
Figure BDA0003737304760000071
得到风险维度分数X。最后,对X加权平均,计算目标层企业综合评估得分。
第三步,构造高斯混合模型GMM,对企业风险进行分类。
在一示例中,上述过程包括:首先构造高斯混合模型,其概率密度函数pm(X),
Figure BDA0003737304760000072
其中,ai为混合系数,p(X|μi,∑i)为第i个高斯分布的概率密度函数,其参数为μi,∑i,通过EM算法求解参数aii,∑i。然后输入第j个企业的风险维度分数Xj与均匀先验分布,通过最大化后验概率p(c|Xj),得到第j个企业的风险类别cj,过程为:输入第j个企业的风险维度分数Xj,给定均匀先验分布,通过最大化后验概率p(c|Xj),得到第j个企业的风险类别,分类函数如下:
Figure BDA0003737304760000073
其中
Figure BDA0003737304760000074
是所有风险类别的集合。该步骤得到企业正常或者异常的风险类别。
然后将企业综合评估得分进行可视化,直观地考察GMM的分类结果。过程为:首先,给定一个EM算法初始值,对企业进行分类。然后,将企业分类结果通过企业综合评估得分进行可视化,来考察模型的分类结果。如果分类结果可以很好地将两个峰区分开,由图3(a)和图3(b)所示,则认为该分类结果效果最优,否则,重新给定EM算法的初始值,估计GMM模型参数。
第四步,使用t-SNE对风险维度分数X进行降维,设定特征原语、基本值和运算操作,给定构造特征树的目标函数。
在一示例中,上述过程包括:
1)使用经营情况维度分数训练t-SNE模型,得到企业在非线性降维空间中的坐标。
2)将对企业经营情况的描述定义为特征原语,用符号d表示。如果企业x的经营情况与d一致,则称企业x符合特征原语d。为了方便用户快速构造特征节点,选取28个评估企业综合风险的关键维度中权重最大的8个风险维度作为特征原语。使用K-means方法将企业在这8个维度上进行聚类,将每个维度划分为3个不重叠的数值区域作为每个特征原语的基本值v。特征原语用符号d_k_v(k=1,2,...,8,v=H,M,L)表示。其余非基本特征原语支持用户进行自定义,用符号sca_cus或para_cus表示。特征原语加上基本值可以对企业的风险进行描述,可以用于解释机器分类结果。
3)称符合特征原语d的企业的集合为特征树的节点,用Nd表示。特征树的根节点用
Figure BDA0003737304760000084
表示。如果企业x是Nd中的一个元素,则用x∈Nd表示。如果企业x不是Nd中的一个元素,则用
Figure BDA0003737304760000081
表示。定义特征原语的三种二元运算操作∩,∪,-,即对于任意特征原语a,b有:
a∩b:=Na∩b=Na∩Nb={x|x∈Na or x∈Nb},
a∪b:=Na∪b=Na∪Nb={x|x∈Na and x∈Nb},
Figure BDA0003737304760000082
其中Na,Nb分别为符合a,b所描述的的企业集合。特征原语加上基本值与∩,∪,-三种运算的组合为特征表达式。
4)基于上述定义,给定特征树的目标函数如下:
Figure BDA0003737304760000083
其中,
Figure BDA0003737304760000095
为特征树的根节点,根节点是符合特征原语
Figure BDA0003737304760000091
所描述的企业集合,特征原语o是待求解的感兴趣企业x的风险描述,|·|符号表示节点中的企业数量,λ为正则化系数,Height表示特征树的高度。特征原语o是未知的,通过对特征原语加上基本值进行运算组合,自下而上构造特征树,改变根节点,进而改变特征原语
Figure BDA0003737304760000092
使得损失函数
Figure BDA0003737304760000093
最小化,得到的
Figure BDA0003737304760000094
可以视为感兴趣企业x的风险描述。
第五步,构建企业风险评估的可视化系统,并提供用户交互接口,以进行探索不同细粒度企业信息和启发式地构造特征树,如图6所示。在一示例中,其过程为:
1)设计特征原语视图,对层次模型的维度层及其权重进行可视化,并且用户可以点击特征原语挑选需要展示的平行坐标轴和它们的排序。
2)设计总体视图,展示所有企业在非线性降维空间的分布以及在平行坐标轴上的分布。在非线性降维分布展示t-SNE降维后的企业,每个点代表一家企业,用绿色和红色编码企业分类结果。并且通过框选感兴趣的区域作为特征原语sca_cus,并通过单击右边的箭头按钮作为一个节点添加到特征树中。在特征原语量化中,通过平行坐标轴展示风险维度分数的分布。并且可以在平行坐标轴上框选一个或多个坐标轴的取值区域可以用作特征原语para_cus,添加为特征树的节点。
3)设计统计视图,量化值分布展示204中企业综合评估得分的分布,用绿色和红色编码企业分类结果。次级量化值分布展示加权后标准层的分布。直观地帮助用户考察的企业风险分类结果。
4)设计特征结构建模视图,提供特征原语与基本值的自动推荐,启发式地辅助用户构建特征树,对特征树进行可视化。并且提供企业输入框、相似特征企业输出、设置尺度阈值δ的交互接口。
第六步,使用可视化系统探索数据并构造特征树,获得用于对分类结果进行解释的特征表达式,以对企业风险分类结果进行细粒度解释。在一示例中,其过程为:
首先,分析人员在总体视图观察总体企业分布与分类,探索和比较企业数据,发掘感兴趣的企业。然后,分析人员输入感兴趣企业x,设置尺度阈值δ。如图4所示,系统将距离x小于δ的邻域内的全部企业U1作为目标节点No,即
Figure BDA0003737304760000101
其中lx,ly分别是非线性降维空间中企业x,y的坐标。在企业数量大于1000的情况下,系统自动采取加速方式,不将所有企业都用于构造特征树的节点,而是只保留距离x小于3δ的全部企业U2,即
Figure BDA0003737304760000102
将距离x大于3δ的全部企业U3,即
Figure BDA0003737304760000103
通过K-means聚为40个簇,使用40个簇的质心代替原先的企业,以对数据进行精简,如图4所示。然后,系统自动遍历所有特征原语和基本值,计算每两个特征原语∩,∪,-运算后的损失,推荐损失最小的前三个特征原语与运算方式。分析人员可以根据推荐或者结合自己的分析经验,挑选的特征原语与运算方式,系统自动获取对应的特征原语所描述的企业集合,生成特征树节点,经过多次选取与运算,特征树节点从下至上两两结合,当损失不再减少,这时特征树归为一个根节点,构造完毕。分析人员可以双击特征树根节点得到特征表达式。分析人员根据选取的特征原语对应的维度,可以解读特征表达式,获得输入企业的机器分析结果的解释。最后,分析人员根据需要,点击下载按钮输出相似企业,分析到达终点。
本发明一示例性实施例提出的一种计算机设备的硬件结构如图7所示,该设备包括一个或多个处理器410以及存储器420,存储器420包括持久内存、易失内存和硬盘,图7中以一个处理器410为例。该设备还可以包括:输入装置430和输出装置440。
处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接,图7中以通过总线连接为例。
处理器410可以为中央处理器(Central Processing Unit,CPU)。处理器410还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器420作为一种非暂态计算机可读存储介质,包括持久内存、易失内存和硬盘,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的业务管理方法对应的程序指令/模块。处理器410通过运行存储在存储器420中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述实施中的企业风险评估方法。
存储器420可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据、需要使用的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器420可选包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至数据处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。
一个或者多个模块存储在存储器420中,当被一个或者多个处理器410执行时,执行上述示例中的方法。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,具体可参见前述实施例中的相关描述。
本发明一示例性实施例还提供了一种非暂态计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述实施例中的企业风险评估方法。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (8)

1.一种基于非线性降维的企业风险评估方法,其特征在于,包括以下步骤:
S1、通过层次分析法构造层次模型,进而得到评估企业综合风险的关键维度;
S2、通过网络爬虫收集待评估企业相关数据,对数据进行处理,得到风险维度分数X;
S3、构造高斯混合模型GMM,对企业风险进行分类;
S4、使用t-SNE对风险维度分数X进行降维,设定特征原语、基本值和运算操作,给定构造特征树的目标函数,具体包括:
S41、使用所述风险维度分数X训练t-SNE模型,得到企业在非线性降维空间中的坐标;
S42、选取n个风险维度中的若干个,设置为特征原语d;使用K-means在d所对应的维度上进行聚类,将这些维度划分为若干个不重叠的数值区域作为d的基本值v;
S43、设定三种二元运算操作∩,∪,-:
a∩b:=Na∩b=Na∩Nb={x|x∈Na or x∈Nb},
a∪b:=Na∪b=Na∪Nb={x|x∈Na and x∈Nb},
Figure FDA0003958985900000011
其中a,b为任意的特征原语,x为任意企业,Na,Nb分别为符合a,b所描述的企业集合,定义为特征树的节点,特征原语加上基本值与这三种运算的组合为特征表达式;
S44、给定特征树的目标函数如下:
Figure FDA0003958985900000012
其中,
Figure FDA0003958985900000013
为特征树的根节点,根节点是符合特征原语
Figure FDA0003958985900000014
所描述的企业集合,
Figure FDA0003958985900000015
为损失函数,o为待求解的感兴趣企业的特征原语,|·|符号表示节点中的企业数量,λ为正则化系数,Height表示特征树的高度;
S5、构建企业风险评估的可视化系统,并提供用户交互接口;
S6、使用可视化系统探索数据并构造特征树,获得用于对分类结果进行解释的特征表达式。
2.根据权利要求1所述的基于非线性降维的企业风险评估方法,其特征在于,步骤S1具体包括:
S11、确定层次模型的结构,包括目标层、标准层和维度层;
S12、确定层次单排序和层次总排序,并进行一致性检验,得到维度层中n个关键维度和维度层到目标层的归一化权重。
3.根据权利要求2所述的基于非线性降维的企业风险评估方法,其特征在于,步骤S2具体包括:
S21、通过爬虫技术从互联网中获取每个待评估企业的数据,包括n个风险维度的数据;
S22、对数据进行清洗,并将文本类型的数据进行数值化;
S23、使用分段函数将每个维度的数据映射为分数,获得风险维度分数X;
S24、使用所述归一化权重,对X加权平均,计算目标层企业综合评估得分。
4.根据权利要求3所述的基于非线性降维的企业风险评估方法,其特征在于,步骤S3具体包括:
S31、构造高斯混合模型GMM,拟合所述风险维度分数X,通过EM算法求解GMM中的参数;
S32、输入企业的风险维度分数,通过最大化后验概率,获得风险类别;
S33、将所述企业综合评估得分进行可视化,直观地考察GMM的分类结果。
5.根据权利要求4所述的基于非线性降维的企业风险评估方法,其特征在于,步骤S5具体包括:
S51、设计特征原语视图,可视化层次模型的维度层及其权重;
S52、设计总体视图,在非线性降维分布展示t-SNE降维后的企业,每个点代表一家企业,用指定颜色编码企业分类结果,在特征原语量化中,通过平行坐标轴展示所述风险维度分数的分布;
S53、设计统计视图,量化值分布展示所述企业综合评估得分的分布,用指定颜色编码企业分类结果,次级量化值分布展示加权后标准层的分布;
S54、设计特征结构建模视图,可视化特征树。
6.根据权利要求5所述的基于非线性降维的企业风险评估方法,其特征在于,步骤S6具体包括:
S61、基于分析人员输入的企业编号和尺度阈值,计算特征树的目标节点;
S62、遍历所有特征原语和基本值,计算每两个特征原语∩,∪,-运算后的损失,推荐损失最小的特征原语与运算方式;
S63、基于推荐的特征原语与运算方式,迭代更新生成特征树根节点,并通过损失函数
Figure FDA0003958985900000031
计算目标节点与根节点之间的损失;
S64、当损失不再减少时,特征树构造完毕,当前特征树根节点对应用于对分类结果进行解释的特征表达式。
7.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器和处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-6中任一项所述的企业风险评估方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-6中任一项所述的企业风险评估方法。
CN202210805969.0A 2022-07-08 2022-07-08 基于非线性降维的企业风险评估方法、计算机设备及存储介质 Active CN115131039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210805969.0A CN115131039B (zh) 2022-07-08 2022-07-08 基于非线性降维的企业风险评估方法、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210805969.0A CN115131039B (zh) 2022-07-08 2022-07-08 基于非线性降维的企业风险评估方法、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN115131039A CN115131039A (zh) 2022-09-30
CN115131039B true CN115131039B (zh) 2023-04-07

Family

ID=83382543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210805969.0A Active CN115131039B (zh) 2022-07-08 2022-07-08 基于非线性降维的企业风险评估方法、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN115131039B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117829600A (zh) * 2023-12-29 2024-04-05 浙江大学 基于交互可视分析的风险企业规则模型构建与查询方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114266455A (zh) * 2021-12-13 2022-04-01 国网雄安金融科技集团有限公司 一种基于知识图谱的可视化企业风险评估方法
CN113947336A (zh) * 2021-12-20 2022-01-18 远光软件股份有限公司 评估投标企业风险的方法、装置、存储介质及计算机设备
CN114519519A (zh) * 2022-02-16 2022-05-20 天元大数据信用管理有限公司 基于gbdt算法与逻辑回归模型的企业违约风险评估方法设备及介质

Also Published As

Publication number Publication date
CN115131039A (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
EP3985578A1 (en) Method and system for automatically training machine learning model
Lin et al. Evaluation of CART, CHAID, and QUEST algorithms: a case study of construction defects in Taiwan
CN109657947B (zh) 一种面向企业行业分类的异常检测方法
Flood et al. The application of visual analytics to financial stability monitoring
Keramati et al. A proposed classification of data mining techniques in credit scoring
US6951008B2 (en) Evidential reasoning system and method
Sarlin Macroprudential oversight, risk communication and visualization
Li et al. Cluster analysis of the relationship between carbon dioxide emissions and economic growth
CN111738843B (zh) 一种使用流水数据的量化风险评价系统和方法
CN113344700A (zh) 一种基于多目标优化的风控模型构建方法、装置和电子设备
CN114266455A (zh) 一种基于知识图谱的可视化企业风险评估方法
CN115563297A (zh) 一种基于图神经网络的食品安全知识图谱构建与补全方法
CN115131039B (zh) 基于非线性降维的企业风险评估方法、计算机设备及存储介质
CN113704389A (zh) 一种数据评估方法、装置、计算机设备及存储介质
Sarantitis et al. A network analysis of the United Kingdom’s consumer price index
Ocampo Fuzzy analytic network process (FANP) approach in formulating infrastructural decisions of sustainable manufacturing strategy
CN114817681A (zh) 一种基于大数据分析的金融风控系统及其管理设备
US20020184140A1 (en) Computerized method for determining a credit line
Sarkar et al. An integrated approach using growing self-organizing map-based genetic K-means clustering and tolerance rough set in occupational risk analysis
CN116629904A (zh) 一种基于大数据的客户分层匹配方法
CN108304568A (zh) 一种房地产公众预期大数据处理方法及系统
Liu et al. RETRACTED ARTICLE: Company financial path analysis using fuzzy c-means and its application in financial failure prediction
Hogo The design of academic programs using rough set association rule mining
JP3452308B2 (ja) データ分析装置
CN108629507A (zh) 一种企业信用管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant