CN113705909A - 基于预测模型的风险等级预测方法、装置与存储介质 - Google Patents
基于预测模型的风险等级预测方法、装置与存储介质 Download PDFInfo
- Publication number
- CN113705909A CN113705909A CN202111016463.3A CN202111016463A CN113705909A CN 113705909 A CN113705909 A CN 113705909A CN 202111016463 A CN202111016463 A CN 202111016463A CN 113705909 A CN113705909 A CN 113705909A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- guarantee
- application
- risk level
- enterprises
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Finance (AREA)
- Databases & Information Systems (AREA)
- Accounting & Taxation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Technology Law (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及人工智能技术领域,本申请提供一种基于预测模型的风险等级预测方法、装置与存储介质,基于预测模型的风险等级预测方法包括:确定申请贷款的申请企业和为申请企业提供担保的担保企业;从至少一个担保圈中遍历申请企业和担保企业,获得担保圈命中结果,担保圈命中结果用于指示申请企业和担保企业是否在同一个担保圈;获取担保企业的风险等级;获取申请企业的企业特征数据;将担保圈命中结果、担保企业的风险等级以及申请企业的企业特征数据输入第一预测模型进行风险等级预测,获得申请企业的风险等级。实施本申请,可以提高申请企业风险等级预测的准确性。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于预测模型的风险等级预测方法、装置与存储介质。
背景技术
小微企业是小型企业、微型企业、家庭作坊式企业的统称,在国民经济中占重要地位。小微企业信贷业务一直是国家高度关注的一项业务,同时,该业务也存在部分小微企业资产体量较小、抗风险能力差的风险,因此,通常银行都需要对小微企业进行贷前风险评估,目前在对小微企业进行贷前风险评估时都是通过该小微企业本身的一些经营数据,企业规模等数据对小微企业进行风险评估,该种风险评估方式由于只考虑到申请贷款的小微企业本身的特征数据,得到的风险等级评估结果准确性比较低。
发明内容
基于此,有必要针对上述技术问题,提供一种基于预测模型的风险等级预测方法、装置与存储介质,将申请企业与担保企业是否命中担保圈的结果以及担保企业的风险等级等作为变量输入预测模型,以协助该预测模型对申请企业的风险等级进行预测,提高申请企业风险等级预测的准确性。
第一方面,本申请提供一种基于预测模型的风险等级预测方法,所述方法包括:
确定申请贷款的申请企业和为所述申请企业提供担保的担保企业;
从预先存储的至少一个担保圈中遍历所述申请企业和所述担保企业,获得担保圈命中结果,所述担保圈命中结果用于指示所述申请企业和所述担保企业是否在同一个担保圈;
获取所述担保企业的风险等级,所述担保企业的风险等级是基于所述担保企业的企业特征数据预测得到的;
获取所述申请企业的企业特征数据;
将所述担保圈命中结果、所述担保企业的风险等级以及所述申请企业的企业特征数据输入第一预测模型进行风险等级预测,获得所述申请企业的风险等级。
结合第一方面,在一些实施例中,所述企业特征数据包括以下特征中的一项或多项:所属行业类型、企业规模、是否存在涉诉记录或涉诉记录关联的涉诉金额。
结合第一方面,在一些实施例中,所述确定申请贷款的申请企业和为所述申请企业提供担保的担保企业之前还包括:
获取多个企业中各个企业之间的关系数据,所述关系数据用于指示所述各个企业之间的担保关系;
根据所述各个企业之间的关系数据生成担保关系知识图谱;
从所述担保关系知识图谱中提取至少一个担保圈,并存储所述至少一个担保圈。
结合第一方面,在一些实施例中,所述获取所述担保企业的风险等级,包括:
获取所述担保企业的企业特征数据;
将所述担保企业的企业特征数据输入第二预测模型进行风险等级预测,获得所述担保企业的风险等级。
结合第一方面,在一些实施例中,所述企业特征数据包括企业所属行业类型;
所述获取所述申请企业的企业特征数据,包括:
获取与所述申请企业关联的第一文本,所述第一文本包括所述申请企业的企业名称和所述申请企业的经营范围;
将所述第一文本进行分词,获得至少一个第一分词;
将所述至少一个第一分词组成第一词序列,并将所述第一词序列输入FastText模型进行分类处理,获得所述申请企业所属行业类型;
所述获取所述担保企业的企业特征数据,包括:
获取与所述担保企业关联的第二文本,所述第二文本包括所述担保企业的企业名称和所述担保企业的经营范围;
将所述第二文本进行分词,获得至少一个第二分词;
将所述至少一个第二分词组成第二词序列,并将所述第二词序列输入所述FastText模型进行分类处理,获得所述担保企业所属行业类型。
结合第一方面,在一些实施例中,所述企业特征数据包括企业规模;
所述获取所述申请企业的企业特征数据,包括:
获取所述申请企业的年报信息、所述申请企业的资本信息以及所述申请企业所属行业类型;
将所述申请企业的年报信息、所述申请企业的资本信息以及所述申请企业所属行业类型输入预先训练好的XgBoost模型,获得所述申请企业的企业规模;
所述获取所述申请企业的企业特征数据,包括:
获取所述担保企业的年报信息、所述担保企业的资本信息以及所述担保企业所属行业类型;
将所述担保企业的年报信息、所述担保企业的资本信息以及所述担保企业所属行业类型输入所述预先训练好的XgBoost模型,获得所述担保企业的企业规模。
结合第一方面,在一些实施例中,所述获取所述申请企业的企业特征数据,包括:
获取与所述申请企业关联的第三文本,并对所述第三文本进行分词,获得至少一个第三分词;
通过Doc2vec模型将各个第三分词转化为对应的第一输入向量,并通过自编码器AutoEncoder模型对所述第一输入向量进行特征提取,获得所述申请企业的企业特征数据;
所述获取所述担保企业的企业特征数据,包括:
获取与所述担保企业关联的第四文本,并对所述第四文本进行分词,获得至少一个第四分词;
通过Doc2vec模型将各个第四分词转化为对应的第二输入向量,并通过自编码器AutoEncoder模型对所述第二输入向量进行特征提取,获得所述担保企业的企业特征数据。
第二方面,本申请提供一种基于预测模型的风险等级预测装置,该装置包括:
确定单元,用于确定申请贷款的申请企业和为所述申请企业提供担保的担保企业;
遍历单元,用于从预先存储的至少一个担保圈中遍历所述申请企业和所述担保企业,获得担保圈命中结果,所述担保圈命中结果用于指示所述申请企业和所述担保企业是否在同一个担保圈;
第一获取单元,用于获取所述担保企业的风险等级,所述担保企业的风险等级是基于所述担保企业的企业特征数据预测得到的;
第二获取单元,用于获取所述申请企业的企业特征数据;
预测单元,用于将所述担保圈命中结果、所述担保企业的风险等级以及所述申请企业的企业特征数据输入第一预测模型进行风险等级预测,获得所述申请企业的风险等级。
结合第二方面,在一些实施例中,所述企业特征数据包括以下特征中的一项或多项:所属行业类型、企业规模、是否存在涉诉记录或涉诉记录关联的涉诉金额。
结合第二方面,在一些实施例中,所述装置还包括:
第三获取单元,用于获取多个企业中各个企业之间的关系数据,所述关系数据用于指示所述各个企业之间的担保关系;
图谱生成单元,用于根据所述各个企业之间的关系数据生成担保关系知识图谱;
提取单元,用于从所述担保关系知识图谱中提取至少一个担保圈,并存储所述至少一个担保圈。
结合第二方面,在一些实施例中,所述第一获取单元具体用于:获取所述担保企业的企业特征数据;将所述担保企业的企业特征数据输入第二预测模型进行风险等级预测,获得所述担保企业的风险等级。
结合第二方面,在一些实施例中,所述企业特征数据包括企业所属行业类型;
所述第二获取单元具体用于:获取与所述申请企业关联的第一文本,所述第一文本包括所述申请企业的企业名称和所述申请企业的经营范围;
将所述第一文本进行分词,获得至少一个第一分词;
将所述至少一个第一分词组成第一词序列,并将所述第一词序列输入FastText模型进行分类处理,获得所述申请企业所属行业类型;
所述第一获取单元具体用于:获取与所述担保企业关联的第二文本,所述第二文本包括所述担保企业的企业名称和所述担保企业的经营范围;
将所述第二文本进行分词,获得至少一个第二分词;
将所述至少一个第二分词组成第二词序列,并将所述第二词序列输入所述FastText模型进行分类处理,获得所述担保企业所属行业类型。
结合第二方面,在一些实施例中,所述企业特征数据包括企业规模;
所述第二获取单元具体用于:获取所述申请企业的年报信息、所述申请企业的资本信息以及所述申请企业所属行业类型;
将所述申请企业的年报信息、所述申请企业的资本信息以及所述申请企业所属行业类型输入预先训练好的XgBoost模型,获得所述申请企业的企业规模;
所述第一获取单元具体用于:获取所述担保企业的年报信息、所述担保企业的资本信息以及所述担保企业所属行业类型;
将所述担保企业的年报信息、所述担保企业的资本信息以及所述担保企业所属行业类型输入所述预先训练好的XgBoost模型,获得所述担保企业的企业规模。
结合第二方面,在一些实施例中,所述第二获取单元具体用于:获取与所述申请企业关联的第三文本,并对所述第三文本进行分词,获得至少一个第三分词;
通过Doc2vec模型将各个第三分词转化为对应的第一输入向量,并通过自编码器AutoEncoder模型对所述第一输入向量进行特征提取,获得所述申请企业的企业特征数据;
所述第一获取单元具体用于:获取与所述担保企业关联的第四文本,并对所述第四文本进行分词,获得至少一个第四分词;
通过Doc2vec模型将各个第四分词转化为对应的第二输入向量,并通过自编码器AutoEncoder模型对所述第二输入向量进行特征提取,获得所述担保企业的企业特征数据。
第三方面,本申请提供一种基于预测模型的风险等级预测装置,包括处理器、存储器以及通信接口,该处理器、存储器和通信接口相互连接,其中,该通信接口用于接收和发送数据,该存储器用于存储程序代码,该处理器用于调用该程序代码,执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
第四方面,本申请提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序;当该计算机程序在一个或多个处理器上运行时,使得该终端设备执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
本申请实施例中,确定申请企业以及为申请企业提供担保的担保企业,获取申请企业与担保企业是否在同一个担保圈的担保圈命中结果,以及获取担保企业的风险等级,以及获取申请企业的企业特征数据,将担保圈命中结果、担保企业的风险等级以及申请企业的企业特征数据作为变量输入预测模型,以对申请企业的风险等级进行预测,本申请通过将担保企业的风险等级以及申请企业与担保企业是否命中担保圈的结果作为变量协助该预测模型对申请企业的风险等级进行预测,从而可以提高对申请企业风险等级预测的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种基于预测模型的风险等级预测方法的流程示意图;
图2为本申请实施例提供的担保圈的示意图;
图3为本申请实施例提供的一种基于预测模型的风险等级预测装置的示意图;
图4为本申请实施例提供的另一种基于预测模型的风险等级预测装置的示意图。
具体实施方式
下面结合附图对本发明作进一步详细描述。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供了一种基于预测模型的风险等级预测方法,为了更清楚地描述本申请的方案,下面对本申请涉及的一些附图作进一步介绍。
请参阅图1,图1为本申请实施例提供的一种基于预测模型的风险等级预测方法的流程示意图。如图1所示,所述方法包括以下步骤:
S101,确定申请贷款的申请企业和为所述申请企业提供担保的担保企业;
本申请实施例中,申请企业可以是指向金融机构请求贷款的企业,担保企业是为该申请企业提供担保的担保企业。担保是一项能够提升企业信用等级的增信措施,可以有效帮助小微企业降低融资成本、同时帮助银行降低经营风险。但部分企业存在互相担保的情况,有违担保这一增信措施的本意,同时无形中增加了银行坏账的风险,导致为小微企业发放带有担保法人贷款这一业务流程中存在一定的缺陷。并且小微企业的担保企业的履约能力也通常会影响申请企业的贷款风险,因此本申请需要综合申请企业和担保企业的相关数据对申请企业的风险等级进行预测。
S102,从预先存储的至少一个担保圈中遍历所述申请企业和所述担保企业,获得担保圈命中结果,所述担保圈命中结果用于指示所述申请企业和所述担保企业是否在同一个担保圈;
本申请实施例中,该至少一个担保圈是预先获取并存储的,下面举例说明获取该至少一个担保圈的获取方式:可以获取各个企业之间的关系数据,该关系数据可以用于指示企业之间的担保关系,比如,企业A为企业B提供担保,企业C为企业D提供担保,企业D为企业A提供担保等等。可选的,各个企业之间的关系数据可以是通过对各个企业的担保合同中的指定位置的文本进行语义解析获得的。
进一步,根据各个企业之间的关系数据生成担保关系知识图谱。其中,图谱是以图为研究对象,由若干给定的节点及连接两个节点的线所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用节点代表事物,用连接两个节点的线表示相应两个事物间具有特定关系。本申请实施例中的担保关系图谱中的节点是根据企业关系数据中的企业生成的,线则是根据企业关系数据中企业之间的担保关系生成的。具体的,本实施例中,担保关系图谱中包括多个企业形成的节点、多个节点之间的担保关系的关系连线以及关系连线的指向方向,关系连线的指向方向用于表示两个节点之间进行担保的跟随关系,例如,如图2所示,对于具有担保关系的A、B两个节点,若对应的指向方向是由A指向B,则是A为B提供担保。
进一步,从担保关系知识图谱中提取该知识图谱中所包含的至少一个担保圈,担保圈包括至少两个节点,且该至少两个节点之间的连线形成闭合圈。具体可选的,如图2所示,即为担保圈的几种可选的示意图,从左往右依次是简单环式担保,连环担保以及复杂连环担保,其中,如果申请企业与担保企业同时在图2中任意一个或多个担保圈,即确定命中担保圈,从而获得担保圈命中结果,该担保圈命中结果用于指示申请企业与担保企业是否同时在同一个担保圈,比如,用“1”表示申请企业与担保企业同时在同一个担保圈,用“0”表示申请企业与担保企业没有同时在同一个担保圈。以图2作为举例,申请企业是A,担保企业是C,则该申请企业A和担保企业C均同时在简单环式担保圈和连环担保圈,则担保圈命中结果为“1”,又比如,申请企业是A,担保企业是H,则该申请企业A和担保企业H同时在连环担保圈中,则担保圈命中结果也为“1”,又比如,申请企业是F,担保企业是G,申请企业F和担保企业G没有同时在任何一个担保圈中,则担保圈命中结果为“0”。
本申请实施例中,为了确定申请企业与担保企业之间是否存在相互担保情况,从该至少一个担保圈中遍历查找该申请企业和担保企业,如果在同一个担保圈中查找到该申请企业和该担保企业,即命中担保圈,即确定申请企业与担保企业存在相互担保的情况。如果任何一个担保圈均未同时查找到该申请企业和担保企业,即未命中担保圈,则确定申请企业与担保企业不存在相互担保的情况。本申请通过担保圈命中结果表示申请企业和担保企业是否同时在同一个担保圈。例如,如果命中担保圈,即申请企业和担保企业同时在同一个担保圈,则担保圈命中结果可以为“1”,否则,担保圈命中结果为“0”。可以理解的是,申请企业和担保企业可以同时在一个担保圈或者多个担保圈,本申请不作限定。只要在某一个担保圈中同时查找到申请企业和担保企业,即可以确定命中担保圈。
S103,获取所述担保企业的风险等级,所述担保企业的风险等级是基于所述担保企业的企业特征数据预测得到的;
本申请实施例中,可以获取担保企业的企业特征数据,并将担保企业的企业特征数据输入第二预测模型进行风险等级预测,从而获得该担保企业的风险等级,其中,该第二预测模型可以是预先训练好的XgBoost模型。该预先训练好的XgBoost模型能挖掘企业的企业特征数据和风险等级之间的关系。
示例性的,担保企业的企业特征数据可以包括以下特征数据中的一项或多项:担保企业所属行业类型、担保企业的企业规模、担保企业是否存在涉诉记录或与涉诉记录关联的涉案金额等等,本申请实施例不作限定。
如果担保企业的企业特征数据中包含担保企业所属行业类型,则获取担保企业所属行业类型的获取方式可以是:获取与担保企业关联的第二文本,该第二文本包括担保企业的企业名称、经营范围等内容,使用分词工具对该第二文本进行分词,并去除文本中的标点符号等无意义的符号,获得至少一个第二分词,并将该至少一个第二分词组成第二词序列。将所得到的第二词序列输入预先训练好的FastText模型,对担保企业进行行业类型的分类,FastText模型输入为一个词序列(一段文本或者一句话分词后的词序列),输出这个词序列属于不同类别的概率。序列中的词和词组组成特征向量,特征向量通过线性变换映射到中间层,中间层再映射到标签。FastText模型通过softmax函数将输出层的值归一化到0-1分布,将神经元输出构造成概率分布,从而确定担保企业属于各个预设行业的概率,并将概率最大的预设行业作为担保企业所属行业类型。当然,也可以通过调用工商管理系统查询接口获取该担保企业注册时所登记的所属行业类型。该实施方式中,预先训练好的FastText模型能够挖掘企业名称、经营范围以及行业类型之间的对应关系。
如果担保企业的企业特征数据中包含担保企业的企业规模,则获取担保企业的企业规模的获取方式可以是:获取担保企业的企业注册资本、实缴资本、年报数据、担保企业所属行业类型等,将获取的企业注册资本、实缴资本、年报数据以及担保企业所属行业类型等数据输入预先训练好的XgBoost模型,使用XgBoost模型预测该担保企业的企业规模,其中,该预先训练好的XgBoost模型能挖掘行业类型、企业注册资本、实缴资本、年报数据和企业规模之间的对应关系。企业规模通常可以分为大规模企业、中型规模企业以及小型规模企业。XgBoost模型是一种集成算法,核心思想是将弱分离器f_i(x)组合起来形成强分类器F(x)的一种方法,具有较强的泛化能力。
可选的,获取担保企业的企业特征数据的获取方式还可以是获取与担保企业关联的第四文本,该第四文本可以包括以下信息中的一项或多项:担保企业的企业名称、担保企业的经营范围、担保企业的年报数据、担保企业的企业注册资本、实缴资本、担保企业所属行业类型等等。
进一步,对该第四文本进行预处理,该预处理可以包括去除第四文本中的特殊字符,停用词,特殊字符可以包括换行、空格等字符。并将预处理后的文本进行分词,获得至少一个第四分词。进一步通过Doc2vec模型将各第四分词转化为对应的输入向量,即句向量。通过自编码器AutoEncoder模型对句向量进行特征提取,以确定企业特征数据。本实施例中,Doc2vec模型即Documents to vector模型,是一种用来产生句向量的模型,通过Doc2vec模型可以将各第四分词转化为对应的句向量。自编码器AutoEncoder模型,是一类在半监督学习和非监督学习中使用的人工神经网络模型,其功能是通过将输入信息作为学习目标,提取对应的特征信息。通过自编码器AutoEncoder模型可以将句向量进行压缩从而获得各分词的文本特征数据,即企业特征数据。另外,所述Doc2vec模型是先通过将所述分词进行词向量化,然后通过所述词向量得到句子的向量。
S104,获取所述申请企业的企业特征数据;
S105,将所述担保圈命中结果、所述担保企业的风险等级以及所述申请企业的企业特征数据输入第一预测模型进行风险等级预测,获得所述申请企业的风险等级。
本申请实施例中,第一预测模型可以是预先训练好的XgBoost模型。该预先训练好的XgBoost模型能挖掘企业的企业特征数据、担保圈命中结果、担保企业的风险等级和申请企业的风险等级之间的关系。
具体可选的,申请企业的企业特征数据中可以包括以下特征数据中的一项或多项:申请企业所属行业类型、申请企业的企业规模、申请企业是否存在涉诉记录或与涉诉记录关联的涉案金额等等,本申请实施例不作限定。
如果申请企业的企业特征数据中包含申请企业所属行业类型,则获取申请企业所属行业类型的获取方式可以是:获取与申请企业关联的第一文本,该第一文本包括申请企业的企业名称、经营范围等内容,使用分词工具对该第一文本进行分词,并去除文本中的标点符号等无意义的符号,获得至少一个第一分词,并将该至少一个第一分词组成第一词序列。将所得到的第一词序列输入预先训练好的FastText模型,对申请企业进行行业类型的分类,FastText模型输入为一个词序列(一段文本或者一句话分词后的词序列),输出这个词序列属于不同类别的概率。序列中的词和词组组成特征向量,特征向量通过线性变换映射到中间层,中间层再映射到标签。FastText模型通过softmax函数将输出层的值归一化到0-1分布,将神经元输出构造成概率分布,从而确定申请企业属于各个预设行业的概率,并将概率最大的预设行业作为申请企业所属行业类型。当然,也可以通过调用工商管理系统查询接口获取该申请企业注册时所登记的所属行业类型。该实施方式中,预先训练好的FastText模型能够挖掘企业名称、经营范围以及行业类型之间的对应关系。
如果申请企业的企业特征数据中包含申请企业的企业规模,则获取申请企业的企业规模的获取方式可以是:获取申请企业的企业注册资本、实缴资本、年报数据、申请企业所属行业类型等,将获取的企业注册资本、实缴资本、年报数据以及申请企业所属行业类型等数据输入预先训练好的XgBoost模型,使用XgBoost模型预测该申请企业的企业规模,其中,该预先训练好的XgBoost模型能挖掘行业类型、企业注册资本、实缴资本、年报数据和企业规模之间的对应关系。企业规模通常可以分为大规模企业、中型规模企业以及小型规模企业。XgBoost模型是一种集成算法,核心思想是将弱分离器f_i(x)组合起来形成强分类器F(x)的一种方法,具有较强的泛化能力。
可选的,获取申请企业的企业特征数据的获取方式还可以是获取与申请企业关联的第三文本,该第三文本可以包括以下信息中的一项或多项:申请企业的企业名称、申请企业的经营范围、申请企业的年报数据、申请企业的企业注册资本、实缴资本、申请企业所属行业类型等等。
进一步,对该第三文本进行预处理,该预处理可以包括去除第三文本中的特殊字符,停用词,特殊字符可以包括换行、空格等字符。并将预处理后的文本进行分词,获得至少一个第三分词。进一步通过Doc2vec模型将各第三分词转化为对应的输入向量,即句向量。通过自编码器AutoEncoder模型对句向量进行特征提取,以确定企业特征数据。本实施例中,Doc2vec模型即Documents to vector模型,是一种用来产生句向量的模型,通过Doc2vec模型可以将各第三分词转化为对应的句向量。自编码器AutoEncoder模型,是一类在半监督学习和非监督学习中使用的人工神经网络模型,其功能是通过将输入信息作为学习目标,提取对应的特征信息。通过自编码器AutoEncoder模型可以将句向量进行压缩从而获得各分词的文本特征数据,即企业特征数据。另外,所述Doc2vec模型是先通过将所述分词进行词向量化,然后通过所述词向量得到句子的向量。
本申请实施例中,确定申请企业以及为申请企业提供担保的担保企业,获取申请企业与担保企业是否在同一个担保圈的担保圈命中结果,以及获取担保企业的风险等级,以及获取申请企业的企业特征数据,将担保圈命中结果、担保企业的风险等级以及申请企业的企业特征数据作为变量输入预测模型,以对申请企业的风险等级进行预测,本申请通过将担保企业的风险等级以及申请企业与担保企业是否命中担保圈的结果作为变量协助该预测模型对申请企业的风险等级进行预测,从而可以提高对申请企业风险等级预测的准确性。
请参见图3,为本申请实施例提供了一种基于预测模型的风险等级预测装置的结构示意图。如图3所示,该基于预测模型的风险等级预测装置可以包括:
确定单元10,用于确定申请贷款的申请企业和为所述申请企业提供担保的担保企业;
遍历单元11,用于从预先存储的至少一个担保圈中遍历所述申请企业和所述担保企业,获得担保圈命中结果,所述担保圈命中结果用于指示所述申请企业和所述担保企业是否在同一个担保圈;
第一获取单元12,用于获取所述担保企业的风险等级,所述担保企业的风险等级是基于所述担保企业的企业特征数据预测得到的;
第二获取单元13,用于获取所述申请企业的企业特征数据;
预测单元14,用于将所述担保圈命中结果、所述担保企业的风险等级以及所述申请企业的企业特征数据输入第一预测模型进行风险等级预测,获得所述申请企业的风险等级。
在一种可能的设计中,所述企业特征数据包括以下特征中的一项或多项:所属行业类型、企业规模、是否存在涉诉记录或涉诉记录关联的涉诉金额。
在一种可能的设计中,所述装置还包括:
第三获取单元,用于获取多个企业中各个企业之间的关系数据,所述关系数据用于指示所述各个企业之间的担保关系;
图谱生成单元,用于根据所述各个企业之间的关系数据生成担保关系知识图谱;
提取单元,用于从所述担保关系知识图谱中提取至少一个担保圈,并存储所述至少一个担保圈。
在一种可能的设计中,所述第一获取单元12具体用于:获取所述担保企业的企业特征数据;将所述担保企业的企业特征数据输入第二预测模型进行风险等级预测,获得所述担保企业的风险等级。
在一种可能的设计中,所述企业特征数据包括企业所属行业类型;
所述第二获取单元13具体用于:获取与所述申请企业关联的第一文本,所述第一文本包括所述申请企业的企业名称和所述申请企业的经营范围;
将所述第一文本进行分词,获得至少一个第一分词;
将所述至少一个第一分词组成第一词序列,并将所述第一词序列输入FastText模型进行分类处理,获得所述申请企业所属行业类型;
所述第一获取单元12具体用于:获取与所述担保企业关联的第二文本,所述第二文本包括所述担保企业的企业名称和所述担保企业的经营范围;
将所述第二文本进行分词,获得至少一个第二分词;
将所述至少一个第二分词组成第二词序列,并将所述第二词序列输入所述FastText模型进行分类处理,获得所述担保企业所属行业类型。
在一种可能的设计中,所述企业特征数据包括企业规模;
所述第二获取单元13具体用于:获取所述申请企业的年报信息、所述申请企业的资本信息以及所述申请企业所属行业类型;
将所述申请企业的年报信息、所述申请企业的资本信息以及所述申请企业所属行业类型输入预先训练好的XgBoost模型,获得所述申请企业的企业规模;
所述第一获取单元12具体用于:获取所述担保企业的年报信息、所述担保企业的资本信息以及所述担保企业所属行业类型;
将所述担保企业的年报信息、所述担保企业的资本信息以及所述担保企业所属行业类型输入所述预先训练好的XgBoost模型,获得所述担保企业的企业规模。
在一种可能的设计中,所述第二获取单元13具体用于:获取与所述申请企业关联的第三文本,并对所述第三文本进行分词,获得至少一个第三分词;
通过Doc2vec模型将各个第三分词转化为对应的第一输入向量,并通过自编码器AutoEncoder模型对所述第一输入向量进行特征提取,获得所述申请企业的企业特征数据;
所述第一获取单元12具体用于:获取与所述担保企业关联的第四文本,并对所述第四文本进行分词,获得至少一个第四分词;
通过Doc2vec模型将各个第四分词转化为对应的第二输入向量,并通过自编码器AutoEncoder模型对所述第二输入向量进行特征提取,获得所述担保企业的企业特征数据。
其中,图3所示装置实施例的具体描述可以参照前述图1所示方法实施例的具体说明,在此不进行赘述。
请参照图4,为本申请实施例提供的另一种基于预测模型的风险等级预测装置的结构示意图,如图4所示,该基于预测模型的风险等级预测装置1000可以包括:至少一个处理器1001,例如CPU,至少一个通信接口1003,存储器1004,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。通信接口1003可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1004可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图4所示,作为一种计算机存储介质的存储器1004中可以包括操作系统、网络通信单元以及程序指令。
在图4所示的基于预测模型的风险等级预测装置1000中,处理器1001可以用于加载存储器1004中存储的程序指令,并具体执行以下操作:
确定申请贷款的申请企业和为所述申请企业提供担保的担保企业;
从预先存储的至少一个担保圈中遍历所述申请企业和所述担保企业,获得担保圈命中结果,所述担保圈命中结果用于指示所述申请企业和所述担保企业是否在同一个担保圈;
获取所述担保企业的风险等级,所述担保企业的风险等级是基于所述担保企业的企业特征数据预测得到的;
获取所述申请企业的企业特征数据;
将所述担保圈命中结果、所述担保企业的风险等级以及所述申请企业的企业特征数据输入第一预测模型进行风险等级预测,获得所述申请企业的风险等级。
需要说明的是,具体执行过程可以参见图1所示方法实施例的具体说明,在此不进行赘述。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1所示实施例的方法步骤,具体执行过程可以参见图1所示实施例的具体说明,在此不进行赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。
Claims (10)
1.一种基于预测模型的风险等级预测方法,其特征在于,包括:
确定申请贷款的申请企业和为所述申请企业提供担保的担保企业;
从预先存储的至少一个担保圈中遍历所述申请企业和所述担保企业,获得担保圈命中结果,所述担保圈命中结果用于指示所述申请企业和所述担保企业是否在同一个担保圈;
获取所述担保企业的风险等级,所述担保企业的风险等级是基于所述担保企业的企业特征数据预测得到的;
获取所述申请企业的企业特征数据;
将所述担保圈命中结果、所述担保企业的风险等级以及所述申请企业的企业特征数据输入第一预测模型进行风险等级预测,获得所述申请企业的风险等级。
2.如权利要求1所述的方法,其特征在于,所述企业特征数据包括以下特征中的一项或多项:所属行业类型、企业规模、是否存在涉诉记录或涉诉记录关联的涉诉金额。
3.如权利要求1或2所述的方法,其特征在于,所述确定申请贷款的申请企业和为所述申请企业提供担保的担保企业之前还包括:
获取多个企业中各个企业之间的关系数据,所述关系数据用于指示所述各个企业之间的担保关系;
根据所述各个企业之间的关系数据生成担保关系知识图谱;
从所述担保关系知识图谱中提取至少一个担保圈,并存储所述至少一个担保圈。
4.如权利要求1或2所述的方法,其特征在于,所述获取所述担保企业的风险等级,包括:
获取所述担保企业的企业特征数据;
将所述担保企业的企业特征数据输入第二预测模型进行风险等级预测,获得所述担保企业的风险等级。
5.如权利要求4所述的方法,其特征在于,所述企业特征数据包括企业所属行业类型;
所述获取所述申请企业的企业特征数据,包括:
获取与所述申请企业关联的第一文本,所述第一文本包括所述申请企业的企业名称和所述申请企业的经营范围;
将所述第一文本进行分词,获得至少一个第一分词;
将所述至少一个第一分词组成第一词序列,并将所述第一词序列输入FastText模型进行分类处理,获得所述申请企业所属行业类型;
所述获取所述担保企业的企业特征数据,包括:
获取与所述担保企业关联的第二文本,所述第二文本包括所述担保企业的企业名称和所述担保企业的经营范围;
将所述第二文本进行分词,获得至少一个第二分词;
将所述至少一个第二分词组成第二词序列,并将所述第二词序列输入所述FastText模型进行分类处理,获得所述担保企业所属行业类型。
6.如权利要求4所述的方法,其特征在于,所述企业特征数据包括企业规模;
所述获取所述申请企业的企业特征数据,包括:
获取所述申请企业的年报信息、所述申请企业的资本信息以及所述申请企业所属行业类型;
将所述申请企业的年报信息、所述申请企业的资本信息以及所述申请企业所属行业类型输入预先训练好的XgBoost模型,获得所述申请企业的企业规模;
所述获取所述申请企业的企业特征数据,包括:
获取所述担保企业的年报信息、所述担保企业的资本信息以及所述担保企业所属行业类型;
将所述担保企业的年报信息、所述担保企业的资本信息以及所述担保企业所属行业类型输入所述预先训练好的XgBoost模型,获得所述担保企业的企业规模。
7.如权利要求4所述的方法,其特征在于,所述获取所述申请企业的企业特征数据,包括:
获取与所述申请企业关联的第三文本,并对所述第三文本进行分词,获得至少一个第三分词;
通过Doc2vec模型将各个第三分词转化为对应的第一输入向量,并通过自编码器AutoEncoder模型对所述第一输入向量进行特征提取,获得所述申请企业的企业特征数据;
所述获取所述担保企业的企业特征数据,包括:
获取与所述担保企业关联的第四文本,并对所述第四文本进行分词,获得至少一个第四分词;
通过Doc2vec模型将各个第四分词转化为对应的第二输入向量,并通过自编码器AutoEncoder模型对所述第二输入向量进行特征提取,获得所述担保企业的企业特征数据。
8.一种基于预测模型的风险等级预测装置,其特征在于,包括:
确定单元,用于确定申请贷款的申请企业和为所述申请企业提供担保的担保企业;
遍历单元,用于从预先存储的至少一个担保圈中遍历所述申请企业和所述担保企业,获得担保圈命中结果,所述担保圈命中结果用于指示所述申请企业和所述担保企业是否在同一个担保圈;
第一获取单元,用于获取所述担保企业的风险等级,所述担保企业的风险等级是基于所述担保企业的企业特征数据预测得到的;
第二获取单元,用于获取所述申请企业的企业特征数据;
预测单元,用于将所述担保圈命中结果、所述担保企业的风险等级以及所述申请企业的企业特征数据输入第一预测模型进行风险等级预测,获得所述申请企业的风险等级。
9.一种基于预测模型的风险等级预测装置,其特征在于,包括处理器、存储器以及通信接口,所述处理器、存储器和通信接口相互连接,其中,所述通信接口用于接收和发送数据,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,执行如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序;当所述计算机程序在一个或多个处理器上运行时,执行如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111016463.3A CN113705909A (zh) | 2021-08-31 | 2021-08-31 | 基于预测模型的风险等级预测方法、装置与存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111016463.3A CN113705909A (zh) | 2021-08-31 | 2021-08-31 | 基于预测模型的风险等级预测方法、装置与存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113705909A true CN113705909A (zh) | 2021-11-26 |
Family
ID=78658345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111016463.3A Pending CN113705909A (zh) | 2021-08-31 | 2021-08-31 | 基于预测模型的风险等级预测方法、装置与存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113705909A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114443781A (zh) * | 2021-12-31 | 2022-05-06 | 北京金堤科技有限公司 | 一种企业担保图谱的生成方法、装置 |
CN116308754A (zh) * | 2023-03-22 | 2023-06-23 | 广州信瑞泰信息科技有限公司 | 一种银行信贷风险预警系统及其方法 |
US11928730B1 (en) | 2023-05-30 | 2024-03-12 | Social Finance, Inc. | Training machine learning models with fairness improvement |
-
2021
- 2021-08-31 CN CN202111016463.3A patent/CN113705909A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114443781A (zh) * | 2021-12-31 | 2022-05-06 | 北京金堤科技有限公司 | 一种企业担保图谱的生成方法、装置 |
CN116308754A (zh) * | 2023-03-22 | 2023-06-23 | 广州信瑞泰信息科技有限公司 | 一种银行信贷风险预警系统及其方法 |
CN116308754B (zh) * | 2023-03-22 | 2024-02-13 | 广州信瑞泰信息科技有限公司 | 一种银行信贷风险预警系统及其方法 |
US11928730B1 (en) | 2023-05-30 | 2024-03-12 | Social Finance, Inc. | Training machine learning models with fairness improvement |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110889556B (zh) | 一种企业经营风险特征数据信息提取方法和提取系统 | |
CN111026842B (zh) | 自然语言处理方法、自然语言处理装置及智能问答系统 | |
CN110377759B (zh) | 事件关系图谱构建方法及装置 | |
CN113705909A (zh) | 基于预测模型的风险等级预测方法、装置与存储介质 | |
CN112732911A (zh) | 基于语义识别的话术推荐方法、装置、设备及存储介质 | |
CN112434535B (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
CN112711953A (zh) | 一种基于注意力机制和gcn的文本多标签分类方法和系统 | |
Sharp et al. | Toward Semi-autonomous Information: Extraction for Unstructured Maintenance Data in Root Cause Analysis | |
CN113705192B (zh) | 文本处理方法、装置与存储介质 | |
CN111324738A (zh) | 一种确定文本标签的方法和系统 | |
CN113850666A (zh) | 业务调度的方法、装置、设备及存储介质 | |
Santur | Candlestick chart based trading system using ensemble learning for financial assets | |
CN113902569A (zh) | 数字资产中的绿色资产的占比的识别方法及相关产品 | |
CN113806538B (zh) | 标签提取模型训练方法、装置、设备与存储介质 | |
CN116089886A (zh) | 信息处理方法、装置、设备及存储介质 | |
CN116089605A (zh) | 基于迁移学习和改进词袋模型的文本情感分析方法 | |
CN113869068A (zh) | 场景服务推荐方法、装置、设备及存储介质 | |
CN113643141A (zh) | 解释性结论报告生成方法、装置、设备及存储介质 | |
Léon | Extracting information from PDF invoices using deep learning | |
CN112434889A (zh) | 一种专家行业分析方法、装置、设备及存储介质 | |
CN111046934A (zh) | 一种swift报文软条款识别方法及装置 | |
Fugini et al. | A text analytics architecture for smart companies | |
CN117009505A (zh) | 观点识别方法、装置、设备及存储介质 | |
Rajbhoj et al. | RClassify: Combining NLP and ML to Classify Rules from Requirements Specifications Documents | |
KR102540562B1 (ko) | 상담 데이터 분석 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |