CN116757820A - 企业风险的确定方法、装置、存储介质及电子设备 - Google Patents

企业风险的确定方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN116757820A
CN116757820A CN202310345304.0A CN202310345304A CN116757820A CN 116757820 A CN116757820 A CN 116757820A CN 202310345304 A CN202310345304 A CN 202310345304A CN 116757820 A CN116757820 A CN 116757820A
Authority
CN
China
Prior art keywords
enterprise
risk
information
enterprises
risk value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310345304.0A
Other languages
English (en)
Inventor
李可
徐露
张璐萱
王彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202310345304.0A priority Critical patent/CN116757820A/zh
Publication of CN116757820A publication Critical patent/CN116757820A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种企业风险的确定方法、装置、存储介质及电子设备。涉及金融科技领域。其中,该方法包括:通过网络爬虫技术获取第一信息集合,其中,第一信息集合包括M个企业的企业信息,M为正整数;将第一信息集合中的企业信息输入风险识别模型,输出每个企业的第一风险值;基于每个企业的第一风险值和企业知识图谱,确定每个企业的第二风险值,其中,企业知识图谱中至少包括:每个企业关联的节点、表示企业之间的关联关系的关系边,第二风险值用于评估企业的信贷风险。本发明解决了相关技术中基于企业本身的企业信息评估小微企业的风险的方式,准确率低的技术问题。

Description

企业风险的确定方法、装置、存储介质及电子设备
技术领域
本发明涉及金融科技领域,具体而言,涉及一种企业风险的确定方法、装置、存储介质及电子设备。
背景技术
小微企业是国民经济增长的重要驱动力,在各类市场主体中占据绝对数量优势。然而在发生经济产生冲击的事件的情况下,普惠型小微企业更为严重,其经营压力陡然增加,自身抗风险能力弱和流动性不足的先天缺陷被放大,按期偿还银行贷款本息出现困难。由于各种监管部门和金融机构对小微企业积极出台金融支持政策,因此金融机构对小微企业贷款风险识别管控的需求就愈发凸显出来。
相关技术中,对信贷风险识别方法是通过获取企业某个维度的数据,将获取到的数据输入输入到预先训练好的反欺诈识别模型中进行识别,得到待识别企业的信贷风险分数;若信贷风险分数大于预设的分数阈值,则确定待识别企业存在信贷欺诈风险。
因此,相关技术中对小微企业的风险进行识别的方式,由于获取到的小微企业信息单一且有限,只能从企业本身出发,分析其部分数据,因此,相关技术中的小微企业的风险识别方法无法准确评估小微企业风险,加大了放贷方的风险。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种企业风险的确定方法、装置、存储介质及电子设备,以至少解决相关技术中基于企业本身的企业信息评估小微企业的风险的方式,准确率低的技术问题。
根据本发明实施例的一个方面,提供了一种企业风险的确定方法,包括:通过网络爬虫技术获取第一信息集合,其中,所述第一信息集合包括M个企业的企业信息,M为正整数;将所述第一信息集合中的企业信息输入风险识别模型,输出每个所述企业的第一风险值;基于每个所述企业的第一风险值和企业知识图谱,确定每个所述企业的第二风险值,其中,所述企业知识图谱中至少包括:每个所述企业关联的节点、表示企业之间的关联关系的关系边,所述第二风险值用于评估所述企业的信贷风险。
进一步地,在基于每个所述企业的第一风险值和企业知识图谱,确定每个所述企业的第二风险值之前,还包括:将所述第一信息集合中的企业信息输入实体识别模型,输出第二信息集合,其中,所述第二信息集合至少包括:每个所述企业的企业标识、企业间的关联关系;基于所述第二信息集合,构建所述企业知识图谱,并将所述企业知识图谱以三元组的形式存储至目标数据库中。
进一步地,基于每个所述企业的第一风险值和企业知识图谱,确定每个所述企业的第二风险值,包括:基于所述企业知识图谱,确定目标企业的风险传播路径,其中,所述目标企业为M个所述企业的其中之一,所述风险传播路径至少包括:所述企业知识图谱中N个节点,所述N个节点至少包括:所述目标企业对应的目标节点,与所述目标节点存在关联关系的节点;基于所述目标企业的第一风险值和所述风险传播路径,确定每个所述企业的第二风险值。
进一步地,基于所述目标企业的第一风险值和所述风险传播路径,确定每个所述企业的第二风险值,包括:基于所述目标企业的第一风险值和所述风险传播路径中相邻节点之间的关联关系,确定所述风险传播路径中每个节点的第三风险值,其中,所述第三风险值小于所述第一风险值;获取每个所述企业的初始风险值;基于所述风险传播路径中每个节点的第三风险值和每个所述企业的初始风险值,确定每个所述企业的第二风险值。
进一步地,将所述第一信息集合中的企业信息输入风险识别模型,输出每个所述企业的第一风险值,包括:将所述第一信息集合中的企业信息输入所述风险识别模型,对所述企业信息进行分词处理和向量化处理,得到文本向量;将所述文本向量转换为预设格式的目标向量;将目标向量输入所述风险识别模型的分类器,输出每个所述企业的第一风险值。
进一步地,通过网络爬虫技术获取第一信息集合,包括:通过爬虫框架中的调度模块,将待提取企业信息的目标网页存储至目标队列,其中,所述爬虫框架至少包括:所述调度模块、下载模块、页面处理模块;通过所述下载模块,下载所述目标队列中的目标网页;通过所述页面处理模块,提取所述目标网页中目标信息,得到所述第一信息集合,其中,所述目标信息至少包括:与M个所述企业存在关联关系的信息。
进一步地,所述风险识别模型和所述实体识别模型的模型类型至少包括:BERT预训练的语言表征模型,M个所述企业的企业类型至少包括:小微企业。
根据本发明实施例的另一方面,还提供了一种企业风险的确定装置,包括:获取单元,用于通过网络爬虫技术获取第一信息集合,其中,所述第一信息集合包括M个企业的企业信息,M为正整数;第一处理单元,用于将所述第一信息集合中的企业信息输入风险识别模型,输出每个所述企业的第一风险值;确定单元,用于基于每个所述企业的第一风险值和企业知识图谱,确定每个所述企业的第二风险值,其中,所述企业知识图谱中至少包括:每个所述企业关联的节点、表示企业之间的关联关系的关系边,所述第二风险值用于评估所述企业的信贷风险。
进一步地,企业风险的确定装置还包括:第二处理单元,用于在基于每个所述企业的第一风险值和企业知识图谱,确定每个所述企业的第二风险值之前,将所述第一信息集合中的企业信息输入实体识别模型,输出第二信息集合,其中,所述第二信息集合至少包括:每个所述企业的企业标识、企业间的关联关系;第三处理单元,用于基于所述第二信息集合,构建所述企业知识图谱,并将所述企业知识图谱以三元组的形式存储至目标数据库中。
进一步地,确定单元包括:第一确定子单元,用于基于所述企业知识图谱,确定目标企业的风险传播路径,其中,所述目标企业为M个所述企业的其中之一,所述风险传播路径至少包括:所述企业知识图谱中N个节点,所述N个节点至少包括:所述目标企业对应的目标节点,与所述目标节点存在关联关系的节点;第二确定子单元,用于基于所述目标企业的第一风险值和所述风险传播路径,确定每个所述企业的第二风险值。
进一步地,第二确定子单元,包括:第一确定模块,用于基于所述目标企业的第一风险值和所述风险传播路径中相邻节点之间的关联关系,确定所述风险传播路径中每个节点的第三风险值,其中,所述第三风险值小于所述第一风险值;获取模块,用于获取每个所述企业的初始风险值;第二确定模块,用于基于所述风险传播路径中每个节点的第三风险值和每个所述企业的初始风险值,确定每个所述企业的第二风险值。
进一步地,第一处理单元包括:第一处理子单元,用于将所述第一信息集合中的企业信息输入所述风险识别模型,对所述企业信息进行分词处理和向量化处理,得到文本向量;转换子单元,用于将所述文本向量转换为预设格式的目标向量;第二处理子单元,用于将目标向量输入所述风险识别模型的分类器,输出每个所述企业的第一风险值。
进一步地,获取单元包括:存储子单元,用于通过爬虫框架中的调度模块,将待提取企业信息的目标网页存储至目标队列,其中,所述爬虫框架至少包括:所述调度模块、下载模块、页面处理模块;下载子单元,用于通过所述下载模块,下载所述目标队列中的目标网页;提取子单元,用于通过所述页面处理模块,提取所述目标网页中目标信息,得到所述第一信息集合,其中,所述目标信息至少包括:与M个所述企业存在关联关系的信息。
进一步地,所述风险识别模型和所述实体识别模型的模型类型至少包括:BERT预训练的语言表征模型,M个所述企业的企业类型至少包括:小微企业。
根据本发明实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述任意一项的企业风险的确定方法。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的企业风险的确定方法。
在本发明中,通过网络爬虫技术获取第一信息集合,其中,第一信息集合包括M个企业的企业信息,M为正整数;将第一信息集合中的企业信息输入风险识别模型,输出每个企业的第一风险值;基于每个企业的第一风险值和企业知识图谱,确定每个企业的第二风险值,其中,企业知识图谱中至少包括:每个企业关联的节点、表示企业之间的关联关系的关系边,第二风险值用于评估企业的信贷风险。进而解决了相关技术中基于企业本身的企业信息评估小微企业的风险的方式,准确率低的技术问题。在本发明中,通过爬虫技术获取多个企业的企业信息,然后通过风险识别模型和企业知识图谱确定企业的风险值,避免了相关技术中通过单一的企业信息数据评估企业风险,准确率低的情况,从而实现了提高企业风险评估的准确性的技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的企业风险的确定方法的流程图;
图2是根据本发明实施例的一种可选的小微企业实体识别的流程图;
图3是根据本发明实施例的一种可选的小微企业风险识别的流程图;
图4是根据本发明实施例的一种可选的爬虫框架的示意图;
图5是根据本发明实施例的一种可选的企业风险的确定装置的示意图;
图6是根据本发明实施例的一种电子设备的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本公开中的企业风险的确定方法及其装置可用于金融科技领域在评估企业风险的情况下,也可用于除金融科技领域之外的任意领域在评估企业风险的情况下,本公开中对交企业风险的确定方法及其装置的应用领域不做限定。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息、企业信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据,企业数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
实施例一
根据本发明实施例,提供了一种可选的企业风险的确定方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的企业风险的确定方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,通过网络爬虫技术获取第一信息集合,其中,第一信息集合包括M个企业的企业信息,M为正整数。
上述的第一信息集合和可以包括M个企业的企业信息,M个企业的企业信息可以通过网络爬虫技术爬取多个网页中的与企业相关的信息,可以通过网络爬虫技术获取全网新闻、新闻事件、失信被执行人、限制消费、失信企业名单、行政许可、行政处罚、股权投资数据等企业信息,还可以获取股权冻结、违法事件、经营异常事件、行业、行政许可、行政处罚,股权组成、公司投资、任职、失信被执行信息、出质信息等企业信息。
步骤S102,将第一信息集合中的企业信息输入风险识别模型,输出每个企业的第一风险值。
上述的第一风险值可以为通过风险识别模型识别到的企业的风险值,上述的风险识别模型可以为预训练的神经网络模型,可以用于评估第一信息集合中每个企业的第一风险值。
步骤S103,基于每个企业的第一风险值和企业知识图谱,确定每个企业的第二风险值,其中,企业知识图谱中至少包括:每个企业关联的节点、表示企业之间的关联关系的关系边,第二风险值用于评估企业的信贷风险。
上述的企业知识图谱可以包括:节点以及节点间的关系边,每个节点可以对应于与企业相关的实体,例如:企业、股权冻结、违法事件、经营异常事件、行业、行政许可、行政处罚等,节点间的关系边可以表示企业与企业间的关系,还可以用于表示与企业相关的实体与实体之间的关系,例如:法人、股权组成、公司投资、任职、失信被执行信息、出质信息等,上述的企业知识图谱的图谱类型可以为垂直知识图谱。
由于一个企业存在风险,可以影响与该企业存在关联关系的企业的风险情况,因此,在本实施例中,可以基于企业知识图谱,利用每个企业的第一风险值对与每个企业具有关联关系的企业的风险值进行重新评估,得到每个企业的第二风险值。
上述的第二风险值可以用于评估该企业的信贷风险,金融机构可以基于每个企业的第二风险值,按预设规则确定对该企业提供贷款的贷款金额。
通过上述步骤,在本实施例中,通过爬虫技术获取多个企业的企业信息,然后通过风险识别模型和企业知识图谱确定企业的风险值,避免了相关技术中通过单一的企业信息数据评估企业风险,准确率低的情况,从而实现了提高企业风险评估的准确性的技术效果。进而解决了相关技术中基于企业本身的企业信息评估小微企业的风险的方式,准确率低的技术问题。
可选的,在基于每个企业的第一风险值和企业知识图谱,确定每个企业的第二风险值之前,包括:将第一信息集合中的企业信息输入实体识别模型,输出第二信息集合,其中,第二信息集合至少包括:每个企业的企业标识、企业间的关联关系;基于第二信息集合,构建企业知识图谱,并将企业知识图谱以三元组的形式存储至目标数据库中。
在本实施例中,上述的实体识别模型可以为预训练的神经网络模型,模型类型可以为预训练的BERT模型。上述的实体识别模型可以用于基于企业信息分析出与企业相关的实体以及实体间的关系,实体可以包括:企业、股权冻结、违法事件、经营异常事件、行业、行政许可、行政处罚等,实体间的关系可以包括:法人、股权组成、公司投资、任职、失信被执行信息、出质信息等。例如:从第一信息集合中M个企业的企业信息分析出每个企业的企业标识以及企业与企业间的关联关系,得到第二信息集合,其中,企业标识可以为企业名称。
例如:小微企业实体识别模型可以使用预训练的BERT模型,图2是根据本发明实施例的一种可选的小微企业实体识别的流程图,如图2所示,可以将多条文本数据(如图2中多种某某企业发生严重债务违约,对应于第一信息集合中的企业数据)作为输入,使用Encoder对文本进行编码,实体识别模型的处理过程包括:
(1)使用预训练的BERT对输入数据进行分词,生成文本向量Tokenizer;
(2)文本向量Tokenizer经过BERT模型转换为Embedding向量(一种计算机可处理格式的向量);
(3)将转换后的Embedding向量输入小微企业实体分类器输出结果,得到其中的企业信息(即企业关联的实体,以及实体间的关系)。
为了更好地适应金融行业对小微企业的风险评估和预警,本实施例中的企业知识图谱可以采用基于行业的垂直知识图谱。图谱中的数据可以为第二信息集合中的数据,并可以以三元组(包括:企业关联的实体,以及实体间的关系,如:(实体,关系,实体))的形式存储到服务器。小微企业舆情数据知识图谱(即企业知识图谱)实体可以为:企业、股权冻结、违法事件、经营异常事件、行业、行政许可、行政处罚,知识图谱关系包括法人、股权组成、公司投资、任职、失信被执行信息、出质信息等。
为了便于对小微企业舆情数据知识图谱进行查询分析,小微企业舆情数据知识图谱读取并导入图数据库中,通过图数据库的查询和分析功能,对该知识图谱进行查询分析,可以包对小微企业舆情数据知识图谱数据的查询以及风险传播分析,对知识图谱数据的查询以及风险传播分析,可以基于Neo4j(一种图形数据库)对外提供基于二进制协议Bolt(一种用于数据库应用程序设计的客户端-服务器协议)以及Http(超文本传输安全协议)为基础协议的多种语言的客户端,以及以Cypher(一种图查询语言)为主的多种查询语言,在本实施例中,可以使用Neo4j作为数据库实例,以Cypher为主要语言,通过Java Client进行企业关联数据库的访问。
可选的,基于每个企业的第一风险值和企业知识图谱,确定每个企业的第二风险值,包括:基于企业知识图谱,确定目标企业的风险传播路径,其中,目标企业为M个企业的其中之一,风险传播路径至少包括:企业知识图谱中N个节点,N个节点至少包括:目标企业对应的目标节点,与目标节点存在关联关系的节点;基于目标企业的第一风险值和风险传播路径,确定每个企业的第二风险值。
在本实施例中,目标企业的风险R初始值为R0(对应于上述的目标企业的第一风险值),从发生风险事件的起始企业(即目标企业)节点E0(目标企业在企业知识图谱中对应的目标节点)开始传播,风险传播路径为与目标企业存在关联关系的边(如:所有投资关系边)。在经过存在关联关系的边(如:投资关系边)I0的一轮传播之后,风险到达节点E1,对应的风险数值可以降低为新的R1,通过这种方式对已经发生的风险进行传播,并在传播过程中逐渐对风险值进行衰减。整个风险传播流程如此反复,直至风险降低到用户设定的阈值后停止传播。
需要说明的是,在目标企业的第一风险值,基于风险传播路径进行风险传播过程中,可以基于关联关系的类型以及关联关系的强弱(如企业与企业间存在投资关系,投资金额数据),确定目标企业的第一风险值到该风险传播路径到关联的下一个节点的风险值,该下一个节点可以基于接收的风险值更新该节点对应的企业的风险值,得到该企业的第二风险值,
例如:企业A(目标企业)的第一风险值为a,基于知识图谱,查询到企业A存在关联关系的下一企业为企业B(企业A与企业B的关系为投资关系,投资金额为c),可以基于投资金额c根据预设规则确定衰减风险值d,则企业A的第一风险值a传播到企业B的风险值为a-d,企业B可以基于接收的风险值a-d与企业B的初始风险值,根据预设计算方式确定企业B的第二风险值。在本实施例中,可以将每个企业作为目标企业,基于风险传播路径进行风险传播,每个企业可以接收的风险传播值和自身的初始风险值,采用预设计算方式,确定自身的第二风险值,其中,预设计算方式可以包括但不限于:求和、求平均数等。避免了通过单一企业的企业信息评估企业风险的准确率低的情况,实现了提高评估企业风险的准确率的技术效果。
可选的,基于目标企业的第一风险值和风险传播路径,确定每个企业的第二风险值,包括:基于目标企业的第一风险值和风险传播路径中相邻节点之间的关联关系,确定风险传播路径中每个节点的第三风险值,其中,第三风险值小于第一风险值;获取每个企业的初始风险值;基于风险传播路径中每个节点的第三风险值和每个企业的初始风险值,确定每个企业的第二风险值。
例如:企业A(目标企业)的第一风险值为a,基于知识图谱,查询到企业A存在关联关系的下一企业为企业B(企业A与企业B的关系为投资关系,投资金额为c),可以基于投资金额c根据预设规则确定衰减风险值d,则企业A的第一风险值a传播到企业B的风险值为a-d(对应于上述的第三风险值),企业B可以基于接收的风险值a-d与企业B的初始风险值,根据预设计算方式确定企业B的第二风险值。在本实施例中,可以将每个企业作为目标企业,基于风险传播路径进行风险传播,每个企业可以接收的风险传播值和自身的初始风险值,采用预设计算方式,确定自身的第二风险值,其中,预设计算方式可以包括但不限于:求和、求平均数等,避免了通过单一企业的企业信息评估企业风险的准确率低的情况,实现了提高评估企业风险的准确率的技术效果。
可选的,将第一信息集合中的企业信息输入风险识别模型,输出每个企业的第一风险值,包括:将第一信息集合中的企业信息输入风险识别模型,对企业信息进行分词处理和向量化处理,得到文本向量;将文本向量转换为预设格式的目标向量;将目标向量输入风险识别模型的分类器,输出每个企业的第一风险值。
上述的风险识别模型可以使用预训练的BERT模型,图3是根据本发明实施例的一种可选的小微企业风险识别的流程图,如图3所示,将多条文本数据(如图3中“某某企业发生严重债务违约,即第一信息集合中的企业信息)作为输入,通过分类器识别每个企业的风险强度(即第一风险值,如图3中的0.972)。具体包括:
(1)使用预训练的BERT对输入模型进行分词,生成文本向量Tokenizer;
(2)文本向量Tokenizer经过BERT模型转换为Embedding(特征)向量(对应于预设格式的目标向量,计算机可以识别处理的向量);
(3)将转换后的Embedding向量输入小微企业风险强度分类器输出结果,得到该企业的风险强度。
本实施例中,预训练的BERT模型,可以通过以下方式得到;获取历史时间段的多个企业的企业信息,标记每个企业的风险值,得到训练样本,通过该训练样本对未训练的BERT模型进行模型训练,得到上述的风险识别模型,实现了精准识别企业风险的风险值的技术效果。
可选的,通过网络爬虫技术获取第一信息集合,包括:通过爬虫框架中的调度模块,将待提取企业信息的目标网页存储至目标队列,其中,爬虫框架至少包括:调度模块、下载模块、页面处理模块;通过下载模块,下载目标队列中的目标网页;通过页面处理模块,提取目标网页中目标信息,得到第一信息集合,其中,目标信息至少包括:与M个企业存在关联关系的信息。
图4是根据本发明实施例的一种可选的爬虫框架的示意图,下面结合图4中的爬虫框架,对本实施例中对需爬取的网页进行爬取,得到第一信息集合的过程进行说明:
(1)调度器Schedulaer(对应于上述的调度模块)识别目标网页并将其加入目标队列;
(2)下载器Downloader(对应于上述的下载模块)下载目标网页;
(3)页面处理器PageProcesser(对应于上述的页面处理模块)处理目标网页中的企业对象并返回ResultItems(结果,对应于上述的目标信息);
(4)Pipeline(结果输出模块)接收ResultItems并将结果输出。
通过网络爬虫技术,获取企业的企业信息,实现了提高评估企业风险的企业信息数据丰富性的技术效果。
可选的,风险识别模型和实体识别模型的模型类型至少包括:BERT预训练的语言表征模型,M个企业的企业类型至少包括:小微企业。
本实施中的风险识别模块和实体识别模型的模型类型可以包括BERT预训练的语言表征模型,本实施例中的企业可以为小微企业,实现了提高小微企业的风险识别的准确率的技术效果。
通过本实施例,可以结合小微企业多方面的舆情数据,构建小微企业间的知识图谱,通过投资关系计算每个节点上企业的风险,有效识别小微企业的风险强度,以准确评估小微企业的信贷风险,实现了提高小微企业的风险评估的准确率的技术效果。
实施例二
本申请实施例二提供了一种可选的企业风险的确定装置,该确定装置中的各个实施单元对应于实施例一中的各个实施步骤。
图5是根据本发明实施例的一种可选的企业风险的确定装置的示意图,如图5所示,该确定装置包括:获取单元51、第一处理单元52以及确定单元53。
具体的,获取单元51,用于通过网络爬虫技术获取第一信息集合,其中,第一信息集合包括M个企业的企业信息,M为正整数;
第一处理单元52,用于将第一信息集合中的企业信息输入风险识别模型,输出每个企业的第一风险值;
确定单元53,用于基于每个企业的第一风险值和企业知识图谱,确定每个企业的第二风险值,其中,企业知识图谱中至少包括:每个企业关联的节点、表示企业之间的关联关系的关系边,第二风险值用于评估企业的信贷风险。
在本申请实施例二提供的企业风险的确定装置中,可以通过获取单元51通过网络爬虫技术获取第一信息集合,其中,第一信息集合包括M个企业的企业信息,M为正整数,通过第一处理单元52将第一信息集合中的企业信息输入风险识别模型,输出每个企业的第一风险值,通过确定单元53基于每个企业的第一风险值和企业知识图谱,确定每个企业的第二风险值,其中,企业知识图谱中至少包括:每个企业关联的节点、表示企业之间的关联关系的关系边,第二风险值用于评估企业的信贷风险。进而解决了相关技术中基于企业本身的企业信息评估小微企业的风险的方式,准确率低的技术问题。在本实施例中,通过爬虫技术获取多个企业的企业信息,然后通过风险识别模型和企业知识图谱确定企业的风险值,避免了相关技术中通过单一的企业信息数据评估企业风险,准确率低的情况,从而实现了提高企业风险评估的准确性的技术效果。
可选的,在本申请实施例二提供的企业风险的确定装置中,企业风险的确定装置还包括:第二处理单元,用于在基于每个企业的第一风险值和企业知识图谱,确定每个企业的第二风险值之前,将第一信息集合中的企业信息输入实体识别模型,输出第二信息集合,其中,第二信息集合至少包括:每个企业的企业标识、企业间的关联关系;第三处理单元,用于基于第二信息集合,构建企业知识图谱,并将企业知识图谱以三元组的形式存储至目标数据库中。
可选的,在本申请实施例二提供的企业风险的确定装置中,确定单元包括:第一确定子单元,用于基于企业知识图谱,确定目标企业的风险传播路径,其中,目标企业为M个企业的其中之一,风险传播路径至少包括:企业知识图谱中N个节点,N个节点至少包括:目标企业对应的目标节点,与目标节点存在关联关系的节点;第二确定子单元,用于基于目标企业的第一风险值和风险传播路径,确定每个企业的第二风险值。
可选的,在本申请实施例二提供的企业风险的确定装置中,第二确定子单元,包括:第一确定模块,用于基于目标企业的第一风险值和风险传播路径中相邻节点之间的关联关系,确定风险传播路径中每个节点的第三风险值,其中,第三风险值小于第一风险值;获取模块,用于获取每个企业的初始风险值;第二确定模块,用于基于风险传播路径中每个节点的第三风险值和每个企业的初始风险值,确定每个企业的第二风险值。
可选的,在本申请实施例二提供的企业风险的确定装置中,第一处理单元包括:第一处理子单元,用于将第一信息集合中的企业信息输入风险识别模型,对企业信息进行分词处理和向量化处理,得到文本向量;转换子单元,用于将文本向量转换为预设格式的目标向量;第二处理子单元,用于将目标向量输入风险识别模型的分类器,输出每个企业的第一风险值。
可选的,在本申请实施例二提供的企业风险的确定装置中,获取单元包括:存储子单元,用于通过爬虫框架中的调度模块,将待提取企业信息的目标网页存储至目标队列,其中,爬虫框架至少包括:调度模块、下载模块、页面处理模块;下载子单元,用于通过下载模块,下载目标队列中的目标网页;提取子单元,用于通过页面处理模块,提取目标网页中目标信息,得到第一信息集合,其中,目标信息至少包括:与M个企业存在关联关系的信息。
可选的,在本申请实施例二提供的企业风险的确定装置中,风险识别模型和实体识别模型的模型类型至少包括:BERT预训练的语言表征模型,M个企业的企业类型至少包括:小微企业。
上述的企业风险的确定装置还可以包括处理器和存储器,上述的获取单元51、第一处理单元52以及确定单元53等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来基于爬虫技术获取多个企业的企业信息,然后通过风险识别模型和企业知识图谱确定企业的风险值,避免了相关技术中通过单一的企业信息数据评估企业风险,准确率低的情况,从而实现了提高企业风险评估的准确性的技术效果。
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
根据本发明实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述任意一项的企业风险的确定方法。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的企业风险的确定方法。
图6是根据本发明实施例的一种电子设备的示意图,如图6所示,本发明实施例提供了一种电子设备60,电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现上述任意一项的企业风险的确定方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种企业风险的确定方法,其特征在于,包括:
通过网络爬虫技术获取第一信息集合,其中,所述第一信息集合包括M个企业的企业信息,M为正整数;
将所述第一信息集合中的企业信息输入风险识别模型,输出每个所述企业的第一风险值;
基于每个所述企业的第一风险值和企业知识图谱,确定每个所述企业的第二风险值,其中,所述企业知识图谱中至少包括:每个所述企业关联的节点、表示企业之间的关联关系的关系边,所述第二风险值用于评估所述企业的信贷风险。
2.根据权利要求1所述的确定方法,其特征在于,在基于每个所述企业的第一风险值和企业知识图谱,确定每个所述企业的第二风险值之前,还包括:
将所述第一信息集合中的企业信息输入实体识别模型,输出第二信息集合,其中,所述第二信息集合至少包括:每个所述企业的企业标识、企业间的关联关系;
基于所述第二信息集合,构建所述企业知识图谱,并将所述企业知识图谱以三元组的形式存储至目标数据库中。
3.根据权利要求1所述的确定方法,其特征在于,基于每个所述企业的第一风险值和企业知识图谱,确定每个所述企业的第二风险值,包括:
基于所述企业知识图谱,确定目标企业的风险传播路径,其中,所述目标企业为M个所述企业的其中之一,所述风险传播路径至少包括:所述企业知识图谱中N个节点,所述N个节点至少包括:所述目标企业对应的目标节点,与所述目标节点存在关联关系的节点;
基于所述目标企业的第一风险值和所述风险传播路径,确定每个所述企业的第二风险值。
4.根据权利要求3所述的确定方法,其特征在于,基于所述目标企业的第一风险值和所述风险传播路径,确定每个所述企业的第二风险值,包括:
基于所述目标企业的第一风险值和所述风险传播路径中相邻节点之间的关联关系,确定所述风险传播路径中每个节点的第三风险值,其中,所述第三风险值小于所述第一风险值;
获取每个所述企业的初始风险值;
基于所述风险传播路径中每个节点的第三风险值和每个所述企业的初始风险值,确定每个所述企业的第二风险值。
5.根据权利要求1所述的确定方法,其特征在于,将所述第一信息集合中的企业信息输入风险识别模型,输出每个所述企业的第一风险值,包括:
将所述第一信息集合中的企业信息输入所述风险识别模型,对所述企业信息进行分词处理和向量化处理,得到文本向量;
将所述文本向量转换为预设格式的目标向量;
将目标向量输入所述风险识别模型的分类器,输出每个所述企业的第一风险值。
6.根据权利要求1所述的确定方法,其特征在于,通过网络爬虫技术获取第一信息集合,包括:
通过爬虫框架中的调度模块,将待提取企业信息的目标网页存储至目标队列,其中,所述爬虫框架至少包括:所述调度模块、下载模块、页面处理模块;
通过所述下载模块,下载所述目标队列中的目标网页;
通过所述页面处理模块,提取所述目标网页中目标信息,得到所述第一信息集合,其中,所述目标信息至少包括:与M个所述企业存在关联关系的信息。
7.根据权利要求2所述的确定方法,其特征在于,所述风险识别模型和所述实体识别模型的模型类型至少包括:BERT预训练的语言表征模型,M个所述企业的企业类型至少包括:小微企业。
8.一种企业风险的确定装置,其特征在于,包括:
获取单元,用于通过网络爬虫技术获取第一信息集合,其中,所述第一信息集合包括M个企业的企业信息,M为正整数;
第一处理单元,用于将所述第一信息集合中的企业信息输入风险识别模型,输出每个所述企业的第一风险值;
确定单元,用于基于每个所述企业的第一风险值和企业知识图谱,确定每个所述企业的第二风险值,其中,所述企业知识图谱中至少包括:每个所述企业关联的节点、表示企业之间的关联关系的关系边,所述第二风险值用于评估所述企业的信贷风险。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的企业风险的确定方法。
10.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任意一项所述的企业风险的确定方法。
CN202310345304.0A 2023-03-31 2023-03-31 企业风险的确定方法、装置、存储介质及电子设备 Pending CN116757820A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310345304.0A CN116757820A (zh) 2023-03-31 2023-03-31 企业风险的确定方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310345304.0A CN116757820A (zh) 2023-03-31 2023-03-31 企业风险的确定方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN116757820A true CN116757820A (zh) 2023-09-15

Family

ID=87953903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310345304.0A Pending CN116757820A (zh) 2023-03-31 2023-03-31 企业风险的确定方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN116757820A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117273935A (zh) * 2023-09-25 2023-12-22 江门职业技术学院 一种基于区块链技术的供应链金融风控系统及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117273935A (zh) * 2023-09-25 2023-12-22 江门职业技术学院 一种基于区块链技术的供应链金融风控系统及方法

Similar Documents

Publication Publication Date Title
US9990356B2 (en) Device and method for analyzing reputation for objects by data mining
Spilker et al. The impact of preferential trade agreements on governmental repression revisited
CN116342259A (zh) 一种用户信用自动评级方法、装置、电子设备及介质
CN112102073A (zh) 信贷风险控制方法及系统、电子设备及可读存储介质
CN116757820A (zh) 企业风险的确定方法、装置、存储介质及电子设备
Parra Domínguez et al. Relationship between police efficiency and crime rate: a worldwide approach
CN112308638A (zh) 一种虚开发票行为检测方法、装置、电子设备及存储介质
CN112016850A (zh) 业务评估方法以及装置
Chiu et al. Using textual analysis to detect initial coin offering frauds
CN114493686A (zh) 一种运营内容生成推送方法及装置
Owda et al. Financial discussion boards irregularities detection system (fdbs-ids) using information extraction
Galmarini et al. The runaway taxpayer: Or: is prior tax notice effective against scofflaws?
CN112712270B (zh) 信息处理方法、装置、设备及存储介质
CN114238280A (zh) 构建金融敏感信息标准库的方法、装置及电子设备
Abi-Lahoud et al. On the road to regulatory ontologies: Interpreting regulations with SBVR
CN113343685A (zh) 一种消息异常检测方法及装置
CN114880369A (zh) 一种基于弱数据技术的风险授信方法和系统
Dohlmann Self-employment among male immigrants in Denmark
Cristea Can Alternative Data Improve the Accuracy of Dynamic Factor Model Nowcasts?
Edkins Risk Disclosure and Re-establishing Legitimacy in the Event of a Crisis-Did Northern Rock Use Risk Disclosure to Repair Legitimacy after their 2007 Collapse?
EP3073432A1 (en) Country specific revenue estimation
Lagusto Predicting Fraudulent Financial Statement using Textual Analysis and Machine-Learning Techniques
CN118037430A (zh) 用户信贷违约的预测方法、装置、电子设备及存储介质
CN110334351B (zh) 一种基于短信读取进行网贷推荐的方法及装置
CN115186896A (zh) 用户流失的预警方法、装置、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination