CN113393320B - 企业金融服务风险预测方法及装置 - Google Patents

企业金融服务风险预测方法及装置 Download PDF

Info

Publication number
CN113393320B
CN113393320B CN202110690985.5A CN202110690985A CN113393320B CN 113393320 B CN113393320 B CN 113393320B CN 202110690985 A CN202110690985 A CN 202110690985A CN 113393320 B CN113393320 B CN 113393320B
Authority
CN
China
Prior art keywords
enterprise
tag
data
label
financial service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110690985.5A
Other languages
English (en)
Other versions
CN113393320A (zh
Inventor
倪灵
陈李龙
王娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110690985.5A priority Critical patent/CN113393320B/zh
Publication of CN113393320A publication Critical patent/CN113393320A/zh
Application granted granted Critical
Publication of CN113393320B publication Critical patent/CN113393320B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Technology Law (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供一种企业金融服务风险预测方法及装置,可用于人工智能技术领域,方法包括:根据各个标签已知的历史企业数据各自对应的标签类型分别形成各类标签分别对应的列标签数据表;应用预设的伪标签动态创建方式,对各个所述列标签数据表分别执行针对标签未知的外部企业数据的伪标签迭代过程,直至形成各类标签分别对应的子分类器;将各个所述子分类器集成为一投票器,并根据该投票器和预设的标签类型占比数据生成金融服务风险预测模型。本申请能够在有效降低企业金融服务风险预测过程所耗费的人力成本并提高效率的基础上,有效提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及智能化程度。

Description

企业金融服务风险预测方法及装置
技术领域
本申请涉及数据处理技术领域,特别涉及人工智能技术领域,具体涉及企业金融服务风险预测方法及装置。
背景技术
现有银行评级指标对于有交易数据的客户准确率非常高,但对于行外企业用户,由于缺乏有效信息,难以准确衡量其风险。银行服务的客群下沉,服务对象更多变为现有评价体系覆盖力不足的小微企业。
为了对这些行外企业用户进行企业金融服务风险评估,可以应用专家规则来实现,但专家规则需要长时间的人力经验积累和探索,无法满足金融服务的效率要求。且银行已经服务的小微企业客户不能覆盖全量小企业,而基于小企业的独特特性,也难以由专家规则全量覆盖,需要借助机器学习的方式来为其打分。
而相较于专家规则,机器学习显然可以减少人力成本,通过构建机器学习模型来预测行外企业用户的企业金融服务风险,但一个成功的机器学习模型需要依赖大量带标签数据开展训练。传统评级的评分卡一般基于历史样本开展建模工作,有大量正负样本可供建模,但行外企业用户由于缺乏标签,建模效果相比行内企业客户下降剧烈。也就是说,现有的企业金融服务风险预测方式无法同时满足预测效率及预测准确性的要求。
发明内容
针对现有技术中的问题,本申请提供一种企业金融服务风险预测方法及装置,能够在有效降低企业金融服务风险预测过程所耗费的人力成本并提高效率的基础上,有效提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及智能化程度。
为解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供一种企业金融服务风险预测方法,包括:
根据各个标签已知的历史企业数据各自对应的标签类型分别形成各类标签分别对应的列标签数据表;
应用预设的伪标签动态创建方式,对各个所述列标签数据表分别执行针对标签未知的外部企业数据的伪标签迭代过程,直至形成各类标签分别对应的子分类器;
将各个所述子分类器集成为一投票器,并根据该投票器和预设的标签类型占比数据生成金融服务风险预测模型,以基于该金融服务风险预测模型对当前未经金融服务授权的目标企业进行金融服务风险预测。
进一步地,还包括:
获取当前未经金融服务授权的目标企业的企业信息;
将所述目标企业的企业信息输入预设的金融服务风险预测模型,并将该金融服务风险预测模型的输出作为该目标企业的金融服务风险预测等级,以基于该金融服务风险预测等级确定是否向所述目标企业提供金融服务。
进一步地,在所述根据各个标签已知的历史企业数据各自对应的标签类型分别形成各类标签分别对应的列标签数据表之前,还包括:
根据标签已知的历史企业数据生成对应的第一数据集,该第一数据集中包含有各个历史企业的企业信息和各个标签类型之间的一一对应关系;
基于预设的迁移学习方式,应用标签未知的历史企业数据和标签未知的外部企业数据形成一合并数据集,其中,该合并数据集用于存储各个标签未知的历史企业用户标识、企业信息和第一阈标签之间的对应关系,还用于存储各个标签未知的外部企业用户标识、企业信息和第二阈标签之间的对应关系,且所述第一阈标签和所述第二阈标签取值不同;
应用所述合并数据集训练第一分类器,并基于该第一分类器获取的所述合并数据集中的标签预测值,对不同的标签预测数值范围分别对应的权重值进行调整以形成目标权重集,其中,所述目标权重集用于存储各个所述标签预测数值范围与调整后权重之间的一一对应关系;
根据所述目标权重集对所述第一数据集进行重采样处理,以形成经重采样处理后的第一数据集。
进一步地,所述根据各个标签已知的历史企业数据各自对应的标签类型分别形成各类标签分别对应的列标签数据表,包括:
根据经重采样处理后的第一数据集中的标签类型,在所述第一数据集中分别且单独增加与其中一类标签唯一对应的标签列,以形成各类标签分别对应的列标签数据表;
其中,所述列标签数据表中的标签列唯一对应的标签类型在所述标签列中均显示为第一列标签,所述列标签数据表中的未与标签列对应的其他标签类型在所述标签列中均显示为第二列标签;且所述第一列标签和第二列标签取值不同。
进一步地,所述针对标签未知的外部企业数据的伪标签迭代过程,包括:
执行预设的伪标签构建步骤,以根据当前标签类型的列标签数据表得到对应的子分类器和包含有伪标签的新的列标签数据表;
将当前的迭代次数加1,并判断该迭代次数是否已到达预设的次数阈值或新的列标签数据表已收敛;
若是,则将当前的子分类器确定为当前标签类型对应的目标子分类器;
若否,则基于新的列标签数据表返回执行所述伪标签构建步骤。
进一步地,所述伪标签构建步骤,包括:
基于当前的列标签数据表训练第二分类器,并基于该第二分类器对标签未知的外部企业数据进行标签预测,以生成包含有各个标签未知的外部企业的企业信息分别对应的伪标签的第二数据集;
将所述列标签数据表与所述第二数据集进行数据混合,并基于数据混合后的列标签数据表和第二数据集训练子分类器,对当前迭代中的所述列标签数据表内的正样本分类错误的样本进行重采样,以形成所述列标签数据表对应的包含有伪标签的新的列标签数据表。
进一步地,所述将各个所述子分类器集成为一投票器,并根据该投票器和预设的标签类型占比数据生成金融服务风险预测模型,包括:
基于所述投票器和预设的标签类型占比数据,对所述标签未知的外部企业用户数据对应的第一数据表中的各个企业分别进行评分以生成对应的评级函数,将该评级函数作为所述金融服务风险预测模型。
第二方面,本申请提供一种企业金融服务风险预测装置,包括:
列标签获取模块,用于根据各个标签已知的历史企业数据各自对应的标签类型分别形成各类标签分别对应的列标签数据表;
伪标签构建模块,用于应用预设的伪标签动态创建方式,对各个所述列标签数据表分别执行针对标签未知的外部企业数据的伪标签迭代过程,直至形成各类标签分别对应的子分类器;
预测模型生成模块,用于将各个所述子分类器集成为一投票器,并根据该投票器和预设的标签类型占比数据生成金融服务风险预测模型,以基于该金融服务风险预测模型对当前未经金融服务授权的目标企业进行金融服务风险预测。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的企业金融服务风险预测方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的企业金融服务风险预测方法。
由上述技术方案可知,本申请提供的一种企业金融服务风险预测方法及装置,方法包括:根据各个标签已知的历史企业数据各自对应的标签类型分别形成各类标签分别对应的列标签数据表;应用预设的伪标签动态创建方式,对各个所述列标签数据表分别执行针对标签未知的外部企业数据的伪标签迭代过程,直至形成各类标签分别对应的子分类器;将各个所述子分类器集成为一投票器,并根据该投票器和预设的标签类型占比数据生成金融服务风险预测模型,以基于该金融服务风险预测模型对当前未经金融服务授权的目标企业进行金融服务风险预测,通过应用预设的伪标签动态创建方式,对各个所述列标签数据表分别执行针对标签未知的外部企业数据的伪标签迭代过程,直至形成各类标签分别对应的子分类器;将各个所述子分类器集成为一投票器,能够通过伪标签的动态构造实现数据标签的优化,能够有效解决行外小企业缺乏标签标注、难以量化评价的问题,进而能够有效提升仅有少量标注样本情况下企业评分的准确性;通过根据投票器和预设的标签类型占比数据生成金融服务风险预测模型,能够在有效降低企业金融服务风险预测过程所耗费的人力成本并提高效率的基础上,有效提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及智能化程度,尤其针对小微企业,能够有效解决针对小微企业的模型训练样本中标签不足及不准确的问题,以及向申请金融服务的企业反馈风险预测结果的效率,能够提高金融机构为企业提供金融服务的针对性及可靠性,进而能够提高金融机构的运转可靠性及安全性,以提高金融机构和向金融机构申请金融服务的企业的用户体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中的企业金融服务风险预测装置与客户端设备之间的交互示意图。
图2是本申请实施例中的企业金融服务风险预测方法的第一种流程示意图。
图3是本申请实施例中的企业金融服务风险预测方法的第二种流程示意图。
图4是本申请实施例中的企业金融服务风险预测方法的第三种流程示意图。
图5是本申请实施例中的企业金融服务风险预测方法的第四种流程示意图。
图6是本申请实施例中的企业金融服务风险预测方法中步骤200中的针对标签未知的外部企业数据的伪标签迭代过程的具体流程示意图。
图7是本申请实施例中的企业金融服务风险预测方法中步骤210中的伪标签构建步骤的具体流程示意图。
图8是本申请实施例中的企业金融服务风险预测方法的第五种流程示意图。
图9是本申请实施例中的企业金融服务风险预测装置的结构示意图。
图10是本申请应用实例的企业金融服务风险预测方法的流程示意图。
图11是本申请实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请公开的企业金融服务风险预测方法和装置可用于人工智能技术领域,也可用于除人工智能技术领域之外的任意领域,本申请公开的企业金融服务风险预测方法和装置的应用领域不做限定。
评分卡是一种常见的对企业信用评级的机制,通常使用解释性较好的逻辑回归模型、决策树等模型,方便业务人员操作和理解。主要步骤是将确定好的特征逐项计算评分卡中各指标并加总得到总分,再结合政策或业务需求决定阈值,划定最终等级。
传统评级的评分卡一般基于行内历史交易行为开展建模工作,有大量正负样本可供建模,且其评级维度较少。本次建模的对象为小微企业,由于绝大部分小企业非银行客户,其流水等较少,无法直接定义其评级,建模较难开展。
考虑到现有的针对小微企业的企业金融服务风险预测方式,由于行外评分对象标签不足的问题,使得现有的金融服务风险预测方法存在无法满足对事先并未在银行进行注册的企业进行风险预测的效率及准确性要求的问题,基于此,本申请实施例提供一种企业金融服务风险预测方法,根据各个标签已知的历史企业数据各自对应的标签类型分别形成各类标签分别对应的列标签数据表;应用预设的伪标签动态创建方式,对各个所述列标签数据表分别执行针对标签未知的外部企业数据的伪标签迭代过程,直至形成各类标签分别对应的子分类器;将各个所述子分类器集成为一投票器,并根据该投票器和预设的标签类型占比数据生成金融服务风险预测模型,以基于该金融服务风险预测模型对当前未经金融服务授权的目标企业进行金融服务风险预测,通过应用预设的伪标签动态创建方式,对各个所述列标签数据表分别执行针对标签未知的外部企业数据的伪标签迭代过程,直至形成各类标签分别对应的子分类器;将各个所述子分类器集成为一投票器,能够通过伪标签的动态构造实现数据标签的优化,能够有效解决行外小企业缺乏标签标注、难以量化评价的问题,进而能够有效提升仅有少量标注样本情况下企业评分的准确性;通过根据投票器和预设的标签类型占比数据生成金融服务风险预测模型,能够在有效降低企业金融服务风险预测过程所耗费的人力成本并提高效率的基础上,有效提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及智能化程度,尤其针对小微企业,能够有效解决针对小微企业的模型训练样本中标签不足及不准确的问题,以及向申请金融服务的企业反馈风险预测结果的效率,能够提高金融机构为企业提供金融服务的针对性及可靠性,进而能够提高金融机构的运转可靠性及安全性,以提高金融机构和向金融机构申请金融服务的企业的用户体验。
基于上述内容,本申请还提供一种用于实现本申请一个或多个实施例中提供的企业金融服务风险预测方法的企业金融服务风险预测装置,参见图1,该企业金融服务风险预测装置可以与客户端设备之间进行通信连接,所述企业金融服务风险预测装置可以接收客户端设备发送的针对当前未经金融服务授权的目标企业的企业金融服务风险预测请求,而后企业金融服务风险预测装置获取当前未经金融服务授权的目标企业的企业信息;将所述目标企业的企业信息输入预设的金融服务风险预测模型,并将该金融服务风险预测模型的输出作为该目标企业的金融服务风险预测等级,以基于该金融服务风险预测等级确定是否向所述目标企业提供金融服务。
在一种实际应用情形中,所述企业金融服务风险预测装置可以采用服务器实现;所述服务器可以与至少一个客户端设备之间通信连接。
可以理解的是,所述客户端设备可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
在另一种实际应用情形中,前述的企业金融服务风险预测装置进行企业金融服务风险预测的部分可以在如上述内容的服务器中执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器,用于企业金融服务风险预测的具体处理。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
上述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信,包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然,所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol,远程过程调用协议)、REST协议(Representational State Transfer,表述性状态转移协议)等。
具体通过下述各个实施例及应用实例分别进行详细说明。
为了解决现有的金融服务风险预测方法无法满足对事先并未在银行进行注册的企业进行风险预测的效率及准确性要求等问题,本申请提供一种企业金融服务风险预测方法的实施例,参见图2,应用企业金融服务风险预测装置执行的所述企业金融服务风险预测方法具体包含有如下内容:
步骤100:根据各个标签已知的历史企业数据各自对应的标签类型分别形成各类标签分别对应的列标签数据表。
在步骤100中,标签类型包含有至少两个评分等级,在一种具体举例中,可以包含有A、B、C和D这四个评分等级,其中,A代表其对应的企业的运营状况良好等,并不存在金融服务风险;B代表其对应的企业的运营状况存在少量问题(少于阈值5件)但并不影响其实际运营情形,存在的金融服务风险很低(例如小于20%);C代表其对应的企业的运营状况存在的问题多于阈值且已影响到了其实际运营情形,存在的金融服务风险很高(例如在20%至60%之间),而D代表其对应的企业的运营状况存在严重问题(核心事项出现问题或者出现问题的数量大于阈值5件等),对其实际运营产生了重大影响,存在的金融服务风险特比高(例如大于60%)。
可以理解的是,列标签数据表是指包含有各个标签已知的历史企业数据各自对应的自定义的列标签的数据表,在该列标签数据表中,可以包含有各个标签已知的历史企业的企业信息、标签(A、B、C或D)和列标签(1或0)之间的对应关系。
具体来说,各类标签分别对应的列标签数据表是指在一个列标签数据表中,唯一包含的标签列与一种标签对应。例如,在一与标签A对应的列标签数据表中的标签列中,标签为A的企业在该标签列中对应的列标签为1,其他标签B、C和D在该标签列中对应的列标签均为0。
步骤200:应用预设的伪标签动态创建方式,对各个所述列标签数据表分别执行针对标签未知的外部企业数据的伪标签迭代过程,直至形成各类标签分别对应的子分类器。
步骤300:将各个所述子分类器集成为一投票器,并根据该投票器和预设的标签类型占比数据生成金融服务风险预测模型,以基于该金融服务风险预测模型对当前未经金融服务授权的目标企业进行金融服务风险预测。
从上述描述可知,本申请实施例提供的企业金融服务风险预测方法,通过应用预设的伪标签动态创建方式,对各个所述列标签数据表分别执行针对标签未知的外部企业数据的伪标签迭代过程,直至形成各类标签分别对应的子分类器;将各个所述子分类器集成为一投票器,能够通过伪标签的动态构造实现数据标签的优化,能够有效解决行外小企业缺乏标签标注、难以量化评价的问题,进而能够有效提升仅有少量标注样本情况下企业评分的准确性;通过根据投票器和预设的标签类型占比数据生成金融服务风险预测模型,能够在有效降低企业金融服务风险预测过程所耗费的人力成本并提高效率的基础上,有效提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及智能化程度,尤其针对小微企业,能够有效解决针对小微企业的模型训练样本中标签不足及不准确的问题,以及向申请金融服务的企业反馈风险预测结果的效率,能够提高金融机构为企业提供金融服务的针对性及可靠性,进而能够提高金融机构的运转可靠性及安全性,以提高金融机构和向金融机构申请金融服务的企业的用户体验。
为了进一步提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及智能化程度,在本申请提供的企业金融服务风险预测方法的一个实施例,参见图3,所述企业金融服务风险预测方法的步骤300之后还具体包含有如下内容:
步骤400:获取当前未经金融服务授权的目标企业的企业信息。
可以理解的是,所述未经金融服务授权的目标企业或者外部企业均是指尚未成为目标金融机构的客户的企业,在本申请的一个或多个实施例中,所述目标企业或者用于训练金融服务风险预测模型的外部企业均可以指大中型企业和个体工商户等,尤其可以指小微企业,其中,所述小微企业是小型企业、微型企业和家庭作坊式企业的统称,具体可以根据企业的规模及资金投入等进行界定,如小微企业可以根据企业从业人员、营业收入、资产总额等指标并结合行业特点制定进行确定。在一种具体举例中,可以将符合年度应纳税所得额不超过300万元、从业人数不超过300人以及资产总额不超过5000万元等三个条件的企业确定为小微企业。
在步骤400中,所述目标企业的企业信息是指该目标企业在目标金融机构的外部数据,例如:企业照面信息相关变动次数、成立以来的各项正负面行为和正负面舆情等运营状态数据。
步骤500:将所述目标企业的企业信息输入预设的金融服务风险预测模型,并将该金融服务风险预测模型的输出作为该目标企业的金融服务风险预测等级,以基于该金融服务风险预测等级确定是否向所述目标企业提供金融服务。
可以理解的是,所述金融服务风险预测模型可以为一种弱监督评分模型,所述弱监督评分模型、投票器和融合模型均可以采用现有的分类模型,且本申请下述实施例或应用实例中出现的投票器也可以被称之为第一分类模型,融合模型也可以被称之为第二分类模型,弱监督评分模型也可以被称之为第三分类模型。
其中,所述目标企业的金融服务风险预测等级具体可以与预设的标签一样,按照对应的企业历史评价信息划分为至少两类评价等级内容,例如历史最低评价等级、最高评价等级和平均评价等多种方面的评价等级内容。
另外,在步骤500中提及的所述投票器可以预先基于预设的迁移学习方式和重采样方式处理后的标签已知的历史企业数据训练得到,是为了解决因为训练用样本客观存在的分布不均问题,使得现有的金融服务风险预测方法由于训练时标签存在分布不均的问题而无法保证对事先并未在银行进行注册的企业进行风险预测的准确性的情况而提出的,传统评级的评分卡一般基于历史样本开展建模工作,有大量正负样本可供建模,且其评级维度较少。本次建模的对象为小微企业,由于绝大部分小企业非银行客户,无法直接定义其评级,建模较难开展,因此通过利用现有评价结果,结合专家经验预测全量小微企业风险分布,通过迁移学习方式,优化现有评分模型,通过增加对实际分布的变换,从而优化评分结果。
可以理解的是,迁移学习,是指利用数据、任务或模型之间的相似性,将在旧领域(即源域)学习过的模型,应用于新领域(目标域)的一种学习过程。本次使用基于样本的迁移学习,是一种通过算法来对源域的样本进行权重的重新权衡,使用已有经验,来对源域和目标域的样本进行迁移,使模型泛化性得到提升。
以银行为例的金融机构进行说明,历史企业即为银行的行内用户,目标用户及外部用户均是指银行的行外用户。在一种举例中,行内可以有数十万小微客户样本及标签,而行外无标签小微企业有数千万,但是通过弱监督方式衍生的标签存在分布问题,因此本申请采用样本迁移的方式,在评分卡模型的基础上,对标签进行优化,能够有效提升行外小微企业评分结果。
从上述描述可知,本申请实施例提供的企业金融服务风险预测方法,通过应用金融服务风险预测模型得到目标企业的金融服务风险预测等级,能够在有效降低企业金融服务风险预测过程所耗费的人力成本并提高效率的基础上,有效提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及智能化程度。
为了提高对原本分布不均的样本标签进行优化的可靠性及有效性,在本申请提供的企业金融服务风险预测方法的一个实施例,参见图4,所述企业金融服务风险预测方法的步骤100之前具体包含有如下内容:
步骤010:根据标签已知的历史企业数据生成对应的第一数据集,该第一数据集中包含有各个历史企业的企业信息和各个标签类型之间的一一对应关系。
在步骤010中,可以准备少量的标签已知的历史企业的标签数据,进而减少专家评价的人力及时间成本,以有效提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的效率,并有效降低企业金融服务风险预测过程所耗费的人力成本。
在本申请的一个或多个实施例中,历史企业或者历史企业用户是指已经在目标金融机构中获得金融服务授权的企业,这些企业已经属于如银行等金融机构的内部客户。
步骤020:基于预设的迁移学习方式,应用标签未知的历史企业数据和标签未知的外部企业数据形成一合并数据集,其中,该合并数据集用于存储各个标签未知的历史企业用户标识、企业信息和第一阈标签之间的对应关系,还用于存储各个标签未知的外部企业用户标识、企业信息和第二阈标签之间的对应关系,且所述第一阈标签和所述第二阈标签取值不同。
在本申请的一个或多个实施例中,所述第一数据集可以写为{L1},所述合并数据集可以写为{L4},所述第二数据集可以写为{L3},所述列标签数据表可以写为标签A对应的L1a’、标签B对应的L1b’等等,其他标签以此类推。
在步骤020中,可以准备部分的标签未知的历史企业客户数据,也就是目标金融机构中未被专家进行标签设定的内部客户信息。
步骤030:应用所述合并数据集训练第一分类器,并基于该第一分类器获取的所述合并数据集中的标签预测值,对不同的标签预测数值范围分别对应的权重值进行调整以形成目标权重集,其中,所述目标权重集用于存储各个所述标签预测数值范围与调整后权重之间的一一对应关系。
步骤040:根据所述目标权重集对所述第一数据集进行重采样处理,以形成经重采样处理后的第一数据集。
从上述描述可知,本申请实施例提供的企业金融服务风险预测方法,通过样本迁移过程,能够对训练数据的标签进行进一步优化,进而能够进一步提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及智能化程度。
为了提高根据各个标签已知的历史企业数据各自对应的标签类型分别形成各类标签分别对应的列标签数据表的过程的准确性及效率,在本申请提供的企业金融服务风险预测方法的一个实施例,参见图5,所述企业金融服务风险预测方法的步骤100具体包含有如下内容:
步骤110:根据经重采样处理后的第一数据集中的标签类型,在所述第一数据集中分别且单独增加与其中一类标签唯一对应的标签列,以形成各类标签分别对应的列标签数据表;其中,所述列标签数据表中的标签列唯一对应的标签类型在所述标签列中均显示为第一列标签,所述列标签数据表中的未与标签列对应的其他标签类型在所述标签列中均显示为第二列标签;且所述第一列标签和第二列标签取值不同。
从上述描述可知,本申请实施例提供的企业金融服务风险预测方法,通过应用迁移后样本形成数据集,并设置标签列,能够提高根据各个标签已知的历史企业数据各自对应的标签类型分别形成各类标签分别对应的列标签数据表的过程的准确性及效率,进而能够进一步提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及效率。
为了提高确定当前标签类型对应的目标子分类器的准确性及效率,在本申请提供的企业金融服务风险预测方法的一个实施例,参见图6,所述企业金融服务风险预测方法的步骤200中的针对标签未知的外部企业数据的伪标签迭代过程的具体包含有如下内容:
步骤210:执行预设的伪标签构建步骤,以根据当前标签类型的列标签数据表得到对应的子分类器和包含有伪标签的新的列标签数据表;
步骤220:将当前的迭代次数加1,并判断该迭代次数是否已到达预设的次数阈值或新的列标签数据表已收敛;
若是,则执行步骤230:将当前的子分类器确定为当前标签类型对应的目标子分类器;
若否,则基于新的列标签数据表返回执行步骤210的所述伪标签构建步骤。
从上述描述可知,本申请实施例提供的企业金融服务风险预测方法,通过针对标签未知的外部企业数据的伪标签迭代,能够提高确定当前标签类型对应的目标子分类器的准确性及效率,进而能够进一步提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及效率。
为了提高构建所述伪标签的准确性及效率,在本申请提供的企业金融服务风险预测方法的一个实施例,参见图7,所述企业金融服务风险预测方法的步骤210中的伪标签构建步骤的具体包含有如下内容:
步骤211:基于当前的列标签数据表训练第二分类器,并基于该第二分类器对标签未知的外部企业数据进行标签预测,以生成包含有各个标签未知的外部企业的企业信息分别对应的伪标签的第二数据集。
步骤212:将所述列标签数据表与所述第二数据集进行数据混合,并基于数据混合后的列标签数据表和第二数据集训练子分类器,对当前迭代中的所述列标签数据表内的正样本分类错误的样本进行重采样,以形成所述列标签数据表对应的包含有伪标签的新的列标签数据表。
从上述描述可知,本申请实施例提供的企业金融服务风险预测方法,通过基于第二分类器对标签未知的外部企业数据进行标签预测,以及对当前迭代中的所述列标签数据表内的正样本分类错误的样本进行重采样,能够提高构建所述伪标签的准确性及效率,进而能够进一步提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及效率。
为了进一步提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及效率,在本申请提供的企业金融服务风险预测方法的一个实施例,参见图8,所述企业金融服务风险预测方法的步骤300具体包含有如下内容:
步骤310:基于所述投票器和预设的标签类型占比数据,对所述标签未知的外部企业用户数据对应的第一数据表中的各个企业分别进行评分以生成对应的评级函数,将该评级函数作为所述金融服务风险预测模型。
可以理解的是,所述标签类型占比数据为目标金融机构基于实际应用中的业务需求预设的各个分级(也就是标签类型)的分布概率数据。
从上述描述可知,本申请实施例提供的企业金融服务风险预测方法,通过对所述标签未知的外部企业用户数据对应的第一数据表中的各个企业分别进行评分以生成对应的评级函数,能够进一步提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及效率。
为了提供一种迁移学习的优选实现方式,在本申请提供的企业金融服务风险预测方法的一个实施例,所述企业金融服务风险预测方法的步骤020还可以具体包含有如下内容:
步骤021:分别获取标签未知的历史企业数据和标签未知的外部企业数据。
步骤022:应用所述第一投票器对标签未知的历史企业数据进行标签预测,以根据对应的标签预测结果形成数据集{L2}。
步骤023:将数据集{L2}中的标签预测结果删除以形成标签未知的历史企业对应的数据表,其中,所述标签未知的历史企业对应的数据表用于存储各个标签未知的历史企业用户标识和企业信息之间的对应关系。
在步骤023中,其中一种处理情形为:在步骤022执行之后,可以将数据集{L2}中的标签预测结果均删除,仅保留各个标签未知的历史企业用户标识和企业信息,而后生成所述标签未知的历史企业对应的数据表。
另外一种处理情形为:不需要执行步骤022,在步骤021中获取了标签未知的外部企业数据之后,直接基于预设的数据处理逻辑对标签未知的外部企业数据进行数据预处理,保留各个标签未知的历史企业用户标识和企业信息,而后根据各个标签未知的历史企业用户标识和企业信息生成所述标签未知的历史企业对应的数据表。
在上述提及的步骤023的两种实施方式中,执行步骤022的方式能够复用金融机构中已经存在并使用的金融服务风险预测模型对应的存储数据中的数据集{L2},因此能够通过复用原有数据来有效降低数据处理时间及成本。若采用不执行步骤022的方式,则适用于事先并未构建过金融服务风险预测模型的金融企业,通过减少步骤的执行,也能够有效降低数据处理时间及成本。具体可以根据金融机构实际应用需求进行设置。
步骤024:获取标签未知的外部企业用户数据对应的第一数据表,其中,该第一数据表用于存储各个标签未知的外部企业用户标识和企业信息之间的对应关系。
步骤025:在所述标签未知的历史企业对应的数据表中新增一取值均为1的阈标签列以形成第二数据表,以及,在所述第一数据集中新增一取值均为0的阈标签列以形成第三数据表。
在本申请的一个或多个实施例中,所述第二数据表可以写为{T2},所述第三数据表可以写为{T3}。
步骤026:对所述第二数据表和所述第三数据表进行合并处理,得到用于作为所述合并数据集对应的第四数据表。
所述第四数据表可以写为{T4}。
在步骤026中,第四数据表的举例参见表1,其中USER1-1为标签未知的历史企业用户标识举例,USER2-91标签未知的外部企业用户标识举例,BL1和BL91均为企业信息举例。
表1
基于表1,所述合并数据集的举例可以为{USER1-1,BL1,1;…USER2-91,BL91,0;…}。
从上述描述可知,本申请实施例提供的企业金融服务风险预测方法,能够在模型训练过程中有效实现迁移学习及重采样过程,进而能够有效提高对原本分布不均的样本标签进行优化的可靠性及有效性,进而能够进一步提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及可靠性。
为了提供一种迁移学习及重采样的优选实现方式,在本申请提供的企业金融服务风险预测方法的一个实施例,所述企业金融服务风险预测方法的步骤030具体包含有如下内容:
步骤031:应用所述第四数据表训练分类器,并基于该分类器获取的所述第四数据集中的标签预测值,对不同的标签预测数值范围分别对应的权重值进行调整以形成目标权重集,其中,所述目标权重集用于存储各个所述标签预测数值范围与调整后权重之间的一一对应关系。
具体来说,由于分类器为二分类,因此预测值越大,说明其区分度越高,其分类权重β可简化为p/(1-p),为便于重采样,对权重进行调整如下表2所示:
表2
预测值p区间 β值 调整后权重
<=0.6 (-,2) 1
[0.6,0.7) [2,2) 2
[0.7,0.8) [2,4) 3
[0.8,0.9) [4,9) 6
>=0.9 [9,+) 9
步骤032:根据所述目标权重集对所述第一数据集进行重采样处理,以形成经重采样处理后的第一数据集。
对第一数据集{L1}按以上表2中的权重进行重采样得到经重采样处理后的第一数据集{L1’}。
从上述描述可知,本申请实施例提供的企业金融服务风险预测方法,能够有效提高重采样过程的准确性、有效性及效率,能够有效提高训练得到金融服务风险预测模型的准确性、有效性及效率,进而能够有效提高应用金融服务风险预测模型进行企业金融服务风险预测过程的准确性、有效性及效率。
为了提供一种获取当前未经金融服务授权的目标企业的企业信息的优选方式,在本申请提供的企业金融服务风险预测方法的一个实施例,所述企业金融服务风险预测方法的步骤400具体包含有如下内容:
步骤410:接收企业针对目标金融机构发出的金融服务申请信息,其中,所述金融服务申请信息中包含有对应企业的唯一标识和金融服务类型。
步骤420:根据所述企业的唯一标识,判断该企业是否为所述目标金融机构的历史企业用户,若否,则将该企业确定为当前未经金融服务授权的目标企业。
步骤430:基于所述目标企业的唯一标识获取该目标企业的目标企业的企业信息,并根据所述金融服务类型选取对应的金融服务风险预测模型。
从上述描述可知,本申请实施例提供的企业金融服务风险预测方法,能够针对不同的金融服务申请选定不同类型的金融服务风险预测模型,以有效提高企业金融服务风险预测的针对性及适用广泛性。
为了提供一种向目标企业提供金融服务的优选方式,在本申请提供的企业金融服务风险预测方法的一个实施例,所述企业金融服务风险预测方法的步骤500之后还可以具体包含有如下内容:
步骤600:判断所述目标企业的金融服务风险预测等级是否符合预设的金融服务要求,若是,则将该目标企业存储为历史企业客户,以向该目标企业提供金融服务。
从上述描述可知,本申请实施例提供的企业金融服务风险预测方法,能够有效节省企业金融服务风险预测的人力成本,并能够有效提高企业金融服务风险预测的效率,以及向申请金融服务的企业反馈风险预测结果的效率,能够提高金融机构为企业提供金融服务的针对性及可靠性,进而能够提高金融机构的运转可靠性及安全性,以提高金融机构和向金融机构申请金融服务的企业的用户体验。
从软件层面来说,为了解决现有的金融服务风险预测方法无法满足对事先并未在银行进行注册的企业进行风险预测的效率及准确性要求等问题,本申请提供一种用于执行所述企业金融服务风险预测方法中全部或部分内容的企业金融服务风险预测装置的实施例,参见图9,所述企业金融服务风险预测装置具体包含有如下内容:
列标签获取模块10,用于根据各个标签已知的历史企业数据各自对应的标签类型分别形成各类标签分别对应的列标签数据表;
伪标签构建模块20,用于应用预设的伪标签动态创建方式,对各个所述列标签数据表分别执行针对标签未知的外部企业数据的伪标签迭代过程,直至形成各类标签分别对应的子分类器;
预测模型生成模块30,用于将各个所述子分类器集成为一投票器,并根据该投票器和预设的标签类型占比数据生成金融服务风险预测模型,以基于该金融服务风险预测模型对当前未经金融服务授权的目标企业进行金融服务风险预测。
本申请提供的企业金融服务风险预测装置的实施例具体可以用于执行上述实施例中的企业金融服务风险预测方法的实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
从上述描述可知,本申请实施例提供的企业金融服务风险预测装置,通过应用预设的伪标签动态创建方式,对各个所述列标签数据表分别执行针对标签未知的外部企业数据的伪标签迭代过程,直至形成各类标签分别对应的子分类器;将各个所述子分类器集成为一投票器,能够通过伪标签的动态构造实现数据标签的优化,能够有效解决行外小企业缺乏标签标注、难以量化评价的问题,进而能够有效提升仅有少量标注样本情况下企业评分的准确性;通过根据投票器和预设的标签类型占比数据生成金融服务风险预测模型,能够在有效降低企业金融服务风险预测过程所耗费的人力成本并提高效率的基础上,有效提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及智能化程度,尤其针对小微企业,能够有效解决针对小微企业的模型训练样本中标签不足及不准确的问题,以及向申请金融服务的企业反馈风险预测结果的效率,能够提高金融机构为企业提供金融服务的针对性及可靠性,进而能够提高金融机构的运转可靠性及安全性,以提高金融机构和向金融机构申请金融服务的企业的用户体验。
为了进一步说明书本方案,本申请还提供一种企业金融服务风险预测方法的具体应用实例,本申请应用实例使用构造伪标签的方法解决行外评分对象标签不足,风险评级准确率不高的问题,属于人工智能领域,通过利用现有评价结果,结合专家经验预测全量小微企业风险分布,通过构造动态伪标签的方式,优化现有评分模型,从而优化评分结果。可以理解的是,评分卡是一种常见的对企业信用评级的机制,通常使用解释性较好的逻辑回归模型、决策树等模型,方便业务人员操作和理解。主要步骤是将确定好的特征逐项计算评分卡中各指标并加总得到总分,再结合政策或业务需求决定阈值,划定最终等级。传统评级的评分卡一般基于行内历史交易行为开展建模工作,有大量正负样本可供建模,且其评级维度较少。本次建模的对象为小微企业,由于绝大部分小企业非银行客户,其流水等较少,无法直接定义其评级,建模较难开展。行内有数十万小微客户样本及标签,而行外无标签小微企业有数千万,可以通过弱监督方式衍生标签,并使用样本迁移的方式优化标签,在此基础上,还可以引入伪标签的动态构建方式,进一步提升行外小微企业评分结果。
在本应用实例中,目标银行内原本设有金融服务风险预测模型,也存储了该金融服务风险预测模型对应的训练用数据等相关数据,因此,本应用实施例中用S和N的步骤标识区别目标银行的原训练模型步骤和本次新增的步骤,但需要注意的是,即使是原训练步骤,在本申请中也存在创新性提出的内容,本申请的创新性内容并不仅仅限定与N标识的步骤内。其中,原流程为S开头,新增修改部分流程为N开头,如无特殊说明,流程复用。参见图10,本申请应用实例提供的企业金融服务风险预测方法具体说明如下:
S101准备{L1}:准备少量企业标签数据,编写数据处理逻辑生成可直接训练数据集{L1},包括变量部分和标签部分,假设级别为A、B、C、D。
S102准备{T2}:准备未标注的行内企业,编写处理逻辑,生成数据表{T2}。
S103准备{T3}:准备不含标签的行外企业,编写处理逻辑,生成数据宽表{T3}。
S201使用{T2}{T3}训练域分类器:使用样本迁移技术开展第一次重采样。为{T2}新增一列域标签,取值均为1,表示源域;为{T3}增加一列域标签,取值均为0,表示目标域,将含有标签的{T2}和{T3}合并为{L4},以域标签为目标训练分类器f3(x)。
S202按照分类器结果划定重采样权重:由于分类器f3(x)为二分类,因此预测值越大,说明其区分度越高,其分类权重β可简化为p/(1-p),为便于重采样,对权重进行调整如表2所示。
S203对{L1}重采样得到{L1’}:对{L1}按以上权重进行重采样得到数据集{L1’}。
N301将{L1’}转换为{L1a’},并训练分类器f1a:将{L1’}中评级为A的企业新增一列标签为1(其他评级类同),其他企业设为0,生成{L1a’},训练分类器f1a(x)。
N302用f1a预测{T3},形成{L3}:使用f1a(x)对{T3}进行预测,生成伪标签,形成数据集{L3}。
N303合并{L3}和{L1a’},训练子分类器f3a:将{L1a’}和{L3}混合,训练子分类器f3a(x),对每轮迭代中对{L1a’}中正样本分类错误的样本进行重采样,作为下一轮训练样本,直至收敛或达到设定的迭代次数。即:将上一轮分类错误的样本加入下一轮训练中,直至迭代完成。
N304循环N301-N303直至所有子分类器均收敛或达到迭代次数,训练完成。S401将多个子分类器集成为f3(x):将多种子分类器f3n(x)(n为多种不同评级的子分类器)集成为投票器f3(x),对T3中的数据进行预测;
S402基于f3(x)及预设分布,得到最终评级函数g:基于f3(x)及预设分布,对全量小企业评分,调整分布确定各评级阈值,得到最终评级函数g。
在一种企业金融服务风险预测方法的具体举例中,企业金融服务风险预测方法具体包含有如下内容:
1.准备少量企业的标签数据,标签区分ABCD等多档,以这部分企业的全部企业历史评价信息作为特征,包括但不限于历史最低评价等级、最高评价等级、平均评价等多种方面的评价等级,准备好的少量标签数据作为目标值,生成可直接训练数据集{L1}。
2.准备未标注的行内企业,编写处理逻辑,生成数据表{T2}。
3.准备不含标签的行外企业,编写处理逻辑,生成数据宽表{T3}。
4.使用样本迁移技术开展第一次重采样。为{T2}新增一列域标签,取值均为1,表示源域;为{T3}增加一列域标签,取值均为0,表示目标域,将含有标签的{T2}和{T3}合并为{L4},以域标签为目标训练分类器f3(x)。
5.由于分类器f3(x)为二分类,因此预测值越大,说明其区分度越高,其分类权重β可简化为p/(1-p),为便于重采样,对权重进行调整如表2所示。
6.对原始的{L1}按上表,编写语句进行重采样,生成数据集{L1’}。
7.将{L1’}中评级为A的企业新增一列标签为1(其他评级类同),其他企业设为0,生成{L1a’},训练分类器f1a(x)。
8.使用f1a(x)对{T3}进行预测,生成伪标签,形成数据集{L3}。
9.将{L1a’}和{L3}混合为{L4a},训练子分类器f3a(x),对每轮迭代中对属于{L1a’}中正样本分类错误的样本进行重采样,加入下一轮训练样本,直至模型收敛或达到设定的迭代次数。
10.将多种子分类器f3n(x)集成为投票器f3(x),其权重可简单考虑为1/n,也可根据实际情况进行调整,对T3中的数据进行预测。
11.基于f3(x)及预设分布,对全量小企业评分,调整分布确定各评级阈值,得到最终评级函数g。
12.该评分主要聚焦用户在银行以外的行为,结果仅用于页面展示,辅助业务人员风险决策。
从上述描述可知,本申请应用实例提供的企业金融服务风险预测方法,通过使用对样本进行伪标签处理,进行多轮迭代学习,提升了仅有少量标注样本情况下企业评分的准确性,其结果较原模型有较大提升,可有效解决行外小企业缺乏标签标注,难以量化评价的问题,对金融新客户的准入评价由一定参考意义。
从硬件层面来说,为了解决现有的金融服务风险预测方法无法满足对事先并未在银行进行注册的企业进行风险预测的效率及准确性要求等问题,本申请提供一种用于实现所述企业金融服务风险预测方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
图11为本申请实施例的电子设备9600的系统构成的示意框图。如图11所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图11是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
在一实施例中,企业金融服务风险预测功能可以被集成到中央处理器中。其中,中央处理器可以被配置为进行如下控制:
步骤100:根据各个标签已知的历史企业数据各自对应的标签类型分别形成各类标签分别对应的列标签数据表。
步骤200:应用预设的伪标签动态创建方式,对各个所述列标签数据表分别执行针对标签未知的外部企业数据的伪标签迭代过程,直至形成各类标签分别对应的子分类器。
步骤300:将各个所述子分类器集成为一投票器,并根据该投票器和预设的标签类型占比数据生成金融服务风险预测模型,以基于该金融服务风险预测模型对当前未经金融服务授权的目标企业进行金融服务风险预测。
从上述描述可知,本申请实施例提供的电子设备,通过应用预设的伪标签动态创建方式,对各个所述列标签数据表分别执行针对标签未知的外部企业数据的伪标签迭代过程,直至形成各类标签分别对应的子分类器;将各个所述子分类器集成为一投票器,能够通过伪标签的动态构造实现数据标签的优化,能够有效解决行外小企业缺乏标签标注、难以量化评价的问题,进而能够有效提升仅有少量标注样本情况下企业评分的准确性;通过根据投票器和预设的标签类型占比数据生成金融服务风险预测模型,能够在有效降低企业金融服务风险预测过程所耗费的人力成本并提高效率的基础上,有效提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及智能化程度,尤其针对小微企业,能够有效解决针对小微企业的模型训练样本中标签不足及不准确的问题,以及向申请金融服务的企业反馈风险预测结果的效率,能够提高金融机构为企业提供金融服务的针对性及可靠性,进而能够提高金融机构的运转可靠性及安全性,以提高金融机构和向金融机构申请金融服务的企业的用户体验。
在另一个实施方式中,企业金融服务风险预测装置可以与中央处理器9100分开配置,例如可以将企业金融服务风险预测装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现企业金融服务风险预测功能。
如图11所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图11中所示的所有部件;此外,电子设备9600还可以包括图11中没有示出的部件,可以参考现有技术。
如图11所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的企业金融服务风险预测方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的企业金融服务风险预测方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤100:根据各个标签已知的历史企业数据各自对应的标签类型分别形成各类标签分别对应的列标签数据表。
步骤200:应用预设的伪标签动态创建方式,对各个所述列标签数据表分别执行针对标签未知的外部企业数据的伪标签迭代过程,直至形成各类标签分别对应的子分类器。
步骤300:将各个所述子分类器集成为一投票器,并根据该投票器和预设的标签类型占比数据生成金融服务风险预测模型,以基于该金融服务风险预测模型对当前未经金融服务授权的目标企业进行金融服务风险预测。
从上述描述可知,本申请实施例提供的计算机可读存储介质,通过应用预设的伪标签动态创建方式,对各个所述列标签数据表分别执行针对标签未知的外部企业数据的伪标签迭代过程,直至形成各类标签分别对应的子分类器;将各个所述子分类器集成为一投票器,能够通过伪标签的动态构造实现数据标签的优化,能够有效解决行外小企业缺乏标签标注、难以量化评价的问题,进而能够有效提升仅有少量标注样本情况下企业评分的准确性;通过根据投票器和预设的标签类型占比数据生成金融服务风险预测模型,能够在有效降低企业金融服务风险预测过程所耗费的人力成本并提高效率的基础上,有效提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及智能化程度,尤其针对小微企业,能够有效解决针对小微企业的模型训练样本中标签不足及不准确的问题,以及向申请金融服务的企业反馈风险预测结果的效率,能够提高金融机构为企业提供金融服务的针对性及可靠性,进而能够提高金融机构的运转可靠性及安全性,以提高金融机构和向金融机构申请金融服务的企业的用户体验。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (7)

1.一种企业金融服务风险预测方法,其特征在于,包括:
根据各个标签已知的历史企业数据各自对应的标签类型分别形成各类标签分别对应的列标签数据表;
应用预设的伪标签动态创建方式,对各个所述列标签数据表分别执行针对标签未知的外部企业数据的伪标签迭代过程,直至形成各类标签分别对应的子分类器;
将各个所述子分类器集成为一投票器,并根据该投票器和预设的标签类型占比数据生成金融服务风险预测模型,以基于该金融服务风险预测模型对当前未经金融服务授权的目标企业进行金融服务风险预测;所述标签类型占比数据为目标金融机构基于实际应用中的业务需求预设的各个标签类型的分布概率数据;
在所述根据各个标签已知的历史企业数据各自对应的标签类型分别形成各类标签分别对应的列标签数据表之前,还包括:
根据标签已知的历史企业数据生成对应的第一数据集,该第一数据集中包含有各个历史企业的企业信息和各个标签类型之间的一一对应关系;
基于预设的迁移学习方式,应用标签未知的历史企业数据和标签未知的外部企业数据形成一合并数据集,其中,该合并数据集用于存储各个标签未知的历史企业用户标识、企业信息和第一阈标签之间的对应关系,还用于存储各个标签未知的外部企业用户标识、企业信息和第二阈标签之间的对应关系,且所述第一阈标签和所述第二阈标签取值不同;
应用所述合并数据集训练第一分类器,并基于该第一分类器获取的所述合并数据集中的标签预测值,对不同的标签预测数值范围分别对应的权重值进行调整以形成目标权重集,其中,所述目标权重集用于存储各个所述标签预测数值范围与调整后权重之间的一一对应关系;
根据所述目标权重集对所述第一数据集进行重采样处理,以形成经重采样处理后的第一数据集;
所述根据各个标签已知的历史企业数据各自对应的标签类型分别形成各类标签分别对应的列标签数据表,包括:
根据经重采样处理后的第一数据集中的标签类型,在所述第一数据集中分别且单独增加与其中一类标签唯一对应的标签列,以形成各类标签分别对应的列标签数据表;
其中,所述列标签数据表中的标签列唯一对应的标签类型在所述标签列中均显示为第一列标签,所述列标签数据表中的未与标签列对应的其他标签类型在所述标签列中均显示为第二列标签;且所述第一列标签和第二列标签取值不同;
所述针对标签未知的外部企业数据的伪标签迭代过程,包括:
执行预设的伪标签构建步骤,以根据当前标签类型的列标签数据表得到对应的子分类器和包含有伪标签的新的列标签数据表;
将当前的迭代次数加1,并判断该迭代次数是否已到达预设的次数阈值或新的列标签数据表已收敛;
若是,则将当前的子分类器确定为当前标签类型对应的目标子分类器;
若否,则基于新的列标签数据表返回执行所述伪标签构建步骤。
2.根据权利要求1所述的企业金融服务风险预测方法,其特征在于,还包括:
获取当前未经金融服务授权的目标企业的企业信息;
将所述目标企业的企业信息输入预设的金融服务风险预测模型,并将该金融服务风险预测模型的输出作为该目标企业的金融服务风险预测等级,以基于该金融服务风险预测等级确定是否向所述目标企业提供金融服务。
3.根据权利要求1所述的企业金融服务风险预测方法,其特征在于,所述伪标签构建步骤,包括:
基于当前的列标签数据表训练第二分类器,并基于该第二分类器对标签未知的外部企业数据进行标签预测,以生成包含有各个标签未知的外部企业的企业信息分别对应的伪标签的第二数据集;
将所述列标签数据表与所述第二数据集进行数据混合,并基于数据混合后的列标签数据表和第二数据集训练子分类器,对当前迭代中的所述列标签数据表内的正样本分类错误的样本进行重采样,以形成所述列标签数据表对应的包含有伪标签的新的列标签数据表。
4.根据权利要求1至3任一项所述的企业金融服务风险预测方法,其特征在于,所述将各个所述子分类器集成为一投票器,并根据该投票器和预设的标签类型占比数据生成金融服务风险预测模型,包括:
基于所述投票器和预设的标签类型占比数据,对所述标签未知的外部企业用户数据对应的第一数据表中的各个企业分别进行评分以生成对应的评级函数,将该评级函数作为所述金融服务风险预测模型。
5.一种企业金融服务风险预测装置,其特征在于,包括:
列标签获取模块,用于根据各个标签已知的历史企业数据各自对应的标签类型分别形成各类标签分别对应的列标签数据表;
伪标签构建模块,用于应用预设的伪标签动态创建方式,对各个所述列标签数据表分别执行针对标签未知的外部企业数据的伪标签迭代过程,直至形成各类标签分别对应的子分类器;
预测模型生成模块,用于将各个所述子分类器集成为一投票器,并根据该投票器和预设的标签类型占比数据生成金融服务风险预测模型,以基于该金融服务风险预测模型对当前未经金融服务授权的目标企业进行金融服务风险预测;所述标签类型占比数据为目标金融机构基于实际应用中的业务需求预设的各个标签类型的分布概率数据;
在所述根据各个标签已知的历史企业数据各自对应的标签类型分别形成各类标签分别对应的列标签数据表之前,还包括:
根据标签已知的历史企业数据生成对应的第一数据集,该第一数据集中包含有各个历史企业的企业信息和各个标签类型之间的一一对应关系;
基于预设的迁移学习方式,应用标签未知的历史企业数据和标签未知的外部企业数据形成一合并数据集,其中,该合并数据集用于存储各个标签未知的历史企业用户标识、企业信息和第一阈标签之间的对应关系,还用于存储各个标签未知的外部企业用户标识、企业信息和第二阈标签之间的对应关系,且所述第一阈标签和所述第二阈标签取值不同;
应用所述合并数据集训练第一分类器,并基于该第一分类器获取的所述合并数据集中的标签预测值,对不同的标签预测数值范围分别对应的权重值进行调整以形成目标权重集,其中,所述目标权重集用于存储各个所述标签预测数值范围与调整后权重之间的一一对应关系;
根据所述目标权重集对所述第一数据集进行重采样处理,以形成经重采样处理后的第一数据集;
所述根据各个标签已知的历史企业数据各自对应的标签类型分别形成各类标签分别对应的列标签数据表,包括:
根据经重采样处理后的第一数据集中的标签类型,在所述第一数据集中分别且单独增加与其中一类标签唯一对应的标签列,以形成各类标签分别对应的列标签数据表;
其中,所述列标签数据表中的标签列唯一对应的标签类型在所述标签列中均显示为第一列标签,所述列标签数据表中的未与标签列对应的其他标签类型在所述标签列中均显示为第二列标签;且所述第一列标签和第二列标签取值不同;
所述针对标签未知的外部企业数据的伪标签迭代过程,包括:
执行预设的伪标签构建步骤,以根据当前标签类型的列标签数据表得到对应的子分类器和包含有伪标签的新的列标签数据表;
将当前的迭代次数加1,并判断该迭代次数是否已到达预设的次数阈值或新的列标签数据表已收敛;
若是,则将当前的子分类器确定为当前标签类型对应的目标子分类器;
若否,则基于新的列标签数据表返回执行所述伪标签构建步骤。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一项所述的企业金融服务风险预测方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任一项所述的企业金融服务风险预测方法。
CN202110690985.5A 2021-06-22 2021-06-22 企业金融服务风险预测方法及装置 Active CN113393320B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110690985.5A CN113393320B (zh) 2021-06-22 2021-06-22 企业金融服务风险预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110690985.5A CN113393320B (zh) 2021-06-22 2021-06-22 企业金融服务风险预测方法及装置

Publications (2)

Publication Number Publication Date
CN113393320A CN113393320A (zh) 2021-09-14
CN113393320B true CN113393320B (zh) 2024-02-02

Family

ID=77623251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110690985.5A Active CN113393320B (zh) 2021-06-22 2021-06-22 企业金融服务风险预测方法及装置

Country Status (1)

Country Link
CN (1) CN113393320B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114139595A (zh) * 2021-09-30 2022-03-04 光大科技有限公司 一种评分卡模型训练方法及装置

Also Published As

Publication number Publication date
CN113393320A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN110070391B (zh) 数据处理方法、装置、计算机可读介质及电子设备
Oluikpe Developing a corporate knowledge management strategy
Jenwittayaroje et al. Do independent directors improve firm value? Evidence from the great recession
CN111932267A (zh) 企业金融服务风险预测方法及装置
US11651315B2 (en) Intelligent diversification tool
CN111008896A (zh) 金融风险预警方法、装置、电子设备及存储介质
CN112766825A (zh) 企业金融服务风险预测方法及装置
CN110619065A (zh) 资源调度业务处理方法、装置、计算机设备和存储介质
González et al. Investment crowding‐out and labor market effects of financialization in the US
Arkaan et al. Mapping Research Topics on Mobile Banking in Sharia and Conventional Financial Institutions: VOSviewer Bibliometric Study and Literature Review
CN111951050B (zh) 理财产品推荐方法及装置
CN110992190A (zh) 基于用户画像的资产配置方法及装置
CN113393320B (zh) 企业金融服务风险预测方法及装置
JP6978582B2 (ja) 予測業務支援装置および予測業務支援方法
CN109829817A (zh) 还贷计划数据确定方法及装置
CN112734566A (zh) 授信额度获取方法、装置及计算机设备
Madasamy et al. THE EVOLUTION OF CHATBOTS: CLOUD AND AI SYNERGY IN BANKING CUSTOMER INTERACTIONS
CN111429242B (zh) 转贴现票据组合推送方法及装置
Sodokin et al. Macroeconomic channels of transmission of post-pandemic recovery strategies for African economies
Levine et al. Independent utility regulators: lessons from monetary policy
CN111882339A (zh) 预测模型训练及响应率预测方法、装置、设备及存储介质
CN111932018B (zh) 银行业务绩效贡献信息预测方法及装置
CN108520334A (zh) 一种职业征信方法和装置
Ahmed Digital Revolution and Insurance Industry: Some Important Issues for India
CN112132695B (zh) 保险产品结构化方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant