CN112766825A - 企业金融服务风险预测方法及装置 - Google Patents

企业金融服务风险预测方法及装置 Download PDF

Info

Publication number
CN112766825A
CN112766825A CN202110254016.5A CN202110254016A CN112766825A CN 112766825 A CN112766825 A CN 112766825A CN 202110254016 A CN202110254016 A CN 202110254016A CN 112766825 A CN112766825 A CN 112766825A
Authority
CN
China
Prior art keywords
enterprise
financial service
model
labels
risk prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110254016.5A
Other languages
English (en)
Inventor
倪灵
陈珊珊
王娜
强锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110254016.5A priority Critical patent/CN112766825A/zh
Publication of CN112766825A publication Critical patent/CN112766825A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0609Buyer or seller confidence or verification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Educational Administration (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Technology Law (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供一种企业金融服务风险预测方法及装置,可用于人工智能技术领域,方法包括:将当前未经金融服务授权的目标企业的运营状态信息输入金融服务风险预测模型以得到金融服务风险预测等级,以基于该金融服务风险预测等级确定是否向目标企业提供金融服务;金融服务风险预测模型为预先应用一融合模型对多个企业进行评分后获取的,该融合模型基于打标模型和标签未知的历史企业数据获取,打标模型基于迁移学习方式和重采样方式处理后的标签已知的历史企业数据训练得到。本申请能够有效提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及可靠性,能够提高金融机构为企业提供金融服务的针对性及有效性。

Description

企业金融服务风险预测方法及装置
技术领域
本申请涉及数据处理技术领域,特别涉及人工智能技术领域,具体涉及企业金融服务风险预测方法及装置。
背景技术
现有银行评级指标对于主要考虑的是大中型企业,虽然对小微企业有一定覆盖率,随着金融服务面向大众的重要性进一步提升,客群出现下沉,银行需要服务更多现有评价体系无法覆盖的小微企业。但小企业现状决定了其风险评定难的特性。
目前,与专家规则相比,现有的应用机器学习模型对企业进行风险预测的方式虽然可以减少人力成本,但是一个成功的模型需要依赖大量数据标注训练得到,而银行已经服务的小微企业客户不能覆盖全量小企业,也无法通过专家评价来为所有小企业打分,而若采用通过弱监督方式获取原本无标签的小微企业标签的方式,由于银行内有数十万小微客户样本及标签,而银行外无标签小微企业有数千万的客观现状,因此使得弱监督方式衍生的标签存在分布不均问题,也就是说,现有的针对小微企业的企业金融服务风险预测方式,其预测准确性有限,无法满足银行等金融机构对各类企业(尤其是小微企业)的金融风险预测准确性要求。
发明内容
针对现有技术中的问题,本申请提供一种企业金融服务风险预测方法及装置,能够有效提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及可靠性,能够提高金融机构为企业提供金融服务的针对性及有效性。
为解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供一种企业金融服务风险预测方法,包括:
获取当前未经金融服务授权的目标企业的运营状态信息;
将所述目标企业的运营状态信息输入预设的金融服务风险预测模型,并将该金融服务风险预测模型的输出作为该目标企业的金融服务风险预测等级,以基于该金融服务风险预测等级确定是否向所述目标企业提供金融服务;
其中,所述金融服务风险预测模型为预先应用一融合模型对多个外部企业进行评分后获取的,该融合模型预先基于一打标模型和标签未知的历史企业数据获取,且所述打标模型预先基于预设的迁移学习方式和重采样方式处理后的标签已知的历史企业数据训练得到。
进一步地,在所述获取当前未经金融服务授权的目标企业的运营状态信息之前,还包括:
根据标签已知的历史企业数据对应的第一数据集训练得到用于预测企业标签的第一打标模型;
基于预设的迁移学习方式,应用标签未知的历史企业数据和标签未知的外部企业数据形成一合并数据集,其中,该合并数据集用于存储各个标签未知的历史企业用户标识、运营状态信息和第一阈标签之间的对应关系,还用于存储各个标签未知的外部企业用户标识、运营状态信息和第二阈标签之间的对应关系,且所述第一阈标签和所述第二阈标签取值不同;
应用所述合并数据集对所述第一数据集进行重采样处理;
基于经重采样处理后的第一数据集对所述第一打标模型进行训练,以形成对应的第二打标模型;
应用所述第二打标模型对多个标签未知的历史企业用户分别进行标签预测,并根据获取的预测结果训练得到融合模型;
基于所述融合模型和预设的标签类型占比数据生成所述金融服务风险预测模型。
进一步地,所述根据标签已知的历史企业数据对应的第一数据集训练得到用于预测企业标签的第一打标模型,包括:
获取标签已知的多个历史企业用户的用户信息以及各个所述历史企业用户各自对应的标签,以生成第一数据集,其中,所述标签按照对应的企业历史评价信息划分为至少三类评价等级内容;
应用预设的逻辑回归方式,基于所述第一数据集分别训练得到各类标签各自对应的分类器子模型;
将各个所述分类器子模型分别赋予相同的初始权重值,以得到对应的第一打标模型。
进一步地,所述基于预设的迁移学习方式,应用标签未知的历史企业数据和标签未知的外部企业数据形成一合并数据集,包括:
分别获取标签未知的历史企业数据和标签未知的外部企业数据;
应用所述第一打标模型对标签未知的历史企业数据进行标签预测,以根据对应的标签预测结果形成第二数据集;
将所述第二数据集中的标签预测结果删除以形成标签未知的历史企业对应的数据表,其中,所述标签未知的历史企业对应的数据表用于存储各个标签未知的历史企业用户标识和运营状态信息之间的对应关系;
获取标签未知的外部企业用户数据对应的第一数据表,其中,该第一数据表用于存储各个标签未知的外部企业用户标识和运营状态信息之间的对应关系;
在所述标签未知的历史企业对应的数据表中新增一取值均为1的阈标签列以形成第二数据表,以及,在所述第一数据集中新增一取值均为0的阈标签列以形成第三数据表;
对所述第二数据表和所述第三数据表进行合并处理,得到用于作为所述合并数据集对应的第四数据表。
进一步地,所述应用所述合并数据集对所述第一数据集进行重采样处理,包括:
应用所述第四数据表训练分类器,并基于该分类器获取的所述第四数据集中的标签预测值,对不同的标签预测数值范围分别对应的权重值进行调整以形成目标权重集,其中,所述目标权重集用于存储各个所述标签预测数值范围与调整后权重之间的一一对应关系;
根据所述目标权重集对所述第一数据集进行重采样处理,以形成经重采样处理后的第一数据集。
进一步地,所述应用所述第二打标模型对多个标签未知的历史企业用户分别进行标签预测,并根据获取的预测结果训练得到融合模型,包括:
基于所述第二打标模型对所述标签未知的历史企业对应的数据表进行标签预测,以得到更新标签预测结果后的第二数据集;
应用所述第二数据集分别训练得到各类标签各自对应的融合子模型,并将各个所述融合子模型分别赋予相同的初始权重值;
基于更新标签预测结果后的第二数据集中的各类标签的值和各类标签各自对应的融合子模型训练得到弱分类器,并基于该弱分类器重新确定各个所述融合子模型的权重值,以得到对应的融合模型。
进一步地,所述基于所述融合模型和预设的标签类型占比数据生成所述金融服务风险预测模型,包括:
基于所述融合模型和预设的标签类型占比数据,对所述标签未知的外部企业用户数据对应的第一数据表中的各个企业分别进行评分以生成对应的评级函数,将该评级函数作为所述金融服务风险预测模型。
第二方面,本申请提供一种企业金融服务风险预测装置,包括:
信息获取模块,用于获取当前未经金融服务授权的目标企业的运营状态信息;
风险预测模块,用于将所述目标企业的运营状态信息输入预设的金融服务风险预测模型,并将该金融服务风险预测模型的输出作为该目标企业的金融服务风险预测等级,以基于该金融服务风险预测等级确定是否向所述目标企业提供金融服务;
其中,所述金融服务风险预测模型为预先应用一融合模型对多个外部企业进行评分后获取的,该融合模型预先基于一打标模型和标签未知的历史企业数据获取,且所述打标模型预先基于预设的迁移学习方式和重采样方式处理后的标签已知的历史企业数据训练得到。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的企业金融服务风险预测方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的企业金融服务风险预测方法。
由上述技术方案可知,本申请提供的一种企业金融服务风险预测方法及装置,方法包括:获取当前未经金融服务授权的目标企业的运营状态信息;将所述目标企业的运营状态信息输入预设的金融服务风险预测模型,并将该金融服务风险预测模型的输出作为该目标企业的金融服务风险预测等级,以基于该金融服务风险预测等级确定是否向所述目标企业提供金融服务;其中,所述金融服务风险预测模型为预先应用一融合模型对多个外部企业进行评分后获取的,该融合模型预先基于一打标模型和标签未知的历史企业数据获取,且所述打标模型预先基于预设的迁移学习方式和重采样方式处理后的标签已知的历史企业数据训练得到,使得本申请在金融服务风险预测模型的训练过程中,基于迁移学习方式和重采样方式处理后的标签已知的历史企业数据训练得到打标模型,能够有效解决现有的金融服务风险预测方法由于训练时标签存在分布不均的问题,能够有效提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及可靠性;尤其针对小微企业,能够在有效解决针对小微企业的模型训练样本不足的问题的同时,还能够优化原本分布不均的样本标签,能够提高金融机构为企业提供金融服务的针对性及有效性,进而能够提高金融机构的运转可靠性及安全性,以提高金融机构和向金融机构申请金融服务的企业的用户体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中的企业金融服务风险预测方法的流程示意图。
图2是本申请实施例中的企业金融服务风险预测方法中步骤010至步骤060的流程示意图。
图3是本申请实施例中的企业金融服务风险预测方法中步骤010的具体流程示意图。
图4是本申请实施例中的企业金融服务风险预测方法中步骤020的具体流程示意图。
图5是本申请实施例中的企业金融服务风险预测方法中步骤030的具体流程示意图。
图6是本申请实施例中的企业金融服务风险预测方法中步骤050的具体流程示意图。
图7是本申请应用实例的企业金融服务风险预测方法的流程示意图。
图8是本申请实施例中的企业金融服务风险预测装置的结构示意图。
图9是本申请实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请公开的企业金融服务风险预测方法和装置可用于人工智能技术领域,也可用于除人工智能技术领域之外的任意领域,本申请公开的企业金融服务风险预测方法和装置的应用领域不做限定。
评分卡是一种常见的对企业信用评级的机制,通常使用解释性较好的逻辑回归模型、决策树等模型,方便业务人员操作和理解。主要步骤是将确定好的特征逐项计算评分卡中各指标并加总得到总分,再结合政策或业务需求决定阈值,划定最终等级。
传统评级的评分卡一般基于历史样本开展建模工作,有大量正负样本可供建模,且其评级维度较少。本次建模的对象为小微企业,由于绝大部分小企业非银行客户,无法直接定义其评级,建模较难开展。
考虑到现有的针对小微企业的企业金融服务风险预测方式,由于样本客观存在的分布不均问题,使得现有的金融服务风险预测方法由于训练时标签存在分布不均的问题而无法保证对事先并未在银行进行注册的企业进行风险预测的准确性的情况,通过获取当前未经金融服务授权的目标企业的运营状态信息;将所述目标企业的运营状态信息输入预设的金融服务风险预测模型,并将该金融服务风险预测模型的输出作为该目标企业的金融服务风险预测等级,以基于该金融服务风险预测等级确定是否向所述目标企业提供金融服务;其中,所述金融服务风险预测模型为预先应用一融合模型对多个外部企业进行评分后获取的,该融合模型预先基于一打标模型和标签未知的历史企业数据获取,且所述打标模型预先基于预设的迁移学习方式和重采样方式处理后的标签已知的历史企业数据训练得到,使得本申请在金融服务风险预测模型的训练过程中,基于迁移学习方式和重采样方式处理后的标签已知的历史企业数据训练得到打标模型,能够有效解决现有的金融服务风险预测方法由于训练时标签存在分布不均的问题,能够有效提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及可靠性;尤其针对小微企业,能够在有效解决针对小微企业的模型训练样本不足的问题的同时,还能够优化原本分布不均的样本标签,能够提高金融机构为企业提供金融服务的针对性及有效性,进而能够提高金融机构的运转可靠性及安全性,以提高金融机构和向金融机构申请金融服务的企业的用户体验。
基于上述内容,本申请还提供一种用于实现本申请一个或多个实施例中提供的企业金融服务风险预测方法的企业金融服务风险预测装置,该企业金融服务风险预测装置可以与客户端设备之间进行通信连接,所述企业金融服务风险预测装置可以接收客户端设备发送的针对当前未经金融服务授权的目标企业的企业金融服务风险预测请求,而后企业金融服务风险预测装置获取当前未经金融服务授权的目标企业的运营状态信息;将所述目标企业的运营状态信息输入预设的金融服务风险预测模型,并将该金融服务风险预测模型的输出作为该目标企业的金融服务风险预测等级,以基于该金融服务风险预测等级确定是否向所述目标企业提供金融服务。
在一种实际应用情形中,所述企业金融服务风险预测装置可以采用服务器实现;所述服务器可以与至少一个客户端设备之间通信连接。
可以理解的是,所述客户端设备可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
在另一种实际应用情形中,前述的企业金融服务风险预测装置进行企业金融服务风险预测的部分可以在如上述内容的服务器中执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器,用于企业金融服务风险预测的具体处理。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
上述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信,包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然,所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol,远程过程调用协议)、REST协议(Representational State Transfer,表述性状态转移协议)等。
具体通过下述各个实施例及应用实例分别进行详细说明。
为了解决现有的针对小微企业的企业金融服务风险预测方式,其预测准确性有限,无法满足银行等金融机构对各类企业(尤其是小微企业)的金融风险预测准确性要求等问题,本申请提供一种企业金融服务风险预测方法的实施例,参见图1,应用企业金融服务风险预测装置执行的所述企业金融服务风险预测方法具体包含有如下内容:
步骤100:获取当前未经金融服务授权的目标企业的运营状态信息。
可以理解的是,所述未经金融服务授权的目标企业或者外部企业均是指尚未成为目标金融机构的客户的企业,在本申请的一个或多个实施例中,所述目标企业或者用于训练金融服务风险预测模型的外部企业均可以指大中型企业和个体工商户等,尤其可以指小微企业,其中,所述小微企业是小型企业、微型企业和家庭作坊式企业的统称,具体可以根据企业的规模及资金投入等进行界定,如小微企业可以根据企业从业人员、营业收入、资产总额等指标并结合行业特点制定进行确定。在一种具体举例中,可以将符合年度应纳税所得额不超过300万元、从业人数不超过300人以及资产总额不超过5000万元等三个条件的企业确定为小微企业。
在步骤100中,所述目标企业的运营状态信息是指该目标企业在目标金融机构的外部数据,例如:企业照面信息相关变动次数、成立以来的各项正负面行为和正负面舆情等运营状态数据。
步骤200:将所述目标企业的运营状态信息输入预设的金融服务风险预测模型,并将该金融服务风险预测模型的输出作为该目标企业的金融服务风险预测等级,以基于该金融服务风险预测等级确定是否向所述目标企业提供金融服务;其中,所述金融服务风险预测模型为预先应用一融合模型对多个外部企业进行评分后获取的,该融合模型预先基于一打标模型和标签未知的历史企业数据获取,且所述打标模型预先基于预设的迁移学习方式和重采样方式处理后的标签已知的历史企业数据训练得到。
可以理解的是,所述金融服务风险预测模型可以为一种弱监督评分模型,所述弱监督评分模型、打标模型和融合模型均可以采用现有的分类模型,且本申请中出现的打标模型也可以被称之为第一分类模型,融合模型也可以被称之为第二分类模型,弱监督评分模型也可以被称之为第三分类模型。
其中,所述目标企业的金融服务风险预测等级具体可以与预设的标签一样,按照对应的企业历史评价信息划分为至少三类评价等级内容,例如历史最低评价等级、最高评价等级和平均评价等多种方面的评价等级内容。
另外,在步骤200中提及的所述打标模型预先基于预设的迁移学习方式和重采样方式处理后的标签已知的历史企业数据训练得到,是为了解决因为训练用样本客观存在的分布不均问题,使得现有的金融服务风险预测方法由于训练时标签存在分布不均的问题而无法保证对事先并未在银行进行注册的企业进行风险预测的准确性的情况而提出的,传统评级的评分卡一般基于历史样本开展建模工作,有大量正负样本可供建模,且其评级维度较少。本次建模的对象为小微企业,由于绝大部分小企业非银行客户,无法直接定义其评级,建模较难开展,因此通过利用现有评价结果,结合专家经验预测全量小微企业风险分布,通过迁移学习方式,优化现有评分模型,通过增加对实际分布的变换,从而优化评分结果。
可以理解的是,迁移学习,是指利用数据、任务或模型之间的相似性,将在旧领域(即源域)学习过的模型,应用于新领域(目标域)的一种学习过程。本次使用基于样本的迁移学习,是一种通过算法来对源域的样本进行权重的重新权衡,使用已有经验,来对源域和目标域的样本进行迁移,使模型泛化性得到提升。
以银行为例的金融机构进行说明,历史企业即为银行的行内用户,目标用户及外部用户均是指银行的行外用户。在一种举例中,行内可以有数十万小微客户样本及标签,而行外无标签小微企业有数千万,但是通过弱监督方式衍生的标签存在分布问题,因此本申请采用样本迁移的方式,在评分卡模型的基础上,对标签进行优化,能够有效提升行外小微企业评分结果。
从上述描述可知,本申请实施例提供的企业金融服务风险预测方法,在金融服务风险预测模型的训练过程中,基于迁移学习方式和重采样方式处理后的标签已知的历史企业数据训练得到打标模型,能够有效解决现有的金融服务风险预测方法由于训练时标签存在分布不均的问题,能够有效提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及可靠性;尤其针对小微企业,能够在有效解决针对小微企业的模型训练样本不足的问题的同时,还能够优化原本分布不均的样本标签,能够提高金融机构为企业提供金融服务的针对性及有效性,进而能够提高金融机构的运转可靠性及安全性,以提高金融机构和向金融机构申请金融服务的企业的用户体验。
为了提高对原本分布不均的样本标签进行优化的可靠性及有效性,在本申请提供的企业金融服务风险预测方法的一个实施例,参见图2,所述企业金融服务风险预测方法的步骤100之前具体包含有如下内容:
步骤010:根据标签已知的历史企业数据对应的第一数据集训练得到用于预测企业标签的第一打标模型。
在步骤010中,可以准备少量的标签已知的历史企业的标签数据,进而减少专家评价的人力及时间成本,以有效提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的效率,并有效降低企业金融服务风险预测过程所耗费的人力成本。
在本申请的一个或多个实施例中,历史企业或者历史企业用户是指已经在目标金融机构中获得金融服务授权的企业,这些企业已经属于如银行等金融机构的内部客户。
可以理解的是,步骤010和步骤040中提及的第一打标模型和第二打标模型中的“第一”、“第二”仅为便于表述而提出,二者之间的关系为在对第一打标模型再次进行训练时,形成的发生变化后的第一打标模型被称之为第二打标模型,若在步骤050之后要再次对打标模型进行训练,则前述得到的第二打标模型可以被理解为是当前的第一打标模型,在对该第一打标模型再次进行训练后形成的打标模型为当前的第二打标模型,总之,每一次训练的打标模型对象即标记为第一打标模型,每次训练后得到的打标模型即标记为第二打标模型。
步骤020:基于预设的迁移学习方式,应用标签未知的历史企业数据和标签未知的外部企业数据形成一合并数据集,其中,该合并数据集用于存储各个标签未知的历史企业用户标识、运营状态信息和第一阈标签之间的对应关系,还用于存储各个标签未知的外部企业用户标识、运营状态信息和第二阈标签之间的对应关系,且所述第一阈标签和所述第二阈标签取值不同。
在本申请的一个或多个实施例中,所述第一数据集可以写为{L1},所述合并数据集可以写为{L4}。
在步骤020中,可以准备部分的标签未知的历史企业客户数据,也就是目标金融机构中未被专家进行标签设定的内部客户信息。
步骤030:应用所述合并数据集对所述第一数据集进行重采样处理。
步骤040:基于经重采样处理后的第一数据集对所述第一打标模型进行训练,以形成对应的第二打标模型。
步骤050:应用所述第二打标模型对多个标签未知的历史企业用户分别进行标签预测,并根据获取的预测结果训练得到融合模型。
步骤060:基于所述融合模型和预设的标签类型占比数据生成所述金融服务风险预测模型。
可以理解的是,所述标签类型占比数据为目标金融机构基于实际应用中的业务需求预设的各个分级(也就是标签类型)的分布概率数据。
从上述描述可知,本申请实施例提供的企业金融服务风险预测方法,能够在模型训练过程中有效实现迁移学习及重采样过程,进而能够有效提高对原本分布不均的样本标签进行优化的可靠性及有效性,进而能够进一步提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及可靠性。
为了提供一种打标模型的训练过程的优选方式,在本申请提供的企业金融服务风险预测方法的一个实施例,参见图3,所述企业金融服务风险预测方法的步骤010具体包含有如下内容:
步骤011:获取标签已知的多个历史企业用户的用户信息以及各个所述历史企业用户各自对应的标签,以生成第一数据集,其中,所述标签按照对应的企业历史评价信息划分为至少三类评价等级内容。
可以理解的是,所述第一数据集用于存储各个标签已知的历史企业用户的用户信息与各个所述历史企业用户各自对应的标签数据。
具体来说,可以准备少量企业的标签数据,以这部分企业的全部企业历史评价信息作为特征,包括但不限于历史最低评价等级、最高评价等级、平均评价等多种方面的评价等级,准备好的少量标签数据作为目标值,生成可直接训练第一数据集。
步骤012:应用预设的逻辑回归方式,基于所述第一数据集分别训练得到各类标签各自对应的分类器子模型。
可以理解的是,使用第一数据集训练打标模型,使用逻辑回归对每种标签进行单独分类,划定阈值,得到各类标签分别对应的分类器子模型。
步骤013:将各个所述分类器子模型分别赋予相同的初始权重值,以得到对应的第一打标模型。
可以理解的是,每种分类器子模型的初始权重值均为1/n(n为最终标签的分类个数),得到最终的第一打标模型。
从上述描述可知,本申请实施例提供的企业金融服务风险预测方法,能够有效提高打标模型训练的准确性及效率,并能够有效提高弱监督评分模型的训练过程的准确性及效率,进而能够有效提高应用弱监督评分模型进行企业金融服务风险预测过程的准确性及效率。
为了提供一种迁移学习的优选实现方式,在本申请提供的企业金融服务风险预测方法的一个实施例,参见图4,所述企业金融服务风险预测方法的步骤020具体包含有如下内容:
步骤021:分别获取标签未知的历史企业数据和标签未知的外部企业数据。
步骤022:应用所述第一打标模型对标签未知的历史企业数据进行标签预测,以根据对应的标签预测结果形成第二数据集。
在本申请的一个或多个实施例中,所述第二数据集可以写为{L2}。
步骤023:将所述第二数据集中的标签预测结果删除以形成标签未知的历史企业对应的数据表,其中,所述标签未知的历史企业对应的数据表用于存储各个标签未知的历史企业用户标识和运营状态信息之间的对应关系。
在步骤023中,其中一种处理情形为:在步骤022执行之后,可以将第二数据集中的标签预测结果均删除,仅保留各个标签未知的历史企业用户标识和运营状态信息,而后生成所述标签未知的历史企业对应的数据表。
另外一种处理情形为:不需要执行步骤022,在步骤021中获取了标签未知的外部企业数据之后,直接基于预设的数据处理逻辑对标签未知的外部企业数据进行数据预处理,保留各个标签未知的历史企业用户标识和运营状态信息,而后根据各个标签未知的历史企业用户标识和运营状态信息生成所述标签未知的历史企业对应的数据表。
在上述提及的步骤023的两种实施方式中,执行步骤022的方式能够复用金融机构中已经存在并使用的金融服务风险预测模型对应的存储数据中的第二数据集,因此能够通过复用原有数据来有效降低数据处理时间及成本。若采用不执行步骤022的方式,则适用于事先并未构建过金融服务风险预测模型的金融企业,通过减少步骤的执行,也能够有效降低数据处理时间及成本。具体可以根据金融机构实际应用需求进行设置。
步骤024:获取标签未知的外部企业用户数据对应的第一数据表,其中,该第一数据表用于存储各个标签未知的外部企业用户标识和运营状态信息之间的对应关系。
步骤025:在所述标签未知的历史企业对应的数据表中新增一取值均为1的阈标签列以形成第二数据表,以及,在所述第一数据集中新增一取值均为0的阈标签列以形成第三数据表。
在本申请的一个或多个实施例中,所述第二数据表可以写为{T2},所述第三数据表可以写为{T3}。
步骤026:对所述第二数据表和所述第三数据表进行合并处理,得到用于作为所述合并数据集对应的第四数据表。
所述第四数据表可以写为{T4}。
在步骤026中,第四数据表的举例参见表1,其中USER1-1为标签未知的历史企业用户标识举例,USER2-91标签未知的外部企业用户标识举例,BL1和BL91均为运营状态信息举例。
表1
Figure BDA0002967117260000131
Figure BDA0002967117260000141
基于表1,所述合并数据集的举例可以为{USER1-1,BL1,1;…USER2-91,BL91,0;…}。
从上述描述可知,本申请实施例提供的企业金融服务风险预测方法,能够在模型训练过程中有效实现迁移学习及重采样过程,进而能够有效提高对原本分布不均的样本标签进行优化的可靠性及有效性,进而能够进一步提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及可靠性。
为了提供一种迁移学习及重采样的优选实现方式,在本申请提供的企业金融服务风险预测方法的一个实施例,参见图5,所述企业金融服务风险预测方法的步骤030具体包含有如下内容:
步骤031:应用所述第四数据表训练分类器,并基于该分类器获取的所述第四数据集中的标签预测值,对不同的标签预测数值范围分别对应的权重值进行调整以形成目标权重集,其中,所述目标权重集用于存储各个所述标签预测数值范围与调整后权重之间的一一对应关系。
具体来说,由于分类器为二分类,因此预测值越大,说明其区分度越高,其分类权重β可简化为p/(1-p),为便于重采样,对权重进行调整如下表2所示:
表2
预测值p区间 β值 调整后权重
<=0.6 (-,2) 1
[0.6,0.7) [2,2) 2
[0.7,0.8) [2,4) 3
[0.8,0.9) [4,9) 6
>=0.9 [9,+) 9
步骤032:根据所述目标权重集对所述第一数据集进行重采样处理,以形成经重采样处理后的第一数据集。
对第一数据集{L1}按以上表2中的权重进行重采样得到经重采样处理后的第一数据集{L1’}。
从上述描述可知,本申请实施例提供的企业金融服务风险预测方法,能够有效提高重采样过程的准确性、有效性及效率,能够有效提高训练得到金融服务风险预测模型的准确性、有效性及效率,进而能够有效提高应用金融服务风险预测模型进行企业金融服务风险预测过程的准确性、有效性及效率。
为了提供一种融合模型的训练过程的优选方式,在本申请提供的企业金融服务风险预测方法的一个实施例,参见图6,所述企业金融服务风险预测方法的步骤050具体包含有如下内容:
步骤051:基于所述第二打标模型对所述标签未知的历史企业对应的数据表进行标签预测,以得到更新标签预测结果后的第二数据集。
步骤052:应用所述第二数据集分别训练得到各类标签各自对应的融合子模型,并将各个所述融合子模型分别赋予相同的初始权重值。
步骤053:基于更新标签预测结果后的第二数据集中的各类标签的值和各类标签各自对应的融合子模型训练得到弱分类器,并基于该弱分类器重新确定各个所述融合子模型的权重值,以得到对应的融合模型。从上述描述可知,本申请实施例提供的企业金融服务风险预测方法,能够有效提高融合模型训练的准确性及效率,并能够有效提高弱监督评分模型的训练过程的准确性及效率,进而能够有效提高应用弱监督评分模型进行企业金融服务风险预测过程的准确性及效率。
为了提供一种评分模型的训练过程的优选方式,在本申请提供的企业金融服务风险预测方法的一个实施例,所述企业金融服务风险预测方法的步骤060具体包含有如下内容:
步骤061:基于所述融合模型和预设的标签类型占比数据,对所述标签未知的外部企业用户数据对应的第一数据表中的各个企业分别进行评分以生成对应的评级函数,将该评级函数作为所述金融服务风险预测模型。
从上述描述可知,本申请实施例提供的企业金融服务风险预测方法,能够有效提高金融服务风险预测模型的训练过程的准确性及效率,进而能够有效提高应用金融服务风险预测模型进行企业金融服务风险预测过程的准确性及效率。
为了提供一种获取当前未经金融服务授权的目标企业的运营状态信息的优选方式,在本申请提供的企业金融服务风险预测方法的一个实施例,所述企业金融服务风险预测方法的步骤100具体包含有如下内容:
步骤110:接收企业针对目标金融机构发出的金融服务申请信息,其中,所述金融服务申请信息中包含有对应企业的唯一标识和金融服务类型。
步骤120:根据所述企业的唯一标识,判断该企业是否为所述目标金融机构的历史企业用户,若否,则将该企业确定为当前未经金融服务授权的目标企业。
步骤130:基于所述目标企业的唯一标识获取该目标企业的目标企业的运营状态信息,并根据所述金融服务类型选取对应的弱监督评分模型。
从上述描述可知,本申请实施例提供的企业金融服务风险预测方法,能够针对不同的金融服务申请选定不同类型的弱监督评分模型,以有效提高企业金融服务风险预测的针对性及适用广泛性。
为了提供一种向目标企业提供金融服务的优选方式,在本申请提供的企业金融服务风险预测方法的一个实施例,所述企业金融服务风险预测方法的步骤200之后还具体包含有如下内容:
步骤300:判断所述目标企业的金融服务风险预测等级是否符合预设的金融服务要求,若是,则将该目标企业存储为历史企业客户,以向该目标企业提供金融服务。
从上述描述可知,本申请实施例提供的企业金融服务风险预测方法,能够有效节省企业金融服务风险预测的人力成本,并能够有效提高企业金融服务风险预测的效率,以及向申请金融服务的企业反馈风险预测结果的效率,能够提高金融机构为企业提供金融服务的针对性及可靠性,进而能够提高金融机构的运转可靠性及安全性,以提高金融机构和向金融机构申请金融服务的企业的用户体验。
为了进一步说明书本方案,本申请还提供一种企业金融服务风险预测方法的具体应用实例,本申请应用实例针对使用迁移学习方法解决评分对象样本数据不足,难以进行风险评级的问题,通过利用现有评价结果,结合专家经验预测全量小微企业风险分布,通过迁移学习方式,优化现有评分模型,通过增加对实际分布的变换,从而优化评分结果。可以理解的是,评分卡是一种常见的对企业信用评级的机制,通常使用解释性较好的逻辑回归模型、决策树等模型,方便业务人员操作和理解。主要步骤是将确定好的特征逐项计算评分卡中各指标并加总得到总分,再结合政策或业务需求决定阈值,划定最终等级。传统评级的评分卡一般基于历史样本开展建模工作,有大量正负样本可供建模,且其评级维度较少。本次建模的对象为小微企业,由于绝大部分小企业非银行客户,无法直接定义其评级,建模较难开展。迁移学习是指利用数据、任务或模型之间的相似性,将在旧领域(即源域)学习过的模型,应用于新领域(目标域)的一种学习过程。本次使用基于样本的迁移学习,是一种通过算法来对源域的样本进行权重的重新权衡,使用已有经验,来对源域和目标域的样本进行迁移,使模型泛化性得到提升。行内有数十万小微客户样本及标签,而行外无标签小微企业有数千万,但是通过弱监督方式衍生的标签存在分布问题,因此本文使用样本迁移的方式,在评分卡模型的基础上,对标签进行优化,提升行外小微企业评分结果。
在本应用实例中,目标银行内原本设有金融服务风险预测模型,也存储了该金融服务风险预测模型对应的训练用数据等相关数据,因此,本应用实施例中用S和N的步骤标识区别目标银行的原训练模型步骤和本次新增的步骤,但需要注意的是,即使是原训练步骤,在本申请中也存在创新性提出的内容,本申请的创新性内容并不仅仅限定与N标识的步骤内。其中,原流程为S开头,新增修改部分流程为N开头,如无特殊说明,流程复用。参见图7,本申请应用实例提供的企业金融服务风险预测方法具体说明如下:
S101.获得数据集{L1}:准备少量企业标签数据,行内数据为基础,编写数据处理逻辑生成可直接训练数据集{L1},包括变量部分和标签部分。
S201.准备行内数据{T2}:准备未标注的企业,编写处理逻辑,生成数据表{T2}。
S202.获得数据集{L2}:用模型f1(x)对{T2}预测其分级标签{y1},生成数据集{L2}。
N201.准备行外数据{T3},作为目标域:准备不含标签的行外企业,编写处理逻辑,生成数据宽表{T3}。
N202.{T2}新增一列源域标签,值为1;{T2}新增一列目标域标签,值为0;训练分类器f3(x):为{T2}新增一列域标签,取值均为1,表示源域;为{T3}增加一列域标签,取值均为0,表示目标域,将含有标签的{T2}和{T3}合并为{L4},以域标签为目标训练分类器f3(x)。
N203.确定重采样比例:由于分类器f3(x)为二分类,因此预测值越大,说明其区分度越高,其分类权重β可简化为p/(1-p),为便于重采样,对权重进行调整如前述的表2所示。
N204.获得数据集{L1’}:对{L1}按以上权重进行重采样得到数据集{L1’}。
S102.训练打标模型f1(x):使用数据集{L1’}训练打标模型f1(x)。
未体现在图7中的步骤N205.使用新模型f1(x)对{T2}进行训练得到标签{y1},并组合成为数据集{L2}。
S203.训练融合模型f2(x):使用数据集{L2}训练融合模型f2(x)。
S301.基于f2(x)及预设分布确定最终函数g:基于f2(x)及预设分布,对全量小企业评分,调整分布确定各评级阈值,得到最终函数g(也即最终评级函数)。
在一种企业金融服务风险预测方法的具体举例中,企业金融服务风险预测方法具体包含有如下内容:
1.准备少量企业的标签数据,标签区分ABCD等多档,以这部分企业的全部企业历史评价信息作为特征,包括但不限于历史最低评价等级、最高评价等级、平均评价等多种方面的评价等级,准备好的少量标签数据作为目标值,生成可直接训练数据集{L1}。
2.准备未标注的部分行内用户企业,此类企业从行内企业中随机抽选,用模型f1(x)预测其分级标签{y1}。
3.对企业及其标签{y1},使用以引入的外部数据,生成数据集{L2}:统计企业照面信息相关变动次数,成立以来的各项正负面行为、正负面舆情等,以此构建基础特征;对基础特征进行特征组合后,形成数据集{L2}。
4.随机抽样非行内客户,数量约为数据集{L2}的9倍,使用行外数据,取数逻辑与{L2}特征部分一致,生成数据宽表{T3}。
5.将{L2}的标签{y1}去掉,新增一列域标签,取值均为1,表示源域;为{T3}增加一列域标签,取值均为0,表示目标域,将两个数据合并为{L4},以域标签为目标训练分类器f3(x)。
6.分类器f3(x)对源域和目标域应有足够区分度。由于分类器f3(x)为二分类,因此预测值越大,说明其区分度越高,其分类权重β可简化为p/(1-p),为便于重采样,经多次试验后,对权重进行调整如表2所示。
7.对原始的{L1}按上表,编写语句进行重采样,生成数据集{L1’}。
8.使用数据集{L1’}训练打标模型f1(x),使用逻辑回归对每种标签进行单独分类,划定阈值,得到子模型f1a(x)、f1b(x)、f1c(x)等,每种分类器的权重均为1/n(n为最终分档个数),得到打标模型f1(x)。
9.重新训练f2(x),并生成{L2}的新标签。
10.使用更新标签的数据集{L2}训练融合模型f2(x),对每种分档单独进行建模,获得子模型f2a(x)、f2b(x)、f2c(x)等,训练弱投票器f2‘(x),标签同{L2}的标签,每个子函数的原始权重为1/n(n为最终分档个数),训练完成后重新划分阈值,并确定融合模型f2(x)。
11.基于f2(x)及预设分布(此处预设分布为业务需求中明确的分布概率),对全量小企业评分,得到最终评级函数g。
12.该评分主要聚焦用户在银行以外的行为,结果仅用于页面展示,辅助业务人员风险决策。
从上述描述可知,本申请应用实例提供的企业金融服务风险预测方法,通过使用迁移学习方法,提升了企业评分的准确性,由于引入算法解决样本空间权重分布问题,其结果较原模型有较大提升,可有效解决行外小企业无标注,难以量化评价的问题,对新客户的准入评价由一定参考意义。
从软件层面来说,为了解决现有的针对小微企业的企业金融服务风险预测方式,其预测准确性有限,无法满足银行等金融机构对各类企业(尤其是小微企业)的金融风险预测准确性要求等问题,本申请提供一种用于执行所述企业金融服务风险预测方法中全部或部分内容的企业金融服务风险预测装置的实施例,参见图8,所述企业金融服务风险预测装置具体包含有如下内容:
信息获取模块10,用于获取当前未经金融服务授权的目标企业的运营状态信息。
可以理解的是,所述未经金融服务授权的目标企业或者外部企业均是指尚未成为目标金融机构的客户的企业,在本申请的一个或多个实施例中,所述目标企业或者用于训练金融服务风险预测模型的外部企业均可以指大中型企业和个体工商户等,尤其可以指小微企业,其中,所述小微企业是小型企业、微型企业和家庭作坊式企业的统称,具体可以根据企业的规模及资金投入等进行界定,如小微企业可以根据企业从业人员、营业收入、资产总额等指标并结合行业特点制定进行确定。在一种具体举例中,可以将符合年度应纳税所得额不超过300万元、从业人数不超过300人以及资产总额不超过5000万元等三个条件的企业确定为小微企业。
在信息获取模块10中,所述目标企业的运营状态信息是指该目标企业在目标金融机构的外部数据,例如:企业照面信息相关变动次数、成立以来的各项正负面行为和正负面舆情等运营状态数据。
风险预测模块20,用于将所述目标企业的运营状态信息输入预设的金融服务风险预测模型,并将该金融服务风险预测模型的输出作为该目标企业的金融服务风险预测等级,以基于该金融服务风险预测等级确定是否向所述目标企业提供金融服务;其中,所述金融服务风险预测模型为预先应用一融合模型对多个外部企业进行评分后获取的,该融合模型预先基于一打标模型和标签未知的历史企业数据获取,且所述打标模型预先基于预设的迁移学习方式和重采样方式处理后的标签已知的历史企业数据训练得到。
可以理解的是,所述金融服务风险预测模型可以为一种弱监督评分模型,所述弱监督评分模型、打标模型和融合模型均可以采用现有的分类模型,且本申请中出现的打标模型也可以被称之为第一分类模型,融合模型也可以被称之为第二分类模型,弱监督评分模型也可以被称之为第三分类模型。
其中,所述目标企业的金融服务风险预测等级具体可以与预设的标签一样,按照对应的企业历史评价信息划分为至少三类评价等级内容,例如历史最低评价等级、最高评价等级和平均评价等多种方面的评价等级内容。
另外,在风险预测模块20中提及的所述打标模型预先基于预设的迁移学习方式和重采样方式处理后的标签已知的历史企业数据训练得到,是为了解决因为训练用样本客观存在的分布不均问题,使得现有的金融服务风险预测方法由于训练时标签存在分布不均的问题而无法保证对事先并未在银行进行注册的企业进行风险预测的准确性的情况而提出的,传统评级的评分卡一般基于历史样本开展建模工作,有大量正负样本可供建模,且其评级维度较少。本次建模的对象为小微企业,由于绝大部分小企业非银行客户,无法直接定义其评级,建模较难开展,因此通过利用现有评价结果,结合专家经验预测全量小微企业风险分布,通过迁移学习方式,优化现有评分模型,通过增加对实际分布的变换,从而优化评分结果。
可以理解的是,迁移学习,是指利用数据、任务或模型之间的相似性,将在旧领域(即源域)学习过的模型,应用于新领域(目标域)的一种学习过程。本次使用基于样本的迁移学习,是一种通过算法来对源域的样本进行权重的重新权衡,使用已有经验,来对源域和目标域的样本进行迁移,使模型泛化性得到提升。
以银行为例的金融机构进行说明,历史企业即为银行的行内用户,目标用户及外部用户均是指银行的行外用户。在一种举例中,行内可以有数十万小微客户样本及标签,而行外无标签小微企业有数千万,但是通过弱监督方式衍生的标签存在分布问题,因此本申请采用样本迁移的方式,在评分卡模型的基础上,对标签进行优化,能够有效提升行外小微企业评分结果。
本申请提供的企业金融服务风险预测装置的实施例具体可以用于执行上述实施例中的企业金融服务风险预测方法的实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
从上述描述可知,本申请实施例提供的企业金融服务风险预测装置,金融服务风险预测模型的训练过程中,基于迁移学习方式和重采样方式处理后的标签已知的历史企业数据训练得到打标模型,能够有效解决现有的金融服务风险预测方法由于训练时标签存在分布不均的问题,能够有效提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及可靠性;尤其针对小微企业,能够在有效解决针对小微企业的模型训练样本不足的问题的同时,还能够优化原本分布不均的样本标签,能够提高金融机构为企业提供金融服务的针对性及有效性,进而能够提高金融机构的运转可靠性及安全性,以提高金融机构和向金融机构申请金融服务的企业的用户体验。
为了提高对原本分布不均的样本标签进行优化的可靠性及有效性,在本申请提供的企业金融服务风险预测装置的一个实施例,所述企业金融服务风险预测装置还具体用于在步骤100之前执行下述内容:
步骤010:根据标签已知的历史企业数据对应的第一数据集训练得到用于预测企业标签的第一打标模型。
在步骤010中,可以准备少量的标签已知的历史企业的标签数据,进而减少专家评价的人力及时间成本,以有效提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的效率,并有效降低企业金融服务风险预测过程所耗费的人力成本。
在本申请的一个或多个实施例中,历史企业或者历史企业用户是指已经在目标金融机构中获得金融服务授权的企业,这些企业已经属于如银行等金融机构的内部客户。
可以理解的是,步骤010和步骤040中提及的第一打标模型和第二打标模型中的“第一”、“第二”仅为便于表述而提出,二者之间的关系为在对第一打标模型再次进行训练时,形成的发生变化后的第一打标模型被称之为第二打标模型,若在步骤050之后要再次对打标模型进行训练,则前述得到的第二打标模型可以被理解为是当前的第一打标模型,在对该第一打标模型再次进行训练后形成的打标模型为当前的第二打标模型,总之,每一次训练的打标模型对象即标记为第一打标模型,每次训练后得到的打标模型即标记为第二打标模型。
步骤020:基于预设的迁移学习方式,应用标签未知的历史企业数据和标签未知的外部企业数据形成一合并数据集,其中,该合并数据集用于存储各个标签未知的历史企业用户标识、运营状态信息和第一阈标签之间的对应关系,还用于存储各个标签未知的外部企业用户标识、运营状态信息和第二阈标签之间的对应关系,且所述第一阈标签和所述第二阈标签取值不同。
在本申请的一个或多个实施例中,所述第一数据集可以写为{L1},所述合并数据集可以写为{L4}。
在步骤020中,可以准备部分的标签未知的历史企业客户数据,也就是目标金融机构中未被专家进行标签设定的内部客户信息。
步骤030:应用所述合并数据集对所述第一数据集进行重采样处理。
步骤040:基于经重采样处理后的第一数据集对所述第一打标模型进行训练,以形成对应的第二打标模型。
步骤050:应用所述第二打标模型对多个标签未知的历史企业用户分别进行标签预测,并根据获取的预测结果训练得到融合模型。
步骤060:基于所述融合模型和预设的标签类型占比数据生成所述金融服务风险预测模型。
可以理解的是,所述标签类型占比数据为目标金融机构基于实际应用中的业务需求预设的各个分级(也就是标签类型)的分布概率数据。
从上述描述可知,本申请实施例提供的企业金融服务风险预测装置,能够在模型训练过程中有效实现迁移学习及重采样过程,进而能够有效提高对原本分布不均的样本标签进行优化的可靠性及有效性,进而能够进一步提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及可靠性。
为了提供一种打标模型的训练过程的优选方式,在本申请提供的企业金融服务风险预测装置的一个实施例,所述企业金融服务风险预测装置还具体用于执行步骤010的详细流程:
步骤011:获取标签已知的多个历史企业用户的用户信息以及各个所述历史企业用户各自对应的标签,以生成第一数据集,其中,所述标签按照对应的企业历史评价信息划分为至少三类评价等级内容。
可以理解的是,所述第一数据集用于存储各个标签已知的历史企业用户的用户信息与各个所述历史企业用户各自对应的标签数据。
具体来说,可以准备少量企业的标签数据,以这部分企业的全部企业历史评价信息作为特征,包括但不限于历史最低评价等级、最高评价等级、平均评价等多种方面的评价等级,准备好的少量标签数据作为目标值,生成可直接训练第一数据集。
步骤012:应用预设的逻辑回归方式,基于所述第一数据集分别训练得到各类标签各自对应的分类器子模型。
可以理解的是,使用第一数据集训练打标模型,使用逻辑回归对每种标签进行单独分类,划定阈值,得到各类标签分别对应的分类器子模型。
步骤013:将各个所述分类器子模型分别赋予相同的初始权重值,以得到对应的第一打标模型。
可以理解的是,每种分类器子模型的初始权重值均为1/n(n为最终标签的分类个数),得到最终的第一打标模型。
从上述描述可知,本申请实施例提供的企业金融服务风险预测装置,能够有效提高打标模型训练的准确性及效率,并能够有效提高弱监督评分模型的训练过程的准确性及效率,进而能够有效提高应用弱监督评分模型进行企业金融服务风险预测过程的准确性及效率。
为了提供一种迁移学习的优选实现方式,在本申请提供的企业金融服务风险预测装置的一个实施例,所述企业金融服务风险预测装置还具体用于执行步骤020的详细流程:
步骤021:分别获取标签未知的历史企业数据和标签未知的外部企业数据。
步骤022:应用所述第一打标模型对标签未知的历史企业数据进行标签预测,以根据对应的标签预测结果形成第二数据集。
在本申请的一个或多个实施例中,所述第二数据集可以写为{L2}。
步骤023:将所述第二数据集中的标签预测结果删除以形成标签未知的历史企业对应的数据表,其中,所述标签未知的历史企业对应的数据表用于存储各个标签未知的历史企业用户标识和运营状态信息之间的对应关系。
在步骤023中,其中一种处理情形为:在步骤022执行之后,可以将第二数据集中的标签预测结果均删除,仅保留各个标签未知的历史企业用户标识和运营状态信息,而后生成所述标签未知的历史企业对应的数据表。
另外一种处理情形为:不需要执行步骤022,在步骤021中获取了标签未知的外部企业数据之后,直接基于预设的数据处理逻辑对标签未知的外部企业数据进行数据预处理,保留各个标签未知的历史企业用户标识和运营状态信息,而后根据各个标签未知的历史企业用户标识和运营状态信息生成所述标签未知的历史企业对应的数据表。
在上述提及的步骤023的两种实施方式中,执行步骤022的方式能够复用金融机构中已经存在并使用的金融服务风险预测模型对应的存储数据中的第二数据集,因此能够通过复用原有数据来有效降低数据处理时间及成本。若采用不执行步骤022的方式,则适用于事先并未构建过金融服务风险预测模型的金融企业,通过减少步骤的执行,也能够有效降低数据处理时间及成本。具体可以根据金融机构实际应用需求进行设置。
步骤024:获取标签未知的外部企业用户数据对应的第一数据表,其中,该第一数据表用于存储各个标签未知的外部企业用户标识和运营状态信息之间的对应关系。
步骤025:在所述标签未知的历史企业对应的数据表中新增一取值均为1的阈标签列以形成第二数据表,以及,在所述第一数据集中新增一取值均为0的阈标签列以形成第三数据表。
在本申请的一个或多个实施例中,所述第二数据表可以写为{T2},所述第三数据表可以写为{T3}。
步骤026:对所述第二数据表和所述第三数据表进行合并处理,得到用于作为所述合并数据集对应的第四数据表。
所述第四数据表可以写为{T4}。
在步骤026中,第四数据表的举例参见表1,其中USER1-1为标签未知的历史企业用户标识举例,USER2-91标签未知的外部企业用户标识举例,BL1和BL91均为运营状态信息举例。
基于表1,所述合并数据集的举例可以为{USER1-1,BL1,1;…USER2-91,BL91,0;…}。
从上述描述可知,本申请实施例提供的企业金融服务风险预测装置,能够在模型训练过程中有效实现迁移学习及重采样过程,进而能够有效提高对原本分布不均的样本标签进行优化的可靠性及有效性,进而能够进一步提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及可靠性。
为了提供一种迁移学习及重采样的优选实现方式,在本申请提供的企业金融服务风险预测装置的一个实施例,所述企业金融服务风险预测装置还具体用于执行步骤030的详细流程:
步骤031:应用所述第四数据表训练分类器,并基于该分类器获取的所述第四数据集中的标签预测值,对不同的标签预测数值范围分别对应的权重值进行调整以形成目标权重集,其中,所述目标权重集用于存储各个所述标签预测数值范围与调整后权重之间的一一对应关系。
具体来说,由于分类器为二分类,因此预测值越大,说明其区分度越高,其分类权重β可简化为p/(1-p),为便于重采样,对权重进行调整如表2所示。
步骤032:根据所述目标权重集对所述第一数据集进行重采样处理,以形成经重采样处理后的第一数据集。
对第一数据集{L1}按以上表2中的权重进行重采样得到经重采样处理后的第一数据集{L1’}。
从上述描述可知,本申请实施例提供的企业金融服务风险预测装置,能够有效提高重采样过程的准确性、有效性及效率,能够有效提高训练得到金融服务风险预测模型的准确性、有效性及效率,进而能够有效提高应用金融服务风险预测模型进行企业金融服务风险预测过程的准确性、有效性及效率。
为了提供一种融合模型的训练过程的优选方式,在本申请提供的企业金融服务风险预测装置的一个实施例,所述企业金融服务风险预测装置还具体用于执行步骤050的详细流程:
步骤051:基于所述第二打标模型对所述标签未知的历史企业对应的数据表进行标签预测,以得到更新标签预测结果后的第二数据集。
步骤052:应用所述第二数据集分别训练得到各类标签各自对应的融合子模型,并将各个所述融合子模型分别赋予相同的初始权重值。
步骤053:基于更新标签预测结果后的第二数据集中的各类标签的值和各类标签各自对应的融合子模型训练得到弱分类器,并基于该弱分类器重新确定各个所述融合子模型的权重值,以得到对应的融合模型。从上述描述可知,本申请实施例提供的企业金融服务风险预测装置,能够有效提高融合模型训练的准确性及效率,并能够有效提高弱监督评分模型的训练过程的准确性及效率,进而能够有效提高应用弱监督评分模型进行企业金融服务风险预测过程的准确性及效率。
为了提供一种评分模型的训练过程的优选方式,在本申请提供的企业金融服务风险预测装置的一个实施例,所述企业金融服务风险预测装置还具体用于执行步骤060的详细流程:
步骤061:基于所述融合模型和预设的标签类型占比数据,对所述标签未知的外部企业用户数据对应的第一数据表中的各个企业分别进行评分以生成对应的评级函数,将该评级函数作为所述金融服务风险预测模型。
从上述描述可知,本申请实施例提供的企业金融服务风险预测装置,能够有效提高金融服务风险预测模型的训练过程的准确性及效率,进而能够有效提高应用金融服务风险预测模型进行企业金融服务风险预测过程的准确性及效率。
为了提供一种获取当前未经金融服务授权的目标企业的运营状态信息的优选方式,在本申请提供的企业金融服务风险预测装置的一个实施例,所述企业金融服务风险预测装置的步骤100具体用于执行下述内容:
步骤110:接收企业针对目标金融机构发出的金融服务申请信息,其中,所述金融服务申请信息中包含有对应企业的唯一标识和金融服务类型。
步骤120:根据所述企业的唯一标识,判断该企业是否为所述目标金融机构的历史企业用户,若否,则将该企业确定为当前未经金融服务授权的目标企业。
步骤130:基于所述目标企业的唯一标识获取该目标企业的目标企业的运营状态信息,并根据所述金融服务类型选取对应的弱监督评分模型。
从上述描述可知,本申请实施例提供的企业金融服务风险预测装置,能够针对不同的金融服务申请选定不同类型的弱监督评分模型,以有效提高企业金融服务风险预测的针对性及适用广泛性。
为了提供一种向目标企业提供金融服务的优选方式,在本申请提供的企业金融服务风险预测装置的一个实施例,所述企业金融服务风险预测装置的步骤200之后还具体用于执行下述内容:
步骤300:判断所述目标企业的金融服务风险预测等级是否符合预设的金融服务要求,若是,则将该目标企业存储为历史企业客户,以向该目标企业提供金融服务。
从上述描述可知,本申请实施例提供的企业金融服务风险预测装置,能够有效节省企业金融服务风险预测的人力成本,并能够有效提高企业金融服务风险预测的效率,以及向申请金融服务的企业反馈风险预测结果的效率,能够提高金融机构为企业提供金融服务的针对性及可靠性,进而能够提高金融机构的运转可靠性及安全性,以提高金融机构和向金融机构申请金融服务的企业的用户体验。
从硬件层面来说,为了解决现有的针对小微企业的企业金融服务风险预测方式,其预测准确性有限,无法满足银行等金融机构对各类企业(尤其是小微企业)的金融风险预测准确性要求等问题,本申请提供一种用于实现所述企业金融服务风险预测方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
图9为本申请实施例的电子设备9600的系统构成的示意框图。如图9所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图9是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
在一实施例中,企业金融服务风险预测功能可以被集成到中央处理器中。其中,中央处理器可以被配置为进行如下控制:
步骤100:获取当前未经金融服务授权的目标企业的运营状态信息。
可以理解的是,所述未经金融服务授权的目标企业或者外部企业均是指尚未成为目标金融机构的客户的企业,在本申请的一个或多个实施例中,所述目标企业或者用于训练金融服务风险预测模型的外部企业均可以指大中型企业和个体工商户等,尤其可以指小微企业,其中,所述小微企业是小型企业、微型企业和家庭作坊式企业的统称,具体可以根据企业的规模及资金投入等进行界定,如小微企业可以根据企业从业人员、营业收入、资产总额等指标并结合行业特点制定进行确定。在一种具体举例中,可以将符合年度应纳税所得额不超过300万元、从业人数不超过300人以及资产总额不超过5000万元等三个条件的企业确定为小微企业。
在步骤100中,所述目标企业的运营状态信息是指该目标企业在目标金融机构的外部数据,例如:企业照面信息相关变动次数、成立以来的各项正负面行为和正负面舆情等运营状态数据。
步骤200:将所述目标企业的运营状态信息输入预设的金融服务风险预测模型,并将该金融服务风险预测模型的输出作为该目标企业的金融服务风险预测等级,以基于该金融服务风险预测等级确定是否向所述目标企业提供金融服务;其中,所述金融服务风险预测模型为预先应用一融合模型对多个外部企业进行评分后获取的,该融合模型预先基于一打标模型和标签未知的历史企业数据获取,且所述打标模型预先基于预设的迁移学习方式和重采样方式处理后的标签已知的历史企业数据训练得到。
可以理解的是,所述金融服务风险预测模型可以为一种弱监督评分模型,所述弱监督评分模型、打标模型和融合模型均可以采用现有的分类模型,且本申请中出现的打标模型也可以被称之为第一分类模型,融合模型也可以被称之为第二分类模型,弱监督评分模型也可以被称之为第三分类模型。
其中,所述目标企业的金融服务风险预测等级具体可以与预设的标签一样,按照对应的企业历史评价信息划分为至少三类评价等级内容,例如历史最低评价等级、最高评价等级和平均评价等多种方面的评价等级内容。
另外,在步骤200中提及的所述打标模型预先基于预设的迁移学习方式和重采样方式处理后的标签已知的历史企业数据训练得到,是为了解决因为训练用样本客观存在的分布不均问题,使得现有的金融服务风险预测方法由于训练时标签存在分布不均的问题而无法保证对事先并未在银行进行注册的企业进行风险预测的准确性的情况而提出的,传统评级的评分卡一般基于历史样本开展建模工作,有大量正负样本可供建模,且其评级维度较少。本次建模的对象为小微企业,由于绝大部分小企业非银行客户,无法直接定义其评级,建模较难开展,因此通过利用现有评价结果,结合专家经验预测全量小微企业风险分布,通过迁移学习方式,优化现有评分模型,通过增加对实际分布的变换,从而优化评分结果。
可以理解的是,迁移学习,是指利用数据、任务或模型之间的相似性,将在旧领域(即源域)学习过的模型,应用于新领域(目标域)的一种学习过程。本次使用基于样本的迁移学习,是一种通过算法来对源域的样本进行权重的重新权衡,使用已有经验,来对源域和目标域的样本进行迁移,使模型泛化性得到提升。
以银行为例的金融机构进行说明,历史企业即为银行的行内用户,目标用户及外部用户均是指银行的行外用户。在一种举例中,行内可以有数十万小微客户样本及标签,而行外无标签小微企业有数千万,但是通过弱监督方式衍生的标签存在分布问题,因此本申请采用样本迁移的方式,在评分卡模型的基础上,对标签进行优化,能够有效提升行外小微企业评分结果。
从上述描述可知,本申请实施例提供的电子设备,在金融服务风险预测模型的训练过程中,基于迁移学习方式和重采样方式处理后的标签已知的历史企业数据训练得到打标模型,能够有效解决现有的金融服务风险预测方法由于训练时标签存在分布不均的问题,能够有效提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及可靠性;尤其针对小微企业,能够在有效解决针对小微企业的模型训练样本不足的问题的同时,还能够优化原本分布不均的样本标签,能够提高金融机构为企业提供金融服务的针对性及有效性,进而能够提高金融机构的运转可靠性及安全性,以提高金融机构和向金融机构申请金融服务的企业的用户体验。
在另一个实施方式中,企业金融服务风险预测装置可以与中央处理器9100分开配置,例如可以将企业金融服务风险预测装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现企业金融服务风险预测功能。
如图9所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图9中所示的所有部件;此外,电子设备9600还可以包括图9中没有示出的部件,可以参考现有技术。
如图9所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的企业金融服务风险预测方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的企业金融服务风险预测方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤100:获取当前未经金融服务授权的目标企业的运营状态信息。
可以理解的是,所述未经金融服务授权的目标企业或者外部企业均是指尚未成为目标金融机构的客户的企业,在本申请的一个或多个实施例中,所述目标企业或者用于训练金融服务风险预测模型的外部企业均可以指大中型企业和个体工商户等,尤其可以指小微企业,其中,所述小微企业是小型企业、微型企业和家庭作坊式企业的统称,具体可以根据企业的规模及资金投入等进行界定,如小微企业可以根据企业从业人员、营业收入、资产总额等指标并结合行业特点制定进行确定。在一种具体举例中,可以将符合年度应纳税所得额不超过300万元、从业人数不超过300人以及资产总额不超过5000万元等三个条件的企业确定为小微企业。
在步骤100中,所述目标企业的运营状态信息是指该目标企业在目标金融机构的外部数据,例如:企业照面信息相关变动次数、成立以来的各项正负面行为和正负面舆情等运营状态数据。
步骤200:将所述目标企业的运营状态信息输入预设的金融服务风险预测模型,并将该金融服务风险预测模型的输出作为该目标企业的金融服务风险预测等级,以基于该金融服务风险预测等级确定是否向所述目标企业提供金融服务;其中,所述金融服务风险预测模型为预先应用一融合模型对多个外部企业进行评分后获取的,该融合模型预先基于一打标模型和标签未知的历史企业数据获取,且所述打标模型预先基于预设的迁移学习方式和重采样方式处理后的标签已知的历史企业数据训练得到。
可以理解的是,所述金融服务风险预测模型可以为一种弱监督评分模型,所述弱监督评分模型、打标模型和融合模型均可以采用现有的分类模型,且本申请中出现的打标模型也可以被称之为第一分类模型,融合模型也可以被称之为第二分类模型,弱监督评分模型也可以被称之为第三分类模型。
其中,所述目标企业的金融服务风险预测等级具体可以与预设的标签一样,按照对应的企业历史评价信息划分为至少三类评价等级内容,例如历史最低评价等级、最高评价等级和平均评价等多种方面的评价等级内容。
另外,在步骤200中提及的所述打标模型预先基于预设的迁移学习方式和重采样方式处理后的标签已知的历史企业数据训练得到,是为了解决因为训练用样本客观存在的分布不均问题,使得现有的金融服务风险预测方法由于训练时标签存在分布不均的问题而无法保证对事先并未在银行进行注册的企业进行风险预测的准确性的情况而提出的,传统评级的评分卡一般基于历史样本开展建模工作,有大量正负样本可供建模,且其评级维度较少。本次建模的对象为小微企业,由于绝大部分小企业非银行客户,无法直接定义其评级,建模较难开展,因此通过利用现有评价结果,结合专家经验预测全量小微企业风险分布,通过迁移学习方式,优化现有评分模型,通过增加对实际分布的变换,从而优化评分结果。
可以理解的是,迁移学习,是指利用数据、任务或模型之间的相似性,将在旧领域(即源域)学习过的模型,应用于新领域(目标域)的一种学习过程。本次使用基于样本的迁移学习,是一种通过算法来对源域的样本进行权重的重新权衡,使用已有经验,来对源域和目标域的样本进行迁移,使模型泛化性得到提升。
以银行为例的金融机构进行说明,历史企业即为银行的行内用户,目标用户及外部用户均是指银行的行外用户。在一种举例中,行内可以有数十万小微客户样本及标签,而行外无标签小微企业有数千万,但是通过弱监督方式衍生的标签存在分布问题,因此本申请采用样本迁移的方式,在评分卡模型的基础上,对标签进行优化,能够有效提升行外小微企业评分结果。
从上述描述可知,本申请实施例提供的计算机可读存储介质,在金融服务风险预测模型的训练过程中,基于迁移学习方式和重采样方式处理后的标签已知的历史企业数据训练得到打标模型,能够有效解决现有的金融服务风险预测方法由于训练时标签存在分布不均的问题,能够有效提高针对未经目标金融机构进行金融服务授权的目标企业的金融服务风险预测过程的准确性及可靠性;尤其针对小微企业,能够在有效解决针对小微企业的模型训练样本不足的问题的同时,还能够优化原本分布不均的样本标签,能够提高金融机构为企业提供金融服务的针对性及有效性,进而能够提高金融机构的运转可靠性及安全性,以提高金融机构和向金融机构申请金融服务的企业的用户体验。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种企业金融服务风险预测方法,其特征在于,包括:
获取当前未经金融服务授权的目标企业的运营状态信息;
将所述目标企业的运营状态信息输入预设的金融服务风险预测模型,并将该金融服务风险预测模型的输出作为该目标企业的金融服务风险预测等级,以基于该金融服务风险预测等级确定是否向所述目标企业提供金融服务;
其中,所述金融服务风险预测模型为预先应用一融合模型对多个外部企业进行评分后获取的,该融合模型预先基于一打标模型和标签未知的历史企业数据获取,且所述打标模型预先基于预设的迁移学习方式和重采样方式处理后的标签已知的历史企业数据训练得到。
2.根据权利要求1所述的企业金融服务风险预测方法,其特征在于,在所述获取当前未经金融服务授权的目标企业的运营状态信息之前,还包括:
根据标签已知的历史企业数据对应的第一数据集训练得到用于预测企业标签的第一打标模型;
基于预设的迁移学习方式,应用标签未知的历史企业数据和标签未知的外部企业数据形成一合并数据集,其中,该合并数据集用于存储各个标签未知的历史企业用户标识、运营状态信息和第一阈标签之间的对应关系,还用于存储各个标签未知的外部企业用户标识、运营状态信息和第二阈标签之间的对应关系,且所述第一阈标签和所述第二阈标签取值不同;
应用所述合并数据集对所述第一数据集进行重采样处理;
基于经重采样处理后的第一数据集对所述第一打标模型进行训练,以形成对应的第二打标模型;
应用所述第二打标模型对多个标签未知的历史企业用户分别进行标签预测,并根据获取的预测结果训练得到融合模型;
基于所述融合模型和预设的标签类型占比数据生成所述金融服务风险预测模型。
3.根据权利要求2所述的企业金融服务风险预测方法,其特征在于,所述根据标签已知的历史企业数据对应的第一数据集训练得到用于预测企业标签的第一打标模型,包括:
获取标签已知的多个历史企业用户的用户信息以及各个所述历史企业用户各自对应的标签,以生成第一数据集,其中,所述标签按照对应的企业历史评价信息划分为至少三类评价等级内容;
应用预设的逻辑回归方式,基于所述第一数据集分别训练得到各类标签各自对应的分类器子模型;
将各个所述分类器子模型分别赋予相同的初始权重值,以得到对应的第一打标模型。
4.根据权利要求2所述的企业金融服务风险预测方法,其特征在于,所述基于预设的迁移学习方式,应用标签未知的历史企业数据和标签未知的外部企业数据形成一合并数据集,包括:
分别获取标签未知的历史企业数据和标签未知的外部企业数据;
应用所述第一打标模型对标签未知的历史企业数据进行标签预测,以根据对应的标签预测结果形成第二数据集;
将所述第二数据集中的标签预测结果删除以形成标签未知的历史企业对应的数据表,其中,所述标签未知的历史企业对应的数据表用于存储各个标签未知的历史企业用户标识和运营状态信息之间的对应关系;
获取标签未知的外部企业用户数据对应的第一数据表,其中,该第一数据表用于存储各个标签未知的外部企业用户标识和运营状态信息之间的对应关系;
在所述标签未知的历史企业对应的数据表中新增一取值均为1的阈标签列以形成第二数据表,以及,在所述第一数据集中新增一取值均为0的阈标签列以形成第三数据表;
对所述第二数据表和所述第三数据表进行合并处理,得到用于作为所述合并数据集对应的第四数据表。
5.根据权利要求4所述的企业金融服务风险预测方法,其特征在于,所述应用所述合并数据集对所述第一数据集进行重采样处理,包括:
应用所述第四数据表训练分类器,并基于该分类器获取的所述第四数据集中的标签预测值,对不同的标签预测数值范围分别对应的权重值进行调整以形成目标权重集,其中,所述目标权重集用于存储各个所述标签预测数值范围与调整后权重之间的一一对应关系;
根据所述目标权重集对所述第一数据集进行重采样处理,以形成经重采样处理后的第一数据集。
6.根据权利要求4或5所述的企业金融服务风险预测方法,其特征在于,所述应用所述第二打标模型对多个标签未知的历史企业用户分别进行标签预测,并根据获取的预测结果训练得到融合模型,包括:
基于所述第二打标模型对所述标签未知的历史企业对应的数据表进行标签预测,以得到更新标签预测结果后的第二数据集;
应用所述第二数据集分别训练得到各类标签各自对应的融合子模型,并将各个所述融合子模型分别赋予相同的初始权重值;
基于更新标签预测结果后的第二数据集中的各类标签的值和各类标签各自对应的融合子模型训练得到弱分类器,并基于该弱分类器重新确定各个所述融合子模型的权重值,以得到对应的融合模型。
7.根据权利要求4所述的企业金融服务风险预测方法,其特征在于,所述基于所述融合模型和预设的标签类型占比数据生成所述金融服务风险预测模型,包括:
基于所述融合模型和预设的标签类型占比数据,对所述标签未知的外部企业用户数据对应的第一数据表中的各个企业分别进行评分以生成对应的评级函数,将该评级函数作为所述金融服务风险预测模型。
8.一种企业金融服务风险预测装置,其特征在于,包括:
信息获取模块,用于获取当前未经金融服务授权的目标企业的运营状态信息;
风险预测模块,用于将所述目标企业的运营状态信息输入预设的金融服务风险预测模型,并将该金融服务风险预测模型的输出作为该目标企业的金融服务风险预测等级,以基于该金融服务风险预测等级确定是否向所述目标企业提供金融服务;
其中,所述金融服务风险预测模型为预先应用一融合模型对多个外部企业进行评分后获取的,该融合模型预先基于一打标模型和标签未知的历史企业数据获取,且所述打标模型预先基于预设的迁移学习方式和重采样方式处理后的标签已知的历史企业数据训练得到。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的企业金融服务风险预测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7任一项所述的企业金融服务风险预测方法。
CN202110254016.5A 2021-03-09 2021-03-09 企业金融服务风险预测方法及装置 Pending CN112766825A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110254016.5A CN112766825A (zh) 2021-03-09 2021-03-09 企业金融服务风险预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110254016.5A CN112766825A (zh) 2021-03-09 2021-03-09 企业金融服务风险预测方法及装置

Publications (1)

Publication Number Publication Date
CN112766825A true CN112766825A (zh) 2021-05-07

Family

ID=75690886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110254016.5A Pending CN112766825A (zh) 2021-03-09 2021-03-09 企业金融服务风险预测方法及装置

Country Status (1)

Country Link
CN (1) CN112766825A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159461A (zh) * 2021-05-24 2021-07-23 天道金科股份有限公司 基于样本迁移学习的中小微企业信用评价方法
CN113923006A (zh) * 2021-09-30 2022-01-11 北京淇瑀信息科技有限公司 设备数据认证方法、装置及电子设备
CN115983636A (zh) * 2022-12-26 2023-04-18 深圳市中政汇智管理咨询有限公司 风险评估方法、装置、设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159461A (zh) * 2021-05-24 2021-07-23 天道金科股份有限公司 基于样本迁移学习的中小微企业信用评价方法
CN113923006A (zh) * 2021-09-30 2022-01-11 北京淇瑀信息科技有限公司 设备数据认证方法、装置及电子设备
CN113923006B (zh) * 2021-09-30 2024-02-02 北京淇瑀信息科技有限公司 设备数据认证方法、装置及电子设备
CN115983636A (zh) * 2022-12-26 2023-04-18 深圳市中政汇智管理咨询有限公司 风险评估方法、装置、设备及存储介质
CN115983636B (zh) * 2022-12-26 2023-11-17 深圳市中政汇智管理咨询有限公司 风险评估方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112766825A (zh) 企业金融服务风险预测方法及装置
CN111932267A (zh) 企业金融服务风险预测方法及装置
CN105744005A (zh) 客户定位分析方法及服务器
CN112785086A (zh) 信贷逾期风险预测方法及装置
CN111582341B (zh) 用户异常操作预测方法及装置
CN111951052B (zh) 基于知识图谱的获取潜在客户方法及装置
CN110992190A (zh) 基于用户画像的资产配置方法及装置
CN115204685A (zh) 一种工单派发方法及装置
CN112799943B (zh) 业务系统自动化测试方法及装置
CN110008318A (zh) 问题派发方法及装置
CN113393320B (zh) 企业金融服务风险预测方法及装置
CN116452322A (zh) 信用卡推荐方法及装置
CN111738761A (zh) 营销信息处理方法及装置
CN110009159A (zh) 基于网络大数据的金融借贷需求预测方法及系统
CN115018608A (zh) 风险预测方法、装置、计算机设备
CN112579773A (zh) 风险事件分级方法及装置
CN114238585A (zh) 基于5g消息的查询方法、装置、计算机设备和存储介质
CN114662452A (zh) 去隐私化的文本标签分析方法及装置
CN112950382A (zh) 交易业务撮合匹配方法、装置、电子设备及介质
CN112418929A (zh) 一种数据共享方法及装置
CN111882339A (zh) 预测模型训练及响应率预测方法、装置、设备及存储介质
CN111401395A (zh) 一种数据处理方法、终端设备及存储介质
US10839301B1 (en) Generation of intelligent indicators from disparate systems
CN116681513A (zh) 企业资产数据处理方法及装置
CN113902554A (zh) 基于机器学习的用户分类方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination