CN112508690A - 一种基于联合分布适配的风险评估方法、装置和电子设备 - Google Patents

一种基于联合分布适配的风险评估方法、装置和电子设备 Download PDF

Info

Publication number
CN112508690A
CN112508690A CN202110141067.7A CN202110141067A CN112508690A CN 112508690 A CN112508690 A CN 112508690A CN 202110141067 A CN202110141067 A CN 202110141067A CN 112508690 A CN112508690 A CN 112508690A
Authority
CN
China
Prior art keywords
user
information
type
basic information
conversion factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110141067.7A
Other languages
English (en)
Inventor
张蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qilu Information Technology Co Ltd
Original Assignee
Beijing Qilu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qilu Information Technology Co Ltd filed Critical Beijing Qilu Information Technology Co Ltd
Priority to CN202110141067.7A priority Critical patent/CN112508690A/zh
Publication of CN112508690A publication Critical patent/CN112508690A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Technology Law (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于联合分布适配的风险评估方法,其特征在于,包括:获取第一类型用户信息及第二类型用户基础信息,其中,第一类型用户信息包括第一类型用户基础信息及其对应的业务表现信息;利用第一类型用户信息及第二类型用户基础信息采用联合分布适配的方法获得最优转换因子;基于最优转换因子及第一类型用户信息训练构建用户风险评估模型;获取当前用户基础信息,并输入至用户风险评估模型以获得当前用户的风险评分。本发明能够通过样本自变量数据的分布转换,使得通过样本分布与整体分布满足传统机器学习同分布假设,最终在经过转换后的样本上建立风险评分模型,避免样本偏差造成的估计偏差及决策误差。

Description

一种基于联合分布适配的风险评估方法、装置和电子设备
技术领域
本发明涉及计算机信息处理领域,具体而言,涉及一种基于联合分布适配的风险评估方法、装置、电子设备及计算机可读介质。
背景技术
随着人工智能、大数据技术的发展,互联网金融行业发展迅猛,新技术的运用也给金融服务业的核心风控带来了更大的变化,基于历史数据的机器学习、知识图谱等手段使得风控水平日益提高。现有技术中,最常用的做法是基于历史用户的基本信息及金融表现值采用机器学习的方法训练模型以判断新用户的可能风险情况,取得了很好的效果。但是基于历史用户的信息进行模型训练也存在样本偏差问题。金融服务机构会对高风险用户进行拒绝,低风险用户给予通过,通过的用户后期能够捕获好坏样本标签,对于大量拒绝用户的还款情况是无法获得的。
目前普遍做法是基于通过样本进行评分卡建模,用于整体新客户进行评分,实际上非随机的局部样本表征总体样本分布信息建模,模型会存在一定的样本偏差问题。目前传统解决评分卡样本偏差问题主要依赖于拒绝推断,对拒绝用户的好坏标签进行推理归纳,从而得到整体样本标签分布,再基于整体样本构建模型,但传统拒绝推断获取标签的方式普遍存在成本较高、实现难度大、效果不理想等问题。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本公开提供一种基于联合分布适配的风险评估方法、装置、电子设备及计算机可读介质,能够通过样本自变量数据的分布转换,使得通过样本分布与整体分布满足传统机器学习同分布假设,最终在经过转换后的样本上建立风险评分模型,避免样本偏差造成的估计偏差及决策误差。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一方面,提出一种基于联合分布适配的风险评估方法,该方法包括:获取第一类型用户信息及第二类型用户基础信息,其中,所述第一类型用户信息包括第一类型用户基础信息及其对应的业务表现信息;利用所述第一类型用户信息及第二类型用户基础信息采用联合分布适配的方法获得最优转换因子;基于所述最优转换因子及第一类型用户信息训练构建用户风险评估模型;获取当前用户基础信息,并输入至所述用户风险评估模型以获得所述当前用户的风险评分。
可选地,所述利用所述第一类型用户信息及第二类型用户基础信息采用联合分布适配的方法获得最优转换因子步骤进一步包括:基于所述第一类型用户信息构建评分卡模型;将所述第二类型用户基础信息输入至所述评分卡模型获得对应的伪业务表现信息;根据所述第一类型用户信息、第二类型用户信息及第二类型用户伪业务表现信息利用联合分布适配方法获得转换因子。
可选地,进一步包括:进行多次迭代,每次迭代均使用上次迭代获得的转换因子对所述第一类型用户信息及第二类型用户基础信息进行处理,直至获得所述最优转换因子。
可选地,还包括所述联合分布适配包括边缘分布适配及条件分布适配。
可选地,所述基于所述最优转换因子及第一类型用户信息训练构建用户风险评估模型步骤进一步包括:使用所述最优转换因子对所述第一类型用户基础信息进行处理获得第一类型用户同分布信息;基于所述第一类型用户同分布信息及业务表现信息训练获得所述用户风险评估模型。
可选地,所述获取当前用户基础信息,并输入至所述用户风险评估模型以获得所述当前用户的风险评分步骤进一步包括:使用所述最优转换因子对所述当前用户基础信息进行处理获得当前用户同分布信息;将所述当前用户同分布信息输入至所述用户风险评估模型以获得所述当前用户的风险评分。
可选地,还包括:所述第一类型用户为业务审核通过用户,所述第二类型用户为业务审核拒绝用户。
根据本公开的一方面,提出一种基于联合分布适配的风险评估装置,包括: 信息获取模块,用于获取第一类型用户信息及第二类型用户基础信息,其中,所述第一类型用户信息包括第一类型用户基础信息及其对应的业务表现信息;最优因子模块,用于利用所述第一类型用户信息及第二类型用户基础信息采用联合分布适配的方法获得最优转换因子;模型训练模块,用于基于所述最优转换因子及第一类型用户信息训练构建用户风险评估模型;风险评分模块,用于获取当前用户基础信息,并输入至所述用户风险评估模型以获得所述当前用户的风险评分。
可选地,所述最优因子模块进一步包括:评分卡模型构建单元,用于基于所述第一类型用户信息构建评分卡模型;伪业务表现信息单元,用于将所述第二类型用户基础信息输入至所述评分卡模型获得对应的伪业务表现信息;适配单元,用于根据所述第一类型用户信息、第二类型用户信息及第二类型用户伪业务表现信息利用联合分布适配方法获得转换因子。
可选地,进一步包括:迭代单元,用于进行多次迭代,每次迭代均使用上次迭代获得的转换因子对所述第一类型用户信息及第二类型用户基础信息进行处理,直至获得所述最优转换因子。
可选地,所述联合分布适配包括边缘分布适配及条件分布适配。
可选地,所述模型训练模块进一步包括:同分布信息单元,用于使用所述最优转换因子对所述第一类型用户基础信息进行处理获得第一类型用户同分布信息;训练单元,用于基于所述第一类型用户同分布信息及业务表现信息训练获得所述用户风险评估模型。
可选地,所述风险评分模块进一步包括:处理单元,用于使用所述最优转换因子对所述当前用户基础信息进行处理获得当前用户同分布信息;评分单元,用于将所述当前用户同分布信息输入至所述用户风险评估模型以获得所述当前用户的风险评分。
可选地,还包括:所述第一类型用户为业务审核通过用户,所述第二类型用户为业务审核拒绝用户。
根据本公开的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
根据本公开的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。
根据本公开的基于联合分布适配的风险评估方法、装置、电子设备及计算机可读介质,获取第一类型用户信息及第二类型用户基础信息,其中,所述第一类型用户信息包括第一类型用户基础信息及其对应的业务表现信息;利用所述第一类型用户信息及第二类型用户基础信息采用联合分布适配的方法获得最优转换因子;基于所述最优转换因子及第一类型用户信息训练构建用户风险评估模型;获取当前用户基础信息,并输入至所述用户风险评估模型以获得所述当前用户的风险评分的方式,能够通过样本自变量数据的分布转换,使得通过样本分布与整体分布满足传统机器学习同分布假设,最终在经过转换后的样本上建立风险评分模型,避免样本偏差造成的估计偏差及决策误差。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明的具体实施例。但需声明的是,下面描述的附图仅仅是本发明本发明示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。
图1是根据一示例性实施例示出的一种基于联合分布适配的风险评估方法及装置的系统框图。
图2是根据一示例性实施例示出的一种基于联合分布适配的风险评估方法的流程图。
图3是根据一示例性实施例示出的确定最优转换因子的方法的流程图。
图4是根据一示例性实施例示出的一种基于联合分布适配的风险评估装置的框图。
图5是根据一示例性实施例示出的一种电子设备的框图。
图6是根据一示例性实施例示出的一种计算机可读介质的框图。
具体实施方式
现在将参考附图更全面地描述本发明的示例性实施例。然而,示例性实施例能够以多种形式实施,且不应被理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例能够使得本发明更加全面和完整,更加便于将发明构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的元件、组件或部分,因而将省略对它们的重复描述。
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的特征、结构、特性或其他细节不排除可以以合适的方式结合在一个或更多其他的实施例中。
在对于具体实施例的描述中,本发明描述的特征、结构、特性或其他细节是为了使本领域的技术人员对实施例进行充分理解。但是,并不排除本领域技术人员可以实践本发明的技术方案而没有特定特征、结构、特性或其他细节的一个或更多。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但这不应受这些定语限制。这些定语乃是用以区分一者与另一者。例如,第一器件亦可称为第二器件而不偏离本发明实质的技术方案。
术语“和/或”或者“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
图1是根据一示例性实施例示出的一种基于联合分布适配的风险评估方法及装置的系统框图。
如图1所示,系统架构10可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如金融服务类应用、购物类应用、网页浏览器应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览或应用使用的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的金融服务类网站或使用的金融服务类应用提供支持的后台管理服务器。后台管理服务器可以对接收到的用户数据进行分析等处理,并将处理结果(例如训练完毕的用户风险模型或者通过用户风险模型对用户进行的风险评分)反馈给金融服务机构的工作人员。
服务器105可例如获取第一类型用户信息及第二类型用户基础信息,其中,所述第一类型用户信息包括第一类型用户基础信息及其对应的业务表现信息;服务器105可例如利用所述第一类型用户信息及第二类型用户基础信息采用联合分布适配的方法获得最优转换因子;服务器105可例如基于所述最优转换因子及第一类型用户信息训练构建用户风险评估模型;服务器105可例如获取当前用户基础信息,并输入至所述用户风险评估模型以获得所述当前用户的风险评分。
图2是根据一示例性实施例示出的一种基于联合分布适配的风险评估方法的流程图。风险评估方法20至少包括步骤S201至S205。
如图2所示,在步骤S201中,获取信息。
获取第一类型用户信息及第二类型用户基础信息,其中,第一类型用户信息包括第一类型用户基础信息及其对应的业务表现信息。
在一个实施例中,所述第一类型用户及第二类型用户均为历史用户。
更具体的,第一类型用户基础信息和第二类型基础信息包括但不限于于为进行业务所必须的与用户相关的信息,可例如在进行用户授信审批时所需要的用户身份信息、行为信息、金融信息等。
所述业务表现数据包括但不限于用户在实际完成业务时所体现的信息,可例如在金融活动中,用户的逾期情况信息、动支情况信息、还款情况信息、理财情况信息等。
所述第一类型用户和第二类型用户具体可表示业务审核通过用户及业务审核拒绝用户,可例如在申请贷款业务中通过用户及拒绝用户。
在步骤S202中,确定最优转换因子。
利用所述第一类型用户信息及第二类型用户基础信息采用联合分布适配的方法获得最优转换因子
图3是根据一示例性实施例示出的确定最优转换因子的方法的流程图。所述方法至少包括步骤S301至S305。
如图3所示,在步骤S301中,获取第一类型用户信息。
提取步骤S201中获取的第一类型用户信息,所述第一类型用户信息包括第一类型用户基础信息和金融表现信息。所述第一类型用户基础信息包括但不限于于为进行业务所必须的与用户相关的信息,可例如在进行用户授信审批时所需要的用户身份信息、行为信息、金融信息等。所述业务表现数据包括但不限于用户在实际完成业务时所体现的信息,可例如在金融活动中,用户的逾期情况信息、动支情况信息、还款情况信息、理财情况信息等。
在步骤S302中,构建评分卡模型。
基于步骤S301中提取的第一类型用户信息采用机器学习的方法训练获取评分卡模型。所述评分卡模型主要用于基于历史数据预测新用户的业务表现值,具体而言,将历史用户基础信息及其对应的业务表现信息作为训练样本,其中用户基础信息为输入层,对应的业务表现信息为输出层,在实际使用中,输入待评价用户的基础信息,模型输出预测的所述待评价用户的业务表现信息。
在一个实施例中,所述评分卡可以是金融类评分卡,更具体而言,包括但不限于申请评分卡(A卡)、行为评分卡(B卡)、催收评分卡(C卡)。
关于构建评分卡模型为本领域常用方法,本发明并不为此开发或依靠新的特有的方式,在此不再赘述。
在步骤S203中,获取伪业务表现信息。
将所述第二类型用户基础信息输入至所述评分卡模型获得对应的伪业务表现信息。更具体而言,所述伪业务表现信息是所述评分卡模型对第二类型用户根据其基础信息预测的起业务表现信息,而非实际业务中产生的业务表现信息。
在步骤S304中,获取转换因子。
根据所述第一类型用户信息、第二类型用户信息及第二类型用户伪业务表现信息利用联合分布适配方法获得转换因子。
更具体而言,第一类型用户数据集(
Figure DEST_PATH_IMAGE002
)作为源域,第二类型用户数据集(
Figure DEST_PATH_IMAGE004
) 作为目标域,其中第二类型用户的
Figure DEST_PATH_IMAGE006
为根据步骤S303获取的伪业务表现信息。对于第一类 型用户数据集,其存在边缘分布
Figure DEST_PATH_IMAGE008
以及条件分布
Figure DEST_PATH_IMAGE010
,对于第二类型用户数据集,其 具有其存在边缘分布
Figure DEST_PATH_IMAGE012
以及条件分布
Figure DEST_PATH_IMAGE014
。由于
Figure DEST_PATH_IMAGE016
为使用步骤S303获取的伪业务 表现信息,则可以认为
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE020
,但
Figure DEST_PATH_IMAGE022
Figure 514919DEST_PATH_IMAGE024
为了使第一类型用户数据和第二类型用户数据能尽量特征接近,以提取其共同技术特征,因此需要通过变换使其边缘分布的距离尽可能接近而条件分布的距离尽可能小。
在进行边缘分布适配时,使用MMD距离来最小化源域和目标域的最大均值差异,并进行迁移成分分析;在进行条件分布适配时同样使用MMD距离来最小化源域和目标域的最大均值差异,并进行迁移成分分析。
将上述两个距离结合起来,可以获取总的优化目标,又因其前后数据方差要维持不变,则可将其作为限制X条件,以获取变换A。
Figure 369743DEST_PATH_IMAGE026
就是使用变换A获取的新的特征,可以理解为提取了源域和目标域的公共 特征,这样源域的分类器就可以作为目标域的分类器。
在步骤S305中,获取最优转换因子
由于使用的是第二类型用户的伪业务表现数据作为样本,因此存在一定的偏差,可重复步骤S304的操作,进行多次迭代。每一轮迭代都使用上一轮得到的特征信息作为伪特征信息,反复多次,直至收敛,则此时的变换A则为最优变换因子。
需要特别强调的是,在进行边缘分布式配和条件分布适配时,采用本领域常用方法,并不依赖于特定方式,在此不再赘述。
在步骤S203中,训练模型
基于所述最优转换因子及第一类型用户信息训练构建用户风险评估模型,使用所述最优转换因子对所述第一类型用户基础信息进行处理获得第一类型用户同分布信息(即步骤S304中的特征Z);基于所述第一类型用户同分布信息及业务表现信息训练获得所述用户风险评估模型。
在步骤S204中,获取当前用户基础信息
获取当前用户基础信息包括但不限于于为进行业务所必须的与当前用户相关的信息,可例如在进行用户授信审批时所需要的用户身份信息、行为信息、金融信息等。
在步骤S205中,使用模型,风险评估
使用所述最优转换因子对所述当前用户基础信息进行处理获得当前用户同分布信息;将所述当前用户同分布信息输入至所述用户风险评估模型以获得所述当前用户的风险评分结果。通过所述结果可以合理的对该用户进行业务操作。
可例如,以历史用户“是否逾期超过7天”为业务表现数据进行训练后的机器学习模型,可以接受新用户基础信息,经最优变换因子进行变换后由此预测其业务表现数据,即将来发生“是否逾期超过7天”的概率,这个概率在0和1之间,越接近1则表示其越有可能发生“逾期超过7天”。由此,可以根据既定的策略来对该新用户进行业务操作。
本发明所述的方法能够通过样本自变量数据的分布转换,使得通过样本分布与整体分布满足传统机器学习同分布假设,最终在经过转换后的样本上建立风险评分模型,避免样本偏差造成的估计偏差及决策误差。
本领域技术人员可以理解,实现上述实施例的全部或部分步骤被实现为由计算机数据处理设备执行的程序(计算机程序)。在该计算机程序被执行时,可以实现本发明提供的上述方法。而且,所述的计算机程序可以存储于计算机可读存储介质中,该存储介质可以是磁盘、光盘、ROM、RAM等可读存储介质,也可以是多个存储介质组成的存储阵列,例如磁盘或磁带存储阵列。所述的存储介质不限于集中式存储,其也可以是分布式存储,例如基于云计算的云存储。
下面描述本发明的装置实施例,该装置可以用于执行本发明的方法实施例。对于本发明装置实施例中描述的细节,应视为对于上述方法实施例的补充;对于在本发明装置实施例中未披露的细节,可以参照上述方法实施例来实现。
图4是根据一示例性实施例示出的一种基于联合分布适配的风险评估装置的框图。如图4所示,风险评估装置40包括信息获取模块401、最优因子模块402、模型训练模块403以及风险评估模块404。
信息获取模块401,用于获取第一类型用户信息及第二类型用户基础信息,其中,所述第一类型用户信息包括第一类型用户基础信息及其对应的业务表现信息。
最优因子模块402,用于利用所述第一类型用户信息及第二类型用户基础信息采用联合分布适配的方法获得最优转换因子。
最优因子模块402进一步包括:
评分卡模型构建单元,用于基于所述第一类型用户信息构建评分卡模型;
伪业务表现信息单元,用于将所述第二类型用户基础信息输入至所述评分卡模型获得对应的伪业务表现信息;
适配单元,用于根据所述第一类型用户信息、第二类型用户信息及第二类型用户伪业务表现信息利用联合分布适配方法获得转换因子;
迭代单元,用于进行多次迭代,每次迭代均使用上次迭代获得的转换因子对所述第一类型用户信息及第二类型用户基础信息进行处理,直至获得所述最优转换因子。
所述联合分布适配包括边缘分布适配及条件分布适配。
模型训练模块403,用于基于所述最优转换因子及第一类型用户信息训练构建用户风险评估模型。
模型训练模块403,进一步包括:
同分布信息单元,用于使用所述最优转换因子对所述第一类型用户基础信息进行处理获得第一类型用户同分布信息;
训练单元,用于基于所述第一类型用户同分布信息及业务表现信息训练获得所述用户风险评估模型。
风险评分模块404,用于获取当前用户基础信息,并输入至所述用户风险评估模型以获得所述当前用户的风险评分。
风险评分模块404进一步包括:
处理单元,用于使用所述最优转换因子对所述当前用户基础信息进行处理获得当前用户同分布信息;
评分单元,用于将所述当前用户同分布信息输入至所述用户风险评估模型以获得所述当前用户的风险评分。
本领域技术人员可以理解,上述装置实施例中的各模块可以按照描述分布于装置中,也可以进行相应变化,分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
下面描述本发明的电子设备实施例,该电子设备可以视为对于上述本发明的方法和装置实施例的具体实体实施方式。对于本发明电子设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明电子设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。
图5是根据一示例性实施例示出的一种电子设备的框图。
下面参照图5来描述根据本公开的这种实施方式的电子设备500。图5显示的电子设备500仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于:至少一个处理单元510、至少一个存储单元520、连接不同系统组件(包括存储单元520和处理单元510)的总线530、显示单元540等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元510执行,使得所述处理单元510执行本说明书上述电子处方流转处理方法部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元510可以执行如图2,图3中所示的步骤。
所述存储单元520可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)5201和/或高速缓存存储单元5202,还可以进一步包括只读存储单元(ROM)5203。
所述存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204,这样的程序模块5205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线530可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备500也可以与一个或多个外部设备500’(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备500交互的设备通信,和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口550进行。并且,电子设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器560可以通过总线530与电子设备500的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,如图6所示,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。
所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现如下功能:获取第一数据库中的第一表格和第二数据库中的第二表格;通过数据库语句对所述第一表格和第二表格的数据结构进行对比生成对比结果;根据所述对比结果生成第一自动处理指令和第二自动处理指令;以及根据预设策略确定执行第一自动处理指令或第二自动处理指令。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。
以上具体地示出和描述了本公开的示例性实施例。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims (10)

1.一种基于联合分布适配的风险评估方法,其特征在于,包括:
获取第一类型用户信息及第二类型用户基础信息,其中,所述第一类型用户信息包括第一类型用户基础信息及其对应的业务表现信息;
利用所述第一类型用户信息及第二类型用户基础信息采用联合分布适配的方法获得最优转换因子;
基于所述最优转换因子及第一类型用户信息训练构建用户风险评估模型;
获取当前用户基础信息,并输入至所述用户风险评估模型以获得所述当前用户的风险评分。
2.根据权利要求1所述的方法,其特征在于,所述利用所述第一类型用户信息及第二类型用户基础信息采用联合分布适配的方法获得最优转换因子步骤进一步包括:
基于所述第一类型用户信息构建评分卡模型;
将所述第二类型用户基础信息输入至所述评分卡模型获得对应的伪业务表现信息;
根据所述第一类型用户信息、第二类型用户信息及第二类型用户伪业务表现信息利用联合分布适配方法获得转换因子。
3.根据权利要求2所述的方法,其特征在于,进一步包括:
进行多次迭代,每次迭代均使用上次迭代获得的转换因子对所述第一类型用户信息及第二类型用户基础信息进行处理,直至获得所述最优转换因子。
4.根据权利要求3所述的方法,其特征在于:所述联合分布适配包括边缘分布适配及条件分布适配。
5.根据权利要求4所述的方法,其特征在于,所述基于所述最优转换因子及第一类型用户信息训练构建用户风险评估模型步骤进一步包括:
使用所述最优转换因子对所述第一类型用户基础信息进行处理获得第一类型用户同分布信息;
基于所述第一类型用户同分布信息及业务表现信息训练获得所述用户风险评估模型。
6.根据权利要求5所述的方法,其特征在于,所述获取当前用户基础信息,并输入至所述用户风险评估模型以获得所述当前用户的风险评分步骤进一步包括:
使用所述最优转换因子对所述当前用户基础信息进行处理获得当前用户同分布信息;
将所述当前用户同分布信息输入至所述用户风险评估模型以获得所述当前用户的风险评分。
7.根据权利要求6所述的方法,其特征在于:所述第一类型用户为业务审核通过用户,所述第二类型用户为业务审核拒绝用户。
8.一种基于联合分布适配的风险评估装置,其特征在于,包括:
信息获取模块,用于获取第一类型用户信息及第二类型用户基础信息,其中,所述第一类型用户信息包括第一类型用户基础信息及其对应的业务表现信息;
最优因子模块,用于利用所述第一类型用户信息及第二类型用户基础信息采用联合分布适配的方法获得最优转换因子;
模型训练模块,用于基于所述最优转换因子及第一类型用户信息训练构建用户风险评估模型;
风险评分模块,用于获取当前用户基础信息,并输入至所述用户风险评估模型以获得所述当前用户的风险评分。
9.一种电子设备,其中,该电子设备包括:
处理器;以及,
存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行根据权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现权利要求1-7中任一项所述的方法。
CN202110141067.7A 2021-02-02 2021-02-02 一种基于联合分布适配的风险评估方法、装置和电子设备 Pending CN112508690A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110141067.7A CN112508690A (zh) 2021-02-02 2021-02-02 一种基于联合分布适配的风险评估方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110141067.7A CN112508690A (zh) 2021-02-02 2021-02-02 一种基于联合分布适配的风险评估方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN112508690A true CN112508690A (zh) 2021-03-16

Family

ID=74952534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110141067.7A Pending CN112508690A (zh) 2021-02-02 2021-02-02 一种基于联合分布适配的风险评估方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN112508690A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610491A (zh) * 2021-07-15 2021-11-05 北京淇瑀信息科技有限公司 业务处理方法、装置和电子设备
CN117096070A (zh) * 2023-10-19 2023-11-21 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于领域自适应的半导体加工工艺异常检测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610491A (zh) * 2021-07-15 2021-11-05 北京淇瑀信息科技有限公司 业务处理方法、装置和电子设备
CN117096070A (zh) * 2023-10-19 2023-11-21 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于领域自适应的半导体加工工艺异常检测方法
CN117096070B (zh) * 2023-10-19 2024-01-05 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于领域自适应的半导体加工工艺异常检测方法

Similar Documents

Publication Publication Date Title
CN110349009B (zh) 一种多头借贷违约预测方法、装置和电子设备
CN112507628B (zh) 基于深度双向语言模型的风险预测方法、装置和电子设备
CN111199474A (zh) 一种基于双方网络图数据的风险预测方法、装置和电子设备
CN112348660A (zh) 生成风险警示信息的方法、装置及电子设备
CN111222976A (zh) 一种基于双方网络图数据的风险预测方法、装置和电子设备
CN113344700A (zh) 一种基于多目标优化的风控模型构建方法、装置和电子设备
CN112015562A (zh) 基于迁移学习的资源分配方法、装置及电子设备
CN112508690A (zh) 一种基于联合分布适配的风险评估方法、装置和电子设备
CN111582645B (zh) 基于因子分解机的app风险评估方法、装置和电子设备
CN111178687A (zh) 金融风险分类方法、装置及电子设备
CN115310510A (zh) 基于优化规则决策树的目标安全识别方法、装置及电子设备
CN111210332A (zh) 贷后管理策略生成方法、装置及电子设备
CN111179055A (zh) 授信额度调整方法、装置和电子设备
CN110689425A (zh) 基于收益进行额度定价的方法、装置和电子设备
CN111582649B (zh) 基于用户app独热编码的风险评估方法、装置和电子设备
CN112488865A (zh) 基于金融时间节点的金融风险预测方法、装置和电子设备
US11532174B2 (en) Product baseline information extraction
CN110782128B (zh) 一种用户职业标签生成方法、装置和电子设备
CN114742645B (zh) 基于多阶段时序多任务的用户安全等级识别方法及装置
CN111210109A (zh) 基于关联用户预测用户风险的方法、装置和电子设备
CN113570207B (zh) 用户策略分配方法、装置及电子设备
CN114637850A (zh) 异常行为识别及模型训练方法、装置、设备及存储介质
CN114092230A (zh) 一种数据处理方法、装置、电子设备及计算机可读介质
CN112819472A (zh) 资源筹集项目的欺诈预测方法、装置和电子设备
CN112784219A (zh) 基于app指数的用户风险预测方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination