CN114880369A - 一种基于弱数据技术的风险授信方法和系统 - Google Patents

一种基于弱数据技术的风险授信方法和系统 Download PDF

Info

Publication number
CN114880369A
CN114880369A CN202110167442.5A CN202110167442A CN114880369A CN 114880369 A CN114880369 A CN 114880369A CN 202110167442 A CN202110167442 A CN 202110167442A CN 114880369 A CN114880369 A CN 114880369A
Authority
CN
China
Prior art keywords
user
value
information
risk
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110167442.5A
Other languages
English (en)
Inventor
江小夏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Holding Co Ltd
Original Assignee
Jingdong Technology Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Holding Co Ltd filed Critical Jingdong Technology Holding Co Ltd
Priority to CN202110167442.5A priority Critical patent/CN114880369A/zh
Publication of CN114880369A publication Critical patent/CN114880369A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Fuzzy Systems (AREA)
  • Technology Law (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开了一种基于弱数据技术的风险授信方法和系统,涉及计算机技术领域。该方法的一具体实施方式包括:收集用户的信息并解析,得到用户弱数据字段,并确定用户风险等级;对所有用户弱数据字段进行随机排列组合,得到多个组合字段,结合所述用户风险等级对用户进行信息价值评估;对样本库中预设数量个其他用户的信息价值进行求和取均值操作,若评估的信息价值大于或等于均值,则对用户进行风险授信操作。该实施方式可直接部署在客户服务器中,解决了风险策略对外投放和赋能导致泄露的问题,降低了数据采集和交互成本,且避免了用户个人信息传输的不合规问题。

Description

一种基于弱数据技术的风险授信方法和系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于弱数据技术的风险授信方法和系统。
背景技术
风控是当前金融场景下的主要技术,几乎涵盖了所有的业务场景,然而风控能力存在着无法输出的困惑,主要原因在于:
1)过于依赖用户的强数据提供,且风险技术合作时部分信息是互通的,存在个人信息泄露的风险;
2)目前风险策略主要基于现有强数据对用户进行风险评级,有些中小企业可能无法建立自己的风控系统,此时可以类似外包的方式将研发的风控策略提供给客户使用。使用方在下载代码后即可逆推了解到风险策略规则,因而对技术没有保护性,导致缺少核心竞争力。
发明内容
有鉴于此,本发明实施例提供一种基于弱数据技术的风险授信方法和系统,至少能够解决现有风控技术过于依赖于强数据且风险策略易被反推得到的现象。
为实现上述目的,根据本发明实施例的一个方面,提供了一种基于弱数据技术的风险授信方法,包括:
收集用户的信息并解析,得到用户弱数据字段,并确定用户风险等级;其中,弱数据为用户便于提供但关注度较弱的数据;
对所有用户弱数据字段进行随机排列组合,得到多个组合字段,结合所述用户风险等级对用户进行信息价值评估;
对样本库中预设数量个其他用户的信息价值进行求和取均值操作,若评估的信息价值大于或等于均值,则对用户进行风险授信操作。
可选的,所述收集用户的信息并解析,得到用户弱数据字段,并确定用户风险等级,包括:
收集用户所有的信息,基于所述信息中的强数据对用户进行风险等级评估;
对所述风险等级的用户在不同业务模式下进行账户开户决策判定,将决策通过的账户作为成功样本,否则为失败样本;
解析决策通过的账户,得到用户弱数据字段;其中,账户对应于用户基本信息。
可选的,在所述基于所述信息中的强数据对用户进行风险等级评估之前,还包括:
基于与单个业务模式对应的预处理方式,对用户进行基础信息通过判定,将判定失败的账户作为失败样本;其中,所述预处理方式为反欺诈判定、高危风险判定和特定信息过滤中的至少一种。
可选的,在所述得到多个组合字段之后,还包括:
对所述所有用户弱数据字段中的每个字段,在样本库中进行查询匹配,得到每个字段的分值,进而累加得到每个组合字段的分值;
针对一个字段,确定包含所述一个字段的所有组合字段,对所述所有组合字段的分值进行求和取均值操作,得到平均值;
若所述平均值大于或等于预设平均值,则确定所述一个字段为有效字段,否则为无效字段并过滤。
可选的,在所述得到每个字段的分值之后,还包括:
累加得到所有用户弱数据字段的总分值,若总分值大于或等于预设分值,则确定用户为有效用户。
可选的,还包括:统计无效字段的数量,计算所述数量与所有用户弱数据字段的总数量的占比,若所述占比大于或等于预设占比值,则确定用户为无效用户。
可选的,所述得到多个组合字段,结合所述用户风险等级对用户进行信息价值评估,包括:
将每个字段拆分为至少一个子字段,在样本库中对每个子字段进行查询匹配,得到每个子字段的分值,进而累加得到每个字段的分值;
对所述所有用户弱数据字段的分值进行求和取均值操作,在所述风险等级中确定与均值对应的信息价值。
可选的,所述若评估的信息价值大于或等于均值,则对用户进行风险授信操作,包括:
基于均值和预设浮动值生成价值评估范围;
若评估的信息价值大于或等于所述价值评估范围的最大值,则确定用户为高价值用户,对用户进行高价值风险授信操作;或
若评估的信息价值小于所述价值评估范围的最小值,则确定用户为低价值用户,对用户进行低价值风险授信操作;或
若评估的信息价值位于所述价值评估范围内,则确定用户为中价值用户,对用户进行中价值风险授信操作。
为实现上述目的,根据本发明实施例的另一方面,提供了一种基于弱数据技术的风险授信系统,包括信息解析模块、数据关联模块和风险授信模块,包括:
所述信息解析模块,用于收集用户的信息并解析,得到用户弱数据字段,并确定用户风险等级;其中,弱数据为用户便于提供但关注度较弱的数据;
所述数据关联模块,用于对所有用户弱数据字段进行随机排列组合,得到多个组合字段,结合所述用户风险等级对用户进行信息价值评估;
所述风险授信模块,用于对样本库中预设数量个其他用户的信息价值进行求和取均值操作,若评估的信息价值大于或等于均值,则对用户进行风险授信操作。
可选的,所述信息解析模块包括基础流程模型和样本解析器,其中,
所述基础流程模型,用于收集用户所有的信息,基于所述信息中的强数据对用户进行风险等级评估;对所述风险等级的用户在不同业务模式下进行账户开户决策判定,将决策通过的账户作为成功样本,否则为失败样本;
所述样本解析器,用于接收所述基础流程模型注入的成功样本,解析账户,得到用户弱数据字段;其中,账户对应于用户基本信息。
可选的,所述基础流程模型包括基本信息收集模块、风险等级评估模块和业务决策模块,其中,
所述基本信息收集模块,用于收集用户所有的信息;
所述风险等级评估模块,用于基于所述信息中的强数据对用户进行定价定额,以确定与定价定额结果对应的风险等级;
所述业务决策模块,用于对所述风险等级的用户在不同业务模式下进行账户开户决策判定,将决策通过的账户作为成功样本,否则为失败样本。
可选的,所述基础流程模型还包括基本信息过滤器、反欺诈模块、高危风险模块和资产管理模块,其中,
所述基本信息过滤器,用于对用户信息中的特定信息进行过滤处理;
所述反欺诈模块,用于基于用户标识信息进行欺诈判定,将存在欺诈行为的用户作为失败样本;
所述高危风险模块,用于根据用户标识信息确定与用户相关的关联业务,判断用户在所述关联业务中是否存在高危风险,将存在高危风险的用户作为失败样本;
所述资产管理模块,用于基于用户的资方授信信息,获取用户当前最高可授信资方和资方授信额度,若返回结果为失败,则确定为失败样本。
可选的,所述数据关联模块,用于:
对所述所有用户弱数据字段中的每个字段,在样本库中进行查询匹配,得到每个字段的分值,进而累加得到每个组合字段的分值;
针对一个字段,确定包含所述一个字段的所有组合字段,对所述所有组合字段的分值进行求和取均值操作,得到平均值;
若所述平均值大于或等于预设平均值,则确定所述一个字段为有效字段,否则为无效字段并过滤。
可选的,所述数据关联模块,用于:累加得到所有用户弱数据字段的总分值,若总分值大于或等于预设分值,则确定用户为有效用户。
可选的,所述数据关联模块,用于:统计无效字段的数量,计算所述数量与所有用户弱数据字段的总数量的占比,若所述占比大于或等于预设占比值,则确定用户为无效用户。
可选的,所述数据关联模块,用于:
将每个字段拆分为至少一个子字段,在样本库中对每个子字段进行查询匹配,得到每个子字段的分值,进而累加得到每个字段的分值;
对所述所有用户弱数据字段的分值进行求和取均值操作,在所述风险等级中确定与均值对应的信息价值。
可选的,所述风险授信模块,用于:
基于均值和预设浮动值生成价值评估范围;
若评估的信息价值大于或等于所述价值评估范围的最大值,则确定用户为高价值用户,对用户进行高价值风险授信操作;或
若评估的信息价值小于所述价值评估范围的最小值,则确定用户为低价值用户,对用户进行低价值风险授信操作;或
若评估的信息价值位于所述价值评估范围内,则确定用户为中价值用户,对用户进行中价值风险授信操作。
可选的,所述系统还包括联邦学习模型,用于:
为各个服务模块进行关联学习,通过定期获取特定参数值和分析结果进行综合学习,之后分发到各个模块。
为实现上述目的,根据本发明实施例的再一方面,提供了一种基于弱数据技术的风险授信电子设备。
本发明实施例的电子设备包括:一个或多个处理器;存储系统,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一所述的基于弱数据技术的风险授信方法。
为实现上述目的,根据本发明实施例的再一方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一所述的基于弱数据技术的风险授信方法。
根据本发明所述提供的方案,上述发明中的一个实施例具有如下优点或有益效果:可直接部署在客户服务器中,解决了风险策略对外投放和赋能导致泄露的问题,降低了数据采集和交互成本,且避免了用户个人信息传输的不合规问题。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的一种基于弱数据技术的风险授信方法的主要流程示意图;
图2是根据本发明实施例的一种可选的基于弱数据技术的风险授信方法的流程示意图;
图3是根据本发明实施例的另一种可选的基于弱数据技术的风险授信方法的流程示意图;
图4是根据本发明实施例的一种基于弱数据技术的风险授信框架示意图;
图5是根据本发明实施例的一种基于弱数据技术的风险授信系统的主要模块示意图;
图6是本发明实施例可以应用于其中的示例性系统架构图;
图7是适于用来实现本发明实施例的移动设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
参见图1,示出了根据本发明实施例的一种基于弱数据技术的风险授信方法流程示意图,包括如下步骤:
S101:收集用户的信息并解析,得到用户弱数据字段,并确定用户风险等级;其中,弱数据为用户便于提供但关注度较弱的数据;
S102:对所有用户弱数据字段进行随机排列组合,得到多个组合字段,结合所述用户风险等级对用户进行信息价值评估;
S103:对样本库中预设数量个其他用户的信息价值进行求和取均值操作,若评估的信息价值大于或等于均值,则对用户进行风险授信操作。
上述实施方式中,对于步骤S101,本方案无需客户设置,可以在任意时刻使用或终止使用,只需将弱数据风险算法部署在客户服务器上,由客户提供基本信息的填写规范即可使用。
基于业务流程将对用户信息的收集是基础,包括用户的个人信息,同时利用现有产业链对用户的关联性数据进行汇总,如购买习惯、浏览习惯、账户内强数据收集及地址的模糊匹配等,便于后续给用户建立初步的用户画像和周边关联连接网络。
目前大多数风险模型都是以强数据作为主要判断依据的,如征信报告、收入信息、保险信息、社保信息、公积金信息等,区别于该点,本方案从弱数据着手,以此降低对强数据的依赖性。弱数据是指用户便于随时提供但关注度不高的数据,如年龄、性别、职业、地址、证件号码、婚姻状况等,相对强数据容易从用户本身获取,且紧要度较低、普遍性较强,因而可理解为是用户基本信息的最小颗粒度。
因而,可以从用户的基本信息中解析到其弱数据字段,基本信息通常需由用户手动填写。例如,通过用户在业务申请中提供的身份证号码,可以解析出户口所在地、年龄、出生日期、性别等信息,通过填写的工作所在地可以解析出用户的基本工作属性,这些信息都是隐形的数据内容。
另外,通过收集到的用户信息,可以判定该用户的账户是否通过开户决策,若通过,则为一个成功样本,否则为失败样本,只有成功样本的账户才可以进行解析处理,得到用户弱数据字段,该过程具体参见后续图2所示描述,在此不再赘述。这是本方案最为关键的步骤,将决定整个方案的可靠程度。
对于步骤S102,本方案仅针对一个用户进行描述。在解析到该用户的弱数据字段后,可以对这些字段进行随机排列组合,通常进行最多5个字段的组合排序,结合确定的风险等级,评估当前用户的信息价值。
为更好的计算每个字段的分值,可以将每个字段拆分为至少一个子字段,在样本库中对每个子字段进行查询匹配,得到每个子字段的分值,进而累加得到每个字段的分值。
以证件号码为例,可以作为一个单独解析后的字段,同时证件号码的每个部分会被继续解析为单独子字段。同时,对于不同解析部位的字段进行分类打标,证件解析的地域与用户填写的地域分为籍贯所属地和当前所属地。
同理,以用户职业类型为例,可以解析出工种、行业分群、收入预估,不同职业类型的分值不同。以手机号码为例,分为移动、联通和电信,不同服务商的分值不同。以地域为例,一线城市和二线城市的分值不同,同一城市内不同分区的分值也不同。
累加该用户所有弱数据字段的分值并取均值操作,得到该用户的信息价值。通过多次组合后对不同字段单独进行分值排序,并对组合字段进行分值排序,组合字段中包含的字段越多则在更高的分值区间(由风险等级确定)表示更有参考价值。
对于步骤S103,对样本库中预设数量个(通常为5个)其他用户的信息价值进行求和取均值操作,与本次用户的信息价值进行比对,若本次用户的较高,则对用户进行风险授信操作,否则拒绝授信。
另外,还可以基于预设浮动值生成价值评估范围,如求得的均值为8,假设浮动10%,则所得价值评估范围为(7.2,8.8)。若本次用户的信息价值≥8.8,则确定用户为高价值用户,对其进行高价值风险授信操作,若≤7.2,确定用户为低价值用户,对其进行低价值风险授信操作,但若位于该区间内,则确定用户为中价值用户,对其进行中价值风险授信操作。
另外,本方案还可以针对各个步骤进行联邦学习,以通过多个部分的综合学习提升算法能力,并且避免了数据传输的合规问题。由于风险模型受到行业和业务模式的限制比较大,比如消费贷和现金贷对于用户风险策略会有明显的差异,导致同一套风险模型无法复用多个行业,联邦学习可以解决这个问题。
在金融业务中是共享数据进行风险判定,通过在客户端针对业务模式部署风险模型,定期将训练完成的数据集中传输给中央服务器,以对不同业务模式进行打标,并在服务器重对各业务模式进行混搭学习,各服务器提供一个模型规范且不包含用户个人信息,在中央服务器实现对业务模式的训练。
为提高数据准确性,训练完成的模型回归到各分散服务时,会与原有模型并行运行并比对模型输出结果的有效性,根据结果判定是否替换原有模型。最终在客户端只需用户提供基本个人信息,基于风控模型的算法即可识别出用户的风险等级并完成后续的业务流程。
上述实施例所提供的方法,解决了风险策略对外投放和赋能导致泄露的问题,降低了数据采集和交互成本,且避免了用户个人信息传输的不合规问题。
参见图2,示出了根据本发明实施例的一种可选的基于弱数据技术的风险授信方法流程示意图,包括如下步骤:
S201:收集用户所有的信息,基于所述信息中的强数据对用户进行风险等级评估;
S202:对所述风险等级的用户在不同业务模式下进行账户开户决策判定,将决策通过的账户作为成功样本,否则为失败样本;
S203:解析决策通过的账户,得到用户弱数据字段;其中,账户对应于用户基本信息,弱数据为用户便于提供但关注度较弱的数据;
S204:对所有用户弱数据字段进行随机排列组合,得到多个组合字段,结合所述用户风险等级对用户进行信息价值评估;
S205:对样本库中预设数量个其他用户的信息价值进行求和取均值操作,若评估的信息价值大于或等于均值,则对用户进行风险授信操作。
上述实施方式中,对于步骤S204和S205可参见图1所述描述,在此不再赘述。
上述实施方式中,对于步骤S201,本方案仍是依赖用户的强数据进行风险等级评估的,如征信报告、收入信息、保险信息、社保信息、公积金信息等。征信报告是目前行业内最权威的数据源,对于所有企业的风控都是决定用户风险等级的一个决定因素,因而目前广泛使用征信报告。
例如银行业务要求用户提供实名信息和关联账户信息等内容,用户也基于对银行的信任会提供。但考虑到数据的安全性及合规性,这些数据银行收到后是不会对外提供的,后续通过风控算法结合之前收集齐的数据进行新一轮信用评估。
另外,为降低后续计算量,可以在风险等级评估之前,预先对用户进行预处理,例如:
1)对用户基本信息进行过滤处理,如过滤或打标年龄未满18岁、高危区域的用户。
2)对用户标识信息进行欺诈判定,如证件号、手机号等,判定是否在过去或其他环境下用户使用这些信息存在欺诈行为。例如,用户使用手机号X在保险公司骗保,那么当该用户再次使用该手机号X办理信用卡时会拦截。另外,银行等金融机构会定期进行逾期判定,以产生黑名单加快判定。
3)判断用户在其关联业务中是否处于高风险判定,例如关联的信用产品存在长期逾期情况或存在高危行为的账户,对这些高危风险用户进行过滤。
需要说明的是,不同业务模式的预处理方式可能不同,例如业务模式1仅采用欺诈判定,而业务模式2采用欺诈判定+高危风险判定。且对于判定失败的用户,可直接作为失败样本,后续不再处理。
对于步骤S202和S203,对同一风险等级的用户在不同业务模式下进行账户开户决策判定,决策通过的账户才会成为成功样本,否则为失败样本。解析成功样本的账户(等同于用户基本信息),得到用户弱数据字段,包括用户基本信息、附加信息、风险数据、行为数据从用户的静态数据到动态行为均作为记录项。
金融业务种类多样,如消费金融、证券、基金、保险等,这些都是直接的业务模式,而基于不同的业务模式下同一个风险等级的用户会有不同的开户决策。例如风险等级是C的用户A在银行理财中可以购买上线10000份汇报在5%的理财产品,而在保险公司只能购买月供1000元汇报在2%的理财险,甚至可能不能购买理财险之类的情况。
上述实施例所提供的方法,能够有效利用用户弱数据,例如已知用户在月收入10000元的情况下月偿还能力是2000元,可以推断出类似用户也具备同等的偿还能力。所以前期的业务决策需要基于用户完整的数据(强数据+弱数据)进行判定,成功和失败都会影响弱数据的价值。
参见图3,示出了根据本发明实施例的另一种可选的基于弱数据技术的风险授信方法流程示意图,包括如下步骤:
S301:收集用户的信息并解析,得到用户弱数据字段,并确定用户风险等级;其中,弱数据为用户便于提供但关注度较弱的数据;
S302:对所有用户弱数据字段进行随机排列组合,得到多个组合字段;
S303:对所有用户弱数据字段中的每个字段,在样本库中进行查询匹配,得到每个字段的分值,进而累加得到每个组合字段的分值;
S304:针对一个字段,确定包含所述一个字段的所有组合字段,对所述所有组合字段的分值进行求和取均值操作,得到平均值;
S305:若所述平均值大于或等于预设平均值,则确定所述一个字段为有效字段,否则为无效字段并过滤;
S306:基于过滤后字段重新组合后的组合字段,结合所述用户风险等级对用户进行信息价值评估;
S307:对样本库中预设数量个其他用户的信息价值进行求和取均值操作,若评估的信息价值大于或等于均值,则对用户进行风险授信操作。
上述实施方式中,对于步骤S301、S302和S307可参见图1所示描述,在此不再赘述。
上述实施方式中,对于步骤S303~S306,对所有用户弱数据字段中的每个字段,在样本库中进行查询匹配,得到每个字段的分值,进而累加得到每个组合字段的分值。例如三个字段分别为手机号135、性别为男和地域北京,其中手机号135的分值为1,性别为男的分值为-1,地域北京的分值为1,则该组合字段的分值为1+(-1)+1=1。
有些字段是无效字段、或虽有效但对于计算用户信息价值无实际意义,因此可以剔除。具体地,针对同一个字段,首先查找包含该字段的所有组合字段,对这些组合字段的分值进行求和取平均操作,得到该字段的值,或平均值。比对平均值与预设平均值,若大于或等于,则表示该字段为有效字段并保留,否则为无效字段并过滤。
除此之外,还可以判断无效字段的数量/总字段数量的值,是否大于或等于预设占比值,例如10%,若大于则确定用户为无效用户。或者直接累计所有字段的分值,若大于或等于预设分值,如7分,则表示用户为有效用户,否则为无效用户,无需继续处理。
上述实施例所提供的方法,通过无效字段、无效用户的过滤,直接过滤掉部分用户和部分字段,极大减少了后续计算工作量。
参见图4,示出的是本发明实施例提供的一种基于弱数据技术的风险授信框架示意图,包括基础流程模型、样本解析器、数据关联模块、联邦学习模型。
1、基础流程模型,由公司研发人员自主研发的基于业务模式建立的模型,当一个用户进入到授信流程中时用以判断该用户是否通过账户开户决策,若通过则为一个成功通过的样本,否则为失败样本。
基础流程模型包含基本信息收集模块、基本信息过滤器、反欺诈模块、高危风险模块、风险等级评估模块、资产管理模块、业务决策模块:
1)基本信息收集模块,用于收集用户的基本信息,包括用户的姓名、年龄、证件号、住址等,获取途径包括用户手动填写或自主提供,是后续账户弱数据字段获取的基础。
2)基本信息过滤器,用于对当前用户基本信息进行预处理,例如过滤或打标年龄未满18岁、高危区域的用户。
3)反欺诈模块,用于对用户标识信息进行欺诈判定,如证件号、手机号等,判定是否在过去或其他环境下用户使用这些信息存在欺诈行为。
4)高危风险模块,用于判断用户在其关联业务中是否处于高风险判定,例如关联的信用产品存在长期逾期情况或存在高危行为的账户,对这些高危风险用户进行过滤。
5)风险等级评估模块,用于基于征信数据等强数据对用户进行定价定额和风险等级评估,不同级别的用户在弱数据使用时存在差异。定价定额指的是在金融业务中对用户进行的风险评估,如消费金融业务就是用户可用的额度和息费、证券业务就是用户可承受的金融产品价格和汇报率等等。
6)资产管理模块,用于对现有用户进行资方授信,具体通过与外部资方的交互,获取用户当前最高可授信资方和资方授信额度,并记录所有授信信息和系统交互时间。因为可能不提供额度或额度受限,返回结果为失败,那就会作为失败用户样本了。
7)业务决策模块,用于对同一风险等级的用户在不同业务模式下进行账户开户决策判定,决策通过的账户才会成为成功样本,否则为失败样本。
2、样本解析器
将基础流程模型输出的成功通过的账户注入到样本解析器,以通过样本解析器对账户中的弱数据进行解析处理,得到弱数据字段,包括用户基本信息、附加信息、风险数据、行为数据从用户的静态数据到动态行为均作为记录项。
3、数据关联模块
以机器学习为基础,对所有样本解析器本解析得到的账户关联字段进行关联建模,通过对每个用户的弱数据字段进行随机排列组合和评估。
需要说明的是,弱数据的形式是一个或多个数据标签的综合评估结果,如地址同为北京市海淀区中关村e世界的人不一定都具备同等的风控能力。但结合其他比较强的关联数据就可以做出推断,如联通8年以上的手机号、工作地址在e世界、住宅地址在北辰附近、职业是技术人员的偿还能力可能相似。但弱数据的关联需要通过不同的排列组合进行评估,以避免人为因素影响评估结果。
4、联邦学习模型
作为系统中不断升级的模型,为各个服务系统进行关联学习,通过在客户端部署的服务定期获取指定的参数值和分析结果进行综合学习,并完成分发到各个分部服务中提升算法能力。
参见图5,示出了本发明实施例提供的一种基于弱数据技术的风险授信系统500的主要模块示意图,包括信息解析模块、数据关联模块和风险授信模块,其中:
所述信息解析模块501,用于收集用户的信息并解析,得到用户弱数据字段,并确定用户风险等级;其中,弱数据为用户便于提供但关注度较弱的数据;
所述数据关联模块502,用于对所有用户弱数据字段进行随机排列组合,得到多个组合字段,结合所述用户风险等级对用户进行信息价值评估;
所述风险授信模块503,用于对样本库中预设数量个其他用户的信息价值进行求和取均值操作,若评估的信息价值大于或等于均值,则对用户进行风险授信操作。
本发明实施系统中,所述信息解析模块501包括基础流程模型504(图中未标出)和样本解析器505(图中未标出),其中,
所述基础流程模型,用于收集用户所有的信息,基于所述信息中的强数据对用户进行风险等级评估;对所述风险等级的用户在不同业务模式下进行账户开户决策判定,将决策通过的账户作为成功样本,否则为失败样本;
所述样本解析器,用于接收所述基础流程模型注入的成功样本,解析账户,得到用户弱数据字段;其中,账户对应于用户基本信息。
本发明实施系统中,所述基础流程模型504包括基本信息收集模块、风险等级评估模块、和业务决策模块,其中,
所述基本信息收集模块,用于收集用户所有的信息;
所述风险等级评估模块,用于基于所述信息中的强数据对用户进行定价定额,以确定与定价定额结果对应的风险等级;
所述业务决策模块,用于对所述风险等级的用户在不同业务模式下进行账户开户决策判定,将决策通过的账户作为成功样本,否则为失败样本。
本发明实施系统中,所述基础流程模型504还包括基本信息过滤器、反欺诈模块、高危风险模块和和资产管理模块,其中,
所述基本信息过滤器,用于对用户信息中的特定信息进行过滤处理;
所述反欺诈模块,用于基于用户标识信息进行欺诈判定,将存在欺诈行为的用户作为失败样本;
所述高危风险模块,用于根据用户标识信息确定与用户相关的关联业务,判断用户在所述关联业务中是否存在高危风险,将存在高危风险的用户作为失败样本;
所述资产管理模块,用于基于用户的资方授信信息,获取用户当前最高可授信资方和资方授信额度,若返回结果为失败,则确定为失败样本。
本发明实施系统中,所述数据关联模块502,用于:
对所述所有用户弱数据字段中的每个字段,在样本库中进行查询匹配,得到每个字段的分值,进而累加得到每个组合字段的分值;
针对一个字段,确定包含所述一个字段的所有组合字段,对所述所有组合字段的分值进行求和取均值操作,得到平均值;
若所述平均值大于或等于预设平均值,则确定所述一个字段为有效字段,否则为无效字段并过滤。
本发明实施系统中,所述数据关联模块502,用于:累加得到所有用户弱数据字段的总分值,若总分值大于或等于预设分值,则确定用户为有效用户。
本发明实施系统中,所述数据关联模块502,用于:统计无效字段的数量,计算所述数量与所有用户弱数据字段的总数量的占比,若所述占比大于或等于预设占比值,则确定用户为无效用户。
本发明实施系统中,所述数据关联模块502,用于:
将每个字段拆分为至少一个子字段,在样本库中对每个子字段进行查询匹配,得到每个子字段的分值,进而累加得到每个字段的分值;
对所述所有用户弱数据字段的分值进行求和取均值操作,在所述风险等级中确定与均值对应的信息价值。
本发明实施系统中,所述风险授信模块503,用于:
基于均值和预设浮动值生成价值评估范围;
若评估的信息价值大于或等于所述价值评估范围的最大值,则确定用户为高价值用户,对用户进行高价值风险授信操作;或
若评估的信息价值小于所述价值评估范围的最小值,则确定用户为低价值用户,对用户进行低价值风险授信操作;或
若评估的信息价值位于所述价值评估范围内,则确定用户为中价值用户,对用户进行中价值风险授信操作。
本发明实施系统中,所述系统还包括联邦学习模型506(图中未标出),用于:
为各个服务模块进行关联学习,通过定期获取特定参数值和分析结果进行综合学习,之后分发到各个模块。
另外,在本发明实施例中所述系统的具体实施内容,在上面所述方法中已经详细说明了,故在此重复内容不再说明。
图6示出了可以应用本发明实施例的示例性系统架构600。
如图6所示,系统架构600可以包括终端设备601、602、603,网络604和服务器605(仅仅是示例)。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备601、602、603通过网络604与服务器605交互,以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用。
终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备,服务器605可以是提供各种服务的服务器。
需要说明的是,本发明实施例所提供的方法一般由服务器605执行,相应地,系统一般设置于服务器605中。
应该理解,图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图7,其示出了适于用来实现本发明实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、系统或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、系统或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、系统或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括信息解析模块、数据关联模块、风险授信模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,风险授信模块还可以被描述为“授信模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:
收集用户的信息并解析,得到用户弱数据字段,并确定用户风险等级;其中,弱数据为用户便于提供但关注度较弱的数据;
对所有用户弱数据字段进行随机排列组合,得到多个组合字段,结合所述用户风险等级对用户进行信息价值评估;
对样本库中预设数量个其他用户的信息价值进行求和取均值操作,若评估的信息价值大于或等于均值,则对用户进行风险授信操作。
根据本发明实施例的技术方案,可直接部署在客户服务器中,解决了风险策略对外投放和赋能导致泄露的问题,降低了数据采集和交互成本,且避免了用户个人信息传输的不合规问题。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (11)

1.一种基于弱数据技术的风险授信方法,特征在于,包括:
收集用户的信息并解析,得到用户弱数据字段,并确定用户风险等级;其中,弱数据为用户便于提供但关注度较弱的数据;
对所有用户弱数据字段进行随机排列组合,得到多个组合字段,结合所述用户风险等级对用户进行信息价值评估;
对样本库中预设数量个其他用户的信息价值进行求和取均值操作,若评估的信息价值大于或等于均值,则对用户进行风险授信操作。
2.根据权利要求1所述的方法,其特征在于,所述收集用户的信息并解析,得到用户弱数据字段,并确定用户风险等级,包括:
收集用户所有的信息,基于所述信息中的强数据对用户进行风险等级评估;
对所述风险等级的用户在不同业务模式下进行账户开户决策判定,将决策通过的账户作为成功样本,否则为失败样本;
解析决策通过的账户,得到用户弱数据字段;其中,账户对应于用户基本信息。
3.根据权利要求2所述的方法,其特征在于,在所述基于所述信息中的强数据对用户进行风险等级评估之前,还包括:
基于与单个业务模式对应的预处理方式,对用户进行基础信息通过判定,将判定失败的账户作为失败样本;其中,所述预处理方式为反欺诈判定、高危风险判定、特定信息过滤和额度校验中的至少一种。
4.根据权利要求1所述的方法,其特征在于,在所述得到多个组合字段之后,还包括:
对所述所有用户弱数据字段中的每个字段,在样本库中进行查询匹配,得到每个字段的分值,进而累加得到每个组合字段的分值;
针对一个字段,确定包含所述一个字段的所有组合字段,对所述所有组合字段的分值进行求和取均值操作,得到平均值;
若所述平均值大于或等于预设平均值,则确定所述一个字段为有效字段,否则为无效字段并过滤。
5.根据权利要求4所述的方法,其特征在于,在所述得到每个字段的分值之后,还包括:
累加得到所有用户弱数据字段的总分值,若总分值大于或等于预设分值,则确定用户为有效用户。
6.根据权利要求4或5所述的方法,其特征在于,还包括:
统计无效字段的数量,计算所述数量与所有用户弱数据字段的总数量的占比,若所述占比大于或等于预设占比值,则确定用户为无效用户。
7.根据权利要求4或5所述的方法,其特征在于,所述得到多个组合字段,结合所述用户风险等级对用户进行信息价值评估,包括:
将每个字段拆分为至少一个子字段,在样本库中对每个子字段进行查询匹配,得到每个子字段的分值,进而累加得到每个字段的分值;
确定包含字段数量最多的组合字段,对所确定组合字段中各字段的分值进行求和取均值操作,在所述风险等级中确定与均值对应的信息价值。
8.根据权利要求1所述的方法,其特征在于,所述若评估的信息价值大于或等于均值,则对用户进行风险授信操作,包括:
基于均值和预设浮动值生成价值评估范围;
若评估的信息价值大于或等于所述价值评估范围的最大值,则确定用户为高价值用户,对用户进行高价值风险授信操作;或
若评估的信息价值小于所述价值评估范围的最小值,则确定用户为低价值用户,对用户进行低价值风险授信操作;或
若评估的信息价值位于所述价值评估范围内,则确定用户为中价值用户,对用户进行中价值风险授信操作。
9.一种基于弱数据技术的风险授信系统,包括信息解析模块、数据关联模块和风险授信模块,其特征在于:
所述信息解析模块,用于收集用户的信息并解析,得到用户弱数据字段,并确定用户风险等级;其中,弱数据为用户便于提供但关注度较弱的数据;
所述数据关联模块,用于对所有用户弱数据字段进行随机排列组合,得到多个组合字段,结合所述用户风险等级对用户进行信息价值评估;
所述风险授信模块,用于对样本库中预设数量个其他用户的信息价值进行求和取均值操作,若评估的信息价值大于或等于均值,则对用户进行风险授信操作。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储系统,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
11.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN202110167442.5A 2021-02-05 2021-02-05 一种基于弱数据技术的风险授信方法和系统 Pending CN114880369A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110167442.5A CN114880369A (zh) 2021-02-05 2021-02-05 一种基于弱数据技术的风险授信方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110167442.5A CN114880369A (zh) 2021-02-05 2021-02-05 一种基于弱数据技术的风险授信方法和系统

Publications (1)

Publication Number Publication Date
CN114880369A true CN114880369A (zh) 2022-08-09

Family

ID=82667856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110167442.5A Pending CN114880369A (zh) 2021-02-05 2021-02-05 一种基于弱数据技术的风险授信方法和系统

Country Status (1)

Country Link
CN (1) CN114880369A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116257563A (zh) * 2022-11-30 2023-06-13 荣耀终端有限公司 一种数据价值评估方法及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116257563A (zh) * 2022-11-30 2023-06-13 荣耀终端有限公司 一种数据价值评估方法及电子设备
CN116257563B (zh) * 2022-11-30 2023-11-21 荣耀终端有限公司 一种数据价值评估方法及电子设备

Similar Documents

Publication Publication Date Title
CN111178219A (zh) 票据识别管理方法、装置、存储介质及电子设备
CN110852878B (zh) 一种可信度确定方法、装置、设备和存储介质
CN111241161A (zh) 发票信息挖掘方法、装置、计算机设备及存储介质
CN112598513B (zh) 识别股东风险交易行为的方法及装置
CN111833182A (zh) 识别风险对象的方法和装置
CN112232950A (zh) 针对借贷风险的评估方法及装置、设备、计算机可读存储介质
CN112581270A (zh) 风险账户的识别方法、装置、电子设备和存储介质
CN112950359B (zh) 一种用户识别方法和装置
CN113034046A (zh) 一种数据风险计量方法、装置、电子设备及存储介质
CN114880369A (zh) 一种基于弱数据技术的风险授信方法和系统
CN115564591A (zh) 一种融资产品的确定方法及相关设备
CN116934131A (zh) 一种企业经营状况评估方法、装置及设备
CN115760010A (zh) 报关单的审核方法、报关方法、装置、设备及存储介质
CN116703555A (zh) 一种预警方法、装置、电子设备及计算机可读介质
CN115731028A (zh) 一种预警方法、装置、电子设备及计算机可读介质
CN114357523A (zh) 风险对象的识别方法、装置、设备、存储介质和程序产品
KR20090063805A (ko) 불법 금융 거래 정보를 관리하고 혐의 거래의 확인과보고서 작성 및 등록을 통합적으로 수행하는 방법 및시스템
CN114723548A (zh) 数据处理方法、装置、设备、介质和程序产品
CN111429257B (zh) 一种交易监控方法和装置
CN114372892A (zh) 支付数据监控方法、装置、设备及介质
CN111445325B (zh) 信用卡信息处理方法、装置、系统及存储介质
CN113450208A (zh) 贷款风险变动预警、模型训练方法和装置
CN111951016A (zh) 一种商户协议签约存储方法及装置
CN111882330A (zh) 一种金融防欺诈分析方法、装置、设备和存储介质
CN113487408A (zh) 信息处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination