CN111400764B - 个人信息保护的风控模型训练方法、风险识别方法及硬件 - Google Patents

个人信息保护的风控模型训练方法、风险识别方法及硬件 Download PDF

Info

Publication number
CN111400764B
CN111400764B CN202010216729.8A CN202010216729A CN111400764B CN 111400764 B CN111400764 B CN 111400764B CN 202010216729 A CN202010216729 A CN 202010216729A CN 111400764 B CN111400764 B CN 111400764B
Authority
CN
China
Prior art keywords
user
time node
sample
user portrait
vector combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010216729.8A
Other languages
English (en)
Other versions
CN111400764A (zh
Inventor
宋博文
朱勇椿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010216729.8A priority Critical patent/CN111400764B/zh
Publication of CN111400764A publication Critical patent/CN111400764A/zh
Application granted granted Critical
Publication of CN111400764B publication Critical patent/CN111400764B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Computer Hardware Design (AREA)
  • Educational Administration (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种个人信息保护的风控模型训练方法、风险识别方法及硬件。训练方法包括:获取样本用户集合中的样本用户在第一时间节点和第二时间节的用户画像向量组合,样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合具有相同的用户画像维度。确定样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合之间的差异特征。基样本用户对应的差异特征以及在第二时间节点对应的风险分类标签,对风控模型进行训练,第一时间节点早于第二时间节点,样本用户集合中至少有一个样本用户在第二时间节点对应的风险分类标签所指示的风险程度高于在第一时间节点对应的风险分类标签所指示的风险程度。

Description

个人信息保护的风控模型训练方法、风险识别方法及硬件
技术领域
本文件涉及人工智能技术领域,尤其涉及一种个人信息保护的风控模型训练方法、风险识别方法及硬件。
背景技术
深度学习模型凭借具有机械化处理信息的能力,在风控领域得到了越来越广泛的使用。现阶段,风控模型的训练主要依赖于历史数据中的用户画像。这种方式的风险分析维度比较简单,一般仅仅是挖掘出一些比较浅显的与风险相关的用户画像。但是,对于一些更深层次信息,比如用户画像发生变化所带来的预示,都无法给出准确的理解。
有鉴于此,如何在保护用户画像隐私的基础上,通过用户画像随时间演变解释风险,是当前亟需解决的技术问题
发明内容
本说明书实施例目的是提供一种个人信息保护的风控模型训练方法、风险识别方法及硬件,能够在保护用户画像隐私的基础上,通过用户画像随时间演变解释风险,从而为风控决策提供数据支持。
为了实现上述目的,本说明书实施例是这样实现的:
第一方面,提供一种风控模型的训练方法,包括:
获取样本用户集合中的样本用户在第一时间节点和第二时间节的用户画像向量组合,其中,样本用户在第一时间节点的用户画像向量组合与样本用户在第二时间节点的用户画像向量组合具有相同的用户画像维度,用户画像向量是属于个人信息的用户画像经向量化脱敏后得到的;
确定所述样本用户集合中的样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合之间的差异特征;
基于确定到的所述样本用户集合中的样本用户对应的差异特征以及样本用户对应第二时间节点的风险分类标签,对风控模型进行训练,其中,所述第一时间节点早于所述第二时间节点,所述样本用户集合中至少有一个样本用户在第二时间节点对应的风险分类标签所指示的风险程度高于在第一时间节点对应的风险分类标签所指示的风险程度。
第二方面,提供一种风险识别方法,包括:
获取目标用户在历史时间节点和现状时间节点的用户画像向量组合,其中,目标用户在历史时间节点的用户画像向量组合与样本用户在现状时间节点的用户画像向量组合具有相同的用户画像维度,用户画像向量是属于个人信息的用户画像经向量化脱敏后得到的;
确定所述目标用户在历史时间节点的用户画像向量组合与在现状时间节点的用户画像向量组合之间的距离向量;
将所述目标用户在历史时间节点的用户画像向量组合与在现状时间节点的用户画像向量组合之间的距离向量输入至风控模型,得到所述目标用户的风险识别结果,其中,所述风控模型是基于样本用户在第一时间节点的用户画像向量组合与所述样本用户在第二时间节点的用户画像向量组合之间的距离向量、所述样本用户对应的风险分类标签训练得到的,所述第一时间节点早于所述第二时间节点,所述样本用户在第二时间节点对应的风险分类标签所指示的风险程度高于在第一时间节点对应的风险分类标签所指示的风险程度。
第三方面,提供一种模型训练装置,包括:
获取模块,获取样本用户集合中的样本用户在第一时间节点和第二时间节的用户画像向量组合,其中,样本用户在第一时间节点的用户画像向量组合与样本用户在第二时间节点的用户画像向量组合具有相同的用户画像维度,用户画像向量是属于个人信息的用户画像经向量化脱敏后得到的;
确定模块,确定所述样本用户集合中的样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合之间的差异特征;
训练模块,基于确定到的所述样本用户集合中的样本用户对应的差异特征以及样本用户对应第二时间节点的风险分类标签,对风控模型进行训练,其中,所述第一时间节点早于所述第二时间节点,所述样本用户集合中至少有一个样本用户在第二时间节点对应的风险分类标签所指示的风险程度高于在第一时间节点对应的风险分类标签所指示的风险程度。
第四方面,提供一种电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行:
获取样本用户集合中的样本用户在第一时间节点和第二时间节的用户画像向量组合,其中,样本用户在第一时间节点的用户画像向量组合与样本用户在第二时间节点的用户画像向量组合具有相同的用户画像维度,用户画像向量是属于个人信息的用户画像经向量化脱敏后得到的;
确定所述样本用户集合中的样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合之间的差异特征;
基于确定到的所述样本用户集合中的样本用户对应的差异特征以及样本用户对应第二时间节点的风险分类标签,对风控模型进行训练,其中,所述第一时间节点早于所述第二时间节点,所述样本用户集合中至少有一个样本用户在第二时间节点对应的风险分类标签所指示的风险程度高于在第一时间节点对应的风险分类标签所指示的风险程度。
第五方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
获取样本用户集合中的样本用户在第一时间节点和第二时间节的用户画像向量组合,其中,样本用户在第一时间节点的用户画像向量组合与样本用户在第二时间节点的用户画像向量组合具有相同的用户画像维度,用户画像向量是属于个人信息的用户画像经向量化脱敏后得到的;
确定所述样本用户集合中的样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合之间的差异特征;
基于确定到的所述样本用户集合中的样本用户对应的差异特征以及样本用户对应第二时间节点的风险分类标签,对风控模型进行训练,其中,所述第一时间节点早于所述第二时间节点,所述样本用户集合中至少有一个样本用户在第二时间节点对应的风险分类标签所指示的风险程度高于在第一时间节点对应的风险分类标签所指示的风险程度。
第六方面,提供一种风险识别装置,包括:
获取模块,获取目标用户在历史时间节点和现状时间节点的用户画像向量组合,其中,目标用户在历史时间节点的用户画像向量组合与样本用户在现状时间节点的用户画像向量组合具有相同的用户画像维度,用户画像向量是属于个人信息的用户画像经向量化脱敏后得到的;
确定模块,确定所述目标用户在历史时间节点的用户画像向量组合与在现状时间节点的用户画像向量组合之间的差异特征;
识别模块,将所述目标用户在历史时间节点的用户画像向量组合与在现状时间节点的用户画像向量组合之间的差异特征输入至风控模型,得到所述目标用户的风险识别结果,其中,所述风控模型是基于样本用户在第一时间节点的用户画像向量组合与所述样本用户在第二时间节点的用户画像向量组合之间的距离向量、所述样本用户对应的风险分类标签训练得到的,所述第一时间节点早于所述第二时间节点,所述样本用户在第二时间节点对应的风险分类标签所指示的风险程度高于在第一时间节点对应的风险分类标签所指示的风险程度。
第七方面,提供一种电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行:
获取目标用户在历史时间节点和现状时间节点的用户画像向量组合,其中,目标用户在历史时间节点的用户画像向量组合与样本用户在现状时间节点的用户画像向量组合具有相同的用户画像维度,用户画像向量是属于个人信息的用户画像经向量化脱敏后得到的;
确定所述目标用户在历史时间节点的用户画像向量组合与在现状时间节点的用户画像向量组合之间的差异特征;
将所述目标用户在历史时间节点的用户画像向量组合与在现状时间节点的用户画像向量组合之间的差异特征输入至风控模型,得到所述目标用户的风险识别结果,其中,所述风控模型是基于样本用户在第一时间节点的用户画像向量组合与所述样本用户在第二时间节点的用户画像向量组合之间的距离向量、所述样本用户对应的风险分类标签训练得到的,所述第一时间节点早于所述第二时间节点,所述样本用户在第二时间节点对应的风险分类标签所指示的风险程度高于在第一时间节点对应的风险分类标签所指示的风险程度。
第八方面,提供一种算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
获取目标用户在历史时间节点和现状时间节点的用户画像向量组合,其中,目标用户在历史时间节点的用户画像向量组合与样本用户在现状时间节点的用户画像向量组合具有相同的用户画像维度,用户画像向量是属于个人信息的用户画像经向量化脱敏后得到的;
确定所述目标用户在历史时间节点的用户画像向量组合与在现状时间节点的用户画像向量组合之间的差异特征;
将所述目标用户在历史时间节点的用户画像向量组合与在现状时间节点的用户画像向量组合之间的差异特征输入至风控模型,得到所述目标用户的风险识别结果,其中,所述风控模型是基于样本用户在第一时间节点的用户画像向量组合与所述样本用户在第二时间节点的用户画像向量组合之间的距离向量、所述样本用户对应的风险分类标签训练得到的,所述第一时间节点早于所述第二时间节点,所述样本用户在第二时间节点对应的风险分类标签所指示的风险程度高于在第一时间节点对应的风险分类标签所指示的风险程度。
本说明书实施例的方案利用样本用户在不同时间节点的用户画像向量之间的差异特征来对风控模型进行训练,使得风控模型学习获得用户画像特征随时间演变所对风险带来的影响,从而更深度地解释出导致用户存在风险的隐含原因,以用于风险识别或对风控决策提供数据支持。此外,整个训练过程中,用户画像取值是以用户画像向量的方式进行脱敏表示,因此可以有效保护用户个人信息的隐私,有利于机构之间开展协作,联合训练风控模型。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例提供的风控模型的训练方法的流程示意图。
图2为本说明书实施例提供的风险方法的流程示意图。
图3为本说明书实施例提供的风控模型的训练装置的结构示意图。
图4为本说明书实施例提供的风险装置的结构示意图。
图5为本说明书实施例提供的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
如前所述,现阶段,风控模型的训练主要依赖于历史数据中的用户画像特征。这种方式的风险分析维度比较简单,一般仅仅是挖掘出一些比较浅显的与风险相关的用户特征。但是,随着时间的演变,用户画像也会发生演变,这些变化对于风险识别也是具有极高价值的参考因素。为此,本文件旨在保护用户画像隐私的基础上,提出一种通过用户画像随时间演变解释风险的技术方案,能够更深度地理解用户,从而挖掘出潜在的风险因素,以实现更好的风险防范。
图1是本说明书实施例风控模型的训练方法的流程图。图1所示的方法可以由下文相对应的装置执行,包括:
步骤S102,获取样本用户集合中的样本用户在第一时间节点和第二时间节的用户画像向量组合,其中,样本用户在第一时间节点的用户画像向量组合与样本用户在第二时间节点的用户画像向量组合具有相同的用户画像维度,用户画像向量是属于个人信息的用户画像经向量化脱敏后得到的。
应理解,用户画像向量并直接暴露用户画像的具体旗帜,因此对用户的个人信息起到了隐私保护的作用。
用户画像向量组合包含有至少一个用户画像特征维度的用户画像向量,这里本说明书实施例不对用户画像特征维度作具体限定。为方便理解,假设风控模型用于识别借贷风险,则用户画像特征维度可以但不限于是:月支出、月收入、月还贷情况等等。本说明书实施例可以对月支出、月收入、月还贷情况的用户画像向量进行组合,从而以多维度对借贷风险进行刻画。应理解,在用户画像向量组合中,至少一部分用户画像向量会随时间推移发生变化。比如,上述“月收入”可能会发生增长或减少。
方式一,通过基于多方安全计算协议,由多个机构协作提供样本用户在第一时间和第二时间节点的用户画像向量。
具体地,可以获取至少一个机构基于多方安全计算协议所提供的样本用户集合中的样本用户在第一时间节点和第二时间节的用户画像向量,其中,目标机构提供的样本用户在第一时间节点和第二时间节的用户画像向量是目标机构从私有业务数据中获取得到的,样本用户集合中的样本用户属于目标机构的业务用户。
之后,对所样本用户集合中属于同一样本用户的第一时间节点的用户画像向量进行组合以及属于同一样本用户的第二时间节点的用户画像向量进行组合,获得样本用户集合中的样本用户在第一时间节点和第二时间节的用户画像向量组合。
步骤S104,确定样本用户集合中的样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合之间的差异特征。
这里,本说明书实施例可以使用样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合之间的数学距离来作为差异特征。比如,曼哈顿距离、欧氏距离和切比雪夫距离等等。显然,通过向量之间数学距离来表示向量之间的差异特征,可以套用在任何场景中,因此泛用性较强,具有很高的实用性。
步骤S106,基于确定到的样本用户集合中的样本用户对应的差异特征以及样本用户对应第二时间节点的风险分类标签,对风控模型进行训练,其中,第一时间节点早于所述第二时间节点,样本用户集合中至少有一个样本用户在第二时间节点对应的风险分类标签所指示的风险程度高于在第一时间节点对应的风险分类标签所指示的风险程度。
应理解,本说明书实施例采用有监督的方式对风控模型进行训练。因此,样本用户集合中的样本用户均预先标注有风险分类标签。这里,风险分类标签指示样本用户的风险程度,本说明书实施例不对风险程度的分级作具体限定。为方便理解,以作为最简单的分级为例,风险分类标签可以有“白样本”和“黑样本”两种分类。“白样本”是指不具有风险的样本用户,而“黑样本”是指具有风险的样本用户。
其中,样本用户集合中至少有一个样本用户在第二时间节点对应的风险分类标签所指示的风险程度高于在第一时间节点对应的风险分类标签所指示的风险程度是指:样本用户集合中至少包含有历史“偏白”而后续时间“偏黑”的样本用户,通过使用这类样本用户所对应的差异特征来训练风控模型,可以使得风控模型能够学习获得哪些用户画像组合会随时间演变而导致具有风险,从而获得一定的风险识别能力。当然,本说明书实施例的样本用户集合中还可以包含有历史“偏白”而后续时间依然“偏白”的样本用户,通过使用这类样本用户所对应的差异特征来训练风控模型,可以使得风控模型能够学习获得哪些用户画像组合随时间演变不会导致存在风险。
基于图1所示的风控模型的训练方法可以知道,本说明书实施例的方案利用样本用户在不同时间节点的用户画像向量之间的差异特征来对风控模型进行训练,使得风控模型学习获得用户画像特征随时间演变所对风险带来的影响,从而更深度地解释出导致用户存在风险的隐含原因,以用于风险识别或对风控决策提供数据支持。此外,整个训练过程中,用户画像取值是以用户画像向量的方式进行脱敏表示,因此可以有效保护用户个人信息的隐私,有利于机构之间开展协作,联合训练风控模型。
下面对训练方法的主要流程进行详细介绍。
本说明书实施例的训练方法具体包括以下步骤:
步骤一,获取样本用户集合中的样本用户在第一时间节点和第二时间节点的各个用户画像向量。
具体地,本步骤可以基于多方安全计算协议,获取至少一个机构协作提供样本用户在第一时间和第二时间节点的用户画像向量。其中,任意目标机构提供的样本用户在第一时间节点和第二时间节的用户画像向量是目标机构从私有业务数据中获取得到的,样本用户集合中的样本用户属于目标机构的业务用户。
应理解,不同机构提供的样本用户在第一时间节点和第二时间节的用户画像向量可以对应有不同的用户画像维度。
以提供电子购物业务的商户机构、提供电子钱包业务的支付应用机构和提供网上银行业务的银行机构为例。这些机构可能具有一部分相同的用户群体。但是,银行机构本地的业务数据反映的是用户的收支方面的用户画像,而商户机构本地的业务数据反映的是用户商品偏好方面的用户画像。
显然不同机构所收集的用户画像与自身提供的业务相关,都具有一定的局限性。通过对这些机构的用户画像向量进行收集,可以得到多维度的用户表示。
步骤二,对样本用户集合中属于同一样本用户的第一时间节点的用户画像向量进行组合以及属于同一样本用户的第二时间节点的用户画像向量进行组合,获得样本用户集合中的样本用户在第一时间节点和第二时间节的用户画像向量组合。
为方便理解,假设银行机构提供的用户画像向量的用户画像维度为“月支出”和“月收入”,商户机构提供的用户画像向量的用户画像维度为“购物偏好”,则样本用户的用户画像向量组合为“月支出的向量+月收入的向量+购物偏好的向量”。显然,向量是对用户画像数学脱敏的表示方法,因此机构提供的样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合只反映出了样本用户的用户画像在两个时间节点之间的相对差异,而具体的用户画像取值并未暴露,这对于用户的隐私信息来讲起到了有效的保护作用。
步骤二,基于用户画像向量组合所对应的用户画像维度,构建风控模型。
这里,还是假设用户用户画像向量组合为“月支出的向量+月收入的向量+购物偏好的向量”,则本步骤可以基于“月支出+月收入+购物偏好”三个为用户画像维度来构建风控模型。即,风控模型的底层向量为“月支出+月收入+购物偏好”。
需要说明的是,本说明书实施例不对风控模型的具体形式作限定,但凡是具有风险分类功能的模型都可以适用于本说明实施例的方案。例如:关系网络模型、朴素贝叶斯模型、决策树模型等等。
步骤三,计算样本用户集合中的样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合之间的差异特征。
具体地,本步骤可以将样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合进行相减后再平方,得到样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合之间的欧式距离,该欧式距离即为差异特征。
步骤四,基于确定到的所述样本用户集合中的样本用户对应的差异特征以及样本用户对应第二时间节点的风险分类标签,对风控模型进行训练。
具体地,在训练过程中,样本用户集合中的样本用户对应的差异特征作为风控模型的输入数据,样本用户对应第二时间节点的风险分类标签作为风控模型的输出数据。在将样本用户的差异特征在输入至风控模型后,可以得到风控模型给出的训练结果。这个训练结果是风控模型根据差异特征所预测样本用户风险程度的结果,可能与样本用户的风险分类标签指示的真值结果存在误差。
之后,通过最大似然估计所推导出的损失函数,计算出训练结果与真值结果的误差,并以降低误差为目的,优化调整风控模型中的参数(例如底层向量的权重值),以达到训练效果。
以上仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。此外,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
图2是本说明书实施例的风险识别方法的流程图。图2所示的方法可以由下文相对应的装置执行,包括:
步骤S202,获取目标用户在历史时间节点和现状时间节点的用户画像向量组合,其中,目标用户在历史时间节点的用户画像向量组合与样本用户在现状时间节点的用户画像向量组合具有相同的用户画像维度,用户画像向量是属于个人信息的用户画像经向量化脱敏后得到的。
步骤S204,确定目标用户在历史时间节点的用户画像向量组合与在现状时间节点的用户画像向量组合之间的距离向量。
步骤S206,将目标用户在历史时间节点的用户画像向量组合与在现状时间节点的用户画像向量组合之间的距离向量输入至风控模型,得到目标用户的风险识别结果,其中,风控模型是基于样本用户在第一时间节点的用户画像向量组合与所述样本用户在第二时间节点的用户画像向量组合之间的距离向量、所述样本用户对应的风险分类标签训练得到的,第一时间节点早于第二时间节点,样本用户在第二时间节点对应的风险分类标签所指示的风险程度高于在第一时间节点对应的风险分类标签所指示的风险程度。
本说明书实施例的风险识别方法利用样本用户在不同时间节点的用户画像向量之间的差异特征来对风控模型进行训练,使得风控模型学习获得用户画像特征随时间演变所对风险带来的影响,从而更深度地解释出导致用户存在风险的隐含原因。在投入应用时,将所述目标用户在历史时间节点的用户画像向量组合与在现状时间节点的用户画像向量组合之间的差异特征输入至风控模型,以对目标用户实现风险识别。
与上述风控模型的训练方法相对应地,本说明书实施例还提供一种风控模型的训练装置。图3为训练装置的结构示意图,包括:
获取模块310,获取样本用户集合中的样本用户在第一时间节点和第二时间节的用户画像向量组合,其中,样本用户在第一时间节点的用户画像向量组合与样本用户在第二时间节点的用户画像向量组合具有相同的用户画像维度,用户画像向量是属于个人信息的用户画像经向量化脱敏后得到的;
确定模块320,确定所述样本用户集合中的样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合之间的差异特征;
训练模块330,基于确定到的所述样本用户集合中的样本用户对应的差异特征以及样本用户对应第二时间节点的风险分类标签,对风控模型进行训练,其中,所述第一时间节点早于所述第二时间节点,所述样本用户集合中至少有一个样本用户在第二时间节点对应的风险分类标签所指示的风险程度高于在第一时间节点对应的风险分类标签所指示的风险程度。
基于图3所示的风控模型的训练装置可以知道,本说明书实施例的方案利用样本用户在不同时间节点的用户画像向量之间的差异特征来对风控模型进行训练,使得风控模型学习获得用户画像特征随时间演变所对风险带来的影响,从而更深度地解释出导致用户存在风险的隐含原因,以用于风险识别或对风控决策提供数据支持。此外,整个训练过程中,用户画像取值是以用户画像向量的方式进行脱敏表示,因此可以有效保护用户个人信息的隐私,有利于机构之间开展协作,联合训练风控模型。
可选地,获取模块310在执行时,具体获取至少一个机构基于多方安全计算协议所提供的样本用户集合中的样本用户在第一时间节点和第二时间节的用户画像向量,其中,目标机构提供的样本用户在第一时间节点和第二时间节的用户画像向量是所述目标机构从私有业务数据中获取得到的,所述样本用户集合中的样本用户属于所述目标机构的业务用户;之后,对所述样本用户集合中属于同一样本用户的第一时间节点的用户画像向量进行组合以及属于同一样本用户的第二时间节点的用户画像向量进行组合,获得所述样本用户集合中的样本用户在第一时间节点和第二时间节的用户画像向量组合。
可选地,不同机构提供的样本用户在第一时间节点和第二时间节的用户画像向量对应有不同的用户画像维度。
可选地,所述至少一个机构包括提供电子购物业务的机构、提供电子钱包业务的机构和提供网上银行业务的机构中的至少一者。
可选地,所述差异特征包括曼哈顿距离、欧氏距离和切比雪夫距离中的至少一者。
可选地,所述风控模型包括关系网络模型。
显然,本说明书实施例的训练装置可以作为上述图1所示的训练方法的执行主体,因此实现训练方法在图1所实现的功能。由于原理相同,本文不再赘述。
与上述风险识别方法相对应地,本说明书实施例还提供一种风险识别装置。图4为风险识别装置的结构示意图,包括:
获取模块410,获取目标用户在历史时间节点和现状时间节点的用户画像向量组合,其中,目标用户在历史时间节点的用户画像向量组合与样本用户在现状时间节点的用户画像向量组合具有相同的用户画像维度,用户画像向量是属于个人信息的用户画像经向量化脱敏后得到的;
确定模块420,确定所述目标用户在历史时间节点的用户画像向量组合与在现状时间节点的户用户画像向量组合之间的差异特征;
识别模块430,将所述目标用户在历史时间节点的用户画像向量组合与在现状时间节点的户用户画像向量组合之间的差异特征输入至风控模型,得到所述目标用户的风险识别结果,其中,所述风控模型是基于样本用户在第一时间节点的用户画像向量组合与所述样本用户在第二时间节点的用户画像向量组合之间的距离向量、所述样本用户对应的风险分类标签训练得到的,所述第一时间节点早于所述第二时间节点,所述样本用户在第二时间节点对应的风险分类标签所指示的风险程度高于在第一时间节点对应的风险分类标签所指示的风险程度。
在本说明书实施例的风险识别装置中,利用样本用户在不同时间节点的用户画像向量之间的差异特征来对风控模型进行训练,使得风控模型学习获得用户画像特征随时间演变所对风险带来的影响,从而更深度地解释出导致用户存在风险的隐含原因。在投入应用时,将所述目标用户在历史时间节点的用户画像向量组合与在现状时间节点的用户画像向量组合之间的差异特征输入至风控模型,以对目标用户实现风险识别。
显然,本说明书实施例的风险识别装置可以作为上述图2所示的风险识别方法的执行主体,因此实现风险识别方法在图2所实现的功能。由于原理相同,本文不再赘述。
图5是本说明书的一个实施例电子设备的结构示意图。请参考图5,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
可选地,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成上述风控模型的训练装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取样本用户集合中的样本用户在第一时间节点和第二时间节的用户画像向量组合,其中,样本用户在第一时间节点的用户画像向量组合与样本用户在第二时间节点的用户画像向量组合具有相同的用户画像维度,用户画像向量是属于个人信息的用户画像经向量化脱敏后得到的;
确定所述样本用户集合中的样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合之间的差异特征;
基于确定到的所述样本用户集合中的样本用户对应的差异特征以及样本用户对应第二时间节点的风险分类标签,对风控模型进行训练,其中,所述第一时间节点早于所述第二时间节点,所述样本用户集合中至少有一个样本用户在第二时间节点对应的风险分类标签所指示的风险程度高于在第一时间节点对应的风险分类标签所指示的风险程度。
可选地,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成上述风险识别装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取目标用户在历史时间节点和现状时间节点的用户画像向量组合,其中,目标用户在历史时间节点的用户画像向量组合与样本用户在现状时间节点的用户画像向量组合具有相同的用户画像维度;
确定所述目标用户在历史时间节点的用户画像向量组合与在现状时间节点的用户画像向量组合之间的差异特征;
将所述目标用户在历史时间节点的用户画像向量组合与在现状时间节点的用户画像向量组合之间的差异特征输入至风控模型,得到所述目标用户的风险识别结果,其中,所述风控模型是基于样本用户在第一时间节点的用户画像向量组合与所述样本用户在第二时间节点的用户画像向量组合之间的距离向量、所述样本用户对应的风险分类标签训练得到的,所述第一时间节点早于所述第二时间节点,所述样本用户在第二时间节点对应的风险分类标签所指示的风险程度高于在第一时间节点对应的风险分类标签所指示的风险程度。
上述如本说明书图1所示实施例揭示的训练方法或者图2所示实施例揭示的风险识别方法均可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
应理解,本说明书实施例的电子设备可以实现上述训练装置在图1所示的实施例的功能,或者实现上述风险识别装置在图2所示的实施例的功能。由于原理相同,本文不再赘述。
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
此外,本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令。
可选地,上述指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的训练方法,并具体用于执行以下步骤:
获取样本用户集合中的样本用户在第一时间节点和第二时间节的用户画像向量组合,其中,样本用户在第一时间节点的用户画像向量组合与样本用户在第二时间节点的用户画像向量组合具有相同的用户画像维度,用户画像向量是属于个人信息的用户画像经向量化脱敏后得到的;
确定所述样本用户集合中的样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合之间的差异特征;
基于确定到的所述样本用户集合中的样本用户对应的差异特征以及样本用户对应第二时间节点的风险分类标签,对风控模型进行训练,其中,所述第一时间节点早于所述第二时间节点,所述样本用户集合中至少有一个样本用户在第二时间节点对应的风险分类标签所指示的风险程度高于在第一时间节点对应的风险分类标签所指示的风险程度。
可选地,上述指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图2所示实施例的风险识别方法,并具体用于执行以下步骤:
获取目标用户在历史时间节点和现状时间节点的用户画像向量组合,其中,目标用户在历史时间节点的用户画像向量组合与样本用户在现状时间节点的用户画像向量组合具有相同的用户画像维度,用户画像向量是属于个人信息的用户画像经向量化脱敏后得到的。
确定所述目标用户在历史时间节点的用户画像向量组合与在现状时间节点的用户画像向量组合之间的差异特征。
将所述目标用户在历史时间节点的用户画像向量组合与在现状时间节点的用户画像向量组合之间的差异特征输入至风控模型,得到所述目标用户的风险识别结果,其中,所述风控模型是基于样本用户在第一时间节点的用户画像向量组合与所述样本用户在第二时间节点的用户画像向量组合之间的距离向量、所述样本用户对应的风险分类标签训练得到的,所述第一时间节点早于所述第二时间节点,所述样本用户在第二时间节点对应的风险分类标签所指示的风险程度高于在第一时间节点对应的风险分类标签所指示的风险程度。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。此外,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。

Claims (13)

1.一种个人信息保护的风控模型训练方法,包括:
获取样本用户集合中的样本用户在第一时间节点和第二时间节的用户画像向量组合,其中,样本用户在第一时间节点的用户画像向量组合与样本用户在第二时间节点的用户画像向量组合具有相同的用户画像维度,用户画像向量是属于个人信息的用户画像经向量化脱敏后得到的;
确定所述样本用户集合中的样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合之间的差异特征,所述差异特征为样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合的数学距离;
基于确定到的所述样本用户集合中的样本用户对应的差异特征以及样本用户对应第二时间节点的风险分类标签,对风控模型进行训练,其中,所述第一时间节点早于所述第二时间节点,所述样本用户集合中至少有一个样本用户在第二时间节点对应的风险分类标签所指示的风险程度高于在第一时间节点对应的风险分类标签所指示的风险程度。
2.根据权利要求1所述的方法,
获取样本用户集合中的样本用户在第一时间节点和第二时间节的用户画像向量组合,包括:
获取至少一个机构基于多方安全计算协议所提供的样本用户集合中的样本用户在第一时间节点和第二时间节的用户画像向量,其中,目标机构提供的样本用户在第一时间节点和第二时间节的用户画像向量是所述目标机构从私有业务数据中获取得到的,所述样本用户集合中的样本用户属于所述目标机构的业务用户;
对所述样本用户集合中属于同一样本用户的第一时间节点的用户画像向量进行组合以及属于同一样本用户的第二时间节点的用户画像向量进行组合,获得所述样本用户集合中的样本用户在第一时间节点和第二时间节的用户画像向量组合。
3.根据权利要求2所述的方法,
不同机构提供的样本用户在第一时间节点和第二时间节的用户画像向量对应有不同的用户画像维度。
4.根据权利要求2所述的方法,
所述至少一个机构包括提供电子购物业务的机构、提供电子钱包业务的机构和提供网上银行业务的机构中的至少一者。
5.根据权利要求1-4中任一项所述的方法,
所述差异特征包括曼哈顿距离、欧氏距离和切比雪夫距离中的至少一者。
6.根据权利要求1-4中任一项所述的方法,
所述风控模型包括关系网络模型。
7.一种风险识别方法,包括:
获取目标用户在历史时间节点和现状时间节点的用户画像向量组合,其中,目标用户在历史时间节点的用户画像向量组合与样本用户在现状时间节点的用户画像向量组合具有相同的用户画像维度,用户画像向量是属于个人信息的用户画像经向量化脱敏后得到的;
确定所述目标用户在历史时间节点的用户画像向量组合与在现状时间节点的用户画像向量组合之间的差异特征,所述差异特征为样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合的数学距离;
将所述目标用户在历史时间节点的用户画像向量组合与在现状时间节点的户用户画像向量组合之间的差异特征输入至风控模型,得到所述目标用户的风险识别结果,其中,所述风控模型是基于样本用户在第一时间节点的用户画像向量组合与所述样本用户在第二时间节点的用户画像向量组合之间的距离向量、所述样本用户对应的风险分类标签训练得到的,所述第一时间节点早于所述第二时间节点,所述样本用户在第二时间节点对应的风险分类标签所指示的风险程度高于在第一时间节点对应的风险分类标签所指示的风险程度。
8.一种模型训练装置,包括:
获取模块,获取样本用户集合中的样本用户在第一时间节点和第二时间节的用户画像向量组合,其中,样本用户在第一时间节点的用户画像向量组合与样本用户在第二时间节点的用户画像向量组合具有相同的用户画像维度,用户画像向量是属于个人信息的用户画像经向量化脱敏后得到的;
确定模块,确定所述样本用户集合中的样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合之间的差异特征,所述差异特征为样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合的数学距离;
训练模块,基于确定到的所述样本用户集合中的样本用户对应的差异特征以及样本用户对应第二时间节点的风险分类标签,对风控模型进行训练,其中,所述第一时间节点早于所述第二时间节点,所述样本用户集合中至少有一个样本用户在第二时间节点对应的风险分类标签所指示的风险程度高于在第一时间节点对应的风险分类标签所指示的风险程度。
9.一种电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行:
获取样本用户集合中的样本用户在第一时间节点和第二时间节的用户画像向量组合,其中,样本用户在第一时间节点的用户画像向量组合与样本用户在第二时间节点的用户画像向量组合具有相同的用户画像维度,用户画像向量是属于个人信息的用户画像经向量化脱敏后得到的;
确定所述样本用户集合中的样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合之间的差异特征,所述差异特征为样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合的数学距离;
基于确定到的所述样本用户集合中的样本用户对应的差异特征以及样本用户对应第二时间节点的风险分类标签,对风控模型进行训练,其中,所述第一时间节点早于所述第二时间节点,所述样本用户集合中至少有一个样本用户在第二时间节点对应的风险分类标签所指示的风险程度高于在第一时间节点对应的风险分类标签所指示的风险程度。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
获取样本用户集合中的样本用户在第一时间节点和第二时间节的用户画像向量组合,其中,样本用户在第一时间节点的用户画像向量组合与样本用户在第二时间节点的用户画像向量组合具有相同的用户画像维度,用户画像向量是属于个人信息的用户画像经向量化脱敏后得到的;
确定所述样本用户集合中的样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合之间的差异特征,所述差异特征为样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合的数学距离;
基于确定到的所述样本用户集合中的样本用户对应的差异特征以及样本用户对应第二时间节点的风险分类标签,对风控模型进行训练,其中,所述第一时间节点早于所述第二时间节点,所述样本用户集合中至少有一个样本用户在第二时间节点对应的风险分类标签所指示的风险程度高于在第一时间节点对应的风险分类标签所指示的风险程度。
11.一种风险识别装置,包括:
获取模块,获取目标用户在历史时间节点和现状时间节点的用户画像向量组合,其中,目标用户在历史时间节点的用户画像向量组合与样本用户在现状时间节点的用户画像向量组合具有相同的用户画像维度,用户画像向量是属于个人信息的用户画像经向量化脱敏后得到的;
确定模块,确定所述目标用户在历史时间节点的用户画像向量组合与在现状时间节点的用户画像向量组合之间的差异特征,所述差异特征为样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合的数学距离;
识别模块,将所述目标用户在历史时间节点的用户画像向量组合与在现状时间节点的用户画像向量组合之间的差异特征输入至风控模型,得到所述目标用户的风险识别结果,其中,所述风控模型是基于样本用户在第一时间节点的用户画像向量组合与所述样本用户在第二时间节点的用户画像向量组合之间的距离向量、所述样本用户对应的风险分类标签训练得到的,所述第一时间节点早于所述第二时间节点,所述样本用户在第二时间节点对应的风险分类标签所指示的风险程度高于在第一时间节点对应的风险分类标签所指示的风险程度。
12.一种电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行:
获取目标用户在历史时间节点和现状时间节点的用户画像向量组合,其中,目标用户在历史时间节点的用户画像向量组合与样本用户在现状时间节点的用户画像向量组合具有相同的用户画像维度,用户画像向量是属于个人信息的用户画像经向量化脱敏后得到的;
确定所述目标用户在历史时间节点的用户画像向量组合与在现状时间节点的用户画像向量组合之间的差异特征,所述差异特征为样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合的数学距离;
将所述目标用户在历史时间节点的用户画像向量组合与在现状时间节点的用户画像向量组合之间的差异特征输入至风控模型,得到所述目标用户的风险识别结果,其中,所述风控模型是基于样本用户在第一时间节点的用户画像向量组合与所述样本用户在第二时间节点的用户画像向量组合之间的距离向量、所述样本用户对应的风险分类标签训练得到的,所述第一时间节点早于所述第二时间节点,所述样本用户在第二时间节点对应的风险分类标签所指示的风险程度高于在第一时间节点对应的风险分类标签所指示的风险程度。
13.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
获取目标用户在历史时间节点和现状时间节点的用户画像向量组合,其中,目标用户在历史时间节点的用户画像向量组合与样本用户在现状时间节点的用户画像向量组合具有相同的用户画像维度,用户画像向量是属于个人信息的用户画像经向量化脱敏后得到的;
确定所述目标用户在历史时间节点的用户画像向量组合与在现状时间节点的用户画像向量组合之间的差异特征,所述差异特征为样本用户在第一时间节点的用户画像向量组合与在第二时间节点的用户画像向量组合的数学距离;
将所述目标用户在历史时间节点的用户画像向量组合与在现状时间节点的用户画像向量组合之间的差异特征输入至风控模型,得到所述目标用户的风险识别结果,其中,所述风控模型是基于样本用户在第一时间节点的用户画像向量组合与所述样本用户在第二时间节点的用户画像向量组合之间的距离向量、所述样本用户对应的风险分类标签训练得到的,所述第一时间节点早于所述第二时间节点,所述样本用户在第二时间节点对应的风险分类标签所指示的风险程度高于在第一时间节点对应的风险分类标签所指示的风险程度。
CN202010216729.8A 2020-03-25 2020-03-25 个人信息保护的风控模型训练方法、风险识别方法及硬件 Active CN111400764B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010216729.8A CN111400764B (zh) 2020-03-25 2020-03-25 个人信息保护的风控模型训练方法、风险识别方法及硬件

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010216729.8A CN111400764B (zh) 2020-03-25 2020-03-25 个人信息保护的风控模型训练方法、风险识别方法及硬件

Publications (2)

Publication Number Publication Date
CN111400764A CN111400764A (zh) 2020-07-10
CN111400764B true CN111400764B (zh) 2021-05-07

Family

ID=71436560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010216729.8A Active CN111400764B (zh) 2020-03-25 2020-03-25 个人信息保护的风控模型训练方法、风险识别方法及硬件

Country Status (1)

Country Link
CN (1) CN111400764B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199706B (zh) * 2020-10-26 2022-11-22 支付宝(杭州)信息技术有限公司 基于多方安全计算的树模型的训练方法和业务预测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520343A (zh) * 2018-03-26 2018-09-11 平安科技(深圳)有限公司 风险模型训练方法、风险识别方法、装置、设备及介质
WO2019028531A1 (en) * 2017-08-11 2019-02-14 Hooga Holdings Pty Ltd MANAGEMENT AND ARCHIVING OF IMAGES AND MESSAGES FOR EVENTS
CN109389494A (zh) * 2018-10-25 2019-02-26 北京芯盾时代科技有限公司 借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置
CN110674173A (zh) * 2019-09-24 2020-01-10 支付宝(杭州)信息技术有限公司 一种风控云上的数据缓存的方法和系统
CN110807643A (zh) * 2019-10-11 2020-02-18 支付宝(杭州)信息技术有限公司 一种用户信任评估方法、装置及设备
CN110874647A (zh) * 2020-01-16 2020-03-10 支付宝(杭州)信息技术有限公司 联盟学习中的私有数据评估、联盟学习方法、装置及系统
CN110880075A (zh) * 2019-11-21 2020-03-13 上海观安信息技术股份有限公司 一种员工离职倾向检测方法
CN110909040A (zh) * 2019-11-08 2020-03-24 支付宝(杭州)信息技术有限公司 一种业务投放辅助方法、装置及电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080201643A1 (en) * 2007-02-01 2008-08-21 7 Billion People, Inc. System for creating customized web content based on user behavioral portraits
US20090231356A1 (en) * 2008-03-17 2009-09-17 Photometria, Inc. Graphical user interface for selection of options from option groups and methods relating to same
CN107451832B (zh) * 2016-05-30 2023-09-05 北京京东尚科信息技术有限公司 推送信息的方法和装置
CN110134474A (zh) * 2019-04-15 2019-08-16 无锡天脉聚源传媒科技有限公司 基于用户画像分析的网页页面编排方法、系统及存储介质
CN110348967A (zh) * 2019-07-12 2019-10-18 携程旅游信息技术(上海)有限公司 用户行为追踪数据的分析方法、系统及存储介质
CN110781930A (zh) * 2019-10-14 2020-02-11 西安交通大学 一种基于网络安全设备日志数据的用户画像分组及行为分析方法和系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019028531A1 (en) * 2017-08-11 2019-02-14 Hooga Holdings Pty Ltd MANAGEMENT AND ARCHIVING OF IMAGES AND MESSAGES FOR EVENTS
CN108520343A (zh) * 2018-03-26 2018-09-11 平安科技(深圳)有限公司 风险模型训练方法、风险识别方法、装置、设备及介质
CN109389494A (zh) * 2018-10-25 2019-02-26 北京芯盾时代科技有限公司 借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置
CN110674173A (zh) * 2019-09-24 2020-01-10 支付宝(杭州)信息技术有限公司 一种风控云上的数据缓存的方法和系统
CN110807643A (zh) * 2019-10-11 2020-02-18 支付宝(杭州)信息技术有限公司 一种用户信任评估方法、装置及设备
CN110909040A (zh) * 2019-11-08 2020-03-24 支付宝(杭州)信息技术有限公司 一种业务投放辅助方法、装置及电子设备
CN110880075A (zh) * 2019-11-21 2020-03-13 上海观安信息技术股份有限公司 一种员工离职倾向检测方法
CN110874647A (zh) * 2020-01-16 2020-03-10 支付宝(杭州)信息技术有限公司 联盟学习中的私有数据评估、联盟学习方法、装置及系统

Also Published As

Publication number Publication date
CN111400764A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN109816039B (zh) 一种跨模态信息检索方法、装置和存储介质
CN111028006B (zh) 一种业务投放辅助方法、业务投放方法及相关装置
CN110096617B (zh) 视频分类方法、装置、电子设备及计算机可读存储介质
CN108491812B (zh) 人脸识别模型的生成方法和装置
CN115223022B (zh) 一种图像处理方法、装置、存储介质及设备
CN109299276B (zh) 一种将文本转化为词嵌入、文本分类方法和装置
CN107766316B (zh) 评价数据的分析方法、装置及系统
CN112801888A (zh) 图像处理方法、装置、计算机设备及存储介质
CN111353554B (zh) 预测缺失的用户业务属性的方法及装置
CN111291619A (zh) 一种在线识别理赔单据中文字的方法、装置及客户端
CN110390344B (zh) 备选框更新方法及装置
CN107038165B (zh) 一种业务参数获取方法及装置
CN111400764B (zh) 个人信息保护的风控模型训练方法、风险识别方法及硬件
CN113221762B (zh) 代价平衡决策方法、保险理赔决策方法、装置和设备
CN114359993A (zh) 模型训练方法、人脸识别方法、装置、设备、介质及产品
CN116578925B (zh) 基于特征画像的行为预测方法、装置及存储介质
CN113010785A (zh) 用户推荐方法及设备
CN110674497B (zh) 一种恶意程序相似度计算的方法和装置
CN110807127A (zh) 视频推荐方法及装置
CN112446777A (zh) 一种信用评估方法、装置、设备及存储介质
CN116310382A (zh) 舆情预测方法、装置、电子设备及存储介质
CN113989569B (zh) 图像处理方法、装置、电子设备和存储介质
CN114897607A (zh) 产品资源的数据处理方法及装置、电子设备、存储介质
CN113283978B (zh) 基于生物基础与行为特征及业务特征的金融风险评估方法
CN112651753B (zh) 基于区块链的智能合约生成方法、系统及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40033185

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant