CN111738628A - 一种风险群组识别方法及装置 - Google Patents

一种风险群组识别方法及装置 Download PDF

Info

Publication number
CN111738628A
CN111738628A CN202010816539.XA CN202010816539A CN111738628A CN 111738628 A CN111738628 A CN 111738628A CN 202010816539 A CN202010816539 A CN 202010816539A CN 111738628 A CN111738628 A CN 111738628A
Authority
CN
China
Prior art keywords
target
data
node
risk
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010816539.XA
Other languages
English (en)
Other versions
CN111738628B (zh
Inventor
曾利彬
曹绍升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010816539.XA priority Critical patent/CN111738628B/zh
Publication of CN111738628A publication Critical patent/CN111738628A/zh
Application granted granted Critical
Publication of CN111738628B publication Critical patent/CN111738628B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • General Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Security & Cryptography (AREA)
  • Educational Administration (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书一个或多个实施例提供了一种风险群组识别方法及装置,其中,该方法包括:获取待风控的目标业务的业务行为数据。基于该业务行为数据和至少一个目标介质类型,构建第一关系网络图谱;该第一关系网络图谱包括:用户节点、以及与目标介质类型对应的介质节点,该目标介质类型是基于利用训练好的图深度学习模型得到的边权重数据所确定的。利用预设群组划分方式,对第一关系网络图谱中的多个用户节点进行群组划分,得到多个目标群组。在多个目标群组中,根据各目标群组的业务行为数据,确定风险群组。

Description

一种风险群组识别方法及装置
技术领域
本文件涉及计算机领域,尤其涉及一种风险群组识别方法及装置。
背景技术
目前,随着互联网时代的到来,互联网在人们日常的学习、工作和生活中得到广泛的应用。人们日常的各种事务都可以通过互联网来处理和呈现。然而,目前互联网诈骗事件越来越多,尤其团伙诈骗将带来大量资损,因此,针对团伙诈骗事件能够准确的识别和快速的防控尤为重要。
当前,由于团伙攻击是一群用户在使用类似的手法进行作案,其用来作案的用户在某些维度上会具有紧密的聚集性,因此,通常使用社群发现方法来对这样一群关系紧密的用户进行识别。其中,在应用社群发现方法时,会将用户与介质(如设备)都作为节点,将有关系的用户与介质连成一条边,再在构成的图上使用社群发现方法对紧密社群进行识别,进而发现风险团伙,并对风险团伙进行防控。然后,在风险团伙识别过程中,主要通过人工选取固定类型的介质作为节点,导致最终的风险团伙的识别准确度受人为因素影响。
由此可知,需要提供一种识别准确度更高的风险群组识别的技术方案。
发明内容
本说明书一个或多个实施例的目的是提供一种风险群组识别方法。该风险群组识别方法包括:
获取待风控的目标业务的业务行为数据。基于所述业务行为数据和至少一个目标介质类型,构建第一关系网络图谱;其中,所述第一关系网络图谱包括:用户节点、以及与所述目标介质类型对应的介质节点,所述目标介质类型是基于利用训练好的图深度学习模型得到的边权重数据所确定的。利用预设群组划分方式,对所述第一关系网络图谱中的多个所述用户节点进行群组划分,得到多个目标群组。在所述多个目标群组中,根据各所述目标群组的所述业务行为数据,确定风险群组。
本说明书一个或多个实施例的目的是提供一种风险群组识别装置。该风险群组识别装置包括:
业务数据获取模块,其获取待风控的目标业务的业务行为数据。网络图谱构建模块,其基于所述业务行为数据和至少一个目标介质类型,构建第一关系网络图谱;其中,所述第一关系网络图谱包括:用户节点、以及与所述目标介质类型对应的介质节点,所述目标介质类型是基于利用训练好的图深度学习模型得到的边权重数据所确定的。用户群组划分模块,其利用预设群组划分方式,对所述第一关系网络图谱中的多个所述用户节点进行群组划分,得到多个目标群组。风险群组确定模块,其在所述多个目标群组中,根据各所述目标群组的所述业务行为数据,确定风险群组。
本说明书一个或多个实施例的目的是提供一种风险群组识别设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器。
所述计算机可执行指令在被执行时使所述处理器获取待风控的目标业务的业务行为数据。基于所述业务行为数据和至少一个目标介质类型,构建第一关系网络图谱;其中,所述第一关系网络图谱包括:用户节点、以及与所述目标介质类型对应的介质节点,所述目标介质类型是基于利用训练好的图深度学习模型得到的边权重数据所确定的。利用预设群组划分方式,对所述第一关系网络图谱中的多个所述用户节点进行群组划分,得到多个目标群组。在所述多个目标群组中,根据各所述目标群组的所述业务行为数据,确定风险群组。
本说明书一个或多个实施例的目的是提供一种存储介质,用于存储计算机可执行指令。所述可执行指令在被处理器执行时获取待风控的目标业务的业务行为数据。基于所述业务行为数据和至少一个目标介质类型,构建第一关系网络图谱;其中,所述第一关系网络图谱包括:用户节点、以及与所述目标介质类型对应的介质节点,所述目标介质类型是基于利用训练好的图深度学习模型得到的边权重数据所确定的。利用预设群组划分方式,对所述第一关系网络图谱中的多个所述用户节点进行群组划分,得到多个目标群组。在所述多个目标群组中,根据各所述目标群组的所述业务行为数据,确定风险群组。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图;
图1为本说明书一个或多个实施例提供的风险群组识别方法的第一种流程示意图;
图2为本说明书一个或多个实施例提供的风险群组识别方法的第二种流程示意图;
图3为本说明书一个或多个实施例提供的风险群组识别方法的第三种流程示意图;
图4为本说明书一个或多个实施例提供的风险群组识别方法的第四种流程示意图;
图5为本说明书一个或多个实施例提供的风险群组识别方法的第五种流程示意图;
图6为本说明书一个或多个实施例提供的风险群组识别方法的第六种流程示意图;
图7为本说明书一个或多个实施例提供的风险群组识别方法的具体实现原理示意图;
图8a为本说明书一个或多个实施例提供的风险群组识别装置的第一种模块组成示意图;
图8b为本说明书一个或多个实施例提供的风险群组识别装置的第二种模块组成示意图;
图9为本说明书一个或多个实施例提供的风险群组识别设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书一个或多个中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一个或多个一部分实施例,而不是全部的实施例。基于本说明书一个或多个中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
需要说明的是,在不冲突的情况下,本说明书中的一个或多个实施例以及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本说明书一个或多个实施例。
本说明书一个或多个实施例提供了一种风险群组识别方法及装置,通过预先利用训练好的图深度学习模型得到多种类型的介质节点的边权重数据,以及基于该边权重数据自动筛选出用于识别风险用户节点的贡献度比较大的目标介质类型;在风险群组识别时,基于该目标介质类型和待识别的业务行为数据构建关系网络图谱,再基于该关系网络图谱进行用户群组划分及风险群组识别,这样能够动态更新用于构建关系网络图谱的介质节点的类型,以动态更新关系网络图谱,基于最新的网络关系图谱进行风险群组识别,实现及时、精准地调整风险群组识别时所参考的介质类型,以便应对风险群体改变作案手段的情况,从而提高风险群组的识别速度和准确度,进而及时对风险群组进行管控,降低因风险群组漏识别所带来的严重资损。
图1为本说明书一个或多个实施例提供的风险群组识别方法的第一种流程示意图,图1中的方法能够由服务器执行,如图1所示,该方法至少包括以下步骤:
S102,获取待风控的目标业务的业务行为数据;其中,该业务行为数据包括:目标用户执行目标业务所产生的用户行为数据,该目标业务可以是一个业务节点或者多个业务节点,例如,目标业务可以包括:资金账户登录、资金账户注册、线上商品购买中至少一项;
具体的,针对非法分子盗卡的情况,非法分子恶意登录其盗用的银行卡并转移银行卡中的资金,此时,可以将资金账户登录作为待风控的目标业务,获取针对用户的资金账户登录操作所产生的用户行为数据,再基于该用户行为数据识别是否存在风险群组进行批量盗卡,从而及时对批量盗卡事件进行风险防控。
S104,基于获取到的业务行为数据和至少一个目标介质类型,构建第一关系网络图谱;其中,该第一关系网络图谱包括:用户节点、以及与目标介质类型对应的介质节点,该第一关系网络图谱为无向无权图,且属于异构图,即由不同类型的节点相互连接构成的关系网络图谱;其中,该第一关系网络图谱的构建过程可以参考基于训练样本数据构建第三关系网络图谱的过程,在此不再赘述;
其中,上述目标介质类型是基于利用训练好的图深度学习模型得到的边权重数据所确定的;具体的,考虑到筛选出的目标介质类型可能与服务区域有关,因此,构建第一关系网络图谱时所参考的至少一个目标介质类型包括:与请求目标业务的用户所属的服务区域对应的目标介质类型。
其中,由于批量作案是多个用户利用相同或相似的作案手段,多个用户在预设维度上的关联性比较高,具有聚集性,因此,通过将用户和介质作为网络节点构建关系网络图谱,并将具有业务关系的用户节点与介质节点进行连线,该连线即为关系网络图谱中的边;例如,用户a使用终端设备1登录某一资金账户,则将用户a作为关系网络图谱中的一个用户节点,以及将终端设备1作为关系网络图谱中的一个介质节点,以及将用户a与终端设备1之间的节点连线作为关系网络图谱中的一条边;
其中,考虑到目标介质类型的选取全面性和准确度,直接影响风险群组识别的全面覆盖性和准确度;上述介质节点可以包括:强介质节点、和/或弱介质节点;与同一强介质节点关联的多个用户节点为同一用户的概率大于预设阈值;
具体的,强介质对应的介质节点称为强介质节点;例如,强介质包括设备标识(fuzzy_device_id),对应的,强介质节点可以包括:用于表征在执行目标业务时用户所使用的终端设备标识的介质节点;其中,若在执行目标业务时多个用户所使用的终端设备标识相同,则该多个用户为同一用户的概率大于预设阈值;
又如,强介质包括物流地址(ship_to_address),例如,收货地址,对应的,强介质节点可以包括:用于表征在执行目标业务时用户使用的收货地址的介质节点;其中,若在执行目标业务时多个用户所使用的收货地址相同,则该多个用户为同一用户的概率大于预设阈值;再如,强介质还可以包括邮箱地址(e-mail_address)、支付银行卡(global_card_index)、物流手机号(ship_to_phonenumber)中至少一项;
具体的,弱介质对应的介质节点称为弱介质节点;例如,弱介质包括商品类目,对应的,弱介质节点可以包括:用于表征在执行目标业务时用户所购买的商品的类目的介质节点;又如,弱介质包括IP国家,对应的,弱介质节点可以包括:用于表征在执行目标业务时用户所使用IP所属国家的介质节点;
其中,考虑到批量作案可能通过更换设备、更换邮箱,使得基于强介质无法将批量作案用户关联起来,从而达到避免基于强介质进行风险群组识别的目的,基于此,在构建关系网络图谱时,不仅考虑强介质节点,例如,设备、邮箱等,还考虑弱介质节点,例如,商品名称、商品类目、IP国家等,使得构建得到的第一关系网络图谱所包含的节点间关联信息更加丰富、全面,提高了基于该第一关系网络图谱进行风险群组识别的准确度。
S106,利用预设群组划分方式,对第一关系网络图谱中的多个用户节点进行群组划分,得到多个目标群组;
其中,上述预设群组划分方式可以是社群发现方法,例如,基于模块度的社区发现算法Louvain、或最大连通图,还可以是预设聚类方法;具体的,利用预设群组划分方式,将在预设维度上关联度大于预设阈值的多个用户节点划分为一个用户群组。
S108,在多个目标群组中,根据各目标群组的业务行为数据,确定风险群组;具体的,对各目标群组的业务行为数据进行分析,确定多个目标群组中是否存在风险群组。
本说明书一个或多个实施例中,通过预先利用训练好的图深度学习模型得到多种类型的介质节点的边权重数据,以及基于该边权重数据自动筛选出用于识别风险用户节点的贡献度比较大的目标介质类型;在风险群组识别时,基于该目标介质类型和待识别的业务行为数据构建关系网络图谱,再基于该关系网络图谱进行用户群组划分及风险群组识别,这样能够动态更新用于构建关系网络图谱的介质节点的类型,以动态更新关系网络图谱,基于最新的网络关系图谱进行风险群组识别,实现及时、精准地调整风险群组识别时所参考的介质类型,以便应对风险群体改变作案手段的情况,从而提高风险群组的识别速度和准确度,进而及时对风险群组进行管控,降低因风险群组漏识别所带来的严重资损。
其中,针对构建用于风险群组识别的关系网络图谱时所参考的目标介质类型的确定过程,如图2所示,在S102,获取待风控的目标业务的业务行为数据之前,还包括:
S110,获取预设时间段内的预测样本数据;其中,该预测样本数据包括:执行目标业务所产生的风险用户节点的业务行为数据;
S112,基于获取到的预测样本数据,构建第二关系网络图谱;其中,该第二关系网络图谱包括:用户节点及其用户特征数据、介质节点及其介质特征数据、以及节点连线;该第二关系网络图谱为无向无权图,且属于异构图,即由不同类型的节点相互连接构成的关系网络图谱;其中,该第二关系网络图谱的构建过程可以参考基于训练样本数据构建第三关系网络图谱的过程,在此不再赘述;
其中,第二关系网络图谱是基于预测样本数据中全量的介质类型进行构图得到的,而第一关系网络图谱是基于预先筛选出的目标介质类型进行构图得到的,因此,第二关系网络图谱中介质节点的类型的第二数量大于第一关系网络图谱中介质节点的类型的第一数量,在具体实施时,为了提高目标介质类型的筛选全面性、准确度,防止出现漏选贡献度比较大的目标介质类型的情况,可以基于预测样本数据中涉及的所有介质类型,构建第二关系网络图谱,即该第二关系网络图谱中包含所有介质类型对应的介质节点;然后,在该所有介质类型中选取目标介质类型。
S114,将构建得到的第二关系网络图谱输入至训练好的图深度学习模型,得到该第二关系网络图谱中各节点连线的边权重数据;
S116,基于与风险用户节点相关的节点连线的边权重数据,确定至少一个目标介质类型。
其中,针对关系网络图谱中各节点连线的边权重数据的确定过程,如图3所示,上述S114,将构建得到的第二关系网络图谱输入至训练好的图深度学习模型,得到该第二关系网络图谱中各节点连线的边权重数据,具体包括:
S1141,将构建得到的第二关系网络图谱输入至训练好的图深度学习模型,得到在风险节点预测时针对各节点连线所赋予的信息聚合加权系数;
S1142,针对第二关系网络图谱中每个节点连线,将该节点连线对应的信息聚合加权系数,确定为该节点连线的边权重数据。
本说明书一个或多个实施例中,由于在使用模型预测用户节点是否为风险用户节点时,为每个节点连线所赋予的信息聚合加权系数能够表征介质节点对于识别用户节点是否为风险用户节点的重要程度,因此,可以将各节点连线对应的信息聚合加权系数作为用于筛选目标介质类型的边权重数据,即基于使用模型进行风险节点预测时的中间数据,确定第二关系网络图谱中各节点连线的边权重数据。
其中,在具体实施时,上述图深度学习模型可以包括:基于attention机制的自适应广度函数;
对应的,上述S1141,将构建得到的第二关系网络图谱输入至训练好的图深度学习模型,得到在风险节点预测时针对各节点连线所赋予的信息聚合加权系数,具体包括:
将构建得到的第二关系网络图谱输入至训练好的图深度学习模型,得到在风险节点预测时针对各节点连线所赋予的attention取值。
具体的,将第二关系网络图谱输入至训练好的图深度学习模型后,在利用该图深度学习模型,并基于该第二关系网络图谱针对每个用户节点进行风险节点预测时,将针对各节点连线所赋予的attention取值确定为各节点连线的信息聚合加权系数,从而得到第二关系网络图谱中各节点连线的边权重数据。
具体的,由于attention取值能够反映当前节点的邻居节点在信息聚合过程中对于当前节点的重要程度,且在聚合过程中需要乘以attention系数,再将邻居节点聚合到当前节点,其中,attention取值是模型自动为第二关系网络图谱中每个边所选取的权重取值,因此,可以将attention取值抽取出来作为用于筛选目标介质类型的边权重数据,即将attention取值作为选取介质类型的依据;
例如,当前用户节点连接两个介质节点a、b,在使用模型预测用户节点是否为风险用户节点时,针对将邻居节点的信息聚合到当前节点的过程中,若针对介质节点a与当前用户节点的连接边所赋予的attention取值为0.1,针对介质节点b与当前用户节点的连接边所赋予的attention取值为1,则介质节点a的特征聚合到当前节点时乘以0.1,介质节点b的特征聚合到当前节点时乘以1,由此可知,介质节点b的重要程度高于介质节点A,因此,针对第二关系网络图谱中每个边所选取的attention取值能够表征介质类型对识别用户节点是否为风险用户的贡献程度。
其中,在确定出第二关系网络图谱中各节点连线的边权重数据之后,针对基于该边权重数据确定目标介质类型的过程,如图4所述,上述S116,基于与风险用户节点相关的节点连线的边权重数据,确定至少一个目标介质类型,具体包括:
S1161,根据与风险用户节点连接的目标介质节点的类型,将各目标介质节点对应的边权重数据进行分类,得到各可选介质类型分别对应的边权重数据;
具体的,在确定出第二关系网络图谱中各节点连线的边权重数据之后,根据第二关系网络图谱中各用户节点的标签数据,抽取标记为风险用户节点与目标介质节点(如,相邻介质节点)相连的边的边权重数据,再按照介质类型将抽取出的边权重数据进行分类,得到每个可选介质类型分别对应的至少一个边权重数据;
S1162,针对每种可选介质类型,根据该可选介质类型对应的边权重数据,确定该可选介质类型的综合边权重数据;
其中,该综合边权重数据包括:平均边权重数据、最大边权重数据、或者最小边权重数据;
S1163,在多个可选介质类型中,根据各可选介质类型的综合边权重数据,选取至少一个目标介质类型。
其中,上述S1163,在多个可选介质类型中,根据各可选介质类型的综合边权重数据,选取至少一个目标介质类型,具体包括:
将各可选介质类型的综合边权重数据,确定为该可选介质类型用于预测风险用户节点的贡献程度;
按照贡献程度由大到小的顺序,将排序靠前的贡献程度对应的可选介质类型确定为至少一个目标介质类型;具体的,将贡献程度排序靠前的预设数量的可选介质类型确定为至少一个目标介质类型,或者,将贡献程度大于预设阈值的可选介质类型确定为至少一个目标介质类型。
其中,可以将单个介质类型作为可选介质类型,也可以将介质类型组合作为可选介质类型,对应的,每个目标介质类型包括:单一介质类型、或者多种介质类型的组合。例如,将商品类型作为一种目标介质类型,以及将商品类型和IP国家的组合作为一种目标介质类型;
在具体实施时,上述可选介质类型包括:强介质、和/或弱介质,该弱介质可以包括client_ip(IP)、routermac(MAC)、card_bin(卡BIN)、ip_city(IP城市)、ship_to_city(物流城市)、itemcategoryroot_amttier_cardbin(类目+金额+卡BIN)、cardbin_amttier_ip3(卡BIN+金额+IP3)、cardbin_amttier_ipcity(卡BIN+金额+IP城市)、cardbin_amttier_shipcity(卡BIN+金额+物流城市)、cardbin_amttier_ipcountry_shiptocountry(卡BIN+金额+IP国家+物流国家)、cardbin_amttier_devlang_screenresolution(卡BIN+金额+设备语言+屏幕尺寸)、cardbin_amttier_itemproductname(卡BIN+金额+商品)、itemcategoryroot_amttier_ip3(类目+金额+IP3)、itemcategoryroot_amttier_ipcity(类目+金额+IP城市)、itemcategoryroot_amttier_shipcity(类目+金额+物流城市)、itemcategoryroot_amttier_ipcountry_bankcountry_shiptocountry(类目+金额+物流城市)、itemcategoryroot_amttier_devlang_screenresolution(类目+金额+设备语言+屏幕尺寸)、itemproductname_ip3(商品+IP3)、itemproductname_ipcity(商品+IP城市)、itemproductname_shipcity(商品+物流城市)、itemproductname_ipcountry_bankcountry_shiptocountry(商品+IP国家+支付卡国家+物流国家)、itemproductname_devlang_screenresolution(商品+设备语言+屏幕尺寸)、seller_cardbin(卖家+卡BIN)、seller_ip3(卖家+IP3)、seller_ipcity(卖家+IP城市)、seller_shipcity(卖家+物流城市)、seller_bankcountry_ipcountry_shiptocountry(卖家+支付卡国家+IP国家+物流国家)、seller_amttier_devlang_screenresolution(卖家+金额+设备语言+屏幕尺寸)中至少一项。
进一步的,考虑到筛选出的目标介质类型可能与服务区域有关,即针对不同服务区域所确定出的目标介质类型不同,基于此,上述预测样本数据包括:针对不同服务区域执行目标业务所产生的风险用户节点的业务行为数据;对应的,上述第二关系网络图谱包括:各服务区域分别对应的第二关系网络图谱;上述至少一个目标介质类型包括:各服务区域分别对应的目标介质类型。
其中,不同服务区域可以是以不同的国家为界限的不同区域,还可以是以不同的指定的地理区域范围为界限的不同区域,例如,服务区域1可以是某一个国家对应的区域,服务区域2可以是另一个国家对应的区域等。
在一个具体实例中,若从最近一个月的历史业务行为数据中,抽样得到服务区域1对应的预测样本数据1、服务区域2对应的预测样本数据2、以及服务区域3对应的预测样本数据3,再利用上述S110至S116的步骤,基于预测样本数据1,确定服务区域1对应的至少一个目标介质类型;基于预测样本数据2,确定服务区域2对应的至少一个目标介质类型;以及,基于预测样本数据3,确定服务区域3对应的至少一个目标介质类型。
具体的,以将贡献程度大于预设阈值的可选介质类型确定为各服务区域对应的至少一个目标介质类型,例如,若预设阈值为0.8,对应的,针对服务区域1,确定出的目标介质类型可以包括:卡BIN+金额+IP3(cardbin_amttier_ip3)、IP(client_ip)、设备标识(fuzzy_device_id)、支付银行卡(global_card_index)、物流手机号(ship_to_phonenumber);其中,目标介质类型分别对应的平均边权重值为:1、1、1、0.858、0.824;
针对服务区域2,确定出的目标介质类型可以包括:物流手机号(ship_to_phonenumber)、设备标识(fuzzy_device_id)、支付银行卡(global_card_index)、IP城市(ip_city)、类目+金额+设备语言+屏幕尺寸(itemcategoryroot_amttier_devlang_screenresolution)、商品+设备语言+屏幕尺寸(itemproductname_devlang_screenresolution)、商品+IP国家+支付卡国家+物流国家(itemproductname_ipcountry_bankcountry_shiptocountry)、物流城市(ship_to_city)、卡BIN(card_bin),其中,目标介质类型对应的平均边权重值均为:1;
针对服务区域3,确定出的目标介质类型可以包括:类目+金额+设备语言+屏幕尺寸(itemcategoryroot_amttier_devlang_screenresolution)、物流地址(ship_to_address)、商品+IP国家+支付卡国家+物流国家(itemproductname_ipcountry_bankcountry_shiptocountry)、商品+设备语言+屏幕尺寸(itemproductname_devlang_screenresolution)、支付银行卡(global_card_index)、类目+金额+IP3(itemcategoryroot_amttier_ip3)、MAC(routermac)、类目+金额+物流城市(itemcategoryroot_amttier_ipcountry_bankcountry_shiptocountry)、卡BIN(card_bin)、物流城市(ship_to_city)、IP城市(ip_city)、物流手机号(ship_to_phonenumber),其中,目标介质类型分别对应的平均边权重值为:1、1、1、1、1、1、0.974、0.893、0.854、0.849、0.830、0.803。
其中,针对基于利用训练好的图深度学习模型得到的边权重数据确定目标介质类型的过程,以预先划分的服务区域为基础单元,针对每个服务区域,基于利用训练好的图深度学习模型得到的该服务区域对应的边权重数据,确定该服务区域对应的目标介质类型。
具体的,上述S112,基于获取到的预测样本数据,构建第二关系网络图谱,包括:
针对每个服务区域,基于该服务区域对应的预测样本数据,构建该服务区域的第二关系网络图谱;
对应的,上述S114,将构建得到的第二关系网络图谱输入至训练好的图深度学习模型,得到该第二关系网络图谱中各节点连线的边权重数据,包括:
将各服务区域的第二关系网络图谱分别输入至训练好的图深度学习模型,得到各服务区域对应的第二关系网络图谱中各节点连线的边权重数据;
对应的,上述S116,基于与风险用户节点相关的节点连线的边权重数据,确定至少一个目标介质类型,包括:
针对每个服务区域,基于与该服务区域的预测样本数据中的风险用户节点相关的节点连线的边权重数据,确定该服务区域对应的至少一个目标介质类型。
对应的,针对基于筛选出的目标介质类型进行风险群组识别的过程,以预先划分的服务区域为风控单元,针对目标服务区域,基于该目标服务区域的业务行为数据和对应的至少一个目标介质类型,构建第一关系网络图谱;再基于该第一关系网络图谱进行风险群组识别,确定是否存在风险群组。
进一步的,考虑到随着非法分子的作案手段的变更,构建关系网络图谱时所参考的目标介质类型的风险群组识别效能也将随之下降,基于此,按照预设规则动态基于最新的具有风险用户标签的业务行为数据自动筛选目标介质类型,具体的,上述S110,获取预设时间段内的预测样本数据,具体包括:
判断是否满足用于构建关系网络图谱的介质动态更新条件,其中,该介质动态更新条件包括:达到预设时间间隔、达到预设数据累积量、或者业务行为数据中涉及的介质类型存在变更中至少一项;例如,业务行为数据中涉及的介质类型有所增加,此时需要确定新增的介质类型是否为目标介质类型,又如,业务行为数据中涉及的介质类型有所减少,此时需要确定取消的介质类型是否为目标介质类型;
若判断结果为是,则获取预设时间段内的预测样本数据。
具体的,按照预设的介质动态更新条件,自动获取预设时间段内的预测样本数据,再利用上述图2中S112至S116的步骤基于该预设样本数据确定至少一个目标介质类型,这样能够实现动态更新可参考的目标介质类型,从而达到动态更新用于风险群组识别的关系网络图谱。
其中,针对图深度学习模型的训练过程,如图5所示,在上述S110,获取预设时间段内的预测样本数据之前,还包括:
S118,获取与目标业务相关的训练样本数据;其中,该训练样本数据包括:正常用户的业务行为数据和已报回的风险用户的业务行为数据;
具体的,获取历史指定时间段内的业务行为数据用于模型训练,该业务行为数据包括:正常用户的业务行为数据和已报回的风险用户的业务行为数据。
S120,基于获取到的训练样本数据,构建第三关系网络图谱;其中,该第三关系网络图谱包括:用户节点及其特征数据、介质节点及其特征数据、节点连线、以及用户节点的标签数据;该第三关系网络图谱为无向无权图,且属于异构图,即由不同类型的节点相互连接构成的关系网络图谱;
具体的,在构建关系网络图谱中,基于训练样本数据,将具有业务关系的用户节点与介质节点之间进行连线,将该连线作为关系网络图谱中的一条边;其中,该业务关系可以包括账户登录、账户注册、或者商品购买;
以及,基于训练样本数据对用户节点标记标签属性,例如,将正常用户对应的用户节点作为负样本,将风险用户对应的用户节点作为正样本;
以及,基于训练样本数据确定用户节点的特征数据和介质节点的特征数据,该特征数据包括:统计类特征数据和图结构特征数据;其中,针对介质节点,将用于表征介质类型的one-hot特征确定为介质节点的特征数据,例如,对于介质类型为设备的介质节点,是否为设备节点的特征取值为1,是否为非设备节点的特征取值为0;
其中,针对统计类特征数据,将某一用户节点预设时长内交易订单数确定为用户节点的统计类特征数据;将预设时间内与某一介质节点发生注册关系的用户数量确定为介质节点的统计类特征数据;上述图结构特征数据可以包括图节点的度数,例如,一个节点与多少个节点相连,即单个节点在图上的结构性特征。
S122,基于构建得到的第三关系网络图谱,对初始图深度学习模型进行训练,得到训练好的图深度学习模型。
具体的,上述S122,基于构建得到的第三关系网络图谱,对初始图深度学习模型进行训练,得到训练好的图深度学习模型,具体包括:
步骤一,基于构建得到的第三关系网络图谱,获取各风险用户的风险关系网络子图和各正常用户的正常关系网络子图;
其中,上述风险用户的风险关系网络子图包括:针对每个风险用户节点,从第三关系网络图谱中提取与该风险用户节点直接相连和/或间接相连的网络节点及节点连线;上述正常用户的风险关系网络子图为针对每个正常用户节点,从第三关系网络图谱中提取与该正常用户节点直接相连和/或间接相连的网络节点及节点连线。
步骤二,将各风险关系网络子图和各正常关系网络子图输入至初始图深度学习模型进行模型训练,得到模型参数取值;
其中,上述初始图深度学习模型包括:自适应广度函数和自适应深度函数,该自适应广度函数可以是基于Attention机制的自适应广度函数,该自适应深度函数可以是基于LSTM-style网络的自适应深度函数;对应的,得到的模型参数取值包括:自适应广度函数的参数取值和自适应深度函数的参数取值。
步骤三,根据训练得到的模型参数取值,更新初始图深度学习模型中的自适应广度函数的参数取值和自适应深度函数的参数取值;
步骤四,将更新后的初始图深度学习模型确定为训练好的图深度学习模型。
具体的,针对图深度学习模型的训练过程至少包括如下过程:
Input:Depth T,node features
Figure 693141DEST_PATH_IMAGE001
,adjacency matrix A
Output:
Figure 69896DEST_PATH_IMAGE002
and
Figure 424785DEST_PATH_IMAGE003
While not converged do
For t=1 to T do
Figure 658320DEST_PATH_IMAGE004
(breadth function)
Figure 957714DEST_PATH_IMAGE005
(depth function)
End
Backpropagation based on loss
Figure 262794DEST_PATH_IMAGE006
End
Return
Figure 393561DEST_PATH_IMAGE002
and
Figure 735680DEST_PATH_IMAGE003
其中,Depth T表示预设设定的子图采样时所使用的深度值,即子图采样时所选取的最远节点距离当前用户节点所包含的节点数,其中,若只使用与当前用户节点相连的介质节点进行预测,则T=1,如果需要引入更高阶的图连接信息,则T的取值增大,即T表示当前预测用户节点与预先定义的最远端节点的距离,最远端节点为当前预测用户经过T跳到达最远端节点,例如,一个用户节点1连接介质节点a、b,用户节点1到达介质节点a经过1跳,T=1,介质节点a与用户节点2连接,用户节点1到达用户节点2经过2跳,T=2;
其中,node features
Figure 584688DEST_PATH_IMAGE001
表示每个节点的初始特征数据,其中,每个节点对应一个特征输入,多个节点的特征输入按行排列,得到矩阵X;adjacency matrix A表示节点连线信息,即用于表征哪个节点与哪个节点相连;
Figure 178611DEST_PATH_IMAGE002
表示自适应广度函数的参数,
Figure 367147DEST_PATH_IMAGE003
表示自适应深度函数的参数;
具体的,模型训练的循环迭代过程具体为:基于输入的风险用户的风险关系网络子图和各正常用户的正常关系网络子图进行信息聚合,即先基于
Figure 270381DEST_PATH_IMAGE007
和节点连线信息、自适应广度函数,得到H(tmp);具体的,从当前用户节点出发,最远节点经过T跳达到当前用户,H(tmp)表示从第T跳到第T-1跳如何聚合,基于T跳上节点的特征数据和连接边信息,得到T-1跳上节点的聚合信息H(tmp);
再将得到的H(tmp)输入一个自适应深度函数,得到第t跳上节点的聚合信息
Figure 606685DEST_PATH_IMAGE008
;经过多次迭代,得到当前节点的聚合信息
Figure 673473DEST_PATH_IMAGE009
,即从最远端节点开始,将信息聚合到当前用户节点,计算得到损失函数
Figure 778832DEST_PATH_IMAGE006
;再利用损失函数进行反向传播到深度学习网络,进行参数取值更新,其中,模型最终训练结果为使得模型预测结果与真实标签的loss取值小于预设阈值。
进一步的,为了构图的大小、结构比较稳定,训练时与预测时,使得预测结果更准确,基于此,上述预测样本数据的积累时间跨度与上述训练样本数据的积累时间跨度的差值小于预设阈值。
其中,在基于实时的业务行为数据构建得到第一关系网络图谱,并基于该第一关系网络图谱划分得到多个目标群组后,针对在多个目标群组中识别出风险群组的过程,如图6所示,上述S108,在多个目标群组中,根据各目标群组的业务行为数据,确定风险群组,具体包括:
S1081,根据各目标群组的业务行为数据,确定目标群组的风险特征数据;
S1082,在多个目标群组中,将风险特征数据满足预设风控条件的目标群组确定为风险群组;
具体的,在划分得到多个目标群组后,以用户群组为识别单元,基于各目标群组的业务行为数据确定相应的风险特征数据;例如,该风险特征数据可以包括:交易笔数、交易金额中至少一项,具体的,针对每个目标群组,基于该目标群组的业务行为数据,确定该目标群组所包含的用户在最近预设时间段内的交易笔数、交易金额中至少一项;然后,针对每个目标群组,判断该目标群组对应的风险特征数据是否满足预设风控条件,其中,预设风控条件可以包括:交易笔数大于第一预设阈值、和/或交易金额大于第二预设阈值,若判断结果为是,则将该目标群组确定为风险群组,以对该风险群组中的多个用户的业务行为进行强管控;若判断结果为否,则对该目标群组中的多个用户的业务行为进行弱管控或不管控。
其中,与现有技术中的人工进行介质筛选相比,采用上述方法进行风险群组识别,并对识别出的风险群组进行管控,降低了稽核订单占比,即降低了风险订单误判率,以及提高了覆盖风险案件金额占比,即提高了风险案件管控覆盖率。例如,以一个实际示例为例,采用人工介质筛选的方式,对应的实际稽核订单占比为8%,覆盖风险案件金额占比为31%,而采用上述自动介质筛选的方式,对应的实际稽核订单占比为7%,覆盖风险案件金额占比为34%。
在一个具体实施例中,如图7所示,上述风险群组识别方法的具体实现过程包括:
(1)获取与目标业务相关的训练样本数据;其中,该训练样本数据包括:正常用户的业务行为数据和已报回的风险用户的业务行为数据;
(2)基于获取到的训练样本数据,构建关系网络图谱1;其中,该关系网络图谱1包括:正常用户节点、风险用户节点、与用户节点连接的介质节点;
(3)基于关系网络图谱1,对初始图深度学习模型进行训练,得到训练好的图深度学习模型;
(4)获取预设时间段内的预测样本数据;其中,该预测样本数据包括:执行目标业务所产生的风险用户节点的业务行为数据;
(5)基于获取到的预测样本数据,构建关系网络图谱2;其中,该关系网络图谱2包括:风险用户节点、以及与该风险用户节点连接的介质节点;
(6)将关系网络图谱2输入至训练好的图深度学习模型,得到在风险节点预测时针对各节点连线所赋予的attention取值;
(7)将各节点连线所赋予的attention取值,确定为上述关系网络图谱2中对应的节点连线的边权重数据;
(8)根据与风险用户节点连接的目标介质节点的类型,将各目标介质节点对应的边权重数据进行分类,得到各可选介质类型分别对应的边权重数据;
(9)在多个可选介质类型中,按照由大到小的顺序将平均边权重排序靠前的预设数量的可选介质类型,确定为目标介质类型;或者,将平均边权重大于预设阈值的可选介质类型,确定为目标介质类型;
(10)获取待风控的目标业务的业务行为数据;其中,该业务行为数据包括:目标用户执行目标业务所产生的用户行为数据;
(11)基于获取到的业务行为数据和至少一个目标介质类型,构建关系网络图谱3;其中,该关系网络图谱3包括:用户节点、以及与目标介质类型对应的介质节点;
(12)利用预设群组划分方式,对上述关系网络图谱3中的多个用户节点进行群组划分,得到多个目标群组;
(13)在多个目标群组中,根据各目标群组的业务行为数据,确定风险群组。
本说明书一个或多个实施例中的风险群组识别方法,通过预先利用训练好的图深度学习模型得到多种类型的介质节点的边权重数据,以及基于该边权重数据自动筛选出用于识别风险用户节点的贡献度比较大的目标介质类型;在风险群组识别时,基于该目标介质类型和待识别的业务行为数据构建关系网络图谱,再基于该关系网络图谱进行用户群组划分及风险群组识别,这样能够动态更新用于构建关系网络图谱的介质节点的类型,以动态更新关系网络图谱,基于最新的网络关系图谱进行风险群组识别,实现及时、精准地调整风险群组识别时所参考的介质类型,以便应对风险群体改变作案手段的情况,从而提高风险群组的识别速度和准确度,进而及时对风险群组进行管控,降低因风险群组漏识别所带来的严重资损。
对应上述图1至图7描述的风险群组识别方法,基于相同的技术构思,本说明书一个或多个实施例还提供了一种风险群组识别装置,图8a为本说明书一个或多个实施例提供的风险群组识别装置的第一种模块组成示意图,该装置用于执行图1至图7描述的风险群组识别方法,如图8a所示,该装置包括:
业务数据获取模块802,其获取待风控的目标业务的业务行为数据;
网络图谱构建模块804,其基于所述业务行为数据和至少一个目标介质类型,构建第一关系网络图谱;其中,所述第一关系网络图谱包括:用户节点、以及与所述目标介质类型对应的介质节点,所述目标介质类型是基于利用训练好的图深度学习模型得到的边权重数据所确定的;
用户群组划分模块806,其利用预设群组划分方式,对所述第一关系网络图谱中的多个所述用户节点进行群组划分,得到多个目标群组;
风险群组确定模块808,其在所述多个目标群组中,根据各所述目标群组的所述业务行为数据,确定风险群组。
本说明书一个或多个实施例中,通过预先利用训练好的图深度学习模型得到多种类型的介质节点的边权重数据,以及基于该边权重数据自动筛选出用于识别风险用户节点的贡献度比较大的目标介质类型;在风险群组识别时,基于该目标介质类型和待识别的业务行为数据构建关系网络图谱,再基于该关系网络图谱进行用户群组划分及风险群组识别,这样能够动态更新用于构建关系网络图谱的介质节点的类型,以动态更新关系网络图谱,基于最新的网络关系图谱进行风险群组识别,实现及时、精准地调整风险群组识别时所参考的介质类型,以便应对风险群体改变作案手段的情况,从而提高风险群组的识别速度和准确度,进而及时对风险群组进行管控,降低因风险群组漏识别所带来的严重资损。
可选地,如图8b所示,所述装置还包括:介质类型确定模块810,其:
获取预设时间段内的预测样本数据;其中,所述预测样本数据包括:执行目标业务所产生的风险用户节点的业务行为数据;
基于所述预测样本数据,构建第二关系网络图谱;其中,所述第二关系网络图谱包括:用户节点及其用户特征数据、介质节点及其介质特征数据、以及节点连线;
将所述第二关系网络图谱输入至训练好的图深度学习模型,得到各所述节点连线的边权重数据;
基于与所述风险用户节点相关的所述节点连线的所述边权重数据,确定至少一个目标介质类型。
可选地,所述介质类型确定模块810,其:
将所述第二关系网络图谱输入至训练好的图深度学习模型,得到在风险节点预测时针对各所述节点连线所赋予的信息聚合加权系数;
针对每个所述节点连线,将该节点连线对应的所述信息聚合加权系数,确定为该节点连线的边权重数据。
可选地,所述图深度学习模型包括:基于attention机制的自适应广度函数;
对应的,所述介质类型确定模块810,其:
将所述第二关系网络图谱输入至训练好的图深度学习模型,得到在风险节点预测时针对各所述节点连线所赋予的attention取值。
可选地,所述介质类型确定模块810,其:
根据与所述风险用户节点连接的目标介质节点的类型,将各所述目标介质节点对应的所述边权重数据进行分类,得到各可选介质类型分别对应的边权重数据;
针对每种所述可选介质类型,根据该可选介质类型对应的所述边权重数据,确定该可选介质类型的综合边权重数据;其中,所述综合边权重数据包括:平均边权重数据、最大边权重数据、或者最小边权重数据;
在多个所述可选介质类型中,根据所述综合边权重数据,选取至少一个目标介质类型。
可选地,所述介质类型确定模块810,其:
将各所述可选介质类型的所述综合边权重数据,确定为所述可选介质类型用于预测风险用户节点的贡献程度;
按照贡献程度由大到小的顺序,将排序靠前的贡献程度对应的可选介质类型确定为至少一个目标介质类型。
可选地,所述介质类型确定模块810,其:
判断是否满足用于构建关系网络图谱的介质动态更新条件,其中,所述介质动态更新条件包括:达到预设时间间隔、达到预设数据累积量、或者业务行为数据中涉及的介质类型存在变更中至少一项;
若判断结果为是,则获取预设时间段内的预测样本数据。
可选地,所述装置还包括:模型训练模块812,其:
获取与目标业务相关的训练样本数据;其中,所述训练样本数据包括:正常用户的业务行为数据和已报回的风险用户的业务行为数据;
基于所述训练样本数据,构建第三关系网络图谱;其中,所述第三关系网络图谱包括:用户节点及其特征数据、介质节点及其特征数据、节点连线、以及用户节点的标签数据;
基于所述第三关系网络图谱,对初始图深度学习模型进行训练,得到训练好的图深度学习模型。
可选地,所述模型训练模块812,其:
基于所述第三关系网络图谱,获取各所述风险用户的风险关系网络子图和各所述正常用户的正常关系网络子图;
将各所述风险关系网络子图和各所述正常关系网络子图输入至初始图深度学习模型进行模型训练,得到模型参数取值;
根据所述模型参数取值,更新所述初始图深度学习模型中的自适应广度函数的参数取值和自适应深度函数的参数取值;
将更新后的初始图深度学习模型确定为训练好的图深度学习模型。
可选地,所述预测样本数据的积累时间跨度与所述训练样本数据的积累时间跨度的差值小于预设阈值。
可选地,所述风险群组确定模块808,其:
根据各所述目标群组的所述业务行为数据,确定所述目标群组的风险特征数据;
在所述多个目标群组中,将所述风险特征数据满足预设风控条件的目标群组确定为风险群组。
可选地,所述介质节点包括:强介质节点和/或弱介质节点;
其中,与同一所述强介质节点关联的多个用户节点为同一用户的概率大于预设阈值。
可选地,每个所述目标介质类型包括:单一介质类型、或者多种介质类型的组合。
本说明书一个或多个实施例中的风险群组识别装置,通过预先利用训练好的图深度学习模型得到多种类型的介质节点的边权重数据,以及基于该边权重数据自动筛选出用于识别风险用户节点的贡献度比较大的目标介质类型;在风险群组识别时,基于该目标介质类型和待识别的业务行为数据构建关系网络图谱,再基于该关系网络图谱进行用户群组划分及风险群组识别,这样能够动态更新用于构建关系网络图谱的介质节点的类型,以动态更新关系网络图谱,基于最新的网络关系图谱进行风险群组识别,实现及时、精准地调整风险群组识别时所参考的介质类型,以便应对风险群体改变作案手段的情况,从而提高风险群组的识别速度和准确度,进而及时对风险群组进行管控,降低因风险群组漏识别所带来的严重资损。
需要说明的是,本说明书中关于风险群组识别装置的实施例与本说明书中关于风险群组识别方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的风险群组识别方法的实施,重复之处不再赘述。
进一步地,对应上述图1至图7所示的方法,基于相同的技术构思,本说明书一个或多个实施例还提供了一种风险群组识别设备,该设备用于执行上述的风险群组识别方法,如图9所示。
风险群组识别设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器901和存储器902,存储器902中可以存储有一个或一个以上存储应用程序或数据。其中,存储器902可以是短暂存储或持久存储。存储在存储器902的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对风险群组识别设备中的一系列计算机可执行指令。更进一步地,处理器901可以设置为与存储器902通信,在风险群组识别设备上执行存储器902中的一系列计算机可执行指令。风险群组识别设备还可以包括一个或一个以上电源903,一个或一个以上有线或无线网络接口904,一个或一个以上输入输出接口905,一个或一个以上键盘906等。
在一个具体的实施例中,风险群组识别设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对风险群组识别设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取待风控的目标业务的业务行为数据;
基于所述业务行为数据和至少一个目标介质类型,构建第一关系网络图谱;其中,所述第一关系网络图谱包括:用户节点、以及与所述目标介质类型对应的介质节点,所述目标介质类型是基于利用训练好的图深度学习模型得到的边权重数据所确定的;
利用预设群组划分方式,对所述第一关系网络图谱中的多个所述用户节点进行群组划分,得到多个目标群组;
在所述多个目标群组中,根据各所述目标群组的所述业务行为数据,确定风险群组。
本说明书一个或多个实施例中,通过预先利用训练好的图深度学习模型得到多种类型的介质节点的边权重数据,以及基于该边权重数据自动筛选出用于识别风险用户节点的贡献度比较大的目标介质类型;在风险群组识别时,基于该目标介质类型和待识别的业务行为数据构建关系网络图谱,再基于该关系网络图谱进行用户群组划分及风险群组识别,这样能够动态更新用于构建关系网络图谱的介质节点的类型,以动态更新关系网络图谱,基于最新的网络关系图谱进行风险群组识别,实现及时、精准地调整风险群组识别时所参考的介质类型,以便应对风险群体改变作案手段的情况,从而提高风险群组的识别速度和准确度,进而及时对风险群组进行管控,降低因风险群组漏识别所带来的严重资损。
可选地,计算机可执行指令在被执行时,在获取待风控的目标业务的业务行为数据之前,还包括:
获取预设时间段内的预测样本数据;其中,所述预测样本数据包括:执行目标业务所产生的风险用户节点的业务行为数据;
基于所述预测样本数据,构建第二关系网络图谱;其中,所述第二关系网络图谱包括:用户节点及其用户特征数据、介质节点及其介质特征数据、以及节点连线;
将所述第二关系网络图谱输入至训练好的图深度学习模型,得到各所述节点连线的边权重数据;
基于与所述风险用户节点相关的所述节点连线的所述边权重数据,确定至少一个目标介质类型。
可选地,计算机可执行指令在被执行时,所述将所述第二关系网络图谱输入至训练好的图深度学习模型,得到各所述节点连线的边权重数据,包括:
将所述第二关系网络图谱输入至训练好的图深度学习模型,得到在风险节点预测时针对各所述节点连线所赋予的信息聚合加权系数;
针对每个所述节点连线,将该节点连线对应的所述信息聚合加权系数,确定为该节点连线的边权重数据。
可选地,计算机可执行指令在被执行时,所述图深度学习模型包括:基于attention机制的自适应广度函数;
所述将所述第二关系网络图谱输入至训练好的图深度学习模型,得到在风险节点预测时针对各所述节点连线所赋予的信息聚合加权系数,包括:
将所述第二关系网络图谱输入至训练好的图深度学习模型,得到在风险节点预测时针对各所述节点连线所赋予的attention取值。
可选地,计算机可执行指令在被执行时,所述基于与所述风险用户节点相关的所述节点连线的所述边权重数据,确定至少一个目标介质类型,包括:
根据与所述风险用户节点连接的目标介质节点的类型,将各所述目标介质节点对应的所述边权重数据进行分类,得到各可选介质类型分别对应的边权重数据;
针对每种所述可选介质类型,根据该可选介质类型对应的所述边权重数据,确定该可选介质类型的综合边权重数据;其中,所述综合边权重数据包括:平均边权重数据、最大边权重数据、或者最小边权重数据;
在多个所述可选介质类型中,根据所述综合边权重数据,选取至少一个目标介质类型。
可选地,计算机可执行指令在被执行时,所述在多个所述可选介质类型中,根据所述综合边权重数据,选取至少一个目标介质类型,包括:
将各所述可选介质类型的所述综合边权重数据,确定为所述可选介质类型用于预测风险用户节点的贡献程度;
按照贡献程度由大到小的顺序,将排序靠前的贡献程度对应的可选介质类型确定为至少一个目标介质类型。
可选地,计算机可执行指令在被执行时,所述获取预设时间段内的预测样本数据,包括:
判断是否满足用于构建关系网络图谱的介质动态更新条件,其中,所述介质动态更新条件包括:达到预设时间间隔、达到预设数据累积量、或者业务行为数据中涉及的介质类型存在变更中至少一项;
若判断结果为是,则获取预设时间段内的预测样本数据。
可选地,计算机可执行指令在被执行时,在获取预设时间段内的预测样本数据之前,还包括:
获取与目标业务相关的训练样本数据;其中,所述训练样本数据包括:正常用户的业务行为数据和已报回的风险用户的业务行为数据;
基于所述训练样本数据,构建第三关系网络图谱;其中,所述第三关系网络图谱包括:用户节点及其特征数据、介质节点及其特征数据、节点连线、以及用户节点的标签数据;
基于所述第三关系网络图谱,对初始图深度学习模型进行训练,得到训练好的图深度学习模型。
可选地,计算机可执行指令在被执行时,所述基于所述第三关系网络图谱,对初始图深度学习模型进行训练,得到训练好的图深度学习模型,包括:
基于所述第三关系网络图谱,获取各所述风险用户的风险关系网络子图和各所述正常用户的正常关系网络子图;
将各所述风险关系网络子图和各所述正常关系网络子图输入至初始图深度学习模型进行模型训练,得到模型参数取值;
根据所述模型参数取值,更新所述初始图深度学习模型中的自适应广度函数的参数取值和自适应深度函数的参数取值;
将更新后的初始图深度学习模型确定为训练好的图深度学习模型。
可选地,计算机可执行指令在被执行时,所述预测样本数据的积累时间跨度与所述训练样本数据的积累时间跨度的差值小于预设阈值。
可选地,计算机可执行指令在被执行时,在所述多个目标群组中,根据各所述目标群组的所述业务行为数据,确定风险群组,包括:
根据各所述目标群组的所述业务行为数据,确定所述目标群组的风险特征数据;
在所述多个目标群组中,将所述风险特征数据满足预设风控条件的目标群组确定为风险群组。
可选地,计算机可执行指令在被执行时,所述介质节点包括:强介质节点和/或弱介质节点;
其中,与同一所述强介质节点关联的多个用户节点为同一用户的概率大于预设阈值。
可选地,计算机可执行指令在被执行时,每个所述目标介质类型包括:单一介质类型、或者多种介质类型的组合。
本说明书一个或多个实施例中的风险群组识别设备,通过预先利用训练好的图深度学习模型得到多种类型的介质节点的边权重数据,以及基于该边权重数据自动筛选出用于识别风险用户节点的贡献度比较大的目标介质类型;在风险群组识别时,基于该目标介质类型和待识别的业务行为数据构建关系网络图谱,再基于该关系网络图谱进行用户群组划分及风险群组识别,这样能够动态更新用于构建关系网络图谱的介质节点的类型,以动态更新关系网络图谱,基于最新的网络关系图谱进行风险群组识别,实现及时、精准地调整风险群组识别时所参考的介质类型,以便应对风险群体改变作案手段的情况,从而提高风险群组的识别速度和准确度,进而及时对风险群组进行管控,降低因风险群组漏识别所带来的严重资损。
需要说明的是,本说明书中关于风险群组识别设备的实施例与本说明书中关于风险群组识别方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的风险群组识别方法的实施,重复之处不再赘述。
进一步地,对应上述图1至图7所示的方法,基于相同的技术构思,本说明书一个或多个实施例还提供了一种存储介质,用于存储计算机可执行指令,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令在被处理器执行时,能实现以下流程:
获取待风控的目标业务的业务行为数据;
基于所述业务行为数据和至少一个目标介质类型,构建第一关系网络图谱;其中,所述第一关系网络图谱包括:用户节点、以及与所述目标介质类型对应的介质节点,所述目标介质类型是基于利用训练好的图深度学习模型得到的边权重数据所确定的;
利用预设群组划分方式,对所述第一关系网络图谱中的多个所述用户节点进行群组划分,得到多个目标群组;
在所述多个目标群组中,根据各所述目标群组的所述业务行为数据,确定风险群组。
本说明书一个或多个实施例中,通过预先利用训练好的图深度学习模型得到多种类型的介质节点的边权重数据,以及基于该边权重数据自动筛选出用于识别风险用户节点的贡献度比较大的目标介质类型;在风险群组识别时,基于该目标介质类型和待识别的业务行为数据构建关系网络图谱,再基于该关系网络图谱进行用户群组划分及风险群组识别,这样能够动态更新用于构建关系网络图谱的介质节点的类型,以动态更新关系网络图谱,基于最新的网络关系图谱进行风险群组识别,实现及时、精准地调整风险群组识别时所参考的介质类型,以便应对风险群体改变作案手段的情况,从而提高风险群组的识别速度和准确度,进而及时对风险群组进行管控,降低因风险群组漏识别所带来的严重资损。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,在获取待风控的目标业务的业务行为数据之前,还包括:
获取预设时间段内的预测样本数据;其中,所述预测样本数据包括:执行目标业务所产生的风险用户节点的业务行为数据;
基于所述预测样本数据,构建第二关系网络图谱;其中,所述第二关系网络图谱包括:用户节点及其用户特征数据、介质节点及其介质特征数据、以及节点连线;
将所述第二关系网络图谱输入至训练好的图深度学习模型,得到各所述节点连线的边权重数据;
基于与所述风险用户节点相关的所述节点连线的所述边权重数据,确定至少一个目标介质类型。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,所述将所述第二关系网络图谱输入至训练好的图深度学习模型,得到各所述节点连线的边权重数据,包括:
将所述第二关系网络图谱输入至训练好的图深度学习模型,得到在风险节点预测时针对各所述节点连线所赋予的信息聚合加权系数;
针对每个所述节点连线,将该节点连线对应的所述信息聚合加权系数,确定为该节点连线的边权重数据。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,所述图深度学习模型包括:基于attention机制的自适应广度函数;
所述将所述第二关系网络图谱输入至训练好的图深度学习模型,得到在风险节点预测时针对各所述节点连线所赋予的信息聚合加权系数,包括:
将所述第二关系网络图谱输入至训练好的图深度学习模型,得到在风险节点预测时针对各所述节点连线所赋予的attention取值。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,所述基于与所述风险用户节点相关的所述节点连线的所述边权重数据,确定至少一个目标介质类型,包括:
根据与所述风险用户节点连接的目标介质节点的类型,将各所述目标介质节点对应的所述边权重数据进行分类,得到各可选介质类型分别对应的边权重数据;
针对每种所述可选介质类型,根据该可选介质类型对应的所述边权重数据,确定该可选介质类型的综合边权重数据;其中,所述综合边权重数据包括:平均边权重数据、最大边权重数据、或者最小边权重数据;
在多个所述可选介质类型中,根据所述综合边权重数据,选取至少一个目标介质类型。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,所述在多个所述可选介质类型中,根据所述综合边权重数据,选取至少一个目标介质类型,包括:
将各所述可选介质类型的所述综合边权重数据,确定为所述可选介质类型用于预测风险用户节点的贡献程度;
按照贡献程度由大到小的顺序,将排序靠前的贡献程度对应的可选介质类型确定为至少一个目标介质类型。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,所述获取预设时间段内的预测样本数据,包括:
判断是否满足用于构建关系网络图谱的介质动态更新条件,其中,所述介质动态更新条件包括:达到预设时间间隔、达到预设数据累积量、或者业务行为数据中涉及的介质类型存在变更中至少一项;
若判断结果为是,则获取预设时间段内的预测样本数据。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,在获取预设时间段内的预测样本数据之前,还包括:
获取与目标业务相关的训练样本数据;其中,所述训练样本数据包括:正常用户的业务行为数据和已报回的风险用户的业务行为数据;
基于所述训练样本数据,构建第三关系网络图谱;其中,所述第三关系网络图谱包括:用户节点及其特征数据、介质节点及其特征数据、节点连线、以及用户节点的标签数据;
基于所述第三关系网络图谱,对初始图深度学习模型进行训练,得到训练好的图深度学习模型。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,所述基于所述第三关系网络图谱,对初始图深度学习模型进行训练,得到训练好的图深度学习模型,包括:
基于所述第三关系网络图谱,获取各所述风险用户的风险关系网络子图和各所述正常用户的正常关系网络子图;
将各所述风险关系网络子图和各所述正常关系网络子图输入至初始图深度学习模型进行模型训练,得到模型参数取值;
根据所述模型参数取值,更新所述初始图深度学习模型中的自适应广度函数的参数取值和自适应深度函数的参数取值;
将更新后的初始图深度学习模型确定为训练好的图深度学习模型。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,所述预测样本数据的积累时间跨度与所述训练样本数据的积累时间跨度的差值小于预设阈值。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,在所述多个目标群组中,根据各所述目标群组的所述业务行为数据,确定风险群组,包括:
根据各所述目标群组的所述业务行为数据,确定所述目标群组的风险特征数据;
在所述多个目标群组中,将所述风险特征数据满足预设风控条件的目标群组确定为风险群组。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,所述介质节点包括:强介质节点和/或弱介质节点;
其中,与同一所述强介质节点关联的多个用户节点为同一用户的概率大于预设阈值。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,每个所述目标介质类型包括:单一介质类型、或者多种介质类型的组合。
本说明书一个或多个实施例中的存储介质存储的计算机可执行指令在被处理器执行时,通过预先利用训练好的图深度学习模型得到多种类型的介质节点的边权重数据,以及基于该边权重数据自动筛选出用于识别风险用户节点的贡献度比较大的目标介质类型;在风险群组识别时,基于该目标介质类型和待识别的业务行为数据构建关系网络图谱,再基于该关系网络图谱进行用户群组划分及风险群组识别,这样能够动态更新用于构建关系网络图谱的介质节点的类型,以动态更新关系网络图谱,基于最新的网络关系图谱进行风险群组识别,实现及时、精准地调整风险群组识别时所参考的介质类型,以便应对风险群体改变作案手段的情况,从而提高风险群组的识别速度和准确度,进而及时对风险群组进行管控,降低因风险群组漏识别所带来的严重资损。
需要说明的是,本说明书中关于存储介质的实施例与本说明书中关于风险群组识别方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的风险群组识别方法的实施,重复之处不再赘述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HD Cal、JHDL(Java Hardware Description Language)、Lava、Lola、My HDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书一个或多个的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个是参照根据本说明书一个或多个实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。本领域技术人员应明白,本说明书一个或多个的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。以上所述仅为本说明书一个或多个的实施例而已,并不用于限制本说明书一个或多个。对于本领域技术人员来说,本说明书一个或多个可以有各种更改和变化。凡在本说明书一个或多个的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个的权利要求范围之内。

Claims (28)

1.一种风险群组识别方法,包括:
获取待风控的目标业务的业务行为数据;
基于所述业务行为数据和至少一个目标介质类型,构建第一关系网络图谱;其中,所述第一关系网络图谱包括:用户节点、以及与所述目标介质类型对应的介质节点,所述目标介质类型是基于利用训练好的图深度学习模型得到的边权重数据所确定的;
利用预设群组划分方式,对所述第一关系网络图谱中的多个所述用户节点进行群组划分,得到多个目标群组;
在所述多个目标群组中,根据各所述目标群组的所述业务行为数据,确定风险群组。
2.根据权利要求1所述的方法,其中,在获取待风控的目标业务的业务行为数据之前,还包括:
获取预设时间段内的预测样本数据;其中,所述预测样本数据包括:执行目标业务所产生的风险用户节点的业务行为数据;
基于所述预测样本数据,构建第二关系网络图谱;其中,所述第二关系网络图谱包括:用户节点及其用户特征数据、介质节点及其介质特征数据、以及节点连线;
将所述第二关系网络图谱输入至训练好的图深度学习模型,得到各所述节点连线的边权重数据;
基于与所述风险用户节点相关的所述节点连线的所述边权重数据,确定至少一个目标介质类型。
3.根据权利要求2所述的方法,其中,所述将所述第二关系网络图谱输入至训练好的图深度学习模型,得到各所述节点连线的边权重数据,包括:
将所述第二关系网络图谱输入至训练好的图深度学习模型,得到在风险节点预测时针对各所述节点连线所赋予的信息聚合加权系数;
针对每个所述节点连线,将该节点连线对应的所述信息聚合加权系数,确定为该节点连线的边权重数据。
4.根据权利要求3所述的方法,其中,所述图深度学习模型包括:基于attention机制的自适应广度函数;
所述将所述第二关系网络图谱输入至训练好的图深度学习模型,得到在风险节点预测时针对各所述节点连线所赋予的信息聚合加权系数,包括:
将所述第二关系网络图谱输入至训练好的图深度学习模型,得到在风险节点预测时针对各所述节点连线所赋予的attention取值。
5.根据权利要求2所述的方法,其中,所述基于与所述风险用户节点相关的所述节点连线的所述边权重数据,确定至少一个目标介质类型,包括:
根据与所述风险用户节点连接的目标介质节点的类型,将各所述目标介质节点对应的所述边权重数据进行分类,得到各可选介质类型分别对应的边权重数据;
针对每种所述可选介质类型,根据该可选介质类型对应的所述边权重数据,确定该可选介质类型的综合边权重数据;其中,所述综合边权重数据包括:平均边权重数据、最大边权重数据、或者最小边权重数据;
在多个所述可选介质类型中,根据所述综合边权重数据,选取至少一个目标介质类型。
6.根据权利要求5所述的方法,其中,所述在多个所述可选介质类型中,根据所述综合边权重数据,选取至少一个目标介质类型,包括:
将各所述可选介质类型的所述综合边权重数据,确定为所述可选介质类型用于预测风险用户节点的贡献程度;
按照贡献程度由大到小的顺序,将排序靠前的贡献程度对应的可选介质类型确定为至少一个目标介质类型。
7.根据权利要求2所述的方法,其中,所述获取预设时间段内的预测样本数据,包括:
判断是否满足用于构建关系网络图谱的介质动态更新条件,其中,所述介质动态更新条件包括:达到预设时间间隔、达到预设数据累积量、或者业务行为数据中涉及的介质类型存在变更中至少一项;
若判断结果为是,则获取预设时间段内的预测样本数据。
8.根据权利要求2所述的方法,其中,在获取预设时间段内的预测样本数据之前,还包括:
获取与目标业务相关的训练样本数据;其中,所述训练样本数据包括:正常用户的业务行为数据和已报回的风险用户的业务行为数据;
基于所述训练样本数据,构建第三关系网络图谱;其中,所述第三关系网络图谱包括:用户节点及其特征数据、介质节点及其特征数据、节点连线、以及用户节点的标签数据;
基于所述第三关系网络图谱,对初始图深度学习模型进行训练,得到训练好的图深度学习模型。
9.根据权利要求8所述的方法,其中,所述基于所述第三关系网络图谱,对初始图深度学习模型进行训练,得到训练好的图深度学习模型,包括:
基于所述第三关系网络图谱,获取各所述风险用户的风险关系网络子图和各所述正常用户的正常关系网络子图;
将各所述风险关系网络子图和各所述正常关系网络子图输入至初始图深度学习模型进行模型训练,得到模型参数取值;
根据所述模型参数取值,更新所述初始图深度学习模型中的自适应广度函数的参数取值和自适应深度函数的参数取值;
将更新后的初始图深度学习模型确定为训练好的图深度学习模型。
10.根据权利要求8所述的方法,其中,所述预测样本数据的积累时间跨度与所述训练样本数据的积累时间跨度的差值小于预设阈值。
11.根据权利要求1至10任一项所述的方法,其中,在所述多个目标群组中,根据各所述目标群组的所述业务行为数据,确定风险群组,包括:
根据各所述目标群组的所述业务行为数据,确定所述目标群组的风险特征数据;
在所述多个目标群组中,将所述风险特征数据满足预设风控条件的目标群组确定为风险群组。
12.根据权利要求1至10任一项所述的方法,其中,所述介质节点包括:强介质节点和/或弱介质节点;
其中,与同一所述强介质节点关联的多个用户节点为同一用户的概率大于预设阈值。
13.根据权利要求1至10任一项所述的方法,其中,每个所述目标介质类型包括:单一介质类型、或者多种介质类型的组合。
14.一种风险群组识别装置,包括:
业务数据获取模块,其获取待风控的目标业务的业务行为数据;
网络图谱构建模块,其基于所述业务行为数据和至少一个目标介质类型,构建第一关系网络图谱;其中,所述第一关系网络图谱包括:用户节点、以及与所述目标介质类型对应的介质节点,所述目标介质类型是基于利用训练好的图深度学习模型得到的边权重数据所确定的;
用户群组划分模块,其利用预设群组划分方式,对所述第一关系网络图谱中的多个所述用户节点进行群组划分,得到多个目标群组;
风险群组确定模块,其在所述多个目标群组中,根据各所述目标群组的所述业务行为数据,确定风险群组。
15.根据权利要求14所述的装置,其中,所述装置还包括:介质类型确定模块,其:
获取预设时间段内的预测样本数据;其中,所述预测样本数据包括:执行目标业务所产生的风险用户节点的业务行为数据;
基于所述预测样本数据,构建第二关系网络图谱;其中,所述第二关系网络图谱包括:用户节点及其用户特征数据、介质节点及其介质特征数据、以及节点连线;
将所述第二关系网络图谱输入至训练好的图深度学习模型,得到各所述节点连线的边权重数据;
基于与所述风险用户节点相关的所述节点连线的所述边权重数据,确定至少一个目标介质类型。
16.根据权利要求15所述的装置,其中,所述介质类型确定模块,其:
将所述第二关系网络图谱输入至训练好的图深度学习模型,得到在风险节点预测时针对各所述节点连线所赋予的信息聚合加权系数;
针对每个所述节点连线,将该节点连线对应的所述信息聚合加权系数,确定为该节点连线的边权重数据。
17.根据权利要求16所述的装置,其中,所述图深度学习模型包括:基于attention机制的自适应广度函数;
所述介质类型确定模块,其:
将所述第二关系网络图谱输入至训练好的图深度学习模型,得到在风险节点预测时针对各所述节点连线所赋予的attention取值。
18.根据权利要求15所述的装置,其中,所述介质类型确定模块,其:
根据与所述风险用户节点连接的目标介质节点的类型,将各所述目标介质节点对应的所述边权重数据进行分类,得到各可选介质类型分别对应的边权重数据;
针对每种所述可选介质类型,根据该可选介质类型对应的所述边权重数据,确定该可选介质类型的综合边权重数据;其中,所述综合边权重数据包括:平均边权重数据、最大边权重数据、或者最小边权重数据;
在多个所述可选介质类型中,根据所述综合边权重数据,选取至少一个目标介质类型。
19.根据权利要求18所述的装置,其中,所述介质类型确定模块,其:
将各所述可选介质类型的所述综合边权重数据,确定为所述可选介质类型用于预测风险用户节点的贡献程度;
按照贡献程度由大到小的顺序,将排序靠前的贡献程度对应的可选介质类型确定为至少一个目标介质类型。
20.根据权利要求15所述的装置,其中,所述介质类型确定模块,其:
判断是否满足用于构建关系网络图谱的介质动态更新条件,其中,所述介质动态更新条件包括:达到预设时间间隔、达到预设数据累积量、或者业务行为数据中涉及的介质类型存在变更中至少一项;
若判断结果为是,则获取预设时间段内的预测样本数据。
21.根据权利要求15所述的装置,其中,所述装置还包括:模型训练模块,其:
获取与目标业务相关的训练样本数据;其中,所述训练样本数据包括:正常用户的业务行为数据和已报回的风险用户的业务行为数据;
基于所述训练样本数据,构建第三关系网络图谱;其中,所述第三关系网络图谱包括:用户节点及其特征数据、介质节点及其特征数据、节点连线、以及用户节点的标签数据;
基于所述第三关系网络图谱,对初始图深度学习模型进行训练,得到训练好的图深度学习模型。
22.根据权利要求21所述的装置,其中,所述模型训练模块,其:
基于所述第三关系网络图谱,获取各所述风险用户的风险关系网络子图和各所述正常用户的正常关系网络子图;
将各所述风险关系网络子图和各所述正常关系网络子图输入至初始图深度学习模型进行模型训练,得到模型参数取值;
根据所述模型参数取值,更新所述初始图深度学习模型中的自适应广度函数的参数取值和自适应深度函数的参数取值;
将更新后的初始图深度学习模型确定为训练好的图深度学习模型。
23.根据权利要求21所述的装置,其中,所述预测样本数据的积累时间跨度与所述训练样本数据的积累时间跨度的差值小于预设阈值。
24.根据权利要求14至23任一项所述的装置,其中,所述风险群组确定模块,其:
根据各所述目标群组的所述业务行为数据,确定所述目标群组的风险特征数据;
在所述多个目标群组中,将所述风险特征数据满足预设风控条件的目标群组确定为风险群组。
25.根据权利要求14至23任一项所述的装置,其中,所述介质节点包括:强介质节点和/或弱介质节点;
其中,与同一所述强介质节点关联的多个用户节点为同一用户的概率大于预设阈值。
26.根据权利要求14至23任一项所述的装置,其中,每个所述目标介质类型包括:单一介质类型、或者多种介质类型的组合。
27.一种风险群组识别设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待风控的目标业务的业务行为数据;
基于所述业务行为数据和至少一个目标介质类型,构建第一关系网络图谱;其中,所述第一关系网络图谱包括:用户节点、以及与所述目标介质类型对应的介质节点,所述目标介质类型是基于利用训练好的图深度学习模型得到的边权重数据所确定的;
利用预设群组划分方式,对所述第一关系网络图谱中的多个所述用户节点进行群组划分,得到多个目标群组;
在所述多个目标群组中,根据各所述目标群组的所述业务行为数据,确定风险群组。
28.一种存储介质,用于存储计算机可执行指令,所述可执行指令在被处理器执行时实现以下方法:
获取待风控的目标业务的业务行为数据;
基于所述业务行为数据和至少一个目标介质类型,构建第一关系网络图谱;其中,所述第一关系网络图谱包括:用户节点、以及与所述目标介质类型对应的介质节点,所述目标介质类型是基于利用训练好的图深度学习模型得到的边权重数据所确定的;
利用预设群组划分方式,对所述第一关系网络图谱中的多个所述用户节点进行群组划分,得到多个目标群组;
在所述多个目标群组中,根据各所述目标群组的所述业务行为数据,确定风险群组。
CN202010816539.XA 2020-08-14 2020-08-14 一种风险群组识别方法及装置 Active CN111738628B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010816539.XA CN111738628B (zh) 2020-08-14 2020-08-14 一种风险群组识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010816539.XA CN111738628B (zh) 2020-08-14 2020-08-14 一种风险群组识别方法及装置

Publications (2)

Publication Number Publication Date
CN111738628A true CN111738628A (zh) 2020-10-02
CN111738628B CN111738628B (zh) 2020-12-08

Family

ID=72658473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010816539.XA Active CN111738628B (zh) 2020-08-14 2020-08-14 一种风险群组识别方法及装置

Country Status (1)

Country Link
CN (1) CN111738628B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905340A (zh) * 2021-02-08 2021-06-04 中国工商银行股份有限公司 系统资源分配方法、装置及设备
CN113052604A (zh) * 2021-03-17 2021-06-29 北京顶象技术有限公司 一种对象检测方法、装置、设备及存储介质
CN113094518A (zh) * 2021-05-10 2021-07-09 中国工商银行股份有限公司 基于知识图谱的电子卡风险预警方法及装置
CN113239127A (zh) * 2021-05-13 2021-08-10 北方工业大学 科技服务关联网络的构建、依赖关系的识别方法及计算机产品
CN113420148A (zh) * 2021-06-22 2021-09-21 中国平安人寿保险股份有限公司 用于敏感内容质检模型的训练文本采集方法、系统及设备
CN113641970A (zh) * 2021-08-16 2021-11-12 深圳竹云科技有限公司 风险检测方法、装置及计算设备
CN113724073A (zh) * 2021-09-09 2021-11-30 支付宝(杭州)信息技术有限公司 一种风险识别和控制方法及装置
CN113837635A (zh) * 2021-09-29 2021-12-24 支付宝(杭州)信息技术有限公司 风险检测处理方法、装置及设备
WO2022143505A1 (zh) * 2021-01-04 2022-07-07 腾讯科技(深圳)有限公司 群组类型识别方法、装置、计算机设备及介质
CN115456788A (zh) * 2022-11-07 2022-12-09 支付宝(杭州)信息技术有限公司 一种风险群组的检测方法、装置及设备
WO2022257723A1 (zh) * 2021-06-07 2022-12-15 支付宝(杭州)信息技术有限公司 风险防控的方法、装置及设备
CN115545938A (zh) * 2022-11-29 2022-12-30 支付宝(杭州)信息技术有限公司 一种执行风险识别业务的方法、装置、存储介质及设备
CN116308738A (zh) * 2023-02-10 2023-06-23 之江实验室 一种模型训练的方法、业务风控的方法及装置
CN116882767A (zh) * 2023-09-08 2023-10-13 之江实验室 一种基于不完善异构关系网络图的风险预测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135853A (zh) * 2019-04-25 2019-08-16 阿里巴巴集团控股有限公司 团伙用户识别方法、装置和设备
CN110413707A (zh) * 2019-07-22 2019-11-05 百融云创科技股份有限公司 互联网中欺诈团伙关系的挖掘与排查方法及其系统
CN111523831A (zh) * 2020-07-03 2020-08-11 支付宝(杭州)信息技术有限公司 风险团伙的识别方法、装置、存储介质和计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135853A (zh) * 2019-04-25 2019-08-16 阿里巴巴集团控股有限公司 团伙用户识别方法、装置和设备
CN110413707A (zh) * 2019-07-22 2019-11-05 百融云创科技股份有限公司 互联网中欺诈团伙关系的挖掘与排查方法及其系统
CN111523831A (zh) * 2020-07-03 2020-08-11 支付宝(杭州)信息技术有限公司 风险团伙的识别方法、装置、存储介质和计算机设备

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11916853B2 (en) 2021-01-04 2024-02-27 Tencent Technology (Shenzhen) Company Limited Group type identification method and apparatus, computer device, and medium
WO2022143505A1 (zh) * 2021-01-04 2022-07-07 腾讯科技(深圳)有限公司 群组类型识别方法、装置、计算机设备及介质
CN112905340A (zh) * 2021-02-08 2021-06-04 中国工商银行股份有限公司 系统资源分配方法、装置及设备
CN113052604A (zh) * 2021-03-17 2021-06-29 北京顶象技术有限公司 一种对象检测方法、装置、设备及存储介质
CN113094518A (zh) * 2021-05-10 2021-07-09 中国工商银行股份有限公司 基于知识图谱的电子卡风险预警方法及装置
CN113239127A (zh) * 2021-05-13 2021-08-10 北方工业大学 科技服务关联网络的构建、依赖关系的识别方法及计算机产品
CN113239127B (zh) * 2021-05-13 2024-02-09 北方工业大学 科技服务关联网络的构建、依赖关系的识别方法及计算机产品
WO2022257723A1 (zh) * 2021-06-07 2022-12-15 支付宝(杭州)信息技术有限公司 风险防控的方法、装置及设备
CN113420148A (zh) * 2021-06-22 2021-09-21 中国平安人寿保险股份有限公司 用于敏感内容质检模型的训练文本采集方法、系统及设备
CN113420148B (zh) * 2021-06-22 2024-02-09 中国平安人寿保险股份有限公司 用于敏感内容质检模型的训练文本采集方法、系统及设备
CN113641970B (zh) * 2021-08-16 2022-08-26 深圳竹云科技有限公司 风险检测方法、装置及计算设备
CN113641970A (zh) * 2021-08-16 2021-11-12 深圳竹云科技有限公司 风险检测方法、装置及计算设备
CN113724073A (zh) * 2021-09-09 2021-11-30 支付宝(杭州)信息技术有限公司 一种风险识别和控制方法及装置
CN113837635A (zh) * 2021-09-29 2021-12-24 支付宝(杭州)信息技术有限公司 风险检测处理方法、装置及设备
CN115456788A (zh) * 2022-11-07 2022-12-09 支付宝(杭州)信息技术有限公司 一种风险群组的检测方法、装置及设备
CN115545938B (zh) * 2022-11-29 2023-03-28 支付宝(杭州)信息技术有限公司 一种执行风险识别业务的方法、装置、存储介质及设备
CN115545938A (zh) * 2022-11-29 2022-12-30 支付宝(杭州)信息技术有限公司 一种执行风险识别业务的方法、装置、存储介质及设备
CN116308738A (zh) * 2023-02-10 2023-06-23 之江实验室 一种模型训练的方法、业务风控的方法及装置
CN116308738B (zh) * 2023-02-10 2024-03-08 之江实验室 一种模型训练的方法、业务风控的方法及装置
CN116882767A (zh) * 2023-09-08 2023-10-13 之江实验室 一种基于不完善异构关系网络图的风险预测方法及装置
CN116882767B (zh) * 2023-09-08 2024-01-05 之江实验室 一种基于不完善异构关系网络图的风险预测方法及装置

Also Published As

Publication number Publication date
CN111738628B (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
CN111738628B (zh) 一种风险群组识别方法及装置
CN110363449B (zh) 一种风险识别方法、装置及系统
CN109948641B (zh) 异常群体识别方法及装置
CN113361658B (zh) 一种基于隐私保护的图模型训练方法、装置及设备
CN111080304A (zh) 一种可信关系识别方法、装置及设备
CN111383051B (zh) 实体对象的选址方法、装置、计算设备及计算机存储介质
CN111309614A (zh) A/b测试方法、装置及电子设备
CN111539811B (zh) 风险账户的识别方法及装置
CN110633989A (zh) 一种风险行为生成模型的确定方法及装置
CN107622326A (zh) 用户分类、可用资源预测方法、装置及设备
CN111612499B (zh) 信息的推送方法及装置、存储介质、终端
WO2020259325A1 (zh) 一种适用于机器学习的特征处理方法及装置
CN112581261A (zh) 一种风控规则确定方法及装置
CN111143685A (zh) 一种推荐系统的构建方法及装置
US20170236226A1 (en) Computerized systems, processes, and user interfaces for globalized score for a set of real-estate assets
CN111047220A (zh) 一种风控阈值条件确定方法、装置、设备和可读介质
CN113837635A (zh) 风险检测处理方法、装置及设备
CN114077912A (zh) 数据预测方法以及数据预测装置
CN113837799A (zh) 一种智能商业选址方法、系统、设备及可读存储介质
CN111259975B (zh) 分类器的生成方法及装置、文本的分类方法及装置
CN112243247A (zh) 基站优化优先级确定方法、装置及计算设备
CN110516713A (zh) 一种目标群体识别方法、装置及设备
CN110705889A (zh) 一种企业筛选方法、装置、设备及存储介质
Choi et al. Dynamic nonparametric random forest using covariance
CN113988718A (zh) 一种风险识别方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40039027

Country of ref document: HK