CN113780413A

CN113780413A - 群体风险识别方法、装置、计算机设备和存储介质

Info

Publication number: CN113780413A
Application number: CN202111061145.9A
Authority: CN
Inventors: 郑明�
Original assignee: Weimin Insurance Agency Co Ltd
Current assignee: Weimin Insurance Agency Co Ltd
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2021-12-10
Anticipated expiration: 2041-09-10
Also published as: CN113780413B

Abstract

本申请涉及一种群体风险识别方法、装置、计算机设备和存储介质。所述方法包括：获取各用户在参与相应交互任务的过程中形成的用户数据；对所述用户数据进行特征提取，得到针对各所述用户的多个用户特征；根据各所述用户与所述交互任务之间的对应关系，对多个用户特征分别进行特征筛选，得到至少两个特征集合矩阵；根据每个所述特征集合矩阵，分别计算各所述用户之间的相似度，得到至少两个相似度矩阵；基于至少两个所述相似度矩阵的融合矩阵，生成各所述用户间的关联网络；根据所述关联网络中各子网的群体数或各所述子网中连接边的权重，识别各所述子网对应的群体的风险程度。采用本方法能够提高风险群体识别的准确率。

Description

群体风险识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种群体风险识别方法、装置、计算机设备和存储介质。

背景技术

目前，互联网平台通过推出营销活动的方式吸引潜在用户，部分不法分子通过批量注册会员的方式参与上述营销活动，上述批量注册的会员可以称之为风险群体。为避免推出营销活动所需的资源被浪费，通常需要识别出风险群体。

相关技术中，识别风险群体的方案通常是对某一维度下注册的会员数量进行统计，根据统计结果来识别风险群体。例如，若同一个IP(Internet Protocol，互联网协议)地址下注册的会员数量超过第一阈值，则确定上述同一个IP地址下注册的会员属于同一风险群体；或者，若同一时间段内注册的会员数量超过第二阈值，则确定上述同一个时间段内注册的会员属于同一风险群体。然而，上述方案识别风险群体的准确率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种群体风险识别方法、装置、计算机设备和存储介质，能够提高风险群体识别的准确率。

一种群体风险识别方法，所述方法包括：

获取各用户在参与相应交互任务的过程中形成的用户数据；

对所述用户数据进行特征提取，得到针对各所述用户的多个用户特征；

根据各所述用户与所述交互任务之间的对应关系，对多个所述用户特征分别进行特征筛选，得到至少两个特征集合矩阵；

根据每个所述特征集合矩阵，分别计算各所述用户之间的相似度，得到至少两个相似度矩阵；

基于至少两个所述相似度矩阵的融合矩阵，生成各所述用户间的关联网络；

根据所述关联网络中各子网的群体数或各所述子网中连接边的权重，识别各所述子网对应的群体的风险程度。

一种群体风险识别装置，所述装置包括：

获取模块，用于获取各用户在参与相应交互任务的过程中形成的用户数据；

提取模块，用于对所述用户数据进行特征提取，得到针对各所述用户的多个用户特征；

筛选模块，用于根据各所述用户与所述交互任务之间的对应关系，对多个所述用户特征分别进行特征筛选，得到至少两个特征集合矩阵；

计算模块，用于根据每个所述特征集合矩阵，分别计算各所述用户之间的相似度，得到至少两个相似度矩阵；

生成模块，用于基于至少两个所述相似度矩阵的融合矩阵，生成各所述用户间的关联网络；

识别模块，用于根据所述关联网络中各子网的群体数或各所述子网中连接边的权重，识别各所述子网对应的群体的风险程度。

在其中的一个实施例中，各所述用户与不同的所述交互任务之间存在不同的对应关系；

所述筛选模块，还用于根据各所述用户与所述交互任务之间的对应关系确定至少两个相似性条件；基于至少两个所述相似性条件对多个所述用户特征分别进行特征筛选。

在其中的一个实施例中，所述计算模块，还用于根据每个所述特征集合矩阵确定各所述用户参与的交互任务的任务向量；确定各所述用户参与的交互任务数量；将所述任务向量和所述交互任务数量输入至相似度算法进行相似度计算，得到至少两个相似度矩阵；其中，不同所述相似度矩阵用于反映各所述用户之间在不同相似性条件下的相似性。

在其中的一个实施例中，所述用户包括第一用户和第二用户，所述第二用户是在所述第一用户之后的目标时间参与所述交互任务的用户；所述计算模块，还用于确定所述第一用户和所述第二用户在所述目标时间至预设截止时间内参与的交互任务数量。

在其中的一个实施例中，所述筛选模块，还用于基于至少两个所述相似度矩阵对各所述用户进行筛选，以过滤掉相似度小于相似阈值的用户，得到目标用户；所述生成模块，还用于确定至少两个所述相似性条件各自的重要程度；基于所述重要程度对至少两个所述相似度矩阵进行融合，得到融合矩阵；基于所述融合矩阵生成针对所述目标用户的关联网络。

在其中的一个实施例中，所述生成模块，还用于以所述融合矩阵中的相似度为连接边的权重，以各所述目标用户为网络节点构建关联网络。

在其中的一个实施例中，所述识别模块，还用于在所述关联网络中进行子网划分，得到多个子网；确定各所述子网中的网络节点数，所述网络节点数用于表示所述群体数；或者，确定各所述子网中连接边的权重；基于所述网络节点数和所述权重识别相应所述子网对应的全体的风险程度。

在其中的一个实施例中，所述装置还包括：

标注模块，用于当所述关联网络中部分网络节点对应的目标用户存在风险标签时，基于所述风险标签对所述部分网络节点进行风险标注；

存储模块，用于将所述风险标签存储于风险标签库；

所述识别模块，还用于当所述风险程度达到风险阈值、且达到所述风险阈值对应的目标子网中存在未进行风险标注的网络节点时，对未进行标注的所述网络节点进行风险识别；

更新模块，用于若未进行标注的所述网络节点为安全用户对应的网络节点时，对所述风险标签库进行更新。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取各用户在参与相应交互任务的过程中形成的用户数据；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取各用户在参与相应交互任务的过程中形成的用户数据；

上述群体风险识别方法、装置、计算机设备和存储介质，通过对参与相应交互任务的过程中形成的用户数据进行特征提取，根据各用户与交互任务之间的对应关系，对提取的用户特征分别进行特征筛选，得到至少两个特征集合矩阵；根据每个特征集合矩阵分别计算各用户之间的相似度，得到至少两个相似度矩阵，基于至少两个相似度矩阵的融合矩阵生成各用户间的关联网络，从而利用关联网络中各子网的群体数或各子网中连接边的权重来识别群体的风险程度，从而有效地提高识别风险用户的准确性。

附图说明

图1为一个实施例中群体风险识别方法的应用环境图；

图2为一个实施例中群体风险识别方法的流程示意图；

图3为一个实施例中关联网络的示意图；

图4为一个实施例中子网的示意图；

图5为另一个实施例中群体风险识别方法的流程示意图；

图6为一个实施例中群体风险识别系统的结构示意图；

图7为一个实施例中群体风险识别装置的结构框图；

图8为另一个实施例中群体风险识别装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的群体风险识别方法，可以应用于如图1所示的应用环境中。在该应用环境中，包括终端102、用于与用户进行任务交互的服务器104和用于识别群体风险的服务器106，终端102、服务器104和服务器106之间可以网络等通讯连接方式连接。

终端102显示交互任务页面，该交互任务页面中显示有交互任务(如抽奖活动)，该交互任务可以是由服务器104根据商家的设置生成的，并且用户参与该交互任务的过程中，服务器104会采集该用户的用户数据，然后进行存储。服务器106可以从服务器104中获取各用户在参与相应交互任务的过程中形成的用户数据；对用户数据进行特征提取，得到针对各用户的多个用户特征；根据各用户与交互任务之间的对应关系，对多个用户特征分别进行特征筛选，得到至少两个特征集合矩阵；根据每个特征集合矩阵，分别计算各用户之间的相似度，得到至少两个相似度矩阵；基于至少两个相似度矩阵的融合矩阵，生成各用户间的关联网络；根据关联网络中各子网的群体数或各子网中连接边的权重，识别各子网对应的群体的风险程度。

其中，终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

服务器104和服务器106可以是独立的物理服务器，也可以是区块链系统中的服务节点，该区块链系统中的各服务节点之间形成组成点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission Control Protocol)协议之上的应用层协议。

此外，服务器104和服务器106还可以是多个物理服务器构成的服务器集群，可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network， CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一个实施例中，如图2所示，提供了一种群体风险识别方法，以该方法应用于图1中的服务器106为例进行说明，包括以下步骤：

S202，获取各用户在参与相应交互任务的过程中形成的用户数据。

其中，用户数据可以包括用户参与交互任务时的账号(即用户账号)、账号注册时间、任务标识(ID)、任务时间、设备类型、IP地址、网络类型、手机型号和系统版本等。

交互任务可以是用户在进行产品交互之前参与的活动，通过该活动可以获得相应的优惠券或其它礼品，然后利用该优惠券或其它礼品进行产品交互。例如，用户购买某个商品时，可以参与商家推出的优惠活动，从而可以得到抵扣券、打折券或现金优惠券等，从而在购买该商品时，可以利用所得的抵扣券、打折券或现金优惠券购买商品，从而享受到商家的优惠。

在一个实施例中，服务器从数据库中获取各用户在参与相应交互任务的过程中形成的用户数据；或者，服务器在数据库中按照不同的地域采样用户在参与相应交互任务的过程中形成的用户数据，从而得到不同地域用户的用户数据；又或者，服务器在数据库中按照不同的时段采样用户在参与相应交互任务的过程中形成的用户数据，从而得到不同时段参与活动所形成的用户数据。

S204，对用户数据进行特征提取，得到针对各用户的多个用户特征。

其中，用户特征可以是反映用户行为习惯和爱好的特征，每个用户可以对应多个用户特征。

在一个实施例中，服务器从用户数据中提取任务标识、任务时间、IP地址、设备类型和网络类型等五元组特征，该五元组特征即为S204所得的用户特征。此外，服务器还可以从用户数据中提取其它特征，如提取任务标识、任务时间、用户账号、账号注册时间和设备类型等五元组特征。

例如，假设有m个用户和n个活动，已知有一些用户会参加一个或多个活动，此时可以构建出一个稀疏矩阵，假设这个矩阵为N∈R^m*n，由于每个活动均有用户行为和状态，因此通过用户实体行为分析(User and Entity Behavior Analytics，UEBA)分析可以快速提取到五元组特征，令I_ij为用户i对活动j的属性，则可以得到I_ij为活动ID、活动时间、IP地址、设备类型和网络类型等五元组特征。使用矩阵N作为相似度算法的训练数据，目的就是预测出用户活动次数越多且属性越相似的用户。

在一个实施例中，服务器获取的是用户参与多次交互任务形成的用户数据，通过UEBA分析提取用户参与多次交互任务的行为特征，充分挖掘用户行为数据价值；克服特征维度单一、特征与风险相关性不高，传统机器学习较难挖掘等问题。

S206，根据各用户与交互任务之间的对应关系，对多个用户特征分别进行特征筛选，得到至少两个特征集合矩阵。

其中，对应关系可用于反映用户参与交互任务时所采用的参与方式，以及可以反映用户参与任务的次数。例如，该对应关系可以反映用户采用手机、台式电脑或平板电脑等不同设备参与相应的交互任务，也可以反映用户使用不同操作系统参与相应的交互任务，还可以反映用户利用虚拟账号或大量临时新注册的账号参与相应的交互任务。

在一个实施例中，各用户与不同的交互任务之间存在不同的对应关系；S206 具体可以包括：服务器根据各用户与交互任务之间的对应关系确定至少两个相似性条件；基于至少两个相似性条件对多个用户特征分别进行特征筛选。

其中，相似性条件用于将不同用户之间存在相似性的用户特征筛选出来，如筛选出采用虚拟账号参与活动的用户特征，或将使用新注册的用户账号参与活动的用户特征进行组合。该相似性条件可以通过以下方式得到：可以根据相同用户特征的数量来确定相似性条件，如大量用户采用新注册的用户账号参与活动，则可以将采用新注册的用户账号参与活动作为相似性条件来进行特征筛选；或者，可以根据用户特征进行组合排列，根据组合排列后得结果来确定相似性条件；或者，根据挖掘需求进行相似条件的确定，该挖掘需求可以指挖掘出大小号黄牛、设备农场群体作案和自动机等。需要指出的是，对应关系反映的是用户与交互任务之间的关系，如用户采用移动操作系统参与活动，或者利用虚拟账号参与活动，或者参与活动的次数多等等。而相似性条件是基于这些对应关系抽象出来的用于对各用户对应的用户特征进行筛选的条件。

特征筛选是指在所有用户的用户特征中筛选出满足相应相似性条件的用户特征。例如，若相似性条件为挖掘出利用新注册的账号参与活动，那么通过特征筛选的方式可以筛选出所有利用新注册的账号参与活动的用户特征。

特征集合矩阵是指满足相应相似性条件的所有用户特征的集合。例如，相似性条件为挖掘出利用新注册的账号参与活动，那么通过特征筛选的方式筛选出所有利用新注册的账号参与活动的用户特征，这些筛选出的用户特征所组成的矩阵即为特征集合矩阵。

具体地，用户在活动中所表现出的五元组特征作为相似性匹配时可能过于严苛，如设备农场群体作案可能不会用同样型号的手机或系统，自动机作案时也会用代理IP。因此，服务器可以根据用户与活动的对应关系确定相似性条件，如最严苛的相似性条件为1个活动的五元组特征全部匹配才算1次共性活动，这种适用于找出大小号的风险群体；对于设备农场群体作案，相似性条件可以不考虑手机型号和网络类型，而考虑其它的用户特征，如参与活动的用户，若使用虚拟账号或新注册的用户账号来参与活动，则对这些用户的用户特征进行筛选；对于自动机，相似性条件可以是不考虑设备型号和IP地址，而考虑共性活动次数(即不同用户参与相同活动的次数，如用户a参与活动1、活动2和活动3，而用户b参与活动2、活动3和活动4，则共性活动次数为2)，即对参与相同活动的用户所对应的用户特征进行筛选。因此，通过至少两个相似性条件进行特征筛选，可以得到至少两个不同相似性条件对应的特征集合矩阵。

S208，根据每个特征集合矩阵，分别计算各用户之间的相似度，得到至少两个相似度矩阵。

其中，相似度用于表示各用户之间的相似程度。相似度矩阵中的元素为各用户之间的相似度。

在一个实施例中，S208具体可以包括：服务器根据每个特征集合矩阵确定各用户参与的交互任务的任务向量；确定各用户参与的交互任务数量；将任务向量和交互任务数量输入至相似度算法进行相似度计算，得到至少两个相似度矩阵；其中，不同相似度矩阵用于反映各用户之间在不同相似性条件下的相似性。

其中，任务向量可以是用户参与交互任务所对应的向量，如用户参与各优惠活动所对应的向量。该任务向量可以根据特征集合矩阵来确定，具体可以是对特征集合矩阵中的各用户特征向量化，从而得到各用户参与的交互任务的任务向量。

例如，假设特征集合矩阵是按照是否为虚拟账号参与活动进行筛选的，则该特征集合矩阵中每个用户的用户特征均包含虚拟账号，因此特征集合矩阵可以是{用户a:活动a,3次参与活动,移动操作系统,境内IP地址,虚拟账号；用户b:活动b,1次参与活动,移动操作系统,境外IP地址,虚拟账号}，在进行向量化时，令不同的活动对应不同的值(活动a为1，活动b为2)，参与活动的次数小于2时置为0，大于或等于2时置为1，使用移动操作系统时置为1，使用桌面系统时置为0，使用境内IP地址置为1，使用境外IP地址置为0，使用虚拟账号置为 1，因此用户a的任务向量可以是(1,1,1,1,1)，用户b的任务向量可以是(2,0,1,0,1)。

交互任务数量可以是各用户分别参与不同交互任务的任务数量，如用户a参与了优惠活动1～n，则用户a的交互任务数量即为n；同理，用户b参与了优惠活动1～i(其中i小于n)，则用户b的交互任务数量即为i。或者，该交互任务数量可以是各用户在时间对齐后分别参与不同交互任务的任务数量，如用户a在时间t(0)～t(n)参与了优惠活动1～n，而在时间t(i)～t(n)参与了优惠活动i～n，则用户a的交互任务数量即为n-i+1；而用户b是在t(i)开始参与优惠活动，并且在 t(i)～t(n)参与了优惠活动j～n，则用户b的交互任务数量即为n-j+1。

在一个实施例中，用户包括第一用户和第二用户，第二用户是在第一用户之后的目标时间参与交互任务的用户。上述确定各用户参与的交互任务数量的步骤，具体可以包括：服务器确定第一用户和第二用户在目标时间至预设截止时间内参与的交互任务数量。

其中，由于第二用户在第一用户之后开始参与活动，因此目标时间可以是第二用户首次参与活动的时间，也可以是第二用户参与活动之后的某个时间(如第二用户参与活动的次日)。

预设截止时间可以指设定的一个计算任务数量的截止时间。在计算交互任务数量时，先将第一用户和第二用户参与活动的时间进行对齐，即都从目标时间开始计算第一用户和第二用户参与的交互任务数量，直至达到预设截止时间为止，从而得到第一用户和第二用户在目标时间至预设截止时间内参与的交互任务数量。

例如，假设活动平台每天都会举行不同的活动，若用户a在本月的日期t0 开始参与活动平台举行的活动，用户b在本月的日期t1开始参与活动平台举行的活动，假设预设截止时间为日期t2，在计算参与活动的数量时，则先将用户a 与用户b参与活动的日期进行对齐，即都从日期t1开始计算，即计算出来的活动数量是t1～t2这个时间段内参与活动的数量。

对于每一个活动都可以提取出5大元组特征，而这些特征组成的集合(即特征集合矩阵)在同一活动同一时间表现出一定的相似性，且每个用户在参与活动数量越多表现出特征集合的差异性越大。因此，用户在不同活动场景下特征集合的相似性数量，从而来反映出用户之间的相似性程度，假设N(u)表示用户u参加的活动向量，N(v)表示用户v参加的活动向量，因此可采用Jaccard算法计算相似度。

对于新用户或中途加入的用户，Jaccard算法是要参加活动集合的并集作为分母，对新用户或中途加入的用户永远匹配较差，因此这里做一些改进，定义 L_N(u)表示用户u的活动向量与用户v首次参加活动时间点对齐后的交互任务数量(活动数)，L_N(v)表示用户v参加活动的向量与用户u首次参加活动时间点对齐后的交互任务数量(活动数)，从而可以计算出各用户之间的相似度W(u,v)。

其中，改进后的Jaccard算法如下所示：

其中，τ表示共性活动次数项的正则系数，τ取值可以是0.01。可以看出改进后的Jaccard算法由2部分组成，前半部分为共性存在的比重同Jaccard相似系数，但分母上会考虑共性时间点因数，对齐首次活动，即2个用户之间出现共性活动的数量与上对齐首次活动后的最大活动次数比，比重越大表示共同活动时出现的情况越多；后半部分表示共性数量上的价值，弥补前半部分无法反映共性数量优势上的缺陷，如s＝4/5，y＝16/20，虽然在共性比上s＝y，但在共性数量s 小于y。

S210，基于至少两个相似度矩阵的融合矩阵，生成各用户间的关联网络。

其中，关联网络刻画企业客户之间、企业与自然人之间的社会关系和经济往来关系，帮助金融机构发现个体之间隐藏的共同特征，从而定位识别有团伙性质的欺诈成员。

在一个实施例中，S210之前，该方法还包括：服务器基于至少两个相似度矩阵对各用户进行筛选，以过滤掉相似度小于相似阈值的用户，得到目标用户； S210具体可以包括：服务器确定至少两个相似性条件各自的重要程度；基于重要程度对至少两个相似度矩阵进行融合，得到融合矩阵；基于融合矩阵生成针对目标用户的关联网络，如图3所示。

通过改进后的Jaccard算法可计算出若干个相似性矩阵，然后筛选过滤掉相似度小于相似阈值(如0.5)的用户，因为这些用户并未表现出相似性，同时也能节省存储空间加快运算速度。例如，假设相似度矩阵a是用户1-10之间的相似度组成的，相似度矩阵b是用户6-15之间的相似度组成的，那么可以在相似度矩阵a中将相似度大于0.5的用户筛选出来，以及在相似度矩阵b中将相似度大于0.5的用户筛选出来，从而得到相似度大于0.5的目标用户。

需要指出的是，对于目标用户的筛选，在至少两个相似度矩阵中，若某用户在其中一个相似度矩阵中的相似度大于预设阈值，而在其它相似度矩阵中的相似度小于预设阈值，则该用户会作为目标用户被筛选出来。例如，若相似度矩阵 a中关于用户6的相似度大于0.5，而相似度矩阵b中关于用户6的相似度小于0.5，那么筛选出来的目标用户包括用户6。

具体地，在筛选目标用户时，可以通过以下方式进行筛选：服务器基于至少两个相似度矩阵分别对相应的各用户进行排序，得到至少两个用户集；在各用户集内，将相似度小于相似阈值的用户进行过滤，并将重复出现的用户过滤掉，从而得到目标用户。例如，假设相似度矩阵a是用户1-10之间的相似度组成的，相似度矩阵b是用户6-15之间的相似度组成的，可以按照相似度从大到小的顺序依次对用户1-10以及用户6-15进行排序，得到经过排序的两个用户集。然后，在每个用户集内，分别将相似度小于0.5的用户进行过滤，得到每个用户集内相似度大于0.5的用户，若用户集a内相似度大于0.5的用户包括用户3-7，用户集b内相似度大于0.5的用户包括用户6-10，那么去除重复的用户，从而得到用户3-10，该用户3-10即为目标用户。

由于每个特征集合矩阵是在不同相似性条件下计算得到的结果，这些结果会受到相似性条件的约束导致相似性结果存在差异性，如相似性条件约束越少，用户与用户之间的相似性会越高，用户与用户数也越多，错误匹配也越大；同时相似性条件也存在一定的重要性排序，即相似性条件程度，如同时满足五元组特征集合得到的相似度值大于0.5的用户数一定会小于不考虑IP属性的特征集合得到的相似度值大于0.5的用户数，不考虑IP属性的特征集合得到的相似度值大于0.5的用户数一定小于只考虑网络类型的特征集合得到的相似度值大于0.5 的用户数。因此，在相似度矩阵融合的时候需要考虑条件约束带来的影响，越少的相似性约束条件惩罚越大。

在一个实施例中，服务器按照相似性条件的重要程度对各特征集合矩阵进行排序。例如，若L_N(u)∩N(v)为用户u与v共性的活动数，则

为用户u 与v在相似度矩阵1内的共性活动数，

为u与v在相似度矩阵1内的相似度，如表1所示：

表1

如表1所示，那么用户u与v融合后的相似性为：

改进后的Jaccard算法需要同时满足条件1和条件2的情况下才能成立，同时又达到了过滤低相似度的目的，此时可以得到最终的用户关联相似度矩阵。

在一个实施例中，服务器对至少两个相似度矩阵进行融合，得到融合矩阵；以融合矩阵中的相似度为连接边的权重，以各目标用户为网络节点构建关联网络。

其中，上述的融合可以指对至少两个相似度矩阵中的各相似度矩阵进行求和，然后计算平均值，将平均值小于相似阈值的相似度删除，得到以目标用户之间的相似度组成的融合矩阵；或者，还可以指将至少两个相似度矩阵中大于相似阈值的相似度提取出来，根据提取出来的相似度形成新的相似度矩阵，该新的相似度矩阵即为融合矩阵。

连接边可以指用于连接两个不同网络节点的边，如用于连接目标用户u对应的网络节点和目标用户v对应的网络节点的边。

连接边的权重可以指：该连接边所连接的两个网络节点所对应的目标用户之间的相似度(该相似度是融合矩阵中的相似度)。例如，网络节点u和网络节点v之间连接边的权重，可以是该网络节点u和网络节点v对应的目标用户u 与目标用户v之间的相似度。

S212，根据关联网络中各子网的群体数或各子网中连接边的权重，识别各子网对应的群体的风险程度。

其中，子网可以指关联网络中的一小块网络，如图4所示。(带T的表示中黑、带F的表示未中黑标签)

在一个实施例中，S212具体可以包括：服务器在关联网络中进行子网划分，得到多个子网；确定各子网中的网络节点数，网络节点数用于表示群体数；或者，确定各子网中连接边的权重；基于网络节点数和权重识别相应子网对应的全体的风险程度。

定义关联网络G＝{V,E}，网络节点V用于表示用户，连接边E用于表示用户之间的相似度，且连接边E的权重至少大于0.5，相似度即为权重。由于边的权重反映了用户之间同步行为的相似性，因此，网络节点的数量(即网络节点数) 反映了各子网对应的群体之间的共同相似性，子网中的网络节点数越多或边的权重越大，说明子网对应的群体的风险越高。

在一个实施例中，S212之后，该方法还包括：当关联网络中部分网络节点对应的目标用户存在风险标签时，服务器基于风险标签对部分网络节点进行风险标注；将风险标签存储于风险标签库；当风险程度达到风险阈值、且达到风险阈值对应的目标子网中未存在进行风险标注的网络节点时，对未进行标注的网络节点进行风险识别；若未进行标注的网络节点为安全用户对应的网络节点时，对风险标签库进行更新。

进一步地，若加入风险标签，可进一步更加直观得到群体地风险程度，继而通过子网的风险程度和标记为正常的用户对风险标签库进行更新，从而提升风险判断的准确率和可解释性。

上述群体风险识别方法可应用于领券活动、红包活动、签到活动、积分活动、风险预测、风险可视化和团伙发现等，显著地改善用户团伙发现的准确率，提升风控能力和营销活动的公平、真实性。为了更加清楚且直观地了解上述方案，这里结合图5和图6进行进一步的描述，如图5所示，群体识别方法包括：

S1，获取用户参与活动的数据，得到所需的用户数据。

S2，相似度计算，得到相似度矩阵。

S3，用户筛选和相似度矩阵融合。

S4，构建关联网络。

S5，根据关联网络识别出风险群体。

接下来，结合群体风险识别系统结构来对上述群体识别方法进行进一步阐述，如图6所示，具体如下所示：

1)首先获取用户在各种活动中形成的用户数据。

其中，该用户数据包括用户的行为数据和基础数据。此外，在获取用户的过程中，还可以获取用户的风险标签。

2)根据UEBA分析方法从用户数据中提取用户活动中的活动ID、活动时间、 IP地址、设备类型和网络类型等有效五元组特征；

3)根据用户每天参加的不同活动，抽取出每个活动的五元组特征，形成五元组特征集合；

4)根据用户与活动之间的对应关系构建特征集合矩阵，如通过不同的相似性条件形成不同的特征集合矩阵；

5)采用相似度算法，基于各特征集合矩阵计算用户之间的相似性，得到相似性矩阵；

6)将各相似度矩阵融合，并过滤出小于相似阈值的相似度，得到最终的相似度矩阵；

7)达到相似阈值的用户之间满足相似性，即可建立关联图谱，此时可以根据子网的网络节点数来判定群体风险；

8)将用户的风险标签加入风险标签库，更加准确的提取出群体风险情况；

9)将个体正常但群体风险较高的用户，反馈到风险标签库。

上述实施例中，通过对参与相应交互任务的过程中形成的用户数据进行特征提取，根据各用户与交互任务之间的对应关系，对提取的用户特征分别进行特征筛选，得到至少两个特征集合矩阵；根据每个特征集合矩阵分别计算各用户之间的相似度，得到至少两个相似度矩阵，基于至少两个相似度矩阵的融合矩阵生成各用户间的关联网络，从而利用关联网络中各子网的群体数或各子网中连接边的权重来识别群体的风险程度，从而有效地提高识别风险用户的准确性。

在常见的营销活动场景中，特别是用户行为数据不丰富的情况下，大部分都只能通过外部数据获得用户的风险状况，且未能充分挖掘用户在自身平台产生的行为价值。同时，调用外部接口产生的结果可能是通用结果，缺少对行业背景、活动状态、环境等因素考虑，如中黑用户在营销活动中有转化成交。因此，需要一种鲁棒的方法，利用已有的用户风险标签，结合营销活动的行为数据，充分挖掘数据价值，提升风险识别效果。

本申请提出采用UEBA和关联图谱相结合的挖掘方法在营销活动中，UEBA 用于抽取用户的特征，然后利用该提取特征构建关联图谱，通过关联图谱构建关联群体。这种方法的优势在于：1)规避了上述用户行为数据不丰富的问题，因为UEBA是一个分析用户行为方法，能够有效提取出行为特征；2)可解释性较强，关联图谱是通过用户实体之间的共性挖掘出群体用户，区别于传统机器学习按单用户维度去挖掘特征解释性较难；3)用户行为相似性可以转化为用户之间的强关联关系。物以类聚，人以群分。当IP、手机型号、系统版本等该弱特征在同样的活动同样的时间片出现到一定频率时，弱关联就能逐步转化成强关联； 4)能修正风险标签提高准确率和召回率，通过用户风险标签，能提取出风险群体，继而返回修正用户风险标签，达到提高唤醒准确率和召回率。在典型的应用场景如车险春节领券活动中，该方法跟踪用户连续参加活动行为特征，对用户参加每个活动的时间进行UEBA的5大元组特征的抽取构建关联网络，通过时间点、IP、手机型号、活动ID等弱关系挖掘出群体用户，从而充分发挥已有数据的价值，提高准确率。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种群体风险识别装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块702、提取模块704、筛选模块706、计算模块708、生成模块710和识别模块712，其中：

获取模块702，用于获取各用户在参与相应交互任务的过程中形成的用户数据；

提取模块704，用于对用户数据进行特征提取，得到针对各用户的多个用户特征；

筛选模块706，用于根据各用户与交互任务之间的对应关系，对多个用户特征分别进行特征筛选，得到至少两个特征集合矩阵；

计算模块708，用于根据每个特征集合矩阵，分别计算各用户之间的相似度，得到至少两个相似度矩阵；

生成模块710，用于基于至少两个相似度矩阵的融合矩阵，生成各用户间的关联网络；

识别模块712，用于根据关联网络中各子网的群体数或各子网中连接边的权重，识别各子网对应的群体的风险程度。

在其中的一个实施例中，各用户与不同的交互任务之间存在不同的对应关系；

筛选模块706，还用于根据各用户与交互任务之间的对应关系确定至少两个相似性条件；基于至少两个相似性条件对多个用户特征分别进行特征筛选。

在其中的一个实施例中，计算模块708，还用于根据每个特征集合矩阵确定各用户参与的交互任务的任务向量；确定各用户参与的交互任务数量；将任务向量和交互任务数量输入至相似度算法进行相似度计算，得到至少两个相似度矩阵；其中，不同相似度矩阵用于反映各用户之间在不同相似性条件下的相似性。

在其中的一个实施例中，用户包括第一用户和第二用户，第二用户是在第一用户之后的目标时间参与交互任务的用户；计算模块708，还用于确定第一用户和第二用户在目标时间至预设截止时间内参与的交互任务数量。

在其中的一个实施例中，筛选模块706，还用于基于至少两个相似度矩阵对各用户进行筛选，以过滤掉相似度小于相似阈值的用户，得到目标用户；

生成模块710，还用于确定至少两个相似性条件各自的重要程度；基于重要程度对至少两个相似度矩阵进行融合，得到融合矩阵；基于融合矩阵生成针对目标用户的关联网络。

在其中的一个实施例中，生成模块710，还用于以融合矩阵中的相似度为连接边的权重，以各目标用户为网络节点构建关联网络。

在其中的一个实施例中，识别模块712，还用于在关联网络中进行子网划分，得到多个子网；确定各子网中的网络节点数，网络节点数用于表示群体数；或者，确定各子网中连接边的权重；基于网络节点数和权重识别相应子网对应的全体的风险程度。

在其中的一个实施例中，如图8所示，该装置还包括：

标注模块714，用于当关联网络中部分网络节点对应的目标用户存在风险标签时，基于风险标签对部分网络节点进行风险标注；

存储模块716，用于将风险标签存储于风险标签库；

识别模块712，还用于当风险程度达到风险阈值、且达到风险阈值对应的目标子网中存在未进行风险标注的网络节点时，对未进行标注的网络节点进行风险识别；

更新模块718，用于若未进行标注的网络节点为安全用户对应的网络节点时，对风险标签库进行更新。

关于群体风险识别装置的具体限定可以参见上文中对于群体风险识别方法的限定，在此不再赘述。上述群体风险识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用户数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种群体风险识别方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种群体风险识别方法，其特征在于，所述方法包括：

获取各用户在参与相应交互任务的过程中形成的用户数据；

2.根据权利要求1所述的方法，其特征在于，各所述用户与不同的所述交互任务之间存在不同的对应关系；

所述根据各所述用户与所述交互任务之间的对应关系，对多个所述用户特征分别进行特征筛选包括：

根据各所述用户与所述交互任务之间的对应关系确定至少两个相似性条件；

基于至少两个所述相似性条件对多个所述用户特征分别进行特征筛选。

3.根据权利要求1所述的方法，其特征在于，所述根据每个所述特征集合矩阵，分别计算各所述用户之间的相似度，得到至少两个相似度矩阵包括：

根据每个所述特征集合矩阵确定各所述用户参与的交互任务的任务向量；

确定各所述用户参与的交互任务数量；

将所述任务向量和所述交互任务数量输入至相似度算法进行相似度计算，得到至少两个相似度矩阵；

其中，不同所述相似度矩阵用于反映各所述用户之间在不同相似性条件下的相似性。

4.根据权利要求3所述的方法，其特征在于，所述用户包括第一用户和第二用户，所述第二用户是在所述第一用户之后的目标时间参与所述交互任务的用户；所述确定各所述用户参与的交互任务数量包括：

确定所述第一用户和所述第二用户在所述目标时间至预设截止时间内参与的交互任务数量。

5.根据权利要求2所述的方法，其特征在于，所述基于至少两个所述相似度矩阵的融合矩阵，生成各所述用户间的关联网络之前，所述方法还包括：

基于至少两个所述相似度矩阵对各所述用户进行筛选，以过滤掉相似度小于相似阈值的用户，得到目标用户；

所述基于至少两个所述相似度矩阵的融合矩阵，生成各所述用户间的关联网络包括：

确定至少两个所述相似性条件各自的重要程度；

基于所述重要程度对至少两个所述相似度矩阵进行融合，得到融合矩阵；

基于所述融合矩阵生成针对所述目标用户的关联网络。

6.根据权利要求5所述的方法，其特征在于，所述基于所述融合矩阵生成针对所述目标用户的关联网络包括：

以所述融合矩阵中的相似度为连接边的权重，以各所述目标用户为网络节点构建关联网络。

7.根据权利要求1至6中的任一项所述的方法，其特征在于，所述根据所述关联网络中各子网的群体数或各所述子网中连接边的权重，识别各所述子网对应的群体的风险程度包括：

在所述关联网络中进行子网划分，得到多个子网；

确定各所述子网中的网络节点数，所述网络节点数用于表示所述群体数；或者，确定各所述子网中连接边的权重；

基于所述网络节点数和所述权重识别相应所述子网对应的全体的风险程度。

8.根据权利要求1至6中的任一项所述的方法，其特征在于，所述识别各所述子网对应的群体的风险程度之后，所述方法还包括：

当所述关联网络中部分网络节点对应的目标用户存在风险标签时，基于所述风险标签对所述部分网络节点进行风险标注；

将所述风险标签存储于风险标签库；

当所述风险程度达到风险阈值、且达到所述风险阈值对应的目标子网中存在未进行风险标注的网络节点时，对未进行标注的所述网络节点进行风险识别；

若未进行标注的所述网络节点为安全用户对应的网络节点时，对所述风险标签库进行更新。

9.一种群体风险识别装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，各所述用户与不同的所述交互任务之间存在不同的对应关系；

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。

12.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。