CN115392351A - 风险用户识别方法、装置、电子设备及存储介质 - Google Patents
风险用户识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115392351A CN115392351A CN202210933371.XA CN202210933371A CN115392351A CN 115392351 A CN115392351 A CN 115392351A CN 202210933371 A CN202210933371 A CN 202210933371A CN 115392351 A CN115392351 A CN 115392351A
- Authority
- CN
- China
- Prior art keywords
- user
- risk
- feature vectors
- group
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Development Economics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Educational Administration (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了风险用户识别方法、装置、电子设备及存储介质,包括:获取到第一集合;其中,第一集合包括多个用户特征向量;计算得到第一集合中每两个用户特征向量之间的相似度;基于每一个用户特征向量与每两个用户特征向量之间的相似度,将第一集合划分为多个群组;确定每一个群组的风险分数,并获取每一个群组中的至少一个频繁项集;其中,每一个频繁项集均对应至少一条风险识别规则;根据每一个群组的风险分数以及频繁项集生成对应的风险信息,以通过风险信息对风险用户进行识别。本申请能够在短时间内识别出新的欺诈模式,并基于新的欺诈模式对风险用户进行识别,以实现提前防控,且由于无需依赖标注样本,还能够提高识别效率及识别准确率。
Description
技术领域
本申请涉及风控技术领域,特别是涉及风险用户识别方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的发展,用户习惯在运行相关业务的网络服务提供商的系统中注册账户,然后将账户作为其身份的代表来执行相关的业务逻辑。然而,各种不法人员,通常将注册的账户用于进行欺诈等犯罪行为,不仅危害了企业的利益,也危害了用户个人信息安全。
现有技术中,主要是基于规则引擎的方法和基于监督机器分类模型的方法对风险用户进行识别。其中,基于规则引擎的方式包括将风控专家的经验知识转化为欺诈防范业务规则,或,建立黑白名单规则,以通过规则引擎的方式进行匹配。基于监督机器分类模型的方法是通过收集黑产样本并提取相应的特征,继而利用监督机器学习方法构建分类模型,以通过分类模型识别风险用户。
然而,基于规则引擎的方式过分依赖于人工,成本较高,而基于监督机器分类模型的方法又需要大量的带标签数据,受限于标签的积累以及时效性,且上述方法均只能识别现有的欺诈模式,无法在较短时间内识别新型的欺诈模式,存在风险识别滞后的问题。
发明内容
本申请主要解决的技术问题是风险用户识别方法、装置、电子设备及存储介质,能够解决现有技术中存在的风险识别滞后的问题。
为解决上述技术问题,本申请采用的第一技术方案是提供一种风险用户识别方法,包括:获取到第一集合;其中,第一集合包括多个用户特征向量;计算得到第一集合中每两个用户特征向量之间的相似度;基于每一个用户特征向量与每两个用户特征向量之间的相似度,将第一集合划分为多个群组;确定每一个群组的风险分数,并获取每一个群组中的至少一个频繁项集;其中,每一个频繁项集均对应至少一条风险识别规则;根据每一个群组的风险分数以及频繁项集生成对应的风险信息,以通过风险信息对风险用户进行识别。
其中,获取到第一集合的步骤,包括:收集到预设数量的多个用户数据;其中,用户数据包括结构化数据与非结构化数据;对多个用户数据进行预处理,以获取到第二集合;其中,第二集合包括多个用户初始特征向量;利用信息熵表征每一个用户初始特征向量的权重值;基于每一个用户初始特征向量与对应的权重值获取到每一个用户特征向量,以基于多个用户特征向量组成第一集合。
其中,对多个用户数据进行预处理,以获取到第二集合的步骤,包括:对每一个结构化数据以及非结构化数据进行统计,并基于统计结果清洗异常数据;基于统计结果对数值型数据进行排序,并对排序后的数值型数据进行分桶,以将排序后的数值型数据转化为用户初始特征向量,并基于多个用户初始特征向量构建第二集合。
其中,基于每一个用户初始特征向量与对应的权重值获取到每一个用户特征向量,以基于多个用户特征向量组成第一集合的步骤,包括:基于独热编码机制对每一个用户初始特征向量进行编码,以获取每一个用户初始特征向量对应的高维向量;其中,同一个用户对应多个用户初始特征向量;将每一个高维向量乘以对应的权重值,以获取到多个拼接特征向量;对属于同一个用户的多个拼接特征向量进行拼接,以获取到每一个用户特征向量,基于多个用户特征向量组成第一集合。
其中,计算得到第一集合中每两个用户特征向量之间的相似度的步骤,包括:利用至少一种相似度算法确定第一集合中每两个用户特征向量之间的相似度。
其中,基于每一个用户特征向量与每两个用户特征向量之间的相似度,将第一集合划分为多个群组的步骤,包括:确定邻域参数;其中,邻域参数包括聚类半径以及每一个聚类样本的最小数目;基于每两个用户特征向量之间的相似度进行计算,以得到每一个用户特征向量与其余用户向量特征之间的距离;对同一个用户特征向量对应的多个距离进行统计,确定多个距离中数值小于聚类半径的个数;响应于个数大于最小数目,将对应的用户特征向量确定为核心向量,并对核心向量添加对应的标签;对第一集合中的多个用户特征向量进行遍历,以确定出所有的核心向量;基于邻域参数确定位于每一个核心向量的邻域内的多个用户特征向量,并对位于每一个核心向量的邻域内的多个用户特征向量添加与对应的核心向量相同的标签;将具有相同标签的多个用户特征向量划分到同一个群组中。
其中,确定每一个群组的风险分数,并获取每一个群组中的至少一个频繁项集的步骤,包括:基于每一个群组中每两个用户特征向量之间的相似度确定群组的聚集度;利用每一个群组中多个用户特征向量对应的多个用户初始特征向量确定群组的风险程度;对聚集度与风险程度进行计算,以基于计算结果确定每一个群组的风险分数;基于风险识别规则对每一个群组中多个用户特征向量对应的多个用户初始特征向量进行挖掘,以获取到每一个群组中的至少一个频繁项集。
其中,利用每一个群组中多个用户特征向量对应的多个用户初始特征向量确定群组的风险程度的步骤,包括:获取每一个群组中的每一个用户初始特征向量对应的取值;依次判断每一个取值是否在风险值集合中;响应于用户初始特征向量对应的取值在风险值集合中,将用户初始特征向量对应的参数设置为1;或,响应于用户初始特征向量对应的取值不在风险值集合中,将用户初始特征向量对应的参数设置为0;利用每一个用户初始特征向量对应的参数计算群组的风险程度。
其中,基于风险识别规则对每一个群组中多个用户特征向量对应的多个用户初始特征向量进行挖掘,以获取到每一个群组中的至少一个频繁项集的步骤,包括:将群组中每一个用户初始特征向量对应的取值划分为多个项集;其中,每一个项集中包括同一类型的特征数据;根据每一个项集中的数据类型确定对应的风险识别规则;将每一个项集中的特征数据与对应的风险识别规则进行匹配;响应于特征数据与风险识别规则中的预设值的相似度不小于相似度阈值,累计特征数据的出现次数;响应于出现次数不小于设定阈值,确定项集为频繁项集。
为解决上述技术问题,本申请采用的第二技术方案是提供一种风险用户识别装置,包括:获取模块,用于获取到第一集合;其中,第一集合包括多个用户特征向量;计算模块,用于计算第一集合中每两个用户特征向量之间的相似度;分类模块,用于基于每一个用户特征向量与每两个用户特征向量之间的相似度,利用聚类算法将第一集合划分为多个群组;确定模块,用于确定每一个群组的风险分数,并获取每一个群组中的至少一个频繁项集;其中,每一个频繁项集均对应至少一条风险识别规则;识别模块,用于根据每一个群组的风险分数以及频繁项集生成对应的风险信息,以通过风险信息对风险用户进行识别。
为解决上述技术问题,本申请采用的第三技术方案是提供一种电子设备,包括:存储器,用于存储程序数据,程序数据被执行时实现如上述任一项所述的风险用户识别方法中的步骤;处理器,用于执行存储器存储的程序指令以实现如上述任一项所述的风险用户识别方法中的步骤。
为解决上述技术问题,本申请采用的第四技术方案是提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述任一项所述的风险用户识别方法中的步骤。
本申请的有益效果是:区别于现有技术,本申请提供风险用户识别方法、装置、电子设备及存储介质,通过计算得到第一集合中每两个用户特征向量之间的相似度,能够有效构建用户之间的关联。继而利用每一个用户特征向量与所述每两个所述用户特征向量之间的相似度,将第一集合划分为多个群组,能够对相似度接近的用户特征向量进行聚类。进一步地,通过确定每一个群组的风险分数以及获取到对应的至少一个频繁项集,能够根据频繁项集获取到每一个群组对应的风险识别规则,进而根据每一个群组的风险分数以及频繁项集生成对应的风险信息,能够基于风险分数以及风险识别规则对风险用户进行识别。本申请通过构建用户特征向量,并通过用户特征向量之间的关联来生成风险信息,能够在短时间内识别出新的欺诈模式,并基于新型的欺诈模式对风险用户进行识别,从而不仅实现了对多样化风险识别的需求,还实现了提前防控,继而有效降低了欺诈风险。此外,本申请由于无需依赖标注样本以及大量人工,不仅降低了人工成本,还能够提高识别效率以及识别准确率,从而满足对海量数据进行实时分析的需求。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请风险用户识别方法第一实施方式的流程示意图;
图2是本申请风险用户识别方法第二实施方式的流程示意图;
图3是本申请风险用户识别方法第三实施方式的流程示意图;
图4是本申请风险用户识别方法第四实施方式的流程示意图;
图5是图4中S45一具体实施方式的流程示意图;
图6是图4中S47一具体实施方式的流程示意图;
图7是本申请风险用户识别方法一应用场景的工作流程图;
图8是本申请风险用户识别装置一实施方式的结构示意图;
图9是本申请电子设备一实施方式的结构示意图;
图10是本申请计算机可读存储介质一实施方式的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,均属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,本文中使用的术语“包括”、“包含”或者其他任何变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
请参阅图1,图1是本申请风险用户识别方法第一实施方式的流程示意图。在本实施方式中,风险用户识别方法包括:
S11:获取到第一集合;其中,第一集合包括多个用户特征向量。
本实施方式中,用户特征向量为将获取的用户数据进行向量化得到的。
其中,用户特征向量包括多个拼接的特征向量。
其中,每一个用户对应有多个维度的用户数据,每个维度的用户数据对应一个特征向量。由于不同维度的用户数据的重要性不同,每一维度的用户数据所形成的特征向量中包括其对应的权重值,以通过权重值来表征用户数据的重要性。
可以理解地,基于同一个用户可以获取到多维度的用户数据,基于多维度的用户数据构建用户特征向量,并构建第一集合,能够有效构建用户之间的关联。
S12:计算得到第一集合中每两个用户特征向量之间的相似度。
其中,相似度是综合评定两个事物之间相近程度的一种度量。两个事物越接近,它们的相似性度量也就越大,而两个事物越疏远,它们的相似性度量也就越小。
本实施方式中,利用至少一种相似度算法确定第一集合中每两个用户特征向量之间的相似度。
具体地,可采用杰卡德相似系数(Jaccard Coefficient)、余弦相似度(CosineSimilarity)、欧式距离(Euclidean Distance)、皮尔森相关系数(Pearson CorrelationCoefficient)、KL散度(Kullback-Leibler Divergence)、Tanimoto系数(广义Jaccard相似系数)以及互信息 (Mutual Information)中的任意一种相似度算法确定第一集合中每两个用户特征向量之间的相似度,本申请对此不作限定。
S13:基于每一个用户特征向量与每两个用户特征向量之间的相似度,将第一集合划分为多个群组。
本实施方式中,利用聚类算法将第一集合中的多个用户特征向量划分到多个群组中。
具体地,同一群组中的用户特征向量之间的相似度较高,不同群组的用户特征向量的相似度较低。因而可根据用户特征向量在划分得到的多个群组中的分布信息,从多个待识别用户中识别出风险用户。
可以理解地,基于用户特征向量所述群组进行风险用户的判定,能够大大减少对应的用户账号被关联到黑产群组中的概率,使得对风险用户的识别更为准确。
S14:确定每一个群组的风险分数,并获取每一个群组中的至少一个频繁项集;其中,每一个频繁项集均对应至少一条风险识别规则。
本实施方式中,风险分数是基于各用户向量特征之间的相似度以及风险程度计算得到的。
在一个具体的实施场景中,响应于计算出的风险分数未超过预设的风险分数阈值,判定对应群组中的用户为低风险或中风险用户。在另一个具体的实施场景中,响应于计算出的风险分数超过预设的风险分数阈值,判定对应群组中的用户为高风险用户。
本实施方式中,频繁项集指的是支持度大于或者等于最小支持度的集合。支持度指的是某个集合在所有业务中出现的频率。
其中,每一个频繁项集均对应至少一条风险识别规则,不同频繁项集中对应的风险识别规则不重复。其中,被划分到同一群组中的用户特征向量都是具有对应的风险识别规则的。
风险识别规则可以认为是该群组内的用户特征向量之所以聚类形成群组的原因(成簇原因),例如,某一个群组中有超过50%的用户特征向量中包括同一个被标记为有风险的IP地址数据,则使用IP 地址数据就是该频繁项集对应的风险识别规则,这个群组之所以成簇是由于大部分用户使用了同一个有风险的IP地址数据。
可以理解地,通过频繁项集覆盖尽可能多的群组,能够保证频繁项集对应的风险识别规则更加准确,从而可以全面地体现用户特征数据与风险之间的关系。
S15:根据每一个群组的风险分数以及频繁项集生成对应的风险信息,以通过风险信息对风险用户进行识别。
本实施方式中,不仅对高风险用户对应的群组采用频繁项集挖掘成簇原因,还可以对低风险用户或中风险用户采用频繁项集挖局成簇原因,以生成更多的风险信息。
其中,不同的群组对应有不同的频繁项集,不同的频繁项集又对应有不同的风险识别规则。后续客户端获取到基于风险分数以及频繁项集生成的风险信息后,可以利用不同的风险识别规则识别不同的风险操作,继而针对不同的风险操作进行不同的风险处理。
在一个具体的实施场景中,响应于某一群组的风险信息中的风险分数为超过预设风险分数阈值的数值,表明该群组中的用户为高风险用户,直接利用风险信息中包括的风险识别规则获取到对应的风险处理方式,并基于风险处理方式对用户账户进行控制,从而实现客户端的风险控制。
可以理解地,通过生成的风险信息进行风险控制,能够极大提升风险控制的效率和实时性,从而解决风险识别滞后的问题。
区别于现有技术,本实施方式通过构建用户特征向量,并通过用户特征向量之间的关联来生成风险信息,能够在短时间内识别出新的欺诈模式,并基于新型的欺诈模式对风险用户进行识别,从而不仅实现了对多样化风险识别的需求,还实现了提前防控,继而有效降低了欺诈风险。此外,本实施方式由于无需依赖标注样本以及大量人工,不仅降低了人工成本,还能够提高识别效率以及识别准确率,从而满足对海量数据进行实时分析的需求。
请参阅图2,图2是本申请风险用户识别方法第二实施方式的流程示意图。在本实施方式中,利用信息熵表征每一个用户初始特征向量的权重值,并构建用户特征向量。风险用户识别方法包括:
S21:收集到预设数量的多个用户数据;其中,用户数据包括结构化数据与非结构化数据。
本实施方式中,采用滑动窗口的方式收集用户数据。
在一个具体的实施场景中,设置每次移动的间隔为T,时间窗口为2T,以使两个重口之间有重叠区域,从而确保不同时间窗口的用户关联不会丢失。
可以理解地,实际业务中全天的数据量过大,如果对任意时刻的用户数据都进行收集且分析,会导致计算时间过长,采用滑动窗口的方式收集数据能够在不丢失用户关联信息的情况下,有效提高计算效率。
本实施方式中,结构化数据为用户的申请业务数据,非结构化数据为用户的设备数据、操作数据以及社交数据。
具体地,设备数据可以是用户的手机号数据、GPS(全球定位系统)定位数据、MAC(设备标识信息)地址数据以及IP(互联网协议)地址数据等。操作数据可以是用户使用应用程序时的数据,例如输入身份证号、手机号、银行卡号等。社交数据可以是用户在应用程序上与其余用户进行交流的数据。
S22:对多个用户数据进行预处理,以获取到第二集合;其中,第二集合包括多个用户初始特征向量。
本实施方式中,首先对每一个结构化数据以及非结构化数据进行统计,并基于统计结果清洗异常数据。
其中,由于非结构化数据无法用于后续的计算,因此在获取到非结构数据后,通常会将其进行结构化后再进行统计。
其中,异常数据为不在预设区间的数据。例如,某一类型特征对应的正常取值范围为10%~90%,若获取的该类型中的某一特征的取值为95%,则该特征为异常数据。
进一步地,基于统计结果对数值型数据进行排序,并对排序后的数值型数据进行分桶(hive),以将排序后的数值型数据转化为用户初始特征向量。
其中,数值型数据是指按数字尺度测量的观察值,其结果表现为具体的数值。本实施方式所获取的用户数据中,大多数都是数值型数据。
在一个具体的实施场景中,可以按从小到大的顺序对数值型数据进行排序。在另一个具体的实施场景中,还可以按照从大到小的顺序对数值型数据进行排序,本申请对此不作限定。
其中,hive指的是将结构化数据映射为一张数据库表,并提供类 SQL(StructuredQuery Language,结构化语言查询)功能。
Hive中形成的合理分区提供了一个隔离数据和优化查询的便利方式,在处理大规模数据集时,可以使用整个数据集的一部分进行抽样测试查询、修改,从而使得开发更高效。
进一步地,基于多个用户初始特征向量构建第二集合。
由于同一个用户对应有多个维度的用户数据,且同一维度的用户数据对应一个类型特征,因此同一个用户对应有多个用户初始特征向量。
本实施方式中,将第二集合表示为X={x1[1],x2[1],…,xi[j],…, xm[n]},xi∈Rn,其中,xi[j]表示第i个用户在第j类特征上的取值。
S23:利用信息熵表征每一个用户初始特征向量的权重值。
其中,信息熵是一个数学上颇为抽象的概念,可以将信息熵理解成某种特定信息(随机变量)的出现概率,或是理解为随机变量中每个事件的信息量的“平均值”,即信息量的数学期望。
考虑到不同用户初始特征向量具有不同的重要程度,本实施方式基于信息理论,利用信息熵表征每一个用户初始特征向量的权重值。
具体地,通过如下计算公式信息熵:
其中,pk表示第k个用户初始特征向量的概率分布,H表示信息熵。
由于信息熵计算公式中的随机变量的概率分布是已经给定的,其样本空间与样本空间中的每个样本点的概率值也是给定的,即随机变量的概率是给定的,因而通过信息熵计算出的权重值能够定量地刻画每一个用户初始特征向量的重要程度。
S24:基于每一个用户初始特征向量与对应的权重值获取到每一个用户特征向量,以基于多个用户特征向量组成第一集合。
本实施方式中,首先基于独热编码(One-Hot Encoding)机制对每一个用户初始特征向量进行编码,以获取每一个用户初始特征向量对应的高维向量。
其中,由于同一个用户对应多个用户初始特征向量,因而同一个用户对应有多个高维向量。
其中,独热编码又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。即,只有一位是1,其余都是零值。
进一步地,将每一个高维向量乘以对应的权重值,以获取到多个拼接特征向量。
其中,对应的权重值即为上文计算出的信息熵。
进一步地,对属于同一个用户的多个拼接特征向量进行拼接,以获取到每一个用户特征向量,基于多个用户特征向量组成第一集合。
本实施方式中,将用户特征向量表示为U=H1v1⊕H2v2⊕…⊕ Hnvn,其中,Hi表示第i个用户初始特征向量对应的权重值,vi表示第i个用户初始特征向量对应的高位向量,Hivi表示第i个用户初始特征向量对应的拼接向量,U表示用户特征向量。
其中,每一个用户对应一个用户特征向量,第一集合中包括多个用户的用户特征向量。
S25:计算得到第一集合中每两个用户特征向量之间的相似度。
本实施方式中,利用杰卡德相似系数计算得到第一集合中每两个用户特征向量之间的相似度,以刻画用户之间的关联。
具体地,相似度计算公式如下:
其中,Ui和Uj分别表示第一集合中第i个用户特征向量和第j个用户特征向量,表示第i个用户特征向量和第j个用户特征向量的交集元素,表示第i个用户特征向量和第j个用户特征向量的并集元素,Sim(Ui,Uj)表示第i个用户特征向量和第j个用户特征向量的相似度。
其中,相似度越大,两个用户特征向量的共同特征越多。
S26:基于每一个用户特征向量与每两个用户特征向量之间的相似度,将第一集合划分为多个群组。
具体过程请参见S13中的描述,此处不再赘述。
S27:确定每一个群组的风险分数,并获取每一个群组中的至少一个频繁项集;其中,每一个频繁项集均对应至少一条风险识别规则。
具体过程请参见S14中的描述,此处不再赘述。
S28:根据每一个群组的风险分数以及频繁项集生成对应的风险信息,以通过风险信息对风险用户进行识别。
具体过程请参见S15中的描述,此处不再赘述。
区别于现有技术,本实施方式利用信息熵表征每一个用户初始特征向量的权重值,能够定量地刻画每一个用户初始特征向量的重要程度,从而有效地构建用户之间的关联。
请参阅图3,图3是本申请风险用户识别方法第三实施方式的流程示意图。在本实施方式中,利用聚类算法将第一集合划分为多个群组。风险用户识别方法包括:
S301:获取到第一集合;其中,第一集合包括多个用户特征向量。
具体过程请参见S13与S21~S24中的描述,此处不再赘述。
S302:计算得到第一集合中每两个用户特征向量之间的相似度。
具体过程请参见S25中的描述,此处不再赘述。
S303:确定邻域参数;其中,邻域参数包括聚类半径以及每一个聚类样本的最小数目。
本实施方式中,利用DBSCAN(Density-Based Spatial Clustering ofApplications with Noise)聚类算法对第一集合中的多个用户特征向量进行聚类。
其中,DBSCAN是一个比较有代表性的基于密度的聚类算法,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。
其中,聚类半径指的是DBSCAN中的ε邻域的半径。其中,ε邻域指的是给定对象半径为ε内的区域。
其中,在DBSCAN中,如果给定对象ε邻域内的样本点数大于等于每一个聚类样本的最小数目(MinPts),则称该对象为核心对象。本实施方式中为了叙述方便,将核心对象称为核心向量。
本实施方式中,邻域参数是通过对大量数据进行分析后,经过微调获取的。
S304:基于每两个用户特征向量之间的相似度进行计算,以得到每一个用户特征向量与其余用户向量特征之间的距离。
本实施方式中,通过如下公式计算每一个用户特征向量与其余用户向量特征之间的距离:
r=1/Sim(Ui,Uj)
其中,r为第i个用户特征向量和第j个用户特征向量之间的距离, Sim(Ui,Uj)表示第i个用户特征向量和第j个用户特征向量的相似度。
S305:对同一个用户特征向量对应的多个距离进行统计,确定多个距离中数值小于聚类半径的个数。
本实施方式中,通过对同一个用户特征向量对应的多个距离进行统计,并确定多个距离中数值小于聚类半径的个数,以判断该用户特征向量是否为核心向量。
S306:响应于个数大于最小数目,将对应的用户特征向量确定为核心向量,并对核心向量添加对应的标签。
本实施方式中,响应于个数大于最小数目,表明以某一用户特征向量为中心的ε邻域内的样本点数大于等于MinPts,符合DBSCAN 中对于核心对象的要求,确定该用户特征向量为核心向量。
进一步地,对核心向量添加对应的标签。
S307:对第一集合中的多个用户特征向量进行遍历,以确定出所有的核心向量。
本实施方式中,利用上述方式对第一集合中的多个用户特征向量进行遍历,以确定出所有的核心向量,并添加对应的标签。
其中,每一个核心向量具有不同的标签。
S308:基于邻域参数确定位于每一个核心向量的邻域内的多个用户特征向量,并对位于每一个核心向量的邻域内的多个用户特征向量添加与对应的核心向量相同的标签。
本实施方式中,基于聚类半径确定位于每一个核心向量的ε邻域内的多个非核心向量的用户特征向量。
具体地,若某一个核心向量位于另一个核心向量的ε邻域内,该核心向量不会被划分到另一个核心向量所属的簇中,即只有非核心向量才会被划分到对应的核心向量所属的簇中,并被添加与对应的核心向量相同的标签。
S309:将具有相同标签的多个用户特征向量划分到同一个群组中。
本实施方式中,通过上述方式得到群组集合,将群组集合表示为 C={C1,C2,…,Ci…,Ck},其中,Ci表示标签为i的用户群组,k 表示共有k个用户群组。
可以理解地,具有相同标签的用户特征向量之间的相似度较大,关联性较强。
S310:确定每一个群组的风险分数,并获取每一个群组中的至少一个频繁项集;其中,每一个频繁项集均对应至少一条风险识别规则。
具体过程请参见S14中的描述,此处不再赘述。
S311:根据每一个群组的风险分数以及频繁项集生成对应的风险信息,以通过风险信息对风险用户进行识别。
具体过程请参见S15中的描述,此处不再赘述。
区别于现有技术,本实施方式利用聚类算法将第一集合中的多个用户特征向量划分为多个群组,能够挖掘出具有不同特征的群组,以提高用户所属群组的精度,从而极大减少对应的用户账号被关联到黑产群组中的概率,使得对风险用户的识别更为准确。
请参阅图4,图4是本申请风险用户识别方法第四实施方式的流程示意图。在本实施方式中,利用相似度与用户初始特征向量计算群组的风险分数,以及基于风险识别规则获取群组的频繁项集。风险识别方法包括:
S41:获取到第一集合;其中,第一集合包括多个用户特征向量。
具体过程请参见S13与S21~S24中的描述,此处不再赘述。
S42:计算得到第一集合中每两个用户特征向量之间的相似度。
具体过程请参见S25中的描述,此处不再赘述。
S43:基于每一个用户特征向量与每两个用户特征向量之间的相似度,将第一集合划分为多个群组。
具体过程请参见S303~S309中的描述,此处不再赘述。
S44:基于每一个群组中每两个用户特征向量之间的相似度确定群组的聚集度。
本实施方式中,通过如下公式计算聚集度:
其中,I为聚集度,Ck表示标签为k的用户群组,Ui和Uj分别表示Ck中第i个用户特征向量和第j个用户特征向量,Sim(Ui,Uj)表示第 i个用户特征向量和第j个用户特征向量的相似度。
其中,除以2是为了消除重复计算的影响,以提高计算精度。
S45:利用每一个群组中多个用户特征向量对应的多个用户初始特征向量确定群组的风险程度。
具体地,请参阅图5,图5是图4中S45一具体实施方式的流程示意图。在本实施方式中,利用每一个群组中多个用户特征向量对应的多个用户初始特征向量确定群组的风险程度的步骤,具体包括:
S451:获取每一个群组中的每一个用户初始特征向量对应的取值。
本实施方式中,取值为用户初始特征向量对应的数值。
S452:依次判断每一个取值是否在风险值集合中。
本实施方式中,风险值集合中的风险值是确定的,将取值与风险值集合中的风险值进行比对,以确定取值是否在风险值集合中。
例如,风险值集合中的风险值为10~90,若某一个取值为80,则在风险值集合中。
又例如,一定范围的IP地址数据在风险值集合中,若某个群组中的IP取值均在该风险值集合中,则该群组的风险程度相应较大。
S453:响应于用户初始特征向量对应的取值在风险值集合中,将用户初始特征向量对应的参数设置为1;或,响应于用户初始特征向量对应的取值不在风险值集合中,将用户初始特征向量对应的参数设置为0。
S454:利用每一个用户初始特征向量对应的参数计算群组的风险程度。
本实施方式中,通过如下方式计算群组的风险程度:
其中,R为群组的风险程度,Ck表示标签为k的用户群组,N为 Ck中用户特征向量的数量,xi[p]inFp为第i个用户的第p个用户初始特征向量对应的参数。
S46:对聚集度与风险程度进行计算,以基于计算结果确定每一个群组的风险分数。
本实施方式中,通过如下方式计算群组的风险分数:
RiskScore=I+R
其中,RiskScore为群组的风险分数,I为群组的聚集度,R为群组的风险程度。
S47:基于风险识别规则对每一个群组中多个用户特征向量对应的多个用户初始特征向量进行挖掘,以获取到每一个群组中的至少一个频繁项集。
具体地,请参阅图6,图6是图4中S47一具体实施方式的流程示意图。在本实施方式中,基于风险识别规则对每一个群组中多个用户特征向量对应的多个用户初始特征向量进行挖掘,以获取到每一个群组中的至少一个频繁项集的步骤,具体包括:
S471:将群组中每一个用户初始特征向量对应的取值划分为多个项集;其中,每一个项集中包括同一类型的特征数据。
本实施方式中,可以基于申请业务数据、设备数据、操作数据以及社交数据进行项集分类,例如,将设备数据中的IP地址数据划分为一个项集,或是将设备数据中的GPS定位数据划分为一个项集。
S472:根据每一个项集中的数据类型确定对应的风险识别规则。
在一个具体的实施场景中,若项集中的特征数据为IP地址数据,则对应的风险识别规则可以是将属于特定范围的IP地址数据确定为风险IP。
在另一个具体的实施场景中,若项集中的特征数据为GPS定位数据,则对应的识别规则可以是将属于特定地点的GPS定位数据确定为风险地点。
S473:将每一个项集中的特征数据与对应的风险识别规则进行匹配。
在一个具体的实施场景中,若项集中的特征数据为IP地址数据,且对应的风险识别规则是将属于特定范围的IP地址数据确定为风险 IP,则将项集中的每一个IP地址数据与特定范围的IP地址数据进行比对。
在另一个具体的实施场景中,若项集中的特征数据为GPS定位数据,且对应的识别规则是将属于特定地点的GPS定位数据确定为风险地点,则将项集中的每一个GPS定位数据与特定地点的GPS定位数据进行比对。
S474:响应于特征数据与风险识别规则中的预设值的相似度不小于相似度阈值,累计特征数据的出现次数。
在一个具体的实施场景中,若项集中的某一个IP地址数据与特定范围的IP地址数据的相似度不小于预设的相似度阈值,累计次数加1。
在另一个具体的实施场景中,若项集中的某一个GPS定位数据与特定地点的GPS定位数据的相似度不小于预设的相似度阈值,累计次数加1。
S475:响应于出现次数不小于设定阈值,确定项集为频繁项集。
本实施方式中,可以将项集中特征数据的总数量乘以设定比例得到的值确定为预设阈值,其中,设定比例可以为50%、60%或其他比例,本申请对此不作限定。
可以理解地,通过挖掘频繁项集,可以确定群组成簇的至少一个原因,即因为群组中的某一类型数据在取值上的相同而使它们之间的相似度较大。
可以理解地,通过频繁项集覆盖尽可能多的群组,能够保证频繁项集对应的风险识别规则更加准确,从而可以全面地体现用户特征数据与风险之间的关系。
S48:根据每一个群组的风险分数以及频繁项集生成对应的风险信息,以通过风险信息对风险用户进行识别。
本实施方式中,对风险信息中的频繁项集以及对应的风险识别规则进行提炼,可以生成具有特定格式的业务规则(rule)。例如,业务规则的格式可以为rule={特征数据1:取值1,特征数据2:取值2,…,特征数据i:取值i,…,特征数据m:取值m},其中,特征数据i:取值i指的是第i个类型的特征数据中的第i个特征数据的取值,m指的是共有m个类型的特征数据。
例如,若某一群组对应有两个频繁项集,其中一个是IP地址数据,另外一个是GPS定位数据,则rule={IP地址数据:IP地址数据的具体数值,GPS定位数据:GPS定位数据的具体数值},基于该rule 可以获取到该群组的成团原因。
本实施方式中,可以以特定的格式生成风险信息,例如,风险信息={群组:Ck,群组风险分数:RiskScore,群组成团原因:rule,群组用户:{用户1,用户2,…,用户i,…,用户m},其中,Ck表示标签为k的用户群组,RiskScore为群组的风险分数,rule为业务规则,用户i为群组中的第i个用户,m为群组中用户的总数量。
进一步地,将生成的风险信息提供给风控业务人员,以便风控业务人员基于风险信息对待识别用户进行风险识别。
在一个具体的实施场景中,可以基于规则引擎利用风险信息进行自动化风控,比如对识别出来的风险用户进行拦截。在另一个具体的实施场景中,可以对自动拦截的风险用户进行人工抽检评估,以检测是否有误杀情况,并将结果反馈到上述方法对应的算法中进行迭代优化。在又一个具体的实施场景中,还可以将风险信息作为不同风险用户的画像因子,提供给后续的有监督评分模型。
请参阅图7,图7是本申请风险用户识别方法一应用场景的工作流程图。本实施方式中,获取到用户数据后,首先无规则学习引擎对用户数据进行计算分析,以生成多个用户特征向量。然后计算得到第一集合中每两个用户特征向量之间的相似度,并基于每一个用户特征向量与每两个用户特征向量之间的相似度,将多个用户特征向量划分为多个群组。继而确定每一个群组的风险分数,并获取每一个群组中的至少一个频繁项集,以根据每一个群组的风险分数以及频繁项集生成对应的风险信息,以通过风险信息对风险用户进行识别。进而将风险信息输入到规则引擎中,基于规则引擎利用风险信息进行自动化风控,并对自动拦截的风险用户进行人工抽检评估,以检测是否有误杀情况,并将结果反馈到上述方法对应的算法中进行迭代优化。
本实施方式的风险用户识别方法可以应用于社交媒体的注册、登录以及新用户激活、弹幕等多个场景中。本申请的发明人经过测试,发现在注册场景中使用本申请提供的风险用户识别方法,可以在1小时以内检测出并控制90%以上的黑产团伙用户。
区别于现有技术,本实施方式通过信息熵构建用户特征向量,并通过用户特征向量之间的关联来生成风险信息,能够在短时间内识别出新的欺诈模式,并基于新型的欺诈模式对风险用户进行识别,从而不仅实现了对多样化风险识别的需求,还实现了提前防控,继而有效降低了欺诈风险。此外,本实施方式由于无需依赖标注样本以及大量人工,不仅降低了人工成本,还能够提高识别效率以及识别准确率,从而满足对海量数据进行实时分析的需求。
对应地,本申请提供一种风险用户识别装置。
请参阅图8,图8是本申请风险用户识别装置一实施方式的结构示意图。如图8所示,风险用户识别装置80包括获取模块81、计算模块82、分类模块83、确定模块84以及识别模块85。
获取模块81,用于获取到第一集合;其中,第一集合包括多个用户特征向量。
计算模块82,用于计算第一集合中每两个用户特征向量之间的相似度。
分类模块83,用于基于每一个用户特征向量与每两个用户特征向量之间的相似度,利用聚类算法将第一集合划分为多个群组。
确定模块84,用于确定每一个群组的风险分数,并获取每一个群组中的至少一个频繁项集;其中,每一个频繁项集均对应至少一条风险识别规则。
识别模块85,用于根据每一个群组的风险分数以及频繁项集生成对应的风险信息,以通过风险信息对风险用户进行识别。
其中,具体过程请参阅S11~S15、S21~S28、S301~S311以及 S41~S48中的相关文字描述,在此不再赘述。
区别于现有技术,本实施方式通过获取模块81构建用户特征向量,并通过用户特征向量之间的关联利用确定模块84来生成风险信息,能够通过识别模块85在短时间内识别出新的欺诈模式,并基于新型的欺诈模式对风险用户进行识别,从而不仅实现了对多样化风险识别的需求,还实现了提前防控,继而有效降低了欺诈风险。此外,本实施方式由于无需依赖标注样本以及大量人工,不仅降低了人工成本,还能够提高识别效率以及识别准确率,从而满足对海量数据进行实时分析的需求。
对应地,本申请提供一种电子设备。
请参阅图9,图9是本申请电子设备一实施方式的结构示意图。如图9所示,本实施方式中,电子设备90包括存储器91以及处理器 92。
本实施方式中,存储器91用于存储程序数据,程序数据被执行时实现如上述任一项所述的风险用户识别方法中的步骤;处理器92 用于执行存储器91存储的程序指令以实现如上述任一项所述的风险用户识别方法中的步骤。
具体而言,处理器92用于控制其自身以及存储器91以实现上述任一风险用户识别方法中的步骤。处理器92还可以称为CPU(Central Processing Unit,中央处理单元)。处理器92可能是一种集成电路芯片,具有信号的处理能力。处理器92还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器92 可以由多个集成电路芯片共同实现。
区别于现有技术,本实施方式通过处理器92构建用户特征向量,并通过用户特征向量之间的关联来生成风险信息,能够在短时间内识别出新的欺诈模式,并基于新型的欺诈模式对风险用户进行识别,从而不仅实现了对多样化风险识别的需求,还实现了提前防控,继而有效降低了欺诈风险。此外,本实施方式由于无需依赖标注样本以及大量人工,不仅降低了人工成本,还能够提高识别效率以及识别准确率,从而满足对海量数据进行实时分析的需求。
对应地,本申请提供一种计算机可读存储介质。
请参阅图10,图10是本申请计算机可读存储介质一实施方式的结构示意图。
计算机可读存储介质100包括计算机可读存储介质100上存储的计算机程序1001,计算机程序1001被上述处理器执行时实现如上述任一项所述的风险用户识别方法中的步骤。
具体地,集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质100中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质100中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的计算机可读存储介质100包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器 (processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (12)
1.一种风险用户识别方法,其特征在于,包括:
获取到第一集合;其中,所述第一集合包括多个用户特征向量;
计算得到所述第一集合中每两个所述用户特征向量之间的相似度;
基于所述每一个用户特征向量与所述每两个所述用户特征向量之间的相似度,将所述第一集合划分为多个群组;
确定每一个所述群组的风险分数,并获取每一个所述群组中的至少一个频繁项集;其中,每一个所述频繁项集均对应至少一条风险识别规则;
根据每一个所述群组的所述风险分数以及所述频繁项集生成对应的风险信息,以通过所述风险信息对风险用户进行识别。
2.根据权利要求1所述的风险用户识别方法,其特征在于,
所述获取到第一集合的步骤,包括:
收集到预设数量的多个用户数据;其中,所述用户数据包括结构化数据与非结构化数据;
对所述多个用户数据进行预处理,以获取到第二集合;其中,所述第二集合包括多个用户初始特征向量;
利用信息熵表征每一个所述用户初始特征向量的权重值;
基于每一个所述用户初始特征向量与对应的所述权重值获取到每一个所述用户特征向量,以基于所述多个用户特征向量组成所述第一集合。
3.根据权利要求2所述的风险用户识别方法,其特征在于,
所述对所述多个用户数据进行预处理,以获取到第二集合的步骤,包括:
对每一个所述结构化数据以及所述非结构化数据进行统计,并基于统计结果清洗异常数据;
基于所述统计结果对数值型数据进行排序,并对排序后的数值型数据进行分桶,以将所述排序后的数值型数据转化为所述用户初始特征向量,并基于多个所述用户初始特征向量构建所述第二集合。
4.根据权利要求3所述的风险用户识别方法,其特征在于,
所述基于每一个所述用户初始特征向量与对应的所述权重值获取到每一个所述用户特征向量,以基于所述多个用户特征向量组成所述第一集合的步骤,包括:
基于独热编码机制对每一个所述用户初始特征向量进行编码,以获取每一个所述用户初始特征向量对应的高维向量;其中,同一个用户对应多个所述用户初始特征向量;
将每一个所述高维向量乘以对应的权重值,以获取到多个拼接特征向量;
对属于同一个用户的多个所述拼接特征向量进行拼接,以获取到每一个所述用户特征向量,基于所述多个用户特征向量组成所述第一集合。
5.根据权利要求4所述的风险用户识别方法,其特征在于,
所述计算得到所述第一集合中每两个所述用户特征向量之间的相似度的步骤,包括:
利用至少一种相似度算法确定所述第一集合中每两个所述用户特征向量之间的所述相似度。
6.根据权利要求1或5所述的风险用户识别方法,其特征在于,
所述基于所述每一个用户特征向量与所述每两个所述用户特征向量之间的相似度,将所述第一集合划分为多个群组的步骤,包括:
确定邻域参数;其中,所述邻域参数包括聚类半径以及每一个聚类样本的最小数目;
基于所述每两个所述用户特征向量之间的相似度进行计算,以得到每一个所述用户特征向量与其余所述用户向量特征之间的距离;
对同一个所述用户特征向量对应的多个距离进行统计,确定所述多个距离中数值小于所述聚类半径的个数;
响应于所述个数大于所述最小数目,将对应的所述用户特征向量确定为核心向量,并对所述核心向量添加对应的标签;
对所述第一集合中的多个所述用户特征向量进行遍历,以确定出所有的核心向量;
基于所述邻域参数确定位于每一个所述核心向量的邻域内的多个所述用户特征向量,并对所述位于每一个所述核心向量的邻域内的多个所述用户特征向量添加与对应的所述核心向量相同的标签;
将具有相同标签的多个用户特征向量划分到同一个群组中。
7.根据权利要求6所述的风险用户识别方法,其特征在于,
所述确定每一个所述群组的风险分数,并获取每一个所述群组中的至少一个频繁项集的步骤,包括:
基于每一个所述群组中每两个所述用户特征向量之间的相似度确定所述群组的聚集度;
利用每一个所述群组中多个所述用户特征向量对应的多个所述用户初始特征向量确定所述群组的风险程度;
对所述聚集度与所述风险程度进行计算,以基于计算结果确定每一个所述群组的所述风险分数;
基于所述风险识别规则对每一个所述群组中多个所述用户特征向量对应的多个所述用户初始特征向量进行挖掘,以获取到每一个所述群组中的至少一个所述频繁项集。
8.根据权利要求7所述的风险用户识别方法,其特征在于,
所述利用每一个所述群组中多个所述用户特征向量对应的多个所述用户初始特征向量确定所述群组的风险程度的步骤,包括:
获取每一个所述群组中的每一个所述用户初始特征向量对应的取值;
依次判断每一个所述取值是否在风险值集合中;
响应于所述用户初始特征向量对应的所述取值在所述风险值集合中,将所述用户初始特征向量对应的参数设置为1;或,
响应于所述用户初始特征向量对应的所述取值不在所述风险值集合中,将所述用户初始特征向量对应的所述参数设置为0;
利用每一个所述用户初始特征向量对应的所述参数计算所述群组的所述风险程度。
9.根据权利要求8所述的风险用户识别方法,其特征在于,
所述基于所述风险识别规则对每一个所述群组中多个所述用户特征向量对应的多个所述用户初始特征向量进行挖掘,以获取到每一个所述群组中的至少一个所述频繁项集的步骤,包括:
将所述群组中每一个所述用户初始特征向量对应的所述取值划分为多个项集;其中,每一个所述项集中包括同一类型的特征数据;
根据每一个所述项集中的数据类型确定对应的风险识别规则;
将每一个所述项集中的所述特征数据与对应的所述风险识别规则进行匹配;
响应于所述特征数据与所述风险识别规则中的预设值的相似度不小于相似度阈值,累计所述特征数据的出现次数;
响应于所述出现次数不小于设定阈值,确定所述项集为所述频繁项集。
10.一种风险用户识别装置,其特征在于,包括:
获取模块,用于获取到第一集合;其中,所述第一集合包括多个用户特征向量;
计算模块,用于计算所述第一集合中每两个所述用户特征向量之间的相似度;
分类模块,用于基于所述每一个用户特征向量与所述每两个所述用户特征向量之间的相似度,利用聚类算法将所述第一集合划分为多个群组;
确定模块,用于确定每一个所述群组的风险分数,并获取每一个所述群组中的至少一个频繁项集;其中,每一个所述频繁项集均对应至少一条风险识别规则;
识别模块,用于根据每一个所述群组的所述风险分数以及所述频繁项集生成对应的风险信息,以通过所述风险信息对风险用户进行识别。
11.一种电子设备,其特征在于,包括:
存储器,用于存储程序数据,所述程序数据被执行时实现如权利要求1~10任一项所述的风险用户识别方法中的步骤;
处理器,用于执行所述存储器存储的程序指令以实现如权利要求1~10任一项所述的风险用户识别方法中的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1~10任一项所述的风险用户识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210933371.XA CN115392351A (zh) | 2022-08-04 | 2022-08-04 | 风险用户识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210933371.XA CN115392351A (zh) | 2022-08-04 | 2022-08-04 | 风险用户识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115392351A true CN115392351A (zh) | 2022-11-25 |
Family
ID=84118630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210933371.XA Pending CN115392351A (zh) | 2022-08-04 | 2022-08-04 | 风险用户识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115392351A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI827504B (zh) * | 2023-04-18 | 2023-12-21 | 台灣大哥大股份有限公司 | 使用替代用戶識別模組的通話系統及通話方法 |
-
2022
- 2022-08-04 CN CN202210933371.XA patent/CN115392351A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI827504B (zh) * | 2023-04-18 | 2023-12-21 | 台灣大哥大股份有限公司 | 使用替代用戶識別模組的通話系統及通話方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112053221A (zh) | 一种基于知识图谱的互联网金融团伙欺诈行为检测方法 | |
US20080126556A1 (en) | System and method for classifying data streams using high-order models | |
CN110956547A (zh) | 一种基于搜索引擎的实时识别欺诈团伙的方法及系统 | |
CN111612041A (zh) | 异常用户识别方法及装置、存储介质、电子设备 | |
CN110348516B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN113762377B (zh) | 网络流量识别方法、装置、设备及存储介质 | |
CN111090807A (zh) | 一种基于知识图谱的用户识别方法及装置 | |
CN112053222A (zh) | 一种基于知识图谱的互联网金融团伙欺诈行为检测方法 | |
CN113051291A (zh) | 工单信息的处理方法、装置、设备及存储介质 | |
CN111695597A (zh) | 基于改进式孤立森林算法的信贷欺诈团伙识别方法和系统 | |
CN113095927A (zh) | 一种反洗钱可疑交易识别方法及设备 | |
CN115811440B (zh) | 一种基于网络态势感知的实时流量检测方法 | |
CN111833175A (zh) | 基于knn算法的互联网金融平台申请欺诈行为检测方法 | |
CN112183652A (zh) | 一种联邦机器学习环境下的边缘端偏见检测方法 | |
CN115392351A (zh) | 风险用户识别方法、装置、电子设备及存储介质 | |
Chung et al. | Inventor profile mining approach for prospective human resource scouting | |
Zubi et al. | Using data mining techniques to analyze crime patterns in the libyan national crime data | |
CN107038593B (zh) | 一种基于防伪溯源系统的异常数据处理方法及系统 | |
CN110674288A (zh) | 一种应用于网络安全领域的用户画像方法 | |
CN115204881A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN115277159B (zh) | 一种基于改进随机森林的工业互联网安全态势评估方法 | |
CN111245815A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
CN112818215A (zh) | 产品数据的处理方法、装置、设备及存储介质 | |
Verasakulvong et al. | Online emerging topic detection on Twitter using random forest with stock indicator features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |