CN114581693B - 一种用户行为模式的区分方法和装置 - Google Patents
一种用户行为模式的区分方法和装置 Download PDFInfo
- Publication number
- CN114581693B CN114581693B CN202210224441.4A CN202210224441A CN114581693B CN 114581693 B CN114581693 B CN 114581693B CN 202210224441 A CN202210224441 A CN 202210224441A CN 114581693 B CN114581693 B CN 114581693B
- Authority
- CN
- China
- Prior art keywords
- sequence
- user behavior
- user
- behavior
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 239000013598 vector Substances 0.000 claims abstract description 131
- 238000012512 characterization method Methods 0.000 claims abstract description 108
- 238000010586 diagram Methods 0.000 claims abstract description 40
- 230000006399 behavior Effects 0.000 claims description 364
- 239000011159 matrix material Substances 0.000 claims description 56
- 230000009471 action Effects 0.000 claims description 18
- 238000001914 filtration Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 230000003542 behavioural effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012954 risk control Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Abstract
本说明书实施例提供了一种用户行为模式的区分方法和装置,该方法包括:行为序列集合确定单元获取多个用户行为序列对应的多个序列表征向量;行为序列集合确定单元构建序列关系图,其中的单个节点对应于单个用户行为序列,并且具有连接边的两个节点满足,该两个节点对应的两个用户行为序列之间的共同子序列满足第一条件,以及该两个用户行为序列对应的两个序列向量之间的相似度超过设定阈值;行为序列集合确定单元基于序列关系图,进行图聚类运算,获取若干节点类簇;根据若干节点类簇,确定对应的若干用户行为序列集合,其中,用户行为序列集合用于确定用户的行为模式。
Description
技术领域
本说明书一个或多个实施例涉及数据挖掘和图形计算领域,尤其涉及一种用户行为模式的区分方法和装置。
背景技术
在很多行业中存在着风险控制的问题,例如电子支付和交易平台中,运营人员经常需要根据用户的行为链路,分析其中是否存在非法运作特别是非法交易的风险。传统的,运营人员需要通过人工分析大量的非法运作事件,才能从中总结出一定的非法运作规律,尤其是非法运作中存在的用户行为模式,其风险判断效率非常低。
因此,为了提升运营人员的风险判断效率,需要一种新的用户行为模式的区分方法。
发明内容
本说明书中的实施例旨在提供一种新的用户行为模式的区分方法、以及确认方法,通过该方法可以根据大量用户行为构成的行为序列,自动获取用户行为的模式,从而大大减少用户行为模式识别中人工分析的工作量,解决现有技术中的不足。
根据第一方面,提供了一种用户行为模式的区分方法,包括:
获取多个用户行为序列对应的多个序列表征向量;
构建序列关系图,其中的单个节点对应于单个用户行为序列,并且具有连接边的两个节点满足,该两个节点对应的两个用户行为序列之间的共同子序列满足第一条件,以及该两个用户行为序列对应的两个序列表征向量之间的相似度超过设定阈值;
基于所述序列关系图,进行图聚类运算,获取若干节点类簇;根据所述若干节点类簇,确定对应的若干用户行为序列集合,其中,所述用户行为序列集合用于确定用户的行为模式。
在一种可能的实施方式中,获取多个用户行为序列对应的多个序列表征向量,包括:
获取多个用户行为序列,其中,每个用户行为序列包括针对目标业务的、依次的多个用户业务行为;
根据所述多个用户行为序列,确定对应的多个序列表征向量。
在一种可能的实施方式中,根据所述多个用户行为序列,确定对应的多个序列表征向量,包括:
以各用户行为序列包括的用户业务行为作为词汇,基于词嵌入算法,确定所述用户业务行为对应的行为表征向量;
根据所述行为表征向量,确定各用户行为序列对应的序列表征向量。
在一种可能的实施方式中,根据所述行为表征向量,确定各用户行为序列对应的序列表征向量,包括:
对于各用户行为序列包括的用户业务行为的行为表征向量进行加权平均,得到各初始序列表征向量;
对于由各初始序列表征向量构成的序列表征向量矩阵,计算其主成分,再从每个初始序列表征向量中减去该向量在所述主成分上的投影,得到各用户行为序列对应的序列表征向量。
在一种可能的实施方式中,所述第一条件为所述公共子序列的长度大于2,所述设定阈值为0.2。
在一种可能的实施方式中,基于序列关系图,进行图聚类运算,获取若干节点类簇,包括:
根据序列关系图,确定其对应的第一节点特征矩阵;
通过预先设定的图卷积矩阵,对所述第一节点特征矩阵进行低频滤波卷积操作,获取第二节点特征矩阵;
基于第二节点特征矩阵,进行聚类运算,获取若干节点类簇。
在一种可能的实施方式中,所述相似度为余弦相似度。
在一种可能的实施方式中,所述方法还包括:
根据所述若干用户行为序列集合,确定对应的若干用户行为模式。
根据第二方面,提供一种用户行为模式的确定方法,包括:
获取待测用户行为序列,所述待测用户行为序列包括依次的多个用户业务行为;
根据通过第一方面所述的方法获取的用户行为序列集合,确定所述待测用户行为序列是否匹配于,所述用户行为序列集合对应的用户行为模式。
根据第三方面,提供一种用户行为模式的区分装置,包括:
序列表征获取单元,配置为,获取多个用户行为序列对应的多个序列表征向量;
序列关系图构建单元,配置为,构建序列关系图,其中的单个节点对应于单个用户行为序列,并且具有连接边的两个节点满足,该两个节点对应的两个用户行为序列之间的共同子序列满足第一条件,以及该两个用户行为序列对应的两个序列表征向量之间的相似度超过设定阈值;
行为序列集合确定单元,配置为,基于所述序列关系图,进行图聚类运算,获取若干节点类簇;根据所述若干节点类簇,确定对应的若干用户行为序列集合,其中,所述用户行为序列集合用于确定用户的行为模式。
在一种可能的实施方式中,序列表征获取单元,进一步配置为:
获取多个用户行为序列,其中,每个用户行为序列包括针对目标业务的、依次的多个用户业务行为;
根据所述多个用户行为序列,确定对应的多个序列表征向量。
在一种可能的实施方式中,序列表征获取单元,进一步配置为:
以各用户行为序列包括的用户业务行为作为词汇,基于词嵌入算法,确定所述用户业务行为对应的行为表征向量;
根据所述行为表征向量,确定各用户行为序列对应的序列表征向量。
在一种可能的实施方式中,序列表征获取单元,进一步配置为:
对于各用户行为序列包括的用户业务行为的行为表征向量进行加权平均,得到各初始序列表征向量;
对于由各初始序列表征向量构成的序列表征向量矩阵,计算其主成分,再从每个初始序列表征向量中减去该向量在所述主成分上的投影,得到各用户行为序列对应的序列表征向量。
在一种可能的实施方式中,所述第一条件为所述公共子序列的长度大于2,所述设定阈值为0.2。
在一种可能的实施方式中,行为序列集合确定单元,进一步配置为:
根据序列关系图,确定其对应的第一节点特征矩阵;
通过预先设定的图卷积矩阵,对所述节点特征矩阵进行低频滤波卷积操作,获取第二节点特征矩阵;
基于第二节点特征矩阵,进行聚类运算,获取若干节点类簇。
在一种可能的实施方式中,所述相似度为余弦相似度。
在一种可能的实施方式中,所述装置还可以包括:
用户行为模式获取单元,配置为,根据所述若干用户行为序列集合,确定对应的若干用户行为模式。
根据第四方面,提供一种用户行为模式的确定装置,包括:
用户行为序列获取单元,配置为,获取待测用户行为序列,所述待测用户行为序列包括依次的多个用户业务行为;
用户行为模式匹配单元,配置为,根据通过第一方面所述的方法获取的用户行为序列集合,确定所述待测用户行为序列是否匹配于,所述用户行为序列集合对应的用户行为模式。
根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一、第二方面所述的方法。
根据第六方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一、第二方面所述的方法。
利用以上各个方面中的方法、装置、计算设备、存储介质中的一个或多个,可以自动获取用户行为的模式,大大减少用户行为模式识别中人工分析的工作量。
附图说明
为了更清楚说明本发明实施例的技术方案,下面将对实施例描述中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出根据本说明书实施例的一种用户行为模式的区分方法的原理示意图;
图2示出根据本说明书实施例的一种用户行为模式的区分方法的流程图;
图3示出根据本说明书实施例的一种序列关系图的示意图;
图4示出根据本说明书实施例的一种用户行为模式的确定方法的流程图;
图5示出根据本说明书实施例的一种用户行为模式的区分装置的结构图;
图6示出根据本说明书实施例的一种用户行为模式的确定装置的结构图。
具体实施方式
下面将结合附图,对本发明书提供的方案进行描述。
如前所述,很多行业中需要进行运营风险控制。例如在电子支付和交易平台中,风险运营人员经常需要分析一些风险案件的非法操作链路,并从中分析一些常见的非法运作模式。通常,一个用户在客户端应用内的行为链路可能非常复杂,例如可以包括注册、登录、点击、访问、提交请求、购买等各种复杂的行为。但是,对于一个特定场景的非法运作来说,用户的行为链路可能是非常相似的,比如在盗用账户的场景中,典型的非法运作动作序列例如常常包括改密、换绑、核身、支付等行为;在欺诈场景中,典型的被欺诈者动作序列例如常常包括打开相册扫码、添加好友、转账等行为;在信用套现的场景中,典型的套现手法例如常常包括查看信用分、打开离线支付开关、支付、收款等行为。传统的人工运营方法经常需要人工分析很多非法运作事件,才能从中总结出非法运作中特定的用户行为规律、或者发现非法运作中的用户行为模式。但是,这样的方法需要大量的运营人员并消耗大量的人工工作量,且运营效率非常低。
为了提升风险运营人员的运营效率,减少运营人员的工作量,本说明书实施例提供了一种用户行为模式的区分方法。图1示出根据本说明书实施例的一种用户行为模式的区分方法的原理示意图。如图1所示,首先,获取若干的用户行为序列,每个用户行为序列可以由已知的、不同类型的非法运作场景下的,有序的多个用户行为构成。例如,可以是从已知的盗用账户、欺诈、信用套现等场景下的若干用户行为序列。然后,将各个用户行为序列中的各个用户行为作为词汇处理,利用词嵌入算法,得到各个用户行为的行为表征向量,再根据用户行为序列中的用户行为的行为表征向量,确定用户行为序列对应的序列表征向量。
在获取序列表征向量之后,可以根据各个序列表征向量,构建序列关系图。具体的构建思路是,根据所有行为序列中与任意其他行为序列具有第一关系的行为序列,确定序列关系图中的节点,根据不同的行为序列之间具有的第一关系,确定节点之间的边。不同的行为序列之间具有第一关系的意义是,它们之间的公共子序列满足预设条件(例如,公共子序列的长度大于2)、且它们的表征向量之间的相似度达到预定的阈值。
在得到序列关系图之后,可以基于该图进行图形聚类运算,得到由序列关系图中的节点构成的若干类簇,并根据所述类簇,获取其对应的用户行为序列集合。此后,可以根据将该用户行为序列集合,用于确定用户的行为模式。
该方法具有如下优点:一方面,该方法可以广泛应用在需要分析用户行为序列的场景,可以帮助风险运营人员快速分析、发现各种用户行为模式,相对于通过人工分析获取用户行为模式,通过该方法可以根据用户行为数据,自动获取其行为模式,大大减少了用户行为模式识别中人工分析的工作量,提高了分析效率。第二方面,该方法通过利用自然语言处理中获取词向量、句向量的方法,来处理用户行为及其构成的序列,可以有效的获取表征用户行为序列的表征向量。第三方面,也是最重要的,该方法通过确定用户行为序列间的公共子序列以及表征向量相似度,来确定用户行为序列之间的特定关系,进而在存在特定关系的用户行为序列中,根据用户序列的属性(或对应的表征向量)通过聚类算法,得到用户行为序列的集合,进而根据行为序列集合确定用户行为模式。确定用户行为序列之间的特定关系本质上是基于公共子序列和表征向量相似度双重条件确定聚类对象的范围。设定这种双重条件优越性在于,一方面根据公共子序列所体现出的行为序列中实际相同的用户动作,另一方面还结合行为序列表征向量所体现出的深层语义上的相似度(表征相似)来确定聚类范围,如此可以更好确定用户的行为模式。
下面进一步阐述该方法的详细过程。图2示出根据本说明书实施例的一种用户行为模式的区分方法的流程图。如图2所述,该方法至少包括如下步骤:
步骤21,获取多个用户行为序列对应的多个序列表征向量;
步骤22,构建序列关系图,其中的单个节点对应于单个用户行为序列,并且具有连接边的两个节点满足,该两个节点对应的两个用户行为序列之间的共同子序列满足第一条件,以及该两个用户行为序列对应的两个序列向量之间的相似度超过设定阈值;
步骤23,基于序列关系图,进行图聚类运算,获取若干节点类簇;根据若干节点类簇,确定对应的若干用户行为序列集合,其中,用户行为序列集合用于确定用户的行为模式。
首先,在步骤21,获取多个用户行为序列对应的多个序列表征向量。
该步骤中,所述用户行为序列中可以包括依次的多个用户行为。在不同的实施例中,所述多个用户行为例如可以是针对的不同的具体应用、业务、用户终端、操作界面的用户操作行为或动作。在不同的实施例中,也可以采用不同的提取或截获用户行为的具体方式。本说明书关注的是得到用户行为序列之后的处理过程,而对于其中的用户行为针对何种施加对象,或提取用户行为的具体方式并不关注,对此也不做限制。
根据一种实施方式,所述用户行为可以是针对目标业务的用户业务行为。因此,在一个实施例中,可以获取多个用户行为序列,其中,每个用户行为序列包括针对目标业务的、依次的多个用户业务行为。然后,可以根据所述多个用户行为序列,确定对应的多个序列表征向量。在一个具体的实施例中,所述目标业务可以是风险已知的业务,例如已知的存在盗用账户、欺诈、信用套现等风险的业务。
在不同的实施例中,采用不同的具体方式确定用户行为序列对应的序列表征向量。确定后的序列表征向量,在后续步骤中主要用于比较不同序列之间的相似性。而一般而言,获取的行为序列本身常常是长短不一的。为了更好的比较不同序列之间的相似性,根据一种实施方式,可以利用自然语言处理中常用的句嵌入(Sentence Embedding)方法(即将行为序列作为自然语句处理,通过句嵌入算法,获取其表征向量),将不同长度的行为序列映射到同一个表示空间中(即不同长度的行为序列具有相同维度的表征向量),从而可以方便于对不同序列的相似性进行比较。因此,在一个实施例中,可以以用户行为序列包括的用户行为作为词汇,基于词嵌入算法,确定所述用户行为对应的行为表征向量;根据所述行为表征向量,确定所述用户行为序列对应的序列表征向量。在一个具体的实施例中,可以首先基于连续词汇CBOW(Continuous BagOfWords)模型获取各个行为序列中每个用户行为ai的表征向量,然后对每个行为加权平均,得到等长的各个行为序列的表征向量。在另一个具体的实施例中,可以根据所述行为表征向量,基于平滑倒词频SIF(Smooth InverseFrequency)算法,确定用户行为序列对应的序列表征向量。采用平滑倒词频算法的优点在于,可以在获取的各个序列表征向量中更好的保留其专属特征部分,而去除各个序列均有的共有特征部分。从而在后续步骤中,基于该专属特征部分,可以获取更优的行为序列聚类结果。
在一个例子中,基于平滑倒词频SIF(Smooth Inverse Frequency)算法,确定所述序列表征向量,可以具体包括子步骤211-212:
具体的,在子步骤211,通过对于各个用户行为序列包括的用户行为的表征向量的加权平均,得到初始的序列表征向量。在一个例子中,该过程可以以数学方式表示为:
其中,s表示用户行为序列,w表示行为序列包括的用户行为,vw为用户行为的表征向量,p(w)为用户行为的发生频率,a为预设常数(在一个例子中,例如取0.001),为用户行为表征向量的加权权重,|s|为用户行为序列的长度,/>为初始的序列表征向量。该步的意义在于,对用户行为序列中的每个用户行为的表征向量,乘以其对应权重后相加并除以行为序列长度,得到行为序列的表征向量。可以看到,在确定序列表征向量的过程中,对于出现频率越高的用户行为,其对应权重越小。这样处理的原因在于,对于出现频率越高的用户行为,常常表示其是更普遍的用户行为,出现频率越低的用户行为,常常表示其是更特别的用户行为。而该步中要获取的是更具差别性的序列表征,因此,对于其中低频的用户行为,给予相对更高的权重。
在子步骤212,对于由各个初始序列表征向量构成的序列表征向量矩阵,计算其主成分u(优选为第一个主成分),再从每个序列表征向量中减去该向量在u上的投影,得到最终的序列表征向量。该步的作用在于,进一步去除初始序列表征向量中的共有特征部分,保留其中的专有特征分布。在一个例子中,子步骤212可以以数学方式表示为:
其中,vs为最终的序列表征向量,u为序列表征向量矩阵的第一个主成分,为序列表征向量在u上的投影。
在以上通过各种方式确定出各用户行为序列对应的各序列表征向量的基础上,在步骤22,构建序列关系图,其中的单个节点对应于单个用户行为序列,并且具有连接边的两个节点满足,该两个节点对应的两个用户行为序列之间的共同子序列满足第一条件,以及该两个用户行为序列对应的两个序列表征向量之间的相似度超过设定阈值。
该步骤中,根据步骤21获取的用户行为序列以及其对应的序列表征向量,构建序列关系图。序列关系图可以为无向图,其中包括对应于用户行为序列的节点、以及节点之间的边,所述边对应于用户行为序列之间的第一关系。所谓第一关系,是指两节点对应的用户行为序列的共同子序列满足预定的条件,且两节点对应的行为序列的表征向量的相似度达到预定的阈值。图3示出根据本说明书实施例的一种序列关系图的示意图。如图3所示,其中的各个节点均对应于不同的用户行为序列,例如,节点1对应于用户行为序列S1,S1中包括用户行为a11、a12、a13...,节点2对应于用户行为序列S2,S2中包括用户行为a21、a22、a33...,类似的,其余节点也具有各自对应的用户行为序列。节点之间的边,表示该边连接的两个节点对应的用户行为序列之间存在第一关系。例如,图3中节点1和节点2之间存在连接边,该边表示节点1和节点2对应的用户行为序列具有的公共子序列,满足第一条件,且两者对应的序列表征向量之间的相似度,大于预定阈值。在不同的实施例中,第一条件可以是不同的。在一个例子中,第一条件例如可以为Lcs(S2,S1)>β,即两者间的公共子序列的长度大于预定值β。两个用户行为序列的公共子序列的意思是,两者都具有的子序列。例如,用户行为序列S1为“ABCDEFG”,其中各个字符“A”、“B”、“C”、“D”…表示不同的用户行为,用户行为序列S2为“ABCH”。则两者的公共子序列可以为“ABC”。在不同的实施例中,公共子序列在原始的用户行为序列中并非一定是连续的,例如,用户行为序列S3为“AXXBCH”,其和上面例子中的用户行为序列S1“ABCDEFG”,之间的公共子序列可以为“ABC”。
在不同的例子中,两个用户行为序列的公共子序列可以存在多个。由于匹配公共子序列的意义在于挖掘不同的行为序列之间的接近程度,而如果两个用户行为序列间存在多个公共子序列,则其中最长的子序列,可以更好的反应两者的接近程度。因此,如不做特别说明,本说明书中所指的公共子序列通常可以等价于最长公共子序列。在不同的具体例子中,β可以取不同的自然数正值,例如,在一个例子中,第一条件可以为所述公共子序列的长度大于2。
在不同的实施例中,序列表征向量之间的相似度可以基于不同的具体方式确定,本说明书对此不做限制。在一个实施例中,所述相似度可以具体是序列表征向量之间的余弦相似度。在图3所示的实施例中,序列表征向量之间相似度大于预定阈值可以表示为Sim(S2,S1)>α,其中α为预定阈值,在不同的具体例子中,该预定阈值也可以是不同的。例如,在一个例子中,所述设定阈值可以为0.2。
该步骤中构建的序列关系图,主要用于后续步骤中基于该图进行聚类运算,获取序列集合。而在所述序列关系图的边对应的关系,必须满足公共子序列和向量相似度两个条件,
此后,在步骤33,基于所述序列关系图,进行图聚类运算,获取若干节点类簇;根据所述若干节点类簇,确定对应的若干用户行为序列集合,其中,所述用户行为序列集合用于确定用户的行为模式。
在不同的实施例中,可以采用具体不同的图聚类算法,获取聚类结果(类簇)。在一个实施例中,可以采用属性图聚类AGC(Attributed graph clustering)算法,获取聚类结果。在一个具体的实施例中,采用AGC算法获取聚类结果,可以包括子步骤331-332。
具体的,在子步骤331,根据序列关系图,确定其对应的初始的节点特征矩阵;然后通过预设的图卷积矩阵,对于初始的节点特征矩阵(为方便描述,本说明书也称之为第一节点特征矩阵),进行旨在进行低频滤波的卷积运算,得到低频特征过滤后的节点特征矩阵(为方便描述,本说明书也称之为第二节点特征矩阵)。在一个具体的实施例中,第一步的过程可以表示为:
X′=GX
其中,X表示节点特征矩阵,G为低通滤波卷积矩阵,在不同的例子中,可以定义不同的具体卷积矩阵。在一个例子中,G可以表示为,其中/>表示单调递减的低通滤波卷积核,k为卷积阶数,Ls是拉普拉斯矩阵,Ls=D-A,D表示节点特征矩阵的对角矩阵,A表示序列关系图中节点的邻接矩阵。
在子步骤332,采用常规聚类算法,根据低频特征过滤后的节点特征矩阵,进行聚类运算,获取若干类簇,每个类簇中各自包括序列关系图中的若干节点。在不同的实施例中,可以具体采用不同的常规聚类算法,在一个例子中,例如可以采用k-means聚类算法。其中,进行低频滤波的作用在于,在低频滤波之后,节点特征矩阵中的各个节点的特征表示之间的差别更为平滑,根据该节点特征矩阵,可以获取更好的聚类效果。因此,在一个实施例中,可以根据序列关系图,确定其对应的第一节点特征矩阵;通过预先设定的图卷积矩阵,对所述第一节点特征矩阵进行低频滤波卷积操作,获取第二节点特征矩阵;基于第二节点特征矩阵,进行聚类运算,获取若干节点类簇。
可以看到,在通过属性图聚类的方式来获取节点类簇的整个过程中,既利用了序列图的拓扑结构信息(例如图卷积中使用的邻接矩阵),又利用了节点属性信息(例如图卷积中使用的特征矩阵和第二步中使用的节点特征)。相比于一些常规图聚类算法中,单纯基于节点属性的聚类算法,例如k-means算法,以及单纯基于拓扑结构的聚类算法,例如Louvain算法或者标签传播算法LPA(Label Propagation Algorithm),可以获得更优的聚类结果。
由于序列关系图中的节点对应于用户行为序列,所以包括若干节点的节点类簇本质上可以对应于若干用户行为序列组成的集合。因此,在一个实施例中,在获取若干用户行为序列集合之后,可以根据所述若干用户行为序列集合,确定对应的若干用户行为模式。在一个例子中,例如获取的用户行为序列集合为C1、C2、C3,可以根据C1、C2、C3,确定其分别对应的用户行为模式M1、M2、M3。
本说明书另一方面的实施例,还提供一种用户行为模式的确定方法。图4示出根据本说明书实施例的一种用户行为模式的确定方法的流程图。如图4所述,该方法至少包括如下步骤:
在步骤41,获取待测用户行为序列,所述待测用户行为序列包括依次的多个用户业务行为。
该步骤中,所述待测用户行为序列,为不确定是否匹配于已知用户行为模式的用户行为序列,已知用户行为模式可以是根据图2所示方法确定的用户行为模式。
在步骤42,根据通过上述的用户行为模式区分方法获取的用户行为序列集合,确定所述待测用户行为序列是否匹配于,所述用户行为序列集合对应的用户行为模式。
该步骤中,可以根据待测用户行为序列,以及已知用户行为模式对应的用户行为序列集合,确定该待测用户行为序列是否匹配于已知用户行为模式。在不同的具体实施例中,可以采用不同的具体匹配方式,本说明书对此不做限定。在一个例子中,例如待测用户行为序列S1中具有子行为序列S31,而子行为序列S31是用户行为序列集合C3中包括的行为序列,C3是已知用户行为模式M3对应的用户行为序列集合,则可以确定S1匹配于M3,或者说S1对应的一系列用户行为具有行为模式M3。
根据又一方面的实施例,还提供一种用户行为模式的区分装置。图5示出根据本说明书实施例的一种用户行为模式的区分装置的结构图。如图5所示,该装置500包括:
序列表征获取单元51,配置为,获取多个用户行为序列对应的多个序列表征向量;
序列关系图构建单元52,配置为,构建序列关系图,其中的单个节点对应于单个用户行为序列,并且具有连接边的两个节点满足,该两个节点对应的两个用户行为序列之间的共同子序列满足第一条件,以及该两个用户行为序列对应的两个序列表征向量之间的相似度超过设定阈值;
行为序列集合确定单元53,配置为,基于所述序列关系图,进行图聚类运算,获取若干节点类簇;根据所述若干节点类簇,确定对应的若干用户行为序列集合,其中,所述用户行为序列集合用于确定用户的行为模式。
在一个实施例中,序列表征获取单元,可以进一步配置为:
获取多个用户行为序列,其中,每个用户行为序列包括针对目标的、依次的多个用户业务行为;
根据所述多个用户行为序列,确定对应的多个序列表征向量。
在一个实施例中,序列表征获取单元,可以进一步配置为:
以各用户行为序列包括的用户业务行为作为词汇,基于词嵌入算法,确定所述用户业务行为对应的行为表征向量;
根据所述行为表征向量,确定各用户行为序列对应的序列表征向量。
在一个实施例中,序列表征获取单元,可以进一步配置为:
对于各用户行为序列包括的用户业务行为的行为表征向量进行加权平均,得到各初始序列表征向量;
对于由各初始序列表征向量构成的序列表征向量矩阵,计算其主成分,再从每个初始序列表征向量中减去该向量在所述主成分上的投影,得到各用户行为序列对应的序列表征向量。
在一个实施例中,所述第一条件可以为所述公共子序列的长度大于2,所述设定阈值可以为0.2。
在一个实施例中,行为序列集合确定单元,可以进一步配置为:
根据序列关系图,确定其对应的第一节点特征矩阵;
通过预先设定的图卷积矩阵,对所述节点特征矩阵进行低频滤波卷积操作,获取第二节点特征矩阵;
基于第二节点特征矩阵,进行聚类运算,获取若干节点类簇。
在一个实施例中,所述相似度可以为余弦相似度。
在一个实施例中,所述装置还可以包括:
用户行为模式获取单元,配置为,根据所述若干用户行为序列集合,确定对应的若干用户行为模式。
根据又一方面的实施例,还提供一种用户行为模式的确定装置。图6示出根据本说明书实施例的一种用户行为模式的确定装置的结构图。如图6所示,该装置600包括:
用户行为序列获取单元61,配置为,获取待测用户行为序列,所述待测用户行为序列包括依次的多个用户业务行为;
用户行为模式匹配单元62,配置为,根据通过图2所示方法获取的用户行为序列集合,确定所述待测用户行为序列是否匹配于,所述用户行为序列集合对应的用户行为模式。
本说明书又一方面提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述任一项方法。
本说明书再一方面提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一项方法。
需要理解,本文中的“第一”,“第二”等描述,仅仅为了描述的简单而对相似概念进行区分,并不具有其他限定作用。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (20)
1.一种用户行为模式的区分方法,包括:
获取多个用户行为序列对应的多个序列表征向量;其中,每个用户行为序列包括针对目标业务的、依次的多个用户业务行为;
以用户行为序列作为节点构建序列关系图,其中的单个节点对应于单个用户行为序列,并且具有连接边的两个节点满足,该两个节点对应的两个用户行为序列之间的共同子序列的长度大于预定值,以及该两个用户行为序列对应的两个序列表征向量之间的相似度超过设定阈值;
基于所述序列关系图,进行图聚类运算,获取若干节点类簇;根据所述若干节点类簇,确定对应的若干用户行为序列集合,其中,所述用户行为序列集合用于确定用户的行为模式。
2.根据权利要求1所述的方法,其中,获取多个用户行为序列对应的多个序列表征向量,包括:
获取所述多个用户行为序列;
根据所述多个用户行为序列,确定对应的多个序列表征向量。
3.根据权利要求2所述的方法,其中,根据所述多个用户行为序列,确定对应的多个序列表征向量,包括:
以各用户行为序列包括的用户业务行为作为词汇,基于词嵌入算法,确定所述用户业务行为对应的行为表征向量;
根据所述行为表征向量,确定各用户行为序列对应的序列表征向量。
4.根据权利要求3所述的方法,其中,根据所述行为表征向量,确定各用户行为序列对应的序列表征向量,包括:
对于各用户行为序列包括的用户业务行为的行为表征向量进行加权平均,得到各初始序列表征向量;
对于由各初始序列表征向量构成的序列表征向量矩阵,计算其主成分,再从每个初始序列表征向量中减去该向量在所述主成分上的投影,得到各用户行为序列对应的序列表征向量。
5.根据权利要求1所述的方法,其中,所述预定值为2,所述设定阈值为0.2。
6.根据权利要求1所述的方法,其中,基于序列关系图,进行图聚类运算,获取若干节点类簇,包括:
根据序列关系图,确定其对应的第一节点特征矩阵;
通过预先设定的图卷积矩阵,对所述第一节点特征矩阵进行低频滤波卷积操作,获取第二节点特征矩阵;
基于第二节点特征矩阵,进行聚类运算,获取若干节点类簇。
7.根据权利要求1所述的方法,其中,所述相似度为余弦相似度。
8.根据权利要求1所述的方法,还包括:
根据所述若干用户行为序列集合,确定对应的若干用户行为模式。
9.一种用户行为模式的确定方法,包括:
获取待测用户行为序列,所述待测用户行为序列包括依次的多个用户业务行为;
根据通过权利要求1所述的方法获取的用户行为序列集合,确定所述待测用户行为序列是否匹配于,所述用户行为序列集合对应的用户行为模式。
10.一种用户行为模式的区分装置,包括:
序列表征获取单元,配置为,获取多个用户行为序列对应的多个序列表征向量;其中,每个用户行为序列包括针对目标业务的、依次的多个用户业务行为;
序列关系图构建单元,配置为,构建序列关系图,其中的单个节点对应于单个行为序列,并且具有连接边的两个节点满足,该两个节点对应的两个用户行为序列之间的共同子序列的长度大于预定值,以及该两个用户行为序列对应的两个序列表征向量之间的相似度超过设定阈值;
行为序列集合确定单元,配置为,基于所述序列关系图,进行图聚类运算,获取若干节点类簇;根据所述若干节点类簇,确定对应的若干用户行为序列集合,其中,所述用户行为序列集合用于确定用户的行为模式。
11.根据权利要求10所述的装置,其中,序列表征获取单元,进一步配置为:
获取所述多个用户行为序列;
根据所述多个用户行为序列,确定对应的多个序列表征向量。
12.根据权利要求11所述的装置,其中,序列表征获取单元,进一步配置为:
以各用户行为序列包括的用户业务行为作为词汇,基于词嵌入算法,确定所述用户业务行为对应的行为表征向量;
根据所述行为表征向量,确定各所述用户行为序列对应的序列表征向量。
13.根据权利要求12所述的装置,其中,序列表征获取单元,进一步配置为:
对于各用户行为序列包括的用户业务行为的行为表征向量进行加权平均,得到各初始序列表征向量;
对于由各初始序列表征向量构成的序列表征向量矩阵,计算其主成分,再从每个初始序列表征向量中减去该向量在所述主成分上的投影,得到各用户行为序列对应的序列表征向量。
14.根据权利要求10所述的装置,其中,所述预定值为2,所述设定阈值为0.2。
15.根据权利要求10所述的装置,其中,行为序列集合确定单元,进一步配置为:
根据序列关系图,确定其对应的第一节点特征矩阵;
通过预先设定的图卷积矩阵,对所述节点特征矩阵进行低频滤波卷积操作,获取第二节点特征矩阵;
基于第二节点特征矩阵,进行聚类运算,获取若干节点类簇。
16.根据权利要求10所述的装置,其中,所述相似度为余弦相似度。
17.根据权利要求10所述的装置,还包括:
用户行为模式获取单元,配置为,根据所述若干用户行为序列集合,确定对应的若干用户行为模式。
18.一种用户行为模式的确定装置,包括:
用户行为序列获取单元,配置为,获取待测用户行为序列,所述待测用户行为序列包括依次的多个用户业务行为;
用户行为模式匹配单元,配置为,根据通过权利要求1所述的方法获取的用户行为序列集合,确定所述待测用户行为序列是否匹配于,所述用户行为序列集合对应的用户行为模式。
19.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-9中任一项所述的方法。
20.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210224441.4A CN114581693B (zh) | 2022-03-07 | 2022-03-07 | 一种用户行为模式的区分方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210224441.4A CN114581693B (zh) | 2022-03-07 | 2022-03-07 | 一种用户行为模式的区分方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114581693A CN114581693A (zh) | 2022-06-03 |
CN114581693B true CN114581693B (zh) | 2023-11-03 |
Family
ID=81778778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210224441.4A Active CN114581693B (zh) | 2022-03-07 | 2022-03-07 | 一种用户行为模式的区分方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114581693B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103646197A (zh) * | 2013-12-12 | 2014-03-19 | 中国石油大学(华东) | 基于用户行为的用户可信度认证系统及方法 |
CN106469181A (zh) * | 2015-08-21 | 2017-03-01 | 方正国际软件(北京)有限公司 | 一种用户行为模式分析方法及装置 |
CN108287864A (zh) * | 2017-12-06 | 2018-07-17 | 深圳市腾讯计算机系统有限公司 | 一种兴趣群组划分方法、装置、介质及计算设备 |
CN112926613A (zh) * | 2019-12-06 | 2021-06-08 | 北京沃东天骏信息技术有限公司 | 一种时间序列训练开始节点的定位方法和装置 |
CN112989211A (zh) * | 2021-05-17 | 2021-06-18 | 北京搜狐新媒体信息技术有限公司 | 一种确定信息相似度的方法及系统 |
CN113313208A (zh) * | 2021-02-05 | 2021-08-27 | 支付宝(杭州)信息技术有限公司 | 一种对象聚类方法和系统 |
CN113378899A (zh) * | 2021-05-28 | 2021-09-10 | 百果园技术(新加坡)有限公司 | 非正常账号识别方法、装置、设备和存储介质 |
CN114119191A (zh) * | 2020-08-28 | 2022-03-01 | 马上消费金融股份有限公司 | 风控方法、逾期预测方法、模型训练方法及相关设备 |
-
2022
- 2022-03-07 CN CN202210224441.4A patent/CN114581693B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103646197A (zh) * | 2013-12-12 | 2014-03-19 | 中国石油大学(华东) | 基于用户行为的用户可信度认证系统及方法 |
CN106469181A (zh) * | 2015-08-21 | 2017-03-01 | 方正国际软件(北京)有限公司 | 一种用户行为模式分析方法及装置 |
CN108287864A (zh) * | 2017-12-06 | 2018-07-17 | 深圳市腾讯计算机系统有限公司 | 一种兴趣群组划分方法、装置、介质及计算设备 |
CN112926613A (zh) * | 2019-12-06 | 2021-06-08 | 北京沃东天骏信息技术有限公司 | 一种时间序列训练开始节点的定位方法和装置 |
CN114119191A (zh) * | 2020-08-28 | 2022-03-01 | 马上消费金融股份有限公司 | 风控方法、逾期预测方法、模型训练方法及相关设备 |
CN113313208A (zh) * | 2021-02-05 | 2021-08-27 | 支付宝(杭州)信息技术有限公司 | 一种对象聚类方法和系统 |
CN112989211A (zh) * | 2021-05-17 | 2021-06-18 | 北京搜狐新媒体信息技术有限公司 | 一种确定信息相似度的方法及系统 |
CN113378899A (zh) * | 2021-05-28 | 2021-09-10 | 百果园技术(新加坡)有限公司 | 非正常账号识别方法、装置、设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
夏颖.《面向移动终端用户的WLAN定位技术》.哈尔滨工程大学出版社,2018,(第978-7-5661-2077-9版),第52-54页. * |
Also Published As
Publication number | Publication date |
---|---|
CN114581693A (zh) | 2022-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108737406B (zh) | 一种异常流量数据的检测方法及系统 | |
WO2018103456A1 (zh) | 一种基于特征匹配网络的社团划分方法、装置及电子设备 | |
CN112949767A (zh) | 样本图像增量、图像检测模型训练及图像检测方法 | |
CN110929525B (zh) | 一种网贷风险行为分析检测方法、装置、设备和存储介质 | |
EP3371739A1 (en) | High speed reference point independent database filtering for fingerprint identification | |
CN111798047A (zh) | 风控预测方法、装置、电子设备及存储介质 | |
CN111476668B (zh) | 可信关系的识别方法、装置、存储介质和计算机设备 | |
CN114581693B (zh) | 一种用户行为模式的区分方法和装置 | |
CN110781410A (zh) | 一种社群检测方法及装置 | |
CN112750038A (zh) | 交易风险的确定方法、装置和服务器 | |
CN112257689A (zh) | 人脸识别模型的训练和识别方法、存储介质及相关设备 | |
CN111915312A (zh) | 风险识别方法及装置和电子设备 | |
CN115204322B (zh) | 行为链路异常识别方法和装置 | |
CN108446907B (zh) | 安全校验方法及装置 | |
CN114882273B (zh) | 应用于狭小空间的视觉识别方法、装置、设备和存储介质 | |
CN116309364A (zh) | 变电站异常巡检方法及装置、存储介质、计算机设备 | |
CN115438747A (zh) | 异常账户识别模型训练方法、装置、设备及介质 | |
CN114297735A (zh) | 数据处理方法及相关装置 | |
CN113706279A (zh) | 欺诈分析方法、装置、电子设备及存储介质 | |
CN114168788A (zh) | 音频审核的处理方法、装置、设备及存储介质 | |
CN111507829A (zh) | 境外信用卡风控模型迭代方法、装置、设备以及存储介质 | |
CN111209567A (zh) | 提高检测模型鲁棒性的可知性判断方法及装置 | |
CN115859292B (zh) | 一种涉诈app检测系统和判定方法以及存储介质 | |
CN112905987B (zh) | 账号识别方法、装置、服务器及存储介质 | |
WO2016000509A1 (zh) | 一种数据过滤、构造数据滤波器的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |