CN117745450A - 一种数据的处理方法、装置及设备 - Google Patents
一种数据的处理方法、装置及设备 Download PDFInfo
- Publication number
- CN117745450A CN117745450A CN202311739602.4A CN202311739602A CN117745450A CN 117745450 A CN117745450 A CN 117745450A CN 202311739602 A CN202311739602 A CN 202311739602A CN 117745450 A CN117745450 A CN 117745450A
- Authority
- CN
- China
- Prior art keywords
- behavior
- node
- risk
- sequence data
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 8
- 238000005065 mining Methods 0.000 claims abstract description 115
- 238000012545 processing Methods 0.000 claims abstract description 115
- 238000000605 extraction Methods 0.000 claims abstract description 87
- 238000000034 method Methods 0.000 claims abstract description 87
- 230000008569 process Effects 0.000 claims abstract description 41
- 230000006399 behavior Effects 0.000 claims description 361
- 238000004422 calculation algorithm Methods 0.000 claims description 77
- 238000012512 characterization method Methods 0.000 claims description 65
- 238000001514 detection method Methods 0.000 claims description 25
- 238000007499 fusion processing Methods 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000003064 k means clustering Methods 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 abstract description 17
- 238000004220 aggregation Methods 0.000 abstract description 17
- 238000004458 analytical method Methods 0.000 abstract description 12
- 230000004927 fusion Effects 0.000 abstract description 6
- 239000013598 vector Substances 0.000 abstract description 4
- 238000012216 screening Methods 0.000 abstract description 3
- 238000003860 storage Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 13
- 230000008859 change Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000006872 improvement Effects 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 8
- 230000009471 action Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000002265 prevention Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000001149 cognitive effect Effects 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000000750 progressive effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000007123 defense Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000001376 precipitating effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000012407 engineering method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 108010041420 microbial alkaline proteinase inhibitor Proteins 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000003989 repetitive behavior Effects 0.000 description 1
- 208000013406 repetitive behavior Diseases 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例公开了一种数据的处理方法、装置及设备,该方法包括:分别对用户执行目标业务的过程中产生的行为序列数据行为序列数据和其中的行为节点的属性信息采用不同的特征提取方式进行特征提取,如对该行为序列数据采用Transformer模型进行特征提取,对属性信息采用特征工程等方式进行特征提取,得到该行为序列数据对应的序列表征和该属性信息对应的节点属性表征,可以将上述得到的表征融合为多维的向量表征(即多维融合表征),之后,可以对多维融合表征进行一次聚集性分析,进行风险初筛,再对存在聚集性风险的序列进行频繁项挖掘处理,得到相应的风险序列模式信息,最终,可以基于该风险序列模式信息,确定用户执行目标业务是否存在预设风险。
Description
技术领域
本文件涉及计算机技术领域,尤其涉及一种数据的处理方法、装置及设备。
背景技术
随着互联网金融数字互联战略平台流量的开放,相较于传统的资金安全,新型经营风险规模变大,风险表现也大幅变化,其中包括风险变化、认知变化和风控变化等。传统的风控引擎分析对象—用户支付事件,包含了支付行为瞬间各主体的画像信息,包含付款方、收款方、终端、地理位置等数据,与之相比的,用户行为序列数据刻画了用户从打开金融应用到发生支付行为的一段时间内的行为序列数据,经过分析定性,从用户行为序列维度可以挖掘出许多瞬时支付事件无法刻画的风险信息。面对线上多变的风险攻防情况和人们对自己的隐私数据越来越重视,如何在海量数据的背景下快速发现在用户行为序列维度的风险特征与作案手法,成为了金融应用风控当前的一个难点。为此,需要提供一种更优的针对用户行为序列的风险模式挖掘的技术方案。
发明内容
本说明书实施例的目的是提供一种更优的针对用户行为序列的风险模式挖掘的技术方案。
为了实现上述技术方案,本说明书实施例是这样实现的:
本说明书实施例提供的一种数据的处理方法,所述方法包括:获取用户执行目标业务的过程中产生的行为序列数据,以及获取所述行为序列数据中的行为节点的属性信息。分别对所述行为序列数据和所述行为节点的属性信息采用不同的特征提取方式进行特征提取,得到所述行为序列数据对应的序列表征和所述行为节点的属性信息对应的节点属性表征。将所述序列表征和所述节点属性表征进行融合处理,得到多维混合表征,基于所述多维混合表征,通过序列模式挖掘算法进行频繁项挖掘处理,得到所述行为序列数据对应的风险序列模式信息。基于所述行为序列数据对应的风险序列模式信息,确定所述用户执行目标业务是否存在预设风险。
本说明书实施例提供的一种数据的处理装置,所述装置包括:信息获取模块,获取用户执行目标业务的过程中产生的行为序列数据,以及获取所述行为序列数据中的行为节点的属性信息。特征提取模块,分别对所述行为序列数据和所述行为节点的属性信息采用不同的特征提取方式进行特征提取,得到所述行为序列数据对应的序列表征和所述行为节点的属性信息对应的节点属性表征。频繁项挖掘模块,将所述序列表征和所述节点属性表征进行融合处理,得到多维混合表征,基于所述多维混合表征,通过序列模式挖掘算法进行频繁项挖掘处理,得到所述行为序列数据对应的风险序列模式信息。风险确定模块,基于所述行为序列数据对应的风险序列模式信息,确定所述用户执行目标业务是否存在预设风险。
本说明书实施例提供的一种数据的处理设备,所述数据的处理设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取用户执行目标业务的过程中产生的行为序列数据,以及获取所述行为序列数据中的行为节点的属性信息。分别对所述行为序列数据和所述行为节点的属性信息采用不同的特征提取方式进行特征提取,得到所述行为序列数据对应的序列表征和所述行为节点的属性信息对应的节点属性表征。将所述序列表征和所述节点属性表征进行融合处理,得到多维混合表征,基于所述多维混合表征,通过序列模式挖掘算法进行频繁项挖掘处理,得到所述行为序列数据对应的风险序列模式信息。基于所述行为序列数据对应的风险序列模式信息,确定所述用户执行目标业务是否存在预设风险。
本说明书实施例还提供了一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被处理器执行时实现以下流程:获取用户执行目标业务的过程中产生的行为序列数据,以及获取所述行为序列数据中的行为节点的属性信息。分别对所述行为序列数据和所述行为节点的属性信息采用不同的特征提取方式进行特征提取,得到所述行为序列数据对应的序列表征和所述行为节点的属性信息对应的节点属性表征。将所述序列表征和所述节点属性表征进行融合处理,得到多维混合表征,基于所述多维混合表征,通过序列模式挖掘算法进行频繁项挖掘处理,得到所述行为序列数据对应的风险序列模式信息。基于所述行为序列数据对应的风险序列模式信息,确定所述用户执行目标业务是否存在预设风险。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图;
图1为本说明书一种数据的处理方法实施例;
图2为本说明书另一种数据的处理方法实施例;
图3为本说明书一种数据的处理过程的示意图;
图4为本说明书一种聚类过程的示意图;
图5为本说明书又一种数据的处理方法实施例;
图6为本说明书又一种数据的处理方法实施例;
图7为本说明书一种数据的处理装置实施例;
图8为本说明书一种数据的处理设备实施例。
具体实施方式
本说明书实施例提供一种数据的处理方法、装置及设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
本说明书实施例提供一种针对用户行为序列的风险模式挖掘方法,随着互联网金融数字互联战略平台流量的开放,相较于传统的资金安全,新型经营风险规模变大,风险表现也大幅变化,其中包括风险变化、认知变化和风控变化,其中的风险变化包括:从支付风险→数字化经营风险,未来很长一段时间内两类风险会并重;认知变化包括:从中心化支付行为→全端行为认知和内容认知;风控变化包括:从支付风控→数字化生态风控。传统的风控引擎分析对象—用户支付事件,包含了支付行为瞬间各主体的画像信息,包含付款方、收款方、终端、地理位置等数据,与之相比的,用户行为序列数据刻画了用户从打开金融应用到发生支付行为的一段时间内的行为序列数据,经过分析定性,从用户行为序列维度可以挖掘出许多瞬时支付事件无法刻画的风险信息。面对线上多变的风险攻防情况,如何在海量数据的背景下快速发现在用户行为序列维度的风险特征与作案手法,成为了金融应用风控当前的一个难点。
在一种可选的可实施方案中,可以通过单一维度的行为序列数据进行风险模式挖掘处理,其中的单一维度可以是将用户的动作类型构成了序列,可表达为X=(x1,x2,x3,…xn),其中,xi(i=1,2,3,…n)表示用户的行为类型,例如,金融应用内的唤端、扫码(即扫描图形码(如条形码或二维码等))、H5页面访问、小程序访问、付款等行为。假设对不同的行为类型做了编码,具体如下
node_type_one_hot_mapping={
#唤起app
'SCHEME_IN':1,
#app内跳转
'START_APP':2,
#扫码
'MOBILE_CODEC':3,
#H5页面访问
'H5_LOAD':4,
#页面回退
'PAGE':5,
#开放平台2.0
'OPENAPI':6,
#开放平台1.0
'MAPI':7,
#小程序访问
'TINY_APP_LOAD':8,
#H5收银台
'H5_CASHIER':9,
#移动收银台
'MOBILE_CASHIER':10,
#PC收银台
'EXCASHIER':11,
}
单一维度行为序列X=(x1,x2,x3,…xn)可以表示为X=(1,1,4,4,5,5,10,1,1,4,4,5,5,10,1,1,4,4,5,5,10),可以看到其中1,1,4,4,5,5,10为重复的子序列,则表明当前网络非法产业在使用脚本控制的批量重复行为进行业务处理。
此外,也可能会发现不同账号的行为序列数据相似度很高,例如,发现同一IP地址下的50台手机在一定时间范围下,单一维度的行为序列数据高度相似甚至完全一致,也可推断出网络非法产业利用群控系统批量操纵账号进行周期重复行为,进行网络非法产业的业务处理。所以利用单一维度的行为序列数据可以有效地打击上述存在周期性、相似性行为的批量作弊风险。但是,随着网络非法产业中所使用的手段不断变化,风险攻防进入深水区。依赖单一维度的行为序列数据进行风险模式挖掘处理的防控效果很快达到了瓶颈,原因在于单一维度的行为序列数据进行风险模式挖掘处理仅考虑了动作本身,并没有将每一个行为节点所包含的属性信息充分利用,例如用户、终端、介质等各主体信息,以及H5访问节点的域名、用户终端的信息、用户终端所使用的IP地址等,信息的缺失显著地影响了作用于该数据结构上的算法效果。为此,本说明书实施例提出一种针对用户行为序列的风险模式挖掘方法,通过多维混合表征,深入刻画用户行为序列数据,结合无监督聚类及频繁项挖掘方式,有效提高了风险序列挖掘的准确性。具体处理可以参见下述实施例中的具体内容。
如图1所示,本说明书实施例提供一种数据的处理方法,该方法的执行主体可以为终端设备或服务器等,其中的终端设备可以如手机、平板电脑等移动终端设备,还可以如笔记本电脑或台式电脑等计算机设备,或者,也可以为IoT设备(具体如智能手表、车载设备等)等,其中的服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群等,该服务器可以是如金融业务或网络购物业务等的后台服务器,也可以是某应用程序的后台服务器等。本实施例中以执行主体为服务器为例进行详细说明,对于执行主体为终端设备的情况,可以参见下述服务器的情况处理,在此不再赘述。该方法具体可以包括以下步骤:
在步骤S102中,获取用户执行目标业务的过程中产生的行为序列数据,以及获取该行为序列数据中的行为节点的属性信息。
其中,目标业务可以是任意的需要进行风险防控的业务,具体如在线支付业务、转账业务、商品评价业务、购物业务等,具体可以根据实际情况设定。行为序列数据可以是在特定时间段内用户执行的一系列操作或动作所构成的数据序列,其中的用户行为可以包括网页浏览、搜索查询、点击、购买、评论等。通过记录和分析用户的行为序列数据,可以获得关于用户的偏好、兴趣、行为模式和购买意向等方面的信息,也可以分析出潜在的风险信息。行为节点可以包括多种,例如,可以包括用户、终端、介质等各主体信息,还可以包括H5访问节点的域名、用户终端的信息、用户终端所使用的IP地址等,具体可以根据实际情况设定,本说明书实施例对此不做限定。属性信息可以是上述行为节点的属性的信息,具体如,对于行为节点为终端的情况,其属性信息可以包括该终端的标识、MAC地址、操作系统的版本信息等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在实施中,对于目标业务,可以根据实际情况设定风险防控机制,通过风险防控机制采集相应的数据、对采集的数据进行处理、挖掘,最终可以得到可能存在风险的风险序列,具体地,可以针对目标业务设置用户行为的记录策略,每当用户需要使用目标业务时,用户可以通过该用户的终端向服务器发送目标业务的业务请求,服务器接收到该业务请求后,可以获取该业务请求对应的数据,并将获取的数据发送给终端,通过终端与服务器的相互之间的信息交互,用户可以执行目标业务,直到目标业务执行完毕,同时,服务器可以通过上述记录策略,记录用户执行目标业务的过程中用户执行的一系列操作或动作所构成的数据序列,得到行为序列数据。此外,还可以获取该行为序列数据中包含的每个行为节点的属性信息。
需要说明的是,本实施例中的行为序列数据,需要将单一维度的行为序列数据升维至多维混合序列数据,多维混合序列数据中既可以包括行为序列数据,也可以包括行为序列数据中每个行为节点的属性信息,如上所述,单一维度行为序列数据可以表示为X=(x1,x2,x3,…xn),该行为序列数据在t时刻表示了用户在执行目标业务过程中的行为,例如,唤端、H5页面访问、小程序访问、收银台付款等。动作序列xt=(Action,f1(t),f2(t),f3(t),fj(t)…fm(t))T,1≤j≤m,其中,fj(t)表示在t时刻的动作特征,m为特征总数,分析当前数据的分布情况,最长的一条动作序列,如果行为节点数量不超过m,则定义一条行为序列数据可以表示为X=(x1,x2,x3,…xn),1≤n≤r,当行为节点数量为5,则上述中的x6~xr为全零矩阵。
在步骤S104中,分别对上述行为序列数据和上述行为节点的属性信息采用不同的特征提取方式进行特征提取,得到该行为序列数据对应的序列表征和该行为节点的属性信息对应的节点属性表征。
在实施中,可以根据实际情况分别为行为序列数据和行为节点的属性信息分别设置相应的特征提取算法或基于该特征提取算法构建的特征提取模型等,在实际应用中,为了提高特征的维度和丰富程度,可以分别对上述行为序列数据和上述行为节点的属性信息采用不同的特征提取方式进行特征提取,例如,可以通过卷积神经网络或深度神经网络等构建针对行为节点的属性信息的特征提取模型,可以通过循环神经网络RNN、长短期记忆LSTM网络或门控循环单元GRU等构建针对行为序列数据的特征提取模型等,在实际应用中,还可以通过其它算法构建特征提取模型,如通过主成分分析算法构建的特征提取模型等。另外,还可以直接通过设定的特征提取算法进行特征提取处理。通过上述方式确定特征提取算法或特征提取模型后,可以通过确定的相应的特征提取算法或特征提取模型对上述获取的行为序列数据进行特征提取,得到该行为序列数据对应的序列表征,同时,还可以通过确定的相应的特征提取算法或特征提取模型对上述获取的行为节点的属性信息进行特征提取,得到该行为节点的属性信息对应的节点属性表征。
在步骤S106中,将上述序列表征和上述节点属性表征进行融合处理,得到多维混合表征,基于多维混合表征,通过序列模式挖掘算法进行频繁项挖掘处理,得到上述行为序列数据对应的风险序列模式信息。
其中,序列模式挖掘算法可以是从数据量较大的数据记录中查找出具有一定发生顺序的频繁事件序列的算法,序列模式挖掘算法可以包括多种,例如PrefixSpan算法、Spade算法等,其中的PrefixSpan算法,采用分治的机制,通过不断产生序列数据库(或序列数据集)的多个更小的投影数据库(或投影数据集),然后在各个投影数据库(或投影数据集)上进行序列模型挖掘,对于Spade算法,Spade算法是基于垂直数据格式的,并且在产生频繁序列时,只需要对项目集各自的垂直数据进行交叉操作,同时,引入等价类的方法提高算法的效率。风险序列模式信息可以是刻画预设风险的重要性高于预设重要性阈值的风险序列模式的信息。频繁项挖掘是数据挖掘领域中的一项基本任务,用于发现数据集中频繁出现的项集,其中的项集可以是在数据集中同时出现的一组项目的集合,频繁项集可以是在数据集中频繁出现的项集。
在实施中,可以根据实际情况预先设定特征融合算法,例如,特征拼接算法、特征求和算法、特征之间对应元素相乘的算法等,通过上述特征融合算法对上述序列表征和上述节点属性表征进行融合处理,得到多维混合表征。此外,还可以根据实际情况预先设定序列模式挖掘算法,通过该序列模式挖掘算法直接对上述多维混合表征进行频繁项挖掘处理,具体可以根据不同的序列模式挖掘算法的实现过程处理,在此不再赘述。通过该序列模式挖掘算法直接对上述多维混合表征进行频繁项挖掘处理,得到上述行为序列数据对应的风险序列模式信息。
在步骤S108中,基于上述行为序列数据对应的风险序列模式信息,确定用户执行目标业务是否存在预设风险。
其中,预设风险可以包括多种,例如,预设风险可以为欺诈风险、非法金融交易风险等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在实施中,可以对上述行为序列数据对应的风险序列模式信息进行分析,基于分析结果可以判定用户执行目标业务是否存在预设风险,或者,可以通过预先设定的算法构建相应的模型,同时,可以预先根据指定的训练样本对上述模型进行模型训练,得到训练后的模型,并可以将上述行为序列数据对应的风险序列模式信息输入到训练后的模型中,通过训练后的模型对上述行为序列数据对应的风险序列模式信息进行风险检测,得到用户执行目标业务是否存在预设风险的风险检测结果。
本说明书实施例提供一种数据的处理方法,通过获取用户执行目标业务的过程中产生的行为序列数据,以及获取该行为序列数据中的行为节点的属性信息,然后,分别对该行为序列数据和该行为节点的属性信息采用不同的特征提取方式进行特征提取,得到该行为序列数据对应的序列表征和该行为节点的属性信息对应的节点属性表征,之后,可以将该序列表征和该节点属性表征进行融合处理,得到多维混合表征,基于多维混合表征,通过序列模式挖掘算法进行频繁项挖掘处理,得到该行为序列数据对应的风险序列模式信息,最终,可以基于该行为序列数据对应的风险序列模式信息,确定用户执行目标业务是否存在预设风险,这样,通过对行为序列数据的聚类分析,确定行为序列数据的聚集性特征,并可以对各聚集性的序列特征进行进一步归纳,既可沉淀出每一个产品链路及场景的正常序列模式,也可以进一步结合频繁项挖掘处理,确定颗粒度较细、准确率更高、打扰率更低的风险序列模式,进而确定用户执行目标业务是否存在预设风险,此外,通过特征提取的方式分别对上述行为序列数据和上述行为节点的属性信息进行特征提取,以提高针对用户行为序列的风险模式挖掘的准确性和性能,而且,可以充分利用每一个行为节点(例如用户、设备、介质等各主体信息)所包含的上下文特征信息,并通过多维混合表征,深入刻画用户行为序列数据,结合无监督聚类及频繁项挖掘方式,有效提高了风险序列挖掘的准确性。
在实际应用中,上述步骤S106中的基于上述多维混合表征,通过序列模式挖掘算法进行频繁项挖掘处理,得到该行为序列数据对应的风险序列模式信息的处理方式可以多种多样,以下提供一种可选的处理方式,如图2所示,具体可以包括以下步骤S1062和步骤S1064的处理。
在步骤S1062中,对上述多维混合表征进行聚类处理,得到一个或多个不同的聚类簇。
在实施中,由于在线金融体系内,收单产品种类及产品链路众多,用户经过不同方式打开在线金融应用,在在线金融应用内经过不同路径,使用不同的支付方式,经过排列组合后的行为序列模式不胜枚举,所以仅凭行为序列模式无法判定当前操作或者交易是否存在风险,还需要将其放在对应的产品链路下进行分析,基于此,如图3所示,可以根据实际情况预先选取合适的聚类算法,例如基于距离的聚类算法、基于密度的聚类算法或基于互连性的聚类算法,具体如Mean-Shift聚类算法、DBSCAN聚类算法、k-means聚类算法等,可以通过上述聚类算法对上述多维混合表征进行聚类分析处理,可以对有聚集性的簇进行深入分析,归纳出不同场景下行为序列的聚集性特征,既可沉淀出每一个场景的正常序列模式,也可挖掘出异常风险序列模式,得到一个或多个不同的聚类簇。如图4所示,可以基于聚集性对多维混合表征进行分组归纳,从而掌握多维混合表征的全貌,此外,针对特定分组采样深入分析,从而提高分析效率,这样,通过对多维融合表征进行一次聚集性分析,进行风险初筛,进而后续可以再对存在聚集性风险的行为序列数据进行频繁项挖掘处理,得到相应的风险序列模式信息。
在步骤S1064中,基于得到的一个或多个不同的聚类簇,通过序列模式挖掘算法进行频繁项挖掘处理,得到上述行为序列数据对应的风险序列模式信息。
在实施中,如图3所示,通过聚类处理,可以得到在行为序列维度风险浓度较高的数据集合,但是无监督聚类算法得到的结果可解释性较弱,仅表明了在一定向量空间投影下的聚集性,最终需要将具有可解释性的风险序列模式挖掘出来,转化为线上可用的识别管控规则,所以需要在聚类分析结果的基础上进行进一步的模式挖掘。为此,可以采用时间序列频繁模式挖掘GSP算法(Generalized Sequential Pattern Mining Algorithm)作为序列模式挖掘算法进行进一步模式挖掘,GSP算法主要用于数据序列中的频繁模式发现,GSP算法能够有效地发现序列数据中的常见模式,可以使用GSP算法对得到的一个或多个不同的聚类簇进行频繁项挖掘处理,得到上述行为序列数据对应的风险序列模式信息。
在实际应用中,上述得到的聚类簇可以包括多个,此时,对于上述步骤S1064中基于多个不同的聚类簇,通过序列模式挖掘算法进行频繁项挖掘处理,得到上述行为序列数据对应的风险序列模式信息的处理方式可以多种多样,以下提供一种可选的处理方式,如图5所示,具体可以包括以下步骤S10642~步骤S10644的处理。
在步骤S10642中,从多个不同的聚类簇中选取满足预设选取规则的一个或多个不同的目标聚类簇。
在实施中,可以根据实际情况设定选取规则,例如,可以通过对历史数据的统计分析确定选取规则,或者,如图3所示,可以根据专家经验设置相应的选取规则等。然后,可以分别对多个不同的聚类簇进行分析,并可以从中选取满足预设选取规则的一个或多个不同的聚类簇,可以将选取的聚类簇作为目标聚类簇。
在步骤S10644中,基于选取的一个或多个不同的目标聚类簇,通过序列模式挖掘算法进行频繁项挖掘处理,得到上述行为序列数据对应的风险序列模式信息。
上述步骤S10644的具体处理可以参见上述步骤S1064中的相关内容,在此不再赘述。
在实际应用中,上述步骤S10644的处理方式可以多种多样,以下提供一种可选的处理方式,具体可以包括以下步骤A2~步骤A4的处理。
在步骤A2中,对选取的一个或多个不同的目标聚类簇进行数据预处理,得到处理后的目标聚类簇,该数据预处理包括基于刻画用户执行目标业务的过程中的风险的数据进行预处理。
在实施中,如图3所示,在进行模式挖掘之前,首先基于业务选定的对于刻画交易链路风险重要性较高的特征(即基于刻画用户执行目标业务的过程中的风险的数据)对行为节点数据进行数据融合。具体地,针对每个行为节点,将具有高价值风险表征以"#nodeValue"的形式拼接在nodeType字后,最终组成为行为序列数据,具体如下:
经过数据预处理后的行为序列文本可以如('SCHEME_IN#www.hacker.com#android5.0,'H5_LOAD#www.appple.com','TINY_APP_LOAD#5531','MOBILE_CASHIER#50.00')。
在步骤A4中,通过序列模式挖掘算法对处理后的目标聚类簇进行频繁项挖掘处理,得到上述行为序列数据对应的风险序列模式信息。
上述步骤A4的具体处理可以参见上述相关内容,在此不再赘述。
在实际应用中,上述步骤S104中的对上述行为序列数据进行特征提取,得到该行为序列数据对应的序列表征的处理方式可以多种多样,以下提供一种可选的处理方式,如图6所示,该处理方式中可以通过行为序列表征模型对上述行为序列数据进行特征提取,其中的行为序列表征模型可以多种多样,以下提供一种可选的处理方式,即行为序列表征模型由Transformer模型构建,具体可以包括以下步骤S1042和步骤S1044的处理。
在步骤S1042中,将上述行为序列数据转换为文本标记序列数据,并通过Transformer模型中的位置编码器对文本标记序列数据中的每个元素所在的位置设置相应的位置信息,得到包括位置信息的文本标记序列数据。
其中,Transformer模型是一种基于自注意力机制(Self-Attention)的神经网络模型,广泛应用于自然语言处理领域。
在实施中,如图3所示,可以将上述行为序列数据转换为纯文本的Token序列(即文本标记序列数据),然后,可以将文本标记序列数据输入到Transformer模型构建的行为序列表征模型中,可以通过Transformer模型中的位置编码器对文本标记序列数据中的每个元素所在的位置设置相应的位置信息,得到包括位置信息的文本标记序列数据。
在步骤S1044中,通过Transformer模型中除位置编码器之外的网络构成的子模型对包括位置信息的文本标记序列数据进行特征提取,得到上述行为序列数据对应的序列表征。
在实施中,通过Transformer模型处理序列数据具有较好的效果,原因如下:自注意力机制:Transformer模型中的Self-Attention机制可以同时关注文本标记序列数据中的每个元素的位置,而无需依赖上下文信息。对于行为序列数据,风险序列模式往往与不同位置的行为有关,而Self-Attention机制能够对不同位置之间的关系进行建模,捕捉行为序列数据中的长距离依赖关系。相比其它行为序列表征模型需要顺序计算的特点,Transformer模型能够并行计算,有效地利用了行为序列数据中的信息,因此能够更全面地捕捉行为序列数据中的上下文信息,提高学习效果;位置编码:Transformer模型利用位置编码(Positional Encoding)来为文本标记序列数据中的每个位置添加相应的位置信息,有助于行为序列表征模型更好地理解文本标记序列数据中的顺序关系。行为序列数据一般是按照时间顺序排列的,位置编码能够帮助行为序列表征模型捕捉不同时间点的行为之间的顺序关系,提高行为序列数据的建模能力。因此,Transformer模型通过自注意力机制和位置编码等方面的优势,能够更好地利用行为序列数据中的上下文信息,更准确地提取和表征行为序列数据中的特征。
在实际应用中,上述步骤S104中的对上述行为节点的属性信息进行特征提取,得到该行为节点的属性信息对应的节点属性表征的处理方式可以多种多样,以下提供一种可选的处理方式,如图6所示,具体可以包括以下步骤S1046和步骤S1048的处理。
在步骤S1046中,基于刻画用户执行目标业务的过程中的风险的数据,从行为节点的属性信息中选取目标属性信息。
在实施中,可以根据实际情况或基于专家经验,从行为节点的属性信息中选取对刻画交易链路及风险信息权重较高(即高于预设阈值的风险信息权重)的节点属性信息(即能够刻画用户执行目标业务的过程中的风险的数据的节点的属性信息),并可以将选取的节点的属性信息作为目标属性信息。
在步骤S1048中,对目标属性信息进行特征提取,得到行为节点的属性信息对应的节点属性表征。
上述步骤S1048的具体处理可以参见上述相关内容,在此不再赘述。
在实际应用中,上述目标属性信息为离散型数据,此时,对于上述步骤S1048的处理方式可以多种多样,以下提供一种可选的处理方式,具体可以包括以下内容:通过独热编码One-Hot Encoding策略或通过标签编码Label Encoding策略对所述目标属性信息进行特征提取,得到所述行为节点的属性信息对应的节点属性表征。
其中,One-Hot Encoding策略可以将离散型数据转化为二进制向量,每个属性信息对应一个新的二进制特征,例如,对于属性信息为“H5_LOAD节点”域名,可以通过统计排列在前的N个(即topN)的数据后,将属性信息转化为N个二进制特征,其中的N为大于或等于1的正整数。Label Encoding策略可以将离散型数据的取值映射为整数值,例如,对于属性信息为“当前商户是否为KA”的取值{“是”,“否”},可以将它们分别映射为1和0。
在实际应用中,上述目标属性信息为连续型数据,此时,对于上述步骤S1048的处理方式可以多种多样,以下提供一种可选的处理方式,具体可以包括以下内容:通过标准化策略或通过归一化策略对所述目标属性信息进行特征提取,得到所述行为节点的属性信息对应的节点属性表征。
其中,标准化策略可以将连续型数据进行标准化,使其均值为0,方差为1,可以通过减去均值,再除以标准差的方式来实现。归一化策略可以将连续型数据缩放到指定的范围(例如[0,1]或[-1,1]等),可以通过减去最小值,再除以范围(即最大值减最小值)来实现。
在实际应用中,上述目标属性信息为身份标识符ID型数据,此时,对于上述步骤C4的处理方式可以多种多样,以下提供一种可选的处理方式,具体可以包括以下内容:通过哈希编码Hash Encoding策略或通过统计特征Statistical Features策略对所述目标属性信息进行特征提取,得到所述行为节点的属性信息对应的节点属性表征。
其中,哈希编码策略可以将ID数据进行哈希编码,将其转化为固定长度的特征向量。统计特征策略可以对ID数据进行统计分析(例如,计算某个ID出现的频次、均值、方差等),将上述统计结果作为特征进行使用。
特征提取策略(包括One-Hot Encoding策略、Label Encoding策略、标准化策略、归一化策略、哈希编码策略和统计特征策略)的选择应根据具体业务情况和数据特点进行,其中的筛选和处理方式可以根据业务专家的经验判断。在实际应用中,可以根据模型的需求和实验结果调整和优化特征工程方法,以提高模型的准确性和性能。
在实际应用中,上述步骤S1062的处理方式可以多种多样,以下提供一种可选的处理方式,具体可以包括以下内容:通过K-means聚类算法对多维混合表征进行聚类处理,得到一个或多个不同的聚类簇。
上述具体处理可以参见上述相关内容,在此不再赘述。
在实际应用中,上述步骤S102中的获取用户执行目标业务的过程中产生的行为序列数据的处理方式可以多种多样,以下提供一种可选的处理方式,具体可以包括以下步骤D2和步骤D4的处理。
在步骤D2中,获取用户执行目标业务的过程中产生的初始行为序列数据。
在步骤D4中,从初始行为序列数据中选取预设类型的行为节点,并基于选取的行为节点构建上述行为序列数据。
其中,预设类型可以根据实际情况设定,具体如,预设类型为用户和终端等。
在实际应用中,上述行为节点包括节点标识、节点类型、节点属性信息和时间,其中的节点类型包括用户、终端和介质中的一种或多种。
在实施中,行为序列数据中的行为节点可以抽象为
其中,节点标识可以如上述的uid主键。
在实际应用中,上述步骤S108的处理方式可以多种多样,以下提供一种可选的处理方式,具体可以包括以下步骤E2和步骤E4的处理。
在步骤E2中,将上述行为序列数据对应的风险序列模式信息提供给风险检测设备,该行为序列数据对应的风险序列模式信息用于触发风险检测设备对该行为序列数据对应的风险序列模式信息进行风险检测处理,得到用户执行目标业务是否存在预设风险的风险检测结果。
在实施中,可以将上述行为序列数据对应的风险序列模式信息提供给风险检测设备,风险检测设备可以对上述行为序列数据对应的风险序列模式信息进行分析,基于分析结果,可以判定用户执行目标业务是否存在预设风险,或者,风险检测设备可以通过预先设定的算法构建相应的模型,同时,可以预先根据指定的训练样本对上述模型进行模型训练,得到训练后的模型,并可以将上述行为序列数据对应的风险序列模式信息输入到训练后的模型中,通过训练后的模型对上述行为序列数据对应的风险序列模式信息进行风险检测,得到用户执行目标业务是否存在预设风险的风险检测结果。
在步骤E4中,接收风险检测设备发送的用户执行目标业务是否存在预设风险的风险检测结果。
本说明书实施例提供一种数据的处理方法,通过获取用户执行目标业务的过程中产生的行为序列数据,以及获取该行为序列数据中的行为节点的属性信息,然后,分别对该行为序列数据和该行为节点的属性信息采用不同的特征提取方式进行特征提取,得到该行为序列数据对应的序列表征和该行为节点的属性信息对应的节点属性表征,之后,可以将该序列表征和该节点属性表征进行融合处理,得到多维混合表征,基于多维混合表征,通过序列模式挖掘算法进行频繁项挖掘处理,得到该行为序列数据对应的风险序列模式信息,最终,可以基于该行为序列数据对应的风险序列模式信息,确定用户执行目标业务是否存在预设风险,这样,通过对行为序列数据的聚类分析,确定行为序列数据的聚集性特征,并可以对各聚集性的序列特征进行进一步归纳,既可沉淀出每一个产品链路及场景的正常序列模式,也可以进一步结合频繁项挖掘处理,确定颗粒度较细、准确率更高、打扰率更低的风险序列模式,进而确定用户执行目标业务是否存在预设风险,此外,通过特征提取的方式分别对上述行为序列数据和上述行为节点的属性信息进行特征提取,以提高针对用户行为序列的风险模式挖掘的准确性和性能,而且,可以充分利用每一个行为节点(例如用户、设备、介质等各主体信息)所包含的上下文特征信息,并通过多维混合表征,深入刻画用户行为序列数据,结合无监督聚类及频繁项挖掘方式,有效提高了风险序列挖掘的准确性。
以上为本说明书实施例提供的数据的处理方法,基于同样的思路,本说明书实施例还提供一种数据的处理装置,如图7所示。
该数据的处理装置包括:信息获取模块701、特征提取模块702、频繁项挖掘模块703和风险确定模块704,其中:
信息获取模块701,获取用户执行目标业务的过程中产生的行为序列数据,以及获取所述行为序列数据中的行为节点的属性信息;
特征提取模块702,分别对所述行为序列数据和所述行为节点的属性信息采用不同的特征提取方式进行特征提取,得到所述行为序列数据对应的序列表征和所述行为节点的属性信息对应的节点属性表征;
频繁项挖掘模块703,将所述序列表征和所述节点属性表征进行融合处理,得到多维混合表征,基于所述多维混合表征,通过序列模式挖掘算法进行频繁项挖掘处理,得到所述行为序列数据对应的风险序列模式信息;
风险确定模块704,基于所述行为序列数据对应的风险序列模式信息,确定所述用户执行目标业务是否存在预设风险。
本说明书实施例中,所述频繁项挖掘模块703,包括:
聚类单元,对所述多维混合表征进行聚类处理,得到一个或多个不同的聚类簇;
频繁项挖掘单元,基于所述一个或多个不同的聚类簇,通过序列模式挖掘算法进行频繁项挖掘处理,得到所述行为序列数据对应的风险序列模式信息。
本说明书实施例中,所述聚类簇包括多个,所述频繁项挖掘单元,从所述多个不同的聚类簇中选取满足预设选取规则的一个或多个不同的目标聚类簇;基于选取的一个或多个不同的目标聚类簇,通过序列模式挖掘算法进行频繁项挖掘处理,得到所述行为序列数据对应的风险序列模式信息。
本说明书实施例中,所述频繁项挖掘单元,对选取的一个或多个不同的目标聚类簇进行数据预处理,得到处理后的目标聚类簇,所述数据预处理包括基于刻画所述用户执行目标业务的过程中的风险的数据进行预处理;通过序列模式挖掘算法对处理后的目标聚类簇进行频繁项挖掘处理,得到所述行为序列数据对应的风险序列模式信息。
本说明书实施例中,所述特征提取模块702,包括:
处理单元,将所述行为序列数据转换为文本标记序列数据,并通过Transformer模型中的位置编码器对所述文本标记序列数据中的每个元素所在的位置设置相应的位置信息,得到包括位置信息的文本标记序列数据;
第一特征提取单元,通过所述Transformer模型中除位置编码器之外的网络构成的子模型对所述包括位置信息的文本标记序列数据进行特征提取,得到所述行为序列数据对应的序列表征。
本说明书实施例中,所述特征提取模块702,包括:
选取单元,基于刻画所述用户执行目标业务的过程中的风险的数据,从所述行为节点的属性信息中选取目标属性信息;
第二特征提取单元,对所述目标属性信息进行特征提取,得到所述行为节点的属性信息对应的节点属性表征。
本说明书实施例中,如果所述目标属性信息为离散型数据,则所述第二特征提取单元,通过独热编码One-Hot Encoding策略或通过标签编码Label Encoding策略对所述目标属性信息进行特征提取,得到所述行为节点的属性信息对应的节点属性表征;
如果所述目标属性信息为连续型数据,则所述第二特征提取单元,通过标准化策略或通过归一化策略对所述目标属性信息进行特征提取,得到所述行为节点的属性信息对应的节点属性表征;
如果所述目标属性信息为身份标识符ID型数据,则所述第二特征提取单元,通过哈希编码Hash Encoding策略或通过统计特征Statistical Features策略对所述目标属性信息进行特征提取,得到所述行为节点的属性信息对应的节点属性表征。
本说明书实施例中,所述聚类单元,通过K-means聚类算法对所述多维混合表征进行聚类处理,得到一个或多个不同的聚类簇。
本说明书实施例中,所述信息获取模块701,包括:
初始序列获取单元,获取用户执行目标业务的过程中产生的初始行为序列数据;
行为序列构建单元,从所述初始行为序列数据中选取预设类型的行为节点,并基于选取的行为节点构建所述行为序列数据。
本说明书实施例中,所述行为节点包括节点标识、节点类型、节点属性信息和时间,所述节点类型包括用户、终端和介质中的一种或多种。
本说明书实施例中,所述风险确定模块704,包括:
信息提供单元,将所述行为序列数据对应的风险序列模式信息提供给风险检测设备,所述行为序列数据对应的风险序列模式信息用于触发所述风险检测设备对所述行为序列数据对应的风险序列模式信息进行风险检测处理,得到所述用户执行目标业务是否存在预设风险的风险检测结果;
结果接收单元,接收所述风险检测设备发送的所述用户执行目标业务是否存在预设风险的风险检测结果。
本说明书实施例提供一种数据的处理装置,通过获取用户执行目标业务的过程中产生的行为序列数据,以及获取该行为序列数据中的行为节点的属性信息,然后,分别对该行为序列数据和该行为节点的属性信息采用不同的特征提取方式进行特征提取,得到该行为序列数据对应的序列表征和该行为节点的属性信息对应的节点属性表征,之后,可以将该序列表征和该节点属性表征进行融合处理,得到多维混合表征,基于多维混合表征,通过序列模式挖掘算法进行频繁项挖掘处理,得到该行为序列数据对应的风险序列模式信息,最终,可以基于该行为序列数据对应的风险序列模式信息,确定用户执行目标业务是否存在预设风险,这样,通过对行为序列数据的聚类分析,确定行为序列数据的聚集性特征,并可以对各聚集性的序列特征进行进一步归纳,既可沉淀出每一个产品链路及场景的正常序列模式,也可以进一步结合频繁项挖掘处理,确定颗粒度较细、准确率更高、打扰率更低的风险序列模式,进而确定用户执行目标业务是否存在预设风险,此外,通过特征提取的方式分别对上述行为序列数据和上述行为节点的属性信息进行特征提取,以提高针对用户行为序列的风险模式挖掘的准确性和性能,而且,可以充分利用每一个行为节点(例如用户、设备、介质等各主体信息)所包含的上下文特征信息,并通过多维混合表征,深入刻画用户行为序列数据,结合无监督聚类及频繁项挖掘方式,有效提高了风险序列挖掘的准确性。
以上为本说明书实施例提供的数据的处理装置,基于同样的思路,本说明书实施例还提供一种数据的处理设备,如图8所示。
所述数据的处理设备可以为上述实施例提供终端设备或服务器等。
数据的处理设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器801和存储器802,存储器802中可以存储有一个或一个以上存储应用程序或数据。其中,存储器802可以是短暂存储或持久存储。存储在存储器802的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对数据的处理设备中的一系列计算机可执行指令。更进一步地,处理器801可以设置为与存储器802通信,在数据的处理设备上执行存储器802中的一系列计算机可执行指令。数据的处理设备还可以包括一个或一个以上电源803,一个或一个以上有线或无线网络接口804,一个或一个以上输入输出接口805,一个或一个以上键盘806。
具体在本实施例中,数据的处理设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对数据的处理设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取用户执行目标业务的过程中产生的行为序列数据,以及获取所述行为序列数据中的行为节点的属性信息;
分别对所述行为序列数据和所述行为节点的属性信息采用不同的特征提取方式进行特征提取,得到所述行为序列数据对应的序列表征和所述行为节点的属性信息对应的节点属性表征;
将所述序列表征和所述节点属性表征进行融合处理,得到多维混合表征,基于所述多维混合表征,通过序列模式挖掘算法进行频繁项挖掘处理,得到所述行为序列数据对应的风险序列模式信息;
基于所述行为序列数据对应的风险序列模式信息,确定所述用户执行目标业务是否存在预设风险。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于数据的处理设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书实施例提供一种数据的处理设备,通过获取用户执行目标业务的过程中产生的行为序列数据,以及获取该行为序列数据中的行为节点的属性信息,然后,分别对该行为序列数据和该行为节点的属性信息采用不同的特征提取方式进行特征提取,得到该行为序列数据对应的序列表征和该行为节点的属性信息对应的节点属性表征,之后,可以将该序列表征和该节点属性表征进行融合处理,得到多维混合表征,基于多维混合表征,通过序列模式挖掘算法进行频繁项挖掘处理,得到该行为序列数据对应的风险序列模式信息,最终,可以基于该行为序列数据对应的风险序列模式信息,确定用户执行目标业务是否存在预设风险,这样,通过对行为序列数据的聚类分析,确定行为序列数据的聚集性特征,并可以对各聚集性的序列特征进行进一步归纳,既可沉淀出每一个产品链路及场景的正常序列模式,也可以进一步结合频繁项挖掘处理,确定颗粒度较细、准确率更高、打扰率更低的风险序列模式,进而确定用户执行目标业务是否存在预设风险,此外,通过特征提取的方式分别对上述行为序列数据和上述行为节点的属性信息进行特征提取,以提高针对用户行为序列的风险模式挖掘的准确性和性能,而且,可以充分利用每一个行为节点(例如用户、设备、介质等各主体信息)所包含的上下文特征信息,并通过多维混合表征,深入刻画用户行为序列数据,结合无监督聚类及频繁项挖掘方式,有效提高了风险序列挖掘的准确性。
进一步地,基于上述图1到图6所示的方法,本说明书一个或多个实施例还提供了一种存储介质,用于存储计算机可执行指令信息,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
获取用户执行目标业务的过程中产生的行为序列数据,以及获取所述行为序列数据中的行为节点的属性信息;
分别对所述行为序列数据和所述行为节点的属性信息采用不同的特征提取方式进行特征提取,得到所述行为序列数据对应的序列表征和所述行为节点的属性信息对应的节点属性表征;
将所述序列表征和所述节点属性表征进行融合处理,得到多维混合表征,基于所述多维混合表征,通过序列模式挖掘算法进行频繁项挖掘处理,得到所述行为序列数据对应的风险序列模式信息;
基于所述行为序列数据对应的风险序列模式信息,确定所述用户执行目标业务是否存在预设风险。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于上述一种存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书实施例提供一种存储介质,通过获取用户执行目标业务的过程中产生的行为序列数据,以及获取该行为序列数据中的行为节点的属性信息,然后,分别对该行为序列数据和该行为节点的属性信息采用不同的特征提取方式进行特征提取,得到该行为序列数据对应的序列表征和该行为节点的属性信息对应的节点属性表征,之后,可以将该序列表征和该节点属性表征进行融合处理,得到多维混合表征,基于多维混合表征,通过序列模式挖掘算法进行频繁项挖掘处理,得到该行为序列数据对应的风险序列模式信息,最终,可以基于该行为序列数据对应的风险序列模式信息,确定用户执行目标业务是否存在预设风险,这样,通过对行为序列数据的聚类分析,确定行为序列数据的聚集性特征,并可以对各聚集性的序列特征进行进一步归纳,既可沉淀出每一个产品链路及场景的正常序列模式,也可以进一步结合频繁项挖掘处理,确定颗粒度较细、准确率更高、打扰率更低的风险序列模式,进而确定用户执行目标业务是否存在预设风险,此外,通过特征提取的方式分别对上述行为序列数据和上述行为节点的属性信息进行特征提取,以提高针对用户行为序列的风险模式挖掘的准确性和性能,而且,可以充分利用每一个行为节点(例如用户、设备、介质等各主体信息)所包含的上下文特征信息,并通过多维混合表征,深入刻画用户行为序列数据,结合无监督聚类及频繁项挖掘方式,有效提高了风险序列挖掘的准确性。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程欺诈案例的串并设备的处理器以产生一个机器,使得通过计算机或其他可编程欺诈案例的串并设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程欺诈案例的串并设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程欺诈案例的串并设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本文件。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (13)
1.一种数据的处理方法,所述方法包括:
获取用户执行目标业务的过程中产生的行为序列数据,以及获取所述行为序列数据中的行为节点的属性信息;
分别对所述行为序列数据和所述行为节点的属性信息采用不同的特征提取方式进行特征提取,得到所述行为序列数据对应的序列表征和所述行为节点的属性信息对应的节点属性表征;
将所述序列表征和所述节点属性表征进行融合处理,得到多维混合表征,基于所述多维混合表征,通过序列模式挖掘算法进行频繁项挖掘处理,得到所述行为序列数据对应的风险序列模式信息;
基于所述行为序列数据对应的风险序列模式信息,确定所述用户执行目标业务是否存在预设风险。
2.根据权利要求1所述的方法,所述基于所述多维混合表征,通过序列模式挖掘算法进行频繁项挖掘处理,得到所述行为序列数据对应的风险序列模式信息,包括:
对所述多维混合表征进行聚类处理,得到一个或多个不同的聚类簇;
基于所述一个或多个不同的聚类簇,通过序列模式挖掘算法进行频繁项挖掘处理,得到所述行为序列数据对应的风险序列模式信息。
3.根据权利要求2所述的方法,所述聚类簇包括多个,基于多个不同的聚类簇,通过序列模式挖掘算法进行频繁项挖掘处理,得到所述行为序列数据对应的风险序列模式信息,包括:
从所述多个不同的聚类簇中选取满足预设选取规则的一个或多个不同的目标聚类簇;
基于选取的一个或多个不同的目标聚类簇,通过序列模式挖掘算法进行频繁项挖掘处理,得到所述行为序列数据对应的风险序列模式信息。
4.根据权利要求3所述的方法,所述基于选取的一个或多个不同的目标聚类簇,通过序列模式挖掘算法进行频繁项挖掘处理,得到所述行为序列数据对应的风险序列模式信息,包括:
对选取的一个或多个不同的目标聚类簇进行数据预处理,得到处理后的目标聚类簇,所述数据预处理包括基于刻画所述用户执行目标业务的过程中的风险的数据进行预处理;
通过序列模式挖掘算法对处理后的目标聚类簇进行频繁项挖掘处理,得到所述行为序列数据对应的风险序列模式信息。
5.根据权利要求1或2所述的方法,所述对所述行为序列数据进行特征提取,得到所述行为序列数据对应的序列表征,包括:
将所述行为序列数据转换为文本标记序列数据,并通过Transformer模型中的位置编码器对所述文本标记序列数据中的每个元素所在的位置设置相应的位置信息,得到包括位置信息的文本标记序列数据;
通过所述Transformer模型中除位置编码器之外的网络构成的子模型对所述包括位置信息的文本标记序列数据进行特征提取,得到所述行为序列数据对应的序列表征。
6.根据权利要求1或2所述的方法,对所述行为节点的属性信息进行特征提取,得到所述行为节点的属性信息对应的节点属性表征,包括:
基于刻画所述用户执行目标业务的过程中的风险的数据,从所述行为节点的属性信息中选取目标属性信息;
对所述目标属性信息进行特征提取,得到所述行为节点的属性信息对应的节点属性表征。
7.根据权利要求6所述的方法,如果所述目标属性信息为离散型数据,则所述对所述目标属性信息进行特征提取,得到所述行为节点的属性信息对应的节点属性表征,包括:
通过独热编码One-Hot Encoding策略或通过标签编码Label Encoding策略对所述目标属性信息进行特征提取,得到所述行为节点的属性信息对应的节点属性表征;
如果所述目标属性信息为连续型数据,则所述对所述目标属性信息进行特征提取,得到所述行为节点的属性信息对应的节点属性表征,包括:
通过标准化策略或通过归一化策略对所述目标属性信息进行特征提取,得到所述行为节点的属性信息对应的节点属性表征;
如果所述目标属性信息为身份标识符ID型数据,则所述对所述目标属性信息进行特征提取,得到所述行为节点的属性信息对应的节点属性表征,包括:
通过哈希编码Hash Encoding策略或通过统计特征Statistical Features策略对所述目标属性信息进行特征提取,得到所述行为节点的属性信息对应的节点属性表征。
8.根据权利要求2所述的方法,所述对所述多维混合表征进行聚类处理,得到一个或多个不同的聚类簇,包括:
通过K-means聚类算法对所述多维混合表征进行聚类处理,得到一个或多个不同的聚类簇。
9.根据权利要求1所述的方法,所述获取用户执行目标业务的过程中产生的行为序列数据,包括:
获取用户执行目标业务的过程中产生的初始行为序列数据;
从所述初始行为序列数据中选取预设类型的行为节点,并基于选取的行为节点构建所述行为序列数据。
10.根据权利要求1所述的方法,所述行为节点包括节点标识、节点类型、节点属性信息和时间,所述节点类型包括用户、终端和介质中的一种或多种。
11.根据权利要求1所述的方法,所述基于所述行为序列数据对应的风险序列模式信息,确定所述用户执行目标业务是否存在预设风险,包括:
将所述行为序列数据对应的风险序列模式信息提供给风险检测设备,所述行为序列数据对应的风险序列模式信息用于触发所述风险检测设备对所述行为序列数据对应的风险序列模式信息进行风险检测处理,得到所述用户执行目标业务是否存在预设风险的风险检测结果;
接收所述风险检测设备发送的所述用户执行目标业务是否存在预设风险的风险检测结果。
12.一种数据的处理装置,所述装置包括:
信息获取模块,获取用户执行目标业务的过程中产生的行为序列数据,以及获取所述行为序列数据中的行为节点的属性信息;
特征提取模块,分别对所述行为序列数据和所述行为节点的属性信息采用不同的特征提取方式进行特征提取,得到所述行为序列数据对应的序列表征和所述行为节点的属性信息对应的节点属性表征;
频繁项挖掘模块,将所述序列表征和所述节点属性表征进行融合处理,得到多维混合表征,基于所述多维混合表征,通过序列模式挖掘算法进行频繁项挖掘处理,得到所述行为序列数据对应的风险序列模式信息;
风险确定模块,基于所述行为序列数据对应的风险序列模式信息,确定所述用户执行目标业务是否存在预设风险。
13.一种数据的处理设备,所述数据的处理设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取用户执行目标业务的过程中产生的行为序列数据,以及获取所述行为序列数据中的行为节点的属性信息;
分别对所述行为序列数据和所述行为节点的属性信息采用不同的特征提取方式进行特征提取,得到所述行为序列数据对应的序列表征和所述行为节点的属性信息对应的节点属性表征;
将所述序列表征和所述节点属性表征进行融合处理,得到多维混合表征,基于所述多维混合表征,通过序列模式挖掘算法进行频繁项挖掘处理,得到所述行为序列数据对应的风险序列模式信息;
基于所述行为序列数据对应的风险序列模式信息,确定所述用户执行目标业务是否存在预设风险。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311739602.4A CN117745450A (zh) | 2023-12-15 | 2023-12-15 | 一种数据的处理方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311739602.4A CN117745450A (zh) | 2023-12-15 | 2023-12-15 | 一种数据的处理方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117745450A true CN117745450A (zh) | 2024-03-22 |
Family
ID=90252088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311739602.4A Pending CN117745450A (zh) | 2023-12-15 | 2023-12-15 | 一种数据的处理方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117745450A (zh) |
-
2023
- 2023-12-15 CN CN202311739602.4A patent/CN117745450A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khan et al. | Multi-gcn: Graph convolutional networks for multi-view networks, with applications to global poverty | |
CN112785397B (zh) | 一种产品推荐方法、装置及存储介质 | |
WO2023124204A1 (zh) | 反欺诈风险评估方法、训练方法、装置及可读存储介质 | |
CN110069709B (zh) | 意图识别方法、装置、计算机可读介质及电子设备 | |
Liu et al. | Generalized zero-shot learning for action recognition with web-scale video data | |
CN110688974B (zh) | 一种身份识别方法及装置 | |
CN109508879B (zh) | 一种风险的识别方法、装置及设备 | |
CN110674188A (zh) | 一种特征提取方法、装置及设备 | |
CN111695019B (zh) | 一种识别关联账号的方法及装置 | |
Lv et al. | Computational intelligence in security of digital twins big graphic data in cyber-physical systems of smart cities | |
Ma et al. | Error correcting input and output hashing | |
CN112214652A (zh) | 一种报文生成方法、装置及设备 | |
CN112966113A (zh) | 一种数据的风险防控方法、装置及设备 | |
Dupont et al. | Coarse-dtw for sparse time series alignment | |
CN115410199A (zh) | 图像内容检索方法、装置、设备及存储介质 | |
Gao et al. | Dancinglines: an analytical scheme to depict cross-platform event popularity | |
CN111538925B (zh) | 统一资源定位符url指纹特征的提取方法及装置 | |
CN116361813A (zh) | 一种风险攻击的感知方法、装置及设备 | |
Kapoor | Data mining: Past, present and future scenario | |
CN115983982A (zh) | 信贷风险识别方法、装置、设备及计算机可读存储介质 | |
CN117745450A (zh) | 一种数据的处理方法、装置及设备 | |
Zheng et al. | Deep learning hash for wireless multimedia image content security | |
CN111401641B (zh) | 业务数据处理方法、装置及电子设备 | |
CN114328884A (zh) | 一种图文去重方法及装置 | |
Bian et al. | Discriminative codebook hashing for supervised video retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |