CN110557447B - 一种用户行为识别方法、装置及存储介质和服务器 - Google Patents
一种用户行为识别方法、装置及存储介质和服务器 Download PDFInfo
- Publication number
- CN110557447B CN110557447B CN201910791154.XA CN201910791154A CN110557447B CN 110557447 B CN110557447 B CN 110557447B CN 201910791154 A CN201910791154 A CN 201910791154A CN 110557447 B CN110557447 B CN 110557447B
- Authority
- CN
- China
- Prior art keywords
- user
- service
- sample
- specific
- behavior recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种用户行为识别方法、装置及存储介质和服务器,应用于信息处理技术领域。本发明实施例中根据待识别用户在多个业务场景中每个业务场景下的业务数据,确定基于多个业务场景的综合特征信息,再根据综合特征信息确定与多种类型特定用户之间的原因关联特征,并由预先训练的识别模型根据原因关联特征确定是否为特定用户的结果。这样需预置多类型特定用户的样本特征,而这些样本特征一般都比较固定,使得最终对用户的识别较准确;且可以综合用户在多个业务场景中的业务数据得到的综合特征信息,更全面且准确地描述了用户在业务操作过程中的实际情况。
Description
技术领域
本发明涉及信息处理技术领域,特别涉及一种用户行为识别方法、装置及存储介质和服务器。
背景技术
任意用户可以通过应用终端与其它应用终端或与应用服务器之间进行各种业务过程,比如,通过应用终端进行注册、登录、好友请求和交易等,在这些过程中,需要识别出是否为恶意用户或黑产用户,从而对恶意用户和黑产用户的应用终端的业务进行限制和打击。
现有的一种用户行为识别方法主要包括:针对业务请求对应的用户行为的信息,根据预先设置的用户可信行为的权重值、待识别用户所发起的业务请求的历史累计次数,以及待识别用户对应的用户可信行为的历史权重累计值,确定待识别用户的可信度,其中,用户可信行为包括用于表征用户真实操作的用户行为;根据待识别用户的可信度,确定待识别用户的行为是否存在风险。
现有的用户行为识别方法中,需要安全人员根据经验和对业务的理解,在系统中预置用户可信行为的权重值等,使得最终识别出的是否存在风险的结果也是需要安全人员的经验等,成本较高,难以应对复杂业务场景的恶意防控。
发明内容
本发明实施例提供一种用户行为识别方法、装置及存储介质和服务器,实现了根据待识别用户与多种类型特定用户之间的原因关联特征,识别待识别用户是否为特定用户。
本发明实施例第一方面提供一种用户行为识别方法,包括:
采集待识别用户在多个业务场景中每个业务场景下的用户业务数据;
根据所述每个业务场景下的用户业务数据,确定所述待识别用户基于多个业务场景的综合特征信息;
根据所述综合特征信息及预置的多种类型特定用户的用户业务数据的样本特征,确定所述待识别用户与多种类型特定用户之间的原因关联特征;
根据所述原因关联特征及预先训练的识别模型,确定所述待识别用户是否为特定用户。
本发明实施例第二方面提供一种用户行为识别装置,包括:
采集单元,用于采集待识别用户在多个业务场景中每个业务场景下的用户业务数据;
综合确定单元,用于根据所述每个业务场景下的用户业务数据,确定所述待识别用户基于多个业务场景的综合特征信息;
关联确定单元,用于根据所述综合特征信息及预置的多种类型特定用户的用户业务数据的样本特征,确定所述待识别用户与多种类型特定用户之间的原因关联特征;
用户确定单元,用于根据所述原因关联特征及预先训练的识别模型,确定所述待识别用户是否为特定用户。
本发明实施例第三方面提供一种存储介质,所述存储介质储存多条指令,所述指令适于由处理器加载并执行如本发明实施例第一方面所述的用户行为识别方法。
本发明实施例第四方面提供一种服务器,包括处理器和存储介质,所述处理器,用于实现各个指令;
所述存储介质用于储存多条指令,所述指令用于由处理器加载并执行如本发明实施例第一方面所述的用户行为识别方法。
可见,在本实施例的方法中,用户行为识别装置会根据待识别用户在多个业务场景中每个业务场景下的用户业务数据,确定待识别用户基于多个业务场景的综合特征信息,再根据综合特征信息确定待识别用户与多种类型特定用户之间的原因关联特征,并由预先训练的识别模型根据原因关联特征确定待识别用户是否为特定用户。这样,用户行为识别装置在确定用于识别待识别用户的原因关联特征时,只需预置多类型特定用户的样本特征,而这些样本特征一般都比较固定,不会在短时间内发生明显变化,不受安全人员经验和业务理解的影响,使得最终对待识别用户的识别较准确,且由于用户行为识别装置能确定原因关联特征,可以直观地给出待识别用户为特定用户的原因;又由于用户行为识别装置可以综合待识别用户在多个业务场景中的用户业务数据得到的综合特征信息,更全面且准确地描述了用户在业务操作过程中的实际情况,进而使得最终对待识别用户的识别更准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种用户行为识别方法的示意图;
图2是本发明一个实施例提供的一种用户行为识别方法的流程图;
图3a是本发明一个实施例中用户行为识别装置显示的一种原因关联特征对应的图像示意图;
图3b是本发明一个实施例中用户行为识别装置显示的另一种原因关联特征对应的图像示意图;
图4是本发明一个实施例中训练的用户行为识别模型的方法流程图;
图5是本发明一个实施例中用户行为识别装置抽取的原因关联特征对应的图像示意图;
图6是本发明应用实施例中用户行为识别方法所应用于的场景示意图;
图7是本发明应用实施例中用户行为识别装置的结构示意图;
图8是本发明应用实施例提供的一种用户行为识别方法的示意图;
图9是本发明实施例提供的一种用户行为识别装置的结构示意图;
图10是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排它的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供一种用户行为识别方法,主要可以应用于如图1所示的场景下,包括多个(图中以n个为例说明)应用系统分别对应的应用终端,及用户行为识别装置,其中,任一应用终端可以发起相应的业务操作流程,并可以将用户业务数据实时地传送给用户行为识别装置。
用户行为识别装置可以按照如下步骤对特定用户进行识别,比如对恶意或黑产用户进行识别:
采集待识别用户在多个业务场景中每个业务场景下的用户业务数据;根据所述每个业务场景下的用户业务数据,确定所述待识别用户基于多个业务场景的综合特征信息;根据所述综合特征信息及预置的多种类型特定用户的用户业务数据的样本特征,确定所述待识别用户与多种类型特定用户之间的原因关联特征;根据所述原因关联特征及预先训练的识别模型,确定所述待识别用户是否为特定用户。
在具体应用过程中,上述多个业务场景可以是一个应用终端所执行的多个业务过程,也可以是多个应用终所执行的业务过程,且这里多个应用终端可以是分别装载在多个设备中的应用程序,也可以是装载在一个设备中的多个应用程序。
这样,用户行为识别装置在确定用于识别待识别用户的原因关联特征时,只需预置多类型特定用户的样本特征,而这些样本特征一般都比较固定,不会在短时间内发生明显变化,不受安全人员经验和业务理解的影响,使得最终对待识别用户的识别较准确,且由于用户行为识别装置能确定原因关联特征,可以直观地给出待识别用户为特定用户的原因;又由于用户行为识别装置可以综合待识别用户在多个业务场景中的用户业务数据得到的综合特征信息,更全面且准确地描述了用户在业务操作过程中的实际情况,进而使得最终对待识别用户的识别更准确。
本发明实施例提供一种用户行为识别方法,主要是上述用户行为识别装置所执行的方法,流程图如图2所示,包括:
步骤101,采集待识别用户在多个业务场景中每个业务场景下的用户业务数据。
可以理解,用户可以操作多个应用终端(比如社交网络、电商交易、金融授权等终端),使得各个应用终端使用相同的用户标识注册到相应的应用服务器后,各个应用终端就可以与相应的应用服务器或与其它应用终端之间进行基于该用户的业务操作过程。这样,在一种情况下,在这些业务操作过程中,用户行为识别装置会实时地采集各个应用终端的用户业务数据,并发起本实施例的流程;另一种情况下,当这些业务操作执行完成后,在各个应用终端对应的应用系统中会储存这些业务操作过程的日志信息,用户行为识别装置可以从这些日志信息中采集到各个应用终端历史的用户业务数据,并发起本实施例的流程。
其中,由于多个应用终端的业务操作过程是多个应用终端使用相同的用户标识登录应用服务器之后产生的,而每个应用终端产生的一种业务的用户业务数据对应一个业务场景下的用户业务数据,则用户行为识别装置采集的多个业务场景下的用户业务数据都是基于同一个用户的。
具体地,每个业务场景下的用户业务数据可以包括但不限于如下数据:用户信息,业务信息,业务发生的时间信息,设备信息和地址信息等,其中,用户信息可以包括用户标识等,业务信息可以包括业务类型、业务过程等信息;设备信息可以包括应用终端标识、系统版本、安装特定应用的状态和网络接入状态等;地址信息可以包括应用终端的网络地址、子网地址和用户允许采集的全球定位系统(Global Position System,GPS)信息等。
步骤102,根据每个业务场景下的用户业务数据,确定待识别用户基于多个业务场景的综合特征信息。
这里综合特征信息综合了待识别用户在各个业务场景下的用户业务数据的特征,能用简单的数据综合描述多个业务场景下的用户业务数据。具体地,用户行为识别装置可以先分别提取每个业务场景下的用户业务数据的子特征信息,比如将各业务场景下的用户业务数据直接转换为子特征向量;然后根据每个业务场景下的子特征信息及预先训练的深度网络计算关系,计算待识别用户基于多个业务场景的综合特征信息。
这里预先训练的深度网络计算关系是根据多个业务场景下的子特征信息进行深度学习得到综合特征信息的计算关系。具体可以包括拼接、求和或求平均等计算方法,以及在时间先后顺序上生成具有时间结构的序列关系的方法。这样,通过预先训练的深度网络计算关系计算的综合特征信息可以包括:待识别用户在多个相邻时间窗口中的综合特征信息,比如多个特征向量。且下述步骤103中所述的多种类型特定用户的样本特征也可以由该预先训练的深度网络计算关系预先计算。
步骤103,根据综合特征信息及预置的多种类型特定用户的用户业务数据的样本特征,确定待识别用户与多种类型特定用户之间的原因关联特征。
这里,原因关联特征用于描述待识别用户在多个业务场景下的用户业务数据,与多种类型特征用户的用户业务数据之间相关联的信息。具体地,用户行为识别装置可以采用注意力机制来确定原因关联特征,比如在上述步骤102确定的综合特征信息与多种类型特定用户的用户业务数据的样本特征之间进行内积等度量计算,即可得到原因关联特征。其中,如果特定用户为恶意用户,则多种类型特定用户可以为欺诈、骚扰、恶意登录、广告或刷单等类型的恶意用户;如果特定用户为异常用户,则多种类型特定用户可以为各种异常原因的异常用户。
在实际应用中,上述原因关联特征具体可以为注意力权重矩阵,该矩阵中的某一值用于表示待识别用户在一个时间窗口中的综合特征信息与一种类型特定用户的样本特征之间的原因关联特征,这样,用户行为识别装置还可以将注意力权重矩阵转化为图像数据,并根据图像数据显示相应图像,使得用户可以通过显示的图像能直观地得知待识别用户属于哪种类型的特定用户或者属于非特定用户。具体地,可以将注意力权重矩阵中某一位置的值作为图像中某一位置的像素灰度值进行显示。
例如图3a所示为用户行为识别装置显示的用户1与多种类型恶意用户之间的原因关联特征对应的图像,该图像中明暗像素分布较均匀,表示对用户1无明显的恶意原因的提示,说明该用户1非恶意用户;如图3b所示为用户行为识别装置显示的用户2与多种类型恶意用户之间的原因关联特征对应的图像,在该图像会有明显亮点(图中黑色点为亮点),用于对用户2进行已知类型恶意原因进行提示,说明该用户2属于某种已知类型的恶意用户。
步骤104,根据上述原因关联特征及预先训练的识别模型确定待识别用户是否为特定用户。
这里,识别模型的运行逻辑可以预先设置在用户行为识别装置中的,可以通过已知特定用户属性(即是否为特定用户的信息)的训练样本,且运用深度网络优化方法训练得到,用于根据用户与多种类型特定用户之间的原因关联特征确定用户是否为特定用户。
需要说明的是,当用户行为识别装置在确定待识别用户为特定用户时,比如为恶意用户时,可以对该待识别用户的应用终端发起的业务流程进行限制和打击。
可见,在本实施例的方法中,用户行为识别装置会根据待识别用户在多个业务场景中每个业务场景下的用户业务数据,确定待识别用户基于多个业务场景的综合特征信息,再根据综合特征信息确定待识别用户与多种类型特定用户之间的原因关联特征,并由预先训练的识别模型根据原因关联特征确定待识别用户是否为特定用户。这样,用户行为识别装置在确定用于识别待识别用户的原因关联特征时,只需预置多类型特定用户的样本特征,而这些样本特征一般都比较固定,不会在短时间内发生明显变化,不受安全人员经验和业务理解的影响,使得最终对待识别用户的识别较准确,且由于用户行为识别装置能确定原因关联特征,可以直观地给出待识别用户为特定用户的原因;又由于用户行为识别装置可以综合待识别用户在多个业务场景中的用户业务数据得到的综合特征信息,更全面且准确地描述了用户在业务操作过程中的实际情况,进而使得最终对待识别用户的识别更准确。
在一个具体的实施例中,上述步骤102和104可以通过用户行为识别模型来实现,而用户行为识别模型的训练可以按照如下的有监督训练方法来实现,流程图如图4所示,包括:
步骤201,确定用户行为识别初始模型。
可以理解,用户行为识别装置在确定用户行为识别初始模型时,会确定用户行为识别初始模型所包括的多层结构和各层机构中参数的初始值。
具体用户行为识别初始模型可以包括:特征提取模块、关联模块和上述识别模型,其中,特征提取模块用于提取用户基于多个业务场景的综合特征信息,该特征提取模块的计算关系即为上述预先训练的深度网络计算关系;关联模块用于根据特征提取模块提取到的综合特征信息及预置的多种类型特定用户的用户业务数据的样本特征,确定用户与多种类型特定用户之间的原因关联特征;而识别模型用于根据原因关联特征确定用户是否为特定用户。其中,用户行为识别初始模型中的多层结构可以是如下任一种算法结构:长短期记忆网络(LSTM,Long Short-Term Memory)、卷积神经网络(Convolutional NeuralNetwork,CNN)、转化器(Transformer)等。
用户行为识别初始模型的参数是指用户行为识别初始模型中各层结构在计算过程中所用到的固定的,不需要随时赋值的参数,比如参数规模、网络层数、用户向量长度等参数。
步骤202,确定训练样本,训练样本中包括多个样本用户中各个样本用户在多个业务场景下的用户业务数据,及各个样本用户是否属于特定用户的标注信息。在这些样本用户中可以包括正样本用户即属于特定用户的样本用户,和负样本用户即属于非特定用户的样本用户。
步骤203,用户行为识别初始模型分别根据各个样本用户在多个业务场景下的用户业务数据,得到各个样本用户是否属于特定用户的结果。
具体地,用户行为识别初始模型中的特征提取模块先根据样本用户在多个业务场景下的用户业务数据,提取样本用户基于多个业务场景的综合特征信息;然后关联模块根据综合特征信息及预置的多种类型特定用户的用户业务数据的样本特征,确定样本用户与多种类型特定用户之间的原因关联特征;最后识别模型根据原因关联特征确定样本用户是否为特定用户。
步骤204,根据用户行为识别初始模型得到的各个样本用户是否属于特定用户的结果,及训练样本中的标注信息,调整用户行为识别初始模型中的参数值,以得到最终的用户行为识别模型。
具体地,用户行为识别装置会先根据上述步骤203中用户行为识别初始模型得到的结果,及训练样本中的标注信息,计算与用户行为识别初始模型相关的损失函数,该损失函数用于指示用户行为识别初始模型预测各个训练用户是否为特定用户的误差,比如交叉熵损失函数等。而用户行为识别初始模型的训练过程就是需要尽量减少上述误差的值,该训练过程是通过反向传播求导以及梯度下降等一系列数学优化手段不断的优化上述步骤201中确定的用户行为识别初始模型中参数的参数值,并使得上述损失函数的计算值降至最低。
因此,在计算得到损失函数后,用户行为识别装置需要根据计算的损失函数调整用户行为识别初始模型中的参数值,以得到最终的用户行为识别模型。具体地,当计算的损失函数的函数值较大时,比如大于预置的值,则需要改变参数值,比如将某个神经元连接的权重值减小等,使得按照调整后的参数值计算的损失函数的函数值减小。
需要说明的是,上述步骤203到204是通过用户行为识别初始模型预测到的样本用户是否为特定用户的结果,对用户行为识别初始模型中的参数值的一次调整,而在实际应用中,需要通过不断地循环执行上述步骤203到204,直到对参数值的调整满足一定的停止条件为止。
因此,用户行为识别装置在执行了上述实施例步骤201到204之后,还需要判断当前对参数值的调整是否满足预置的停止条件,当满足时,则结束流程;当不满足时,则针对调整参数值后的用户行为识别初始模型,返回执行上述步骤203到204。其中,预置的停止条件包括但不限于如下条件中的任何一个:当前调整的参数值与上一次调整的参数值的差值小于一阈值,即调整的参数值达到收敛;及对参数值的调整次数等于预置的次数等。
需要说明的是,通过循环执行上述步骤201到204,训练得到用户行为识别模型之后,由于特定用户的实际表现是在不断变化,则用户行为识别装置可以不断地优化用户行为识别模型,具体地:
一种情况下,用户行为识别装置可以抽取用户行为识别模型对用户进行识别过程中得到的历史数据,比如获取用户行为识别模型确定的多个用户分别对应的原因关联特征,并将这些用户的原因关联特征与用户的实际情况进行比较,如果用户的原因关联特征与用户实际是否为某一种类型特定用户的信息不相匹配,则用户行为识别装置需重新确定训练样本,并根据重新确定的训练样本重新训练用户行为识别模型。
比如,用户的原因关联特征指示用户为恶意登录的恶意用户,但是该用户实际为正常用户或欺诈类型的恶意用户,则用户的原因关联特征与用户实际是否为某一种类型特定用户的信息不相匹配,需要重新确定训练样本。
例如图5所示为用户行为识别装置抽取的一个用户在多个时间窗口(1到5)分别对应的原因关联特征对应的图像信息,其中图像中黑点为亮点,表示用户类似的恶意类型,比如,在时间窗口2该用户类似骚扰用户或广告用户,在时间窗口3该用户类似恶意登录的用户等。可见,随着时间的变化,上述用户行为识别模型得到的某一用户在不同时间窗口的原因关联特征都不同,其中,每个时间窗口的时间间隔可以是预置的一定值。
另一种情况下,由于在实际应用过程中,特定用户的特征通常表现出较强的相似性和聚集性,因此,用户行为识别装置在对训练的用户行为识别模型进行优化时,可以先抽取用户行为识别模型在对用户进行识别过程中得到的历史数据,比如获取用户行为识别模型确定的多个用户分别对应的综合特征信息,并根据这些综合特征信息对多个用户进行聚类,如果属于特定用户聚类中的用户与用户行为识别模型识别出的特定用户不一致,则用户行为识别装置需重新确定训练样本,并根据重新确定的训练样本重新训练用户行为识别模型。
比如,属于特定用户聚类中包括用户1到用户5,而用户行为识别模型识别出属于的特定用户包括用户1和用户3,则不一致,需要重新确定训练样本。
以下以一个具体的应用实例来说明本发明中的用户行为识别方法,本实施例中,特定用户为恶意用户或异常用户,具体可以应用于如图6所示的场景下,包括多个应用终端、应用系统后台、恶意打击系统和日志系统,其中:
在应用终端与应用系统后台之间执行各种业务操作后,可以将业务操作的信息储存到日志系统中;恶意打击系统即为上述的用户行为识别装置,用于从日志系统中采集待识别用户的历史的用户业务数据,并发起本实施例的用户识别流程,且可以实时地采集应用终端当前产生的用户业务数据,并发起本实施例的用户识别流程。进一步地,当恶意打击系统识别出某一用户为恶意用户或异常用户,则将该用户的信息发送给应用系统后台,使得应用系统后台对该用户的业务请求进行限制。
如图7所示,恶意打击系统训练的用户行为识别模型包括:特征提取模块、关联模块和识别模型,其中:
特征提取模块可以为长短期记忆网络(Long Short-Term Memory,LSTM)或循环神经网络(Recurrent Neural Network,RNN)。对于关联模块,当不考虑用户前后因果性时,关联模块可采用双向循环网络,比如,双向LSTM、双向门控循环单元(Gated Recurrent Unit,GRU)或其它变体网络等;当待识别用户的多个业务场景下的用户业务数据具有较强的自相关性,关联模块可以采用变形的双向编码器表征(Bidirectional EncoderRepresentations from Transformers,BERT)网络。识别模型可以为CNN网络,全连接网络或浅层网络等。
具体地,本实施例的恶意打击系统可以按照如下步骤对恶意用户进行识别且打击,流程图如图8所示,包括:
步骤301,恶意打击系统采集同一待识别用户的多个业务场景下的用户业务数据,并对采集的用户业务数据进行预处理,可以包括:去掉采集的用户业务数据中非待识别用户的数据,去掉非业务数据等预处理。
步骤302,恶意打击系统中用户行为识别模型的特征提取模块分别提取各个业务场景下的用户业务数据的子特征信息,而对于任一业务场景下的用户业务数据的子特征信息,可以先分别确定各项用户业务数据的特征,并将在各项用户业务数据的特征拼接起来形成某一业务场景下用户业务数据的子特征信息。
其中,对于每项用户业务数据可以采用不同的方法得到相应的特征,具体如下表1所示:
表1
用户行为数据 | 提取特征的方法 |
时间信息 | 差分并95%百分位数截断 |
网络地址信息比如IP | IP变化率/IP画像 |
业务行为的类型 | 独热(One-hot)编码 |
用户信息 | 用户画像或嵌入向量 |
步骤303,特征提取模块根据各个业务场景下的用户业务数据的子特征信息及预置的函数计算关系,计算待识别用户基于多个业务场景的综合特征信息,且特征提取模块还可以输出该综合特征信息。
步骤304,用户行为识别模型中的关联模块可以采用注意力机制,比如,查询键值(query-key-value)模式的计算方法,根据待识别用户的综合特征信息及用户行为识别模型中预置的多种类型恶意用户的样本特征,计算得到待识别用户与多种类型恶意用户之间的原因关联特征,具体可以为注意力权重矩阵。
且关联模块可以输出该注意力权重矩阵,且可以将注意力权重矩阵转化为图像数据进行显示。
步骤305,识别模型进一步地根据原因关联特征,确定待识别用户是否为恶意用户或异常用户,并输出结果。
步骤306,如果识别模型识别出待识别用户为恶意用户或异常用户,则恶意打击系统将待识别用户的信息发送给应用系统后台,这样,应用系统后台会显示该待识别用户的业务请求。
通过上述步骤301到306,恶意打击系统可以有效地显示恶意用户或异常用户,且能直观地得到用户恶意或异常的原因,即上述的原因关联特征,从而即时地降低因用户对用户和企业的业务安全问题带来的损失。且恶意打击系统在获取用户业务数据的过程中,并不涉及用户关键隐私信息,有着较为广泛的应用前景和较大应用价值,用户可以在应用过程中根据业务规模和业务特点对用户行为识别模型进行调整,能有效提高业务安全防护的可靠性。
本发明实施例还提供一种用户行为识别装置,其结构示意图如图9所示,具体可以包括:
采集单元10,用于采集待识别用户在多个业务场景中每个业务场景下的用户业务数据。
所述每个业务场景下的用户业务数据具体包括:业务信息,业务发生的时间信息,设备信息,地址信息。
综合确定单元11,用于根据所述采集单元10采集的每个业务场景下的用户业务数据,确定所述待识别用户基于多个业务场景的综合特征信息。
该综合确定单元11,具体用于分别提取所述每个业务场景下的用户业务数据的子特征信息;根据所述每个业务场景下的子特征信息及预先训练的深度网络计算关系,计算所述待识别用户基于多个业务场景的综合特征信息。
关联确定单元12,用于根据所述综合确定单元11确定的综合特征信息及预置的多种类型特定用户的用户业务数据的样本特征,确定所述待识别用户与多种类型特定用户之间的原因关联特征。
用户确定单元13,用于根据所述关联确定单元12确定的原因关联特征及预先训练的识别模型,确定所述待识别用户是否为特定用户。
进一步地,本实施例的用户行为识别装置还可以包括:
关联转化输出单元14,用于如果所述关联确定单元12确定的原因关联特征为注意力权重矩阵,所述注意力权重矩阵中某一值用于表示所述待识别用户在一个时间窗口中的综合特征信息与一种类型特定用户的样本特征之间的原因关联特征,将所述注意力权重矩阵转化为图像数据,并根据所述图像数据显示相应图像。
训练单元15,用于确定用户行为识别初始模型,所述用户行为识别初始模型包括特征提取模块、关联模块和所述识别模型,所述特征提取模块用于提取用户基于多个业务场景的综合特征信息,所述关联模块用于根据所述综合特征信息确定用户与多种类型特定用户之间的原因关联特征;确定训练样本,所述训练样本中包括多个样本用户中各个样本用户在多个业务场景下的用户业务数据,及所述各个样本用户是否属于特定用户的标注信息;所述用户行为识别初始模型分别根据所述各个样本用户在多个业务场景下的用户业务数据,得到所述各个样本用户是否属于特定用户的结果;根据所述用户行为识别初始模型得到的各个样本用户是否属于特定用户的结果,及所述训练样本中的标注信息,调整所述用户行为识别初始模型中的参数值,以得到最终的用户行为识别模型。这样,综合确定单元11、关联确定单元12和用户确定单元15即可按照训练单元15训练得到的用户行为识别模型识别出待识别用户是否为特定用户。
该训练单元15,还用于当对所述参数值的调整次数等于预置的次数时,或当当前调整的参数值与上一次调整的参数值的差值小于一阈值时,则停止对所述参数值的调整。
模型优化单元16,用于获取所述用户行为识别模型确定的多个用户分别对应的原因关联特征;如果所述用户的原因关联特征与所述用户实际是否为某一种类型特定用户的信息不相匹配,重新确定训练样本,并通知所述训练单元15根据所述重新确定的训练样本重新训练新的用户行为识别模型。
该模型优化单元16,还用于获取用户行为识别模型确定的多个用户分别对应的综合特征信息,并根据所述多个用户的综合特征信息对多个用户进行聚类,如果属于特定用户聚类中的用户与用户行为识别模型识别出的特定用户不一致,则用户行为识别装置重新确定训练样本,并通知所述训练单元15根据重新确定的训练样本重新训练用户行为识别模型。
可见,在本实施例的装置中,综合确定单元11根据待识别用户在多个业务场景中每个业务场景下的用户业务数据,确定待识别用户基于多个业务场景的综合特征信息,再由关联确定单元12根据综合特征信息确定待识别用户与多种类型特定用户之间的原因关联特征,并由用户确定单元13中预先训练的识别模型根据原因关联特征确定待识别用户是否为特定用户。这样,用户行为识别装置在确定用于识别待识别用户的原因关联特征时,只需预置多类型特定用户的样本特征,而这些样本特征一般都比较固定,不会在短时间内发生明显变化,不受安全人员经验和业务理解的影响,使得最终对待识别用户的识别较准确,且由于用户行为识别装置能确定原因关联特征,可以直观地给出待识别用户为特定用户的原因;又由于用户行为识别装置可以综合待识别用户在多个业务场景中的用户业务数据得到的综合特征信息,更全面且准确地描述了用户在业务操作过程中的实际情况,进而使得最终对待识别用户的识别更准确。
本发明实施例还提供一种服务器,其结构示意图如图10所示,该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)20(例如,一个或一个以上处理器)和存储器21,一个或一个以上存储应用程序221或数据222的存储介质22(例如一个或一个以上海量存储设备)。其中,存储器21和存储介质22可以是短暂存储或持久存储。存储在存储介质22的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器20可以设置为与存储介质22通信,在服务器上执行存储介质22中的一系列指令操作。
具体地,在存储介质22中储存的应用程序221包括用户行为识别的应用程序,且该程序可以包括上述用户行为识别装置中的采集单元10,综合确定单元11,关联确定单元12,用户确定单元13,关联转化输出单元14,训练单元15和模型优化单元16,在此不进行赘述。更进一步地,中央处理器20可以设置为与存储介质22通信,在服务器上执行存储介质22中储存的用户行为识别的应用程序对应的一系列操作。
服务器还可以包括一个或一个以上电源23,一个或一个以上有线或无线网络接口24,和/或,一个或一个以上操作系统223,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述方法实施例中所述的由用户行为识别装置所执行的步骤可以基于该图10所示的服务器的结构。
本发明实施例还提供一种存储介质,所述存储介质储存多条指令,所述指令适于由处理器加载并执行如上述用户行为识别装置所执行的用户行为识别方法。
本发明实施例还提供一种服务器,包括处理器和存储介质,所述处理器,用于实现各个指令;所述存储介质用于储存多条指令,所述指令用于由处理器加载并执行如上述用户行为识别装置所执行的用户行为识别方法。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM)、随机存取存储器RAM)、磁盘或光盘等。
以上对本发明实施例所提供的用户行为识别方法、装置及存储介质和服务器进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种用户行为识别方法,其特征在于,包括:
采集待识别用户在多个业务场景中每个业务场景下的用户业务数据;
根据所述每个业务场景下的用户业务数据,确定所述待识别用户基于多个业务场景的综合特征信息;
根据所述综合特征信息及预置的多种类型特定用户的用户业务数据的样本特征,确定所述待识别用户与多种类型特定用户之间的原因关联特征;
根据所述原因关联特征及预先训练的识别模型,确定所述待识别用户是否为特定用户;
所述原因关联特征为注意力权重矩阵,所述注意力权重矩阵中某一值用于表示所述待识别用户在一个时间窗口中的综合特征信息与一种类型特定用户的样本特征之间的原因关联特征,所述方法还包括:
将注意力权重矩阵中任一位置的值作为图像中相应位置的像素灰度值进行显示;
所述根据所述原因关联特征及预先训练的识别模型,确定所述待识别用户是否为特定用户,具体包括:将所述图像输入到所述预先训练的识别模型中,得到所述待识别用户是否为特定用户。
2.如权利要求1所述的方法,其特征在于,所述每个业务场景下的用户业务数据具体包括:业务信息,业务发生的时间信息,设备信息,地址信息。
3.如权利要求1所述的方法,其特征在于,所述根据所述每个业务场景下的用户业务数据,确定所述待识别用户基于多个业务场景的综合特征信息,具体包括:
分别提取所述每个业务场景下的用户业务数据的子特征信息;
根据所述每个业务场景下的子特征信息及预先训练的深度网络计算关系,计算所述待识别用户基于多个业务场景的综合特征信息。
4.如权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
确定用户行为识别初始模型,所述用户行为识别初始模型包括特征提取模块、关联模块和所述识别模型,所述特征提取模块用于提取用户基于多个业务场景的综合特征信息,所述关联模块用于根据所述综合特征信息确定用户与多种类型特定用户之间的原因关联特征;
确定训练样本,所述训练样本中包括多个样本用户中各个样本用户在多个业务场景下的用户业务数据,及所述各个样本用户是否属于特定用户的标注信息;
所述用户行为识别初始模型分别根据所述各个样本用户在多个业务场景下的用户业务数据,得到所述各个样本用户是否属于特定用户的结果;
根据所述用户行为识别初始模型得到的各个样本用户是否属于特定用户的结果,及所述训练样本中的标注信息,调整所述用户行为识别初始模型中的参数值,以得到最终的用户行为识别模型。
5.如权利要求4所述的方法,其特征在于,当对所述参数值的调整次数等于预置的次数时,或当当前调整的固定参数值与上一次调整的固定参数值的差值小于一阈值时,则停止对所述固定参数值的调整。
6.如权利要求4所述的方法,其特征在于,所述方法还包括:
获取所述用户行为识别模型确定的多个用户分别对应的原因关联特征;
如果所述用户的原因关联特征与所述用户实际是否为某一种类型特定用户的信息不相匹配,重新确定训练样本,并根据所述重新确定的训练样本重新训练新的用户行为识别模型。
7.一种用户行为识别装置,其特征在于,包括:
采集单元,用于采集待识别用户在多个业务场景中每个业务场景下的用户业务数据;
综合确定单元,用于根据所述每个业务场景下的用户业务数据,确定所述待识别用户基于多个业务场景的综合特征信息;
关联确定单元,用于根据所述综合特征信息及预置的多种类型特定用户的用户业务数据的样本特征,确定所述待识别用户与多种类型特定用户之间的原因关联特征;
用户确定单元,用于根据所述原因关联特征及预先训练的识别模型,确定所述待识别用户是否为特定用户;
还包括:关联转化输出单元,用于如果所述原因关联特征为注意力权重矩阵,所述注意力权重矩阵中某一值用于表示所述待识别用户在一个时间窗口中的综合特征信息与一种类型特定用户的样本特征之间的原因关联特征,将注意力权重矩阵中任一位置的值作为图像中相应位置的像素灰度值进行显示;
则所述用户确定单元,具体用于将所述图像输入到所述预先训练的识别模型中,得到所述待识别用户是否为特定用户。
8.如权利要求7所述的装置,其特征在于,还包括:
训练单元,用于确定用户行为识别初始模型,所述用户行为识别初始模型包括特征提取模块、关联模块和所述识别模型,所述特征提取模块用于提取用户基于多个业务场景的综合特征信息,所述关联模块用于根据所述综合特征信息确定用户与多种类型特定用户之间的原因关联特征;确定训练样本,所述训练样本中包括多个样本用户中各个样本用户在多个业务场景下的用户业务数据,及所述各个样本用户是否属于特定用户的标注信息;所述用户行为识别初始模型分别根据所述各个样本用户在多个业务场景下的用户业务数据,得到所述各个样本用户是否属于特定用户的结果;根据所述用户行为识别初始模型得到的各个样本用户是否属于特定用户的结果,及所述训练样本中的标注信息,调整所述用户行为识别初始模型中的参数值,以得到最终的用户行为识别模型。
9.一种存储介质,其特征在于,所述存储介质储存多条指令,所述指令适于由处理器加载并执行如权利要求1至6任一项所述的用户行为识别方法。
10.一种服务器,其特征在于,包括处理器和存储介质,所述处理器,用于实现各个指令;
所述存储介质用于储存多条指令,所述指令用于由处理器加载并执行如权利要求1至6任一项所述的用户行为识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910791154.XA CN110557447B (zh) | 2019-08-26 | 2019-08-26 | 一种用户行为识别方法、装置及存储介质和服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910791154.XA CN110557447B (zh) | 2019-08-26 | 2019-08-26 | 一种用户行为识别方法、装置及存储介质和服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110557447A CN110557447A (zh) | 2019-12-10 |
CN110557447B true CN110557447B (zh) | 2022-06-10 |
Family
ID=68738244
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910791154.XA Active CN110557447B (zh) | 2019-08-26 | 2019-08-26 | 一种用户行为识别方法、装置及存储介质和服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110557447B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111210335B (zh) * | 2019-12-16 | 2023-11-14 | 北京淇瑀信息科技有限公司 | 用户风险识别方法、装置及电子设备 |
CN111104596A (zh) * | 2019-12-17 | 2020-05-05 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置、电子设备及存储介质 |
CN111191720B (zh) * | 2019-12-30 | 2023-08-15 | 中国建设银行股份有限公司 | 一种业务场景的识别方法、装置及电子设备 |
CN111383026B (zh) * | 2020-03-09 | 2022-07-05 | 支付宝(杭州)信息技术有限公司 | 识别交易行为异常的方法以及装置 |
CN111382403A (zh) * | 2020-03-17 | 2020-07-07 | 同盾控股有限公司 | 用户行为识别模型的训练方法、装置、设备及存储介质 |
CN113468519A (zh) * | 2020-03-30 | 2021-10-01 | 中国移动通信集团浙江有限公司 | 外挂操作识别方法、装置及设备 |
CN111353554B (zh) * | 2020-05-09 | 2020-08-25 | 支付宝(杭州)信息技术有限公司 | 预测缺失的用户业务属性的方法及装置 |
CN111859370B (zh) * | 2020-06-30 | 2024-05-17 | 百度在线网络技术(北京)有限公司 | 识别服务的方法、装置、电子设备和计算机可读存储介质 |
CN114417944B (zh) * | 2020-10-09 | 2024-04-09 | 腾讯科技(深圳)有限公司 | 识别模型训练方法及装置、用户异常行为识别方法及装置 |
CN114691746A (zh) * | 2020-12-30 | 2022-07-01 | 北京嘀嘀无限科技发展有限公司 | 特征信息与场景的因果关系获取方法、装置、设备及介质 |
CN113762688A (zh) * | 2021-01-06 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 业务分析系统、方法以及存储介质 |
CN113139005B (zh) * | 2021-04-22 | 2024-09-10 | 康键信息技术(深圳)有限公司 | 基于同人识别模型的同人识别方法及相关设备 |
CN113222736A (zh) * | 2021-05-24 | 2021-08-06 | 北京城市网邻信息技术有限公司 | 一种异常用户的检测方法、装置、电子设备及存储介质 |
CN114064440A (zh) * | 2022-01-18 | 2022-02-18 | 恒生电子股份有限公司 | 可信度分析模型的训练方法、可信度分析方法及相关装置 |
CN114547482B (zh) * | 2022-03-03 | 2023-01-20 | 智慧足迹数据科技有限公司 | 业务特征生成方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793484A (zh) * | 2014-01-17 | 2014-05-14 | 五八同城信息技术有限公司 | 分类信息网站中的基于机器学习的欺诈行为识别系统 |
CN105260414A (zh) * | 2015-09-24 | 2016-01-20 | 精硕世纪科技(北京)有限公司 | 用户行为相似性计算方法及装置 |
CN107944915A (zh) * | 2017-11-21 | 2018-04-20 | 北京深极智能科技有限公司 | 一种游戏用户行为分析方法及计算机可读存储介质 |
WO2018124309A1 (en) * | 2016-12-30 | 2018-07-05 | Mitsubishi Electric Corporation | Method and system for multi-modal fusion model |
CN109447728A (zh) * | 2018-09-07 | 2019-03-08 | 平安科技(深圳)有限公司 | 金融产品推荐方法、装置、计算机设备及存储介质 |
CN109858965A (zh) * | 2019-01-25 | 2019-06-07 | 上海基分文化传播有限公司 | 一种用户识别方法和系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105491444B (zh) * | 2015-11-25 | 2018-11-06 | 珠海多玩信息技术有限公司 | 一种数据识别处理方法以及装置 |
US20190138938A1 (en) * | 2017-11-06 | 2019-05-09 | Cisco Technology, Inc. | Training a classifier used to detect network anomalies with supervised learning |
CN109815980A (zh) * | 2018-12-18 | 2019-05-28 | 北京三快在线科技有限公司 | 用户类型的预测方法、装置、电子设备及可读存储介质 |
-
2019
- 2019-08-26 CN CN201910791154.XA patent/CN110557447B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793484A (zh) * | 2014-01-17 | 2014-05-14 | 五八同城信息技术有限公司 | 分类信息网站中的基于机器学习的欺诈行为识别系统 |
CN105260414A (zh) * | 2015-09-24 | 2016-01-20 | 精硕世纪科技(北京)有限公司 | 用户行为相似性计算方法及装置 |
WO2018124309A1 (en) * | 2016-12-30 | 2018-07-05 | Mitsubishi Electric Corporation | Method and system for multi-modal fusion model |
CN107944915A (zh) * | 2017-11-21 | 2018-04-20 | 北京深极智能科技有限公司 | 一种游戏用户行为分析方法及计算机可读存储介质 |
CN109447728A (zh) * | 2018-09-07 | 2019-03-08 | 平安科技(深圳)有限公司 | 金融产品推荐方法、装置、计算机设备及存储介质 |
CN109858965A (zh) * | 2019-01-25 | 2019-06-07 | 上海基分文化传播有限公司 | 一种用户识别方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110557447A (zh) | 2019-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110557447B (zh) | 一种用户行为识别方法、装置及存储介质和服务器 | |
WO2018019126A1 (zh) | 视频类别识别方法和装置、数据处理装置和电子设备 | |
CN113657465A (zh) | 预训练模型的生成方法、装置、电子设备和存储介质 | |
JP2022141931A (ja) | 生体検出モデルのトレーニング方法及び装置、生体検出の方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
CN111553488B (zh) | 一种针对用户行为的风险识别模型训练方法及系统 | |
US11727406B2 (en) | Determining a fraud risk score associated with a transaction | |
CN113627361B (zh) | 人脸识别模型的训练方法、装置及计算机程序产品 | |
EP3912063A1 (en) | Liveness detection using audio-visual inconsistencies | |
US20220188733A1 (en) | Systems and methods for reviewing performance of computer models for safety analysis in transportation services | |
CN113989156A (zh) | 脱敏方法的可靠性验证的方法、装置、介质、设备和程序 | |
CN114612688B (zh) | 对抗样本生成方法、模型训练方法、处理方法及电子设备 | |
CN110674370A (zh) | 域名识别方法及装置、存储介质及电子设备 | |
CN113642519A (zh) | 一种人脸识别系统和人脸识别方法 | |
JP2018142137A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN117596174B (zh) | 一种铁塔视联数据云传输调测方法、系统和介质 | |
CN111833115B (zh) | 一种操作识别方法、装置及存储介质和服务器 | |
CN115935265B (zh) | 训练风险识别模型的方法、风险识别方法及对应装置 | |
CN116310382A (zh) | 舆情预测方法、装置、电子设备及存储介质 | |
CN115273148A (zh) | 行人重识别模型训练方法、装置、电子设备及存储介质 | |
CN114186039A (zh) | 一种视觉问答方法、装置及电子设备 | |
CN113536870A (zh) | 一种异常头像识别方法及装置 | |
CN110738122A (zh) | 一种数据核查方法及装置 | |
CN114463584B (zh) | 图像处理、模型训练方法、装置、设备、存储介质及程序 | |
CN111461207B (zh) | 一种图片识别模型训练系统及方法 | |
KR102548770B1 (ko) | 매트릭스 연산을 이용한 안면유사도 산출 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40019351 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |