CN113569949A - 异常用户识别方法及装置、电子设备和存储介质 - Google Patents

异常用户识别方法及装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113569949A
CN113569949A CN202110854925.2A CN202110854925A CN113569949A CN 113569949 A CN113569949 A CN 113569949A CN 202110854925 A CN202110854925 A CN 202110854925A CN 113569949 A CN113569949 A CN 113569949A
Authority
CN
China
Prior art keywords
behavior
user
abnormal
sequence
time interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110854925.2A
Other languages
English (en)
Other versions
CN113569949B (zh
Inventor
张泽磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Boguan Information Technology Co Ltd
Original Assignee
Guangzhou Boguan Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Boguan Information Technology Co Ltd filed Critical Guangzhou Boguan Information Technology Co Ltd
Priority to CN202110854925.2A priority Critical patent/CN113569949B/zh
Priority claimed from CN202110854925.2A external-priority patent/CN113569949B/zh
Publication of CN113569949A publication Critical patent/CN113569949A/zh
Application granted granted Critical
Publication of CN113569949B publication Critical patent/CN113569949B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开是关于一种异常用户识别方法及装置、电子设备以及计算机可读存储介质,涉及计算机技术领域,可以应用于根据用户行为识别异常用户的场景。该方法包括:获取用户行为日志文件,根据用户行为日志文件确定目标用户对应的多个用户行为记录;根据多个用户行为记录确定对应的行为序列数据;行为序列数据包括用户行为序列与行为时间间隔序列;根据用户行为序列与行为时间间隔序列确定行为异常值;获取目标用户的用户特征,并根据用户特征与行为异常值确定目标用户是否为异常用户。本公开可以根据用户的用户行为向量与行为时间间隔序列确定行为异常值,进而根据行为异常值与用户特征识别是否为异常用户,可以有效提高识别准确率。

Description

异常用户识别方法及装置、电子设备和存储介质
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种异常用户识别方法、异常用户识别装置、电子设备以及计算机可读存储介质。
背景技术
随着直播行业的快速发展,直播内容的不断丰富,与直播相关的玩法也层出不穷,这不仅吸引了海量观众,同时也吸引了大量希望在此通过作弊手段盈利的黑灰产用户。这些黑灰产用户通过第三方工具可以达到在平台上批量获取收益的目的,虽然每个账号所获得的收益有限,但大量的黑灰产账号依旧会对平台造成严重损失,同时影响正常用户在直播平台上的使用体验。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种异常用户识别方法、异常用户识别装置、电子设备以及计算机可读存储介质,进而至少在一定程度上克服现有的黑灰产用户人力耗费严重且识别准确率不高的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本公开的第一方面,提供一种异常用户识别方法,包括:获取用户行为日志文件,根据用户行为日志文件确定目标用户对应的多个用户行为记录;根据多个用户行为记录确定对应的行为序列数据;行为序列数据包括用户行为序列与行为时间间隔序列;根据用户行为序列与行为时间间隔序列确定行为异常值;获取目标用户的用户特征,并根据用户特征与行为异常值确定目标用户是否为异常用户。
在本公开的一种示例性实施方案中,获取预先设定的行为记录要素;行为记录要素包括行为要素与页面要素;根据用户行为日志文件中的行为要素与对应的页面要素生成用户行为记录。
在本公开的一种示例性实施方案中,根据多个用户行为记录确定对应的行为序列数据,包括:获取各用户行为记录的行为发生时间;根据行为发生时间对多个用户行为记录进行排序,以生成用户行为序列;确定两个相邻用户行为记录之间的时间间隔,根据时间间隔生成行为时间间隔序列。
在本公开的一种示例性实施方案中,根据用户行为序列与行为时间间隔序列确定行为异常值,包括:获取预先构建的异常行为确定模型;异常行为确定模型基于用户行为向量字典以及训练行为数据集训练生成;将用户行为序列对应的用户行为向量与行为时间间隔序列输入至异常行为确定模型,以得到行为异常值。
在本公开的一种示例性实施方案中,训练行为数据集包括用户行为训练集与行为时间间隔训练集;异常行为确定模型通过下述步骤训练得到:基于用户行为日志文件确定历史用户行为序列;对历史用户行为序列进行向量转化处理,以根据生成的历史用户行为向量构建用户行为向量字典;根据用户行为日志文件确定用户行为训练集与行为时间间隔训练集;获取初始模型,基于用户行为向量字典、用户行为训练集与行为时间间隔训练集对初始模型进行训练,以得到异常行为确定模型。
在本公开的一种示例性实施方案中,异常行为确定模型包括第一长短期记忆层、第二长短期记忆层和连接层;将用户行为序列对应的用户行为向量与行为时间间隔序列输入至异常行为确定模型,以得到行为异常值,包括:将用户行为向量输入至第一长短期记忆层,得到由第一长短期记忆层的最后一个时间步输出的中间行为向量;将行为时间间隔序列输入至第二长短期记忆层,得到由第二长短期记忆层的最后一个时间步输出的中间时间间隔向量;通过连接层对中间行为向量与中间时间间隔向量进行拼接处理,以得到行为拼接向量;对行为拼接向量进行全连接处理,以得到行为异常值。
在本公开的一种示例性实施方案中,根据用户特征与行为异常值确定目标用户是否为异常用户,包括:获取预先构建的异常用户识别模型;将用户特征与行为异常值输入至异常用户识别模型,以确定目标用户是否为异常用户。
在本公开的一种示例性实施方案中,异常用户识别模型的模型结构为树形结构,将用户特征与行为异常值输入至异常用户识别模型,以确定目标用户是否为异常用户,包括:根据用户特征与行为异常值生成用户总体特征,将用户总体特征作为树形结构的特征根结点;用户总体特征包括多个特征要素;基于特征根结点对多个特征要素进行特征分裂处理,得到树形结构的叶子结点;根据叶子结点的分类结果确定目标用户是否为异常用户。
在本公开的一种示例性实施方案中,用户特征是基于目标用户的用户基本信息以及目标用户在目标应用程序中的交互行为所生成的特征。
根据本公开的第二方面,提供一种异常用户识别装置,包括:行为记录确定模块,用于获取用户行为日志文件,根据用户行为日志文件确定目标用户对应的多个用户行为记录;序列数据确定模块,用于根据多个用户行为记录确定对应的行为序列数据;行为序列数据包括用户行为序列与行为时间间隔序列;异常值确定模块,用于根据用户行为序列与行为时间间隔序列确定行为异常值;异常用户识别模块,用于获取目标用户的用户特征,并根据用户特征与行为异常值确定目标用户是否为异常用户。
在本公开的一种示例性实施方案中,行为记录确定模块包括行为数据确定单元,用于获取预先设定的行为记录要素;行为记录要素包括行为要素与页面要素;根据用户行为日志文件中的行为要素与对应的页面要素生成用户行为记录。
在本公开的一种示例性实施方案中,序列数据确定模块包括序列数据确定单元,用于获取各用户行为记录的行为发生时间;根据行为发生时间对多个用户行为记录进行排序,以生成用户行为序列;确定两个相邻用户行为记录之间的时间间隔,根据时间间隔生成行为时间间隔序列。
在本公开的一种示例性实施方案中,异常值确定模块包括异常值确定单元,用于获取预先构建的异常行为确定模型;异常行为确定模型基于用户行为向量字典以及训练行为数据集训练生成;将用户行为序列对应的用户行为向量与行为时间间隔序列输入至异常行为确定模型,以得到行为异常值。
在本公开的一种示例性实施方案中,异常值确定模块还包括模型训练单元,用于基于用户行为日志文件确定历史用户行为序列;对历史用户行为序列进行向量转化处理,以根据生成的历史用户行为向量构建用户行为向量字典;根据用户行为日志文件确定用户行为训练集与行为时间间隔训练集;获取初始模型,基于用户行为向量字典、用户行为训练集与行为时间间隔训练集对初始模型进行训练,以得到异常行为确定模型。
在本公开的一种示例性实施方案中,异常值确定单元包括异常值确定子单元,用于将用户行为向量输入至第一长短期记忆层,得到由第一长短期记忆层的最后一个时间步输出的中间行为向量;将行为时间间隔序列输入至第二长短期记忆层,得到由第二长短期记忆层的最后一个时间步输出的中间时间间隔向量;通过连接层对中间行为向量与中间时间间隔向量进行拼接处理,以得到行为拼接向量;对行为拼接向量进行全连接处理,以得到行为异常值。
在本公开的一种示例性实施方案中,异常用户识别模块包括异常用户识别单元,用于获取预先构建的异常用户识别模型;将用户特征与行为异常值输入至异常用户识别模型,以确定目标用户是否为异常用户。
在本公开的一种示例性实施方案中,异常用户识别单元包括异常用户识别子单元,用于根据用户特征与行为异常值生成用户总体特征,将用户总体特征作为树形结构的特征根结点;用户总体特征包括多个特征要素;基于特征根结点对多个特征要素进行特征分裂处理,得到树形结构的叶子结点;根据叶子结点的分类结果确定目标用户是否为异常用户。
根据本公开的第三方面,提供一种电子设备,包括:处理器;以及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现根据上述任意一项所述的异常用户识别方法。
根据本公开的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据上述任意一项所述的异常用户识别方法。
本公开提供的技术方案可以包括以下有益效果:
本公开的示例性实施例中的异常用户识别方法,获取用户行为日志文件,根据用户行为日志文件确定目标用户对应的多个用户行为记录;根据多个用户行为记录确定对应的行为序列数据;行为序列数据包括用户行为序列与行为时间间隔序列;根据用户行为序列与行为时间间隔序列确定行为异常值;获取目标用户的用户特征,并根据用户特征与行为异常值确定目标用户是否为异常用户。通过本公开的异常用户识别方法,一方面,在确定出用户行为序列后,还对应确定出行为时间间隔序列,基于两者确定行为异常值可以较大程度地提取异常行为的相关特征,无需通过人力进行分析或审核,可以有效提高处理效率。另一方面,由于行为异常值在极大程度上体现了用户的异常行为,异常行为值可以作为优质特征用于异常用户识别,联合采用异常行为值与用户特征识别异常用户,相比于单独采用用户特征或行为异常值进行异常用户识别,均可以有效提升识别准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性示出了根据本公开的示例性实施方式的异常用户识别方法的流程图;
图2示意性示出了根据本公开的示例性实施方式的生成的部分用户行为序列与对应的行为时间间隔序列的结果图;
图3示意性示出了根据本公开的示例性实施方式的用户行为序列对应的用户行为向量的部分结果图;
图4示意性示出了根据本公开的示例性实施方式的异常用户识别模型的训练流程图;
图5示意性示出了根据本公开的示例性实施方式的确定目标用户是否为异常用户的数据流向图;
图6示意性示出了根据本公开的示例性实施方式的异常用户识别装置的方框图;
图7示意性示出了根据本公开一示例性实施例的电子设备的框图;
图8示意性示出了根据本公开一示例性实施例的计算机可读存储介质的示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个软件硬化的模块中实现这些功能实体或功能实体的一部分,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
目前,预防和识别黑灰产用户的方式主要包括以下三种:
(1)通过设定规则识别黑灰产用户,通过对用户的网际互连协议(InternetProtocol,IP)地址、用户弹幕、用户账号等级、用户媒体存取控制位址(Media AccessControl Address,MAC地址)等维度建立规则,满足规则则加一定分数,当总分超过一定阈值时则认为该用户属于黑灰产用户,不超过该阈值为正常用户。这种方式的弊端在于每条规则对应的分数以及总的阈值很难给出,需要经过多次迭代才能确定出具有一定价值的分数和阈值组合,而且该组合往往不是最优解,更重要的是,规则容易被黑灰产通过多次尝试而绕过,出现这样的情况又将需要繁琐的规则迭代,严重耗费人力。
(2)内审进行人工识别,内审对参与直播玩法用户的数据进行审核,通过经验给出异常用户的名单,虽然这种方式具有较高的准确率,但极其耗费人力,且该方法不适合请求量较大的活动。
(3)通过算法进行识别,常用的方式是首先构建用户画像,然后基于树模型进行训练和线上预测,此方法虽然可以处理大量的用户请求,但由于模型的表现很大程度依赖特征的好坏,因此最终模型的效果往往不尽如人意。基于此,在本示例实施例中,首先提供了一种异常用户识别方法,可以利用服务器来实现本公开的异常用户识别方法,也可以利用终端设备来实现本公开所述的方法,其中,本公开中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant,PDA)等移动终端,以及诸如台式计算机等固定终端。图1示意性示出了根据本公开的一些实施例的异常用户识别方法流程的示意图。参考图1,该异常用户识别方法可以包括以下步骤:
步骤S110,获取用户行为日志文件,根据用户行为日志文件确定目标用户对应的多个用户行为记录。
在本公开的一些示例性实施方式中,用户行为日志文件可以是在某一目标平台上采集到的用户行为组成的日志文件。目标用户可以是待识别行为是否异常的用户。用户行为记录可以是用户的每个行为所对应的记录,例如用户行为记录可以包括用户点击某一页面、浏览某一页面等行为所产生的行为记录。
用户在使用应用程序或平台时,均可以产生对应的用户行为。为了采集到用户产生的用户行为,可以在客户端或平台中的相应位置进行数据埋点,采集用户的点击行为、曝光行为等行为数据,并生成对应的用户行为文件。举例而言,在直播场景下,在进行数据埋点时,可以在客户端的关键位置进行埋点,关键位置可以包括一些关键页面以及关键按钮等使用频率较高的页面元素,记录用户的关键点击行为和关键曝光行为等,并生成对应的用户行为日志文件。
在对某一平台中的用户行为进行分析时,可以获取该平台对应的用户行为日志文件,并根据用户行为日志文件确定目标用户对应的多个用户行为记录,并对目标用户的多个用户行为记录进行进一步分析。
步骤S120,根据多个用户行为记录确定对应的行为序列数据;行为序列数据包括用户行为序列与行为时间间隔序列。
在本公开的一些示例性实施方式中,行为序列数据可以是按照用户行为的产生时间对用户行为数据中包含的行为记录进行排序后得到的序列集合。用户行为序列可以是按照时间先后顺序对用户行为记录进行排列后生成的序列。行为时间间隔序列可以是由用户行为序列的时间间隔组成的序列。
在确定出用户行为数据中包含的多个用户行为记录后,可以按照时间先后顺序将多个用户行为记录进行排序,生成对应的用户行为序列。在形成用户行为序列后,可以确定用户行为序列中相邻两个用户行为记录之间的时间间隔,将确定出的时间间隔按照用户行为记录的排列顺序进行排列,以生成对应的行为时间间隔序列。
步骤S130,根据用户行为序列与行为时间间隔序列确定行为异常值。
在本公开的一些示例性实施方式中,行为异常值可以是根据对用户行为数据中的多个用户行为记录进行分析后所确定出的数值,行为异常值可以用于表明用户行为的异常程度。例如,当行为异常值为9时,表明该用户的行为存在异常的可能性极大,当行为异常值为2时,表明该用户行为属于正常行为范畴。
在确定出用户行为序列与行为时间间隔序列,对用户行为序列与行为时间间隔序列进行综合分析,可以确定出目标用户的用户行为对应的行为异常值。
步骤S140,获取目标用户的用户特征,并根据用户特征与行为异常值确定目标用户是否为异常用户。
在本公开的一些示例性实施方式中,用户特征可以是基于目标用户的用户基本信息以及目标用户在目标应用程序中的交互行为所生成的特征。用户基本信息可以是目标用户的基本属性信息,例如,用户基本信息可以包括目标用户的性别、年龄、注册地、兴趣爱好等基本信息。交互行为可以是目标用户在目标应用程序中产生的交互行为,例如,当目标应用程序为直播平台时,交互行为可以包括目标用户基于目标应用程序的观看行为、打赏行为等。对目标用户在目标应用程序中的交互行为进行记录和分析,可以生成对应的用户特征。例如,在直播场景中,主播用户的用户特征可以包括在一段时间内用户发送的弹幕数量、观看次数最多的主播、观看直播的数量、在直播中的点赞数量和送礼数量等等。异常用户可以是用户行为存在异常的用户,例如,异常用户可以是通过作弊手段在平台中盈利的黑灰产用户。
当用户在某一平台上进行各种操作时,可以产生各种对应的记录数据,对这些记录数据进行数据挖掘与分析处理后,可以生成对应的用户特征。获取目标用户的用户特征,并根据用户特征和确定出的行为异常值确定目标用户是否为异常用户。
根据本示例实施例中的异常用户识别方法,一方面,在确定出用户行为序列后,还对应确定出行为时间间隔序列,基于两者确定行为异常值可以较大程度地提取异常行为的相关特征,无需通过人力进行分析或审核,可以有效提高处理效率。另一方面,由于行为异常值在极大程度上体现了用户的异常行为,异常行为值可以作为优质特征用于异常用户识别,联合采用异常行为值与用户特征识别异常用户,相比于单独采用用户特征或行为异常值进行异常用户识别,均可以有效提升识别准确率。
下面,将对本示例实施例中的异常用户识别方法进行进一步的说明。
根据本公开的一些示例性实施例,获取预先设定的行为记录要素;行为记录要素包括行为要素与页面要素;根据用户行为日志文件中的行为要素与对应的页面要素生成用户行为记录。
其中,行为记录要素可以是用于定义用户行为记录的相关要素。行为要素可以是用户在目标平台上的具体操作行为。例如,行为要素可以包括点击、浏览、充值购买、赠送等行为。页面要素可以是用户行为具体作用的页面对象。例如,在一游戏直播平台中,页面元素可以包括首页、我的页、娱乐页和游戏页等。
在确定用户行为日志文件中包含的用户行为记录时,可以首先获取预先设定的行为记录要素。由于用户行为日志文件中行为要素与页面元素组合可以构成用户的一个用户行为记录,因此,在确定目标用户的用户行为记录时,可以确定出对应的行为要素和页面要素,将确定出的行为要素与对应的页面要素进行组合,可以生成对应的用户行为记录。举例而言,目标用户的行为要素为“点击”,对应的页面要素为“首页”,则对应的用户行为记录可以为“点击首页”。按照此方法,用户行为记录还可以包括浏览娱乐页,浏览我的页等;另外,在用户行为记录中还提取了用户的充值行为、送礼行为,观看直播行为等等,同样可以生成对应的用户行为记录。
根据本公开的一些示例性实施例,获取各用户行为记录的行为发生时间;根据行为发生时间对多个用户行为记录进行排序,以生成用户行为序列;确定两个相邻用户行为记录之间的时间间隔,根据时间间隔生成行为时间间隔序列。
其中,行为发生时间可以是具体某一条用户行为记录的产生时间。时间间隔可以是用户行为序列中两个相邻的用户行为记录之间对应的时间间隔。
在提取出用户行为日志文件中包含的多个用户行为记录后,可以根据多个用户行为记录生成对应的用户序列数据。具体的,获取各用户行为记录的行为发生时间,根据行为发生时间的时间先后顺序对多个用户行为记录进行排序。参考图2,图2示意性示出了根据本公开的示例性实施方式的生成的部分用户行为序列与对应的行为时间间隔序列的结果图。在图2中,基于用户行为日志文件确定出的用户行为记录包括登陆、点击首页、浏览首页、点击我的关注、观看直播、打赏主播、关闭直播、点击星秀页以及浏览星秀页等用户行为记录。获取每个用户行为记录的行为发生时间,例如,登陆对应的行为发生时间为“20210302 09:23:04”,点击首页的行为发生时间为“20210302 09:23:11”,浏览的行为发生时间为“20210302 09:23:12”,点击我的关注的行为发生时间为“20210302 09:24:13”,观看直播的行为发生时间为“20210302 09:24:17”,打赏主播的行为发生时间为“2021030209:26:44”,关闭直播的行为发生时间为“20210302 09:45:32”,点击星秀页的行为发生时间为“20210302 09:45:35”,浏览星秀页的行为发生时间为“20210302 09:45:36”。根据行为发生时间的时间先后顺序对多个用户行为记录进行排序,生成对应的用户行为序列。
在生成用户行为序列之后,可以确定用户行为序列中相邻两个用户行为记录之间的时间间隔,然后按照用户行为记录的先后顺序对确定出的时间间隔进行排序,可以生成对应的行为时间间隔序列。在图2中,可以以秒为单位确定两个行为记录之间的时间间隔的具体数值。例如,登陆与点击首页之间的时间间隔为7,点击首页与浏览首页之间的时间间隔为1,浏览首页与点击我的关注之间的时间间隔为61,点击我的关注与观看直播之间的时间间隔为4,观看直播与打赏主播之间的时间间隔为147,打赏主播与关闭直播之间的时间间隔为1128,关闭直播与点击星秀页之间的时间间隔为3,点击星秀页与浏览星秀页之间的时间间隔为1,因此,构成的行为时间间隔序列为[7,1,61,4,147,1128,3,1]。
根据本公开的一些示例性实施例,获取预先构建的异常行为确定模型;异常行为确定模型基于用户行为向量字典以及训练行为数据集训练生成;将用户行为序列对应的用户行为向量与行为时间间隔序列输入至异常行为确定模型,以得到行为异常值。
其中,异常行为确定模型可以是将用户行为序列对应的用户行为向量以及行为时间间隔序列作为输入数据,以确定用户行为的异常程度所采用的模型。用户行为向量字典可以是由多个用户行为向量组成的向量集合。训练行为数据集可以是用于对异常行为确定模型进行训练所采用的训练数据集。训练行为数据集可以包括用户行为训练集与行为时间间隔训练集。用户行为向量可以是对用户行为序列进行向量转化处理后生成的向量。
在确定出用户行为序列和对应的行为时间间隔序列后,可以根据用户行为序列和对应的行为时间间隔序列确定目标用户的行为异常值。由于数据实际使用的过程中,通过实验对比发现,提前计算用户行为序列的用户行为向量(即embedding),并使用用户行为向量进行训练比在模型中训练用户行为向量效果好的多,因此,在采用根据用户行为序列和对应的行为时间间隔序列确定行为异常值之前,可以对用户行为序列进行向量转化处理(embedding),生成对应的用户行为向量,并将生成的用户行为向量均存储至用户行为向量字典中。
举例而言,可以采用连续词袋模型(Continuous Bag Of Words,CBOW)算法对用户行为序列进行向量转化训练,得到每个用户行为对应的向量,并且后续使用用户行为序列的用户行为向量进行模型的训练。参考图3,图3示意性示出了根据本公开的示例性实施方式的用户行为序列对应的用户行为向量的部分结果图。例如,可以将用户行为向量的向量大小设置为10,为了方便说明,图3是基于主成分分析方法(Principal ComponentAnalysis,PCA)将向量压缩为2维数据所绘制得到的图。从图3可以看出用户的观看行为310和用户的送礼行为320被聚合在了一起,说明用户行为向量可以一定程度表示不同用户行为之间的关系。其中,用户的观看行为310可以包括“watch_start_time”与“watch_end_time”,用户的送礼行为320可以包括“give_pquan”、“give_goldcoin”、“give_silvercoin”、“give_diamond”等。
获取预先构建的异常行为确定模型,异常行为确定模型可以是根据用户行为向量字典与训练行为数据集进行模型训练所得到的模型。将用户行为向量与行为时间间隔序列输入至异常行为确定模型,由异常行为确定模型对输入数据进行处理,可以得到目标用户的用户行为对应的行为异常值。
根据本公开的一些示例性实施例,异常行为确定模型通过下述步骤训练得到:基于用户行为日志文件确定历史用户行为序列;对历史用户行为序列进行向量转化处理,以根据生成的历史用户行为向量构建用户行为向量字典;根据用户行为日志文件确定用户行为训练集与行为时间间隔训练集;获取初始模型,基于用户行为向量字典、用户行为训练集与行为时间间隔训练集对初始模型进行训练,以得到异常行为确定模型。
其中,历史用户行为序列可以是历史产生的用户行为记录对应的行为序列。历史用户行为向量可以是对历史用户行为序列进行向量转化处理所生成的用户行为的向量表示。用户行为训练集可以是由多个用户行为序列组成的训练数据集。时间间隔训练集可以是由多个用户行为序列对应的时间间隔序列组成的训练数据集。
参考图4,图4示意性示出了根据本公开的示例性实施方式的异常用户识别模型的训练流程图。在步骤S410中,确定历史用户行为序列。获取用户行为日志文件410,确定用户行为日志文件410所包含的所有历史用户行为记录。在确定出历史用户行为记录后,可以生成对应的历史用户行为序列。生成历史用户行为序列的方式与上述生成目标用户的用户行为序列的方式相同,本公开对此不再进行赘述。
在步骤S420中,计算历史用户行为向量。具体的,可以对历史用户行为序列进行向量转化处理,得到对应的历史用户行为向量。在步骤S430中,根据生成的历史用户行为向量保存在用户行为向量字典,以构建用户行为向量字典。将用户行为向量保存为用户行为向量字典供模型训练时调用,可以有效提高模型的训练速度,并且提高模型表现力和识别准确率。
在步骤S440~S450中,根据用户行为日志文件可以生成用户行为训练集与行为时间间隔训练集。具体的,可以从用户行为日志文件中确定出一部分用户行为数据,提取其中的用户行为记录,并对提取出的用户行为记录按照时间先后顺序进行排序,生成包含训练用户行为序列的用户行为训练集。对应的,确定提取出的用户行为记录中两两相邻行为记录的时间间隔,以生成时间间隔训练集。在步骤S460中,获取初始模型,基于用户行为向量字典、用户行为训练集与行为时间间隔训练集对初始模型进行训练,以得到异常行为确定模型。将用户行为向量字典、用户行为训练集与行为时间间隔训练集作为输入数据,输入至初始模型中,并对初始模型进行训练,直至模型的损失函数收敛后,可以得到对应的异常行为确定模型。在步骤S470中,确定异常行为确定模型的在服务器中的存放地址,以便在需要时调用异常行为确定模型对用户序列数据进行分析,得到对应的行为异常值。
根据本公开的一些示例性实施例,将用户行为向量输入至第一长短期记忆层,得到由第一长短期记忆层的最后一个时间步输出的中间行为向量;将行为时间间隔序列输入至第二长短期记忆层,得到由第二长短期记忆层的最后一个时间步输出的中间时间间隔向量;通过连接层对中间行为向量与中间时间间隔向量进行拼接处理,以得到行为拼接向量;对行为拼接向量进行全连接处理,以得到行为异常值。
其中,长短期记忆层可以是由长短期记忆模型(Long-Short Term Memory,LSTM)等相关模型结构构成的模型处理层。第一长短期记忆层可以是用于接收用户行为向量的长短期记忆层,即第一LSTM层。第二长短期记忆层可以是用于接收行为时间间隔序列的长短期记忆层,即第二LSTM层。时间步可以是LSTM层中包含的处理不同时间的用户行为的结构。中间行为向量可以是经过第一LSTM层处理,并由第一LSTM层的最后一个时间步输出的对应的用户行为向量。中间时间间隔向量可以是经过第二LSTM层处理,并由第二LSTM层的最后一个时间步输出的对应的行为时间间隔序列。行为拼接向量可以是将中间行为向量与中间时间间隔向量进行拼接处理后得到的向量。连接层可以是用于对中间行为向量与中间时间间隔向量进行拼接处理的网络层。
参考图5,图5示意性示出了根据本公开的示例性实施方式的确定目标用户是否为异常用户的数据流向图。图5中包含确定目标用户的行为异常值所采用的异常行为确定模型510的模型结构。考虑到用户行为序列和行为时间间隔序列具有时间顺序性,因此使用了对时间顺序比较敏感的LSTM作为训练模型,训练得到的异常行为确定模型包含两个输入端,即第一长短期记忆层与第二长短期记忆层。
获取根据用户行为序列生成对应的用户行为向量,以及根据用户行为序列确定出的行为时间间隔序列512。将生成的用户行为向量511输入至第一长短期记忆层513中,例如,用户行为向量511的最大长度可以为100;并将行为时间间隔序列512输入至第二长短期记忆层514中行为时间间隔序列512的最大长度可以为99。通过两个LSTM层分别对用户行为向量511与行为时间间隔序列512进行处理,具体的,可以取第一LSTM层最后一个时间步的输出作为中间行为向量,并取第二LSTM层最后一个时间步的输出作为中间时间间隔向量。将得到中间行为向量与中间时间间隔向量输入至连接层515中,由连接层515对中间行为向量与中间时间间隔向量进行拼接处理,得到行为拼接向量。将得到的行为拼接向量作为全连接层输入,进行全连接处理,可以得到对应的行为异常值516。
需要说明的是,在构建异常行为确定模型时,还可以仅使用用户行为向量作为模型训练数据集,或者将行为时间间隔序列直接拼接在行为序列向量之后输入模型进行模型训练。上述两种方式的确定出的模型识别准确率较低,因此,可以采用图5中的模型结构作为异常行为确定模型的最终模型结构。
根据本公开的一些示例性实施例,获取预先构建的异常用户识别模型;将用户特征与行为异常值输入至异常用户识别模型,以确定目标用户是否为异常用户。
其中,异常用户识别模型可以是用于根据用户的行为异常值与用户特征判断目标用户是否为异常用户的模型。
获取预先构建的异常用户识别模型,异常用户识别模型可以采用极限梯度提升(eXtreme Gradient Boosting,Xgboost)算法构建。继续参考图5,在本公开中,可以将行为异常值516与用户特征517作为异常用户识别模型518的输入数据,进而使用异常用户识别模型518进行正常用户与异常用户的分类判断,确定该用户是否为异常用户519。由于在本公开中通过学习用户在平台上历史行为记录,确定出用户在行为上的行为异常值,而行为异常值可以在极大程度上体现用户的异常行为,将行为异常值加入异常用户识别模型后可以有效提高模型的识别准确率。
根据本公开的一些示例性实施例,根据用户特征与行为异常值生成用户总体特征,将用户总体特征作为树形结构的特征根结点;用户总体特征包括多个特征要素;基于特征根结点对多个特征要素进行特征分裂处理,得到树形结构的叶子结点;根据叶子结点的分类结果确定目标用户是否为异常用户。
其中,用户总体特征可以是将用户特征与行为异常值进行组合处理所生成的特征。树形结构可以是异常用户识别模型采用Xgboost所构建的树形分类结构。特征要素可以是用户总体特征中所包含的每个具体特征。特征分裂处理可以是对用户总体特征中的多个特征要素进行分裂处理过程。叶子结点可以是Xgboost算法对应的树形结构中的叶子结点。分类结果可以是采用异常用户分类模型对叶子结点进行分类处理得到的结果。
在本实施例中,以异常用户识别模型采用Xgboost算法为例进行说明。异常用户识别模型可以是基于Xgboost算法生成的树形结构,在确定出用户特征和行为异常值后,可以将用户特征和行为异常值进行组合处理,生成用户总体特征,并将用户总体特征作为树形结构的特征根节点。在生成特征根结点之后,可以根据用户总体特征中包含的多个特征要素对特征根结点进行特征分裂处理,从特征根节点逐层进行分裂处理,并最终生成树形结构的叶子结点。在生成叶子结点之后,可以确定出每个叶子结点对应的分数,可以根据叶子结点的对应分数可以确定出该叶子结点的分类结果,例如,该叶子结点对应正常用户或异常用户的分类结果。即,可以确定出目标用户对应的叶子结点的分类结果,并确定目标用户是否为异常用户。
本领域技术人员容易理解的是,在本公开的其他示例性实施例中,还可以采用其他分类算法构建异常用户识别模型,本公开对具体采用的分类算法不作任何特殊限定。
需要说明的是,本公开所使用的术语“第一”、“第二”等,仅是为了区分不同长短期记忆层,并不应对本公开造成任何限制。
综上所述,本公开的异常用户识别方法,获取用户行为日志文件,根据用户行为日志文件确定目标用户对应的多个用户行为记录;根据多个用户行为记录确定对应的行为序列数据;行为序列数据包括用户行为序列与行为时间间隔序列;根据用户行为序列与行为时间间隔序列确定行为异常值;获取目标用户的用户特征,并根据用户特征与行为异常值确定目标用户是否为异常用户。通过本公开的异常用户识别方法,一方面,在确定出用户行为序列后,还对应确定出行为时间间隔序列,基于两者确定行为异常值可以较大程度地提取异常行为的相关特征,无需通过人力进行分析或审核,可以有效提高处理效率。另一方面,由于行为异常值在极大程度上体现了用户的异常行为,异常行为值可以作为优质特征用于异常用户识别,联合采用异常行为值与用户特征识别异常用户,相比于单独采用用户特征或行为异常值进行异常用户识别,均可以有效提升识别准确率。再一方面,通过训练神经网络得到用户行为值,用户行为值可作为优质特征加入异常用户识别模型的树形结构模型中,从而极大程度提高模型表现效果。
需要说明的是,尽管在附图中以特定顺序描述了本发明中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
此外,在本示例实施例中,还提供了一种异常用户识别装置。参考图6,该异常用户识别装置600可以包括:行为记录确定模块610、序列数据确定模块620、异常值确定模块630以及异常用户识别模块640。
具体的,行为记录确定模块610,用于获取用户行为日志文件,根据用户行为日志文件确定目标用户对应的多个用户行为记录;序列数据确定模块620,用于根据多个用户行为记录确定对应的行为序列数据;行为序列数据包括用户行为序列与行为时间间隔序列;异常值确定模块630,用于根据用户行为序列与行为时间间隔序列确定行为异常值;异常用户识别模块640,用于获取目标用户的用户特征,并根据用户特征与行为异常值确定目标用户是否为异常用户。
在本公开的一种示例性实施方案中,行为记录确定模块包括行为数据确定单元,用于获取预先设定的行为记录要素;行为记录要素包括行为要素与页面要素;根据用户行为日志文件中的行为要素与对应的页面要素生成用户行为记录。
在本公开的一种示例性实施方案中,序列数据确定模块包括序列数据确定单元,用于获取各用户行为记录的行为发生时间;根据行为发生时间对多个用户行为记录进行排序,以生成用户行为序列;确定两个相邻用户行为记录之间的时间间隔,根据时间间隔生成行为时间间隔序列。
在本公开的一种示例性实施方案中,异常值确定模块包括异常值确定单元,用于获取预先构建的异常行为确定模型;异常行为确定模型基于用户行为向量字典以及训练行为数据集训练生成;将用户行为序列对应的用户行为向量与行为时间间隔序列输入至异常行为确定模型,以得到行为异常值。
在本公开的一种示例性实施方案中,异常值确定模块还包括模型训练单元,用于基于用户行为日志文件确定历史用户行为序列;对历史用户行为序列进行向量转化处理,以根据生成的历史用户行为向量构建用户行为向量字典;根据用户行为日志文件确定用户行为训练集与行为时间间隔训练集;获取初始模型,基于用户行为向量字典、用户行为训练集与行为时间间隔训练集对初始模型进行训练,以得到异常行为确定模型。
在本公开的一种示例性实施方案中,异常值确定单元包括异常值确定子单元,用于将用户行为向量输入至第一长短期记忆层,得到由第一长短期记忆层的最后一个时间步输出的中间行为向量;将行为时间间隔序列输入至第二长短期记忆层,得到由第二长短期记忆层的最后一个时间步输出的中间时间间隔向量;通过连接层对中间行为向量与中间时间间隔向量进行拼接处理,以得到行为拼接向量;对行为拼接向量进行全连接处理,以得到行为异常值。
在本公开的一种示例性实施方案中,异常用户识别模块包括异常用户识别单元,用于获取预先构建的异常用户识别模型;将用户特征与行为异常值输入至异常用户识别模型,以确定目标用户是否为异常用户。
在本公开的一种示例性实施方案中,异常用户识别单元包括异常用户识别子单元,用于根据用户特征与行为异常值生成用户总体特征,将用户总体特征作为树形结构的特征根结点;用户总体特征包括多个特征要素;基于特征根结点对多个特征要素进行特征分裂处理,得到树形结构的叶子结点;根据叶子结点的分类结果确定目标用户是否为异常用户。
上述中各异常用户识别装置的虚拟模块的具体细节已经在对应的异常用户识别方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了异常用户识别装置的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施例、完全的软件实施例(包括固件、微代码等),或硬件和软件方面结合的实施例,这里可以统称为“电路”、“模块”或“系统”。
下面参考图7来描述根据本发明的这种实施例的电子设备700。图7显示的电子设备700仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于:上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730、显示单元740。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元710执行,使得所述处理单元710执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
存储单元720可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)721和/或高速缓存存储单元722,还可以进一步包括只读存储单元(ROM)723。
存储单元720可以包括具有一组(至少一个)程序模块725的程序/实用工具724,这样的程序模块725包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线730可以表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备700也可以与一个或多个外部设备770(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备700交互的设备通信,和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且,电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器760通过总线730与电子设备700的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备700使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
参考图8所示,描述了根据本发明的实施例的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims (12)

1.一种异常用户识别方法,其特征在于,包括:
获取用户行为日志文件,根据所述用户行为日志文件确定目标用户对应的多个用户行为记录;
根据多个所述用户行为记录确定对应的行为序列数据;所述行为序列数据包括用户行为序列与行为时间间隔序列;
根据所述用户行为序列与所述行为时间间隔序列确定行为异常值;
获取所述目标用户的用户特征,并根据所述用户特征与所述行为异常值确定所述目标用户是否为异常用户。
2.根据权利要求1所述的方法,其特征在于,所述根据所述用户行为日志文件确定目标用户对应的多个用户行为记录,包括:
获取预先设定的行为记录要素;所述行为记录要素包括行为要素与对应的页面要素;
根据所述用户行为日志文件中的所述行为要素与对应的页面要素生成所述用户行为记录。
3.根据权利要求1所述的方法,其特征在于,所述根据多个所述用户行为记录确定对应的行为序列数据,包括:
获取各所述用户行为记录的行为发生时间;
根据所述行为发生时间对多个所述用户行为记录进行排序,以生成所述用户行为序列;
确定两个相邻所述用户行为记录之间的时间间隔,根据所述时间间隔生成所述行为时间间隔序列。
4.根据权利要求1或3所述的方法,其特征在于,所述根据所述用户行为序列与所述行为时间间隔序列确定行为异常值,包括:
获取预先构建的异常行为确定模型;所述异常行为确定模型基于用户行为向量字典以及训练行为数据集训练生成;
将用户行为序列对应的用户行为向量与所述行为时间间隔序列输入至所述异常行为确定模型,以得到所述行为异常值。
5.根据权利要求4所述的方法,其特征在于,所述训练行为数据集包括用户行为训练集与行为时间间隔训练集;
所述异常行为确定模型通过下述步骤训练得到:
基于所述用户行为日志文件确定历史用户行为序列;
对所述历史用户行为序列进行向量转化处理,以根据生成的历史用户行为向量构建用户行为向量字典;
根据所述用户行为日志文件确定所述用户行为训练集与所述行为时间间隔训练集;
获取初始模型,基于所述用户行为向量字典、所述用户行为训练集与所述行为时间间隔训练集对所述初始模型进行训练,以得到所述异常行为确定模型。
6.根据权利要求4所述的方法,其特征在于,所述异常行为确定模型包括第一长短期记忆层、第二长短期记忆层和连接层;
所述将用户行为序列对应的用户行为向量与所述行为时间间隔序列输入至所述异常行为确定模型,以得到所述行为异常值,包括:
将所述用户行为向量输入至第一长短期记忆层,得到由所述第一长短期记忆层的最后一个时间步输出的中间行为向量;
将所述行为时间间隔序列输入至第二长短期记忆层,得到由所述第二长短期记忆层的最后一个时间步输出的中间时间间隔向量;
通过所述连接层对所述中间行为向量与所述中间时间间隔向量进行拼接处理,以得到行为拼接向量;
对所述行为拼接向量进行全连接处理,以得到所述行为异常值。
7.根据权利要求1所述的方法,其特征在于,所述根据所述用户特征与所述行为异常值确定所述目标用户是否为异常用户,包括:
获取预先构建的异常用户识别模型;
将所述用户特征与所述行为异常值输入至所述异常用户识别模型,以确定所述目标用户是否为异常用户。
8.根据权利要求7所述的方法,其特征在于,所述异常用户识别模型的模型结构为树形结构,所述将所述用户特征与所述行为异常值输入至所述异常用户识别模型,以确定所述目标用户是否为异常用户,包括:
根据所述用户特征与所述行为异常值生成用户总体特征,将所述用户总体特征作为所述树形结构的特征根结点;所述用户总体特征包括多个特征要素;
基于所述特征根结点对多个所述特征要素进行特征分裂处理,得到所述树形结构的叶子结点;
根据所述叶子结点的分类结果确定所述目标用户是否为异常用户。
9.根据权利要求1、7~8中任意一项所述的方法,其特征在于,所述用户特征是基于所述目标用户的用户基本信息以及所述目标用户在目标应用程序中的交互行为所生成的特征。
10.一种异常用户识别装置,其特征在于,包括:
行为记录确定模块,用于获取用户行为日志文件,根据所述用户行为日志文件确定目标用户对应的多个用户行为记录;
序列数据确定模块,用于根据多个所述用户行为记录确定对应的行为序列数据;所述行为序列数据包括用户行为序列与行为时间间隔序列;
异常值确定模块,用于根据所述用户行为序列与所述行为时间间隔序列确定行为异常值;
异常用户识别模块,用于获取所述目标用户的用户特征,并根据所述用户特征与所述行为异常值确定所述目标用户是否为异常用户。
11.一种电子设备,其特征在于,包括:
处理器;以及
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现根据权利要求1至9中任一项所述的异常用户识别方法。
12.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据权利要求1至9中任一项所述的异常用户识别方法。
CN202110854925.2A 2021-07-28 异常用户识别方法及装置、电子设备和存储介质 Active CN113569949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110854925.2A CN113569949B (zh) 2021-07-28 异常用户识别方法及装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110854925.2A CN113569949B (zh) 2021-07-28 异常用户识别方法及装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113569949A true CN113569949A (zh) 2021-10-29
CN113569949B CN113569949B (zh) 2024-06-21

Family

ID=

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106027577A (zh) * 2016-08-04 2016-10-12 四川无声信息技术有限公司 一种异常访问行为检测方法及装置
CN107563194A (zh) * 2017-09-04 2018-01-09 杭州安恒信息技术有限公司 潜伏性盗取用户数据行为检测方法及装置
CN108234463A (zh) * 2017-12-22 2018-06-29 杭州安恒信息技术有限公司 一种基于多维行为模型的用户风险评估与分析方法
CN108881194A (zh) * 2018-06-07 2018-11-23 郑州信大先进技术研究院 企业内部用户异常行为检测方法和装置
US20190325514A1 (en) * 2018-04-24 2019-10-24 Alibaba Group Holding Limited Credit risk prediction method and device based on lstm model
CN110674839A (zh) * 2019-08-16 2020-01-10 平安科技(深圳)有限公司 异常用户识别方法、装置、存储介质及电子设备
CN111107096A (zh) * 2019-12-27 2020-05-05 杭州迪普科技股份有限公司 一种Web站点安全防护方法及装置
CN111163065A (zh) * 2019-12-13 2020-05-15 国家计算机网络与信息安全管理中心 异常用户检测方法及装置
CN111262854A (zh) * 2020-01-15 2020-06-09 卓望数码技术(深圳)有限公司 互联网反作弊行为方法、装置、设备和可读存储介质
CN111461773A (zh) * 2020-03-27 2020-07-28 北京奇艺世纪科技有限公司 一种用户检测方法、装置及电子设备
CN111709754A (zh) * 2020-06-12 2020-09-25 中国建设银行股份有限公司 一种用户行为特征提取方法、装置、设备及系统
CN111818011A (zh) * 2020-05-29 2020-10-23 中国平安财产保险股份有限公司 异常访问行为识别方法、装置、计算机设备和存储介质
CN111881972A (zh) * 2020-07-24 2020-11-03 腾讯音乐娱乐科技(深圳)有限公司 一种黑产用户识别方法及装置、服务器、存储介质
CN111985703A (zh) * 2020-08-12 2020-11-24 支付宝(杭州)信息技术有限公司 一种用户身份状态预测方法、装置及设备
CN112738088A (zh) * 2020-12-28 2021-04-30 上海观安信息技术股份有限公司 一种基于无监督算法的行为序列异常检测方法及系统
CN112950231A (zh) * 2021-03-19 2021-06-11 广州瀚信通信科技股份有限公司 一种基于XGBoost算法的异常用户识别方法、设备及计算机可读存储介质
CN112995331A (zh) * 2021-03-25 2021-06-18 绿盟科技集团股份有限公司 一种用户行为威胁检测方法、装置及计算设备
CN112989332A (zh) * 2021-04-08 2021-06-18 北京安天网络安全技术有限公司 一种异常用户行为检测方法和装置

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106027577A (zh) * 2016-08-04 2016-10-12 四川无声信息技术有限公司 一种异常访问行为检测方法及装置
CN107563194A (zh) * 2017-09-04 2018-01-09 杭州安恒信息技术有限公司 潜伏性盗取用户数据行为检测方法及装置
CN108234463A (zh) * 2017-12-22 2018-06-29 杭州安恒信息技术有限公司 一种基于多维行为模型的用户风险评估与分析方法
US20190325514A1 (en) * 2018-04-24 2019-10-24 Alibaba Group Holding Limited Credit risk prediction method and device based on lstm model
CN108881194A (zh) * 2018-06-07 2018-11-23 郑州信大先进技术研究院 企业内部用户异常行为检测方法和装置
CN110674839A (zh) * 2019-08-16 2020-01-10 平安科技(深圳)有限公司 异常用户识别方法、装置、存储介质及电子设备
CN111163065A (zh) * 2019-12-13 2020-05-15 国家计算机网络与信息安全管理中心 异常用户检测方法及装置
CN111107096A (zh) * 2019-12-27 2020-05-05 杭州迪普科技股份有限公司 一种Web站点安全防护方法及装置
CN111262854A (zh) * 2020-01-15 2020-06-09 卓望数码技术(深圳)有限公司 互联网反作弊行为方法、装置、设备和可读存储介质
CN111461773A (zh) * 2020-03-27 2020-07-28 北京奇艺世纪科技有限公司 一种用户检测方法、装置及电子设备
CN111818011A (zh) * 2020-05-29 2020-10-23 中国平安财产保险股份有限公司 异常访问行为识别方法、装置、计算机设备和存储介质
CN111709754A (zh) * 2020-06-12 2020-09-25 中国建设银行股份有限公司 一种用户行为特征提取方法、装置、设备及系统
CN111881972A (zh) * 2020-07-24 2020-11-03 腾讯音乐娱乐科技(深圳)有限公司 一种黑产用户识别方法及装置、服务器、存储介质
CN111985703A (zh) * 2020-08-12 2020-11-24 支付宝(杭州)信息技术有限公司 一种用户身份状态预测方法、装置及设备
CN112738088A (zh) * 2020-12-28 2021-04-30 上海观安信息技术股份有限公司 一种基于无监督算法的行为序列异常检测方法及系统
CN112950231A (zh) * 2021-03-19 2021-06-11 广州瀚信通信科技股份有限公司 一种基于XGBoost算法的异常用户识别方法、设备及计算机可读存储介质
CN112995331A (zh) * 2021-03-25 2021-06-18 绿盟科技集团股份有限公司 一种用户行为威胁检测方法、装置及计算设备
CN112989332A (zh) * 2021-04-08 2021-06-18 北京安天网络安全技术有限公司 一种异常用户行为检测方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GUANNAN LIU 等: "Fraud detection via behavioral sequence embedding", 《KNOWLEDGE AND INFORMATION SYSTEMS》, 9 January 2020 (2020-01-09), pages 2685 - 2708, XP037175290, DOI: 10.1007/s10115-019-01433-3 *
LUTONG WANG 等: "Learning Behavior Analysis and Dropout Rate Prediction Based on MOOCs Data", 《2019 10TH INTERNATIONAL CONFERENCE ON INFORMATION TECHNOLOGY IN MEDICINE AND EDUCATION》, 23 January 2020 (2020-01-23), pages 419 - 423 *
李岩 等: "社交网络水军用户的动态行为分析及在线检测", 《计算机工程》, vol. 45, no. 8, 15 August 2019 (2019-08-15), pages 287 - 295 *
李维娜;吴晨;: "基于访问行为序列相似度的加权聚类算法", 《计算机工程与设计》, vol. 38, no. 02, 16 February 2017 (2017-02-16), pages 430 - 436 *

Similar Documents

Publication Publication Date Title
CN107680019B (zh) 一种考试方案的实现方法、装置、设备及存储介质
US20190333118A1 (en) Cognitive product and service rating generation via passive collection of user feedback
CN111090756B (zh) 基于人工智能的多目标推荐模型的训练方法及装置
JP7316453B2 (ja) オブジェクト推薦方法及び装置、コンピュータ機器並びに媒体
WO2022252363A1 (zh) 数据处理方法、计算机设备以及可读存储介质
CN110234018B (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
WO2019108276A1 (en) Method and apparatus for providing personalized self-help experience
CN110209875B (zh) 用户内容画像确定方法、访问对象推荐方法和相关装置
JP2024514069A (ja) 電子メッセージング方法
CN112819024B (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
CN112100221A (zh) 一种资讯推荐方法、装置、推荐服务器及存储介质
CN111582645B (zh) 基于因子分解机的app风险评估方法、装置和电子设备
US10616532B1 (en) Behavioral influence system in socially collaborative tools
CN109272165B (zh) 注册概率预估方法、装置、存储介质及电子设备
CN114491255A (zh) 推荐方法、系统、电子设备和介质
CN111680218B (zh) 用户兴趣识别方法、装置、电子设备及存储介质
CN111199454B (zh) 实时用户转化评估方法、装置及电子设备
CN113204699B (zh) 信息推荐方法、装置、电子设备及存储介质
CN110782128B (zh) 一种用户职业标签生成方法、装置和电子设备
KR20190108958A (ko) 유해단어 어휘목록 자동 생성과 기계학습을 이용한 청소년 유해가사 자동 분류 방법 및 장치
CN111127057B (zh) 一种多维用户画像恢复方法
CN113569949B (zh) 异常用户识别方法及装置、电子设备和存储介质
US20230281492A1 (en) Adversarial data generation for virtual settings
CN113569949A (zh) 异常用户识别方法及装置、电子设备和存储介质
CN112950351B (zh) 用户策略生成方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant