CN109145934A - 基于日志的用户行为数据处理方法、介质、设备及装置 - Google Patents

基于日志的用户行为数据处理方法、介质、设备及装置 Download PDF

Info

Publication number
CN109145934A
CN109145934A CN201711408930.0A CN201711408930A CN109145934A CN 109145934 A CN109145934 A CN 109145934A CN 201711408930 A CN201711408930 A CN 201711408930A CN 109145934 A CN109145934 A CN 109145934A
Authority
CN
China
Prior art keywords
access
user
cluster
feature
grouping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711408930.0A
Other languages
English (en)
Other versions
CN109145934B (zh
Inventor
刘鑫琪
丛磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shuan Xin Yun Information Technology Co Ltd
Original Assignee
Beijing Shuan Xin Yun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shuan Xin Yun Information Technology Co Ltd filed Critical Beijing Shuan Xin Yun Information Technology Co Ltd
Priority to CN201711408930.0A priority Critical patent/CN109145934B/zh
Priority to PCT/CN2018/122274 priority patent/WO2019120241A1/zh
Publication of CN109145934A publication Critical patent/CN109145934A/zh
Application granted granted Critical
Publication of CN109145934B publication Critical patent/CN109145934B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本文公开了基于日志的用户行为数据处理方法、介质、设备及装置,此方法包括:步骤1,采集日志信息;步骤2,确定多个访问特征,根据日志信息提取不同用户针对不同访问特征的访问行为值;步骤3,将访问特征划分为N个分组,确定每个分组的簇数;N为大于或等于1的整数;步骤4,对每个分组根据分组相应的簇数进行聚类获得聚类结果。本发明通过将高维数据构造为多个相似的或者相关的特征组成的低维特征后,进行聚类,解决高维聚类效果差问题;并且通过将高维数据构造为多个相似的或者相关的特征组成的低维特征后进行聚类,每个子聚类过程簇数减少,节省计算时间,节省计算所需内存。

Description

基于日志的用户行为数据处理方法、介质、设备及装置
技术领域
本发明涉及互联网技术领域,尤其涉及基于日志的用户行为数据处理方法、介质、设备及装置。
背景技术
随着互联网业务的发展,网络上每天都因用户访问而产生海量的网络服务器(webserver)系统日志。网络服务器(web server)系统日志主要包含:客户端IP地址、客户端用户名称、访问时间、请求uri、请求状态、文件大小、页面链接来源、客户端浏览器等信息。现有技术中使用网络服务器系统日志对用户行为进行分类,但现有的分类方法主要存在以下难点:
一,在无法获知统一资源标识符(Uniform Resource Identifier,URI)和其内容的对应关系的情况下,以及无法获知内容和内容类别的对应关系的情况下,难以使用此类日志进行用户兴趣分类。
二,对web server的特征提取主要为统计型特征,如计数、平均值、标准差等,即为访问行为特征但不包含访问目标,所以会导致聚类成的簇的访问目标不一致,会导致误判。
三,如果使用机器学习聚类方法进行用户行为聚类,参加聚类的数据条数会大幅增加;同时特征工程产生的特征数据维度很高。以最常见的聚类方法KMeans为例,空间复杂度为O(n*m),其中n为数据条数,m为特征个数,n和m的增加使聚类大量消耗系统内存,计算时间增加,同时例如KMeans不适用于产生过多的簇,以及处理高维数据。这就为聚类方法的计算物理消耗,及聚类结果准确性(例如簇内行为不相似)带来挑战。具体包括:(一)对高维数据直接使用一般聚类方法计算内存使用多,耗时长。(二)遇到大量访问行为方式共存时,KMeans聚类方法需要预判一个大的簇数,如簇数预估较少,否则会导致簇内行为方式不一致;如KMeans方法簇数很大则效果较差。
发明内容
为了解决上述技术问题,本发明实施例提供了基于日志的用户行为数据处理方法、介质、设备及装置。
本发明实施例提供的基于网络访问日志的用户行为数据处理方法,包括:
步骤1,采集日志信息;
步骤2,确定多个访问特征,根据日志信息提取不同用户针对不同访问特征的访问行为值;
步骤3,将访问特征划分为N个分组,确定每个分组的簇数;N为大于或等于1的整数;
步骤4,对每个分组根据分组相应的簇数进行聚类获得聚类结果。
上述方法还具有以下特点:
方法还包括:
步骤5:根据聚类结果确定每个簇对应的用户;
步骤6:判断簇中的用户数量小于预设阈值时,确定簇中的用户为异常用户;或者,判断簇中所有用户的至少一预设访问特征的访问行为均值不符合此预设访问特征相应的阈值范围。
上述方法还具有以下特点:
访问特征为访问主题,访问行为值为用户对访问主题的访问概率值。
上述方法还具有以下特点:
根据日志信息提取不同用户针对不同访问特征的访问行为值为根据日志信息提取不同用户针对不同访问主题的访问概率值,具体包括:确定各用户的用户标识,根据日志信息提取各用户访问各网络资源标识符的访问信息以及对网络资源标识符的访问次数,根据用户访问各网络资源标识符的访问信息生成访问目标标识,将用户标识、访问目标标识和访问次数构成文档信息,设置文档主题生成模型中的主题数为M,M为大于1的整数,将文档信息输入文档主题生成模型,生成各用户对各访问主题的访问概率值。
上述方法还具有以下特点:
访问特征为用户访问行为统计信息,访问行为值为用户访问行为统计信息的值。
上述方法还具有以下特点:
方法还包括:针对不同类别的访问特征执行步骤2、步骤3和步骤4后获得不同的聚类结果,将不同的聚类结果组合后对用户进行分类。
上述方法还具有以下特点:
将访问特征划分为N个分组的方法是以下方法中的一种:
三,将属于同一类的访问特征划分为同一组;
四,将访问特征随机划分为N个分组。
本发明实施例提供的计算机可读存储介质上存储有计算机程序,程序被处理器执行时实现上述方法的步骤。
本发明实施例提供的计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述方法的步骤。
本发明实施例提供的基于网络访问日志的用户行为数据处理装置,包括:
采集模块,用于采集日志信息;
提取模块,用于确定多个访问特征,根据日志信息提取不同用户针对不同访问特征的访问行为值;
分组模块,用于将访问特征划分为N个分组,确定每个分组的簇数;N为大于或等于1的整数;
聚类模块,用于对每个分组根据分组相应的簇数进行聚类获得聚类结果。
上述装置还具有以下特点:
此装置还包括:
确定模块,用于根据聚类结果确定每个簇对应的用户;
判断模块,用于判断簇中的用户数量小于预设阈值时,确定簇中的用户为异常用户;或者,用于判断簇中所有用户的至少一预设访问特征的访问行为均值不符合此预设访问特征相应的阈值范围。
上述装置还具有以下特点:
访问特征为访问主题,访问行为值为用户对访问主题的访问概率值;
提取模块,用于使用以下方法根据日志信息提取不同用户针对不同访问特征的访问行为值:根据日志信息提取不同用户针对不同访问主题的访问概率值,具体包括:确定各用户的用户标识,根据日志信息提取各用户访问各网络资源标识符的访问信息以及对网络资源标识符的访问次数,根据用户访问各网络资源标识符的访问信息生成访问目标标识,将用户标识、访问目标标识和访问次数构成文档信息,设置文档主题生成模型中的主题数为M,M为大于1的整数,将文档信息输入文档主题生成模型,生成各用户对各访问主题的访问概率值;
或者,访问特征为用户访问行为统计信息,访问行为值为用户访问行为统计信息的值。
本发明包括以下优点:
一,通过将高维数据构造为多个相似的或者相关的特征组成的低维特征后,进行聚类,解决高维聚类效果差问题。
二,通过将高维数据构造为多个相似的或者相关的特征组成的低维特征后进行聚类,每个子聚类过程簇数减少,节省计算时间,节省计算所需内存。
三,使用主题方式,使最后簇内访问行为及目标基本相似,提高聚类准确性。
四,通过子聚类过程最后合并为一个聚类结果的方式,最后形成大量簇数的聚类结果,从而解决大量访问行为方式共存的问题。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是实施例中基于日志的用户行为数据处理方法的流程图。
图2是实施例中基于日志的用户行为数据处理装置的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
本发明实施例中基于日志的用户行为数据处理方法,包括:
步骤101,采集日志信息;
步骤102,确定多个访问特征,根据日志信息提取不同用户针对不同访问特征的访问行为值;
步骤103,将访问特征划分为N个分组,确定每个分组的簇数;N为大于或等于1的整数;
步骤104,对每个分组根据分组相应的簇数进行聚类获得聚类结果。
此方法还包括:
步骤105:根据聚类结果确定每个簇对应的用户。
步骤106:判断簇中的用户数量小于预设阈值时,确定簇中的用户为异常用户;或者,判断判断簇中所有用户的至少一预设访问特征的访问行为均值不符合此预设访问特征相应的阈值范围,确定簇中的用户为异常用户。
本方法中通过分组和聚类的方式,将高维数据构造为多个相似的或者相关的特征组成的低维特征后进行聚类,解决高维聚类效果差问题,并且使每个子聚类过程簇数减少,节省计算时间,节省计算所需内存。
本方法中的访问特征包括不同类型的访问特征,下面通过三种实现方式进行详细说明。
实现方式一
在此实现方式一中访问特征为访问主题。访问行为值为用户对访问主题的访问概率值。
例如:用户访问的目标为公众网站的资源时,此主题为此公众网站资源的不同类型的主题。具体类型的划分可根据网站提供的资源进行划分。例如公众网站资源的类型包括新闻类、财经类、体育类、房产类、电影类、电视剧类、音乐类、汽车类、科技类。
主题数量过多会使整个计算时间增加。本方法中进行特征分组时将属于同一类的访问特征划分为同一组。例如可以将电影类、电视剧类、音乐类划分为娱乐类。上述分组的方式可以节省计算时间,主题数的减少对结果的影响可以通过后续按照每个用户在不同主题的概率作为向量以减少影响。
进行分组时将属于同一类的访问主题划分为同一组。例如可以将电影类、电视剧类、音乐类划分为娱乐类。也可以随机的将所有主题划分为N个分组。
举例如下:
步骤101中采集日志时针对的用户包括:用户1、用户2、用户3和用户4。用户的数量为4。
步骤102中确定出的访问主题包括新闻类主题、经济类主题、房产类主题、电影类主题、电视剧类主题、音乐类主题、汽车类主题、电子类主题。访问主题数为8。
步骤102中根据日志信息提取各用户针对不同访问特征的访问行为值具体是指:根据日志信息提取不同用户对不同访问主题的访问概率值。具体实现方法如下:
确定各用户的用户标识,根据日志信息提取各用户访问各网络资源标识符的访问信息以及对网络资源标识符的访问次数,根据用户访问各网络资源标识符的访问信息生成访问目标标识,将用户标识、访问目标标识、访问次数构成文档信息。设置文档主题生成模型中的主题数为M。将文档信息输入文档主题生成模型,生成各用户对各访问主题的访问概率值。
其中,上述用户标识可以包括用户的客户端IP和/或客户端用户名。上述访问信息可以是网络资源标识符或访问网络资源标识符的路径的hash值。文档主题生成模型可以是潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型。
举例如下:
执行完步骤102后,获得表1:
表1
步骤103中将访问特征划分为N个分组,例如划分为3组。确定3个分组的簇数均为2。
划分分组时可以采用将属于同一类的访问特征划分为同一组的方法,具体的:将新闻类、经济类和房产类合并为财经分组,将电影类、电视剧类和音乐类合并为娱乐分组,将汽车类和电子类合并为科技分组。
步骤104中对每个分组根据分组相应的簇数进行聚类获得聚类结果。如表2所示。
表2
表2中的值表示用户在相应分组中所属的簇标识。
步骤105中根据聚类结果确定每个簇对应的用户为:
财经分组中,两个簇中的一个簇包括用户1、用户3和用户4,另一簇包括用户2。
娱乐分组中,两个簇中的一个簇包括用户1、用户3和用户4,另一簇包括用户2。
科技分组中,两个簇中的一个簇包括用户1、用户3和用户4,另一簇包括用户2。
实现方式中的使用主题方式,使最后簇内访问行为及目标基本相似,提高聚类准确性。
实现方式二
在此实现方式二中访问特征为用户访问行为统计信息。访问行为值为用户访问行为统计信息的值。
用户访问行为统计信息包括:请求数,平均请求时间,平均请求大小、消息占比等。
举例如下:
步骤101中采集日志时针对的用户包括:用户1、用户2、用户3和用户4,用户的数量为4。
步骤102中确定出的用户访问行为统计信息包括7个,具体为:2xx占比、3xx占比、4xx占比、5xx占比、GET请求占比、POST请求占比、HEAD请求占比。如表3所示:
表3
步骤103中将访问特征划分为N个分组,此处N的值为2,确定3个分组的簇数均为2。将属于同一类的访问特征划分为同一组,具体的,将2xx占比、3xx占比、4xx占比、5xx占比合并为第一分组,将GET请求占比、POST请求占比、HEAD请求占比合并为第二分组。
执行步骤104中的对每个分组根据分组相应的簇数进行聚类获得聚类结果。如表4所示:
表4
第一分组 第二分组
用户1 1 1
用户2 2 2
用户3 1 1
用户4 1 2
步骤105中对每个分组根据分组相应的簇数进行聚类获得聚类结果,根据聚类结果确定每个簇对应的用户的结果为:
第一分组中,两个簇中的一个簇包括用户1、用户3和用户4,另一簇包括用户2。
第二分组中,两个簇中的一个簇包括用户1和用户3,另一簇包括用户2和用户4。
实现方式三
针对不同类别的访问特征执行步骤102、步骤103和步骤104,获得不同的聚类结果,将不同的聚类结果组合后对用户进行分类,如上述实现方式一、二中所示,将获得的表2和表4组合,获得表5。
表5
财经分组 娱乐分组 科技分组 第一分组 第二分组
用户1 1 1 1 1 1
用户2 2 2 2 2 2
用户3 1 1 1 1 1
用户4 1 1 1 1 2
根据表5对用户进行分类后:
第一个分类包括用户1和用户3。
第二个分类包括用户2。
第三个分类包括用户4。
实现方式三中通过子聚类过程最后合并为一个聚类结果的方式,最后形成大量簇数的聚类结果,从而解决大量访问行为方式共存的问题。
本文还提供了一种计算机可读存储介质,存储介质上存储有计算机程序,此程序被处理器执行时实现上述方法的步骤。
本文还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行此程序时实现上述方法的步骤。
如图2所示,本文还提供了一种基于网络访问日志的用户行为数据处理装置,包括:
采集模块,用于采集日志信息;
提取模块,用于确定多个访问特征,根据日志信息提取不同用户针对不同访问特征的访问行为值;
分组模块,用于将访问特征划分为N个分组,确定每个分组的簇数;N为大于或等于1的整数;
聚类模块,用于对每个分组根据分组相应的簇数进行聚类获得聚类结果。
此装置还包括:
确定模块,用于根据聚类结果确定每个簇对应的用户。
判断模块,用于判断簇中的用户数量小于预设阈值时,确定簇中的用户为异常用户;或者,用于判断簇中所有用户的至少一预设访问特征的访问行为均值不符合此预设访问特征相应的阈值范围。
在实现方式一中
访问特征为访问主题,访问行为值为用户对访问主题的访问概率值。
提取模块,用于使用以下方法根据日志信息提取不同用户针对不同访问特征的访问行为值:根据日志信息提取不同用户针对不同访问主题的访问概率值,具体包括:确定各用户的用户标识,根据日志信息提取各用户访问各网络资源标识符的访问信息以及对网络资源标识符的访问次数,根据用户访问各网络资源标识符的访问信息生成访问目标标识,将用户标识、访问目标标识和访问次数构成文档信息,设置文档主题生成模型中的主题数为M,M为大于1的整数,将文档信息输入文档主题生成模型,生成各用户对各访问主题的访问概率值;
在实现方式二中
访问特征为用户访问行为统计信息,访问行为值为用户访问行为统计信息的值。
在实现方式三中
此装置还包括合并模块。在提取模块和分组模块针对不同类别的访问特征处理完成后,将将不同的聚类结果合并,将合并后的结果交由确定模块处理。
综上,本发明包括以下优点:
一,通过将高维数据构造为多个相似的或者相关的特征组成的低维特征后,进行聚类,解决高维聚类效果差问题。
二,通过将高维数据构造为多个相似的或者相关的特征组成的低维特征后进行聚类,每个子聚类过程簇数减少,节省计算时间,节省计算所需内存。
三,使用主题方式,使最后簇内访问行为及目标基本相似,提高聚类准确性。
四,通过子聚类过程最后合并为一个聚类结果的方式,最后形成大量簇数的聚类结果,从而解决大量访问行为方式共存的问题。
上面描述的内容可以单独地或者以各种方式组合起来实施,而这些变型方式都在本发明的保护范围之内。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案而非限制,仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

Claims (12)

1.一种基于网络访问日志的用户行为数据处理方法,其特征在于,包括:
步骤1,采集日志信息;
步骤2,确定多个访问特征,根据日志信息提取不同用户针对不同访问特征的访问行为值;
步骤3,将访问特征划分为N个分组,确定每个分组的簇数;N为大于或等于1的整数;
步骤4,对每个分组根据分组相应的簇数进行聚类获得聚类结果。
2.如权利要求1所述的用户行为数据处理方法,其特征在于,
所述方法还包括:
步骤5:根据所述聚类结果确定每个簇对应的用户;
步骤6:判断所述簇中的用户数量小于预设阈值时,确定所述簇中的用户为异常用户;或者,判断所述簇中所有用户的至少一预设访问特征的访问行为均值不符合此预设访问特征相应的阈值范围。
3.如权利要求1所述的用户行为数据处理方法,其特征在于,
所述访问特征为访问主题,所述访问行为值为用户对访问主题的访问概率值。
4.如权利要求3所述的用户行为数据处理方法,其特征在于,
所述根据日志信息提取不同用户针对不同访问特征的访问行为值为根据日志信息提取不同用户针对不同访问主题的访问概率值,具体包括:确定各用户的用户标识,根据日志信息提取各用户访问各网络资源标识符的访问信息以及对所述网络资源标识符的访问次数,根据用户访问各网络资源标识符的访问信息生成访问目标标识,将用户标识、访问目标标识和访问次数构成文档信息,设置文档主题生成模型中的主题数为M,M为大于1的整数,将所述文档信息输入文档主题生成模型,生成各用户对各访问主题的访问概率值。
5.如权利要求1所述的用户行为数据处理方法,其特征在于,
所述访问特征为用户访问行为统计信息,所述访问行为值为所述用户访问行为统计信息的值。
6.如权利要求1所述的用户行为数据处理方法,其特征在于,
所述方法还包括:针对不同类别的访问特征执行步骤2、步骤3和步骤4后获得不同的聚类结果,将不同的聚类结果组合后对用户进行分类。
7.如权利要求1所述的用户行为数据处理方法,其特征在于,
所述将访问特征划分为N个分组的方法是以下方法中的一种:
一,将属于同一类的访问特征划分为同一组;
二,将访问特征随机划分为N个分组。
8.一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述程序被处理器执行时实现权利要求1至7中任意一项所述方法的步骤。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至7中任意一项所述方法的步骤。
10.一种基于网络访问日志的用户行为数据处理装置,其特征在于,包括:
采集模块,用于采集日志信息;
提取模块,用于确定多个访问特征,根据日志信息提取不同用户针对不同访问特征的访问行为值;
分组模块,用于将访问特征划分为N个分组,确定每个分组的簇数;N为大于或等于1的整数;
聚类模块,用于对每个分组根据分组相应的簇数进行聚类获得聚类结果。
11.如权利要求10所述的用户行为数据处理装置,其特征在于,
还包括:
确定模块,用于根据所述聚类结果确定每个簇对应的用户;
判断模块,用于判断所述簇中的用户数量小于预设阈值时,确定所述簇中的用户为异常用户;或者,用于判断所述簇中所有用户的至少一预设访问特征的访问行为均值不符合此预设访问特征相应的阈值范围。
12.如权利要求10所述的用户行为数据处理装置,其特征在于,
所述访问特征为访问主题,所述访问行为值为用户对访问主题的访问概率值;
所述提取模块,用于使用以下方法根据日志信息提取不同用户针对不同访问特征的访问行为值:根据日志信息提取不同用户针对不同访问主题的访问概率值,具体包括:确定各用户的用户标识,根据日志信息提取各用户访问各网络资源标识符的访问信息以及对所述网络资源标识符的访问次数,根据用户访问各网络资源标识符的访问信息生成访问目标标识,将用户标识、访问目标标识和访问次数构成文档信息,设置文档主题生成模型中的主题数为M,M为大于1的整数,将所述文档信息输入文档主题生成模型,生成各用户对各访问主题的访问概率值;
或者,所述访问特征为用户访问行为统计信息,所述访问行为值为所述用户访问行为统计信息的值。
CN201711408930.0A 2017-12-22 2017-12-22 基于日志的用户行为数据处理方法、介质、设备及装置 Active CN109145934B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201711408930.0A CN109145934B (zh) 2017-12-22 2017-12-22 基于日志的用户行为数据处理方法、介质、设备及装置
PCT/CN2018/122274 WO2019120241A1 (zh) 2017-12-22 2018-12-20 基于日志的用户行为数据处理方法、介质、设备及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711408930.0A CN109145934B (zh) 2017-12-22 2017-12-22 基于日志的用户行为数据处理方法、介质、设备及装置

Publications (2)

Publication Number Publication Date
CN109145934A true CN109145934A (zh) 2019-01-04
CN109145934B CN109145934B (zh) 2019-05-21

Family

ID=64803819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711408930.0A Active CN109145934B (zh) 2017-12-22 2017-12-22 基于日志的用户行为数据处理方法、介质、设备及装置

Country Status (2)

Country Link
CN (1) CN109145934B (zh)
WO (1) WO2019120241A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754290A (zh) * 2019-01-15 2019-05-14 网易(杭州)网络有限公司 一种游戏数据的处理方法和装置
CN110347917A (zh) * 2019-06-14 2019-10-18 北京纵横无双科技有限公司 一种医疗信息推送方法及装置
CN110378200A (zh) * 2019-06-03 2019-10-25 特斯联(北京)科技有限公司 一种基于行为特征聚类的智能安防提示设备与方法
CN110532460A (zh) * 2019-04-18 2019-12-03 国家计算机网络与信息安全管理中心 网络访问用户的分类方法、装置、电子设备及介质
CN110781930A (zh) * 2019-10-14 2020-02-11 西安交通大学 一种基于网络安全设备日志数据的用户画像分组及行为分析方法和系统
CN110912861A (zh) * 2018-09-18 2020-03-24 北京数安鑫云信息技术有限公司 一种深度追踪团伙攻击行为的ai检测方法和装置
WO2020155755A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 基于谱聚类的异常点比例优化方法、装置及计算机设备
CN111506828A (zh) * 2020-03-20 2020-08-07 微梦创科网络科技(中国)有限公司 一种异常关注行为批量实时识别方法及装置
WO2021012483A1 (zh) * 2019-07-23 2021-01-28 平安科技(深圳)有限公司 信息识别方法、装置、计算机设备和存储介质
CN112800419A (zh) * 2019-11-13 2021-05-14 北京数安鑫云信息技术有限公司 识别ip团伙的方法、装置、介质及设备
CN113132311A (zh) * 2019-12-31 2021-07-16 中国移动通信集团陕西有限公司 异常访问检测方法、装置和设备
CN113992757A (zh) * 2021-10-27 2022-01-28 北京八分量信息科技有限公司 异构网络中的存储资源共享管理方法、装置及相关产品
CN114547482A (zh) * 2022-03-03 2022-05-27 智慧足迹数据科技有限公司 业务特征生成方法、装置、电子设备及存储介质
CN114978674A (zh) * 2022-05-18 2022-08-30 中国电信股份有限公司 一种爬虫识别增强的方法及装置、存储介质及电子设备

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033584B (zh) * 2019-12-09 2023-07-07 Oppo广东移动通信有限公司 数据处理方法及相关设备
CN111523921B (zh) * 2019-12-31 2023-10-20 支付宝实验室(新加坡)有限公司 漏斗分析方法、分析设备、电子设备及可读存储介质
CN111177656B (zh) * 2019-12-31 2024-02-06 奇安信科技集团股份有限公司 一种行为检测方法、计算机设备和计算机可读存储介质
CN111597299A (zh) * 2020-03-31 2020-08-28 深圳追一科技有限公司 知识点监测方法、装置、计算机设备和存储介质
CN113779568A (zh) * 2021-09-18 2021-12-10 中国平安人寿保险股份有限公司 异常行为用户识别方法、装置、设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477552A (zh) * 2009-02-03 2009-07-08 辽宁般若网络科技有限公司 网站用户等级划分方法
CN101702653A (zh) * 2009-10-27 2010-05-05 中国科学院声学研究所 一种基于用户行为定向的消息通告系统及方法
CN102135983A (zh) * 2011-01-17 2011-07-27 北京邮电大学 基于网络用户行为的群体划分方法和装置
CN102158365A (zh) * 2011-05-20 2011-08-17 北京邮电大学 一种网络日志挖掘中的用户聚类方法及系统
CN104063518A (zh) * 2014-07-14 2014-09-24 南京弘数信息科技有限公司 一种针对大数据的分解组合聚类方法
CN104750752A (zh) * 2013-12-31 2015-07-01 中国移动通信集团公司 一种上网偏好用户群体的确定方法和设备
CN106210044A (zh) * 2016-07-11 2016-12-07 焦点科技股份有限公司 一种基于访问行为的活跃用户识别方法
CN106354784A (zh) * 2016-08-23 2017-01-25 西安电子科技大学 基于降维分组的大数据聚类优化方法
CN107404398A (zh) * 2017-05-31 2017-11-28 中山大学 一种网络用户行为判别系统
CN107426177A (zh) * 2017-06-13 2017-12-01 努比亚技术有限公司 一种用户行为聚类分析方法及终端、计算机可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102833129A (zh) * 2012-08-15 2012-12-19 苏州迈科网络安全技术股份有限公司 网站访问率统计方法及系统
US9450840B2 (en) * 2013-07-10 2016-09-20 Cisco Technology, Inc. Domain classification using domain co-occurrence information
CN104899229A (zh) * 2014-03-07 2015-09-09 上海市玻森数据科技有限公司 基于群体智能的行为聚类系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477552A (zh) * 2009-02-03 2009-07-08 辽宁般若网络科技有限公司 网站用户等级划分方法
CN101702653A (zh) * 2009-10-27 2010-05-05 中国科学院声学研究所 一种基于用户行为定向的消息通告系统及方法
CN102135983A (zh) * 2011-01-17 2011-07-27 北京邮电大学 基于网络用户行为的群体划分方法和装置
CN102158365A (zh) * 2011-05-20 2011-08-17 北京邮电大学 一种网络日志挖掘中的用户聚类方法及系统
CN104750752A (zh) * 2013-12-31 2015-07-01 中国移动通信集团公司 一种上网偏好用户群体的确定方法和设备
CN104063518A (zh) * 2014-07-14 2014-09-24 南京弘数信息科技有限公司 一种针对大数据的分解组合聚类方法
CN106210044A (zh) * 2016-07-11 2016-12-07 焦点科技股份有限公司 一种基于访问行为的活跃用户识别方法
CN106354784A (zh) * 2016-08-23 2017-01-25 西安电子科技大学 基于降维分组的大数据聚类优化方法
CN107404398A (zh) * 2017-05-31 2017-11-28 中山大学 一种网络用户行为判别系统
CN107426177A (zh) * 2017-06-13 2017-12-01 努比亚技术有限公司 一种用户行为聚类分析方法及终端、计算机可读存储介质

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110912861A (zh) * 2018-09-18 2020-03-24 北京数安鑫云信息技术有限公司 一种深度追踪团伙攻击行为的ai检测方法和装置
CN109754290A (zh) * 2019-01-15 2019-05-14 网易(杭州)网络有限公司 一种游戏数据的处理方法和装置
WO2020155755A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 基于谱聚类的异常点比例优化方法、装置及计算机设备
CN110532460A (zh) * 2019-04-18 2019-12-03 国家计算机网络与信息安全管理中心 网络访问用户的分类方法、装置、电子设备及介质
CN110378200A (zh) * 2019-06-03 2019-10-25 特斯联(北京)科技有限公司 一种基于行为特征聚类的智能安防提示设备与方法
CN110347917A (zh) * 2019-06-14 2019-10-18 北京纵横无双科技有限公司 一种医疗信息推送方法及装置
WO2021012483A1 (zh) * 2019-07-23 2021-01-28 平安科技(深圳)有限公司 信息识别方法、装置、计算机设备和存储介质
CN110781930A (zh) * 2019-10-14 2020-02-11 西安交通大学 一种基于网络安全设备日志数据的用户画像分组及行为分析方法和系统
CN112800419A (zh) * 2019-11-13 2021-05-14 北京数安鑫云信息技术有限公司 识别ip团伙的方法、装置、介质及设备
CN113132311A (zh) * 2019-12-31 2021-07-16 中国移动通信集团陕西有限公司 异常访问检测方法、装置和设备
CN113132311B (zh) * 2019-12-31 2023-09-19 中国移动通信集团陕西有限公司 异常访问检测方法、装置和设备
CN111506828A (zh) * 2020-03-20 2020-08-07 微梦创科网络科技(中国)有限公司 一种异常关注行为批量实时识别方法及装置
CN111506828B (zh) * 2020-03-20 2023-04-07 微梦创科网络科技(中国)有限公司 一种异常关注行为批量实时识别方法及装置
CN113992757A (zh) * 2021-10-27 2022-01-28 北京八分量信息科技有限公司 异构网络中的存储资源共享管理方法、装置及相关产品
CN113992757B (zh) * 2021-10-27 2024-03-05 北京八分量信息科技有限公司 异构网络中的存储资源共享管理方法、装置及相关产品
CN114547482A (zh) * 2022-03-03 2022-05-27 智慧足迹数据科技有限公司 业务特征生成方法、装置、电子设备及存储介质
CN114547482B (zh) * 2022-03-03 2023-01-20 智慧足迹数据科技有限公司 业务特征生成方法、装置、电子设备及存储介质
CN114978674A (zh) * 2022-05-18 2022-08-30 中国电信股份有限公司 一种爬虫识别增强的方法及装置、存储介质及电子设备
CN114978674B (zh) * 2022-05-18 2023-12-05 中国电信股份有限公司 一种爬虫识别增强的方法及装置、存储介质及电子设备

Also Published As

Publication number Publication date
WO2019120241A1 (zh) 2019-06-27
CN109145934B (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
CN109145934B (zh) 基于日志的用户行为数据处理方法、介质、设备及装置
US10467234B2 (en) Differentially private database queries involving rank statistics
US20190026489A1 (en) Differentially private machine learning using a random forest classifier
WO2022117063A1 (zh) 孤立森林的训练方法,网络爬虫的识别方法及装置
WO2019056721A1 (zh) 信息推送方法、电子设备及计算机存储介质
Zhang et al. Extracting the information backbone in online system
JP2020503629A (ja) ページ表示方法、装置、サーバー及び記憶媒体
US10218599B2 (en) Identifying referral pages based on recorded URL requests
CN107741986B (zh) 用户行为预测及相应信息推荐方法和装置
CN104965863B (zh) 一种对象聚类方法和装置
CN108282450A (zh) 异常域名的检测方法及装置
CN103248677B (zh) 互联网行为分析系统及其工作方法
CN109214671B (zh) 人员分组方法、装置、电子装置及计算机可读存储介质
WO2014171925A1 (en) Event summarization
Guo et al. Predicting link directions via a recursive subgraph-based ranking
US20160189171A1 (en) Analysing topics in social networks
CN111563218A (zh) 一种页面的修复方法及装置
Liu et al. An improved approach for mining association rules in parallel using Spark Streaming
CN110572402B (zh) 基于网络访问行为分析的互联网托管网站检测方法、系统和可读存储介质
CN106897313B (zh) 一种海量用户业务偏好评估方法和装置
Kotzias et al. Addressing the Sparsity of Location Information on Twitter.
US9727561B1 (en) Context- and activity-aware content selection
CN106909619B (zh) 一种基于偏移调节和竞价的混合社交网络聚类方法及系统
JP2019520617A (ja) 広告生成方法、コンピュータ読み取り可能な記憶媒体及びシステム
Xhafa et al. Using bi-clustering algorithm for analyzing online users activity in a virtual campus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40000451

Country of ref document: HK