CN107092650B - 一种网络日志分析方法及装置 - Google Patents
一种网络日志分析方法及装置 Download PDFInfo
- Publication number
- CN107092650B CN107092650B CN201710146476.XA CN201710146476A CN107092650B CN 107092650 B CN107092650 B CN 107092650B CN 201710146476 A CN201710146476 A CN 201710146476A CN 107092650 B CN107092650 B CN 107092650B
- Authority
- CN
- China
- Prior art keywords
- document
- theme
- topic
- probability
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims description 12
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 244000089409 Erythrina poeppigiana Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及计算机技术领域,尤其涉及一种网络日志分析方法及装置,用以实现准确高效地分析网站,包括:根据获取的设定时长的网络日志,统计得到文档集合,所述文档集合中的每个文档包含访问同一个网站的用户标识,进而将文档集合作为LDA的输入,以及根据预设的主题集合,得到文档主题群概率和用户主题群概率,进一步地,根据所述文档主题群概率,确定文档集合中的每个文档对应的主题,以及根据用户主题群概率,确定文档集合中每个用户标识对应的主题。由于LDA算法具有精准及高效地主题分类特性,因此本申请实施例结合LDA算法,可以实现对网站及访问网站的用户进行主题归属的高效精准分类。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种网络日志分析方法及装置。
背景技术
随着互联网的发展,用户通过上网获取信息的需求越来越大,因而导致每天都有海量网站访问信息存储在网络日志中。
为了更好地服务用户,一般需要通过做网站分析,得知用户的偏好,例如某个用户喜欢浏览何种类型的主题网站,以及还需要分析某个网站属于何种类型的主题网站。
目前做网站分析的方法有很多,但大都分析不是很准确或者效率较低。
发明内容
本发明提供一种网络日志分析方法及装置,用以实现准确高效地分析网站。
第一方面,本申请实施例提供一种网络日志分析方法,包括:
根据获取的设定时长的网络日志,统计得到文档集合,所述文档集合中的每个文档包含访问同一个网站的用户标识;
将所述文档集合作为主题模型算法LDA的输入,根据预设的主题集合确定对应主题。
可选地,将所述文档集合作为主题模型算法LDA的输入,根据预设的主题集合确定对应主题的具体步骤包括:
所述文档主题群概率表示所述文档集合中的每个文档对应所述主题集合中的每个主题的概率,所述用户主题群概率表示所述文档集合中的每个用户标识对应所述主题集合中的每个主题的概率,K为大于1的整数;
根据所述文档主题群概率,确定所述文档集合中的每个文档对应的主题,以及根据所述用户主题群概率,确定所述文档集合中每个用户标识对应的主题。
可选地,将所述文档集合作为主题模型算法LDA的输入,以及根据预设的包含K个主题的主题集合,得到文档主题群概率和用户主题群概率,包括:
根据所述主题集合,为所述文档集合中的每个用户标识随机对应一个主题;
根据所述LDA及所述文档集合中的每个用户标识对应的主题,为所述文档集合中的每个用户标识重新对应一个主题,直至满足迭代停止条件;
根据迭代停止时,每个用户标识所对应的主题,计算得到所述文档主题群概率和所述用户主题群概率。
可选地,根据所述文档主题群概率,确定所述文档集合中的每个文档对应的主题,包括:
针对所述主题集合中每个主题,根据所述文档主题群概率,得到所述文档集合中的每个文档对应所述主题的概率;获取对应所述主题的概率最高的L1个文档,并建立获取的L个文档中每个文档与该主题的对应关系,L1为预设的正整数;
根据建立的文档与主题的对应关系,确定每个文档对应的主题;
根据所述用户主题群概率,确定所述文档集合中每个用户标识对应的主题,包括:
针对所述主题集合中每个主题,根据所述用户主题群概率,得到所述文档集合中的每个用户标识对应所述主题的概率;获取对应所述主题的概率最高的L2个用户标识,并建立获取的每个用户标识与该主题的对应关系,L2为预设的正整数;
根据获取的每个用户标识与主题的对应关系,确定每个用户标识对应的主题。
可选地,将所述文档集合作为主题模型算法LDA的输入之前,还包括:
针对所述文档集合中的每个文档,删除该文档中访问该文档对应的网站的次数少于P的用户标识,P为预设的正整数。
可选地,所述K为所述LDA的困惑度Perplexity收敛时对应的最小主题数值。
第二方面,本申请实施例提供一种网络日志分析装置,包括:
统计单元,用于根据获取的设定时长的网络日志,统计得到文档集合,所述文档集合中的每个文档包含访问同一个网站的用户标识;
主题确定单元,用于将所述文档集合作为主题模型算法LDA的输入,并根据预设的主题集合确定对应主题。
可选地,还包括概率确定单元,所述概率确定单元用于将所述文档集合作为主题模型算法LDA的输入,以及根据预设的包含K个主题的主题集合,得到文档主题群概率和用户主题群概率,所述文档主题群概率表示所述文档集合中的每个文档对应所述主题集合中的每个主题的概率,所述用户主题群概率表示所述文档集合中的每个用户标识对应所述主题集合中的每个主题的概率,K为大于1的整数;
所述主题确定单元,用于根据所述文档主题群概率,确定所述文档集合中的每个文档对应的主题,以及根据所述用户主题群概率,确定所述文档集合中每个用户标识对应的主题。
可选地,所述概率确定单元,具体用于:
根据所述主题集合,为所述文档集合中的每个用户标识随机对应一个主题;
根据所述LDA及所述文档集合中的每个用户标识对应的主题,为所述文档集合中的每个用户标识重新对应一个主题,直至满足迭代停止条件;
根据迭代停止时,每个用户标识所对应的主题,计算得到所述文档主题群概率和所述用户主题群概率。
可选地,所述主题确定单元,具体用于:
针对所述主题集合中每个主题,根据所述文档主题群概率,得到所述文档集合中的每个文档对应所述主题的概率;获取对应所述主题的概率最高的L1个文档,并建立获取的L个文档中每个文档与该主题的对应关系,L1为预设的正整数;
根据建立的文档与主题的对应关系,确定每个文档对应的主题;
针对所述主题集合中每个主题,根据所述用户主题群概率,得到所述文档集合中的每个用户标识对应所述主题的概率;获取对应所述主题的概率最高的L2个用户标识,并建立获取的每个用户标识与该主题的对应关系,L2为预设的正整数;
根据获取的每个用户标识与主题的对应关系,确定每个用户标识对应的主题。
可选地,所述统计单元还用于:
将所述文档集合作为主题模型算法LDA的输入之前,针对所述文档集合中的每个文档,删除该文档中访问该文档对应的网站的次数少于P的用户标识,P为预设的正整数。
可选地,所述K为所述LDA的困惑度Perplexity收敛时对应的最小主题数值。
本申请实施例,根据获取的设定时长的网络日志,统计得到文档集合,所述文档集合中的每个文档包含访问同一个网站的用户标识,进而将所述文档集合作为LDA的输入,以及根据预设的包含K个主题的主题集合,得到文档主题群概率和用户主题群概率,所述文档主题群概率表示所述文档集合中的每个文档对应所述主题集合中的每个主题的概率,所述用户主题群概率表示所述文档集合中的每个用户标识对应所述主题集合中的每个主题的概率,K为大于1的整数;进一步地,根据所述文档主题群概率,确定所述文档集合中的每个文档对应的主题,以及根据所述用户主题群概率,确定所述文档集合中每个用户标识对应的主题。由于LDA算法具有精准及高效地主题分类特性,因此本申请实施例结合LDA算法,可以实现对网站及访问网站的用户进行主题归属的高效精准分类,解决网站系统访问的延迟问题,提升了系统速度并减少了访问时间。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种网络日志分析方法流程图;
图2为本申请实施例提供的困惑度与主题数的对应关系曲线图;
图3为本申请实施例提供的另一种网络日志分析方法流程图;
图4为本申请实施例提供的一种网络日志分析装置示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面结合说明书附图对本申请实施例作进一步详细描述。
如图1所示,本申请实施例提供一种网络日志分析方法,该方法可由网络日志分析装置执行,网络日志分析装置具体地,可以是一个具有运算能力的计算机,或者是计算机内部的一个处理器,如中央处理单元,该方法具体包括:
步骤101、根据获取的设定时长的网络日志,统计得到文档集合,所述文档集合中的每个文档包含访问同一个网站的用户标识;
步骤102、将所述文档集合作为主题模型算法LDA的输入,以及根据预设的包含K个主题的主题集合,得到文档主题群概率和用户主题群概率,所述文档主题群概率表示所述文档集合中的每个文档对应所述主题集合中的每个主题的概率,所述用户主题群概率表示所述文档集合中的每个用户标识对应所述主题集合中的每个主题的概率,K为大于1的整数;
步骤103、根据所述文档主题群概率,确定所述文档集合中的每个文档对应的主题,以及根据所述用户主题群概率,确定所述文档集合中每个用户标识对应的主题。
上述步骤101中,首先获取设定时长的网络日志,该网络日志中包含多条记录,每条记录中包含访问某个网站的用户标识信息,例如记录1包含用户标识1访问网站A的信息,记录2包含用户标识2访问网站A的信息,记录3包含用户标识1访问网站B的信息,等等。
通过对网络日志中的每条记录进行数据清洗和统计,统计得到文档集合,所述文档集合中的每个文档包含访问同一个网站的用户标识。
举例来说,通过清洗和统计网络日志,可得到如表1所示的文档集合,其中:0表示IP0,1表示IP1,2表示IP2,3表示IP3,4表示IP4,5表示IP5,6表示IP6。
文档0:baidu.com | 文档1:google.com | 文档2:sina.com.cn |
1 | 4 | 3 |
2 | 3 | 2 |
3 | 2 | 3 |
2 | 2 | 4 |
1 | 3 | 5 |
1 | 0 | |
6 |
表1文档集合
上述表1表示一个文档集合,该文档集合中包含3个文档,文档0中记录了访问网站baidu.com的用户标识(表1中使用IP(Internet Protocol,网络之间互连的协议)来表示)有IP1、IP2、IP3、IP2、IP1;文档1记录了访问网站google.com的用户标识有IP4、IP 3、IP 2、IP 2、IP 3、IP 1、IP 6;文档2记录了访问网站sina.com.cn的用户标识有IP3、IP2、IP 3、IP4、IP 5、IP 0。
当然,上述表1只是作为示例说明,实际文档集合中的每个文档中均包含有较多数量的用户标识。
可选地,为提高用户和网站主题分类的精确度,还可以对文档集合中的每个文档做如下处理:
针对所述文档集合中的每个文档,删除该文档中访问该文档对应的网站的次数少于P的用户标识,P为预设的正整数。
举例来说,假设P预设为1,以表1为例,则需要删除文档0中只访问文档0对应的网站baidu.com一次的IP3;需要删除文档1中只访问文档1对应的网站google.com一次的IP4、IP1、IP6;需要删除文档1中只访问文档2对应的网站sina.com.cn一次的IP2、IP4、IP5。
当然,上述只是作为举例说明,实际应用中,一般一个用户标识会访问一个网站很多次,只访问某个网站少于P次的用户标识的数量不会很多,在删除这些用户标识后,可提高用户和网站主题分类的精确度。
在得到文档集合后,上述步骤102中,将该文档集合作为LDA(Latent DirichletAllocation,主题模型算法)的输入,以及根据预设的包含K个主题的主题集合,得到文档主题群概率和用户主题群概率。
其中,文档主题群概率表示文档集合中的每个文档对应主题集合中的每个主题的概率,用户主题群概率表示文档集合中的每个用户标识对应主题集合中的每个主题的概率。
其中,主题名称例如可以是:游戏类、娱乐类、体育类、社会新闻类等等,具体地可人工设定。
可选地,将所述文档集合作为主题模型算法LDA的输入,以及根据预设的包含K个主题的主题集合,得到文档主题群概率和用户主题群概率,包括:根据所述主题集合,为所述文档集合中的每个用户标识随机对应一个主题;根据所述LDA及所述文档集合中的每个用户标识对应的主题,为所述文档集合中的每个用户标识重新对应一个主题,直至满足迭代停止条件;根据迭代停止时,每个用户标识所对应的主题,计算得到所述文档主题群概率和所述用户主题群概率。
下面结合上述表1的例子,来说明如何得到文档主题群概率和用户主题群概率。
首先定义一些参数含义:
词项集合:由所有文档的不同用户标识构成的集合,表1中一共有7个不同的用户标识,分别是IP0、IP1、IP2、IP3、IP4、IP5、IP6,因此用户标识的总数V=7;
文档集合的文档数M=3;
预设主题数K=3;
预设超参数α=2;
预设超参数β=0.5。
步骤1021、对用户标识和网站进行初始化。
由于一共有3个主题(即K=3),假设随机分配主题的结果为:
1)、对每篇文档的用户标识进行主题分配
文档0:2 0 2 2 1
文档1:2 0 0 2 2 2 2
文档2:0 0 2 1 1 0
含义为:文档0的单词(即用户标识)1分配给主题2,单词2分配给主题0,单词3分配给主题2,单词4分配给主题2,单词5分配给主题1;
同理,文档1和2的每个单词随机分配到了一个主题,不再赘述。
2)、初始化文档对应每个主题的数目
文档0:1 1 3
文档1:2 0 5
文档2:3 2 1
含义为:文档0中单词对应主题0的有1个,对应主题1的有1个,对应主题2的有3个。
同理,文档1和2中单词对应每个主题的数目也可以计算得到,不再赘述。
并且,具体实现时,可以以一个二维数组来表示一个文档对应每个主题的数目,例如数组中的一个元素nd[i][j]表示文档i对应主题j的数量,其中,0≤i≤2,0≤j≤2。
3)、初始化每个主题下对应的用户标识的数目
主题0:1 0 3 2 0 0 0
主题1:0 1 0 0 1 1 0
主题2:0 2 2 3 1 0 1
含义为:以主题0为例,用户0有1个属于主题0,用户2有3个属于主题0,用户3有2个属于主题0。
同理,主题1和主题2下对应的用户标识的数目也可以计算得到,不再赘述。
并且,具体实现时,可以以一个二维数组来表示一个主题对应每个用户标识的数目,例如数组中的一个元素nw[i][j]表示用户标识i对应主题j的数量,其中,0≤i≤6,0≤j≤2。
4)、计算当前每篇文档的长度:
文档0:5,
文档1:7,
文档2:6。
文档的长度指的是文档中包含的用户标识(即单词)的数量。
5)、计算当前每个主题下的用户总数:
主题0:6个,
主题1:3个,
主题2:9个。
步骤1022、为每个文档的每个用户标识重新分配一个主题
以文档0中的第一个单词(即用户标识1)为例,初始化时赋予它的主题是主题2。
在更新该用户标识对应的主题前,首先要删除步骤1021中对于该用户标识的一些统计值,具体更新为:
nw[1][2]:1,本来用户1对应主题2的数量是2个,删除当前用户标识的计数后,则剩下1个;
nd[0][2]:2,文档0对应主题2的剩下2;
nwsum[2]:8,主题2的用户数变成8;
ndsum[0]:4,文档0的用户数变成4。
然后结合LDA算法中的文档主题群概率和用户主题群概率的计算公式,计算当前用户标识对应的联合概率。
其中,文档主题群概率计算公式如下:
其中,θm,k为文档m对应主题k的概率,nm,k为文档m中对应主题k的用户标识的数量,α为预设的超参数,K为预设的主题数。
用户主题群概率计算公式如下:
通过上述文档主题群概率计算公式和用户主题群概率计算公式,可计算一个用户标识对应一个主题的联合概率:
结合上述联合概率公式,可以为一个用户标识重新确定一个主题,具体地确定方法可参考现有LDA算法的描述,此处不再赘述。
假设为文档0中的第一个用户标识(用户标识1)重新选定的主题是主题1,则进一步地将用户1重新加入计数器:
nw[1][1]:2,
nd[0][1]:2,
nwsum[1]:4,
ndsum[0]:5。
同样地,为每个文档的其它用户标识也重新计算一个主题,从而使得文档中的每个用户标识得到更新。
重复上述更新若干次(即迭代若干次,具体迭代次数为预设值)后,停止更新,得到每个文档中的每个用户标识最终对应的主题。
此外,为提高主题确定的准确性,还可以做如下改进:
对一个文档中的每个用户赋予一定的权重,并应用到联合概率的计算公式中,权值计算如下:
则结合每个用户标识的权值,改进后的联合概率计算公式如下:
步骤1023、计算文档主题群概率和用户主题群概率。
具体地,可根据上述文档主题群概率计算公式重新计算得到每个文档对应每个主题的概率,以及根据用户主题群概率计算公式计算得到每个用户标识对应每个主题的概率。
步骤103、根据所述文档主题群概率,确定所述文档集合中的每个文档对应的主题,以及根据所述用户主题群概率,确定所述文档集合中每个用户标识对应的主题。
可选地,包括:
针对所述主题集合中每个主题,根据所述文档主题群概率,得到所述文档集合中的每个文档对应所述主题的概率;获取对应所述主题的概率最高的L1个文档,并建立获取的L个文档中每个文档与该主题的对应关系,L1为预设的正整数;
根据建立的文档与主题的对应关系,确定每个文档对应的主题;
根据所述用户主题群概率,确定所述文档集合中每个用户标识对应的主题,包括:针对所述主题集合中每个主题,根据所述用户主题群概率,得到所述文档集合中的每个用户标识对应所述主题的概率;获取对应所述主题的概率最高的L2个用户标识,并建立获取的每个用户标识与该主题的对应关系,L2为预设的正整数;
根据获取的每个用户标识与主题的对应关系,确定每个用户标识对应的主题。
例如,假设一共有10个用户标识,文档数为5,主题数为5,则最终得到的结果如下:
1)、文档对应的主题(L1取值为3)
文档0:主题1、主题3、主题2;
文档1:主题0、主题4、主题3;
文档2:主题0、主题2、主题4;
文档3:主题3、主题2、主题1;
文档4:主题3、主题4、主题1。
2)、用户标识对应的主题(L2取值为3)
用户标识0:主题1;
用户标识1:主题0、主题3;
用户标识2:主题4、主题3、
用户标识3:主题0、主题4;
用户标识4:主题0;
用户标识5:主题2、主题4;
用户标识6:主题1、主题3;
用户标识7:主题2;
用户标识8:主题1;
用户标识9:主题2。
可选地,本申请实施例中的主题集合中包含的主题数量K的取值是预先设定的,具体地可以是根据经验设定,还可以是取值为LDA的Perplexity(困惑度)收敛时对应的最小主题数值。
参考图2,为本申请实施例提供的困惑度与主题数的对应关系曲线图,从中可以看出,随着主题数的增加,困惑度是趋于收敛的,当K大于或等于50时,则困惑度已经收敛,则可将K取值为50。
本申请实施例,根据获取的设定时长的网络日志,统计得到文档集合,所述文档集合中的每个文档包含访问同一个网站的用户标识,进而将所述文档集合作为LDA的输入,以及根据预设的包含K个主题的主题集合,得到文档主题群概率和用户主题群概率,所述文档主题群概率表示所述文档集合中的每个文档对应所述主题集合中的每个主题的概率,所述用户主题群概率表示所述文档集合中的每个用户标识对应所述主题集合中的每个主题的概率,K为大于1的整数;进一步地,根据所述文档主题群概率,确定所述文档集合中的每个文档对应的主题,以及根据所述用户主题群概率,确定所述文档集合中每个用户标识对应的主题。由于LDA算法具有精准及高效地主题分类特性,因此本申请实施例结合LDA算法,可以实现对网站及访问网站的用户进行主题归属的高效精准分类。
下面对本申请实施例提供的网络日志分析方法做详细描述,如图3所示,包括:
步骤301、根据获取的设定时长的网络日志,统计得到文档集合,所述文档集合中的每个文档包含访问同一个网站的用户标识;
步骤302、针对所述文档集合中的每个文档,删除该文档中访问该文档对应的网站的次数少于P的用户标识,P为预设的正整数;
步骤303、根据所述主题集合,为所述文档集合中的每个用户标识随机对应一个主题;
步骤304、根据所述LDA及所述文档集合中的每个用户标识对应的主题,为所述文档集合中的每个用户标识重新对应一个主题,直至满足迭代停止条件;
步骤305、根据迭代停止时,每个用户标识所对应的主题,计算得到所述文档主题群概率和所述用户主题群概率;
步骤306、针对所述主题集合中每个主题,根据所述文档主题群概率,得到所述文档集合中的每个文档对应所述主题的概率;获取对应所述主题的概率最高的L1个文档,并建立获取的L个文档中每个文档与该主题的对应关系,L1为预设的正整数;
步骤307、根据建立的文档与主题的对应关系,确定每个文档对应的主题;
步骤308、针对所述主题集合中每个主题,根据所述用户主题群概率,得到所述文档集合中的每个用户标识对应所述主题的概率;获取对应所述主题的概率最高的L2个用户标识,并建立获取的每个用户标识与该主题的对应关系,L2为预设的正整数;
步骤309、根据获取的每个用户标识与主题的对应关系,确定每个用户标识对应的主题。
本申请实施例,根据获取的设定时长的网络日志,统计得到文档集合,所述文档集合中的每个文档包含访问同一个网站的用户标识,进而将所述文档集合作为LDA的输入,以及根据预设的包含K个主题的主题集合,得到文档主题群概率和用户主题群概率,所述文档主题群概率表示所述文档集合中的每个文档对应所述主题集合中的每个主题的概率,所述用户主题群概率表示所述文档集合中的每个用户标识对应所述主题集合中的每个主题的概率,K为大于1的整数;进一步地,根据所述文档主题群概率,确定所述文档集合中的每个文档对应的主题,以及根据所述用户主题群概率,确定所述文档集合中每个用户标识对应的主题。由于LDA算法具有精准及高效地主题分类特性,因此本申请实施例结合LDA算法,可以实现对网站及访问网站的用户进行主题归属的高效精准分类。
基于相同的技术构思,本申请实施例还提供一种网络日志分析装置,如图4所示,包括:
统计单元401,用于根据获取的设定时长的网络日志,统计得到文档集合,所述文档集合中的每个文档包含访问同一个网站的用户标识;
概率确定单元402,用于将所述文档集合作为主题模型算法LDA的输入,以及根据预设的包含K个主题的主题集合,得到文档主题群概率和用户主题群概率,所述文档主题群概率表示所述文档集合中的每个文档对应所述主题集合中的每个主题的概率,所述用户主题群概率表示所述文档集合中的每个用户标识对应所述主题集合中的每个主题的概率,K为大于1的整数;
主题确定单元403,用于根据所述文档主题群概率,确定所述文档集合中的每个文档对应的主题,以及根据所述用户主题群概率,确定所述文档集合中每个用户标识对应的主题。
可选地,所述概率确定单元402,具体用于:根据所述主题集合,为所述文档集合中的每个用户标识随机对应一个主题;
根据所述LDA及所述文档集合中的每个用户标识对应的主题,为所述文档集合中的每个用户标识重新对应一个主题,直至满足迭代停止条件;
根据迭代停止时,每个用户标识所对应的主题,计算得到所述文档主题群概率和所述用户主题群概率。
可选地,所述主题确定单元403,具体用于:针对所述主题集合中每个主题,根据所述文档主题群概率,得到所述文档集合中的每个文档对应所述主题的概率;获取对应所述主题的概率最高的L1个文档,并建立获取的L个文档中每个文档与该主题的对应关系,L1为预设的正整数;
根据建立的文档与主题的对应关系,确定每个文档对应的主题;
针对所述主题集合中每个主题,根据所述用户主题群概率,得到所述文档集合中的每个用户标识对应所述主题的概率;获取对应所述主题的概率最高的L2个用户标识,并建立获取的每个用户标识与该主题的对应关系,L2为预设的正整数;
根据获取的每个用户标识与主题的对应关系,确定每个用户标识对应的主题。
可选地,所述统计单元401还用于:将所述文档集合作为主题模型算法LDA的输入之前,针对所述文档集合中的每个文档,删除该文档中访问该文档对应的网站的次数少于P的用户标识,P为预设的正整数。
可选地,所述K为所述LDA的困惑度Perplexity收敛时对应的最小主题数值。
本申请实施例,根据获取的设定时长的网络日志,统计得到文档集合,所述文档集合中的每个文档包含访问同一个网站的用户标识,进而将所述文档集合作为LDA的输入,以及根据预设的包含K个主题的主题集合,得到文档主题群概率和用户主题群概率,所述文档主题群概率表示所述文档集合中的每个文档对应所述主题集合中的每个主题的概率,所述用户主题群概率表示所述文档集合中的每个用户标识对应所述主题集合中的每个主题的概率,K为大于1的整数;进一步地,根据所述文档主题群概率,确定所述文档集合中的每个文档对应的主题,以及根据所述用户主题群概率,确定所述文档集合中每个用户标识对应的主题。由于LDA算法具有精准及高效地主题分类特性,因此本申请实施例结合LDA算法,可以实现对网站及访问网站的用户进行主题归属的高效精准分类。
本发明是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (8)
1.一种网络日志分析方法,其特征在于,包括:
获取的设定时长的网络日志,对所述网络日志中每条记录进行数据清洗和统计,得到文档集合,所述文档集合中的每个文档包含访问同一个网站的用户标识;
针对所述文档集合中的每个文档,删除该文档中访问该文档对应的网站的次数少于P的用户标识,P为预设的正整数;
将所述文档集合作为主题模型算法LDA的输入,根据预设的主题集合确定对应主题;
将所述文档集合作为主题模型算法LDA的输入,根据预设的主题集合确定对应主题的具体步骤包括:
所述主题集合为预设的K个主题,根据主题集合得到文档主题群概率和用户主题群概率,所述文档主题群概率表示所述文档集合中的每个文档对应所述主题集合中的每个主题的概率,所述用户主题群概率表示所述文档集合中的每个用户标识对应所述主题集合中的每个主题的概率,K为大于1的整数;
根据所述文档主题群概率,确定所述文档集合中的每个文档对应的主题,以及根据所述用户主题群概率,确定所述文档集合中每个用户标识对应的主题。
2.根据权利要求1所述的方法,其特征在于,将所述文档集合作为主题模型算法LDA的输入,以及根据预设的包含K个主题的主题集合,得到文档主题群概率和用户主题群概率,包括:
根据所述主题集合,为所述文档集合中的每个用户标识随机对应一个主题;
根据所述LDA及所述文档集合中的每个用户标识对应的主题,为所述文档集合中的每个用户标识重新对应一个主题,直至满足迭代停止条件;
根据迭代停止时,每个用户标识所对应的主题,计算得到所述文档主题群概率和所述用户主题群概率。
3.根据权利要求1所述的方法,其特征在于,根据所述文档主题群概率,确定所述文档集合中的每个文档对应的主题,包括:
针对所述主题集合中每个主题,根据所述文档主题群概率,得到所述文档集合中的每个文档对应所述主题的概率;获取对应所述主题的概率最高的L1个文档,并建立获取的L个文档中每个文档与该主题的对应关系,L1为预设的正整数;
根据建立的文档与主题的对应关系,确定每个文档对应的主题;
根据所述用户主题群概率,确定所述文档集合中每个用户标识对应的主题,包括:
针对所述主题集合中每个主题,根据所述用户主题群概率,得到所述文档集合中的每个用户标识对应所述主题的概率;获取对应所述主题的概率最高的L2个用户标识,并建立获取的每个用户标识与该主题的对应关系,L2为预设的正整数;
根据获取的每个用户标识与主题的对应关系,确定每个用户标识对应的主题。
4.根据权利要求1至3任一所述的方法,其特征在于,所述K为所述LDA的困惑度Perplexity收敛时对应的最小主题数值。
5.一种网络日志分析装置,其特征在于,包括:
统计单元,用于获取的设定时长的网络日志,对所述网络日志中每条记录进行数据清洗和统计,得到文档集合,所述文档集合中的每个文档包含访问同一个网站的用户标识;
所述统计单元还用于:
针对所述文档集合中的每个文档,删除该文档中访问该文档对应的网站的次数少于P的用户标识,P为预设的正整数;
主题确定单元,用于将所述文档集合作为主题模型算法LDA的输入,并根据预设的主题集合确定对应主题;
还包括:概率确定单元;
所述概率确定单元,用于将所述文档集合作为主题模型算法LDA的输入,以及根据预设的包含K个主题的主题集合,得到文档主题群概率和用户主题群概率,所述文档主题群概率表示所述文档集合中的每个文档对应所述主题集合中的每个主题的概率,所述用户主题群概率表示所述文档集合中的每个用户标识对应所述主题集合中的每个主题的概率,K为大于1的整数;
所述主题确定单元,用于根据所述概率确定单元确定的所述文档主题群概率,确定所述文档集合中的每个文档对应的主题,以及根据所述用户主题群概率,确定所述文档集合中每个用户标识对应的主题。
6.根据权利要求5所述的装置,其特征在于,所述概率确定单元,具体用于:
根据所述主题集合,为所述文档集合中的每个用户标识随机对应一个主题;
根据所述LDA及所述文档集合中的每个用户标识对应的主题,为所述文档集合中的每个用户标识重新对应一个主题,直至满足迭代停止条件;
根据迭代停止时,每个用户标识所对应的主题,计算得到所述文档主题群概率和所述用户主题群概率。
7.根据权利要求5所述的装置,其特征在于,所述主题确定单元,具体用于:
针对所述主题集合中每个主题,根据所述文档主题群概率,得到所述文档集合中的每个文档对应所述主题的概率;获取对应所述主题的概率最高的L1个文档,并建立获取的L个文档中每个文档与该主题的对应关系,L1为预设的正整数;
根据建立的文档与主题的对应关系,确定每个文档对应的主题;
针对所述主题集合中每个主题,根据所述用户主题群概率,得到所述文档集合中的每个用户标识对应所述主题的概率;获取对应所述主题的概率最高的L2个用户标识,并建立获取的每个用户标识与该主题的对应关系,L2为预设的正整数;
根据获取的每个用户标识与主题的对应关系,确定每个用户标识对应的主题。
8.根据权利要求5至7任一所述的装置,其特征在于,所述K为所述LDA的困惑度Perplexity收敛时对应的最小主题数值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710146476.XA CN107092650B (zh) | 2017-03-13 | 2017-03-13 | 一种网络日志分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710146476.XA CN107092650B (zh) | 2017-03-13 | 2017-03-13 | 一种网络日志分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107092650A CN107092650A (zh) | 2017-08-25 |
CN107092650B true CN107092650B (zh) | 2020-02-21 |
Family
ID=59649299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710146476.XA Expired - Fee Related CN107092650B (zh) | 2017-03-13 | 2017-03-13 | 一种网络日志分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107092650B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019068B (zh) * | 2017-10-19 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 一种日志文本处理方法和装置 |
CN111368534A (zh) * | 2018-12-25 | 2020-07-03 | 中国移动通信集团浙江有限公司 | 一种应用日志降噪方法及装置 |
CN110275862B (zh) * | 2019-06-26 | 2021-07-30 | 北京字节跳动网络技术有限公司 | 统计已创建文档数的方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105243083A (zh) * | 2015-09-08 | 2016-01-13 | 百度在线网络技术(北京)有限公司 | 文档主题挖掘方法及装置 |
CN105824911A (zh) * | 2016-03-15 | 2016-08-03 | 山东大学 | 基于lda用户主题模型的视频推荐方法 |
-
2017
- 2017-03-13 CN CN201710146476.XA patent/CN107092650B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105243083A (zh) * | 2015-09-08 | 2016-01-13 | 百度在线网络技术(北京)有限公司 | 文档主题挖掘方法及装置 |
CN105824911A (zh) * | 2016-03-15 | 2016-08-03 | 山东大学 | 基于lda用户主题模型的视频推荐方法 |
Non-Patent Citations (1)
Title |
---|
"潜在狄利克雷分配模型在网络日志的应用";许两有等;《厦门大学学报》;20130731;第52卷(第4期);第455-458页第1.2-2.2节 * |
Also Published As
Publication number | Publication date |
---|---|
CN107092650A (zh) | 2017-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2016074492A1 (zh) | 基于社交平台的数据挖掘方法及装置 | |
US9223968B2 (en) | Determining whether virtual network user is malicious user based on degree of association | |
CN105099729B (zh) | 一种识别用户身份标识的方法和装置 | |
CN104951465B (zh) | 应用推荐方法及装置 | |
CN110896488B (zh) | 一种直播间的推荐方法以及相关设备 | |
CN107092650B (zh) | 一种网络日志分析方法及装置 | |
CN103647800A (zh) | 推荐应用资源的方法及系统 | |
CN108985954B (zh) | 一种建立各标识的关联关系的方法以及相关设备 | |
CN104408640B (zh) | 应用软件推荐方法及装置 | |
CN109462612B (zh) | 一种僵尸网络中的攻击域名的确定方法及装置 | |
CN110222790B (zh) | 用户身份识别方法、装置及服务器 | |
CN110876072B (zh) | 一种批量注册用户识别方法、存储介质、电子设备及系统 | |
CN110969172A (zh) | 一种文本的分类方法以及相关设备 | |
CN108076103A (zh) | 一种消息处理方法、系统及消息生产者集群 | |
CN105022807A (zh) | 信息推荐方法及装置 | |
CN110427358B (zh) | 数据清洗方法及装置和信息推荐方法及装置 | |
CN107229605B (zh) | 文本相似度的计算方法及装置 | |
CN108154024A (zh) | 一种数据检索方法、装置及电子设备 | |
CN110213209B (zh) | 一种推送信息点击的作弊检测方法、装置及存储介质 | |
CN107679236B (zh) | 一种热门内容池维护方法和装置 | |
CN111429920B (zh) | 用户区分方法、用户行为库确定方法、装置及设备 | |
CN111241821B (zh) | 确定用户的行为特征的方法和装置 | |
CN108463813A (zh) | 一种进行数据处理的方法和装置 | |
JP6481721B2 (ja) | ユーザアクセスログの関連付け方法、装置、システム、プログラム及び記録媒体 | |
CN107665247B (zh) | 一种物品召回方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200221 |