CN110717089A

CN110717089A - 一种基于网络日志的用户行为分析系统及方法

Info

Publication number: CN110717089A
Application number: CN201910801141.6A
Authority: CN
Inventors: 姜松浩; 王博; 凡文举; 赵丽; 孙晋龙; 孙发强; 武义涵
Original assignee: CHANGAN COMMUNICATION TECHNOLOGY Co Ltd; National Computer Network and Information Security Management Center
Current assignee: CHANGAN COMMUNICATION TECHNOLOGY Co Ltd; National Computer Network and Information Security Management Center
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2020-01-21

Abstract

本发明公开了一种基于网络日志的用户行为分析系统及方法。所述系统包括分布式数据采集模块、基于hdfs的多层数据清洗和管理模块、数据分析模块和网站显示页面模块。所述系统基于用户在互联网上的行为所产生的日志而开发的，该系统通过收集用户在互联网上的行为日志，对这些日志信息进行充分的分析与统计，得出用户在网络上的行为趋势及变动方向、网站资源的统计等方面的信息，实现对互联网用户、网站的量化以及个性化分析。

Description

一种基于网络日志的用户行为分析系统及方法

技术领域

本发明属于互联网领域，具体涉及一种基于网络日志的用户行为分析方法及系统。

背景技术

随着互联网的发展，在电子商务、电子政务、电子服务、休闲娱乐等各个领域都产生了大量的用户网站，用户在网络上浏览这些网站及页面的时候就会产生海量的行为日志，这些海量的日志信息包含了大量的隐藏价值，通过对用户行为信息的研究，可以从中发现用户在访问网站时所表现出来的规律、个性化的习惯等信息，从而为提升用户体验、精准营销、信息推送等提供科学、准确的依据，同时可以根据规律和用户行为偏好，对网站的页面布局、功能完善、系统架构做出更加优化的调整。针对用户行为的研究与应用，最有效的手段是记录用户的所有行为带来的全部用户行为信息，并对全部的用户行为信息进行统计、分析。但是用户的各种行为在网络上分散开来，目前很多国内外的用户行为分析系统都是基于部分网站的web日志进行的分析，针对大规模、不同类型的网站很难进行统一的分析与挖掘。

发明内容

针对背景技术中的问题，本发明提出了一种于网络日志的用户行为分析系统。本发明结合现有的分布式网络爬虫、云计算、知识发现等相关技术，实现了从分散的行为日志的获取，到各类别数据统一的清洗和数据结构的统一设计，再到原始数据的统一存储，进而使用大数据计算加算法分析的手段对数据进行处理，最终从庞大的用户行为信息中得出各行为之间的关系、发现突出的信号点，将这些看似分散的用户行为转化为有价值的数据产品。

为了实现上述目的，本发明的具体技术方案如下：

一种基于网络日志的用户行为分析系统，所述系统包括分布式数据采集模块、基于hdfs的多层数据清洗和管理模块、数据分析模块和网站显示页面模块；

所述分布式数据采集模块用于对各领域不同网站进行用户行为数据的抓取，构建成基本数据层；

所述基于hdfs的多层数据清洗和管理模块用于对不同领域数据的划分，针对数据特性，开发各自的数据清洗规则以及数据计算的算法；

所述数据分析模块用于根据细化到个体的数据进行统计分析，得出整个分类、领域、系统的宏观数据；

所述网站显示页面模块用于展示所述系统对所有用户行为分析之后的统计结果；

其中分布式数据采集模块作为该系统的数据来源，是整个系统的数据支撑模块，基于hdfs的多层数据清洗和管理模块是对分布式数据采集模块所提供的数据的深层次的清洗，形成规范化、统一性的数据来进行管理和存储，由数据分析模块对存储于hdfs之上清洗之后的数据进行统计分析，得出可用于网站显示的宏观数据。

作为一种优选的方案，所述分布式数据采集模块包括网络爬虫单元，所述网络爬虫单元用于获取用户在多个领域的行为路径数据；

所述分布式数据采集模块还包括自动报警单元，所述自动报警单元用于对爬虫数据进行实时监控。所述自动报警单元是在分布式爬虫系统之上kfaka和mongodb相结合开发的。

作为一种优选的方案，所述网站显示页面模块包括首页、系统覆盖数据的多角度展示页面、不同领域网站信息的分类展示页面、单个网站单个用户数据的搜索展示页面。

作为一种优选的方案，所述系统覆盖数据的多角度展示页面包括系统覆盖的网站量、用户量、分析的数据量、网站按领域划分的占比、用户的年龄分布和地域分布信息。

作为一种优选的方案，所述不同领域网站信息的分类展示页面包括每个领域下top10网站的详情信息以及对应每个网站的流量占比、活跃用户量、PV、UV、PR值。

单个网站流量和用户信息等维度数据的搜索展示页面可实现用户对网站的搜索浏览功能，可通过模糊查询的方式，对该系统中所覆盖的每一个网站进行查询，可查询到该网站在该系统中的用户量、热度、流量的环比值，用户的成分构成，网站热度的排名，网站详情信息，推荐用户群体等维度的数据，同样，单个用户数据可通过模糊查询的方式，对该系统中某一用户的详情信息进行查询，主要包含该用户的基本描述信息、访问网页的习惯，用户感兴趣网站，不同分类网站推荐等相关信息。

本发明的第二个目的是提供一种基于网络日志的用户行为分析方法，所述方法包括如下步骤：

(1)通过分布式数据采集模块，在网上对各领域不同网站进行用户行为数据的抓取，构建成基本数据层；

(2)通过对不同领域数据的划分，针对数据特性，开发各自的数据清洗规则以及数据计算的算法；

例如：电商行业是对访问商品价格、销售等情况的清洗；新闻类的网站访问就是对访问帖子信息异常的清洗；

(3)通过对用户行为信息的聚合分组、单用户行为数据的量化、多用户数据的分析、网站信息关系的组合、单网站数据的量化、多网站数据的分析、用户与网站之间的关联组合形成结构化数据；

(4)使用推荐算法，将用户对单个网站的浏览次数进行层次划分，形成网站浏览等级，通过对该网站所覆盖用户访问次数求和得出该网站总访问量，根据总访问量形成网站的排名顺序，网站浏览总数比网站排名得出网站热度，网站浏览等级乘以网站热度得出该用户对该网站的兴趣度，根据不同网站之间的网站描述，使用分词将描述进行分词，计算两者之间的交集和对称差集，交集比对称差集得出彼此之间的相似度，使用用户的兴趣度乘以该网站和用户浏览最高网站的相似度，得出推荐值，最后将推荐值进行归一化并排序取topN；

(5)根据形成的个体数据，使用大数据计算技术，对网站以及用户数据进行汇总，形成量化数据。

作为一种优选的方案，在步骤(2)中，在数据清洗时，对一个用户在多个网站、多个领域的行为信息进行聚合，最终一个用户在单次的数据分析流程中只保留一条数据，便于对用户进行个性化的分析；针对网站数据存储网站详情信息、网站所包含的用户ID两份数据。

作为一种优选的方案，在步骤(3)中，分别使用了基于用户的协同过滤和基于网站的协同过滤来进行用户和用户之间行为相似度、网站和网站之间描述相似度的分析，进而进行网站及用户的个性化推荐，以及为宏观的数据分析做基层的数据。

作为一种优选的方案，采用描述信息相似度算法对用户、网站相似度分析。

本发明通过实时获取主流电商、社交、文本、学术等平台上的每一个用户行为对应产生的每一个用户行为信息，构成本系统最原始的数据源，该数据系统包含了从最基本的衣食住行，到知识学习，再到精神层面需求的多层次数据，按照领域的划分，可以将人们的日常行为分为基础性行为、知识型行为、精神性行为，分别制定了各自的数据清洗规则，通过了解相关行业的各项指标以及历史变化等情况，训练出针对不同类型数据的计算规则和算法分析。

在基于网络日志的用户行为分析系统中，系统以文件或数据流的形式获得用户的行为日志；对于离线型的需求，该系统可以通过获取固定时间周期内的用户行为日志文件；对于实时型的需求，系统则以数据流的方式动态不间断采集当前正在发生的用户行为信息。该系统的基本数据层汇总网络服务的用户所产生的日志文件和数据流，获得海量的用户行为信息。进而，该系统中的大数据计算部分进行面向基本数据层所汇总的海量用户行为信息进行相应的数据结构调整和初步的计算分析。

该系统通过在用户及其行为之间建立对应联系，对数据进行预处理以及聚合操作，形成用户及其行为的本体，构成用户和行为信息之间的数据组，这样的数据组描述了用户与行为彼此之间所具有的有效信息，可以基于这些数据组来确定用户在互联网上的浏览路径信息，基于这些路径信息可以实现对用户行为信息的量化,通过对这些本体数据的推理，可以实现个体数据行为的界定与预判，进而实现全数据集的界定与预判。

以网站为研究对象，该系统将用户行为中所包含的网站根据ID等相关信息进行映射。在对网站数据进行统计与分析时，根据映射关系提取所需网站映射的用户行为数据，形成网站分析的基层数据，通过使用spark对该数据集进行产品层面的计算，实现对网站信息的量化。

通过该系统可以基于一系列具有关联性的用户行为进行用户归类、相似度计算、特征提取等操作，从行为事件分析、用户留存分析、用户行为路径分析、用户群体分析、点击分析等几个角度提供针对性更强、效率更高、用户体验更佳的信息推送、精准营销、趋势研究、行为变化等方面的网络服务与研究报告。

本发明的有益效果在于：

本发明结合分布式网络爬虫、云计算、知识发现等相关技术，实现了从分散的行为日志的获取，到各类别数据统一的清洗和数据结构的统一设计，再到原始数据的统一存储，进而使用大数据计算加算法分析的手段对数据进行处理，最终从庞大的用户行为信息中得出各行为之间的关系、发现突出的信号点，将这些看似分散的用户行为转化为有价值的数据产品。

附图说明

图1为网络爬虫单元的数据抓取程序技术架构图。

图2为本发明在网站上的业务规划图。

具体实施方式

下面结合附图以及实施例，对本发明的具体实施方案作详细的阐述。需要说明的是，在不存在冲突的情况下，实施例及其中的技术特征可相互组合。

在图1中可看到该系统最基础的数据层使用了网络爬虫单元进行互联网用户行为数据的采集，并自主开发了一套统一控制爬虫和数据收集上传的系统；在数据的采集过程中，通过对每台爬虫机器抓取数据的实时统计，将每台爬虫主机爬取的成功比例、数据量等维度进行汇总，可实现对整个爬虫健康状况的实时监控。在爬虫结束后，统一的数据收集上传系统会将分散到各个爬虫机器的数据分批次拉取到本地，然后根据时间序列将数据进行压缩上传至hdfs对应的目录中，在完成上传之后会在对应的目录下上传一个成功的标识。该网络爬虫单元具有的两个自动报警单元，其一是根据实时爬取的数据量以及数据的质量来进行判断是否进行报警，另一个是在爬虫结束后数据收集上传至hdfs后对上传成功标识的检测，如果数据在爬取或上传过程中有问题出现，该系统可及时将错误信息上报至对应的预警群，供负责人进行参考并做出相应的解决。

在图2中主要展示的是该发明在网站上的业务规划，最底层的数据来源由电商、文本、直播、教育、社交等各个领域的爬虫构成；基于爬虫数据设计出产品的数据字段、表结构等基层信息，针对整个平台全量数据设计数据维度包括总数据量的覆盖、平台构成组合、用户构成(分为地域和平台)、计算之后的数据存储在指定的数据库中供下一步网站展示使用，同时在elasticsearch中存储单个用户和网站的详情信息，供用户检索使用。

网站首页主要显示了网站总体的网站总数、用户数、该系统覆盖数据量、网站和用户的日/周/月/季度/年环比上涨量和上涨比例。

该系统中针对单个网站信息的多维度展示页面主要展示的是对整个系统中单个网站信息的查询，主要展示的是网站的入链、出链、用户留存率、用户地域分布、用户群体构成、覆盖数据量等信息。

在该系统中针对单个用户信息的多维度展示页面，主要是通过搜索某一用户的方式，展示该用户的基本信息，该用户的网络流量贡献值、用户的浏览行为偏好，每个领域推荐网站。

该系统中在进行对用户推荐网站时所使用的推荐算法如下：

其中，公式(1)中，S(w,v)表示两个网站的相似度，w和v表示两个网站，δ(w)和δ(v)表示网站w和网站v的网站描述，是两个句子，P(δ(w),δ(v))表示对网站描述计算相似度，值越大表示相似度越高。Ω(δ(w))表示句子δ(w)的分词集合，Ω(δ(v))表示句子δ(v)的分词集合，P(δ(w),δ(v))最大值为1，即两个分词集合完全相同时，最小值为0，即没有分词集合完全不相交。

公式(2)中P(u,w)表示用户u对w的兴趣度，u表示用户，R(u,v)表示用户u访问网站v的访问量，L是一个常数，

表示用户u对网站v的兴趣度，即与访问量正相关，R(v)表示网站w的总访问量，T(v)表示网站v的排名，

表示网站v的热度，即与总访问量正相关，与排名负相关，S(w,v)表示网站w和网站v的相似度，

表示与网站w的相似的网站集合，本发明中采用相似度大于0.5作为网站相似的阈值。

推荐算法的解析及实现步骤

1、分词算法

根据网站描述训练集数据构建自有字典集，构建方式为：

每个字作为key，以这个字为开头的词的集合作为value

在使用时，根据下标遍历描述文本

①从左向右取m个字符作为匹配字段，m为该字段起始值对应key的value当中最常元素的长度。

②判断截取的字段是否在起始下标的key的value中。若存在，则将这个匹配字段作为一个词切分出来。

③若不存在，则将这个字段的最后一个字去掉，剩下的字符串作为新的匹配字段，进行再次匹配，重复以上过程，直到切分出所有词为止。

2、与最常访问网站描述相似度

公式(1)中，P(δ(w),δ(ν))计算结果越大，相似度越高，如果两句话完全一致，则相似度为其中一句话的长度。以下采用a表示δ(w)，b表示δ(ν)。

a和b分别是两句话根据下标进行分割的集合，a∩b两个集合的交集，即出现的相同字的集合；a∪b为两个集合的并集。

例如：

句子1：登陆网站可进行购物信息查询；

句子2：购物信息可通过登陆网站的方式进行查询；

A＝[‘登陆’,’网站’,’可’,’进行’,’购物’,’信息’,’查询’]；

B＝[’购物’,’信息’,’可’,’通过’,’登陆’,’网站’,’的’,’方式’,’进行’,’查询’]；

a∩b＝[‘登陆’,’网站’,’可’,’进行’,’购物’,’信息’,’查询’]；

a∪b＝[‘登陆’,’网站’,’可’,’进行’,’购物’,’信息’,’查询’,’通过’,’的’,’方式’]；

P(a,b)＝P(δ(w),δ(ν))＝7/10＝0.7。

3、用户对网站的兴趣度：

在每个分类中，根据用户的总的浏览量将网站进行排名，该用户对该网站的浏览次数*该网站总访问量/该网站排名得出用户兴趣度，将兴趣度进行归一化。

公式(2)中R(u,v)为该用户对该网站v的访问量，L为用户访问量等级划分的层次数，R(v)为该网站总的访问量，T(v)为该网站的排名。为避免R(u,v)/L为0，导致计算结果为0，遂将用户等级默认值设为1，即R(u,v)/L+1。

在进行用户推荐时，由于该系统所覆盖数据量较大，所以在进行用户相似度计算之前会对用户群体进行相应的过滤，这本身就是一种相似用户群体的查找，根据层层筛选之后的用户数据使用基于用户活跃度和用户分级算法以及属性相似度算法，为该网站探寻目标用户。在进行网站推荐时，由于网站的数据群体是可控的、数据量是较少的，相比用户推荐的计算会省去群体的过滤步骤，直接对全量的网站进行基于网站认读和用户访问分级算法以及描述文本的相似度算法进行计算。

实施例：

表1中列出了某个用户访问的网站，网站1-3是相似的网站，网站4-6是相似的网站。根据公式可计算出用户对网站的访问等级，

计算得到网站偏好*热度，对相似网站求和得到总兴趣度。表2列出了网站相似度。

表1针对某用户的网站推荐示例

表2网站相似度

	网站1	网站2	网站3	网站4	网站5	网站6
							网站1	1	0.6	0.7	0.1	0.3	0.2
网站2	0.6	1	0.9	0.2	0.1	0.2
							网站3	0.7	0.9	1	0.3	0.1	0.1
网站4	0.1	0.2	0.3	1	0.6	0.9
							网站5	0.3	0.1	0.1	0.6	1	0.6
网站6	0.2	0.2	0.1	0.9	0.6	1

Claims

1.一种基于网络日志的用户行为分析系统，其特征在于，所述系统包括分布式数据采集模块、基于hdfs的多层数据清洗和管理模块、数据分析模块和网站显示页面模块；

所述基于hdfs的多层数据清洗和管理模块用于对所述分布式数据采集模块提供的不同领域数据进行划分，针对数据特性，开发各自的数据清洗规则以及数据计算的算法；

所述数据分析模块用于对存储于hdfs之上清洗之后的数据进行统计分析，得出整个分类、领域、系统的宏观数据；

所述网站显示页面模块用于展示所述数据分析模块提供的宏观数据。

2.根据权利要求1所述的基于网络日志的用户行为分析系统，其特征在于，所述分布式数据采集模块包括网络爬虫单元，所述网络爬虫单元用于获取用户在多个领域的行为路径数据。

3.根据权利要求2所述的基于网络日志的用户行为分析系统，其特征在于，所述网络爬虫单元包括自动报警单元，所述自动报警单元用于对爬虫数据进行实时监控。

4.根据权利要求1所述的基于网络日志的用户行为分析系统，其特征在于，所述网站显示页面模块包括首页、系统覆盖数据的多角度展示页面、不同领域网站信息的分类展示页面、单个网站单个用户数据的搜索展示页面。

5.根据权利要求4所述的基于网络日志的用户行为分析系统，其特征在于，所述系统覆盖数据的多角度展示页面包括系统覆盖的网站量、用户量、分析的数据量、网站按领域划分的占比、用户的年龄分布和地域分布信息。

6.根据权利要求4所述的基于网络日志的用户行为分析系统，其特征在于，所述不同领域网站信息的分类展示页面包括每个领域下top10网站的详情信息以及对应每个网站的流量占比、活跃用户量、PV、UV、PR值。

7.一种基于网络日志的用户行为分析方法，其特征在于，所述方法包括如下步骤：

(2)通过对不同领域数据的划分，针对数据特性以及行业规则，开发各自的数据清洗规则以及数据计算的算法；

8.根据权利要求7所述的基于网络日志的用户行为分析方法，其特征在于，在步骤(2)中，在数据清洗时，对一个用户在多个网站、多个领域的行为信息进行聚合，最终一个用户在单次的数据分析流程中只保留一条数据，便于对用户进行个性化的分析；针对网站数据存储网站详情信息、网站所包含的用户ID两份数据。

9.根据权利要求7所述的基于网络日志的用户行为分析方法，其特征在于，在步骤(4)中，分别使用了基于用户的协同过滤和基于网站的协同过滤来进行用户和用户之间行为相似度、网站和网站之间描述相似度的分析，进而进行网站及用户的个性化推荐，以及为宏观的数据分析做基层的数据。

10.根据权利要求9所述的基于网络日志的用户行为分析方法，其特征在于，采用描述信息相似度算法对用户、网站相似度分析。