CN108509426A

CN108509426A - 一种深度多维度流量语义分析方法

Info

Publication number: CN108509426A
Application number: CN201810320219.8A
Authority: CN
Inventors: 董永娜; 王婷; 房鹏展
Original assignee: Southeast University; Focus Technology Co Ltd
Current assignee: Southeast University; Focus Technology Co Ltd
Priority date: 2018-04-11
Filing date: 2018-04-11
Publication date: 2018-09-07
Anticipated expiration: 2038-04-11
Also published as: CN108509426B

Abstract

一种深度多维度流量语义分析方法，使用有监督的深度学习模型来训练网络获取url页面的特征向量，并综合考虑用户之间的语义关系来实现流量分析；对于网站日志的预处理，采用mapreduce筛选掉不符合条件的日志数据，其中包括爬虫日志数据和其他网站的数据；对于构建出来的浏览路径，设置阈值为n，筛选掉长度小于n的路径；对于网站url页面的文本处理，采用词向量的分布式表示方法得到url页面的向量，利用url页面嵌套来描述用户浏览行为的语义信息；采用聚类方法对用户的浏览路径进行聚类，通过聚类来分析用户的分布情况和用户群之间的差异，聚类使用t‑SNE降维来达到直观的向量空间聚类效果。

Description

一种深度多维度流量语义分析方法

技术领域

本发明涉及一种深度多维度流量语义分析技术，特别是大规模电商网站日志的多维度流量语义分布分析方法。

背景技术

现有的流量分析方法主要是基于统计的流量分析方法。基于统计的流量分析方法主要是在获得网站访问量基本数据的情况下对有关数据进行统计、分析。常用的流量统计数据主要有两种：传统的基于日志文件统计和基于脚本的统计。基于日志文件的统计通过分析网站后台的日志文件来统计访客的浏览和点击行为。基于脚本的统计需要在网站的html代码中嵌入一段脚本用于统计访客的浏览行为等。基于日志文件的统计处理方便，无需修改代码，并且可以收集网络的爬虫数据等，但是网站日志包含所有日志数据，需要预处理提升数据质量。基于脚本的统计技术难度低，但是无法统计网络爬虫的信息。基于统计的流量分析方法需要大量人工干预，耗费人力物力。近年来，深度学习在各个领域已经取得了较大的成功，利用深度学习实现流量分析将是一个很好的办法。

发明内容

本发明的目的是，为了克服现有的方法语义表示不完整以及需要大量的人力、物力的投入的缺点，提出一种深度多维度的流量语义分析技术，从语义上考虑网站页面之间的关系，通过使用有监督的深度学习模型来训练网络获取网页的特征向量，并综合考虑不同用户之间的浏览行为关系，在向量空间中显式的分析不同页面不同用户之间的关系。该方法既不需要人工的统计干预，处理简单，减少了人力，同时考虑了url页面之间的关系。该发明使用基于日志数据的深度流量分析方法，具有基于日志方法的优点。

为解决大规模日志数据的流量分析问题，本发明所使用的技术方案为：

一种深度多维度流量语义分析方法，其特征是使用有监督的深度学习模型来训练网络获取url页面的特征向量，并综合考虑用户之间的语义关系来实现流量分析；

对于网站日志的预处理，采用mapreduce筛选掉不符合条件的日志数据，其中包括爬虫日志数据和其他网站的数据，对于构建出来的浏览路径，设置阈值为5，筛选掉长度小于5的路径；

对于网站url页面的文本处理，采用词向量的分布式表示方法得到url页面的向量，利用url页面嵌套来描述用户浏览行为的语义信息；

采用聚类方法对用户的浏览路径进行聚类，通过聚类来分析用户的分布情况和用户群之间的差异，聚类使用t-SNE降维来达到直观的向量空间聚类效果；

然后将训练好的url词向量来作为网站的页面语义特征，多个页面特征连接在一起作为用户浏览路径的特征；之后通过t-SNE降维来对url页面和用户session(对象存储特定用户会话所需的信息)进行聚类。

进一步根据不同的维度筛选条件得到对应的session向量，进行流量分析，维度筛选条件可以是时间、国家，也可以是包含特定url的session向量。同样进行t-SNE降维进行条件聚类，分析不同情况下的流量分布情况。

具体的实现分为构建路径、词库构建、降维三个步骤；构建路径步骤是将用户的日志数据构建为时序的浏览行为路径，使用mapreduce构建路径；词库构建是将网站页面转换为词向量，使用tensorflow模型平台，采用负采样的方式提高训练速度；降维是将用户的session路径在向量空间中进行降维可视化，达到聚类的效果，可以直观的进行流量分析。

上述构建路径步骤在map阶段过滤掉不满足的url页面，其中包括不属于该网站的页面和爬虫页面等；reduce阶段根据用户的浏览请求页面时间识别出用户的会话序列，并设置长度大于5的路径才能作为真正的用户浏览路径。

面对网站庞大的数据，使用mapreduce的方法来处理网站的日志数据可以加快处理速度，同时可以轻松识别出用户的会话路径。

在词向量的训练中，页面url作为网络的输入，输出则是每一个url对应的向量；然后将用户的会话路径中包含的每一个url页面的向量进行相加得到该用户路径的语义表示session向量。

在词向量训练中，通过中心词来预测上下文中的词出现的概率，同时使用Negative Sampling的方法，对每一个训练样本增加固定数量的噪声，这样可以将词向量的多分类问题转换为二分类问题，将损失函数转换为最小化噪声的概率和最大化真实训练样本的概率。最后得到训练数据中的每一个的词向量表示，通过向量相加得到session向量。

上述的词向量的分布式表示相较于one-hot的方法能够表示出页面之间的语义相似性，在语义上相近的页面在向量空间中的位置距离也比较近，区别较大的页面之间距离较远，而one-hot的方法中的每个词向量表示都是空间中独立的点，页面与页面之间没有任何语义关系在其中。

得到用户的session后，可以通过选取特定的条件变量比如说时间、地区等，对不同时间、地区的用户行为向量进行t-SNE降维分析，在空间中进行自动聚类，分析哪些用户具有相似的行为，在空间中分析网站的流量分布情况，同时可以发现哪些时间段的用户访问量比较集中；除了时间和地区的条件变量，也可以选取包含特定网页的用户session向量，来分析针对该网页的流量分布进而推热点、改善等。

本发明的有益效果：利用mapreduce处理可观的日志数据得到用户的浏览路径，然后通过深度网络模型计算url页面的词向量表示，得到页面之间的相似性，将向量相加得到用户浏览路径，对用户的session向量进行降维得到向量空间中的聚类情况，分析网站的流量分布情况，挑选筛选条件，对特定的session向量进行降维，分析网站在不同时间、不同地区上的流量分布情况，着重特定时间地区的推广，同时对包含特定url页面的session向量进行分析，了解特定店铺的热点等信息。本发明是从多个维度考虑用户浏览路径的语义特征，相比之前的方法，不需要大量的人工干预，通过深度学习方法自动获取url页面和用户浏览路径的语义特征，适用于长时间段的日志数据多维度流量分析。用户的浏览行为具有语义特征，更能够找出相似用户，挖掘重点用户。尤其是在使用了有监督的学习方法来学习url页面的特征，使得该方法在大规模的日志数据下仍然通用。

附图说明

图1为整个系统流程图；

图2为路径构建流程图；

图3为词向量生成网络的具体实现；

图4为流量分析可视化流程图。

具体实施方式

下面结合附图对本发明进一步说明，如图所示，具体的实施部分分为路径构建和词库生成两个部分。在路径构建阶段主要是将离散的用户浏览行为构建成连续的具有时序关系的浏览路径。此步骤使用mapreduce来处理日志数据，在map阶段筛选掉不满足要求的url请求页面，在reduce阶段完成路径构建工作，筛选掉不满足要求的路径。主要流程如附图2所示。

在得到路径之后，需要构建词库。使用词向量来表示每个url页面的语义信息，词训练使用tensorflow平台，构建一个单层的神经网络，将浏览路径拆分为训练数据，输入是一批url页面，上下文窗口为5，为每一个真的样本构建100个负样本噪声加入训练，输出一个词库大小、向量维度的向量，主要的架构如附图3所示。

在训练完成后，将路径中的url向量进行相加得到每个用户的session向量，可以加入不同的筛选条件，在tensorboard上进行降维可视化，通过降维对用户的分布进行聚类，在每一条件变量下分析不同的流量分布。

本发明并不限于上述实施方式，采用与本发明上述实施实例相同或近似的结构，而得到的其它结构设计，均在本发明的保护范围之内。

Claims

1.一种深度多维度流量语义分析方法，其特征是使用有监督的深度学习模型来训练网络获取url页面的特征向量，并综合考虑用户之间的语义关系来实现流量分析；

对于网站日志的预处理，采用mapreduce筛选掉不符合条件的日志数据，其中包括爬虫日志数据和其他网站的数据；对于构建出来的浏览路径，设置阈值为n，筛选掉长度小于n的路径；

然后将训练好的url词向量来作为网站的页面语义特征，多个页面特征连接在一起作为用户浏览路径的特征；之后通过t-SNE降维来对url页面和用户session进行聚类；

进一步根据不同的维度筛选条件得到对应的session向量，进行流量分析，维度筛选条件是时间、国家，或包含特定url的session向量；同样进行t-SNE降维进行条件聚类，分析不同情况下的流量分布情况。

2.根据权利要求1所述的深度多维度流量语义分析方法，其特征是构建出来浏览路径，设置阈值为n＝5。

3.根据权利要求1所述的深度多维度流量语义分析方法，其特征是实现分为构建路径、词库构建步骤；

构建路径步骤是：将网站的用户的日志数据构建为时序的浏览行为路径，使用mapreduce构建此路径；词库构建是将网站页面转换为词向量，使用tensorflow模型平台，采用负采样的方式提高词向量的训练速度；然后进行降维，降维是将用户的session路径在向量空间中进行降维可视化，达到聚类的效果，用于直观的流量分析。

4.根据权利要求3所述的深度多维度流量语义分析方法，其特征是上述构建路径步骤在map阶段过滤掉不满足的url页面，其中包括不属于该网站的页面和爬虫页面等；reduce阶段根据用户的浏览请求页面时间识别出用户的会话序列，并设置长度大于5的路径才能作为真正的用户浏览路径；

5.根据权利要求3所述的深度多维度流量语义分析方法，其特征是在词向量的训练中，页面url作为网络的输入，输出则是每一个url对应的向量；然后将用户的会话路径中包含的每一个url页面的向量进行相加得到该用户路径的语义表示session向量。

6.根据权利要求3所述的深度多维度流量语义分析方法，其特征是在词向量训练中，通过中心词来预测上下文中的词出现的概率，同时使用Negative Sampling的方法，对每一个训练样本增加固定数量的噪声，这样将词向量的多分类问题转换为二分类问题，将损失函数转换为最小化噪声的概率和最大化真实训练样本的概率；最后得到训练数据中的每一个的词向量表示，通过向量相加得到session向量。

7.根据权利要求6所述的深度多维度流量语义分析方法，其特征是得到用户的session后，通过选取特定的条件变量，包括时间、地区；对不同时间、地区的用户行为向量进行t-SNE降维分析，在空间中进行自动聚类，分析哪些用户具有相似的行为，在空间中分析网站的流量分布情况，同时发现哪些时间段的用户访问量比较集中；除了时间和地区的条件变量，也能选取包含特定网页的用户session向量，来分析针对该网页的流量分布进而推热点、改善。

8.根据权利要求3所述的深度多维度流量语义分析方法，其特征是利用mapreduce处理日志数据得到用户的浏览路径，然后通过深度网络模型计算url页面的词向量表示，得到页面之间的相似性，将向量相加得到用户浏览路径，对用户的session向量进行降维得到向量空间中的聚类情况，分析网站的流量分布情况，挑选筛选条件，对特定的session向量进行降维，分析网站在不同时间、不同地区上的流量分布情况，着重特定时间地区的推广，同时对包含特定url页面的session向量进行分析，了解特定店铺的热点信息；

在路径构建阶段主要是将离散的用户浏览行为构建成连续的具有时序关系的浏览路径；此步骤使用mapreduce来处理日志数据，在map阶段筛选掉不满足要求的url请求页面，在reduce阶段完成路径构建工作，筛选掉不满足要求的路径。

9.根据权利要求8所述的深度多维度流量语义分析方法，其特征是在得到路径之后，需要构建词库。使用词向量来表示每个url页面的语义信息，词训练使用tensorflow平台，构建一个单层的神经网络，将浏览路径拆分为训练数据，输入是一批url页面，上下文窗口为5，为每一个真的样本构建100个负样本噪声加入训练，输出一个词库大小、向量维度的向量。

10.根据权利要求8所述的深度多维度流量语义分析方法，其特征是在训练完成后，将路径中的url向量进行相加得到每个用户的session向量，加入不同的筛选条件，在tensorboard上进行降维可视化，通过降维对用户的分布进行聚类，在每一条件变量下分析不同的流量分布。