CN108509426A - 一种深度多维度流量语义分析方法 - Google Patents
一种深度多维度流量语义分析方法 Download PDFInfo
- Publication number
- CN108509426A CN108509426A CN201810320219.8A CN201810320219A CN108509426A CN 108509426 A CN108509426 A CN 108509426A CN 201810320219 A CN201810320219 A CN 201810320219A CN 108509426 A CN108509426 A CN 108509426A
- Authority
- CN
- China
- Prior art keywords
- user
- path
- url
- vector
- session
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
- H04L43/0888—Throughput
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Environmental & Geological Engineering (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种深度多维度流量语义分析方法,使用有监督的深度学习模型来训练网络获取url页面的特征向量,并综合考虑用户之间的语义关系来实现流量分析;对于网站日志的预处理,采用mapreduce筛选掉不符合条件的日志数据,其中包括爬虫日志数据和其他网站的数据;对于构建出来的浏览路径,设置阈值为n,筛选掉长度小于n的路径;对于网站url页面的文本处理,采用词向量的分布式表示方法得到url页面的向量,利用url页面嵌套来描述用户浏览行为的语义信息;采用聚类方法对用户的浏览路径进行聚类,通过聚类来分析用户的分布情况和用户群之间的差异,聚类使用t‑SNE降维来达到直观的向量空间聚类效果。
Description
技术领域
本发明涉及一种深度多维度流量语义分析技术,特别是大规模电商网站日志的多维度流量语义分布分析方法。
背景技术
现有的流量分析方法主要是基于统计的流量分析方法。基于统计的流量分析方法主要是在获得网站访问量基本数据的情况下对有关数据进行统计、分析。常用的流量统计数据主要有两种:传统的基于日志文件统计和基于脚本的统计。基于日志文件的统计通过分析网站后台的日志文件来统计访客的浏览和点击行为。基于脚本的统计需要在网站的html代码中嵌入一段脚本用于统计访客的浏览行为等。基于日志文件的统计处理方便,无需修改代码,并且可以收集网络的爬虫数据等,但是网站日志包含所有日志数据,需要预处理提升数据质量。基于脚本的统计技术难度低,但是无法统计网络爬虫的信息。基于统计的流量分析方法需要大量人工干预,耗费人力物力。近年来,深度学习在各个领域已经取得了较大的成功,利用深度学习实现流量分析将是一个很好的办法。
发明内容
本发明的目的是,为了克服现有的方法语义表示不完整以及需要大量的人力、物力的投入的缺点,提出一种深度多维度的流量语义分析技术,从语义上考虑网站页面之间的关系,通过使用有监督的深度学习模型来训练网络获取网页的特征向量,并综合考虑不同用户之间的浏览行为关系,在向量空间中显式的分析不同页面不同用户之间的关系。该方法既不需要人工的统计干预,处理简单,减少了人力,同时考虑了url页面之间的关系。该发明使用基于日志数据的深度流量分析方法,具有基于日志方法的优点。
为解决大规模日志数据的流量分析问题,本发明所使用的技术方案为:
一种深度多维度流量语义分析方法,其特征是使用有监督的深度学习模型来训练网络获取url页面的特征向量,并综合考虑用户之间的语义关系来实现流量分析;
对于网站日志的预处理,采用mapreduce筛选掉不符合条件的日志数据,其中包括爬虫日志数据和其他网站的数据,对于构建出来的浏览路径,设置阈值为5,筛选掉长度小于5的路径;
对于网站url页面的文本处理,采用词向量的分布式表示方法得到url页面的向量,利用url页面嵌套来描述用户浏览行为的语义信息;
采用聚类方法对用户的浏览路径进行聚类,通过聚类来分析用户的分布情况和用户群之间的差异,聚类使用t-SNE降维来达到直观的向量空间聚类效果;
然后将训练好的url词向量来作为网站的页面语义特征,多个页面特征连接在一起作为用户浏览路径的特征;之后通过t-SNE降维来对url页面和用户session(对象存储特定用户会话所需的信息)进行聚类。
进一步根据不同的维度筛选条件得到对应的session向量,进行流量分析,维度筛选条件可以是时间、国家,也可以是包含特定url的session向量。同样进行t-SNE降维进行条件聚类,分析不同情况下的流量分布情况。
具体的实现分为构建路径、词库构建、降维三个步骤;构建路径步骤是将用户的日志数据构建为时序的浏览行为路径,使用mapreduce构建路径;词库构建是将网站页面转换为词向量,使用tensorflow模型平台,采用负采样的方式提高训练速度;降维是将用户的session路径在向量空间中进行降维可视化,达到聚类的效果,可以直观的进行流量分析。
上述构建路径步骤在map阶段过滤掉不满足的url页面,其中包括不属于该网站的页面和爬虫页面等;reduce阶段根据用户的浏览请求页面时间识别出用户的会话序列,并设置长度大于5的路径才能作为真正的用户浏览路径。
面对网站庞大的数据,使用mapreduce的方法来处理网站的日志数据可以加快处理速度,同时可以轻松识别出用户的会话路径。
在词向量的训练中,页面url作为网络的输入,输出则是每一个url对应的向量;然后将用户的会话路径中包含的每一个url页面的向量进行相加得到该用户路径的语义表示session向量。
在词向量训练中,通过中心词来预测上下文中的词出现的概率,同时使用Negative Sampling的方法,对每一个训练样本增加固定数量的噪声,这样可以将词向量的多分类问题转换为二分类问题,将损失函数转换为最小化噪声的概率和最大化真实训练样本的概率。最后得到训练数据中的每一个的词向量表示,通过向量相加得到session向量。
上述的词向量的分布式表示相较于one-hot的方法能够表示出页面之间的语义相似性,在语义上相近的页面在向量空间中的位置距离也比较近,区别较大的页面之间距离较远,而one-hot的方法中的每个词向量表示都是空间中独立的点,页面与页面之间没有任何语义关系在其中。
得到用户的session后,可以通过选取特定的条件变量比如说时间、地区等,对不同时间、地区的用户行为向量进行t-SNE降维分析,在空间中进行自动聚类,分析哪些用户具有相似的行为,在空间中分析网站的流量分布情况,同时可以发现哪些时间段的用户访问量比较集中;除了时间和地区的条件变量,也可以选取包含特定网页的用户session向量,来分析针对该网页的流量分布进而推热点、改善等。
本发明的有益效果:利用mapreduce处理可观的日志数据得到用户的浏览路径,然后通过深度网络模型计算url页面的词向量表示,得到页面之间的相似性,将向量相加得到用户浏览路径,对用户的session向量进行降维得到向量空间中的聚类情况,分析网站的流量分布情况,挑选筛选条件,对特定的session向量进行降维,分析网站在不同时间、不同地区上的流量分布情况,着重特定时间地区的推广,同时对包含特定url页面的session向量进行分析,了解特定店铺的热点等信息。本发明是从多个维度考虑用户浏览路径的语义特征,相比之前的方法,不需要大量的人工干预,通过深度学习方法自动获取url页面和用户浏览路径的语义特征,适用于长时间段的日志数据多维度流量分析。用户的浏览行为具有语义特征,更能够找出相似用户,挖掘重点用户。尤其是在使用了有监督的学习方法来学习url页面的特征,使得该方法在大规模的日志数据下仍然通用。
附图说明
图1为整个系统流程图;
图2为路径构建流程图;
图3为词向量生成网络的具体实现;
图4为流量分析可视化流程图。
具体实施方式
下面结合附图对本发明进一步说明,如图所示,具体的实施部分分为路径构建和词库生成两个部分。在路径构建阶段主要是将离散的用户浏览行为构建成连续的具有时序关系的浏览路径。此步骤使用mapreduce来处理日志数据,在map阶段筛选掉不满足要求的url请求页面,在reduce阶段完成路径构建工作,筛选掉不满足要求的路径。主要流程如附图2所示。
在得到路径之后,需要构建词库。使用词向量来表示每个url页面的语义信息,词训练使用tensorflow平台,构建一个单层的神经网络,将浏览路径拆分为训练数据,输入是一批url页面,上下文窗口为5,为每一个真的样本构建100个负样本噪声加入训练,输出一个词库大小、向量维度的向量,主要的架构如附图3所示。
在训练完成后,将路径中的url向量进行相加得到每个用户的session向量,可以加入不同的筛选条件,在tensorboard上进行降维可视化,通过降维对用户的分布进行聚类,在每一条件变量下分析不同的流量分布。
本发明并不限于上述实施方式,采用与本发明上述实施实例相同或近似的结构,而得到的其它结构设计,均在本发明的保护范围之内。
Claims (10)
1.一种深度多维度流量语义分析方法,其特征是使用有监督的深度学习模型来训练网络获取url页面的特征向量,并综合考虑用户之间的语义关系来实现流量分析;
对于网站日志的预处理,采用mapreduce筛选掉不符合条件的日志数据,其中包括爬虫日志数据和其他网站的数据;对于构建出来的浏览路径,设置阈值为n,筛选掉长度小于n的路径;
对于网站url页面的文本处理,采用词向量的分布式表示方法得到url页面的向量,利用url页面嵌套来描述用户浏览行为的语义信息;
采用聚类方法对用户的浏览路径进行聚类,通过聚类来分析用户的分布情况和用户群之间的差异,聚类使用t-SNE降维来达到直观的向量空间聚类效果;
然后将训练好的url词向量来作为网站的页面语义特征,多个页面特征连接在一起作为用户浏览路径的特征;之后通过t-SNE降维来对url页面和用户session进行聚类;
进一步根据不同的维度筛选条件得到对应的session向量,进行流量分析,维度筛选条件是时间、国家,或包含特定url的session向量;同样进行t-SNE降维进行条件聚类,分析不同情况下的流量分布情况。
2.根据权利要求1所述的深度多维度流量语义分析方法,其特征是构建出来浏览路径,设置阈值为n=5。
3.根据权利要求1所述的深度多维度流量语义分析方法,其特征是实现分为构建路径、词库构建步骤;
构建路径步骤是:将网站的用户的日志数据构建为时序的浏览行为路径,使用mapreduce构建此路径;词库构建是将网站页面转换为词向量,使用tensorflow模型平台,采用负采样的方式提高词向量的训练速度;然后进行降维,降维是将用户的session路径在向量空间中进行降维可视化,达到聚类的效果,用于直观的流量分析。
4.根据权利要求3所述的深度多维度流量语义分析方法,其特征是上述构建路径步骤在map阶段过滤掉不满足的url页面,其中包括不属于该网站的页面和爬虫页面等;reduce阶段根据用户的浏览请求页面时间识别出用户的会话序列,并设置长度大于5的路径才能作为真正的用户浏览路径;
5.根据权利要求3所述的深度多维度流量语义分析方法,其特征是在词向量的训练中,页面url作为网络的输入,输出则是每一个url对应的向量;然后将用户的会话路径中包含的每一个url页面的向量进行相加得到该用户路径的语义表示session向量。
6.根据权利要求3所述的深度多维度流量语义分析方法,其特征是在词向量训练中,通过中心词来预测上下文中的词出现的概率,同时使用Negative Sampling的方法,对每一个训练样本增加固定数量的噪声,这样将词向量的多分类问题转换为二分类问题,将损失函数转换为最小化噪声的概率和最大化真实训练样本的概率;最后得到训练数据中的每一个的词向量表示,通过向量相加得到session向量。
7.根据权利要求6所述的深度多维度流量语义分析方法,其特征是得到用户的session后,通过选取特定的条件变量,包括时间、地区;对不同时间、地区的用户行为向量进行t-SNE降维分析,在空间中进行自动聚类,分析哪些用户具有相似的行为,在空间中分析网站的流量分布情况,同时发现哪些时间段的用户访问量比较集中;除了时间和地区的条件变量,也能选取包含特定网页的用户session向量,来分析针对该网页的流量分布进而推热点、改善。
8.根据权利要求3所述的深度多维度流量语义分析方法,其特征是利用mapreduce处理日志数据得到用户的浏览路径,然后通过深度网络模型计算url页面的词向量表示,得到页面之间的相似性,将向量相加得到用户浏览路径,对用户的session向量进行降维得到向量空间中的聚类情况,分析网站的流量分布情况,挑选筛选条件,对特定的session向量进行降维,分析网站在不同时间、不同地区上的流量分布情况,着重特定时间地区的推广,同时对包含特定url页面的session向量进行分析,了解特定店铺的热点信息;
在路径构建阶段主要是将离散的用户浏览行为构建成连续的具有时序关系的浏览路径;此步骤使用mapreduce来处理日志数据,在map阶段筛选掉不满足要求的url请求页面,在reduce阶段完成路径构建工作,筛选掉不满足要求的路径。
9.根据权利要求8所述的深度多维度流量语义分析方法,其特征是在得到路径之后,需要构建词库。使用词向量来表示每个url页面的语义信息,词训练使用tensorflow平台,构建一个单层的神经网络,将浏览路径拆分为训练数据,输入是一批url页面,上下文窗口为5,为每一个真的样本构建100个负样本噪声加入训练,输出一个词库大小、向量维度的向量。
10.根据权利要求8所述的深度多维度流量语义分析方法,其特征是在训练完成后,将路径中的url向量进行相加得到每个用户的session向量,加入不同的筛选条件,在tensorboard上进行降维可视化,通过降维对用户的分布进行聚类,在每一条件变量下分析不同的流量分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810320219.8A CN108509426B (zh) | 2018-04-11 | 2018-04-11 | 一种深度多维度流量语义分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810320219.8A CN108509426B (zh) | 2018-04-11 | 2018-04-11 | 一种深度多维度流量语义分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108509426A true CN108509426A (zh) | 2018-09-07 |
CN108509426B CN108509426B (zh) | 2019-03-26 |
Family
ID=63381504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810320219.8A Active CN108509426B (zh) | 2018-04-11 | 2018-04-11 | 一种深度多维度流量语义分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108509426B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111143654A (zh) * | 2019-12-25 | 2020-05-12 | 支付宝(杭州)信息技术有限公司 | 辅助识别爬虫的、爬虫识别方法、装置及电子设备 |
CN111143178A (zh) * | 2019-12-12 | 2020-05-12 | 支付宝(杭州)信息技术有限公司 | 用户行为分析方法、装置及设备 |
CN112686050A (zh) * | 2020-12-27 | 2021-04-20 | 北京明朝万达科技股份有限公司 | 基于潜在语义索引的上网行为分析方法、系统和介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103365924A (zh) * | 2012-04-09 | 2013-10-23 | 北京大学 | 一种搜索信息的方法、装置和终端 |
CN104063523A (zh) * | 2014-07-21 | 2014-09-24 | 焦点科技股份有限公司 | 一种电子商务搜索评分与排名的方法及系统 |
CN104951529A (zh) * | 2015-06-16 | 2015-09-30 | 焦点科技股份有限公司 | 一种针对网站日志的交互式分析方法 |
CN106649616A (zh) * | 2016-11-30 | 2017-05-10 | 四川用联信息技术有限公司 | 一种聚类算法实现搜索引擎关键词优化 |
CN106815248A (zh) * | 2015-11-30 | 2017-06-09 | 北京国双科技有限公司 | 网站分析方法及装置 |
CN106933950A (zh) * | 2017-01-22 | 2017-07-07 | 四川用联信息技术有限公司 | 新的模型聚类算法实现搜索引擎优化技术 |
-
2018
- 2018-04-11 CN CN201810320219.8A patent/CN108509426B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103365924A (zh) * | 2012-04-09 | 2013-10-23 | 北京大学 | 一种搜索信息的方法、装置和终端 |
CN104063523A (zh) * | 2014-07-21 | 2014-09-24 | 焦点科技股份有限公司 | 一种电子商务搜索评分与排名的方法及系统 |
CN104951529A (zh) * | 2015-06-16 | 2015-09-30 | 焦点科技股份有限公司 | 一种针对网站日志的交互式分析方法 |
CN106815248A (zh) * | 2015-11-30 | 2017-06-09 | 北京国双科技有限公司 | 网站分析方法及装置 |
CN106649616A (zh) * | 2016-11-30 | 2017-05-10 | 四川用联信息技术有限公司 | 一种聚类算法实现搜索引擎关键词优化 |
CN106933950A (zh) * | 2017-01-22 | 2017-07-07 | 四川用联信息技术有限公司 | 新的模型聚类算法实现搜索引擎优化技术 |
Non-Patent Citations (2)
Title |
---|
刘馨婷 等: "一种基于词向量与框架语义分析的句子相似度计算方法", 《桂林电子科技大学学报》 * |
周松松: "基于Mapreduce用户聚类算法在Web日志挖掘中应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111143178A (zh) * | 2019-12-12 | 2020-05-12 | 支付宝(杭州)信息技术有限公司 | 用户行为分析方法、装置及设备 |
CN111143178B (zh) * | 2019-12-12 | 2022-07-29 | 支付宝(杭州)信息技术有限公司 | 用户行为分析方法、装置及设备 |
CN111143654A (zh) * | 2019-12-25 | 2020-05-12 | 支付宝(杭州)信息技术有限公司 | 辅助识别爬虫的、爬虫识别方法、装置及电子设备 |
CN112686050A (zh) * | 2020-12-27 | 2021-04-20 | 北京明朝万达科技股份有限公司 | 基于潜在语义索引的上网行为分析方法、系统和介质 |
CN112686050B (zh) * | 2020-12-27 | 2023-12-05 | 北京明朝万达科技股份有限公司 | 基于潜在语义索引的上网行为分析方法、系统和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108509426B (zh) | 2019-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103544255B (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN109299271B (zh) | 训练样本生成、文本数据、舆情事件分类方法及相关设备 | |
CN112365171B (zh) | 基于知识图谱的风险预测方法、装置、设备及存储介质 | |
CN105718587A (zh) | 一种网络内容资源评估方法及评估系统 | |
CN108509426B (zh) | 一种深度多维度流量语义分析方法 | |
CN107273295B (zh) | 一种基于文本混乱度的软件问题报告分类方法 | |
CN103605738A (zh) | 网页访问数据统计方法及装置 | |
CN111708774B (zh) | 一种基于大数据的产业分析系统 | |
CN104834739B (zh) | 互联网信息存储系统 | |
CN104809252A (zh) | 互联网数据提取系统 | |
Gu et al. | [Retracted] Application of Fuzzy Decision Tree Algorithm Based on Mobile Computing in Sports Fitness Member Management | |
CN109920476A (zh) | 基于混沌博弈算法的miRNA-疾病相关性预测方法 | |
CN117829096B (zh) | 一种基于数据资源的智慧终端显示系统 | |
CN103246655A (zh) | 一种文本分类方法、装置及系统 | |
CN103440328B (zh) | 一种基于鼠标行为的用户分类方法 | |
CN108628964A (zh) | 一种智能场景化企业大数据系统 | |
Hostiadi et al. | Dataset for Botnet group activity with adaptive generator | |
CN102567392A (zh) | 一种基于时间窗口兴趣主题挖掘的控制方法 | |
CN109858024A (zh) | 一种基于word2vec的房源词向量训练方法及装置 | |
CN102521402B (zh) | 文本过滤系统及方法 | |
CN114299196A (zh) | 海报自动生成方法及系统、存储介质、终端设备 | |
CN111198897A (zh) | 科研热点主题分析方法、装置与电子设备 | |
Skarpathiotaki et al. | Cross-industry process standardization for text analytics | |
CN112417267A (zh) | 一种用户行为分析方法、装置、计算机设备及存储介质 | |
Wang et al. | Data acquisition model for online learning activity in distance English teaching based on xAPI |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |