CN108509426A - 一种深度多维度流量语义分析方法 - Google Patents

一种深度多维度流量语义分析方法 Download PDF

Info

Publication number
CN108509426A
CN108509426A CN201810320219.8A CN201810320219A CN108509426A CN 108509426 A CN108509426 A CN 108509426A CN 201810320219 A CN201810320219 A CN 201810320219A CN 108509426 A CN108509426 A CN 108509426A
Authority
CN
China
Prior art keywords
user
path
url
vector
session
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810320219.8A
Other languages
English (en)
Other versions
CN108509426B (zh
Inventor
董永娜
王婷
房鹏展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Focus Technology Co Ltd
Original Assignee
Southeast University
Focus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University, Focus Technology Co Ltd filed Critical Southeast University
Priority to CN201810320219.8A priority Critical patent/CN108509426B/zh
Publication of CN108509426A publication Critical patent/CN108509426A/zh
Application granted granted Critical
Publication of CN108509426B publication Critical patent/CN108509426B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0888Throughput

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Environmental & Geological Engineering (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种深度多维度流量语义分析方法,使用有监督的深度学习模型来训练网络获取url页面的特征向量,并综合考虑用户之间的语义关系来实现流量分析;对于网站日志的预处理,采用mapreduce筛选掉不符合条件的日志数据,其中包括爬虫日志数据和其他网站的数据;对于构建出来的浏览路径,设置阈值为n,筛选掉长度小于n的路径;对于网站url页面的文本处理,采用词向量的分布式表示方法得到url页面的向量,利用url页面嵌套来描述用户浏览行为的语义信息;采用聚类方法对用户的浏览路径进行聚类,通过聚类来分析用户的分布情况和用户群之间的差异,聚类使用t‑SNE降维来达到直观的向量空间聚类效果。

Description

一种深度多维度流量语义分析方法
技术领域
本发明涉及一种深度多维度流量语义分析技术,特别是大规模电商网站日志的多维度流量语义分布分析方法。
背景技术
现有的流量分析方法主要是基于统计的流量分析方法。基于统计的流量分析方法主要是在获得网站访问量基本数据的情况下对有关数据进行统计、分析。常用的流量统计数据主要有两种:传统的基于日志文件统计和基于脚本的统计。基于日志文件的统计通过分析网站后台的日志文件来统计访客的浏览和点击行为。基于脚本的统计需要在网站的html代码中嵌入一段脚本用于统计访客的浏览行为等。基于日志文件的统计处理方便,无需修改代码,并且可以收集网络的爬虫数据等,但是网站日志包含所有日志数据,需要预处理提升数据质量。基于脚本的统计技术难度低,但是无法统计网络爬虫的信息。基于统计的流量分析方法需要大量人工干预,耗费人力物力。近年来,深度学习在各个领域已经取得了较大的成功,利用深度学习实现流量分析将是一个很好的办法。
发明内容
本发明的目的是,为了克服现有的方法语义表示不完整以及需要大量的人力、物力的投入的缺点,提出一种深度多维度的流量语义分析技术,从语义上考虑网站页面之间的关系,通过使用有监督的深度学习模型来训练网络获取网页的特征向量,并综合考虑不同用户之间的浏览行为关系,在向量空间中显式的分析不同页面不同用户之间的关系。该方法既不需要人工的统计干预,处理简单,减少了人力,同时考虑了url页面之间的关系。该发明使用基于日志数据的深度流量分析方法,具有基于日志方法的优点。
为解决大规模日志数据的流量分析问题,本发明所使用的技术方案为:
一种深度多维度流量语义分析方法,其特征是使用有监督的深度学习模型来训练网络获取url页面的特征向量,并综合考虑用户之间的语义关系来实现流量分析;
对于网站日志的预处理,采用mapreduce筛选掉不符合条件的日志数据,其中包括爬虫日志数据和其他网站的数据,对于构建出来的浏览路径,设置阈值为5,筛选掉长度小于5的路径;
对于网站url页面的文本处理,采用词向量的分布式表示方法得到url页面的向量,利用url页面嵌套来描述用户浏览行为的语义信息;
采用聚类方法对用户的浏览路径进行聚类,通过聚类来分析用户的分布情况和用户群之间的差异,聚类使用t-SNE降维来达到直观的向量空间聚类效果;
然后将训练好的url词向量来作为网站的页面语义特征,多个页面特征连接在一起作为用户浏览路径的特征;之后通过t-SNE降维来对url页面和用户session(对象存储特定用户会话所需的信息)进行聚类。
进一步根据不同的维度筛选条件得到对应的session向量,进行流量分析,维度筛选条件可以是时间、国家,也可以是包含特定url的session向量。同样进行t-SNE降维进行条件聚类,分析不同情况下的流量分布情况。
具体的实现分为构建路径、词库构建、降维三个步骤;构建路径步骤是将用户的日志数据构建为时序的浏览行为路径,使用mapreduce构建路径;词库构建是将网站页面转换为词向量,使用tensorflow模型平台,采用负采样的方式提高训练速度;降维是将用户的session路径在向量空间中进行降维可视化,达到聚类的效果,可以直观的进行流量分析。
上述构建路径步骤在map阶段过滤掉不满足的url页面,其中包括不属于该网站的页面和爬虫页面等;reduce阶段根据用户的浏览请求页面时间识别出用户的会话序列,并设置长度大于5的路径才能作为真正的用户浏览路径。
面对网站庞大的数据,使用mapreduce的方法来处理网站的日志数据可以加快处理速度,同时可以轻松识别出用户的会话路径。
在词向量的训练中,页面url作为网络的输入,输出则是每一个url对应的向量;然后将用户的会话路径中包含的每一个url页面的向量进行相加得到该用户路径的语义表示session向量。
在词向量训练中,通过中心词来预测上下文中的词出现的概率,同时使用Negative Sampling的方法,对每一个训练样本增加固定数量的噪声,这样可以将词向量的多分类问题转换为二分类问题,将损失函数转换为最小化噪声的概率和最大化真实训练样本的概率。最后得到训练数据中的每一个的词向量表示,通过向量相加得到session向量。
上述的词向量的分布式表示相较于one-hot的方法能够表示出页面之间的语义相似性,在语义上相近的页面在向量空间中的位置距离也比较近,区别较大的页面之间距离较远,而one-hot的方法中的每个词向量表示都是空间中独立的点,页面与页面之间没有任何语义关系在其中。
得到用户的session后,可以通过选取特定的条件变量比如说时间、地区等,对不同时间、地区的用户行为向量进行t-SNE降维分析,在空间中进行自动聚类,分析哪些用户具有相似的行为,在空间中分析网站的流量分布情况,同时可以发现哪些时间段的用户访问量比较集中;除了时间和地区的条件变量,也可以选取包含特定网页的用户session向量,来分析针对该网页的流量分布进而推热点、改善等。
本发明的有益效果:利用mapreduce处理可观的日志数据得到用户的浏览路径,然后通过深度网络模型计算url页面的词向量表示,得到页面之间的相似性,将向量相加得到用户浏览路径,对用户的session向量进行降维得到向量空间中的聚类情况,分析网站的流量分布情况,挑选筛选条件,对特定的session向量进行降维,分析网站在不同时间、不同地区上的流量分布情况,着重特定时间地区的推广,同时对包含特定url页面的session向量进行分析,了解特定店铺的热点等信息。本发明是从多个维度考虑用户浏览路径的语义特征,相比之前的方法,不需要大量的人工干预,通过深度学习方法自动获取url页面和用户浏览路径的语义特征,适用于长时间段的日志数据多维度流量分析。用户的浏览行为具有语义特征,更能够找出相似用户,挖掘重点用户。尤其是在使用了有监督的学习方法来学习url页面的特征,使得该方法在大规模的日志数据下仍然通用。
附图说明
图1为整个系统流程图;
图2为路径构建流程图;
图3为词向量生成网络的具体实现;
图4为流量分析可视化流程图。
具体实施方式
下面结合附图对本发明进一步说明,如图所示,具体的实施部分分为路径构建和词库生成两个部分。在路径构建阶段主要是将离散的用户浏览行为构建成连续的具有时序关系的浏览路径。此步骤使用mapreduce来处理日志数据,在map阶段筛选掉不满足要求的url请求页面,在reduce阶段完成路径构建工作,筛选掉不满足要求的路径。主要流程如附图2所示。
在得到路径之后,需要构建词库。使用词向量来表示每个url页面的语义信息,词训练使用tensorflow平台,构建一个单层的神经网络,将浏览路径拆分为训练数据,输入是一批url页面,上下文窗口为5,为每一个真的样本构建100个负样本噪声加入训练,输出一个词库大小、向量维度的向量,主要的架构如附图3所示。
在训练完成后,将路径中的url向量进行相加得到每个用户的session向量,可以加入不同的筛选条件,在tensorboard上进行降维可视化,通过降维对用户的分布进行聚类,在每一条件变量下分析不同的流量分布。
本发明并不限于上述实施方式,采用与本发明上述实施实例相同或近似的结构,而得到的其它结构设计,均在本发明的保护范围之内。

Claims (10)

1.一种深度多维度流量语义分析方法,其特征是使用有监督的深度学习模型来训练网络获取url页面的特征向量,并综合考虑用户之间的语义关系来实现流量分析;
对于网站日志的预处理,采用mapreduce筛选掉不符合条件的日志数据,其中包括爬虫日志数据和其他网站的数据;对于构建出来的浏览路径,设置阈值为n,筛选掉长度小于n的路径;
对于网站url页面的文本处理,采用词向量的分布式表示方法得到url页面的向量,利用url页面嵌套来描述用户浏览行为的语义信息;
采用聚类方法对用户的浏览路径进行聚类,通过聚类来分析用户的分布情况和用户群之间的差异,聚类使用t-SNE降维来达到直观的向量空间聚类效果;
然后将训练好的url词向量来作为网站的页面语义特征,多个页面特征连接在一起作为用户浏览路径的特征;之后通过t-SNE降维来对url页面和用户session进行聚类;
进一步根据不同的维度筛选条件得到对应的session向量,进行流量分析,维度筛选条件是时间、国家,或包含特定url的session向量;同样进行t-SNE降维进行条件聚类,分析不同情况下的流量分布情况。
2.根据权利要求1所述的深度多维度流量语义分析方法,其特征是构建出来浏览路径,设置阈值为n=5。
3.根据权利要求1所述的深度多维度流量语义分析方法,其特征是实现分为构建路径、词库构建步骤;
构建路径步骤是:将网站的用户的日志数据构建为时序的浏览行为路径,使用mapreduce构建此路径;词库构建是将网站页面转换为词向量,使用tensorflow模型平台,采用负采样的方式提高词向量的训练速度;然后进行降维,降维是将用户的session路径在向量空间中进行降维可视化,达到聚类的效果,用于直观的流量分析。
4.根据权利要求3所述的深度多维度流量语义分析方法,其特征是上述构建路径步骤在map阶段过滤掉不满足的url页面,其中包括不属于该网站的页面和爬虫页面等;reduce阶段根据用户的浏览请求页面时间识别出用户的会话序列,并设置长度大于5的路径才能作为真正的用户浏览路径;
5.根据权利要求3所述的深度多维度流量语义分析方法,其特征是在词向量的训练中,页面url作为网络的输入,输出则是每一个url对应的向量;然后将用户的会话路径中包含的每一个url页面的向量进行相加得到该用户路径的语义表示session向量。
6.根据权利要求3所述的深度多维度流量语义分析方法,其特征是在词向量训练中,通过中心词来预测上下文中的词出现的概率,同时使用Negative Sampling的方法,对每一个训练样本增加固定数量的噪声,这样将词向量的多分类问题转换为二分类问题,将损失函数转换为最小化噪声的概率和最大化真实训练样本的概率;最后得到训练数据中的每一个的词向量表示,通过向量相加得到session向量。
7.根据权利要求6所述的深度多维度流量语义分析方法,其特征是得到用户的session后,通过选取特定的条件变量,包括时间、地区;对不同时间、地区的用户行为向量进行t-SNE降维分析,在空间中进行自动聚类,分析哪些用户具有相似的行为,在空间中分析网站的流量分布情况,同时发现哪些时间段的用户访问量比较集中;除了时间和地区的条件变量,也能选取包含特定网页的用户session向量,来分析针对该网页的流量分布进而推热点、改善。
8.根据权利要求3所述的深度多维度流量语义分析方法,其特征是利用mapreduce处理日志数据得到用户的浏览路径,然后通过深度网络模型计算url页面的词向量表示,得到页面之间的相似性,将向量相加得到用户浏览路径,对用户的session向量进行降维得到向量空间中的聚类情况,分析网站的流量分布情况,挑选筛选条件,对特定的session向量进行降维,分析网站在不同时间、不同地区上的流量分布情况,着重特定时间地区的推广,同时对包含特定url页面的session向量进行分析,了解特定店铺的热点信息;
在路径构建阶段主要是将离散的用户浏览行为构建成连续的具有时序关系的浏览路径;此步骤使用mapreduce来处理日志数据,在map阶段筛选掉不满足要求的url请求页面,在reduce阶段完成路径构建工作,筛选掉不满足要求的路径。
9.根据权利要求8所述的深度多维度流量语义分析方法,其特征是在得到路径之后,需要构建词库。使用词向量来表示每个url页面的语义信息,词训练使用tensorflow平台,构建一个单层的神经网络,将浏览路径拆分为训练数据,输入是一批url页面,上下文窗口为5,为每一个真的样本构建100个负样本噪声加入训练,输出一个词库大小、向量维度的向量。
10.根据权利要求8所述的深度多维度流量语义分析方法,其特征是在训练完成后,将路径中的url向量进行相加得到每个用户的session向量,加入不同的筛选条件,在tensorboard上进行降维可视化,通过降维对用户的分布进行聚类,在每一条件变量下分析不同的流量分布。
CN201810320219.8A 2018-04-11 2018-04-11 一种深度多维度流量语义分析方法 Active CN108509426B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810320219.8A CN108509426B (zh) 2018-04-11 2018-04-11 一种深度多维度流量语义分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810320219.8A CN108509426B (zh) 2018-04-11 2018-04-11 一种深度多维度流量语义分析方法

Publications (2)

Publication Number Publication Date
CN108509426A true CN108509426A (zh) 2018-09-07
CN108509426B CN108509426B (zh) 2019-03-26

Family

ID=63381504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810320219.8A Active CN108509426B (zh) 2018-04-11 2018-04-11 一种深度多维度流量语义分析方法

Country Status (1)

Country Link
CN (1) CN108509426B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143654A (zh) * 2019-12-25 2020-05-12 支付宝(杭州)信息技术有限公司 辅助识别爬虫的、爬虫识别方法、装置及电子设备
CN111143178A (zh) * 2019-12-12 2020-05-12 支付宝(杭州)信息技术有限公司 用户行为分析方法、装置及设备
CN112686050A (zh) * 2020-12-27 2021-04-20 北京明朝万达科技股份有限公司 基于潜在语义索引的上网行为分析方法、系统和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365924A (zh) * 2012-04-09 2013-10-23 北京大学 一种搜索信息的方法、装置和终端
CN104063523A (zh) * 2014-07-21 2014-09-24 焦点科技股份有限公司 一种电子商务搜索评分与排名的方法及系统
CN104951529A (zh) * 2015-06-16 2015-09-30 焦点科技股份有限公司 一种针对网站日志的交互式分析方法
CN106649616A (zh) * 2016-11-30 2017-05-10 四川用联信息技术有限公司 一种聚类算法实现搜索引擎关键词优化
CN106815248A (zh) * 2015-11-30 2017-06-09 北京国双科技有限公司 网站分析方法及装置
CN106933950A (zh) * 2017-01-22 2017-07-07 四川用联信息技术有限公司 新的模型聚类算法实现搜索引擎优化技术

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365924A (zh) * 2012-04-09 2013-10-23 北京大学 一种搜索信息的方法、装置和终端
CN104063523A (zh) * 2014-07-21 2014-09-24 焦点科技股份有限公司 一种电子商务搜索评分与排名的方法及系统
CN104951529A (zh) * 2015-06-16 2015-09-30 焦点科技股份有限公司 一种针对网站日志的交互式分析方法
CN106815248A (zh) * 2015-11-30 2017-06-09 北京国双科技有限公司 网站分析方法及装置
CN106649616A (zh) * 2016-11-30 2017-05-10 四川用联信息技术有限公司 一种聚类算法实现搜索引擎关键词优化
CN106933950A (zh) * 2017-01-22 2017-07-07 四川用联信息技术有限公司 新的模型聚类算法实现搜索引擎优化技术

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘馨婷 等: "一种基于词向量与框架语义分析的句子相似度计算方法", 《桂林电子科技大学学报》 *
周松松: "基于Mapreduce用户聚类算法在Web日志挖掘中应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143178A (zh) * 2019-12-12 2020-05-12 支付宝(杭州)信息技术有限公司 用户行为分析方法、装置及设备
CN111143178B (zh) * 2019-12-12 2022-07-29 支付宝(杭州)信息技术有限公司 用户行为分析方法、装置及设备
CN111143654A (zh) * 2019-12-25 2020-05-12 支付宝(杭州)信息技术有限公司 辅助识别爬虫的、爬虫识别方法、装置及电子设备
CN112686050A (zh) * 2020-12-27 2021-04-20 北京明朝万达科技股份有限公司 基于潜在语义索引的上网行为分析方法、系统和介质
CN112686050B (zh) * 2020-12-27 2023-12-05 北京明朝万达科技股份有限公司 基于潜在语义索引的上网行为分析方法、系统和介质

Also Published As

Publication number Publication date
CN108509426B (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN110188331A (zh) 模型训练方法、对话系统评价方法、装置、设备及存储介质
CN112365171B (zh) 基于知识图谱的风险预测方法、装置、设备及存储介质
CN105718587A (zh) 一种网络内容资源评估方法及评估系统
CN108509426B (zh) 一种深度多维度流量语义分析方法
CN107273295B (zh) 一种基于文本混乱度的软件问题报告分类方法
CN103605738A (zh) 网页访问数据统计方法及装置
CN103631828A (zh) 确定访问路径的方法和装置、确定页面流失率的方法和系统
CN107193915A (zh) 一种企业信息分类方法及装置
CN103942198B (zh) 用于挖掘意图的方法和设备
CN103810162A (zh) 推荐网络信息的方法和系统
CN104809252A (zh) 互联网数据提取系统
CN103440328B (zh) 一种基于鼠标行为的用户分类方法
Hostiadi et al. Dataset for Botnet group activity with adaptive generator
CN102567392A (zh) 一种基于时间窗口兴趣主题挖掘的控制方法
CN102999511A (zh) 一种页面快速转换方法、装置和系统
CN111198897A (zh) 科研热点主题分析方法、装置与电子设备
Skarpathiotaki et al. Cross-industry process standardization for text analytics
CN108027824B (zh) 未来脚本生成装置和方法、以及计算机可读存储介质
Wang et al. Data acquisition model for online learning activity in distance English teaching based on xAPI
Helske et al. Partnership formation and dissolution over the life course: applying sequence analysis and event history analysis in the study of recurrent events
CN109002561A (zh) 基于样本关键词学习的文本自动分类方法、系统及介质
CN104361061A (zh) 一种web页面信息感知采集方法
CN111160254A (zh) 一种适用于短视频推荐打散的分类方法及系统
CN105550279A (zh) 基于视觉的列表页识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant