CN106886577B

CN106886577B - 一种多维度网页浏览行为评估方法

Info

Publication number: CN106886577B
Application number: CN201710054675.8A
Authority: CN
Inventors: 朱全银; 潘舒新; 冯万利; 李翔; 贾笑颖; 胡荣林; 周泓; 于柿民; 赵阳; 瞿学新; 杨茂灿; 唐海波; 邵武杰
Original assignee: Huaiyin Institute of Technology
Current assignee: Huai'an Jinyun Network Technology Co.,Ltd.
Priority date: 2017-01-24
Filing date: 2017-01-24
Publication date: 2020-02-07
Anticipated expiration: 2037-01-24
Also published as: CN106886577A

Abstract

本发明公开了一种多维度网页浏览行为评估方法，首先对搜狗语料库中的文本分词，以TF‑IDF作为文本特征，采用朴素贝叶斯方法对语料库进行训练得到文本训练集，将搜狗语料库中的文本折半切分，得到验证测试集，通过遍历得到最优拉普拉斯平滑参数Alpha，再爬取已浏览网页的指定文本内容，得到已浏览网页标题集，接着采用Alpha的朴素贝叶斯方法对已浏览网页标题集进行分类，得到已浏览网页分类集，并将大于阈值的网页信息加入文本训练集中，利用浏览网页时的停留时间、浏览终端等多维度数据，采用终端‑时间‑分类判别方法对网页浏览数据进行评估，得到评估结果。本发明方法有效分析了网页浏览信息，提高了网页浏览行为评估的准确度。

Description

一种多维度网页浏览行为评估方法

技术领域

本发明属于网页浏览行为分析技术领域，特别涉及一种基于TF-IDF和朴素贝叶斯多维度的网页浏览行为评估方法。

背景技术

浏览网页行为评估方法对实现人员的行为习惯分析有着重要的作用和意义。传统的网页浏览分析由问卷调查的方法已经不能满足社会信息化发展的需求。近年来针对不同种类人群的网络行为分析，研究者提出了相应的分析方法，如神经网络、支持向量机、决策树、KNN方法、遗传方法等。

朱全银、贾笑颖等人已有的研究基础包括：朱全银，严云洋，周培，谷天峰.一种基于线性插补与自适应滑动窗口的商品价格预测模型.山东大学学报.2012,Vol.42(5):53-58；朱全银,潘禄,刘文儒,等.Web科技新闻分类抽取方法[J].淮阴工学院学报,2015,24(5):18-24；李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759；Quanyin Zhu,Sunqun Cao.A Novel Classifier-independentFeature Selection Algorithm for Imbalanced Datasets.2009,p:77-82；Quanyin Zhu,Yunyang Yan,Jin Ding,Jin Qian.The Case Study for Price Extracting of MobilePhone Sell Online.2011,p:282-285；Quanyin Zhu,Suqun Cao,Pei Zhou,Yunyang Yan,Hong Zhou.Integrated Price Forecast based on Dichotomy Backfilling andDisturbance Factor Algorithm.International Review on Computers and Software,2011,Vol.6(6):1089-1093；Zhu Quan-yin,Yin Yonghua,Yan Yun-yang,Gu Tian-feng.ANovel Efficient AdaptiveSliding Window Model for Week-ahead Price Forecasting.TELKOMNIKAIndonesian Journal of Electrical Engineering.2014.Vol.12(3):2219-2226；Zhu Quanyin,Pan Lu,Yin Yonghua LiXiang.Influence on Normalizationand Magnitude Normalization for PriceForecasting of AgriculturalProducts.Information Technology Journal(ITJ).2013.Vol.12(15):3046-3057；Quanyin Zhu,Jin Ding,Yonghua Yin,Pei Zhou.A Hybrid Approach for New ProductsDiscovery of Cell Phone Based on Web Mining.Journal of Information andComputational Science(JICS).2012,Vol.9(16):5039-5046。朱全银、贾笑颖等人申请、公开与授权的相关专利：朱全银，尹永华，严云杨，曹苏群等，一种基于神经网络的多品种商品价格预测的数据预处理方法.中国专利：ZL 201210325368.6,2016.06.08；朱全银，胡蓉静，何苏群，周培等.一种基于线性插补与自适应滑动窗口的商品价格预测方法.中国专利:ZL201110423015.5,2015.07.01；朱全银，曹苏群，严云洋，胡蓉静等，一种基于二分数据修补与扰乱因子的商品价格预测方法.中国专利:ZL201110422274.6,2015.07.01；朱全银，辛诚，李翔，潘舒新等，一种基于K-means和LDA双向验证的网络行为习惯聚类方法.中国专利公开号：CN106202480A,2016.12.07；朱全银，辛诚，刘斌，潘舒新等，一种基于分类语料库-关键词词频-记录关联的网络行为习惯量化方法.中国专利公开号CN106202498A,2016.12.07；李翔，朱全银，胡荣林，周泓.一种基于谱聚类的冷链物流配载智能推荐方法.中国专利公开号:CN105654267A,2016.06.08。

TF-IDF：

TF-IDF(Term Frequency–Inverse Document Frequency)是一种用于资讯检索与文本挖掘的常用加权技术。在一份给定的文件里，词频(Term Frequency，TF)指的是某一个给定的词语在该文件中出现的次数；逆向文件频率(Inverse Document Frequency，IDF)是一个词语普遍重要性的度量，某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

朴素贝叶斯方法：

朴素贝叶斯方法是文本分类的一种热门方法，文本分类是以词频为特征判断文件所属类别或其他的问题。朴素贝叶斯分类器是一系列以假设特征之间强独立下运用贝叶斯定理为基础的简单概率分类器。朴素贝叶斯分类器是高度可扩展的，因此需要数量与学习问题中的变量(特征/预测器)成线性关系的参数。最大似然训练可以通过评估一个封闭形式的表达式来完成，只需花费线性时间，而不需要其他很多类型的分类器所使用的费时的迭代逼近。

拉普拉斯平滑参数：

拉普拉斯平滑(Lamplace Smoothing)是一种比较常用的平滑方法，用于解决零概率问题。所谓的零概率问题，就是在计算新实例的概率时，如果某个分量在训练集中从没出现过，会导致整个实例的概率计算结果为0。针对这种情况，使用拉普拉斯平滑值后，在计算数据的最大似然估计时，会在计算公式中加上取值范围的大小，从而修正朴素贝叶斯算法，避免了零概率的出现。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种减少网页浏览数据量，节约时间；能够准确反映人员的网页浏览行为的多维度网页浏览行为评估方法。

技术方案：为解决上述技术问题，本发明提供的一种多维度网页浏览行为评估方法，包括如下步骤：

步骤一：对搜狗语料库中的文本分词，计算词语的词频TF和逆向文件概率IDF作为文本特征，采用朴素贝叶斯方法对语料库进行文本分类训练，得到文本训练集，对搜狗语料库中的文本折半切分，得到验证测试集，通过遍历，得到最优拉普拉斯平滑参数Alpha；

步骤二：通过一种改进型的自适应网页爬取方法，对待处理的网页浏览数据进行标题数据的爬取，得到处理后的已浏览网页标题集；

步骤三：对步骤二中处理后的已浏览网页标题集进行分词，得到网页分词集，使用步骤一中的拉普拉斯平滑参数Alpha的朴素贝叶斯方法对网页分词集进行分类，得到已浏览网页分类集，设置网页类型判断阈值，将大于阈值的网页分词集加入文本训练集中；

步骤四：对处理后的网页分类、浏览时间、浏览终端等网页浏览数据进行预处理，采用终端-时间-分类判别方法对处理后的网页浏览数据进行评估，得到网页浏览行为评估结果。

进一步的，所述步骤一中得到最优拉普拉斯平滑参数Alpha的具体方法为：

步骤1.1：定义网页分类类型、搜狗语料库文本类型和停用词；

步骤1.2：对搜狗语料库中的文本进行分词并且剔除停用词；

步骤1.3：计算分词后文本词语的词频TF和逆向文件概率IDF；

步骤1.4：以TF-IDF作为文本特征，使用朴素贝叶斯方法训练搜狗语料库中的文本，得到文本训练集；

步骤1.5：将搜狗语料库中的文本折半拆分，作为验证测试集，通过遍历，得到使用朴素贝叶斯方法时的最优拉普拉斯平滑参数Alpha。

进一步的，所述步骤二中得到处理后的已浏览网页标题集的具体方法为：

步骤2.1：定义已浏览网页地址集、网页停用词集和已浏览网页标题集；

步骤2.2：将已浏览网页地址集中的URL按照目录分隔符“/”进行切割，得到处理后的URL，使用网页爬取程序按照从右至左依次爬取URL，获取网页中的title、description和keywords，并且剔除网页停用词；

步骤2.3：当爬取到最后一个URL时，将URL按照域名分隔符“.”进行切割，得到处理后的URL，使用网页爬取程序按照从左至右依次爬取URL，获取网页中的title、description和keywords，并且剔除网页停用词；

步骤2.4：将步骤2.2和步骤2.3中得到的网页数据加入到网页标题集中，得到处理后的已浏览网页标题集。

进一步的，所述步骤三中得到已浏览网页分类集，并通过阈值判断重新对文本训练集进行训练的具体方法为：

步骤3.1：定义网页类型判断阈值为0.82；

步骤3.2：对处理好的已浏览网页标题集进行分词，得到网页标题分词集，使用拉普拉斯平滑参数为Alpha的朴素贝叶斯方法对网页进行分类，得到已浏览网页分类集和对应的网页类型召回率集；

步骤3.3：将召回率大于网页类型判断阈值的网页分词集加入到文本训练集中，重新对文本训练集进行训练。

进一步的，所述步骤四中得到网页浏览行为评估结果的具体方法为：

步骤4.1：定义浏览网页时的停留时间集、浏览终端集、网页有效浏览集、网页无效浏览集和网页数据信息集；

步骤4.2：对不同终端浏览不同类型的网站的停留时间设置有效阈值，得到网页浏览有效阈值集；

步骤4.3：判断网页数据信息是否大于对应的有效阈值，如果大于阈值，将对应的网页分类信息加入到网页有效浏览集中；否则加入到网页无效浏览集中；

步骤4.4：统计网页有效浏览集中每种网页类型的数量，得到数量最多的前三种网页类型，即为网页浏览行为评估结果。

与现有技术相比，本发明的优点在于：

本发明方法利用网页浏览数据，有效的分析了网页浏览行为，增加了网页浏览行为评估的准确性，具体的：本发明利用网页浏览数据进行数据挖掘，首先使用朴素贝叶斯方法对搜狗语料库中的文本进行训练，得到文本训练集并通过遍历得到最优拉普拉斯平滑参数Alpha，然后使用脚本爬取网页浏览数据集中的URL，获取网页中的指定内容，并将其进行分词，使用拉普拉斯平滑参数为Alpha的朴素贝叶斯方法对网页进行分类，得到已浏览网页分类集，引入浏览网页时的停留时间、浏览终端数据，针对不同终端浏览不同类型的网页设定有效停留时间阈值，对网页浏览数据进行判断，得到网页有效浏览集，统计有效浏览网页类型数量最多的前三项即为网页浏览行为的评估结果。本发明有效的分析了网页浏览数据，增加了网页浏览行为评估的准确性。此外，本发明创造性地提出了一种自适应性网页爬取方法用于获取网页的标题内容，提高了网页爬取的抓全率。

附图说明

图1为本发明的总体流程图；

图2为图1中文本分词和遍历搜索最优平滑参数方法的流程图；

图3为图1中使用自适应性网页爬取方法获取网页标题的流程图；

图4为图1中网页分类的流程图；

图5为图1中采用多维度数据对网页浏览信息进行分析的流程图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明。

本发明包括如下步骤：

步骤一：对搜狗语料库中的文本分词，计算词语的词频TF和逆向文件概率IDF并作为文本特征，采用朴素贝叶斯方法对语料库进行文本分类训练，得到文本训练集，对搜狗语料库中的文本折半切分，得到验证测试集，通过遍历，得到最优拉普拉斯平滑参数Alpha，具体的如图2所示：

步骤1.1：定义CATE₁,CATE₂,CATE₃,CATE₄,CATE₅,CATE₆,CATE₇,CATE₈,CATE₉分别为财经、互联网、健康、教育、军事、旅游、体育、文化和其他类别文本集，定义SougouC为搜狗语料库集，SougouC＝{CATE₁，CATE₂,…,CATE₉}，CATE_i＝{txt_i1,txt_i2,…,txt_in}，其中，txt_in为CATE_i文本集中的第n篇文本，i∈[1,9]，n∈[1,1990]；

步骤1.2：定义文本停用词集SWORD＝{sword₁,sword₂,…,word_sw}；

步骤1.3：对步骤1.1得到的CATE_i中的文本进行分词，得到文本分类词语集PCATE＝{PCA₁,PCA₂,…PCA₉}，其中，PCA_i＝{wrod₁,word₂,…,word_k}，i∈[1,9]；

步骤1.4：从PCATE中剔除步骤1.2中定义的SOWRD，得到新的文本分类词语集NPCATE＝PCATE-SOWRD；

步骤1.5：计算NPCATE的词语频数和逆向文件概率，分别得到词语频数集TF和逆向文件概率集IDF；

步骤1.6：将TF-IDF作为数据分类的文本特征，使用朴素贝叶斯方法对步骤1.4得到的NPCATE进行训练，得到文本训练集CLF；

步骤1.7：将步骤1.1中的CATE_i文本折半切分，得到验证测试集NTEST_e＝{txt_e1,txt_e2,…,txt_ew}，其中，txt_ew为NTEST_e文本集中的第w篇文本，e∈[1,9]，w∈[1,995]；

步骤1.8：定义拉普拉斯平滑参数Alpha和判断变量SD，均赋初值为0；

步骤1.9：当Alpha<＝1时，执行步骤1.10；否则执行步骤1.13；

步骤1.10：使用朴素贝叶斯方法对步骤1.7中得到的NTEST进行分类，得到待测文本召回率Recall；

步骤1.11：将分类结果与CATE中的文本比较，得到分类召回率PER，如果Recall>PER，则SD＝Alpha；

步骤1.12：Alpha＝Alpha+0.1；

步骤1.13：得到最优拉普拉斯平滑参数Alpha＝SD。

步骤二：通过一种改进型的自适应网页爬取方法，对待处理的网页浏览数据进行标题数据的爬取，得到处理后的已浏览网页标题集，具体的如图3所示：

步骤2.1：定义已浏览网页地址集WE＝{web₁,web₂,…,web_dr}，定义网页停用词集WR＝{wword₁,wword₂,…,wword_ro}，定义已浏览网页标题集WT＝{webt₁,webt₂,…,webt_dr}；

步骤2.2：定义循环变量n，用于遍历步骤2.1中的WE，web_n为WE中第n个网页，其中，n赋初值为1；

步骤2.3：当循环变量n<＝dr时，执行步骤2.4；否则执行步骤2.15；

步骤2.4：去除URL中web_n的前缀’http://’和’www.’，定义URL中的目录分隔符’/’的数量为NUM，将URL按照目录分隔符’/’切分为WS＝{webs₁,webs₂,…,webs_ws}，其中，ws＝LNUM+1，定义采用本步骤处理后的URL为NWS_ws＝webs₁+webs₂+…+webs_ws；

步骤2.5：定义循环变量wn，用来遍历步骤2.4中的NWS，其中NWS_wn为NWS中第wn个网页，其中，wn赋初值为ws；

步骤2.6：当循环变量wn>1时，执行步骤2.7；否则执行步骤2.9；

步骤2.7：使用脚本爬取URL NWS_wn中title、description、keywords的字符串，得到网页标题集webt＝{title,description,keywords}-WR；

步骤2.8：wn＝wn-1；

步骤2.9：定义URL中NWS_wn中域名分隔符’.’的数量为DNUM，根据域名分隔符‘.’将URL切分为OWS＝{owebs₁，owebs₂,…,owebs_so},其中，so＝DNUM+1，定义采用本步骤处理后得到的URL为OWS_so＝owebs₁+owebs₂+…+owebs_so；

步骤2.10：定义循环变量ws用来遍历步骤2.9中的OWS，其中OWS_ws为OWS中第ws个网页，其中，ws赋初值so；

步骤2.11：当循环变量ws>2时，执行步骤2.12；否则执行步:2.14；

步骤2.12：使用脚本爬取URL OWS_wf中title、description、keywords的字符串，得到网页标题集webt＝{title,description,keywords}-WR；

步骤2.13：ws＝ws-1；

步骤2.14：n＝n+1；

步骤2.15：得到处理后的已浏览网页标题集WT＝{webt₁,webt₂,…,webt_dr}；

步骤三：对处理后的已浏览网页标题集进行分词，得到网页分词集，使用拉普拉斯平滑参数为Alpha的朴素贝叶斯方法对网页分词集进行分类，得到已浏览网页分类集，设置网页类型判断阈值，将大于阈值的网页分词集加入文本训练集中，具体的如图4所示：

步骤3.1：定义网页类型判断阈值Beta＝0.82；

步骤3.2：将步骤2.15得到的已浏览网页标题集WT进行分词，得到网页标题分词集WPT＝{webword₁,webword₂,…,webword_dr}，其中，webword_dr＝{eword₁,eword₂,…,eword_s}；

步骤3.3：使用拉普拉斯平滑参数为Alpha的朴素贝叶斯方法对步骤3.2中得到的WPT进行分类，得到已浏览网页分类集WC＝{wc₁,wc₂,…,wc_dr}，以及对应的网页类型召回率WP＝{wp₁,wp₂,…,wp_dr}；

步骤3.4：定义循环变量k用于遍历步骤3.3中的WP，WP_k为WP中第k的网页的准确率，其中，k赋初值为1；

步骤3.5：当循环变量k<dr时，执行步骤3.6；否则执行步骤3.9；

步骤3.6：当循环变量wp_k>Beta时，执行步骤3.7；否则执行步骤3.8；

步骤3.7：将对应的webword_k加入步骤1.6得到的文本训练集CLF中，重新对文本训练集进行训练；

步骤3.8：k＝k+1；

步骤3.9：得到处理后的已浏览网页分类集WC＝{webc₁,webc₂,…,webc_dr}；

步骤四：对处理后的网页分类、浏览时间、浏览终端等网页浏览数据进行预处理，采用终端-时间-分类判别方法对处理后的网页浏览数据进行评估，得到网页浏览行为评估结果，具体的如图5所示：

步骤4.1：定义浏览网页时的停留时间集和浏览终端集分别为WM＝{webme₁,webme₂,…,webme_dr}，WD＝{webd₁,webd₂,…,webd_dr}，其中，webme_dr为浏览网页web_dr所用的时间，webd_dr为浏览网页web_dr时所使用的终端设备；

步骤4.2：定义网页数据信息集IWF＝WM+WD+WC；

步骤4.3：定义网页有效浏览集和网页无效浏览集分别为TSU和NTSU；

步骤4.4：定义网页浏览有效阈值集JUA＝{jua_1,1,1,jua_1,1,2,…,jua_j,u,a}，其中，jua_j,u,a表示使用j终端浏览u类型网页时停留时间为a秒；

步骤4.5：定义循环变量f用于遍历步骤4.2中得到的IWF，IWF_f为IWF第f网页使用终端浏览页面的停留时间，其中，f赋初值为1；

步骤4.6：当循环变量f<dr时，执行步骤4.7；否则执行步骤4.11；

步骤4.7：当循环变量IWF_f<JUA时，执行步骤4.8；否则执行步骤4.9；

步骤4.8：将IWF_f加入到NTSU，即，NTSU＝NTSU∪IWF_f；

步骤4.9：将IWF_f加入到TSU，即，TSU＝TSU∪IWF_f；

步骤4.10：f＝f+1；

步骤4.11：统计TSU中不同网页类型的数量SUMCAT＝{scat₁,scat₂,…,scat₉}，scat_st代表st类的网页数量，其中，st∈[1，9]；

步骤4.12：得到网页浏览行为评估集REC＝{re₁,re₂,re₃}，其中，re₁，re₂，re₃为步骤4.11得到的SUMCAT中网页数量最大的前3种网页类型；

其中，步骤一中通过遍历得到的最优拉普拉斯平滑参数Alpha取值为0.8，步骤四中的网页有效阈值集的取值为：使用PC端浏览财经、互联网、健康、教育、军事、旅游、体育、文化的有效时间阈值分别为5秒、5秒、3秒、3秒、2秒、6秒、4秒和9秒；使用移动设备浏览财经、互联网、健康、教育、军事、旅游、体育、文化的有效时间阈值分别为2秒、2.5秒、3秒、2秒、2.5秒、2秒和5秒。

为了更好的说明本方法的有效性，抽取1000名人员的1023156条网页浏览数据进行分析。首先通过朴素贝叶斯方法对搜狗语料库的17910篇文本进行训练，得到文本分类训练集。爬取URL的网页标题并采用平滑参数为0.86的朴素贝叶斯方法对网页进行分类，根据对应的阈值得到有效浏览网页集和网页浏览行为评估结果。采用直接访问网页的方式获取网页标题，能够获取到223042个网页的网页标题，占总数的21.7％，能够评估623名人员的网页浏览行为，占总数的62.3％；采用本发明方法的步骤，能够获取到664028个有效的网页标题，占总数的64.9％，相比于直接访问页面提高了43.2％；最终能够评估729名人员的网页浏览行为，占总数的72.9％，相比于人工提高了10.6％。

以上所述仅为本发明的实施例子而已，并不用于限制本发明。凡在本发明的原则之内，所作的等同替换，均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。

Claims

1.一种多维度网页浏览行为评估方法，其特征在于，包括如下步骤：

步骤三：对步骤二中处理后的已浏览网页标题集进行分词，得到网页标题分词集，使用步骤一中的拉普拉斯平滑参数Alpha的朴素贝叶斯方法对网页标题分词集进行分类，得到已浏览网页分类集，设置网页类型判断阈值，将大于阈值的网页标题分词集加入文本训练集中；

步骤四：对处理后的网页分类、浏览时间、浏览终端的网页浏览数据进行预处理，采用终端-时间-分类判别方法对处理后的网页浏览数据进行评估，得到网页浏览行为评估结果；

所述步骤二中得到处理后的已浏览网页标题集的具体方法为：

2.根据权利要求1所述的一种多维度网页浏览行为评估方法，其特征在于，所述步骤一中得到最优拉普拉斯平滑参数Alpha的具体方法为：

步骤1.2：对搜狗语料库中的文本进行分词并且剔除停用词；

步骤1.3：计算分词后文本词语的词频TF和逆向文件概率IDF；

3.根据权利要求1所述的一种多维度网页浏览行为评估方法，其特征在于，所述步骤三中得到已浏览网页分类集，并通过阈值判断重新对文本训练集进行训练的具体方法为：

步骤3.1：定义网页类型判断阈值为0.82；

步骤3.2：对处理好的已浏览网页标题集进行分词，得到网页标题分词集，使用拉普拉斯平滑参数为Alpha的朴素贝叶斯方法对网页标题分词集进行分类，得到已浏览网页分类集和对应的网页类型召回率集；

步骤3.3：将召回率大于网页类型判断阈值的网页标题分词集加入到文本训练集中，重新对文本训练集进行训练。

4.根据权利要求1所述的一种多维度网页浏览行为评估方法，其特征在于，所述步骤四中得到网页浏览行为评估结果的具体方法为：