CN107506472A

CN107506472A - 一种学生浏览网页分类方法

Info

Publication number: CN107506472A
Application number: CN201710792423.5A
Authority: CN
Inventors: 肖绍章; 朱全银; 李翔; 钱凯; 于柿民; 潘舒新; 瞿学新; 唐海波; 邵武杰; 高阳; 江丽萍
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2017-09-05
Filing date: 2017-09-05
Publication date: 2017-12-22
Anticipated expiration: 2037-09-05
Also published as: CN107506472B

Abstract

本发明公开了一种学生浏览网页分类方法基于N‑Gram和朴素贝叶斯分类器，具体实现步骤，先从导航类网站爬取URL描述信息，构建四分类语料库，把语料库文本表示成uni‑gram和bi‑gram的形式，以TF‑IDF作为文本特征的权重，用朴素贝叶斯分类算法构建分类器；对学生浏览记录中的URL按设定规则进行切分，通过分类器和URL类别库匹配确定URL类别，由分类器确定的URL类别，若符合设定置信度，则加入到URL类别库中。本发明方法有效的对学生浏览记录中URL分类，提高了网页的识别率和分类的准确率。

Description

一种学生浏览网页分类方法

技术领域

本发明属于网页分类领域，特别涉及一种基于N-Gram和朴素贝叶斯分类器的学生浏览网页分类方法。

背景技术

学生网页浏览分类方法对学生上网兴趣分析有着重要的作用。传统的分类语料库只有较少的网页标题词汇。因此需要找到一种适合学生浏览分类语料库，并且使用分类器结合URL类别库共同确定URL类别。

2009年到2017年，朱全银等人给出了Web文本处理与推送的的办法(李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐.计算机科学与探索.2014.Vol.8(6):751-759；Suqun Cao,Quanyin Zhu,Zhiwei Hou.Customer Segmentation Based on aNovelHierarchical Clustering Algorithm.2009,p:1-5(EI:20100412657161)；QuanyinZhu,Sunqun Cao.A Novel Classifier-independent Feature SelectionAlgorithmfor Imbalanced Datasets.2009,p:77-82(EI:20095012543848)；Suqun Cao,Zhiweiyang Wang,Quanyin Zhu.Kernelized Fuzzy Fisher Criterion basedClustering Algorithm.DCABES 2010,p:87-91(EI:20104413349424)；Quanyin Zhu,Yunyang Yan,Jin Ding,Jin Qian.The Case Study for Price Extracting of MobilePhone Sell Online.2011,p:282-285(EI:20113714318072)；Quanyin Zhu,Suqun Cao,PeiZhou,Yunyang Yan,Hong Zhou.Integrated Price Forecast based on DichotomyBackfilling and Disturbance Factor Algorithm.International Review onComputers and Software,2011,Vol.6(6):1089-1093.(EI:20121814977597)；Suqun Cao,Gelan Yang,Quanyin Zhu,Haihei Zhai.A novel feature extraction method formechanical part recognition.Applied Mechanics and Materials,2011,p:116-121(EI:20113814354316)；Pei Zhou,Quanyin Zhu.Multi-factor Matching Method forBasic Information of Science and Technology Experts Based on Web Mining.2012,P:718-720(EI：20123915469307)；Jianping Deng,Fengwen Cao,Quanyin Zhu,YuZhang.The Web Data Extracting and Application for Shop Online Based onCommodities Classified.Communications in Computer and Information Science,Vol.234(4):120-128(EI:20113814340383)；Hui Zong,Quanyin Zhu,Ming Sun,YahongZhang.The case study for human resource management research based on webmining and semantic analysis.Applied Mechanics and Materials,Vol.488,2014p:1336-1339(EI:20140517249044))；Expert Achievements Model for Scientific andTechnological Based on Association Mining.DCABES 2015，272-275(EI：20162902607720)；An Identification Method of News Scientific IntelligenceBased on TF-IDF.DCABES 2015，501-504(EI：20162902607645)。

朴素贝叶斯分类算法：

贝叶斯分类法是统计学分类方法，它可以预测类隶属关系的概率，如一个给定元组属于一个特定类的概率。贝叶斯分类基于贝叶斯定理。朴素贝叶斯分类法假定一个属性值在给定类上的概率独立于其他属性的值，这一假定称为类条件独立性。

N-Gram：

N-Gram模型基于这样一种假设，第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

TF-IDF：

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)，IDF意思是逆向文件频率(Inverse Document Frequency)。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

支持向量机：

支持向量机(Support Vector Machine，SVM)是Corinna Cortes和Vapnik等于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折中，以求获得最好的推广能力。

随着网络设施的日趋完善，上网用户不断增加，在给学生带来广大便利的同时，也会因为监管不力，导致学生沉迷网络，不能自拔。高效准确的对网页分类成为了至关重要的内容。网页分类与传统文本分类有着很大不同，网页丰富的特征中包含了许多噪音，频繁从网页中获取文本内容来确定分类往往速度很慢。

在现有的网页分类中，往往都只解决了上述几个问题中的部分问题。

如中国专利文献号CN 106886577 A，公开日2017-06-23，公开了一种多维度网页浏览行为评估方法，首先对搜狗语料库中的文本分词，以TF-IDF作为文本特征，采用朴素贝叶斯方法对语料库进行训练得到文本训练集，将搜狗语料库中的文本折半切分，得到验证测试集，通过遍历得到最优拉普拉斯平滑参数Alpha，再爬取已浏览网页的指定文本内容，得到已浏览网页标题集，接着采用Alpha的朴素贝叶斯方法对已浏览网页标题集进行分类，得到已浏览网页分类集，并将大于阈值的网页信息加入文本训练集中。该方法使用搜狗语料库对网页标题进行分类，但搜狗语料库不包含网页标题中的特殊词汇，如“哔哩哔哩”，会降低分类的准确率。

如中国专利文献号CN 106599155 A，公开日2017-04-26，公开了一种网页分类方法，抓取并从网页的文本数据中提取所述网页的关键词；将所述关键词与已分类好的网页特征词库中的特征词进行匹配，统计所述特征词的词频总数；判断所述词频总数是否小于预设的阈值；若是，则截取并根据所述网页的页面图像对所述网页进行分类；若否，则根据多个所述特征词及其对应的词频对所述网页进行分类。该方法未结合URL类别集合库匹配，如访问的某个网页所在服务器出现问题，则可以通过和URL类别库匹配确定URL类别，而且提高了分类的速度。

如中国专利文献号CN 101593200 A，公开日2009-12-02，公开了一种基于关键词频度分析的中文网页分类方法，是根据所分析出的中文网页的关键词，依照中文分类主题词库进行中文网页分类模糊匹配，通过首先获取到网页的HTML源码，对网页进行预处理。通过测试和分析，利用正则表达式过滤器对噪音信息进行过滤，并提取出网页的中文文本，接着通过分词器和关键词频度分析器来将所提取的中文文本信息进行分词，通过该词在文本中的权重排序，通过网页模糊分类算法，得到该网页关键词所属类别的类别排名，取其中前几位，进行隶属率的计算，得出该网页的所属类别的模糊匹配结果。该方法未通过使用N-Gram增加词与词之间的联系，会降低分类的准确率。

综上所述，研究发明一种具有网页标题词汇的语料库，且增加词与词之间的联系，通过机器学习分类结合URL类别库确定网页类别是十分必要的。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种对学生浏览网页进行分类，从而为学习预警提供依据，防止学生沉迷不良网络的基于N-Gram和朴素贝叶斯分类器的学生浏览网页分类方法。

技术方案：为解决上述技术问题，本发明提供一种学生浏览网页分类方法，其特征在于，包括如下步骤：

步骤一：从导航类网站爬取URL、URL描述内容、URL一级分类和URL二级分类，并保存到URL集合中，构建语料库，将语料库中URL描述内容文本表示成uni-gram和bi-gram的形式，以TF-IDF作为文本特征的权重，用朴素贝叶斯分类算法得到分类器；

步骤二：通过爬虫爬取URL网页内容，由步骤一中得出的分类器确定URL所属类别；

步骤三：定义学生浏览网页地址集，对学生浏览的URL进行切分处理，根据步骤二中得出的URL所属类别判断如果分类器返回的类别概率大于所设分类概率阈值CP且分类器返回的类别和使用支持向量机分类得到的类别相同，将该URL和URL类别存入到URL集合中；若分类器无法确定类别，则和URL集合进行字符匹配来确定URL类别，最后得到所有学生网页浏览分类集。

进一步的，所述步骤一中分类器是使用平滑参数Alpha的朴素贝叶斯分类算法得到的，其中参数Alpha的值为0.001。

进一步的，所述步骤二中分类概率阈值CP的取值为0.78。

进一步的，所述步骤一中构建语料库和分类器的具体步骤如下：

步骤1.1：定义文本停用词集SWORD＝{sword₁,sword₂,…,sword_num},其中，sword_swi为第swi个停用词，nun为停用词总个数；定义朴素贝叶斯平滑参数Alpha,其中Alpha∈(0,1)；定义语料库四个分类，分别为娱乐休闲、电脑网络、生活服务和文化教育，G₁、G₂、G₃和G₄分别为娱乐休闲、电脑网络、生活服务和文化教育类URL相关信息内容集，G₁＝{URLInfo_1,1,URLInfo_1,2,...URLInfo_1,a},G₂＝{URLInfo_2,1,URLinfo_2,2,..,URLInfo_2,b},G₃＝{URLInfo_3,1,URLInfo_3,2,...URLInfo_3,c},G₄＝{UR LInfo_4,1,URLInfo_4,2,..,URLInfo_4,d},其中，a、b、c和d分别表示G₁、G₂、G₃和G₄类别中的URL个数，从导航目录网站如雅虎和hao123目录网站爬取的URL信息为URLInfo_x,y＝{FirCate_x,y,SecCate_x,y,URL_x,y,URLContent_x,y},FirCate_x,y,SecCate_x,y,URL_x,y,URLC ontent_x,y分别表示第G_x类别下第y个URL一级类别、URL二级类别、URL和URL描述内容，x∈[1,4],x为整数，y∈[1,a]或y∈[1,b]或y∈[1,c]或y∈[1,d],y为整数；

步骤1.2：将SecCate_x,y为“电视”所对应的一级分类FirCate_x,y修改为“娱乐休闲”，将FirCate_x,y为“安逸网站大全”的将FirCate_x,y修改为“电脑网络”，将SecCate_x,y为“成绩查询”和“在线翻译”所对应的一级分类FirCate_x,y修改为“文化教育”；

步骤1.3：使用jieba分词对G₁,G₂,G₃,G₄中所有URL描述内容进行分词处理，去除停用词SWORD,得到文本分类语料库StuCate＝{Cate₁,Cate₂,Cate₃,Cate₄},其中，娱乐休闲类文本集Cate₁＝{txt_1,1,txt_1,2,...,txt_1,s},电脑网络类文本集Cate₂＝{txt_2,1,txt_2,2,...,txt_2,t},生活服务类文本集Cate₃＝{txt_3,1,txt_3,2,...,txt_3,u},文化教育类文本集Cate₄＝{txt_4,1,txt_4,2,...,txt_4,u},文本单词集txt_m,n＝{word_m,n,1,word_m,n,2,...,word_m,n,z},所述的txt_m,n为Cate_m的第n篇文本中的单词内容，所述的z为第Cate_m类别下第n个文本的单词个数，所述的word_m,n,e为Cate_m的第n篇文本内容中第e个单词，所述的s、t、u和v分别为娱乐休闲、电脑网络、生活服务和文化教育类文本个数，且m∈[1,4]；

步骤1.4：随机取StuCate中每个类别集合的80％文本作为训练集，把文本表示成uni-gram和bi-gram的形式，结合TF-IDF作为特征的权重；

步骤1.5：使用平滑参数为Alpha的朴素贝叶斯分类算法得到分类器，取StuCate中每个类别集合剩余的20％文本作为测试集，测试分类器准确率。

进一步的，所述步骤二中确定URL所属类别的具体步骤如下：

步骤2.1：定义网页页面访问错误词集EWORD＝{eword₁,eword₂,…,eword_en},其中，eword_ewi为第ewi个网页页面访问错误词，en为网页页面访问错误词总数；定义网页文本停用词SWORD＝{sword₁,sword₂,…,sword_num},其中，sword_swi为第swi个停用词，nun为停用词总个数；定义网页类别字符集STUCATE＝{娱乐休闲、电脑网络、生活服务和文化教育}；定义URL及URL类别集合为URLS＝{URLAndCate₁,URLAndCate₂,...,URLAndCate_un},其中，URL及URL类别内容URLAndCate_uc＝{SURL_uc,FCATE_uc},un为URL类别集合中URL的个数，SURL_uc和FCATE_uc分别表示为第uc个URL和URL所对应的类别；定义待分类URL为JudgeURL，待分类URL所属于的类别为JudgeCate；

步骤2.2：获取JudgeURL；判断能否爬取该JudgeURL，如果能爬取则进入步骤2.3；如果不能爬取则进入步骤2.5；

步骤2.3：爬取该JudgeURL网页内容中的title,description,keywords，得到网页内容集webcon＝{title,description,keywords}；当时，进入步骤2.4；否则进入步骤2.9；

步骤2.4：定义循环变量ju,赋初值为1；

步骤2.5：对比ju与un的数值大小，当ju<＝un时，进入步骤2.6；否则进入步骤2.9；

步骤2.6：判断JudgeURL与SURL_ju是否相等，如果相等进入步骤2.8；如果不相等进入步骤2.7；

步骤2.7：对循环变量ju的数值加一并重新进入步骤2.5进行判断；

步骤2.8：确定JudgeURL的类别FCATE_ju，把FCATE_ju赋值给JudgeURL,其中，JudgeCate∈STUCATE，进入步骤2.15；

步骤2.9：转至步骤2.15；

步骤2.10：对webcon分词，去除停用词SWORD，得到网页标题集webword＝{tword₁,tword₂,..,tword_wn},使用朴素贝叶斯分类算法对webword进行分类，确定该JudgeURL的类别为JudgeCate，其中，tword_twi为第twi个网页标题词，wn为网页标题词的个数，JudgeCate∈STUCATE；

步骤2.11：当JudgeURL在URLS中不存在且JudgeURL包含路径‘/’数量为0或1时进入步骤2.12，否则进入步骤2.15；

步骤2.12：定义朴素贝叶斯返回的分类概率为P,支持向量机确定的该URL类别为SVMCate，分类概率阈值为CP；

步骤2.13：当P>CP且SVMCate＝JudgeCate时，进入步骤2.13，否则进入步骤2.15；

步骤2.14：将{JudgeURL,JudgeCate}加入到URL及URL类别集合URLS中；

步骤2.15：得到JudgeCate。

进一步的，所述步骤三中得到所有学生网页浏览分类集的具体步骤如下：

步骤3.1：定义学生浏览网页地址集WEB＝{web₁,web₂,...,web_sn},学生浏览网页分类集WCATE＝{SCate₁,SCate₂,...,SCate_sn},其中，sn为网页地址总数，web_wi和SCate_wi分别为第_wi个URL和网页所确定的类别；定义网页类别字符集STUCATE＝{娱乐休闲，电脑网络，生活服务，文化教育}；

步骤3.2：定义循环变量i,用于遍历WEB，赋初值为1；

步骤3.3：比较i与sn的大小，当i<＝sn时，进入步骤3.4；否则进入步骤3.22；

步骤3.4：去除URL中web_i前缀“http://”和“https://”，定义URL中的目录分隔符‘/’的数量为SCount，将URL按照目录分隔符‘/’切分为WSPR＝{spr₁,spr₂,...,spr_nws},其中spr_si是原始URL按‘/’切分后的第si个字符，nws＝Scount；定义采用本步骤处理后的URL为SPRURL_nws＝spr₁+‘/’+spr₂+...+spr_nws；

步骤3.5：定义循环变量wi,赋初值nws；

步骤3.6：比较wi与1的大小，当wi>＝1时，进入步骤207；否则进入步骤3.13；

步骤3.7：将SPRURL_wi赋值给步骤二中的待分类URL即JudgeURL；

步骤3.8：将步骤二中得到的待分类URL的所属类别JudgeCate赋值给SCate_i；

步骤3.9：当SCate_i∈STUCATE时，进入步骤3.10；否则进入步骤3.11；

步骤3.10：确定该URL的类别为SCate_i，转至步骤3.12；

步骤3.11：对循环变量wi的数值减一并重新进入步骤3.6进行判断；

步骤3.12：对循环变量i的数值加一并重新进入步骤3.3进行判断；

步骤3.13：定义URL中的域名分隔符‘.’的数量为DCount，将URL按照域名分隔符‘.’切分为WDOT＝{dot₁,dot₂,...,dot_DCount-1},其中dot_di是URL按‘.’切分后的第di个字符；定义采用本步骤处理后的URL为DOTURL_mws＝dot_mws+‘.’+dot₂+...+dot_DCount-1,其中mws＝1；

步骤3.14：定义循环变量ws,并赋初值1；

步骤3.15：当ws<＝DCount-2时，进入步骤3.16；否则转至步骤3.19；

步骤3.16：将DOTURL_ws赋值给步骤二中的待分类URL即JudgeURL；

步骤3.17：将步骤二中得到的待分类URL的所属类别JudgeCate赋值给SCate；

步骤3.18：当SCate_i∈SCATE时，转至步骤3.21；否则转至步骤3.20；

步骤3.19：SCate_i为None，并进入步骤3.12；

步骤3.20：对循环变量ws的数值加一并重新进入步骤3.15进行判断；

步骤3.21：确定该URL的类别SCate_i；

步骤3.22：得到处理后的网页浏览分类集WSCATE＝{SCate₁,SCate₂,...,SCate_sn}。

与现有技术相比，本发明的优点在于：

本发明通过自定义学生兴趣语料库和分类算法有效的对学生浏览网页进行分类。具体的：本发明从导航类网站爬取URL描述信息，构建四分类语料库，把语料库文本表示成uni-gram和bi-gram的形式，以TF-IDF作为文本特征的权重，用朴素贝叶斯分类算法构建分类器；对学生浏览记录中的URL按设定规则进行切分，通过分类器和数据库匹配确定URL类别，由分类器确定的URL类别，若符合设定置信度，则加入到URL类别库中。该方法构建了自定义学生兴趣语料库，且把文本表示成N-Gram的形式，提高了分类的准确率。

附图说明

图1为本发明的总体流程图；

图2为图1中构建语料库和分类器的流程图；

图3为图1中确定URL所属类别的流程图；

图4为图1中得出所有学生网页浏览分类集的流程图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明。

步骤1：从导航类网站爬取URL、URL描述内容、URL一级分类和URL二级分类，并保存到URL集合中，构建四分类语料库，将语料库中URL描述内容文本表示成uni-gram和bi-gram的形式，以TF-IDF作为文本特征的权重，用朴素贝叶斯分类算法得到分类器，具体的如图2所示：

步骤1.1：定义文本停用词集SWORD＝{sword₁,sword₂,…,sword_num},其中，sword_swi为第swi个停用词，nun为停用词总个数；定义朴素贝叶斯平滑参数Alpha,其中Alpha∈(0,1)；定义语料库四个分类，分别为娱乐休闲、电脑网络、生活服务和文化教育，G₁、G₂、G₃和G₄分别为娱乐休闲、电脑网络、生活服务和文化教育类URL相关信息内容集，G₁＝{URLInfo_1,1,URLInfo_1,2,...URLInfo_1,a},G₂＝{URLInfo_2,1,URLinfo_2,2,..,URLInfo_2,b},

G₃＝{URLInfo_3,1,URLInfo_3,2,...URLInfo_3,c},G₄＝{URLInfo_4,1,URLInfo_4,2,..,URLInfo_4,d},其中，a、b、c和d分别表示G₁、G₂、G₃和G₄类别中的URL个数，从导航目录网站如雅虎和hao123目录网站爬取的URL信息为URLInfo_x,y＝{FirCate_x,y,SecCate_x,y,URL_x,y,URLContent_x,y},FirCate_x,y,SecCate_x,y,URL_x,y,URLC ontent_x,y分别表示第G_x类别下第y个URL一级类别、URL二级类别、URL和URL描述内容，x∈[1,4],x为整数，y∈[1,a]或y∈[1,b]或y∈[1,c]或y∈[1,d],y为整数；

步骤2：对学生浏览的URL按设定规则进行切分，首先通过爬虫爬取URL网页内容，由朴素贝叶斯分类器确定URL类别，对满足设定置信度的URL加入到URL类别库中，若分类器无法确定URL类别，则和URL集合进行字符匹配来确定URL类别。最终得到所有学生网页浏览分类集，具体的如图3所示：

步骤2.1：定义学生浏览网页地址集WEB＝{web₁,web₂,...,web_sn},学生浏览网页分类集WCATE＝{SCate₁,SCate₂,...,SCate_sn},其中，sn为网页地址总数，web_wi和SCate_wi分别为第_wi个URL和网页所确定的类别；定义网页类别字符集STUCATE＝{娱乐休闲，电脑网络，生活服务，文化教育}；

步骤2.2：定义循环变量i,用于遍历WEB，赋初值为1；

步骤2.3：当i<＝sn时，则执行步骤2.4；否则转至步骤2.24；

步骤2.4：去除URL中web_i前缀“http://”和“https://”，定义URL中的目录分隔符‘/’的数量为SCount，将URL按照目录分隔符‘/’切分为WSPR＝{spr₁,spr₂,...,spr_nws},其中spr_si是原始URL按‘/’切分后的第si个字符，nws＝Scount；定义采用本步骤处理后的URL为SPRURL_nws＝spr₁+‘/’+spr₂+...+spr_nws；

步骤2.5：定义循环变量wi,赋初值nws；

步骤2.6：当wi>＝1时，则执行步骤2.7；否则转至步骤2.14；

步骤2.7：将SPRURL_wi赋值给步骤X₁中的JudgeURL；

步骤2.8：执行步骤X₁，即执行步骤2.0.1到步骤2.0.17；

步骤2.9：将步骤X₁,即步骤2.0.1到步骤2.0.17执行结果JudgeCate赋值给SCate_i；

步骤2.10：当SCate_i∈STUCATE时，则执行步骤2.11；否则转至步骤2.12

步骤2.11：确定该URL的类别为SCate_i，转至步骤2.13；

步骤2.12：wi＝wi-1；

步骤2.13：i＝i+1；

步骤2.14：定义URL中的域名分隔符‘.’的数量为DCount，将URL按照域名分隔符‘.’切分为WDOT＝{dot₁,dot₂,...,dot_DCount-1},其中dot_di是URL按‘.’切分后的第di个字符；定义采用本步骤处理后的URL为DOTURL_mws＝dot_mws+‘.’+dot₂+...+dot_DCount-1,其中mws＝1；

步骤2.15：定义循环变量ws,并赋初值1；

步骤2.16：当ws<＝DCount-2时，执行步骤2.17；否则转至步骤2.21；

步骤2.17：将DOTURL_ws赋值给步骤X₁即步骤2.0.1到步骤2.0.17中的JudgeURL；

步骤2.18：执行步骤X₁,即执行步骤2.0.1到步骤2.0.17；

步骤2.19：将步骤X₁,即步骤2.0.1到步骤2.0.17执行结果JudgeCate赋值给SCate_i；

步骤2.20：当SCate_i∈SCATE时，转至步骤2.23,；否则转至步骤2.22

步骤2.21：SCate_i为None；

步骤2.22：ws＝ws+1；

步骤2.23：确定该URL的类别SCate_i；

步骤2.24：得到处理后的网页浏览分类集为WSCATE＝{SCate₁,SCate₂,...,SCate_sn}。

步骤2.8和步骤2.18：通过爬虫爬取URL网页内容，由朴素贝叶斯分类器确定URL类别，对满足指定置信度的URL加入到URL类别库中，若分类器无法确定URL类别，则和URL集合进行字符匹配来确定URL类别，具体的如图4所示：

步骤2.0.1：定义网页页面访问错误词集EWORD＝{eword₁,eword₂,…,eword_en},其中，eword_ewi为第ewi个网页页面访问错误词，en为网页页面访问错误词总数；定义网页文本停用词SWORD＝{sword₁,sword₂,…,sword_num},其中，sword_swi为第swi个停用词，nun为停用词总个数；定义网页类别字符集STUCATE＝{娱乐休闲、电脑网络、生活服务和文化教育}；定义URL及URL类别集合为URLS＝{URLAndCate₁,URLAndCate₂,...,URLAndCate_un},其中，URL及URL类别内容URLAndCate_uc＝{SURL_uc,FCATE_uc},un为URL类别集合中URL的个数，SURL_uc和FCATE_uc分别表示为第uc个URL和URL所对应的类别；定义待分类URL为JudgeURL，待分类URL所属于的类别为JudgeCate；

步骤2.0.2：获取JudgeURL；

步骤2.0.3：当能爬取该JudgeURL时，执行步骤2.0.4；否则转至步骤2.0.6；

步骤2.0.4：爬取该JudgeURL网页内容中的title,description,keywords，得到网页内容集webcon＝{title,description,keywords}；

步骤2.0.5：当时，执行步骤2.0.6；否则转至步骤2.0.12；

步骤2.0.6：定义循环变量ju,赋初值为1；

步骤2.0.7：当ju<＝un时，执行步骤2.0.8；否则转至步骤2.0.11；

步骤2.0.8：当JudgeURL＝SURL_ju时，执行步骤2.0.10；否则转至步骤2.0.9；

步骤2.0.9：ju＝ju+1；

步骤2.0.10：确定JudgeURL的类别FCATE_ju，把FCATE_ju赋值给JudgeURL,其中，JudgeCate∈STUCATE，转至步骤2.0.17；

步骤2.0.11：转至步骤2.0.17；

步骤2.0.12：对webcon分词，去除停用词SWORD，得到网页标题集webword＝{tword₁,tword₂,..,tword_wn},使用朴素贝叶斯分类算法对webword进行分类，从而确定该JudgeURL的类别为JudgeCate，其中，tword_twi为第twi个网页标题词，wn为网页标题词的个数，JudgeCate∈STUCATE；

步骤2.0.13：当JudgeURL在URLS中不存在且JudgeURL包含路径‘/’数量为0或1，执行步骤2.0.14，否则转至步骤2.0.17；

步骤2.0.14：定义朴素贝叶斯返回的分类概率为P,支持向量机确定的该URL类别为SVMCate，分类概率阈值为CP；

步骤2.0.15：当P>CP且SVMCate＝JudgeCate时，执行步骤2.0.16，否则转至步骤2.0.17；

步骤2.0.16：将{JudgeURL,JudgeCate}加入到URL及URL类别集合URLS中；

步骤2.0.17：得到JudgeCate。

为了更好的说明本方法的有效性，随机抽取某一天的学生浏览记录，共1675215个URL，若直接爬取每个URL标题内容，可由分类器确定类别的URL数量为201295个，占总数的12.04％；若对URL按设定规则切分，和URL类别库匹配确定类别或分类器确定类别的URL数量为1270577个，占总数的75.84％；使用搜狗语料库，分类器确定的www.kankan.com的类别是IT，www.bilibili.com的类别是文化，而使用自定义学生兴趣语料库，分类器确定的上述两个URL的类别为娱乐休闲；把文本表示成uni-gram的形式，以TF-IDF作为文本特征的权重，平滑参数为0.001朴素贝叶斯确定的电脑网络分类准确率为83％，生活服务分类准确率为91％，文化教育分类准确率为86％，娱乐休闲分类准确率为85％；把文本表示成uni-gram和bi-gram形式，以TF-IDF作为文本特征的权重，平滑参数为0.001朴素贝叶斯确定电脑网络分类准确率为86％，生活服务分类准确率为93％，文化教育分类准确率为89％，娱乐休闲分类准确率为86％；使用步骤1.2去除歧义类别后的电脑网络分类准确率为87％，生活服务分类准确率为94％，文化教育分类准确率为91％，娱乐休闲分类准确率为87％。

本发明可与计算机系统结合，从而自动完成对学生浏览的网页分类。

本发明创造性的提出了一种基于N-Gram和朴素贝叶斯分类器的学生浏览网页分类方法，提高了网页的识别率和分类的准确率。

以上所述仅为本发明的实施例子而已，并不用于限制本发明。凡在本发明的原则之内，所作的等同替换，均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。

Claims

1.一种学生浏览网页分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种学生浏览网页分类方法，其特征在于，所述步骤一中分类器是使用平滑参数Alpha的朴素贝叶斯分类算法得到的，其中参数Alpha的值为0.001。

3.根据权利要求1所述的一种学生浏览网页分类方法，其特征在于，所述步骤二中分类概率阈值CP的取值为0.78。

4.根据权利要求1所述的一种学生浏览网页分类方法，其特征在于，所述步骤一中构建语料库和分类器的具体步骤如下：

步骤1.1：定义文本停用词集SWORD＝{sword₁,sword₂,…,sword_num},其中，sword_swi为第swi个停用词，nun为停用词总个数；定义朴素贝叶斯平滑参数Alpha,其中Alpha∈(0,1)；定义语料库四个分类，分别为娱乐休闲、电脑网络、生活服务和文化教育，G₁、G₂、G₃和G₄分别为娱乐休闲、电脑网络、生活服务和文化教育类URL相关信息内容集，G₁＝{URLInfo_1,1,URLInfo_1,2,...URLInfo_1,a},G₂＝{URLInfo_2,1,URLinfo_2,2,..,URLInfo_2,b},G₃＝{URLInfo_3,1,URLInfo_3,2,...URLInfo_3,c},G₄＝{URLInfo_4,1,URLInfo_4,2,..,URLInfo_4,d},其中，a、b、c和d分别表示G₁、G₂、G₃和G₄类别中的URL个数，从导航目录网站如雅虎和hao123目录网站爬取的URL信息为URLInfo_x,y＝{FirCate_x,y,SecCate_x,y,URL_x,y,URLContent_x,y},FirCate_x,y,SecCate_x,y,URL_x,y,URLContent_x,y分别表示第G_x类别下第y个URL一级类别、URL二级类别、URL和URL描述内容，x∈[1,4],x为整数，y∈[1,a]或y∈[1,b]或y∈[1,c]或y∈[1,d],y为整数；

5.根据权利要求1所述的一种学生浏览网页分类方法，其特征在于，所述步骤二中确定URL所属类别的具体步骤如下：