CN107506472A - 一种学生浏览网页分类方法 - Google Patents

一种学生浏览网页分类方法 Download PDF

Info

Publication number
CN107506472A
CN107506472A CN201710792423.5A CN201710792423A CN107506472A CN 107506472 A CN107506472 A CN 107506472A CN 201710792423 A CN201710792423 A CN 201710792423A CN 107506472 A CN107506472 A CN 107506472A
Authority
CN
China
Prior art keywords
url
classification
web page
text
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710792423.5A
Other languages
English (en)
Other versions
CN107506472B (zh
Inventor
肖绍章
朱全银
李翔
钱凯
于柿民
潘舒新
瞿学新
唐海波
邵武杰
高阳
江丽萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN201710792423.5A priority Critical patent/CN107506472B/zh
Publication of CN107506472A publication Critical patent/CN107506472A/zh
Application granted granted Critical
Publication of CN107506472B publication Critical patent/CN107506472B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Abstract

本发明公开了一种学生浏览网页分类方法基于N‑Gram和朴素贝叶斯分类器,具体实现步骤,先从导航类网站爬取URL描述信息,构建四分类语料库,把语料库文本表示成uni‑gram和bi‑gram的形式,以TF‑IDF作为文本特征的权重,用朴素贝叶斯分类算法构建分类器;对学生浏览记录中的URL按设定规则进行切分,通过分类器和URL类别库匹配确定URL类别,由分类器确定的URL类别,若符合设定置信度,则加入到URL类别库中。本发明方法有效的对学生浏览记录中URL分类,提高了网页的识别率和分类的准确率。

Description

一种学生浏览网页分类方法
技术领域
本发明属于网页分类领域,特别涉及一种基于N-Gram和朴素贝叶斯分类器的学生浏览网页分类方法。
背景技术
学生网页浏览分类方法对学生上网兴趣分析有着重要的作用。传统的分类语料库只有较少的网页标题词汇。因此需要找到一种适合学生浏览分类语料库,并且使用分类器结合URL类别库共同确定URL类别。
2009年到2017年,朱全银等人给出了Web文本处理与推送的的办法(李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐.计算机科学与探索.2014.Vol.8(6):751-759;Suqun Cao,Quanyin Zhu,Zhiwei Hou.Customer Segmentation Based on aNovelHierarchical Clustering Algorithm.2009,p:1-5(EI:20100412657161);QuanyinZhu,Sunqun Cao.A Novel Classifier-independent Feature SelectionAlgorithmfor Imbalanced Datasets.2009,p:77-82(EI:20095012543848);Suqun Cao,Zhiweiyang Wang,Quanyin Zhu.Kernelized Fuzzy Fisher Criterion basedClustering Algorithm.DCABES 2010,p:87-91(EI:20104413349424);Quanyin Zhu,Yunyang Yan,Jin Ding,Jin Qian.The Case Study for Price Extracting of MobilePhone Sell Online.2011,p:282-285(EI:20113714318072);Quanyin Zhu,Suqun Cao,PeiZhou,Yunyang Yan,Hong Zhou.Integrated Price Forecast based on DichotomyBackfilling and Disturbance Factor Algorithm.International Review onComputers and Software,2011,Vol.6(6):1089-1093.(EI:20121814977597);Suqun Cao,Gelan Yang,Quanyin Zhu,Haihei Zhai.A novel feature extraction method formechanical part recognition.Applied Mechanics and Materials,2011,p:116-121(EI:20113814354316);Pei Zhou,Quanyin Zhu.Multi-factor Matching Method forBasic Information of Science and Technology Experts Based on Web Mining.2012,P:718-720(EI:20123915469307);Jianping Deng,Fengwen Cao,Quanyin Zhu,YuZhang.The Web Data Extracting and Application for Shop Online Based onCommodities Classified.Communications in Computer and Information Science,Vol.234(4):120-128(EI:20113814340383);Hui Zong,Quanyin Zhu,Ming Sun,YahongZhang.The case study for human resource management research based on webmining and semantic analysis.Applied Mechanics and Materials,Vol.488,2014p:1336-1339(EI:20140517249044));Expert Achievements Model for Scientific andTechnological Based on Association Mining.DCABES 2015,272-275(EI:20162902607720);An Identification Method of News Scientific IntelligenceBased on TF-IDF.DCABES 2015,501-504(EI:20162902607645)。
朴素贝叶斯分类算法:
贝叶斯分类法是统计学分类方法,它可以预测类隶属关系的概率,如一个给定元组属于一个特定类的概率。贝叶斯分类基于贝叶斯定理。朴素贝叶斯分类法假定一个属性值在给定类上的概率独立于其他属性的值,这一假定称为类条件独立性。
N-Gram:
N-Gram模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
TF-IDF:
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆向文件频率(Inverse Document Frequency)。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
支持向量机:
支持向量机(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折中,以求获得最好的推广能力。
随着网络设施的日趋完善,上网用户不断增加,在给学生带来广大便利的同时,也会因为监管不力,导致学生沉迷网络,不能自拔。高效准确的对网页分类成为了至关重要的内容。网页分类与传统文本分类有着很大不同,网页丰富的特征中包含了许多噪音,频繁从网页中获取文本内容来确定分类往往速度很慢。
在现有的网页分类中,往往都只解决了上述几个问题中的部分问题。
如中国专利文献号CN 106886577 A,公开日2017-06-23,公开了一种多维度网页浏览行为评估方法,首先对搜狗语料库中的文本分词,以TF-IDF作为文本特征,采用朴素贝叶斯方法对语料库进行训练得到文本训练集,将搜狗语料库中的文本折半切分,得到验证测试集,通过遍历得到最优拉普拉斯平滑参数Alpha,再爬取已浏览网页的指定文本内容,得到已浏览网页标题集,接着采用Alpha的朴素贝叶斯方法对已浏览网页标题集进行分类,得到已浏览网页分类集,并将大于阈值的网页信息加入文本训练集中。该方法使用搜狗语料库对网页标题进行分类,但搜狗语料库不包含网页标题中的特殊词汇,如“哔哩哔哩”,会降低分类的准确率。
如中国专利文献号CN 106599155 A,公开日2017-04-26,公开了一种网页分类方法,抓取并从网页的文本数据中提取所述网页的关键词;将所述关键词与已分类好的网页特征词库中的特征词进行匹配,统计所述特征词的词频总数;判断所述词频总数是否小于预设的阈值;若是,则截取并根据所述网页的页面图像对所述网页进行分类;若否,则根据多个所述特征词及其对应的词频对所述网页进行分类。该方法未结合URL类别集合库匹配,如访问的某个网页所在服务器出现问题,则可以通过和URL类别库匹配确定URL类别,而且提高了分类的速度。
如中国专利文献号CN 101593200 A,公开日2009-12-02,公开了一种基于关键词频度分析的中文网页分类方法,是根据所分析出的中文网页的关键词,依照中文分类主题词库进行中文网页分类模糊匹配,通过首先获取到网页的HTML源码,对网页进行预处理。通过测试和分析,利用正则表达式过滤器对噪音信息进行过滤,并提取出网页的中文文本,接着通过分词器和关键词频度分析器来将所提取的中文文本信息进行分词,通过该词在文本中的权重排序,通过网页模糊分类算法,得到该网页关键词所属类别的类别排名,取其中前几位,进行隶属率的计算,得出该网页的所属类别的模糊匹配结果。该方法未通过使用N-Gram增加词与词之间的联系,会降低分类的准确率。
综上所述,研究发明一种具有网页标题词汇的语料库,且增加词与词之间的联系,通过机器学习分类结合URL类别库确定网页类别是十分必要的。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种对学生浏览网页进行分类,从而为学习预警提供依据,防止学生沉迷不良网络的基于N-Gram和朴素贝叶斯分类器的学生浏览网页分类方法。
技术方案:为解决上述技术问题,本发明提供一种学生浏览网页分类方法,其特征在于,包括如下步骤:
步骤一:从导航类网站爬取URL、URL描述内容、URL一级分类和URL二级分类,并保存到URL集合中,构建语料库,将语料库中URL描述内容文本表示成uni-gram和bi-gram的形式,以TF-IDF作为文本特征的权重,用朴素贝叶斯分类算法得到分类器;
步骤二:通过爬虫爬取URL网页内容,由步骤一中得出的分类器确定URL所属类别;
步骤三:定义学生浏览网页地址集,对学生浏览的URL进行切分处理,根据步骤二中得出的URL所属类别判断如果分类器返回的类别概率大于所设分类概率阈值CP且分类器返回的类别和使用支持向量机分类得到的类别相同,将该URL和URL类别存入到URL集合中;若分类器无法确定类别,则和URL集合进行字符匹配来确定URL类别,最后得到所有学生网页浏览分类集。
进一步的,所述步骤一中分类器是使用平滑参数Alpha的朴素贝叶斯分类算法得到的,其中参数Alpha的值为0.001。
进一步的,所述步骤二中分类概率阈值CP的取值为0.78。
进一步的,所述步骤一中构建语料库和分类器的具体步骤如下:
步骤1.1:定义文本停用词集SWORD={sword1,sword2,…,swordnum},其中,swordswi为第swi个停用词,nun为停用词总个数;定义朴素贝叶斯平滑参数Alpha,其中Alpha∈(0,1);定义语料库四个分类,分别为娱乐休闲、电脑网络、生活服务和文化教育,G1、G2、G3和G4分别为娱乐休闲、电脑网络、生活服务和文化教育类URL相关信息内容集,G1={URLInfo1,1,URLInfo1,2,...URLInfo1,a},G2={URLInfo2,1,URLinfo2,2,..,URLInfo2,b},G3={URLInfo3,1,URLInfo3,2,...URLInfo3,c},G4={UR LInfo4,1,URLInfo4,2,..,URLInfo4,d},其中,a、b、c和d分别表示G1、G2、G3和G4类别中的URL个数,从导航目录网站如雅虎和hao123目录网站爬取的URL信息为URLInfox,y={FirCatex,y,SecCatex,y,URLx,y,URLContentx,y},FirCatex,y,SecCatex,y,URLx,y,URLC ontentx,y分别表示第Gx类别下第y个URL一级类别、URL二级类别、URL和URL描述内容,x∈[1,4],x为整数,y∈[1,a]或y∈[1,b]或y∈[1,c]或y∈[1,d],y为整数;
步骤1.2:将SecCatex,y为“电视”所对应的一级分类FirCatex,y修改为“娱乐休闲”,将FirCatex,y为“安逸网站大全”的将FirCatex,y修改为“电脑网络”,将SecCatex,y为“成绩查询”和“在线翻译”所对应的一级分类FirCatex,y修改为“文化教育”;
步骤1.3:使用jieba分词对G1,G2,G3,G4中所有URL描述内容进行分词处理,去除停用词SWORD,得到文本分类语料库StuCate={Cate1,Cate2,Cate3,Cate4},其中,娱乐休闲类文本集Cate1={txt1,1,txt1,2,...,txt1,s},电脑网络类文本集Cate2={txt2,1,txt2,2,...,txt2,t},生活服务类文本集Cate3={txt3,1,txt3,2,...,txt3,u},文化教育类文本集Cate4={txt4,1,txt4,2,...,txt4,u},文本单词集txtm,n={wordm,n,1,wordm,n,2,...,wordm,n,z},所述的txtm,n为Catem的第n篇文本中的单词内容,所述的z为第Catem类别下第n个文本的单词个数,所述的wordm,n,e为Catem的第n篇文本内容中第e个单词,所述的s、t、u和v分别为娱乐休闲、电脑网络、生活服务和文化教育类文本个数,且m∈[1,4];
步骤1.4:随机取StuCate中每个类别集合的80%文本作为训练集,把文本表示成uni-gram和bi-gram的形式,结合TF-IDF作为特征的权重;
步骤1.5:使用平滑参数为Alpha的朴素贝叶斯分类算法得到分类器,取StuCate中每个类别集合剩余的20%文本作为测试集,测试分类器准确率。
进一步的,所述步骤二中确定URL所属类别的具体步骤如下:
步骤2.1:定义网页页面访问错误词集EWORD={eword1,eword2,…,eworden},其中,ewordewi为第ewi个网页页面访问错误词,en为网页页面访问错误词总数;定义网页文本停用词SWORD={sword1,sword2,…,swordnum},其中,swordswi为第swi个停用词,nun为停用词总个数;定义网页类别字符集STUCATE={娱乐休闲、电脑网络、生活服务和文化教育};定义URL及URL类别集合为URLS={URLAndCate1,URLAndCate2,...,URLAndCateun},其中,URL及URL类别内容URLAndCateuc={SURLuc,FCATEuc},un为URL类别集合中URL的个数,SURLuc和FCATEuc分别表示为第uc个URL和URL所对应的类别;定义待分类URL为JudgeURL,待分类URL所属于的类别为JudgeCate;
步骤2.2:获取JudgeURL;判断能否爬取该JudgeURL,如果能爬取则进入步骤2.3;如果不能爬取则进入步骤2.5;
步骤2.3:爬取该JudgeURL网页内容中的title,description,keywords,得到网页内容集webcon={title,description,keywords};当时,进入步骤2.4;否则进入步骤2.9;
步骤2.4:定义循环变量ju,赋初值为1;
步骤2.5:对比ju与un的数值大小,当ju<=un时,进入步骤2.6;否则进入步骤2.9;
步骤2.6:判断JudgeURL与SURLju是否相等,如果相等进入步骤2.8;如果不相等进入步骤2.7;
步骤2.7:对循环变量ju的数值加一并重新进入步骤2.5进行判断;
步骤2.8:确定JudgeURL的类别FCATEju,把FCATEju赋值给JudgeURL,其中,JudgeCate∈STUCATE,进入步骤2.15;
步骤2.9:转至步骤2.15;
步骤2.10:对webcon分词,去除停用词SWORD,得到网页标题集webword={tword1,tword2,..,twordwn},使用朴素贝叶斯分类算法对webword进行分类,确定该JudgeURL的类别为JudgeCate,其中,twordtwi为第twi个网页标题词,wn为网页标题词的个数,JudgeCate∈STUCATE;
步骤2.11:当JudgeURL在URLS中不存在且JudgeURL包含路径‘/’数量为0或1时进入步骤2.12,否则进入步骤2.15;
步骤2.12:定义朴素贝叶斯返回的分类概率为P,支持向量机确定的该URL类别为SVMCate,分类概率阈值为CP;
步骤2.13:当P>CP且SVMCate=JudgeCate时,进入步骤2.13,否则进入步骤2.15;
步骤2.14:将{JudgeURL,JudgeCate}加入到URL及URL类别集合URLS中;
步骤2.15:得到JudgeCate。
进一步的,所述步骤三中得到所有学生网页浏览分类集的具体步骤如下:
步骤3.1:定义学生浏览网页地址集WEB={web1,web2,...,websn},学生浏览网页分类集WCATE={SCate1,SCate2,...,SCatesn},其中,sn为网页地址总数,webwi和SCatewi分别为第wi个URL和网页所确定的类别;定义网页类别字符集STUCATE={娱乐休闲,电脑网络,生活服务,文化教育};
步骤3.2:定义循环变量i,用于遍历WEB,赋初值为1;
步骤3.3:比较i与sn的大小,当i<=sn时,进入步骤3.4;否则进入步骤3.22;
步骤3.4:去除URL中webi前缀“http://”和“https://”,定义URL中的目录分隔符‘/’的数量为SCount,将URL按照目录分隔符‘/’切分为WSPR={spr1,spr2,...,sprnws},其中sprsi是原始URL按‘/’切分后的第si个字符,nws=Scount;定义采用本步骤处理后的URL为SPRURLnws=spr1+‘/’+spr2+...+sprnws
步骤3.5:定义循环变量wi,赋初值nws;
步骤3.6:比较wi与1的大小,当wi>=1时,进入步骤207;否则进入步骤3.13;
步骤3.7:将SPRURLwi赋值给步骤二中的待分类URL即JudgeURL;
步骤3.8:将步骤二中得到的待分类URL的所属类别JudgeCate赋值给SCatei
步骤3.9:当SCatei∈STUCATE时,进入步骤3.10;否则进入步骤3.11;
步骤3.10:确定该URL的类别为SCatei,转至步骤3.12;
步骤3.11:对循环变量wi的数值减一并重新进入步骤3.6进行判断;
步骤3.12:对循环变量i的数值加一并重新进入步骤3.3进行判断;
步骤3.13:定义URL中的域名分隔符‘.’的数量为DCount,将URL按照域名分隔符‘.’切分为WDOT={dot1,dot2,...,dotDCount-1},其中dotdi是URL按‘.’切分后的第di个字符;定义采用本步骤处理后的URL为DOTURLmws=dotmws+‘.’+dot2+...+dotDCount-1,其中mws=1;
步骤3.14:定义循环变量ws,并赋初值1;
步骤3.15:当ws<=DCount-2时,进入步骤3.16;否则转至步骤3.19;
步骤3.16:将DOTURLws赋值给步骤二中的待分类URL即JudgeURL;
步骤3.17:将步骤二中得到的待分类URL的所属类别JudgeCate赋值给SCate;
步骤3.18:当SCatei∈SCATE时,转至步骤3.21;否则转至步骤3.20;
步骤3.19:SCatei为None,并进入步骤3.12;
步骤3.20:对循环变量ws的数值加一并重新进入步骤3.15进行判断;
步骤3.21:确定该URL的类别SCatei
步骤3.22:得到处理后的网页浏览分类集WSCATE={SCate1,SCate2,...,SCatesn}。
与现有技术相比,本发明的优点在于:
本发明通过自定义学生兴趣语料库和分类算法有效的对学生浏览网页进行分类。具体的:本发明从导航类网站爬取URL描述信息,构建四分类语料库,把语料库文本表示成uni-gram和bi-gram的形式,以TF-IDF作为文本特征的权重,用朴素贝叶斯分类算法构建分类器;对学生浏览记录中的URL按设定规则进行切分,通过分类器和数据库匹配确定URL类别,由分类器确定的URL类别,若符合设定置信度,则加入到URL类别库中。该方法构建了自定义学生兴趣语料库,且把文本表示成N-Gram的形式,提高了分类的准确率。
附图说明
图1为本发明的总体流程图;
图2为图1中构建语料库和分类器的流程图;
图3为图1中确定URL所属类别的流程图;
图4为图1中得出所有学生网页浏览分类集的流程图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
步骤1:从导航类网站爬取URL、URL描述内容、URL一级分类和URL二级分类,并保存到URL集合中,构建四分类语料库,将语料库中URL描述内容文本表示成uni-gram和bi-gram的形式,以TF-IDF作为文本特征的权重,用朴素贝叶斯分类算法得到分类器,具体的如图2所示:
步骤1.1:定义文本停用词集SWORD={sword1,sword2,…,swordnum},其中,swordswi为第swi个停用词,nun为停用词总个数;定义朴素贝叶斯平滑参数Alpha,其中Alpha∈(0,1);定义语料库四个分类,分别为娱乐休闲、电脑网络、生活服务和文化教育,G1、G2、G3和G4分别为娱乐休闲、电脑网络、生活服务和文化教育类URL相关信息内容集,G1={URLInfo1,1,URLInfo1,2,...URLInfo1,a},G2={URLInfo2,1,URLinfo2,2,..,URLInfo2,b},
G3={URLInfo3,1,URLInfo3,2,...URLInfo3,c},G4={URLInfo4,1,URLInfo4,2,..,URLInfo4,d},其中,a、b、c和d分别表示G1、G2、G3和G4类别中的URL个数,从导航目录网站如雅虎和hao123目录网站爬取的URL信息为URLInfox,y={FirCatex,y,SecCatex,y,URLx,y,URLContentx,y},FirCatex,y,SecCatex,y,URLx,y,URLC ontentx,y分别表示第Gx类别下第y个URL一级类别、URL二级类别、URL和URL描述内容,x∈[1,4],x为整数,y∈[1,a]或y∈[1,b]或y∈[1,c]或y∈[1,d],y为整数;
步骤1.2:将SecCatex,y为“电视”所对应的一级分类FirCatex,y修改为“娱乐休闲”,将FirCatex,y为“安逸网站大全”的将FirCatex,y修改为“电脑网络”,将SecCatex,y为“成绩查询”和“在线翻译”所对应的一级分类FirCatex,y修改为“文化教育”;
步骤1.3:使用jieba分词对G1,G2,G3,G4中所有URL描述内容进行分词处理,去除停用词SWORD,得到文本分类语料库StuCate={Cate1,Cate2,Cate3,Cate4},其中,娱乐休闲类文本集Cate1={txt1,1,txt1,2,...,txt1,s},电脑网络类文本集Cate2={txt2,1,txt2,2,...,txt2,t},生活服务类文本集Cate3={txt3,1,txt3,2,...,txt3,u},文化教育类文本集Cate4={txt4,1,txt4,2,...,txt4,u},文本单词集txtm,n={wordm,n,1,wordm,n,2,...,wordm,n,z},所述的txtm,n为Catem的第n篇文本中的单词内容,所述的z为第Catem类别下第n个文本的单词个数,所述的wordm,n,e为Catem的第n篇文本内容中第e个单词,所述的s、t、u和v分别为娱乐休闲、电脑网络、生活服务和文化教育类文本个数,且m∈[1,4];
步骤1.4:随机取StuCate中每个类别集合的80%文本作为训练集,把文本表示成uni-gram和bi-gram的形式,结合TF-IDF作为特征的权重;
步骤1.5:使用平滑参数为Alpha的朴素贝叶斯分类算法得到分类器,取StuCate中每个类别集合剩余的20%文本作为测试集,测试分类器准确率。
步骤2:对学生浏览的URL按设定规则进行切分,首先通过爬虫爬取URL网页内容,由朴素贝叶斯分类器确定URL类别,对满足设定置信度的URL加入到URL类别库中,若分类器无法确定URL类别,则和URL集合进行字符匹配来确定URL类别。最终得到所有学生网页浏览分类集,具体的如图3所示:
步骤2.1:定义学生浏览网页地址集WEB={web1,web2,...,websn},学生浏览网页分类集WCATE={SCate1,SCate2,...,SCatesn},其中,sn为网页地址总数,webwi和SCatewi分别为第wi个URL和网页所确定的类别;定义网页类别字符集STUCATE={娱乐休闲,电脑网络,生活服务,文化教育};
步骤2.2:定义循环变量i,用于遍历WEB,赋初值为1;
步骤2.3:当i<=sn时,则执行步骤2.4;否则转至步骤2.24;
步骤2.4:去除URL中webi前缀“http://”和“https://”,定义URL中的目录分隔符‘/’的数量为SCount,将URL按照目录分隔符‘/’切分为WSPR={spr1,spr2,...,sprnws},其中sprsi是原始URL按‘/’切分后的第si个字符,nws=Scount;定义采用本步骤处理后的URL为SPRURLnws=spr1+‘/’+spr2+...+sprnws
步骤2.5:定义循环变量wi,赋初值nws;
步骤2.6:当wi>=1时,则执行步骤2.7;否则转至步骤2.14;
步骤2.7:将SPRURLwi赋值给步骤X1中的JudgeURL;
步骤2.8:执行步骤X1,即执行步骤2.0.1到步骤2.0.17;
步骤2.9:将步骤X1,即步骤2.0.1到步骤2.0.17执行结果JudgeCate赋值给SCatei
步骤2.10:当SCatei∈STUCATE时,则执行步骤2.11;否则转至步骤2.12
步骤2.11:确定该URL的类别为SCatei,转至步骤2.13;
步骤2.12:wi=wi-1;
步骤2.13:i=i+1;
步骤2.14:定义URL中的域名分隔符‘.’的数量为DCount,将URL按照域名分隔符‘.’切分为WDOT={dot1,dot2,...,dotDCount-1},其中dotdi是URL按‘.’切分后的第di个字符;定义采用本步骤处理后的URL为DOTURLmws=dotmws+‘.’+dot2+...+dotDCount-1,其中mws=1;
步骤2.15:定义循环变量ws,并赋初值1;
步骤2.16:当ws<=DCount-2时,执行步骤2.17;否则转至步骤2.21;
步骤2.17:将DOTURLws赋值给步骤X1即步骤2.0.1到步骤2.0.17中的JudgeURL;
步骤2.18:执行步骤X1,即执行步骤2.0.1到步骤2.0.17;
步骤2.19:将步骤X1,即步骤2.0.1到步骤2.0.17执行结果JudgeCate赋值给SCatei
步骤2.20:当SCatei∈SCATE时,转至步骤2.23,;否则转至步骤2.22
步骤2.21:SCatei为None;
步骤2.22:ws=ws+1;
步骤2.23:确定该URL的类别SCatei
步骤2.24:得到处理后的网页浏览分类集为WSCATE={SCate1,SCate2,...,SCatesn}。
步骤2.8和步骤2.18:通过爬虫爬取URL网页内容,由朴素贝叶斯分类器确定URL类别,对满足指定置信度的URL加入到URL类别库中,若分类器无法确定URL类别,则和URL集合进行字符匹配来确定URL类别,具体的如图4所示:
步骤2.0.1:定义网页页面访问错误词集EWORD={eword1,eword2,…,eworden},其中,ewordewi为第ewi个网页页面访问错误词,en为网页页面访问错误词总数;定义网页文本停用词SWORD={sword1,sword2,…,swordnum},其中,swordswi为第swi个停用词,nun为停用词总个数;定义网页类别字符集STUCATE={娱乐休闲、电脑网络、生活服务和文化教育};定义URL及URL类别集合为URLS={URLAndCate1,URLAndCate2,...,URLAndCateun},其中,URL及URL类别内容URLAndCateuc={SURLuc,FCATEuc},un为URL类别集合中URL的个数,SURLuc和FCATEuc分别表示为第uc个URL和URL所对应的类别;定义待分类URL为JudgeURL,待分类URL所属于的类别为JudgeCate;
步骤2.0.2:获取JudgeURL;
步骤2.0.3:当能爬取该JudgeURL时,执行步骤2.0.4;否则转至步骤2.0.6;
步骤2.0.4:爬取该JudgeURL网页内容中的title,description,keywords,得到网页内容集webcon={title,description,keywords};
步骤2.0.5:当时,执行步骤2.0.6;否则转至步骤2.0.12;
步骤2.0.6:定义循环变量ju,赋初值为1;
步骤2.0.7:当ju<=un时,执行步骤2.0.8;否则转至步骤2.0.11;
步骤2.0.8:当JudgeURL=SURLju时,执行步骤2.0.10;否则转至步骤2.0.9;
步骤2.0.9:ju=ju+1;
步骤2.0.10:确定JudgeURL的类别FCATEju,把FCATEju赋值给JudgeURL,其中,JudgeCate∈STUCATE,转至步骤2.0.17;
步骤2.0.11:转至步骤2.0.17;
步骤2.0.12:对webcon分词,去除停用词SWORD,得到网页标题集webword={tword1,tword2,..,twordwn},使用朴素贝叶斯分类算法对webword进行分类,从而确定该JudgeURL的类别为JudgeCate,其中,twordtwi为第twi个网页标题词,wn为网页标题词的个数,JudgeCate∈STUCATE;
步骤2.0.13:当JudgeURL在URLS中不存在且JudgeURL包含路径‘/’数量为0或1,执行步骤2.0.14,否则转至步骤2.0.17;
步骤2.0.14:定义朴素贝叶斯返回的分类概率为P,支持向量机确定的该URL类别为SVMCate,分类概率阈值为CP;
步骤2.0.15:当P>CP且SVMCate=JudgeCate时,执行步骤2.0.16,否则转至步骤2.0.17;
步骤2.0.16:将{JudgeURL,JudgeCate}加入到URL及URL类别集合URLS中;
步骤2.0.17:得到JudgeCate。
为了更好的说明本方法的有效性,随机抽取某一天的学生浏览记录,共1675215个URL,若直接爬取每个URL标题内容,可由分类器确定类别的URL数量为201295个,占总数的12.04%;若对URL按设定规则切分,和URL类别库匹配确定类别或分类器确定类别的URL数量为1270577个,占总数的75.84%;使用搜狗语料库,分类器确定的www.kankan.com的类别是IT,www.bilibili.com的类别是文化,而使用自定义学生兴趣语料库,分类器确定的上述两个URL的类别为娱乐休闲;把文本表示成uni-gram的形式,以TF-IDF作为文本特征的权重,平滑参数为0.001朴素贝叶斯确定的电脑网络分类准确率为83%,生活服务分类准确率为91%,文化教育分类准确率为86%,娱乐休闲分类准确率为85%;把文本表示成uni-gram和bi-gram形式,以TF-IDF作为文本特征的权重,平滑参数为0.001朴素贝叶斯确定电脑网络分类准确率为86%,生活服务分类准确率为93%,文化教育分类准确率为89%,娱乐休闲分类准确率为86%;使用步骤1.2去除歧义类别后的电脑网络分类准确率为87%,生活服务分类准确率为94%,文化教育分类准确率为91%,娱乐休闲分类准确率为87%。
本发明可与计算机系统结合,从而自动完成对学生浏览的网页分类。
本发明创造性的提出了一种基于N-Gram和朴素贝叶斯分类器的学生浏览网页分类方法,提高了网页的识别率和分类的准确率。
以上所述仅为本发明的实施例子而已,并不用于限制本发明。凡在本发明的原则之内,所作的等同替换,均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。

Claims (6)

1.一种学生浏览网页分类方法,其特征在于,包括如下步骤:
步骤一:从导航类网站爬取URL、URL描述内容、URL一级分类和URL二级分类,并保存到URL集合中,构建语料库,将语料库中URL描述内容文本表示成uni-gram和bi-gram的形式,以TF-IDF作为文本特征的权重,用朴素贝叶斯分类算法得到分类器;
步骤二:通过爬虫爬取URL网页内容,由步骤一中得出的分类器确定URL所属类别;
步骤三:定义学生浏览网页地址集,对学生浏览的URL进行切分处理,根据步骤二中得出的URL所属类别判断如果分类器返回的类别概率大于所设分类概率阈值CP且分类器返回的类别和使用支持向量机分类得到的类别相同,将该URL和URL类别存入到URL集合中;若分类器无法确定类别,则和URL集合进行字符匹配来确定URL类别,最后得到所有学生网页浏览分类集。
2.根据权利要求1所述的一种学生浏览网页分类方法,其特征在于,所述步骤一中分类器是使用平滑参数Alpha的朴素贝叶斯分类算法得到的,其中参数Alpha的值为0.001。
3.根据权利要求1所述的一种学生浏览网页分类方法,其特征在于,所述步骤二中分类概率阈值CP的取值为0.78。
4.根据权利要求1所述的一种学生浏览网页分类方法,其特征在于,所述步骤一中构建语料库和分类器的具体步骤如下:
步骤1.1:定义文本停用词集SWORD={sword1,sword2,…,swordnum},其中,swordswi为第swi个停用词,nun为停用词总个数;定义朴素贝叶斯平滑参数Alpha,其中Alpha∈(0,1);定义语料库四个分类,分别为娱乐休闲、电脑网络、生活服务和文化教育,G1、G2、G3和G4分别为娱乐休闲、电脑网络、生活服务和文化教育类URL相关信息内容集,G1={URLInfo1,1,URLInfo1,2,...URLInfo1,a},G2={URLInfo2,1,URLinfo2,2,..,URLInfo2,b},G3={URLInfo3,1,URLInfo3,2,...URLInfo3,c},G4={URLInfo4,1,URLInfo4,2,..,URLInfo4,d},其中,a、b、c和d分别表示G1、G2、G3和G4类别中的URL个数,从导航目录网站如雅虎和hao123目录网站爬取的URL信息为URLInfox,y={FirCatex,y,SecCatex,y,URLx,y,URLContentx,y},FirCatex,y,SecCatex,y,URLx,y,URLContentx,y分别表示第Gx类别下第y个URL一级类别、URL二级类别、URL和URL描述内容,x∈[1,4],x为整数,y∈[1,a]或y∈[1,b]或y∈[1,c]或y∈[1,d],y为整数;
步骤1.2:将SecCatex,y为“电视”所对应的一级分类FirCatex,y修改为“娱乐休闲”,将FirCatex,y为“安逸网站大全”的将FirCatex,y修改为“电脑网络”,将SecCatex,y为“成绩查询”和“在线翻译”所对应的一级分类FirCatex,y修改为“文化教育”;
步骤1.3:使用jieba分词对G1,G2,G3,G4中所有URL描述内容进行分词处理,去除停用词SWORD,得到文本分类语料库StuCate={Cate1,Cate2,Cate3,Cate4},其中,娱乐休闲类文本集Cate1={txt1,1,txt1,2,...,txt1,s},电脑网络类文本集Cate2={txt2,1,txt2,2,...,txt2,t},生活服务类文本集Cate3={txt3,1,txt3,2,...,txt3,u},文化教育类文本集Cate4={txt4,1,txt4,2,...,txt4,u},文本单词集txtm,n={wordm,n,1,wordm,n,2,...,wordm,n,z},所述的txtm,n为Catem的第n篇文本中的单词内容,所述的z为第Catem类别下第n个文本的单词个数,所述的wordm,n,e为Catem的第n篇文本内容中第e个单词,所述的s、t、u和v分别为娱乐休闲、电脑网络、生活服务和文化教育类文本个数,且m∈[1,4];
步骤1.4:随机取StuCate中每个类别集合的80%文本作为训练集,把文本表示成uni-gram和bi-gram的形式,结合TF-IDF作为特征的权重;
步骤1.5:使用平滑参数为Alpha的朴素贝叶斯分类算法得到分类器,取StuCate中每个类别集合剩余的20%文本作为测试集,测试分类器准确率。
5.根据权利要求1所述的一种学生浏览网页分类方法,其特征在于,所述步骤二中确定URL所属类别的具体步骤如下:
步骤2.1:定义网页页面访问错误词集EWORD={eword1,eword2,…,eworden},其中,ewordewi为第ewi个网页页面访问错误词,en为网页页面访问错误词总数;定义网页文本停用词SWORD={sword1,sword2,…,swordnum},其中,swordswi为第swi个停用词,nun为停用词总个数;定义网页类别字符集STUCATE={娱乐休闲、电脑网络、生活服务和文化教育};定义URL及URL类别集合为URLS={URLAndCate1,URLAndCate2,...,URLAndCateun},其中,URL及URL类别内容URLAndCateuc={SURLuc,FCATEuc},un为URL类别集合中URL的个数,SURLuc和FCATEuc分别表示为第uc个URL和URL所对应的类别;定义待分类URL为JudgeURL,待分类URL所属于的类别为JudgeCate;
步骤2.2:获取JudgeURL;判断能否爬取该JudgeURL,如果能爬取则进入步骤2.3;如果不能爬取则进入步骤2.5;
步骤2.3:爬取该JudgeURL网页内容中的title,description,keywords,得到网页内容集webcon={title,description,keywords};当时,进入步骤2.4;否则进入步骤2.9;
步骤2.4:定义循环变量ju,赋初值为1;
步骤2.5:对比ju与un的数值大小,当ju<=un时,进入步骤2.6;否则进入步骤2.9;
步骤2.6:判断JudgeURL与SURLju是否相等,如果相等进入步骤2.8;如果不相等进入步骤2.7;
步骤2.7:对循环变量ju的数值加一并重新进入步骤2.5进行判断;
步骤2.8:确定JudgeURL的类别FCATEju,把FCATEju赋值给JudgeURL,其中,JudgeCate∈STUCATE,进入步骤2.15;
步骤2.9:JudgeCate=None,转至步骤2.15;
步骤2.10:对webcon分词,去除停用词SWORD,得到网页标题集webword={tword1,tword2,..,twordwn},使用朴素贝叶斯分类算法对webword进行分类,确定该JudgeURL的类别为JudgeCate,其中,twordtwi为第twi个网页标题词,wn为网页标题词的个数,JudgeCate∈STUCATE;
步骤2.11:当JudgeURL在URLS中不存在且JudgeURL包含路径‘/’数量为0或1时进入步骤2.12,否则进入步骤2.15;
步骤2.12:定义朴素贝叶斯返回的分类概率为P,支持向量机确定的该URL类别为SVMCate,分类概率阈值为CP;
步骤2.13:当P>CP且SVMCate=JudgeCate时,进入步骤2.13,否则进入步骤2.15;
步骤2.14:将{JudgeURL,JudgeCate}加入到URL及URL类别集合URLS中;
步骤2.15:得到JudgeCate。
6.根据权利要求1所述的一种学生浏览网页分类方法,其特征在于,所述步骤三中得到所有学生网页浏览分类集的具体步骤如下:
步骤3.1:定义学生浏览网页地址集WEB={web1,web2,...,websn},学生浏览网页分类集WCATE={SCate1,SCate2,...,SCatesn},其中,sn为网页地址总数,webwi和SCatewi分别为第wi个URL和网页所确定的类别;定义网页类别字符集STUCATE={娱乐休闲,电脑网络,生活服务,文化教育};
步骤3.2:定义循环变量i,用于遍历WEB,赋初值为1;
步骤3.3:比较i与sn的大小,当i<=sn时,进入步骤3.4;否则进入步骤3.22;
步骤3.4:去除URL中webi前缀“http://”和“https://”,定义URL中的目录分隔符‘/’的数量为SCount,将URL按照目录分隔符‘/’切分为WSPR={spr1,spr2,...,sprnws},其中sprsi是原始URL按‘/’切分后的第si个字符,nws=Scount;定义采用本步骤处理后的URL为SPRURLnws=spr1+‘/’+spr2+...+sprnws
步骤3.5:定义循环变量wi,赋初值nws;
步骤3.6:比较wi与1的大小,当wi>=1时,进入步骤207;否则进入步骤3.13;
步骤3.7:将SPRURLwi赋值给步骤二中的待分类URL即JudgeURL;
步骤3.8:将步骤二中得到的待分类URL的所属类别JudgeCate赋值给SCatei
步骤3.9:当SCatei∈STUCATE时,进入步骤3.10;否则进入步骤3.11;
步骤3.10:确定该URL的类别为SCatei,转至步骤3.12;
步骤3.11:对循环变量wi的数值减一并重新进入步骤3.6进行判断;
步骤3.12:对循环变量i的数值加一并重新进入步骤3.3进行判断;
步骤3.13:定义URL中的域名分隔符‘.’的数量为DCount,将URL按照域名分隔符‘.’切分为WDOT={dot1,dot2,...,dotDCount-1},其中dotdi是URL按‘.’切分后的第di个字符;定义采用本步骤处理后的URL为DOTURLmws=dotmws+‘.’+dot2+...+dotDCount-1,其中mws=1;
步骤3.14:定义循环变量ws,并赋初值1;
步骤3.15:当ws<=DCount-2时,进入步骤3.16;否则转至步骤3.19;
步骤3.16:将DOTURLws赋值给步骤二中的待分类URL即JudgeURL;
步骤3.17:将步骤二中得到的待分类URL的所属类别JudgeCate赋值给SCate;
步骤3.18:当SCatei∈SCATE时,转至步骤3.21;否则转至步骤3.20;
步骤3.19:SCatei为None,并进入步骤3.12;
步骤3.20:对循环变量ws的数值加一并重新进入步骤3.15进行判断;
步骤3.21:确定该URL的类别SCatei
步骤3.22:得到处理后的网页浏览分类集WSCATE={SCate1,SCate2,...,SCatesn}。
CN201710792423.5A 2017-09-05 2017-09-05 一种学生浏览网页分类方法 Active CN107506472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710792423.5A CN107506472B (zh) 2017-09-05 2017-09-05 一种学生浏览网页分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710792423.5A CN107506472B (zh) 2017-09-05 2017-09-05 一种学生浏览网页分类方法

Publications (2)

Publication Number Publication Date
CN107506472A true CN107506472A (zh) 2017-12-22
CN107506472B CN107506472B (zh) 2020-09-08

Family

ID=60695709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710792423.5A Active CN107506472B (zh) 2017-09-05 2017-09-05 一种学生浏览网页分类方法

Country Status (1)

Country Link
CN (1) CN107506472B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647263A (zh) * 2018-04-28 2018-10-12 淮阴工学院 一种基于网页切分爬取的网络地址置信度评估方法
CN108874996A (zh) * 2018-06-13 2018-11-23 北京知道创宇信息技术有限公司 网站分类方法及装置
CN108875019A (zh) * 2018-06-20 2018-11-23 淮阴工学院 一种资源结构化链接的信息快速分类方法
CN109299357A (zh) * 2018-08-31 2019-02-01 昆明理工大学 一种老挝语文本主题分类方法
CN109511000A (zh) * 2018-11-06 2019-03-22 武汉斗鱼网络科技有限公司 弹幕类别确定方法、装置、设备及存储介质
CN112100530A (zh) * 2020-08-03 2020-12-18 百度在线网络技术(北京)有限公司 网页分类方法、装置、电子设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101692639A (zh) * 2009-09-15 2010-04-07 西安交通大学 一种基于url的不良网页识别方法
CN101976270A (zh) * 2010-11-29 2011-02-16 南京师范大学 基于不确定推理的文本层次分类方法与装置
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法
CN103218420A (zh) * 2013-04-01 2013-07-24 北京鹏宇成软件技术有限公司 一种网页标题提取方法及装置
CN103631787A (zh) * 2012-08-22 2014-03-12 腾讯科技(深圳)有限公司 网页类型识别方法以及网页类型识别装置
CN103744981A (zh) * 2014-01-14 2014-04-23 南京汇吉递特网络科技有限公司 一种基于网站内容用于网站自动分类分析的系统
CN103885977A (zh) * 2012-12-21 2014-06-25 腾讯科技(深圳)有限公司 一种网页数据的分类方法、装置和系统
CN103927302A (zh) * 2013-01-10 2014-07-16 阿里巴巴集团控股有限公司 一种文本分类方法和系统
CN104376406A (zh) * 2014-11-05 2015-02-25 上海计算机软件技术开发中心 一种基于大数据的企业创新资源管理与分析系统和方法
CN106339459A (zh) * 2016-08-26 2017-01-18 中国科学院信息工程研究所 基于关键词匹配进行中文网页预分类的方法
CN106445994A (zh) * 2016-07-13 2017-02-22 广州精点计算机科技有限公司 一种基于混合算法的网页分类方法和装置
CN106951422A (zh) * 2016-01-07 2017-07-14 腾讯科技(深圳)有限公司 网页训练的方法和装置、搜索意图识别的方法和装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101692639A (zh) * 2009-09-15 2010-04-07 西安交通大学 一种基于url的不良网页识别方法
CN101976270A (zh) * 2010-11-29 2011-02-16 南京师范大学 基于不确定推理的文本层次分类方法与装置
CN103631787A (zh) * 2012-08-22 2014-03-12 腾讯科技(深圳)有限公司 网页类型识别方法以及网页类型识别装置
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法
CN103885977A (zh) * 2012-12-21 2014-06-25 腾讯科技(深圳)有限公司 一种网页数据的分类方法、装置和系统
CN103927302A (zh) * 2013-01-10 2014-07-16 阿里巴巴集团控股有限公司 一种文本分类方法和系统
CN103218420A (zh) * 2013-04-01 2013-07-24 北京鹏宇成软件技术有限公司 一种网页标题提取方法及装置
CN103744981A (zh) * 2014-01-14 2014-04-23 南京汇吉递特网络科技有限公司 一种基于网站内容用于网站自动分类分析的系统
CN104376406A (zh) * 2014-11-05 2015-02-25 上海计算机软件技术开发中心 一种基于大数据的企业创新资源管理与分析系统和方法
CN106951422A (zh) * 2016-01-07 2017-07-14 腾讯科技(深圳)有限公司 网页训练的方法和装置、搜索意图识别的方法和装置
CN106445994A (zh) * 2016-07-13 2017-02-22 广州精点计算机科技有限公司 一种基于混合算法的网页分类方法和装置
CN106339459A (zh) * 2016-08-26 2017-01-18 中国科学院信息工程研究所 基于关键词匹配进行中文网页预分类的方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647263A (zh) * 2018-04-28 2018-10-12 淮阴工学院 一种基于网页切分爬取的网络地址置信度评估方法
CN108647263B (zh) * 2018-04-28 2022-04-12 淮阴工学院 一种基于网页切分爬取的网络地址置信度评估方法
CN108874996A (zh) * 2018-06-13 2018-11-23 北京知道创宇信息技术有限公司 网站分类方法及装置
CN108875019A (zh) * 2018-06-20 2018-11-23 淮阴工学院 一种资源结构化链接的信息快速分类方法
CN108875019B (zh) * 2018-06-20 2022-07-26 淮阴工学院 一种资源结构化链接的信息快速分类方法
CN109299357A (zh) * 2018-08-31 2019-02-01 昆明理工大学 一种老挝语文本主题分类方法
CN109299357B (zh) * 2018-08-31 2022-04-12 昆明理工大学 一种老挝语文本主题分类方法
CN109511000A (zh) * 2018-11-06 2019-03-22 武汉斗鱼网络科技有限公司 弹幕类别确定方法、装置、设备及存储介质
CN109511000B (zh) * 2018-11-06 2021-10-15 武汉斗鱼网络科技有限公司 弹幕类别确定方法、装置、设备及存储介质
CN112100530A (zh) * 2020-08-03 2020-12-18 百度在线网络技术(北京)有限公司 网页分类方法、装置、电子设备及存储介质
CN112100530B (zh) * 2020-08-03 2023-12-22 百度在线网络技术(北京)有限公司 网页分类方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN107506472B (zh) 2020-09-08

Similar Documents

Publication Publication Date Title
Neelakandan et al. A gradient boosted decision tree-based sentiment classification of twitter data
Elmogy et al. Fake reviews detection using supervised machine learning
Sharif et al. Sentiment analysis of Bengali texts on online restaurant reviews using multinomial Naïve Bayes
CN107577759B (zh) 用户评论自动推荐方法
KR102020756B1 (ko) 머신러닝을 이용한 리뷰 분석 방법
Hammad et al. An approach for detecting spam in Arabic opinion reviews
Kaushik et al. A comprehensive study of text mining approach
CN107506472A (zh) 一种学生浏览网页分类方法
CN107784092A (zh) 一种推荐热词的方法、服务器及计算机可读介质
US9817908B2 (en) Systems and methods for news event organization
US20170270098A1 (en) External resource identification
Zhao et al. WTL-CNN: A news text classification method of convolutional neural network based on weighted word embedding
Archchitha et al. Opinion spam detection in online reviews using neural networks
Sivanantham Sentiment analysis on social media for emotional prediction during COVID‐19 pandemic using efficient machine learning approach
Bhakuni et al. Evolution and evaluation: Sarcasm analysis for twitter data using sentiment analysis
Abid et al. Semi-automatic classification and duplicate detection from human loss news corpus
Ma et al. The impact of weighting schemes and stemming process on topic modeling of arabic long and short texts
Al Mostakim et al. Bangla content categorization using text based supervised learning methods
Ziegler Mining for strategic competitive intelligence
Lee et al. Web document classification using topic modeling based document ranking
Phan et al. Applying skip-gram word estimation and SVM-based classification for opinion mining Vietnamese food places text reviews
Senthilkumar et al. A Survey On Feature Selection Method For Product Review
Dařena et al. Clients’ freely written assessment as the source of automatically mined opinions
Maladkar Content based hierarchical URL classification with Convolutional Neural Networks
Ferdous et al. Assortment of bangladeshi e-commerce site reviews using machine learning approaches

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20171222

Assignee: Nanjing Xinlan Youtu Information Technology Co.,Ltd.

Assignor: HUAIYIN INSTITUTE OF TECHNOLOGY

Contract record no.: X2021980002944

Denomination of invention: A method of web page classification for students

Granted publication date: 20200908

License type: Common License

Record date: 20210423