CN108647263A - 一种基于网页切分爬取的网络地址置信度评估方法 - Google Patents

一种基于网页切分爬取的网络地址置信度评估方法 Download PDF

Info

Publication number
CN108647263A
CN108647263A CN201810397206.0A CN201810397206A CN108647263A CN 108647263 A CN108647263 A CN 108647263A CN 201810397206 A CN201810397206 A CN 201810397206A CN 108647263 A CN108647263 A CN 108647263A
Authority
CN
China
Prior art keywords
web page
webpage
crawled
cutting
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810397206.0A
Other languages
English (en)
Other versions
CN108647263B (zh
Inventor
朱全银
潘舒新
胡荣林
李翔
周泓
瞿学新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN201810397206.0A priority Critical patent/CN108647263B/zh
Publication of CN108647263A publication Critical patent/CN108647263A/zh
Application granted granted Critical
Publication of CN108647263B publication Critical patent/CN108647263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Abstract

本公开发明了一种基于网页切分爬取的网络地址置信度评估方法,首先对已分类的网页链接进行切分,使用脚本爬取切分后的网页内容,采用卷积神经网络对网页内容进行分类,将切分后的网页分类准确率与原始网页分类准确率相减,得到网页分类差值集,再通过计算不同切分网页的权重,得到网络地址置信度算法公式,接着使用脚本爬取待分类网页链接,并计算切分的数量,将置信度大于一定阈值的网页链接放入已分类网页链接集中继续优化算法公式中的权重,最后使用网络地址置信度算法得出爬取网页的置信度。本发明方法有效的评估了在对网页进行切分爬取时,待爬取的网页与原始网页内容的信息差异,提高了网页爬取的效率。

Description

一种基于网页切分爬取的网络地址置信度评估方法
技术领域
本发明属于网页信息内容完整性评估技术领域,特别涉及一种基于网页切分爬取的网络地址置信度评估方法。
背景技术
爬取网页信息并对网页进行分类对实现人员的行为习惯分析有着重要的作用和意义。传统的网页爬取技术,往往因为页面更新或者网站停止运营,导致无法全面的得到原始网页的信息,已经不能满足社会信息化发展的需求。近年来,针对网页内容更新频繁,研究者提供了相应的解决方法,如切分网页、手工标注等。
朱全银、潘舒新等人已有的研究基础包括:李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759;Quanyin Zhu,SunqunCao.A Novel Classifier-independent Feature Selection Algorithm for ImbalancedDatasets.2009,p:77-82;Quanyin Zhu,Yunyang Yan,Jin Ding,Jin Qian.The CaseStudy for Price Extracting of Mobile Phone Sell Online.2011,p:282-285;ZhuQuanyin,Pan Lu,Yin Yonghua LiXiang.Influence on Normalization and MagnitudeNormalization for PriceForecasting of Agricultural Products.InformationTechnology Journal(ITJ).2013.Vol.12(15):3046-3057;Quanyin Zhu,Jin Ding,Yonghua Yin,Pei Zhou.A Hybrid Approach for New Products Discovery of CellPhone Based on Web Mining.Journal of Information and Computational Science(JICS).2012,Vol.9(16):5039-5046;Pan S,Fan J,Yu S,et al.A Method of BehaviorEvaluation Based on Web Browsing Information.Smart Grid and ElectricalAutomation(ICSGEA),2017 International Conference on.IEEE,2017:697-700.朱全银、潘舒新等人申请、公开与授权的相关专利:朱全银,尹永华,严云杨,曹苏群等,一种基于神经网络的多品种商品价格预测的数据预处理方法.中国专利:ZL 2012 1 0325368.6,2016.06.08;朱全银,胡蓉静,何苏群,周培等.一种基于线性插补与自适应滑动窗口的商品价格预测方法.中国专利:ZL 2011 1 0423015.5,2015.07.01;朱全银,曹苏群,严云洋,胡蓉静等,一种基于二分数据修补与扰乱因子的商品价格预测方法.中国专利:ZL 2011 10422274.6,2015.07.01;朱全银,辛诚,李翔,潘舒新等,一种基于K-means和LDA双向验证的网络行为习惯聚类方法.中国专利公开号:CN106202480A,2016.12.07;朱全银,辛诚,刘斌,潘舒新等,一种基于分类语料库-关键词词频-记录关联的网络行为习惯量化方法.中国专利公开号CN106202498A,2016.12.07;朱全银,潘舒新,李翔,贾笑颖等,一种多维度的网页浏览行为评估方法.中国专利公开号:CN106886577A,2017.06.23。
现有技术分析:
卜佳俊、李辉、陈伟等在2009年申请的发明专利《基于新闻去重的网页爬虫的构造方法》(中国专利公开号CN 101694658 B,2012.07.04)提出了爬取网页内容再与测试集进行对比,提高爬取效率;周东在2013年申请的发明专利《一种网页爬虫抓取方法及装置》(中国专利公开号CN103336834B,2017.04.12)提出了根据种子数生成网页,从而提高网页爬取的效率;吴羽、黄文恺、李奕宏等人在2017年申请的发明专利《基于搜索及网络爬虫的数据抓取方法》(中国专利公开号CN107679085A,2018.02.09)中提出了基于搜索引擎的网页爬取的数据抓取方式,提高了网页爬虫的适应性。虽然上述三种典型的网页爬虫方式都提高了传统的网页爬取效率,但是当原始网页更新,或者原始网页的地址无法访问时,就会导致上述的爬虫方法无法有效的获取网页信息。朱全银、潘舒新、李翔等人在2017年申请的发明专利《一种多维度网页浏览行为评估方法》(中国专利公开号CN106886577A,2017.06.23)创造性的提出了一种网页切分的方法,即当原始网页无法访问时,通过逐步切分网页的方式爬取子网页。该方法有效的解决了原始网页无法访问的问题。但是,该方法对原始网页进行切分的时候,可能会导致切分后爬取的网页内容,和原始网页内容存在差异,例如原始网页的网页内容为“军事”,通过切分后的网页内容,可能被分为“综合”。
如何区别切分后网页内容与原始网页内容之间的差异,需要一种评估网络地址置信度的算法,对切分后的网页内容进行量化,方便科研人员进行后续的研究,同时提高网页爬取的效率,剔除与原始网页差异过大的网页内容。
卷积神经网络:
卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理和文本分类有出色表现。卷积神经网络由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网络在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网络,卷积神经网络需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。
发明内容
发明目的:针对现有技术中存在的原始网页已经被网站管理员删除,无法爬取到指定内容;对原始网页切分爬取,网页内容发生改变,无法准确反映原始网页的内容的问题,本发明提出一种通过卷积神经网络,为研究人员在爬取网页和切分网页时提供与原始网页内容的对比结果的基于网页切分爬取的网络地址置信度评估方法。
技术方案:为解决上述技术问题,本发明提供一种基于网页切分爬取的网络地址置信度评估方法,具体步骤如下:
(1)先对网页链接进行分类,然后对已分类的网页链接按照“/”和“.”进行切分得到子网页链接,爬取子网页链接的网页信息,采用卷积神经网络对子网页链接进行分类,将子网页链接分类准确率与原始网页分类准确率相减得出网页分类差值集;
(2)将步骤(1)中网页分类差值低于0.5的数据置零,分别计算按照“/”和“.”切分的网页准确率的平均数,然后得到网络地址置信度权重F1和F2,将计算后的F1和F2带入网络地址置信度算法;
(3)统计待爬取的网页链接中“/”和“.”的数量,依次采用脚本访问待爬取网页,分别统计能够正常访问网页时“/”和“.”的数量,将处理后的网页链接放入已分类网页地址集,重新计算F1和F2的值,最后使用网络地址置信度算法计算待爬取网页的网络地址置信度。
进一步的,所述步骤(1)中得到网页分类差值集的具体步骤如下:
(1.1)定义网页地址集、网页分类集;
(1.2)对网页地址集中的URL按照“/”进行切分,使用卷积神经网络计算切分后的分类准确率;
(1.3)对网页地址集中的URL按照“.”进行切分,使用卷积神经网络计算切分后的分类准确率;
(1.4)定义原始网页准确率为1,将步骤(1.2)和步骤(1.3)得到的分类准确率与原始网页准确率相减,得到网页分类差值集。
进一步的,所述步骤(2)中得到网络地址置信度算法的具体步骤如下:
(2.1)定义一级、二级网页信息准确率差集、一级、二级网页权重;
(2.2)将一级网页信息准确率集和二级网页信息准确率集中小于0.5的数值修改为0;
(2.3)计算一级网页权重;
(2.4)计算二级网页权重;
(2.5)得到网络地址置信度算法公式。
进一步的,所述步骤(3)中得到待爬取网页的网络地址置信度的具体步骤如下:
(3.1)定义待爬取网页地址,统计地址中“/”和“.”的数量;
(3.2)使用脚本爬取待爬取网页地址的内容;
(3.3)在原始网页无法爬去的情况下,依次按照“/”、“.”对原网页进行切分后,爬取相关网页内容,并统计切分的次数;
(3.4)正常获取到网页内容后,将处理后的网页URL加入已分类网页链接集,重新对一级网页权重和二级网页权重进行训练;
(3.5)按照步骤(2.5)得到的公式进行计算,得到待爬取网页网络地址置信度。
进一步的,所述步骤(1)中得到网页分类差值集的详细步骤如下:
(1.1)定义WebPage为网页地址集,WebPage={web1,web2,...webi},定义WebCa为网页分类集,WebCa={webca1,1,webca2,2,...,webcai,i},其中,webcai,i为第i个网页的网站类型;
(1.2)定义循环变量n用于遍历Webpage,赋初值为1;
(1.3)当n<=i时,执行步骤(1.4);否则执行步骤(1.17);
(1.4)定义Webn中的分隔符“/”的数量为NUM,将webi按照分隔符“/”切分为WebSp={websp1,websp2,…,websps},其中,s=NUM+1,定义处理后的webi为NWs=websp1+“/”+websp2+…+“/”+websps;
(1.5)定义循环变量m用于遍历步骤(1.4)中得到的NWs,赋初值为s;
(1.6)当m>1时,执行步骤(1.7);否则执行步骤(1.10);
(1.7)使用脚本爬取网页NWm的内容,得到网页内容集webinfo;
(1.8)使用卷积神经网络对步骤(1.7)得到的webinfo进行分类,得到分类准确率cp;定义webcan,n的分类准确率为1,得到NWm与webn分类准确率差值ctd=1-cp;
(1.9)m=m-1;
(1.10)定义Webn中的分隔符“.”的数量为DUM,将webi按照分隔符“.”切分为DWebSp={dwebsp1,dwebsp2,…,dwebspq},其中,q=DUM+1,定义处理后的webi为DNWq=dwebsp1+“.”+dwebsp2+…+“.”+dwebspq;
(1.11)定义循环变量k用于遍历DNWq,赋初值为q;
(1.12)当k>2时,执行步骤(1.13);否则执行步骤(1.16);
(1.13)使用脚本爬取网页DNWk的内容,得到网页内容集dwebinfo;
(1.14)使用卷积神经网络对步骤(1.13)得到的dwebinfo进行分类,得到分类准确率dcp,计算DNWm与webn分类准确率差值dctd=1-dcp;
(1.15)k=k-1;
(1.16)n=n+1;
(1.17)得到处理后的网页分类准确率差值WDCT={wdct1,1,wdct1,2,...wdcti,NUM+DUM};其中,wdcti,NUM+DUM为按照上述步骤得到的第NUM+DNUM与原网页的分类准确率差值,NUM为步骤(1.4)得到的分隔符“/”的数量,DUM为步骤(1.10)得到的分隔符“.”的数量。
进一步的,所述步骤(2)中得到网络地址置信度算法的详细步骤如下:
(2.1)定义一级网页权重为F1,定义二级网页权重为F2,定义一级网页信息准确率差FCD={fcd1,1,fcd1,2,...fcdi,NUM}=WDCT-{wdct1,NUM+1,wdct1,NUM+2,
...wdcti,NUM+DUM},定义二级网页准确率差值集SCD={scd1,NUM+11,scd1,
NUM+2,...scdi,NUM+DUM}=WDCT-FCD;
(2.2)遍历一级网页信息准确率差集FCD,若值小于0.5,则将数据改为0,得到一级网页处理集FM;
(2.3)遍历二级网页信息准确率差集SCD,若值小于0.5,则将数据改为0,得到一级网页处理集SM;
(2.4)计算,其中,NUM为步骤(1.4)得到的分隔符“/”的数量,fcdi,NUM为步骤(2.1)得到的一级网页信息准确率差集FCD中的元素,i为步骤(1.1)得到的共有i个网页;
(2.5)计算,其中,NUM为步骤(1.4)得到的分隔符“/”的数量,DUM为步骤(1.10)得到的分隔符“.”的数量,scdi,NUM+1为步骤(2.1)得到的二级网页信息准确率差集SCD中的元素,i为步骤(1.1)得到的共有i个网页;
(2.6)网络地址置信度公式,其中,sp为原始网页切割“/”的次数,dp为原始网页切割“.”的次数,F1为步骤(2.4)得到的数值,F2为步骤(2.5)得到的数值。
进一步的,所述步骤(3)中得到待爬取网页的网络地址置信度的具体步骤如下:
(3.1)定义待爬取网页地址为URL,其中,URL包含t个分隔符“/”和r个分隔符“.”;
(3.2)使用脚本爬取待爬取网页地址URL,定义定义爬取标记GET,GET为0时,代表网页无法正常访问;
(3.3)当GET=0时,执行步骤(3.4);否则执行步骤(3.10);
(3.4)对URL按照“/”进行切割并访问,定义fst为切分网页的次数,定义爬取标记GETfst,当GETfst为0时,代表第fst次切分后的网页无法访问;
(3.5)当fst<=t时,执行步骤(3.6);否则执行步骤(3.7);
(3.6)当GETfst=0时,执行步骤(3.4);否则执行步骤(3.7);
(3.7)对URL按照“.”进行切割并访问,定义sst为切分网页的次数,定义爬取标记GETsst,当GETsst为0时,代表第sst次切分后的网页无法访问;
(3.8)当sst<=r时,执行步骤(3.9);否则执行步骤(3.10);
(3.9)当GET=0时,执行步骤(3.7);否则执行步骤(3.10);
(3.10)将处理后的网页URL加入WebPage,重新对F1和F2进行训练;
(3.11)得到待爬取网络地址置信度,其中,fst为步骤(3.4)得到的切割“/”的次数,sst为步骤(3.7)得到的切割“.”的次数,F1为步骤(2.4)得到的数值,F2为步骤(2.5)得到的数值。
与现有技术相比,本发明的优点在于:
本发明方法利用卷积神经网络,对网页进行内容置信度评估,有效的增加了爬取网页的内容可信度,为网页分类提供了准确度参考值,量化了待爬取网页与原始网页内容的差异。具体的:本发明首先对已分类网页分别按照“/”和“.”进行切分后,使用脚本爬取切分后的网页内容,使用卷积神经网络得到切分后的网页分类准确率,将切分后的网页与原始网页分类准确率相减,得到网页分类准确率差集,按照“/”和“.”将网页分为一级网页和二级网页,并通过网页分类准确率差集得到对应的权重F1和F2,使用脚本爬取待测网页URL的内容,并统计切分数量,将切分数量带入算法公式,得到最终爬取网页内容的网络地址置信度,提高了网页爬取的效率,量化了切分网页与原始网页内容的差异。此外,本发明提出了一种自适应的权重计算方法,提高了网络地址置信度的各权重的准确度。
附图说明
图1为本发明的总体流程图;
图2为图1中网页切分和子网页分类准确度差计算流程图;
图3为图1中计算分级网页信息权重流程图;
图4为图1中待测网页网络地址置信度评估和权重自适应学习流程图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
如图1-4示,本发明包括如下步骤:
步骤一:对已分类的网页链接按照“/”和“.”进行切分,得到子网页链接,爬取子网页链接的网页信息,采用卷积神经网络对子网页链接进行分类,将子网页链接分类准确率与原始网页分类准确率相减,得到网页分类差值集,具体的如图2所示:
步骤1.1:定义WebPage为网页地址集,WebPage={web1,web2,...webi},定义WebCa为网页分类集,WebCa={webca1,1,webca2,2,...,webcai,i},其中,webcai,i为第i个网页的网站类型;
步骤1.2:定义循环变量n用于遍历Webpage,赋初值为1;
步骤1.3:当n<=i时,执行步骤1.4;否则执行步骤1.17;
步骤1.4:定义Webn中的分隔符“/”的数量为NUM,将webi按照分隔符“/”切分为WebSp={websp1,websp2,…,websps},其中,s=NUM+1,定义处理后的webi为NWs=websp1+“/”+websp2+…+“/”+websps
步骤1.5:定义循环变量m用于遍历步骤1.4中得到的NWs,赋初值为s;
步骤1.6:当m>1时,执行步骤1.7;否则执行步骤1.10;
步骤1.7:使用脚本爬取网页NWm的内容,得到网页内容集webinfo;
步骤1.8:使用卷积神经网络对步骤1.7得到的webinfo进行分类,得到分类准确率cp。定义webcan,n的分类准确率为1,得到NWm与webn分类准确率差值ctd=1-cp;
步骤1.9:m=m-1;
步骤1.10:定义Webn中的分隔符“.”的数量为DUM,将webi按照分隔符“.”切分为DWebSp={dwebsp1,dwebsp2,…,dwebspq},其中,q=DUM+1,定义处理后的webi为DNWq=dwebsp1+“.”+dwebsp2+…+“.”+dwebspq
步骤1.11:定义循环变量k用于遍历DNWq,赋初值为q;
步骤1.12:当k>2时,执行步骤1.13;否则执行步骤1.16;
步骤1.13:使用脚本爬取网页DNWk的内容,得到网页内容集dwebinfo;
步骤1.14:使用卷积神经网络对步骤1.13得到的dwebinfo进行分类,得到分类准确率dcp,计算DNWm与webn分类准确率差值dctd=1-dcp;
步骤1.15:k=k-1;
步骤1.16:n=n+1;
步骤1.17:得到处理后的网页分类准确率差值集WDCT={wdct1,1,wdct1,2,...wdcti,NUM+DUM}。其中,wdcti,NUM+DUM为按照上述步骤得到的第NUM+DNUM与原网页的分类准确率差值,NUM为步骤1.4得到的分隔符“/”的数量,DUM为步骤1.10得到的分隔符“.”的数量。
步骤二:将网页分类差值集中低于0.5的数据置零,分别计算按照“/”和“.”切分的网页准确率的平均数,得到网络地址置信度权重F1和F2,将计算后的F1和F2带入网络地址置信度算法,具体的如图3所示:
步骤2.1:定义一级网页权重为F1,定义二级网页权重为F2,定义一级网页信息准确率差集FCD={fcd1,1,fcd1,2,...fcdi,NUM}=WDCT-{wdct1,NUM+1,wdct1,NUM+2,...wdcti,NUM+DUM},定义二级网页准确率差值集SCD={scd1,NUM+11,scd1,NUM+2,...scdi,NUM+DUM}=WDCT-FCD;
步骤2.2:遍历一级网页信息准确率差集FCD,若值小于0.5,则将数据改为0,得到一级网页处理集FM;
步骤2.3:遍历二级网页信息准确率差集SCD,若值小于0.5,则将数据改为0,得到一级网页处理集SM;
步骤2.4:计算其中,NUM为步骤1.4得到的分隔符“/”的数量,fcdi,NUM为步骤2.1得到的一级网页信息准确率差集FCD中的元素,i为步骤1.1得到的共有i个网页;
步骤2.5:计算其中,NUM为步骤1.4得到的分隔符“/”的数量,DUM为步骤1.10得到的分隔符“.”的数量,scdi,NUM+1为步骤2.1得到的二级网页信息准确率差集SCD中的元素,i为步骤1.1得到的共有i个网页;
步骤2.6:网络地址置信度公式WebHealth=1-(sp)(F1)-(dp)(F2),其中,sp为原始网页切割“/”的次数,dp为原始网页切割“.”的次数,F1为步骤2.4得到的数值,F2为步骤2.5得到的数值。
步骤三:统计待爬取的网页链接中“/”和“.”的数量,依次采用脚本访问待爬取网页,分别统计能够正常访问网页时“/”和“.”的数量,将处理后的网页链接放入已分类网页地址集,重新计算F1和F2的值,最后,使用网络地址置信度算法计算待爬取网页的网络地址置信度,具体的如图4所示:
步骤3.1:定义待爬取网页地址为URL,其中,URL包含t个分隔符“/”和r个分隔符“.”;
步骤3.2:使用脚本爬取待爬取网页地址URL,定义定义爬取标记GET,GET为0时,代表网页无法正常访问;
步骤3.3:当GET=0时,执行步骤3.4;否则执行步骤3.10;
步骤3.4:对URL按照“/”进行切割并访问,定义fst为切分网页的次数,定义爬取标记GETfst,当GETfst为0时,代表第fst次切分后的网页无法访问;
步骤3.5:当fst<=t时,执行步骤3.6;否则执行步骤3.7;
步骤3.6:当GETfst=0时,执行步骤3.4;否则执行步骤3.7;
步骤3.7:对URL按照“.”进行切割并访问,定义sst为切分网页的次数,定义爬取标记GETsst,当GETsst为0时,代表第sst次切分后的网页无法访问;
步骤3.8:当sst<=r时,执行步骤3.9;否则执行步骤3.10;
步骤3.9:当GET=0时,执行步骤3.7;否则执行步骤3.10;
步:3.10:将处理后的网页URL加入WebPage,重新对F1和F2进行训练;
步骤3.11:得到待爬取网络地址置信度WebHealthURL=1-(fst)(F1)-(sst)(F2),其中,fst为步骤3.4得到的切割“/”的次数,sst为步骤3.7得到的切割“.”的次数,F1为步骤2.4得到的数值,F2为步骤2.5得到的数值。
为了更好的说明本方法的有效性,抽取10000条已经分类的网页URL进行分析。首先将10000条网页进行切分,使用卷积神经网络对切分后的网页进行分类,并计算得到F1和F2分别为0.4和0.6。采用直接访问网页的方法获取网页内容并进行分类,能够获取到534个准确度在90%以上的网页,占总数的5.34%,消耗时间162分钟;采用切分后直接访问网页的方法获取网页内容并进行分类,能够获取到3540个准确度在90%以上的网页,占总数的35.40%,消耗时间486分钟;采用本发明方法的步骤,在切分网页后,先获取切分网页的网络地址置信度,当高于0.5时进行网页内容的爬取,能够获取到3649个准确度在90%以上的网页,占总数的36.49%,消耗时间58分钟,相比直接访问准确率提高了51.48%,消耗时间缩短了2.79倍;相比切分后直接分类准确率提高了1.09%,消耗时间缩短了8.37倍。
以上所述仅为本发明的实施例子而已,并不用于限制本发明。凡在本发明的原则之内,所作的等同替换,均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。

Claims (7)

1.一种基于网页切分爬取的网络地址置信度评估方法,其特征在于,具体步骤如下:
(1)先对网页链接进行分类,然后对已分类的网页链接按照“/”和“.”进行切分得到子网页链接,爬取子网页链接的网页信息,采用卷积神经网络对子网页链接进行分类,将子网页链接分类准确率与原始网页分类准确率相减得出网页分类差值集;
(2)将步骤(1)中网页分类差值低于0.5的数据置零,分别计算按照“/”和“.”切分的网页准确率的平均数,然后得到网络地址置信度权重F1和F2,将计算后的F1和F2带入网络地址置信度算法;
(3)统计待爬取的网页链接中“/”和“.”的数量,依次采用脚本访问待爬取网页,分别统计能够正常访问网页时“/”和“.”的数量,将处理后的网页链接放入已分类网页地址集,重新计算F1和F2的值,最后使用网络地址置信度算法计算待爬取网页的网络地址置信度。
2.根据权利要求1所述的一种基于网页切分爬取的网络地址置信度评估方法,其特征在于,所述步骤(1)中得到网页分类差值集的具体步骤如下:
(1.1)定义网页地址集、网页分类集;
(1.2)对网页地址集中的URL按照“/”进行切分,使用卷积神经网络计算切分后的分类准确率;
(1.3)对网页地址集中的URL按照“.”进行切分,使用卷积神经网络计算切分后的分类准确率;
(1.4)定义原始网页准确率为1,将步骤(1.2)和步骤(1.3)得到的分类准确率与原始网页准确率相减,得到网页分类差值集。
3.根据权利要求1所述的一种基于网页切分爬取的网络地址置信度评估方法,其特征在于,所述步骤(2)中得到网络地址置信度算法的具体步骤如下:
(2.1)定义一级、二级网页信息准确率差集、一级、二级网页权重;
(2.2)将一级网页信息准确率集和二级网页信息准确率集中小于0.5的数值修改为0;
(2.3)计算一级网页权重;
(2.4)计算二级网页权重;
(2.5)得到网络地址置信度算法公式。
4.根据权利要求3所述的一种基于网页切分爬取的网络地址置信度评估方法,其特征在于,所述步骤(3)中得到待爬取网页的网络地址置信度的具体步骤如下:
(3.1)定义待爬取网页地址,统计地址中“/”和“.”的数量;
(3.2)使用脚本爬取待爬取网页地址的内容;
(3.3)在原始网页无法爬去的情况下,依次按照“/”、“.”对原网页进行切分后,爬取相关网页内容,并统计切分的次数;
(3.4)正常获取到网页内容后,将处理后的网页URL加入已分类网页链接集,重新对一级网页权重和二级网页权重进行训练;
(3.5)按照步骤(2.5)得到的公式进行计算,得到待爬取网页网络地址置信度。
5.根据权利要求1所述的一种基于网页切分爬取的网络地址置信度评估方法,其特征在于,所述步骤(1)中得到网页分类差值集的详细步骤如下:
(1.1)定义WebPage为网页地址集,WebPage={web1,web2,...webi},定义WebCa为网页分类集,WebCa={webca1,1,webca2,2,...,webcai,i},其中,webcai,i为第i个网页的网站类型;
(1.2)定义循环变量n用于遍历Webpage,赋初值为1;
(1.3)当n<=i时,执行步骤(1.4);否则执行步骤(1.17);
(1.4)定义Webn中的分隔符“/”的数量为NUM,将webi按照分隔符“/”切分为WebSp={websp1,websp2,…,websps},其中,s=NUM+1,定义处理后的webi为NWs=websp1+“/”+websp2+…+“/”+websps;
(1.5)定义循环变量m用于遍历步骤(1.4)中得到的NWs,赋初值为s;
(1.6)当m>1时,执行步骤(1.7);否则执行步骤(1.10);
(1.7)使用脚本爬取网页NWm的内容,得到网页内容集webinfo;
(1.8)使用卷积神经网络对步骤(1.7)得到的webinfo进行分类,得到分类准确率cp;定义webcan,n的分类准确率为1,得到NWm与webn分类准确率差值ctd=1-cp;
(1.9)m=m-1;
(1.10)定义Webn中的分隔符“.”的数量为DUM,将webi按照分隔符“.”切分为DWebSp={dwebsp1,dwebsp2,…,dwebspq},其中,q=DUM+1,定义处理后的webi为DNWq=dwebsp1+“.”+dwebsp2+…+“.”+dwebspq;
(1.11)定义循环变量k用于遍历DNWq,赋初值为q;
(1.12)当k>2时,执行步骤(1.13);否则执行步骤(1.16);
(1.13)使用脚本爬取网页DNWk的内容,得到网页内容集dwebinfo;
(1.14)使用卷积神经网络对步骤(1.13)得到的dwebinfo进行分类,得到分类准确率dcp,计算DNWm与webn分类准确率差值dctd=1-dcp;
(1.15)k=k-1;
(1.16)n=n+1;
(1.17)得到处理后的网页分类准确率差值WDCT={wdct1,1,wdct1,2,...wdcti,NUM+DUM};其中,wdcti,NUM+DUM为按照上述步骤得到的第NUM+DNUM与原网页的分类准确率差值,NUM为步骤(1.4)得到的分隔符“/”的数量,DUM为步骤(1.10)得到的分隔符“.”的数量。
6.根据权利要求5所述的一种基于网页切分爬取的网络地址置信度评估方法,其特征在于,所述步骤(2)中得到网络地址置信度算法的详细步骤如下:
(2.1)定义一级网页权重为F1,定义二级网页权重为F2,定义一级网页信息准确率差FCD={fcd1,1,fcd1,2,...fcdi,NUM}=WDCT-{wdct1,NUM+1,wdct1,NUM+2,...wdcti,NUM+DUM},定义二级网页准确率差值集SCD={scd1,NUM+11,scd1,NUM+2,...scdi,NUM+DUM}=WDCT-FCD;
(2.2)遍历一级网页信息准确率差集FCD,若值小于0.5,则将数据改为0,得到一级网页处理集FM;
(2.3)遍历二级网页信息准确率差集SCD,若值小于0.5,则将数据改为0,得到一级网页处理集SM;
(2.4)计算其中,NUM为步骤(1.4)得到的分隔符“/”的数量,fcdi,NUM为步骤(2.1)得到的一级网页信息准确率差集FCD中的元素,i为步骤(1.1)得到的共有i个网页;
(2.5)计算其中,NUM为步骤(1.4)得到的分隔符“/”的数量,DUM为步骤(1.10)得到的分隔符“.”的数量,scdi,NUM+1为步骤(2.1)得到的二级网页信息准确率差集SCD中的元素,i为步骤(1.1)得到的共有i个网页;
(2.6)网络地址置信度公式WebHealth=1-(sp)(F1)-(dp)(F2),其中,sp为原始网页切割“/”的次数,dp为原始网页切割“.”的次数,F1为步骤(2.4)得到的数值,F2为步骤(2.5)得到的数值。
7.根据权利要求6所述的一种基于网页切分爬取的网络地址置信度评估方法,其特征在于,所述步骤(3)中得到待爬取网页的网络地址置信度的具体步骤如下:
(3.1)定义待爬取网页地址为URL,其中,URL包含t个分隔符“/”和r个分隔符“.”;
(3.2)使用脚本爬取待爬取网页地址URL,定义定义爬取标记GET,GET为0时,代表网页无法正常访问;
(3.3)当GET=0时,执行步骤(3.4);否则执行步骤(3.10);
(3.4)对URL按照“/”进行切割并访问,定义fst为切分网页的次数,定义爬取标记GETfst,当GETfst为0时,代表第fst次切分后的网页无法访问;
(3.5)当fst<=t时,执行步骤(3.6);否则执行步骤(3.7);
(3.6)当GETfst=0时,执行步骤(3.4);否则执行步骤(3.7);
(3.7)对URL按照“.”进行切割并访问,定义sst为切分网页的次数,定义爬取标记GETsst,当GETsst为0时,代表第sst次切分后的网页无法访问;
(3.8)当sst<=r时,执行步骤(3.9);否则执行步骤(3.10);
(3.9)当GET=0时,执行步骤(3.7);否则执行步骤(3.10);
(3.10)将处理后的网页URL加入WebPage,重新对F1和F2进行训练;
(3.11)得到待爬取网络地址置信度WebHealthURL=1-(fst)(F1)-(sst)(F2),其中,fst为步骤(3.4)得到的切割“/”的次数,sst为步骤(3.7)得到的切割“.”的次数,F1为步骤(2.4)得到的数值,F2为步骤(2.5)得到的数值。
CN201810397206.0A 2018-04-28 2018-04-28 一种基于网页切分爬取的网络地址置信度评估方法 Active CN108647263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810397206.0A CN108647263B (zh) 2018-04-28 2018-04-28 一种基于网页切分爬取的网络地址置信度评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810397206.0A CN108647263B (zh) 2018-04-28 2018-04-28 一种基于网页切分爬取的网络地址置信度评估方法

Publications (2)

Publication Number Publication Date
CN108647263A true CN108647263A (zh) 2018-10-12
CN108647263B CN108647263B (zh) 2022-04-12

Family

ID=63748434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810397206.0A Active CN108647263B (zh) 2018-04-28 2018-04-28 一种基于网页切分爬取的网络地址置信度评估方法

Country Status (1)

Country Link
CN (1) CN108647263B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109743286A (zh) * 2018-11-29 2019-05-10 武汉极意网络科技有限公司 一种基于图卷积神经网络的ip类型标记方法及设备
WO2020164276A1 (zh) * 2019-02-13 2020-08-20 平安科技(深圳)有限公司 网页数据爬取方法、装置、系统及计算机可读存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110125699A1 (en) * 2005-04-05 2011-05-26 ART Technology Group Tracking methods and systems that employ bayesian networks
CN103336834A (zh) * 2013-07-11 2013-10-02 北京京东尚科信息技术有限公司 一种网页爬虫抓取方法及装置
CN103823824A (zh) * 2013-11-12 2014-05-28 哈尔滨工业大学深圳研究生院 一种借助互联网自动构建文本分类语料库的方法及系统
CN104598887A (zh) * 2015-01-29 2015-05-06 华东师范大学 用于非规范格式手写中文地址的识别方法
US20150347859A1 (en) * 2014-05-30 2015-12-03 Apple Inc. Credit Card Auto-Fill
CN106295139A (zh) * 2016-07-29 2017-01-04 姹ゅ钩 一种基于深度卷积神经网络的舌体自诊健康云服务系统
CN106372390A (zh) * 2016-08-25 2017-02-01 姹ゅ钩 一种基于深度卷积神经网络的预防肺癌自助健康云服务系统
CN106776580A (zh) * 2017-01-20 2017-05-31 中山大学 混合的深度神经网络cnn和rnn的主题句识别方法
US20170262545A1 (en) * 2016-03-09 2017-09-14 Le Holdings (Beijing) Co., Ltd. Method and electronic device for crawling webpage
CN107329950A (zh) * 2017-06-13 2017-11-07 武汉工程大学 一种基于无词典的中文地址分词方法
CN107451433A (zh) * 2017-06-27 2017-12-08 中国科学院信息工程研究所 一种基于文本内容的信息源识别方法与装置
CN107506472A (zh) * 2017-09-05 2017-12-22 淮阴工学院 一种学生浏览网页分类方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110125699A1 (en) * 2005-04-05 2011-05-26 ART Technology Group Tracking methods and systems that employ bayesian networks
CN103336834A (zh) * 2013-07-11 2013-10-02 北京京东尚科信息技术有限公司 一种网页爬虫抓取方法及装置
CN103823824A (zh) * 2013-11-12 2014-05-28 哈尔滨工业大学深圳研究生院 一种借助互联网自动构建文本分类语料库的方法及系统
US20150347859A1 (en) * 2014-05-30 2015-12-03 Apple Inc. Credit Card Auto-Fill
CN104598887A (zh) * 2015-01-29 2015-05-06 华东师范大学 用于非规范格式手写中文地址的识别方法
US20170262545A1 (en) * 2016-03-09 2017-09-14 Le Holdings (Beijing) Co., Ltd. Method and electronic device for crawling webpage
CN106295139A (zh) * 2016-07-29 2017-01-04 姹ゅ钩 一种基于深度卷积神经网络的舌体自诊健康云服务系统
CN106372390A (zh) * 2016-08-25 2017-02-01 姹ゅ钩 一种基于深度卷积神经网络的预防肺癌自助健康云服务系统
CN106776580A (zh) * 2017-01-20 2017-05-31 中山大学 混合的深度神经网络cnn和rnn的主题句识别方法
CN107329950A (zh) * 2017-06-13 2017-11-07 武汉工程大学 一种基于无词典的中文地址分词方法
CN107451433A (zh) * 2017-06-27 2017-12-08 中国科学院信息工程研究所 一种基于文本内容的信息源识别方法与装置
CN107506472A (zh) * 2017-09-05 2017-12-22 淮阴工学院 一种学生浏览网页分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
朱全银等: "Web科技新闻分类抽取算法", 《淮阴工学院学报》 *
白涛: "基于词典和全切分的中文农业网页分词算法的研究", 《新疆农业大学学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109743286A (zh) * 2018-11-29 2019-05-10 武汉极意网络科技有限公司 一种基于图卷积神经网络的ip类型标记方法及设备
WO2020164276A1 (zh) * 2019-02-13 2020-08-20 平安科技(深圳)有限公司 网页数据爬取方法、装置、系统及计算机可读存储介质

Also Published As

Publication number Publication date
CN108647263B (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN108256052A (zh) 基于tri-training的汽车行业潜在客户识别方法
CN106960063A (zh) 一种针对招商引资领域的互联网情报抓取和推荐系统
CN108363821A (zh) 一种信息推送方法、装置、终端设备及存储介质
CN108364028A (zh) 一种基于深度学习的互联网网站自动分类方法
Nadimi-Shahraki et al. A systematic review of the whale optimization algorithm: theoretical foundation, improvements, and hybridizations
CN103546326B (zh) 一种网站流量统计的方法
CN107679183A (zh) 分类器用训练数据获取方法和装置、服务器及存储介质
CN101894351A (zh) 基于多智能Agent的旅游多媒体信息个性化服务系统
CN106815652A (zh) 一种基于大数据相关性分析的配电网供电可靠性预测方法
Sultanov et al. Application of swarm techniques to requirements tracing
CN112199508B (zh) 一种基于远程监督的参数自适应农业知识图谱推荐方法
CN109359137B (zh) 基于特征筛选与半监督学习的用户成长性画像构建方法
CN106095939B (zh) 账户权限的获取方法和装置
CN103208039A (zh) 软件项目风险评价方法及装置
CN109583635A (zh) 一种面向运行可靠性的短期负荷预测建模方法
CN103838886A (zh) 基于代表词知识库的文本内容分类方法
CN103839183A (zh) 智能授信方法及智能授信装置
CN112529638B (zh) 基于用户分类和深度学习的服务需求动态预测方法及系统
CN109710766B (zh) 一种工单数据的投诉倾向分析预警方法及装置
Huang et al. Research on urban modern architectural art based on artificial intelligence and GIS image recognition system
CN108647263A (zh) 一种基于网页切分爬取的网络地址置信度评估方法
CN104850868A (zh) 一种基于k-means和神经网络聚类的客户细分方法
CN110457283A (zh) 一种基于数据挖掘的教学点评与推荐系统及其方法
Xie et al. Autoencoder-based deep belief regression network for air particulate matter concentration forecasting
Gao Stability analysis of rock slope based on an abstraction ant colony clustering algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20181012

Assignee: JIANGSU AOFAN TECHNOLOGY CO.,LTD.

Assignor: HUAIYIN INSTITUTE OF TECHNOLOGY

Contract record no.: X2022980027215

Denomination of invention: A web address confidence evaluation method based on web page segmentation and crawling

Granted publication date: 20220412

License type: Common License

Record date: 20221229