CN111339453A - 导航页的判别方法和装置 - Google Patents
导航页的判别方法和装置 Download PDFInfo
- Publication number
- CN111339453A CN111339453A CN201811556048.5A CN201811556048A CN111339453A CN 111339453 A CN111339453 A CN 111339453A CN 201811556048 A CN201811556048 A CN 201811556048A CN 111339453 A CN111339453 A CN 111339453A
- Authority
- CN
- China
- Prior art keywords
- page
- webpage
- classified
- navigation page
- navigation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000013145 classification model Methods 0.000 claims abstract description 43
- 238000004422 calculation algorithm Methods 0.000 claims description 20
- 238000007635 classification algorithm Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000007477 logistic regression Methods 0.000 claims description 8
- 238000012706 support-vector machine Methods 0.000 claims description 5
- 238000004904 shortening Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请公开了一种导航页的判别方法和装置,该方法包括:统计已知类型的网页中的标签数目;其中,所述已知类型包括导航页和内容页;基于所述已知类型和所述标签数目,训练分类模型;根据所述分类模型确定待分类网页的类型。本申请实施例提供的导航页的判别方法,不仅能够直接利用网页的不同标签信息,即可自动地将导航页和内容页区分开,还能够快速地判断导航页是否有更新,同时动态地调整抓取时间,避免根据保存的网页文本对导航页和内容页进行分类,以及通过定时抓取导航页来判断导航页是否更新,所造成的内存资源被大量地占用的情况,进而提高了网页判别的效率。
Description
技术领域
本发明一般涉及信息技术领域,具体涉及一种导航页的判别方法和装置。
背景技术
在信息爆炸的现代社会中,人们可以通过手机和电脑等终端设备方便快捷地访问网络,浏览新闻页面等,畅享网上冲浪所带来的无限乐趣。其中,互联网的网页类型可以简单地分为导航页和内容页两个大类。顾名思义,导航页用于显示内容页的标题,引导网民浏览网页,而内容页则用于显示具体的文本信息。
在涉及主题的爬虫系统中,导航页和内容页的作用是不同的。内容页可以直接用来主题建模,而导航页由于内容杂乱无章,对于构建主题毫无用处。同时,导航页的更新频率比内容页要快的多,还需要为这两种页面设定不同的抓取时间。因此,判别网页的类型是导航页还是内容页,是亟待解决的技术问题。
相关技术根据网页文本的区别,实现对导航页和内容页的分类。同时,通过定时抓取导航页,并比较相邻时间所保存的导航页文本,来判断导航页是否更新。然而,相关技术对所有网页都需要获取网页文本并保存,会导致内存资源被大量地占用;并且,定时抓取导航页会出现当导航页中信息更新慢时,比如凌晨时段,爬虫系统仍频繁地抓取网页,以及当导航页中信息更新快时,比如白天工作时段,爬虫系统却不能及时地抓取网页的现象。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种导航页的判别方法和装置,不仅能够直接利用网页的不同标签信息,即可自动地将导航页和内容页区分开,还能够快速地判断导航页是否有更新,同时动态地调整抓取时间,避免根据保存的网页文本对导航页和内容页进行分类,以及通过定时抓取导航页来判断导航页是否更新,所造成的内存资源被大量地占用的情况,进而提高了网页判别的效率。
第一方面,本申请提供一种导航页的判别方法,包括:
统计已知类型的网页中的标签数目;其中,所述已知类型包括导航页和内容页;
基于所述已知类型和所述标签数目,训练分类模型;
根据所述分类模型确定待分类网页的类型。
第二方面,本申请提供一种导航页的判别装置,包括:
统计模块,用于统计已知类型的网页中的标签数目;其中,所述已知类型包括导航页和内容页;
训练模块,用于基于所述已知类型和所述标签数目,训练分类模型;
确定模块,用于根据所述分类模型确定待分类网页的类型。
综上,本申请实施例提供的导航页的判别方法和装置,统计已知类型的网页中的标签数目,已知类型包括导航页和内容页;由于导航页用于显示内容页的标题,所以导航页中有很多URL链接,网民通过点击URL链接即可浏览网页内容,而内容页则用于显示具体的文本信息,所以内容页中都是由段落组成的文本;因此,本申请实施例能够直接利用导航页和内容页的不同标签信息,并基于已知类型和标签数目,训练得到分类模型;进而,根据分类模型确定出待分类网页的类型,即可自动地将导航页和内容页区分开,避免了根据保存的网页文本对导航页和内容页进行分类,所造成的内存资源被大量地占用的情况,提高了网页判别的效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请实施例提供的一种导航页的判别方法的基本流程示意图;
图2为本申请实施例提供的一种导航页的示意图;
图3为本申请实施例提供的一种内容页的示意图;
图4为本申请实施例提供的另一种导航页的判别方法的流程示意图;
图5为本申请实施例提供的又一种导航页的判别方法的流程示意图;
图6为本申请实施例提供的一种导航页判别装置;
图7为本申请实施例提供的另一种导航页判别装置;
图8为本申请实施例提供的又一种导航页判别装置;
图9为本申请实施例提供的一种计算机系统。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本申请实施例提供一种导航页的判别方法,该方法应用于终端中。需要说明的是,本申请实施例中所涉及的终端可以包括但不限于个人计算机(PersonalComputer,PC)、个人数字助理(PersonalDigital Assistant,PDA)、平板电脑(Tablet Computer)、无线手持设备和手机等。
为了便于理解和说明,下面通过图1至图8详细的阐述本申请实施例提供的导航页的判别方法及装置。
请参考图1,其为本申请实施例提供的一种导航页的判别方法的基本流程示意图,该方法包括以下步骤:
S101,统计已知类型的网页中的标签数目。
其中,已知类型可以包括但不限于导航页和内容页。
需要说明的是,互联网的网页类型可以简单地分为导航页和内容页两个大类。其中,导航页用于显示内容页的标题,所以导航页中有很多URL链接,网民通过点击URL链接即可浏览网页内容,如图2所示,其为本申请实施例提供的一种导航页的示意图;而内容页则用于显示具体的文本信息,所以内容页中都是由段落组成的文本,请参考图3,其为本申请实施例提供的一种内容页的示意图。
可以理解的是,统一资源定位符(Uniform Resource Locator,URL)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。URL的格式为:
Protocal://hostname[:port]/path[;parameters][?query][#fragment]
其中,Protocal表示传输协议,比如http,https等;hostname表示主机名,用于存放服务器域名系统的DNS主机或者IP地址,比如www.example.com;port表示端口地址;path表示路径,一般用字符“/”分隔;parameters用于指定特殊参数的可选项;query为可选项,用于给网页传递参数;fragment用于指定网络资源中的片段。
考虑到导航页的标签信息和内容页的标签信息不同,比如导航页中由于存在大量的URL链接,标签<a>出现的次数更多,而内容页中由于存在大量的段落,标签<p>出现的次数更多。因此,本申请实施例直接利用导航页和内容页的不同标签信息,快速地实现对导航页和内容页的分类,避免了根据保存的网页文本对导航页和内容页进行分类时,需要大量地占用内存资源的情况,进而提高了网页判别的效率。需要说明的是,本申请实施例中的标签信息可以包括但不限于标签<a>和标签<p>。
S102,基于已知类型和标签数目,训练分类模型。
具体的,本申请实施例中通过分类算法对应的拟合函数,对已知类型和标签数目进行拟合,得到分类模型。其中,分类算法可以包括但不限于逻辑回归算法、朴素贝叶斯算法和支持向量机算法。
为便于理解,以分类算法为逻辑回归算法为例进行说明。终端获取大量的导航页、内容页及对应的分类标签,比如导航页对应的分类标签为1,内容页对应的分类标签为0;然后,终端分别统计导航页和内容页中标签<a>的数目和标签<p>的数目;从而,终端将分类标签为0对应的标签<a>的数目和标签<p>的数目、以及分类标签为1对应的标签<a>的数目和标签<p>的数目进行数据拟合,得到Sigmoid函数的实际参数,即为分类模型。需要说明的是,分类算法为已知的技术,本申请实施例对此不再赘述。
S103,根据分类模型确定待分类网页的类型。
具体的,终端遍历待分类网页标签信息中的字符,并统计待分类网页对应的标签数目;将待分类网页对应的标签数目带入分类模型中进行计算,得到待分类网页的类型。
举例说明,还是以分类算法为逻辑回归算法为例进行说明。终端在获取到待分类网页的标签信息之后,遍历标签信息中的每一个字符,统计出待分类网页中标签<a>的数目和标签<p>的数目,并带入分类模型Sigmoid函数中;以分界值为0.5进行说明,当然也可以为0~1之间的任意值,本申请实施例对此不做限定;当Sigmoid函数的计算结果大于或者等于0.5时,对应的分类标签为1,即待分类网页的类型为导航页,当Sigmoid函数的计算结果小于0.5时,对应的分类标签为0,即待分类网页的类型为内容页。
本申请实施例提供的导航页的判别方法,统计已知类型的网页中的标签数目,已知类型包括导航页和内容页;由于导航页用于显示内容页的标题,所以导航页中有很多URL链接,网民通过点击URL链接即可浏览网页内容,而内容页则用于显示具体的文本信息,所以内容页中都是由段落组成的文本;因此,本申请实施例能够直接利用导航页和内容页的不同标签信息,并基于已知类型和标签数目,训练得到分类模型;进而,根据分类模型确定出待分类网页的类型,即可自动地将导航页和内容页区分开,避免了根据保存的网页文本对导航页和内容页进行分类,所造成的内存资源被大量地占用的情况,提高了网页判别的效率。
基于前述实施例,本申请实施例提供的另一种导航页的判别方法的流程示意图,如图4所示,该方法包括以下步骤:
S401,统计已知类型的网页中的标签数目。
其中,已知类型可以包括但不限于导航页和内容页。
S402,通过分类算法对应的拟合函数,对已知类型和标签数目进行拟合,得到分类模型。
需要说明的是,本申请实施例中的分类算法可以包括但不限于逻辑回归算法、朴素贝叶斯算法和支持向量机算法。
为便于理解,以分类算法为逻辑回归算法为例进行说明。终端获取大量的导航页、内容页及对应的分类标签,比如导航页对应的分类标签为1,内容页对应的分类标签为0;然后,终端分别统计导航页和内容页中标签<a>的数目和标签<p>的数目;从而,终端将分类标签为0对应的标签<a>的数目和标签<p>的数目、以及分类标签为1对应的标签<a>的数目和标签<p>的数目进行数据拟合,得到Sigmoid函数的实际参数,即为分类模型。需要说明的是,分类算法为已知的技术,本申请实施例对此不再赘述。
S403,遍历待分类网页标签信息中的字符,并统计待分类网页对应的标签数目。
S404,将待分类网页对应的标签数目带入分类模型中进行计算,得到待分类网页的类型。
比如,终端在获取到待分类网页的标签信息之后,遍历标签信息中的每一个字符,统计出待分类网页中标签<a>的数目和标签<p>的数目,并带入分类模型Sigmoid函数中;以分界值为0.5进行说明,当然也可以为0~1之间的任意值,本申请实施例对此不做限定;当Sigmoid函数的计算结果大于或者等于0.5时,对应的分类标签为1,即待分类网页的类型为导航页,当Sigmoid函数的计算结果小于0.5时,对应的分类标签为0,即待分类网页的类型为内容页。
需要说明的是,本实施例中与其它实施例中相同步骤和相同内容的说明,可以参照其它实施例中的描述,此处不再赘述。
本申请实施例提供的导航页的判别方法,能够直接利用导航页和内容页的不同标签信息,并基于已知类型和标签数目,训练得到分类模型;进而,根据分类模型确定出待分类网页的类型,即可自动地将导航页和内容页区分开,避免了根据保存的网页文本对导航页和内容页进行分类,所造成的内存资源被大量地占用的情况,提高了网页判别的效率。
基于前述实施例,本申请实施例提供的又一种导航页的判别方法的流程示意图,如图5所示,该方法包括以下步骤:
S501,统计已知类型的网页中的标签数目。
其中,已知类型可以包括但不限于导航页和内容页。
S502,通过分类算法对应的拟合函数,对已知类型和标签数目进行拟合,得到分类模型。
需要说明的是,本申请实施例中的分类算法可以包括但不限于逻辑回归算法、朴素贝叶斯算法和支持向量机算法。
S503,遍历待分类网页标签信息中的字符,并统计待分类网页对应的标签数目。
S504,将待分类网页对应的标签数目带入分类模型中进行计算,得到待分类网页的类型。
需要说明的是,本实施例中与其它实施例中相同步骤和相同内容的说明,可以参照其它实施例中的描述,此处不再赘述。
S505,计算第一时刻对应的URL集合的MD5值。
比如,在第一时刻导航页的页面中总共有10个URL,分别为URL1、URL2、…、URL10,这10个URL组成一个集合,然后终端将URL1、URL2、…、URL10相加求和,取MD5值。
需要说明的是,消息摘要算法5(Message-Digest Algorithm5,MD5)是计算机安全领域广泛使用的一种散列函数,用以提供消息的完整性保护。MD5将整个文件当作一个大文本信息,通过其不可逆的字符串变换算法,产生唯一的MD5消息摘要,比如MD5可以将数据(比如汉字)运算为另一固定长度值。另外,本申请实施例还可以通过检测散列表、字典以及base64的方式,判断网页是否更新。
S506,计算第二时刻对应的URL集合的MD5值。
其中,URL集合为待分类网页在不同时刻下所有URL组成的集合。
S507,当第一时刻对应的URL集合的MD5值和第二时刻对应的URL集合的MD5值不同时,重新抓取网页。
需要说明的是,当第一时刻对应的URL集合的MD5值和第二时刻对应的URL集合的MD5值相同时,说明网页没有更新;当第一时刻对应的URL集合的MD5值和第二时刻对应的URL集合的MD5值不同时,说明网页更新了,需要重新抓取网页。本申请实施例只需要检测MD5值,就可快速地判断出网页是否更新,避免了根据保存的网页文本进行更新判断,所造成的内存资源被大量地占用的情况,进而提高了判别的效率。
本申请实施例还能够计算第一时刻和第二时刻的时刻间隔,若时刻间隔大于或者等于抓取时间,则延长抓取时间;若时刻间隔小于抓取时间,则缩短抓取时间。比如,当第一时刻和第二时刻的时刻间隔为3t分钟,当前抓取时间为t分钟时,时刻间隔大于抓取时间,说明网页更新慢,此时不需要频繁地抓取网页,因此,终端将抓取时间调整为4t/3;当第一时刻和第二时刻的时刻间隔为t/3,当前抓取时间为t分钟时,时刻间隔小于抓取时间,说明网页更新快,此时需要抓取网页,因此,终端将抓取时间调整为3t/4即可。需要说明的是,本申请实施例中延长的抓取时间也可以为2t,缩短的抓取时间也可以为t/2,本申请实施例对此不做限定。为了更好地利用系统资源,本申请实施例还可以设置最大抓取时间和最小抓取时间,从而避免了定时抓取导航页会出现当导航页中信息更新慢时,比如凌晨时段,爬虫系统仍频繁地抓取网页,以及当导航页中信息更新快时,比如白天工作时段,爬虫系统却不能及时地抓取网页的现象。
本申请实施例提供的导航页的判别方法,不仅能够直接利用导航页和内容页的不同标签信息,即可自动地将导航页和内容页区分开,还能够快速地判断导航页是否有更新,同时动态地调整抓取时间,避免根据保存的网页文本对导航页和内容页进行分类,以及通过定时抓取导航页来判断导航页是否更新,所造成的内存资源被大量地占用的情况,进而提高了网页判别的效率。
基于前述实施例,本申请实施例提供一种导航页的判别装置,该装置可以应用于图1~5对应的实施例提供的导航页的判别方法中。参照图6所示,该导航页判别装置6包括:
统计模块61,用于统计已知类型的网页中的标签数目。
其中,已知类型可以包括但不限于导航页和内容页。
训练模块62,用于基于已知类型和标签数目,训练分类模型。
确定模块63,用于根据分类模型确定待分类网页的类型。
在本申请的其它实施例中,训练模块62具体用于通过分类算法对应的拟合函数,对已知类型和标签数目进行拟合,得到分类模型。
需要说明的是,本申请实施例中的分类算法可以包括但不限于逻辑回归算法、朴素贝叶斯算法和支持向量机算法。
在本申请的其它实施例中,确定模块63具体用于遍历待分类网页标签信息中的字符,并统计待分类网页对应的标签数目;
将待分类网页对应的标签数目带入分类模型中进行计算,得到待分类网页的类型。
在本申请的其它实施例中,如图7所示,该导航页判别装置6还包括:
第一计算模块64,用于计算第一时刻对应的URL集合的MD5值;
第二计算模块65,用于计算第二时刻对应的URL集合的MD5值;
其中,URL集合为待分类网页在不同时刻下所有URL组成的集合;
抓取模块66,用于当第一时刻对应的URL集合的MD5值和第二时刻对应的URL集合的MD5值不同时,重新抓取网页。
在本申请的其它实施例中,如图8所示,该导航页判别装置6还包括:
第三计算模块67,用于计算第一时刻和第二时刻的时刻间隔;
调整模块68,用于若时刻间隔大于或者等于抓取时间,则延长抓取时间;
若时刻间隔小于抓取时间,则缩短抓取时间。
需要说明的是,本实施例中与其它实施例中相同步骤和相同内容的说明,可以参照其它实施例中的描述,此处不再赘述。
本申请实施例提供的导航页的判别装置,统计已知类型的网页中的标签数目,已知类型包括导航页和内容页;由于导航页用于显示内容页的标题,所以导航页中有很多URL链接,网民通过点击URL链接即可浏览网页内容,而内容页则用于显示具体的文本信息,所以内容页中都是由段落组成的文本;因此,本申请实施例不仅能够直接利用导航页和内容页的不同标签信息,并基于已知类型和标签数目,训练得到分类模型;进而,根据分类模型确定出待分类网页的类型,即可自动地将导航页和内容页区分开,还能够快速地判断导航页是否有更新,同时动态地调整抓取时间,避免了根据保存的网页文本对导航页和内容页进行分类,以及通过定时抓取导航页来判断导航页是否更新,所造成的内存资源被大量地占用的情况,进而提高了网页判别的效率。
基于前述实施例,本申请实施例提供一种计算机系统。请参照图9所示,该计算机系统900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM903中,还存储有系统操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
特别地,根据本申请的实施例,上文参考流程图1~5描述的过程可以被实现为计算机软件程序。例如,本申请的实施例1包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序由CPU901执行,以实现如下步骤:
统计已知类型的网页中的标签数目;其中,已知类型包括导航页和内容页;
基于已知类型和所述标签数目,训练分类模型;
根据分类模型确定待分类网页的类型。
在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例网页分类的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括统计模块、训练模块及确定模块。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的终端中所包含的;也可以是单独存在,而未装配入该终端中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该终端执行时,使得该终端实现如上述实施例中的导航页的判别方法。
例如,终端可以实现如图1中所示的:S101,统计已知类型的网页中的标签数目;其中,已知类型包括导航页和内容页;S102,基于已知类型和标签数目,训练分类模型;S103,根据分类模型确定待分类网页的类型。又如,终端可以实现如图4~5中所示的各个步骤。
应当注意,尽管在上文详细描述中提及了用于动作执行的终端的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种导航页的判别方法,其特征在于,所述方法包括:
统计已知类型的网页中的标签数目;其中,所述已知类型包括导航页和内容页;
基于所述已知类型和所述标签数目,训练分类模型;
根据所述分类模型确定待分类网页的类型。
2.根据权利要求1所述的一种导航页的判别方法,其特征在于,所述基于所述已知类型和所述标签数目,训练分类模型,包括:
通过分类算法对应的拟合函数,对所述已知类型和所述标签数目进行拟合,得到所述分类模型。
3.根据权利要求2所述的一种导航页的判别方法,其特征在于,所述分类算法包括逻辑回归算法、朴素贝叶斯算法和支持向量机算法。
4.根据权利要求1所述的一种导航页的判别方法,其特征在于,所述根据所述分类模型确定待分类网页的类型,包括:
遍历所述待分类网页标签信息中的字符,并统计所述待分类网页对应的标签数目;
将所述待分类网页对应的标签数目带入所述分类模型中进行计算,得到所述待分类网页的类型。
5.根据权利要求1所述的一种导航页的判别方法,其特征在于,所述方法还包括:
计算第一时刻对应的URL集合的MD5值;
计算第二时刻对应的URL集合的MD5值;其中,所述URL集合为所述待分类网页在不同时刻下所有URL组成的集合;
当所述第一时刻对应的URL集合的MD5值和所述第二时刻对应的URL集合的MD5值不同时,重新抓取网页。
6.根据权利要求5所述的一种导航页的判别方法,其特征在于,所述方法还包括:
计算所述第一时刻和所述第二时刻的时刻间隔;
若所述时刻间隔大于或者等于抓取时间,则延长所述抓取时间;
若所述时刻间隔小于所述抓取时间,则缩短所述抓取时间。
7.一种导航页的判别装置,其特征在于,所述装置包括:
统计模块,用于统计已知类型的网页中的标签数目;其中,所述已知类型包括导航页和内容页;
训练模块,用于基于所述已知类型和所述标签数目,训练分类模型;
确定模块,用于根据所述分类模型确定待分类网页的类型。
8.根据权利要求7所述的一种导航页的判别装置,其特征在于,所述确定模块具体用于:
遍历所述待分类网页标签信息中的字符,并统计所述待分类网页对应的标签数目;
将所述待分类网页对应的标签数目带入所述分类模型中进行计算,得到所述待分类网页的类型。
9.根据权利要求7所述的一种导航页的判别装置,其特征在于,所述装置还包括抓取模块,所述抓取模块具体用于:
计算第一时刻对应的URL集合的MD5值;
计算第二时刻对应的URL集合的MD5值;其中,所述URL集合为所述待分类网页在不同时刻下所有URL组成的集合;
当所述第一时刻对应的URL集合的MD5值和所述第二时刻对应的URL集合的MD5值不同时,重新抓取网页。
10.根据权利要求9所述的一种导航页的判别装置,其特征在于,所述抓取模块还用于:
计算所述第一时刻和所述第二时刻的时刻间隔;
若所述时刻间隔大于或者等于抓取时间,则延长所述抓取时间;
若所述时刻间隔小于所述抓取时间,则缩短所述抓取时间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811556048.5A CN111339453A (zh) | 2018-12-19 | 2018-12-19 | 导航页的判别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811556048.5A CN111339453A (zh) | 2018-12-19 | 2018-12-19 | 导航页的判别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111339453A true CN111339453A (zh) | 2020-06-26 |
Family
ID=71181578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811556048.5A Pending CN111339453A (zh) | 2018-12-19 | 2018-12-19 | 导航页的判别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339453A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507186A (zh) * | 2020-11-27 | 2021-03-16 | 北京数立得科技有限公司 | 网页元素分类方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102332028A (zh) * | 2011-10-15 | 2012-01-25 | 西安交通大学 | 一种面向网页的不良Web内容识别方法 |
CN102411587A (zh) * | 2010-09-21 | 2012-04-11 | 腾讯科技(深圳)有限公司 | 一种网页分类方法和装置 |
WO2015117560A1 (en) * | 2014-02-10 | 2015-08-13 | Tencent Technology (Shenzhen) Company Limited | Web page recognizing method and apparatus |
CN107957872A (zh) * | 2017-10-11 | 2018-04-24 | 中国互联网络信息中心 | 一种完整网站源码获取方法及非法网站检测方法、系统 |
CN108134784A (zh) * | 2017-12-19 | 2018-06-08 | 东软集团股份有限公司 | 网页分类方法及装置、存储介质及电子设备 |
-
2018
- 2018-12-19 CN CN201811556048.5A patent/CN111339453A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411587A (zh) * | 2010-09-21 | 2012-04-11 | 腾讯科技(深圳)有限公司 | 一种网页分类方法和装置 |
CN102332028A (zh) * | 2011-10-15 | 2012-01-25 | 西安交通大学 | 一种面向网页的不良Web内容识别方法 |
WO2015117560A1 (en) * | 2014-02-10 | 2015-08-13 | Tencent Technology (Shenzhen) Company Limited | Web page recognizing method and apparatus |
CN107957872A (zh) * | 2017-10-11 | 2018-04-24 | 中国互联网络信息中心 | 一种完整网站源码获取方法及非法网站检测方法、系统 |
CN108134784A (zh) * | 2017-12-19 | 2018-06-08 | 东软集团股份有限公司 | 网页分类方法及装置、存储介质及电子设备 |
Non-Patent Citations (5)
Title |
---|
@且听且吟@: "爬虫那些事儿--站点压力控制相关", pages 1 - 4, Retrieved from the Internet <URL:https://www.cnblogs.com/lovemdx/p/3203615.html> * |
HULEFEI29: "网络爬虫之网页更新的判断策略", pages 1, Retrieved from the Internet <URL:https://blog.csdn.net/hulefei29/article/details/84366522> * |
PASSOVER: "采集频率的动态调整策略", pages 1 - 3, Retrieved from the Internet <URL:http://blog.51cto.com/passover/716307> * |
XKHBEAR: "如何判断一个网页是否更新", pages 1 - 2, Retrieved from the Internet <URL:https://blog.csdn.net/xkhbear/article/details/53447356> * |
机器学习算法与PYTHON学习: "Python实战 | 如何一次检查大量网页是否更新?", pages 1 - 4, Retrieved from the Internet <URL:https://developer.aliyun.com/article/648259> * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507186A (zh) * | 2020-11-27 | 2021-03-16 | 北京数立得科技有限公司 | 网页元素分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107256232B (zh) | 一种信息推荐方法和装置 | |
US11055373B2 (en) | Method and apparatus for generating information | |
CN110069693B (zh) | 用于确定目标页面的方法和装置 | |
JP2012529688A (ja) | 更新通知方法、およびシステム | |
CN107153716B (zh) | 网页内容提取方法和装置 | |
US7962523B2 (en) | System and method for detecting templates of a website using hyperlink analysis | |
CN107609122B (zh) | 广告屏蔽规则的更新方法、装置、服务器和存储介质 | |
US11423096B2 (en) | Method and apparatus for outputting information | |
US10042824B2 (en) | Detection and elimination for inapplicable hyperlinks | |
CN113626624B (zh) | 一种资源识别方法和相关装置 | |
CN112905753A (zh) | 一种判别文本信息的方法和装置 | |
CN111339453A (zh) | 导航页的判别方法和装置 | |
KR102169143B1 (ko) | 유해 콘텐츠 웹 페이지 url 필터링 장치 | |
CN111414523A (zh) | 一种数据获取方法和装置 | |
US20130230248A1 (en) | Ensuring validity of the bookmark reference in a collaborative bookmarking system | |
CN107145528A (zh) | 更新缓存文件的方法、装置及系统 | |
CN115495740A (zh) | 一种病毒检测方法和装置 | |
CN114221988B (zh) | 一种内容分发网络热点分析方法和系统 | |
CA2788100C (en) | Crawling of generated server-side content | |
CN110704617B (zh) | 新闻文本的分类方法、装置、电子设备和存储介质 | |
CN114169006A (zh) | 隐私合规检测模型的训练方法、隐私合规检测方法及装置 | |
CN113656737A (zh) | 网页内容展示方法、装置、电子设备以及存储介质 | |
JP6763433B2 (ja) | 情報収集システム、情報収集方法、及び、プログラム | |
CN111898046B (zh) | 重定向管理的方法和装置 | |
CN111310465B (zh) | 平行语料获取方法、装置、电子设备、及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |