CN110990671B - 页面类型甄别装置、方法及可读存储介质 - Google Patents

页面类型甄别装置、方法及可读存储介质 Download PDF

Info

Publication number
CN110990671B
CN110990671B CN201911121395.XA CN201911121395A CN110990671B CN 110990671 B CN110990671 B CN 110990671B CN 201911121395 A CN201911121395 A CN 201911121395A CN 110990671 B CN110990671 B CN 110990671B
Authority
CN
China
Prior art keywords
page
natural
structure tree
feature
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911121395.XA
Other languages
English (en)
Other versions
CN110990671A (zh
Inventor
吴良顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Original Assignee
Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuo Erzhi Lian Wuhan Research Institute Co Ltd filed Critical Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority to CN201911121395.XA priority Critical patent/CN110990671B/zh
Publication of CN110990671A publication Critical patent/CN110990671A/zh
Application granted granted Critical
Publication of CN110990671B publication Critical patent/CN110990671B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种页面类型甄别方法、装置及计算机可读存储介质,所述方法包括:对目标URL进行静态抓取得到第一页面;对所述目标URL进行动态抓取得到第二页面;移除所述第一页面及所述第二页面中所包含的噪声内容;计算经过噪声移除处理的第一页面与经过噪声移除处理的第二页面之间的页面相似度;判断所述页面相似度是否大于预设相似度;若所述页面相似度大于所述预设相似度,则标记所述目标URL对应的页面为静态页面;及若所述页面相似度不大于所述预设相似度,则标记所述目标URL对应的页面为动态页面。本发明可以自动甄别URL对应的页面类型是静态页面还是动态页面。

Description

页面类型甄别装置、方法及可读存储介质
技术领域
本发明涉及网页处理技术领域,尤其涉及一种页面类型甄别装置、方法及计算机可读存储介质。
背景技术
网页页面有静态页面和动态页面之分,爬虫系统对不同的页面类型会采取不同的抓取方式。比如,若URL对应的是静态页面,则可以直接解析该请求URL后响应的HTML。若URL对应的是动态页面,由于动态网页的数据采用异步加载,即站点服务器初次响应的数据仅仅是页面结构框架和异步执行的代码,加载完毕后,再次请求服务器拿到数据,通过JavaScript操作Dom组合成完整页面。爬虫系统需通过模拟动态网页的JS行为来获得数据,比如利用前端渲染支持库(带有JS引擎)进行动态页面爬取。
在实际web网站中,两种页面经常是共存的。为了提高爬取效率,如何标识出当前URL对应的页面是属于哪一种页面类型,是亟待解决的问题。
发明内容
有鉴于此,有必要提供一种页面类型甄别装置、方法及计算机可读存储介质,可以自动甄别URL对应的页面类型是静态页面还是动态页面。
本发明一实施方式提供一种页面类型甄别方法,所述方法包括:对目标URL进行静态抓取得到第一页面;对所述目标URL进行动态抓取得到第二页面;移除所述第一页面及所述第二页面中所包含的噪声内容;计算经过噪声移除处理的第一页面与经过噪声移除处理的第二页面之间的页面相似度;判断所述页面相似度是否大于预设相似度;若所述页面相似度大于所述预设相似度,则标记所述目标URL对应的页面为静态页面;及若所述页面相似度不大于所述预设相似度,则标记所述目标URL对应的页面为动态页面。
优选地,所述噪声内容至少包括以下的一种或多种:导航条、广告条、超链接、网站底部。
优选地,所述计算经过噪声移除处理的第一页面与经过噪声移除处理的第二页面之间的页面相似度的步骤包括:
对经过噪声移除处理的第一页面及第二页面进行页面分解,以分别构建第一正文结构树及第二正文结构树;
提取所述第一正文结构树中的每一自然段的特征串及所述第二正文结构树中的每一自然段的特征串,其中所述自然段为正文结构树的底层节点;
基于所述第一正文结构树中的每一自然段的特征串及所述第二正文结构树中的每一自然段的特征串,计算所述第一正文结构树与所述第二正文结构树之间的每一对同层级自然段的特征串重合率;及
根据计算得到的所有特征串重合率计算得到所述第一页面与所述第二页面的页面相似度。
优选地,所述对经过噪声移除处理的第一页面及第二页面进行页面分解的步骤包括:
对经过噪声移除处理的第一页面及第二页面按照预设的标签顺序进行逐层分解,直至分解至段落或纯文本。
优选地,所述提取所述第一正文结构树中的每一自然段的特征串及所述第二正文结构树中的每一自然段的特征串的步骤包括:
提取所述自然段中的句子的首尾字符或汉字作为所述句子的特征码;及
基于所述自然段中的所有句子的特征码构建所述自然段的特征串。
优选地,所述计算所述第一正文结构树与所述第二正文结构树之间的每一对同层级自然段的特征串重合率的步骤包括:
利用布隆过滤器对所述第一正文结构树的第一自然段的特征串的每一特征码进行转换,得到多个第一比特串;
利用所述布隆过滤器对所述第二正文结构树的第二自然段的特征串的每一特征码进行转换,得到多个第二比特串,其中所述第一自然段与所述第二自然段为同层级的自然段;
统计所述第一比特串与所述第二比特串的相同个数;及
基于统计得到的相同个数计算得到所述特征串重合率。
优选地,所述第一正文结构树中的每一自然段及所述第二正文结构树中的每一自然段按照预先权重定义规则定义有对应的权重值,所述计算所述第一正文结构树与所述第二正文结构树之间的每一对同层级自然段的特征串重合率的步骤之后还包括:
基于计算得到的特征串重合率及该对同层级自然段的权重值计算得到该对同层级自然段的加权特征串重合率。
优选地,所述根据计算得到的所有特征串重合率计算得到所述第一页面与所述第二页面的页面相似度的步骤包括:
根据计算得到的所有加权特征串重合率计算得到所述第一页面与所述第二页面的页面相似度。
本发明一实施方式提供一种基于隐私保护的页面类型甄别装置,所述装置包括处理器及存储器,所述存储器上存储有若干计算机程序,所述处理器用于执行存储器中存储的计算机程序时实现上述页面类型甄别方法的步骤。
本发明一实施方式还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,多条所述指令可被一个或者多个处理器执行,以实现上述的页面类型甄别方法的步骤。
与现有技术相比,上述页面类型甄别装置、方法及计算机可读存储介质,可以实现自动甄别URL对应的页面类型是静态页面还是动态页面,进而可以提高网页爬虫效率。
附图说明
图1是本发明一实施方式的页面类型甄别装置的功能模块图。
图2是本发明一实施方式的页面类型甄别程序的功能模块图。
图3是本发明一实施方式的第一正文结构树的示意图。
图4是本发明一实施方式的页面类型甄别方法的流程图。
主要元件符号说明
存储器 10
处理器 20
页面类型甄别程序 30
第一抓取模块 101
第二抓取模块 102
移除模块 103
计算模块 104
判断模块 105
标记模块 106
页面类型甄别装置 100
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
进一步需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
请参阅图1,为本发明页面类型甄别装置较佳实施例的示意图。
页面类型甄别装置100可以包括存储器10、处理器20以及存储在所述存储器10中并可在所述处理器20上运行的页面类型甄别程序30。所述处理器20执行所述页面类型甄别程序30时实现页面类型甄别方法实施例中的步骤,例如图4所示的步骤S400~S412。或者,所述处理器20执行所述页面类型甄别程序30时实现图2中各模块的功能,例如模块101~106。
所述页面类型甄别程序30可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器10中,并由所述处理器20执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,所述指令段用于描述所述页面类型甄别程序30在所述页面类型甄别装置100中的执行过程。例如,所述页面类型甄别程序30可以被分割成图2中的第一抓取模块101、第二抓取模块102、移除模块103、计算模块104、判断模块105及标记模块106。各模块具体功能参见下图2中各模块的功能。
本领域技术人员可以理解,所述示意图仅是页面类型甄别装置100的示例,并不构成对页面类型甄别装置100的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述页面类型甄别装置100还可以包括通信模块、总线等。
所称处理器20可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者所述处理器20也可以是任何常规的处理器等,所述处理器20可以利用各种接口和总线连接页面类型甄别装置100的各个部分。
所述存储器10可用于存储所述页面类型甄别程序30和/或模块,所述处理器20通过运行或执行存储在所述存储器10内的计算机程序和/或模块,以及调用存储在存储器10内的数据,实现所述页面类型甄别装置100的各种功能。所述存储器10可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
图2为本发明页面类型甄别程序较佳实施例的功能模块图。
参阅图2所示,页面类型甄别程序30可以包括第一抓取模块101、第二抓取模块102、移除模块103、计算模块104、判断模块105及标记模块106。在一实施方式中,上述模块可以为存储于所述存储器10中且可被所述处理器20调用执行的可程序化软件指令。可以理解的是,在其他实施方式中,上述模块也可为固化于所述处理器20中的程序指令或固件(firmware)。
第一抓取模块101用于对目标URL进行静态抓取得到第一页面。
在一实施方式中,所述目标URL对应的页面可能是静态页面或者动态页面。所述静态页面可以是指网页的代码在页面中,不需执行asp,php,jsp,net等动态语言而生成客户端网页代码的网页。所述动态页面可以是指需通过执行asp,php,jsp,net等程序生成客户端网页代码的网页。所述目标URL可以是用户输入的URL,也可以是一待爬取的网页数据表中的URL,或者通过其他方式获取得到的URL。
第一抓取模块101采用静态抓取的方式来对目标URL进行抓取,得到所述第一页面。比如,第一抓取模块101可以通过直接解析目标URL并抓取目标URL响应的HTML文件,该HTML文件即为所述第一页面。
第二抓取模块102用于对所述目标URL进行动态抓取得到第二页面。
在一实施方式中,第二抓取模块102采用动态抓取的方式来对目标URL进行抓取,得到所述第二页面。所述动态抓取的方式比如可以是前端渲染的方式,所述第二抓取模块102可以采用前端渲染支持库(比如,HtmlUtil或PhantomJS)实现对所述目标URL进行动态抓取,Htmlunit工具/PhantomJS工具可模拟浏览抓取页面内容的Java框架,具有JS解析引擎,可以解析页面的JS脚本,得到完整的页面内容。
在一实施方式中,当所述目标URL对应的页面为静态页面时,第一抓取模块101抓取得到的第一页面应该是与第二抓取模块102抓取得到的第二页面相同,当所述目标URL对应的页面为动态页面时,由于第一抓取模块101不会解析JS脚本,导致第一抓取模块101抓取的页面不是完整的页面内容,进而会导致第一抓取模块101抓取得到的第一页面与第二抓取模块102抓取得到的第二页面不相同。
移除模块103用于移除所述第一页面及所述第二页面中所包含的噪声内容。
在一实施方式中,所述噪声内容可以是指页面的非主体内容,可以根据实际需求进行设定。比如所述噪声内容可以是以下的一种或多种内容:导航条、广告条、超链接、网站底部等。
举例而言,所述噪声内容包括导航条、广告条、网站底部。所述移除模块103移除所述第一页面及所述第二页面中所包含的导航条、广告条、网站底部,再进行后续页面相似度计算。
计算模块104用于计算经过噪声移除处理的第一页面与经过噪声移除处理的第二页面之间的页面相似度。
在一实施方式中,计算模块104可以对经过噪声移除处理的第一页面及第二页面进行页面分解,以分别构建第一正文结构树及第二正文结构树。具体地,对于第一页面,可以按照预设的标签顺序进行逐层分解,直至分解至段落或纯文本。比如,可以将页面按照<html>、<head>、<body>、<title>、<div>、<table>、<tr>、<td>、<p>等标签结构进行逐层分解,形成第一正文结构树,比如,所述第一正文结构树如图3所示。对于第二页面,同样可以按照上述分解方法对页面进行分解,得到第二正文结构树。正文结构树的底层节点可以定义为一个自然段。
在一实施方式中,每个底层节点的数据结构以一个二元组(PID,PW)进行表示,其中PID=PID0,PID1,…为该自然段的编号,PW=PW0,PW1,…为该自然段对应的权重值。对于正文结构树的底层节点,自然段的排序方式为:如果PWi+1=PWi,则自然段PIDi+1是自然段PIDi的右边兄弟,如果PWi+1<PWi,则自然段PIDi+1是自然段PIDi的孩子,如果PWi+1>PWi,则自然段PIDi+1是自然段PIDi的父亲。
在一实施方式中,每一自然段对应的权重值可以根据标签的特性来确定,比如可以通过以下规则来设定每一自然段对应的权重值:每一自然段可以预先设置一基准权重值,当该自然段具有以下特性时,增加一定比例的权重值:1).当自然段存在大字号字体或者小字号字体、粗字体、字体具有颜色标注等,应当对该自然段增加一定比例或一预设值的权重值(比如增加40%权重,或者对权重值加10);2).当自然段含有指向正文的超链接时,应当对该自然段增加一定比例的权重值(比如增加60%权重,或者对权重值加20);3).当自然段对应的标签为<div>、<table>、<td>、<p>等容器标签时,应当对该自然段增加一定比例的权重值(比如增加100%权重,或者对权重值加40)。当得到每一自然段的权重后,上述根据不同的特征对权重进行调整的度量单位可能不相同,为了能够将权重值作为后续计算参数,需要对权重值进行规范化处理,比如,可以对每一自然段的权重值进行归一化处理,将权重值按比例缩放,使之落入一特定数值区间,进行实现对每一自然段的权重值进行标准化。
在一实施方式中,对于第一正文结构树与第二正文结构树的每一自然段,计算模块104可以从所述自然段中提取表征所述自然段内容的特征串。具体地,计算模块104可以提取所述自然段中的句子的首尾字符或汉字作为所述句子的特征码,再基于所述自然段中的所有句子的特征码构建所述自然段的特征串。比如,自然段中具有常用标点符号(逗号、分号、句号等)为分隔符,将该自然段划分为多个独立的句子。句子可以是指两个标点符号之间的一句话,也可以是指两个句号之间的一句话。
举例而言,一标签<p>的自然段内容为:“电影《ABC》自XX月YY日上映后,不断爆出高票房消息,但上映后有网友质疑票房造假,引起相关部门关注。相关部门经过调查取证,对该电影《ABC》的发行公司作出停工、整改、警告等处分”。计算模块104对上述自然段进行提取,可以得到六个特征码:电映后、不消息、但造假、引关注、相取证、对处分。该六个特征码可组成与该自然段对应的特征串{电映后,不消息,但造假,引关注,相取证,对处分}。
当提取得到每一自然段的特征串后,可以将第一正文结构树与所述第二正文结构树之间的每一对同层级自然段的特征串进行比对来得到特征串重合率,以确定每一对同层级自然段的相似度。可以理解的,为了使得第一页面与第二页面在比较过程中是将相同区域的页面内容进行比较,在进行自然段比较时,优选是在第一正文结构树中确定一代比较的自然段,然后在第二正文结构树中选定与该待比较的自然段属于同层级的自然段,再将该两个自然段的特征串进行比对,来得到特征串重合率,该特征串重合率代表了该两个自然段的相似度,计算模块104再根据所有特征串重合率计算得到所述第一页面与所述第二页面的页面相似度。比如,第一正文结构树、第二正文结构树均包括N个自然段,每个自然段进行比较可以得到一特征串重合率,计算模块104可以根据N个特征串重合率计算得到所述第一页面与所述第二页面的页面相似度,比如可以将N个特征串重合率进行相加得到所述第一页面与所述第二页面的页面相似度。
在一实施方式中,计算模块104可以利用布隆过滤器对所述第一正文结构树的第一自然段的特征串的每一特征码进行转换,得到多个第一比特串,及利用所述布隆过滤器对所述第二正文结构树的第二自然段的特征串的每一特征码进行转换,得到多个第二比特串,所述第一自然段与所述第二自然段为同层级的自然段,即所述第一自然段与所述第二自然段表征的相同区域的页面内容。计算模块104再统计所述第一比特串与所述第二比特串的相同个数,进而可以基于统计得到的相同个数计算得到该两个自然段之间的特征串重合率。比如,第一比特串与第二比特串的数目均为r个,经过比较得到相同比特串数目为s个,则特征串重合率为s/r。
举例而言,计算模块104基于布隆过滤器计算得到两自然段的特征串重合率的过程如下所示:1).对于第一正文结构树的一自然段P1,其特征串集合可以表征为A={a1,a2,…,an},其中a1,a2,…,an为该自然段中每一句子的特征码;2).设定一个m维比特数组V={v1,v2,…,vm},vi=0或1,i∈1~m;3).设定哈希函数组H={h1,h2,…,hn},hi能将任意数字映射到0~m的整数;4).依次使用哈希函数组来对集合A的一元素ai进行哈希运算,得到k个哈希值h1(ai),h2(ai),…,hk(ai),再使比特组中下标为h1(ai),h2(ai),…,hk(ai)的为1,其余为0,进而可以得到与该元素ai对应的比特串,比如元素ai为“电映后”,令m=10,k=3,经过计算得到三个哈希值为4,6,8,则经过处理后的比特串V=[0,0,0,1,0,1,0,1,0,0],该比特串[0,0,0,1,0,1,0,1,0,0]即表征了“电映后”,若集合A中有n个元素,则可以得到n个比特串;5).重复上述步骤1-4对第二正文结构树的自然段P2进行处理,同样可以得到多个比特串;6).统计自然段P1的比特串与自然段P2的比特串的相同个数,比如自然段P2的比特串数目为r个,经过比较得到与自然段P1相同的比特串数目为s个,则自然段P1与自然段P2的特征串重合率为s/r。当计算得到所有段落之间的特征串结合率后(假设i个自然段),若自然段没有定义权重值,则可以直接通过下述公式计算得到第一页面与第二页面的相似度:similarity=∑i(si/ri)。
在一实施方式中,当每一自然段定义有权重值时,计算模块104基于计算得到的特征串重合率及该对同层级自然段的权重值计算得到该对同层级自然段的加权特征串重合率,再根据计算得到的所有加权特征串重合率计算得到所述第一页面与所述第二页面的页面相似度。
举例而言,当计算得到所有段落之间的特征串结合率后(假设i个自然段),通过下述公式计算得到第一页面与第二页面的相似度:similarity=∑iPWi(ri/si),PWi为第i个自然段对应的权重值。
判断模块105用于判断所述页面相似度是否大于预设相似度。
在一实施方式中,所述页面相似度可以根据使用需求或经验进行设定与调整。当计算得到所述第一页面与所述第二页面之间的页面相似度时,判断模块105可以将计算得到的页面相似度与预设相似度进行比较,来判断所述页面相似度是否大于预设相似度。
举例而言,预设相似度设定为0.8,通过similarity=∑iPWi(ri/si)计算得到所述第一页面与所述第二页面之间的页面相似度,判断模块105判断similarity的值是否大于0.8。
标记模块106用于在所述页面相似度大于所述预设相似度时,标记所述目标URL对应的页面为静态页面,在所述页面相似度不大于所述预设相似度时,标记所述目标URL对应的页面为动态页面。
在一实施方式中,当判断模块105判定所述页面相似度大于所述预设相似度时,表明对同一URL进行静态抓取与动态抓取得到的页面被认定为相同页面,标记模块106可以将所述目标URL对应的页面标记为静态页面,比如可以是在该目标URL后添加一备注信息(“静态”)或为该目标URL添加一标记信息,如以红色进行标记。当判断模块105判定所述页面相似度不大于所述预设相似度时,表明对同一URL进行静态抓取与动态抓取得到的页面被认定为不相同页面,静态抓取方式出现了页面抓取不全的情况,标记模块106可以将所述目标URL对应的页面标记为动态页面,比如可以是在该目标URL后添加一备注信息(“动态”)或为该目标URL添加一标记信息,如以黄色进行标记。
在一实施方式中,当爬取的页面网站是层级较严谨的网站时,即页面网站符合预设特征,比如是电商网站,基于与此相同层级的页面,一般采取了同样的页面类型,进而在进行页面爬取时,其他页面的抓取可以沿用本层级已经确定下来的页面爬取策略。比如,如果确定页面是静态页面,则后面同层级的页面爬取直接采用静态页面抓取技术,如果确定是动态页面,则后面同层级的页面可以直接采用动态渲染技术进行爬取。
举例而言,当爬虫系统具有上述页面类型甄别程序30时,可以自动识别出待爬取的URL的页面类型,如果是静态页面,后面同层级的页面爬取直接采用静态页面抓取技术,如果是动态页面,后面同层级的页面采用动态渲染技术进行爬取,进而可以提高页面爬取效率。
图4为本发明一实施方式中页面类型甄别方法的流程图。根据不同的需求,所述流程图中步骤的顺序可以改变,某些步骤可以省略。
步骤S400,对目标URL进行静态抓取得到第一页面。
步骤S402,对所述目标URL进行动态抓取得到第二页面。
步骤S404,移除所述第一页面及所述第二页面中所包含的噪声内容。
步骤S406,计算经过噪声移除处理的第一页面与经过噪声移除处理的第二页面之间的页面相似度。
步骤S408,判断所述页面相似度是否大于预设相似度。
步骤S410,若所述页面相似度大于所述预设相似度,则标记所述目标URL对应的页面为静态页面。
步骤S412,若所述页面相似度不大于所述预设相似度,则标记所述目标URL对应的页面为动态页面。
上述页面类型甄别装置、方法及计算机可读存储介质,可以实现自动甄别URL对应的页面类型是静态页面还是动态页面,进而可以提高网页爬虫效率。
对本领域的技术人员来说,可以根据本发明的发明方案和发明构思结合生产的实际需要做出其他相应的改变或调整,而这些改变和调整都应属于本发明所公开的范围。

Claims (7)

1.一种页面类型甄别方法,其特征在于,所述方法包括:
对目标URL进行静态抓取得到第一页面;
对所述目标URL进行动态抓取得到第二页面;
移除所述第一页面及所述第二页面中所包含的噪声内容;
计算经过噪声移除处理的第一页面与经过噪声移除处理的第二页面之间的页面相似度;
判断所述页面相似度是否大于预设相似度;
若所述页面相似度大于所述预设相似度,则标记所述目标URL对应的页面为静态页面;及
若所述页面相似度不大于所述预设相似度,则标记所述目标URL对应的页面为动态页面;
其中,所述计算经过噪声移除处理的第一页面与经过噪声移除处理的第二页面之间的页面相似度的步骤包括:
对经过噪声移除处理的第一页面及第二页面进行页面分解,以分别构建第一正文结构树及第二正文结构树;
提取所述第一正文结构树中的每一自然段的特征串及所述第二正文结构树中的每一自然段的特征串,其中所述自然段为正文结构树的底层节点;
基于所述第一正文结构树中的每一自然段的特征串及所述第二正文结构树中的每一自然段的特征串,计算所述第一正文结构树与所述第二正文结构树之间的每一对同层级自然段的特征串重合率;及
根据计算得到的所有特征串重合率计算得到所述第一页面与所述第二页面的页面相似度;
所述提取所述第一正文结构树中的每一自然段的特征串及所述第二正文结构树中的每一自然段的特征串的步骤包括:
提取所述自然段中的句子的首尾字符或汉字作为所述句子的特征码;及
基于所述自然段中的所有句子的特征码构建所述自然段的特征串;
所述计算所述第一正文结构树与所述第二正文结构树之间的每一对同层级自然段的特征串重合率的步骤包括:
利用布隆过滤器对所述第一正文结构树的第一自然段的特征串的每一特征码进行转换,得到多个第一比特串;
利用所述布隆过滤器对所述第二正文结构树的第二自然段的特征串的每一特征码进行转换,得到多个第二比特串,其中所述第一自然段与所述第二自然段为同层级的自然段;
统计所述第一比特串与所述第二比特串的相同个数;及
基于统计得到的相同个数计算得到所述特征串重合率。
2.如权利要求1所述的方法,其特征在于,所述噪声内容至少包括以下的一种或多种:导航条、广告条、超链接、网站底部。
3.如权利要求1所述的方法,其特征在于,所述对经过噪声移除处理的第一页面及第二页面进行页面分解的步骤包括:
对经过噪声移除处理的第一页面及第二页面按照预设的标签顺序进行逐层分解,直至分解至段落或纯文本。
4.如权利要求1所述的方法,其特征在于,所述第一正文结构树中的每一自然段及所述第二正文结构树中的每一自然段按照预先权重定义规则定义有对应的权重值,所述计算所述第一正文结构树与所述第二正文结构树之间的每一对同层级自然段的特征串重合率的步骤之后还包括:
基于计算得到的特征串重合率及该对同层级自然段的权重值计算得到该对同层级自然段的加权特征串重合率。
5.如权利要求4所述的方法,其特征在于,所述根据计算得到的所有特征串重合率计算得到所述第一页面与所述第二页面的页面相似度的步骤包括:
根据计算得到的所有加权特征串重合率计算得到所述第一页面与所述第二页面的页面相似度。
6.一种页面类型甄别装置,所述装置包括处理器及存储器,所述存储器上存储有若干计算机程序,其特征在于,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-5任一项所述的页面类型甄别方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,多条所述指令可被一个或者多个处理器执行,以实现如权利要求1-5任一项所述的页面类型甄别方法的步骤。
CN201911121395.XA 2019-11-15 2019-11-15 页面类型甄别装置、方法及可读存储介质 Active CN110990671B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911121395.XA CN110990671B (zh) 2019-11-15 2019-11-15 页面类型甄别装置、方法及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911121395.XA CN110990671B (zh) 2019-11-15 2019-11-15 页面类型甄别装置、方法及可读存储介质

Publications (2)

Publication Number Publication Date
CN110990671A CN110990671A (zh) 2020-04-10
CN110990671B true CN110990671B (zh) 2022-06-10

Family

ID=70084372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911121395.XA Active CN110990671B (zh) 2019-11-15 2019-11-15 页面类型甄别装置、方法及可读存储介质

Country Status (1)

Country Link
CN (1) CN110990671B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102833233A (zh) * 2012-08-06 2012-12-19 北京奇虎科技有限公司 一种识别网站页面的方法和装置
CN105183886A (zh) * 2015-09-25 2015-12-23 中国民生银行股份有限公司 网页内容提取方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10747828B2 (en) * 2018-03-27 2020-08-18 Capital One Services, Llc Systems and methods for single page application server side renderer

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102833233A (zh) * 2012-08-06 2012-12-19 北京奇虎科技有限公司 一种识别网站页面的方法和装置
CN105183886A (zh) * 2015-09-25 2015-12-23 中国民生银行股份有限公司 网页内容提取方法及装置

Also Published As

Publication number Publication date
CN110990671A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
US9268749B2 (en) Incremental computation of repeats
US8205153B2 (en) Information extraction combining spatial and textual layout cues
CN107153716B (zh) 网页内容提取方法和装置
US10860792B2 (en) Detecting compatible layouts for content-based native ads
CN109492177B (zh) 一种基于网页语义结构的网页分块方法
CN112084451B (zh) 一种基于视觉分块的网页logo提取系统及方法
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN108874934B (zh) 页面正文提取方法和装置
CN116257406A (zh) 用于智慧城市的网关数据管理方法及其系统
CN111475700A (zh) 一种数据提取方法及相关设备
CN110851136A (zh) 数据获取方法、装置、电子设备及存储介质
CN113918794B (zh) 企业网络舆情效益分析方法、系统、电子设备及存储介质
WO2020101479A1 (en) System and method to detect and generate relevant content from uniform resource locator (url)
CN104036190A (zh) 一种检测页面篡改的方法及装置
CN114398138A (zh) 界面生成方法、装置、计算机设备和存储介质
Yu et al. Web content information extraction based on DOM tree and statistical information
CN108595466B (zh) 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN108694192B (zh) 网页类型的判断方法及装置
CN112232075A (zh) 基于时间格式和网页元素特征的文章发布时间识别方法
CN110990671B (zh) 页面类型甄别装置、方法及可读存储介质
CN113742785A (zh) 一种网页分类方法、装置、电子设备及存储介质
CN116774973A (zh) 数据渲染方法、装置、计算机设备及存储介质
CN113806667B (zh) 一种支持网页分类的方法和系统
CN113987320A (zh) 基于智能页面解析的实时资讯爬虫方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant