CN110990671A - 页面类型甄别装置、方法及可读存储介质 - Google Patents

页面类型甄别装置、方法及可读存储介质 Download PDF

Info

Publication number
CN110990671A
CN110990671A CN201911121395.XA CN201911121395A CN110990671A CN 110990671 A CN110990671 A CN 110990671A CN 201911121395 A CN201911121395 A CN 201911121395A CN 110990671 A CN110990671 A CN 110990671A
Authority
CN
China
Prior art keywords
page
natural
structure tree
feature
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911121395.XA
Other languages
English (en)
Other versions
CN110990671B (zh
Inventor
吴良顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Original Assignee
Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuo Erzhi Lian Wuhan Research Institute Co Ltd filed Critical Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority to CN201911121395.XA priority Critical patent/CN110990671B/zh
Publication of CN110990671A publication Critical patent/CN110990671A/zh
Application granted granted Critical
Publication of CN110990671B publication Critical patent/CN110990671B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种页面类型甄别方法、装置及计算机可读存储介质,所述方法包括:对目标URL进行静态抓取得到第一页面;对所述目标URL进行动态抓取得到第二页面;移除所述第一页面及所述第二页面中所包含的噪声内容;计算经过噪声移除处理的第一页面与经过噪声移除处理的第二页面之间的页面相似度;判断所述页面相似度是否大于预设相似度;若所述页面相似度大于所述预设相似度,则标记所述目标URL对应的页面为静态页面;及若所述页面相似度不大于所述预设相似度,则标记所述目标URL对应的页面为动态页面。本发明可以自动甄别URL对应的页面类型是静态页面还是动态页面。

Description

页面类型甄别装置、方法及可读存储介质
技术领域
本发明涉及网页处理技术领域,尤其涉及一种页面类型甄别装置、 方法及计算机可读存储介质。
背景技术
网页页面有静态页面和动态页面之分,爬虫系统对不同的页面类 型会采取不同的抓取方式。比如,若URL对应的是静态页面,则可以 直接解析该请求URL后响应的HTML。若URL对应的是动态页面, 由于动态网页的数据采用异步加载,即站点服务器初次响应的数据仅 仅是页面结构框架和异步执行的代码,加载完毕后,再次请求服务器 拿到数据,通过JavaScript操作Dom组合成完整页面。爬虫系统需通 过模拟动态网页的JS行为来获得数据,比如利用前端渲染支持库(带 有JS引擎)进行动态页面爬取。
在实际web网站中,两种页面经常是共存的。为了提高爬取效率, 如何标识出当前URL对应的页面是属于哪一种页面类型,是亟待解决 的问题。
发明内容
有鉴于此,有必要提供一种页面类型甄别装置、方法及计算机可 读存储介质,可以自动甄别URL对应的页面类型是静态页面还是动态 页面。
本发明一实施方式提供一种页面类型甄别方法,所述方法包括: 对目标URL进行静态抓取得到第一页面;对所述目标URL进行动态 抓取得到第二页面;移除所述第一页面及所述第二页面中所包含的噪 声内容;计算经过噪声移除处理的第一页面与经过噪声移除处理的第 二页面之间的页面相似度;判断所述页面相似度是否大于预设相似度; 若所述页面相似度大于所述预设相似度,则标记所述目标URL对应的 页面为静态页面;及若所述页面相似度不大于所述预设相似度,则标 记所述目标URL对应的页面为动态页面。
优选地,所述噪声内容至少包括以下的一种或多种:导航条、广 告条、超链接、网站底部。
优选地,所述计算经过噪声移除处理的第一页面与经过噪声移除 处理的第二页面之间的页面相似度的步骤包括:
对经过噪声移除处理的第一页面及第二页面进行页面分解,以分 别构建第一正文结构树及第二正文结构树;
提取所述第一正文结构树中的每一自然段的特征串及所述第二正 文结构树中的每一自然段的特征串,其中所述自然段为正文结构树的 底层节点;
基于所述第一正文结构树中的每一自然段的特征串及所述第二正 文结构树中的每一自然段的特征串,计算所述第一正文结构树与所述 第二正文结构树之间的每一对同层级自然段的特征串重合率;及
根据计算得到的所有特征串重合率计算得到所述第一页面与所述 第二页面的页面相似度。
优选地,所述对经过噪声移除处理的第一页面及第二页面进行页 面分解的步骤包括:
对经过噪声移除处理的第一页面及第二页面按照预设的标签顺序 进行逐层分解,直至分解至段落或纯文本。
优选地,所述提取所述第一正文结构树中的每一自然段的特征串 及所述第二正文结构树中的每一自然段的特征串的步骤包括:
提取所述自然段中的句子的首尾字符或汉字作为所述句子的特征 码;及
基于所述自然段中的所有句子的特征码构建所述自然段的特征串。
优选地,所述计算所述第一正文结构树与所述第二正文结构树之 间的每一对同层级自然段的特征串重合率的步骤包括:
利用布隆过滤器对所述第一正文结构树的第一自然段的特征串的 每一特征码进行转换,得到多个第一比特串;
利用所述布隆过滤器对所述第二正文结构树的第二自然段的特征 串的每一特征码进行转换,得到多个第二比特串,其中所述第一自然 段与所述第二自然段为同层级的自然段;
统计所述第一比特串与所述第二比特串的相同个数;及
基于统计得到的相同个数计算得到所述特征串重合率。
优选地,所述第一正文结构树中的每一自然段及所述第二正文结 构树中的每一自然段按照预先权重定义规则定义有对应的权重值,所 述计算所述第一正文结构树与所述第二正文结构树之间的每一对同层 级自然段的特征串重合率的步骤之后还包括:
基于计算得到的特征串重合率及该对同层级自然段的权重值计算 得到该对同层级自然段的加权特征串重合率。
优选地,所述根据计算得到的所有特征串重合率计算得到所述第 一页面与所述第二页面的页面相似度的步骤包括:
根据计算得到的所有加权特征串重合率计算得到所述第一页面与 所述第二页面的页面相似度。
本发明一实施方式提供一种基于隐私保护的页面类型甄别装置, 所述装置包括处理器及存储器,所述存储器上存储有若干计算机程序, 所述处理器用于执行存储器中存储的计算机程序时实现上述页面类型 甄别方法的步骤。
本发明一实施方式还提供一种计算机可读存储介质,所述计算机 可读存储介质存储有多条指令,多条所述指令可被一个或者多个处理 器执行,以实现上述的页面类型甄别方法的步骤。
与现有技术相比,上述页面类型甄别装置、方法及计算机可读存 储介质,可以实现自动甄别URL对应的页面类型是静态页面还是动态 页面,进而可以提高网页爬虫效率。
附图说明
图1是本发明一实施方式的页面类型甄别装置的功能模块图。
图2是本发明一实施方式的页面类型甄别程序的功能模块图。
图3是本发明一实施方式的第一正文结构树的示意图。
图4是本发明一实施方式的页面类型甄别方法的流程图。
主要元件符号说明
存储器 10
处理器 20
页面类型甄别程序 30
第一抓取模块 101
第二抓取模块 102
移除模块 103
计算模块 104
判断模块 105
标记模块 106
页面类型甄别装置 100
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合 附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描 述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发 明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所 获得的所有其他实施例,都属于本发明保护的范围。
进一步需要说明的是,在本文中,术语“包括”、“包含”或者其任何 其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、 方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的 其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的 要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素, 并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的 相同要素。
请参阅图1,为本发明页面类型甄别装置较佳实施例的示意图。
页面类型甄别装置100可以包括存储器10、处理器20以及存储在 所述存储器10中并可在所述处理器20上运行的页面类型甄别程序30。 所述处理器20执行所述页面类型甄别程序30时实现页面类型甄别方 法实施例中的步骤,例如图4所示的步骤S400~S412。或者,所述处 理器20执行所述页面类型甄别程序30时实现图2中各模块的功能, 例如模块101~106。
所述页面类型甄别程序30可以被分割成一个或多个模块,所述一 个或者多个模块被存储在所述存储器10中,并由所述处理器20执行, 以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系 列计算机程序指令段,所述指令段用于描述所述页面类型甄别程序30 在所述页面类型甄别装置100中的执行过程。例如,所述页面类型甄 别程序30可以被分割成图2中的第一抓取模块101、第二抓取模块102、 移除模块103、计算模块104、判断模块105及标记模块106。各模块 具体功能参见下图2中各模块的功能。
本领域技术人员可以理解,所述示意图仅是页面类型甄别装置100 的示例,并不构成对页面类型甄别装置100的限定,可以包括比图示 更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述 页面类型甄别装置100还可以包括通信模块、总线等。
所称处理器20可以是中央处理单元(Central Processing Unit,CPU), 还可以是其他通用处理器、数字信号处理器(Digital Signal Processor, DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、 现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他 可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通 用处理器可以是微处理器或者所述处理器20也可以是任何常规的处理 器等,所述处理器20可以利用各种接口和总线连接页面类型甄别装置 100的各个部分。
所述存储器10可用于存储所述页面类型甄别程序30和/或模块, 所述处理器20通过运行或执行存储在所述存储器10内的计算机程序 和/或模块,以及调用存储在存储器10内的数据,实现所述页面类型甄 别装置100的各种功能。所述存储器10可以包括高速随机存取存储器, 还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存 储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡, 闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易 失性固态存储器件。
图2为本发明页面类型甄别程序较佳实施例的功能模块图。
参阅图2所示,页面类型甄别程序30可以包括第一抓取模块101、 第二抓取模块102、移除模块103、计算模块104、判断模块105及标 记模块106。在一实施方式中,上述模块可以为存储于所述存储器10 中且可被所述处理器20调用执行的可程序化软件指令。可以理解的是, 在其他实施方式中,上述模块也可为固化于所述处理器20中的程序指 令或固件(firmware)。
第一抓取模块101用于对目标URL进行静态抓取得到第一页面。
在一实施方式中,所述目标URL对应的页面可能是静态页面或者 动态页面。所述静态页面可以是指网页的代码在页面中,不需执行asp, php,jsp,net等动态语言而生成客户端网页代码的网页。所述动态页面 可以是指需通过执行asp,php,jsp,net等程序生成客户端网页代码的网 页。所述目标URL可以是用户输入的URL,也可以是一待爬取的网页 数据表中的URL,或者通过其他方式获取得到的URL。
第一抓取模块101采用静态抓取的方式来对目标URL进行抓取, 得到所述第一页面。比如,第一抓取模块101可以通过直接解析目标 URL并抓取目标URL响应的HTML文件,该HTML文件即为所述第 一页面。
第二抓取模块102用于对所述目标URL进行动态抓取得到第二页 面。
在一实施方式中,第二抓取模块102采用动态抓取的方式来对目 标URL进行抓取,得到所述第二页面。所述动态抓取的方式比如可以 是前端渲染的方式,所述第二抓取模块102可以采用前端渲染支持库 (比如,HtmlUtil或PhantomJS)实现对所述目标URL进行动态抓取, Htmlunit工具/PhantomJS工具可模拟浏览抓取页面内容的Java框架, 具有JS解析引擎,可以解析页面的JS脚本,得到完整的页面内容。
在一实施方式中,当所述目标URL对应的页面为静态页面时,第 一抓取模块101抓取得到的第一页面应该是与第二抓取模块102抓取 得到的第二页面相同,当所述目标URL对应的页面为动态页面时,由 于第一抓取模块101不会解析JS脚本,导致第一抓取模块101抓取的 页面不是完整的页面内容,进而会导致第一抓取模块101抓取得到的 第一页面与第二抓取模块102抓取得到的第二页面不相同。
移除模块103用于移除所述第一页面及所述第二页面中所包含的 噪声内容。
在一实施方式中,所述噪声内容可以是指页面的非主体内容,可 以根据实际需求进行设定。比如所述噪声内容可以是以下的一种或多 种内容:导航条、广告条、超链接、网站底部等。
举例而言,所述噪声内容包括导航条、广告条、网站底部。所述 移除模块103移除所述第一页面及所述第二页面中所包含的导航条、 广告条、网站底部,再进行后续页面相似度计算。
计算模块104用于计算经过噪声移除处理的第一页面与经过噪声 移除处理的第二页面之间的页面相似度。
在一实施方式中,计算模块104可以对经过噪声移除处理的第一 页面及第二页面进行页面分解,以分别构建第一正文结构树及第二正 文结构树。具体地,对于第一页面,可以按照预设的标签顺序进行逐 层分解,直至分解至段落或纯文本。比如,可以将页面按照<html>、 <head>、<body>、<title>、<div>、<table>、<tr>、<td>、<p>等标签结 构进行逐层分解,形成第一正文结构树,比如,所述第一正文结构树 如图3所示。对于第二页面,同样可以按照上述分解方法对页面进行 分解,得到第二正文结构树。正文结构树的底层节点可以定义为一个 自然段。
在一实施方式中,每个底层节点的数据结构以一个二元组 (PID,PW)进行表示,其中PID=PID0,PID1,…为该自然段的编号, PW=PW0,PW1,…为该自然段对应的权重值。对于正文结构树的底层节 点,自然段的排序方式为:如果PWi+1=PWi,则自然段PIDi+1是自然段PIDi的右边兄弟,如果PWi+1<PWi,则自然段PIDi+1是自然段PIDi的孩 子,如果PWi+1>PWi,则自然段PIDi+1是自然段PIDi的父亲。
在一实施方式中,每一自然段对应的权重值可以根据标签的特性 来确定,比如可以通过以下规则来设定每一自然段对应的权重值:每 一自然段可以预先设置一基准权重值,当该自然段具有以下特性时, 增加一定比例的权重值:1).当自然段存在大字号字体或者小字号字体、 粗字体、字体具有颜色标注等,应当对该自然段增加一定比例或一预 设值的权重值(比如增加40%权重,或者对权重值加10);2).当自然 段含有指向正文的超链接时,应当对该自然段增加一定比例的权重值 (比如增加60%权重,或者对权重值加20);3).当自然段对应的标签 为<div>、<table>、<td>、<p>等容器标签时,应当对该自然段增加一定比例的权重值(比如增加100%权重,或者对权重值加40)。当得到 每一自然段的权重后,上述根据不同的特征对权重进行调整的度量单 位可能不相同,为了能够将权重值作为后续计算参数,需要对权重值 进行规范化处理,比如,可以对每一自然段的权重值进行归一化处理, 将权重值按比例缩放,使之落入一特定数值区间,进行实现对每一自 然段的权重值进行标准化。
在一实施方式中,对于第一正文结构树与第二正文结构树的每一 自然段,计算模块104可以从所述自然段中提取表征所述自然段内容 的特征串。具体地,计算模块104可以提取所述自然段中的句子的首 尾字符或汉字作为所述句子的特征码,再基于所述自然段中的所有句 子的特征码构建所述自然段的特征串。比如,自然段中具有常用标点 符号(逗号、分号、句号等)为分隔符,将该自然段划分为多个独立 的句子。句子可以是指两个标点符号之间的一句话,也可以是指两个 句号之间的一句话。
举例而言,一标签<p>的自然段内容为:“电影《ABC》自XX月 YY日上映后,不断爆出高票房消息,但上映后有网友质疑票房造假, 引起相关部门关注。相关部门经过调查取证,对该电影《ABC》的发 行公司作出停工、整改、警告等处分”。计算模块104对上述自然段进行提取,可以得到六个特征码:电映后、不消息、但造假、引关注、 相取证、对处分。该六个特征码可组成与该自然段对应的特征串{电映 后,不消息,但造假,引关注,相取证,对处分}。
当提取得到每一自然段的特征串后,可以将第一正文结构树与所 述第二正文结构树之间的每一对同层级自然段的特征串进行比对来得 到特征串重合率,以确定每一对同层级自然段的相似度。可以理解的, 为了使得第一页面与第二页面在比较过程中是将相同区域的页面内容 进行比较,在进行自然段比较时,优选是在第一正文结构树中确定一代比较的自然段,然后在第二正文结构树中选定与该待比较的自然段 属于同层级的自然段,再将该两个自然段的特征串进行比对,来得到 特征串重合率,该特征串重合率代表了该两个自然段的相似度,计算 模块104再根据所有特征串重合率计算得到所述第一页面与所述第二 页面的页面相似度。比如,第一正文结构树、第二正文结构树均包括N 个自然段,每个自然段进行比较可以得到一特征串重合率,计算模块104可以根据N个特征串重合率计算得到所述第一页面与所述第二页 面的页面相似度,比如可以将N个特征串重合率进行相加得到所述第 一页面与所述第二页面的页面相似度。
在一实施方式中,计算模块104可以利用布隆过滤器对所述第一 正文结构树的第一自然段的特征串的每一特征码进行转换,得到多个 第一比特串,及利用所述布隆过滤器对所述第二正文结构树的第二自 然段的特征串的每一特征码进行转换,得到多个第二比特串,所述第 一自然段与所述第二自然段为同层级的自然段,即所述第一自然段与 所述第二自然段表征的相同区域的页面内容。计算模块104再统计所 述第一比特串与所述第二比特串的相同个数,进而可以基于统计得到 的相同个数计算得到该两个自然段之间的特征串重合率。比如,第一 比特串与第二比特串的数目均为r个,经过比较得到相同比特串数目为 s个,则特征串重合率为s/r。
举例而言,计算模块104基于布隆过滤器计算得到两自然段的特 征串重合率的过程如下所示:1).对于第一正文结构树的一自然段P1, 其特征串集合可以表征为A={a1,a2,…,an},其中a1,a2,…,an为该自然 段中每一句子的特征码;2).设定一个m维比特数组V={v1,v2,…,vm}, vi=0或1,i∈1~m;3).设定哈希函数组H={h1,h2,…,hn},hi能将任 意数字映射到0~m的整数;4).依次使用哈希函数组来对集合A的一 元素ai进行哈希运算,得到k个哈希值h1(ai),h2(ai),…,hk(ai),再使比 特组中下标为h1(ai),h2(ai),…,hk(ai)的为1,其余为0,进而可以得到与 该元素ai对应的比特串,比如元素ai为“电映后”,令m=10,k=3,经 过计算得到三个哈希值为4,6,8,则经过处理后的比特串V=[0,0,0,1,0, 1,0,1,0,0],该比特串[0,0,0,1,0,1,0,1,0,0]即表征了“电映后”,若 集合A中有n个元素,则可以得到n个比特串;5).重复上述步骤1-4 对第二正文结构树的自然段P2进行处理,同样可以得到多个比特串; 6).统计自然段P1的比特串与自然段P2的比特串的相同个数,比如自 然段P2的比特串数目为r个,经过比较得到与自然段P1相同的比特 串数目为s个,则自然段P1与自然段P2的特征串重合率为s/r。当计 算得到所有段落之间的特征串结合率后(假设i个自然段),若自然段 没有定义权重值,则可以直接通过下述公式计算得到第一页面与第二页面的相似度:similarity=∑i(si/ri)。
在一实施方式中,当每一自然段定义有权重值时,计算模块104 基于计算得到的特征串重合率及该对同层级自然段的权重值计算得到 该对同层级自然段的加权特征串重合率,再根据计算得到的所有加权 特征串重合率计算得到所述第一页面与所述第二页面的页面相似度。
举例而言,当计算得到所有段落之间的特征串结合率后(假设i 个自然段),通过下述公式计算得到第一页面与第二页面的相似度: similarity=∑i PWi(ri/si),PWi为第i个自然段对应的权重值。
判断模块105用于判断所述页面相似度是否大于预设相似度。
在一实施方式中,所述页面相似度可以根据使用需求或经验进行 设定与调整。当计算得到所述第一页面与所述第二页面之间的页面相 似度时,判断模块105可以将计算得到的页面相似度与预设相似度进 行比较,来判断所述页面相似度是否大于预设相似度。
举例而言,预设相似度设定为0.8,通过similarity=∑i PWi(ri/si)计 算得到所述第一页面与所述第二页面之间的页面相似度,判断模块105 判断similarity的值是否大于0.8。
标记模块106用于在所述页面相似度大于所述预设相似度时,标 记所述目标URL对应的页面为静态页面,在所述页面相似度不大于所 述预设相似度时,标记所述目标URL对应的页面为动态页面。
在一实施方式中,当判断模块105判定所述页面相似度大于所述 预设相似度时,表明对同一URL进行静态抓取与动态抓取得到的页面 被认定为相同页面,标记模块106可以将所述目标URL对应的页面标 记为静态页面,比如可以是在该目标URL后添加一备注信息(“静态”) 或为该目标URL添加一标记信息,如以红色进行标记。当判断模块105 判定所述页面相似度不大于所述预设相似度时,表明对同一URL进行 静态抓取与动态抓取得到的页面被认定为不相同页面,静态抓取方式 出现了页面抓取不全的情况,标记模块106可以将所述目标URL对应 的页面标记为动态页面,比如可以是在该目标URL后添加一备注信息(“动态”)或为该目标URL添加一标记信息,如以黄色进行标记。
在一实施方式中,当爬取的页面网站是层级较严谨的网站时,即 页面网站符合预设特征,比如是电商网站,基于与此相同层级的页面, 一般采取了同样的页面类型,进而在进行页面爬取时,其他页面的抓 取可以沿用本层级已经确定下来的页面爬取策略。比如,如果确定页 面是静态页面,则后面同层级的页面爬取直接采用静态页面抓取技术, 如果确定是动态页面,则后面同层级的页面可以直接采用动态渲染技 术进行爬取。
举例而言,当爬虫系统具有上述页面类型甄别程序30时,可以自 动识别出待爬取的URL的页面类型,如果是静态页面,后面同层级的 页面爬取直接采用静态页面抓取技术,如果是动态页面,后面同层级 的页面采用动态渲染技术进行爬取,进而可以提高页面爬取效率。
图4为本发明一实施方式中页面类型甄别方法的流程图。根据不 同的需求,所述流程图中步骤的顺序可以改变,某些步骤可以省略。
步骤S400,对目标URL进行静态抓取得到第一页面。
步骤S402,对所述目标URL进行动态抓取得到第二页面。
步骤S404,移除所述第一页面及所述第二页面中所包含的噪声内 容。
步骤S406,计算经过噪声移除处理的第一页面与经过噪声移除处 理的第二页面之间的页面相似度。
步骤S408,判断所述页面相似度是否大于预设相似度。
步骤S410,若所述页面相似度大于所述预设相似度,则标记所述 目标URL对应的页面为静态页面。
步骤S412,若所述页面相似度不大于所述预设相似度,则标记所 述目标URL对应的页面为动态页面。
上述页面类型甄别装置、方法及计算机可读存储介质,可以实现 自动甄别URL对应的页面类型是静态页面还是动态页面,进而可以提 高网页爬虫效率。
对本领域的技术人员来说,可以根据本发明的发明方案和发明构 思结合生产的实际需要做出其他相应的改变或调整,而这些改变和调 整都应属于本发明所公开的范围。

Claims (10)

1.一种页面类型甄别方法,其特征在于,所述方法包括:
对目标URL进行静态抓取得到第一页面;
对所述目标URL进行动态抓取得到第二页面;
移除所述第一页面及所述第二页面中所包含的噪声内容;
计算经过噪声移除处理的第一页面与经过噪声移除处理的第二页面之间的页面相似度;
判断所述页面相似度是否大于预设相似度;
若所述页面相似度大于所述预设相似度,则标记所述目标URL对应的页面为静态页面;及
若所述页面相似度不大于所述预设相似度,则标记所述目标URL对应的页面为动态页面。
2.如权利要求1所述的方法,其特征在于,所述噪声内容至少包括以下的一种或多种:导航条、广告条、超链接、网站底部。
3.如权利要求1所述的方法,其特征在于,所述计算经过噪声移除处理的第一页面与经过噪声移除处理的第二页面之间的页面相似度的步骤包括:
对经过噪声移除处理的第一页面及第二页面进行页面分解,以分别构建第一正文结构树及第二正文结构树;
提取所述第一正文结构树中的每一自然段的特征串及所述第二正文结构树中的每一自然段的特征串,其中所述自然段为正文结构树的底层节点;
基于所述第一正文结构树中的每一自然段的特征串及所述第二正文结构树中的每一自然段的特征串,计算所述第一正文结构树与所述第二正文结构树之间的每一对同层级自然段的特征串重合率;及
根据计算得到的所有特征串重合率计算得到所述第一页面与所述第二页面的页面相似度。
4.如权利要求3所述的方法,其特征在于,所述对经过噪声移除处理的第一页面及第二页面进行页面分解的步骤包括:
对经过噪声移除处理的第一页面及第二页面按照预设的标签顺序进行逐层分解,直至分解至段落或纯文本。
5.如权利要求3所述的方法,其特征在于,所述提取所述第一正文结构树中的每一自然段的特征串及所述第二正文结构树中的每一自然段的特征串的步骤包括:
提取所述自然段中的句子的首尾字符或汉字作为所述句子的特征码;及
基于所述自然段中的所有句子的特征码构建所述自然段的特征串。
6.如权利要求5所述的方法,其特征在于,所述计算所述第一正文结构树与所述第二正文结构树之间的每一对同层级自然段的特征串重合率的步骤包括:
利用布隆过滤器对所述第一正文结构树的第一自然段的特征串的每一特征码进行转换,得到多个第一比特串;
利用所述布隆过滤器对所述第二正文结构树的第二自然段的特征串的每一特征码进行转换,得到多个第二比特串,其中所述第一自然段与所述第二自然段为同层级的自然段;
统计所述第一比特串与所述第二比特串的相同个数;及
基于统计得到的相同个数计算得到所述特征串重合率。
7.如权利要求3所述的方法,其特征在于,所述第一正文结构树中的每一自然段及所述第二正文结构树中的每一自然段按照预先权重定义规则定义有对应的权重值,所述计算所述第一正文结构树与所述第二正文结构树之间的每一对同层级自然段的特征串重合率的步骤之后还包括:
基于计算得到的特征串重合率及该对同层级自然段的权重值计算得到该对同层级自然段的加权特征串重合率。
8.如权利要求7所述的方法,其特征在于,所述根据计算得到的所有特征串重合率计算得到所述第一页面与所述第二页面的页面相似度的步骤包括:
根据计算得到的所有加权特征串重合率计算得到所述第一页面与所述第二页面的页面相似度。
9.一种页面类型甄别装置,所述装置包括处理器及存储器,所述存储器上存储有若干计算机程序,其特征在于,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-8任一项所述的页面类型甄别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,多条所述指令可被一个或者多个处理器执行,以实现如权利要求1-8任一项所述的页面类型甄别方法的步骤。
CN201911121395.XA 2019-11-15 2019-11-15 页面类型甄别装置、方法及可读存储介质 Active CN110990671B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911121395.XA CN110990671B (zh) 2019-11-15 2019-11-15 页面类型甄别装置、方法及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911121395.XA CN110990671B (zh) 2019-11-15 2019-11-15 页面类型甄别装置、方法及可读存储介质

Publications (2)

Publication Number Publication Date
CN110990671A true CN110990671A (zh) 2020-04-10
CN110990671B CN110990671B (zh) 2022-06-10

Family

ID=70084372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911121395.XA Active CN110990671B (zh) 2019-11-15 2019-11-15 页面类型甄别装置、方法及可读存储介质

Country Status (1)

Country Link
CN (1) CN110990671B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102833233A (zh) * 2012-08-06 2012-12-19 北京奇虎科技有限公司 一种识别网站页面的方法和装置
CN105183886A (zh) * 2015-09-25 2015-12-23 中国民生银行股份有限公司 网页内容提取方法及装置
US20190303500A1 (en) * 2018-03-27 2019-10-03 Capital One Services, Llc Systems and methods for single page application server side renderer

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102833233A (zh) * 2012-08-06 2012-12-19 北京奇虎科技有限公司 一种识别网站页面的方法和装置
CN105183886A (zh) * 2015-09-25 2015-12-23 中国民生银行股份有限公司 网页内容提取方法及装置
US20190303500A1 (en) * 2018-03-27 2019-10-03 Capital One Services, Llc Systems and methods for single page application server side renderer

Also Published As

Publication number Publication date
CN110990671B (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN109325165B (zh) 网络舆情分析方法、装置及存储介质
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
CN108021651B (zh) 一种网络舆情风险评估方法及装置
US20150100304A1 (en) Incremental computation of repeats
CN107153716B (zh) 网页内容提取方法和装置
US8205153B2 (en) Information extraction combining spatial and textual layout cues
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN107391675A (zh) 用于生成结构化信息的方法和装置
CN108520007B (zh) 万维网网页信息提取方法、存储介质及计算机设备
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN111881398A (zh) 页面类型确定方法、装置和设备及计算机存储介质
WO2020101479A1 (en) System and method to detect and generate relevant content from uniform resource locator (url)
CN113918794B (zh) 企业网络舆情效益分析方法、系统、电子设备及存储介质
CN106446123A (zh) 一种网页中验证码元素识别方法
CN104036190A (zh) 一种检测页面篡改的方法及装置
JP2007286861A (ja) 文書構造抽出方法および文書検索方法
CN108595466B (zh) 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法
CN104572874B (zh) 一种网页信息的抽取方法及装置
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN104036189A (zh) 页面篡改检测方法及黑链数据库生成方法
CN108694192B (zh) 网页类型的判断方法及装置
CN116089732B (zh) 基于广告点击数据的用户偏好识别方法及系统
CN113742785A (zh) 一种网页分类方法、装置、电子设备及存储介质
CN110990671B (zh) 页面类型甄别装置、方法及可读存储介质
CN116719997A (zh) 政策信息推送方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant