CN109657208B - 网页相似度计算方法、装置、设备、计算机可读存储介质 - Google Patents
网页相似度计算方法、装置、设备、计算机可读存储介质 Download PDFInfo
- Publication number
- CN109657208B CN109657208B CN201710934918.7A CN201710934918A CN109657208B CN 109657208 B CN109657208 B CN 109657208B CN 201710934918 A CN201710934918 A CN 201710934918A CN 109657208 B CN109657208 B CN 109657208B
- Authority
- CN
- China
- Prior art keywords
- compared
- comparison area
- blocks
- webpages
- layout
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种网页相似度计算方法、装置、设备、计算机可读存储介质,属于数据处理技术领域。网页相似度计算方法包括:获取待比较网页的DOM树,并对DOM树进行去噪处理;从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染主体结构标签生成布局块;根据布局块的坐标对待比较网页的布局块分别进行横向划分,得到N组比对区域块,第k组比对区域块包括其中一待比较网页的第k比对区域块和对应的另一待比较网页的第k比对区域块,将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度。本发明能够准确计算出两个网页间的相似度。
Description
技术领域
本发明涉及数据处理技术领域,特别是指一种网页相似度计算方法、装置、设备、计算机可读存储介质。
背景技术
目前互联网上的重复网页非常多,因此,从不同的网站抓取到相似网页的可能性非常高。比如,同一条新闻出现时,网上会以各种形式进行转载复制传播,从而导致两个网页的相似程度非常高,这种相似程度高的网页,可以是同一个网站上的网页,也可以不是同一个网站上的网页。搜索引擎在收录网页的时候,通常会对两个网页进行比较,看看两个网页是否相似,对相似度高的网页进行去重或者聚合展现。
现有的相似度计算方法包括几种:1)利用URL去重;2)利用内容计算相似;3)利用链接关系计算相似;4)利用网页的结构特征(DOM树结构)计算相似。利用URL去重,只能做到简单的去重,无法解决不同URL,内容相似的问题;利用链接关系进行相似度计算还不是很成熟,链接关系只是网页中权重较小的信息,效果不是很好;利用网页的结构特征计算,也只能解决网页结构完全一致的重复,而网站制作时一般都自己的网页结构,纯粹的网站结构上的抄袭已经比较少用,而且从实际效果看引入网页结构特征对于相似度计算的贡献也不多。目前业界,一般多数还是利用内容信息从网页中提取内容,计算相似,但是对于内容信息提取困难的网页(比如正文及摘要较少、大量图片出现、正文位置很难识别、Meta属性伪造等网站等),利用现有方法就很难做到较好的判断。
综上所述,现有技术计算网页相似度的准确度较差。
发明内容
本发明要解决的技术问题是提供一种网页相似度计算方法、装置、设备、计算机可读存储介质,能够准确计算出两个网页间的相似度。
为解决上述技术问题,本发明的实施例提供技术方案如下:
一方面,提供一种网页相似度计算方法,包括:
获取待比较网页的DOM树,并对所述DOM树进行去噪处理;
从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染所述主体结构标签生成布局块;
根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块,第k组比对区域块包括其中一待比较网页的第k比对区域块和对应的另一待比较网页的第k比对区域块,k为大于0不大于N的整数;
将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度。
进一步地,所述对所述DOM进行去噪处理包括:
移除所述DOM树中的功能性标签;
将所述DOM树中重复出现的多个标签合并为一个标签。
进一步地,所述从去噪处理后的DOM树中选择DOM树的主体结构标签包括:
获取去噪处理后的DOM树的每一层的标签,从根节点开始逐层渲染所述DOM树的标签,当根据其中一层标签在行方向或列方向上能够生成至少两个布局块时,选取该层标签作为DOM树的主体结构标签。
进一步地,所述渲染所述主体结构标签生成布局块包括:
渲染两个待比较网页的主体结构标签,分别生成相同分辨率下的多个矩形的布局块。
进一步地,所述根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块包括:
将两个待比较网页的布局块均划分成多个预设大小的矩形块,并将每一矩形块的中心点作为一坐标点;
根据两个待比较网页的坐标点对两个待比较网页的布局块进行横向划分,获得N组比对区域块,每一比对区域块包括至少一个布局块,且其中一待比较网页中第k比对区域块中的坐标点在另一待比较网页中的对应位置点落入另一待比较网页中第k比对区域块的数量最多。
进一步地,所述将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度包括:
获取各个比对区域块DOM树的编码序列,所述编码序列包含DOM树各节点的名称及层级;
每组比对区域块中,将其中一比对区域块的每一编码序列与另一比对区域块的每一编码序列两两进行比较,得到多个编码序列的相似度结果,将多个编码序列的相似度结果加权求平均得到每组比对区域块的页面结构相似度;
将所有比对区域块的页面结构相似度加权求和得到两个待比较网页的整体网页结构相似度。
进一步地,所述将其中一比对区域块的每一编码序列与另一比对区域块的每一编码序列两两进行比较包括:
在比较两个编码序列的相似度时,基于其中较长的一个编码序列对编码序列的每一项设置一个权重值ω,在编码序列的从前到后的方向上,ω的值依次递减;
通过编辑距离L以及权重值ω计算获取两个编码序列的相似度。
本发明实施例还提供了一种网页相似度计算装置,包括:
DOM树处理模块,用于获取待比较网页的DOM树,并对所述DOM树进行去噪处理;
渲染模块,用于从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染所述主体结构标签生成布局块;
比对区域块划分模块,用于根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块,第k组比对区域块包括其中一待比较网页的第k比对区域块和对应的另一待比较网页的第k比对区域块,k为大于0不大于N的整数;
计算模块,用于将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度。
本发明实施例还提供了一种实现网页相似度计算的电子设备,包括:
处理器;和
存储器,在所述存储器中存储有计算机程序指令,
其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器执行以下步骤:
获取待比较网页的DOM树,并对所述DOM树进行去噪处理;
从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染所述主体结构标签生成布局块;
根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块,第k组比对区域块包括其中一待比较网页的第k比对区域块和对应的另一待比较网页的第k比对区域块,k为大于0不大于N的整数;
将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器运行时,使得所述处理器执行以下步骤:
获取待比较网页的DOM树,并对所述DOM树进行去噪处理;
从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染所述主体结构标签生成布局块;
根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块,第k组比对区域块包括其中一待比较网页的第k比对区域块和对应的另一待比较网页的第k比对区域块,k为大于0不大于N的整数;
将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度。
本发明的实施例具有以下有益效果:
上述方案中,对待比较网页的DOM树进行去噪处理,从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染主体结构标签生成布局块,根据布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的多组比对区域块,将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度。本发明中,将待比较网页划分为多个结构类似的比对区域块,并对对应比对区域块的DOM树进行对比以评价两个待比较网页的相似度,而不是将两个待比较网页进行整体比对,能够提高网页相似度计算的准确性。
附图说明
图1为本发明实施例网页相似度计算方法的流程示意图;
图2为本发明实施例对DOM进行去噪处理的流程示意图;
图3为本发明实施例从去噪处理后的DOM树中选择DOM树的主体结构标签的示意图;
图4为本发明实施例渲染主体结构标签生成布局块的示意图;
图5为本发明实施例根据布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块的流程示意图;
图6为本发明实施例将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度的流程示意图;
图7为本发明实施例将其中一比对区域块的每一编码序列与另一比对区域块的每一编码序列两两进行比较,得到多个编码序列的相似度结果的流程示意图;
图8为本发明实施例网页相似度计算装置的结构框图;
图9为本发明实施例实现网页相似度计算的电子设备的结构框图;
图10为本发明具体实施例网页相似度计算方法的流程示意图;
图11为本发明实施例生成的布局块的示意图;
图12为本发明实施例划分比对区域块的示意图;
图13为本发明实施例获取DOM树的编码序列的示意图。
具体实施方式
为使本发明的实施例要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明的实施例提供一种网页相似度计算方法、装置、设备、计算机可读存储介质,能够准确计算出两个网页间的相似度。
实施例一
本发明的实施例提供一种网页相似度计算方法,如图1所示,包括:
步骤101:获取待比较网页的DOM树,并对所述DOM树进行去噪处理;
步骤102:从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染所述主体结构标签生成布局块;
步骤103:根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块,第k组比对区域块包括其中一待比较网页的第k比对区域块和对应的另一待比较网页的第k比对区域块,k为大于0不大于N的整数;
步骤104:将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度。
本实施例中,对待比较网页的DOM树进行去噪处理,从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染主体结构标签生成布局块,根据布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的多组比对区域块,将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度。本发明中,将待比较网页划分为多个结构类似的比对区域块,并对对应比对区域块的DOM树进行对比以评价两个待比较网页的相似度,而不是将两个待比较网页进行整体比对,能够提高网页相似度计算的准确性。
作为一个示例,如图2所示,所述步骤101包括:
步骤1011:移除所述DOM树中的功能性标签;
其中,功能性标签包括弹窗标签,浮动窗标签等。
步骤1012:将所述DOM树中重复出现的多个标签合并为一个标签。
如DOM树中的标签为<table><tr><td></td>…</tr></table>,如果<table>标签下没有别的子标签,可直接将<table><tr><td></td>…</tr></table>合并为Lable_Table;还可以将多个重复出现的<p></p><p></p>…<p></p>合并为<p></p>。
作为一个示例,如图3所示,从去噪处理后的DOM树中选择DOM树的主体结构标签包括:
步骤1021:获取去噪处理后的DOM树的每一层的标签,从根节点开始逐层渲染所述DOM树的标签,当根据其中一层标签在行方向或列方向上能够生成至少两个布局块时,选取该层标签作为DOM树的主体结构标签;
进一步地,如图4所示,所述渲染所述主体结构标签生成布局块包括:
步骤1022:渲染两个待比较网页的主体结构标签,分别生成相同分辨率下的多个矩形的布局块。
作为一个示例,如图5所示,所述根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块包括:
步骤1031:将两个待比较网页的布局块均划分成多个预设大小的矩形块,并将每一矩形块的中心点作为一坐标点;
步骤1032:根据两个待比较网页的坐标点对两个待比较网页的布局块进行横向划分,获得N组比对区域块,每一比对区域块包括至少一个布局块,且其中一待比较网页中第k比对区域块中的坐标点在另一待比较网页中的对应位置点落入另一待比较网页中第k比对区域块的数量最多。
作为一个示例,如图6所示,所述步骤104包括:
步骤1041:获取各个比对区域块DOM树的编码序列,所述编码序列包含DOM树各节点的名称及层级;
步骤1042:每组比对区域块中,将其中一比对区域块的每一编码序列与另一比对区域块的每一编码序列两两进行比较,得到多个编码序列的相似度结果,将多个编码序列的相似度结果加权求平均得到每组比对区域块的页面结构相似度;
步骤1043:将所有比对区域块的页面结构相似度加权求和得到两个待比较网页的整体网页结构相似度。
作为一个示例,如图7所示,所述步骤1042包括:
步骤10421:在比较两个编码序列的相似度时,基于其中较长的一个编码序列对编码序列的每一项设置一个权重值ω,在编码序列的从前到后的方向上,ω的值依次递减;
步骤10422:通过编辑距离L以及权重值ω计算获取两个编码序列的相似度。
实施例二
本发明实施例还提供了一种网页相似度计算装置,如图8所示,包括:
DOM树处理模块21,用于获取待比较网页的DOM树,并对所述DOM树进行去噪处理;
渲染模块22,用于从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染所述主体结构标签生成布局块;
比对区域块划分模块23,用于根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块,第k组比对区域块包括其中一待比较网页的第k比对区域块和对应的另一待比较网页的第k比对区域块,k为大于0不大于N的整数;
计算模块24,用于将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度。
本实施例中,对待比较网页的DOM树进行去噪处理,从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染主体结构标签生成布局块,根据布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的多组比对区域块,将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度。本发明中,将待比较网页划分为多个结构类似的比对区域块,并对对应比对区域块的DOM树进行对比以评价两个待比较网页的相似度,而不是将两个待比较网页进行整体比对,能够提高网页相似度计算的准确性。
作为一个示例,DOM树处理模块21具体用于移除所述DOM树中的功能性标签;将所述DOM树中重复出现的多个标签合并为一个标签。
作为一个示例,渲染模块22具体用于获取去噪处理后的DOM树的每一层的标签,从根节点开始逐层渲染所述DOM树的标签,当根据其中一层标签在行方向或列方向上能够生成至少两个布局块时,选取该层标签作为DOM树的主体结构标签;渲染两个待比较网页的主体结构标签,分别生成相同分辨率下的多个矩形的布局块。
作为一个示例,比对区域块划分模块23具体用于将两个待比较网页的布局块均划分成多个预设大小的矩形块,并将每一矩形块的中心点作为一坐标点;根据两个待比较网页的坐标点对两个待比较网页的布局块进行横向划分,获得N组比对区域块,每一比对区域块包括至少一个布局块,且其中一待比较网页中第k比对区域块中的坐标点在另一待比较网页中的对应位置点落入另一待比较网页中第k比对区域块的数量最多。
作为一个示例,计算模块24具体用于获取各个比对区域块DOM树的编码序列,所述编码序列包含DOM树各节点的名称及层级;每组比对区域块中,将其中一比对区域块的每一编码序列与另一比对区域块的每一编码序列两两进行比较,得到多个编码序列的相似度结果,将多个编码序列的相似度结果加权求平均得到每组比对区域块的页面结构相似度;将所有比对区域块的页面结构相似度加权求和得到两个待比较网页的整体网页结构相似度。
作为一个示例,计算模块24具体用于在比较两个编码序列的相似度时,基于其中较长的一个编码序列对编码序列的每一项设置一个权重值ω,在编码序列的从前到后的方向上,ω的值依次递减;通过编辑距离L以及权重值ω计算获取两个编码序列的相似度。
实施例三
本发明实施例还提供了一种实现网页相似度计算的电子设备30,如图9所示,包括:
处理器32;和
存储器34,在所述存储器34中存储有计算机程序指令,
其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器32执行以下步骤:
获取待比较网页的DOM树,并对所述DOM树进行去噪处理;
从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染所述主体结构标签生成布局块;
根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块,第k组比对区域块包括其中一待比较网页的第k比对区域块和对应的另一待比较网页的第k比对区域块,k为大于0不大于N的整数;
将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度。
进一步地,如图9所示,实现网页相似度计算的电子设备30还包括网络接口31、输入设备33、硬盘35、和显示设备36。
上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器32代表的一个或者多个中央处理器(CPU),以及由存储器34代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解,总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外,还包括电源总线、控制总线和状态信号总线,这些都是本领域所公知的,因此本文不再对其进行详细描述。
所述网络接口31,可以连接至网络(如因特网、局域网等),从网络中获取相关数据,例如待比较的网页,并可以保存在硬盘35中。
所述输入设备33,可以接收操作人员输入的各种指令,并发送给处理器32以供执行。所述输入设备33可以包括键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
所述显示设备36,可以将处理器32执行指令获得的结果进行显示。
所述存储器34,用于存储操作系统运行所必须的程序和数据,以及处理器32计算过程中的中间结果等数据。
可以理解,本发明实施例中的存储器34可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM),其用作外部高速缓存。本文描述的装置和方法的存储器34旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器34存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统341和应用程序342。
其中,操作系统341,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序342,包含各种应用程序,例如浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序342中。
上述处理器32,当调用并执行所述存储器34中所存储的应用程序和数据,具体的,可以是应用程序342中存储的程序或指令时,可以获取待比较网页的DOM树,并对所述DOM树进行去噪处理;从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染所述主体结构标签生成布局块;根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块,第k组比对区域块包括其中一待比较网页的第k比对区域块和对应的另一待比较网页的第k比对区域块,k为大于0不大于N的整数;将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度。
本发明上述实施例揭示的方法可以应用于处理器32中,或者由处理器32实现。处理器32可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器32中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器32可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器34,处理器32读取存储器34中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
具体地,处理器32移除所述DOM树中的功能性标签;将所述DOM树中重复出现的多个标签合并为一个标签。
具体地,处理器32获取去噪处理后的DOM树的每一层的标签,从根节点开始逐层渲染所述DOM树的标签,当根据其中一层标签在行方向或列方向上能够生成至少两个布局块时,选取该层标签作为DOM树的主体结构标签。
具体地,处理器32渲染两个待比较网页的主体结构标签,分别生成相同分辨率下的多个矩形的布局块。
具体地,处理器32将两个待比较网页的布局块均划分成多个预设大小的矩形块,并将每一矩形块的中心点作为一坐标点;根据两个待比较网页的坐标点对两个待比较网页的布局块进行横向划分,获得N组比对区域块,每一比对区域块包括至少一个布局块,且其中一待比较网页中第k比对区域块中的坐标点在另一待比较网页中的对应位置点落入另一待比较网页中第k比对区域块的数量最多。
具体地,处理器32获取各个比对区域块DOM树的编码序列,所述编码序列包含DOM树各节点的名称及层级;每组比对区域块中,将其中一比对区域块的每一编码序列与另一比对区域块的每一编码序列两两进行比较,得到多个编码序列的相似度结果,将多个编码序列的相似度结果加权求平均得到每组比对区域块的页面结构相似度;将所有比对区域块的页面结构相似度加权求和得到两个待比较网页的整体网页结构相似度。
具体地,处理器32在比较两个编码序列的相似度时,基于其中较长的一个编码序列对编码序列的每一项设置一个权重值ω,在编码序列的从前到后的方向上,ω的值依次递减;通过编辑距离L以及权重值ω计算获取两个编码序列的相似度。
本实施例中,对待比较网页的DOM树进行去噪处理,从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染主体结构标签生成布局块,根据布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的多组比对区域块,将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度。本发明中,将待比较网页划分为多个结构类似的比对区域块,并对对应比对区域块的DOM树进行对比以评价两个待比较网页的相似度,而不是将两个待比较网页进行整体比对,能够提高网页相似度计算的准确性。
实施例四
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器运行时,使得所述处理器执行以下步骤:
获取待比较网页的DOM树,并对所述DOM树进行去噪处理;
从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染所述主体结构标签生成布局块;
根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块,第k组比对区域块包括其中一待比较网页的第k比对区域块和对应的另一待比较网页的第k比对区域块,k为大于0不大于N的整数;
将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度。
实施例五
下面结合附图对本发明的网页相似度计算方法进行进一步介绍,如图10所示,本发明实施例的网页相似度计算方法具体包括以下步骤:
步骤401:获取待比较网页的DOM树,移除DOM树中的功能性标签;
功能性标签并不代表网页的实质内容,因此,在计算网页相似度之前,需要去除DOM树中的功能性标签,功能性标签包括弹窗标签,浮动窗标签等。
步骤402:对DOM树进行归一化处理,将DOM树中重复出现的多个标签合并为一个标签;
合并DOM树中整体出现的标签和重复出现的标签为一个整体的标签,如DOM树中的标签为<table><tr><td></td>…</tr></table>,如果<table>标签下没有别的子标签,可直接将<table><tr><td></td>...</tr></table>合并为Lable_Table;还可以将多个重复出现的<p></p><p></p>...<p></p>合并为<p></p>。
步骤403:获取去噪处理后的DOM树的每一层的标签,从根节点开始逐层渲染DOM树的标签,选取其中一层标签作为DOM树的主体结构标签;
当根据其中一层标签在行方向或列方向上能够生成至少两个布局块时,选取该层标签作为DOM树的主体结构标签。比如根据第一层标签能够生成一个布局块,根据第二层标签能够生成如图11所示的多个布局块时,则选择第二层标签作为DOM树的主体结构标签。
步骤404:渲染两个待比较网页的主体结构标签,对每个网页分别生成相同分辨率下的多个矩形的布局块;
一具体示例中,在待比较网页的主体结构标签如下时:
<div class=′xx_top_left′></div>
<div class=′xx_top_right′></div>
<table class=′xx_middle_left′></div>
<table class=′xx_middle_t′></div>
<section class=′xx_middle_s′></section>
<footer class=′xx_bottom′></footer>
渲染待比较网页的主体结构标签,可以得到如图11所示的多个矩形的布局块。为了能够准确比较两个待比较网页的整体网页结构相似度,生成的布局块需要处于相同的分辨率下。
步骤405:将两个待比较网页的布局块均划分成多个预设大小的矩形块,并将每一矩形块的中心点作为一坐标点;
可以预先设置矩形块的大小,将两个待比较网页的布局块均划分成多个相同大小的矩形块,将每一矩形块的中心点作为一坐标点,这样可以把布局块转化成一个个的坐标点,将矩形块转化为坐标点之后,可以确定每个布局块的坐标范围。
步骤406:根据两个待比较网页的坐标点对两个待比较网页的布局块进行横向划分,获得N组比对区域块;
根据各个布局块的坐标范围,对待比较网页的主体结构进行横向划分,获得合理的比对区域块。如图12所示,可以将每一待比较网页划分为三个比对区域块,两个待比较网页共有三组比对区域块,其中第一个待比较网页的第一比对区域块与第二个待比较网页的第一比对区域块划分为一组,第一个待比较网页的第二比对区域块与第二个待比较网页的第二比对区域块划分为一组,第一个待比较网页的第三比对区域块与第二个待比较网页的第三比对区域块划分为一组。
具体地,可以通过聚类算法对多个坐标点进行聚类以得到比对区域块,在划分比对区域块后,能够使得第一待比较网页中第k比对区域块中的坐标点在第二待比较网页中的对应位置点落入第二待比较网页中第k比对区域块的数量最多。
步骤407:获取各个比对区域块的DOM树的编码序列;
其中,编码序列包含DOM树各节点的名称及层级,如图13所示,由图左所示的DOM树可以得到图右所示的编码序列,其中,A-L分别代表不同的标签名称。
步骤408:比对每组比对区域块的DOM树的编码序列相似度;
具体地,每组比对区域块中,将其中一比对区域块的每一编码序列与另一比对区域块的每一编码序列两两进行比较。由于越深层次的网页结构对相似度的对比影响越小,所以可以通过递减权重的方式计算编码序列的相似度。在比较两个编码序列的相似度时,对编码序列的每一项设置一个权重值ω,在编码序列的从前到后的方向上,ω的值依次递减,具体地,可采用等比递减的方式确定每一项的权重值ω,只考虑有限深度内的编码序列。通过计算编辑距离时加入权重值的方式获取两个编码序列的相似度。
步骤409:计算每组比对区域块的页面结构相似度;
将每组比对区域块的多个编码序列的相似度结果加权求平均得到每组比对区域块的页面结构相似度。一具体示例中,可以利用以下公式计算得到第k组比对区域块的页面结构相似度Sregion_k,其中,k的取值从1到N,n为得到的编码序列的相似度结果的个数,S0、…、Sn为计算得到的编码序列的相似度结果:
步骤410:计算两个待比较网页的整体网页结构相似度。
将所有比对区域块的页面结构相似度加权求和得到两个待比较网页的整体网页结构相似度,预先可以设置每一比对区域块对应的权重。一具体示例中,可以利用以下公式计算得到两个待比较网页的整体网页结构相似度Sall:
本实施例中,将待比较网页划分为多个结构类似的比对区域块,并对对应比对区域块的DOM树进行对比以评价两个待比较网页的相似度,而不是将两个待比较网页进行整体比对,能够提高网页相似度计算的准确性。
以上是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种网页相似度计算方法,其特征在于,包括:
获取待比较网页的DOM树,并对所述DOM树进行去噪处理;
从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染所述主体结构标签生成布局块;
根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块,第k组比对区域块包括其中一待比较网页的第k比对区域块和对应的另一待比较网页的第k比对区域块,k为大于0不大于N的整数;
将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度,
所述根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块包括:
将两个待比较网页的布局块均划分成多个预设大小的矩形块,并将每一矩形块的中心点作为一坐标点;
根据两个待比较网页的坐标点对两个待比较网页的布局块进行横向划分,获得N组比对区域块,每一比对区域块包括至少一个布局块,且其中一待比较网页中第k比对区域块中的坐标点在另一待比较网页中的对应位置点落入另一待比较网页中第k比对区域块的数量最多。
2.根据权利要求1所述的网页相似度计算方法,其特征在于,所述对所述DOM进行去噪处理包括:
移除所述DOM树中的功能性标签;
将所述DOM树中重复出现的多个标签合并为一个标签。
3.根据权利要求1所述的网页相似度计算方法,其特征在于,所述从去噪处理后的DOM树中选择DOM树的主体结构标签包括:
获取去噪处理后的DOM树的每一层的标签,从根节点开始逐层渲染所述DOM树的标签,当根据其中一层标签在行方向或列方向上能够生成至少两个布局块时,选取该层标签作为DOM树的主体结构标签。
4.根据权利要求1所述的网页相似度计算方法,其特征在于,所述渲染所述主体结构标签生成布局块包括:
渲染两个待比较网页的主体结构标签,分别生成相同分辨率下的多个矩形的布局块。
5.根据权利要求1所述的网页相似度计算方法,其特征在于,所述将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度包括:
获取各个比对区域块DOM树的编码序列,所述编码序列包含DOM树各节点的名称及层级;
每组比对区域块中,将其中一比对区域块的每一编码序列与另一比对区域块的每一编码序列两两进行比较,得到多个编码序列的相似度结果,将多个编码序列的相似度结果加权求平均得到每组比对区域块的页面结构相似度;
将所有比对区域块的页面结构相似度加权求和得到两个待比较网页的整体网页结构相似度。
6.根据权利要求5所述的网页相似度计算方法,其特征在于,所述将其中一比对区域块的每一编码序列与另一比对区域块的每一编码序列两两进行比较,得到多个编码序列的相似度结果包括:
在比较两个编码序列的相似度时,基于其中较长的一个编码序列对编码序列的每一项设置一个权重值ω,在编码序列的从前到后的方向上,ω的值依次递减;
通过编辑距离L以及权重值ω计算获取两个编码序列的相似度。
7.一种网页相似度计算装置,其特征在于,包括:
DOM树处理模块,用于获取待比较网页的DOM树,并对所述DOM树进行去噪处理;
渲染模块,用于从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染所述主体结构标签生成布局块;
比对区域块划分模块,用于根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块,第k组比对区域块包括其中一待比较网页的第k比对区域块和对应的另一待比较网页的第k比对区域块,k为大于0不大于N的整数;
计算模块,用于将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度,
其中,所述比对区域块划分模块用于将两个待比较网页的布局块均划分成多个预设大小的矩形块,并将每一矩形块的中心点作为一坐标点;根据两个待比较网页的坐标点对两个待比较网页的布局块进行横向划分,获得N组比对区域块,每一比对区域块包括至少一个布局块,且其中一待比较网页中第k比对区域块中的坐标点在另一待比较网页中的对应位置点落入另一待比较网页中第k比对区域块的数量最多。
8.一种实现网页相似度计算的电子设备,其特征在于,包括:
处理器;和
存储器,在所述存储器中存储有计算机程序指令,
其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器执行以下步骤:
获取待比较网页的DOM树,并对所述DOM树进行去噪处理;
从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染所述主体结构标签生成布局块;
根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块,第k组比对区域块包括其中一待比较网页的第k比对区域块和对应的另一待比较网页的第k比对区域块,k为大于0不大于N的整数;
将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度,
其中,所述根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块包括:
将两个待比较网页的布局块均划分成多个预设大小的矩形块,并将每一矩形块的中心点作为一坐标点;
根据两个待比较网页的坐标点对两个待比较网页的布局块进行横向划分,获得N组比对区域块,每一比对区域块包括至少一个布局块,且其中一待比较网页中第k比对区域块中的坐标点在另一待比较网页中的对应位置点落入另一待比较网页中第k比对区域块的数量最多。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器运行时,使得所述处理器执行以下步骤:
获取待比较网页的DOM树,并对所述DOM树进行去噪处理;
从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染所述主体结构标签生成布局块;
根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块,第k组比对区域块包括其中一待比较网页的第k比对区域块和对应的另一待比较网页的第k比对区域块,k为大于0不大于N的整数;
将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度,
其中,所述根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块包括:
将两个待比较网页的布局块均划分成多个预设大小的矩形块,并将每一矩形块的中心点作为一坐标点;
根据两个待比较网页的坐标点对两个待比较网页的布局块进行横向划分,获得N组比对区域块,每一比对区域块包括至少一个布局块,且其中一待比较网页中第k比对区域块中的坐标点在另一待比较网页中的对应位置点落入另一待比较网页中第k比对区域块的数量最多。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710934918.7A CN109657208B (zh) | 2017-10-10 | 2017-10-10 | 网页相似度计算方法、装置、设备、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710934918.7A CN109657208B (zh) | 2017-10-10 | 2017-10-10 | 网页相似度计算方法、装置、设备、计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109657208A CN109657208A (zh) | 2019-04-19 |
CN109657208B true CN109657208B (zh) | 2023-07-04 |
Family
ID=66108643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710934918.7A Active CN109657208B (zh) | 2017-10-10 | 2017-10-10 | 网页相似度计算方法、装置、设备、计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109657208B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390044B (zh) * | 2019-06-11 | 2024-03-19 | 平安科技(深圳)有限公司 | 一种相似网络页面的搜索方法及设备 |
CN111949916B (zh) * | 2020-08-20 | 2024-04-09 | 深信服科技股份有限公司 | 一种网页分析方法、装置、设备及存储介质 |
CN112417246A (zh) * | 2020-11-19 | 2021-02-26 | 中国建设银行股份有限公司 | 银行电子渠道相似度确定方法及装置 |
US11657161B2 (en) * | 2020-12-22 | 2023-05-23 | Microsoft Technology Licensing, Llc. | Correlation between source code repositories and web endpoints |
CN115002135B (zh) * | 2022-05-27 | 2024-03-22 | 平安银行股份有限公司 | 多端协同方法、装置、系统及计算机可读存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102236658B (zh) * | 2010-04-26 | 2015-01-14 | 富士通株式会社 | 网页内容提取方法和装置 |
CN103440239B (zh) * | 2013-05-14 | 2016-08-10 | 百度在线网络技术(北京)有限公司 | 一种基于功能区域识别的网页切分方法及装置 |
CN104133870B (zh) * | 2014-07-22 | 2017-06-09 | 哈尔滨工业大学(威海) | 一种网页相似度计算方法及装置 |
-
2017
- 2017-10-10 CN CN201710934918.7A patent/CN109657208B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109657208A (zh) | 2019-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657208B (zh) | 网页相似度计算方法、装置、设备、计算机可读存储介质 | |
Sun et al. | Dom based content extraction via text density | |
US20190197154A1 (en) | Question answering for data visualizations | |
US9563611B2 (en) | Merging web page style addresses | |
CN113449187B (zh) | 基于双画像的产品推荐方法、装置、设备及存储介质 | |
WO2020000717A1 (zh) | 网页分类方法、装置及计算机可读存储介质 | |
JP6827116B2 (ja) | ウェブページのクラスタリング方法及び装置 | |
JP5616444B2 (ja) | 文書インデックス化およびデータクエリングのための方法およびシステム | |
US8205153B2 (en) | Information extraction combining spatial and textual layout cues | |
CN105975459B (zh) | 一种词项的权重标注方法和装置 | |
CN110569335B (zh) | 基于人工智能的三元组校验方法、装置及存储介质 | |
US9514113B1 (en) | Methods for automatic footnote generation | |
CN110674306B (zh) | 知识图谱的构建方法、装置、电子设备 | |
CN113051356A (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN109710224B (zh) | 页面处理方法、装置、设备及存储介质 | |
CN109271598B (zh) | 一种抽取新闻网页内容的方法、装置及存储介质 | |
CN110738049A (zh) | 相似文本的处理方法、装置及计算机可读存储介质 | |
CN113627132A (zh) | 数据去重标记码生成方法、系统、电子设备及存储介质 | |
CN113688239A (zh) | 少样本下的文本分类方法、装置、电子设备及存储介质 | |
US20200380037A1 (en) | Information Retrieval Precision Evaluation Method, System and Device and Computer-Readable Storage Medium | |
WO2013063734A1 (en) | Determining document structure similarity using discrete wavelet transformation | |
CN106339381B (zh) | 一种信息处理方法及装置 | |
CN110427541B (zh) | 一种网页内容提取方法、系统、电子设备及介质 | |
CN112818199A (zh) | 网页访问方法、装置、计算机设备及存储介质 | |
CN112183088A (zh) | 词语层级确定的方法、模型构建方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |