CN112182319A - 网页相似度确定方法、网页聚类方法、装置及电子设备 - Google Patents

网页相似度确定方法、网页聚类方法、装置及电子设备 Download PDF

Info

Publication number
CN112182319A
CN112182319A CN202011011040.8A CN202011011040A CN112182319A CN 112182319 A CN112182319 A CN 112182319A CN 202011011040 A CN202011011040 A CN 202011011040A CN 112182319 A CN112182319 A CN 112182319A
Authority
CN
China
Prior art keywords
webpage
leaf node
similarity
determining
paths
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011011040.8A
Other languages
English (en)
Other versions
CN112182319B (zh
Inventor
王一洲
洪毅清
吕文栋
蔡淑莲
钟文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202011011040.8A priority Critical patent/CN112182319B/zh
Publication of CN112182319A publication Critical patent/CN112182319A/zh
Application granted granted Critical
Publication of CN112182319B publication Critical patent/CN112182319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请提供了一种基于路径相似度的网页相似度确定方法、网页聚类方法、装置及电子设备,应用于计算机技术领域,其中该方法包括:基于网页的叶子节点路径的的相似度来确定网页的相似度,与树编辑距离确定网页相似度相比,相似度计算过程简单,时间复杂度低,同时还提升了网页相似度计算的精准度;此外通过基于路径相似度的网页相似度确定方法进行网页聚类,能够降低网页聚类的时间复杂度,从而能够快速处理大量的网页。

Description

网页相似度确定方法、网页聚类方法、装置及电子设备
技术领域
本申请涉及计算机技术领域,具体而言,本申请涉及一种基于路径相似度的网页相似度确定方法、网页聚类方法、装置及电子设备。
背景技术
随着数据挖掘技术的发展使得数据的需求量和重要性不断上升,而Web网页是数据主要载体,大量的数据通过Web网页来呈现,这使得Web数据的自动化抽取成为了重要技术。HTML页面是存储在后台数据库中的数据和HTML内容模板的结合体,在网站内部的网页大多都是由一套相同的内容模板生成的,因此通过网页聚类,对同一个模板生成的网页进行数据抽取将大大提高抽取的准确率。
网页相似度计算是网页聚类的核心算法,在一定程度上网页的相似度计算决定了网页聚类的精确度和时间复杂度。传统的网页相似度计算是基于树编辑距离,树编辑距离是在文本编辑距离基础上,引入节点间的父子关系,来计算两棵树之间的编辑距离,然而,树编辑距离的相似度计算方法存在时间复杂度较高、不适合处理海量网页的问题。
发明内容
本申请提供了一种网页相似度确定方法、网页聚类方法、装置及电子设备,用于提高人脸识别的速度与精度。本申请采用的技术方案如下:
第一方面,提供了一种基于路径相似度的网页相似度确定方法,包括:
确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集;
基于第一叶子节点路径集中叶子节点路径与第二叶子节点路径集中叶子节点路径之间的相似度确定第一网页与第二网页的相似度。
可选地,确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集,包括:
确定第一网页对应的DOM树、第二网页对应的DOM树;
基于确定的第一网页的DOM树、第二网页对应的DOM树,确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集。
可选地,基于第一叶子节点路径集中叶子节点路径与第二叶子节点路径集中叶子节点路径之间的相似度确定第一网页与第二网页的相似度,包括:
通过如下公式确定第一网页与第二网页的相似度:
Figure BDA0002697564770000021
其中,p1h表示第一网页对应的DOM树T1中第k个叶子节点对应的叶子节点路径,p2h表示第二网页对应的DOM树T2中第k个叶子节点对应的叶子节点路径,P1表示第一叶子节点路径集合,P2表示第二叶子节点路径集合,n表示第一网页DOM树T1的叶子节点数量,m表示第二网页对应的DOM树T2的叶子节点数量;
其中,sim(p1h,P2)表示叶子节点路径p1h与第二叶子节点路径集中各叶子节点路径相似度的最大值,sim(p2h,P1)表示叶子节点路径p2h与第一叶子节点路径集P1中各叶子节点路径相似度的最大值。
可选地,两个叶子节点路径的相似度计算公式如下:
Figure BDA0002697564770000022
其中,a表示叶子节点路径pi的节点数,b表示叶子节点路径pj的节点数,k为两个叶子节点路径以根为起始的最长公共序列长度。
可选地,该方法还包括:
获取第一网页对应的URL、第二网页对应的URL;
基于获取的第一网页对应的URL与第二网页对应的URL的相似度确定第一网页与第二网页的第一相似度;
基于第一叶子节点路径集中叶子节点路径与第二叶子节点路径集中叶子节点路径之间的相似度确定第一网页与第二网页的相似度,包括:
基于第一叶子节点路径集中叶子节点路径与第二叶子节点路径集中叶子节点路径之间的相似度确定第一网页与第二网页的第二相似度;
基于第一相似度与多数第二相似度确定第一网页与第二网页的相似度。
第二方面,提供了一种网页聚类方法,包括:
步骤一,从待分类网页中随机确定某一网页作为一个类别;
步骤二,通过基于路径相似度的网页相似度确定方法分别确定述某一网页与待分类网页中的其他网页的相似度;
步骤三,将相似度在阈值范围内的网页归为与某一网页同一类别,并将剩余的网页作为待分类网页;
步骤四,重复执行步骤一到步骤三,直至所有的待分类网页分类完毕。
可选地,基于路径相似度的网页相似度确定方法,包括:
确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集;
基于第一叶子节点路径集中叶子节点路径与第二叶子节点路径集中叶子节点路径之间的相似度确定第一网页与第二网页的相似度。
可选地,确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集,包括:
确定第一网页对应的DOM树、第二网页对应的DOM树;
基于确定的第一网页的DOM树、第二网页对应的DOM树,确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集。
可选地,该方法还包括:
获取第一网页对应的URL、第二网页对应的URL;
基于获取的第一网页对应的URL与第二网页对应的URL的相似度确定第一网页与第二网页的第一相似度;
基于第一叶子节点路径集中叶子节点路径与第二叶子节点路径集中叶子节点路径之间的相似度确定第一网页与第二网页的相似度,包括:
基于第一叶子节点路径集中叶子节点路径与第二叶子节点路径集中叶子节点路径之间的相似度确定第一网页与第二网页的第二相似度;
基于第一相似度与多数第二相似度确定第一网页与第二网页的相似度。
第三方面,提供了一种基于路径相似度的网页相似度确定装置,包括:
第一确定模块,用于确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集;
第二确定模块,用于基于第一叶子节点路径集中叶子节点路径与第二叶子节点路径集中叶子节点路径之间的相似度确定第一网页与第二网页的相似度。
可选地,第一确定模块包括:
第一确定单元,用于确定第一网页对应的DOM树、第二网页对应的DOM树;
第二确定单元,用于基于确定的第一网页的DOM树、第二网页对应的DOM树,确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集。
可选地,第二确定模块,具体用于通过如下公式确定第一网页与第二网页的相似度:
Figure BDA0002697564770000041
其中,p1h表示第一网页对应的DOM树T1中第k个叶子节点对应的叶子节点路径,p2h表示第二网页对应的DOM树T2中第k个叶子节点对应的叶子节点路径,P1表示第一叶子节点路径集合,P2表示第二叶子节点路径集合,n表示第一网页DOM树T1的叶子节点数量,m表示第二网页对应的DOM树T2的叶子节点数量;
其中,sim(p1h,P2)表示叶子节点路径p1h与第二叶子节点路径集中各叶子节点路径相似度的最大值,sim(p2h,P1)表示叶子节点路径p2h与第一叶子节点路径集P1中各叶子节点路径相似度的最大值。
可选地,两个叶子节点路径的相似度计算公式如下:
Figure BDA0002697564770000051
其中,a表示叶子节点路径pi的节点数,b表示叶子节点路径pj的节点数,k为两个叶子节点路径以根为起始的最长公共序列长度。
可选地,该装置还包括:
获取模块,用于获取第一网页对应的URL、第二网页对应的URL;
第三确定模块,用于基于获取的第一网页对应的URL与第二网页对应的URL的相似度确定第一网页与第二网页的第一相似度;
第二确定模块,具体用于基于第一叶子节点路径集中叶子节点路径与第二叶子节点路径集中叶子节点路径之间的相似度确定第一网页与第二网页的第二相似度;以及用于基于第一相似度与多数第二相似度确定第一网页与第二网页的相似度。
第四方面,提供了一种网页聚类装置,包括:
第四确定模块,用于从待分类网页中随机确定某一网页作为一个类别;
相似度确定模块,用于通过基于路径相似度的网页相似度确定方法分别确定述某一网页与待分类网页中的其他网页的相似度;
划归模块,用于将相似度在阈值范围内的网页归为与某一网页同一类别,并将剩余的网页作为待分类网页;
重复执行模块,用于重复执行第四确定模块、相似度确定模块、划归模块的功能,直至所有的待分类网页分类完毕。
可选地,该装置包括:相似度确定模块,具体用于确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集;以及用于基于第一叶子节点路径集中叶子节点路径与第二叶子节点路径集中叶子节点路径之间的相似度确定第一网页与第二网页的相似度。
可选地,相似度确定模块,具体用于确定第一网页对应的DOM树、第二网页对应的DOM树;以及基于确定的第一网页的DOM树、第二网页对应的DOM树,确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集。
可选地,相似度确定模块,具体用于获取第一网页对应的URL、第二网页对应的URL;以及用于基于获取的第一网页对应的URL与第二网页对应的URL的相似度确定第一网页与第二网页的第一相似度;以及用于基于第一叶子节点路径集中叶子节点路径与第二叶子节点路径集中叶子节点路径之间的相似度确定第一网页与第二网页的第二相似度;以及用于基于第一相似度与多数第二相似度确定第一网页与第二网页的相似度。
第五方面,提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行第一方面所示的基于路径相似度的网页相似度确定方法或网页聚类方法。
第六方面,提供了一种计算机可读存储介质,计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行第一方面所示的基于路径相似度的网页相似度确定方法或网页聚类方法。
本申请提供了一种基于路径相似度的网页相似度确定方法、网页聚类方法、装置及电子设备,与现有技术通过树编辑距离确定网页相似度相比,本申请通过确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集;基于第一叶子节点路径集中叶子节点路径与第二叶子节点路径集中叶子节点路径之间的相似度确定第一网页与第二网页的相似度。即基于网页的叶子节点路径的的相似度来确定网页的相似度,与树编辑距离确定网页相似度相比,相似度计算过程简单,时间复杂度低,同时还提升了网页相似度计算的精准度;此外通过基于路径相似度的网页相似度确定方法进行网页聚类,能够降低网页聚类的时间复杂度,从而能够快速处理大量的网页。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例的一种基于路径相似度的网页相似度确定方法的流程示意图;
图2为本申请实施例的一种网页聚类方法的流程示意图;
图3为本申请实施例的基于路径相似度的网页相似度确定装置的结构示意图;
图4为本申请实施例的一种电子设备的结构示意图;
图5为本申请实施例的网页聚类装置的结构示意图;
图6为网页对应的DOM树示例图。
具体实施方式
下面详细描述本申请的实施例,各实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
相关术语说明:
HTML:Hyper Text Marked Language超文本标记语言,使用标记标签来描述网页。为了方便处理HTML,人们通常将其转化为树型结构,即DOM树模型。
DOM树:Document Object Model是文档对象模型的简称,专门使用于HTML、XML等文档对象模型,它将网页中的各个标签元素看作DOM树节点的对象,通过DOM树模型可以很方便地对网页中的元素进行操作。
节点路径:对于一棵DOM树,从根节点走到指定节点的所经过的节点序列就是节点路径,例如:“body.div.div.p”为一个节点的路径。
叶子节点:在DOM树的节点中,若一个节点没有子节点,则称该节点为叶子节点。
标签:在HTML中,利用标签来描述网页。如:<body>、<div>、<a>等
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
实施例一
本申请实施例提供了一种基于路径相似度的网页相似度确定方法,如图1所示,该方法可以包括以下步骤:
步骤S101,确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集;
步骤S102,基于第一叶子节点路径集中叶子节点路径与第二叶子节点路径集中叶子节点路径之间的相似度确定第一网页与第二网页的相似度。
具体地,确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集,包括:
确定第一网页对应的DOM树、第二网页对应的DOM树;
基于确定的第一网页的DOM树、第二网页对应的DOM树,确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集。
示例性地,图6示出了两个网页对应的DOM树示例图,对应的叶子节点路经集分别为Pi={body.div.p,body.div},Pj={body.div.p,body.a}。
可选地,基于第一叶子节点路径集中叶子节点路径与第二叶子节点路径集中叶子节点路径之间的相似度确定第一网页与第二网页的相似度,包括:
通过如下公式确定第一网页与第二网页的相似度:
Figure BDA0002697564770000091
其中,p1h表示第一网页对应的DOM树T1中第k个叶子节点对应的叶子节点路径,p2h表示第二网页对应的DOM树T2中第k个叶子节点对应的叶子节点路径,P1表示第一叶子节点路径集合,P2表示第二叶子节点路径集合,n表示第一网页DOM树T1的叶子节点数量,m表示第二网页对应的DOM树T2的叶子节点数量;
其中,sim(p1h,P2)表示叶子节点路径p1h与第二叶子节点路径集中各叶子节点路径相似度的最大值,sim(p2h,P1)表示叶子节点路径p2h与第一叶子节点路径集P1中各叶子节点路径相似度的最大值。即计算节点路经到一个网页的最佳匹配。示例性地,可以通过如下公式来说明,
sim(pi,P)=max(sim(pi,pj))
其中,P为网页的叶子节点路径集合,pj是P中的元素。
可选地,两个叶子节点路径的相似度计算公式如下:
Figure BDA0002697564770000092
其中,a表示叶子节点路径pi的节点数,b表示叶子节点路径pj的节点数,k为两个叶子节点路径以根为起始的最长公共序列长度。如:路径”body.div.div.p”从DOM树根节点开始经历四个节点,所以节点数为4。”body.div”与”body.div.p”的前缀一样,所以最小节点数为2,最长公共序列长度k为2。
示例性地,以图6中的DOM树为例,计算网页相似度。
其计算步骤分为3步:
第一、确定叶子节点路径集合,Pi={body.div.p,body.div},Pj={body.div.p,body.a}。
第二、计算路径到网页的最佳匹配,得到P1中路径与P2最佳匹配值(1,1),P2中路径与P1最佳匹配值(1,0.5)。这里以P1中”body.div.p”路径为例,因为在P2中也存在相同的路径,所以最小节点数为3,最长公共序列长度为3,sim(p,Pj)=3/3=1。P1的”body.div”在P2中不存在一样的路径,但是与”body.div.p”的前缀一样,所以最小节点数为2,最长公共序列长度为2,sim(p,Pj)=2/2=1。P2的,”body.a”在P1中不存在一样的路径,与”body.div.p”有前缀相似,最小节点数为2,最长公共序列长度为1,sim(p,Pj)=1/2=0.5。
第三、计算得到网页相似度,Sim(Ti,Tj)=((1+1)/2+(1+0.5)/2)/2=(1+0.75)/2=0.875。
基于树路经的网页相似度计算仅考虑一个网页中叶子节点的路径在另一个网页中是否出现并且该路径出现的次数,如一个网页中叶子节点路径为p1:body.div.div.div.p,另一个网页中叶子节点路径p2:body.div.div.div.p.strong,它们虽然结构相近,但是在树路径匹配算法中却是完全不同的路径,这也是导致用该方法精确度下降的原因。本申请实施的方法考虑节点路经之间的相似度进行网页相似度的计算,能够提升网页相似度计算的准确性。
本申请实施例提供了一种可能的实现方式,进一步地,该方法还包括:
获取第一网页对应的URL、第二网页对应的URL;
基于获取的第一网页对应的URL与第二网页对应的URL的相似度确定第一网页与第二网页的第一相似度;
基于第一叶子节点路径集中叶子节点路径与第二叶子节点路径集中叶子节点路径之间的相似度确定第一网页与第二网页的相似度,包括:
基于第一叶子节点路径集中叶子节点路径与第二叶子节点路径集中叶子节点路径之间的相似度确定第一网页与第二网页的第二相似度;
基于第一相似度与多数第二相似度确定第一网页与第二网页的相似度。
具体地,可以通过加权计算的方法,基于第一相似度与多数第二相似度确定第一网页与第二网页的相似度。也可以是第一相似度、第二相似度分别达到一定相似度阈值时,确定两个网页相似。
具体地,由相同模板生成的网页必定存在同一个网站中并且属于同一个模块,因此它们的url相似度较高,可以通过对url的host部分的比对,来对相似度计算结果进行验证。
对于本申请实施例,通过基于路径相似度确定的网页相似度与基于网页间的url的相似度来综合判定网页相似度,能够提升网页相似度判定的准确性。
本申请实施例,基于网页的叶子节点路径的的相似度来确定网页的相似度,与树编辑距离确定网页相似度相比,相似度计算过程简单,时间复杂度低,同时还提升了网页相似度计算的精准度;此外通过基于路径相似度的网页相似度确定方法进行网页聚类,能够降低网页聚类的时间复杂度,从而能够快速处理大量的网页。
实施例二
本申请实施例提供了一种网页聚类方法,如图1所示,该方法可以包括以下步骤:
步骤S201,从待分类网页中随机确定某一网页作为一个类别;
步骤S202,通过基于路径相似度的网页相似度确定方法分别确定述某一网页与待分类网页中的其他网页的相似度;
步骤S203,将相似度在阈值范围内的网页归为与某一网页同一类别,并将剩余的网页作为待分类网页;
步骤S204,重复执行步骤201到步骤S203,直至所有的待分类网页分类完毕。
具体地,可以采用单遍聚类算法来进行网页聚类。单遍聚类算法是从待分类的网页中取出一个网页作为新的类别,并将其作为聚类中心,然后计算其余待分类网页与该网页的相似度,若相似度大于某个设定的阈值时,就认为这个网页属于该簇。当遍历完其余待分类网页之后,再重复取出一个待分类网页作为新的聚类中心,重复聚类过程。单遍聚类算法的时间复杂度为O(n(n-1)/2),适合处理大量网页的聚类。
可选地,基于路径相似度的网页相似度确定方法,包括:
确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集;
基于第一叶子节点路径集中叶子节点路径与第二叶子节点路径集中叶子节点路径之间的相似度确定第一网页与第二网页的相似度。
可选地,确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集,包括:
确定第一网页对应的DOM树、第二网页对应的DOM树;
基于确定的第一网页的DOM树、第二网页对应的DOM树,确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集。
可选地,该方法还包括:
获取第一网页对应的URL、第二网页对应的URL;
基于获取的第一网页对应的URL与第二网页对应的URL的相似度确定第一网页与第二网页的第一相似度;
基于第一叶子节点路径集中叶子节点路径与第二叶子节点路径集中叶子节点路径之间的相似度确定第一网页与第二网页的相似度,包括:
基于第一叶子节点路径集中叶子节点路径与第二叶子节点路径集中叶子节点路径之间的相似度确定第一网页与第二网页的第二相似度;
基于第一相似度与多数第二相似度确定第一网页与第二网页的相似度。
具体地,本申请实施例在使用单遍聚类算法的基础上,为了提高准确性,可以引入基于链接方法来对网页聚类结果进行检查。由相同模板的生成网页必定存在同一个网站中并且属于同一个模块,因此它们的url相似度较高。本申请实施例在单遍聚类算法的基础上,通过对url的host部分的比对,来对相似度计算结果进行验证。其具体实现可以如表1所示:
表1
Figure BDA0002697564770000131
在算法中,参数α为判断两个网页相似的阈值,通过大量验证取值0.8的结果较为理想。checkHost函数是判断两个url所属的host是否一致。
本申请实施例提供了一种网页聚类方法,基于网页的叶子节点路径的的相似度来确定网页的相似度,与树编辑距离确定网页相似度相比,相似度计算过程简单,时间复杂度低,同时还提升了网页相似度计算的精准度;此外通过基于路径相似度的网页相似度确定方法进行网页聚类,能够降低网页聚类的时间复杂度,从而能够快速处理大量的网页。
实施例三
图3为本申请实施例提供的基于路径相似度的网页相似度确定装置,该装置30包括:
提供了一种基于路径相似度的网页相似度确定装置,包括:
第一确定模块,用于确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集;
第二确定模块,用于基于第一叶子节点路径集中叶子节点路径与第二叶子节点路径集中叶子节点路径之间的相似度确定第一网页与第二网页的相似度。
可选地,第一确定模块包括:
第一确定单元,用于确定第一网页对应的DOM树、第二网页对应的DOM树;
第二确定单元,用于基于确定的第一网页的DOM树、第二网页对应的DOM树,确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集。
可选地,第二确定模块,具体用于通过如下公式确定第一网页与第二网页的相似度:
Figure BDA0002697564770000141
其中,p1h表示第一网页对应的DOM树T1中第k个叶子节点对应的叶子节点路径,p2h表示第二网页对应的DOM树T2中第k个叶子节点对应的叶子节点路径,P1表示第一叶子节点路径集合,P2表示第二叶子节点路径集合,n表示第一网页DOM树T1的叶子节点数量,m表示第二网页对应的DOM树T2的叶子节点数量;
其中,sim(p1h,P2)表示叶子节点路径p1h与第二叶子节点路径集中各叶子节点路径相似度的最大值,sim(p2h,P1)表示叶子节点路径p2h与第一叶子节点路径集P1中各叶子节点路径相似度的最大值。
可选地,两个叶子节点路径的相似度计算公式如下:
Figure BDA0002697564770000151
其中,a表示叶子节点路径pi的节点数,b表示叶子节点路径pj的节点数,k为两个叶子节点路径以根为起始的最长公共序列长度。
可选地,该装置还包括:
获取模块,用于获取第一网页对应的URL、第二网页对应的URL;
第三确定模块,用于基于获取的第一网页对应的URL与第二网页对应的URL的相似度确定第一网页与第二网页的第一相似度;
第二确定模块,具体用于基于第一叶子节点路径集中叶子节点路径与第二叶子节点路径集中叶子节点路径之间的相似度确定第一网页与第二网页的第二相似度;以及用于基于第一相似度与多数第二相似度确定第一网页与第二网页的相似度。
对于本申请实施例,基于网页的叶子节点路径的的相似度来确定网页的相似度,与树编辑距离确定网页相似度相比,相似度计算过程简单,时间复杂度低,同时还提升了网页相似度计算的精准度;此外通过基于路径相似度的网页相似度确定方法进行网页聚类,能够降低网页聚类的时间复杂度,从而能够快速处理大量的网页。
实施例四
本申请实施例提供了一种网页聚类装置,该装置50包括:
第四确定模块501,用于从待分类网页中随机确定某一网页作为一个类别;
相似度确定模块502,用于通过基于路径相似度的网页相似度确定方法分别确定述某一网页与待分类网页中的其他网页的相似度;
划归模块503,用于将相似度在阈值范围内的网页归为与某一网页同一类别,并将剩余的网页作为待分类网页;
重复执行模块504,用于重复执行第四确定模块、相似度确定模块、划归模块的功能,直至所有的待分类网页分类完毕。
可选地,该装置包括:相似度确定模块,具体用于确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集;以及用于基于第一叶子节点路径集中叶子节点路径与第二叶子节点路径集中叶子节点路径之间的相似度确定第一网页与第二网页的相似度。
可选地,相似度确定模块,具体用于确定第一网页对应的DOM树、第二网页对应的DOM树;以及基于确定的第一网页的DOM树、第二网页对应的DOM树,确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集。
可选地,相似度确定模块,具体用于获取第一网页对应的URL、第二网页对应的URL;以及用于基于获取的第一网页对应的URL与第二网页对应的URL的相似度确定第一网页与第二网页的第一相似度;以及用于基于第一叶子节点路径集中叶子节点路径与第二叶子节点路径集中叶子节点路径之间的相似度确定第一网页与第二网页的第二相似度;以及用于基于第一相似度与多数第二相似度确定第一网页与第二网页的相似度。
本申请实施例提供了一种网页聚类装置,基于网页的叶子节点路径的的相似度来确定网页的相似度,与树编辑距离确定网页相似度相比,相似度计算过程简单,时间复杂度低,同时还提升了网页相似度计算的精准度;此外通过基于路径相似度的网页相似度确定方法进行网页聚类,能够降低网页聚类的时间复杂度,从而能够快速处理大量的网页。
本申请实施例的网页聚类装置的有益效果与实施例二所示的网页聚类方法相似,在此不再赘述。
实施例五
本申请实施例提供了一种电子设备,如图4所示,图4所示的电子设备40包括:处理器401和存储器403。其中,处理器401和存储器403相连,如通过总线402相连。进一步地,电子设备40还可以包括收发器404。需要说明的是,实际应用中收发器404不限于一个,该电子设备40的结构并不构成对本申请实施例的限定。其中,处理器401应用于本申请实施例中,用于实现图2所示模块的功能。收发器404包括接收机和发射机。
处理器401可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器401也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线402可包括一通路,在上述组件之间传送信息。总线402可以是PCI总线或EISA总线等。总线402可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器403可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器403用于存储执行本申请方案的应用程序代码,并由处理器401来控制执行。处理器401用于执行存储器403中存储的应用程序代码,以实现图3或图5所示实施例提供的装置的功能。
本申请实施例提供了一种电子设备,基于网页的叶子节点路径的的相似度来确定网页的相似度,与树编辑距离确定网页相似度相比,相似度计算过程简单,时间复杂度低,同时还提升了网页相似度计算的精准度;此外通过基于路径相似度的网页相似度确定方法进行网页聚类,能够降低网页聚类的时间复杂度,从而能够快速处理大量的网页。
本申请实施例提供了一种电子设备适用于上述方法实施例。在此不再赘述。
实施四
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述实施例中所示的方法。
本申请实施例提供了一种计算机可读存储介质,基于网页的叶子节点路径的的相似度来确定网页的相似度,与树编辑距离确定网页相似度相比,相似度计算过程简单,时间复杂度低,同时还提升了网页相似度计算的精准度;此外通过基于路径相似度的网页相似度确定方法进行网页聚类,能够降低网页聚类的时间复杂度,从而能够快速处理大量的网页。
本申请实施例提供了一种计算机可读存储介质适用于上述方法实施例。在此不再赘述。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (15)

1.一种基于路径相似度的网页相似度确定方法,其特征在于,包括:
确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集;
基于所述第一叶子节点路径集中叶子节点路径与所述第二叶子节点路径集中叶子节点路径之间的相似度确定所述第一网页与所述第二网页的相似度。
2.根据权利要求1所述的方法,其特征在于,确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集,包括:
确定所述第一网页对应的DOM树、第二网页对应的DOM树;
基于确定的所述第一网页的DOM树、第二网页对应的DOM树,确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集。
3.根据权利要求1所述的方法,其特征在于,基于所述第一叶子节点路径集中叶子节点路径与所述第二叶子节点路径集中叶子节点路径之间的相似度确定所述第一网页与所述第二网页的相似度,包括:
通过如下公式确定第一网页与所述第二网页的相似度:
Figure FDA0002697564760000011
其中,p1h表示第一网页对应的DOM树T1中第k个叶子节点对应的叶子节点路径,p2h表示第二网页对应的DOM树T2中第k个叶子节点对应的叶子节点路径,P1表示第一叶子节点路径集合,P2表示第二叶子节点路径集合,n表示第一网页DOM树T1的叶子节点数量,m表示第二网页对应的DOM树T2的叶子节点数量;
其中,sim(p1h,P2)表示叶子节点路径p1h与第二叶子节点路径集中各叶子节点路径相似度的最大值,sim(p2h,P1)表示叶子节点路径p2h与第一叶子节点路径集P1中各叶子节点路径相似度的最大值。
4.根据权利要求1-3任一项所述的方法,其特征在于,两个叶子节点路径的相似度计算公式如下:
Figure FDA0002697564760000021
其中,a表示叶子节点路径pi的节点数,b表示叶子节点路径pj的节点数,k为两个叶子节点路径以根为起始的最长公共序列长度。
5.根据权利要求1所述的方法,其特征在于,该方法还包括:
获取第一网页对应的URL、第二网页对应的URL;
基于获取的第一网页对应的URL与第二网页对应的URL的相似度确定第一网页与第二网页的第一相似度;
所述基于所述第一叶子节点路径集中叶子节点路径与所述第二叶子节点路径集中叶子节点路径之间的相似度确定所述第一网页与所述第二网页的相似度,包括:
基于所述第一叶子节点路径集中叶子节点路径与所述第二叶子节点路径集中叶子节点路径之间的相似度确定所述第一网页与所述第二网页的第二相似度;
基于所述第一相似度与多数第二相似度确定第一网页与所述第二网页的相似度。
6.一种网页聚类方法,其特征在于,包括:
步骤一,从待分类网页中随机确定某一网页作为一个类别;
步骤二,通过基于路径相似度的网页相似度确定方法分别确定述某一网页与所述待分类网页中的其他网页的相似度;
步骤三,将相似度在阈值范围内的网页归为与所述某一网页同一类别,并将剩余的网页作为待分类网页;
步骤四,重复执行步骤一到步骤三,直至所有的待分类网页分类完毕。
7.根据权利要求6所述的方法,其特征在于,基于路径相似度的网页相似度确定方法,包括:
确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集;
基于所述第一叶子节点路径集中叶子节点路径与所述第二叶子节点路径集中叶子节点路径之间的相似度确定所述第一网页与所述第二网页的相似度。
8.根据权利要求7所述的方法,其特征在于,确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集,包括:
确定所述第一网页对应的DOM树、第二网页对应的DOM树;
基于确定的所述第一网页的DOM树、第二网页对应的DOM树,确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集。
9.根据权利要求7-8任一项所述的方法,其特征在于,该方法还包括:
获取第一网页对应的URL、第二网页对应的URL;
基于获取的第一网页对应的URL与第二网页对应的URL的相似度确定第一网页与第二网页的第一相似度;
所述基于所述第一叶子节点路径集中叶子节点路径与所述第二叶子节点路径集中叶子节点路径之间的相似度确定所述第一网页与所述第二网页的相似度,包括:
基于所述第一叶子节点路径集中叶子节点路径与所述第二叶子节点路径集中叶子节点路径之间的相似度确定所述第一网页与所述第二网页的第二相似度;
基于所述第一相似度与多数第二相似度确定第一网页与所述第二网页的相似度。
10.一种基于路径相似度的网页相似度确定装置,其特征在于,包括:
第一确定模块,用于确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集;
第二确定模块,用于基于所述第一叶子节点路径集中叶子节点路径与所述第二叶子节点路径集中叶子节点路径之间的相似度确定所述第一网页与所述第二网页的相似度。
11.根据权利要求10所述的装置,其特征在于,所述第一确定模块包括:
第一确定单元,用于确定所述第一网页对应的DOM树、第二网页对应的DOM树;
第二确定单元,用于基于确定的所述第一网页的DOM树、第二网页对应的DOM树,确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集。
12.一种网页聚类装置,其特征在于,包括:
第四确定模块,用于从待分类网页中随机确定某一网页作为一个类别;
相似度确定模块,用于通过基于路径相似度的网页相似度确定方法分别确定述某一网页与所述待分类网页中的其他网页的相似度;
划归模块,用于将相似度在阈值范围内的网页归为与所述某一网页同一类别,并将剩余的网页作为待分类网页;
重复执行模块,用于重复执行第四确定模块、相似度确定模块、划归模块的功能,直至所有的待分类网页分类完毕。
13.根据权利要求6所述的装置,其特征在于,该装置包括:相似度确定模块,具体用于确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集;以及用于基于所述第一叶子节点路径集中叶子节点路径与所述第二叶子节点路径集中叶子节点路径之间的相似度确定所述第一网页与所述第二网页的相似度。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1至9任一项所述的基于路径相似度的网页相似度确定方法或网页聚类方法。
15.一种计算机可读存储介质,其特征在于,所述计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行上述权利要求1至9中任一项所述的基于路径相似度的网页相似度确定方法或网页聚类方法。
CN202011011040.8A 2020-09-23 2020-09-23 网页相似度确定方法、网页聚类方法、装置及电子设备 Active CN112182319B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011011040.8A CN112182319B (zh) 2020-09-23 2020-09-23 网页相似度确定方法、网页聚类方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011011040.8A CN112182319B (zh) 2020-09-23 2020-09-23 网页相似度确定方法、网页聚类方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112182319A true CN112182319A (zh) 2021-01-05
CN112182319B CN112182319B (zh) 2024-03-26

Family

ID=73956011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011011040.8A Active CN112182319B (zh) 2020-09-23 2020-09-23 网页相似度确定方法、网页聚类方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112182319B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130014002A1 (en) * 2011-06-15 2013-01-10 Alibaba Group Holding Limited Method and System of Extracting Web Page Information
CN110390038A (zh) * 2019-07-25 2019-10-29 中南民族大学 基于dom树的页面分块方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130014002A1 (en) * 2011-06-15 2013-01-10 Alibaba Group Holding Limited Method and System of Extracting Web Page Information
CN110390038A (zh) * 2019-07-25 2019-10-29 中南民族大学 基于dom树的页面分块方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112182319B (zh) 2024-03-26

Similar Documents

Publication Publication Date Title
WO2019200806A1 (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
US8577155B2 (en) System and method for duplicate text recognition
CN105975459B (zh) 一种词项的权重标注方法和装置
CN107577788B (zh) 一种自动结构化数据的电商网站主题爬虫方法
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
CN110019653B (zh) 一种融合文本和标签网络的社交内容表征方法和系统
CN109657208B (zh) 网页相似度计算方法、装置、设备、计算机可读存储介质
JP2015525418A (ja) 検索方法および装置
CN113032580B (zh) 关联档案推荐方法、系统及电子设备
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN112183111A (zh) 长文本语义相似度匹配方法、装置、电子设备及存储介质
CN111325030A (zh) 文本标签构建方法、装置、计算机设备和存储介质
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN111258905A (zh) 缺陷定位方法、装置和电子设备及计算机可读存储介质
CN115858773A (zh) 适用于长文档的关键词挖掘方法、装置及介质
CN112395407B (zh) 企业实体关系的抽取方法、装置及存储介质
CN105790967A (zh) 一种网络日志处理方法和装置
US20090182759A1 (en) Extracting entities from a web page
CN109902162B (zh) 基于数字指纹的文本相似性的识别方法、存储介质及装置
CN111680146A (zh) 确定新词的方法、装置、电子设备及可读存储介质
CN111160445A (zh) 投标文件相似度计算方法及装置
CN116561298A (zh) 基于人工智能的标题生成方法、装置、设备及存储介质
CN112182319B (zh) 网页相似度确定方法、网页聚类方法、装置及电子设备
US11709798B2 (en) Hash suppression
CN115796146A (zh) 一种文件对比方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant