CN104657391B - 页面的处理方法及装置 - Google Patents

页面的处理方法及装置 Download PDF

Info

Publication number
CN104657391B
CN104657391B CN201310598660.XA CN201310598660A CN104657391B CN 104657391 B CN104657391 B CN 104657391B CN 201310598660 A CN201310598660 A CN 201310598660A CN 104657391 B CN104657391 B CN 104657391B
Authority
CN
China
Prior art keywords
page
class
degree
pages
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310598660.XA
Other languages
English (en)
Other versions
CN104657391A (zh
Inventor
陈沙
陈萌辉
陈宁
陈一宁
何洪华
刘璋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201310598660.XA priority Critical patent/CN104657391B/zh
Priority to TW103110120A priority patent/TW201520791A/zh
Priority to US14/549,394 priority patent/US10387545B2/en
Priority to PCT/US2014/066704 priority patent/WO2015077501A1/en
Publication of CN104657391A publication Critical patent/CN104657391A/zh
Application granted granted Critical
Publication of CN104657391B publication Critical patent/CN104657391B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/134Hyperlinking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请提供一种页面的处理方法及装置。本申请实施例通过获取指定网站的页面,进而根据所述页面的页面特征,对所述页面进行聚类,以获得一个或多个类,使得能够根据所述一个或多个类之间的页面的链接关系,选择至少一个类,以作为列表页面集合,无需操作人员参与列表页面集合的建立过程,操作简单,且正确率高,从而提高了列表页面库建立的效率和可靠性。

Description

页面的处理方法及装置
【技术领域】
本申请涉及页面处理技术,尤其涉及一种页面的处理方法及装置。
【背景技术】
一般来说,网站的页面可以是基于超文本标记语言(HyperText MarkupLanguage,HTML)、扩展超文本标签语言(eXtensible HTML,XHTML)或无线标记语言(Wireless Markup Language,WML)编写的网页(Web Page),也可以称为Web页面。对网站的页面进行数据采集与分析,通常需要用到列表页面库,根据指定频率对列表页面库中所包含的列表页面进行数据抓取。现有技术中,由操作人员逐一浏览每个网站,对网站的列表页面进行人工识别和标注,以建立列表页面库。
然而,现有建立列表页面库的操作复杂,且容易出错,从而导致了列表页面库建立的效率和可靠性的降低。
【发明内容】
本申请的多个方面提供一种页面的处理方法及装置,用以提高列表页面库建立的效率和可靠性。
本申请的一方面,提供一种页面的处理方法,包括:
获取指定网站的页面;
根据所述页面的页面特征,对所述页面进行聚类,以获得一个或多个类;
根据所述一个或多个类之间的页面的链接关系,选择至少一个类,以作为列表页面集合。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述一个或多个类之间的页面的链接关系,选择至少一个类,以作为列表页面集合,包括:
根据每个类中的页面所链出的其它页面和所述每个类中的页面所链入的其它页面,确定所述每个类中的页面作为所述网站的列表页的概率;
根据所述概率,选择所述至少一个类,以作为所述列表页面集合。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据每个类中的页面所链出的其它页面和所述每个类中的页面所链入的其它页面,确定所述每个类中的页面作为所述网站的列表页的概率,包括:
根据所述每个类中的页面所链出的其它页面,确定所述每个类的出度;
根据所述每个类中的页面所链入的其它页面,确定所述每个类的入度;
确定所述每个类的指向类的数量;其中,所述每个类和所述每个类的指向类满足:所述每个类相对于所述指向类的关联出度大于所述每个类相对于所述指向类的关联入度;
根据所述每个类的出度、所述每个类的入度和所述指向类的数量,确定所述概率。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,
所述每个类的出度为所述每个类中的每个页面的出度的总和;其中,所述每个页面的出度由所述每个页面与所述网站的根节点的距离、所述每个页面所链出的其它页面、以及所述其它页面与所述网站的根节点的距离确定;
所述每个类的入度为所述每个类中的每个页面的入度的总和;其中,所述每个页面的入度由所述每个页面与所述网站的根节点的距离、所述每个页面所链入的其它页面、以及所述其它页面与所述网站的根节点的距离确定。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,
所述根据所述每个类中的页面所链出的其它页面,确定所述每个类的出度,包括:
根据获得所述每个类的出度;其中,
OUTk为第k个类的出度,k为自然数;
为第k个类的第j个页面的出度,j为自然数,DOi为第j个页面在所述链接关系中指向的第i个其它页面贡献的出度增量,i为自然数;其中,
若第j个页面与所述网站的根节点的距离大于第j个页面指向的第i个其它页面与所述网站的根节点的距离,DOi=α;若第j个页面与所述网站的根节点的距离小于第j个页面指向的第i个其它页面与所述网站的根节点的距离,DOi=β,α<β,且α+β=N,N为自然数;若第j个页面与所述网站的根节点的距离等于第j个页面指向的第i个其它页面与所述网站的根节点的距离,DOi=χ,且χ=N/2,N为自然数;
所述根据所述每个类中的页面所链入的其它页面,确定所述每个类的入度,包括:
根据获得所述每个类的入度;其中,
INk为第k个类的入度,k为自然数;
为第k个类的第j个页面的入度,j为自然数,DIi为在所述链接关系中指向第j个页面的第i个其它页面贡献的入度增量,i为自然数;其中,
若第j个页面与所述网站的根节点的距离大于指向第j个页面的第i个其它页面与所述网站的根节点的距离,DIi=α;若第j个页面与所述网站的根节点的距离小于指向第j个页面的第i个其它页面与所述网站的根节点的距离,DIi=β,α>β,且α+β=N,N为自然数;若第j个页面与所述网站的根节点的距离等于指向第j个页面的第i个其它页面与所述网站的根节点的距离,DIi=χ,且χ=N/2,N为自然数。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述每个类的出度、所述每个类的入度和所述指向类的数量,确定所述概率,包括:
根据获得所述每个类的概率;其中,
Pk为第k个类的概率;
INk为第k个类的入度,k为自然数;
OUTk为第k个类的出度,k为自然数;
IO为第k个类的指向类的数量;
N为类的类别总数;
δ为权重系数。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
利用所述列表页面集合,进行模型训练,以建立列表页识别模型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用所述列表页面集合,进行模型训练,以建立列表页识别模型之后,还包括:
利用所述列表页识别模型,对页面进行识别;
若所述识别的结果为列表页面,将所述页面加入所述列表页面集合。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
根据所述列表页面集合中的每个列表页面的更新信息,更新所述列表页面集合、调整所述每个列表页面的抓取频率或者生成页面模板。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述页面特征包括下列信息中的至少一项:
页面的布局特征;
页面的统一资源定位符;以及
页面的内容特征。
本申请的另一方面,提供一种页面的处理装置,包括:
获取单元,用于获取指定网站的页面;
聚类单元,用于根据所述页面的页面特征,对所述页面进行聚类,以获得一个或多个类;
选择单元,用于根据所述一个或多个类之间的页面的链接关系,选择至少一个类,以作为列表页面集合。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述选择单元,具体用于
根据每个类中的页面所链出的其它页面和所述每个类中的页面所链入的其它页面,确定所述每个类中的页面作为所述网站的列表页的概率;以及
根据所述概率,选择所述至少一个类,以作为所述列表页面集合。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述选择单元,具体用于
根据所述每个类中的页面所链出的其它页面,确定所述每个类的出度;
根据所述每个类中的页面所链入的其它页面,确定所述每个类的入度;
确定所述每个类的指向类的数量;其中,所述每个类和所述每个类的指向类满足:所述每个类相对于所述指向类的关联出度大于所述每个类相对于所述指向类的关联入度;以及
根据所述每个类的出度、所述每个类的入度和所述指向类的数量,确定所述概率。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,
所述选择单元所确定的所述每个类的出度为所述每个类中的每个页面的出度的总和;其中,所述每个页面的出度由所述每个页面与所述网站的根节点的距离、所述每个页面所链出的其它页面、以及所述其它页面与所述网站的根节点的距离确定;
所述选择单元所确定的所述每个类的入度为所述每个类中的每个页面的入度的总和;其中,所述每个页面的入度由所述每个页面与所述网站的根节点的距离、所述每个页面所链入的其它页面、以及所述其它页面与所述网站的根节点的距离确定。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,
所述选择单元,具体用于
根据获得所述每个类的出度;其中,
OUTk为第k个类的出度,k为自然数;
为第k个类的第j个页面的出度,j为自然数,DOi为第j个页面在所述链接关系中指向的第i个其它页面贡献的出度增量,i为自然数;其中,
若第j个页面与所述网站的根节点的距离大于第j个页面指向的第i个其它页面与所述网站的根节点的距离,DOi=α;若第j个页面与所述网站的根节点的距离小于第j个页面指向的第i个其它页面与所述网站的根节点的距离,DOi=β,α<β,且α+β=N,N为自然数;若第j个页面与所述网站的根节点的距离等于第j个页面指向的第i个其它页面与所述网站的根节点的距离,DOi=χ,且χ=N/2,N为自然数;
所述选择单元,具体用于
根据获得所述每个类的入度;其中,
INk为第k个类的入度,k为自然数;
为第k个类的第j个页面的入度,j为自然数,DIi为在所述链接关系中指向第j个页面的第i个其它页面贡献的入度增量,i为自然数;其中,
若第j个页面与所述网站的根节点的距离大于指向第j个页面的第i个其它页面与所述网站的根节点的距离,DIi=α;若第j个页面与所述网站的根节点的距离小于指向第j个页面的第i个其它页面与所述网站的根节点的距离,DIi=β,α>β,且α+β=N,N为自然数;若第j个页面与所述网站的根节点的距离等于指向第j个页面的第i个其它页面与所述网站的根节点的距离,DIi=χ,且χ=N/2,N为自然数。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述选择单元,具体用于
根据获得所述每个类的概率;其中,
Pk为第k个类的概率;
INk为第k个类的入度,k为自然数;
OUTk为第k个类的出度,k为自然数;
IO为第k个类的指向类的数量;
N为类的类别总数;
δ为权重系数。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述装置还包括建模单元,用于
利用所述列表页面集合,进行模型训练,以建立列表页识别模型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述装置还包括识别单元,用于
利用所述列表页识别模型,对页面进行识别;以及
若所述识别的结果为列表页面,将所述页面加入所述列表页面集合。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述装置还包括更新单元,用于
根据所述列表页面集合中的每个列表页面的更新信息,更新所述列表页面集合、调整所述每个列表页面的抓取频率或者生成页面模板。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述页面特征包括下列信息中的至少一项:
页面的布局特征;
页面的统一资源定位符;以及
页面的内容特征。
由上述技术方案可知,本申请实施例通过获取指定网站的页面,进而根据所述页面的页面特征,对所述页面进行聚类,以获得一个或多个类,使得能够根据所述一个或多个类之间的页面的链接关系,选择至少一个类,以作为列表页面集合,无需操作人员参与列表页面集合的建立过程,操作简单,且正确率高,从而提高了列表页面库建立的效率和可靠性。
另外,采用本申请提供的技术方案,由于能够获取到网站当前的所有页面,因此,基于一个网站的所有页面所建立的列表页面集合,能够有效提高列表页面的覆盖率。
另外,采用本申请提供的技术方案,通过利用所建立的列表页面集合建立列表页识别模型,自动识别网站新增加的页面,能够提高列表页面的覆盖性和时效性。
另外,采用本申请提供的技术方案,通过根据所建立的列表页面集合中的每个列表页面的更新信息,实时更新所述列表页面集合,能够提高列表页面的时效性。
另外,采用本申请提供的技术方案,通过根据所建立的列表页面集合中的每个列表页面的更新信息,调整所述每个列表页面的抓取频率,能够提高列表页面的抓取成功率。
另外,采用本申请提供的技术方案,通过根据所建立的列表页面集合中的每个列表页面的更新信息,生成页面模板,以用于自动识别网站新增加的页面,或者提取网站的页面内容,能够提高列表页面的覆盖性和时效性,或者页面内容的获取效率。
【附图说明】
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的页面的处理方法的流程示意图;
图2为本申请另一实施例提供的页面的处理装置的结构示意图;
图3为本申请另一实施例提供的页面的处理装置的结构示意图;
图4为本申请另一实施例提供的页面的处理装置的结构示意图;
图5为本申请另一实施例提供的页面的处理装置的结构示意图。
【具体实施方式】
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持装置、无线上网本、个人电脑、便携电脑、MP3播放器、MP4播放器等。
需要说明的是,本申请所涉及的页面,可以是基于超文本标记语言(HyperTextMarkup Language,HTML)、扩展超文本标签语言(eXtensible HTML,XHTML)或无线标记语言(Wireless Markup Language,WML)编写的网页(Web Page),也可以称为Web页面。
另外,本文中术语“和/或”,仅仅是一种描述关联图像的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对像是一种“或”的关系。
图1为本申请一实施例提供的页面的处理方法的流程示意图,如图1所
101、获取指定网站的页面。
102、根据所述页面的页面特征,对所述页面进行聚类,以获得一个或多个类。
其中,所述页面特征可以包括但不限于下列信息中的至少一项:
页面的布局特征;
页面的统一资源定位符(Uniform Resource Locator,URL)特征;以及
页面的内容特征。其中,
所述页面的布局特征,用于表示页面的文字、图形或表格的格式信息,例如,字体、字号、以及页边距等。
所述页面的URL特征,用于表示页面的URL的属性信息,例如,URL中所包含的关键字、URL的后缀等。
所述页面的内容特征,用于表示页面的内容信息,例如,内容中所包含的关键字、内容中所包含的符号等。
可选地,在本实施例的一个可能的实现方式中,每个页面特征可以用一个特征向量X表示,例如特征向量X1、特征向量X2、……、或特征向量Xn等,n为自然数。每个页面的页面特征,可以组成一个特征矩阵Z,记作[X1X2……Xn]。
具体地,在102中,具体可以根据每个页面的特征矩阵,获得页面之间的距离,即页面的特征矩阵之间的距离。具体可以采用通常的距离算法,例如,曼哈顿距离算法、欧氏距离算法等,算法的详细描述可以参见技术中的相关内容,此处不再赘述。然后,根据两个页面之间的距离和预先设置的聚类阈值,对所述两个页面进行聚类。若所述两个页面之间的距离小于或等于预先设置的聚类阈值,则将这两个页面放在一个相同的类中;若所述两个页面之间的距离大于预先设置的聚类阈值,则将这两个页面放在两个不同的类中。因此,在同一类中,页面间的特征矩阵相同或页面间的特征矩阵的差异在预设的阈值范围以内,不同的类的分别对应不同的特征矩阵。具体可以参见表1所示。
表1页面的页面特征与页面的类的对应关系
页面的页面特征 页面的类
特征矩阵1 类1
特征矩阵2 类2
特征矩阵3 类3
特征矩阵4 类4
特征矩阵5 类1
特征矩阵6 类2
特征矩阵7 类3
特征矩阵8 类4
特征矩阵9 类1
特征矩阵10 类2
特征矩阵11 类3
特征矩阵12 类4
…… ……
特征矩阵s 类t
103、根据所述一个或多个类之间的页面的链接关系,选择至少一个类,以作为列表页面集合。
其中,列表页面是指包含多个内容的分类列表的页面,例如,在网站中分类列出该网站其它页面的链接的页面。
一般来说,在建立一个网站时,系统可以自动建立一个根节点(root),然后再从根节点开始,建立网站的页面。
可选地,在本实施例的一个可能的实现方式中,在103中,具体可以根据每个类中的页面所链出的其它页面和该类中的页面所链入的其它页面(即链入所述类中的页面的其他页面),确定所述每个类中的页面作为所述网站的列表页的概率;然后,则可以根据所述概率,选择所述至少一个类,以作为所述列表页面集合。
具体可以执行如下操作:
根据所述每个类中的页面所链出的其它页面,确定所述每个类的出度;根据所述每个类中的页面所链入的其它页面,确定所述每个类的入度;确定所述每个类的指向类的数量;其中,所述每个类和所述每个类的指向类满足:所述每个类相对于所述指向类的关联出度大于所述每个类相对于所述指向类的关联入度;以及根据所述每个类的出度、所述每个类的入度和所述指向类的数量,确定所述概率。
可以理解的是,所述每个类中的页面所链出的其它页面不包含在该类中。所述每个类中的页面所链入的其它页面不包含在该类中。
其中,所述每个类的出度为所述每个类中的每个页面的出度的总和;其中,所述每个页面的出度由所述每个页面与所述网站的根节点的距离、所述每个页面所链出的其它页面、以及所述其它页面与所述网站的根节点的距离,确定;所述每个类的入度为所述每个类中的每个页面的入度的总和;其中,所述每个页面的入度由所述每个页面与所述网站的根节点的距离、所述每个页面所链入的其它页面、以及所述其它页面与所述网站的根节点的距离,确定。
其中,页面与根节点的距离,是指从根节点开始对页面内的链接进行逐层广度遍历后得到的页面深度。例如,根节点的页面深度为1,根节点的页面所包含的链接所指向的页面的深度就是2。
入度(indegree),针对一个页面,表征在所述链接关系中链接到该页面的其它页面对该页面的影响的评分。
页面的入度可以由所述每个页面与所述网站的根节点的距离、所述每个页面所链入的其它页面、以及所述其它页面与所述网站的根节点的距离,确定。
类的入度可以根据该类中的每个页面的入度综合统计获得,例如,可以为该类中的每个页面的入度的总和。
在计算类的入度时,为便于说明,将当前类中的页面作为目标页面,将链接到目标页面,即通过超链接指向目标页面的页面作为目标页面的链入页面。其中,这里的链入页面为与目标页面不在同一类中的页面。
每个目标页面的链入页面在网站中的深度不同时,对该目标页面的入度的影响也不同。
目标页面的每个链入页面对该目标页面的入度的影响记作入度增量DI。当目标页面j与所述网站的根节点的距离大于该目标页面j的链入页面i与所述网站的根节点之间的距离根节点的距离时,该链入页面i为该目标页面j贡献的入度增量为α,记作DIi=α。当目标页面j与所述网站的根节点之间的距离根节点的距离小于该目标页面j的链入页面i与所述网站的根节点之间的距离根节点的距离时,DIi=β,α>β,且α+β=N,N为自然数。当目标页面j与所述网站的根节点之间的距离根节点的距离等于该目标页面j的链入页面i与所述网站的根节点之间的距离根节点的距离时,DIi=χ,且χ=N/2,N为自然数。所述目标页面j的入度则为每个链入页面贡献的入度增量的和,记作i和j为自然数。
类似的,可以根据所述每个类中所包含的每个页面与所述网站的根节点的距离、以及所述每个页面指向的其它页面与所述网站的根节点的距离,获得所述每个类的出度。其中,所述每个页面指向的其它页面不包含在该类中。
出度(outdegree),针对一个页面,表征在所述链接关系中该页面链接出去的其它页面对该页面的影响的评分。
页面的出度可以由所述每个页面与所述网站的根节点的距离、所述每个页面所链出的其它页面、以及所述其它页面与所述网站的根节点的距离,确定。
类的出度则可以根据该类中的每个页面的出度综合统计获得,例如,可以为该类中的每个页面的出度的总和。
在计算类的出度时,为便于说明,将当前类中的页面作为目标页面,将该目标页面链接出去的页面,即目标页面通过超链接所指向的页面作为目标页面的链出页面。其中,这里的链出页面为与目标页面不在同一类中的页面。
每个目标页面的链出页面在网站中的深度不同时,对该目标页面的出度的影响也不同。
目标页面的每个链出页面对该目标页面的出度的影响记作出度增量DO。当目标页面j与所述网站的根节点的距离大于该目标页面j的链出页面i与所述网站的根节点的距离时,该链出页面i为该目标页面j贡献的出度增量为α,记作DOi=α。当目标页面j与所述网站的根节点的距离小于该目标页面j的链出页面i与所述网站的根节点的距离时,DOi=β,α<β,且α+β=N,N为自然数。当目标页面j与所述网站的根节点的距离等于该目标页面j的链出页面i与所述网站的根节点的距离时,DOi=χ,且χ=N/2,N为自然数。所述目标页面j的出度则为每个链出页面贡献的出度增量的和,记作i和j为自然数。
根据当前类中所包含的每个页面与所述网站的根节点的距离、以及指向该页面的在另一个类中的其它页面与所述网站的根节点的距离,获得所述当前类相对于所述另一个类的关联入度。其中,指向当前类的某一页面的其它页面包含在所述另一类中。
具体地,当前某一个类相对于另一类的关联入度的具体获得方法可以参照所述每个类的入度的计算公式,区别在于,公式中,当前类的入度的获得只取当前类相对于另一个类的入度分量进行求和即可,即仅计入当前类中的目标页面的链入页面中属于所述另一类的页面所贡献的入度增量。
根据当前类中所包含的每个页面与所述网站的根节点的距离、以及该页面指向的属于另一类的其它页面与所述网站的根节点的距离,获得当前类相对于所述另一类的关联出度,其中,当前类的每个页面指向的其它页面包含在所述另一类中。
具体地,当前类相对于另一个类的关联出度的具体获得方法可以同理参见每个类的出度的计算公式,区别在于,公式中,只取当前类相对于所述另一个类的出度分量进行求和即可,即仅计入当前类中的目标页面链出的属于所述另一个类的页面所贡献的出度增量。
这样,则可以根据一个类相对另一个类的关联出度和关联入度的比较,确定这两个类之间的指向关系。
当前类相对于另一个类的关联出度大于当前类相对于所述另一类的关联入度时,将所述另一个类作为当前类的指向类,即在当前类与所述另一个类的指向关系中,当前类指向作为所述指向类的另一个类。
根据一个类相对其他任一个类的关联出度和关联入度的比较,统计每一个类的指向类的数量。
具体地,根据每个类的入度、每个类的出度、每个类的指向类的数量和类的类别总数,获得所述每个类中的页面作为所述网站的列表页的概率,记作概率Pk
例如,
根据获得所述每个类的概率;其中,
Pk为第k个类的概率;
INk为第k个类的入度,k为自然数;
OUTk为第k个类的出度,k为自然数;
IO为第k个类的指向类的数量;
N为类的类别总数;
δ为权重系数。
需要说明的是,第k个类的概率Pk可以为大于或等于0的任何数值,取值越大表示该页面为列表页面的可能概率越高,反之亦然。具体地,δ可以根据每个类对应的特征矩阵或者根据每个类中页面与根节点的距离进行设置,本实施例对此不进行特别限定。最后,根据所述每个类的概率,选择至少一个类,以作为列表页面集合。
具体地,具体可以选择概率最高的一个或几个类,以作为列表页面集合。
可选地,在本实施例的一个可能的实现方式中,还可以进一步根据每个类中所包含的页面的特征矩阵,获得每个类的特征矩阵。进而,可以根据每个类的特征矩阵之间的距离确定每个类之间的距离。然后,则可以根据两个类之间的距离和预先设置的合并阈值,对所述两个类进行合并。可以理解的是,由于有些类之间具有指向关系,合并的结果不能破坏这种指向关系。只有不能破坏类之间的指向关系的合并,在本申请中才算是有效的合并,才可以执行,否则,即为无效的合并,则不可以执行。
这样,通过获取指定网站的页面,进而根据所述页面的页面特征,对所述页面进行聚类,以获得一个或多个类,使得能够根据所述一个或多个类之间的页面的链接关系,选择至少一个类,以作为列表页面集合,无需操作人员参与列表页面集合的建立过程,操作简单,且正确率高,从而提高了列表页面库建立的效率和可靠性。
另外,采用本申请提供的技术方案,由于能够获取到网站当前的所有页面,因此,基于一个网站的所有页面所建立的列表页面集合,能够有效提高列表页面的覆盖率。
可选地,在本实施例的一个可能的实现方式中,在103之后,还可以进一步利用所述列表页面集合,进行模型训练,以建立列表页识别模型。
至此,则可以利用所述列表页识别模型,对页面进行识别。若所述识别的结果为列表页面,则可以进一步将所述页面加入所述列表页面集合。这样,通过利用所建立的列表页面集合建立列表页识别模型,自动识别网站新增加的页面,能够提高列表页面的覆盖性和时效性。
可选地,在本实施例的一个可能的实现方式中,在103之后,还可以进一步根据所述列表页面集合中的每个列表页面的更新信息,更新所述列表页面集合。这样,通过根据所建立的列表页面集合中的每个列表页面的更新信息,实时更新所述列表页面集合,能够提高列表页面的时效性。
可选地,在本实施例的一个可能的实现方式中,在103之后,还可以进一步根据所述列表页面集合中的每个列表页面的更新信息,调整所述每个列表页面的抓取频率。这样,通过根据所建立的列表页面集合中的每个列表页面的更新信息,调整所述每个列表页面的抓取频率,能够提高列表页面的抓取成功率。
可选地,在本实施例的一个可能的实现方式中,在103之后,还可以进一步根据所述列表页面集合中的每个列表页面的更新信息,生成页面模板。这样,通过根据所建立的列表页面集合中的每个列表页面的更新信息,生成页面模板,以用于自动识别网站新增加的页面,或者提取网站的页面内容,能够提高列表页面的覆盖性和时效性,或者页面内容的获取效率。
本实施例中,通过获取指定网站的页面,进而根据所述页面的页面特征,对所述页面进行聚类,以获得一个或多个类,使得能够根据所述一个或多个类之间的页面的链接关系,选择至少一个类,以作为列表页面集合,无需操作人员参与列表页面集合的建立过程,操作简单,且正确率高,从而提高了列表页面库建立的效率和可靠性。
另外,采用本申请一个具体实施例提供的技术方案,由于能够获取到网站当前的所有页面,因此,基于一个网站的所有页面所建立的列表页面集合,能够有效提高列表页面的覆盖率。
另外,采用本申请一个具体实施例提供的技术方案,通过利用所建立的列表页面集合建立列表页识别模型,自动识别网站新增加的页面,能够提高列表页面的覆盖性和时效性。
另外,采用本申请一个具体实施例提供的技术方案,通过根据所建立的列表页面集合中的每个列表页面的更新信息,实时更新所述列表页面集合,能够提高列表页面的时效性。
另外,采用本申请一个具体实施例提供的技术方案,通过根据所建立的列表页面集合中的每个列表页面的更新信息,调整所述每个列表页面的抓取频率,能够提高列表页面的抓取成功率。
另外,采用本申请一个具体实施例提供的技术方案,通过根据所建立的列表页面集合中的每个列表页面的更新信息,生成页面模板,以用于自动识别网站新增加的页面,或者提取网站的页面内容,能够提高列表页面的覆盖性和时效性,或者页面内容的获取效率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图2为本申请另一实施例提供的页面的处理装置的结构示意图,如图2所示。本实施例的页面的处理装置可以包括获取单元21、聚类单元22和选择单元23。其中,获取单元21,用于获取指定网站的页面;聚类单元22,用于根据所述页面的页面特征,对所述页面进行聚类,以获得一个或多个类;选择单元23,用于根据所述一个或多个类之间的页面的链接关系,选择至少一个类,以作为列表页面集合。
其中,所述页面特征可以包括但不限于下列信息中的至少一项:
页面的布局特征;
页面的统一资源定位符(Uniform Resource Locator,URL)特征;以及
页面的内容特征。
其中,所述页面的布局特征,用于表示页面的文字、图形或表格的格式信息,例如,字体、字号、以及页边距等。
所述页面的URL特征,用于表示页面的URL的属性信息,例如,URL中所包含的关键字、URL的后缀等。
所述页面的内容特征,用于表示页面的内容信息,例如,内容中所包含的关键字、内容中所包含的符号等。
可选地,在本实施例的一个可能的实现方式中,每个页面特征可以用一个特征向量X表示,例如特征向量X1、特征向量X2、……、或特征向量Xn等,n为自然数。每个页面的页面特征,可以组成一个特征矩阵Z,即[X1X2……Xn]。
具体地,聚类单元22具体可以根据每个页面的特征矩阵,获得页面之间的距离,即页面的特征矩阵之间的距离。具体可以采用通常的距离算法,例如,曼哈顿距离算法、欧氏距离算法等,算法的详细描述可以参见技术中的相关内容,此处不再赘述。所述聚类单元22还可以根据两个页面之间的距离和预先设置的聚类阈值,对所述两个页面进行聚类。若所述两个页面之间的距离小于或等于预先设置的聚类阈值,所述聚类单元22则将这两个页面放在一个相同的类中;若所述两个页面之间的距离大于预先设置的聚类阈值,所述聚类单元22则将这两个页面放在两个不同的类中。因此,在同一类中,页面间的特征矩阵相同或页面间的特征矩阵的差异在预设的阈值范围以内,不同的类的分别对应不同的特征矩阵。具体可以参见表1所示。
其中,列表页面是指包含多个内容的分类列表的页面,例如,在网站中分类列出该网站其它页面的链接的页面。
一般来说,在建立一个网站时,系统可以自动建立一个根节点(root),然后再从根节点开始,建立网站的页面。
可选地,在本实施例的一个可能的实现方式中,所述选择单元23,具体可以用于根据每个类中的页面所链出的其它页面和该类中的页面所链入的其它页面(即链入所述类中的页面的其他页面),确定所述每个类中的页面作为所述网站的列表页的概率;以及根据所述概率,选择所述至少一个类,以作为所述列表页面集合。
所述选择单元23具体可以执行如下操作:
所述选择单元23,具体可以用于根据所述每个类中的页面所链出的其它页面,确定所述每个类的出度;根据所述每个类中的页面所链入的其它页面,确定所述每个类的入度;确定所述每个类的指向类的数量;其中,所述每个类和所述每个类的指向类满足:所述每个类相对于所述指向类的关联出度大于所述每个类相对于所述指向类的关联入度;以及根据所述每个类的出度、所述每个类的入度和所述指向类的数量,确定所述概率。
可以理解的是,所述每个类中的页面所链出的其它页面不包含在该类中。所述每个类中的页面所链入的其它页面不包含在该类中。
其中,所述每个类的出度为所述每个类中的每个页面的出度的总和;其中,所述每个页面的出度由所述每个页面与所述网站的根节点的距离、所述每个页面所链出的其它页面、以及所述其它页面与所述网站的根节点的距离确定;所述每个类的入度为所述每个类中的每个页面的入度的总和;其中,所述每个页面的入度由所述每个页面与所述网站的根节点的距离、所述每个页面所链入的其它页面、以及所述其它页面与所述网站的根节点的距离确定。
其中,页面与根节点的距离,是指从根节点开始对页面内的链接进行逐层广度遍历后得到的页面深度。例如,根节点的页面深度为1,根节点的页面所包含的链接所指向的页面的深度就是2。
入度(indegree),针对一个页面,表征在所述链接关系中链接到该页面的其它页面对该页面的影响的评分。
页面的入度可以由所述每个页面与所述网站的根节点的距离、所述每个页面所链入的其它页面、以及所述其它页面与所述网站的根节点的距离,确定。
类的入度可以根据该类中的每个页面的入度综合统计获得,例如,可以为该类中的每个页面的入度的总和。
在选择单元23计算类的入度时,为便于说明,将当前类中的页面作为目标页面,将链接到目标页面,即通过超链接指向目标页面的页面作为目标页面的链入页面。其中,这里的链入页面为与目标页面不在同一类中的页面。
每个目标页面的链入页面在网站中的深度不同时,对该目标页面的入度的影响也不同。
目标页面的每个链入页面对该目标页面的入度的影响记作入度增量DI。当目标页面j与所述网站的根节点的距离大于该目标页面j的链入页面i与所述网站的根节点之间的距离根节点的距离时,该链入页面i为该目标页面j贡献的入度增量为α,记作DIi=α。当目标页面j与所述网站的根节点之间的距离根节点的距离小于该目标页面j的链入页面i与所述网站的根节点之间的距离根节点的距离时,DIi=β,α>β,且α+β=N,N为自然数。当目标页面j与所述网站的根节点之间的距离根节点的距离等于该目标页面j的链入页面i与所述网站的根节点之间的距离根节点的距离时,DIi=χ,且χ=N/2,N为自然数。所述目标页面j的入度则为每个链入页面贡献的入度增量的和,记作i和j为自然数。
类似的,选择单元23可以根据所述每个类中所包含的每个页面与所述网站的根节点的距离、以及所述每个页面指向的其它页面与所述网站的根节点的距离,获得所述每个类的出度。其中,所述每个页面指向的其它页面不包含在该类中。
出度(outdegree),针对一个页面,表征在所述链接关系中该页面链接出去的其它页面对该页面的影响的评分。
页面的出度可以由所述每个页面与所述网站的根节点的距离、所述每个页面所链出的其它页面、以及所述其它页面与所述网站的根节点的距离,确定。
类的出度则可以根据该类中的每个页面的出度综合统计获得,例如,可以为该类中的每个页面的出度的总和。
在选择单元23计算类的出度时,为便于说明,将当前类中的页面作为目标页面,将该目标页面链接出去的页面,即目标页面通过超链接所指向的页面作为目标页面的链出页面。其中,这里的链出页面为与目标页面不在同一类中的页面。
每个目标页面的链出页面在网站中的深度不同时,对该目标页面的出度的影响也不同。
目标页面的每个链出页面对该目标页面的出度的影响记作出度增量DO。当目标页面j与所述网站的根节点的距离大于该目标页面j的链出页面i与所述网站的根节点的距离时,该链出页面i为该目标页面j贡献的出度增量为α,记作DOi=α。当目标页面j与所述网站的根节点的距离小于该目标页面j的链出页面i与所述网站的根节点的距离时,DOi=β,α<β,且α+β=N,N为自然数。当目标页面j与所述网站的根节点的距离等于该目标页面j的链出页面i与所述网站的根节点的距离时,DOi=χ,且χ=N/2,N为自然数。所述目标页面j的出度则为每个链出页面贡献的出度增量的和,记作i和j为自然数。
选择单元23还可以进一步用于根据当前类中所包含的每个页面与所述网站的根节点的距离、以及指向该页面的在另一个类中的其它页面与所述网站的根节点的距离,获得所述当前类相对于所述另一个类的关联入度。其中,指向当前类的某一页面的其它页面包含在所述另一类中。
具体地,当前某一个类相对于另一类的关联入度的具体获得方法可以参照所述每个类的入度的计算公式,区别在于,公式中,当前类的入度的获得只取当前类相对于另一个类的入度分量进行求和即可,即仅计入当前类中的目标页面的链入页面中属于所述另一类的页面所贡献的入度增量。
选择单元23还可以进一步用于根据当前类中所包含的每个页面与所述网站的根节点的距离、以及该页面指向的属于另一类的其它页面与所述网站的根节点的距离,获得当前类相对于所述另一类的关联出度,其中,当前类的每个页面指向的其它页面包含在所述另一类中。
具体地,当前类相对于另一个类的关联出度的具体获得方法可以同理参见每个类的出度的计算公式,区别在于,公式中,只取当前类相对于所述另一个类的出度分量进行求和即可,即仅计入当前类中的目标页面链出的属于所述另一个类的页面所贡献的出度增量。
这样,选择单元23则可以根据一个类相对另一个类的关联出度和关联入度的比较,确定这两个类之间的指向关系。
当前类相对于另一个类的关联出度大于当前类相对于所述另一类的关联入度时,将所述另一个类作为当前类的指向类,即在当前类与所述另一个类的指向关系中,当前类指向作为所述指向类的另一个类。
选择单元23根据一个类相对其他任一个类的关联出度和关联入度的比较,统计每一个类的指向类的数量。
具体地,选择单元23具体可以根据每个类的入度、每个类的出度、每个类的指向类的数量和类的类别总数,获得所述每个类中的页面作为所述网站的列表页的概率,记作概率Pk
例如,
根据获得所述每个类的概率;其中,
Pk为第k个类的概率;
INk为第k个类的入度,k为自然数;
OUTk为第k个类的出度,k为自然数;
IO为第k个类的指向类的数量;
N为类的类别总数;
δ为权重系数。
需要说明的是,第k个类的概率Pk可以为大于或等于0的任何数值,取值越大表示该页面为列表页面的可能概率越高,反之亦然。具体地,δ可以根据每个类对应的特征矩阵或者根据每个类中页面与根节点的距离进行设置,本实施例对此不进行特别限定。最后,根据所述每个类的概率,选择至少一个类,以作为列表页面集合。
具体地,具体可以选择概率最高的一个或几个类,以作为列表页面集合。
可选地,在本实施例的一个可能的实现方式中,聚类单元22还可以进一步用于根据每个类中所包含的页面的特征矩阵,获得每个类的特征矩阵。进而,可以根据每个类的特征矩阵之间的距离确定每个类之间的距离。然后,则可以根据两个类之间的距离和预先设置的合并阈值,对所述两个类进行合并。可以理解的是,由于有些类之间具有指向关系,合并的结果不能破坏这种指向关系。只有不能破坏类之间的指向关系的合并,在本申请中才算是有效的合并,才可以执行,否则,即为无效的合并,则不可以执行。
这样,通过获取单元获取指定网站的页面,进而由聚类单元根据所述页面的页面特征,对所述页面进行聚类,以获得一个或多个类,使得选择单元能够根据所述一个或多个类之间的页面的链接关系,选择至少一个类,以作为列表页面集合,无需操作人员参与列表页面集合的建立过程,操作简单,且正确率高,从而提高了列表页面库建立的效率和可靠性。
另外,采用本申请提供的技术方案,由于能够获取到网站当前的所有页面,因此,基于一个网站的所有页面所建立的列表页面集合,能够有效提高列表页面的覆盖率。
可选地,在本实施例的一个可能的实现方式中,如图3所示,本实施例提供的页面的处理装置还可以进一步包括建模单元31,用于利用所述列表页面集合,进行模型训练,以建立列表页识别模型。
可选地,在本实施例的一个可能的实现方式中,如图4所示,本实施例提供的页面的处理装置还可以进一步包括识别单元41,用于利用所述列表页识别模型,对页面进行识别;以及若所述识别的结果为列表页面,将所述页面加入所述列表页面集合。
这样,通过识别单元利用建模单元所建立的列表页面集合建立列表页识别模型,自动识别网站新增加的页面,能够提高列表页面的覆盖性和时效性。
可选地,在本实施例的一个可能的实现方式中,如图5所示,本实施例提供的页面的处理装置还可以进一步包括更新单元51,用于根据所述列表页面集合中的每个列表页面的更新信息,更新所述列表页面集合、调整所述每个列表页面的抓取频率或者生成页面模板。
这样,通过根据所建立的列表页面集合中的每个列表页面的更新信息,实时更新所述列表页面集合,能够提高列表页面的时效性,或者通过根据所建立的列表页面集合中的每个列表页面的更新信息,调整所述每个列表页面的抓取频率,能够提高列表页面的抓取成功率,或者通过根据所建立的列表页面集合中的每个列表页面的更新信息,生成页面模板,以用于自动识别网站新增加的页面,或者提取网站的页面内容,能够提高列表页面的覆盖性和时效性,或者页面内容的获取效率。
本实施例中,通过获取单元获取指定网站的页面,进而由聚类单元根据所述页面的页面特征,对所述页面进行聚类,以获得一个或多个类,使得选择单元能够根据所述一个或多个类之间的页面的链接关系,选择至少一个类,以作为列表页面集合,无需操作人员参与列表页面集合的建立过程,操作简单,且正确率高,从而提高了列表页面库建立的效率和可靠性。
另外,采用本申请一个具体实施例提供的技术方案,由于能够获取到网站当前的所有页面,因此,基于一个网站的所有页面所建立的列表页面集合,能够有效提高列表页面的覆盖率。
另外,采用本申请一个具体实施例提供的技术方案,通过利用所建立的列表页面集合建立列表页识别模型,自动识别网站新增加的页面,能够提高列表页面的覆盖性和时效性。
另外,采用本申请一个具体实施例提供的技术方案,通过根据所建立的列表页面集合中的每个列表页面的更新信息,实时更新所述列表页面集合,能够提高列表页面的时效性。
另外,采用本申请一个具体实施例提供的技术方案,通过根据所建立的列表页面集合中的每个列表页面的更新信息,调整所述每个列表页面的抓取频率,能够提高列表页面的抓取成功率。
另外,采用本申请一个具体实施例提供的技术方案,通过根据所建立的列表页面集合中的每个列表页面的更新信息,生成页面模板,以用于自动识别网站新增加的页面,或者提取网站的页面内容,能够提高列表页面的覆盖性和时效性,或者页面内容的获取效率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所展现或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元展现的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (18)

1.一种页面的处理方法,其特征在于,包括:
获取指定网站的页面;
根据所述页面的页面特征,对所述页面进行聚类,以获得一个或多个类;
根据每个类中的页面所链出的其它页面和所述每个类中的页面所链入的其它页面,确定所述每个类中的页面作为所述网站的列表页的概率;
根据所述概率,选择至少一个类,以作为所述列表页面集合。
2.根据权利要求1所述的方法,其特征在于,所述根据每个类中的页面所链出的其它页面和所述每个类中的页面所链入的其它页面,确定所述每个类中的页面作为所述网站的列表页的概率,包括:
根据所述每个类中的页面所链出的其它页面,确定所述每个类的出度;
根据所述每个类中的页面所链入的其它页面,确定所述每个类的入度;
确定所述每个类的指向类的数量;其中,所述每个类和所述每个类的指向类满足:所述每个类相对于所述指向类的关联出度大于所述每个类相对于所述指向类的关联入度;
根据所述每个类的出度、所述每个类的入度和所述指向类的数量,确定所述概率。
3.根据权利要求2所述的方法,其特征在于,
所述每个类的出度为所述每个类中的每个页面的出度的总和;其中,所述每个页面的出度由所述每个页面与所述网站的根节点的距离、所述每个页面所链出的其它页面、以及所述其它页面与所述网站的根节点的距离确定;
所述每个类的入度为所述每个类中的每个页面的入度的总和;其中,所述每个页面的入度由所述每个页面与所述网站的根节点的距离、所述每个页面所链入的其它页面、以及所述其它页面与所述网站的根节点的距离确定。
4.根据权利要求3所述的方法,其特征在于,
所述根据所述每个类中的页面所链出的其它页面,确定所述每个类的出度,包括:
根据获得所述每个类的出度;其中,
OUTk为第k个类的出度,k为自然数;
为第k个类的第j个页面的出度,j为自然数,DOi为第j个页面在链接关系中指向的第i个其它页面贡献的出度增量,i为自然数;其中,
若第j个页面与所述网站的根节点的距离大于第j个页面指向的第i个其它页面与所述网站的根节点的距离,DOi=α;若第j个页面与所述网站的根节点的距离小于第j个页面指向的第i个其它页面与所述网站的根节点的距离,DOi=β,α<β,且α+β=N,N为自然数;若第j个页面与所述网站的根节点的距离等于第j个页面指向的第i个其它页面与所述网站的根节点的距离,DOi=χ,且χ=N/2,N为自然数;
所述根据所述每个类中的页面所链入的其它页面,确定所述每个类的入度,包括:
根据获得所述每个类的入度;其中,
INk为第k个类的入度,k为自然数;
为第k个类的第j个页面的入度,j为自然数,DIi为在所述链接关系中指向第j个页面的第i个其它页面贡献的入度增量,i为自然数;其中,
若第j个页面与所述网站的根节点的距离大于指向第j个页面的第i个其它页面与所述网站的根节点的距离,DIi=α;若第j个页面与所述网站的根节点的距离小于指向第j个页面的第i个其它页面与所述网站的根节点的距离,DIi=β,α>β,且α+β=N,N为自然数;若第j个页面与所述网站的根节点的距离等于指向第j个页面的第i个其它页面与所述网站的根节点的距离,DIi=χ,且χ=N/2,N为自然数。
5.根据权利要求4所述的方法,其特征在于,所述根据所述每个类的出度、所述每个类的入度和所述指向类的数量,确定所述概率,包括:
根据获得所述每个类的概率;其中,
Pk为第k个类的概率;
INk为第k个类的入度,k为自然数;
OUTk为第k个类的出度,k为自然数;
IO为第k个类的指向类的数量;
N为类的类别总数;
δ为权重系数。
6.根据权利要求1~5任一权利要求所述的方法,其特征在于,所述方法还包括:
利用所述列表页面集合,进行模型训练,以建立列表页识别模型。
7.根据权利要求6所述的方法,其特征在于,所述利用所述列表页面集合,进行模型训练,以建立列表页识别模型之后,还包括:
利用所述列表页识别模型,对页面进行识别;
若所述识别的结果为列表页面,将所述页面加入所述列表页面集合。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述列表页面集合中的每个列表页面的更新信息,更新所述列表页面集合、调整所述每个列表页面的抓取频率或者生成页面模板。
9.根据权利要求1~5任一权利要求所述的方法,其特征在于,所述页面特征包括下列信息中的至少一项:
页面的布局特征;
页面的统一资源定位符;以及
页面的内容特征。
10.一种页面的处理装置,其特征在于,包括:
获取单元,用于获取指定网站的页面;
聚类单元,用于根据所述页面的页面特征,对所述页面进行聚类,以获得一个或多个类;
选择单元,用于根据每个类中的页面所链出的其它页面和所述每个类中的页面所链入的其它页面,确定所述每个类中的页面作为所述网站的列表页的概率;以及根据所述概率,选择至少一个类,以作为所述列表页面集合。
11.根据权利要求10所述的装置,其特征在于,所述选择单元,具体用于
根据所述每个类中的页面所链出的其它页面,确定所述每个类的出度;
根据所述每个类中的页面所链入的其它页面,确定所述每个类的入度;
确定所述每个类的指向类的数量;其中,所述每个类和所述每个类的指向类满足:所述每个类相对于所述指向类的关联出度大于所述每个类相对于所述指向类的关联入度;以及
根据所述每个类的出度、所述每个类的入度和所述指向类的数量,确定所述概率。
12.根据权利要求11所述的装置,其特征在于,
所述选择单元所确定的所述每个类的出度为所述每个类中的每个页面的出度的总和;其中,所述每个页面的出度由所述每个页面与所述网站的根节点的距离、所述每个页面所链出的其它页面、以及所述其它页面与所述网站的根节点的距离确定;
所述选择单元所确定的所述每个类的入度为所述每个类中的每个页面的入度的总和;其中,所述每个页面的入度由所述每个页面与所述网站的根节点的距离、所述每个页面所链入的其它页面、以及所述其它页面与所述网站的根节点的距离确定。
13.根据权利要求12所述的装置,其特征在于,
所述选择单元,具体用于
根据获得所述每个类的出度;其中,
OUTk为第k个类的出度,k为自然数;
为第k个类的第j个页面的出度,j为自然数,DOi为第j个页面在链接关系中指向的第i个其它页面贡献的出度增量,i为自然数;其中,
若第j个页面与所述网站的根节点的距离大于第j个页面指向的第i个其它页面与所述网站的根节点的距离,DOi=α;若第j个页面与所述网站的根节点的距离小于第j个页面指向的第i个其它页面与所述网站的根节点的距离,DOi=β,α<β,且α+β=N,N为自然数;若第j个页面与所述网站的根节点的距离等于第j个页面指向的第i个其它页面与所述网站的根节点的距离,DOi=χ,且χ=N/2,N为自然数;
所述选择单元,具体用于
根据获得所述每个类的入度;其中,
INk为第k个类的入度,k为自然数;
为第k个类的第j个页面的入度,j为自然数,DIi为在所述链接关系中指向第j个页面的第i个其它页面贡献的入度增量,i为自然数;其中,
若第j个页面与所述网站的根节点的距离大于指向第j个页面的第i个其它页面与所述网站的根节点的距离,DIi=α;若第j个页面与所述网站的根节点的距离小于指向第j个页面的第i个其它页面与所述网站的根节点的距离,DIi=β,α>β,且α+β=N,N为自然数;若第j个页面与所述网站的根节点的距离等于指向第j个页面的第i个其它页面与所述网站的根节点的距离,DIi=χ,且χ=N/2,N为自然数。
14.根据权利要求13所述的装置,其特征在于,所述选择单元,具体用于
根据获得所述每个类的概率;其中,
Pk为第k个类的概率;
INk为第k个类的入度,k为自然数;
OUTk为第k个类的出度,k为自然数;
IO为第k个类的指向类的数量;
N为类的类别总数;
δ为权重系数。
15.根据权利要求10~14任一权利要求所述的装置,其特征在于,所述装置还包括建模单元,用于
利用所述列表页面集合,进行模型训练,以建立列表页识别模型。
16.根据权利要求15所述的装置,其特征在于,所述装置还包括识别单元,用于
利用所述列表页识别模型,对页面进行识别;以及
若所述识别的结果为列表页面,将所述页面加入所述列表页面集合。
17.根据权利要求10所述的装置,其特征在于,所述装置还包括更新单元,用于
根据所述列表页面集合中的每个列表页面的更新信息,更新所述列表页面集合、调整所述每个列表页面的抓取频率或者生成页面模板。
18.根据权利要求10~14任一权利要求所述的装置,其特征在于,所述页面特征包括下列信息中的至少一项:
页面的布局特征;
页面的统一资源定位符;以及
页面的内容特征。
CN201310598660.XA 2013-11-21 2013-11-21 页面的处理方法及装置 Active CN104657391B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201310598660.XA CN104657391B (zh) 2013-11-21 2013-11-21 页面的处理方法及装置
TW103110120A TW201520791A (zh) 2013-11-21 2014-03-18 網頁的處理方法及裝置
US14/549,394 US10387545B2 (en) 2013-11-21 2014-11-20 Processing page
PCT/US2014/066704 WO2015077501A1 (en) 2013-11-21 2014-11-20 Processing page

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310598660.XA CN104657391B (zh) 2013-11-21 2013-11-21 页面的处理方法及装置

Publications (2)

Publication Number Publication Date
CN104657391A CN104657391A (zh) 2015-05-27
CN104657391B true CN104657391B (zh) 2018-08-03

Family

ID=52232402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310598660.XA Active CN104657391B (zh) 2013-11-21 2013-11-21 页面的处理方法及装置

Country Status (4)

Country Link
US (1) US10387545B2 (zh)
CN (1) CN104657391B (zh)
TW (1) TW201520791A (zh)
WO (1) WO2015077501A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815273B (zh) * 2015-12-02 2020-07-31 北京国双科技有限公司 数据存储方法和装置
CN107357716A (zh) * 2016-05-10 2017-11-17 富士通株式会社 用于选取网页的装置和方法
CN107784034B (zh) * 2016-08-31 2021-05-25 北京搜狗科技发展有限公司 页面类别识别方法及装置、用于页面类别识别的装置
CN108710688B (zh) * 2018-05-21 2021-12-21 创新先进技术有限公司 一种页面中动画的生成方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388013A (zh) * 2007-09-12 2009-03-18 日电(中国)有限公司 用于网络文件聚类的方法和系统
CN102768670A (zh) * 2012-05-31 2012-11-07 哈尔滨工程大学 基于节点属性标签传播的网页聚类方法
US8484180B2 (en) * 2009-06-03 2013-07-09 Yahoo! Inc. Graph-based seed selection algorithm for web crawlers

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050076000A1 (en) * 2003-03-21 2005-04-07 Xerox Corporation Determination of table of content links for a hyperlinked document
US20050071310A1 (en) * 2003-09-30 2005-03-31 Nadav Eiron System, method, and computer program product for identifying multi-page documents in hypertext collections
US7310632B2 (en) * 2004-02-12 2007-12-18 Microsoft Corporation Decision-theoretic web-crawling and predicting web-page change
US20070016863A1 (en) * 2005-07-08 2007-01-18 Yan Qu Method and apparatus for extracting and structuring domain terms
US7496557B2 (en) * 2005-09-30 2009-02-24 International Business Machines Corporation Microhubs and its applications
US20070198504A1 (en) * 2006-02-23 2007-08-23 Microsoft Corporation Calculating level-based importance of a web page
US8099408B2 (en) * 2008-06-27 2012-01-17 Microsoft Corporation Web forum crawling using skeletal links
US20100211533A1 (en) * 2009-02-18 2010-08-19 Microsoft Corporation Extracting structured data from web forums
US8868541B2 (en) * 2011-01-21 2014-10-21 Google Inc. Scheduling resource crawls
US9390166B2 (en) 2012-12-31 2016-07-12 Fujitsu Limited Specific online resource identification and extraction

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388013A (zh) * 2007-09-12 2009-03-18 日电(中国)有限公司 用于网络文件聚类的方法和系统
US8484180B2 (en) * 2009-06-03 2013-07-09 Yahoo! Inc. Graph-based seed selection algorithm for web crawlers
CN102768670A (zh) * 2012-05-31 2012-11-07 哈尔滨工程大学 基于节点属性标签传播的网页聚类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Clustering Web pages based on their structure;Valter Crescenzi 、Paolo Merialdo、 Paolo Missier;《DATA&KNOWLEDGE ENGINEERING》;20051231;第54卷;第282-286页,第2、3节,附图4、5 *

Also Published As

Publication number Publication date
US20150143214A1 (en) 2015-05-21
TW201520791A (zh) 2015-06-01
US10387545B2 (en) 2019-08-20
CN104657391A (zh) 2015-05-27
WO2015077501A1 (en) 2015-05-28

Similar Documents

Publication Publication Date Title
CN108629043B (zh) 网页目标信息的提取方法、装置及存储介质
US20190392258A1 (en) Method and apparatus for generating information
CN112528025A (zh) 基于密度的文本聚类方法、装置、设备及存储介质
WO2022048363A1 (zh) 网站分类方法、装置、计算机设备及存储介质
US20170235726A1 (en) Information identification and extraction
CN111401700A (zh) 一种数据分析方法、装置、计算机系统及可读存储介质
CN107944032B (zh) 用于生成信息的方法和装置
CN104657391B (zh) 页面的处理方法及装置
CN112632278A (zh) 一种基于多标签分类的标注方法、装置、设备及存储介质
CN110020312B (zh) 提取网页正文的方法和装置
CN110427453B (zh) 数据的相似度计算方法、装置、计算机设备及存储介质
CN104484449A (zh) 网页页面的正文提取方法和装置
CN114241411B (zh) 基于目标检测的计数模型处理方法、装置及计算机设备
CN118332008A (zh) 答案筛选方法、装置、计算机设备和存储介质
CN102760127A (zh) 基于扩展文本信息来确定资源类型的方法、装置及设备
CN113283231A (zh) 获取签章位的方法、设置系统、签章系统及存储介质
CN110442674B (zh) 标签传播的聚类方法、终端设备、存储介质及装置
CN116774973A (zh) 数据渲染方法、装置、计算机设备及存储介质
CN116777646A (zh) 基于人工智能的风险识别方法、装置、设备及存储介质
CN115563942A (zh) 一种合同生成方法、装置、电子设备及计算机可读介质
CN114495140B (zh) 表格的信息提取方法、系统、设备、介质及程序产品
CN116628128B (zh) 一种供应链数据标准化方法、装置、设备及其存储介质
CN111832304B (zh) 楼盘名称的查重方法、装置、电子设备及存储介质
JP2019053469A (ja) データベース生成装置、データベース生成方法、およびプログラム
CN109241428B (zh) 用户性别的确定方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant