CN104317940B - 网页标识确定方法和装置 - Google Patents
网页标识确定方法和装置 Download PDFInfo
- Publication number
- CN104317940B CN104317940B CN201410602741.7A CN201410602741A CN104317940B CN 104317940 B CN104317940 B CN 104317940B CN 201410602741 A CN201410602741 A CN 201410602741A CN 104317940 B CN104317940 B CN 104317940B
- Authority
- CN
- China
- Prior art keywords
- webpage
- anchor
- anchor text
- url
- external linkage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012545 processing Methods 0.000 claims description 20
- 238000006116 polymerization reaction Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种网页标识确定方法和装置,该方法包括聚合相同统一资源定位符URL的网页,根据指向相同URL网页的一个或多个外部链接以及各个外部链接对应的锚文本,得到各个网页的一个或多个锚文本;对于每个网页,选取该网页的一个或多个锚文本中的一个作为该网页的标识。本发明提供的技术方案能够提高处理效率,并且能够提供简洁又能准确、客观地概括网页内容的网页标识。
Description
技术领域
本发明涉及互联网技术领域,特别是一种网页标识确定方法和装置。
背景技术
网页标识(如网页标题、网页地址等)可以用于标识网页,能够体现网页的核心内容。搜索算法通常会对标识中的词赋予更高权重,因而网页标识在SEO(Search EngineOptimization,搜索引擎优化)中非常重要,站长会在网页标识中加入很多关键词,如一些重复或与网页内容不相关的关键词,导致标识很长。比如下面这个标识,“Android(安卓)开发视频教程-老罗Android开发视频教程-视频教程-移动开发门户”,实质上该标识中真正有价值的信息是“老罗Android开发视频教程”。长标识不会对用户的浏览产生实质性影响,对于屏幕大小有限的终端(如手机)会导致明显的屏幕显示空间浪费。
相关技术中,搜索引擎对标识进行截断处理,然而截断固定长度效果显然不好。因而,如何提供简洁又能概括网页内容的网页标识成为目前亟待解决的技术问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的网页标识确定方法和相应的装置。
依据本发明的一个方面,提供了一种网页标识确定方法,包括:聚合相同统一资源定位符URL的网页,根据指向相同URL网页的一个或多个外部链接以及各个外部链接对应的锚文本,得到各个网页的一个或多个锚文本;对于每个网页,选取该网页的一个或多个锚文本中的一个作为该网页的标识。
可选地,所述聚合相同URL的网页之前,还包括:解析网页抓取器抓取的多个网页,获取各个网页的URL、指向各个网页的外部链接以及各个外部链接对应的锚文本。
可选地,所述聚合相同URL的网页,根据指向相同URL网页的一个或多个外部链接以及各个外部链接对应的锚文本,得到各个网页的一个或多个锚文本,包括:对具备相同URL的网页进行聚类,生成多个URL分组;对于每个URL分组,根据该URL分组中指向各个网页的外部链接以及各个外部链接对应的锚文本,得到各个网页的一个或多个锚文本。
可选地,对于各个URL分组,根据该URL分组中指向各个网页的外部链接以及各个外部链接对应的锚文本,得到各个网页的一个或多个锚文本,包括:对该URL分组中的锚文本进行聚类,生成一个或多个锚文本分组;将所述一个或多个锚文本分组各自对应的锚文本作为各个网页的一个或多个锚文本。
可选地,所述选取该网页的一个或多个锚文本中的一个作为该网页的标识,包括:确定该网页的一个或多个锚文本中每个锚文本的等级;选取指定等级的锚文本作为该网页的标识。
可选地,所述确定该网页的一个或多个锚文本中每个锚文本的等级,包括:获取该网页的一个或多个锚文本中每个锚文本的参数值;根据获取的所述每个锚文本的参数值,计算所述每个锚文本的等级。
可选地,所述每个锚文本的参数值包括下列至少之一:
每个锚文本对应的外部链接所在网页的总数;
每个锚文本对应的、与该网页的URL同主域的外部链接所在网页的总数;
每个锚文本对应的、与该网页的URL不同主域的外部链接所在网页的总数;
每个锚文本对应的外部链接所在网页的网页等级pagerank;
每个锚文本对应的外部链接被点击的次数。
依据本发明的另一个方面,还提供了一种网页标识确定装置,包括:
处理模块,适于聚合相同统一资源定位符URL的网页,根据指向相同URL网页的一个或多个外部链接以及各个外部链接对应的锚文本,得到各个网页的一个或多个锚文本;
选取模块,适于对于每个网页,选取该网页的一个或多个锚文本中的一个作为该网页的标识。
可选地,在所述处理模块聚合相同URL的网页之前,还包括:
解析模块,适于解析网页抓取器抓取的多个网页,获取各个网页的URL、指向各个网页的外部链接以及各个外部链接对应的锚文本。
可选地,所述处理模块还适于:对具备相同URL的网页进行聚类,生成多个URL分组;对于每个URL分组,根据该URL分组中指向各个网页的外部链接以及各个外部链接对应的锚文本,得到各个网页的一个或多个锚文本。
可选地,所述处理模块还适于:对该URL分组中的锚文本进行聚类,生成一个或多个锚文本分组;将所述一个或多个锚文本分组各自对应的锚文本作为各个网页的一个或多个锚文本。
可选地,所述选取模块还适于:确定该网页的一个或多个锚文本中每个锚文本的等级;选取指定等级的锚文本作为该网页的标识。
可选地,所述选取模块还适于:获取该网页的一个或多个锚文本中每个锚文本的参数值;根据获取的所述每个锚文本的参数值,计算所述每个锚文本的等级。
可选地,所述每个锚文本的参数值包括下列至少之一:
每个锚文本对应的外部链接所在网页的总数;
每个锚文本对应的、与该网页的URL同主域的外部链接所在网页的总数;
每个锚文本对应的、与该网页的URL不同主域的外部链接所在网页的总数;
每个锚文本对应的外部链接所在网页的网页等级pagerank;
每个锚文本对应的外部链接被点击的次数。
依据本发明提供的技术方案,通过聚合的方式得到相同URL的网页,解决了相关技术中通过人工或两两比较的方式得到相同URL的网页导致处理效率较低的问题。随后根据指向相同URL网页的一个或多个外部链接以及各个外部链接对应的锚文本,得到各个网页的一个或多个锚文本,进而对于每个网页,选取该网页的一个或多个锚文本中的一个作为该网页的标识。由于外部链接对应的锚文本是其他网页对外部链接所指向网页的一种描述,能够准确描述所指向网页的内容。本发明选取网页的一个或多个锚文本中的一个作为该网页的标识,其对该所指向网页的描述在格式或字数上体现为更加简洁,且不会被加入不相关的关键词,使得对网页的描述更为准确、客观。综上可知,本发明提供的技术方案能够提高处理效率,并且能够提供简洁又能准确、客观地概括网页内容的网页标识。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的网页标识确定方法的流程图;
图2示出了根据本发明一个实施例的网页标识确定装置的一种结构示意图;以及
图3示出了根据本发明一个实施例的网页标识确定装置的另一种结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为解决上述技术问题,本发明实施例提供了一种网页标识确定方法,图1示出了根据本发明一个实施例的网页标识确定方法的流程图。如图1所示,该方法至少包括以下步骤S102至步骤S104。
步骤S102、聚合相同URL(统一资源定位符)的网页,根据指向相同URL网页的一个或多个外部链接以及各个外部链接对应的锚文本,得到各个网页的一个或多个锚文本。
步骤S104、对于每个网页,选取该网页的一个或多个锚文本中的一个作为该网页的标识。
依据本发明提供的技术方案,通过聚合的方式得到相同URL的网页,解决了相关技术中通过人工或两两比较的方式得到相同URL的网页导致处理效率较低的问题。随后根据指向相同URL网页的一个或多个外部链接以及各个外部链接对应的锚文本,得到各个网页的一个或多个锚文本,进而对于每个网页,选取该网页的一个或多个锚文本中的一个作为该网页的标识。由于外部链接对应的锚文本是其他网页对外部链接所指向网页的一种描述,能够准确描述所指向网页的内容。本发明选取网页的一个或多个锚文本中的一个作为该网页的标识,其对该所指向网页的描述在格式或字数上体现为更加简洁,且不会被加入不相关的关键词,使得对网页的描述更为准确、客观。综上可知,本发明提供的技术方案能够提高处理效率,并且能够提供简洁又能准确、客观地概括网页内容的网页标识。
在步骤S102聚合相同URL的网页之前,本发明还可以解析网页抓取器抓取的多个网页,获取各个网页的URL、指向各个网页的外部链接以及各个外部链接对应的锚文本。可以通过网页抓取器抓取的网页之间的链接关系,进而确定指向各个网页的外部链接,这里的网页抓取器可以是网络爬虫、网页蜘蛛、网络机器人等。进一步地,外部链接是指从别的网站导入到自己网站的链接,且该链接对应的锚文本能够准确描述该链接所指向网页的内容,该锚文本的形式如文本或图片的形式等。举例来说,某个网页为B网站的网页b,从A网站的链接“网页b”导入到B网站的网页b,那么A网站的链接“网页b”可以作为该网页(即B网站的网页b)的外部链接,这里链接对应的锚文本为“网页b”,准确描述了B网站的网页b的内容。锚文本“网页b”的形式可以是以文本形式或图片形式。
本发明提供了一种优选的实施步骤S102的方案,在该方案中对具备相同URL的网页进行聚类,生成多个URL分组,进而对于每个URL分组,根据该URL分组中指向各个网页的外部链接以及各个外部链接对应的锚文本,得到各个网页的一个或多个锚文本。进一步地,对于每个URL分组,对该URL分组中的锚文本进行聚类,生成一个或多个锚文本分组,进而将一个或多个锚文本分组各自对应的锚文本作为各个网页的一个或多个锚文本。举例来说,网页抓取器抓取的多个网页分别为网页1、网页2、网页3、网页4,它们的URL分别为URL1、URL2、URL3、URL1。此时对具备相同URL的网页进行聚类,生成多个URL分组为{网页1URL1、网页4URL1}、{网页2URL2}、{网页3URL3}。对于每个URL分组,如{网页1URL1、网页4URL1},指向网页1URL1的外部链接对应的锚文本为a1、b1、c1,指向网页4URL1的外部链接对应的锚文本为a1、d1、e1。此时对URL分组{网页1URL1、网页4URL1}中的锚文本进行聚类,生成锚文本分组为{a1、a1}、{b1}、{c1}、{d1}、{e1},进而得到网页1URL1的锚文本为a1、b1、c1、d1、e1,网页4URL1的锚文本为a1、b1、c1、d1、e1。同理,对于URL分组{网页2URL2},指向网页2URL2外部链接对应的锚文本为a2、b2,此时可以得到网页2URL2的锚文本为a2、b2。需要说明的是,这里列举的网页1、网页2、网页3以及网页4仅仅是示意性的,并不用于限制本发明。
在步骤S102得到各个网页的一个或多个锚文本之后,步骤S104中对于每个网页,选取该网页的一个或多个锚文本中的一个作为该网页的标识,可以通过多种方式来实现,如根据锚文本的文本长度或锚文本的等级,下面将详细介绍这两种方式。
方式一,根据锚文本的文本长度从一个或多个锚文本中选取一个锚文本的方式。在方式一中,可以确定一个或多个锚文本中每个锚文本的文本长度,随后从文本长度小于或等于指定长度的锚文本中选取一个锚文本作为该网页的标识。这里的指定长度可以根据实际情况或需求来确定,如根据呈现搜索结果的终端的尺寸来确定或者将多个锚文本长度的平均值作为指定长度等等。
方式二,根据锚文本的等级从一个或多个锚文本中选取一个锚文本的方式。在方式二中,可以确定一个或多个锚文本中每个锚文本的等级,随后选取指定等级的锚文本作为该网页的网页标识。进一步地,本发明提供了一种优选的确定一个或多个锚文本中每个锚文本的等级的方案,即可以获取一个或多个锚文本中每个锚文本的参数值,进而根据获取的每个锚文本的参数值,计算每个锚文本的等级。这里,每个锚文本的参数值可以是每个锚文本对应的外部链接的总数,每个锚文本对应的、与网页的URL同主域的外部链接所在网页的总数,每个锚文本对应的、与网页的URL不同主域的外部链接所在网页的总数,每个锚文本对应的外部链接所在网页的网页等级PageRank,每个锚文本对应的外部链接被点击的次数,等等。
由每个锚文本的参数值计算每个锚文本的等级,可以优选地实施为确定每个锚文本的参数值各自的权重,并对每个锚文本的参数值进行加权处理,计算每个锚文本的等级。举例来说,获取一个或多个锚文本中每个锚文本的参数值为P1、P2、P3、P4、P5,分别表示每个锚文本对应的外部链接的总数,每个锚文本对应的、与网页的统一资源定位符URL同主域的外部链接所在网页的总数,每个锚文本对应的、与网页的URL不同主域的外部链接所在网页的总数,每个锚文本对应的外部链接所在网页的网页等级PageRank,每个锚文本对应的外部链接被点击的次数。确定每个锚文本的参数值各自的权重分别为q1、q2、q3、q4、q5,根据每个锚文本的参数值P1、P2、P3、P4、P5以及每个锚文本的参数值各自的权重q1、q2、q3、q4、q5,对每个锚文本的参数值中的一个或多个进行加权处理,得到每个锚文本的等级。
此外,可以对计算得到的每个锚文本的等级进行排序,选取排在最前面的等级(即最高等级)的锚文本作为指定等级的锚文本。
另外,还可以结合上述方式一和方式二来从一个或多个锚文本中选取一个锚文本。例如,首先确定出文本长度小于或等于指定长度的锚文本,然后计算确定出的锚文本的等级,进而选取指定等级的锚文本作为网页的网页标识。又例如,将文本长度作为每个锚文本的参数值,进而计算每个锚文本的等级,进而选取指定等级的锚文本作为网页的网页标识。当然,上述列举仅是示意性的,还可以有其它结合的方式均适用于本发明。
下面通过一具体实施例来详细介绍本发明提供的网页标识确定方法。比如下面这个网页标识为“Android(安卓)开发视频教程-老罗Android开发视频教程-视频教程-移动开发门户”,采用本发明提供的技术方案得到该网页的多个锚文本分别为“老罗Android开发视频教程”、“Android开发视频教程”、“Android移动开发门户”,从中选取锚文本“老罗Android开发视频教程”作为该网页的网页标识,使得标识更加简洁而不损失信息。若用于搜索结果中显示的标题或搜索引擎收录网页时记录的标题时,可以节省终端显示界面的显示空间,提高信息的展现力、完整性和时效性,提高用户的感受体验。
基于同一发明构思,本发明实施例还提供了一种网页标识确定装置,以实现上述网页标识确定方法。
图2示出了根据本发明一个实施例的网页标识确定装置的一种结构示意图。参见图2,该装置至少包括:处理模块210以及选取模块220。
现介绍本发明实施例的网页标识确定装置的各组成或器件的功能以及各部分间的连接关系:
处理模块210,适于聚合相同统一资源定位符URL的网页,根据指向相同URL网页的一个或多个外部链接以及各个外部链接对应的锚文本,得到各个网页的一个或多个锚文本;
选取模块220,与处理模块210相耦合,适于对于每个网页,选取该网页的一个或多个锚文本中的一个作为该网页的标识。
在一个实施例中,图3示出了根据本发明一个实施例的网页标识确定装置的另一种结构示意图。该装置还包括解析模块310,与处理模块210相耦合,适于在处理模块210聚合相同URL的网页之前,解析网页抓取器抓取的多个网页,获取各个网页的URL、指向各个网页的外部链接以及各个外部链接对应的锚文本。
在一个实施例中,处理模块210还适于:对具备相同URL的网页进行聚类,生成多个URL分组;对于每个URL分组,根据该URL分组中指向各个网页的外部链接以及各个外部链接对应的锚文本,得到各个网页的一个或多个锚文本。
在一个实施例中,处理模块210还适于:对该URL分组中的锚文本进行聚类,生成一个或多个锚文本分组;将一个或多个锚文本分组各自对应的锚文本作为各个网页的一个或多个锚文本。
在一个实施例中,选取模块220还适于:确定该网页的一个或多个锚文本中每个锚文本的等级;选取指定等级的锚文本作为该网页的标识。
在一个实施例中,选取模块220还适于:获取该网页的一个或多个锚文本中每个锚文本的参数值;根据获取的每个锚文本的参数值,计算每个锚文本的等级。
在一个实施例中,每个锚文本的参数值包括下列至少之一:
每个锚文本对应的外部链接所在网页的总数;
每个锚文本对应的、与该网页的URL同主域的外部链接所在网页的总数;
每个锚文本对应的、与该网页的URL不同主域的外部链接所在网页的总数;
每个锚文本对应的外部链接所在网页的网页等级pagerank;
每个锚文本对应的外部链接被点击的次数。
根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能够达到如下有益效果:
依据本发明提供的技术方案,通过聚合的方式得到相同URL的网页,解决了相关技术中通过人工或两两比较的方式得到相同URL的网页导致处理效率较低的问题。随后根据指向相同URL网页的一个或多个外部链接以及各个外部链接对应的锚文本,得到各个网页的一个或多个锚文本,进而对于每个网页,选取该网页的一个或多个锚文本中的一个作为该网页的标识。由于外部链接对应的锚文本是其他网页对外部链接所指向网页的一种描述,能够准确描述所指向网页的内容。本发明选取网页的一个或多个锚文本中的一个作为该网页的标识,其对该所指向网页的描述在格式或字数上体现为更加简洁,且不会被加入不相关的关键词,使得对网页的描述更为准确、客观。综上可知,本发明提供的技术方案能够提高处理效率,并且能够提供简洁又能准确、客观地概括网页内容的网页标识。
本发明还公开了:
A1、一种网页标识确定方法,包括:
聚合相同统一资源定位符URL的网页,根据指向相同URL网页的一个或多个外部链接以及各个外部链接对应的锚文本,得到各个网页的一个或多个锚文本;
对于每个网页,选取该网页的一个或多个锚文本中的一个作为该网页的标识。
A2、根据A1所述的方法,其中,所述聚合相同URL的网页之前,还包括:
解析网页抓取器抓取的多个网页,获取各个网页的URL、指向各个网页的外部链接以及各个外部链接对应的锚文本。
A3、根据A1或A2所述的方法,其中,所述聚合相同URL的网页,根据指向相同URL网页的一个或多个外部链接以及各个外部链接对应的锚文本,得到各个网页的一个或多个锚文本,包括:
对具备相同URL的网页进行聚类,生成多个URL分组;
对于每个URL分组,根据该URL分组中指向各个网页的外部链接以及各个外部链接对应的锚文本,得到各个网页的一个或多个锚文本。
A4、根据A1-A3任一项所述的方法,其中,根据该URL分组中指向各个网页的外部链接以及各个外部链接对应的锚文本,得到各个网页的一个或多个锚文本,包括:
对该URL分组中的锚文本进行聚类,生成一个或多个锚文本分组;
将所述一个或多个锚文本分组各自对应的锚文本作为各个网页的一个或多个锚文本。
A5、根据A1-A4任一项所述的方法,其中,所述选取该网页的一个或多个锚文本中的一个作为该网页的标识,包括:
确定该网页的一个或多个锚文本中每个锚文本的等级;
选取指定等级的锚文本作为该网页的标识。
A6、根据A1-A5任一项所述的方法,其中,所述确定该网页的一个或多个锚文本中每个锚文本的等级,包括:
获取该网页的一个或多个锚文本中每个锚文本的参数值;
根据获取的所述每个锚文本的参数值,计算所述每个锚文本的等级。
A7、根据A1-A6任一项所述的方法,其中,所述每个锚文本的参数值包括下列至少之一:
每个锚文本对应的外部链接所在网页的总数;
每个锚文本对应的、与该网页的URL同主域的外部链接所在网页的总数;
每个锚文本对应的、与该网页的URL不同主域的外部链接所在网页的总数;
每个锚文本对应的外部链接所在网页的网页等级pagerank;
每个锚文本对应的外部链接被点击的次数。
B8、一种网页标识确定装置,包括:
处理模块,适于聚合相同统一资源定位符URL的网页,根据指向相同URL网页的一个或多个外部链接以及各个外部链接对应的锚文本,得到各个网页的一个或多个锚文本;
选取模块,适于对于每个网页,选取该网页的一个或多个锚文本中的一个作为该网页的标识。
B9、根据B8所述的装置,其中,在所述处理模块聚合相同URL的网页之前,还包括:
解析模块,适于解析网页抓取器抓取的多个网页,获取各个网页的URL、指向各个网页的外部链接以及各个外部链接对应的锚文本。
B10、根据B8或B9所述的装置,其中,所述处理模块还适于:
对具备相同URL的网页进行聚类,生成多个URL分组;
对于每个URL分组,根据该URL分组中指向各个网页的外部链接以及各个外部链接对应的锚文本,得到各个网页的一个或多个锚文本。
B11、根据B8-B10任一项所述的装置,其中,所述处理模块还适于:
对该URL分组中的锚文本进行聚类,生成一个或多个锚文本分组;
将所述一个或多个锚文本分组各自对应的锚文本作为各个网页的一个或多个锚文本。
B12、根据B8-B11任一项所述的装置,其中,所述选取模块还适于:
确定该网页的一个或多个锚文本中每个锚文本的等级;
选取指定等级的锚文本作为该网页的标识。
B13、根据B8-B12任一项所述的装置,其中,所述选取模块还适于:
获取该网页的一个或多个锚文本中每个锚文本的参数值;
根据获取的所述每个锚文本的参数值,计算所述每个锚文本的等级。
B14、根据B8-B13任一项所述的装置,其中,所述每个锚文本的参数值包括下列至少之一:
每个锚文本对应的外部链接所在网页的总数;
每个锚文本对应的、与该网页的URL同主域的外部链接所在网页的总数;
每个锚文本对应的、与该网页的URL不同主域的外部链接所在网页的总数;
每个锚文本对应的外部链接所在网页的网页等级pagerank;
每个锚文本对应的外部链接被点击的次数。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网页标识的确定装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
Claims (12)
1.一种网页标识确定方法,包括:
解析网页抓取器抓取的多个网页,获取各个网页的URL、指向各个网页的外部链接以及各个外部链接对应的锚文本;其中,指向各个网页的外部链接通过网页抓取器抓取的网页之间的链接关系进行确定;
聚合相同统一资源定位符URL的网页,根据指向相同URL网页的一个或多个外部链接以及各个外部链接对应的锚文本,得到各个网页的一个或多个锚文本;
对于每个网页,选取该网页的一个或多个锚文本中的一个作为该网页的标识。
2.根据权利要求1所述的方法,其中,聚合相同URL的网页,根据指向相同URL网页的一个或多个外部链接以及各个外部链接对应的锚文本,得到各个网页的一个或多个锚文本,包括:
对具备相同URL的网页进行聚类,生成多个URL分组;
对于每个URL分组,根据该URL分组中指向各个网页的外部链接以及各个外部链接对应的锚文本,得到各个网页的一个或多个锚文本。
3.根据权利要求2所述的方法,其中,根据该URL分组中指向各个网页的外部链接以及各个外部链接对应的锚文本,得到各个网页的一个或多个锚文本,包括:
对该URL分组中的锚文本进行聚类,生成一个或多个锚文本分组;
将所述一个或多个锚文本分组各自对应的锚文本作为各个网页的一个或多个锚文本。
4.根据权利要求1-3任一项所述的方法,其中,所述选取该网页的一个或多个锚文本中的一个作为该网页的标识,包括:
确定该网页的一个或多个锚文本中每个锚文本的等级;
选取指定等级的锚文本作为该网页的标识。
5.根据权利要求4所述的方法,其中,所述确定该网页的一个或多个锚文本中每个锚文本的等级,包括:
获取该网页的一个或多个锚文本中每个锚文本的参数值;
根据获取的所述每个锚文本的参数值,计算所述每个锚文本的等级。
6.根据权利要求5所述的方法,其中,所述每个锚文本的参数值包括下列至少之一:
每个锚文本对应的外部链接所在网页的总数;
每个锚文本对应的、与该网页的URL同主域的外部链接所在网页的总数;
每个锚文本对应的、与该网页的URL不同主域的外部链接所在网页的总数;
每个锚文本对应的外部链接所在网页的网页等级pagerank;
每个锚文本对应的外部链接被点击的次数。
7.一种网页标识确定装置,包括:
解析模块,适于解析网页抓取器抓取的多个网页,获取各个网页的URL、指向各个网页的外部链接以及各个外部链接对应的锚文本;其中,指向各个网页的外部链接通过网页抓取器抓取的网页之间的链接关系进行确定;
处理模块,适于聚合相同统一资源定位符URL的网页,根据指向相同URL网页的一个或多个外部链接以及各个外部链接对应的锚文本,得到各个网页的一个或多个锚文本;
选取模块,适于对于每个网页,选取该网页的一个或多个锚文本中的一个作为该网页的标识。
8.根据权利要求7所述的装置,其中,所述处理模块还适于:
对具备相同URL的网页进行聚类,生成多个URL分组;
对于每个URL分组,根据该URL分组中指向各个网页的外部链接以及各个外部链接对应的锚文本,得到各个网页的一个或多个锚文本。
9.根据权利要求8所述的装置,其中,所述处理模块还适于:
对该URL分组中的锚文本进行聚类,生成一个或多个锚文本分组;
将所述一个或多个锚文本分组各自对应的锚文本作为各个网页的一个或多个锚文本。
10.根据权利要求7-9任一项所述的装置,其中,所述选取模块还适于:
确定该网页的一个或多个锚文本中每个锚文本的等级;
选取指定等级的锚文本作为该网页的标识。
11.根据权利要求10所述的装置,其中,所述选取模块还适于:
获取该网页的一个或多个锚文本中每个锚文本的参数值;
根据获取的所述每个锚文本的参数值,计算所述每个锚文本的等级。
12.根据权利要求11所述的装置,其中,所述每个锚文本的参数值包括下列至少之一:
每个锚文本对应的外部链接所在网页的总数;
每个锚文本对应的、与该网页的URL同主域的外部链接所在网页的总数;
每个锚文本对应的、与该网页的URL不同主域的外部链接所在网页的总数;
每个锚文本对应的外部链接所在网页的网页等级pagerank;
每个锚文本对应的外部链接被点击的次数。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410602741.7A CN104317940B (zh) | 2014-10-31 | 2014-10-31 | 网页标识确定方法和装置 |
PCT/CN2015/092949 WO2016066082A1 (zh) | 2014-10-31 | 2015-10-27 | 搜索结果呈现优化方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410602741.7A CN104317940B (zh) | 2014-10-31 | 2014-10-31 | 网页标识确定方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104317940A CN104317940A (zh) | 2015-01-28 |
CN104317940B true CN104317940B (zh) | 2018-07-10 |
Family
ID=52373172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410602741.7A Active CN104317940B (zh) | 2014-10-31 | 2014-10-31 | 网页标识确定方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104317940B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016066082A1 (zh) * | 2014-10-31 | 2016-05-06 | 北京奇虎科技有限公司 | 搜索结果呈现优化方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101226531A (zh) * | 2007-12-28 | 2008-07-23 | 腾讯科技(北京)有限公司 | 一种镜像网页的查找方法及查找系统 |
CN102135967A (zh) * | 2010-01-27 | 2011-07-27 | 华为技术有限公司 | 网页关键词提取方法、装置及系统 |
US8180783B1 (en) * | 2009-05-13 | 2012-05-15 | Softek Solutions, Inc. | Document ranking systems and methods |
CN102663012A (zh) * | 2012-03-20 | 2012-09-12 | 北京搜狗信息服务有限公司 | 一种网页预加载方法及系统 |
CN102880647A (zh) * | 2012-08-24 | 2013-01-16 | 北京百度网讯科技有限公司 | 一种机构别称的获取方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8751218B2 (en) * | 2010-02-09 | 2014-06-10 | Siemens Aktiengesellschaft | Indexing content at semantic level |
-
2014
- 2014-10-31 CN CN201410602741.7A patent/CN104317940B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101226531A (zh) * | 2007-12-28 | 2008-07-23 | 腾讯科技(北京)有限公司 | 一种镜像网页的查找方法及查找系统 |
US8180783B1 (en) * | 2009-05-13 | 2012-05-15 | Softek Solutions, Inc. | Document ranking systems and methods |
CN102135967A (zh) * | 2010-01-27 | 2011-07-27 | 华为技术有限公司 | 网页关键词提取方法、装置及系统 |
CN102663012A (zh) * | 2012-03-20 | 2012-09-12 | 北京搜狗信息服务有限公司 | 一种网页预加载方法及系统 |
CN102880647A (zh) * | 2012-08-24 | 2013-01-16 | 北京百度网讯科技有限公司 | 一种机构别称的获取方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104317940A (zh) | 2015-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104317931B (zh) | 网页标题的确定方法和装置 | |
CN103279538B (zh) | 预加载访问网站中网页的服务器、浏览器客户端和方法 | |
CN103077254B (zh) | 网页获取方法和装置 | |
CN105677654B (zh) | 广告过滤方法及装置 | |
CN103559222B (zh) | 浏览器中显示页面加载时间的方法和装置 | |
CN103873318B (zh) | 一种网站自动化测试方法及自动化测试系统 | |
CN104376114B (zh) | 一种搜索结果展示方法及装置 | |
CN104123363A (zh) | 网页主图提取方法及装置 | |
CN104036003B (zh) | 搜索结果整合方法和装置 | |
CN106354484A (zh) | 一种浏览器兼容方法及浏览器 | |
CN104331438B (zh) | 对小说网页内容选择性抽取方法和装置 | |
CN106776738A (zh) | 一种网页生成、显示方法和装置 | |
CN107832332A (zh) | 在导航搜索框生成推荐词的方法、装置以及电子设备 | |
CN101963992A (zh) | 提高网页显示速度的方法及浏览器 | |
CN106599299A (zh) | 一种网站关键词的确定方法及装置 | |
CN105373533B (zh) | 一种页面链接地址的检测方法、客户端及装置 | |
CN105117434A (zh) | 一种网页分类方法和系统 | |
CN104267941B (zh) | 动态生成响应式网页的方法及装置 | |
CN104331458B (zh) | 以锚文本作为网页标题的方法和装置 | |
CN105183843B (zh) | 列表页识别系统及方法 | |
CN104317940B (zh) | 网页标识确定方法和装置 | |
CN104317929A (zh) | 搜索结果呈现优化方法和装置 | |
CN103227791B (zh) | 一种无线数据采集的方法及装置 | |
CN102929948B (zh) | 列表页识别系统及方法 | |
CN106951405A (zh) | 基于排版引擎的数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220727 Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015 Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd. Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park) Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd. Patentee before: Qizhi software (Beijing) Co.,Ltd. |