CN104317931A - 网页标题的确定方法和装置 - Google Patents

网页标题的确定方法和装置 Download PDF

Info

Publication number
CN104317931A
CN104317931A CN201410602297.9A CN201410602297A CN104317931A CN 104317931 A CN104317931 A CN 104317931A CN 201410602297 A CN201410602297 A CN 201410602297A CN 104317931 A CN104317931 A CN 104317931A
Authority
CN
China
Prior art keywords
anchor text
webpage
different
external linkage
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410602297.9A
Other languages
English (en)
Other versions
CN104317931B (zh
Inventor
魏少俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410602297.9A priority Critical patent/CN104317931B/zh
Publication of CN104317931A publication Critical patent/CN104317931A/zh
Priority to PCT/CN2015/092752 priority patent/WO2016066066A1/zh
Application granted granted Critical
Publication of CN104317931B publication Critical patent/CN104317931B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种网页标题的确定方法和装置,该方法包括:获取指向待确定标题的网页的一个或多个外部链接对应的一个或多个不同的锚文本;从所述一个或多个不同的锚文本中选择一个锚文本作为所述网页的网页标题。本发明实施例从一个或多个不同的锚文本中选择一个锚文本作为该网页的网页标题,能够提供简洁又能准确、客观地概括网页内容的网页标题。

Description

网页标题的确定方法和装置
技术领域
本发明涉及互联网技术领域,特别是一种网页标题的确定方法和装置。
背景技术
网页标题是对一个网页的高度概括,它体现了网页的核心内容。搜索算法通常会对标题中的词赋予更高权重,因而网页标题在SEO(Search EngineOptimization,搜索引擎优化)中非常重要。站长会在网页标题中加入很多关键词,如一些重复或与网页内容不相关的关键词,从而导致标题很长。例如下面这个标题,“Android(安卓)开发视频教程-老罗Android开发视频教程-视频教程-移动开发门户”,而实质上该标题中真正有价值的信息是“老罗Android开发视频教程”。长标题不会对用户的浏览产生实质性影响,然而对于屏幕大小有限的终端(如手机)会导致明显的屏幕显示空间浪费。
相关技术中,搜索引擎对标题进行截断处理,然而截断固定长度效果显然不好。因而,如何提供简洁又能概括网页内容的网页标题成为目前亟待解决的技术问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的网页标题的确定方法和相应的装置。
依据本发明的一个方面,提供了一种网页标题的确定方法,包括:获取指向待确定标题的网页的一个或多个外部链接对应的一个或多个不同的锚文本;从所述一个或多个不同的锚文本中选择一个锚文本作为所述网页的网页标题。
可选地,所述获取指向待确定标题的网页的一个或多个外部链接对应的一个或多个不同的锚文本,包括:解析待确定标题的网页,确定指向所述网页的一个或多个外部链接;获取所述一个或多个外部链接对应的一个或多个不同的锚文本。
可选地,所述一个或多个不同的锚文本中每个锚文本对应一个或多个外部链接。
可选地,获取所述一个或多个外部链接对应的一个或多个不同的锚文本,包括:获取所述一个或多个外部链接中每个外部链接对应的锚文本;对获取的所述一个或多个外部链接中每个外部链接对应的锚文本进行聚类,生成锚文本的多个分组,其中,每个分组中的锚文本相同;将所述多个分组各自对应的锚文本作为所述一个或多个外部链接对应的一个或多个不同的锚文本。
可选地,从所述一个或多个不同的锚文本中选择一个锚文本作为所述网页的网页标题,包括:确定所述一个或多个不同的锚文本中每个锚文本的等级;选择指定等级的锚文本作为所述网页的网页标题。
可选地,确定所述一个或多个不同的锚文本中每个锚文本的等级,包括:获取所述一个或多个不同的锚文本中每个锚文本的参数值;根据获取的所述每个锚文本的参数值,计算所述每个锚文本的等级。
可选地,根据获取的所述每个锚文本的参数值,计算所述每个锚文本的等级,包括:确定所述每个锚文本的参数值各自的权重;对所述每个锚文本的参数值进行加权处理,计算所述每个锚文本的等级。
可选地,所述指定等级为最高等级。
可选地,所述每个锚文本的参数值包括下列至少之一:
每个锚文本对应的外部链接的总数;
每个锚文本对应的、与所述网页的统一资源定位符URL同主域的外部链接所在网页的总数;
每个锚文本对应的、与所述网页的URL不同主域的外部链接所在网页的总数;
每个锚文本对应的外部链接所在网页的网页等级PageRank;
每个锚文本对应的外部链接被点击的次数。
依据本发明的另一个方面,还提供了一种网页标题的确定装置,包括:
获取模块,适于获取指向待确定标题的网页的一个或多个外部链接对应的一个或多个不同的锚文本;
选择模块,适于从所述一个或多个不同的锚文本中选择一个锚文本作为所述网页的网页标题。
可选地,所述获取模块还适于:解析待确定标题的网页,确定指向所述网页的一个或多个外部链接;获取所述一个或多个外部链接对应的一个或多个不同的锚文本。
可选地,所述一个或多个不同的锚文本中每个锚文本对应一个或多个外部链接。
可选地,所述获取模块还适于:获取所述一个或多个外部链接中每个外部链接对应的锚文本;对获取的所述一个或多个外部链接中每个外部链接对应的锚文本进行聚类,生成锚文本的多个分组,其中,每个分组中的锚文本相同;将所述多个分组各自对应的锚文本作为所述一个或多个外部链接对应的一个或多个不同的锚文本。
可选地,所述选择模块还适于:确定所述一个或多个不同的锚文本中每个锚文本的等级;选择指定等级的锚文本作为所述网页的网页标题。
可选地,所述选择模块还适于:获取所述一个或多个不同的锚文本中每个锚文本的参数值;根据获取的所述每个锚文本的参数值,计算所述每个锚文本的等级。
可选地,所述选择模块还适于:确定所述每个锚文本的参数值各自的权重;对所述每个锚文本的参数值进行加权处理,计算所述每个锚文本的等级。
可选地,所述指定等级为最高等级。
可选地,所述每个锚文本的参数值包括下列至少之一:
每个锚文本对应的外部链接的总数;
每个锚文本对应的、与所述网页的统一资源定位符URL同主域的外部链接所在网页的总数;
每个锚文本对应的、与所述网页的URL不同主域的外部链接所在网页的总数;
每个锚文本对应的外部链接所在网页的网页等级PageRank;
每个锚文本对应的外部链接被点击的次数。
依据本发明提供的技术方案,获取指向待确定标题的网页的一个或多个外部链接对应的一个或多个不同的锚文本,进而从一个或多个不同的锚文本中选择一个锚文本作为该网页的网页标题。外部链接对应的锚文本是其他网页对外部链接所指向网页的一种描述,能够准确描述所指向网页的内容。本发明从一个或多个不同的锚文本中选择一个更加合适的锚文本作为网页的网页标题,其对该所指向网页的描述在格式或字数上体现为更加简洁,且不会被加入不相关的关键词,使得对网页的描述更为准确、客观。综上可知,本发明从一个或多个不同的锚文本中选择一个锚文本作为该网页的网页标题,能够提供简洁又能准确、客观地概括网页内容的网页标题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的网页标题的确定方法的流程图;
图2示出了以原本的网页标题作为移动终端(如手机)搜索结果中显示的标题的示意图;
图3示出了采用本发明的以锚文本作为网页标题在移动终端搜索结果中显示的示意图;以及
图4示出了根据本发明一个实施例的网页标题的确定装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为解决上述技术问题,本发明实施例提供了一种网页标题的确定方法,图1示出了根据本发明一个实施例的网页标题的确定方法的流程图。如图1所示,该方法至少包括以下步骤S102至步骤S104。
步骤S102、获取指向待确定标题的网页的一个或多个外部链接对应的一个或多个不同的锚文本。
步骤S104、从一个或多个不同的锚文本中选择一个锚文本作为网页的网页标题。
依据本发明提供的技术方案,获取指向待确定标题的网页的一个或多个外部链接对应的一个或多个不同的锚文本,进而从一个或多个不同的锚文本中选择一个锚文本作为该网页的网页标题。外部链接对应的锚文本是其他网页对外部链接所指向网页的一种描述,能够准确描述所指向网页的内容。本发明从一个或多个不同的锚文本中选择一个更加合适的锚文本作为网页的网页标题,其对该所指向网页的描述在格式或字数上体现为更加简洁,且不会被加入不相关的关键词,使得对网页的描述更为准确、客观。综上可知,本发明从一个或多个不同的锚文本中选择一个锚文本作为该网页的网页标题,能够提供简洁又能准确、客观地概括网页内容的网页标题。
上文步骤S102提及的外部链接是指从别的网站导入到自己网站的链接,且该链接对应的锚文本能够准确描述该链接所指向网页的内容,该锚文本的形式如文本或图片的形式等。举例来说,待确定标题的网页为B网站的网页b,从A网站的链接“B网站的网页b”导入到B网站的网页b,那么A网站的链接“B网站的网页b”可以作为指向待确定标题的网页(即B网站的网页b)的外部链接,这里链接对应的锚文本为“B网站的网页b”,准确描述了B网站的网页b的内容。锚文本“B网站的网页b”的形式可以是以文本形式或图片形式。进一步地,可以通过解析待确定标题的网页,确定指向网页的一个或多个外部链接,进而获取一个或多个外部链接对应的一个或多个不同的锚文本。例如,可以通过解析待确定标题的网页,得到网页抓取器抓取的网页之间的链接关系,进而确定指向网页的一个或多个外部链接,其中,网页抓取器可以是网络爬虫、网页蜘蛛、网络机器人等。
上文步骤S104提及的网页标题可以是搜索结果中显示的标题,或搜索引擎收录网页时记录的标题等。在传统的搜索引擎中,会直接使用网页所在站点的站长或管理员为该网页制作或确定的网页标题(即网页的原本的网页标题)作为搜索结果中显示的标题或搜索引擎收录网页时记录的标题。然而,如前文介绍,由于网页标题在SEO中非常重要,因而站长或管理员会在网页标题中加入很多关键词,导致标题很长。长标题不会对用户的浏览产生实质性影响,而对于屏幕大小有限的终端(如手机)会导致明显的屏幕显示空间浪费。本发明实施例从一个或多个不同的锚文本中选择一个锚文本替代网页的原本的网页标题作为网页的网页标题,能够提供简洁又能准确、客观地概括网页内容的网页标题。
若一个或多个不同的锚文本中每个锚文本对应一个或多个外部链接,本发明提供了一种优选的聚类的方法来获取一个或多个外部链接对应的一个或多个不同的锚文本,在该方案中,可以获取一个或多个外部链接中每个外部链接对应的锚文本,进而对获取的一个或多个外部链接中每个外部链接对应的锚文本进行聚类,生成锚文本的多个分组,其中,每个分组中的锚文本相同。之后将多个分组各自对应的锚文本作为一个或多个外部链接对应的一个或多个不同的锚文本。举例来说,指向待确定标题的网页的一个或多个外部链接为链接1、链接2、链接3、链接4、链接5、链接6,每个链接对应的锚文本分别为锚文本A、锚文本B、锚文本C、锚文本B、锚文本C、锚文本D,此时可以对这些锚文本进行聚类分析,将相同锚文本聚类到一个分组,这样得到多个分组,进而得到的一个或多个不同的锚文本为锚文本A、锚文本B、锚文本C以及锚文本D。
在步骤S102获取指向待确定标题的网页的一个或多个外部链接对应的一个或多个不同的锚文本之后,步骤S104从一个或多个不同的锚文本中选择一个锚文本作为网页的网页标题,可以通过多种方式来实现,如根据锚文本的文本长度或锚文本的等级,下面将详细介绍这两种方式。
方式一,根据锚文本的文本长度从一个或多个不同的锚文本中选择一个锚文本的方式。在方式一中,可以确定一个或多个不同的锚文本中每个锚文本的文本长度,随后从文本长度小于或等于指定长度的锚文本中选择一个锚文本替代原本的网页标题作为网页的网页标题。这里的指定长度可以根据实际情况或需求来确定,如根据呈现搜索结果的终端的尺寸来确定或者将多个锚文本长度的平均值作为指定长度等等。
方式二,根据锚文本的等级从一个或多个不同的锚文本中选择一个锚文本的方式。在方式二中,可以确定一个或多个不同的锚文本中每个锚文本的等级,随后选择指定等级的锚文本作为该网页的网页标题。进一步地,本发明提供了一种优选的确定一个或多个不同的锚文本中每个锚文本的等级的方案,即可以获取一个或多个不同的锚文本中每个锚文本的参数值,进而根据获取的每个锚文本的参数值,计算每个锚文本的等级。这里,每个锚文本的参数值可以是每个锚文本对应的外部链接的总数,每个锚文本对应的、与网页的统一资源定位符URL同主域的外部链接所在网页的总数,每个锚文本对应的、与网页的URL不同主域的外部链接所在网页的总数,每个锚文本对应的外部链接所在网页的网页等级PageRank,每个锚文本对应的外部链接被点击的次数,等等。
由每个锚文本的参数值计算每个锚文本的等级,可以优选地实施为确定每个锚文本的参数值各自的权重,并对每个锚文本的参数值进行加权处理,计算每个锚文本的等级。举例来说,获取一个或多个不同的锚文本中每个锚文本的参数值为P1、P2、P3、P4、P5,分别表示每个锚文本对应的外部链接的总数,每个锚文本对应的、与网页的统一资源定位符URL同主域的外部链接所在网页的总数,每个锚文本对应的、与网页的URL不同主域的外部链接所在网页的总数,每个锚文本对应的外部链接所在网页的网页等级PageRank,每个锚文本对应的外部链接被点击的次数。确定每个锚文本的参数值各自的权重分别为a1、a2、a3、a4、a5,根据每个锚文本的参数值P1、P2、P3、P4、P5以及每个锚文本的参数值各自的权重a1、a2、a3、a4、a5,对每个锚文本的参数值中的一个或多个进行加权处理,得到每个锚文本的等级。
此外,可以对计算得到的每个锚文本的等级进行排序,选择排在最前面的等级(即最高等级)的锚文本作为指定等级的锚文本。
另外,还可以结合上述方式一和方式二来从一个或多个不同的锚文本中选择一个锚文本。例如,首先确定出文本长度小于或等于指定长度的锚文本,然后计算确定出的锚文本的等级,进而选择指定等级的锚文本作为网页的网页标题。又例如,将文本长度作为每个锚文本的参数值,进而计算每个锚文本的等级,进而选择指定等级的锚文本作为网页的网页标题。当然,上述列举仅是示意性的,还可以有其它结合的方式均适用于本发明。
下面通过一具体实施例来详细介绍本发明提供的网页标题的确定方法。该具体实施例是以网页标题为搜索结果中显示的标题为例,图2示出了以原本的网页标题作为移动终端(如手机)搜索结果中显示的标题的示意图,可以发现原本的网页标题“Android开发视频教程-老罗Android开发视频教程-视频教程-移动开发门户”在移动终端上显示过长,导致明显的屏幕显示空间浪费。图3示出了采用本发明的以锚文本作为网页标题在移动终端搜索结果中显示的示意图,从多个锚文本中选择的一个锚文本“老罗Android开发视频教程”替代了原本的网页标题“Android开发视频教程-老罗Android开发视频教程-视频教程-移动开发门户”,使得标题更加简洁而不损失信息,并能够节省屏幕显示空间位置,节省的位置可以展示更多的搜索结果。
基于同一发明构思,本发明实施例还提供了一种网页标题的确定装置,以实现上述网页标题的确定方法。
图4示出了根据本发明一个实施例的网页标题的确定装置的结构示意图。参见图4,该装置至少包括:获取模块410以及选择模块420。
现介绍本发明实施例的网页标题的确定装置的各组成或器件的功能以及各部分间的连接关系:
获取模块410,适于获取指向待确定标题的网页的一个或多个外部链接对应的一个或多个不同的锚文本;
选择模块420,与获取模块410相耦合,适于从一个或多个不同的锚文本中选择一个锚文本作为网页的网页标题。
在一个实施例中,获取模块410还适于:解析待确定标题的网页,确定指向网页的一个或多个外部链接;获取一个或多个外部链接对应的一个或多个不同的锚文本。例如,可以通过解析待确定标题的网页,得到网页抓取器抓取的网页之间的链接关系,进而确定指向网页的一个或多个外部链接,其中,网页抓取器可以是网络爬虫、网页蜘蛛、网络机器人等。
在一个实施例中,一个或多个不同的锚文本中每个锚文本对应一个或多个外部链接。
在一个实施例中,获取模块410还适于通过聚类的方法来获取一个或多个外部链接对应的一个或多个不同的锚文本,即获取一个或多个外部链接中每个外部链接对应的锚文本;对获取的一个或多个外部链接中每个外部链接对应的锚文本进行聚类,生成锚文本的多个分组,其中,每个分组中的锚文本相同;将多个分组各自对应的锚文本作为一个或多个外部链接对应的一个或多个不同的锚文本。
在一个实施例中,选择模块420还适于:确定一个或多个不同的锚文本中每个锚文本的等级;选择指定等级的锚文本作为网页的网页标题。
在一个实施例中,选择模块420还适于:获取一个或多个不同的锚文本中每个锚文本的参数值;根据获取的每个锚文本的参数值,计算每个锚文本的等级。
在一个实施例中,选择模块420还适于:确定每个锚文本的参数值各自的权重;对每个锚文本的参数值进行加权处理,计算每个锚文本的等级。
在一个实施例中,指定等级为最高等级。可以对计算得到的每个锚文本的等级进行排序,选择排在最前面的等级(即最高等级)的锚文本作为指定等级的锚文本。
在一个实施例中,每个锚文本的参数值包括下列至少之一:
每个锚文本对应的外部链接的总数;
每个锚文本对应的、与网页的统一资源定位符URL同主域的外部链接所在网页的总数;
每个锚文本对应的、与网页的URL不同主域的外部链接所在网页的总数;
每个锚文本对应的外部链接所在网页的网页等级PageRank;
每个锚文本对应的外部链接被点击的次数。
根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能够达到如下有益效果:
依据本发明提供的技术方案,获取指向待确定标题的网页的一个或多个外部链接对应的一个或多个不同的锚文本,进而从一个或多个不同的锚文本中选择一个锚文本作为该网页的网页标题。外部链接对应的锚文本是其他网页对外部链接所指向网页的一种描述,能够准确描述所指向网页的内容。本发明从一个或多个不同的锚文本中选择一个更加合适的锚文本作为网页的网页标题,其对该所指向网页的描述在格式或字数上体现为更加简洁,且不会被加入不相关的关键词,使得对网页的描述更为准确、客观。综上可知,本发明从一个或多个不同的锚文本中选择一个锚文本作为该网页的网页标题,能够提供简洁又能准确、客观地概括网页内容的网页标题。
本发明还公开了:
A1、一种网页标题的确定方法,包括:
获取指向待确定标题的网页的一个或多个外部链接对应的一个或多个不同的锚文本;
从所述一个或多个不同的锚文本中选择一个锚文本作为所述网页的网页标题。
A2、根据A1所述的方法,其中,所述获取指向待确定标题的网页的一个或多个外部链接对应的一个或多个不同的锚文本,包括:
解析待确定标题的网页,确定指向所述网页的一个或多个外部链接;
获取所述一个或多个外部链接对应的一个或多个不同的锚文本。
A3、根据A1-A2任一项所述的方法,其中,所述一个或多个不同的锚文本中每个锚文本对应一个或多个外部链接。
A4、根据A1-A3任一项所述的方法,其中,获取所述一个或多个外部链接对应的一个或多个不同的锚文本,包括:
获取所述一个或多个外部链接中每个外部链接对应的锚文本;
对获取的所述一个或多个外部链接中每个外部链接对应的锚文本进行聚类,生成锚文本的多个分组,其中,每个分组中的锚文本相同;
将所述多个分组各自对应的锚文本作为所述一个或多个外部链接对应的一个或多个不同的锚文本。
A5、根据A1-A4任一项所述的方法,其中,从所述一个或多个不同的锚文本中选择一个锚文本作为所述网页的网页标题,包括:
确定所述一个或多个不同的锚文本中每个锚文本的等级;
选择指定等级的锚文本作为所述网页的网页标题。
A6、根据A1-A5任一项所述的方法,其中,确定所述一个或多个不同的锚文本中每个锚文本的等级,包括:
获取所述一个或多个不同的锚文本中每个锚文本的参数值;
根据获取的所述每个锚文本的参数值,计算所述每个锚文本的等级。
A7、根据A1-A6任一项所述的方法,其中,根据获取的所述每个锚文本的参数值,计算所述每个锚文本的等级,包括:
确定所述每个锚文本的参数值各自的权重;
对所述每个锚文本的参数值进行加权处理,计算所述每个锚文本的等级。
A8、根据A1-A7任一项所述的方法,其中,所述指定等级为最高等级。
A9、根据A1-A8任一项所述的方法,其中,所述每个锚文本的参数值包括下列至少之一:
每个锚文本对应的外部链接的总数;
每个锚文本对应的、与所述网页的统一资源定位符URL同主域的外部链接所在网页的总数;
每个锚文本对应的、与所述网页的URL不同主域的外部链接所在网页的总数;
每个锚文本对应的外部链接所在网页的网页等级PageRank;
每个锚文本对应的外部链接被点击的次数。
B10、一种网页标题的确定装置,包括:
获取模块,适于获取指向待确定标题的网页的一个或多个外部链接对应的一个或多个不同的锚文本;
选择模块,适于从所述一个或多个不同的锚文本中选择一个锚文本作为所述网页的网页标题。
B11、根据B10所述的装置,其中,所述获取模块还适于:
解析待确定标题的网页,确定指向所述网页的一个或多个外部链接;
获取所述一个或多个外部链接对应的一个或多个不同的锚文本。
B12、根据B10-B11任一项所述的装置,其中,所述一个或多个不同的锚文本中每个锚文本对应一个或多个外部链接。
B13、根据B10-B12任一项所述的装置,其中,所述获取模块还适于:
获取所述一个或多个外部链接中每个外部链接对应的锚文本;
对获取的所述一个或多个外部链接中每个外部链接对应的锚文本进行聚类,生成锚文本的多个分组,其中,每个分组中的锚文本相同;
将所述多个分组各自对应的锚文本作为所述一个或多个外部链接对应的一个或多个不同的锚文本。
B14、根据B10-B13任一项所述的装置,其中,所述选择模块还适于:
确定所述一个或多个不同的锚文本中每个锚文本的等级;
选择指定等级的锚文本作为所述网页的网页标题。
B15、根据B10-B14任一项所述的装置,其中,所述选择模块还适于:
获取所述一个或多个不同的锚文本中每个锚文本的参数值;
根据获取的所述每个锚文本的参数值,计算所述每个锚文本的等级。
B16、根据B10-B15任一项所述的装置,其中,所述选择模块还适于:
确定所述每个锚文本的参数值各自的权重;
对所述每个锚文本的参数值进行加权处理,计算所述每个锚文本的等级。
B17、根据B10-B16任一项所述的装置,其中,所述指定等级为最高等级。
B18、根据B10-B17任一项所述的装置,其中,所述每个锚文本的参数值包括下列至少之一:
每个锚文本对应的外部链接的总数;
每个锚文本对应的、与所述网页的统一资源定位符URL同主域的外部链接所在网页的总数;
每个锚文本对应的、与所述网页的URL不同主域的外部链接所在网页的总数;
每个锚文本对应的外部链接所在网页的网页等级PageRank;
每个锚文本对应的外部链接被点击的次数。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网页标题的确定装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

Claims (10)

1.一种网页标题的确定方法,包括:
获取指向待确定标题的网页的一个或多个外部链接对应的一个或多个不同的锚文本;
从所述一个或多个不同的锚文本中选择一个锚文本作为所述网页的网页标题。
2.根据权利要求1所述的方法,其中,所述获取指向待确定标题的网页的一个或多个外部链接对应的一个或多个不同的锚文本,包括:
解析待确定标题的网页,确定指向所述网页的一个或多个外部链接;
获取所述一个或多个外部链接对应的一个或多个不同的锚文本。
3.根据权利要求1-2任一项所述的方法,其中,所述一个或多个不同的锚文本中每个锚文本对应一个或多个外部链接。
4.根据权利要求1-3任一项所述的方法,其中,获取所述一个或多个外部链接对应的一个或多个不同的锚文本,包括:
获取所述一个或多个外部链接中每个外部链接对应的锚文本;
对获取的所述一个或多个外部链接中每个外部链接对应的锚文本进行聚类,生成锚文本的多个分组,其中,每个分组中的锚文本相同;
将所述多个分组各自对应的锚文本作为所述一个或多个外部链接对应的一个或多个不同的锚文本。
5.根据权利要求1-4任一项所述的方法,其中,从所述一个或多个不同的锚文本中选择一个锚文本作为所述网页的网页标题,包括:
确定所述一个或多个不同的锚文本中每个锚文本的等级;
选择指定等级的锚文本作为所述网页的网页标题。
6.根据权利要求1-5任一项所述的方法,其中,确定所述一个或多个不同的锚文本中每个锚文本的等级,包括:
获取所述一个或多个不同的锚文本中每个锚文本的参数值;
根据获取的所述每个锚文本的参数值,计算所述每个锚文本的等级。
7.根据权利要求1-6任一项所述的方法,其中,根据获取的所述每个锚文本的参数值,计算所述每个锚文本的等级,包括:
确定所述每个锚文本的参数值各自的权重;
对所述每个锚文本的参数值进行加权处理,计算所述每个锚文本的等级。
8.根据权利要求1-7任一项所述的方法,其中,所述指定等级为最高等级。
9.根据权利要求1-8任一项所述的方法,其中,所述每个锚文本的参数值包括下列至少之一:
每个锚文本对应的外部链接的总数;
每个锚文本对应的、与所述网页的统一资源定位符URL同主域的外部链接所在网页的总数;
每个锚文本对应的、与所述网页的URL不同主域的外部链接所在网页的总数;
每个锚文本对应的外部链接所在网页的网页等级PageRank;
每个锚文本对应的外部链接被点击的次数。
10.一种网页标题的确定装置,包括:
获取模块,适于获取指向待确定标题的网页的一个或多个外部链接对应的一个或多个不同的锚文本;
选择模块,适于从所述一个或多个不同的锚文本中选择一个锚文本作为所述网页的网页标题。
CN201410602297.9A 2014-10-31 2014-10-31 网页标题的确定方法和装置 Active CN104317931B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410602297.9A CN104317931B (zh) 2014-10-31 2014-10-31 网页标题的确定方法和装置
PCT/CN2015/092752 WO2016066066A1 (zh) 2014-10-31 2015-10-23 以锚文本作为网页标题的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410602297.9A CN104317931B (zh) 2014-10-31 2014-10-31 网页标题的确定方法和装置

Publications (2)

Publication Number Publication Date
CN104317931A true CN104317931A (zh) 2015-01-28
CN104317931B CN104317931B (zh) 2018-04-17

Family

ID=52373163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410602297.9A Active CN104317931B (zh) 2014-10-31 2014-10-31 网页标题的确定方法和装置

Country Status (1)

Country Link
CN (1) CN104317931B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016066066A1 (zh) * 2014-10-31 2016-05-06 北京奇虎科技有限公司 以锚文本作为网页标题的方法和装置
CN105574175A (zh) * 2015-12-21 2016-05-11 北京奇虎科技有限公司 优化搜索结果标题的处理方法及装置
CN105630909A (zh) * 2015-12-21 2016-06-01 北京奇虎科技有限公司 规范化的标题信息展示方法及装置
CN106156100A (zh) * 2015-04-02 2016-11-23 阿里巴巴集团控股有限公司 一种网页标题处理方法和装置
CN106503002A (zh) * 2015-09-07 2017-03-15 张晓晔 一种以若干标签替代标题显示商品主要信息的方法
CN106708813A (zh) * 2015-07-14 2017-05-24 阿里巴巴集团控股有限公司 一种标题处理方法及设备
CN110399526A (zh) * 2019-07-26 2019-11-01 腾讯科技(深圳)有限公司 视频标题的生成方法、装置和计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101383782A (zh) * 2008-10-16 2009-03-11 深圳市迅雷网络技术有限公司 一种获取网络资源标识的方法及系统
CN101986297B (zh) * 2010-10-28 2012-02-15 浙江大学 基于链接聚类的无障碍网页浏览方法
US8738643B1 (en) * 2007-08-02 2014-05-27 Google Inc. Learning synonymous object names from anchor texts

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8738643B1 (en) * 2007-08-02 2014-05-27 Google Inc. Learning synonymous object names from anchor texts
CN101383782A (zh) * 2008-10-16 2009-03-11 深圳市迅雷网络技术有限公司 一种获取网络资源标识的方法及系统
CN101986297B (zh) * 2010-10-28 2012-02-15 浙江大学 基于链接聚类的无障碍网页浏览方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016066066A1 (zh) * 2014-10-31 2016-05-06 北京奇虎科技有限公司 以锚文本作为网页标题的方法和装置
CN106156100A (zh) * 2015-04-02 2016-11-23 阿里巴巴集团控股有限公司 一种网页标题处理方法和装置
CN106156100B (zh) * 2015-04-02 2019-09-03 阿里巴巴集团控股有限公司 一种网页标题处理方法和装置
CN106708813A (zh) * 2015-07-14 2017-05-24 阿里巴巴集团控股有限公司 一种标题处理方法及设备
CN106503002A (zh) * 2015-09-07 2017-03-15 张晓晔 一种以若干标签替代标题显示商品主要信息的方法
CN105574175A (zh) * 2015-12-21 2016-05-11 北京奇虎科技有限公司 优化搜索结果标题的处理方法及装置
CN105630909A (zh) * 2015-12-21 2016-06-01 北京奇虎科技有限公司 规范化的标题信息展示方法及装置
CN110399526A (zh) * 2019-07-26 2019-11-01 腾讯科技(深圳)有限公司 视频标题的生成方法、装置和计算机可读存储介质

Also Published As

Publication number Publication date
CN104317931B (zh) 2018-04-17

Similar Documents

Publication Publication Date Title
CN104317931A (zh) 网页标题的确定方法和装置
CN110222251B (zh) 一种基于网页分割和搜索算法的服务包装方法
CN105956161A (zh) 一种信息推荐方法和装置
CN103617191A (zh) 使用硬件加速实现浏览器渲染的方法和浏览器
CN102999619A (zh) 实现搜索的移动终端、服务器和方法
CN102982156A (zh) 移动终端中实现搜索的系统和方法
CN105260421A (zh) 网页加载方法及装置
CN104462471A (zh) 提供细分搜索结果的方法和装置
CN104699845A (zh) 基于提问类搜索词的搜索结果提供方法及装置
CN103714116A (zh) 网页信息提取方法及设备
CN103942264A (zh) 推送包含新闻信息的网页的方法和装置
CN104331438A (zh) 对小说网页内容选择性抽取方法和装置
CN103544271B (zh) 一种浏览器中加载图片处理窗口的方法和装置
CN105630927A (zh) 链接生成方法和装置
CN103226574A (zh) 信息搜索方法及装置
CN104317929A (zh) 搜索结果呈现优化方法和装置
CN105183888A (zh) 基于浏览器的数据处理方法和浏览器
CN104331458A (zh) 以锚文本作为网页标题的方法和装置
CN105183887A (zh) 基于浏览器的数据处理方法和浏览器装置
CN104715067A (zh) 在网页上标注关键词的方法、装置、系统和浏览器客户端
CN105808623A (zh) 一种基于搜索的页面访问事件关联方法和装置
CN104317930A (zh) 终端搜索的呈现优化方法和装置
CN112749351A (zh) 链接地址确定方法、装置、计算机可读存储介质及设备
CN102902791B (zh) 网页分类存储系统及方法
CN104392009A (zh) 获取移动站点链接地址的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220713

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.