CN104699837B - 网页配图选取方法、装置及服务器 - Google Patents

网页配图选取方法、装置及服务器 Download PDF

Info

Publication number
CN104699837B
CN104699837B CN201510149193.1A CN201510149193A CN104699837B CN 104699837 B CN104699837 B CN 104699837B CN 201510149193 A CN201510149193 A CN 201510149193A CN 104699837 B CN104699837 B CN 104699837B
Authority
CN
China
Prior art keywords
picture
webpage
link
relevance
angle value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510149193.1A
Other languages
English (en)
Other versions
CN104699837A (zh
Inventor
全亮亮
陈营营
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510149193.1A priority Critical patent/CN104699837B/zh
Publication of CN104699837A publication Critical patent/CN104699837A/zh
Application granted granted Critical
Publication of CN104699837B publication Critical patent/CN104699837B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页配图选取方法、装置及服务器。其中,所述方法包括:从第一网页中提取链接图片,所述链接图片为被触发后跳转至第二链接地址的图片;确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度;当所述内容关联度符合设定条件时,将所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图。本发明实施例是基于链接图片和与其链接的网页的内容相关性概率较大的思想,将链接图片作为与其链接的网页的配图,可有效的提升网页和图片的相关性,解决类似网页中没有图片或者图片质量不高的低召回问题;此外,对于页面中不包含图片的网页,采用本发明实施例提供的技术方案也能够通过外链图片找到它的相关图片。

Description

网页配图选取方法、装置及服务器
技术领域
本发明涉及一种计算机领域,特别是涉及一种网页配图选取方法、装置及服务器。
背景技术
网页相关图片挖掘就是找出最能表达网页内容的图片,可以应用在搜索结果配图上,例如图1所示的,搜索词“苹果”的搜索结果列表中第一项结果配有图片。在搜索结果列表中,一个好的配图可以让用户一眼就能够知道网页所要表达的意思,很多时候,图片表达的含义远远超过大段的文字信息,展示图文并茂的搜索结果更能够吸引用户的点击。
现有的技术方案是从给定网页中抽取相关度最高的图片作为该网页的配图。如图2所示,网页A中包含图片1、图片2…图片n,那么现有技术的方案就是从图片1到n中找出与网页内容最相关的图片作为网页A的相关图片。
现有技术的前提条件是网页中必须有配图,如果网页中本身没有配图,那么就没办法为网页配图了,致使现有搜索结果配图的覆盖率较低。如图1所示的搜索结果中有些网页就没有配图。此外,如果网页中有多幅图片,而这些图片(如广告图片)都与网页不相关,采用现有技术提供的方法找出的图片并不能表达网页内容,极易误导用户,适得其反。由此可知,如果网页自身配图不相关或者主体配图不明确或者网页本身没有配图,现有技术所提供的方法将不再适用。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的网页配图选取方法、装置及服务器。
依据本发明一个方面,提供了一种网页配图选取方法,包括:
从第一网页中提取链接图片,所述链接图片为被触发后跳转至第二链接地址的图片;
确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度;
当所述内容关联度符合设定条件时,将所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图。
依据本发明另一个方面,提供了一种网页配图选取装置,包括:
提取模块,用于从第一网页中提取链接图片,所述链接图片为被触发后跳转至第二链接地址的图片;
确定模块,用于确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度;
处理模块,用于当所述内容关联度符合设定条件时,将所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图。
依据本发明另一个方面,提供了一种服务器,包括网页配图选取装置;其中,
所述网页配图选取装置,用于:
从第一网页中提取链接图片,所述链接图片为被触发后跳转至第二链接地址的图片;
确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度;
当所述内容关联度符合设定条件时,将所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明实施例提供的技术方案通过提取网页中的链接图片,然后在确定出链接图片和与其链接的网页的内容关联度符合设定条件时,将链接图片作为与其链接的网页的配图,即本发明实施例是基于链接图片和与其链接的网页的内容相关性概率较大的思想,将链接图片作为与其链接的网页的配图,可有效的提升网页和图片的相关性,解决类似网页中没有图片或者图片质量不高的低召回问题;此外,对于页面中不包含图片的网页,采用本发明实施例提供的技术方案也能够通过外链图片找到它的相关图片。总之,本发明实施例提供的技术方案能有效的提升搜索结果中配图的准确率及覆盖率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了现有技术中搜索结果界面的示例图;
图2示出了现有技术中网页中包含多个图片的原理性示例图;
图3示出了本发明实施例一提供的网页配图选取方法的流程图;
图4示出了本发明实施例二提供的网页配图选取方法的流程图;
图5示出了本发明实施例三提供的网页配图选取装置的组成框图;
图6本实施例四提供的所述服务器的一种实现结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明的基本思想:
对于网页中的图片,通常一张带有链接的图片,点击这张链接图片会跳转到另一个网页,那么这张图片就有很大可能性是和其跳转到的另一个网页是相关的。基于上述思想,本发明提供了如下几个实施例。
如图3所示,本发明实施例一提供的网页配图选取方法的流程图。本实施例一提供的网页配图选取方法,包括:
步骤101、从第一网页中提取链接图片,所述链接图片为被触发后跳转至第二链接地址的图片。
其中,链接也称超级链接,是指从一个网页指向一个目标的连接关系,所指向的目标可以是另一个网页,也可以是相同网页上的不同位置,还可以是图片、电子邮件地址、文件、甚至是应用程序。在本实施例中所指的链接图片,是指从一个图片指向一个目标的连接关系,所述指向的目标为一个网页。
步骤102、确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度。
虽然基于本发明的思想,绝大多数链接图片很大可能性是和其被触发后跳转到的链接地址对应的网页是相关的。但还是存在少数链接图片与其跳转到的网页的相关性较低的情况,因此,本实施例为了进一步的提高配图的准确率,在将所述链接图片作为所述第二网页的链接地址在搜索结果中展现的摘要配图之前,需确定链接图片与第二网页之间的内容关联度。其中,确定所述链接图片与所述第二网页之间的内容关联度可采用多种策略实现。本实施例提供了以下几种实现策略,但本发明不仅限于此。在具体实施时,还可基于网页分析等进一步完善得到更多更好的改进策略。
策略一、
本步骤102、确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度,可采用如下方法实现:
首先,统计网页库中与所述链接图片存在链接关系的网页的数量。
然后,根据所述与所述链接图片存在链接关系的网页的数量,确定所述链接图片与所述第二网页的内容关联度。
在具体实施时,本实施例中链接图片与第二网页的内容关联度可采用内容关联度值来表征。即本实施例中所述内容关联度表征为内容关联度值。相应的,上述“根据所述与所述链接图片存在链接关系的网页的数量,确定所述链接图片与所述第二网页的内容关联度”,可具体采用如下方法实现:
根据所述与所述链接图片存在链接关系的网页的数量,确定第一权重值;
将预置内容关联度值更新为所述预置内容关联度值与所述第一权重值之差,将更新后的所述预置内容关联度值作为所述链接图片与所述第二网页的内容关联度值。
其中,预置内容关联度值为预先为每一个链接图片与其被触发后跳转至链接地址对应的网页设置的初始值。每一个链接图片与其被触发后跳转至链接地址对应的网页的预置内容关联度值可以相同,也可不同。此外,在实际应用中,可对不同的与所述链接图片存在链接关系的网页的数量赋予对应的权重值,然后采用对应关系列表的方式预先进行存储。例如,数量为1,第一权重值为0;数量为2,第一权重值为3,......或者,可以是一个区间,如数量为1~3,权重值为1;数量为4~8,权重值为5,……然后通过列表查询的方式根据网页的数量确定出上述的第一权重值。即,根据预设的第一网页数量与第一权重值的对应关系,获取所述与所述链接图片存在链接关系的网页的数量对应的第一权重值。当然,上述方案只是在实际应用中可采用的一种实现方案,本实施例对于如何根据网页的数量确定第一权重值的实现方案不作具体限定。
策略二、
本步骤102、确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度,可采用如下方法实现:
首先,统计网页库中包含有所述链接图片,且所述链接图片被触发后跳转至的链接地址对应的网页为所述第二网页的网页的数量;
然后,根据包含有所述链接图片,且所述链接图片被触发后跳转至的链接地址对应的网页为所述第二网页的网页的数量,确定所述链接图片与所述第二网页的内容关联度。
同样的,所述链接图片与所述第二网页的内容关联度可表征为内容关联度值。相应的,步骤“根据包含有所述链接图片,且所述链接图片被触发后跳转至的链接地址对应的网页为所述第二网页的网页的数量,确定所述链接图片与所述第二网页的内容关联度”,可具体采用如下方法实现:
根据包含有所述链接图片,且所述链接图片被触发后跳转至的链接地址对应的网页为所述第二网页的网页的数量,确定第二权重值;
将预置内容关联度值更新为所述预置内容关联度值与所述第二权重值之和,将更新后的所述预置内容关联度值作为所述链接图片与所述第二网页的内容关联度值。
同上,预置内容关联度值为预先为每一个链接图片与其被触发后跳转至链接地址对应的网页设置的初始值。另外,不同的网页的数量可为其赋予对应的第二权重值,网页的数量和其对应的第二权重值也可采用对应关系列表的方式预先存储在设定存储区。即,根据预设的第二网页数量与第二权重值的对应关系,获取所述包含有所述链接图片,且所述链接图片被触发后跳转至的链接地址对应的网页为所述第二网页的网页的数量对应的第二权重值。同样的,本实施例对于如何根据网页的数量确定第二权重值的实现方案不作具体限定。
策略一和策略二类似于Pagerank的思想,通过链接图片的链接网页数量和/或链接图片以及其链接至的第二网页出现在其他网页的网页数量来为链接图片与第二网页贡献内容关联度值的。比如,如果同一链接图片链接至多个不同的网页,那么对于各网页来说这个链接图片与其的内容关联度就比较低;如果链接图片和第二网页在多个其他网页中都出现过,那么说明这个链接图片与第二网页的内容关联度比较高。
其中,上述Pagerank是Google排名运算法则(排名公式)的一部分,是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准。在揉合了诸如Title标识和Keywords标识等所有其它因素之后,Google通过PageRank来调整结果,使那些更具“等级/重要性”的网页在搜索结果中令网站排名获得提升,从而提高搜索结果的相关性和质量。
策略三、
本步骤102、确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度,可采用如下方法实现:
首先,获取所述第一网页的网络地址。
然后,根据所述第一网页的网络地址,判断所述第一网页的网页类型;
最后,根据所述第一网页的网页类型,确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度。
策略三的主要思想是:一般来说,由网站编辑给各链接配的图片与目标网页的相关性较高,而网站用户贡献的图片链接随意性较大,可信度相对较低。比如对于新闻页面中出现的链接图片以及其链接至的另一个网页的内容关联度比较大;相反,对于bbs和blog等UGC类页面中出现的链接图片以及其链接至的另一个网页的内容关联度就比较小。
其中,UGC是“User Generated Content”的缩写,中文可译为“用户生产内容”,即网友将自己DIY的内容通过互联网平台进行展示或者提供给其他用户。
上述网络地址可以是网页的URL(Uniform Resource Locator,统一资源定位符)。URL是用于完整描述因特网(Internet)上网页和其他资源的地址的一种标识方法。Internet上的每一个网页都具有一个唯一的名称标识,通常称之为URL地址,这种地址可以是本地磁盘,也可以是局域网上的某一台计算机。更多的是Internet上的站点,简单的说,URL就是网页的网页地址(Web地址),俗称“网址”。
URL可以仅包括主路径,也可以是主路径和子路径的结合。以一个包括主路径和子路径的URL为例,通常包括地址前缀、地址后缀、子路径(一级路径、二级路径等)和叶子。其中,地址前缀、地址后缀和子路径的命名一般是根据网页的内容来定义的,一个具体的URL为例进行说明:
例如,URL:www.sports.sina.com.cn/football/china/xxx.1.htm,该URL对应的主路径为www.sports.sina.com.cn,其中,sports为地址前缀,.com为地址后缀,football为一级路径、china为二级路径,xxx.1为叶子。
表1为地址前缀分类库的一个列表。如图表1所示,地址前缀分类库中例如包括以下信息项:
表1为地址前缀分类库的一个列表
网页类型 地址前缀 网页类型 地址前缀
新闻 news 论坛 bbs
体育 Sports 游戏 game
军事 mil,war 科技 tech
财经 finance 汽车 auto
股票 stock 小说 book
在线视频 video 教育 edu
博客 bokee,blog 商业 mall
常见的URL的地址后缀及其含义例如为:
.com:Commercial organizations,商业组织,公司;
.net:network operations and service centers,网络服务商;
.org:other organizations,非盈利组织;
.int:international organizations,国际组织;
.edu:educational institutions,教研机构;
.gov:governmental entities,政府部门;
.info:information,提供信息服务的企业。
基于本策略二的思想,对于政府部门、教育机构等提供的网页中出现的链接图片以及其链接至的另一个网页的内容关联度比较大。
由此,本策略三中“根据所述第一网页的网页类型,确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度”,可采用如下方案实现:
根据预设的网页类型和内容关联度值的对应关系,获取所述第一网页的网页类型对应的内容关联度值,采用获取到的所述内容关联度值表征所述链接图片与所述第二链接地址对应的第二网页的内容关联度。
其中,所述网页类型和内容关联度值的对应关系可采用列表的方式存储在设定存储区域内。不同网络类型对应的内容关联度值可人为设定。同样的,上述方案只是一种可实现方案,本实施例对于如何根据网页类型确定内容关联度值的实现方案不作具体限定。
策略四、
本步骤102、确定所述链接图片与所述第二网页的内容关联度,可采用如下方法实现:
首先,对所述链接图片与所述第二网页进行聚合处理,得到聚合参数。
然后,统计具有所述聚合参数的链接图片和网页对的数量。
最后,根据所述具有所述聚合参数的链接图片和网页对的数量,确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度。
策略三的主要思想是:首先对所述链接图片与所述第二网页提pattern之后进行聚合,得到聚合参数pattern pair;然后计算出聚合参数pattern pair包含的链接图片和网页对的数量,得到其聚合值;那么聚合值越高的pattern pair可信度越高,聚合值越低的pattern pair可信度越低。
这里需要说明的是:上面提到的网页库为搜索引擎对应的网页数据库。例如用户在客户端浏览器中输入检索式后,提交给服务端的搜索引擎,搜索引擎根据所述搜索式从网页数据库中搜索出匹配网页。一般来说,若搜索成功,搜索出匹配网页包括多个。
步骤103、当所述内容关联度符合设定条件时,将所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图。
在具体实施时,所述内容关联度可通过数值来表征,也可通过关联标识(如“关联”或“不关联”)来表征。其中,当所述内容关联度表征为内容关联度值时,可通过判断内容关联度值是否大于设定阈值,来得出所述内容关联度是否符合设定条件。如,当所述内容关联度值大于设定阈值时,所述内容关联度符合设定条件;否则当所述内容关联度值小于或等于设定阈值时,所述内容关联度不符合设定条件。当所述内容关联度表征为关联标识时,即标识为“关联”时,所述内容关联度符合设定条件;标识为“不关联”时,所述内容关联度不符合设定条件。这里需要说明的是:上面提到的设定阈值可是经验值,也可采用如下方法获得:
首先,获取已确定出的多个不同链接图片与其被触发后跳转至链接地址对应的网页的内容关联度值;
然后,根据已确定出的多个所述内容关联度值,得出判定值;
其中,所述判定值作为所述设定阈值。例如,在多个所述内容关联度值中选取出一个较为合理的值作为判定值。
本实施例提供的技术方案通过提取网页中的链接图片,然后在确定出链接图片和与其链接的网页的内容关联度符合设定条件时,将链接图片作为与其链接的网页的配图,即本实施例是基于链接图片和与其链接的网页的内容相关性概率较大的思想,将链接图片作为与其链接的网页的配图,可有效的提升网页和图片的相关性,解决类似网页中没有图片或者图片质量不高的低召回问题;此外,对于页面中不包含图片的网页,采用本实施例提供的技术方案也能够通过外链图片找到它的相关图片。总之,本实施例提供的技术方案能有效的提升搜索结果中配图的准确率及覆盖率。
在实际应用中还存在少数这样的图片,如图标图片(如按钮图片(button)、ICON图标、菜单(menu)图标等等),论坛或博客头像类图片、模板站点类图片等等,与其跳转到的另一个网页的相关性较低,链接图片本身就比较低。对于这类图片可预先采用过滤的方式,将上述质量较低的图片过滤掉,以减少后续步骤的计算量。本发明实施例给出了如下实现方法,即本实施例一还包括如下步骤:
步骤104、判断所述链接图片是否为符合预设判定条件的高质量图片。
当所述链接图片为高质量图片时,再确定所述链接图片与所述第二网页的内容关联度。即执行了本步骤104后,再执行步骤102。
在具体实施时,上述步骤:判断所述链接图片是否为符合预设判定条件的高质量图片,可由如下方法实现:
识别所述链接图片的图片类型,将所述链接图片的图片类型与预设图片类型列表中包含的各图片类型进行比对;
和/或
获取所述链接的图片尺寸,判断所述图片尺寸是否符合设定配图尺寸要求;
和/或
获取所述第一网页及第二网页的网络地址,并判断所述第一网页及第二网页的网络地址是否具有相同的站点主域名;
若预设的图片类型列表中不包含与所述链接图片的图片类型相同的图片类型,和/或所述图片尺寸符合设定配图尺寸要求,和/或所述第一网页及第二网页的网络地址具有相同的站点主域名,则所述链接图片为高质量图片。
其中,所述预设图片类型列表包含有如下的任一项或多项:图标图片类型、头像类图片类型和模板站点图片类型。网络地址可以是网页的URL。
进一步的,所述将所述链接图片作为所述第二网页在搜索结果中的配图之前,还包括:
获取所述链接图片的图片尺寸;
判断所述图片尺寸是否符合设定配图尺寸要求;
相应的,所述将所述链接图片作为所述第二网页在搜索结果中的配图,具体为:
当判断出所述图片尺寸不符合预设配图尺寸要求时,对所述链接图片进行裁剪或缩放,将裁剪或缩放后的所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图;
当判断出所述图片尺寸符合预设配图尺寸要求时,将所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图。
进一步的,本实施例一提供的所述方法中,在为第二网页选定好配图后,可采用如下步骤将第二网页和配图添加到索引库中,以便于后续搜索结果的处理。该步骤具体为:
将所述第二网页的网页标识以及作为摘要配图的所述链接图片的图片标识作为索引记录添加到索引库中。
上述实施例一原理性的对本发明提供的技术方案进行了说明。下面本发明实施例二从实际应用的角度对本发明提供的技术方案作进一步的说明,以帮助理解本发明。如图4所示,本发明实施例二提供的网页配图选取方法的流程图。本实施例二提供的所述方法,包括:
步骤201、从网页库中对每个网页进行图片链接的抽取,抽取出如下三元组:
(img_URL,page_base_URL,page_URL)
其中,img_URL表示链接图片URL;page_base_URL表示抽取该img_URL的原始网页的URL;page_URL是img_URL链接到的网页的URL。
步骤202、对抽取出的三元组进行过滤处理。
首先、根据page_base_URL和page_URL进行过滤。
这里需要说明的是:限定page_base_URL和page_URL的domain(域)必须是相同的,即,认为同一个主域内的图片链接质量较高,跨域的图片链接质量较低。
然后,根据img_URL进行过滤。
滤除包含有下列几类图片的三元组:
a.图标图片,如button、icon、menu等
b.论坛或者博客头像类图片
c.一些模板站点的相关图片
步骤203、确定过滤后剩余的三元组中的(img_URL,page_URL)的内容关联度。
策略一、
同一img_url对应多个不同的page_url,那么这些(img_url,page_url)二元组可信度较低。
策略二、
(img_url,page_url)这个二元组在多个page_base_url中都出现过,那么这个二元组的可信度相对就比较高。
策略三、
首先,确定page_base_URL的网页类型,得出如下二元组:
(page_base_URL,class)
其中,class表示网页类型,如新闻、博客、bbs等;
然后,根据page_base_URL的网页类型,确定(img_URL,page_base_URL,page_URL)中(img_URL,page_URL)的内容关联度。一般来说,由网站编辑给各链接配的图片与目标网页的相关性较高,而网站用户贡献的图片链接随意性较大,可信度相对较低。比如对于新闻页面中出现的(img_url,page_url)可信度就比较大;相反,对于bbs和blog等ugc类页面中出现的(img_url,page_url)可信度相对就比较小。
策略四、
首先对(img_url,page_url)这个url pair提pattern之后进行聚合,得到(img_url_pattern,page_url_pattern)pattern pair;
然后计算各pattern pair包含的url pair数量,得到其聚合值;那么聚合值越高的pattern pair可信度越高,聚合值越低的pattern pair可信度越低。
步骤204、根据计算出的各(img_URL,page_URL)的内容关联度值,得出一个阈值。
步骤205、内容关联度值大于所述阈值的(img_URL,page_URL)二元组中,将img_URL对应的图片作为page_URL在搜索结果中展现的摘要配图。
这里需要补充的是:一般来说,搜索结果中一个匹配网页配置至多一个摘要配图。当然,通过上述实施例一和实施例二确定出两个或两个以上的图片均可作为该网页的链接地址在搜索结果中展现的摘要配图,可择其一,也可为一个匹配网页设置两个或两个以上摘要配图。
需要说明的是:对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
如图5所示,本发明实施例三提供的网页配图选取装置的组成框图。本实施例三提供的所述装置可实现上述实施例一和实施例二提供的网页配图选取方法。如图所示,本实施例三所述的网页配图选取装置,包括:提取模块1、确定模块2和处理模块3。其中,提取模块1用于从第一网页中提取链接图片,所述链接图片为被触发后跳转至第二链接地址的图片。确定模块2用于确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度。处理模块3用于当所述内容关联度符合设定条件时,将所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图。
本实施例提供的技术方案通过提取网页中的链接图片,然后在确定出链接图片和与其链接的网页的内容关联度符合设定条件时,将链接图片作为与其链接的网页的配图,即本实施例是基于链接图片和与其链接的网页的内容相关性概率较大的思想,将链接图片作为与其链接的网页的配图,可有效的提升网页和图片的相关性,解决类似网页中没有图片或者图片质量不高的低召回问题;此外,对于页面中不包含图片的网页,采用本实施例提供的技术方案也能够通过外链图片找到它的相关图片。总之,本实施例提供的技术方案能有效的提升搜索结果中配图的准确率及覆盖率。
进一步的,本实施例三提供的网页装置还可包括第一判断模块。第一判断模块用于判断所述链接图片是否为符合预设判定条件的高质量图片。相应的,所述确定模块用于当所述链接图片为高质量图片时,确定所述链接图片与所述第二网页的内容关联度。
再进一步的,所述第一判断模块,具体用于:
识别所述链接图片的图片类型,将所述链接图片的图片类型与预设图片类型列表中包含的各图片类型进行比对;
和/或
获取所述链接的图片尺寸,判断所述图片尺寸是否符合设定配图尺寸要求;
和/或
获取所述第一网页及第二网页的网络地址,并判断所述第一网页及第二网页的网络地址是否具有相同的站点主域名;
若预设的图片类型列表中不包含与所述链接图片的图片类型相同的图片类型,和/或所述图片尺寸符合设定配图尺寸要求,和/或所述第一网页及第二网页的网络地址具有相同的站点主域名,则所述链接图片为高质量图片。
其中,所述预设图片类型列表包含有如下的任一项或多项:图标图片类型、头像类图片类型和模板站点图片类型。
进一步的,上述实施例提供的所述装置还可包括:第一获取模块和第二判断模块。其中,第一获取模块,用于获取所述链接图片的图片尺寸。第二判断模块,用于判断所述图片尺寸是否符合设定配图尺寸要求。相应的,所述处理模块,具体用于:
当所述内容关联度符合设定条件,且判断出所述图片尺寸不符合预设配图尺寸要求时,对所述链接图片进行裁剪或缩放,将裁剪或所缩放后的所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图;
当所述内容关联度符合设定条件,且判断出所述图片尺寸符合预设配图尺寸要求时,将所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图。
进一步的,本实施例中所述的确定模块可采用如下结构实现。具体的,所述确定模块包括:第一统计单元和第一确定单元。其中,第一统计单元,用于统计网页库中与所述链接图片存在链接关系的网页的数量。第一确定单元,用于根据所述与所述链接图片存在链接关系的网页的数量,确定所述链接图片与所述第二网页的内容关联度。
再进一步的,所述内容关联度表征为内容关联度值;相应的,所述第一确定单元,具体用于:
根据所述与所述链接图片存在链接关系的网页的数量,确定第一权重值;
将预置内容关联度值更新为所述预置内容关联度值与所述第一权重值之差,将更新后的所述预置内容关联度值作为所述链接图片与所述第二网页的内容关联度值。
进一步的,本实施例中所述的确定模块还可采用如下结构实现。具体的,所述确定模块包括:第二统计单元和第二确定单元。其中,第二统计单元,用于统计网页库中包含有所述链接图片,且所述链接图片被触发后跳转至的链接地址对应的网页为所述第二网页的网页的数量。第二确定单元,用于根据包含有所述链接图片,且所述链接图片被触发后跳转至的链接地址对应的网页为所述第二网页的网页的数量,确定所述链接图片与所述第二网页的内容关联度。
再进一步的,所述第二确定单元,具体用于:
根据包含有所述链接图片,且所述链接图片被触发后跳转至的链接地址对应的网页为所述第二网页的网页的数量,确定第二权重值;
将预置内容关联度值更新为所述预置内容关联度值与所述第二权重值之和,将更新后的所述预置内容关联度值作为所述链接图片与所述第二网页的内容关联度值。
进一步的,本实施例中所述的确定模块还可采用如下结构实现。具体的,所述确定模块包括:获取单元、判断单元和第三确定单元。其中,获取单元,用于获取所述第一网页的网络地址。判断单元,用于根据所述第一网页的网络地址,判断所述第一网页的网页类型。第三确定单元,用于根据所述第一网页的网页类型,确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度。
再进一步的,所述内容关联度表征为内容关联度值;相应的,
所述第三确定单元,具体用于根据预设的网页类型和内容关联度值的对应关系,获取所述第一网页的网页类型对应的内容关联度值,采用获取到的所述内容关联度值表征所述链接图片与所述第二链接地址对应的第二网页的内容关联度。
进一步的,本实施例中所述的确定模块,还可具体用于:
对所述链接图片与所述第二网页进行聚合处理,得到聚合参数;
统计具有所述聚合参数的链接图片和网页对的数量;
根据所述具有所述聚合参数的链接图片和网页对的数量,确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度。
进一步的,所述内容关联度表征为内容关联度值;相应的,本实施例中的所述处理模块,用于当所述内容关联度值大于设定阈值时,将所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图。
再进一步的,本实施例三提供的所述装置,还可包括:第二获取模块和取值模块。其中,第二获取模块,用于获取已确定出的多个不同链接图片与其被触发后跳转至链接地址对应的网页的内容关联度值。取值模块,用于根据已确定出的多个所述内容关联度值,得出判定值。其中,所述判定值作为所述设定阈值。
进一步的,上述实施例提供的所述装置,还可包括:添加模块。其中,添加模块,用于将所述第二网页的网页标识以及作为摘要配图的所述链接图片的图片标识作为索引记录添加到索引库中。
本发明实施例四提供的一种服务器。其中,所述服务器包括:网页配图选取装置。该网页配图选取装置,具体用于:
从第一网页中提取链接图片,所述链接图片为被触发后跳转至第二链接地址的图片;
确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度;
当所述内容关联度符合设定条件时,将所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图。
具体的,本实施例提供的所述网页配图选取装置可采用上述实施例三提供的装置来实现,即本实施例提供的所述装置的实现结构及实现原理可参见上述实施例中的相应内容,此处不再赘述。
本实施例提供的技术方案通过提取网页中的链接图片,然后在确定出链接图片和与其链接的网页的内容关联度符合设定条件时,将链接图片作为与其链接的网页的配图,即本实施例是基于链接图片和与其链接的网页的内容相关性概率较大的思想,将链接图片作为与其链接的网页的配图,可有效的提升网页和图片的相关性,解决类似网页中没有图片或者图片质量不高的低召回问题;此外,对于页面中不包含图片的网页,采用本实施例提供的技术方案也能够通过外链图片找到它的相关图片。总之,本实施例提供的技术方案能有效的提升搜索结果中配图的准确率及覆盖率。
本实施例中所述网页配图选取装置可以是安装在所述服务器上的应用程序,也可以是设置在所述服务器中并与所述服务器中的处理器通信连接的具有上述功能的逻辑电路或芯片。
具体的,图6示出了本实施例四提供的所述服务器的一种实现结构示意图。如图6所示,本实施例四所述的服务器50包括:处理器51和存储器53。其中,所述处理器51和所述存储器53通过通信线路54完成相互间的通信。所述处理器51用于执行应用程序531。所述存储器53用于存放所述应用程序531。其中,所述应用程序531为爬取企业内网信息的装置,该应用程序用于:
从第一网页中提取链接图片,所述链接图片为被触发后跳转至第二链接地址的图片;
确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度;
当所述内容关联度符合设定条件时,将所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网页配图选取装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明公开了A1、一种网页配图选取方法,包括:
从第一网页中提取链接图片,所述链接图片为被触发后跳转至第二链接地址的图片;
确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度;
当所述内容关联度符合设定条件时,将所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图。
A2、如A1所述的方法,还包括:
判断所述链接图片是否为符合预设判定条件的高质量图片;
当所述链接图片为高质量图片时,再确定所述链接图片与所述第二网页的内容关联度。
A3、如A1~A2任一项所述的方法,所述判断所述链接图片是否为符合预设判定条件的高质量图片,包括:
识别所述链接图片的图片类型,将所述链接图片的图片类型与预设图片类型列表中包含的各图片类型进行比对;
和/或
获取所述链接的图片尺寸,判断所述图片尺寸是否符合设定配图尺寸要求;
和/或
获取所述第一网页及第二网页的网络地址,并判断所述第一网页及第二网页的网络地址是否具有相同的站点主域名;
若预设的图片类型列表中不包含与所述链接图片的图片类型相同的图片类型,和/或所述图片尺寸符合设定配图尺寸要求,和/或所述第一网页及第二网页的网络地址具有相同的站点主域名,则所述链接图片为高质量图片。
A4、如A1~A3任一项所述的方法,所述预设图片类型列表包含有如下的任一项或多项:
图标图片类型、头像类图片类型和模板站点图片类型。
A5、如A1~A4任一项所述的方法,所述将所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图之前,还包括:
获取所述链接图片的图片尺寸;
判断所述图片尺寸是否符合设定配图尺寸要求;
相应的,所述将所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图,具体为:
当判断出所述图片尺寸不符合预设配图尺寸要求时,对所述链接图片进行裁剪或缩放,将裁剪或缩放后的所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图;
当判断出所述图片尺寸符合预设配图尺寸要求时,将所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图。
A6、如A1~A5中任一项所述的方法,所述确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度,包括:
统计网页库中与所述链接图片存在链接关系的网页的数量;
根据所述与所述链接图片存在链接关系的网页的数量,确定所述链接图片与所述第二网页的内容关联度。
A7、如A1~A6任一项所述的方法,所述内容关联度表征为内容关联度值;相应的,
所述根据所述与所述链接图片存在链接关系的网页的数量,确定所述链接图片与所述第二网页的内容关联度,包括:
根据所述与所述链接图片存在链接关系的网页的数量,确定第一权重值;
将预置内容关联度值更新为所述预置内容关联度值与所述第一权重值之差,将更新后的所述预置内容关联度值作为所述链接图片与所述第二网页的内容关联度值。
A8、如A1~A5中任一项所述的方法,所述确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度,包括:
统计网页库中包含有所述链接图片,且所述链接图片被触发后跳转至的链接地址对应的网页为所述第二网页的网页的数量;
根据包含有所述链接图片,且所述链接图片被触发后跳转至的链接地址对应的网页为所述第二网页的网页的数量,确定所述链接图片与所述第二网页的内容关联度。
A9、如A8所述的方法,所述内容关联度表征为内容关联度值;相应的,
所述根据包含有所述链接图片,且所述链接图片被触发后跳转至的链接地址对应的网页为所述第二网页的网页的数量,确定所述链接图片与所述第二网页的内容关联度,包括:
根据包含有所述链接图片,且所述链接图片被触发后跳转至的链接地址对应的网页为所述第二网页的网页的数量,确定第二权重值;
将预置内容关联度值更新为所述预置内容关联度值与所述第二权重值之和,将更新后的所述预置内容关联度值作为所述链接图片与所述第二网页的内容关联度值。
A10、如A1~A5中任一项所述的方法,所述确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度,包括:
获取所述第一网页的网络地址;
根据所述第一网页的网络地址,判断所述第一网页的网页类型;
根据所述第一网页的网页类型,确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度。
A11、如A10所述的方法,所述内容关联度表征为内容关联度值;相应的,
所述根据所述第一网页的网页类型,确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度,包括:
根据预设的网页类型和内容关联度值的对应关系,获取所述第一网页的网页类型对应的内容关联度值,采用获取到的所述内容关联度值表征所述链接图片与所述第二链接地址对应的第二网页的内容关联度。
A12、如A1~A5中任一项所述的方法,所述确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度,包括:
对所述链接图片与所述第二网页进行聚合处理,得到聚合参数;
统计具有所述聚合参数的链接图片和网页对的数量;
根据所述具有所述聚合参数的链接图片和网页对的数量,确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度。
A13、如A1~A5中任一项所述的方法,所述内容关联度表征为内容关联度值;相应的,所述内容关联度符合设定条件,具体为:
所述内容关联度值大于设定阈值。
A14、如A13所述的方法,还包括:
获取已确定出的多个不同链接图片与其被触发后跳转至链接地址对应的网页的内容关联度值;
根据已确定出的多个所述内容关联度值,得出判定值;
其中,所述判定值作为所述设定阈值。
A15、如A1~A5中任一项所述的方法,还包括:
将所述第二网页的网页标识以及作为摘要配图的所述链接图片的图片标识作为索引记录添加到索引库中。
本发明还公开了B16、一种网页配图选取装置,包括:
提取模块,用于从第一网页中提取链接图片,所述链接图片为被触发后跳转至第二链接地址的图片;
确定模块,用于确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度;
处理模块,用于当所述内容关联度符合设定条件时,将所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图。
B17、如B16所述的装置,还包括:
第一判断模块,用于判断所述链接图片是否为符合预设判定条件的高质量图片;相应的,
所述确定模块,用于当所述链接图片为高质量图片时,确定所述链接图片与所述第二网页的内容关联度。
B18、如B17所述的装置,所述第一判断模块,具体用于:
识别所述链接图片的图片类型,将所述链接图片的图片类型与预设图片类型列表中包含的各图片类型进行比对;
和/或
获取所述链接的图片尺寸,判断所述图片尺寸是否符合设定配图尺寸要求;
和/或
获取所述第一网页及第二网页的网络地址,并判断所述第一网页及第二网页的网络地址是否具有相同的站点主域名;
若预设的图片类型列表中不包含与所述链接图片的图片类型相同的图片类型,和/或所述图片尺寸符合设定配图尺寸要求,和/或所述第一网页及第二网页的网络地址具有相同的站点主域名,则所述链接图片为高质量图片。
B19、如B18所述的装置,所述预设图片类型列表包含有如下的任一项或多项:
图标图片类型、头像类图片类型和模板站点图片类型。
B20、如B16所述的装置,还包括:
第一获取模块,用于获取所述链接图片的图片尺寸;
第二判断模块,用于判断所述图片尺寸是否符合设定配图尺寸要求;
相应的,所述处理模块,具体用于:
当所述内容关联度符合设定条件,且判断出所述图片尺寸不符合预设配图尺寸要求时,对所述链接图片进行裁剪或缩放,将裁剪或所缩放后的所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图;
当所述内容关联度符合设定条件,且判断出所述图片尺寸符合预设配图尺寸要求时,将所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图。
B21、如B16~B20中任一项所述的装置,所述确定模块,包括:
第一统计单元,用于统计网页库中与所述链接图片存在链接关系的网页的数量;
第一确定单元,用于根据所述与所述链接图片存在链接关系的网页的数量,确定所述链接图片与所述第二网页的内容关联度。
B22、如B21所述的装置,所述内容关联度表征为内容关联度值;相应的,所述第一确定单元,具体用于:
根据所述与所述链接图片存在链接关系的网页的数量,确定第一权重值;
将预置内容关联度值更新为所述预置内容关联度值与所述第一权重值之差,将更新后的所述预置内容关联度值作为所述链接图片与所述第二网页的内容关联度值。
B23、如B16~B20中任一项所述的装置,所述确定模块,包括:
第二统计单元,用于统计网页库中包含有所述链接图片,且所述链接图片被触发后跳转至的链接地址对应的网页为所述第二网页的网页的数量;
第二确定单元,用于根据包含有所述链接图片,且所述链接图片被触发后跳转至的链接地址对应的网页为所述第二网页的网页的数量,确定所述链接图片与所述第二网页的内容关联度。
B24、如B23所述的装置,所述内容关联度表征为内容关联度值;相应的,所述第二确定单元,具体用于:
根据包含有所述链接图片,且所述链接图片被触发后跳转至的链接地址对应的网页为所述第二网页的网页的数量,确定第二权重值;
将预置内容关联度值更新为所述预置内容关联度值与所述第二权重值之和,将更新后的所述预置内容关联度值作为所述链接图片与所述第二网页的内容关联度值。
B25、如B16~B20中任一项所述的装置,所述确定模块,包括:
获取单元,用于获取所述第一网页的网络地址;
判断单元,用于根据所述第一网页的网络地址,判断所述第一网页的网页类型;
第三确定单元,用于根据所述第一网页的网页类型,确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度。
B26、如B25所述的装置,所述内容关联度表征为内容关联度值;相应的,
所述第三确定单元,具体用于根据预设的网页类型和内容关联度值的对应关系,获取所述第一网页的网页类型对应的内容关联度值,采用获取到的所述内容关联度值表征所述链接图片与所述第二链接地址对应的第二网页的内容关联度。
B27、如B16~B20中任一项所述的装置,所述确定模块,具体用于:
对所述链接图片与所述第二网页进行聚合处理,得到聚合参数;
统计具有所述聚合参数的链接图片和网页对的数量;
根据所述具有所述聚合参数的链接图片和网页对的数量,确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度。
B28、如B16~B20中任一项所述的装置,所述内容关联度表征为内容关联度值;相应的,所述处理模块,用于当所述内容关联度值大于设定阈值时,将所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图。
B29、如B28所述的装置,还包括:
第二获取模块,用于获取已确定出的多个不同链接图片与其被触发后跳转至链接地址对应的网页的内容关联度值;
取值模块,用于根据已确定出的多个所述内容关联度值,得出判定值;
其中,所述判定值作为所述设定阈值。
B30、如B16~B20中任一项所述的装置,还包括:
添加模块,用于将所述第二网页的网页标识以及作为摘要配图的所述链接图片的图片标识作为索引记录添加到索引库中。
本发明还公开了C31、一种服务器,包括上述B16~B30中任一项所述的网页配图选取装置。

Claims (31)

1.一种网页配图选取方法,其特征在于,包括:
从第一网页中提取链接图片,所述链接图片为被触发后跳转至第二链接地址的图片,所述链接图片是过滤掉图标图片、论坛或者博客头像类图片、模板站点的相关图片的链接图片;
确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度;
当所述内容关联度符合设定条件时,将所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图。
2.根据权利要求1所述的方法,其特征在于,还包括:
判断所述链接图片是否为符合预设判定条件的高质量图片;
当所述链接图片为高质量图片时,再确定所述链接图片与所述第二网页的内容关联度。
3.根据权利要求2所述的方法,其特征在于,所述判断所述链接图片是否为符合预设判定条件的高质量图片,包括:
识别所述链接图片的图片类型,将所述链接图片的图片类型与预设图片类型列表中包含的各图片类型进行比对;
和/或
获取所述链接的图片尺寸,判断所述图片尺寸是否符合设定配图尺寸要求;
和/或
获取所述第一网页及第二网页的网络地址,并判断所述第一网页及第二网页的网络地址是否具有相同的站点主域名;
若预设的图片类型列表中不包含与所述链接图片的图片类型相同的图片类型,和/或所述图片尺寸符合设定配图尺寸要求,和/或所述第一网页及第二网页的网络地址具有相同的站点主域名,则所述链接图片为高质量图片。
4.根据权利要求3所述的方法,其特征在于,所述预设图片类型列表包含有如下的任一项或多项:
图标图片类型、头像类图片类型和模板站点图片类型。
5.根据权利要求1所述的方法,其特征在于,所述将所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图之前,还包括:
获取所述链接图片的图片尺寸;
判断所述图片尺寸是否符合设定配图尺寸要求;
相应的,所述将所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图,具体为:
当判断出所述图片尺寸不符合预设配图尺寸要求时,对所述链接图片进行裁剪或缩放,将裁剪或缩放后的所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图;
当判断出所述图片尺寸符合预设配图尺寸要求时,将所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图。
6.根据权利要求1~5中任一项所述的方法,其特征在于,所述确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度,包括:
统计网页库中与所述链接图片存在链接关系的网页的数量;
根据所述与所述链接图片存在链接关系的网页的数量,确定所述链接图片与所述第二网页的内容关联度。
7.根据权利要求6所述的方法,其特征在于,所述内容关联度表征为内容关联度值;相应的,
所述根据所述与所述链接图片存在链接关系的网页的数量,确定所述链接图片与所述第二网页的内容关联度,包括:
根据所述与所述链接图片存在链接关系的网页的数量,确定第一权重值;
将预置内容关联度值更新为所述预置内容关联度值与所述第一权重值之差,将更新后的所述预置内容关联度值作为所述链接图片与所述第二网页的内容关联度值。
8.根据权利要求1~5中任一项所述的方法,其特征在于,所述确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度,包括:
统计网页库中包含有所述链接图片,且所述链接图片被触发后跳转至的链接地址对应的网页为所述第二网页的网页的数量;
根据包含有所述链接图片,且所述链接图片被触发后跳转至的链接地址对应的网页为所述第二网页的网页的数量,确定所述链接图片与所述第二网页的内容关联度。
9.根据权利要求8所述的方法,其特征在于,所述内容关联度表征为内容关联度值;相应的,
所述根据包含有所述链接图片,且所述链接图片被触发后跳转至的链接地址对应的网页为所述第二网页的网页的数量,确定所述链接图片与所述第二网页的内容关联度,包括:
根据包含有所述链接图片,且所述链接图片被触发后跳转至的链接地址对应的网页为所述第二网页的网页的数量,确定第二权重值;
将预置内容关联度值更新为所述预置内容关联度值与所述第二权重值之和,将更新后的所述预置内容关联度值作为所述链接图片与所述第二网页的内容关联度值。
10.根据权利要求1~5中任一项所述的方法,其特征在于,所述确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度,包括:
获取所述第一网页的网络地址;
根据所述第一网页的网络地址,判断所述第一网页的网页类型;
根据所述第一网页的网页类型,确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度。
11.根据权利要求10所述的方法,其特征在于,所述内容关联度表征为内容关联度值;相应的,
所述根据所述第一网页的网页类型,确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度,包括:
根据预设的网页类型和内容关联度值的对应关系,获取所述第一网页的网页类型对应的内容关联度值,采用获取到的所述内容关联度值表征所述链接图片与所述第二链接地址对应的第二网页的内容关联度。
12.根据权利要求1~5中任一项所述的方法,其特征在于,所述确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度,包括:
对所述链接图片与所述第二网页进行聚合处理,得到聚合参数;
统计具有所述聚合参数的链接图片和网页对的数量;
根据所述具有所述聚合参数的链接图片和网页对的数量,确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度。
13.根据权利要求1~5中任一项所述的方法,其特征在于,所述内容关联度表征为内容关联度值;相应的,所述内容关联度符合设定条件,具体为:
所述内容关联度值大于设定阈值。
14.根据权利要求13所述的方法,其特征在于,还包括:
获取已确定出的多个不同链接图片与其被触发后跳转至链接地址对应的网页的内容关联度值;
根据已确定出的多个所述内容关联度值,得出判定值;
其中,所述判定值作为所述设定阈值。
15.根据权利要求1~5中任一项所述的方法,其特征在于,还包括:
将所述第二网页的网页标识以及作为摘要配图的所述链接图片的图片标识作为索引记录添加到索引库中。
16.一种网页配图选取装置,其特征在于,包括:
提取模块,用于从第一网页中提取链接图片,所述链接图片为被触发后跳转至第二链接地址的图片,所述链接图片是过滤掉图标图片、论坛或者博客头像类图片、模板站点的相关图片的链接图片;
确定模块,用于确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度;
处理模块,用于当所述内容关联度符合设定条件时,将所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图。
17.根据权利要求16所述的装置,其特征在于,还包括:
第一判断模块,用于判断所述链接图片是否为符合预设判定条件的高质量图片;相应的,
所述确定模块,用于当所述链接图片为高质量图片时,确定所述链接图片与所述第二网页的内容关联度。
18.根据权利要求17所述的装置,其特征在于,所述第一判断模块,具体用于:
识别所述链接图片的图片类型,将所述链接图片的图片类型与预设图片类型列表中包含的各图片类型进行比对;
和/或
获取所述链接的图片尺寸,判断所述图片尺寸是否符合设定配图尺寸要求;
和/或
获取所述第一网页及第二网页的网络地址,并判断所述第一网页及第二网页的网络地址是否具有相同的站点主域名;
若预设的图片类型列表中不包含与所述链接图片的图片类型相同的图片类型,和/或所述图片尺寸符合设定配图尺寸要求,和/或所述第一网页及第二网页的网络地址具有相同的站点主域名,则所述链接图片为高质量图片。
19.根据权利要求18所述的装置,其特征在于,所述预设图片类型列表包含有如下的任一项或多项:
图标图片类型、头像类图片类型和模板站点图片类型。
20.根据权利要求16所述的装置,其特征在于,还包括:
第一获取模块,用于获取所述链接图片的图片尺寸;
第二判断模块,用于判断所述图片尺寸是否符合设定配图尺寸要求;
相应的,所述处理模块,具体用于:
当所述内容关联度符合设定条件,且判断出所述图片尺寸不符合预设配图尺寸要求时,对所述链接图片进行裁剪或缩放,将裁剪或所缩放后的所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图;
当所述内容关联度符合设定条件,且判断出所述图片尺寸符合预设配图尺寸要求时,将所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图。
21.根据权利要求16~20中任一项所述的装置,其特征在于,所述确定模块,包括:
第一统计单元,用于统计网页库中与所述链接图片存在链接关系的网页的数量;
第一确定单元,用于根据所述与所述链接图片存在链接关系的网页的数量,确定所述链接图片与所述第二网页的内容关联度。
22.根据权利要求21所述的装置,其特征在于,所述内容关联度表征为内容关联度值;相应的,所述第一确定单元,具体用于:
根据所述与所述链接图片存在链接关系的网页的数量,确定第一权重值;
将预置内容关联度值更新为所述预置内容关联度值与所述第一权重值之差,将更新后的所述预置内容关联度值作为所述链接图片与所述第二网页的内容关联度值。
23.根据权利要求16~20中任一项所述的装置,其特征在于,所述确定模块,包括:
第二统计单元,用于统计网页库中包含有所述链接图片,且所述链接图片被触发后跳转至的链接地址对应的网页为所述第二网页的网页的数量;
第二确定单元,用于根据包含有所述链接图片,且所述链接图片被触发后跳转至的链接地址对应的网页为所述第二网页的网页的数量,确定所述链接图片与所述第二网页的内容关联度。
24.根据权利要求23所述的装置,其特征在于,所述内容关联度表征为内容关联度值;相应的,所述第二确定单元,具体用于:
根据包含有所述链接图片,且所述链接图片被触发后跳转至的链接地址对应的网页为所述第二网页的网页的数量,确定第二权重值;
将预置内容关联度值更新为所述预置内容关联度值与所述第二权重值之和,将更新后的所述预置内容关联度值作为所述链接图片与所述第二网页的内容关联度值。
25.根据权利要求16~20中任一项所述的装置,其特征在于,所述确定模块,包括:
获取单元,用于获取所述第一网页的网络地址;
判断单元,用于根据所述第一网页的网络地址,判断所述第一网页的网页类型;
第三确定单元,用于根据所述第一网页的网页类型,确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度。
26.根据权利要求25所述的装置,其特征在于,所述内容关联度表征为内容关联度值;相应的,
所述第三确定单元,具体用于根据预设的网页类型和内容关联度值的对应关系,获取所述第一网页的网页类型对应的内容关联度值,采用获取到的所述内容关联度值表征所述链接图片与所述第二链接地址对应的第二网页的内容关联度。
27.根据权利要求16~20中任一项所述的装置,其特征在于,所述确定模块,具体用于:
对所述链接图片与所述第二网页进行聚合处理,得到聚合参数;
统计具有所述聚合参数的链接图片和网页对的数量;
根据所述具有所述聚合参数的链接图片和网页对的数量,确定所述链接图片与所述第二链接地址对应的第二网页的内容关联度。
28.根据权利要求16~20中任一项所述的装置,其特征在于,所述内容关联度表征为内容关联度值;相应的,所述处理模块,用于当所述内容关联度值大于设定阈值时,将所述链接图片作为所述第二链接地址在搜索结果中展现的摘要配图。
29.根据权利要求28所述的装置,其特征在于,还包括:
第二获取模块,用于获取已确定出的多个不同链接图片与其被触发后跳转至链接地址对应的网页的内容关联度值;
取值模块,用于根据已确定出的多个所述内容关联度值,得出判定值;
其中,所述判定值作为所述设定阈值。
30.根据权利要求16~20中任一项所述的装置,其特征在于,还包括:
添加模块,用于将所述第二网页的网页标识以及作为摘要配图的所述链接图片的图片标识作为索引记录添加到索引库中。
31.一种服务器,其特征在于,包括上述权利要求16-30中任一项所述的网页配图选取装置。
CN201510149193.1A 2015-03-31 2015-03-31 网页配图选取方法、装置及服务器 Active CN104699837B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510149193.1A CN104699837B (zh) 2015-03-31 2015-03-31 网页配图选取方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510149193.1A CN104699837B (zh) 2015-03-31 2015-03-31 网页配图选取方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN104699837A CN104699837A (zh) 2015-06-10
CN104699837B true CN104699837B (zh) 2017-04-12

Family

ID=53346957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510149193.1A Active CN104699837B (zh) 2015-03-31 2015-03-31 网页配图选取方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN104699837B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104732182B (zh) * 2015-03-06 2021-08-13 李宝玉 在网页上基于二维码的通信方法
CN105426526B (zh) * 2015-12-10 2019-02-15 魅族科技(中国)有限公司 一种页面信息选取的方法及装置
CN105589943B (zh) * 2015-12-15 2018-09-11 广州神马移动信息科技有限公司 搜索结果页面的图片适应性处理的方法、装置和服务器
CN106528758B (zh) * 2016-10-28 2021-07-27 腾讯科技(深圳)有限公司 一种选取图片方法及装置
CN111695556B (zh) * 2019-03-14 2024-01-16 北京京东尚科信息技术有限公司 网页配图的处理方法、系统、设备和存储介质
CN112181524A (zh) * 2020-09-29 2021-01-05 北京有竹居网络技术有限公司 组件控制方法及装置、电子设备和计算机可读存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130166591A1 (en) * 2011-11-09 2013-06-27 Styloot Inc. Systems and Methods for Searching for Items of Fashion and other Items of Creation
CN104281629B (zh) * 2013-07-12 2018-12-21 珠海豹好玩科技有限公司 从网页中提取图片的方法、装置及客户端设备
CN103530350B (zh) * 2013-10-09 2017-02-08 北京中科模识科技有限公司 一种互联网视听、文本及图像的全媒体搜索方法及装置
CN104123363B (zh) * 2014-07-21 2018-07-13 北京奇虎科技有限公司 网页主图提取方法及装置
CN104376114B (zh) * 2014-12-01 2018-01-30 百度在线网络技术(北京)有限公司 一种搜索结果展示方法及装置

Also Published As

Publication number Publication date
CN104699837A (zh) 2015-06-10

Similar Documents

Publication Publication Date Title
CN104699837B (zh) 网页配图选取方法、装置及服务器
RU2696230C2 (ru) Поиск, основанный на комбинировании пользовательских данных отношений
CN104123332B (zh) 搜索结果的显示方法及装置
JP5575902B2 (ja) クエリのセマンティックパターンに基づく情報検索
CN105956161B (zh) 一种信息推荐方法和装置
CN104217031B (zh) 一种根据服务器搜索日志数据进行用户分类的方法和装置
CN103324669B (zh) 一种对网页书签进行处理的方法和客户端
CN102955807B (zh) 一种关联信息的检索方法及装置
EP2812815B1 (en) Web page retrieval method and device
US20090300476A1 (en) Internet Guide Link Matching System
CN104077415B (zh) 搜索方法及装置
US9779139B1 (en) Context-based filtering of search results
CN103366002B (zh) 个性化垂直搜索方法及装置
WO2018113468A1 (zh) 搜索词推荐方法、装置、程序及介质
WO2013036688A2 (en) Identifying product variants
CN103186666B (zh) 基于收藏进行搜索的方法、装置与设备
EP2862105A1 (en) Ranking search results based on click through rates
KR20110085995A (ko) 검색 결과들의 제공
CN103617241B (zh) 搜索信息处理方法、浏览器终端与服务器
US20030217056A1 (en) Method and computer program for collecting, rating, and making available electronic information
US10102669B2 (en) Density sampling map labels
WO2015081792A1 (zh) 联动性和个性化扩展搜索方法及装置、系统
CN103514282A (zh) 一种视频搜索结果展示方法及装置
US20110238653A1 (en) Parsing and indexing dynamic reports
WO2011088521A2 (en) Improved searching using semantic keys

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220725

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

TR01 Transfer of patent right