CN103514271A - 提供网页内容对应缩略图的方法及装置 - Google Patents

提供网页内容对应缩略图的方法及装置 Download PDF

Info

Publication number
CN103514271A
CN103514271A CN201310418309.8A CN201310418309A CN103514271A CN 103514271 A CN103514271 A CN 103514271A CN 201310418309 A CN201310418309 A CN 201310418309A CN 103514271 A CN103514271 A CN 103514271A
Authority
CN
China
Prior art keywords
picture
original
webpage
thumbnail
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310418309.8A
Other languages
English (en)
Inventor
刘晓丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201310418309.8A priority Critical patent/CN103514271A/zh
Publication of CN103514271A publication Critical patent/CN103514271A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明涉及图像处理领域,其公开了一种提供网页内容对应缩略图的方法及装置。该方法包括:当抓取的目标网页正文中未包含有图片链接时,提取该网页的一个或多个关键因子;在图片数据库中查找与关键因子匹配的至少一幅图片,将其作为原始图片;按照预设缩放比例对原始图片进行缩放,形成缩放图片;为缩放图片设定基准线,根据基准线对缩放图片进行裁切,得到缩略图并建立与网页正文的对应关系。通过本发明,提升了用户体验,有效增加了流量转化。

Description

提供网页内容对应缩略图的方法及装置
技术领域
本发明涉及图像处理领域,特别是涉及一种提供网页内容对应缩略图的方法及装置。
背景技术
现如今,为了强化用户的视觉体验,各类网页在展现时,都会同时带有配图。例如,新闻网页在展示某条新闻时,同时会配有一张或多张与该新闻相关的图片,影视网页在为用户推荐影视剧时,也会配有这些影视剧的相关图片等。配图的添加一方面使得用户根据配图就能够大致了解该网页所要表现的主题内容,另一方面,美好的配图也能够提高浏览网页的用户数量。所以,在读图的时代,图片是网页发展的一个重要元素。
以新闻网页为例,为了向用户展现更多的信息量,新闻门户网站的页面中大多会包含多条新闻,每条新闻多对应的网页即为新闻网页。某些新闻门户网站在展示新闻网页时,往往没有配上与内容适合的图片,尤其在形成新闻摘要时,纯文字信息就比较枯燥,不能吸引到用户关注和浏览,也不能有效转化为流量。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的适于提供网页内容对应缩略图的方法及相应的装置。
依据本发明的一个方面,提供了一种提供网页内容对应缩略图的方法,包括:
当抓取的目标网页正文中未包含有图片链接时,提取该网页的一个或多个关键因子;
在图片数据库中查找与关键因子匹配的至少一幅图片,将其作为原始图片;
按照预设缩放比例对原始图片进行缩放,形成缩放图片;
为缩放图片设定基准线,根据基准线对缩放图片进行裁切,得到缩略图并建立与网页正文的对应关系。
可选地,关键因子在网页的标题名称中提取;
在图片数据库中查找与关键因子匹配的至少一幅图片,将其作为原始图片,进一步包括:
在图片数据库中查询与关键因子匹配度高于阈值的至少一幅图片,将其作为该网页的原始图片;或者,
识别关键因子所属的分类,在图片数据库存储的与各分类匹配的图片中选取至少一幅图片,将其作为该网页的原始图片。
可选地,在图片数据库中查询与关键因子匹配度高于阈值的至少一幅图片,进一步包括:
获取关键因子与图片数据库中各个图片的名称的匹配度,得到各个匹配度的RANK排名;
在RANK排名中选取匹配度高于阈值的至少一幅图片。
可选地,当抓取的目标网页正文中包含有图片链接时,根据图片链接提取对应的图片,作为该网页的原始图片。
可选地,按照预设缩放比例对原始图片进行缩放,进一步包括:
根据抽取到的原始图片的长宽尺寸判断规格为横图或竖图;
根据原始图片的规格确定缩小后的最小边长度;
根据确定的缩小后最小边长度和原始图片对应边的原始长度,对原始图片进行缩放。
可选地,若原始图片为横图,则确定缩小后的最小边长度为第一长度,若原始图片为竖图或正方形图,则确定缩小后的最小边长度为第二长度;
相应地,根据确定的缩小后最小边长度和原始图片对应边的原始长度,对原始图片进行缩放,进一步包括:
若原始图片为横图,则通过将原始图片的高度缩放至第一长度确定缩放比例,并按照该缩放比例对原始图片进行缩放;
若原始图片为竖图或正方形图,则通过将原始图片的宽度缩放至第二长度确定缩放比例,并按照该缩放比例对原始图片进行缩放。
可选地,基准线距缩放图片上边缘的距离与缩放图片整个高度比为1/3。
可选地,根据基准线对缩放图片进行裁切,得到缩略图,包括:
在缩放图片中,根据基准线确定切图框的中心线位置;
利用确定的切图框对缩放图片进行裁切,将切图框中的图片作为缩略图。
可选地,利用确定的切图框对缩放图片进行裁切,包括:
若切图框超出缩放图片的范围,则以缩放图片的边缘作为切图框的起始位置来对切图框进行调整;
根据调整后的切图框对缩放图片进行裁切。
可选地,该方法进一步包括:
若所抽取的网页内容对应的原始图片包括两幅及以上,则在生成缩略图后,将所生成的各缩略图按照预定排版格式进行合并;
将合并后的图片在该网页中进行显示。
可选地,网页包括下列任意之一:新闻网页、漫画网页、娱乐网页、图片网页、广告网页、购物网页、影视网页。
依据本发明的一个方面,还提供了一种提供网页内容对应缩略图的装置,包括:
内容获取器,配置成抓取目标网页的正文;
第一图片获取器,配置成当抓取的目标网页正文中未包含有图片链接时,提取该网页的一个或多个关键因子,并在图片数据库中查找与关键因子匹配的至少一幅图片,将其作为原始图片;
图片缩放器,配置成按照预设缩放比例对原始图片进行缩放,形成缩放图片;
基准线确定器,配置成为缩放图片设定基准线;
截图器,配置成根据基准线对缩放图片进行裁切,得到缩略图并建立与网页正文的对应关系。
可选地,关键因子在网页的标题名称中提取;
第一图片获取器配置成:
在图片数据库中查询与关键因子匹配度高于阈值的至少一幅图片,将其作为该网页的原始图片;或者,
识别关键因子所属的分类,在图片数据库存储的与各分类匹配的图片中选取至少一幅图片,将其作为该网页的原始图片。
可选地,第一图片获取器包括:
匹配度排名单元,配置成获取关键因子与图片数据库中各个图片的名称的匹配度,得到各个匹配度的RANK排名;
匹配获取单元,配置成在RANK排名中选取匹配度高于阈值的至少一幅图片,将其作为该网页的原始图片。
可选地,该装置还包括:
第二图片获取器,配置成当抓取的目标网页正文中包含有图片链接时,根据图片链接提取对应的图片,作为该网页的原始图片。
可选地,图片缩放器包括:
图片规格确定单元,配置成根据抽取到的原始图片的长宽尺寸判断规格为横图或竖图;
长度确定单元,配置成根据原始图片的规格确定缩小后的最小边长度;
图片缩放单元,配置成根据确定的缩小后最小边长度和原始图片对应边的原始长度,对原始图片进行缩放。
可选地,若原始图片为横图,则长度确定单元确定缩小后的最小边长度为第一长度,若原始图片为竖图或正方形图,则长度确定单元确定缩小后的最小边长度为第二长度;
相应地,图片缩放单元还配置成按照如下方式对原始图片进行缩放:
若原始图片为横图,则通过将原始图片的高度缩放至第一长度确定缩放比例,并按照该缩放比例对原始图片进行缩放;
若原始图片为竖图或正方形图,则通过将原始图片的宽度缩放至第二长度确定缩放比例,并按照该缩放比例对原始图片进行缩放。
可选地,基准线确定器确定的基准线距缩放图片上边缘的距离与缩放图片整个高度比为1/3。
可选地,截图器包括:
切图框设定单元,配置成在缩放图片中,根据基准线确定切图框的中心线位置;
裁切单元,配置成利用确定的切图框对缩放图片进行裁切,将切图框中的图片作为缩略图。
可选地,裁切单元还配置成:
若切图框超出缩放图片的范围,则以缩放图片的边缘作为切图框的起始位置来对切图框进行调整;
根据调整后的切图框对缩放图片进行裁切。
可选地,该装置还包括:
图片显示器,配置成若所抽取的网页内容对应的原始图片包括两幅及以上,则在截图器生成缩略图后,将所生成的各缩略图按照预定排版格式进行合并;以及
将合并后的图片在该网页中进行显示。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是根据本发明一个实施例的一种提供网页内容对应缩略图的方法流程图;
图2是根据本发明一个实施例的一种提供网页内容对应缩略图的具体方法流程图;
图3是根据本发明一个实施例的新闻网页列表示意图;
图4是根据本发明一个实施例的缩放图片为竖图时,基准线的位置示意图;
图5是根据本发明一个实施例的缩放图片为横图时,基准线的位置示意图;
图6是根据本发明一个实施例的缩放图片为竖图时,具体切图框的位置示意图;
图7是根据本发明一个实施例的针对图6所得到的缩略图示意图;
图8是根据本发明一个实施例的缩放图片为横图时,具体切图框的位置示意图;
图9是根据本发明一个实施例的调整之后的切图框的位置示意图;
图10是根据本发明一个实施例的针对图9所得到的缩略图示意图;
图11是根据本发明一个实施例的显示缩略图的新闻网页的示意图;
图12是根据本发明一个实施例的一种提供网页内容对应缩略图的装置框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应该被这里阐述的实施例所限制。相反,提供这些实施例是为了能够透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
本发明实施例提供了一种提供网页内容对应缩略图的方法。该方法对能够提供网页内容对应缩略图的装置进行了改进。例如,本实施例中的装置可以位于用户终端中,也可以位于网页服务器中,本实施例中的终端可以为能够浏览网页的PC(Personal Computer,个人计算机)、手机、手持电脑等。
图1是根据本发明一个实施例的一种提供网页内容对应缩略图的方法流程图。该方法具体包括步骤S102至S108。
S102,当抓取的目标网页正文中未包含有图片链接时,提取该网页的一个或多个关键因子。
S104,在图片数据库中查找与关键因子匹配的至少一幅图片,将其作为原始图片。
S106,按照预设缩放比例对原始图片进行缩放,形成缩放图片。
可选地,本实施例中的预设缩放比例是根据原始图片进行设定的,具体的设定方法,在以下实施例中进行具体说明。
S108,为缩放图片设定基准线,根据基准线对缩放图片进行裁切,得到缩略图并建立与网页正文的对应关系。
本发明实施例提供了一种提供网页内容对应缩略图的方法,通过该方法,在获取目标网页的缩略图时,会按照预先设定的比例对获取的原始图片进行缩放,形成缩放图片,之后,再为缩放图片设定基准线,并根据基准线对缩放图片进行裁切,得到缩略图。通过本实施例所提供的方法,一方面,能够将尺寸较大的原始图片进行合理比例的缩放,进而得到缩放图片。缩放图片的获取保证了后续得到的缩略图中能够包含的图片内容较多,避免了直接对原始图片进行裁切而导致的缩略图中只能包含较少图片内容的缺陷。另一方面,在对缩放图片进行裁切时,会先为缩放图片设定基准线,而基准线是根据图片的特性来设定的,能够较为准确的确定出图片的主体部分,这就使得在后续的裁切中,所得到的缩略图中能够全面的包含缩略图片(也即原始图片)的主体部分,从而保证了缩略图的完整性,提升了用户体验。
实施例二
本实施例为本发明的一个具体应用场景,通过本实施例,能够更加清楚、具体地阐述本发明所提供的方法。
需要说明的是,本实施例中所描述的网页可以为各类带有图片的网页,例如,可以为新闻网页、漫画网页、娱乐网页、图片网页、广告网页、购物网页、影视网页等。下面,以新闻网页为例对本发明实施例所提供的方法进行具体介绍。需要提及的是,当用户打开一个新闻门户网站时,页面上会展示若干条新闻信息,其中每条新闻信息所在的网页在本实施例中称为目标新闻网页。且本实施例为每个目标新闻网页生成缩略图时所采取的方法均相同。
图2是根据本发明实施例提供的一种提供网页内容对应缩略图的具体方法流程图,该方法具体包括步骤S201至S208。本实施例中,为新闻网页生成的缩略图的尺寸为预先设定的尺寸,其具体可以根据网页资源等不同的应用场景来设定不同的尺寸。下面对该方法进行具体介绍。
S201,抓取目标新闻网页的正文,并判断其中是否包含有图片链接。当抓取的目标网页正文中未包含有图片链接时,执行步骤S202的操作,当抓取的目标网页正文中包含图片链接时,执行步骤S203的操作。需要说明的是,一般情况下,门户网站编辑者在发布每条新闻时,都会配上与该新闻网页内容相符和的图片,给用户带来大量信息的同时也能增加用户的阅读乐趣,避免了阅读文字的枯燥。通常,在新闻网页内容中配置图片的方式为将图片在网络中的链接URL(Uniform Resource Locator,统一资源定位符)地址写入新闻网页内容,每个URL地址代表一个图片。但是,在部分新闻网页中仍未配置有与新闻内容相符合的图片。下面再分别对步骤S202和步骤S203的操作进行具体介绍。
首先,介绍步骤S202,即提取该网页的一个或多个关键因子,并在图片数据库中查找与关键因子匹配的至少一幅图片,将其作为原始图片。需要说明的是,通过步骤S202来获取原始图片的前提是需要事先在服务器中配置一个图片数据库,用于存储与各类网页相关的图片。可选地,图片数据库存储图片的方式通常分为如下两种,第一种是直接按照关键因子(即图片名称)进行存储,第二种是按照关键因子将图片进行分类存储。下面具体介绍步骤S202。
对于新闻网页而言,步骤S202中的关键因子可以在新闻网页的标题名称中提取,其标题名称即为新闻名称。关键因子的提取能够使得步骤S202更加准确、快速地匹配到该新闻网页的原始图片。所以,本实施例中,在提取关键因子之前,要先获取到新闻网页的标题名称,并在获取了标题名称名之后,根据标题名称的长度来提取关键因子。可选地,则当获取的标题名称长度过长时(例如超过8个字符则认为长度过程)时,可以在标题名称中提取关键字或者主题词作为关键因子,以减少后续匹配的压力,但是,当标题名称较短(少于8个字符)时,也可以不提取关键因子,直接将标题名称作为关键因子即可。对于步骤S202的提取关键因子的过程,本实施例还结合图3进行具体说明。
图3是根据本发明一个实施例的新闻网页列表示意图。假设新闻网页的新闻名称为图3中的第三行“外形犀利配置越级福特蒙迪欧购车手册”。根据上述描述可知,该新闻名称的长度超过8个字,则步骤S202会在该新闻名称中提取关键因子,可选地,所提取的关键因子可以为“福特蒙迪欧”。
在确定了关键因子之后,步骤S202继续在图片数据库中查找与关键因子匹配的图片作为原始图片。本实施例中,上述提及了图片数据库存储图片的两种方式,所以当图片数据库存储图片的方式不同时,步骤S202在图片数据库中查找与关键因子匹配的图片时,所采用的方法也有所不同。下面介绍步骤S202在图片数据库中查找与关键因子匹配的图片的两种具体方式。
当图片数据库存储图片的方式为上述第一种时,可选地,步骤S202可以将该关键因子分别与图片数据库中的各图片的名称进行匹配度计算,并将匹配结果进行RANK排名,再在该RANK排名中选取匹配度高于阈值的至少一幅图片作为原始图片,其取出原始图片的个数根据具体情况而进行设定。
当图片数据库存储图片的方式为上述第二种时,可选地,步骤S202可以先识别关键因子所属的分类,再在图片数据库存储的与该分类对应的图片中选取至少一幅图片,将其作为该网页的原始图片。需要说明的是,步骤S202在图片数据库存储的与该分类对应的图片中选取原始图片时,也可以将该关键因子分别与该分类中所有图片的名称进行匹配度计算,并将匹配结果进行RANK排名,再在该RANK排名中选取匹配度高于阈值的至少一幅图片作为原始图片。相比于第一种获取原始图片的方式,该方式能够先对关键因子进行分类,之后再进行匹配度的计算,从而减少了匹配时的计算量,提高了获取原始图片的效率。
下面接着介绍步骤S203,即根据网页正文所包含的图片链接提取对应的图片,作为该网页的原始图片。在本实施例中,步骤S203根据图片链接提取对应的图片时,可以采取如下两种方式。可选地,步骤S203首先会确定新闻网页正文中所包含的图片当前是否已经加载完成,若已经加载完成,则到指定的缓存区直接抓取新闻网页中已经加载完成的图片作为原始图片,若未加载完成,则需要直接通过图片链接URL地址在网络中提取新闻网页的原始图片。
上述通过步骤S201至步骤S203介绍了获取与新闻网页对应的原始图片的过程,使得无论新闻网页的正文是否包含有图片链接,均能够获取到与网页正文对应的原始图片。在获取到新闻网页对应的原始图片之后,继续执行步骤S204。在步骤S204中,根据获取的原始图片的长宽尺寸判断规格为横图或竖图。本实施例中,当步骤S202或S203获取到的新闻网页的原始图片为多张时,需要通过步骤S204分别判断每一张原始图片的规格。其中,当原始图片的宽度大于高度时为横图,反之则为竖图。还有一种较为特殊的情况,即当原始图片的宽度等于高度时为正方形图,此时,将其划分为特殊的竖图,并在后续的处理过程中将其作为竖图进行处理。
需要说明的是,在新闻网页中配置的原始图片通常尺度较大,而预先设定的缩略图的尺寸通常较小,而为了后续步骤得到的缩略图中能够较为完整的包含原始图片的内容,在执行完步骤S204之后,还需要继续执行步骤S205,即根据原始图片的规格来确定缩放比例,并按照确定的缩放比例对原始图片进行缩放,得到缩放图片。下面对步骤S205生成缩放图片的过程进行具体介绍。
步骤S205在对原始图片进行缩放时,首先需要根据原始图片的规格来确定原始图片缩小后的最小边长度,再根据该最小边长度和原始图片对应边的原始长度,来确定缩放比例,最后,根据该缩放比例对原始图片进行缩放,得到缩放图片。本实施例中,之所以先确定原始图片缩小后的最小边长度,原因是由于缩略图的宽、高尺寸为预先设定的,先将原始图片的最小边缩放到合适的长度,能够保证原始图片缩小后,得到的缩放图片的尺寸不小于预定缩略图的尺寸,从而避免了由于缩放图片的尺寸过小而导致在缩略图中出现“白边”的情况。
需要说明的是,当原始图片的规格不同时,步骤S205所采取的处理方式也有所不同。为了更加清楚地描述当原始图片规格不同时步骤S205的处理过程,本实施例分别以原始图片为横图和原始图片为竖图为例来对其进行具体描述。
当原始图片为横图时,假设,本实施例中,原始图片的尺寸为680*480(像素),预先确定的缩略图的尺寸为120*90(像素)。此时,步骤S205需要先将原始图片的高480像素缩小至90像素来确定缩放比例,即缩放比例为90/480。再按照该缩放比例对原始图片进行缩放,得到缩放图片。该方式中,通过将原始图片的高缩小至90像素来确定缩放比例,能够保证得到缩放图片的宽度不小于120像素,从而保证了缩放图片的尺寸不小于预定缩略图的尺寸。
当原始图片为竖图时,假设,本实施例中,原始图片的尺寸为480*640(像素),预先确定的缩略图的尺寸为120*90(像素)。此时,步骤S205需要先将原始图片的宽480像素缩小至120像素来确定缩放比例,即缩放比例为120/480。再按照该缩放比例对原始图片进行缩放,得到缩放图片。同样地,该方式也保证了缩放图片的尺寸不小于预定缩略图的尺寸。
在获取到原始图片的缩放图片之后,继续执行步骤S206。在步骤S206中,为缩放图片设定基准线。其中,基准线用于步骤S207的裁切操作。
本实施例中,步骤S206所设定基准线穿过缩放图片内部,可选地,基准线距缩放图片上边缘的距离与缩放图片整个高度比可以为1/3,即以上边缘为基准,位于缩放图片的1/3高度处,具体基准线的位置参见图4和图5所示,其中,图4为本实施例的缩放图片为竖图时,基准线的位置示意图,图5为本实施例的缩放图片为横图时,基准线的位置示意图。
本实施例中,之所以将基准线设定在缩放图片的1/3高度处,是因为无论对于横图或是竖图,在拍摄或是制作时,大部分图片的主体部分(例如,人物的头部)均位于图片的中部偏上的位置,所以将基准线设定在缩放图片的1/3高度处,基本能够经过图片的主体部分。
接着,执行步骤S207,即根据基准线对缩放图片进行裁切,得到原始图片的缩略图,并建立与网页正文的对应关系。根据上述提及的内容可知,缩略图的尺寸为预先设定的尺寸,所以步骤S207在执行时,可以先生成一个与缩略图同样尺寸的切图框,并根据基准线来确定切图框的位置。根据上述提及可知,由于基准线能够经过图片的主体部分,所以,本实施例步骤S207在确定切图框的位置时,可以将切图框的中心线设置成与基准线重合,这就保证了切图框中能够包含缩放图片的主体部分。之后,步骤S207再利用确定的切图框对缩放图片进行裁切,将切图框中的图片作为原始图片的缩略图,保证了缩略图的完整性。
对于步骤S205,还需要说明的是,若缩放图片为竖图,则由于缩放图片的高度较大,所以当基准线为切图框的中心线时,切图框位于基准线之上的部分基本能落在缩放图片的内部,其切图框的位置可以参见图6所示。此时,步骤S207可以直接将切图框中的图片进行裁切即可得到原始图片的缩略图,其中,针对图6所得到的缩略图如图7所示。
若缩放图片为横图,则由于缩放图片的高度较小,所以当基准线为切图框的中心线时,切图框位于基准线之上的部分有时可能会超出缩放图片上边缘的范围,其切图框的位置可以参见图8所示。此时,为了保证得到的缩略图不出现“白边”的情况,步骤S207还需要对切图框进行重新调整,可选地,可以将切图框位于基准线之上的部分调整至缩放图片的上边缘位置,而切图框位于基准线之下的部分保持位置不变,其中,调整之后的切图框的位置可以参见图9所示。之后,步骤S207再根据调整后的切图框对缩放图片进行裁切,得到原始图片的缩略图,其中,针对图9所得到的缩略图如图10所示。
综上所述,本实施例对缩略图的获取方法进行了具体描述,在获取到新闻网页所对应缩略图之后,还可以通过步骤S208在网页预先设定的位置中显示该新闻网页对应的缩略图,以便用户进行查看。
还需要说明的是,当获取到的该新闻网页对应的缩略图为一幅时,可直接将缩略图进行显示,具体可以参见图11中的前三条新闻网页所对应的缩略图。当获取到的该新闻网页对应的缩略图为两幅及以上时,还需要先将各缩略图按照预定排版格式进行合并(如,横排合并、纵排合并等),再将合并后的图片在该网页中进行显示,具体可以参见图11中最后一条新闻网页所对应的缩略图。
本实施例中,仅以新闻网页为例对本发明实施例所提供的方法进行了具体说明,而当网页为其他带有图片的网页时,也能够根据该实施例所提供的方法来实现。
本发明实施例提供了一种提供网页内容对应缩略图的方法,通过该方法,在获取目标网页的缩略图时,会按照预先设定的比例对获取的原始图片进行缩放,形成缩放图片,之后,再为缩放图片设定基准线,并根据基准线对缩放图片进行裁切,得到缩略图。通过本实施例所提供的方法,一方面,能够将尺寸较大的原始图片进行合理比例的缩放,进而得到缩放图片。缩放图片的获取保证了后续得到的缩略图中能够包含的图片内容较多,避免了直接对原始图片进行裁切而导致的缩略图中只能包含较少图片内容的缺陷。另一方面,在对缩放图片进行裁切时,会先为缩放图片设定基准线,而基准线是根据图片的特性来设定的,能够较为准确的确定出图片的主体部分,这就使得在后续的裁切中,所得到的缩略图中能够全面的包含缩略图片(也即原始图片)的主体部分,从而保证了缩略图的完整性,提升了用户体验。
实施例三
图12是根据本发明一个实施例的一种提供网页内容对应缩略图的装置框图。该装置1200包括:
内容获取器1201,配置成抓取目标网页的正文;
第一图片获取器1202,与上述内容获取器1201相耦合,配置成当抓取的目标网页正文中未包含有图片链接时,提取该网页的一个或多个关键因子,并在图片数据库中查找与关键因子匹配的至少一幅图片,将其作为原始图片;
图片缩放器1203,与上述第一图片获取器1202相耦合,配置成按照预设缩放比例对原始图片进行缩放,形成缩放图片;
基准线确定器1204,与上述图片缩放器1203相耦合,配置成为缩放图片设定基准线;
截图器1205,与上述基准线确定器1204相耦合,配置成根据基准线对缩放图片进行裁切,得到缩略图并建立与网页正文的对应关系。
可选地,关键因子在网页的标题名称中提取;
第一图片获取器1202配置成:
在图片数据库中查询与关键因子匹配度高于阈值的至少一幅图片,将其作为该网页的原始图片;或者,
识别关键因子所属的分类,在图片数据库存储的与各分类匹配的图片中选取至少一幅图片,将其作为该网页的原始图片。
可选地,第一图片获取器1202包括:
匹配度排名单元12021,配置成获取关键因子与图片数据库中各个图片的名称的匹配度,得到各个匹配度的RANK排名;
匹配获取单元12022,配置成在RANK排名中选取匹配度高于阈值的至少一幅图片,将其作为该网页的原始图片。
可选地,该装置1200还包括:
第二图片获取器1206,与上述内容获取器1201相耦合,配置成当抓取的目标网页正文中包含有图片链接时,根据图片链接提取对应的图片,作为该网页的原始图片。
可选地,图片缩放器1203包括:
图片规格确定单元12031,配置成根据抽取到的原始图片的长宽尺寸判断规格为横图或竖图;
长度确定单元12032,配置成根据原始图片的规格确定缩小后的最小边长度;
图片缩放单元12033,配置成根据确定的缩小后最小边长度和原始图片对应边的原始长度,对原始图片进行缩放。
可选地,若原始图片为横图,则长度确定单元12032确定缩小后的最小边长度为第一长度,若原始图片为竖图或正方形图,则长度确定单元12032确定缩小后的最小边长度为第二长度;
相应地,图片缩放单元12033还配置成按照如下方式对原始图片进行缩放:
若原始图片为横图,则通过将原始图片的高度缩放至第一长度确定缩放比例,并按照该缩放比例对原始图片进行缩放;
若原始图片为竖图或正方形图,则通过将原始图片的宽度缩放至第二长度确定缩放比例,并按照该缩放比例对原始图片进行缩放。
可选地,基准线确定器1204确定的基准线距缩放图片上边缘的距离与缩放图片整个高度比为1/3。
可选地,截图器1205包括:
切图框设定单元12051,配置成在缩放图片中,根据基准线确定切图框的中心线位置;
裁切单元12052,配置成利用确定的切图框对缩放图片进行裁切,将切图框中的图片作为缩略图。
可选地,裁切单元12052还配置成:
若切图框超出缩放图片的范围,则以缩放图片的边缘作为切图框的起始位置来对切图框进行调整;
根据调整后的切图框对缩放图片进行裁切。
可选地,该装置1200还包括:
图片显示器1207,与上述截图器1205相耦合,配置成若所抽取的网页内容对应的原始图片包括两幅及以上,则在截图器1205生成缩略图后,将所生成的各缩略图按照预定排版格式进行合并;以及
将合并后的图片在该网页中进行显示。
本发明实施例提供了一种提供网页内容对应缩略图的装置,通过该装置,在获取目标网页的缩略图时,会按照预先设定的比例对获取的原始图片进行缩放,形成缩放图片,之后,再为缩放图片设定基准线,并根据基准线对缩放图片进行裁切,得到缩略图。可见,通过本实施例所提供的装置,一方面,能够将尺寸较大的原始图片进行合理比例的缩放,进而得到缩放图片。缩放图片的获取保证了后续得到的缩略图中能够包含的图片内容较多,避免了直接对原始图片进行裁切而导致的缩略图中只能包含较少图片内容的缺陷。另一方面,在对缩放图片进行裁切时,会先为缩放图片设定基准线,而基准线是根据图片的特性来设定的,能够较为准确的确定出图片的主体部分,这就使得在后续的裁切中,所得到的缩略图中能够全面的包含缩略图片(也即原始图片)的主体部分,从而保证了缩略图的完整性,提升了用户体验。
在此提供的算法和展示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的提供网页内容对应缩略图的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种提供网页内容对应缩略图的方法,包括:
当抓取的目标网页正文中未包含有图片链接时,提取该网页的一个或多个关键因子;
在图片数据库中查找与所述关键因子匹配的至少一幅图片,将其作为原始图片;
按照预设缩放比例对所述原始图片进行缩放,形成缩放图片;
为所述缩放图片设定基准线,根据所述基准线对所述缩放图片进行裁切,得到缩略图并建立与所述网页正文的对应关系。
2.根据权利要求1所述的方法,其中,所述关键因子在所述网页的标题名称中提取;
所述在图片数据库中查找与所述关键因子匹配的至少一幅图片,将其作为原始图片,进一步包括:
在图片数据库中查询与所述关键因子匹配度高于阈值的至少一幅图片,将其作为该网页的原始图片;或者,
识别所述关键因子所属的分类,在图片数据库存储的与各分类匹配的图片中选取至少一幅图片,将其作为该网页的原始图片。
3.根据权利要求2所述的方法,其中,所述在图片数据库中查询与所述关键因子匹配度高于阈值的至少一幅图片,进一步包括:
获取所述关键因子与图片数据库中各个图片的名称的匹配度,得到各个匹配度的RANK排名;
在所述RANK排名中选取匹配度高于阈值的至少一幅图片。
4.根据权利要求1至3任一项所述的方法,其中,当抓取的目标网页正文中包含有图片链接时,根据所述图片链接提取对应的图片,作为该网页的原始图片。
5.根据权利要求1至4任一项所述的方法,其中,所述按照预设缩放比例对所述原始图片进行缩放,进一步包括:
根据所述抽取到的原始图片的长宽尺寸判断规格为横图或竖图;
根据所述原始图片的规格确定缩小后的最小边长度;
根据所述确定的缩小后最小边长度和所述原始图片对应边的原始长度,对所述原始图片进行缩放。
6.一种提供网页内容对应缩略图的装置,包括:
内容获取器,配置成抓取目标网页的正文;
第一图片获取器,配置成当抓取的目标网页正文中未包含有图片链接时,提取该网页的一个或多个关键因子,并在图片数据库中查找与所述关键因子匹配的至少一幅图片,将其作为原始图片;
图片缩放器,配置成按照预设缩放比例对所述原始图片进行缩放,形成缩放图片;
基准线确定器,配置成为所述缩放图片设定基准线;
截图器,配置成根据所述基准线对所述缩放图片进行裁切,得到缩略图并建立与所述网页正文的对应关系。
7.根据权利要求6所述的装置,其中,所述关键因子在所述网页的标题名称中提取;
所述第一图片获取器配置成:
在图片数据库中查询与所述关键因子匹配度高于阈值的至少一幅图片,将其作为该网页的原始图片;或者,
识别所述关键因子所属的分类,在图片数据库存储的与各分类匹配的图片中选取至少一幅图片,将其作为该网页的原始图片。
8.根据权利要求6或7所述的装置,其中,所述第一图片获取器包括:
匹配度排名单元,配置成获取所述关键因子与图片数据库中各个图片的名称的匹配度,得到各个匹配度的RANK排名;
匹配获取单元,配置成在所述RANK排名中选取匹配度高于阈值的至少一幅图片,将其作为该网页的原始图片。
9.根据权利要求6至8任一项所述的装置,其中,所述装置还包括:
第二图片获取器,配置成当抓取的目标网页正文中包含有图片链接时,根据所述图片链接提取对应的图片,作为该网页的原始图片。
10.根据权利要求6至9任一项所述的装置,其中,所述图片缩放器包括:
图片规格确定单元,配置成根据所述抽取到的原始图片的长宽尺寸判断规格为横图或竖图;
长度确定单元,配置成根据所述原始图片的规格确定缩小后的最小边长度;
图片缩放单元,配置成根据所述确定的缩小后最小边长度和所述原始图片对应边的原始长度,对所述原始图片进行缩放。
CN201310418309.8A 2013-09-13 2013-09-13 提供网页内容对应缩略图的方法及装置 Pending CN103514271A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310418309.8A CN103514271A (zh) 2013-09-13 2013-09-13 提供网页内容对应缩略图的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310418309.8A CN103514271A (zh) 2013-09-13 2013-09-13 提供网页内容对应缩略图的方法及装置

Publications (1)

Publication Number Publication Date
CN103514271A true CN103514271A (zh) 2014-01-15

Family

ID=49896995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310418309.8A Pending CN103514271A (zh) 2013-09-13 2013-09-13 提供网页内容对应缩略图的方法及装置

Country Status (1)

Country Link
CN (1) CN103514271A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104519144A (zh) * 2015-01-23 2015-04-15 深圳市中兴移动通信有限公司 一种移动终端及其全局限制流量使用的方法和远程服务器
CN105389383A (zh) * 2015-11-30 2016-03-09 中国空间技术研究院 一种卫星总装影像记录查询方法
CN105704293A (zh) * 2014-11-26 2016-06-22 阿里巴巴集团控股有限公司 短信发送者信息的显示方法和装置
CN105868346A (zh) * 2016-03-28 2016-08-17 乐视控股(北京)有限公司 一种应用于网页的图片提取方法及装置
CN106777143A (zh) * 2016-12-19 2017-05-31 北京麒麟合盛网络技术有限公司 一种新闻聚合方法及新闻聚合服务器
CN108920518A (zh) * 2018-06-04 2018-11-30 上海东方报业有限公司 数据生成方法及设备
CN109032711A (zh) * 2018-05-28 2018-12-18 努比亚技术有限公司 一种截图方法、终端及计算机可读存储介质
CN109727257A (zh) * 2018-12-28 2019-05-07 北京金山安全软件有限公司 一种自动裁剪图片的方法、装置及终端
CN113450361A (zh) * 2021-05-14 2021-09-28 山东英信计算机技术有限公司 一种爬虫图片处理方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6275829B1 (en) * 1997-11-25 2001-08-14 Microsoft Corporation Representing a graphic image on a web page with a thumbnail-sized image
CN101950239A (zh) * 2010-09-14 2011-01-19 北京神州泰岳软件股份有限公司 大尺寸图像显示方法及系统
CN102184179A (zh) * 2011-01-30 2011-09-14 北京开心人信息技术有限公司 一种截取照片缩略图的方法及系统
CN102855313A (zh) * 2012-08-24 2013-01-02 北京壹人壹本信息科技有限公司 网页浏览设备、网页摘要的生成方法及网页打开的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6275829B1 (en) * 1997-11-25 2001-08-14 Microsoft Corporation Representing a graphic image on a web page with a thumbnail-sized image
CN101950239A (zh) * 2010-09-14 2011-01-19 北京神州泰岳软件股份有限公司 大尺寸图像显示方法及系统
CN102184179A (zh) * 2011-01-30 2011-09-14 北京开心人信息技术有限公司 一种截取照片缩略图的方法及系统
CN102855313A (zh) * 2012-08-24 2013-01-02 北京壹人壹本信息科技有限公司 网页浏览设备、网页摘要的生成方法及网页打开的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
焦斌星: "用于搜索的网页可视化摘要技术研究", 《中国博士学位论文全文数据库信息科技辑》, no. 01, 15 January 2013 (2013-01-15), pages 1 - 58 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105704293A (zh) * 2014-11-26 2016-06-22 阿里巴巴集团控股有限公司 短信发送者信息的显示方法和装置
CN104519144A (zh) * 2015-01-23 2015-04-15 深圳市中兴移动通信有限公司 一种移动终端及其全局限制流量使用的方法和远程服务器
CN105389383A (zh) * 2015-11-30 2016-03-09 中国空间技术研究院 一种卫星总装影像记录查询方法
CN105389383B (zh) * 2015-11-30 2018-12-21 中国空间技术研究院 一种卫星总装影像记录查询方法
CN105868346A (zh) * 2016-03-28 2016-08-17 乐视控股(北京)有限公司 一种应用于网页的图片提取方法及装置
CN106777143A (zh) * 2016-12-19 2017-05-31 北京麒麟合盛网络技术有限公司 一种新闻聚合方法及新闻聚合服务器
CN109032711A (zh) * 2018-05-28 2018-12-18 努比亚技术有限公司 一种截图方法、终端及计算机可读存储介质
CN108920518A (zh) * 2018-06-04 2018-11-30 上海东方报业有限公司 数据生成方法及设备
CN108920518B (zh) * 2018-06-04 2022-04-01 上海东方报业有限公司 数据生成方法及设备
CN109727257A (zh) * 2018-12-28 2019-05-07 北京金山安全软件有限公司 一种自动裁剪图片的方法、装置及终端
CN113450361A (zh) * 2021-05-14 2021-09-28 山东英信计算机技术有限公司 一种爬虫图片处理方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN103514271A (zh) 提供网页内容对应缩略图的方法及装置
CN107273489B (zh) 内容推送方法、电子设备及计算机存储介质
CN107256109B (zh) 信息显示方法、装置及终端
US11461386B2 (en) Visual recognition using user tap locations
CN105046678B (zh) 一种实现图片拼接的装置、方法和图片处理系统
CN102930523B (zh) 图片处理系统和图片拼接实现方法
CN104933068A (zh) 一种信息搜索的方法和装置
WO2022194102A1 (zh) 图像处理方法、装置、计算机设备、存储介质及程序产品
US20140330814A1 (en) Method, client of retrieving information and computer storage medium
US10867119B1 (en) Thumbnail image generation
CN106919571A (zh) 获取与搜索关键词相匹配的图片的方法及装置
CN103514272A (zh) 提供网页内容对应缩略图的方法及装置
CN106407358B (zh) 一种图像搜索方法、装置及移动终端
JP6419969B2 (ja) 画像の提示情報を提供するための方法及び機器
CN111090817A (zh) 书籍扩展信息的展示方法、电子设备及计算机存储介质
CN106033417B (zh) 视频搜索系列剧的排序方法和装置
CN105447191B (zh) 提供图文引导步骤的智能摘要方法及相应装置
CN107562954B (zh) 基于移动终端的推荐搜索方法、装置以及移动终端
US10963690B2 (en) Method for identifying main picture in web page
CN106897291B (zh) 基于截屏操作的搜索方法及装置
KR101952622B1 (ko) 로컬 색차 기반으로 이미지를 검색하는 방법, 장치, 시스템 및 컴퓨터 프로그램
CN105183907A (zh) 一种移动终端搜索结果展示的方法及装置
Kopf et al. Adaptation of web pages and images for mobile applications
US20180189602A1 (en) Method of and system for determining and selecting media representing event diversity
CN106599287B (zh) 搜索结果处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140115

RJ01 Rejection of invention patent application after publication