CN105589943B - 搜索结果页面的图片适应性处理的方法、装置和服务器 - Google Patents
搜索结果页面的图片适应性处理的方法、装置和服务器 Download PDFInfo
- Publication number
- CN105589943B CN105589943B CN201510945858.XA CN201510945858A CN105589943B CN 105589943 B CN105589943 B CN 105589943B CN 201510945858 A CN201510945858 A CN 201510945858A CN 105589943 B CN105589943 B CN 105589943B
- Authority
- CN
- China
- Prior art keywords
- target photo
- picture
- information
- server
- cryptographic hash
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 111
- 230000008569 process Effects 0.000 title claims abstract description 49
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 24
- 238000003860 storage Methods 0.000 claims description 142
- 238000001914 filtration Methods 0.000 claims description 47
- 238000004140 cleaning Methods 0.000 claims description 29
- 238000012795 verification Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000006399 behavior Effects 0.000 claims description 8
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 238000009966 trimming Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 3
- 230000006978 adaptation Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 description 22
- 238000012545 processing Methods 0.000 description 7
- 239000002699 waste material Substances 0.000 description 6
- 241000239290 Araneae Species 0.000 description 4
- 241000270322 Lepidosauria Species 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000009401 outcrossing Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种搜索结果页面的图片适应性处理的方法、装置和服务器,所述方法包括:获取搜索结果的页面数据,所述搜索结果的页面数据是根据用户在特定应用发出的搜索请求所获取的;根据预设的抓取规则,从搜索结果的页面数据中确定与特定应用对应的目标图片,并获取目标图片的链接信息;根据目标图片的链接信息,抓取目标图片;根据目标图片的链接信息中记录的目标图片的缩略尺寸和图片剪裁方式,对目标图片进行缩略剪裁操作,得到与特定应用的页面显示相适应的缩略图。通过本发明,可以抓取适应不同应用的图片展示尺寸的图片并进行展示,提高了图片在不同应用上的展示效果。
Description
技术领域
本发明涉及数据处理领域,具体而言,涉及一种搜索结果页面的图片适应性处理的方法、装置和服务器。
背景技术
目前,在用户通过搜索引擎搜索信息时,为了提升用户的搜索体验,增加用户点击率,搜索引擎在向用户返回搜索结果的同时会将与搜索结果相关的图片一并展示出来,这样可以让用户通过图片直接、快速地确定最想得到的搜索结果。
相关技术中,为了将搜索结果和相应图片一并展示出来,会通过人工预先根据需要展示给用户的网页中的图片尺寸设置网页爬虫可以抓取的图片尺寸,使得网页爬虫抓取对应图片尺寸的图片,并在抓取到图片后,使得搜索引擎根据得到的各搜索结果权重和规则进行各搜索结果和相应图片的展示。
在通过网页爬虫抓取图片时,图片的抓取策略比较单一,只能对预设尺寸的图片进行抓取,降低了图片的抓取效率,并在不同应用上展示搜索结果和相应图片时,只能以相同的图片尺寸进行图片展示,不能抓取适应不同应用的图片展示尺寸的图片并进行展示,降低了图片在不同应用上的展示效果。
发明内容
有鉴于此,本发明实施例的目的在于提供一种搜索结果页面的图片适应性处理的方法、装置和服务器,可以抓取适应不同应用的图片展示尺寸的图片并进行展示,提高了图片在在不同应用上的展示效果。
第一方面,本发明实施例提供了一种搜索结果页面的图片适应性处理的方法,包括:
获取搜索结果的页面数据,所述搜索结果的页面数据是根据用户在特定应用发出的搜索请求所获取的;
根据预设的抓取规则,从所述搜索结果的页面数据中确定与所述特定应用对应的目标图片,并获取所述目标图片的链接信息;
根据所述目标图片的链接信息,抓取所述目标图片;
根据所述目标图片的链接信息中记录的所述目标图片的缩略尺寸和图片剪裁方式,对所述目标图片进行缩略剪裁操作,得到与所述特定应用的页面显示相适应的缩略图。
结合第一方面,本发明实施例提供了上述第一方面的第一种可能的实现方式,其中,根据预设的抓取规则,从所述搜索结果的页面数据中确定与所述搜索结果对应的目标图片,包括:
从所述搜索结果的页面数据中提取各个图片的尺寸信息和所述图片在搜索结果页面的位置信息;
确定所述图片尺寸信息符合预设尺寸范围且所述图片在搜索结果页面的位置信息在预设网页位置的图片为待抓取图片;
将预设的过滤图片列表中未记录的所述待抓取图片确定为目标图片。
结合第一方面和第一方面的第一种可能的实现方式,本发明实施例提供了上述第一方面的第二种可能的实现方式,其中,在根据预设的抓取规则,从所述搜索结果的页面数据中确定与所述特定应用对应的目标图片,并获取所述目标图片的链接信息之后,所述方法还包括:
根据所述链接信息中携带的公钥,确定与所述公钥对应的私钥;
通过确定的所述私钥对所述链接信息中携带的所述目标图片的地址信息进行加密操作,生成签名验证信息;
当生成的所述签名验证信息与所述目标图片携带的数字签名相一致时,执行抓取所述目标图片步骤。
结合第一方面,本发明实施例提供了上述第一方面的第三种可能的实现方式,其中,根据目标图片的链接信息,抓取所述目标图片,包括:
根据目标图片的链接信息中携带的地址信息,判断在预设抓取时间长度内是否有相同的所述目标图片已经进行了抓取操作;
如果否,则通过网络爬虫抓取所述目标图片。
结合第一方面和第一方面的第三种可能的实现方式,本发明实施例提供了上述第一方面的第四种可能的实现方式,其中,根据目标图片的链接信息,抓取所述目标图片,包括:
当所述目标图片抓取失败时,判断距离最近一次抓取所述目标图片的时长是否达到预设时间长度;
如果是,则当抓取失败的所述目标图片的重复抓取次数未达到预设阈值时,从预设的代理标识列表中获取代理标识,代理标识用于指示代理服务器或者代理进程;
利用网络爬虫,通过获取到的代理标识对应的代理服务器或者代理进程,对抓取失败的所述目标图片进行重新抓取。
结合第一方面,本发明实施例提供了上述第一方面的第五种可能的实现方式,其中,在根据目标图片的链接信息,抓取所述目标图片之后,所述方法还包括:
当通过网络爬虫抓取到所述目标图片时,获取当前各个存储服务器的负载信息;
根据所述各个存储服务器的负载信息,从所述各个存储服务器中确定出负载最小的存储服务器;
将抓取到的所述目标图片发送到所述负载最小的存储服务器进行存储。
结合第一方面的第五种可能的实现方式,本发明实施例提供了上述第一方面的第六种可能的实现方式,其中,当通过网络爬虫抓取到目标图片时,获取当前存储服务器集群中各个存储服务器的负载信息,包括:
获取所述网络爬虫抓取到的所述目标图片;
对抓取到的所述目标图片的图片地址进行哈希计算,得到图片链接哈希值;
生成所述目标图片和对应图片链接哈希值的对应关系,并将生成的目标图片和对应图片链接哈希值的对应关系存储到过滤图片列表中。
结合第一方面和第一方面的第六种可能的实现方式,本发明实施例提供了上述第一方面的第七种可能的实现方式,其中,所述方法还包括:
获取预设清理图片时长内被访问过的图片链接哈希值;
将获取到的图片链接哈希值与所述过滤图片列表中记录的图片链接哈希值进行对比,得到预设清理图片时长内未被访问过的图片链接哈希值;
通过所述目标图片和对应图片链接哈希值的对应关系和所述未被访问过的图片链接哈希值,查找出预设清理图片时长内未被访问过的图片链接哈希值对应的图片进行删除。
第二方面,本发明实施例提供了一种搜索结果页面的图片适应性处理的装置,包括:
数据获取模块,用于获取搜索结果的页面数据,所述搜索结果的页面数据是根据用户在特定应用发出的搜索请求所获取的;
目标图片确定模块,用于根据预设的抓取规则,从搜索结果的页面数据中确定与特定应用对应的目标图片,并获取目标图片的链接信息;
抓取模块,用于根据目标图片的链接信息,抓取所述目标图片;
缩略裁剪模块,用于根据所述目标图片的链接信息中记录的所述目标图片的缩略尺寸和图片剪裁方式,对所述目标图片进行缩略剪裁操作,得到与所述特定应用的页面显示相适应的缩略图。
结合第二方面,本发明实施例提供了上述第二方面的第一种可能的实现方式,其中,所述目标图片确定模块,包括:
图片信息提取单元,用于从所述搜索结果的页面数据中提取各个图片的尺寸信息和所述图片在搜索结果页面的位置信息;
确定单元,用于确定所述图片尺寸信息符合预设尺寸范围且所述图片在搜索结果页面的位置信息在预设网页位置的图片为待抓取图片;
图片过滤单元,用于将预设的过滤图片列表中未记录的所述待抓取图片确定为目标图片。
结合第二方面和第二方面的第一种可能的实现方式,本发明实施例提供了上述第二方面的第二种可能的实现方式,其中,所述装置还包括:
私钥确定单元,用于根据所述链接信息中携带的公钥,确定与所述公钥对应的私钥;
加密单元,用于通过确定的所述私钥对所述链接信息中携带的所述目标图片的地址信息进行加密操作,生成签名验证信息;
执行单元,用于当生成的所述签名验证信息与所述目标图片携带的数字签名相一致时,触发抓取模块抓取所述目标图片。
结合第二方面,本发明实施例提供了上述第二方面的第三种可能的实现方式,其中,所述抓取模块,包括:
第一判断单元,用于根据目标图片的链接信息中携带的地址信息,判断在预设抓取时间长度内是否有相同的所述目标图片已经进行了抓取操作;
抓取单元,用于当第一判断单元得到的判断结果为否时,则通过网络爬虫抓取所述目标图片。
结合第二方面和第二方面的第三种可能的实现方式,本发明实施例提供了上述第二方面的第四种可能的实现方式,其中,所述抓取模块,还包括:
第二判断单元,用于当所述目标图片抓取失败时,判断距离最近一次抓取所述目标图片的时长是否达到预设时间长度;
代理获取单元,用于当第二判断单元得到的判断结果为是时,当抓取失败的所述目标图片的重复抓取次数未达到预设阈值时,从预设的代理标识列表中获取代理标识,代理标识用于指示代理服务器或者代理进程;
重抓单元,用于利用所述网络爬虫,通过获取到的代理标识对应的代理服务器或者代理进程,对抓取失败的所述目标图片进行重新抓取。
结合第二方面和第二方面,本发明实施例提供了上述第二方面的第五种可能的实现方式,其中,所述装置还包括:
负载信息获取模块,用于当通过网络爬虫抓取到所述目标图片时,获取当前各个存储服务器的负载信息;
存储服务器确定模块,用于根据所述各个存储服务器的负载信息,从所述各个存储服务器中确定出负载最小的存储服务器;
存储模块,用于将抓取到的所述目标图片发送到所述负载最小的存储服务器进行存储。
结合第二方面的第五种可能的实现方式,本发明实施例提供了上述第二方面的第六种可能的实现方式,其中,所述负载信息获取模块,包括:
图片获取单元,用于获取所述网络爬虫抓取到的所述目标图片;
计算单元,用于对抓取到的所述目标图片的图片地址进行哈希计算,得到图片链接哈希值;
存储单元,用于生成所述目标图片和对应图片链接哈希值的对应关系,并将生成的目标图片和对应图片链接哈希值的对应关系存储到过滤图片列表中。
结合第二方面和第二方面的第六种可能的实现方式,本发明实施例提供了上述第二方面的第七种可能的实现方式,其中,所述装置还包括:
图片哈希值获取模块,用于获取预设清理图片时长内被访问过的图片链接哈希值;
对比模块,用于将获取到的图片链接哈希值与所述过滤图片列表中记录的图片链接哈希值进行对比,得到预设清理图片时长内未被访问过的图片链接哈希值;
未访问图片删除模块,用于通过所述目标图片和对应图片链接哈希值的对应关系和所述未被访问过的图片链接哈希值,查找出预设清理图片时长内未被访问过的图片链接哈希值对应的图片进行删除。
第三方面,本发明实施例提供一种服务器,所述服务器包括:处理器和接收器;
所述接收器,用于接收搜索结果的页面数据,所述搜索结果的页面数据是根据用户在特定应用发出的搜索请求所获取的;
所述处理器,用于根据预设的抓取规则,从所述搜索结果的页面数据中确定与所述特定应用对应的目标图片,并获取所述目标图片的链接信息;根据所述目标图片的链接信息,抓取所述目标图片;根据所述目标图片的链接信息中记录的所述目标图片的缩略尺寸和图片剪裁方式,对所述目标图片进行缩略剪裁操作,得到与所述特定应用的页面显示相适应的缩略图。
本发明实施例提供的搜索结果页面的图片适应性处理的方法、装置和服务器,从接收到的搜索结果的页面数据中确定与特定应用对应的目标图片,并在抓取到目标图片后,根据目标图片的链接信息中记录的目标图片的缩略尺寸和图片剪裁方式对目标图片进行缩略剪裁操作,得到与特定应用的页面显示相适应的缩略图,与现有技术中只能抓取预设尺寸的图片的过程相比,可以抓取不同尺寸的图片,提高了图片的抓取效率;而且,可以在抓取到图片后根据不同应用的图片展示尺寸对图片进行处理得到图片的缩略图,提高了图片在不同应用上的展示效果。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例1所提供的一种搜索结果页面的图片适应性处理的方法的流程图;
图2示出了本发明实施例2所提供的一种搜索结果页面的图片适应性处理的装置的结构示意图;
图3示出了本发明实施例3所提供的一种服务器的结构示意图。
具体实施方式
发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
考虑到相关技术中在通过网页爬虫抓取图片时,图片的抓取策略比较单一,只能对预设尺寸的图片进行抓取,降低了图片的抓取效率,并在不同应用上展示搜索结果和相应图片时,只能以相同的图片尺寸进行图片展示,不能抓取适应不同应用的图片展示尺寸的图片并进行展示,降低了图片在不同应用上的展示效果。基于此,本发明实施例提供了一种搜索结果页面的图片适应性处理的方法、装置和服务器,下面通过实施例进行描述。
实施例1
本实施例提供了一种搜索结果页面的图片适应性处理的方法。本实施例的执行主体是后台服务器,特定应用安装在前端服务器上,当用户通过特定应用的搜索界面发起搜索请求后,前端服务器在得到搜索结果后,会将搜索结果的页面数据发送到后台服务器,由后台服务器根据搜索结果的页面数据进行图片抓取,并对抓取到的图片进行剪裁,得到与特定应用相适应的缩略图。
参见图1,本实施例提供了一种搜索结果页面的图片适应性处理的方法,包括以下步骤:
步骤100、获取搜索结果的页面数据,所述搜索结果的页面数据是根据用户在特定应用发出的搜索请求所获取的。
其中,特定应用,是指新闻、视频或者百科等设置有搜索引擎的应用,使得用户在使用这些特定应用时,可以通过这些特定应用设置的搜索引擎搜索用户自身比较感兴趣的内容。
搜索结果是前端服务器获取到用户通过特定应用的搜索引擎发出的搜索请求后,根据搜索请求查询到的搜索内容;通常情况下,搜索结果会以网页的形式表现出来。
此外,后台服务器除了通过相应的前端服务器获取搜索结果之外,还可以接收其他第三方服务器发送的搜索结果,或者由后台服务器自身直接搜索以获取搜索结果,这几种方式都可以使后台服务器得到根据用户在特定应用发出的搜索请求所获取的相应搜索结果的页面数据。
搜索结果的页面数据,包括但不限于:搜索结果的页面中所显示出来的文字、引用的网页的地址信息和引用的图片的地址信息、尺寸信息以及图片在搜索结果页面的位置信息。
后台服务器通过预设的接口接收不同特定应用的前端服务器发送的搜索结果的页面数据。
步骤102、根据预设的抓取规则,从搜索结果的页面数据中确定与特定应用对应的目标图片,并获取目标图片的链接信息。
其中,目标图片,就是对搜索结果的页面数据中显示的多张图片中通过设定的抓取规则筛选后,得到的可以直接表达出搜索结果内容的图片。目标图片的链接信息,至少包括目标图片的地址信息。
步骤104、根据目标图片的链接信息,抓取目标图片。
步骤106、根据目标图片的链接信息中记录的目标图片的缩略尺寸和图片剪裁方式,对目标图片进行缩略剪裁操作,得到与特定应用的页面显示相适应的缩略图。
在步骤106中,对目标图片的缩略裁剪操作,包括:对图片进行缩略操作和剪裁操作。缩略操作是按照目标图片的链接信息中记录的目标图片的缩略尺寸将尺寸较大的目标图片缩略到指定的尺寸的操作,支持按长高比例缩略目标图片、按指定长度缩略目标图片、按指定高度缩略目标图片、按指定长度和高度等缩略方式;裁剪操作是按照目标图片的链接信息中记录的图片剪裁策略,对目标图片进行剪裁得到缩略图的操作,支持从左上角到右下角对目标图片进行剪裁的操作、从左下角到右上角对目标图片进行剪裁的操作、对目标图片进行中间裁剪等方案。
缩略和裁剪的操作根据用户所使用的该特定应用而确定,可以包括由不同的缩略操作和裁剪的操作组合形成,后台服务器根据特定应用指定的缩略和裁剪方式,对目标图片进行缩略和剪裁操作,得到与特定应用的页面显示相适应的缩略图。
综上所述,本实施例提供的搜索结果页面的图片适应性处理的方法,从接收到的搜索结果的页面数据中确定与特定应用对应的目标图片,并在抓取到目标图片后,根据目标图片的链接信息中记录的目标图片的缩略尺寸和图片剪裁方式对目标图片进行缩略剪裁操作,得到与特定应用的页面显示相适应的缩略图,与现有技术中只能抓取预设尺寸的图片的过程相比,可以抓取不同尺寸的图片,提高了图片的抓取效率;而且,可以在抓取到图片后根据不同应用的图片展示尺寸对图片进行处理得到图片的缩略图,提高了图片在不同应用上的展示效果。
相关技术中,不论图片是否与用户的搜索行为相关,网络爬虫均会直接根据设定的图片尺寸在网络上抓取符合图片尺寸的图片并存储到服务器中,这大大浪费了服务器的存储资源。为了节省服务器的存储资源,本发明实施例根据预设的抓取规则,从搜索结果的页面数据中确定与搜索结果对应的目标图片,其包括以下步骤1至步骤3:
(1)从搜索结果的页面数据中提取各个图片的尺寸信息和图片在搜索结果页面的位置信息。
(2)确定图片尺寸信息符合预设尺寸范围且图片在搜索结果页面的位置信息在预设网页位置的图片为待抓取图片。
(3)将预设的过滤图片列表中未记录的待抓取图片确定为目标图片。
预设网页位置,是指搜索结果的页面上的预设网页区域,是网页中显示正文部分的区域,在该预设网页区域内出现的图片说明是处于网页的正文部分的图片,而大部分网页中出现的广告图片、推广图片一般只会出现在搜索结果的页面两侧的非正文区域,所以通过选取处于网页的正文部分的图片作为待抓取图片,可以将搜索结果的页面中的广告图片、推广图片过滤掉,提高所选取的图片对搜索结果表达的准确性。
过滤图片列表预先设定在后台服务器中,存储有后台服务器获取到的所有目标图片与图片链接哈希值的对应关系。其中,图片链接哈希值是由目标图片的地址信息经过哈希计算后得到的,用于唯一标识被后台服务器处理过的图片。
在步骤1中,为了把搜索结果的页面数据中的一些明显代表不了搜索结果内容的图片过滤掉,比如包括标题图标、网站图标、按钮图标等图片。由于标题图标、网站图标、按钮图标等图片的尺寸只能在预定的尺寸内,而且也都会设定在网页的特定位置上,所以后台服务器从搜索结果的页面数据的文本信息中提取各个图片的尺寸信息和图片在搜索结果页面的位置信息,来对搜索结果的页面数据中标题图标、网站图标、按钮图标等图片进行过滤。
在步骤2中,根据提取的各个图片的尺寸信息和图片在搜索结果页面的位置信息,在过滤掉标题图标、网站图标、按钮图标等的图片中选取处于网页的正文部分、大小适合常规显示以及长宽比率协调的图片,作为待抓取图片。
通过获取到的图片尺寸信息与设定的大小适合常规显示以及长宽比率协调的图片尺寸进行对比,确定获取到的图片尺寸是否符合要求,从而对获取到的图片进行过滤。
由于一个图片链接仅能代表一个搜索结果,使用历史上其他搜索结果的筛选的图片信息进行交叉过滤,保留下来没有被其他搜索结果选中的图片作为搜索结果的缩略图。所以,在步骤3中,将预设的过滤图片列表中未记录的待抓取图片确定为目标图片包括以下步骤3a至步骤3b:
(3a)通过布隆过滤器算法,从预设的过滤图片列表中确定出未记录的待抓取图片;
(3b)将过滤图片列表中未记录的待抓取图片确定为目标图片。
综上所述,在进行图片抓取之前,先从网页中提取图片的链接信息,然后根据图片的链接信息携带的图片尺寸信息和图片在搜索结果页面的位置信息,确定符合抓取要求的图片,最后通过布隆过滤器算法进行图片查重操作,将过滤图片列表中记录的图片过滤掉,并从通过查重操作后留下的图片中选择任意一张作为目标图片,从而在图片抓取之前,对图片进行过滤,只对符合过滤要求的图片进行抓取,从而节约了存储资源。
相关技术中,网络爬虫在进行图片抓取时,会消耗一定的服务器资源,当服务器同时接收到海量的搜索结果页面时,可能由于系统资源紧张而处理不过来,而且,网络爬虫在进行图片抓取时,可能会遭受网络黑客的攻击,所以,为了降低服务器进行图片抓取的处理量,同时提高网络爬虫进行图片抓取时的安全性,在根据预设的抓取规则,从搜索结果的页面数据中确定与特定应用对应的目标图片,并获取目标图片的链接信息之后,该方法还包括以下步骤1至步骤3:
(1)根据链接信息中携带的公钥,确定与公钥对应的私钥;
(2)通过确定的私钥对的链接信息中携带的目标图片的地址信息进行加密操作,生成签名验证信息;
(3)当生成的签名验证信息与目标图片携带的数字签名相一致时,执行抓取目标图片步骤。
以上实例中,在步骤1中目标图片的链接信息还包括:特定应用的数字签名和后台服务器向特定应用发送的公钥。
目标图片携带的数字签名的生成过程如下:特定应用在获取到用户触发的搜索行为后,会先通过搜索引擎得到搜索结果,然后对得到的搜索结果的网页进行处理,处理过程包括:在得到的搜索结果的网页上设置每张图片对应的数字签名,并将服务器预先分配的公钥设置在搜索结果的页面数据中,然后将处理后的搜索结果页面发送给后台服务器,使得后台服务器进行搜索结果的网页数据中目标图片的筛选和抓取。
搜索结果的网页上设置的每张图片对应的数字签名,是运行特定应用的前端服务器根据后台服务器分配的与公钥配对的私钥对搜索结果的网页中每张图片的地址信息进行加密后得到的。
综上所述,根据与目标图片的链接信息中携带的公钥对应的私钥,生成签名验证信息,并根据生成的签名验证信息对目标图片的数字签名进行验证,只有在验证通过时,才会通过网络爬虫抓取目标图片,从而可以大大降低网络爬虫抓取图片的数量,并且同时可以保证网络爬虫抓取图片时的安全性。
相关技术中,如果服务器在一段时间内收到多个针对同一个图片链接的抓取请求时,会根据抓取请求反复对该图片链接进行抓取,所以会在短时间内增加系统资源的消耗,所以,为了避免在短时间内对同一图片链接进行反复抓取,根据目标图片的链接信息,抓取目标图片,包括以下步骤1至步骤3:
(1)根据目标图片的链接信息中携带的地址信息,判断在预设抓取时间长度内是否有相同的目标图片已经进行了抓取操作,如果是则执行步骤2,如果否则执行步骤3;
(2)不执行目标图片的抓取操作;
(3)通过网络爬虫抓取目标图片。
在上述步骤中,后台服务器会将需要网络爬虫抓取的目标图片的地址信息存储在预设的链接消息中间件中,使得网络爬虫根据链接消息中间件中记录的目标图片的地址信息顺序,逐一进行目标图片的抓取,并在开始某一目标图片抓取时,记录该目标图片的最近一次的抓取时间和已抓取次数。
所以步骤1包括以下步骤1a至步骤1c:
(1a)获取链接消息中间件中记录的目标图片的地址信息;
(1b)查询链接消息中间件中记录的目标图片的地址信息中是否具有当前待抓取的目标图片的链接信息中携带的地址信息,如果具有则执行步骤1c,如果否则执行步骤2;
(1c)判断距离上次抓取该目标图片的时间长度是否达到预设抓取时间长度,如果是则执行步骤2,如果否则执行步骤3。
综上所述,在进行图片获取之前,先判断在预设抓取时间长度内是否有相同的目标图片已经通过网络爬虫进行了抓取,如果是,则不执行本次的抓取请求,从而减少了网络爬虫的抓取次数,避免了在短时间内对同一图片链接进行反复抓取造成系统资源消耗较大的缺陷。
在抓取目标图片后,判断目标图片是否抓取成功,如果抓取失败,则执行下述的对抓取失败的目标图片进行重复抓取的流程,如果抓取成功,则执行下述的目标图片存储的流程。
相关技术中,在网络爬虫根据某个图片的图片地址抓取不到相应的目标图片时,服务器会反复请求网络爬虫通过图片地址抓取目标图片,从而会增大服务器的系统开销,进一步降低服务器的处理效率,所以,为了保证服务器的处理效率,根据目标图片的链接信息,抓取目标图片,包括以下步骤1至步骤4:
(1)当目标图片抓取失败时,判断距离最近一次抓取目标图片的时长是否达到预设时间长度,如果是至则执行步骤2,如果否则执行步骤4;
(2)当抓取失败的目标图片的重复抓取次数未达到预设阈值时,从预设的代理标识列表中获取代理标识,代理标识用于指示代理服务器或者代理进程;
(3)利用网络爬虫,通过获取到的代理标识对应的代理服务器或者代理进程,对抓取失败的目标图片进行重新抓取;
(4)不执行对抓取失败的目标图片进行重新抓取的操作。
在步骤3中,后台服务器控制网络爬虫通过代理标识对应的代理服务器或者代理进程,对抓取失败的目标图片的地址信息进行访问,以对抓取失败的目标图片进行重新抓取。
综上所述,只有在距离最近一次抓取失败的目标图片的时长达到预设时间长度时,才会对抓取失败的目标图片进行重新抓取,而不会反复请求网络爬虫通过图片地址抓取目标图片,进一步避免了增大服务器的系统开销,保证了服务器的处理效率,而且,通过代理服务器或者代理进程对抓取失败的目标图片进行重新抓取,可以提高抓取图片的成功率。
相关技术中,在通过网络爬虫获取到目标图片后,会随机将获取的目标图片存储到存储服务器集群中的任意服务器中,所以会造成存储服务器集群中各个存储服务器中存储的目标图片不均衡,所以,为了尽可能使存储服务器集群中各个存储服务器中存储数据尽可能均衡,在根据目标图片的链接信息,抓取目标图片之后,本实例提出的搜索结果页面的图片适应性处理的方法还包括以下步骤1至步骤3:
(1)当通过网络爬虫抓取到目标图片时,获取当前各个存储服务器的负载信息;
(2)根据各个存储服务器的负载信息,从各个存储服务器中确定出负载最小的存储服务器;
(3)将抓取到的目标图片发送到负载最小的存储服务器进行存储。
负载信息,包括:存储服务器当前的存储空间使用百分比以及中央处理器、内存等系统资源当前使用百分比。存储服务器会实时收集自身的资源使用情况,并发送给后台服务器,后台服务器在接收到存储服务器发送的资源使用情况后,会将各个存储服务器发送的资源使用情况记录在预设的负载信息列表中。
在步骤1中,后台服务器从负载信息列表中获取当前各个存储服务器的负载信息。
可选地,服务器也可以在不自行接收存储服务器发送的资源使用情况下,在得到当前存储服务器的负载信息时,可以在抓取目标图片之前,通过对得到的目标图片的地址信息进行哈希计算后得到的哈希值进行负载信息计算,得出负载信息,从而能够提前预知到各个服务器的负载情况。
步骤2包括以下步骤2a至2b:
(2a)根据各个存储服务器的负载信息中记录的存储空间使用百分比,确定出存储空间使用百分比最小的存储服务器,作为负载最小的存储服务器;
(2b)当有至少两个存储服务器的存储空间使用百分比最小且相同时,从该至少两个存储服务器中确定系统资源当前使用百分比最小的存储服务器,作为负载最小的存储服务器。
综上所述,通过根据当前存储服务器集群中各个存储服务器的负载信息,确定出各个存储服务器中负载最小的存储服务器,并将将抓取到的目标图片存储到负载最小的存储服务器中,从而保证了存储服务器集群中各个存储服务器中存储数据尽可能均衡,避免负载不均衡情况的出现。
后台服务器为了对存储服务器中存储的图片进行管理,所以需要对存储的图片的信息进行统计和记录,所以,当通过网络爬虫抓取到目标图片时,获取当前存储服务器集群中各个存储服务器的负载信息,包括以下步骤1至步骤3:
(1)获取网络爬虫抓取到的目标图片;
(2)对抓取到的目标图片的图片地址进行哈希计算,得到图片链接哈希值;
(3)生成目标图片和对应图片链接哈希值的对应关系,并将生成的目标图片和对应图片链接哈希值的对应关系存储到过滤图片列表中。
通过以上描述可以看出,对抓取到目标图片的图片地址进行哈希计算,并生成目标图片和对应图片链接哈希值的对应关系存储在过滤图片列表中,可以通过服务器可以对存储服务器集群中各个存储服务器存储的目标图片进行管理的同时,尽可能减少图片对服务器资源的占用,提高服务器资源的使用效率。
在得到缩略图之后,本实例提出的搜索结果页面的图片适应性处理的方法还包括以下步骤1至步骤2:
(1)将得到的缩略图返回运行特定应用的前端服务器,使得特定应用将缩约图和搜索结果页面展示给用户,并将缩略图对应图片的图片链接哈希值记录到预设的访问日志中,表示该图片链接哈希值对应的缩略图被用户访问过;
(2)将得到的缩略图缓存到预设的图片缓存区域中。
在步骤1中,接收前端服务器发送的搜索结果的页面数据并将缩略图返回运行特定应用的前端服务器,使用的是阿里巴巴集团事件驱动网络库实现。
在步骤2中,通过将得到的缩略图缓存到预设的图片缓存区域中,可以使用户再次访问该缩略图时,加快用户的访问速度,提高用户体验。
相关技术中,随着存储服务器集群中存储的目标图片越来越多,有些历史目标图片在很长时间内都没有被使用过,但仍然会占用大量的存储资源,为了提高存储资源的使用效率,本实例提出的搜索结果页面的图片适应性处理的方法还包括以下步骤1至步骤4:
(1)获取预设清理图片时长内被访问过的图片链接哈希值;
(2)将获取到的图片链接哈希值与过滤图片列表中记录的图片链接哈希值进行对比,得到预设清理图片时长内过滤图片列表中未被访问过的图片链接哈希值;
(3)通过目标图片和对应图片链接哈希值的对应关系和未被访问过的图片链接哈希值,查找出预设清理图片时长内未被访问过的图片链接哈希值对应的图片进行删除。
在步骤1中,后台服务器从预设的访问日志中获取预设清理图片时长内被访问过的图片链接哈希值。
步骤2包括以下步骤2a至步骤2b:
(2a)获取过滤图片列表中记录的目标图片和对应图片链接哈希值的对应关系;
(2b)将获取到的图片链接哈希值与目标图片和对应图片链接哈希值的对应关系中记录的图片链接哈希值进行对比,得到预设清理图片时长内过滤图片列表中未被访问过的图片链接哈希值。
在步骤3中,可以采用映射规约(map-reduce)的方式并行对清理图片时长内未被访问过的图片进行删除操作,包括以下步骤3a至步骤3d:
(3a)按照指定的哈希值范围和多个并发作业线程的对应关系,启动多个并发作业线程,每个并发作业线程读取过滤图片列表内对应哈希值范围内的图片;
(3b)启动多个并发作业实例,从日志系统中读取清理图片时长内的访问日志,按照映射规约(map-reduce)方式,输出对应哈希值范围的过滤图片列表;
(3c)按照哈希值指定范围,启动多个并发作业线程,对过滤图片列表和访问日志中记录的图片链接哈希值进行并行差集计算;
(3d)按照哈希值指定范围,启动多个并发作业线程,对存储服务器中存储的清理图片时长内未被访问过的图片并行执行删除操作。
综上所述,定期获取访问日志中记录的图片链接哈希值,并根据获取到的图片链接哈希值确定出图片清理图片时长内未被访问过的图片,并对确定出的图片进行删除操作,从而定期清除不使用的图片,减少不必要的存储资源的浪费,提高存储资源的使用效率。
实施例2
参见图2,本实施例提供了一种搜索结果页面的图片适应性处理的装置,用于执行上述实施例1提供的搜索结果页面图片适应性处理的方法,包括:
数据获取模块200,用于获取搜索结果的页面数据,所述搜索结果的页面数据是根据用户在特定应用发出的搜索请求所获取的。
目标图片确定模块202,用于根据预设的抓取规则,从搜索结果的页面数据中确定与特定应用对应的目标图片,并获取目标图片的链接信息;
抓取模块204,用于根据目标图片的链接信息,抓取目标图片;
缩略裁剪模块206,用于根据目标图片的链接信息中记录的目标图片的缩略尺寸和图片剪裁方式,对目标图片进行缩略剪裁操作,得到与特定应用的页面显示相适应的缩略图。
相关技术中,不论图片是否与用户的搜索行为相关,网络爬虫均会直接根据设定的图片尺寸在网络上抓取符合图片尺寸的图片并存储到服务器中,这大大浪费了服务器的存储资源,为了节省服务器的存储资源,目标图片确定模块202,包括:
图片信息提取单元,用于从搜索结果的页面数据中提取各个图片的尺寸信息和图片在搜索结果页面的位置信息;
确定单元,用于确定图片尺寸信息符合预设尺寸范围且图片在搜索结果页面的位置信息在预设网页位置的图片为待抓取图片;
图片过滤单元,用于将预设的过滤图片列表中未记录的待抓取图片确定为目标图片。
综上所述,在进行图片抓取之前,先从网页中提取图片的链接信息,然后根据图片的链接信息携带的图片尺寸信息和图片在搜索结果页面的位置信息,确定符合抓取要求的图片,最后通过布隆过滤器算法进行图片查重操作,将过滤图片列表中记录的图片过滤掉,并从通过查重操作后留下的图片中选择任意一张作为目标图片,从而在图片抓取之前,对图片进行过滤,只对符合过滤要求的图片进行抓取,从而节约了存储资源。
相关技术中,网络爬虫在进行图片抓取时,会消耗一定的服务器资源,当服务器同时接收到海量的搜索结果页面时,可能由于系统资源紧张而处理不过来,而且,网络爬虫在进行图片抓取时,可能会遭受网络黑客的攻击,所以,为了降低服务器进行图片抓取的处理量,同时提高网络爬虫进行图片抓取时的安全性,该装置还包括:
私钥确定单元,用于根据链接信息中携带的公钥,确定与公钥对应的私钥;
加密单元,用于通过确定的私钥对链接信息中携带的目标图片的地址信息进行加密操作,生成签名验证信息;
执行单元,用于当生成的签名验证信息与目标图片携带的数字签名相一致时,触发抓取模块抓取目标图片。
综上所述,根据与目标图片的链接信息中携带的公钥对应的私钥,生成签名验证信息,并根据生成的签名验证信息对目标图片的数字签名进行验证,只有在验证通过时,才会通过网络爬虫抓取目标图片,从而可以大大降低网络爬虫抓取图片的数量,并且同时可以保证网络爬虫抓取图片时的安全性。
相关技术中,如果服务器在一段时间内收到多个针对同一个图片链接的抓取请求时,会根据抓取请求反复对该图片链接进行抓取,所以会在短时间内增加系统资源的消耗,所以,为了避免在短时间内对同一图片链接进行反复抓取,抓取模块204,包括:
第一判断单元,用于根据目标图片的链接信息中携带的地址信息,判断在预设抓取时间长度内是否有相同的目标图片已经进行了抓取操作;
抓取单元,用于当第一判断单元得到的判断结果为否时,则通过网络爬虫抓取目标图片。
综上所述,在进行图片获取之前,先判断在预设抓取时间长度内是否有相同的目标图片已经通过网络爬虫进行了抓取,如果是,则不执行本次的抓取请求,从而减少了网络爬虫的抓取次数,避免了在短时间内对同一图片链接进行反复抓取造成系统资源消耗较大的缺陷。
相关技术中,在网络爬虫根据某个图片的图片地址抓取不到相应的目标图片时,服务器会反复请求网络爬虫通过图片地址抓取目标图片,从而会增大服务器的系统开销,进一步降低服务器的处理效率,所以,为了保证服务器的处理效率,抓取模块204,还包括:
第二判断单元,用于当目标图片抓取失败时,判断距离最近一次抓取目标图片的时长是否达到预设时间长度;
代理获取单元,用于当第二判断单元得到的判断结果为是时,当抓取失败的目标图片的重复抓取次数未达到预设阈值时,从预设的代理标识列表中获取代理标识,代理标识用于指示代理服务器或者代理进程;
重抓单元,用于利用网络爬虫,通过获取到的代理标识对应的代理服务器或者代理进程,对抓取失败的目标图片进行重新抓取。
综上所述,只有在距离最近一次抓取失败的目标图片的时长达到预设时间长度时,才会对抓取失败的目标图片进行重新抓取,而不会反复请求网络爬虫通过图片地址抓取目标图片,进一步避免了增大服务器的系统开销,保证了服务器的处理效率,而且,通过代理服务器或者代理进程对抓取失败的目标图片进行重新抓取,可以提高抓取图片的成功率。
相关技术中,在通过网络爬虫获取到目标图片后,会随机将获取的目标图片存储到存储服务器集群中的任意服务器中,所以会造成存储服务器集群中各个存储服务器中存储的目标图片不均衡,所以,为了尽可能使存储服务器集群中各个存储服务器中存储数据尽可能均衡,该装置还包括:
负载信息获取模块,用于当通过网络爬虫抓取到目标图片时,获取当前各个存储服务器的负载信息;
存储服务器确定模块,用于根据各个存储服务器的负载信息,从各个存储服务器中确定出负载最小的存储服务器;
存储模块,用于将抓取到的目标图片发送到负载最小的存储服务器进行存储。
综上所述,通过根据当前存储服务器集群中各个存储服务器的负载信息,确定出各个存储服务器中负载最小的存储服务器,并将将抓取到的目标图片存储到负载最小的存储服务器中,从而保证了存储服务器集群中各个存储服务器中存储数据尽可能均衡,避免负载不均衡情况的出现。
后台服务器为了对存储服务器中存储的图片进行管理,所以需要对存储的图片的信息进行统计和记录,所以,负载信息获取模块,包括:
图片获取单元,用于获取网络爬虫抓取到的目标图片;
计算单元,用于对抓取到的目标图片的图片地址进行哈希计算,得到图片链接哈希值;
存储单元,用于生成目标图片和对应图片链接哈希值的对应关系,并将生成的目标图片和对应图片链接哈希值的对应关系存储到过滤图片列表中。
通过以上描述可以看出,对抓取到目标图片的图片地址进行哈希计算,并生成目标图片和对应图片链接哈希值的对应关系存储在过滤图片列表中,可以通过服务器可以对存储服务器集群中各个存储服务器存储的目标图片进行管理的同时,尽可能降低了服务器资源的使用。
相关技术中,随着存储服务器集群中存储的目标图片越来越多,有些历史目标图片在很长时间内都没有被使用过,但仍然会占用大量的存储资源,为了提高存储资源的使用效率,该装置还包括:
图片哈希值获取模块,用于获取预设清理图片时长内被访问过的图片链接哈希值;
对比模块,用于将获取到的图片链接哈希值与过滤图片列表中记录的图片链接哈希值进行对比,得到预设清理图片时长内未被访问过的图片链接哈希值;
未访问图片删除模块,用于通过目标图片和对应图片链接哈希值的对应关系和未被访问过的图片链接哈希值,查找出预设清理图片时长内未被访问过的图片链接哈希值对应的图片进行删除。
综上所述,定期获取访问日志中记录的图片链接哈希值,并根据获取到的图片链接哈希值确定出图片清理图片时长内未被访问过的图片,并对确定出的图片进行删除操作,从而定期清除不使用的图片,减少不必要的存储资源的浪费,提高存储资源的使用效率。
综上所述,本实施例提供的搜索结果页面的图片适应性处理的装置,从接收到的搜索结果的页面数据中确定与特定应用对应的目标图片,并在抓取到目标图片后,根据目标图片的链接信息中记录的目标图片的缩略尺寸和图片剪裁方式对目标图片进行缩略剪裁操作,得到与特定应用的页面显示相适应的缩略图,与现有技术中只能抓取预设尺寸的图片的过程相比,可以抓取不同尺寸的图片,提高了图片的抓取效率;而且,可以在抓取到图片后根据不同应用的图片展示尺寸对图片进行处理得到图片的缩略图,提高了图片在不同应用上的展示效果。
实施例3
参见图3,本发明实施例提供了一种服务器,该服务器用于执行上述的搜索结果页面的图片适应性处理的方法,服务器包括:处理器300和接收器302;
接收器,用于接收搜索结果的页面数据,所述搜索结果的页面数据是根据用户在特定应用发出的搜索请求所获取的;
处理器,用于根据预设的抓取规则,从搜索结果的页面数据中确定与特定应用对应的目标图片,并获取目标图片的链接信息;根据目标图片的链接信息,抓取目标图片;根据目标图片的链接信息中记录的目标图片的缩略尺寸和图片剪裁方式,对目标图片进行缩略剪裁操作,得到与特定应用的页面显示相适应的缩略图。
相关技术中,不论图片是否与用户的搜索行为相关,网络爬虫均会直接根据设定的图片尺寸在网络上抓取符合图片尺寸的图片并存储到服务器中,这大大浪费了服务器的存储资源,为了节省服务器的存储资源,处理器300具体用于:
从搜索结果的页面数据中提取各个图片的尺寸信息和图片在搜索结果页面的位置信息;确定图片尺寸信息符合预设尺寸范围且图片在搜索结果页面的位置信息在预设网页位置的图片为待抓取图片;将预设的过滤图片列表中未记录的待抓取图片确定为目标图片。
综上所述,在进行图片抓取之前,先从网页中提取图片的链接信息,然后根据图片的链接信息携带的图片尺寸信息和图片在搜索结果页面的位置信息,确定符合抓取要求的图片,最后通过布隆过滤器算法进行图片查重操作,将过滤图片列表中记录的图片过滤掉,并从通过查重操作后留下的图片中选择任意一张作为目标图片,从而在图片抓取之前,对图片进行过滤,只对符合过滤要求的图片进行抓取,从而节约了存储资源。
相关技术中,网络爬虫在进行图片抓取时,会消耗一定的服务器资源,当服务器同时接收到海量的搜索结果页面时,可能由于系统资源紧张而处理不过来,而且,网络爬虫在进行图片抓取时,可能会遭受网络黑客的攻击,所以,为了降低服务器进行图片抓取的处理量,同时提高网络爬虫进行图片抓取时的安全性,处理器300还具体用于:
根据链接信息中携带的公钥,确定与公钥对应的私钥;通过确定的私钥对链接信息中携带的目标图片的地址信息进行加密操作,生成签名验证信息;当生成的签名验证信息与目标图片携带的数字签名相一致时,触发抓取模块抓取目标图片。
综上所述,根据与目标图片的链接信息中携带的公钥对应的私钥,生成签名验证信息,并根据生成的签名验证信息对目标图片的数字签名进行验证,只有在验证通过时,才会通过网络爬虫抓取目标图片,从而可以大大降低网络爬虫抓取图片的数量,并且同时可以保证网络爬虫抓取图片时的安全性。
相关技术中,如果服务器在一段时间内收到多个针对同一个图片链接的抓取请求时,会根据抓取请求反复对该图片链接进行抓取,所以会在短时间内增加系统资源的消耗,所以,为了避免在短时间内对同一图片链接进行反复抓取,处理器300还具体用于:
根据目标图片的链接信息中携带的地址信息,判断在预设抓取时间长度内是否有相同的目标图片已经进行了抓取操作;如果否,则通过网络爬虫抓取目标图片。
综上所述,在进行图片获取之前,先判断在预设抓取时间长度内是否有相同的目标图片已经通过网络爬虫进行了抓取,如果是,则不执行本次的抓取请求,从而减少了网络爬虫的抓取次数,避免了在短时间内对同一图片链接进行反复抓取造成系统资源消耗较大的缺陷。
相关技术中,在网络爬虫根据某个图片的图片地址抓取不到相应的目标图片时,服务器会反复请求网络爬虫通过图片地址抓取目标图片,从而会增大服务器的系统开销,进一步降低服务器的处理效率,所以,为了保证服务器的处理效率,处理器300还具体用于:
当目标图片抓取失败时,判断距离最近一次抓取目标图片的时长是否达到预设时间长度;如果是,当抓取失败的目标图片的重复抓取次数未达到预设阈值时,从预设的代理标识列表中获取代理标识,代理标识用于指示代理服务器或者代理进程;利用网络爬虫,通过获取到的代理标识对应的代理服务器或者代理进程,对抓取失败的目标图片进行重新抓取。
综上所述,只有在距离最近一次抓取失败的目标图片的时长达到预设时间长度时,才会对抓取失败的目标图片进行重新抓取,而不会反复请求网络爬虫通过图片地址抓取目标图片,进一步避免了增大服务器的系统开销,保证了服务器的处理效率,而且,通过代理服务器或者代理进程对抓取失败的目标图片进行重新抓取,可以提高抓取图片的成功率。
相关技术中,在通过网络爬虫获取到目标图片后,会随机将获取的目标图片存储到存储服务器集群中的任意服务器中,所以会造成存储服务器集群中各个存储服务器中存储的目标图片不均衡,所以,为了尽可能使存储服务器集群中各个存储服务器中存储数据尽可能均衡,处理器300还具体用于:
当通过网络爬虫抓取到目标图片时,获取当前各个存储服务器的负载信息;根据各个存储服务器的负载信息,从各个存储服务器中确定出负载最小的存储服务器;将抓取到的目标图片发送到负载最小的存储服务器进行存储。
综上所述,通过根据当前存储服务器集群中各个存储服务器的负载信息,确定出各个存储服务器中负载最小的存储服务器,并将将抓取到的目标图片存储到负载最小的存储服务器中,从而保证了存储服务器集群中各个存储服务器中存储数据尽可能均衡,避免负载不均衡情况的出现。
后台服务器为了对存储服务器中存储的图片进行管理,所以需要对存储的图片的信息进行统计和记录,所以,处理器300还具体用于:
获取网络爬虫抓取到的目标图片;对抓取到的目标图片的图片地址进行哈希计算,得到图片链接哈希值;生成目标图片和对应图片链接哈希值的对应关系,并将生成的目标图片和对应图片链接哈希值的对应关系存储到过滤图片列表中。
通过以上描述可以看出,对抓取到目标图片的图片地址进行哈希计算,并生成目标图片和对应图片链接哈希值的对应关系存储在过滤图片列表中,可以通过服务器可以对存储服务器集群中各个存储服务器存储的目标图片进行管理的同时,尽可能降低了服务器资源的使用。
相关技术中,随着存储服务器集群中存储的目标图片越来越多,有些历史目标图片在很长时间内都没有被使用过,但仍然会占用大量的存储资源,为了提高存储资源的使用效率,处理器300还具体用于:
获取预设清理图片时长内被访问过的图片链接哈希值;将获取到的图片链接哈希值与过滤图片列表中记录的图片链接哈希值进行对比,得到预设清理图片时长内未被访问过的图片链接哈希值;通过目标图片和对应图片链接哈希值的对应关系和未被访问过的图片链接哈希值,查找出预设清理图片时长内未被访问过的图片链接哈希值对应的图片进行删除。
综上所述,定期获取访问日志中记录的图片链接哈希值,并根据获取到的图片链接哈希值确定出图片清理图片时长内未被访问过的图片,并对确定出的图片进行删除操作,从而定期清除不使用的图片,减少不必要的存储资源的浪费,提高存储资源的使用效率。
综上所述,本实施例提供的服务器,从接收到的搜索结果的页面数据中确定与特定应用对应的目标图片,并在抓取到目标图片后,根据目标图片的链接信息中记录的目标图片的缩略尺寸和图片剪裁方式对目标图片进行缩略剪裁操作,得到与特定应用的页面显示相适应的缩略图,与现有技术中只能抓取预设尺寸的图片的过程相比,可以抓取不同尺寸的图片,提高了图片的抓取效率;而且,可以在抓取到图片后根据不同应用的图片展示尺寸对图片进行处理得到图片的缩略图,提高了图片在不同应用上的展示效果。
本发明实施例所提供的进行搜索结果页面的图片适应性处理的方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围以所述权利要求的保护范围为准。
Claims (17)
1.一种搜索结果页面的图片适应性处理的方法,其特征在于,包括:
获取搜索结果的页面数据,所述搜索结果的页面数据是根据用户在特定应用发出的搜索请求所获取的;
根据预设的抓取规则,从所述搜索结果的页面数据中确定与所述特定应用对应的目标图片,并获取所述目标图片的链接信息;
根据所述目标图片的链接信息,抓取所述目标图片;
根据所述目标图片的链接信息中记录的所述目标图片的缩略尺寸和图片剪裁方式,对所述目标图片进行缩略剪裁操作,得到与所述特定应用的页面显示相适应的缩略图,其中,所述缩略剪裁操作,包括:对所述目标图片进行缩略操作和剪裁操作,所述缩略和裁剪操作根据所述特定应用而确定。
2.根据权利要求1所述的方法,其特征在于,根据预设的抓取规则,从所述搜索结果的页面数据中确定与所述特定应用对应的目标图片,包括:
从所述搜索结果的页面数据中提取各个图片的尺寸信息和所述图片在搜索结果页面的位置信息;
确定所述图片尺寸信息符合预设尺寸范围且所述图片在搜索结果页面的位置信息在预设网页位置的图片为待抓取图片;
将预设的过滤图片列表中未记录的所述待抓取图片确定为目标图片。
3.根据权利要求1或者2所述的方法,其特征在于,在根据预设的抓取规则,从所述搜索结果的页面数据中确定与所述特定应用对应的目标图片,并获取所述目标图片的链接信息之后,所述方法还包括:
根据所述链接信息中携带的公钥,确定与所述公钥对应的私钥;
通过确定的所述私钥对所述链接信息中携带的所述目标图片的地址信息进行加密操作,生成签名验证信息;
当生成的所述签名验证信息与所述目标图片携带的数字签名相一致时,执行抓取所述目标图片步骤。
4.根据权利要求1所述的方法,其特征在于,根据目标图片的链接信息,抓取所述目标图片,包括:
根据目标图片的链接信息中携带的地址信息,判断在预设抓取时间长度内是否有相同的所述目标图片已经进行了抓取操作;
如果否,则通过网络爬虫抓取所述目标图片。
5.根据权利要求1或者4所述的方法,其特征在于,根据目标图片的链接信息,抓取所述目标图片,包括:
当所述目标图片抓取失败时,判断距离最近一次抓取所述目标图片的时长是否达到预设时间长度;
如果是,则当抓取失败的所述目标图片的重复抓取次数未达到预设阈值时,从预设的代理标识列表中获取代理标识,代理标识用于指示代理服务器或者代理进程;
利用网络爬虫,通过获取到的代理标识对应的代理服务器或者代理进程,对抓取失败的所述目标图片进行重新抓取。
6.根据权利要求1所述的方法,其特征在于,在根据目标图片的链接信息,抓取所述目标图片之后,所述方法还包括:
当通过网络爬虫抓取到所述目标图片时,获取当前各个存储服务器的负载信息;
根据所述各个存储服务器的负载信息,从所述各个存储服务器中确定出负载最小的存储服务器;
将抓取到的所述目标图片发送到所述负载最小的存储服务器进行存储。
7.根据权利要求6所述的方法,其特征在于,所述当通过网络爬虫抓取到所述目标图片时,获取当前各个存储服务器的负载信息,包括:
获取所述网络爬虫抓取到的所述目标图片;
对抓取到的所述目标图片的图片地址进行哈希计算,得到图片链接哈希值;
生成所述目标图片和对应图片链接哈希值的对应关系,并将生成的目标图片和对应图片链接哈希值的对应关系存储到过滤图片列表中。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
将获取预设清理图片时长内被访问过的图片链接哈希值与所述过滤图片列表中记录的图片链接哈希值进行对比,得到预设清理图片时长内未被访问过的图片链接哈希值;
通过所述目标图片和所述对应图片链接哈希值的对应关系和所述未被访问过的图片链接哈希值,查找出预设清理图片时长内所述未被访问过的图片链接哈希值对应的图片进行删除。
9.一种搜索结果页面的图片适应性处理的装置,其特征在于,包括:
数据获取模块,用于获取搜索结果的页面数据,所述搜索结果的页面数据是根据用户在特定应用发出的搜索请求所获取的;
目标图片确定模块,用于根据预设的抓取规则,从所述搜索结果的页面数据中确定与所述特定应用对应的目标图片,并获取所述目标图片的链接信息;
抓取模块,用于根据所述目标图片的链接信息,抓取所述目标图片;
缩略裁剪模块,用于根据所述目标图片的链接信息中记录的所述目标图片的缩略尺寸和图片剪裁方式,对所述目标图片进行缩略剪裁操作,得到与所述特定应用的页面显示相适应的缩略图,其中,所述缩略剪裁操作,包括:对所述目标图片进行缩略操作和剪裁操作,所述缩略和裁剪操作根据所述特定应用而确定。
10.根据权利要求9所述的装置,其特征在于,所述目标图片确定模块,包括:
图片信息提取单元,用于从所述搜索结果的页面数据中提取各个图片的尺寸信息和所述图片在搜索结果页面的位置信息;
确定单元,用于确定所述图片尺寸信息符合预设尺寸范围且所述图片在搜索结果页面的位置信息在预设网页位置的图片为待抓取图片;
图片过滤单元,用于将预设的过滤图片列表中未记录的所述待抓取图片确定为目标图片。
11.根据权利要求9或者10所述的装置,其特征在于,所述装置还包括:
私钥确定单元,用于根据所述链接信息中携带的公钥,确定与所述公钥对应的私钥;
加密单元,用于通过确定的所述私钥对所述链接信息中携带的所述目标图片的地址信息进行加密操作,生成签名验证信息;
执行单元,用于当生成的所述签名验证信息与所述目标图片携带的数字签名相一致时,触发抓取模块抓取所述目标图片。
12.根据权利要求9所述的装置,其特征在于,所述抓取模块,包括:
第一判断单元,用于根据目标图片的链接信息中携带的地址信息,判断在预设抓取时间长度内是否有相同的所述目标图片已经进行了抓取操作;
抓取单元,用于当第一判断单元得到的判断结果为否时,则通过网络爬虫抓取所述目标图片。
13.根据权利要求12所述的装置,其特征在于,所述抓取模块,还包括:
第二判断单元,用于当所述目标图片抓取失败时,判断距离最近一次抓取所述目标图片的时长是否达到预设时间长度;
代理获取单元,用于当第二判断单元得到的判断结果为是时,当抓取失败的所述目标图片的重复抓取次数未达到预设阈值时,从预设的代理标识列表中获取代理标识,代理标识用于指示代理服务器或者代理进程;
重抓单元,用于利用所述网络爬虫,通过获取到的代理标识对应的代理服务器或者代理进程,对抓取失败的所述目标图片进行重新抓取。
14.根据权利要求9所述的装置,其特征在于,所述装置还包括:
负载信息获取模块,用于当通过网络爬虫抓取到所述目标图片时,获取当前各个存储服务器的负载信息;
存储服务器确定模块,用于根据所述各个存储服务器的负载信息,从所述各个存储服务器中确定出负载最小的存储服务器;
存储模块,用于将抓取到的所述目标图片发送到所述负载最小的存储服务器进行存储。
15.根据权利要求14所述的装置,其特征在于,所述负载信息获取模块,包括:
图片获取单元,用于获取所述网络爬虫抓取到的所述目标图片;
计算单元,用于对抓取到的所述目标图片的图片地址进行哈希计算,得到图片链接哈希值;
存储单元,用于生成所述目标图片和对应图片链接哈希值的对应关系,并将生成的目标图片和对应图片链接哈希值的对应关系存储到过滤图片列表中。
16.根据权利要求15所述的装置,其特征在于,所述装置还包括:
图片哈希值获取模块,用于获取预设清理图片时长内被访问过的图片链接哈希值;
对比模块,用于将所述获取预设清理图片时长内被访问过的图片链接哈希值与所述过滤图片列表中记录的图片链接哈希值进行对比,得到预设清理图片时长内未被访问过的图片链接哈希值;
未访问图片删除模块,用于通过所述目标图片和所述对应图片链接哈希值的对应关系和所述未被访问过的图片链接哈希值,查找出预设清理图片时长内所述未被访问过的图片链接哈希值对应的图片进行删除。
17.一种服务器,其特征在于,所述服务器包括:处理器和接收器;
所述接收器,用于接收搜索结果的页面数据,所述搜索结果的页面数据是根据用户在特定应用发出的搜索请求所获取的;
所述处理器,用于根据预设的抓取规则,从所述搜索结果的页面数据中确定与所述特定应用对应的目标图片,并获取所述目标图片的链接信息;根据所述目标图片的链接信息,抓取所述目标图片;根据所述目标图片的链接信息中记录的所述目标图片的缩略尺寸和图片剪裁方式,对所述目标图片进行缩略剪裁操作,得到与所述特定应用的页面显示相适应的缩略图,其中,所述缩略剪裁操作,包括:对所述目标图片进行缩略操作和剪裁操作,所述缩略和裁剪操作根据所述特定应用而确定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510945858.XA CN105589943B (zh) | 2015-12-15 | 2015-12-15 | 搜索结果页面的图片适应性处理的方法、装置和服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510945858.XA CN105589943B (zh) | 2015-12-15 | 2015-12-15 | 搜索结果页面的图片适应性处理的方法、装置和服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105589943A CN105589943A (zh) | 2016-05-18 |
CN105589943B true CN105589943B (zh) | 2018-09-11 |
Family
ID=55929522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510945858.XA Expired - Fee Related CN105589943B (zh) | 2015-12-15 | 2015-12-15 | 搜索结果页面的图片适应性处理的方法、装置和服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105589943B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446617B (zh) * | 2016-09-21 | 2018-11-27 | 河南科技大学 | 一种具有源文件保护功能的静态页面访问方法 |
CN108009598A (zh) * | 2017-12-27 | 2018-05-08 | 北京诸葛找房信息技术有限公司 | 基于深度学习的户型图识别方法 |
WO2020034150A1 (zh) * | 2018-08-16 | 2020-02-20 | 华为技术有限公司 | 一种广告图片的显示方法、上传方法及装置 |
CN112052377B (zh) * | 2019-06-06 | 2023-09-15 | 百度在线网络技术(北京)有限公司 | 资源推荐方法、装置、服务器和存储介质 |
CN110807114B (zh) * | 2019-11-07 | 2024-01-30 | 北京有竹居网络技术有限公司 | 用于图片展示的方法、装置、终端及存储介质 |
CN111428179B (zh) * | 2020-03-19 | 2023-09-19 | 新方正控股发展有限责任公司 | 图片监测方法、装置及电子设备 |
CN111680242A (zh) * | 2020-04-16 | 2020-09-18 | 上海淇玥信息技术有限公司 | 页面展示方法及其装置、电子设备和计算机可读存储介质 |
CN112637320A (zh) * | 2020-12-17 | 2021-04-09 | 视联动力信息技术股份有限公司 | 一种数据传输方法、装置、终端设备和存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104536968B (zh) * | 2014-11-28 | 2018-01-05 | 北京奇虎科技有限公司 | 一种用于优化搜索结果的方法和装置 |
CN104699837B (zh) * | 2015-03-31 | 2017-04-12 | 北京奇虎科技有限公司 | 网页配图选取方法、装置及服务器 |
CN104765809A (zh) * | 2015-04-02 | 2015-07-08 | 北京奇虎科技有限公司 | 一种移动终端搜索图片的预览方法和装置 |
-
2015
- 2015-12-15 CN CN201510945858.XA patent/CN105589943B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN105589943A (zh) | 2016-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105589943B (zh) | 搜索结果页面的图片适应性处理的方法、装置和服务器 | |
CN105824744B (zh) | 一种基于b2b平台的实时日志采集分析方法 | |
CN106878074B (zh) | 流量过滤方法及装置 | |
US7860971B2 (en) | Anti-spam tool for browser | |
CN104077402B (zh) | 数据处理方法和数据处理系统 | |
CN106649362B (zh) | 网页爬取方法和装置 | |
CN103970788A (zh) | 一种基于网页爬取的爬虫技术 | |
WO2019237532A1 (zh) | 一种业务数据的监控方法、存储介质、终端设备及装置 | |
CN109033195A (zh) | 网页信息的获取方法、获取设备及计算机可读介质 | |
CN107395782A (zh) | 一种基于代理池的ip限制受控源信息抓取方法 | |
CN102314463A (zh) | 分布式爬虫系统及其提取网页数据的方法 | |
CN105302815B (zh) | 网页的统一资源定位符url的过滤方法和装置 | |
CN106599270B (zh) | 网络数据抓取方法和爬虫 | |
CN109600385B (zh) | 一种访问控制方法及装置 | |
CN106657228A (zh) | 一种利用云端进行并发采集的爬虫实现方法 | |
CN107341395A (zh) | 一种拦截爬虫的方法 | |
CN111008348A (zh) | 反爬虫方法、终端、服务器及计算机可读存储介质 | |
CN111158892A (zh) | 一种任务队列生成方法、装置及设备 | |
US10491606B2 (en) | Method and apparatus for providing website authentication data for search engine | |
CN109213912A (zh) | 一种抓取网络数据的方法及网络数据抓取调度装置 | |
CN111125485A (zh) | 基于Scrapy的网站URL爬取方法 | |
CN110147473B (zh) | 一种爬虫的爬取方法及装置 | |
CN110825947B (zh) | Url去重方法、装置、设备与计算机可读存储介质 | |
CN103354546A (zh) | 报文过滤方法与装置 | |
JP5274227B2 (ja) | ウェブページ検査装置、コンピュータシステム、ウェブページ検査方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200610 Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province Patentee after: Alibaba (China) Co.,Ltd. Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 12 layer self unit 01 Patentee before: GUANGZHOU SHENMA MOBILE INFORMATION TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180911 |
|
CF01 | Termination of patent right due to non-payment of annual fee |