CN102024042A - 一种监控图片展现效果的方法、装置和系统 - Google Patents
一种监控图片展现效果的方法、装置和系统 Download PDFInfo
- Publication number
- CN102024042A CN102024042A CN 201010580446 CN201010580446A CN102024042A CN 102024042 A CN102024042 A CN 102024042A CN 201010580446 CN201010580446 CN 201010580446 CN 201010580446 A CN201010580446 A CN 201010580446A CN 102024042 A CN102024042 A CN 102024042A
- Authority
- CN
- China
- Prior art keywords
- picture
- load
- dead chain
- requested
- quoting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
本发明提供了一种监控图片展现效果的方法、装置和系统,浏览器检测被请求加载的图片是否为死链或禁止引用,如果是,将检测结果发送至搜索引擎服务器端;搜索引擎服务器端根据所述检索结果记录图片为死链或禁止引用的信息;并在接收到浏览器的搜索请求(query)后,按照预设的调整策略在所述query的搜索结果中对记录为死链或禁止引用的图片进行调整。通过本发明能够提高图片搜索服务器中图片展现的效果,避免浪费网络资源,提高用户体验。
Description
【技术领域】
本发明涉及互联网技术领域,特别涉及一种监控图片展现效果的方法、装置和系统。
【背景技术】
随着互联网技术的不断发展以及信息的不断膨胀,人们对于网络信息的使用需求越来越高,搜索引擎成为人们获取网络信息的重要工具。当用户通过浏览器发送搜索请求(query)后,搜索引擎通常会将包含该搜索词的页面作为搜索结果返回给用户。
网络爬行器(Spider)通常设置在搜索引擎服务器端,用于在互联网上抓取网页信息。网络爬行器从各应用服务器上抓取网页并存储在搜索引擎服务器端的数据库中,当搜索引擎服务器端接收到用户的query后,从数据库中检索与该query相匹配的页面,并将这些页面的信息作为搜索结果返回给前端的浏览器。
在实际的应用中,用户常常应用搜索引擎进行相关图片的搜索,搜索引擎服务器端将抓取到的图片中与用户的query相匹配的图片信息(图片的URL,还可以包括标题和快照等)作为搜索结果返回给浏览器。
然而,在返回给浏览器的搜索结果中,可能存在死链或禁止引用等情况。其中,死链是指来源网站无法提供图片展示服务,使得用户的图片加载请求失败;禁止引用是指来源网站屏蔽其他站点对其图片的引用。当用户点击搜索结果中死链的图片URL或者禁止引用的图片URL时,这些图片无法展现,既浪费了用户时间又浪费了网络资源。
【发明内容】
本发明提供了一种监控图片展现效果的方法、装置和系统,以便于提高图片搜索服务中图片展现的效果,避免浪费网络资源,提高用户体验。
具体技术方案如下:
一种监控图片展现效果的方法,该方法包括:
检测被请求加载的图片是否为死链或禁止引用,如果是,将检测结果发送至搜索引擎的服务器端;
其中所述检测结果包括所述被请求加载的图片为死链或禁止引用的信息。
其中,检测所述被请求加载的图片是否为死链具体包括:
根据所述被请求加载的图片的URL向应用服务器发送图片加载请求后,如果在设定时间内没有收到所述应用服务器返回的响应,则确定所述被请求加载的图片为死链;或者,
根据所述被请求加载的图片的URL向应用服务器发送图片加载请求后,如果在设定时间内收到所述应用服务器返回的错误响应,则确定所述被请求加载的图片为死链;或者,
如果所述被请求加载的图片的加载时长超过预设的死链加载时长,则确定所述被请求加载的图片为死链;或者,
如果所述被请求加载的图片发生跳转且跳转前后的URL中文件名发生变化,则确定所述被请求加载的图片为死链。
另外,检测所述被请求加载的图片是否禁止引用具体包括:
在所述被请求加载的图片加载完成后,确定加载得到的图片的状态值,并获取所述搜索引擎的服务器端抓取到的所述被请求加载的图片的状态值;
将确定的状态值与获取的状态值进行比较,如果两状态值的差异超过预设的差异阈值,则确定所述被请求加载的图片禁止引用。
其中,所述状态值包括以下至少一种:
图片尺寸、图片的消息摘要算法第五版MD5值以及图片的内容签名。
如果检测出所述被请求加载的图片为死链,则所述将检测结果发送至搜索引擎的服务器端具体为:
向所述搜索引擎的服务器端发送包含被请求加载的图片的标识信息以及指示死链类型信息的死链类型统计请求。
如果检测出所述被请求加载的图片禁止引用,则所述将检测结果发送至搜索引擎的服务器端具体为:
向所述搜索引擎的服务器端发送包含被请求加载的图片的标识信息以及指示禁止引用类型信息的禁止引用类型统计请求。
更进一步地,该方法还包括:
如果检测出所述被请求加载的图片不是死链和禁止引用,则将所述被请求加载的图片的加载时长信息发送给所述搜索引擎的服务器端。
具体地,将所述被请求加载的图片的加载时长信息发送给所述搜索引擎的服务器端为:
向所述搜索引擎的服务器端发送包含被请求加载的图片的标识信息、加载时长信息以及指示加载时长类型信息的加载时长统计请求。
当对所述被请求加载的图片采用实时加载方式时,所述加载时长信息包括t1和t2;或者,
所述加载时长信息为Δt;
其中,Δt=t2-t1,t1为加载开始时间,t2为加载结束时间。
对所述被请求加载的图片采用预加载方式时,所述加载时长信息包括t1’、t2和t3;或者,
所述加载时长信息为Δt;
其中,如果所述t3大于或等于所述t2,则Δt=0;
如果所述t3小于所述t2,则Δt=t2-t3;
t1’为预加载开始时间,t2为加载结束时间,t3为展现开始时间。
一种监控图片展现效果的方法,该方法包括:
获取浏览器发送来的检测结果,根据所述检测结果记录图片为死链或禁止引用的信息;
接收到来自浏览器的搜索请求query后,按照预设的调整策略在所述query的搜索结果中对记录为死链或禁止引用的图片进行调整。
其中,所述获取浏览器发送来的检测结果具体包括:
对所述浏览器发送来的统计请求进行识别,如果识别出是死链类型统计请求,则从所述死链类型统计请求中获取检索结果;
如果识别出是禁止引用类型统计请求,则从所述禁止引用类型统计请求中获取检索结果。
另外,根据所述检测结果记录图片为死链或禁止引用的信息具体包括:
根据所述检测结果,将图片为死链或禁止引用的信息记录在网络爬行器Spider抓取到的图片抓取结果集中;或者,
采用日志log的方式进行记录,然后周期性地对当前周期内的log中被记录为死链或禁止引用的图片进行二次检测,如果二次检测结果仍为死链或禁止引用,则将图片为死链或禁止引用的信息记载在Spider抓取到的图片抓取结果集中。
所述对当前周期内的log中被记录为死链的图片进行二次检测具体包括:
根据所述被记录为死链的图片的URL向应用服务器发送图片加载请求后,如果在设定时间内没有收到所述应用服务器返回的响应,则检测出所述被记录为死链的图片仍为死链;或者,
根据所述被记录为死链的图片的URL向应用服务器发送图片加载请求后,如果在设定时间内收到所述应用服务器返回的错误响应,则检测出所述被记录为死链的图片仍为死链;或者,
根据所述被记录为死链的图片的URL向应用服务器发送图片加载请求后,如果图片的加载时长超过预设的死链加载时长,则检测出所述被记录为死链的图片仍为死链;或者,
根据所述被记录为死链的图片的URL向应用服务器发送图片加载请求后,如果发生跳转且跳转前后的URL中的文件名发生变化,则检测出所述被记录为死链的图片仍为死链。
所述对当前周期内的log中被记录为禁止引用的图片进行二次检测具体包括:
判断所述被记录为禁止引用的图片的内容签名是否在预先设置的禁止引用签名集合中,如果是,则检测出所述被记录为禁止引用的图片仍禁止引用;
其中所述禁止引用签名集合是预先通过数据挖掘的方式获取到的所有禁止引用的图片内容签名构成的。
所述调整策略具体包括:
将所述记录为死链或禁止引用的图片从所述query的搜索结果中删除;或者,
降低所述记录为死链或禁止引用的图片在所述query的搜索结果中的排序权值。
更进一步地,该方法还包括:
如果识别出所述统计请求为加载时长统计请求,则从所述加载时长统计请求中获取图片的加载时长信息,并记录图片的加载时长信息。
相应地,该方法还包括:根据记录的图片的加载时长信息,调整所述query的搜索结果中图片的排序。
一种监控图片展现效果的装置,该装置包括:效果检测单元和结果发送单元;
所述效果检测单元,用于检测被请求加载的图片是否为死链或禁止引用,如果是,将检测结果提供给所述结果发送单元;
所述结果发送单元,用于将所述检测结果发送至搜索引擎的服务器端;
其中所述检测结果包括所述被请求加载的图片为死链或禁止引用的信息。
其中,所述效果检测单元具体包括:第一交互子单元和死链判断子单元;
所述第一交互子单元,用于根据所述被请求加载的图片的URL向应用服务器发送图片加载请求,接收所述应用服务器返回的响应,加载所述应用服务器通过响应返回的所述被请求加载的图片;
所述死链判断子单元,用于在所述第一交互子单元发送所述图片加载请求后,如果在设定时间内没有收到所述应用服务器返回的响应,则确定所述被请求加载的图片为死链;或者,在所述第一交互子单元发送所述图片加载请求后,如果在设定时间内收到所述应用服务器返回的错误响应,则确定所述被请求加载的图片为死链;或者,如果确定所述被请求加载的图片的加载时长超过预设的死链加载时长,则确定所述被请求加载的图片为死链;或者,如果确定所述被请求加载的图片发生跳转且跳转前后的URL中文件名发生变化,则确定所述被请求加载的图片为死链。
或者,所述效果检测单元包括:第二交互子单元、第一状态值确定子单元、第二状态值确定子单元和禁止引用判断子单元;
所述第二交互子单元,用于加载所述被请求加载的图片;
所述第一状态值确定子单元,用于确定所述第二交互子单元记载得到的图片的状态值;
所述第二状态值确定子单元,用于获取所述搜索引擎的服务器端抓取到的所述被加载的图片的状态值;
所述禁止引用判断子单元,用于将所述第一状态值确定子单元确定的状态值和所述第二状态值确定子单元获取的状态值进行比较,如果两状态值的差异超过预设的差异阈值,则确定所述被请求加载的图片禁止引用。
所述状态值包括以下至少一种:
图片尺寸、图片的消息摘要算法第五版MD5值以及图片的内容签名。
如果所述效果检测单元检测出所述被请求加载的图片为死链,则所述结果发送单元具体向所述搜索引擎的服务器端发送包含被请求加载的图片的标识信息以及指示死链类型信息的死链类型统计请求;
如果所述效果检测单元检测出所述被请求加载的图片禁止引用,则所述结果发送单元具体向所述搜索引擎的服务器端发送包含被请求加载的图片的标识信息以及指示禁止引用类型信息的禁止引用类型统计请求。
更进一步地,该装置还包括:时长确定单元,用于在所述效果检测单元检测出所述被请求加载的图片不是死链和禁止引用时,确定所述被请求加载的图片的加载时长信息;
所述结果发送单元,还用于将所述时长确定单元确定的时长信息发送给所述搜索引擎的服务器端。
其中,所述结果发送单元具体将包含被请求加载的图片的标识信息、加载时长信息以及指示加载时长类型信息的加载时长统计请求发送给所述搜索引擎的服务器端。
当对所述被请求加载的图片采用实时加载方式时,所述加载时长信息包括t1和t2;或者,
所述加载时长信息为Δt;
其中,Δt=t2-t1,t1为加载开始时间,t2为加载结束时间。
当对所述被请求加载的图片采用预加载方式时,所述加载时长信息包括t1’、t2和t3;或者,
所述加载时长信息为Δt;
其中,如果所述t3大于或等于所述t2,则Δt=0;
如果所述t3小于所述t2,则Δt=t2-t3;
t1’为预加载开始时间,t2为加载结束时间,t3为展现开始时间。
一种监控图片展现效果的装置,该装置包括:用户侧交互单元、结果记录单元和搜索调整单元;
所述用户侧交互单元,用于获取浏览器发送来的检测结果,接收来自浏览器的搜索请求query;
所述结果记录单元,用于根据所述检测结果记录图片为死链或禁止引用的信息;
所述搜索调整单元,用于按照预设的调整策略在所述query的搜索结果中对记录为死链或禁止引用的图片进行调整。
其中,所述用户侧交互单元具体包括:请求接收子单元、类型识别子单元和结果获取子单元;
所述请求接收子单元,用于接收浏览器发送来的统计请求,接收浏览器发送来的query;
所述类型识别子单元,用于对所述统计请求进行识别;
所述结果获取子单元,用于在所述类型识别子单元的识别结果为死链类型统计请求时,从所述死链类型统计请求中获取检索结果;在所述类型识别子单元的识别结果为禁止引用类型统计请求时,从所述禁止引用类型统计请求中获取检索结果。
所述结果记录单元根据所述检测结果,将图片为死链或禁止引用的信息记录在网络爬行器Spider抓取到的图片抓取结果集中。
或者,该装置还包括:二次检测单元;
所述结果记录单元根据所述检测结果,将图片为死链或禁止引用的信息采用日志log的方式进行记录;如果所述二次检测单元的检测结果为仍是死链或禁止引用,则将二次检测单元检测出的图片为死链或禁止引用的信息记录在Spider抓取到的图片抓取结果集中;
所述二次检测单元,用于周期性地对当前周期内的log中被记录为死链或禁止引用的图片进行二次检测。
所述二次检测单元具体包括:服务器侧交互子单元和死链判断子单元;
所述服务器侧交互子单元,用于根据所述被记录为死链的图片的URL向应用服务器发送图片加载请求,接收所述应用服务器返回的响应,加载所述应用服务器通过响应返回的所述被请求加载的图片;
所述死链判断子单元,用于在所述服务器侧交互子单元发送所述图片加载请求后,如果在设定时间内没有收到所述应用服务器返回的响应,则检测出所述被记录为死链的图片仍为死链;或者,在所述服务器侧交互子单元发送所述图片加载请求后,如果在设定时间内收到所述应用服务器返回的错误响应,则检测出所述被记录为死链的图片仍为死链;或者,如果确定所述被记录为死链的图片的加载时长超过预设的死链加载时长,则检测出所述被记录为死链的图片仍为死链;或者,如果确定所述被记录为死链的图片发生跳转且跳转前后的URL中文件名发生变化,则检测出所述被记录为死链的图片仍为死链。
或者,所述二次检测单元具体包括:签名获取子单元和禁止引用判断子单元;
所述签名获取子单元,用于获取所述被记录为禁止引用的图片的内容签名;
所述禁止引用判断子单元,用于判断所述签名获取子单元获取的内容签名是否在预先设置的禁止引用签名集合中,如果是,则检测出所述被记录为禁止引用的图片仍为禁止引用;
其中所述禁止引用签名集合是预先通过数据挖掘的方式获取到的所有禁止引用的图片内容签名构成的。
所述搜索调整单元具体将所述记录为死链或禁止引用的图片从所述query的搜索结果中删除;或者,降低所述记录为死链或禁止引用的图片在所述query的搜索结果中的排序权值。
更进一步地,所述结果记录单元,还用于在所述类型识别子单元识别出所述统计请求为加载时长统计请求时,从所述加载时长统计请求中获取图片的加载时长信息,并记录图片的加载时长信息。
所述搜索调整单元,还用于根据所述结果记录单元记录的图片的加载时长信息,调整所述query的搜索结果中图片的排序。
一种监控图片展现效果的系统,该系统包括上述监控图片展现效果的两装置。
由以上技术方案可以看出,通过本发明能够在前端浏览器将检测到的死链或禁止引用的图片信息发送给搜索引擎服务器端进行记录,搜索引擎服务器端在接收到来自浏览器的query后,能够根据记录在query的搜索结果中对记录为死链或禁止引用的图片进行调整。也就是说,通过前端浏览器的检测结果反馈,搜索引擎服务器端能够获知图片展现效果,从而能够通过调整搜索结果的方式提高图片搜索服务中图片的展现效果,例如屏蔽搜索结果中为死链或禁止引用的图片,避免用户长时间等待后图片展现仍失败,避免用户频繁提交查看图片请求而造成的网络资源浪费,提高了用户体验。
【附图说明】
图1为本发明实施例一提供的浏览器端的方法流程图;
图2为本发明实施例二提供的搜索引擎服务器端的方法流程图;
图3为本发明实施例提供的设置在浏览器端的装置结构图;
图4为本发明实施例提供的设置在搜索引擎服务器端的装置结构图;
图5为本发明实施例提供的搜索引擎服务器端中二次检测单元的两种结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明所提供方法的核心思想为:检测被请求加载的图片是否为死链或禁止引用,如果是,则记录该被请求加载的图片为死链或禁止引用,以便按照预设的调整策略在搜索结果中对死链或禁止引用的图片进行调整。
本发明提供的方法和装置可以应用于浏览器-搜索引擎服务器端的架构,但也可以扩展于其他架构。在本发明实施例中均以浏览器-搜索引擎服务器端的架构为例进行描述。
实施例一、
本发明中浏览器端的执行方法如图1所示,主要包括以下步骤:
步骤101:检测被请求加载的图片是否为死链或禁止引用,如果是,执行步骤102;否则,执行步骤103。
在本步骤中,检测被请求加载的图片是否为死链的方式包括但不限于以下方式中的一种或任意组合:
方式1:根据用户所点击图片(即被请求加载的图片)的URL向应用服务器发送图片加载请求后,如果在设定时间内没有收到该应用服务器返回的响应,说明该图片所在的应用服务器可能连不上,则可以确定该图片为死链。
方式2:根据用户所点击图片的URL向应用服务器发送图片加载请求后,如果在设定时间内收到该应用服务器返回的错误响应,则可以确定该被请求加载的图片为死链。例如,如果应用服务器返回404错误响应,则说明该图片可能不存在;如果应用服务器返回400错误响应,则说明应用服务器无法识别图片加载请求;如果应用服务器返回500错误响应或502错误响应,则说明应用服务器的连接存在问题;诸如此类的情况,都可以认为该请求加载的图片为死链。
方式3:如果被请求加载的图片的加载时长超过预设的死链加载时长,则可以确定该被请求加载的图片为死链。也就是说,如果在预设的死链加载时长内不能完成图片的加载,可以确定为死链。例如,可以预设死链加载时长的时间为10s,如果在10s之内图片没有加载完成,则认为该图片为死链。
方式4:如果被请求加载的图片发生跳转且跳转前后URL中的文件名发生变化,则可以确定该图片为死链。例如,浏览器发送图片加载请求使用的URL为:
http://bbs.green3c.com/dz/attachments/month_0907/20090719_e1854a240624a359de38OseDZYzBnM76.jpg;
发生跳转后该图片的URL变为:
http://bbs.lusen.cn/attachments/month_0907/20090719_e1854a240624a359de38OseDZYzBnM76.jpg;
其中,跳转前后的文件名均为:
20090719_e1854a240624a359de38OseDZYzBnM76.jpg,可以认为图片不是死链。
如果跳转后该图片的URL变为:
http://www.foyuan.cn/images/books/20091123/200911231851135719.jpg;
文件名变为:200911231851135719.jpg,文件名发生了变化,则认为该图片为死链。
检测被请求加载的图片是否禁止引用的方式可以为:在被请求加载的图片加载完成后,确定该加载完成的图片的状态值,并获取搜索引擎的服务器端抓取到的该被请求加载的图片的状态值,将两状态值进行比较,如果两状态值的差异超过预设的差异阈值,则确定该被请求加载的图片禁止引用。
上述状态值可以包括但不限于以下至少一种:图片尺寸、图片的消息摘要算法第五版(MD5)值和图片的内容签名。
其中,获取搜索引擎的服务器端抓取到的该被请求加载的图片的状态值可以具体为:浏览器将被请求加载的图片的标识信息发送给搜索引擎的服务器端,搜索引擎的服务器端根据该标识信息,获取抓取到的该被请求加载的图片的状态值,并将该状态值返回给浏览器。
其中,被请求加载的图片的标识信息可以为:被请求加载的图片的URL或者被请求加载的图片的ID等。
步骤102:将对被请求加载的图片的检测结果发送至服务器端,供服务器端记录该被请求加载的图片为死链或禁止引用的信息,并按照预设的调整策略在返回给浏览器的搜索结果中对加载失败或禁止引用的图片进行调整,结束浏览器端的执行流程。
其中,检测结果包括:上述被请求加载的图片为死链或禁止引用的信息。
如果被请求加载的图片为死链,则可以通过死链类型统计请求将被请求加载的图片为死链的信息发送给服务器端。具体地,该死链类型统计请求中可以包含被请求加载的图片的标识信息以及指示死链类型的信息。
其中,被请求加载的图片的标识信息可以为:被请求加载的图片的URL或者被请求加载的图片ID等,在本实施例以下的描述中均是如此,不再赘述。指示死链类型的信息可以通过类型标志位携带,例如设置类型标识位的值为-1指示被请求加载的图片为死链,即指示当前请求为死链类型统计请求。
如果被请求加载的图片禁止引用,则可以通过禁止引用类型统计请求将被请求加载的图片禁止引用的信息发送给服务器端。具体地,该禁止引用类型统计请求中可以包含被请求加载的图片的标识信息以及指示禁止引用类型的信息。
其中,指示禁止引用类型的信息可以通过类型标志位携带,例如设置类型标识位的值为-2指示被请求加载的图片禁止引用,即指示当前请求为禁止引用类型统计请求。
步骤103:确定该被请求加载的图片的加载时长,将该被请求加载的图片的加载时长信息发送给搜索引擎的服务器端。
除了执行步骤103这种方式之外,如果在步骤101中检测出被请求加载的图片既不是死链也没有禁止引用,也可以不做额外处理。
浏览器可以通过加载时长统计请求将被请求加载的图片的加载时长信息发送给搜索引擎的服务器端。具体地,该加载时长统计请求中可以包含被请求加载的图片的标识信息、加载时长信息以及指示加载时长类型的信息。
其中,指示加载时长类型的信息可以通过类型标志位携带,例如设置类型标识位的值为0指示该请求包含加载时长信息。
具体地,浏览器对图片的加载可以分为实时加载方式和预加载方式两种,根据加载方式的不同,加载时长的计算方式也不同:
当浏览器端采用实时加载方式时,被请求加载的图片的加载时长Δt为:Δt=t2-t1,其中,t1为加载开始时间,t2为加载结束时间。
当浏览器端采用预加载方式时,预加载开始时间为t1’,如果在图片开始展现时已经预加载完成,则可以确定被请求加载的图片的加载时长Δt=0;否则,被请求加载的图片的加载时长Δt为:Δt=t2-t3,其中,t3为被请求加载的图片的展现开始时间。
在步骤103中,除了将计算出的加载时长发送给搜索引擎的服务器端之外,也可以直接将加载开始时间t1和加载结束时间t2发送给搜索引擎的服务器端,或者,可以直接将预加载开始时间t1’、展现开始时间t3和加载结束时间t2发送给搜索引擎的服务器端,由搜索引擎的服务器端计算被请求加载的图片的加载时长。
搜索引擎的服务器端如果接收到被请求加载的图片的加载开始时间t1和加载结束时间t2,则计算出该被请求加载的图片的加载时长为Δt=t2-t1。
搜索引擎的服务器端如果接收到被请求加载的图片的预加载开始时间t1’、展现开始时间t3和加载结束时间t2,则如果t3大于或等于t2,则计算出该被请求加载的图片的加载时长为Δt=0;如果t3小于t2,则计算出被请求加载的图片的加载时长为Δt=t2-t3。
至此,图1所示的浏览器端的执行流程结束。
本发明中搜索引擎的服务器端的执行方法主要为:获取浏览器发送来的检测结果,根据检索结果记录图片为死链或禁止引用的信息;接收到来自浏览器的query后,按照预设的调整策略在搜索结果中对记录为死链或禁止引用的图片进行调整。下面通过实施例二对搜索引擎的服务器端的详细执行流程进行描述。
实施例二、
图2为本发明实施例二提供的搜索引擎的服务器端的详细执行流程,如图2所示,可以包括以下步骤:
步骤201:对浏览器发送来的统计请求进行识别,如果识别出是死链类型统计请求,则执行步骤202;如果识别出是禁止引用类型统计请求,则执行步骤203;如果识别出是加载时长统计请求,则执行步骤204。
具体地,如果接收到的统计请求中包含指示死链类型的信息,例如类型标志位的值为-1,则识别出该统计请求为死链类型统计请求,其中携带被请求加载的图片的标识信息。
被请求加载的图片的标志信息可以为:被请求加载的图片URL或者被请求加载的图片ID等,在该实施例的以下描述中均是如此,不再赘述。
如果接收到的统计请求中包含指示禁止引用类型的信息,例如类型标志位的值为-2,则识别出该统计请求为禁止引用类型统计请求,其中携带被请求加载的图片的标识信息。
如果接收到的统计请求中包含指示加载时长类型的信息,例如类型标志位的值为0,则识别出该统计请求为加载时长统计请求,其中携带被请求加载的图片的标识信息及其加载时长信息。
步骤202:从死链类型统计请求中获取被请求加载的图片的标识信息,记录该被请求加载的图片为死链,转至步骤201。
步骤203:从禁止引用类型统计请求中获取被请求加载的图片的标识信息,记录该被请求加载的图片禁止引用,转至步骤201。
步骤204:从加载时长统计请求中获取被请求加载的图片的标识信息以及加载时长信息,记录该被请求加载的图片的加载时长,转至步骤201。
上述对图片为死链或禁止引用的记录可以直接记录在Spider抓取到的图片抓取结果集中。但是较优地,可以采用日志(log)的方式进行记录,然后搜索引擎的服务器端周期性地对当前周期内log中被记录为死链或禁止引用的图片进行二次检测。
其中,搜索引擎的服务器端对记录为死链的图片进行二次检测的方式与浏览器端检测被请求加载的图片是否为死链的方式相似,即包括但不限于以下方式中的一种或任意组合:
方式1:根据记录为死链的图片的URL向应用服务器发送图片加载请求后,如果在设定时间内没有收到响应,可能该图片所在的应用服务器连不上,则可以确定该图片为死链。
方式2:根据记录为死链的图片的URL向应用服务器发送图片加载请求后,如果在设定时间内收到该应用服务器返回的错误响应,则可以确定该图片为死链。
方式3:如果根据记录为死链的图片的URL向应用服务器发送图片加载请求后,图片的加载时长超过预设的死链加载时长,则可以确定该图片为死链。也就是说,如果在预设的死链加载时长内不能完成图片的加载,可以确定为死链。例如,可以预设死链加载时长的时间为10s,如果在10s之内图片没有加载完成,则认为该图片为死链。
方式4:如果根据记录为死链的图片的URL向应用服务器发送图片加载请求后,发生跳转且跳转前后图片的URL中的文件名发生变化,则可以确定该图片为死链。
如果二次检测的结果仍确认图片为死链,则在图片抓取结果集中记录该图片为死链。如果二次检测的结果确认图片不是死链,则图片抓取结果集中该图片为非死链。
搜索引擎的服务器端对记录为禁止引用的图片进行二次检测的方式可以为:搜索引擎预先通过数据挖掘的方式获取各种禁止引用的图片内容签名构成禁止引用签名集合,判断被检测图片的内容签名是否在禁止引用签名集合中,如果是,则确定该被检测的图片禁止引用。
如果二次检测的结果仍确认图片为禁止引用,则在图片抓取结果集中记录该图片为禁止引用。如果二次检测的结果确认图片非禁止引用,则图片抓取结果集中该图片为非禁止引用。
在搜索引擎的服务器端接收到浏览器发送的query时,会根据对图片为死链、禁止引用以及加载时长的记录,按照预先设置的调整策略对该query的搜索结果中的图片进行调整,即执行步骤205。
步骤205:根据对图片为死链、禁止引用或加载时长的记录,按照预先设置的调整策略对搜索结果中的图片进行调整。
具体地,当接收到用户的query时,可以将记录为死链或禁止引用的图片从该query的搜索结果中删除。也可以将记录为死链或禁止引用的图片在该query的搜索结果中降低其排序权值。
另外,在针对用户的query返回搜索结果时,可以根据对图片的加载时长的记录调整图片在搜索结果中的排序,例如,可以将加载时长也作为影响图片在搜索结果中排序的参数之一,可以设置加载时长越长对应的排序权值越低。
以上是对本发明所提供的方法进行的描述,下面对本发明所提供的装置进行描述。
图3为本发明实施例提供的设置在浏览器中的装置结构图,如图3所示,该装置可以包括:效果检测单元300和结果发送单元310。
效果检测单元300,用于检测被请求加载的图片是否为死链或禁止引用,如果是,将检测结果提供给结果发送单元310。
结果发送单元310,用于将检测结果发送至搜索引擎的服务器端。
其中检测结果包括被请求加载的图片为死链或禁止引用的信息。
其中,对于对死链的检测可以采用的效果检测单元300结构为:第一交互子单元301和死链判断子单元302。
第一交互子单元301,用于根据被请求加载的图片的URL向应用服务器发送图片加载请求,接收应用服务器返回的响应,加载应用服务器通过响应返回的被请求加载的图片。这里的应用服务器是指被请求加载的图片所在的应用服务器。
死链判断子单元302,用于在第一交互子单元301发送图片加载请求后,如果在设定时间内没有收到应用服务器返回的响应,则确定被请求加载的图片为死链;或者,在第一交互子单元301发送图片加载请求后,如果在设定时间内收到应用服务器返回的错误响应,则确定被请求加载的图片为死链;或者,如果确定被请求加载的图片的加载时长超过预设的死链加载时长,则确定被请求加载的图片为死链;或者,如果确定被请求加载的图片发生跳转且跳转前后的URL中文件名发生变化,则确定被请求加载的图片为死链。
一种优选的实例:可以将上述预设的死链加载时长设置为10s,如果浏览器确定被记录为死链的图片记载时长达到10s时,该图片尚未加载完成,则可以认为该图片仍为死链。
对禁止引用的检测可以采用的效果检测单元300结构为:第二交互子单元303、第一状态值确定子单元304、第二状态值确定子单元305和禁止引用判断子单元306。
第二交互子单元303,用于加载被请求加载的图片。
第一状态值确定子单元304,用于确定第二交互子单元303记载得到的图片的状态值。
第二状态值确定子单元305,用于获取搜索引擎的服务器端抓取到的被加载的图片的状态值。
禁止引用判断子单元306,用于将第一状态值确定子单元304确定的状态值和第二状态值确定子单元305获取的状态值进行比较,如果两状态值的差异超过预设的差异阈值,则确定被请求加载的图片禁止引用。
其中,上述状态值包括以下至少一种:图片尺寸、图片的MD5值以及图片的内容签名。
上述效果检测单元300的两种结构可以择一存在,也可以同时存在,图3所示结构以同时存在为例。
如果效果检测单元300检测出被请求加载的图片为死链,则结果发送单元310具体向搜索引擎的服务器端发送包含被请求加载的图片的标识信息以及指示死链类型信息的死链类型统计请求。
如果效果检测单元300检测出被请求加载的图片禁止引用,则结果发送单元310具体向搜索引擎的服务器端发送包含被请求加载的图片的标识信息以及指示禁止引用类型信息的禁止引用类型统计请求。
除了对死链和禁止引用情况的检测之外,对于非死链且非禁止引用的图片,可以确定该图片的加载时长用于搜索引擎的服务器端进行搜索结果的排序调整。此时,该装置可以进一步包括:时长确定单元320,用于在效果检测单元300检测出被请求加载的图片不是死链和禁止引用时,确定被请求加载的图片的加载时长信息。
结果发送单元310,还用于将时长确定单元320确定的时长信息发送给搜索引擎的服务器端。
具体地,结果发送单元310可以将包含被请求加载的图片的标识信息、加载时长信息以及指示加载时长类型信息的加载时长统计请求发送给搜索引擎的服务器端。
浏览器对于图片的加载方式存在两种:实时加载方式和预加载方式,在本发明实施例中针对不同加载方式可以采用不同的加载时长计算方式:
当对被请求加载的图片采用实时加载方式时,加载时长信息包括t1和t2;或者,加载时长信息为Δt;其中,Δt=t2-t1,t1为该被请求加载的图片的加载开始时间,t2为该被请求加载的图片的加载结束时间。
当对被请求加载的图片采用预加载方式时,加载时长信息包括t1’、t2和t3;或者,加载时长信息为Δt。
其中,如果t3大于或等于t2,则Δt=0;如果t3小于t2,则Δt=t2-t3。t1’为该被请求加载的图片的预加载开始时间,t2为该被请求加载的图片的加载结束时间,t3为该被请求加载的图片的展现开始时间。
图4为本发明实施例提供的设置在搜索引擎服务器端的装置结构图,如图4所示,该装置可以包括:用户侧交互单元400、结果记录单元410和搜索调整单元420。
用户侧交互单元400,用于获取浏览器发送来的检测结果,接收来自浏览器的搜索请求query。其中,浏览器发送来的检索结果包括图片为死链或禁止引用的信息。
结果记录单元410,用于根据检测结果记录图片为死链或禁止引用的信息。
搜索调整单元420,用于按照预设的调整策略在query的搜索结果中对记录为死链或禁止引用的图片进行调整。
具体地,上述用户侧交互单元400可以包括:请求接收子单元401、类型识别子单元402和结果获取子单元403。
请求接收子单元401,用于接收浏览器发送来的统计请求,接收浏览器发送来的query。
类型识别子单元402,用于对请求接收子单元401接收到的统计请求进行识别。
结果获取子单元403,用于在类型识别子单元402的识别结果为死链类型统计请求时,从死链类型统计请求中获取检索结果;在类型识别子单元402的识别结果为禁止引用类型统计请求时,从禁止引用类型统计请求中获取检索结果。
对于图片为死链或禁止引用的信息记录可以包括以下两种形式:
第一种形式:结果记录单元410根据检测结果,将图片为死链或禁止引用的信息记录在Spider抓取到的图片抓取结果集中。
第二种形式:图4中以第二种形式为例,该装置还包括:二次检测单元430。
结果记录单元410根据检测结果,将图片为死链或禁止引用的信息采用log的方式进行记录;如果二次检测单元430的检测结果为仍是死链或禁止引用,则将二次检测单元430检测出的图片为死链或禁止引用的信息记录在Spider抓取到的图片抓取结果集中。
二次检测单元430,用于周期性地对当前周期内的log中被记录为死链或禁止引用的图片进行二次检测。
具体地,针对图片是否为死链或禁止引用的二次检测,分别依次对应二次检测单元的下述两种结构:
第一种结构如图5中的(a)所示:二次检测单元430可以包括:服务器侧交互子单元431和死链判断子单元432。
服务器侧交互子单元431,用于根据被记录为死链的图片的URL向应用服务器发送图片加载请求,接收应用服务器返回的响应,加载应用服务器通过响应返回的被请求加载的图片。
死链判断子单元432,用于在服务器侧交互子单元431发送图片加载请求后,如果在设定时间内没有收到应用服务器返回的响应,则检测出被记录为死链的图片仍为死链;或者,在服务器侧交互子单元431发送图片加载请求后,如果在设定时间内收到应用服务器返回的错误响应,则检测出被记录为死链的图片仍为死链;或者,如果确定被记录为死链的图片的加载时长超过预设的死链加载时长,则检测出被记录为死链的图片仍为死链;或者,如果确定被记录为死链的图片发生跳转且跳转前后的URL中文件名发生变化,则检测出被记录为死链的图片仍为死链。
一种优选实例:可以将上述预设的死链加载时长设置为10s,如果搜索引擎服务器端确定被记录为死链的图片记载时长达到10s时,该图片尚未加载完成,则可以检测出该图片仍为死链。
第二种结构如图5中的(b)所示:二次检测单元可以包括:签名获取子单元433和禁止引用判断子单元434。
签名获取子单元433,用于获取被记录为禁止引用的图片的内容签名。
禁止引用判断子单元434,用于判断签名获取子单元433获取的内容签名是否在预先设置的禁止引用签名集合中,如果是,则检测出被记录为禁止引用的图片仍为禁止引用。
其中禁止引用签名集合是预先通过数据挖掘的方式获取到的所有禁止引用的图片内容签名构成的。
基于该装置的以上结构,搜索调整单元420可以具体将记录为死链或禁止引用的图片从query的搜索结果中删除;或者,降低记录为死链或禁止引用的图片在query的搜索结果中的排序权值。
另外,该装置中的结果记录单元410,还可以用于在类型识别子单元402识别出统计请求为加载时长统计请求时,从加载时长统计请求中获取图片的加载时长信息,并记录图片的加载时长信息。
对应的,搜索调整单元420,还可以用于根据结果记录单元410记录的图片的加载时长信息,调整query的搜索结果中图片的排序。
另外,本发明实施例提供的系统可以包括:图3所示的设置在浏览器端的装置以及图4所示的设置在搜索引擎服务器端的装置。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (37)
1.一种监控图片展现效果的方法,其特征在于,该方法包括:
检测被请求加载的图片是否为死链或禁止引用,如果是,将检测结果发送至搜索引擎的服务器端;
其中所述检测结果包括所述被请求加载的图片为死链或禁止引用的信息。
2.根据权利要求1所述的方法,其特征在于,检测所述被请求加载的图片是否为死链具体包括:
根据所述被请求加载的图片的URL向应用服务器发送图片加载请求后,如果在设定时间内没有收到所述应用服务器返回的响应,则确定所述被请求加载的图片为死链;或者,
根据所述被请求加载的图片的URL向应用服务器发送图片加载请求后,如果在设定时间内收到所述应用服务器返回的错误响应,则确定所述被请求加载的图片为死链;或者,
如果所述被请求加载的图片的加载时长超过预设的死链加载时长,则确定所述被请求加载的图片为死链;或者,
如果所述被请求加载的图片发生跳转且跳转前后的URL中文件名发生变化,则确定所述被请求加载的图片为死链。
3.根据权利要求1所述的方法,其特征在于,检测所述被请求加载的图片是否禁止引用具体包括:
在所述被请求加载的图片加载完成后,确定加载得到的图片的状态值,并获取所述搜索引擎的服务器端抓取到的所述被请求加载的图片的状态值;
将确定的状态值与获取的状态值进行比较,如果两状态值的差异超过预设的差异阈值,则确定所述被请求加载的图片禁止引用。
4.根据权利要求3所述的方法,其特征在于,所述状态值包括以下至少一种:
图片尺寸、图片的消息摘要算法第五版MD5值以及图片的内容签名。
5.根据权利要求1至4任一权项所述的方法,其特征在于,如果检测出所述被请求加载的图片为死链,则所述将检测结果发送至搜索引擎的服务器端具体为:
向所述搜索引擎的服务器端发送包含被请求加载的图片的标识信息以及指示死链类型信息的死链类型统计请求。
6.根据权利要求1至4任一权项所述的方法,其特征在于,如果检测出所述被请求加载的图片禁止引用,则所述将检测结果发送至搜索引擎的服务器端具体为:
向所述搜索引擎的服务器端发送包含被请求加载的图片的标识信息以及指示禁止引用类型信息的禁止引用类型统计请求。
7.根据权利要求1至4任一权项所述的方法,其特征在于,该方法还包括:
如果检测出所述被请求加载的图片不是死链和禁止引用,则将所述被请求加载的图片的加载时长信息发送给所述搜索引擎的服务器端。
8.根据权利要求7所述的方法,其特征在于,将所述被请求加载的图片的加载时长信息发送给所述搜索引擎的服务器端具体为:
向所述搜索引擎的服务器端发送包含被请求加载的图片的标识信息、加载时长信息以及指示加载时长类型信息的加载时长统计请求。
9.根据权利要求7所述的方法,其特征在于,当对所述被请求加载的图片采用实时加载方式时,所述加载时长信息包括t1和t2;或者,
所述加载时长信息为Δt;
其中,Δt=t2-t1,t1为加载开始时间,t2为加载结束时间。
10.根据权利要求7所述的方法,其特征在于,当对所述被请求加载的图片采用预加载方式时,所述加载时长信息包括t1’、t2和t3;或者,
所述加载时长信息为Δt;
其中,如果所述t3大于或等于所述t2,则Δt=0;
如果所述t3小于所述t2,则Δt=t2-t3;
t1’为预加载开始时间,t2为加载结束时间,t3为展现开始时间。
11.一种监控图片展现效果的方法,其特征在于,该方法包括:
获取浏览器发送来的检测结果,根据所述检测结果记录图片为死链或禁止引用的信息;
接收到来自浏览器的搜索请求query后,按照预设的调整策略在所述query的搜索结果中对记录为死链或禁止引用的图片进行调整。
12.根据权利要求11所述的方法,其特征在于,所述获取浏览器发送来的检测结果具体包括:
对所述浏览器发送来的统计请求进行识别,如果识别出是死链类型统计请求,则从所述死链类型统计请求中获取检索结果;
如果识别出是禁止引用类型统计请求,则从所述禁止引用类型统计请求中获取检索结果。
13.根据权利要求11所述的方法,其特征在于,根据所述检测结果记录图片为死链或禁止引用的信息具体包括:
根据所述检测结果,将图片为死链或禁止引用的信息记录在网络爬行器Spider抓取到的图片抓取结果集中;或者,
采用日志log的方式进行记录,然后周期性地对当前周期内的log中被记录为死链或禁止引用的图片进行二次检测,如果二次检测结果仍为死链或禁止引用,则将图片为死链或禁止引用的信息记载在Spider抓取到的图片抓取结果集中。
14.根据权利要求13所述的方法,其特征在于,所述对当前周期内的log中被记录为死链的图片进行二次检测具体包括:
根据所述被记录为死链的图片的URL向应用服务器发送图片加载请求后,如果在设定时间内没有收到所述应用服务器返回的响应,则检测出所述被记录为死链的图片仍为死链;或者,
根据所述被记录为死链的图片的URL向应用服务器发送图片加载请求后,如果在设定时间内收到所述应用服务器返回的错误响应,则检测出所述被记录为死链的图片仍为死链;或者,
根据所述被记录为死链的图片的URL向应用服务器发送图片加载请求后,如果图片的加载时长超过预设的死链加载时长,则检测出所述被记录为死链的图片仍为死链;或者,
根据所述被记录为死链的图片的URL向应用服务器发送图片加载请求后,如果发生跳转且跳转前后的URL中的文件名发生变化,则检测出所述被记录为死链的图片仍为死链。
15.根据权利要求13所述的方法,其特征在于,所述对当前周期内的log中被记录为禁止引用的图片进行二次检测具体包括:
判断所述被记录为禁止引用的图片的内容签名是否在预先设置的禁止引用签名集合中,如果是,则检测出所述被记录为禁止引用的图片仍禁止引用;
其中所述禁止引用签名集合是预先通过数据挖掘的方式获取到的所有禁止引用的图片内容签名构成的。
16.根据权利要求11至15任一权项所述的方法,其特征在于,所述调整策略具体包括:
将所述记录为死链或禁止引用的图片从所述query的搜索结果中删除;或者,
降低所述记录为死链或禁止引用的图片在所述query的搜索结果中的排序权值。
17.根据权利要求12所述的方法,其特征在于,该方法还包括:
如果识别出所述统计请求为加载时长统计请求,则从所述加载时长统计请求中获取图片的加载时长信息,并记录图片的加载时长信息。
18.根据权利要求17所述的方法,其特征在于,该方法还包括:根据记录的图片的加载时长信息,调整所述query的搜索结果中图片的排序。
19.一种监控图片展现效果的装置,其特征在于,该装置包括:效果检测单元和结果发送单元;
所述效果检测单元,用于检测被请求加载的图片是否为死链或禁止引用,如果是,将检测结果提供给所述结果发送单元;
所述结果发送单元,用于将所述检测结果发送至搜索引擎的服务器端;
其中所述检测结果包括所述被请求加载的图片为死链或禁止引用的信息。
20.根据权利要求19所述的装置,其特征在于,所述效果检测单元具体包括:第一交互子单元和死链判断子单元;
所述第一交互子单元,用于根据所述被请求加载的图片的URL向应用服务器发送图片加载请求,接收所述应用服务器返回的响应,加载所述应用服务器通过响应返回的所述被请求加载的图片;
所述死链判断子单元,用于在所述第一交互子单元发送所述图片加载请求后,如果在设定时间内没有收到所述应用服务器返回的响应,则确定所述被请求加载的图片为死链;或者,在所述第一交互子单元发送所述图片加载请求后,如果在设定时间内收到所述应用服务器返回的错误响应,则确定所述被请求加载的图片为死链;或者,如果确定所述被请求加载的图片的加载时长超过预设的死链加载时长,则确定所述被请求加载的图片为死链;或者,如果确定所述被请求加载的图片发生跳转且跳转前后的URL中文件名发生变化,则确定所述被请求加载的图片为死链。
21.根据权利要求19所述的装置,所述效果检测单元包括:第二交互子单元、第一状态值确定子单元、第二状态值确定子单元和禁止引用判断子单元;
所述第二交互子单元,用于加载所述被请求加载的图片;
所述第一状态值确定子单元,用于确定所述第二交互子单元记载得到的图片的状态值;
所述第二状态值确定子单元,用于获取所述搜索引擎的服务器端抓取到的所述被加载的图片的状态值;
所述禁止引用判断子单元,用于将所述第一状态值确定子单元确定的状态值和所述第二状态值确定子单元获取的状态值进行比较,如果两状态值的差异超过预设的差异阈值,则确定所述被请求加载的图片禁止引用。
22.根据权利要求21所述的装置,其特征在于,所述状态值包括以下至少一种:
图片尺寸、图片的消息摘要算法第五版MD5值以及图片的内容签名。
23.根据权利要求19至22任一权项所述的装置,其特征在于,如果所述效果检测单元检测出所述被请求加载的图片为死链,则所述结果发送单元具体向所述搜索引擎的服务器端发送包含被请求加载的图片的标识信息以及指示死链类型信息的死链类型统计请求;
如果所述效果检测单元检测出所述被请求加载的图片禁止引用,则所述结果发送单元具体向所述搜索引擎的服务器端发送包含被请求加载的图片的标识信息以及指示禁止引用类型信息的禁止引用类型统计请求。
24.根据权利要求19至22任一权项所述的装置,其特征在于,该装置还包括:时长确定单元,用于在所述效果检测单元检测出所述被请求加载的图片不是死链和禁止引用时,确定所述被请求加载的图片的加载时长信息;
所述结果发送单元,还用于将所述时长确定单元确定的时长信息发送给所述搜索引擎的服务器端。
25.根据权利要求24所述的装置,其特征在于,所述结果发送单元具体将包含被请求加载的图片的标识信息、加载时长信息以及指示加载时长类型信息的加载时长统计请求发送给所述搜索引擎的服务器端。
26.根据权利要求24所述的装置,其特征在于,当对所述被请求加载的图片采用实时加载方式时,所述加载时长信息包括t1和t2;或者,
所述加载时长信息为Δt;
其中,Δt=t2-t1,t1为加载开始时间,t2为加载结束时间。
27.根据权利要求24所述的装置,其特征在于,当对所述被请求加载的图片采用预加载方式时,所述加载时长信息包括t1’、t2和t3;或者,
所述加载时长信息为Δt;
其中,如果所述t3大于或等于所述t2,则Δt=0;
如果所述t3小于所述t2,则Δt=t2-t3;
t1’为预加载开始时间,t2为加载结束时间,t3为展现开始时间。
28.一种监控图片展现效果的装置,其特征在于,该装置包括:用户侧交互单元、结果记录单元和搜索调整单元;
所述用户侧交互单元,用于获取浏览器发送来的检测结果,接收来自浏览器的搜索请求query;
所述结果记录单元,用于根据所述检测结果记录图片为死链或禁止引用的信息;
所述搜索调整单元,用于按照预设的调整策略在所述query的搜索结果中对记录为死链或禁止引用的图片进行调整。
29.根据权利要求28所述的装置,其特征在于,所述用户侧交互单元具体包括:请求接收子单元、类型识别子单元和结果获取子单元;
所述请求接收子单元,用于接收浏览器发送来的统计请求,接收浏览器发送来的query;
所述类型识别子单元,用于对所述统计请求进行识别;
所述结果获取子单元,用于在所述类型识别子单元的识别结果为死链类型统计请求时,从所述死链类型统计请求中获取检索结果;在所述类型识别子单元的识别结果为禁止引用类型统计请求时,从所述禁止引用类型统计请求中获取检索结果。
30.根据权利要求28所述的装置,其特征在于,所述结果记录单元根据所述检测结果,将图片为死链或禁止引用的信息记录在网络爬行器Spider抓取到的图片抓取结果集中。
31.根据权利要求28所述的装置,其特征在于,该装置还包括:二次检测单元;
所述结果记录单元根据所述检测结果,将图片为死链或禁止引用的信息采用日志log的方式进行记录;如果所述二次检测单元的检测结果为仍是死链或禁止引用,则将二次检测单元检测出的图片为死链或禁止引用的信息记录在Spider抓取到的图片抓取结果集中;
所述二次检测单元,用于周期性地对当前周期内的log中被记录为死链或禁止引用的图片进行二次检测。
32.根据权利要求31所述的装置,其特征在于,所述二次检测单元具体包括:服务器侧交互子单元和死链判断子单元;
所述服务器侧交互子单元,用于根据所述被记录为死链的图片的URL向应用服务器发送图片加载请求,接收所述应用服务器返回的响应,加载所述应用服务器通过响应返回的所述被请求加载的图片;
所述死链判断子单元,用于在所述服务器侧交互子单元发送所述图片加载请求后,如果在设定时间内没有收到所述应用服务器返回的响应,则检测出所述被记录为死链的图片仍为死链;或者,在所述服务器侧交互子单元发送所述图片加载请求后,如果在设定时间内收到所述应用服务器返回的错误响应,则检测出所述被记录为死链的图片仍为死链;或者,如果确定所述被记录为死链的图片的加载时长超过预设的死链加载时长,则检测出所述被记录为死链的图片仍为死链;或者,如果确定所述被记录为死链的图片发生跳转且跳转前后的URL中文件名发生变化,则检测出所述被记录为死链的图片仍为死链。
33.根据权利要求31所述的装置,其特征在于,所述二次检测单元具体包括:签名获取子单元和禁止引用判断子单元;
所述签名获取子单元,用于获取所述被记录为禁止引用的图片的内容签名;
所述禁止引用判断子单元,用于判断所述签名获取子单元获取的内容签名是否在预先设置的禁止引用签名集合中,如果是,则检测出所述被记录为禁止引用的图片仍为禁止引用;
其中所述禁止引用签名集合是预先通过数据挖掘的方式获取到的所有禁止引用的图片内容签名构成的。
34.根据权利要求28至33任一权项所述的装置,其特征在于,所述搜索调整单元具体将所述记录为死链或禁止引用的图片从所述query的搜索结果中删除;或者,降低所述记录为死链或禁止引用的图片在所述query的搜索结果中的排序权值。
35.根据权利要求29所述的装置,其特征在于,所述结果记录单元,还用于在所述类型识别子单元识别出所述统计请求为加载时长统计请求时,从所述加载时长统计请求中获取图片的加载时长信息,并记录图片的加载时长信息。
36.根据权利要求35所述的装置,其特征在于,所述搜索调整单元,还用于根据所述结果记录单元记录的图片的加载时长信息,调整所述query的搜索结果中图片的排序。
37.一种监控图片展现效果的系统,其特征在于,该系统包括:如权利要求19所述的装置以及如权利要求28所述的装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105804468A CN102024042B (zh) | 2010-12-03 | 2010-12-03 | 一种监控图片展现效果的方法、装置和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105804468A CN102024042B (zh) | 2010-12-03 | 2010-12-03 | 一种监控图片展现效果的方法、装置和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102024042A true CN102024042A (zh) | 2011-04-20 |
CN102024042B CN102024042B (zh) | 2013-11-27 |
Family
ID=43865339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010105804468A Active CN102024042B (zh) | 2010-12-03 | 2010-12-03 | 一种监控图片展现效果的方法、装置和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102024042B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663062A (zh) * | 2012-03-30 | 2012-09-12 | 奇智软件(北京)有限公司 | 一种处理搜索结果中无效链接的方法及装置 |
CN102868562A (zh) * | 2012-09-28 | 2013-01-09 | 北京奇虎科技有限公司 | 维护网络应用平台运行的方法及维护设备 |
CN102929952A (zh) * | 2012-10-08 | 2013-02-13 | 北京奇虎科技有限公司 | 网页图片显示装置和方法 |
CN104052630A (zh) * | 2013-03-14 | 2014-09-17 | 北京百度网讯科技有限公司 | 对网站执行验证的方法和系统 |
CN104158697A (zh) * | 2013-10-18 | 2014-11-19 | 深圳信息职业技术学院 | 一种死链检测方法及装置 |
CN108536850A (zh) * | 2018-04-16 | 2018-09-14 | 沈文策 | 一种预加载图片的方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001046870A1 (en) * | 1999-12-08 | 2001-06-28 | Amazon.Com, Inc. | System and method for locating and displaying web-based product offerings |
CN101211340A (zh) * | 2006-12-29 | 2008-07-02 | 上海芯盛电子科技有限公司 | 基于客户端/服务端结构的动态网络爬行器 |
-
2010
- 2010-12-03 CN CN2010105804468A patent/CN102024042B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001046870A1 (en) * | 1999-12-08 | 2001-06-28 | Amazon.Com, Inc. | System and method for locating and displaying web-based product offerings |
CN101211340A (zh) * | 2006-12-29 | 2008-07-02 | 上海芯盛电子科技有限公司 | 基于客户端/服务端结构的动态网络爬行器 |
Non-Patent Citations (1)
Title |
---|
《中国优秀硕士学位论文全文数据库》 20070915 谢同 基于文本的Web图片搜索引擎的研究与实现 第73-78页 1,11,19,28 , 2 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663062A (zh) * | 2012-03-30 | 2012-09-12 | 奇智软件(北京)有限公司 | 一种处理搜索结果中无效链接的方法及装置 |
CN102663062B (zh) * | 2012-03-30 | 2015-01-14 | 北京奇虎科技有限公司 | 一种处理搜索结果中无效链接的方法及装置 |
CN102868562A (zh) * | 2012-09-28 | 2013-01-09 | 北京奇虎科技有限公司 | 维护网络应用平台运行的方法及维护设备 |
CN102868562B (zh) * | 2012-09-28 | 2015-11-25 | 北京奇虎科技有限公司 | 维护网络应用平台运行的方法及维护设备 |
CN102929952A (zh) * | 2012-10-08 | 2013-02-13 | 北京奇虎科技有限公司 | 网页图片显示装置和方法 |
CN102929952B (zh) * | 2012-10-08 | 2016-12-28 | 北京奇虎科技有限公司 | 网页图片显示装置和方法 |
CN104052630A (zh) * | 2013-03-14 | 2014-09-17 | 北京百度网讯科技有限公司 | 对网站执行验证的方法和系统 |
CN104158697A (zh) * | 2013-10-18 | 2014-11-19 | 深圳信息职业技术学院 | 一种死链检测方法及装置 |
CN104158697B (zh) * | 2013-10-18 | 2017-07-21 | 深圳信息职业技术学院 | 一种死链检测方法及装置 |
CN108536850A (zh) * | 2018-04-16 | 2018-09-14 | 沈文策 | 一种预加载图片的方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102024042B (zh) | 2013-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3441306B2 (ja) | クライアント装置、メッセージ送信方法、サーバ装置、ページ処理方法及び中継サーバ装置 | |
CN102024042B (zh) | 一种监控图片展现效果的方法、装置和系统 | |
CN102957712B (zh) | 网站资源加载方法和系统 | |
US10992762B2 (en) | Processing link identifiers in click records of a log file | |
US6601061B1 (en) | Scalable information search and retrieval including use of special purpose searching resources | |
US7949689B2 (en) | Media indexing beacon and capture device | |
US7444319B1 (en) | Method and apparatus for extracting relevant content based on user preferences indicated by user actions | |
US8306965B2 (en) | System and method for generating expertise based search results | |
US20110087649A1 (en) | Systems and methods for identifying premium content items in a result set | |
JP2007028462A5 (zh) | ||
CN103246654A (zh) | 搜索结果的展示处理方法和装置 | |
CN103501241B (zh) | 垃圾文件清理方法、装置和系统 | |
CN102902675A (zh) | 图片内容审核方法和装置 | |
CN106878452A (zh) | 一种文件上传方法、装置和系统 | |
CN110851680B (zh) | 网络爬虫识别方法和装置 | |
CN106254528A (zh) | 一种资源下载方法和缓存设备 | |
WO2020238567A1 (zh) | 一种资源检测方法及装置 | |
WO2016033765A1 (zh) | 网页自动化测试方法及装置 | |
US7970760B2 (en) | System and method for automatic detection of needy queries | |
CN103684823A (zh) | 网络日志记录方法、网络访问路径确定方法及相关装置 | |
JP4008837B2 (ja) | コンテンツ配信支援方法、コンテンツ配信支援装置、コンテンツ配信支援プログラム | |
JP5959163B2 (ja) | 文書収集システムおよび方法 | |
US20010051975A1 (en) | Distributed searching system and searching apparatus for use in the distributed searching system | |
CN102033911A (zh) | 一种搜索预处理方法和搜索预处理器 | |
Stanyer et al. | Improving Web usability with the link lens |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |