CN101071433B - 一种图片下载系统及方法 - Google Patents

一种图片下载系统及方法 Download PDF

Info

Publication number
CN101071433B
CN101071433B CN200710074405XA CN200710074405A CN101071433B CN 101071433 B CN101071433 B CN 101071433B CN 200710074405X A CN200710074405X A CN 200710074405XA CN 200710074405 A CN200710074405 A CN 200710074405A CN 101071433 B CN101071433 B CN 101071433B
Authority
CN
China
Prior art keywords
picture
url
download
current site
document information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200710074405XA
Other languages
English (en)
Other versions
CN101071433A (zh
Inventor
胡景贺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN200710074405XA priority Critical patent/CN101071433B/zh
Publication of CN101071433A publication Critical patent/CN101071433A/zh
Application granted granted Critical
Publication of CN101071433B publication Critical patent/CN101071433B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种图片下载系统及方法,所述系统包括:网页分析模块,分析网页并获取所述网页中图片的URL;图片信息库,保存已下载图片的URL,以及记录了图片与网站归属关系的文档信息;控制模块,根据网页分析模块提供的URL判断图片信息库中是否包括所述URL并发出相应的控制信号;下载模块,在所述控制模块判定所述图片信息库中不包括所述URL时,根据图片的URL下载图片并将图片的URL保存到图片信息库中;文档信息记录模块,记录图片与网站的归属关系,并保存到图片信息库中;所述控制模块还根据包括图片与网站归属关系的文档信息判断所述图片在当前网站出现次数是否大于阈值p,是则将其判定为广告图片并删除。

Description

一种图片下载系统及方法
技术领域
本发明属于计算机技术领域,尤其涉及一种图片下载系统及方法。
背景技术
图片下载系统在网络上利用爬取技术下载图片文件,即通过抓取带有图片的网页获得图片链接,即图片的统一资源定位符(Uniform Resource Location,URL)。
图片下载系统可以通过网页净化去除图片中的广告部分,即通过分析网页的结构和文字特点,将网页中所带有的广告部分(包含URL)去除,但该方案只是针对单一网页的结构和全网网页的特点进行判断,而对于某一站点内的区域特点利用不够导致去除广告的效率低。
此外,图片下载系统还可以通过网页模版去除广告,即针对特定网站或特定类型的网页制作模版,在网页分析的过程中利用模版判断图片连接是否为广告,是则将其去除。但该方案的这种分析不够全面,因为大部分网站没有模版,所以去除广告的效率也很低。
发明内容
本发明实施例的目的在于提供一种图片下载系统,旨在解决现有技术中通过网页净化或网页模板的方式的去除广告效率低的问题。
本发明实施例的另一目的在于提供一种图片下载方法。
本发明实施例是这样实现的,一种图片下载系统,所述系统包括:
网页分析模块,用于分析网页并获取所述网页中图片的统一资源定位符;
图片信息库,用于保存已下载图片的统一资源定位符,以及记录了图片与网站归属关系的文档信息;
控制模块,用于根据所述网页分析模块提供的统一资源定位符判断图片信息库中是否包括所述统一资源定位符,如果包括,向文档信息记录模块发出控制信号,如果不包括,向下载模块发送控制信号;
下载模块,用于在所述控制模块判定所述图片信息库中不包括所述统一资源定位符时,接收所述控制模块发送的控制信号,根据所述图片的统一资源定位符下载所述图片并将所述图片的统一资源定位符保存到图片信息库中;
文档信息记录模块,用于记录所述图片与网站的归属关系,并保存到所述图片信息库中;
所述控制模块进一步用于根据包括图片与网站归属关系的文档信息判断所述图片在当前网站出现次数是否大于阈值p,是则将其判定为广告图片并删除,否则不进行删除操作;其中阈值p为当前网站上已下载图片的平均分布值。
一种图片下载方法,所述方法包括:
A.分析网页,获取所述网页中图片的统一资源定位符;
B.判断图片信息库中是否包括所述统一资源定位符,是则执行步骤D,否则执行步骤C;
C.根据所述图片的统一资源定位符下载所述图片并将图片的统一资源定位符保存到图片信息库中;
D.记录所述图片的文档信息并保存在图片信息库中,所述文档信息包括图片与网站的归属关系;
E.根据所述文档信息判断所述图片在当前网站出现次数是否大于阈值p,是则将其判定为广告图片并删除,否则不进行删除操作;其中阈值p为当前网站上已下载图片的平均分布值。
本发明实施例通过建立图片信息库,对在网页中出现的图片进行记录,将在同一网站出现的次数异常的图片判定为广告,充分利用了同一网站上网页所具有的区域特点,从而提高了判断广告图片的效率。
附图说明
图1是本发明实施例提供的图片下载系统结构图;
图2是本发明实施例提供的图片下载方法的实现流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例通过建立图片信息库,对在网页中出现的图片进行记录,将在同一网站出现的次数异常的图片判定为广告,充分利用了同一网站上网页所具有的区域特点,从而提高了判断广告图片的效率。
图1示出了本发明实施例提供的图片下载系统100,包括:网页分析模块101、图片信息库102、控制模块103、下载模块104以及文档信息记录模块105。其中,网页分析模块101分析网页并获取网页中图片的URL,图片信息库102保存已下载的图片URL,以及记录了图片与网站归属关系的文档信息等。
控制模块103根据网页分析模块101提供的URL判断图片信息库102中是否包括该URL,是则发送控制信号,控制文档信息记录模块105记录该图片与网站的归属关系,并将其作为文档信息保存在图片信息库102中;否则还向下载模块104发送控制信号,触发下载模块104根据该URL下载对应的图片并将图片的URL保存到图片信息库102中。
控制模块103还根据图片信息库102中的文档信息,判断当前图片在当前网站出现的次数是否大于阈值p,是则将其判定为广告图片并删除,否则不进行删除操作;其中,阈值p为当前网站上已下载图片的平均分布值,当前网站上已下载图片的平均分布值可以通过统计图片信息库存储的图片文档信息中的记录获得。例如一个网站上共有20张图片,其中15张图片在该网站上出现的次数为2次,5张图片在该网站上出现的次数为50次,那么平均分布值为(15*2+5*50)/(15+5)C=14C,其中,C为根据反复实验总结出的经验常数,假设为2,那么只要当图片在该网站上出现的次数超过28则会被判断为广告图片。
在本发明一实施例中,文档信息记录模块105还用于记录图片与当前网站的所有网页的位置关系,例如图片在网页结构中的正文位置等,并保存在图片信息库102中,此时,图片在当前网站出现的次数可以通过对该网站上所有网页进行加权的广告分值来体现,同理的,阈值p为所有图片在该网站上的广告分值的平均数,从而进一步提高判断广告图片的准确率。例如:一个网站上共有n个网页,m张图片,Kij为第j张图片在第i个网页中的广告权重(当图片未在某个网页中出现则Kij为0),则该图片在当前网站上的广告分值为:
w = Σ i = 0 n ( K ij ) , 广告权重Kij随图片所在网页的不同而不同,例如,当图片在网页中的位置较好时(例如:正文位置),则广告权重较低,而当图片所在网页中的位置较差时,则广告权重较高。
阈值p,即所有图片在该网站上的广告分值的平均数为:
v = C · Σ j = 0 m ( Σ i = 0 n ( K ij ) ) m , 其中,C为根据反复实验总结出的经验常数。
所以,当图片在当前网站上的广告分值w大于所有图片在该网站上广告分值的平均数v时则会被判断为广告图片。
在本发明一实施例中,控制模块103根据当前图片的URL在与当前网站相关的文档信息中的重复次数作为判断当前图片在当前网站所有网页中出现的次数的依据。
在本发明另一实施例中,为避免相同广告图片具有不同的URL造成广告图片的漏判,控制模块103使用图片指纹替代URL作为判断图片在当前网站出现次数的依据,图片指纹是根据图片的二进制源码计算出的用于标记图片内容的一个唯一的数字序列,图片指纹可以是该图片的全部数据经信息-摘要算法(Message-Digest Algorithm 5,md5)计算得到的值。为此,文档信息记录模块105还用于根据下载模块104下载的图片二进制源码计算该图片的指纹,并将其保存到图片信息库102中相应的文档信息中。控制模块103将图片信息库102中与当前网站相关的文档信息中当前图片指纹重复出现的次数作为判断图片在当前网站出现次数的依据。
在本发明一优选实施例中,图片下载系统100还包括下载优化模块106,对网页进行评价,根据评价进行网页链接推送。例如:根据包含广告图片的由多到少,将网页分为由低到高多个等级,因为每个网页都有很多外部链接,所以可以根据这个网页的等级决定是不是推送这个网页含有的外部链接以及推送该网页中外部链接的数量等,便于系统在下一轮下载中只针对推送的外部链接进行图片下载,从而优化下载方向。
图2示出了本发明实施例提供的图片下载方法的实现流程,详述如下:
在步骤S201中,分析网页,取得其中图片的URL;
在步骤S202中,判断图片信息库中是否有当前图片的URL,是则执行步骤S204,否则执行步骤S203;
在步骤S203中,根据图片的URL下载图片,并将图片的URL保存到图片信息库中,继续执行步骤S204;
在步骤S204中,记录图片与当前网站的归属关系,并作为文档信息保存;
在步骤S205中,分析上述文档信息,判断图片在当前网站出现次数是否大于阈值p,是则执行步骤S206,否则执行步骤S207;
在本发明一实施例中,根据图片信息库中图片的URL在相应的图片文档信息中的重复次数得出该图片在当前网站上出现的次数,在本发明另一实施例中,为避免相同广告图片具有不同的URL造成广告图片的漏判,可以选用图片指纹替代URL作为判断图片在当前网站出现次数的依据。相应的,在步骤S204中记录图片与当前网站归属关系的同时,还包括根据该图片的二进制源码计算该图片的指纹,并将其一并保存到文档信息中的步骤。
其中,阈值p为当前网站上已下载图片的平均分布值,当前网站上已下载图片的平均分布值可以通过统计图片信息库存储的图片文档信息中的记录获得。例如一个网站上共有20张图片,其中15张图片在该网站上出现的次数为2次,5张图片在该网站上出现的次数为50次,那么平均分布值为(15*2+5*50)/(15+5)C=14C,其中,C为根据反复实验总结出的经验常数,假设为2,那么只要当图片在该网站上出现的次数超过28则会被判断为广告图片。
在本发明一实施例中,步骤S204中还包括在文档信息中记录图片与网页位置关系的步骤,此时,图片在当前网站出现的次数可以通过对该网站上所有网页进行加权的广告分值来体现,同理的,阈值p为所有图片在该网站上的广告分值的平均数,从而进一步提高判断广告图片的准确率。例如:一个网站上共有n个网页,m张图片,Kij为第j张图片在第i个网页中的广告权重(当图片未在某个网页中出现则Kij为0),则该图片在当前网站上的广告分值为:
w = Σ i = 0 n ( K ij ) , 广告权重Kij随图片所在网页的不同而不同,例如,当图片在网页中的位置较好时(例如:正文位置),则广告权重较低,而当图片所在网页中的位置较差时,则广告权重较高。
阈值p,即所有图片在该网站上的广告分值的平均数为:
v = C · Σ j = 0 m ( Σ i = 0 n ( K ij ) ) m , 其中,C为根据反复实验总结出的经验常数。
所以,当图片在当前网站所有网页中出现的广告分值w大于所有图片的广告分值的平均数v时执行步骤S206,否则执行步骤S207。
在步骤S206中,将该图片判定为广告图片并删除;
在步骤S207中,对网页进行评价,根据评价进行网页链接推送。
本发明实施例通过建立图片信息库,对在网页中出现的图片进行记录,将在同一网站出现的次数异常的图片判定为广告,充分利用了同一网站上网页所具有的区域特点,使得判断广告图片的效率大大提高。此外,根据包含广告图片的由多到少,对网页进行评价,根据评价进行网页链接推送从而优化了下载方向。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种图片下载系统,其特征在于,所述系统包括:
网页分析模块,用于分析网页并获取所述网页中图片的统一资源定位符;
图片信息库,用于保存已下载图片的统一资源定位符,以及记录了图片与网站归属关系的文档信息;
控制模块,用于根据所述网页分析模块提供的统一资源定位符判断图片信息库中是否包括所述统一资源定位符,如果包括,向文档信息记录模块发出控制信号,如果不包括,向下载模块发送控制信号;
下载模块,用于在所述控制模块判定所述图片信息库中不包括所述统一资源定位符时,接收所述控制模块发送的控制信号,根据所述图片的统一资源定位符下载所述图片并将所述图片的统一资源定位符保存到图片信息库中;
文档信息记录模块,用于记录所述图片与网站的归属关系,并保存到所述图片信息库中;
所述控制模块进一步用于根据包括图片与网站归属关系的文档信息判断所述图片在当前网站出现次数是否大于阈值p,是则将其判定为广告图片并删除,否则不进行删除操作;其中阈值p为当前网站上已下载图片的平均分布值。
2.如权利要求1所述的图片下载系统,其特征在于,所述控制模块进一步用于判断当前图片的统一资源定位符在与当前网站相关的文档信息中的重复次数是否大于阈值p。
3.如权利要求1所述的图片下载系统,其特征在于,所述文档信息记录模块进一步用于根据所述下载模块下载的图片二进制源码计算所述图片的指纹,并将其保存到所述图片信息库中相应的文档信息中;
所述控制模块进一步用于判断当前图片的指纹在与当前网站相关的文档信息中重复出现的次数是否大于阈值p。
4.如权利要求1所述的图片下载系统,其特征在于,所述文档信息记录模块进一步用于记录图片与网页的位置关系;
所述图片信息库进一步用于保存记录了所述图片与网页的位置关系的文档信息。
5.如权利要求4所述的图片下载系统,其特征在于,所述图片在当前网站出现的次数通过图片在当前网站上的广告分值体现,所述广告分值按下式计算:
w = Σ i = 0 n ( K ij ) , 其中n为当前网站上的网页数量,Kij为第j张图片在第i个网页中的广告权重;
所述阈值p为所有图片在当前网站上的广告分值的平均数,所述所有图片在当前网站上的广告分值的平均数按下式计算:
v = C · Σ j = 0 m ( Σ i = 0 n ( K ij ) ) m , 其中,C为根据实验总结出的经验常数,m为当前网站上的图片数量。
6.如权利要求1至5任一权利要求所述的图片下载系统,其特征在于,所述系统进一步包括:
下载优化模块,用于对当前网页进行评价,根据评价对网页中的外部链接进行推送。
7.一种图片下载方法,其特征在于,所述方法包括:
A.分析网页,获取所述网页中图片的统一资源定位符;
B.判断图片信息库中是否包括所述统一资源定位符,是则执行步骤D,否则执行步骤C;
C.根据所述图片的统一资源定位符下载所述图片并将图片的统一资源定位符保存到图片信息库中;
D.记录所述图片的文档信息并保存在图片信息库中,所述文档信息包括图片与网站的归属关系;
E.根据所述文档信息判断所述图片在当前网站出现次数是否大于阈值p,是则将其判定为广告图片并删除,否则不进行删除操作;其中阈值p为当前网站上已下载图片的平均分布值。
8.如权利要求7所述的图片下载方法,其特征在于,所述步骤E进一步包括:
E11.判断当前图片的统一资源定位符在与当前网站相关的所述文档信息中的重复次数是否大于阈值p。
9.如权利要求7所述的图片下载方法,其特征在于,所述步骤D进一步包括:
根据已下载图片的二进制源码计算图片的指纹;
将图片的指纹保存到所述图片信息库中相应的文档信息中;
所述步骤E进一步包括:
E21.判断当前图片的指纹在与当前网站相关的所述文档信息中重复出现的次数是否大于阈值p。
10.如权利要求7所述的图片下载方法,其特征在于,所述步骤D进一步包括:
在文档信息中记录图片与网页的位置关系。
11.如权利要求10所述的图片下载方法,其特征在于,所述图片在当前网站出现的次数通过图片在当前网站上的广告分值体现,所述广告分值按下式计算:
w = Σ i = 0 n ( K ij ) , 其中n为当前网站上的网页数量,Kij为第j张图片在第i个网页中的广告权重;
所述阈值p为所有图片在当前网站上的广告分值的平均数,所述所有图片在当前网站上的广告分值的平均数按下式计算:
v = C · Σ j = 0 m ( Σ i = 0 n ( K ij ) ) m , 其中,C为根据实验总结出的经验常数,m为当前网站上的图片数量。
12.如权利要求7至11任一权利要求所述的图片下载方法,其特征在于,在所述步骤E之后,所述方法还包括:
F.对当前网页进行评价,根据评价对网页中的外部链接进行推送。
CN200710074405XA 2007-05-10 2007-05-10 一种图片下载系统及方法 Active CN101071433B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200710074405XA CN101071433B (zh) 2007-05-10 2007-05-10 一种图片下载系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200710074405XA CN101071433B (zh) 2007-05-10 2007-05-10 一种图片下载系统及方法

Publications (2)

Publication Number Publication Date
CN101071433A CN101071433A (zh) 2007-11-14
CN101071433B true CN101071433B (zh) 2010-08-18

Family

ID=38898657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200710074405XA Active CN101071433B (zh) 2007-05-10 2007-05-10 一种图片下载系统及方法

Country Status (1)

Country Link
CN (1) CN101071433B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101458693A (zh) 2007-12-13 2009-06-17 鸿富锦精密工业(深圳)有限公司 网页下载解析系统及方法
CN100589517C (zh) * 2007-12-28 2010-02-10 深圳华为通信技术有限公司 一种数码相框中的图像下载方法、系统和设备
US8225198B2 (en) * 2008-03-31 2012-07-17 Vistaprint Technologies Limited Flexible web page template building system and method
CN102567319B (zh) * 2010-12-10 2016-08-24 深圳市世纪光速信息技术有限公司 网页图片过滤方法及系统
CN102207976A (zh) * 2011-06-24 2011-10-05 厦门雅迅网络股份有限公司 一种网页数据的下载和浏览方法
CN102929952B (zh) * 2012-10-08 2016-12-28 北京奇虎科技有限公司 网页图片显示装置和方法
CN103617261B (zh) * 2013-12-02 2017-03-08 北京奇虎科技有限公司 图片内容属性识别方法和系统
CN103617262B (zh) * 2013-12-02 2017-03-08 北京奇虎科技有限公司 图片内容属性识别方法和系统
WO2015081748A1 (zh) * 2013-12-02 2015-06-11 北京奇虎科技有限公司 图片内容属性识别方法和系统
CN107729489A (zh) * 2017-10-17 2018-02-23 北京京东尚科信息技术有限公司 广告文本识别方法和装置
CN110691108B (zh) * 2018-07-04 2022-09-09 武汉斗鱼网络科技有限公司 一种图片的下载保存方法及电子设备
CN109492121A (zh) * 2018-09-30 2019-03-19 深圳壹账通智能科技有限公司 智能识别图片的方法、装置、服务器及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020049704A1 (en) * 1998-08-04 2002-04-25 Vanderveldt Ingrid V. Method and system for dynamic data-mining and on-line communication of customized information
WO2004111771A2 (en) * 2003-06-02 2004-12-23 Google, Inc. Serving advertisements using user request information and user information
CN101017490A (zh) * 2006-02-10 2007-08-15 鸿富锦精密工业(深圳)有限公司 自动下载和过滤网页的系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020049704A1 (en) * 1998-08-04 2002-04-25 Vanderveldt Ingrid V. Method and system for dynamic data-mining and on-line communication of customized information
WO2004111771A2 (en) * 2003-06-02 2004-12-23 Google, Inc. Serving advertisements using user request information and user information
CN101017490A (zh) * 2006-02-10 2007-08-15 鸿富锦精密工业(深圳)有限公司 自动下载和过滤网页的系统及方法

Also Published As

Publication number Publication date
CN101071433A (zh) 2007-11-14

Similar Documents

Publication Publication Date Title
CN101071433B (zh) 一种图片下载系统及方法
Boyce et al. Evaluating resource selection functions
Sohl The relative impacts of climate and land-use change on conterminous United States bird species from 2001 to 2075
Waiyasusri et al. Monitoring and predicting land use changes in the Huai Thap Salao Watershed area, Uthaithani Province, Thailand, using the CLUE-s model
Wright Spatiotemporal dynamics of prairie wetland networks: power‐law scaling and implications for conservation planning
CN107145556B (zh) 通用的分布式采集系统
CN106330788B (zh) 报文分片传输方法和装置
CN103778226A (zh) 构建语言信息识别模型的方法及语言信息识别装置
Connolly et al. Classification of peatland disturbance
McFarlane et al. An assessment of sampling designs using SCR analyses to estimate abundance of boreal caribou
CN104008120A (zh) 用于数据存档的系统及方法
Bai et al. Long-term distribution and habitat changes of protected wildlife: giant pandas in Wolong Nature Reserve, China
Barros-Rosa et al. Fire probability mapping and prediction from environmental data: What a comprehensive savanna-forest transition can tell us
CN108038441A (zh) 一种基于图像识别的系统与方法
Wangen et al. Hyper-oceanic liverwort species of conservation concern: evidence for dispersal limitation and identification of suitable uncolonised regions
Tong et al. Reforestation policies around 2000 in southern China led to forest densification and expansion in the 2010s
CN104424188A (zh) 对获取的网页数据进行更新的系统及方法
CN105975599A (zh) 一种监测网站的页面埋点的方法和装置
CN116911481B (zh) 基于大数据处理的垃圾收运系统及方法
CN116090674B (zh) 草地退化早期预警方法、装置及系统
CN110472416A (zh) 一种网页恶意代码检测方法及相关装置
CN106354846A (zh) 基于大数据的新闻智能选稿方法及系统
CN108287890B (zh) 数据管理方法及装置
Ntakirutimana et al. Assessment and Prediction of Land Use/Land Cover Change in the National Capital of Burundi Using Multi-temporary Landsat Data and Cellular Automata-Markov Chain Model.
CN105117425A (zh) 选择兴趣点poi数据的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant