CN102567319A - 网页图片过滤方法及系统 - Google Patents

网页图片过滤方法及系统 Download PDF

Info

Publication number
CN102567319A
CN102567319A CN2010105834251A CN201010583425A CN102567319A CN 102567319 A CN102567319 A CN 102567319A CN 2010105834251 A CN2010105834251 A CN 2010105834251A CN 201010583425 A CN201010583425 A CN 201010583425A CN 102567319 A CN102567319 A CN 102567319A
Authority
CN
China
Prior art keywords
picture
rubbish
probability
main body
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010105834251A
Other languages
English (en)
Other versions
CN102567319B (zh
Inventor
李瑞方
张立明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201010583425.1A priority Critical patent/CN102567319B/zh
Publication of CN102567319A publication Critical patent/CN102567319A/zh
Application granted granted Critical
Publication of CN102567319B publication Critical patent/CN102567319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

一种网页图片过滤方法,包括以下步骤:从网页上的图片中提取对应的图片特征;根据所述图片特征判断所述图片是否为垃圾图片,若是垃圾图片,则剔除所述垃圾图片;从所述网页上下载未剔除的图片。上述网页图片过滤方法及系统中,通过图片特征来识别网页中的图片是否是垃圾图片,如果是垃圾图片就不再下载,从而有效地减少了网络带宽消耗,使得经由web网页转换过来的wap网页中不再出现垃圾图片,有效地降低了网页中的噪音。

Description

网页图片过滤方法及系统
【技术领域】
本发明涉及网页解析技术,特别是涉及一种网页图片过滤方法及系统。
【背景技术】
现有的网站大多为web网页,这此网页只能通过电脑正常访问和浏览,而在正常情况下,手机等移动终端只能访问wap(Wireless Application Protocol,无线通讯协议)网页。为充分利用现有的web网页资源,常常将适宜于电脑访问的web网页转换为适宜于移动终端访问的wap网页,以使得用户可通过手机等小屏幕移动终端方便地访问和浏览web网页中的主要内容。
然而,在传统的web网页转换过程中,必须将web页面中的图片下载下来,然后根据下载后的图片进行识别,以判断下载后的图片是垃圾图片还是主体图片,从而导致下载图片耗时过长,极大地消耗了网络带宽及处理器资源。
【发明内容】
基于此,本发明实施例提供一种网页图片过滤方法,其可解决现有技术中网络带宽消耗较大的问题。
此外,还有必要提供一种可减少网络带宽消耗的网页图片过滤系统。
一种网页图片过滤方法,包括以下步骤:从网页上的图片中提取对应的图片特征;根据所述图片特征判断所述图片是否为垃圾图片,若是垃圾图片,则剔除所述垃圾图片;从所述网页上下载未剔除的图片。
优选地,所述图片特征包括样式信息,则所述根据所述图片特征判断所述图片是否为垃圾图片,若是,则剔除所述垃圾图片的步骤为:从所述样式信息中得到所述图片的尺寸参数;判断所述图片的尺寸参数是否小于垃圾阈值,若是小于垃圾阈值,则剔除所述垃圾图片。
优选地,所述图片特征还包括图片文件名的信息摘要值,则所述根据所述图片特征判断所述图片是否为垃圾图片,若所述图片的尺寸参数是介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,则剔除所述垃圾图片的步骤为:判断所述图片的尺寸参数是否介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,若是,则按照所述图片的文件名计算信息摘要值;根据所述信息摘要值标记重复的图片;判断是否存在已标记的重复图片,若是存在已标记的重复图片,则剔除所述已标记的重复图片。
优选地,所述图片特征包括图片数量,则所述根据所述图片特征判断所述图片是否为垃圾图片,若是垃圾图片,则剔除所述垃圾图片的步骤为:获取所述网页中的图片数量;判断所述图片数量是否大于数量阈值,若是大于数量阈值,则从所述网页中提取文件名结构相同且路径特征相同的图片;剔除所述文件名相同且路径特征相同的图片。
优选地,所述图片特征包括图片的替换文本,则所述根据所述图片特征判断所述图片是否为垃圾图片,若是垃圾图片,则剔除所述剔除图片的步骤为:以图片的替换文本为特征项计算对应的先验概率;根据所述先验概率及图片的替换文本通过朴素贝叶斯分类算法计算垃圾图片概率和主体概率;将所述垃圾图片概率和主体图片概率归一化后得到垃圾图片;剔除所述垃圾图片。
优选地,所述图片特征包括图片的绝对路径,则所述根据所述图片特征判断所述图片是否为垃圾图片,若是垃圾图片,则剔除所述垃圾图片的步骤为:从所述图片的绝对路径中提取图片的文件名或路径特征;以图片的文件名或路径特征为特征项计算对应的先验概率;根据所述先验概率以及与先验概率相对应的文件名或路径特征通过朴素贝叶斯分类算法计算得到垃圾图片概率和主体图片概率;将所述垃圾图片概率和主体图片概率归一化后得到垃圾图片;剔除所述垃圾图片。
一种网页图片过滤系统,至少包括:特征提取模块,用于逐一从网页上的图片中提取图片特征;过滤模块,用于根据所述图片特征判断所述图片是否为垃圾图片,若是垃圾图片,则剔除所述垃圾图片;下载模块,用于从所述网页上下载未剔除的图片。
优选地,所述图片特征包括样式信息,所述过滤模块包括:处理单元,用于从所述样式信息中得到所述图片的尺寸参数;判断单元,用于判断所述图片的尺寸参数是否小于垃圾阈值,若是小于垃圾阈值,则通知剔除单元;剔除单元,用于剔除所述垃圾图片。
优选地,所述图片特征还包括图片文件名的信息摘要值,所述判断单元进一步用于判断所述图片的尺寸参数是否介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,若是介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,则按照所述图片的文件名计算信息摘要值,并根据所述信息摘要值标记重复的图片;所述判断单元还用于判断是否存在已标记的重复图片,若是存在已标记的重复图片,则通知所述剔除单元;所述剔除单元进一步用于剔除所述已标记的重复图片。
优选地,所述图片特征包括图片数量,所述过滤模块包括:数量获取单元,用于获取所述网页中的图片数量;判断单元,用于判断所述图片数量是否大于数量阈值,若是大于数量阈值,则通知图片提取单元;图片提取单元,用于从所述网页中提取文件名结构相同且路径特征相同的图片;剔除单元,用于剔除所述文件名结构相同且路径特征相同的图片。
优选地,所述图片特征包括图片的替换文本,所述过滤模块包括:概率计算单元,用于以图片的替换文本为特征项计算对应的先验概率;分类单元,用于根据所述先验概率及图片的替换文本通过朴素贝叶斯分类算法计算垃圾图片概率和主体图片概率;归一化单元,用于将所述垃圾图片概率和主体图片概率归一化后得到垃圾图片;剔除单元,用于剔除所述垃圾图片。
优选地,所述图片特征包括图片的绝对路径,所述过滤模块包括:提取单元,用于从所述图片的绝对路径中提取图片的文件名或路径特征;概率计算单元,用于以图片的文件名或路径特征为特征项计算对应的先验概率;分类单元,用于根据所述先验概率以及与先验概率相对应的文件名或路径特征通过朴素贝叶斯分类算法计算得到垃圾图片概率和主体图片概率;归一化单元,用于将所述垃圾图片概率和主体图片概率归一化后得到垃圾图片;剔除单元,用于剔除所述垃圾图片。
上述网页图片过滤方法及系统中,先不进行网页中图片的下载,通过图片特征来识别网页中的图片是否是垃圾图片,如果是垃圾图片就不再下载,从而有效地减少了网络带宽消耗,使得经由web网页转换过来的wap网页中不再出现垃圾图片,有效地降低了网页中的噪音。
上述网页图片过滤方法及系统中,通过多种图片特征来层层过滤网页中的垃圾图片,实现了垃圾图片的精确识别,有效地提高了速度及效率。
【附图说明】
图1为一个实施例中网页图片过滤方法的流程图;
图2为实施例一提供的根据图片特征判断图片是否为垃圾图片并剔除垃圾图片的方法流程图;
图3为实施例二提供的根据图片特征判断图片是否为垃圾图片并剔除垃圾图片的方法流程图;
图4为实施例三提供的网页图片过滤方法的流程图;
图5为实施例四提供的网页图片过滤方法的流程图;
图6为实施例五提供的网页图片过滤方法的流程图;
图7为一个实施例中网页图片过滤系统的详细模决图;
图8实施例一提供的过滤模块的示意图;
图9为实施例二提供的过滤模块的示意图;
图10为实施例三提供的过滤模块的示意图;
图11为实施例四提供的过滤模块的示意图。
【具体实施方式】
图1示出了一个实施例中网页图片过滤的方法流程,包括以下步骤:
在步骤S10中,从网页上的图片中提取图片特征。本实施例中,图片特征包括了样式信息、图片数量、图片的替换文本以及图片的绝对路径中的至少一种。图片特征还可以包括图片文件名的信息摘要值。网页中的每一幅图片拥有其图片特征。在web网站转换成wap网站的过程中,需要对网页中的图片进行一一识别,该网页为web网页,对网页中的图片逐一提取图片特征。
在步骤S20中,根据图片特征判断图片是否为垃圾图片,若是垃圾图片,则进入步骤S30。本实施例中,网页中的图片分为主体图片和垃圾图片。主体图片指的是与网页中的正文相关的图片或者是正文中的图片。垃圾图片指的是与正文不相关或者正文外的图片。在wap网页中,识别出垃圾图片,从而将垃圾图片从wap网页中剔除,不予显示,以提高wap网页的速度和效率。
在步骤S30中,剔除垃圾图片。本实施例中,将视为垃圾图片的图片剔除,使得用户所访问和浏览的wap网页中仅显示与正文相关的图片。
在步骤S40中,从网页上下载未剔除的图片。本实施例中,在剔除垃圾图片后,从网页上下载未剔除的图片,以备用户访问或浏览。由于已经剔除了垃圾图片,使得下载的图片大大减少,有效地降低了下载图片所消耗的时间及网络带宽。
根据图片特征的不同,根据图片特征判断图片是否为垃圾图片,若是垃圾图片,则剔除图片的步骤也各不相同。
图2为实施例一提供的根据图片特征判断图片是否为垃圾图片并剔除垃圾图片的方法流程,该实施例中,图片特征包括样式信息,该方法流程具体过程为:
在步骤S301中,从样式信息中得到图片的尺寸参数。本实施例中,样式信息为页面的css信息(Cascading Style Sheet,层叠样式表或级联样式表),所记录的内容有:图片的宽度、高度、对齐方式、文字的大小以及文字的颜色等。从样式信息中提取出图片的尺寸参数,即图片的宽度和高度。
在步骤S302中,判断图片的尺寸参数是否小于垃圾阈值,若是小于垃圾阈值,则进入步骤S303。本实施例中,通常小于垃圾阈值所记录的图片宽度及高度的图片就是垃圾图片。该垃圾图片是从众多的网页图片中统计出来的,例如,垃圾阈值可以是:宽度为100mm,高度为50mm。当图片的尺寸参数小于垃圾阈值时,该图片是垃圾图片。
在步骤S303中,剔除垃圾图片。
图3示出了实施例二提供的根据图片特征判断图片是否为垃圾图片并剔除垃圾图片的方法流程,图片特征还包括图片文件的信息摘要值,在剔除尺寸参数小于垃圾阈值的图片之后还包括以下步骤:
在步骤S304中,判断图片的尺寸参数是否介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,若图片的尺寸参数是介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,则进入步骤S305。本实施例中,通常大于主体阈值所记录的图片宽度及高度的图片即为主体图片。该主体阈值也是从众多的网页图片中统计得到的,例如,主体阈值可以是:宽度为200mm,高度为100mm。
在步骤S305中,按照图片的文件名计算信息摘要值。信息摘要值唯一标识了图片,对于不同的图片,其信息摘要值是不同的,仅需要通过文件名计算得到对应图片的信息摘要值,可以有效地提高计算速度,减少网页过滤的时间。在优选的实施例中,信息摘要值为md5值。
在步骤S306中,根据信息摘要值标记重复的图片。本实施例中,若存在着重复的图片,那么对于重复的图片而言,信息摘要值是相同的,因此可以根据信息摘要值来准确地标记重复的图片。
在步骤S307中,判断是否存在已标记的重复图片,若是存在已标记的重复图片,则进入步骤S307。本实施例中,如果存在着已标记的重复图片,则说明这些重复图片是垃圾图片。
在步骤S308中,剔除已标记的重复图片。本实施例中,将已经标记了的重复图片剔除,在用户所访问或浏览的wap网页中不显示。
图4示出了实施例三提供的网页图片过滤方法,该实施例中,图片特征包括图片数量,该方法流程具体过程如下:
在步骤S401中,获取网页中的图片数量。本实施例中,从网页中统计得到图片数量。在网页图片中,垃圾图片通常具有小图片、体积小的特点,因此垃圾图片大都是gif图片或png图片。为提高过滤网页的速度及效率,可以仅仅统计gif(graphics interchange format,图像互换格式)图片和png(portable networkgraphic format,流式网络图形格式)图片的数量。图片数量指的是网页中所有图片的总量。
在步骤S402中,判断图片数量是否大于数量阈值,若是大于数量阈值,则进入步骤S403。本实施例中,数量阈值是通过对众多的网页图片进行统计而得到的,例如数量阈值可以取30。如果网页中的图片数量大于数量阈值,则在这些图片中存在垃圾图片的可能性非常大。
在步骤S403中,从网页中提取文件名结构相同且路径特征相同的图片。本实施例中,在网页中,每一图片都有对应的绝对路径,从绝对路径中提取出文件名及路径特征(path),从而得到文件名结构相同且路径特征相同的图片。图片的绝对路径指的是图片的URL(Uniform/Universal Resource Locator,网页地址)。在图片的绝对路径中包含了主域、路径特征以及文件名,例如,一图片的绝对路径为http://www.corp-email.com/images/icp.gif,则主域为www.corp-email.com,路径特征为images,文件名为icp.gif。文件名结构相同指的是文件名中的数字或字母构成顺序关系。
在网页中的图片过多,图片数量超过了数量阈值的情况下,将该网页中文件名结构相同且路径特征相同的图片视为垃圾图片,应当将其剔除,不予以显示出来。
在步骤S404中,剔除文件名相同且路径特征相同的图片。
在本实施例中,上述根据图片特征判断图片是否为垃圾图片,若是,则剔除图片的步骤可以作为一个独立的过滤过程进行网页图片的过滤,也可以在进行已标记的重复图片的剔除后执行,以执行进一步的网页图片过滤。
图5示出了实施例四提供的网页图片过滤方法,图片特征包括图片的替换文本,该方法流程具体过程如下:
在步骤S501中,以图片的替换文本为特征项计算对应的先验概率。本实施例中,图片的替换文本也称为alt标签。图片的替换文本指定了替代文本,在图片无法显示或者用户禁用图片显示时,为图片提供了替代的文本信息,这样即使图片无法显示,用户还是可以看到关于该图片的一些信息,此外,在正常显示的图片上,图片的替换文本还起到了标题的作用,当用户将鼠标移动到图片上时,该图片上将出现文字提示。
具体地,以图片的替换文本为特征项计算对应的先验概率的过程可以是:收集大量的垃圾图片和页面主体图片上的图片的替换文本,建立标准集,根据标准集计算图片的替换文本属于垃圾图片的概率即为先验概率。但是对于一些包含了非常长的图片的替换文本,例如,图片的替换文本中有200个字节,则属于作弊性质,需要将该图片的替换文本舍弃。
在步骤S502中,根据先验概率及图片的替换文本通过朴素贝叶斯分类算法计算垃圾图片概率和主体概率。本实施例中,已知先验概率,且朴素贝叶斯分类算法如下所示:
Vab=arg maxP(Vj)P(a1|Vj)P(a2|Vj)...P(an|Vj)
其中,Vab为计算得到的概率,Vj为一集合,an为集合中的属性。
则根据朴素贝叶斯分类算法计算得到该图片的垃圾图片概率V垃圾图片map和主体图片概率V主体图片map,具体公式如以下所示:
V垃圾图片map=arg max P(V垃圾图片)P(aalt|V垃圾图片)
V主体图片map=arg max P(V主体图片)P(aalt|V主体图片)
其中,V垃圾图片属于标准集中垃圾图片的集合,aalt为集合中的属性,V主体图片属于标准集中主体图片的集合。
在步骤S503中,将垃圾图片概率和主体图片概率归一化后得到垃圾图片。本实施例中,在计算出了该图片的垃圾图片概率和主体图片概率之后,将垃圾图片概率和主体图片概率中较大者放大到1,较小者也按照相同的比例放大,计算放大后的两者之差,若差值大于归一化的阈值,则将该图片标注为概率大者的属性,在优选的实施例中,归一化的阈值为0.1。
在步骤S504中,剔除垃圾图片。
在本实施例中,上述根据图片特征判断图片是否为垃圾图片,若是,则剔除垃圾图片的步骤可以作为一个独立的过滤过程进行网页图片的过滤,也可以在进行剔除文件名相同且路径特征相同的图片的步骤后执行,以执行进一步的网页图片过滤,还可以在剔除已标记的重复图片的步骤或剔除尺寸参数小于垃圾阈值的图片的步骤之后执行。
图6示出了实施例五提供的网页图片过滤方法,图片特征包括图片的绝对路径,该方法流程具体过程如下:
在步骤S601中,从图片的绝对路径中提取图片的文件名或路径特征。
在步骤S602中,以图片的文件名或路径特征为特征项计算对应的先验概率。本实施例中,收集大量的垃圾图片和页面主体图片上的绝对路径,建立标准集,根据标准集进行计算,得到某一个具体路径特征属于垃圾图片的概率,该概率即为先验概率。
在步骤S603中,根据先验概率以及与先验概率相对应的文件名或路径特征通过朴素贝叶斯分类算法计算得到垃圾图片概率和主体图片概率。本实施例中,已知先验概率,朴素贝叶斯分类算法如前所述,则根据朴素贝叶斯分类算法计算得到该图片的垃圾图片概率V垃圾图片map和主体图片概率V主体图片map,具体公式如以下所示。
根据路径特征计算垃圾图片概率和主体图片概率的朴素贝叶斯分类算法为:
V垃圾图片map=arg max P(V垃圾图片)P(apath1|V垃圾图片)P(apath2|V垃圾图片)...P(apathn|V垃圾图片)
V主体图片map=arg max P(V主体图片)P(apath1|V主体图片)P(apath2|V主体图片)...P(apathn|V主体图片)
根据文件名计算垃圾图片概率和主体图片概率的朴素贝叶斯分类算法为:
V垃圾图片map=arg maxP(V垃圾图片)P(afilename1|V垃圾图片)P(afilename2|V垃圾图片)...P(afilenamen|V垃圾图片)V主体图片map=arg max P(V主体图片)P(afilename1|V主体图片)P(afilename2|V主体图片)...P(afilenamen|V主体图片)
其中,V垃圾图片属于标准集中垃圾图片的集合,apathn和afilenamen为集合中的属性,V主体图片属于标准集中主体图片的集合。
在步骤S604中,将垃圾图片概率和主体图片概率归一化后得到垃圾图片。本实施例中,在计算出了该图片的垃圾图片概率和主体图片概率之后,将垃圾图片概率和主体图片概率中较大者放大到1,较小者也按照相同的比例放大,计算放大后的两者之差,若差值大于归一化的阈值,则将该图片标注为概率大者的属性,在优选的实施例中,归一化的阈值为0.1。
在步骤S605中,剔除垃圾图片。
在本实施例中,上述根据图片特征判断图片是否为垃圾图片,若是,则剔除图片的步骤可以作为一个独立的过滤过程进行网页图片的过滤,也可以在上述任一剔除垃圾图片的步骤之后进行。
此外,还有必要提供一种网页图片过滤系统,如图7所示,该系统包括特征提取模块10、过滤模块20以及下载模块30。
特征提取模块10,用于从网页上的图片中提取图片特征。本实施例中,图片特征包括了样式信息、图片数量、图片的替换文本以及图片的绝对路径中的至少一种。图片特征还可以包括图片文件名的信息摘要值。网页中的每一幅图片拥有其图片特征。特征提取模块10在web网站转换成wap网站的过程中,需要对网页中的图片进行一一识别,该网页为web网页,对网页中的图片逐一提取图片特征。
过滤模块20,用于根据图片特征判断图片是否为垃圾图片,若是,则剔除垃圾图片。本实施例中,网页中的图片分为主体图片和垃圾图片。主体图片指的是与网页中的正文相关的图片或者是正文中的图片。垃圾图片指的是与正文不相关或者正文外的图片。在wap网页中,过滤模块20识别出垃圾图片,从而将垃圾图片从wap网页中剔除,不予显示,以提高wap网页的速度和效率。
下载模块30,用于从网页上下载未剔除的图片。本实施例中,下载模块30在剔除垃圾图片后,从网页上下载未剔除的图片,以备用户访问或浏览。由于已经剔除了垃圾图片,使得下载的图片大大减少,有效地降低了下载图片所消耗的时间及网络带宽。图2为实施例一提供的过滤模块,该实施例中,图片特征包括样式信息,过滤模块20包括处理单元201、判断单元202以及剔除单元203。
处理单元201,用于从样式信息中得到图片的尺寸参数。本实施例中,样式信息为页面的css信息(Cascading Style Sheet,层叠样式表或级联样式表),所记录的内容有:图片的宽度、高度、对齐方式、文字的大小以及文字的颜色等。处理单元201从样式信息中提取出图片的尺寸参数,即图片的宽度和高度。
判断单元202,用于判断图片的尺寸参数是否小于垃圾阈值,若是小于垃圾阈值,则通知剔除单元。本实施例中,通常小于垃圾阈值所记录的图片宽度及高度的图片就是垃圾图片。该垃圾图片是从众多的网页图片中统计出来的,例如,垃圾阈值可以是:宽度为100mm,高度为50mm。当图片的尺寸参数小于垃圾阈值时,该图片是垃圾图片。
剔除单元203,用于剔除垃圾图片。
在另一个具体的实施例中,为进一步过滤网页噪音,图片特征还包括图片文件名的信息摘要值,则过滤模块20中,在剔除尺寸参数小于垃圾阈值的图片之后判断单元202进一步用于判断图片的尺寸参数是否介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,若图片的尺寸参数是介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,则通知处理单元201按照图片的文件名计算信息摘要值,并根据信息摘要值标记重复的图片。本实施例中,通常大于主体阈值所记录的图片宽度及高度的图片即为主体图片。该主体阈值也是从众多的网页图片中统计得到的,例如,主体阈值可以是:宽度为200mm,高度为100mm。信息摘要值唯一标识了图片,对于不同的图片,其信息摘要值是不一样的,仅仅通过文件名计算得到对应图片的信息摘要值即可有效地提高计算速度,减少网页过滤的时间。在优选的实施例中,信息摘要值为md5值。
判断单元202还用于判断是否存在已标记的重复图片,若是存在已标记的重复图片,则通知剔除单元203。本实施例中,如果存在着已标记的重复图片,则说明这些重复图片是垃圾图片。
剔除单元203进一步用于剔除已标记的重复图片。本实施例中,剔除单元203将已经标记了的重复图片剔除,在wap网页中不予显示。
图9示出了实施例二提供的过滤模块,该实施例中,图片特征包括图片数量,过滤模块50包括数量获取单元501、判断单元502、图片提取单元503以及剔除单元504。
数量获取单元501,用于获取网页中的图片数量。本实施例中,数量获取单元501从网页中统计得到图片数量。为提高过滤网页的速度及效率,数量获取单元501可以仅仅统计gif(graphics interchange format,图像互换格式)图片和png(portable network graphic format,流式网络图形格式)图片的数量。在网页图片中,垃圾图片通常具有小图片、体积小的特点,因此垃圾图片大都是gif图片或png图片,以提高过滤网页的速度及效率。
判断单元502,用于判断图片数量是否大于数量阈值,若是大于数量阈值,则通知图片提取单元503。本实施例中,数量阈值是通过对众多的网页图片进行统计而得到的,例如数量阈值可以取30。如果网页中的图片数量大于数量阈值,则在这些图片中存在垃圾图片的可能性非常大。
图片提取单元503,用于从网页中提取文件名结构相同且路径特征相同的图片。本实施例中,在网页中,每一图片都有绝对路径,图片提取单元503从绝对路径中提取出文件名及路径特征(path),从而得到文件名结构相同且路径特征相同的图片。图片的绝对路径指的是图片的URL(Uniform/Universal ResourceLocator,网页地址)。在图片的绝对路径中包含了主域、路径特征以及文件名。文件名结构相同指的是文件名中的数字或字母构成顺序关系。
在网页中的图片过多,图片数量超过了数量阈值的情况下,将该网页中文件名结构相同且路径特征相同的图片视为垃圾图片,应当将其剔除,不予以显示出来。
剔除单元504,用于剔除文件名结构相同且路径特征相同的图片。
图10示出了实施例三提供的网页图片过滤方法,该实施例中,图片特征包括图片的替换文本,过滤模块60包括概率计算单元601、分类单元602、归一化单元603以及剔除单元604。
概率计算单元601,用于以图片的替换文本为特征项计算对应的先验概率。本实施例中,图片的替换文本也称为alt标签。图片的替换文本指定了替代文本,在图片无法显示或者用户禁用图片显示时,为图片提供了替代的文本信息,这样即使图片无法显示,用户还是可以看到关于该图片的一些信息,此外,在正常显示的图片上,图片的替换文本还起到了标题的作用,当用户将鼠标移动到图片上时,该图片上将出现文字提示。
概率计算单元601收集大量的垃圾图片和页面主体图片上的图片的替换文本,建立标准集,根据标准集计算图片的替换文本属于垃圾图片的概率即为先验概率。但是对于一些包含了非常长的图片的替换文本,例如,图片的替换文本中有200个字节,则属于作弊性质,需要将该图片的替换文本舍弃。
分类单元602,用于根据先验概率及图片的替换文本通过朴素贝叶斯分类算法计算垃圾图片概率和主体图片概率。本实施例中,已知先验概率,且朴素贝叶斯分类算法如下所示:
Vab=arg max P(Vj)P(a1|Vj)P(a2|Vj)...P(an|Vj)
其中,Vab为计算得到的概率,Vj为一集合,an为集合中的属性。
分类单元602根据朴素贝叶斯分类算法计算得到该图片的垃圾图片概率V垃圾图片map和主体图片概率V主体图片map,具体公式如以下所示:
V垃圾图片map=arg maxP(V垃圾图片)P(aalt|V垃圾图片)
V主体图片map=arg  max P(V主体图片)P(aalt|V主体图片)
其中,V垃圾图片属于标准集中垃圾图片的集合,aalt为集合中的属性,V主体图片属于标准集中主体图片的集合。
归一化单元603,用于将垃圾图片和主体图片概率归一化后得到垃圾图片。本实施例中,归一化单元603在计算出了该图片的垃圾图片概率和主体图片概率之后,将垃圾图片概率和主体图片概率中较大者放大到1,较小者也按照相同的比例放大,计算放大后的两者之差,若差值大于归一化的阈值,则将该图片标注为概率大者的属性,在优选的实施例中,归一化的阈值为0.1。
剔除单元604,用于剔除垃圾图片。
图11示出了实施例四提供的过滤模块,该实施例中,图片特征包括图片的绝对路径,则如图11所示,过滤模块70包括提取单元701、概率计算单元702、分类单元703、归一化单元704以及剔除单元705。
提取单元701,用于从图片的绝对路径中提取图片的文件名或路径特征。
概率计算单元702,用于以图片的文件名或路径特征为特征项计算对应的先验概率。概率计算单元702收集大量的垃圾图片和页面主体图片上的绝对路径,建立标准集,根据标准集进行计算,得到某一个具体路径特征属于垃圾图片的概率,该概率即为先验概率。
分类单元703,用于根据先验概率以及与先验概率相对应的文件名或路径特征通过朴素贝叶斯分类算法计算得到垃圾图片概率和主体图片概率。本实施例中,已知先验概率,朴素贝叶斯分类算法如前所述,则分类单元703根据朴素贝叶斯分类算法计算得到该图片的垃圾图片概率V垃圾图片map和主体图片概率V主体图片map,具体公式如以下所示。
根据路径特征计算垃圾图片概率和主体图片概率的朴素贝叶斯分类算法为:
V垃圾图片map=arg maxP(V垃圾图片)P(apath1|V垃圾图片)P(apath2|V垃圾图片)...P(apathn|V垃圾图片)
V主体图片map=arg maxP(V主体图片)P(apath1|V主体图片)P(apath2|V主体图片)...P(apathn|V主体图片)
根据文件名计算垃圾图片概率和主体图片概率的朴素贝叶斯分类算法为:
V垃圾图片map=arg maxP(V垃圾图片)P(afilename1|V垃圾图片)P(afilename2|V垃圾图片)...P(afilenamen|V垃圾图片)
V主体图片map=arg maxP(V主体图片)P(afilename1|V主体图片)P(afilename2|V主体图片)...P(afilenamen|V主体图片)
其中,V垃圾图片属于标准集中垃圾图片的集合,apathn和afilenamen为集合中的属性,V主体图片属于标准集中主体图片的集合。
归一化单元704,用于将垃圾图片概率和主体图片概率归一化后得到垃圾图片。本实施例中,归一化单元704在计算出了该图片的垃圾图片概率和主体图片概率之后,将垃圾图片概率和主体图片概率中较大者放大到1,较小者也按照相同的比例放大,计算放大后的两者之差,若差值大于归一化的阈值,则将该图片标注为概率大者的属性,在优选的实施例中,归一化的阈值为0.1。
剔除单元705,用于剔除垃圾图片。
上述网页图片过滤系统中,根据剔除垃圾图片过程的不同,过滤模块的组成也不同,因此,上述过滤模块在实际的网页图片过滤过程中,可以单独运用,也可以组合在一起完成网页图片的过滤。
上述网页图片过滤方法及系统中,先不进行网页中图片的下载,通过图片特征来识别网页中的图片是否是垃圾图片,如果是垃圾图片就不再下载,从而有效地减少了网络带宽消耗使得经由web网页转换过来的wap网页中不再出现垃圾图片,,有效地降低了网页中的噪音。
上述网页图片过滤方法及系统中,通过多种图片特征来层层过滤网页中的垃圾图片,实现了垃圾图片的精确识别,有效地提高了速度及效率。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (12)

1.一种网页图片过滤方法,包括以下步骤:
从网页上的图片中提取对应的图片特征;
根据所述图片特征判断所述图片是否为垃圾图片,若是垃圾图片,则剔除所述垃圾图片;
从所述网页上下载未剔除的图片。
2.根据权利要求1所述的网页图片过滤方法,其特征在于,所述图片特征包括样式信息,则所述根据所述图片特征判断所述图片是否为垃圾图片,若是,则剔除所述垃圾图片的步骤为:
从所述样式信息中得到所述图片的尺寸参数;
判断所述图片的尺寸参数是否小于垃圾阈值,若小于垃圾阈值,则剔除所述垃圾图片。
3.根据权利要求2所述的网页图片过滤方法,其特征在于,所述图片特征还包括图片文件名的信息摘要值,则所述根据所述图片特征判断所述图片是否为垃圾图片,若是,则剔除所述垃圾图片的步骤为:
判断所述图片的尺寸参数是否介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,若所述图片的尺寸参数是介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,则按照所述图片的文件名计算信息摘要值;
根据所述信息摘要值标记重复的图片;
判断是否存在已标记的重复图片,若是存在已标记的重复图片,则剔除所述已标记的重复图片。
4.根据权利要求1所述的网页图片过滤方法,其特征在于,所述图片特征包括图片数量,则所述根据所述图片特征判断所述图片是否为垃圾图片,若是垃圾图片,则剔除所述垃圾图片的步骤为:
获取所述网页中的图片数量;
判断所述图片数量是否大于数量阈值,若是大于数量阈值,则从所述网页中提取文件名结构相同且路径特征相同的图片;
剔除所述文件名相同且路径特征相同的图片。
5.根据权利要求1所述的网页图片过滤方法,其特征在于,所述图片特征包括图片的替换文本,则所述根据所述图片特征判断所述图片是否为垃圾图片,若是垃圾图片,则剔除所述剔除图片的步骤为:
以图片的替换文本为特征项计算对应的先验概率;
根据所述先验概率及图片的替换文本通过朴素贝叶斯分类算法计算垃圾图片概率和主体概率;
将所述垃圾图片概率和主体图片概率归一化后得到垃圾图片;
剔除所述垃圾图片。
6.根据权利要求1所述的网页图片过滤方法,其特征在于,所述图片特征包括图片的绝对路径,则所述根据所述图片特征判断所述图片是否为垃圾图片,若是垃圾图片,则剔除所述垃圾图片的步骤为:
从所述图片的绝对路径中提取图片的文件名或路径特征;
以图片的文件名或路径特征为特征项计算对应的先验概率;
根据所述先验概率以及与先验概率相对应的文件名或路径特征通过朴素贝叶斯分类算法计算得到垃圾图片概率和主体图片概率;
将所述垃圾图片概率和主体图片概率归一化后得到垃圾图片;
剔除所述垃圾图片。
7.一种网页图片过滤系统,其特征在于,至少包括:
特征提取模块,用于逐一从网页上的图片中提取图片特征;
过滤模块,用于根据所述图片特征判断所述图片是否为垃圾图片,若是垃圾图片,则剔除所述垃圾图片;
下载模块,用于从所述网页上下载未剔除的图片。
8.根据权利要求7所述的网页图片过滤方法,其特征在于,所述图片特征包括样式信息,所述过滤模块包括:
处理单元,用于从所述样式信息中得到所述图片的尺寸参数;
判断单元,用于判断所述图片的尺寸参数是否小于垃圾阈值,若是小于垃圾,则通知剔除单元;
剔除单元,用于剔除所述垃圾图片。
9.根据权利要求8所述的网页图片过滤系统,其特征在于,所述图片特征还包括图片文件名的信息摘要值,所述判断单元进一步用于判断所述图片的尺寸参数是否介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,若是图片的尺寸参数是介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,则按照所述图片的文件名计算信息摘要值,并根据所述信息摘要值标记重复的图片;
所述判断单元还用于判断是否存在已标记的重复图片,若是存在已标记的重复图片,则通知所述剔除单元;
所述剔除单元进一步用于剔除所述已标记的重复图片。
10.根据权利要求7所述的网页图片过滤方法,其特征在于,所述图片特征包括图片数量,所述过滤模块包括:
数量获取单元,用于获取所述网页中的图片数量;
判断单元,用于判断所述图片数量是否大于数量阈值,若是大于数量阈值,则通知图片提取单元;
图片提取单元,用于从所述网页中提取文件名结构相同且路径特征相同的图片;
剔除单元,用于剔除所述文件名结构相同且路径特征相同的图片。
11.根据权利要求7所述的网页图片过滤方法,其特征在于,所述图片特征包括图片的替换文本,所述过滤模块包括:
概率计算单元,用于以图片的替换文本为特征项计算对应的先验概率;
分类单元,用于根据所述先验概率及图片的替换文本通过朴素贝叶斯分类算法计算垃圾图片概率和主体图片概率;
归一化单元,用于将所述垃圾图片概率和主体图片概率归一化后得到垃圾图片;
剔除单元,用于剔除所述垃圾图片。
12.根据权利要求7所述的网页图片过滤系统,其特征在于,所述图片特征包括图片的绝对路径,所述过滤模块包括:
提取单元,用于从所述图片的绝对路径中提取图片的文件名或路径特征;
概率计算单元,用于以图片的文件名或路径特征为特征项计算对应的先验概率;
分类单元,用于根据所述先验概率以及与先验概率相对应的文件名或路径特征通过朴素贝叶斯分类算法计算得到垃圾图片概率和主体图片概率;
归一化单元,用于将所述垃圾图片概率和主体图片概率归一化后得到垃圾图片;
剔除单元,用于剔除所述垃圾图片。
CN201010583425.1A 2010-12-10 2010-12-10 网页图片过滤方法及系统 Active CN102567319B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010583425.1A CN102567319B (zh) 2010-12-10 2010-12-10 网页图片过滤方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010583425.1A CN102567319B (zh) 2010-12-10 2010-12-10 网页图片过滤方法及系统

Publications (2)

Publication Number Publication Date
CN102567319A true CN102567319A (zh) 2012-07-11
CN102567319B CN102567319B (zh) 2016-08-24

Family

ID=46412760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010583425.1A Active CN102567319B (zh) 2010-12-10 2010-12-10 网页图片过滤方法及系统

Country Status (1)

Country Link
CN (1) CN102567319B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103098001A (zh) * 2012-10-19 2013-05-08 华为技术有限公司 一种用户界面的处理方法和电子设备
CN103885959A (zh) * 2012-12-20 2014-06-25 腾讯科技(深圳)有限公司 一种网页书签的生成方法和装置
CN103902631A (zh) * 2012-12-28 2014-07-02 联想(北京)有限公司 电子设备和数据获取方法
WO2015196981A1 (zh) * 2014-06-27 2015-12-30 北京金山安全软件有限公司 一种鉴别图片垃圾文件的方法及装置
CN105262810A (zh) * 2015-09-29 2016-01-20 北京金山安全软件有限公司 一种图片的云备份方法、装置及电子设备
CN105404631A (zh) * 2014-09-15 2016-03-16 腾讯科技(深圳)有限公司 图片识别方法和装置
CN105446987A (zh) * 2014-06-30 2016-03-30 北京金山安全软件有限公司 图片类垃圾文件的识别方法、装置和电子设备
CN105956596A (zh) * 2016-04-26 2016-09-21 百度在线网络技术(北京)有限公司 图片反作弊方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071433A (zh) * 2007-05-10 2007-11-14 腾讯科技(深圳)有限公司 一种图片下载系统及方法
US20080127340A1 (en) * 2006-11-03 2008-05-29 Messagelabs Limited Detection of image spam
CN101281521A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及系统
CN101877837A (zh) * 2009-04-30 2010-11-03 华为技术有限公司 一种短信过滤的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080127340A1 (en) * 2006-11-03 2008-05-29 Messagelabs Limited Detection of image spam
CN101281521A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及系统
CN101071433A (zh) * 2007-05-10 2007-11-14 腾讯科技(深圳)有限公司 一种图片下载系统及方法
CN101877837A (zh) * 2009-04-30 2010-11-03 华为技术有限公司 一种短信过滤的方法和装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103098001A (zh) * 2012-10-19 2013-05-08 华为技术有限公司 一种用户界面的处理方法和电子设备
WO2014059677A1 (zh) * 2012-10-19 2014-04-24 华为技术有限公司 一种用户界面的处理方法和电子设备
CN103885959A (zh) * 2012-12-20 2014-06-25 腾讯科技(深圳)有限公司 一种网页书签的生成方法和装置
CN103902631A (zh) * 2012-12-28 2014-07-02 联想(北京)有限公司 电子设备和数据获取方法
CN103902631B (zh) * 2012-12-28 2019-03-29 联想(北京)有限公司 电子设备和数据获取方法
WO2015196981A1 (zh) * 2014-06-27 2015-12-30 北京金山安全软件有限公司 一种鉴别图片垃圾文件的方法及装置
US10540325B2 (en) 2014-06-27 2020-01-21 Beijing Kingsoft Internet Security Software Co., Ltd. Method and device for identifying junk picture files
CN105446987B (zh) * 2014-06-30 2019-03-26 北京金山安全软件有限公司 图片类垃圾文件的识别方法、装置和电子设备
CN105446987A (zh) * 2014-06-30 2016-03-30 北京金山安全软件有限公司 图片类垃圾文件的识别方法、装置和电子设备
US10838917B2 (en) 2014-06-30 2020-11-17 Beijing Kingsoft Internet Security Software Co., Ltd. Junk picture file identification method, apparatus, and electronic device
CN105404631A (zh) * 2014-09-15 2016-03-16 腾讯科技(深圳)有限公司 图片识别方法和装置
CN105404631B (zh) * 2014-09-15 2021-01-29 腾讯科技(深圳)有限公司 图片识别方法和装置
CN105262810B (zh) * 2015-09-29 2019-04-26 北京金山安全软件有限公司 一种图片的云备份方法、装置及电子设备
CN105262810A (zh) * 2015-09-29 2016-01-20 北京金山安全软件有限公司 一种图片的云备份方法、装置及电子设备
CN105956596A (zh) * 2016-04-26 2016-09-21 百度在线网络技术(北京)有限公司 图片反作弊方法及装置

Also Published As

Publication number Publication date
CN102567319B (zh) 2016-08-24

Similar Documents

Publication Publication Date Title
CN102567319A (zh) 网页图片过滤方法及系统
RU2522103C2 (ru) Способ и браузер для уведомления об обновлении
CN101578592B (zh) 持久的保存门户
CN102065106B (zh) Web流量梳理器和终端访问Web网页的方法及系统
CN102156667B (zh) 具有视觉信息转换系统的电子装置
CN110245069A (zh) 页面版本的测试方法和装置、页面的展示方法和装置
CN101512570A (zh) 用于可移植数据聚集的方法和系统
CN104899220A (zh) 应用程序推荐方法和系统
CN102207967B (zh) 一种自动提供浏览器新插件的方法和系统
CN102511048A (zh) 一种用于预处理包括文本的视频区域的方法及系统
CN101621862A (zh) 手机浏览器快速定位有效信息的方法与装置
CN103559194B (zh) 一种搜索方法、服务器、系统
CN103389853B (zh) 微博展示方法和系统
CN102629251A (zh) 一种网页信息显示方法和装置
CN103761257B (zh) 基于移动浏览器的网页处理方法及系统
US20130086087A1 (en) Apparatus and method for generating and retrieving location-tagged content in computing device
CN102959546A (zh) 用于转换内容的方法和设备
CN113961828A (zh) 消息展示方法及其装置
CN103475676A (zh) 一种用于提供页面主体信息的方法、装置、设备和系统
CN103218452A (zh) 一种识别Hub页中有效链接的方法和装置
CN103365934A (zh) 复杂命名实体抽取方法及装置
CN102306167A (zh) 基于移动手持设备的记事方法及系统
CN110633438A (zh) 一种新闻事件处理的方法、终端、服务器及存储介质
CN103605742A (zh) 识别网络资源实体目录页的方法及装置
CN102487362A (zh) Im消息的显示方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131014

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518044 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20131014

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

C14 Grant of patent or utility model
GR01 Patent grant