【发明内容】
基于此,本发明实施例提供一种网页图片过滤方法,其可解决现有技术中网络带宽消耗较大的问题。
此外,还有必要提供一种可减少网络带宽消耗的网页图片过滤系统。
一种网页图片过滤方法,包括以下步骤:从网页上的图片中提取对应的图片特征;根据所述图片特征判断所述图片是否为垃圾图片,若是垃圾图片,则剔除所述垃圾图片;从所述网页上下载未剔除的图片。
优选地,所述图片特征包括样式信息,则所述根据所述图片特征判断所述图片是否为垃圾图片,若是,则剔除所述垃圾图片的步骤为:从所述样式信息中得到所述图片的尺寸参数;判断所述图片的尺寸参数是否小于垃圾阈值,若是小于垃圾阈值,则剔除所述垃圾图片。
优选地,所述图片特征还包括图片文件名的信息摘要值,则所述根据所述图片特征判断所述图片是否为垃圾图片,若所述图片的尺寸参数是介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,则剔除所述垃圾图片的步骤为:判断所述图片的尺寸参数是否介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,若是,则按照所述图片的文件名计算信息摘要值;根据所述信息摘要值标记重复的图片;判断是否存在已标记的重复图片,若是存在已标记的重复图片,则剔除所述已标记的重复图片。
优选地,所述图片特征包括图片数量,则所述根据所述图片特征判断所述图片是否为垃圾图片,若是垃圾图片,则剔除所述垃圾图片的步骤为:获取所述网页中的图片数量;判断所述图片数量是否大于数量阈值,若是大于数量阈值,则从所述网页中提取文件名结构相同且路径特征相同的图片;剔除所述文件名相同且路径特征相同的图片。
优选地,所述图片特征包括图片的替换文本,则所述根据所述图片特征判断所述图片是否为垃圾图片,若是垃圾图片,则剔除所述剔除图片的步骤为:以图片的替换文本为特征项计算对应的先验概率;根据所述先验概率及图片的替换文本通过朴素贝叶斯分类算法计算垃圾图片概率和主体概率;将所述垃圾图片概率和主体图片概率归一化后得到垃圾图片;剔除所述垃圾图片。
优选地,所述图片特征包括图片的绝对路径,则所述根据所述图片特征判断所述图片是否为垃圾图片,若是垃圾图片,则剔除所述垃圾图片的步骤为:从所述图片的绝对路径中提取图片的文件名或路径特征;以图片的文件名或路径特征为特征项计算对应的先验概率;根据所述先验概率以及与先验概率相对应的文件名或路径特征通过朴素贝叶斯分类算法计算得到垃圾图片概率和主体图片概率;将所述垃圾图片概率和主体图片概率归一化后得到垃圾图片;剔除所述垃圾图片。
一种网页图片过滤系统,至少包括:特征提取模块,用于逐一从网页上的图片中提取图片特征;过滤模块,用于根据所述图片特征判断所述图片是否为垃圾图片,若是垃圾图片,则剔除所述垃圾图片;下载模块,用于从所述网页上下载未剔除的图片。
优选地,所述图片特征包括样式信息,所述过滤模块包括:处理单元,用于从所述样式信息中得到所述图片的尺寸参数;判断单元,用于判断所述图片的尺寸参数是否小于垃圾阈值,若是小于垃圾阈值,则通知剔除单元;剔除单元,用于剔除所述垃圾图片。
优选地,所述图片特征还包括图片文件名的信息摘要值,所述判断单元进一步用于判断所述图片的尺寸参数是否介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,若是介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,则按照所述图片的文件名计算信息摘要值,并根据所述信息摘要值标记重复的图片;所述判断单元还用于判断是否存在已标记的重复图片,若是存在已标记的重复图片,则通知所述剔除单元;所述剔除单元进一步用于剔除所述已标记的重复图片。
优选地,所述图片特征包括图片数量,所述过滤模块包括:数量获取单元,用于获取所述网页中的图片数量;判断单元,用于判断所述图片数量是否大于数量阈值,若是大于数量阈值,则通知图片提取单元;图片提取单元,用于从所述网页中提取文件名结构相同且路径特征相同的图片;剔除单元,用于剔除所述文件名结构相同且路径特征相同的图片。
优选地,所述图片特征包括图片的替换文本,所述过滤模块包括:概率计算单元,用于以图片的替换文本为特征项计算对应的先验概率;分类单元,用于根据所述先验概率及图片的替换文本通过朴素贝叶斯分类算法计算垃圾图片概率和主体图片概率;归一化单元,用于将所述垃圾图片概率和主体图片概率归一化后得到垃圾图片;剔除单元,用于剔除所述垃圾图片。
优选地,所述图片特征包括图片的绝对路径,所述过滤模块包括:提取单元,用于从所述图片的绝对路径中提取图片的文件名或路径特征;概率计算单元,用于以图片的文件名或路径特征为特征项计算对应的先验概率;分类单元,用于根据所述先验概率以及与先验概率相对应的文件名或路径特征通过朴素贝叶斯分类算法计算得到垃圾图片概率和主体图片概率;归一化单元,用于将所述垃圾图片概率和主体图片概率归一化后得到垃圾图片;剔除单元,用于剔除所述垃圾图片。
上述网页图片过滤方法及系统中,先不进行网页中图片的下载,通过图片特征来识别网页中的图片是否是垃圾图片,如果是垃圾图片就不再下载,从而有效地减少了网络带宽消耗,使得经由web网页转换过来的wap网页中不再出现垃圾图片,有效地降低了网页中的噪音。
上述网页图片过滤方法及系统中,通过多种图片特征来层层过滤网页中的垃圾图片,实现了垃圾图片的精确识别,有效地提高了速度及效率。
【具体实施方式】
图1示出了一个实施例中网页图片过滤的方法流程,包括以下步骤:
在步骤S10中,从网页上的图片中提取图片特征。本实施例中,图片特征包括了样式信息、图片数量、图片的替换文本以及图片的绝对路径中的至少一种。图片特征还可以包括图片文件名的信息摘要值。网页中的每一幅图片拥有其图片特征。在web网站转换成wap网站的过程中,需要对网页中的图片进行一一识别,该网页为web网页,对网页中的图片逐一提取图片特征。
在步骤S20中,根据图片特征判断图片是否为垃圾图片,若是垃圾图片,则进入步骤S30。本实施例中,网页中的图片分为主体图片和垃圾图片。主体图片指的是与网页中的正文相关的图片或者是正文中的图片。垃圾图片指的是与正文不相关或者正文外的图片。在wap网页中,识别出垃圾图片,从而将垃圾图片从wap网页中剔除,不予显示,以提高wap网页的速度和效率。
在步骤S30中,剔除垃圾图片。本实施例中,将视为垃圾图片的图片剔除,使得用户所访问和浏览的wap网页中仅显示与正文相关的图片。
在步骤S40中,从网页上下载未剔除的图片。本实施例中,在剔除垃圾图片后,从网页上下载未剔除的图片,以备用户访问或浏览。由于已经剔除了垃圾图片,使得下载的图片大大减少,有效地降低了下载图片所消耗的时间及网络带宽。
根据图片特征的不同,根据图片特征判断图片是否为垃圾图片,若是垃圾图片,则剔除图片的步骤也各不相同。
图2为实施例一提供的根据图片特征判断图片是否为垃圾图片并剔除垃圾图片的方法流程,该实施例中,图片特征包括样式信息,该方法流程具体过程为:
在步骤S301中,从样式信息中得到图片的尺寸参数。本实施例中,样式信息为页面的css信息(Cascading Style Sheet,层叠样式表或级联样式表),所记录的内容有:图片的宽度、高度、对齐方式、文字的大小以及文字的颜色等。从样式信息中提取出图片的尺寸参数,即图片的宽度和高度。
在步骤S302中,判断图片的尺寸参数是否小于垃圾阈值,若是小于垃圾阈值,则进入步骤S303。本实施例中,通常小于垃圾阈值所记录的图片宽度及高度的图片就是垃圾图片。该垃圾图片是从众多的网页图片中统计出来的,例如,垃圾阈值可以是:宽度为100mm,高度为50mm。当图片的尺寸参数小于垃圾阈值时,该图片是垃圾图片。
在步骤S303中,剔除垃圾图片。
图3示出了实施例二提供的根据图片特征判断图片是否为垃圾图片并剔除垃圾图片的方法流程,图片特征还包括图片文件的信息摘要值,在剔除尺寸参数小于垃圾阈值的图片之后还包括以下步骤:
在步骤S304中,判断图片的尺寸参数是否介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,若图片的尺寸参数是介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,则进入步骤S305。本实施例中,通常大于主体阈值所记录的图片宽度及高度的图片即为主体图片。该主体阈值也是从众多的网页图片中统计得到的,例如,主体阈值可以是:宽度为200mm,高度为100mm。
在步骤S305中,按照图片的文件名计算信息摘要值。信息摘要值唯一标识了图片,对于不同的图片,其信息摘要值是不同的,仅需要通过文件名计算得到对应图片的信息摘要值,可以有效地提高计算速度,减少网页过滤的时间。在优选的实施例中,信息摘要值为md5值。
在步骤S306中,根据信息摘要值标记重复的图片。本实施例中,若存在着重复的图片,那么对于重复的图片而言,信息摘要值是相同的,因此可以根据信息摘要值来准确地标记重复的图片。
在步骤S307中,判断是否存在已标记的重复图片,若是存在已标记的重复图片,则进入步骤S307。本实施例中,如果存在着已标记的重复图片,则说明这些重复图片是垃圾图片。
在步骤S308中,剔除已标记的重复图片。本实施例中,将已经标记了的重复图片剔除,在用户所访问或浏览的wap网页中不显示。
图4示出了实施例三提供的网页图片过滤方法,该实施例中,图片特征包括图片数量,该方法流程具体过程如下:
在步骤S401中,获取网页中的图片数量。本实施例中,从网页中统计得到图片数量。在网页图片中,垃圾图片通常具有小图片、体积小的特点,因此垃圾图片大都是gif图片或png图片。为提高过滤网页的速度及效率,可以仅仅统计gif(graphics interchange format,图像互换格式)图片和png(portable networkgraphic format,流式网络图形格式)图片的数量。图片数量指的是网页中所有图片的总量。
在步骤S402中,判断图片数量是否大于数量阈值,若是大于数量阈值,则进入步骤S403。本实施例中,数量阈值是通过对众多的网页图片进行统计而得到的,例如数量阈值可以取30。如果网页中的图片数量大于数量阈值,则在这些图片中存在垃圾图片的可能性非常大。
在步骤S403中,从网页中提取文件名结构相同且路径特征相同的图片。本实施例中,在网页中,每一图片都有对应的绝对路径,从绝对路径中提取出文件名及路径特征(path),从而得到文件名结构相同且路径特征相同的图片。图片的绝对路径指的是图片的URL(Uniform/Universal Resource Locator,网页地址)。在图片的绝对路径中包含了主域、路径特征以及文件名,例如,一图片的绝对路径为http://www.corp-email.com/images/icp.gif,则主域为www.corp-email.com,路径特征为images,文件名为icp.gif。文件名结构相同指的是文件名中的数字或字母构成顺序关系。
在网页中的图片过多,图片数量超过了数量阈值的情况下,将该网页中文件名结构相同且路径特征相同的图片视为垃圾图片,应当将其剔除,不予以显示出来。
在步骤S404中,剔除文件名相同且路径特征相同的图片。
在本实施例中,上述根据图片特征判断图片是否为垃圾图片,若是,则剔除图片的步骤可以作为一个独立的过滤过程进行网页图片的过滤,也可以在进行已标记的重复图片的剔除后执行,以执行进一步的网页图片过滤。
图5示出了实施例四提供的网页图片过滤方法,图片特征包括图片的替换文本,该方法流程具体过程如下:
在步骤S501中,以图片的替换文本为特征项计算对应的先验概率。本实施例中,图片的替换文本也称为alt标签。图片的替换文本指定了替代文本,在图片无法显示或者用户禁用图片显示时,为图片提供了替代的文本信息,这样即使图片无法显示,用户还是可以看到关于该图片的一些信息,此外,在正常显示的图片上,图片的替换文本还起到了标题的作用,当用户将鼠标移动到图片上时,该图片上将出现文字提示。
具体地,以图片的替换文本为特征项计算对应的先验概率的过程可以是:收集大量的垃圾图片和页面主体图片上的图片的替换文本,建立标准集,根据标准集计算图片的替换文本属于垃圾图片的概率即为先验概率。但是对于一些包含了非常长的图片的替换文本,例如,图片的替换文本中有200个字节,则属于作弊性质,需要将该图片的替换文本舍弃。
在步骤S502中,根据先验概率及图片的替换文本通过朴素贝叶斯分类算法计算垃圾图片概率和主体概率。本实施例中,已知先验概率,且朴素贝叶斯分类算法如下所示:
Vab=arg maxP(Vj)P(a1|Vj)P(a2|Vj)...P(an|Vj)
其中,Vab为计算得到的概率,Vj为一集合,an为集合中的属性。
则根据朴素贝叶斯分类算法计算得到该图片的垃圾图片概率V垃圾图片map和主体图片概率V主体图片map,具体公式如以下所示:
V垃圾图片map=arg max P(V垃圾图片)P(aalt|V垃圾图片)
V主体图片map=arg max P(V主体图片)P(aalt|V主体图片)
其中,V垃圾图片属于标准集中垃圾图片的集合,aalt为集合中的属性,V主体图片属于标准集中主体图片的集合。
在步骤S503中,将垃圾图片概率和主体图片概率归一化后得到垃圾图片。本实施例中,在计算出了该图片的垃圾图片概率和主体图片概率之后,将垃圾图片概率和主体图片概率中较大者放大到1,较小者也按照相同的比例放大,计算放大后的两者之差,若差值大于归一化的阈值,则将该图片标注为概率大者的属性,在优选的实施例中,归一化的阈值为0.1。
在步骤S504中,剔除垃圾图片。
在本实施例中,上述根据图片特征判断图片是否为垃圾图片,若是,则剔除垃圾图片的步骤可以作为一个独立的过滤过程进行网页图片的过滤,也可以在进行剔除文件名相同且路径特征相同的图片的步骤后执行,以执行进一步的网页图片过滤,还可以在剔除已标记的重复图片的步骤或剔除尺寸参数小于垃圾阈值的图片的步骤之后执行。
图6示出了实施例五提供的网页图片过滤方法,图片特征包括图片的绝对路径,该方法流程具体过程如下:
在步骤S601中,从图片的绝对路径中提取图片的文件名或路径特征。
在步骤S602中,以图片的文件名或路径特征为特征项计算对应的先验概率。本实施例中,收集大量的垃圾图片和页面主体图片上的绝对路径,建立标准集,根据标准集进行计算,得到某一个具体路径特征属于垃圾图片的概率,该概率即为先验概率。
在步骤S603中,根据先验概率以及与先验概率相对应的文件名或路径特征通过朴素贝叶斯分类算法计算得到垃圾图片概率和主体图片概率。本实施例中,已知先验概率,朴素贝叶斯分类算法如前所述,则根据朴素贝叶斯分类算法计算得到该图片的垃圾图片概率V垃圾图片map和主体图片概率V主体图片map,具体公式如以下所示。
根据路径特征计算垃圾图片概率和主体图片概率的朴素贝叶斯分类算法为:
V垃圾图片map=arg max P(V垃圾图片)P(apath1|V垃圾图片)P(apath2|V垃圾图片)...P(apathn|V垃圾图片)
V主体图片map=arg max P(V主体图片)P(apath1|V主体图片)P(apath2|V主体图片)...P(apathn|V主体图片)
根据文件名计算垃圾图片概率和主体图片概率的朴素贝叶斯分类算法为:
V垃圾图片map=arg maxP(V垃圾图片)P(afilename1|V垃圾图片)P(afilename2|V垃圾图片)...P(afilenamen|V垃圾图片)V主体图片map=arg max P(V主体图片)P(afilename1|V主体图片)P(afilename2|V主体图片)...P(afilenamen|V主体图片)
其中,V垃圾图片属于标准集中垃圾图片的集合,apathn和afilenamen为集合中的属性,V主体图片属于标准集中主体图片的集合。
在步骤S604中,将垃圾图片概率和主体图片概率归一化后得到垃圾图片。本实施例中,在计算出了该图片的垃圾图片概率和主体图片概率之后,将垃圾图片概率和主体图片概率中较大者放大到1,较小者也按照相同的比例放大,计算放大后的两者之差,若差值大于归一化的阈值,则将该图片标注为概率大者的属性,在优选的实施例中,归一化的阈值为0.1。
在步骤S605中,剔除垃圾图片。
在本实施例中,上述根据图片特征判断图片是否为垃圾图片,若是,则剔除图片的步骤可以作为一个独立的过滤过程进行网页图片的过滤,也可以在上述任一剔除垃圾图片的步骤之后进行。
此外,还有必要提供一种网页图片过滤系统,如图7所示,该系统包括特征提取模块10、过滤模块20以及下载模块30。
特征提取模块10,用于从网页上的图片中提取图片特征。本实施例中,图片特征包括了样式信息、图片数量、图片的替换文本以及图片的绝对路径中的至少一种。图片特征还可以包括图片文件名的信息摘要值。网页中的每一幅图片拥有其图片特征。特征提取模块10在web网站转换成wap网站的过程中,需要对网页中的图片进行一一识别,该网页为web网页,对网页中的图片逐一提取图片特征。
过滤模块20,用于根据图片特征判断图片是否为垃圾图片,若是,则剔除垃圾图片。本实施例中,网页中的图片分为主体图片和垃圾图片。主体图片指的是与网页中的正文相关的图片或者是正文中的图片。垃圾图片指的是与正文不相关或者正文外的图片。在wap网页中,过滤模块20识别出垃圾图片,从而将垃圾图片从wap网页中剔除,不予显示,以提高wap网页的速度和效率。
下载模块30,用于从网页上下载未剔除的图片。本实施例中,下载模块30在剔除垃圾图片后,从网页上下载未剔除的图片,以备用户访问或浏览。由于已经剔除了垃圾图片,使得下载的图片大大减少,有效地降低了下载图片所消耗的时间及网络带宽。图2为实施例一提供的过滤模块,该实施例中,图片特征包括样式信息,过滤模块20包括处理单元201、判断单元202以及剔除单元203。
处理单元201,用于从样式信息中得到图片的尺寸参数。本实施例中,样式信息为页面的css信息(Cascading Style Sheet,层叠样式表或级联样式表),所记录的内容有:图片的宽度、高度、对齐方式、文字的大小以及文字的颜色等。处理单元201从样式信息中提取出图片的尺寸参数,即图片的宽度和高度。
判断单元202,用于判断图片的尺寸参数是否小于垃圾阈值,若是小于垃圾阈值,则通知剔除单元。本实施例中,通常小于垃圾阈值所记录的图片宽度及高度的图片就是垃圾图片。该垃圾图片是从众多的网页图片中统计出来的,例如,垃圾阈值可以是:宽度为100mm,高度为50mm。当图片的尺寸参数小于垃圾阈值时,该图片是垃圾图片。
剔除单元203,用于剔除垃圾图片。
在另一个具体的实施例中,为进一步过滤网页噪音,图片特征还包括图片文件名的信息摘要值,则过滤模块20中,在剔除尺寸参数小于垃圾阈值的图片之后判断单元202进一步用于判断图片的尺寸参数是否介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,若图片的尺寸参数是介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,则通知处理单元201按照图片的文件名计算信息摘要值,并根据信息摘要值标记重复的图片。本实施例中,通常大于主体阈值所记录的图片宽度及高度的图片即为主体图片。该主体阈值也是从众多的网页图片中统计得到的,例如,主体阈值可以是:宽度为200mm,高度为100mm。信息摘要值唯一标识了图片,对于不同的图片,其信息摘要值是不一样的,仅仅通过文件名计算得到对应图片的信息摘要值即可有效地提高计算速度,减少网页过滤的时间。在优选的实施例中,信息摘要值为md5值。
判断单元202还用于判断是否存在已标记的重复图片,若是存在已标记的重复图片,则通知剔除单元203。本实施例中,如果存在着已标记的重复图片,则说明这些重复图片是垃圾图片。
剔除单元203进一步用于剔除已标记的重复图片。本实施例中,剔除单元203将已经标记了的重复图片剔除,在wap网页中不予显示。
图9示出了实施例二提供的过滤模块,该实施例中,图片特征包括图片数量,过滤模块50包括数量获取单元501、判断单元502、图片提取单元503以及剔除单元504。
数量获取单元501,用于获取网页中的图片数量。本实施例中,数量获取单元501从网页中统计得到图片数量。为提高过滤网页的速度及效率,数量获取单元501可以仅仅统计gif(graphics interchange format,图像互换格式)图片和png(portable network graphic format,流式网络图形格式)图片的数量。在网页图片中,垃圾图片通常具有小图片、体积小的特点,因此垃圾图片大都是gif图片或png图片,以提高过滤网页的速度及效率。
判断单元502,用于判断图片数量是否大于数量阈值,若是大于数量阈值,则通知图片提取单元503。本实施例中,数量阈值是通过对众多的网页图片进行统计而得到的,例如数量阈值可以取30。如果网页中的图片数量大于数量阈值,则在这些图片中存在垃圾图片的可能性非常大。
图片提取单元503,用于从网页中提取文件名结构相同且路径特征相同的图片。本实施例中,在网页中,每一图片都有绝对路径,图片提取单元503从绝对路径中提取出文件名及路径特征(path),从而得到文件名结构相同且路径特征相同的图片。图片的绝对路径指的是图片的URL(Uniform/Universal ResourceLocator,网页地址)。在图片的绝对路径中包含了主域、路径特征以及文件名。文件名结构相同指的是文件名中的数字或字母构成顺序关系。
在网页中的图片过多,图片数量超过了数量阈值的情况下,将该网页中文件名结构相同且路径特征相同的图片视为垃圾图片,应当将其剔除,不予以显示出来。
剔除单元504,用于剔除文件名结构相同且路径特征相同的图片。
图10示出了实施例三提供的网页图片过滤方法,该实施例中,图片特征包括图片的替换文本,过滤模块60包括概率计算单元601、分类单元602、归一化单元603以及剔除单元604。
概率计算单元601,用于以图片的替换文本为特征项计算对应的先验概率。本实施例中,图片的替换文本也称为alt标签。图片的替换文本指定了替代文本,在图片无法显示或者用户禁用图片显示时,为图片提供了替代的文本信息,这样即使图片无法显示,用户还是可以看到关于该图片的一些信息,此外,在正常显示的图片上,图片的替换文本还起到了标题的作用,当用户将鼠标移动到图片上时,该图片上将出现文字提示。
概率计算单元601收集大量的垃圾图片和页面主体图片上的图片的替换文本,建立标准集,根据标准集计算图片的替换文本属于垃圾图片的概率即为先验概率。但是对于一些包含了非常长的图片的替换文本,例如,图片的替换文本中有200个字节,则属于作弊性质,需要将该图片的替换文本舍弃。
分类单元602,用于根据先验概率及图片的替换文本通过朴素贝叶斯分类算法计算垃圾图片概率和主体图片概率。本实施例中,已知先验概率,且朴素贝叶斯分类算法如下所示:
Vab=arg max P(Vj)P(a1|Vj)P(a2|Vj)...P(an|Vj)
其中,Vab为计算得到的概率,Vj为一集合,an为集合中的属性。
分类单元602根据朴素贝叶斯分类算法计算得到该图片的垃圾图片概率V垃圾图片map和主体图片概率V主体图片map,具体公式如以下所示:
V垃圾图片map=arg maxP(V垃圾图片)P(aalt|V垃圾图片)
V主体图片map=arg max P(V主体图片)P(aalt|V主体图片)
其中,V垃圾图片属于标准集中垃圾图片的集合,aalt为集合中的属性,V主体图片属于标准集中主体图片的集合。
归一化单元603,用于将垃圾图片和主体图片概率归一化后得到垃圾图片。本实施例中,归一化单元603在计算出了该图片的垃圾图片概率和主体图片概率之后,将垃圾图片概率和主体图片概率中较大者放大到1,较小者也按照相同的比例放大,计算放大后的两者之差,若差值大于归一化的阈值,则将该图片标注为概率大者的属性,在优选的实施例中,归一化的阈值为0.1。
剔除单元604,用于剔除垃圾图片。
图11示出了实施例四提供的过滤模块,该实施例中,图片特征包括图片的绝对路径,则如图11所示,过滤模块70包括提取单元701、概率计算单元702、分类单元703、归一化单元704以及剔除单元705。
提取单元701,用于从图片的绝对路径中提取图片的文件名或路径特征。
概率计算单元702,用于以图片的文件名或路径特征为特征项计算对应的先验概率。概率计算单元702收集大量的垃圾图片和页面主体图片上的绝对路径,建立标准集,根据标准集进行计算,得到某一个具体路径特征属于垃圾图片的概率,该概率即为先验概率。
分类单元703,用于根据先验概率以及与先验概率相对应的文件名或路径特征通过朴素贝叶斯分类算法计算得到垃圾图片概率和主体图片概率。本实施例中,已知先验概率,朴素贝叶斯分类算法如前所述,则分类单元703根据朴素贝叶斯分类算法计算得到该图片的垃圾图片概率V垃圾图片map和主体图片概率V主体图片map,具体公式如以下所示。
根据路径特征计算垃圾图片概率和主体图片概率的朴素贝叶斯分类算法为:
V垃圾图片map=arg maxP(V垃圾图片)P(apath1|V垃圾图片)P(apath2|V垃圾图片)...P(apathn|V垃圾图片)
V主体图片map=arg maxP(V主体图片)P(apath1|V主体图片)P(apath2|V主体图片)...P(apathn|V主体图片)
根据文件名计算垃圾图片概率和主体图片概率的朴素贝叶斯分类算法为:
V垃圾图片map=arg maxP(V垃圾图片)P(afilename1|V垃圾图片)P(afilename2|V垃圾图片)...P(afilenamen|V垃圾图片)
V主体图片map=arg maxP(V主体图片)P(afilename1|V主体图片)P(afilename2|V主体图片)...P(afilenamen|V主体图片)
其中,V垃圾图片属于标准集中垃圾图片的集合,apathn和afilenamen为集合中的属性,V主体图片属于标准集中主体图片的集合。
归一化单元704,用于将垃圾图片概率和主体图片概率归一化后得到垃圾图片。本实施例中,归一化单元704在计算出了该图片的垃圾图片概率和主体图片概率之后,将垃圾图片概率和主体图片概率中较大者放大到1,较小者也按照相同的比例放大,计算放大后的两者之差,若差值大于归一化的阈值,则将该图片标注为概率大者的属性,在优选的实施例中,归一化的阈值为0.1。
剔除单元705,用于剔除垃圾图片。
上述网页图片过滤系统中,根据剔除垃圾图片过程的不同,过滤模块的组成也不同,因此,上述过滤模块在实际的网页图片过滤过程中,可以单独运用,也可以组合在一起完成网页图片的过滤。
上述网页图片过滤方法及系统中,先不进行网页中图片的下载,通过图片特征来识别网页中的图片是否是垃圾图片,如果是垃圾图片就不再下载,从而有效地减少了网络带宽消耗使得经由web网页转换过来的wap网页中不再出现垃圾图片,,有效地降低了网页中的噪音。
上述网页图片过滤方法及系统中,通过多种图片特征来层层过滤网页中的垃圾图片,实现了垃圾图片的精确识别,有效地提高了速度及效率。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。