CN101573956B - 图像垃圾信息的检测方法和系统 - Google Patents
图像垃圾信息的检测方法和系统 Download PDFInfo
- Publication number
- CN101573956B CN101573956B CN200780043462XA CN200780043462A CN101573956B CN 101573956 B CN101573956 B CN 101573956B CN 200780043462X A CN200780043462X A CN 200780043462XA CN 200780043462 A CN200780043462 A CN 200780043462A CN 101573956 B CN101573956 B CN 101573956B
- Authority
- CN
- China
- Prior art keywords
- compression
- image
- frame
- known spam
- junk information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title description 22
- 230000006835 compression Effects 0.000 claims abstract description 155
- 238000007906 compression Methods 0.000 claims abstract description 155
- 238000000034 method Methods 0.000 claims abstract description 42
- 239000000284 extract Substances 0.000 claims description 27
- 238000004513 sizing Methods 0.000 claims description 18
- 238000003860 storage Methods 0.000 claims description 7
- 239000003086 colorant Substances 0.000 claims description 6
- 230000000246 remedial effect Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 description 39
- 230000008859 change Effects 0.000 description 20
- 238000005516 engineering process Methods 0.000 description 18
- 238000004458 analytical method Methods 0.000 description 10
- 230000004048 modification Effects 0.000 description 10
- 238000012986 modification Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 6
- 240000001090 Papaver somniferum Species 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 235000006502 papoula Nutrition 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000000682 scanning probe acoustic microscopy Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 208000027534 Emotional disease Diseases 0.000 description 1
- 235000008753 Papaver somniferum Nutrition 0.000 description 1
- 241001301992 Rana clamitans Species 0.000 description 1
- IRERQBUNZFJFGC-UHFFFAOYSA-L azure blue Chemical compound [Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[Al+3].[Al+3].[Al+3].[Al+3].[Al+3].[Al+3].[S-]S[S-].[O-][Si]([O-])([O-])[O-].[O-][Si]([O-])([O-])[O-].[O-][Si]([O-])([O-])[O-].[O-][Si]([O-])([O-])[O-].[O-][Si]([O-])([O-])[O-].[O-][Si]([O-])([O-])[O-] IRERQBUNZFJFGC-UHFFFAOYSA-L 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/212—Monitoring or handling of messages using filtering or selective blocking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
- G06T7/001—Industrial image inspection using an image reference approach
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Information Transfer Between Computers (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Processing (AREA)
- Automatic Focus Adjustment (AREA)
- Peptides Or Proteins (AREA)
Abstract
一种检测诸如电子邮件的电子对象中的垃圾信息图像的方法,包括:利用有损压缩函数将从电子对象中提取到的图像压缩为普通表示,并且确定所提取到的图像的压缩后形式是否与已知垃圾信息图像的集合中的任意已知垃圾信息图像的压缩后形式相同,其中压缩后形式是利用有损压缩函数被压缩成所述普通表示的已知垃圾信息图像。基于被确定为与已知垃圾信息图像的压缩后形式相同的从电子对象所提取到的图像的压缩后形式,向电子对象发出嵌入了垃圾信息图像的信号。
Description
技术领域
本发明涉及对于诸如电子邮件等电子对象中的图像垃圾信息的检测,普遍涉及任何类型的参考图像的检测。
背景技术
垃圾电子邮件会通过使接收者的电子邮件收件箱充斥着大量不需要的消息而导致越发受到讨厌。通常,垃圾信息的内容会包含欺骗性的或是不健康的内容,而引起厌烦或是财务损失。处理这些消息会花费的时间、存储且处理电子邮件系统中的这些垃圾信息所需的资源、以及浪费了的网络资源都是一种经济上的巨大浪费。
已经开发了类型众多的识别垃圾信息并且从合法的电子邮件中区分垃圾信息的技术。通常,上述技术都是基于已知的垃圾电子邮件和/或已知的非垃圾电子邮件(即,不是垃圾信息的电子邮件)的集合(corpus),并且将这些电子邮件的文本与接受审查的目标(subject)电子邮件的文本进行比较。上述技术当中的一种广泛使用的技术是贝叶斯滤波(Bayesian filtering)。该技术涉及对电子邮件进行句法分析以识别消息中的词或词对。随后基于之前接收到的垃圾信息和非垃圾信息消息中这些词的出现频率来执行概率计算。过滤器随后对消息的概率分配作为垃圾信息或非垃圾信息,并且接收者可基于是否为垃圾信息决定是否读取电子邮件。
垃圾信息发送者(spammer)采用多种应对方式来伪装他们的垃圾信息,以试图避免他们的消息被这些技术检测为垃圾信息。一种特别开发的方法就是将他们的消息内容描绘成电子邮件中嵌入的图像,而不再是电子邮件的消息中的文本。图像可代表所存在的文本并且向接收者传递含义,然而由于上述文本不作为部分消息存在,因此很难对其分析以检测出垃圾信息。当然容易检测出与集合中的已知的垃圾信息图像相同的垃圾信息图像。然而,图像的本质意味着垃圾信息发送者可直接地改变垃圾信息图像以伪装其和垃圾信息电子邮件中先前出现的图像的相似性,而无需改变对于接收者的目标内容和意义。
例如,为了阻挠对垃圾信息图像或图像中包含的任意文本的分析,垃圾信息发送者通常使用了如下多种技术来改变它们,包括:
改变图像的大小;
改变宽高比;
包括变化颜色的许多单一像素;
改变背景或文本颜色;以及
改变图像格式。
上述这些以及其他技术可用来着色包含相同的内容异型(contentdissimilar)的图像。对于观察人员而言,几乎感受不到图像之间的差别。但是,因为计算方法使得这些图像密切地相关,这种差别却足以阻挠识别这些图像的努力,并因此将电子邮件检测为垃圾信息。
在一个方面,本发明涉及即使在垃圾信息发送者已经作出上述改变时,基于已知的垃圾信息图像的集合对电子邮件以及其他电子对象中的垃圾信息图像的检测。
考虑比垃圾信息图像更常见的那些图像,存在期望检测出作为集合中的参考图像的、诸如电子邮件等电子对象中嵌入的图像以及当改变图像时出现相似问题等多种情况。因此,本发明的更普遍方面涉及在对图像中存在一些有意或无意的改变的情况下,对作为已知的参考图像的集合中一个的电子邮件以及其他电子对象中的图像的检测。
在分析诸如电子邮件等电子对象的情况中的额外问题在于,执行上述分析所需的速度以及处理能力。需要分析的上述电子对象的数目很巨大。例如,MessageLabs有限公司在2006年10月每周独自扫描超过十亿的电子邮件以发现垃圾信息和诸如恶意软件等其他问题。当对于扫描可利用的时间和处理能力受到实际情况的限制时,为执行分析所需的速度和处理就十分重要。
在其他的技术领域,存在有许多已知的针对识别目标图像的图像识别技术,例如下面提到的这些技术。
诸如在US-2006/093,221、US-2006/092,292、WO-2004/008392.、以及JP-2006,053,774中描述的图像索引系统都提取图像的特征,生成这些特征的索 引,并且试图在数据库中匹配这些特征。上述方法却不可能适用于这样的垃圾信息的领域,在该领域垃圾信息发送者主动地试图模糊混乱他们的图像以掩盖那些可被索引的特征。
US-2006/143,176通过描述了一种用来检索相关图像的查询数据库而改进了上述思想。然而,用来检索这些图像的索引信息是基于图像的语义上下文和发现这些图像所在的对象。在垃圾信息的上下文分析中,与图像相关的任何文本都可能被设计地令人费解,以使得基于语言的垃圾信息过滤器迷惑。任何图像的处理都需要被尽快地执行以允许图像的高吞吐量,图像中的任何文本语义内容的分析都在计算方面变得过于昂贵而不能在可利用的时间和处理能力方面满足实际的限制。同样的,上述垃圾信息图像的文本内容会非常受限和/或被设计为阻止上述方法。
US-2006/147,186和US-2006/062,474公开了检查图像中的颜色信息的直方图(histogram)以生成用于比较图像的索引的系统。该方法对于大多数的图像比较而言是十分出色的。然而,在垃圾信息图像的领域,典型地,故意地改变颜色直方图来使该方法无效。可以改变背景颜色。在一个图像中显示为黑色的文本可包含另一图像中的数十种不同的近黑色的颜色。
例如,在专利文献WO-2004/053796、US-7,016,549中描述了另一种用来检测像素或像素区域匹配的图像识别技术。上述类型的技术提供了出色的精确度,但是需要逐一地比较图像,因此会十分地缓慢并且对于在垃圾信息图像检测的实际应用中的计算方面的要求非常高。
发明内容
根据本发明的一个方面,提供了一种检测电子对象中的垃圾信息图像的方法,该方法包括:
提取电子对象中嵌入的图像;
将所提取到的图像压缩为普通表示;
确定所提取到的图像的压缩后形式是否与已知垃圾信息图像的集合中的任意已知垃圾信息图像的以所述普通表示的压缩后形式相同;以及
基于被确定为与已知垃圾信息图像的压缩后形式相同的从电子对象所提取的提取到的图像的压缩后形式,向电子对象发出嵌入了垃圾信息图像的信 号。
类似的,还提供了一种实施相同方法的系统。
本发明实现了尽管上述垃圾信息发送者采用混淆及模糊技术,仍可基于已知垃圾信息图像的集合检测出垃圾信息图像。压缩从目标电子邮件中提取到的图像,并且与也被压缩了的已知垃圾信息图像的集合进行比较。对从目标电子邮件和已知垃圾信息图像中提取到的图像的压缩后形式使用普通表示。由于压缩函数是有损的,因此在对他们进行比较之前,压缩有效地去除来自图像的信息。这可获得如下效果,即在原始垃圾信息图像的压缩后形式与改变后的垃圾信息图像的压缩后形式相同的情况下,可去除垃圾信息发送者试图伪装电子邮件而作出的改变。这意味着当压缩后形式与集合中的已知垃圾信息图像的压缩后形式相同时,能够将提取到的图像检测为垃圾信息图像。
实际上,已经发现了垃圾信息发送者作出的改变的本质使得许多修改后的垃圾信息图像在实际中能够被上述方式检测出。因此,本发明能够提供高的检测速率。通过减小普通表示的大小可增大检测速率,但是这还引起了增大假阳性的后果。实际上,可以选择普通表示的大小以提供在增大检测速率与降低假阳性率之间的任意期望的折中。
本发明的另一重要优点在于提供了较高速率且需要较小处理能力的检测,尤其是与许多其他类型的图像识别技术相比。这是因为提取到的图像的压缩以及确定提取到的图像的压缩后形式是否与已知图像相同都是本质上非常快的并且直接的处理。当然,作为初步处理还可压缩已知垃圾信息图像的集合并且存储结果,从而不必在集合中重复地压缩已知垃圾信息图像。
通过使用哈希值还可进一步对确定提取到的图像的压缩后形式是否与已知图像相同提高速度。特别地,计算提取到的图像的哈希值并且与已知垃圾信息图像的压缩后形式的哈希值的存储组进行比较,这可以作为初步处理来计算。实际上,哈希值的比较是非常快的。
本发明可以应用到任意类型的电子对象中垃圾信息图像的检测。然而,尤其适用于流经网络中节点的电子对象。在这种类型的环境中,流过大量的电子对象并且需要对其进行扫描,对此可以更加强烈地感受到本发明的优点。
本发明还可特定地应用到由发送者发起的而不是由接收者发起的电子对 象,这样的一个普通示例是电子邮件。在这种场合下,接收者对于电子对象的内容具有非常小的或是没有控制,因此垃圾信息的问题变得更加显著并且为垃圾信息发送者留下的机会更大。
尽管本发明对于垃圾信息图像具有特定的应用,然而用来识别相似图像的技术还可普遍地应用到任意类型的图像,根据本发明的其他方面,本发明还可更普遍地应用到将电子对象中的图像检测为集合中的参考图像的相同或变化的版本。通过示例并且不限制地,组织可期望检测出失去控制的敏感文档的图像。在那种情况下,可以维护参考图像的集合,还可对发送到该组织之外的电子对象应用本发明。在上述安全环境下,即使会引起假阳性率的增大,仍可以将普通表示的大小减小以便增大检测速率。
附图说明
为了更好地理解,下面参考附图通过非限制实例描述本发明的实施例,其中:
图1是用来说明将两个图像压缩成包含一个像素的表示(representation)的示意图;
图2是用来说明将图像压缩成包含两个像素的表示的示意图;
图3是用来说明将两个图像压缩成包含四个像素的表示的示意图;
图4是用来初步地处理已知的垃圾信息图像的集合的子系统的示意图;
图5是用来分析目标电子邮件的子系统的示意图;
图6是用来初步地处理已知的垃圾信息图像的集合的变型子系统的示意图;
图7是用来分析目标电子邮件的变型子系统的示意图;以及
图8至图14是垃圾信息图像的不同示例的表示。
具体实施方式
参考垃圾信息图像给出如下的具体实施方式,然而还可同样地应用到其他类型的图像。
首先,将会给出关于本发明中使用图像压缩以识别图像的原理的说明。
如果在例如大小和颜色深度方面大幅度地压缩图像,则图像将会被压缩成包含一个像素和两种颜色的调色板(palette)的表示,即被压缩成单一的白色 或黑色像素的表示。在这种程度的压缩下,所有图像中的大约一半成为单一的白色像素,而一半成为单一的黑色像素。因此,所有的图像可以被分割为两种完全不同的组,被压缩为黑色像素的图像组和被压缩为白色像素的图像组。例如,图1示出了两个不同的图像以及当被压缩为单一像素时两个图像的压缩后的形式。上方的图像压缩为白色像素而下方的图像压缩为黑色像素。对任意大小和任意颜色深度的随后图像应用相同的图像压缩函数,这将会实现可被快速地分配给两组中其中一组的原始图像的压缩后的表示。
类似的,如果压缩是包含两个像素的表示,则如图2所示存在四种可能的结果。即,图像的第一组A压缩为两个白色的像素;第二组B压缩为两个黑色的像素;第三组C压缩为白色的第一像素和黑色的第二像素;以及第四组D压缩为黑色的第一像素和白色的第二像素。关于图像的压缩,压缩后的表示中的上述这些结果可识别出图像能够分配给的可能的四组中的一组。
当修改图像压缩函数以实现具有增大的大小和颜色深度的压缩后的图像表示时,被压缩的图像可能出现的结果的数目也会随之增大。如此,根据对图像应用压缩的结果来分配图像的组的数目也会增加。
通常,出于图像分类目的,可以使用用来输出具有普通表示的压缩后的图像的合适的图像压缩函数,其中上述普通表示可以例如是预定数量的像素和颜色深度。例如,可以使用图像压缩函数来区分如图3所示的绿色场的图像和罂粟红色(poppy)场的图像,上述图像压缩函数采用了任意大小和颜色深度的图像并且将该图像压缩为具有包含五种颜色(红、绿、蓝、白、以及黑)的颜色调色板的四个像素的表示,图3示出了原始和压缩后形式的图像。
在本发明中,选择了压缩后图像的表示,从而允许对集合中已知的垃圾信息图像的变化版本的识别。
实际上已经发现,普通表示的宽泛的大小范围对于将垃圾信息发送者发送的所有视觉相关图像都着色为对于所有垃圾信息图像普遍的压缩后的形式是十分有效的。这种压缩后的图像的特点是当接受相同的函数时,几乎没有非垃圾信息图像会被压缩为相同的压缩后形式。通过使用已知的垃圾信息图像的集合,可使用这个事实将改变后的图像分类为与已知的垃圾信息图像相类似的图像,因此其自身成为垃圾信息。
可以选择压缩后图像的普通表示的大小来提供检测速率与随着大小而变化的假阳性率(false positive rate)之间所期望的折中。
产生小的普通表示的强压缩函数可向可能出现的结果提供相对应的数量很少的图像的组。如果数量非常少,则图像的分类会变得没有意义,即完全无关的图像会被确定为相似的图像。例如,可使用图3所示的图像压缩来区分绿色场的图像和罂粟红色场的图像。也就是说,当对原始图像应用图像压缩过滤器时,通过审查该图像压缩过滤器的结果,可将原始图像分配给类罂粟红色场的图像组,或是类绿色场的图像组。然而,在上述压缩程度下,该技术却非常容易出现假阳性,例如,红色的消防车的图像不能从罂粟红色场的图像中区分出来,而绿色的青蛙的图像也不能从绿色场的图像中区分出来。通过增大图像压缩函数产生的压缩后图像中的颜色的大小和数量,所得到的图像可用于将具有更少假阳性地更准确地关联相关图像。
因此,普通表示的大小需要足够大以提供对于检测垃圾信息图像而言有效的假阳性率。实际上,在普通表示是具有预定大小和颜色调色板的二进制图像的情况下,已经发现可以有效地检测出垃圾信息图像,如果预定大小是400像素或更大,优选地为576像素或更大,并且颜色的预定数目是5或更多。当图像是正方形时,400或576像素大小的图像等同于20×20或24×24像素大小的图像,尽管普通表示还可以是矩形。
产生大的普通表示的弱压缩函数向极端大的数目的可能出现的结果提供了相对应的大数目的图像组。如果数目太大,这只能用来区分非常相似的图像,因此不能检测出垃圾信息图像中许多类型的改变。因此,普通表示的大小需要足够小以提供对于检测垃圾信息图像而言有效的检测速率。实际上,在普通表示是具有预定大小和颜色调色板的位图的情况下,已经发现可以有效地检测出垃圾信息图像,如果预定大小是22500像素或更小,优选地为13684像素或更小,并且颜色的预定数目是24或更少。当图像是正方形时,22500或13684像素大小的图像等同于150×150或128×128像素大小的图像,尽管普通表示还可以是矩形。
现在,描述一种实现本发明的用来检测垃圾信息图像的系统。该系统包含如图4所示的预处理子系统100,用来预处理已知的垃圾信息图像的集合以生 成参考数据库;以及如图5所示的分析子系统200,用来分析目标电子邮件。可以在网络节点处应用上述系统,用来分析流经该节点的从发送者到接收者的路径上的电子邮件(或其他的电子对象)。该系统可构成利用其他技术来检测垃圾信息以及检测恶意软件的范围更广的一套过滤器当中的一部分。
在每秒钟需要分析许多电子邮件以检测出他们是否包含垃圾信息的环境中,实际上,压缩电子邮件中的任何图像、随后压缩集合中的每个已知的垃圾信息图像并且按照像素逐个进行比较都会花费不期望的大量时间。因此可以从两个方面提高处理的速度。
第一,压缩已知的垃圾信息图像的集合并且在初步处理中存储结果以生成参考数据库。因此,在分析目标电子邮件之前先完成对于集合中的已知垃圾信息图像的压缩。
第二,通过计算压缩后形式的哈希值并且确定哈希值是否相同来执行关于图像的压缩后形式是否相同的检测。因此,参考数据库包含集合中的已知垃圾信息图像的压缩后形式的所存储的哈希值的组。哈希值的比较十分迅速并且容易执行处理。
现在参考图4描述预处理子系统100。
收集包含嵌入后图像的已知垃圾信息电子邮件的集合110。例如,通过使用者的分类,已知电子邮件是垃圾信息。
该集合被传递到用来从集合110中的电子邮件提取图像数据的图像提取引擎101。图像提取引擎101将许多不同的图像类型(例如,jpeg、gif、png、bmp等)转换成单一的普通格式。因此,图像提取引擎101产生已知垃圾信息图像的集合。
由图像提取引擎101提取出的已知垃圾信息图像被传递到图像压缩单元102。无论压缩前的图像的大小,图像压缩单元102利用图像压缩函数压缩已知的垃圾信息图像,上述图像压缩函数都是有损的并且对于将每个图像压缩为普通表示是有效的。
为了计算简便,普通表示可以是具有预定大小和包含预定数目颜色的预定颜色调色板的位图。在这种情况下,图像压缩函数具有两个效果。
第一,图像压缩函数将图像从原始高度和宽度减小为对于所有图像而言的 普通高度和宽度。这可以通过简单地取平均函数来实现,通过该简单地取平均函数,从对应位置处的原始图像的窗口内像素的线性组合导出图像的压缩后形式下的各像素。窗口内的所有像素在线性组合中都具有相同的权重,或是可以使用窗口函数从而权重不同。
第二,图像压缩函数可减小颜色深度以应用普通颜色调色板。这可以通过对于图像的压缩后形式的各像素选择最接近的颜色调色板中的匹配来方便地实现。这确保了压缩后形式的图像仅包含相同的普通颜色调色板的颜色。
可以理解的是,图像大小和颜色深度方面的减小会导致信息量的减少,因此是一种有损形式的压缩。通常,可选地执行类型广泛的有损压缩函数。尽管普通表示作为位图是方便的,普通表示还通常可以采用其他类型,例如矢量图形或变换系数。
集合中的压缩后形式的各已知垃圾信息图像从图像压缩单元102被传递到利用哈希函数对已知的垃圾信息图像计算哈希值的哈希函数单元103。各哈希值104都是从已知垃圾信息图像获得的、对于压缩后形式的已知垃圾信息图像实际上特有的二进制签名(或是更严格地讲,存在非常小并且实际上可忽略的两个不同的压缩后形式具有相同的哈希值104的概率)。可以应用任意的哈希函数。一种可以使用的哈希函数就是MD5。
将哈希函数单元103计算得到的哈希值104存储在数据库105中,以便在确定接受分析的电子邮件是否为垃圾信息中作为参考使用。
现在参考图5描述分析子系统200。
如下所述,分析子系统200处理各个到来的电子邮件201。判断单元202确定到来的电子邮件201是否包含图像。如果不包含图像,,如图5中的步骤203所示,则传递到来的电子邮件而不需在分析子系统200的剩余部分对其处理。
包含嵌入后图像的到来的电子邮件201被传递到与预处理子系统100的图像提取引擎101、图像压缩单元102、以及哈希函数单元103分别相同的图像提取引擎204、图像压缩单元205、以及哈希函数单元206,并且按照如上所示动作。因此,图像提取引擎204提取出电子邮件201中嵌入的图像,图像压缩单元205压缩图像,并且哈希函数单元206计算从电子邮件201提取出的压 缩后形式的图像的哈希值207。尤其值得注意的是,图像压缩单元102和205应用相同的图像压缩函数来压缩图像并且生成如上所述的具有普通表示的压缩后形式的图像。类似的,哈希函数单元206和103应用相同的哈希函数。
将从哈希函数单元206输出的电子邮件201中提取出来的压缩后形式的图像的哈希值207提供给判断单元208。判断单元208对预处理子系统100预先准备好的数据库105查询是否存在哈希值207。因此,判断单元208确定从接受分析的图像获得的哈希值207是否与数据库105中保存的哈希值104的组中作为集合110中任何已知垃圾信息图像的哈希值104的一个哈希值相同。
这具有如下效果(仅对于哈希函数的准确性),即确定电子邮件201中嵌入的压缩后形式的图像是否与集合110中压缩后形式的任何已知垃圾信息图像相同。基于上述确定,如果电子邮件201中嵌入的图像与集合中压缩后形式的任何已知的垃圾信息图像相同,则判断单元208产生可发出电子邮件201嵌入了垃圾信息图像的信号的输出209。否则,判断单元208产生发出电子邮件201没有嵌入垃圾信息图像的信号的输出210。
在发出电子邮件201嵌入了垃圾信息图像的信号的输出209的情况下,在补救动作单元211中该电子邮件可选地接受某种形式的补救动作。补救动作可以有多种形式,例如但不局限于包括如下的动作:向专家用户提醒垃圾电子邮件以实现上述发现的复查;删除电子邮件201;将电子邮件201路由到接收者可以访问的垃圾信息文件夹;修改电子邮件201以使接收者将其识别为可能的垃圾信息;把电子邮件201存储到服务器并向接收者发送通知;和/或执行进一步分析。
现在参考图6和图7描述系统的变型例。
首先说明对系统作出修改的原因。尽管图4和图5所示的系统对于检测垃圾信息图像是有效的,但是即使非垃圾信息图像来自与垃圾信息图像无关的源,当非垃圾信息图像碰巧具有与压缩后形式的垃圾信息图像相同的压缩后形式时,也会伴随有特定数目的假阳性。可选的修改的目的在于通过如下方式减少上述假阳性的数目。
修改基于如下原理,即自身的非压缩形式具有广泛的不同的大小的图像不太可能成为相同垃圾信息图像的变型形式。虽然垃圾信息发送者不断地尝试改 变垃圾信息图像的大小以减少被检测的几率,很少使用具有广泛的不同的大小的图像,因为这通常需要对垃圾信息图像的内容的本质作出根本的变化。典型地,垃圾信息发送者所作出的大小变化处在20%或更小的数量级。因此,修改还额外地涉及比较从接受分析并且没有压缩的电子邮件201中提取的图像大小和没有压缩的已知垃圾信息图像的大小,并且仅当大小类似于预定程度时确定提取到的图像是垃圾信息。
如图6所示修改预处理子系统100以使其包括图像大小分析引擎106,向其提供从集合110的电子邮件中提取的已知垃圾信息图像。图像大小分析引擎106获取表示图像(无压缩的)大小的位屏蔽(bit mask)107。特别地,利用位屏蔽函数来获取位屏蔽107,位屏蔽函数可当图像大小处在各个范围内时设置位屏蔽107中的各位。因此各位都对应于预定范围内的大小。如下面将会进一步描述的一样,大小的范围可相互重叠。
在上述示例中,位屏蔽107包括两个部分,一个部分是表示图像的高度的位,而另一部分是表示图像的宽度的位,但是可选地还可从整体上对图像的大小设置位。
图像大小分析引擎106将所获取的位屏蔽107保存在与从集合110的相同已知垃圾信息图像获取的对应哈希值104相关联的数据库104中。
类似的,如图7所示修改分析子系统200以使其包括图像大小分析引擎212,向其提供由图像提取引擎204提取到的图像。图像大小分析引擎212与预处理子系统100的图像大小分析引擎106完全相同,并且执行如上所述的动作。因此,图像大小分析引擎212获得表示从接受分析的电子邮件201提取的图像大小的位屏蔽213。图像大小分析引擎106和212都使用普通位图函数,并且因此当从电子邮件201提取的图像大小落入相同的各个范围内时,设置位屏蔽213的位。
对于分析子系统200的进一步修改在于由判断单元208作出的确定的本质。判断单元208仍确定从接受分析的图像获取的哈希值207是否和数据库105中保存的哈希值104的组中的任意一个哈希值相同,从而如图7中的操作208a所示,确定电子邮件201中嵌入的图像的压缩后形式是否与集合110中任意已知的垃圾信息图像的压缩后形式相同。
此外,在操作208a中发现了电子邮件201中嵌入的图像的压缩后形式与已知垃圾信息图像中的一个的压缩后形式相同的情况下,判断单元208前进至操作208b,以比较从电子邮件201中嵌入的图像中获取的位屏蔽213和已知的垃圾信息图像中的相同图像的位屏蔽107。特别地,无论高度和宽度,确定这两个位屏蔽107和213是否具有任何共同设置的位。这可通过对两个位屏蔽107和213应用二进制的“与”(AND)操作并且确定是否设置了结果中的任意位来方便地实现。
当讨论中的图像的大小处在特定范围内时则设置位屏蔽107和213中的各位,操作208b具有如下的效果,即快速地比较电子邮件201中嵌入的图像的压缩后形式和与该嵌入图像大小相同的已知垃圾信息图像中的一个图像的压缩后形式。如果两个位屏蔽107和213具有关于高度设置的共同位和关于宽度设置的共同位,随后操作208b确定上述图像的大小相似;或是相反地确定上述图像的大小不相似。
对应于各位的范围的重叠被用来应对边界问题。如果范围不重叠,则靠近边界处图像大小的小变化会使图像大小从一个图像范围移动到另一个,这会导致在位屏蔽213中设置不同的位,并且图像大小比较会错误地报告两个图像在大小方面不相似。范围的重叠可以解决上述问题。图像可具有多于一位的位屏蔽107和213中设置的位。这会使得代表图像大小的两个位屏蔽107和213的比较可能给出表示图像在大小方面相似的真实结果。因此,操作208b具有如下效果,即确定图像大小近似到受范围和重叠的大小控制的预定程度。
对于所使用的实际范围,可应用如下的考虑。小图像与大图像相比,高度或宽度上像素数目的相同变化会影响更加巨大。50×50像素图像在一个维度上的50像素的变化会导致图像大小的加倍,或是导致图像对于观察者而言不可见。相反地,900×900像素图像在一个维度上的50像素的变化几乎不能被注意到。为了应对上述变化的程度,图像比较函数必须能够识别图像大小方面的小变化是否会导致对于观察者而言大的感知变化。为了应对上述问题,位屏蔽的位之间的大小范围的增大不是呈线性变化的,而是基于变型的斐波那契(Fibonacci)数列。通过示例,如下的表格示出了一组可能的对于位屏蔽的各位的范围,相同的表格还可应用到对应于高度的位和对应于宽度的位:
位的位置 | 大小范围(像素数量) |
1 | 0-253 |
2 | 227-323 |
3 | 288-411 |
4 | 367-524 |
5 | 468-668 |
6 | 596-851 |
7 | 760-1083 |
8 | >1083 |
在变型的分析子系统200中,判断单元208基于操作208a以及操作208b的确定结果,产生发出电子邮件201嵌入了垃圾信息图像的信号的输出209,其中在操作208a中确定电子邮件201中嵌入的图像的压缩后形式与集合110中的已知垃圾信息图像中的一个图像的压缩后形式相同,而在操作208b中确定未压缩的电子邮件201中嵌入的图像的大小与已知垃圾信息图像中的同一个图像的大小相似。否则,判断单元208产生发出电子邮件201没有嵌入垃圾信息图像的信号的输出210。
现在参考如图8至图14所示的一些实际垃圾信息图像,给出在如上所述的系统中压缩和哈希值的使用的工作示例。对于各垃圾信息图像,未压缩的图像的大小和MD5哈希值如下所示:
图8示出了stock1.gif
维度:559×688像素
大小:26.5Kb
MD5哈希值:85e1bbe17abc694b2d7de709837a74c2
图9示出了stock2.gif
维度:509×674像素
大小:26.6Kb
MD5哈希值:9ae34635a9ab2f2927825f11dd4c5db6
图10示出了stock3.gif
维度:624×706像素
大小:33.3Kb
MD5哈希值:12a909bacb4752629c3dc5387d0975b6
图11示出了soft1.gif
维度:229×91像素
大小:8.23Kb
MD5哈希值:324d588a9c74088f09f7651f5349b755
图12示出了soft2.gif
维度:229×91像素
大小:12.2Kb
MD5哈希值:1fe64198d03de9ada5cb38c986624228
图13示出了drug1.gif
维度:310×175像素
大小:3.20Kb
MD5哈希值:b5d5cdc88e08d7eef82b8f638ce16188e
图14示出了drug2.gif
维度:305×178像素
大小:3.21Kb
MD5哈希值:2cf83b0850f5df46c962940a31e133ea
对于实际图像而言明显的,stock1.gif、stock2.gif、以及stock3.gif都是第一垃圾信息图像的修改后版本;soft1.gif和soft2.gif都是第二垃圾信息图像的修改后版本;并且drug1.gif和drug2.gif都是第三垃圾信息图像的修改后版本。
首先考虑未作修改的如图4和图5所示的系统。利用图像压缩单元205(或102)将图像压缩成8种颜色(白、黑、红、绿、蓝、黄、青蓝、红紫)的包含8×8像素表示的普通表示,并且利用哈希函数单元206(或103)来应用MD5哈希函数。对于压缩后图像给出了如下的哈希值207(或104):
图像名 | 哈希值207(或104) |
stock1.gif | 51e23ea79f37a3e70b 1b96a316a0f2ab |
stock2.gif | 51e23ea79f37a3e70b1b96a316a0f2ab |
stock3.gif | 51e23ea79f37a3e70b1b96a316a0f2ab |
soft1.gif | 3d1f1dc3475c1480b809adbc0efe17af |
soft2.gif | 3d1f1dc3475c1480b809adbc0efe17af |
drug1.gif | 51e23ea79f37a3e70b1b96a316a0f2ab |
drug2.gif | 51e23ea79f37a3e70b1b96a316a0f2ab |
对于哈希值207的检查示出了,检测到图像stock1.gif、stock2.gif、stock3.gif、drug1.gif、以及drug2.gif都彼此相似;并且检测到图像soft1.gif和soft2.gif彼此相关,但是不同于其他的图像。
因此,如果stock1.gif和soft1.gif是集合110中的已知垃圾信息图像,则分析子系统200可准确地检测出stock2.gif、stock3.gif、以及soft2.gif是垃圾信息,但是不能准确地检测出drug2.gif与stock1.gif相关。
这说明了系统的基本操作和假阴性的可能性。通过如图6和图7所示的变型系统可避免出现上述的假阴性。在这种情况下,图像大小分析引擎212(或106)为各图像产生如下的位屏蔽213(或107):
图像名 | 高度的位屏蔽213(或107) | 宽度的位屏蔽213(或107) |
stock1.gif | 00001000 | 00000100 |
stock2.gif | 00011000 | 00000100 |
stock3.gif | 00001100 | 00000100 |
soft1.gif | 11000000 | 10000000 |
soft2.gif | 11000000 | 10000000 |
drug1.gif | 01100000 | 10000000 |
drug2.gif | 01100000 | 10000000 |
因此,stock1.gif、stock2.gif、以及stock3.gif分享关于高度和宽度的位屏蔽213(或107)中公共设置的位;并且drug1.gif和drug2.gif分享关于高度和 宽度的位屏蔽213(或107)中公共设置的位,但是非常重要的是,不与stock1.gif、stock2.gif、以及stock3.gif分享位屏蔽213(或107)中公共设置的位。在判断单元208的操作208b中使用上述信息来推断,一方面stock1.gif、stock2.gif、以及stock3.gif彼此不相关,另一方面drug1.gif和drug2.gif彼此不相关,从而避免了上述的假阳性。
另一方法减小压缩函数的强度(strength),从而普通表示变得更大以提供更加严格的图像比较。如果普通表示是如上所述的具有相同8种颜色的64×64像素表示,则可获得压缩后图像的如下哈希值207(或104):
图像名 | MD5哈希值 |
stock1.gif | 550220a7c9bcd9e4aaae372e04c78daa |
stock2.gif | 550220a7c9bcd9e4aaae372e04c78daa |
stock3.gif | 550220a7c9bcd9e4aaae372e04c78daa |
soft1.gif | be03562d2d148fa75c1a51c0bb341ada |
soft2.gif | 5b9429b181e70cb15b02daebc0fae4f9 |
drug1.gif | 8bc612d6d0972b32cdc3b70a7dfc6840 |
drug2.gif | cacc97c7f347c47ef8c7ae1227d8aea7 |
在上述情况下,可检测到stock1.gif、stock2.gif、stock3.gif是相似的,而其他图像中没有相似的图像。因此,在牺牲检测速率的前提下可以避免上述的假阳性。
Claims (28)
1.一种检测目标电子邮件中的垃圾信息图像的方法,所述方法包括:
从已知垃圾信息电子邮件中提取垃圾信息图像;
利用有损压缩函数将所提取的垃圾信息图像压缩成是具有预定大小和预定数目颜色的颜色调色板的二进制位图的普通表示以生成所提取的垃圾信息图像的压缩后形式并由此创建已知垃圾信息图像的压缩后形式的集合;
提取所述目标电子邮件中嵌入的目标图像;
利用所述有损压缩函数将所述目标图像压缩成是具有所述预定大小和所述预定数目颜色的颜色调色板的二进制位图的普通表示;
确定所述目标图像的压缩后形式是否与所述集合中的任意一个已知垃圾信息图像的压缩后形式相同;以及
基于从所述目标电子邮件提取的所述目标图像的压缩后形式被确定为与已知垃圾信息图像的压缩后形式相同,发出所述目标电子邮件嵌入了垃圾信息图像的信号。
2.根据权利要求1所述的方法,其中,
所述预定大小是在400像素至22500像素的范围内。
3.根据权利要求1所述的方法,其中,
所述预定大小是在400像素至13684像素的范围内。
4.根据权利要求1所述的方法,其中,
所述预定大小是在576像素至22500像素的范围内。
5.根据权利要求1所述的方法,其中,
所述预定大小是在576像素至13684像素的范围内。
6.根据权利要求1至5中任一项所述的方法,其中,
所述颜色的预定数目是在5至24的范围内。
7.根据权利要求1至5中任一项所述的方法,其中,
所述确定所述目标图像的压缩后形式是否与所述集合中的任意一个已知垃圾信息图像的压缩后形式相同的步骤包括:
计算所述目标图像的压缩后形式的哈希值;以及
确定所述目标图像的压缩后形式的哈希值是否与所述集合中的任意一个已知垃圾信息图像的压缩后形式的哈希值相同。
8.根据权利要求7所述的方法,其中所述利用有损压缩函数将所提取的垃圾信息图像压缩成是具有所述预定大小和所述预定数目颜色的颜色调色板的二进制位图的普通表示以生成所提取的垃圾信息图像的压缩后形式并由此创建已知垃圾信息图像的压缩后形式的集合的步骤进一步包括计算已知垃圾信息图像的压缩后形式的哈希值;以及
将已知垃圾信息图像的压缩后形式的哈希值存储为所述集合。
9.根据权利要求1至5中任一项所述的方法,其中所述利用有损压缩函数将所提取的垃圾信息图像压缩成是具有所述预定大小和所述预定数目颜色的颜色调色板的二进制位图的普通表示以生成所提取的垃圾信息图像的压缩后形式并由此创建已知垃圾信息图像的压缩后形式的集合的步骤进一步包括将所述已知垃圾信息图像的压缩后形式存储为所述集合,所述确定所述目标图像的压缩后形式是否与所述集合中的任意一种已知垃圾信息图像的压缩后形式相同的步骤包括比较所述目标图像的压缩后形式和所存储的所述已知垃圾信息图像的压缩后形式。
10.根据权利要求1至5中任一项所述的方法,其中,
所述方法进一步包括:
对于被确定为与所述集合中的已知垃圾信息图像之一的压缩后形式相同的所述目标图像的压缩后形式,确定未经压缩的所述目标图像的高度和宽度是否与未经压缩的已知垃圾信息图像中对应的一个垃圾信息图像的高度和宽度相似到预定程度;以及
基于从所述目标电子邮件中提取到的所述目标图像的压缩后形式被确定为与已知垃圾信息图像的压缩后形式相同以及未经压缩的所述目标图像的高度和宽度被确定为与未经压缩的已知垃圾信息图像中的一个垃圾信息图像的高度和宽度相似到预定程度,执行所述发出所述目标电子邮件嵌入了垃圾信息图像的信号的步骤。
11.根据权利要求10所述的方法,其中,
所述确定未经压缩的所述目标图像的高度和宽度是否与未经压缩的已知垃圾信息图像中对应的一个垃圾信息图像的高度和宽度相似到预定程度的步骤包括:
利用当高度和宽度处在有重叠的各个范围内时设置位屏蔽中的各个位的位屏蔽函数,获取表达未经压缩的所述目标图像的高度和宽度的位屏蔽;以及
利用存储的一组位屏蔽确定从未经压缩的所述目标图像获取的位屏蔽是否具有与从未经压缩的已知垃圾信息图像中的所述对应的一个垃圾信息图像获取的所述组中的位屏蔽共同地设置的任意位,所述存储的一组位屏蔽表达未经压缩的所述集合中的已知垃圾信息图像的高度和宽度并且是利用相同的位图函数从未经压缩的所述集合中的已知垃圾信息图像获取的。
12.根据权利要求1至5中任一项所述的方法,其中,
所述方法进一步包括:
响应于所述发出所述目标电子邮件嵌入了垃圾信息图像的信号的步骤,执行关于所述目标图像的补救动作。
13.根据权利要求1至5中任一项所述的方法,其中,
对流经网络中节点的所述目标电子邮件执行所述方法。
14.根据权利要求1至5中任一项所述的方法,其中,
所述有损压缩函数是减少应用所述有损压缩函数的图像的位的数目的取平均函数。
15.一种检测目标电子邮件中的垃圾信息图像的系统,所述系统包括:
参考数据库生成器,其包括:图像提取引擎,用来从已知垃圾信息电子邮件中提取垃圾信息图像;以及压缩单元,其利用有损压缩函数将所提取的垃圾信息图像压缩成是具有预定大小和预定数目颜色的颜色调色板的二进制位图的普通表示以生成所提取的垃圾信息图像的压缩后形式并由此创建已知垃圾信息图像的压缩后形式的集合;
图像提取引擎,用来提取所述目标电子邮件中嵌入的目标图像;
压缩单元,其利用所述有损压缩函数将所述目标图像压缩成是具有所述预定大小和所述预定数目颜色的颜色调色板的二进制位图的普通表示;
第一确定单元,用来确定所述目标图像的压缩后形式是否与所述集合中的任意一个已知垃圾信息图像的压缩后形式相同;以及
信号单元,其响应于所述第一确定单元确定从所述目标电子邮件提取到的所述目标图像的压缩后形式与已知垃圾信息图像的压缩后形式相同,发出所述目标电子邮件嵌入了垃圾信息图像的信号。
16.根据权利要求15所述的系统,其中,
所述预定大小是在400像素至22500像素的范围内。
17.根据权利要求15所述的系统,其中,
所述预定大小是在400像素至13684像素的范围内。
18.根据权利要求15所述的系统,其中,
所述预定大小是在576像素至22500像素的范围内。
19.根据权利要求15所述的系统,其中,
所述预定大小是在576像素至13684像素的范围内。
20.根据权利要求15至19中任一项所述的系统,其中,
所述颜色的预定数目是在5至24的范围内。
21.根据权利要求15至19中任一项所述的系统,其中,
所述第一确定单元通过执行如下操作来确定所述目标图像的压缩后形式是否与所述集合中的任意一个已知垃圾信息图像的压缩后形式相同:
计算所述目标图像的压缩后形式的哈希值;以及
确定所述目标图像的压缩后形式的哈希值是否与所述集合中的任意一个已知垃圾信息图像的压缩后形式的哈希值相同。
22.根据权利要求21所述的系统,其中所述参考数据库生成器进一步包括:
哈希单元,用来计算已知垃圾信息图像的压缩后形式的哈希值,并且将已知垃圾信息图像的压缩后形式的哈希值存储为所述集合。
23.根据权利要求15至19中任一项所述的系统,其中所述参考数据库生成器的所述压缩单元将所述已知垃圾信息图像的压缩后形式存储为所述集合,所述第一确定单元比较所述目标图像的压缩后形式和所存储的所述已知垃圾信息图像的压缩后形式。
24.根据权利要求15至19中任一项所述的系统,其中,
所述系统进一步包括:
第二确定单元,对于被所述第一确定单元确定为与所述集合中的已知垃圾信息图像之一的压缩后形式相同的所述目标图像的压缩后形式,确定未经压缩的所述目标图像的高度和宽度是否与未经压缩的已知垃圾信息图像中对应的一个垃圾信息图像的高度和宽度相似到预定程度;以及
响应于所述第一确定单元确定了从所述目标电子邮件中提取到的所述目标图像的压缩后形式与已知垃圾信息图像的压缩后形式相同以及所述第二确定单元确定了未经压缩的所述目标图像的高度和宽度与未经压缩的已知垃圾信息图像之一的高度和宽度相似到预定程度,所述信号单元执行发出所述目标电子邮件嵌入了垃圾信息图像的信号。
25.根据权利要求24所述的系统,其中,
所述第二确定单元通过执行如下操作来确定未经压缩的所述目标图像的高度和宽度是否与未经压缩的已知垃圾信息图像中对应的一个垃圾信息图像的高度和宽度相似到预定程度:
利用当高度和宽度处在有重叠的各个范围内时设置位屏蔽中的各个位的位屏蔽函数,获取表达未经压缩的所述目标图像的高度和宽度的位屏蔽;以及
利用存储的一组位屏蔽确定从未经压缩的所述目标图像获取的位屏蔽是否具有与从未经压缩的已知垃圾信息图像中的所述对应的一个垃圾信息图像获取的所述组中的位屏蔽共同地设置的任意位,所述存储的一组位屏蔽表达未经压缩的所述集合中的已知垃圾信息图像的高度和宽度并且是利用相同的位图函数从未经压缩的所述集合中的已知垃圾信息图像获取的。
26.根据权利要求15至19中任一项所述的系统,进一步包括:
响应于所述信号单元发出所述目标电子邮件嵌入了垃圾信息图像的信号,执行关于所述目标电子邮件的补救动作的单元。
27.根据权利要求15至19中任一项所述的系统,其中,
所述系统设置在网络中节点处,并且对流经所述节点的目标电子邮件执行操作。
28.根据权利要求15至19中任一项所述的系统,其中,
所述有损压缩函数是减少应用所述有损压缩函数的图像的位的数目的取平均函数。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0621962.0 | 2006-11-03 | ||
GB0621962A GB2443469A (en) | 2006-11-03 | 2006-11-03 | Detection of image spam |
PCT/GB2007/003739 WO2008053141A1 (en) | 2006-11-03 | 2007-10-02 | Detection of image spam |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101573956A CN101573956A (zh) | 2009-11-04 |
CN101573956B true CN101573956B (zh) | 2013-04-10 |
Family
ID=37547309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200780043462XA Expired - Fee Related CN101573956B (zh) | 2006-11-03 | 2007-10-02 | 图像垃圾信息的检测方法和系统 |
Country Status (8)
Country | Link |
---|---|
US (1) | US7817861B2 (zh) |
EP (1) | EP2080358B1 (zh) |
JP (1) | JP5121839B2 (zh) |
CN (1) | CN101573956B (zh) |
AT (1) | ATE467977T1 (zh) |
DE (1) | DE602007006538D1 (zh) |
GB (1) | GB2443469A (zh) |
WO (1) | WO2008053141A1 (zh) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8489689B1 (en) | 2006-05-31 | 2013-07-16 | Proofpoint, Inc. | Apparatus and method for obfuscation detection within a spam filtering model |
US20080109369A1 (en) * | 2006-11-03 | 2008-05-08 | Yi-Ling Su | Content Management System |
US7707224B2 (en) | 2006-11-03 | 2010-04-27 | Google Inc. | Blocking of unlicensed audio content in video files on a video hosting website |
US20080159632A1 (en) * | 2006-12-28 | 2008-07-03 | Jonathan James Oliver | Image detection methods and apparatus |
US8290203B1 (en) * | 2007-01-11 | 2012-10-16 | Proofpoint, Inc. | Apparatus and method for detecting images within spam |
US8290311B1 (en) * | 2007-01-11 | 2012-10-16 | Proofpoint, Inc. | Apparatus and method for detecting images within spam |
US7716297B1 (en) * | 2007-01-30 | 2010-05-11 | Proofpoint, Inc. | Message stream analysis for spam detection and filtering |
US8356076B1 (en) * | 2007-01-30 | 2013-01-15 | Proofpoint, Inc. | Apparatus and method for performing spam detection and filtering using an image history table |
AU2008247347A1 (en) | 2007-05-03 | 2008-11-13 | Google Inc. | Monetization of digital content contributions |
US8094872B1 (en) | 2007-05-09 | 2012-01-10 | Google Inc. | Three-dimensional wavelet based video fingerprinting |
US8612523B1 (en) * | 2007-05-22 | 2013-12-17 | Trend Micro Incorporated | Methods and apparatus for detecting botnet attacks |
US8611422B1 (en) | 2007-06-19 | 2013-12-17 | Google Inc. | Endpoint based video fingerprinting |
US20090077617A1 (en) * | 2007-09-13 | 2009-03-19 | Levow Zachary S | Automated generation of spam-detection rules using optical character recognition and identifications of common features |
US8055078B2 (en) * | 2008-02-28 | 2011-11-08 | Yahoo! Inc. | Filter for blocking image-based spam |
US20090245635A1 (en) * | 2008-03-26 | 2009-10-01 | Yehezkel Erez | System and method for spam detection in image data |
DE102008016667B3 (de) * | 2008-04-01 | 2009-07-23 | Siemens Aktiengesellschaft | Verfahren zur Detektion nahezu inhaltsgleicher oder inhaltsgleicher Bildnachrichten und dessen Verwendung zur Unterdrückung ungewollter Bildnachrichten |
US8584233B1 (en) * | 2008-05-05 | 2013-11-12 | Trend Micro Inc. | Providing malware-free web content to end users using dynamic templates |
US8086957B2 (en) * | 2008-05-21 | 2011-12-27 | International Business Machines Corporation | Method and system to selectively secure the display of advertisements on web browsers |
US9003314B2 (en) * | 2008-08-06 | 2015-04-07 | Mcafee, Inc. | System, method, and computer program product for detecting unwanted data based on an analysis of an icon |
CN101917352B (zh) * | 2010-06-12 | 2012-07-25 | 盈世信息科技(北京)有限公司 | 识别图片垃圾邮件的方法及系统 |
US8844039B2 (en) * | 2010-06-30 | 2014-09-23 | F-Secure Corporation | Malware image recognition |
CN102567319B (zh) * | 2010-12-10 | 2016-08-24 | 深圳市世纪光速信息技术有限公司 | 网页图片过滤方法及系统 |
US8023697B1 (en) * | 2011-03-29 | 2011-09-20 | Kaspersky Lab Zao | System and method for identifying spam in rasterized images |
US9219631B2 (en) | 2012-09-21 | 2015-12-22 | Kratos Integral Holdings, Llc | System and method for increasing spot beam satellite bandwidth |
US9130624B2 (en) * | 2012-09-21 | 2015-09-08 | Kratos Integral Holdings, Llc | Envelope feedback interference reduction and data throughput maximization |
US9426173B2 (en) | 2014-09-05 | 2016-08-23 | Luminoso Technologies, Inc. | System and method for elimination of spam in a data stream according to information density |
US9647846B1 (en) * | 2015-06-30 | 2017-05-09 | Symantec Corporation | Systems and methods for verifying the authenticity of graphical images |
US10708297B2 (en) | 2017-08-25 | 2020-07-07 | Ecrime Management Strategies, Inc. | Security system for detection and mitigation of malicious communications |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6631398B1 (en) * | 1999-07-12 | 2003-10-07 | Micron Technology, Inc. | Managing redundant electronic messages |
CN1467670A (zh) * | 2002-06-26 | 2004-01-14 | 带质询的垃圾邮件检测器 | |
US6732157B1 (en) * | 2002-12-13 | 2004-05-04 | Networks Associates Technology, Inc. | Comprehensive anti-spam system, method, and computer program product for filtering unwanted e-mail messages |
CN1573784A (zh) * | 2003-06-04 | 2005-02-02 | 微软公司 | 用于阻止垃圾邮件的源/目的地的特征和列表 |
CN1573783A (zh) * | 2003-06-20 | 2005-02-02 | 微软公司 | 外发垃圾邮件的阻止 |
GB2424969A (en) * | 2005-04-04 | 2006-10-11 | Messagelabs Ltd | Training an anti-spam filter |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07254065A (ja) * | 1994-03-14 | 1995-10-03 | Omron Corp | 画像検出装置および方法 |
US5898779A (en) * | 1997-04-14 | 1999-04-27 | Eastman Kodak Company | Photograhic system with selected area image authentication |
JPH10222438A (ja) | 1997-07-15 | 1998-08-21 | Omron Corp | 電子メール管理方法および装置 |
JP4626007B2 (ja) | 1999-06-14 | 2011-02-02 | 株式会社ニコン | 画像処理方法、画像処理プログラムを記録した機械読み取り可能な記録媒体、および画像処理装置 |
JP3550681B2 (ja) | 1999-12-10 | 2004-08-04 | 日本電気株式会社 | 画像検索装置及び方法、並びに類似画像検索プログラムを格納した記憶媒体 |
AUPQ518000A0 (en) | 2000-01-20 | 2000-02-10 | Odyssey Development Pty Ltd | E-mail spam filter |
JP4063486B2 (ja) | 2000-09-06 | 2008-03-19 | 日本電気株式会社 | 画像検索装置及び方法並びに画像検索プログラムを記録した記憶媒体 |
US7251347B2 (en) * | 2002-04-09 | 2007-07-31 | The Escher Group, Ltd. | System and method for authentication of a workpiece using three dimensional shape recovery |
US7043474B2 (en) | 2002-04-15 | 2006-05-09 | International Business Machines Corporation | System and method for measuring image similarity based on semantic meaning |
DE60316690T2 (de) | 2002-07-10 | 2008-07-17 | Nec Corp. | System zur bildvergleichung mit verwendung eines dreidimensionalen objectmodelles, bildvergleichverfahren und bildvergleichprogramm |
JP2004192307A (ja) | 2002-12-11 | 2004-07-08 | Seiko Epson Corp | 類似画像抽出装置、類似画像抽出方法および類似画像抽出プログラム |
JP4296032B2 (ja) * | 2003-05-13 | 2009-07-15 | 富士フイルム株式会社 | 画像処理装置 |
JP2004351100A (ja) * | 2003-05-30 | 2004-12-16 | Konica Minolta Medical & Graphic Inc | 医用画像処理システム及び医用画像処理方法 |
US7184160B2 (en) * | 2003-08-08 | 2007-02-27 | Venali, Inc. | Spam fax filter |
US7930351B2 (en) | 2003-10-14 | 2011-04-19 | At&T Intellectual Property I, L.P. | Identifying undesired email messages having attachments |
US20050216564A1 (en) * | 2004-03-11 | 2005-09-29 | Myers Gregory K | Method and apparatus for analysis of electronic communications containing imagery |
JP2005293123A (ja) * | 2004-03-31 | 2005-10-20 | Nippon Telegraph & Telephone West Corp | コンテンツフィルタリングシステム、その方法およびプログラム |
US20090100523A1 (en) * | 2004-04-30 | 2009-04-16 | Harris Scott C | Spam detection within images of a communication |
JP4446383B2 (ja) | 2004-08-12 | 2010-04-07 | Kddi株式会社 | 画像処理装置および画像認識装置 |
US7813552B2 (en) | 2004-09-23 | 2010-10-12 | Mitsubishi Denki Kabushiki Kaisha | Methods of representing and analysing images |
JP2006115406A (ja) | 2004-10-18 | 2006-04-27 | Omron Corp | 撮像装置 |
US20060123083A1 (en) | 2004-12-03 | 2006-06-08 | Xerox Corporation | Adaptive spam message detector |
-
2006
- 2006-11-03 GB GB0621962A patent/GB2443469A/en not_active Withdrawn
- 2006-12-11 US US11/636,713 patent/US7817861B2/en not_active Expired - Fee Related
-
2007
- 2007-10-02 DE DE602007006538T patent/DE602007006538D1/de active Active
- 2007-10-02 JP JP2009535108A patent/JP5121839B2/ja not_active Expired - Fee Related
- 2007-10-02 WO PCT/GB2007/003739 patent/WO2008053141A1/en active Application Filing
- 2007-10-02 AT AT07823996T patent/ATE467977T1/de not_active IP Right Cessation
- 2007-10-02 CN CN200780043462XA patent/CN101573956B/zh not_active Expired - Fee Related
- 2007-10-02 EP EP07823996A patent/EP2080358B1/en not_active Not-in-force
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6631398B1 (en) * | 1999-07-12 | 2003-10-07 | Micron Technology, Inc. | Managing redundant electronic messages |
CN1467670A (zh) * | 2002-06-26 | 2004-01-14 | 带质询的垃圾邮件检测器 | |
US6732157B1 (en) * | 2002-12-13 | 2004-05-04 | Networks Associates Technology, Inc. | Comprehensive anti-spam system, method, and computer program product for filtering unwanted e-mail messages |
CN1573784A (zh) * | 2003-06-04 | 2005-02-02 | 微软公司 | 用于阻止垃圾邮件的源/目的地的特征和列表 |
CN1573783A (zh) * | 2003-06-20 | 2005-02-02 | 微软公司 | 外发垃圾邮件的阻止 |
GB2424969A (en) * | 2005-04-04 | 2006-10-11 | Messagelabs Ltd | Training an anti-spam filter |
Non-Patent Citations (2)
Title |
---|
Aradhye, H.B. etc..Image Analysis for Efficient Categorization of Image-based Spam E-mail.《Document Analysis and Recognition, 2005. Proceedings. Eighth International Conference on》.2005,第2卷914-918. * |
JP特開平10-222438A 1998.08.21 |
Also Published As
Publication number | Publication date |
---|---|
US7817861B2 (en) | 2010-10-19 |
EP2080358B1 (en) | 2010-05-12 |
DE602007006538D1 (de) | 2010-06-24 |
JP5121839B2 (ja) | 2013-01-16 |
GB2443469A (en) | 2008-05-07 |
ATE467977T1 (de) | 2010-05-15 |
JP2010511211A (ja) | 2010-04-08 |
US20080127340A1 (en) | 2008-05-29 |
GB0621962D0 (en) | 2006-12-13 |
CN101573956A (zh) | 2009-11-04 |
EP2080358A1 (en) | 2009-07-22 |
WO2008053141A1 (en) | 2008-05-08 |
WO2008053141A8 (en) | 2009-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101573956B (zh) | 图像垃圾信息的检测方法和系统 | |
CA2626068C (en) | Method and system for detecting undesired email containing image-based messages | |
CN108833186B (zh) | 一种网络攻击预测方法及装置 | |
CN107967475A (zh) | 一种基于窗口滑动和卷积神经网络的验证码识别方法 | |
KR102093275B1 (ko) | 악성코드 감염 유도정보 판별 시스템, 프로그램이 기록된 저장매체 및 방법 | |
CN103095672A (zh) | 多维声誉评分 | |
CN109858248A (zh) | 恶意Word文档检测方法和装置 | |
CN113408281B (zh) | 邮箱账号异常检测方法、装置、电子设备及存储介质 | |
US20080159585A1 (en) | Statistical Categorization of Electronic Messages Based on an Analysis of Accompanying Images | |
CN108446543B (zh) | 一种邮件处理方法、系统及邮件代理网关 | |
Biggio et al. | Image Spam Filtering by Content Obscuring Detection. | |
Das et al. | Analysis of an image spam in email based on content analysis | |
CN110532772B (zh) | 文件检测方法、模型、设备及计算机可读存储介质 | |
Berg et al. | Searching for Hidden Messages: Automatic Detection of Steganography. | |
Dhavale | Advanced image-based spam detection and filtering techniques | |
Dhah et al. | Spam email image classification based on text and image features | |
CN115396184A (zh) | 邮件的检测方法及装置、非易失性存储介质 | |
Chowdhury et al. | Image spam classification using neural network | |
He et al. | A simple method for filtering image spam | |
Youn et al. | Improved spam filter via handling of text embedded image e-mail | |
Wan et al. | Spam detection using Sobel operators and OCR | |
Fan et al. | Capacity and reliability of digital watermarking | |
EP3668021B1 (en) | A method of, and a device for, recognizing similarity of e-mail messages | |
Wan et al. | Multiple filters of spam using sobel operators and OCR | |
Hidayasari et al. | Steganalysis Using Yedrodj-net net's Convolutional Neural Networks (CNN) Method on Steganography Tools |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130410 Termination date: 20161002 |