CN102368299A - 用于识别光栅化图像中电子垃圾的系统及方法 - Google Patents

用于识别光栅化图像中电子垃圾的系统及方法 Download PDF

Info

Publication number
CN102368299A
CN102368299A CN2011102922240A CN201110292224A CN102368299A CN 102368299 A CN102368299 A CN 102368299A CN 2011102922240 A CN2011102922240 A CN 2011102922240A CN 201110292224 A CN201110292224 A CN 201110292224A CN 102368299 A CN102368299 A CN 102368299A
Authority
CN
China
Prior art keywords
image
objects
profile
inclination angle
gray scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011102922240A
Other languages
English (en)
Other versions
CN102368299B (zh
Inventor
叶夫根尼·P·斯米尔诺夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kaspersky Lab AO
Original Assignee
Kaspersky Lab AO
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kaspersky Lab AO filed Critical Kaspersky Lab AO
Publication of CN102368299A publication Critical patent/CN102368299A/zh
Application granted granted Critical
Publication of CN102368299B publication Critical patent/CN102368299B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/80Recognising image objects characterised by unique random patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/182Extraction of features or characteristics of the image by coding the contour of the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明披露了用于检测光栅图像中电子垃圾的系统、方法和计算机程序产品。在一个示范性实施例中,该方法包括识别光栅图像中的对象;跟踪被识别出的对象的轮廓;计算对象轮廓上多个点处切线的倾角角度;基于计算出的倾角角度确定该对象轮廓的一个或多个属性,包括轮廓的线段长度、线段之间的角度、轮廓的弧线长度和弧线曲率半径;生成包含该对象轮廓的一个或多个属性的对象特征;将所述图像的对象特征与已知垃圾图像特征加以比较;以及如果与所述已知垃圾图像特征基本相似的对象特征的数目超过预设的阈值,则确定所述图像包含电子垃圾。

Description

用于识别光栅化图像中电子垃圾的系统及方法
技术领域
本发明总的来讲涉及计算机科学领域,且尤其涉及用于识别图像中电子垃圾(spam)的系统、方法和计算机程序产品。
背景技术
随着基于非应邀电子邮件(unsolicited email)的产品和服务广告日益增加,对通过通信网络接收到的email消息中的电子垃圾加以识别成为十分紧迫的问题。有许多不同的用于识别普通文本消息中电子垃圾的技术方案,但对于嵌入到图像中的文本电子垃圾以及垃圾图像(spam image),诸如非应邀产品、服务等的图像来说,识别电子垃圾的任务则困难得多。基于图像的电子垃圾之所以难以识别,是因为电子垃圾检测系统必须首先识别图像中的文本然后才能确定是否可将该文本归类为电子垃圾。对于图像中不存在文本的情况,监测系统必须识别图像本身是否为电子垃圾。已知的用于识别图像中电子垃圾的方案都有大量缺陷,诸如由算法复杂性和电子垃圾检测过程中的大量错误所导致的执行速度过慢。因此,需要更加高效和有效的机制来检测图像中的电子垃圾。
发明内容
本发明披露了用于检测光栅图像中电子垃圾的系统、方法和计算机程序产品。
在一个示范性实施例中,该方法包括接收图像进行处理。如果该图像为矢量(vector)格式,可将其转化为光栅格式。如果该图像为多颜色格式,可将其转化为灰度格式。随后,识别所述光栅图像中的一个或多个对象,包括文本和图形对象。对于过小的对象,例如直径很小的像素,可不进行进一步的处理。随后,跟踪剩余对象的轮廓。可采用下列方式来实现轮廓跟踪:将背景识别为具有第一灰度的多个像素,识别具有第二灰度的一个或多个像素,在具有第二灰度的第一像素处定义对象轮廓,并且沿着与所述背景像素相邻的、具有第二灰度的像素的方向反复扩展所述对象的轮廓。
一旦所述对象的轮廓跟踪完成,可生成对象特征。对象特征识别出构成所述轮廓的图形属性,例如包括所述轮廓的直线段长度、线段之间的角度、弧线长度、弧线的曲率半径以及其它图形要素。这些属性可以被确定,例如通过在多个所选轮廓点处构建切线、计算该切线相对于水平线的倾角角度并基于计算出的倾角角度确定对象轮廓的属性。随后将该对象特征与已知的电子垃圾特征加以比较以确定接收到的图片是否包含电子垃圾。如果与所述已知电子垃圾特征基本相似的对象特征的数目超过预设的阈值,得到该图像包含电子垃圾的结论。否则,得到该图像不包含电子垃圾的结论且图像处理结束。
以上对本发明示范性实施例的简要概括用于提供对这类实施例的基本理解。此概括并不是本发明设想的所有方面的宽泛概述,并且既不意图确定所有实施例的重要或关键要素也不意图限制任何或所有实施例的范围。其唯一的目的在于简要地提出一个或多个方面的一些构思来作为下面更为详细的描述的前序。为了实现前述的以及相关的目的,一个或多个实施例包括将在下面充分描述且在权利要求书中特别指出的特征。下面的描述和附图详细地阐述了一个或多个实施例的某些示范性特征。但是,这些特征仅表示其中可以采用各个方面的原理的各种方式中的一些,并且此描述意图包括所有这样的方面及其等同物。
附图说明
附图并入说明书中并构成说明书的一部分,示出了本发明的一个或多个示范性实施例,与详细描述一起用于解释本申请实施例的原理和实施方式。
附图中:
图1示出了一种示例性计算机系统,用于实现本发明所披露的用于图像电子垃圾检测的技术;
图2为根据一个示范性实施例,用于图像电子垃圾检测的算法流程图;
图3示出了包含电子垃圾的图像的示例;
图4显示了偏暗阈值选定后,一幅包含电子垃圾的图像的变色示例;
图5显示了图4所示图像的局部放大;
图6显示了偏亮阈值选定后,一幅包含电子垃圾的图像的变色示例;
图7显示了图6所示图像的局部放大;
图8a和图8b示出了光栅变色为黑白以及使用附带轮廓清晰度选择的灰度图像的示例;
图9示出了构建对象周围轮廓的示例;
图10显示了根据一个示范性实施例的用于跟踪对象轮廓的算法;
图11显示了图10中算法的执行示例;
图12为一个示例,示出了一定数量的形状,这些形状将被认为是同一形状;
图13示出了所生成的图像特征与已知垃圾图像对象特征的比较;
图14示出了包含电子垃圾的图形图像的示例;
图15显示了同一图像,其中使用本申请所披露的技术来检测其电子垃圾对象。
具体实施方式
在本申请中,将围绕用于识别光栅图像中电子垃圾的系统、方法和计算机程序产品来描述示范性实施例。本领域普通技术人员应认识到,下面的描述仅仅是示例性的而并非意图进行任何方式的限定。受益于本申请的本领域的技术人员将容易获得其他实施例的启示。现在,将更为详细地描述如附图中所示的示范性实施例的实施方式。贯穿全部附图以及下列描述,相同的附图标记将尽可能用于表示相同或相似的对象。
图1描绘出了计算机系统5的一个示范性实施例,该计算机系统5可以实现本申请所披露的用于检测光栅图像中电子垃圾的技术。计算机5可包括服务器、个人计算机(PC)、个人数字助理(PDA)、便携式计算机(laptop)、小型计算机(laptop)以及任何其他现有、新兴和将来连接到计算机网络的计算设备。如图所示,计算机系统5包括通过系统总线10连接的CPU 15、系统存储器(system memory)20、硬盘驱动器30、光盘驱动器35、串行接口40、图形卡45、声卡50以及网卡55。系统总线10可以是若干种总线结构中的任何一种,所述总线结构包括使用多种已知总线架构中的任何一种的存储器总线或存储器控制器、外设总线和局部总线。处理器15可包括Intel® Core 2 Quad 2.33 GHz处理器或其他类型的微处理器。
系统存储器20包括只读存储器(ROM)21和随机存取存储器(RAM)23。存储器20可以实现于DRAM(动态RAM)、EPROM、EEPROM、闪存或其他类型的存储器架构中。ROM 21存储基本输入/输出系统22(BIOS),包含在计算机系统5的组件之间帮助传递信息的基本例程,例如启动过程。RAM 23存储操作系统24(OS),例如Windows® Vista®或者其他类型的OS,所述操作系统24负责计算机系统5中进程的管理和协调以及硬件资源的分配和共享。系统存储器20还存储当前运行于计算机5上的应用程序和程序25。系统存储器20还存储程序25所使用的各种运行时(runtime)数据26。
计算机系统5可进一步包括硬盘驱动器30,例如500GB SATA磁盘驱动器,以及用于对可移除光盘进行读取或写入的光盘驱动器35,例如CD-ROM、DVD-ROM或其他光学介质。驱动器30和35及其关联的计算机可读介质为实现本申请所披露的算法和方法的计算机可读指令、数据结构、应用程序和程序模块/子例程提供非易失性存储。虽然示范性计算机系统5使用磁盘和光盘,但本领域技术人员应当理解的是,在计算机系统的替代实施例中,还可以使用能够对可由计算机系统5存取的数据加以存储的其他类型的计算机可读介质,例如磁带、闪存卡、数字视频光盘、RAM、ROM、EPROM以及其他类型的存储器。
计算机系统5进一步包括多个串行端口40,例如通用串行总线(USB),用于连接诸如键盘、鼠标、触摸板等数据输入设备75。串行端口40还可用于连接诸如打印机、扫描仪等数据输出设备80以及诸如外部数据存储设备等其他外围设备85。计算机系统5还可包括图形卡45,例如nVidia® GeForce® GT 240M或其他视频卡,用于与监视器60或其他视频再现设备接口。计算机系统5还可包括声卡50,用于经由内部或外部扬声器65再现声音。此外,计算机系统5还可包括网卡55,例如以太网、WiFi、GSM、蓝牙或用于将计算机系统5连接到如因特网的网络70的其他有线、无线或蜂窝网络接口。
图2显示了根据一示范性实施例,可在计算机系统5中实现的、用于检测光栅化图像中电子垃圾的算法流程图。在步骤201,计算机系统接收光栅化的(rasterized,以下将简称为“光栅(raster)”)图像。例如,该图像可提取自从网络70接收到的email消息。在接收到的图像为矢量格式的情况下,首先通过被称为光栅化(rasterization)的过程将其转化为光栅格式(换句话说,实质上,转换为位图类型的图像)。计算机系统5可使用例如GNU libxmi库等来执行图像光栅化。一般来说,在矢量图像的光栅化过程中,具有特定大小和比例的图形被画在光栅上从而生成光栅图像。
如果该光栅图像是彩色的,在步骤202可使用已知技术将其转化为灰度格式。本领域技术人员容易理解,使用灰度图像转化代替双色(例如,黑白)转化具有某些优势。例如,如通过引用方式全文并入本申请的、专利号为7,706,613、7,706,614和7,711,192的美国专利所披露的,在双色转化过程中,可根据计算出的第一灰度级与所找到的质心之间的距离来设置黑白(black-and-white)阈值。然而,如果灰度等级有所不同,则最终双色(黑白)图像可能与原始图像出入很大。例如,如果灰度等级过暗,则在黑白图像中某些字母可能“挤在一起”,或者一个字符可能重叠在另外一个上面。如果灰度等级过亮,许多字母和字符可能“分解”,例如字母“W”将变成两个“V”。另外,当图像不同部分具有不同颜色和字体的文字时,可能有必要在黑白图像转化过程中为每个字符选择轮廓清晰度。
图3至图7示出了上述双色(黑白)图像转化问题的示例。图3描绘了一个作为样本的初始图像。如果用于将图像转化为双色的选定变色阈值(即,灰度等级)过暗,则初始的光栅化图像可变色如图4所示。如图5所示,其为图4中部分文字的稍微放大,在此情况下某些字母已经挤在一起。如果变色阈值过亮,则初始的图像可变色如图6所示。图7示出了图6中的一小部分文字,其示例性说明了字母的“分解”。
由于在步骤202将初始光栅图像转化为灰度格式,不需要像黑白图像转化过程中那样选择变色阈值,因此避免了上述与变色阈值的错误选择相关的问题。取而代之的,在步骤202从光栅图像到灰度格式的转化过程中,可使用已知技术来仅仅甄选预期轮廓清晰度。已经通过实验方法证明甄选清晰度所存在的问题远远少于选择整个光栅的变色度。图8a和8b分别示出了光栅图像到黑白图像的变色示例和使用如本申请步骤202所能实现的、甄选轮廓清晰度的灰度图像的示例。
重新参考图2,在步骤203识别图像上的一个或多个对象。在一个示范性实施例中,为了识别图像中的对象,首先要使用例如灰度图像的直方图(histogram)来识别背景颜色。可将最占据主导地位的灰度作为背景“色”;并且将所有具有这一灰度的像素视为背景,与此同时所有其他像素组与文本或图形对象相关。在替代性实施例中,可以采用其他已知的对象检测技术。
如美国专利7,706,613、7,706,614 和7,711, 192所披露的,过大的对象(例如大的图形图像)和过小的对象(例如噪声、标点符号等)可被舍弃。然而,这可能导致对包含较大文本和图片的电子垃圾的检测失败。为了克服这一问题,本算法并不舍弃不能被认为是字符的过大对象。只有相当小的对象(例如仅仅几个像素的见方,诸如2×2像素或3×3像素)可被舍弃而不再加以考虑。
在步骤204,如图9所示,对每一个对象的轮廓进行跟踪。为了跟踪对象轮廓,首先识别对象与背景的边界。具体而言,对于碰到的有可能属于该对象的像素,或者说具有不同于背景的灰度的像素,本算法对相邻像素进行检查。如果当前像素一侧的相邻像素的灰度与当前像素基本相同,同时另一侧的相邻像素与背景灰度相同,则当前像素被认为是轮廓像素,并选择当前像素下面的一个像素用于下一次处理。该算法如图9所示进行,以跟踪对象的轮廓。
在步骤205,可基于多个轮廓点的属性来生成对象特征。一个用于轮廓属性收集的示例性算法如图10所示。在步骤1001,选择轮廓上可能包括一个或多个相邻像素的点。在步骤1002为所选轮廓点绘制切线。该切线可在指定数量的像素范围内延续,向后和向前与沿该轮廓移动的顺序相关。在步骤1003,确定该切线相对于水平线的倾角角度。在一个示范性实施例中,可使用相邻点处切线的倾角角度值的变化或者偏差来确定这些点所形成的几何形状。为此,在步骤1004该算法确定相邻点的倾角角度的偏差是否为零,为零则意味着轮廓上的点形成直线段。在步骤1005可计算该线段的长度。在步骤1006,该算法确定多个相邻点的倾角角度的偏差是否基本恒定,基本恒定则意味着轮廓上的点形成弧线。在步骤1007可计算该弧线的长度和其曲率半径。在步骤1008一旦所有被选择的轮廓点均已得到处理,则在步骤1009收集计算出的轮廓属性来生成对象特征。在一个示范性实施例中,对象特征可包括但不限于与线段长度、线段之间的角度、弧线长度和各弧线曲率半径有关的信息。
上述轮廓跟踪算法的一个示范性实施例如图11所示,用于一个斯拉夫单词“Женя”。如图所示,已跟踪该单词每个字母的轮廓并且为轮廓上所选点分配指示在每个所选轮廓点处切线倾角角度的数字。基于所收集的角度信息,该算法将为每个字母创建对象特征。在一个示范性实施例中,该对象特征可包含线段长度、线段之间的角度、弧线长度和各弧线曲率半径。如本申请所述,可将对象特征用于任何对象的检测,包括非常复杂的对象诸如面部特征以及初始对象的放大、缩小、延展或旋转形式。图12为一个示例,示出了数字“5”的各种变形/旋转形状,通过与系统所存储的数字“5”的特征加以比较其将得以被正确识别。
在步骤206一旦光栅图像中所有识别出的对象均被处理,则在步骤207可通过组合对象特征来构建整个光栅图像的特征。必须指出在这种情况下对象为图形对象,而非对字母和字符的解释。然而,根据各种替代性实施例,有可能使用美国专利7,706,613、7,706,614 和7,711, 192所描述的文本检测方法或者其他已知的光学字符识别(optical character recognition,OCR)技术来检测光栅图像中的文本。
接下来,在步骤208,将所产生的光栅图像的图像特征与已知的垃圾图像特征加以比较以确定该光栅图像是否包含电子垃圾。为此,根据一个实施例,计算机系统5可维护包含已知垃圾图像特征的本地数据存储区,该已知垃圾图像包括文本和图形图像。该垃圾图像特征可包括各种电子垃圾对象的特征,例如包括电子垃圾对象轮廓的直线段的长度、直线段之间的角度、弧线的长度、弧线的曲率半径以及电子垃圾对象轮廓的其他图形要素。可采用与新的电子垃圾特征有关的信息对该本地数据存储区进行周期性更新,该与新的电子垃圾特征有关的信息来自于可信赖服务提供商所维护的远程全局数据库。或者,该计算机系统5并不维护一个电子垃圾特征的本地数据存储区,而是进行远程垃圾图像服务查询,该远程垃圾图像服务确定所处理的光栅图像是否包含电子垃圾。
图13具体示出了特征比较过程的一个示范性实施例。如图所示,在步骤1301选择光栅图像的一个对象。在步骤1302将所选对象的特征与已知电子垃圾对象的特征加以比较。在步骤1303如果基于比较结果识别该对象为电子垃圾,则在步骤1304增加电子垃圾权重(spam weight)。例如,包含与性有关的对象或者包含被列入黑名单的超链接地址对象的图像可被赋予100%的电子垃圾权重。其他的对象可被赋予较低的电子垃圾权重。在步骤1305如果最终的电子垃圾权重超过指定的阈值,则在步骤1306宣告该图像为电子垃圾。在步骤1305如果整个图像的电子垃圾权重低于阈值,则对其他对象的特征进行电子垃圾检查。在步骤1307如果已检查了所有对象且电子垃圾权重仍然低于设定的阈值,则在步骤1308宣告该光栅图像并非电子垃圾。
在一个示范性实施例中,在步骤1302可通过比较形成对象轮廓的要素组来实现对象特征的比较:线段之间的角度、直线段的长度、弧线长度和弧线曲率半径等等。由于很多相似对象可能具有同一要素组,根据一个示范性实施例可采用模糊比较来进行相似组的比较。如果在要素之间(例如线段的长度之间和角度之间)存在微小区别,模糊比较认为对象相同。图14示出了包含电子垃圾的一幅图形图像。该图像包含少量但字体很大的文本和多个鞋的图形要素。现有技术中用于检测电子垃圾的方法是针对电子垃圾文本的检测,由于在该图像中只有少量文本,因此可能无法识别出这幅图像是电子垃圾。图15描绘了同一幅图像,采用本申请所披露的轮廓跟踪和对象特征比较技术进行分析,其中所有对象,包括文本和图像,均被正确识别为电子垃圾。
在步骤209主算法输出该图像是否为电子垃圾的结论后,主算法结束。基于该主算法的结论,计算机系统5可决定是否删除包含检测出的垃圾图像的email消息、隔离可疑email或者将无垃圾的email传送给用户。
在各种实施例中,这里所描述的算法和方法可以实现于硬件、软件、固件或其任一组合中。如果实施于软件中,则功能可以作为非暂时性计算机可读介质上的一个或多个指令或代码来进行存储或传送。计算机可读介质既包括计算机存储介质也包括通信介质,所述通信介质包括便于将计算机程序从第一个地方传送到另一个地方的任一介质。存储介质可以是可由计算机存取的任何可用的介质。作为示例而非限制,这类计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁性存储设备、或者可用于装载或存储所需程序代码的任一其他介质,这些程序代码为指令或数据结构的形式且可由计算机存取。此外,可以将任何连接定义为计算机可读介质。例如,如果利用同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或诸如红外、射频和微波这类无线技术从网站、服务器或其他远程信源(source)发送软件,则同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或诸如红外、射频和微波这类无线技术被包括在介质的定义内。磁盘和光盘,如这里所使用的,包括压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘和Blu-ray®光盘,其中,磁盘通常磁性地再现数据,而光盘通常利用激光光学地再现数据。以上这些的组合也应当包括在计算机可读介质的范围内。
为了清楚起见,这里所描述的实施方式的常规特征并未全部示出和描述。应予认识到的是,在任何这类实际的实施方式的开发中,为了达到开发者的特定目标例如符合与应用程序相关的制约,必须做出大量实施方式特定的决策,以及这些特定目标将根据不同的实施方式和不同的开发者而改变。而且,应予认识到的是,这类开发工作可能是复杂和耗时的,但不论如何,对于受益于本申请的本领域一般技术人员而言,都将是常规的工程任务。
此外,要理解的是,这里所使用的措辞或术语仅为了说明而非限制,这样,本说明书的术语或措辞将由本领域技术人员鉴于这里所给出的教导并结合相关领域的技术人员的知识予以解释。而且,除非如此明确地予以阐述,否则说明书或权利要求书中的任何术语都并非意图表示不常见的或特殊的意思。这里所披露的各种实施例囊括了本申请中用于说明而涉及的已知构成要素的现在和将来的已知等同物。此外,虽然已经示出和描述了这些实施例及应用,但对于受益于本申请的本领域技术人员而言显而易见的是,在不脱离本申请中所披露的申请构思的情况下,比上面提及的更多的修改例都是可能的。

Claims (20)

1.一种计算机实现的用于识别图像中电子垃圾的方法,包括:
识别所述图像中的一个或多个对象,包括文本和图形对象;
跟踪一个或多个被识别出的对象的轮廓;
计算对象轮廓上多个点处切线的倾角角度;
基于所述倾角角度确定所述对象轮廓的一个或多个属性,包括所述轮廓的线段长度、所述轮廓的线段之间的角度、所述轮廓的弧线长度和所述轮廓的弧线曲率半径;
生成包含所述对象轮廓的一个或多个属性的对象特征;
将所述图像的一个或多个对象的特征与已知电子垃圾特征加以比较;
如果与所述已知电子垃圾特征基本相似的对象特征的数目超过预设的阈值,则确定所述图像包含电子垃圾。
2.如权利要求1所述的方法,进一步包括在识别所述图像中的多个对象之前,将所述图像从矢量格式转化为光栅格式。
3.如权利要求1所述的方法,进一步包括在识别所述图像中的多个对象之前,将所述图像从多颜色格式转化为灰度格式。
4.如权利要求1所述的方法,其中识别所述图像中的一个或多个对象进一步包括排除所述图像中的一个或多个小型对象。
5.如权利要求1所述的方法,其中跟踪图像轮廓包括:
将背景识别为具有第一灰度的多个像素;
识别具有第二灰度的一个或多个像素;
将所述轮廓定义为具有所述第二灰度的第一像素;以及
沿着与所述背景像素相邻的、具有第二灰度的像素的方向反复扩展所述对象的轮廓。
6.如权利要求1所述的方法,其中计算在对象轮廓上多个点处切线的倾角角度包括:
选择所述对象轮廓上的点;
构建所选点处的切线;以及
计算所述切线相对于水平线的倾角角度。
7.如权利要求1所述的方法,其中基于所述倾角角度确定所述对象轮廓的一个或多个属性包括:
确定所述对象轮廓上两个或两个以上相邻点处切线的倾角角度值的偏差;以及
如果所述偏差基本为零,则所述两个或两个以上相邻点形成直线段,并计算所述线段的长度;
如果所述偏差基本恒定,则所述两个或两个以上相邻点形成弧线,并计算所述弧线的长度和曲率半径。
8.一种用于识别图像中电子垃圾的系统,包括:
存储器,被配置为存储图像;以及
与所述存储器耦合的处理器,所述处理器被配置为:
识别所述图像中的一个或多个对象,包括文本和图形对象;
跟踪一个或多个被识别出的对象的轮廓;
计算对象轮廓上多个点处切线的倾角角度;
基于所述倾角角度确定所述对象轮廓的一个或多个属性,包括所述轮廓的线段长度、所述轮廓的线段之间的角度、所述轮廓的弧线长度和所述轮廓的弧线曲率半径;
生成包含所述对象轮廓的一个或多个属性的对象特征;
将所述图像的一个或多个对象的特征与已知电子垃圾特征加以比较;
如果与所述已知电子垃圾特征基本相似的对象特征的数目超过预设的阈值,则确定所述图像包含电子垃圾。
9.如权利要求8所述的系统,其中所述处理器进一步被配置为在识别所述图像中的多个对象之前,将所述图像从矢量格式转化为光栅格式。
10.如权利要求8所述的系统,其中所述处理器进一步被配置为在识别所述图像中的多个对象之前,将所述图像从多颜色格式转化为灰度格式。
11.如权利要求8所述的系统,其中为了识别所述图像中的一个或多个对象,所述处理器进一步被配置为排除所述图像中的一个或多个小型对象。
12.如权利要求8所述的系统,其中为了跟踪图像轮廓,所述处理器进一步被配置为:
将背景识别为具有第一灰度的多个像素;
识别具有第二灰度的一个或多个像素;
将所述轮廓定义为具有所述第二灰度的第一像素;以及
沿着与所述背景像素相邻的、具有第二灰度的像素的方向反复扩展所述对象的轮廓。
13.如权利要求8所述的系统,其中为了计算在对象轮廓上多个点处切线的倾角角度,所述处理器进一步被配置为:
选择所述对象轮廓上的点;
构建所选点处的切线;以及
计算所述切线相对于水平线的倾角角度。
14.如权利要求8所述的系统,其中为了基于所述倾角角度确定所述对象轮廓的一个或多个属性,所述处理器进一步被配置为:
确定所述对象轮廓上两个或两个以上相邻点处切线的倾角角度值的偏差;以及
如果所述偏差基本为零,则所述两个或两个以上相邻点形成直线段,并计算所述线段的长度;
如果所述偏差基本恒定,则所述两个或两个以上相邻点形成弧线,并计算所述弧线的长度和曲率半径。
15.一种内嵌于非暂时性计算机可读存储介质中的计算机程序产品,所述计算机可读存储介质包括用于识别图像中电子垃圾的计算机可执行指令,所述介质包括指令用于:
识别所述图像中的一个或多个对象,包括文本和图形对象;
跟踪一个或多个被识别出的对象的轮廓;
计算对象轮廓上多个点处切线的倾角角度;
基于所述倾角角度确定所述对象轮廓的一个或多个属性,包括所述轮廓的线段长度、所述轮廓的线段之间的角度、所述轮廓的弧线长度和所述轮廓的弧线曲率半径;
生成包含所述对象轮廓的一个或多个属性的对象特征;
将所述图像的一个或多个对象的特征与已知电子垃圾特征加以比较;
如果与所述已知电子垃圾特征基本相似的对象特征的数目超过预设的阈值,则确定所述图像包含电子垃圾。
16.如权利要求15所述的介质,进一步包含指令用于在识别所述图像中的多个对象之前,将所述图像从矢量格式转化为光栅格式。
17.如权利要求15所述的计算机程序产品,进一步包含指令用于在识别所述图像中的多个对象之前,将所述图像从多颜色格式转化为灰度格式。
18.如权利要求15所述的介质,其中用于跟踪图像轮廓的指令包括指令用于:
将背景识别为具有第一灰度的多个像素;
识别具有第二灰度的一个或多个像素;
将所述轮廓定义为具有所述第二灰度的第一像素;以及
沿着与所述背景像素相邻的、具有第二灰度的像素的方向反复扩展所述对象的轮廓。
19.如权利要求15所述的介质,其中用于计算在对象轮廓上多个点处切线的倾角角度的指令包括指令用于:
选择所述对象轮廓上的点;
构建所选点处的切线;以及
计算所述切线相对于水平线的倾角角度。
20.如权利要求15所述的介质,其中用于基于所述倾角角度确定所述对象轮廓的一个或多个属性的指令包括指令用于:
确定所述对象轮廓上两个或两个以上相邻点处切线的倾角角度值的偏差;以及
如果所述偏差基本为零,则所述两个或两个以上相邻点形成直线段,并计算所述线段的长度;
如果所述偏差基本恒定,则所述两个或两个以上相邻点形成弧线,并计算所述弧线的长度和曲率半径。
CN201110292224.0A 2011-03-28 2011-09-30 用于识别光栅化图像中电子垃圾的系统及方法 Active CN102368299B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2011111601 2011-03-28
RU2011111601/08A RU2453919C1 (ru) 2011-03-28 2011-03-28 Способ выявления спама в растровом изображении

Publications (2)

Publication Number Publication Date
CN102368299A true CN102368299A (zh) 2012-03-07
CN102368299B CN102368299B (zh) 2014-07-30

Family

ID=44117953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110292224.0A Active CN102368299B (zh) 2011-03-28 2011-09-30 用于识别光栅化图像中电子垃圾的系统及方法

Country Status (3)

Country Link
EP (1) EP2509029A1 (zh)
CN (1) CN102368299B (zh)
RU (1) RU2453919C1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095889A (zh) * 2014-04-22 2015-11-25 阿里巴巴集团控股有限公司 特征提取、字符识别、引擎生成、信息确定方法及装置
CN107643084A (zh) * 2016-07-21 2018-01-30 阿里巴巴集团控股有限公司 提供数据对象信息、实景导航方法及装置
CN117475438A (zh) * 2023-10-23 2024-01-30 北京点聚信息技术有限公司 基于ocr技术的扫描文件矢量化转换方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019119047A1 (en) * 2017-12-21 2019-06-27 Tiliter Pty Ltd A retail checkout terminal fresh produce identification system
RU2708504C1 (ru) * 2018-10-02 2019-12-09 Автономная некоммерческая образовательная организация высшего образования "Сколковский институт науки и технологий" Способ обучения системы распознавания товаров на изображениях

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7831098B2 (en) * 2006-11-07 2010-11-09 Recognition Robotics System and method for visual searching of objects using lines
EP2275972A1 (en) * 2009-07-06 2011-01-19 Kaspersky Lab Zao System and method for identifying text-based spam in images

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2203294B1 (es) * 2001-09-28 2005-06-01 Global Standards, S.L. Sistema de emisoras y dispositivos de captacion y fidelizacion de audiencia radiofonica remotamente configurables.
US6993534B2 (en) * 2002-05-08 2006-01-31 International Business Machines Corporation Data store for knowledge-based data mining system
US7249162B2 (en) * 2003-02-25 2007-07-24 Microsoft Corporation Adaptive junk message filtering system
US7472275B2 (en) * 2003-06-13 2008-12-30 Michael Arnouse System and method of electronic signature verification
US7706613B2 (en) 2007-08-23 2010-04-27 Kaspersky Lab, Zao System and method for identifying text-based SPAM in rasterized images
US7711192B1 (en) 2007-08-23 2010-05-04 Kaspersky Lab, Zao System and method for identifying text-based SPAM in images using grey-scale transformation
RU2363047C1 (ru) * 2007-10-31 2009-07-27 ЗАО "Лаборатория Касперского" Способ обнаружения текста в растровом изображении (варианты) и способ выявления спама, содержащего растровые изображения

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7831098B2 (en) * 2006-11-07 2010-11-09 Recognition Robotics System and method for visual searching of objects using lines
EP2275972A1 (en) * 2009-07-06 2011-01-19 Kaspersky Lab Zao System and method for identifying text-based spam in images

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095889A (zh) * 2014-04-22 2015-11-25 阿里巴巴集团控股有限公司 特征提取、字符识别、引擎生成、信息确定方法及装置
CN105095889B (zh) * 2014-04-22 2018-12-07 阿里巴巴集团控股有限公司 特征提取、字符识别、引擎生成、信息确定方法及装置
CN107643084A (zh) * 2016-07-21 2018-01-30 阿里巴巴集团控股有限公司 提供数据对象信息、实景导航方法及装置
CN117475438A (zh) * 2023-10-23 2024-01-30 北京点聚信息技术有限公司 基于ocr技术的扫描文件矢量化转换方法
CN117475438B (zh) * 2023-10-23 2024-05-24 北京点聚信息技术有限公司 基于ocr技术的扫描文件矢量化转换方法

Also Published As

Publication number Publication date
EP2509029A1 (en) 2012-10-10
CN102368299B (zh) 2014-07-30
RU2453919C1 (ru) 2012-06-20

Similar Documents

Publication Publication Date Title
CN110309824B (zh) 文字检测方法、装置以及终端
US9697423B1 (en) Identifying the lines of a table
JP4726257B2 (ja) 画像処理方法およびその装置
AU2017206291A1 (en) Instance-level semantic segmentation
US20160162720A1 (en) Decoding machine-readable optical codes with aesthetic component
CN102368299B (zh) 用于识别光栅化图像中电子垃圾的系统及方法
US9842251B2 (en) Bulleted lists
JP2010514025A (ja) 画像の道路標識を確認するためのデバイス、方法およびコンピュータ・プログラム
JP2009176287A (ja) 文書表示方法、文書表示システムおよびそのコンピュータプログラム
US20130290944A1 (en) Method and apparatus for recommending product features in a software application in real time
Song et al. Micro surface defect detection method for silicon steel strip based on saliency convex active contour model
US8804139B1 (en) Method and system for repurposing a presentation document to save paper and ink
US20120148101A1 (en) Method and apparatus for extracting text area, and automatic recognition system of number plate using the same
US9898683B2 (en) Robust method for tracing lines of table
CN114519858B (zh) 文档图像的识别方法、装置、存储介质以及电子设备
CN102473278A (zh) 图像处理装置、图像处理方法和存储介质
CN113205024B (zh) 工程图纸的预处理方法、装置、电子设备和存储介质
Tang et al. Automatic structural scene digitalization
CN111612003A (zh) 一种提取图片中的文本的方法和装置
US10977527B2 (en) Method and apparatus for detecting door image by using machine learning algorithm
KR102452511B1 (ko) 도면의 요소 이미지 검출 방법 및 장치
US20150169973A1 (en) Incomplete patterns
Li et al. Target segmentation of industrial smoke image based on LBP Silhouettes coefficient variant (LBPSCV) algorithm
Yang Detail‐enhanced target segmentation method for thermal video sequences based on spatiotemporal parameter update technique
Fan et al. Robust moving object detection based on spatio‐temporal confidence relationship

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant