CN104978579B - 一种对图像型垃圾邮件进行过滤的方法及装置 - Google Patents

一种对图像型垃圾邮件进行过滤的方法及装置 Download PDF

Info

Publication number
CN104978579B
CN104978579B CN201510316314.7A CN201510316314A CN104978579B CN 104978579 B CN104978579 B CN 104978579B CN 201510316314 A CN201510316314 A CN 201510316314A CN 104978579 B CN104978579 B CN 104978579B
Authority
CN
China
Prior art keywords
keyword
word
cohesion
model
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510316314.7A
Other languages
English (en)
Other versions
CN104978579A (zh
Inventor
严寒冰
李思远
刘亚姝
张洪刚
徐彬
张帅
徐原
高胜
胡俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Beijing University of Civil Engineering and Architecture
National Computer Network and Information Security Management Center
Original Assignee
Beijing University of Posts and Telecommunications
Beijing University of Civil Engineering and Architecture
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications, Beijing University of Civil Engineering and Architecture, National Computer Network and Information Security Management Center filed Critical Beijing University of Posts and Telecommunications
Priority to CN201510316314.7A priority Critical patent/CN104978579B/zh
Publication of CN104978579A publication Critical patent/CN104978579A/zh
Application granted granted Critical
Publication of CN104978579B publication Critical patent/CN104978579B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种对图像型垃圾邮件进行过滤的方法及装置,通过WAF模型对邮件图像中识别出的关键词进行关键词重构,并基于重构后的关键词对邮件进行判断和过滤,从而解决现有技术中基于图像过滤垃圾邮件准确率低的问题。

Description

一种对图像型垃圾邮件进行过滤的方法及装置
技术领域
本发明涉及通信技术领域,尤其涉及一种对图像型垃圾邮件进行过滤的方法及装置。
背景技术
目前,基于文本规则的垃圾邮件过滤技术已经取得了成功的应用。在图像领域,研究者们提出了各种基于数字图像处理技术的方案进行图像过滤,并取得了一定效果。其中,主要有:基于图像近似特征的过滤技术、基于图像文本区域的过滤技术以及基于图像本身特征的过滤技术,
虽然上述方法能够达到一定效果,但是其原理都是从分析图像浅层特征出发,容易误断一些含公文扫描图像以及包含文本信息的宣传图像的正常公务邮件。
发明内容
鉴于上述的分析,本发明旨在提供一种对图像型垃圾邮件进行过滤的方法及装置,用以解决现有技术中基于图像过滤垃圾邮件准确率低的问题。
为解决上述问题,本发明主要是通过以下技术方案实现的:
本发明一方面提供了一种对图像型垃圾邮件进行过滤的方法,该方法包括:
通过WAF模型对邮件图像中识别出的关键词进行关键词重构;
基于重构后的关键词对邮件进行判断,当确定所述邮件是垃圾邮件后,对所述邮件进行过滤。
优选地,所述通过WAF模型对邮件图像中识别出的关键词进行关键词重构的步骤具体包括:
通过WAF模型计算没有被识别的字与其相邻的已识别的字构成预设的关键词的亲密度之和,当亲密度之和的值超过预设的阈值时,则确定没有被识别的字与其相邻的已识别的字构成关键词。
优选地,通过WAF模型计算没有被识别的字与其相邻的已识别的字构成预设的关键词的亲密度之和的步骤具体包括:
通过WAF模型计算关键字之间的亲密度;
根据关键字之间的亲密度计算没有被识别的字与其相邻的已识别的字构成预设的关键词的亲密度之和。
优选地,计算关键字与关键词的亲密度的步骤具体包括:
根据词激活力公式计算各个关键词之间的连接紧密 度,并通过亲密度矩阵计算各个关键词之间 亲密度之和;
其中,fi为关键字i出现的频率,fij为关键字i和关键字j一起出现的频率,dij为两个关键字一起出现时的平均距离,Kij={k|afki>0 or afkj>0},Lij={l|afli>0 or aflj>0},OR(x,y)=min(x,y)/max(x,y),Kij为关键词i、j相同的前向关键词k的集合,Lij为关键词i、j相同后向关键词l的集合。
优选地,所述基于重构后的关键词对邮件进行检测,当确定所述邮件是垃圾邮件后,对所述邮件进行过滤的步骤具体包括:
对已经识别出的和重构后的关键字和关键词设置权重,并进行计算,当计算的结果超过预设的阈值后,则确定所述邮件是垃圾邮件,对所述邮件进行过滤。
优选地,所述通过WAF模型对邮件图像中识别出的关键词进行关键词重构的步骤之前,还包括:
过滤掉复杂背景,检测出文本对比度高的像素区域,并从该区域中识别出关键字。
优选地,所述过滤掉复杂背景,检测出文本对比度高的像素区域,并从该区域中识别出关键字的步骤具体包括:
通过计算LMM模型增强文字区域和背景区域的区分度,并通过Qstu获取全局阈值,过滤掉复杂背景,检测出文本对比度高的像素区域;
对文本对比度高的像素区域进行识别,识别出关键字。
本发明再一方面提供了一种对图像型垃圾邮件进行过滤的装置,该装置包括:
重构单元,用于通过WAF模型对邮件图像中识别出的关键词进行关键词重构;
过滤单元,用于基于重构后的关键词对邮件进行判断,当确定所述邮件是垃圾邮件后,对所述邮件进行过滤。
优选地,所述重构单元具体用于,通过WAF模型计算没有被识别的字与其相邻的已识别的字构成预设的关键词的亲密度之和,当亲密度之和的值超过预设的阈值时,则确定没有被识别的字与其相邻的已识别的字构成关键词。
优选地,所述重构单元具体用于,根据词激活力公式 计算各个关键词之间的连接紧密度,并通过亲密度矩阵计算各个关键词之间亲密度之和;其中,fi为 关键字i出现的频率,fij为关键字i和关键字j一起出现的频率,dij为两个关键字一起出现 时的平均距离,Kij={k|afki>0 or afkj>0},Lij={l|afli>0 or aflj>0},OR(x,y)=min(x, y)/max(x,y),Kij为关键词i、j相同的前向关键词k的集合,Lij为关键词i、j相同后向关键词 l的集合。
本发明有益效果如下:
本发明提供的一种对图像型垃圾邮件进行过滤的方法及装置,通过WAF模型对邮件图像中识别出的关键词进行关键词重构,并基于重构后的关键词对邮件进行判断和过滤,从而解决现有技术中基于图像过滤垃圾邮件准确率低的问题。
本发明的其他特征和优点将在随后的说明书中阐述,并且部分的从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
图1为本发明实施例的一种对图像型垃圾邮件进行过滤的方法的流程图;
图2为本发明实施例的文本区域与识别的关键字的示意图;
图3为本发明实施例的计算亲密度之和的流程示意图;
图4为本发明实施例的一种对图像型垃圾邮件进行过滤的装置的结构示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理。为了清楚和简化目的,当其可能使本发明的主题模糊不清时,将省略本文所描述的器件中已知功能和结构的详细具体说明。
为了解决现有技术基于图像过滤垃圾邮件准确率低的问题,本发明提供了一种对图像型垃圾邮件进行过滤的方法及装置,以下结合附图以及几个实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
方法实施例
本发明实施例提供的一种对图像型垃圾邮件进行过滤的方法,参见图1,该方法包括:
S101、通过WAF模型对邮件图像中识别出的关键词进行关键词重构;
S102、基于重构后的关键词对邮件进行判断,当确定所述邮件是垃圾邮件后,对所述邮件进行过滤。
即,本发明通过WAF模型对邮件图像中识别出的关键词进行关键词重构,并基于重构后的关键词对邮件进行判断和过滤,从而解决现有技术中基于图像过滤垃圾邮件准确率低的问题。
其中,步骤S101具体包括:
通过WAF模型计算没有被识别的字与其相邻的已识别的字构成预设的关键词的亲密度之和,当亲密度之和的值超过预设的阈值时,则确定没有被识别的字与其相邻的已识别的字构成关键词。
具体而言,本发明是通过WAF模型计算关键字之间的亲密度;再根据关键字之间的亲密度计算没有被识别的字与其相邻的已识别的字构成预设的关键词的亲密度之和。
具体实施时,本发明实施例是根据词激活力公式计算 各个关键词之间的连接紧密度,并通过亲密度矩阵计算各个关键词之间亲密度之和;
其中,fi为关键字i出现的频率,fij为关键字i和关键字j一起出现的频率,dij为两个关键字一起出现时的平均距离,Kij={k|afki>0 or afkj>0},Lij={l|afli>0 or aflj>0},OR(x,y)=min(x,y)/max(x,y),Kij为关键词i、j相同的前向关键词k的集合,Lij为关键词i、j相同后向关键词l的集合。
本发明实施例基于重构后的关键词对邮件进行检测,当确定所述邮件是垃圾邮件后,对所述邮件进行过滤的步骤具体包括:
对已经识别出的和重构后的关键字和关键词设置权重,并进行计算,当计算的结果超过预设的阈值后,则确定所述邮件是垃圾邮件,对所述邮件进行过滤。
所述通过WAF模型对邮件图像中识别出的关键词进行关键词重构的步骤之前,还包括:
过滤掉复杂背景,检测出文本对比度高的像素区域,并从该区域中识别出关键字。
具体的,该步骤具体包括:
通过计算LMM模型增强文字区域和背景区域的区分度,并通过Qstu获取全局阈值,过滤掉复杂背景,检测出文本对比度高的像素区域;
对文本对比度高的像素区域进行识别,识别出关键字。
下面将以一个具体的例子对本发明所述的方法进行详细的说明:
1.增强对比度的过滤复杂背景:
为了能够在复杂背景下准确找到文字笔画集中的高对比度区域,本发明通过计算LMM模型(局部极大极小值),抑制背景区域的变化。具体的计算方法如下:其中fmax和fmin分别代表像素点3*3领域窗口内的最大像素值和最小像素值,ε代表一个很小的正数用来防止上述公式的分母为0。因为背景区域的亮度变化相对于文字区域要小很多,而且其本身的亮度值也往往更大(因为文字常常用黑色来表示),因此上述公式增加了文字区域和背景之间的区分度,使我们能够更简单地通过阈值区分开来。然后利用Ostu获取全局阈值的方法,过滤掉复杂背景,检测出对比度高的像素区域(即文字笔画丰富的区域)。
2.提取文本密集区域,识别部分关键字:
将获取的高对比度图分别对x轴和y轴做映射,提取比例高的部分,就获得了文本密集区域,再进行闭操作,分析连通域分割出单个文字区域。然后再对文字区域做一下步骤:a、去除面积较小的合理区域,求出合理区域的平均面积;b、去除长宽比不合理的字,并计算余下字的平均宽度和高度;c、处理不合理区域多文字和一个文字被分割的情况。最后将文字区域归一化到32*32像素大小,根据灰度值进行二值化操作,得到标准文本结构。根据中文汉字的特性,本发明对将这个文字外边缘,然后将其分成4*4个子模块,每个模块求出一下12个基本笔划结构的分布比例形成特征,其中前8个可以看做后4个基本特征组合而成,如图2所示。最后一个文字图像可有64维特征来描述。从训练的字库中进行对比,选取距离最小的,如果小于阈值,则识别为关键字,认为非关键字。
3.利用WAF模型,重构未识别出的关键词:
通过对大量的数据分析发现,垃圾图像中的文本往往通过相似的关键词和句法结构来表达同一种意思,例如,“发票”、“税收”和“票据”等关键词总是一起出现在相似的垃圾图像中。因此,可以根据识别出的关键词像“税收”和“票据”甚至是单个文字“税”、“票”等联想到“发票”这个潜在的关键词。为了处理这种潜在的联系,本发明使用WAF模型来构建语义模型发现潜在关键词。
a)首先,根据训练文本建立一个节点网状模型。该网格结构基于WAF模型,描述了各个节点之间的相关性和激活度。本发明设计了一套独特的权重计算即词激活力计算公式,衡量训练数据中的各个节点连接紧密度:
其中fi代表关键字i出现的频率,fij代表关键字i和关键字j一起出现的频率,dij代表两个关键字一起出现时的平均距离。根据计算结果,我们得到一个节点网络矩阵A={afij}。利用这个矩阵,提出一种计算各个节点之间亲密度的方法:
其中Kij={k|afki>0 or afkj>0},Lij={l|afli>0 or aflj>0},OR(x,y)=min(x,y)/max(x,y),Kij可以看做节点i,j相同的前向节点k的集合,Lij可以看做节点i,j相同后向节点l的集合。具体的计算流程如图3所示。
根据上面的训练模型,我们首先根据样本语料库,建立关键字关联模型,根据该模型,可以得到两两关键字之间的亲密度矩阵。
b)其次,我们根据前面两个步骤得到的识别结果和训练产生的亲密度模型进行关键词重构。具体步骤如下:
1)、将样本数据文本转化成有关键字组成的序列;
2)、计算关键词在样本集中出现的频率,形成字表;
3)、计算两个不同关键字共同出现的频率,形成关系字表;
4)、计算不同关键字之间的WAF距离;
5)、计算不同关键字之间的亲和度矩阵,完成训练部分;
6)、使用上文所述OCR系统,对测试图片进行文字识别;
7)、选取那些没有被识别的,但是能够和相邻的字组成关键词的字作为候选字;
8)、在候选字中,计算其与周围的识别出的字的亲密度之和;
9)、通过阈值判断是否能被激活,从而完成对关键词的重建;
4.根据关键词判别是否为图像型垃圾邮件:
最后我们根据关键字和关键词的比例,计算关键信息权重,并以此作为判别是否为垃圾图像的依据。计算公式如下:P=p1+2*p2其中p1为关键字的比例,p2为关键词的比例。当结果高于阈值时即判定为垃圾图像。
本发明所述的方法在WAF模型的基础上完整构建了一套基于关键词识别的图像型垃圾邮件过滤系统,弥补了之前类似OCR方法的不足。本发明的优点包括:1)只需要对图像中部分区域的部分关键字进行识别,在保证总体图像过滤的准确率情况下,降级了汉字识别的难度。2)利用WAF模型重构关键词技术,弥补了一些关键词无法准确识别的缺陷。
本发明在基于关键词识别过滤垃圾图像的方法中采用区域提取和部分关键字识别的策略,这样既能保留了图像中关键的语义信息,又能增强对图像的尺度、明暗变化及复杂背景干扰的抵抗性,再加上训练的汉字种类也远远小于常用OCR技术。所以本发明能够大大降低汉字的识别难度,同时增加识别的稳定性,具有更好的抗噪能力。
本发明使用基于WAF模型的关键词重构技术,根据训练完的模型,能够快速填补出没有识别出的关键词,重构潜在的关键词,从而重现原始的语义。因此本发明能弥补汉字识别准确率不高的缺点,增加垃圾图像过滤的准确率。
装置实施例
本发明实施例提供了一种对图像型垃圾邮件进行过滤的装置,参见图4,该装置包括相互连接的重构单元和过滤单元;
重构单元,用于通过WAF模型对邮件图像中识别出的关键词进行关键词重构;
过滤单元,用于基于重构后的关键词对邮件进行判断,当确定所述邮件是垃圾邮件后,对所述邮件进行过滤。
其中,本发明实施例所述重构单元具体用于,通过WAF模型计算没有被识别的字与其相邻的已识别的字构成预设的关键词的亲密度之和,当亲密度之和的值超过预设的阈值时,则确定没有被识别的字与其相邻的已识别的字构成关键词。
具体实施时,所述重构单元具体用于,根据词激活力公式计算各个关键词之间的连接紧密度,并通过亲密度矩阵计算各个关键词之间亲密度之和;其中,fi为 关键字i出现的频率,fij为关键字i和关键字j一起出现的频率,dij为两个关键字一起出现 时的平均距离,Kij={k|afki>0 or afkj>0},Lij={l|afli>0 or aflj>0},OR(x,y)=min(x, y)/max(x,y),Kij为关键词i、j相同的前向关键词k的集合,Lij为关键词i、j相同后向关键词 l的集合。
本发明实施例的装置中的内容可参考方法部分的相关内容进行理解,在此不再赘述。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (5)

1.一种对图像型垃圾邮件进行过滤的方法,其特征在于,包括:
通过WAF模型对邮件图像中识别出的关键词进行关键词重构;
基于重构后的关键词对邮件进行判断,当确定所述邮件是垃圾邮件后,对所述邮件进行过滤;
所述通过WAF模型对邮件图像中识别出的关键词进行关键词重构的步骤具体包括:通过WAF模型计算没有被识别的字与其相邻的已识别的字构成预设的关键词的亲密度之和,当亲密度之和的值超过预设的阈值时,则确定没有被识别的字与其相邻的已识别的字构成关键词;
通过WAF模型计算没有被识别的字与其相邻的已识别的字构成预设的关键词的亲密度之和的步骤具体包括:
通过WAF模型计算关键字之间的亲密度;
根据关键字之间的亲密度计算没有被识别的字与其相邻的已识别的字构成预设的关键词的亲密度之和;
计算关键字之间的亲密度的步骤具体包括:
根据词激活力公式计算各个关键字之间的连接紧密度,并通过亲密度矩阵计算各个关键字之间亲密度之和;
首先,根据训练文本建立一个关键字网状模型,该关键字网状模型基于WAF模型,描述各个关键字之间的相关性和激活度,通过权重计算即词激活力计算公式,衡量训练数据中的各个关键字连接紧密度:
其中,fi代表关键字i出现的频率,fij代表关键字i和关键字j一起出现的频率,dij代表两个关键字一起出现时的平均距离,根据计算结果,得到一个关键字网络矩阵A={afij},利用这个矩阵计算各个关键字之间亲密度:
其中,Kij={k|afki>0 or afkj>0}Lij={l|afli>0 or aflj>0}OR(x,y)=min(x,y)/max(x,y),Kij为关键字i、关键字j相同的前向关键字k的集合,Lij为关键字i、关键字j相同后向关键字l的集合;
根据训练模型,先根据样本语料库,建立关键字关联模型,根据该模型,得到两两关键字之间的亲密度矩阵;
其次,根据前面得到的识别结果和训练产生的亲密度模型进行关键词重构,具体步骤如下:
1)、将样本数据文本转化成由关键字组成的序列;
2)、计算关键字在样本集中出现的频率,形成字表;
3)、计算两个不同关键字共同出现的频率,形成关系字表;
4)、计算不同关键字之间的WAF距离;
5)、计算不同关键字之间的亲和度矩阵,完成训练部分;
6)、使用光学字符识别OCR系统,对测试图片进行文字识别;
7)、选取没有被识别的,但是能够和相邻的字组成关键词的字作为候选字;
8)、在候选字中,计算其与周围的识别出的字的亲密度之和;
9)、通过阈值判断是否能被激活,从而完成对关键词的重建。
2.根据权利要求1所述的方法,其特征在于,所述基于重构后的关键词对邮件进行检测,当确定所述邮件是垃圾邮件后,对所述邮件进行过滤的步骤具体包括:
对已经识别出的和重构后的关键字和关键词设置权重,并进行计算,当计算的结果超过预设的阈值后,则确定所述邮件是垃圾邮件,对所述邮件进行过滤。
3.根据权利要求1所述的方法,其特征在于,所述通过WAF模型对邮件图像中识别出的关键词进行关键词重构的步骤之前,还包括:
过滤掉复杂背景,检测出文本对比度高的像素区域,并从该区域中识别出关键字。
4.根据权利要求3所述的方法,其特征在于,所述过滤掉复杂背景,检测出文本对比度高的像素区域,并从该区域中识别出关键字的步骤具体包括:
通过计算LMM模型增强文字区域和背景区域的区分度,并通过Qstu获取全局阈值,过滤掉复杂背景,检测出文本对比度高的像素区域;
对文本对比度高的像素区域进行识别,识别出关键字。
5.一种对图像型垃圾邮件进行过滤的装置,其特征在于,包括:
重构单元,用于通过WAF模型对邮件图像中识别出的关键词进行关键词重构;
过滤单元,用于基于重构后的关键词对邮件进行判断,当确定所述邮件是垃圾邮件后,对所述邮件进行过滤;
所述重构单元具体用于,通过WAF模型计算没有被识别的字与其相邻的已识别的字构成预设的关键词的亲密度之和,当亲密度之和的值超过预设的阈值时,则确定没有被识别的字与其相邻的已识别的字构成关键词;
所述重构单元具体用于,根据词激活力公式计算各个关键字之间的连接紧密度,并通过亲密度矩阵计算各个关键字之间亲密度之和;首先,根据训练文本建立一个关键字网状模型,该关键字网状模型基于WAF模型,描述各个关键字之间的相关性和激活度,通过权重计算即词激活力计算公式,衡量训练数据中的各个关键字连接紧密度:其中,fi代表关键字i出现的频率,fij代表关键字i和关键字j一起出现的频率,dij代表两个关键字一起出现时的平均距离,根据计算结果,得到一个关键字网络矩阵A={afij},利用这个矩阵计算各个关键字之间亲密度:
其中,Kij={k|afki>0 or afkj>0},Lij={l|afli>0 or aflj>0},OR(x,y)=min(x,y)/max(x,y),Kij为关键字i、关键字j相同的前向关键字k的集合,Lij为关键字i、关键字j相同后向关键字l的集合;根据训练模型,先根据样本语料库,建立关键字关联模型,根据该模型,得到两两关键字之间的亲密度矩阵;其次,根据前面得到的识别结果和训练产生的亲密度模型进行关键词重构,具体步骤如下:1)、将样本数据文本转化成由关键字组成的序列;2)、计算关键字在样本集中出现的频率,形成字表;3)、计算两个不同关键字共同出现的频率,形成关系字表;4)、计算不同关键字之间的WAF距离;5)、计算不同关键字之间的亲和度矩阵,完成训练部分;6)、使用光学字符识别OCR系统,对测试图片进行文字识别;7)、选取没有被识别的,但是能够和相邻的字组成关键词的字作为候选字;8)、在候选字中,计算其与周围的识别出的字的亲密度之和;9)、通过阈值判断是否能被激活,从而完成对关键词的重建。
CN201510316314.7A 2015-06-10 2015-06-10 一种对图像型垃圾邮件进行过滤的方法及装置 Expired - Fee Related CN104978579B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510316314.7A CN104978579B (zh) 2015-06-10 2015-06-10 一种对图像型垃圾邮件进行过滤的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510316314.7A CN104978579B (zh) 2015-06-10 2015-06-10 一种对图像型垃圾邮件进行过滤的方法及装置

Publications (2)

Publication Number Publication Date
CN104978579A CN104978579A (zh) 2015-10-14
CN104978579B true CN104978579B (zh) 2019-07-16

Family

ID=54275064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510316314.7A Expired - Fee Related CN104978579B (zh) 2015-06-10 2015-06-10 一种对图像型垃圾邮件进行过滤的方法及装置

Country Status (1)

Country Link
CN (1) CN104978579B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106127265B (zh) * 2016-06-22 2018-02-06 北京邮电大学 一种基于激活力模型的图片中文本识别纠错方法
CN115131409B (zh) * 2022-08-26 2023-01-24 深圳深知未来智能有限公司 一种基于深度学习的亲密矩阵视点合成方法、应用及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200926064A (en) * 2007-12-06 2009-06-16 Mach Intelligence Technology Consulting Co Ltd Image processing method and software product for blocking image-based spam

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8731284B2 (en) * 2008-12-19 2014-05-20 Yahoo! Inc. Method and system for detecting image spam

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200926064A (en) * 2007-12-06 2009-06-16 Mach Intelligence Technology Consulting Co Ltd Image processing method and software product for blocking image-based spam

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Filtering Chinese Image Spam Using Pseudo-OCR;XU Bin 等;《Chinese Journal of Electronics》;20150131;第24卷(第1期);第135-138页
WAF在文本处理中的应用研究;张黎;《中国优秀硕士学位论文全文数据库》;20131115(第11期);第21-33页

Also Published As

Publication number Publication date
CN104978579A (zh) 2015-10-14

Similar Documents

Publication Publication Date Title
Zhou et al. Multiscale water body extraction in urban environments from satellite images
CN104504335B (zh) 基于页面特征和url特征的钓鱼app检测方法及系统
CN100361451C (zh) 基于内容的网络色情图像和不良图像检测系统
CN102915438B (zh) 一种视频字幕的提取方法及装置
CN110349136A (zh) 一种基于深度学习的篡改图像检测方法
Chen et al. A double-threshold image binarization method based on edge detector
CN107133955B (zh) 一种多层次结合的协同显著性检测方法
CN100361450C (zh) 在互联网上堵截色情图像与不良信息的系统
CN107967475A (zh) 一种基于窗口滑动和卷积神经网络的验证码识别方法
CN108074244B (zh) 一种融合深度学习与背景差法的平安城市车流统计方法
CN109410184B (zh) 基于稠密对抗网络半监督学习的直播色情图像检测方法
CN107808358A (zh) 图像水印自动检测方法
CN105868758A (zh) 图像中文本区域检测方法、装置及电子设备
CN106780485A (zh) 基于超像素分割和特征学习的sar图像变化检测方法
CN110414350A (zh) 基于注意力模型的双路卷积神经网络的人脸防伪检测方法
CN108345850A (zh) 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法
CN106096613A (zh) 基于角点特征的图像多目标检测方法及装置
CN106548169A (zh) 基于深度神经网络的模糊文字增强方法及装置
CN102855478A (zh) 图像中文本区域定位方法和装置
CN106127198A (zh) 一种基于多分类器集成的图像文字识别方法
CN109472259A (zh) 基于能量优化的图像协同显著性检测方法
CN106874905A (zh) 一种基于自学习色彩聚类的自然场景文本检测的方法
CN109165658A (zh) 一种基于Faster-RCNN的强负样本水下目标检测方法
CN108734159A (zh) 一种图像中敏感信息的检测方法及系统
CN106446124A (zh) 一种基于网络关系图的网站分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190716

Termination date: 20200610