CN104978579B

CN104978579B - 一种对图像型垃圾邮件进行过滤的方法及装置

Info

Publication number: CN104978579B
Application number: CN201510316314.7A
Authority: CN
Inventors: 严寒冰; 李思远; 刘亚姝; 张洪刚; 徐彬; 张帅; 徐原; 高胜; 胡俊
Original assignee: Beijing University of Posts and Telecommunications; Beijing University of Civil Engineering and Architecture; National Computer Network and Information Security Management Center
Current assignee: Beijing University of Posts and Telecommunications; Beijing University of Civil Engineering and Architecture; National Computer Network and Information Security Management Center
Priority date: 2015-06-10
Filing date: 2015-06-10
Publication date: 2019-07-16
Anticipated expiration: 2035-06-10
Also published as: CN104978579A

Abstract

本发明公开了一种对图像型垃圾邮件进行过滤的方法及装置，通过WAF模型对邮件图像中识别出的关键词进行关键词重构，并基于重构后的关键词对邮件进行判断和过滤，从而解决现有技术中基于图像过滤垃圾邮件准确率低的问题。

Description

一种对图像型垃圾邮件进行过滤的方法及装置

技术领域

本发明涉及通信技术领域，尤其涉及一种对图像型垃圾邮件进行过滤的方法及装置。

背景技术

目前，基于文本规则的垃圾邮件过滤技术已经取得了成功的应用。在图像领域，研究者们提出了各种基于数字图像处理技术的方案进行图像过滤，并取得了一定效果。其中，主要有：基于图像近似特征的过滤技术、基于图像文本区域的过滤技术以及基于图像本身特征的过滤技术，

虽然上述方法能够达到一定效果，但是其原理都是从分析图像浅层特征出发，容易误断一些含公文扫描图像以及包含文本信息的宣传图像的正常公务邮件。

发明内容

鉴于上述的分析，本发明旨在提供一种对图像型垃圾邮件进行过滤的方法及装置，用以解决现有技术中基于图像过滤垃圾邮件准确率低的问题。

为解决上述问题，本发明主要是通过以下技术方案实现的：

本发明一方面提供了一种对图像型垃圾邮件进行过滤的方法，该方法包括：

通过WAF模型对邮件图像中识别出的关键词进行关键词重构；

基于重构后的关键词对邮件进行判断，当确定所述邮件是垃圾邮件后，对所述邮件进行过滤。

优选地，所述通过WAF模型对邮件图像中识别出的关键词进行关键词重构的步骤具体包括：

通过WAF模型计算没有被识别的字与其相邻的已识别的字构成预设的关键词的亲密度之和，当亲密度之和的值超过预设的阈值时，则确定没有被识别的字与其相邻的已识别的字构成关键词。

优选地，通过WAF模型计算没有被识别的字与其相邻的已识别的字构成预设的关键词的亲密度之和的步骤具体包括：

通过WAF模型计算关键字之间的亲密度；

根据关键字之间的亲密度计算没有被识别的字与其相邻的已识别的字构成预设的关键词的亲密度之和。

优选地，计算关键字与关键词的亲密度的步骤具体包括：

根据词激活力公式计算各个关键词之间的连接紧密度，并通过亲密度矩阵计算各个关键词之间亲密度之和；

其中，f_i为关键字i出现的频率，f_ij为关键字i和关键字j一起出现的频率，d_ij为两个关键字一起出现时的平均距离，K_ij＝{k|af_ki>0 or af_kj>0}，L_ij＝{l|af_li>0 or af_lj>0}，OR(x,y)＝min(x,y)/max(x,y)，K_ij为关键词i、j相同的前向关键词k的集合，L_ij为关键词i、j相同后向关键词l的集合。

优选地，所述基于重构后的关键词对邮件进行检测，当确定所述邮件是垃圾邮件后，对所述邮件进行过滤的步骤具体包括：

对已经识别出的和重构后的关键字和关键词设置权重，并进行计算，当计算的结果超过预设的阈值后，则确定所述邮件是垃圾邮件，对所述邮件进行过滤。

优选地，所述通过WAF模型对邮件图像中识别出的关键词进行关键词重构的步骤之前，还包括：

过滤掉复杂背景，检测出文本对比度高的像素区域，并从该区域中识别出关键字。

优选地，所述过滤掉复杂背景，检测出文本对比度高的像素区域，并从该区域中识别出关键字的步骤具体包括：

通过计算LMM模型增强文字区域和背景区域的区分度，并通过Qstu获取全局阈值，过滤掉复杂背景，检测出文本对比度高的像素区域；

对文本对比度高的像素区域进行识别，识别出关键字。

本发明再一方面提供了一种对图像型垃圾邮件进行过滤的装置，该装置包括：

重构单元，用于通过WAF模型对邮件图像中识别出的关键词进行关键词重构；

过滤单元，用于基于重构后的关键词对邮件进行判断，当确定所述邮件是垃圾邮件后，对所述邮件进行过滤。

优选地，所述重构单元具体用于，通过WAF模型计算没有被识别的字与其相邻的已识别的字构成预设的关键词的亲密度之和，当亲密度之和的值超过预设的阈值时，则确定没有被识别的字与其相邻的已识别的字构成关键词。

优选地，所述重构单元具体用于，根据词激活力公式计算各个关键词之间的连接紧密度，并通过亲密度矩阵计算各个关键词之间亲密度之和；其中，f_i为关键字i出现的频率，f_ij为关键字i和关键字j一起出现的频率，d_ij为两个关键字一起出现时的平均距离，K_ij＝{k|af_ki>0 or af_kj>0}，L_ij＝{l|af_li>0 or af_lj>0}，OR(x,y)＝min(x, y)/max(x,y)，K_ij为关键词i、j相同的前向关键词k的集合，L_ij为关键词i、j相同后向关键词 l的集合。

本发明有益效果如下：

本发明提供的一种对图像型垃圾邮件进行过滤的方法及装置，通过WAF模型对邮件图像中识别出的关键词进行关键词重构，并基于重构后的关键词对邮件进行判断和过滤，从而解决现有技术中基于图像过滤垃圾邮件准确率低的问题。

本发明的其他特征和优点将在随后的说明书中阐述，并且部分的从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

图1为本发明实施例的一种对图像型垃圾邮件进行过滤的方法的流程图；

图2为本发明实施例的文本区域与识别的关键字的示意图；

图3为本发明实施例的计算亲密度之和的流程示意图；

图4为本发明实施例的一种对图像型垃圾邮件进行过滤的装置的结构示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理。为了清楚和简化目的，当其可能使本发明的主题模糊不清时，将省略本文所描述的器件中已知功能和结构的详细具体说明。

为了解决现有技术基于图像过滤垃圾邮件准确率低的问题，本发明提供了一种对图像型垃圾邮件进行过滤的方法及装置，以下结合附图以及几个实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

方法实施例

本发明实施例提供的一种对图像型垃圾邮件进行过滤的方法，参见图1，该方法包括：

S101、通过WAF模型对邮件图像中识别出的关键词进行关键词重构；

S102、基于重构后的关键词对邮件进行判断，当确定所述邮件是垃圾邮件后，对所述邮件进行过滤。

即，本发明通过WAF模型对邮件图像中识别出的关键词进行关键词重构，并基于重构后的关键词对邮件进行判断和过滤，从而解决现有技术中基于图像过滤垃圾邮件准确率低的问题。

其中，步骤S101具体包括：

具体而言，本发明是通过WAF模型计算关键字之间的亲密度；再根据关键字之间的亲密度计算没有被识别的字与其相邻的已识别的字构成预设的关键词的亲密度之和。

具体实施时，本发明实施例是根据词激活力公式计算各个关键词之间的连接紧密度，并通过亲密度矩阵计算各个关键词之间亲密度之和；

本发明实施例基于重构后的关键词对邮件进行检测，当确定所述邮件是垃圾邮件后，对所述邮件进行过滤的步骤具体包括：

所述通过WAF模型对邮件图像中识别出的关键词进行关键词重构的步骤之前，还包括：

具体的，该步骤具体包括：

对文本对比度高的像素区域进行识别，识别出关键字。

下面将以一个具体的例子对本发明所述的方法进行详细的说明：

1.增强对比度的过滤复杂背景：

为了能够在复杂背景下准确找到文字笔画集中的高对比度区域，本发明通过计算LMM模型(局部极大极小值)，抑制背景区域的变化。具体的计算方法如下：其中f_max和f_min分别代表像素点3*3领域窗口内的最大像素值和最小像素值，ε代表一个很小的正数用来防止上述公式的分母为0。因为背景区域的亮度变化相对于文字区域要小很多，而且其本身的亮度值也往往更大(因为文字常常用黑色来表示)，因此上述公式增加了文字区域和背景之间的区分度，使我们能够更简单地通过阈值区分开来。然后利用Ostu获取全局阈值的方法，过滤掉复杂背景，检测出对比度高的像素区域(即文字笔画丰富的区域)。

2.提取文本密集区域，识别部分关键字：

将获取的高对比度图分别对x轴和y轴做映射，提取比例高的部分，就获得了文本密集区域，再进行闭操作，分析连通域分割出单个文字区域。然后再对文字区域做一下步骤：a、去除面积较小的合理区域，求出合理区域的平均面积；b、去除长宽比不合理的字，并计算余下字的平均宽度和高度；c、处理不合理区域多文字和一个文字被分割的情况。最后将文字区域归一化到32*32像素大小，根据灰度值进行二值化操作，得到标准文本结构。根据中文汉字的特性，本发明对将这个文字外边缘，然后将其分成4*4个子模块，每个模块求出一下12个基本笔划结构的分布比例形成特征，其中前8个可以看做后4个基本特征组合而成，如图2所示。最后一个文字图像可有64维特征来描述。从训练的字库中进行对比，选取距离最小的，如果小于阈值，则识别为关键字，认为非关键字。

3.利用WAF模型，重构未识别出的关键词：

通过对大量的数据分析发现，垃圾图像中的文本往往通过相似的关键词和句法结构来表达同一种意思，例如，“发票”、“税收”和“票据”等关键词总是一起出现在相似的垃圾图像中。因此，可以根据识别出的关键词像“税收”和“票据”甚至是单个文字“税”、“票”等联想到“发票”这个潜在的关键词。为了处理这种潜在的联系，本发明使用WAF模型来构建语义模型发现潜在关键词。

a)首先，根据训练文本建立一个节点网状模型。该网格结构基于WAF模型，描述了各个节点之间的相关性和激活度。本发明设计了一套独特的权重计算即词激活力计算公式，衡量训练数据中的各个节点连接紧密度：

其中f_i代表关键字i出现的频率，f_ij代表关键字i和关键字j一起出现的频率，d_ij代表两个关键字一起出现时的平均距离。根据计算结果，我们得到一个节点网络矩阵A＝{af_ij}。利用这个矩阵，提出一种计算各个节点之间亲密度的方法：

其中K_ij＝{k|af_ki>0 or af_kj>0}，L_ij＝{l|af_li>0 or af_lj>0}，OR(x,y)＝min(x,y)/max(x,y)，K_ij可以看做节点i，j相同的前向节点k的集合，L_ij可以看做节点i，j相同后向节点l的集合。具体的计算流程如图3所示。

根据上面的训练模型，我们首先根据样本语料库，建立关键字关联模型，根据该模型，可以得到两两关键字之间的亲密度矩阵。

b)其次，我们根据前面两个步骤得到的识别结果和训练产生的亲密度模型进行关键词重构。具体步骤如下：

1)、将样本数据文本转化成有关键字组成的序列；

2)、计算关键词在样本集中出现的频率，形成字表；

3)、计算两个不同关键字共同出现的频率，形成关系字表；

4)、计算不同关键字之间的WAF距离；

5)、计算不同关键字之间的亲和度矩阵，完成训练部分；

6)、使用上文所述OCR系统，对测试图片进行文字识别；

7)、选取那些没有被识别的，但是能够和相邻的字组成关键词的字作为候选字；

8)、在候选字中，计算其与周围的识别出的字的亲密度之和；

9)、通过阈值判断是否能被激活，从而完成对关键词的重建；

4.根据关键词判别是否为图像型垃圾邮件：

最后我们根据关键字和关键词的比例，计算关键信息权重，并以此作为判别是否为垃圾图像的依据。计算公式如下：P＝p1+2*p2其中p1为关键字的比例，p2为关键词的比例。当结果高于阈值时即判定为垃圾图像。

本发明所述的方法在WAF模型的基础上完整构建了一套基于关键词识别的图像型垃圾邮件过滤系统，弥补了之前类似OCR方法的不足。本发明的优点包括：1)只需要对图像中部分区域的部分关键字进行识别，在保证总体图像过滤的准确率情况下，降级了汉字识别的难度。2)利用WAF模型重构关键词技术，弥补了一些关键词无法准确识别的缺陷。

本发明在基于关键词识别过滤垃圾图像的方法中采用区域提取和部分关键字识别的策略，这样既能保留了图像中关键的语义信息，又能增强对图像的尺度、明暗变化及复杂背景干扰的抵抗性，再加上训练的汉字种类也远远小于常用OCR技术。所以本发明能够大大降低汉字的识别难度，同时增加识别的稳定性，具有更好的抗噪能力。

本发明使用基于WAF模型的关键词重构技术，根据训练完的模型，能够快速填补出没有识别出的关键词，重构潜在的关键词，从而重现原始的语义。因此本发明能弥补汉字识别准确率不高的缺点，增加垃圾图像过滤的准确率。

装置实施例

本发明实施例提供了一种对图像型垃圾邮件进行过滤的装置，参见图4，该装置包括相互连接的重构单元和过滤单元；

其中，本发明实施例所述重构单元具体用于，通过WAF模型计算没有被识别的字与其相邻的已识别的字构成预设的关键词的亲密度之和，当亲密度之和的值超过预设的阈值时，则确定没有被识别的字与其相邻的已识别的字构成关键词。

具体实施时，所述重构单元具体用于，根据词激活力公式计算各个关键词之间的连接紧密度，并通过亲密度矩阵计算各个关键词之间亲密度之和；其中，f_i为关键字i出现的频率，f_ij为关键字i和关键字j一起出现的频率，d_ij为两个关键字一起出现时的平均距离，K_ij＝{k|af_ki>0 or af_kj>0}，L_ij＝{l|af_li>0 or af_lj>0}，OR(x,y)＝min(x, y)/max(x,y)，K_ij为关键词i、j相同的前向关键词k的集合，L_ij为关键词i、j相同后向关键词 l的集合。

本发明实施例的装置中的内容可参考方法部分的相关内容进行理解，在此不再赘述。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种对图像型垃圾邮件进行过滤的方法，其特征在于，包括：

通过WAF模型对邮件图像中识别出的关键词进行关键词重构；

基于重构后的关键词对邮件进行判断，当确定所述邮件是垃圾邮件后，对所述邮件进行过滤；

所述通过WAF模型对邮件图像中识别出的关键词进行关键词重构的步骤具体包括：通过WAF模型计算没有被识别的字与其相邻的已识别的字构成预设的关键词的亲密度之和，当亲密度之和的值超过预设的阈值时，则确定没有被识别的字与其相邻的已识别的字构成关键词；

通过WAF模型计算没有被识别的字与其相邻的已识别的字构成预设的关键词的亲密度之和的步骤具体包括：

通过WAF模型计算关键字之间的亲密度；

根据关键字之间的亲密度计算没有被识别的字与其相邻的已识别的字构成预设的关键词的亲密度之和；

计算关键字之间的亲密度的步骤具体包括：

根据词激活力公式计算各个关键字之间的连接紧密度，并通过亲密度矩阵计算各个关键字之间亲密度之和；

首先，根据训练文本建立一个关键字网状模型，该关键字网状模型基于WAF模型，描述各个关键字之间的相关性和激活度，通过权重计算即词激活力计算公式，衡量训练数据中的各个关键字连接紧密度：

其中，f_i代表关键字i出现的频率，f_ij代表关键字i和关键字j一起出现的频率，d_ij代表两个关键字一起出现时的平均距离，根据计算结果，得到一个关键字网络矩阵A＝{af_ij}，利用这个矩阵计算各个关键字之间亲密度：

其中，K_ij＝{k|af_ki＞0 or af_kj＞0}L_ij＝{l|af_li＞0 or af_lj＞0}OR(x,y)＝min(x,y)/max(x,y)，K_ij为关键字i、关键字j相同的前向关键字k的集合，L_ij为关键字i、关键字j相同后向关键字l的集合；

根据训练模型，先根据样本语料库，建立关键字关联模型，根据该模型，得到两两关键字之间的亲密度矩阵；

其次，根据前面得到的识别结果和训练产生的亲密度模型进行关键词重构，具体步骤如下：

1)、将样本数据文本转化成由关键字组成的序列；

2)、计算关键字在样本集中出现的频率，形成字表；

3)、计算两个不同关键字共同出现的频率，形成关系字表；

4)、计算不同关键字之间的WAF距离；

5)、计算不同关键字之间的亲和度矩阵，完成训练部分；

6)、使用光学字符识别OCR系统，对测试图片进行文字识别；

7)、选取没有被识别的，但是能够和相邻的字组成关键词的字作为候选字；

9)、通过阈值判断是否能被激活，从而完成对关键词的重建。

2.根据权利要求1所述的方法，其特征在于，所述基于重构后的关键词对邮件进行检测，当确定所述邮件是垃圾邮件后，对所述邮件进行过滤的步骤具体包括：

3.根据权利要求1所述的方法，其特征在于，所述通过WAF模型对邮件图像中识别出的关键词进行关键词重构的步骤之前，还包括：

4.根据权利要求3所述的方法，其特征在于，所述过滤掉复杂背景，检测出文本对比度高的像素区域，并从该区域中识别出关键字的步骤具体包括：

对文本对比度高的像素区域进行识别，识别出关键字。

5.一种对图像型垃圾邮件进行过滤的装置，其特征在于，包括：

过滤单元，用于基于重构后的关键词对邮件进行判断，当确定所述邮件是垃圾邮件后，对所述邮件进行过滤；

所述重构单元具体用于，通过WAF模型计算没有被识别的字与其相邻的已识别的字构成预设的关键词的亲密度之和，当亲密度之和的值超过预设的阈值时，则确定没有被识别的字与其相邻的已识别的字构成关键词；

所述重构单元具体用于，根据词激活力公式计算各个关键字之间的连接紧密度，并通过亲密度矩阵计算各个关键字之间亲密度之和；首先，根据训练文本建立一个关键字网状模型，该关键字网状模型基于WAF模型，描述各个关键字之间的相关性和激活度，通过权重计算即词激活力计算公式，衡量训练数据中的各个关键字连接紧密度：其中，f_i代表关键字i出现的频率，f_ij代表关键字i和关键字j一起出现的频率，d_ij代表两个关键字一起出现时的平均距离，根据计算结果，得到一个关键字网络矩阵A＝{af_ij}，利用这个矩阵计算各个关键字之间亲密度：

其中，K_ij＝{k|af_ki＞0 or af_kj＞0}，L_ij＝{l|af_li＞0 or af_lj＞0}，OR(x,y)＝min(x,y)/max(x,y)，K_ij为关键字i、关键字j相同的前向关键字k的集合，L_ij为关键字i、关键字j相同后向关键字l的集合；根据训练模型，先根据样本语料库，建立关键字关联模型，根据该模型，得到两两关键字之间的亲密度矩阵；其次，根据前面得到的识别结果和训练产生的亲密度模型进行关键词重构，具体步骤如下：1)、将样本数据文本转化成由关键字组成的序列；2)、计算关键字在样本集中出现的频率，形成字表；3)、计算两个不同关键字共同出现的频率，形成关系字表；4)、计算不同关键字之间的WAF距离；5)、计算不同关键字之间的亲和度矩阵，完成训练部分；6)、使用光学字符识别OCR系统，对测试图片进行文字识别；7)、选取没有被识别的，但是能够和相邻的字组成关键词的字作为候选字；8)、在候选字中，计算其与周围的识别出的字的亲密度之和；9)、通过阈值判断是否能被激活，从而完成对关键词的重建。