CN104361097A

CN104361097A - 一种基于多模匹配的电力敏感邮件实时检测方法

Info

Publication number: CN104361097A
Application number: CN201410673702.6A
Authority: CN
Inventors: 田峥; 田建伟; 薛海伟; 漆文辉; 黎曦; 刘潇潇; 刘洁
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Hunan Electric Power Co Ltd; State Grid Hunan Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Hunan Electric Power Co Ltd; State Grid Hunan Electric Power Co Ltd
Priority date: 2014-11-21
Filing date: 2014-11-21
Publication date: 2015-02-18

Abstract

本发明公开了一种基于多模匹配的电力敏感邮件实时检测方法，主要步骤为：(1)对员工发送的电子邮件进行实时解析，提取出邮件信息；(2)用设定的电力敏感关键字对多模匹配引擎进行初始化；(3)利用多模匹配引擎对邮件标题、正文及附件标题、正文进行敏感关键字匹配；(4)根据匹配结果判断该邮件是否为电力敏感邮件，如果该邮件是电力敏感邮件，则进行实时拦截，并发出告警信息；否则正常发送该邮件。本发明可在电力办公PC终端对员工发送的电子邮件进行分析，检测到可能存在电力机密信息的敏感邮件，并通知邮件拦截模块进行实时拦截，从而有效防止电力部门的机密文件外泄，从源头保护电力内部系统和终端的数据安全。

Description

一种基于多模匹配的电力敏感邮件实时检测方法

技术领域

本发明涉及电力行业信息安全领域，特别涉及一种基于多模匹配的电力敏感邮件实时检测方法。

背景技术

随着电力系统信息化和网络化的不断推进，国家电网公司面临的信息安全形势日益严峻。公司内部的敏感数据不但面临着病毒、木马等外部环境的攻击，由内部人员故意破坏和泄漏等造成的内部威胁也逐渐增多。美国计算机安全学会(Computer Security Institute,CSI)历年的调查报告显示，虽然从数量上来看，来自于外部的网络攻击事件的发生频率远远超过来自内部的泄密，但是从造成的损失来看，内部威胁却远大于外部威胁。从美国中央情报局前雇员斯诺登泄密引发的“棱镜门事件”到国内华为员工离职泄密导致的“沪科案”事件，这些都表明，来自内部的数据泄密会给企业带来严重的损失。

电子邮件是电力系统内部人员最常用的一种信息通信工具，同时也是导致内部数据泄露的一个最主要的源头。据权威调查报告显示，公司近年来各种安全漏洞造成的损失中，30％-40％是由于公司内部员工通过电子邮件发送了内部涉密文件造成的。为了加强对电力敏感邮件的监管，国家电网公司在公司与社会互联网的出口处部署了网络审计设备，对从内部发送的电子邮件进行审查。但是，由于网络审计设备无法对邮件进行实时过滤，这不能从根本上杜绝邮件泄密事件的发生，仍然存在员工误操作或恶意泄漏的可能。

通过对行业内网络行为监管设备的调研发现，目前针对敏感邮件进行监管的设备可分为审计和过滤两类设备。审计设备主要是将邮件内容(包括附件)进行转存，然后以离线方式检测邮件是否包含敏感内容，这种方法无法实现对邮件的实时拦截；而过滤设备可以对邮件进行实时分析，判断其是否包含敏感关键字，并进行实时拦截，但是这类设备通常部署在网络出口处或内部的邮件服务器上，由于受到计算性能和实时性的约束，只能对邮件正文进行分析，对附件中包含敏感内容的邮件则无能为力。当前市面上还没有一款成熟的产品能够做到对邮件内容和附件进行实时分析并拦截。

因此，如何实时判断邮件内容和附件是否包含电力敏感关键字，从而对邮件进行过滤，是本领域技术人员重点关注的问题。基于多模匹配算法在电力办公PC终端进行敏感邮件检测是一个可行的思路。目前，还没有公开文献涉及基于多模匹配的电力敏感邮件实时检测方法。

发明内容

针对上述现有技术的不足，本发明提出一种可部署在电力办公PC终端的敏感邮件检测方法，该方法可对电力外网发送的邮件的内容和附件进行实时解析，检测出可能存在电力机密信息的敏感邮件，并通知邮件拦截模块进行实时拦截。本发明可有效防止电力部门的机密文件外泄，从源头保护电力内部系统和终端的数据安全。

为了实现上述技术目的，本发明的技术方案是，一种基于多模匹配的电力敏感邮件实时检测方法，该方法包括如下步骤：

步骤S1：对发送的电子邮件进行实时解析，提取出邮件信息；

步骤S2：用事先设定的电力敏感关键字对多模匹配引擎进行初始化；

步骤S3：将步骤S1所提取的邮件信息转化成二进制字节流，输入到步骤S2所述多模匹配引擎中，进行电力敏感关键字的匹配；

步骤S4：根据匹配结果判断该邮件是否为电力敏感邮件，如果该邮件是电力敏感邮件，则通过邮件拦截模块对该邮件进行实时拦截，并通过预警模块发出告警信息；否则，正常发送该邮件。

所述一种基于多模匹配的电力敏感邮件检测方法，步骤S1所述邮件信息，包括邮件的标题和正文，以及邮件附件的标题和内容；所述邮件附件的格式是：文本文档、ZIP/RAR压缩文档、Office办公文档、WPS办公文档和PDF文档中的一种或多种。

所述一种基于多模匹配的电力敏感邮件检测方法，步骤S2所述电力敏感关键字，是由用户自定义的文本字符串，文本字符串为中文、英文或中英文混合模式的字符串。

所述一种基于多模匹配的电力敏感邮件检测方法，步骤S2所述多模匹配引擎，是基于Wu-Manber多模匹配方法，采用二进制流的匹配方式，用以在邮件信息中查找电力敏感关键字出现的频率和位置。

所述一种基于多模匹配的电力敏感邮件检测方法，步骤S2所述多模匹配引擎的初始化方法，是将电力敏感关键字的三种不同二进制编码格式作为三种不同的模式串，同时参与对多模匹配引擎的预处理过程，所述的三种二进制编码格式为GB2312、Unicode和UTF-8。

所述一种基于多模匹配的电力敏感邮件检测方法，所述的对多模匹配引擎的预处理过程，是通过扫描由所有电力敏感关键字的三种不同编码格式所形成的模式串集合Patterns，分别构建转移表SHIFT，哈希表HASH和前缀表PREFIX三张表。

所述一种基于多模匹配的电力敏感邮件检测方法，在将Unicode二进制编码格式作为模式串时，构建一个包含一个字符串指针变量和一个表示该字符串长度变量的结构体，在扫描时通过该结构体来判断是否达到模式串的末尾。

所述一种基于多模匹配的电力敏感邮件检测方法，步骤S3所述对邮件信息进行电力敏感关键字匹配的方法，是将邮件标题、正文，以及邮件附件的标题和内容转换成二进制字节流的形式，并作为步骤S2所述多模匹配引擎的输入，而多模匹配引擎的输出结果即为邮件信息中包含电力敏感关键字的频率及位置。

所述一种基于多模匹配的电力敏感邮件检测方法，步骤S4所述电力敏感邮件判断，是根据多模匹配引擎的匹配结果来进行判断，如果邮件信息中存在1个或以上的电力敏感关键字，则判断为电力敏感邮件，否则，为正常邮件。

本发明可在电力办公PC终端对员工发送的电子邮件进行分析，检测到可能存在电力机密信息的敏感邮件，并通知邮件拦截模块进行实时拦截，从而有效防止电力部门的机密文件外泄，从源头保护电力内部系统和终端的数据安全。

下面结合附图对本发明作进一步说明。

附图说明

图1是本发明实施例的系统框架示意图；

图2是本发明实施例的程序流程图；

图3是图2中邮件格式解析方法的程序流程图；

图4是图2中对邮件标题及正文进行关键字匹配方法的程序流程图；

图5是图2中对邮件附件进行关键字匹配方法的程序流程图；

图6是图5中递归调用方法的程序流程图。

具体实施方式

图1是本发明实施例的系统框架示意图。本发明实施例部署在图1所示邮件过滤系统的邮件检测模块中，而邮件过滤系统部署在电力办公终端上。电力办公终端即为普通的办公电脑，当员工利用邮件客户端(如Hotmail、Firefox等)或者Web浏览器登录到外网邮件服务器上发送邮件时，邮件过滤系统会在邮件发送之前对其进行实时捕获和处理，且仅允许那些未包含电力敏感关键字的邮件正常发送。

邮件过滤系统主要包含三个模块：邮件拦截模块、邮件检测模块和预警模块。邮件拦截模块主要负责实时捕获用户发送的邮件信息，并将信息发送给邮件检测模块进行分析处理；邮件检测模块集成了本发明所述的一种基于多模匹配的电力敏感邮件实时检测方法，主要实现对邮件信息的进行解析和敏感关键字搜索功能，并将检测结果通知邮件拦截模块和预警模块；预警模块用于向员工展示提示信息，当员工发送的邮件因含有电力敏感关键字被拦截时，预警模块会在屏幕右下角弹出一个窗口，提示邮件已被拦截，并显示邮件中出现的敏感关键字。

图2是本发明所述一种基于多模匹配的电力敏感邮件实时检测方法的程序流程图。其具体流程为：

i.对邮件拦截模块发送过来的邮件信息进行实时解析，提取出邮件的收发件人地址，邮件标题，邮件正文，附件标题，附件内容等信息；

ii.利用用户自定义的电力敏感关键字对多模匹配引擎进行初始化。所述多模匹配引擎采用改进的Wu-Manber模式匹配算法，可在邮件信息中找到电力敏感关键字出现的频率和位置。

传统的Wu-Manber算法只支持用ASCII或GB2312格式编码的模式串，对中英文混合模式的字符串支持不好，同时也无法对采用Unicode或UTF-8格式编码的字符串进行搜索，这就无法满足电力敏感邮件检测系统的需求，因为自定义的电力敏感关键字需要支持中英文混合模式，而邮件附件中经常会出现采用Unicode或UTF-8编码的字符串，例如office文档就是采用Unicode编码，而txt文本文档也可以保存成UTF-8编码格式。

为此，本发明对传统的Wu-Manber算法进行了改进，将电力敏感关键字的三种不同二进制编码格式(GB2312、Unicode、UTF-8)作为三种不同的模式串，同时参与对多模匹配引擎的预处理过程；预处理的过程与传统Wu-Manber算法类似，主要是通过逐个扫描模式串集合Patterns(即电力敏感关键字集合)，分别构建转移表SHIFT，哈希表HASH和前缀表PREFIX三张表。

与传统Wu-Manber算法不同的是，由于仅支持ASCII或GB2312编码格式，传统的Wu-Manber算法通常采用标准字符串变量来存放模式串集合Patterns，如公式(1)所示：

std::vector<std::string>mPatterns； (1)

在对模式串的扫描过程中，算法通过查看当前字符是否为0来判断是否到达模式串的末尾，因为在ASCII或GB2312编码格式中，串结束符总是仅出现在字符串的末尾。然而，这种方法无法在采用Unicode编码的模式串上使用，因为Unicode编码采用2个字节来表示1个字符，当这个字符是ASCII字符时，它的高位字节就为0，这样就有可能出现在字符串中间存在0值的情况，这也是为什么传统Wu-Manber算法不支持Unicode编码模式串的原因。为了解决这个问题，本发明构造了一个新的结构体来表示模式串集合Patterns，如公式(2)(3)所示：

std:vector<mPatStr>mPatterns；(3)

该结构体包含一个字符串指针变量和一个表示该字符串长度的变量，这样，在扫描时我们就可以通过该字符串的长度来判断是否到达模式串的末尾。这样就解决了对Unicode编码的模式串的初始化问题。

iii.将邮件正文转化成二进制字节流，如果邮件正文采用了URL编码，则对其进行URL解码操作。将转换后的二进制字节流输入到多模匹配引擎中，进行电力敏感关键字的匹配；

iv.根据匹配结果判断该邮件是否包含电力敏感关键字，如果是，直接判断该邮件为敏感邮件，转到第viii步；否则，进行下一步邮件附件的检测；

v.判断邮件是否包含附件，如果有，转到下一步；否则，转到第ix步；

vi.将邮件附件的标题和正文转化成二进制流，附件格式支持文本文档、ZIP/RAR压缩文档、Office和WPS办公文档或PDF文档中的一种或多种；如果附件是PDF格式，则读取出其中的文本信息；如果是压缩文档，则对压缩文档进行解析，提取出其中的二进制文件流；将转换后的二进制字节流输入到多模匹配引擎中，进行电力敏感关键字的匹配；

vii.根据匹配结果判断该邮件是否包含电力敏感关键字，如果有，则判断该邮件为敏感邮件，转到下一步；

viii.通知邮件拦截模块对该邮件进行实时拦截，并向预警模块发出告警信息，结束。

ix.通知邮件拦截模块正常发送该邮件，结束。

图3是图2所示本发明流程图中第i步邮件格式解析方法的程序流程图。其具体流程为：

i.读取邮件数据包头；

ii.提取邮件收发件人地址；

iii.读取邮件正文内容并缓存；

iv.判断邮件是否包含附件，如果是，邮件解析结束；否则，执行下一步；

v.提取邮件附件的全局路径名，并缓存，邮件解析结束。

图4是图2所示本发明流程图中第iii步，利用多模匹配引擎对邮件标题及正文进行敏感关键字匹配的程序流程图。其具体流程为：

i.对邮件正文进行URL解码；

ii.将邮件标题及正文作为字符串导入到多模匹配引擎中进行关键字匹配，将匹配到的模式字符串保存在一张Matched表中；

iii.判断是否有匹配的关键字，即Matched表是否为空，如果为空，如果为空，表示未匹配到关键字，返回正常；否则，返回匹配到的关键字。

图5是图2所示本发明流程图中第vi步，利用多模匹配引擎对附件标题及正文进行敏感关键字匹配的程序流程图。其具体流程为：

i.根据附件后缀名判断附件格式；

ii.判断附件是否为RAR压缩格式，如果不是，转到下一步；如果是，进一步判断是否对压缩文档中的文件名加密，如果有加密，转到第ix步；如果没有加密，转到第iv步；

iii.判断附件是否为ZIP压缩格式(本方法将2007及之后版本的office文档也作为ZIP格式进行处理)。如果是，转到下一步，否则，转到第v步；

iv.判断压缩文档中的文件内容是否加密，如果有加密，转到第ix步，否则，调用递归函数对压缩文档进行处理，处理完毕后转到第viii步；

v.判断附件是否为PDF格式，如果是，转到下一步，否则，转到第vii步；

vi.解析并提取出PDF附件中的文本内容；

vii.利用多模匹配引擎对附件文本内容进行关键字匹配，将匹配到的模式字符串保存在Matched表中；

viii.判断是否有匹配的关键字，即Matched表是否为空，如果不为空，表示匹配到电力敏感关键字，返回匹配到的关键字；否则，转到下一步；

ix.未匹配到关键字，返回正常。

图6是图5所示对附件进行关键字匹配过程中第iv步递归函数的程序流程图。其具体流程为：

i.从压缩文档中提取出一个文件；

ii.根据附件后缀名判断附件格式；

iii.判断附件是否为RAR压缩格式，如果不是，转到下一步；如果是，进一步判断是否对压缩文档中的文件名加密，如果有加密，转到第ix步；如果没有加密，转到第v步；

iv.判断附件是否为ZIP压缩格式(本方法将2007及之后版本的office文档也作为ZIP格式进行处理)。如果是，转到下一步，否则，转到第v步；

v.判断压缩文档中的文件内容是否加密，如果有加密，转到第ix步，否则，将该文件内容缓存到临时文件中，并调用递归函数对该文件进行处理，处理完毕后删除该临时文件，转到第ix步；

vi.判断附件是否为PDF格式，如果是，转到下一步，否则，转到第viii步；

vii.解析并提取出PDF附件中的文本内容；

viii.利用多模匹配引擎对附件文本内容进行关键字匹配，将匹配到的模式字符串保存在Matched表中；

判断是否已读取完压缩文档中的所有文件，如果是，递归函数正常返回；否则，转到第i步。

Claims

1.一种基于多模匹配的电力敏感邮件实时检测方法，其特征在于，包括如下步骤：

步骤S1：对PC机所发送的电子邮件进行实时解析，提取出邮件信息；

2.根据权利要求1所述一种基于多模匹配的电力敏感邮件检测方法，其特征在于：步骤S1所述邮件信息，包括邮件的标题和正文，以及邮件附件的标题和内容；所述邮件附件的格式是：文本文档、ZIP/RAR压缩文档、Office办公文档、WPS办公文档和PDF文档中的一种或多种。

3.根据权利要求1所述一种基于多模匹配的电力敏感邮件检测方法，其特征在于：步骤S2所述电力敏感关键字，是由用户自定义的文本字符串，文本字符串为中文、英文或中英文混合模式的字符串。

4.根据权利要求1所述一种基于多模匹配的电力敏感邮件检测方法，其特征在于：步骤S2所述多模匹配引擎，是基于Wu-Manber多模匹配方法，采用二进制流的匹配方式，用以在邮件信息中查找电力敏感关键字出现的频率和位置。

5.根据权利要求4所述一种基于多模匹配的电力敏感邮件检测方法，其特征在于：步骤S2所述多模匹配引擎的初始化方法，是将电力敏感关键字的三种不同二进制编码格式作为三种不同的模式串，同时参与对多模匹配引擎的预处理过程，所述的三种二进制编码格式为GB2312、Unicode和UTF-8。

6.根据权利要求5所述一种基于多模匹配的电力敏感邮件检测方法，其特征在于：所述的对多模匹配引擎的预处理过程，是通过扫描由所有电力敏感关键字三种不同编码格式所形成的模式串集合Patterns，分别构建转移表SHIFT，哈希表HASH和前缀表PREFIX三张表。

7.根据权利要求6所述一种基于多模匹配的电力敏感邮件检测方法，其特征在于：在将Unicode二进制编码格式作为模式串时，构建一个包含一个字符串指针变量和一个表示该字符串长度变量的结构体，在扫描时通过该结构体来判断是否达到模式串的末尾。

8.根据权利要求1所述一种基于多模匹配的电力敏感邮件检测方法，其特征在于：步骤S3所述对邮件信息进行电力敏感关键字匹配的方法，是将邮件标题、正文，以及邮件附件的标题和内容转换成二进制字节流的形式，并作为步骤S2所述多模匹配引擎的输入，而多模匹配引擎的输出结果即为邮件信息中包含电力敏感关键字的频率及位置。

9.根据权利要求1所述一种基于多模匹配的电力敏感邮件检测方法，其特征在于：步骤S4所述电力敏感邮件判断，是根据多模匹配引擎的匹配结果来进行判断，如果邮件信息中存在1个或以上的电力敏感关键字，则判断为电力敏感邮件，否则，为正常邮件。