CN102509057A

CN102509057A - 基于标记的非结构化数据安全过滤方法

Info

Publication number: CN102509057A
Application number: CN201110316665XA
Authority: CN
Inventors: 汪晨; 林为民; 张涛; 邓松; 时坚; 李伟伟; 周诚; 秦昊
Original assignee: State Grid Electric Power Research Institute
Current assignee: State Grid Electric Power Research Institute
Priority date: 2011-10-18
Filing date: 2011-10-18
Publication date: 2012-06-20
Anticipated expiration: 2031-10-18
Also published as: CN102509057B

Abstract

基于标记的非结构化数据的安全过滤方法是一种为了保证非结构化数据在网络传输，特别是在不同安全级别的网络间传输过程时的正确、安全和可靠的一种新方法，它主要有标记客户端、标记服务器、标记过滤器和日志系统组成，此外，还需要服务器管理员的参与。通过用户和管理人员的介入，对文档事先进行划分类，并按策略规则对用户访问分类文档进行权限控制。用户在传输非结构化数据时，通过为文档添加标记信息；当文档通过标记过滤器，即通过不同安全级别的网关时，标记过滤器通过标记信息对文档进行过滤，并严格记录下文档在标记过滤器中被处理的日志信息，以用于事后审计或审核使用，从而保证能够规范用户在为文档做标记时行为的正确与规范性。

Description

基于标记的非结构化数据安全过滤方法

技术领域

本发明是一种数据信息安全过滤方法，主要用于解决不同信息安全级别网络间通信过程中的非结构化数据安全过滤问题，属于信息安全软件领域。

背景技术

随着社会信息化建设的日益完善，企业也逐步实现办公运营的信息化和数字化，为了能够更好将用户信息与企业内部信息结合，企业不仅仅有自己的内部网络，而且内部网络开始逐渐向英特网开放，随之带来的就是安全问题。

在不同安全域的网络信息交互过程中，信息从一个安全域网络到另一个安全域网络，对信息进行过滤是有必要的。当从低安全级别网络传递信息到高安全级别网络时，传递信息的安全性（信息携带病毒，木马等）为考虑的关键点。而对于从高安全级别网络传递信息到低安全级别网络时，信息的防泄漏（文档的密级程度）为考虑的关键点；此外，对于不健康的信息，所有的网络都需要对它们进行过滤。

目前在网络传输过程中，对于结构化的数据，它们具有良好的结构信息，通过程序能够直接访问到结构化数据的内容信息。因此，网络交换设备（网关，网闸等）能够直接访问结构化数据的内容并对其进行过滤。而对于非结构化数据，如Word文档，PDF文档，图像文档等，它们没有很好的结构化信息，网络交换设备如何很好对它们进行过滤，甚至于统一的进行内容过滤分析是当前过滤设备的一大挑战。

为了解决目前网络交换设备不能够对非结构化数据的内容过滤问题，本专利提出基于标记的非结构化数据的安全过滤方法。它通过对各种文档进行分类描述、为文档添加关键字信息和设置用户对分类文档的访问权限来限制用户对文档的传送和访问。这样，用户在传递文档时，为文档打上标记信息（标记信息包括对文档选择分类描述信息，为文档添加关键字，附带上用户信息），文档传递到过滤器时，过滤器依据用户与文档之间的关系，以及用户为文档添加的关键字来对文档进行过滤。为了保证用户不能够随意选择文档的分类信息与添加关键字，过滤器需要有统计日志信息，日志信息中包含有用户信息，以便事后审计。

基于标记的非结构化数据的安全过滤方法通过用户对文档进行打标记信息，用户对分类文档的访问控制权限来保证文档是否能够通过过滤器。这种方法的好处在于，对于非结构化的文档，不论是Word文档，还是图像文档，都可以统一进行处理（打标记）。引入管理策略，通过规范用户对文档选择分类信息与添加关键词来保证文档内容与标记的关系，从而保证过滤器表面上过滤的是文档标记信息，实际过滤的是文档的核心内容。

发明内容

本发明的目的为提供一种新的非结构化数据安全过滤方法，来解决非结构化数据在不同安全级别网络数据交换过程中的过滤问题，本机制是一种策略性方法，通过使用本方法可以使得非结构化数据能够安全的在不同级别的网络间进行数据交换，从而保证数据不会被泄漏，也不会被随意传送。

本发明的方法是一种策略性的方法，通过在传送的非结构化数据的文档中做标记信息，使得数据源、数据目的地和数据内容都在可控范围之内，从而解决非结构化数据在传输过程中能够安全，可靠的进行交换，从而保证安全数据不会被泄漏和随意传送。

一、体系结构

图1给出了基于标记的非结构化数据安全过滤结构图，它主要包括四个部分：标记客户端、标记服务器、标记过滤器（实际对非结构化文档进行安全过滤）、日志系统。标记客户端为文档做标记操作，标记服务端保存有用户、文档分类和用户对文档访问权限等通过标记来识别的信息；标记过滤器通过提取标记信息与标记服务器上的信息进行判断比较，从而对文档进行安全过滤；日志系统是对过滤器操作过程的过程备份，从而作为事后处理分析依据。

下面给出具体介绍：

标记客户端：标记客户端通过用户登陆标记系统，获得文档分类信息，并选择文档所属分类；然后将用户信息、文档摘要、文档关键字（用户提供）与文档分类信息通过标记（包含标记摘要）添加到文档中。为了保证用户和服务器的身份正确性，在文档传递过程之前客户端需要服务器进行身份认证；为了保证标记的安全性，标记信息需要加密后添加到文档中。

标记服务器：标记服务器是一个信息仓库，它保存有文档分类信息，信息安全关键字，用户信息，以及用户对文档的访问权限信息。此外，它还提供用户注册，文档分类管理，用户对文档访问权限申请与管理功能。

标记过滤器：随着计算机的计算能力的增强以及网络吞吐量的加大，网络信息安全问题也越来越严重。对于大的企业都具有自己的企业内部网络，企业内部网络的安全级别一般都很高，为了更好的服务于公众，企业会在内部网与英特网之间开通连接关系。但这样会带来信息的安全性问题：随意的文档在网络间传送，企业内部的安全文档可能会通过连接漏洞到英特网。标记过滤器存放于网络边界上（网关或路由器等），通过网络获取交换的非结构化文档，并解析文档。在解析文档信息过程中，先从文档中提取标记信息，验证标记信息是否被篡改，以确保后标记信息的正确性；验证用户信息，以确保发送文档的用户真实性（对客户端的身份认证）；验证文档的摘要，以确保文档没有被篡改；通过标记服务器验证文档分类信息的正确性和用户对文档的访问权限；解析文档的关键字信息，通过对关键字的分析，对文档进行过滤，并提供智能的关键字库生成功能。通过判断分析信息结果，来确保文档被过滤器拦截而不允许其从高安全级别的网络传送到低安全级别的网络，同时还能够保证低级别的网络不会随意传送文档到内部网络。标记过滤器还需要将处理过程记录到日志系统，为审计服务器提供取证条件。

日志系统：日志系统的目的是为了定时定量分析在文档传递过程中存在的问题，方便事后统计，且能起到规范和监督作用。一旦在出现事故后，还能够追究事故责任到人。

二、方法流程

1、标记客户端

基于标记的非结构化数据过滤首先需要保证数据源的身份，为每份传送过程的文档附带上为文档打标记的用户信息，不仅能够知道文档的源，而且起到一个规范与监督作用，因为标记过滤器会将用户信息与文档信息记录到日志系统，一旦出现问题，能够将责任追究到用户。

为了方便过滤器对文档进行智能过滤，文档分类和用户对分类文档的访问权限需有事先的设定规则，为了更加精确的对文档进行过滤，有必要添加文档的关键字描述。

标记客户的操作过程如下：

（1）用户登陆，包含有对服务器的身份认证过程（使用

表示用户信息）；

（2）选择文档

；

（3）生成文档摘要；

（4）从标记服务器获得文档分类信息

，并选择文档具体分类的ID：

：

（5）选择文档关键字

（6）产生标记

生成标记有两个过程：首先生成初始标记

，

不带有标记的摘要信息（有保存标记摘要信息位置但为初始值）；

计算

的摘要，再生成标记

生成的标记

包含有用户信息，文档分类信息，文档关键字，文档摘要，标记摘要（标记需要加密）；

（7）将添加到

中，最终得到带标记信息的文档

。

、标记服务器

为了保证标记过滤器能够正确、可靠的对非结构化数据进行过滤，需要有信息库来支持。标记服务器的功能就是一个保存信息的库。

标记服务器中保存有标记相关的信息：用户信息

，文档分类信息

，关键字和用户对分类文档的访问权限信息

。

（

，

）：用户信息有三个域，

为用户的ID；

为用户名；

为用户密码。

（

,

）:文档分类有三个域，

为文档分类ID；

为文档分类名；

为分类描述信息。

（

,

,

）:访问权限有三个域，

为用户ID，它与

中的

对应；

为文档ID，它与中的

对应；

描述ID为

的用户对ID为

的文档的访问权限。

（

）:仅有关键字域

。

、标记过滤器

标记过滤器是整个过程中最为核心部分。标记过滤器通过对提取的文档的标记信息进行分析，从而达到对文档及文档源的分析，因为文档的标记信息，记录有文档分类信息，关键字信息，文档来源的用户信息，以及文档和标记的摘要信息。

标记过滤器通过获得文档，提取文档标记，分析文档标记，记录日志，最终给出文档是否被过滤。其中，分析文档标记为最关键的步骤，它涉及到访问标记服务器的操作，及对文档的过滤结果。

标记过滤的过程如下：

（1）从网络获取带标记的文档

；

（2）分离文档与文档标记：分析文档，分离出L和

；

（3）判断标记是否被篡改：

提取标记摘要

并将

中的标记摘要位置设初值，得到

；计算

的摘要，比较与

，若相等，则到下一步，否则，到最后一步。

（4）用户身份认证：

提取用户信息

，将

中的

和

与标记服务器中的

进行比较分析，如果标记服务器中存在

且其密码为

，则到下一步，否则，到最后一步。

（5）判断文档是否被篡改：

提取文档摘要

，计算文档

的摘要

，比较

与

，若相等，下一步，否则，到最后一步。

（6）通过文档分类对文档进行过滤：

ａ）提取文档分类ID：

，并与标记服务器中

进行匹配；

ｂ）如果

，到最后一步，否则继续；

ｃ）提取用户ID：；

ｄ）访问标记服务器的访问控制列表

，如果满足

，提取

，否则，转到最后一步；

ｅ）通过判断用户对文档分类的访问权限

决定过滤器对文档的过滤结果（访问权限在实现时可以很灵活的由标记服务器的管理员和设计人员来控制）。如

能够描述用户权限不够，则到最后一步；否则继续；

（7）通过文档关键字对文档进行过滤：

提取文档关键字

，并与标记服务器中的关键字

比较，如果不匹配，下一步，否则，到最后一步；

（8）记录文档允许通过过滤器的日志信息；

（9）记录文档不允许通过过滤器的日志信息。

、日志系统

记录日志的目的是为了审计的需求，而审计的目的在于统计文档安全过滤的情况。在正常情况下，审计可以发现安全问题，在出现安全事件后，审计可以将安全问题追踪定位到源。这样不仅能够发现安全问题，而且结合人员管理来规范发送文档人员的操作。首先能够保证文档在源头的安全性。

通过日志信息，分析发现文档被过滤掉的原因：

a）文档标记被篡改；

b）用户非法（可能用户信息被篡改）；

c）文档被篡改；

d）用户访问文档的访问权限不够；

e）文档关键字显示文档内容有安全问题。

本发明方法提出了一种基于标记的非结构化数据安全过滤方法，主要解决用户在网络上传递非结构化数据时，能够在不同安全级别的网络间将数据进行过滤。由于当前非结构化的内容过滤技术并不能解决非结构化问题，基于标记的技术是通过对文档从源到过滤器之间各个过程的安全来保证文档没有出现安全问题。从而保证非结构化数据在传输过程中的安全问题。

下面给出具体的说明。

标记服务器通过保存标记相关用户，文档分类，关键字及用户访问文档权限的信息，从而为标记客户端和标记过滤器提供支持。标记服务器中的关键字信息

需要管理员或相关设计人员通过长期针对网络上安全过滤的关键字信息进行搜集整理，并最终确定关键字信息。文档分类信息

需要管理员或相关设计人员针对非结构化数据文档和安全过滤文档的内容、性质、用途等多个方面进行分析，对文档对行详细的分类描述。用户信息

需要用户提出注册申请，管理员需要对用户进行审核，并对用户设定访问分类文档的初始权限

。随着用户级别，信誉度等的提高，会对用户的权限做调整。

标记过滤器首先获得带标记的非结构化数据文档

，通过标记解析器分离出标记信息

与文档信息

。为了确定标记自己的安全性，需要判断标记摘要。为了确保发送文档的用户身份，需要从

中提取出用户信息

，并对用户进行身份认证。用户身份认证通过后，为了保证

在传输过程中没有被第三方修改，需要判断

的摘要信息是否会修改。摘要信息对比正确后，标记过滤器对用户与文档分类信息的访问权限做过滤处理。最后，通过文档的关键字进行文档进行过滤处理。在标记过滤器处理过程中，任何一步都要做日志记录。

附图说明

图1是基于标记的非结构化数据安全过滤系统的组成结构图，主要包括：标记客户端，标记服务器，标记过滤器，日志系统；

图2是参考体系结构示意图。表示本发明方法包括的组件；

图3是本发明方法的流程示意图。

具体实施方式

为了方便描述，我们假设有如下应用实例：

某企业具有内部安全级别高的网络，了为服务客户，需要将内部网络与安全级别低的英特网相连。在连接内部网络与外部网络的网关处，布置标记过滤器和标记服务器，内部和外部用户在传非结构化文档前，使用标记客户端对文档做标记，然后发送。文档在穿过内外网连接处时，会被标记过滤器截获，且标记过滤器会对文档进行过滤处理。假定应用场景为用户将非结构化数据文档从安全级别高的内部网络传递到安全级别低的英特网上,其具体的实施方案为：

标记服务器：

设计好文档分类信息、关键字信息、及管理用户注册信息与用户对分类文档的访问控制信息。假设标记服务已存在以下信息。

文档分类由绝密，机密和秘密三种分类；即

中有数据

(<

,绝密，“”>，<

, 机密，“”>,<

, 秘密，“”>)

存在用户,

,即

中有数据

(<

,

,

>,<

,

,

)

访问控制信息

中有

（<

,,N>,<

,

,Y>,<,,Y>,<,

,Y>）

即用户对机密和秘密文件有访问权限，对绝密文件没有访问权限，用户

只有对秘密文件有访问权限。关键字域

有

（<设计方案>,<内部资料>，<规划>，<蓝图>）。

标记客户端：

（1）用户打开标记客户端并登陆到标记服务器（假设用户为

）；

（2）选择文档，计算文档摘要；

（3）获得文档分类信息

，并选择文档分类信息

(假设选择

)，添加关键字(假设添加关键字为：“重要发现”，“科学规划”)；

（4）计算未带标记摘要的标记，计算标记摘要

，由和计算带标记摘要的标记

；

（5）将

添加到

中生成带标记的文档

，并发送。

标记过滤器：

（1）从网关获得带标记文档

；

（2）分离

，获得标记

和文档

；

（3）提取

中的标记摘要

，并计算标记的摘要

，比较

与，相等，则下一步，否则记录文档与标记信息的日志，结束；

（4）提取用户

与密码信息

，并从标记服务器中对用户进行身份认证，认证成功，下一步，否则记录文档与标记信息日志，结束；

（5）提取文档摘要

，并计算分离的的摘要

，比较

与

，相等，下一步，不相等，记录文档与标记信息日志，结束；

（6）提取文档分类信息

,通过标记服务器，能够找到

对

有访问权限，下一步（假设此步中，标记服务器中没有此记录，则记录文档与标记信息日志，结束）；

（7）提取关键字“重要发现”和“科学规划”信息，并与标记服务器中的关键字进行比较，发现“规划”关键字匹配，则记录文档与标记信息日志，结束。如果此步没有关键字匹配，则记录标记与文档信息日志，并标识为成功，结束。

审计服务器

（1）分析日志

（2）找到日志标记为非“成功”的日志

（3）分析被过滤的原因：关键字匹配了，文档内容涉密

（4）通知管理员

此外，管理员还需要花时间对允许通过标记服务器的文档内容做审核。