CN104394158A

CN104394158A - 一种信息安全过滤方法

Info

Publication number: CN104394158A
Application number: CN201410711235.1A
Authority: CN
Inventors: 刘洋
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2014-12-01
Filing date: 2014-12-01
Publication date: 2015-03-04

Abstract

本发明公开了一种信息安全过滤方法，其具体实现过程包括了第一级的基于Web缓存技术的地址过滤和第二级的基于内容的过滤两大步骤。其中基于内容的过滤步骤又包含了文档预处理、生成文本特征和过滤三个子步骤。该一种信息安全过滤方法与现有技术相比，利用了Web缓存技术及统计和知识特征两个方面的知识，很好地提高了信息过滤的准确性和网络信息的安全性，实用性强。

Description

一种信息安全过滤方法

技术领域

本发明涉及信息安全技术领域，具体地说是一种实用性强、信息安全过滤方法。

背景技术

随着网络通信技术的快速发展和因特网上数据量的急剧增长，主动信息服务作为一种新的信息服务模式，可以通过收集和分析用户兴趣建立用户模型，并在领域知识的指导下，按照用户模型对网络信息进行收集、整理和分类，最后将符合用户兴趣的内容及时推送给用户，大大提高了用户在网上获取信息的效率。但是，由于因特网的开放性、动态性和异构性的特点，又不可避免地给这种服务方式带来了诸多不安全的因素，如缺乏对信息发布的有效控制、不良信息的泛滥等。如何在这样的网络环境下为网络用户提供更好的服务，并有效控制网络信息的传播，保障网络信息的内容安全，就成为了目前急待解决的问题。信息过滤技术作为信息检索和主动信息服务中的关键技术，它的快速发展及广泛应用成为了解决该问题的最好方式。

所谓主动信息服务，就是指在没有用户干预的情况下，信息服务者或信息服务系统能根据用户的信息需求和偏好自动提供信息响应的服务。其实质就是针对计算机系统而言的服务的主动性。其特征有以下几点：主动发布信息、主动预测需求、主动采集信息、主动处理信息、主动挖掘知识、主动预测仿真、主动人机交互和主动适应用户。

上面的论述中可以看出，主动信息服务不仅可以根据用户信息需求的变化，把用户需要的感兴趣的信息主动动性也大大提高了用户获取网络信息的效率，节省了用户的时间和网络带宽。但是，它也带来了主动信息服务过程中极为突出的安全性问题：信息推送的不相关性和恶意的主动性问题。信息推送的不相关性主要体现在信息服务方在收集了用户兴趣之后，在定期为用户推送用户感兴趣的信息的同时，也会将一些与用户兴趣无关的或以前有关而现在无关（用户兴趣改变）的信息强行推送到用户桌面的工作方式。

恶意的主动性是指在用户允许主动信息服务的情况下，授权的或非授权的信息服务方将一些与用户需求无关的信息（如广告）或不良的恶意信息（如病毒、脚本程序和不良网页等）推送到用户桌面的工作方式。由此我们可以看出，以上两种服务方式不仅给接受主动信息服务的用户带来了许多使用上的不便，如浪费用户时间和网络带宽，也给用户的计算机系统造成了很大的威胁。下面将针对以上安全问题给出相关的判断、限制和阻止恶意主动信息服务的方法，提供一种信息安全过滤方法。

该方法基于信息安全过滤技术设计，其中信息过滤（InformationFiltering，IF）也就是所谓的信息的选择性传播。它是通过监控动态的信息源以找到满足用户需求的信息或剔除用户不需要的信息。该技术作为信息检索和主动信息服务的关键技术，可以有效地提高信息查询的查全率和查准率，为用户提供高效的个性化服务。但在网络安全领域，它的任务就是从动态的信息源中过滤掉在一段时间内比较固定的非需求信息或非法信息，并阻断有害信息的进一步的传播，这就是信息的安全过滤。

安全过滤的特点：

从上面的有关定义，我们可以对安全过滤的特点总结如下：

1）安全过滤是从两个方面进行描述的：非需求信息过滤和非法信息过滤；

2）非需求信息和非法信息的特征描述与表达在一段时间内是相对固定的；

3）安全过滤直接阻断或删除过滤出的有关信息，并将其记入日志文件，以避免用户下一次浏览相关信息，过滤的准确性和自主性更高；

4）安全过滤的实现对用户是隐藏的，在用户使用网络的过程中可以实时地进行过滤；

5）对于非需求信息的过滤需要用户进行反馈评价，但对于非法信息的过滤是不需要用户反馈的。

安全过滤的主要方法：

1）名单过滤（URL/IP过滤）。建立不良网站的URL或者IP地址列表数据库，并对该数据库进行定期的数据更新，当用户访问这些站点时，将访问站点的URL或者IP地址与数据库列表中的进行匹配，如果能够正确匹配，则给予阻断或封锁。

2）分级过滤。根据网页的内容属性或其他特征，并按照一定的分级标准，建立网站的分级标记，分级标记可以附在网页上，也可以保存在文件或数据库中，使用时以分级标记为过滤的依据，与过滤模板进行比较，或通过浏览器的安全设置选项实现分级过滤。

3）关键词过滤。该方法是对文本内容、文档的元数据等进行关键词简单匹配或者布尔逻辑运算，对满足匹配条件的网页或网站进行的过滤。在进行关键词过滤时，时常会出现关键词变形的情况，如同音字词、字词顺序颠倒、字词中插入其他字符串等，这些变形后的关键词是不能通过简单的匹配或者逻辑运算来实现有效过滤的。因此，可以采用计算关键词的匹配相关度、计算关键词中字之间的位置差等方法来完成对变形后的关键词的过滤。

前面提到的名单过滤和关键词过滤虽然是目前实现信息安全过滤的主要方法，但是它们在进行过滤时也存在一定的缺陷，如在名单过滤中，当网页中的部分内容为非需求信息或非法信息时，有可能导致整个网站被封，或者非法网站也可以通过改变IP地址，使之能够在一段时间内避免被过滤；而对于关键词过滤，其较高的漏报和错报率影响了安全过滤的效率。本发明提供一种基于统计和知识特征的多级信息安全过滤方法，能很好地解决以上问题。

发明内容

本发明的技术任务是针对以上不足之处，提供一种实用性强、信息安全过滤方法。

一种信息安全过滤方法，其具体实现过程为：

一、设置第一级过滤，即基于Web缓存的地址过滤，利用Web缓存技术在机器空闲或不忙时启动内容分析功能，对网页内容分类识别：使用标题判别引擎或内容判别引擎，根据预先设定的规则对缓存数据进行判断，对提供不良内容的URL进行登记，生成拦截黑名单加入数据库，同时删除缓存的不良网页，在该级将不良网站过滤掉；

二、设置第二级过滤，即基于内容的过滤，该级过滤包括：

文档预处理：对文本进行分词后加权，计算出文本中词的权值；

生成文本特征：根据上述计算的权值大小构造特征词典；

过滤：计算预先收集的满足和不满足过滤需求的两类文本的特征值，根据两类特征值的差异设置该过滤步骤中的阈值，计算得到的阈值用来判断待分析文本的特征值是否超过了该值，以决定是否进行相应的过滤处理，超过该值时，进行过滤。

所述分词为文档预处理的第一步，即将经第一级过滤后待处理的文档转换成词序列后，供信息过滤系统使用，上述分词采用机械匹配法、特征词库法、正向/逆向最大匹配法、抽取中频字串法、邻接约束法、最少分词法中的一种或几种的结合。

所述加权计算为文档预处理的第二步，其具体实现过程为：

将分词后待处理的文档D用一个m维向量表示为：D=(w1，w2，…，wi，…，wm)，其中wi表示第i个词的权值；用词频因子与反向文档频度因子之积来计算词的权值，即词的加权函数表示为：Wi=f(wi)*v(wi)，其中词频因子f(wi)反映词在文档中出现的频率，反向文档频度因子v(wi)表示词在文档中的重要程度。

所述文档特征的生成包括：

创建特征词典：经过对待处理文档的分词和词的权值计算之后，设置一个门槛值，该值作为构建特征词典的标准，权值高于门槛值的词作为特征词加入到特征词典中；然后根据词的权值大小来决定是否将对应的词加入到特征词典中；

创建好特征词典后，对特征词典中的特征词进行量化，即将其作为属性因子与词的权值进行运算，从而生成文档特征。

所述文档经过两级过滤后，系统根据所得到的过滤结果，发送相关反馈给特征词典及特征阈值，以及时改变其大小范围，实现最优的过滤。

本发明的一种信息安全过滤方法，具有以下优点：

该发明的一种信息安全过滤方法从地址和文档内容两个方面，利用了Web缓存技术及统计和知识特征两个方面的知识，很好地提高了信息过滤的准确性和网络信息的安全性，实用性较强，适用范围广泛，易于推广。

附图说明

附图1为本发明的实现示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

本发明提供一种信息安全过滤方法，该方法包括了第一级的基于Web缓存技术的地址过滤和第二级的基于内容的过滤两大步骤。其中基于内容的过滤又包含了文档预处理、生成文本特征和过滤三个子步骤。此方法从地址和文档内容两个方面，利用了Web缓存技术及统计和知识特征两个方面的知识，很好地提高了信息过滤的准确性和网络信息的安全性。如附图1所示，其具体实现过程为：

一、设置第一级过滤，简单的URL过滤。由于Web高速缓存服务器技术可以缓存用户访问过的对象，这一特点使得我们可以利用Web缓存技术在机器空闲或不忙时启动内容分析功能，采用网页内容判别技术，使用标题判别引擎或内容判别引擎，并根据预先设定的规则对缓存数据进行判断，对提供不良内容的URL进行登记，生成拦截黑名单加入数据库，同时删除缓存的不良网页，这样，在以后正常工作时，便可以在这一级将不良网站过滤掉，从而实现了一次扫描，多次服务的高效服务模式。该技术采用事后审计的方式，避免了常用的基于事先判别的内容过滤技术中用户响应时间长、浏览速度慢、误判率较高的缺点。

二、设置第二级过滤，由于上一级的过滤有可能存在一些没有被过滤掉的不良网页，此时可以对可能含有不安全信息的文本进行预处理，然后经过加权，计算出文本中词的权值，根据权值的大小构造特征词典。同时计算预先收集的满足和不满足过滤需求的两类文本的特征值，根据两类特征值的差异设置过滤模块中的阈值，计算得到的阈值可用来判断待分析文本的特征值是否超过了该值，以决定是否进行相应的过滤处理，超过该值时，进行过滤。

所述分词为文档预处理的第一步，也是进行信息过滤的基础环节，其目的在于将一篇待处理的文档先转换成词序列后，供信息过滤系统使用。目前常用的分词方法主要有机械匹配法、特征词库法、正向/逆向最大匹配法、抽取中频字串法、邻接约束法、最少分词法等。在这里我们采用词频统计和机械匹配相结合的方法进行文档的分词。

加权计算：一篇待处理的文档D可以用一个m维向量表示为：D=(w1，w2，…，wi，…，wm)，其中wi表示第i个词的权值。因此，在对文档进行了分词预处理后，还需要对表示文档的词进行加权计算。计算词的权值最常用的方法是用词频因子（TermFrequency，TF）与反向文档频度因子（InverseDocumentFrequency，IDF）之积来表示的，即词的加权函数可以表示为：Wi=f(wi)*v(wi)，其中词频因子f(wi)反映词在文档中出现的频率，反向文档频度因子v(wi)表示词在文档中的重要程度。

所述文档特征的生成包括：

创建特征词典：经过对待处理文档的分词和词的权值计算之后，设置一个门槛值，该值作为构建特征词典的标准，权值高于门槛值的词作为特征词加入到特征词典中；然后根据词的权值大小（权值大的词更能反映文档的特征）来决定是否将对应的词加入到特征词典中；

上述具体实施方式仅是本发明的具体个案，本发明的专利保护范围包括但不限于上述具体实施方式，任何符合本发明的一种信息安全过滤方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换，皆应落入本发明的专利保护范围。

Claims

1.一种信息安全过滤方法，其特征在于，其具体实现过程为：

二、设置第二级过滤，即基于内容的过滤，该级过滤包括：

生成文本特征：根据上述计算的权值大小构造特征词典；

2.根据权利要求1所述的一种信息安全过滤方法，其特征在于，所述分词为文档预处理的第一步，即将经第一级过滤后待处理的文档转换成词序列后，供信息过滤系统使用，上述分词采用机械匹配法、特征词库法、正向/逆向最大匹配法、抽取中频字串法、邻接约束法、最少分词法中的一种或几种的结合。

3.根据权利要求2所述的一种信息安全过滤方法，其特征在于，所述加权计算为文档预处理的第二步，其具体实现过程为：

将分词后待处理的文档D用一个m维向量表示为：D=(w1,w2,…，wi，…,wm)，其中wi表示第i个词的权值；用词频因子与反向文档频度因子之积来计算词的权值，即词的加权函数表示为：Wi=f(wi)*v(wi)，其中词频因子f(wi)反映词在文档中出现的频率，反向文档频度因子v(wi)表示词在文档中的重要程度。

4.根据权利要求1所述的一种信息安全过滤方法，其特征在于，所述文档特征的生成包括：

5.根据权利要求1-4中任一所述的一种信息安全过滤方法，其特征在于，所述文档经过两级过滤后，系统根据所得到的过滤结果，发送相关反馈给特征词典及特征阈值，以及时改变其大小范围，实现最优的过滤。