CN101330491A

CN101330491A - 基于规则的邮件防控方法

Info

Publication number: CN101330491A
Application number: CNA2007100423735A
Authority: CN
Inventors: 杜凤
Original assignee: SHANGHAI BACKCOM INTELLIGENT TECHNOLOGY Co Ltd
Current assignee: SHANGHAI BACKCOM INTELLIGENT TECHNOLOGY Co Ltd
Priority date: 2007-06-21
Filing date: 2007-06-21
Publication date: 2008-12-24

Abstract

为了克服现有的垃圾邮件耗费网络带宽和计算机时空开销，而且对企业的正常运作和用户的正常工作造成严重的干扰，本发明提供一种基于规则的邮件防控方法，该发明实现了一种基于规则的邮件防控方法过程的准确性。

Description

基于规则的邮件防控方法

技术领域

本发明专利涉及一种基于规则的邮件防控方法，尤其是实现了一种基于规则的邮件防控方法的过程的准确性。

背景技术

目前，公知的在一般情况下，作为互联网的第一大应用，电子邮件一直受到广大网民的青睐。但是近些年来，垃圾邮件问题日益严重。2004年1月，中国互联网络信息中心(CNNIC)发布的《第十三次中国互联网发展状况统计报告》显示，中国网民平均每周收到13.7封电子邮件，其中垃圾邮件占了7.9封，垃圾邮件数量已经超过了正常邮件数量。垃圾邮件不仅耗费网络带宽和计算机时空开销，而且会对企业的正常运作和用户的正常工作造成严重的干扰。

发明内容

本发明解决其技术问题所采用的技术方案是：利用计算机科学处理实现。

本发明的有益效果是，实现了基于规则的邮件防控方法过程的准确性。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明的原理图

具体实施方式

基于规则的方法通过训练得到显式规则(通常用产生式表示，如：if邮件包含money，Then该邮件为垃圾邮件)。规则方法学习的过程实际上是归纳总结的过程，通过考查一个个的训练样本，归纳总结出其中规律性的东西来形成规则。规则方法的主要优点是可以生成人类理解的规则。缺点是在规律性不明显的应用领域效果较差。

本方法是在建立了基于UCL的用户兴趣模型和标引库之后，然后再使用“二阶过滤法”，具体而言，首先通过粗略语义，在“全球网”(World Wide Web)中，筛选出有限的关键词进入用户的信息库，形成“我的网区”(my web)；其后，对存入my Web的文件，借助精细语义(个人自由定义的关注词句)逐句解读，提取含有该关注词的句子，连同适量的上下文字，供用户判读，并建立起用户兴趣模型.

为此我们将信息过滤分为两个步骤：

Step 1：分析、抽取新邮件的特征并与标引库进行比较，确定该邮件的UCL标引向量，并将其映射到语义向量空间中，得到用户感兴趣的类别信息并存入信息库中，也即粗略过滤；

Step 2：解读新邮件并与用户Profile进行比较，最终确定该新邮件是否为用户所需的信息，并提供给用户，即实现了精细过滤

Claims

1.基于规则的邮件防控方法为了克服现有的垃圾邮件耗费网络带宽和计算机时空开销，而且对企业的正常运作和用户的正常工作造成严重的干扰，本发明提供一种基于规则的邮件防控方法，该发明实现了一种基于规则的邮件防控方法过程的准确性，其特征是：

为此我们将信息过滤分为两个步骤：

Step 2：解读新邮件并与用户Profile进行比较，最终确定该新邮件是否为用户所需的信息，并提供给用户，即实现了精细过滤。

2.如1中所述，基于规则的方法的特征是：

在过滤系统中，将web页中的句子信息详细表示出来并存于本体信息库中.将该信息与用户输入的关注词句进行全文匹配，提取出含有该关注词的句子以及该句子所在文档信息.按照一定的顺序以HTML文档的形式提交给用户.如果提交的结果过多，用户还可以对其进行加权处理，使大于兴趣阈值的文档提交给用户.通过预处理，用户可决定是否有必要详细地阅读此网页，直接排除用户的疑虑。

3.如1中所述，基于规则的方法的特征是：

一定时期内经过用户端的信息流是一个信息集合，记为Q；在Q中符合用户兴趣需求的子集记为；其他不属于用户兴趣范围的信息构成子集M；显然有：

Q：U+M

从Q中依据表达用户需求的向量(p1，P2，…，Pn)而生成的信息集合记为.用户代理通过观察、记录、分析用户对的行为，将中用户不感兴趣(没有阅读等操作)的信息特征从向量(P1，P2，…，Pn)中去除或是修改其特征值；同时将新发现的用户感兴趣的信息特征加入到向量(P1，P2，…，Pn)中.从而不断动态地调整、修正用户的兴趣profile文件，使其能更准确地表达用户兴趣的变化，使U1能逐渐逼近U.