CN101330491A - 基于规则的邮件防控方法 - Google Patents

基于规则的邮件防控方法 Download PDF

Info

Publication number
CN101330491A
CN101330491A CNA2007100423735A CN200710042373A CN101330491A CN 101330491 A CN101330491 A CN 101330491A CN A2007100423735 A CNA2007100423735 A CN A2007100423735A CN 200710042373 A CN200710042373 A CN 200710042373A CN 101330491 A CN101330491 A CN 101330491A
Authority
CN
China
Prior art keywords
user
rule
information
interest
mail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CNA2007100423735A
Other languages
English (en)
Inventor
杜凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI BACKCOM INTELLIGENT TECHNOLOGY Co Ltd
Original Assignee
SHANGHAI BACKCOM INTELLIGENT TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI BACKCOM INTELLIGENT TECHNOLOGY Co Ltd filed Critical SHANGHAI BACKCOM INTELLIGENT TECHNOLOGY Co Ltd
Priority to CNA2007100423735A priority Critical patent/CN101330491A/zh
Publication of CN101330491A publication Critical patent/CN101330491A/zh
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

为了克服现有的垃圾邮件耗费网络带宽和计算机时空开销,而且对企业的正常运作和用户的正常工作造成严重的干扰,本发明提供一种基于规则的邮件防控方法,该发明实现了一种基于规则的邮件防控方法过程的准确性。

Description

基于规则的邮件防控方法
技术领域
本发明专利涉及一种基于规则的邮件防控方法,尤其是实现了一种基于规则的邮件防控方法的过程的准确性。
背景技术
目前,公知的在一般情况下,作为互联网的第一大应用,电子邮件一直受到广大网民的青睐。但是近些年来,垃圾邮件问题日益严重。2004年1月,中国互联网络信息中心(CNNIC)发布的《第十三次中国互联网发展状况统计报告》显示,中国网民平均每周收到13.7封电子邮件,其中垃圾邮件占了7.9封,垃圾邮件数量已经超过了正常邮件数量。垃圾邮件不仅耗费网络带宽和计算机时空开销,而且会对企业的正常运作和用户的正常工作造成严重的干扰。
发明内容
为了克服现有的垃圾邮件耗费网络带宽和计算机时空开销,而且对企业的正常运作和用户的正常工作造成严重的干扰,本发明提供一种基于规则的邮件防控方法,该发明实现了一种基于规则的邮件防控方法过程的准确性。
本发明解决其技术问题所采用的技术方案是:利用计算机科学处理实现。
本发明的有益效果是,实现了基于规则的邮件防控方法过程的准确性。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明的原理图
具体实施方式
为了克服现有的垃圾邮件耗费网络带宽和计算机时空开销,而且对企业的正常运作和用户的正常工作造成严重的干扰,本发明提供一种基于规则的邮件防控方法,该发明实现了一种基于规则的邮件防控方法过程的准确性。
基于规则的方法通过训练得到显式规则(通常用产生式表示,如:if邮件包含money,Then该邮件为垃圾邮件)。规则方法学习的过程实际上是归纳总结的过程,通过考查一个个的训练样本,归纳总结出其中规律性的东西来形成规则。规则方法的主要优点是可以生成人类理解的规则。缺点是在规律性不明显的应用领域效果较差。
本方法是在建立了基于UCL的用户兴趣模型和标引库之后,然后再使用“二阶过滤法”,具体而言,首先通过粗略语义,在“全球网”(World Wide Web)中,筛选出有限的关键词进入用户的信息库,形成“我的网区”(my web);其后,对存入my Web的文件,借助精细语义(个人自由定义的关注词句)逐句解读,提取含有该关注词的句子,连同适量的上下文字,供用户判读,并建立起用户兴趣模型.
为此我们将信息过滤分为两个步骤:
Step 1:分析、抽取新邮件的特征并与标引库进行比较,确定该邮件的UCL标引向量,并将其映射到语义向量空间中,得到用户感兴趣的类别信息并存入信息库中,也即粗略过滤;
Step 2:解读新邮件并与用户Profile进行比较,最终确定该新邮件是否为用户所需的信息,并提供给用户,即实现了精细过滤

Claims (3)

1.基于规则的邮件防控方法为了克服现有的垃圾邮件耗费网络带宽和计算机时空开销,而且对企业的正常运作和用户的正常工作造成严重的干扰,本发明提供一种基于规则的邮件防控方法,该发明实现了一种基于规则的邮件防控方法过程的准确性,其特征是:
基于规则的方法通过训练得到显式规则(通常用产生式表示,如:if邮件包含money,Then该邮件为垃圾邮件)。规则方法学习的过程实际上是归纳总结的过程,通过考查一个个的训练样本,归纳总结出其中规律性的东西来形成规则。规则方法的主要优点是可以生成人类理解的规则。缺点是在规律性不明显的应用领域效果较差。
本方法是在建立了基于UCL的用户兴趣模型和标引库之后,然后再使用“二阶过滤法”,具体而言,首先通过粗略语义,在“全球网”(World Wide Web)中,筛选出有限的关键词进入用户的信息库,形成“我的网区”(my web);其后,对存入my Web的文件,借助精细语义(个人自由定义的关注词句)逐句解读,提取含有该关注词的句子,连同适量的上下文字,供用户判读,并建立起用户兴趣模型.
为此我们将信息过滤分为两个步骤:
Step 1:分析、抽取新邮件的特征并与标引库进行比较,确定该邮件的UCL标引向量,并将其映射到语义向量空间中,得到用户感兴趣的类别信息并存入信息库中,也即粗略过滤;
Step 2:解读新邮件并与用户Profile进行比较,最终确定该新邮件是否为用户所需的信息,并提供给用户,即实现了精细过滤。
2.如1中所述,基于规则的方法的特征是:
在过滤系统中,将web页中的句子信息详细表示出来并存于本体信息库中.将该信息与用户输入的关注词句进行全文匹配,提取出含有该关注词的句子以及该句子所在文档信息.按照一定的顺序以HTML文档的形式提交给用户.如果提交的结果过多,用户还可以对其进行加权处理,使大于兴趣阈值的文档提交给用户.通过预处理,用户可决定是否有必要详细地阅读此网页,直接排除用户的疑虑。
3.如1中所述,基于规则的方法的特征是:
一定时期内经过用户端的信息流是一个信息集合,记为Q;在Q中符合用户兴趣需求的子集记为;其他不属于用户兴趣范围的信息构成子集M;显然有:
Q:U+M
从Q中依据表达用户需求的向量(p1,P2,…,Pn)而生成的信息集合记为.用户代理通过观察、记录、分析用户对的行为,将中用户不感兴趣(没有阅读等操作)的信息特征从向量(P1,P2,…,Pn)中去除或是修改其特征值;同时将新发现的用户感兴趣的信息特征加入到向量(P1,P2,…,Pn)中.从而不断动态地调整、修正用户的兴趣profile文件,使其能更准确地表达用户兴趣的变化,使U1能逐渐逼近U.
CNA2007100423735A 2007-06-21 2007-06-21 基于规则的邮件防控方法 Withdrawn CN101330491A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007100423735A CN101330491A (zh) 2007-06-21 2007-06-21 基于规则的邮件防控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007100423735A CN101330491A (zh) 2007-06-21 2007-06-21 基于规则的邮件防控方法

Publications (1)

Publication Number Publication Date
CN101330491A true CN101330491A (zh) 2008-12-24

Family

ID=40206082

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007100423735A Withdrawn CN101330491A (zh) 2007-06-21 2007-06-21 基于规则的邮件防控方法

Country Status (1)

Country Link
CN (1) CN101330491A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902459A (zh) * 2011-07-26 2013-01-30 联想(北京)有限公司 一种浏览电子邮件的方法、电子邮件浏览器和计算机

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902459A (zh) * 2011-07-26 2013-01-30 联想(北京)有限公司 一种浏览电子邮件的方法、电子邮件浏览器和计算机

Similar Documents

Publication Publication Date Title
CN103744905B (zh) 垃圾邮件判定方法和装置
JP5759228B2 (ja) 拡張されたエンティティ抽出を基礎とするメッセージ及び会話間の意味的類似性の計算方法
CN105488092B (zh) 一种时间敏感和自适应的子话题在线检测方法及系统
CN108399241B (zh) 一种基于多类特征融合的新兴热点话题检测系统
CN101408883A (zh) 一种网络舆情观点收集方法
CN110134788B (zh) 一种基于文本挖掘的微博发布优化方法及系统
CN101908055B (zh) 一种信息过滤系统
CN107590558A (zh) 一种基于多层集成学习的微博转发预测方法
CN106649578A (zh) 一种基于社交网络平台的舆情分析方法及系统
CN105117466A (zh) 一种互联网信息筛选系统及方法
CN101330491A (zh) 基于规则的邮件防控方法
Alotaibi The impact of twitter on Saudi banking sectors in the presence of social media: an evaluative study
Wei et al. Stock trends prediction combining the public opinion analysis
Pike Online privacy protection gaining momentum
Boon Koh et al. Consistency Regularization for Domain Adaptation
Lu Examining the utilization of social media by nongovernmental organizations for dialogic communication: A study of Chinese NGOs' Weibo use
Ifeoluwa Adelani et al. Privacy Guarantees for De-identifying Text Transformations
Channing Moore et al. Dataset balancing can hurt model performance
Sern Lee et al. BinImg2Vec: Augmenting Malware Binary Image Classification with Data2Vec
Helge Reelfs et al. Word-Emoji Embeddings from large scale Messaging Data reflect real-world Semantic Associations of Expressive Icons
Ma et al. Research on the Influence of Network Structure Complexity on Deep Learning for Gravitational Wave Detection
Ahmadi Achachlouei et al. Document Automation Architectures and Technologies: A Survey
Teimoori Faal On Clique Version of the Randic Index
Radhakrishnan Iyer et al. A Correspondence Analysis Framework for Author-Conference Recommendations
Khine Oo et al. Topic Extraction of Crawled Documents Collection using Correlated Topic Model in MapReduce Framework

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C04 Withdrawal of patent application after publication (patent law 2001)
WW01 Invention patent application withdrawn after publication