CN101330491A - 基于规则的邮件防控方法 - Google Patents
基于规则的邮件防控方法 Download PDFInfo
- Publication number
- CN101330491A CN101330491A CNA2007100423735A CN200710042373A CN101330491A CN 101330491 A CN101330491 A CN 101330491A CN A2007100423735 A CNA2007100423735 A CN A2007100423735A CN 200710042373 A CN200710042373 A CN 200710042373A CN 101330491 A CN101330491 A CN 101330491A
- Authority
- CN
- China
- Prior art keywords
- user
- rule
- information
- interest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
为了克服现有的垃圾邮件耗费网络带宽和计算机时空开销,而且对企业的正常运作和用户的正常工作造成严重的干扰,本发明提供一种基于规则的邮件防控方法,该发明实现了一种基于规则的邮件防控方法过程的准确性。
Description
技术领域
本发明专利涉及一种基于规则的邮件防控方法,尤其是实现了一种基于规则的邮件防控方法的过程的准确性。
背景技术
目前,公知的在一般情况下,作为互联网的第一大应用,电子邮件一直受到广大网民的青睐。但是近些年来,垃圾邮件问题日益严重。2004年1月,中国互联网络信息中心(CNNIC)发布的《第十三次中国互联网发展状况统计报告》显示,中国网民平均每周收到13.7封电子邮件,其中垃圾邮件占了7.9封,垃圾邮件数量已经超过了正常邮件数量。垃圾邮件不仅耗费网络带宽和计算机时空开销,而且会对企业的正常运作和用户的正常工作造成严重的干扰。
发明内容
为了克服现有的垃圾邮件耗费网络带宽和计算机时空开销,而且对企业的正常运作和用户的正常工作造成严重的干扰,本发明提供一种基于规则的邮件防控方法,该发明实现了一种基于规则的邮件防控方法过程的准确性。
本发明解决其技术问题所采用的技术方案是:利用计算机科学处理实现。
本发明的有益效果是,实现了基于规则的邮件防控方法过程的准确性。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明的原理图
具体实施方式
为了克服现有的垃圾邮件耗费网络带宽和计算机时空开销,而且对企业的正常运作和用户的正常工作造成严重的干扰,本发明提供一种基于规则的邮件防控方法,该发明实现了一种基于规则的邮件防控方法过程的准确性。
基于规则的方法通过训练得到显式规则(通常用产生式表示,如:if邮件包含money,Then该邮件为垃圾邮件)。规则方法学习的过程实际上是归纳总结的过程,通过考查一个个的训练样本,归纳总结出其中规律性的东西来形成规则。规则方法的主要优点是可以生成人类理解的规则。缺点是在规律性不明显的应用领域效果较差。
本方法是在建立了基于UCL的用户兴趣模型和标引库之后,然后再使用“二阶过滤法”,具体而言,首先通过粗略语义,在“全球网”(World Wide Web)中,筛选出有限的关键词进入用户的信息库,形成“我的网区”(my web);其后,对存入my Web的文件,借助精细语义(个人自由定义的关注词句)逐句解读,提取含有该关注词的句子,连同适量的上下文字,供用户判读,并建立起用户兴趣模型.
为此我们将信息过滤分为两个步骤:
Step 1:分析、抽取新邮件的特征并与标引库进行比较,确定该邮件的UCL标引向量,并将其映射到语义向量空间中,得到用户感兴趣的类别信息并存入信息库中,也即粗略过滤;
Step 2:解读新邮件并与用户Profile进行比较,最终确定该新邮件是否为用户所需的信息,并提供给用户,即实现了精细过滤
Claims (3)
1.基于规则的邮件防控方法为了克服现有的垃圾邮件耗费网络带宽和计算机时空开销,而且对企业的正常运作和用户的正常工作造成严重的干扰,本发明提供一种基于规则的邮件防控方法,该发明实现了一种基于规则的邮件防控方法过程的准确性,其特征是:
基于规则的方法通过训练得到显式规则(通常用产生式表示,如:if邮件包含money,Then该邮件为垃圾邮件)。规则方法学习的过程实际上是归纳总结的过程,通过考查一个个的训练样本,归纳总结出其中规律性的东西来形成规则。规则方法的主要优点是可以生成人类理解的规则。缺点是在规律性不明显的应用领域效果较差。
本方法是在建立了基于UCL的用户兴趣模型和标引库之后,然后再使用“二阶过滤法”,具体而言,首先通过粗略语义,在“全球网”(World Wide Web)中,筛选出有限的关键词进入用户的信息库,形成“我的网区”(my web);其后,对存入my Web的文件,借助精细语义(个人自由定义的关注词句)逐句解读,提取含有该关注词的句子,连同适量的上下文字,供用户判读,并建立起用户兴趣模型.
为此我们将信息过滤分为两个步骤:
Step 1:分析、抽取新邮件的特征并与标引库进行比较,确定该邮件的UCL标引向量,并将其映射到语义向量空间中,得到用户感兴趣的类别信息并存入信息库中,也即粗略过滤;
Step 2:解读新邮件并与用户Profile进行比较,最终确定该新邮件是否为用户所需的信息,并提供给用户,即实现了精细过滤。
2.如1中所述,基于规则的方法的特征是:
在过滤系统中,将web页中的句子信息详细表示出来并存于本体信息库中.将该信息与用户输入的关注词句进行全文匹配,提取出含有该关注词的句子以及该句子所在文档信息.按照一定的顺序以HTML文档的形式提交给用户.如果提交的结果过多,用户还可以对其进行加权处理,使大于兴趣阈值的文档提交给用户.通过预处理,用户可决定是否有必要详细地阅读此网页,直接排除用户的疑虑。
3.如1中所述,基于规则的方法的特征是:
一定时期内经过用户端的信息流是一个信息集合,记为Q;在Q中符合用户兴趣需求的子集记为;其他不属于用户兴趣范围的信息构成子集M;显然有:
Q:U+M
从Q中依据表达用户需求的向量(p1,P2,…,Pn)而生成的信息集合记为.用户代理通过观察、记录、分析用户对的行为,将中用户不感兴趣(没有阅读等操作)的信息特征从向量(P1,P2,…,Pn)中去除或是修改其特征值;同时将新发现的用户感兴趣的信息特征加入到向量(P1,P2,…,Pn)中.从而不断动态地调整、修正用户的兴趣profile文件,使其能更准确地表达用户兴趣的变化,使U1能逐渐逼近U.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007100423735A CN101330491A (zh) | 2007-06-21 | 2007-06-21 | 基于规则的邮件防控方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007100423735A CN101330491A (zh) | 2007-06-21 | 2007-06-21 | 基于规则的邮件防控方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101330491A true CN101330491A (zh) | 2008-12-24 |
Family
ID=40206082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2007100423735A Withdrawn CN101330491A (zh) | 2007-06-21 | 2007-06-21 | 基于规则的邮件防控方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101330491A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102902459A (zh) * | 2011-07-26 | 2013-01-30 | 联想(北京)有限公司 | 一种浏览电子邮件的方法、电子邮件浏览器和计算机 |
-
2007
- 2007-06-21 CN CNA2007100423735A patent/CN101330491A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102902459A (zh) * | 2011-07-26 | 2013-01-30 | 联想(北京)有限公司 | 一种浏览电子邮件的方法、电子邮件浏览器和计算机 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103744905B (zh) | 垃圾邮件判定方法和装置 | |
JP5759228B2 (ja) | 拡張されたエンティティ抽出を基礎とするメッセージ及び会話間の意味的類似性の計算方法 | |
CN105488092B (zh) | 一种时间敏感和自适应的子话题在线检测方法及系统 | |
CN108399241B (zh) | 一种基于多类特征融合的新兴热点话题检测系统 | |
CN101408883A (zh) | 一种网络舆情观点收集方法 | |
CN110134788B (zh) | 一种基于文本挖掘的微博发布优化方法及系统 | |
CN101908055B (zh) | 一种信息过滤系统 | |
CN107590558A (zh) | 一种基于多层集成学习的微博转发预测方法 | |
CN106649578A (zh) | 一种基于社交网络平台的舆情分析方法及系统 | |
CN105117466A (zh) | 一种互联网信息筛选系统及方法 | |
CN101330491A (zh) | 基于规则的邮件防控方法 | |
Alotaibi | The impact of twitter on Saudi banking sectors in the presence of social media: an evaluative study | |
Wei et al. | Stock trends prediction combining the public opinion analysis | |
Pike | Online privacy protection gaining momentum | |
Boon Koh et al. | Consistency Regularization for Domain Adaptation | |
Lu | Examining the utilization of social media by nongovernmental organizations for dialogic communication: A study of Chinese NGOs' Weibo use | |
Ifeoluwa Adelani et al. | Privacy Guarantees for De-identifying Text Transformations | |
Channing Moore et al. | Dataset balancing can hurt model performance | |
Sern Lee et al. | BinImg2Vec: Augmenting Malware Binary Image Classification with Data2Vec | |
Helge Reelfs et al. | Word-Emoji Embeddings from large scale Messaging Data reflect real-world Semantic Associations of Expressive Icons | |
Ma et al. | Research on the Influence of Network Structure Complexity on Deep Learning for Gravitational Wave Detection | |
Ahmadi Achachlouei et al. | Document Automation Architectures and Technologies: A Survey | |
Teimoori Faal | On Clique Version of the Randic Index | |
Radhakrishnan Iyer et al. | A Correspondence Analysis Framework for Author-Conference Recommendations | |
Khine Oo et al. | Topic Extraction of Crawled Documents Collection using Correlated Topic Model in MapReduce Framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C04 | Withdrawal of patent application after publication (patent law 2001) | ||
WW01 | Invention patent application withdrawn after publication |