CN103944810B - 一种垃圾电子邮件意图识别系统 - Google Patents

一种垃圾电子邮件意图识别系统 Download PDF

Info

Publication number
CN103944810B
CN103944810B CN201410187923.2A CN201410187923A CN103944810B CN 103944810 B CN103944810 B CN 103944810B CN 201410187923 A CN201410187923 A CN 201410187923A CN 103944810 B CN103944810 B CN 103944810B
Authority
CN
China
Prior art keywords
intention
intended
spam
storehouse
mail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410187923.2A
Other languages
English (en)
Other versions
CN103944810A (zh
Inventor
李绍滋
郭锋
曹冬林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201410187923.2A priority Critical patent/CN103944810B/zh
Publication of CN103944810A publication Critical patent/CN103944810A/zh
Application granted granted Critical
Publication of CN103944810B publication Critical patent/CN103944810B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种垃圾电子邮件意图识别系统,包括意图抽取单元、意图判断及意图库维护单元,和意图库。本发明的一种垃圾电子邮件意图识别系统通过抽取电子邮件的显式URL地址、隐式URL地址、显示邮箱地址、隐式邮箱地址、QQ号码、银行账号、信用卡号、电话号码和公司名称等多种类型的意图,并在预先创建的意图库中对每个意图进行查询,之后将当前电子邮件的所有意图查询结果整合在一起进行综合分析判断,从而能够判断出当前电子邮件是否为垃圾邮件。本发明无需一一进入邮件正文中的超链接,并分析所链接的文本的意图,只需利用所述意图库即可高效地完成对电子邮件的意图分析和邮件属性判断,且所抽取的意图种类更多,意图分析结果更准确。

Description

一种垃圾电子邮件意图识别系统
技术领域
本发明涉及反垃圾邮件技术,特别涉及一种垃圾电子邮件意图识别系统。
背景技术
电子邮件作为当今互联网应用最广泛的服务之一,其方便、快捷和经济等特点,得到了无数商务人士的青睐。人们用它来办公,娱乐等等,邮件逐渐成为日常生活中不可缺少的通信工具。但随着信息化的发展,由于互联网的开放性与传播性,垃圾邮件的泛滥也成为用户尤其是企业机构不可忽视的巨大威胁。垃圾邮件中的某些消息具有很强的循环性和攻击性。垃圾电子邮件正开始逐步的减弱电子邮件的可靠性。对于个人用户和企业用户来说,垃圾邮件收发浪费了大量的网络带宽,区分垃圾邮件和正常邮件也浪费了用户的大量时间,尤其对企业机构来说,垃圾邮件已造成了极大的经济效益损失。
大部分垃圾邮件背后的动机是使邮件接收者接受某物,例如登陆某个站点,拨打某个电话,或者购买某支股票。这些动机被称为该邮件的“意图”,而对邮件的这些特点的观察和分析称为“意图分析”。邮件的意图是一种不同于传统技术中所指的内容或行为的全新特征,它具有稳定性、不可伪装性和必要性。
现有的垃圾邮件意图分析方案,通常需要点击进入邮件中的URL超链接地址所指向的网站,并分析该网站的内容。该方案效率低下,且所抽取的意图类型单一,同时,许多垃圾邮件通常采用混淆手段(如在邮件中加入随机噪声)来避免被识别,而该方案并不能处理这种问题。
发明内容
本发明的目的在于克服现有技术之不足,提供一种垃圾电子邮件意图识别系统,通过抽取电子邮件的显式URL地址、隐式URL地址、显示邮箱地址、隐式邮箱地址、QQ号码、银行账号、信用卡号、电话号码和公司名称等多种类型的意图,并在预先创建的意图库中对每个意图进行查询,之后将当前电子邮件的所有意图查询结果整合在一起进行综合分析判断,从而能够判断出当前电子邮件是否为垃圾邮件,而所述意图库可通过所述意图判断及意图库维护单元实现更新和维护。
本发明解决其技术问题所采用的技术方案为:一种垃圾电子邮件意图识别系统,包括意图抽取单元、意图判断及意图库维护单元,和由所述意图判断及意图库维护单元创建的意图库;
所述意图抽取单元接收来自上级单元的电子邮件全文和包括意图分析命令或反馈学习命令的操作指令;若所述操作指令为意图分析命令,则所述意图抽取单元抽取该电子邮件中指定类型的意图、形成意图串,并将该意图串连同该操作指令一起传送给所述意图判断及意图库维护单元,之后接收来自意图判断及意图库维护单元的邮件属性判断结果,并将该判断结果反馈给上级单元;若所述操作指令为反馈学习命令,则所述意图抽取单元抽取该电子邮件中指定类型的意图、形成意图串,并抽取该电子邮件中预先标记的邮件属性,之后将该意图串、该邮件属性连同该操作指令一起传送给所述意图判断及意图库维护单元;
所述意图判断及意图库维护单元接收来自意图抽取单元的意图串和意图分析命令,或意图串、邮件属性和反馈学习命令;若所述意图判断及意图库维护单元接收到意图分析命令,则通过对接收到的意图串中的所有意图在所述意图库中进行查询而分析判断出邮件属性,并向所述意图抽取单元反馈邮件属性判断结果;若所述意图判断及意图库维护单元接收到反馈学习命令,则基于接收到的意图串和邮件属性进行反馈学习并更新意图库;
所述意图判断及意图库维护单元还包括在预置的时间间隔内自动维护意图库;
所述指定类型的意图包括显式URL地址、隐式URL地址、显示邮箱地址、隐式邮箱地址、QQ号码、银行账号、信用卡号、电话号码和公司名称;
所述邮件属性包括垃圾邮件、正常邮件和未知邮件三种属性。
作为一种优选,所述意图库中存有意图文件,每个意图文件包括意图内容、意图种类、总频数、ham频数、spam频数、总文档数、ham文档数、spam文档数、生命值、ham%、spam%和特征向量;所述总频数为对应的意图内容在所述意图识别系统之前处理过的所有邮件中出现的次数,所述ham频数为对应的意图内容在所述意图识别系统之前处理过的正常邮件中出现的次数,所述spam频数为对应的意图内容在所述意图识别系统之前处理过的垃圾邮件中出现的次数,所述总文档数为所述意图识别系统之前处理过的所有邮件中存在对应的意图内容的邮件数,所述ham文档数为所述意图识别系统之前处理过的所有邮件中存在对应的意图内容的正常邮件数,所述spam文档数为所述意图识别系统之前处理过的所有邮件中存在对应的意图内容的垃圾邮件数,所述ham%为ham频数/总频数,所述spam%为spam频数/总频数,所述特征向量用于区分各个意图文件。
作为一种优选,所述意图抽取单元对所述指定类型的意图的抽取顺序为:首先抽取隐式URL地址和隐式邮箱地址,其次抽取显式URL地址和显示邮箱地址,然后抽取QQ号码、银行账号、信用卡号和电话号码,最后抽取公司名称。
作为一种优选,所述隐式URL地址和隐式邮箱地址的抽取过程包括如下步骤:
首先,读入一封电子邮件的html代码,并将该邮件的html代码整合为一个字符串;
其次,扫描当前的字符串,截取其中以“<a”开始、以“/a>”结尾的子字符串,若所述子字符串含有“href=”,则截取该子字符串中的href=“**”中引号间所包含的内容;
最后,若该截取内容中包括“mailto:”,则以预先统计的邮箱后缀库为截断标准截取出“mailto:”之后的邮箱地址,作为要抽取的隐式邮箱地址类意图;若该截取内容中包括“http”、“https”或“www.”,则以预先统计的域名后缀库为截断标准截取出“http”、“https”或“www.”之后的内容,作为要抽取的隐式URL地址类意图。
作为一种优选,所述显式URL地址和显式邮箱地址的抽取过程包括:读入一封电子邮件的正文,以一行为一个处理单元,按从上到下的顺序,抽取其中含有“http”、“https”或“www.”的行,并以现有的域名后缀库为截断标准截取出“http”、“https”或“www.”之后的内容,作为要抽取的显式URL地址类意图;抽取其中含有“@”的行,从该行中的“@”往前和往后、以邮箱用户名的命名标准和现有的邮箱后缀库为截断依据,截取出邮箱地址段,作为要抽取的显式邮箱地址类意图。
作为一种优选,所述意图抽取单元对QQ号码、银行账号、信用卡号、电话号码这4种意图采用如下抽取算法:
1)预处理,包括:
A1.通过预先统计,建立QQ号码、银行账号、信用卡号、电话号码这4种意图的前缀库,和电话号码类意图的后缀库;
A2.针对已抽取所述显式URL地址和显示邮箱地址的电子邮件的正文,以一行为一个处理单元,将其中除了字母、数字、“:”、“-”、“/”和“.”之外所有的单字节符号去掉,然后将其中用文字表示的数字和全角数字全部替换为半角数字,之后将“.”、“-”和“/”都替换为“:”,最后消除日期、系统时间和IP地址;
2)提取:提取经过所述预处理的正文中所有仅包含数字的纯数字段,以及每个纯数字段的前缀和后缀;
3)针对所提取的所有纯数字段及其前缀和后缀,采用如下步骤:
B1.若其中一个纯数字段的前缀属于QQ号码的前缀库,则在经过所述预处理的正文中从该纯数字段的第一位开始,连续提取数字,直到遇到汉字或回车,所提取的纯数字段作为一个QQ号码类意图;
B2.若其中一个纯数字段的前缀属于银行卡号的前缀库,则在经过所述预处理的正文中从该纯数字段的第一位开始,连续提取19个数字,所提取的纯数字段作为一个银行账号类意图;
B3.若其中一个纯数字段的前缀属于信用卡号的前缀库,则在经过所述预处理的正文中从该纯数字段的第一位开始,连续提取数字,每增加一个数字就计算所提取的纯数字段是否符合Luhn算法,直到符合为止,则所提取的纯数字段作为一个信用卡号类意图;
B4.若其中一个纯数字段的前缀属于电话号码的前缀库或后缀属于电话号码的后缀库,则在经过所述预处理的正文中从该纯数字段的第一位开始往后连续提取11到14位数字、或从该纯数字段的最后一位开始往前连续提取11到14位数字,并结合国内电话号码区号、对应的电话号码位数表和手机号码位数判断所提取的纯数字段的合法性,若合法,则所提取的纯数字段作为一个电话号码类意图。
作为一种优选,所述公司名称意图的提取过程包括:
首先,针对已抽取显式URL地址、显示邮箱地址、QQ号码、银行账号、信用卡号和电话号码的电子邮件的正文,以一行为一个处理单元,抽取其中含有属于预先统计的外国公司名后缀库的关键词的行,以该关键词为截断依据,截取出公司名称;
其次,针对剩下的正文,去除其中所有的单字节符,并将所有汉字表示的数字和全角数字都替换为半角数字,之后,以一行为一个处理单元,按从上到下的顺序抽取其中含有属于预先统计的公司名前缀库的关键词的行,从该行中的该关键词开始往后查找,若找到属于预先统计的中国公司名后缀库的关键词,记为中国公司名后缀,则以所述中国公司名后缀为截断依据,截取出一个或多个公司名称;若找不到,则忽略该行;
最后,针对剩下的正文,以一行为一个处理单元,按从上到下的顺序,抽取其中含有属于预先统计的中国公司名后缀库的关键词的行,以该关键词为截断依据,并结合中国区域地理名称截取出公司名称。
作为一种优选,所述意图判断及意图库维护单元包括意图查询模块、意图反馈学习模块和意图库维护模块;若所述意图判断及意图库维护单元接收到来自意图抽取单元的意图串和意图分析命令,则调用所述意图查询模块;若所述意图判断及意图库维护单元接收到来自意图抽取单元的意图串、邮件属性和反馈学习命令,则调用意图反馈学习模块;所述意图库维护模块每隔所述预置的时间间隔,将所述意图库中所有意图文件的生命值都减1,并将所述意图库中生命值小于0且ham文档数小于第一预设值的意图文件删除。
作为一种优选,所述意图查询模块将接收到的意图串分割获取单个意图,并在所述意图库中查询每个意图;若所述意图库存在包含该意图的意图文件,则根据该意图文件向所述意图查询模块返回该意图的spam%和ham%;所述意图查询模块查询完所有意图后,将所有意图的spam%相加得到spam%和,并将所有意图的ham%相加得到ham%和,如此,若所述spam%和大于第二预设值,则判断当前电子邮件为垃圾邮件,若所述spam%和小于所述ham%和,则判断当前电子邮件为正常邮件,其他情况,则判断当前电子邮件为邮件属性未知;其中所述第二预设值大于或等于0.5。
作为一种优选,所述意图反馈学习模块将接收到的意图串分割获取单个意图,并在所述意图库中查询每个意图,则:
若所述意图库存在包含该意图的意图文件,且当前电子邮件为垃圾邮件,则将相应的意图文件更新为原来的总频数加上此条意图在当前邮件中出现的频数,spam频数加上此条意图在当前邮件中出现的频数,总文档数加1,spam文档数加1,生命值加上此条意图在当前邮件中出现的频数,并对应更新spam%;若总文档数大于第三预设值,则总文档数减半、spam文档数减半、ham文档数减半;
若所述意图库存在包含该意图的意图文件,且当前电子邮件为正常邮件,则将相应的意图文件更新为原来的总频数加上此条意图在当前邮件中出现的频数,ham频数加上此条意图在当前邮件中出现的频数,总文档数加上一个第四预设值,ham文档数也加上所述第四预设值,生命值减去此条意图在当前邮件中出现的频数,并对应更新ham%;若总文档数大于所述第三预设值,则总文档数减半、spam文档数减半、ham文档数减半;
若所述意图库中不存在包含该意图的意图文件,且当前电子邮件为垃圾邮件,则在所述意图库中添加一个新的意图文件,将生命值赋值为一个第五预设值,总频数被赋值为此条意图在当前邮件中出现的频数,spam频数被赋值为此条意图在当前邮件中出现的频数,总文档数被赋值为1,spam文档数被赋值为1,并对应更新spam%;
若所述意图库不存在包含该意图的意图文件,且当前电子邮件为正常邮件,则不对当前意图库做任何改变。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
1.本发明的一种垃圾电子邮件意图识别系统,通过抽取电子邮件的显式URL地址、隐式URL地址、显示邮箱地址、隐式邮箱地址、QQ号码、银行账号、信用卡号、电话号码和公司名称等多种类型的意图,并在预先创建的意图库中对每个意图进行查询,之后将当前电子邮件的所有意图查询结果整合在一起进行综合分析判断,从而能够判断出当前电子邮件是否为垃圾邮件,而所述意图库可通过所述意图判断及意图库维护单元实现更新和维护。本发明无需一一进入当前电子邮件正文中的超链接,并分析所链接的文本的意图,只需利用所述意图库即可高效地完成对电子邮件的意图分析和邮件属性判断,且本发明所抽取的意图种类更多,意图分析结果更准确。
2.本发明的一种垃圾电子邮件意图识别系统的QQ号码、银行账号、信用卡号和电话号码抽取算法能够有效抽取出各种正确的意图,即使在电子邮件的意图中加入干扰符号、半角数字用汉字或全角数字表示,也能够识别出来。
3.本发明的一种垃圾电子邮件意图识别系统的公司名称抽取算法能够有效抽取出各种正确的意图,即使在电子邮件的意图中加入干扰符号、半角数字用汉字或全角数字表示,也能够识别出来。
4.本发明的一种垃圾电子邮件意图识别系统还包括反馈学习机制,运维人员定期对电子邮件进行人工判断,并将该判断结果和该电子邮件以及反馈学习命令一起通过上级单元传给本发明所述的垃圾电子邮件意图识别系统,本发明的系统通过意图抽取单元接收这些内容,并抽取该电子邮件的指定类型的意图、形成意图串,之后将该意图串、该判断结果和反馈学习命令一起传送给意图判断及意图库维护单元,意图判断及意图库维护单元调用意图反馈学习模块,该模块根据接收到的意图串中的各个意图及该判断结果,更新意图库中的意图文件,从而能够提高本发明的系统对垃圾电子邮件的判断的正确率。
附图说明
图1为本发明实施例的一种垃圾电子邮件意图识别系统示意图。
具体实施方式
实施例,
如图1所示,本发明提供了一种垃圾电子邮件意图识别系统,包括意图抽取单元1、意图判断及意图库维护单元2,和由所述意图判断及意图库维护单元2创建的意图库3;
所述意图抽取单元1接收来自上级单元4的电子邮件全文和包括意图分析命令或反馈学习命令的操作指令;若所述操作指令为意图分析命令,则所述意图抽取单元1抽取该电子邮件中指定类型的意图、形成意图串,并将该意图串连同该操作指令一起传送给所述意图判断及意图库3维护单元2,之后接收来自意图判断及意图库3维护单元2的邮件属性判断结果,并将该判断结果反馈给上级单元4;若所述操作指令为反馈学习命令,则所述意图抽取单元1抽取该电子邮件中指定类型的意图、形成意图串,并抽取该电子邮件中预先标记的邮件属性,之后将该意图串、该邮件属性连同该操作指令一起传送给所述意图判断及意图库3维护单元2;
所述意图判断及意图库3维护单元2接收来自意图抽取单元1的意图串和意图分析命令,或意图串、邮件属性和反馈学习命令;若所述意图判断及意图库3维护单元2接收到意图分析命令,则通过对接收到的意图串中的所有意图在所述意图库3中进行查询而分析判断出邮件属性,并向所述意图抽取单元1反馈邮件属性判断结果;若所述意图判断及意图库3维护单元2接收到反馈学习命令,则基于接收到的意图串和邮件属性进行反馈学习并更新意图库3;
所述意图判断及意图库3维护单元2还包括在预置的时间间隔内自动维护意图库3;
所述指定类型的意图包括显式URL地址、隐式URL地址、显示邮箱地址、隐式邮箱地址、QQ号码、银行账号、信用卡号、电话号码和公司名称;
所述邮件属性包括垃圾邮件、正常邮件和未知邮件三种属性。
本实施例中,所述隐式URL地址和隐式邮箱地址为从电子邮件的html代码中提取的意图,所述显式URL地址、显式URL地址、QQ号码、银行账号、信用卡号、电话号码和公司名称为从电子邮件的正文中提取的意图。
作为一种优选,所述意图库3中存有意图文件,每个意图文件包括意图内容、意图种类、总频数、ham频数、spam频数、总文档数、ham文档数、spam文档数、生命值、ham%、spam%和特征向量;所述总频数为对应的意图内容在所述意图识别系统之前处理过的所有邮件中出现的次数,所述ham频数为对应的意图内容在所述意图识别系统之前处理过的正常邮件中出现的次数,所述spam频数为对应的意图内容在所述意图识别系统之前处理过的垃圾邮件中出现的次数,所述总文档数为所述意图识别系统之前处理过的所有邮件中存在对应的意图内容的邮件数,所述ham文档数为所述意图识别系统之前处理过的所有邮件中存在对应的意图内容的正常邮件数,所述spam文档数为所述意图识别系统之前处理过的所有邮件中存在对应的意图内容的垃圾邮件数,所述ham%为ham频数/总频数,所述spam%为spam频数/总频数,所述特征向量用于区分各个意图文件。本实施例中,所述意图库3中还包括意图索引文件,所述意图索引文件中的每条索引记录包括单个意图文件的意图内容及该意图文件在意图库3中的位置,所述意图索引文件中的索引记录与所述意图文件为一一映射关系。因此,所述意图判断及意图库3维护单元2只需在意图索引文件中查找意图,找到相应的索引记录,即可查找到相应的意图文件。
作为一种优选,所述意图抽取单元1对所述指定类型的意图的抽取顺序为:首先抽取隐式URL地址和隐式邮箱地址,其次抽取显式URL地址和显示邮箱地址,然后抽取QQ号码、银行账号、信用卡号和电话号码,最后抽取公司名称。
作为一种优选,所述隐式URL地址和隐式邮箱地址的抽取过程包括如下步骤:
首先,读入一封电子邮件的html代码,并将该邮件的html代码整合为一个字符串;
其次,扫描当前的字符串,截取其中以“<a”开始、以“/a>”结尾的子字符串,若所述子字符串含有“href=”,则截取该子字符串中的href=“**”中引号间所包含的内容;
最后,若该截取内容中包括“mailto:”,则以预先统计的邮箱后缀库为截断标准截取出“mailto:”之后的邮箱地址,作为要抽取的隐式邮箱地址类意图;若该截取内容中包括“http”、“https”或“www.”,则以预先统计的域名后缀库为截断标准截取出“http”、“https”或“www.”之后的内容,作为要抽取的隐式URL地址类意图。
所述预先统计的邮箱后缀库包括各种类型的邮箱后缀,所述预先统计的域名后缀库包括各个国家的国家域名、各类公司或组织的域名,还有电脑中各种文件的扩展名。
作为一种优选,所述显式URL地址和显式邮箱地址的抽取过程包括:读入一封电子邮件的正文,以一行为一个处理单元,按从上到下的顺序,抽取其中含有“http”、“https”或“www.”的行,并以现有的域名后缀库为截断标准截取出“http”、“https”或“www.”之后的内容,作为要抽取的显式URL地址类意图;抽取其中含有“@”的行,从该行中的“@”往前和往后、以邮箱用户名的命名标准和现有的邮箱后缀库为截断依据,截取出邮箱地址段,作为要抽取的显式邮箱地址类意图。
本实施例中结合域名后缀库、利用boost库中正则表达式功能、构造一个正则表达式如下:
"(?:((?:http|https):\\/\\/)?www\\.|((?:http|https):\\/\\/))([0-9a-zA-Z\\.\\/\\-_:]{3,100}(?:"+域名后缀库中的词条
从而能够实现对显式URL地址的提取。
作为一种优选,所述意图抽取单元1对QQ号码、银行账号、信用卡号、电话号码这4种意图采用如下抽取算法:
1)预处理,包括:
A1.通过预先统计,建立QQ号码、银行账号、信用卡号、电话号码这4种意图的前缀库,和电话号码类意图的后缀库;
A2.针对已抽取所述显式URL地址和显示邮箱地址的电子邮件的正文,以一行为一个处理单元,将其中除了字母、数字、“:”、“-”、“/”和“.”之外所有的单字节符号去掉,然后将其中用文字表示的数字和全角数字全部替换为半角数字,之后将“.”、“-”和“/”都替换为“:”,最后消除日期、系统时间和IP地址;
2)提取:提取经过所述预处理的正文中所有仅包含数字的纯数字段,以及每个纯数字段的前缀和后缀;
3)针对所提取的所有纯数字段及其前缀和后缀,采用如下步骤:
B1.若其中一个纯数字段的前缀属于QQ号码的前缀库,则在经过所述预处理的正文中从该纯数字段的第一位开始,连续提取数字,直到遇到汉字或回车,所提取的纯数字段作为一个QQ号码类意图;
B2.若其中一个纯数字段的前缀属于银行卡号的前缀库,则在经过所述预处理的正文中从该纯数字段的第一位开始,连续提取19个数字,所提取的纯数字段作为一个银行账号类意图;
B3.若其中一个纯数字段的前缀属于信用卡号的前缀库,则在经过所述预处理的正文中从该纯数字段的第一位开始,连续提取数字,每增加一个数字就计算所提取的纯数字段是否符合Luhn算法,直到符合为止,则所提取的纯数字段作为一个信用卡号类意图;
B4.若其中一个纯数字段的前缀属于电话号码的前缀库或后缀属于电话号码的后缀库,则在经过所述预处理的正文中从该纯数字段的第一位开始往后连续提取11到14位数字、或从该纯数字段的最后一位开始往前连续提取11到14位数字,并结合国内电话号码区号、对应的电话号码位数表和手机号码位数判断所提取的纯数字段的合法性,若合法,则所提取的纯数字段作为一个电话号码类意图。
作为一种优选,所述公司名称意图的提取过程包括:
首先,针对已抽取显式URL地址、显示邮箱地址、QQ号码、银行账号、信用卡号和电话号码的电子邮件的正文,以一行为一个处理单元,抽取其中含有属于预先统计的外国公司名后缀库的关键词的行,以该关键词为截断依据,截取出公司名称;
其次,针对剩下的正文,去除其中所有的单字节符,并将所有汉字表示的数字和全角数字都替换为半角数字,之后,以一行为一个处理单元,按从上到下的顺序抽取其中含有属于预先统计的公司名前缀库的关键词的行,从该行中的该关键词开始往后查找,若找到属于预先统计的中国公司名后缀库的关键词,记为中国公司名后缀,则以所述中国公司名后缀为截断依据,截取出一个或多个公司名称;若找不到,则忽略该行;
最后,针对剩下的正文,以一行为一个处理单元,按从上到下的顺序,抽取其中含有属于预先统计的中国公司名后缀库的关键词的行,以该关键词为截断依据,并结合中国区域地理名称截取出公司名称。
作为一种优选,所述意图判断及意图库3维护单元2包括意图查询模块、意图反馈学习模块和意图库3维护模块;若所述意图判断及意图库3维护单元2接收到来自意图抽取单元1的意图串和意图分析命令,则调用所述意图查询模块;若所述意图判断及意图库3维护单元2接收到来自意图抽取单元1的意图串、邮件属性和反馈学习命令,则调用意图反馈学习模块;所述意图库3维护模块每隔所述预置的时间间隔,将所述意图库3中所有意图文件的生命值都减1,并将所述意图库3中生命值小于0且ham文档数小于第一预设值的意图文件删除,以防止意图库3中“过期”意图文件残留,导致意图库3中意图文件数目激增。本实施例中,所述预置的时间间隔为1天,所述第一预设值为3。
作为一种优选,所述意图查询模块将接收到的意图串分割获取单个意图,并在所述意图库3中查询每个意图;若所述意图库3存在包含该意图的意图文件,则根据该意图文件向所述意图查询模块返回该意图的spam%和ham%;所述意图查询模块查询完所有意图后,将所有意图的spam%相加得到spam%和,并将所有意图的ham%相加得到ham%和,如此,若所述spam%和大于第二预设值,则判断当前电子邮件为垃圾邮件,若所述spam%和小于所述ham%和,则判断当前电子邮件为正常邮件,其他情况,则判断当前电子邮件为邮件属性未知;其中所述第二预设值大于或等于0.5。
作为一种优选,所述意图反馈学习模块将接收到的意图串分割获取单个意图,并在所述意图库3中查询每个意图,则:
若所述意图库3存在包含该意图的意图文件,且当前电子邮件为垃圾邮件,则将相应的意图文件更新为原来的总频数加上此条意图在当前邮件中出现的频数,spam频数加上此条意图在当前邮件中出现的频数,总文档数加1,spam文档数加1,生命值加上此条意图在当前邮件中出现的频数,并对应更新spam%;若总文档数大于第三预设值,则总文档数减半、spam文档数减半、ham文档数减半;本实施例中,所述第三预设值为50000;
若所述意图库3存在包含该意图的意图文件,且当前电子邮件为正常邮件,则将相应的意图文件更新为原来的总频数加上此条意图在当前邮件中出现的频数,ham频数加上此条意图在当前邮件中出现的频数,总文档数加上一个第四预设值,ham文档数也加上所述第四预设值,生命值减去此条意图在当前邮件中出现的频数,并对应更新ham%;若总文档数大于所述第三预设值,则总文档数减半、spam文档数减半、ham文档数减半;本实施例中,所述第四预设值为100;
若所述意图库3中不存在包含该意图的意图文件,且当前电子邮件为垃圾邮件,则在所述意图库3中添加一个新的意图文件,将生命值赋值为一个第五预设值,总频数被赋值为此条意图在当前邮件中出现的频数,spam频数被赋值为此条意图在当前邮件中出现的频数,总文档数被赋值为1,spam文档数被赋值为1,并对应更新spam%;本实施例中,所述第五预设值为200;
若所述意图库3不存在包含该意图的意图文件,且当前电子邮件为正常邮件,则不对当前意图库3做任何改变。
本发明的一种垃圾电子邮件意图识别系统的反馈机制是,运维人员定期对电子邮件进行人工判断,并将该判断结果和该电子邮件以及反馈学习命令一起通过上级单元4传给本发明所述的垃圾电子邮件意图识别系统,本发明的系统通过意图抽取单元1接收这些内容,并抽取该电子邮件的指定类型的意图、形成意图串,之后将该意图串、该判断结果和反馈学习命令一起传送给意图判断及意图库3维护单元2,意图判断及意图库3维护单元2调用意图反馈学习模块,该模块根据接收到的意图串中的各个意图及该判断结果,更新意图库3中的意图文件,从而能够提高本发明的系统对垃圾电子邮件的判断的正确率。
上述实施例仅用来进一步说明本发明的一种垃圾电子邮件意图识别系统,但本发明并不局限于实施例,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均落入本发明技术方案的保护范围内。

Claims (9)

1.一种垃圾电子邮件意图识别系统,其特征在于,包括意图抽取单元、意图判断及意图库维护单元,和由所述意图判断及意图库维护单元创建的意图库;
所述意图抽取单元接收来自上级单元的电子邮件全文和包括意图分析命令或反馈学习命令的操作指令;若所述操作指令为意图分析命令,则所述意图抽取单元抽取该电子邮件中指定类型的意图、形成意图串,并将该意图串连同该操作指令一起传送给所述意图判断及意图库维护单元,之后接收来自意图判断及意图库维护单元的邮件属性判断结果,并将该判断结果反馈给上级单元;若所述操作指令为反馈学习命令,则所述意图抽取单元抽取该电子邮件中指定类型的意图、形成意图串,并抽取该电子邮件中预先标记的邮件属性,之后将该意图串、该邮件属性连同该操作指令一起传送给所述意图判断及意图库维护单元;
所述意图判断及意图库维护单元接收来自意图抽取单元的意图串和意图分析命令,或意图串、邮件属性和反馈学习命令;若所述意图判断及意图库维护单元接收到意图分析命令,则通过对接收到的意图串中的所有意图在所述意图库中进行查询而分析判断出邮件属性,并向所述意图抽取单元反馈邮件属性判断结果;若所述意图判断及意图库维护单元接收到反馈学习命令,则基于接收到的意图串和邮件属性进行反馈学习并更新意图库;
所述意图判断及意图库维护单元还包括在预置的时间间隔内自动维护意图库;
所述指定类型的意图包括显式URL地址、隐式URL地址、显示邮箱地址、隐式邮箱地址、QQ号码、银行账号、信用卡号、电话号码和公司名称;
所述邮件属性包括垃圾邮件、正常邮件和未知邮件三种属性;
所述意图库中存有意图文件,每个意图文件包括意图内容、意图种类、总频数、ham频数、spam频数、总文档数、ham文档数、spam文档数、生命值、ham%、spam%和特征向量;所述总频数为对应的意图内容在所述意图识别系统之前处理过的所有邮件中出现的次数,所述ham频数为对应的意图内容在所述意图识别系统之前处理过的正常邮件中出现的次数,所述spam频数为对应的意图内容在所述意图识别系统之前处理过的垃圾邮件中出现的次数,所述总文档数为所述意图识别系统之前处理过的所有邮件中存在对应的意图内容的邮件数,所述ham文档数为所述意图识别系统之前处理过的所有邮件中存在对应的意图内容的正常邮件数,所述spam文档数为所述意图识别系统之前处理过的所有邮件中存在对应的意图内容的垃圾邮件数,所述ham%为ham频数/总频数,所述spam%为spam频数/总频数,所述特征向量用于区分各个意图文件。
2.如权利要求1所述的一种垃圾电子邮件意图识别系统,其特征在于,所述意图抽取单元对所述指定类型的意图的抽取顺序为:首先抽取隐式URL地址和隐式邮箱地址,其次抽取显式URL地址和显示邮箱地址,然后抽取QQ号码、银行账号、信用卡号和电话号码,最后抽取公司名称。
3.如权利要求2所述的一种垃圾电子邮件意图识别系统,其特征在于,所述隐式URL地址和隐式邮箱地址的抽取过程包括如下步骤:
首先,读入一封电子邮件的html代码,并将该邮件的html代码整合为一个字符串;
其次,扫描当前的字符串,截取其中以“<a”开始、以“/a>”结尾的子字符串,若所述子字符串含有“href=”,则截取该子字符串中的href=“**”中引号间所包含的内容;
最后,若该截取内容中包括“mailto:”,则以预先统计的邮箱后缀库为截断标准截取出“mailto:”之后的邮箱地址,作为要抽取的隐式邮箱地址类意图;若该截取内容中包括“http”、“https”或“www.”,则以预先统计的域名后缀库为截断标准截取出“http”、“https”或“www.”之后的内容,作为要抽取的隐式URL地址类意图。
4.如权利要求2所述的一种垃圾电子邮件意图识别系统,其特征在于,所述显式URL地址和显式邮箱地址的抽取过程包括:读入一封电子邮件的正文,以一行为一个处理单元,按从上到下的顺序,抽取其中含有“http”、“https”或“www.”的行,并以现有的域名后缀库为截断标准截取出“http”、“https”或“www.”之后的内容,作为要抽取的显式URL地址类意图;抽取其中含有“@”的行,从该行中的“@”往前和往后、以邮箱用户名的命名标准和现有的邮箱后缀库为截断依据,截取出邮箱地址段,作为要抽取的显式邮箱地址类意图。
5.如权利要求2所述的一种垃圾电子邮件意图识别系统,其特征在于,所述意图抽取单元对QQ号码、银行账号、信用卡号、电话号码这4种意图采用如下抽取算法:
1)预处理,包括:
A1.通过预先统计,建立QQ号码、银行账号、信用卡号、电话号码这4种意图的前缀库,和电话号码类意图的后缀库;
A2.针对已抽取所述显式URL地址和显示邮箱地址的电子邮件的正文,以一行为一个处理单元,将其中除了字母、数字、“:”、“-”、“/”和“.”之外所有的单字节符号去掉,然后将其中用文字表示的数字和全角数字全部替换为半角数字,之后将“.”、“-”和“/”都替换为“:”,最后消除日期、系统时间和IP地址;
2)提取:提取经过所述预处理的正文中所有仅包含数字的纯数字段,以及每个纯数字段的前缀和后缀;
3)针对所提取的所有纯数字段及其前缀和后缀,采用如下步骤:
B1.若其中一个纯数字段的前缀属于QQ号码的前缀库,则在经过所述预处理的正文中从该纯数字段的第一位开始,连续提取数字,直到遇到汉字或回车,所提取的纯数字段作为一个QQ号码类意图;
B2.若其中一个纯数字段的前缀属于银行卡号的前缀库,则在经过所述预处理的正文中从该纯数字段的第一位开始,连续提取19个数字,所提取的纯数字段作为一个银行账号类意图;
B3.若其中一个纯数字段的前缀属于信用卡号的前缀库,则在经过所述预处理的正文中从该纯数字段的第一位开始,连续提取数字,每增加一个数字就计算所提取的纯数字段是否符合Luhn算法,直到符合为止,则所提取的纯数字段作为一个信用卡号类意图;
B4.若其中一个纯数字段的前缀属于电话号码的前缀库或后缀属于电话号码的后缀库,则在经过所述预处理的正文中从该纯数字段的第一位开始往后连续提取11到14位数字、或从该纯数字段的最后一位开始往前连续提取11到14位数字,并结合国内电话号码区号、对应的电话号码位数表和手机号码位数判断所提取的纯数字段的合法性,若合法,则所提取的纯数字段作为一个电话号码类意图。
6.如权利要求2所述的一种垃圾电子邮件意图识别系统,其特征在于,所述公司名称意图的提取过程包括:
首先,针对已抽取显式URL地址、显示邮箱地址、QQ号码、银行账号、信用卡号和电话号码的电子邮件的正文,以一行为一个处理单元,抽取其中含有属于预先统计的外国公司名后缀库的关键词的行,以该关键词为截断依据,截取出公司名称;
其次,针对剩下的正文,去除其中所有的单字节符,并将所有汉字表示的数字和全角数字都替换为半角数字,之后,以一行为一个处理单元,按从上到下的顺序抽取其中含有属于预先统计的公司名前缀库的关键词的行,从该行中的该关键词开始往后查找,若找到属于预先统计的中国公司名后缀库的关键词,记为中国公司名后缀,则以所述中国公司名后缀为截断依据,截取出一个或多个公司名称;若找不到,则忽略该行;
最后,针对剩下的正文,以一行为一个处理单元,按从上到下的顺序,抽取其中含有属于预先统计的中国公司名后缀库的关键词的行,以该关键词为截断依据,并结合中国区域地理名称截取出公司名称。
7.如权利要求1所述的一种垃圾电子邮件意图识别系统,其特征在于,所述意图判断及意图库维护单元包括意图查询模块、意图反馈学习模块和意图库维护模块;若所述意图判断及意图库维护单元接收到来自意图抽取单元的意图串和意图分析命令,则调用所述意图查询模块;若所述意图判断及意图库维护单元接收到来自意图抽取单元的意图串、邮件属性和反馈学习命令,则调用意图反馈学习模块;所述意图库维护模块每隔所述预置的时间间隔,将所述意图库中所有意图文件的生命值都减1,并将所述意图库中生命值小于0且ham文档数小于第一预设值的意图文件删除。
8.如权利要求7所述的一种垃圾电子邮件意图识别系统,其特征在于,所述意图查询模块将接收到的意图串分割获取单个意图,并在所述意图库中查询每个意图;若所述意图库存在包含该意图的意图文件,则根据该意图文件向所述意图查询模块返回该意图的spam%和ham%;所述意图查询模块查询完所有意图后,将所有意图的spam%相加得到spam%和,并将所有意图的ham%相加得到ham%和,如此,若所述spam%和大于第二预设值,则判断当前电子邮件为垃圾邮件,若所述spam%和小于所述ham%和,则判断当前电子邮件为正常邮件,其他情况,则判断当前电子邮件为邮件属性未知;其中所述第二预设值大于或等于0.5。
9.如权利要求7所述的一种垃圾电子邮件意图识别系统,其特征在于,所述意图反馈学习模块将接收到的意图串分割获取单个意图,并在所述意图库中查询每个意图,则:
若所述意图库存在包含该意图的意图文件,且当前电子邮件为垃圾邮件,则将相应的意图文件更新为原来的总频数加上此条意图在当前邮件中出现的频数,spam频数加上此条意图在当前邮件中出现的频数,总文档数加1,spam文档数加1,生命值加上此条意图在当前邮件中出现的频数,并对应更新spam%;若总文档数大于第三预设值,则总文档数减半、spam文档数减半、ham文档数减半;
若所述意图库存在包含该意图的意图文件,且当前电子邮件为正常邮件,则将相应的意图文件更新为原来的总频数加上此条意图在当前邮件中出现的频数,ham频数加上此条意图在当前邮件中出现的频数,总文档数加上一个第四预设值,ham文档数也加上所述第四预设值,生命值减去此条意图在当前邮件中出现的频数,并对应更新ham%;若总文档数大于所述第三预设值,则总文档数减半、spam文档数减半、ham文档数减半;
若所述意图库中不存在包含该意图的意图文件,且当前电子邮件为垃圾邮件,则在所述意图库中添加一个新的意图文件,将生命值赋值为一个第五预设值,总频数被赋值为此条意图在当前邮件中出现的频数,spam频数被赋值为此条意图在当前邮件中出现的频数,总文档数被赋值为1,spam文档数被赋值为1,并对应更新spam%;
若所述意图库不存在包含该意图的意图文件,且当前电子邮件为正常邮件,则不对当前意图库做任何改变。
CN201410187923.2A 2014-05-06 2014-05-06 一种垃圾电子邮件意图识别系统 Expired - Fee Related CN103944810B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410187923.2A CN103944810B (zh) 2014-05-06 2014-05-06 一种垃圾电子邮件意图识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410187923.2A CN103944810B (zh) 2014-05-06 2014-05-06 一种垃圾电子邮件意图识别系统

Publications (2)

Publication Number Publication Date
CN103944810A CN103944810A (zh) 2014-07-23
CN103944810B true CN103944810B (zh) 2017-02-15

Family

ID=51192300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410187923.2A Expired - Fee Related CN103944810B (zh) 2014-05-06 2014-05-06 一种垃圾电子邮件意图识别系统

Country Status (1)

Country Link
CN (1) CN103944810B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107294834A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种识别垃圾邮件的方法和装置
CN107690130A (zh) * 2016-08-03 2018-02-13 中国移动通信集团公司 一种信息识别方法及系统
CN110020366B (zh) * 2017-12-07 2021-06-15 北大方正集团有限公司 邮箱信息抽取方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1889108A (zh) * 2005-06-29 2007-01-03 腾讯科技(深圳)有限公司 一种识别垃圾邮件的方法
US8180837B2 (en) * 2007-10-31 2012-05-15 Fortinet, Inc. Image spam filtering based on senders' intention analysis
CN103001848A (zh) * 2011-09-08 2013-03-27 中国电信股份有限公司 垃圾邮件过滤方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1889108A (zh) * 2005-06-29 2007-01-03 腾讯科技(深圳)有限公司 一种识别垃圾邮件的方法
US8180837B2 (en) * 2007-10-31 2012-05-15 Fortinet, Inc. Image spam filtering based on senders' intention analysis
CN103001848A (zh) * 2011-09-08 2013-03-27 中国电信股份有限公司 垃圾邮件过滤方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于内容的垃圾邮件意图分析方法研究;孙吉谭;《中国优秀硕士学位论文全文数据库 信息科技辑》;20110915;第3.1,3.4-3.5节 *

Also Published As

Publication number Publication date
CN103944810A (zh) 2014-07-23

Similar Documents

Publication Publication Date Title
CN108259415B (zh) 一种邮件检测的方法及装置
US9721234B2 (en) Method and apparatus for generating a new event directly from a document
CN1918865B (zh) 生成和处理可任意处理的电子邮件地址的方法和系统
CN104982011B (zh) 使用多尺度文本指纹的文档分类
CN104462509A (zh) 垃圾评论检测方法及装置
CN101251837B (zh) 电子文件列表的显示处理方法和系统
Hidalgo et al. On the validity of a new SMS spam collection
CN108092963B (zh) 网页识别方法、装置、计算机设备及存储介质
CN101226619B (zh) 实现统计邮件中超链接url点击率的系统及方法
US20210126944A1 (en) Analysis of potentially malicious emails
KR20050000309A (ko) 개선된 스팸 검출 기술
CN104270521A (zh) 对来电号码进行处理的方法和移动终端
WO2013009713A2 (en) Syntactical fingerprinting
CN103235827B (zh) 一种科技信息自动分类筛选的方法
CN103856442A (zh) 一种黑链检测方法、装置和系统
CN103944810B (zh) 一种垃圾电子邮件意图识别系统
CN102880647A (zh) 一种机构别称的获取方法和装置
CN103067387B (zh) 一种反钓鱼监测系统和方法
CN106776567A (zh) 一种互联网大数据分析提取方法及系统
CN102566768A (zh) 一种对字符自动判断修正的方法及系统
CN103108290A (zh) 短信处理方法和装置
US8880611B1 (en) Methods and apparatus for detecting spam messages in an email system
CN102938785A (zh) 用于搜索引擎的不良信息举报和处理办法
CN101094197B (zh) 反垃圾邮件的方法及其邮件服务器
CN101980156A (zh) 自动提取电子邮件地址并新建电子邮件的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170215

Termination date: 20200506

CF01 Termination of patent right due to non-payment of annual fee