CN103634473B - 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统 - Google Patents

基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统 Download PDF

Info

Publication number
CN103634473B
CN103634473B CN201310654754.4A CN201310654754A CN103634473B CN 103634473 B CN103634473 B CN 103634473B CN 201310654754 A CN201310654754 A CN 201310654754A CN 103634473 B CN103634473 B CN 103634473B
Authority
CN
China
Prior art keywords
refuse messages
module
messages
naive bayes
short message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310654754.4A
Other languages
English (en)
Other versions
CN103634473A (zh
Inventor
李文娟
李千目
戚湧
候君
孙向军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Teng Teng Automotive Network Technology Services Co., Ltd.
Original Assignee
LIANYUNGANG RESEARCH INSTITUTE OF NANJING UNIVERSITY OF SCIENCE AND TECHNOLOGY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LIANYUNGANG RESEARCH INSTITUTE OF NANJING UNIVERSITY OF SCIENCE AND TECHNOLOGY filed Critical LIANYUNGANG RESEARCH INSTITUTE OF NANJING UNIVERSITY OF SCIENCE AND TECHNOLOGY
Priority to CN201310654754.4A priority Critical patent/CN103634473B/zh
Publication of CN103634473A publication Critical patent/CN103634473A/zh
Application granted granted Critical
Publication of CN103634473B publication Critical patent/CN103634473B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供一种基于朴素贝叶斯分类的手机垃圾短信过滤系统和方法,其中该系统包括:信息截取模块,对新收到的短信息进行信息截取;缓存;黑名单过滤模块,基于预先设定的黑名单对新短信息进行过滤处理;关键词过滤模块,基于预先设定的关键词对对新短信息进行过滤处理;朴素贝叶斯分类智能过滤模块,基于预先训练好的特征词库,采用朴素贝叶斯算法计算新短信息是或不是垃圾短信的概率,如果概率比超过预设的阀值,则判断为垃圾短信,否则为正常短信。本发明的基于朴素贝叶斯分类的手机垃圾短信过滤系统和方法通过黑名单、关键字、朴素贝叶斯分类技术和中文分词技术结合的方法,智能判别短信是否为垃圾短信,从而实现对垃圾短信的过滤。

Description

基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统
技术领域
本发明涉及通信技术领域,尤其是短信处理技术,具体而言涉及一种基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统。
背景技术
随着飞速发展的移动通信技术和手机普及率的快速增长,使得手机短信的使用率迅速增加,短信业务正以其短小、迅速、简便、价格低廉等诸多优点日益成为人们的一种重要通信和交流方式。移动短信业务在飞速发展的过程中,一方面给广大使用者带来了各种方便;另一方面由于各种垃圾短信的大量出现,也带来了信息安全上的问题,影响了人们的正常生活。因而非常有必要将这些垃圾短信过滤掉。
通过对短信业务结构的分析,短信都是通过短信服务中心进行存储、转发,再到用户手机上。所以可以从两个方面对垃圾短信进行过滤,一种是短信息服务中心的过滤方式,另一种是手机终端的过滤方式。短信息中心目前尚未提供一个良好的垃圾短信过滤机制,在用户端仍然不间断地接收到垃圾短信、诈骗短信,甚至因为这些短信而发生财产损失和人生伤害。因此,有必要在手机终端采用过滤方式来实现垃圾短信过滤,但现有的有些手机软件使用黑名单技术来实现垃圾短信的过滤,其功能有限,并不能实现对垃圾短信的智能识别和过滤,尤其是针对垃圾短信、诈骗短信的内容带有干扰字符的情况下。
发明内容
本发明的目的在于提供一种基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统,采用了手机终端的过滤方式,通过黑名单、关键字技术,过滤黑名单中号码发送的垃圾短信和包含关键词的垃圾短信,并用朴素贝叶斯分类技术和中文分词技术结合的方法,智能判别短信是否为垃圾短信,从而实现对垃圾短信的过滤。
为达成上述目的,本发明所采用的技术方案如下:
一种基于朴素贝叶斯分类的手机垃圾短信过滤方法,包括以下步骤:
步骤1、准备阶段,其包括以下过程:
步骤1-1、选择一个或多个联系人号码作为黑名单号码,并将这些联系人号码存入一黑名单数据库;
步骤1-2、选择一个或多个关键词作为过滤词,并将这些关键词存入一关键词数据库;
步骤1-3、对正常短信样本库和垃圾短信样本库进行分词和训练处理,得到特征词库,其中包括每种类别特征词的先验概率、特征词以及特征词在每种类别中的条件概率组成特征向量;
步骤2、垃圾短信判定阶段,其包括以下过程:
步骤2-1、监听手机系统的短信事件,对新收到的短信息进行信息截取;
步骤2-2、判断短信息是否由黑名单数据库中的至少一个黑名单号码发送的,如果是,则判断为垃圾短信,并进入步骤2-5,否则,进入步骤2-3;
步骤2-3、判断短信息的内容是否包含关键词数据库中的至少一个关键词,如果是,则判断为垃圾短信,并进入步骤2-5,否则,进入步骤2-4;
步骤2-4、基于前述步骤1-3所得特征词库中的特征向量,使用朴素贝叶斯算法计算新短信息是或不是垃圾短信的概率,如果是垃圾短信与不是垃圾短信的概率比超过预设的阀值,则判定该短信息为垃圾短信,并进入步骤2-5,否则,判断为正常短信,进入步骤2-6;
步骤2-5、将判断为垃圾短信的短信息存入一垃圾短信数据库;
步骤2-6、将判断为正常短信的短信息存入手机系统收信箱。
进一步,前述步骤1-3包括以下步骤:
步骤1-3-1、获取正常短信样本库和垃圾短信样本库;
步骤1-3-2、对正常短信和垃圾短信进行分词处理,采用正向最大匹配算法和逆向最大匹配算法抽取词组,取该两种算法抽取结果的并集得到词组组合,为朴素贝叶斯分类训练提供样本词组;
步骤1-3-3、重复上述步骤1-3-2,直到对正常短信样本库和垃圾短信样本库中所有的正常短信和垃圾短信分词处理完毕,得到样本词组库;
步骤1-3-4、对样本词组库的分词结果进行统计,通过朴素贝叶斯分类算法进行训练处理,统计出正常短信和垃圾短信中每种类别特征词及特征词在每种类别中的条件概率,组成特征向量,从而得到整个样本词组库的特征词库。
进一步,前述步骤1-3-2包括以下步骤:
a)正常短信或垃圾短信的短信文本输入;
b)对输入的短信文本进行去噪处理;
c)采用正向最大匹配算法抽取词组;
d)采用逆向最大匹配算法抽取词组;
e)合并上述步骤c和d的抽取结果;以及
f)输出分词结果。
进一步,前述步骤2-4,包含以下步骤:
a)对短信息内容进行去噪处理,删除无用符号和/或数字;
b)匹配出短信息内容包含的特征词;
c)根据所包含特征词的条件概率计算此短信是或不是垃圾短信的概率;
d)判断是垃圾短信与不是垃圾短信的概率比是否高于一指定阈值:如果是,则判断为正常短信;如果否,则判断为垃圾短信;以及
e)输出判断结果。
进一步,前述基于朴素贝叶斯分类的手机垃圾短信过滤方法,在步骤2之后还包括以下步骤:
步骤3、查看存储于垃圾短信数据库中的垃圾短信拦截记录。
进一步,前述基于朴素贝叶斯分类的手机垃圾短信过滤方法,在步骤3之后还包括以下步骤:
步骤4、删除或恢复存储于垃圾短信数据库中的垃圾短信。
根据本发明的改进,还提出一种基于朴素贝叶斯分类的手机垃圾短信过滤系统,包括:
一信息截取模块,用于监听手机系统的短信事件,对新收到的短信息进行信息截取;
一缓存,与所述信息截取模块数据连接,用于存储所述截取的短信息;
一黑名单过滤模块,与所述信息截取模块数据连接,用于基于预先设定的黑名单对新短信息进行过滤处理;
一关键词过滤模块,与所述信息截取模块数据连接,用于基于预先设定的关键词对对新短信息进行过滤处理;
一朴素贝叶斯分类智能过滤模块,与所述信息截取模块数据连接,基于预先训练好的特征词库,采用朴素贝叶斯算法计算新短信息是或不是垃圾短信的概率,如果是垃圾短信与不是垃圾短信的概率比超过预设的阀值,则判断为垃圾短信,否则判断为正常短信;
一垃圾短信存储模块,用于存储被判断为垃圾短信的新短信息;以及
一垃圾短信操作控制模块,与前述垃圾短信存储模块以及一手机系统短信箱数据交互,用于根据外部输入的操作对垃圾短信存储模块中的新短信息进行下述操作中的一种:查看、删除、恢复以及答复。
进一步,所述黑名单过滤模块包括黑名单输入控制模块、黑名单数据库、号码获取模块以及黑名单判断模块,其中:
黑名单输入控制模块,用于根据外部输入的操作控制黑名单号码的存储;
黑名单数据库,用于存储黑名单号码;
号码获取模块,与所述信息截取模块数据连接,用于获取新短信息的发信人号码;
黑名单判断模块,与号码获取模块数据连接,用于判断新短信息的发信人号码是否包含在黑名单数据库内。
进一步,所述关键词过滤模块包括关键词输入控制模块、关键词数据库、短信内容获取模块以及关键词判断模块,其中:
关键词输入控制模块,用于根据外部输入的操作控制关键词的存储;
关键词数据库,用于存储关键词;
短信内容获取模块,与所述信息截取模块数据连接,用于获取新短信息的短信内容;
关键词判断模块,与短信内容获取模块数据连接,用于判断新短信息的短信内容是否包含关键词数据库中的至少一个关键词。
进一步,所述朴素贝叶斯分类智能过滤模块包括样本短信库输入模块、分词模块、特征向量抽取模块、去噪处理模块以及朴素贝叶斯分类的垃圾短信判断模块,其中:
样本短信库输入模块,用于输入正常短信样本库以及垃圾短信样本库;
分词模块,用于对正常短信样本库和垃圾短信样本库中的样本短信采用正向最大匹配算法和逆向最大匹配算法相结合的方法抽取样本词组,组成样本词组库;
特征向量抽取模块,用于对样本词组库进行特征抽取,获取正常短信和垃圾短信中每种类别特征词及特征词在每种类别中的条件概率,得到整个样本词组库的特征词库;
去噪处理模块,与所述信息截取模块数据连接,用于对新短信息的短信内容进行去噪处理,删除无用符号和/或数字;
朴素贝叶斯分类的垃圾短信判断模块,与去噪处理模块数据连接,用于基于预先训练好的特征词库,采用朴素贝叶斯算法计算新短信息是或不是垃圾短信的概率,如果是垃圾短信与不是垃圾短信的概率比超过预设的阀值,则判断为垃圾短信,否则判断为正常短信。
由以上本发明的技术方案可知,本发明的有益效果在于:
1、针对不法商贩经常变换号码发送垃圾短信,如果仅使用黑名单判断是否为垃圾短信,用户还是会经常受到骚扰,如果仅使用关键词作为判别条件,判定的错误率会很高,而且用户也会为敏感词的设置烦恼。为了弥补这两种判定的单一性和不准确性,本发明使用了朴素贝叶斯分类技术,通过对样本库(包括正常短信和垃圾短信)训练,得到特征库,以此作为判定短信的依据,实现智能识别垃圾短信。系统在接收短信的时候,自动通过短信内容对新短信息进行判断。例如短信“恭喜您在《快乐大本营》节目的抽奖中了小轿车一部,请尽快登陆www.kldby.com领取奖品”会被直接判定为中奖类垃圾短信。
2、由于中文的复杂性,难以在中文句子中获得特征词,朴素贝叶斯分类获取普遍应用只在对英文处理上,而本发明结合了中文分词算法,可以为朴素贝叶斯分类算法提供中文短信分割后的词组作为特征词,实现了对中文短信的分类判定。
3、分词处理时,如果只采用一种分词算法,可能会有关键词被遗漏。本发明对样本库进行分词处理时,采用逆向最大匹配算法和正向最大匹配算法相结合的方法,得到可能的所有的词组组合,弥补了仅使用一种分词匹配算法带来的误差,为朴素贝叶斯分类算法提供了更完整的样本,大大提高了智能判定短信的正确率。
4、对新短信息进行去噪处理,去除符号的干扰,提高垃圾短信判定的正确率。
5、为了使用户能够自主的排除不想要接收的垃圾短息,系统设计了数据库存储黑名单、关键词,用户可以自主的设置黑名单号码,可以自主的增删关键词,用此作为拦截垃圾短信的判别条件。
6、为了使用户能够查看垃圾短信记录,系统设计数据库存储垃圾短信记录,方便用户查看和恢复一些误删的垃圾短信。
附图说明
图1为本发明一实施方式种基于朴素贝叶斯分类的手机垃圾短信过滤方法的实现过程示意图。
图2为图1实施例中垃圾短信判定过程的示例性流程示意图。
图3为图1实施例中朴素贝叶斯分类的垃圾短信智能过滤的实现流程示意图。
图4为图1实施例中分词处理的一个示例性流程示意图。
图5为图4实施例中正向最大匹配算法的实现流程示意图。
图6为本发明一实施方式种基于朴素贝叶斯分类的手机垃圾短信过滤系统的结构示意图。
图7为图6实施例中黑名单过滤模块的一个示例性结构示意图。
图8为图6实施例中关键词过滤模块的一个示例性结构示意图。
图9为图6实施例中朴素贝叶斯分类智能过滤模块的一个示例性结构示意图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
图1所示为本发明一实施方式种基于朴素贝叶斯分类的手机垃圾短信过滤方法的实现过程,其中,基于朴素贝叶斯分类的手机垃圾短信过滤方法,包括以下2个基本步骤:步骤1——准备阶段,以及步骤2——垃圾短信判定阶段。下面结合图1-图5所示,对这两个阶段进行具体的说明。
如图1所示,步骤1、准备阶段,其包括以下过程:
步骤1-1、选择一个或多个联系人号码作为黑名单号码,并将这些联系人号码存入一黑名单数据库;
步骤1-2、选择一个或多个关键词作为过滤词,并将这些关键词存入一关键词数据库;
步骤1-3、对正常短信样本库和垃圾短信样本库进行分词和训练处理,得到特征词库,其中包括每种类别特征词的先验概率、特征词以及特征词在每种类别中的条件概率组成特征向量。
作为较佳的实施例,黑名单号码和关键词的选择具有用户自主性,用户可以自行设定黑名单号码与关键词,并存储在对应的黑名单数据库和关键词数据库中。黑名单数据库和关键词数据库可以配置在手机系统的数据库中,例如安卓手机系统的SQLite数据库中。
当用户欲添加黑名单时,可以手动添加或者从手机联系人中选择,可以查看和删除黑名单,从黑名单联系人发来的任意短信都将被拦截,存入垃圾短信数据库内。该垃圾短信数据库也可以是配置在手机系统的数据库中,例如安卓手机系统的SQLite数据库中。
同理地,用户可以自主添加关键词,如“中奖、“汇钱”等,当新短信包含关键词时,不论新短信的号码是否在黑名单中,此短信都将被拦截,存入垃圾短信记录数据库。用户可以查看和删除已有的关键词。
作为优选的实施例,如图3并参考图1所示,前述步骤1-3包括以下步骤:
步骤1-3-1、获取正常短信样本库和垃圾短信样本库;
步骤1-3-2、对正常短信和垃圾短信进行分词处理,采用正向最大匹配算法和逆向最大匹配算法抽取词组,取该两种算法抽取结果的并集得到词组组合,为朴素贝叶斯分类训练提供样本词组;
步骤1-3-3、重复上述步骤1-3-2,直到对正常短信样本库和垃圾短信样本库中所有的正常短信和垃圾短信分词处理完毕,得到样本词组库;
步骤1-3-4、对样本词组库的分词结果进行统计,通过朴素贝叶斯分类算法进行训练处理,统计出正常短信和垃圾短信中每种类别特征词及特征词在每种类别中的条件概率,组成特征向量,从而得到整个样本词组库的特征词库。
在该步骤1-3中,准备短信样本库(包括正常短信样本库和垃圾短信样本库)后,对其进行分词处理,对切割后的词组进行词频统计,选择特征向量,得到特征库,其中包含每种类别特征词的先验概率、特征词以及特征词在每种类别中的条件概率组成特征向量。
将短信分为K类:,记为C={C1,C2,C3,...,Ck},垃圾短信和正常短信S和S',则每个类Ci的先验概率为P(Ci),i=1,2,...,k,其值为Ci类的样本数除以训练集总样本数n。对分词结果提供的词组进行统计,得出特征词的条件概率。
在可选的实施例中,正常短信样本库和垃圾短信样本库可以从网络中更新,也可以手动添加。
作为优选的实施例,参考图4所示,前述步骤1-3-2的分词处理包括以下步骤:
a)正常短信或垃圾短信的短信文本输入;
b)对输入的短信文本进行去噪处理;
c)采用正向最大匹配算法抽取词组;
d)采用逆向最大匹配算法抽取词组;
e)合并上述步骤c和d的抽取结果;以及
f)输出分词结果。
例如,对于分词文本“有意见分歧”,通过两种算法分词得到的结果为“有意”、“见”、“分歧”和“有”、“意见”、“分歧”。本实施例中取结果的并集,得到可能的所有的词组组合,弥补了仅使用一种分词匹配算法带来的误差,为朴素贝叶斯分类算法提供了更完整的样本,大大提高了智能判定短信的正确率。
图5所示为分词程序中正向最大匹配算法的流程图。正向最大匹配算法,从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。图中词典是分词匹配算法中匹配为词组的依据,本实施例中选新华字典作为分词程序词典,当然并不以此为限制。
如图5所示,正向最大匹配法完成分词的一部分处理,其包括以下过程:
a)将词典的每个词条读入内存,最长是4字词,最短是1字词;
b)从样本短信中读入一段(一行)文字,保存为字符串;
c)如果字符串长度大于4个中文字符,则取字符串最左边的4个中文字符,作
为候选词;否则取出整个字符串作为候选词;
d)在词典中查找这个候选词,如果查找失败,则去掉这个候选词的最右字,重复这步进行查找,直到候选词为1个中文字符;
e)将候选词从字符串中取出、删除,回到第3步直到字符串为空;
f)回到第b步,直到样本短信已读完。
逆向最大匹配算法,与正向最大匹配算法相反,从右到左将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。在此不做赘述。
下面介绍步骤2——垃圾短信判定阶段。
参考图1、图2结合图3所示,步骤2——垃圾短信判定阶段,其包括以下过程:
步骤2-1、监听手机系统的短信事件,对新收到的短信息进行信息截取;
步骤2-2、判断短信息是否由黑名单数据库中的至少一个黑名单号码发送的,如果是,则判断为垃圾短信,并进入步骤2-5,否则,进入步骤2-3;
步骤2-3、判断短信息的内容是否包含关键词数据库中的至少一个关键词,如果是,则判断为垃圾短信,并进入步骤2-5,否则,进入步骤2-4;
步骤2-4、基于前述步骤1-3所得特征词库中的特征向量,使用朴素贝叶斯算法计算新短信息是或不是垃圾短信的概率,如果是垃圾短信与不是垃圾短信的概率比超过预设的阀值,则判定该短信息为垃圾短信,并进入步骤2-5,否则,判断为正常短信,进入步骤2-6;
步骤2-5、将判断为垃圾短信的短信息存入一垃圾短信数据库;
步骤2-6、将判断为正常短信的短信息存入手机系统收信箱。
作为优选的实施例,在上述步骤2之后还包括以下步骤:
步骤3、查看存储于垃圾短信数据库中的垃圾短信拦截记录。
作为更优选的实施例,在上述步骤3之后还包括以下步骤:
步骤4、删除或恢复存储于垃圾短信数据库中的垃圾短信。
如图2所示,作为优选的实施例,前述步骤2-4,包含以下步骤:
a)对短信息内容进行去噪处理,删除无用符号和/或数字;
b)匹配出短信息内容包含的特征词;
c)根据所包含特征词的条件概率计算此短信是或不是垃圾短信的概率;
d)判断是垃圾短信与不是垃圾短信的概率比是否高于一指定阈值:如果是,则判断为正常短信;如果否,则判断为垃圾短信;以及
e)输出判断结果。
为了方便理解和说明,下面简要介绍下朴素贝叶斯分类的实现原理,如下:
将短信分为K类,记为C={C1,C2,C3,...,Ck},则每个类Ci的先验概率为P(Ci),i=1,2,...,k,其值为Ci类的样本数除以训练集总样本数n。
在给定的C类文本中第i个词出现的概率可以表示为:p(wi|C)
对于一个给定类别C,词wi的出现在短信D的概率表示为
p ( D | C ) = Π i p ( w i | C ) - - - ( 1 )
短信D属于类C的概率即p(C|D)有:
p ( D | C ) = p ( D ∩ C ) p ( C ) - - - ( 2 )
p ( C | D ) = p ( D ∩ C ) P ( D ) - - - ( 3 )
通过朴素贝叶斯定理将上述概率处理成似然度的形式:
p ( C | D ) = p ( C ) p ( C ) p ( D | C ) - - - ( 4 )
即,去垃圾短信和正常短信为类S和S',则
p ( D | S ) = Π i p ( w i | S ) - - - ( 5 )
p ( D | S ′ ) = Π i p ( w i | S ′ ) - - - ( 6 )
每个短信是或不是垃圾短信的概率是:
是垃圾短信的概率: p ( S | D ) = p ( S ) p ( D ) Π i p ( w i | S ) - - - ( 7 )
不是垃圾短信的概率: p ( S ′ | D ) = p ( S ′ ) p ( D ) Π i p ( w i | S ′ ) - - - ( 8 )
两者相除整理得:
p ( S | D ) p ( S ′ | D ) = p ( S ) p ( S ′ ) Π i p ( w i | S ) p ( w i | S ′ ) - - - ( 9 )
结合上面所讨论的概率比,可以得到:
ln p ( S | D ) p ( S ′ | D ) = ln p ( S ) p ( S ′ ) + Σ i ln p ( w i | S ) p ( w i | S ′ ) - - - ( 10 )
最后对短信进行判断分类,当超过一指定阀值时,判定为垃圾短信,否则为正常短信。其中:p(S)和p(S')为类S和S'的先验概率,由朴素贝叶斯分类训练提供;p(wi|S)为词wi出现在类S中的条件概率,由朴素贝叶斯分类训练提供。
如图6所示,为本发明一实施方式基于朴素贝叶斯分类的手机垃圾短信过滤系统的结构示意,其中,基于朴素贝叶斯分类的手机垃圾短信过滤系统包括:
一信息截取模块10,用于监听手机系统的短信事件,对新收到的短信息进行信息截取;
一缓存11,与所述信息截取模块数据连接,用于存储所述截取的短信息;
一黑名单过滤模块12,与所述信息截取模块10数据连接,用于基于预先设定的黑名单对新短信息进行过滤处理;
一关键词过滤模块14,与所述信息截取模块10数据连接,用于基于预先设定的关键词对对新短信息进行过滤处理;
一朴素贝叶斯分类智能过滤模块16,与所述信息截取模块数据10连接,基于预先训练好的特征词库,采用朴素贝叶斯算法计算新短信息是或不是垃圾短信的概率,如果是垃圾短信与不是垃圾短信的概率比超过预设的阀值,则判断为垃圾短信,否则判断为正常短信;
一垃圾短信存储模块17,用于存储被判断为垃圾短信的新短信息;以及
一垃圾短信操作控制模块18,与前述垃圾短信存储模块17以及一手机系统短信箱19数据交互,用于根据外部输入的操作对垃圾短信存储模块中的新短信息进行下述操作中的一种:查看、删除、恢复以及答复。
结合图7所示的黑名单过滤模块一实施方式的示例性结构,黑名单过滤模块12包括黑名单输入控制模块12a、黑名单数据库12b、号码获取模块12c以及黑名单判断模块12d,其中:
黑名单输入控制模块12a,用于根据外部输入的操作控制黑名单号码的存储;
黑名单数据库12b,用于存储黑名单号码;
号码获取模块12c,与所述信息截取模块10数据连接,用于获取新短信息的发信人号码;
黑名单判断模块12d,与号码获取模块12c数据连接,用于判断新短信息的发信人号码是否包含在黑名单数据库内。
结合图8所示的关键词过滤模块一实施方式的示例性结构,关键词过滤模块14包括关键词输入控制模块14a、关键词数据库14b、短信内容获取模块14c以及关键词判断模块14d,其中:
关键词输入控制模块14a,用于根据外部输入的操作控制关键词的存储;
关键词数据库14b,用于存储关键词;
短信内容获取模块14c,与所述信息截取模块10数据连接,用于获取新短信息的短信内容;
关键词判断模块14d,与短信内容获取模块10数据连接,用于判断新短信息的短信内容是否包含关键词数据库中的至少一个关键词。
结合图8所示的朴素贝叶斯分类智能过滤模块一实施方式的示例性结构,朴素贝叶斯分类智能过滤模块16包括样本短信库输入模块16a、分词模块16b、特征向量抽取模块16c、去噪处理模块16d以及朴素贝叶斯分类的垃圾短信判断模块16e,其中:
样本短信库输入模块16a,用于输入正常短信样本库以及垃圾短信样本库;
分词模块16b,用于对正常短信样本库和垃圾短信样本库中的样本短信采用正向最大匹配算法和逆向最大匹配算法相结合的方法抽取样本词组,组成样本词组库;
特征向量抽取模块16c,用于对样本词组库进行特征抽取,获取正常短信和垃圾短信中每种类别特征词及特征词在每种类别中的条件概率,得到整个样本词组库的特征词库;
去噪处理模块16d,与所述信息截取模块10数据连接,用于对新短信息的短信内容进行去噪处理,删除无用符号和/或数字;
朴素贝叶斯分类的垃圾短信判断模块16e,与去噪处理模块16d数据连接,用于基于预先训练好的特征词库,采用朴素贝叶斯算法计算新短信息是或不是垃圾短信的概率,如果是垃圾短信与不是垃圾短信的概率比超过预设的阀值,则判断为垃圾短信,否则判断为正常短信。
本实施例中,上述提到的输入,可以是通过手机的键盘输入,或者触摸式显示屏输入,或者是通过语音识别的方式进行输入。当然,并不以此为限制。
黑名单过滤模块12,关键词过滤模块14,朴素贝叶斯分类智能过滤模块16,如上所述,已结合图1-图5做了详细的说明。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

Claims (4)

1.一种基于朴素贝叶斯分类的手机垃圾短信过滤方法,其特征在于,包括以下步骤:
步骤1、准备阶段,其包括以下过程:
步骤1-1、选择一个或多个联系人号码作为黑名单号码,并将这些联系人号码存入一黑名单数据库;
步骤1-2、选择一个或多个关键词作为过滤词,并将这些关键词存入一关键词数据库;
步骤1-3、对正常短信样本库和垃圾短信样本库进行分词和训练处理,得到特征词库,其中包括每种类别特征词的先验概率、特征词以及特征词在每种类别中的条件概率组成的特征向量;其中步骤1-3具体包括以下4个步骤,即1-3-1到1-3-4:
步骤1-3-1、获取正常短信样本库和垃圾短信样本库;
步骤1-3-2、对正常短信和垃圾短信进行分词处理,采用正向最大匹配算法和逆向最大匹配算法抽取词组,取该两种算法抽取结果的并集得到词组组合,为朴素贝叶斯分类训练提供样本词组;步骤1-3-2具体包括以下6个步骤:
a)正常短信或垃圾短信的短信文本输入;
b)对输入的短信文本进行去噪处理;
c)采用正向最大匹配算法抽取词组;
d)采用逆向最大匹配算法抽取词组;
e)合并上述步骤c和d的抽取结果;以及
f)输出分词结果;
步骤1-3-3、重复上述步骤1-3-2,直到对正常短信样本库和垃圾短信样本库中所有的正常短信和垃圾短信分词处理完毕,得到样本词组库;
步骤1-3-4、对样本词组库的分词结果进行统计,通过朴素贝叶斯分类算法进行训练处理,统计出正常短信和垃圾短信中每种类别特征词的先验概率、特征词以及特征词在每种类别中的条件概率组成的特征向量,从而得到整个样本词组库的特征词库;
步骤2、垃圾短信判定阶段,其包括以下过程:
步骤2-1、监听手机系统的短信事件,对新收到的短信息进行信息截取;
步骤2-2、判断短信息是否由黑名单数据库中的至少一个黑名单号码发送的,如果是,则判断为垃圾短信,并进入步骤2-5,否则,进入步骤2-3;
步骤2-3、判断短信息的内容是否包含关键词数据库中的至少一个关键词,如果是,则判断为垃圾短信,并进入步骤2-5,否则,进入步骤2-4;
步骤2-4、基于前述步骤1-3所得特征词库中的特征向量,使用朴素贝叶斯算法计算新短信息是或不是垃圾短信的概率,如果是垃圾短信与不是垃圾短信的概率比超过预设的阈值,则判定该短信息为垃圾短信,并进入步骤2-5,否则,判断为正常短信,进入步骤2-6;步骤2-4具体包含以下5个步骤:
2-4-1对短信息内容进行去噪处理,删除无用符号和/或数字;
2-4-2匹配出短信息内容包含的特征词;
2-4-3根据所包含特征词的条件概率计算此短信是或不是垃圾短信的概率;
2-4-4判断是垃圾短信与不是垃圾短信的概率比是否高于一指定阈值:如果是,则判断为垃圾短信;如果否,则判断为正常短信;以及
2-4-5输出判断结果;
步骤2-5、将判断为垃圾短信的短信息存入一垃圾短信数据库;
步骤2-6、将判断为正常短信的短信息存入手机系统收信箱。
2.根据权利要求1所述的基于朴素贝叶斯分类的手机垃圾短信过滤方法,其特征在于,前述基于朴素贝叶斯分类的手机垃圾短信过滤方法,在步骤2之后还包括以下步骤:
步骤3、查看存储于垃圾短信数据库中的垃圾短信拦截记录。
3.根据权利要求2所述的基于朴素贝叶斯分类的手机垃圾短信过滤方法,其特征在于,前述基于朴素贝叶斯分类的手机垃圾短信过滤方法,在步骤3之后还包括以下步骤:
步骤4、删除或恢复存储于垃圾短信数据库中的垃圾短信。
4.一种基于朴素贝叶斯分类的手机垃圾短信过滤系统,其特征在于,包括:
一信息截取模块,用于监听手机系统的短信事件,对新收到的短信息进行信息截取;
一缓存,与所述信息截取模块数据连接,用于存储所述截取的短信息;
一黑名单过滤模块,与所述信息截取模块数据连接,用于基于预先设定的黑名单对新短信息进行过滤处理;
一关键词过滤模块,与所述信息截取模块数据连接,用于基于预先设定的关键词对对新短信息进行过滤处理;
一朴素贝叶斯分类智能过滤模块,与所述信息截取模块数据连接,基于预先训练好的特征词库,采用朴素贝叶斯算法计算新短信息是或不是垃圾短信的概率,如果是垃圾短信与不是垃圾短信的概率比超过预设的阈值,则判断为垃圾短信,否则判断为正常短信;
一垃圾短信存储模块,用于存储被判断为垃圾短信的新短信息;以及
一垃圾短信操作控制模块,与前述垃圾短信存储模块以及一手机系统短信箱数据交互,用于根据外部输入的操作对垃圾短信存储模块中的新短信息进行下述操作中的一种:查看、删除、恢复以及答复;
所述朴素贝叶斯分类智能过滤模块包括样本短信库输入模块、分词模块、特征向量抽取模块、去噪处理模块以及朴素贝叶斯分类的垃圾短信判断模块,其中:
样本短信库输入模块,用于输入正常短信样本库以及垃圾短信样本库;
分词模块,用于对正常短信样本库和垃圾短信样本库中的样本短信采用正向最大匹配算法和逆向最大匹配算法相结合的方法抽取样本词组,组成样本词组库;
特征向量抽取模块,用于对样本词组库进行特征抽取,获取正常短信和垃圾短信中每种类别特征词及特征词在每种类别中的条件概率,得到整个样本词组库的特征词库;
去噪处理模块,与所述信息截取模块数据连接,用于对新短信息的短信内容进行去噪处理,删除无用符号和/或数字;
朴素贝叶斯分类的垃圾短信判断模块,与去噪处理模块数据连接,用于基于预先训练好的特征词库,采用朴素贝叶斯算法计算新短信息是或不是垃圾短信的概率,如果是垃圾短信与不是垃圾短信的概率比超过预设的阈值,则判断为垃圾短信,否则判断为正常短信。
CN201310654754.4A 2013-12-05 2013-12-05 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统 Expired - Fee Related CN103634473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310654754.4A CN103634473B (zh) 2013-12-05 2013-12-05 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310654754.4A CN103634473B (zh) 2013-12-05 2013-12-05 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统

Publications (2)

Publication Number Publication Date
CN103634473A CN103634473A (zh) 2014-03-12
CN103634473B true CN103634473B (zh) 2016-03-23

Family

ID=50215082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310654754.4A Expired - Fee Related CN103634473B (zh) 2013-12-05 2013-12-05 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统

Country Status (1)

Country Link
CN (1) CN103634473B (zh)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156228B (zh) * 2014-04-01 2017-11-10 兰州工业学院 一种客户端短信过滤嵌入式特征库及更新方法
CN105205079A (zh) * 2014-06-26 2015-12-30 联想(北京)有限公司 一种信息处理方法及电子设备
CN104168548A (zh) * 2014-08-21 2014-11-26 北京奇虎科技有限公司 短信拦截方法及装置、云端服务器
CN105516941A (zh) * 2014-10-13 2016-04-20 中兴通讯股份有限公司 一种垃圾短信的拦截方法及装置
CN104408294B (zh) * 2014-10-31 2017-07-21 南京理工大学 一种基于事件关系网络的事件摘要方法
CN106156056B (zh) * 2015-03-27 2020-03-06 联想(北京)有限公司 一种文本模式学习方法及电子设备
CN106294346A (zh) * 2015-05-13 2017-01-04 厦门美柚信息科技有限公司 一种论坛帖子识别方法及装置
CN104933191A (zh) * 2015-07-09 2015-09-23 广东欧珀移动通信有限公司 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端
CN106376002B (zh) * 2015-07-20 2021-10-12 中兴通讯股份有限公司 一种管理方法及装置、垃圾短信监控系统
CN105589845B (zh) * 2015-12-18 2019-02-26 北京奇虎科技有限公司 垃圾文本识别方法、装置及系统
CN106909534A (zh) * 2015-12-23 2017-06-30 中国移动通信集团公司 一种判别文本安全性的方法及装置
CN106933924A (zh) * 2015-12-31 2017-07-07 中国移动通信集团公司 一种信息识别方法及系统
CN105791543A (zh) * 2016-02-23 2016-07-20 北京奇虎科技有限公司 一种清理短信的方法、装置、客户端和系统
CN107155178A (zh) * 2016-03-03 2017-09-12 深圳市新悦蓝图网络科技有限公司 一种基于智能算法的垃圾短信过滤方法
CN106095747A (zh) * 2016-06-03 2016-11-09 北京工商大学 一种垃圾短信的识别方法和系统
CN107515852A (zh) * 2016-06-16 2017-12-26 阿里巴巴集团控股有限公司 特定类型信息识别方法及装置
KR101806174B1 (ko) 2016-06-21 2017-12-07 숭실대학교산학협력단 스팸 문자 판별 시스템 및 방법, 이를 수행하기 위한 기록매체
CN106685796B (zh) * 2016-06-29 2018-09-04 腾讯科技(深圳)有限公司 一种信息识别方法、装置和系统
CN106446032A (zh) * 2016-08-30 2017-02-22 江苏博智软件科技有限公司 一种垃圾信息的处理方法和装置
CN106372184A (zh) * 2016-08-31 2017-02-01 迈普通信技术股份有限公司 防止中文关键字过滤逃逸的网络设备及方法
CN106454780A (zh) * 2016-11-11 2017-02-22 努比亚技术有限公司 垃圾短信过滤系统和方法
CN106682089A (zh) * 2016-11-26 2017-05-17 山东大学 一种基于RNNs的短信自动安全审核的方法
CN106803769A (zh) * 2016-12-08 2017-06-06 浙江工业大学 一种基于wifi的无源‑无设备人体朝向检测方法
CN108268459A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于朴素贝叶斯的社区言论过滤系统
CN107168951B (zh) * 2017-05-10 2019-07-05 山东大学 一种基于规则与词典的监狱犯人短信自动审核方法
CN107257419B (zh) * 2017-05-16 2019-10-15 武汉赛可锐信息技术有限公司 一种基于贝叶斯分析人际关系量化估值方法
CN107193805B (zh) 2017-06-06 2021-05-14 北京百度网讯科技有限公司 基于人工智能的文章价值评估方法、装置及存储介质
CN109040982A (zh) * 2017-06-08 2018-12-18 梁小红 一种识别垃圾短信的方法及装置
CN107862069A (zh) * 2017-11-21 2018-03-30 广州星耀悦教育科技有限公司 一种分类数据库的构建方法以及图书分类的方法
CN108256827A (zh) * 2018-01-10 2018-07-06 广东轩辕网络科技股份有限公司 目标职位分析方法及系统
CN108830108A (zh) * 2018-06-04 2018-11-16 成都知道创宇信息技术有限公司 一种基于朴素贝叶斯算法的网页内容篡改检测方法
CN109034271A (zh) * 2018-08-23 2018-12-18 锦上包装江苏有限公司 基于机器学习的Android平台垃圾短信检测系统
CN109639838B (zh) * 2019-02-13 2020-03-17 随身云(南京)信息技术有限公司 一种基于大数据的信息分类存储系统
CN110059189B (zh) * 2019-04-11 2021-03-05 厦门点触科技股份有限公司 一种游戏平台消息的分类系统及方法
CN110134778B (zh) * 2019-04-26 2023-02-10 珍岛信息技术(上海)股份有限公司 一种无效数据过滤系统
CN110300383A (zh) * 2019-05-24 2019-10-01 深圳市趣创科技有限公司 一种垃圾短信过滤程序算法及装置与系统和存储介质
CN111198947B (zh) * 2020-01-06 2024-02-13 南京中新赛克科技有限责任公司 基于朴素贝叶斯优化下的卷积神经网络诈骗短信分类方法和系统
CN111565190B (zh) * 2020-05-06 2022-07-05 福建天晴数码有限公司 一种服务器过滤请求的方法及装置
CN112597282B (zh) * 2021-01-24 2021-06-11 深圳市诚立业科技发展有限公司 一种应用于短信数据安全的管理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101184259A (zh) * 2007-11-01 2008-05-21 浙江大学 垃圾短信中的关键词自动学习及更新方法
CN101877837A (zh) * 2009-04-30 2010-11-03 华为技术有限公司 一种短信过滤的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101184259A (zh) * 2007-11-01 2008-05-21 浙江大学 垃圾短信中的关键词自动学习及更新方法
CN101877837A (zh) * 2009-04-30 2010-11-03 华为技术有限公司 一种短信过滤的方法和装置

Also Published As

Publication number Publication date
CN103634473A (zh) 2014-03-12

Similar Documents

Publication Publication Date Title
CN103634473B (zh) 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统
CN105955976B (zh) 一种自动应答系统及方法
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
CN109241274B (zh) 文本聚类方法及装置
CN101184259B (zh) 垃圾短信中的关键词自动学习及更新方法
US10235720B2 (en) Merchant identification and expense item classification from a mobile device capture of an event receipt
CN103441924B (zh) 一种基于短文本的垃圾邮件过滤方法及装置
CN110309304A (zh) 一种文本分类方法、装置、设备及存储介质
CN103425777B (zh) 一种基于改进贝叶斯分类的短信智能分类及搜索方法
CN103136266A (zh) 邮件分类的方法及装置
Sheikhi et al. An effective model for SMS spam detection using content-based features and averaged neural network
CA2743273C (en) Method and device for intercepting junk mail
CN102543078B (zh) 电子名片系统及电子名片的语音录入方法、语音检索方法
CN104933113A (zh) 一种基于语义理解的表情输入方法和装置
CN105389400A (zh) 语音交互方法及装置
CN103294776A (zh) 一种智能手机通讯录模糊搜索的方法
CN105893615B (zh) 基于手机取证数据的机主特征属性挖掘方法及其系统
CN104462509A (zh) 垃圾评论检测方法及装置
CN107294834A (zh) 一种识别垃圾邮件的方法和装置
CN101977360B (zh) 垃圾短信过滤方法
Mohammed et al. Classifying unsolicited bulk email (UBE) using python machine learning techniques
CN103902599A (zh) 模糊查找的方法和装置
CN101853280B (zh) 一种手持设备中联系人查找方法
CN101251853A (zh) 基于用户交互记录来挖掘用户属性的方法及系统
CN111079427A (zh) 一种垃圾邮件识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Sun Wei

Inventor after: Li Qianmu

Inventor after: Qi Yong

Inventor after: Hou Jun

Inventor after: Sun Xiangjun

Inventor before: Li Wenjuan

Inventor before: Li Qianmu

Inventor before: Qi Yong

Inventor before: Hou Jun

Inventor before: Sun Xiangjun

CB03 Change of inventor or designer information
TR01 Transfer of patent right

Effective date of registration: 20170309

Address after: 266000 room 501-502, No. 170, Haier Road, No. 5, Xin Yu Business Center, No. 170, Haier Road, Laoshan District, Shandong, China

Patentee after: Qingdao Teng Teng Automotive Network Technology Services Co., Ltd.

Address before: 222000 Lianyungang Chenguang Road, Jiangsu, No. 2

Patentee before: Lianyungang Research Institute of Nanjing University of Science and Technology

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160323

Termination date: 20171205

CF01 Termination of patent right due to non-payment of annual fee