CN108093376A - 一种垃圾短信的过滤方法及装置 - Google Patents
一种垃圾短信的过滤方法及装置 Download PDFInfo
- Publication number
- CN108093376A CN108093376A CN201611027840.2A CN201611027840A CN108093376A CN 108093376 A CN108093376 A CN 108093376A CN 201611027840 A CN201611027840 A CN 201611027840A CN 108093376 A CN108093376 A CN 108093376A
- Authority
- CN
- China
- Prior art keywords
- feature
- short message
- text
- noise
- kinds
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/12—Messaging; Mailboxes; Announcements
- H04W4/14—Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/12—Detection or prevention of fraud
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种垃圾短信的过滤方法及装置,通过对获取到的短信文本提取各类噪音特征,计算各类噪音特征在短信文本中的权重,构建各类噪音特征的向量空间;再将其输送至决策树分类器中,根据各类噪音特征的向量空间,以及预先训练完成的决策树分类器,确定各类噪音特征的向量空间是否满足决策树分类器中垃圾短信的分类条件,当确定各类噪音特征的向量空间满足垃圾短信的分类条件时,即可以确认获取到的短信文本为垃圾短信。因此,该方法通过对噪音特征的挖掘,实现了对短信文本中存在的特殊文本形式进行分类,灵活地应对垃圾短信中文本内容的形式多样化,提高了垃圾短信过滤的准确率,进而减少了用户接收到垃圾短信的几率,提高了用户的体验。
Description
技术领域
本发明涉及信息安全技术领域,尤指一种垃圾短信的过滤方法及装置。
背景技术
随着信息技术的高速发展,短信因其使用方便、发送简单等优势,成为了人们日常生活中用于彼此沟通的桥梁,同时各式各样的广告诈骗短信也随之而来,对公民个人隐私和社会安定造成了极大的影响。因此,为了保护个人隐私,保证信息安全,就要对垃圾短信进行过滤,如图1所示的短信收发流程的结构示意图,短信发送方10将短信文本经过第一短信中心20发送到短信过滤系统30中,短信过滤系统30对获取到的短信文本进行分类过滤,将非垃圾短信经过第二短信中心40发送至短信接收方50,实现对短信文本的过滤。然而,由于目前短信文本样式与之前相比发生了根本性的变化,文本内容不再是简单的平白文字,附加的还有各式各样的表情符号等特殊格式的内容,这给垃圾短信的过滤带来了极大的挑战。
在现有技术中,为了实现短信过滤,通常采用的方法有:通过设置黑白名单过滤,关键词策略匹配的过滤,用户的举报行为,人为的标注,以及基于内容的文本分类过滤等。但这些方法只能拦截那些反复发送垃圾短信的号码或包含固定关键词的垃圾短信,对目前出现的包含各式各样的表情符号等特殊格式内容的短信则无法实现过滤,而且对垃圾短信的特殊文本形式不能进行细化分类,导致误报率和漏报率较高。
基于此,如何实现对具有特殊文本形式的垃圾短信进行过滤,提高垃圾短信过滤的准确率,是本领域技术人员亟待解决的技术问题。
发明内容
本发明实施例提供一种垃圾短信的过滤方法及装置,用以解决如何实现对具有特殊文本形式的垃圾短信进行过滤,提高垃圾短信过滤的准确率的问题。
本发明实施例提供了一种垃圾短信的过滤方法,包括:
提取获取到的短信文本中各类噪音特征,所述各类噪音特征包括:特殊格式特征、干扰特征、文本长度特征和名词个数特征;
分别确定所述各类噪音特征在所述短信文本中的权重;
根据所述各类噪音特征的权重,构建所述各类噪音特征的向量空间;
根据构建出的所述各类噪音特征的向量空间,以及预先训练完成的决策树分类器,确定所述各类噪音特征的向量空间是否满足所述决策树分类器中垃圾短信的分类条件;
在确定所述各类噪音特征的向量空间满足所述决策树分类器中垃圾短信的分类条件时,将所述短信文本确认为垃圾短信。
在一种可能的实施方式中,在本发明实施例提供的上述垃圾短信的过滤方法中,所述提取获取到的短信文本中各类噪音特征,具体包括:
对所述短信文本进行文本分词和词性标注;
根据所述文本分词的结果,提取所述短信文本中的包含特殊字符、数字和字母的特殊格式特征;
根据所述词性标注的结果,提取文本长度特征和名词个数特征;
根据所述文本分词和词性标注的结果,提取包含各种反拦截行为的干扰特征。
在一种可能的实施方式中,在本发明实施例提供的上述垃圾短信的过滤方法中,所述分别确定所述各类噪音特征在所述短信文本中的权重,具体包括:
根据预先设定的各噪音特征的分值,确定所述短信文本中的各所述噪音特征的得分;
将属于同一类的各所述噪音特征的得分之和确定为该类噪音特征在所述短信文本中的权重。
在一种可能的实施方式中,在本发明实施例提供的上述垃圾短信的过滤方法中,在确定所述各类噪音特征的向量空间不满足所述决策树分类器中垃圾短信的分类条件时,还包括:
去除所述短信文本中的包含所述特殊格式特征和所述干扰特征的无具体含义词语,生成仅包含具体含义词语的内容文本;
根据信息增益方式在所述内容文本中选择关键词特征集合;
确定所述关键词特征集合在所述内容文本中的权重;
根据所述关键词特征集合的权重,构建所述关键词特征集合的向量空间;
根据构建出的所述关键词特征集合的向量空间,以及预先训练完成的迭代AdaBoost朴素贝叶斯分类器,确定所述关键词特征集合的向量空间是否满足所述AdaBoost朴素贝叶斯分类器中垃圾短信的分类条件;
在确定所述关键词特征集合的向量空间满足所述AdaBoost朴素贝叶斯分类器中垃圾短信的分类条件时,将所述短信文本确认为垃圾短信;
在确定所述关键词特征集合的向量空间不满足所述AdaBoost朴素贝叶斯分类器中垃圾短信的分类条件时,将所述短信文本确认为非垃圾短信并发送至短信接收方。
在一种可能的实施方式中,在本发明实施例提供的上述垃圾短信的过滤方法中,在根据信息增益方式在所述内容文本中选择关键词特征集合之后,还包括:
通过文档主题生成模型(Latent Dirichlet Allocation,LDA)对所述关键词特征集合进行同义词扩展。
在一种可能的实施方式中,在本发明实施例提供的上述垃圾短信的过滤方法中,所述确定所述关键词特征集合在所述内容文本中的权重,具体包括:
采用词频-逆向文件频率(Term Frequency-Inverse Document Frequency,TF-IDF)的方式,计算所述关键词特征集合在所述内容文本中的权重。
在一种可能的实施方式中,在本发明实施例提供的上述垃圾短信的过滤方法中,所述确定所述关键词特征集合的向量空间是否满足所述AdaBoost朴素贝叶斯分类器中垃圾短信的分类条件,具体包括:
根据所述AdaBoost朴素贝叶斯分类器中的各短信类别,分别计算所述关键词特征集合分别属于各所述短信类别的概率,确定所述关键词特征集合的最大概率对应的短信类别是否为垃圾短信类别。
本发明实施例还提高了一种垃圾短信的过滤装置,包括:
噪音特征抽取模块,用于提取获取到的短信文本中各类噪音特征,所述各类噪音特征包括:特殊格式特征、干扰特征、文本长度特征和名词个数特征;
第一构建模块,用于分别确定所述各类噪音特征在所述短信文本中的权重;根据所述各类噪音特征的权重,构建所述各类噪音特征的向量空间;
决策树分类模块,用于根据构建出的所述各类噪音特征的向量空间,以及预先训练完成的决策树分类器,确定所述各类噪音特征的向量空间是否满足所述决策树分类器中垃圾短信的分类条件;在确定所述各类噪音特征的向量空间满足所述决策树分类器中垃圾短信的分类条件时,将所述短信文本确认为垃圾短信。
在一种可能的实施方式中,在本发明实施例提供的上述垃圾短信的过滤装置中,所述噪音特征抽取模块,具体用于对所述短信文本进行文本分词和词性标注;根据所述文本分词的结果,提取所述短信文本中的包含特殊字符、数字和字母的特殊格式特征;根据所述词性标注的结果,提取文本长度特征和名词个数特征;根据所述文本分词和词性标注的结果,提取包含各种反拦截行为的干扰特征。
在一种可能的实施方式中,在本发明实施例提供的上述垃圾短信的过滤装置中,所述第一构建模块,具体用于根据预先设定的各噪音特征的分值,确定所述短信文本中的各所述噪音特征的得分;将属于同一类的各所述噪音特征的得分之和确定为该类噪音特征在所述短信文本中的权重。
在一种可能的实施方式中,在本发明实施例提供的上述垃圾短信的过滤装置中,还包括:
处理模块,用于去除所述短信文本中的包含所述特殊格式特征和所述干扰特征的无具体含义词语,生成仅包含具体含义词语的内容文本;
特征选择模块,用于根据信息增益方式在所述内容文本中选择关键词特征集合;
第二构建模块,用于确定所述关键词特征集合在所述内容文本中的权重;根据所述关键词特征集合的权重,构建所述关键词特征集合的向量空间;
朴素贝叶斯分类模块,用于根据构建出的所述关键词特征集合的向量空间,以及预先训练完成的AdaBoost朴素贝叶斯分类器,确定所述关键词特征集合的向量空间是否满足所述AdaBoost朴素贝叶斯分类器中垃圾短信的分类条件;在确定所述关键词特征集合的向量空间满足所述AdaBoost朴素贝叶斯分类器中垃圾短信的分类条件时,将所述短信文本确认为垃圾短信;在确定所述关键词特征集合的向量空间不满足所述AdaBoost朴素贝叶斯分类器中垃圾短信的分类条件时,将所述短信文本确认为非垃圾短信并发送至短信接收方。
在一种可能的实施方式中,在本发明实施例提供的上述垃圾短信的过滤装置中,所述特征选择模块,具体用于通过LDA主题模型对所述关键词特征集合进行同义词扩展。
在一种可能的实施方式中,在本发明实施例提供的上述垃圾短信的过滤装置中,所述第二构建模块,具体用于采用TF-IDF的方式,计算所述关键词特征集合在所述内容文本中的权重。
在一种可能的实施方式中,在本发明实施例提供的上述垃圾短信的过滤装置中,所述朴素贝叶斯分类模块,具体用于根据所述AdaBoost朴素贝叶斯分类器中的各短信类别,分别计算所述关键词特征集合分别属于各所述短信类别的概率,确定所述关键词特征集合的最大概率对应的短信类别是否为垃圾短信类别。
本发明有益效果如下:
本发明实施例提供了一种垃圾短信的过滤方法及装置,提取获取到的短信文本中各类噪音特征;分别确定各类噪音特征在短信文本中的权重;根据各类噪音特征的权重,构建各类噪音特征的向量空间;根据构建出的各类噪音特征的向量空间,以及预先训练完成的决策树分类器,确定各类噪音特征的向量空间是否满足决策树分类器中垃圾短信的分类条件;在确定各类噪音特征的向量空间满足决策树分类器中垃圾短信的分类条件时,将短信文本确认为垃圾短信。因此,该方法通过对提取到的各类噪音特征完成权重的计算,向量空间的构建,以及决策树分类器的分类这一系列的过程,有效利用了噪音特征作为特殊属性对短信文本进行分类,同时实现了对短信文本中存在的特殊文本形式进行细化,灵活地应对垃圾短信中文本内容的形式多样化,提高了垃圾短信过滤的准确率,进而减少了用户接收到垃圾短信的几率,提高了用户的体验。
附图说明
图1为现有技术中短信收发流程的结构示意图;
图2为本发明实施例提供的一种垃圾短信的过滤方法的流程示意图之一;
图3为本发明实施例提供的决策树分类器的训练过程的流程示意图;
图4为本发明实施例提供的一种垃圾短信的过滤方法的流程示意图之二;
图5为本发明实施例提供的关键词特征集合的同义词扩展的流程示意图;
图6为本发明实施例提供的一种垃圾短信的过滤装置的结构示意示意图。
具体实施方式
下面将结合附图,对本发明实施例提供的一种垃圾短信的过滤方法及装置的具体实施方式进行详细地说明。需要说明的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种垃圾短信的过滤方法,如图2所示,可以包括以下几个步骤:
S201、提取获取到的短信文本中各类噪音特征,各类噪音特征包括:特殊格式特征、干扰特征、文本长度特征和名词个数特征;
S202、分别确定各类噪音特征在短信文本中的权重;
S203、根据各类噪音特征的权重,构建各类噪音特征的向量空间;
S204、根据构建出的各类噪音特征的向量空间,以及预先训练完成的决策树分类器,确定各类噪音特征的向量空间是否满足决策树分类器中垃圾短信的分类条件;若满足,则执行步骤S205;
S205、将短信文本确认为垃圾短信。
本发明实施例提供的一种垃圾短信的过滤方法,通过对获取到的短信文本提取各类噪音特征,计算各类噪音特征在短信文本中的权重,构建各类噪音特征的向量空间;再将其输送至决策树分类器中,根据各类噪音特征的向量空间,以及预先训练完成的决策树分类器,确定各类噪音特征的向量空间是否满足决策树分类器中垃圾短信的分类条件,当确定各类噪音特征的向量空间满足垃圾短信的分类条件时,即可以确认获取到的短信文本为垃圾短信。因此,该方法通过对噪音特征的挖掘,实现了对短信文本中存在的特殊文本形式进行分类,灵活地应对垃圾短信中文本内容的形式多样化,提高了垃圾短信过滤的准确率,进而减少了用户接收到垃圾短信的几率,提高了用户的体验。
在具体实施时,为了提取短信文本中的各类噪音特征,在本发明实施例提供的上述垃圾短信的过滤方法中的步骤S201,可以具体包括:
对短信文本进行文本分词和词性标注;
根据文本分词的结果,提取短信文本中的包含特殊字符、数字和字母的特殊格式特征;根据词性标注的结果,提取文本长度特征和名词个数特征;根据文本分词和词性标注的结果,提取包含各种反拦截行为的干扰特征。
具体地,通过对短信文本进行文本分词和词性标注,可以提取短信文本中的各种噪音特征;其中,根据各噪音特征的特点,可以将其分为以下四类:
特殊格式特征(Special):包含各种表情符号、乱码字符、变形字符如“℃○Μ”,“╭┯╭┯╮”,以及一些如聊天工具QQ、银行卡号、手机号和邮箱等联系方式的敏感信息;
干扰特征(Purpose):短信文本中的各种反拦截行为,例如,在敏感词中间加特殊分隔符、使用错别字代替、简体文字中插入繁体字等;
名词个数特征(Nouns):在词性标注结果中包含的名词个数;
文本长度特征(Length):在词性标注结果中包含的短信文本的长度。
其中,为了消除文档长度不一致对权重量化标准带来的影响,在计算权重时需要考虑文本长度对权重结果的影响;例如,对于长文本包含有效信息的概率较大,而短文本包含有效信息的概率相对于长文本要小很多,因此,为了使短文本和长文本包含有效信息的概率相近,通常需要计算文本长度的权重。
需要说明的是,根据统计实验结果表明,短信文本可以分为典型的垃圾短信和其它类型的短信,其它类型的短信又包括非典型的垃圾短信和非垃圾短信,其中,典型的垃圾短信为包含上述噪音特征的垃圾短信,非典型的垃圾短信为不包含上述噪音特征的垃圾短信;典型的垃圾短信与其它类型的短信之间具有较为明显的区别,其中,典型的垃圾短信中包含的名词个数和文本长度明显多于其它类型的短信,且典型的垃圾短信中包含的特殊字符等噪音特征同样明显多于其它类型的短信;因此,可以充分利用噪音特征的特殊属性,实现对短信文本的分类,提高垃圾短信过滤的准确率。
在具体实施时,为了计算各类噪音特征在短信文本中的权重,本发明实施例提供的上述垃圾短信的过滤方法中的步骤S202,可以具体包括:
根据预先设定的各噪音特征的分值,确定短信文本中的各噪音特征的得分;
将属于同一类的各噪音特征的得分之和确定为该类噪音特征在短信文本中的权重。
具体地,预先设定的各噪音特征的分值列表如表1所示;其中,表1的左侧为各噪音特征的类别名称,右边为对应的各噪音特征的分值,该分值可以根据各噪音特征所属的类别在系统中预先设定,此处表1中的分值暂时用字母代替;在对获取到的短信文本中的各噪音特征计算权重时,可以根据表1中各噪音特征的分值,确定短信文本中的各噪音特征的得分,从而根据属于同一类的各噪音特征的得分之和确定各类噪音特征在短信文本中的权重。
表1
具体地,在本发明实施例提供的上述垃圾短信的过滤方法中的步骤S204中,可以采用预先训练完成的决策树分类器对构建出的各类噪音特征的向量空间进行分类;在训练过程中,需要为训练集额外添加标签“典型的垃圾短信”和“其他类型的短信”,其中“典型的垃圾短信”为包含上述各类噪音特征的垃圾短信,“其他类型的短信”为不包含上述各类噪音特征的垃圾短信和非垃圾短信;再利用训练得到的决策树分类器对获取到的短信文本进行分类,但为了便于计算机的读取和处理,通常需要先将获取到的短信文本转换成向量空间的形式,输送至分类器中,实现分类的目的。
进一步地,为了得到训练完成的决策树分类器,具体的决策树分类器的训练过程如图3所示,可以包括以下几个步骤:
S301、根据噪音特征积分制原则,通过程序对训练集添加标签“典型的垃圾短信”和“其他类型的短信”;
S302、确定训练样本集中的各类噪音特征在训练样本集中的权重;
S303、根据各类噪音特征在训练样本集中的权重,构建各类噪音特征的向量空间;
S304、根据经典算法4.5(Classification 4.5,C4.5)对构建出的各类噪音特征的向量空间建立决策树分类器。
其中,噪音特征积分制原则,是以预设的阈值(threshold)为标准,确定短信文本中包含的属于同一类的各噪音特征的积分之和是否大于threshold;若大于,则将该短信文本标记为“典型的垃圾短信”;否则,被标记为“其他类型的短信”。
在具体实施时,为了进一步确定获取到的短信文本是否为垃圾短信,需要对短信文本进行第二次过滤,在本发明实施例提供的上述垃圾短信的过滤方法中的步骤S204,在确定各类噪音特征的向量空间不满足决策树分类器中垃圾短信的分类条件之后,如图4所示,还可以包括以下步骤:
S206、去除短信文本中的包含特殊格式特征和干扰特征的无具体含义词语,生成仅包含具体含义词语的内容文本;
S207、根据信息增益方式在内容文本中选择关键词特征集合;
S208、确定关键词特征集合在内容文本中的权重;
S209、根据关键词特征集合的权重,构建关键词特征集合的向量空间;
S210、根据构建出的关键词特征集合的向量空间,以及预先训练完成的AdaBoost朴素贝叶斯分类器,确定关键词特征集合的向量空间是否满足AdaBoost朴素贝叶斯分类器中垃圾短信的分类条件;若满足,则执行步骤S211;若不满足,则执行步骤S212;
S211、将短信文本确认为垃圾短信,结束流程;
S212、将短信文本确认为非垃圾短信;
S213、发送至短信接收方。
具体地,为了实现对内容文本的分类,在本发明实施例提供的上述垃圾短信的过滤方法中的步骤S206,需要去除短信文本中包含特殊格式特征和干扰特征的无具体含义词语;由于在执行步骤S201的过程中已经完成了文本分词和词性标注,因此,此处无需再次执行对获取到的短信文本进行文本分词和词性标注过程。
具体地,为了选择内容文本中的关键词特征,在本发明实施例提供的上述垃圾短信的过滤方法中的步骤S207,可以通过信息增益的方式选择内容文本中的关键词特征,当然还可以通过卡方检验,以及互信息等以文档频率为基础的其它特征选择方式,实现关键词特征选择,构建关键词特征集合,在此不作限定。
在具体实施时,针对短文本特征向量稀疏,关键词少等特点,可以采用LDA主题模型对选择的关键词特征集合进行同义词扩展,提高经过处理后的内容文本在第二次短信过滤中的准确率,在本发明实施例提供的上述垃圾短信的过滤方法中的步骤S207之后,还可以包括:
通过LDA主题模型对关键词特征集合进行同义词扩展。
其中,为了完成对关键词特征集合的同义词扩展,具体的同义词扩展过程如图5所示,可以包括以下几个步骤:
S501、根据系统内预先存储的同主题的长文本集训练LDA主题模型;
S502、根据训练结果,生成主题-关键词贝塔分布;
S503、根据训练完成的LDA主题模型对训练集的短信文本进行主题预测,得到最大概率的主题集合;
S504、根据主题-关键词贝塔分布,选择各主题范围内概率最大的关键词,生成扩展特征集合;
S505、根据关键词特征集合与扩展特征集合,确定扩展特征集合中的某个特征是否存在于关键词特征集合中;若存在,则执行步骤S506;若不存在,则执行步骤S507;
S506、保持关键词特征集合不变;
S507、将扩展特征集合中的某个特征添加至关键词特征集合中。
进一步地,为了提高内容文本在第二次过滤过程中的准确率,建议在确定关键词特征集合在内容文本中的权重之前,可以选择实施此扩展过程,当然,为了简化过滤过程,也可以选择不实施此过程,在此不作限定。
在具体实施时,在本发明实施例提供的上述垃圾短信的过滤方法中的步骤S208确定关键词特征集合在内容文本中的权重,可以采用以下方式:
采用TF-IDF的方式,计算关键词特征集合在内容文本中的权重。
其中,TF表示词频,IDF表示逆向文件频率,此方式是一种用于信息检索与数据挖掘的常用加权技术,用以评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度;例如,如果包含词条t的文档缺少,IDF的值就越大,说明词条t具有很强的类别区分能力;因此,通过此方式可以有针对性的选择出文本中具有较强区分能力的关键词,便于实现分类的目的。
在具体实施时,为了避免将非垃圾短信误判为垃圾短信,给用户造成麻烦,在本发明实施例提供的上述垃圾短信的过滤方法中的步骤S210确定关键词特征集合的向量空间是否满足AdaBoost朴素贝叶斯分类器中垃圾短信的分类条件,可以具体包括:
根据AdaBoost朴素贝叶斯分类器中的各短信类别,分别计算关键词特征集合分别属于各短信类别的概率,确定关键词特征集合的最大概率对应的短信类别是否为垃圾短信类别。
需要说明的是,AdaBoost朴素贝叶斯分类器,是利用AdaBoost迭代运算的思想,以朴素贝叶斯分类器作为AdaBoost分类器的子分类器实现分类。选择AdaBoost朴素贝叶斯分类器的原因有以下几点:(一)在垃圾短信的过滤过程中,最大的错误莫过于将非垃圾短信误判为垃圾短信,从而影响用户的正常工作和生活,其代价是难以想象的,因此,短信过滤的准确性就显得无比重要;(二)AdaBoost通过对样本和子分类器多次设置权重,在多次迭代分类过程中动态调整权重,即对于分错的部分加大权重,对于分对的部分保持原权重值,如此一来,通过权重的调整,可以重点处理那些被分错的部分,提高分类器的准确率;(三)AdaBoost的子分类器一般都选择弱分类器,只要正确率在50%以上即可,对于文本分类问题,不需要进行大量实验来训练参数,只要找到合适的分类参数便可实现分类的目的,同时还可以防止由于调节参数导致的过拟合问题;(四)由于AdaBoost运算思想中的子分类器是迭代分类,计算复杂度较高,所以选用的子分类器的计算复杂度不宜过大,否则严重影响性能,而朴素贝叶斯分类器正是一种简单的单分类器,计算过程较简单,很适合作为AdaBoost的子分类器来解决短信过滤的问题。
基于同一发明构思,本发明实施例还提供了一种垃圾短信的过滤装置,由于该装置解决问题的原理与前述一种垃圾短信的过滤方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
具体地,本发明实施例提供了一种垃圾短信的过滤装置,如图6所示,可以包括:
噪音特征抽取模块601,用于提取获取到的短信文本中各类噪音特征,各类噪音特征包括:特殊格式特征、干扰特征、文本长度特征和名词个数特征;
第一构建模块602,用于分别确定各类噪音特征在短信文本中的权重;根据各类噪音特征的权重,构建各类噪音特征的向量空间;
决策树分类模块603,用于根据构建出的各类噪音特征的向量空间,以及预先训练完成的决策树分类器,确定各类噪音特征的向量空间是否满足决策树分类器中垃圾短信的分类条件;在确定各类噪音特征的向量空间满足决策树分类器中垃圾短信的分类条件时,将短信文本确认为垃圾短信。
在具体实施时,在本发明实施例提供的上述垃圾短信的过滤装置中,噪音特征抽取模块601,具体用于对短信文本进行文本分词和词性标注;根据文本分词的结果,提取短信文本中的包含特殊字符、数字和字母的特殊格式特征;根据词性标注的结果,提取文本长度特征和名词个数特征;根据文本分词和词性标注的结果,提取包含各种反拦截行为的干扰特征。
在具体实施时,在本发明实施例提供的上述垃圾短信的过滤装置中,第一构建模块602,具体用于根据预先设定的各噪音特征的分值,确定短信文本中的各噪音特征的得分;将属于同一类的各噪音特征的得分之和确定为该类噪音特征在短信文本中的权重。
在具体实施时,在本发明实施例提供的上述垃圾短信的过滤装置中,如图6所示,还可以包括:
处理模块604,用于去除短信文本中的包含特殊格式特征和干扰特征的无具体含义词语,生成仅包含具体含义词语的内容文本;
特征选择模块605,用于根据信息增益方式在内容文本中选择关键词特征集合;
第二构建模块606,用于确定关键词特征集合在内容文本中的权重;根据关键词特征集合的权重,构建关键词特征集合的向量空间;
朴素贝叶斯分类模块607,用于根据构建出的关键词特征集合的向量空间,以及预先训练完成的AdaBoost朴素贝叶斯分类器,确定关键词特征集合的向量空间是否满足AdaBoost朴素贝叶斯分类器中垃圾短信的分类条件;在确定关键词特征集合的向量空间满足AdaBoost朴素贝叶斯分类器中垃圾短信的分类条件时,将短信文本确认为垃圾短信;在确定关键词特征集合的向量空间不满足AdaBoost朴素贝叶斯分类器中垃圾短信的分类条件时,将短信文本确认为非垃圾短信并发送至短信接收方。
在具体实施时,在本发明实施例提供的上述垃圾短信的过滤装置中,特征选择模块605,具体用于通过LDA主题模型对关键词特征集合进行同义词扩展。
在具体实施时,在本发明实施例提供的上述垃圾短信的过滤装置中,第二构建模块606,具体用于采用TF-IDF的方式,计算关键词特征集合在内容文本中的权重。
在具体实施时,在本发明实施例提供的上述垃圾短信的过滤装置中,朴素贝叶斯分类模块607,具体用于根据AdaBoost朴素贝叶斯分类器中的各短信类别,分别计算关键词特征集合分别属于各短信类别的概率,确定关键词特征集合的最大概率对应的短信类别是否为垃圾短信类别。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
本发明实施例提供了一种垃圾短信的过滤方法及装置,提取获取到的短信文本中各类噪音特征;分别确定各类噪音特征在短信文本中的权重;根据各类噪音特征的权重,构建各类噪音特征的向量空间;根据构建出的各类噪音特征的向量空间,以及预先训练完成的决策树分类器,确定各类噪音特征的向量空间是否满足决策树分类器中垃圾短信的分类条件;在确定各类噪音特征的向量空间满足决策树分类器中垃圾短信的分类条件时,将短信文本确认为垃圾短信。因此,该方法通过对提取到的各类噪音特征完成权重的计算,向量空间的构建,以及决策树分类器的分类这一系列的过程,有效利用了噪音特征作为特殊属性对短信文本进行分类,同时实现了对短信文本中存在的特殊文本形式进行细化,灵活地应对垃圾短信中文本内容的形式多样化,提高了垃圾短信过滤的准确率,进而减少了用户接收到垃圾短信的几率,提高了用户的体验。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (14)
1.一种垃圾短信的过滤方法,其特征在于,包括:
提取获取到的短信文本中各类噪音特征,所述各类噪音特征包括:特殊格式特征、干扰特征、文本长度特征和名词个数特征;
分别确定所述各类噪音特征在所述短信文本中的权重;
根据所述各类噪音特征的权重,构建所述各类噪音特征的向量空间;
根据构建出的所述各类噪音特征的向量空间,以及预先训练完成的决策树分类器,确定所述各类噪音特征的向量空间是否满足所述决策树分类器中垃圾短信的分类条件;
在确定所述各类噪音特征的向量空间满足所述决策树分类器中垃圾短信的分类条件时,将所述短信文本确认为垃圾短信。
2.如权利要求1所述的过滤方法,其特征在于,所述提取获取到的短信文本中各类噪音特征,具体包括:
对所述短信文本进行文本分词和词性标注;
根据所述文本分词的结果,提取所述短信文本中的包含特殊字符、数字和字母的特殊格式特征;
根据所述词性标注的结果,提取文本长度特征和名词个数特征;
根据所述文本分词和词性标注的结果,提取包含各种反拦截行为的干扰特征。
3.如权利要求1所述的过滤方法,其特征在于,所述分别确定所述各类噪音特征在所述短信文本中的权重,具体包括:
根据预先设定的各噪音特征的分值,确定所述短信文本中的各所述噪音特征的得分;
将属于同一类的各所述噪音特征的得分之和确定为该类噪音特征在所述短信文本中的权重。
4.如权利要求1-3任一项所述的过滤方法,其特征在于,在确定所述各类噪音特征的向量空间不满足所述决策树分类器中垃圾短信的分类条件时,还包括:
去除所述短信文本中的包含所述特殊格式特征和所述干扰特征的无具体含义词语,生成仅包含具体含义词语的内容文本;
根据信息增益方式在所述内容文本中选择关键词特征集合;
确定所述关键词特征集合在所述内容文本中的权重;
根据所述关键词特征集合的权重,构建所述关键词特征集合的向量空间;
根据构建出的所述关键词特征集合的向量空间,以及预先训练完成的迭代AdaBoost朴素贝叶斯分类器,确定所述关键词特征集合的向量空间是否满足所述AdaBoost朴素贝叶斯分类器中垃圾短信的分类条件;
在确定所述关键词特征集合的向量空间满足所述AdaBoost朴素贝叶斯分类器中垃圾短信的分类条件时,将所述短信文本确认为垃圾短信;
在确定所述关键词特征集合的向量空间不满足所述AdaBoost朴素贝叶斯分类器中垃圾短信的分类条件时,将所述短信文本确认为非垃圾短信并发送至短信接收方。
5.如权利要求4所述的过滤方法,其特征在于,在根据信息增益方式在所述内容文本中选择关键词特征集合之后,还包括:
通过文档主题生成模型LDA对所述关键词特征集合进行同义词扩展。
6.如权利要求4所述的过滤方法,其特征在于,所述确定所述关键词特征集合在所述内容文本中的权重,具体包括:
采用词频-逆向文件频率TF-IDF的方式,计算所述关键词特征集合在所述内容文本中的权重。
7.如权利要求4所述的过滤方法,其特征在于,所述确定所述关键词特征集合的向量空间是否满足所述AdaBoost朴素贝叶斯分类器中垃圾短信的分类条件,具体包括:
根据所述AdaBoost朴素贝叶斯分类器中的各短信类别,分别计算所述关键词特征集合分别属于各所述短信类别的概率,确定所述关键词特征集合的最大概率对应的短信类别是否为垃圾短信类别。
8.一种垃圾短信的过滤装置,其特征在于,包括:
噪音特征抽取模块,用于提取获取到的短信文本中各类噪音特征,所述各类噪音特征包括:特殊格式特征、干扰特征、文本长度特征和名词个数特征;
第一构建模块,用于分别确定所述各类噪音特征在所述短信文本中的权重;根据所述各类噪音特征的权重,构建所述各类噪音特征的向量空间;
决策树分类模块,用于根据构建出的所述各类噪音特征的向量空间,以及预先训练完成的决策树分类器,确定所述各类噪音特征的向量空间是否满足所述决策树分类器中垃圾短信的分类条件;在确定所述各类噪音特征的向量空间满足所述决策树分类器中垃圾短信的分类条件时,将所述短信文本确认为垃圾短信。
9.如权利要求8所述的过滤装置,其特征在于,所述噪音特征抽取模块,具体用于对所述短信文本进行文本分词和词性标注;根据所述文本分词的结果,提取所述短信文本中的包含特殊字符、数字和字母的特殊格式特征;根据所述词性标注的结果,提取文本长度特征和名词个数特征;根据所述文本分词和词性标注的结果,提取包含各种反拦截行为的干扰特征。
10.如权利要求8所述的过滤装置,其特征在于,所述第一构建模块,具体用于根据预先设定的各噪音特征的分值,确定所述短信文本中的各所述噪音特征的得分;将属于同一类的各所述噪音特征的得分之和确定为该类噪音特征在所述短信文本中的权重。
11.如权利要求8-10任一项所述的过滤装置,其特征在于,还包括:
处理模块,用于去除所述短信文本中的包含所述特殊格式特征和所述干扰特征的无具体含义词语,生成仅包含具体含义词语的内容文本;
特征选择模块,用于根据信息增益方式在所述内容文本中选择关键词特征集合;
第二构建模块,用于确定所述关键词特征集合在所述内容文本中的权重;根据所述关键词特征集合的权重,构建所述关键词特征集合的向量空间;
朴素贝叶斯分类模块,用于根据构建出的所述关键词特征集合的向量空间,以及预先训练完成的AdaBoost朴素贝叶斯分类器,确定所述关键词特征集合的向量空间是否满足所述AdaBoost朴素贝叶斯分类器中垃圾短信的分类条件;在确定所述关键词特征集合的向量空间满足所述AdaBoost朴素贝叶斯分类器中垃圾短信的分类条件时,将所述短信文本确认为垃圾短信;在确定所述关键词特征集合的向量空间不满足所述AdaBoost朴素贝叶斯分类器中垃圾短信的分类条件时,将所述短信文本确认为非垃圾短信并发送至短信接收方。
12.如权利要求11所述的过滤装置,其特征在于,所述特征选择模块,具体用于通过文档主题生成模型LDA对所述关键词特征集合进行同义词扩展。
13.如权利要求11所述的过滤装置,其特征在于,所述第二构建模块,具体用于采用TF-IDF的方式,计算所述关键词特征集合在所述内容文本中的权重。
14.如权利要求11所述的过滤装置,其特征在于,所述朴素贝叶斯分类模块,具体用于根据所述AdaBoost朴素贝叶斯分类器中的各短信类别,分别计算所述关键词特征集合分别属于各所述短信类别的概率,确定所述关键词特征集合的最大概率对应的短信类别是否为垃圾短信类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611027840.2A CN108093376A (zh) | 2016-11-21 | 2016-11-21 | 一种垃圾短信的过滤方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611027840.2A CN108093376A (zh) | 2016-11-21 | 2016-11-21 | 一种垃圾短信的过滤方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108093376A true CN108093376A (zh) | 2018-05-29 |
Family
ID=62168822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611027840.2A Pending CN108093376A (zh) | 2016-11-21 | 2016-11-21 | 一种垃圾短信的过滤方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108093376A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110275938A (zh) * | 2019-05-29 | 2019-09-24 | 广州伟宏智能科技有限公司 | 基于非结构化文档的知识提取方法及系统 |
CN110913353A (zh) * | 2018-09-17 | 2020-03-24 | 阿里巴巴集团控股有限公司 | 短信的分类方法及装置 |
CN112188419A (zh) * | 2020-09-02 | 2021-01-05 | 中国人民解放军战略支援部队信息工程大学 | 垃圾短信检测方法、系统及设备 |
CN112492606A (zh) * | 2020-11-10 | 2021-03-12 | 恒安嘉新(北京)科技股份公司 | 垃圾短信的分类识别方法、装置、计算机设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040267893A1 (en) * | 2003-06-30 | 2004-12-30 | Wei Lin | Fuzzy logic voting method and system for classifying E-mail using inputs from multiple spam classifiers |
CN101784022A (zh) * | 2009-01-16 | 2010-07-21 | 北京炎黄新星网络科技有限公司 | 短信过滤、分类方法及系统 |
CN105335354A (zh) * | 2015-12-09 | 2016-02-17 | 中国联合网络通信集团有限公司 | 欺诈信息识别方法和装置 |
CN106095747A (zh) * | 2016-06-03 | 2016-11-09 | 北京工商大学 | 一种垃圾短信的识别方法和系统 |
-
2016
- 2016-11-21 CN CN201611027840.2A patent/CN108093376A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040267893A1 (en) * | 2003-06-30 | 2004-12-30 | Wei Lin | Fuzzy logic voting method and system for classifying E-mail using inputs from multiple spam classifiers |
CN101784022A (zh) * | 2009-01-16 | 2010-07-21 | 北京炎黄新星网络科技有限公司 | 短信过滤、分类方法及系统 |
CN105335354A (zh) * | 2015-12-09 | 2016-02-17 | 中国联合网络通信集团有限公司 | 欺诈信息识别方法和装置 |
CN106095747A (zh) * | 2016-06-03 | 2016-11-09 | 北京工商大学 | 一种垃圾短信的识别方法和系统 |
Non-Patent Citations (1)
Title |
---|
米婧: "基于文本内容的垃圾短信过滤系统", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊 )2016年第11期》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110913353A (zh) * | 2018-09-17 | 2020-03-24 | 阿里巴巴集团控股有限公司 | 短信的分类方法及装置 |
CN110275938A (zh) * | 2019-05-29 | 2019-09-24 | 广州伟宏智能科技有限公司 | 基于非结构化文档的知识提取方法及系统 |
CN112188419A (zh) * | 2020-09-02 | 2021-01-05 | 中国人民解放军战略支援部队信息工程大学 | 垃圾短信检测方法、系统及设备 |
CN112492606A (zh) * | 2020-11-10 | 2021-03-12 | 恒安嘉新(北京)科技股份公司 | 垃圾短信的分类识别方法、装置、计算机设备及存储介质 |
CN112492606B (zh) * | 2020-11-10 | 2024-05-17 | 恒安嘉新(北京)科技股份公司 | 垃圾短信的分类识别方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN103902570B (zh) | 一种文本分类特征提取方法、分类方法及装置 | |
Ma et al. | A comparative approach to Naïve Bayes classifier and support vector machine for email spam classification | |
CN108093376A (zh) | 一种垃圾短信的过滤方法及装置 | |
Popovac et al. | Convolutional neural network based SMS spam detection | |
Temitayo et al. | Hybrid GA-SVM for efficient feature selection in e-mail classification | |
Wang | Learning to classify email: a survey | |
CN107798033A (zh) | 一种公安领域案件文本的分类方法 | |
CN106156163B (zh) | 文本分类方法以及装置 | |
CN110442568A (zh) | 字段标签的获取方法及装置、存储介质、电子装置 | |
Jain et al. | Predicting spam messages using back propagation neural network | |
CN106570170A (zh) | 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统 | |
Trivedi et al. | A combining classifiers approach for detecting email spams | |
CN107679209B (zh) | 分类表达式生成方法和装置 | |
Ali et al. | A probabilistic framework for short text classification | |
Shams et al. | Personalized spam filtering with natural language attributes | |
Reddy et al. | Classification of Spam Messages using Random Forest Algorithm | |
Hameed et al. | SMS Spam Detection Based on Fuzzy Rules and Binary Particle Swarm Optimization. | |
Shahi et al. | Nepali SMS filtering using decision trees, neural network and support vector machine | |
Waheeb et al. | Content-based SMS classification: statistical analysis for the relationship between number of features and classification performance | |
Mohamad et al. | Independent feature selection as spam-filtering technique: an evaluation of neural network | |
Nisha et al. | Semantic Graph Based Convolutional Neural Network for Spam e-mail Classification in Cybercrime Applications | |
Thanh et al. | Personalized email user action prediction based on SpamAssassin | |
Islam et al. | Classification and Resource Generation for Bangla Emails Based on Machine Learning Algorithms | |
Prince | Clustering-based spam image filtering considering fuzziness of the spam image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180529 |
|
RJ01 | Rejection of invention patent application after publication |