CN101184259B - 垃圾短信中的关键词自动学习及更新方法 - Google Patents

垃圾短信中的关键词自动学习及更新方法 Download PDF

Info

Publication number
CN101184259B
CN101184259B CN2007101564745A CN200710156474A CN101184259B CN 101184259 B CN101184259 B CN 101184259B CN 2007101564745 A CN2007101564745 A CN 2007101564745A CN 200710156474 A CN200710156474 A CN 200710156474A CN 101184259 B CN101184259 B CN 101184259B
Authority
CN
China
Prior art keywords
note
keyword
refuse messages
line
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007101564745A
Other languages
English (en)
Other versions
CN101184259A (zh
Inventor
徐从富
刘菊新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN2007101564745A priority Critical patent/CN101184259B/zh
Publication of CN101184259A publication Critical patent/CN101184259A/zh
Application granted granted Critical
Publication of CN101184259B publication Critical patent/CN101184259B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种垃圾短信中的关键词自动学习及更新方法,其步骤为:(1)在线过滤系统根据黑白名单和短信特征进行过滤(2)离线系统对一定周期内的实时短信进行短信文本预处理,并将其转化为短语向量;(3)采用支持向量机(SVM)对短信向量进行高准确率的离线分类;(4)针对分类结果,对特征进行统计分析,选择关键词并计算概率信息;(5)通过接口将结果反馈给垃圾短信在线过滤系统。本发明可根据垃圾短信的不断变化自动学习关键词,在此基础上,实时更新关键词列表,以达到自适应过滤垃圾短信的目的。

Description

垃圾短信中的关键词自动学习及更新方法
技术领域
本发明涉及垃圾短信过滤方法,尤其涉及一种垃圾短信中的关键词自动学习及更新方法。
背景技术
在传统的垃圾短信在线过滤系统中,其关键词由人工设置和添加,且一旦设置了关键词后即固定不变。然而,随着移动通信运营商对垃圾短信打击力度的不断加强,垃圾短信发送者也在不断地改变垃圾短信的内容(主要是关键词)及发送特征(如发送频率、短信长度等),因此,为适应这种变化,必须提高垃圾短信过滤系统的自适应性和智能化水平。
发明内容
本发明的目的是提供一种垃圾短信中的关键词自动学习及更新方法。
垃圾短信中的关键词自动学习及更新方法包括如下步骤:
1)在线过滤系统根据黑白名单和短信特征进行过滤;
2)对实时短信进行短信文本预处理,并将其转化为短语向量;
3)采用支持向量机对短信进行高准确率的离线分类;
4)针对分类结果,对特征进行统计分析,选择关键词并计算概率信息;
5)通过接口将结果反馈给垃圾短信实时过滤系统。
所述的在线过滤系统根据黑白名单和短信特征进行过滤:短信首先进入白名单模块,若属白名单则直接放行;否则,进入黑名单模块,若属黑名单则拒绝该主叫号码,若不属黑名单,则根据短信特征判断是否是垃圾短信。
所述的对实时短信进行短信文本预处理,并将其转化为短语向量:对短信进行短信清洗、去除停用词、自动分词、词性标注、特征项提取、特征项权重计算和生成短信向量预处理,以剔除短信文本,即由字、词、数字、标点符号构成的文字串中所有与分类任务无关的内容,并将文本转化为由其包含的基本语义单位组成的短语向量。
所述的采用支持向量机对短信进行高准确率的离线分类:利用LibSVM工具包中的训练程序对训练样本进行训练,得到一个支持向量机模型,然后利用LibSVM工具包中的预测程序和训练得到的模型对短信进行分类。
所述的针对分类结果,对特征进行统计分析,选择关键词并计算概率信息:在分类结果中,对所有特征计算其信息增益,选择计算值较大的一些词作为关键词,并对选择的关键词分别计算在正常短信和垃圾短信中的概率信息。
所述的通过接口将结果反馈给垃圾短信实时过滤系统:通过配置文件定义关键词的信息格式,离线系统通过配置文件把分析结果及时反馈给在线过滤系统。
本发明具有的有益效果:
1)提出一种基于支持向量机(SVM)增量算法的离线短信分类方法,充分利用SVM单模型分类准确率最高的优点,大幅度提高短信关键词统计和分析的准确性;
2)提出一种关键词自动学习和更新方法,可有效解决短信在线过滤系统对垃圾短信发送特征和内容不断变化的适应性问题。
附图说明
图1是在线过滤系统和离线系统实现的流程图;
图2是短信预处理的流程图;
图3是SVM分类器的训练流程图;
图4是SVM分类器的分类流程图。
具体实施方式
本发明的原理如下:
1)在预处理阶段,对一定周期内的实时短信进行短信清洗、去除停用词、自动分词、词性标注、特征项提取、特征项权重计算和生成短信向量等预处理,以剔除短信文本(即由字、词、数字、标点符号等构成的文字串)中所有与分类任务无关的内容,并将文本转化为由其包含的基本语义单位组成的短语向量。
2)在模型层面,利用SVM进行训练和分类。通过训练得到一个SVM模型,找到分类超平面,即垃圾短信和正常短信之间的分类超平面。
3)在实际中,垃圾短信一般具有发送频率高、包含回复电话、长度较长等行为特征,而在正常短信中出现这些特征的概率较小,故在短信向量中增加了这些行为特征向量,以提高短信分类的准确率。
4)在关键词选择时,采用了信息增益方法,即选择出能对整个分类提供最大信息量的关键词用于垃圾短信的在线过滤,以减少特征的维数,提高在线分类器的效率和推广能力。
垃圾短信中的关键词自动学习及更新方法的步骤如下:
1)在线过滤系统首先根据黑白名单进行过滤,黑白名单过滤可以对一些特殊号码发出的短信直接进行拦截/放行操作,以节约处理时间和系统资源。白名单模块和黑名单模块均维护一个独立的主叫号码列表。白名单模块中的主叫号码(即白名单)主要包括一些大客户或特殊客户等信息,该列表通常由操作员手工维护,黑名单则主要由系统自动添加,黑名单存在失效期,一段时间内无垃圾短信发送记录的主叫号码可自动从黑名单中去除,操作员亦可根据实际情况维护黑名单。短信首先进入白名单模块,若属白名单则直接放行;否则,进入黑名单模块,若属黑名单则拒绝该主叫号码,若不属黑名单,则综合评价函数根据短信特征(包括反馈过来的关键词信息和发送频率、是否包含回复电话、短信长度等行为特征)判断是否是垃圾短信,综合评价函数采用朴素贝叶斯方法,充分发挥分类器速度快的特点,适应短信实时过滤的低延时要求。朴素贝叶斯分类器根据类别的先验概率和各个特征的类条件概率来计算为垃圾短信和正常短信的概率值,给出判定结果。
详细的流程图如图1所示。
2)离线系统对短信进行分类训练之前,需要对文本进行预处理,使文本更适合后续分析的需要。文本预处理的主要任务是对进入分类器的短信进行前期处理,即剔除所有与分类任务无关的内容,并将文本(即由字、词、数字、标点符号等构成的文字串)转化为由其包含的基本语义单位组成的表列。进行短信清洗、自动分词、词性标注、去除停用词、特征项提取、特征项权重计算和生成短信向量等步骤,经预处理后,可获得一系列待分类的短信向量。
a)可采用已有的开源分词系统对短信进行分词,完成对短信清洗、去除停用词、自动分词、词性标注,把连续字符分成一个个单独的有意义的词汇,然后将词汇作为短信的特征。目前国内主要的分词系统有:中科院ICTCLAS分词程序、哈工大分词程序、北大天网分词程序。
以北大天网分词程序为例,将程序的源代码下载之后进行编译得到可执行程序,把需要进行分词的文件作为输入给程序就可以得到经过分词的文件。
b)将短信映射成向量。首先,统计短信数据集中所有的词汇及其出现的频率;然后,以此为基础建立一个词汇索引表;同时,把行为特征发送频率、是否包含回复电话、短信长度也放入词汇索引表中。
c)建立词汇索引表之后,分别扫描每条短信,并统计每条短信中包含的词频,然后,将每条短信映射成一个文本向量,其计算方法可采用如下的TF-IDF公式:
a ij = tf ij · log | D | DF i Σ k ( tf kj · log | D | DF k ) 2
其中,tfij是词i在短信j中的词频,|D|是训练数据集中的短信数量,DFi是含有词i的短信数量。
详细的流程图如图2所示。
3)步骤2)已将训练数据集映射到向量空间模型,本发明不采取任何降维措施,因为实践表明降维会降低分类的准确率。对于已映射为向量的短信,只需利用LibSVM工具包中的svm-train子程序即可由现有的训练数据集获得一个SVM分类器模型。SVM分类器的训练流程如图3所示。
4)对新的分类短信,经过步骤2),把需要分类的短信映射成文本向量;然后,利用LibSVM工具包中的svm-predict,把新的文本向量和步骤2)中获得的分类器模型作为参数输入,并选择支持向量回归(SVR)选项进行预测,得到分类结果。SVM分类器的分类流程如图4所示。
5)对分类结果计算词的信息增益,选择值最大的一些词作为关键词。词的信息增益计算公式如下:
G ( t ) = P ( t ) ΣP ( c i | t ) log P ( c i | t ) P ( c i ) + P ( t ‾ ) ΣP ( c i | t ‾ ) log P ( c i | t ‾ ) P ( c i )
其中,p(t)是t出现的概率,p(ci)是第i个目录的概率,p(ci|t)是t出现时取第i个目录的概率,
Figure G2007101564745D00042
是t不出现的概率,是t不出现时取第i个目录的概率。
6)对选择的关键词计算概率信息p(xk/ci),为避免式中p(xk/ci)等于0,可采用拉普拉斯概率估计:
p ( c i ) = T ( c i ) T
p ( x k / c i ) = 1 + TF ( x k / c i ) | D | + Σ k = 1 | D | TF ( x k / c i )
其中,T表示训练样本总数,T(c)表示类ci中的训练样本数,|D|表示属性空间的维数,即特征词表中总单词数,TF(x/c)表示xk(即某一特征词)在类ci的所有文档中出现的频率之和。
7)离线系统通过接口把统计分析结果反馈给在线过滤子系统,接口定义为配置文件。在配置文件记录每个词在正常短信和垃圾短信中的概率,在线过滤子系统根据这些信息及其它行为特征计算分类结果。如图1所示。

Claims (5)

1.一种垃圾短信中的关键词自动学习及更新方法,其特征在于包括如下步骤:
1)在线过滤系统根据黑白名单和短信特征进行过滤;
2)离线系统对一定周期内的实时短信进行短信文本预处理,并将其转化为短信向量;
3)采用支持向量机对短信向量进行高准确率的离线分类;
4)针对分类结果,对特征进行统计分析,选择关键词并计算概率信息;
5)通过接口将结果反馈给垃圾短信在线过滤系统,实现关键词的更新。
2.根据权利要求1所述的一种垃圾短信中的关键词自动学习及更新方法,其特征在于所述的在线过滤系统根据黑白名单和短信特征进行过滤为:短信首先进入白名单模块,若属白名单则直接放行;否则,进入黑名单模块,若属黑名单则拒绝该主叫号码,若不属黑名单,则根据短信特征判断是否是垃圾短信。
3.根据权利要求1所述的一种垃圾短信中的关键词自动学习及更新方法,其特征在于所述的对实时短信进行短信文本预处理,并将其转化为短信向量为:对短信进行短信清洗、去除停用词、自动分词、词性标注、特征项提取、特征项权重计算和生成短信向量预处理,以剔除短信文本,即由字、词、数字、标点符号构成的文字串中所有与分类任务无关的内容,并将文本转化为由其包含的基本语义单位组成的短信向量。
4.根据权利要求1所述的一种垃圾短信中的关键词自动学习及更新方法,其特征在于所述的采用支持向量机对短信向量进行高准确率的离线分类为:利用LibSVM工具包中的训练程序对训练样本进行训练,得到一个支持向量机模型,然后利用LibSVM工具包中的预测程序和训练得到的模型对短信进行分类。
5.根据权利要求1所述的一种垃圾短信中的关键词自动学习及更新方法,其特征在于所述的通过接口将结果反馈给垃圾短信实时过滤系统为:通过配置文件定义关键词的信息格式,离线系统通过配置文件把分析结果及时反馈给在线过滤系统。
CN2007101564745A 2007-11-01 2007-11-01 垃圾短信中的关键词自动学习及更新方法 Expired - Fee Related CN101184259B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007101564745A CN101184259B (zh) 2007-11-01 2007-11-01 垃圾短信中的关键词自动学习及更新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101564745A CN101184259B (zh) 2007-11-01 2007-11-01 垃圾短信中的关键词自动学习及更新方法

Publications (2)

Publication Number Publication Date
CN101184259A CN101184259A (zh) 2008-05-21
CN101184259B true CN101184259B (zh) 2010-06-23

Family

ID=39449304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101564745A Expired - Fee Related CN101184259B (zh) 2007-11-01 2007-11-01 垃圾短信中的关键词自动学习及更新方法

Country Status (1)

Country Link
CN (1) CN101184259B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105828306A (zh) * 2016-03-15 2016-08-03 中国联合网络通信集团有限公司 一种垃圾短信检测方法及装置
CN112492606B (zh) * 2020-11-10 2024-05-17 恒安嘉新(北京)科技股份公司 垃圾短信的分类识别方法、装置、计算机设备及存储介质

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101635886A (zh) * 2008-07-22 2010-01-27 北京光芒星空信息技术有限公司 一种基于用户选择的垃圾短信过滤方法
CN101784022A (zh) * 2009-01-16 2010-07-21 北京炎黄新星网络科技有限公司 短信过滤、分类方法及系统
CN101877837B (zh) * 2009-04-30 2013-11-06 华为技术有限公司 一种短信过滤的方法和装置
US7640589B1 (en) * 2009-06-19 2009-12-29 Kaspersky Lab, Zao Detection and minimization of false positives in anti-malware processing
CN101931685A (zh) * 2009-06-22 2010-12-29 北京邮电大学 一种垃圾短信过滤方法和系统
CN102065387B (zh) * 2009-11-13 2013-10-02 华为技术有限公司 一种短信的识别方法和设备
CN101860822A (zh) * 2010-06-11 2010-10-13 中兴通讯股份有限公司 垃圾短信监控方法和系统
CN101902523B (zh) * 2010-07-09 2014-07-16 中兴通讯股份有限公司 一种移动终端及其短信的过滤方法
CN102255922A (zh) * 2011-08-24 2011-11-23 山东师范大学 一种多层次的垃圾邮件智能过滤方法
CN103106369B (zh) * 2013-01-22 2017-08-11 西安Tcl软件开发有限公司 基于媒体服务器的文件共享方法及装置
CN104254074B (zh) * 2013-06-28 2020-08-07 腾讯科技(深圳)有限公司 一种拦截骚扰短消息的方法和装置
CN104424208B (zh) * 2013-08-22 2018-03-30 腾讯科技(北京)有限公司 对消息进行过滤处理的方法及装置
CN103500195B (zh) * 2013-09-18 2016-08-17 小米科技有限责任公司 分类器更新方法、装置、系统及设备
CN103634473B (zh) * 2013-12-05 2016-03-23 南京理工大学连云港研究院 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统
CN104063515A (zh) * 2014-07-14 2014-09-24 福州大学 一种基于机器学习的社交网络垃圾消息过滤方法
CN105992178B (zh) * 2015-02-06 2019-06-25 中国移动通信集团公司 一种垃圾短信识别方法及装置
CN106376002B (zh) * 2015-07-20 2021-10-12 中兴通讯股份有限公司 一种管理方法及装置、垃圾短信监控系统
CN105208571B (zh) * 2015-08-11 2018-07-24 北京奇虎科技有限公司 通信业务使用量的校准方法和装置
CN105163296A (zh) * 2015-09-22 2015-12-16 电子科技大学 一种多维度的垃圾短信过滤方法及系统
CN105404670B (zh) * 2015-11-16 2018-09-25 北京奇虎科技有限公司 骚扰短信判别方法及装置
CN105589846B (zh) * 2015-12-22 2018-07-31 北京奇虎科技有限公司 一种识别数字语义的方法、检测短信类别的方法及装置
CN107155178A (zh) * 2016-03-03 2017-09-12 深圳市新悦蓝图网络科技有限公司 一种基于智能算法的垃圾短信过滤方法
CN105808526B (zh) * 2016-03-30 2019-07-30 北京京东尚科信息技术有限公司 商品短文本核心词提取方法和装置
CN105681178A (zh) * 2016-04-12 2016-06-15 上海斐讯数据通信技术有限公司 一种终端信息处理的系统和方法
CN106649422B (zh) * 2016-06-12 2019-05-03 中国移动通信集团湖北有限公司 关键词提取方法及装置
CN107766371B (zh) * 2016-08-19 2023-11-17 中兴通讯股份有限公司 一种文本信息分类方法及其装置
CN107786416B (zh) * 2016-08-25 2021-08-10 腾讯科技(深圳)有限公司 信息处理方法及装置
CN107239440B (zh) * 2017-04-21 2021-05-25 同盾控股有限公司 一种垃圾文本识别方法和装置
CN107168951B (zh) * 2017-05-10 2019-07-05 山东大学 一种基于规则与词典的监狱犯人短信自动审核方法
CN109922444B (zh) * 2017-12-13 2020-11-03 中国移动通信集团公司 一种垃圾短信识别方法及装置
CN109902154A (zh) * 2018-11-30 2019-06-18 华为技术有限公司 信息处理方法、装置、服务设备及计算机可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1591924A1 (en) * 2004-04-30 2005-11-02 Microsoft Corporation Method and system for classifying display pages using summaries

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1591924A1 (en) * 2004-04-30 2005-11-02 Microsoft Corporation Method and system for classifying display pages using summaries

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
孙晋文,肖建国.基于SVM文本分类中的关键词学习研究.计算机科学33 11.2006,33(11),182-184.
孙晋文,肖建国.基于SVM文本分类中的关键词学习研究.计算机科学33 11.2006,33(11),182-184. *
张海雷,王会珍等.基于朴素贝叶斯模型的垃圾邮件过滤技术比较分析.全国网络与信息安全技术研讨会‘2007.2007,(2007),551-557. *
花小朋,王欢,蓝少华.多SVM决策组合在入侵检测中的应用.信息安全与通信保密 2007.3.2007,(2007.3),118-120.
花小朋,王欢,蓝少华.多SVM决策组合在入侵检测中的应用.信息安全与通信保密 2007.3.2007,(2007.3),118-120. *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105828306A (zh) * 2016-03-15 2016-08-03 中国联合网络通信集团有限公司 一种垃圾短信检测方法及装置
CN112492606B (zh) * 2020-11-10 2024-05-17 恒安嘉新(北京)科技股份公司 垃圾短信的分类识别方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN101184259A (zh) 2008-05-21

Similar Documents

Publication Publication Date Title
CN101184259B (zh) 垃圾短信中的关键词自动学习及更新方法
CN101257671B (zh) 基于内容的大规模垃圾短信实时过滤方法
CN103024746B (zh) 一种电信运营商垃圾短信处理系统及处理方法
CN103634473B (zh) 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统
CN101784022A (zh) 短信过滤、分类方法及系统
CN105955951B (zh) 一种消息过滤的方法及装置
CN101345720B (zh) 基于部分匹配预测的垃圾邮件分类方法
CN101645069B (zh) 一种多模式匹配中正则表达式存储压缩方法
CN101071418B (zh) 聊天方法与系统
CN101996241A (zh) 一种基于贝叶斯算法的内容过滤方法
CN103150374A (zh) 一种识别微博异常用户的方法和系统
CN102096703A (zh) 短消息的过滤方法和设备
CN104239539A (zh) 一种基于多种信息融合的微博信息过滤方法
CN101408883A (zh) 一种网络舆情观点收集方法
CN101197793B (zh) 一种垃圾信息检测方法和装置
CN103020159A (zh) 一种面向事件的新闻展现方法和装置
CN101159704A (zh) 基于微内容相似度的反垃圾方法
CN104965823A (zh) 一种基于大数据的观点抽取方法
JP2018501540A (ja) ストップワード識別方法および装置
CN106649578A (zh) 一种基于社交网络平台的舆情分析方法及系统
CN105183765A (zh) 一种基于大数据的话题抽取方法
CN103324641B (zh) 信息记录推荐方法和装置
CN102063497B (zh) 一种开放式知识共享平台及其词条处理方法
Jin et al. Filtering spam in Weibo using ensemble imbalanced classification and knowledge expansion
CN112492606B (zh) 垃圾短信的分类识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100623

Termination date: 20131101