CN104156228A - 一种客户端短信过滤嵌入式特征库及更新方法 - Google Patents
一种客户端短信过滤嵌入式特征库及更新方法 Download PDFInfo
- Publication number
- CN104156228A CN104156228A CN201410126384.1A CN201410126384A CN104156228A CN 104156228 A CN104156228 A CN 104156228A CN 201410126384 A CN201410126384 A CN 201410126384A CN 104156228 A CN104156228 A CN 104156228A
- Authority
- CN
- China
- Prior art keywords
- short message
- embedded
- feature database
- feature words
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种客户端短信过滤嵌入式特征库及更新方法,在移动终端上创建嵌入式特征库;将基于内容的客户端垃圾短信过滤系统划分为特征库更新模块和实时短信分类模块,特征库更新模块对嵌入式特征库进行定期更新,用户也可随时设置和更新短信类别信息;实时短信分类模块只需从嵌入式特征库中读取相关数据、然后进行快速的运算便可将垃圾短信识别出来,提高短信实时分类的处理速度;运算复杂度较高的特征库更新模块可在移动终端应用程序空闲时执行或转换至PC机端执行。解决了现有客户端垃圾短信过滤缺乏样本库和因硬件资源受限无法直接运行现有智能过滤系统的现状,降低了移动客户端的实时处理负担,且满足不同用户的定制短信过滤需求。
Description
技术领域
本发明属于垃圾短信过滤技术领域,涉及一种嵌入式特征库及更新方法。具体地说,涉及一种客户端短信过滤嵌入式特征库及更新方法。
背景技术
随着移动通信技术的飞速发展和手机等移动终端的快速普及,使短信的使用率迅速增加,短信因其低廉、方便、快捷等特点,给广大使用者带来了方便,但也滋生了以传播色情、广告、欺诈等不良信息的垃圾短信,严重干扰人们的生活,甚至给用户造成了巨大的经济损失。
目前常用短信过滤方法及机制有:基于关键词过滤、基于短信发送量及发送方分析过滤、基于内容过滤等。关键字过滤机制中的关键字主要依靠人工添加,具有滞后性、且受制于关键字的更新能力,因此关键字过滤的误报率及漏报率较高;基于短信发送量及发送方分析的过滤多采用对同一主叫号码的发送频次进行统计的方式,但短信发送者经常通过改变发送方式来逃避这种过滤机制,例如采用多个号码分批次发送的方式;目前对短信过滤的研究主要沿用基于内容的垃圾邮件过滤算法,它采用机器学习方法把短信自动分为正常短信和垃圾短信,例如贝叶斯、支持向量机和人工免疫等,其优点是过滤准确率高,存在的问题是这些方法运算量大且需要训练样本集的支持,而因涉及隐私等问题,公开的短信训练样本缺乏,给短信过滤研究带来了困难。短信文本短小、特征数据不足,影响过滤准确率,因此特征词的选取和特征库的建立对垃圾短信过滤显得尤为重要。
从实现的角度,垃圾短信过滤又分为短信服务中心的短信过滤和手机等移动终端的客户端短信过滤,基于内容的垃圾短信过滤存在大量运算,其学习和更新需要更多系统资源,适合在短信服务中心服务器上运行,但巨大短信流量带来的过滤任务会导致短信服务中心网络拥塞等问题;另一方面统一的过滤器较难满足用户的个性化需求,而且一旦在短信服务中心的过滤中出现分类错误,将会直接导致短信无法送达客户端。
基于内容的客户端垃圾短信过滤更为便捷和保密,它可以根据用户需求学习和生成过滤系统,保证用户隐私不被侵犯的同时达到较好的过滤效果。但与个人电脑或服务器相比,手机等移动终端的计算速度和存储能力有限,无法运行基于内容的智能过滤系统,现有的客户端短信过滤基本采用黑白名单和关键词过滤,这种简单的过滤方式不具有智能性,无法适应新的短信内容和不断变化的用户需求。
发明内容
本发明的目的在于克服现有客户端短信过滤缺乏样本库和因硬件资源受限而无法运行基于内容的智能过滤系统的现状,提供一种用于客户端短信过滤的嵌入式特征库及更新方法。一是通过将特征库更新模块与实时短信分类模块相分离,解决手机等移动终端硬件资源受限的问题,减轻客户端的实时处理负担;二是通过嵌入式特征库的创建和生成解决客户端垃圾短信过滤研究缺乏训练样本的现状;三是通过嵌入式特征库的更新使过滤系统能即时适应于不断变化的短信内容和用户过滤需求。
为了达到上述目的,本发明采用的技术方案如下。
一种客户端短信过滤嵌入式特征库生成及更新方法,包括以下步骤:
步骤1,在移动终端上创建嵌入式特征库,从初始训练样本中提取特征数据,形成嵌入式特征库的初始数据;
步骤2,将基于内容的客户端垃圾短信过滤系统划分为特征库更新模块和实时短信分类模块;
步骤3,对于待过滤短信,首先从中提取特征词,实时短信分类模块根据其特征词数据从嵌入式特征库中读取特征词相关统计数据,然后通过相应的分类运算得到类别信息;
步骤4,对于已分类短信,将其类别和特征词信息加入新短信特征表;
步骤5,根据新短信特征表,特征库更新模块对嵌入式特征库进行定期更新;
步骤6,用户可根据需求随时设置和更新嵌入式特征库中的类别信息。
所述初始训练样本要求每种短信类别至少包含一条短信训练样本。
所述嵌入式特征库的创建过程包括在移动终端上移植嵌入式数据库和设计数据逻辑模型,可存储在移动终端的SD卡上,用来保存短信样本中的特征数据。
所述嵌入式特征库包括3张数据表,分别是短信类别表、特征词信息表和特征词类别表。
1)短信类别表的属性项包括类别编号(主键)、类别名称、样本数目、是否为垃圾短信、类别的先验概率,类别名称可以由用户自己设置和更新,例如包括开票办证类、诈骗类、日常问候类、房产交易类、保险理财类等,每种类别可由用户设定是否为垃圾短信。如果用户变更了某一类别的“是否为垃圾短信”属性,用户短信属于相应类别的概率并不改变,因此嵌入式特征库中其他数据无需更改,短信分类模块可以即时适应于新的类别设置。类别Ck的先验概率P(Ck)按公式(1)进行计算。
其中表示Ck类短信总数,S表示所有短信样本总数。
2)特征词信息表的属性项包括特征词编号(主键)、特征词名称、特征词权重。
考虑特征词与类别的相关性和具有较强类别信息的特征词只在一个类别中出现的集中分布性,根据公式(2)、(3)、(4)计算特征词tk的权重W(tk)。
W(tk)=α(tk)MI(tk,Ci) (2)
其中Lk是特征词tk在每类短信中出现次数的最大值;Sk是特征词tk在所有短信中出现的次数之和;P(tk)为特征词tk在嵌入式特征库中出现的概率;P(Ci)表示嵌入式特征库中类别Ci的先验概率,其值可从短信类别表中获取;P(tk|Ci)表示特征词tk在Ci类短信中出现的概率,其值可从特征词类别信息表中获取。
3)特征词类别表的属性项包括特征词编号、类别编号、特征词在类中出现的次数、特征词在类中出现的概率,类别编号参照短信类别表的“类别编号”属性,特征词编号参照特征词基本信息表的“特征词编号”属性,“特征词编号+类别编号”构成特征词类别表的主键,特征词在类中出现的概率P(ti|Ck)可按公式(5)进行计算。
其中是Ck类的样本中所有特征词出现的总次数,是Ck类的样本中特征词ti出现的次数,m是训练样本中不重复的特征词总数。
假设新短信特征表用Lk表示;嵌入式特征库数据记录的最大值为Nmax,Nmax可根据移动终端的硬件资源设定;每次更新需删除的特征词数目为Ndelete。
所述特征库更新模块,包括如下步骤:
步骤1:根据新短信特征表Lk中的类别信息,更新短信类别表中的信息,包括样本数目、是否为垃圾短信、类别的先验概率(按公式(6)、(7)计算);
步骤2:对于新短信特征表Lk中的每一个特征词,查找其在特征词信息表中是否存在,若存在则更新其在嵌入式特征库中的特征词信息和特征词类别信息,包括特征词权重、特征词在类中出现的次数、特征词在类中出现的概率(按公式(8)、(9)计算);若不存在则在特征词信息表和特征词类别表中添加该特征词信息;
其中是Ck类样本中的特征词总数;Nall是样本库中所有特征词总数;Nti_nsms是特征词ti在nsms中出现的次数;Nall_nsms是nsms中所有特征词出现的次数总和。
步骤3:如果特征词数目大于Nmax,则执行步骤4,否则结束;
步骤4:将特征词信息表中特征词按照权重大小排序,删除权重最低的Ndelete个特征词,同时级联删除特征词类别表中的数据。
所述特征库更新模块不需要即时运行,可以在移动终端的应用程序空闲时执行或转换至PC机端异步更新。
所述特征库更新模块对嵌入式特征库进行定期更新,其更新周期由用户根据客户端短信接收频次自行设置。
通过上述技术方案,本发明具有以下有益成果。
1)初始训练样本可由少量短信样本组成,用户可以自己选择,随着客户端接收短信数目的增加,嵌入式特征库中的数据不断充实,解决了目前基于内容的客户端短信过滤研究缺乏训练样本的现状。
2)考虑了手机等移动终端的硬件资源,创造性地提出将特征库更新模块与实时短信分类模块相分离的方法,从本质上减轻了客户端实时短信过滤处理的负担。
3)由用户将短信预设置为若干种类别,并自定义每种类别是否为垃圾短信,当用户对类别的定义发生变化(如改变类别属性、添加或删除类别),实时短信分类模块可即时适应于新的过滤需求。
附图说明
图1是本发明中面向客户端短信过滤的嵌入式特征库图。
图2是本发明中嵌入式特征库生成及更新结构图。
图3是本发明中采用嵌入式特征库的短信分类系统流程图。
图4是本发明中基于贝叶斯算法的短信过滤流程图。
具体实施方式
下面结合附图,详细说明本发明的技术方案。
如图1所示,本发明中面向客户端短信过滤的嵌入式特征库图,嵌入式特征库可存储在手机等移动终端的SD卡上,特征库更新模块在移动终端的应用程序空闲时执行或在PC机端对其进行异步更新,实时短信分类模块从嵌入式特征库中读取特征数据,并在移动终端实时运行。
如图2所示,本发明中嵌入式特征库生成及更新结构图,包括如下步骤:
1)在移动终端上创建嵌入式特征库,经预处理和特征选取从初始训练样本中提取特征数据,形成嵌入式特征库的初始数据;
2)对已分类短信,将其类别和特征信息加入新短信特征表;
3)根据新短信特征表,特征库更新模块对嵌入式特征库进行定期更新,并根据特征词权重删除权重较小的弱类别特征数据,保证嵌入式特征库中的数据记录不超过设定的最大值;
4)用户可根据需求随时设置或更新嵌入式特征库中的类别信息。
如图3所示,本发明中采用嵌入式特征库的短信分类系统流程图,包括如下步骤:
1)对客户端接收到的新短信,经预处理和特征选取后进入实时短信分类模块;
2)实时短信分类模块从嵌入式特征库中读取特征统计数据,通过分类运算得到新短信的类别信息,是垃圾短信则进入垃圾短信箱,否则进入收件箱。
如图4所示,本发明中基于贝叶斯算法的短信过滤流程图,包括如下步骤:
1)对客户端接收到的新短信nsms进行预处理和特征选取后,提取特征词t1t2...tn;
2)实时短信分类模块从嵌入式特征库中读取类别先验概率P(Ck)和特征词类条件概率P(ti|Ck),根据公式(10)计算nsms属于每种类别的概率P(Ck|nsms);
3)找到概率值最大的类别Ck,查找嵌入式特征库,如果类别Ck属于垃圾短信类别,则 将nsms归为垃圾短信,否则为正常短信;
4)若考虑正常短信误判的风险,可找到概率值最大的两种类别Ck1和Ck2,假设P(Ck1|nsms)大于P(Ck2|nsms),若Ck1和Ck2属于同一类别,则将短信归为其类别;若Ck1属于垃圾短信类别,Ck2属于正常短信类别,则计算P(Ck1|nsms)与P(Ck2|nsms)的比值R,如果R大于给定的阈值,则将其归为垃圾短信,否则为正常短信;若Ck1属于正常短信类别,Ck2属于垃圾短信类别,则将其归为正常短信。
以上所述嵌入式特征库及更新方法是针对朴素贝叶斯过滤算法而设计的,在不脱离本发明创造构思的前提下,针对其他算法而创建新的嵌入式特征库和更新方法或者将本发明所述方法应用于客户端其他垃圾信息过滤,这些都属于本发明的保护范围。
Claims (12)
1.在一种客户端短信过滤嵌入式特征库及更新方法,其特征在于,包括以下步骤:
步骤1,在移动终端上创建嵌入式特征库,从初始训练样本中提取特征数据,形成嵌入式特征库的初始数据;
步骤2,将基于内容的客户端垃圾短信过滤系统划分为特征库更新模块和实时短信分类模块;
步骤3,对于待过滤短信,首先从中提取特征词,实时短信分类模块根据其特征词数据从嵌入式特征库中读取特征词相关统计数据,然后通过相应的分类运算得到类别信息;
步骤4,对于已分类短信,将其类别和特征词信息加入新短信特征表;
步骤5,根据新短信特征表,特征库更新模块对嵌入式特征库进行定期更新;
步骤6,用户可根据需求随时设置和更新嵌入式特征库中的类别信息。
2.根据权利要求1所述的客户端短信过滤嵌入式特征库及更新方法,其特征在于,所述嵌入式特征库可存储在移动终端的SD卡上。
3.根据权利要求1所述的客户端短信过滤嵌入式特征库及更新方法,其特征在于,所述嵌入式特征库包括短信类别表、特征词信息表和特征词类别表。
4.根据权利要求1所述的客户端短信过滤嵌入式特征库及更新方法,其特征在于,所述特征库更新模块包括如下步骤:
步骤1:根据新短信特征表中的类别信息,更新嵌入式特征库中的短信类别信息;
步骤2:对于新短信特征表中的每一个特征词,查找其在特征词信息表中是否存在,若存在则更新其在嵌入式特征库中的特征词信息和特征词类别信息,若不存在则在特征词信息表和特征词类别表中添加该特征词信息;
步骤3:如果特征词数目大于Nmax,则执行步骤4,否则结束;
步骤4:将特征词信息表中特征词按照权重大小排序,删除权重最低的Ndelete个特征词,同时级联删除特征词类别表中的数据。
5.根据权利要求1所述的客户端短信过滤嵌入式特征库及更新方法,其特征在于,所述特征库更新模块不需要即时运行,可以在移动终端的应用程序空闲时执行或转换至PC机端异步更新。
6.根据权利要求1所述的客户端短信过滤嵌入式特征库及更新方法,其特征在于,所述特征库更新模块对嵌入式特征库进行定期更新,其更新周期由用户根据移动终端短信接收频次自行设置。
7.根据权利要求1或3所述的客户端短信过滤嵌入式特征库及更新方法,其特征在于,如果用户变更了所述短信类别表中某一类别的“是否为垃圾短信”属性,嵌入式特征库中其它数据无需更改,短信分类模块可即时适应于新的类别设置。
8.根据权利要求3所述的客户端短信过滤嵌入式特征库及更新方法,其特征在于,所述特征词信息表的“特征词权重”属性W(tk)的计算公式为:
W(tk)=α(tk)MI(tk,Ci)
其中Lk是特征词tk在每类短信中出现次数的最大值;Sk是特征词tk在所有短信中出现的次数之和;MI(tk,Ci)为特征词tk与类别Ci的互信息,其中P(Ci)的值可从短信类别表中获取,P(tk|Ci)的值可从特征词类别表中获取。
9.根据权利要求4所述的客户端短信过滤嵌入式特征库更新方法,其特征在于,所述步骤1中短信类别信息包括样本数目、是否为垃圾短信、类别的先验概率。
10.根据权利要求4所述的客户端短信过滤嵌入式特征库更新方法,其特征在于,所述步骤2中特征词信息和特征词类别信息包括包括特征词权重、特征词在类中出现的次数、特征词在类中出现的概率。
11.根据权利要求4所述的客户端短信过滤嵌入式特征库更新方法,其特征在于,所述步骤2中Nmax为嵌入式特征库数据记录的最大值,可根据移动终端的硬件资源设定。
12.根据权利要求5所述的客户端短信过滤嵌入式特征库更新方法,其特征在于,所述步骤3中Ndelete为每次更新需删除的特征词数目。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410126384.1A CN104156228B (zh) | 2014-04-01 | 2014-04-01 | 一种客户端短信过滤嵌入式特征库及更新方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410126384.1A CN104156228B (zh) | 2014-04-01 | 2014-04-01 | 一种客户端短信过滤嵌入式特征库及更新方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104156228A true CN104156228A (zh) | 2014-11-19 |
CN104156228B CN104156228B (zh) | 2017-11-10 |
Family
ID=51881735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410126384.1A Expired - Fee Related CN104156228B (zh) | 2014-04-01 | 2014-04-01 | 一种客户端短信过滤嵌入式特征库及更新方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104156228B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105871887A (zh) * | 2016-05-12 | 2016-08-17 | 北京大学 | 基于客户端的个性化电子邮件过滤系统和过滤方法 |
CN106294346A (zh) * | 2015-05-13 | 2017-01-04 | 厦门美柚信息科技有限公司 | 一种论坛帖子识别方法及装置 |
CN106503045A (zh) * | 2016-09-21 | 2017-03-15 | 联动优势科技有限公司 | 一种更新模板库的方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008053426A1 (en) * | 2006-10-31 | 2008-05-08 | International Business Machines Corporation | Identifying unwanted (spam) sms messages |
CN101902523A (zh) * | 2010-07-09 | 2010-12-01 | 中兴通讯股份有限公司 | 一种移动终端及其短信的过滤方法 |
CN102024045A (zh) * | 2010-12-14 | 2011-04-20 | 成都市华为赛门铁克科技有限公司 | 信息分类处理方法、装置和终端 |
CN102411611A (zh) * | 2011-10-15 | 2012-04-11 | 西安交通大学 | 一种面向即时交互文本的事件识别与跟踪方法 |
CN102547623A (zh) * | 2010-12-08 | 2012-07-04 | 中国电信股份有限公司 | 垃圾短信处理方法和系统 |
CN103634473A (zh) * | 2013-12-05 | 2014-03-12 | 南京理工大学连云港研究院 | 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统 |
-
2014
- 2014-04-01 CN CN201410126384.1A patent/CN104156228B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008053426A1 (en) * | 2006-10-31 | 2008-05-08 | International Business Machines Corporation | Identifying unwanted (spam) sms messages |
CN101902523A (zh) * | 2010-07-09 | 2010-12-01 | 中兴通讯股份有限公司 | 一种移动终端及其短信的过滤方法 |
CN102547623A (zh) * | 2010-12-08 | 2012-07-04 | 中国电信股份有限公司 | 垃圾短信处理方法和系统 |
CN102024045A (zh) * | 2010-12-14 | 2011-04-20 | 成都市华为赛门铁克科技有限公司 | 信息分类处理方法、装置和终端 |
CN102411611A (zh) * | 2011-10-15 | 2012-04-11 | 西安交通大学 | 一种面向即时交互文本的事件识别与跟踪方法 |
CN103634473A (zh) * | 2013-12-05 | 2014-03-12 | 南京理工大学连云港研究院 | 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统 |
Non-Patent Citations (2)
Title |
---|
包理群等: ""一种客户端短信过过滤的样本特征库生成方法"", 《计算机工程》 * |
李辉等: ""基于内容的垃圾短信过滤"", 《计算机工程》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294346A (zh) * | 2015-05-13 | 2017-01-04 | 厦门美柚信息科技有限公司 | 一种论坛帖子识别方法及装置 |
CN105871887A (zh) * | 2016-05-12 | 2016-08-17 | 北京大学 | 基于客户端的个性化电子邮件过滤系统和过滤方法 |
CN105871887B (zh) * | 2016-05-12 | 2019-01-29 | 北京大学 | 基于客户端的个性化电子邮件过滤系统和过滤方法 |
CN106503045A (zh) * | 2016-09-21 | 2017-03-15 | 联动优势科技有限公司 | 一种更新模板库的方法及装置 |
CN106503045B (zh) * | 2016-09-21 | 2019-06-18 | 联动优势科技有限公司 | 一种更新模板库的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104156228B (zh) | 2017-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101257671B (zh) | 基于内容的大规模垃圾短信实时过滤方法 | |
Aggarwal et al. | Event detection in social streams | |
CN101166159B (zh) | 一种确定垃圾信息的方法及系统 | |
JP5092165B2 (ja) | データ構築方法とシステム | |
CN103605791B (zh) | 信息推送系统和信息推送方法 | |
CN108491720B (zh) | 一种应用识别方法、系统以及相关设备 | |
CN106778876A (zh) | 基于移动用户轨迹相似性的用户分类方法和系统 | |
US20160232452A1 (en) | Method and device for recognizing spam short messages | |
CN103176982A (zh) | 一种电子图书推荐的方法及系统 | |
WO2020038100A1 (zh) | 一种特征关系推荐方法及装置、一种计算设备及存储介质 | |
CN103501374A (zh) | 电话簿排序方法及装置、终端 | |
TW201426360A (zh) | 文字串流訊息分析系統和方法 | |
CN102083010A (zh) | 一种用户信息筛选方法和设备 | |
CN106789572B (zh) | 一种实现自适应消息过滤的即时通讯系统和即时通讯方法 | |
CN105812554A (zh) | 一种智能管理手机短信的方法和系统 | |
CN104077723A (zh) | 一种社交网络推荐系统及方法 | |
CN106294676B (zh) | 一种电子商务政务系统的数据检索方法 | |
KR101031901B1 (ko) | 통신 기록에 기반한 사회 관계 분석 방법 및 시스템 | |
CN104156228A (zh) | 一种客户端短信过滤嵌入式特征库及更新方法 | |
CN106649380A (zh) | 一种基于标签的热点推荐方法及系统 | |
CN106411704A (zh) | 一种分布式垃圾短信识别方法 | |
CN1614607B (zh) | 垃圾邮件过滤的方法和系统 | |
CN109685129A (zh) | 一种基于智能手机的多类社交应用主题信息聚类关联方法 | |
CN112069392B (zh) | 涉网犯罪防控方法、装置、计算机设备及存储介质 | |
CN105404670B (zh) | 骚扰短信判别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171110 Termination date: 20200401 |