CN105516941A - 一种垃圾短信的拦截方法及装置 - Google Patents

一种垃圾短信的拦截方法及装置 Download PDF

Info

Publication number
CN105516941A
CN105516941A CN201410537939.1A CN201410537939A CN105516941A CN 105516941 A CN105516941 A CN 105516941A CN 201410537939 A CN201410537939 A CN 201410537939A CN 105516941 A CN105516941 A CN 105516941A
Authority
CN
China
Prior art keywords
participle
refuse messages
sample
note
word feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410537939.1A
Other languages
English (en)
Inventor
伏晓海
李学领
叶兵
孙立波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201410537939.1A priority Critical patent/CN105516941A/zh
Priority to PCT/CN2015/080337 priority patent/WO2016058390A1/zh
Publication of CN105516941A publication Critical patent/CN105516941A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements
    • H04W4/14Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种垃圾短信的拦截方法及装置,涉及移动通信领域中的短信业务,其中上述方法包括:获取历史接收短信样本,所述短信样本包括垃圾短信和非垃圾短信,从所述历史接收短信样本中提取分词,每一所述历史接收短信样本形成一个包括多个分词的分词特征向量;计算所述分词特征向量中各分词属于垃圾短信的权重值,所述权重值从大到小排列时,提取每一历史垃圾短信样本中前N个权重值所对应的分词,形成备选的分词特征向量;根据所述备选的分词特征向量产生拦截垃圾短信的规则来拦截垃圾短信。通过上述方法可以自动生成拦截垃圾短信的规则,并同步给垃圾短信的实时拦截系统来拦截垃圾短信。

Description

一种垃圾短信的拦截方法及装置
技术领域
本发明涉及移动通信领域中的短信业务,具体涉及一种垃圾短信的拦截方法及装置。
背景技术
随着通讯业务的扩展,短信业务得到越来越广泛的应用。但是垃圾短信也伴随而起,大量不法的商家借助短信平台发送广告和诈骗信息。因此运营商一般借助垃圾短信拦截系统对垃圾短信进行拦截。现有的垃圾短信拦截系统是基于关键字规则进行拦截,即只要短信满足关键字规则,则将此短信拦截。而关键字都是由人力手工输入,这样就带来了两方面的问题:1)需要浪费大量的人力和物力去维护关键字规则,提高了人力成本;2)关键字规则设定后相对固定,而垃圾短信则是千变万化,发送者略微改动短信内容,就会造成原有的关键字规则失效。
发明内容
本发明的目的在与提供一种垃圾短信的拦截方法及装置,用来自动拦截垃圾短信。
为了达到上述目的,本发明提供了一种垃圾短信的拦截方法,包括:
获取历史接收短信样本,所述短信样本包括垃圾短信和非垃圾短信,从所述历史接收短信样本中提取分词,每一所述历史接收短信样本形成一个包括多个分词的分词特征向量;
计算所述分词特征向量中各分词属于垃圾短信的权重值,利用所述权重值,获取每一历史垃圾短信样本中前N个最大权重值所对应的分词,形成备选的分词特征向量;
对所述备选的分词特征向量通过形近聚类处理、音近聚类处理和合并压缩处理,获得拦截垃圾短信的规则来拦截垃圾短信。
其中,从所述历史接收短信样本中提取分词,形成包括多个分词的分词特征向量的步骤具体包括:
在历史接收短信样本中提取垃圾短信样本和非垃圾短信样本;
使用分词工具对所述垃圾短信样本和非垃圾短信样本分别进行分词,每一历史接收短信样本对应形成为一个分词特征向量。
其中,计算所述分词特征向量中各分词属于垃圾短信的权重值,利用所述权重值,获取历史垃圾短信样本中前N个最大权重值所对应的分词,得到备选的分词特征向量的步骤具体包括:
运用贝叶斯公式计算每个分词特征向量中各分词属于垃圾短信的权重值;
根据获取到的每个分词的权重值,重新扫描所述垃圾短信样本的分词特征向量,对应得到所述垃圾短信样本的权重值的特征向量;
对每个垃圾短信样本的权重值的特征向量,权重值按照从大到小顺序排列,筛选出最大的N个权重值,得到维度为N的权重值的特征向量;
获取所述权重值对应的分词,组成所述垃圾短信样本备选的分词特征向量。
其中,运用贝叶斯公式计算每个分词属于垃圾短信的权重值的步骤包括:
计算每个分词属于垃圾短信类的概率P(C0|Ti);
计算每个分词属于非垃圾短信类的概率P(C1|Ti);
计算每个分词在所有垃圾短信样本中出现的概率P(Ti|C0);
计算每个分词在所有非垃圾短信样本中出现的概率P(Ti|C1);
计算垃圾短信样本占总样本的概率P(C0);
计算非垃圾短信样本占总样本的概率P(C1);
根据以下公式计算每个分词属于垃圾短信的权重值:
W Ti = P ( C 0 | Ti ) P ( Cl | Ti ) = P ( Ti | C 0 ) P ( C 0 ) P ( Ti ) P ( Ti | Cl ) P ( Cl ) P ( Ti ) = P ( Ti | C 0 ) P ( C 0 ) P ( Ti | Cl ) P ( Cl ) .
其中,对所述备选的分词特征向量,对所述备选的分词特征向量,通过形近聚类处理、音近聚类处理和合并压缩处理,获得拦截垃圾短信的规则来拦截垃圾短信的步骤具体包括:
将所有所述备选的分词特征向量中的分词按照相似语音和相似字形进行聚类;
将所有聚类后备选的分词特征向量按照字符顺序排序,对排序后的特征向量进行与或规则合并,直到没有出现新的可合并的特征向量,或者迭代次数达到设定的固定的次数;
将合并后的特征向量中的基础词替换为其对应的音近同源词组或者形近同源词组,词组之间的分词用“或”的逻辑关系连接,形成拦截垃圾短信的规则;
将所述拦截垃圾短信的规则同步给实时垃圾短信拦截系统,当判断接收到的短信满足所述拦截垃圾短信的规则时,则认为是垃圾短信,进行拦截。
其中,将所有所述备选的分词特征向量中的分词按照相似语音和相似的字形进行聚类的步骤包括:
将所有备选的分词特征向量中的分词按照相似的语音进行聚类,形成多类音近同源词组;
对于每一类音近同源词组,取出现频度最高的分词做为对应音近同源词组的基础词,扫描所有的备选分词特征向量,将其中的音近同源词组对应的所有分词都替换为基础词;
将所有备选的分词特征向量中的分词按照相似的字形进行聚类,形成形近同源词组;
对于每一类形近同源词组,取出现频度最高的分词做为对应形近同源词组的基础词,扫描所有的备选分词特征向量,将其中的形近同源词组对应的所有分词都替换为基础词。
本发明实施例还包括一种垃圾短信的拦截装置,包括:
提取分词模块,用于获取历史接收短信样本,所述短信样本包括垃圾短信和非垃圾短信,从所述历史接收短信样本中提取分词,每一所述历史接收短信样本形成一个包括多个分词的分词特征向量;
计算模块,用于计算所述分词特征向量中各分词属于垃圾短信的权重值,获取每一历史垃圾短信样本中前N个最大权重值所对应的分词,形成备选的分词特征向量;
拦截模块,用于对所述备选的分词特征向量,通过形近聚类处理、音近聚类处理和合并压缩处理,获得拦截垃圾短信的规则来拦截垃圾短信。
其中,所述提取分词模块包括:
提取单元,用于在历史接收短信样本中提取垃圾短信样本和非垃圾短信样本;
分词单元,用于使用分词工具对所述垃圾短信样本和非垃圾短信样本分别进行分词,每一历史接收短信样本对应形成为一个分词特征向量。
其中,所述计算模块包括:
计算单元,用于运用贝叶斯公式计算每个分词特征向量中各分词属于垃圾短信的权重值;
扫描单元,用于根据获取到的每个分词的权重值,重新扫描所述垃圾短信样本的分词特征向量,对应得到所述垃圾短信样本的权重值的特征向量;
筛选单元,用于对每个垃圾短信样本的权重值的特征向量,权重值按照从大到小顺序排列,筛选出最大的N个权重值,得到维度为N的权重值的特征向量;
获取单元,用于获取所述权重值对应的分词,组成所述垃圾短信样本备选的分词特征向量。
其中,所述计算单元包括:
第一计算子单元,用于计算每个分词属于垃圾短信类的概率P(C0|Ti);
第二计算子单元,用于计算每个分词属于非垃圾短信类的概率P(C1|Ti);
第三计算子单元,用于计算每个分词在所有垃圾短信样本中出现的概率P(Ti|C0);
第四计算子单元,用于计算每个分词在所有非垃圾短信样本中出现的概率P(Ti|C1);
第五计算子单元,用于计算垃圾短信样本占总样本的概率P(C0);
第六计算子单元,用于计算非垃圾短信样本占总样本的概率P(C1);
第七计算子单元,用于依据以下公式计算每个分词属于垃圾短信的权重值:
W Ti = P ( C 0 | Ti ) P ( Cl | Ti ) = P ( Ti | C 0 ) P ( C 0 ) P ( Ti ) P ( Ti | Cl ) P ( Cl ) P ( Ti ) = P ( Ti | C 0 ) P ( C 0 ) P ( Ti | Cl ) P ( Cl )
其中,Ti表示分词,C0表示垃圾短信样本,C1表示非垃圾短信样本。
其中,所述拦截模块包括:
聚类单元,用于将所有所述备选的分词特征向量中的分词按照相似语音和相似字形进行聚类;
合并单元,用于将所有聚类后备选的分词特征向量按照字符顺序排序,对排序后的特征向量进行与或规则合并,直到没有出现新的可合并的特征向量,或者迭代次数达到设定的固定的次数;
替换单元,用于将合并后的特征向量中的基础词替换为其对应的音近同源词组或者形近同源词组,词组之间的分词用“或”的逻辑关系连接,形成拦截垃圾短信的规则;
判断单元,用于将所述拦截垃圾短信的规则同步给实时垃圾短信拦截系统,当判断接收到的短信满足所述拦截垃圾短信的规则时,则认为是垃圾短信,进行拦截。
其中,所述聚类单元包括:
语音聚类子单元,用于将所有备选的分词特征向量中的分词按照相似的语音进行聚类,形成多类音近同源词组;
第一替换子单元,用于对每一类音近同源词组,取出现频度最高的分词做为对应音近同源词组的基础词,扫描所有的备选分词特征向量,将其中音近同源词组对应的所有分词都替换为基础词;
字形聚类子单元,用于将所有备选的分词特征向量中的分词按照相似的字形进行聚类,形成形近同源词组;
第二替换子单元,用于对每一类形近同源词组,取出现频度最高的分词做为对应形近同源词组的基础词,扫描所有的备选分词特征向量,将其中形近同源词组对应的所有分词都替换为基础词。
本发明的上述技术方案至少具有如下有益效果:本发明实施例的垃圾短信的拦截方法提出一种自动生成垃圾短信的备选的分词特征向量的方法,并通过对备选的分词特征向量进行音近字、形近字和组合词的提取,生成垃圾短信的拦截规则并同步给垃圾短信实时拦截系统拦截垃圾短信。在拦截垃圾短信时,既避免了手工输入备选的分词特征向量带来的不便,又解决了分词特征向量相对固定,而垃圾短信千变万化造成分词特征向量容易失效的问题。
附图说明
图1为本发明实施例所述的拦截垃圾短信的方法的步骤流程图;
图2为本发明实施例中图1中步骤1的流程图;
图3为本发明实施例中图1中步骤2的流程图;
图4为本发明实施例中图1中步骤3的流程图;
图5为本发明实施例所述的拦截垃圾短信的装置的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有技术中关键字规则需由人工输入,且容易失效的问题,提供了一种垃圾短信的拦截方法及装置,自动生成备选的分词特征向量即关键字规则,并通过音近字、形近字和组合词的提取发现新的变种字关键字规则即垃圾短信拦截规则,并同步给垃圾短信拦截系统实现垃圾短信的拦截。
如图1所示,本发明实施例提供一种垃圾短信的拦截方法,包括:
步骤1,获取历史接收短信样本,所述短信样本包括垃圾短信和非垃圾短信,从所述历史接收短信样本中提取分词,每一所述历史接收短信样本形成一个包括多个分词的分词特征向量;
步骤2,计算所述分词特征向量中各分词属于垃圾短信的权重值,获取每一历史垃圾短信样本中前N个最大权重值所对应的分词,得到备选的分词特征向量;
步骤3,对所述备选的分词特征向量,通过形近聚类处理、音近聚类处理和合并压缩处理,获得拦截垃圾短信的规则来拦截垃圾短信。
本发明的上述实施例中,从所述历史接收短信样本中提取分词,形成包括多个分词的分词特征向量的步骤具体包括:
步骤101,在历史接收短信样本中提取垃圾短信样本和非垃圾短信样本;
步骤102,使用分词工具对所述垃圾短信样本和非垃圾短信样本分别进行分词,每一历史接收短信样本对应形成为一个分词特征向量。
本发明的具体实施例中,步骤102中,使用分词工具对所述垃圾短信样本和非垃圾短信样本进行分词前,需要先对所述垃圾短信样本和非垃圾短信样本进行去噪处理,去除其中的标点符号等干扰词,以及去除停用词,以最大限度的反映短信的基本特征。
本发明的上述实施例中,计算所述分词特征向量中各分词属于垃圾短信的权重值,获取每一历史垃圾短信样本中前N个最大权重值所对应的分词,得到备选的分词特征向量的步骤具体包括:
步骤201,运用贝叶斯公式计算每个分词特征向量中各分词属于垃圾短信的权重值;
步骤202,根据获取到的每个分词的权重值,重新扫描所述垃圾短信样本的分词特征向量,对应得到所述垃圾短信样本的权重值的特征向量;
步骤203,对每个垃圾短信样本的权重值的特征向量,权重值按照从大到小顺序排列,筛选出最大的N个权重值,得到维度为N的权重值的特征向量;
步骤204,获取所述权重值对应的分词,组成所述垃圾短信样本备选的分词特征向量。
本发明的具体实施例中,如果历史短信样本中每个分词属于垃圾短信的权重值超过一定的阈值,则表示该分词属于垃圾短信的概率较高,步骤203中每个垃圾短信样本均对应一个权重值的特征向量,这些特征向量是按权重值从大到小排列的,在每个权重值的特征向量中均筛选出最大的N个权重值,且每个权重值要大于阈值K,如果筛选出的权重值的特征向量中的N个权重值不都大于阈值K,则抛弃此特征向量,最终得到多个垃圾短信样本对应的N个权重值都大于阈值K的特征向量。步骤204中将所述权重值替换为其对应的分词,即可得到垃圾短信样本备选的分词特征向量,即备选关键字规则。
本发明的上述实施例中,运用贝叶斯公式计算每个分词属于垃圾短信的权重值的步骤包括:
步骤2011,计算每个分词属于垃圾短信类的概率P(C0|Ti);
步骤2012,计算每个分词属于非垃圾短信类的概率P(C1|Ti);
步骤2013,计算每个分词在所有垃圾短信样本中出现的概率P(Ti|C0);
步骤2014,计算每个分词在所有非垃圾短信样本中出现的概率P(Ti|C1);
步骤2015,计算垃圾短信样本占总样本的概率P(C0);
步骤2016,计算非垃圾短信样本占总样本的概率P(C1);
步骤2017,根据以下公式计算每个分词属于垃圾短信的权重值:
W Ti = P ( C 0 | Ti ) P ( Cl | Ti ) = P ( Ti | C 0 ) P ( C 0 ) P ( Ti ) P ( Ti | Cl ) P ( Cl ) P ( Ti ) = P ( Ti | C 0 ) P ( C 0 ) P ( Ti | Cl ) P ( Cl ) .
其中,Ti表示分词,C0表示垃圾短信样本,C1表示非垃圾短信样本。
本发明的具体实施例中,利用贝叶斯训练器计算每个分词的权重值,是指采用贝叶斯公式计算出历史短信样本中每个分词属于垃圾短信的概率值,以及属于非垃圾短信的概率值,二者相除之后得出的一个综合权重值,如果综合权重值超过一定的阈值,则判断该分词属于垃圾短信的概率较高。
本发明的上述实施例中,对所述备选的分词特征向量,通过音近字、形近字和组合词的提取,产生拦截垃圾短信的规则来拦截垃圾短信的步骤具体包括:
步骤301,将所有所述备选的分词特征向量中的分词按照相似语音和相似字形进行聚类;
步骤302,将所有聚类后备选的分词特征向量按照字符顺序排序,对排序后的特征向量进行与或规则合并,直到没有出现新的可合并的特征向量,或者迭代次数达到设定的固定的次数;
步骤303,将合并后的特征向量中的基础词替换为其对应的音近同源词组或者形近同源词组,词组之间的分词用“或”的逻辑关系连接,形成拦截垃圾短信的规则;
步骤304,将所述拦截垃圾短信的规则同步给实时垃圾短信拦截系统,当判断接收到的短信满足所述拦截垃圾短信的规则时,则认为是垃圾短信,进行拦截。
本发明的上述实施例中,步骤301的具体实现又包括:
步骤3011,将所有备选的分词特征向量中的分词按照相似的语音进行聚类,形成多类音近同源词组;
步骤3012,对于每一类音近同源词组,取出现频度最高的分词做为对应音近同源词组的基础词,扫描所有的备选分词特征向量,将其中的音近同源词组对应所有分词都替换为基础词;
步骤3013,将所有备选的分词特征向量中的分词按照相似的字形进行聚类,形成形近同源词组;
步骤3014,对于每一类形近同源词组,取出现频度最高的词做为对应形近同源词组的基础词,扫描所有的备选分词特征向量,将其中的分词都替换为基础词。
本发明的具体实施例中,步骤302合并的规则为对于所述特征向量内的分词用逻辑关系“与”连接;对于不同的特征向量之间如果除了一个分词不同,其他分词都是相同的,则两个特征向量可以合并,合并的原则是,相同的分词保留,不同的分词用逻辑关系“或”连接。
为了更好的实现上述目的,如图5所示,本发明实施例还提供了一种垃圾短信的拦截装置,包括:
提取分词模块51,用于获取历史接收短信样本,从所述历史接收短信样本中提取分词,每一所述历史接收短信样本形成一个包括多个分词的分词特征向量;
计算模块52,用于计算所述分词特征向量中各分词属于垃圾短信的权重值,获取每一历史垃圾短信样本中前N个最大权重值所对应的分词,形成备选的分词特征向量;
拦截模块53,用于对所述备选的分词特征向量,通过音近字、形近字和组合词的提取,产生拦截垃圾短信的规则来拦截垃圾短信。
本发明的上述实施例中,提取分词模块包括:
提取单元,用于在历史接收短信样本中提取垃圾短信样本和非垃圾短信样本;
分词单元,用于使用分词工具对所述垃圾短信样本和非垃圾短信样本分别进行分词,每一历史接收短信样本对应形成为一个分词特征向量。
本发明的上述实施例中,计算模块包括:
计算单元,用于运用贝叶斯公式计算每个分词特征向量中各分词属于垃圾短信的权重值;
扫描单元,用于根据获取到的每个分词的权重值,重新扫描所述垃圾短信样本的分词特征向量,对应得到所述垃圾短信样本的权重值的特征向量;
筛选单元,用于对每个垃圾短信样本的权重值的特征向量,权重值按照从大到小顺序排列,筛选出最大的N个权重值,得到维度为N的权重值的特征向量;
获取单元,用于获取所述权重值对应的分词,组成所述垃圾短信样本备选的分词特征向量。
本发明的上述实施例中,计算单元包括:
第一计算子单元,用于计算每个分词属于垃圾短信类的概率P(C0|Ti);
第二计算子单元,用于计算每个分词属于非垃圾短信类的概率P(C1|Ti);
第三计算子单元,用于计算每个分词在所有垃圾短信样本中出现的概率P(Ti|C0);
第四计算子单元,用于计算每个分词在所有非垃圾短信样本中出现的概率P(Ti|C1);
第五计算子单元,用于计算垃圾短信样本占总样本的概率P(C0);
第六计算子单元,用于计算非垃圾短信样本占总样本的概率P(C1);
第七计算子单元,用于依据以下公式计算每个分词属于垃圾短信的权重值:
W Ti = P ( C 0 | Ti ) P ( Cl | Ti ) = P ( Ti | C 0 ) P ( C 0 ) P ( Ti ) P ( Ti | Cl ) P ( Cl ) P ( Ti ) = P ( Ti | C 0 ) P ( C 0 ) P ( Ti | Cl ) P ( Cl )
其中,Ti表示分词,C0表示垃圾短信样本,C1表示非垃圾短信样本。本发明的上述实施例中,拦截模块包括:
聚类单元,用于将所有所述备选的分词特征向量中的分词按照相似语音和相似字形进行聚类;
合并单元,用于将所有聚类后备选的分词特征向量按照字符顺序排序,对排序后的特征向量进行与或规则合并,直到没有出现新的可合并的特征向量,或者迭代次数达到设定的固定的次数;
替换单元,用于将合并后的特征向量中的基础词替换为其对应的音近同源词组或者形近同源词组,词组之间的分词用“或”的逻辑关系连接,形成拦截垃圾短信的规则;
判断单元,用于将所述拦截垃圾短信的规则同步给实时垃圾短信拦截系统,当判断接收到的短信满足所述拦截垃圾短信的规则时,则认为是垃圾短信,进行拦截。
本发明的实施例中,聚类单元包括:
语音聚类子单元,用于将所有备选的分词特征向量中的分词按照相似的语音进行聚类,形成多类音近同源词组;
第一替换子单元,用于对每一类音近同源词组,取出现频度最高的分词做为对应音近同源词组的基础词,扫描所有的备选分词特征向量,将其中音近同源词组对应的所有分词都替换为基础词;
字形聚类子单元,用于将所有备选的分词特征向量中的分词按照相似的字形进行聚类,形成形近同源词组;
第二替换子单元,用于对每一类形近同源词组,取出现频度最高的分词做为对应形近同源词组的基础词,扫描所有的备选分词特征向量,将其中形近同源词组对应的所有分词都替换为基础词。
需要说明的是,本发明实施例提供的装置应用上述方法,则上述方法的所有实施例均适用于该装置,且均能达到相同或相似的有益效果。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种垃圾短信的拦截方法,其特征在于,所述拦截方法包括:
获取历史接收短信样本,所述短信样本包括垃圾短信和非垃圾短信,从所述历史接收短信样本中提取分词,每一所述历史接收短信样本形成一个包括多个分词的分词特征向量;
计算所述分词特征向量中各分词属于垃圾短信的权重值,获取每一历史垃圾短信样本中前N个最大权重值所对应的分词,得到备选的分词特征向量;
对所述备选的分词特征向量,通过形近聚类处理、音近聚类处理和合并压缩处理,获得拦截垃圾短信的规则来拦截垃圾短信。
2.如权利要求1所述的垃圾短信的拦截方法,其特征在于,从所述历史接收短信样本中提取分词,形成包括多个分词的分词特征向量的步骤具体包括:
在历史接收短信样本中提取垃圾短信样本和非垃圾短信样本;
使用分词工具对所述垃圾短信样本和非垃圾短信样本分别进行分词,每一历史接收短信样本对应形成为一个分词特征向量。
3.如权利要求1所述的垃圾短信的拦截方法,其特征在于,计算所述分词特征向量中各分词属于垃圾短信的权重值,获取每一历史垃圾短信样本中前N个最大权重值所对应的分词,得到备选的分词特征向量的步骤具体包括:
运用贝叶斯公式计算每个分词特征向量中各分词属于垃圾短信的权重值;
根据获取到的每个分词的权重值,重新扫描所述垃圾短信样本的分词特征向量,对应得到所述垃圾短信样本的权重值的特征向量;
对每个垃圾短信样本的权重值的特征向量,权重值按照从大到小顺序排列,筛选出最大的N个权重值,得到维度为N的权重值的特征向量;
获取所述权重值对应的分词,组成所述垃圾短信样本备选的分词特征向量。
4.如权利要求3所述的垃圾短信的拦截方法,其特征在于,运用贝叶斯公式计算每个分词属于垃圾短信的权重值的步骤包括:
计算每个分词属于垃圾短信类的概率P(C0|Ti);
计算每个分词属于非垃圾短信类的概率P(C1|Ti);
计算每个分词在所有垃圾短信样本中出现的概率P(Ti|C0);
计算每个分词在所有非垃圾短信样本中出现的概率P(Ti|C1);
计算垃圾短信样本占总样本的概率P(C0);
计算非垃圾短信样本占总样本的概率P(C1);
根据以下公式计算每个分词属于垃圾短信的权重值:
W Ti = P ( C 0 | Ti ) P ( C 1 | Ti ) = P ( Ti | C 0 ) P ( C 0 ) P ( Ti ) P ( Ti | C 1 ) P ( C 1 ) P ( Ti ) = P ( Ti | C 0 ) P ( C 0 ) P ( Ti | C 1 ) P ( C 1 ) .
其中,Ti表示分词,C0表示垃圾短信样本,C1表示非垃圾短信样本。
5.如权利要求1所述的垃圾短信的拦截方法,其特征在于,对所述备选的分词特征向量,通过形近聚类处理、音近聚类处理和合并压缩处理,获得拦截垃圾短信的规则来拦截垃圾短信的步骤具体包括:
将所有所述备选的分词特征向量中的分词按照相似语音和相似字形进行聚类;
将所有聚类后备选的分词特征向量按照字符顺序排序,对排序后的特征向量进行与或规则合并,直到没有出现新的可合并的特征向量,或者迭代次数达到设定的固定的次数;
将合并后的特征向量中的基础词替换为其对应的音近同源词组或者形近同源词组,词组之间的分词用“或”的逻辑关系连接,形成拦截垃圾短信的规则;
将所述拦截垃圾短信的规则同步给实时垃圾短信拦截系统,当判断接收到的短信满足所述拦截垃圾短信的规则时,则认为是垃圾短信,进行拦截。
6.如权利要求5所述的垃圾短信的拦截方法,其特征在于,将所有所述备选的分词特征向量中的分词按照相似语音和相似的字形进行聚类的步骤包括:
将所有备选的分词特征向量中的分词按照相似的语音进行聚类,形成多类音近同源词组;
对于每一类音近同源词组,取出现频度最高的分词做为对应音近同源词组的基础词,扫描所有的备选分词特征向量,将其中音近同源词组对应的所有分词都替换为基础词;
将所有备选的分词特征向量中的分词按照相似的字形进行聚类,形成形近同源词组;
对于每一类形近同源词组,取出现频度最高的分词做为对应形近同源词组的基础词,扫描所有的备选分词特征向量,将其中形近同源词组对应的所有分词都替换为基础词。
7.一种垃圾短信的拦截装置,其特征在于,包括:
提取分词模块,用于获取历史接收短信样本,所述短信样本包括垃圾短信和非垃圾短信,从所述历史接收短信样本中提取分词,每一所述历史接收短信样本形成一个包括多个分词的分词特征向量;
计算模块,用于计算所述分词特征向量中各分词属于垃圾短信的权重值,获取每一历史垃圾短信样本中前N个最大权重值所对应的分词,得到备选的分词特征向量;
拦截模块,用于对所述备选的分词特征向量,通过形近聚类处理、音近聚类处理和合并压缩处理,获得拦截垃圾短信的规则来拦截垃圾短信。
8.如权利要求7所述的垃圾短信的拦截装置,其特征在于,所述提取分词模块包括:
提取单元,用于在历史接收短信样本中提取垃圾短信样本和非垃圾短信样本;
分词单元,用于使用分词工具对所述垃圾短信样本和非垃圾短信样本分别进行分词,每一历史接收短信样本对应形成为一个分词特征向量。
9.如权利要求7所述的垃圾短信的拦截装置,其特征在于,所述计算模块包括:
计算单元,用于运用贝叶斯公式计算每个分词特征向量中各分词属于垃圾短信的权重值;
扫描单元,用于根据获取到的每个分词的权重值,重新扫描所述垃圾短信样本的分词特征向量,对应得到所述垃圾短信样本的权重值的特征向量;
筛选单元,用于对每个垃圾短信样本的权重值的特征向量,权重值按照从大到小顺序排列,筛选出最大的N个权重值,得到维度为N的权重值的特征向量;
获取单元,用于获取所述权重值对应的分词,组成所述垃圾短信样本备选的分词特征向量。
10.如权利要求9所述的垃圾短信的拦截装置,其特征在于,所述计算单元包括:
第一计算子单元,用于计算每个分词属于垃圾短信类的概率P(C0|Ti);
第二计算子单元,用于计算每个分词属于非垃圾短信类的概率P(C1|Ti);
第三计算子单元,用于计算每个分词在所有垃圾短信样本中出现的概率P(Ti|C0);
第四计算子单元,用于计算每个分词在所有非垃圾短信样本中出现的概率P(Ti|C1);
第五计算子单元,用于计算垃圾短信样本占总样本的概率P(C0);
第六计算子单元,用于计算非垃圾短信样本占总样本的概率P(C1);
第七计算子单元,用于依据以下公式计算每个分词属于垃圾短信的权重值:
W Ti = P ( C 0 | Ti ) P ( C 1 | Ti ) = P ( Ti | C 0 ) P ( C 0 ) P ( Ti ) P ( Ti | C 1 ) P ( C 1 ) P ( Ti ) = P ( Ti | C 0 ) P ( C 0 ) P ( Ti | C 1 ) P ( C 1 )
其中,Ti表示分词,C0表示垃圾短信样本,C1表示非垃圾短信样本。
11.如权利要求7所述的垃圾短信的拦截装置,其特征在于,所述拦截模块包括:
聚类单元,用于将所有所述备选的分词特征向量中的分词按照相似语音和相似字形进行聚类;
合并单元,用于将所有聚类后备选的分词特征向量按照字符顺序排序,对排序后的特征向量进行与或规则合并,直到没有出现新的可合并的特征向量,或者迭代次数达到设定的固定的次数;
替换单元,用于将合并后的特征向量中的基础词替换为其对应的音近同源词组或者形近同源词组,词组之间的分词用“或”的逻辑关系连接,形成拦截垃圾短信的规则;
判断单元,用于将所述拦截垃圾短信的规则同步给实时垃圾短信拦截系统,当判断接收到的短信满足所述拦截垃圾短信的规则时,则认为是垃圾短信,进行拦截。
12.如权利要求11所述的垃圾短信的拦截装置,其特征在于,所述聚类单元包括:
语音聚类子单元,用于将所有备选的分词特征向量中的分词按照相似的语音进行聚类,形成多类音近同源词组;
第一替换子单元,用于对每一类音近同源词组,取出现频度最高的分词做为对应音近同源词组的基础词,扫描所有的备选分词特征向量,将其中音近同源词组对应的所有分词都替换为基础词;
字形聚类子单元,用于将所有备选的分词特征向量中的分词按照相似的字形进行聚类,形成形近同源词组;
第二替换子单元,用于对每一类形近同源词组,取出现频度最高的分词做为对应形近同源词组的基础词,扫描所有的备选分词特征向量,将其中形近同源词组对应的所有分词都替换为基础词。
CN201410537939.1A 2014-10-13 2014-10-13 一种垃圾短信的拦截方法及装置 Pending CN105516941A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410537939.1A CN105516941A (zh) 2014-10-13 2014-10-13 一种垃圾短信的拦截方法及装置
PCT/CN2015/080337 WO2016058390A1 (zh) 2014-10-13 2015-05-29 一种垃圾短信的拦截方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410537939.1A CN105516941A (zh) 2014-10-13 2014-10-13 一种垃圾短信的拦截方法及装置

Publications (1)

Publication Number Publication Date
CN105516941A true CN105516941A (zh) 2016-04-20

Family

ID=55724510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410537939.1A Pending CN105516941A (zh) 2014-10-13 2014-10-13 一种垃圾短信的拦截方法及装置

Country Status (2)

Country Link
CN (1) CN105516941A (zh)
WO (1) WO2016058390A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106454780A (zh) * 2016-11-11 2017-02-22 努比亚技术有限公司 垃圾短信过滤系统和方法
CN107135494A (zh) * 2017-04-24 2017-09-05 北京小米移动软件有限公司 垃圾短信识别方法及装置
WO2018171189A1 (zh) * 2017-03-21 2018-09-27 中兴通讯股份有限公司 一种浏览器广告拦截方法、装置及终端

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109426666B (zh) * 2017-09-05 2024-02-09 上海博泰悦臻网络技术服务有限公司 垃圾短信识别方法、系统、可读存储介质及移动终端
CN113051500B (zh) * 2021-03-25 2022-08-16 武汉大学 一种融合多源数据的钓鱼网站识别方法及系统
CN114786184B (zh) * 2022-06-21 2022-09-16 中国信息通信研究院 涉诈短信拦截模板生成方法及装置
CN115942322B (zh) * 2023-02-15 2023-06-06 北京秒信科技有限公司 一种骚扰短信拦截方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477544A (zh) * 2009-01-12 2009-07-08 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统
CN101860822A (zh) * 2010-06-11 2010-10-13 中兴通讯股份有限公司 垃圾短信监控方法和系统
CN103634473A (zh) * 2013-12-05 2014-03-12 南京理工大学连云港研究院 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统
CN104010068A (zh) * 2013-02-22 2014-08-27 腾讯科技(深圳)有限公司 移动终端的短消息处理方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050283519A1 (en) * 2004-06-17 2005-12-22 Commtouch Software, Ltd. Methods and systems for combating spam
CN101686444B (zh) * 2008-09-28 2012-12-26 国际商业机器公司 垃圾短信发送号码实时检测系统及方法
CN102547623B (zh) * 2010-12-08 2015-05-20 中国电信股份有限公司 垃圾短信处理方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477544A (zh) * 2009-01-12 2009-07-08 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统
CN101860822A (zh) * 2010-06-11 2010-10-13 中兴通讯股份有限公司 垃圾短信监控方法和系统
CN104010068A (zh) * 2013-02-22 2014-08-27 腾讯科技(深圳)有限公司 移动终端的短消息处理方法和装置
CN103634473A (zh) * 2013-12-05 2014-03-12 南京理工大学连云港研究院 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106454780A (zh) * 2016-11-11 2017-02-22 努比亚技术有限公司 垃圾短信过滤系统和方法
WO2018171189A1 (zh) * 2017-03-21 2018-09-27 中兴通讯股份有限公司 一种浏览器广告拦截方法、装置及终端
CN108628888A (zh) * 2017-03-21 2018-10-09 中兴通讯股份有限公司 一种浏览器广告拦截方法、装置及终端
CN107135494A (zh) * 2017-04-24 2017-09-05 北京小米移动软件有限公司 垃圾短信识别方法及装置
CN107135494B (zh) * 2017-04-24 2020-06-19 北京小米移动软件有限公司 垃圾短信识别方法及装置

Also Published As

Publication number Publication date
WO2016058390A1 (zh) 2016-04-21

Similar Documents

Publication Publication Date Title
CN105516941A (zh) 一种垃圾短信的拦截方法及装置
CN105871887B (zh) 基于客户端的个性化电子邮件过滤系统和过滤方法
CN101540017B (zh) 基于字节级n元文法的特征提取方法及垃圾邮件过滤器
CN101699432B (zh) 基于排序策略的信息过滤系统
CN101784022A (zh) 短信过滤、分类方法及系统
CN104239539A (zh) 一种基于多种信息融合的微博信息过滤方法
CN101516071A (zh) 垃圾短消息的分类方法
CN101937445A (zh) 一种文件自动分类系统
CN104462115A (zh) 垃圾短信的识别方法及装置
CN103795612A (zh) 即时通讯中的垃圾和违法信息检测方法
CN103441924A (zh) 一种基于短文本的垃圾邮件过滤方法及装置
Alzahrani et al. Comparative study of machine learning algorithms for SMS spam detection
CN104317784A (zh) 一种跨平台用户识别方法和系统
CN105812554A (zh) 一种智能管理手机短信的方法和系统
CN103778226A (zh) 构建语言信息识别模型的方法及语言信息识别装置
CN103886077B (zh) 短文本的聚类方法和系统
CN101345720A (zh) 基于部分匹配预测的垃圾邮件分类方法
CN102663435A (zh) 基于半监督的垃圾图片过滤方法
Sharma et al. E-Mail Spam Detection Using SVM and RBF.
CN104284306A (zh) 一种垃圾短信过滤方法、系统、移动终端以及云服务器
CN102567529B (zh) 一种基于双视图主动学习技术的跨语言文本分类方法
CN105117466A (zh) 一种互联网信息筛选系统及方法
CN103793747A (zh) 网络内容安全管理中一种敏感信息模板构建方法
CN105243095A (zh) 一种基于微博文本的情绪分类方法及系统
CN101329668A (zh) 一种信息规则生成方法及装置、信息类型判断方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160420

WD01 Invention patent application deemed withdrawn after publication