CN110300383A - 一种垃圾短信过滤程序算法及装置与系统和存储介质 - Google Patents

一种垃圾短信过滤程序算法及装置与系统和存储介质 Download PDF

Info

Publication number
CN110300383A
CN110300383A CN201910437370.4A CN201910437370A CN110300383A CN 110300383 A CN110300383 A CN 110300383A CN 201910437370 A CN201910437370 A CN 201910437370A CN 110300383 A CN110300383 A CN 110300383A
Authority
CN
China
Prior art keywords
messages
probability
filtering junk
refuse messages
short message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910437370.4A
Other languages
English (en)
Inventor
倪佳欢
杨沙
何从华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Quchuang Technology Co Ltd
Original Assignee
Shenzhen Quchuang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Quchuang Technology Co Ltd filed Critical Shenzhen Quchuang Technology Co Ltd
Priority to CN201910437370.4A priority Critical patent/CN110300383A/zh
Publication of CN110300383A publication Critical patent/CN110300383A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud
    • H04W12/128Anti-malware arrangements, e.g. protection against SMS fraud or mobile malware
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements
    • H04W4/14Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种垃圾短信过滤程序算法,包括如下步骤:S1:通过分词算法对接收到的短信内容进行分词处理,得到若干单词组合;S2:抓取所述若干单词组合的特征项N;S3:利用贝叶斯定理的概率探针解析所述特征项N,计算得到所述接收到的短信是垃圾短信的概率P1和不是垃圾短信的概率P2;S4:计算P1与P2的比值P,所述比值P等于或大于预设阈值时,判定所述接收到的短信为垃圾短信,对所述垃圾短信进行拦截;反之则不拦截。基于朴素贝叶斯分类算法,即基于概率的过滤器,本质上是通过计算概率来判定接收到的短信是否为垃圾短信,通过终端的内置垃圾短信过滤算法将垃圾短信过滤拦截,避免了对终端用户的打扰,大大降低垃圾短信的接收率。

Description

一种垃圾短信过滤程序算法及装置与系统和存储介质
技术领域
本发明涉及移动终端辅助功能,具体地,涉及一种垃圾短信过滤程序算法及装置与系统和存储介质。
背景技术
目前由于手机的普及,同时私人信息外泄比较多,外加短信的成本越来越低,很多电商公司,呼叫中心,或者一些不良商家,为了推广自己的产品,经常给很多的手机用户群发短信,这些短信大多有如下特点:
1)未经接收者同意一般的短信骚扰,都是在没有事先征得短信接收者同意的情况下单方发布;
2)侵犯接收者的合法权益:在没有征得接收者同意的情况下,侵犯了短信接收者的通信自由权等一系列权利;
3)违法性:短信的内容违背法律法规的禁止性规定,如包含虚假和欺诈的广告宣传、传销、骚扰、色情和封建迷信等内容。
对于此类立法禁止发送的垃圾短信,让消费者非常反感,本发明提供一种终端内置算法,形成骚扰短信过滤防护,对其拦截或举报。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种垃圾短信过滤程序算法及装置与系统和存储介质。
为实现上述目的,本发明采用以下技术方案:
一种垃圾短信过滤程序算法,包括如下步骤:
步骤S1:通过分词算法对接收到的短信内容进行分词处理,得到若干单词组合;
步骤S2:抓取所述若干单词组合的特征项N;
步骤S3:利用贝叶斯定理的概率探针解析所述特征项N,计算得到所述接收到的短信是垃圾短信的概率P1和不是垃圾短信的概率P2;
步骤S4:计算P1与P2的比值P,所述比值P等于或大于预设阈值时,判定所述接收到的短信为垃圾短信,对所述垃圾短信进行拦截;反之则不拦截。
其进一步技术方案为:所述计算得到所述接收到的短信是垃圾短信的概率 P1和不是垃圾短信的概率P2包括以下步骤:
步骤Q1:创建垃圾特征项单词库;
步骤Q2:比对挑选出所述特征项N中属于垃圾特征项单词库的单词数N1,和所述特征项中不属于垃圾特征项单词库的单词数N2;
步骤Q3:是垃圾短信的概率P1等于N1与N的比值;
步骤Q4:不是垃圾短信的概率P2等于N2与N的比值。
其进一步技术方案为:,所述垃圾特征项单词库通过云端数据进行定期数据更新。
其进一步技术方案为:所述垃圾特征项单词库存储于本地数据库或云端,当垃圾短信过滤程序启动时调用。
一种垃圾短信过滤装置,包括:
短信接收单元,用于实时接收短信;
分词处理单元,用于通过分词算法对接收短信的内容进行分词处理;
抓取解析单元,用于抓取所述若干单词组合的特征项N并利用贝叶斯定理的概率探针解析所述特征项;
过滤拦截单元:用于拦截判定的垃圾短信。
一种垃圾短信过滤系统,包括服务器,显示端;其中所述服务器执行前述的垃圾短信过滤程序算法。
一种垃圾短信过滤系统,包括服务器,显示端;其中,所述服务器包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的垃圾短信过滤程序,其中,所述垃圾短信过滤程序被所述处理器执行时实现前述的垃圾短信过滤程序算法。
一种非临时性终端可读存储介质,其上存储有终端应用程序,该程序被处理器执行时实现前述的垃圾短信过滤程序算法。
与现有技术相比的有益效果:
本发明提供的一种垃圾短信过滤程序算法及装置与系统和存储介质,基于朴素贝叶斯分类算法,即基于概率的过滤器,本质上是通过计算概率来判定接收到的短信是否为垃圾短信,通过终端的内置垃圾短信过滤算法将垃圾短信过滤拦截,避免了对终端用户的打扰,大大降低垃圾短信的接收率;在实际应用场景中,经过大量的实验,适当微调参数断调整策略,权衡最终的准确率,确认得到最佳参数,直至捕获所有垃圾短信。
为了能够更清楚地理解本发明的上述目的、特性和优点,下面结合附图和具体实施方式对本发明作进一步的详细描述。
附图说明
图1为本发明的垃圾短信过滤程序算法操作流程图。
具体实施方式
在下面的具体描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于此描述的其他方式来实现,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
如图1所示,具体实施例1中,本发明提供的一种垃圾短信过滤程序算法,包括如下步骤:
步骤S1:通过分词算法对接收到的短信内容进行分词处理,得到若干单词组合;
步骤S2:抓取若干单词组合的特征项N;
步骤S3:利用贝叶斯定理的概率探针解析特征项N,计算得到接收到的短信是垃圾短信的概率P1和不是垃圾短信的概率P2;
步骤S4:计算P1与P2的比值P,比值P等于或大于预设阈值时,判定接收到的短信为垃圾短信,对垃圾短信进行拦截;反之则不拦截。
计算得到接收到的短信是垃圾短信的概率P1和不是垃圾短信的概率P2包括以下步骤:
步骤Q1:创建垃圾特征项单词库;
步骤Q2:比对挑选出特征项N中属于垃圾特征项单词库的单词数N1,和特征项中不属于垃圾特征项单词库的单词数N2;
步骤Q3:是垃圾短信的概率P1等于N1与N的比值;
步骤Q4:不是垃圾短信的概率P2等于N2与N的比值。
垃圾特征项单词库通过云端数据进行定期数据更新。
垃圾特征项单词库存储于本地数据库或云端,当垃圾短信过滤程序启动时调用。
一种垃圾短信过滤装置,包括:
短信接收单元,用于实时接收短信;
分词处理单元,用于通过分词算法对接收短信的内容进行分词处理;
抓取解析单元,用于抓取若干单词组合的特征项N并利用贝叶斯定理的概率探针解析特征项;
过滤拦截单元:用于拦截判定的垃圾短信。
一种垃圾短信过滤系统,包括服务器,显示端;其中服务器执行前述的垃圾短信过滤程序算法。
一种垃圾短信过滤系统,包括服务器,显示端;其中,服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的垃圾短信过滤程序,其中,垃圾短信过滤程序被处理器执行时实现前述的垃圾短信过滤程序算法。
一种非临时性终端可读存储介质,其上存储有终端应用程序,该程序被处理器执行时实现前述的垃圾短信过滤程序算法。
本发明提供的垃圾短信过滤程序算法利用贝叶斯定理的概率探针判断,自动对终端收到的短信内容进行抓取、解析、计算概率,然后根据计算处理的结果分析,最终通过终端对垃圾短信进行拦截,根据实验结果可知,成功率高达 98.5%,拦截效果显著。即表示对于100条垃圾骚扰短信,最多会有2条误判,大大降低短信的骚扰频率,给用户提供完善的使用体验。
综上所述,本发明提供的一种垃圾短信过滤程序算法及装置与系统和存储介质,基于朴素贝叶斯分类算法,即基于概率的过滤器,本质上是通过计算概率来判定接收到的短信是否为垃圾短信,通过终端的内置垃圾短信过滤算法将垃圾短信过滤拦截,避免了对终端用户的打扰,大大降低垃圾短信的接收率;在实际应用场景中,经过大量的实验,适当微调参数断调整策略,权衡最终的准确率,确认得到最佳参数,直至捕获所有垃圾短信。
上述仅以实施例来进一步说明本发明的技术内容,以便于理解,但不代表本发明的实施方式仅限于此,任何依照本发明所做的技术延伸或再创造,均受本发明的保护。本发明的保护范围以权利要求书为准。

Claims (8)

1.一种垃圾短信过滤程序算法,其特征在于,包括如下步骤:
步骤S1:通过分词算法对接收到的短信内容进行分词处理,得到若干单词组合;
步骤S2:抓取所述若干单词组合的特征项N;
步骤S3:利用贝叶斯定理的概率探针解析所述特征项N,计算得到所述接收到的短信是垃圾短信的概率P1和不是垃圾短信的概率P2;
步骤S4:计算P1与P2的比值P,所述比值P等于或大于预设阈值时,判定所述接收到的短信为垃圾短信,对所述垃圾短信进行拦截;反之则不拦截。
2.根据权利要求1所述的一种垃圾短信过滤程序算法,其特征在于,所述计算得到所述接收到的短信是垃圾短信的概率P1和不是垃圾短信的概率P2包括以下步骤:
步骤Q1:创建垃圾特征项单词库;
步骤Q2:比对挑选出所述特征项N中属于垃圾特征项单词库的单词数N1,和所述特征项中不属于垃圾特征项单词库的单词数N2;
步骤Q3:是垃圾短信的概率P1等于N1与N的比值;
步骤Q4:不是垃圾短信的概率P2等于N2与N的比值。
3.根据权利要求2所述的一种垃圾短信过滤程序算法,其特征在于,所述垃圾特征项单词库通过云端数据进行定期数据更新。
4.根据权利要求2所述的一种垃圾短信过滤程序算法,其特征在于,所述垃圾特征项单词库存储于本地数据库或云端,当垃圾短信过滤程序启动时调用。
5.一种垃圾短信过滤装置,其特征在于,包括:
短信接收单元,用于实时接收短信;
分词处理单元,用于通过分词算法对接收短信的内容进行分词处理;
抓取解析单元,用于抓取所述若干单词组合的特征项N并利用贝叶斯定理的概率探针解析所述特征项;
过滤拦截单元:用于拦截判定的垃圾短信。
6.一种垃圾短信过滤系统,其特征在于,包括服务器,显示端;其中所述服务器执行如权利要求1-4任一项所述的垃圾短信过滤程序算法。
7.一种垃圾短信过滤系统,其特征在于,包括服务器,显示端;其中,所述服务器包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的垃圾短信过滤程序,其中,所述垃圾短信过滤程序被所述处理器执行时实现如权利要求1-4任一项所述的垃圾短信过滤程序算法。
8.一种非临时性终端可读存储介质,其上存储有终端应用程序,该程序被处理器执行时实现如权利要求1-4任一项所述的垃圾短信过滤程序算法。
CN201910437370.4A 2019-05-24 2019-05-24 一种垃圾短信过滤程序算法及装置与系统和存储介质 Pending CN110300383A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910437370.4A CN110300383A (zh) 2019-05-24 2019-05-24 一种垃圾短信过滤程序算法及装置与系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910437370.4A CN110300383A (zh) 2019-05-24 2019-05-24 一种垃圾短信过滤程序算法及装置与系统和存储介质

Publications (1)

Publication Number Publication Date
CN110300383A true CN110300383A (zh) 2019-10-01

Family

ID=68027075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910437370.4A Pending CN110300383A (zh) 2019-05-24 2019-05-24 一种垃圾短信过滤程序算法及装置与系统和存储介质

Country Status (1)

Country Link
CN (1) CN110300383A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111565190A (zh) * 2020-05-06 2020-08-21 福建天晴数码有限公司 一种服务器过滤请求的方法及装置
CN112597282A (zh) * 2021-01-24 2021-04-02 深圳市诚立业科技发展有限公司 一种应用于短信数据安全的管理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101295381A (zh) * 2008-06-25 2008-10-29 北京大学 一种垃圾邮件检测方法
CN103634473A (zh) * 2013-12-05 2014-03-12 南京理工大学连云港研究院 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统
WO2015196689A1 (zh) * 2014-06-27 2015-12-30 中兴通讯股份有限公司 短信过滤方法和装置
CN105681170A (zh) * 2016-03-08 2016-06-15 北京小米移动软件有限公司 短信拦截方法及装置
CN106411704A (zh) * 2016-09-19 2017-02-15 南京邮电大学 一种分布式垃圾短信识别方法
CN106503075A (zh) * 2016-09-30 2017-03-15 北京奇虎科技有限公司 一种过滤垃圾消息的方法及系统
CN106681980A (zh) * 2015-11-05 2017-05-17 中国移动通信集团公司 一种垃圾短信分析方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101295381A (zh) * 2008-06-25 2008-10-29 北京大学 一种垃圾邮件检测方法
CN103634473A (zh) * 2013-12-05 2014-03-12 南京理工大学连云港研究院 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统
WO2015196689A1 (zh) * 2014-06-27 2015-12-30 中兴通讯股份有限公司 短信过滤方法和装置
CN106681980A (zh) * 2015-11-05 2017-05-17 中国移动通信集团公司 一种垃圾短信分析方法和装置
CN105681170A (zh) * 2016-03-08 2016-06-15 北京小米移动软件有限公司 短信拦截方法及装置
CN106411704A (zh) * 2016-09-19 2017-02-15 南京邮电大学 一种分布式垃圾短信识别方法
CN106503075A (zh) * 2016-09-30 2017-03-15 北京奇虎科技有限公司 一种过滤垃圾消息的方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111565190A (zh) * 2020-05-06 2020-08-21 福建天晴数码有限公司 一种服务器过滤请求的方法及装置
CN111565190B (zh) * 2020-05-06 2022-07-05 福建天晴数码有限公司 一种服务器过滤请求的方法及装置
CN112597282A (zh) * 2021-01-24 2021-04-02 深圳市诚立业科技发展有限公司 一种应用于短信数据安全的管理方法
CN112597282B (zh) * 2021-01-24 2021-06-11 深圳市诚立业科技发展有限公司 一种应用于短信数据安全的管理方法

Similar Documents

Publication Publication Date Title
US8055078B2 (en) Filter for blocking image-based spam
JP4827518B2 (ja) メッセージ内容に基づく迷惑メッセージ(スパム)の検出
CN111935143B (zh) 一种攻击防御策略可视化的方法及系统
RU2601190C2 (ru) Система и способы обнаружения спама с помощью частотных спектров строк символов
CN104066065B (zh) 一种防骚扰来电/信息的移动终端及方法
CN106162584B (zh) 识别垃圾短信的方法、客户端、云端服务器和系统
CN102802133B (zh) 垃圾信息的识别方法、装置及系统
US20220201117A1 (en) System and method for determining unwanted call origination in communications networks
CN103763690A (zh) 检测伪基站向移动终端发送短信息的方法和装置
CN104270521A (zh) 对来电号码进行处理的方法和移动终端
CN103812826A (zh) 垃圾邮件识别方法和识别系统、以及过滤系统
Rafique et al. Application of evolutionary algorithms in detecting SMS spam at access layer
CN101389085B (zh) 基于发送行为的垃圾短消息识别系统及方法
CN110300383A (zh) 一种垃圾短信过滤程序算法及装置与系统和存储介质
US20120254422A1 (en) Apparatus, Methods, and Computer Program Products for Monitoring Network Activity for Child Related Risks
CN111212390A (zh) 消息队列的处理方法、装置及设备
Sharma et al. E-Mail Spam Detection Using SVM and RBF.
CN105554763B (zh) 一种检测伪基站中心号码的方法及服务器
Androulidakis et al. Fimess: filtering mobile external sms spam
Kamal et al. Detection of phishing websites using naïve Bayes algorithms
Belém et al. Content filtering for SMS systems based on Bayesian classifier and word grouping
CN109391583B (zh) 一种基于恶意应用的攻击者溯源方法和系统
CN103001848B (zh) 垃圾邮件过滤方法及装置
CN112311933B (zh) 敏感信息屏蔽方法及系统
CN106911660B (zh) 一种信息管理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191001

RJ01 Rejection of invention patent application after publication