CN112188419A - 垃圾短信检测方法、系统及设备 - Google Patents

垃圾短信检测方法、系统及设备 Download PDF

Info

Publication number
CN112188419A
CN112188419A CN202010912030.5A CN202010912030A CN112188419A CN 112188419 A CN112188419 A CN 112188419A CN 202010912030 A CN202010912030 A CN 202010912030A CN 112188419 A CN112188419 A CN 112188419A
Authority
CN
China
Prior art keywords
spam
short message
data
detected
detector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010912030.5A
Other languages
English (en)
Inventor
王庚润
刘树新
王凯
李英乐
李星
朱宇航
何赞园
吉立新
李海涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Engineering University of PLA Strategic Support Force
Original Assignee
Information Engineering University of PLA Strategic Support Force
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Engineering University of PLA Strategic Support Force filed Critical Information Engineering University of PLA Strategic Support Force
Priority to CN202010912030.5A priority Critical patent/CN112188419A/zh
Publication of CN112188419A publication Critical patent/CN112188419A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements
    • H04W4/14Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明属于电信安全防护技术领域,特别涉及一种垃圾短信检测方法、系统及设备,包含:收集垃圾短信样本,形成用于语法错误检测和呼叫行为分析的样本库;针对样本库中数据,分别提取样本数据的语法错误特征和呼叫行为特征;并利用提取到的特征对语法错误检测器和呼叫行为检测器进行分类学习,获取垃圾短信特征数据;针对待检测短信数据,通过提取其语法错误特征和呼叫行为特征,并将两者通过对应检测器进行特征匹配,以判定是否为垃圾短信。本发明综合利用垃圾短信所具有的多种特征将垃圾短信从正常短信中筛选出来,为电信诈骗行为及时有效发现提供支撑,在通信信息安全等数据处理领域具有较好地应用前景。

Description

垃圾短信检测方法、系统及设备
技术领域
本发明属于电信安全防护技术领域,特别涉及一种垃圾短信检测方法、系统及设备,适用于电信网中的垃圾短信防护。
背景技术
移动通信的发展已经十分普及,为人们的日常生活带来了极大便利。在带来便利的同时,也容易被一些一些居心叵测、别有用心的人利用短信进行非法活动,比如:未经用户同意向用户发送的商业类、广告类等短信息;及其他违反行业自律性规范的短信息。目前,垃圾短信泛滥,已经严重影响到人们正常生活、运营商形象乃至社会稳定。随着通信诈骗技术特别是伪基站技术的泛滥,群发诈骗短信是诈骗团伙常用手段之一。如伪基站可以给三公里内10万手机发信这种诈骗垃圾短信成本低,见效快,给普通手机用户带来很大的困扰。因此,需要采取必要措施来尽量减少垃圾短信对用户带来的不良影响及不必要的经济损失。
发明内容
为此,本发明提供一种垃圾短信检测方法、系统及设备,综合利用垃圾短信所具有的多种特征将垃圾短信从正常短信中筛选出来,为电信诈骗行为及时有效发现提供支撑。
按照本发明所提供的设计方案,一种垃圾短信检测方法,基于语法错误检测和呼叫行为分析实现,包含如下内容:
收集垃圾短信样本,形成用于语法错误检测和呼叫行为分析的样本库;
针对样本库中数据,分别提取样本数据的语法错误特征和呼叫行为特征;并利用提取到的特征对语法错误检测器和呼叫行为检测器进行分类学习,获取垃圾短信特征数据;
针对待检测短信数据,通过提取其语法错误特征和呼叫行为特征,并将两者通过对应检测器进行特征匹配,以判定是否为垃圾短信。
作为本发明垃圾短信检测方法,进一步地,垃圾短信样本中样本数据为已知标签样本数据。
作为本发明垃圾短信检测方法,进一步地,提取的呼叫行为特征至少包含:重复率及主叫被叫比。
作为本发明垃圾短信检测方法,进一步地,依据多个被叫收到相同内容短信来提取重复率特征。
作为本发明垃圾短信检测方法,进一步地,依据主叫号码作为被叫时收到短信次数来提取主叫被叫比特征。
作为本发明垃圾短信检测方法,进一步地,提取的语法错误特征至少包含:同音替换、繁简混用、含有空格和/或隔开字符、及含有敏感词。
作为本发明垃圾短信检测方法,进一步地,依据短信内容中关键词及引导性关键词的敏感词关联度来提取含有敏感词特征。
进一步地,本发明还提供一种垃圾短信检测系统,基于语法错误检测和呼叫行为分析实现,包含如下内容:收集模块、学习模块和匹配模块,其中,
收集模块,用于收集垃圾短信样本,形成用于语法错误检测和呼叫行为分析的样本库;
学习模块,用于针对样本库中数据,分别提取样本数据的语法错误特征和呼叫行为特征;并利用提取到的特征对语法错误检测器和呼叫行为检测器进行分类学习,获取垃圾短信特征数据;
匹配模块,用于针对待检测短信数据,通过提取其语法错误特征和呼叫行为特征,并将两者通过对应检测器进行特征匹配,以判定是否为垃圾短信。
进一步地,本发明还提供一种垃圾短信检测设备,设于电信网终端之间用于通过检测短信流来筛选垃圾短信,以实现垃圾短信的防护,该检测设备基于语法错误检测和呼叫行为分析实现,包含:收集模块、学习模块和匹配模块,其中,
收集模块,用于收集垃圾短信样本,形成用于语法错误检测和呼叫行为分析的样本库;
学习模块,用于针对样本库中数据,分别提取样本数据的语法错误特征和呼叫行为特征;并利用提取到的特征对语法错误检测器和呼叫行为检测器进行分类学习,获取垃圾短信特征数据;
匹配模块,用于针对待检测短信数据,通过提取其语法错误特征和呼叫行为特征,并将两者通过对应检测器进行特征匹配,以判定是否为垃圾短信。
本发明的有益效果:
本发明基于电信网中的垃圾短信具有的特征,利用垃圾短信所具有的多种特征通过使用机器学习方法进行检测判别和匹配,具有容易实现并且准确率高等优点,为电信诈骗行为及时有效发现提供支撑,可适用于电信诈骗防护,在通信信息安全等数据处理领域具有较好地应用前景。
附图说明:
图1为实施例中垃圾短信检测流程示意。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
本发明实施例,参见图1所示,提供一种垃圾短信检测方法,基于语法错误检测和呼叫行为分析实现,包含如下内容:
收集垃圾短信样本,形成用于语法错误检测和呼叫行为分析的样本库;
针对样本库中数据,分别提取样本数据的语法错误特征和呼叫行为特征;并利用提取到的特征对语法错误检测器和呼叫行为检测器进行分类学习,获取垃圾短信特征数据;
针对待检测短信数据,通过提取其语法错误特征和呼叫行为特征,并将两者通过对应检测器进行特征匹配,以判定是否为垃圾短信。
垃圾短信与正常短信存在部分程度上的不同,例如语法上和呼叫行为上的区别。因此,本案实施例中利用这些垃圾短信所具有的特征,可以将垃圾短信从正常短信中筛选出来,为后续的垃圾短信防范提供基础。具体地,在语法上,垃圾短信常用简单的语法错误(表1)来规避普通关键词垃圾短信筛选设备的防范;在呼叫行为上,垃圾短信通常具有表2所列的各项特征。
表1语法错误特征
Figure BDA0002663659440000031
表2呼叫行为特征
Figure BDA0002663659440000032
因此,进一步地,本案实施例中,垃圾短信样本中样本数据为已知标签样本数据。提取的呼叫行为特征至少包含:重复率及主叫被叫比。依据多个被叫收到相同内容短信来提取重复率特征。依据主叫号码作为被叫时收到短信次数来提取主叫被叫比特征。提取的语法错误特征至少包含:同音替换、繁简混用、含有空格和/或隔开字符、及含有敏感词。依据短信内容中关键词及引导性关键词的敏感词关联度来提取含有敏感词特征。
针对已知的垃圾样本进行语法错误检测和呼叫行为特征提取,再利用提取出来的典型语法错误特征和呼叫行为特征发送给语法错误检测器和呼叫行为检测器,检测器采用机器学习的网络模型结构,通过训练学习可以分别初步判断样本是否为垃圾短信;最后针对两个模块的判断结果,综合判断待检测样本是否为垃圾短信。
进一步地,基于上述方法,本发明实施例还提供一种垃圾短信检测系统,基于语法错误检测和呼叫行为分析实现,包含如下内容:收集模块、学习模块和匹配模块,其中,
收集模块,用于收集垃圾短信样本,形成用于语法错误检测和呼叫行为分析的样本库;
学习模块,用于针对样本库中数据,分别提取样本数据的语法错误特征和呼叫行为特征;并利用提取到的特征对语法错误检测器和呼叫行为检测器进行分类学习,获取垃圾短信特征数据;
匹配模块,用于针对待检测短信数据,通过提取其语法错误特征和呼叫行为特征,并将两者通过对应检测器进行特征匹配,以判定是否为垃圾短信。
进一步地,基于上述方法,本发明实施例还提供一种垃圾短信检测设备,设于电信网终端之间用于通过检测短信流来筛选垃圾短信,以实现垃圾短信的防护,该检测设备基于语法错误检测和呼叫行为分析实现,包含:收集模块、学习模块和匹配模块,其中,
收集模块,用于收集垃圾短信样本,形成用于语法错误检测和呼叫行为分析的样本库;
学习模块,用于针对样本库中数据,分别提取样本数据的语法错误特征和呼叫行为特征;并利用提取到的特征对语法错误检测器和呼叫行为检测器进行分类学习,获取垃圾短信特征数据;
匹配模块,用于针对待检测短信数据,通过提取其语法错误特征和呼叫行为特征,并将两者通过对应检测器进行特征匹配,以判定是否为垃圾短信。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
基于上述的系统,本发明实施例还提供一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的系统。
基于上述的系统,本发明实施例还提供一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述的系统。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述系统实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述系统实施例中相应内容。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述系统实施例中的对应过程,在此不再赘述。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、系统和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和系统,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述系统的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种垃圾短信检测方法,其特征在于,基于语法错误检测和呼叫行为分析实现,包含如下内容:
收集垃圾短信样本,形成用于语法错误检测和呼叫行为分析的样本库;
针对样本库中数据,分别提取样本数据的语法错误特征和呼叫行为特征;并利用提取到的特征对语法错误检测器和呼叫行为检测器进行分类学习,获取垃圾短信特征数据;
针对待检测短信数据,通过提取其语法错误特征和呼叫行为特征,并将两者通过对应检测器进行特征匹配,以判定是否为垃圾短信。
2.根据权利要求1所述的垃圾短信检测方法,其特征在于,垃圾短信样本中样本数据为已知标签样本数据。
3.根据权利要求1所述的垃圾短信检测方法,其特征在于,提取的呼叫行为特征至少包含:重复率及主叫被叫比。
4.根据权利要求3所述的垃圾短信检测方法,其特征在于,依据多个被叫收到相同内容短信来提取重复率特征。
5.根据权利要求3所述的垃圾短信检测方法,其特征在于,依据主叫号码作为被叫时收到短信次数来提取主叫被叫比特征。
6.根据权利要求1所述的垃圾短信检测方法,其特征在于,提取的语法错误特征至少包含:同音替换、繁简混用、含有空格和/或隔开字符、及含有敏感词。
7.根据权利要求6所述的垃圾短信检测方法,其特征在于,依据短信内容中关键词及引导性关键词的敏感词关联度来提取含有敏感词特征。
8.一种垃圾短信检测系统,其特征在于,基于语法错误检测和呼叫行为分析实现,包含如下内容:收集模块、学习模块和匹配模块,其中,
收集模块,用于收集垃圾短信样本,形成用于语法错误检测和呼叫行为分析的样本库;
学习模块,用于针对样本库中数据,分别提取样本数据的语法错误特征和呼叫行为特征;并利用提取到的特征对语法错误检测器和呼叫行为检测器进行分类学习,获取垃圾短信特征数据;
匹配模块,用于针对待检测短信数据,通过提取其语法错误特征和呼叫行为特征,并将两者通过对应检测器进行特征匹配,以判定是否为垃圾短信。
9.一种垃圾短信检测设备,其特征在于,设于电信网终端之间用于通过检测短信流来筛选垃圾短信,以实现垃圾短信的防护,该检测设备基于语法错误检测和呼叫行为分析实现,包含:收集模块、学习模块和匹配模块,其中,
收集模块,用于收集垃圾短信样本,形成用于语法错误检测和呼叫行为分析的样本库;
学习模块,用于针对样本库中数据,分别提取样本数据的语法错误特征和呼叫行为特征;
并利用提取到的特征对语法错误检测器和呼叫行为检测器进行分类学习,获取垃圾短信特征数据;
匹配模块,用于针对待检测短信数据,通过提取其语法错误特征和呼叫行为特征,并将两者通过对应检测器进行特征匹配,以判定是否为垃圾短信。
10.一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时执行权利要求1~7任一项所述的垃圾短信检测方法中步骤内容。
CN202010912030.5A 2020-09-02 2020-09-02 垃圾短信检测方法、系统及设备 Pending CN112188419A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010912030.5A CN112188419A (zh) 2020-09-02 2020-09-02 垃圾短信检测方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010912030.5A CN112188419A (zh) 2020-09-02 2020-09-02 垃圾短信检测方法、系统及设备

Publications (1)

Publication Number Publication Date
CN112188419A true CN112188419A (zh) 2021-01-05

Family

ID=73924688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010912030.5A Pending CN112188419A (zh) 2020-09-02 2020-09-02 垃圾短信检测方法、系统及设备

Country Status (1)

Country Link
CN (1) CN112188419A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130007151A1 (en) * 2011-06-30 2013-01-03 International Business Machines Corporation Determination of a spammer through social network characterization
EP3270549A1 (en) * 2016-07-15 2018-01-17 Bics Sa/Nv A method and device for spam sms detection
CN108093376A (zh) * 2016-11-21 2018-05-29 中国移动通信有限公司研究院 一种垃圾短信的过滤方法及装置
CN110267272A (zh) * 2019-06-28 2019-09-20 国家计算机网络与信息安全管理中心 一种诈骗短信识别方法及识别系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130007151A1 (en) * 2011-06-30 2013-01-03 International Business Machines Corporation Determination of a spammer through social network characterization
EP3270549A1 (en) * 2016-07-15 2018-01-17 Bics Sa/Nv A method and device for spam sms detection
CN108093376A (zh) * 2016-11-21 2018-05-29 中国移动通信有限公司研究院 一种垃圾短信的过滤方法及装置
CN110267272A (zh) * 2019-06-28 2019-09-20 国家计算机网络与信息安全管理中心 一种诈骗短信识别方法及识别系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘文龙 等: "基于多分类器融合的垃圾短信处理系统", 《电信工程技术与标准化》 *

Similar Documents

Publication Publication Date Title
CN105956180B (zh) 一种敏感词过滤方法
CN102801859B (zh) 垃圾短信的识别方法、装置和具有该装置的移动通信终端
CN106713579B (zh) 一种电话号码识别方法及装置
CN104462509A (zh) 垃圾评论检测方法及装置
CN102368842B (zh) 移动终端异常行为的检测方法和检测系统
CN103369486A (zh) 诈骗短信防范系统与防范方法
CN110839216B (zh) 识别通讯信息诈骗的方法和装置
CN113328994B (zh) 一种恶意域名处理方法、装置、设备及机器可读存储介质
CN108366052B (zh) 验证短信的处理方法及系统
CN105335354A (zh) 欺诈信息识别方法和装置
US20230179705A1 (en) Dynamically providing safe phone numbers for responding to inbound communications
CN105898085A (zh) 骚扰通信账号的识别方法及装置
CN111586695B (zh) 短信识别方法及相关设备
CN101389085A (zh) 基于发送行为的垃圾短消息识别系统及方法
CN109858250A (zh) 一种基于级联分类器的安卓恶意代码检测模型方法
KR20160029164A (ko) 이동통신망에서의 이미지 스팸 메시지 필터링 방법 및 시스템
CN104506743B (zh) 一种动态拦截电话的方法及装置
CN114021556A (zh) 基于自然语言处理技术的日志敏感数据检测方法及系统
CN103874033B (zh) 一种基于中文分词识别不规则垃圾短信的方法
CN112188419A (zh) 垃圾短信检测方法、系统及设备
CN104750665A (zh) 文本信息的处理方法和装置
US9391936B2 (en) System and method for spam filtering using insignificant shingles
CN108924840B (zh) 黑名单管理方法、装置及终端
CN109104429B (zh) 一种针对网络诈骗信息的检测方法
CN104703185B (zh) 信息识别方法及系统、移动通信网络

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210105

RJ01 Rejection of invention patent application after publication