CN106411704B - 一种分布式垃圾短信识别方法 - Google Patents

一种分布式垃圾短信识别方法 Download PDF

Info

Publication number
CN106411704B
CN106411704B CN201610834694.8A CN201610834694A CN106411704B CN 106411704 B CN106411704 B CN 106411704B CN 201610834694 A CN201610834694 A CN 201610834694A CN 106411704 B CN106411704 B CN 106411704B
Authority
CN
China
Prior art keywords
detector
short message
refuse messages
library
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610834694.8A
Other languages
English (en)
Other versions
CN106411704A (zh
Inventor
徐小龙
岑云
陈利明
孙雁飞
鲁蔚锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201610834694.8A priority Critical patent/CN106411704B/zh
Publication of CN106411704A publication Critical patent/CN106411704A/zh
Application granted granted Critical
Publication of CN106411704B publication Critical patent/CN106411704B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements
    • H04W4/14Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/42Mailbox-related aspects, e.g. synchronisation of mailboxes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种分布式垃圾短信识别方法,提出具有智能计算、学习、并行式、记忆性、动态性等特点垃圾短信识别方法,极大提高了垃圾短信的识别准确率;其中,引入分布式节点,实现对海量垃圾短信进行分布式计算和快速识别;通过反馈环节,实现智能识别,并且具有广泛的推广性,诸如推广到垃圾邮件识别拦截,同时也可以推广到人人网、QQ空间、朋友圈、微博等,对广告或其他垃圾信息进行识别并屏蔽,具有广泛的应用范畴。

Description

一种分布式垃圾短信识别方法
技术领域
本发明涉及一种分布式垃圾短信识别方法,属于智能短信识别技术领域。
背景技术
随着信息时代通信服务业的高速发展,垃圾短信已日益成为困扰运营商和手机用户的难题,不仅侵害了电信客户的合法权益,破坏了和谐的电信消费环境,而且严重影响到人们正常生活、侵害到运营商的社会形象以及危害着社会稳定,垃圾短信的存在给用户与运营商均带来了不少的烦恼,因此,研究垃圾短信的识别与处理具有重要意义。
目前垃圾短信的识别过滤主要有以下几种技术:黑白名单识别技术、发送频率限制识别技术、关键词匹配识别技术、基于机器学习识别垃圾短信技术等。这些常用的垃圾短信识别技术均存在各自的局限性,比如黑白名单技术仅对已知的号码有效,发送频率限制识别技术的发送频率规则易被相对应的方法所规避,关键字匹配识别技术对关键字的选取难以界定而易导致误判,基于机器学习识别垃圾短信技术相对较复杂从而影响识别的效率。上述垃圾短信识别的研究成果的局限性较大地影响了垃圾短信的识别准确率和效率。垃圾短信识别技术已成为学术界和产业界的研究热点,同时随着如今信息化大数据的发展,需要识别处理的信息数据越来越多,传统的识别方法已跟不上数据时代的步伐,因此需要一个高效的识别垃圾短信的方法,同时具有网络化分布式计算与存储大量信息数据的方法来应对垃圾短信识别和处理问题。
发明内容
本发明所要解决的技术问题是提供一种针对常规垃圾短信识别方法的低准确率的特点,具有高准确率、快速识别、智能反馈等特点的分布式垃圾短信识别方法。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种分布式垃圾短信识别方法,将待识别短信数据集合拆分成各个待识别短信子任务,各个待识别短信子任务分别包括至少一条待识别短信,各个待识别短信子任务分别发送至分布式系统中的各个节点进行处理,各个节点分别按如下步骤,根据预设检测器库中各个检测器内的各个垃圾短信关键词,针对所接收到的待识别短信子任务进行垃圾短信识别;
步骤000.根据预设垃圾关键词库,初始化检测器库中的各个检测器,然后进入步骤001;
步骤001.由待识别短信子任务队列中提取一条未处理的待识别短信,作为当前识别短信,获取当前识别短信中的各个关键词Gene1,Gene2,Gene3…Genei,进入步骤002;
步骤002.将当前识别短信中的各个关键词Gene1,Gene2,Gene3…Genei通过HashMap<key,value>,获得所有包含有这些关键词的检测器Index的索引值的集合,进入步骤003;
步骤003.将得到的索引值集合通过m个HashSet,判断是否存在匹配率大于或等于预设匹配率阈值brake的检测器Index,是则判定当前识别短信为垃圾短信,将其加入垃圾短信库,并由AVL树中提取出该检测器Index,进入步骤004;否则说明检测器库中不存在能与当前识别短信匹配率达到预设匹配率阈值brake的检测器,则判定当前识别短信为正常短信,将其加入至正常短信库,进入步骤009;其中,m=Testlength*brake;Testlength表示为短信文本长度;
步骤004.由被判断为垃圾短信的当前识别短信中的各个关键词,构建若干新检测器,接着判断正常短信库中正常短信的条数是否大于或等于预设正常短信库比对条数阈值,是则进入步骤005;否则将各个新检测器加入到检测器库中,并进入步骤009;
步骤005.由正常短信库队列中提取一条未参与针对各个新检测器自检的正常短信,分别针对各个新检测器,将该正常短信中各个关键词与新检测器中各个垃圾短信关键词进行匹配,获得彼此匹配相同关键词的数量Count,并获得新检测器中垃圾短信关键词的数量N,再根据Count与N的比值,获得新检测器针对该正常短信的垃圾匹配率,进而分别获得各个新检测器针对该正常短信的垃圾匹配率,然后进入步骤006;
步骤006.分别针对各个新检测器,判断新检测器针对该正常短信的垃圾匹配率是否大于或等于预设垃圾匹配率阈值,是则说明新检测器把正常短信判断为垃圾短信,即新检测器为不合格检测器,删除该不合格的新检测器,否则不做进一步操作,然后进入步骤007;
步骤007.判断是否存在新检测器,是则进入步骤008;否则进入步骤009;
步骤008.判断正常短信库中是否存在未参与针对该各个新检测器自检的正常短信,是则返回步骤005;否则判断新检测器为合格检测器,将合格检测器加入到检测器库中,并进入步骤009;
步骤009.判断待识别短信子任务中是否存在未处理的待识别短信,是则返回步骤001;否则针对该待识别短信子任务垃圾短信识别方法结束。
作为本发明的一种优选技术方案:所述步骤000具体包括:根据预设垃圾关键词库,初始化检测器库中的各个检测器,其中,使用AVL树的数据结构将检测器装入内存,并利用HashMap<key,value>存储每个Gene所在检测器Index的集合,其中key为Gene,value为所有含有该Gene的检测器Index的链表集合,然后进入步骤001。
作为本发明的一种优选技术方案:还包括针对所述检测器库中原有各个检测器,以及新加入的各个检测器,均定义生命周期时长属性,并初始化生命周期时长检测值;所述各个节点分别按所述步骤001至步骤009,针对所接收到待识别短信子任务执行垃圾短信识别的同时,进行计时,并分别针对检测器库中的各个检测器,判断在生命周期时长检测值结束时,检测器是否检测出垃圾短信,是则将该检测器的生命周期时长设置为永久,否则将该检测器删除。
作为本发明的一种优选技术方案:所述各个节点分别按所述步骤001至步骤009,针对所接收到待识别短信子任务执行垃圾短信识别的同时,还包括按预设第一时长周期间隔,分别针对生命周期时长为永久的各个检测器,针对检测器中未与短信关键词成功匹配过的关键词,由预设垃圾关键词库中随机选择垃圾关键词进行替换。
作为本发明的一种优选技术方案:所述各个节点分别按所述步骤001至步骤009,针对所接收到待识别短信子任务执行垃圾短信识别的同时,还包括按预设第二时长周期间隔,针对所述检测器库中的检测器进行如下步骤操作:
步骤a01.分别获得检测器库中各个检测器的垃圾短信成功匹配率,按垃圾短信成功匹配率由高至低顺序,选择预设检测器总数百分比数量的检测器,作为各个高成功匹配率检测器,并获得高成功匹配率检测器的个数M,然后进入步骤a02;
步骤a02.分别针对各个高成功匹配率检测器,获得高成功匹配率检测器的垃圾短信成功匹配率与M的乘积,作为该高成功匹配率检测器的复制数量,由此分别获得各个高成功匹配率检测器的复制数量,并获得所有高成功匹配率检测器的复制总数K,然后进入步骤a03;
步骤a03.分别按各个高成功匹配率检测器的复制数量,针对各个高成功匹配率检测器进行复制,并提取所有复制检测器中的关键词,构成复制关键词集合,然后进入步骤a04;
步骤a04.将复制关键词集合中的所有关键词随机分配为K组,构成K个重组检测器,并进入步骤a05;
步骤a05.判断正常短信库中正常短信的条数是否大于或等于预设正常短信库比对条数阈值,是则进入步骤a06;否则将该K个重组检测器加入到检测器库中;
步骤a06.按所述步骤005至步骤008的方法,分别针对该K个重组检测器进行自检,删除不合格重组检测器,并将合格重组检测器加入到检测器库中。
作为本发明的一种优选技术方案:所述步骤a06中,分别针对该K个重组检测器,执行如下步骤进行重组检测器自检;
步骤b01.由正常短信库中随机提取一条未参与针对该重组检测器自检的正常短信,按所述步骤005的方法,获得该重组检测器针对该正常短信的垃圾匹配率,并判断该垃圾匹配率是否大于或等于预设垃圾匹配率阈值,是则判断该重组检测器为不合格检测器,删除该不合格检测器;否则进入步骤b02;
步骤b02.判断是否还存在重组检测器,以及正常短信库中是否存在未参与针对该重组检测器自检的正常短信,是则返回步骤b01;否则判断该重组检测器为合格检测器,将该合格检测器加入到检测器库中。
本发明所述一种分布式垃圾短信识别方法采用以上技术方案与现有技术相比,具有以下技术效果:本发明设计的分布式垃圾短信识别方法,提出具有智能计算、学习、并行式、记忆性、动态性等特点垃圾短信识别方法,极大提高了垃圾短信的识别准确率;其中,引入分布式节点,实现对海量垃圾短信进行分布式计算和快速识别;通过反馈环节,实现智能识别,并且具有广泛的推广性,诸如推广到垃圾邮件识别拦截,同时也可以推广到人人网、QQ空间、朋友圈、微博等,对广告或其他垃圾信息进行识别并屏蔽,具有广泛的应用范畴。
附图说明
图1是本发明所设计分布式垃圾短信识别方法的流程图;
图2是检测器在AVL树分布示意图;
图3是关键词Gene与Index之间的查找示意图;
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
本发明为了解决上述问题采用以下技术方案:基于文本识别和垃圾短信的特征,本发明首先提出具有智能计算、深度学习、分布式识别等特点的垃圾短信识别方法,利用该方法可以实现较高的垃圾短信识别准确率;同时部署分布式平台,把海量的待测短信数据的识别处理任务利用分块方法拆分成多个垃圾短信识别子任务,并把这些子任务发送到分布式模式的若干个节点上去计算识别,每个计算识别的节点均采用本发明提出的垃圾短信方法,然后对每一个子任务的识别结果进行汇总,实现分布式处理识别垃圾短信;同时本发明做出了一个基于智能计算、深度学习的垃圾短信识别方法和分布式模型之上的多功能可视化系统,对垃圾短信识别的输入数据及输出结果进行显示,并可以对短信进行反馈等智能化相关性操作。
如图1所示,本发明设计了一种分布式垃圾短信识别方法,实际应用过程当中,将待识别短信数据集合拆分成各个待识别短信子任务,各个待识别短信子任务分别包括至少一条待识别短信,各个待识别短信子任务分别发送至分布式系统中的各个节点进行处理,各个节点分别具体按如下步骤,根据预设检测器库中各个检测器内的各个垃圾短信关键词,针对所接收到的待识别短信子任务进行垃圾短信识别;
步骤000.根据预设垃圾关键词库,初始化检测器库中的各个检测器,然后进入步骤001;具体具体包括:根据预设垃圾关键词库,初始化检测器库中的各个检测器,其中,使用AVL树的数据结构将检测器装入内存,AVL示意图如图2所示,并利用HashMap<key,value>存储每个Gene所在检测器Index的集合,其中key为Gene,value为所有含有该Gene的检测器Index的链表集合,关键词Gene与Index之间的查找示意图,如图3所示,然后进入步骤001。
步骤001.由待识别短信子任务队列中提取一条未处理的待识别短信,作为当前识别短信,利用开源IK-Analyzer-2012FF分词器针对当前识别短信进行分词,获取当前识别短信中的各个关键词Gene1,Gene2,Gene3…Genei,进入步骤002。步骤002.将当前识别短信中的各个关键词Gene1,Gene2,Gene3…Genei通过HashMap<key,value>,获得所有包含有这些关键词的检测器Index的索引值的集合,进入步骤003。
步骤003.将得到的索引值集合通过m个HashSet,判断是否存在匹配率大于或等于预设匹配率阈值brake的检测器Index,是则判定当前识别短信为垃圾短信,将其加入垃圾短信库,并由AVL树中提取出该检测器Index,进入步骤004;否则说明检测器库中不存在能与当前识别短信匹配率达到预设匹配率阈值brake的检测器,则判定当前识别短信为正常短信,将其加入至正常短信库,进入步骤009;其中,m=Testlength*brake,Testlength表示为短信文本长度。
步骤004.由被判断为垃圾短信的当前识别短信中的各个关键词,构建若干新检测器,接着判断正常短信库中正常短信的条数是否大于或等于预设正常短信库比对条数阈值,是则进入步骤005;否则将各个新检测器加入到检测器库中,并进入步骤009。
步骤005.由正常短信库队列中提取一条未参与针对各个新检测器自检的正常短信,分别针对各个新检测器,将该正常短信中各个关键词与新检测器中各个垃圾短信关键词进行匹配,获得彼此匹配相同关键词的数量Count,并获得新检测器中垃圾短信关键词的数量N,再根据Count与N的比值,获得新检测器针对该正常短信的垃圾匹配率,进而分别获得各个新检测器针对该正常短信的垃圾匹配率,然后进入步骤006。
步骤006.分别针对各个新检测器,判断新检测器针对该正常短信的垃圾匹配率是否大于或等于预设垃圾匹配率阈值,是则说明新检测器把正常短信判断为垃圾短信,即新检测器为不合格检测器,删除该不合格的新检测器,否则不做进一步操作,然后进入步骤007。
步骤007.判断是否存在新检测器,是则进入步骤008;否则进入步骤009。
步骤008.判断正常短信库中是否存在未参与针对该各个新检测器自检的正常短信,是则返回步骤005;否则判断新检测器为合格检测器,将合格检测器加入到检测器库中,并进入步骤009。
步骤009.判断待识别短信子任务中是否存在未处理的待识别短信,是则返回步骤001;否则针对该待识别短信子任务垃圾短信识别方法结束。
上述实际应用的同时,还包括针对所述检测器库中原有各个检测器,以及新加入的各个检测器,均定义生命周期时长属性,并初始化生命周期时长检测值;所述各个节点分别按所述步骤001至步骤009,针对所接收到待识别短信子任务执行垃圾短信识别的同时,进行计时,并分别针对检测器库中的各个检测器,判断在生命周期时长检测值结束时,检测器是否检测出垃圾短信,是则将该检测器的生命周期时长设置为永久,否则将该检测器删除。并且各个节点分别按所述步骤001至步骤009,针对所接收到待识别短信子任务执行垃圾短信识别的同时,还包括按预设第一时长周期间隔,分别针对生命周期时长为永久的各个检测器,针对检测器中未与短信关键词成功匹配过的关键词,由预设垃圾关键词库中随机选择垃圾关键词进行替换。与此同时,各个节点分别按所述步骤001至步骤009,针对所接收到待识别短信子任务执行垃圾短信识别的同时,还包括按预设第二时长周期间隔,针对所述检测器库中的检测器进行如下步骤操作:
步骤a01.分别获得检测器库中各个检测器的垃圾短信成功匹配率,按垃圾短信成功匹配率由高至低顺序,选择预设检测器总数百分比数量的检测器,作为各个高成功匹配率检测器,并获得高成功匹配率检测器的个数M,然后进入步骤a02。
步骤a02.分别针对各个高成功匹配率检测器,获得高成功匹配率检测器的垃圾短信成功匹配率与M的乘积,作为该高成功匹配率检测器的复制数量,由此分别获得各个高成功匹配率检测器的复制数量,并获得所有高成功匹配率检测器的复制总数K,然后进入步骤a03。
步骤a03.分别按各个高成功匹配率检测器的复制数量,针对各个高成功匹配率检测器进行复制,并提取所有复制检测器中的关键词,构成复制关键词集合,然后进入步骤a04。
步骤a04.将复制关键词集合中的所有关键词随机分配为K组,构成K个重组检测器,并进入步骤a05。
步骤a05.判断正常短信库中正常短信的条数是否大于或等于预设正常短信库比对条数阈值,是则进入步骤a06;否则将该K个重组检测器加入到检测器库中。
步骤a06.按所述步骤005至步骤008的方法,分别针对该K个重组检测器进行自检,删除不合格重组检测器,并将合格重组检测器加入到检测器库中。
上述步骤a06中,分别针对该K个重组检测器,执行如下步骤进行重组检测器自检;
步骤b01.由正常短信库中随机提取一条未参与针对该重组检测器自检的正常短信,按所述步骤005的方法,获得该重组检测器针对该正常短信的垃圾匹配率,并判断该垃圾匹配率是否大于或等于预设垃圾匹配率阈值,是则判断该重组检测器为不合格检测器,删除该不合格检测器;否则进入步骤b02。
步骤b02.判断是否还存在重组检测器,以及正常短信库中是否存在未参与针对该重组检测器自检的正常短信,是则返回步骤b01;否则判断该重组检测器为合格检测器,将该合格检测器加入到检测器库中。
上述设计分布式垃圾短信识别方法在实际应用中,在垃圾短信识别算法层和分布式服务层之上,还引入可视化软件层,我们用JavaSwing实现系统的可视化界面,其中包括如下一些功能:
(1)可视化显示信息:显示识别出的垃圾短息的文本内容和正常短信的文本内容和识别正常短信和垃圾短信统计的数目,以及显示检测器及其每个关键词的匹配情况;
(2)基本功能按键:开始检测、停止检测、统计检测短信相关数目;
(3)智能功能按键:加入正常短信、加入垃圾短信。基于算法层的反馈环节和垃圾短信的两层定义,本发明把正常的短信添加到垃圾短信库,也可以把垃圾短信添加到正常短信中,实现智能化、人性化垃圾短信的识别。
上述技术方案所设计分布式垃圾短信识别方法,实际应用中,提出具有智能计算、学习、并行式、记忆性、动态性等特点垃圾短信识别方法,极大提高了垃圾短信的识别准确率;其中,引入分布式节点,实现对海量垃圾短信进行分布式计算和快速识别;通过反馈环节,实现智能识别,并且具有广泛的推广性,诸如推广到垃圾邮件识别拦截,同时也可以推广到人人网、QQ空间、朋友圈、微博等,对广告或其他垃圾信息进行识别并屏蔽,具有广泛的应用范畴。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (6)

1.一种分布式垃圾短信识别方法,其特征在于,将待识别短信数据集合拆分成各个待识别短信子任务,各个待识别短信子任务分别包括至少一条待识别短信,各个待识别短信子任务分别发送至分布式系统中的各个节点进行处理,各个节点分别按如下步骤,根据预设检测器库中各个检测器内的各个垃圾短信关键词,针对所接收到的待识别短信子任务进行垃圾短信识别;
步骤000.根据预设垃圾关键词库,初始化检测器库中的各个检测器,然后进入步骤001;
步骤001.由待识别短信子任务队列中提取一条未处理的待识别短信,作为当前识别短信,获取当前识别短信中的各个关键词Gene1,Gene2,Gene3…Genei,进入步骤002;步骤002.将当前识别短信中的各个关键词Gene1,Gene2,Gene3…Genei通过HashMap<key,value>,获得所有包含有这些关键词的检测器Index的索引值的集合,进入步骤003;其中,key为Gene,value为所有含有该Gene的检测器Index的链表集合;
步骤003.将得到的索引值集合通过m个HashSet,判断是否存在匹配率大于或等于预设匹配率阈值brake的检测器Index,是则判定当前识别短信为垃圾短信,将其加入垃圾短信库,并由AVL树中提取出该检测器Index,进入步骤004;否则说明检测器库中不存在能与当前识别短信匹配率达到预设匹配率阈值brake的检测器,则判定当前识别短信为正常短信,将其加入至正常短信库,进入步骤009;其中,m=Testlength*brake;Testlength表示为短信文本长度;
步骤004.由被判断为垃圾短信的当前识别短信中的各个关键词,构建若干新检测器,接着判断正常短信库中正常短信的条数是否大于或等于预设正常短信库比对条数阈值,是则进入步骤005;否则将各个新检测器加入到检测器库中,并进入步骤009;
步骤005.由正常短信库队列中提取一条未参与针对各个新检测器自检的正常短信,分别针对各个新检测器,将该正常短信中各个关键词与新检测器中各个垃圾短信关键词进行匹配,获得彼此匹配相同关键词的数量Count,并获得新检测器中垃圾短信关键词的数量N,再根据Count与N的比值,获得新检测器针对该正常短信的垃圾匹配率,进而分别获得各个新检测器针对该正常短信的垃圾匹配率,然后进入步骤006;
步骤006.分别针对各个新检测器,判断新检测器针对该正常短信的垃圾匹配率是否大于或等于预设垃圾匹配率阈值,是则说明新检测器把正常短信判断为垃圾短信,即新检测器为不合格检测器,删除该不合格的新检测器,否则不做进一步操作,然后进入步骤007;
步骤007.判断是否存在新检测器,是则进入步骤008;否则进入步骤009;
步骤008.判断正常短信库中是否存在未参与针对该各个新检测器自检的正常短信,是则返回步骤005;否则判断新检测器为合格检测器,将合格检测器加入到检测器库中,并进入步骤009;
步骤009.判断待识别短信子任务中是否存在未处理的待识别短信,是则返回步骤001;否则针对该待识别短信子任务垃圾短信识别方法结束。
2.根据权利要求1所述一种分布式垃圾短信识别方法,其特征在于,所述步骤000具体包括:根据预设垃圾关键词库,初始化检测器库中的各个检测器,其中,使用AVL树的数据结构将检测器装入内存,并利用HashMap<key,value>存储每个Gene所在检测器Index的集合,其中key为Gene,value为所有含有该Gene的检测器Index的链表集合,然后进入步骤001。
3.根据权利要求2所述一种分布式垃圾短信识别方法,其特征在于:还包括针对所述检测器库中原有各个检测器,以及新加入的各个检测器,均定义生命周期时长属性,并初始化生命周期时长检测值;所述各个节点分别按所述步骤001至步骤009,针对所接收到待识别短信子任务执行垃圾短信识别的同时,进行计时,并分别针对检测器库中的各个检测器,判断在生命周期时长检测值结束时,检测器是否检测出垃圾短信,是则将该检测器的生命周期时长设置为永久,否则将该检测器删除。
4.根据权利要求3所述一种分布式垃圾短信识别方法,其特征在于:所述各个节点分别按所述步骤001至步骤009,针对所接收到待识别短信子任务执行垃圾短信识别的同时,还包括按预设第一时长周期间隔,分别针对生命周期时长为永久的各个检测器,针对检测器中未与短信关键词成功匹配过的关键词,由预设垃圾关键词库中随机选择垃圾关键词进行替换。
5.根据权利要求1至4中任意一项所述一种分布式垃圾短信识别方法,其特征在于:所述各个节点分别按所述步骤001至步骤009,针对所接收到待识别短信子任务执行垃圾短信识别的同时,还包括按预设第二时长周期间隔,针对所述检测器库中的检测器进行如下步骤操作:
步骤a01.分别获得检测器库中各个检测器的垃圾短信成功匹配率,按垃圾短信成功匹配率由高至低顺序,选择预设检测器总数百分比数量的检测器,作为各个高成功匹配率检测器,并获得高成功匹配率检测器的个数M,然后进入步骤a02;
步骤a02.分别针对各个高成功匹配率检测器,获得高成功匹配率检测器的垃圾短信成功匹配率与M的乘积,作为该高成功匹配率检测器的复制数量,由此分别获得各个高成功匹配率检测器的复制数量,并获得所有高成功匹配率检测器的复制总数K,然后进入步骤a03;
步骤a03.分别按各个高成功匹配率检测器的复制数量,针对各个高成功匹配率检测器进行复制,并提取所有复制检测器中的关键词,构成复制关键词集合,然后进入步骤a04;
步骤a04.将复制关键词集合中的所有关键词随机分配为K组,构成K个重组检测器,并进入步骤a05;
步骤a05.判断正常短信库中正常短信的条数是否大于或等于预设正常短信库比对条数阈值,是则进入步骤a06;否则将该K个重组检测器加入到检测器库中;
步骤a06.按所述步骤005至步骤008的方法,分别针对该K个重组检测器进行自检,删除不合格重组检测器,并将合格重组检测器加入到检测器库中。
6.根据权利要求5所述一种分布式垃圾短信识别方法,其特征在于,所述步骤a06中,分别针对该K个重组检测器,执行如下步骤进行重组检测器自检;
步骤b01.由正常短信库中随机提取一条未参与针对该重组检测器自检的正常短信,按所述步骤005的方法,获得该重组检测器针对该正常短信的垃圾匹配率,并判断该垃圾匹配率是否大于或等于预设垃圾匹配率阈值,是则判断该重组检测器为不合格检测器,删除该不合格检测器;否则进入步骤b02;
步骤b02.判断是否还存在重组检测器,以及正常短信库中是否存在未参与针对该重组检测器自检的正常短信,是则返回步骤b01;否则判断该重组检测器为合格检测器,将该合格检测器加入到检测器库中。
CN201610834694.8A 2016-09-19 2016-09-19 一种分布式垃圾短信识别方法 Active CN106411704B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610834694.8A CN106411704B (zh) 2016-09-19 2016-09-19 一种分布式垃圾短信识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610834694.8A CN106411704B (zh) 2016-09-19 2016-09-19 一种分布式垃圾短信识别方法

Publications (2)

Publication Number Publication Date
CN106411704A CN106411704A (zh) 2017-02-15
CN106411704B true CN106411704B (zh) 2019-06-21

Family

ID=57997194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610834694.8A Active CN106411704B (zh) 2016-09-19 2016-09-19 一种分布式垃圾短信识别方法

Country Status (1)

Country Link
CN (1) CN106411704B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109426666B (zh) * 2017-09-05 2024-02-09 上海博泰悦臻网络技术服务有限公司 垃圾短信识别方法、系统、可读存储介质及移动终端
CN108966158B (zh) * 2018-08-21 2022-04-12 平安科技(深圳)有限公司 短信发送方法、系统、计算机设备和存储介质
CN109726312B (zh) * 2018-12-25 2021-10-08 广州虎牙信息科技有限公司 一种正则表达式检测方法、装置、设备和存储介质
CN110300383A (zh) * 2019-05-24 2019-10-01 深圳市趣创科技有限公司 一种垃圾短信过滤程序算法及装置与系统和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101137087A (zh) * 2007-08-01 2008-03-05 浙江大学 短信息监控中心及监控方法
CN101877837A (zh) * 2009-04-30 2010-11-03 华为技术有限公司 一种短信过滤的方法和装置
US8560624B1 (en) * 2009-04-20 2013-10-15 The Florida State University Research Foundation, Inc. Method of detecting compromised computers in a network
CN104112026A (zh) * 2014-08-01 2014-10-22 中国联合网络通信集团有限公司 一种短信文本分类方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101137087A (zh) * 2007-08-01 2008-03-05 浙江大学 短信息监控中心及监控方法
US8560624B1 (en) * 2009-04-20 2013-10-15 The Florida State University Research Foundation, Inc. Method of detecting compromised computers in a network
CN101877837A (zh) * 2009-04-30 2010-11-03 华为技术有限公司 一种短信过滤的方法和装置
CN104112026A (zh) * 2014-08-01 2014-10-22 中国联合网络通信集团有限公司 一种短信文本分类方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"分布式处理下多技术融合的垃圾短信过滤模型";汪健等;《计算机测量与控制》;20131025;全文

Also Published As

Publication number Publication date
CN106411704A (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
CN106411704B (zh) 一种分布式垃圾短信识别方法
Kumar et al. Comparative study on email spam classifier using data mining techniques
CN110457404B (zh) 基于复杂异质网络的社交媒体账户分类方法
CN103458042B (zh) 一种微博广告用户检测方法
Wang et al. Incremental subgraph feature selection for graph classification
RU2601193C2 (ru) Системы и способы обнаружения спама с помощью символьных гистограмм
CN110263538A (zh) 一种基于系统行为序列的恶意代码检测方法
CN108304432A (zh) 信息推送处理方法、信息推送处理装置及存储介质
Shafiq et al. Effective packet number for 5G IM WeChat application at early stage traffic classification
Lota et al. A systematic literature review on sms spam detection techniques
Ishtiaq et al. Graph centrality based spam sms detection
CN112256880A (zh) 文本识别方法和装置、存储介质及电子设备
Paudel et al. Snapsketch: Graph representation approach for intrusion detection in a streaming graph
Keyvanpour A survey on community detection methods based on the nature of social networks
Hosseinpour et al. An ensemble learning approach for sms spam detection
Mashayekhi et al. Weighted estimation of information diffusion probabilities for independent cascade model
Hammer et al. Exploiting usage statistics for energy-efficient logical status inference on mobile phones
Goyal et al. Spam detection using KNN and decision tree mechanism in social network
Tyagi et al. Twitter bot detection using machine learning models
CN114928501A (zh) 一种基于个性化联邦学习的网络钓鱼邮件检测方法
Wang et al. Traffic identification in big internet data
Sharma et al. Comparative Analysis of Different Algorithms in Link Prediction on Social Networks
Weber et al. A general method to find highly coordinating communities in social media through inferred interaction links
Gupta et al. Invitation or bait? Detecting malicious URLs in Facebook events
ŞİMŞEK et al. Detecting fake Twitter accounts with using artificial neural networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: No. 66, New Model Road, Gulou District, Nanjing City, Jiangsu Province, 210000

Applicant after: Nanjing Post & Telecommunication Univ.

Address before: 210023 9 Wen Yuan Road, Qixia District, Nanjing, Jiangsu.

Applicant before: Nanjing Post & Telecommunication Univ.

GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20170215

Assignee: NUPT INSTITUTE OF BIG DATA RESEARCH AT YANCHENG

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: X2020980007071

Denomination of invention: A distributed spam message recognition method

Granted publication date: 20190621

License type: Common License

Record date: 20201026