CN104462115A - 垃圾短信的识别方法及装置 - Google Patents

垃圾短信的识别方法及装置 Download PDF

Info

Publication number
CN104462115A
CN104462115A CN201310425581.9A CN201310425581A CN104462115A CN 104462115 A CN104462115 A CN 104462115A CN 201310425581 A CN201310425581 A CN 201310425581A CN 104462115 A CN104462115 A CN 104462115A
Authority
CN
China
Prior art keywords
note
participle
refuse messages
words
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310425581.9A
Other languages
English (en)
Inventor
严春霞
丁岩
冯军
单娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201310425581.9A priority Critical patent/CN104462115A/zh
Priority to PCT/CN2014/080660 priority patent/WO2015039478A1/zh
Priority to EP14845311.1A priority patent/EP3048539A4/en
Priority to US15/022,604 priority patent/US20160232452A1/en
Publication of CN104462115A publication Critical patent/CN104462115A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种垃圾短信的识别方法及装置,在上述方法中,在垃圾短信样本集中获取第一特征词集合以及在第一特征词集合中每个特征词的第一条件概率;在非垃圾短信样本集中获取第二特征词集合以及在第二特征词集合中每个特征词的第二条件概率;根据待处理的短信集合中每条短信所包含的分词数量、每条短信在短信集合中重复出现的次数、第一特征词集合、第二特征词集合、第一条件概率以及第二条件概率从短信集合中识别出垃圾短信集合。根据本发明提供的技术方案,提高了在数据源发送的短信数据量较为庞大时对垃圾短信的识别准确率,降低了垃圾短信的误报率和漏报率。

Description

垃圾短信的识别方法及装置
技术领域
本发明涉及通信领域,具体而言,涉及一种垃圾短信的识别方法及装置。
背景技术
目前,手机用户几乎每日都会接收到不同数量的垃圾短信,经常被垃圾短信所困扰。虽然,运营商每年都在扩大治理资金和人力的投入,但是随着不法分子所采取的规避手段多样化与散播渠道多样化,运营商所采取的监控垃圾短信措施的投入产出比呈逐年下降趋势,尤其是在垃圾短信的挖掘方面更是存在诸多问题。在上述问题中,短信数据量大,无法准确挖掘垃圾短信是其中最为突出的一个难题。
由此可见,相关技术中缺乏一种能够准确挖掘垃圾短信的技术方案。
发明内容
本发明提供了一种垃圾短信的识别方法及装置,以至少解决相关技术中由于短信数据量大而无法准确挖掘垃圾短信的问题。
根据本发明的一个方面,提供了一种垃圾短信的识别方法。
根据本发明的垃圾短信的识别方法包括:在垃圾短信样本集中获取第一特征词集合以及在第一特征词集合中每个特征词的第一条件概率;在非垃圾短信样本集中获取第二特征词集合以及在第二特征词集合中每个特征词的第二条件概率;根据待处理的短信集合中每条短信所包含的分词数量、每条短信在短信集合中重复出现的次数、第一特征词集合、第二特征词集合、第一条件概率以及第二条件概率从短信集合中识别出垃圾短信集合。
优选地,从短信集合中识别出垃圾短信集合包括:采用以下公式计算每条短信的分类权重typeweight:其中,P(C0)为垃圾短信样本集中的短信总量,P(C1)为非垃圾短信样本集中的短信总量,P(Wt︱C0)为第一条件概率,P(Wt︱C1)为第二条件概率,n为每条短信所包含的分词数量,N为每条短信在短信集合中重复出现的次数,Wt属于第一特征词集合或者第二特征词集合;根据分类权重与预设阈值的比较结果识别出垃圾短信集合,其中,垃圾短信集合中的每条垃圾短信的分类权重均大于预设阈值,预设阈值为P(C0)与P(C1)的比值。
优选地,获取第一特征词集合以及第一条件概率包括:对垃圾短信样本集进行预处理;对垃圾短信样本集中的每条短信样本进行分词处理,获取每条短信样本中包含的各个分词的内容以及每个分词出现的次数;根据在每条短信样本中每个分词出现的次数统计每个分词在垃圾短信样本集中出现的次数;根据统计出的次数与垃圾短信样本集中短信样本总量的比值计算第一条件概率;采用统计出的次数与第一条件概率计算每个分词在垃圾短信样本集中的权重,并将全部分词按照权重由大到小进行排序,选取前N个分词作为第一特征词集合,其中,N为正整数。
优选地,获取第二特征词集合以及第二条件概率包括:对非垃圾短信样本集进行预处理;对非垃圾短信样本集中的每条短信样本进行分词处理,获取每条短信样本中包含的各个分词的内容以及每个分词出现的次数;根据在每条短信样本中每个分词出现的次数统计每个分词在非垃圾短信样本集中出现的次数;根据统计出的次数与非垃圾短信样本集中短信样本的总量的比值计算第二条件概率;采用统计出的次数与第二条件概率计算每个分词在非垃圾短信样本集中的权重,并将全部分词按照权重由大到小进行排序,选取前N个分词作为第二特征词集合,其中,N为正整数。
优选地,在从短信集合中识别出垃圾短信集合之后,还包括:获取发送垃圾短信集合中一条或多条垃圾短信的主叫号码以及接收垃圾短信集合中一条或多条垃圾短信的被叫号码;对获取到的主叫号码和被叫号码进行监控。
优选地,上述方法应用于hadoop平台,在hadoop平台上对短信集合中的各条短信进行并行处理。
根据本发明的另一方面,提供了一种垃圾短信的识别装置。
根据本发明的垃圾短信的识别装置包括:第一获取模块,用于在垃圾短信样本集中获取第一特征词集合以及在第一特征词集合中每个特征词的第一条件概率;第二获取模块,用于在非垃圾短信样本集中获取第二特征词集合以及在第二特征词集合中每个特征词的第二条件概率;识别模块,用于根据待处理的短信集合中每条短信所包含的分词数量、每条短信在短信集合中重复出现的次数、第一特征词集合、第二特征词集合、第一条件概率以及第二条件概率从短信集合中识别出垃圾短信集合。
优选地,识别模块包括:第一计算单元,用于采用以下公式计算每条短信的分类权重typeweight:其中,P(C0)为垃圾短信样本集中的短信总量,P(C1)为非垃圾短信样本集中的短信总量,P(Wt︱C0)为第一条件概率,P(Wt︱C1)为第二条件概率,n为每条短信所包含的分词数量,N为每条短信在短信集合中重复出现的次数,Wt属于第一特征词集合或者第二特征词集合;识别单元,用于根据分类权重与预设阈值的比较结果识别出垃圾短信集合,其中,垃圾短信集合中的每条垃圾短信的分类权重均大于预设阈值,预设阈值为P(C0)与P(C1)的比值。
优选地,第一获取模块包括:第一预处理单元,用于对垃圾短信样本集进行预处理;第一分词处理单元,用于对垃圾短信样本集中的每条短信样本进行分词处理,获取每条短信样本中包含的各个分词的内容以及每个分词出现的次数;第一统计单元,用于根据在每条短信样本中每个分词出现的次数统计每个分词在垃圾短信样本集中出现的次数;第二计算单元,用于根据统计出的次数与垃圾短信样本集中的短信样本总量的比值计算第一条件概率;第一选取单元,用于采用统计出的次数与第一条件概率计算每个分词在垃圾短信样本集中的权重,并将全部分词按照权重由大到小进行排序,选取前N个分词作为第一特征词集合,其中,N为正整数。
优选地,第二获取模块包括:第二预处理单元,用于对非垃圾短信样本集进行预处理;第二分词处理单元,用于对非垃圾短信样本集中的每条短信样本进行分词处理,获取每条短信样本中包含的各个分词的内容以及每个分词出现的次数;第二统计单元,用于根据在每条短信样本中每个分词出现的次数统计每个分词在非垃圾短信样本集中出现的次数;第三计算单元,用于根据统计出的次数与非垃圾短信样本集中短信样本的总量的比值计算第二条件概率;第二选取单元,用于采用统计出的次数与第二条件概率计算每个分词在非垃圾短信样本集中的权重,并将全部分词按照权重由大到小进行排序,选取前N个分词作为第二特征词集合,其中,N为正整数。
优选地,上述装置还包括:第三获取模块,用于获取发送垃圾短信集合中一条或多条垃圾短信的主叫号码以及接收垃圾短信集合中一条或多条垃圾短信的被叫号码;监控模块,用于对获取到的主叫号码和被叫号码进行监控。
优选地,上述装置应用于hadoop平台,在hadoop平台上对短信集合中的各条短信进行并行处理。
通过本发明,采用在垃圾短信样本集中获取第一特征词集合以及在第一特征词集合中每个特征词的第一条件概率;在非垃圾短信样本集中获取第二特征词集合以及在第二特征词集合中每个特征词的第二条件概率;根据待处理的短信集合中每条短信所包含的分词数量、每条短信在短信集合中重复出现的次数以及上述获取到的第一特征词集合、第二特征词集合、第一条件概率、第二条件概率可以从短信集合中更加准确地识别出垃圾短信集合,由此解决了相关技术中由于短信数据量大而无法准确挖掘垃圾短信的问题,进而提高了在数据源发送的短信数据量较为庞大时对垃圾短信的识别准确率,降低了垃圾短信的误报率和漏报率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的垃圾短信的识别方法的流程图;
图2是根据本发明实施例的垃圾短信的识别装置的结构框图;
图3是根据本发明优选实施例的垃圾短信的识别装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1是根据本发明实施例的垃圾短信的识别方法的流程图。如图1所示,该方法可以包括以下处理步骤:
步骤S102:在垃圾短信样本集中获取第一特征词集合以及在第一特征词集合中每个特征词的第一条件概率;
步骤S104:在非垃圾短信样本集中获取第二特征词集合以及在第二特征词集合中每个特征词的第二条件概率;
步骤S106:根据待处理的短信集合中每条短信所包含的分词数量、每条短信在短信集合中重复出现的次数、第一特征词集合、第二特征词集合、第一条件概率以及第二条件概率从短信集合中识别出垃圾短信集合。
相关技术中,由于短信数据量大而无法准确挖掘垃圾短信。采用如图1所示的方法,在垃圾短信样本集中获取第一特征词集合以及在第一特征词集合中每个特征词的第一条件概率;在非垃圾短信样本集中获取第二特征词集合以及在第二特征词集合中每个特征词的第二条件概率;根据待处理的短信集合中每条短信所包含的分词数量、每条短信在短信集合中重复出现的次数以及上述获取到的第一特征词集合、第二特征词集合、第一条件概率、第二条件概率可以从短信集合中更加准确地识别出垃圾短信集合,由此解决了相关技术中由于短信数据量大而无法准确挖掘垃圾短信的问题,进而提高了在数据源发送的短信数据量较为庞大时对垃圾短信的识别准确率,降低了垃圾短信的误报率和漏报率。
在优选实施过程中,上述方法应用于hadoop平台,在hadoop平台上对短信集合中的各条短信进行并行处理。
优选地,在步骤S106中,从短信集合中识别出垃圾短信集合可以包括以下操作:
步骤S1:采用以下公式计算每条短信的分类权重typeweight:
typeweight = P ( C 0 ) ( Π i = 1 n P ( Wt | C 0 ) ) N P ( C 1 ) ( Π i = 1 n P ( Wt | C 1 ) ) N
其中,P(C0)为垃圾短信样本集中的短信总量,P(C1)为非垃圾短信样本集中的短信总量,P(Wt︱C0)为第一条件概率,P(Wt︱C1)为第二条件概率,n为每条短信所包含的分词数量,N为每条短信在短信集合中重复出现的次数,Wt属于第一特征词集合或者第二特征词集合;
步骤S2:根据分类权重与预设阈值的比较结果识别出垃圾短信集合,其中,垃圾短信集合中的每条垃圾短信的分类权重均大于预设阈值,预设阈值为P(C0)与P(C1)的比值。
在优选实施例中,在从数据源接收到上述短信集合后,首先,需要对短信消息进行归并,将消息内容相同的短信进行汇总,输出短信内容以及短信出现的次数。其次,计算短信的分类权重,并对短信进行分类。然后,分别对上述短信集合中每条短信的短信内容进行如下预处理:
①进行噪声处理,删除空格、标点符号等特殊字符,仅剩下中文和数字;
②过滤掉停用词,例如:语气词(如:啊、呢),连词(如:并且、或者),助词(如:的、地)。
③进行IK分词处理,将短信内容存储在Dx向量。
计算分类权重typeWeight=P(C0|Dx)/P(C1|Dx),
P ( C 0 | Dx ) P ( C 1 | Dx ) = P ( C 0 ) ( Π t = 1 n P ( Wt | C 0 ) ) N P ( C 1 ) ( Π t = 1 n P ( Wt | C 1 ) ) N
其中,P(C0)为垃圾短信样本集中的短信总量,P(C1)为非垃圾短信样本集中的短信总量,P(Wt︱C0)为第一条件概率,P(Wt︱C1)为第二条件概率,n为Dx向量内不同分词的数量,N为每条短信在短信集合中重复出现的次数,Wt属于第一特征词集合或者第二特征词集合。
需要说明的是,如果短信内容在分词处理之后所获得的新分词Wt不属于第一特征词集合和/或第二特征词集合,则可以按照下面的规则进行计算:
(1)当特征词Wt仅出现在正常短信样本集中,P(Wt|C0)可以按照拉普拉斯系数计算或者以P(Wt|C1)为基础降低两个数量级。
(2)当特征词Wt仅出现在垃圾短信样本集中,P(Wt|C1)可以按照拉普拉斯系数计算或者选取正常短信样本集中最低词频概率。
此外,根据实际效果设定一个阈值,如果分类权重大于该阈值,则认为该条短信为垃圾短信,作为结果输出。该阈值需要根据实际效果进行实时调整。
优选地,在步骤S102中,获取第一特征词集合以及第一条件概率可以包括以下步骤:
步骤S3:对垃圾短信样本集进行预处理;
步骤S4:对垃圾短信样本集中的每条短信样本进行分词处理,获取每条短信样本中包含的各个分词的内容以及每个分词出现的次数;
步骤S5:根据在每条短信样本中每个分词出现的次数统计每个分词在垃圾短信样本集中出现的次数;
步骤S6:根据统计出的次数与垃圾短信样本集中短信样本总量的比值计算第一条件概率;
步骤S7:采用统计出的次数与第一条件概率计算每个分词在垃圾短信样本集中的权重,并将全部分词按照权重由大到小进行排序,选取前N个分词作为第一特征词集合,其中,N为正整数。
在优选实施例中,获取垃圾短信样本集的分词集合以及每个分词在垃圾短信样本集中出现的次数可以包含如下处理内容:
(1)对垃圾短信样本集进行预处理:
①剔除内容过短的消息,例如:假设短信内容少于10个字,则剔除该条消息;
②进行噪声处理,删除空格、标点符号等特殊字符,仅剩下中文和数字;
③过滤掉停用词。
(2)对垃圾短信进行IK分词处理,输出每条垃圾短信中包含的分词以及分词个数。
(3)统计各个分词在垃圾短信样本集中出现的次数,并且输出各个分词以及在垃圾短信样本集中出现的次数。
最后,根据条件概率公式P(Wt|C0)=分词Wt在垃圾短信样本集中出现的次数/垃圾短信样本集中的垃圾短信总条数C0,计算分词在垃圾短信样本集中的权重,并且根据权重排名输出TopN作为特征词,其中,N的具体取值需要根据实际情况而定。
优选地,在步骤S104中,获取第二特征词集合以及第二条件概率可以包括以下操作:
步骤S8:对非垃圾短信样本集进行预处理;
步骤S9:对非垃圾短信样本集中的每条短信样本进行分词处理,获取每条短信样本中包含的各个分词的内容以及每个分词出现的次数;
步骤S10:根据在每条短信样本中每个分词出现的次数统计每个分词在非垃圾短信样本集中出现的次数;
步骤S11:根据统计出的次数与非垃圾短信样本集中短信样本的总量的比值计算第二条件概率;
步骤S12:采用统计出的次数与第二条件概率计算每个分词在非垃圾短信样本集中的权重,并将全部分词按照权重由大到小进行排序,选取前N个分词作为第二特征词集合,其中,N为正整数。
在优选实施例中,获取正常(即非垃圾)短信样本集的分词集合以及每个分词在正常短信样本集中出现的次数可以包含如下处理内容:
(1)对正常短信样本集进行预处理,包括以下几项:
①剔除内容过短的消息,例如:假设短信内容少于10个字,则剔除该条消息;
②进行噪声处理,删除空格、标点符号等特殊字符,仅剩下中文和数字;
③过滤掉停用词。
(2)对正常短信进行IK分词处理,输出每条正常短信中包含的分词以及分词个数。
(3)统计各个分词在正常短信样本集中出现的次数,并且输出各个分词以及在正常短信样本集中出现的次数。
最后,根据条件概率公式P(Wt|C1)=分词Wt在正常短信样本集中出现的次数/正常短信样本集中的正常短信总条数C1,计算分词在正常短信样本集中的权重,并且根据权重排名输出Top N作为特征词,其中,N的具体取值需要根据实际情况而定。
在优选实施过程中,上述步骤S102与步骤S104可以并行处理。
优选地,在步骤S106,从短信集合中识别出垃圾短信集合之后,还可以包括以下步骤:
步骤S13:获取发送垃圾短信集合中一条或多条垃圾短信的主叫号码以及接收垃圾短信集合中一条或多条垃圾短信的被叫号码;
步骤S14:对获取到的主叫号码和被叫号码进行监控。
在优选实施例中,还可以根据上面输出的垃圾短信结果对待处理的短信进行二次挖掘,以获取发送和/或接收过上述垃圾短信内容的全部手机号码以及每个手机号码发送和/或接收过的全部短信内容。
作为本发明的优选实施方式,下面全部操作均需要在Hadoop大数据平台上进行,是由Hadoop一连串的作业实现的上述功能。Hadoop作业又可以进一步分为map和reduce两个过程。map和reduce如果不进行配置,则均可以采用缺省map和reduce进行处理。
作业一:对垃圾短信样本集进行预处理、获取垃圾短信样本集的分词集合以及每个分词在垃圾短信样本集中出现的次数。
map的输入:垃圾短信样本集
每条输入短信的内容如表1所示:
表1
对输入短信的内容进行map处理:
对UserData字段进行如下处理:
①剔除内容过短的消息,例如:假设短信内容少于10个字,则剔除该条消息;
②进行噪声处理,删除空格、标点符号等特殊字符,仅剩下中文和数字;
③过滤掉停用词;
④对垃圾短信进行IK分词处理,以每个分词为key,其value为1。
对输入短信的内容进行map输出,如表2所示:
表2
Key Value
分词 1
map的输出结果经过Hadoop默认中间处理成为reduce的输入,具体如下:
对map的输出结果进行reduce输入如表3所示:
表3
Key Value
分词 List(1,1...)
reduce处理过程如下:
根据不同的分词遍历List数据进行相加,获得此分词的出现次数n,以“spam_”为前缀与n组成字符串为value。
reduce的输出结果如表4所示:
表4
Key Value
分词 spam_n
作业二:对正常短信样本集进行预处理,获取正常短信样本集的分词集合以及每个分词在正常短信样本集中出现的次数。
map的输入:正常短信样本集
每条输入短信的内容如表5所示:
表5
对输入短信的内容(UserData字段)进行map处理:
①剔除内容过短的消息,例如:假设短信内容少于10个字,则剔除该条消息;
②进行噪声处理,删除空格、标点符号等特殊字符,仅剩下中文和数字;
③过滤掉停用词;
④对正常短信进行IK分词处理,以每个分词为key,其value为1。
对输入短信的内容进行map输出如表6所示:
表6
Key Value
分词 1
map的输出结果经过Hadoop默认中间处理成为reduce的输入,具体如下:
对map的输出结果进行reduce输入如表7所示:
表7
Key Value
分词 List(1,1...)
reduce处理过程如下:
根据不同的分词遍历List数据进行相加,获得此分词的出现次数n,以“normal_”为前缀与n组成字符串为value。
reduce的输出结果如表8所示:
表8
Key Value
分词 normal_n
需要说明的是,上述作业一与作业二完全可以同步进行。
作业三:垃圾短信样本集分词权重获取
map输入为:垃圾短信样本集分词,如表9所示,
表9
Key Value
分词 spam_n
其map操作过程如下:
根据条件概率公式P(Wt|C0)=分词Wt在垃圾短信样本集中出现的次数/垃圾短信样本集中的垃圾短信总条数C0,计算分词在垃圾短信样本集中的权重,并且根据权重排名输出Top N作为特征词,其中,N的具体取值需要根据实际情况而定。
map的输出结果如表10所示:
表10
Key Value
分词 P(Wt|C0),spam_n
作业四:正常短信样本集分词权重获取
map输入为:正常短信样本集分词,如表11所示,
表11
Key Value
分词 normal_n
其map操作过程如下:
根据条件概率公式P(Wt|C1)=分词Wt在正常短信样本集中出现的次数/正常短信样本集中的正常短信总条数C1,计算分词在正常短信样本集中的权重,并且根据权重排名输出Top N作为特征词,其中,N的具体取值需要根据实际情况而定。
map的输出结果如表12所示:
表12
Key Value
分词 P(Wt|C1),normal_n
需要说明的是,作业三与作业四的输出结果会分别存放在两个不同的cache中,以便后续使用。而且,作业三与作业四同样可以同步执行。
作业五:对待处理短信消息进行归并处理
map输入为:待处理的短信消息
每条短信输入的内容如表13所示:
表13
map操作过程如下:
将上述数据源UserData-短信内容设置为key,并将其value设置为1。
map的输出结果如表14所示:
表14
Key Value
短信内容 1
reduce输入如表15所示:
表15
Key Value
短信内容 List(1,1...)
reduce的操作过程如下:
根据不同的key遍历List数据进行相加,获得此条消息在新的待分类消息集合出现的次数,并与消息内容加以组合作为value。
reduce的输出结果如表16所示:
表16
Key Value
短信内容 N_短信内容
作业六:计算短消息分类权重并进行分类
map输入:归并后短消息文本列表,如表17所示,
表17
Key Value
短信内容 N_短信内容
map的操作过程:
对上面的数据源短信内容进行预处理并进行IK分词处理,然后将消息内容存储在Dx向量中,例如:
Dx={联系,发票,电话,138999990111,……}
计算分类权重typeWeight=P(C0|Dx)/P(C1|Dx),其中,n为Dx向量内不同分词的数量,N为该短信重复出现的次数。P(Wt|C0)和P(Wt|C1)基于上述样本库计算取得的结果。如果短信内容在分词之后所获得的新分词Wt不在步骤1得到的特征词集合内,则可以按照下面的规则进行计算:
P ( C 0 | Dx ) P ( C 1 | Dx ) = P ( C 0 ) ( Π t = 1 n P ( Wt | C 0 ) ) N P ( C 1 ) ( Π t = 1 n P ( Wt | C 1 ) ) N
(1)当特征词仅出现在正常短信样本集中,P(Wt|C0)可以按照拉普拉斯系数计算或者以P(Wt|C1)为基础降低两个数量级。
(2)当特征词仅出现在垃圾短信样本集中,P(Wt|C1)可以按照拉普拉斯系数计算或者选取正常短信样本集中最低词频概率。
map的输出结果如表18所示:
表18
Key Value
短信内容 typeWeight
将消息内容和typeWeight输出至文件并且按照typeWeight的排序结果,对于大于K的记录被划分为垃圾短信,其中,K=P(C0)/P(C1),具体的K值可以根据实际效果进行实时调整。而输出结果可以作为下一步骤的Cache输入,其命名为job6_ResultCache。
作业七:分类结果再挖掘
map输入为:待处理短信消息
每条输入短信的内容如表19所示:
表19
map的操作过程如下:
对上面的数据源UserData-短信内容作为key,从job6_ResultCache中读取输出结果,如果输出结果不为空,则可以将短信内容作为key,主叫号码_被叫号码作为value输出;否则,不输出任何结果。
map的输出结果如表20所示:
表20
Key Value
短信内容 主叫号码_被叫号码
reduce的输入如表21所示:
表21
reduce的操作过程如下:
根据不同的key遍历List数据以“;”将各个元素连接起来,以短信内容为key。
reduce的输出结果如表22所示:
表22
图2是根据本发明实施例的垃圾短信的识别装置的结构框图。如图1所示,该垃圾短信的识别装置可以包括:第一获取模块10,用于在垃圾短信样本集中获取第一特征词集合以及在第一特征词集合中每个特征词的第一条件概率;第二获取模块20,用于在非垃圾短信样本集中获取第二特征词集合以及在第二特征词集合中每个特征词的第二条件概率;识别模块30,用于根据待处理的短信集合中每条短信所包含的分词数量、每条短信在短信集合中重复出现的次数、第一特征词集合、第二特征词集合、第一条件概率以及第二条件概率从短信集合中识别出垃圾短信集合。
采用如图2所示的装置,解决了相关技术中由于短信数据量大而无法准确挖掘垃圾短信的问题,进而提高了在数据源发送的短信数据量较为庞大时对垃圾短信的识别准确率,降低了垃圾短信的误报率和漏报率。
在优选实施过程中,上述装置应用于hadoop平台,在hadoop平台上对短信集合中的各条短信进行并行处理。
优选地,如图3所示,识别模块30可以包括:第一计算单元300,用于采用以下公式计算每条短信的分类权重typeweight:其中,P(C0)为垃圾短信样本集中的短信总量,P(C1)为非垃圾短信样本集中的短信总量,P(Wt︱C0)为第一条件概率,P(Wt︱C1)为第二条件概率,n为每条短信所包含的分词数量,N为每条短信在短信集合中重复出现的次数,Wt属于第一特征词集合或者第二特征词集合;识别单元302,用于根据分类权重与预设阈值的比较结果识别出垃圾短信集合,其中,垃圾短信集合中的每条垃圾短信的分类权重均大于预设阈值,预设阈值为P(C0)与P(C1)的比值。
优选地,如图3所示,第一获取模块10可以包括:第一预处理单元100,用于对垃圾短信样本集进行预处理;第一分词处理单元102,用于对垃圾短信样本集中的每条短信样本进行分词处理,获取每条短信样本中包含的各个分词的内容以及每个分词出现的次数;第一统计单元104,用于根据在每条短信样本中每个分词出现的次数统计每个分词在垃圾短信样本集中出现的次数;第二计算单元106,用于根据统计出的次数与垃圾短信样本集中的短信样本总量的比值计算第一条件概率;第一选取单元108,用于采用统计出的次数与第一条件概率计算每个分词在垃圾短信样本集中的权重,并将全部分词按照权重由大到小进行排序,选取前N个分词作为第一特征词集合,其中,N为正整数。
优选地,如图3所示,第二获取模块20可以包括:第二预处理单元200,用于对非垃圾短信样本集进行预处理;第二分词处理单元202,用于对非垃圾短信样本集中的每条短信样本进行分词处理,获取每条短信样本中包含的各个分词的内容以及每个分词出现的次数;第二统计单元204,用于根据在每条短信样本中每个分词出现的次数统计每个分词在非垃圾短信样本集中出现的次数;第三计算单元206,用于根据统计出的次数与非垃圾短信样本集中短信样本的总量的比值计算第二条件概率;第二选取单元208,用于采用统计出的次数与第二条件概率计算每个分词在非垃圾短信样本集中的权重,并将全部分词按照权重由大到小进行排序,选取前N个分词作为第二特征词集合,其中,N为正整数。
优选地,如图3所示,上述装置还可以包括:第三获取模块40,用于获取发送垃圾短信集合中一条或多条垃圾短信的主叫号码以及接收垃圾短信集合中一条或多条垃圾短信的被叫号码;监控模块50,用于对获取到的主叫号码和被叫号码进行监控。
从以上的描述中,可以看出,上述实施例实现了如下技术效果(需要说明的是这些效果是某些优选实施例可以达到的效果):本发明实施例所提供的技术方案能够基于大数据平台和IK智能分词,从短信内容入手对垃圾短信进行分析,其中,可以包括:垃圾短信的发送频率信息,同时还可以避免由于主叫号码或者被叫号码发生变化所带来的监控干扰。对于正常短信样本和垃圾短信样本分别进行分词统计,分别计算出分词在两者中的权重值,再对待处理的短信内容进行分词处理,使用贝叶斯算法计算此条短信的分类权重,如果超过预设阈值,则可以判定为垃圾短信。最后,对于已经获知的垃圾短信还可以再进行二次挖掘,再次对主叫号码和相同短信内容的话单进行汇总,从而挖掘发送垃圾短信的号码群组以及被叫号码群组,以便于运营商对其进行分析和执行下一步操作。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种垃圾短信的识别方法,其特征在于,包括:
在所述垃圾短信样本集中获取第一特征词集合以及在所述第一特征词集合中每个特征词的第一条件概率;
在所述非垃圾短信样本集中获取第二特征词集合以及在所述第二特征词集合中每个特征词的第二条件概率;
根据待处理的短信集合中每条短信所包含的分词数量、所述每条短信在所述短信集合中重复出现的次数、所述第一特征词集合、所述第二特征词集合、所述第一条件概率以及所述第二条件概率从所述短信集合中识别出垃圾短信集合。
2.根据权利要求1所述的方法,其特征在于,从所述短信集合中识别出所述垃圾短信集合包括:
采用以下公式计算所述每条短信的分类权重typeweight:
typeweight = P ( C 0 ) ( Π i = 1 n P ( Wt | C 0 ) ) N P ( C 1 ) ( Π i = 1 n P ( Wt | C 1 ) ) N
其中,P(C0)为所述垃圾短信样本集中的短信总量,P(C1)为所述非垃圾短信样本集中的短信总量,P(Wt︱C0)为所述第一条件概率,P(Wt︱C1)为所述第二条件概率,n为所述每条短信所包含的分词数量,N为所述每条短信在所述短信集合中重复出现的次数,Wt属于所述第一特征词集合或者所述第二特征词集合;
根据所述分类权重与预设阈值的比较结果识别出所述垃圾短信集合,其中,所述垃圾短信集合中的每条垃圾短信的分类权重均大于所述预设阈值,所述预设阈值为P(C0)与P(C1)的比值。
3.根据权利要求1所述的方法,其特征在于,获取所述第一特征词集合以及所述第一条件概率包括:
对所述垃圾短信样本集进行预处理;
对所述垃圾短信样本集中的每条短信样本进行分词处理,获取所述每条短信样本中包含的各个分词的内容以及每个分词出现的次数;
根据在所述每条短信样本中每个分词出现的次数统计每个分词在所述垃圾短信样本集中出现的次数;
根据统计出的次数与所述垃圾短信样本集中短信样本总量的比值计算所述第一条件概率;
采用所述统计出的次数与所述第一条件概率计算所述每个分词在所述垃圾短信样本集中的权重,并将全部分词按照权重由大到小进行排序,选取前N个分词作为所述第一特征词集合,其中,N为正整数。
4.根据权利要求1所述的方法,其特征在于,在所述非垃圾短信样本集中获取所述第二特征词集合以及所述第二条件概率包括:
对所述非垃圾短信样本集进行预处理;
对所述非垃圾短信样本集中的每条短信样本进行分词处理,获取所述每条短信样本中包含的各个分词的内容以及每个分词出现的次数;
根据在所述每条短信样本中每个分词出现的次数统计每个分词在所述非垃圾短信样本集中出现的次数;
根据统计出的次数与所述非垃圾短信样本集中短信样本的总量的比值计算所述第二条件概率;
采用所述统计出的次数与所述第二条件概率计算所述每个分词在所述非垃圾短信样本集中的权重,并将全部分词按照权重由大到小进行排序,选取前N个分词作为所述第二特征词集合,其中,N为正整数。
5.根据权利要求1所述的方法,其特征在于,在从所述短信集合中识别出所述垃圾短信集合之后,还包括:
获取发送所述垃圾短信集合中一条或多条垃圾短信的主叫号码以及接收所述垃圾短信集合中一条或多条垃圾短信的被叫号码;
对获取到的主叫号码和被叫号码进行监控。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法应用于hadoop平台,在所述hadoop平台上对所述短信集合中的各条短信进行并行处理。
7.一种垃圾短信的识别装置,其特征在于,包括:
第一获取模块,用于在所述垃圾短信样本集中获取第一特征词集合以及在所述第一特征词集合中每个特征词的第一条件概率;
第二获取模块,用于在所述非垃圾短信样本集中获取第二特征词集合以及在所述第二特征词集合中每个特征词的第二条件概率;
识别模块,用于根据待处理的短信集合中每条短信所包含的分词数量、所述每条短信在所述短信集合中重复出现的次数、所述第一特征词集合、所述第二特征词集合、所述第一条件概率以及所述第二条件概率从所述短信集合中识别出垃圾短信集合。
8.根据权利要求7所述的装置,其特征在于,所述识别模块包括:
第一计算单元,用于采用以下公式计算所述每条短信的分类权重typeweight:
typeweight = P ( C 0 ) ( Π i = 1 n P ( Wt | C 0 ) ) N P ( C 1 ) ( Π i = 1 n P ( Wt | C 1 ) ) N
其中,P(C0)为所述垃圾短信样本集中的短信总量,P(C1)为所述非垃圾短信样本集中的短信总量,P(Wt︱C0)为所述第一条件概率,P(Wt︱C1)为所述第二条件概率,n为所述每条短信所包含的分词数量,N为所述每条短信在所述短信集合中重复出现的次数,Wt属于所述第一特征词集合或者所述第二特征词集合;
识别单元,用于根据所述分类权重与预设阈值的比较结果识别出所述垃圾短信集合,其中,所述垃圾短信集合中的每条垃圾短信的分类权重均大于所述预设阈值,所述预设阈值为P(C0)与P(C1)的比值。
9.根据权利要求7所述的装置,其特征在于,所述第一获取模块包括:
第一预处理单元,用于对所述垃圾短信样本集进行预处理;
第一分词处理单元,用于对所述垃圾短信样本集中的每条短信样本进行分词处理,获取所述每条短信样本中包含的各个分词的内容以及每个分词出现的次数;
第一统计单元,用于根据在所述每条短信样本中每个分词出现的次数统计每个分词在所述垃圾短信样本集中出现的次数;
第二计算单元,用于根据统计出的次数与所述垃圾短信样本集中的短信样本总量的比值计算所述第一条件概率;
第一选取单元,用于采用所述统计出的次数与所述第一条件概率计算所述每个分词在所述垃圾短信样本集中的权重,并将全部分词按照权重由大到小进行排序,选取前N个分词作为所述第一特征词集合,其中,N为正整数。
10.根据权利要求7所述的装置,其特征在于,所述第二获取模块包括:
第二预处理单元,用于对所述非垃圾短信样本集进行预处理;
第二分词处理单元,用于对所述非垃圾短信样本集中的每条短信样本进行分词处理,获取所述每条短信样本中包含的各个分词的内容以及每个分词出现的次数;
第二统计单元,用于根据在所述每条短信样本中每个分词出现的次数统计每个分词在所述非垃圾短信样本集中出现的次数;
第三计算单元,用于根据统计出的次数与所述非垃圾短信样本集中短信样本的总量的比值计算所述第二条件概率;
第二选取单元,用于采用所述统计出的次数与所述第二条件概率计算所述每个分词在所述非垃圾短信样本集中的权重,并将全部分词按照权重由大到小进行排序,选取前N个分词作为所述第二特征词集合,其中,N为正整数。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第三获取模块,用于获取发送所述垃圾短信集合中一条或多条垃圾短信的主叫号码以及接收所述垃圾短信集合中一条或多条垃圾短信的被叫号码;
监控模块,用于对获取到的主叫号码和被叫号码进行监控。
12.根据权利要求7至11中任一项所述的装置,其特征在于,所述装置应用于hadoop平台,在所述hadoop平台上对所述短信集合中的各条短信进行并行处理。
CN201310425581.9A 2013-09-17 2013-09-17 垃圾短信的识别方法及装置 Pending CN104462115A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201310425581.9A CN104462115A (zh) 2013-09-17 2013-09-17 垃圾短信的识别方法及装置
PCT/CN2014/080660 WO2015039478A1 (zh) 2013-09-17 2014-06-24 垃圾短信的识别方法及装置
EP14845311.1A EP3048539A4 (en) 2013-09-17 2014-06-24 METHOD AND APPARATUS FOR RECOGNIZING ADVERSE MESSAGES
US15/022,604 US20160232452A1 (en) 2013-09-17 2014-06-24 Method and device for recognizing spam short messages

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310425581.9A CN104462115A (zh) 2013-09-17 2013-09-17 垃圾短信的识别方法及装置

Publications (1)

Publication Number Publication Date
CN104462115A true CN104462115A (zh) 2015-03-25

Family

ID=52688179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310425581.9A Pending CN104462115A (zh) 2013-09-17 2013-09-17 垃圾短信的识别方法及装置

Country Status (4)

Country Link
US (1) US20160232452A1 (zh)
EP (1) EP3048539A4 (zh)
CN (1) CN104462115A (zh)
WO (1) WO2015039478A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488031A (zh) * 2015-12-09 2016-04-13 北京奇虎科技有限公司 一种检测相似短信的方法及装置
CN105704689A (zh) * 2016-01-12 2016-06-22 深圳市深讯数据科技股份有限公司 一种短信行为的大数据采集与分析方法及系统
CN106102027A (zh) * 2016-06-12 2016-11-09 西南医科大学 基于MapReduce的短信批量提交方法
CN107135494A (zh) * 2017-04-24 2017-09-05 北京小米移动软件有限公司 垃圾短信识别方法及装置
CN108733730A (zh) * 2017-04-25 2018-11-02 北京京东尚科信息技术有限公司 垃圾消息拦截方法和装置
CN109426666A (zh) * 2017-09-05 2019-03-05 上海博泰悦臻网络技术服务有限公司 垃圾短信识别方法、系统、可读存储介质及移动终端
CN109873755A (zh) * 2019-03-02 2019-06-11 北京亚鸿世纪科技发展有限公司 一种基于变体词识别技术的垃圾短信分类引擎
CN111931487A (zh) * 2020-10-15 2020-11-13 上海一嗨成山汽车租赁南京有限公司 用于短信处理的方法、电子设备和存储介质
CN114040409A (zh) * 2021-11-11 2022-02-11 中国联合网络通信集团有限公司 短信识别方法、装置、设备及存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10229219B2 (en) * 2015-05-01 2019-03-12 Facebook, Inc. Systems and methods for demotion of content items in a feed
CN107155178A (zh) * 2016-03-03 2017-09-12 深圳市新悦蓝图网络科技有限公司 一种基于智能算法的垃圾短信过滤方法
CN108153727B (zh) * 2017-12-18 2020-09-08 浙江鹏信信息科技股份有限公司 利用语义挖掘算法标识营销电话的方法及治理营销电话的系统
CN116016416B (zh) * 2023-03-24 2023-08-04 深圳市明源云科技有限公司 垃圾邮件识别方法、装置、设备及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
CN102065387A (zh) * 2009-11-13 2011-05-18 华为技术有限公司 一种短信的识别方法和设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080141278A1 (en) * 2006-12-07 2008-06-12 Sybase 365, Inc. System and Method for Enhanced Spam Detection
US8364766B2 (en) * 2008-12-04 2013-01-29 Yahoo! Inc. Spam filtering based on statistics and token frequency modeling
CN101877837B (zh) * 2009-04-30 2013-11-06 华为技术有限公司 一种短信过滤的方法和装置
CN102572744B (zh) * 2010-12-13 2014-11-05 中国移动通信集团设计院有限公司 识别特征库获取方法、装置及短消息识别方法、装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
CN102065387A (zh) * 2009-11-13 2011-05-18 华为技术有限公司 一种短信的识别方法和设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
S ANAYAT 等: "Using a probable weight based Bayesian approach for spam filtering", 《 PROCEEDINGS OF INMIC 2004 8TH INTERNATIONAL MULTITOPIC CONFERENCE》 *
WEI-WEI DENG 等: "RESEARCH ON A NAIVE BAYESIAN BASED SHORT MESSAGE FILTERING SYSTEM", 《PROCEEDINGS OF THE FIFTH INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND CYBERNETICS》 *
张付志 等: "基于贝叶斯算法的垃圾邮件过滤技术的研究与改进", 《燕山大学学报》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488031A (zh) * 2015-12-09 2016-04-13 北京奇虎科技有限公司 一种检测相似短信的方法及装置
CN105488031B (zh) * 2015-12-09 2018-10-19 北京奇虎科技有限公司 一种检测相似短信的方法及装置
CN105704689A (zh) * 2016-01-12 2016-06-22 深圳市深讯数据科技股份有限公司 一种短信行为的大数据采集与分析方法及系统
CN106102027B (zh) * 2016-06-12 2019-03-15 西南医科大学 基于MapReduce的短信批量提交方法
CN106102027A (zh) * 2016-06-12 2016-11-09 西南医科大学 基于MapReduce的短信批量提交方法
CN107135494B (zh) * 2017-04-24 2020-06-19 北京小米移动软件有限公司 垃圾短信识别方法及装置
CN107135494A (zh) * 2017-04-24 2017-09-05 北京小米移动软件有限公司 垃圾短信识别方法及装置
CN108733730A (zh) * 2017-04-25 2018-11-02 北京京东尚科信息技术有限公司 垃圾消息拦截方法和装置
CN109426666A (zh) * 2017-09-05 2019-03-05 上海博泰悦臻网络技术服务有限公司 垃圾短信识别方法、系统、可读存储介质及移动终端
CN109426666B (zh) * 2017-09-05 2024-02-09 上海博泰悦臻网络技术服务有限公司 垃圾短信识别方法、系统、可读存储介质及移动终端
CN109873755A (zh) * 2019-03-02 2019-06-11 北京亚鸿世纪科技发展有限公司 一种基于变体词识别技术的垃圾短信分类引擎
CN109873755B (zh) * 2019-03-02 2021-01-01 北京亚鸿世纪科技发展有限公司 一种基于变体词识别技术的垃圾短信分类引擎
CN111931487A (zh) * 2020-10-15 2020-11-13 上海一嗨成山汽车租赁南京有限公司 用于短信处理的方法、电子设备和存储介质
CN114040409A (zh) * 2021-11-11 2022-02-11 中国联合网络通信集团有限公司 短信识别方法、装置、设备及存储介质
CN114040409B (zh) * 2021-11-11 2023-06-06 中国联合网络通信集团有限公司 短信识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
EP3048539A4 (en) 2016-08-31
WO2015039478A1 (zh) 2015-03-26
EP3048539A1 (en) 2016-07-27
US20160232452A1 (en) 2016-08-11

Similar Documents

Publication Publication Date Title
CN104462115A (zh) 垃圾短信的识别方法及装置
US10587627B1 (en) Detection of flooding of unwanted messages
CN102724219B (zh) 网络数据的计算机处理方法及系统
CN104518905A (zh) 一种故障定位方法及装置
US20150356444A1 (en) Method and system of discovering and analyzing structures of user groups in microblog
CN102722709B (zh) 一种垃圾图片识别方法和装置
CN106778876A (zh) 基于移动用户轨迹相似性的用户分类方法和系统
CN102915373A (zh) 一种数据存储方法和装置
CN105827422B (zh) 一种确定网元告警关联关系的方法及装置
CN104794170A (zh) 基于指纹多重哈希布隆过滤器的网络取证内容溯源方法
CN105471670A (zh) 流量数据分类方法及装置
CN103841096A (zh) 自动调整匹配算法的入侵检测方法
CN103778226A (zh) 构建语言信息识别模型的方法及语言信息识别装置
CN109088903A (zh) 一种基于流式的网络异常流量检测方法
CN105516941A (zh) 一种垃圾短信的拦截方法及装置
CN107045511A (zh) 一种目标特征数据的挖掘方法和装置
CN107645740A (zh) 一种移动监测方法及终端
CN107015993B (zh) 一种用户类型识别方法及装置
US20190149438A1 (en) Data Processing Method and Apparatus
CN105335368A (zh) 一种产品聚类方法及装置
CN108234452B (zh) 一种网络数据包多层协议识别的系统和方法
CN115544519A (zh) 对计量自动化系统威胁情报进行安全性关联分析的方法
CN102801548A (zh) 一种智能预警的方法、装置及信息系统
CN106411704A (zh) 一种分布式垃圾短信识别方法
CN107832611A (zh) 一种动静态特征结合的僵尸程序检测与分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150325

WD01 Invention patent application deemed withdrawn after publication