CN102572745A - 垃圾短消息确定方法及装置 - Google Patents

垃圾短消息确定方法及装置 Download PDF

Info

Publication number
CN102572745A
CN102572745A CN2010106060690A CN201010606069A CN102572745A CN 102572745 A CN102572745 A CN 102572745A CN 2010106060690 A CN2010106060690 A CN 2010106060690A CN 201010606069 A CN201010606069 A CN 201010606069A CN 102572745 A CN102572745 A CN 102572745A
Authority
CN
China
Prior art keywords
short message
broad sense
characteristic vector
numerical characteristic
numeral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010106060690A
Other languages
English (en)
Inventor
卞宁艳
钱庆锋
吴勇
徐盈
吕进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Shanghai Co Ltd
Original Assignee
China Mobile Group Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Shanghai Co Ltd filed Critical China Mobile Group Shanghai Co Ltd
Priority to CN2010106060690A priority Critical patent/CN102572745A/zh
Publication of CN102572745A publication Critical patent/CN102572745A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种垃圾短消息确定方法及装置,该方法包括步骤:从短消息中心中获得待发送的短消息;从该短消息的内容中,识别出所包含的各广义数字,其中广义数字为具有数字含义的字符;根据识别出的各广义数字,确定该短消息对应的数字特征向量;将确定出的数字特征向量和预设的垃圾短消息数字特征向量库中的各垃圾短消息数字特征向量进行匹配;若匹配成功,则确定该短消息为垃圾短消息。采用本发明技术方案,解决了现有技术存在的确定包含数字类信息的垃圾短消息的准确性较低的问题。

Description

垃圾短消息确定方法及装置
技术领域
本发明涉及通信技术领域,尤其涉及一种垃圾短消息确定方法及装置。
背景技术
移动通信中的短消息业务已经成为移动用户之间常用的一种通信方式,由于短消息的快捷与方便,可以通过短消息进行信息交互或信息发布等,移动用户之间相互发送的普通短消息主要用于信息的交流,基本上是两个移动用户或者多个移动用户之间互相发送。
随着短消息成为人们生活当中不可或缺的通信方式,垃圾短消息的问题也逐渐引起社会广泛关注。垃圾短消息主要是利用短消息传播非法或不良信息,其中有很多欺诈、广告、假中奖等垃圾短消息的内容中包含电话号码或银行账号等数字类信息,这些垃圾短消息利用其所包含的数字类信息欺骗广大移动用户,损害人们的经济利益,因此,准确地确定及拦截这些包含数字类信息的垃圾短消息是通信安全技术领域非常重要的环节。
现有技术中,一般通过如下方式确定并拦截垃圾短消息,具体为:首先采用两次散列对短消息内容进行快速过滤,得到“嫌疑短消息”,再对“嫌疑短消息”进行文本预处理,剔除数字、符号、语气词等其认为与语义无关的内容后,将其转化为短语向量,采用贝叶斯和支持向量机两种分类器相结合的方法对“嫌疑短消息”进行判定。
上述方法采用了剔除数字、符号、语气词等其认为与语义无关的内容的语义分析方法,但是针对包含数字类信息的垃圾短消息来说,数字类信息是垃圾短消息内容中相对固定的信息,因此过滤掉数字类信息,就相当于删除了这些垃圾短消息内容的共同特征,使得确定并拦截包含数字类信息的垃圾短消息的准确性较低。
发明内容
本发明实施例提供一种垃圾短消息确定方法及装置,用以解决现有技术存在的确定包含数字类信息的垃圾短消息的准确性较低的问题。
本发明实施例技术方案如下:
一种垃圾短消息确定方法,该方法包括步骤:从短消息中心中获得待发送的短消息;从该短消息的内容中,识别出所包含的各广义数字,其中广义数字为具有数字含义的字符;根据识别出的各广义数字,确定该短消息对应的数字特征向量;将确定出的数字特征向量和预设的垃圾短消息数字特征向量库中的各垃圾短消息数字特征向量进行匹配;若匹配成功,则确定该短消息为垃圾短消息。
一种垃圾短消息确定装置,包括:第一获得单元,用于从短消息中心中获得待发送的短消息;识别单元,用于从第一获得单元获得的该短消息的内容中,识别出所包含的各广义数字,其中广义数字为具有数字含义的字符;第一确定单元,用于根据识别单元识别出的各广义数字,确定该短消息对应的数字特征向量;匹配单元,用于将第一确定单元确定出的数字特征向量和预设的垃圾短消息数字特征向量库中的各垃圾短消息数字特征向量进行匹配;第二确定单元,用于在匹配单元匹配成功时,确定该短消息为垃圾短消息。
本发明实施例技术方案中,首先从短消息中心中获得待发送的短消息,然后从该短消息的内容中,识别出所包含的各广义数字,其中广义数字为具有数字含义的字符,根据识别出的各广义数字,确定该短消息对应的数字特征向量,将确定出的数字特征向量和预设的垃圾短消息数字特征向量库中的各垃圾短消息数字特征向量进行匹配,若匹配成功,则确定该短消息为垃圾短消息,由上可见,本发明实施例在确定垃圾短消息时,将具有数字含义的广义数字从短消息内容中提取出来进行匹配,也就是说根据短消息内容中包含的数字类信息来确定垃圾短消息,这就有效地提高了确定数字类信息的垃圾短消息的准确性。
附图说明
图1为本发明实施例中,垃圾短消息确定方法网络架构示意图;
图2为本发明实施例中,垃圾短消息确定方法流程示意图;
图3为本发明实施例一中,垃圾短消息确定方法具体实现流程示意图;
图4为本发明实施例二中,垃圾短消息确定方法具体实现流程示意图;
图5为本发明实施例中,垃圾短消息确定装置结构示意图。
具体实施方式
下面结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。
如图1所示,为本发明实施例中的垃圾短消息确定方法网络架构图,其中,当用户11作为短消息发送方需要向短消息接收方发送短消息时,用户11需要将该待发送的短消息提交至短消息中心12,该短消息中包含短消息内容、短消息发送方标识以及短消息接收方标识,短消息中心12将接收到的待发送的短消息发送给本发明实施例提出的垃圾短消息确定装置13,垃圾短消息确定装置13确定该待发送的短消息是否为垃圾短消息。
若垃圾短消息确定装置13确定出该待发送的短消息为垃圾短消息,则可以拦截该短消息,即向短消息中心12发送用以指示短消息中心12拦截该短消息的拦截指示消息,若垃圾短消息确定装置13确定出该待发送的短消息为正常短消息,则可以放行该短消息,即向短消息中心12发送用以指示短消息中心12发送该短消息的放行指示消息,若短消息中心12接收到拦截指示消息,则不发送该短消息,若接收到放行指示消息,则发送该短消息。
其中拦截指示消息和放行指示消息中均包含该短消息的短消息标识,短消息中心12接收到拦截指示消息或放行指示消息后,根据其中包含的短消息标识,拦截或发送相应的短消息。
基于上述网络架构,本发明实施例提出一种垃圾短消息确定方法,如图2所示,其具体处理流程如下:
步骤21,垃圾短消息确定装置从短消息中心中获得待发送的短消息;
当用户作为短消息发送方需要向短消息接收方发送短消息时,需要将该待发送的短消息提交至短消息中心,该短消息中包含短消息内容、短消息发送方标识以及短消息接收方标识,短消息中心可以将接收到的待发送的短消息发送给垃圾短消息确定装置,由垃圾短消息确定装置确定是否为垃圾短消息。
步骤22,从该短消息的内容中,识别出所包含的各广义数字,其中广义数字为具有数字含义的字符;
本发明实施例将具有数字含义的字符定义为广义数字,广义数字具有数字含义,但是在短消息内容中存在的格式可能不同,其中,阿拉伯数字(例如1、2、3等)、中文简体数字(例如一、二、三等)、中文繁体数字(例如壹、贰、叁等)、谐音数字、带符号的数字(例如①、②等)、以全角格式或上下标表示的数字等均为广义数字,本发明实施例可以预先建立包含各广义数字的广义数字库,后续可以根据需要随时更新广义数字库。
垃圾短消息确定装置可以直接对该短消息的短消息内容进行广义数字的识别,可选的,垃圾短消息确定装置也可以在进行广义数字的识别之前,对该短消息的短消息内容进行预处理,删除短消息内容所包含的空格字符和标点符号字符。
垃圾短消息确定装置在进行广义数字的识别时,将该短消息的短消息内容与预设的广义数字库中的各广义数字进行匹配,将匹配成功的字符,确定为该短消息的短消息内容所包含的广义数字。例如某条待发送的短消息的短消息内容为“好好学习1二叁”,则对该短消息的短消息内容进行广义数字的识别时,首先依次将“好”、“好”、“学”、“习”分别与广义数字库中的各广义数字进行匹配,匹配结果均为失败,然后将“1”与广义数字库中的各广义数字进行匹配,匹配结果为成功,即广义数字库中包含字符“1”,再将“二”与广义数字库中的各广义数字进行匹配,匹配结果为成功,即广义数字库中包含字符“二”,最后将“叁”与广义数字库中的各广义数字进行匹配,匹配结果为成功,即广义数字库中包含字符“叁”,因此识别出的广义数字为“1”、“二”、“叁”。
步骤23,根据识别出的各广义数字,确定该短消息对应的数字特征向量;
其中,本发明实施例中确定该短消息对应的数字特征向量的具体过程可以但不限于包含下述三种实施情况,具体为:
第一种实施情况,直接将识别出的广义数字组合成该短消息对应的数字特征向量;
例如识别出的广义数字为“1”、“二”、“叁”,则组合成的数字特征向量为{1,二,叁},其中各个广义数字在组成的数字特征向量中的先后顺序可以但不限于与各广义数字在短消息内容中的先后顺序一致;
第二种实施情况,首先在识别出的各广义数字中,将在该短消息的短消息内容中所处的字符位置连续的广义数字,组合为一个广义数字集合,然后在组合出的各广义数字集合中,选择出满足预设条件的广义数字集合,直接将选择出的广义数字集合,组合成该短消息对应的数字特征向量,其中,所述预设条件可以为:该广义数字集合包含的广义数字的数量不小于第一规定阈值;也可以为:在该短消息的短消息内容中,该广义数字集合包含的广义数字的字符,与其它广义数字集合包含的广义数字的字符之间所包含的字符的数量,不小于第二规定阈值;还可以为上述两个条件的结合,即包含的广义数字的数量不小于第一规定阈值,且包含的广义数字的字符与其它广义数字集合包含的广义数字的字符之间所包含的字符的数量不大于第二规定阈值;
例如,第一规定阈值为K=3,第二规定阈值为J=9,待发送的短消息的短消息内容为“好好学习123,天天向上4567”,该短消息内容经预处理后为“好好学习123天天向上456”,当垃圾短消息确定装置识别出广义数字“1”、“2”、“3”后,将“天”与广义数字库中的各广义数字进行匹配,匹配失败,则认为广义数字“1”、“2”、“3”在该短消息的短消息内容中所处的字符位置连续,因此垃圾短消息确定装置将广义数字“1”、“2”、“3”组合成广义数字集合{1,2,3},按照上述方法,垃圾短消息确定装置将广义数字“4”、“5”、“6”、“7”组合成广义数字集合{4,5,6,7},广义数字集合{1,2,3}包含的广义数字的数量为3,不小于第二规定阈值K,广义数字集合{4,5,6,7}包含的广义数字的数量为4,不小于第二规定阈值K,广义数字集合{1,2,3}包含的广义数字的字符“1”、“2”、“3”,与广义数字集合{4,5,6,7}包含的广义数字“4”、“5”、“6”、“7”之间所包含的字符的数量为8(每个汉字占两个字符位置),不大于第二规定阈值J,则垃圾短消息确定装置确定这两个广义数字集合满足预设条件,将这两个广义数字集合组合成该短消息对应的数字特征向量{1,2,3,4,5,6,7},其中在短消息内容中,若广义数字集合{1,2,3}包含的广义数字的字符“1”、“2”、“3”,与广义数字集合{4,5,6,7}包含的广义数字“4”、“5”、“6”、“7”之间所包含的字符的数量大于第二规定阈值J,确定这两个广义数字集合不满足预设条件。
第三种实施情况,首先在识别出的各广义数字中,将在该短消息的短消息内容中所处的字符位置连续的广义数字,组合为一个广义数字集合,然后在组合出的各广义数字集合中,选择出满足预设条件的广义数字集合,根据选择出的广义数字集合,确定该短消息对应的广义数字特征向量,判断所述广义数字特征向量所包含的广义数字的个数是否在第三规定阈值和第四规定阈值之间,其中第三规定阈值不大于第四规定阈值,若判断结果为是,则将所述广义数字特征向量,确定为该短消息对应的数字特征向量。
例如,考虑到目前手机号码一般为11位,不含区号的固定电话号码一般为7~8位,含区号的固定号码一般为11~12位,银行帐号一般为16位,因此可将第三规定阈值M设为7,将第四规定阈值N设为16,按照第二种实施情况中的方法,选择出满足预设条件的广义数字集合{1,2,3}和{4,5,6,7},然后将选择出的广义数字集合,组合成广义数字特征向量{1,2,3,4,5,6,7},该广义数字特征向量所包含的广义数字的个数为7(即该广义数字特征向量的长度为7),在第三规定阈值M和第四规定阈值N之间,因此将广义数字特征向量{1,2,3,4,5,6,7}确定为该短消息对应的数字特征向量,若广义数字特征向量所包含的广义数字的个数为未在第三规定阈值M和第四规定阈值N之间,则垃圾短消息确定装置确定该短消息为正常短消息,向短消息中心发送用以指示短消息中心发送该短消息的放行指示消息,放行指示消息中包含该短消息的短消息标识,短消息中心接收到放行指示消息后,根据其中包含的短消息标识,发送相应的短消息。
步骤24,将确定出的数字特征向量和预设的垃圾短消息数字特征向量库中的各垃圾短消息数字特征向量进行匹配;
本发明实施例中,可以直接将确定出的数字特征向量和预设的垃圾短消息数字特征向量库中的各垃圾短消息数字特征向量进行匹配。
为了减少垃圾短消息数字特征向量库的存储量,也可以将各垃圾短消息数字特征向量包含的各广义数字均转换成预设的、统一的格式,例如均统一转换成阿拉伯数字,垃圾短消息确定装置将确定出的数字特征向量所包含的各广义数字进行格式转换,例如均统一转换成阿拉伯数字。
本发明实施例中,垃圾短消息数字特征向量库中的垃圾短消息数字特征向量是从垃圾短消息中提取出电话号码、银行账号等数字串进行格式转换后组成的,后续可以进行更新。
步骤25,若匹配成功,则确定该短消息为垃圾短消息。
若匹配成功,则垃圾短消息确定装置确定该短消息为垃圾短消息,进而拦截该短消息,即向短消息中心发送用以指示短消息中心拦截该短消息的拦截指示消息,拦截指示消息中包含该短消息的短消息标识,短消息中心接收到拦截指示消息后,根据其中包含的短消息标识,拦截相应的短消息。
若匹配失败,则垃圾短消息确定装置对该短消息的处理可以但不限于包含下述三种实施情况,具体为:
第一种实施情况,垃圾短消息确定装置确定该短消息为正常短消息,向短消息中心发送用以指示短消息中心发送该短消息的放行指示消息,放行指示消息中包含该短消息的短消息标识,短消息中心接收到放行指示消息后,根据其中包含的短消息标识,发送相应的短消息;
第二种实施情况,垃圾短消息确定装置确认该短消息为嫌疑垃圾短消息,该数字特征向量为嫌疑垃圾短消息数字特征向量,该数字特征向量对应的发送数量计数器加1,将该短消息的短消息发送方与该数字特征向量对应的各短消息的短消息发送方进行比较,若比较得到该短消息的短消息发送方与该数字特征向量对应各短消息的短消息发送方相同,则该数字特征向量对应的发送离散度计数器不变,否则该数字特征向量对应的发送离散度计数器加1,从发送数量计数器中获得累计的发送数量,从发送离散度计数器中获得累计的发送离散度,然后判断获得的发送数量是否不小于第五规定阈值,以及获得的发送离散度是否不小于第六规定阈值,若至少一个判断结果为是,则确定该短消息为垃圾短消息,否则确定该短消息为正常短消息。
其中当判断得到获得的发送数量不小于第五规定阈值,以及获得的发送离散度小于第六规定阈值时,确定该短消息为垃圾短消息;或者当判断得到获得的发送数量小于第五规定阈值,以及获得的发送离散度不小于第六规定阈值时,确定该短消息为垃圾短消息;或者当判断得到获得的发送数量不小于第五规定阈值,以及获得的发送离散度不小于第六规定阈值时,确定该短消息为垃圾短消息。即可以只根据发送数量判断嫌疑垃圾短消息是否为垃圾短消息,这就能有效地拦截包含相同数字信息的垃圾短消息;也可以只根据发送离散度判断嫌疑垃圾短消息是否为垃圾短消息,这就能避免同一用户发送大量包含相同数字信息的正常短消息(如改号通知)时被误拦截的问题;更佳地,还可以根据发送数量和发送离散度判断嫌疑垃圾短消息是否为垃圾短消息。
本发明实施例中的各规定阈值可以根据实际情况进行调整。
若垃圾短消息确定装置进一步确定出嫌疑垃圾短消息为垃圾短消息,则可以但不限于将该数字特征向量,确定为垃圾短消息数字特征向量,并存储在所述垃圾短消息数字特征向量库中。
本发明实施例可以在判断出嫌疑垃圾短消息为垃圾短消息后,再向短消息中心发送拦截指示消息或放行指示消息,也可以在数字特征向量匹配不成功时,先向短消息中心发送放行指示消息,即判断嫌疑垃圾短消息是否为垃圾短消息由垃圾短消息确定装置后台完成,不占用短消息中心的等待时间,这就缩短了短消息中心的等待时延,后续在确定出嫌疑垃圾短消息为垃圾短消息后,直接将对应的数字特征向量存储在所述垃圾短消息数字特征向量库中,以便后续对数字特征向量进行匹配,这就有效地提高了确定垃圾短消息的准确性。
由上述处理过程可知,本发明实施例技术方案中,首先从短消息中心中获得待发送的短消息,然后从该短消息的内容中,识别出所包含的各广义数字,其中广义数字为具有数字含义的字符,根据识别出的各广义数字,确定该短消息对应的数字特征向量,将确定出的数字特征向量和预设的垃圾短消息数字特征向量库中的各垃圾短消息数字特征向量进行匹配,若匹配成功,则确定该短消息为垃圾短消息,由上可见,本发明实施例在确定垃圾短消息时,将具有数字含义的广义数字从短消息内容中提取出来进行匹配,也就是说根据短消息内容中包含的数字类信息来确定垃圾短消息,这就有效地提高了确定数字类信息的垃圾短消息的准确性。
下面给出更为详细的实施方式。
如图3所示,为本发明实施例一中垃圾短消息确定方法具体实现流程图,其具体处理流程如下:
步骤31,用户发送短消息到短消息中心,短消息中心将该短消息发送给垃圾短消息确定装置;
步骤32,垃圾短消息确定装置对该短消息进行预处理,删除空格字符和标点符号字符;
步骤33,垃圾短消息确定装置将该短消息的短消息内容与广义数字库中的各广义数字匹配,识别出所包含的广义数字;
步骤34,将识别出的广义数字组合为各广义数字集合,具体为:在识别出的各广义数字中,将在该短消息的短消息内容中所处的字符位置连续的广义数字,组合为一个广义数字集合;
步骤35,在组合出的各广义数字集合中,选择出满足预设条件广义数字集合,具体为:选择包含的广义数字的数量不小于第一规定阈值,且包含的广义数字的字符与其它广义数字集合包含的广义数字的字符之间所包含的字符的数量不大于第二规定阈值的广义数字集合;
步骤36,将选择出的广义数字集合,组成该短消息对应的广义数字特征向量;
步骤37,判断组成的广义数字特征向量的长度是否在第三规定阈值和第四规定阈值之间,若判断结果为是,则转至步骤38,若判断结果为否,则转至步骤317;
步骤38,将该广义数字特征向量确定为该短消息对应的数字特征向量;
步骤39,将该数字特征向量所包含的各广义数字进行格式转换;
步骤310,将该数字特征向量和预设的垃圾短消息数字特征向量库中的各垃圾短消息数字特征向量进行匹配,若匹配成功,则转至步骤315,若匹配失败,则转至步骤311;
步骤311,该数字特征向量对应的发送数量计数器1;
步骤312,判断该短消息的短消息发送方是否与该数字特征向量对应的各短消息的短消息发送方相同,若相同,则发送离散度计数器保持不变,若不同,则发送离散度计数器加1;
步骤313,判断发送数量计数器累加的发送数量是否不小于第五规定阈值,以及发送离散度计数器累加的发送离散度是否不小于第六规定阈值,若判断结果为是,则转至步骤314,若判断结果为否,则转至步骤317;
步骤314,将该数字特征向量确定为垃圾短消息数字特征向量,并存储在垃圾短消息数字特征向量库中;
步骤315,确定该短消息为垃圾短消息;
步骤316,向短消息中心发送拦截指示消息;
步骤317,确定该短消息为正常短消息;
步骤318,向短消息中心发送放行指示消息。
如图4所示,为本发明实施例二中垃圾短消息确定方法具体实现流程图,其具体处理流程如下:
步骤41,用户发送短消息到短消息中心,短消息中心将该短消息发送给垃圾短消息确定装置;
步骤42,垃圾短消息确定装置对该短消息进行预处理,删除空格字符和标点符号字符;
步骤43,垃圾短消息确定装置将该短消息的短消息内容与广义数字库中的各广义数字匹配,识别出包含的广义数字;
步骤44,将识别出的广义数字组合为各广义数字集合,具体为:在识别出的各广义数字中,将在该短消息的短消息内容中所处的字符位置连续的广义数字,组合为一个广义数字集合;
步骤45,在组合出的各广义数字集合中,选择出满足预设条件广义数字集合,具体为:选择包含的广义数字的数量不小于第一规定阈值,且包含的广义数字的字符与其它广义数字集合包含的广义数字的字符之间所包含的字符的数量不大于第二规定阈值的广义数字集合;
步骤46,将选择出的广义数字集合,组成该短消息对应的广义数字特征向量;
步骤47,判断组成的广义数字特征向量的长度是否在第三规定阈值和第四规定阈值之间,若判断结果为是,则转至步骤48,若判断结果为否,则转至步骤413;
步骤48,将该广义数字特征向量确定为该短消息对应的数字特征向量;
步骤49,将该数字特征向量所包含的各广义数字进行格式转换;
步骤410,将该数字特征向量和预设的垃圾短消息数字特征向量库中的各垃圾短消息数字特征向量进行匹配,若匹配成功,则转至步骤411,若匹配失败,则转至步骤413;
步骤411,确定该短消息为垃圾短消息;
步骤412,向短消息中心发送拦截指示消息;
步骤413,确定该短消息为正常短消息;
步骤414,向短消息中心发送放行指示消息。
步骤415,该数字特征向量对应的发送数量计数器1;
步骤416,判断该短消息的短消息发送方是否与该数字特征向量对应的各短消息的短消息发送方相同,若相同,则发送离散度计数器保持不变,若不同,则发送离散度计数器加1;
步骤417,判断发送数量计数器累加的发送数量是否不小于第五规定阈值,以及发送离散度计数器累加的发送离散度是否不小于第六规定阈值;
步骤418,若步骤417判断结果为是,则将该数字特征向量确定为垃圾短消息数字特征向量,并存储在垃圾短消息数字特征向量库中。
相应的,本发明实施例还提供一种垃圾短消息确定装置,其结构如图5所示,包括第一获得单元51、识别单元52、第一确定单元53、匹配单元54和第二确定单元55,其中:
第一获得单元51,用于从短消息中心中获得待发送的短消息;
识别单元52,用于从第一获得单元51获得的该短消息的内容中,识别出所包含的各广义数字,其中广义数字为具有数字含义的字符;
第一确定单元53,用于根据识别单元52识别出的各广义数字,确定该短消息对应的数字特征向量;
匹配单元54,用于将第一确定单元53确定出的数字特征向量和预设的垃圾短消息数字特征向量库中的各垃圾短消息数字特征向量进行匹配;
第二确定单元55,用于在匹配单元54匹配成功时,确定该短消息为垃圾短消息。
较佳地,所述垃圾短消息确定装置还包括预处理单元,用于在识别单元52识别出所包含的各广义数字之前,对该短消息的内容进行预处理,删除所包含的空格字符和标点符号字符。
较佳地,识别单元52具体包括匹配子单元和第一确定子单元,其中:
匹配子单元,用于将第一获得单元51获得的该短消息的内容与预设的广义数字库中的各广义数字进行匹配;
第一确定子单元,用于将匹配子单元匹配成功的字符,确定为该短消息的内容所包含的各广义数字。
较佳地,第一确定单元53具体包括组合子单元、选择子单元、第二确定子单元,其中:
组合子单元,用于在识别单元52识别出的各广义数字中,将在该短消息的内容中所处的字符位置连续的广义数字,组合为一个广义数字集合;
选择子单元,用于在组合子单元组合出的各广义数字集合中,选择出满足预设条件的广义数字集合;
第二确定子单元,用于根据选择子单元选择出的广义数字集合,确定该短消息对应的数字特征向量。
更佳地,所述预设条件为下述条件中的至少一种:
该广义数字集合包含的广义数字的数量不小于第一规定阈值;
在该短消息的内容中,该广义数字集合包含的广义数字的字符,与其它广义数字集合包含的广义数字的字符之间所包含的字符的数量,不大于第二规定阈值。
更佳地,第二确定子单元具体包括第一确定模块、判断模块和第二确定模块,其中:
第一确定模块,用于根据选择子单元选择出的广义数字集合,确定该短消息对应的广义数字特征向量;
判断模块,用于判断所述广义数字特征向量所包含的广义数字的个数是否在第三规定阈值和第四规定阈值之间,其中第三规定阈值不大于第四规定阈值;
第二确定模块,用于在判断模块的判断结果为是时,将所述广义数字特征向量,确定为该短消息对应的数字特征向量。
较佳地,所述垃圾短消息确定装置还包括转换单元,用于在匹配单元54将第一确定单元53确定出的数字特征向量和各垃圾短消息对应的数字特征向量进行匹配之前,将第一确定单元53确定出的数字特征向量所包含的各广义数字进行格式转换,转换为预设格式的广义数字。
较佳地,所述垃圾短消息确定装置还包括发送单元,用于在第二确定单元55确定出该短消息为垃圾短消息后,向短消息中心发送用以指示短消息中心拦截该短消息的拦截指示消息。
较佳地,所述垃圾短消息确定装置还包括第二获得单元、第三获得单元、判断单元和第三确定单元,其中:
第二获得单元,用于在匹配单元54匹配失败时,从发送数量计数器中获得累计的、该数字特征向量对应的短消息的发送数量,其中当该数字特征向量匹配失败时,发送数量计数器加1;
第三获得单元,用于从发送离散度计数器中获得累计的、该短消息的短消息发送方的发送离散度,其中当该数字特征向量匹配失败时,若该短消息的短消息发送方与该数字特征向量对应的各短消息的短消息发送方不相同,则发送离散度计数器加1;
判断单元,用于判断第二获得单元获得的发送数量是否不小于第五规定阈值,以及第三获得单元获得的发送离散度是否不小于第六规定阈值;
第三确定单元,用于在判断单元的至少一个判断结果为是时,确定该短消息为垃圾短消息,否则确定该短消息为正常短消息。
更佳地,所述垃圾短消息确定装置还包括第四确定单元和存储单元,其中:
第四确定单元,用于在第三确定单元确定出该短消息为垃圾短消息时,将该数字特征向量,确定为垃圾短消息数字特征向量;
存储单元,用于将该数字特征向量存储在所述垃圾短消息数字特征向量库中。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (20)

1.一种垃圾短消息确定方法,其特征在于,包括:
从短消息中心中获得待发送的短消息;
从该短消息的内容中,识别出所包含的各广义数字,其中广义数字为具有数字含义的字符;
根据识别出的各广义数字,确定该短消息对应的数字特征向量;
将确定出的数字特征向量和预设的垃圾短消息数字特征向量库中的各垃圾短消息数字特征向量进行匹配;
若匹配成功,则确定该短消息为垃圾短消息。
2.如权利要求1所述的垃圾短消息确定方法,其特征在于,在识别出所包含的各广义数字之前,还包括:
对该短消息的内容进行预处理,删除所包含的空格字符和标点符号字符。
3.如权利要求1所述的垃圾短消息确定方法,其特征在于,从该短消息的内容中,识别出所包含的各广义数字,具体包括:
将该短消息的内容与预设的广义数字库中的各广义数字进行匹配;
将匹配成功的字符,确定为识别出的各广义数字。
4.如权利要求1所述的垃圾短消息确定方法,其特征在于,根据识别出的各广义数字,确定该短消息对应的数字特征向量,具体包括:
在识别出的各广义数字中,将在该短消息的内容中所处的字符位置连续的广义数字,组合为一个广义数字集合;
在组合出的各广义数字集合中,选择出满足预设条件的广义数字集合;
根据选择出的广义数字集合,确定该短消息对应的数字特征向量。
5.如权利要求4所述的垃圾短消息确定方法,其特征在于,所述预设条件为下述条件中的至少一种:
该广义数字集合包含的广义数字的数量不小于第一规定阈值;
在该短消息的内容中,该广义数字集合包含的广义数字的字符,与其它广义数字集合包含的广义数字的字符之间所包含的字符的数量,不大于第二规定阈值。
6.如权利要求4所述的垃圾短消息确定方法,其特征在于,根据选择出的广义数字集合,确定该短消息对应的数字特征向量,具体包括:
根据选择出的广义数字集合,确定该短消息对应的广义数字特征向量;
判断所述广义数字特征向量所包含的广义数字的个数是否在第三规定阈值和第四规定阈值之间,其中第三规定阈值不大于第四规定阈值;
若判断结果为是,则将所述广义数字特征向量,确定为该短消息对应的数字特征向量。
7.如权利要求1所述的垃圾短消息确定方法,其特征在于,在将确定出的数字特征向量和各垃圾短消息对应的数字特征向量进行匹配之前,还包括:
将确定出的数字特征向量所包含的各广义数字进行格式转换,转换为预设格式的广义数字。
8.如权利要求1所述的垃圾短消息确定方法,其特征在于,在确定该短消息为垃圾短消息后,还包括:
向短消息中心发送用以指示短消息中心拦截该短消息的拦截指示消息。
9.如权利要求1所述的垃圾短消息确定方法,其特征在于,还包括:
若匹配失败,则从发送数量计数器中获得累计的、该数字特征向量对应的短消息的发送数量,其中当该数字特征向量匹配失败时,发送数量计数器加1;
从发送离散度计数器中获得累计的、该短消息的短消息发送方的发送离散度,其中当该数字特征向量匹配失败时,若该短消息的短消息发送方与该数字特征向量对应的各短消息的短消息发送方不相同,则发送离散度计数器加1;
判断获得的发送数量是否不小于第五规定阈值,以及获得的发送离散度是否不小于第六规定阈值;
若至少一个判断结果为是,则确定该短消息为垃圾短消息;否则
确定该短消息为正常短消息。
10.如权利要求9所述的垃圾短消息确定方法,其特征在于,确定该短消息为垃圾短消息后,还包括:
将确定出的该数字特征向量,确定为垃圾短消息数字特征向量;并
将该数字特征向量存储在所述垃圾短消息数字特征向量库中。
11.一种垃圾短消息确定装置,其特征在于,包括:
第一获得单元,用于从短消息中心中获得待发送的短消息;
识别单元,用于从第一获得单元获得的该短消息的内容中,识别出所包含的各广义数字,其中广义数字为具有数字含义的字符;
第一确定单元,用于根据识别单元识别出的各广义数字,确定该短消息对应的数字特征向量;
匹配单元,用于将第一确定单元确定出的数字特征向量和预设的垃圾短消息数字特征向量库中的各垃圾短消息数字特征向量进行匹配;
第二确定单元,用于在匹配单元匹配成功时,确定该短消息为垃圾短消息。
12.如权利要求11所述的垃圾短消息确定装置,其特征在于,还包括:
预处理单元,用于在识别单元识别出所包含的各广义数字之前,对该短消息的内容进行预处理,删除所包含的空格字符和标点符号字符。
13.如权利要求11所述的垃圾短消息确定装置,其特征在于,识别单元具体包括:
匹配子单元,用于将第一获得单元获得的该短消息的内容与预设的广义数字库中的各广义数字进行匹配;
第一确定子单元,用于将匹配子单元匹配成功的字符,确定为该短消息的内容所包含的各广义数字。
14.如权利要求11所述的垃圾短消息确定装置,其特征在于,第一确定单元具体包括:
组合子单元,用于在识别单元识别出的各广义数字中,将在该短消息的内容中所处的字符位置连续的广义数字,组合为一个广义数字集合;
选择子单元,用于在组合子单元组合出的各广义数字集合中,选择出满足预设条件的广义数字集合;
第二确定子单元,用于根据选择子单元选择出的广义数字集合,确定该短消息对应的数字特征向量。
15.如权利要求14所述的垃圾短消息确定装置,其特征在于,所述预设条件为下述条件中的至少一种:
该广义数字集合包含的广义数字的数量不小于第一规定阈值;
在该短消息的内容中,该广义数字集合包含的广义数字的字符,与其它广义数字集合包含的广义数字的字符之间所包含的字符的数量,不大于第二规定阈值。
16.如权利要求14所述的垃圾短消息确定装置,其特征在于,第二确定子单元具体包括:
第一确定模块,用于根据选择子单元选择出的广义数字集合,确定该短消息对应的广义数字特征向量;
判断模块,用于判断所述广义数字特征向量所包含的广义数字的个数是否在第三规定阈值和第四规定阈值之间,其中第三规定阈值不大于第四规定阈值;
第二确定模块,用于在判断模块的判断结果为是时,将所述广义数字特征向量,确定为该短消息对应的数字特征向量。
17.如权利要求11所述的垃圾短消息确定装置,其特征在于,还包括:
转换单元,用于在匹配单元将第一确定单元确定出的数字特征向量和各垃圾短消息对应的数字特征向量进行匹配之前,将第一确定单元确定出的数字特征向量所包含的各广义数字进行格式转换,转换为预设格式的广义数字。
18.如权利要求11所述的垃圾短消息确定装置,其特征在于,还包括:
发送单元,用于在第二确定单元确定出该短消息为垃圾短消息后,向短消息中心发送用以指示短消息中心拦截该短消息的拦截指示消息。
19.如权利要求11所述的垃圾短消息确定装置,其特征在于,还包括:
第二获得单元,用于在匹配单元匹配失败时,从发送数量计数器中获得累计的、该数字特征向量对应的短消息的发送数量,其中当该数字特征向量匹配失败时,发送数量计数器加1;
第三获得单元,用于从发送离散度计数器中获得累计的、该短消息的短消息发送方的发送离散度,其中当该数字特征向量匹配失败时,若该短消息的短消息发送方与该数字特征向量对应的各短消息的短消息发送方不相同,则发送离散度计数器加1;
判断单元,用于判断第二获得单元获得的发送数量是否不小于第五规定阈值,以及第三获得单元获得的发送离散度是否不小于第六规定阈值;
第三确定单元,用于在判断单元的至少一个判断结果为是时,确定该短消息为垃圾短消息,否则确定该短消息为正常短消息。
20.如权利要求19所述的垃圾短消息确定装置,其特征在于,还包括:
第四确定单元,用于在第三确定单元确定出该短消息为垃圾短消息时,将该数字特征向量,确定为垃圾短消息数字特征向量;
存储单元,用于将该数字特征向量存储在所述垃圾短消息数字特征向量库中。
CN2010106060690A 2010-12-24 2010-12-24 垃圾短消息确定方法及装置 Pending CN102572745A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010106060690A CN102572745A (zh) 2010-12-24 2010-12-24 垃圾短消息确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010106060690A CN102572745A (zh) 2010-12-24 2010-12-24 垃圾短消息确定方法及装置

Publications (1)

Publication Number Publication Date
CN102572745A true CN102572745A (zh) 2012-07-11

Family

ID=46416971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010106060690A Pending CN102572745A (zh) 2010-12-24 2010-12-24 垃圾短消息确定方法及装置

Country Status (1)

Country Link
CN (1) CN102572745A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102761872A (zh) * 2012-08-01 2012-10-31 成都四方信息技术有限公司 一种垃圾短信拦截方法
CN104184653A (zh) * 2014-07-28 2014-12-03 小米科技有限责任公司 一种消息过滤的方法和装置
CN105320691A (zh) * 2014-07-30 2016-02-10 腾讯科技(深圳)有限公司 一种账号信息的识别方法及装置
CN105404670A (zh) * 2015-11-16 2016-03-16 北京奇虎科技有限公司 骚扰短信判别方法及装置
CN105589846A (zh) * 2015-12-22 2016-05-18 北京奇虎科技有限公司 一种识别数字语义的方法、检测短信类别的方法及装置
CN106815242A (zh) * 2015-11-30 2017-06-09 腾讯科技(深圳)有限公司 文本资源数据检测方法和装置
CN107690130A (zh) * 2016-08-03 2018-02-13 中国移动通信集团公司 一种信息识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050005853A (ko) * 2003-07-07 2005-01-15 엘지전자 주식회사 휴대단말기의 스팸 메시지 관리장치 및 방법
CN101075981A (zh) * 2006-08-18 2007-11-21 腾讯科技(深圳)有限公司 一种信息过滤的方法及装置
CN101815262A (zh) * 2010-04-13 2010-08-25 深圳市五巨科技有限公司 一种移动终端垃圾短信息屏蔽方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050005853A (ko) * 2003-07-07 2005-01-15 엘지전자 주식회사 휴대단말기의 스팸 메시지 관리장치 및 방법
CN101075981A (zh) * 2006-08-18 2007-11-21 腾讯科技(深圳)有限公司 一种信息过滤的方法及装置
CN101815262A (zh) * 2010-04-13 2010-08-25 深圳市五巨科技有限公司 一种移动终端垃圾短信息屏蔽方法和装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102761872A (zh) * 2012-08-01 2012-10-31 成都四方信息技术有限公司 一种垃圾短信拦截方法
CN104184653A (zh) * 2014-07-28 2014-12-03 小米科技有限责任公司 一种消息过滤的方法和装置
CN105320691A (zh) * 2014-07-30 2016-02-10 腾讯科技(深圳)有限公司 一种账号信息的识别方法及装置
CN105404670A (zh) * 2015-11-16 2016-03-16 北京奇虎科技有限公司 骚扰短信判别方法及装置
CN105404670B (zh) * 2015-11-16 2018-09-25 北京奇虎科技有限公司 骚扰短信判别方法及装置
CN106815242A (zh) * 2015-11-30 2017-06-09 腾讯科技(深圳)有限公司 文本资源数据检测方法和装置
CN105589846A (zh) * 2015-12-22 2016-05-18 北京奇虎科技有限公司 一种识别数字语义的方法、检测短信类别的方法及装置
CN105589846B (zh) * 2015-12-22 2018-07-31 北京奇虎科技有限公司 一种识别数字语义的方法、检测短信类别的方法及装置
CN107690130A (zh) * 2016-08-03 2018-02-13 中国移动通信集团公司 一种信息识别方法及系统

Similar Documents

Publication Publication Date Title
CN102572745A (zh) 垃圾短消息确定方法及装置
CN101534261B (zh) 一种垃圾消息的识别方法、装置和系统
CN101888445A (zh) 一种引进查询软件的综合性短信过滤方法
CN102968439B (zh) 一种推送微博的方法及装置
CN102088697A (zh) 垃圾短信的处理方法和系统
CN103067896B (zh) 垃圾短信过滤方法及装置
CN101257671A (zh) 基于内容的大规模垃圾短信实时过滤方法
CN101335920B (zh) 基于主叫号码位置和发送内容的垃圾短消息识别系统及方法
CN104462509A (zh) 垃圾评论检测方法及装置
CN101938565A (zh) 短信处理方法及移动终端
CN102801859A (zh) 垃圾短信的识别方法、装置和具有该装置的移动通信终端
CN102761872A (zh) 一种垃圾短信拦截方法
CN102833411A (zh) 基于双音多频的信息处理方法及系统、接收终端
CN105704685A (zh) 一种短信安全处理方法及装置
CN102083009A (zh) 数据信息发送方法及装置
CN104994209A (zh) 基于通讯软件聊天记录的联系人信息获取方法及系统
CN102801866A (zh) 一种移动终端的短信群发方法
CN106649338B (zh) 信息过滤策略生成方法及装置
CN103279483B (zh) 一种面向微博客的话题流行范围评估方法及系统
CN101389085A (zh) 基于发送行为的垃圾短消息识别系统及方法
CN105721539B (zh) 一种基于行为特征的短信分类装置及方法
CN103139730B (zh) 用于识别大量号码低频发送垃圾短信情况的方法
CN104360988A (zh) 中文字符的编码方式的识别方法和装置
KR20060087735A (ko) 개선된 스팸성 메시지 필터링을 제공하는 시스템 및 방법
CN105430623A (zh) Rcs垃圾消息的监控方法、装置及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120711