CN104602206A

CN104602206A - 一种垃圾短信识别方法与系统

Info

Publication number: CN104602206A
Application number: CN201410854776.XA
Authority: CN
Inventors: 黃筱芬; 夏天; 高金容; 曾斯生; 胡玉龙
Original assignee: SHANGHAI DAHAN TRICOM COMMUNICATION Co Ltd
Current assignee: SHANGHAI DAHAN TRICOM COMMUNICATION Co Ltd
Priority date: 2014-12-31
Filing date: 2014-12-31
Publication date: 2015-05-06

Abstract

本发明公开了一种垃圾短信识别方法和系统，检索垃圾短信关键词时以字为单位，实现了从数量众多的有序规则中包含的数量庞大的关键词的处理，简化到有限的字的处理，通过在关键词库数据结构中逐层匹配得到关键词，短信中关键词的查找借助根据关键词构造的哈希森林，深度仅有1～2层，每一层代表所有需要检索的关键词组的字，层内采用哈希查找，查找出目标关键词后再根据有序规则数据结构判断关键词是否依次满足预置规则的关键词组合内容与要求的顺序，由于算法时间复杂度仅与哈希森林的平均深度有关，所以可以在规则多且复杂、关键词数量众多的情况下保证算法时间复杂度为常数，从而实现了快速地对短信中的垃圾短信进行识别。

Description

一种垃圾短信识别方法与系统

技术领域

本发明涉及短信识别领域，特别是涉及一种垃圾短信识别方法与系统。

背景技术

随着短信业务的发展，手机用户受到越来越多垃圾短信的骚扰。2014年下半年手机短消息状况调查报告显示，用户平均每周收到垃圾短信11.4条，收到垃圾短消息占全部短消息的比例为22.6％。

由于利益驱动，短信业务被发展成了廉价的广告平台，由于立法滞后，手机实名制没有实际应用，由于服务提供商SP行业缺乏自律，移动运营商对SP监管不严格，垃圾短信的量逐渐增加。

目前，垃圾短信识别技术大致可分为两类，基于语义的垃圾短信识别技术和基于关键词匹配的垃圾短信识别技术，其中，基于关键词匹配的垃圾短信识别技术是目前主要采用的识别技术，但随着关键词数量以及逻辑关系复杂度的提高，短信识别速度很难提升。

发明内容

有鉴于此，本发明提供一种垃圾短信识别方法与系统，可以快速识别垃圾短信。

为实现上述目的，本发明提供一种垃圾短信识别方法，包括：

步骤A：在短信中未被确定为关键词的各个字符中，按顺序选择一个作为目标检测字；

步骤B：在预先设置的各个关键词组中，判断是否具有一个首字符与所述目标检测字一致的关键词组，如果否，则返回步骤A，直至检测完所述短信的各个字符；如果是，则执行步骤C；

步骤C：通过对根据所述关键词构造的哈希森林判断所述短信中是否具有与目标关键词组一致的词组，如果是，则将所述词组作为待组合关键词组，并返回步骤A，直至检测完所述短信的各个字符；否则，返回步骤A，直至检测完所述短信的各个字符；其中，所述目标关键词组为步骤B中所确定的首字符与所述目标检测字一致的关键词组，所述哈希森林的每一层包含组成所述关键词的字，所述每一层内采用哈希查找；

当检测得到待组合关键词组时，判断各个待组合关键词组的组合是否符合预置的规则，如果是，则确定所述短信为垃圾短信。

优选地，所述预置的规则包含关键词组及其组合顺序。

优选地，所述预置的规则有多条。

优选地，每条所述预置的规则具有相对应的标志。

优选地，确定所述短信为垃圾短信后还包括：

确定所述垃圾短信对应的所述预置的规则的标志。

本发明还提供了一种垃圾短信识别系统，包括：

选择模块，用于在短信中未被确定为关键词的各个字符中，按顺序选择一个作为目标检测字；

第一判断模块，用于在预先设置的各个关键词组中，判断是否具有一个首字符与所述目标检测字一致的关键词组；

第二判断模块，用于判断所述短信中是否具有与目标关键词组一致的词组；

第三判断模块，用于当检测得到待组合关键词组时，判断各个待组合关键词组的组合是否符合预置的规则；

第一确定模块，用于确定所述短信为垃圾短信。

优选地，所述垃圾短信识别系统还包括：

第二确定模块，用于确定所述垃圾短信对应的所述预置的规则的标志。

应用本发明提供的一种垃圾短信识别方法和系统，检索垃圾短信关键词时以字为单位，实现了从数量众多的有序规则中包含的数量庞大的关键词的处理，简化到有限的字的处理，通过在关键词库数据结构中逐层匹配得到关键词，短信中关键词的查找借助根据关键词构造的哈希森林，深度仅有1～2层，每一层代表所有需要检索的关键词组的字，层内采用哈希查找，查找出目标关键词后再根据有序规则数据结构判断关键词是否依次满足预置规则的关键词组合内容与要求的顺序，由于算法时间复杂度仅与哈希森林的平均深度有关，所以可以在规则多且复杂、关键词数量众多的情况下保证算法时间复杂度为常数，从而实现了快速地对短信中的垃圾短信进行识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明一种垃圾短信识别方法实施例的流程图；

图2为本发明实施例的示意图；

图3为本发明实施例的又一示意图；

图4为本发明实施例的又一示意图；

图5为本发明实施例的又一示意图；

图6为本发明实施例的又一示意图；

图7为本发明实施例的又一示意图；

图8为本发明实施例的又一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种垃圾短信识别方法，一种具体实施例，具体包括：

应用本发明提供的一种垃圾短信识别方法，检索垃圾短信关键词时以字为单位，实现了从数量众多的有序规则中包含的数量庞大的关键词的处理，简化到有限的字的处理，通过在关键词库数据结构中逐层匹配得到关键词，短信中关键词的查找借助根据关键词构造的哈希森林，深度仅有1～2层，每一层代表所有需要检索的关键词组的字，层内采用哈希查找，查找出目标关键词后再根据有序规则数据结构判断关键词是否依次满足预置规则的关键词组合内容与要求的顺序，由于算法时间复杂度仅与哈希森林的平均深度有关，所以可以在规则多且复杂、关键词数量众多的情况下保证算法时间复杂度为常数，从而实现了快速地对短信中的垃圾短信进行识别。

本发明的又一具体实施方法，如图1所示，为本实施例的流程图，先进行垃圾短信关键词的识别，如图中虚线左边所示，再进行有序规则的识别，如图中虚线右边所示，综合识别出垃圾短信，基于关键词库数据结构与有序规则数据结构，如有序规则：(司|需要|如需|代理|优惠)&(发|FA|Fa|fa|發)&(票|漂|剽|piao)&(13|15|18|联系)，如图2所示，虚线上方为本实施例关键词库数据结构，虚线下方为本实施例有序规则数据结构。

关键词库数据结构把关键词分解为字的组合，并按从上到下的顺序排列，同一层内的相同字的合并，这样可以：使层内的检索数据量大大减少；首层汉字数，不超过汉语总字数，一般垃圾短信关键词的首字的不同字数不超过1000个；其他层分支的字数很少，一般不超过10个，如图2中，首字为“中”的关键词分支，在第二层仅有2个不同字；总层数(即深度)很小，据统计，最高不超过10层，平均层数(深度)不超过2层，这使得每次检索的平均查找次数不超过2次。

有序规则数据结构每一条规则都是由“并且”连接的若干条件组成，这些“并且”关系体现出逻辑关系的“有序”，即短信必须符合第一个括号的逻辑关系后，才能判断是否符合第二个括号里的逻辑关系，以此类推，直到符合最后一个括号里的逻辑关系时，方可判定该短信符合一条规则。

为了实现有序，有序规则数据结构首先给每条规则定义一个代码，如图3所示，为有序规则的编码示意图，第一个括号由代码的个位表示，第二个括号由代码的十位表示，以此类推。每当符合一个括号的逻辑关系时，就把关键词所对应的代码为置“1”，表示符合该括号的逻辑关系；代码的数位体现出有序，当符合第一个逻辑关系时，代码＝1；当符合第二个逻辑关系是代码＝11，以此类推，当符合最后一个逻辑关系是，代码＝1111；每个数位都是1的代码就是短信符合的规则。每个括号的逻辑关系是由“或者”连接的关键词，即短信中只要包含括号中任何一个关键词，短信就符合这个括号的逻辑关系，据此可以以关键词为索引生成新的有序规则数据结构。

关键词识别流程如下，

Step1：从短信第一个字开始，逐字分析；

Step2：判断该字是否在关键词库数据结构的第一层出现，如果否则转Step8；

Step3：进入首层匹配到的字的下层，判断短信中从该字起第二字是否在第二层出现，如果否则转Step8；

Step4：进入第二层匹配到的字的下层，判断短信中从该字起第三字是否在第三层出现，如果否则转Step8；

Step5：以此类推(假设共判断了i次，底层也是第i层)；

Step6：到达底层，判断短信中从该字起第i字是否在底层出现，如果否则转Step8；

Step7：若底层也匹配到，则得出结论：短信中出现了从第1层到第i层，分别匹配到的字所组成的关键词；

Step8：判断是否已经处理到短信最后一个字，是则结束，确定不是垃圾短信，否则开始处理下一个字，并转到Step2。

当关键词识别流程中匹配到一个关键词时，有序规则识别流程如下：

Step1：由于规则中有重复的关键词，因此匹配到的关键词可能对应多个规则，对于每一条规则，执行下面的步骤；

Step2：假设关键词对应的规则中包括第r个规则Rule(r)，该关键词出现在Rule(r)的第p个括号中；

Step3：判断第p个括号前的括号中的逻辑关系是否已满足，方法是：判断规则Rule(r)对应的代码的最低p-1位是否全为1，即判断代码是否等于p-1个1。如果否，则说明虽然匹配到的关键词使第p个括号的逻辑关系满足，但由于前面括号逻辑关系尚不满足，不符合“有序”，只能放弃。此时，转step6；

Step4：如果Step3的判断为是，则判断p是否为最后一个括号，如果是，说明所有括号的逻辑关系已经满足。短信符合规则Rule(r)，算法返回规则Rule(r)的ID；；

Step5：如果Step4的判断为否，则设置规则Rule(r)代码第p位为“1”。记录该括号逻辑关系已经满足；

Step6：如果匹配到的关键词对应的规则还没有分析完，则开始分析关键词对应的其他规则，

如图4所示，为本实施例的各预设置有序规则，每一条规则都是由“并且”连接的若干条件组成，这些“并且”关系体现出逻辑关系的“有序”，即短信必须符合第一个括号的逻辑关系后，才能判断是否符合第二个括号里的逻辑关系，以此类推，直到符合最后一个括号里的逻辑关系时，方可判定该短信符合一条规则。

传统上，关键词库及其检索方向如图5所示，本实施例的关键词与检索方向如图6所示，以这种方向检索还能够让不同字数的关键词一同检索，省去了多次分类检索的麻烦。为了便于计算机运算，进一步分解为图7所示，合并同一层中相同的字，如图8所示。

本实施例的垃圾短信识别方法，具有以下优点：

1.采用字作为最小分析粒度

在检索关键词时，不再以词为单位检索，而是以字为单位。这体现在“关键词库数据结构”中，它简化的关键词库。词是数量庞大的，但字只有六千多个，且垃圾短信关键词中的字仅有1000多个。这种检索技术实现了从数量众多的有序规则中包含的数量庞大的关键词的处理，到有限的字的处理，从而实现算法时间复杂度的有效控制。

2.采用哈希森林的数据结构，组织有序规则中所有的关键词。

“关键词库数据结构”实际上是一个哈希森林的数据结构，检索过程从逐词的查找，编程关键词中的字的查找，这使得检索过程扁平化。

每次检索过程所需平均查找次数等于“关键词库数据结构”这个哈希森林的平均深度，即1～2次。

3.检索过程中的每次查找复杂度降为最低。

判断关键词中的“字”是否存在是一个查找问题，本实施例技术采用以字为粒度的哈希算法，将一次复杂的查找算法简化为对一个长度为1000左右的字哈希表查找,即计算一个哈希函数的值，这是一个极小的常数。

4.采用编码实现规则中括号间的“与”运算(“并且”关系的运算)。

规则是一系列逻辑表达式的组合，本实施例技术使用编码的算法，将策略形式化地表示为一个个编码，并在算法进程中根据推理结论不断更新编码，从而在判断规则是否成立时，无需进行复杂的逻辑运算，而是判断编码是否为全1。

这种使得逻辑运算的复杂度也成为一个常数o(1)。

5.采用编码实现规则的“有序”判断。

本实施例能够实现：短信必须“依次”满足规则中“与”符号连接的括号的逻辑关系。

本实施例技术将这种“依次”满足的算法要求隐含编码中，使得模块在推理判断时自然地考虑到了这种“依次”满足的要求，从而无需再次对这种“依次”满足进行算法处理。

综上所述，本发明的垃圾短信识别方法可以使原本复杂且会随着规则的增长或关键词数量的增加而时间复杂度级数增长的复杂识别方法，简化为：与规则数量无关、与规则中关键词数量无关、与规则复杂度无关的算法时间复杂度为常数的高效算法，可以使分析速度不低于五千万条/小时。

本发明还提供了一种垃圾短信识别系统，一种实施例具体包括：

第一确定模块，用于确定所述短信为垃圾短信。

应用本发明提供的一种垃圾短信识别系统，检索垃圾短信关键词时以字为单位，实现了从数量众多的有序规则中包含的数量庞大的关键词的处理，简化到有限的字的处理，通过在关键词库数据结构中逐层匹配得到关键词，短信中关键词的查找借助根据关键词构造的哈希森林，深度仅有1～2层，每一层代表所有需要检索的关键词组的字，层内采用哈希查找，查找出目标关键词后再根据有序规则数据结构判断关键词是否依次满足预置规则的关键词组合内容与要求的顺序，由于算法时间复杂度仅与哈希森林的平均深度有关，所以可以在规则多且复杂、关键词数量众多的情况下保证算法时间复杂度为常数，从而实现了快速地对短信中的垃圾短信进行识别。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的方法与系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种垃圾短信识别方法，其特征在于，包括：

2.根据权利要求1所述的垃圾短信识别方法，其特征在于，所述预置的规则包含关键词组及其组合顺序。

3.根据权利要求2所述的垃圾短信识别方法，其特征在于，所述预置的规则有多条。

4.根据权利要求3所述的垃圾短信识别方法，其特征在于，每条所述预置的规则具有相对应的标志。

5.根据权利要求4所述的垃圾短信识别方法，其特征在于，确定所述短信为垃圾短信后还包括：

确定所述垃圾短信对应的所述预置的规则的标志。

6.一种垃圾短信识别系统，其特征在于，包括：

第一确定模块，用于确定所述短信为垃圾短信。

7.根据权利要求6所述的垃圾短信识别系统，其特征在于，还包括：