CN106294432A - 一种信息处理方法及装置 - Google Patents
一种信息处理方法及装置 Download PDFInfo
- Publication number
- CN106294432A CN106294432A CN201510276410.3A CN201510276410A CN106294432A CN 106294432 A CN106294432 A CN 106294432A CN 201510276410 A CN201510276410 A CN 201510276410A CN 106294432 A CN106294432 A CN 106294432A
- Authority
- CN
- China
- Prior art keywords
- key word
- node
- policy tree
- relation
- combination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种信息处理方法,包括:对存储的所有关键词及关键词组合进行预处理,得到新的关键词组合;利用所述新的关键词组合,生成关键词策略树;利用所述关键词策略树,生成对应的关键词策略;根据所述关键词策略,识别拦截的短信是否为垃圾短信。本发明同时还公开了一种信息处理装置。
Description
技术领域
本发明涉及通信中的安全领域,尤其涉及一种信息处理方法及装置。
背景技术
随着移动通信服务的不断拓展,垃圾短信的现象随之大量出现,轻则影响手机用户的正常生活,重则会导致个人或公司产生重大的经济损失,因此,治理垃圾短信有着十分重要的意义。
目前,短信拦截的方法主要根据关键词策略和流量策略,当监控到的短信内容中包括关键字或关键词时,则对发送该短信的发送端进行相应的放行、拦截或审核等处理。其中,关键词策略中包含垃圾短信中常见的任意关键字或关键词的组合,如“(百家乐)&(注册|进入)&(奖)&(合作|游戏)”;这里,&代表“与”,|代表“或”,所监控的短信内容只要符合该关键字规则,将视为疑似垃圾短信进行人工审核确认。
实际应用过程中,通常垃圾短信拦截系统的关键词策略不低于两千条,并且随着新的垃圾短信出现,需要从中提取新的关键字或关键词,关键词策略数量不断增加,以便尽可能多的拦截垃圾短信。
这样,现有关键词策略数量过大且存在大量冗余,严重降低了系统的处理性能和短信过滤效率。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种信息处理方法及装置。
本发明实施例提供了一种信息处理方法,包括:
对存储的所有关键词及关键词组合进行预处理,得到新的关键词组合;
利用所述新的关键词组合,生成关键词策略树;
利用所述关键词策略树,生成对应的关键词策略;
根据所述关键词策略,识别拦截的短信是否为垃圾短信。
上述方案中,所述对存储的所有关键词及关键词组合进行预处理,得到新的关键词组合,包括:
对所述存储的所有关键词及关键词组合进行只包含与关系的关键词组合的规则变换处理,得到变换后的关键词组合;
对所述变换后的关键词组合进行去重复及合并处理,得到所述新的关键词组合。
上述方案中,所述利用所述新的关键词组合,生成关键词策略树,包括:
将所述新的关键词组合分离成单个关键词;
将每个关键词作为一个根节点,遍历生成所述关键词策略树。
上述方案中,所述利用所述关键词策略树,生成对应的关键词策略,包括:
同一个关键词策略树中,根节点的子节点为叶子节点时,子树以广度优先遍历,且叶子节点之间是或的关系,与父节点之间是与的关系;和/或,
同一个关键词策略树中,根节点的子节点不为叶子节点,子树以深度优先遍历,且相同层次的多个叶子节点之间是或的关系,各层节点之间是与的关系;和/或,
同一个关键词策略树中,根节点的子节点不为叶子节点,且子树之间相同层次的兄弟节点具有共同的叶子节点时,兄弟节点之间生成或的关系,共同的叶子节点生成或的关系,各层节点之间生成与的关系;和/或,
从根节点遍历关键词策略树,根节点的子节点不为叶子节点时,遍历相同路径,子树之间相同层次的兄弟节点拥有相同的子节点集,兄弟节点之间生成或的关系,子节点集合各层节点之间生成与的关系。
上述方案中,所述方法还包括:
将从新垃圾短信中提取的关键词进行去重复及合并处理,得到所述新垃圾短信对应的关键词组合;
利用所述对应的关键词组合,遍历已生成的关键词策略树,当与所述生成的关键词策略树不符合时,生成新的关键词策略树;
相应地,利用更新后的关键词策略树,生成新的关键词策略;并根据所述新的关键词策略,识别拦截的短信是否为垃圾短信。
上述方案中,所述当与所述生成的关键词策略树不符合时,生成新的关键词策略树,包括:
所述对应的关键词组合属于已生成的关键词策略树的根节点,且不符合所述根节点对应的关键词策略树规则时,将所述对应的关键词组合合并到所述根节点对应的关键词策略树中,生成新的关键词策略树;或者,
所述对应的关键词组合在已生成的关键词策略树中找不到对应根节点时,根据所述对应的关键词组合,基于多叉树算法,生成新的关键词策略树。
本发明实施例还提供了一种信息处理装置,包括:预处理单元、策略树生成单元、关键词策略生成单元以及识别单元;其中,
所述预处理单元,用于对存储的所有关键词及关键词组合进行预处理,得到新的关键词组合;
所述策略树生成单元,用于利用所述新的关键词组合,生成关键词策略树;
所述关键词策略生成单元,用于利用所述关键词策略树,生成对应的关键词策略;
所述识别单元,用于根据所述关键词策略,识别拦截的短信是否为垃圾短信。
上述方案中,所述预处理单元包括:变换模块和去重复及合并处理模块;其中,
所述变换模块,用于对所述存储的所有关键词及关键词组合进行只包含与关系的关键词组合的规则变换处理,得到变换后的关键词组合;
所述去重复及合并处理模块,用于对所述变换后的关键词组合进行去重复及合并处理,得到所述新的关键词组合。
上述方案中,所述策略树生成单元包括分离模块及策略树生成模块;其中,
所述分离模块,用于将所述新的关键词组合分离成单个关键词;
所述策略树生成模块,用于将每个关键词作为一个根节点,遍历生成所述关键词策略树。
上述方案中,所述关键词策略生成单元,具体用于:
同一个关键词策略树中,根节点的子节点为叶子节点时,子树以广度优先遍历,且叶子节点之间是或的关系,与父节点之间是与的关系;和/或,
同一个关键词策略树中,根节点的子节点不为叶子节点,子树以深度优先遍历,且相同层次的多个叶子节点之间是或的关系,各层节点之间是与的关系;和/或,
同一个关键词策略树中,根节点的子节点不为叶子节点,且子树之间相同层次的兄弟节点具有共同的叶子节点时,兄弟节点之间生成或的关系,共同的叶子节点生成或的关系,各层节点之间生成与的关系;和/或,
从根节点遍历关键词策略树,根节点的子节点不为叶子节点时,遍历相同路径,子树之间相同层次的兄弟节点拥有相同的子节点集,兄弟节点之间生成或的关系,子节点集合各层节点之间生成与的关系。
上述方案中,所述预处理单元,还用于将从新垃圾短信中提取的关键词进行去重复及合并处理,得到所述新垃圾短信对应的关键词组合;
所述策略树生成单元,还用于利用所述对应的关键词组合,遍历已生成的关键词策略树,当与所述生成的关键词策略树不符合时,生成新的关键词策略树;
相应地,所述关键词策略生成单元,还用于利用更新后的关键词策略树,生成新的关键词策略;
所述识别单元,还用于根据所述新的关键词策略,识别拦截的短信是否为垃圾短信。
本发明实施例提供的信息处理方法及装置,对存储的所有关键词及关键词组合进行预处理,得到新的关键词组合;利用所述新的关键词组合,生成关键词策略树;利用所述关键词策略树,生成对应的关键词策略;根据所述关键词策略,识别拦截的短信是否为垃圾短信,如此,能有效地提升系统的处理性能和短信过滤效率。
附图说明
在附图(其不一定是按比例绘制的)中,相似的附图标记可在不同的视图中描述相似的部件。具有不同字母后缀的相似附图标记可表示相似部件的不同示例。附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例。
图1为本发明实施例一信息处理的方法流程示意图;
图2为本发明实施例二信息处理系统结构示意图;
图3为本发明实施例二垃圾短信策略优化系统进行策略优化的方法流程示意图;
图4为本发明实施例二生成的关键词策略树示意图;
图5为本发明实施例二图4中的关键词策略树经过修改后的关键词策略树示意图;
图6为本发明实施例二应用实例的关键词策略树示意图;
图7为本发明实施例三信息处理装置结构示意图。
具体实施方式
下面结合附图及实施例对本发明再作进一步详细地描述。
目前,采用的关键词策略中,关键词的数量过大,且存在大量冗余,这样,严重降低了系统的处理性能和短信过滤效率。
同时根据新的垃圾短信提取的关键字或关键词,可能与已生成的关键词策略重复,由于还没有有效手段解决此问题,导致新的关键字或关键词未经判断直接加入到已有的关键词策略中,使得关键字或关键词重复现象更加严重,对系统性能影响较大。
基于此,在本发明的各种实施例中:对存储的所有关键词及关键词组合进行预处理,得到新的关键词组合;利用所述新的关键词组合,生成关键词策略树;利用所述关键词策略树,生成对应的关键词策略;根据所述关键词策略,识别拦截的短信是否为垃圾短信。
实施例一
本实施例信息处理的方法,如图1所示,包括以下步骤:
步骤101:对存储的所有关键词及关键词组合进行预处理,得到新的关键词组合;
这里,实际应用时,所述存储的所有关键词及关键词组合可以是原有关键词策略中的关键词及关键词组合。
所述对存储的所有关键词及关键词组合进行预处理,得到新的关键词组合,具体包括:
对所述存储的所有关键词及关键词组合进行只包含与关系的关键词组合的规则变换处理,得到变换后的关键词组合;
对所述变换后的关键词组合进行去重复及合并处理,得到所述新的关键词组合。
其中,所述对所述存储的所有关键词及关键词组合进行只包含与关系的关键词组合的规则变换处理,是指:对存储的关键词及关键词组合进行规则变换,变换成只包含“与”关系的关键词组合,实际应用时,对关键词及关键词组合进行的规则变换主要包括以下5条规则变换:
A&(B|G)=A&B+A&G,
A&B&(C|D)=A&B&C+A&B&D,
(B|D)&A&(C|E)=B&A&C+B&A&E+D&A&C+D&A&E,
A&(C|B)&E=A&C&E+A&B&E,
A&(D|B)&F=A&D&F+A&B&F。
其中,A、B、C、D、E、F以及G表示不同的关键词;&、+表示与的关系,|表示或的关系。
所述对所述变换后的关键词组合进行去重复及合并处理,是指:对变换后的关键词组合进行预处理,对组合内的每个关键词完全相同的各关键词组合进行去除处理,只保留一个关键词组合;同时,对关键词组合为另一个关键词组合子集的关键词组合进行去除处理。
这里,变换后的关键词组合存在关键词相等和包含的现象。其中,关键词相等是指组合内的每个关键词完全相同,但排列顺序可能不同;包含是指某个关键词组合是另一个组合的子集,如:此时,处理规则如下:
对于存在相等关系的各关键词组合:
表示存在相等关系的各关键词只保留一个关键词组合。
对于存在包含关系的各关键词组合:
表示存在包含关系的各关键词组合仅保留为各关键词组合子集的关键词组合。
其中,A、B、C、D、E、F表示不同的关键词;&表示与的关系,表示推导出、得出结论的含义。
上述对关键词及关键词组合进行的预处理,可以理解为是按照预设的处理方式对关键词及关键词组合进行的预处理。实际应用时,对关键词及关键词组合进行预处理所遵循的预设处理方式不限于上述的预设处理方式。
步骤102:利用所述新的关键词组合,生成关键词策略树;
这里,利用所述新的关键词组合,生成关键词策略树,具体包括:
将所述新的关键词组合分离成单个关键词;
将每个关键词作为一个根节点,遍历生成所述关键词策略树。
其中,可以认为上述生成关键词策略树的过程是基于多叉树算法生成关键词策略树的过程。
实际应用时,将关键词组合分离成单个的关键词,并按首字母升序的方式进行排序,每个关键词看成一个节点,遍历生成关键词策略树,具体步骤如下:
步骤1:先以A作为根节点,从预处理后的关键词组合中筛选出以A开头的关键词组合,并从筛选出的关键词组合中,对除根节点外的每个关键词进行频次统计并排序(如果频次相同,按首字母排序);
这里,从筛选出的关键词组合中,对除根节点外的每个关键词按频次进行降序排序。举个例子来说,A&C&D中,如果f(D)>f(C),则变换为A&D&C,依次类推,排序后的结果如下:
A&B,A&G,A&D&C,A&D&E,A&C&E,A&D&F。
其中,A、B、C、D、E、F表示不同的关键词;f()表示出现某个关键词的频次。
步骤2:根据排序的结果,基于分叉树算法,生成以A为根节点的关键词策略树。
步骤3:依次以B、C……为根节点,分别按照步骤1、2所描述的方法,生成各根节点的关键词策略树。
这里,如果B为开头的关键词组合再次建立关键词策略树时,当出现A&B时,则此处就不用针对A&B再建关键词策略树,其它情况以此类推。
步骤103:利用所述关键词策略树,生成对应的关键词策略;
具体地,同一个关键词策略树中,根节点的子节点为叶子节点时,子树以广度优先遍历,且叶子节点之间是或的关系,与父节点之间是与的关系;和/或,
同一个关键词策略树中,根节点的子节点不为叶子节点,子树以深度优先遍历,且相同层次的多个叶子节点之间是或的关系,各层节点之间是与的关系;和/或,
同一个关键词策略树中,根节点的子节点不为叶子节点,且子树之间相同层次的兄弟节点具有共同的叶子节点时,兄弟节点之间生成或的关系,共同的叶子节点生成或的关系,各层节点之间生成与的关系;和/或,
从根节点遍历关键词策略树,根节点的子节点不为叶子节点时,遍历相同路径,子树之间相同层次的兄弟节点拥有相同的子节点集,兄弟节点之间生成或的关系,子节点集合各层节点之间生成与的关系。
其中,对于一个关键词策略树而言,处在树最顶端的节点称为根节点;相对于当前节点而言,其上层节点就叫做父节点,当前节点为子节点。如果子节点下面已经没有其他任何节点了,则当前的这个节点就称为叶子节点,处在树的同一层结构的节点称为兄弟节点。
步骤104:根据所述关键词策略,识别拦截的短信是否为垃圾短信。
实际应用时,该方法还可以包括:
将从新垃圾短信中提取的关键词进行去重复及合并处理,得到所述新垃圾短信对应的关键词组;
利用所述对应的关键词组合,遍历已生成的关键词策略树,当与所述生成的关键词策略树不符合时,生成新的关键词策略树;
相应地,利用更新后的关键词策略树,生成新的关键词策略;并根据所述新的关键词策略,识别拦截的短信是否为垃圾短信。
其中,所述当与所述生成的关键词策略树不符合时,生成新的关键词策略树,具体包括:
所述对应的关键词组合属于已生成的关键词策略树的根节点,且不符合所述根节点对应的关键词策略树规则时,将所述对应的关键词组合合并到所述根节点对应的关键词策略树中,生成新的关键词策略树;或者,
所述对应的关键词组合在已生成的关键词策略树中找不到对应根节点时,根据所述对应的关键词组合,基于多叉树算法,生成新的关键词策略树。
本实施例提供的信息处理的方法,对存储的所有关键词及关键词组合进行预处理,得到新的关键词组合;利用所述新的关键词组合,生成关键词策略树;利用所述关键词策略树,生成对应的关键词策略;根据所述关键词策略,识别拦截的短信是否为垃圾短信,如此,能有效地提升系统的处理性能和短信过滤效率。
另外,将从新垃圾短信中提取的关键词进行去重复及合并处理,得到所述新垃圾短信对应的关键词组合;利用所述对应的关键词组合,遍历已生成的关键词策略树,当与所述生成的关键词策略树不符合时,生成新的关键词策略树;利用更新后的关键词策略树,生成新的关键词策略;并根据所述新的关键词策略,识别拦截的短信是否为垃圾短信,如此,能进一步提升系统的处理性能和短信过滤效率;并且,能进一步提升短信过滤的准确度。
实施例二
本实施例在实施例一的基础上,详细描述信息处理的过程。
如图2所示,本实施例信息处理系统可以包括:垃圾短信拦截系统、垃圾短信策略优化系统以及垃圾短信投诉系统;其中,
垃圾短信拦截系统将自身的垃圾短信策略上报给垃圾短信策略优化系统,使得垃圾短信策略优化系统根据上报的垃圾短信策略进行垃圾短信策略优化处理,并将优化后的垃圾短信策略下发至垃圾短信拦截系统,以便更好地拦截垃圾短信;同时,垃圾短信投诉系统将收到的投诉短信上报给垃圾短信策略优化系统,使得垃圾短信策略优化系统根据投诉的垃圾短信进行垃圾短信策略优化处理,并将优化处理的垃圾短信策略下发至垃圾短信拦截系统,以便更好地拦截垃圾短信。换句话说,垃圾短信策略优化系统对已有的关键词策略(垃圾短信拦截系统上报)、以及新增的关键词(垃圾短信投诉系统上报)进行优化处理,最后将优化后的关键词策略下发给垃圾短信拦截系统,以便垃圾短信拦截系统更有效地拦截垃圾短信。
这里,实际应用时,本实施例的信息处理系统,需要具备以下功能:
(1)垃圾短信及已有关键词策略的导入
具体地,支持垃圾短信拦截系统策略的导入,以及垃圾短信投诉系统投诉的垃圾短信的导入功能,导入方式可同时支持如FTP接口在线实时导入和csv、excel文件的离线导入等功能。
(2)垃圾短信策略模型配置
具体地,根据策略优化自动化分析模型进行相关参数设置,并根据策略模型对策略进行优化,并对优化后的结果进行展示。
垃圾短信策略优化系统根据策略优化自动化分析模型对已有的关键词策略进行策略优化,优化流程如图3所示,包括以下步骤:
步骤301:对已有的关键词策略中的关键词组进行规则变化;
具体地,对已有的关键词组进行规则变换,变换成只包含“与”关系的关键词组合,实际应用时,对关键词及关键词组合进行的规则变换主要包括以下5条规则变换:
A&(B|G)=A&B+A&G,
A&B&(C|D)=A&B&C+A&B&D,
(B|D)&A&(C|E)=B&A&C+B&A&E+D&A&C+D&A&E,
A&(C|B)&E=A&C&E+A&B&E,
A&(D|B)&F=A&D&F+A&B&F。
其中,A、B、C、D、E、F以及G表示不同的关键词;&、+表示与的关系,|表示或的关系。
步骤302:对规则变化后的关键词组进行预处理;
具体地,对规则变化后的关键词组进行去重复及合并处理。
其中,由于变换后的关键词组合存在关键词相等和包含的现象,其中,关键词相等是指组合内的每个关键词完全相同,但排列顺序可能不同;包含是指某个关键词组合是另一个组合的子集,如:因此,需要对规则变化后的关键词组进行去重复及合并处理,处理规则如下:
对于存在相等关系的各关键词组合:
表示存在相等关系的各关键词只保留一个关键词组合。
对于存在包含关系的各关键词组合:
表示存在包含关系的各关键词组合仅保留为各关键词组合子集的关键词组合。
其中,A、B、C、D、E、F表示不同的关键词;&表示与的关系,表示推导出、得出结论的含义。
步骤303:利用预处理后的关键词组合,生成关键词策略树;
具体地,将关键词组合分离成单个的关键词,并按首字母升序的方式进行排序,每个关键词看成一个节点,遍历生成关键词策略树,具体步骤如下:
步骤1:先以A作为根节点,从预处理后的关键词组合中筛选出以A开头的关键词组合,并从筛选出的关键词组合中,对除根节点外的每个关键词进行频次统计并排序(如果频次相同,按首字母排序);
这里,从筛选出的关键词组合中,对除根节点外的每个关键词按频次进行降序排序。举个例子来说,A&C&D中,如果f(D)>f(C),则变换为A&D&C,依次类推,排序后的结果如下:
A&B,A&G,A&D&C,A&D&E,A&C&E,A&D&F。
其中,A、B、C、D、E、F表示不同的关键词;f()表示出现某个关键词的频次。
步骤2:根据排序的结果,基于分叉树算法,生成以A为根节点的关键词策略树。
对于上述例子,可以生成如图4所示的以A为根节点的关键词策略树。
步骤3:依次以B、C……为根节点,分别按照步骤1、2所描述的方法,生成各根节点的关键词策略树。
步骤304:利用生成的关键词策略树,生成新的关键词策略;
这里,策略生成规则包括:
(a)同一个关键词策略树中,根节点的子节点为叶子节点时,子树以广度优先遍历,且叶子节点之间是“或”的关系,与父节点之间是“与”的关系。如图4中,B和G是叶子节点,规则合并为A&(B|G)。
(b)同一个关键词策略树中,根节点的子节点不为叶子节点,子树以深度优先遍历,且相同层次的多个叶子节点之间是“或”的关系,各层节点之间是“与”的关系。如图4中,D为父节点,C、F、E为叶子节点,规则合并为:A&D&(C|F|E)。
(c)同一个关键词策略树中,根节点的子节点不为叶子节点,且子树之间相同层次的兄弟节点具有共同的叶子节点时,兄弟节点之间生成“或”的关系,共同的叶子节点生成“或”的关系,各层节点之间生成“与”的关系。如图4中:父节点D和C有共同的叶子节点,合并为:A&(D|C)&E。
(d)从根节点遍历关键词策略树,根节点的子节点不为叶子节点时,遍历相同路径,子树之间相同层次的兄弟节点拥有相同的子节点集,兄弟节点之间生成“或”的关系,子节点集合各层节点之间生成“与”的关系。
通过上述策略生成规则,则图4所示的关键词策略树可以生成如下3条规则,即关键词策略:
A&(B|G),A&D&(C|F|E),A&C&E;
(或者A&(B|G),A&D&(C|F),A&(D|C)&E)。
同时,对于新增的垃圾短信,垃圾短信策略优化系统根据新增关键词策略分析模型,对关键词策略进行策略优化,优化流程如图3所示,包括以下步骤:
步骤305:对规则变化后的关键词组进行预处理,得到新的关键词组合;
这里,对新增的关键词进行预处理的具体处理过程与步骤302的具体实现过程完全相同,不再赘述。
步骤306:根据新关键词组合,遍历已生成的关键词策略树,以判断是否与各生成的关键词策略树符合,如果符合,则执行步骤307,否则,执行步骤309;
这里,将各关键词组合依次遍历已有的各根节点的关键词策略树,如果与某个关键词策略树符合,则舍弃,即执行步骤307。比如:当新关键词组为A&D&F,A&G&H时,需要舍弃。
步骤307:舍弃所述预处理后的关键词组合;
步骤308:判断是否能找到根节点,如果是,则执行步骤309,否则,执行步骤310;
这里,当新关键词组合属于某根节点,但不符合该根节对应的关键词点策略树的规则时,如:A&F&H,则需要执行步骤309,修改该关键词策略树,以便将新生成的规则合并到已有的根节点对应的关键词策略树中;当新关键词组合找不到根节点时,则需要执行步骤310,根据策略树优化模型生成一个新的关键词策略树。
步骤309:修改关键词策略树,之后执行步骤304;
这里,修改的具体操作可参考步骤303生成关键词策略树的具体处理过程。
对于图4所示的关键词策略树,经过修改后可形成如图5所示的关键词策略树。
步骤310:生成新的关键词策略树,之后执行步骤304;
这里,生成新的关键词策略树的具体操作可参考步骤303生成关键词策略树的具体处理过程。
根据上面描述的策略分析模型,减少了策略冗余,举个例子来说:假设现有关键词策略中包含以下5条规:
{(百家乐)&(合作|游戏)}、{(百家乐)&(合作)&(登陆|注册)}、{(合作|注册)&(百家乐)&(进入|登录)}、{(登录|合作)&(进入)&(百家乐)}、{(百家乐)&(注册|进入)&(奖)&(合作|游戏)}。
采用上面描述的关键词策略优化流程后,则可以得到如图6所示的关键词策略树;根据图6所示的关键词策略树,则新关键词策略可以合并为以下3条规则:
{(百家乐)&(合作|游戏)}、{(百家乐)&(进入)&(注册|登录)}、{(百家乐)&(注册)&(登录)}。
从上面的描述中可以看出,本实施例的方案具有以下特点:
首先,是一个自动化分析系统
具体地,设计并实现了垃圾短信策略自动优化分析系统,获取原有关键词策略并对其进行优化,策略上报和下发支持在线和离线两种方式。
其次,策略优化分析模型及方法
对原有关键词策略进行规则变换和预处理,生成有效的关键词组合,基于多叉树的原理生成策略树,得到优化关键词策略,从而提高短信过滤效率。
第三,新增策略分析模型及方法
对于从新垃圾短信中提取的关键词,经过预处理后,首先遍历已有根节点的关键词策略树,若符合则舍弃,反之则生成新的关键词策略树,并加入到已有关键词策略中。
本实施例提出了基于多叉树算法的垃圾短信策略生成与管理的解决方案,使得关键词策略更加精简有效,提高系统的处理性能和短信过滤效率。
实施例三
在实施例一、二的基础上,本实施例提供一种信息处理装置,如图7所示,该装置包括:预处理单元71、策略树生成单元72、关键词策略生成单元73以及识别单元74;其中,
所述预处理单元71,用于对存储的所有关键词及关键词组合进行预处理,得到新的关键词组合;
所述策略树生成单元72,用于利用所述新的关键词组合,生成关键词策略树;
所述关键词策略生成单元73,用于利用所述关键词策略树,生成对应的关键词策略;
所述识别单元74,用于根据所述关键词策略,识别拦截的短信是否为垃圾短信。
其中,实际应用时,所述存储的所有关键词及关键词组合可以是原有关键词策略中的关键词及关键词组合。
所述预处理单元71可以包括:变换模块和去重复及合并处理模块;其中,
所述变换模块,用于对所述存储的所有关键词及关键词组合进行只包含与关系的关键词组合的规则变换处理,得到变换后的关键词组合;
所述去重复及合并处理模块,用于对所述变换后的关键词组合进行去重复及合并处理,得到所述新的关键词组合。
这里,所述对所述存储的所有关键词及关键词组合进行只包含与关系的关键词组合的规则变换处理,是指:对存储的关键词及关键词组合进行规则变换,变换成只包含“与”关系的关键词组合,实际应用时,对关键词及关键词组合进行的规则变换主要包括以下5条规则变换:
A&(B|G)=A&B+A&G,
A&B&(C|D)=A&B&C+A&B&D,
(B|D)&A&(C|E)=B&A&C+B&A&E+D&A&C+D&A&E,
A&(C|B)&E=A&C&E+A&B&E,
A&(D|B)&F=A&D&F+A&B&F。
其中,A、B、C、D、E、F以及G表示不同的关键词;&、+表示与的关系,|表示或的关系。
所述对所述变换后的关键词组合进行去重复及合并处理,是指:对变换后的关键词组合进行预处理,对组合内的每个关键词完全相同的各关键词组合进行去除处理,只保留一个关键词组合;同时,对关键词组合为另一个关键词组合子集的关键词组合进行去除处理。
这里,变换后的关键词组合存在关键词相等和包含的现象。其中,关键词相等是指组合内的每个关键词完全相同,但排列顺序可能不同;包含是指某个关键词组合是另一个组合的子集,如:此时,处理规则如下:
对于存在相等关系的各关键词组合:
表示存在相等关系的各关键词只保留一个关键词组合。
对于存在包含关系的各关键词组合:
表示存在包含关系的各关键词组合仅保留为各关键词组合子集的关键词组合。
其中,A、B、C、D、E、F表示不同的关键词;&表示与的关系,表示推导出、得出结论的含义。
上述对关键词及关键词组合进行的预处理,可以理解为是按照预设的处理方式对关键词及关键词组合进行的预处理。实际应用时,对关键词及关键词组合进行预处理所遵循的预设处理方式不限于上述的预设处理方式。
所述策略树生成单元72可以包括分离模块及策略树生成模块;其中,
所述分离模块,用于将所述新的关键词组合分离成单个关键词;
所述策略树生成模块,用于将每个关键词作为一个根节点,遍历生成所述关键词策略树。
其中,可以认为所述策略树生成单元72生成关键词策略树的过程是基于多叉树算法生成关键词策略树的过程。
实际应用时,所述分离模块将关键词组合分离成单个的关键词,并按首字母升序的方式进行排序,所述策略树生成模块将每个关键词看成一个节点,遍历生成关键词策略树,具体步骤如下:
步骤1:先以A作为根节点,从预处理后的关键词组合中筛选出以A开头的关键词组合,并从筛选出的关键词组合中,对除根节点外的每个关键词进行频次统计并排序(如果频次相同,按首字母排序);
这里,从筛选出的关键词组合中,对除根节点外的每个关键词按频次进行降序排序。举个例子来说,A&C&D中,如果f(D)>f(C),则变换为A&D&C,依次类推,排序后的结果如下:
A&B,A&G,A&D&C,A&D&E,A&C&E,A&D&F。
其中,A、B、C、D、E、F表示不同的关键词;f()表示出现某个关键词的频次。
步骤2:根据排序的结果,基于分叉树算法,生成以A为根节点的关键词策略树。
步骤3:依次以B、C……为根节点,分别按照步骤1、2所描述的方法,生成各根节点的关键词策略树。
这里,如果B为开头的关键词组合再次建立关键词策略树时,当出现A&B时,则此处就不用针对A&B再建关键词策略树,其它情况以此类推。
所述关键词策略生成单元73,具体用于:
同一个关键词策略树中,根节点的子节点为叶子节点时,子树以广度优先遍历,且叶子节点之间是或的关系,与父节点之间是与的关系;和/或,
同一个关键词策略树中,根节点的子节点不为叶子节点,子树以深度优先遍历,且相同层次的多个叶子节点之间是或的关系,各层节点之间是与的关系;和/或,
同一个关键词策略树中,根节点的子节点不为叶子节点,且子树之间相同层次的兄弟节点具有共同的叶子节点时,兄弟节点之间生成或的关系,共同的叶子节点生成或的关系,各层节点之间生成与的关系;和/或,
从根节点遍历关键词策略树,根节点的子节点不为叶子节点时,遍历相同路径,子树之间相同层次的兄弟节点拥有相同的子节点集,兄弟节点之间生成或的关系,子节点集合各层节点之间生成与的关系。
其中,对于一个关键词策略树而言,处在树最顶端的节点称为根节点;相对于当前节点而言,其上层节点就叫做父节点,当前节点为子节点。如果子节点下面已经没有其他任何节点了,则当前的这个节点就称为叶子节点,处在树的同一层结构的节点称为兄弟节点。
所述预处理单元71,还用于将从新垃圾短信中提取的关键词进行去重复及合并处理,得到所述新垃圾短信对应的关键词组合;
所述策略树生成单元72,还用于利用所述对应的关键词组合,遍历已生成的关键词策略树,当与所述生成的关键词策略树不符合时,生成新的关键词策略树;
相应地,所述关键词策略生成单元73,还用于利用更新后的关键词策略树,生成新的关键词策略;
所述识别单元74,还用于根据所述新的关键词策略,识别拦截的短信是否为垃圾短信。
其中,所述当与所述生成的关键词策略树不符合时,所述策略树生成单元72生成新的关键词策略树,具体包括:
所述对应的关键词组合属于已生成的关键词策略树的根节点,且不符合所述根节点对应的关键词策略树规则时,所述策略树生成单元72将所述对应的关键词组合合并到所述根节点对应的关键词策略树中,生成新的关键词策略树;或者,
所述对应的关键词组合在已生成的关键词策略树中找不到对应根节点时,所述策略树生成单元72根据所述对应的关键词组合,基于多叉树算法,生成新的关键词策略树。
实际应用时,所述预处理单元71、策略树生成单元72、以及关键词策略生成单元73可以位于实施例二中的垃圾短信策略优化系统中,所述识别单元74可以位于实施例二中的垃圾短信拦截系统中。而所述预处理单元71所获得新垃圾短信则由实施例二中的垃圾短信投诉系统提供。
实际应用时,所述预处理单元71、关键词策略生成单元73以及识别单元74可由信息处理装置中的中央处理器(CPU,Central Processing Unit)、微处理器(MCU,Micro Control Unit)、数字信号处理器(DSP,Digital Signal Processor)或可编程逻辑阵列(FPGA,Field-Programmable Gate Array)结合收发机实现;所述策略树生成单元72、变换模块、去重复及合并处理模块、分离模块、策略树生成模块可由信息处理装置中的CPU、MCU、DSP或FPGA实现。
本实施例提供的信息处理的方法,所述预处理单元71对存储的所有关键词及关键词组合进行预处理,得到新的关键词组合;所述策略树生成单元72利用所述新的关键词组合,生成关键词策略树;所述关键词策略生成单元73利用所述关键词策略树,生成对应的关键词策略;所述识别单元74根据所述关键词策略,识别拦截的短信是否为垃圾短信,如此,能有效地提升系统的处理性能和短信过滤效率。
另外,所述预处理单元71将从新垃圾短信中提取的关键词进行去重复及合并处理,得到所述新垃圾短信对应的关键词组合;所述策略树生成单元72利用所述对应的关键词组合,遍历已生成的关键词策略树,当与所述生成的关键词策略树不符合时,生成新的关键词策略树;所述关键词策略生成单元73利用更新后的关键词策略树,生成新的关键词策略;所述识别单元74根据所述新的关键词策略,识别拦截的短信是否为垃圾短信,如此,能进一步提升系统的处理性能和短信过滤效率;并且,能进一步提升短信过滤的准确度。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (11)
1.一种信息处理方法,其特征在于,所述方法包括:
对存储的所有关键词及关键词组合进行预处理,得到新的关键词组合;
利用所述新的关键词组合,生成关键词策略树;
利用所述关键词策略树,生成对应的关键词策略;
根据所述关键词策略,识别拦截的短信是否为垃圾短信。
2.根据权利要求1所述的方法,其特征在于,对存储的所有关键词及关键词组合进行预处理,得到新的关键词组合,包括:
对所述存储的所有关键词及关键词组合进行只包含与关系的关键词组合的规则变换处理,得到变换后的关键词组合;
对所述变换后的关键词组合进行去重复及合并处理,得到所述新的关键词组合。
3.根据权利要求1所述的方法,其特征在于,利用所述新的关键词组合,生成关键词策略树,包括:
将所述新的关键词组合分离成单个关键词;
将每个关键词作为一个根节点,遍历生成所述关键词策略树。
4.根据权利要求1所述的方法,其特征在于,所述利用所述关键词策略树,生成对应的关键词策略,包括:
同一个关键词策略树中,根节点的子节点为叶子节点时,子树以广度优先遍历,且叶子节点之间是或的关系,与父节点之间是与的关系;和/或,
同一个关键词策略树中,根节点的子节点不为叶子节点,子树以深度优先遍历,且相同层次的多个叶子节点之间是或的关系,各层节点之间是与的关系;和/或,
同一个关键词策略树中,根节点的子节点不为叶子节点,且子树之间相同层次的兄弟节点具有共同的叶子节点时,兄弟节点之间生成或的关系,共同的叶子节点生成或的关系,各层节点之间生成与的关系;和/或,
从根节点遍历关键词策略树,根节点的子节点不为叶子节点时,遍历相同路径,子树之间相同层次的兄弟节点拥有相同的子节点集,兄弟节点之间生成或的关系,子节点集合各层节点之间生成与的关系。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将从新垃圾短信中提取的关键词进行去重复及合并处理,得到所述新垃圾短信对应的关键词组合;
利用所述对应的关键词组合,遍历已生成的关键词策略树,当与所述生成的关键词策略树不符合时,生成新的关键词策略树;
相应地,利用更新后的关键词策略树,生成新的关键词策略;并根据所述新的关键词策略,识别拦截的短信是否为垃圾短信。
6.根据权利要求5所述的方法,其特征在于,所述当与所述生成的关键词策略树不符合时,生成新的关键词策略树,包括:
所述对应的关键词组合属于已生成的关键词策略树的根节点,且不符合所述根节点对应的关键词策略树规则时,将所述对应的关键词组合合并到所述根节点对应的关键词策略树中,生成新的关键词策略树;或者,
所述对应的关键词组合在已生成的关键词策略树中找不到对应根节点时,根据所述对应的关键词组合,基于多叉树算法,生成新的关键词策略树。
7.一种信息处理装置,其特征在于,所述装置包括:预处理单元、策略树生成单元、关键词策略生成单元以及识别单元;其中,
所述预处理单元,用于对存储的所有关键词及关键词组合进行预处理,得到新的关键词组合;
所述策略树生成单元,用于利用所述新的关键词组合,生成关键词策略树;
所述关键词策略生成单元,用于利用所述关键词策略树,生成对应的关键词策略;
所述识别单元,用于根据所述关键词策略,识别拦截的短信是否为垃圾短信。
8.根据权利要求7所述的装置,其特征在于,所述预处理单元包括:变换模块和去重复及合并处理模块;其中,
所述变换模块,用于对所述存储的所有关键词及关键词组合进行只包含与关系的关键词组合的规则变换处理,得到变换后的关键词组合;
所述去重复及合并处理模块,用于对所述变换后的关键词组合进行去重复及合并处理,得到所述新的关键词组合。
9.根据权利要求7所述的装置,其特征在于,所述策略树生成单元包括分离模块及策略树生成模块;其中,
所述分离模块,用于将所述新的关键词组合分离成单个关键词;
所述策略树生成模块,用于将每个关键词作为一个根节点,遍历生成所述关键词策略树。
10.根据权利要求7所述的装置,其特征在于,所述关键词策略生成单元,具体用于:
同一个关键词策略树中,根节点的子节点为叶子节点时,子树以广度优先遍历,且叶子节点之间是或的关系,与父节点之间是与的关系;和/或,
同一个关键词策略树中,根节点的子节点不为叶子节点,子树以深度优先遍历,且相同层次的多个叶子节点之间是或的关系,各层节点之间是与的关系;和/或,
同一个关键词策略树中,根节点的子节点不为叶子节点,且子树之间相同层次的兄弟节点具有共同的叶子节点时,兄弟节点之间生成或的关系,共同的叶子节点生成或的关系,各层节点之间生成与的关系;和/或,
从根节点遍历关键词策略树,根节点的子节点不为叶子节点时,遍历相同路径,子树之间相同层次的兄弟节点拥有相同的子节点集,兄弟节点之间生成或的关系,子节点集合各层节点之间生成与的关系。
11.根据权利要求7所述的装置,其特征在于,所述预处理单元,还用于将从新垃圾短信中提取的关键词进行去重复及合并处理,得到所述新垃圾短信对应的关键词组合;
所述策略树生成单元,还用于利用所述对应的关键词组合,遍历已生成的关键词策略树,当与所述生成的关键词策略树不符合时,生成新的关键词策略树;
相应地,所述关键词策略生成单元,还用于利用更新后的关键词策略树,生成新的关键词策略;
所述识别单元,还用于根据所述新的关键词策略,识别拦截的短信是否为垃圾短信。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510276410.3A CN106294432A (zh) | 2015-05-26 | 2015-05-26 | 一种信息处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510276410.3A CN106294432A (zh) | 2015-05-26 | 2015-05-26 | 一种信息处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106294432A true CN106294432A (zh) | 2017-01-04 |
Family
ID=57634876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510276410.3A Pending CN106294432A (zh) | 2015-05-26 | 2015-05-26 | 一种信息处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106294432A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197098A (zh) * | 2017-11-22 | 2018-06-22 | 阿里巴巴集团控股有限公司 | 一种关键词组合策略的生成及关键词扩展方法、装置和设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101137087A (zh) * | 2007-08-01 | 2008-03-05 | 浙江大学 | 短信息监控中心及监控方法 |
WO2008037207A1 (fr) * | 2006-09-30 | 2008-04-03 | Alibaba Group Holding Limited | Procédé et dispositif de filtrage d'informations indésirables |
CN101447984A (zh) * | 2008-11-28 | 2009-06-03 | 电子科技大学 | 一种自反馈垃圾信息过滤方法 |
CN102033954B (zh) * | 2010-12-24 | 2012-10-17 | 东北大学 | 关系数据库中可扩展标记语言文档全文检索查询索引方法 |
-
2015
- 2015-05-26 CN CN201510276410.3A patent/CN106294432A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008037207A1 (fr) * | 2006-09-30 | 2008-04-03 | Alibaba Group Holding Limited | Procédé et dispositif de filtrage d'informations indésirables |
CN101137087A (zh) * | 2007-08-01 | 2008-03-05 | 浙江大学 | 短信息监控中心及监控方法 |
CN101447984A (zh) * | 2008-11-28 | 2009-06-03 | 电子科技大学 | 一种自反馈垃圾信息过滤方法 |
CN102033954B (zh) * | 2010-12-24 | 2012-10-17 | 东北大学 | 关系数据库中可扩展标记语言文档全文检索查询索引方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197098A (zh) * | 2017-11-22 | 2018-06-22 | 阿里巴巴集团控股有限公司 | 一种关键词组合策略的生成及关键词扩展方法、装置和设备 |
CN108197098B (zh) * | 2017-11-22 | 2021-12-24 | 创新先进技术有限公司 | 一种关键词组合策略的生成及关键词扩展方法、装置和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11487772B2 (en) | Multi-party data joint query method, device, server and storage medium | |
CN106168797B (zh) | 一种模块化获取核电站故障树顶事项失效概率的方法 | |
CN104809168B (zh) | 超大规模rdf图数据的划分与并行分布处理方法 | |
CN103902591B (zh) | 构建决策树分类器的方法及装置 | |
CN104408159B (zh) | 一种数据关联、加载、查询方法及装置 | |
CN104463709A (zh) | 一种基于决策树的变电站告警信息处理方法 | |
CN105976048A (zh) | 一种基于改进人工蜂群算法的输电网扩展规划方法 | |
CN106021386B (zh) | 面向海量分布式数据的非等值连接方法 | |
CN106254321A (zh) | 一种全网络异常数据流分类方法 | |
CN107908645A (zh) | 一种基于渗流分析的在线社交平台谣言传播的免疫方法 | |
CN101894129B (zh) | 基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法 | |
CN106681980B (zh) | 一种垃圾短信分析方法和装置 | |
CN103218368B (zh) | 一种挖掘热词的方法与装置 | |
CN105760511A (zh) | 一种基于storm的大数据自适应拓扑处理方法 | |
CN114511330B (zh) | 一种基于改进的cnn-rf的以太坊庞氏骗局检测方法及系统 | |
CN106156170B (zh) | 舆情分析方法及装置 | |
CN106503832A (zh) | 无人‑有人协同信息分发传递优化方法和系统 | |
Du et al. | Research on decision tree algorithm based on information entropy | |
CN104125146B (zh) | 一种业务处理方法及装置 | |
CN106294432A (zh) | 一种信息处理方法及装置 | |
CN104363129B (zh) | 一种网络事件关联分析和动态预警方法 | |
CN106354493B (zh) | 一种解决传统软件开发痛点的开发模式的实现方法 | |
CN106533955B (zh) | 一种基于网络报文的序列号识别方法 | |
CN101917282A (zh) | 一种告警屏蔽规则的处理方法、装置及系统 | |
CN104573034A (zh) | 基于cdr话单的用户群体划分方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170104 |