WO2016177069A1

WO2016177069A1 - 一种管理方法、装置、垃圾短信监控系统及计算机存储介质

Info

Publication number: WO2016177069A1
Application number: PCT/CN2016/075548
Authority: WO
Inventors: 李冠军; 侯振强; 于思亮
Original assignee: 中兴通讯股份有限公司
Priority date: 2015-07-20
Filing date: 2016-03-03
Publication date: 2016-11-10
Also published as: CN106376002B; CN106376002A

Abstract

本发明提供了一种管理方法、装置、垃圾短信监控系统及计算机存储介质，该方法包括：获取垃圾短信监控系统的关键字策略；基于短信样本库对关键字策略进行评估优化处理,根据处理结果处理关键字策略；发送评估优化处理后的关键字策略至垃圾短信监控系统。通过本发明的实施，根据短信样本库对关键字策略进行评估优化处理，不需要人工进行干预，实现了根据短信样本库对关键字策略的自动优化管理，使得关键字策略更加完整、拦截更加准确，解决了现有人工提供关键字策略不能满足用户日历增强的使用需求的问题，增强了用户的使用体验。

Description

一种管理方法、装置、垃圾短信监控系统及计算机存储介质

技术领域

本发明涉及垃圾短信监控领域，尤其涉及一种管理方法、装置、垃圾短信监控系统及计算机存储介质。

背景技术

随着垃圾短信的日益频繁，严重的影响了用户的正常生活，为了减小这些垃圾短信，现有技术通过垃圾短信监控系统对短信进行分析，筛选垃圾短信，以提高用户使用体验。

现有垃圾短信监控系统是使用运营商运维人员根据经验提供的关键字，如“开发票、转账”等，对短信内容进行分析筛选，这种方式在筛选剔除垃圾短信的同时，也不可避免的导致部分用户的正常短信被剔除，存在误拦的问题，同时，运维人员提供关键字，劳动量大，并不可避免的会出现漏拦的垃圾短信。即，现有技术通过运维人员提供的关键字策略的方式不能满足用户日历增强的使用需求。

因此，如何提供一种可管理关键字策略的管理方法，是本领域技术人员亟待解决的技术问题。

发明内容

本发明实施例提供了一种管理方法、装置、垃圾短信监控系统及计算机存储介质，以解决现有人工提供关键字策略不能满足用户日历增强的使用需求的问题。

本发明实施例提供了一种用于垃圾短信监控系统的关键字策略的管理方法，其包括：获取垃圾短信监控系统的关键字策略；基于短信样本库对关键字策略进行评估优化处理,根据处理结果处理关键字策略；发送评估优化处理后的关键字策略至垃圾短信监控系统。

进一步的，评估优化处理包括：基于短信样本库模拟普通短信，对关键字策略中的每一条关键字执行垃圾短信误拦优化处理、垃圾短信漏拦优化处理、垃圾短信拦截效率优化处理中的至少一种。

进一步的，垃圾短信误拦优化处理包括：对关键字策略中的每一条关键字分别进行查准率、查全率的预测，将预测结果与优化目标进行比较，根据比较结果管理关键字。

进一步的，根据比较结果管理关键字包括：删除预测结果差的关键字，建议处理预测结果一般的关键字，保留预测结果好的关键字。

进一步的，垃圾短信漏拦优化处理包括：确定普通短信中没有被拦截的垃圾短信库，计算没有被拦截的垃圾短信库的拦截关键词，将拦截关键词添加到关键字策略。

进一步的，垃圾短信拦截效率优化处理包括：针对每一条关键词，判断是否存在与其重复的关键词，若存在，则删除；判断是否存在与其交叉的关键词，若存在，则组合整理；判断是否存在与其可合并的关键词，若存在，则合并。

进一步的，还包括：对评估优化处理后的关键词策略重新进行评估优化处理，直至达到优化目标，或者达到预定次数。

进一步的，还包括：从垃圾短信监控系统及投诉平台获取垃圾短信样本及正常短信样本，根据垃圾短信样本及正常短信样本建立短信样本库。

进一步的，根据垃圾短信样本及正常短信样本建立短信样本库包括：将垃圾短信样本及正常短信样本直接添加到短信样本库的可信样本库，根据可信样本库对垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核，并存入短信样本库。

进一步的，根据可信样本库对垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核包括：根据待检测短信的指纹签名、与垃圾短信样本及正常短信样本的指纹签名的相似性，对待检测短信进行分类审核。

进一步的，根据待检测短信的指纹签名、与垃圾短信样本及正常短信样本的指纹签名的相似度，对待检测短信进行分类审核包括：从垃圾短信样本中提取每条短信内容的垃圾指纹签名，比较待检测短信的指纹签名与垃圾指纹签名的相似性，如果两者相似，则将待检测短信法分为垃圾短信；从正常短信样本中提取每条短信内容的正常指纹签名，比较待检测短信的指纹签名与正常指纹签名的相似性，如果两者相似，则将待检测短信法分为正常短信。

进一步的，根据可信样本库对垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核还包括：学习可信样本库生成垃圾短信分类器，利用垃圾短信分类器对垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核。

进一步的，学习可信样本库生成垃圾短信分类器包括：从垃圾短信样本中抽取一批垃圾短信样本，从正常短信样本中抽取一批正常短信样本；对抽取的短信内容样本进行预处理；对预处理后的短信内容进行中文分词，最终生成短信的分词；依次每个分词在垃圾短信样本中的权重以及在正常短信样本中的权重。

本发明实施例还提供了一种计算机存储介质，所述计算机存储介质存储有执行指令，所述执行指令用于执行上述的方法。

本发明实施例提供了一种用于垃圾短信监控系统的关键字策略的管理装置，其包括：获取模块，设置为获取垃圾短信监控系统的关键字策略；处理模块，设置为基于短信样本库对关键字策略进行评估优化处理,根据处理结果处理关键字策略；发送模块，设置为发送评估优化处理后的关键字策略至垃圾短信监控系统。

进一步的，处理模块设置为基于短信样本库模拟普通短信，对关键字策略中的每一条关键字执行垃圾短信误拦优化处理、垃圾短信漏拦优化处理、垃圾短信拦截效率优化处理中的至少一种。

进一步的，处理模块设置为对关键字策略中的每一条关键字分别进行查准率、查全率的预测，将预测结果与优化目标进行比较，根据比较结果管理关键字。

进一步的，处理模块设置为删除预测结果差的关键字，建议处理预测结果一般的关键字，保留预测结果好的关键字。

进一步的，处理模块设置为确定普通短信中没有被拦截的垃圾短信库，计算没有被拦截的垃圾短信库的拦截关键词，将拦截关键词添加到关键字策略。

进一步的，处理模块设置为针对每一条关键词，判断是否存在与其重复的关键词，若存在，则删除；判断是否存在与其交叉的关键词，若存在，则组合整理；判断是否存在与其可合并的关键词，若存在，则合并。

进一步的，处理模块还设置为对评估优化处理后的关键词策略重新进行评估优化处理，直至达到优化目标，或者达到预定次数。

进一步的，还包括建立模块，设置为从垃圾短信监控系统及投诉平台获取垃圾短信样本及正常短信样本，根据垃圾短信样本及正常短信样本建立短信样本库。

进一步的，建立模块设置为将垃圾短信样本及正常短信样本直接添加到短信样本库的可信样本库，根据可信样本库对垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核，并存入短信样本库。

进一步的，建立模块设置为根据待检测短信的指纹签名、与垃圾短信样本及正常短信样本的指纹签名的相似性，对待检测短信进行分类审核。

进一步的，建立模块设置为从垃圾短信样本中提取每条短信内容的垃圾指纹签名，比较待检测短信的指纹签名与垃圾指纹签名的相似性，如果两者相似，则将待检测短信法分为垃圾短信；从正常短信样本中提取每条短信内容的正常指纹签名，比较待检测短信的指纹签名与正常指纹签名的相似性，如果两者相似，则将待检测短信法分为正常短信。

进一步的，建立模块设置为学习可信样本库生成垃圾短信分类器，利用垃圾短信分类器对垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核。

进一步的，建立模块设置为从垃圾短信样本中抽取一批垃圾短信样本，从正常短信样本中抽取一批正常短信样本；对抽取的短信内容样本进行预处理；对预处理后的短信内容进行中文分词，最终生成短信的分词；依次每个分词在垃圾短信样本中的权重以及在正常短信样本中的权重。

本发明实施例提供了一种垃圾短信监控系统，其使用本发明实施例提供的管理装置管理关键字测控。

本发明实施例的有益效果：

本发明实施例提供了一种新的管理方法，根据短信样本库对关键字策略进行评估优化处理，不需要人工进行干预，实现了根据短信样本库对关键字策略的自动优化管理，使得关键字策略更加完整、拦截更加准确，解决了现有人工提供关键字策略不能满足用户日历增强的使用需求的问题，增强了用户的使用体验。

附图说明

图1为本发明第一实施例提供的管理装置的结构示意图；

图2为本发明第二实施例提供的管理方法的流程图；

图3为本发明第三实施例提供的管理方法的流程图；

图4为本发明第三实施例中短信指纹识别的示意图。

具体实施方式

现通过具体实施方式结合附图的方式对本发明做出进一步的诠释说明。

第一实施例：

图1为本发明第一实施例提供的管理装置的结构示意图，由图1可知，在本实施例中，本发明提供的管理装置1包括：

获取模块11，设置为获取垃圾短信监控系统的关键字策略；

处理模块12，设置为基于短信样本库对关键字策略进行评估优化处理,根据处理结果处理关键字策略；

发送模块13，设置为发送评估优化处理后的关键字策略至垃圾短信监控系统。

在一些实施例中，上述实施例中的处理模块12设置为基于短信样本库模拟普通短信，对关键字策略中的每一条关键字执行垃圾短信误拦优化处理、垃圾短信漏拦优化处理、垃圾短信拦截效率优化处理中的至少一种。

在一些实施例中，上述实施例中的处理模块12设置为对关键字策略中的每一条关键字分别进行查准率、查全率的预测，将预测结果与优化目标进行比较，根据比较结果管理关键字。

在一些实施例中，上述实施例中的处理模块12设置为删除预测结果差的关键字，建议处理预测结果一般的关键字，保留预测结果好的关键字。

在一些实施例中，上述实施例中的处理模块12设置为确定普通短信中没有被拦截的垃圾短信库，计算没有被拦截的垃圾短信库的拦截关键词，将拦截关键词添加到关键字策略。

在一些实施例中，上述实施例中的处理模块12设置为针对每一条关键词，判断是否存在与其重复的关键词，若存在，则删除；判断是否存在与其交叉的关键词，若存在，则组合整理；判断是否存在与其可合并的关键词，若存在，则合并。

在一些实施例中，上述实施例中的处理模块12还设置为对评估优化处理后的关键词策略重新进行评估优化处理，直至达到优化目标，或者达到预定次数。

在一些实施例中，如图1所示，上述实施例中的管理装置还包括建立模块14，设置为从垃圾短信监控系统及投诉平台获取垃圾短信样本及正常短信样本，根据垃圾短信样本及正常短信样本建立短信样本库。

在一些实施例中，上述实施例中的建立模块14设置为将垃圾短信样本及正常短信样本直接添加到短信样本库的可信样本库，根据可信样本库对垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核，并存入短信样本库。

在一些实施例中，上述实施例中的建立模块14设置为根据待检测短信的指纹签名、与垃圾短信样本及正常短信样本的指纹签名的相似性，对待检测短信进行分类审核。

在一些实施例中，上述实施例中的建立模块14设置为从垃圾短信样本中提取每条短信内容的垃圾指纹签名，比较待检测短信的指纹签名与垃圾指纹签名的相似性，如果两者相似，则将待检测短信法分为垃圾短信；从正常短信样本中提取每条短信内容的正常指纹签名，比较待检测短信的指纹签名与正常指纹签名的相似性，如果两者相似，则将待检测短信法分为正常短信。

在一些实施例中，上述实施例中的建立模块14设置为学习可信样本库生成垃圾短信分类器，利用垃圾短信分类器对垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核。

在一些实施例中，上述实施例中的建立模块14设置为从垃圾短信样本中抽取一批垃圾短信样本，从正常短信样本中抽取一批正常短信样本；对抽取的短信内容样本进行预处理；对预处理后的短信内容进行中文分词，最终生成短信的分词；依次每个分词在垃圾短信样本中的权重以及在正常短信样本中的权重。

对应的，本发明实施例提供了一种垃圾短信监控系统，其使用本发明实施例提供的管理装置1管理关键字测控。

第二实施例：

图2为本发明第二实施例提供的管理方法的流程图，由图2可知，在本实施例中，本发明提供的管理方法包括以下步骤：

S201：获取垃圾短信监控系统的关键字策略；

S202：基于短信样本库对关键字策略进行评估优化处理,根据处理结果处理关键字策略；

S203：发送评估优化处理后的关键字策略至垃圾短信监控系统。

在一些实施例中，上述实施例中的评估优化处理包括：基于短信样本库模拟普通短信，对关键字策略中的每一条关键字执行垃圾短信误拦优化处理、垃圾短信漏拦优化处理、垃圾短信拦截效率优化处理中的至少一种。

在一些实施例中，上述实施例中的垃圾短信误拦优化处理包括：对关键字策略中的每一条关键字分别进行查准率、查全率的预测，将预测结果与优化目标进行比较，根据比较结果管理关键字。

在一些实施例中，上述实施例中的根据比较结果管理关键字包括：删除预测结果差的关键字，建议处理预测结果一般的关键字，保留预测结果好的关键字。

在一些实施例中，上述实施例中的垃圾短信漏拦优化处理包括：确定普通短信中没有被拦截的垃圾短信库，计算没有被拦截的垃圾短信库的拦截关键词，将拦截关键词添加到关键字策略。

在一些实施例中，上述实施例中的垃圾短信拦截效率优化处理包括：针对每一条关键词，判断是否存在与其重复的关键词，若存在，则删除；判断是否存在与其交叉的关键词，若存在，则组合整理；判断是否存在与其可合并的关键词，若存在，则合并。

在一些实施例中，上述实施例中的方法还包括：对评估优化处理后的关键词策略重新进行评估优化处理，直至达到优化目标，或者达到预定次数。

在一些实施例中，上述实施例中的方法还包括：从垃圾短信监控系统及投诉平台获取垃圾短信样本及正常短信样本，根据垃圾短信样本及正常短信样本建立短信样本库。

在一些实施例中，上述实施例中的根据垃圾短信样本及正常短信样本建立短信样本库包括：将垃圾短信样本及正常短信样本直接添加到短信样本库的可信样本库，根据可信样本库对垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核，并存入短信样本库。

在一些实施例中，上述实施例中的根据可信样本库对垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核包括：根据待检测短信的指纹签名、与垃圾短信样本及正常短信样本的指纹签名的相似性，对待检测短信进行分类审核。

在一些实施例中，上述实施例中的根据待检测短信的指纹签名、与垃圾短信样本及正常短信样本的指纹签名的相似度，对待检测短信进行分类审核包括：从垃圾短信样本中提取每条短信内容的垃圾指纹签名，比较待检测短信的指纹签名与垃圾指纹签名的相似性，如果两者相似，则将待检测短信法分为垃圾短信；从正常短信样本中提取每条短信内容的正常指纹签名，比较待检测短信的指纹签名与正常指纹签名的相似性，如果两者相似，则将待检测短信法分为正常短信。

在一些实施例中，上述实施例中的根据可信样本库对垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核还包括：学习可信样本库生成垃圾短信分类器，利用垃圾短信分类器对垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核。

在一些实施例中，上述实施例中的学习可信样本库生成垃圾短信分类器包括：从垃圾短信样本中抽取一批垃圾短信样本，从正常短信样本中抽取一批正常短信样本；对抽取的短信内容样本进行预处理；对预处理后的短信内容进行中文分词，最终生成短信的分词；依次每个分词在垃圾短信样本中的权重以及在正常短信样本中的权重。

本发明实施例所涉及的短信包括场景的短信息、彩信、广播消息、邮件等信息。

现结合具体应用场景对本发明实施例做进一步的诠释说明。

第三实施例：

图3为本发明第三实施例提供的管理方法的流程图，由图3可知，在本实施例中，本发明提供的管理方法包括以下步骤：

S301：管理装置与垃圾短信监控系统、投诉平台进行数据同步。

本发明实施例提供管理装置与垃圾短信监控系统之间、与投诉平台之间有数据同步接口。具体的，IF1接口：从垃圾短信监控系统和投诉平台接收垃圾短信和正常短信样本，经过自动审核形成可信的垃圾短信样本库和正常短信样本库，样本库内的样本是评估优化的基础；IF2接口：从垃圾短信监控系统接收正式部署前待评估优化的关键字策略；IF3：将评估优化后的关键字策略同步垃圾短信监控系统用于正式部署上线。

S302：管理装置建立短信样本库。

管理装置将通过同步获取的短信内的垃圾短信(用户标记或者投诉举报的)、正常短信添加到短信样本库内的可信样本库。

S303：垃圾短信分类器的学习训练。

本实施例以朴素贝叶斯分类器的学习训练为例，进行说明。具体的流程描述如下：

1)从垃圾短信样本库中抽取一批垃圾短信样本，从正常短信样本库中抽取一批正常短信样本，P(C0)＝(垃圾短信样本条数)/(垃圾短信样本条数+正常短信样本条数)，P(C1)＝(正常短信样本条数)/(垃圾短信样本条数+正常短信样本条数)；

2)对抽取的短信内容样本进行预处理，包括但不限于内容过短消息剔除，如内容少于10个字；噪声处理，如删除空格、标点符号等特殊字符等；

3)对预处理后的短信内容进行中文分词，最终生成短信的分词特征向量Dx，Dx＝{W1,W2,W3,W4,.......Wn}，其中n为该短信内容包括的分词总数，Wt为分词，词与词之间顺序无关，即采用一元向量模型；

4)从Dx中依次取出分词，计算每个分词的权重，Wt在垃圾短信样本中的权重P(Wt|C0)＝(在垃圾短信样本中含有该分词的样本条数)/(垃圾短信样本条数)，Wt在正常短信样本中的权重P(Wt|C1)＝(在正常短信样本中含有该分词的样本条数)/(正常短信样本条数)；

通过上述学习训练得到一个朴素贝叶斯分类器。

基于朴素贝叶斯短信分类的核心思想，是计算待检测短信属于正常短信以及垃圾短信的概率，如果短信属于垃圾短信的概率P(C0|Dx)，大于属于正常短信的概率P(C1|Dx)，则认为该短信为垃圾短信，否则认为是正常短信。

因此朴素贝叶斯分类可以转换为计算以下信息：

这里C0表示垃圾短信类，C1表示正常短信类；P(C0),P(C1)分别为垃圾短信和正常短信的全局概率，可以通过统计概率获得，P(C0)取垃圾短信样本条数占(垃圾短信样本条数+正常短信样本条数)比值；P(C1)取正常短信样本条数占(垃圾短信样本条数+正常短信样本条数)比值。

短信内容表示为分词向量，并且将分词视为相互独立的，则P(Dx|Cj)可以表示为各个分词在Cj类下的条件概率的乘积，因此P(Wt|C0)相应表示为分词Wt在垃圾短信类出现的概率，P(Wt|C1)相应表示为分词Wt在正常短信类出现的概率。

面对朴素贝叶斯分类器的使用进行举例说明。

假设一个朴素贝叶斯分类器的垃圾短信样本条数与正常短信样本条数的比例为5：95，即P(C0)等于0.05，P(C1)等于0.95。

对待检测短信内容“现有发票可开联系林燕”分词；

Dx＝{现有,发票,开,联系,林,燕}

在分类器中上述分词对应的权重如下：

分词	P(Wi\|C0)	P(Wi\|C1)
现有	0.016846	0.006351
发票	0.027553	0.003003
开	0.012857	0.018764
联系	0.010556	0.007387
林	0.000485	0.000295
燕	0.000402	0.000382

因此根据朴素贝叶斯公式P(C0|Dx)/P(C1|Dx)

＝

(0.05/0.95)*(0.016846/0.006351)*(0.027553/0.003003)*(0.012857/0.018764)*(0.010556/0.007387)

*(0.000485/0.000295)*(0.000402/0.000382)

＝4.58

这条待检测短信属于垃圾短信的概率是属于正常短信的概率的4.58倍，因此该消息属于垃圾短信。

为提升准确性，本实施例提出朴素贝叶斯多分类器的概念，朴素贝叶斯多分类器是指从垃圾短信样本库和正常短信样本库中抽取N组样本，每组样本包含一批垃圾短信样本和一批正常短信样本，N默认为30组，每组样本学习训练一个分类器，在识别待检测短信时，每组分类器都进行检测打分，当超过一半的分类器识别为垃圾短信时则认为是垃圾短信，通过引入打分机制有效的提高了准确率。

S304：更新短信样本库。

本步骤先通过指纹识别短信类型，针对无法识别的短信，则通过分类器进行识别，仍然无法识别的短信，则丢弃处理。具体的，

基于指纹签名识别的核心思想，从垃圾短信样本库中提取每条短信内容的垃圾指纹签名，比较待检测短信的指纹签名与垃圾指纹签名的相似性，如果两者相似，则将待检测短信法分为垃圾短信；同理从正常短信样本库中提取每条短信内容的正常指纹签名，比较待检测短信的指纹签名与正常指纹签名的相似性，如果两者相似，则将待检测短信法分为正常短信。

如图4所示，指纹签名提取流程描述如下：

1)将短信内容进行预处理，包括但不限于噪声处理，如删除空格、标点符号等特殊字符等；

2)对预处理后的短信内容按照分词切片大小3进行切片，得到分词向量Dx，Dx＝{W1,W2,W3,W4,.......Wi}，其中i为该短信内容包括的分词总数，词与词之间无序，随机排列；

3)使用N组HASH函数，依次对Dy中所有分词计算HASH值，并取出每个分词HASH最小的值，得到HASH特征向量即指纹签名Dy，Dy＝{H1,H2,H3,H4,.......Hi}。

指纹签名相似度比较的流程判断如下：

1)依次从垃圾短信样本中提取样本的指纹签名Di，其中i为垃圾指纹签名的总数，将Di中每个指纹签名分成b个段(桶)，每个段有r行(桶容量)；

2)依次从正常短信样本中提取样本的指纹签名Dj，其中j为正常指纹签名的总数，将Dj中每个指纹签名分成b个段(桶)，每个段有r行(桶容量)；

3)从待检测短信中提取指纹签名D1，将D1分成b个段(桶)，每个段有r行(桶容量)，如果D1中某一段与Di中某一段落入到同一个桶里面，那么这两条消息就是相似的，这时待检测短信就是垃圾短信；如果D1中某一段与Dj中某一段落入到同一个桶里面，那么这两条消息就是相似的，这时待检测短信就是正常短信。

为了更新短信样本库，本实施例通过对垃圾短信监控系统拦截的待分类短信(非用户举报的，可能存在误拦的问题)执行自动审核，流程描述如下：

1)从垃圾短信监控系统和投诉平台接收垃圾短信和正常短信样本；

2)外部样本中的可信样本已经是人工标记垃圾短信或正常短信，例如垃圾短信监控系统中人工审核的样本和投诉平台样本，因此直接根据标记进入垃圾短信样本库和正常短信样本库；

3)外部样本中的非可信样本，例如垃圾短信监控系统通过机器识别出的疑似垃圾短信，需要通过垃圾短信分类器进行自动审核；

4)非可信样本首先进入指纹签名识别分类器环节，当分类器识别为正常短信时进入正常短信样本库，当分类器识别为垃圾短信时进入垃圾短信样本库，当分类器无法识别时进入朴素贝叶斯分类器识别环节；

5)朴素贝叶斯分类器对非可信样本进行检测，当分类器识别为正常短信时进入正常短信样本库，当分类器识别为垃圾短信时进入垃圾短信样本库，当分类器无法识别时直接丢弃。

基于短信样本库，本实施例还提供了关键字策略提取机制，主要流程描述如下：

1)基于朴素贝叶斯短信分类，从垃圾短信样本库中抽取所有垃圾短信样本，从正常短信样本库中抽取所有正常短信样本，P(C0)＝(全部垃圾短信样本条数)/(全部垃圾短信样本条数+全部正常短信样本条数)，P(C1)＝(全部正常短信样本条数)/(全部垃圾短信样本条数+全部正常短信样本条数)；

4)从Dx中依次取出分词，计算每个分词的权重，Wt在垃圾短信样本中的权重P(Wt|C0)＝(在垃圾短信样本中含有该分词的样本条数)/(全部垃圾短信样本条数)，Wt在正常短信样本中的权重P(Wt|C1)＝(在正常短信样本中含有该分词的样本条数)/(全部正常短信样本条数)，最终得到朴素贝叶斯分类器；

5)针对从垃圾短信样本库中获得的Dx，使用朴素贝叶斯分类器，计算Dx中各分词属于垃圾短信的概率值，得到Wx，将Wx中分词按照概率值从大到小排序，得到Wx＝{E1,E2,E3,E4,.......En}，其中E1≥E2≥E3.......≥En；

6)基于上述概率值Wx，对分词特征向量Dx进行降维，筛选出概率最大的M个特征值，且每个特征值要大于某个阈值K，如果概率值筛选出的特征值数量小于L，则抛弃此分词特征向量Dx，最后得出如下维度为M的权值特征向量：

Wx＝{W1,W2,W3.......WM}，

获取该概率值对应的分词，得到该垃圾短信样本备选的分词特征向量

Dx’＝{T1,T2,T3,T4,.......TM}

此向量即为该条样本备选的关键字集合；

7)将备选的关键字通过与&关系组合为关键字规则，即(T1)&(T2)&…&(TM)，因此每条备选关键字规则都对应一个垃圾短信样本库中的样本。

在更新短信样本库之后，返回执行步骤S303，进行分类型的学习训练。

S305：对垃圾短信监控系统的关键字策略进行优化处理。

本步骤包括的业务流程描述如下：

1)从垃圾短信监控系统接收正式部署前待评估优化的关键字策略；

2)预评估对垃圾短信监控系统的环境进行模拟重现，加载待评估的关键字策略；

3)预评估基于样本库中的垃圾短信样本和正常短信样本，模拟普通短信发送至预评估环境进行测试；在预评估分析过程中，检测分析待评估关键字策略的有效性，将各关键字规则监控到样本与样本本身垃圾短信样本或正常短信样本属性进行比对等，分析查准率、查全率等；

4)并将预测结果与优化目标进行比对，若未达到优化目标则进入智能优化，若达到优化目标则优化完成保存策略；

5)智能优化根据预评估结果，分析每一条规则实际的价值，从漏拦和误拦等角度进行优化，发现无效策略、合并重复策略，分析现有策略的盲点，引入新的关键字策略；

6)优化后的策略再次进入步骤3进行预评估，预评估和智能优化形成循环迭代，直到达到优化目标或最终达到循环迭代最大次数。

具体的，误拦分析流程需按设定条件进行优化，标准：

(1)对于查准率小于等于X1且贡献量小于等于Y1的规则，做出删除处理；

(2)对于查准率小于等于X2且贡献量小于等于Y2的规则，进行误拦优化处理；

(3)整体执行效率优化输出新策略。

其中，X1、X2、Y1、Y2均可配置，且N1＜N2，X1＜X2，Y1＜Y2；规则贡献量是指某条规则命中的垃圾短信样本数。

误拦优化的方法为：

1)使用朴素贝叶斯分类器计算规则中各关键字为垃圾短信的概率值；

2)对关键字规则中各关键字按照概率值排序，删除概率值低的单个关键字。

漏拦优化的方法为：

(1)从预评估结果中获取漏拦样本集合，该集合是垃圾短信样本库的子集；

(2)由于样本管理模块已经针对垃圾短信样本库中的每条样本做了备选关键字规则提取，因此仅需要分析漏拦样本，找到每条样本对应的备选关键字规则；

(3)将备选关键字规则补充进来；

(4)整体执行效率优化输出新策略。

效率优化能够针对性能降低关键字组合策略，进行效率提升，包括：

(1)分析单条关键字规则内部是否存在词组的包含关系，并给出优化建议；

(2)分析多条关键字规则间的交织、重合和包含关系，对相似策略进行聚类。

综上可知，通过本发明的实施，至少存在以下有益效果：

根据短信样本库对关键字策略进行评估优化处理，不需要人工进行干预，实现了根据短信样本库对关键字策略的自动优化管理，使得关键字策略更加完整、拦截更加准确，解决了现有人工提供关键字策略不能满足用户日历增强的使用需求的问题，增强了用户的使用体验。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

工业实用性

上述的本发明实施例，可以应用于垃圾短信监控领域，解决了现有人工提供关键字策略不能满足用户日历增强的使用需求的问题，增强了用户的使用体验。

Claims

一种用于垃圾短信监控系统的关键字策略的管理方法，包括：

获取所述垃圾短信监控系统的关键字策略；

基于短信样本库对所述关键字策略进行评估优化处理,根据处理结果处理所述关键字策略；

发送评估优化处理后的关键字策略至所述垃圾短信监控系统。
如权利要求1所述的管理方法，其中，所述评估优化处理包括：基于所述短信样本库模拟普通短信，对所述关键字策略中的每一条关键字执行垃圾短信误拦优化处理、垃圾短信漏拦优化处理、垃圾短信拦截效率优化处理中的至少一种。
如权利要求2所述的管理方法，其中，所述垃圾短信误拦优化处理包括：对所述关键字策略中的每一条关键字分别进行查准率、查全率的预测，将预测结果与优化目标进行比较，根据比较结果管理所述关键字。
如权利要求3所述的管理方法，其中，所述根据比较结果管理所述关键字包括：删除预测结果差的关键字，建议处理预测结果一般的关键字，保留预测结果好的关键字。
如权利要求2所述的管理方法，其中，所述垃圾短信漏拦优化处理包括：确定所述普通短信中没有被拦截的垃圾短信库，计算所述没有被拦截的垃圾短信库的拦截关键词，将所述拦截关键词添加到所述关键字策略。
如权利要求2所述的管理方法，其中，所述垃圾短信拦截效率优化处理包括：针对每一条关键词，判断是否存在与其重复的关键词，若存在，则删除；判断是否存在与其交叉的关键词，若存在，则组合整理；判断是否存在与其可合并的关键词，若存在，则合并。
如权利要求1所述的管理方法，其中，还包括：对评估优化处理后的关键词策略重新进行评估优化处理，直至达到优化目标，或者达到预定次数。
如权利要求1至7任一项所述的管理方法，其中，还包括：从所述垃圾短信监控系统及投诉平台获取垃圾短信样本及正常短信样本，根据所述垃圾短信样本及正常短信样本建立所述短信样本库。
如权利要求8所述的管理方法，其中，所述根据所述垃圾短信样本及正常短信样本建立所述短信样本库包括：将所述垃圾短信样本及正常短信样本直接添加到所述短信样本库的可信样本库，根据所述可信样本库对所述垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核，并存入所述短信样本库。
如权利要求9所述的管理方法，其中，所述根据所述可信样本库对所述垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核包括：根据所述待检测短信的指纹签名、与所述垃圾短信样本及正常短信样本的指纹签名的相似性，对所述待检测短信进行分类审核。
如权利要求10所述的管理方法，其中，所述根据所述待检测短信的指纹签名、与所述垃圾短信样本及正常短信样本的指纹签名的相似度，对所述待检测短信进行分类审核包括：所述从垃圾短信样本中提取每条短信内容的垃圾指纹签名，比较待检测短信的指纹签名与垃圾指纹签名的相似性，如果两者相似，则将待检测短信法分为垃圾短信；从所述正常短信样本中提取每条短信内容的正常指纹签名，比较待检测短信的指纹签名与正常指纹签名的相似性，如果两者相似，则将待检测短信法分为正常短信。
如权利要求9所述的管理方法，其中，所述根据所述可信样本库对所述垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核还包括：学习所述可信样本库生成垃圾短信分类器，利用所述垃圾短信分类器对所述垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核。
如权利要求12所述的管理方法，其中，所述学习所述可信样本库生成垃圾短信分类器包括：从所述垃圾短信样本中抽取一批垃圾短信样本，从所述正常短信样本中抽取一批正常短信样本；对抽取的短信内容样本进行预处理；对预处理后的短信内容进行中文分词，最终生成短信的分词；依次每个分词在垃圾短信样本中的权重以及在正常短信样本中的权重。
一种用于垃圾短信监控系统的关键字策略的管理装置，包括：

获取模块，设置为获取所述垃圾短信监控系统的关键字策略；

处理模块，设置为基于短信样本库对所述关键字策略进行评估优化处理,根据处理结果处理所述关键字策略；

发送模块，设置为发送评估优化处理后的关键字策略至所述垃圾短信监控系统。
如权利要求14所述的管理装置，其中，所述处理模块设置为基于所述短信样本库模拟普通短信，对所述关键字策略中的每一条关键字执行垃圾短信误拦优化处理、垃圾短信漏拦优化处理、垃圾短信拦截效率优化处理中的至少一种。
如权利要求15所述的管理装置，其中，所述处理模块设置为对所述关键字策略中的每一条关键字分别进行查准率、查全率的预测，将预测结果与优化目标进行比较，根据比较结果管理所述关键字。
如权利要求16所述的管理装置，其中，所述处理模块设置为删除预测结果差的关键字，建议处理预测结果一般的关键字，保留预测结果好的关键字。
如权利要求15所述的管理装置，其中，所述处理模块设置为确定所述普通短信中没有被拦截的垃圾短信库，计算所述没有被拦截的垃圾短信库的拦截关键词，将所述拦截关键词添加到所述关键字策略。
如权利要求15所述的管理装置，其中，所述处理模块设置为针对每一条关键词，判断是否存在与其重复的关键词，若存在，则删除；判断是否存在与其交叉的关键词，若存在，则组合整理；判断是否存在与其可合并的关键词，若存在，则合并。
如权利要求14所述的管理装置，其中，所述处理模块还设置为对评估优化处理后的关键词策略重新进行评估优化处理，直至达到优化目标，或者达到预定次数。
如权利要求14至20任一项所述的管理装置，其中，还包括建立模块，设置为从所述垃圾短信监控系统及投诉平台获取垃圾短信样本及正常短信样本，根据所述垃圾短信样本及正常短信样本建立所述短信样本库。
如权利要求21所述的管理装置，其中，所述建立模块设置为将所述垃圾短信样本及正常短信样本直接添加到所述短信样本库的可信样本库，根据所述可信样本库对所述垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核，并存入所述短信样本库。
如权利要求22所述的管理装置，其中，所述建立模块设置为根据所述待检测短信的指纹签名、与所述垃圾短信样本及正常短信样本的指纹签名的相似性，对所述待检测短信进行分类审核。
如权利要求23所述的管理装置，其中，所述建立模块设置为所述从垃圾短信样本中提取每条短信内容的垃圾指纹签名，比较待检测短信的指纹签名与垃圾指纹签名的相似性，如果两者相似，则将待检测短信法分为垃圾短信；从所述正常短信样本中提取每条短信内容的正常指纹签名，比较待检测短信的指纹签名与正常指纹签名的相似性，如果两者相似，则将待检测短信法分为正常短信。
如权利要求22所述的管理装置，其中，所述建立模块设置为学习所述可信样本库生成垃圾短信分类器，利用所述垃圾短信分类器对所述垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核。
如权利要求25所述的管理装置，其中，所述建立模块设置为从所述垃圾短信样本中抽取一批垃圾短信样本，从所述正常短信样本中抽取一批正常短信样本；对抽取的短信内容样本进行预处理；对预处理后的短信内容进行中文分词，最终生成短信的分词；依次每个分词在垃圾短信样本中的权重以及在正常短信样本中的权重。
一种垃圾短信监控系统，使用如权利要求14至26任一项所述的管理装置管理关键字策略。
一种计算机存储介质，所述计算机存储介质存储有执行指令，所述执行指令用于执行权利要求1至13中任一项所述的方法。