CN106376002B - 一种管理方法及装置、垃圾短信监控系统 - Google Patents

一种管理方法及装置、垃圾短信监控系统 Download PDF

Info

Publication number
CN106376002B
CN106376002B CN201510427184.4A CN201510427184A CN106376002B CN 106376002 B CN106376002 B CN 106376002B CN 201510427184 A CN201510427184 A CN 201510427184A CN 106376002 B CN106376002 B CN 106376002B
Authority
CN
China
Prior art keywords
short message
spam
keyword
message
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510427184.4A
Other languages
English (en)
Other versions
CN106376002A (zh
Inventor
李冠军
侯振强
于思亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201510427184.4A priority Critical patent/CN106376002B/zh
Priority to PCT/CN2016/075548 priority patent/WO2016177069A1/zh
Publication of CN106376002A publication Critical patent/CN106376002A/zh
Application granted granted Critical
Publication of CN106376002B publication Critical patent/CN106376002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/18Service support devices; Network management devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud
    • H04W12/128Anti-malware arrangements, e.g. protection against SMS fraud or mobile malware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements
    • H04W4/14Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]

Abstract

本发明提供了一种管理方法及装置、垃圾短信监控系统,该方法包括:获取垃圾短信监控系统的关键字策略;基于短信样本库对关键字策略进行评估优化处理,根据处理结果处理关键字策略;发送评估优化处理后的关键字策略至垃圾短信监控系统。通过本发明的实施,根据短信样本库对关键字策略进行评估优化处理,不需要人工进行干预,实现了根据短信样本库对关键字策略的自动优化管理,使得关键字策略更加完整、拦截更加准确,解决了现有人工提供关键字策略不能满足用户日历增强的使用需求的问题,增强了用户的使用体验。

Description

一种管理方法及装置、垃圾短信监控系统
技术领域
本发明涉及垃圾短信监控领域,尤其涉及一种管理方法及装置、垃圾短信监控系统。
背景技术
随着垃圾短信的日益频繁,严重的影响了用户的正常生活,为了减小这些垃圾短信,现有技术通过垃圾短信监控系统对短信进行分析,筛选垃圾短信,以提高用户使用体验。
现有垃圾短信监控系统是使用运营商运维人员根据经验提供的关键字,如“开发票、转账”等,对短信内容进行分析筛选,这种方式在筛选剔除垃圾短信的同时,也不可避免的导致部分用户的正常短信被剔除,存在误拦的问题,同时,运维人员提供关键字,劳动量大,并不可避免的会出现漏拦的垃圾短信。即,现有技术通过运维人员提供的关键字策略的方式不能满足用户日历增强的使用需求。
因此,如何提供一种可管理关键字策略的管理方法,是本领域技术人员亟待解决的技术问题。
发明内容
本发明提供了一种管理方法及装置、垃圾短信监控系统,以解决现有人工提供关键字策略不能满足用户日历增强的使用需求的问题。
本发明提供了一种用于垃圾短信监控系统的关键字策略的管理方法,其包括:获取垃圾短信监控系统的关键字策略;基于短信样本库对关键字策略进行评估优化处理,根据处理结果处理关键字策略;发送评估优化处理后的关键字策略至垃圾短信监控系统。
进一步的,评估优化处理包括:基于短信样本库模拟普通短信,对关键字策略中的每一条关键字执行垃圾短信误拦优化处理、垃圾短信漏拦优化处理、垃圾短信拦截效率优化处理中的至少一种。
进一步的,垃圾短信误拦优化处理包括:对关键字策略中的每一条关键字分别进行查准率、查全率的预测,将预测结果与优化目标进行比较,根据比较结果管理关键字。
进一步的,根据比较结果管理关键字包括:删除预测结果差的关键字,建议处理预测结果一般的关键字,保留预测结果好的关键字。
进一步的,垃圾短信漏拦优化处理包括:确定普通短信中没有被拦截的垃圾短信库,计算没有被拦截的垃圾短信库的拦截关键词,将拦截关键词添加到关键字策略。
进一步的,垃圾短信拦截效率优化处理包括:针对每一条关键词,判断是否存在与其重复的关键词,若存在,则删除;判断是否存在与其交叉的关键词,若存在,则组合整理;判断是否存在与其可合并的关键词,若存在,则合并。
进一步的,还包括:对评估优化处理后的关键词策略重新进行评估优化处理,直至达到优化目标,或者达到预定次数。
进一步的,还包括:从垃圾短信监控系统及投诉平台获取垃圾短信样本及正常短信样本,根据垃圾短信样本及正常短信样本建立短信样本库。
进一步的,根据垃圾短信样本及正常短信样本建立短信样本库包括:将垃圾短信样本及正常短信样本直接添加到短信样本库的可信样本库,根据可信样本库对垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核,并存入短信样本库。
进一步的,根据可信样本库对垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核包括:根据待检测短信的指纹签名、与垃圾短信样本及正常短信样本的指纹签名的相似性,对待检测短信进行分类审核。
进一步的,根据待检测短信的指纹签名、与垃圾短信样本及正常短信样本的指纹签名的相似度,对待检测短信进行分类审核包括:从垃圾短信样本中提取每条短信内容的垃圾指纹签名,比较待检测短信的指纹签名与垃圾指纹签名的相似性,如果两者相似,则将待检测短信划分为垃圾短信;从正常短信样本中提取每条短信内容的正常指纹签名,比较待检测短信的指纹签名与正常指纹签名的相似性,如果两者相似,则将待检测短信划分为正常短信。
进一步的,根据可信样本库对垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核还包括:学习可信样本库生成垃圾短信分类器,利用垃圾短信分类器对垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核。
进一步的,学习可信样本库生成垃圾短信分类器包括:从垃圾短信样本中抽取一批垃圾短信样本,从正常短信样本中抽取一批正常短信样本;对抽取的短信内容样本进行预处理;对预处理后的短信内容进行中文分词,最终生成短信的分词;依次每个分词在垃圾短信样本中的权重以及在正常短信样本中的权重。
本发明提供了一种用于垃圾短信监控系统的关键字策略的管理装置,其包括:获取模块,用于获取垃圾短信监控系统的关键字策略;处理模块,用于基于短信样本库对关键字策略进行评估优化处理,根据处理结果处理关键字策略;发送模块,用于发送评估优化处理后的关键字策略至垃圾短信监控系统。
进一步的,处理模块用于基于短信样本库模拟普通短信,对关键字策略中的每一条关键字执行垃圾短信误拦优化处理、垃圾短信漏拦优化处理、垃圾短信拦截效率优化处理中的至少一种。
进一步的,处理模块用于对关键字策略中的每一条关键字分别进行查准率、查全率的预测,将预测结果与优化目标进行比较,根据比较结果管理关键字。
进一步的,处理模块用于删除预测结果差的关键字,建议处理预测结果一般的关键字,保留预测结果好的关键字。
进一步的,处理模块用于确定普通短信中没有被拦截的垃圾短信库,计算没有被拦截的垃圾短信库的拦截关键词,将拦截关键词添加到关键字策略。
进一步的,处理模块用于针对每一条关键词,判断是否存在与其重复的关键词,若存在,则删除;判断是否存在与其交叉的关键词,若存在,则组合整理;判断是否存在与其可合并的关键词,若存在,则合并。
进一步的,处理模块还用于对评估优化处理后的关键词策略重新进行评估优化处理,直至达到优化目标,或者达到预定次数。
进一步的,还包括建立模块,用于从垃圾短信监控系统及投诉平台获取垃圾短信样本及正常短信样本,根据垃圾短信样本及正常短信样本建立短信样本库。
进一步的,建立模块用于将垃圾短信样本及正常短信样本直接添加到短信样本库的可信样本库,根据可信样本库对垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核,并存入短信样本库。
进一步的,建立模块用于根据待检测短信的指纹签名、与垃圾短信样本及正常短信样本的指纹签名的相似性,对待检测短信进行分类审核。
进一步的,建立模块用于从垃圾短信样本中提取每条短信内容的垃圾指纹签名,比较待检测短信的指纹签名与垃圾指纹签名的相似性,如果两者相似,则将待检测短信划分为垃圾短信;从正常短信样本中提取每条短信内容的正常指纹签名,比较待检测短信的指纹签名与正常指纹签名的相似性,如果两者相似,则将待检测短信划分为正常短信。
进一步的,建立模块用于学习可信样本库生成垃圾短信分类器,利用垃圾短信分类器对垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核。
进一步的,建立模块用于从垃圾短信样本中抽取一批垃圾短信样本,从正常短信样本中抽取一批正常短信样本;对抽取的短信内容样本进行预处理;对预处理后的短信内容进行中文分词,最终生成短信的分词;依次每个分词在垃圾短信样本中的权重以及在正常短信样本中的权重。
本发明提供了一种垃圾短信监控系统,其使用本发明提供的管理装置管理关键字测控。
本发明的有益效果:
本发明提供了一种新的管理方法,根据短信样本库对关键字策略进行评估优化处理,不需要人工进行干预,实现了根据短信样本库对关键字策略的自动优化管理,使得关键字策略更加完整、拦截更加准确,解决了现有人工提供关键字策略不能满足用户日历增强的使用需求的问题,增强了用户的使用体验。
附图说明
图1为本发明第一实施例提供的管理装置的结构示意图;
图2为本发明第二实施例提供的管理方法的流程图;
图3为本发明第三实施例提供的管理方法的流程图;
图4为本发明第三实施例中短信指纹识别的示意图。
具体实施方式
现通过具体实施方式结合附图的方式对本发明做出进一步的诠释说明。
第一实施例:
图1为本发明第一实施例提供的管理装置的结构示意图,由图1可知,在本实施例中,本发明提供的管理装置1包括:
获取模块11,用于获取垃圾短信监控系统的关键字策略;
处理模块12,用于基于短信样本库对关键字策略进行评估优化处理,根据处理结果处理关键字策略;
发送模块13,用于发送评估优化处理后的关键字策略至垃圾短信监控系统。
在一些实施例中,上述实施例中的处理模块12用于基于短信样本库模拟普通短信,对关键字策略中的每一条关键字执行垃圾短信误拦优化处理、垃圾短信漏拦优化处理、垃圾短信拦截效率优化处理中的至少一种。
在一些实施例中,上述实施例中的处理模块12用于对关键字策略中的每一条关键字分别进行查准率、查全率的预测,将预测结果与优化目标进行比较,根据比较结果管理关键字。
在一些实施例中,上述实施例中的处理模块12用于删除预测结果差的关键字,建议处理预测结果一般的关键字,保留预测结果好的关键字。
在一些实施例中,上述实施例中的处理模块12用于确定普通短信中没有被拦截的垃圾短信库,计算没有被拦截的垃圾短信库的拦截关键词,将拦截关键词添加到关键字策略。
在一些实施例中,上述实施例中的处理模块12用于针对每一条关键词,判断是否存在与其重复的关键词,若存在,则删除;判断是否存在与其交叉的关键词,若存在,则组合整理;判断是否存在与其可合并的关键词,若存在,则合并。
在一些实施例中,上述实施例中的处理模块12还用于对评估优化处理后的关键词策略重新进行评估优化处理,直至达到优化目标,或者达到预定次数。
在一些实施例中,如图1所示,上述实施例中的管理装置还包括建立模块14,用于从垃圾短信监控系统及投诉平台获取垃圾短信样本及正常短信样本,根据垃圾短信样本及正常短信样本建立短信样本库。
在一些实施例中,上述实施例中的建立模块14用于将垃圾短信样本及正常短信样本直接添加到短信样本库的可信样本库,根据可信样本库对垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核,并存入短信样本库。
在一些实施例中,上述实施例中的建立模块14用于根据待检测短信的指纹签名、与垃圾短信样本及正常短信样本的指纹签名的相似性,对待检测短信进行分类审核。
在一些实施例中,上述实施例中的建立模块14用于从垃圾短信样本中提取每条短信内容的垃圾指纹签名,比较待检测短信的指纹签名与垃圾指纹签名的相似性,如果两者相似,则将待检测短信划分为垃圾短信;从正常短信样本中提取每条短信内容的正常指纹签名,比较待检测短信的指纹签名与正常指纹签名的相似性,如果两者相似,则将待检测短信划分为正常短信。
在一些实施例中,上述实施例中的建立模块14用于学习可信样本库生成垃圾短信分类器,利用垃圾短信分类器对垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核。
在一些实施例中,上述实施例中的建立模块14用于从垃圾短信样本中抽取一批垃圾短信样本,从正常短信样本中抽取一批正常短信样本;对抽取的短信内容样本进行预处理;对预处理后的短信内容进行中文分词,最终生成短信的分词;依次每个分词在垃圾短信样本中的权重以及在正常短信样本中的权重。
对应的,本发明提供了一种垃圾短信监控系统,其使用本发明提供的管理装置1管理关键字测控。
第二实施例:
图2为本发明第二实施例提供的管理方法的流程图,由图2可知,在本实施例中,本发明提供的管理方法包括以下步骤:
S201:获取垃圾短信监控系统的关键字策略;
S202:基于短信样本库对关键字策略进行评估优化处理,根据处理结果处理关键字策略;
S203:发送评估优化处理后的关键字策略至垃圾短信监控系统。
在一些实施例中,上述实施例中的评估优化处理包括:基于短信样本库模拟普通短信,对关键字策略中的每一条关键字执行垃圾短信误拦优化处理、垃圾短信漏拦优化处理、垃圾短信拦截效率优化处理中的至少一种。
在一些实施例中,上述实施例中的垃圾短信误拦优化处理包括:对关键字策略中的每一条关键字分别进行查准率、查全率的预测,将预测结果与优化目标进行比较,根据比较结果管理关键字。
在一些实施例中,上述实施例中的根据比较结果管理关键字包括:删除预测结果差的关键字,建议处理预测结果一般的关键字,保留预测结果好的关键字。
在一些实施例中,上述实施例中的垃圾短信漏拦优化处理包括:确定普通短信中没有被拦截的垃圾短信库,计算没有被拦截的垃圾短信库的拦截关键词,将拦截关键词添加到关键字策略。
在一些实施例中,上述实施例中的垃圾短信拦截效率优化处理包括:针对每一条关键词,判断是否存在与其重复的关键词,若存在,则删除;判断是否存在与其交叉的关键词,若存在,则组合整理;判断是否存在与其可合并的关键词,若存在,则合并。
在一些实施例中,上述实施例中的方法还包括:对评估优化处理后的关键词策略重新进行评估优化处理,直至达到优化目标,或者达到预定次数。
在一些实施例中,上述实施例中的方法还包括:从垃圾短信监控系统及投诉平台获取垃圾短信样本及正常短信样本,根据垃圾短信样本及正常短信样本建立短信样本库。
在一些实施例中,上述实施例中的根据垃圾短信样本及正常短信样本建立短信样本库包括:将垃圾短信样本及正常短信样本直接添加到短信样本库的可信样本库,根据可信样本库对垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核,并存入短信样本库。
在一些实施例中,上述实施例中的根据可信样本库对垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核包括:根据待检测短信的指纹签名、与垃圾短信样本及正常短信样本的指纹签名的相似性,对待检测短信进行分类审核。
在一些实施例中,上述实施例中的根据待检测短信的指纹签名、与垃圾短信样本及正常短信样本的指纹签名的相似度,对待检测短信进行分类审核包括:从垃圾短信样本中提取每条短信内容的垃圾指纹签名,比较待检测短信的指纹签名与垃圾指纹签名的相似性,如果两者相似,则将待检测短信划分为垃圾短信;从正常短信样本中提取每条短信内容的正常指纹签名,比较待检测短信的指纹签名与正常指纹签名的相似性,如果两者相似,则将待检测短信划分为正常短信。
在一些实施例中,上述实施例中的根据可信样本库对垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核还包括:学习可信样本库生成垃圾短信分类器,利用垃圾短信分类器对垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核。
在一些实施例中,上述实施例中的学习可信样本库生成垃圾短信分类器包括:从垃圾短信样本中抽取一批垃圾短信样本,从正常短信样本中抽取一批正常短信样本;对抽取的短信内容样本进行预处理;对预处理后的短信内容进行中文分词,最终生成短信的分词;依次每个分词在垃圾短信样本中的权重以及在正常短信样本中的权重。
本发明所涉及的短信包括场景的短信息、彩信、广播消息、邮件等信息。
现结合具体应用场景对本发明做进一步的诠释说明。
第三实施例:
图3为本发明第三实施例提供的管理方法的流程图,由图3可知,在本实施例中,本发明提供的管理方法包括以下步骤:
S301:管理装置与垃圾短信监控系统、投诉平台进行数据同步。
本发明提供管理装置与垃圾短信监控系统之间、与投诉平台之间有数据同步接口。具体的,IF1接口:从垃圾短信监控系统和投诉平台接收垃圾短信和正常短信样本,经过自动审核形成可信的垃圾短信样本库和正常短信样本库,样本库内的样本是评估优化的基础;IF2接口:从垃圾短信监控系统接收正式部署前待评估优化的关键字策略;IF3:将评估优化后的关键字策略同步垃圾短信监控系统用于正式部署上线。
S302:管理装置建立短信样本库。
管理装置将通过同步获取的短信内的垃圾短信(用户标记或者投诉举报的)、正常短信添加到短信样本库内的可信样本库。
S303:垃圾短信分类器的学习训练。
本实施例以朴素贝叶斯分类器的学习训练为例,进行说明。具体的流程描述如下:
1)从垃圾短信样本库中抽取一批垃圾短信样本,从正常短信样本库中抽取一批正常短信样本,P(C0)=(垃圾短信样本条数)/(垃圾短信样本条数+正常短信样本条数),P(C1)=(正常短信样本条数)/(垃圾短信样本条数+正常短信样本条数);
2)对抽取的短信内容样本进行预处理,包括但不限于内容过短消息剔除,如内容少于10个字;噪声处理,如删除空格、标点符号等特殊字符等;
3)对预处理后的短信内容进行中文分词,最终生成短信的分词特征向量Dx,Dx={W1,W2,W3,W4,.......Wn},其中n为该短信内容包括的分词总数,Wt为分词,词与词之间顺序无关,即采用一元向量模型;
4)从Dx中依次取出分词,计算每个分词的权重,Wt在垃圾短信样本中的权重P(Wt|C0)=(在垃圾短信样本中含有该分词的样本条数)/(垃圾短信样本条数),Wt在正常短信样本中的权重P(Wt|C1)=(在正常短信样本中含有该分词的样本条数)/(正常短信样本条数);
通过上述学习训练得到一个朴素贝叶斯分类器。
基于朴素贝叶斯短信分类的核心思想,是计算待检测短信属于正常短信以及垃圾短信的概率,如果短信属于垃圾短信的概率P(C0|Dx),大于属于正常短信的概率P(C1|Dx),则认为该短信为垃圾短信,否则认为是正常短信。
因此朴素贝叶斯分类可以转换为计算以下信息:
Figure GDA0003004889320000121
这里C0表示垃圾短信类,C1表示正常短信类;P(C0),P(C1)分别为垃圾短信和正常短信的全局概率,可以通过统计概率获得,P(C0)取垃圾短信样本条数占(垃圾短信样本条数+正常短信样本条数)比值;P(C1)取正常短信样本条数占(垃圾短信样本条数+正常短信样本条数)比值。
短信内容表示为分词向量,并且将分词视为相互独立的,则P(Dx|Cj)可以表示为各个分词在Cj类下的条件概率的乘积,因此P(Wt|C0)相应表示为分词Wt在垃圾短信类出现的概率,P(Wt|C1)相应表示为分词Wt在正常短信类出现的概率。
面对朴素贝叶斯分类器的使用进行举例说明。
假设一个朴素贝叶斯分类器的垃圾短信样本条数与正常短信样本条数的比例为5:95,即P(C0)等于0.05,P(C1)等于0.95。
对待检测短信内容“现有发票可开联系林燕”分词;
Dx={现有,发票,开,联系,林,燕}
在分类器中上述分词对应的权重如下:
分词 P(Wi|C0) P(Wi|C1)
现有 0.016846 0.006351
发票 0.027553 0.003003
0.012857 0.018764
联系 0.010556 0.007387
0.000485 0.000295
0.000402 0.000382
因此根据朴素贝叶斯公式P(C0|Dx)/P(C1|Dx)
(0.05/0.95)*(0.016846/0.006351)*(0.027553/0.003003)*(0.012857/0.018764)*(0.010556/0.007387)*(0.000485/0.000295)*(0.000402/0.000382)
=4.58
这条待检测短信属于垃圾短信的概率是属于正常短信的概率的4.58倍,因此该消息属于垃圾短信。
为提升准确性,本实施例提出朴素贝叶斯多分类器的概念,朴素贝叶斯多分类器是指从垃圾短信样本库和正常短信样本库中抽取N组样本,每组样本包含一批垃圾短信样本和一批正常短信样本,N默认为30组,每组样本学习训练一个分类器,在识别待检测短信时,每组分类器都进行检测打分,当超过一半的分类器识别为垃圾短信时则认为是垃圾短信,通过引入打分机制有效的提高了准确率。
S304:更新短信样本库。
本步骤先通过指纹识别短信类型,针对无法识别的短信,则通过分类器进行识别,仍然无法识别的短信,则丢弃处理。具体的,
基于指纹签名识别的核心思想,从垃圾短信样本库中提取每条短信内容的垃圾指纹签名,比较待检测短信的指纹签名与垃圾指纹签名的相似性,如果两者相似,则将待检测短信划分为垃圾短信;同理从正常短信样本库中提取每条短信内容的正常指纹签名,比较待检测短信的指纹签名与正常指纹签名的相似性,如果两者相似,则将待检测短信划分为正常短信。
如图4所示,指纹签名提取流程描述如下:
1)将短信内容进行预处理,包括但不限于噪声处理,如删除空格、标点符号等特殊字符等;
2)对预处理后的短信内容按照分词切片大小3进行切片,得到分词向量Dx,Dx={W1,W2,W3,W4,.......Wi},其中i为该短信内容包括的分词总数,词与词之间无序,随机排列;
3)使用N组HASH函数,依次对Dy中所有分词计算HASH值,并取出每个分词HASH最小的值,得到HASH特征向量即指纹签名Dy,Dy={H1,H2,H3,H4,.......Hi}。
指纹签名相似度比较的流程判断如下:
1)依次从垃圾短信样本中提取样本的指纹签名Di,其中i为垃圾指纹签名的总数,将Di中每个指纹签名分成b个段(桶),每个段有r行(桶容量);
2)依次从正常短信样本中提取样本的指纹签名Dj,其中j为正常指纹签名的总数,将Dj中每个指纹签名分成b个段(桶),每个段有r行(桶容量);
3)从待检测短信中提取指纹签名D1,将D1分成b个段(桶),每个段有r行(桶容量),如果D1中某一段与Di中某一段落入到同一个桶里面,那么这两条消息就是相似的,这时待检测短信就是垃圾短信;如果D1中某一段与Dj中某一段落入到同一个桶里面,那么这两条消息就是相似的,这时待检测短信就是正常短信。
为了更新短信样本库,本实施例通过对垃圾短信监控系统拦截的待分类短信(非用户举报的,可能存在误拦的问题)执行自动审核,流程描述如下:
1)从垃圾短信监控系统和投诉平台接收垃圾短信和正常短信样本;
2)外部样本中的可信样本已经是人工标记垃圾短信或正常短信,例如垃圾短信监控系统中人工审核的样本和投诉平台样本,因此直接根据标记进入垃圾短信样本库和正常短信样本库;
3)外部样本中的非可信样本,例如垃圾短信监控系统通过机器识别出的疑似垃圾短信,需要通过垃圾短信分类器进行自动审核;
4)非可信样本首先进入指纹签名识别分类器环节,当分类器识别为正常短信时进入正常短信样本库,当分类器识别为垃圾短信时进入垃圾短信样本库,当分类器无法识别时进入朴素贝叶斯分类器识别环节;
5)朴素贝叶斯分类器对非可信样本进行检测,当分类器识别为正常短信时进入正常短信样本库,当分类器识别为垃圾短信时进入垃圾短信样本库,当分类器无法识别时直接丢弃。
基于短信样本库,本实施例还提供了关键字策略提取机制,主要流程描述如下:
1)基于朴素贝叶斯短信分类,从垃圾短信样本库中抽取所有垃圾短信样本,从正常短信样本库中抽取所有正常短信样本,P(C0)=(全部垃圾短信样本条数)/(全部垃圾短信样本条数+全部正常短信样本条数),P(C1)=(全部正常短信样本条数)/(全部垃圾短信样本条数+全部正常短信样本条数);
2)对抽取的短信内容样本进行预处理,包括但不限于内容过短消息剔除,如内容少于10个字;噪声处理,如删除空格、标点符号等特殊字符等;
3)对预处理后的短信内容进行中文分词,最终生成短信的分词特征向量Dx,Dx={W1,W2,W3,W4,.......Wn},其中n为该短信内容包括的分词总数,Wt为分词,词与词之间顺序无关,即采用一元向量模型;
4)从Dx中依次取出分词,计算每个分词的权重,Wt在垃圾短信样本中的权重P(Wt|C0)=(在垃圾短信样本中含有该分词的样本条数)/(全部垃圾短信样本条数),Wt在正常短信样本中的权重P(Wt|C1)=(在正常短信样本中含有该分词的样本条数)/(全部正常短信样本条数),最终得到朴素贝叶斯分类器;
5)针对从垃圾短信样本库中获得的Dx,使用朴素贝叶斯分类器,计算Dx中各分词属于垃圾短信的概率值,得到Wx,将Wx中分词按照概率值从大到小排序,得到Wx={E1,E2,E3,E4,.......En},其中E1≥E2≥E3.......≥En;
6)基于上述概率值Wx,对分词特征向量Dx进行降维,筛选出概率最大的M个特征值,且每个特征值要大于某个阈值K,如果概率值筛选出的特征值数量小于L,则抛弃此分词特征向量Dx,最后得出如下维度为M的权值特征向量:
Wx={W1,W2,W3.......WM},
获取该概率值对应的分词,得到该垃圾短信样本备选的分词特征向量
Dx’={T1,T2,T3,T4,.......TM}
此向量即为该条样本备选的关键字集合;
7)将备选的关键字通过与&关系组合为关键字规则,即(T1)&(T2)&…&(TM),因此每条备选关键字规则都对应一个垃圾短信样本库中的样本。
在更新短信样本库之后,返回执行步骤S303,进行分类型的学习训练。
S305:对垃圾短信监控系统的关键字策略进行优化处理。
本步骤包括的业务流程描述如下:
1)从垃圾短信监控系统接收正式部署前待评估优化的关键字策略;
2)预评估对垃圾短信监控系统的环境进行模拟重现,加载待评估的关键字策略;
3)预评估基于样本库中的垃圾短信样本和正常短信样本,模拟普通短信发送至预评估环境进行测试;在预评估分析过程中,检测分析待评估关键字策略的有效性,将各关键字规则监控到样本与样本本身垃圾短信样本或正常短信样本属性进行比对等,分析查准率、查全率等;
4)并将预测结果与优化目标进行比对,若未达到优化目标则进入智能优化,若达到优化目标则优化完成保存策略;
5)智能优化根据预评估结果,分析每一条规则实际的价值,从漏拦和误拦等角度进行优化,发现无效策略、合并重复策略,分析现有策略的盲点,引入新的关键字策略;
6)优化后的策略再次进入步骤3进行预评估,预评估和智能优化形成循环迭代,直到达到优化目标或最终达到循环迭代最大次数。
具体的,误拦分析流程需按设定条件进行优化,标准:
(1)对于查准率小于等于X1且贡献量小于等于Y1的规则,做出删除处理;
(2)对于查准率小于等于X2且贡献量小于等于Y2的规则,进行误拦优化处理;
(3)整体执行效率优化输出新策略。
其中,X1、X2、Y1、Y2均可配置,且N1<N2,X1<X2,Y1<Y2;规则贡献量是指某条规则命中的垃圾短信样本数。
误拦优化的方法为:
1)使用朴素贝叶斯分类器计算规则中各关键字为垃圾短信的概率值;
2)对关键字规则中各关键字按照概率值排序,删除概率值低的单个关键字。
漏拦优化的方法为:
(1)从预评估结果中获取漏拦样本集合,该集合是垃圾短信样本库的子集;
(2)由于样本管理模块已经针对垃圾短信样本库中的每条样本做了备选关键字规则提取,因此仅需要分析漏拦样本,找到每条样本对应的备选关键字规则;
(3)将备选关键字规则补充进来;
(4)整体执行效率优化输出新策略。
效率优化能够针对性能降低关键字组合策略,进行效率提升,包括:
(1)分析单条关键字规则内部是否存在词组的包含关系,并给出优化建议;
(2)分析多条关键字规则间的交织、重合和包含关系,对相似策略进行聚类。
综上可知,通过本发明的实施,至少存在以下有益效果:
根据短信样本库对关键字策略进行评估优化处理,不需要人工进行干预,实现了根据短信样本库对关键字策略的自动优化管理,使得关键字策略更加完整、拦截更加准确,解决了现有人工提供关键字策略不能满足用户日历增强的使用需求的问题,增强了用户的使用体验。
以上仅是本发明的具体实施方式而已,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施方式所做的任意简单修改、等同变化、结合或修饰,均仍属于本发明技术方案的保护范围。

Claims (17)

1.一种用于垃圾短信监控系统的关键字策略的管理方法,其特征在于,包括:
从所述垃圾短信监控系统及投诉平台获取垃圾短信样本及正常短信样本,将所述垃圾短信样本及正常短信样本直接添加到短信样本库的可信样本库,根据所述可信样本库对所述垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核,并存入所述短信样本库;
其中,所述根据所述可信样本库对所述垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核包括:将所述垃圾短信样本及正常短信样本直接添加到短信样本库的可信样本库,根据所述待检测短信的指纹签名、与所述垃圾短信样本及正常短信样本的指纹签名的相似性,对所述待检测短信进行分类审核;或者,学习所述可信样本库生成垃圾短信分类器,利用所述垃圾短信分类器对所述垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核;
获取所述垃圾短信监控系统的关键字策略;
基于所述短信样本库对所述关键字策略进行评估优化处理,根据处理结果处理所述关键字策略;所述评估优化处理包括:基于所述短信样本库模拟普通短信,对所述关键字策略中的每一条关键字执行垃圾短信误拦优化处理、垃圾短信漏拦优化处理、垃圾短信拦截效率优化处理中的至少一种;
发送评估优化处理后的关键字策略至所述垃圾短信监控系统。
2.如权利要求1所述的管理方法,其特征在于,所述垃圾短信误拦优化处理包括:对所述关键字策略中的每一条关键字分别进行查准率、查全率的预测,将预测结果与优化目标进行比较,根据比较结果管理所述关键字。
3.如权利要求2所述的管理方法,其特征在于,所述根据比较结果管理所述关键字包括:删除预测结果差的关键字,建议处理预测结果一般的关键字,保留预测结果好的关键字。
4.如权利要求1所述的管理方法,其特征在于,所述垃圾短信漏拦优化处理包括:确定所述普通短信中没有被拦截的垃圾短信库,计算所述没有被拦截的垃圾短信库的拦截关键词,将所述拦截关键词添加到所述关键字策略。
5.如权利要求1所述的管理方法,其特征在于,所述垃圾短信拦截效率优化处理包括:针对每一条关键词,判断是否存在与其重复的关键词,若存在,则删除;判断是否存在与其交叉的关键词,若存在,则组合整理;判断是否存在与其可合并的关键词,若存在,则合并。
6.如权利要求1所述的管理方法,其特征在于,还包括:对评估优化处理后的关键词策略重新进行评估优化处理,直至达到优化目标,或者达到预定次数。
7.如权利要求1所述的管理方法,其特征在于,所述根据所述待检测短信的指纹签名、与所述垃圾短信样本及正常短信样本的指纹签名的相似性,对所述待检测短信进行分类审核包括:从所述垃圾短信样本中提取每条短信内容的垃圾指纹签名,比较待检测短信的指纹签名与垃圾指纹签名的相似性,如果两者相似,则将待检测短信划分为垃圾短信;从所述正常短信样本中提取每条短信内容的正常指纹签名,比较待检测短信的指纹签名与正常指纹签名的相似性,如果两者相似,则将待检测短信划分为正常短信。
8.如权利要求1所述的管理方法,其特征在于,所述学习所述可信样本库生成垃圾短信分类器包括:从所述垃圾短信样本中抽取一批垃圾短信样本,从所述正常短信样本中抽取一批正常短信样本;对抽取的短信内容样本进行预处理;对预处理后的短信内容进行中文分词,最终生成短信的分词;依次计算每个分词在垃圾短信样本中的权重以及在正常短信样本中的权重。
9.一种用于垃圾短信监控系统的关键字策略的管理装置,其特征在于,包括:
建立模块,用于从所述垃圾短信监控系统及投诉平台获取垃圾短信样本及正常短信样本,将所述垃圾短信样本及正常短信样本直接添加到短信样本库的可信样本库,根据所述可信样本库对所述垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核,并存入所述短信样本库;其中,所述根据所述可信样本库对所述垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核包括:根据所述待检测短信的指纹签名、与所述垃圾短信样本及正常短信样本的指纹签名的相似性,对所述待检测短信进行分类审核;或者,学习所述可信样本库生成垃圾短信分类器,利用所述垃圾短信分类器对所述垃圾短信监控系统及投诉平台同步的待检测短信进行分类审核;
获取模块,用于获取所述垃圾短信监控系统的关键字策略;
处理模块,用于基于短信样本库对所述关键字策略进行评估优化处理,根据处理结果处理所述关键字策略;
所述处理模块用于基于所述短信样本库模拟普通短信,对所述关键字策略中的每一条关键字执行垃圾短信误拦优化处理、垃圾短信漏拦优化处理、垃圾短信拦截效率优化处理中的至少一种;
发送模块,用于发送评估优化处理后的关键字策略至所述垃圾短信监控系统。
10.如权利要求9所述的管理装置,其特征在于,所述处理模块用于对所述关键字策略中的每一条关键字分别进行查准率、查全率的预测,将预测结果与优化目标进行比较,根据比较结果管理所述关键字。
11.如权利要求10所述的管理装置,其特征在于,所述处理模块用于删除预测结果差的关键字,建议处理预测结果一般的关键字,保留预测结果好的关键字。
12.如权利要求9所述的管理装置,其特征在于,所述处理模块用于确定所述普通短信中没有被拦截的垃圾短信库,计算所述没有被拦截的垃圾短信库的拦截关键词,将所述拦截关键词添加到所述关键字策略。
13.如权利要求9所述的管理装置,其特征在于,所述处理模块用于针对每一条关键词,判断是否存在与其重复的关键词,若存在,则删除;判断是否存在与其交叉的关键词,若存在,则组合整理;判断是否存在与其可合并的关键词,若存在,则合并。
14.如权利要求9所述的管理装置,其特征在于,所述处理模块还用于对评估优化处理后的关键词策略重新进行评估优化处理,直至达到优化目标,或者达到预定次数。
15.如权利要求9所述的管理装置,其特征在于,所述建立模块用于从所述垃圾短信样本中提取每条短信内容的垃圾指纹签名,比较待检测短信的指纹签名与垃圾指纹签名的相似性,如果两者相似,则将待检测短信划分为垃圾短信;从所述正常短信样本中提取每条短信内容的正常指纹签名,比较待检测短信的指纹签名与正常指纹签名的相似性,如果两者相似,则将待检测短信划分为正常短信。
16.如权利要求9所述的管理装置,其特征在于,所述建立模块用于从所述垃圾短信样本中抽取一批垃圾短信样本,从所述正常短信样本中抽取一批正常短信样本;对抽取的短信内容样本进行预处理;对预处理后的短信内容进行中文分词,最终生成短信的分词;依次计算每个分词在垃圾短信样本中的权重以及在正常短信样本中的权重。
17.一种垃圾短信监控系统,其特征在于,使用如权利要求9至16任一项所述的管理装置管理关键字策略。
CN201510427184.4A 2015-07-20 2015-07-20 一种管理方法及装置、垃圾短信监控系统 Active CN106376002B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510427184.4A CN106376002B (zh) 2015-07-20 2015-07-20 一种管理方法及装置、垃圾短信监控系统
PCT/CN2016/075548 WO2016177069A1 (zh) 2015-07-20 2016-03-03 一种管理方法、装置、垃圾短信监控系统及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510427184.4A CN106376002B (zh) 2015-07-20 2015-07-20 一种管理方法及装置、垃圾短信监控系统

Publications (2)

Publication Number Publication Date
CN106376002A CN106376002A (zh) 2017-02-01
CN106376002B true CN106376002B (zh) 2021-10-12

Family

ID=57218096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510427184.4A Active CN106376002B (zh) 2015-07-20 2015-07-20 一种管理方法及装置、垃圾短信监控系统

Country Status (2)

Country Link
CN (1) CN106376002B (zh)
WO (1) WO2016177069A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408795B (zh) * 2017-08-17 2022-04-15 中国移动通信集团公司 一种文本识别方法、设备、计算机可读存储介质及装置
CN109413595B (zh) * 2017-08-17 2020-09-25 中国移动通信集团公司 一种垃圾短信的识别方法、装置及存储介质
CN109819125A (zh) * 2017-11-20 2019-05-28 中兴通讯股份有限公司 一种限制电信诈骗的方法及装置
CN108810829B (zh) * 2018-04-19 2021-12-14 奇安信科技集团股份有限公司 一种彩信拦截处理方法及装置
CN109800435B (zh) * 2019-01-29 2023-06-20 北京金山数字娱乐科技有限公司 一种语言模型的训练方法及装置
CN110309446A (zh) * 2019-04-26 2019-10-08 深圳市赛为智能股份有限公司 文本内容快速去重方法、装置、计算机设备及存储介质
CN113316153B (zh) * 2020-04-02 2024-03-26 阿里巴巴集团控股有限公司 一种短信息检验方法、装置和系统
CN111970651A (zh) * 2020-08-18 2020-11-20 珠海格力电器股份有限公司 一种短消息处理方法、装置、电子设备及存储介质
CN114466314B (zh) * 2022-01-29 2024-04-02 重庆华唐云树科技有限公司 一种基于基站定位的固定人群手机号筛查方法
CN116089669B (zh) * 2023-03-09 2023-10-03 数影星球(杭州)科技有限公司 一种基于浏览器的网站上传拦截方式与系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101184259A (zh) * 2007-11-01 2008-05-21 浙江大学 垃圾短信中的关键词自动学习及更新方法
CN103634473A (zh) * 2013-12-05 2014-03-12 南京理工大学连云港研究院 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040083270A1 (en) * 2002-10-23 2004-04-29 David Heckerman Method and system for identifying junk e-mail
CN101257671B (zh) * 2007-07-06 2010-12-08 浙江大学 基于内容的大规模垃圾短信实时过滤方法
CN101447984B (zh) * 2008-11-28 2011-11-09 电子科技大学 一种自反馈垃圾信息过滤方法
CN101908055B (zh) * 2010-03-05 2013-02-13 黑龙江工程学院 一种信息过滤系统
CN101790142B (zh) * 2010-03-11 2012-11-14 上海粱江通信系统股份有限公司 结合短信内容和发送频次识别垃圾短信源的系统与方法
CN102857921B (zh) * 2011-06-30 2016-03-30 国际商业机器公司 判断垃圾信息发送者的方法及装置
CN102982048B (zh) * 2011-09-07 2017-08-01 百度在线网络技术(北京)有限公司 一种用于评估垃圾信息挖掘规则的方法与设备
CN103166932A (zh) * 2011-12-15 2013-06-19 上海粱江通信系统股份有限公司 识别并治理利用大量短信实施DDoS的系统及方法
CN103473492B (zh) * 2013-09-05 2016-11-02 北京百纳威尔科技有限公司 权限识别方法和用户终端

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101184259A (zh) * 2007-11-01 2008-05-21 浙江大学 垃圾短信中的关键词自动学习及更新方法
CN103634473A (zh) * 2013-12-05 2014-03-12 南京理工大学连云港研究院 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统

Also Published As

Publication number Publication date
WO2016177069A1 (zh) 2016-11-10
CN106376002A (zh) 2017-02-01

Similar Documents

Publication Publication Date Title
CN106376002B (zh) 一种管理方法及装置、垃圾短信监控系统
US8527436B2 (en) Automated parsing of e-mail messages
CN104408095B (zh) 一种基于改进的knn文本分类方法
EP2506154B1 (en) Text, character encoding and language recognition
CN111045847B (zh) 事件审计方法、装置、终端设备以及存储介质
CN109491914B (zh) 基于不平衡学习策略高影响缺陷报告预测方法
US11481707B2 (en) Risk prediction system and operation method thereof
Probierz et al. Rapid detection of fake news based on machine learning methods
CN111177367B (zh) 案件分类方法、分类模型训练方法及相关产品
CN111079029B (zh) 敏感账号的检测方法、存储介质和计算机设备
CN112036168B (zh) 事件主体识别模型优化方法、装置、设备及可读存储介质
CN110956123B (zh) 一种富媒体内容的审核方法、装置、服务器及存储介质
CN115473726A (zh) 一种识别域名的方法及装置
CN113590764B (zh) 训练样本构建方法、装置、电子设备和存储介质
CN105808602B (zh) 一种垃圾信息的检测方法及装置
CN112036169B (zh) 事件识别模型优化方法、装置、设备及可读存储介质
US20120136652A1 (en) Method, a computer program and apparatus for analyzing symbols in a computer
KR101806174B1 (ko) 스팸 문자 판별 시스템 및 방법, 이를 수행하기 위한 기록매체
CN113378156B (zh) 一种基于api的恶意文件检测方法和系统
CN113282686B (zh) 一种不平衡样本的关联规则确定方法及装置
CN111738290B (zh) 图像检测方法、模型构建和训练方法、装置、设备和介质
CN114510720A (zh) 一种基于特征融合和NLP技术的Android恶意软件分类方法
CN112686479A (zh) 基于联合模型的数据处理方法及装置
CN114329468B (zh) 一种基于映射关系的对抗性Android恶意软件检测方法
CN113946703B (zh) 一种图片漏检处理方法及其相关装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant