CN109426666B

CN109426666B - 垃圾短信识别方法、系统、可读存储介质及移动终端

Info

Publication number: CN109426666B
Application number: CN201710791095.7A
Authority: CN
Inventors: 李军; 徐平
Original assignee: Shanghai Pateo Network Technology Service Co Ltd
Current assignee: Shanghai Pateo Network Technology Service Co Ltd
Priority date: 2017-09-05
Filing date: 2017-09-05
Publication date: 2024-02-09
Anticipated expiration: 2037-09-05
Also published as: CN109426666A

Abstract

本发明提供一种垃圾短信识别方法、系统、可读存储介质及移动终端，所述方法包括：对待识别短信进行分词并获取每个词于待识别短信中的权重；根据每个词于待识别短信中的权重和预设的每个词于垃圾短信中的权重获取待识别短信的权重；判定待识别短信的权重是否大于预设值，若是，则判定待识别短信为垃圾短信，若否，则判定待识别短信为正常短信。本发明通过对短信分词，根据分词的权重和该分词在垃圾短信中的权重，判定待识别短信是否为垃圾短信，有效提高了垃圾短信的识别率，而且本发明实施例可以自动获取分词在垃圾短信中的权重并对于识别出的垃圾短信，可以作为样本垃圾短信，不断更新分词在垃圾短信中的权重，进一步提高垃圾短信的识别率。

Description

垃圾短信识别方法、系统、可读存储介质及移动终端

技术领域

本发明涉及网络信息领域，特别是涉及移动终端中的信息领域，具体为一种垃圾短信识别方法、系统、可读存储介质及移动终端。

版权申明

背景技术

自从短信在我国正式开通以来，手机短信业务得到了迅猛发展，用户数量直线上升。我国手机用户已达亿次，手机短信达亿条，平均每天亿条。不过快速发展的短信业务带来的经济利益越来越大，很多不法分子和电信运营商为了获取丰厚的利润，千方百计在利用垃圾短信获利。我国虽然为了规范电信运营活动、互联网信息服务和使用电信及互联网的行为，制订了《电信条例》和《互联网信息服务管理办法》，但是，由于这些行政法规制订之时，短信息通信尚处于发展的初期，所以，其内容还不能全部涉及目前信息迅速发展的需要。一些不法分子正是利用法律的滞后问题来钻短信的空子的，他们认为一旦出了问题很难对垃圾的制造者、传播者进行惩罚与处理，使不法分子有了可乘之机。对于移动用户来说，垃圾短信不仅严重干扰了其正常生活，而且危害到个人隐私非法广告短信以及恶意群发的一些违法短信，不仅是对用户的一种骚扰，通过抽奖等骗局诱导客户定制服务，更是造成了消费者对整体行业的不信任感。对于运营商来说，垃圾短信的泛滥造成了短信中心等基础设施投资的巨大浪费，并增加了网络遭到恶意攻击的危险。为此，有关方面正在加紧制定相关的法律法规，运营商也纷纷表示要用技术手段遏制垃圾短信，努力为短信业务的发展创造一个持续、有序、健康的发展环境。短信监控已经为电信运营商带来了增值服务的机会，部分电信运营商已经开始提供垃圾短信识别服务。此外，由于垃圾短信的严重危害，部分高端手机终端已经设置部分识别机制，而且内置识别机制可能将是未来手机的必备功能之一。但是目前利用技术监控的话，只能识别信号的传输质量，而无法识别以及识别信号的内容。靠人工倒是可以精确判定，但是每天面对如此巨大的短信息发送量，通信服务提供商是不可能也不会用人工监控来完成的。

此外，现有技术中，自动识别垃圾短信的技术方案是通过套用短信模板，当匹配到关键字模板时，判定为某类别短信，垃圾短信正确识别率较低。

发明内容

为了解决上述的以及其他潜在的技术问题，本发明的实施例提供了一种垃圾短信识别方法，所述垃圾短信识别方法包括：对待识别短信进行分词并获取每个词于所述待识别短信中的权重；根据每个词于所述待识别短信中的权重和预设的每个词于垃圾短信中的权重获取所述待识别短信的权重；判定所述待识别短信的权重是否大于预设值，若是，则判定所述待识别短信为垃圾短信，若否，则判定所述待识别短信为正常短信。

于本发明的一实施例中，所述获取每个词于所述待识别短信中的权重具体包括：获取所述待识别短信的总词数；获取分词后每个词在所述待识别短信中出现的次数；将每个词在所述待识别短信中出现的次数和所述总词数的比值作为每个词于所述待识别短信中的权重。

于本发明的一实施例中，所述根据每个词于所述待识别短信中的权重和预设的每个词于垃圾短信中的权重获取所述待识别短信的权重具体为：q＝q₁×s₁+q₂×s₂+...+q_n×s_n；其中，q为所述待识别短信的权重，q₁,q₂...q_n分别为每个词于所述待识别短信中的权重，s₁,s₂...s_n分别为每个词于垃圾短信中的权重。

于本发明的一实施例中，所述每个词于垃圾短信中的权重的获取方法包括：获取若干条样本垃圾短信并获取所述样本垃圾短信的数量；对所述样本垃圾短信进行分词；获取每个分词在所述样本垃圾短信中出现的数量；将每个分词在所述样本垃圾短信中出现的数量与所述样本垃圾短信的数量的比值作为该分词于垃圾短信中的权重。

于本发明的一实施例中，所述垃圾短信识别方法还包括：若判定所述待识别短信为垃圾短信时，将该垃圾短信作为所述样本垃圾短信。

本发明的实施例还提供一种垃圾短信识别系统，所述垃圾短信识别系统包括：分词模块，用于对待识别短信进行分词；权重获取模块，用于获取每个词于所述待识别短信中的权重，并根据每个词于所述待识别短信中的权重和预设的每个词于垃圾短信中的权重获取所述待识别短信的权重；判定模块，用于判定所述待识别短信的权重是否大于预设值，若是，则判定所述待识别短信为垃圾短信，若否，则判定所述待识别短信为正常短信。

于本发明的一实施例中，所述权重获取模块包括：分词权重单元，用于获取每个词于所述待识别短信中的权重，具体包括：总词数获取单元，用于获取所述待识别短信的总词数；分词数量获取单元，获取分词后每个词在所述待识别短信中出现的次数；分词权重获取单元，用于将每个词在所述待识别短信中出现的次数和所述总词数的比值作为每个词于所述待识别短信中的权重。

于本发明的一实施例中，所述权重获取模块包括：短信权重单元，用于根据每个词于所述待识别短信中的权重同预设的每个词于垃圾短信中的权重获取所述待识别短信的权重，具体根据下式获取所述待识别短信的权重：q＝q₁×s₁+q₂×s₂+...+q_n×s_n；其中，q为所述待识别短信的权重，q₁,q₂...q_n分别为每个词于所述待识别短信中的权重，s₁,s₂...s_n分别为每个词于垃圾短信中的权重。

于本发明的一实施例中，所述垃圾短信识别系统还包括：学习模块，用于获取所述每个词于垃圾短信中的权重，具体包括：垃圾短信数量获取单元，用于获取若干条样本垃圾短信并获取所述样本垃圾短信的数量；垃圾短信分词单元，用于对所述样本垃圾短信进行分词；垃圾分词数量获取单元，用于获取每个分词在所述样本垃圾短信中出现的数量；垃圾分词权重单元，将每个分词在所述样本垃圾短信中出现的数量与所述样本垃圾短信的数量的比值作为该分词于垃圾短信中的权重。

于本发明的一实施例中，所述判定模块若判定所述待识别短信为垃圾短信时，将该垃圾短信发送至所述学习模块作为所述样本垃圾短信。

本发明的实施例提供了一种移动终端，包括处理器和存储器，所述存储器存储有程序指令，所述处理器运行程序指令实现如上所述方法中的步骤。

本发明的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述方法中的步骤。

如上所述，本发明的垃圾短信识别方法、系统、可读存储介质及移动终端具有以下有益效果：

本发明实施例通过对短信分词，根据分词的权重和该分词在垃圾短信中的权重，判定待识别短信是否为垃圾短信，有效提高了垃圾短信的识别率，而且本发明实施例可以自动获取分词在垃圾短信中的权重并对于识别出的垃圾短信，可以作为样本垃圾短信，不断更新分词在垃圾短信中的权重，进一步提高垃圾短信的识别率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1显示为本发明的垃圾短信识别方法的流程示意图。

图2显示为本发明的垃圾短信识别方法中每个词于待识别短信中的权重获取流程示意图。

图3显示为本发明的垃圾短信识别方法中每个词于垃圾短信中的权重获取流程示意图。

图4显示为本发明的垃圾短信识别系统的原理框图。

图5显示为本发明的垃圾短信识别系统中权重获取模块的原理框图。

图6显示为本发明的垃圾短信识别系统中于另一实施例的原理框图。

图7显示为本发明的垃圾短信识别系统中学习模块的原理框图。

元件标号说明

100 垃圾短信识别系统

110 分词模块

120 权重获取模块

121 分词权重单元

121a 总词数获取单元

121b 分词数量获取单元

121c 分词权重获取单元

122 短信权重单元

130 判定模块

140 学习模块

141 垃圾短信数量获取单元

142 垃圾短信分词单元

143 垃圾分词数量获取单元

144 垃圾分词权重单元

S110～S160 步骤

S121～S123 步骤

S210～S240 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1至图7。须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时，本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

本实施例的目的在于提供一种垃圾短信识别方法、系统、可读存储介质及移动终端，用于解决现有技术中垃圾短信正确识别率较低的问题。以下将详细阐述本发明的垃圾短信识别方法、系统、可读存储介质及移动终端的原理及实施方式，使本领域技术人员不需要创造性劳动即可理解本发明的垃圾短信识别方法、系统、可读存储介质及移动终端。

具体地，如图1所示，本发明的实施例提供了一种垃圾短信识别方法，所述垃圾短信识别方法包括以下步骤：

步骤S110，对待识别短信进行分词。

步骤S120，获取每个词于所述待识别短信中的权重。

步骤S130，根据每个词于所述待识别短信中的权重和预设的每个词于垃圾短信中的权重获取所述待识别短信的权重。

步骤S140，判定所述待识别短信的权重是否大于预设值，若是，则执行步骤S150，判定所述待识别短信为垃圾短信，若否，则执行步骤S160，判定所述待识别短信为正常短信。

以下对所述垃圾短信识别方法中的步骤S110和步骤S160进行详细说明。

步骤S110，对待识别短信进行分词。

具体地，可以利用分词算法对待识别短信进行词语划分，去除停用词后进行词性标注，保留相关词性处理。例如：利用中文分词工具jieba分词，结合工具原始字典与待识别短信自定义分词字典，利用jieba分词进行词性标注，识别掉对无显著意义的介词、副词、助词、连词、标点符号等，筛选出有较高信息价值的名词、动词等作为分词结果。

步骤S120，获取每个词于所述待识别短信中的权重。

于本实施例中，如图2所示，所述获取每个词于所述待识别短信中的权重具体包括以下步骤：

步骤S121，获取所述待识别短信的总词数。

所述待识别短信分词后，统计分词的数量，获取所述待识别短信的总词数。

步骤S122，获取分词后每个词在所述待识别短信中出现的次数。

步骤S123，将每个词在所述待识别短信中出现的次数和所述总词数的比值作为每个词于所述待识别短信中的权重。

例如，其中一个词在所述待识别短信中出现的次数为n，所述总词数为m，则该词于所述待识别短信中的权重为q，则依次类推，依次获取每个词于所述待识别短信中的权重。

于本实施例中，具体地，如图3所示，所述每个词于垃圾短信中的权重的获取方法包括以下步骤：

步骤210，获取若干条样本垃圾短信并获取所述样本垃圾短信的数量，即统计样本垃圾短信的总数。

步骤220，对所述样本垃圾短信进行分词。

步骤230，获取每个分词在所述样本垃圾短信中出现的数量。

步骤240，将每个分词在所述样本垃圾短信中出现的数量与所述样本垃圾短信的数量的比值作为该分词于垃圾短信中的权重。

例如，其中一个词在所述样本垃圾短信中出现的数量为k，所述样本垃圾短信的数量为l，则该词于所述待识别短信中的权重为s，则依次类推，依次获取每个词于垃圾短信中的权重。

于本实施例中，具体地，所述根据每个词于所述待识别短信中的权重和预设的每个词于垃圾短信中的权重获取所述待识别短信的权重具体为：q＝q₁×s₁+q₂×s₂+...+q_n×s_n；其中，q为所述待识别短信的权重，q₁,q₂...q_n分别为每个词于所述待识别短信中的权重，s₁,s₂...s_n分别为每个词于垃圾短信中的权重。

所述待识别短信的权重越高，则表示该待识别短信和给定的垃圾短信集合的相关性越高。所以本发明实施例的垃圾短信识别方法通过对短信分词，根据分词的权重和该分词在垃圾短信中的权重，判定待识别短信是否为垃圾短信，有效提高了垃圾短信的识别率。

此外，于本实施例中，所述垃圾短信识别方法还可以包括：若判定所述待识别短信为垃圾短信时，将该垃圾短信作为所述样本垃圾短信。所以本实施例的垃圾短信识别方法对于识别出的垃圾短信，可以作为样本垃圾短信，不断更新分词在垃圾短信中的权重，进一步提高垃圾短信的识别率。

为实现上述垃圾短信识别方法，本实施例还对应提供了一种垃圾短信识别系统100，如图4所示，所述垃圾短信识别系统100包括：分词模块110，权重获取模块120以及判定模块130。

以下对本实施例中的分词模块110，权重获取模块120以及判定模块130进行详细说明。

于本实施例中，所述分词模块110用于对待识别短信进行分词。

具体地，所述分词模块110可以利用分词算法对待识别短信进行词语划分，去除停用词后进行词性标注，保留相关词性处理。例如：利用中文分词工具jieba分词，结合工具原始字典与待识别短信自定义分词字典，利用jieba分词进行词性标注，识别掉对无显著意义的介词、副词、助词、连词、标点符号等，筛选出有较高信息价值的名词、动词等作为分词结果。

于本实施例中，所述权重获取模块120用于获取每个词于所述待识别短信中的权重，并根据每个词于所述待识别短信中的权重和预设的每个词于垃圾短信中的权重获取所述待识别短信的权重。

于本实施例中，如图5所示，所述权重获取模块120包括：分词权重单元121，用于获取每个词于所述待识别短信中的权重。

如图5所示，所述分词权重单元121具体包括：总词数获取单元121a，分词数量获取单元121b以及分词权重获取单元121c。

于本实施例中，所述总词数获取单元121a用于获取所述待识别短信的总词数。

所述分词模块110对所述待识别短信分词后，所述总词数获取单元121a统计分词的数量，获取所述待识别短信的总词数。

所述分词数量获取单元121b获取分词后每个词在所述待识别短信中出现的次数。

所述分词权重获取单元121c用于将每个词在所述待识别短信中出现的次数和所述总词数的比值作为每个词于所述待识别短信中的权重。

于本实施例中，如图5所示，所述权重获取模块120还包括：短信权重单元122，用于根据每个词于所述待识别短信中的权重同预设的每个词于垃圾短信中的权重获取所述待识别短信的权重。

其中，于本实施例中，如图6所示，所述垃圾短信识别系统100还包括：学习模块140，用于获取所述每个词于垃圾短信中的权重。

具体第，如图7所示，所述学习模块140具体包括：垃圾短信数量获取单元141，垃圾短信分词单元142，垃圾分词数量获取单元143以及垃圾分词权重单元144。

所述垃圾短信数量获取单元141用于获取若干条样本垃圾短信并获取所述样本垃圾短信的数量，即统计样本垃圾短信的总数。

所述垃圾短信分词单元142用于对所述样本垃圾短信进行分词。

具体地，所述垃圾短信分词单元142可以利用分词算法对待识别短信进行词语划分，去除停用词后进行词性标注，保留相关词性处理。例如：利用中文分词工具jieba分词，结合工具原始字典与待识别短信自定义分词字典，利用jieba分词进行词性标注，识别掉对无显著意义的介词、副词、助词、连词、标点符号等，筛选出有较高信息价值的名词、动词等作为分词结果。

所述垃圾分词数量获取单元143用于获取每个分词在所述样本垃圾短信中出现的数量。

所述垃圾分词权重单元144将每个分词在所述样本垃圾短信中出现的数量与所述样本垃圾短信的数量的比值作为该分词于垃圾短信中的权重。

于本实施例中，具体地，短信权重单元122根据每个词于所述待识别短信中的权重和预设的每个词于垃圾短信中的权重获取所述待识别短信的权重具体为：

q＝q₁×s₁+q₂×s₂+...+q_n×s_n；

其中，q为所述待识别短信的权重，q₁,q₂...q_n分别为每个词于所述待识别短信中的权重，s₁,s₂...s_n分别为每个词于垃圾短信中的权重。

于本实施例中，所述判定模块130用于判定所述待识别短信的权重是否大于预设值，若是，则判定所述待识别短信为垃圾短信，若否，则判定所述待识别短信为正常短信。

所述待识别短信的权重越高，则表示该待识别短信和给定的垃圾短信集合的相关性越高。所以本发明实施例的垃圾短信识别系统100通过对短信分词，根据分词的权重和该分词在垃圾短信中的权重，判定待识别短信是否为垃圾短信，有效提高了垃圾短信的识别率。

于本实施例中，所述判定模块130若判定所述待识别短信为垃圾短信时，将该垃圾短信发送至所述学习模块140作为所述样本垃圾短信。所以本实施例的垃圾短信识别系统100对于识别出的垃圾短信，可以作为样本垃圾短信，不断更新分词在垃圾短信中的权重，进一步提高垃圾短信的识别率。

本发明的实施例提供了一种移动终端，包括处理器和存储器，所述处理器为包括中央处理器、微处理器、数字信号处理器以及其他处理芯片的任一一种或几种；所述存储器可包括高速随机存取存储器，并且还可包括非易失性存储器，例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。

所述存储器存储有程序指令，所述处理器运行各种存储在存储器中的软件程序和/或指令集，所述处理器运行程序指令，执行上述垃圾短信识别方法中的步骤。

本发明的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行上述垃圾短信识别方法中的步骤。

综上所述，本发明实施例通过对短信分词，根据分词的权重和该分词在垃圾短信中的权重，判定待识别短信是否为垃圾短信，有效提高了垃圾短信的识别率，而且本发明实施例可以自动获取分词在垃圾短信中的权重并对于识别出的垃圾短信，可以作为样本垃圾短信，不断更新分词在垃圾短信中的权重，进一步提高垃圾短信的识别率。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中包括通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种垃圾短信识别方法，其特征在于，

所述垃圾短信识别方法包括：

对待识别短信进行分词并获取每个词于所述待识别短信中的权重；

根据每个词于所述待识别短信中的权重和预设的每个词于垃圾短信中的权重获取所述待识别短信的权重；

判定所述待识别短信的权重是否大于预设值，若是，则判定所述待识别短信为垃圾短信，若否，则判定所述待识别短信为正常短信；

所述获取每个词于所述待识别短信中的权重具体包括：

获取所述待识别短信的总词数；

获取分词后每个词在所述待识别短信中出现的次数；

将每个词在所述待识别短信中出现的次数和所述总词数的比值作为每个词于所述待识别短信中的权重；

所述根据每个词于所述待识别短信中的权重和预设的每个词于垃圾短信中的权重获取所述待识别短信的权重具体为：

q＝q1×s1+q2×s2+...+qn×sn；

其中，q为所述待识别短信的权重，q1,q2...qn分别为每个词于所述待识别短信中的权重，s1,s2...sn分别为每个词于垃圾短信中的权重；

所述每个词于垃圾短信中的权重的获取方法包括：

获取若干条样本垃圾短信并获取所述样本垃圾短信的数量；

对所述样本垃圾短信进行分词；

获取每个分词在所述样本垃圾短信中出现的数量；

将每个分词在所述样本垃圾短信中出现的数量与所述样本垃圾短信的数量的比值作为该分词于垃圾短信中的权重。

2.根据权利要求1所述的垃圾短信识别方法，其特征在于，

所述垃圾短信识别方法还包括：

若判定所述待识别短信为垃圾短信时，将该垃圾短信作为所述样本垃圾短信。

3.一种垃圾短信识别系统，其特征在于，

所述垃圾短信识别系统包括：

分词模块，用于对待识别短信进行分词；

权重获取模块，用于获取每个词于所述待识别短信中的权重，并根据每个词于所述待识别短信中的权重和预设的每个词于垃圾短信中的权重获取所述待识别短信的权重；

判定模块，用于判定所述待识别短信的权重是否大于预设值，若是，则判定所述待识别短信为垃圾短信，若否，则判定所述待识别短信为正常短信；

所述权重获取模块包括：分词权重单元，用于获取每个词于所述待识别短信中的权重，具体包括：

总词数获取单元，用于获取所述待识别短信的总词数；

分词数量获取单元，获取分词后每个词在所述待识别短信中出现的次数；

分词权重获取单元，用于将每个词在所述待识别短信中出现的次数和所述总词数的比值作为每个词于所述待识别短信中的权重；

短信权重单元，用于根据每个词于所述待识别短信中的权重同预设的每个词于垃圾短信中的权重获取所述待识别短信的权重，具体根据下式获取所述待识别短信的权重：

q＝q1×s1+q2×s2+...+qn×sn；

所述垃圾短信识别系统还包括：学习模块，用于获取所述每个词于垃圾短信中的权重，具体包括：

垃圾短信数量获取单元，用于获取若干条样本垃圾短信并获取所述样本垃圾短信的数量；

垃圾短信分词单元，用于对所述样本垃圾短信进行分词；

垃圾分词数量获取单元，用于获取每个分词在所述样本垃圾短信中出现的数量；

垃圾分词权重单元，将每个分词在所述样本垃圾短信中出现的数量与所述样本垃圾短信的数量的比值作为该分词于垃圾短信中的权重。

4.根据权利要求3所述的垃圾短信识别系统，其特征在于，

所述判定模块若判定所述待识别短信为垃圾短信时，将该垃圾短信发送至所述学习模块作为所述样本垃圾短信。

5.一种移动终端，包括处理器和存储器，所述存储器存储有程序指令，所述处理器运行程序指令实现如权利要求1至权利要求2任一项所述的方法。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，

该程序被处理器执行时实现权利要求1至权利要求2任一项所述的方法。