CN106095747A

CN106095747A - 一种垃圾短信的识别方法和系统

Info

Publication number: CN106095747A
Application number: CN201610391361.2A
Authority: CN
Inventors: 金学波; 王英波
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2016-06-03
Filing date: 2016-06-03
Publication date: 2016-11-09

Abstract

本发明涉及自然语言挖掘领域，特别涉及一种垃圾短信的识别方法和系统。方法包括以下步骤：获取用于识别垃圾短信的目标特征词，并建立目标特征词库；设定用于识别垃圾短信的短信长度阈值；统计待识别短信的字符长度；并对待识别短信进行去停用词处理和分词处理，生成分词结果；查询目标特征词库，若分词结果能够与目标特征词库中的任一目标特征词匹配且待识别短信的字符长度大于短信长度阈值，则判定待识别短信为垃圾短信；否则，判定待识别短信为非垃圾短信。本发明提供的垃圾短信识别方法，基于垃圾短信的长度和特征词的特点，不仅能解决日常生活中大部分的短信分类问题，而且识别过程简单、识别速度快、识别准确率高。

Description

一种垃圾短信的识别方法和系统

技术领域

本发明涉及自然语言挖掘领域，特别涉及一种垃圾短信的识别方法和系统。

背景技术

数据挖掘(Data Mining，DM)及预测(Predictive Analytics)是目前人工智能和数据库领域研究的热点问题，所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息。从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集。预测的目的在于认识事物发展规律，以及在不同条件下各种规律的相互作用，揭示事物的发展方向和趋势，使人们尽早地预知未来的状况和将要发生的事情，并能动地控制其发展，使其为人类和社会的进步服务。

基于文本内容的垃圾短信过滤方法是数据挖掘的重要应用，主要是通过分析短信的文字内容，判断是否为对用户而言无用的垃圾信息。目前有很多关于垃圾短信的识别方法，但是会引入较多算法，比较复杂且不容易理解，也使得执行时间变长。

发明内容

本发明所要解决的技术问题是提供一种垃圾短信的识别方法及系统，解决了现有技术的垃圾短信识别方法算法较多、判断过程复杂且判断时间长的技术问题。

本发明解决上述技术问题的技术方案如下：一种垃圾短信的识别方法，包括以下步骤：

步骤1，获取用于识别垃圾短信的目标特征词，并建立目标特征词库；

步骤2，设定用于识别垃圾短信的短信长度阈值；

步骤3，统计所述待识别短信的字符长度；并对待识别短信进行去停用词处理和分词处理，生成分词结果；

步骤4，查询所述目标特征词库，若所述分词结果能够与目标特征词库中的任一目标特征词匹配且所述待识别短信的字符长度大于所述短信长度阈值，则进入步骤5；否则，进入步骤6；

步骤5，判定所述待识别短信为垃圾短信，并作为垃圾短信向用户输出；

步骤6，判定所述待识别短信为非垃圾短信，并作为非垃圾短信向用户输出。

本发明的有益效果是：本发明提供的垃圾短信识别方法，基于垃圾短信的长度和特征词的特点，不仅能解决日常生活中大部分的短信分类问题，而且识别过程简单、识别速度快、识别准确率高。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述步骤1之前还包括标签设定步骤和训练集建立步骤，所述标签设定步骤为：为垃圾短信设定第一标签且为非垃圾短信设定第二标签；所述训练集建立步骤为：选取带有第一标签的垃圾短信建立第一训练集，且选取带有第二标签的非垃圾短信建立第二训练集。

采用上述进一步方案的有益效果是：本进一步金属方案中，第一训练集的垃圾短信和第二训练集中的非垃圾短信标签分别为1和0，可以根据现有数据进行预先设定，从而便于后续的特征词库建立过程和识别过程。

进一步，所述步骤1具体为：

对所述第一训练集中的所有垃圾短信分别进行去停用词处理，生成每个垃圾短信对应的第一去停用词处理结果；且对所述第二训练集中的所有非垃圾短信分别进行去停用词处理，生成每个非垃圾短信对应的第二去停用词处理结果；

对所有第一去停用词处理结果进行分词处理，生成每个垃圾短信对应的多个第一特征词；对所有第二去停用词处理结果进行分词处理，生成每个非垃圾短信对应的多个第二特征词，形成第二特征词词库；

当所述第一特征词在所有垃圾短信中出现的总次数超过预设的第一次数阈值且所述第一特征词在第二特征词词库出现的总次数低于预设的第二次数阈值时，选择所述第一特征词为用于识别垃圾短信的目标特征词，并建立目标特征词库。

采用上述进一步方案的有益效果是：本进一步技术方案中，采用首先采用去停用词方法对短信进行处理，可以去除一些虚词、语气词等没有实际意义的词，将短信形成同一格式，便于后续的统一处理。采用Python中自带jieba包进行分词处理，在精确模式的基础上，对去停用词处理结果中的长词再次切分，提高召回率，非常适合用于垃圾短信识别方法。

所述建立特征词库模块根据垃圾短信中出现频率高的词汇，对于大部分垃圾短信，都有特定的一些短信关键词，如发票类短信，通常会出现“发票”的形似音同的相关词汇。通过分析大量垃圾短信，将权重较高的垃圾短信关键词构建成库。

本进一步技术方案中，选择在垃圾短信中出现频率极高，在非垃圾短信中出现频率较低的词作为用于识别垃圾短信的特征词，比如发票类短信，通常会出现“发票”的形似音同的相关词汇，通过分析大量垃圾短信，将出现频率较高的垃圾短信特征词构建成库。同时本进一步金属方案可以根据识别方法准确度的要求设定第一次数阈值和第二次数阈值，控制方法灵活，识别效果好，能够满足用户的需求。

进一步，所述目标特征词库中目标特征词个数为40个，按照在所有垃圾短信中出现的总次数从大到小进行筛选。

采用上述进一步方案的有益效果是：本进一步技术方案中，在选取特征词数量时，基于数量的偏差会对结果造成很大影响而选取过多的特征词虽然能提高查全率，但是查准率会降低，相反，如果特征词选取过少，即使能得到较高的查准率，但是查全率却会随之下降，因此需要选择合适的目标特征词个数40，既可以保证识别效果，也又可以保证查全率和查准率。

进一步，步骤2具体为：统计所述第一训练集中所有垃圾短信的字符长度范围和所述第二训练集中所有非垃圾短信的字符长度范围，并根据统计结果设定用于识别垃圾短信的短信长度阈值。

采用上述进一步方案的有益效果是：本进一步技术方案中，可以采用绘图的方式统计所述第一训练集中所有垃圾短信的字符长度范围和所述第二训练集中所有非垃圾短信的字符长度范围，方式简单且可以直观获取到统计结果。

进一步，所述短信长度阈值小于所有垃圾短信的最小字符长度，且大于所有非垃圾短信的最大字符长度。

采用上述进一步方案的有益效果是：本进一步技术方案通过统计短信长度可以获知大部分非垃圾短信的字符数在10-25个之间，而垃圾短信字符数在45-60之间，因此可以选择字符长度25～46之间的数值作为短信长度阈值，比如35，短信字符长度大于35的即为可疑垃圾短信，不仅判断结果准确，而且判断过程简单、判断速度快。

进一步，去停用词处理过程为：去除垃圾短信、非垃圾短信和/或待识别短信中没有实际意义的词，并在去除位置对短信进行分段，生成同一格式的去停用词处理结果；分词处理过程为：采用分词模型对所述去停用词处理结果进行分词。

采用上述进一步方案的有益效果是：本进一步技术方案中，没有实际意义的词包括虚词、语气词等等。

为解决本发明的技术问题，本发明还提供了一种垃圾短信的识别系统，包括：

目标特征词库建立模块，用于获取识别垃圾短信的目标特征词，并建立目标特征词库；

短信长度阈值设定模块，用于设定识别垃圾短信的短信长度阈值；

字符统计模块，用于统计待识别短信的字符长度；

字符处理模块，用于对待识别短信进行去停用词处理和分词处理，生成分词结果；

判断模块，用于查询所述目标特征词库，若所述分词结果能够与目标特征词库中的任一目标特征词匹配且所述待识别短信的字符长度大于所述短信长度阈值，则判断所述待识别短信为垃圾短信；否则，判断所述待识别短信为非垃圾短信；

短信输出模块，用于根据判断模块的判断结果，将所述待识别短信作为垃圾短信或者非垃圾短信向用户输出。

进一步，还包括：

标签设定模块，用于为垃圾短信设定第一标签且为非垃圾短信设定第二标签；

训练集建立模块，用于选取带有第一标签的垃圾短信建立第一训练集，且选取带有第二标签的非垃圾短信建立第二训练集。

进一步，所述目标特征词库建立模块包括：

第一去停用词处理单元，用于对所述第一训练集中的所有垃圾短信和第二训练集中的所有非垃圾短信分别进行去停用词处理，去除短信中没有实际意义的词，并在去除位置对短信进行分段，生成每个垃圾短信对应的第一去停用词处理结果和每个非垃圾短信对应的第二去停用词处理结果；

第一分词单元，用于采用分词模型对所述第一去停用词处理结果和第二去停用词处理结果进行分词，生成每个垃圾短信对应的多个第一特征词和每个非垃圾短信对应的多个第二特征词，形成第二特征词词库；

词库建立单元，用于当第一特征词在所有垃圾短信中出现的总次数超过预设的第一次数阈值且所述第一特征词在第二特征词词库出现的总次数低于预设的第二次数阈值时，选择所述第一特征词为用于识别垃圾短信的目标特征词，并建立目标特征词库；

所述短信长度阈值设定模块包括：

统计单元，用于统计所述第一训练集中所有垃圾短信的字符长度范围和所述第二训练集中所有非垃圾短信的字符长度范围；

设定单元，用于根据所述统计单元的统计结果设定用于识别垃圾短信的短信长度阈值；

所述字符处理模块包括：

第二去停用词处理单元，用于对所述待识别短信进行去停用词处理，去除待识别短信中没有实际意义的词，并在去除位置对待识别短信进行分段，生成第三去停用词处理结果；

第二分词单元，用于采用分词模型对所述第三去停用词处理结果进行分词，生成分词结果。

附图说明

图1为本发明一种垃圾短信的识别方法的流程示意图；

图2为本发明一种垃圾短信的识别系统的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，为本发明实施例1一种垃圾短信的识别方法，包括以下步骤：

步骤2，设定用于识别垃圾短信的短信长度阈值；

本实施例中，所述步骤1之前还包括标签设定步骤和训练集建立步骤，所述标签设定步骤为：为垃圾短信设定第一标签且为非垃圾短信设定第二标签；所述训练集建立步骤为：选取带有第一标签的垃圾短信建立第一训练集，且选取带有第二标签的非垃圾短信建立第二训练集。

本实施例中，所述步骤1具体为：对所述第一训练集中的所有垃圾短信分别进行去停用词处理，生成每个垃圾短信对应的第一去停用词处理结果；且对所述第二训练集中的所有非垃圾短信分别进行去停用词处理，生成每个非垃圾短信对应的第二去停用词处理结果；

当所述第一特征词在所有垃圾短信中出现的总次数超过预设的第一次数阈值且所述第一特征词在第二特征词词库出现的总次数低于预设的第二次数阈值时，选择所述第一特征词为用于识别垃圾短信的目标特征词，并建立目标特征词库。本实施例中所述目标特征词库中目标特征词个数为40个，按照在所有垃圾短信中出现的总次数从大到小进行筛选。

本实施例中，步骤2具体为：统计所述第一训练集中所有垃圾短信的字符长度范围和所述第二训练集中所有非垃圾短信的字符长度范围，并根据统计结果设定用于识别垃圾短信的短信长度阈值。所述短信长度阈值小于所有垃圾短信的最小字符长度，且大于所有非垃圾短信的最大字符长度。本实施例中，所示短信长度阈值为35。

本实施例中，所述去停用词处理过程为：去除垃圾短信、非垃圾短信和/或待识别短信中没有实际意义的词，并在去除位置对短信进行分段，生成同一格式的去停用词处理结果，可以节省存储空间和提高搜索效率。分词处理过程为：采用分词模型对所述去停用词处理结果进行分词，可以达到电脑自动识别语句含义的效果。

如图2所示，为实施例2一种垃圾短信的识别系统，包括：

训练集建立模块，用于选取带有第一标签的垃圾短信建立第一训练集，且选取带有第二标签的非垃圾短信建立第二训练集；

字符统计模块，用于统计待识别短信的字符长度；

本实施例中，所述目标特征词库建立模块包括：第一去停用词处理单元，用于对所述第一训练集中的所有垃圾短信和第二训练集中的所有非垃圾短信分别进行去停用词处理，去除短信中没有实际意义的词，并在去除位置对短信进行分段，生成每个垃圾短信对应的第一去停用词处理结果和每个非垃圾短信对应的第二去停用词处理结果；

所述短信长度阈值设定模块包括：统计单元，用于统计所述第一训练集中所有垃圾短信的字符长度范围和所述第二训练集中所有非垃圾短信的字符长度范围；

所述字符处理模块包括：第二去停用词处理单元，用于对所述待识别短信进行去停用词处理，去除待识别短信中没有实际意义的词，并在去除位置对待识别短信进行分段，生成第三去停用词处理结果；

本发明提供的垃圾短信识别方法和系统，基于垃圾短信的长度和特征词的特点进行垃圾短信识别，不仅能解决日常生活中大部分的短信分类问题，而且识别过程简单、识别速度快、识别准确率高。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种垃圾短信的识别方法，其特征在于，包括以下步骤：

步骤2，设定用于识别垃圾短信的短信长度阈值；

步骤3，统计待识别短信的字符长度；并对待识别短信进行去停用词处理和分词处理，生成分词结果；

2.根据权利要求1所述的一种垃圾短信的识别方法，其特征在于，所述步骤1之前还包括标签设定步骤和训练集建立步骤，所述标签设定步骤为：为垃圾短信设定第一标签且为非垃圾短信设定第二标签；所述训练集建立步骤为：选取带有第一标签的垃圾短信建立第一训练集，且选取带有第二标签的非垃圾短信建立第二训练集。

3.根据权利要求2所述的一种垃圾短信的识别方法，其特征在于，所述步骤1具体为：

4.根据权利要求3所述的一种垃圾短信的识别方法，其特征在于，所述目标特征词库中目标特征词个数为40个，按照在所有垃圾短信中出现的总次数从大到小进行筛选。

5.根据权利要求2所述的一种垃圾短信的识别方法，其特征在于，步骤2具体为：统计所述第一训练集中所有垃圾短信的字符长度范围和所述第二训练集中所有非垃圾短信的字符长度范围，并根据统计结果设定用于识别垃圾短信的短信长度阈值。

6.根据权利要求5所述的一种垃圾短信的识别方法，其特征在于，所述短信长度阈值小于所有垃圾短信的最小字符长度，且大于所有非垃圾短信的最大字符长度。

7.根据权利要求1～6任一所述的一种垃圾短信的识别方法，其特征在于，去停用词处理过程为：去除垃圾短信、非垃圾短信和/或待识别短信中没有实际意义的词，并在去除位置对短信进行分段，生成同一格式的去停用词处理结果；分词处理过程为：采用分词模型对所述去停用词处理结果进行分词。

8.一种垃圾短信的识别系统，其特征在于，包括：

字符统计模块，用于统计待识别短信的字符长度；

9.根据权利要求8所述的一种垃圾短信的识别系统，其特征在于：还包括：

10.根据权利要求9所述的一种垃圾短信的识别系统，其特征在于：

所述目标特征词库建立模块包括：

所述短信长度阈值设定模块包括：

所述字符处理模块包括：