CN105260467A

CN105260467A - 一种短信分类的方法及装置

Info

Publication number: CN105260467A
Application number: CN201510674401.XA
Authority: CN
Inventors: 李�浩; 罗云彬; 王伟华; 冯丽芳
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2015-10-16
Filing date: 2015-10-16
Publication date: 2016-01-20
Anticipated expiration: 2035-10-16
Also published as: CN105260467B

Abstract

本发明公开一种短信分类的方法及装置，涉及通信网络技术领域，可以解决现有技术中短信分类的精确度低的问题。本发明实施例通过提取原始短信样本中出现的所有非重复的关键词，组成短信类库训练的词典；确定在同一短信集合的每个短信中，词典中的每个关键词对应的TF-IDF；将同一短信集合中的每个关键词对应的TF-IDF划分为至少三个区间；为每个短信集合生成短信类库，进而根据短信类库对待分类短信进行分类。本发明实施例提供的方案适于短信分类时采用。

Description

一种短信分类的方法及装置

技术领域

本发明涉及通信技术领域，尤其涉及一种短信分类的方法及装置。

背景技术

随着通信技术的发展，短信成为被广泛使用的业务，由于现在欺诈短信、广告短信等垃圾短信泛滥，所以需对短信进行分类，进而拦截垃圾短信。目前，常用的短信分类方法为根据关键字和预设规则来识别垃圾短信，例如，当识别到短信中有“发票”等敏感词汇时，该短信就会被当作垃圾短信拦截，然而如果短信的敏感词汇中携带有特殊字符，例如“发*票”，该短信就很难被归为垃圾短信并拦截。此外，由于正常用户的短信中也可能包含敏感词汇，此时采用这种短信分类方法可能会造成正常短信的误拦截，目前为了防止误拦截，一般当识别出短信中包含多个敏感词汇时，该短信才会被确定为垃圾短信，就使得一些真正的垃圾短信未被归为垃圾短信的类别。所以，现有的短信分类方法的精度低。

发明内容

本发明的实施例提供一种短信分类的方法及装置，可以解决短信分类精度低的问题。

为达到上述目的，本发明的实施例采用如下技术方案：

一种短信分类的方法，包括：

提取用于类库训练的原始短信样本中出现的所有非重复的关键词，组成所述短信类库训练的词典，所述原始短信样本中包括至少两个类别的短信，每个类别的短信组成一个短信集合；

确定在同一短信集合的每个短信中，所述词典中的每个关键词对应的TF-IDF；

将同一短信集合中的每个关键词对应的词频TF-关键度IDF划分为至少三个区间；

为每个短信集合生成短信类库，所述短信类库中包括短信类库所属类别的概率，以及对应存储的关键词与关键词位于每个区间中的概率，所述短信类库所属类别的概率为所述短信类库对应的短信集合在原始短信样本中的占比；

根据所述短信类库对待分类短信进行分类。

一种短信分类的装置，包括：

提取单元，用于提取用于类库训练的原始短信样本中出现的所有非重复的关键词，组成所述短信类库训练的词典，所述原始短信样本中包括至少两个类别的短信，每个类别的短信组成一个短信集合；

确定单元，用于确定在同一短信集合的每个短信中，所述词典中的每个关键词对应的TF-IDF；

划分单元，用于将同一短信集合中的每个关键词对应的词频TF-关键度IDF划分为至少三个区间；

生成单元，用于为每个短信集合生成短信类库，所述短信类库中包括短信类库所属类别的概率，以及对应存储的关键词与关键词位于每个区间中的概率，所述短信类库所属类别的概率为所述短信类库对应的短信集合在原始短信样本中的占比；

分类单元，用于根据所述短信类库对待分类短信进行分类。

本发明实施例提供的短信分类的方法及装置，对原始短信样本进行类库训练，根据关键词的TF-IDF值得到每个类别短信对应的短信类库，每个短信类库中都包括每个关键词属于各区间的概率以及该短信类库所属短信类别的概率，进而根据类库就可以完成对待分类短信的精确分类。与现有技术中的短信分类方法精度低相比，本发明实施例中根据每个关键词的TF-IDF值，以及每个关键词的TF-IDF值在每个分层的概率得到短信类库，进而使得根据短信类库对待分类短信进行分类时可以确定待分类短信属于各个短信类别的概率，从而得到精确的分类结果，提高了短信分类的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种短信分类的系统的逻辑结构示意图；

图2为本发明实施例提供的一种短信分类的方法的流程图；

图3为本发明实施例提供的另一种短信分类的方法的流程图；

图4为本发明实施例提供的另一种短信分类的方法的流程图；

图5为本发明实施例提供的一种短信分类的装置的逻辑结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的短信类库适用于短信分类系统中，如图1所示，该短信分类系统主要包括用于存储原始短信样本和短信类库的hdfs(分布式存储)、交换机，以及用于进行短信类库训练的MapReduce(分布式计算)。

其中，hdfs包括一个NameNode(管理节点)和至少两个DataNode(数据节点)。MapReduce包括一个JobTracker(任务管理节点)和至少两个TaskTracker(任务执行节点)。一个NameNode和一个JobTracker位于同一服务器中，一个DataNode和一个JobTracker位于同一个服务器中。

NameNode用于存储短信索引文件，主要负责文本索引的存储和快速定位查找。DataNode用于存储具体的短信文本内容以及短信类库。

TaskTracker用于执行任务，JobTracker用于监控任务的执行。

由于现有的短信分类方法分类精度较低，为了提高短信分类的精度，可以将朴素贝叶斯算法应用于短信分类的过程中，具体可以通过计算短信中每个词所属的类别，判别该短信所属的类别，朴素贝叶斯算法虽然计算简单、分类精确，但是只能采用统计词频的方法处理非连续性数据，但是对于短信文本，词频并不能体现短信中某个词对于整个短信的关键性，而TF-IDF(词频-关键度)可以精确的体现短信中某个词对于整个短信的关键性，但是TF-IDF为连续性数据。所以，为了将TF-IDF应用在朴素贝叶斯算法中，以提高短信分类的精度，本发明实施例提供了一种短信分类的方法，应用于图1所示的短信分类系统中，如图2所示，该方法包括：

201、提取用于类库训练的原始短信样本中出现的所有非重复的关键词，组成短信类库训练的词典，原始短信样本中包括至少两个类别的短信，每个类别的短信组成一个短信集合。

其中，原始短信样本均存储于分布式存储hdfs中，具体存储在hdfs中的DataNode中，DataNode上的索引文件存储于NameNode中，且TaskTracker已经通过聚类操作将原始短信样本中的短信分为至少两个类别，每个类别的短信组成一个短信集合，且通常不同类别的短信存储于不同的文件夹中。

在将关键字组成词典之后，还需对词典中的关键词进行编号，为每个关键词设置一个ID作为关键词的唯一编号。

值得说明的是，本发明实施例的方法流程主要由TaskTracker执行。

还需说明的是，为了提高根据短信类库对短信分类的精度，原始短信样本中短信数量一般很大，为了快速处理大批量的数据，本发明实施例主要采用MapReduce进行短信类库训练，JobTracker负责MapReduce过程中的任务键控，而MapReduce过程中的具体任务由TaskTracker执行。在本步骤中，可以采用MapReduce，将提取的词典封装成一个job任务提交。在Map阶段，各任务节点的<Key,Value>输入值为<随机唯一值，短信文本>，Map阶段对短信文本按照关键词进行切分，并去除停止词等非关键词，进而Map阶段输出值为<关键词，1>。为了保证关键词顺序的一致性，将Reduce任务数量设置为1，Reduce阶段输出的<Key,Value>值为<ID，关键词>，输出结果以SequenceFile形式(即Key-Value键值对)存储，从而得到类库训练的词典。

202、确定在同一短信集合的每个短信中，词典中的每个关键词对应的TF-IDF。

可以理解的是，对于每个短信集合的每条短信，都要确定词典的每个关键词对应的TF-IDF。TF-IDF＝TF×IDF，其中TF代表该关键词在一个短信集合中的一条短信中出现的次数，IDF用于代表该短信集合中，具有该关键词的短信数量，其中，D为该短信集合中短信的数量，Dw为该短信集合中，具有该关键词的短信数量。

步骤202也可以通过MapReduce实现，由于不同类别的短信存储在不同的文件夹中。因此，在Map阶段需根据短信集合的数量设置Map的个数，并按照类对短信进行序列化。例如，属于别墅类别的若干条短信，Map阶段输出的<Key,Value>键值对的值为<Bieshu_N,tf-vector>。也就是Key按照该类别名称+短信序列号的方式进行命名；Value值是该短信中出现的关键词的词频tf。

在Reduce阶段，根据tf-idf计算公式，结合全局的idf，计算每个短信中，每个关键词对应的tf-idf值。Reduce阶段输出结果为<Bieshu_N,tf-idf-vector>。

203、将同一短信集合中的每个关键词对应的TF-IDF划分为至少三个区间。

其中，同一短信集合中包括多个短信，同一关键词在不同短信中的TF-IDF值不同，所以在同一短信集合中，同一关键词对应多个TF-IDF值。可以将同一关键词对应的TF-IDF值按照取值大小划分为至少三个区间。

204、为每个短信集合生成短信类库，短信类库中包括短信类库所属类别的概率，以及对应存储的关键词与关键词位于每个区间中的概率。

其中，短信类库所属类别的概率为短信类库对应的短信集合在原始短信样本中的占比。例如，短信样本中包括1000条短信，短信集合A中包括50条短信，则短信类库A的概率为50/1000＝0.05。

此外，关键词与关键词位于每个区间的概率是对应存储的，假设一共有三个区间，则每个类库中每个关键词的存储方式为：“关键词-C1C2C3”，其中C1、C2、C3分别为该关键词属于每个区间的概率，一个短信类库中按上述方式存储了词典中所有的关键词，且还存储了该短信类库所属短信类别的概率。

205、根据短信类库对待分类短信进行分类。

在短信类库生成之后，即可使用短信类库对待分类短信进行分类，根据短信类库可以判断出待分类短信属于每个短信类库的概率，进而根据该概率将待分类短信归为相应的短信类别。

本发明实施例提供的短信分类的方法，对原始短信样本进行类库训练，根据关键词的TF-IDF值得到每个类别短信对应的短信类库，每个短信类库中都包括每个关键词属于各区间的概率以及该短信类库所属短信类别的概率，进而根据类库就可以完成对待分类短信的精确分类。与现有技术中的短信分类方法精度低相比，本发明实施例中根据每个关键词的TF-IDF值，以及每个关键词的TF-IDF值在每个分层的概率得到短信类库，进而使得根据短信类库对待分类短信进行分类时可以确定待分类短信属于各个短信类别的概率，从而得到精确的分类结果，提高了短信分类的精度。

当短信集合中的短信足够多时，同一短信集合中每个关键词对应的TF-IDF的取值符合正态分布，所以可以根据正态分布将同一短信集合中每个关键词对应的TF-IDF划分为多个区间，基于此，在本发明实施例提供的另一种实现方式中，如图3所示，上述步骤203、将同一短信集合中的每个关键词对应的TF-IDF划分为至少三个区间，具体可以实现为步骤2031和步骤2032。

2031、确定同一短信集合中每个关键词对应的所有TF-IDF的均值和标准差。

可以理解的是，对于每个短信集合，都需计算词典中每个关键词在该短信集合中对应的所有TF-IDF的均值μ和标准差σ。计算均值和标准差依然可以利用MapReduce。

(1)、均值计算。

在Map阶段，对同一关键词对应的TF-IDF值进行求和运算，输出的<Key,Value>值为<关键词的ID,sum(tf-idf)>,其中，value值为该关键词对应的所有TF-IDF值之和。

在Reduce阶段，对Map阶段输出的结果进行进一步计算，输出<Key,Value>值为<关键词的ID,sum(tf-idf)/短信数量>，其中，Value值为该关键词所有TF-IDF之和除以该短信集合中的短信数量。

(2)、标准差计算。

Map阶段：根据之前均值任务的输出结果，在Map阶段需计算每个关键字对应的TF-IDF值的方差，计算公式为：(x₁-μ)²+(x₂-μ)²+....(x_n-μ)²，其中x₁表示该关键字在该短信集合的第一条短信中的TF-IDF值，该短信集合中一共有n个短信，x_n表示该短信集合中最后一条短信的TF-IDF值。Map阶段输出的<Key,Value>值为<关键词的ID，方差>。

Reduce阶段：相同的关键词会被分配到同一个Reduce任务上，Reduce阶段根据方差求解标准差。输出的<Key,Value>值为<关键词的ID,标准差>。

2032、在同一短信集合中，根据所述均值和标准差以及正态分布3σ原理分别将每个关键词对应的TF-IDF划分为至少三个区间。

需说明的是，当短信集合中的短信足够多时，同一短信集合中每个关键词对应的TF-IDF的取值符合正态分布，所以遵循正态分布的3σ原理。

根据正态分布的3σ原理，P(μ-3σ<x≤μ+3σ)＝99.7％，正态分布在(μ-3σ<x≤μ+3σ]外的概率不到0.3％，所以关键词的TF-IDF值超出3σ值外的概率只有不到0.3％，为小概率事件，可以将超出3σ值外的TF-IDF值的取值范围规定为[-∞,μ-3σ]和[μ+3σ,∞]，进而根据3σ原理，将词典中每个关键词对应的TF-IDF划分为8个区间，第一区间至第八区间分别为：[-∞,μ-3σ]、[μ-3σ,μ-2σ]、[μ-2σ,μ-σ]、[μ-σ,μ]、[μ,μ+σ]、[μ+σ,μ+2σ]、[μ+2σ,μ+3σ]、[μ+3σ,∞]。

结合上述描述，在将每个关键词对应的TF-IDF划分为至少三个区间之后，需根据关键词的TF-IDF以及划分的区间生成短信类库，所以上述步骤204、为每个短信集合生成短信类库，具体可以实现为以下两个步骤。

2041、在同一短信集合中，统计同一关键词对应的TF-IDF位于每个区间的概率。

其中，由于同一关键词在不同短信中的TF-IDF值不同，所以同一关键词对应多个TF-IDF值，在本步骤中，需统计这些TF-IDF位于每个区间的概率。

具体实现方法为：在Map阶段：统计每条短信中不同关键词所处的区间，形成一个统计数组，输出键值对<Key,Value>的值为<关键词的ID,数组>，其中，数组长度为8，格式为[0,1,0,0,0,0,0,0]，该数组代表当前统计的关键词的TF-IDF值位于第二个区间中。

在Reduce阶段：按照关键词进行汇总统计，将Map阶段输出的对应于同一关键词的数组进行累加，并转换成概率的形式表示，最终输出结果<Key,Value>的值为<关键词的ID,数组>，数组的格式为[c₁,c₂,c₃,c₄,c₅,c₆,c₇,c₈]，c₁是指关键词在该短信集合中，位于第1区间的概率。

2042、在每个短信集合中，存储短信集合所属类别的概率，并对应存储关键词与关键词位于每个区间的概率，生成每个短信集合的短信类库。

值得说明的是，在上一步骤将词典中的所有关键词分别在每个短信集合中计算完成后，将计算结果存储即可得到短信类库，短信类库的存储方式如下表所示，其中，该表格以根据短信集合A生成的短信类库A为例，其中，T1、T2……TN分别代表词典中的每个关键词，每一行的C1，C2……C8分别代表改行的关键词属于各个区间的概率，例如第一行的C1代表关键词T1属于第一区间的概率。每个类别的短信类库均以该表格所示的方式存储。

本发明实施例提供的短信分类的方法，在短信类库训练时，将符合正态分布的连续的TF-IDF划分为多个区间，并计算同一关键词的TF-IDF属于每个区间的概率，使得本发明实施例能够根据短信类库使用朴素贝叶斯算法对待分类短信进行分类，且通过将TF-IDF根据概率划分为多个区间，提高了分类的准确度。

在短信类库训练完成之后，就可以根据存储的短信类库对待分类短信进行分类，所以在本发明实施例提供的另一种实现方式中，如图4所示，上述步骤205、根据短信类库对待分类短信进行分类，具体包括以下步骤：

2051、计算待分类短信中的每个关键词的TF-IDF。

2052、在每个短信类库中，分别查找待分类短信中的关键词的TF-IDF在每个区间中的概率。

结合上述表格，确定待分类短信中的关键词之后，即可根据朴素贝叶斯算法，从短信类库中查找每个关键词的TF-IDF所处的区间，以及在所处区间中的概率。例如关键词1的TF-IDF属于第一区间，从表格中可知，关键词1属于第一区间的概率为C1。

2053、通过待分类短信中的关键词的TF-IDF在每个区间中的概率，以及每个短信类库所属类别的概率，确定待分类短信属于每个类别的概率。

举例说明，待分类短信中有T1、T2、T3三个关键词，T1的TF-IDF属于短信类库A的概率为C1，T2的TF-IDF属于短信类库A的概率为C2，T3的TF-IDF属于短信类库A的概率为C3，短信类库A所属的类别A的概率为P，则可确定待分类短信属于类别A的概率为C1×C2×C3×P。

2054、根据待分类短信属于每个类别的概率对待分类短信进行分类。

需要说明的是，一般将待分类短信归为概率最高的类别。

本发明实施例提供的短信分类的方法，采用MapReduce对原始短信样本进行类库训练，根据关键词的TF-IDF值得到每个类别短信对应的短信类库，每个短信类库中都包括每个关键词属于各区间的概率以及该短信类库所属短信类别的概率，由于每个短信类库都采用分布式存储，且短信类库中存储的每个关键词属于各区间的概率以及该短信类库所属短信类别的概率均为非连续性数据，所以可以采用朴素贝叶斯算法根据短信类库实现对待分类短信的精确分类，并且在类库训练过程中采用MapReduce可以实现大批量数据的快速处理，所以本发明实施例可以实现快速、精确的短信分类。

为了提高短信分类的精度，本发明实施例还提供了一种短信分类的装置，如图5所示，该装置包括：提取单元51，确定单元52，划分单元53，生成单元54，分类单元55。

提取单元51，用于提取用于类库训练的原始短信样本中出现的所有非重复的关键词，组成短信类库训练的词典，原始短信样本中包括至少两个类别的短信，每个类别的短信组成一个短信集合；

确定单元52，用于确定在同一短信集合的每个短信中，词典中的每个关键词对应的TF-IDF；

划分单元53，用于将同一短信集合中的每个关键词对应的词频TF-关键度IDF划分为至少三个区间；

生成单元54，用于为每个短信集合生成短信类库，短信类库中包括短信类库所属类别的概率，以及对应存储的关键词与关键词位于每个区间中的概率，短信类库所属类别的概率为短信类库对应的短信集合在原始短信样本中的占比；

分类单元55，用于根据短信类库对待分类短信进行分类。

在本发明另一实施例中，划分单元53，还用于确定同一短信集合中每个关键词对应的所有TF-IDF的均值和标准差；在同一短信集合中，根据均值和标准差以及正态分布3σ原理分别将每个关键词对应的TF-IDF划分为至少三个区间。

在本发明另一实施例中，生成单元54，还用于在同一短信集合中，统计同一关键词对应的TF-IDF位于每个区间的概率；在每个短信集合中，存储短信集合所属类别的概率，并对应存储关键词与关键词位于每个区间的概率，生成每个短信集合的短信类库。

在本发明另一实施例中，分类单元55，还用于确定待分类短信中的每个关键词的TF-IDF；在每个短信类库中，分别查找待分类短信中的关键词在每个区间中的概率；通过待分类短信中的关键词在每个区间中的概率，以及每个短信类库所属类别的概率，确定待分类短信属于每个类别的概率；根据待分类短信属于每个类别的概率对待分类短信进行分类。

本发明实施例提供的短信分类的装置，对原始短信样本进行类库训练，根据关键词的TF-IDF值得到每个类别短信对应的短信类库，每个短信类库中都包括每个关键词属于各区间的概率以及该短信类库所属短信类别的概率，进而根据类库就可以完成对待分类短信的精确分类。与现有技术中的短信分类精度低相比，本发明实施例中根据每个关键词的TF-IDF值，以及每个关键词的TF-IDF值在每个分层的概率得到短信类库，进而使得根据短信类库对待分类短信进行分类时可以确定待分类短信属于各个短信类别的概率，从而得到精确的分类结果，提高了短信分类的精度。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘，硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种短信分类的方法，其特征在于，包括：

根据所述短信类库对待分类短信进行分类。

2.根据权利要求1所述的短信分类的方法，其特征在于，所述将同一短信集合中的每个关键词对应的TF-IDF划分为至少三个区间，包括：

确定同一短信集合中每个关键词对应的所有TF-IDF的均值和标准差；

在同一短信集合中，根据所述均值和标准差以及正态分布3σ原理分别将每个关键词对应的TF-IDF划分为至少三个区间。

3.根据权利要求1或2所述的短信分类的方法，其特征在于，所述为每个短信集合生成短信类库，包括：

在同一短信集合中，统计同一关键词对应的TF-IDF位于每个区间的概率；

在每个短信集合中，存储短信集合所属类别的概率，并对应存储关键词与关键词位于每个区间的概率，生成每个短信集合的短信类库。

4.根据权利要求3所述的短信分类的方法，其特征在于，所述根据所述短信类库对待分类短信进行分类，包括：

确定所述待分类短信中的每个关键词的TF-IDF；

在每个短信类库中，分别查找所述待分类短信中的关键词在每个区间中的概率；

通过所述待分类短信中的关键词在每个区间中的概率，以及每个短信类库所属类别的概率，确定待分类短信属于每个类别的概率；

根据所述待分类短信属于每个类别的概率对所述待分类短信进行分类。

5.一种短信分类的装置，其特征在于，包括：

分类单元，用于根据所述短信类库对待分类短信进行分类。

6.根据权利要求5所述的短信分类的装置，其特征在于，

所述划分单元，还用于确定同一短信集合中每个关键词对应的所有TF-IDF的均值和标准差；在同一短信集合中，根据所述均值和标准差以及正态分布3σ原理分别将每个关键词对应的TF-IDF划分为至少三个区间。

7.根据权利要求5或6所述的短信分类的装置，其特征在于，

所述生成单元，还用于在同一短信集合中，统计同一关键词对应的TF-IDF位于每个区间的概率；在每个短信集合中，存储短信集合所属类别的概率，并对应存储关键词与关键词位于每个区间的概率，生成每个短信集合的短信类库。

8.根据权利要求7所述的短信分类的装置，其特征在于，

所述分类单元，还用于确定所述待分类短信中的每个关键词的TF-IDF；在每个短信类库中，分别查找所述待分类短信中的关键词在每个区间中的概率；通过所述待分类短信中的关键词在每个区间中的概率，以及每个短信类库所属类别的概率，确定待分类短信属于每个类别的概率；根据所述待分类短信属于每个类别的概率对所述待分类短信进行分类。