CN104123393A

CN104123393A - 一种短信文本的分类方法和系统

Info

Publication number: CN104123393A
Application number: CN201410394927.8A
Authority: CN
Inventors: 李�浩; 罗云彬; 王志军; 王伟华
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2014-08-12
Filing date: 2014-08-12
Publication date: 2014-10-29
Anticipated expiration: 2034-08-12
Also published as: CN104123393B

Abstract

本发明公开了一种短信文本的分类方法和系统包括：计算分布式文件系统HDFS上所有短信样本的特征向量；判断出HDFS上的短信样本未分类，根据计算得到的特征向量对所述短信样本进行分类；保存短信样本的类别和计算得到的特征向量，形成HDFS上的第一类库；将第一类库转换为流式计算系统支持的第二类库；流式计算系统根据第二类库对待分类短信进行分类。本发明能够对短信文本进行实时分类。

Description

一种短信文本的分类方法和系统

技术领域

本发明涉及短信文本处理技术，尤指一种短信文本的分类方法和系统。

背景技术

在互联网大数据时代，能够对用户行为的实时性处理和分析是重要应用方面。以短信处理为例，由于现在垃圾短信的泛滥，包括欺诈短信、广告推销、反动信息等，给用户带了很大的危害，因此，需要运营商通过对短信内容的识别来过滤垃圾短信。而短信及时性的特点决定了其必须在较短的时间内完成处理和下发，对处理系统的实时性提出了较高的要求。

现有的短信文本的分类方法是：预先形成短信样本的类库，可以采用k-近邻算法、朴素贝叶斯算法等现有的方法，根据预先形成的类库对待分类短信进行分类。

现有的短信文本的分类方法中，通过人工累积的方式或者聚类的方式形成类库，由于类库中短信样本的数量较大，在形成类库的过程中计算量和占用的存储空间较大，因此很难满足短信文本分类的实时性。

发明内容

为了解决上述问题，本发明提出了一种短信文本的分类方法和系统，能够实时对短信文本进行分类。

为了达到上述目的，本发明提出了一种短信文本的分类方法，包括：

计算分布式文件系统HDFS上所有短信样本的特征向量；

判断出HDFS上的短信样本未分类，根据计算得到的特征向量对所述短信样本进行分类；

保存短信样本的类别和计算得到的特征向量，形成HDFS上的第一类库；

将第一类库转换为流式计算系统支持的第二类库；

流式计算系统根据第二类库对待分类短信进行分类。

优选地，所述流式计算系统对所述待分类短信进行分类后，该方法还包括：

将所述待分类短信作为新增短信样本存储在所述流式计算系统中；

当所述流式计算系统判断出所述新增短信样本数大于或等于预设值时，根据所述新增短信样本对所述第一类库进行更新。

优选地，根据所述新增短信样本对所述第一类库进行更新包括：

计算所述新增短信样本的特征向量，将计算得到的特征向量及其所属类别保存到所述第一类库中。

优选地，所述将第一类库转换为流式计算系统支持的第二类库包括：

调用Hadoop提供的Java接口，通过数据流的形式读出，获取所述类别和该类别的所有特征向量；

将获得的类别和该类别的所有特征向量分发到流式计算系统中各个工作节点的相应逻辑节点上，每一个逻辑节点以映射表的方式将类别和该类别的所有特征向量保存。

优选地，所述短信样本的特征向量的每个元素为：关键词的词频TF与关键词的关键度IDF的乘积得到的积值；

其中，

本发明还提出一种短信文本的分类系统，至少包括：

分布式文件系统HDFS，用于保存短信样本；

转换装置，用于计算分布式文件系统HDFS上所有短信样本的特征向量；判断出HDFS上的短信样本未分类，根据计算得到的特征向量对所述短信样本进行分类；保存短信样本的类别和计算得到的特征向量，形成HDFS上的第一类库；将第一类库转换为流式计算系统支持的第二类库；

流式计算系统，用于根据第二类库对待分类短信进行分类。

优选地，所述流式计算系统，还用于：

将所述待分类短信作为新增短信样本进行保存；判断出所述新增短信样本数大于或等于预设值，将所述新增短信样本发送给所述转换装置；

所述转换装置，还用于：

根据所述新增短信样本对所述第一类库进行更新。

与现有技术相比，本发明包括：计算分布式文件系统HDFS上所有短信样本的特征向量；判断出HDFS上的短信样本未分类，根据计算得到的特征向量对短信样本进行分类；保存短信样本的类别和计算得到的特征向量，形成HDFS上的第一类库；将第一类库转换为流式计算系统支持的第二类库；流式计算系统根据第二类库对待分类短信进行分类。通过本发明的方案，结合了HDFS对大量短信文本的处理能力和流式计算系统的即时计算优势，实现了对短信文本的实时分类。

附图说明

下面对本发明实施例中的附图进行说明，实施例中的附图是用于对本发明的进一步理解，与说明书一起用于解释本发明，并不构成对本发明保护范围的限制。

图1为本发明的短信文本的分类方法的流程图；

图2为本发明的短信文本的分类系统的组成结构示意图。

具体实施方式

为了便于本领域技术人员的理解，下面结合附图对本发明作进一步的描述，并不能用来限制本发明的保护范围。

参见图1，本发明提出了一种短信文本的分类方法，包括：

步骤100、计算分布式文件系统(HDFS，Hadoop Distributed File System)上所有短信样本的特征向量。

本步骤中，HDFS上的短信样本的原始存储格式为手机号码+短信内容。如1309461xxxx|套内7380元/㎡起买江北千亩大盘【北大资源·江山名门】套内104-143㎡一线观江洋房，拥轻轨·读名校·观江山81958888。

本步骤中，在以原始存储格式对HDFS上的短信样本进行存储时，可以将HDFS上已分类的短信样本保存在以类别命名的文件夹中，而将未分类的短信样本保存为以随机数命名的文件中。那么，后续步骤中就可以根据短信样本是否存放在文件夹中来判断其是否已经分类。

本步骤中，短信样本的特征向量的每个元素为TF×IDF，TF为关键词的词频，IDF为关键词的关键度，即出现该关键词的类库短信文本数量与类库短信样本总量之间的关系，即反映的是该关键词对于该短信文本的重要性。

本步骤中，可以采用MapReduce的方法来计算HDFS上所有短信样本的特征向量，具体可以通过4组MapReduce任务来完成(每一个任务都是由一个Map过程和一个Reduce过程来实现的)，即：

任务1：提取所有短信样本中的所有关键词，并对所有的关键词进行编号(即为关键词标识)。

任务2：计算每条短信样本中的所有关键词的词频TF，即每个关键词在每条短信样本中出现的次数，得到每条短信样本的词频向量。输出格式为<类库短信样本对应的Key，词频向量>。

任务3：计算所有关键词的关键度，即IDF。输出格式为<关键词标识，IDF>。

任务4：计算每条短信样本的特征向量，即为TF×IDF。输出格式为<短信样本对应的Key，特征向量>。

其中，为了使得在计算过程中对短信文本的划分时，每条短信样本都是一个整体，可以将HDFS上的短信样本转换成采用SequenceFile文件存储，再执行上述4个任务。

其中，SequenceFile文件是以<Key，Value>格式存储的二进制文件，且Key值是可排序的。表1为序列化的短信文本格式，如表1所示，将HDFS上的类库短信样本转换成采用SequenceFile文件存储时，可以取Value为短信文本的内容，Key为聚类时间+编号，如“2014-06-04-12-30-20-00000001”，聚类时间为每一次开始对类库短信样本进行聚类的时间。

表1

步骤101、判断出HDFS上的短信样本未分类，根据计算得到的特征向量对短信样本进行分类。

本步骤中，判断出HDFS上的短信样本已分类，则不再需要对短信样本进行分类。

本步骤中，可以将分类后的类库短信样本采用SequenceFile文件存储。

本步骤中，可以采用人工分类或者现有的分类算法(如k-近邻算法、朴素贝叶斯算法、K-Means算法、层状聚类等)根据计算的特征向量对短信样本进行分类。

具体可以采用MapReduce的方式对短信样本进行分类。

以K-Means算法为例说明如何根据计算的特征向量对短信样本进行分类。在Map过程，计算每个短信样本的特征向量与各中心点的距离；在Reduce过程，将同属于一个类的短信样本进行合并，并重新计算各中心点；在下一个Map过程，继续执行计算距离的步骤，即计算上一个Reduce过程中计算的各中心点与每个短信样本的距离，在下一个Reduce过程，继续执行计算各中心点的步骤，直到预设迭代次数。

步骤102、保存短信样本的类别和计算得到的特征向量，形成HDFS上的第一类库。

本步骤中，可以将短信样本的类别和计算得到的特征向量采用SequenceFile文件存储。

其中，将短信样本的类别和计算得到的特征向量采用SequenceFile文件存储时，其SequenceFile文件中的Key值为类别+聚类时间+编号，例如，“JINRONG-2014-06-04-12-30-20-00000001”，Value为类库短信样本的特征向量。

其中，如果短信样本原本是已分类的，还可以将同一类别的短信样本存储到同一个SequenceFile文件中，每一个SequenceFile文件以<Key，Value>格式存储，Value为短信样本的特征向量，Key为聚类时间+编号，并将每一个SequenceFile文件采用对应的类别命名。

本步骤中，第一类库中还可以保存所有短信样本的所有关键词及其对应的IDF值。

步骤103、将第一类库转换为流式计算系统支持的第二类库。

本步骤中，调用Hadoop提供的Java接口，通过数据流的形式将SequenceFile文件内容以<Key，Value>的形式读出，获取类别和特征向量，其中，类别可以从Key或文件名中获得，特征向量即为Value。

将获得的类别和该类别的所有特征向量分发到流式计算系统中各个工作节点的相应逻辑节点上，每一个逻辑节点以映射表的方式将类别和该类别的所有特征向量保存，如表2所示。

表2

其中，为了保证查询效率，可以将映射表保存到逻辑节点的内存中。

其中，为了减少对内存的占用，特征向量中可以只保存特征向量中非零元素的位置和对应的值。

步骤104、流式计算系统根据第二类库对待分类短信进行分类。

本步骤中，计算待分类短信的特征向量，采用现有的方法(如k-近邻算法)根据计算的特征向量对待分类短信进行分类。

例如，采用k-近邻算法对待分类短信进行分类包括：

计算计算得到的特征向量与第二类库中所有类别的所有类库短信样本的特征向量之间的欧氏距离；从计算得到的所有欧氏距离中选择欧氏距离最小的k个“近邻短信”，查看这k个“近邻短信”所属的类别，则查找到的类别中包括的“近邻短信”数最多的类别即为待分类短信所属的类别。

本发明的方法中，流式计算系统对待分类短信进行分类后，该方法还包括：

步骤105、将待分类短信作为新增短信样本存储在流式计算系统中；当流式计算系统判断出新增短信样本数大于或等于预设值时，根据新增短信样本对第一类库进行更新。

本步骤中，新增短信样本以类别+序列号进行命名。其中，类别为该新增短信样本的所属类别，序列号从该新增短信样本的所属类别的所有成员数开始编号。例如，类别“JINRONG”的成员数为230个，则该新增短信样本从231号开始编号，命名为“JINRONG-00000231”。

当新增短信样本数达到预设值可以取10000)。

本步骤中，根据新增短信样本对第一类库进行更新是指将新增短信样本保存到第一类库中，即计算新增短信样本的特征向量，将计算得到的特征向量及其所属类别保存到第一类库中。

参见图2，本发明还提出了一种短信文本的分类系统，至少包括：

分布式文件系统HDFS，用于保存短信样本；

转换装置，用于计算分布式文件系统HDFS上所有短信样本的特征向量；判断出HDFS上的短信样本未分类，根据计算得到的特征向量对短信样本进行分类；保存短信样本的类别和计算得到的特征向量，形成HDFS上的第一类库；将第一类库转换为流式计算系统支持的第二类库；

流式计算系统，用于根据第二类库对待分类短信进行分类。

本发明的分类系统中，流式计算系统，还用于：

将待分类短信作为新增短信样本进行保存；判断出新增短信样本数大于或等于预设值，将新增短信样本发送给转换装置；

转换装置，还用于：

根据新增短信样本对第一类库进行更新。

需要说明的是，以上所述的实施例仅是为了便于本领域的技术人员理解而已，并不用于限制本发明的保护范围，在不脱离本发明的发明构思的前提下，本领域技术人员对本发明所做出的任何显而易见的替换和改进等均在本发明的保护范围之内。

Claims

1.一种短信文本的分类方法，其特征在于，包括：

计算分布式文件系统HDFS上所有短信样本的特征向量；

将第一类库转换为流式计算系统支持的第二类库；

流式计算系统根据第二类库对待分类短信进行分类。

2.根据权利要求1所述的分类方法，其特征在于，所述流式计算系统对所述待分类短信进行分类后，该方法还包括：

3.根据权利要求2所述的分类方法，其特征在于，根据所述新增短信样本对所述第一类库进行更新包括：

4.根据权利要求1或2所述的分类方法，其特征在于，所述将第一类库转换为流式计算系统支持的第二类库包括：

5.根据权利要求1或2所述的分类方法，其特征在于，所述短信样本的特征向量的每个元素为：关键词的词频TF与关键词的关键度IDF的乘积得到的积值；

其中，

6.一种短信文本的分类系统，其特征在于，至少包括：

分布式文件系统HDFS，用于保存短信样本；

流式计算系统，用于根据第二类库对待分类短信进行分类。

7.根据权利要求6所述的分类系统，其特征在于，所述流式计算系统，还用于：

所述转换装置，还用于：

根据所述新增短信样本对所述第一类库进行更新。