CN103955489B

CN103955489B - 基于信息熵特征权重量化的海量短文本分布式knn分类算法及系统

Info

Publication number: CN103955489B
Application number: CN201410150855.2A
Authority: CN
Inventors: 蔡毅; 蔡志威; 王涛
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2014-04-15
Filing date: 2014-04-15
Publication date: 2017-09-22
Anticipated expiration: 2034-04-15
Also published as: CN103955489A

Abstract

本发明公开了一种基于信息熵特征权重量化的海量短文本分布式KNN分类算法及系统。算法主要包括对文本的预处理、用信息熵衡量特征的权重，基于信息熵的文档向量表示方法，采用索引及缓存技术的KNN分类算法，整个算法基于MapReduce计算框架的实现。本发明利用特征在训练集中的信息熵，有效地衡量文本中词对于分类的作用大小，并且算法基于MapReduce计算框架能利用大规模集群来高效地对进行海量短文本的分类处理。本发明提供了一个准确率高、运行效率高、扩展性强的海量短文本分类算法。

Description

基于信息熵特征权重量化的海量短文本分布式KNN分类算法及系统

技术领域

本发明属于文本分类技术领域，涉及一种基于信息熵特征权重量化的海量短文本分布式KNN分类算法及系统。

背景技术

随着互联网的高速发展，用户生成的电子文档及资源数目日益增长。文本分类技术成为处理和组织海量文档数据的关键技术。特别是随着微型博客和各类用户评论等短文本数据在互联网范围内的大量出现，有关短文本的相关研究逐步受到人们的关注。分本分类算法一般包括：文本预处理、文档的表示以及分类器的选择和训练。具体来说，文本预处理主要是将文本进行分词切割，并将其中对于语义表达无用的停词去除。文档表示是为了降低文档的复杂性，使其便于后续步骤的处理，将文档的文本格式转成向量格式。向量中的每个特征将被赋予一个权重用来表示其在分类贡献度，对特征进行恰当的权重量化处理能够有效地提高分类算法的分类精度。最后，采用相应的分类算法对重新表示后的文档进行训练，并对未分类的文档进行类别预测及分类。

目前，对于文本分类处理方法大多是针对长文本分类提出的。所谓长文本是指篇幅较长，包含了较多内容的文本文件。不同于长文本，短文本具有关键词特征稀疏、语境不完整和语义信息模糊的特点，使得传统的文本表示方法在短文本处理时难以较好地量化特征在分类时的有用性。

此外，随着大数据时代的到来，对海量数据处理的实时性、可靠性、可扩展性等有了更高的要求。在这种情况下，Hadoop、Spark等海量数据处理平台应运而生。然而，传统的算法大多数都是在单机环境下进行数据处理，尚未有效地扩展到并行、分布式计算平台，使之能适应大数据处理能力的需求。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于信息熵特征权重量化的海量短文本分布式KNN分类算法。

本发明的另一目的在在于，提供一种基于信息熵特征权重量化的海量短文本分布式KNN分类系统。

为了达到上述第一目的，本发明采用以下技术方案：

基于信息熵特征权重量化的海量短文本分布式KNN分类算法，包括下述步骤：

S1、通过信息熵指标衡量特征在数据集中的分布确定性，将确定性高的特征赋予高权重，反之赋予低权重，得到反映类分布的权重量化方法；

S2、基于Hadoop分布式计算平台，采用MapReduce计算框架进行设计的，分为两轮MapReduce操作组合；

在第一轮Map操作中，训练集被平均拆分为多个子训练集并分配到进行运算的结点上，每一个待分类的测试数据同时在不同节点上，分别与该节点中的子训练集进行相似度计算。在第一轮Reduce操作中，在各个节点中对Map计算得到的相似度进行排序，获得每个节点上与测试样本数据的局部最相似的k个训练集样本；

在第二轮Map操作中，将每个节点中的局部最相似的k个训练集样本的相似度和类别进行统计，在第二轮Reduce操作中，各个训练集样本以相似度进行投票，选出相似度最大的类别作为测试样本数据的预测类别；其中第二轮MapReduce操作组可以根据集群节点数目酌情变换成多轮MapReduce操作组合。

优选的，步骤S1中，对于面向类分布均匀数据、基于熵的特征权重量化子方法的具体步骤为：

S111、初试化特征-类别分布矩阵，统计每个特征t在各个类c_i中出现词频f(t,c_i)；

S112、计算每个类别c_i的词频总数f(c_i)＝∑_tf(t,c_i)；

S113、计算特征在训练数据集中的熵值:

其中p(t,c_i)＝f(t,c_i)/f(c_i)，n为类别的总数目；

S114、采用逻辑斯蒂方程计算特征的分类贡献度：

其中，threshold是归一化阈值。

优选的，面向非均匀类分布数据、基于平衡熵的特征权重量化子方法，考虑到类之间文档数量的不平衡性，在一个样本数极少的类中出现一次和在一个样本数较多的类中出现一次应该给予不同的权重，包括以下步骤：

S121、初始化特征-类别分布矩阵，统计每个特征w在各个类c_i中出现词频f(t,c_i)；

S122、计算每个类别c_i的词频总数f(c_i)＝∑_tf(t,c_i)；

S123、计算特征——类别词频与类别总词频的相对比例：

f′(t,c_i)＝f(t,c_i)/f(c_i)；

S124、计算特征在训练数据集中的熵值:

其中，n为类别的总数目；

S125、采用逻辑斯蒂方程计算特征的分类贡献度：

其中，threshold是归一化阈值。

优选的，步骤S2具体为：

S21、将训练数据集划分成n个子集，其中n为Hadoop平台中负责运算的从属节点个数；

S22、每个从属节点在读入训练数据子集时，建立一个特征与包含该特征的文档之间的索引，如：<t_i:q_i,…,q_k>，其中t_i是特征，q_i为包含t_i的文档，该索引用来快速查找包含某个特征的文档集合，另外，建立一个文档向量模的缓存单元；

S23、对于一个待分类的测试文档数据q，同时分派给每个从属节点，在每个节点中，首先初始化A[1]-A[k]作为q的初始近邻，A[1]-A[k]按q与A[i]的相似度similarity(q,A[i])降序排序，然后通过查找索引找出包含q中特征的所有训练集文档<q_i,…,q_k>作为候选邻居集合，依次计算q与每个候选邻居q_i的余弦相似度，q与q_i的相似度的计算公式如：在计算相似度时，查找缓存单元中是否包含带计算文档q_i向量的模值||q_i||，若存在，将模值取出进行计算；若不存在，首先计算该文档向量的模值，然后加入缓存单元，将得到的similarity(q,q_i)与similarity(q,A[i])比较，其中i∈[1,k],找出第一个similarity(q,A[i])<similarity(q,q_i)的A[i]，若i∈[1,k],则将A[j+1]=A[j],其中j∈[i,k]，并令A[i]=q_i；否则，继续与下一个候选邻居进行相似性计算，最终，A[1]-A[k]即为每个节点中与q局部最相似的k个邻居；

S24、将每个节点中的局部最相似的k个邻居采用多路归并排序算法进行排序找出全局最相似的k个邻居，将该k个邻居以相似度进行预测类别投票，取出相似度最大的类别作为q的预测类别。

为了达到上述第二目的，本发明采用以下技术方案：

基于信息熵特征权重量化的海量短文本分布式KNN分类系统，文本预处理模块、特征提取模块、基于信息熵的词权重量化模块、文档表示模块以及引入索引缓存机制的KNN分布式分类模块；

所述文本预处理模块，使用分词器将所要分类的文本分成易于处理的单个词项，每一个词项作为此算法中处理的最小单元。然后根据中文停词表，把表中这些对文本分类没有意义的词项去掉；

所述特征提取方法模块，对每个样本中的文本预处理后得到的词项进行词频统计，从而把每个样本表示为(t₁:f₁,…,t_i:f_i,…,t_n:f_n)的形式，其中t₁为文本中得到的词项，f₁为该词项在当前样本的文本中出现的次数，n为所有样本中不同词项的总数；

所述基于信息熵的词权重量化模块，通过计算特征在训练集类别中的熵值来量化特征类别分布的确定性程度，并以此来衡量各个特征在分类过程中的贡献度。根据训练集的类别分布情况，若各个类别包含的文档数据数目比较一致，即各个类的分布较均匀，则采样对于面向类分布均匀数据、基于熵的特征权重量化子方法进行处理；否则，即各个类别包含的文档数据数目相差较大，各个类的分布不均匀，则采用面向非均匀类分布数据、基于平衡熵的特征权重量化子方法进行特征权重设置；

所述的文档表示模块，对每个样本中表示为如下形式，(t₁:w₁,…,t_i:w_i,…,t_n:w_n)，其中t₁为文本中得到的词，n为样本中不同特征总的总数量。假设经特征提取后的文档q＝(t₁:f₁,…,t_i:f_i,…,t_n:f_n)，则w_i＝f_i*weight(t_i)；

所述的引入索引缓存机制的分布式KNN分类模块，由一种引入索引和缓存机制的KNN分布式分类算法组成；对一个未知分类的测试样本q，首先计算它与所有已知分类样本的相似度，再取出其中最相似的k个，得到一个样本集S。

优选的，引入索引缓存机制的分布式KNN分类模块中，根据S中样本的标记类别以及其与测试样本x的相似度，计算出测试样本与每个类的相似度：

最后，将样本将被判断为相似度最大的一类：result＝arg Max_j(sim_j)。

本发明的原理：通过计算词的频率与类的样本数的比例来平衡大小不同类对于词重要性的衡量标准，然后，采用信息熵来计算词项的类别分布确定性程度，最后把计算的分布确定性用逻辑斯蒂方程来映射到0到1之间来作为词分类时的重要性权重，再利用词的权重计算样本之间的相似度，通过KNN算法得到待分类文本数据分类结果。

本发明与现有技术相比，具有如下优点和有益效果：

1.本发明使用信息熵来衡量词的权重，能够准确地量化词在分类中的重要性。使用了逻辑斯蒂方程来实现熵值与分类贡献度进行映射，使得词的权重量化更加合理，提高分类效果。

2.本发明考虑了当前大多数分类问题中，类别之间样本数量不平衡的问题，提出了利用用词的次数与类样本数量的相对大小进行熵值计算，从而减少了类之间样本数量的不平衡对分类问题带来的困难，提高分类的准确率。

3.本发明利用KNN算法中计算相似度时的独立性，将训练集样本和测试集样本分配到不同的结点上进行计算，提供了一种基于MapReduce实现了一个可扩展的、适用于大规模数据集的分布式KNN算法。

附图说明

图1为系统总框架图；

图2为预处理模块的流程图；

图3为权重计算模块的流程图；

图4为KNN分类的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，本发明基于信息熵特征权重量化的海量短文本分布式KNN分类算法，包括下述步骤：

在第一轮Map操作中，训练集被平均拆分为多个子训练集并分配到进行运算的结点上，每一个待分类的测试数据同时在不同节点上，分别与该节点中的子训练集相似度计算。在第一轮Reduce操作中，在各个节点中对Map计算得到的相似度进行排序，获得每个节点上与测试样本数据的局部最相似的k个训练集样本；

对于面向类分布均匀数据、基于熵的特征权重量化子方法，信息论中熵是对不确定性的测量。本发明采用熵来量化特征在训练类别中分布的确定性，并作为其在分类过程中有用性的衡量标准。具体来说，若特征的分布越确定，即大多数情况下，该特征只属于某一个类别，该特征将被赋予较高的权重；反之，

若特征的分布越不确定，即该特征出现在多个类别中，则该特征将被赋予较低的权重。该量化方法包括以下步骤：

1、初试化特征-类别分布矩阵，统计每个特征t在各个类c_i中出现词频f(t,c_i)；

2、计算每个类别c_i的词频总数f(c_i)＝∑_tf(t,c_i)；

3、计算特征在训练数据集中的熵值:

其中p(t,c_i)＝f(t,c_i)/f(c_i)，n为类别的总数目；

4、采用逻辑斯蒂方程计算特征的分类贡献度：

其中，threshold是归一化阈值。

面向非均匀类分布数据、基于平衡熵的特征权重量化子方法，考虑到类之间文档数量的不平衡性，在一个样本数极少的类中出现一次和在一个样本数较多的类中出现一次应该给予不同的权重，如图3所示，包括以下步骤：

1、初始化特征-类别分布矩阵，统计每个特征w在各个类c_i中出现词频f(t,c_i)；

2、计算每个类别c_i的词频总数f(c_i)＝∑_tf(t,c_i)；

3、计算特征-类别词频与类别总词频的相对比例：

f′(t,c_i)＝f(t,c_i)/f(c_i)；

4、计算特征在训练数据集中的熵值:

其中，n为类别的总数目；

5、采用逻辑斯蒂方程计算特征的分类贡献度：

其中，threshold是归一化阈值。

如图4所示，步骤S2中的具体操作为：

1、将训练数据集划分成n个子集，其中n为Hadoop平台中负责运算的从属节点个数；

2、每个从属节点在读入训练数据子集时，建立一个特征与包含该特征的文档之间的索引，如：<t_i:q_i,…,q_k>，其中t_i是特征，q_i为包含t_i的文档，该索引用来快速查找包含某个特征的文档集合，另外，建立一个文档向量模的缓存单元；

3、对于一个待分类的测试文档数据q，同时分派给每个从属节点，在每个节点中，首先初始化A[1]-A[k]作为q的初始近邻，A[1]-A[k]按q与A[i]的相似度similarity(q,A[i])降序排序，然后通过查找索引找出包含q中特征的所有训练集文档<q_i,…,q_k>作为候选邻居集合，依次计算q与每个候选邻居q_i的余弦相似度，q与q_i的相似度的计算公式如：在计算相似度时，查找缓存单元中是否包含带计算文档q_i向量的模值||q_i||，若存在，将模值取出进行计算；若不存在，首先计算该文档向量的模值，然后加入缓存单元，将得到的similarity(q,q_i)与similarity(1,A[i])比较，其中i∈[1,k],找出第一个similarity(1,A[i])<similarity(q,q_i)的A[i]，若i∈[1,k],则将A[j+1]=A[j],其中j∈[i,k]，并令A[i]=q_i；否则，继续与下一个候选邻居进行相似性计算，最终，A[1]-A[k]即为每个节点中与q局部最相似的k个邻居；

4、将每个节点中的局部最相似的k个邻居采用多路归并排序算法进行排序找出全局最相似的k个邻居，将该k个邻居以相似度进行预测类别投票，取出相似度最大的类别作为q的预测类别。

本实施例的基于信息熵特征权重量化的海量短文本分布式KNN分类系统，系统框架图如图1所示，包括文本预处理模块、特征提取模块、词权重计算模块、文档表示模块、KNN分布式分类模块。

本发明中的文本预处理模块，这部分通过一次MapReduce操作完成，如图2所示：首先在Mapper中使用文本分词器对文本进行分词，将所要分类的文本分成易于处理的一个个词，传到Reducer中。在Reducer中根据中文停词表，把表中这些对文本分类没有意义的词去掉。最后返回分词、去停词后的结果。

本发明中的词权重计算模块，通过一次MapReduce完成。

所述基于信息熵的词权重量化模块，通过计算特征在训练集类别中的熵值来量化特征类别分布的确定性程度，并以此来衡量各个特征在分类过程中的贡献度；如图3所示，首先在Mapper中读入预处理后的数据，根据读入的样本的类别和预处理后的文本，对文本中的每一个词生成一个key为词项，value为类别的key-value对。

然后在Reducer中依次同一个key的所有key-value对，统计每个特征w在各个类c_i中出现词频f(t,c_i)；

计算每个类别c_i的词频总数f(c_i)＝∑_tf(t,c_i)；

计算特征——类别词频与类别总词频的相对比例，f′(t,c_i)＝f(t,c_i)/f(c_i)；

基于信息熵的词项分类权重计算如下：

计算特征在训练数据集中的熵值:

其中，n为类别的总数目；

采用逻辑斯蒂方程计算特征的分类贡献度：

其中，threshold是归一化阈值。

最后Reducer返回词项和词项对应的weight_i′。

所述的文档表示模块，对每个样本中表示为如下形式，(t₁:w₁,…,t_i:w_i,…,t_n:w_n)，其中t₁为文本中得到的词，n为样本中不同特征总的总数量；假设经特征提取后的文档q＝(t₁:f₁,…,t_i:f_i,…,t_n:f_n)，则w_i＝f_i*weight′(t_i)；

所述的引入索引缓存机制的分布式KNN分类模块，由一种引入索引和缓存机制的KNN分布式分类算法组成；如图4所示，对一个未知分类的测试样本q，首先计算它与所有已知分类样本的相似度，再取出其中最相似的k个，得到一个样本集S。本发明中的样本文本相似度计算，使用余弦相似度，q与q_i的相似度的计算公式如：

对待计算的两个文本样本，通过计算它们的包含的词的交集和并集的权重之和，相除后返回相似度。本发明中的KNN分类模块，通过N次MapReduce完成，N>=2，N的数值大小取决于集群大小与数据量大小。在前面的N-1次MapReduce中，每个Mapper中读入一部分训练集数据保存在内存中，扫描全部训练集，把出现过的词记录成一个词表，并建立哈希表用来记录每一个词在训练集中哪些文档中出现过。然后对每一个要判断类别的样本，对这个样本中文本包含的所有词，根据词的索引表，找出这些词分别在哪些文档中出现过，求出这些文档的并集S，依次对这些文档与要判断类别的文档传入相似度计算模块计算相似度。把计算后的与测试文档的相似度大于阈值的文档的类别以及对应的相似度传入Reducer中。在Reducer中，把对每个测试文档的所有相似文档根据相似度排序，取出前K个，返回这些文档的类别和相似度。第N次MapReduce中，Mapper中读取前N-1次得到的每个测试文档与训练文档的相似度，生成key为测试文档id，value为最相似的k个训练文档的相似度和类别的key-value对。在Reducer中，读取同一个key的所有数据对，每一个数据对包含k个训练文档，提取出来根据相似度排序，对每一个key，即测试文档id，合并局部k最近邻后可得到全局的最相似k个文档的相似度和类别，根据S中样本的类别与相似度，计算出测试样本x与每个类的相似度：

从而把样本判断为相似度最大的一类：result＝arg Max_j(sim_j)。

最后，在Reduce中返回测试文档的id和判断的类别result。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于信息熵特征权重量化的海量短文本分布式KNN分类方法，其特征在于，包括下述步骤：

面向类分布均匀数据、基于熵的特征权重量化子方法的具体步骤为：

S111、初始化特征——类别分布矩阵，统计每个特征t在各个类c_i中出现词频f(t,c_i)；

S112、计算每个类别c_i的词频总数f(c_i)＝∑_tf(t,c_i)；

S113、计算特征在训练数据集中的熵值:

<mrow> <mi>E</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>o</mi> <mi>p</mi> <mi>y</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>n</mi> </munderover> <mi>p</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>(</mo> <mrow> <mi>t</mi> <mo>,</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

其中p(t,c_i)＝f(t,c_i)/f(c_i)，n为类别的总数目；

S114、采用逻辑斯蒂方程计算特征的分类贡献度：

其中，threshold是归一化阈值；

面向非均匀类分布数据、基于平衡熵的特征权重量化子方法，考虑到类之间文档数量的不平衡性，在一个样本数极少的类中出现一次和在一个样本数较多的类中出现一次应该给予不同的权重，包括以下步骤：

S121、初始化特征-类别分布矩阵，统计每个特征t在各个类c_i中出现词频f(t,c_i)；

S122、计算每个类别c_i的词频总数f(c_i)＝∑_tf(t,c_i)；

S123、计算特征-类别词频与类别总词频的相对比例：

f′(t,c_i)＝f(t,c_i)/f(c_i)；

S124、计算特征在训练数据集中的熵值:

其中，n为类别的总数目；

S125、采用逻辑斯蒂方程计算特征的分类贡献度：

其中，threshold是归一化阈值；

在第一轮Map操作中，训练集被平均拆分为多个子训练集并分配到进行运算的节点上，每一个待分类的测试数据同时在不同节点上，分别与该节点中的子训练集进行相似度计算；在第一轮Reduce操作中，在各个节点中对Map计算得到的相似度进行排序，获得每个节点上与测试样本数据的局部最相似的k个训练集样本；

2.根据权利要求1所述的基于信息熵特征权重量化的海量短文本分布式KNN分类方法，其特征在于，步骤S2具体为：

S22、每个从属节点在读入训练数据子集时，建立一个特征与包含该特征的文档之间的索引，表示为：<t_i：q_i,…,q_k>，其中t_i是特征，q_i为包含t_i的文档，该索引用来快速查找包含某个特征的文档集合，另外，建立一个文档向量模的缓存单元；

S23、对于一个待分类的测试文档数据q，同时分派给每个从属节点，在每个节点中，首先初始化A[1]-A[k]作为q的初始近邻，A[1]-A[k]按q与A[i]的相似度similarity(q,A[i])降序排序，然后通过查找索引找出包含q中特征的所有训练集文档<q_i,…,q_k>作为候选邻居集合，依次计算q与每个候选邻居q_i的余弦相似度，q与q_i的相似度的计算公式为：在计算相似度时，查找缓存单元中是否包含带计算文档q_i向量的模值||q_i||，若存在，将模值取出进行计算；若不存在，首先计算该文档向量的模值，然后加入缓存单元，将得到的similarity(q,q_i)与similarity(q,A[i])比较，其中i∈[1,k],找出第一个similarity(q,A[i])<similarity(q,q_i)的A[i]，若i∈[1,k],则将A[j+1]＝A[j],其中j∈[i,k]，并令A[i]＝q_i；否则，继续与下一个候选邻居进行相似性计算，最终，A[1]-A[k]即为每个节点中与q局部最相似的k个邻居；