CN106202518A

CN106202518A - 基于chi和分类别关联规则算法的短文本分类方法

Info

Publication number: CN106202518A
Application number: CN201610583443.7A
Authority: CN
Inventors: 黄文明; 莫阳; 邓珍荣
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2016-07-22
Filing date: 2016-07-22
Publication date: 2016-12-07
Anticipated expiration: 2036-07-22
Also published as: CN106202518B

Abstract

本发明一种基于CHI和分类别关联规则算法的短文本分类方法，将不同类别文本的频繁词集出现频繁度进行了度量，引入了类别频繁因子（LFF），通过LFF合理分配了各文本类别的最小支持度阈值，克服了传统的FP‑Growth算法挖掘出的频繁词集类别出现偏斜的情况，同时在对频繁词集进行类别倾向判断上，采取了CHI检验算法去衡量特征词与类别之间的关联程度，而非采取简单的词语频率统计去衡量，避免了人工设参和实验确定最佳参数的步骤，增强了分类系统的可控制性。同时还提出了基于Hadoop/MapReduce大数据计算平台的并行特征扩展短文本分类算法，对类别频繁因子的计算和特征扩展方法进行了MapReduce并行化设计，提升了短文本分类准确率以及分类效率，提高了系统的可控性。

Description

基于CHI和分类别关联规则算法的短文本分类方法

技术领域

本发明涉及自然语言处理和文本挖掘领域，特别涉及一种基于CHI和分类别关联规则算法的短文本分类方法。

背景技术

随着互联网尤其是社交媒体的发展，网络上的文本内容越来越丰富，除了博客、新闻等这样的长文本，由于互联网用户网络话题的参与度逐渐增加，微博、邮件、评论等短文本近年来也呈现爆炸性的增长。不同于长文本，短文本的特点是文本内容较少，其具有特征稀疏、描述信息弱等缺点，导致传统的特征提取、文本表示模型和文本分类方法在短文本上效果不佳。针对此问题，最为直接和有效的途径的方法是对短文本的特征进行扩展，目前的解决方法主要有三种：一是通过借助外部资源(例如搜索引擎)和知识库(例如WordNet)对特征进行扩展，借助网络知识库维基百科抽取相关概念，采用统计规律与类别信息相结合的方式计算概念间的相关度，建立语义相关概念集合；二是结合特征词和隐含主题从两种不同粒度上进行特征词扩展，分别抽取训练集中各类别的高频词和主题核心词作为领域关键词集，利用概率主题模型提取待分类文本的主题概率分布，将筛选后的关键词扩展到待分类文本中；三是通过关联规则算法在文本集上进行频繁词集挖掘，构建特征扩展背景知识库。

第三类方法，关联规则算法存在以下不足和待改进之处：

1、在频繁词挖掘阶段，算法应用的对象是整个文本数据集或者是包含多个类别的文本数据集，即在所有类别的文本中，关联规则算法中的参数阈值(如最小支持度)是统一的，而现实的情况是，不同类别的文本中出现固定词语搭配(频繁词集)的频率是不同的，即某些类别(范畴比较大的类别，比如“社会”等)的文本出现的频繁词集支持度较小，而某些类别的文本(小范畴，比如“体育”、“金融”等)中频繁词集往往都集中在某个较小的词语集合中，且支持度值较大，如果在进行频繁词挖掘的过程中使用统一的支持度阈值，会导致频繁词集中的绝大部分频繁项都偏向于小范畴类别，而大范畴类别中的具有代表性的频繁项则会由于最小支持度阈值过大而被忽略。

2、挖掘出具有共现关系的特征项后，传统的做法是未考虑关联特征的类别同向关系，直接对原始文本进行特征扩展，这样会造成噪声特征词的引入，影响分类性能。现有的研究中，是通过人工设置信度阈值计算特征的类别倾向，再根据类别同向关系进行频繁词集的过滤，人工干预过多，阈值难以确定，算法的灵活性和程序的控制性不高。

3、考虑到近年来网络数据量的急剧膨胀，面临海量数据对CPU、IO吞吐等的高要求，传统串行文本分类算法在大文本数据量的环境下计算速度、文件存储、容错性等方面显得力不从心，因此需要研究能够在多节点的大数据计算模式下运行的分布式算法。

发明内容

本发明的目的在于克服上述短文本分类，现有方法中存在的问题和不足，提供一种基于CHI和分类别关联规则算法的短文本分类方法。

为实现本发明目的，一种基于CHI和分类别关联规则算法的短文本分类方法，包括以下步骤：

步骤1：从互联网中采集短文本数据(如评论、微博等)，并对其进行预处理，其中包括中文分词、停用词处理等，将处理后的文本数据分为训练集和测试集，并存放到文本数据库；

步骤2：同时从互联网中采集各领域的长文本语料，用以构建特征扩展知识库，并对其进行预处理，存放到文本数据库；

步骤3：根据长文本语料运用关联规则FP-Growth算法，进行初始频繁词集挖掘，以此计算各个类别文本的频繁程度，即类别频繁因子(label frequency factor，LFF)；

步骤4：根据每个类别频繁因子分别确定在频繁词挖掘阶段每个类别的最小支持度阈值，再结合关联规则FP-Growth算法进行频繁词集挖掘，构建初始频繁词集合；

步骤5：对初始频繁词集合中的所有共现特征词中的每一个词语计算其与各类别之间的CHI检验值，选出CHI检验值最高的对应类别作为该特征词的类别倾向，最后过滤频繁词集合中词语类别倾向不统一的频繁项，产生高质量的频繁词集，构建最终的特征扩展背景知识库；

步骤6：根据构建完成的特征扩展背景知识库，对短文本训练集和测试集进行特征扩展；

步骤7：运用信息增益特征选择算法提取出的特征词和TFIDF算法构建扩展后的训练集和测试集的向量空间模型VSM，作为输入加入到文本分类器中；

步骤8：根据训练的文本分类器对测试文本进行分类评估，确定最佳特征词数量；

步骤9：根据步骤4和步骤5建立基于MapReduce分布式特征扩展模型，以并行化的方式进行短文本分类中的特征扩展，并与串行算法进行性能对比，验证出并行算法的有效性。

作为本发明的进一步改进，步骤1，2中，分别采集需要的三类文本，即训练集短文本、测试集短文本、各领域类别的长文本，对于长文本语料，如在新闻分类条件需求下，可以将新闻正文内容作为长文本数据集，用于特征扩展知识库建设，将新闻标题数据集进行划分，作为短文本分类的训练集和测试集。

在不同类别的文本环境下，频繁词集出现的支持度往往会有所差异，例如，假设最小支持度阈值为200，在“金融”类别中频繁词集的支持度在200以上的数量超过2000，而在“体育”类别中频繁词集的支持度在200以上的数量不足100。因此针对不同的类别进行频繁词集挖掘，不同类别的最小支持度阈值也应独立设置，对于一些较易出现频繁项的类别，应使其最小支持度大于不易出现频繁项的类别的最小支持度。

作为本发明的进一步改进，步骤3，针对不同的类别进行频繁词集挖掘，构建类别频繁因子概念来衡量某个类别的频繁词集出现的频繁程度，其定义如下：

\begin{matrix} F r e q u e n c y (c) = \\ \frac{Σ_{i = 1}^{N_{b a s e}} \sup p o r t {(c a n d i d a t e f r e q u e n t i t e m - s e t s)}_{i}}{N_{b a s e}} \end{matrix} - - - (1)

首先，设定一较小的最小支持度阈值sup_min，运用关联规则FP-Growth算法按类别挖掘出支持度大于sup_min的候选频繁词集Set_primary，其质量较差，作为计算类别频繁因子的依据；再按照支持度大小对Set_primary进行排序，从每个类别中选取其中N_base个支持度最大的候选频繁词集，取这N_base个共现词集的平均支持度作为该类别的初始类别频繁因子Frequency(c)_primary，对各类别的Frequency(c)_primary运用归一化方法进行标准化处理，得到最终的类别频繁因子Frequency(c)，式(1)中support(candidatefrequent item-sets)_i表示Set_primary中第i个候选频繁词集的支持度值。

作为本发明的进一步改进，步骤4中，根据每个类别的频繁因子，取其与设定的标准最小支持度阈值support_base的乘积作为该类别的最小支持度阈值，其定义如下：

support(c_i)＝Frequence(c_i)*support_base (2)

再结合关联规则FP-Growth算法，根据类别最小支持度阈值support(c_i)进行频繁词集挖掘，构建初始频繁词集合。

作为本发明的进一步改进，步骤5中，对初始频繁词集合(Extension_Knowledge_Base(Extension_KB)中的所有共现特征词集FrequentWordSet中的每一个词语，采用CHI检验算法计算其与各个类别的相关性度量即所述的类别倾向，若频繁词集FrequentWordSet中出现某个词语的类别倾向与当前类别不一致，便从Extension_KB中过滤出该频繁词集，得出过滤后的最终的特征扩展背景知识库Filter_Extension_KB(分类别)。

作为本发明的进一步改进，步骤6根据构建完成的特征扩展背景知识库Fil ter_Extension_KB，对短文本训练集和测试集进行扩展，其方法是：设原始训练集文本特征集合为text_p＝{w₁,w₂,w₃,......,w_i}，该文本所属类别设为w_i表示文本中第i个特征，对于text_p中每一个特征w_i，扫描类别对应的背景知识库Filter_Extension_KB，查找与w_i对应的频繁词集{w_i,,...,w_t}，将w_t作为扩展特征加入到原始文本集中，对于测试集的扩展，由于其缺少类别标签，因此需要扫描整个Filter_Extension_KB，查找对应频繁词集。

作为本发明的进一步改进，步骤9中，频繁因子的计算模型分为两个Map/Reduce阶段，首先Map的输入为<事务，null>的键值对，通过Map函数生成以事务项为键，1为值的中间结果，经过shuffle排序后输入到Reduce函数，经过按key累加之后，得到各个事务项与其支持度的<key,Value>结果；频繁模式挖掘发生在第二个Map/Reduce阶段，按照平衡分组将第一阶段的结果分成若干分片，每个Map函数对应一个分组，得到中间计算结果，最后在Reduce函数里进行结果汇总和排序并根据设定的sup_min进行频繁项集过滤，每个类别得到N_base个支持度最大的候选频繁词集，并对每个类别N_base个支持度均值进行标准化处理得到各类别频繁因子。

作为本发明的进一步改进，步骤9基于MapReduce的分布式特征扩展模型，首先从HDFS(Hadoop中的分布式文件系统)中读取文本数据集(包括训练集和测试集)和特征扩展背景知识库，Map函数的输入为<text_n,null>的键值对和切分后的背景知识库，在Map函数中将text_n与背景知识库进行匹配，得到扩展的中间结果<text_m,expend_m>，经过分区、排序处理后输入Reduce函数进行merge操作，得到<text_i,expend₁,expend₂,...,expend_j>的最终扩展文本，并存储在HDFS中。

本发明针对传统文本分类方法在短文本语料上分类效果欠佳问题，在现有的特征扩展解决方法上，对传统的关联规则FP-Growth算法进行了改进，将不同类别文本的频繁词集出现频繁度进行了度量，引入了类别频繁因子(LFF)，通过LFF合理分配了各文本类别的最小支持度阈值，克服了传统的FP-Growth算法挖掘出的频繁词集类别出现偏斜的情况，同时在对频繁词集(即挖掘出的共现特征词组)进行类别倾向判断上，采取了CHI检验算法去衡量特征词与类别之间的关联程度，而非采取简单的词语频率统计去衡量，避免了人工设参和实验确定最佳参数的步骤，增强了分类系统的可控制性。同时考虑到单节点串行文本分类算法在大数据集文本条件下，计算性能不足的瓶颈问题，本发明还提出了基于Hadoop/MapReduce大数据计算平台的并行特征扩展短文本分类算法，对类别频繁因子的计算和特征扩展方法进行了MapReduce并行化设计。

本发明方法主要考虑短文本分类的分类性能问题，实际意义在于解决短文本分类描述性弱、表征性不足的缺陷，基于改进的关联规则算法和有效的特征扩展库过滤规则，结合Hadoop/MapReduce并行化设计，提升了短文本分类准确率以及分类效率，提高了系统的可控性。

附图说明

图1为本发明基于CHI和分类别关联规则算法的短文本分类方法的整体流程图；

图2为图1步骤3的流程图；

图3为本发明基于改进特征扩展的短文本分类方法中特征扩展库的建立和过滤、以及文本特征扩展模型；

图4为本发明短文本分类方法中MapReduce化的并行频繁因子计算模型；

图5为本发明短文本分类方法中MapReduce化的并行特征扩展模型；

图6为本发明实施例全局FP-Growth算法和基于频繁因子的FP-Growth算法的频繁词集类别倾斜性对比；

图7为本发明实施例经过特征扩展的文本分类的准确率、召回率、宏平均F值评估；

图8为本发明实施例基于MapReduce的并行特征扩展算法与串行算法的分类效率对比。

具体实施方式

下面结合附图和实施例对本发明内容作进一步详细说明，但不是对本发明的限定。

参照图1，基于CHI和分类别关联规则算法的短文本分类方法，包括如下步骤：

ST1：从互联网中采集短文本数据(如评论、微博等)，并对其进行预处理，其中包括中文分词、停用词处理等，将处理后的文本数据分为训练集和测试集，并存放到文本数据库。

ST2：同时从互联网中采集各领域的长文本语料，用以构建特征扩展知识库，并对其进行预处理，存放到文本数据库。

ST3：根据长文本语料运用关联规则FP-Growth算法，进行初始频繁词集挖掘，以此计算各个类别文本的频繁程度，即类别频繁因子(label frequency factor，LFF)；

ST301：首先设定一较小的最小支持度阈值sup_min，运用关联规则FP-Growth算法按类别挖掘出支持度大于sup_min的候选频繁词集Set_primary(质量较差，作为计算类别频繁度的依据)，按照支持度大小对Set_primary进行排序；

ST302：从每个类别中选取其中N_base个支持度最大的候选频繁词集，取这N_base个共现词集的平均支持度作为该类别的初始类别频繁因子Frequency(c)_primary，对各类别的Frequency(c)_primary运用归一化方法进行标准化处理，得到最终的类别频繁因子Frequency(c)，support(candidate frequent item-sets)_i表示Set_primary中第i个候选频繁词集的支持度值。

下面是类别频繁因子的算法描述：

说明：sup_min是人为设定的最小支持度阈值，T_c是各类别的事务数据库集合，Set_primary是T_c支持度大于sup_min的候选频繁项集合，sup(candidate sets)_i是Set_primary中第i个候选频繁词集的支持度。

输入：各类别原始特征构成的事务数据库集合T_c，sup_min。

输出：各类别的类别频繁因子集合Frequency(c)

ST4：根据每个类别频繁因子分别确定在频繁词挖掘阶段每个类别的最小支持度阈值，再结合关联规则FP-Growth算法进行频繁词集挖掘，构建初始频繁词集合。

ST5：根据步骤ST302中计算的各类别的频繁因子，取其与设定的标准最小支持度的乘积作为类别的最小支持度，结合FP-Growth即LFF_FP-Growth算法按类别进行频繁词集挖掘，构成初始频繁词集即未经类别同向过滤的分类别的特征扩展背景知识库Extension_Knowledge_Base(Extension_KB),并采用CHI检验计算各个类别Extension_KB每一对频繁词集FrequentWordSet中的每个词语项与每个类别的相关性度量即上文所述的类别倾向，去除类别倾向不统一的频繁词集，得到过滤后的特征扩展背景知识库Filter_Extension_KB(分类别)，算法描述如下：

说明：{Frequency(c)}是类别频繁因子，T_c是各类别的事务数据库集合，support_base是人为设定的标准最小支持度阈值，{class}是文本类别集合。

输入：{Frequency(c)}，T_c

输出：过滤后的高质量背景知识库Filter_Extension_KB

ST6：构建完成特征扩展背景知识库后，分别对训练集和测试集进行特征扩展，其方法是：设原始训练集文本特征集合为text_p＝{w1,w2,w3,......,wi}，该文本所属类别设为w_i表示文本中第i个特征，对于text_p中每一个特征w_i，扫描类别对应的背景知识库Filter_Extension_KB，查找与w_i对应的频繁词集{w_i,,...,w_t}，将w_t作为扩展特征加入到原始文本集中。对于测试集的扩展，由于其缺少类别标签，因此需要扫描整个Filter_Extension_KB，查找对应频繁词集。

算法描述如下：

说明：train_p＝{w₁,w₂,w₃,......,w_i}是原始训练文本集，test_p＝{w₁,w₂,w₃,......,w_j}是原始测试文本集，class(train_p)是该训练文本所属类别，extend_train，extend_test:扩展的训练集和测试集。

输入：train_p，test_pFilter_Extension_KB

输出：extend_train，extend_test，test_p

ST7：运用信息增益特征选择算法提取出的特征词和TFIDF算法构建扩展后的训练集和测试集的向量空间模型VSM，作为输入加入到文本分类器中。

ST8：根据训练的文本分类器对测试文本进行分类评估，确定最佳特征词数量，以及在频繁词挖掘过程中最佳的最小支持度阈值。

ST9：基于上述特征扩展方法，建立基于MapReduce分布式特征扩展模型(如图4、图5所示)，以并行化的方式进行短文本分类中的特征扩展，并与串行算法进行性能对比，验证出并行算法的有效性。

实施例：

基于CHI和分类别关联规则算法的新闻标题分类方法。

数据集包含5个类别(娱乐、金融、体育、IT、女性)的新闻标题和正文，共3万条文本，其中，训练数据2万条新闻标题，测试数据1万条新闻标题，其中取2万条训练数据的正文作为长文本用作特征扩展知识库建设。

类别频繁因子：

由图6可以看出，若设置统一的最小支持度阈值进行频繁词集挖掘，各类别的频繁词集数量差异很大。图中统一最小支持度阈值为800，5个类别共挖掘出1025个频繁词集，仅金融类别的频繁项数量就有1022个，占到了99.7％，频繁词集类别偏斜问题较为严重，以此为基础构建背景知识库在对各类别文本进行特征扩展时，会造成训练集、测试集的扩展特征分布及其不均衡。而采用了类别频繁因子的分类别关联规则算法挖掘出的频繁词集数量则分布较为均衡，且各类别的频繁词集数量均能达到一个合理的水平，能够较大限度地挖掘出各类别中具有较强表征性的频繁词集，从而构建健壮的、高质量的背景知识库。

实施例特征扩展影响评估：

在本实例中，由于文本数据集通常具有高维度的特点，为了降低向量空间模型规模、同时避免过拟合和减少计算复杂度，需要对特征进行降维处理即特征词选择，此处采用效果较好的信息增益算法，而特征词的数量则较难通过理论验证去确定，本实施例中选取了数量为500、1000、1500、2000、2500、3000的特征词去评估分类效果。同时，在频繁词集挖掘过程中，标准最小支持度support_base是人为设定的，因此也需要根据分类效果进行评估，选取最优的阈值。

由图7可以看出，基于本发明提出的改进特征扩展模型，在构建背景知识库的基础上对原始数据集进行特征扩展后再进行分类模型训练，对于短文本分类的准确率、召回率、F1-score值等重要分类评价指标均保持在较高的水平，在实例所选的5个类别上，经过特征扩展的分类算法在特征词数量为500、1000、1500、2000、2500、3000条件下平均查准率的均值为86.17％；平均召回率均值为79.93％；宏平均macro-F1值均值为0.8269。由此可见，本发明所采用的的特征扩展方法能够有效对训练集和测试集的短文本进行扩展，对于加强每条文本对类别的表征能力有较好的效果，一定程度上克服了短文本特征稀疏、描述信息弱的缺陷。

实施例并行化算法影响评估：

Hadoop/MapRecude计算模型适合于处理单机无法处理的海量数据集，通过Map任务将一个任务分解成为多个任务，通过reduce将分解后多任务处理的结果汇总起来。针对本发明中的特征扩展的并行化处理，本实施例使用了如下软件环境和硬件环境的节点：操作系统CentOS6.5、Hadoop版本2.4、JDK1.8；硬件环境为：Master节点1个，Slave节点6个，其中每个节点的配置为4核Intel(R)Xeon(R)CPUE-3-1 241v3处理器、100.0Mbps网卡、2G内存。实例结果如图8所示。

由图8可以看出，基于Hadoop/MapReduce的并行特征扩展分类算法的分类效率较串行算法有极大提升，在实验中设置的7个MapReduce作业工作节点的条件下，运行时间平均下降了5.5倍，且当特征词数量逐渐增大时，并行算法的加速性能越明显，当特征词数量为3000时，串行算法运行时间是并行算法的5.7倍。提升速度呈现上升趋势，因为实例中采用的数据量有限，而Hadoop/MapReduce计算模型在数据量较大的时候优势才更加明显，因此实例成功验证了基于MapReduce的特征扩展短文本分类方法的有效性。

Claims

1.一种基于CHI和分类别关联规则算法的短文本分类方法，其特征在于包括以下步骤：

步骤1：从互联网中采集短文本数据，并对其进行预处理，将处理后的文本数据分为训练集和测试集，并存放到文本数据库；

步骤3：根据长文本语料运用关联规则FP-Growth算法，进行初始频繁词集挖掘，以此计算各个类别文本的频繁程度，即类别频繁因子LFF；

2.根据权利要求1所述的基于CHI和分类别关联规则算法的短文本分类方法，其特征在于：步骤3针对不同的类别进行频繁词集挖掘，构建类别频繁因子概念来衡量某个类别的频繁词集出现的频繁程度，其定义如下：

\begin{matrix} F r e q u e n c y (c) = \\ \frac{Σ_{i = 1}^{N_{b a s e}} \sup p o r t {(c a n d i d a t e f r e q u e n t i t e m - s e t s)}_{i}}{N_{b a s e}} \end{matrix} - - - (1)

首先，设定一较小的最小支持度阈值sup_min，运用关联规则FP-Growth算法按类别挖掘出支持度大于sup_min的候选频繁词集Set_primary，其质量较差，作为计算类别频繁因子的依据；再按照支持度大小对Set_primary进行排序，从每个类别中选取其中N_base个支持度最大的候选频繁词集，取这N_base个共现词集的平均支持度作为该类别的初始类别频繁因子Frequency(c)_primary，对各类别的Frequency(c)_primary运用归一化方法进行标准化处理，得到最终的类别频繁因子Frequency(c)，式(1)中support(candidate frequent item-sets)_i表示Set_primary中第i个候选频繁词集的支持度值。

3.根据权利要求1所述的基于CHI和分类别关联规则算法的短文本分类方法，其特征在于：步骤4中，根据每个类别的频繁因子，取其与设定的标准最小支持度阈值support_base的乘积作为该类别的最小支持度阈值，其定义如下：

support(c_i)＝Frequence(c_i)*support_base (2)

4.根据权利要求1所述的基于CHI和分类别关联规则算法的短文本分类方法，其特征在于：步骤5中，对初始频繁词集合中的所有共现特征词集FrequentWordSet中的每一个词语，采用CHI检验算法计算其与各个类别的相关性度量即所述的类别倾向，若频繁词集FrequentWordSet中出现某个词语的类别倾向与当前类别不一致，便从初始频繁词集合中过滤出该频繁词集，得出过滤后的最终的特征扩展背景知识库。

5.根据权利要求1所述的基于CHI和分类别关联规则算法的短文本分类方法，其特征在于：步骤6根据构建完成的特征扩展背景知识库，对短文本训练集和测试集进行扩展，其方法是：设原始训练集文本特征集合为text_p＝{w₁,w₂,w₃,......,w_i}，该文本所属类别设为w_i表示文本中第i个特征，对于text_p中每一个特征w_i，扫描类别对应的背景知识库Filter_Extension_KB，查找与w_i对应的频繁词集{w_i,,...,w_t}，将w_t作为扩展特征加入到原始文本集中，对于测试集的扩展，由于其缺少类别标签，因此需要扫描整个Filter_Extension_KB，查找对应频繁词集。

6.根据权利要求1所述的基于CHI和分类别关联规则算法的短文本分类方法，其特征在于：步骤9中，频繁因子的计算模型分为两个Map/Reduce阶段，首先Map的输入为<事务，null>的键值对，通过Map函数生成以事务项为键，1为值的中间结果，经过shuffle排序后输入到Reduce函数，经过按key累加之后，得到各个事务项与其支持度的<key,Value>结果；频繁模式挖掘发生在第二个Map/Reduce阶段，按照平衡分组将第一阶段的结果分成若干分片，每个Map函数对应一个分组，得到中间计算结果，最后在Reduce函数里进行结果汇总和排序并根据设定的sup_min进行频繁项集过滤，每个类别得到N_base个支持度最大的候选频繁词集，并对每个类别N_base个支持度均值进行标准化处理得到各类别频繁因子。

7.根据权利要求1所述的基于CHI和分类别关联规则算法的短文本分类方法，其特征在于：步骤9基于MapReduce的分布式特征扩展模型，首先从HDFS中读取文本数据集和特征扩展背景知识库，Map函数的输入为<text_n,null>的键值对和切分后的背景知识库，在Map函数中将text_n与背景知识库进行匹配，得到扩展的中间结果<text_m,expend_m>，经过分区、排序处理后输入Reduce函数进行merge操作，得到<text_i,expend₁,expend₂,...,expend_j>的最终扩展文本，并存储在HDFS中。