CN102955856A

CN102955856A - 一种基于特征扩展的中文短文本分类方法

Info

Publication number: CN102955856A
Application number: CN2012104469974A
Authority: CN
Inventors: 欧阳元新; 罗建辉; 刘文琦; 熊璋
Original assignee: Beihang University
Current assignee: Beijing Rock Technology Co., Ltd.
Priority date: 2012-11-09
Filing date: 2012-11-09
Publication date: 2013-03-06
Anticipated expiration: 2032-11-09
Also published as: CN102955856B

Abstract

本发明提供一种基于特征扩展的中文短文本分类方法，包括：步骤（1）建立背景知识库：从带有类别标注的长文本语料库中挖掘满足一定约束条件的特征词的二元组来生成背景知识库；步骤（2）扩展训练集中的短文本：根据背景知识库中的二元组，按照一定的扩展规则对训练集中的短文本添加扩展词；步骤（3）建立分类模型：用经过扩展的短文本训练集建立SVM分类模型；步骤（4）扩展待分类的短文本：根据背景知识库中的二元组和分类模型的特征空间，按照一定的扩展规则对待分类的短文本添加扩展词；步骤（5）产生分类结果：利用分类模型和扩展后的短文本来产生分类结果。本发明利用长文本语料库来丰富短文本的特征，提高了短文本分类的准确率和召回率。

Description

一种基于特征扩展的中文短文本分类方法

技术领域

本发明涉及文本分类系统的技术领域，特别涉及一种基于特征扩展的中文短文本分类方法。

背景技术

根据统计，在电子信息数据中，大约有80%的数据是以非结构化的文本文件形式而存在着。在互联网上，不仅文本数据是最为普遍的数据存储形式，而且视频、音频及图片等数据的搜索都有与之相关联的文本数据。

文本分类为处理和组织海量文本数据的关键技术，可以比较有效地解决信息杂乱的问题，方便了用户准确地定位所需的信息和分流信息。传统的文本分类系统主要采用KNN、SVM等分类方法，能在长文本分类应用中获得很好的分类效果。

随着互联网的继续发展，短文本信息开始大量出现，例如论坛的留言、新闻标题、社交网络的状态、即时消息、微博等等，这些短文本信息是大家日常交流通讯中所必不可少的信息形式，它们的共同特点是：信息长度较短、表述内容丰富、组合比较灵活、内容长短不定、数据规模很大。

由于短文本的特征离散且长度较短，所以传统的文本分类方法直接应用到短文本语料集上时并不能取得可与长文本语料集上相比拟的分类效果。通过丰富短文本所携带的特征量，能够有效地提高短文本分类的准确率和召回率。

发明内容

本发明要解决的技术问题为：克服现有技术的不足，提供一种基于特征扩展的中文短文本分类方法，该系统通过从长文本语料库中提取信息来丰富短文本所携带的信息量，从面提高了分类的准确率和召回率。

本发明解决上述技术问题的技术方案为：一种基于特征扩展的中文短文本分类方法，该系统具体步骤如下：

步骤（1）、建立背景知识库：根据长文本语料库，利用改进的Apriori算法挖掘出具有共现在关系和相同类别趋向性的特征词的二元组，从而建立背景知识库。

步骤（2）、扩展训练集中的短文本：利用步骤（1）中生成的背景知识库作为扩展库，对于短文本中的每个原始词，从背景知识库寻找与该词相关联的所有词，然后将这些词作为扩展词对短文本进行存在性扩展。

步骤（3）、建立分类模型：从经过扩展的短文本训练中提取有用特征，获得特征空间，再将每个扩展后的短文本转换为该特征空间上的向量表示，最后用这些向量作为训练集来建立SVM分类模型。

步骤（4）、扩展待分类的短文本：根据背景知识库中的二元组和分类模型的特征空间，按照一定的扩展规则对待分类的短文本添加扩展词。

步骤（5）、产生分类结果：将步骤（4）扩展后的短文本转换成的特征空间上的向量，然后作为输入，利用步骤（3）获得的分类模型计算出分类结果并返回给用户。

所述步骤（1）中建立背景知识库，具体如下：

步骤①对长文本语料库中的长文本进行切词，每个长文本只保留名词、时间词、处所词、方位词、动词、形容词、区别词、状态词和字符串，从而得到长文本语料库的特征词集；

步骤②计算长文本语料库的特征词集中的各个词的类别趋向性和全局支持度，若特征词的类别趋向性不存在或全局支持度不够，则从该集合中删除，然后根据特征词的类别趋向性将特征词集划分为若干个与类别一一对应的子集合；

假设D=｛d₁,d₂,…,d_n｝表示长文本语料库的所有文本集合，T＝{t₁,t₂,..，t_k}表示k个构成文本的特征项（即特征词）的集合，C=｛c₁,c₂,…，c_m｝表示类别的集合。

定义1全局支持度：项集T的全局支持度记为gsup(T)，指语料库中包含项集T的文档数与整个语料库的文档数的比值，其数学定义式为：

gsup (T) = \frac{| D_{T} |}{| D |}

（1）式

其中D表示语料库中所有文档的集合，D_T表示语料库中包含项集T的所有文档的集合。

定义2置信度：特征项t的对于类别c的置信度记为conf(t,c)，是包含特征项t且属于类别c的文档数与含特征项t的所有文档数的比值，其数学定义式为：

conf (t, c) = \frac{| D_{t, c} |}{| D_{t} |}

（2）式

其中D_t表示包含特征项t的文档的集合，D_t，c表示包含特征项t且属于类别c的文档的集合。

定义3类别趋向性：对于特征项t，若存在类别，使得conf(t，c)不小于用户指定的阈值β（0.5≤β≤1），则称特征项t具有类别趋向性，且倾向类别为c，记为Trend(t)=c。

步骤③在每个子集合上应用Apriori算法挖掘具有参数α的共现关系和具有参数β的类别趋同性的特征词的二元组，并以这些二元组构成背景知识库。

定义4共现关系：若项集T的全局支持度超过一个用户指定的阈值α（0＜α≤1），则称项集T内的特征项具有共现关系。

定义5类别趋同性：对于两个不同的特征项t₁和t₂，若存在类别c，使得Trend(t₁)=Trend(t₂)=c，则称二者具有类别趋同性。

所述步骤（2）中扩展训练集中的短文本，具体如下：

假设d＝{t₁,t₂,…,t_k}表示一个短文本，F表示背景知识库，则对该短文本扩展步骤如下：

步骤A、对于短文本中的每个特征词，从背景知识库F中寻找与该词相关联的所有词，然后将这些词作为短文本d对应的可用扩展词集EX={t|<t,t_i>∈F或<t_i,t>∈F，其中i＝1,..k}。

步骤B、遍历可用扩展词集EX中的所有特征词对文档d进行存在性扩充，即如果t不存在于文本d中，那么就将t并入d中，并重复此过程直到遍历完集合EX中的特征词。

所述步骤（4）中扩展待分类的短文本，具体如下：

假设d＝{t₁,t₂,…,t_k}表示一个待扩展的短文本，F表示背景知识库，V表示步骤（3）获得的特征空间，则对该短文本扩展步骤如下：

步骤A、从背景知识库F中去除包含不属于特征空间V中的特征词的二元组。

步骤B、对于短文本中的每个特征词，从背景知识库寻找与该词相关联的所有词，将这些词作为短文本d对应的可用扩展词集EX={t|(<t,t_i>∈F或<t_i,t>∈F)且t_i∈V，其中i＝1,..k}。

步骤C、遍历可用扩展词集EX中的所有特征词对文档d进行存在性扩充，即如果t不存在于文本d中，那么就将t并入d中，并重复此过程直到遍历完集合EX中的特征词。

本发明与现有技术相比的优点在于：

相比于传统文本分类系统，本发明可以有效地提高短文本分类的准确率和召回率。相比于同类系统，本发明中的特征扩展性能不受短文本语料库的影响且易与传统文本分类系统相结合。

附图说明

图1为本发明的概要流程图示意图；

具体实施方式

现结合附图说明本发明的实施例。

如图1所示，本发明包括五个主要步骤：建立背景知识库、扩展训练集中的短文本、建立分类模型、扩展待分类的短文本和产生分类结果。

步骤（1）建立背景知识库：根据长文本语料库，利用改进的Apriori算法挖掘出具有共现在关系和相同类别趋向性的特征词的二元组，从而建立背景知识库，具体步骤为：

假设D=｛d₁,d₂,…，d_n｝表示长文本语料库的所有文本集合，T＝{t₁,t₂,..,t_k}表示k个构成文本的特征项（即特征词）的集合，C=｛c₁,c₂,…,c_m｝表示类别的集合。

gsup (T) = \frac{| D_{T} |}{| D |}

（1）式

conf (t, c) = \frac{| D_{t, c} |}{| D_{t} |}

（2）式

步骤（2）扩展训练集中的短文本：利用步骤（1）中生成的背景知识库作为扩展库，对于短文本中的每个原始词，从背景知识库寻找与该词相关联的所有词，然后将这些词作为扩展词对短文本进行存在性扩展，具体步骤为：

步骤A、对于短文本中的每个特征词，从背景知识库F中寻找与该词相关联的所有词，然后将这些词作为短文本d对应的可用扩展词集EX={t|＜t,t_i>∈F或<t_i,t>∈F，其中i＝1,..k}。

步骤（3）建立分类模型：从经过扩展的短文本训练集中提取有用特征，获得特征空间，再将每个训练集中扩展后的短文本转换为该特征空间上的向量表示，最后用这些向量作为训练集来建立SVM分类模型，具体步骤为：

步骤A、计算扩充后的短文本训练集中的每个特征词的信息增益值，然后选取信息增益值较大的10000个词作为特征词空间。特征词的信息增益计算式为：

IG (t_{k}, c_{i}) = \underset{c &Element; {c_{i}, {\overset{&OverBar;}{c}}_{i}}}{Σ} \underset{t &Element; {t_{k}, {\overset{&OverBar;}{t}}_{k}}}{Σ} P (t, c) \log \frac{P (t, c)}{P (t) \cdot P (c)}

（3）式

IG (t_{k}) = \underset{c &Element; C}{Σ} IG (t_{k}, c)

（4）式

式中t_k表示特征词，C表示类别集合C＝{c₁,c₂,…,c_m},c_i表示C中的某个类别，IC(t_k,c_i)表示t_k在类别c_i中信息增益值，IG(t_k)表示t_k的信息增益值，P(t,c)表示具有特征项t且属于类别c的文档的概率，P(t)表示特征t在全部训练文档中出现的概率，P(c)表示一个文档属于类别c的先验概率。

步骤B、以词频作为文档的特征权重，将每个训练集中扩展后的短文本转换为特征空间上的向量表示形式；

步骤C、将训练集对应的向量集作为输入，以SVM分类算法建立分类模型。

步骤（4）扩展待分类的短文本：根据背景知识库中的二元组和分类模型的特征空间，按照一定的扩展规则对待分类的短文本添加扩展词，具体步骤为：

步骤（5）产生分类结果：将步骤（4）扩展后的短文本转换成的特征空间上的向量，然后作为输入，利用步骤（3）获得的分类模型计算出分类结果并返回给用户。

本发明中的扩展过程只与当前待扩展短文本自身内容有关，与其它短文本无关，具有较好的稳定性，且易与传统文本分类系统相结合。相比于传统文本分类系统，本发明可以有效地提高短文本分类的准确率、召回率和F₁-measure值,如下表1所示，在表1中的所有类别短文本的分类的准确率、召回率和F₁-measure值都有不同程度的提高。

表1 本发明的分类结果

本发明未详细阐述的部分属于本领域公知技术。以上实施例仅用以说明本发明的技术方案而非限制在具体实施方式的范围内，对本技术领域的普通技术人员来讲，只要各种变化在权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于特征扩展的中文短文本分类方法，其特征在于：该方法具体步骤如下：

步骤（1）、建立背景知识库：根据长文本语料库，利用改进的Apriori算法挖掘出具有共现在关系和相同类别趋向性的特征词的二元组，从而建立背景知识库；

步骤（2）、扩展训练集中的短文本：利用步骤（1）中生成的背景知识库作为扩展库，对于短文本中的每个原始词，从背景知识库寻找与该词相关联的所有词，然后将这些词作为扩展词对短文本进行存在性扩展；

步骤（3）、建立分类模型：从经过扩展的短文本训练中提取有用特征，获得特征空间，再将每个扩展后的短文本转换为该特征空间上的向量表示，最后用这些向量作为训练集来建立SVM分类模型；

步骤（4）、扩展待分类的短文本：根据背景知识库中的二元组和分类模型的特征空间，按照一定的扩展规则对待分类的短文本添加扩展词；

2.根据权利要求1所述的一种基于特征扩展的中文短文本分类方法，其特征在于：所述第（1）部分中，具体如下：

步骤①、对长文本语料库中的长文本进行切词，每个长文本只保留名词、时间词、处所词、方位词、动词、形容词、区别词、状态词和字符串，从而得到长文本语料库的特征词集；

步骤②、计算长文本语料库的特征词集中的各个词的类别趋向性和全局支持度，若特征词的类别趋向性不存在或全局支持度不够，则从该集合中删除，然后根据特征词的类别趋向性将特征词集划分为若干个与类别一一对应的子集合；

假设D=｛d₁,d₂,…，d_n｝表示长文本语料库的所有文本集合，T＝{t₁,t₂,..,t_k}表示k个构成文本的特征项（即特征词）的集合，C=｛c₁，c₂,…，c_m｝表示类别的集合；

gsup (T) = \frac{| D_{T} |}{| D |}

（1）式

其中D表示语料库中所有文档的集合，D_T表示语料库中包含项集T的所有文档的集合；

conf (t, c) = \frac{| D_{t, c} |}{| D_{t} |}

（2）式

其中D_t表示包含特征项t的文档的集合，D_t，c表示包含特征项t且属于类别c的文档的集合；

定义3类别趋向性：对于特征项t，若存在类别，使得conf(t，c)不小于用户指定的阈值β（0.5≤β≤1），则称特征项t具有类别趋向性，且倾向类别为c，记为Trend(t)=c；

步骤③、在每个子集合上应用Apriori算法挖掘具有参数α的共现关系和具有参数β的类别趋同性的特征词的二元组，并以这些二元组构成背景知识库；

定义4共现关系：若项集T的全局支持度超过一个用户指定的阈值α，其中0＜α≤1，则称项集T内的特征项具有共现关系；

3.根据权利要求1或2所述的一种基于特征扩展的中文短文本分类方法，其特征在于：所述步骤（2）中扩展训练集中的短文本，具体如下：

步骤A、对于短文本中的每个特征词，从背景知识库F中寻找与该词相关联的所有词，然后将这些词作为短文本d对应的可用扩展词集EX={t|<t,t_i>∈F或<t_i,t>∈F，其中i＝1,..k}；

4.根据权利要求3所述的一种基于特征扩展的中文短文本分类方法，其特征在于：所述步骤（4）中扩展待分类的短文本，具体如下：

步骤A、从背景知识库F中去除包含不属于特征空间V中的特征词的二元组；

步骤B、对于短文本中的每个特征词，从背景知识库寻找与该词相关联的所有词，将这些词作为短文本d对应的可用扩展词集EX={t|(<t,t_i>∈F或<t_i,t>∈F)且t_i∈V，其中i＝1,..k}；