CN105912716A

CN105912716A - 一种短文本分类方法及装置

Info

Publication number: CN105912716A
Application number: CN201610285420.8A
Authority: CN
Inventors: 佟玲玲; 杜翠兰; 钮艳; 李鹏霄; 易立; 段东圣; 查奇文; 刘晓辉; 柳毅
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2016-04-29
Filing date: 2016-04-29
Publication date: 2016-08-31
Anticipated expiration: 2036-04-29
Also published as: CN105912716B

Abstract

本发明公开了一种短文本分类方法及装置。该方法包括：对待分类的短文本进行分词预处理，并获取分词得到的每个词语的扩展词；根据预先构建的词项集获取每个词语及其扩展词的权重值；根据权重值，利用多个类别SVM分类模型获取短文本所属每个类别的概率；根据预设的概率分类模型确定短文本的所属类别。本发明所提供的短分本分类方法，克服了短文本特征稀疏的问题，有效降低采用多分类模型的复杂度，更符合实际应用。

Description

一种短文本分类方法及装置

技术领域

本发明涉及计算机自然语言处理领域，尤其涉及一种短文本分类方法及装置。

背景技术

随着网络技术的迅速发送，互联网已经成为海量信息的载体，用户创建的内容已经成为互联网上一个重要数据源。尤其是微博、微信、购物等移动应用推广之后，基于微博、微信、QQ聊天及商品评论等短文本的数量正在呈爆炸式增长。各种形式的短文本已经成为我国各阶层的信息沟通渠道和情感交流手段，深刻改变了亿万中国人的沟通方式和生活习惯。

短文本数据量异常庞大，数据中包含人们对社会各种现象的各种观点和立场，话题涉及政治、经济、军事、娱乐、生活等各个领域。然而如何从短文本中挖掘出有价值的信息成为当前的一个非常关键的问题。短文本在很多方面都有广泛应用，例如帮助用户快速了解产品的优劣，选择满意的商品，再例如，追踪社会舆论趋势，发现社会热点问题，帮助政府把握社会态势等。因此，短文本分类具有很强的应用价值。

短文本分类的显著特征是受其长度的限制，所包含的词语和上下文信息不足，因此基于统计量的传统的文本表示方法和分类模型面临数据稀疏性问题。因此，准确的进行短文本的语义特征表示并实现自动分类，是一项极具挑战性而且亟待研究的技术问题。

发明内容

本发明提供了一种高效的短文本分类方法及装置，用以解决现有技术中短文本特征稀疏、噪声大导致分类不准确的技术问题。

依据本发明的一个方面，本发明提供一种短文本分类方法，包括：

对待分类的短文本进行分词预处理，并获取分词得到的每个词语的扩展词；

根据预先构建的词项集获取每个词语及其扩展词的权重值；

根据所述权重值，利用多个类别SVM分类模型获取所述短文本所属每个类别的概率；

根据预设的概率分类模型确定所述短文本的所属类别。

进一步地，根据词向量空间模型获取分词得到的每个词语的扩展词。

进一步地，预先构建所述词项集时，包括：

对标注样本集中所有的短文本进行分词预处理，并获取每个词语的扩展词；

计算每一个词语以及扩展词语的权重值，并将词语、扩展词语及权重值保存至所述词项集中。

进一步地，所述权重值为TF-IDF值。

进一步地，所述根据预设的概率分类模型确定所述短文本的所属类别，包括：

步骤1，若所述短文本所属某个类别的概率在[S1，1]之间，则将所述类别作为短文本所属类别，否则，执行步骤2；其中，S1∈[0.5，1)；

步骤2，设置S2＝S1-0.1；

步骤3，判断S2与0.5的大小：

若S2≥0.5，且所述短文本所属某个类别的概率在[S2，S1]之间，则将所述类别作为短文本所属类别，否则，S1＝S2，并执行步骤2；

若S2＜0.5，且所述短文本所属某个类别的概率在[0.4，S1]之间，则将概率值最大的类别作为短文本所属类别；否则没有所属类别。

依据本发明的一个方面，本发明提供一种短文本分类装置，包括：

预处理单元，用于对待分类的短文本进行分词预处理；

第一获取单元，用于获取分词得到的每个词语的扩展词；

构建单元，用于预先构建词项集；

第二获取单元，用于根据所述构建单元构建的词项集获取每个词语及其扩展词的权重值；

第三获取单元，用于根据所述权重值，利用多个类别SVM分类模型获取所述短文本所属每个类别的概率；

确定单元，用于根据预设的概率分类模型确定所述短文本的所属类别。

进一步地，所述第一获取单元具体用于根据词向量空间模型获取分词得到的每个词语的扩展词。

进一步地，所述构建单元具体用于：

进一步地，所述确定单元具体用于：

步骤2，设置S2＝S1-0.1；

步骤3，判断S2与0.5的大小：

若S2≥0.5，且所述短文本所属某个类别的概率在[S2，S1]之间，则将所述类别作为短文本所属类别，否则，令S1＝S2，并执行步骤2；

若S2＜0.5，且所述短文本所属某个类别的概率在[0.4，S1]之间，则将概率值最大的类别作为短文本所属类别；否则判定所述短文本没有所属类别。

本发明具有以下有益效果：

本发明所提供的短分本分类方法及装置，引入词向量模型对短文本进行扩充，克服了短文本的特征稀疏的问题；同时通过多个类别的SVM模型，有效降低采用多分类模型的复杂度；以及根据概率分类模型，使得同一短文本可以属于多个类别，更符合实际应用。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中短文本分类方法的流程图；

图2为本发明实施例中采用的短文本分类模型的示意图；

图3为本发明实施例中短文本分类装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种短文本分类方法，包括如下步骤：

步骤1，对待分类的短文本进行分词预处理，并获取分词得到的每个词语的扩展词；

步骤2，根据构建的词项集获取每个词语及其扩展词的权重值；

步骤3，根据权重值，利用多个类别SVM分类模型获取所属每个类别的概率；

步骤4，根据预设的概率分类模型确定所述短文本的所属类别。

本发明所提供的短文本分类方法，对每个短文本进行分词处理后，将映射到高维空间的向量，向量的每一维代表某种潜在语义。越相似词语之间的向量距离越接近，这样可以将每个词语进行语义扩展，有效克服了短文本的特征稀疏问题。通过SVM分类模型获取短文本所属每个类别的概率，根据预设的概率分类模型确定该短文本所属的类别，有效解决了文本信息因噪声大导致分类不准确的问题。

下面结合附图1和具体实施例对本发明的技术内容做进一步地详细说明。

本发明的执行环境采用一台具有2.4G赫兹中央处理器和8G字节内存的奔腾4计算机并用JAVA语言编制了短文本分类方法，还可以采用其他的执行环境，在此不再赘述。

参见图1中的测试过程，首先对待分类的短文本进行分词预处理，并获取每个词语的扩展词。

本发明实施例中利用NLPIR的分词工具将一个短文本切割为一个个独立的词语，那么一个短文本就可以表示为[词1，词2……词n]，其中n为该短文本的词语数目。预处理工作除了进行分词外，还包括去除短文本中的“|”、“||”等特殊符号，以达到去除一定的干扰的目的。本发明对训练短文本集中数据的特殊字符的干扰，进行针对性的判别，提高了分类的精度。

在该步骤中，根据训练的词向量空间模型对分词后的短文本进行扩充。本发明实施例中采用word2vec词向量空间模型，可以将短文本扩展成指定数目或满足特定相似度的向量，表示为：

对每一个词语特征扩展后，可以得到一段短文本的特征扩展。

本发明通过引入词向量模型对短文本进行扩充，可以有效克服短文本的特征稀疏的问题。

接着，根据词项集获取每个词语及其扩展词的权重值。

本发明实施例中，在构建词项集时(图1中标注文本集的过程)，按照上述的预处理的方法对标注样本集中所有的短文本进行分词以及词语扩展处理，并计算每一个词语以及扩展词语的权重值。其中，权重值采用词频来表示，现在比较常用的特征权重的计算方式为TF*IDF，TF*RF。本发明实施例采用TF-IDF值，计算公式如下：

{TF}_{j}^{i} * {IDF}_{i} = \frac{n_{j}^{i}}{\underset{j}{Σ} n_{j}^{i}} . \log \frac{| D |}{| D_{i} |}

其中，|D|表示标注样本集中的文本总数，|D_i|表示包含词语i的文本总数，表示词语在文本i中出现的次数。

根据标注文本集中的词语、词语的扩展词语、以及根据每个词语的TF-IDF值生成词项集。在进行分类时，对待分类的短文本进行分词以及词语扩展处理后，从词项集中获取每个词语对应的词语权重值。

然后，根据权重值，利用多个类别SVM分类模型获取所属每个类别的概率。

当权重值确定后，利用分类算法进行训练和预测分类模型。现在文本分类的算法很多，常见的有Naive Bayes，SVM，KNN，Logistic回归等。本发明实施例中优选采用SVM(Support Vector Model，支持向量机)分类模型，对于支持向量机属于本领域技术人员所熟知的技术，这里不再进行详细介绍。本发明实施例中，对于n个类别，只有n个SVM分类模型。本发明中的SVM分类模型不是判断属于正负类别，而是输出属于各类别的概率，最终可以得到分类结果的可信度量化数值。根据每个所属类别的量化值，在进一步判断该短文本的所属类别。通过采用多个单类别的分类模型，在一定程度上有效减少了多分类模型的运算复杂度。

最后，根据预设的概率分类模型确定短文本的所属类别。

参见图2，本发明实施例采用的概率分类模型，假设有n个类别，每个待分类文本输入n个类别的SVM分类模型，得到属于各类别的概率，利用概率分类模型，确定最终分类。本发明的实施例中采用的概率分类模型，具体包括如下步骤：

步骤1，若所属某个类别的概率在[S1，1]之间，则将所述类别作为短文本所属类别，否则，执行步骤2；其中，S1∈[0.5，1)；

步骤2，设置S2＝S1-0.1；

步骤3，判断S2与0.5的大小：

若S2≥0.5，且短文本所属某个类别的概率在[S2，S1]之间，则将类别作为短文本所属类别，否则，令S1＝S2，并执行步骤2；

若S2＜0.5，且短文本所属某个类别的概率在[0.4，S1]之间，则将概率值最大的类别作为短文本所属类别；否则判定短文本没有所属类别。

本发明实施例提供的概率分类模型，可以取出概率高的类别，极端情况下，模型判断不属于该类别，所有类别概率都小于0.5的情况下，也有可能取到正确类别；此外，最终的输出结果是文本所属类别或者类别集合，同一段文本可以属于不同类别，更符合实际应用。

参见图3，本发明实施例还提供一种短文本分类装置，用于实现上述的短文本分类方法，具体包括：

预处理单元，用于对待分类的短文本进行分词预处理；

第一获取单元，用于获取分词得到的每个词语的扩展词；

构建单元，用于预先构建词项集；

第二获取单元，用于根据构建单元构建的词项集获取每个词语及其扩展词的权重值；

第三获取单元，用于根据权重值，利用多个类别SVM分类模型获取短文本所属每个类别的概率；

确定单元，用于根据预设的概率分类模型确定短文本的所属类别。

进一步地，第一获取单元具体用于根据词向量空间模型获取分词得到的每个词语的扩展词。

进一步地，构建单元具体用于：

计算每一个词语以及扩展词语的权重值，并将词语、扩展词语及权重值保存至词项集中。

进一步地，确定单元具体用于：

步骤1，若短文本所属某个类别的概率在[S1，1]之间，则将类别作为短文本所属类别，否则，执行步骤2；其中，S1∈[0.5，1)；

步骤2，设置S2＝S1-0.1；

步骤3，判断S2与0.5的大小：

综上所述，本发明所提供的短分本分类方法及装置，通过引入词向量模型对短文本进行扩充，可以有效克服了短文本的特征稀疏的问题；同时通过多个单类别的SVM分类模型，有效降低采用多分类模型的运算复杂度；同时由于该SVM分类模型获取的是所属类别概率，因此分类结果是可信度量化值，可以有效提高了分类精度；根据概率分类模型，取出概率较高的类别，使得同一短文本可以同时属于多个类别，使得该分类方法更具有实际意义。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。

虽然通过实施例描述了本申请，本领域的技术人员知道，本申请有许多变形和变化而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种短文本分类方法，其特征在于，包括：

根据预先构建的词项集获取每个词语及其扩展词的权重值；

根据预设的概率分类模型确定所述短文本的所属类别。

2.如权利要求1所述的方法，其特征在于，根据词向量空间模型获取分词得到的每个词语的扩展词。

3.如权利要求1所述的方法，其特征在于，预先构建所述词项集时，包括：

对标注样本集中所有的短文本进行分词预处理，并获取分词得到的每个词语的扩展词；

4.如权利要求1或3所述的方法，其特征在于，所述权重值为TF-IDF值。

5.如权利要求1所述的方法，其特征在于，所述根据预设的概率分类模型确定所述短文本的所属类别，包括：

步骤2，设置S2＝S1-0.1；

步骤3，判断S2与0.5的大小：

6.一种短文本分类装置，其特征在于，包括：

预处理单元，用于对待分类的短文本进行分词预处理；

第一获取单元，用于获取分词得到的每个词语的扩展词；

构建单元，用于预先构建词项集；

7.如权利要求6所述的装置，其特征在于，所述第一获取单元具体用于根据词向量空间模型获取分词得到的每个词语的扩展词。

8.如权利要求6所述的装置，其特征在于，所述构建单元具体用于：

9.如权利要求6所述的装置，其特征在于，所述确定单元具体用于：

步骤2，设置S2＝S1-0.1；

步骤3，判断S2与0.5的大小：