CN108280206A

CN108280206A - 一种基于语义增强的短文本分类方法

Info

Publication number: CN108280206A
Application number: CN201810090256.4A
Authority: CN
Inventors: 尹忠博; 罗威; 罗准辰; 谭玉珊; 武帅; 牛海波; 毛彬; 田昌海; 叶宇铭
Original assignee: Military Science Information Research Center Of Military Academy Of Chinese Pla
Current assignee: MILITARY SCIENCE INFORMATION RESEARCH CENTER OF MILITARY ACADEMY OF THE CHINESE PLA
Priority date: 2018-01-30
Filing date: 2018-01-30
Publication date: 2018-07-13
Anticipated expiration: 2038-01-30
Also published as: CN108280206B

Abstract

本发明公开了一种基于语义增强的短文本分类方法，所述方法包括：步骤1)构建短文本分类器，从互联网资源中获取领域相关的短文本训练集，对每一条短文本进行扩充语料和训练词向量，训练短文本分类器；步骤2)对待分类的短文本进行扩充语料和训练词向量后，输入步骤1)的短文本分类器进行分类，得到分类结果。本发明提供了一整套短文本语义增强并对其进行文本分类的方法，针对短文本信息量少、语义稀疏的特点，利用高质量扩充语料、高精度词向量的方法对短文本进行语义增强表示，同时，本发明使用高效的文本分类算法，最大限度的捕捉文本有限特征，并有效缩短了分类器的训练时间。

Description

一种基于语义增强的短文本分类方法

技术领域

本发明涉及计算语言学领域，尤其涉及计算机自然语言处理领域，特别涉及一种基于语义增强的短文本分类方法。

背景技术

目前，随着电子科技产业的迅速发展，我们生活中每天都有众多的微博、评论、微信等短文本通过网络传递到我们的移动终端，这些短文本信息呈现出爆炸式的快速增长。为了更好的应对如此快速增长的信息量，文本分类技术应运而生。短文本具有文本信息量少和特征稀疏等特点，因此相对长文本，短文本自动分类的实现更具挑战。面对这一挑战，研究者们针对短文本的内容较短和特征稀疏特点，对短文本进行语料扩充，然后再对扩展后的文本使用已有分类方法分类。短文本扩充的方法大体可以分成两类：利用网络资源、领域词汇表等外部相关资源对短文本进行扩充；构建或使用已有的知识库、概率主题模型(Latent Dirichlet Allocation，LDA)抽取短文本中特征相关的实体、主题内容，从而达到扩充语料目的。同时，为了更精确的表示短文本仅有的特征间的语义联系，近来众多研究者使用已有信息训练词向量，从而降其添加到分类器中提高分类性能。分类方法上，诸多学者将目前热门的机器学习、深度学习方法应用在短文本分类上从而取得了不错的分类效果。

然而，目前的短文本语料扩充方法过于复杂，扩充语料的质量无法保证；同时，目前诸多方法使用深度学习算法构建的词向量表示语义关系，除使用不同算法训练词向量外，词向量对语义的表示效果主要依赖于训练词向量的训练集，而已有方法都使用未加工的现成语料作为训练集。由于已有语料包含范围广、冗余信息多，因此无法准确表达语义关系。

发明内容

本发明的目的在于克服现有短文本语料扩充方法过于复杂、扩充语料质量较低、词向量训练集不精准的缺陷，提出一种较为简单的高质量语料扩充方法，从而在对短文本进行高质量语料扩充和使用精准语料训练词向量两方面增强了语义表示性能。

为了实现以上目的，本发明提出了一种基于语义增强的短文本分类方法，所述方法包括：

步骤1)构建短文本分类器，从互联网资源中获取领域相关的短文本训练集，对每一条短文本进行扩充语料和训练词向量，训练短文本分类器；

步骤2)对待分类的短文本进行扩充语料和训练词向量后，输入步骤1)的短文本分类器进行分类，得到分类结果。

作为上述方法的一种改进，所述步骤1)包括：

步骤101)使用短文本训练集中的每一条短文本信息作为互联网搜索引擎的输入检索关键词信息，选取相似性最高的第一条检索结果作为扩充语料；

步骤102)抽取出第一条检索结果的标题信息、摘要信息以及关键词信息作为语料，并将其作为原短文本信息的附加语料；

步骤103)从扩充语料中得到高质量领域相关语料，对该语料进行切分词汇、去除停用词操作得到清洁语料，然后使用计算关键词方法再一次提取关键词，将再次提取的关键词附加在清洁语料后，最后将附加关键词的清洁语料作为新训练集训练词向量，从而得到精准语义词向量；

步骤104)将语料扩充阶段得到的高质量领域相关语料作为训练段文本分类器的训练集，与步骤103)得到的精准语义关系词向量作为辅助信息联合起来，训练短文本分类器。

作为上述方法的一种改进，所述短文本分类器采用的分类算法为朴素贝叶斯算法、支持向量机算法、K近邻算法、长短记忆网络算法、卷积神经网络算法或fasttext算法。

作为上述方法的一种改进，所述步骤2)包括：

步骤201)将待分类的短文本作为互联网搜索引擎的输入检索关键词信息，选取相似性最高的第一条检索结果作为扩充语料；

步骤202)抽取出第一条检索结果的标题信息、摘要信息以及关键词信息作为语料，并将其作为待分类的短文本的附加语料；

步骤203)从扩充语料中得到高质量领域相关语料，对该语料进行切分词汇、去除停用词操作得到清洁语料，然后使用计算关键词方法再一次提取关键词，将再次提取的关键词附加在清洁语料后，最后将附加关键词的清洁语料作为新训练集训练词向量，从而得到待分类的短文本的精准语义词向量；

步骤204)将扩充语料和精准语义词向量联合起来输入短文本分类器，得到待分类的短文本的分类结果。

本发明的优势在于：

1、本发明提供了一整套短文本语义增强并对其进行文本分类的方法，针对短文本信息量少、语义稀疏的特点，利用高质量扩充语料、高精度词向量的方法对短文本进行语义增强表示，同时，本发明使用高效的文本分类算法，最大限度的捕捉文本有限特征，并有效缩短了分类器的训练时间；

2、本发明的方法解决了短文本分类效果不佳的问题；实验证明将本发明的方法应用到短文本分类中使分类性能明显提升，本发明方法在NLPCC2017新闻标题分类评测任务上达到了82.9％的精确度。

附图说明

图1是本发明的基于语义增强的短文本分类方法的示意图。

图2是本发明的基于语义增强的短文本分类方法的详细流程图。

具体实施方式

现结合附图对本发明作进一步的描述。

参考图1，本发明的基于语义增强的短文本分类方法包括语料扩充法、训练词向量法两种方法，利用语料扩充方法得到的高质量领域相关语料作为新训练集，与利用训练词向量法训练出的精准语义关系词向量作为辅助信息联合训练文本分类器，从而得到最优分类效果。

具体过程参考图2，首先，使用短文本训练集中的每一条短文本信息作为互联网搜索引擎的输入检索关键词信息，搜索引擎一般会列出多条检索结果，由于搜索引擎内置排序算法，本发明认为搜索引擎的第一条检索结果与输入的短文信息相似性最高，因此本发明只选取相似性最高的第一条检索结果作为扩充语料。

由于文本信息的语义具有领域相关性，例如，“光盘”一词在计算机领域指“CD”、“DVD”等存储设备，而在日常生活领域指“盘子”、“碟子”等餐具。因此，把文本限定到指定的领域有助于更准确的描述文本信息的语义。介于以上考虑，本发明在语料扩充时只采取第一条搜索引擎结果基本限定了该短文本信息所处领域，因此更有利于准确描述其语义信息。

同时，由于第一条检索结果中仍有很多冗余信息，容易对语义划分产生干扰，因此本发明在设计过程中仅抽取出第一条检索结果的标题信息、摘要信息、以及关键词信息等最具代表性的语料，并将其作为原短文本信息的附加语料，从而增加了语义特征词汇数量，从而进一步增强语义表示。

如图2所示，另外一种增强语义表示的方法是训练词向量法，目前已有方法一般用初始未扩充语料或纽约时报等现有语料直接作为训练集训练词向量，而本发明设计了一种更加精准的词向量训练语料作为训练集，从而使得到的词向量能够更精准的表示语义信息。本发明在设计过程中，首先将扩充语料部分得到的高质量领域相关语料进行再加工，其方法为将高质量语料进行切分词汇、去除停用词操作得到清洁语料，然后使用计算关键词方法再一次提取关键词，然后将再次提取的关键词附加在清洁语料后作为语义增强信息得到。最后将附加关键词的清洁语料作为新训练集训练词向量。从而得到精准语义词向量。

所述词向量工具指word2vec、fasttext，所述预处理后的扩充语料指对扩充语料进行切分词汇、去除停用词处理，所述合适分类算法指朴素贝叶斯算法(Bayes,NB)、支持向量机算法(support vectormachine，SVM)、K近邻算法(k-nearestneighbors，KNN)、长短记忆网络算法(Long Short Term Memory networks，LSTM)、卷积神经网络算法(convolution neural network，CNN)、fasttext算法。

为了验证本发明提出的两种语义增强方法的效果，在发明者检测发明方法的实际效果中采用了文本分类来评估总体效能，如图2所示，将语料扩充阶段得到的高质量领域相关语料作为训练文本分类器的训练集，将精准语义词向量作为训练文本分类器的辅助语义表示方法，使用发明中提及的两种方法联合构造文本分类器，实验结果证明，本发明提出的两种语义增强方法均能够显著提升文本分类器的分类性能。

由于短文本相比于普通长文本来说具有词汇量少、语义表述能力弱等缺点，因此，构建短文本分类器具有更大的挑战性。

为克服短文本的以上缺点，本发明首先利用相关文本资源对短文本进行语料扩充，其中相关资源指与待分类短文本处于相同领域的语料资源，例如，待分类的短文本是新闻标题，在扩充语料时就需使用新闻领域的语料对待分类短文本中的每条新闻标题进行语料扩充。同时，由于本专利所指语料扩充是指从相关领域语料中提取关键词扩充到待分类语料中，因此，并没有将短文本分类转化为长文本分类问题，从短文本角度训练了分类器。

其次，近期研究表明词向量在语义表示方面效果不错，但现有方法都是利用所有领域的语料共同训练出的词向量表示语义关系。由于同一词汇在不同领域内具有不同的含义，例如，“熊、牛”，这两个词汇在生物领域内指两种不同的动物，而在金融领域内更多的是指股市的下跌与上涨。因此，本专利在利用待分类语料所在领域训练特定领域词向量表示待分类语料，从而更精准的提升了待分类语料的语义表示。

基于以上两种语义扩充方法，本申请利用扩充后的语料、特定领域精准词向量共同训练短文本分类器，在测试过程中，使用同样的方法处理待分类文本，最后文本分类器给出待分类文本的特定类别。在实验过程中，本专利使用十八个类别(娱乐、运动、汽车、社会、教育、国际、金融、游戏、旅行、军事、历史、婴儿、时尚、饮食、探索、故事、养生、散文)的新闻标题作为训练语料，每个类别使用4000-10000条新闻标题作为训练语料，使用2000条新闻标题作为待分类测试语料。具体实施过程中本申请采用机器学习、CNN、fasttext等多种方法训练词向量和分类器，其中效果最佳的是fasttext，其对于十八个类别的分类精确度位82.9％，并在NLPCC2017新闻标题分类任务评测中排名第一。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于语义增强的短文本分类方法，所述方法包括：

2.根据权利要求1所述的基于语义增强的短文本分类方法，其特征在于，所述步骤1)包括：

3.根据权利要求1或2所述的基于语义增强的短文本分类方法，其特征在于，所述短文本分类器采用的分类算法为朴素贝叶斯算法、支持向量机算法、K近邻算法、长短记忆网络算法、卷积神经网络算法或fasttext算法。

4.根据权利要求3所述的基于语义增强的短文本分类方法，其特征在于，所述步骤2)包括：