CN108829810A

CN108829810A - 面向健康舆情的文本分类方法

Info

Publication number: CN108829810A
Application number: CN201810582880.6A
Authority: CN
Inventors: 陈雷霆; 李巧平; 陈秋生; 徐安; 陈雅琳; 刘薇; 陈淑珠
Original assignee: Guangdong Institute Of Electronic And Information Engineering University Of Electronic Science And Technology Of China; Dongguan Diesel Software Technology Co Ltd
Current assignee: Guangdong Institute Of Electronic And Information Engineering University Of Electronic Science And Technology Of China; Dongguan Diesel Software Technology Co Ltd
Priority date: 2018-06-08
Filing date: 2018-06-08
Publication date: 2018-11-16

Abstract

本发明公开了一种面向健康舆情的文本分类方法，涉及信息技术领域，该面向健康舆情的文本分类方法结合深度神经网络和LightGBM两者的优势，利用深度神经网络自动学习特征，将最后一层特征作为LightGBM集成学习方法的输入，并对多个模型进行模型融合。实现端到端的特征学习，无需人工构建特征工程，且能有效提高文本分类的准确率。该面向健康舆情的文本分类方法采用端到端自动进行特征学习，无需人工构建特征工程；模型通用，无需使用其他外部信息，且与具体应用场景无关；推广能力强，可直接应用于其它文本分类和回归任务；提高文本分类的准确率。

Description

面向健康舆情的文本分类方法

技术领域

本发明涉及信息技术领域，具体来说，本发明涉及一种面向健康舆情的文本分类方法。

背景技术

文本分类问题是自然语言处理领域中一个非常重要的问题，相关研究最早可以追溯到上世纪50年代，当时是通过专家规则进行分类，甚至在80年代初一度发展到利用知识工程建立专家系统，但这种方法的天花板非常低，不仅费时费力，覆盖的范围和准确率都非常有限。后来伴随着统计学习方法的发展，特别是90年代后互联网在线文本数量增长和机器学习学科的兴起，逐渐形成了一套解决大规模文本分类问题的方法，这个阶段的主要套路是人工特征工程以及浅层分类模型。整个文本分类问题就拆分成了特征工程和分类器两部分。

传统方法主要问题的文本表示是高纬度高稀疏的，特征表达能力很弱，而且神经网络很不擅长对此类数据的处理；此外需要人工进行特征工程，成本很高。而深度学习最初在之所以图像和语音取得巨大成功，一个很重要的原因是图像和语音原始数据是连续和稠密的，有局部相关性。应用深度学习解决大规模文本分类问题最重要的是解决文本表示，再利用CNN/RNN等网络结构自动获取特征表达能力，去掉繁杂的人工特征工程，端到端的解决问题。现有的文本分类方法主要是人工构建特征工程，再利用浅层分类模型实现分类任务。文本特征工程分为文本预处理、特征提取、文本表示三个部分，最终要把文本转换成计算机可理解的格式，并封装足够用于分类的信息，这个过程需要耗费大量时间和人力，且不具备很强的通用性，需要结合对特征任务的理解来构建。深度神经网络结构具有自动获取特征表达的能力，去掉繁杂的人工特征工程，端到端解决问题。不同的单模型在分类上具有不同的优势，仅依靠单模型很难取得较好的分类效果，模型融合能够利用不同单模型的优势，进一步提升文本分类的准确率。

发明内容

本发明所要解决的技术问题是提供一种面向健康舆情的文本分类方法，利用深度神经网络提取健康舆情文本的特征，无需人工构建特征工程，将深度神经网络的最后一层特征做为LightGBM集成学习方法的输入，训练模型，用于健康舆情文本的分类任务。最后利用模型融合进一步提升文本分类的准确率。

为实现上述目的，本发明提供以下的技术方案：

该面向健康舆情的文本分类方法利用深度神经网络TextCNN、TextRNN以及TextRCNN的对健康舆情文本数据进行特征学习，将最后一层特征做为LightGBM集成学习方法的输入，训练LightGBM模型，实现健康舆情文本数据的分类，最后进行模型融合，进一步提升分类的准确率，该面向健康舆情的文本分类方法具体步骤如下：

(1)数据处理：健康舆情文本数据进行处理，统一格式；

(2)数据增强：使用shuffle方法打乱词顺序，使用drop方法随机删除某些词；

(3)分词：将健康舆情文本数据重新组合成词序列；

(4)构建词向量和字向量：使用word2vec模型对分词结果进行嵌入化处理得到词向量和字向量；

(5)神经网络提取特征：利用深度神经网络TextCNN、TextRNN、TextRCNN的对健康舆情文本数据的词向量和字向量进行自动特征学习，得到最后一层特征，即利用深度神经网络全连接层前面的网络结构提取特征；

(6)LightGBM训练神经网络提取的特征数据：将深度神经网络提取最后一层的特征数据做为LightGBM集成学习方法的输入，对健康舆情文本数据进行分类；

(7)模型融合：将步骤(6)中训练输出作为LightGBM的输入，使用stacking方法进行模型融合，Stacking方法的具体实现过程利用TextCNN-LightGBM、TextRNN-LightGBM、TextRCNN-LightGBM模型对训练集的词向量和字向量进行5折训练、分类，并将训练的模型对测试集进行分类，再将训练集的测试结果组合成新的训练集，测试集的测试结果取均值后组合成新的测试集，最后将新的训练集做为LightGBM的输入，训练模型，对新的测试集进行分类测试。

采用以上技术方案的有益效果是：该面向健康舆情的文本分类方法结合深度神经网络和LightGBM两者的优势，利用深度神经网络自动学习特征，将最后一层特征作为LightGBM集成学习方法的输入，并对多个模型进行模型融合。实现端到端的特征学习，无需人工构建特征工程，且能有效提高文本分类的准确率。该面向健康舆情的文本分类方法采用端到端自动进行特征学习，无需人工构建特征工程；模型通用，无需使用其他外部信息，且与具体应用场景无关；推广能力强，可直接应用于其它文本分类和回归任务；提高文本分类的准确率。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的描述。

图1是textCNN-LightGBM结构图；

图2是textRNN-LightGBM结构图；

图3是textRCNN-LightGBM结构图；

图4是模型融合整体框架图；

图5是Stacking结构图。

具体实施方式

下面结合附图详细说明本发明面向健康舆情的文本分类方法的优选实施方式。

图1、图2、图3、图4和图5出示该面向健康舆情的文本分类方法的具体实施方式：

该面向健康舆情的文本分类方法对健康舆情文本数据进行处理，统一格式，进行分词，组合成词序列，构建词向量和字向量。分别利用深度神经网络TextCNN、TextRNN以及TextRCNN的对健康舆情文本数据进行特征学习，将最后一层特征做为LightGBM集成学习方法的输入，训练LightGBM模型，实现健康舆情文本数据的分类，具体结构如图1、图2、图3所示。最后进行模型融合，进一步提升分类的准确率。

该面向健康舆情的文本分类方法具体步骤如下：

(1)数据处理：健康舆情文本数据进行处理，统一格式；

(3)分词：将健康舆情文本数据重新组合成词序列；

(7)模型融合：将步骤(6)中训练的输出作为LightGBM的输入，使用stacking方法进行模型融合，整体结构如图4所示。图5展示了Stacking方法的具体实现过程，利用TextCNN-LightGBM、TextRNN-LightGBM、TextRCNN-LightGBM模型对训练集的词向量和字向量进行5折训练、分类，并将训练的模型对测试集进行分类。再将训练集的测试结果组合成新的训练集，测试集的测试结果取均值后组合成新的测试集。最后将新的训练集做为LightGBM的输入，训练模型，对新的测试集进行分类测试。

实验结果如表1所示。

表1实验结果

以上的仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种面向健康舆情的文本分类方法，其特征在于：所述面向健康舆情的文本分类方法利用深度神经网络TextCNN、TextRNN以及TextRCNN的对健康舆情文本数据进行特征学习，将最后一层特征做为LightGBM集成学习方法的输入，训练LightGBM模型，实现健康舆情文本数据的分类，最后进行模型融合，进一步提升分类的准确率，该面向健康舆情的文本分类方法具体步骤如下：

(1)数据处理：健康舆情文本数据进行处理，统一格式；

(3)分词：将健康舆情文本数据重新组合成词序列；