CN108829810A - 面向健康舆情的文本分类方法 - Google Patents
面向健康舆情的文本分类方法 Download PDFInfo
- Publication number
- CN108829810A CN108829810A CN201810582880.6A CN201810582880A CN108829810A CN 108829810 A CN108829810 A CN 108829810A CN 201810582880 A CN201810582880 A CN 201810582880A CN 108829810 A CN108829810 A CN 108829810A
- Authority
- CN
- China
- Prior art keywords
- public sentiment
- lightgbm
- healthy public
- neural network
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种面向健康舆情的文本分类方法,涉及信息技术领域,该面向健康舆情的文本分类方法结合深度神经网络和LightGBM两者的优势,利用深度神经网络自动学习特征,将最后一层特征作为LightGBM集成学习方法的输入,并对多个模型进行模型融合。实现端到端的特征学习,无需人工构建特征工程,且能有效提高文本分类的准确率。该面向健康舆情的文本分类方法采用端到端自动进行特征学习,无需人工构建特征工程;模型通用,无需使用其他外部信息,且与具体应用场景无关;推广能力强,可直接应用于其它文本分类和回归任务;提高文本分类的准确率。
Description
技术领域
本发明涉及信息技术领域,具体来说,本发明涉及一种面向健康舆情的文本分类方法。
背景技术
文本分类问题是自然语言处理领域中一个非常重要的问题,相关研究最早可以追溯到上世纪50年代,当时是通过专家规则进行分类,甚至在80年代初一度发展到利用知识工程建立专家系统,但这种方法的天花板非常低,不仅费时费力,覆盖的范围和准确率都非常有限。后来伴随着统计学习方法的发展,特别是90年代后互联网在线文本数量增长和机器学习学科的兴起,逐渐形成了一套解决大规模文本分类问题的方法,这个阶段的主要套路是人工特征工程以及浅层分类模型。整个文本分类问题就拆分成了特征工程和分类器两部分。
传统方法主要问题的文本表示是高纬度高稀疏的,特征表达能力很弱,而且神经网络很不擅长对此类数据的处理;此外需要人工进行特征工程,成本很高。而深度学习最初在之所以图像和语音取得巨大成功,一个很重要的原因是图像和语音原始数据是连续和稠密的,有局部相关性。应用深度学习解决大规模文本分类问题最重要的是解决文本表示,再利用CNN/RNN等网络结构自动获取特征表达能力,去掉繁杂的人工特征工程,端到端的解决问题。现有的文本分类方法主要是人工构建特征工程,再利用浅层分类模型实现分类任务。文本特征工程分为文本预处理、特征提取、文本表示三个部分,最终要把文本转换成计算机可理解的格式,并封装足够用于分类的信息,这个过程需要耗费大量时间和人力,且不具备很强的通用性,需要结合对特征任务的理解来构建。深度神经网络结构具有自动获取特征表达的能力,去掉繁杂的人工特征工程,端到端解决问题。不同的单模型在分类上具有不同的优势,仅依靠单模型很难取得较好的分类效果,模型融合能够利用不同单模型的优势,进一步提升文本分类的准确率。
发明内容
本发明所要解决的技术问题是提供一种面向健康舆情的文本分类方法,利用深度神经网络提取健康舆情文本的特征,无需人工构建特征工程,将深度神经网络的最后一层特征做为LightGBM集成学习方法的输入,训练模型,用于健康舆情文本的分类任务。最后利用模型融合进一步提升文本分类的准确率。
为实现上述目的,本发明提供以下的技术方案:
该面向健康舆情的文本分类方法利用深度神经网络TextCNN、TextRNN以及TextRCNN的对健康舆情文本数据进行特征学习,将最后一层特征做为LightGBM集成学习方法的输入,训练LightGBM模型,实现健康舆情文本数据的分类,最后进行模型融合,进一步提升分类的准确率,该面向健康舆情的文本分类方法具体步骤如下:
(1)数据处理:健康舆情文本数据进行处理,统一格式;
(2)数据增强:使用shuffle方法打乱词顺序,使用drop方法随机删除某些词;
(3)分词:将健康舆情文本数据重新组合成词序列;
(4)构建词向量和字向量:使用word2vec模型对分词结果进行嵌入化处理得到词向量和字向量;
(5)神经网络提取特征:利用深度神经网络TextCNN、TextRNN、TextRCNN的对健康舆情文本数据的词向量和字向量进行自动特征学习,得到最后一层特征,即利用深度神经网络全连接层前面的网络结构提取特征;
(6)LightGBM训练神经网络提取的特征数据:将深度神经网络提取最后一层的特征数据做为LightGBM集成学习方法的输入,对健康舆情文本数据进行分类;
(7)模型融合:将步骤(6)中训练输出作为LightGBM的输入,使用stacking方法进行模型融合,Stacking方法的具体实现过程利用TextCNN-LightGBM、TextRNN-LightGBM、TextRCNN-LightGBM模型对训练集的词向量和字向量进行5折训练、分类,并将训练的模型对测试集进行分类,再将训练集的测试结果组合成新的训练集,测试集的测试结果取均值后组合成新的测试集,最后将新的训练集做为LightGBM的输入,训练模型,对新的测试集进行分类测试。
采用以上技术方案的有益效果是:该面向健康舆情的文本分类方法结合深度神经网络和LightGBM两者的优势,利用深度神经网络自动学习特征,将最后一层特征作为LightGBM集成学习方法的输入,并对多个模型进行模型融合。实现端到端的特征学习,无需人工构建特征工程,且能有效提高文本分类的准确率。该面向健康舆情的文本分类方法采用端到端自动进行特征学习,无需人工构建特征工程;模型通用,无需使用其他外部信息,且与具体应用场景无关;推广能力强,可直接应用于其它文本分类和回归任务;提高文本分类的准确率。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的描述。
图1是textCNN-LightGBM结构图;
图2是textRNN-LightGBM结构图;
图3是textRCNN-LightGBM结构图;
图4是模型融合整体框架图;
图5是Stacking结构图。
具体实施方式
下面结合附图详细说明本发明面向健康舆情的文本分类方法的优选实施方式。
图1、图2、图3、图4和图5出示该面向健康舆情的文本分类方法的具体实施方式:
该面向健康舆情的文本分类方法对健康舆情文本数据进行处理,统一格式,进行分词,组合成词序列,构建词向量和字向量。分别利用深度神经网络TextCNN、TextRNN以及TextRCNN的对健康舆情文本数据进行特征学习,将最后一层特征做为LightGBM集成学习方法的输入,训练LightGBM模型,实现健康舆情文本数据的分类,具体结构如图1、图2、图3所示。最后进行模型融合,进一步提升分类的准确率。
该面向健康舆情的文本分类方法具体步骤如下:
(1)数据处理:健康舆情文本数据进行处理,统一格式;
(2)数据增强:使用shuffle方法打乱词顺序,使用drop方法随机删除某些词;
(3)分词:将健康舆情文本数据重新组合成词序列;
(4)构建词向量和字向量:使用word2vec模型对分词结果进行嵌入化处理得到词向量和字向量;
(5)神经网络提取特征:利用深度神经网络TextCNN、TextRNN、TextRCNN的对健康舆情文本数据的词向量和字向量进行自动特征学习,得到最后一层特征,即利用深度神经网络全连接层前面的网络结构提取特征;
(6)LightGBM训练神经网络提取的特征数据:将深度神经网络提取最后一层的特征数据做为LightGBM集成学习方法的输入,对健康舆情文本数据进行分类;
(7)模型融合:将步骤(6)中训练的输出作为LightGBM的输入,使用stacking方法进行模型融合,整体结构如图4所示。图5展示了Stacking方法的具体实现过程,利用TextCNN-LightGBM、TextRNN-LightGBM、TextRCNN-LightGBM模型对训练集的词向量和字向量进行5折训练、分类,并将训练的模型对测试集进行分类。再将训练集的测试结果组合成新的训练集,测试集的测试结果取均值后组合成新的测试集。最后将新的训练集做为LightGBM的输入,训练模型,对新的测试集进行分类测试。
实验结果如表1所示。
表1实验结果
以上的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (1)
1.一种面向健康舆情的文本分类方法,其特征在于:所述面向健康舆情的文本分类方法利用深度神经网络TextCNN、TextRNN以及TextRCNN的对健康舆情文本数据进行特征学习,将最后一层特征做为LightGBM集成学习方法的输入,训练LightGBM模型,实现健康舆情文本数据的分类,最后进行模型融合,进一步提升分类的准确率,该面向健康舆情的文本分类方法具体步骤如下:
(1)数据处理:健康舆情文本数据进行处理,统一格式;
(2)数据增强:使用shuffle方法打乱词顺序,使用drop方法随机删除某些词;
(3)分词:将健康舆情文本数据重新组合成词序列;
(4)构建词向量和字向量:使用word2vec模型对分词结果进行嵌入化处理得到词向量和字向量;
(5)神经网络提取特征:利用深度神经网络TextCNN、TextRNN、TextRCNN的对健康舆情文本数据的词向量和字向量进行自动特征学习,得到最后一层特征,即利用深度神经网络全连接层前面的网络结构提取特征;
(6)LightGBM训练神经网络提取的特征数据:将深度神经网络提取最后一层的特征数据做为LightGBM集成学习方法的输入,对健康舆情文本数据进行分类;
(7)模型融合:将步骤(6)中训练输出作为LightGBM的输入,使用stacking方法进行模型融合,Stacking方法的具体实现过程利用TextCNN-LightGBM、TextRNN-LightGBM、TextRCNN-LightGBM模型对训练集的词向量和字向量进行5折训练、分类,并将训练的模型对测试集进行分类,再将训练集的测试结果组合成新的训练集,测试集的测试结果取均值后组合成新的测试集,最后将新的训练集做为LightGBM的输入,训练模型,对新的测试集进行分类测试。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810582880.6A CN108829810A (zh) | 2018-06-08 | 2018-06-08 | 面向健康舆情的文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810582880.6A CN108829810A (zh) | 2018-06-08 | 2018-06-08 | 面向健康舆情的文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108829810A true CN108829810A (zh) | 2018-11-16 |
Family
ID=64144209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810582880.6A Pending CN108829810A (zh) | 2018-06-08 | 2018-06-08 | 面向健康舆情的文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108829810A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046757A (zh) * | 2019-04-08 | 2019-07-23 | 中国人民解放军第四军医大学 | 基于LightGBM算法的门诊量预测系统及预测方法 |
CN110047512A (zh) * | 2019-04-25 | 2019-07-23 | 广东工业大学 | 一种环境声音分类方法、系统及相关装置 |
CN111008283A (zh) * | 2019-10-31 | 2020-04-14 | 中电药明数据科技(成都)有限公司 | 一种基于复合边界信息的序列标注方法及系统 |
CN112417148A (zh) * | 2020-11-11 | 2021-02-26 | 北京京航计算通讯研究所 | 一种城市内涝舆情结果获得方法及装置 |
WO2021068339A1 (zh) * | 2019-10-11 | 2021-04-15 | 平安科技(深圳)有限公司 | 文本分类方法、装置及计算机可读存储介质 |
CN112836772A (zh) * | 2021-04-02 | 2021-05-25 | 四川大学华西医院 | 基于LightGBM集成多个BERT模型的随机对照试验识别方法 |
-
2018
- 2018-06-08 CN CN201810582880.6A patent/CN108829810A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046757A (zh) * | 2019-04-08 | 2019-07-23 | 中国人民解放军第四军医大学 | 基于LightGBM算法的门诊量预测系统及预测方法 |
CN110047512A (zh) * | 2019-04-25 | 2019-07-23 | 广东工业大学 | 一种环境声音分类方法、系统及相关装置 |
WO2021068339A1 (zh) * | 2019-10-11 | 2021-04-15 | 平安科技(深圳)有限公司 | 文本分类方法、装置及计算机可读存储介质 |
CN111008283A (zh) * | 2019-10-31 | 2020-04-14 | 中电药明数据科技(成都)有限公司 | 一种基于复合边界信息的序列标注方法及系统 |
CN111008283B (zh) * | 2019-10-31 | 2023-06-20 | 中电药明数据科技(成都)有限公司 | 一种基于复合边界信息的序列标注方法及系统 |
CN112417148A (zh) * | 2020-11-11 | 2021-02-26 | 北京京航计算通讯研究所 | 一种城市内涝舆情结果获得方法及装置 |
CN112836772A (zh) * | 2021-04-02 | 2021-05-25 | 四川大学华西医院 | 基于LightGBM集成多个BERT模型的随机对照试验识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829810A (zh) | 面向健康舆情的文本分类方法 | |
CN112084790A (zh) | 一种基于预训练卷积神经网络的关系抽取方法及系统 | |
CN108984683A (zh) | 结构化数据的提取方法、系统、设备及存储介质 | |
CN106294593B (zh) | 结合从句级远程监督和半监督集成学习的关系抽取方法 | |
CN108280064A (zh) | 分词、词性标注、实体识别及句法分析的联合处理方法 | |
CN108764268A (zh) | 一种基于深度学习的图文多模态情感识别方法 | |
CN108664474B (zh) | 一种基于深度学习的简历解析方法 | |
CN107943784A (zh) | 基于生成对抗网络的关系抽取方法 | |
CN108197294A (zh) | 一种基于深度学习的文本自动生成方法 | |
CN109871885A (zh) | 一种基于深度学习和植物分类学的植物识别方法 | |
CN110399895A (zh) | 图像识别的方法和装置 | |
CN107679110A (zh) | 结合文本分类与图片属性提取完善知识图谱的方法及装置 | |
CN102289522A (zh) | 一种对于文本智能分类的方法 | |
CN107729312A (zh) | 基于序列标注建模的多粒度分词方法及系统 | |
CN107357785A (zh) | 主题特征词抽取方法及系统、情感极性判断方法及系统 | |
CN108595558B (zh) | 一种数据均衡策略和多特征融合的图像标注方法 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN112613428B (zh) | 基于平衡损失的Resnet-3D卷积牛视频目标检测方法 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN112632319B (zh) | 基于迁移学习的提升长尾分布语音总体分类准确度的方法 | |
CN109214407A (zh) | 事件检测模型、方法、装置、计算设备及存储介质 | |
CN105446955A (zh) | 一种自适应的分词方法 | |
CN106777336A (zh) | 一种基于深度学习的公司名成分抽取系统和方法 | |
CN110705272A (zh) | 一种面向汽车发动机故障诊断的命名实体识别方法 | |
CN110263174A (zh) | —基于焦点关注的主题类别分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181116 |
|
WD01 | Invention patent application deemed withdrawn after publication |