CN108829810A - 面向健康舆情的文本分类方法 - Google Patents

面向健康舆情的文本分类方法 Download PDF

Info

Publication number
CN108829810A
CN108829810A CN201810582880.6A CN201810582880A CN108829810A CN 108829810 A CN108829810 A CN 108829810A CN 201810582880 A CN201810582880 A CN 201810582880A CN 108829810 A CN108829810 A CN 108829810A
Authority
CN
China
Prior art keywords
public sentiment
lightgbm
healthy public
neural network
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810582880.6A
Other languages
English (en)
Inventor
陈雷霆
李巧平
陈秋生
徐安
陈雅琳
刘薇
陈淑珠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Institute Of Electronic And Information Engineering University Of Electronic Science And Technology Of China
Dongguan Diesel Software Technology Co Ltd
Original Assignee
Guangdong Institute Of Electronic And Information Engineering University Of Electronic Science And Technology Of China
Dongguan Diesel Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Institute Of Electronic And Information Engineering University Of Electronic Science And Technology Of China, Dongguan Diesel Software Technology Co Ltd filed Critical Guangdong Institute Of Electronic And Information Engineering University Of Electronic Science And Technology Of China
Priority to CN201810582880.6A priority Critical patent/CN108829810A/zh
Publication of CN108829810A publication Critical patent/CN108829810A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种面向健康舆情的文本分类方法,涉及信息技术领域,该面向健康舆情的文本分类方法结合深度神经网络和LightGBM两者的优势,利用深度神经网络自动学习特征,将最后一层特征作为LightGBM集成学习方法的输入,并对多个模型进行模型融合。实现端到端的特征学习,无需人工构建特征工程,且能有效提高文本分类的准确率。该面向健康舆情的文本分类方法采用端到端自动进行特征学习,无需人工构建特征工程;模型通用,无需使用其他外部信息,且与具体应用场景无关;推广能力强,可直接应用于其它文本分类和回归任务;提高文本分类的准确率。

Description

面向健康舆情的文本分类方法
技术领域
本发明涉及信息技术领域,具体来说,本发明涉及一种面向健康舆情的文本分类方法。
背景技术
文本分类问题是自然语言处理领域中一个非常重要的问题,相关研究最早可以追溯到上世纪50年代,当时是通过专家规则进行分类,甚至在80年代初一度发展到利用知识工程建立专家系统,但这种方法的天花板非常低,不仅费时费力,覆盖的范围和准确率都非常有限。后来伴随着统计学习方法的发展,特别是90年代后互联网在线文本数量增长和机器学习学科的兴起,逐渐形成了一套解决大规模文本分类问题的方法,这个阶段的主要套路是人工特征工程以及浅层分类模型。整个文本分类问题就拆分成了特征工程和分类器两部分。
传统方法主要问题的文本表示是高纬度高稀疏的,特征表达能力很弱,而且神经网络很不擅长对此类数据的处理;此外需要人工进行特征工程,成本很高。而深度学习最初在之所以图像和语音取得巨大成功,一个很重要的原因是图像和语音原始数据是连续和稠密的,有局部相关性。应用深度学习解决大规模文本分类问题最重要的是解决文本表示,再利用CNN/RNN等网络结构自动获取特征表达能力,去掉繁杂的人工特征工程,端到端的解决问题。现有的文本分类方法主要是人工构建特征工程,再利用浅层分类模型实现分类任务。文本特征工程分为文本预处理、特征提取、文本表示三个部分,最终要把文本转换成计算机可理解的格式,并封装足够用于分类的信息,这个过程需要耗费大量时间和人力,且不具备很强的通用性,需要结合对特征任务的理解来构建。深度神经网络结构具有自动获取特征表达的能力,去掉繁杂的人工特征工程,端到端解决问题。不同的单模型在分类上具有不同的优势,仅依靠单模型很难取得较好的分类效果,模型融合能够利用不同单模型的优势,进一步提升文本分类的准确率。
发明内容
本发明所要解决的技术问题是提供一种面向健康舆情的文本分类方法,利用深度神经网络提取健康舆情文本的特征,无需人工构建特征工程,将深度神经网络的最后一层特征做为LightGBM集成学习方法的输入,训练模型,用于健康舆情文本的分类任务。最后利用模型融合进一步提升文本分类的准确率。
为实现上述目的,本发明提供以下的技术方案:
该面向健康舆情的文本分类方法利用深度神经网络TextCNN、TextRNN以及TextRCNN的对健康舆情文本数据进行特征学习,将最后一层特征做为LightGBM集成学习方法的输入,训练LightGBM模型,实现健康舆情文本数据的分类,最后进行模型融合,进一步提升分类的准确率,该面向健康舆情的文本分类方法具体步骤如下:
(1)数据处理:健康舆情文本数据进行处理,统一格式;
(2)数据增强:使用shuffle方法打乱词顺序,使用drop方法随机删除某些词;
(3)分词:将健康舆情文本数据重新组合成词序列;
(4)构建词向量和字向量:使用word2vec模型对分词结果进行嵌入化处理得到词向量和字向量;
(5)神经网络提取特征:利用深度神经网络TextCNN、TextRNN、TextRCNN的对健康舆情文本数据的词向量和字向量进行自动特征学习,得到最后一层特征,即利用深度神经网络全连接层前面的网络结构提取特征;
(6)LightGBM训练神经网络提取的特征数据:将深度神经网络提取最后一层的特征数据做为LightGBM集成学习方法的输入,对健康舆情文本数据进行分类;
(7)模型融合:将步骤(6)中训练输出作为LightGBM的输入,使用stacking方法进行模型融合,Stacking方法的具体实现过程利用TextCNN-LightGBM、TextRNN-LightGBM、TextRCNN-LightGBM模型对训练集的词向量和字向量进行5折训练、分类,并将训练的模型对测试集进行分类,再将训练集的测试结果组合成新的训练集,测试集的测试结果取均值后组合成新的测试集,最后将新的训练集做为LightGBM的输入,训练模型,对新的测试集进行分类测试。
采用以上技术方案的有益效果是:该面向健康舆情的文本分类方法结合深度神经网络和LightGBM两者的优势,利用深度神经网络自动学习特征,将最后一层特征作为LightGBM集成学习方法的输入,并对多个模型进行模型融合。实现端到端的特征学习,无需人工构建特征工程,且能有效提高文本分类的准确率。该面向健康舆情的文本分类方法采用端到端自动进行特征学习,无需人工构建特征工程;模型通用,无需使用其他外部信息,且与具体应用场景无关;推广能力强,可直接应用于其它文本分类和回归任务;提高文本分类的准确率。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的描述。
图1是textCNN-LightGBM结构图;
图2是textRNN-LightGBM结构图;
图3是textRCNN-LightGBM结构图;
图4是模型融合整体框架图;
图5是Stacking结构图。
具体实施方式
下面结合附图详细说明本发明面向健康舆情的文本分类方法的优选实施方式。
图1、图2、图3、图4和图5出示该面向健康舆情的文本分类方法的具体实施方式:
该面向健康舆情的文本分类方法对健康舆情文本数据进行处理,统一格式,进行分词,组合成词序列,构建词向量和字向量。分别利用深度神经网络TextCNN、TextRNN以及TextRCNN的对健康舆情文本数据进行特征学习,将最后一层特征做为LightGBM集成学习方法的输入,训练LightGBM模型,实现健康舆情文本数据的分类,具体结构如图1、图2、图3所示。最后进行模型融合,进一步提升分类的准确率。
该面向健康舆情的文本分类方法具体步骤如下:
(1)数据处理:健康舆情文本数据进行处理,统一格式;
(2)数据增强:使用shuffle方法打乱词顺序,使用drop方法随机删除某些词;
(3)分词:将健康舆情文本数据重新组合成词序列;
(4)构建词向量和字向量:使用word2vec模型对分词结果进行嵌入化处理得到词向量和字向量;
(5)神经网络提取特征:利用深度神经网络TextCNN、TextRNN、TextRCNN的对健康舆情文本数据的词向量和字向量进行自动特征学习,得到最后一层特征,即利用深度神经网络全连接层前面的网络结构提取特征;
(6)LightGBM训练神经网络提取的特征数据:将深度神经网络提取最后一层的特征数据做为LightGBM集成学习方法的输入,对健康舆情文本数据进行分类;
(7)模型融合:将步骤(6)中训练的输出作为LightGBM的输入,使用stacking方法进行模型融合,整体结构如图4所示。图5展示了Stacking方法的具体实现过程,利用TextCNN-LightGBM、TextRNN-LightGBM、TextRCNN-LightGBM模型对训练集的词向量和字向量进行5折训练、分类,并将训练的模型对测试集进行分类。再将训练集的测试结果组合成新的训练集,测试集的测试结果取均值后组合成新的测试集。最后将新的训练集做为LightGBM的输入,训练模型,对新的测试集进行分类测试。
实验结果如表1所示。
表1实验结果
以上的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (1)

1.一种面向健康舆情的文本分类方法,其特征在于:所述面向健康舆情的文本分类方法利用深度神经网络TextCNN、TextRNN以及TextRCNN的对健康舆情文本数据进行特征学习,将最后一层特征做为LightGBM集成学习方法的输入,训练LightGBM模型,实现健康舆情文本数据的分类,最后进行模型融合,进一步提升分类的准确率,该面向健康舆情的文本分类方法具体步骤如下:
(1)数据处理:健康舆情文本数据进行处理,统一格式;
(2)数据增强:使用shuffle方法打乱词顺序,使用drop方法随机删除某些词;
(3)分词:将健康舆情文本数据重新组合成词序列;
(4)构建词向量和字向量:使用word2vec模型对分词结果进行嵌入化处理得到词向量和字向量;
(5)神经网络提取特征:利用深度神经网络TextCNN、TextRNN、TextRCNN的对健康舆情文本数据的词向量和字向量进行自动特征学习,得到最后一层特征,即利用深度神经网络全连接层前面的网络结构提取特征;
(6)LightGBM训练神经网络提取的特征数据:将深度神经网络提取最后一层的特征数据做为LightGBM集成学习方法的输入,对健康舆情文本数据进行分类;
(7)模型融合:将步骤(6)中训练输出作为LightGBM的输入,使用stacking方法进行模型融合,Stacking方法的具体实现过程利用TextCNN-LightGBM、TextRNN-LightGBM、TextRCNN-LightGBM模型对训练集的词向量和字向量进行5折训练、分类,并将训练的模型对测试集进行分类,再将训练集的测试结果组合成新的训练集,测试集的测试结果取均值后组合成新的测试集,最后将新的训练集做为LightGBM的输入,训练模型,对新的测试集进行分类测试。
CN201810582880.6A 2018-06-08 2018-06-08 面向健康舆情的文本分类方法 Pending CN108829810A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810582880.6A CN108829810A (zh) 2018-06-08 2018-06-08 面向健康舆情的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810582880.6A CN108829810A (zh) 2018-06-08 2018-06-08 面向健康舆情的文本分类方法

Publications (1)

Publication Number Publication Date
CN108829810A true CN108829810A (zh) 2018-11-16

Family

ID=64144209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810582880.6A Pending CN108829810A (zh) 2018-06-08 2018-06-08 面向健康舆情的文本分类方法

Country Status (1)

Country Link
CN (1) CN108829810A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046757A (zh) * 2019-04-08 2019-07-23 中国人民解放军第四军医大学 基于LightGBM算法的门诊量预测系统及预测方法
CN110047512A (zh) * 2019-04-25 2019-07-23 广东工业大学 一种环境声音分类方法、系统及相关装置
CN111008283A (zh) * 2019-10-31 2020-04-14 中电药明数据科技(成都)有限公司 一种基于复合边界信息的序列标注方法及系统
CN112417148A (zh) * 2020-11-11 2021-02-26 北京京航计算通讯研究所 一种城市内涝舆情结果获得方法及装置
WO2021068339A1 (zh) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 文本分类方法、装置及计算机可读存储介质
CN112836772A (zh) * 2021-04-02 2021-05-25 四川大学华西医院 基于LightGBM集成多个BERT模型的随机对照试验识别方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046757A (zh) * 2019-04-08 2019-07-23 中国人民解放军第四军医大学 基于LightGBM算法的门诊量预测系统及预测方法
CN110047512A (zh) * 2019-04-25 2019-07-23 广东工业大学 一种环境声音分类方法、系统及相关装置
WO2021068339A1 (zh) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 文本分类方法、装置及计算机可读存储介质
CN111008283A (zh) * 2019-10-31 2020-04-14 中电药明数据科技(成都)有限公司 一种基于复合边界信息的序列标注方法及系统
CN111008283B (zh) * 2019-10-31 2023-06-20 中电药明数据科技(成都)有限公司 一种基于复合边界信息的序列标注方法及系统
CN112417148A (zh) * 2020-11-11 2021-02-26 北京京航计算通讯研究所 一种城市内涝舆情结果获得方法及装置
CN112836772A (zh) * 2021-04-02 2021-05-25 四川大学华西医院 基于LightGBM集成多个BERT模型的随机对照试验识别方法

Similar Documents

Publication Publication Date Title
CN108829810A (zh) 面向健康舆情的文本分类方法
CN112084790A (zh) 一种基于预训练卷积神经网络的关系抽取方法及系统
CN108984683A (zh) 结构化数据的提取方法、系统、设备及存储介质
CN106294593B (zh) 结合从句级远程监督和半监督集成学习的关系抽取方法
CN108280064A (zh) 分词、词性标注、实体识别及句法分析的联合处理方法
CN108764268A (zh) 一种基于深度学习的图文多模态情感识别方法
CN108664474B (zh) 一种基于深度学习的简历解析方法
CN107943784A (zh) 基于生成对抗网络的关系抽取方法
CN108197294A (zh) 一种基于深度学习的文本自动生成方法
CN109871885A (zh) 一种基于深度学习和植物分类学的植物识别方法
CN110399895A (zh) 图像识别的方法和装置
CN107679110A (zh) 结合文本分类与图片属性提取完善知识图谱的方法及装置
CN102289522A (zh) 一种对于文本智能分类的方法
CN107729312A (zh) 基于序列标注建模的多粒度分词方法及系统
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN108595558B (zh) 一种数据均衡策略和多特征融合的图像标注方法
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN112613428B (zh) 基于平衡损失的Resnet-3D卷积牛视频目标检测方法
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN112632319B (zh) 基于迁移学习的提升长尾分布语音总体分类准确度的方法
CN109214407A (zh) 事件检测模型、方法、装置、计算设备及存储介质
CN105446955A (zh) 一种自适应的分词方法
CN106777336A (zh) 一种基于深度学习的公司名成分抽取系统和方法
CN110705272A (zh) 一种面向汽车发动机故障诊断的命名实体识别方法
CN110263174A (zh) —基于焦点关注的主题类别分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181116

WD01 Invention patent application deemed withdrawn after publication