CN110955776A - 一种政务文本分类模型的构建方法 - Google Patents

一种政务文本分类模型的构建方法 Download PDF

Info

Publication number
CN110955776A
CN110955776A CN201911123141.1A CN201911123141A CN110955776A CN 110955776 A CN110955776 A CN 110955776A CN 201911123141 A CN201911123141 A CN 201911123141A CN 110955776 A CN110955776 A CN 110955776A
Authority
CN
China
Prior art keywords
text
government affair
word
government
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911123141.1A
Other languages
English (en)
Inventor
昌攀
曹扬
胥月
张鹏翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC Big Data Research Institute Co Ltd
Original Assignee
CETC Big Data Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC Big Data Research Institute Co Ltd filed Critical CETC Big Data Research Institute Co Ltd
Priority to CN201911123141.1A priority Critical patent/CN110955776A/zh
Publication of CN110955776A publication Critical patent/CN110955776A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种政务文本分类模型的构建方法,自动对政务文本数据进行分类,基本的步骤为:首先按照目前政务文本分类目录的20种种类数,选取尽可能多的已标记的政务分类文本,进行Word2vec的词向量库建设,接着借助权重TF‑IDF算法,计算每个词在不同类别中所占的比例,量化分类的权重,生成改进型的文本词向量,最后借助卷积神经网络从局部到全局的相关特征学习能力,对政务分类文本进行深度学习,提高政务领域内文本主题分类的精确度和效率。

Description

一种政务文本分类模型的构建方法
技术领域
本发明涉及一种政务文本分类模型的构建方法,属于自然语言处理、人工智能技术领域,具体涉及一种基于Word2vec和权重TF-IDF的卷积神经网络政务文本分类模型的构建方法。
背景技术
随着国家电子政务、数字政府和数字中国等大数据、智慧政务战略的深入推进,各级政府部门越来越多将政策法规、新闻报道和标准规范通过网络的形式面向公众宣传和推送,由此产生了大量政府公文公告,据不完全统计,国家部委在近五年通过政府公开网站发布的公文数量就超过10万篇。面对日益繁重的政务公文文本数据信息,如何将其正确且高效的编入政务主题分类类别中变得十分困难,庞大的信息使得人们要仔细阅读公文信息,查找满足分类条件的政务主题类别中包含的关键字信息,对于政务文本的关键字还不能准确进行分类,需要进一步结合上下文信息对关键字进行解析,因此急需一种准确率高、分类高效的政务主题行业分类方法。
基于文本的分类算法目前较多,目前的政务文本分类过程中存在的分类精度低、政务文本对于分类的类型无严格的规定、文本分类过程中语义表达弱、词序丢失,现有的分类算法未考虑到每种词汇在政务领域分类过程中的不同占比等情况,文本分类过程中语义表达弱、词序丢失等情况,如何针对这些大量的公文数据进行有效政务主题分类管理成为了一个巨大的挑战。
发明内容
为解决上述技术问题,本发明提供了一种政务文本分类模型的构建方法,该政务文本分类模型的构建方法解决了现有技术在政务文本主题行业分类领域中,存在分类精度低、政务文本对于分类的类型无严格的规定、文本分类过程中语义表达弱、词序丢失,现有的分类算法未考虑到每种词汇在政务领域分类过程中的不同占比等情况。
本发明通过以下技术方案得以实现。
本发明提供的一种政务文本分类模型的构建方法,包括以下步骤:
①构建政务词向量库:构建政务文本主题分类领域的词向量库;
②构建词的权重:根据词向量库,通过权重TF-IDF算法,获取改进型的词向量;
③构建卷积神经网络:根据改进型的词向量,生成政务文本分类模型。
所示步骤①分为以下步骤:
(1.1)选择政务文本库:获取经过人工标注的政务文本分类的文本库;
(1.2)文本分词:借助标准的语料库,基于词语的统计进行政务文本的分词;
(1.3)文本过滤:去除分词中存在的与文本分类无关的词汇;
(1.4)One-hot编码:对文本过滤后的词汇,进行One-hot编码,将词汇数值化表示;
(1.5)构建训练样本:根据步骤(1.4),构建政务文本词库的训练样本;
(1.6)输入神经网络模型:输入神经网络模型,获取神经网络的层数、激活函数、分类方法、调优方法;
(1.7)模型训练:根据步骤(1.5),训练神经网络模型,获取训练后的神经网络模型;
(1.8)词向量库:根据步骤(1.7),获取政务文本分类领域的词向量库。
所述步骤(1.2)中,采用jieba工具进行分词。
所述步骤(1.3)中,与文本分类无关的词汇包括介词和谓词。
所述步骤②分为以下步骤:
(2.1)获取词语所占比重:根据词向量库中,每个词语出现在不同政务分类中的数目,获取在每个分类中该词语所占的比重;
(2.2)词的TF-IDF的值:根据TF-IDF算法,依次计算不同政务文本中词汇的TF-IDF的值;
(2.3)改进型词向量:根据步骤(2.1)和(2.2),获取改进型词向量。
所述步骤③分为以下步骤:
(3.1)搭建卷积神经网络模型:根据改进型的词向量的维度,选择输入层神经元的个数,确定隐藏层的层数和卷积核的个数、卷积核的尺寸、池化方法、全连接层的神经元个数、优化参数、学习率、分类模型;
(3.2)政务文本训练:基于训练集的政务文本分类训练,不断调优参数,进行数据验证,直至卷积神经网络模型稳定;
(3.3)生成政务文本分类模型:对卷积神经网络模型进行固化,生成政务文本分类模型。
本发明的有益效果在于:建了在政务主题分类领域的词向量库,然后利用权重TF-IDF算法得到改进的词向量库,最后针对改进的词向量库进行卷积神经网络构建,最终得到政务主题分类模型,自动分类政务文本,提高了政务主题分类的精确度和效率。
附图说明
图1是本发明的框架流程示意图;
图2是本发明的技术流程示意图。
具体实施方式
下面进一步描述本发明的技术方案,但要求保护的范围并不局限于所述。
如图1和图2所示,一种政务文本分类模型的构建方法,包括以下步骤:
①构建Word2vec政务词向量库:构建政务文本主题分类领域的词向量库;
②构建词的权重TF-IDF:根据词向量库,通过权重TF-IDF算法,获取改进型的词向量;
优选的,使用改进的权重TF-IDF算法,并结合了政务领域同一词汇在不同分类的过程中对于不同主题类别的归属权重不一样,将词汇的归属权重数值化,融入进阶段一提取的政务领域词向量中,得到改进型的词向量,刻画了同一词汇对于不同类别的归属程度;
③构建卷积神经网络:根据改进型的词向量,生成政务文本分类模型。
优选的,借助卷积神经网络从局部到全局网络的特征学习能力,构建能高精度分类政务领域的文本分类模型,使用改进型的词向量库,实现对政务文本信息的主题分类,提高分类精确度。
所示步骤①分为以下步骤:
(1.1)选择政务文本库:获取经过人工标注的政务文本分类的文本库;
进一步地,所使用的政务文本库是经过人工标注的20种政务文本分类的文本库,这20个类别分别是:综合政务、经济管理、国土资源能源、工业交通、信息产业、城乡建设环境保护、农业水利、财政、商业贸易、旅游服务业、气象水文测绘地震、对外事务、政法监察、科技教育、文化卫生体育、军事国防、劳动人事、民政社区、文秘行政、综合党团、综合类,每个类别中包含了近1000条文本信息,文本数据均人工采集于政府数据共享开放平台,人工进行分类标注;
(1.2)文本分词:借助标准的语料库,基于词语的统计进行政务文本的分词;
(1.3)文本过滤:去除分词中存在的与文本分类无关的词汇,保留主要的名词信息;
(1.4)One-hot编码:对文本过滤后的词汇,进行One-hot编码,将词汇数值化表示;
(1.5)构建训练样本:根据步骤(1.4),构建政务文本词库的Word2vec的训练样本;
(1.6)输入神经网络模型:输入神经网络模型,获取神经网络的层数、激活函数、分类方法、调优方法;
(1.7)模型训练:根据步骤(1.5),训练神经网络模型,获取训练后的神经网络模型;
(1.8)词向量库:根据步骤(1.7),获取政务文本分类领域的词向量库,这个词向量库专用于政务文本主题分类。
所述步骤(1.2)中,采用jieba工具进行分词。
所述步骤(1.3)中,与文本分类无关的词汇包括介词和谓词。
所述步骤②分为以下步骤:
(2.1)获取词语所占比重:根据词向量库中,每个词语出现在不同政务分类中的数目,获取在每个分类中该词语所占的比重;例如词语wi在C1分类中出现文本有m1个,在C2分类中出现文本有m2个….其比例依次是
Figure BDA0002276001920000061
其中N为总的文本个数;
(2.2)词的TF-IDF的值:根据TF-IDF算法,依次计算不同政务文本中词汇的TF-IDF的值;
(2.3)改进型词向量:根据步骤(2.1)和(2.2),获取改进型词向量。
具体的,在相应的位置上相乘得到权重TF-IDF值,能反应不同的词语在文本分类算法上的不同贡献率和统一词语区别于总体类别的度量值;将词向量的值与权重TF-IDF的值相乘,得到能刻画不同政务文本的词对于分类重要程度相关的改进型词向量。
所述步骤③分为以下步骤:
(3.1)搭建卷积神经网络模型:根据改进型的词向量的维度,选择输入层神经元的个数,确定隐藏层的层数和卷积核的个数、卷积核的尺寸、池化方法、全连接层的神经元个数、优化参数、学习率、分类模型;
(3.2)政务文本训练:基于训练集的政务文本分类训练,不断调优参数,进行数据验证,直至卷积神经网络模型稳定;
(3.3)生成政务文本分类模型:对卷积神经网络模型进行固化,生成政务文本分类模型。
优选的,本方法构建的政务主题分类模型,能够动态地根据用户输入的政务文本信息,主动并智能地为用户推荐相应的政务主题分类类目,解决了繁重的政务文本阅读量、查阅主题分类类目的依据等弊端,使政务文本的主题分类更加高效、智能,解决了用户面对繁重的公文文本分类任务繁重的问题,提高了办事效率。
综上所述,本发明构建的政务主题分类模型能够快速且精确地分类基于政务主题的文本信息,在实际的应用过程中,为用户提供了一个基于政务主题分类的参考类目,达到提高工作效率的目的。

Claims (5)

1.一种政务文本分类模型的构建方法,其特征在于:包括以下步骤:
①构建政务词向量库:构建政务文本主题分类领域的词向量库;
②构建词的权重:根据词向量库,通过权重TF-IDF算法,获取改进型的词向量;
③构建卷积神经网络:根据改进型的词向量,生成政务文本分类模型;
所述步骤②分为以下步骤:
(2.1)获取词语所占比重:根据词向量库中,每个词语出现在不同政务分类中的数目,获取在每个分类中该词语所占的比重;
(2.2)词的TF-IDF的值:根据TF-IDF算法,依次计算不同政务文本中词汇的TF-IDF的值;
(2.3)改进型词向量:根据步骤(2.1)和(2.2),获取改进型词向量。
2.如权利要求1所述的政务文本分类模型的构建方法,其特征在于:所示步骤①分为以下步骤:
(1.1)选择政务文本库:获取经过人工标注的政务文本分类的文本库;
(1.2)文本分词:借助标准的语料库,基于词语的统计进行政务文本的分词;
(1.3)文本过滤:去除分词中存在的与文本分类无关的词汇;
(1.4)One-hot编码:对文本过滤后的词汇,进行One-hot编码,将词汇数值化表示;
(1.5)构建训练样本:根据步骤(1.4),构建政务文本词库的训练样本;
(1.6)输入神经网络模型:输入神经网络模型,获取神经网络的层数、激活函数、分类方法、调优方法;
(1.7)模型训练:根据步骤(1.5),训练神经网络模型,获取训练后的神经网络模型;
(1.8)词向量库:根据步骤(1.7),获取政务文本分类领域的词向量库。
3.如权利要求2所述的政务文本分类模型的构建方法,其特征在于:所述步骤(1.2)中,采用jieba工具进行分词。
4.如权利要求2所述的政务文本分类模型的构建方法,其特征在于:所述步骤(1.3)中,与文本分类无关的词汇包括介词和谓词。
5.如权利要求1所述的政务文本分类模型的构建方法,其特征在于:所述步骤③分为以下步骤:
(3.1)搭建卷积神经网络模型:根据改进型的词向量的维度,选择输入层神经元的个数,确定隐藏层的层数和卷积核的个数、卷积核的尺寸、池化方法、全连接层的神经元个数、优化参数、学习率、分类模型;
(3.2)政务文本训练:基于训练集的政务文本分类训练,不断调优参数,进行数据验证,直至卷积神经网络模型稳定;
(3.3)生成政务文本分类模型:对卷积神经网络模型进行固化,生成政务文本分类模型。
CN201911123141.1A 2019-11-16 2019-11-16 一种政务文本分类模型的构建方法 Pending CN110955776A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911123141.1A CN110955776A (zh) 2019-11-16 2019-11-16 一种政务文本分类模型的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911123141.1A CN110955776A (zh) 2019-11-16 2019-11-16 一种政务文本分类模型的构建方法

Publications (1)

Publication Number Publication Date
CN110955776A true CN110955776A (zh) 2020-04-03

Family

ID=69977716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911123141.1A Pending CN110955776A (zh) 2019-11-16 2019-11-16 一种政务文本分类模型的构建方法

Country Status (1)

Country Link
CN (1) CN110955776A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522948A (zh) * 2020-04-22 2020-08-11 中电科新型智慧城市研究院有限公司 一种智能处理公文的方法及其系统
CN111782811A (zh) * 2020-07-03 2020-10-16 湖南大学 一种基于卷积神经网络和支持向量机的电子政务敏感文本检测方法
CN111861201A (zh) * 2020-07-17 2020-10-30 南京汇宁桀信息科技有限公司 一种基于大数据分类算法的政务智能派单的方法
CN112015891A (zh) * 2020-07-17 2020-12-01 山东师范大学 基于深度神经网络的网络问政平台留言分类的方法及系统
CN112131379A (zh) * 2020-08-20 2020-12-25 彭涛 用于识别问题类别的方法、装置、电子设备及存储介质
CN112328791A (zh) * 2020-11-09 2021-02-05 济南大学 一种基于DiTextCNN的中文政务信息的文本分类方法
CN112989761A (zh) * 2021-05-20 2021-06-18 腾讯科技(深圳)有限公司 文本分类方法及装置
CN112989054A (zh) * 2021-04-26 2021-06-18 腾讯科技(深圳)有限公司 一种文本处理方法和装置
CN115564332A (zh) * 2022-10-08 2023-01-03 深圳中科保泰科技有限公司 基于大数据的政务风险分析方法及系统
CN117313748A (zh) * 2023-11-24 2023-12-29 中电科大数据研究院有限公司 面向政务问答的多特征融合语义理解方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160140220A1 (en) * 2013-06-14 2016-05-19 Proxem Method for automatic thematic classification of a digital text file
CN109189925A (zh) * 2018-08-16 2019-01-11 华南师范大学 基于点互信息的词向量模型和基于cnn的文本分类方法
CN109753566A (zh) * 2019-01-09 2019-05-14 大连民族大学 基于卷积神经网络的跨领域情感分析的模型训练方法
CN109977224A (zh) * 2019-03-11 2019-07-05 南京邮电大学 基于卷积神经网络和词向量相结合的新闻分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160140220A1 (en) * 2013-06-14 2016-05-19 Proxem Method for automatic thematic classification of a digital text file
CN109189925A (zh) * 2018-08-16 2019-01-11 华南师范大学 基于点互信息的词向量模型和基于cnn的文本分类方法
CN109753566A (zh) * 2019-01-09 2019-05-14 大连民族大学 基于卷积神经网络的跨领域情感分析的模型训练方法
CN109977224A (zh) * 2019-03-11 2019-07-05 南京邮电大学 基于卷积神经网络和词向量相结合的新闻分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王根生 等: "基于Word2vec和改进型TF-IDF的卷积神经网络文本分类模型", 《小型微型计算机系统》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522948A (zh) * 2020-04-22 2020-08-11 中电科新型智慧城市研究院有限公司 一种智能处理公文的方法及其系统
CN111782811A (zh) * 2020-07-03 2020-10-16 湖南大学 一种基于卷积神经网络和支持向量机的电子政务敏感文本检测方法
CN111861201A (zh) * 2020-07-17 2020-10-30 南京汇宁桀信息科技有限公司 一种基于大数据分类算法的政务智能派单的方法
CN112015891A (zh) * 2020-07-17 2020-12-01 山东师范大学 基于深度神经网络的网络问政平台留言分类的方法及系统
CN112131379A (zh) * 2020-08-20 2020-12-25 彭涛 用于识别问题类别的方法、装置、电子设备及存储介质
CN112328791A (zh) * 2020-11-09 2021-02-05 济南大学 一种基于DiTextCNN的中文政务信息的文本分类方法
CN112989054A (zh) * 2021-04-26 2021-06-18 腾讯科技(深圳)有限公司 一种文本处理方法和装置
CN112989761A (zh) * 2021-05-20 2021-06-18 腾讯科技(深圳)有限公司 文本分类方法及装置
CN115564332A (zh) * 2022-10-08 2023-01-03 深圳中科保泰科技有限公司 基于大数据的政务风险分析方法及系统
CN117313748A (zh) * 2023-11-24 2023-12-29 中电科大数据研究院有限公司 面向政务问答的多特征融合语义理解方法及装置
CN117313748B (zh) * 2023-11-24 2024-03-12 中电科大数据研究院有限公司 面向政务问答的多特征融合语义理解方法及装置

Similar Documents

Publication Publication Date Title
CN110955776A (zh) 一种政务文本分类模型的构建方法
CN108052583B (zh) 电商本体构建方法
CN107229610B (zh) 一种情感数据的分析方法及装置
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN109165294B (zh) 一种基于贝叶斯分类的短文本分类方法
CN108073568A (zh) 关键词提取方法和装置
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN112069313A (zh) 一种基于bert与双向lstm、注意力机制融合的灾难信息博文分类方法
WO2021036439A1 (zh) 一种信访问题答复方法及装置
CN112000801A (zh) 基于机器学习的政务文本分类、热点问题挖掘方法及系统
CN112148831B (zh) 图文混合检索方法、装置、存储介质、计算机设备
CN109918648B (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
CN110781679A (zh) 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN116756347B (zh) 一种基于大数据的语义信息检索方法
CN114610838A (zh) 文本情感分析方法、装置、设备及存储介质
CN111061876A (zh) 事件舆情数据分析方法及装置
Putra et al. Sentiment Analysis on Social Media with Glove Using Combination CNN and RoBERTa
CN112987940B (zh) 一种基于样本概率量化的输入方法、装置和电子设备
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN117056510A (zh) 一种多元社会矛盾纠纷信息自动归集方法
CN115600602B (zh) 一种长文本的关键要素抽取方法、系统及终端设备
CN114638222B (zh) 自然灾害数据的分类方法及其模型训练方法、装置
CN116756346A (zh) 一种信息检索方法及装置
CN114118097A (zh) 一种城市公共空间的在线评论情感评价方法及系统
CN114637853A (zh) 突发事件的分级方法及其模型训练方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200403