CN112668329A - 一种基于机器学习的政策文本分类方法 - Google Patents

一种基于机器学习的政策文本分类方法 Download PDF

Info

Publication number
CN112668329A
CN112668329A CN202011585410.9A CN202011585410A CN112668329A CN 112668329 A CN112668329 A CN 112668329A CN 202011585410 A CN202011585410 A CN 202011585410A CN 112668329 A CN112668329 A CN 112668329A
Authority
CN
China
Prior art keywords
data
policy
text
layer
defining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011585410.9A
Other languages
English (en)
Inventor
龚增辉
胡建敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Doctor Information Technology Research Institute Co ltd
Original Assignee
Guangzhou Doctor Information Technology Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Doctor Information Technology Research Institute Co ltd filed Critical Guangzhou Doctor Information Technology Research Institute Co ltd
Priority to CN202011585410.9A priority Critical patent/CN112668329A/zh
Publication of CN112668329A publication Critical patent/CN112668329A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于机器学习的政策文本分类方法,包括S1)、将数据分类标注,单文本标注;S2)、将各个类别的数据作为训练的数据集,S3)、将政策的标题合并为文本,并将文本转化为向量;S4)、选择CNN算法作为基础算法,将所有卷积核得到的特征拼接起来即为文本的定长向量表示,对于文本分类问题,将其连接至softmax即构建出完整的模型;S5)、定义输出的数据;S6)、将向量加入到元组;S7)、定义分类器;S8)、定义损失函数和准确函数S9)、定义优化方法,S10)、网络训练;S11)、模型评估;S12)、模型预测。本发明具有高效、准确的、智能的政策分类的效果,实现了大规模处理政策数据的分类的难题。

Description

一种基于机器学习的政策文本分类方法
技术领域
本发明涉及政策分类技术领域,尤其是一种基于机器学习的政策文本分类方法。
背景技术
社会政策与人类发展新的人类发展视角强调以人为中心的发展观,强调经济与社会发展要围绕着满足人的各种需要,提高人的生活质量,并解决人类社会所面临的各种问题。
产业政策作为国家用来发展产业的辅助工具,对于优化产业结构有不可忽视的作用,可以推动国民经济又好又快地发展。
近年来,中央和地方政府相继出台各种政策,保民生,促经济做出努力,特别当前为应对疫情冲击,在帮扶企业、稳定就业、扩大内需等方面,各地各部门陆续出台了一系列政策措施。
为了方便企业和普通民众了了解政策,响应政策,所以需要讲各地各部门的政策采集回来,进行分类整理,加工,系统化输出。
政策按照性质主要分为以下几大类:政策快讯,政策法规,申报通知,政策公示,政策活动,政策解读等。按照行政级别,又可以分为:国家级,省级,市级,区(县)级别。按照产业分类,又可以分为:新一代信息技术产业,高端装备制造产业,新材料产业,生物产业,新能源汽车产业,新能源产业,节能环保产业,数字创意产业,相关服务业。
政策数据量大,维度多,需要一种技术实现智能分类。当前没有相应的人工智能技术应用于政策文本精准分类,只能人工一条条数据处理,效率非常低下。
少数用一些开发语言编写的脚本,进行正则表达式分类。传统的人工处理效率低下,数据量越大,平均准确率越低。传统的一些正则表达式分类,虽然比人工提升了一定效率,但这种方式存在缺陷,就是需要预先枚举出各种可能出现情况,然后硬编码好。枚举本身就是一种耗时耗力的工作,枚举各种可能情况更是难上加难。硬编码好的脚本,不能够适用多变的场景,准确率也无法保证。
发明内容
针对现有技术的不足,本发明提供一种基于机器学习的政策文本分类方法,本发明对政策文本进行处理,并在此之后,通过不断调整深度学习模型的各类参数来获取新的深度学习模型本。
本发明的技术方案为:一种基于机器学习的政策文本分类方法,所述的方法包括以下步骤:
S1)、将准备好的数据照政策快讯、政策法规、申报通知、政策公示、政策活动、政策解读分类标注,单文本标注;
S2)、将各个类别的数据作为训练的数据集,并且随机划分为80%训练集,15%测试集和5%评测集;
S3)、将政策的标题给以权重0.7和内容权重0.3,合并为文本,并将文本转化为向量;
S4)、选择CNN算法作为基础算法,加入政策维度函数,权重因子,配置100层,批次100,学习率2e-5,模型保存间隔500输入词向量序列,产生一个特征图,对特征图采用时间维度上的最大池化操作得到此卷积核对应的整句话的特征,
最后,将所有卷积核得到的特征拼接起来即为文本的定长向量表示,对于文本分类问题,将其连接至softmax即构建出完整的模型;
S5)、定义输出的数据,lod_level不为0指定输入数据为序列数据;
S6)、将向量加入到元组;
读取已经得到数的向量,按照分隔符'_!_'切割数据,去掉分行符'\n',把元组转换成字典,一个字对应一个数字。
S7)、定义分类器;
model=Doctor_CNN_net(words,dict_dim),words是文本向量,dict_dim字典元组。
S8)、定义损失函数和准确函数
S9)、定义优化方法
利用随机梯度下降法来获取损失函数的最小值;
S10)、网络训练;
S11)、模型评估;
S12)、模型预测。
进一步的,步骤S4)中,所述的CNN算法的层级结构如下:
数据输入层/Input layer;
卷积计算层/CONV layer;
ReLU激励层/ReLU layer;
池化层/Pooling layer;
全连接层/FC layer。
进一步的,步骤S4)中,所述的卷积计算层包括局部关联和窗口滑动两个特征,其中,所述的局部关联是将每个神经元看做一个滤波器filter;
所述的窗口滑动是指波器filter对局部数据计算。
进一步的,所述的池化层主要是保持特征不变性,去掉一些无关紧要的信息,而留下的信息则是具有尺度不变性的特征,是最能表达句子的特征;
其次,用于特征降维。
进一步的,步骤S6)中,将向量加入到元组具体步骤为:
先读取已经得到数的向量,后按照分隔符'_!_'切割数据,去掉分行符'\n',把元组转换成字典,一个字对应一个数字
进一步的,步骤S7)中,定义分类器包括以下步骤:
model=Doctor_CNN_net(words,dict_dim),参数words是文本向量,参数dict_dim字典元组,函数Doctor_CNN_net封装了CNN算法
进一步的,步骤S8)中,所述的损失函数是指,用数学的方法衡量假设函数预测结果与真实值之间的误差;所述的损失函数选用损失行数选择均方误差,对损失值求平均值来描述准确函数。
进一步的,步骤S10)中,所述的网络训练主要包括以下步骤:
S101)、初始化参数,创建一个GPU执行器部署到云端,执行分布式训练,其中利用GPU的算力;
S102)、定义数据映射器开始训练
DataFeeder负责将数据提供器返回的数据转成一种特殊的数据结构,使其可以输入到Executor中,定义绘制训练过程的损失值变化趋势的方法draw_train_process。
进一步的,步骤S11)中,所述的模型评估主要是通过创建推测用的executorScope指定作用域。
进一步的,步骤S12)中,通过load_inference_model,预测器会从params_dirname中读取已经训练好的模型,来对从未遇见过的数据进行预测。
本发明的有益效果为:
1、本发明通过将政策按照不同的类别进行分类,通过人工标记,通过政策分类维度定义与划分;
2、本发明政策分类模型算法以及配置的参数对数据进行训练,然后通过调整参数,将损失函数值逐渐收敛,从而进一步保证模型的准确性;
3、本发明通过深度学习算法训练和优化,开发一套云端服务和政策分类应用系统,取得了高效、准确的、智能的政策分类的效果,实现了大规模处理政策数据的分类的难题。
附图说明
图1为本发明方法的流程示意图;
图2为本发明政策分类神经网络的结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
实施例1
如图1所示,本实施例提供一种基于机器学习的政策文本分类方法,所述的方法包括以下步骤:
S1)、将准备好的数据照政策快讯、政策法规、申报通知、政策公示、政策活动、政策解读分类标注,单文本标注;
S2)、将各个类别的数据作为训练的数据集,并且随机划分为80%训练集,15%测试集和5%评测集;
S3)、将政策的标题给以权重0.7和内容权重0.3,合并为文本,并将文本转化为向量;
S4)、选择CNN算法作为基础算法,加入政策维度函数,权重因子,配置100层,批次100,学习率2e-5,模型保存间隔500输入词向量序列,产生一个特征图,对特征图采用时间维度上的最大池化操作得到此卷积核对应的整句话的特征;
最后,将所有卷积核得到的特征拼接起来即为文本的定长向量表示,对于文本分类问题,将其连接至softmax即构建出完整的模型;
本实施例中,所述的CNN算法的层级结构参见图2,具体层级结构如下:
数据输入层/Input layer;
卷积计算层/CONV layer;
ReLU激励层/ReLU layer;
池化层/Pooling layer;
全连接层/FC layer。
其中,所述的卷积计算层包括局部关联和窗口滑动两个特征,其中,所述的局部关联是将每个神经元看做一个滤波器filter;所述的窗口滑动是指波器filter对局部数据计算。
而所述的池化层主要是保持特征不变性,去掉一些无关紧要的信息,而留下的信息则是具有尺度不变性的特征,是最能表达句子的特征;其次,用于特征降维。
S5)、定义输出的数据,lod_level不为0指定输入数据为序列数据;
S6)、将向量加入到元组;
读取已经得到数的向量,按照分隔符'_!_'切割数据,去掉分行符'\n',把元组转换成字典,一个字对应一个数字。
S7)、定义分类器;
model=Doctor_CNN_net(words,dict_dim),words是文本向量,dict_dim字典元组。
S8)、定义损失函数和准确函数,本实施例所述的损失函数是指,用数学的方法衡量假设函数预测结果与真实值之间的误差;所述的损失函数选用损失行数选择均方误差,对损失值求平均值来描述准确函数。
S9)、定义优化方法
利用随机梯度下降法来获取损失函数的最小值;
S10)、网络训练,本实施例中,所述的网络训练主要包括以下步骤:
S101)、初始化参数,创建一个GPU执行器部署到云端,执行分布式训练,其中利用GPU的算力;
S102)、定义数据映射器开始训练
DataFeeder负责将数据提供器返回的数据转成一种特殊的数据结构,使其可以输入到Executor中,定义绘制训练过程的损失值变化趋势的方法draw_train_process。
S11)、模型评估,本实施例中,所述的模型评估主要是通过创建推测用的executorScope指定作用域。
S12)、模型预测,本实施例通过load_inference_model,预测器会从params_dirname中读取已经训练好的模型,来对从未遇见过的数据进行预测。
本实施例中,所述的政策分类应用管理系统工作的步骤如下:
1、采集回来的数据,调用云端服务接口,返回每个类别的置信度。
2、判断置信度大于0.8的,确定入库。低于0.8的进入正则匹配。
3、正则匹配还不能分类的,进入人工处理。
4、处理好的数据,调用云端服务接口,反馈数据情况。
上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (8)

1.一种基于机器学习的政策文本分类方法,所述的方法包括以下步骤:
S1)、将准备好的数据照政策快讯、政策法规、申报通知、政策公示、政策活动、政策解读分类标注,单文本标注;
S2)、将各个类别的数据作为训练的数据集,并且随机划分为80%训练集,15%测试集和5%评测集;
S3)、将政策的标题给以权重0.7和内容权重0.3,合并为文本,并将文本转化为向量;
S4)、选择CNN算法作为基础算法,加入政策维度函数,权重因子,配置100层,批次100,学习率2e-5,模型保存间隔500输入词向量序列,产生一个特征图,对特征图采用时间维度上的最大池化操作得到此卷积核对应的整句话的特征,
最后,将所有卷积核得到的特征拼接起来即为文本的定长向量表示,对于文本分类问题,将其连接至softmax即构建出完整的模型;
S5)、定义输出的数据,lod_level不为0指定输入数据为序列数据;
S6)、将向量加入到元组;
读取已经得到数的向量,按照分隔符'_!_'切割数据,去掉分行符'\n',把元组转换成字典,一个字对应一个数字;
S7)、定义分类器;
model=Doctor_CNN_net(words,dict_dim),words是文本向量,dict_dim字典元组;
S8)、定义损失函数和准确函数;
S9)、定义优化方法
利用随机梯度下降法来获取损失函数的最小值;
S10)、网络训练;
S11)、模型评估;
S12)、模型预测。
2.根据权利要求1所述的一种基于机器学习的政策文本分类方法,其特征在于:步骤S4)中,所述的CNN算法的层级结构如下:
数据输入层/Input layer;
卷积计算层/CONV layer;
ReLU激励层/ReLU layer;
池化层/Pooling layer;
全连接层/FC layer。
3.根据权利要求2所述的一种基于机器学习的政策文本分类方法,其特征在于:步骤S4)中,所述的卷积计算层包括局部关联和窗口滑动两个特征,其中,所述的局部关联是将每个神经元看做一个滤波器filter;
所述的窗口滑动是指波器filter对局部数据计算。
4.根据权利要求2所述的一种基于机器学习的政策文本分类方法,其特征在于:步骤S4)中所述的池化层主要是保持特征不变性,去掉一些无关紧要的信息,而留下的信息则是具有尺度不变性的特征,是最能表达句子的特征;
其次,用于特征降维。
5.根据权利要求1所述的一种基于机器学习的政策文本分类方法,其特征在于:步骤S8)中,所述的损失函数是指,用数学的方法衡量假设函数预测结果与真实值之间的误差;所述的损失函数选用损失行数选择均方误差,对损失值求平均值来描述准确函数。
6.根据权利要求1所述的一种基于机器学习的政策文本分类方法,其特征在于:步骤S10)中,所述的网络训练主要包括以下步骤:
S101)、初始化参数,创建一个GPU执行器部署到云端,执行分布式训练,其中利用GPU的算力;
S102)、定义数据映射器开始训练
DataFeeder负责将数据提供器返回的数据转成一种特殊的数据结构,使其可以输入到Executor中,定义绘制训练过程的损失值变化趋势的方法draw_train_process。
7.根据权利要求1所述的一种基于机器学习的政策文本分类方法,其特征在于:步骤S11)中,所述的模型评估主要是通过创建推测用的executor Scope指定作用域。
8.根据权利要求1所述的一种基于机器学习的政策文本分类方法,其特征在于:步骤S12)中,通过load_inference_model,预测器会从params_dirname中读取已经训练好的模型,来对从未遇见过的数据进行预测。
CN202011585410.9A 2020-12-28 2020-12-28 一种基于机器学习的政策文本分类方法 Pending CN112668329A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011585410.9A CN112668329A (zh) 2020-12-28 2020-12-28 一种基于机器学习的政策文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011585410.9A CN112668329A (zh) 2020-12-28 2020-12-28 一种基于机器学习的政策文本分类方法

Publications (1)

Publication Number Publication Date
CN112668329A true CN112668329A (zh) 2021-04-16

Family

ID=75411614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011585410.9A Pending CN112668329A (zh) 2020-12-28 2020-12-28 一种基于机器学习的政策文本分类方法

Country Status (1)

Country Link
CN (1) CN112668329A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408934A (zh) * 2021-07-05 2021-09-17 中国工商银行股份有限公司 催收任务分配方法、装置、设备、存储介质、程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119786A (zh) * 2019-05-20 2019-08-13 北京奇艺世纪科技有限公司 文本话题分类方法及装置
CN110298321A (zh) * 2019-07-02 2019-10-01 中国科学院遥感与数字地球研究所 基于深度学习图像分类的道路阻断信息提取
CN111524140A (zh) * 2020-04-21 2020-08-11 广东职业技术学院 基于cnn和随机森林法的医学图像语义分割方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119786A (zh) * 2019-05-20 2019-08-13 北京奇艺世纪科技有限公司 文本话题分类方法及装置
CN110298321A (zh) * 2019-07-02 2019-10-01 中国科学院遥感与数字地球研究所 基于深度学习图像分类的道路阻断信息提取
CN111524140A (zh) * 2020-04-21 2020-08-11 广东职业技术学院 基于cnn和随机森林法的医学图像语义分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
许璐: "基于微博话题评论的情感分析研究与应用", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑(月刊)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408934A (zh) * 2021-07-05 2021-09-17 中国工商银行股份有限公司 催收任务分配方法、装置、设备、存储介质、程序产品

Similar Documents

Publication Publication Date Title
CN110609899B (zh) 一种基于改进bert模型的特定目标情感分类方法
CN108388651B (zh) 一种基于图核和卷积神经网络的文本分类方法
CN112069310B (zh) 基于主动学习策略的文本分类方法及系统
CN112507699B (zh) 一种基于图卷积网络的远程监督关系抽取方法
CN111339305B (zh) 文本分类方法、装置、电子设备及存储介质
CN113361258A (zh) 基于图卷积网络和选择注意力的方面级情感分析方法及系统
CN112784013B (zh) 一种基于上下文语义的多粒度文本推荐方法
CN113516198B (zh) 一种基于记忆网络和图神经网络的文化资源文本分类方法
CN113947161A (zh) 一种基于注意力机制的多标签文本分类方法及系统
CN116089873A (zh) 模型训练方法、数据分类分级方法、装置、设备及介质
CN114565053A (zh) 基于特征融合的深层异质图嵌入模型
CN115631365A (zh) 一种融合知识图谱的跨模态对比零样本学习方法
CN110852089A (zh) 基于智能分词与深度学习的运维项目管理方法
CN112685374B (zh) 日志分类方法、装置及电子设备
CN115481355A (zh) 一种基于类别扩展的数据建模方法
Song Sentiment analysis of Japanese text and vocabulary learning based on natural language processing and SVM
CN111930936A (zh) 一种平台留言文本挖掘方法及系统
CN116150509A (zh) 社交媒体网络的威胁情报识别方法、系统、设备及介质
CN112668329A (zh) 一种基于机器学习的政策文本分类方法
CN112579730A (zh) 高扩展性、多标签的文本分类方法和装置
CN113204975A (zh) 一种基于远程监督的敏感文风识别方法
CN113051904A (zh) 一种面向小规模知识图谱的链接预测方法
CN111160022B (zh) 一种基于改进skip-gram模型的电网调度日志词向量提取方法
CN117272149A (zh) 一种基于语言模型的跨表格多任务预训练方法和装置
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210416