CN116702046A - 基于卷积神经网络的事项数字化场景分类方法及系统 - Google Patents
基于卷积神经网络的事项数字化场景分类方法及系统 Download PDFInfo
- Publication number
- CN116702046A CN116702046A CN202310961202.1A CN202310961202A CN116702046A CN 116702046 A CN116702046 A CN 116702046A CN 202310961202 A CN202310961202 A CN 202310961202A CN 116702046 A CN116702046 A CN 116702046A
- Authority
- CN
- China
- Prior art keywords
- scene
- model
- training
- data
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 126
- 238000013145 classification model Methods 0.000 claims abstract description 110
- 239000013598 vector Substances 0.000 claims abstract description 46
- 238000012360 testing method Methods 0.000 claims abstract description 45
- 238000012795 verification Methods 0.000 claims abstract description 37
- 238000011156 evaluation Methods 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000010276 construction Methods 0.000 claims abstract description 16
- 238000004140 cleaning Methods 0.000 claims abstract description 7
- 238000011176 pooling Methods 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000005284 excitation Effects 0.000 claims description 18
- 210000002569 neuron Anatomy 0.000 claims description 16
- 238000001914 filtration Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000014509 gene expression Effects 0.000 claims description 8
- 230000003213 activating effect Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims 1
- 230000008859 change Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 239000002699 waste material Substances 0.000 description 7
- 210000001503 joint Anatomy 0.000 description 3
- 238000009960 carding Methods 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012797 qualification Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000010977 unit operation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于卷积神经网络的事项数字化场景分类方法及系统,属于大数据处理技术领域,要解决的技术问题为如何高效准确的对事项的数字化场景主题进行分类。包括如下步骤:模型构建:基于CNN网络模型构建场景主题分类模型;样本数据处理:对事项办事指南数据进行数据清洗,得到事项要素数据,并基于事项要素数据以及对应的数字化场景主题类别构建词向量;模型训练:基于样本数据构建样本集,并将样本集划分为训练集、验证集和测试集,基于训练集和验证集对场景主题分类模型进行模型训练,得到训练后场景主题分类模型,并通过测试集对训练后场景主题分类模型进行模型评估;分类预测:通过训练后场景主题分类模型进行数字化场景主题分类预测。
Description
技术领域
本发明涉及大数据处理技术领域,具体地说是基于卷积神经网络的事项数字化场景分类方法及系统。
背景技术
根据事项所属行业领域描述,事项数字化场景主题类型较多,且不同主题类型涉及的业务存在较大差异。
城市建筑垃圾处置核准(处置计划)、城市建筑垃圾处置核准(经营性运输)、城市建筑垃圾处置核准(经营性运输许可企业法人名称变更)、城市建筑垃圾处置核准(经营性运输许可企业法人代表变更)、城市建筑垃圾处置核准(经营性运输许可建筑垃圾运输车辆增加、更新)、城市建筑垃圾处置核准(处置场设置)六个事项都属于工程建设建筑垃圾处置核准数字化场景,业务流程再造需要打通工程建设领域相关系统,涉及到业务申请、业务预审、业务受理、现场勘验、业务审查、业务决定等多个环节需要和对应行业主管部门对接。
民办非企业单位成立申请预审服务、民办非企业单位成立登记、民办非企业单位名称变更登记、民办非企业单位业务范围变更登记、民办非企业单位开办资金变更登记、民办非企业单位法定代表人变更登记、民办非企业单位业务主管单位变更登记、民办非企业单位住所变更登记、民办非企业单位章程核准、民办非企业单位印章备案、民办非企业单位银行账号备案、民办非企业单位登记证书到期换发、民办非企业单位登记证书遗失补发、民办非企业单位注销登记14个事项属于社会组织民办非企业单位审批数字化场景,业务流程再造需要打通社会组织审批相关系统,涉及到业务申请、跨部门协查、业务受理、业务审查、业务决定等多个环节需要和对应行业主管部门对接。
目前较为广泛使用的数字化场景主题有百余个,涉及到各行各业。
由不同类型的事项数字化场景可以看出,各类型的数字化场景,在其业务办理完整的生命周期内,涉及的业务、系统和行业主管部门不尽相同,且对事项进行人工数字化场景分类工作量较大。
为更好的实现事项数字化场景的流程再造,需要建立一种智能的主题分类模型,以支持不同事项数字化场景业务流程再造,提供智能分类服务,自动对同类事项进行场景分类,便于后续进行业务梳理、流程再造和系统对接,推进政务服务从可办向好办易办转变。
事项的数字化场景主题分类主要是人工预置分类。即在事项梳理时,人为的对事项数字化场景主题进行选择,数字化场景主题类型较多,人工分类耗时耗力,容易出错。
部分事项精细化梳理系统采用K-means、决策树、支持向量机等算法进行数字化场景主题分类,但比起卷积神经网络在文本主题分类识别的优势,存在一定差距,分类正确率较低。
如何高效准确的对事项的数字化场景主题进行分类,是需要解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供基于卷积神经网络的事项数字化场景分类方法及系统,来解决如何高效准确的对事项的数字化场景主题进行分类的技术问题。
第一方面,本发明一种基于卷积神经网络的事项数字化场景分类方法,包括如下步骤:
模型构建:基于CNN网络模型构建场景主题分类模型,所述场景主题分类模型用于基于事项办事指南数据对数字化场景主题进行分类预测,输出数字化场景主题类别;
样本数据处理:获取多种类别数字化场景主题下的事项办事指南数据,对事项办事指南数据进行数据清洗,得到事项要素数据,并基于事项要素数据以及对应的数字化场景主题类别构建词向量,将词向量作为样本数据所用于对主题分类模型进行模型训练、模型测试以及模型验证;
模型训练:基于样本数据构建样本集,并将样本集划分为训练集、验证集和测试集,基于训练集和验证集对场景主题分类模型进行模型训练,得到训练后场景主题分类模型,并通过测试集对训练后场景主题分类模型进行模型评估;
分类预测:将待预测的事项办事指南数据输入训练后场景主题分类模型,通过训练后场景主题分类模型进行数字化场景主题分类预测,得到对应的数字化场景主题类别。
作为优选,所述场景主题分类模型包括依次连接的输入层、卷积计算层、池化层、激励层、全连接层和输出层;
所述输入层用于以词向量为输入;
所述卷积计算层用于基于filter对输入的词向量进行滑动滤波,且滑动的宽度与词向量的维度大小相同;
所述池化层用于基于最大池化策略、通过压缩文本大小的方式将词向量转换为标量,以提取特征;
所述激励层连接中配置有ReLU激活,用于对池化层输出的特征进行非线性映射;
所述全连接层用于对从激励层接受的特征进行整合,所述全连接层的输出端连接有dropout层,dropout层用于对全连接层激活一半神经元,激活的神经元传递至softmax层,softmax层的输出表征了不同数字化场景主题类别之间的相对概率。
作为优选,样本数据处理包括如下步骤:
采集事项办理指南数据,并存储至构建于本地的事项信息库中;
将本地存储的事项办理指南数据的位置信息转换为一行,按照数字化场景主题类别存储在对应的txt文件中,每个数字化场景主题类别对应一个txt文件;
基于数字化场景主题类别对事项信息库中数据进行分类,形成数据集,每个数字化场景主题类别对应一个数据集;
对于每项事项,获得所述事项的全部事项办事指南数据;
对于每项事项,基于构造的正则表达式对事项办事指南数据进行数据过滤,去除无用信息,得到事项要素数据;
对于每项事项,以数字化场景主题类别-事项要素数据为一行存储在文本文档中作为原始样本数据;
建立词汇表,所述词汇表的长度预定,且按照词频排序;
将词汇表中的词汇用对应的id来表示;
将id逆转化为词汇;
将大类转化为对应主题id,返回值位,将原始样本数据的内容全部转化为对应的id表示,即词向量,返回x_file和y_file,分别存储事项要素数据id和数字化场景主题类别id;
将x_file,y_file中的值转化为矩阵表示,作为场景主题分类模型的直接输入。
作为优选,基于训练集和验证集对场景主题分类模型进行模型训练,包括如下步骤:
基于设定的迭代批次,将训练集划分为多个训练子集,每个训练子集中包括多个样本数据;
基于当前批次的训练子集对场景主题分类模型进行模型训练,并通过验证集对当前训练后的场景主题分类模型进行模型评估,并进行下一轮模型训练和模型评估,直至所有轮次迭代完毕;
基于每个批次的模型评估结果,选取准确率和损失率最小的模型参数,得到训练后场景主题分类模型。
作为优选,通过测试集对训练后场景主题分类模型进行模型评估,包括如下:
以测试集为输入,通过训练后场景分类模型进行数字化场景主题类别预测,得到数字化场景主题类别预测结果;
基于测试集对应的数字化场景主题类别预测结果以及数字化场景主题类别真实结果,划分为真反例、真正例、假反例和假正例四种情形,并基于四种情形构建混淆矩阵;
基于混淆矩阵计算准确率、查全率和查准率,以准确率、查全率和查准
率作为指标评估训练后场景主题分类模型。
第二方面,本发明一种基于卷积神经网络的事项数字化场景分类系统,用于通过如第一方面任一项所述的基于卷积神经网络的事项数字化场景分类方法对事项进行场景分类,所述系统包括:
模型构建模块,所述模型构建模块用于基于CNN网络模型构建场景主题分类模型,所述场景主题分类模型用于基于事项办事指南数据对数字化场景主题进行分类预测,输出数字化场景主题类别;
样本数据处理模块,所述样本数据处理模块用于获取多种类别数字化场景主题下的事项办事指南数据,对事项办事指南数据进行数据清洗,得到事项要素数据,并基于事项要素数据以及对应的数字化场景主题类别构建词向量,将词向量作为样本数据所用于对主题分类模型进行模型训练、模型测试以及模型验证;
模型训练模块,所述模型训练模块用于基于样本数据构建样本集,并将样本集划分为训练集、验证集和测试集,基于训练集和验证集对场景主题分类模型进行模型训练,得到训练后场景主题分类模型,并通过测试集对训练后场景主题分类模型进行模型评估;
分类预测模块,所述分类预测模块用于将待预测的事项办事指南数据输入训练后场景主题分类模型,通过训练后场景主题分类模型进行数字化场景主题分类预测,得到对应的数字化场景主题类别。
作为优选,所述场景主题分类模型包括依次连接的输入层、卷积计算层、池化层、激励层、全连接层和输出层;
所述输入层用于以词向量为输入;
所述卷积计算层用于基于filter对输入的词向量进行滑动滤波,且滑动的宽度与词向量的维度大小相同;
所述池化层用于基于最大池化策略、通过压缩文本大小的方式将词向量转换为标量,以提取特征;
所述激励层连接中配置有ReLU激活,用于对池化层输出的特征进行非线性映射;
所述全连接层用于对从激励层接受的特征进行整合,所述全连接层的输出端连接有dropout层,dropout层用于对全连接层激活一半神经元,激活的神经元传递至softmax层,softmax层的输出表征了不同数字化场景主题类别之间的相对概率。
作为优选,样本数据处理模块用于执行如下:
采集事项办理指南数据,并存储至构建于本地的事项信息库中;
将本地存储的事项办理指南数据的位置信息转换为一行,按照数字化场景主题类别存储在对应的txt文件中,每个数字化场景主题类别对应一个txt文件;
基于数字化场景主题类别对事项信息库中数据进行分类,形成数据集,每个数字化场景主题类别对应一个数据集;
对于每项事项,获得所述事项的全部事项办事指南数据;
对于每项事项,基于构造的正则表达式对事项办事指南数据进行数据过滤,去除无用信息,得到事项要素数据;
对于每项事项,以数字化场景主题类别-事项要素数据为一行存储在文本文档中作为原始样本数据;
建立词汇表,所述词汇表的长度预定,且按照词频排序;
将词汇表中的词汇用对应的id来表示;
将id逆转化为词汇;
将大类转化为对应主题id,返回值位,将原始样本数据的内容全部转化为对应的id表示,即词向量,返回x_file和y_file,分别存储事项要素数据id和数字化场景主题类别id;
将x_file,y_file中的值转化为矩阵表示,作为场景主题分类模型的直接输入。
作为优选,所述模型训练模块用于执行如下对场景主题分类模型进行模型训练:
基于设定的迭代批次,将训练集划分为多个训练子集,每个训练子集中包括多个样本数据;
基于当前批次的训练子集对场景主题分类模型进行模型训练,并通过验证集对当前训练后的场景主题分类模型进行模型评估,并进行下一轮模型训练和模型评估,直至所有轮次迭代完毕;
基于每个批次的模型评估结果,选取准确率和损失率最小的模型参数,得到训练后场景主题分类模型。
作为优选,所述模型训练模块用于执行如下对训练后场景主题分类模型进行模型评估:
以测试集为输入,通过训练后场景分类模型进行数字化场景主题类别预测,得到数字化场景主题类别预测结果;
基于测试集对应的数字化场景主题类别预测结果以及数字化场景主题类别真实结果,划分为真反例、真正例、假反例和假正例四种情形,并基于四种情形构建混淆矩阵;
基于混淆矩阵计算准确率、查全率和查准率,以准确率、查全率和查准
率作为指标评估训练后场景主题分类模型。
本发明的基于卷积神经网络的事项数字化场景分类方法及系统具有以下优点:
1、基于CNN算法构建场景主题分类模型,该模型支持以事项办事指南数据为输入,预测输出对应的数字化场景主题类别,基于CNN网络特性,实现了高效准确的的分类;
2、对于构建的场景主题分类模型,将采集的事项办事指南数据处理适配该模型的样本数据后,通过样本数据对该模型进行模型训练、验证和测试,在模型训练和验证过程中通过多次迭代的方式进行训练和验证,并通过混淆矩阵计算准确率、查全率和查准率作为指标的情况下进行模型评估,提高了训练后模型预测的准确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合附图对本发明进一步说明。
图1为实施例1一种基于卷积神经网络的事项数字化场景分类方法的流程框图;
图2为为实施例1一种基于卷积神经网络的事项数字化场景分类方法中混淆矩阵图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
本发明实施例提供基于卷积神经网络的事项数字化场景分类方法及系统,用于解决如何高效准确的对事项的数字化场景主题进行分类的技术问题。
实施例1:
本发明一种基于卷积神经网络的事项数字化场景分类方法,包括模型构建、样本数据处理、模型训练和分类预测四个步骤
S100模型构建,基于CNN网络模型构建场景主题分类模型,所述场景主题分类模型用于基于事项办事指南数据对数字化场景主题进行分类预测,输出数字化场景主题类别。
本实施例构建的场景主题分类模型包括依次连接的输入层、卷积计算层、池化层、激励层、全连接层和输出层。
输入层用于以词向量为输入,作为具体实施,设定词汇表大小为5000,类别数为4,词向量维度为64,序列长度为600。
卷积计算层用于基于filter对输入的词向量进行滑动滤波,且滑动的宽度与词向量的维度大小相同。本实施例保证filter滑动时宽度和词维度大小相同,滑过的是文本的最小粒度,卷积核大小设定为5,数目设定为256。
池化层用于基于最大池化策略、通过压缩文本大小的方式将词向量转换为标量,以提取特征。
激励层连接中配置有ReLU激活,用于对池化层输出的特征进行非线性映射。
全连接层用于对从激励层接受的特征进行整合,全连接层的输出端连接有dropout层,dropout层用于对全连接层激活一半神经元,激活的神经元传递至softmax层,softmax层的输出表征了不同数字化场景主题类别之间的相对概率。作为具体实施,将提取到的特征整合起来,在这个过程中容易产生过拟合,所以后面连接dropout层,激活一半神经元,激活部分传递给softmax层,softmax 的输出表征了不同类别之间的相对概率。设定全连接层神经元为128,dropout保留比例为0.5。
S200样本数据处理,获取多种类别数字化场景主题下的事项办事指南数据,对事项办事指南数据进行数据清洗,得到事项要素数据,并基于事项要素数据以及对应的数字化场景主题类别构建词向量,将词向量作为样本数据所用于对主题分类模型进行模型训练、模型测试以及模型验证。
本实施例步骤S200利用数据抽取工具获取事项办事指南数据,建立事项信息库,通过构造正则表达式等方法进行数据净化,获取事项要素数据。对获取的事项要素内容进行处理,转化为可供卷积神经网络训练的样本数据。
作为样本数据处理的具体实施,其包括如下步骤:
(1)采集事项办理指南数据,并存储至构建于本地的事项信息库中;
(2)将本地存储的事项办理指南数据的位置信息转换为一行,按照数字化场景主题类别存储在对应的txt文件中,每个数字化场景主题类别对应一个txt文件;
(3)基于数字化场景主题类别对事项信息库中数据进行分类,形成数据集,每个数字化场景主题类别对应一个数据集;
(4)对于每项事项,获得所述事项的全部事项办事指南数据;
(5)对于每项事项,基于构造的正则表达式对事项办事指南数据进行数据过滤,去除无用信息,得到事项要素数据;
(6)对于每项事项,以数字化场景主题类别-事项要素数据为一行存储在文本文档中作为原始样本数据;
(7)建立词汇表,所述词汇表的长度预定,且按照词频排序;
(8)将词汇表中的词汇用对应的id来表示;
(9)将id逆转化为词汇;
(10)将大类转化为对应主题id,返回值位,将原始样本数据的内容全部转化为对应的id表示,即词向量,返回x_file和y_file,分别存储事项要素数据id和数字化场景主题类别id;
(11)将x_file,y_file中的值转化为矩阵表示,作为场景主题分类模型的直接输入。
S300模型训练,基于样本数据构建样本集,并将样本集划分为训练集、验证集和测试集,基于训练集和验证集对场景主题分类模型进行模型训练,得到训练后场景主题分类模型,并通过测试集对训练后场景主题分类模型进行模型评估。
本实施例中基于训练集和验证集对场景主题分类模型进行模型训练,包括如下步骤:
(1)基于设定的迭代批次,将训练集划分为多个训练子集,每个训练子集中包括多个样本数据;
(2)基于当前批次的训练子集对场景主题分类模型进行模型训练,并通过验证集对当前训练后的场景主题分类模型进行模型评估,并进行下一轮模型训练和模型评估,直至所有轮次迭代完毕;
(3)基于每个批次的模型评估结果,选取准确率和损失率最小的模型参数,得到训练后场景主题分类模型。
基于上述模型训练和模型验证的方法,详细流程为:设定每批次训练样本大小为50,每隔10轮写入tensorboard,总迭代轮次最大值为10,每隔100轮打印一次结果,代码执行如下:
1)训练模型;
2)配置模型;
3)创建会话;
4)获得已经训练的时间;
5)评估在某一数据上的准确率和损失率;
6)每10轮写入训练结果;
7)存储最优结果;
8)对模型进行进一步优化。
本实施例通过测试集对训练后场景主题分类模型进行模型评估,包括如下:
(1)以测试集为输入,通过训练后场景分类模型进行数字化场景主题类别预测,得到数字化场景主题类别预测结果;
(2)基于测试集对应的数字化场景主题类别预测结果以及数字化场景主题类别真实结果,划分为真反例、真正例、假反例和假正例四种情形,并基于四种情形构建混淆矩阵;
(3)基于混淆矩阵计算准确率、查全率和查准率,以准确率、查全率和查准率作为指标评估训练后场景主题分类模型。
在机器学习中,可将测试集样本根据其真实性与模型预测类别的组合划分为真反例(truenegative)、真正例(truepositive)、假反例(falsenegative)、假正例(falsepositive)四种情形,分类结果的“混淆矩阵”(confusionmatrix)如图2所示。
对训练得到的卷积神经网络模型进行测试,通过对准确率、查全率、查准率等指标的计算,评估模型的优劣。
查准率(Precision),用P表示。它是关于模型预测结果的评价指标,代表的是预测结果为正例的样本中有多少是真实情况的正例,定义公式如下所示:
。
其中,TP表示真正例,FP表示假正例。
查全率(Recall),别名召回率,用R表示。它是关于是原来的测试集样本的,代表的是真是情况样本中的正例有多少的预测结果是正确,定义公式如下所示:
。
其中,TP表示真正例,FN表示假反例。
准确率(Accuracy),用A表示。准确度则是关于分类正确的样本数占总样本数的比值,准确率反应了分类器对整个样本的判定能力,定义公式如下所示:
。
其中,TP表示真正例,TN表示真反例,FN表示假反例,TN表示真反例。
查准率和召回率是一对互斥的量。通常来说,查准率低时,召回率总是偏高;而召回率低时,查准率总是偏高。
F1值是查准率和召回率的调和均值,定义公式如下所示:
。
S400分类预测,将待预测的事项办事指南数据输入训练后场景主题分类模型,通过训练后场景主题分类模型进行数字化场景主题分类预测,得到对应的数字化场景主题类别。
基于本实施例的方法,给出一个具体应用实例:获取一批数字化场景主题为安全评价机构资质认定、房地产开发企业二级资质许可、烟花爆竹经营许可、成品油零售经营、经营性人力资源服务机构、从事职业中介活动许可、劳务派遣经营许可的事项。
先通过训练获得一个优秀的分类模型:首先对以上主题的事项办事指南数据进行过滤,获取其要素数据,形成事项要素数据库,构建词汇表,生成词向量,经过处理得到训练集、验证集和测试集,搭建卷积神经网络模型,读取训练集,进行训练,通过验证集不断优化分类准确率,迭代多次得到相对最优模型,最后通过测试集来评估模型。
在得到一个优秀的分类模型后,用户在此输入端输入一个事项办事指南时,通过此模型预测,可以得到对应的数字化场景主题,例如,在输入端输入劳务派遣经营设立许可,预测的数字化场景主题结果为人力资源劳务派遣经营许可。
业务人员可在对应主题下添加相关数字化能力,当进行业务流程再造时,可通过此模型自动推荐匹配的数字化能力、对接系统等。
实施例2:
本发明一种基于卷积神经网络的事项数字化场景分类系统,包括模型构建模块、样本数据处理模块、模型训练模块以及分类预测模块,该系统可执行实施例1公开的方法对数字化场景主题进行分类预测,对数字化场景主题进行分类预测,输出数字化场景主题类别。
模型构建模块用于基于CNN网络模型构建场景主题分类模型,场景主题分类模型用于基于事项办事指南数据对数字化场景主题进行分类预测,输出数字化场景主题类别。
其中,场景主题分类模型包括依次连接的输入层、卷积计算层、池化层、激励层、全连接层和输出层。
输入层用于以词向量为输入,作为具体实施,设定词汇表大小为5000,类别数为4,词向量维度为64,序列长度为600。
卷积计算层用于基于filter对输入的词向量进行滑动滤波,且滑动的宽度与词向量的维度大小相同。本实施例保证filter滑动时宽度和词维度大小相同,滑过的是文本的最小粒度,卷积核大小设定为5,数目设定为256。
池化层用于基于最大池化策略、通过压缩文本大小的方式将词向量转换为标量,以提取特征。
激励层连接中配置有ReLU激活,用于对池化层输出的特征进行非线性映射。
全连接层用于对从激励层接受的特征进行整合,全连接层的输出端连接有dropout层,dropout层用于对全连接层激活一半神经元,激活的神经元传递至softmax层,softmax层的输出表征了不同数字化场景主题类别之间的相对概率。作为具体实施,将提取到的特征整合起来,在这个过程中容易产生过拟合,所以后面连接dropout层,激活一半神经元,激活部分传递给softmax层,softmax 的输出表征了不同类别之间的相对概率。设定全连接层神经元为128,dropout保留比例为0.5。
样本数据处理模块用于获取多种类别数字化场景主题下的事项办事指南数据,对事项办事指南数据进行数据清洗,得到事项要素数据,并基于事项要素数据以及对应的数字化场景主题类别构建词向量,将词向量作为样本数据所用于对主题分类模型进行模型训练、模型测试以及模型验证。
本实施例样本数据处理模块用于调用数据抽取工具获取事项办事指南数据,建立事项信息库,通过构造正则表达式等方法进行数据净化,获取事项要素数据。对获取的事项要素内容进行处理,转化为可供卷积神经网络训练的样本数据。
作为具体实施,该样本数据处理模块用于执行如下操作:
(1)采集事项办理指南数据,并存储至构建于本地的事项信息库中;
(2)将本地存储的事项办理指南数据的位置信息转换为一行,按照数字化场景主题类别存储在对应的txt文件中,每个数字化场景主题类别对应一个txt文件;
(3)基于数字化场景主题类别对事项信息库中数据进行分类,形成数据集,每个数字化场景主题类别对应一个数据集;
(4)对于每项事项,获得所述事项的全部事项办事指南数据;
(5)对于每项事项,基于构造的正则表达式对事项办事指南数据进行数据过滤,去除无用信息,得到事项要素数据;
(6)对于每项事项,以数字化场景主题类别-事项要素数据为一行存储在文本文档中作为原始样本数据;
(7)建立词汇表,所述词汇表的长度预定,且按照词频排序;
(8)将词汇表中的词汇用对应的id来表示;
(9)将id逆转化为词汇;
(10)将大类转化为对应主题id,返回值位,将原始样本数据的内容全部转化为对应的id表示,即词向量,返回x_file和y_file,分别存储事项要素数据id和数字化场景主题类别id;
(11)将x_file,y_file中的值转化为矩阵表示,作为场景主题分类模型的直接输入。
模型训练模块用于基于样本数据构建样本集,并将样本集划分为训练集、验证集和测试集,基于训练集和验证集对场景主题分类模型进行模型训练,得到训练后场景主题分类模型,并通过测试集对训练后场景主题分类模型进行模型评估。
本实施例中模型训练模块用于执行如下进行模型训练和模型验证:
(1)基于设定的迭代批次,将训练集划分为多个训练子集,每个训练子集中包括多个样本数据;
(2)基于当前批次的训练子集对场景主题分类模型进行模型训练,并通过验证集对当前训练后的场景主题分类模型进行模型评估,并进行下一轮模型训练和模型评估,直至所有轮次迭代完毕;
(3)基于每个批次的模型评估结果,选取准确率和损失率最小的模型参数,得到训练后场景主题分类模型。
基于上述模型训练和模型验证的方法,详细流程为:设定每批次训练样本大小为50,每隔10轮写入tensorboard,总迭代轮次最大值为10,每隔100轮打印一次结果,代码执行如下:
1)训练模型;
2)配置模型;
3)创建会话;
4)获得已经训练的时间;
5)评估在某一数据上的准确率和损失率;
6)每10轮写入训练结果;
7)存储最优结果;
8)对模型进行进一步优化。
本实施例模型训练模块用于执行如下进行模型测试:
(1)以测试集为输入,通过训练后场景分类模型进行数字化场景主题类别预测,得到数字化场景主题类别预测结果;
(2)基于测试集对应的数字化场景主题类别预测结果以及数字化场景主题类别真实结果,划分为真反例、真正例、假反例和假正例四种情形,并基于四种情形构建混淆矩阵;
(3)基于混淆矩阵计算准确率、查全率和查准率,以准确率、查全率和查准率作为指标评估训练后场景主题分类模型。
在机器学习中,可将测试集样本根据其真实性与模型预测类别的组合划分为真反例(truenegative)、真正例(truepositive)、假反例(falsenegative)、假正例(falsepositive)四种情形。
对训练得到的卷积神经网络模型进行测试,通过对准确率、查全率、查准率等指标的计算,评估模型的优劣。
查准率(Precision),用P表示。它是关于模型预测结果的评价指标,代表的是预测结果为正例的样本中有多少是真实情况的正例。定义公式如下所示:
。
其中,TP表示真正例,FP表示假正例。
查全率(Recall),别名召回率,用R表示。它是关于是原来的测试集样本的,代表的是真是情况样本中的正例有多少的预测结果是正确。定义公式如下所示:
。
其中,TP表示真正例,FN表示假反例。
准确率(Accuracy),用A表示。准确度则是关于分类正确的样本数占总样本数的比值,准确率反应了分类器对整个样本的判定能力,定义公式如下所示:
。
其中,TP表示真正例,TN表示真反例,FN表示假反例,TN表示真反例。
查准率和召回率是一对互斥的量。通常来说,查准率低时,召回率总是偏高;而召回率低时,查准率总是偏高。
F1值是查准率和召回率的调和均值,定义公式如下所示:
。
分类预测模块用于将待预测的事项办事指南数据输入训练后场景主题分类模型,通过训练后场景主题分类模型进行数字化场景主题分类预测,得到对应的数字化场景主题类别。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。
Claims (10)
1.一种基于卷积神经网络的事项数字化场景分类方法,其特征在于,包括如下步骤:
模型构建:基于CNN网络模型构建场景主题分类模型,所述场景主题分类模型用于基于事项办事指南数据对数字化场景主题进行分类预测,输出数字化场景主题类别;
样本数据处理:获取多种类别数字化场景主题下的事项办事指南数据,对事项办事指南数据进行数据清洗,得到事项要素数据,并基于事项要素数据以及对应的数字化场景主题类别构建词向量,将词向量作为样本数据所用于对主题分类模型进行模型训练、模型测试以及模型验证;
模型训练:基于样本数据构建样本集,并将样本集划分为训练集、验证集和测试集,基于训练集和验证集对场景主题分类模型进行模型训练,得到训练后场景主题分类模型,并通过测试集对训练后场景主题分类模型进行模型评估;
分类预测:将待预测的事项办事指南数据输入训练后场景主题分类模型,通过训练后场景主题分类模型进行数字化场景主题分类预测,得到对应的数字化场景主题类别。
2.根据权利要求1所述的基于卷积神经网络的事项数字化场景分类方法,其特征在于,所述场景主题分类模型包括依次连接的输入层、卷积计算层、池化层、激励层、全连接层和输出层;
所述输入层用于以词向量为输入;
所述卷积计算层用于基于filter对输入的词向量进行滑动滤波,且滑动的宽度与词向量的维度大小相同;
所述池化层用于基于最大池化策略、通过压缩文本大小的方式将词向量转换为标量,以提取特征;
所述激励层连接中配置有ReLU激活,用于对池化层输出的特征进行非线性映射;
所述全连接层用于对从激励层接受的特征进行整合,所述全连接层的输出端连接有dropout层,dropout层用于对全连接层激活一半神经元,激活的神经元传递至softmax层,softmax层的输出表征了不同数字化场景主题类别之间的相对概率。
3.根据权利要求1所述的基于卷积神经网络的事项数字化场景分类方法,其特征在于,样本数据处理包括如下步骤:
采集事项办理指南数据,并存储至构建于本地的事项信息库中;
将本地存储的事项办理指南数据的位置信息转换为一行,按照数字化场景主题类别存储在对应的txt文件中,每个数字化场景主题类别对应一个txt文件;
基于数字化场景主题类别对事项信息库中数据进行分类,形成数据集,每个数字化场景主题类别对应一个数据集;
对于每项事项,获得所述事项的全部事项办事指南数据;
对于每项事项,基于构造的正则表达式对事项办事指南数据进行数据过滤,去除无用信息,得到事项要素数据;
对于每项事项,以数字化场景主题类别-事项要素数据为一行存储在文本文档中作为原始样本数据;
建立词汇表,所述词汇表的长度预定,且按照词频排序;
将词汇表中的词汇用对应的id来表示;
将id逆转化为词汇;
将大类转化为对应主题id,返回值位,将原始样本数据的内容全部转化为对应的id表示,即词向量,返回x_file和y_file,分别存储事项要素数据id和数字化场景主题类别id;
将x_file,y_file中的值转化为矩阵表示,作为场景主题分类模型的直接输入。
4.根据权利要求1所述的基于卷积神经网络的事项数字化场景分类方法,其特征在于,基于训练集和验证集对场景主题分类模型进行模型训练,包括如下步骤:
基于设定的迭代批次,将训练集划分为多个训练子集,每个训练子集中包括多个样本数据;
基于当前批次的训练子集对场景主题分类模型进行模型训练,并通过验证集对当前训练后的场景主题分类模型进行模型评估,并进行下一轮模型训练和模型评估,直至所有轮次迭代完毕;
基于每个批次的模型评估结果,选取准确率和损失率最小的模型参数,得到训练后场景主题分类模型。
5.根据权利要求1所述的基于卷积神经网络的事项数字化场景分类方法,其特征在于,通过测试集对训练后场景主题分类模型进行模型评估,包括如下:
以测试集为输入,通过训练后场景分类模型进行数字化场景主题类别预测,得到数字化场景主题类别预测结果;
基于测试集对应的数字化场景主题类别预测结果以及数字化场景主题类别真实结果,划分为真反例、真正例、假反例和假正例四种情形,并基于四种情形构建混淆矩阵;
基于混淆矩阵计算准确率、查全率和查准率,以准确率、查全率和查准
率作为指标评估训练后场景主题分类模型。
6.一种基于卷积神经网络的事项数字化场景分类系统,其特征在于,用于通过如权利要求1-5任一项所述的基于卷积神经网络的事项数字化场景分类方法对事项进行场景分类,所述系统包括:
模型构建模块,所述模型构建模块用于基于CNN网络模型构建场景主题分类模型,所述场景主题分类模型用于基于事项办事指南数据对数字化场景主题进行分类预测,输出数字化场景主题类别;
样本数据处理模块,所述样本数据处理模块用于获取多种类别数字化场景主题下的事项办事指南数据,对事项办事指南数据进行数据清洗,得到事项要素数据,并基于事项要素数据以及对应的数字化场景主题类别构建词向量,将词向量作为样本数据所用于对主题分类模型进行模型训练、模型测试以及模型验证;
模型训练模块,所述模型训练模块用于基于样本数据构建样本集,并将样本集划分为训练集、验证集和测试集,基于训练集和验证集对场景主题分类模型进行模型训练,得到训练后场景主题分类模型,并通过测试集对训练后场景主题分类模型进行模型评估;
分类预测模块,所述分类预测模块用于将待预测的事项办事指南数据输入训练后场景主题分类模型,通过训练后场景主题分类模型进行数字化场景主题分类预测,得到对应的数字化场景主题类别。
7.根据权利要求6所述的基于卷积神经网络的事项数字化场景分类系统,其特征在于,所述场景主题分类模型包括依次连接的输入层、卷积计算层、池化层、激励层、全连接层和输出层;
所述输入层用于以词向量为输入;
所述卷积计算层用于基于filter对输入的词向量进行滑动滤波,且滑动的宽度与词向量的维度大小相同;
所述池化层用于基于最大池化策略、通过压缩文本大小的方式将词向量转换为标量,以提取特征;
所述激励层连接中配置有ReLU激活,用于对池化层输出的特征进行非线性映射;
所述全连接层用于对从激励层接受的特征进行整合,所述全连接层的输出端连接有dropout层,dropout层用于对全连接层激活一半神经元,激活的神经元传递至softmax层,softmax层的输出表征了不同数字化场景主题类别之间的相对概率。
8.根据权利要求6所述的基于卷积神经网络的事项数字化场景分类系统,其特征在于,样本数据处理模块用于执行如下:
采集事项办理指南数据,并存储至构建于本地的事项信息库中;
将本地存储的事项办理指南数据的位置信息转换为一行,按照数字化场景主题类别存储在对应的txt文件中,每个数字化场景主题类别对应一个txt文件;
基于数字化场景主题类别对事项信息库中数据进行分类,形成数据集,每个数字化场景主题类别对应一个数据集;
对于每项事项,获得所述事项的全部事项办事指南数据;
对于每项事项,基于构造的正则表达式对事项办事指南数据进行数据过滤,去除无用信息,得到事项要素数据;
对于每项事项,以数字化场景主题类别-事项要素数据为一行存储在文本文档中作为原始样本数据;
建立词汇表,所述词汇表的长度预定,且按照词频排序;
将词汇表中的词汇用对应的id来表示;
将id逆转化为词汇;
将大类转化为对应主题id,返回值位,将原始样本数据的内容全部转化为对应的id表示,即词向量,返回x_file和y_file,分别存储事项要素数据id和数字化场景主题类别id;
将x_file,y_file中的值转化为矩阵表示,作为场景主题分类模型的直接输入。
9.根据权利要求6所述的基于卷积神经网络的事项数字化场景分类系统,其特征在于,所述模型训练模块用于执行如下对场景主题分类模型进行模型训练:
基于设定的迭代批次,将训练集划分为多个训练子集,每个训练子集中包括多个样本数据;
基于当前批次的训练子集对场景主题分类模型进行模型训练,并通过验证集对当前训练后的场景主题分类模型进行模型评估,并进行下一轮模型训练和模型评估,直至所有轮次迭代完毕;
基于每个批次的模型评估结果,选取准确率和损失率最小的模型参数,得到训练后场景主题分类模型。
10.根据权利要求6所述的基于卷积神经网络的事项数字化场景分类系统,其特征在于,所述模型训练模块用于执行如下对训练后场景主题分类模型进行模型评估:
以测试集为输入,通过训练后场景分类模型进行数字化场景主题类别预测,得到数字化场景主题类别预测结果;
基于测试集对应的数字化场景主题类别预测结果以及数字化场景主题类别真实结果,划分为真反例、真正例、假反例和假正例四种情形,并基于四种情形构建混淆矩阵;
基于混淆矩阵计算准确率、查全率和查准率,以准确率、查全率和查准
率作为指标评估训练后场景主题分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310961202.1A CN116702046A (zh) | 2023-08-02 | 2023-08-02 | 基于卷积神经网络的事项数字化场景分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310961202.1A CN116702046A (zh) | 2023-08-02 | 2023-08-02 | 基于卷积神经网络的事项数字化场景分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116702046A true CN116702046A (zh) | 2023-09-05 |
Family
ID=87826027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310961202.1A Pending CN116702046A (zh) | 2023-08-02 | 2023-08-02 | 基于卷积神经网络的事项数字化场景分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116702046A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228788A (zh) * | 2017-12-29 | 2018-06-29 | 长威信息科技发展股份有限公司 | 办事指南自动提取并关联的方法及电子设备 |
CN110413769A (zh) * | 2018-04-25 | 2019-11-05 | 北京京东尚科信息技术有限公司 | 场景分类方法、装置、存储介质及其电子设备 |
-
2023
- 2023-08-02 CN CN202310961202.1A patent/CN116702046A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228788A (zh) * | 2017-12-29 | 2018-06-29 | 长威信息科技发展股份有限公司 | 办事指南自动提取并关联的方法及电子设备 |
CN110413769A (zh) * | 2018-04-25 | 2019-11-05 | 北京京东尚科信息技术有限公司 | 场景分类方法、装置、存储介质及其电子设备 |
Non-Patent Citations (1)
Title |
---|
李大湘等: "监控视频中的车型分类方法", 《西安邮电大学学报》, vol. 23, no. 4, pages 2 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442722B (zh) | 分类模型训练的方法及装置、数据分类的方法及装置 | |
JP2021504789A (ja) | Esg基盤の企業評価遂行装置及びその作動方法 | |
CN111428142B (zh) | 一种基于随机森林分类器的代码评审人推荐系统及方法 | |
CN107220902A (zh) | 在线社会网络的级联规模预测方法 | |
Fagan | Big Data Legal Scholarship: Toward a Research Program and Practitionaer's Guide | |
CN111861690A (zh) | 账务数据核对方法及账务数据核对装置 | |
CN116703328B (zh) | 一种项目评审方法及系统 | |
JP2018147351A (ja) | 知識モデル構築システム及び知識モデル構築方法 | |
AU2023226662A1 (en) | A Control System | |
Bhardwaj et al. | Health insurance amount prediction | |
CN112464670A (zh) | 识别方法、识别模型的训练方法、装置、设备、存储介质 | |
CN118245926A (zh) | 一种利用预测模型分析法律文书要素的处理方法和装置 | |
CN109359288B (zh) | 一种对于法务领域文书量化评估的方法 | |
CN112835910B (zh) | 一种企业信息与政策信息的处理方法和装置 | |
CN111666748B (zh) | 一种自动化分类器的构造方法以及识别决策的方法 | |
CN117472743A (zh) | 代码评审方法、装置、终端设备以及存储介质 | |
CN116702046A (zh) | 基于卷积神经网络的事项数字化场景分类方法及系统 | |
CN113824580A (zh) | 一种网络指标预警方法及系统 | |
CN111145053A (zh) | 基于人工智能的企业法律顾问管理系统及方法 | |
Schmidt et al. | Leveraging textual information for improving decision-making in the business process lifecycle | |
CN113656692B (zh) | 基于知识迁移算法的产品推荐方法、装置、设备及介质 | |
Burley et al. | Nlp workflows for computational social science: Understanding triggers of state-led mass killings | |
CN111428041A (zh) | 案件摘要生成方法、装置、系统和存储介质 | |
US20210279617A1 (en) | Control system | |
CN113792158A (zh) | 产业链识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230905 |