CN116702046A

CN116702046A - 基于卷积神经网络的事项数字化场景分类方法及系统

Info

Publication number: CN116702046A
Application number: CN202310961202.1A
Authority: CN
Inventors: 盛红胜; 陈兆亮; 宁方刚; 迟钰沛; 刘燕
Original assignee: Inspur Software Co Ltd
Current assignee: Inspur Software Co Ltd
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2023-09-05

Abstract

本发明公开了基于卷积神经网络的事项数字化场景分类方法及系统，属于大数据处理技术领域，要解决的技术问题为如何高效准确的对事项的数字化场景主题进行分类。包括如下步骤：模型构建：基于CNN网络模型构建场景主题分类模型；样本数据处理：对事项办事指南数据进行数据清洗，得到事项要素数据，并基于事项要素数据以及对应的数字化场景主题类别构建词向量；模型训练：基于样本数据构建样本集，并将样本集划分为训练集、验证集和测试集，基于训练集和验证集对场景主题分类模型进行模型训练，得到训练后场景主题分类模型，并通过测试集对训练后场景主题分类模型进行模型评估；分类预测：通过训练后场景主题分类模型进行数字化场景主题分类预测。

Description

基于卷积神经网络的事项数字化场景分类方法及系统

技术领域

本发明涉及大数据处理技术领域，具体地说是基于卷积神经网络的事项数字化场景分类方法及系统。

背景技术

根据事项所属行业领域描述，事项数字化场景主题类型较多，且不同主题类型涉及的业务存在较大差异。

城市建筑垃圾处置核准（处置计划）、城市建筑垃圾处置核准（经营性运输）、城市建筑垃圾处置核准（经营性运输许可企业法人名称变更）、城市建筑垃圾处置核准（经营性运输许可企业法人代表变更）、城市建筑垃圾处置核准（经营性运输许可建筑垃圾运输车辆增加、更新）、城市建筑垃圾处置核准（处置场设置）六个事项都属于工程建设建筑垃圾处置核准数字化场景，业务流程再造需要打通工程建设领域相关系统，涉及到业务申请、业务预审、业务受理、现场勘验、业务审查、业务决定等多个环节需要和对应行业主管部门对接。

民办非企业单位成立申请预审服务、民办非企业单位成立登记、民办非企业单位名称变更登记、民办非企业单位业务范围变更登记、民办非企业单位开办资金变更登记、民办非企业单位法定代表人变更登记、民办非企业单位业务主管单位变更登记、民办非企业单位住所变更登记、民办非企业单位章程核准、民办非企业单位印章备案、民办非企业单位银行账号备案、民办非企业单位登记证书到期换发、民办非企业单位登记证书遗失补发、民办非企业单位注销登记14个事项属于社会组织民办非企业单位审批数字化场景，业务流程再造需要打通社会组织审批相关系统，涉及到业务申请、跨部门协查、业务受理、业务审查、业务决定等多个环节需要和对应行业主管部门对接。

目前较为广泛使用的数字化场景主题有百余个，涉及到各行各业。

由不同类型的事项数字化场景可以看出，各类型的数字化场景，在其业务办理完整的生命周期内，涉及的业务、系统和行业主管部门不尽相同，且对事项进行人工数字化场景分类工作量较大。

为更好的实现事项数字化场景的流程再造，需要建立一种智能的主题分类模型，以支持不同事项数字化场景业务流程再造，提供智能分类服务，自动对同类事项进行场景分类，便于后续进行业务梳理、流程再造和系统对接，推进政务服务从可办向好办易办转变。

事项的数字化场景主题分类主要是人工预置分类。即在事项梳理时，人为的对事项数字化场景主题进行选择，数字化场景主题类型较多，人工分类耗时耗力，容易出错。

部分事项精细化梳理系统采用K-means、决策树、支持向量机等算法进行数字化场景主题分类，但比起卷积神经网络在文本主题分类识别的优势，存在一定差距，分类正确率较低。

如何高效准确的对事项的数字化场景主题进行分类，是需要解决的技术问题。

发明内容

本发明的技术任务是针对以上不足，提供基于卷积神经网络的事项数字化场景分类方法及系统，来解决如何高效准确的对事项的数字化场景主题进行分类的技术问题。

第一方面，本发明一种基于卷积神经网络的事项数字化场景分类方法，包括如下步骤：

模型构建：基于CNN网络模型构建场景主题分类模型，所述场景主题分类模型用于基于事项办事指南数据对数字化场景主题进行分类预测，输出数字化场景主题类别；

样本数据处理：获取多种类别数字化场景主题下的事项办事指南数据，对事项办事指南数据进行数据清洗，得到事项要素数据，并基于事项要素数据以及对应的数字化场景主题类别构建词向量，将词向量作为样本数据所用于对主题分类模型进行模型训练、模型测试以及模型验证；

模型训练：基于样本数据构建样本集，并将样本集划分为训练集、验证集和测试集，基于训练集和验证集对场景主题分类模型进行模型训练，得到训练后场景主题分类模型，并通过测试集对训练后场景主题分类模型进行模型评估；

分类预测：将待预测的事项办事指南数据输入训练后场景主题分类模型，通过训练后场景主题分类模型进行数字化场景主题分类预测，得到对应的数字化场景主题类别。

作为优选，所述场景主题分类模型包括依次连接的输入层、卷积计算层、池化层、激励层、全连接层和输出层；

所述输入层用于以词向量为输入；

所述卷积计算层用于基于filter对输入的词向量进行滑动滤波，且滑动的宽度与词向量的维度大小相同；

所述池化层用于基于最大池化策略、通过压缩文本大小的方式将词向量转换为标量，以提取特征；

所述激励层连接中配置有ReLU激活，用于对池化层输出的特征进行非线性映射；

所述全连接层用于对从激励层接受的特征进行整合，所述全连接层的输出端连接有dropout层，dropout层用于对全连接层激活一半神经元，激活的神经元传递至softmax层，softmax层的输出表征了不同数字化场景主题类别之间的相对概率。

作为优选，样本数据处理包括如下步骤：

采集事项办理指南数据，并存储至构建于本地的事项信息库中；

将本地存储的事项办理指南数据的位置信息转换为一行，按照数字化场景主题类别存储在对应的txt文件中，每个数字化场景主题类别对应一个txt文件；

基于数字化场景主题类别对事项信息库中数据进行分类，形成数据集，每个数字化场景主题类别对应一个数据集；

对于每项事项，获得所述事项的全部事项办事指南数据；

对于每项事项，基于构造的正则表达式对事项办事指南数据进行数据过滤，去除无用信息，得到事项要素数据；

对于每项事项，以数字化场景主题类别-事项要素数据为一行存储在文本文档中作为原始样本数据；

建立词汇表，所述词汇表的长度预定，且按照词频排序；

将词汇表中的词汇用对应的id来表示；

将id逆转化为词汇；

将大类转化为对应主题id,返回值位，将原始样本数据的内容全部转化为对应的id表示，即词向量，返回x_file和y_file,分别存储事项要素数据id和数字化场景主题类别id;

将x_file，y_file中的值转化为矩阵表示，作为场景主题分类模型的直接输入。

作为优选，基于训练集和验证集对场景主题分类模型进行模型训练，包括如下步骤：

基于设定的迭代批次，将训练集划分为多个训练子集，每个训练子集中包括多个样本数据；

基于当前批次的训练子集对场景主题分类模型进行模型训练，并通过验证集对当前训练后的场景主题分类模型进行模型评估，并进行下一轮模型训练和模型评估，直至所有轮次迭代完毕；

基于每个批次的模型评估结果，选取准确率和损失率最小的模型参数，得到训练后场景主题分类模型。

作为优选，通过测试集对训练后场景主题分类模型进行模型评估，包括如下：

以测试集为输入，通过训练后场景分类模型进行数字化场景主题类别预测，得到数字化场景主题类别预测结果；

基于测试集对应的数字化场景主题类别预测结果以及数字化场景主题类别真实结果，划分为真反例、真正例、假反例和假正例四种情形，并基于四种情形构建混淆矩阵；

基于混淆矩阵计算准确率、查全率和查准率，以准确率、查全率和查准

率作为指标评估训练后场景主题分类模型。

第二方面，本发明一种基于卷积神经网络的事项数字化场景分类系统，用于通过如第一方面任一项所述的基于卷积神经网络的事项数字化场景分类方法对事项进行场景分类，所述系统包括：

模型构建模块，所述模型构建模块用于基于CNN网络模型构建场景主题分类模型，所述场景主题分类模型用于基于事项办事指南数据对数字化场景主题进行分类预测，输出数字化场景主题类别；

样本数据处理模块，所述样本数据处理模块用于获取多种类别数字化场景主题下的事项办事指南数据，对事项办事指南数据进行数据清洗，得到事项要素数据，并基于事项要素数据以及对应的数字化场景主题类别构建词向量，将词向量作为样本数据所用于对主题分类模型进行模型训练、模型测试以及模型验证；

模型训练模块，所述模型训练模块用于基于样本数据构建样本集，并将样本集划分为训练集、验证集和测试集，基于训练集和验证集对场景主题分类模型进行模型训练，得到训练后场景主题分类模型，并通过测试集对训练后场景主题分类模型进行模型评估；

分类预测模块，所述分类预测模块用于将待预测的事项办事指南数据输入训练后场景主题分类模型，通过训练后场景主题分类模型进行数字化场景主题分类预测，得到对应的数字化场景主题类别。

所述输入层用于以词向量为输入；

作为优选，样本数据处理模块用于执行如下：

对于每项事项，获得所述事项的全部事项办事指南数据；

建立词汇表，所述词汇表的长度预定，且按照词频排序；

将词汇表中的词汇用对应的id来表示；

将id逆转化为词汇；

作为优选，所述模型训练模块用于执行如下对场景主题分类模型进行模型训练：

作为优选，所述模型训练模块用于执行如下对训练后场景主题分类模型进行模型评估：

率作为指标评估训练后场景主题分类模型。

本发明的基于卷积神经网络的事项数字化场景分类方法及系统具有以下优点：

1、基于CNN算法构建场景主题分类模型，该模型支持以事项办事指南数据为输入，预测输出对应的数字化场景主题类别，基于CNN网络特性，实现了高效准确的的分类；

2、对于构建的场景主题分类模型，将采集的事项办事指南数据处理适配该模型的样本数据后，通过样本数据对该模型进行模型训练、验证和测试，在模型训练和验证过程中通过多次迭代的方式进行训练和验证，并通过混淆矩阵计算准确率、查全率和查准率作为指标的情况下进行模型评估，提高了训练后模型预测的准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

下面结合附图对本发明进一步说明。

图1为实施例1一种基于卷积神经网络的事项数字化场景分类方法的流程框图；

图2为为实施例1一种基于卷积神经网络的事项数字化场景分类方法中混淆矩阵图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互结合。

本发明实施例提供基于卷积神经网络的事项数字化场景分类方法及系统，用于解决如何高效准确的对事项的数字化场景主题进行分类的技术问题。

实施例1：

本发明一种基于卷积神经网络的事项数字化场景分类方法，包括模型构建、样本数据处理、模型训练和分类预测四个步骤

S100模型构建，基于CNN网络模型构建场景主题分类模型，所述场景主题分类模型用于基于事项办事指南数据对数字化场景主题进行分类预测，输出数字化场景主题类别。

本实施例构建的场景主题分类模型包括依次连接的输入层、卷积计算层、池化层、激励层、全连接层和输出层。

输入层用于以词向量为输入，作为具体实施，设定词汇表大小为5000，类别数为4，词向量维度为64，序列长度为600。

卷积计算层用于基于filter对输入的词向量进行滑动滤波，且滑动的宽度与词向量的维度大小相同。本实施例保证filter滑动时宽度和词维度大小相同，滑过的是文本的最小粒度，卷积核大小设定为5，数目设定为256。

池化层用于基于最大池化策略、通过压缩文本大小的方式将词向量转换为标量，以提取特征。

激励层连接中配置有ReLU激活，用于对池化层输出的特征进行非线性映射。

全连接层用于对从激励层接受的特征进行整合，全连接层的输出端连接有dropout层，dropout层用于对全连接层激活一半神经元，激活的神经元传递至softmax层，softmax层的输出表征了不同数字化场景主题类别之间的相对概率。作为具体实施，将提取到的特征整合起来，在这个过程中容易产生过拟合，所以后面连接dropout层，激活一半神经元，激活部分传递给softmax层，softmax 的输出表征了不同类别之间的相对概率。设定全连接层神经元为128，dropout保留比例为0.5。

S200样本数据处理，获取多种类别数字化场景主题下的事项办事指南数据，对事项办事指南数据进行数据清洗，得到事项要素数据，并基于事项要素数据以及对应的数字化场景主题类别构建词向量，将词向量作为样本数据所用于对主题分类模型进行模型训练、模型测试以及模型验证。

本实施例步骤S200利用数据抽取工具获取事项办事指南数据，建立事项信息库，通过构造正则表达式等方法进行数据净化，获取事项要素数据。对获取的事项要素内容进行处理，转化为可供卷积神经网络训练的样本数据。

作为样本数据处理的具体实施，其包括如下步骤：

（1）采集事项办理指南数据，并存储至构建于本地的事项信息库中；

（2）将本地存储的事项办理指南数据的位置信息转换为一行，按照数字化场景主题类别存储在对应的txt文件中，每个数字化场景主题类别对应一个txt文件；

（3）基于数字化场景主题类别对事项信息库中数据进行分类，形成数据集，每个数字化场景主题类别对应一个数据集；

（4）对于每项事项，获得所述事项的全部事项办事指南数据；

（5）对于每项事项，基于构造的正则表达式对事项办事指南数据进行数据过滤，去除无用信息，得到事项要素数据；

（6）对于每项事项，以数字化场景主题类别-事项要素数据为一行存储在文本文档中作为原始样本数据；

（7）建立词汇表，所述词汇表的长度预定，且按照词频排序；

（8）将词汇表中的词汇用对应的id来表示；

（9）将id逆转化为词汇；

（10）将大类转化为对应主题id,返回值位，将原始样本数据的内容全部转化为对应的id表示，即词向量，返回x_file和y_file,分别存储事项要素数据id和数字化场景主题类别id;

（11）将x_file，y_file中的值转化为矩阵表示，作为场景主题分类模型的直接输入。

S300模型训练，基于样本数据构建样本集，并将样本集划分为训练集、验证集和测试集，基于训练集和验证集对场景主题分类模型进行模型训练，得到训练后场景主题分类模型，并通过测试集对训练后场景主题分类模型进行模型评估。

本实施例中基于训练集和验证集对场景主题分类模型进行模型训练，包括如下步骤：

（1）基于设定的迭代批次，将训练集划分为多个训练子集，每个训练子集中包括多个样本数据；

（2）基于当前批次的训练子集对场景主题分类模型进行模型训练，并通过验证集对当前训练后的场景主题分类模型进行模型评估，并进行下一轮模型训练和模型评估，直至所有轮次迭代完毕；

（3）基于每个批次的模型评估结果，选取准确率和损失率最小的模型参数，得到训练后场景主题分类模型。

基于上述模型训练和模型验证的方法，详细流程为：设定每批次训练样本大小为50，每隔10轮写入tensorboard，总迭代轮次最大值为10，每隔100轮打印一次结果，代码执行如下：

1）训练模型；

2）配置模型；

3）创建会话；

4）获得已经训练的时间；

5）评估在某一数据上的准确率和损失率；

6）每10轮写入训练结果；

7）存储最优结果；

8）对模型进行进一步优化。

本实施例通过测试集对训练后场景主题分类模型进行模型评估，包括如下：

（1）以测试集为输入，通过训练后场景分类模型进行数字化场景主题类别预测，得到数字化场景主题类别预测结果；

（2）基于测试集对应的数字化场景主题类别预测结果以及数字化场景主题类别真实结果，划分为真反例、真正例、假反例和假正例四种情形，并基于四种情形构建混淆矩阵；

（3）基于混淆矩阵计算准确率、查全率和查准率，以准确率、查全率和查准率作为指标评估训练后场景主题分类模型。

在机器学习中，可将测试集样本根据其真实性与模型预测类别的组合划分为真反例(truenegative)、真正例(truepositive)、假反例(falsenegative)、假正例(falsepositive)四种情形，分类结果的“混淆矩阵”(confusionmatrix)如图2所示。

对训练得到的卷积神经网络模型进行测试，通过对准确率、查全率、查准率等指标的计算，评估模型的优劣。

查准率(Precision)，用P表示。它是关于模型预测结果的评价指标，代表的是预测结果为正例的样本中有多少是真实情况的正例，定义公式如下所示：

。

其中，TP表示真正例，FP表示假正例。

查全率(Recall)，别名召回率，用R表示。它是关于是原来的测试集样本的，代表的是真是情况样本中的正例有多少的预测结果是正确，定义公式如下所示：

。

其中，TP表示真正例，FN表示假反例。

准确率(Accuracy)，用A表示。准确度则是关于分类正确的样本数占总样本数的比值，准确率反应了分类器对整个样本的判定能力，定义公式如下所示：

。

其中，TP表示真正例，TN表示真反例，FN表示假反例，TN表示真反例。

查准率和召回率是一对互斥的量。通常来说，查准率低时，召回率总是偏高；而召回率低时，查准率总是偏高。

F1值是查准率和召回率的调和均值，定义公式如下所示：

。

S400分类预测，将待预测的事项办事指南数据输入训练后场景主题分类模型，通过训练后场景主题分类模型进行数字化场景主题分类预测，得到对应的数字化场景主题类别。

基于本实施例的方法，给出一个具体应用实例：获取一批数字化场景主题为安全评价机构资质认定、房地产开发企业二级资质许可、烟花爆竹经营许可、成品油零售经营、经营性人力资源服务机构、从事职业中介活动许可、劳务派遣经营许可的事项。

先通过训练获得一个优秀的分类模型：首先对以上主题的事项办事指南数据进行过滤，获取其要素数据，形成事项要素数据库，构建词汇表，生成词向量，经过处理得到训练集、验证集和测试集，搭建卷积神经网络模型，读取训练集，进行训练，通过验证集不断优化分类准确率，迭代多次得到相对最优模型，最后通过测试集来评估模型。

在得到一个优秀的分类模型后，用户在此输入端输入一个事项办事指南时，通过此模型预测，可以得到对应的数字化场景主题，例如，在输入端输入劳务派遣经营设立许可，预测的数字化场景主题结果为人力资源劳务派遣经营许可。

业务人员可在对应主题下添加相关数字化能力，当进行业务流程再造时，可通过此模型自动推荐匹配的数字化能力、对接系统等。

实施例2：

本发明一种基于卷积神经网络的事项数字化场景分类系统，包括模型构建模块、样本数据处理模块、模型训练模块以及分类预测模块，该系统可执行实施例1公开的方法对数字化场景主题进行分类预测，对数字化场景主题进行分类预测，输出数字化场景主题类别。

模型构建模块用于基于CNN网络模型构建场景主题分类模型，场景主题分类模型用于基于事项办事指南数据对数字化场景主题进行分类预测，输出数字化场景主题类别。

其中，场景主题分类模型包括依次连接的输入层、卷积计算层、池化层、激励层、全连接层和输出层。

样本数据处理模块用于获取多种类别数字化场景主题下的事项办事指南数据，对事项办事指南数据进行数据清洗，得到事项要素数据，并基于事项要素数据以及对应的数字化场景主题类别构建词向量，将词向量作为样本数据所用于对主题分类模型进行模型训练、模型测试以及模型验证。

本实施例样本数据处理模块用于调用数据抽取工具获取事项办事指南数据，建立事项信息库，通过构造正则表达式等方法进行数据净化，获取事项要素数据。对获取的事项要素内容进行处理，转化为可供卷积神经网络训练的样本数据。

作为具体实施，该样本数据处理模块用于执行如下操作：

（8）将词汇表中的词汇用对应的id来表示；

（9）将id逆转化为词汇；

模型训练模块用于基于样本数据构建样本集，并将样本集划分为训练集、验证集和测试集，基于训练集和验证集对场景主题分类模型进行模型训练，得到训练后场景主题分类模型，并通过测试集对训练后场景主题分类模型进行模型评估。

本实施例中模型训练模块用于执行如下进行模型训练和模型验证：

1）训练模型；

2）配置模型；

3）创建会话；

4）获得已经训练的时间；

5）评估在某一数据上的准确率和损失率；

6）每10轮写入训练结果；

7）存储最优结果；

8）对模型进行进一步优化。

本实施例模型训练模块用于执行如下进行模型测试：

在机器学习中，可将测试集样本根据其真实性与模型预测类别的组合划分为真反例(truenegative)、真正例(truepositive)、假反例(falsenegative)、假正例(falsepositive)四种情形。

查准率(Precision)，用P表示。它是关于模型预测结果的评价指标，代表的是预测结果为正例的样本中有多少是真实情况的正例。定义公式如下所示：

。

其中，TP表示真正例，FP表示假正例。

查全率(Recall)，别名召回率，用R表示。它是关于是原来的测试集样本的，代表的是真是情况样本中的正例有多少的预测结果是正确。定义公式如下所示：

。

其中，TP表示真正例，FN表示假反例。

。

F1值是查准率和召回率的调和均值，定义公式如下所示：

。

分类预测模块用于将待预测的事项办事指南数据输入训练后场景主题分类模型，通过训练后场景主题分类模型进行数字化场景主题分类预测，得到对应的数字化场景主题类别。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.一种基于卷积神经网络的事项数字化场景分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于卷积神经网络的事项数字化场景分类方法，其特征在于，所述场景主题分类模型包括依次连接的输入层、卷积计算层、池化层、激励层、全连接层和输出层；

所述输入层用于以词向量为输入；

3.根据权利要求1所述的基于卷积神经网络的事项数字化场景分类方法，其特征在于，样本数据处理包括如下步骤：

对于每项事项，获得所述事项的全部事项办事指南数据；

建立词汇表，所述词汇表的长度预定，且按照词频排序；

将词汇表中的词汇用对应的id来表示；

将id逆转化为词汇；

4.根据权利要求1所述的基于卷积神经网络的事项数字化场景分类方法，其特征在于，基于训练集和验证集对场景主题分类模型进行模型训练，包括如下步骤：

5.根据权利要求1所述的基于卷积神经网络的事项数字化场景分类方法，其特征在于，通过测试集对训练后场景主题分类模型进行模型评估，包括如下：

率作为指标评估训练后场景主题分类模型。

6.一种基于卷积神经网络的事项数字化场景分类系统，其特征在于，用于通过如权利要求1-5任一项所述的基于卷积神经网络的事项数字化场景分类方法对事项进行场景分类，所述系统包括：

7.根据权利要求6所述的基于卷积神经网络的事项数字化场景分类系统，其特征在于，所述场景主题分类模型包括依次连接的输入层、卷积计算层、池化层、激励层、全连接层和输出层；

所述输入层用于以词向量为输入；

8.根据权利要求6所述的基于卷积神经网络的事项数字化场景分类系统，其特征在于，样本数据处理模块用于执行如下：

对于每项事项，获得所述事项的全部事项办事指南数据；

建立词汇表，所述词汇表的长度预定，且按照词频排序；

将词汇表中的词汇用对应的id来表示；

将id逆转化为词汇；

9.根据权利要求6所述的基于卷积神经网络的事项数字化场景分类系统，其特征在于，所述模型训练模块用于执行如下对场景主题分类模型进行模型训练：

10.根据权利要求6所述的基于卷积神经网络的事项数字化场景分类系统，其特征在于，所述模型训练模块用于执行如下对训练后场景主题分类模型进行模型评估：

率作为指标评估训练后场景主题分类模型。