CN111552808A

CN111552808A - 一种基于卷积神经网络的行政违法案由预测方法及工具

Info

Publication number: CN111552808A
Application number: CN202010311136.XA
Authority: CN
Inventors: 李伟平; 王嘉熙; 杨晓; 张世琨
Original assignee: Beijing Peking University Software Engineering Co ltd
Current assignee: Beijing Peking University Software Engineering Co ltd
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2020-08-18

Abstract

本发明涉及一种基于卷积神经网络的行政违法案由预测方法及工具，包括：获取第一预设数量的违法事实，并将所述违法事实转换为违法事实词向量，构建由违法事实词向量组成的训练数据集；利用卷积神经网络和全连接神经网络构建预测模型，并利用训练数据集中的违法事实词向量对所述预测模型进行训练，得到违法案由识别模型；其中，所述违法案由识别模型的输入为待识别的违法事实词向量，输出为违法案由预测结果。本发明提供的技术方案，在把文本信息交给深度神经网络模型进行处理之前，需要对文本信息进行处理，将文本信息转换为连续稠密的词向量，以便深度学习模型处理，相比现有技术，这种做法不需要选用特定的方法进行特征工程，特征表达能力更强。

Description

一种基于卷积神经网络的行政违法案由预测方法及工具

技术领域

本发明涉及文本分类技术领域，具体涉及一种基于卷积神经网络的行政违法案由预测方法及工具。

背景技术

案由指的是政府执法部门对特定违法行为进行处罚的职权。基于违法事实，识别与该违法事实相对应的案由，可以提高执法人员在执法过程中的工作效率，并且能够防止由于执法人员因为业务不熟练导致对案由的错误判定；对于执法监督人员来说，案由识别同样有意义。借助案由识别模型，可以在大量的历史执法记录中快速抽取案由判定与模型判定不一致的记录，进行重点审核，查看是否有执法错误。

基于文本类型的违法事实，判断相应的案由，属于一个文本分类的问题。传统的做法是先对文本进行特征工程的处理，提取出文本中的特征，然后对特征进行数值化，从而完成了对文本的数值化表示的转换，以便机器学习模型的处理。这里的机器模型可以选择KNN、决策树、SVM等。这种做法需要选用特定的方法进行特征工程，且特征表达能力有限。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种基于卷积神经网络的行政违法案由预测方法及工具，借助深度神经网络强大的自动特征提取能力，实现对违法事实的案由预测。

为实现以上目的，本发明采用如下技术方案：

一种基于卷积神经网络的行政违法案由预测方法，包括：

获取第一预设数量的违法事实，并将所述违法事实转换为违法事实词向量，构建由违法事实词向量组成的训练数据集；

利用卷积神经网络和全连接神经网络构建预测模型，并利用训练数据集中的违法事实词向量对所述预测模型进行训练，得到违法案由识别模型；

其中，所述违法案由识别模型的输入为待识别的违法事实词向量，输出为违法案由预测结果。

优选地，所述构建由违法事实词向量组成的训练数据集，包括：

对违法事实进行分词、去停用词处理，将各违法事实句子转换为词汇序列，每个词汇序列包括多个词汇；

以第二预设数量的行政法律法规作为训练样本，训练行政法规词向量，形成词向量字典；

基于所述词向量字典，将所述词汇转换为词向量，形成由违法事实词向量组成的训练数据集。

优选地，所述方法，还包括：

计算所有词汇的词频；

按词频由大到小，对每个词汇序列中的词汇进行排序；

所述将所述词汇转换为词向量，具体为：

将词频排名为前N名的词汇转换为所述词向量字典中对应的词向量。

优选地，所述方法，还包括：

根据各词汇序列的长度，确定一个长度阈值L；

根据所述长度阈值L，将各词汇序列处理为固定长度。

优选地，所述将各词汇序列处理为固定长度，包括：

对任一违法事实的词汇序列，若长度大于所述长度阈值L，则截取所述违法事实的前L个词汇；

对任一违法事实的词汇序列，若长度等于所述长度阈值L，则不做处理；

对任一违法事实的词汇序列，若长度小于所述长度阈值L，则用特定值进行补充。

优选地，所述方法，还包括：

词频排名为前N名之后的词汇不转换为词向量，使用固定值M组成的向量来表示；和/或，

使用特定值进行补充的词汇不转换为词向量，使用固定值M组成的向量来表示。

优选地，所述利用训练数据集中的违法事实词向量对所述预测模型进行训练，包括：

以违法事实词向量作为卷积神经网络的输入，创建卷积神经网络的输入层；

确定卷积核的长度、高度、以及卷积核的个数，构建卷积神经网络的卷积层；

构建卷积神经网络的池化层，对多个卷积核的计算结果，进行池化处理；

将池化后的结果进行归一化处理；

将归一化处理后的结果作为全连接层的输入，利用softmax函数得到违法案由的预测结果。

优选地，所述对违法事实进行分词、去停用词处理，包括：

筛选掉数字、单字、标点符号。

优选地，所述方法，还包括：

对获取到的违法事实，剔除掉字数少于预设字数的违法事实；和/或，

预测模型训练结束后，观察预测结果的精确率和F1值，达到预设性能后，将模型存储为违法案由识别模型。

另外，本发明还提出了一种基于卷积神经网络的行政违法案由预测工具，包括：

构建模块，用于获取第一预设数量的违法事实，并将所述违法事实转换为违法事实词向量，构建由违法事实词向量组成的训练数据集；

训练模块，用于利用卷积神经网络和全连接神经网络构建预测模型，并利用训练数据集中的违法事实词向量对所述预测模型进行训练，得到违法案由识别模型；

本发明采用以上技术方案，至少具备以下有益效果：

通过获取第一预设数量的违法事实，并将所述违法事实转换为违法事实词向量，构建由违法事实词向量组成的训练数据集，利用卷积神经网络和全连接神经网络构建预测模型，并利用训练数据集中的违法事实词向量对所述预测模型进行训练，得到违法案由识别模型，将待识别的违法事实词向量输入到违法案由识别模型，就能输出为违法案由预测结果。本发明提供的技术方案，在把文本信息交给深度神经网络模型进行处理之前，需要对文本信息进行处理，将文本信息转换为连续稠密的词向量，以便深度学习模型处理，相比现有技术，这种做法不需要选用特定的方法进行特征工程，特征表达能力更强。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种基于卷积神经网络的行政违法案由预测方法的流程图；

图2为本发明一实施例提供的预测模型的结构示意图；

图3为本发明一实施例提供的一种基于卷积神经网络的行政违法案由预测工具的示意框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

参见图1，本发明一实施例提供的一种基于卷积神经网络的行政违法案由预测方法，包括：

步骤S11、获取第一预设数量的违法事实，并将所述违法事实转换为违法事实词向量，构建由违法事实词向量组成的训练数据集；

步骤S12、利用卷积神经网络和全连接神经网络构建预测模型，并利用训练数据集中的违法事实词向量对所述预测模型进行训练，得到违法案由识别模型；

需要说明的是，所述第一预设数量根据历史经验值，或者，用户需要进行设置，例如设置为20000条。

可以理解的是，本实施例提供的技术方案，通过获取第一预设数量的违法事实，并将所述违法事实转换为违法事实词向量，构建由违法事实词向量组成的训练数据集，利用卷积神经网络和全连接神经网络构建预测模型，并利用训练数据集中的违法事实词向量对所述预测模型进行训练，得到违法案由识别模型，将待识别的违法事实词向量输入到违法案由识别模型，就能输出为违法案由预测结果。本实施例提供的技术方案，在把文本信息交给深度神经网络模型进行处理之前，需要对文本信息进行处理，将文本信息转换为连续稠密的词向量，以便深度学习模型处理，相比现有技术，这种做法不需要选用特定的方法进行特征工程，特征表达能力更强。

需要说明的是，所述第二预设数量根据历史经验值，或者，用户需要进行设置，例如设置为10000部。

可以理解的是，收集10000部行政法律法规，使用Glove模型进行词向量的训练，就可以得到一个词向量词典。

优选地，所述方法，还包括：

计算所有词汇的词频；

按词频由大到小，对每个词汇序列中的词汇进行排序；

所述将所述词汇转换为词向量，具体为：

优选地，所述方法，还包括：

根据各词汇序列的长度，确定一个长度阈值L；

根据所述长度阈值L，将各词汇序列处理为固定长度。

优选地，所述将各词汇序列处理为固定长度，包括：

优选地，所述方法，还包括：

需要说明的是，所述L为大于或等于1的正整数，所述N为大于或等于1的正整数，所述N根据历史经验值，或者，实验数据进行设置，例如设置为5000。

可以理解的是，将长度为L的违法事实词汇，转化为词向量表示。对于词频排名前5000的词汇，利用词向量词典将其转换为词向量，对于排名5000名之后的词汇，以及用特定值来补充句子长度的词汇，按照0向量来处理。

将池化后的结果进行归一化处理；

需要说明的是，在具体实践中，参见图2，可以构建卷积神经网络模型，分别由输入层(词嵌入层)、卷积层、池化层、批量标准化层、全连接层组成。

将转换成为词向量的训练数据，传递给模型的输入层；

进行模型训练，损失函数使用交叉熵损失函数，优化器选择adam，训练轮数设定30轮。

优选地，所述对行政违法事实进行分词、去停用词处理，包括：

筛选掉数字、单字、标点符号。

优选地，所述方法，还包括：

需要说明的是，所述预设字数根据历史经验值，或者，用户需要进行设置，例如设置为200字。

可以理解的是，对获取到的行政违法事实，首先要进行数据清洗，因为是对案由进行识别，所以要保证每种类别的案由都有足够的样本。对于样本不足的案由类别，要从训练集中筛选掉。

因为案由的识别是基于违法事实的，所以违法事实的描述要能够提供足够多的信息，因此对于违法事实字数少于200字的记录，要筛选掉。

另外，参见图3，本发明还提出了一种基于卷积神经网络的行政违法案由预测工具100，包括：

构建模块101，用于获取第一预设数量的违法事实，并将所述违法事实转换为违法事实词向量，构建由违法事实词向量组成的训练数据集；

训练模块102，用于利用卷积神经网络和全连接神经网络构建预测模型，并利用训练数据集中的违法事实词向量对所述预测模型进行训练，得到违法案由识别模型；

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上，除非另有明确的限定。

Claims

1.一种基于卷积神经网络的行政违法案由预测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述构建由违法事实词向量组成的训练数据集，包括：

3.根据权利要求2所述的方法，其特征在于，还包括：

计算所有词汇的词频；

按词频由大到小，对每个词汇序列中的词汇进行排序；

所述将所述词汇转换为词向量，具体为：

4.根据权利要求3所述的方法，其特征在于，还包括：

根据各词汇序列的长度，确定一个长度阈值L；

根据所述长度阈值L，将各词汇序列处理为固定长度。

5.根据权利要求4所述的方法，其特征在于，所述将各词汇序列处理为固定长度，包括：

6.根据权利要求5所述的方法，其特征在于，还包括：

7.根据权利要求1所述的方法，其特征在于，所述利用训练数据集中的违法事实词向量对所述预测模型进行训练，包括：

将池化后的结果进行归一化处理；

8.根据权利要求2所述的方法，其特征在于，所述对违法事实进行分词、去停用词处理，包括：

筛选掉数字、单字、标点符号。

9.根据权利要求1所述的方法，其特征在于，还包括：

10.一种基于卷积神经网络的行政违法案由预测工具，其特征在于，包括：