CN115034183A

CN115034183A - 一种辅助行政处罚决定的方法及计算机可读存储介质

Info

Publication number: CN115034183A
Application number: CN202210551765.9A
Authority: CN
Inventors: 张龙; 王文俊; 焦鹏飞; 陈雪; 潘林
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-09-09
Anticipated expiration: 2042-05-18
Also published as: CN115034183B

Abstract

本发明提供了一种辅助行政处罚决定的方法及计算机可读存储介质，属于数据挖掘的技术领域，解决了现有技术在案由认定与处罚决定中存在决策困难、精准度低的问题。一种辅助行政处罚决定的方法，包括：接收行政执法文书数据；对行政执法文书数据进行数据清洗，得到包含违法行为类型、违法事实和处罚类别的基本字段数据；对基本字段数据进行分词处理及停止词消除，得到有效字段数据；对有效字段数据中的处罚类别进行标签化处理，生成每个案件的标签；将有效字段数据中的违法行为类型和违法事实进行拼接，得到包含违法行为类型和违法事实的词组数据；将词组数据输入到word2vec模型，生成词组数据对应的词向量。

Description

一种辅助行政处罚决定的方法及计算机可读存储介质

技术领域

本发明涉及数据挖掘技术领域，尤其是涉及一种辅助行政处罚决定的方法及计算机可读存储介质。

背景技术

图表示学习已经被广泛应用与现实世界的网络中，如社交网络推荐、蛋白质结构预测、电商推荐等。

目前主要借助自然语言处理的方式进行行政法律文书的案由认定与处罚决定，行政执法文书中信息要素的表征方式多、案由认定和处罚决定难以决策，并且既往类似案例推荐方法存在准确度低和缺乏可解释等问题。

因此，现有技术在案由认定与处罚决定中存在决策困难、精准度低的问题。

发明内容

本发明的目的在于提供一种辅助行政处罚决定的方法及计算机可读存储介质，以缓解现有技术在案由认定与处罚决定中存在决策困难、精准度低的问题技术问题。

第一方面，本发明提供一种辅助行政处罚决定的方法，包括：

接收行政执法文书数据；

对行政执法文书数据进行数据清洗，得到包含违法行为类型、违法事实和处罚类别的基本字段数据；

对基本字段数据进行分词处理及停止词消除，得到有效字段数据；

对有效字段数据中的处罚类别进行标签化处理，生成每个案件的标签；

将有效字段数据中的违法行为类型和违法事实进行拼接，得到包含违法行为类型和违法事实的词组数据；

将词组数据输入到word2vec模型，生成词组数据对应的词向量；

基于词组数据和词向量构建网络，得到邻接矩阵和属性矩阵；

基于邻接矩阵和属性矩阵，通过GCN模型和readout层进行学习，得到辅助行政处罚决定模型；

基于每个案件的标签，计算辅助行政处罚决定模型的准确率。

进一步的，所述基于词组数据和词向量构建网络，得到邻接矩阵和属性矩阵的步骤，包括：

根据词组数据，生成网络节点；

根据词组数据对应的词向量，生成网络节点的属性向量，得到属性矩阵；

根据词向量之间的关联度，生成网络节点连边结果，得到邻接矩阵；

基于网络节点、网络节点的属性向量和网络节点连边结果，构建网络。

进一步的，所述根据词向量之间的关联度，生成网络节点连边结果，得到邻接矩阵的步骤，包括：

利用关联度算式计算词向量之间的关联度，得到词向量之间的关联度数值；

根据词向量之间的关联度数值，生成网络节点连边结果；

根据网络节点连边结果，得到邻接矩阵。

进一步的，所述关联度算式为：

其中，#W(i)为所有词组数据中含有词组i的窗口的数量，#W(j)为所有词组数据中含有词组j的窗口的数量，#W(i,j)为所有词组数据中同时含有词组i和词组j的窗口的数量，#W为所有窗口的总数量。

进一步的，所述根据词向量之间的关联度数值，生成网络节点连边结果的步骤，包括：

判断词向量之间的关联度数值是否大于0；

若是，则生成网络节点之间有连边的结果；

若否，则生成网络节点之间无连边的结果。

进一步的，所述对基本字段数据进行分词处理及停止词消除，得到有效字段数据的步骤包括：

利用jieba分词对基本字段数据进行分词处理，得到分词后数据；

利用哈工大停用词表对分词后数据进行停用词删除，得到有效字段数据。

进一步的，，所述标签为label向量标签。

进一步的，所述GCN模型数量为2；所述readout层数量为1。

进一步的，所述基于邻接矩阵和属性矩阵，通过GCN模型和readout层进行学习，得到辅助行政处罚决定模型的步骤，包括：

将邻接矩阵和属性矩阵输入到GCN模型中，得到节点的嵌入表示；

根据节点的嵌入表示，利用readout层计算节点的嵌入表示平均值；

根据节点的嵌入表示和节点的嵌入表示平均值，得到辅助行政处罚决定模型。

第二方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行第一方面提供的方法。

本发明提供一种辅助行政处罚决定的方法，包括：接收行政执法文书数据；对行政执法文书数据进行数据清洗，得到包含违法行为类型、违法事实和处罚类别的基本字段数据；对基本字段数据进行分词处理及停止词消除，得到有效字段数据；对有效字段数据中的处罚类别进行标签化处理，生成每个案件的标签；将有效字段数据中的违法行为类型和违法事实进行拼接，得到包含违法行为类型和违法事实的词组数据；将词组数据输入到word2vec模型，生成词组数据对应的词向量；基于词组数据和词向量构建网络，得到邻接矩阵和属性矩阵；基于邻接矩阵和属性矩阵，通过GCN模型和readout层进行学习，得到辅助行政处罚决定模型；基于每个案件的标签，计算辅助行政处罚决定模型的准确率。

采用本发明提供的辅助行政处罚决定的方法，利用行政执法文书数据，首先对其进行数据清洗、分词处理及停止词消除等步骤，得到包括违法行为类型、违法事实和处罚类别的有效字段数据，根据处罚类别生成每个案件的标签，将有效字段数据中的违法行为类型和违法事实进行拼接，得到词组数据，利用word2vec模型生成词组数据对应的词向量，基于词组数据和词向量构建网络并得到邻接矩阵和属性矩阵，利用GCN模型和readout层对邻接矩阵和属性矩阵进行学习，得到辅助行政处罚决定模型，根据每个案件的标签可计算辅助行政处罚决定模型的准确率，根据可验证模型的实用性，可根据准确率调整训练方法，使得辅助行政处罚决定模型的实用性更强。通过将每个行政执法文书实例构建为一个网络，网络的节点为行政执法文书中的词组，将词组的词向量作为对应节点的属性向量。通过GCN模型即图卷积神经网络进行行政执法文书的嵌入生成，最后完成基于图挖掘的辅助行政处罚决定模型。通过大量行政执法文书作为本方法的数据集，可以使得本方法的模型更具有鲁棒性，能够根据违法行为类型进行行政判罚，具有更高的准群率与合理性。应用范围广泛，扩展性强，能够适用于不同场景，并对相关行政处罚的判决提供依据，从而解决了现有技术中信息要素的表征方式多、案由认定与处罚决定的决策困难、精准度低的问题。

相应地，本发明提供的计算机可读存储介质也同样具有上述技术效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的辅助行政处罚决定的方法流程图；

图2为本发明实施例中辅助行政处罚决定模型的准确率判断结果。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中所提到的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括其他没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

为解决以上问题，本发明实施例提供一种辅助行政处罚决定的方法。

如图1所示，本发明实施例提供一种辅助行政处罚决定的方法，包括：

S1：接收行政执法文书数据。

S2：对行政执法文书数据进行数据清洗，得到包含违法行为类型、违法事实和处罚类别的基本字段数据。

保留每条行政执法文书的违法行为类型、违法事实、处罚类别作为其基本字段。

S3：对基本字段数据进行分词处理及停止词消除，得到有效字段数据。

对包含违法行为类型、违法事实、处罚类别的基本字段数据利用jieba分词对数据进行分词，使用停用词表对主句中的停用词进行删除，最大化保留有效词汇。

S4：对有效字段数据中的处罚类别进行标签化处理，生成每个案件的标签。

在“处罚类别”字段中，每个类别由分号进行分割。首先统计全部行政执法文书的处罚类别并进行数字标注；然后对每个行政执法文书的处罚类别生成one-hot向量，将该行政文书涉及到的处罚类别对应的位置设置为1，例如(0；0；0；1；0；0)表示六种处罚类别中的第四种。

S5：将有效字段数据中的违法行为类型和违法事实进行拼接，得到包含违法行为类型和违法事实的词组数据。

得到的包含违法行为类型和违法事实的词组数据用于构建网络节点。

S6：将词组数据输入到word2vec模型，生成词组数据对应的词向量。

生成词组数据对应的词向量，将词向量作为网络节点的属性向量。

S7：基于词组数据和词向量构建网络，得到邻接矩阵和属性矩阵。

邻接矩阵和属性矩阵作为GCN模型的训练样本。

S8：基于邻接矩阵和属性矩阵，通过GCN模型和readout层进行学习，得到辅助行政处罚决定模型。

S9：基于每个案件的标签，计算辅助行政处罚决定模型的准确率。

准确率用来预测正确的占总的比重，其公式如下：

其中，TP为被模型预测为正类的正样本；TN为被模型预测为负类的负样本；FP为被模型预测为正类的负样本；FN为被模型预测为负类的正样本。辅助行政处罚决定模型的准确率判断结果如图2所示，图中横轴为训练率，纵轴为准确率。

采用本发明实施例提供的辅助行政处罚决定的方法，利用行政执法文书数据，首先对其进行数据清洗、分词处理及停止词消除等步骤，得到包括违法行为类型、违法事实和处罚类别的有效字段数据，根据处罚类别生成每个案件的标签，将有效字段数据中的违法行为类型和违法事实进行拼接，得到词组数据，利用word2vec模型生成词组数据对应的词向量，基于词组数据和词向量构建网络并得到邻接矩阵和属性矩阵，利用GCN模型和readout层对邻接矩阵和属性矩阵进行学习，得到辅助行政处罚决定模型，根据每个案件的标签可计算辅助行政处罚决定模型的准确率，根据可验证模型的实用性，可根据准确率调整训练方法，使得辅助行政处罚决定模型的实用性更强。通过将每个行政执法文书实例构建为一个网络，网络的节点为行政执法文书中的词组，将词组的词向量作为对应节点的属性向量。通过GCN模型即图卷积神经网络进行行政执法文书的嵌入生成，最后完成基于图挖掘的辅助行政处罚决定模型。通过大量行政执法文书作为本方法的数据集，可以使得本方法的模型更具有鲁棒性，能够根据违法行为类型进行行政判罚，具有更高的准群率与合理性。应用范围广泛，扩展性强，能够适用于不同场景，并对相关行政处罚的判决提供依据，从而解决了现有技术中信息要素的表征方式多、案由认定与处罚决定的决策困难、精准度低的问题。

在一种可能的实施方式中，步骤S7具体包括：

S71：根据词组数据，生成网络节点。

S72：根据词组数据对应的词向量，生成网络节点的属性向量，得到属性矩阵。

S73：根据词向量之间的关联度，生成网络节点连边结果，得到邻接矩阵。

S74：基于网络节点、网络节点的属性向量和网络节点连边结果，构建网络。

将词向量作为节点的属性向量，得到属性矩阵；根据词向量的关联度矩阵构建带权值的邻接矩阵，并得到网络节点连边结果。

在一种可能的实施方式中，步骤S72具体包括：

S721：利用关联度算式计算词向量之间的关联度，得到词向量之间的关联度数值；

S722：根据词向量之间的关联度数值，生成网络节点连边结果；

S723：根据网络节点连边结果，得到邻接矩阵。

在一种可能的实施方式中，关联度算式为：

通过计算词向量之间的关联度值，从而得到两个节点之间是否有连边的结果。

在一种可能的实施方式中，步骤S73具体包括：

S731：判断词向量之间的关联度数值是否大于0；

若是，则执行步骤S731；若否，则执行步骤S732；

S731：生成网络节点之间有连边的结果；

S732：生成网络节点之间无连边的结果。

计算每个案例中词向量之间的关联度，PMI(关联度)值大于0，则两个节点之间有连边，否则就没有连边。

在一种可能的实施方式中，步骤S3具体包括：

S31：利用jieba分词对基本字段数据进行分词处理，得到分词后数据；

S32：利用哈工大停用词表对分词后数据进行停用词删除，得到有效字段数据。

首先利用python的jieba分词对每个行政执法文书进行分词，并使用哈工大停用词表hit_stopwords对停用词进行删除，最大化保留有效词汇，获得包含违法行为类型和违法事实的效字段数据。

在一种可能的实施方式中，标签为label向量标签。

在一种可能的实施方式中，GCN模型数量为2；readout层数量为1。

构建两层GCN模型和一层readout层来学习图向量，然后通过一层MLP进行分类，两层图神经网络的形式如下：

Z＝f(X,A)＝softmax(A^ReLU(A^XW^((0)))W^((1)))

其中

X为属性向量矩阵。

例如：

为顶点的度矩阵

在一种可能的实施方式中，步骤S8具体包括：

S81：将邻接矩阵和属性矩阵输入到GCN模型中，得到节点的嵌入表示；

S82：根据节点的嵌入表示，利用readout层计算节点的嵌入表示平均值；

S83：根据节点的嵌入表示和节点的嵌入表示平均值，得到辅助行政处罚决定模型。

将得到的邻接矩阵与属性矩阵输入到两层图卷积神经网络GCN中得到节点的嵌入表示，通过readout函数计算图中所有节点表示的平均值，得到辅助行政处罚决定模型。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有机器可运行指令，计算机可运行指令在被处理器调用和运行时，计算机可运行指令促使处理器运行上述实施例提供的方法。

本发明实施例所提供的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

又例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，再例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种辅助行政处罚决定的方法，其特征在于，包括：

接收行政执法文书数据；

2.根据权利要求1所述的辅助行政处罚决定的方法，其特征在于，所述基于词组数据和词向量构建网络，得到邻接矩阵和属性矩阵的步骤，包括：

根据词组数据，生成网络节点；

3.根据权利要求2所述的辅助行政处罚决定的方法，其特征在于，所述根据词向量之间的关联度，生成网络节点连边结果，得到邻接矩阵的步骤，包括：

根据词向量之间的关联度数值，生成网络节点连边结果；

根据网络节点连边结果，得到邻接矩阵。

4.根据权利要求3所述的辅助行政处罚决定的方法，其特征在于，所述关联度算式为：

5.根据权利要求3所述的辅助行政处罚决定的方法，其特征在于，所述根据词向量之间的关联度数值，生成网络节点连边结果的步骤，包括：

判断词向量之间的关联度数值是否大于0；

若是，则生成网络节点之间有连边的结果；

若否，则生成网络节点之间无连边的结果。

6.根据权利要求1所述的辅助行政处罚决定的方法，其特征在于，所述对基本字段数据进行分词处理及停止词消除，得到有效字段数据的步骤包括：

7.根据权利要求1所述的辅助行政处罚决定的方法，其特征在于，所述标签为label向量标签。

8.根据权利要求1所述的辅助行政处罚决定的方法，其特征在于，所述GCN模型数量为2；所述readout层数量为1。

9.根据权利要求1所述的辅助行政处罚决定的方法，其特征在于，所述基于邻接矩阵和属性矩阵，通过GCN模型和readout层进行学习，得到辅助行政处罚决定模型的步骤，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行所述权利要求1至9任一项所述的方法。