CN114707829A

CN114707829A - 基于结构化数据线性展开的目标人员再犯风险预测方法

Info

Publication number: CN114707829A
Application number: CN202210286783.9A
Authority: CN
Inventors: 万志高; 周盛传; 高杰; 周向波; 雷良健; 李贤基; 付航宇
Original assignee: Jiangxi Ganma Intelligent Technology Co ltd; Qingdao Bo Tian Tian Tong Information Technology Co ltd; Jiangxi Ganma Industry Co ltd
Current assignee: Jiangxi Ganma Intelligent Technology Co ltd; Qingdao Bo Tian Tian Tong Information Technology Co ltd; Jiangxi Ganma Industry Co ltd
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-07-05

Abstract

本发明提出了一种基于结构化数据线性展开的目标人员再犯风险预测方法，包括：第一步：从监管场所的业务系统中获取数据；第二步：对第一步中获得的数据进行预处理；第三步：特征组合，第四步：线性展开，第五步：预训练过程；第六步：构建模型，首先将第五步获得的词向量传递到输入层，之后按照经过Transformer、CNN和全连接层；第七步：训练阶段，将经过第五步处理后获得的数据进行训练；第八步：训练完成后，将第七步中测试集的数据输入到模型中，采用F1值进行性能评估与实际应用。借此，本发明具有灵活使用监管场所中的现有数据，极大程度提高了数据利用率和预测准确率的优点。

Description

基于结构化数据线性展开的目标人员再犯风险预测方法

技术领域

本发明属于犯罪预测技术与自然语言处理技术领域，特别涉及一种基于结构化数据线性展开的目标人员再犯风险预测方法。

背景技术

目前，监狱的主要目标是惩罚、通过囚禁减少对社会的伤害、在满足囚犯基本需要的前提下关押他们，同时也是一种改造机构。从囚犯的角度来看，当他们的刑期结束并被释放时，他们通常被迫在没有收入或社会支持的情况下开始他们的生活，刑满出狱的囚犯一般会面临流亡,孤立和失业的痛苦，这种情况通常会导致二次犯罪的发生。因此，对即将出监的目标人员进行及时的再犯风险评估并根据评估结果采取相应的措施，具有重要的社会意义。

我国目前对于罪犯的再犯风险预测相关技术仍然很不成熟，主流的方法仍然是以人工问卷和量表为主，该类方法需要消耗大量的人力并且效率较低、灵活性较差。近几年，随着大数据相关技术在监狱管理方面的深入应用，全国大部分监狱的罪犯再犯风险评估开始尝试使用大数据相关技术进行评估，通常是采用传统的机器学习方法，例如决策树、支持向量机和逻辑回归等。但受限于大多数监狱中存在的数据多而不全的问题，导致利用此类机器学习方法进行评估的技术无法挖掘数据中包含的全部信息，难以进行大规模的应用。因此我国目前在目标人员再犯风险评估方面缺少一些科学高效的评估方法。

发明内容

本发明提出一种基于结构化数据线性展开的目标人员再犯风险预测方法，解决了现有技术中的问题。

本发明的技术方案是这样实现的：一种基于结构化数据线性展开的目标人员再犯风险预测方法，包括：

第一步：从监管场所的业务系统中获取数据；

第二步：对第一步中获得的数据进行预处理；

第三步：特征组合，将第二步中预处理后的数据按照时间发生的先后顺序进行排列；

第四步：线性展开，将经过第三步处理后的每个样本数据的不同特征进行横向拼接；

第五步：预训练过程，经过第四步处理的数据就变成了自然语言的格式，对该数据加载使用司法文书数据集预训练好的中文word embedding模型，将其转换为低维向量；

第六步：构建模型，首先将第五步获得的词向量传递到输入层，之后按照经过Transformer、CNN和全连接层；

第七步：训练阶段，将经过第五步处理后获得的数据进行训练；

第八步：训练完成后，将第七步中测试集的数据输入到模型中，采用F1 值进行性能评估与实际应用。

作为一种优选的实施方式，从监管场所的业务系统中获取的数据，包括个人基本信息、监管场所的内的动态信息、进入监管场所的前置数据、社会关系和监管期间外部动态数据共五个维度的信息。

作为一种优选的实施方式，监管场所业务系统数据库包括被监管人员在监管期间的所有记录、来时原因和去向动态。

作为一种优选的实施方式，对第一步中获得的数据进行预处理包括：数据清洗和数据的编码，其中数据清洗即对数据中存在的数据丢失、错位、错别字和乱码分别进行补充、归位、纠正及删除操作；

数据的编码，是将数字转换为文本。

作为一种优选的实施方式，第四步中横向拼接包括插入分隔符和不插入分隔符两种方式，其中在结构数据的长文本特征前后加入分隔符“的”，其他特征间不插入分隔符。

作为一种优选的实施方式，预训练过程中，首先根据预训练数据集的词表大小将原始的文本数据转换为one-hot向量(维度为V)，即对于一个word的输入编码{x₁,x₂,…,x_V}，只有一个为1，其余为0；

第一层的参数权重为W_V*N，其中N为隐藏层神经元的个数，W中的每一行是一个N维的向量，代表的就是单词w_i的向量v_i表示；

从隐藏层到输出层也有一个不同的权重矩阵

是一个N*V的矩阵，第j列代表w_j的N维度向量，用这个向量和W中每一个向量相乘，就可以得到在 V中每个词的分值：

其中，T为矩阵的转置运算，h为隐含层向量；

然后将其带入softmax函数，获得每个单词的分布概率：

其中W_I是为单词w_j的上下文，y_j是第j个神经元的输出，所有的x'对应的都是从隐藏层到输出层的参数。

作为一种优选的实施方式，第六步中构建的模型包括输入层、编码层、卷积层和输出层，该模型为seq2seq模型，包括Encoder和Decoder两部分，每部分均由多个完全相同的Attention模块构成，计算Attention采用如下公式：

其中Q,K,V分别为查询矩阵、键矩阵和值矩阵，本质上是三个大小相同，但初始化和训练过程不同的三个矩阵，d_k为比例因子。

作为一种优选的实施方式，训练阶段中，将经过第五步处理后获得的数据集按照8:2的比例分为训练集和测试集两部分，

其中训练集数据依次经过模型的输入层、编码层、卷积层和输出层，在卷积层和输出层之间通过sigmoid函数加入非线性因素；

该模型每层需要加入残差网络。

采用了上述技术方案后，本发明的有益效果是：

以传统的再犯风险评估模型为基础，灵活使用监管场所中的现有数据，极大程度提高了数据利用率；

经过预处理后的数据可以有效保留特征间的时间关系，可以在一定程度上解决深度学习模型处理结构化数据时存在的信息丢失问题，从而获得了精度较高、实用性较强的再犯风险评估方法；

与不使用该方法的传统算法相比，本发明更适合特征间具有时间关系的结构化数据、数据利用率和预测准确率更高

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程图；

图2是本发明的预训练的模型结构图

图3是本发明构建的预测模型结构和数据流向图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种基于结构化数据线性展开的目标人员再犯风险预测方法，包括：

第一步：从监管场所的业务系统中获取数据；

第二步：对第一步中获得的数据进行预处理；

从监管场所的业务系统中获取的数据，包括个人基本信息、监管场所的内的动态信息、进入监管场所的前置数据、社会关系和监管期间外部动态数据共五个维度的信息。监管场所业务系统数据库包括被监管人员在监管期间的所有记录、来时原因和去向动态。

对第一步中获得的数据进行预处理包括：数据清洗和数据的编码，其中数据清洗即对数据中存在的数据丢失、错位、错别字和乱码分别进行补充、归位、纠正及删除操作；

数据的编码，传统方法是对有限的离散数据进行类别编码，对连续型数据进行数字表示并进行归一化，但本发明的数据编码则是相反的，是将数字转换为文本。

第四步中横向拼接包括插入分隔符和不插入分隔符两种方式，即将步骤 (3)处理后的每个样本的不同特征进行横向拼接，横向拼接包括插入分隔符和不插入分隔符两种方式，在特征间插入分隔符可以减少不同特征的互扰程度；不插入分隔符则可以增加特征间的关联程度，其中在结构数据的长文本特征前后加入分隔符“的”，其他特征间不插入分隔符。

预训练过程：经过第四步处理后的数据就变成了自然语言的格式，对该数据加载使用司法文书数据集预训练好的中文word embedding模型，将其转换为低维向量。本发明使用的embedding模型是word2vec,该模型为浅层的神经网络，训练完毕的word2vec模型可以将每个词映射到一个向量。word2vec通常基于Skip-gram和CBOW两种语言模型，本发明使用的是CBOW，首先根据预训练数据集的词表大小将原始的文本数据转换为one-hot向量(维度为V)，即对于一个word的输入编码{x₁,x₂,…,x_V}，只有一个为1，其余为0；

从隐藏层到输出层也有一个不同的权重矩阵

其中，T为矩阵的转置运算，h为隐含层向量；

然后将其带入softmax函数，获得每个单词的分布概率：

其中W_I是为单词w_j的上下文，y_j是第j个神经元的输出，所有的x'对应的都是从隐藏层到输出层的参数，从上述公式可以看出，当词表包含的单词数V很大时，使用softmax函数会非常耗时,因此通常使用层级softmax的方式，通过构建霍夫曼树来减少遍历单词的时间，得到每个单词的分布概率之后，就可以通过分布概率构建损失函数，从而完成整个预训练过程，预训练完毕的词向量即可作为模型的输入。

构建模型首先将第五步中获得的词向量传递到输入层，之后按照图示顺序经过Transformer、CNN和全连接层。模型主要分为四部分，分别是输入层、编码层、卷积层和输出层，第二部分是编码层，也就是Transformer所在的部分该模型为seq2seq模型，包括Encoder和Decoder两部分，每部分均由多个完全相同的Attention模块构成，计算Attention采用如下公式：

其中Q,K,V分别为查询矩阵、键矩阵和值矩阵，本质上是三个大小相同，但初始化和训练过程不同的三个矩阵，d_k为比例因子，在这里取值为64。

不同于传统的模型使用的往往是单一的Attention，该模型在训练注意力权重时采用了一种称为多头注意力机制的方法，会同时初始化多个权重矩阵 w，即同时产生多个Attention，最后将多个矩阵拼接处理为一个矩阵,拼接的剧中最终通过全连接一层全连接网络后即可作为该模型的输出，也就是 transformer所在层的输出。

因为本发明的最终任务为分类任务，也就是将不同的目标人员按照再犯风险的等级进行分类，因此我们将Transformer的Decoder去除，只保留其 Encoder，将Encoder的输出直接送入卷积层。同时我们对卷积层也做了处理，去除了卷积的部分，仅保留了池化层，采用Maxpooling的方法提取最大特征。最后按照实际的分类要求，将低维向量x_i∈R^i*j通过全连接层作输出映射 y∈R^c*1。

训练阶段中，将经过第五步处理后获得的数据集按照8:2的比例分为训练集和测试集两部分，

同时由于本模型由多个Encoder和Maxpooling叠加而成，因此在每层之间需要加入残差网络以降低层高增加带来的错误率上升的问题，同时为了降低训练过程中产生过拟合的现象，使用dropout方法，在每一轮训练中随机丢弃一定比例的神经元，本发明使用的比例为0.5。反向传播阶段采用交叉熵作为损失函数，最终输出为0-4五个再犯风险等级。重复上述训练过程，直至损失函数不再下降结束训练。

传统目标人员改造数据存在大量的部分丢失问题，例如样本1丢失特征 2，样本2丢失特征1，在这种情况下由于样本1和样本2的数据无法对齐，一般会采取补充其他值或者将两个样本丢弃的方式来保证数据的对齐。但丢弃数据会减少可用数据的数量，补充其他值则会影响模型的准确性。本发明提出的结构化数据线性展开的方式，无需考虑数据的对齐问题，减少了数据预处理的工作量，同时提高了数据的利用率，解决了传统再犯风险预测任务中中结构化数据无法使用深度较大的模型的问题，可以更好的挖掘特征间的关联关系，提高预测的准确率。

本发明根据特征间的时间关系，构建了一种由两种特征提取模型 Transformer和CNN结合而成的特征提取模型，Transformer具有很强的特征学习能力，但往往会忽略特征间的位置关系，而CNN则可以提取特征间的位置关系，因此将两种模型结合在一起可以更有效的利用特征间的关联关系，从而提高预测的准确性。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于结构化数据线性展开的目标人员再犯风险预测方法，其特征在于，包括：

第一步：从监管场所的业务系统中获取数据；

第二步：对第一步中获得的数据进行预处理；

第八步：训练完成后，将第七步中测试集的数据输入到模型中，采用F1值进行性能评估与实际应用。

2.根据权利要求1所述的基于结构化数据线性展开的目标人员再犯风险预测方法，其特征在于，从监管场所的业务系统中获取的数据，包括个人基本信息、监管场所的内的动态信息、进入监管场所的前置数据、社会关系和监管期间外部动态数据共五个维度的信息。

3.根据权利要求2所述的基于结构化数据线性展开的目标人员再犯风险预测方法，其特征在于，监管场所业务系统数据库包括被监管人员在监管期间的所有记录、来时原因和去向动态。

4.根据权利要求1所述的基于结构化数据线性展开的目标人员再犯风险预测方法，其特征在于，对第一步中获得的数据进行预处理包括：数据清洗和数据的编码，其中数据清洗即对数据中存在的数据丢失、错位、错别字和乱码分别进行补充、归位、纠正及删除操作；

数据的编码，是将数字转换为文本。

5.根据权利要求1所述的基于结构化数据线性展开的目标人员再犯风险预测方法，其特征在于，第四步中横向拼接包括插入分隔符和不插入分隔符两种方式，其中在结构数据的长文本特征前后加入分隔符“的”，其他特征间不插入分隔符。

6.根据权利要求1所述的基于结构化数据线性展开的目标人员再犯风险预测方法，其特征在于，预训练过程中，首先根据预训练数据集的词表大小将原始的文本数据转换为one-hot向量(维度为V)，即对于一个word的输入编码{x₁,x₂,…,x_V}，只有一个为1，其余为0；

从隐藏层到输出层也有一个不同的权重矩阵W'＝{w'_ij},是一个N*V的矩阵，第j列代表w_j的N维度向量，用这个向量和W中每一个向量相乘，就可以得到在V中每个词的分值：

其中，T为矩阵的转置运算，h为隐含层向量；

然后将其带入softmax函数，获得每个单词的分布概率：

7.根据权利要求1所述的基于结构化数据线性展开的目标人员再犯风险预测方法，其特征在于，第六步中构建的模型包括输入层、编码层、卷积层和输出层，该模型为seq2seq模型，包括Encoder和Decoder两部分，每部分均由多个完全相同的Attention模块构成，计算Attention采用如下公式：

8.根据权利要求7所述的基于结构化数据线性展开的目标人员再犯风险预测方法，其特征在于，训练阶段中，将经过第五步处理后获得的数据集按照8:2的比例分为训练集和测试集两部分，

该模型每层需要加入残差网络。