CN112667919A

CN112667919A - 一种基于文本数据的个性化社区矫正方案推荐系统及其工作方法

Info

Publication number: CN112667919A
Application number: CN202011578457.2A
Authority: CN
Inventors: 季伟; 丁其业; 杨阳
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-16

Abstract

本发明涉及一种基于文本数据的个性化社区矫正方案推荐系统及其工作方法，该系统中，案例库构建模块，用于得到社区矫正案例的人口统计学信息的向量化表示；犯罪情况及生活环境信息的向量化表示；前端交互模块，用于输入待推荐矫正策略的社区服刑人员信息的文本；矫正方案推荐模块，用于得到待推荐矫正方案的社区服刑人员的人口统计学信息的向量化表示、犯罪情况及生活环境的向量化表示，再分别基于协同过滤算法从案例库中得到备选的矫正方案；危险性评估模块，用来确认对社区服刑人员的基本监管等级；最后，在前端交互界面中显示基本监管等级以及备选推荐策略。本发明利用机器学习算法实现个性化、精准化的社区矫正方案推荐。

Description

一种基于文本数据的个性化社区矫正方案推荐系统及其工作方法

技术领域

本发明涉及一种基于文本数据的个性化社区矫正方案推荐系统及其工作方法，属于智能推荐系统框架领域。

背景技术

社区矫正是依法在社区中对社区服刑人员实施刑罚和提供帮助，以促进其过守法生活的刑罚执行活动。但是现阶段完全由人工处理生成的矫正策略存在着一些问题，首先是矫正工作人员的理论和实践经验不足，制定的矫正策略模式化，形式化；其次是司法所配备的矫正工作人员人数有限，工作任务重，不能为每个社区服刑人员提供个性化的服务。

中国专利文献CN111914166A公开了“应用于社区矫正人员的矫正策略个性化推荐系统”，该专利利用深度学习模型进行矫正策略推荐，深度学习模型需要对大量的数据进行训练才可能得到一个较好的结果，其次该方法显然是属于有监督的，需要的数据必须有对应标签，这部分标签需要人工进行处理，工作量极大。

发明内容

针对现有技术的不足，本发明提供了一种基于文本数据的个性化社区矫正方案推荐系统，实现了个性化、精准化的矫正策略推荐，弥补现阶段社区矫正策略推荐技术的缺失，提升矫正效果、减轻社区工作人员工作压力。

本发明还提供上述一种基于社区服刑人员文本信息的个性化矫正推荐系统的工作方法。

术语解释：

1.人口统计学信息：包括性别、民族、文化程度、捕前职业、犯罪类型等信息。

2.TextRank算法：其思想为通过词之间的相邻关系构建网络，然后用PageRank迭代计算每个节点的rank值，排序rank值即可得到文本中的关键词。

3.正则表达式：(regular expression)描述了一种字符串匹配的模式(pattern)，可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。

4.协同过滤算法：根据用户特征计算出与当前用户相似的用户，根据相思用户过去喜欢的物品计算出具有相似品位的用户，并向其推荐这些用户喜爱的项目。

5.word2vec模型：是一种无监督的词向量模型，包含跳字模型和连续词袋模型两种模型，以及负采样和层序softmax两种高效训练方法。

6.doc2vec模型：是一种无监督算法，能从变长的文本中学习得到固定长度的特征表示，可以获得句子、段落和文档的向量表达。

7.K-means聚类算法：是一种无监督的聚类算法，其基本思想为，对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇。让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大。

8.XGboost算法：是一种基于boosting增强策略的加法模型，训练时采用前向分布算法进行贪婪的学习，每次迭代都学习一棵CART树来拟合之前t-1棵树的预测结果与训练样本真实值的残差。

9.独热编码：又称一位有效编码，其方法是使用N位状态寄存器来对特征的N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候，其中只有一位有效。

10.smote算法：其基本思想为在少数类样本之间进行插值来产生额外的样本，通过增加少数样本来解决样本不平衡问题。

本发明的技术方案为：

一种基于文本数据的个性化社区矫正方案推荐系统，包括数据采集模块、数据预处理模块、案例库构建模块、矫正方案推荐模块和前端交互模块；

数据采集模块，用于获取社区矫正案例的文本，并将获取的社区矫正案例的文本保存到案例库中；

数据预处理模块,用于从数据采集模块获取的社区矫正案例的文本中分别提取出包含人口统计学信息的文本、描述犯罪情况和生活环境的文本以及社区服刑人员所接受的社区矫正策略的文本，再分别对包含人口统计学信息的文本、描述犯罪情况和生活环境的文本进行预处理，得到人口统计学信息、犯罪情况及生活环境信息；

案例库构建模块，将数据预处理模块预处理得到的人口统计学信息输入到word2vec模型进行训练，得到每个人口统计学信息词对应的词向量，再将每个社区服刑人员对应的人口统计学信息词的词向量相加之后求平均，将其作为每个社区服刑人员的人口统计学信息的向量化表示，再将每个社区服刑人员的人口统计学信息的向量化表示保存于案例库中；将数据预处理模块预处理得到的犯罪情况及生活环境信息输入到doc2vce模型进行训练，得到每个社区服刑人员的犯罪情况及生活环境信息的向量化表示，再将每个社区服刑人员的犯罪情况及生活环境信息的向量化表示保存于案例库中；

前端交互模块，用于输入待推荐矫正策略的社区服刑人员信息的文本，并待推荐矫正策略的社区服刑人员信息的文本输入到数据预处理模块进行预处理，数据预处理模块分别提取出包含人口统计学信息的文本、描述犯罪情况和生活环境的文本，再分别对包含人口统计学信息的文本、描述犯罪情况和生活环境的文本进行预处理，得到人口统计学信息和犯罪情况及生活环境信息；

矫正方案推荐模块，针对数据预处理模块处理后的待推荐矫正策略的社区服刑人员的人口统计学信息，加载案例库构建模块训练好的word2vec模型，得到人口统计学信息词的词向量，再将人口统计学信息词的所有词向量相加之后求平均，得到社区服刑人员的人口统计学信息的向量化表示；基于协同过滤算法分别计算待推荐矫正策略的社区服刑人员的人口统计学信息的向量化表示与案例库中案例对应的人口统计学信息的向量化表示的相似度，得到与待推荐矫正策略的社区服刑人员的人口统计学信息的向量化表示相似度最高的前m个案例，然后将相似度最高的前m个案例对应的矫正策略作为备选推荐策略，m为超参数,人为调整；

针对数据预处理模块处理后的待推荐矫正策略的社区服刑人员的犯罪情况及生活环境信息，输入到案例库构建模块训练好的doc2vec模型，得到待推荐矫正策略的社区服刑人员的犯罪情况及生活环境的向量化表示；基于协同过滤算法分别计算待推荐矫正策略的社区服刑人员的犯罪情况及生活环境信息的向量化表示与案例库中案例对应的犯罪情况及生活环境信息的向量化表示的相似度，得到与待推荐矫正策略的社区服刑人员相似度最高的前m个案例，然后将相似度最高的前m个案例对应的矫正策略作为备选推荐策略，m为超参数，人为调整。

根据本发明优选的，所述社区矫正方案推荐系统还包括危险性评估模块，危险性评估模块用于对待推荐矫正策略的社区服刑人员进行危险性评估，以确认对待推荐矫正策略的社区服刑人员的基本监管等级。

上述基于文本数据的个性化社区矫正方案推荐系统的工作方法，该工作方法包括：

步骤1，通过数据采集模块获取社区矫正案例的文本，并将获取的社区矫正案例的文本保存到案例库中；

步骤2，数据预处理模块先从步骤1获取的社区矫正案例的文本中分别提取出包含人口统计学信息的文本、描述犯罪情况和生活环境的文本以及社区服刑人员所接受的社区矫正策略的文本，再分别对包含人口统计学信息的文本、描述犯罪情况和生活环境的文本进行预处理，得到人口统计学信息、犯罪情况及生活环境信息；

步骤3，将步骤2中数据预处理模块预处理得到的社区服刑人员的人口统计学信息输入到word2vec模型进行训练，得到每个社区服刑人员的人口统计学信息词对应的词向量；再将每个社区服刑人员对应的人口统计学信息词的词向量相加之后求平均，将其作为每个社区服刑人员的人口统计学信息的向量化表示，再将每个社区服刑人员的人口统计学信息的向量化表示保存于案例库中；

将步骤2中数据预处理模块预处理得到的社区服刑人员的犯罪情况及生活环境信息输入到doc2vce模型进行训练，得到社区服刑人员的犯罪情况及生活环境信息的向量化表示，再将社区服刑人员的犯罪情况及生活环境信息的向量化表示保存于案例库中；

word2vec模型得到的只是词的向量化表示，word2vec模型训练好之后，即可得到所有人口统计学信息对应的词向量，后续使用词向量时直接加载训练好的模型即可；直接将某人的人口统计学信息对应的所有词的向量化表示相加求平均；

对于doc2vec模型，doc2vec模型完成训练之后，可以得到段落的向量、词的向量和相关的参数，对于需要预测的段落，会将段落向量进行随机地初始化，再放入模型中重新根据梯度下降不断迭代求得最终稳定下来的段落向量。不过在预测过程中，模型里的词向量、投影层到输出层的参数是不会变的，这样在不断迭代中只会更新段落向量，其他参数均已固定，只需要很少的时间就能计算出待预测的段落向量。

步骤4，通过前端交互模块输入待推荐矫正策略的社区服刑人员信息的文本；

步骤5，数据预处理模块先从步骤4上传的文本中分别提取出包含人口统计学信息的文本、描述犯罪情况和生活环境的文本，再分别对包含人口统计学信息的文本、描述犯罪情况和生活环境的文本进行预处理，得到人口统计学信息和犯罪情况及生活环境信息；

步骤6，在矫正方案推荐模块中，将步骤5得到的待推荐矫正策略的社区服刑人员的人口统计学信息加载案例库构建模块训练好的word2vec模型，得到人口统计学信息词的词向量，将该社区服刑人员对应的人口统计学信息词的词向量相加之后求平均，得到待推荐矫正策略的社区服刑人员的人口统计学信息的向量化表示；

利用协同过滤算法，将待推荐矫正策略的社区服刑人员的人口统计学信息的向量化表示与步骤3中得到的案例库中案例对应的人口统计学信息的向量化表示进行相似度计算，得到与当前待推荐矫正策略的社区服刑人员相似度最高的前m个案例，其中m为超参数，人为调整；然后将该案例所对应的矫正策略作为备选推荐策略；

步骤7，在矫正方案推荐模块中，将步骤5得到的待推荐矫正策略的社区服刑人员的犯罪情况及生活环境信息输入训练好的doc2vce模型中进行推断，得到待推荐矫正策略的犯罪情况和生活环境文本描述的向量化表示；

利用协同过滤算法，将待推荐矫正策略的社区服刑人员的犯罪情况及生活环境信息的向量化表示与案例库中案例对应的犯罪情况及生活环境信息的向量化表示进行相似度计算，得到与当前待推荐矫正策略的社区服刑人员相似度最高的前m个案例，其中m为超参数，人为调整，然后将该案例所对应的矫正策略作为备选推荐策略；

步骤8，在前端交互界面输出步骤6和步骤7得到备选推荐策略。

根据本发明优选的，步骤1中，数据采集模块从司法所数据库中获取社区矫正案例的文本，或利用爬虫从中国法律服务网上爬取公开的社区矫正案例的文本，或通过对社区服刑人员进行问卷调查获取社区矫正案例的文本。

根据本发明优选的，步骤1中，社区矫正案例的文本包括描述犯罪情况及生活环境信息的文本、包含社区服刑人员的人口统计学信息的文本以及社区服刑人员所接受的社区矫正策略的文本。

根据本发明优选的，步骤2中和步骤5中，分别对包含人口统计学信息的文本、描述犯罪情况和生活环境的文本进行预处理，得到人口统计学信息和犯罪情况及生活环境信息，具体过程为：

步骤a，利用正则表达式从包含人口统计学信息的文本提取出人口统计学信息；

步骤b，使用jieba分词工具对描述犯罪情况和生活环境的文本进行分词，并在jieba分词工具中添加了自定义词典；在社区矫正领域有一些司法专用词汇，人工整理出这部分词汇并加入到分词工具的词典当中，增加分词准确性。

步骤c，去掉步骤b得到的文本中的停用词；可以有效减少干扰；停用词一般包括：的、了、么、吧、呢等没有实际意义的词。

步骤d，使用TextRank算法提取步骤c得到文本中的关键词。

根据本发明优选的，步骤6和步骤7中，相似度计算之前，使用K-means聚类算法分别针对步骤6中得到的人口统计学信息的向量化表示和步骤7中得到的犯罪情况和生活环境的向量化表示进行聚类；

K-means聚类算法的具体步骤为：假设将向量化表示的数据分为K个簇，K为正整数，具体数值根据聚类效果人为调整，随机选取K个向量作为初始的聚类中心；向量化表示为人口统计学信息的向量化表示或犯罪情况和生活环境的向量化表示；

然后计算每个向量与各个聚类中心之间的距离，把每个向量分配给距离它最近的聚类中心；聚类中心以及分配给它们的向量就代表一个簇；

每分配一个向量，簇的聚类中心会根据簇中现有的对象被重新计算；这个过程将不断重复直到满足终止条件，终止条件是簇不再发生变化，或者达到最大迭代次数。

在进行相似度计算时，先同每个簇的聚类中心进行相似度计算，只需要在相似度最高的聚类中心所在的簇内的向量中进行搜索，大大缩小了搜索范围，时间复杂度大大降低。

根据本发明优选的，步骤6和步骤7中，相似度计算的公式为：

Ai表示待推荐策略的社区服刑人员的向量表示的第i个元素，B为案例库中社区服刑人员的向Bi表示案例库中社区服刑人员的向量表示的第i个元素，similarity为相似度的数值。

根据本发明优选的，所述工作方法还包括:步骤9，危险性评估模块对待推荐矫正策略的社区服刑人员进行危险性评估，以确认对待推荐矫正策略的社区服刑人员的基本监管等级，具体过程为：

将步骤5数据预处理模块处理后的数据送入到训练好的XGboost模型中进行分类，分类结果为有再犯罪风险和无再犯罪风险。

对于有再犯罪风险的社区服刑人员其对应的矫正策略需额外增加更为严格的监督管理策略。

根据本发明优选的，XGboost模型的参数包括max_depth、subsample和min_child_weight，max_depth表示树的最大深度，当它的值越大时，模型会学到更具体更局部的样本，可能会导致过拟合；subsample表示控制每棵树随机采样的比例，减小这个参数的值，算法会更加保守，避免过拟合，反之如果这个值设置得过小，可能会导致欠拟合；min_child_weight表示最小叶子节点样本权重的和，用于避免过拟合，当它的值较大时，避免模型学习到局部的特殊样本，反之如果这个值过高，会导致欠拟合；

XGboost模型输入的数据为社区矫正案例预处理后得到的人口统计学信息，对人口统计学信中的数值类型数据无需额外处理，数值类型数据包括年龄，对于人口统计学信中的类别型数据进行独热编码；类别型数据包括民族、犯罪类型、文化程度；输出为是否再犯罪，输出值为0代表未再犯罪，输出值为1代表再犯罪，均为已知信息；

训练过程中根据真实值与XGboost模型输出值之间的差距更新模型参数；真实值指的是社区矫正案例中是否再犯罪；

Xgboost是一种梯度提升树模型，它将许多树模型集成在一起，作为一个分类器；利用XGboost对以往数据进行训练，即将人口统计学信息作为输入，对应的是否为再犯罪作为输出，经过训练之后，对于新的数据只需要输入用户信息，就可以根据模型得出是否会再犯罪。

根据本发明优选的，对于输入到XGboost模型中训练的数据，使用smote算法对于少数样本进行过采样，即通过smote算法生成出少量样本，使得多数样本和少数样本数量相同，多数样本为不会再犯罪的数据，少数样本为会再犯罪的数据。鉴于再犯罪风险数据属于明显的类别不平衡数据，即不会再犯罪的数据会远远多于会再犯罪的数据，使用不平衡的数据直接训练模型，会造成模型效果较差。通过smote算法生成出少量样本，使得模型训练结果会更准确。

根据本发明优选的，用户能够选择备选推荐策略中部分或是全部，当所选的策略实施效果较好，将该案例以及所选策略记录到案例库中，实现对案例库的更新。所选的策略实施效果较好即对社区服刑人员使用所推荐的矫正策略一段时间之后，由社区工作人员对矫正策略实施效果的好坏进行评判，较好的矫正策略应能够针对社区服刑人员的实际情况，提供其所需的教育矫正及社会帮扶，让社区服刑人员在服刑期间遵纪守法，更好的融入社会。

本发明的有益效果为：

1.本发明提供的一种基于文本数据的个性化社区矫正方案推荐系统及其工作方法，数据预处理模块直接对非结构化的社区服刑人员文本信息进行处理，自动提取出人口统计学信息、犯罪情况和生活环境的文本描述。针对人口统计学信息和犯罪情况及生活环境信息两部分文本描述的特点，采取不同的策略。对于人口统计学信息，因为该部分文本描述是单个词，直接使用word2vec模型进行训练，训练完成后得到每个词的一个词向量，直接将社区服刑人员对应人口统计学信息的词向量相加求平均即可作为人口统计学信息的向量表示。对于犯罪情况和生活环境，因为该分部文本内容较长，关键信息模糊，首先对其进行分词、去停用词、提取关键词等预处理操作，然后将整段文本送入到doc2vec模型中进行训练，可以直接得到该段落的一个文本表示。

2.利用基于用户的协同过滤算法思想，将计算得到的向量化表示同案例库中案例对应的向量化表示进行相似度计算，得到与当前用户相似度较高的案例库中的用户，然后将用户所对应的矫正策略作为备选推荐策略。

3.对社区服刑人员进行危险性评估，以确认社区服刑人员的基本监管等级，对于危险性较高的社区服刑人员其对应的矫正策略需额外增加更为严格的监督管理策略。将数据预处理模块处理后的数据送入到XGboost模型中进行二分类，即分类结果为有再犯罪风险和无再犯罪风险。对于有数据存在的不平衡问题，使用smote算法进行过采样进行解决。

4.本发明一种基于文本数据的个性化社区矫正方案推荐系统及其工作方法具有较强的可扩展性，不存在推荐系统中常见的物品冷启动问题。物品冷启动问题即对于新发布物品，由于其没有任何被动行为，在系统中所占的权重几乎为0，导致物品无法出现在推荐列表中。而本发明使用基于用户的协同过滤思想，实现推荐的过程不依赖于矫正策略，对于新发布的矫正策略，只要案例库中有包含该策略的案例即可实现推荐；对于实施矫正效果较好的案例，将其补充到案例库中，相应的案例库矫正策略也可以得到扩充。

附图说明

图1是本发明提供的一种基于文本数据的个性化社区矫正方案推荐系统的结构示意图。

具体实施方式

下面结合实施例和说明书附图对本发明做进一步说明，但不限于此。

实施例1

一种基于文本数据的个性化社区矫正方案推荐系统，如图1所示，包括数据采集模块、数据预处理模块、案例库构建模块、矫正方案推荐模块和前端交互模块；

数据采集模块，用于获取社区矫正案例的文本，并将获取的社区矫正案例的文本保存到案例库中；在实际工作中，这部分信息应由司法所专职人员从司法部门获取或者通过对社区服刑人员进行谈话走访来获取。在前期数据量较少的情况下，可以使用爬虫获取政府网站上公开发布的社区矫正案例作为初始的矫正案例库。

数据预处理模块,用于从数据采集模块获取的社区矫正案例的文本中分别提取出包含人口统计学信息的文本、描述犯罪情况和生活环境的文本以及社区服刑人员所接受的社区矫正策略的文本，再分别对包含人口统计学信息的文本、描述犯罪情况和生活环境的文本进行预处理，得到人口统计学信息、犯罪情况及生活环境信息；预处理包括对于文本中的人口统计学信息进行提取、对于犯罪情况和生活环境等信息进行分词、去停用词、提取关键词。

案例库构建模块，案例库用于存放具有完整人口统计学信息、犯罪情况及生活环境信息，且有完整矫正策略的案例，后续推荐会很大程度依赖于案例库，因此案例库也需要不断更新，未来实施效果较好的矫正案会被例添加到矫正案例库中，实现矫正案例库的迭代更新。

首先将数据采集模块采集到的原始文本数据保存到案例库中；

将数据预处理模块预处理得到的人口统计学信息输入到word2vec模型进行训练，得到每个人口统计学信息词对应的词向量，再将每个社区服刑人员对应的人口统计学信息词的词向量相加之后求平均，将其作为每个社区服刑人员的人口统计学信息的向量化表示，再将每个社区服刑人员的人口统计学信息的向量化表示保存于案例库中；将数据预处理模块预处理得到的犯罪情况及生活环境信息输入到doc2vce模型进行训练，得到每个社区服刑人员的犯罪情况及生活环境信息的向量化表示，再将每个社区服刑人员的犯罪情况及生活环境信息的向量化表示保存于案例库中；

矫正方案推荐模块，针对数据预处理模块处理后的待推荐矫正策略的社区服刑人员的人口统计学信息，加载案例库构建模块训练好的word2vec模型，得到人口统计学信息词的词向量，再将人口统计学信息词的所有词向量相加之后求平均，得到社区服刑人员的人口统计学信息的向量化表示；基于协同过滤算法分别计算待推荐矫正策略的社区服刑人员的人口统计学信息的向量化表示与案例库中案例对应的人口统计学信息的向量化表示的相似度，得到与待推荐矫正策略的社区服刑人员的人口统计学信息的向量化表示相似度最高的前m个案例，然后将相似度最高的前m个案例对应的矫正策略作为备选推荐策略，m为超参数，人为调整；

针对数据预处理模块处理后的待推荐矫正策略的社区服刑人员的犯罪情况及生活环境信息，输入到案例库构建模块训练好的doc2vec模型，得到待推荐矫正策略的社区服刑人员的犯罪情况及生活环境的向量化表示；基于协同过滤算法分别计算待推荐矫正策略的社区服刑人员的犯罪情况及生活环境信息的向量化表示与案例库中案例对应的犯罪情况及生活环境信息的向量化表示的相似度，得到与待推荐矫正策略的社区服刑人员相似度最高的前m个案例，然后将相似度最高的前m个案例对应的矫正策略作为备选推荐策略，m为超参数，人为调整；

前端交互模块用于显示交互模块，交互界面包括用户数据输入，即将包含社区服刑人员的人口统计学信息、犯罪情况及生活环境等信息的文本作为输入，之后系统会自动对文本中数据进行解析，提取出人口统计学信息和犯罪情况及生活环境的文本描述，并显示提取结果，用户可以对显示结果中的信息进行确认及修改。

用户可以从给出的推荐结果中选择部分或是全部使用，选择完毕后系统会将案例以及所选策略进行存储，以后能够对该案例和策略进行追加评价，如果矫正策略实施效果较好，可以选择将该案例记录到案例库中。

实施例2

根据实施例1提供的一种基于文本数据的个性化社区矫正方案推荐系统，区别之处在于：

该推荐系统还包括危险性评估模块，用于对社区服刑人员进行危险性评估，以确认社区服刑人员的基本监管等级，对于危险性较高的社区服刑人员其对应的矫正策略需额外增加更为严格的监督管理策略。

将数据预处理模块处理后的数据送入到XGboost模型中进行二分类，即分类结果为有再犯罪风险和无再犯罪风险。

实施例3

实施例1提供的一种基于文本数据的个性化社区矫正方案推荐系统的运行方法，该方法的具体步骤如下：

步骤1中，数据采集模块从司法所数据库中获取社区矫正案例的文本，或利用爬虫从中国法律服务网上爬取公开的社区矫正案例的文本，或通过对社区服刑人员进行问卷调查获取社区矫正案例的文本。

步骤1中，社区矫正案例的文本包括描述犯罪情况及生活环境信息的文本、包含社区服刑人员的人口统计学信息的文本以及社区服刑人员所接受的社区矫正策略的文本。

步骤2中，分别对包含人口统计学信息的文本、描述犯罪情况和生活环境的文本进行预处理，得到人口统计学信息和犯罪情况及生活环境信息，具体过程为：

步骤a，利用正则表达式从包含人口统计学信息的文本提取出人口统计学信息；文本中的人口统计学信息是通过一段话来描述的，例如：“社区服刑人员周某,男，某年某月出生，户籍地、居住地均为某省某市某区。2017年3月，因犯某罪被某省某市人民法院判处有期徒刑二年二个月，缓刑三年，缓刑考验期自2017年3月13日起至2020年3月12日止。”使用正则表达式对人口统计学信息进行提取，诸如上例提取结果为：男、某省、某罪、有期徒刑二年二个月；

步骤d，使用TextRank算法提取步骤c得到文本中的关键词。

word2vec模型得到的只是词的向量化表示，word2vec模型训练好之后，即可得到所有人口统计学信息对应的词向量，后续使用词向量时直接加载训练好的模型即可；直接将某人的人口统计学信息对应的所有词的向量化表示相加求平均；比如某人的人口统计学信息为：男、某省、某罪、有期徒刑二年二个月，则分别找到上述四个人口统计学信息对应的词向量，然后相加除以4即为人口统计学信息向量化表示。

word2vec模型通过跳字模型的训练方式，能从较少的数据集中构造出更多的训练样本，跳字模型是对中心词可以构造多条训练样本；训练方法为负采样。

步骤4，通过前端交互模块输入待推荐矫正策略的社区服刑人员信息的文本；输入的文本支持txt、docx等文件格式；

步骤5中，分别对包含人口统计学信息的文本、描述犯罪情况和生活环境的文本进行预处理，得到人口统计学信息和犯罪情况及生活环境信息的具体过程和步骤2中进行预处理的过程相同。

人口统计学信息长度较短，仅由几个词构成，每个词都有一定的人口统计学含义，所以使用word2vec算法对这部分信息进行处理，将该社区服刑人员对应的人口统计学信息词的词向量相加之后求平均即可作为用户的人口统计学信息向量表示，这种处理方式比较适合短文本。

对于犯罪情况和生活环境这部分文本，这部分文本长度较长，不像人口统计学信息那样每个词都有意义，会包含停用词以及一些重要程度较低的词汇，如果仍使用word2vec算法得到词向量并相加求平均来得到这种长文本的向量表示，效果会很差。

其次，犯罪情况和生活环境这部分文本会包含更多人口统计学信息中没有的内容，且人口统计学信息中的内容是相对静态，其中包含的信息量较少，可能会存在很多人的人口统计学信息完全相同，所以使用文本中剩余的犯罪情况和生活环境这部分文本，能充分利用文本中的信息，且二者所覆盖的范围是不同的，相当于从两个不同的维度来审视当前用户。

实施例4

根据实施例3提供的一种基于文本数据的个性化社区矫正方案推荐系统的运行方法，不同之处在于：

步骤6和步骤7中，相似度计算之前，使用K-means聚类算法分别针对步骤6中得到的人口统计学信息的向量化表示和步骤7中得到的犯罪情况和生活环境的向量化表示进行聚类；

步骤6和步骤7中，相似度计算的公式为：

实施例5

实施例2提供的一种基于文本数据的个性化社区矫正方案推荐系统的运行方法，该运行方法与实施例3提供的运行方法的区别之处在于：

工作方法还包括:步骤9，危险性评估模块对待推荐矫正策略的社区服刑人员进行危险性评估，以确认对待推荐矫正策略的社区服刑人员的基本监管等级，基本监管等级包括严管和宽管，对应的监管严格程度依次降低；并在交互界面上显示。

具体过程为：将步骤5数据预处理模块处理后的数据送入到训练好的XGboost模型中进行分类，分类结果为有再犯罪风险和无再犯罪风险。

XGboost模型的参数包括max_depth、subsample和min_child_weight，max_depth表示树的最大深度，当它的值越大时，模型会学到更具体更局部的样本，可能会导致过拟合；subsample表示控制每棵树随机采样的比例，减小这个参数的值，算法会更加保守，避免过拟合，反之如果这个值设置得过小，可能会导致欠拟合；min_child_weight表示最小叶子节点样本权重的和，用于避免过拟合，当它的值较大时，避免模型学习到局部的特殊样本，反之如果这个值过高，会导致欠拟合；

对于输入到XGboost模型中训练的数据，使用smote算法对于少数样本进行过采样，即通过smote算法生成出少量样本，使得多数样本和少数样本数量相当，多数样本为不会再犯罪的数据，少数样本为会再犯罪的数据。鉴于再犯罪风险数据属于明显的类别不平衡数据，即不会再犯罪的数据会远远多于会再犯罪的数据，使用不平衡的数据直接训练模型，会造成模型效果较差。通过smote算法生成出少量样本，使得模型训练结果会更准确。

用户能够选择备选推荐策略中部分或是全部，当所选的策略实施效果较好，将该案例以及所选策略记录到案例库中，实现对案例库的更新。所选的策略实施效果较好即对社区服刑人员使用所推荐的矫正策略一段时间之后，由社区工作人员对矫正策略实施效果的好坏进行评判，较好的矫正策略应能够针对社区服刑人员的实际情况，提供其所需的教育矫正及社会帮扶，让社区服刑人员在服刑期间遵纪守法，更好的融入社会。

Claims

1.一种基于文本数据的个性化社区矫正方案推荐系统，其特征在于，包括数据采集模块、数据预处理模块、案例库构建模块、矫正方案推荐模块和前端交互模块；

2.根据权利要求1所述的一种基于文本数据的个性化社区矫正方案推荐系统，其特征在于，所述社区矫正方案推荐系统还包括危险性评估模块，危险性评估模块用于对待推荐矫正策略的社区服刑人员进行危险性评估，以确认对待推荐矫正策略的社区服刑人员的基本监管等级。

3.根据权利要求1或2所述的一种基于文本数据的个性化社区矫正方案推荐系统的工作方法，其特征在于，该工作方法包括：

4.根据权利要求3所述的基于文本数据的个性化社区矫正方案推荐系统的运行方法，其特征在于，步骤1中，数据采集模块从司法所数据库中获取社区矫正案例的文本，或利用爬虫从中国法律服务网上爬取公开的社区矫正案例的文本，或通过对社区服刑人员进行问卷调查获取社区矫正案例的文本。

5.根据权利要求3所述的基于文本数据的个性化社区矫正方案推荐系统的运行方法，其特征在于，步骤2中和步骤5中，分别对包含人口统计学信息的文本、描述犯罪情况和生活环境的文本进行预处理，得到人口统计学信息和犯罪情况及生活环境信息，具体过程为：

步骤b，使用jieba分词工具对描述犯罪情况和生活环境的文本进行分词，并在jieba分词工具中添加了自定义词典；

步骤c，去掉步骤b得到的文本中的停用词；步骤d，使用TextRank算法提取步骤c得到文本中的关键词。

6.根据权利要求3所述的基于文本数据的个性化社区矫正方案推荐系统的运行方法，其特征在于，步骤6和步骤7中，相似度计算之前，使用K-means聚类算法分别针对步骤6中得到的人口统计学信息的向量化表示和步骤7中得到的犯罪情况和生活环境的向量化表示进行聚类；

7.根据权利要求3所述的基于文本数据的个性化社区矫正方案推荐系统的运行方法，其特征在于，步骤6和步骤7中，相似度计算的公式为：

8.根据权利要求3所述的基于文本数据的个性化社区矫正方案推荐系统的运行方法，其特征在于，所述工作方法还包括:步骤9，危险性评估模块对待推荐矫正策略的社区服刑人员进行危险性评估，以确认对待推荐矫正策略的社区服刑人员的基本监管等级，具体过程为：

9.根据权利要求8所述的基于文本数据的个性化社区矫正方案推荐系统的运行方法，其特征在于，XGboost模型的参数包括max_depth、subsample和min_child_weight，max_depth表示树的最大深度，subsample表示控制每棵树随机采样的比例，min_child_weight表示最小叶子节点样本权重的和；

XGboost模型输入的数据为社区矫正案例预处理后得到的人口统计学信息，对人口统计学信中的数值类型数据无需额外处理，对于人口统计学信中的类别型数据进行独热编码；输出为是否再犯罪，输出值为0代表未再犯罪，输出值为1代表再犯罪；

训练过程中根据真实值与XGboost模型输出值之间的差距更新模型参数。

10.根据权利要求9所述的基于文本数据的个性化社区矫正方案推荐系统的运行方法，其特征在于，对于输入到XGboost模型中训练的数据，使用smote算法对于少数样本进行过采样，即通过smote算法生成出少量样本，使得多数样本和少数样本数量相同，多数样本为不会再犯罪的数据，少数样本为会再犯罪的数据。