CN106650273A

CN106650273A - 一种行为预测方法和装置

Info

Publication number: CN106650273A
Application number: CN201611238181.7A
Authority: CN
Inventors: 刘力; 王忠林
Original assignee: Netposa Technologies Ltd
Current assignee: Netposa Technologies Ltd
Priority date: 2016-12-28
Filing date: 2016-12-28
Publication date: 2017-05-10
Anticipated expiration: 2036-12-28
Also published as: CN106650273B

Abstract

本发明提供了一种行为预测方法和装置，其中，该方法包括：获取多个用户的历史数据集合，其中，每个历史数据集合均包括多个历史数据，历史数据包括目标行为；对所有历史数据进行处理，得到所有历史数据对应的最大频繁项集，其中，最大频繁项集中包括多个元素，每个元素按照支持度由小到大的顺序排列，且，每个元素包括多个历史数据，每个元素中的各个历史数据按照支持度由小到大的顺序排列；根据目标行为和最大频繁项集中的各个历史数据，确定用于推导目标行为的多个有效关联规则；根据目标用户的历史数据集合和各个有效关联规则，确定目标用户执行目标行为的概率，其利用改进的关联规则算法进行预测，预测准确度较高，且操作简单，实用性较佳。

Description

一种行为预测方法和装置

技术领域

本发明涉及行为预测技术领域，具体而言，涉及一种行为预测方法和装置。

背景技术

当前，我们的社会在经济政治和科学技术等方面均经历着巨大的改变。社会的发展虽然给我们的生活带来了许许多多的便利，但是，形形色色的违法犯罪行为也时常出现在我们身边。这些呈现出高科技化、团伙化、智能化的犯罪行为严重影响这我们正常生活秩序。长久以往，更是阻碍社会和谐发展一大障碍。长年累月下来，监狱改造信息管理系统中积累了大量的犯罪人员相关数据。然而，该如何利用好这些已有的犯罪人员相关数据，实现对犯罪行为的有效分析和管控，是摆在监狱管理人员面前的一大难题，也是监狱系统迫切需要研究的课题。

现有技术中提供的人员再犯罪的预测方案大体分为两种：一种是基于决策树算法的再犯罪预测方法，该方法首先选用样本属性，该样本属性是用于预测犯罪分子再犯罪的可能因素，其次从搜集的惯犯实施刑事案件材料中选取代表性案件，并在决策树分类模型中对上述代表性案件进行分类训练，最后通过决策树输出一组规则，以通过该规则判断犯罪分子是否再犯罪。另一种是基于综合科学的再犯罪预测方法，该方法综合社会学、心理学和管理学等科学学科，研究再犯罪风险与风险评估、再犯罪风险的基本因素和再犯罪风险的各种主客观因素，最后给出再犯罪风险评估的实体标准。

发明人在研究中发现，现有技术中基于决策树算法的再犯罪预测方法由于受限于决策树算法自身存在的多值偏向的问题，导致预测的结果较为单一且预测准确度较低，而基于综合科学的再预测方法，操作过程复杂，实用性较差。另外，对于同时满足预测准确度高和实用性佳的犯罪行为再预测尚无完善的方案。

发明内容

有鉴于此，本发明的目的在于提供一种行为预测方法和装置，利用改进的关联规则算法对用户的行为进行预测，预测的准确度较高，且操作过程简单，具有较高的实用性。

第一方面，本发明实施例提供了一种行为预测方法，所述方法包括：

获取多个用户的历史数据集合，其中，每个所述历史数据集合均包括多个历史数据，所述历史数据包括目标行为；

对所有所述历史数据进行处理，得到所有所述历史数据对应的最大频繁项集，其中，所述最大频繁项集中包括多个元素，每个所述元素按照支持度由小到大的顺序排列，且，每个所述元素包括多个所述历史数据，每个所述元素中的各个所述历史数据按照支持度由小到大的顺序排列；

根据目标行为和所述最大频繁项集中的各个所述历史数据，确定用于推导所述目标行为的多个有效关联规则；

根据目标用户的所述历史数据集合和各个所述有效关联规则，确定所述目标用户执行所述目标行为的概率。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述对所有所述历史数据进行处理，得到所有所述历史数据对应的最大频繁项集，包括：

对所有所述历史数据进行处理，得到所述历史数据对应的第K候选项集，其中，所述第K候选项集包括多个候选元素，每个所述候选元素均包括K个所述历史数据，且每个所述候选元素中，支持度最小的所述历史数据为首位历史数据，支持度最大的所述历史数据为末位历史数据；其中，K大于等于2；

对所述第K候选项集进行处理，得到第K频繁项集，其中，所述第K频繁项集包括多个频繁元素，每个所述频繁元素的支持度均大于预设支持度，各个所述频繁元素按照支持度由小到大的顺序进行排序，每个所述频繁元素均包括K个所述历史数据，且每个所述频繁元素中，支持度最小的所述历史数据为首位历史数据，支持度最大的所述历史数据为末位历史数据；

若所述第K频繁项集中，存在前K-1个所述历史数据相同的多个所述频繁元素，则将前K-1个所述历史数据相同的多个所述频繁元素进行合并，得到第K+1候选项集，若所述第K频繁项集中，不存在前K-1个所述历史数据相同的多个所述频繁元素，则将所述第K频繁项集确定为所有所述历史数据对应的最大频繁项集。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述对所述第K候选项集进行处理，得到第K频繁项集，包括：

对于所述第K候选项集中的每个所述候选元素，确定所述候选元素中的前K-1个所述历史数据共同出现的所述历史数据集合，根据确定的所述历史数据集合确定所述候选元素的支持度；

根据所述第K候选项集中每个所述候选元素的支持度，以及所述预设支持度，对各个所述候选元素进行筛选，得到支持度大于所述预设支持度的所述候选元素；

根据得到的每个所述候选元素的支持度由小到大的顺序，对得到的每个所述候选元素进行排序，得到第K频繁项集。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述对所有所述历史数据进行处理，得到所有所述历史数据对应的最大频繁项集，还包括：

将所有所述历史数据进行组合，得到第一候选项集；

确定所述第一候选项集对应的第一频繁项集，其中，所述第一频繁项集中，每个所述历史数据的支持度均大于所述预设支持度，且每个所述历史数据按照支持度由小到大的顺序进行排序；

根据所述第一频繁项集中各个所述历史数据的顺序，对所述第一频繁项集中的各个所述历史数据进行组合，得到第二候选项集，其中，所述第二候选项集包括多个候选元素，每个所述候选元素均包括两个所述历史数据，且每个所述候选元素中，支持度最小的所述历史数据为首位历史数据，支持度最大的所述历史数据为末位历史数据。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述根据目标行为和所述最大频繁项集中的各个所述历史数据，确定用于推导所述目标行为的多个有效关联规则，包括：

根据目标行为和所述最大频繁项集中的各个所述历史数据，确定推导出的所述历史数据为所述目标行为的多个关联规则；

确定支持度、置信度均满足要求的所述关联规则为有效关联规则。

结合第一方面的第四种可能的实施方式，本发明实施例提供了第一方面的第五种可能的实施方式，其中，还包括：

根据每个所述有效关联规则中用于推导的所述历史数据，在所有所述历史数据中出现的第一概率，以及推倒出的所述历史数据，在所有所述历史数据中出现的第二概率，确定每个所述有效关联规则的必然度；

根据每个所述有效关联规则的必然度和每个所述有效关联规则的置信度，更新每个所述有效关联规则的置信度。

结合第一方面的第五种可能的实施方式，本发明实施例提供了第一方面的第六种可能的实施方式，其中，所述根据目标用户的所述历史数据集合和各个所述有效关联规则，确定所述目标用户执行所述目标行为的概率，包括：

在多个所述有效关联规则中确定与所述目标用户的所述历史数据集合对应的所述有效关联规则；

将对应的所述有效关联规则更新后的所述置信度作为所述目标用户执行所述目标行为的概率。

第二方面，本发明实施例还提供了一种行为预测装置，所述装置包括：

获取模块，用于获取多个用户的历史数据集合，其中，每个所述历史数据集合均包括多个历史数据，所述历史数据包括目标行为；

处理模块，用于对所有所述历史数据进行处理，得到所有所述历史数据对应的最大频繁项集，其中，所述最大频繁项集中包括多个元素，每个所述元素按照支持度由小到大的顺序排列，且，每个所述元素包括多个所述历史数据，每个所述元素中的各个所述历史数据按照支持度由小到大的顺序排列；

规则确定模块，用于根据目标行为和所述最大频繁项集中的各个所述历史数据，确定用于推导所述目标行为的多个有效关联规则；

行为确定模块，用于根据目标用户的所述历史数据集合和各个所述有效关联规则，确定所述目标用户执行所述目标行为的概率。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，所述处理模块包括：

第一处理单元，用于对所有所述历史数据进行处理，得到所述历史数据对应的第K候选项集，其中，所述第K候选项集包括多个候选元素，每个所述候选元素均包括K个所述历史数据，且每个所述候选元素中，支持度最小的所述历史数据为首位历史数据，支持度最大的所述历史数据为末位历史数据；其中，K大于等于2；

第二处理单元，用于对所述第K候选项集进行处理，得到第K频繁项集，其中，所述第K频繁项集包括多个频繁元素，每个所述频繁元素的支持度均大于预设支持度，各个所述频繁元素按照支持度由小到大的顺序进行排序，每个所述频繁元素均包括K个所述历史数据，且每个所述频繁元素中，支持度最小的所述历史数据为首位历史数据，支持度最大的所述历史数据为末位历史数据；

生成单元，用于在所述第K频繁项集中存在前K-1个所述历史数据相同的多个所述频繁元素时，将前K-1个所述历史数据相同的多个所述频繁元素进行合并，得到第K+1候选项集，在所述第K频繁项集中不存在前K-1个所述历史数据相同的多个所述频繁元素时，将所述第K频繁项集确定为所有所述历史数据对应的最大频繁项集。

结合第二方面的第一种可能的实施方式，本发明实施例提供了第二方面的第二种可能的实施方式，其中，所述第二处理单元包括：

确定子单元，用于对于所述第K候选项集中的每个所述候选元素，确定所述候选元素中的前K-1个所述历史数据共同出现的所述历史数据集合，根据确定的所述历史数据集合确定所述候选元素的支持度；

筛选子单元，用于根据所述第K候选项集中每个所述候选元素的支持度，以及所述预设支持度，对各个所述候选元素进行筛选，得到支持度大于所述预设支持度的所述候选元素；

排序子单元，用于根据得到的每个所述候选元素的支持度由小到大的顺序，对得到的每个所述候选元素进行排序，得到第K频繁项集。

本发明实施例提供的行为预测方法和装置，与现有技术中基于决策树算法的再犯罪预测方法所导致的预测结果单一且预测准确度较差以及基于综合科学的再预测方法，操作过程复杂，实用性较差相比，其首先获取多个用户的历史数据集合，其中，每个历史数据集合均包括多个历史数据，历史数据包括目标行为，然后对所有历史数据进行处理，得到所有历史数据对应的最大频繁项集，其中，最大频繁项集中包括多个元素，每个元素按照支持度由小到大的顺序排列，且，每个元素包括多个历史数据，每个元素中的各个历史数据按照支持度由小到大的顺序排列，再者根据目标行为和最大频繁项集中的各个历史数据，确定用于推导目标行为的多个有效关联规则，最后根据目标用户的历史数据集合和各个有效关联规则，确定目标用户执行目标行为的概率，其利用改进的关联规则算法对目标用户执行目标行为进行预测，预测的准确度较高，且操作过程简单，实用性较佳。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例所提供的一种行为预测方法的流程图；

图2示出了本发明实施例所提供的另一种行为预测方法的流程图；

图3示出了本发明实施例所提供的另一种行为预测方法的流程图；

图4示出了本发明实施例所提供的另一种行为预测方法的流程图；

图5示出了本发明实施例所提供的另一种行为预测方法的流程图；

图6示出了本发明实施例所提供的另一种行为预测方法的流程图；

图7示出了本发明实施例所提供的一种行为预测装置的结构示意图；

图8示出了本发明实施例所提供的一种行为预测装置中处理模块的结构示意图；

图9示出了本发明实施例所提供的一种行为预测装置中第二处理单元的结构示意图。

主要元件符号说明：

11、获取模块；22、处理模块；33、规则确定模块；44、行为确定模块；221、第一处理单元；222、第二处理单元；223、生成单元；2221、确定子单元；2222、筛选子单元；2223、排序子单元。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到现有技术中基于决策树算法的再犯罪预测方法由于受限于决策树算法自身存在的多值偏向的问题，导致预测的结果较为单一且预测准确度较低，而基于综合科学的再预测方法，操作过程复杂，实用性较差。另外，对于同时满足预测准确度高和实用性佳的犯罪行为再预测尚无完善的方案。基于此，本发明实施例提供了一种行为预测方法和装置，利用改进的关联规则算法对用户的行为进行预测，预测的准确度较高，且操作过程简单，具有较高的实用性。

参见图1所示的本发明实施例提供的行为预测方法的流程图，所述方法具体包括如下步骤：

S101、获取多个用户的历史数据集合，其中，每个历史数据集合均包括多个历史数据，历史数据包括目标行为；

具体的，考虑到本发明实施例所提供的行为预测方法的具体应用场景，本发明实施例中，上述获取的用户的历史数据来自于公安大数据中的历史犯罪人员数据库。其中，上述历史数据可以包括性别、年龄、婚姻状况、文化程度、就业情况、夜间出行情况、同伙接触情况、涉毒情况、涉赌情况、二手市场出入情况、犯罪次数等信息，多个历史数据则是指上述历史数据中的多个。

另外，对于获取的历史数据而言，本发明实施例所提供的行为预测方法对其进行数据清洗和数据转化，得到的历史数据为：性别＝{男、女}；年龄＝{少年、青年、壮年、中年、老年}；婚姻状况＝{已婚、未婚、离异}；文化程度＝{文盲、初中及以下、高中、大学、研究生及以上}；就业情况＝{长期就业、短期就业、长期失业、短期失业}；夜间出行情况＝{频繁、少数、没有}；前科人员接触情况＝{频繁、一般、很少}；涉毒情况＝{未涉毒、涉毒嫌疑较小、涉毒嫌疑较大、已涉毒}；涉赌情况＝{未涉赌、涉赌嫌疑较小、涉赌嫌疑较大、已涉赌}；二手市场出入情况＝{频繁、少数、没有}；犯罪次数＝{一次、两次、多次}。

S102、对所有历史数据进行处理，得到所有历史数据对应的最大频繁项集，其中，最大频繁项集中包括多个元素，每个元素按照支持度由小到大的顺序排列，且，每个元素包括多个历史数据，每个元素中的各个历史数据按照支持度由小到大的顺序排列；

具体的，本发明实施例所提供的行为预测方法将对上述转化后的历史数据进行处理以得到历史数据对应的最大频繁项集，其中，最大频繁项集中包括多个元素，每个元素按照支持度由小到大的顺序排列，且，每个元素包括多个历史数据，每个元素中的各个历史数据按照支持度由小到大的顺序排列。

S103、根据目标行为和最大频繁项集中的各个历史数据，确定用于推导目标行为的多个有效关联规则；

S104、根据目标用户的历史数据集合和各个有效关联规则，确定目标用户执行目标行为的概率。

具体的，本发明实施例所提供的行为预测方法首先基于最大频繁项集，确定用于推导目标行为的多个关联规则，然后基于预设条件对多个关联规则进行滤过，得到有效关联规则，最后根据有效关联规则，确定目标用户执行上述目标行为的概率。

例如，基于改进后的关联规则Apriori算法对目标行为为上述犯罪次数为“多次”进行关联规则的确定。对于该关联规则的置信度即是指历史犯罪人员再次犯罪，这个事件发生的概率大小；关联规则的支持度在业务中的含义为：在所有历史犯罪人员中，再次犯罪的人员占整体人员的比例大小。置信度和支持度是设置的最低参照值，高于该最低参照值的关联规则才不会被过滤掉(即符合预设条件)，才会最终确定出对应的有效关联规则。其中，若得出的有效关联规则结果过多，或对事件发生的概率有较高要求时，则适当调高置信度和支持度；若得出的有效关联规则结果过于贫乏，或对事件发生的概率要求一般，则适当降低置信度和支持度的值。

另外，接下来对根据目标用户的历史数据集合和各个有效关联规则，确定目标用户执行目标行为的概率(置信度)进行如下举例：

1){性别＝男，年龄＝壮年，婚姻状况＝离异，就业情况＝长期失业、夜间出行情况＝频繁}{犯罪次数＝多次}，支持度占比＝7.2％，置信度＝76.7％；

2){年龄＝中年，前科人员接触情况＝频繁、涉毒情况＝涉毒嫌疑较大}{犯罪次数＝多次}，支持度占比＝6.3％，置信度＝77.3％；

3){年龄＝中年，前科人员接触情况＝频繁、二手市场出入情况＝频繁}{犯罪次数＝多次}，支持度占比＝5.7％，置信度＝80.5％；

4){就业情况＝短期失业、二手市场出入情况＝频繁、涉赌情况＝已涉赌}{犯罪次数＝多次}，支持度占比＝7.9％，置信度＝82.7％。

其中，支持度占比为：关联规则所代表的样本数在整体样本中的占比，置信度为：该关联规则发生的可能性比例。由上述可知，公安部门应加强对已失业、前科人员接触频繁、二手市场出入频繁、涉毒、涉赌的盗窃前科人员进行重点监控，另外，盗窃再犯罪重要诱因有：失业、前科人员接触频繁、二手市场出入频繁、涉毒、涉赌。

本发明实施例提供的行为预测方法，与现有技术中基于决策树算法的再犯罪预测方法所导致的预测结果单一且预测准确度较差以及基于综合科学的再预测方法，操作过程复杂，实用性较差相比，其首先获取多个用户的历史数据集合，其中，每个历史数据集合均包括多个历史数据，历史数据包括目标行为，然后对所有历史数据进行处理，得到所有历史数据对应的最大频繁项集，其中，最大频繁项集中包括多个元素，每个元素按照支持度由小到大的顺序排列，且，每个元素包括多个历史数据，每个元素中的各个历史数据按照支持度由小到大的顺序排列，再者根据目标行为和最大频繁项集中的各个历史数据，确定用于推导目标行为的多个有效关联规则，最后根据目标用户的历史数据集合和各个有效关联规则，确定目标用户执行目标行为的概率，其利用改进的关联规则算法对目标用户执行目标行为进行预测，预测的准确度较高，且操作过程简单，实用性较佳。

为了更好的得到最大频繁项集，上述S102的处理过程，具体通过如下步骤实现，参见图2所示的流程图，所述方法还包括：

S201、对所有历史数据进行处理，得到历史数据对应的第K候选项集，其中，第K候选项集包括多个候选元素，每个候选元素均包括K个历史数据，且每个候选元素中，支持度最小的历史数据为首位历史数据，支持度最大的历史数据为末位历史数据；其中，K大于等于2；

S202、对第K候选项集进行处理，得到第K频繁项集，其中，第K频繁项集包括多个频繁元素，每个频繁元素的支持度均大于预设支持度，各个频繁元素按照支持度由小到大的顺序进行排序，每个频繁元素均包括K个历史数据，且每个频繁元素中，支持度最小的历史数据为首位历史数据，支持度最大的历史数据为末位历史数据；

为了得到上述第K频繁项集，本发明实施例所提供的行为预测方法将基于预设支持度对第K候选项集中的候选元素进行筛选，并根据筛选后的候选元素进行排序，参见图3，上述由第K候选项集生成第K频繁项集的过程具体通过如下步骤实现：

S2021、对于第K候选项集中的每个候选元素，确定候选元素中的前K-1个历史数据共同出现的历史数据集合，根据确定的历史数据集合确定候选元素的支持度；

S2022、根据第K候选项集中每个候选元素的支持度，以及预设支持度，对各个候选元素进行筛选，得到支持度大于预设支持度的候选元素；

S2023、根据得到的每个候选元素的支持度由小到大的顺序，对得到的每个候选元素进行排序，得到第K频繁项集。

S203、若第K频繁项集中，存在前K-1个历史数据相同的多个频繁元素，则将前K-1个历史数据相同的多个频繁元素进行合并，得到第K+1候选项集，若第K频繁项集中，不存在前K-1个历史数据相同的多个频繁元素，则将第K频繁项集确定为所有历史数据对应的最大频繁项集。

另外，本发明实施例所提供的行为预测方法中的第2候选项集是通过第1频繁项集自连接生成的，而该第1频繁项集又是通过对第1候选项集进行筛选得到的，那么，参见图4，上述由第一候选项集得到第1频繁项集，再又第1频繁项集得到第2候选项集的具体过程如下：

S301、将所有历史数据进行组合，得到第一候选项集；

S302、确定第一候选项集对应的第一频繁项集，其中，第一频繁项集中，每个历史数据的支持度均大于预设支持度，且每个历史数据按照支持度由小到大的顺序进行排序；

S303、根据第一频繁项集中各个历史数据的顺序，对第一频繁项集中的各个历史数据进行组合，得到第二候选项集，其中，第二候选项集包括多个候选元素，每个候选元素均包括两个历史数据，且每个候选元素中，支持度最小的历史数据为首位历史数据，支持度最大的历史数据为末位历史数据。

为了更好的对上述最大频繁项集的生成进行阐述，接下来具体举例说明：假设有：原始数据库D＝{T₁,T₂,T₃,…,T₈,T₉}，共有9个事务项(对应于历史数据集)，分别为：事务T₁＝{I₁,I₂,I₅}；T₂＝{I₂,I₄}；T₃＝{I₂,I₃}；T₄＝{I₁,I₂,I₄}；T₅＝{I₁,I₃}；T₆＝{I₂,I₃}；T₇＝{I₁,I₃}；T₈＝{I₁,I₂,I₃,I₅}；T₉＝{I₁,I₂,I₃}，其中，I₁、I₂、I₃、I₄、I₅对应于各个历史数据，令预设最小支持度min_sup＝2，置信度confidence＝60％。

Step1:删除小于min_sup的项最后得到L₁，把每一项处理成(项，事务集合，支持度)的格式，生成频繁1-项集表E₁，如下：

表E₁

项	事务集合	支持度
			I₂	T1,T2,T3,T4,T6,T7,T8,T9	7
I₁	T1,T4,T5,T7,T8,T9	6
			I₃	T3,T5,T6,T7,T8,T9	6
I₄	T2,T4	2
			I₅	T1,T8	2

其中表中对L₁按支持度从小到大排序，使其为I₂>I₁>I₃>I₄＝I₅。根据需要可通过支持度排名进行频繁1-项集(对应于第一频繁项集)的过滤，例如：表E₁中所有项的支持度均满足最小支持度(大于等于2)，假设当前表中80％的项的支持度均大于5，那么在为了提高算法效率的情况，剩下的支持度为2的项可以被过滤掉。

Step2:候选2-项集(对应于第二候选项集)为：C₂＝L₁*L₁(*为自连接运算)

C₂＝{(U₁,U₂)}，其中U₁,U₂∈(I₁,I₂,I₃,I₄,I₅)

C₂的处理方法为：将U₁,U₂分开，找出两者中支持度最小的那个项，以最小项对应的事务集合为标准，在该事务集合中，统计U₁,U₂的支持度。

具体举例为：

(1)在(I₅,I₄),(I₅,I₃)，(I₅,I₁),(I₅,I₂)这四个项中，项I₅的支持度在表E₁较小，则以I₅对应的事务集合{T1,T8}为标准，在表E₁中分别扫描I₄,I₃,I₁,I₂在集合{T1,T8}中出现的次数：

四个项扫描只含两个元素的事务集合{T1,T8}，共计扫描2*4＝8次。

(2)在(I₄,I₁),(I₄,I₃),(I₄,I₂)这三个项中，项I₄的支持度在表E₁较小，则以I₄对应的事务集合{T2,T4}为标准，在表E₁中分别扫描I₃,I₁,I₂在集合{T2,T4}中出现的次数：

三个项扫描只含两个元素的事务集合{T2,T4}，共计扫描2*3＝6次。

(3)在(I₃,I₁),(I₃,I₂)两项中，项I₃的支持度在表E₁较小，则以I₃对应的事务集合{T3,T5,T6,T7,T8,T9}为标准，在表E₁中分别扫描I₁,I₂在集合{T3,T5,T6,T7,T8,T9}中出现的次数：

两个项扫描只含六个元素的事务集合{T2,T4}，共计扫描6*2＝12次。

(4)在(I₁,I₂)中，项I₁的支持度在表E₁较小，则以I₁对应的事务集合{T1,T4,T5,T7,T8,T9}为标准，在表E₁中扫描I₂在集合{T1,T4,T5,T7,T8,T9}中出现的次数：

项	事务集合	支持度
			I₁,I₂	T1,T4,T5,T7,T8,T9	4

一个项扫描只含六个元素的事务集合{T2,T4}，共计扫描6*1＝6次。

那么，对于C₂的处理共扫描了8+6+12+6＝32次。删除支持度小于2的项，则第二频繁项集为L₂＝{(I₅,I₁),(I₅,I₂),(I₄,I₂),(I₃,I₁),(I₃,I₂),(I₁,I₂)}

Step3:候选k-项集(对应于第K候选项集)为：C_k＝L_k-1*L_k-1(k≥2)(*为自连接运算)

自连接操作(k≥2时)：根据Apriori的性质，k≥2时，两个第(k-1)频繁项集自连接，需要前(k-2)项相同才能生成候选k-项集。本发明实施例中将第(k-1)频繁项集的前(k-2)项作为Key值，最后一项为Value值，由Map函数输出。Reduce函数将相同Key值的数据规约到同一Reduce函数，快速的实现自连接操作。以2-项频繁集(对应于第二频繁项集)生成3-项候选集(对应于第三候选项集)为例：在L₂＝{(I₅,I₁),(I₅,I₂),(I₄,I₂),(I₃,I₁),(I₃,I₂),(I₁,I₂)}中，经过Map函数处理，输出结果为：<I₅,I₁>,<I₅,I₂><I₄,I₂>,<I₃,I₁>,<I₃,I₂>,<I₁,I₂>，Map Re duce将其排序后生成的结果为：<I₅,[(I₁),I₂]>,<I₄,I₂>,<I₃,[(I₁),I₂]>,<I₁,I₂>。将该结果输入Re duce函数中进行处理，输出结果为：<I₅,I₁,I₂>,<I₃,I₁,I₂>，此结果作为3-项候选集。

k≥2时，在处理好较为耗时的自连接操作后，则得到频繁k项集(对应于第K频繁项集)L_k的步骤可归纳为：

(1)将L_k-1按支持度从小到大排序有：L_k-1 ⁽¹⁾<L_k-1 ⁽²⁾<…L_k-1 ⁽ⁱ⁾<…<L_k-1 ^(n_(k-1))；

(2)按照排序好的L_k-1生成候选k项集C_k(第K候选项集)，对C_k进行处理：候选k项集C_k＝{(U₁,U₂,…,U_k)}，其中U₁,U₂,…,U_k∈(I₁,I₂,I₃,I₄,I₅)

在k个项U₁,U₂,…,U_k中找出在表E₁中对应的支持度最小的项U_min，以U_min对应的事务集合为标准，在表E₁中扫描U₁,U₂,…,U_k(已剔除U_min)的支持度。在删除小于min_sup的项后可得频繁k项集L_k。

Step4：按step1至step3的操作顺序直至找出最大频繁项集。

考虑到本发明实施例所提供的行为预测方法的具体应用场景，上述S103对应的规则确定过程具体通过如下步骤实现，参见图5，上述方法还包括：

S401、根据目标行为和最大频繁项集中的各个历史数据，确定推导出的历史数据为目标行为的多个关联规则；

S402、确定支持度、置信度均满足要求的关联规则为有效关联规则。

具体的，本发明实施例提供的行为预测方法根据目标行为和最大频繁项集中的各个历史数据，确定推导出的历史数据为目标行为的多个关联规则后，将找出支持度、置信度不低于最低值的一系列关联规则作为有效关联规则。

其中，本发明实施例所提供的行为预测方法在确定出有效关联规则后，还通过必然度对该有效关联规则的置信度进行更新，具体的，将根据每个有效关联规则中用于推导的历史数据，在所有历史数据中出现的第一概率，以及推倒出的历史数据，在所有历史数据中出现的第二概率，确定每个有效关联规则的必然度；

根据每个有效关联规则的必然度和每个有效关联规则的置信度，更新每个有效关联规则的置信度。

为了更好的阐述必然度的概念，接下来对必然度的导出过程进行具体的说明。

在关联规则算法中，对于有效关联规则而言：

1)若项a在数据库中出现的概率越大，则出现的必然性越强；

2)若在项a出现的前提下项b的概率大于项b单独出现的概率，则表示项a出现能引发项b的出现，则出现的必然性越强；

3)若项b在数据库中出现的概率越大，则能推出项b的条件项增多，则出现的需必然性越弱。从客观角度考虑规则引发出现的因素，提出出现的必然度如下：

最后，基于上述必然度对有效关联规则的置信度进行更新，得到更新后的置信度。

为了更好的对用户行为进行预测，参见图6，本发明实施例所提供的行为预测方法中的行为预测过程具体通过如下步骤实现：

S501、在多个有效关联规则中确定与目标用户的历史数据集合对应的有效关联规则；

S502、将对应的有效关联规则更新后的置信度作为目标用户执行目标行为的概率。

具体的，对于前文的历史犯罪人员的历史数据而言，其最终确定的目标用户执行目标行为的概率(置信度)将发生如下改变：

1){性别＝男，年龄＝壮年，婚姻状况＝离异，就业情况＝长期失业、夜间出行情况＝频繁}{犯罪次数＝多次}，支持度占比＝7.2％，更新的置信度＝72.8％；

2){年龄＝中年，前科人员接触情况＝频繁、涉毒情况＝涉毒嫌疑较大}{犯罪次数＝多次}，支持度占比＝6.3％，更新的置信度＝61.8％；

3){年龄＝中年，前科人员接触情况＝频繁、二手市场出入情况＝频繁}{犯罪次数＝多次}，支持度占比＝5.7％，更新的置信度＝74.1％；

4){就业情况＝短期失业、二手市场出入情况＝频繁、涉赌情况＝已涉赌}{犯罪次数＝多次}，支持度占比＝7.9％，更新的置信度＝79.3％。

由上述可知，公安部门应加强对已失业、前科人员接触频繁、二手市场出入频繁、涉毒、涉赌的盗窃前科人员进行重点监控，另外，盗窃再犯罪重要诱因有：失业、前科人员接触频繁、二手市场出入频繁、涉毒、涉赌。

本发明实施例还提供了一种行为预测装置，所述装置用于执行上述行为预测方法，参见图7，所述装置包括：

获取模块11，用于获取多个用户的历史数据集合，其中，每个历史数据集合均包括多个历史数据，历史数据包括目标行为；

处理模块22，用于对所有历史数据进行处理，得到所有历史数据对应的最大频繁项集，其中，最大频繁项集中包括多个元素，每个元素按照支持度由小到大的顺序排列，且，每个元素包括多个历史数据，每个元素中的各个历史数据按照支持度由小到大的顺序排列；

规则确定模块33，用于根据目标行为和最大频繁项集中的各个历史数据，确定用于推导目标行为的多个有效关联规则；

行为确定模块44，用于根据目标用户的历史数据集合和各个有效关联规则，确定目标用户执行目标行为的概率。

为了更好的得到最大频繁项集，参见图8，上述处理模块22具体包括：

第一处理单元221，用于对所有历史数据进行处理，得到历史数据对应的第K候选项集，其中，第K候选项集包括多个候选元素，每个候选元素均包括K个历史数据，且每个候选元素中，支持度最小的历史数据为首位历史数据，支持度最大的历史数据为末位历史数据；其中，K大于等于2；

第二处理单元222，用于对第K候选项集进行处理，得到第K频繁项集，其中，第K频繁项集包括多个频繁元素，每个频繁元素的支持度均大于预设支持度，各个频繁元素按照支持度由小到大的顺序进行排序，每个频繁元素均包括K个历史数据，且每个频繁元素中，支持度最小的历史数据为首位历史数据，支持度最大的历史数据为末位历史数据；

生成单元223，用于在第K频繁项集中存在前K-1个历史数据相同的多个频繁元素时，将前K-1个历史数据相同的多个频繁元素进行合并，得到第K+1候选项集，在第K频繁项集中不存在前K-1个历史数据相同的多个频繁元素时，将第K频繁项集确定为所有历史数据对应的最大频繁项集。

其中，为了得到上述第K频繁项集，本发明实施例所提供的行为预测装置将基于预设支持度对第K候选项集中的候选元素进行筛选，并根据筛选后的候选元素进行排序，参见图9，上述第二处理单元222包括：

确定子单元2221，用于对于第K候选项集中的每个候选元素，确定候选元素中的前K-1个历史数据共同出现的历史数据集合，根据确定的历史数据集合确定候选元素的支持度；

筛选子单元2222，用于根据第K候选项集中每个候选元素的支持度，以及预设支持度，对各个候选元素进行筛选，得到支持度大于预设支持度的候选元素；

排序子单元2223，用于根据得到的每个候选元素的支持度由小到大的顺序，对得到的每个候选元素进行排序，得到第K频繁项集。

另外，本发明实施例所提供的行为预测装置中的第2候选项集是通过第1频繁项集自连接生成的，而该第1频繁项集又是通过对第1候选项集进行筛选得到的，那么，本发明实施例所提供的处理模块22还包括：

第一组合单元，用于将所有历史数据进行组合，得到第一候选项集；

确定单元，用于确定第一候选项集对应的第一频繁项集，其中，第一频繁项集中，每个历史数据的支持度均大于预设支持度，且每个历史数据按照支持度由小到大的顺序进行排序；

第二组合单元，用于根据第一频繁项集中各个历史数据的顺序，对第一频繁项集中的各个历史数据进行组合，得到第二候选项集，其中，第二候选项集包括多个候选元素，每个候选元素均包括两个历史数据，且每个候选元素中，支持度最小的历史数据为首位历史数据，支持度最大的历史数据为末位历史数据。

考虑到本发明实施例所提供的行为预测装置的具体应用场景，上述规则确定模块33还用于根据目标行为和最大频繁项集中的各个历史数据，确定推导出的历史数据为目标行为的多个关联规则；确定支持度、置信度均满足要求的关联规则为有效关联规则。

其中，本发明实施例所提供的行为预测装置在确定出有效关联规则后，还将通过自身包括的更新模块基于必然度对该有效关联规则的置信度进行更新，其中，上述更新模块，用于根据每个有效关联规则中用于推导的历史数据，在所有历史数据中出现的第一概率，以及推倒出的历史数据，在所有历史数据中出现的第二概率，确定每个有效关联规则的必然度；根据每个有效关联规则的必然度和每个有效关联规则的置信度，更新每个有效关联规则的置信度。

为了更好的对用户行为进行预测，本发明实施例所提供的行为预测装置中的行为确定模块44还用于，在多个有效关联规则中确定与目标用户的历史数据集合对应的有效关联规则；将对应的有效关联规则更新后的置信度作为目标用户执行目标行为的概率。

本发明实施例提供的行为预测装置，与现有技术中基于决策树算法的再犯罪预测方法所导致的预测结果单一且预测准确度较差以及基于综合科学的再预测方法，操作过程复杂，实用性较差相比，其首先获取多个用户的历史数据集合，其中，每个历史数据集合均包括多个历史数据，历史数据包括目标行为，然后对所有历史数据进行处理，得到所有历史数据对应的最大频繁项集，其中，最大频繁项集中包括多个元素，每个元素按照支持度由小到大的顺序排列，且，每个元素包括多个历史数据，每个元素中的各个历史数据按照支持度由小到大的顺序排列，再者根据目标行为和最大频繁项集中的各个历史数据，确定用于推导目标行为的多个有效关联规则，最后根据目标用户的历史数据集合和各个有效关联规则，确定目标用户执行目标行为的概率，其利用改进的关联规则算法对目标用户执行目标行为进行预测，预测的准确度较高，且操作过程简单，实用性较佳。

另外，本发明实施例所提供的行为预测方法和装置还能够带来如下技术效果：

(1)通过运用改进后的关联规则算法，克服了决策树算法多值偏向、决策树算法预测再犯罪的结果为单一且不准确的缺陷；

(2)在基于社会学、心理学和管理学方面的再犯罪研究领域，避免了其复杂性和不易推广性，节省了一定的人力物力。同时运用机器学习中的关联规则对数据进行的自我迭代，在一定程度上也避免了由于人为参与所造成的主观性。

(3)通过置信度给出案件属性与再犯罪之间关联的概率，置信度大小的自由调整对寻找影响再犯罪的因素指标更为方便灵活，结合专家的经验指导，可以使关联规则的结果更为准确。

本发明实施例所提供的进行行为预测的方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

本发明实施例所提供的行为预测的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种行为预测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所有所述历史数据进行处理，得到所有所述历史数据对应的最大频繁项集，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述第K候选项集进行处理，得到第K频繁项集，包括：

4.根据权利要求2所述的方法，其特征在于，所述对所有所述历史数据进行处理，得到所有所述历史数据对应的最大频繁项集，还包括：

将所有所述历史数据进行组合，得到第一候选项集；

5.根据权利要求1所述的方法，其特征在于，所述根据目标行为和所述最大频繁项集中的各个所述历史数据，确定用于推导所述目标行为的多个有效关联规则，包括：

6.根据权利要求5所述的方法，其特征在于，还包括：

7.根据权利要求6所述的方法，其特征在于，所述根据目标用户的所述历史数据集合和各个所述有效关联规则，确定所述目标用户执行所述目标行为的概率，包括：

8.一种行为预测装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述处理模块包括：

10.根据权利要求9所述的装置，其特征在于，所述第二处理单元包括：