CN112818226A

CN112818226A - 数据处理方法、推荐方法、装置、电子设备及存储介质

Info

Publication number: CN112818226A
Application number: CN202110117727.8A
Authority: CN
Inventors: 刘振杰; 张祺君
Original assignee: Workway Shenzhen Information Technology Co ltd
Current assignee: Workway Shenzhen Information Technology Co ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-05-18
Anticipated expiration: 2041-01-28
Also published as: CN112818226B

Abstract

本申请涉及大数据技术领域，公开了一种数据处理方法、推荐方法、装置、电子设备及存储介质，该数据处理方法包括：获取事务数据集，事务数据集中的每个事务数据包括至少一项用户属性信息和用户针对业务对象进行的操作数据；确定事务数据集中包含的频繁项集，其中每个频繁项集包括至少一项用户属性信息和操作数据；基于频繁项集，确定用户属性信息和业务对象之间的关联关系；其中，在确定频繁项集的过程中增加了针对候选频繁项集的预剪枝操作，以减少候选频繁项集的数量，提高了处理用户数据的效率。

Description

数据处理方法、推荐方法、装置、电子设备及存储介质

技术领域

本申请涉及大数据技术领域，尤其涉及一种数据处理方法、推荐方法、装置、电子设备及存储介质。

背景技术

随着云计算技术、大数据技术的兴起，人们越来越关注数据挖掘技术在大数据环境下的应用。数据挖掘技术能够基于大量用户的年龄、性别、偏好、行为等信息，挖掘出用户属性与行为之间的内在关联，进而基于这种内在关联，精准地向用户推荐信息。例如，企业拥有大量来自业务部门的客户数据，这部分数据经过预处理、转化、加工、整合等操作，形成相对高质量的数据集，利用数据挖掘技术对大量客户的属性信息和购买行为进行分析和挖掘，获得用户属性与购买行为之间的关联关系，从而定位目标用户群体，实现精准地产品推荐。

但是，传统的关联关系挖掘方法，因大量数据计算的高延时等约束条件，不能高效、精准地挖掘出事务间的关联关系，进而导致无法高效地进行推荐。

发明内容

本申请实施例提供一种数据处理方法、推荐方法、装置、电子设备及存储介质，在确定待挖掘的事务数据集包含的频繁项集的过程中，增加了针对候选频繁项集的预剪枝操作，以减少候选频繁项集的数量，提高了大数据处理效率，进而可以精准高效地定位到目标用户以及用户需求，高效精准地进行推荐，以应对瞬息万变的网络数据更新。

第一方面，本申请一实施例提供了一种数据处理方法，包括：

获取事务数据集，所述事务数据集中的每个事务数据包括至少一项用户属性信息和用户针对业务对象进行的操作数据；

确定所述事务数据集中包含的频繁项集，其中，每个频繁项集包括至少一项用户属性信息和操作数据；

基于所述频繁项集，确定用户属性信息和业务对象之间的关联关系；

其中，通过如下方式确定所述频繁项集中的频繁k项集：

基于频繁(k-1)项集确定候选k项集，其中k为大于2的整数，每个候选k项集包括(k-1)项用户属性信息和操作数据；

删除包含非频繁2项集的候选k项集，其中非频繁2项集包括不属于频繁2项集的2项集；

基于所述事务数据集统计未被删除的候选k项集的支持度；以及

基于所述未被删除的候选k项集的支持度，从所述未被删除的候选k项集中确定出频繁k项集。

可选地，所述基于所述事务数据集统计未被删除的候选k项集的支持度之前，所述方法还包括：

删除所述事务数据集中项数小于k的事务数据。

可选地，所述基于所述事务数据集统计未被删除的候选k项集的支持度，具体包括：

针对未被删除的候选k项集中的任一候选k项集，通过如下步骤获得所述任一候选k项集的支持度：

统计所述任一候选k项集在临时数据表中出现的次数m₁；

依次对所述事务数据集中的每个事务数据进行统计操作和删除操作；其中，所述统计操作包括：若所述每个事务数据包含所述任一候选k项集，则所述任一候选k项集在所述事务数据集中出现的次数m₂增加1；所述删除操作包括：若所述每个事务数据与所述任一候选k项集相同，则删除所述事务数据集中的所述每个事务数据，以及若所述每个事务数据包含的项数为k且所述每个事务数据与所述任一候选k项集不同，则将所述每个事务数据添加到所述临时数据表，并删除所述事务数据集中的所述每个事务数据；

基于次数m₁和次数m₂之和，确定所述任一候选k项集的支持度。

可选地，所述方法还包括：在获得所有未被删除的候选k项集的支持度后，清空所述临时数据表。

可选地，其中，通过如下方式确定所述频繁项集中的频繁1项集和频繁2项集：

将所述事务数据集中出现的一种用户属性信息作为一个候选1项集，将所述事务数据集中出现的一种操作数据作为一个候选1项集；

基于所述事务数据集统计每个候选1项集的支持度；

基于所述未被删除的候选1项集的支持度，从所述未被删除的候选1项集中确定出频繁1项集；

基于频繁1项集获得候选2项集，其中每个候选2项集包括1项用户属性信息和操作数据；

基于所述事务数据集统计未被删除的候选2项集的支持度；以及

基于所述未被删除的候选2项集的支持度，从所述未被删除的候选2项集中确定出频繁2项集。

第二方面，本申请一实施例提供了一种推荐方法，包括：

获取目标用户的用户属性信息；

基于第一方面中任一项所述的数据处理方法确定的关联关系，确定所述目标用户的用户属性信息对应的目标业务对象；

将与所述目标业务对象关联的待推荐对象发送给所述目标用户。

第三方面，本申请一实施例提供了一种数据处理装置，包括：

数据获取模块，用于获取事务数据集，所述事务数据集中的每个事务数据包括至少一项用户属性信息和用户针对业务对象进行的操作数据；

频繁项集确定模块，用于确定所述事务数据集中包含的频繁项集，其中，每个频繁项集包括至少一项用户属性信息和操作数据；

关联关系确定模块，用于基于所述频繁项集，确定用户属性信息和业务对象之间的关联关系；

其中，所述频繁项集确定模块具体用于通过如下方式确定所述频繁项集中的频繁k项集：

可选地，所述频繁项集确定模块还用于：在基于所述事务数据集统计未被删除的候选k项集的支持度之前，删除所述事务数据集中项数小于k的事务数据。

可选地，所述频繁项集确定模块具体用于：

统计所述任一候选k项集在临时数据表中出现的次数m₁；

可选地，所述频繁项集确定模块还用于在获得所有未被删除的候选k项集的支持度后，清空所述临时数据表。

可选地，所述频繁项集确定模块具体用于通过如下方式确定所述频繁项集中的频繁1项集和频繁2项集：

基于所述事务数据集统计每个候选1项集的支持度；

第四方面，本申请一实施例提供了一种推荐装置，包括：

属性信息获取模块，用于获取目标用户的用户属性信息；

目标确定模块，用于基于权利要求1至5任一项所述的方法确定的关联关系，确定所述目标用户的用户属性信息对应的目标业务对象；

发送模块，用于将与所述目标业务对象关联的待推荐对象发送给所述目标用户。

第五方面，本申请一实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现上述任一种方法的步骤。

第六方面，本申请一实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时实现上述任一种方法的步骤。

第七方面，本申请一实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现上述任一种方法的步骤。

本申请实施例提供的数据处理方法、推荐方法、装置、电子设备及存储介质，在确定待挖掘的事务数据集包含的频繁项集的过程中，增加了针对候选频繁项集的预剪枝操作，以减少后续剪枝过程以及统计支持度时参与的候选频繁项集的数量，提高了处理海量用户数据时的处理效率，进而可以高效精准地挖掘出用户属性信息和业务对象之间的关联关系，后续可基于用户属性信息和业务对象之间的关联关系，定位到目标用户群体以及用户需求，进而高效精准地进行数据推荐，以应对海量网络数据的更新。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的数据处理方法的流程示意图；

图2为本申请实施例提供的挖掘事务数据集中频繁项集的流程示意图；

图3为本申请实施例提供的统计未被删除的候选k项集的支持度的流程示意图；

图4为本申请实施例提供的不同数据量时各个算法运行时间的比较图；

图5为本申请实施例提供的同一数据量下不同支持度各个算法运行时间的比较图；

图6为本申请实施例提供的推荐方法的流程示意图；

图7为本申请实施例提供的数据处理装置的结构示意图；

图8为本申请实施例提供的推荐装置的结构示意图；

图9为本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合；并且，基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

为了方便理解，下面对本申请实施例中涉及的名词进行解释：

云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临，大数据也吸引了越来越多的关注，大数据需要特殊的技术，以有效地处理大量的数据。适用于大数据的技术，包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

项集：是指若干个项的集合。包含k个项的项集称为k项集。

项数：是指一个项集包含的项的数量。

事务数据集：是多个事务数据的集合。其中每个事务数据包含相关的多个项，用于描述该事务数据，一个事务数据可以看作一个项集。例如用户的购物记录可以是一条事务数据，其中的项可包括用户性别、年龄、职业、购物日期、购买的产品等信息。

支持度：是指某个项集在事务数据集中出现的频率。例如，A是一个项集，事务数据集D中事务数据的总数量为N，事务数据集D包含项集A的个数为n_A，则项集A在事务数据集D中的支持度sup_count(A)＝n_A/N。

频繁模式：是指事务数据集中频繁出现的项集。一般可给定最小支持度阈值min_sup，如果某个项集A满足sup_count(A)≥min_sup，则称项集A为事务数据集D的一个频繁项集，即频繁项集可以指支持度不小于最小支持度(min_sup)的项集。包含k个项的频繁项集称为频繁k项集。

Apriori算法是一种经典的挖掘关联关系的算法，其基本思想是通过逐层搜索的迭代方法，用频繁k项集自连接产生候选(k+1)项集，通过扫描数据集得到频繁(k+1)项集及其支持度。具体地，通过扫描数据集首先找出频繁1项集的集合(记为L₁)。L₁用于找出频繁2项集的集合L₂，而L₂用于找出频繁3项集的集合L₃，如此下去，直到不能找到频繁k项集。为了提高频繁项集逐层产生的效率，应用Apriori性质可将寻找频繁项集分为两个过程：

(1)产生候选项集：通过L_k与自己连接产生候选(k+1)项集的集合，该候选项集的集合记作C_k+1。设A和B是两个频繁k项集，假定数据集中的项集按字典排序，如果A[1]＝B[1]∧A[2]＝B[2]∧...A[k-1]＝B[k-1]∧A[k]＝B[k]，则称A，B是可连接的，连接后的产生的(k+1)项集是A[1]A[2]...A[k-1]A[k]B[k]。

(2)剪枝：根据Apriori性质，如果候选(k+1)项集中的某个k项集非频繁，则该候选项集一定不是频繁项集。因此，如果一个候选(k+1)项集内的k项集不在L_k中，则该候选(k+1)项集也不可能是频繁项集，从而可以将该候选(k+1)项集从C_k中删除。然后扫描事务数据集，确定C_k中的每个候选(k+1)项集的支持度，从而确定出频繁k项集的集合L_k。

Apriori算法应用于挖掘关联关系中的缺点是：会产生大量候选频繁项集及需要多次扫描数据集，导致大量数据计算的高延时，不能高效、精准地挖掘出事务间的关联关系。

在具体实践过程中，本申请发明人发现了频繁项集的相关定理和性质：

定理1：设连接频繁k项集A和B，得到(k+1)项集c，当且仅当c存在非频繁2项集{A[k]，B[k]}时，项集c存在非频繁k项集。

上述定理1的证明过程如下：设c＝{A[1]，A[2]，...，A[k-1]，A[k]，B[k]}，则项集c的k项集{A[1]，A[2]，...，A[k-1]，A[k]}和{A[1]，A[2]，...，A[k-1]，B[k]}一定是频繁项集。设a[1]，a[2]，...，

A[2]，...，A[k-1]，在项集c的(k+1)项集{a[1]，a[2]，...，a[k-1]，A[k]，B[k]}中，根据Apriori性质，项集{a[1]，a[2]，...，a[k-1]，A[k]}一定是频繁项集，如果2项集{A[k]，B[k]}是非频繁项集，则k项集{a[1]，a[2]，...，a[k-1]，A[k]，B[k]}一定是非频繁项集，反之亦然，从而结论成立。

性质1：任意一个k项集的支持度与项数小于k的事务数据无关。

例如，在统计3项集{A,B,C}的支持度时，1项或2项的事务数据中不可能会包含项集{A,B,C}，因此不会统计1项或2项的事务数据，这代表3项集{A,B,C}的支持度与项数小于3的事务数据无关。

基于上述定理1，本申请提供了一种数据处理方法，在确定事务数据集的频繁项集的过程中，先对候选频繁项集进行预剪枝操作，然后再进行传统的剪枝过程，以减少候选频繁项集的数量，提高了处理用户数据的效率。其核心思想是：根据定理1生成候选项集C_k时，首先扫描频繁2项集，删除C_k中包含非频繁2项集的项，然后再进行传统的剪枝过程。

参考图1，本申请实施例提供了一种数据处理方法，包括如下步骤：

S101、获取事务数据集，事务数据集中的每个事务数据包括至少一项用户属性信息和用户针对业务对象进行的操作数据。

其中，用户属性信息可以是任意一种可以描述用户特征、对用户进行区分的信息，包括但不限于性别、年龄、职业、收入、用户偏好、所在地区以及历史操作数据等信息。业务对象包括但不限于商品(包括实物和虚拟商品)、服务、网络多媒体资源(如电影、视频、小说、课程资源等)等。用户针对业务对象进行的操作数据可以是购买操作、浏览操作、收藏操作等，如购买某种商品或服务、观看电影、参与网络课程等。

需要说明的是，每种用户属性可对应多个取值，如性别分为男和女，年龄可划分成0-10、11-20、21-30等多个区间，职业可划分成多个类别，每种用户属性的多个取值分别对应事务数据中不同的项，如性别男在事务数据中用项A表示，性别女在事务数据中用项B表示，这样就可以得出男性和女性分别关注的业务对象。

事务数据集中的事务数据来自于大量的用户。事务数据集中的每条事务数据可以是针对同一业务对象的，此时挖掘的仅仅是该业务对象与哪些用户属性信息关联。当然，事务数据集中也可以包含针对多个业务对象的事务数据，此时可以同时挖掘出这多个业务对象分别关联的用户属性信息。

此外，事务数据中还可以包括历史操作数据，该历史操作数据包括用户之前针对多个业务对象的操作数据，以挖掘出多个业务对象之间的关联关系。例如大量用户在购买商品A后会购买商品B，则商品A和商品B之间具有关联关系，后续在监测到用户购买商品A后，可向该用户推送商品B的信息。

S102、确定事务数据集中包含的频繁项集，其中，每个频繁项集包括至少一项用户属性信息和操作数据。

具体实施时，通过逐层搜索的迭代方法依次确定频繁k项集，k＝1,2,3,……，直至频繁k项集为空，参考图2，具体包括如下步骤：

S201、先确定频繁1项集。

具体地，将事务数据集中出现的一种用户属性信息作为一个候选1项集，将事务数据集中出现的一种操作数据作为一个候选1项集；基于事务数据集统计每个候选1项集的支持度；基于未被删除的候选1项集的支持度，从未被删除的候选1项集中确定出频繁1项集。

具体实施时，将支持度不小于最小支持度阈值的未被删除的候选1项集，确定为频繁1项集。本申实施例中的最小支持度阈值可根据实际应用需求设定，不作限定。

S202、基于频繁1项集确定频繁2项集。

具体地，基于频繁1项集获得候选2项集，其中每个候选2项集包括1项用户属性信息和操作数据；基于事务数据集统计未被删除的候选2项集的支持度；基于未被删除的候选2项集的支持度，从未被删除的候选2项集中确定出频繁2项集。

其中，可通过频繁1项集的集合L₁与自己连接产生候选2项集的集合，例如频繁1项集的集合L₁＝{A,B,C}，则可以产生的候选2项集包括：{A,B}、{A,C}和{B,C}。

此处确定频繁1项集和频繁2项集的具体方式与现有技术相同，不再赘述。

S203、基于频繁(k-1)项集确定候选k项集。

步骤S203中，k的初始值为3。

其中，每个候选k项集包括(k-1)项用户属性信息和操作数据。

S204、删除包含非频繁2项集的候选k项集。

其中，非频繁2项集包括不属于频繁2项集的2项集，例如，频繁2项集包括：{A,B}和{A,C}，则2项集{B,C}就是非频繁2项集。根据定理1可知，只要候选k项集中包含不属于频繁2项集的2项集，则该候选k项集就不是频繁项集，可以直接将其从候选k项集的集合中删除，上述步骤S204即为预剪枝过程，可在执行步骤S205之前，减少候选k项集的数量，提高数据处理效率。

S205、基于事务数据集统计未被删除的候选k项集的支持度。

具体地，统计每个未被删除的候选k项集在事务数据集中出现的次数m，将统计获得的次数m除以事务数据集包含的事务数据的总数量N，得到该候选k项集的支持度m/N。

S206、基于未被删除的候选k项集的支持度，从未被删除的候选k项集中确定出频繁k项集。

具体地，将支持度不小于最小支持度阈值的未被删除的候选k项集，确定为频繁k项集。

S207、判断频繁k项集是否为空；若否，则k的值增加1并返回执行步骤S203；若是，则结束循环。

S103、基于频繁项集，确定用户属性信息和业务对象之间的关联关系。

频繁1项集仅包含一项，因此并不能根据频繁1项集确定出任何关联关系，因此本申请中确定频繁1项集的目的是为了获得候选2项集。因此，可基于除频繁1项集以外的频繁项集，确定出用户属性信息和业务对象之间的关联关系。

具体地，为频繁k项集中的(k-1)个用户属性信息和操作数据中的业务对象建立关联关系。例如，一个频繁3项集为{A,F,G}，其中，A表示男性，F表示职业是程序员，G表示购买了XX品牌电脑，则可以确定男性程序员与XX品牌电脑之间存在关联关系；一个频繁4项集为{B,D,H,M}，其中B表示女性，D表示职业是时尚杂志编辑，H表示年龄段为31-40岁，M表示购买了XX品牌香水，则可以确定31-40岁之间的女性时尚杂志编辑与XX品牌香水之间存在关联关系。

本申请实施的数据处理方法，在确定待挖掘的事务数据集包含的频繁项集的过程中，增加了针对候选频繁项集的预剪枝操作，以减少后续剪枝过程以及统计支持度时参与的候选频繁项集的数量，提高了处理海量用户数据时的处理效率，进而可以高效精准地挖掘出用户属性信息和业务对象之间的关联关系，后续可基于用户属性信息和业务对象之间的关联关系，定位到目标用户群体以及用户需求，进而高效精准地进行数据推荐，以应对海量网络数据的更新。

进一步地，在确定频繁k项集之前，可根据性质1将项数小于k的事务数据从事务数据集中删除，从而达到压缩事务数据集的目的，减少剪枝以及统计支持度过程中需要扫描的数据量，进一步地提高数据处理效率。

需要说明的是，在采用压缩事务数据集这一方案的实施方式中，计算支持度sup_count(A)＝n_A/N中的N是指压缩前的事务数据集包含的事务数据的总数量N，即原始的事务数据集包含的事务数据的总数量N。

在一种可能的实施方式中，可在基于事务数据集统计未被删除的候选k项集的支持度之前，删除事务数据集中项数小于k的事务数据。

以图2所示的流程为例，如果事务数据集中存在项数为1的事务数据时，可在步骤S201和S202之间可增加删除事务数据集中项数小于2的事务数据，即在确定频繁2项集之前删除事务数据集中项数为1的事务数据。在步骤S202和S203之间可增加删除事务数据集中项数小于3的事务数据，即在确定频繁3项集之前删除事务数据集中项数为2的事务数据。可在步骤S203和S205之间增加“删除事务数据集中项数小于k的事务数据”的步骤，即在确定频繁k项集之前删除事务数据集中项数小于k的事务数据；或者可以在步骤S205之后增加“删除事务数据集中项数不大于k的事务数据”的步骤，即在确定频繁(k+1)项集之前删除事务数据集中项数小于(k+1)的事务数据。

在另一种可能的实施方式中，可在统计候选k项集的支持度的同时，逐个删除事务数据集中的k项集，提高数据处理效率。

具体地，针对未被删除的候选k项集中的任一候选k项集，通过如下步骤获得任一候选k项集的支持度：统计任一候选k项集在临时数据表中出现的次数m₁；依次对事务数据集中的每个事务数据进行统计操作和删除操作；其中，统计操作包括：若某一事务数据包含该任一候选k项集，则该任一候选k项集在事务数据集中出现的次数m₂增加1；删除操作包括：若该事务数据与该任一候选k项集相同，则删除事务数据集中的该事务数据，以及若该个事务数据包含的项数为k且该事务数据与该任一候选k项集不同，则将该事务数据添加到临时数据表，并删除事务数据集中的该事务数据；基于次数m₁和次数m₂之和，确定任一候选k项集的支持度。进一步地，在获得所有未被删除的候选k项集的支持度后，清空临时数据表。

参考图3，在图2所示的流程基础上，步骤S205具体包括：

S301、统计候选k项集C_k,i’在临时数据表中出现的次数m₁。

其中，C_k,i’未被未被删除的候选k项集的集合C’中的第i个候选k项集。i的初始值为1。

其中，临时数据表用于存储待压缩的事务数据。临时数据表中的数据结构如下：

Tid

Transaction

T_length

其中，Tid表示事务数据的唯一标识，Transaction是事务数据的内容，T_length是事务数据包含的项数。

当临时数据表不为空时，可优先扫描临时数据表，即优先将临时数据表中的事务数据与候选k项集进行比对，以确定任一候选k项集在临时数据表中出现的次数m₁。当临时数据表为空时，可以直接执行步骤S302。

S302、将事务数据D_j与候选k项集C_k,i’进行比对。

其中，事务数据D_j为事务数据集中的第j个事务数据。j的初始值为1。

S303、若基于比对结果确定事务数据D_j含候选k项集C_k,i’，则候选k项集C_k,i’在事务数据集中出现的次数m₂增加1。

S304、基于比对结果判断事务数据D_j与候选k项集C_k,i’是否相同，若相同，则执行步骤S307，若不同，则执行步骤S305。

S305、判断事务数据D_j包含的项数是否为k；若是，则执行步骤S306；若否，则j的值增加1，返回执行步骤S302。

S306、将事务数据D_j添加到临时数据表，并执行步骤S307。

S307、删除事务数据集中的事务数据D_j。

S308、判断事务数据D_j是否为事务数据集中的最后一个事务数据；若是，则执行309；若否，则j的值增加1，返回执行步骤S302。

其中，步骤S303对应统计操作，S304～S307对应删除操作(即事务压缩)。统计操作和删除操作的执行顺序不分先后，可以同时执行，也可以先执行统计操作再执行删除操作，或者先执行删除操作再执行统计操作。

S309、基于次数m₁和次数m₂之和，确定候选k项集C_k,i’的支持度。

具体地，将次数m₁和次数m₂之和除以事务数据集包含的事务数据的总数量N，得到候选k项集C_k,i’的支持度。

S310、判断候选k项集C_k,i’是否为集合C’最后一个候选k项集；若是，则执行步骤S311，否则i的值增加1并返回执行步骤S301。

S311、清空临时数据表。

基于图3所示的实施方式，可在步骤S202和S203之间可增加“删除事务数据集中项数小于3的事务数据”的步骤，即在确定频繁3项集之前删除事务数据集中项数为1和2的事务数据。

执行“删除事务数据集中项数小于k的事务数据”这一步骤，需要重新遍历整个事务数据集，而基于图3所示的实施方式，可在统计候选k项集的支持度的同时，逐个删除事务数据集中的k项集，相当于只需遍历一次事务数据集，就可以完成统计支持度和事务压缩这两个步骤，进一步提高了数据处理效率。

具体实施时，还可以将事务数据集划分成多个子事务数据集，对多个子事务数据并行进行处理，进一步地提高数据处理效率。基于本申请实施例提供的数据处理方法，分别对每个子事务数据集进行处理，在这过程中支持sup_count(A)＝n_A/N中的N是指压缩前的子事务数据集包含的事务数据的总数量。

下面用一个示例对并行数据处理的过程机型说明。假设事务数据集D＝{ADF,ABCE,BCDE,ABCDE,ABCDF,ACDEF,DFG,BCEG,CDEG,BCDEG,BCDFG,CDEFG}，其中有12条事务数据，预定义最小支持度阈值为0.5。首先对数据集进行水平分为D1和D2两个子事务数据集，利用上述算法提取频繁项集的过程如下表所示：

最后，整体扫描事务数据集D，对所有的局部频繁k项集进支持度统计，得到全局频繁项集allFrequentItemset＝{B,C,D,E,F,G,BC,CD,CE,DE,DF,CDE}；这个结果与串行过程得到的结果是一致的，证明了并行数据处理过程的有效性。

上述示例中使用的设备包括：硬件设施为3台CPU Intel Core2、主频1.8GHz、2G内存，操作系统为CentOS6.5台式机，1台为mater节点，同时也作为worker节点，另外2台为worker节点。所用软件为Eclipse3.7，JDK1.7，Hadoop2.4.0平台，实验数据采用IBM数据库生成器随机生成数据。

图4和图5给出了单机的Apriori算法、Hadoop平台上的MRApriori算法以及基于Hadoop平台的MRCPA(Map-Reduce Compress Pre-pruningApriori)算法之间的性能对比。其中MRApriori算法为基于Apriori算法和Hadoop平台的并行优化算法，MRCPA算法为本申请提供的数据处理方法在基于Hadoop平台上的应用。

图4给出了不同数据量时，各个算法运行时间的比较。从图4中可以看出，较传统的Apriori算法，算法MRApriori和算法MRCPA在执行时间上有明显的优势，尤其在数据量不断增大的时候，这种优势表现的更为明显。与MRApriori算法相比，本申请提供的MRCPA算法也具有更高的执行效率。

图5给出了同一数据量下不同支持度各个算法运行时间的比较。从图5中可以看出，针对同一数据不同的支持度，本申请提供的MRCPA算法所用时间比Apriori算法和MRApriori算法更少。图5中支持度从0.02到0.04时所用时间下降较快的原因是数据集支持度主要集中在0.02到0.04之间。

基于上述任一实施方式中的数据处理方法，本申请实施还提供了一种推荐方法，参考图6，具体包括如下步骤：

S601、获取目标用户的用户属性信息。

S602、基于预先确定的用户属性信息和业务对象之间的关联关系，确定目标用户的用户属性信息对应的目标业务对象。

其中，关联关系是本申请实施例提供的任意一种数据处理方法获得的。

S603、将与目标业务对象关联的待推荐对象发送给目标用户。

其中，可预先确定好与目标业务对象关联的一个或多个待推荐对象。待推荐对象可以是与目标业务对象同类型的业务对象，也可以是目标业务对象相关的业务对象，还可以是目标业务对象本身。待推荐对象包括不限于商品、多媒体资源、资讯信息等。

例如，挖掘到的关联关系包括：{A,F,G}和{B,D,H,M}，{A,F,G}表示男性程序员爱购买XX品牌电脑，B,D,H,M}表示31-40岁之间的女性时尚杂志编辑爱购买XX品牌香水。若用户一的性别为男，职业是程序员，则可以向用户一推荐XX品牌电脑以及相关配件，甚至还可以推荐XX品牌电脑相关的资讯信息。若用户二的性别为女，职业是时尚杂志编辑，年龄在35岁，则可以向用户二推荐XX品牌香水以及XX品牌的相关产品，或者XX品牌的相关资讯。

本申请实施的推荐方法，基于预剪枝和事务压缩的数据处理方法，高效精准地从海量真实地用户数据中挖掘出用户属性和业务对象之间的关联关系，进而基于这些关联关系，定位到目标用户群体以及预测用户需求，进而高效精准地进行数据推荐，以应对海量网络数据的更新。

本申请实施的数据处理方法和推荐方法，可基于大数据技术、同时可结合云计算的弹性扩缩容功能实现快速、精准的事务间关联关系挖掘，并基于事务间关联关系实现高效精准推荐业务对象的目的。

如图7所示，基于与上述数据处理方法相同的发明构思，本申请实施例还提供了一种数据处理装置70，具体包括：数据获取模块701、频繁项集确定模块702和关联关系确定模块703。

数据获取模块701，用于获取事务数据集，所述事务数据集中的每个事务数据包括至少一项用户属性信息和用户针对业务对象进行的操作数据；

频繁项集确定模块702，用于确定所述事务数据集中包含的频繁项集，其中，每个频繁项集包括至少一项用户属性信息和操作数据；

关联关系确定模块703，用于基于所述频繁项集，确定用户属性信息和业务对象之间的关联关系；

其中，所述频繁项集确定模块702具体用于通过如下方式确定所述频繁项集中的频繁k项集：

可选地，所述频繁项集确定模块702还用于：在基于所述事务数据集统计未被删除的候选k项集的支持度之前，删除所述事务数据集中项数小于k的事务数据。

可选地，所述频繁项集确定模块702具体用于：

统计所述任一候选k项集在临时数据表中出现的次数m₁；

可选地，所述频繁项集确定模块702还用于在获得所有未被删除的候选k项集的支持度后，清空所述临时数据表。

可选地，所述频繁项集确定模块702具体用于通过如下方式确定所述频繁项集中的频繁1项集和频繁2项集：

基于所述事务数据集统计每个候选1项集的支持度；

本申请实施例提的数据处理装置与上述数据处理方法采用了相同的发明构思，能够取得相同的有益效果，在此不再赘述。

如图8所示，基于与上述数据处理方法相同的发明构思，本申请实施例还提供了一种推荐装置80，具体包括：属性信息获取模块801、目标确定模块802和发送模块803。

属性信息获取模块801，用于获取目标用户的用户属性信息；

目标确定模块802，用于基于权利要求1至5任一项所述的方法确定的关联关系，确定所述目标用户的用户属性信息对应的目标业务对象；

发送模块803，用于将与所述目标业务对象关联的待推荐对象发送给所述目标用户。

本申请实施例提的推荐装置与上述推荐方法采用了相同的发明构思，能够取得相同的有益效果，在此不再赘述。

基于与上述数据处理方法或推荐方法相同的发明构思，本申请实施例还提供了一种电子设备，该电子设备该电子设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal DigitalAssistant，PDA)、服务器等。如图9所示，该电子设备90可以包括处理器901和存储器902。

处理器901可以是通用处理器，例如中央处理器(CPU)、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的数据处理方法或推荐方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器902作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(RandomAccess Memory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器902还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

本申请实施例提供了一种计算机可读存储介质，用于储存为上述电子设备所用的计算机程序指令，其包含用于执行上述数据处理方法或推荐方法的程序。

上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

以上实施例仅用以对本申请的技术方案进行了详细介绍，但以上实施例的说明只是用于帮助理解本申请实施例的方法，不应理解为对本申请实施例的限制。本技术领域的技术人员可轻易想到的变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，包括：

其中，通过如下方式确定所述频繁项集中的频繁k项集：

2.根据权利要求1所述的方法，其特征在于，所述基于所述事务数据集统计未被删除的候选k项集的支持度之前，所述方法还包括：

删除所述事务数据集中项数小于k的事务数据。

3.根据权利要求1所述的方法，其特征在于，所述基于所述事务数据集统计未被删除的候选k项集的支持度，具体包括：

统计所述任一候选k项集在临时数据表中出现的次数m₁；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：在获得所有未被删除的候选k项集的支持度后，清空所述临时数据表。

5.根据权利要求1至4任一项所述的方法，其特征在于，其中，通过如下方式确定所述频繁项集中的频繁1项集和频繁2项集：

基于所述事务数据集统计每个候选1项集的支持度；

6.一种推荐方法，其特征在于，包括：

获取目标用户的用户属性信息；

基于权利要求1至5任一项所述的方法确定的关联关系，确定所述目标用户的用户属性信息对应的目标业务对象；

7.一种数据处理装置，其特征在于，包括：

8.一种推荐装置，其特征在于，包括：

属性信息获取模块，用于获取目标用户的用户属性信息；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该计算机程序指令被处理器执行时实现权利要求1至6任一项所述方法的步骤。