CN114780606B

CN114780606B - 一种大数据挖掘方法及系统

Info

Publication number: CN114780606B
Application number: CN202210321103.2A
Authority: CN
Inventors: 欧阳安安; 王武
Original assignee: Shanghai Biyingte Software System Co ltd
Current assignee: Shanghai Biyingte Software System Co ltd
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-10-14
Anticipated expiration: 2042-03-30
Also published as: CN114780606A

Abstract

本申请提供的一种大数据挖掘方法及系统，涉及数据挖掘技术领域。在本申请中，首先，获得待挖掘的多条用户行为数据，其中，每一条用户行为数据基于历史上用户针对关注对象进行的网络行为生成。其次，对多条用户行为数据进行聚类处理，得到至少一个数据聚类集合，其中，每一个数据聚类集合包括至少一条用户行为数据。然后，针对每一个数据聚类集合，在该数据聚类集合包括的用户行为数据中确定出该数据聚类集合对应的代表用户行为数据。最后，基于每一个数据聚类集合的代表用户行为数据对应的关注对象，确定出至少一个目标关注对象。基于上述方法，可以改善现有技术中数据挖掘的效果较差的问题。

Description

一种大数据挖掘方法及系统

技术领域

本申请涉及数据挖掘技术领域，具体而言，涉及一种大数据挖掘方法及系统。

背景技术

随着计算机技术和互联网技术的发展，产生了网络的用户数据，如用户进行网络搜索产生的用户数据等。现有技术中，为了能够获取到用户感兴趣的关注对象，以进行有效的推荐等后续操作，一般会对用户数据进行挖掘。但是，经发明人研究发现，在现有技术中，存在着数据挖掘的效果较差的问题，如挖掘结果不可靠等。

发明内容

有鉴于此，本申请的目的在于提供一种大数据挖掘方法及系统，以改善现有技术中数据挖掘的效果较差的问题。

为实现上述目的，本申请实施例采用如下技术方案：

一种大数据挖掘方法，包括：

获得待挖掘的多条用户行为数据，其中，每一条所述用户行为数据基于历史上用户针对关注对象进行的网络行为生成；

对所述多条用户行为数据进行聚类处理，得到至少一个数据聚类集合，其中，每一个所述数据聚类集合包括至少一条用户行为数据；

针对每一个所述数据聚类集合，在该数据聚类集合包括的用户行为数据中确定出该数据聚类集合对应的代表用户行为数据，其中，所述代表用户行为数据用于代表所述数据聚类集合包括的用户行为数据；

基于每一个所述数据聚类集合的代表用户行为数据对应的关注对象，确定出至少一个目标关注对象。

在本申请实施例较佳的选择中，在上述大数据挖掘方法中，所述获得待挖掘的多条用户行为数据的步骤，包括：

从目标数据库中获取目标数据集，其中，所述目标数据集包括多条待筛选用户行为数据，其中，每一条所述待筛选用户行为数据基于历史上用户针对关注对象进行的网络行为生成，并存储于所述目标数据库；

基于每一条待筛选用户行为数据的生成时间，在所述目标数据集包括的所述多条待筛选用户行为数据中，确定出满足预设时间条件的多条待筛选用户行为数据，并将该多条待筛选用户行为数据作为待挖掘的多条用户行为数据，其中，所述预设时间条件基于用户的配置操作生成。

在本申请实施例较佳的选择中，在上述大数据挖掘方法中，所述对所述多条用户行为数据进行聚类处理，得到至少一个数据聚类集合的步骤，包括：

针对所述多条用户行为数据中的每一条所述用户行为数据，确定该用户行为数据对应的关注对象，以得到多个关注对象；

针对所述多个关注对象中的每两个关注对象，对该两个关注对象进行相关度计算，以得到该两个关注对象之间的对象相关度；

基于每两个所述关注对象之间的对象相关度，对所述多个关注对象进行聚类处理，以得到至少一个对象聚类集合；

针对所述至少一个对象聚类集合中的每一个对象聚类集合，基于该对象聚类集合包括的每一个关注对象对应的用户行为数据构建对应的数据聚类集合，以得到至少一个数据聚类集合。

在本申请实施例较佳的选择中，在上述大数据挖掘方法中，所述基于每两个所述关注对象之间的对象相关度，对所述多个关注对象进行聚类处理，以得到至少一个对象聚类集合的步骤，包括：

针对每一个所述关注对象，计算该关注对象与每一个其它关注对象的对象相关度的和值，得到该关注对象对应的相关度和值，并基于该相关度和值进行均值计算，得到该关注对象对应的相关度均值；

针对每一个所述关注对象，基于该关注对象与每一个其它关注对象之间的对象相关度和该关注对象对应的相关度均值进行离散度计算，得到该关注对象对应的相关度离散值；

基于每一个所述关注对象对应的相关度离散值，在所述多个关注对象中确定出至少一个关注对象，得到至少一个中心关注对象；

将所述至少一个中心关注对象中的每一个中心关注对象分别作为聚类中心，并基于该聚类中心和每两个所述关注对象之间的对象相关度，对所述多个关注对象进行聚类处理，以得到至少一个对象聚类集合。

在本申请实施例较佳的选择中，在上述大数据挖掘方法中，所述基于每一个所述数据聚类集合的代表用户行为数据对应的关注对象，确定出至少一个目标关注对象的步骤，包括：

针对每一个所述数据聚类集合，统计该数据聚类集合包括的用户行为数据的数量，得到该数据聚类集合对应的第一数量；

基于每一个所述数据聚类集合对应的第一数量，确定每一个所述数据聚类集合对应的权重系数，其中，所述数据聚类集合对应的第一数量和权重系数之间具有正相关关系；

基于每一个所述数据聚类集合对应的权重系数，在每一个所述数据聚类集合的代表用户行为数据对应的关注对象中，确定出权重系数满足预设权重筛选规则的至少一个目标关注对象。

在本申请实施例较佳的选择中，在上述大数据挖掘方法中，所述针对每一个所述数据聚类集合，在该数据聚类集合包括的用户行为数据中确定出该数据聚类集合对应的代表用户行为数据的步骤，包括：

针对每一个所述数据聚类集合，将该数据聚类集合作为目标数据聚类集合，并对该目标数据聚类集合执行数据筛选操作，以得到该目标数据聚类集合对应的代表用户行为数据，其中，所述数据筛选操作包括：

针对所述目标数据聚类集合中的每一条用户行为数据，将该用户行为数据作为待处理用户行为数据；

针对每一条所述待处理用户行为数据，基于所述目标数据聚类集合中该待处理用户行为数据以外的每一条用户行为数据构建该待处理用户行为数据对应的数据聚类子集合，其中，该数据聚类子集合为有序集合，且该数据聚类子集合包括的各所述用户行为数据基于与对应的所述待处理用户行为数据之间的相关度大小进行排序；

将构建的每一个所述数据聚类子集合进行对比分析，得到对应的对比分析结果，并根据所述对比分析结果将至少一个所述数据聚类子集合作为目标数据聚类子集合；

将每一个所述目标数据聚类子集合对应的待处理用户行为数据和该目标数据聚类子集合中与该待处理用户行为数据之间具有最大相关度的用户行为数据，作为所述目标数据聚类集合对应的代表用户行为数据。

在本申请实施例较佳的选择中，在上述大数据挖掘方法中，所述将构建的每一个所述数据聚类子集合进行对比分析，得到对应的对比分析结果，并根据所述对比分析结果将至少一个所述数据聚类子集合作为目标数据聚类子集合的步骤，包括：

将构建的多个所述数据聚类子集合中的每两个数据聚类子集合作为对应的第一数据聚类子集合和第二数据聚类子集合，以得到多组对应的第一数据聚类子集合和第二数据聚类子集合；

针对每一组对应的所述第一数据聚类子集合和所述第二数据聚类子集合，对该第一数据聚类子集合和该第二数据聚类子集合执行对比操作，以得到该第一数据聚类子集合和该第二数据聚类子集合之间的集合相关度：

针对每一个所述数据聚类子集合，对该数据聚类子集合与其它每一个数据聚类子集合之间的集合相关度进行均值计算，得到该数据聚类子集合对应的相关度均值；

基于每一个所述数据聚类子集合对应的相关度均值，将至少一个所述数据聚类子集合作为目标数据聚类子集合。

在本申请实施例较佳的选择中，在上述大数据挖掘方法中，所述针对每一组对应的所述第一数据聚类子集合和所述第二数据聚类子集合，对该第一数据聚类子集合和该第二数据聚类子集合执行对比操作，以得到该第一数据聚类子集合和该第二数据聚类子集合之间的集合相关度的步骤，包括：

基于所述第一数据聚类子集合中每一条用户行为数据对应的对象标识，得到对应的第一对象标识有序集合，基于所述第二数据聚类子集合中每一条用户行为数据对应的对象标识，得到对应的第二对象标识有序集合，其中，所述对象标识用于表征对应的关注对象的身份信息，且所述数据聚类子集合中的各用户行为数据基于对应的关注对象之间的对象相关度的大小关系进行排序；

将所述第一对象标识有序集合和所述第二对象标识有序集合进行对比，得到对应的对象标识对比有序集合，其中，所述对象标识对比有序集合用于表征所述第一对象标识有序集合和所述第二对象标识有序集合之间对应的对象标识是否相同；

对所述对象标识对比有序集合进行解析，得到该对象标识对比有序集合对应的标识维度特征，其中，所述标识维度特征用于表征所述第一对象标识有序集合和所述第二对象标识有序集合之间的第一维度相关度；

基于所述第一数据聚类子集合中每一条用户行为数据对应的生成时间，得到对应的第一生成时间有序集合，基于所述第二数据聚类子集合中每一条用户行为数据对应的生成时间，得到对应的第二生成时间有序集合；

将所述第一生成时间有序集合和所述第二生成时间有序集合进行对比，得到对应的生成时间对比有序集合，其中，所述生成时间对比有序集合用于表征所述第一生成时间有序集合和所述第二生成时间有序集合之间对应的生成时间的时间相关度是否大于预设相关度阈值；

对所述生成时间对比有序集合进行解析，得到该生成时间对比有序集合对应的时间维度特征，其中，所述时间维度特征用于表征所述第一生成时间有序集合和所述第二生成时间有序集合之间的第二维度相关度；

基于所述第一维度相关度和所述第二维度相关度进行加权计算，得到对应的相关度加权值，并将该相关度加权值作为所述第一数据聚类子集合和所述第二数据聚类子集合的集合相关度，其中，所述第一维度相关度对应的权重系数大于所述第二维度相关度对应的权重系数。

本申请实施例还提供了一种大数据挖掘系统，包括：

数据获得模块，用于获得待挖掘的多条用户行为数据，其中，每一条所述用户行为数据基于历史上用户针对关注对象进行的网络行为生成；

数据聚类模块，用于对所述多条用户行为数据进行聚类处理，得到至少一个数据聚类集合，其中，每一个所述数据聚类集合包括至少一条用户行为数据；

数据筛选模块，用于针对每一个所述数据聚类集合，在该数据聚类集合包括的用户行为数据中确定出该数据聚类集合对应的代表用户行为数据，其中，所述代表用户行为数据用于代表所述数据聚类集合包括的用户行为数据；

对象确定模块，用于基于每一个所述数据聚类集合的代表用户行为数据对应的关注对象，确定出至少一个目标关注对象。

在上述基础上，本申请实施例还提供了一种大数据挖掘云平台，所述大数据挖掘云平台用于执行上述的大数据挖掘方法。

本申请提供的一种大数据挖掘方法及系统，通过在获得用户行为数据之后，先进行聚类处理得到数据聚类集合，然后，再从每一个数据聚类集合中确定出代表用户行为数据，使得可以基于代表用户行为数据对应的关注对象确定出至少一个目标关注对象。基于此，由于在确定目标关注对象之前，先对用户行为数据进行了聚类，并在每一个数据聚类集合中确定出了代表用户行为数据，使得确定的目标关注对象具有较高的可靠性，从而改善现有技术中数据挖掘的效果较差的问题。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

图1为本申请实施例提供的大数据挖掘云平台的结构框图。

图2为本申请实施例提供的大数据挖掘方法的流程示意图。

图3为本申请实施例提供的大数据挖掘系统的方框示意图。

图标：10-大数据挖掘云平台；12-存储器；14-处理器；100-大数据挖掘系统；110-数据获得模块；120-数据聚类模块；130-数据筛选模块；140-对象确定模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本申请的一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，本申请实施例提供了一种大数据挖掘云平台10，可以包括存储器12、处理器14和大数据挖掘系统100。

其中，所述存储器12和处理器14之间直接或间接地电性连接，以实现数据的传输或交互。例如，相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述大数据挖掘系统100包括至少一个可以软件或固件（firmware）的形式存储于所述存储器12中的软件功能模块。所述处理器14用于执行所述存储器12中存储的可执行的计算机程序，例如，所述大数据挖掘系统100所包括的软件功能模块及计算机程序等，以实现本申请实施例提供的大数据挖掘方法。

可选地，所述存储器12可以是，但不限于，随机存取存储器（Random AccessMemory，RAM），只读存储器（Read Only Memory，ROM），可编程只读存储器（ProgrammableRead-Only Memory，PROM），可擦除只读存储器（Erasable Programmable Read-OnlyMemory，EPROM），电可擦除只读存储器（Electric Erasable Programmable Read-OnlyMemory，EEPROM）等。并且，所述处理器14可以是一种通用处理器，包括中央处理器（CentralProcessing Unit，CPU）、网络处理器（Network Processor，NP）、片上系统(System onChip，SoC)等；还可以是数字信号处理器（DSP）、专用集成电路（ASIC）、现场可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解，图1所示的结构仅为示意，所述大数据挖掘云平台10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置，例如，还可以包括用于与其它设备进行信息交互的通信单元。

其中，在一种可以替代的示例中，所述大数据挖掘云平台10可以是一种具备数据处理能力的服务器。

结合图2，本申请实施例还提供一种可应用于上述大数据挖掘云平台10的大数据挖掘方法。其中，所述大数据挖掘方法有关的流程所定义的方法步骤可以由所述大数据挖掘云平台10实现。

下面将对图2所示的具体流程，进行详细阐述。

步骤S110，获得待挖掘的多条用户行为数据。

在本实施例中，所述大数据挖掘云平台10可以先获得待挖掘的多条用户行为数据。其中，每一条所述用户行为数据基于历史上用户针对关注对象进行的网络行为生成，例如，可以包括但不限于，用户通过网络进行关注对象的搜索或对一些关注对象进行评论等，如搜索某某产品或人等。

步骤S120，对所述多条用户行为数据进行聚类处理，得到至少一个数据聚类集合。

在本实施例中，在基于步骤S110得到所述多条用户行为数据之后，所述大数据挖掘云平台10可以对所述多条用户行为数据进行聚类处理，如此，可以得到至少一个数据聚类集合。

其中，每一个所述数据聚类集合包括至少一条用户行为数据。

步骤S130，针对每一个所述数据聚类集合，在该数据聚类集合包括的用户行为数据中确定出该数据聚类集合对应的代表用户行为数据。

在本实施例中，在基于步骤S120得到所述至少一个数据聚类集合之后，所述大数据挖掘云平台10可以针对每一个所述数据聚类集合，在该数据聚类集合包括的用户行为数据中确定出该数据聚类集合对应的代表用户行为数据。其中，所述代表用户行为数据用于代表所述数据聚类集合包括的用户行为数据。

步骤S140，基于每一个所述数据聚类集合的代表用户行为数据对应的关注对象，确定出至少一个目标关注对象。

在本实施例中，在基于步骤S130得到每一个所述数据聚类集合的代表用户行为数据之后，所述大数据挖掘云平台10可以基于每一个所述数据聚类集合的代表用户行为数据对应的关注对象，确定出至少一个目标关注对象。其中，所述目标关注对象可以作为向用户进行优先推荐的对象等。

基于上述方法，通过在获得用户行为数据之后，先进行聚类处理得到数据聚类集合，然后，再从每一个数据聚类集合中确定出代表用户行为数据，使得可以基于代表用户行为数据对应的关注对象确定出至少一个目标关注对象。基于此，由于在确定目标关注对象之前，先对用户行为数据进行了聚类，并在每一个数据聚类集合中确定出了代表用户行为数据，使得确定的目标关注对象具有较高的可靠性，从而改善现有技术中数据挖掘的效果较差的问题。

在上述示例中，为了提高获取的所述多条用户行为数据的可靠性，步骤S110可以包括以下步骤：

首先，从目标数据库中获取目标数据集，其中，所述目标数据集包括多条待筛选用户行为数据，其中，每一条所述待筛选用户行为数据基于历史上用户针对关注对象进行的网络行为生成，并存储于所述目标数据库（可以理解的是，所述目标数据库既可以是所述大数据挖掘云平台10的本地数据库，也可以是所述大数据挖掘云平台10的远端数据库）；

其次，基于每一条待筛选用户行为数据的生成时间（可以理解的是，在一种可以替代的示例中，该生成时间可以是指该待筛选用户行为数据对应的用户进行搜索的时间），在所述目标数据集包括的所述多条待筛选用户行为数据中，确定出满足预设时间条件的多条待筛选用户行为数据，并将该多条待筛选用户行为数据作为待挖掘的多条用户行为数据（例如，可以将最近一段时间，如将一周、一月等时间段内的待筛选用户行为数据作为用户行为数据），所述预设时间条件基于配置用户的配置操作生成。

在上述示例中，为了使得最后确定的目标关注对象具有较高的可靠性，步骤S120可以包括以下步骤：

首先，针对所述多条用户行为数据中的每一条所述用户行为数据，确定该用户行为数据对应的关注对象，以得到多个关注对象（可以理解的是，得到的多个关注对象中既可以包括相同的关注对象，也可以包括不同的关注对象，如用户A和用户B都搜索了对象1）；

其次，针对所述多个关注对象中的每两个关注对象，对该两个关注对象进行相关度计算，以得到该两个关注对象之间的对象相关度（例如，可以确定两个关注对象是否属于相同，在相同时，对象相关度可以为1，在不同时，可以确定是否属于同一小分类，在不同时，可以确定是否属于同一大类，如此，确定的对象相关度可以逐渐减小，如针对植物对象可以包括门、纲、目、科、族、属、组、系、种、亚种、变种、变型）；

然后，基于每两个所述关注对象之间的对象相关度，对所述多个关注对象进行聚类处理，以得到至少一个对象聚类集合（可以理解的是，在一种可以替代的示例中，进行聚类处理的具体算法可以是邻近算法）；

最后，针对所述至少一个对象聚类集合中的每一个对象聚类集合，基于该对象聚类集合包括的每一个关注对象对应的用户行为数据构建对应的数据聚类集合，以得到至少一个数据聚类集合（也就是说，可以将一个对象聚类集合中的全部关注对象对应的用户行为数据，作为一个数据聚类集合，如此，针对至少一个对象聚类集合，可以得到至少一个数据聚类集合）。

在上述示例中，为了提高聚类处理的可靠度，可以基于以下步骤以基于所述对象相关度进行聚类处理：

首先，针对每一个所述关注对象，计算该关注对象与每一个其它关注对象的对象相关度的和值，得到该关注对象对应的相关度和值，并基于该相关度和值进行均值计算，得到该关注对象对应的相关度均值（例如，若包括3个关注对象，如对象1、对象2和对象3，针对对象1，可以计算对象1与对象2之间的对象相关度a和对象1与对象3之间的对象相关度b的和值，然后，除以2，得到对象1对应的相关度均值c）；

其次，针对每一个所述关注对象，基于该关注对象与每一个其它关注对象之间的对象相关度和该关注对象对应的相关度均值进行离散度计算，得到该关注对象对应的相关度离散值（例如，针对对象1，可以先计算对象相关度a与相关度均值c之间的绝对差值、计算对象相关度b与相关度均值c之间的绝对差值，再计算这两个绝对差值的平均值，即得到对象1对应的相关程度离散值）；

然后，基于每一个所述关注对象对应的相关度离散值，在所述多个关注对象中确定出至少一个关注对象，得到至少一个中心关注对象（例如，在一种可以替代的示例中，可以将相关度离散值最小的一个或多个关注对象作为中心关注对象）；

最后，将所述至少一个中心关注对象中的每一个中心关注对象分别作为聚类中心，并基于该聚类中心和每两个所述关注对象之间的对象相关度，对所述多个关注对象进行聚类处理，以得到至少一个对象聚类集合（也就是说，可以以每一个所述中心关注对象作为聚类中心，以及其它关注对象与每一个所述中心关注对象之间的对象相关度进行聚类处理）。

在上述示例中，为了使得确定的代表用户行为数据能够较佳的代表对应的数据聚类集合，步骤S130可以包括以下步骤：

针对每一个所述数据聚类集合，将该数据聚类集合作为目标数据聚类集合，并对该目标数据聚类集合执行数据筛选操作，以得到该目标数据聚类集合对应的代表用户行为数据（也就是说，可以分别将每一个所述数据聚类集合作为目标数据聚类集合，以分别对每一个所述目标数据聚类集合执行数据筛选操作，以得到每一个目标数据聚类集合对应的代表用户行为数据，如此，针对多个数据聚类集合，可以执行多次数据筛选操作）。

其中，所述数据筛选操作可以包括：

首先，针对所述目标数据聚类集合中的每一条用户行为数据，将该用户行为数据作为待处理用户行为数据（也就是说，可以将所述目标数据聚类集合中的每一条用户行为数据依次作为待处理用户行为数据）；

其次，针对每一条所述待处理用户行为数据，基于所述目标数据聚类集合中该待处理用户行为数据以外的每一条用户行为数据构建该待处理用户行为数据对应的数据聚类子集合（例如，结合前述示例，针对对象1，构建的数据聚类子集合可以包括对象2和对象3；针对对象2，构建的数据聚类子集合可以包括对象1和对象3；针对对象3，构建的数据聚类子集合可以包括对象1和对象2），其中，该数据聚类子集合为有序集合，且该数据聚类子集合包括的各所述用户行为数据基于与对应的所述待处理用户行为数据之间的相关度（可以理解的是，该相关度可以是指前述示例中对应的关注对象之间的相关度）大小进行排序（例如，可以按照相关度从小到大的顺序进行排序）；

然后，将构建的每一个所述数据聚类子集合进行对比分析，得到对应的对比分析结果，并根据所述对比分析结果将至少一个所述数据聚类子集合作为目标数据聚类子集合；

最后，将每一个所述目标数据聚类子集合对应的待处理用户行为数据和该目标数据聚类子集合中与该待处理用户行为数据之间具有最大相关度的用户行为数据，作为所述目标数据聚类集合对应的代表用户行为数据（例如，若一个目标数据聚类集合包括3个目标数据聚类子集合，分别为子集合1、子集合2和子集合3，其中，若确定子集合2为目标数据聚类子集合，可以将确定子集合2对应的待处理用户行为数据作为代表用户行为数据，并将子集合2中与该待处理用户行为数据之间具有最大对象相关度的用户行为数据作为代表用户行为数据）。

在上述示例中，可以基于以下步骤以确定所述目标数据聚类子集合：

第一步，将构建的多个所述数据聚类子集合中的每两个数据聚类子集合作为对应的第一数据聚类子集合和第二数据聚类子集合，以得到多组对应的第一数据聚类子集合和第二数据聚类子集合（例如，结合前述的示例，可以子集合1和子集合2作为一组第一数据聚类子集合和第二数据聚类子集合，将子集合1和子集合3作为一组第一数据聚类子集合和第二数据聚类子集合，将子集合2和子集合3作为一组第一数据聚类子集合和第二数据聚类子集合）；

第二步，针对每一组对应的所述第一数据聚类子集合和所述第二数据聚类子集合，对该第一数据聚类子集合和该第二数据聚类子集合执行对比操作，以得到该第一数据聚类子集合和该第二数据聚类子集合之间的集合相关度；

第三步，将集合相关度大于集合相关度阈值的每一组对应的所述第一数据聚类子集合和所述第二数据聚类子集合进行关联处理，形成的集合关联网络（例如，在该集合关联网络中，直接连接的两个数据聚类子集合有进行过关联处理，其中，所述集合相关度阈值可以基于配置用户根据实际应用场景进行的配置操作生成，也可以基于得到的集合相关度确定，如将得到的集合相关度的平均值作为所述集合相关度阈值）；

第四步，在所述集合关联网络中，确定连接第一目标数据聚类子集合和第二目标数据聚类子集合的连接路径，得到至少一条连接路径（例如，第一目标数据聚类子集合与第二目标数据聚类子集合之间通过子集合1连接，对应的连接路径可以为“第一目标数据聚类子集合、子集合1、第二目标数据聚类子集合”），其中，所述第一目标数据聚类子集合为多个所述数据聚类子集合中与其它数据聚类子集合之间的集合相关度均值最大的数据聚类子集合，所述第二目标数据聚类子集合为多个所述数据聚类子集合中对应的待处理用户行为数据与所述第一目标数据聚类子集合对应的待处理用户行为数据之间相关度最大的数据聚类子集合；

第五步，针对每一条所述连接路径，基于该连接路径上相关联的数据聚类子集合之间的集合相关度得到该连接路径对应的路径相关度（例如，结合前述的示例，可以基于第一目标数据聚类子集合与子集合1之间的集合相关度和子集合1与第二目标数据聚类子集合之间的集合相关度得到对应的路径相关度，如将两个集合相关度相乘得到路径相关度）；

第六步，确定所述第一目标数据聚类子集合与多个所述数据聚类子集合中其它数据聚类子集合之间的集合相关度中的最大值和最小值；

第七步，基于所述最大值、所述最小值和每一条所述连接路径对应的路径相关度，在所述至少一条连接路径中确定出目标连接路径（例如，在一种可以替代的示例中，可以将路径相关度小于或等于所述最大值，且大于或等于所述最小值的连接路径作为目标连接路径）；

第八步，在所述目标连接路径上的数据聚类子集合中，确定出至少一个数据聚类子集合作为目标数据聚类子集合（例如，可以所述目标连接路径上的每一个数据聚类子集合都确定为目标数据聚类子集合）。

在上述示例中，也可以基于以下步骤以确定所述目标数据聚类子集合：

首先，将构建的多个所述数据聚类子集合中的每两个数据聚类子集合作为对应的第一数据聚类子集合和第二数据聚类子集合，以得到多组对应的第一数据聚类子集合和第二数据聚类子集合；

其次，针对每一组对应的所述第一数据聚类子集合和所述第二数据聚类子集合，对该第一数据聚类子集合和该第二数据聚类子集合执行对比操作，以得到该第一数据聚类子集合和该第二数据聚类子集合之间的集合相关度：

然后，针对每一个所述数据聚类子集合，对该数据聚类子集合与其它每一个数据聚类子集合之间的集合相关度进行均值计算，得到该数据聚类子集合对应的相关度均值（如此，可以计算得到每一个所述数据聚类子集合对应的相关度均值）；

最后，基于每一个所述数据聚类子集合对应的相关度均值，将至少一个所述数据聚类子集合作为目标数据聚类子集合（例如，在一种可以替代的示例中，可以将相关度均值最大的一个或多个数据聚类子集合作为目标数据聚类子集合）。

在上述示例中，为了提高确定的集合相关度的可靠度，可以基于以下步骤以确定所述集合相关度：

第一步，基于所述第一数据聚类子集合中每一条用户行为数据对应的对象标识，得到对应的第一对象标识有序集合，基于所述第二数据聚类子集合中每一条用户行为数据对应的对象标识，得到对应的第二对象标识有序集合，其中，所述对象标识用于表征对应的关注对象的身份信息（例如，在该关注对象为人时，该身份信息可以是身份证信息，或者，该关注对象为真实物品或虚拟物品时，该身份信息可以时预先对各种物品进行的唯一编号），且所述数据聚类子集合中的各用户行为数据基于对应的关注对象之间的对象相关度的大小关系进行排序；

第二步，将所述第一对象标识有序集合和所述第二对象标识有序集合进行对比，得到对应的对象标识对比有序集合，其中，所述对象标识对比有序集合用于表征所述第一对象标识有序集合和所述第二对象标识有序集合之间对应的对象标识是否相同，且若对应的对象标识相同，则在所述对象标识对比有序集合中赋值为第一数值，若对应的对象标识不同，则在所述对象标识对比有序集合中赋值为第二数值（也就是说，将所述第一对象标识有序集合和所述第二对象标识有序集合中对应集合位置的对象标识进行对比，以确定是否相同，并根据对比结果为对象标识对比有序集合中对应集合位置进行赋值，如0和1等）；

第三步，对所述对象标识对比有序集合进行解析，得到该对象标识对比有序集合对应的标识维度特征，其中，所述标识维度特征用于表征所述第一对象标识有序集合和所述第二对象标识有序集合之间的第一维度相关度（例如，可以计算所述对象标识对比有序集合中所述第一数值的数量占比，并将该数量占比作为该标识维度特征）；

第四步，基于所述第一数据聚类子集合中每一条用户行为数据对应的生成时间，得到对应的第一生成时间有序集合，基于所述第二数据聚类子集合中每一条用户行为数据对应的生成时间，得到对应的第二生成时间有序集合；

第五步，将所述第一生成时间有序集合和所述第二生成时间有序集合进行对比，得到对应的生成时间对比有序集合，其中，所述生成时间对比有序集合用于表征所述第一生成时间有序集合和所述第二生成时间有序集合之间对应的生成时间的时间相关度是否大于预设相关度阈值，且若对应的时间相关度大于所述预设相关度阈值，则在所述生成时间对比有序集合中赋值为第三数值，若对应的时间相关度小于或等于所述预设相关度阈值，则在所述生成时间对比有序集合中赋值为第四数值（可以理解的是，所述时间相关度可以基于对应生成之间之间的差值确定，如该差值越大，对应的时间相关度越小，其中，所述预设相关度阈值可以基于配置用户根据实际应用场景进行的配置操作生成，具体数值在此不做限定）；

第六步，对所述生成时间对比有序集合进行解析，得到该生成时间对比有序集合对应的时间维度特征，其中，所述时间维度特征用于表征所述第一生成时间有序集合和所述第二生成时间有序集合之间的第二维度相关度（例如，可以计算所述生成时间对比对比有序集合中所述第三数值的数量占比，并将该数量占比作为该时间维度特征）；

第七步，基于所述第一维度相关度和所述第二维度相关度进行加权计算，得到对应的相关度加权值，并将该相关度加权值作为所述第一数据聚类子集合和所述第二数据聚类子集合的集合相关度，其中，所述第一维度相关度对应的权重系数大于所述第二维度相关度对应的权重系数。

在上述示例中，在兼顾确定所述集合相关度的可靠度的基础上，为了提高数据处理的效率且降低数据计算量，也可以基于以下步骤以确定所述集合相关度：

第一步，基于所述第一数据聚类子集合中每一条用户行为数据对应的对象标识，得到对应的第一对象标识有序集合，基于所述第二数据聚类子集合中每一条用户行为数据对应的对象标识，得到对应的第二对象标识有序集合，其中，所述对象标识用于表征对应的关注对象的身份信息，且所述数据聚类子集合中的各用户行为数据基于对应的关注对象之间的对象相关度的大小关系进行排序（如前所述）；

第二步，将所述第一对象标识有序集合和所述第二对象标识有序集合进行对比，得到对应的对象标识对比有序集合，其中，所述对象标识对比有序集合用于表征所述第一对象标识有序集合和所述第二对象标识有序集合之间对应的对象标识是否相同，且若对应的对象标识相同，则在所述对象标识对比有序集合中赋值为第一数值，若对应的对象标识不同，则在所述对象标识对比有序集合中赋值为第二数值（如前所述）；

第三步，对所述对象标识对比有序集合进行解析，得到该对象标识对比有序集合对应的标识维度特征（如前所述），并将所述标识维度特征作为所述第一数据聚类子集合和所述第二数据聚类子集合的集合相关度。

在上述示例中，步骤S140可以包括以下步骤：将每一个所述数据聚类集合的代表用户行为数据对应的关注对象都作为目标关注对象。

在上述示例中，为了提高确定目标关注对象的精度，步骤S140也可以包括以下步骤：

首先，针对每一个所述数据聚类集合，统计该数据聚类集合包括的用户行为数据的数量，得到该数据聚类集合对应的第一数量；

其次，基于每一个所述数据聚类集合对应的第一数量，确定每一个所述数据聚类集合对应的权重系数，其中，所述数据聚类集合对应的第一数量和权重系数之间具有正相关关系（例如，在一种可以替代的示例中，可以将所述第一数量作为对应的数据聚类集合的权重系数）；

然后，基于每一个所述数据聚类集合对应的权重系数，在每一个所述数据聚类集合的代表用户行为数据对应的关注对象中，确定出权重系数满足预设权重筛选规则的至少一个目标关注对象（例如，在一种可以替代的示例中，可以将权重系数最大的一个或多个数据聚类集合的代表用户行为数据对应的关注对象确定为目标关注对象）。

结合图3，本申请实施例还提供一种可应用于上述大数据挖掘云平台10的大数据挖掘系统100。其中，所述大数据挖掘系统100可以包括数据获得模块110、数据聚类模块120、数据筛选模块130和对象确定模块140。

所述数据获得模块110，用于获得待挖掘的多条用户行为数据，其中，每一条所述用户行为数据基于历史上用户针对关注对象进行的网络行为生成。在本实施例中，所述数据获得模块110可用于执行图2所示的步骤S110，关于所述数据获得模块110的相关内容可以参照前文对步骤S110的描述。

所述数据聚类模块120，用于对所述多条用户行为数据进行聚类处理，得到至少一个数据聚类集合，其中，每一个所述数据聚类集合包括至少一条用户行为数据。在本实施例中，所述数据聚类模块120可用于执行图2所示的步骤S120，关于所述数据聚类模块120的相关内容可以参照前文对步骤S120的描述。

所述数据筛选模块130，用于针对每一个所述数据聚类集合，在该数据聚类集合包括的用户行为数据中确定出该数据聚类集合对应的代表用户行为数据，其中，所述代表用户行为数据用于代表所述数据聚类集合包括的用户行为数据。在本实施例中，所述数据筛选模块130可用于执行图2所示的步骤S130，关于所述数据筛选模块130的相关内容可以参照前文对步骤S140的描述。

所述对象确定模块140，用于基于每一个所述数据聚类集合的代表用户行为数据对应的关注对象，确定出至少一个目标关注对象。在本实施例中，所述对象确定模块140可用于执行图2所示的步骤S140，关于所述对象确定模块140的相关内容可以参照前文对步骤S140的描述。

综上所述，本申请提供的一种大数据挖掘方法及系统，通过在获得用户行为数据之后，先进行聚类处理得到数据聚类集合，然后，再从每一个数据聚类集合中确定出代表用户行为数据，使得可以基于代表用户行为数据对应的关注对象确定出至少一个目标关注对象。基于此，由于在确定目标关注对象之前，先对用户行为数据进行了聚类，并在每一个数据聚类集合中确定出了代表用户行为数据，使得确定的目标关注对象具有较高的可靠性，从而改善现有技术中数据挖掘的效果较差的问题。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，电子设备，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种大数据挖掘方法，其特征在于，包括：

基于每一个所述数据聚类集合的代表用户行为数据对应的关注对象，确定出至少一个目标关注对象；

所述基于每一个所述数据聚类集合的代表用户行为数据对应的关注对象，确定出至少一个目标关注对象的步骤，包括：

2.据权利要求1所述的大数据挖掘方法，其特征在于，所述获得待挖掘的多条用户行为数据的步骤，包括：

3.根据权利要求1所述的大数据挖掘方法，其特征在于，所述对所述多条用户行为数据进行聚类处理，得到至少一个数据聚类集合的步骤，包括：

4.根据权利要求3所述的大数据挖掘方法，其特征在于，所述基于每两个所述关注对象之间的对象相关度，对所述多个关注对象进行聚类处理，以得到至少一个对象聚类集合的步骤，包括：

5.根据权利要求1-4任意一项所述的大数据挖掘方法，其特征在于，所述针对每一个所述数据聚类集合，在该数据聚类集合包括的用户行为数据中确定出该数据聚类集合对应的代表用户行为数据的步骤，包括：

6.根据权利要求5所述的大数据挖掘方法，其特征在于，所述将构建的每一个所述数据聚类子集合进行对比分析，得到对应的对比分析结果，并根据所述对比分析结果将至少一个所述数据聚类子集合作为目标数据聚类子集合的步骤，包括：

7.根据权利要求6所述的大数据挖掘方法，其特征在于，所述针对每一组对应的所述第一数据聚类子集合和所述第二数据聚类子集合，对该第一数据聚类子集合和该第二数据聚类子集合执行对比操作，以得到该第一数据聚类子集合和该第二数据聚类子集合之间的集合相关度的步骤，包括：

8.一种大数据挖掘系统，其特征在于，包括：

对象确定模块，用于基于每一个所述数据聚类集合的代表用户行为数据对应的关注对象，确定出至少一个目标关注对象，所述基于每一个所述数据聚类集合的代表用户行为数据对应的关注对象，确定出至少一个目标关注对象的步骤，包括：