CN112667754B

CN112667754B - 大数据处理方法、装置、计算机设备及存储介质

Info

Publication number: CN112667754B
Application number: CN202011620084.0A
Authority: CN
Inventors: 赵妮; 蔡金成
Original assignee: Shenzhen Institute of Information Technology
Current assignee: Shenzhen Institute of Information Technology
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-09-28
Anticipated expiration: 2040-12-30
Also published as: CN112667754A

Abstract

本发明涉及数据处理领域，公开了大数据处理方法、装置、计算机设备及存储介质，其方法包括：获取大数据及其聚类结果；计算聚类结果的EPV值，根据EPV值和大数据的数据规模确定大数据的划分个数；根据K‑Fold方法和聚类结果将大数据划分为若干个数据块，数据块的个数为划分个数；计算各个数据块的聚类结果的评价数据；根据数据块的聚类结果的评价数据确定大数据的聚类结果的评价数据。本发明可以在大数据进行聚类结果评价时，解决原数据处理方法大量占用计算资源的问题，提高了大数据的处理速度，减少数据处理量，减少数据出错。

Description

大数据处理方法、装置、计算机设备及存储介质

技术领域

本发明涉及数据处理领域，尤其涉及一种大数据处理方法、装置、计算机设备及存储介质。

背景技术

大数据(bigdata)指的是无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。对于一些大型服务型企业，收集海量用户数据以形成大数据的难度较小，用户数据在一定时间内可形成数量级的增长，但用于处理大数据的计算资源成本高昂，具有较大的增长瓶颈，难以成倍增长。而且，对于一些大数据处理方法，如聚类结果的评价，由于具有较高的时间复杂度(时间复杂度为样本数的平方)，计算资源即使成倍增长，仍不能满足计算需求。

发明内容

基于此，有必要针对上述技术问题，提供一种大数据处理方法、装置、计算机设备及存储介质，以解决大数据进行聚类结果评价时，大量占用计算资源的问题，提高数据处理速度，减少数据出错。

一种大数据处理方法，包括：

获取大数据及其聚类结果；

计算所述聚类结果的EPV值，根据所述EPV值和所述大数据的数据规模确定所述大数据的划分个数；

根据K-Fold方法和所述聚类结果将所述大数据划分为若干个数据块，所述数据块的个数为所述划分个数；

计算各个所述数据块的聚类结果的评价数据；

根据所述数据块的聚类结果的评价数据确定所述大数据的聚类结果的评价数据。

一种大数据处理装置，包括：

获取模块，用于获取大数据及其聚类结果；

确定划分个数模块，用于计算所述聚类结果的EPV值，根据所述EPV值和所述大数据的数据规模确定所述大数据的划分个数；

数据划分模块，用于根据K-Fold方法和所述聚类结果将所述大数据划分为若干个数据块，所述数据块的个数为所述划分个数；

分块计算模块，用于计算各个所述数据块的聚类结果的评价数据；

整体聚类评价模块，用于根据所述数据块的聚类结果的评价数据确定所述大数据的聚类结果的评价数据。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述大数据处理方法。

一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如上述大数据处理方法。

上述大数据处理方法、装置、计算机设备及存储介质，通过获取大数据及其聚类结果，以获得待评价的数据。计算所述聚类结果的EPV值，根据所述EPV值和所述大数据的数据规模确定所述大数据的划分个数，以确定最佳的划分个数。根据K-Fold方法和所述聚类结果将所述大数据划分为若干个数据块，所述数据块的个数为所述划分个数，以完成大数据的划分，减少数据规模，大幅降低计算量。计算各个所述数据块的聚类结果的评价数据，以完成数据块的评价，评价的数据量大幅降低。根据所述数据块的聚类结果的评价数据确定所述大数据的聚类结果的评价数据，以获得最终的评价结果。本发明在大数据进行聚类结果评价时，解决原数据处理方法大量占用计算资源的问题，提高了大数据的处理速度，减少数据处理量，减少数据出错。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中大数据处理方法的一应用环境示意图；

图2是本发明一实施例中大数据处理方法的一流程示意图；

图3是本发明一实施例中大数据处理装置的一结构示意图；

图4是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供的大数据处理方法，可应用在如图1的应用环境中，其中，客户端与服务端进行通信。其中，客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种大数据处理方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S10、获取大数据及其聚类结果。

可理解，大数据指的是具有一定规模的数据集。大数据包含大量的样本。例如，大数据的样本数量可以大于或等于10⁶。在一些示例中，大数据可以是各种类型的用户数据，如可以是旅游信息网站的旅客数据，新闻应用的读者数据、金融服务的投资者数据、交易平台的买方数据和卖方数据等。一般情况下，每个样本包含若干特征，而且这些特征又可以分为若干个层级。例如，某样本包括基础特征、行为特征和产品特征，其中，基础特征包括年龄、地址、收入等，行为特征包括健康页面浏览次数、科技页面浏览次数、体育页面浏览次数等，产品特征包括产品购买次数、产品购买频率、产品反馈评价等。样本的特征维度(即特征的个数)可以是数十、数百，甚至更多。在一示例中，样本的特征维度达到300。

聚类结果指的是采用聚类算法对大数据进行聚类所形成的结果。在此处，聚类算法包括但不限于K-Means聚类算法、凝聚层次聚类算法。聚类结果包括若干个类别，每个类别包括若干样本。

S20、计算所述聚类结果的EPV值，根据所述EPV值和所述大数据的数据规模确定所述大数据的划分个数。

可理解地，在一些情况下，大数据的规模过大，评价其聚类结果的难度较高，可以将大数据划分为若干个数据块，分别计算各个数据块的聚类结果的评价数据。划分个数即为数据块的个数。

EPV值是一种用于评价聚类结果的稳定性的评价指标。EPV值可以指大数据中最小类别的样本数据与特征维度的比值。当EPV值较小时，聚类结果的稳定性较差。而大数据的数据规模可以指样本数量和特征维度。

在大数据的数据规模较大时，增加划分个数可以减少数据块的数据规模，降低聚类结果的评价难度，但需要保证有足够高的EPV值。

S30、根据K-Fold方法和所述聚类结果将所述大数据划分为若干个数据块，所述数据块的个数为所述划分个数。

可理解地，在确定划分个数之后，可以按照划分个数对大数据进行拆分，形成个数为该划分个数的数据块。每个数据块的样本数量相同(在此处，样本数量差别小于2的两个数据块视为样本数量相同)。K-Fold方法包含了用于交叉验证的函数，可以基于聚类结果分层取样，使各个数据块对应的类别到的数量相同。例如，大数据的数据规模为10x，聚类结果为：类型A：5x，类型B：5x，划分个数为5，则各个数据块的数据规模为2x，每个数据块的组成为：A：x，B：x。

S40、计算各个所述数据块的聚类结果的评价数据。

可理解地，可以采用现有的聚类评价方法对数据块的聚类结果进行处理，生成数据块的聚类结果的评价数据。在一示例中，评价数据可以是轮廓系数。

轮廓系数(Silhouette Coefficient)是一种用于评价聚类效果的方法。轮廓系数根据聚类后数据的簇间分散度来度量与簇内紧密度来评估聚类效果，其取值方位是[-1，1]，取值越大说明聚类效果越好。

可通过以下公式计算样本的轮廓系数：

其中，b(i)表示分散度，用于量化样本i到簇间的平均距离；a(i)表示紧密度，用于量化样本i到簇内的平均距离。所有样本的s(i)的均值就是聚类的结果的轮廓系数。当a(i)＜b(i)时，s(i)＝1-a(i)/b(i)；当a(i)＝b(i)时，s(i)＝0；当a(i)＞b(i)时，s(i)＝a(i)/b(i)-1，因此轮廓系数的取值范围是[-1，1]，取值越大，则聚类结果的聚类效果越好。

通过计算可以获得多个数据块的聚类结果的评价数据。以轮廓系数为例，数据块的聚类结果的轮廓系数为各个样本的轮廓系数的平均值。需要注意的是，在本申请中，数据块的轮廓系数，为数据块的聚类结果的轮廓系数的简写。

S50、根据所述数据块的聚类结果的评价数据确定所述大数据的聚类结果的评价数据。

可理解地，可以采用K-Fold方法交叉验证评价数据的正确性。例如，有w个数据块，可以先计算w-1个数据块的轮廓系数的平均值，再计算余下数据块(1个)的轮廓系数，计算平均值与余下数据块轮廓系数的差值；按照上述方式可以求解出w个差值，选择最小的差值，与最小的差值对应的平均值即为大数据的聚类结果的评价数据。

在一示例中，w-1个数据块的轮廓系数的平均值可表示为：

其中，t为数据块的序号，w为划分个数，S_t(i)为第t个数据块的轮廓系数，

为w-1个数据块的轮廓系数的平均值(不包含第1个数据块)。而

其中，i为样本的序号，N_t为第t个数据块的数量，s_t(i)为第t个数据块中第i个样本的轮廓系数。由于

若

与第1个数据块的轮廓系数的差值最小，则大数据的聚类结果的轮廓系数可表示为：

步骤S10-S50中，获取大数据及其聚类结果，以获得待评价的数据。计算所述聚类结果的EPV值，根据所述EPV值和所述大数据的数据规模确定所述大数据的划分个数，以确定最佳的划分个数。根据K-Fold方法和所述聚类结果将所述大数据划分为若干个数据块，所述数据块的个数为所述划分个数，以完成大数据的划分，减少数据规模，大幅降低计算量。计算各个所述数据块的聚类结果的评价数据，以完成数据块的评价，评价的数据量大幅降低。根据所述数据块的聚类结果的评价数据确定所述大数据的聚类结果的评价数据，以获得最终的评价结果。

可选的，步骤S20，即所述计算所述聚类结果的EPV值，包括：

S201、通过EPV计算公式处理所述聚类结果，生成所述EPV值，所述EPV计算公式包括：

其中，EPV即为EPV值，用于评价聚类结果的稳定性；

为大数据中类别1的数据量，

为大数据中类别2的数据量，

为大数据中类别k的数据量，k为类别数，m为大数据的特征个数，min指的是取最小值。

可理解地，可通过EPV值约束划分个数，防止因为划分个数过多，导致评价结果不准确。

可选的，步骤S30，即所述根据K-Fold方法和所述聚类结果将所述大数据划分为若干个数据块，包括：

S301、获取处理所述大数据的内存资源数据；

S302、判断所述内存资源数据是否满足所述数据块的计算需求；

S303、若所述内存资源数据不满足所述数据块的计算需求，输出提醒信息。

可理解地，在将大数据划分为若干个数据块时，需要考虑当前处理大数据的计算机设备的内存资源数据。若内存资源数据满足数据块的计算需求，说明当前划分出的数据块是适当的，可以直接对数据块进行处理。若内存资源数据不满足数据块的计算需求，则需要输出提醒信息。提醒信息可以提示用户，当前计算机设备的内存资源不足，可能发生内存溢出、计算耗时长、计算容易出错等问题。此时，可以更换性能更好的计算机设备，或者重新划分大数据，生成更多更小的数据块。

在一示例中，对于n*n矩阵(n个用户，每个用户n个特征)，在python中，如果用np.array的格式来存储用户数据，则其内存资源占用量为：

1000的用户数量，大概需要8MB；

10000的用户数量，大概需要800MB；

100000的用户数量，大概需要80GB。

可以结合实际情况确定数据块的计算需求。

可选的，所述划分个数大于或等于2。

可理解地，大数据的划分个数w应大于或等于2，以减少计算评价数据时的数据处理量。

可选的，当所述划分个数大于2时，所述EPV值大于10。

可理解地，当EPV值大于10，数据块的聚类结果的稳定性较高。

可选的，所述划分个数满足以下约束条件：

且

其中，w为划分个数，INT表示向下取整，

为大数据中类别i的个数且类别i为个数最小的类别，

为第t个数据块中类别i的个数且第t个数据块为类别i个数最少的数据块，m为大数据的特征个数。

可理解地，可以基于EPV值大于10，以及w＞＝2确定划分个数的约束条件。

令

w＞＝2，其中，

表示大数据中第k个类别的数量，

表示大数据中数量最小的类别i的数量，

表示第w个数据块中类别i的数量，

表示类别i数量最小的数据块t的类别i的数量；则有：

式1：

式2：

式3：

结合式1和式2，则有：

式4：

结合式2和式3，则有：

式5：

联合式4和式5，且w＞＝2，则有：

式6：

对于式6，w的值越大越好。因而，可以获得划分个数w的约束条件，即为：

且

可选的，所述数据块的聚类结果的评价数据为轮廓系数。

可理解地，可以根据实际需要选择聚类结果的评价方法，生成相应的评价数据。在一示例中，数据块的聚类结果的评价数据和大数据的聚类结果的评价数据均为轮廓系数。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种大数据处理装置，该大数据处理装置与上述实施例中大数据处理方法一一对应。如图3所示，该大数据处理装置包括获取模块10、确定划分个数模块20、数据划分模块30、分块计算模块40和整体聚类评价模块50。各功能模块详细说明如下：

获取模块10，用于获取大数据及其聚类结果；

确定划分个数模块20，用于计算所述聚类结果的EPV值，根据所述EPV值和所述大数据的数据规模确定所述大数据的划分个数；

数据划分模块30，用于根据K-Fold方法和所述聚类结果将所述大数据划分为若干个数据块，所述数据块的个数为所述划分个数；

分块计算模块40，用于计算各个所述数据块的聚类结果的评价数据；

整体聚类评价模块50，用于根据所述数据块的聚类结果的评价数据确定所述大数据的聚类结果的评价数据。

可选的，确定划分个数模块20包括：

EPV计算单元，用于通过EPV计算公式处理所述聚类结果，生成所述EPV值，所述EPV计算公式包括：

其中，EPV即为EPV值，用于评价聚类结果的稳定性；

为大数据中类别1的数据量，

为大数据中类别2的数据量，

可选的，数据划分模块30包括：

获取内存资源数据单元，用于获取处理所述大数据的内存资源数据；

需求判断单元，用于判断所述内存资源数据是否满足所述数据块的计算需求；

输出提醒单元，用于若所述内存资源数据不满足所述数据块的计算需求，输出提醒信息。

可选的，所述划分个数大于或等于2。

可选的，当所述划分个数大于2时，所述EPV值大于10。

可选的，所述划分个数满足以下约束条件：

且

其中，w为划分个数，INT表示向下取整，

为大数据中类别i的个数且类别i为个数最小的类别，

可选的，所述数据块的聚类结果的评价数据为轮廓系数。

关于大数据处理装置的具体限定可以参见上文中对于大数据处理方法的限定，在此不再赘述。上述大数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储大数据处理方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种大数据处理方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现以下步骤：

获取大数据及其聚类结果；

计算各个所述数据块的聚类结果的评价数据；

在一个实施例中，提供了一个或多个存储有计算机可读指令的计算机可读存储介质，本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时实现以下步骤：

获取大数据及其聚类结果；

计算各个所述数据块的聚类结果的评价数据；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。