CN114595271A

CN114595271A - 一种大数据挖掘方法及系统

Info

Publication number: CN114595271A
Application number: CN202210173310.8A
Authority: CN
Inventors: 张馨云
Original assignee: Guizhou Youjing Network Technology Co ltd
Current assignee: Beijing Zhongshuruizhi Technology Co ltd
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2022-06-07
Anticipated expiration: 2042-02-24
Also published as: CN114595271B

Abstract

本发明公开了一种大数据挖掘方法，应用于边云系统，所述边云系统包括中心云、边缘计算节点MEC和用户设备UE，所述方法包括：所述UE将时间和空间数据发送至所述MEC；所述MEC基于所述时间和空间数据，生成时空二维矩阵Q，并将所述时空二维矩阵Q发送至所述中心云，其中，所述二维矩阵Q为M行*N列；所述中心云将所述时空二维矩阵Q进行拆分，并重新组合为第一数组集合P；所述中心云将所述第一数组集合P进行挖掘分析，确认挖掘数据结果。

Description

一种大数据挖掘方法及系统

技术领域

本发明属于信息技术领域，具体地，涉及一种大数据挖掘的方法及系统。

背景技术

基于大数据的分析、挖掘能为企业经营提供有效的信息，而云计算的发展使得企业不在需要投入巨额资金建设大数据平台，利用云计算平台进行大数据挖掘是必须关注问题。

然而，现在的大数据挖掘平台会基于一定的场景进行设计，其通用性不强，例如电子商务领域有一套自己的大数据挖掘方案，而财务EPR领域则有另外一套大数据挖掘方案，二者不能兼容。因此，如何建立一套通用性强的大数据挖掘平台是急需要解决的问题。

发明内容

本发明提供了一种大数据挖掘的方法及系统，有效解决了现有技术中大数据挖掘方案通用性不强的问题，有效提升了大数据挖掘方案的通用性。

为了实现上述目的，本发明提供了一种大数据挖掘方法，应用于边云系统，所述边云系统包括中心云、边缘计算节点MEC和用户设备UE，所述方法包括：

所述UE将时间和空间数据发送至所述MEC；

所述MEC基于所述时间和空间数据，生成时空二维矩阵Q，并将所述时空二维矩阵Q发送至所述中心云，其中，所述二维矩阵Q为M行*N列；

所述中心云将所述时空二维矩阵Q进行拆分，并重新组合为第一数组集合P；

所述中心云将所述第一数组集合P进行挖掘分析，确认挖掘数据结果。

可选地，所述中心云将所述第一数组集合P进行挖掘分析，确认挖掘数据结果，包括：

对所述第一数组集合P进行统计校验，获取置信度和置信区间；

基于所述置信度和置信区间，确定第二数组集合P’；

对所述第二数组集合P’进行关联性分析，确定第三数组集合P”；

对所述第三数组集合P”进行自动编码，确定X个偏离变量，所述X个偏离变量的偏离度高于第一预设阈值；

将所述X个偏离变量进行挖掘结果确认，从而获取挖掘数据结果。

可选地，所述对所述第一数组集合P进行统计校验，获取置信度和置信区间；基于所述置信度和置信区间，确定第二数组集合P’，包括：

对所述第一数组集合P进行贝叶斯统计，获取所述第一数组集合P的置信度和置信区间；

基于所述置信度和置信区间，将所述第一数组集合P进行统计校验，去除所述第一数组集合P中的噪声元素，生成第二数组集合P’。

可选地，所述对所述第二数组集合P’进行关联性分析，确定第三数组集合P”，包括：

利用关联规则算法计算所述第二数组集合P’中相邻元素之间的支持度；

获取支持度大于第二预设阈值的各相邻元素，将所述各相邻元素进行重组，以生成第三数组集合P”。

可选地，所述对所述第三数组集合P”进行自动编码，确定X个偏离变量，包括：

利用AE模型确定所述第三数组集合P”中各个元素的偏离度；

获取偏离度高于所述第一预设阈值的X个偏离变量。

可选地，所述利用AE模型确定所述第三数组集合P”中各个元素的偏离度，包括：

获取所述第三数组集合P”中各个元素；

将所述各个元素输入至AE模型，获取S组样本数据；

对所述S组样本数据进行过滤，去除所述S组样本数据中的非重要变量，过滤后的S组样本包括每一组样本对应的偏离度。

可选地，将所述X个偏离变量进行挖掘结果确认，包括：

基于挖掘模型，设置参数变量和对应的权重值；

将所述X个偏离变量作为参数变量，乘以对应的权重值后进行输入，并经过挖掘模型的运算输出挖掘结果。

可选地，所述中心云将所述时空二维矩阵Q进行拆分，并重新组合为第一数组集合P，包括：

所述中心云将所述时空二维矩阵Q进行分块处理，得到多个数据块，其中，所述多个数据块为加密数据块；

所述中心云获取所述MEC发送的UUID和token，将所述多个数据块进行解密；

所述中心云基于数据提取规则，将所述解密后的数据块进行重组，形成所述第一数组集合P。

本发明实施例还提供一种大数据挖掘系统，所述系统包括中心云、边缘计算节点MEC和用户设备UE，其中，

所述UE用于将时间和空间数据发送至所述MEC；

所述MEC用于基于所述时间和空间数据，生成时空二维矩阵Q，并将所述时空二维矩阵Q发送至所述中心云，其中，所述二维矩阵Q为M行*N列；

所述中心云用于将所述时空二维矩阵Q进行拆分，并重新组合为第一数组集合P；

所述中心云还用于将所述第一数组集合P进行挖掘分析，确认挖掘数据结果。

本发明实施例还提供了一种大数据挖掘系统，包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时实现上述的方法。

本发明实施例的方法及系统具有下列优点：

本发明实施例中，为了增强大数据挖掘的通用性，本发明实施例基于边云系统的架构，将UE的时间空间数据都进行获取，并将时空数据按照一定规则或算法进行拆分和重组，从而得到待处理的数据组，并基于不同数据挖掘的算法，将该待处理数据组进行数据挖掘，获取不同场景下的挖掘结果，不仅提升了大数据挖掘的通用性，更提升了大数据挖掘在不同场景下的挖掘效率。

附图说明

图1为一个实施例中大数据挖掘边云系统架构图；

图2为一个实施例中大数据挖掘的方法流程图；

图3为一个实施例中的数据查询系统组成结构图；

图4为一个实施例中系统的硬件组成示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

图1是本发明实施例中大数据挖掘的边云系统架构图，如图1所示，该边云系统10包括中心云11、多个边缘计算节点MEC12和多个用户设备UE13。其中，中心云11具备通用的云服务器架构，其由海量的云端服务器组成，具备强劲的数据存储和处理能力，可以高速且并行地对不同的数据进行处理。边缘计算节点MEC分布在距离UE较进的网络层，其具备基本的数据处理能力和处理能力，边缘计算设备MEC是一种下沉到用户侧的服务器节点，其目的是为了能短时期快速响应用户的需求，但其并不具备强大的数据处理能力和存储能力，因此，需要将获取的用户设备数据进行上传，通过中心云来实现数据处理和存储。用户设备UE是一种具备无线处理能力的移动设备，可以根据无线传输协议向MEC发送自身的各类信息，包括不限于定位、数据请求、自身心跳包、特定领域的数据分享等。

在上述边云系统中，多个MEC分布在各个地区，其分别与一个中心云进行连接，将不同的数据上报给中心云，并接收中心云下发的各个指令并执行。通常而言，一个MEC会接入多个UE设备，该UE设备通过基站或路由器等与MEC进行连接，并将自身的数据信息上报给MEC。

如图2所示，本发明实施例提供一种大数据挖掘方法，应用于图1所示的系统，包括：

S101.所述UE将时间和空间数据发送至所述MEC；

UE将一段时间内采集到的数据发送给MEC，该数据可以按照时间和空间进行分类，时间数据包括与时间强相关的数据，例如通用的时间格式数据、随时间周期性变化的各类参数等，空间数据包括与空间信息强相关的数据，包括通用的GPS数据、具备空间特征属性的各类参数。

以电子商务为例，时间数据可以是用户购买的商品时间，空间数据可以是用户购买该商品的购买地、商品名称及类别、商品发货地等，以此来关联该用户在什么时间什么地点购买了该商品。

S102.所述MEC基于所述时间和空间数据，生成时空二维矩阵Q，并将所述时空二维矩阵Q发送至所述中心云，其中，所述二维矩阵Q为M行*N列；

MEC基于收集到的时间和空间数，生成时空二维矩阵Q，其中

Q为M行N列的二维矩阵，s为空间参数，t为时间参数。

S103.所述中心云将所述时空二维矩阵Q进行拆分，并重新组合为第一数组集合P；

上述生成的二维矩阵Q是原始矩阵，该矩阵有执行数据挖掘需要的信息，但各个元素之间随机性较高，关联性不强，需要将不同的元素按照一定的规则或次序进行拆分和重组，以此来获取不同规则或场景下所需要的数据。

在本发明实施例中，数据拆分可以基于一定的规则进行拆分，也可以按照一定的属性进行拆分，拆分过程可以设计为依据不同的公式进行拆分，例如，规则一：获取用户A在2019年1月-2月购买的所有商品名单，在该规则下约定了时间为2019年1-2月(时间参数)，也约定了需要的是商品名单(空间参数)，因此，所需要的数据只是Q中的一部分数据，此时，可以将Q的元素进行拆分，并获取到其中T分布在2019年1-2月，S为商品名称的所有数据，将该数据进行重组，即可获得第一数组集合P，其中，P＝[p₁,p₂...p_i]

p是上述二维矩阵Q的其中一个元素，例如p₁＝s₂t₃，p₂＝s₄t₆。

在本发明的其中一个实施例中，上述拆分和重组的过程也可以按照一定数学逻辑进行拆分，例如，可以基于模2运算进行二维矩阵Q的拆分，并将拆分后的元素按片重组。

在其中的一个实施例中，为了增加数据安全性，通常UE在上传该类型数据时会把时空数据都进行加密，因此时空二维矩阵Q的数据对于中心云而言都是加密的数据；此时，中心云将所述时空二维矩阵Q进行分块处理，得到多个数据块，其中，所述多个数据块为加密数据块；所述中心云获取所述MEC发送的UUID和token，将所述多个数据块进行解密；所述中心云基于数据提取规则，将所述解密后的数据块进行重组，形成所述第一数组集合P。数据提取规则包括不限于上述实施例提及的规则。

S104.所述中心云将所述第一数组集合P进行挖掘分析，确认挖掘数据结果。

具体的，S104可以包括如下步骤：

S1041.对所述第一数组集合P进行统计校验，获取置信度和置信区间；

在统计学中，一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数测量值的可信程度范围，即前面所要求的“一定概率”。这个概率被称为置信水平或置信区间。例如，参数95％的置信度在区间A的意思是：采样100次计算95％置信度的置信区间，有95次计算所得的区间包含真实值。

对第一数组集合P进行统计校验的目的在于，将第一数组集合P中非真实数据进行过滤筛除，从而保留真实有效的数据。

S1042.基于所述置信度和置信区间，确定第二数组集合P’；

具体地，所述对所述第一数组集合P进行统计校验，获取置信度和置信区间；基于所述置信度和置信区间，确定第二数组集合P’，包括：

基于上述统计校验方法，将非真实数据进行过滤筛除，保留真实数据，形成第二数组集合P’。

具体地，估计参数真值所在的范围通常以区间的形式给出，同时还给出此区间包含参数真值的可信程度，这种形式的估计称为区间估计，这样的区间称为置信区间。对于任意参数θ在可能的取值范围内，P{θ1<θ<θ2}≥1-α，则称随机区间(θ1，θ2)是参数θ的置信水平为1-α的置信区间，θ1和θ2分别称为置信水平为1-α的双侧置信区间的置信下限和置信上限，1-α称为置信水平。

在统计学上，置信度和置信区间用来进行统计校验，并筛除第一数组集合P中取值范围不在可能的取值范围内的元素。本发明实施例中，假设置信度为95，则第一数组集合P中会基于此置信度进行过滤筛除。

S1043.对所述第二数组集合P’进行关联性分析，确定第三数组集合P”；

关联性分析即采用关联规则算法挖掘变量之间的关联关系。在超市领域很常见，例如沃尔玛就提出了60％以上的男顾客在购买婴儿纸尿裤的时候会购买啤酒，因此货物摆放时将婴儿纸尿裤和啤酒摆放距离接近。

具体地，可通过支持度(support)衡量关联规则。其中，支持度表示多个变量同时出现在一组样本数据中的概率，支持度越大表示变量之间的关联性越强。在电子商务领域中，用户在2019年1-2月有5条购买记录，其中，既购买商品A又购买商品B的记录为3条，那么支持度为3/5＝0.6。

另，包含一个或多个变量的集合可以称为项集，频繁项集是支持度大于预设阈值的项集，接上例，假设预设阈值为0.4，项集为{商品A,商品B}，支持度为0.6>0.4，则该项集为频繁项集。因此，在本发明实施例中，项集的集合即为第二数组集合P’，而项集可包含“属性和值”，属性为时空参数，值为该时空参数的具体值。

具体地，本发明实施例中，可利用关联规则算法计算所述第二数组集合P’中相邻元素之间的支持度；获取支持度大于第二预设阈值的各相邻元素，将所述各相邻元素进行重组，以生成第三数组集合P”。

其中，上述流程具体如下：

对第二数组集合P’进行按照相邻元素进行项集拆分，获取多个候选项集，每一个候选项集为一组相邻元素；该候选项集包括所述1对相邻元素和对应的值。

依次计算相邻元素的支持度；

获取上述计算出的支持度大于第二预设阈值的候选项集，定义上述项集为频繁项集；

将频繁项集进行重组，形成第三数组集合P”。

S1044.对所述第三数组集合P”进行自动编码，确定X个偏离变量，所述X个偏离变量的偏离度高于第一预设阈值；

具体地，可利用AE模型确定所述第三数组集合P”中各个元素的偏离度；获取偏离度高于所述第一预设阈值的X个偏离变量。其中X大于等于1。

在其中一个实施例中，所述利用AE模型确定所述第三数组集合P”中各个元素的偏离度，包括：

获取所述第三数组集合P”中各个元素；

将所述各个元素输入至AE模型，获取S组样本数据；

自动编码(auto encoder,AE)算法是一种无监督学习模型，AE模型接收输入样本数据，可以从输入的样本数据学习到样本数据之间的偏离度，输出该偏离度。此外，AE模型还可以输出每一个变量的重要性系数，依次来去除非重要变量。

AE模型由神经网络的编码器和解码器组成，编码器和解码器各自包含三层神经网络，AE模型工作原理具体如下：

使用无监督学习方法设计并训练AE模型，初始的AE模型构建完成后，可对AE各层神经网络的权重参数进行初始化。并且，在初始AE模型构建完毕后，即可输入第三数据集合P”，具体地，编码器对输入数据进行编码，解码器对编码器的输出数据进行解码，并且解码器输出的数据是对原始数据进行重构的数据。在重构过程中，AE模型可计算出原始数据与重构数据之间的偏离度，偏离度越大则原始样本数据的重构难度越大。

S1045.将所述X个偏离变量进行挖掘结果确认，从而获取挖掘数据结果。

其中，将所述X个偏离变量进行挖掘结果确认，包括：

基于挖掘模型，设置参数变量和对应的权重值；

在不同的应用场景中，挖掘模型的设定不同，例如，在企业EPR系统中，HR系统具备特定的挖掘模型，财务系统具备特定的挖掘模型，营销系统也具备特定的挖掘模型，本发明实施例没有对挖掘模型进行限制，而针对挖掘模型的输入数据，本发明实施例会将偏离度高的X个变量作为该挖掘模型的输入数据进行输入，其依据是：选定的X个变量，依次经过了真实性(置信度和置信区间)、关联程度(支持度)和偏离度(数据之间的偏差程度)的判断，通常而言，关联度越大且偏离度越高，其数据相对典型，具备可挖掘和分析的价值，例如，商品报价中，同类商品的价格报价应当稳定在20％的浮动内，若其中一个商品的报价上涨了50％，明显高于其他同类商品的报价，其偏离度相对较高，可输入到电子商务的挖掘模型中分析其报价偏高的原因，不难确定是由于其商品持续畅销、缺货，或遇到消费高峰期等因素导致的。

本发明实施例的方法及系统具有下列优点：

如图3所示，本发明实施例还提供一种大数据挖掘系统，所述系统包括中心云31、边缘计算节点MEC32和用户设备UE33，其中，

所述UE33用于将时间和空间数据发送至所述MEC；

所述MEC32用于基于所述时间和空间数据，生成时空二维矩阵Q，并将所述时空二维矩阵Q发送至所述中心云，其中，所述二维矩阵Q为M行*N列；

MEC32基于收集到的时间和空间数，生成时空二维矩阵Q，其中

Q为M行N列的二维矩阵，s为空间参数，t为时间参数。

所述中心云31用于将所述时空二维矩阵Q进行拆分，并重新组合为第一数组集合P；

所述中心云31还用于将所述第一数组集合P进行挖掘分析，确认挖掘数据结果。

具体的，所述中心云31还用于将所述第一数组集合P进行挖掘分析，确认挖掘数据结果,具体为：

基于所述置信度和置信区间，确定第二数组集合P’；

其中，上述流程具体如下：

依次计算相邻元素的支持度；

将频繁项集进行重组，形成第三数组集合P”。

获取所述第三数组集合P”中各个元素；

将所述各个元素输入至AE模型，获取S组样本数据；

其中，将所述X个偏离变量进行挖掘结果确认，包括：

基于挖掘模型，设置参数变量和对应的权重值；

本发明实施例还提供了一种大数据挖掘系统，如图4所示，包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时实现上述的方法。在实际应用中，系统还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出系统、处理器、控制器、存储器等，而所有可以实现本申请实施例的大数据管理方法的系统都在本申请的保护范围之内。

存储器包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read至only memory，ROM)、可擦除可编程只读存储器(erasable programmable readonly memory，EPROM)、或便携式只读存储器(compact disc read至only memory，CD至ROM)，该存储器用于相关指令及数据。

输入系统用于输入数据和/或信号，以及输出系统用于输出数据和/或信号。输出系统和输入系统可以是独立的器件，也可以是一个整体的器件。

处理器可以包括是一个或多个处理器，例如包括一个或多个中央处理器(centralprocessing unit，CPU)，在处理器是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。处理器还可以包括一个或多个专用处理器，专用处理器可以包括GPU、FPGA等，用于进行加速处理。

存储器用于存储网络设备的程序代码和数据。

处理器用于调用该存储器中的程序代码和数据，执行上述方法实施例中的步骤。具体可参见方法实施例中的描述，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，该单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程系统。该计算机指令可以存储在计算机可读存储介质中，或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read至onlymemory，ROM)，或随机存储存储器(random access memory，RAM)，或磁性介质，例如，软盘、硬盘、磁带、磁碟、或光介质，例如，数字通用光盘(digital versatile disc，DVD)、或者半导体介质，例如，固态硬盘(solid state disk，SSD)等。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种大数据挖掘方法，其特征在于，应用于边云系统，所述边云系统包括中心云、边缘计算节点MEC和用户设备UE，所述方法包括：

所述UE将时间和空间数据发送至所述MEC；

2.根据权利要求1所述的方法，其特征在于，所述中心云将所述第一数组集合P进行挖掘分析，确认挖掘数据结果，包括：

基于所述置信度和置信区间，确定第二数组集合P’；

3.根据权利要求2所述的方法，其特征在于，所述对所述第一数组集合P进行统计校验，获取置信度和置信区间；基于所述置信度和置信区间，确定第二数组集合P’，包括：

4.根据权利要求2所述的方法，其特征在于，所述对所述第二数组集合P’进行关联性分析，确定第三数组集合P”，包括：

5.根据权利要求2所述的方法，其特征在于，所述对所述第三数组集合P”进行自动编码，确定X个偏离变量，包括：

利用AE模型确定所述第三数组集合P”中各个元素的偏离度；

获取偏离度高于所述第一预设阈值的X个偏离变量。

6.根据权利要求5所述的方法，其特征在于，所述利用AE模型确定所述第三数组集合P”中各个元素的偏离度，包括：

获取所述第三数组集合P”中各个元素；

将所述各个元素输入至AE模型，获取S组样本数据；

7.根据权利要求2所述的方法，其特征在于，将所述X个偏离变量进行挖掘结果确认，包括：

基于挖掘模型，设置参数变量和对应的权重值；

8.根据权利要求1所述的方法，其特征在于，所述中心云将所述时空二维矩阵Q进行拆分，并重新组合为第一数组集合P，包括：

9.一种大数据挖掘系统，其特征在于，所述系统包括中心云、边缘计算节点MEC和用户设备UE，其中，

所述UE用于将时间和空间数据发送至所述MEC；

10.一种大数据挖掘系统，其特征在于，包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时实现权利要求1至8任一项所述的方法。