CN115033187A

CN115033187A - 一种基于大数据的分析管理方法

Info

Publication number: CN115033187A
Application number: CN202210955201.1A
Authority: CN
Inventors: 秦书进; 宋朝钦; 蒋燕岚; 李斌; 严磊
Original assignee: Lanswon Technologies Co ltd
Current assignee: Lanswon Technologies Co ltd
Priority date: 2022-08-10
Filing date: 2022-08-10
Publication date: 2022-09-09
Anticipated expiration: 2042-08-10
Also published as: CN115033187B

Abstract

本发明公开了一种基于大数据的分析管理方法，其中所述方法包括：采集数据；确定所述数据的数据类型；对数据进行整合统一；基于整合统一后的所述数据的内容，为所述数据设置第一属性标识；当所述第一属性标识不同时，采用不同的存储方式；基于第一属性标识和所述数据的访问历史信息，更新所述数据设置的第二属性标识或第三属性标识；基于第三属性标识或第二属性标识，对所述数据进行更新存储。本发明使得不同的类型的数据具备不同的访问权限、响应时间和访问资源，从而有效地对数据进行管理，保障了用户需求与信息安全的平衡性。

Description

一种基于大数据的分析管理方法

技术领域

本发明属于物联网大数据技术领域，尤其涉及一种基于大数据的分析管理方法。

背景技术

随着国家支持的各行各业信息化建设不停地逐步推进，以及云计算、大数据、人工智能等新技术的快速发展，数字化、网络化程度不断提升。对于很多大型公司来说，由于业务较多，各业务系统建设和实施业务数据管理系统的阶段性、技术性以及其他经济和人为因素影响，导致积累大量采用不同的存储方式的业务数据，包括采用的数据管理系统也不大相同，从简单的文件数据库到复杂的网络数据库。如何对这些数据进行处理，并进行有效地集中管理，从而使得无序的数据变成有益的数据，是当前的一个重要问题。

发明内容

针对上述现有技术中存在的缺陷，本发明提供一种基于大数据的分析管理方法，包括以下步骤：

采集数据；

确定所述数据的数据类型；

基于所述数据的不同数据类型采用相应数据标准化策略进行标准化处理；

对标准化处理后的数据进行整合统一；

基于整合统一后的所述数据的内容，为所述数据设置第一属性标识；

当所述第一属性标识表示所述数据为机密信息时，将所述数据采用第一存储策略进行集中存储；

当所述第一属性标识表示所述数据为普通信息时，将所述数据采用第二存储策略进行分布式存储；

当所述数据为机密信息时，基于所述数据的访问历史信息，更新所述数据设置的第二属性标识；

当所述数据为普通数据时，基于所述数据的访问历史信息，更新所述数据设置的第三属性标识；

当所述第二属性标识大于第一阈值时，对所述数据采用安全芯片进行鉴权存储；

基于所述第三属性标识，对所述数据采用多备份边缘分布式存储。

其中，所述数据类型包括：结构化数据、流数据、图片文本数据、非结构化数据。

其中，所述整合统一包括将标准化处理后的数据按用户需求进行格式转换，得到格式转换后的数据。

其中，所述将第一存储策略为将所述数据存储至中央核心服务器，仅能通过IP地址进行访问。

其中，所述第二存储策略为利用元数据映射方式，将整合统一后的数据映射到HDFS分布式存储系统中的逻辑空间。

其中，所述当所述第二属性标识大于第一阈值时，对所述数据采用安全芯片进行鉴权存储，包括：

建立所述客户端与安全芯片之间的通信连接。

从所述安全芯片中获取与中央核心服务器对应的鉴权信息。

将所述鉴权信息发送至所述中央核心服务器；其中，所述鉴权信息用于所述中央核心服务器对所述客户端进行认证。

其中，客户端将从安全芯片中获取的鉴权信息发送至中央核心服务器，然后，中央核心服务器根据客户端发送的鉴权信息对客户端进行认证，如果认证通过，客户端可以访问中央核心服务器，如果认证没有通过，则客户端不可以访问中央核心服务器。

其中，所述基于所述第三属性标识，对所述数据采用多备份边缘分布式存储，具体包括：

统计所述数据的访问频率，计算所述数据的访问概率；

获取所述数据的流行度值；

基于所述流行度值和访问概率，获取所述数据的备份数；

基于所述数据备份数、分布式多个服务器的相应剩余存储容量，确定所述数据在各台服务器中的分布。

其中，假定存在N台服务器，所述数据的备份数为c，所述数据的访问概率为p，所述数据的流行度值为a，第i台服务器的剩余存储容量为S_i，则

c=a/p；

若c＞N，则将c设置为N；

若c≤N，则c=a/p；

当c≤N时，则计算所有服务器在特定时间内的平均响应时间，选择平均响应时间最短的排名前c个服务器，在相应服务器中存储所述数据的一个备份。

在另一实施例中，本发明还提出了一种基于大数据的分析管理系统，其包括：

客户端，其用于搭载第三方应用；

数据分析平台，其包括接口模块、系统管理模块、分析展现模块、数据建模模块、指标管理模块和数据整合模块，

其中，所述系统管理模块，用于对所述数据分析平台进行管理；

数据整合模块，用于数据抽取、数据清洗、数据转换、数据调度和数据运行监控；

数据建模模块，用于对数据进行关联关系、主题表管理以及维表管理；

指标管理模块，用于进行指标建模、指标定义和指标固化；

所述分析展现模块，用于对数据进行报表分析、敏捷分析、报告应用和展现；

接口模块，用于与外部进行数据交换。

与现有技术相比，本发明通过在数据采集阶段，对数据进行初级分类和二级分类，并对不同类型的数据采用了硬件加密存储或软件加密存储或者普通存储的方式，使得不同的类型的数据具备不同的访问权限、响应时间和访问资源，从而有效地对数据进行管理，保障了用户需求与信息安全的平衡性。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，并且相同或对应的标号表示相同或对应的部分，其中：

图1是示出根据本发明实施例的一种基于大数据的分析管理方法流程图。

图2是示出根据本发明实施例的基于大数据的分析管理系统的框图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的一种、所述和该，也旨在包括多数形式，除非上下文清楚地表示其他含义，多种，一般包含至少两种。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述……，但这些……不应限于这些术语。这些术语仅用来将……区分开。例如，在不脱离本发明实施例范围的情况下，第一……也可以被称为第二……，类似地，第二……也可以被称为第一……。

应当理解，本文中使用的术语：和/或，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符：/，一般表示前后关联对象是一种或的关系。

取决于语境，如在此所使用的词语：如果、若，可以被解释成为：在……时，或当……时，或响应于确定；或响应于检测。类似地，取决于语境，短语：如果确定或如果检测（陈述的条件或事件），可以被解释成为：当确定时或响应于确定或当检测（陈述的条件或事件）时或响应于检测（陈述的条件或事件）。

还需要说明的是，术语：包括、包含或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下，由语句：包括一个……限定的要素，并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。

下面结合附图详细说明本发明的可选实施例。

实施例一，如图1所示，本发明提出的一种基于大数据的分析管理方法，包括以下步骤：

采集数据；

确定所述数据的数据类型；

对标准化处理后的数据进行整合统一；

1、针对非结构化数据

由于非结构化数据并不一定遵循标准的数据结构(如模式定义规范的行和列)，其包含语音、视频或图片等。因此不容易被计算机程序直接理解和利用。目前，对非结构化数据分析和处理方法一般是在数据库预先定义需求的关键字，但是预先定义需求的关键字在对非结构化数据分析和处理时，灵活性比较差。因此，本发明实施例提出如下方式：

步骤1、根据非结构化数据，获取非结构化数据的关键字，根据非结构化数据，获取非结构化数据的关键字包括根据预先设定的解析规则，从非结构化数据中抽取的关键字。预先设定的解析规则包括用户预先自定义的解析规则和系统预先配置的解析规则，解析规则可以是正则表达式规则或者其它形式的能实现抽取非结构化数据中关键字段的规则，解析规则中定义了抽取非结构化数据中关键字段的操作规则。

需要说明的是，为了提高非结构化数据的解析效率，非结构化数据处理系统在对非结构化数据进行解析时，可以先采用系统预先配置的解析规则对非结构化数据进行解析，以获得非结构化数据的关键字。如果采用系统预先配置的解析规则无法完成对非结构化数据的解析，再使用用户预先自定义的解析规则对非结构化数据进行解析，以获得非结构化数据的关键字。

需要说明的是，抽取非结构化数据的关键字，并将关键字存储到关键字库中有利于用户对非结构化数据进行管理和调整，当用户再次调用已将关键字存储到关键字库的非结构化数据，系统不需要对数据库中保存的所有非结构化数据进行搜索，只需要根据非结构化数据的关键字进行简单检索，再根据关键字库、归一化数值库和环境状态信息库之间的一一对应关系，即可得到完整的非结构化数据信息。

步骤2、判断关键字是否已经存在于关键字库中，若关键字未存在于关键字库中，则将关键字添加到关键字库中。非结构化数据处理系统将非结构化数据的关键字与关键字库中的所有关键字进行一一对照，如果关键字库中已存在与非结构化数据的关键字相同的关键字，则非结构化数据处理系统不再将非结构化数据的关键字添加到关键字库，如果关键字库中未存在与非结构化数据的关键字相同的关键字，则将非结构化数据的关键字添加到关键字库，这样可以不断补充和完善数据库中的关键字库，提高了对非结构化数据分析和处理的灵活性，适应于目前各种非结构化数据。

2、针对结构化数据

结构化数据可以是字符型数据、整型数据、浮点型数据，这些数据可以用于存储产品信息、客户信息、企业信息。

结构化数据可以通过表格的方式将结果进行归一化处理。

在某一实施例中，由于该数据为机密信息，因此该数据不适合在网络中扩散，只应当设置唯一的IP访问地址，对其访问应当是进行严格的身份验证以及鉴权方式。

其中，所述当所述第二属性标识大于第一阈值时，对所述数据采用安全芯片进行鉴权存储，包括：建立所述客户端与安全芯片之间的通信连接。

从所述安全芯片中获取与中央核心服务器对应的鉴权信息。

上述步骤中，客户端可以为智能手机、平板电脑等。安全芯片可以为专用安全芯片，可位于指定云端或服务器端，或者位于客户端或者位于接入网设备中。

其中，鉴权信息可以为证书、密码信息、身份信息等。

在上述方案中，通过客户端从安全芯片获取鉴权信息，并根据鉴权信息与中央核心服务器进行身份认证，即使客户端被其他用户获取root权限，APP密码被破译，其他用户也不能访问中央核心服务器，从而提高了客户端访问中央核心服务器的安全性。

在某一实施例中，当所述数据为机密信息时，基于所述数据的访问历史信息，更新所述数据设置的第二属性标识。在该实施例中，访问历史信息通常为某一时间段内的访问次数，或者累积访问次数。通常，如果是机密数据被频繁访问，说明该信息可能是更为重要的信息，为了有效地保护重要信息，因此增加该数据的访问难度或访问耗时，从而排除一部分对该数据没有需求的用户。

在某一实施例中，第二属性标识为数值类型，其采用累加的方式。当该数值大于预设的第一阈值时，则该数据直接从集中存储的方式改为机密存储方式，即提升了数据保护的等级。在将数据进行转存过程中，将删除原始地址中存储的数据。

在某一实施例中，通过安全芯片的访问方式，增加验证过程，能够更加有效地保护这类数据。

统计所述数据的访问频率，计算所述数据的访问概率；

获取所述数据的流行度值；

基于所述流行度值和访问概率，获取所述数据的备份数；

在某一实施例中，当所述数据为普通数据时，基于所述数据的访问历史信息，更新所述数据设置的第三属性标识。在该实施例中，第三属性标识为该数据的备份数。由于普通数据不存在保密的需求，但是由于其访问大，为了加快访问速度，有必要做多个备份，以便多用户可以同时访问该数据，这样可以有效提高工作效率。

在某一实施例中，本发明实施例采用如下方式计算流行度值：

在本发明实施例中所述数据处于被访问状态时，其流行度通常会认为是上升趋势，这相当于一个物体内在地做吸热操作，其温度自然而然地要不断上升。物体的吸热过程如公式所示:Q=c·m·Δt，其中，Q为每一次加热物体吸收的热量，c是比热容，m是物体质量，Δt为两个连续时刻的温差变化。倘若把物体的吸热过程类比到所述数据被访问带来的流行度上升过程，那么可以有如下表述:Q为所述数据被连续访问后的即时流行度；m为所述数据的大小，通常情况下，所述数据越大其流行度越高，这是因为包含的切片越多其范围越大越笼统(例如，10分钟电影的流行度要高于该10分钟内某两分钟的流行度);c能表达所述数据的类型，是所述数据类型参数，即不同的所述数据类型具有不同的参数值，且比较流行的所述数据类型应该有更高的对应参数值;Δt是连续的两个时刻。基于上述描述，可以将以上公式改写成公式，如下:Q(t)=c·m·t，假设从零时刻到t'时刻，所述数据处于无人访问状态，而从t'时刻后，所述数据处于频繁的访问状态，那么可以得到综合的所述数据流行度，如以下公式所示：

其中，前半部分表示所述数据在自然状态下其流行度的变化情况，后半部分表示所述数据在频繁访问状态下其流行度的上升情况。

c=a/p；

若c＞N，则将c设置为N；

若c≤N，则c=a/p；

实施例二，如图2所示，本发明还提出了一种基于大数据的分析管理系统，其包括：

客户端，其用于搭载第三方应用；

指标管理模块，用于进行指标建模、指标定义和指标固化；

接口模块，用于与外部进行数据交换。

实施例三，本发明还提出了一种基于大数据的分析管理系统，其包括：

采集模块，其用于采集数据；

类型确定模块，其用于确定所述数据的数据类型；

标准化处理模块，其用于基于所述数据的不同数据类型采用相应数据标准化策略进行标准化处理；

对标准化处理后的数据进行整合统一；

设置模块，其用于基于整合统一后的所述数据的内容，为所述数据设置第一属性标识；

集中存储模块，其用于当所述第一属性标识表示所述数据为机密信息时，将所述数据采用第一存储策略进行集中存储；

分布式存储模块，其用于当所述第一属性标识表示所述数据为普通信息时，将所述数据采用第二存储策略进行分布式存储；

更新模块，其用于当所述数据为机密信息时，基于所述数据的访问历史信息，更新所述数据设置的第二属性标识；

加密存储模块，其用于当所述第二属性标识大于第一阈值时，对所述数据采用安全芯片进行鉴权存储；

多备份存储模块，其用于基于所述第三属性标识，对所述数据采用多备份边缘分布式存储。

实施例四，本发明实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行如上实施例所述的方法步骤。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质可以但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(AN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

以上介绍了本发明的较佳实施方式，旨在使得本发明的精神更加清楚和便于理解，并不是为了限制本发明，凡在本发明的精神和原则之内，所做的修改、替换、改进，均应包含在本发明所附的权利要求概括的保护范围之内。

Claims

1.一种基于大数据的分析管理方法，其特征是，包括以下步骤：

采集数据；

确定所述数据的数据类型；

对标准化处理后的数据进行整合统一；

2.如权利要求1所述基于大数据的分析管理方法，其特征是，其中所述数据类型包括：结构化数据、流数据、图片文本数据、非结构化数据。

3.如权利要求1所述基于大数据的分析管理方法，其特征是，其中所述整合统一包括将标准化处理后的数据按用户需求进行格式转换，得到格式转换后的数据。

4.如权利要求1所述基于大数据的分析管理方法，其特征是，其中所述第一存储策略为将所述数据存储至中央核心服务器，仅能通过IP地址进行访问。

5.如权利要求1所述基于大数据的分析管理方法，其特征是，其中所述第二存储策略为利用元数据映射方式，将整合统一后的数据映射到HDFS分布式存储系统中的逻辑空间。

6.如权利要求1所述基于大数据的分析管理方法，其特征是，其中所述当所述第二属性标识大于第一阈值时，对所述数据采用安全芯片进行鉴权存储，包括：

建立所述客户端与安全芯片之间的通信连接；

从所述安全芯片中获取与中央核心服务器对应的鉴权信息；

7.如权利要求6所述基于大数据的分析管理方法，其特征是，其中客户端将从安全芯片中获取的鉴权信息发送至中央核心服务器，然后，中央核心服务器根据客户端发送的鉴权信息对客户端进行认证，如果认证通过，客户端可以访问中央核心服务器，如果认证没有通过，则客户端不可以访问中央核心服务器。

8.如权利要求1所述基于大数据的分析管理方法，其特征是，其中所述基于所述第三属性标识，对所述数据采用多备份边缘分布式存储，具体包括：

统计所述数据的访问频率，计算所述数据的访问概率；

获取所述数据的流行度值；

基于所述流行度值和访问概率，获取所述数据的备份数；

9.如权利要求8所述基于大数据的分析管理方法，其特征是，其中假定存在N台服务器，所述数据的备份数为c，所述数据的访问概率为p，所述数据的流行度值为a，第i台服务器的剩余存储容量为S_i，则

c=a/p；

若c＞N，则将c设置为N；

若c≤N，则c=a/p；