CN110990384B

CN110990384B - 一种大数据平台bi分析方法

Info

Publication number: CN110990384B
Application number: CN201911066534.3A
Authority: CN
Inventors: 闻小明
Original assignee: Wuhan Sinocare Technology Co ltd
Current assignee: Wuhan Sinocare Technology Co ltd
Priority date: 2019-11-04
Filing date: 2019-11-04
Publication date: 2023-08-22
Anticipated expiration: 2039-11-04
Also published as: CN110990384A

Abstract

本发明提出了一种大数据平台BI分析方法，通过在数据清洗中增加识别错误分类，可以去除少量分类样本或合并少量分类样本数据，从数据整体性上把握数据的整体趋势；少数分类信息作为特殊分类或少量数据类型，多个少数分类信息可以整体划归为其它类型，在构建数据模型上归纳各个数据集的其它类型，可以为宏观数据分析或整体数据分析提供更精确的分析结果；通过在数据清洗中增加中心和散布度量，当用户选取某一类数据为参照核心样本数据时，可以根据均值或中位数设置一定的数据范围，该数据范围再结合时间、其它关联数据信息整合，可以生产初步的数据挖掘算法，用户则可以根据该算法预估或推算未来的数据信息。

Description

一种大数据平台BI分析方法

技术领域

本发明涉及大数据领域，尤其涉及一种大数据平台BI分析方法。

背景技术

BI分析是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，随着科技信息的发展，数据质量问题一直是数据挖掘过程中密切关注的问题。数据清洗是数据挖掘过程中最消耗资源的一步，如何对数据进行有效的清理和转换使之成为符合数据挖掘要求的数据源是影响数据挖掘准确性的关键因素。现有的数据清洗方法包括缺失值处理、异常值处理、去重处理、噪音数据处理，这些方法可以将重复、多余的数据筛选清除，将缺失的数据补充完整，将错误的数据纠正或者删除，最后整理成为我们可以进一步加工、使用的数据。但是，对于数据质量要求比较高的情形，传统的数据清洗方法无法达到数据质量的要求，使得BI分析系统给出的辅助决策不准确。因此，本发明提供一种大数据平台BI分析方法，可以提高数据清洗的数据质量，进而提供更精确的分析结果。

发明内容

有鉴于此，本发明提出了一种大数据平台BI分析方法，可以提高数据清洗的数据质量，进而提供更精确的分析结果。

本发明的技术方案是这样实现的：本发明提供了一种大数据平台BI分析方法，包括以下步骤：

S1、构建数据提取组件，使用数据提取组件提取数据库或文本文档中的数据数据；

S2、根据被采集的数据分析目标和需求，创建数据模型表结构；

S3、对被采集的数据进行数据清洗和数据变换处理，其中，数据清洗包括缺失数据处理、识别错误分类、中心和散布度量、识别离群值；

S4、通过描述算法描述数据潜在的模式和趋势，使用分类算法将数据分类，使用聚类算法针对数据的相似性和差异性将一组数据分为多个类别，使用关联规则产生数据项之间的关联或者相互关系，使用估计和预测的统计算法进行估计和预测。

在以上技术方案的基础上，优选的，S1中数据提取组件包括通用关系型数据库抽取组件和通用文本抽取组件；

通用关系型数据库抽取组件的构建方法包括以下步骤：

S101、构建数据库连接配置对象；

S102、构建数据库连接操作接口；

S103、构建数据库基本信息查询接口；

S104、使用JPA技术查询数据信息；

通用文本抽取组件的构建方法包括以下步骤：

S201、构建文本连接配置对象；

S202、构建文本连接操作接口；

S203、构建文本信息读取接口。

在以上技术方案的基础上，优选的，S3中缺失数据处理具体包括以下步骤：

S301、当记录数据缺失情况下，通过插入均值或根据比例插入分类信息替换缺失值；

S302、当当前记录关联多个表数据时，统计关联的表数据信息，获取表数据信息中的关联数据类型、数据量以及各个分类的百分比，计算缺失类数据的均值范围，根据均值范围、百分比以及缺失数据的时间变量，插入缺失值。

进一步优选的，识别错误分类包括以下步骤：

S401、通过classificationUtil分类识别方法、分类表或分类字典数据识别方法识别出分类信息；

S402、根据各个数据表中数据样本引用分类信息，分别计算各类别信息在数据中的引用情况，即可获取整体数据中各个分类的数据引用信息；

S403、对于各个数据样本总体数据总数，各个分类引用数据低于1％的情况下，划归为少数分类信息。

进一步优选的，classificationUtil分类识别方法包括以下步骤：

S501、获取样表全部数据信息；

S502、采用hashMap键值对方式计算每列数据中的数据，并自动在hashMap集合中计数加一，这样在全部数据计算后得到各列数据的重复值；

S503、当重复值低于30，即可获取高频短数据样本中的分类数据信息，并规整为分类信息。

进一步优选的，分类表或分类字典数据识别方法包括以下步骤：

S601、获取分类表或字典全部数据，鉴别数据中的分类名称、分类编号、分类编码和路径；

S602、根据classificationUtil分类识别方法获取重复数据引用，根据数据计数值，分析分类编号或分类编码，上级分类编号或分类编码；

S603、对于单数据字典或分类表，单个上级编码对应多个下级编码，并且该编码数据在其它数据表中经常被引用，即可分析为单类型分类信息或分类表。

进一步优选的，中心和散布度量包括以下步骤：

S701、获取表单全部数据信息，根据数据信息中数字类型的数据，计算该字段类型的数据值范围；

S702、根据数据值范围，不同数据重复出现次数，利用hashMap对象获取不同值重复出现次数，再根据获取的值的总数量，分段计算各段数据时，各分段数据的重复次数；

S703、根据分段数据的重复次数，获取主要中心点和度量信息，即均值数、中位数；

S704、以均值数及中位数为标准，统计同类数据样本数据时，根据时间、均值、数据范围条件，推导用户兴趣点。

进一步优选的，S3中数据变换包括min-max规范化和Z-score标准化；

min-max规范化的工作方式为：观测字段值与最小值的差值，并通过极差来缩放此差值；

Z-score标准化的工作方式为：捕获字段值和字段均值间的差异，并通过字段值的标准差SD缩放此差异。

在以上技术方案的基础上，优选的，S4中估计和预测的统计算法包括点估计方法、区间估计方法和假设校验方法。

本发明的一种大数据平台BI分析方法相对于现有技术具有以下有益效果：

(1)通过在数据清洗中增加识别错误分类，可以去除少量分类样本或合并少量分类样本数据，从数据整体性上把握数据的整体趋势；少数分类信息作为特殊分类或少量数据类型，多个少数分类信息可以整体划归为其它类型，在构建数据模型上归纳各个数据集的其它类型，可以为宏观数据分析或整体数据分析提供更精确的分析结果；

(2)通过在数据清洗中增加中心和散布度量，当用户选取某一类数据为参照核心样本数据时，可以根据均值或中位数设置一定的数据范围，该数据范围再结合时间、其它关联数据信息整合，可以生产初步的数据挖掘算法，用户则可以根据该算法预估或推算未来的数据信息；

(3)由于不同的政务平台仅仅处理本平台的相关主要业务，造成各平台根据其业务特质积累了不同的业务数据，因此，积累了大量的Excel表格文档和业务数据。本发明可以通过数据提取组件构建数据配置信息，连接数据库或文本文件，从而可以提取数据库中的数据以及Excel表格文档中的数据，整合各平台的业务数据，打通数据壁垒。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种大数据平台BI分析方法的流程图；

图2为本发明一种大数据平台BI分析方法中通用关系型数据库抽取组件的构建方法的流程图；

图3为本发明一种大数据平台BI分析方法中通用文本抽取组件的构建方法的流程图；

图4为本发明一种大数据平台BI分析方法中缺失数据处理的流程图；

图5为本发明一种大数据平台BI分析方法中识别错误分类的流程图；

图6为图5中classificationUtil分类识别方法的流程图；

图7为图5中分类表或分类字典数据识别方法的流程图；

图8为本发明一种大数据平台BI分析方法中中心和散布度量的流程图。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

如图1所示，本发明的一种大数据平台BI分析方法，其包括以下步骤：

本实施例的有益效果为：通过识别错误分类可以有效提高数据挖掘的精准度，去除少量分类样本或合并少量分类样本数据，从数据整体性上把握数据的整体趋势；另外，可以帮助用户在创建数据模型时，排除少量数据样本对整体数据趋势的影响；

通过中心和散布度量可以获取均值、中位数和众数；均值在数据挖掘中是非常重要的一部分，根据用户兴趣点以及数据挖掘方向，可以拟定相应的数据挖掘算法，不同的数据算法需要参照数据集合中不同的均值来推算，从而预估或分析出我们想要的预估数据，中位数及众数也是如此；

可以通过描述算法描述数据潜在的模式和趋势，分类算法将数据库中的数据按照共同特点划分为不同的类，通过聚类算法针对数据的相似性和差异性将一组数据划分为几个不同的类别，属于同一类别的数据间的相似性很大，但不同类别之间数据的相似性很小，跨类的数据关联性很低，通过关联规则可以根据一个数据项的出现推到出其他数据项的出现，通过估计和预测的统计算法发现数据中存在的关系和规律，根据现有的数据预测未来发展的趋势。

实施例2

在实施例1的基础上本实施例提供一种数据提取的方式。数据提取组件用于抽取数据，实现数据与系统的对接。其中，数据对接需要包含对Excel表格数据读取能力，对传统关系型数据库如MySQL、Oracle、SQLServer的数据提取能力。通过该能力能提取分析方法基础的数据信息，可以为下一步提供数据基础。

其中，数据提取组件包括通用关系型数据库抽取组件和通用文本抽取组件。

如图2所示，通用关系型数据库抽取组件的构建方法包括以下步骤：

S101、构建数据库连接配置对象；

S102、构建数据库连接操作接口；

S103、构建数据库基本信息查询接口；

S104、使用JPA技术查询数据信息；

如图3所示，通用文本抽取组件的构建方法包括以下步骤：

S201、构建文本连接配置对象；

S202、构建文本连接操作接口；

S203、构建文本信息读取接口。

以村务云平台为例，读取该平台的数据信息，采用JPA(Java Persistence API，即JAVA持久层API)技术构建关系型数据库对接组件，可以配置不同数据库连接信息后，直接读取该数据库业务数据信息。Excel文件读取则采用Apache的POI组件，扩展文件读取方式。

本实施例的有益效果为：由于不同的政务平台仅仅处理本平台的相关主要业务，造成各平台根据其业务特质积累了不同的业务数据，因此，积累了大量的Excel表格文档和业务数据。本实施例可以通过数据提取组件构建数据配置信息，连接数据库或文本文件，从而可以提取数据库中的数据以及Excel表格文档中的数据，整合各平台的业务数据，打通数据壁垒。

实施例3

在实施例1或实施例2的基础上，本实施例提供一种数据建模的方法。根据通用数据提取组件采集数据，为采集的数据信息提供通用的保存方案，即为数据基础建模。这里采用构建标准数据模型存储被采集的数据信息。

数据建模是一种用于定义和分析数据的要求和其需要的相应支持的信息系统的过程。数据建模定义的不只是数据元素，也包括它们的结构和它们之间的关系。

数据建模具体需经过以下步骤实现：

S801、根据用户数据分析目标，梳理分析需求；

S802、使用数据建模组件创建数据模型表结构；

S803、使用数据提取组件采集数据信息；

S804、使用数据加工组件转换采集的数据信息；

S805、使用数据存储组件保存转换后的数据信息。

本实施例有益效果为：可以根据不同的数据来源，获取原数据来源表结构信息，进而构建数据模型表结构，构建完成后，系统开发人员可以往数据模型表结构中填充数据，进一步完成数据整合，为下一步的数据加工和挖掘提供数据基础。

实施例4

在实施例3的基础上，本实施例提供一种数据建模的实施例，本实施例以农村数据平台为例。根据实施例3的建模方法，本实施例中详细介绍建模方法。

S801、根据用户数据分析目标，梳理分析需求；

具体的，将数据整合存储，根据需求搭建专题数据库。

S802、使用数据建模组件创建数据模型表结构；具体包括以下四步：

第一步，完成基础数据整合需求。该类需求需要通过数据采集组件读取数据来源原始数据信息，获取原始数据来源表结构信息。

第二步，完成人口数据整合。该类需求主要整合人口数据及关联数据信息，基础数据导入类似基础数据整合方式，通过创建导入的数据副本模型。这里关注的重点是人口数据关键字信息，如姓名、身份证号、人口信息主键等关键信息，构建关联集合模型。关联集合模型主要包含：主键、创建时间、更新时间、姓名、身份证号、数据来源主键、关联表集合；根据该模型即可有效整合人口关联数据信息，为后续数据分析提供支撑。

第三步，完成专题数据整合。主要整合专题数据及关联数据信息，基础数据导入类似基础数据整合方式，通过创建导入的数据副本模型。这里关注的重点是专题数据关键字信息，如专题名称、专题编号、专题数据主键、专题时间等关键信息，沟通关联集合模型。

该模型主要包含：主键、创建时间、更新时间、专题名称、专题编号、专题主键、专题时间、关联表集合。根据该模型为事件专题信息提供关联数据信息，同时支撑后续的数据分析业务。

S803、使用数据提取组件采集数据信息；

S804、使用数据加工组件转换采集的数据信息；

S805、使用数据存储组件保存转换后的数据信息。

实施例5

在实施例3或4的基础上，本实施例提供数据清洗和数据变换的具体方法；数据清理过程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据，主要是达到格式标准化、异常数据清除、错误纠正和重复数据清除的目的。数据变换使用规范化技术对数据的数值变量进行规范化处理，以便标准化每个变量对结果的影响程度。

本实施例中，数据清洗包括缺失数据处理、识别错误分类、中心和散布度量、识别离群值。本实施例具体介绍缺失数据处理的工作原理。

缺失数据是不断困扰数据分析方法的一个问题，即使分析方法变得更加精妙，我们任然会遇到缺失字段值的问题，特别是在拥有大量字段的数据库中。信息的缺失对于数据分析是极其不利的，在同等条件下，信息通常越多越好。因此，本实施例中选用选择替换值的方法处理缺失值。如图4所示，具体的包括以下步骤：

本实施例的有益效果为：可以通过缺失数据处理常见基础数据中相关缺失值问题，提高采集数据的整体规律性。

实施例6

在实施例5的基础上，本实施例提供识别错误分类的具体步骤。

大多数不好的模型的问题根源来自于没有很好的处理分类型变量。对分类变量处理方法不当有三种类型：包含了太多的分类层次；包含很少有值的分类层次；或者包含一类数据，这类数据占整体数据的很大比例。因此，本实施例通过识别错误分类解决上述问题。具体的，如图5所示，识别错误分类包括以下步骤：

其中，如图6所示，classificationUtil分类识别方法包括以下步骤：

S501、获取样表全部数据信息；

其中，如图7所示，分类表或分类字典数据识别方法包括以下步骤：

本实施例的有益效果为：可以去除少量分类样本或合并少量分类样本数据，从数据整体性上把握数据的整体趋势；少数分类信息作为特殊分类或少量数据类型，多个少数分类信息可以整体划归为其它类型，在构建数据模型上归纳各个数据集的其它类型，可以为宏观数据分析或整体数据分析提供更精确的分析结果。

实施例7

在实施例5或实施例6的基础上，本实施例提供识别离群值的具体步骤。

离群值是偏离了其他值的趋势的极端值。识别离群值非常重要，因此它们有可能代表数据输入错误。此外，某些统计方法对离群值的存在是敏感的，即使离群值是有效的数据点而不是错误，也可能产生不可靠的结果。因此，本实施例中识别离群值的方法是根据现有的数据信息生成统计直方图，对比分析统计直方图获取离群值数据信息，采集数据量较小，数据值差异较大数据进行对比分析获取离群值数据信息。例如在采集村务云居民档案数据中，对于年龄采样后的数据超过120岁的相关数据信息，根据离群值算法获取数据样本数量较少，该类数据再通过身份证号辅助计算即可获取该类数据是否属于离群值，对后续数据修复提供数据判断基础。

本实施例的有益效果为：通过识别离群值，对后续数据修复提供数据判断基础。

实施例8

在实施例5至实施例7任一实施例的基础上，本实施例提供中心和散布度量的具体步骤。

如图8所示，中心和散布度量包括以下步骤：

中心度量是位置度量的一个特例，这是表明了某些特定变量在数轴上位置的数值摘要。位置度量的例子是百分位数和分位数。变量的均值是对变量所取的有效值进行平均。找到均值的简单方式是将所有的字段值相加再除以样本大小。

对于没有发生极度倾斜的变量，均值通常不太远离变量中心位置。对于极度倾斜的数据集，均值并不能够代表变量的中心。另外，均值对于离群值的存在也极其重要。出于这个原因，数据分析时使用其他中心度量方式，如中位数，其定义为升序变量集的中间字段值。中位数对离群值的存在具有抵抗力。另一种分析方法为使用众数，其代表出现频率最高的字段值。众数可以用于数值型数据或分类型数据，但并不总是与变量中心相关联。

本实施例的有益效果为：当用户选取某一类数据为参照核心样本数据时，可以根据均值或中位数设置一定的数据范围，该数据范围再结合时间、其它关联数据信息整合，可以生产初步的数据挖掘算法，用户则可以根据该算法预估或推算未来的数据信息。

实施例9

在实施例5至实施例7任一实施例的基础上，本实施例提供数据变换的具体内容。在本实施例中，数据变换包括min-max规范化和Z-score标准化。

其中，min-max规范化的工作方式为：观测字段值与最小值的差值，并通过极差来缩放此差值；

本实施例的有益效果为：通过min-max规范化和Z-score标准化规范不同变量之间的极差，降低极差上差异对挖掘结果产生不良影响。

实施例10

在实施例9的基础上，本实施例提供一种数据挖掘的方法，数据挖掘过程中，使用了描述算法、估计和预测的统计算法、分类算法、聚类算法和关联规则。

在描述性任务中，需要分析数据中一些用于描述数据潜在的模式和趋势的方法。模式和趋势的描述通常提出了关于这些模式和趋势的可能解释，也提出了可能发生的策略变化建议。本实施例中，使用描述算法探索数据的潜在模式和趋势。具体的，描述算法通过探索性数据分析方法、样本比例或回归方程分析数据中用于描述数据潜在的模式和趋势；

分类算法找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类；其目的是通过分类模型，将数据库中的数据项映射到摸个给定的类别中。

聚类类似于分类，但与分类的目的不同，聚类算法是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大，但不同类别之间数据的相似性很小，跨类的数据关联性很低。

关联规则是隐藏在数据项之间的关联或相互关系，即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段：第一阶段为从海量原始数据中找出所有的高频项目组；第二阶段为从高频项目组产生关联规则。

通过描述算法、分类算法、聚类算法和关联规则，完成数据的理解和准备工作，并且使用探索性数据分析方法收集了数据的描述信息。下一步需要执行估计和预测的统计算法。估计和预测的统计算法使用单变量方法、统计估计和预测方法分析同一变量，其中，单变量方法、统计估计和预测方法均包括对于总体均值和比例的点估计和置信区间估计。

大数据平台的基础数据而言，主要数据来源是不同基层平台系统的数据信息、Excel文档数据信息，数据来源相对单一。因此本实施例使用统计推理方法进行估计和预测整体数据情况。统计推理方法是基于包含在样本中的信息，对总体特征进行估计和假设检验。其中，总体指的是在一个特定研究中感兴趣的所有元素的集合，这个集合包含人、物和数据。样本只是总体数据的一个子集，是总体的一个具有代表性的子集。如果样本在总体中不具有代表性，也就是说样本特征系统性地偏离了总体特征，就不应该采用统计推理方法。

统计推理的主要内容分为两大类：一、点估计问题；二、假设检验问题。以下内容主要对数据总体参数的点估计、区间估计和假设检验进行说明。

点估计方法是统计推理中最直接简单的非参数估计方法，它是依据大数定律和样本统计量的信息，直接代替总体相应指标的推算方法。由于统计量的多样性，以及样本统计量与总体相对应指标的差异存在的必然性，我们必须对样本统计量的优良性质进行评价和分析，以选择优良的统计量进行统计推理。

区间估计，是参数估计的一种形式。通过从总体中抽取的样本，根据一定的正确度与精确度的要求，构造出适当的区间，以作为总体的分布参数或参数的函数的真值所在范围的估计。用数轴上的一段距离或一个数据区间，表示总体参数的可能范围，这一段距离或数据区间称为区间估计的置信区间。

假设检验就是证明或推翻关于一定客体、现象和过程所研究特征的统计上相互联系假说的一种程序。统计假设就是关于总体属性的假设，这一假设可根据抽样观察资料进行检验。受到检验的这个假设就是关于统计上相互联系的和特征值分布的假设。如被研究的特征值的集合按正态分布的这一假说就是统计假设，在社会学研究中经常检验两个特征分布的同一性假设，平均值、方差相等的假设，某一客体属于一定总体的假设等。统计假设检验过程就是从统计上证明所提假设的真实性。

本实施例的有益效果为：通过已经完成了数据理解和数据准备，并且探索性数据分析收集了一些描述信息。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种大数据平台BI分析方法，其特征在于：包括以下步骤：

所述S3中缺失数据处理具体包括以下步骤：

S302、当当前记录关联多个表数据时，统计关联的表数据信息，获取表数据信息中的关联数据类型、数据量以及各个分类的百分比，计算缺失类数据的均值范围，根据均值范围、百分比以及缺失数据的时间变量，插入缺失值；

所述识别错误分类包括以下步骤：

S401、通过classificationUtil分类识别方法识别出分类信息；

S403、对于各个数据样本总体数据总数，各个分类引用数据低于1%的情况下，划归为少数分类信息；

所述classificationUtil分类识别方法包括以下步骤：

S501、获取样表全部数据信息；

S503、当重复值低于30，即可获取高频短数据样本中的分类数据信息，并规整为分类信息；

2.如权利要求1所述的一种大数据平台BI分析方法，其特征在于：S1中数据提取组件包括通用关系型数据库抽取组件和通用文本抽取组件；

所述通用关系型数据库抽取组件的构建方法包括以下步骤：

S101、构建数据库连接配置对象；

S102、构建数据库连接操作接口；

S103、构建数据库基本信息查询接口；

S104、使用JPA技术查询数据信息；

所述通用文本抽取组件的构建方法包括以下步骤：

S201、构建文本连接配置对象；

S202、构建文本连接操作接口；

S203、构建文本信息读取接口。

3.如权利要求1所述的一种大数据平台BI分析方法，其特征在于：所述中心和散布度量包括以下步骤：

S701、获取表单全部数据信息，根据数据信息中数字类型的字段数据，计算该字段数据的数据值范围；

S702、根据数据值范围，不同数据重复出现次数，利用hashMap对象获取不同值重复出现次数，再根据获取的值的总数量，分段计算各字段数据的重复次数；

S703、根据字段数据的重复次数，获取主要中心点和度量信息，即均值数、中位数；

4.如权利要求1所述的一种大数据平台BI分析方法，其特征在于：所述S3中数据变换包括min-max规范化和Z-score标准化；

所述min-max规范化的工作方式为：观测字段值与最小值的差值，并通过极差来缩放此差值；

所述Z-score标准化的工作方式为：捕获字段值和字段均值间的差异，并通过字段值的标准差SD缩放此差异。

5.如权利要求1所述的一种大数据平台BI分析方法，其特征在于：所述S4中估计和预测的统计算法包括点估计方法、区间估计方法和假设校验方法。