CN118132946A

CN118132946A - 一种基于大数据建模的bi应用系统

Info

Publication number: CN118132946A
Application number: CN202311801072.1A
Authority: CN
Inventors: 王东升
Original assignee: Shenzhen Moyu Technology Co ltd
Current assignee: Shenzhen Moyu Technology Co ltd
Priority date: 2023-12-26
Filing date: 2023-12-26
Publication date: 2024-06-04

Abstract

本发明涉及数据处理技术领域，且公开了一种基于大数据建模的BI应用系统，包括：应用层，将各业务系统通过各终端基于BI实时上报用户行为作为维度数据，并将维度数据存储于mysql、oracle、mongodb数据库中；处理层，用于进行大数据仓库数据建模、抽取、清洗等操作；服务层，为各业务系统提供维度数据作为业务支撑，还包括企业的各个管理系统和平台。该一种基于大数据建模的BI应用系统，通过采用先建模再抽取清洗，之后再进行分析决策的流程，能够对数据进行二次加工处理，且不会对源业务系统数据造成影响，能够提高办公效率，适用广。

Description

一种基于大数据建模的BI应用系统

技术领域

本发明涉及数据处理技术领域，具体为一种基于大数据建模的BI应用系统。

背景技术

数据（Data）是对事实、概念或指令的一种表达形式，可由人工或自动化装置进行处理。数据经过解释并赋予一定的意义之后，便成为信息。数据处理（dataprocessing）是对数据的采集、存储、检索、加工、变换和传输。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度，极大地影响着人类社会发展的进程。

数据处理离不开软件的支持，数据处理软件包括：用以书写处理程序的各种程序设计语言及其编译程序，管理数据的文件系统和数据库系统，以及各种数据处理方法的应用软件包。为了保证数据安全可靠，还有一整套数据安全保密的技术。

经检索，公开号为：CN109063964A的中国专利公开了一种平台数据处理系统，包括展现层、数据处理层、业务层，所述展现层包括BI智能决策系统，所述业务层中管理系统和平台数据均与数据处理层信号连接，所述数据处理层包括建模模块，所述建模模块信号连接有抽取模块，所述抽取模块信号连接有缺失值清洗模块，所述缺失值清洗模块信号连接有格式内容清洗模块，所述格式内容清洗模块信号连接有逻辑错误清洗模块，所述逻辑错误清洗模块信号连接有非需求数据清洗模块，所述非需求数据清洗模块信号连接有关联性验证模块，所述关联性验证模块与BI智能决策系统信号连接。本发明能够对数据进行二次加工处理，且不会对源业务系统数据造成影响，能够提高办公效率

但是：随着物联网信息技术的发展，各种智能管理系统已经运用到企业内部的生产和管理中，尤其是服装制造业，各种管理系统在运行的过程中会产生大量的信息，这些信息中存在部分无用重复的信息，管理人员在对企业进行分析时容易受到这些信息的影响，而降低工作效率，因此需要一种能够对大量数据进行处理的系统。

发明内容

针对现有技术的不足，本发明提供了一种基于大数据建模的BI应用系统。

为实现上述目的，本发明提供如下技术方案：一种基于大数据建模的BI应用系统，包括：

应用层，将各业务系统通过各终端基于BI实时上报用户行为作为维度数据，并将维度数据存储于mysql、oracle、mongodb数据库中；

处理层，用于进行大数据仓库数据建模、抽取、清洗等操作；

服务层，为各业务系统提供维度数据作为业务支撑，还包括企业的各个管理系统和平台。

优选的，所述处理层中还包括：清洗过滤层，将总数据仓库oracle中的数据进行清洗、沉淀、标注、归类、纠错来重新规范化数据源，并进行全新定义、颗粒化、索引。

优选的，所述清洗过滤层先通过python处理总数据仓库oracle中部分异常数据源，再采用Hive作为数据清洗引擎，将用户行为及上下文模型数据进行推理，进行数据预处理、加工、整合。

优选的，所述清洗过滤层中还包括：缺失值清洗模块，所述缺失值清洗模块信号连接有格式内容清洗模块，格式内容清洗模块用于处理数据中由于人工收集或用户填写造成的格式问题，所述格式内容清洗模块信号连接有逻辑错误清洗模块，逻辑错误清洗模块用于处理一些经过逻辑推理能够直接发现的数据问题，所述逻辑错误清洗模块信号连接有非需求数据清洗模块，非需求数据清洗模块用于清除无关字段，所述非需求数据清洗模块信号连接有关联性验证模块，关联性验证模块用于验证多个数据来源取得的相关信息是否一致，所述关联性验证模块与BI智能决策系统信号连接，BI智能决策系统对经过建模、抽取、清洗后的数据进行分析决策

优选的，格式内容清洗模块，用于处理以下几种情况：时间、日期、数值、全半角等显示格式不一致；内容中有不该存在的字符；内容与该字段应有内容不符，例如数据内容与数据类别不符，数据长度与规范的长度不符等，常见的有姓名填写了性别、手机号填写了身份证号等。

优选的，所述清洗过滤层中还包括：逻辑错误清洗模块，用于处理以下几种情况：去重，即去除重复值；去除不合理值，指超出合理范围的值，例如对年龄设置范围为0-150，收入设置为0-50万，超过设置范围则认定为非正常值对其进行删除或者按缺失值处理；修正矛盾错误。

优选的，所述应用层中还包括：AI数据中台通过多个服务器搭建Hadoop集群，Hadoop集群的框架核心为HDFS和MapReduce，HDFS是一个高度容错性系统，提高吞吐量的数据访问，同时利用了Impala的开源组件；通过Sqoop将数据从mysql、oracle、mongodb数据库中导入Hive；通过Zookeeper提供数据同步服务，Impala是对hive对一个补充，可以实现高效的sql查询。

优选的，所述服务层为各业务提供数据业务支撑，包含千人千面、推荐系统、挖掘商机等等。数据分析包含两个部分：数据预处理和数据建模分析。数据预处理是从海量数据中提取可用特征，用到了Impala做数据预处理；数据建模分析是针对数据预处理提取的特征，用的机器学习算法如决策树、协同过滤等。

与现有技术相比，本发明提供了一种基于大数据建模的BI应用系统，具备以下有益效果：

该一种基于大数据建模的BI应用系统，通过采用先建模再抽取清洗，之后再进行分析决策的流程，能够对数据进行二次加工处理，且不会对源业务系统数据造成影响，能够提高办公效率，适用广。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

如图1所示，本发明提供了一种基于大数据建模的BI应用系统，包括：

在本发明实施例中，处理层中还包括：清洗过滤层，将总数据仓库oracle中的数据进行清洗、沉淀、标注、归类、纠错来重新规范化数据源，并进行全新定义、颗粒化、索引。

在本发明实施例中，清洗过滤层先通过python处理总数据仓库oracle中部分异常数据源，再采用Hive作为数据清洗引擎，将用户行为及上下文模型数据进行推理，进行数据预处理、加工、整合。

在本发明实施例中，清洗过滤层中还包括：缺失值清洗模块，缺失值清洗模块信号连接有格式内容清洗模块，格式内容清洗模块用于处理数据中由于人工收集或用户填写造成的格式问题，格式内容清洗模块信号连接有逻辑错误清洗模块，逻辑错误清洗模块用于处理一些经过逻辑推理能够直接发现的数据问题，逻辑错误清洗模块信号连接有非需求数据清洗模块，非需求数据清洗模块用于清除无关字段，非需求数据清洗模块信号连接有关联性验证模块，关联性验证模块用于验证多个数据来源取得的相关信息是否一致，关联性验证模块与BI智能决策系统信号连接，BI智能决策系统对经过建模、抽取、清洗后的数据进行分析决策

在本发明实施例中，清洗过滤层中还包括：逻辑错误清洗模块，用于处理以下几种情况：去重，即去除重复值；去除不合理值，指超出合理范围的值，例如对年龄设置范围为0-150，收入设置为0-50万，超过设置范围则认定为非正常值对其进行删除或者按缺失值处理；修正矛盾错误。

在本发明实施例中，应用层中还包括：AI数据中台通过多个服务器搭建Hadoop集群，Hadoop集群的框架核心为HDFS和MapReduce，HDFS是一个高度容错性系统，提高吞吐量的数据访问，同时利用了Impala的开源组件；通过Sqoop将数据从mysql、oracle、mongodb数据库中导入Hive；通过Zookeeper提供数据同步服务，Impala是对hive对一个补充，可以实现高效的sql查询。

进一步的，AI数据中台，提供底层的服务架构，通过清洗归类后的数据进行建模和数据分析，为服务层提供底层数据维度。用了8台服务器（2路8核CPU、64GB内存），搭建了Hadoop集群，Hadoop框架最核心的设计是HDFS和MapReduce，HDFS是一个高度容错性系统，提高吞吐量的数据访问，同时利用了Impala的开源组件。通过Sqoop将数据从Oracle、Mysql数据库中导入Hive。Zookeeper是提供数据同步服务，Impala是对hive对一个补充，可以实现高效的sql查询。

a、兴趣源，基于MapReduce的数据预处理与聚合模块，用于对用户行为、实时上下文信息采用MapReduce并行模型进行预处理与聚合，得到对结果放入HBbase数据表中，利用Hive对HBase中的用户行为及上下文模型数据进行推理，找出感兴趣数据源；

b、马尔科夫模型，用户浏览信息利用马尔科夫推荐模型建立模块，依据用户浏览轨迹补全后的结果建立马尔科夫转移矩阵，并将该君子存放到HBase表中，依据用户兴趣偏好分析模块中的用户最新兴趣数据，利用余玄因子法计算出每个用户兴趣相似度，构成兴趣相似度矩阵，集合马尔科夫转移矩阵建立基于协同过滤的马尔科夫推荐模型；

c、画像算法，算法将会对用户分成三种情况考虑；

在本发明实施例中，服务层为各业务提供数据业务支撑，包含千人千面、推荐系统、挖掘商机等等。数据分析包含两个部分：数据预处理和数据建模分析。数据预处理是从海量数据中提取可用特征，用到了Impala做数据预处理；数据建模分析是针对数据预处理提取的特征，用的机器学习算法如决策树、协同过滤等。

具体的，系统建立过程中，所需：

（1）操作系统的选择：操作系统一般使用开源版的RedHat、Centos或者Debian作为底层的构建平台，要根据大数据平台所要搭建的数据分析工具可以支持的系统，正确的选择操作系统的版本。

（2）搭建Hadoop集群：Hadoop作为一个开发和运行处理大规模数据的软件平台，实现了在大量的廉价计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心的设计是HDFS和MapReduce，HDFS是一个高度容错性的系统，适合部署在廉价的机器上，能够提供高吞吐量的数据访问，适用于那些有着超大数据集的应用程序；MapReduce是一套可以从海量的数据中提取数据最后返回结果集的编程模型。在生产实践应用中，Hadoop非常适合应用于大数据存储和大数据的分析应用，适合服务于几千台到几万台大的服务器的集群运行，支持PB级别的存储容量。

（3）Hadoop家族还包含各种开源组件，比如Yarn，Zookeeper，Hbase，Hive，Sqoop，Impala，Spark等。使用开源组件的优势显而易见，活跃的社区会不断的迭代更新组件版本，使用的人也会很多，遇到问题会比较容易解决，同时代码开源，高水平的数据开发工程师可结合自身项目的需求对代码进行修改，以更好的为项目提供服务。

（4）选择数据接入和预处理工具：面对各种来源的数据，数据接入就是将这些零散的数据整合在一起，综合起来进行分析。数据接入主要包括文件日志的接入、数据库日志的接入、关系型数据库的接入和应用程序等的接入，数据接入常用的工具有Flume，Logstash，NDC（网易数据运河系统），sqoop等。对于实时性要求比较高的业务场景，比如对存在于社交网站、新闻等的数据信息流需要进行快速的处理反馈，那么数据的接入可以使用开源的Strom，Sparkstreaming等。

Claims

1.一种基于大数据建模的BI应用系统，其特征在于，包括：

2.根据权利要求1所述的一种基于大数据建模的BI应用系统，其特征在于：所述处理层中还包括：清洗过滤层，将总数据仓库oracle中的数据进行清洗、沉淀、标注、归类、纠错来重新规范化数据源，并进行全新定义、颗粒化、索引。

3.根据权利要求2所述的一种基于大数据建模的BI应用系统，其特征在于：所述清洗过滤层先通过python处理总数据仓库oracle中部分异常数据源，再采用Hive作为数据清洗引擎，将用户行为及上下文模型数据进行推理，进行数据预处理、加工、整合。

4.根据权利要求3所述的一种基于大数据建模的BI应用系统，其特征在于：所述清洗过滤层中还包括：缺失值清洗模块，所述缺失值清洗模块信号连接有格式内容清洗模块，格式内容清洗模块用于处理数据中由于人工收集或用户填写造成的格式问题，所述格式内容清洗模块信号连接有逻辑错误清洗模块，逻辑错误清洗模块用于处理一些经过逻辑推理能够直接发现的数据问题，所述逻辑错误清洗模块信号连接有非需求数据清洗模块，非需求数据清洗模块用于清除无关字段，所述非需求数据清洗模块信号连接有关联性验证模块，关联性验证模块用于验证多个数据来源取得的相关信息是否一致，所述关联性验证模块与BI智能决策系统信号连接，BI智能决策系统对经过建模、抽取、清洗后的数据进行分析决策。

5.根据权利要求4所述的一种基于大数据建模的BI应用系统，其特征在于：格式内容清洗模块，用于处理以下几种情况：时间、日期、数值、全半角等显示格式不一致；内容中有不该存在的字符；内容与该字段应有内容不符，例如数据内容与数据类别不符，数据长度与规范的长度不符等，常见的有姓名填写了性别、手机号填写了身份证号等。

6.根据权利要求5所述的一种基于大数据建模的BI应用系统，其特征在于：所述清洗过滤层中还包括：逻辑错误清洗模块，用于处理以下几种情况：去重，即去除重复值；去除不合理值，指超出合理范围的值，例如对年龄设置范围为0-150，收入设置为0-50万，超过设置范围则认定为非正常值对其进行删除或者按缺失值处理；修正矛盾错误。

7.根据权利要求6所述的一种基于大数据建模的BI应用系统，其特征在于：所述应用层中还包括：AI数据中台通过多个服务器搭建Hadoop集群，Hadoop集群的框架核心为HDFS和MapReduce，HDFS是一个高度容错性系统，提高吞吐量的数据访问，同时利用了Impala的开源组件；通过Sqoop将数据从mysql、oracle、mongodb数据库中导入Hive；通过Zookeeper提供数据同步服务，Impala是对hive对一个补充，可以实现高效的sql查询。

8.根据权利要求7所述的一种基于大数据建模的BI应用系统，其特征在于：所述服务层为各业务提供数据业务支撑，包含千人千面、推荐系统、挖掘商机等等。数据分析包含两个部分：数据预处理和数据建模分析。数据预处理是从海量数据中提取可用特征，用到了Impala做数据预处理；数据建模分析是针对数据预处理提取的特征，用的机器学习算法如决策树、协同过滤等。