CN116628627A

CN116628627A - 一种基于云计算的大数据数字化规划管理系统及方法

Info

Publication number: CN116628627A
Application number: CN202310370433.5A
Authority: CN
Inventors: 杨柳
Original assignee: Inner Mongolia Zhongxin Network Technology Co ltd
Current assignee: Inner Mongolia Zhongxin Network Technology Co ltd
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-08-22

Abstract

本发明公开了一种基于云计算的大数据数字化规划管理系统及方法，属于数据规划管理技术领域，包括数据采集模块、数据预处理模块、数据存储模块、数据分析模块和结果输出模块，所述数据采集模块用于采集初始数据，所述数据预处理模块用于对原始数据进行预处理便于之后算法分析，所述数据存储模块用于接收采集过的信息和分析结果的存储，所述数据分析模块用于对已经预处理过的数据进行算法的分析并将结果进行输出，所述规则模块用于对算分析结果的输出。本发明通过建立数学模型分析实际情况中存在的规划管理问题，再通过特征问题数字化和算法分析的方式得出相应规律，在此基础上得出问题解决的方向。

Description

一种基于云计算的大数据数字化规划管理系统及方法

技术领域

本发明涉及数据规划管理技术领域，具体为一种基于云计算的大数据数字化规划管理系统及方法。

背景技术

随着经济的不断发展，路面上的车辆人员等一系列的数据都在不断增加，这使得相关企业及管理部门管理压力不断上涨。信息时代是个科技文化不断发展的时代，信息数据不仅数量上巨大，而且种类繁多。然而，不能否认的是，数据信息同时也反映了整个社会运行下的一些规律和特点，所以如何管理信息如何规划信息以对现实环境进行分析和规划显得尤为重要。

信息，一般是指人类社会传播的一切内容。人可以通多种手段和方式来获取信息，通过对不同信息的识别来调节人与自然环境的关系，通过调节自身与自然环境的关系的过程中不断地发挥主观能动性来认识和改造世界。现代社会，人类的科技不断地进步，信息的量和种类在整个社会中是爆炸性增长的，在食堂吃饭拥堵时会进行错峰就餐诸如此类的一系列情况。但在上述案例中人们对于信息的反映是之后且机械的，问题常常得不到有效的解决。

所以需要一种可以对现实情况进行数学建模分析，并结合实际情况进行综合分析的云计算的大数据数字化规划管理系统。

发明内容

本发明的目的在于提供一种一种基于云计算的大数据数字化规划管理系统及方法，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：该系统包括数据采集模块、数据预处理模块、数据存储模块、数据分析模块和结果输出模块；

所述数据采集模块的输出端与数据预处理模块的输入段相连接，所述数据预处理模块输出端与数据存储模块的输入端相连，所述数据预处理模块的输出端与数据分析模块输入端相连接，所述数据分析模块的输出端与结果输出模块的输入端相连，所述数据分析模块输出端和数据存储模块相连，所述结果输出模块与数据存储模块相连；

所述数据采集模块用于采集分析对象的原始数据，原始数据一般是用来反映分析对象的特征，例如“身高、体重和年龄”；所述数据预处理模块用于对原始数据进行预处理方便算法分析，预处理的方式包括数据的归一化和标准化，这有利于在处理数据时避免不同类型数据差别巨大而造成对分析结果的影响提高准确性。所述数据存储模块用于接收采集过的信息、已处理完成的信息的存储，存储信息的方式以HBase去执行，HBase是以列为单位存储数据，HBase的表列不用提前定义，而且列可以动态扩展。所述数据分析模块用于对已经预处理过的数据进行算法的分析。所述结果输出模块用于对算分析结果的输出。

所述数据采集模块包括数据输入单元和信息采集单元，所述数据输入单元用于研究人员对需要分析的数据进行选择，一般在建立数学模型时分析对象具有较多的数据信息，在这种情况下，研究人员要根据分析目的去找出与数学模型相关的信息类型。所述信息采集单元是在研究人员找出需要的数据类型之后，将目标数据采集进来。

所述数据预处理模块包括数据类型分类单元和数学模型建立单元。所述数据类型分类单元将采集上来的信息进行整理，对于表示同一类型的数据进行整合。数学模型建立单元通过分析当前研究对象的特点，利用数字化的方式来表示其特征，该方式可以量化问题便于通过相应的数学模型反映出其内在规律。例如：对一片道路交通网进行车辆的流量分析时，每一段路流量的上限是一个重要特征，其次交通网节点的分布也是需要考虑的特征；建立在流量上限和节点这两大特征之上，进一步去挖掘怎么可以使路网得到充分利用来容纳大量的车流量。流量上限代表本路段可以容纳多少的流量，节点代表着流入与流出的平衡点，即有多少车辆流入那就有多少车辆流出。

所述数据存储模块包括初始数据存储单元、数学模型存储单元、聚类分析法运算结果存储单元和apriori算法结果存储单元。所述初始数据存储单元用于存储一开始采集进来的数据。所述数学模型存储单元以HBase方式进行存储，HBase是以列为单位存储数据，HBase的表列不用提前定义，而且列可以动态扩展。所述聚类分析法运算结果存储单元通过HBase存储聚类分析法运算后的结果数据。所述apriori算法结果存储单元通过HBase存储apriori分析过后的结果。HBase优点具有容量巨大、良好的可扩展性、稀疏性和高性能的优点。HBase集群可以较为方便的实现集群容量扩展，这主要体现在数据存储节点扩展以及读写服务节点扩展。稀疏性方面，HBase支持大量稀疏存储，即允许大量列值为空，并不占用任何存储空间，这与传统数据库不同，传统数据库对于空值的处理要占用一定的存储空间。所以使用HBase能够存储上百万列的数据，在表中有空值的情况下也不需要任何额外空间。高性能方面，HBase数据写操作性能强劲，对于随机单点读以及小范围的扫描读，其性能也能够得到保证。

所述数据分析模块包括数据信息比较单元、聚类分析算法分析单元和apriori算法分析单元。所述数据信息比较单元通过信息采集模块将研究对象当下的信息采集进来，将数据存储模块中的数学模型与之相比较分析当下情况。所述聚类分析算法分析单元通过聚类分析算法去找出数据聚类的情况，即具有某一特征的数据在分析过后能够发现，在二维坐标上数据点以几个不同的质心聚集，此时可以分析他们聚集的情况。所述apriori算法分析单元通过计算找出最大频繁集，计算条件概率得出关联规则。

所述结果输出模块包括数学模型结果输出单元、聚类分析结果输出单元和apriori算法结果输出单元。所述数学模型结果输出单元通过调取数据存储模块中数学模型存储单元的数据，将数据呈现给研究人员。所述聚类分析结果输出单元通过调取数据存储模块中聚类分析结果存储单元的数据，将结果呈现给研究人员。所述apriori算法结果输出单元通过调取数据存储模块中apriori算法结果存储单元的数据，将结果呈现给研究人员。存储方式是使用Hbase方式进行存储，实时上输出结果就是调取所述数据存储模块中的信息，这一过程是用户通过查找zookeeper的Hbase节点来得知查看所需要的数据在哪个META表上，使用META表来看你要查询的行键在什么范围里面然后连接具体的数据所在的Region，用Scan来遍历row。

一种基于云计算的大数据数字化规划管理方法,该方法包含以下步骤：

S1、采集目标的初始数据，调取交通网络中各路段的某几个月的流量信息；

S2、通过分析得出各路段流量上限，建立数学模型找到这一片交通网流量最大的方案；

S3、将现实流量情况与数学模型的方案进行比较，挑出现实流量与数学模型规划的流量不相符之处，并标为流量异常情况；

S4、在得到某些路段流量异常情况之后，通过用聚类分析的算法分析发生流量异常情况的路段，找出这些路段流量异常情况的规律；

S5、得出流量异常情况路段的规律后，需要进一步挖掘发生流量异常情况的原因。在发生流量异常情况的路段中，收集人们对于通过流量异常情况路段后的反馈，利用apriori算法挖掘流量异常情况的原因；

S6、根据算法分析结果总结流量异常情况的规律和原因，做出相应的措施或者是当做日后规划改造的目标，最终来实现交通网流量达到最大的目的。

在步骤S4中，包含以下步骤：

S401、随机选择K个样本作为原始质心，质心就是所有样本的均值，质心使用μ_j来表示，j表示μ每个特征；

S402、计算每个样本与质心的距离：

其中d(x,μ)表示样本点到质心的距离，x_i表示簇中的一个样本点，μ表示该簇中的质心，n表示每个样本点中的特征数目，i表示x每个特征；

将每个样本分配给距离最近的质心，由此得出最初的K个簇；

S403、对分配好的簇重新计算质心，重复S402,直至质心再无变化,算法结束；

S404、由于K是由人工进行确定的，那么就会存在K取值是否合理：

其中SSE表示所有样本的聚类误差，代表了聚类效果的好坏，C_i表示第i个簇，p表示C_i中的样本点，m_i是C_i的质心；以k为横坐标，SSE为纵坐标建立二维直角坐标系，利用手肘法找出合适的k值；

在步骤S5中，包含以下步骤：

S501、找出第一项频繁集，得出最小支持度：

其中minSupport表示最小支持度，num(allexample)表示样本的数量，number表示为发生目标事件的数量；

S502、找出最大频繁集，得出最小置信度：

其中minConfidence表示最小置信度，P(X|Y)指在Y发生的条件下X发生的概率，P(XY)指X与Y同时发生的概率，P(Y)指Y发生的概率；

S503、得出关联规则，在得出最小支持度和最小置信度的情况下，设置所需要的支持度及置信度，删去不符合的事件得出关联规则。

在步骤S6中，数学建模、聚类分析和apriori算法分析结果从存储模块中调取出来，呈现给研究人员。

与现有技术相比，本发明所达到的有益效果是：该发明相较于现有技术，其特点在于是使用数字化的方式来描述分析对象，用数学建模的方式找出最优情况。通过得出的最优情况来对现实进行规划，在规划的过程中本发明加入聚类分析和apriori算法在实际情况达不到最优情况下时，找出实际情况中某些特征聚类的情况，再在他们聚类的情况下利用apriori算法去找出最大频繁集，同过最大频繁集所找出关联度最高的事件，以此为基础进行改进。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明一种基于云计算的大数据数字化规划管理系统及方法的结构示意图；

图2是本发明一种基于云计算的大数据数字化规划管理系统的流程结构示意图；

图3是本发明一种基于云计算的大数据数字化规划管理系统的交通网络示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1至3，本发明提供技术方案：一种基于云计算的大数据数字化规划管理系统，该系统包括数据采集模块、数据预处理模块、数据存储模块、数据分析模块和结果输出模块；

数据采集模块的输出端与数据预处理模块的输入段相连接，数据预处理模块输出端与数据存储模块的输入端相连，数据预处理模块的输出端与数据分析模块输入端相连接，数据分析模块的输出端与结果输出模块的输入端相连，数据分析模块输出端和数据存储模块相连，结果输出模块与数据存储模块相连；

数据采集模块用于采集分析对象的原始数据，原始数据一般是用来反映分析对象的特征，例如“身高、体重和年龄”；数据预处理模块用于对原始数据进行预处理，预处理的方式为数据的归一化或标准化，该方法的好处在于在处理大量数据时；数据存储模块用于接收采集过的信息、处理完成的信息的存储；数据分析模块用于对已经预处理过的数据进行算法的分析；结果输出模块用于对算分析结果的输出。

数据采集模块包括数据输入单元和信息采集单元，数据输入单元用于研究人员对需要分析的数据进行选择，一般在建立数学模型时分析对象具有较多的数据信息，在这种情况下，研究人员要根据分析目的去找出与数学模型相关的信息类型，信息采集单元在研究人员找出需要的数据类型之后，通过信息的匹配将目标数据采集进来。

数据预处理模块包括数据类型分类单元和数学模型建立单元。数据类型分类单元用于将采集上来的信息进行数据处理前的格式整理，方便接下来的数据处理，数学模型建立单元通过分析当前研究对象的特点，利用数字化的方式来表示其特征。

数据存储模块包括初始数据存储单元、数学模型存储单元、聚类分析法运算结果存储单元和apriori算法结果存储单元。初始数据存储单元用于存储一开始采集进来的数据。数学模型存储单元以HBase方式进行存储，HBase是以列为单位存储数据，HBase的表列不用提前定义，而且列可以动态扩展。聚类分析法运算结果存储单元通过HBase存储聚类分析法运算后的结果数据。apriori算法结果存储单元通过HBase存储apriori分析过后的结果。HBase优点具有容量巨大、良好的可扩展性、稀疏性和高性能的优点。HBase集群可以较为方便的实现集群容量扩展，这主要体现在数据存储节点扩展以及读写服务节点扩展。稀疏性方面，HBase支持大量稀疏存储，即允许大量列值为空，并不占用任何存储空间，这与传统数据库不同，传统数据库对于空值的处理要占用一定的存储空间。所以使用HBase能够存储上百万列的数据，在表中有空值的情况下也不需要任何额外空间。高性能方面，HBase数据写操作性能强劲，对于随机单点读以及小范围的扫描读，其性能也能够得到保证。

数据分析模块包括数据信息比较单元、聚类分析算法分析单元和apriori算法分析单元。数据信息比较单元通过信息采集模块将研究对象当下的信息采集进来，将数据存储模块中的数学模型与之相比较分析当下情况。聚类分析算法分析单元通过聚类分析算法的运算流程将采集好的数据带入运算得出分析结果。apriori算法分析单元通过计算找出最大频繁集，计算条件概率得出关联规则。

结果输出模块包括数学模型结果输出单元、聚类分析结果输出单元和apriori算法结果输出单元。数学模型结果输出单元通过调取数据存储模块中数学模型存储单元的数据，将数据呈现给研究人员。聚类分析结果输出单元通过调取数据存储模块中聚类分析结果存储单元的数据，将结果呈现给研究人员。apriori算法结果输出单元通过调取数据存储模块中apriori算法结果存储单元的数据，将结果呈现给研究人员。存储方式是使用Hbase方式进行存储，实时上输出结果就是调取数据存储模块中的信息，这一过程是用户通过查找zookeeper的Hbase节点来得知查看所需要的数据在哪个META表上，使用META表来看你要查询的行键在什么范围里面然后连接具体的数据所在的Region，用Scan来遍历row。

一种基于云计算的大数据数字化规划管理方法，步骤如下：

S4、在得到某些路段流量异常情况之后，通过用聚类分析的算法分析发生流量异常情况的路段，找出这些路段流量异常情况的在时间上的规律；

S5、得出流量异常情况路段在时间上的规律后，需要进一步挖掘发生流量异常情况的原因。在发生流量异常情况的路段中，收集人们对于通过流量异常情况路段后的反馈，利用apriori算法挖掘流量异常情况的原因；

在步骤S4中，包含以下步骤：

S401、随机选择K个样本作为原始质心，质心就是所有样本的均值，质心使用μj来表示，j表示μ每个特征；

S402、计算每个样本与质心的距离：

将每个样本分配给距离最近的质心，由此得出最初的K个簇；

在步骤S5中，包含以下步骤：

S501、找出第一项频繁集，得出最小支持度：

其中minSupport表示最小支持度，num(all example)表示样本的数量，number表示为发生目标事件的数量；

S502、找出最大频繁集，得出最小置信度：

实施例1：

如图3所示，在一幅交通网络图中，V1-V2流量为6，V1-V3流量为8，V2-V4流量为5，V3-V4流量为3，V3-V5流量为3，V4-V5流量为3，V5-V6流量为5，V4-V6流量为10。为了能够充分利用每条路的流量避免出现某段路流量过大某段路流量过小，建立数学模型加以分析。

其中f_ij为i到j的流量，C_ij为i到j的容量，V(f)为这个可行流的流量。在该数学模型的分析下，该交通网络达到最大流量时，每段路的流量情况如下：V1-V2流量为5，V1-V3流量为3，V2-V4流量为5，V3-V4流量为3，V3-V5流量为0，V4-V5流量为0，V5-V6流量为0，V4-V6流量为8。

收集三个时间段8个路段的流量情况：

在V1-V2上，第一个时间段为3，第二个时间段为1，第二个时间段为6；

在V1-V3上，第一个时间段为6，第二个时间段为2，第二个时间段为5；

在V2-V4上，第一个时间段为4，第二个时间段为1，第二个时间段为5；

在V3-V4上，第一个时间段为1，第二个时间段为1，第二个时间段为1；

在V4-V6上，第一个时间段为7，第二个时间段为4，第二个时间段为9；

在V4-V5上，第一个时间段为1，第二个时间段为2，第二个时间段为1；

在V3-V5上，第一个时间段为1，第二个时间段为2，第二个时间段为3；

在V5-V6上，第一个时间段为2，第二个时间段为1，第二个时间段为4；

使用图表表示出来：

当K＝2时，选择C1为(2,5)，C2为(7,2)；计算d(x,μ)：点(1,6)，与C1距离为与C2距离为7.2；依次方式计算出每一个点与质心的距离。计算与质心最短的距离，将该点分给距离最短的质心，重复运算得出不同的簇。

SSE表示所有样本的聚类误差，代表了聚类效果的好坏K＝1时，SSE＝247。

在流量大的聚类中，收集通行过该路段人们的意见，通过apriori算法找出关联度最大的事件。用abcde这五个字母来表示事，设置minsupport＝50％、minConfidence＝50％。

TID	items
		1	a c d
2	b c e
		3	a b c e
4	b e

第一次扫描，扫描数据库获得每个候选项的计数，从而获得频繁1项集；

由于minSupport＝50％，得到：

itemset	sup
		a	2
b	3
		c	3
e	3

频繁2项集：

itemset	sup
		a b	1
a c	2
		a e	1
b c	2
		b e	3
c e	2

由于minSupport＝50％，得到：

itemset	sup
		a c	2
b c	2
		b e	3
c e	2

频繁3项集：

itemset	sup
		a b c	1
a b e	1
		a c e	1
b c e	2

由于minConfidence＝50％，得出

itemset	sup
		b c e	2

关联规则的产生：

1、在b发生的情况下，ce同时发生的概率为66.7％；

2、在c发生的情况下，be同时发生的概率为66.7％；

3、在e发生的情况下，bc同时发生的概率为66.7％；

4、在bc同时发生的情况下，e发生的概率为100％；

5、在be同时发生的情况下，c发生的概率为66.7％；

6、在ce同时发生的情况下，b发生的概率为100％。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于云计算的大数据数字化规划管理系统，其特征在于：该系统包括数据采集模块、数据预处理模块、数据存储模块、数据分析模块和结果输出模块；

所述数据采集模块用于采集初始数据，所述数据预处理模块用于对原始数据进行预处理方便算法分析，所述数据存储模块用于接收采集过的信息、处理完成的信息的存储，所述数据分析模块用于对已经预处理过的数据进行算法的分析并将结果进行输出，所述结果输出模块用于对分析结果的输出。

2.根据权利要求1所述的一种基于云计算的大数据数字化规划管理系统，其特征在于：所述的数据采集模块包括数据输入单元和信息采集单元；

所述数据输入单元用于研究人员对需要分析的数据进行选择，所述信息采集单元用于采集分析对象的相关信息数据。

3.根据权利要求2所述的一种基于云计算的大数据数字化规划管理系统，其特征在于：所述数据预处理模块包括数据类型分类单元和数学模型建立单元；

所述数据类型分类单元用于将不同类型的数据进行分类，数学模型建立单元用于对现实情况进行数学建模。

4.根据权利要求3所述的一种基于云计算的大数据数字化规划管理系统，其特征在于：所述数据存储模块包括初始数据存储单元、数学模型存储单元、聚类分析法运算结果存储单元和apriori算法结果存储单元；

所述初始数据存储单元用于存储一开始采集进来的数据，所述数学模型存储单元用于存储建立好的数学模型，所述聚类分析法运算结果存储单元用于存储聚类分析法运算后的结果数据，所述apriori算法结果存储单元用于存储apriori分析过后的结果。

5.根据权利要求4所述的一种基于云计算的大数据数字化规划管理系统，其特征在于：所述数据分析模块包括数据信息比较单元、聚类分析算法分析单元和apriori算法分析单元；

所述数据信息比较单元用于将实时信息与数学模型进行比较，所述聚类分析算法分析单元用于将采集好的初始数据按设立的标准进行分类分析，所述apriori算法分析单元用于在不同数据集合之中分析不同指标的关联度。

6.根据权利要求5所述的一种基于云计算的大数据数字化规划管理系统，其特征在于：所述结果输出模块包括数学模型结果输出单元、聚类分析结果输出单元和apriori算法结果输出单元；

所述数学模型结果输出单元用于将数学建模好的结果进行输出，将结果呈现给研究人员，所述聚类分析结果输出单元用于将聚类分析结果进行输出，将结果呈现给研究人员，所述apriori算法结果输出单元用于apriori算法结果进行输出，将结果呈现给研究人员。

7.一种基于云计算的大数据数字化规划管理方法，其特征在于：

S1、采集目标的初始数据，调取交通网络中各路段的流量信息；

S6、根据分析结果总结流量异常情况的规律和原因，做出相应的措施或者是当做日后规划改造的目标，最终实现交通网流量达到最大值的目的。

8.根据权利要求7所述的一种基于云计算的大数据数字化规划管理方法，其特征在于：S1-S3中，研究人员采集目标的初始数据是通过数据采集模块中的信息采集单元去采集交通网络中流量的信息；分析实际情况，找出交通路网中流量与各个路段的数学联系，利用数学表达式来对实际情况进行描述以达到数学建模的目的；研究人员通过数学模型可以分析出最优情况，以最优情况为标准将实际情况中与数学建模不相符的列为异常情况，等待后续的处理。

9.根据权利要求8所述的一种基于云计算的大数据数字化规划管理方法，其特征在于：在步骤S4中，包含以下步骤：

S402、计算每个样本与质心的距离：

将每个样本分配给距离最近的质心，由此得出最初的K个簇；

在步骤S5中，包含以下步骤：

S501、找出第一项频繁集，得出最小支持度：

S502、找出最大频繁集，得出最小置信度：

S503、得出关联规则，在得出最小支持度和最小置信度的情况下，设置所需要的支持度及置信度，删去不符合的事件最终得到规则。

10.根据权利要求9所述的一种基于云计算的大数据数字化规划管理方法，其特征在于：在步骤S6中，根据分析结果，将分析好的结果以点状图和表格的方式呈现给研究者。