CN110750528A

CN110750528A - 一种多源数据可视分析与展现方法及系统

Info

Publication number: CN110750528A
Application number: CN201911023724.7A
Authority: CN
Inventors: 夏侯康; 曾林华; 王丽娟; 冯景亮
Original assignee: Guangdong Airport Baiyun Mdt Infotech Ltd
Current assignee: Guangdong Airport Baiyun Mdt Infotech Ltd
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2020-02-04

Abstract

本发明公开了一种多源数据可视分析与展现方法及系统。多源数据可视分析与展现方法，包括：接收所有数据信息，对数据进行清洗，删除异常数据，得到数据样本集合；根据数据样本类型，选定聚类数K值的大小；将数据样本集合中的数据样本按最小距离原则分配到最邻近聚类；根据最临近聚类结果，重新计算K个聚类的中心，并作为新的聚类中心；判断是否收敛即判断聚类中心是否不再发生变化，若未收敛，重复直至收敛，得到最佳聚类结果；按照最佳聚类结果，为数据样本标上相应标签，与展示模板一一对应，进行展示。多源数据可视分析与展现系统，包括：数据样本处理模块；聚类数选定模块；临近聚类模块；聚类中心运算模块；最佳聚类运算模块；展示模块。

Description

一种多源数据可视分析与展现方法及系统

技术领域

本发明涉及数据分析技术领域，特别是涉及一种多源数据可视分析与展现方法及系统。

背景技术

随着民航需求的日益增长，机场所产生的各种类型的数据量呈上升趋势，如各种类的航班数据、旅客数据、保障数据等各类型的数据收集较为分散，导致数据收集分析过慢，导致展示数据实时性较差。

目前，机场的可视化系统的根本目的是利用多媒体、多渠道，实现空管、机场、航空公司和驻场单位等部门单位的协同沟通，把各单位所拥有的数据信息进行融合，并把数据通过图表的形式展示出来，但收集的各种数据种类多数量大，难以对数据进行分析利用。

发明内容

基于此，本发明的目的在于，提供一种多源数据可视分析与展现方法及系统。

本发明的多源数据可视分析与展现方法，包括：

S1.接收所有数据信息，对数据进行清洗，删除异常数据，得到数据样本集合；

S2.根据数据样本类型，选定聚类数K值的大小；

S3.将数据样本集合中的数据样本按最小距离原则分配到最邻近聚类；

S4.根据最临近聚类结果，重新计算K个聚类的中心，并作为新的聚类中心；

S5.判断是否收敛即判断聚类中心是否不再发生变化，若未收敛，则重复上述S3和S4，直至收敛，得到最佳聚类结果；

S6.按照最佳聚类结果，为数据样本标上相应标签，与展示模板一一对应，进行展示。

在一种实施方式中，所述S1中，所述数据信息包括登机人员信息、值机人员信息、安检人员信息、飞机在场航班信息、空中监控信息和飞机保障信息的一种或多种。

在一种实施方式中，所述S6中，所述标签包括字母标签或数字标签。

在一种实施方式中，所述S6中，所述展示模板包括折线图模板、柱状图模板、饼图模板。

在一种实施方式中，所述S6中，所述进行展示，包括进行自动可视化图表展示。

在一种实施方式中，所述S2中，所述根据数据样本类型，选定聚类数K值的大小，包括：当数据样本类型的种类无法确定，无法确定K值时，随机选定K值，再使用轮廓系数方法计算K值大小。

在一种实施方式中，所述当数据样本类型的种类无法确定，无法确定K值时，随机选定K值，再使用轮廓系数方法计算K值大小，包括：

根据可能的数据样本类型种类，设W≤K≤V，其中W＜V，且W、V均为大于0的自然数，循环K值，分别计算得出聚类结果，并计算平均轮廓系数：

当K＝W时，将接收的各种数据信息分为K＝W类，S＝{S1，S2，...，SW}，在此数值模型上，即对以下表达式求最小值：

根据上述表达式可得数学表达式：

其中，n为样本数，k为分类值，r_nk为第n个样本点是否属于第k类，属于则r_nk＝1，否者r_nk＝0，μ_k为第K个中心点；

基于k-means思想，则要让表达式求出最小值，对于下述公式

需要对其进行迭代，先对μ_k固定值，得出r_nk，然后固定r_nk的值，求出μ_k，

如求r_nk，则公式为：

如求μ_k，则公式为：

然后，可得出K＝W时所计算出的聚类结果，其中K为簇，对于簇中的每个向量，分别计算他们的轮廓系数，对于其中一个点i来说：

计算a(i)＝average(i向量到所有它属于的簇中其它点的距离)，

计算b(i)＝min(i向量到与它相邻最近的一簇内的所有点的平均距离)，

那么i向量的轮廓系数为：

由公式可出当计算出的轮廓系数S(i)介于[-1，1]之间，且数值越趋向于1则代表轮廓系数越好，将所有点的轮廓系数求平均，就是该聚类结果总的轮廓系数：

接着，自K＝W+1至K＝V循环上述过程，然后对比各K值的总的轮廓系数S_总，取S_总的最大值，此值在[0.5，1]区间内为最佳，从而选定最佳K值。

在一种实施方式中，所述S2中，所述根据数据样本类型，选定聚类数K值的大小，包括：当已明确数据样本类型的种类，则直接选定K值。

在一种实施方式中，所述当已明确数据样本类型的种类，则直接选定K值，包括：

根据已明确的数据样本类型种类，设K＝W类，S＝{S1，S2，...，SW}，在此数值模型上，即对以下表达式求最小值：

根据上述表达式可得数学表达式：

基于k-means思想，则要让表达式求出最小值，对于下述公式

如求r_nk，则公式为：

如求μ_k，则公式为：

本发明还进一步提供了一种多源数据可视分析与展现系统，包括：

数据样本处理模块，用于接收所有数据信息，对数据进行清洗，删除异常数据，得到数据样本集合；

聚类数选定模块，用于根据数据样本类型，选定聚类数K值的大小；

临近聚类模块，用于将数据样本集合中的数据样本按最小距离原则分配到最邻近聚类；

聚类中心运算模块，用于根据最临近聚类结果，重新计算K个聚类的中心，并作为新的聚类中心；

最佳聚类运算模块，用于判断是否收敛即判断聚类中心是否不再发生变化，若未收敛，则重复临近聚类模块和聚类中心运算模块中的运算，直至收敛，得到最佳聚类结果；

展示模块，用于按照最佳聚类结果，为数据样本标上相应标签，与展示模板一一对应，进行展示。

相对于现有技术，本发明的多源数据可视分析与展现方法及系统是基于k-means算法把机场各种数据类型进行聚类划分并各自显示，改进了传统需要一一判断数据源格式的差别，人工找出各种数据格式的区别再编写相应代码进行分离的问题，利用信息化手段，对机场各类型数据进行聚类分析并对其展示，在一定程度上加快了对各类型数据的分析与应用，减轻开发人员的工作量，因可视化系统应采用各种可视图表对数据进行展示，实时更新最新数据，为用户根据图表数据，判断人流密度，及时调度人员作参考依据。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1是本发明的多源数据可视分析与展现方法的流程框图。

具体实施方式

以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

请参阅图1，图1是本发明的多源数据可视分析与展现方法的流程框图。

本发明的多源数据可视分析与展现方法，包括：

S1.接收所有数据信息，对数据进行清洗，删除异常数据，得到数据样本集合。

在一种实施方式中，所述数据信息包括登机人员信息、值机人员信息、安检人员信息、飞机在场航班信息、空中监控信息和飞机保障信息的一种或多种。

S2.根据数据样本类型，选定聚类数K值的大小。

上述当数据样本类型的种类无法确定，无法确定K值时，随机选定K值，再使用轮廓系数方法计算K值大小，具体地包括：

根据可能的数据样本类型种类，示例1：包括登机人员信息、值机人员信息、安检人员信息和几类不能确定种类的信息，则初步将K值设定为≥5，上限设定为随机预判值15。

设W≤K≤V，其中W＜V，且W、V均为大于0的自然数，上述示例中，W和V分别为5和15，循环K值，分别计算得出聚类结果，并计算平均轮廓系数：

当K＝W(上述示例中W＝5)时，将接收的各种数据信息分为K＝W类，S＝{S1，S2，...，SW}，在此数值模型上，即对以下表达式求最小值：

根据上述表达式可得数学表达式：

基于k-means思想，则要让表达式求出最小值，对于下述公式

如求r_nk，则公式为：

如求μ_k，则公式为：

计算a(i)＝average(i向量到所有它属于的簇中其它点的距离)，

那么i向量的轮廓系数为：由公式可出当计算出的轮廓系数S(i)介于[-1，1]之间，且数值越趋向于1则代表轮廓系数越好，将所有点的轮廓系数求平均，就是该聚类结果总的轮廓系数：

接着，自K＝W+1至K＝V(上述示例中V＝15)循环上述过程，然后对比各K值的总的轮廓系数S_总，取S_总的最大值，此值在[0.5，1]区间内为最佳，从而选定最佳K值。

在另一种实施方式中，所述根据数据样本类型，选定聚类数K值的大小，包括：当已明确数据样本类型的种类，示例2：已明确数据样本类型包括飞机在场航班信息、空中监控信息和飞机保障信息，则直接选定K值，该示例中K＝3。

上述当已明确数据样本类型的种类，则直接选定K值，具体地包括：

根据已明确的数据样本类型种类，设K＝W(上述示例中该值为3)类，S＝{S1，S2，...，SW}，在此数值模型上，即对以下表达式求最小值：

根据上述表达式可得数学表达式：

基于k-means思想，则要让表达式求出最小值，对于下述公式

如求r_nk，则公式为：

如求μ_k，则公式为：

S3.将数据样本集合中的数据样本按最小距离原则分配到最邻近聚类。

S4.根据最临近聚类结果，重新计算K个聚类的中心，并作为新的聚类中心。

S5.判断是否收敛即判断聚类中心是否不再发生变化，若未收敛，则重复上述S3和S4，直至收敛，得到最佳聚类结果。

在一种实施方式中，所述标签包括字母标签或数字标签。

在一种实施方式中，所述展示模板包括折线图模板、柱状图模板、饼图模板。

在一种实施方式中，所述进行展示，包括进行自动可视化图表展示。

比如上述示例1中，登机人员信息为a标签、值机人员信息为b标签、安检人员信息为c标签。再根据已有展示模板如1模板为折线图、2模板为柱状图、3模板为饼图等，为上述字母标签与展示模板匹配，让其自动显示相应的可视化图表。

比如上述示例2中，飞机在场航班信息为a标签、空中监控信息为b标签、飞机保障信息为c标签。再根据已有展示模板如1模板为折线图、2模板为柱状图、3模板为饼图等，为上述字母标签与展示模板匹配，让其自动显示相应的可视化图表。

本发明的多源数据可视分析与展现系统，可以运行实现本发明的多源数据可视分析与展现方法，其包括：

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种多源数据可视分析与展现方法，其特征在于，包括：

S2.根据数据样本类型，选定聚类数K值的大小；

2.根据权利要求1所述的多源数据可视分析与展现方法，其特征在于，所述S1中，所述数据信息包括登机人员信息、值机人员信息、安检人员信息、飞机在场航班信息、空中监控信息和飞机保障信息的一种或多种。

3.根据权利要求2所述的多源数据可视分析与展现方法，其特征在于，所述S6中，所述标签包括字母标签或数字标签。

4.根据权利要求3所述的多源数据可视分析与展现方法，其特征在于，所述S6中，所述展示模板包括折线图模板、柱状图模板、饼图模板。

5.根据权利要求4所述的多源数据可视分析与展现方法，其特征在于，所述S6中，所述进行展示，包括进行自动可视化图表展示。

6.根据权利要求1-5任一项所述的多源数据可视分析与展现方法，其特征在于，所述S2中，所述根据数据样本类型，选定聚类数K值的大小，包括：当数据样本类型的种类无法确定，无法确定K值时，随机选定K值，再使用轮廓系数方法计算K值大小。

7.根据权利要求6所述的多源数据可视分析与展现方法，其特征在于，所述当数据样本类型的种类无法确定，无法确定K值时，随机选定K值，再使用轮廓系数方法计算K值大小，包括：

根据上述表达式可得数学表达式：

基于k-means思想，则要让表达式求出最小值，对于下述公式

如求r_nk，则公式为：

如求μ_k，则公式为：

计算a(i)＝average(i向量到所有它属于的簇中其它点的距离)，

那么i向量的轮廓系数为：

8.根据权利要求1-5任一项所述的多源数据可视分析与展现方法，其特征在于，所述S2中，所述根据数据样本类型，选定聚类数K值的大小，包括：当已明确数据样本类型的种类，则直接选定K值。

9.根据权利要求8所述的多源数据可视分析与展现方法，其特征在于，所述当已明确数据样本类型的种类，则直接选定K值，包括：

根据上述表达式可得数学表达式：

基于k-means思想，则要让表达式求出最小值，对于下述公式

如求r_nk，则公式为：

如求μ_k，则公式为：

10.一种多源数据可视分析与展现系统，其特征在于，包括：