CN110750528A - 一种多源数据可视分析与展现方法及系统 - Google Patents

一种多源数据可视分析与展现方法及系统 Download PDF

Info

Publication number
CN110750528A
CN110750528A CN201911023724.7A CN201911023724A CN110750528A CN 110750528 A CN110750528 A CN 110750528A CN 201911023724 A CN201911023724 A CN 201911023724A CN 110750528 A CN110750528 A CN 110750528A
Authority
CN
China
Prior art keywords
data
value
clustering
data sample
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911023724.7A
Other languages
English (en)
Inventor
夏侯康
曾林华
王丽娟
冯景亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Airport Baiyun Mdt Infotech Ltd
Original Assignee
Guangdong Airport Baiyun Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Airport Baiyun Mdt Infotech Ltd filed Critical Guangdong Airport Baiyun Mdt Infotech Ltd
Priority to CN201911023724.7A priority Critical patent/CN110750528A/zh
Publication of CN110750528A publication Critical patent/CN110750528A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种多源数据可视分析与展现方法及系统。多源数据可视分析与展现方法,包括:接收所有数据信息,对数据进行清洗,删除异常数据,得到数据样本集合;根据数据样本类型,选定聚类数K值的大小;将数据样本集合中的数据样本按最小距离原则分配到最邻近聚类;根据最临近聚类结果,重新计算K个聚类的中心,并作为新的聚类中心;判断是否收敛即判断聚类中心是否不再发生变化,若未收敛,重复直至收敛,得到最佳聚类结果;按照最佳聚类结果,为数据样本标上相应标签,与展示模板一一对应,进行展示。多源数据可视分析与展现系统,包括:数据样本处理模块;聚类数选定模块;临近聚类模块;聚类中心运算模块;最佳聚类运算模块;展示模块。

Description

一种多源数据可视分析与展现方法及系统
技术领域
本发明涉及数据分析技术领域,特别是涉及一种多源数据可视分析与展现方法及系统。
背景技术
随着民航需求的日益增长,机场所产生的各种类型的数据量呈上升趋势,如各种类的航班数据、旅客数据、保障数据等各类型的数据收集较为分散,导致数据收集分析过慢,导致展示数据实时性较差。
目前,机场的可视化系统的根本目的是利用多媒体、多渠道,实现空管、机场、航空公司和驻场单位等部门单位的协同沟通,把各单位所拥有的数据信息进行融合,并把数据通过图表的形式展示出来,但收集的各种数据种类多数量大,难以对数据进行分析利用。
发明内容
基于此,本发明的目的在于,提供一种多源数据可视分析与展现方法及系统。
本发明的多源数据可视分析与展现方法,包括:
S1.接收所有数据信息,对数据进行清洗,删除异常数据,得到数据样本集合;
S2.根据数据样本类型,选定聚类数K值的大小;
S3.将数据样本集合中的数据样本按最小距离原则分配到最邻近聚类;
S4.根据最临近聚类结果,重新计算K个聚类的中心,并作为新的聚类中心;
S5.判断是否收敛即判断聚类中心是否不再发生变化,若未收敛,则重复上述S3和S4,直至收敛,得到最佳聚类结果;
S6.按照最佳聚类结果,为数据样本标上相应标签,与展示模板一一对应,进行展示。
在一种实施方式中,所述S1中,所述数据信息包括登机人员信息、值机人员信息、安检人员信息、飞机在场航班信息、空中监控信息和飞机保障信息的一种或多种。
在一种实施方式中,所述S6中,所述标签包括字母标签或数字标签。
在一种实施方式中,所述S6中,所述展示模板包括折线图模板、柱状图模板、饼图模板。
在一种实施方式中,所述S6中,所述进行展示,包括进行自动可视化图表展示。
在一种实施方式中,所述S2中,所述根据数据样本类型,选定聚类数K值的大小,包括:当数据样本类型的种类无法确定,无法确定K值时,随机选定K值,再使用轮廓系数方法计算K值大小。
在一种实施方式中,所述当数据样本类型的种类无法确定,无法确定K值时,随机选定K值,再使用轮廓系数方法计算K值大小,包括:
根据可能的数据样本类型种类,设W≤K≤V,其中W<V,且W、V均为大于0的自然数,循环K值,分别计算得出聚类结果,并计算平均轮廓系数:
当K=W时,将接收的各种数据信息分为K=W类,S={S1,S2,...,SW},在此数值模型上,即对以下表达式求最小值:
Figure BDA0002248033190000021
根据上述表达式可得数学表达式:
Figure BDA0002248033190000031
其中,n为样本数,k为分类值,rnk为第n个样本点是否属于第k类,属于则rnk=1,否者rnk=0,μk为第K个中心点;
基于k-means思想,则要让表达式求出最小值,对于下述公式
Figure BDA0002248033190000032
需要对其进行迭代,先对μk固定值,得出rnk,然后固定rnk的值,求出μk
如求rnk,则公式为:
Figure BDA0002248033190000033
如求μk,则公式为:
Figure BDA0002248033190000034
然后,可得出K=W时所计算出的聚类结果,其中K为簇,对于簇中的每个向量,分别计算他们的轮廓系数,对于其中一个点i来说:
计算a(i)=average(i向量到所有它属于的簇中其它点的距离),
计算b(i)=min(i向量到与它相邻最近的一簇内的所有点的平均距离),
那么i向量的轮廓系数为:
Figure BDA0002248033190000035
由公式可出当计算出的轮廓系数S(i)介于[-1,1]之间,且数值越趋向于1则代表轮廓系数越好,将所有点的轮廓系数求平均,就是该聚类结果总的轮廓系数:
Figure BDA0002248033190000036
接着,自K=W+1至K=V循环上述过程,然后对比各K值的总的轮廓系数S,取S的最大值,此值在[0.5,1]区间内为最佳,从而选定最佳K值。
在一种实施方式中,所述S2中,所述根据数据样本类型,选定聚类数K值的大小,包括:当已明确数据样本类型的种类,则直接选定K值。
在一种实施方式中,所述当已明确数据样本类型的种类,则直接选定K值,包括:
根据已明确的数据样本类型种类,设K=W类,S={S1,S2,...,SW},在此数值模型上,即对以下表达式求最小值:
Figure BDA0002248033190000041
根据上述表达式可得数学表达式:
Figure BDA0002248033190000046
其中,n为样本数,k为分类值,rnk为第n个样本点是否属于第k类,属于则rnk=1,否者rnk=0,μk为第K个中心点;
基于k-means思想,则要让表达式求出最小值,对于下述公式
Figure BDA0002248033190000043
需要对其进行迭代,先对μk固定值,得出rnk,然后固定rnk的值,求出μk
如求rnk,则公式为:
Figure BDA0002248033190000044
如求μk,则公式为:
Figure BDA0002248033190000045
本发明还进一步提供了一种多源数据可视分析与展现系统,包括:
数据样本处理模块,用于接收所有数据信息,对数据进行清洗,删除异常数据,得到数据样本集合;
聚类数选定模块,用于根据数据样本类型,选定聚类数K值的大小;
临近聚类模块,用于将数据样本集合中的数据样本按最小距离原则分配到最邻近聚类;
聚类中心运算模块,用于根据最临近聚类结果,重新计算K个聚类的中心,并作为新的聚类中心;
最佳聚类运算模块,用于判断是否收敛即判断聚类中心是否不再发生变化,若未收敛,则重复临近聚类模块和聚类中心运算模块中的运算,直至收敛,得到最佳聚类结果;
展示模块,用于按照最佳聚类结果,为数据样本标上相应标签,与展示模板一一对应,进行展示。
相对于现有技术,本发明的多源数据可视分析与展现方法及系统是基于k-means算法把机场各种数据类型进行聚类划分并各自显示,改进了传统需要一一判断数据源格式的差别,人工找出各种数据格式的区别再编写相应代码进行分离的问题,利用信息化手段,对机场各类型数据进行聚类分析并对其展示,在一定程度上加快了对各类型数据的分析与应用,减轻开发人员的工作量,因可视化系统应采用各种可视图表对数据进行展示,实时更新最新数据,为用户根据图表数据,判断人流密度,及时调度人员作参考依据。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1是本发明的多源数据可视分析与展现方法的流程框图。
具体实施方式
以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
请参阅图1,图1是本发明的多源数据可视分析与展现方法的流程框图。
本发明的多源数据可视分析与展现方法,包括:
S1.接收所有数据信息,对数据进行清洗,删除异常数据,得到数据样本集合。
在一种实施方式中,所述数据信息包括登机人员信息、值机人员信息、安检人员信息、飞机在场航班信息、空中监控信息和飞机保障信息的一种或多种。
S2.根据数据样本类型,选定聚类数K值的大小。
在一种实施方式中,所述S2中,所述根据数据样本类型,选定聚类数K值的大小,包括:当数据样本类型的种类无法确定,无法确定K值时,随机选定K值,再使用轮廓系数方法计算K值大小。
上述当数据样本类型的种类无法确定,无法确定K值时,随机选定K值,再使用轮廓系数方法计算K值大小,具体地包括:
根据可能的数据样本类型种类,示例1:包括登机人员信息、值机人员信息、安检人员信息和几类不能确定种类的信息,则初步将K值设定为≥5,上限设定为随机预判值15。
设W≤K≤V,其中W<V,且W、V均为大于0的自然数,上述示例中,W和V分别为5和15,循环K值,分别计算得出聚类结果,并计算平均轮廓系数:
当K=W(上述示例中W=5)时,将接收的各种数据信息分为K=W类,S={S1,S2,...,SW},在此数值模型上,即对以下表达式求最小值:
Figure BDA0002248033190000061
根据上述表达式可得数学表达式:
Figure BDA0002248033190000062
其中,n为样本数,k为分类值,rnk为第n个样本点是否属于第k类,属于则rnk=1,否者rnk=0,μk为第K个中心点;
基于k-means思想,则要让表达式求出最小值,对于下述公式
Figure BDA0002248033190000071
需要对其进行迭代,先对μk固定值,得出rnk,然后固定rnk的值,求出μk
如求rnk,则公式为:
Figure BDA0002248033190000072
如求μk,则公式为:
Figure BDA0002248033190000073
然后,可得出K=W时所计算出的聚类结果,其中K为簇,对于簇中的每个向量,分别计算他们的轮廓系数,对于其中一个点i来说:
计算a(i)=average(i向量到所有它属于的簇中其它点的距离),
计算b(i)=min(i向量到与它相邻最近的一簇内的所有点的平均距离),
那么i向量的轮廓系数为:由公式可出当计算出的轮廓系数S(i)介于[-1,1]之间,且数值越趋向于1则代表轮廓系数越好,将所有点的轮廓系数求平均,就是该聚类结果总的轮廓系数:
Figure BDA0002248033190000075
接着,自K=W+1至K=V(上述示例中V=15)循环上述过程,然后对比各K值的总的轮廓系数S,取S的最大值,此值在[0.5,1]区间内为最佳,从而选定最佳K值。
在另一种实施方式中,所述根据数据样本类型,选定聚类数K值的大小,包括:当已明确数据样本类型的种类,示例2:已明确数据样本类型包括飞机在场航班信息、空中监控信息和飞机保障信息,则直接选定K值,该示例中K=3。
上述当已明确数据样本类型的种类,则直接选定K值,具体地包括:
根据已明确的数据样本类型种类,设K=W(上述示例中该值为3)类,S={S1,S2,...,SW},在此数值模型上,即对以下表达式求最小值:
Figure BDA0002248033190000081
根据上述表达式可得数学表达式:
Figure BDA0002248033190000082
其中,n为样本数,k为分类值,rnk为第n个样本点是否属于第k类,属于则rnk=1,否者rnk=0,μk为第K个中心点;
基于k-means思想,则要让表达式求出最小值,对于下述公式
Figure BDA0002248033190000083
需要对其进行迭代,先对μk固定值,得出rnk,然后固定rnk的值,求出μk
如求rnk,则公式为:
如求μk,则公式为:
Figure BDA0002248033190000085
S3.将数据样本集合中的数据样本按最小距离原则分配到最邻近聚类。
S4.根据最临近聚类结果,重新计算K个聚类的中心,并作为新的聚类中心。
S5.判断是否收敛即判断聚类中心是否不再发生变化,若未收敛,则重复上述S3和S4,直至收敛,得到最佳聚类结果。
S6.按照最佳聚类结果,为数据样本标上相应标签,与展示模板一一对应,进行展示。
在一种实施方式中,所述标签包括字母标签或数字标签。
在一种实施方式中,所述展示模板包括折线图模板、柱状图模板、饼图模板。
在一种实施方式中,所述进行展示,包括进行自动可视化图表展示。
比如上述示例1中,登机人员信息为a标签、值机人员信息为b标签、安检人员信息为c标签。再根据已有展示模板如1模板为折线图、2模板为柱状图、3模板为饼图等,为上述字母标签与展示模板匹配,让其自动显示相应的可视化图表。
比如上述示例2中,飞机在场航班信息为a标签、空中监控信息为b标签、飞机保障信息为c标签。再根据已有展示模板如1模板为折线图、2模板为柱状图、3模板为饼图等,为上述字母标签与展示模板匹配,让其自动显示相应的可视化图表。
本发明的多源数据可视分析与展现系统,可以运行实现本发明的多源数据可视分析与展现方法,其包括:
数据样本处理模块,用于接收所有数据信息,对数据进行清洗,删除异常数据,得到数据样本集合;
聚类数选定模块,用于根据数据样本类型,选定聚类数K值的大小;
临近聚类模块,用于将数据样本集合中的数据样本按最小距离原则分配到最邻近聚类;
聚类中心运算模块,用于根据最临近聚类结果,重新计算K个聚类的中心,并作为新的聚类中心;
最佳聚类运算模块,用于判断是否收敛即判断聚类中心是否不再发生变化,若未收敛,则重复临近聚类模块和聚类中心运算模块中的运算,直至收敛,得到最佳聚类结果;
展示模块,用于按照最佳聚类结果,为数据样本标上相应标签,与展示模板一一对应,进行展示。
相对于现有技术,本发明的多源数据可视分析与展现方法及系统是基于k-means算法把机场各种数据类型进行聚类划分并各自显示,改进了传统需要一一判断数据源格式的差别,人工找出各种数据格式的区别再编写相应代码进行分离的问题,利用信息化手段,对机场各类型数据进行聚类分析并对其展示,在一定程度上加快了对各类型数据的分析与应用,减轻开发人员的工作量,因可视化系统应采用各种可视图表对数据进行展示,实时更新最新数据,为用户根据图表数据,判断人流密度,及时调度人员作参考依据。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (10)

1.一种多源数据可视分析与展现方法,其特征在于,包括:
S1.接收所有数据信息,对数据进行清洗,删除异常数据,得到数据样本集合;
S2.根据数据样本类型,选定聚类数K值的大小;
S3.将数据样本集合中的数据样本按最小距离原则分配到最邻近聚类;
S4.根据最临近聚类结果,重新计算K个聚类的中心,并作为新的聚类中心;
S5.判断是否收敛即判断聚类中心是否不再发生变化,若未收敛,则重复上述S3和S4,直至收敛,得到最佳聚类结果;
S6.按照最佳聚类结果,为数据样本标上相应标签,与展示模板一一对应,进行展示。
2.根据权利要求1所述的多源数据可视分析与展现方法,其特征在于,所述S1中,所述数据信息包括登机人员信息、值机人员信息、安检人员信息、飞机在场航班信息、空中监控信息和飞机保障信息的一种或多种。
3.根据权利要求2所述的多源数据可视分析与展现方法,其特征在于,所述S6中,所述标签包括字母标签或数字标签。
4.根据权利要求3所述的多源数据可视分析与展现方法,其特征在于,所述S6中,所述展示模板包括折线图模板、柱状图模板、饼图模板。
5.根据权利要求4所述的多源数据可视分析与展现方法,其特征在于,所述S6中,所述进行展示,包括进行自动可视化图表展示。
6.根据权利要求1-5任一项所述的多源数据可视分析与展现方法,其特征在于,所述S2中,所述根据数据样本类型,选定聚类数K值的大小,包括:当数据样本类型的种类无法确定,无法确定K值时,随机选定K值,再使用轮廓系数方法计算K值大小。
7.根据权利要求6所述的多源数据可视分析与展现方法,其特征在于,所述当数据样本类型的种类无法确定,无法确定K值时,随机选定K值,再使用轮廓系数方法计算K值大小,包括:
根据可能的数据样本类型种类,设W≤K≤V,其中W<V,且W、V均为大于0的自然数,循环K值,分别计算得出聚类结果,并计算平均轮廓系数:
当K=W时,将接收的各种数据信息分为K=W类,S={S1,S2,...,SW},在此数值模型上,即对以下表达式求最小值:
Figure FDA0002248033180000021
根据上述表达式可得数学表达式:
其中,n为样本数,k为分类值,rnk为第n个样本点是否属于第k类,属于则rnk=1,否者rnk=0,μk为第K个中心点;
基于k-means思想,则要让表达式求出最小值,对于下述公式
Figure FDA0002248033180000023
需要对其进行迭代,先对μk固定值,得出rnk,然后固定rnk的值,求出μk
如求rnk,则公式为:
如求μk,则公式为:
Figure FDA0002248033180000025
然后,可得出K=W时所计算出的聚类结果,其中K为簇,对于簇中的每个向量,分别计算他们的轮廓系数,对于其中一个点i来说:
计算a(i)=average(i向量到所有它属于的簇中其它点的距离),
计算b(i)=min(i向量到与它相邻最近的一簇内的所有点的平均距离),
那么i向量的轮廓系数为:
Figure FDA0002248033180000026
由公式可出当计算出的轮廓系数S(i)介于[-1,1]之间,且数值越趋向于1则代表轮廓系数越好,将所有点的轮廓系数求平均,就是该聚类结果总的轮廓系数:
Figure FDA0002248033180000031
接着,自K=W+1至K=V循环上述过程,然后对比各K值的总的轮廓系数S,取S的最大值,此值在[0.5,1]区间内为最佳,从而选定最佳K值。
8.根据权利要求1-5任一项所述的多源数据可视分析与展现方法,其特征在于,所述S2中,所述根据数据样本类型,选定聚类数K值的大小,包括:当已明确数据样本类型的种类,则直接选定K值。
9.根据权利要求8所述的多源数据可视分析与展现方法,其特征在于,所述当已明确数据样本类型的种类,则直接选定K值,包括:
根据已明确的数据样本类型种类,设K=W类,S={S1,S2,...,SW},在此数值模型上,即对以下表达式求最小值:
Figure FDA0002248033180000032
根据上述表达式可得数学表达式:
Figure FDA0002248033180000033
其中,n为样本数,k为分类值,rnk为第n个样本点是否属于第k类,属于则rnk=1,否者rnk=0,μk为第K个中心点;
基于k-means思想,则要让表达式求出最小值,对于下述公式
Figure FDA0002248033180000034
需要对其进行迭代,先对μk固定值,得出rnk,然后固定rnk的值,求出μk
如求rnk,则公式为:
Figure FDA0002248033180000035
如求μk,则公式为:
10.一种多源数据可视分析与展现系统,其特征在于,包括:
数据样本处理模块,用于接收所有数据信息,对数据进行清洗,删除异常数据,得到数据样本集合;
聚类数选定模块,用于根据数据样本类型,选定聚类数K值的大小;
临近聚类模块,用于将数据样本集合中的数据样本按最小距离原则分配到最邻近聚类;
聚类中心运算模块,用于根据最临近聚类结果,重新计算K个聚类的中心,并作为新的聚类中心;
最佳聚类运算模块,用于判断是否收敛即判断聚类中心是否不再发生变化,若未收敛,则重复临近聚类模块和聚类中心运算模块中的运算,直至收敛,得到最佳聚类结果;
展示模块,用于按照最佳聚类结果,为数据样本标上相应标签,与展示模板一一对应,进行展示。
CN201911023724.7A 2019-10-25 2019-10-25 一种多源数据可视分析与展现方法及系统 Pending CN110750528A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911023724.7A CN110750528A (zh) 2019-10-25 2019-10-25 一种多源数据可视分析与展现方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911023724.7A CN110750528A (zh) 2019-10-25 2019-10-25 一种多源数据可视分析与展现方法及系统

Publications (1)

Publication Number Publication Date
CN110750528A true CN110750528A (zh) 2020-02-04

Family

ID=69279971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911023724.7A Pending CN110750528A (zh) 2019-10-25 2019-10-25 一种多源数据可视分析与展现方法及系统

Country Status (1)

Country Link
CN (1) CN110750528A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783875A (zh) * 2020-06-29 2020-10-16 中国平安财产保险股份有限公司 基于聚类分析的异常用户检测方法、装置、设备及介质
CN112257955A (zh) * 2020-11-06 2021-01-22 开普云信息科技股份有限公司 一种基于聚类算法的共享单车优化调配方法、控制装置、电子设备及其存储介质
CN113988176A (zh) * 2021-10-27 2022-01-28 支付宝(杭州)信息技术有限公司 样本标注方法和装置
CN114329164A (zh) * 2021-12-31 2022-04-12 北京百度网讯科技有限公司 用于处理数据的方法、装置、设备、介质和产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180107450A1 (en) * 2016-10-17 2018-04-19 Tata Consultancy Services Limited System and method for data pre-processing
CN108549904A (zh) * 2018-03-28 2018-09-18 西安理工大学 基于轮廓系数的差分隐私保护K-means聚类方法
CN109740037A (zh) * 2019-01-02 2019-05-10 山东省科学院情报研究所 多源、异构流态大数据分布式在线实时处理方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180107450A1 (en) * 2016-10-17 2018-04-19 Tata Consultancy Services Limited System and method for data pre-processing
CN108549904A (zh) * 2018-03-28 2018-09-18 西安理工大学 基于轮廓系数的差分隐私保护K-means聚类方法
CN109740037A (zh) * 2019-01-02 2019-05-10 山东省科学院情报研究所 多源、异构流态大数据分布式在线实时处理方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
肖朔晨: "基于多源数据的移动通信用户行为识别及个性化推荐研究" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783875A (zh) * 2020-06-29 2020-10-16 中国平安财产保险股份有限公司 基于聚类分析的异常用户检测方法、装置、设备及介质
CN111783875B (zh) * 2020-06-29 2024-04-30 中国平安财产保险股份有限公司 基于聚类分析的异常用户检测方法、装置、设备及介质
CN112257955A (zh) * 2020-11-06 2021-01-22 开普云信息科技股份有限公司 一种基于聚类算法的共享单车优化调配方法、控制装置、电子设备及其存储介质
CN113988176A (zh) * 2021-10-27 2022-01-28 支付宝(杭州)信息技术有限公司 样本标注方法和装置
CN114329164A (zh) * 2021-12-31 2022-04-12 北京百度网讯科技有限公司 用于处理数据的方法、装置、设备、介质和产品

Similar Documents

Publication Publication Date Title
CN110750528A (zh) 一种多源数据可视分析与展现方法及系统
CN107086935B (zh) 基于wifi ap的人流量分布预测方法
WO2020238631A1 (zh) 一种基于手机信令数据的人群类型识别方法
JP2019023937A5 (zh)
Kuhn A methodology for identifying similar days in air traffic flow management initiative planning
CN107633035B (zh) 一种基于K-Means&LightGBM模型的共享交通服务reorder预估方法
CN106548294A (zh) 一种基于飞行数据的着陆操作绩效评价方法及装置
JP2021034059A (ja) トレンド距離とスペクトルクラスタリングに基づく空港フライトウェーブ形状の類似度測定方法
CN111985685B (zh) 基于大数据分析的航班计划优化方法、装置及电子设备
CN112183605B (zh) 一种基于运行特征的民航管制扇区分类方法
CN107274066B (zh) 一种基于lrfmd模型的共享交通客户价值分析方法
Rodríguez-Déniz et al. A frontier-based hierarchical clustering for airport efficiency benchmarking
CN111709659A (zh) 外勤业务员的智能调度方法、装置、设备及存储介质
CN103699801A (zh) 一种时空规律的地铁乘客聚类和边缘检测方法
CN111814687A (zh) 一种航班保障节点智能识别系统
CN116257681B (zh) 一种基于画像技术的民用航空事件调查员推荐方法
CN115472298A (zh) 基于ai的高通量测序数据智能分析系统及方法
CN103955676B (zh) 一种人脸识别方法及系统
CN113312424A (zh) 一种基于qar数据的飞行员飞行技能画像方法及系统
Jayanti et al. Application of Predictive Analytics To Improve The Hiring Process In A Telecommunications Company
CN115310366A (zh) 一种基于随机优化模型评估机场公布容量的方法
Öttl et al. Derivation of representative air traffic peaks as standard input for airport related simulation
CN115579069A (zh) scRNA-Seq细胞类型注释数据库的构建方法、装置及电子设备
CN114117327A (zh) 一种基于集对可拓耦合的不正常航班恢复策略评估方法
US8725724B2 (en) Method for efficient association of multiple distributions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 510000 North Building of secondary company business building, block A4, New Baiyun International Airport, Baiyun District, Guangzhou City, Guangdong Province

Applicant after: Guangdong Airport Baiyun Information Technology Co.,Ltd.

Address before: 510000 North Building of secondary company business building, block A4, New Baiyun International Airport, Baiyun District, Guangzhou City, Guangdong Province

Applicant before: GUANGDONG AIRPORT BAIYUN INFORMATION TECHNOLOGY CO.,LTD.

RJ01 Rejection of invention patent application after publication

Application publication date: 20200204