CN112989287B - 一种基于流式大数据的交通态势实时计算方法 - Google Patents

一种基于流式大数据的交通态势实时计算方法 Download PDF

Info

Publication number
CN112989287B
CN112989287B CN202110456779.8A CN202110456779A CN112989287B CN 112989287 B CN112989287 B CN 112989287B CN 202110456779 A CN202110456779 A CN 202110456779A CN 112989287 B CN112989287 B CN 112989287B
Authority
CN
China
Prior art keywords
data
sector
complexity
model
track
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110456779.8A
Other languages
English (en)
Other versions
CN112989287A (zh
Inventor
曹先彬
杜文博
梁卜予
朱熙
佟路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202110456779.8A priority Critical patent/CN112989287B/zh
Publication of CN112989287A publication Critical patent/CN112989287A/zh
Application granted granted Critical
Publication of CN112989287B publication Critical patent/CN112989287B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Operations Research (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于流式大数据的交通态势实时计算方法,包括构建基于Spark Streaming与Kafka的分布式航迹流数据处理平台、Online Learning复杂度评估模型。通过本发明的技术方案,能够通过流式大数据框架实现航迹数据与扇区指标数据的在线转换,并通过改进评估算法,使其能满足在线评估的要求,实现实时的扇区复杂度评估。

Description

一种基于流式大数据的交通态势实时计算方法
技术领域
本发明属于民航技术领域,尤其涉及一种基于流式大数据的交通态势实时计算方法。
背景技术
近年来,随着经济的快速发展,空中交通流量随之增大,空中交通变得更加复杂和不可控。随之而来,产生了空中交通堵塞的问题。在空管领域,空域被分为一个个扇区单位,对于扇区的管制人员,知晓管控扇区的复杂程度,有利于更好的完成扇区管制工作。同时,空中交通受多种因素影响,瞬息万变,对于管制员的工作有很大的压力。因此,扇区复杂度的实时评估显得十分必要。
扇区复杂度的评估是在航迹数据分析运算的基础上实现的。飞机的航迹数据由雷达等多种渠道采集而得,是典型的流式数据,具有顺序、大量、快速、连续到达,随时间延续而无限延长的特点。同时,全国的飞机航迹数据体量大,在数据处理分析上耗时久,难度大。因此,实时评估扇区复杂度是一项艰难的工作。现有的复杂度评估方法都是基于静态批数据,使用一些机器学习、深度学习模型如神经网络等,通过多维扇区复杂度数据拟合出复杂度评估模型,再静态地完成复杂度评估。在以流数据为基础进行复杂度实时评估的领域,尚未有相关发明研究。
发明内容
为了解决实时评估扇区复杂度的问题,本发明提出一种基于流式大数据的交通态势实时计算方法,旨在通过流式大数据框架实现航迹数据与扇区指标数据的在线转换,并通过改进评估算法,使其能满足在线评估的要求,实现实时的扇区复杂度评估。本发明的具体技术方案如下:
一种基于流式大数据的交通态势实时计算方法,所述方法基于分布式航迹流数据处理平台,所述平台包括航迹数据采集模块、Kafka消息系统、SparkStreaming集群、数据存储模块、评估模型训练模块与结果反馈模块,其中,
所述航迹数据采集模块是航迹数据的接入模块,由外部数据源提供流式航迹数据;所述Kafka消息系统由所述航迹数据采集模块接入流式数据,使用分布式的结构处理高吞吐量的流式航迹数据,接入所述SparkStreaming集群进行数据处理;所述SparkStreaming集群对所述Kafka消息系统接入的航迹消息队列进行分布式处理,由多个工作节点构成,每个节点包含三个Spark Executor处理器,两个Spark Executor属于航迹数据解读处理,另外一个Spark Executor属于扇区复杂度计算,分别在其上运行相应的业务处理程序,将航迹数据转换为扇区复杂度数据;所述数据存储模块对接所述SparkStreaming集群,完成对于转换后的复杂度数据的存储;所述评估模型训练模块基于所述数据存储模块中的复杂度数据,实现评估模型训练,并输出复杂度的评估模型;所述结果反馈模块接入已经训练好的模型,并反馈复杂度的评估结果;
所述方法包括以下步骤:
S1:SparkStreaming工作节点部署;
Spark Streaming集群每个节点安装分布式数据库系统Hbase,用于存储结构化之后的原始航迹数据;安装Postgis数据库,用来存储经过Spark Streaming集群计算后的扇区复杂度数据,支持模型拟合与其他业务功能;
S2:数据解读;
将航迹数据采集模块采集来的原始航迹数据封装为相应弹性分布式数据集,对航迹数据进行转换,得到格式化的弹性分布式数据集,对应得到“航班序列号、对地速度、飞行高度、经度、纬度、航向角、时间”的格式化的数据,并同时将格式化的航迹数据存储于Hbase分布式数据库中;
S3:数据处理;
通过步骤S2格式化的航迹数据的经度和纬度,结合全国空域扇区的区域划分,得 到各个空域扇区的飞机数量;计算扇区复杂度数据运算的核心部分即斜距
Figure 149466DEST_PATH_IMAGE001
,定义如下:
Figure 325233DEST_PATH_IMAGE002
其中,
Figure 575430DEST_PATH_IMAGE003
代表飞机i的位置,
Figure 268579DEST_PATH_IMAGE004
表示
Figure 189131DEST_PATH_IMAGE003
Figure 801378DEST_PATH_IMAGE005
的向量,<.,.>表示向量之间 的标量积;
部署两个Spark Executor用来进行航迹数据的解读格式化,以及各个扇区内飞机数量与两架飞机之间的oblicaldistance;
S4:扇区数据计算;
根据步骤S2的数据解读与步骤S3的数据处理得到的格式化的航迹数据,运算得到各个扇区的扇区复杂度数据,用于支撑模型的拟合与扇区复杂度的评估;最终计算得到的各个扇区的扇区复杂度数据,存储于PostGis数据库中;
S5:构建OnlineLearning扇区复杂度评估模型;
使用onlinelearning的思想更新模型,使用逻辑回归logistic regression作为复杂度分类的基础模型;
扇区复杂度分为三类,使用softmax函数构造解决多分类问题;
三分类的逻辑回归函数
Figure 151588DEST_PATH_IMAGE006
为:
Figure 507483DEST_PATH_IMAGE007
其中,k=3,代表最终分类的类别数量,p为取得括号中式子的概率,j为从1到k的整 数,
Figure 282541DEST_PATH_IMAGE008
代表模型的参数矩阵即参数权重,
Figure 941055DEST_PATH_IMAGE009
代表
Figure 168774DEST_PATH_IMAGE008
的转置矩阵,
Figure 328360DEST_PATH_IMAGE010
代表第i个数据 对;
Figure 567712DEST_PATH_IMAGE011
表示分类为j的参数转置矩阵;对于一个给定的输入x,针对每一个类别j估算出属于 此类别的概率值p,输出一个k维的向量表示k个类别的估计值,概率值最大的分类即最终的 分类j;由极大似然估计方法得到相应的损失函数:
Figure 787340DEST_PATH_IMAGE012
其中,1{·}的取值规则是大括号内的表达式为真取1,反之取0;m为数据集的个数,k为3;
对模型更新,使上述公式值最低,求导得到梯度公式,沿着梯度的方向调整权重直 至收敛,即得到最优解,梯度
Figure 974127DEST_PATH_IMAGE013
的公式为:
Figure 812770DEST_PATH_IMAGE014
在梯度下降方面,使用FTRL优化算法进行权重更新,具体公式为:
Figure 296841DEST_PATH_IMAGE015
其中,
Figure 687371DEST_PATH_IMAGE016
为第t+1轮的参数权重,t为更新的轮次,argmin是指这个函数是为了使 得参数权重
Figure 499469DEST_PATH_IMAGE008
取得最小值,等到收敛,
Figure 857DEST_PATH_IMAGE008
是一个恒定的值即最后模型的权重;
Figure 339435DEST_PATH_IMAGE017
表示损失函数从1到t的梯度;
Figure 776232DEST_PATH_IMAGE018
Figure 200260DEST_PATH_IMAGE019
分别表示W的L1与L2正则项, s为从1到t的整数,
Figure 239761DEST_PATH_IMAGE020
为第s轮的权重矩阵,
Figure 839369DEST_PATH_IMAGE021
Figure 306123DEST_PATH_IMAGE022
分别为固定参数;
Figure 92813DEST_PATH_IMAGE023
,其 中,
Figure 956512DEST_PATH_IMAGE024
表示学习率,即梯度下降的步长,代表下降速率的快慢,学习率设置为:
Figure 535261DEST_PATH_IMAGE025
Figure 313861DEST_PATH_IMAGE026
Figure 446902DEST_PATH_IMAGE027
为固定参数,学习率随着迭代次数增加逐渐下降;
通过结合softmax函数的逻辑回归多分类模型与FTRL梯度下降优化算法,拟合得到在线的扇区复杂度评估模型;
航迹数据通过SparkStreaming集群运算后得到结构化的扇区复杂度数据,以流数据的形式参与OnlineLearning扇区复杂度评估模型的拟合,在线更新模型参数权重,完成模型的拟合,最终实现扇区复杂度的分类
本发明的有益效果在于:
1.本发明在交通态势评估领域,有效提升时效性,提高实时态势评估的效率。
2.本发明使用在线更新模型的方法,提升模型对于不断变化态势的鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。其中:
图1是SparkStreaming处理过程图;
图2是Kafka整体结构图;
图3是本发明的系统整体架构图;
图4是本发明的系统内部运行结构图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
Apache Spark 是当今最流行的开源大数据处理框架,相对于MapReduce来说,提供了更高级的编程接口与更高的性能。Spark提出了弹性分布式数据集(RDD)作为主体的计算集合,它是可读的、分区的,容错性高、并行性较好。SparkStreaming是Spark的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据处理,将接收到的实时流数据,按照一定时间间隔,对数据拆分,形成离散流数据Dstream;Dstream可以视作一组RDDs,对Dstream的处理实际上是将RDDs交给Spark Engine引擎,最终得到一批批的操作结果。SparkStreaming处理过程如图1所示。
ApacheKafka最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统,主要设计目的主要包括:持久化的消息访问能力、高吞吐率、易扩展等。Kafka集群包含一个或多个服务器,称为broker(代理)。每条发至Kafka的消息都有一个类别,成为Topic,每个Topic包含一个或多个Partition(分区)。消息的发送者和接受者分别称为Producer和Consumer。Consumer为消息的真正使用者,从Broker中获得消息并进行处理。Kafka整体结构如图2所示。
如图3-4所示,一种基于流式大数据的交通态势实时计算方法,方法基于分布式航迹流数据处理平台,平台包括航迹数据采集模块、Kafka消息系统、SparkStreaming集群、数据存储模块、评估模型训练模块与结果反馈模块,其中,
航迹数据采集模块是航迹数据的接入模块,由外部数据源提供流式航迹数据;Kafka消息系统由航迹数据采集模块接入流式数据,使用分布式的结构处理高吞吐量的流式航迹数据,接入SparkStreaming集群进行数据处理;SparkStreaming集群对Kafka消息系统接入的航迹消息队列进行分布式处理,由多个工作节点构成,每个节点包含三个SparkExecutor处理器,两个Spark Executor属于航迹数据解读处理,另外一个Spark Executor属于扇区复杂度计算,分别在其上运行相应的业务处理程序,将航迹数据转换为扇区复杂度数据;数据存储模块对接SparkStreaming集群,完成对于转换后的复杂度数据的存储;评估模型训练模块基于数据存储模块中的复杂度数据,实现评估模型训练,并输出复杂度的评估模型;结果反馈模块接入已经训练好的模型,并反馈复杂度的评估结果;
实时计算方法包括以下步骤:
S1:SparkStreaming工作节点部署;
Spark Streaming集群每个节点安装分布式数据库系统Hbase,用于存储结构化之后的原始航迹数据;安装Postgis数据库,用来存储经过Spark Streaming集群计算后的扇区复杂度数据,支持模型拟合与其他业务功能;
S2:数据解读;航迹数据的采集与传输是以消息队列的形式实现的,这并不是一种结构化的数据,在后续的数据分析与模型拟合时,需要将其转换为结构化数据。
将航迹数据采集模块采集来的原始航迹数据封装为相应弹性分布式数据集,对航迹数据进行转换,得到格式化的弹性分布式数据集,对应得到“航班序列号、对地速度、飞行高度、经度、纬度、航向角、时间”的格式化的数据,并同时将格式化的航迹数据存储于Hbase分布式数据库中;
S3:数据处理;除了数据解读程序外,数据处理程序负责计算每个扇区内的飞机数量与扇区复杂度数据运算的核心部分。
通过步骤S2格式化的航迹数据的经度和纬度,结合全国空域扇区的区域划分,得 到各个空域扇区的飞机数量;计算扇区复杂度数据运算的核心部分即斜距
Figure 828205DEST_PATH_IMAGE001
,定义如下:
Figure 136826DEST_PATH_IMAGE002
其中,
Figure 945382DEST_PATH_IMAGE003
代表飞机i的位置,
Figure 972244DEST_PATH_IMAGE004
表示
Figure 891659DEST_PATH_IMAGE003
Figure 445000DEST_PATH_IMAGE005
的向量,<.,.>表示向量之间 的标量积;
由于航迹数据中包含的飞机数量多,在计算各个扇区内包含的飞机以及飞机与飞机之间的oblicaldistance时耗时很久,因此,部署两个Spark Executor用来进行航迹数据的解读格式化,以及各个扇区内飞机数量与两架飞机之间的oblicaldistance,用以支撑扇区复杂度数据的运算,提高效率。
S4:扇区数据计算;
根据步骤S2的数据解读与步骤S3的数据处理得到的格式化的航迹数据,运算得到各个扇区的扇区复杂度数据,用于支撑模型的拟合与扇区复杂度的评估;最终计算得到的各个扇区的扇区复杂度数据,存储于PostGis数据库中;
扇区复杂度数据信息如下表所示,其中9-18均由数据处理程序中计算得到的oblicaldistance值运算而得。
表1 扇区复杂度数据信息
Figure 299823DEST_PATH_IMAGE028
S5:构建OnlineLearning扇区复杂度评估模型;
对于传统的复杂度评估模型,都是使用批计算的方式,一次性输入全部的实验数据,拟合出模型,再在测试数据集上测试,调整得到最优解。这种模型拟合方式是每次使用全量数据计算损失函数与梯度,然后更新模型。对于流式的航迹数据来说,产生的扇区复杂度数据也是以流数据的形式参与运算,如果还是以批计算的方式来拟合模型,那么在实时性、更新性的层面上效果较差。
为了实时的更新模型,本方法使用onlinelearning的思想去更新模型。相对于传统模型,onlinelearning能够根据线上的预测结果动态调整模型,加入模型预测错误,会及时做出修正,因此Online Learning能够更加及时地反应线上变化。为了达到实时性的要求,Online Learning的优化目标是使得整体的损失函数最小化,它需要快速求解目标函数的最优解。
使用onlinelearning的思想更新模型,使用逻辑回归logistic regression作为复杂度分类的基础模型;
扇区复杂度分为三类,使用softmax函数构造解决多分类问题;
三分类的逻辑回归函数
Figure 673036DEST_PATH_IMAGE006
为:
Figure 133492DEST_PATH_IMAGE007
其中,k=3,代表最终分类的类别数量,p为取得括号中式子的概率,j为从1到k的整 数,
Figure 416706DEST_PATH_IMAGE008
代表模型的参数矩阵即参数权重,
Figure 567064DEST_PATH_IMAGE009
代表
Figure 427573DEST_PATH_IMAGE008
的转置矩阵,
Figure 829735DEST_PATH_IMAGE010
代表第i个数据 对;
Figure 92089DEST_PATH_IMAGE011
表示分类为j的参数转置矩阵;对于一个给定的输入x,针对每一个类别j估算出属于 此类别的概率值p,输出一个k维的向量表示k个类别的估计值,概率值最大的分类即最终的 分类j;由极大似然估计方法得到相应的损失函数:
Figure 554295DEST_PATH_IMAGE012
其中,1{·}的取值规则是大括号内的表达式为真取1,反之取0;m为数据集的个数,k为3;
对模型更新,使上述公式值最低,求导得到梯度公式,沿着梯度的方向调整权重直 至收敛,即得到最优解,梯度
Figure 636520DEST_PATH_IMAGE013
的公式为:
Figure 967007DEST_PATH_IMAGE014
在梯度下降方面,使用FTRL优化算法进行权重更新,具体公式为:
Figure 959234DEST_PATH_IMAGE015
其中,
Figure 451395DEST_PATH_IMAGE029
为第t+1轮的参数权重,t为更新的轮次,argmin是指这个函数是为了使 得参数权重
Figure 20917DEST_PATH_IMAGE008
取得最小值,等到收敛,
Figure 886586DEST_PATH_IMAGE008
是一个恒定的值即最后模型的权重;
Figure 733319DEST_PATH_IMAGE017
表示损失函数从1到t的梯度;
Figure 661961DEST_PATH_IMAGE018
Figure 594145DEST_PATH_IMAGE019
分别表示W的L1与L2正则项, s为从1到t的整数,
Figure 266435DEST_PATH_IMAGE020
为第s轮的权重矩阵,
Figure 92308DEST_PATH_IMAGE021
Figure 67218DEST_PATH_IMAGE022
分别为固定参数;
Figure 611332DEST_PATH_IMAGE023
,其 中,
Figure 962678DEST_PATH_IMAGE024
表示学习率,即梯度下降的步长,代表下降速率的快慢,学习率设置为:
Figure 643058DEST_PATH_IMAGE025
Figure 913503DEST_PATH_IMAGE026
Figure 820279DEST_PATH_IMAGE027
为固定参数,学习率随着迭代次数增加逐渐下降;
通过结合softmax函数的逻辑回归多分类模型与FTRL梯度下降优化算法,拟合得到在线的扇区复杂度评估模型;
航迹数据通过SparkStreaming集群运算后得到结构化的扇区复杂度数据,以流数据的形式参与OnlineLearning扇区复杂度评估模型的拟合,在线更新模型参数权重,完成模型的拟合,最终实现扇区复杂度的分类。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于流式大数据的交通态势实时计算方法,其特征在于,所述方法基于分布式航迹流数据处理平台,所述平台包括航迹数据采集模块、Kafka消息系统、SparkStreaming集群、数据存储模块、评估模型训练模块与结果反馈模块,其中,
所述航迹数据采集模块是航迹数据的接入模块,由外部数据源提供流式航迹数据;所述Kafka消息系统由所述航迹数据采集模块接入流式数据,使用分布式的结构处理高吞吐量的流式航迹数据,接入所述SparkStreaming集群进行数据处理;所述SparkStreaming集群对所述Kafka消息系统接入的航迹消息队列进行分布式处理,由多个工作节点构成,每个节点包含三个Spark Executor处理器,两个Spark Executor属于航迹数据解读处理,另外一个Spark Executor属于扇区复杂度计算,分别在其上运行相应的业务处理程序,将航迹数据转换为扇区复杂度数据;所述数据存储模块对接所述SparkStreaming集群,完成对于转换后的复杂度数据的存储;所述评估模型训练模块基于所述数据存储模块中的复杂度数据,实现评估模型训练,并输出复杂度的评估模型;所述结果反馈模块接入已经训练好的模型,并反馈复杂度的评估结果;
所述方法包括以下步骤:
S1:SparkStreaming工作节点部署;
Spark Streaming集群每个节点安装分布式数据库系统Hbase,用于存储结构化之后的原始航迹数据;安装Postgis数据库,用来存储经过Spark Streaming集群计算后的扇区复杂度数据,支持模型拟合功能;
S2:数据解读;
将航迹数据采集模块采集来的原始航迹数据封装为相应弹性分布式数据集,对航迹数据进行转换,得到格式化的弹性分布式数据集,对应得到“航班序列号、对地速度、飞行高度、经度、纬度、航向角、时间”的格式化的数据,并同时将格式化的航迹数据存储于Hbase分布式数据库中;
S3:数据处理;
通过步骤S2格式化的航迹数据的经度和纬度,结合全国空域扇区的区域划分,得到各个空域扇区的飞机数量;计算扇区复杂度数据运算的核心部分即斜距
Figure 6278DEST_PATH_IMAGE001
,定义如下:
Figure 753654DEST_PATH_IMAGE002
其中,
Figure 370580DEST_PATH_IMAGE003
代表飞机i的位置,
Figure 519802DEST_PATH_IMAGE004
代表飞机j的位置,
Figure 55825DEST_PATH_IMAGE005
表示
Figure 228181DEST_PATH_IMAGE003
Figure 445535DEST_PATH_IMAGE004
的向量,<.,.>表示向量之间的标量积;
部署两个Spark Executor用来进行航迹数据的解读格式化,以及各个扇区内飞机数量与两架飞机之间的oblicaldistance;
S4:扇区数据计算;
根据步骤S2的数据解读与步骤S3的数据处理得到的格式化的航迹数据,运算得到各个扇区的扇区复杂度数据,用于支撑模型的拟合与扇区复杂度的评估;最终计算得到的各个扇区的扇区复杂度数据,存储于PostGis数据库中;
S5:构建OnlineLearning扇区复杂度评估模型;
使用onlinelearning的思想更新模型,使用逻辑回归logistic regression作为复杂度分类的基础模型;
扇区复杂度分为三类,使用softmax函数构造解决多分类问题;
三分类的逻辑回归函数
Figure 777160DEST_PATH_IMAGE006
为:
Figure 359451DEST_PATH_IMAGE007
其中,k=3,代表最终分类的类别数量,p为取得括号中式子的概率,j为从1到k的整数,
Figure 81419DEST_PATH_IMAGE008
代表模型的参数矩阵即参数权重,
Figure 164782DEST_PATH_IMAGE009
代表
Figure 695120DEST_PATH_IMAGE008
的转置矩阵,
Figure 776209DEST_PATH_IMAGE010
代表第i个数据对;
Figure 47790DEST_PATH_IMAGE011
表示分类为j的参数转置矩阵;对于一个给定的输入x,针对每一个类别j估算出属于此类别的概率值p,输出一个k维的向量表示k个类别的估计值,概率值最大的分类即最终的分类j;由极大似然估计方法得到相应的损失函数:
Figure 544630DEST_PATH_IMAGE012
其中,1{·}的取值规则是大括号内的表达式为真取1,反之取0;m为数据集的个数,k为3;
对模型更新,使上述公式值最低,求导得到梯度公式,沿着梯度的方向调整权重直至收敛,即得到最优解,梯度
Figure 522951DEST_PATH_IMAGE013
的公式为:
Figure 306099DEST_PATH_IMAGE014
在梯度下降方面,使用FTRL优化算法进行权重更新,具体公式为:
Figure 940342DEST_PATH_IMAGE015
其中,
Figure 303191DEST_PATH_IMAGE016
为第t+1轮的参数权重,t为更新的轮次,argmin是指这个函数是为了使得参数权重
Figure 463914DEST_PATH_IMAGE008
取得最小值,等到收敛,
Figure 293329DEST_PATH_IMAGE008
是一个恒定的值即最后模型的权重;
Figure 477186DEST_PATH_IMAGE017
表示损失函数从1到t的梯度;
Figure 440463DEST_PATH_IMAGE018
Figure 65479DEST_PATH_IMAGE019
分别表示W的L1与L2正则项,s为从1到t的整数,
Figure 456009DEST_PATH_IMAGE020
为第s轮的权重矩阵,
Figure 861583DEST_PATH_IMAGE021
Figure 769496DEST_PATH_IMAGE022
分别为固定参数;
Figure 576915DEST_PATH_IMAGE023
,其中,
Figure 138346DEST_PATH_IMAGE024
表示学习率,即梯度下降的步长,代表下降速率的快慢,学习率设置为:
Figure 968899DEST_PATH_IMAGE025
Figure 477241DEST_PATH_IMAGE026
Figure 935904DEST_PATH_IMAGE027
为固定参数,学习率随着迭代次数增加逐渐下降;
通过结合softmax函数的逻辑回归多分类模型与FTRL梯度下降优化算法,拟合得到在线的扇区复杂度评估模型;
航迹数据通过SparkStreaming集群运算后得到结构化的扇区复杂度数据,以流数据的形式参与OnlineLearning扇区复杂度评估模型的拟合,在线更新模型参数权重,完成模型的拟合,最终实现扇区复杂度的分类。
CN202110456779.8A 2021-04-27 2021-04-27 一种基于流式大数据的交通态势实时计算方法 Active CN112989287B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110456779.8A CN112989287B (zh) 2021-04-27 2021-04-27 一种基于流式大数据的交通态势实时计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110456779.8A CN112989287B (zh) 2021-04-27 2021-04-27 一种基于流式大数据的交通态势实时计算方法

Publications (2)

Publication Number Publication Date
CN112989287A CN112989287A (zh) 2021-06-18
CN112989287B true CN112989287B (zh) 2021-07-30

Family

ID=76341666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110456779.8A Active CN112989287B (zh) 2021-04-27 2021-04-27 一种基于流式大数据的交通态势实时计算方法

Country Status (1)

Country Link
CN (1) CN112989287B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116935700B (zh) * 2023-09-18 2023-12-05 四川大学 一种基于多源特征的扇区交通态势预测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855778B (zh) * 2012-09-10 2014-12-10 南京航空航天大学 一种基于复杂度评估的空域扇区分类方法
CN107944472B (zh) * 2017-11-03 2019-05-28 北京航空航天大学 一种基于迁移学习的空域运行态势计算方法
CN112489497B (zh) * 2020-11-18 2022-03-11 南京航空航天大学 基于深度卷积神经网络的空域运行复杂度评估方法

Also Published As

Publication number Publication date
CN112989287A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN113128702A (zh) 一种基于强化学习的神经网络自适应分布式并行训练方法
CN105550374A (zh) Spark云服务环境下面向大数据的随机森林并行机器学习方法
CN109918663A (zh) 一种语义匹配方法、装置及存储介质
CN113778691B (zh) 一种任务迁移决策的方法、装置及系统
CN104468413A (zh) 一种网络服务方法及系统
Chen et al. Mngnas: Distilling adaptive combination of multiple searched networks for one-shot neural architecture search
CN112989287B (zh) 一种基于流式大数据的交通态势实时计算方法
CN111353620A (zh) 构建网点件量预测模型的方法、装置、设备及存储介质
CN109816144A (zh) 分布式内存并行计算优化深度信念网络的短期负荷预测方法
CN103530304A (zh) 基于自适应分布式计算的在线推荐方法、系统和移动终端
CN113469425A (zh) 深度交通拥堵预测方法
CN115858675A (zh) 基于联邦学习框架的非独立同分布数据处理方法
CN110851911B (zh) 终端状态计算模型训练方法、控制序列搜索方法及装置
CN114936708A (zh) 基于边云协同任务卸载的故障诊断优化方法及电子设备
WO2021062219A1 (en) Clustering data using neural networks based on normalized cuts
CN103605631A (zh) 一种基于支持向量几何意义的增量学习方法
CN116822593A (zh) 一种基于硬件感知的大规模预训练语言模型压缩方法
CN114742265B (zh) 一种vhf信号传播路径误差预测方法及系统
CN110175680A (zh) 利用分布式异步更新在线机器学习的物联网数据分析方法
Cheng et al. Bandwidth reduction using importance weighted pruning on ring allreduce
Chen et al. Standard deviation based adaptive gradient compression for distributed deep learning
CN110175287B (zh) 一种基于Flink的矩阵分解隐式反馈推荐方法和系统
Esfahanizadeh et al. Stream iterative distributed coded computing for learning applications in heterogeneous systems
Xiangyang Research on fault diagnosis of B737 aircraft fuel system based on improved BP neural network
CN116894097B (zh) 一种基于超图建模的知识图谱标签预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant