CN106295854A - 用于分析机场安检区的旅客到达的数据处理方法及装置 - Google Patents
用于分析机场安检区的旅客到达的数据处理方法及装置 Download PDFInfo
- Publication number
- CN106295854A CN106295854A CN201610607353.7A CN201610607353A CN106295854A CN 106295854 A CN106295854 A CN 106295854A CN 201610607353 A CN201610607353 A CN 201610607353A CN 106295854 A CN106295854 A CN 106295854A
- Authority
- CN
- China
- Prior art keywords
- passenger
- data
- sigma
- district
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 75
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000013386 optimize process Methods 0.000 claims abstract description 8
- 238000009826 distribution Methods 0.000 claims description 125
- 238000007621 cluster analysis Methods 0.000 claims description 18
- 239000000126 substance Substances 0.000 claims description 18
- 238000003064 k means clustering Methods 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 abstract description 20
- 239000000203 mixture Substances 0.000 description 22
- 230000006870 function Effects 0.000 description 18
- 238000013101 initial test Methods 0.000 description 16
- 230000010006 flight Effects 0.000 description 10
- 238000005315 distribution function Methods 0.000 description 9
- 238000005457 optimization Methods 0.000 description 7
- 238000007476 Maximum Likelihood Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 239000004744 fabric Substances 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种用于分析机场安检区旅客到达的数据处理方法及装置。其中,方法为:将机场值机区的旅客输出数据输入高斯混合模型,得到输出结果;根据输出结果预测机场安检区的旅客到达情况,得到旅客到达情况数据;上报旅客到达情况数据,以至少针对机场安检流程进行优化处理。本发明的一种用于分析机场安检区旅客到达的数据处理方法及装置,用于分析机场安检区的旅客到达的数据处理方法,根据值机区的旅客输出数据进行安检区旅客到达的分析和预测依据,即考虑到了整体离港系统区旅客到达速率,也兼顾了值机区环境,因此其数据处理精度更高。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种用于分析机场安检区的旅客到达的数据处理方法及装置。
背景技术
现代航空运输业迅速发展,机场航站楼吞吐量不断增大。根据国际民航组织(ICAO)的预测,未来20年内全球航空需求将以每年超过5%的速度增长,20年后的航空旅客量将比现在增加3倍,民航客机的数量将增加一倍,客机座位数量将由现在的170万个增至400万个。随着航空运输量的增大,机场航站楼离场系统面临前所未有的压力。在旅客离港服务过程中安检工作复杂、繁琐,在旅客离港服务的整个工作流程中占有重要位置。安检服务工作流程的优化成为旅客离港服务工作流程优化中不可缺少的一部分。
研究航站楼离场流程首先需要对航站楼旅客聚集行为进行研究分析,同理安检服务流程同样需要优先研究安检旅客聚集规律。对于旅客聚集规律国内外学者进行了多个方面的研究。Profillidis V.A.提出了采用模糊理论的计量经济模型来估计希腊机场的航站楼旅客流量,通过客流量来调整系统资源优化服务流程。Oliver.p和Ruwantlisss I R等人提出航站楼旅客的到达速率受到该时间段内航班量和航班起飞时间的影响,他们提出通过对机场计划航班的科学安排,影响机场旅客率。适当控制高峰期内各时间段的乘客流量,合理利用安检区资源。从而达到以较少成本检查所有乘客,提高安全可靠性的目的。AkdereMtich提出通过复杂时间的分割处理原理,对分布式环境进行分割查询优化处理,根据旅客吞吐量和航站楼资源设备对旅客的到达聚集行为进行预测和优化。上述研究通过分析旅客到达的分布情况采用多种方法建立某个区域的旅客聚集预测模型。在安检环节中旅客到达行为既受到整体离港系统旅客到达速率的影响也受到值机区环境因素的影响,而现有的实现方式仅根据整体离港系统旅客到达速率进行安检区旅客到达行为的分析预测,无法保证预测精度。
发明内容
针对现有技术中的缺陷,本发明提供一种用于分析机场安检区旅客到达的数据处理方法及装置,以值机区的旅客输出数据进行安检区旅客到达的分析和预测依据,即考虑到了整体离港系统区旅客到达速率,也兼顾了值机区环境,使数据处理精度更高。
为解决上述技术问题,本发明提供的技术方案是:
第一方面,本发明提供用于分析机场安检区的旅客到达的数据处理方法,包括:
将机场值机区的旅客输出数据输入高斯混合模型,得到输出结果;
根据所述输出结果预测所述机场安检区的旅客到达情况,得到旅客到达情况数据;
上报所述旅客到达情况数据,以至少针对机场安检流程进行优化处理。
本发明的技术方案为先将机场值机区的旅客输出数据输入高斯混合模型,得到输出结果;然后根据所述输出结果预测所述机场安检区的旅客到达情况,得到旅客到达情况数据;最后上报所述旅客到达情况数据,以至少针对机场安检流程进行优化处理。
本发明提供的用于分析机场安检区的旅客到达的数据处理方法,根据值机区的旅客输出数据,基于高斯混合分布模型进行安检区旅客到达的分析和预测,进而输出预测结果,以进行安检流程优化等后续处理。根据值机区的旅客输出数据进行安检区旅客到达的分析和预测依据,即考虑到了整体离港系统区旅客到达速率,也兼顾了值机区环境,因此其数据处理精度更高。
进一步地,所述将机场安检区的旅客到达数据输入高斯混合模型,得到输出结果,包括:
将单一航空公司的值机区的旅客输出数据输入如下公式所示的高斯混合模型,得到输出结果,所述旅客输出数据包括旅客标识信息及旅客值机时间信息:
Θ={a1,…,ak;u1,σ1,u2,σ2,…,uk,σk}
其中,x={x1,x2,…,xn}表示所述旅客输出数据;ai为各分量的混合系数;ui为单重高斯分布的均值;σi为单重高斯分布标准差;k为混合分布分量个数。
其中X为样本数据的观测值,所谓样本数据观测值,是指旅客到达数据。具体的xn表示单个旅客的到达时间。K的取值是根据聚类结果确定的。聚类得到的分类结果数量即k的取值。可以将值机区的旅客输出数据等同于安检区的旅客到达数据。
进一步地,所述高斯混合模型的确定方式如下:
步骤1、将单一航空公司的值机区的旅客输出样本数据进行聚类分析,得到各类数据独立分布的先验分布参数;
步骤2、将所述先验分布参数以及观测值x代入如下公式,得到观察值x在第i个子高斯分布中的概率p:
步骤3、将所述概率p以及观测值x代入如下公式,重新计算第i个子分布的待估算参数权重ai’、期望ui’、方差σi′:
步骤4、如果同时满足|αj-α'j|≤εα,|uj-u'j|≤εu,|δj-δ'j|≤εδ,则迭代停止,取α'j,u'j,δ'j为最终模型解,否则令αj=α'j,uj=u'j,δj=δ'j,转到步骤2。
进一步地,所述步骤1包括:采用K均值聚类方法,将单一航空公司的值机区的旅客输出样本数据进行聚类分析,得到各类数据独立分布的先验分布参数。
进一步地,所述步骤2包括:采用极值聚类方法,将单一航空公司的值机区的旅客输出样本数据进行聚类分析,得到各类数据独立分布的先验分布参数。
第二方面,本发明提供了一种用于分析机场安检区旅客到达的数据处理装置,包括:
第一数据处理模块,用于将值机区的旅客输出数据输入高斯混合模型,得到输出结果;
第二数据处理模块,用于根据所述输出结果预测所述机场安检区的旅客到达情况,得到旅客到达情况数据;
数据上报模块,用于上报所述旅客到达情况数据,以至少针对机场安检流程进行优化处理。
本发明一种用于分析机场安检区旅客到达的数据处理装置的技术方案为:先通过第一数据处理模块将值机区的旅客输出数据输入高斯混合模型,得到输出结果;然后通过第二数据处理模块,根据所述输出结果预测所述机场安检区的旅客到达情况,得到旅客到达情况数据;最后通过数据上报模块,上报所述旅客到达情况数据,以至少针对机场安检流程进行优化处理。
本发明提供的一种用于分析机场安检区旅客到达的数据处理装置,根据值机区的旅客输出数据,基于高斯混合分布模型进行安检区旅客到达的分析和预测,进而输出预测结果,以进行安检流程优化等后续处理。根据值机区的旅客输出数据进行安检区旅客到达的分析和预测依据,即考虑到了整体离港系统区旅客到达速率,也兼顾了值机区环境,因此其数据处理精度更高。
进一步地,所述第一数据处理模块具体用于:
将单一航空公司的值机区的旅客输出数据输入如下公式所示的高斯混合模型,得到输出结果,所述旅客输出数据包括旅客标识信息及旅客值机时间信息:
Θ={a1,…,ak;u1,σ1,u2,σ2,…,uk,σk}
其中,x={x1,x2,…,xn}表示所述旅客输出数据;ai为各分量的混合系数;ui为单重高斯分布的均值;σi为单重高斯分布标准差;k为混合分布分量个数。
其中X为样本数据的观测值,所谓样本数据观测值,是指旅客到达数据。具体的xn表示单个旅客的到达时间。K的取值是根据聚类结果确定的。聚类得到的分类结果数量即k的取值。可以将值机区的旅客输出数据等同于安检区的旅客到达数据。
进一步地,还包括模型参数拟合模块,用于:
步骤1、将单一航空公司的值机区的旅客输出样本数据进行聚类分析,得到各类数据独立分布的先验分布参数;
步骤2、将所述先验分布参数以及观测值x代入如下公式,得到观察值x在第i个子高斯分布中的概率p:
步骤3、将所述概率p以及观测值x代入如下公式,重新计算第i个子分布的待估算参数权重ai’、期望ui’、方差σi′:
步骤4、如果同时满足|αj-α'j|≤εα,|uj-u'j|≤εu,|δj-δ'j|≤εδ,则迭代停止,取α'j,u'j,δ'j为最终模型解,否则令αj=α'j,uj=u'j,δj=δ'j,转到步骤2。
进一步地,所述模型参数拟合模块具体用于:
采用K均值聚类方法,将单一航空公司的值机区的旅客输出样本数据进行聚类分析,得到各类数据独立分布的先验分布参数。
进一步地,所述模型参数拟合模块具体用于:
采用极值聚类方法,将单一航空公司的值机区的旅客输出样本数据进行聚类分析,得到各类数据独立分布的先验分布参数。
由上述技术方案可知,本发明提供的方法及装置,根据值机区的旅客输出数据,基于高斯混合分布模型进行安检区旅客到达的分析和预测,进而输出预测结果,以进行安检流程优化等后续处理。根据值机区的旅客输出数据进行安检区旅客到达的分析和预测依据,即考虑到了整体离港系统区旅客到达速率,也兼顾了值机区环境,因此其数据处理精度更高。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。
图1示出了本发明第一实施例所提供的一种用于分析机场安检区旅客到达的数据处理方法的流程图;
图2示出了本发明第二实施例所提供的一种用于分析机场安检区旅客到达的数据处理装置的示意图;
图3示出了本发明第三实施例所提供的一种用于分析机场安检区旅客到达的数据处理方法的不同航班分布下旅客到达数据拟合效果图;
图4示出了本发明第三实施例所提供的一种用于分析机场安检区旅客到达的数据处理方法的K means-GMM初验分布图;
图5示出了本发明第三实施例所提供的一种用于分析机场安检区旅客到达的数据处理方法的E value-GMM初验分布图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。
实施例一
图1示出了本发明第一实施例所提供的一种用于分析机场安检区旅客到达的数据处理方法的流程图;如图1所示,本发明提供用于分析机场安检区的旅客到达的数据处理方法,包括:
将机场值机区的旅客输出数据输入高斯混合模型,得到输出结果;
根据输出结果预测机场安检区的旅客到达情况,得到旅客到达情况数据;
上报旅客到达情况数据,以至少针对机场安检流程进行优化处理。
本发明的技术方案为先将机场值机区的旅客输出数据输入高斯混合模型,得到输出结果;然后根据输出结果预测机场安检区的旅客到达情况,得到旅客到达情况数据;最后上报旅客到达情况数据,以至少针对机场安检流程进行优化处理。
本发明提供的用于分析机场安检区的旅客到达的数据处理方法,根据值机区的旅客输出数据,基于高斯混合分布模型进行安检区旅客到达的分析和预测,进而输出预测结果,以进行安检流程优化等后续处理。根据值机区的旅客输出数据进行安检区旅客到达的分析和预测依据,即考虑到了整体离港系统区旅客到达速率,也兼顾了值机区环境,因此其数据处理精度更高。
具体地,将机场安检区的旅客到达数据输入高斯混合模型,得到输出结果,包括:
将单一航空公司的值机区的旅客输出数据输入如下公式所示的高斯混合模型,得到输出结果,旅客输出数据包括旅客标识信息及旅客值机时间信息:
Θ={a1,…,ak;u1,σ1,u2,σ2,…,uk,σk}
其中,x={x1,x2,…,xn}表示旅客输出数据;ai为各分量的混合系数;ui为单重高斯分布的均值;σi为单重高斯分布标准差;k为混合分布分量个数。
其中X为样本数据的观测值,所谓样本数据观测值,是指旅客到达数据。具体的xn表示单个旅客的到达时间。K的取值是根据聚类结果确定的。聚类得到的分类结果数量即k的取值。
具体地,还可以将值机区的旅客输出数据等同于安检区的旅客到达数据。因此,根据上述方法,得到值机区的旅客输出情况,就等同于得到安检区的旅客到达情况。
具体地,旅客到达情况数据可反应不同时间到达人数的分布概率。统计表明大多数旅客到达航站楼进行值机后将直接进入安检区。因此可简单认为值机区域旅客流的输出即为安检区旅客流的到达,故通过值机输出数据的分析可获取安检区域旅客到达规律。本发明中采用高斯混合模型表示机场某航空公司安检区旅客到达规律的概率分布统计,常用的概率密度分布函数包括:高斯分布、伽玛(Gamma)分布、瑞利分布以及爱尔朗(Erlang)分布等,都要求所拟合系数的概率分布具有单峰形式,即只有一个极大值。
但实际应用中,旅客在安检区的到达概率密度分布随时间变化呈多峰形态。在数据分布拟合中很难把这种复杂的多峰分布通过单重的概率分布函数表示出来,因此多重高斯混合分布采用多个单重高斯分布叠加的方法对概率分布函数进行拟合。高斯混合分布能很好地拟合多峰形态的概率分布函数,具有理论分析的可解析性和较强的逼近能力。因此本发明中选用高斯混合分布模型。
具体地,高斯混合模型的确定方式如下:
步骤1、将单一航空公司的值机区的旅客输出样本数据进行聚类分析,得到各类数据独立分布的先验分布参数;
步骤2、将先验分布参数以及观测值x代入如下公式,得到观察值x在第i个子高斯分布中的概率p:
步骤3、将概率p以及观测值x代入如下公式,重新计算第i个子分布的待估算参数权重ai’、期望ui’、方差σi′:
步骤4、如果同时满足|αj-α'j|≤εα,|uj-u'j|≤εu,|δj-δ'j|≤εδ,则迭代停止,取α'j,u'j,δ'j为最终模型解,否则令αj=α'j,uj=u'j,δj=δ'j,转到步骤2。
在两重或两重以上混合高斯分布模型中存在的未知参量较多,且参数估计求解难度较大。常用的参数估计方法主要有:最小二乘法、矩估计法、极大似然估计等方法。运用最小二乘法、矩估计和极大似然方法进行运算产生的都是超越方程组求解繁杂,难以求解估计参数的准确值。为避免传统参数估计方法计算的复杂过程,降低混合模型参数估计难度,选用EM算法从非完整数据中对参数进行最大似然估计,通过循环迭代得到最佳的估计参数值。EM算法具有易收敛、收敛速度块和易于实现的特点。因此,本发明采用EM算法对高斯混合分布密度函数模型进行求解,算法的极大似然估计原则可以通过迭代算法实现。
具体地,步骤1包括:采用K均值聚类方法,将单一航空公司的值机区的旅客输出样本数据进行聚类分析,得到各类数据独立分布的先验分布参数。
在EM算法步骤中需要对初始数据进行聚类运算获取初验分布,目前常用的典型聚类分析方法主要包括:划分方法、层次方法、基于网格的方法、基于密度的方法和基于模型的方法等。k均值聚类划分聚类算法简洁、效率高,因此,本发明中采用k均值聚类进行聚类分析。
具体地,步骤2包括:采用极值聚类方法,将单一航空公司的值机区的旅客输出样本数据进行聚类分析,得到各类数据独立分布的先验分布参数。
极值聚类高斯混合分布(extreme value Gauss mixture model):简称E value-GMM。E value-GMM是指给定一个数据点集合分布服从连续多峰函数f(x),由函数的极小值点对应多峰曲线的谷值,极大值对应多峰曲线的峰值和两个极小值之间必定存在一个极大值,通过两个极小值点对时序段的分割进行数据组的分类,使每个数据分类簇对应的数据分布曲线有且仅有一个极大值。
由于旅客到达数据为已知的多峰形态,采用高斯混合分布进行拟合分析。对旅客到达数据进行聚类分析,本发明采用极值聚类方法法进行聚类分析,得到样本数据的先验分布函数。
具体地,本发明随机选取某航空公司在两个不同航班分布下任意某天的旅客到达概率分布作为数据来源。
实施例二
图2示出了本发明第二实施例所提供的一种用于分析机场安检区旅客到达的数据处理装置的示意图。如图2所示,本发明提供了一种用于分析机场安检区旅客到达的数据处理装置10,包括:
第一数据处理模块101,用于将值机区的旅客输出数据输入高斯混合模型,得到输出结果;
第二数据处理模块102,用于根据输出结果预测机场安检区的旅客到达情况,得到旅客到达情况数据;
数据上报模块103,用于上报旅客到达情况数据,以至少针对机场安检流程进行优化处理。
本发明一种用于分析机场安检区旅客到达的数据处理装置10的技术方案为:先通过第一数据处理模块101,将值机区的旅客输出数据输入高斯混合模型,得到输出结果;然后通过第二数据处理模102,根据输出结果预测机场安检区的旅客到达情况,得到旅客到达情况数据;最后通过数据上报模块103,上报旅客到达情况数据,以至少针对机场安检流程进行优化处理。
本发明提供的一种用于分析机场安检区旅客到达的数据处理装置10,以值机区的旅客输出数据进行安检区旅客到达的分析和预测依据,即考虑到了整体离港系统区旅客到达速率,也兼顾了值机区环境,使数据处理精度更高。
具体地,第一数据处理模块101具体用于:
将单一航空公司的值机区的旅客输出数据输入如下公式所示的高斯混合模型,得到输出结果,旅客输出数据包括旅客标识信息及旅客值机时间信息:
Θ={a1,…,ak;u1,σ1,u2,σ2,…,uk,σk}
其中,x={x1,x2,…,xn}表示旅客输出数据;ai为各分量的混合系数;ui为单重高斯分布的均值;σi为单重高斯分布标准差;k为混合分布分量个数。
其中X为样本数据的观测值,所谓样本数据观测值,是指旅客到达数据。具体的xn表示单个旅客的到达时间。K的取值是根据聚类结果确定的。聚类得到的分类结果数量即k的取值。
具体地,还可以将值机区的旅客输出数据等同于安检区的旅客到达数据。因此,根据上述方法,得到值机区的旅客输出情况,就等同于得到安检区的旅客到达情况。
具体地,旅客到达情况数据可反应不同时间到达人数的分布概率。统计表明大多数旅客到达航站楼进行值机后将直接进入安检区。因此可简单认为值机区域旅客流的输出即为安检区旅客流的到达,故通过值机输出数据的分析可获取安检区域旅客到达规律。本发明中采用高斯混合模型表示机场某航空公司安检区旅客到达规律的概率分布统计,常用的概率密度分布函数包括:高斯分布、伽玛(Gamma)分布、瑞利分布以及爱尔朗(Erlang)分布等,都要求所拟合系数的概率分布具有单峰形式,即只有一个极大值。
但实际应用中,旅客在安检区的到达概率密度分布随时间变化呈多峰形态。在数据分布拟合中很难把这种复杂的多峰分布通过单重的概率分布函数表示出来,因此多重高斯混合分布采用多个单重高斯分布叠加的方法对概率分布函数进行拟合。高斯混合分布能很好地拟合多峰形态的概率分布函数,具有理论分析的可解析性和较强的逼近能力。因此,本发明中选用高斯混合分布模型。
具体地,还包括模型参数拟合模块104,用于:
步骤1、将单一航空公司的值机区的旅客输出样本数据进行聚类分析,得到各类数据独立分布的先验分布参数;
步骤2、将先验分布参数以及观测值x代入如下公式,得到观察值x在第i个子高斯分布中的概率p:
步骤3、将概率p以及观测值x代入如下公式,重新计算第i个子分布的待估算参数权重ai’、期望ui’、方差σi′:
步骤4、如果同时满足|αj-α'j|≤εα,|uj-u'j|≤εu,|δj-δ'j|≤εδ,则迭代停止,取α'j,u'j,δ'j为最终模型解,否则令αj=α'j,uj=u'j,δj=δ'j,转到步骤2。
在两重或两重以上混合高斯分布模型中存在的未知参量较多,且参数估计求解难度较大。常用的参数估计方法主要有:最小二乘法、矩估计法、极大似然估计等方法。运用最小二乘法、矩估计和极大似然方法进行运算产生的都是超越方程组求解繁杂,难以求解估计参数的准确值。为避免传统参数估计方法计算的复杂过程,降低混合模型参数估计难度,选用EM算法从非完整数据中对参数进行最大似然估计,通过循环迭代得到最佳的估计参数值。EM算法具有易收敛、收敛速度块和易于实现的特点。因此,本发明采用EM算法对高斯混合分布密度函数模型进行求解,算法的极大似然估计原则可以通过迭代算法实现。
具体地,模型参数拟合模块104具体用于:
采用K均值聚类方法,将单一航空公司的值机区的旅客输出样本数据进行聚类分析,得到各类数据独立分布的先验分布参数。
在EM算法步骤中需要对初始数据进行聚类运算获取初验分布,目前常用的典型聚类分析方法主要包括:划分方法、层次方法、基于网格的方法、基于密度的方法和基于模型的方法等。k均值聚类划分聚类算法简洁、效率高,因此,本发明中采用k均值聚类进行聚类分析。
具体地,模型参数拟合模块104具体用于:
采用极值聚类方法,将单一航空公司的值机区的旅客输出样本数据进行聚类分析,得到各类数据独立分布的先验分布参数。
极值聚类高斯混合分布(extreme value Gauss mixture model):简称E value-GMM。E value-GMM是指给定一个数据点集合分布服从连续多峰函数f(x),由函数的极小值点对应多峰曲线的谷值,极大值对应多峰曲线的峰值和两个极小值之间必定存在一个极大值,通过两个极小值点对时序段的分割进行数据组的分类,使每个数据分类簇对应的数据分布曲线有且仅有一个极大值。
由于旅客到达数据为已知的多峰形态,采用高斯混合分布进行拟合分析。对旅客到达数据进行聚类分析,本发明采用极值聚类方法法进行聚类分析,得到样本数据的先验分布函数。
具体地,本发明随机选取某航空公司在两个不同航班分布下任意某天的旅客到达概率分布作为数据来源。
实施例三
对于本发明实施例一中的一种用于分析机场安检区旅客到达的数据处理方法进行了MATLAB软件仿真,选取实验的软硬件环境为:Matlab7.12.0PentiumⅣ3.6GHz CPU,2GB内存。针对安检旅客到达的高斯混合分布研究,这里随机选取某航空公司在两个不同航班分布下任意某天的旅客到达概率分布作为数据来源。
图3示出了本发明第三实施例所提供的一种用于分析机场安检区旅客到达的数据处理方法的不同航班分布下旅客到达数据拟合效果图;如图3所示,为通过常用拟合函数与GMM拟合效果对比;运用MATLAB的核密度函数得到两个不同航班分布下随机某天安检区旅客到达的概率密度分布x1和x2。采用高斯混合分布,伽马分布,瑞利分布等常用的数据拟合函数对不同航班分布下不同时间段旅客到达数据进行拟合分析,得到的拟合图像如图3所示。
一般情况下用拟合优度来衡量模型拟合值和真实值之间的差值,度量拟合优度的统计量可以是可决系数(亦称确定系数)R2、残差平方和、相关系数等。由于可决系数R2为综合度量回归模型对样本观测值拟合优度的度量指标,在这里我们选取可决系数R2作为检验拟合优度的指标。
定义可决系数R2:
RSS为回归平方和;TSS为总变差;ESS为残差平方和;
R2的取值范围是[0,1]。对于一组数据,TSS是不变的,所以RSS值变大时,R2值变大,ESS值变小时,R2值变大。拟合优度R2值越小,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。
将上述拟合函数与实际到达数据进行拟合优度分析得到的可决系数R2值如表1所示:
表1拟合函数关系式及可决系数R2表
由于GMM是由多个单重高斯分布组合而成的函数式,能够依据单重高斯分布的参数调整很好地拟合数据曲线的多峰形态;一般常用拟合函数相对与高斯混合分布函数形态较为单一、有且仅有一个峰值、仅能对单峰数据曲线进行参数调整。由于高斯混合分布形态的多样性,因此采用高斯混合分布模型获得函数关系式的拟合优度在90%以上,能很好地拟合安检区的旅客到达分布,与一般常用的拟合函数相比拟合优度提高了15%以上。
图4示出了本发明第三实施例所提供的一种用于分析机场安检区旅客到达的数据处理方法的K means-GMM初验分布图;图5示出了本发明第三实施例所提供的一种用于分析机场安检区旅客到达的数据处理方法的E value-GMM初验分布图。如图4所示,为K means-GMM初验分布图,如图5所示,为E value-GMM初验分布图;将两个图进行对比,
运用MATLAB的核密度函数得到不同航班分布下安检区旅客到达的概率密度分布如图4和图5所示的x1和x2数据所示,图4中1、2数据曲线为不同航班分布下采用常用Kmeans-GMM的初验分布数据簇曲线,图5中1、2和1、2、3为不同航班分布下采用E value-GMM的初验分布数据簇曲线。
通过k means初验分布如图4所示,从初验分布的数据簇中可得到高斯混合分布的函数关系式为:
通过E value-GMM初验分布如图5所示,从初验分布的数据簇中可得到高斯混合分布的函数关系式为:
运用MATLAB编写EM求解迭代算法,对各数据簇的初验分布参数进行迭代运算,得到GMM的参数估计值。采用定义3中可决系数R2值衡量拟合函数的拟合优度,计算所得数据如表2所示:
表2K means-GMM与E value-GMM拟合优度表
综上所述:E value-GMM多适用于分峰比较明显的数据拟合。对于机场航班旅客到达规律的研究中由于计划航班时刻的安排,存在一些分峰不明显的情况,在K means聚类分析时会使分类不够细致导致得到的拟合函数存在一定误差。在E value-GMM中,对分峰不够明显的情况可以很好地获取聚类。因此根据可决系数拟合优度值表明:采用GMM获得函数关系式的拟合优度均在90%以上,能很好地拟合安检区的旅客到达分布。在分峰不明显的情况下,采用E value-GMM的拟合精度比K means-GMM的拟合精度R2提高了5%左右,提高了模型的拟合优度。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
本文运用高斯混合分布模型对某航空公司安检区旅客到达分布进行拟合分析。采用极值聚类的方法获取EM求解算法的初验分布,经过多次迭代后求得参数解。在实验环节采用某航空公司真实的值机输出数据进行实验验证,结果表明GMM对单航班安检区旅客到达分布的拟合精度达到90%以上,比一般常用拟合方法拟合精度提高了15%以上。在分峰不明显的情况下,E value-GMM与K means-GMM拟合精度相比提高了5%左右。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (10)
1.一种用于分析机场安检区旅客到达的数据处理方法,其特征在于,包括:
将机场值机区的旅客输出数据输入高斯混合模型,得到输出结果;
根据所述输出结果预测所述机场安检区的旅客到达情况,得到旅客到达情况数据;
上报所述旅客到达情况数据,以至少针对机场安检流程进行优化处理。
2.根据权利要求1所述的方法,其特征在于,所述将机场安检区的旅客到达数据输入高斯混合模型,得到输出结果,包括:
将单一航空公司的值机区的旅客输出数据输入如下公式所示的高斯混合模型,得到输出结果,所述旅客输出数据包括旅客标识信息及旅客值机时间信息:
其中,x={x1,x2,…,xn}表示所述旅客输出数据;ai为各分量的混合系数;ui为单重高斯分布的均值;σi为单重高斯分布标准差;k为混合分布分量个数。
3.根据权利要求2所述的方法,其特征在于,所述高斯混合模型的确定方式如下:
步骤1、将单一航空公司的值机区的旅客输出样本数据进行聚类分析,得到各类数据独立分布的先验分布参数;
步骤2、将所述先验分布参数以及观测值x代入如下公式,得到观察值x在第i个子高斯分布中的概率p:
步骤3、将所述概率p以及观测值x代入如下公式,重新计算第i个子分布的待估算参数权重ai’、期望ui’、方差σi′:
步骤4、如果同时满足|αj-α'j|≤εα,|uj-u'j|≤εu,|δj-δj'|≤εδ,则迭代停止,取α'j,u'j,δ′j为最终模型解,否则令αj=α'j,uj=u'j,δj=δ′j,转到步骤2。
4.根据权利要求3所述的方法,其特征在于,所述步骤1包括:
采用K均值聚类方法,将单一航空公司的值机区的旅客输出样本数据进行聚类分析,得到各类数据独立分布的先验分布参数。
5.根据权利要求4所述的方法,其特征在于,所述步骤2包括:
采用极值聚类方法,将单一航空公司的值机区的旅客输出样本数据进行聚类分析,得到各类数据独立分布的先验分布参数。
6.一种用于分析机场安检区旅客到达的数据处理装置,其特征在于,包括:
第一数据处理模块,用于将值机区的旅客输出数据输入高斯混合模型,得到输出结果;
第二数据处理模块,用于根据所述输出结果预测所述机场安检区的旅客到达情况,得到旅客到达情况数据;
数据上报模块,用于上报所述旅客到达情况数据,以至少针对机场安检流程进行优化处理。
7.根据权利要求6所述的装置,其特征在于,所述第一数据处理模块具体用于:
将单一航空公司的值机区的旅客输出数据输入如下公式所示的高斯混合模型,得到输出结果,所述旅客输出数据包括旅客标识信息及旅客值机时间信息:
其中,x={x1,x2,…,xn}表示所述旅客输出数据;ai为各分量的混合系数;ui为单重高斯分布的均值;σi为单重高斯分布标准差;k为混合分布分量个数。
8.根据权利要求7所述的装置,其特征在于,还包括模型参数拟合模块,用于:
步骤1、将单一航空公司的值机区的旅客输出样本数据进行聚类分析,得到各类数据独立分布的先验分布参数;
步骤2、将所述先验分布参数以及观测值x代入如下公式,得到观察值x在第i个子高斯分布中的概率p:
步骤3、将所述概率p以及观测值x代入如下公式,重新计算第i个子分布的待估算参数权重ai’、期望ui’、方差σi′:
步骤4、如果同时满足|αj-α'j|≤εα,|uj-u'j|≤εu,|δj-δ′j'|≤εδ,则迭代停止,取α'j,u'j,δ′j为最终模型解,否则令αj=α'j,uj=u'j,δj=δ′j,转到步骤2。
9.根据权利要求8所述的装置,其特征在于,所述模型参数拟合模块具体用于:
采用K均值聚类方法,将单一航空公司的值机区的旅客输出样本数据进行聚类分析,得到各类数据独立分布的先验分布参数。
10.根据权利要求8所述的装置,其特征在于,所述模型参数拟合模块具体用于:
采用极值聚类方法,将单一航空公司的值机区的旅客输出样本数据进行聚类分析,得到各类数据独立分布的先验分布参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610607353.7A CN106295854A (zh) | 2016-07-28 | 2016-07-28 | 用于分析机场安检区的旅客到达的数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610607353.7A CN106295854A (zh) | 2016-07-28 | 2016-07-28 | 用于分析机场安检区的旅客到达的数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106295854A true CN106295854A (zh) | 2017-01-04 |
Family
ID=57663112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610607353.7A Pending CN106295854A (zh) | 2016-07-28 | 2016-07-28 | 用于分析机场安检区的旅客到达的数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106295854A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805347A (zh) * | 2018-06-05 | 2018-11-13 | 北方工业大学 | 基于客流池的地铁站外关联区域客流估计方法 |
CN110059668A (zh) * | 2019-04-29 | 2019-07-26 | 中国民用航空总局第二研究所 | 行为预测处理方法、装置及电子设备 |
CN110751329A (zh) * | 2019-10-17 | 2020-02-04 | 中国民用航空总局第二研究所 | 一种机场安检通道的控制方法、装置、电子设备及存储介质 |
CN111241162A (zh) * | 2020-01-16 | 2020-06-05 | 同济大学 | 高速铁路成网条件下旅客出行行为分析方法及存储介质 |
CN111832929A (zh) * | 2020-07-09 | 2020-10-27 | 民航成都信息技术有限公司 | 一种机场值机的动态调度方法及系统 |
-
2016
- 2016-07-28 CN CN201610607353.7A patent/CN106295854A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805347A (zh) * | 2018-06-05 | 2018-11-13 | 北方工业大学 | 基于客流池的地铁站外关联区域客流估计方法 |
CN108805347B (zh) * | 2018-06-05 | 2021-11-23 | 北方工业大学 | 基于客流池的地铁站外关联区域客流估计方法 |
CN110059668A (zh) * | 2019-04-29 | 2019-07-26 | 中国民用航空总局第二研究所 | 行为预测处理方法、装置及电子设备 |
CN110751329A (zh) * | 2019-10-17 | 2020-02-04 | 中国民用航空总局第二研究所 | 一种机场安检通道的控制方法、装置、电子设备及存储介质 |
CN111241162A (zh) * | 2020-01-16 | 2020-06-05 | 同济大学 | 高速铁路成网条件下旅客出行行为分析方法及存储介质 |
CN111832929A (zh) * | 2020-07-09 | 2020-10-27 | 民航成都信息技术有限公司 | 一种机场值机的动态调度方法及系统 |
CN111832929B (zh) * | 2020-07-09 | 2023-12-12 | 民航成都信息技术有限公司 | 一种机场值机的动态调度方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106295854A (zh) | 用于分析机场安检区的旅客到达的数据处理方法及装置 | |
CN105373840B (zh) | 代驾订单预测方法和代驾运力调度方法 | |
CN103942623B (zh) | 一种基于需求与容量不确定性的机场拥挤风险预测方法 | |
CN107230392A (zh) | 基于改进aco算法的枢纽机场停机位的优化分配方法 | |
CN103984994B (zh) | 一种城市轨道交通客流高峰持续时间预测方法 | |
CN103489335B (zh) | 一种多目标优化的飞行冲突解脱方法 | |
CN101582203B (zh) | 一种空域运行仿真中飞行流引擎的实现系统及方法 | |
CN104916124B (zh) | 基于马尔可夫模型的公共自行车系统调控方法 | |
CN101964061B (zh) | 一种基于二类核函数支持向量机的车型识别方法 | |
CN108564228A (zh) | 一种基于时序特征预测轨道交通od客流量的方法 | |
CN106339358A (zh) | 基于多元回归分析的航空器场面滑行时间预测方法 | |
Du et al. | Traffic events oriented dynamic traffic assignment model for expressway network: a network flow approach | |
CN109658741A (zh) | 一种扇区短时流量预测方法及系统 | |
CN104795063A (zh) | 一种基于声学空间非线性流形结构的声学模型构建方法 | |
Le et al. | A generalised data analysis approach for baggage handling systems simulation | |
CN107316096A (zh) | 一种轨道交通一票通乘客进站量预测方法 | |
Bao | A multi-index fusion clustering strategy for traffic flow state identification | |
CN106157699A (zh) | 高密度机场飞行区航空器滑行态势感知方法 | |
Yu et al. | On the chaos analysis and prediction of aircraft accidents based on multi-timescales | |
CN109961085B (zh) | 基于贝叶斯估计的航班延误预测模型的建立方法及装置 | |
CN102521202B (zh) | 面向复杂系统中的maxq任务图结构的自动发现方法 | |
Zhang et al. | Network-wide link travel time and station waiting time estimation using automatic fare collection data: A computational graph approach | |
CN104091211A (zh) | 一种电动汽车充电电价制定的综合决策方法 | |
Xu et al. | Short-term Passenger Flow Forecasting of the Airport Based on Deep Learning Spatial-temporal Network | |
Ji et al. | Train delays prediction based on feature selection and random forest |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170104 |
|
RJ01 | Rejection of invention patent application after publication |