CN112365023A - 基于机器学习的机场群体性事件预测及预警方法 - Google Patents
基于机器学习的机场群体性事件预测及预警方法 Download PDFInfo
- Publication number
- CN112365023A CN112365023A CN202011063333.0A CN202011063333A CN112365023A CN 112365023 A CN112365023 A CN 112365023A CN 202011063333 A CN202011063333 A CN 202011063333A CN 112365023 A CN112365023 A CN 112365023A
- Authority
- CN
- China
- Prior art keywords
- data
- flight
- class
- group event
- random forest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000010801 machine learning Methods 0.000 title claims abstract description 21
- 238000007637 random forest analysis Methods 0.000 claims abstract description 30
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000012360 testing method Methods 0.000 claims abstract description 17
- 238000005070 sampling Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 239000000203 mixture Substances 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 239000003086 colorant Substances 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 7
- 238000007619 statistical method Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000001737 promoting effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 206010049976 Impatience Diseases 0.000 description 1
- 208000001431 Psychomotor Agitation Diseases 0.000 description 1
- 206010038743 Restlessness Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B21/00—Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
- G08B21/18—Status alarms
- G08B21/182—Level alarms, e.g. alarms responsive to variables exceeding a threshold
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B5/00—Visible signalling systems, e.g. personal calling systems, remote indication of seats occupied
- G08B5/22—Visible signalling systems, e.g. personal calling systems, remote indication of seats occupied using electric transmission; using electromagnetic transmission
- G08B5/36—Visible signalling systems, e.g. personal calling systems, remote indication of seats occupied using electric transmission; using electromagnetic transmission using visible light sources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Evolutionary Computation (AREA)
- Fuzzy Systems (AREA)
- General Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Emergency Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Electromagnetism (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了基于机器学习的机场群体性事件预测及预警方法,包括数据预处理;对原始数据中乘机原因进行独热编码,转化成数值类型特征,并将数据划分成训练集和测试集;对一个航班的数据进行高斯混合聚类;设置随机森林中树的个数和学习率的大小,对训练集进行自助采样,用于训练随机森林回归算法;对于一个航班的乘客进行预测,对随机森林和高斯混合聚类的预测值进行线性加权,对所有的预测值相加,得到该航班群体性事件的预测人数;对该预测人数进行事件等级评估,并警示。
Description
技术领域
本发明属于动作检测技术领域,涉及一种基于机器学习的机场群体性事件预测及预警方法。
背景技术
机场群体性事件是指公民为了满足自身的利益需求,通过非法聚集、围堵等方式表达意愿、严重扰乱机场秩序,危害乘客、机场公共安全。机场群体性事件预测与预警是通过处理收集的数据,结合恰当的模型算法,预测未来航班群体性事件人数,并做出预测,有助于更早的为机场决策者和管理者提供建议和预警,更早地采取预防和准备措施,防患于未然,减少群体性事件发生的概率。近年来国民经济不断发展,航空运输量迅猛增长,航班延误问题严重,由航班延误引起的机场群体性事件时有发生,呈上升趋势,航空运输服务投诉量猛增,成为公共关注的焦点。航班延误纠纷引发的群体性事件,破坏机场正常秩序,不利于航空业经济增长效益,威胁民用航空安全,危害性很大,已演变成为一个社会问题,因此机场群体性事件的预测与预警起到了很重要的作用,有助于减少群体性事件的发生,维护社会和谐稳定的氛围,减少经济损失。
机场群体性事件预测与预警主要有数据的统计分析模糊综合评价技术、主成分分析法、层次分析法、贝叶斯网络的应急预测算法、经验统计分析、决策树、灰色理论实现灰色预测、神经网络算法。目前大多研究都集中于研究群体性事件预警机制体制建设和相关指标构建领域,针对基于机器学习技术的群体性事件分析和预警的研究难觅踪影,甚至利用大数据相关分析技术的群体性事件预警研究也是比较少,将机器学习技术引入群体性事件分析预测还是相对空缺。
发明内容
本发明主要考虑近年来,随着民航运输量的增加,机场群体性事件不断增加,如何积极预测、预警,对妥善处理机场群体性事件、保证航空运输安全、消除不安定因素、改善服务工作、促进社会和谐起到了重要的作用、为社会创造更多的价值。
机场群体性事件绝大多数是由航班延误、航空管制等原因一起的,本文处理的数据的维度主要有航班预定起飞时间、航班真正起飞时间、航班预定降落时间、航班真正降落时间、客流量、乘客年龄、乘机原因,是否参与群体性事件作为数据标签。一般情况下群体性事件的发生主要与航班延误有关,旅客碰到航班延误,如果信息不灵,着急烦躁,心神不宁,往往与航空公司的工作人员发生冲突,进而引发成群体性事件,破坏机场的正常秩序。不同年龄的乘客在发生航班延迟时的态度和耐心也是不一样的,不同的乘机原因(出国留学、参加会议、经商、旅行等等)也会造成乘客对航班延误的态度和进而所采取的措施,而且一般机场群体性事件跟机场客流量的大小也有关系,机场客流量越大,越容易发生群体性事件。
在以往的机场群体性事件预警方法中,主要都是通过定性分析或简单的定量分析方法实现预测,这些方法模型无法从机场海量的数据中挖掘出有效的信息,相对缺乏科学可靠的数据事实作为支撑。大数据技术方兴未艾,尤其是机器学习技术高速发展,为各个领域的科学预测和先期预警带来了新的契机。机器学习通过利用计算机模拟实现人类的学习行为,不断获取新的知识技能,并不断组织知识结构,实现了各行各业的“人工智能化”,尤其是针对互联网行业的发展起到巨大推动作用。利用群体性事件的相关数据,创新性地将机器学习中的随机森林和高斯混合聚类引入群体性事件预测预警领域,颠覆了针对群体性事件的传统统计分析方法。从社会科学和自然科学的双重视角出发,我们利用机器学习技术科学预测群体性事件。这对机场相关部门、民航、政府在处置群体性事件过程中科学决策、有效预防和快速反应具有重要指导意义、提供重要的建议。
为实现上述目的,本发明的技术方案为基于机器学习的机场群体性事件预测及预警方法,包括以下步骤:
S10,数据预处理:将数据中不合理的数据剔除;
S20,对原始数据中乘机原因进行独热编码,转化成数值类型特征,并将数据划分成训练集和测试集;
S30,对一个航班的数据进行高斯混合聚类:聚类数量分为两类,一类是没有参与群体性事件的乘客数据,另一类是参与群体性事件的乘客数据,统计每类内的真正标签,如果该类内参与群体性事件的乘客多,则该类设为群体性事件类,如果该类内没有参与群体性事件的乘客多,则该类设为没有参与群体性事件类;
S40,设置随机森林中树的个数和学习率的大小,对训练集进行自助采样,用于训练随机森林回归算法;
S50,对于一个航班的乘客进行预测,对随机森林和高斯混合聚类的预测值进行线性加权,随机森林的权重设为0.6,高斯混合聚类的权重设为0.4,将每一个乘客的数据输入进行预测,得到一个0-1之间的数,如果得到0-1之外的数,就近取舍,对所有的预测值相加,得到该航班群体性事件的预测人数;
S60,对该预测人数进行事件等级评估,划分为无警、轻警、中警、巨警4 个等级来表示,同时用蓝、绿、黄、红4种颜色来做警示。
优选地,所述不合理的数据包括空缺的数据、超范围的数据和不符合类型的数据。
优选地,所述对原始数据中乘机原因进行独热编码,转化成数值类型特征:由航班预定起飞时间、航班真正起飞时间计算航班起飞延误时间,将时间戳转化为float类型;由航班预定降落时间、航班真正降落时间计算航班降落延误时间,将时间戳转化为float类型。
优选地,所述S30中还对于测试集计算测试数据和两类的高斯均值向量的欧式距离,距离哪类近,该测试样本的预测类就是该均值向量对应的类。
优选地,所述S40中,改进随机森林训练过程中随机属性的选择问题,采用一个指数衰减的方法来选择随机属性的数量,假设该节点有k个属性,则选择的随机属性数量为并选择出最有的属性划分,对测试集并进行预测,评估算法性能。
本发明提出了一种基于机器学习的机场群体性事件预测及预警方法,随着民航运输量的增加,机场群体性事件不断增加,积极预测、预警,对妥善处理机场群体性事件、保证航空运输安全、消除不安定因素、改善服务工作、促进社会和谐稳定起到了重要的作用、为人民提供更好的服务,为社会创造更多的经济价值。
将改进随机森林回归算法与高斯混合聚类算法融为一体,大大提供了预测精度和准确率,性能方面优于传统的统计分析方法,且随机森林回归算法与高斯混合聚类算法适用于机场海量的大数据分析中,能够挖掘出更多的有效信息。
该方法更加鲁棒高效,能适合机场中复杂的场景,随着相关开源软件 python-sklearn、spark-mllib等出现,越来越容易部署机器学习算法,相较于传统的简单统计分析和线性回归方法,本方法展现出强大的性能。至少还有如下具体有益效果:
(1)在于将随集成学习中的机森林回归算法与高斯混合聚类算法融为一体,用改进的方法决定节点随机属性的数量,增加随机森林的准确度和减少训练收敛时间,并对信息增益公式施加扰动,随机森林算法会更加鲁棒;
(2)创新性的使用高斯混合聚类对去标签后的数据进行聚类处理,可以达到更好的效果。
附图说明
图1为本发明方法实施例的基于机器学习的机场群体性事件预测及预警方法的步骤流程图;
图2为本发明方法实施例的基于机器学习的机场群体性事件预测及预警方法的高斯混合聚类预测流程图;
图3为本发明方法实施例的基于机器学习的机场群体性事件预测及预警方法的随机森林预测流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
本发明首先进行以下定义及说明:
python-sklearn:Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,包括回归、降维、分类、聚类等方法。
spark-mllib:MLlib是Spark提供的可扩张的机器学习库。MLlib中已经包含了一些通用的学习算法和工具,如:分类、回归、聚类、协同过滤、降维以及底层的优化等算法和工具。
信息熵:变量的变动程度和无序程度。
集成学习:组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正过来,达到减少误差、偏差或改进预测的效果。
有放回自助采样:在随机森林算法中,需要训练多个学习器,每个学习器需要一组训练数据,从原数据中有放回采样出和原数据相等的数据量。
参见图1,为本发明实施例的本发明的技术方案为基于机器学习的机场群体性事件预测及预警方法的步骤流程图,包括以下步骤:
S10,数据预处理:将数据中不合理的数据剔除;
S20,对原始数据中乘机原因进行独热编码,转化成数值类型特征,并将数据划分成训练集和测试集;
S30,对一个航班的数据进行高斯混合聚类:聚类数量分为两类,一类是没有参与群体性事件的乘客数据,另一类是参与群体性事件的乘客数据,统计每类内的真正标签,如果该类内参与群体性事件的乘客多,则该类设为群体性事件类,如果该类内没有参与群体性事件的乘客多,则该类设为没有参与群体性事件类;
S40,设置随机森林中树的个数和学习率的大小,对训练集进行自助采样,用于训练随机森林回归算法;
S50,对于一个航班的乘客进行预测,对随机森林和高斯混合聚类的预测值进行线性加权,随机森林的权重设为0.6,高斯混合聚类的权重设为0.4,将每一个乘客的数据输入进行预测,得到一个0-1之间的数,如果得到0-1之外的数,就近取舍,对所有的预测值相加,得到该航班群体性事件的预测人数;
S60,对该预测人数进行事件等级评估,划分为无警、轻警、中警、巨警4 个等级来表示,同时用蓝、绿、黄、红4种颜色来做警示。
具体实施例中,图2、3为高斯混合聚类预测流程图和随机森林预测流程图。
S10,数据预处理阶段:将数据中不合理的数据剔除,比如空缺的数据、超范围的数据、不符合类型的数据等。
S20,对原始数据中乘机原因进行独热编码,转化成数值类型特征。由航班预定起飞时间、航班真正起飞时间计算航班起飞延误时间,将时间戳转化为 float类型,由航班预定降落时间、航班真正降落时间计算航班降落延误时间,将时间戳转化为float类型,并将数据划分成训练集和测试集。
S30,对一个航班的数据进行高斯混合聚类,高斯概率密度函数、高斯混合分布见公式(1)、(2),其中x为样本,μ为均值向量,∑为协方差矩阵,αi为各类高斯概率密度函数的权重,聚类数量分为两类,一类是没有参与群体性事件的乘客数据,另一类是参与群体性事件的乘客数据,统计每类内的真正标签,如果该类内参与群体性事件的乘客多,则该类设为群体性事件类,如果该类内没有参与群体性事件的乘客多,则该类设为没有参与群体性事件类。对于测试集,计算测试数据和两类的高斯均值向量的欧式距离,欧式距离公式为:其中xi是第i个样本,xj是第j个样本,xiu是第i个样本的第u维向量,xju是第j个样本的第u维向量,距离哪类近,该测试样本的预测类就是该均值向量对应的类。
其中式(1)中T指转置,n指向量的维度,式(2)中μi指第i个高斯密度函数对应的均值向量,∑i指第i个高斯密度函数对应的协方差矩阵。
S40,设置随机森林中树的个数,学习率的大小,对训练集进行有放回自助采样,用于训练随机森林回归算法,这里改进随机森林训练过程中随机属性的选择问题,采用一个指数衰减的方法来选择随机属性的数量,假设该节点有k个属性,则选择的随机属性数量为信息熵公式为(3),为了使决策树算法更加鲁棒,泛化能力更强,对传统的信息增益进行改进,信息增益公式变为(4),对信息增益公式施加扰动,并选择出使信息增益最大的的属性作为最优的属性来划分,对测试集并进行预测,评估算法性能。
其中y指种类的数量,pk是是第k类的概率,D是数据集,V是属性a对应的值的数量,ε是很小的扰动量,可通过实验设置ε;
S50,对于一个航班的乘客进行预测,对随机森林和高斯混合聚类的预测值进行线性加权,随机森林的权重设为0.6,高斯混合聚类的权重设为0.4,最终的预测值y=0.6y1+0.4y2,是否会发生群体性事件,将每一个乘客的数据输入到模型中进行预测,会得到一个0-1之间的数,如果得到0-1之外的数,就近取舍,对所有的预测值相加,得到该航班群体性事件的预测人数;
S60,对该预测人数进行事件等级评估,可划分为无警、轻警、中警、巨警4个等级来表示,同时用蓝、绿、黄、红4种颜色来做警示,达到警示的效果。
Claims (5)
1.基于机器学习的机场群体性事件预测及预警方法,其特征在于,包括以下步骤:
S10,数据预处理:将数据中不合理的数据剔除;
S20,对原始数据中乘机原因进行独热编码,转化成数值类型特征,并将数据划分成训练集和测试集;
S30,对一个航班的数据进行高斯混合聚类:聚类数量分为两类,一类是没有参与群体性事件的乘客数据,另一类是参与群体性事件的乘客数据,统计每类内的真正标签,如果该类内参与群体性事件的乘客多,则该类设为群体性事件类,如果该类内没有参与群体性事件的乘客多,则该类设为没有参与群体性事件类;
S40,设置随机森林中树的个数和学习率的大小,对训练集进行自助采样,用于训练随机森林回归算法;
S50,对于一个航班的乘客进行预测,对随机森林和高斯混合聚类的预测值进行线性加权,随机森林的权重设为0.6,高斯混合聚类的权重设为0.4,将每一个乘客的数据输入进行预测,得到一个0-1之间的数,如果得到0-1之外的数,就近取舍,对所有的预测值相加,得到该航班群体性事件的预测人数;
S60,对该预测人数进行事件等级评估,划分为无警、轻警、中警、巨警4个等级来表示,同时用蓝、绿、黄、红4种颜色来做警示。
2.根据权利要求1所述的方法,其特征在于,所述不合理的数据包括空缺的数据、超范围的数据和不符合类型的数据。
3.根据权利要求1所述的方法,其特征在于,所述对原始数据中乘机原因进行独热编码,转化成数值类型特征:由航班预定起飞时间、航班真正起飞时间计算航班起飞延误时间,将时间戳转化为float类型;由航班预定降落时间、航班真正降落时间计算航班降落延误时间,将时间戳转化为float类型。
4.根据权利要求1所述的方法,其特征在于,所述S30中还对于测试集计算测试数据和两类的高斯均值向量的欧式距离,距离哪类近,该测试样本的预测类就是该均值向量对应的类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011063333.0A CN112365023A (zh) | 2020-09-30 | 2020-09-30 | 基于机器学习的机场群体性事件预测及预警方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011063333.0A CN112365023A (zh) | 2020-09-30 | 2020-09-30 | 基于机器学习的机场群体性事件预测及预警方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112365023A true CN112365023A (zh) | 2021-02-12 |
Family
ID=74508307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011063333.0A Pending CN112365023A (zh) | 2020-09-30 | 2020-09-30 | 基于机器学习的机场群体性事件预测及预警方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112365023A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836893A (zh) * | 2021-02-26 | 2021-05-25 | 上海海事大学 | 一种基于海况条件和船舶航行状况预测恶劣海况下船舶油耗的方法 |
CN115115079A (zh) * | 2021-03-23 | 2022-09-27 | 中国科学院国家空间科学中心 | 一种基于集成学习的太阳质子事件短期预报方法 |
CN117037427A (zh) * | 2023-08-23 | 2023-11-10 | 旺苍县地质环境监测站 | 一种地质灾害联网监测预警系统 |
CN118627933A (zh) * | 2024-08-02 | 2024-09-10 | 中国民用航空总局第二研究所 | 一种机场群体性事件发展阶段的预测方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108475393A (zh) * | 2016-01-27 | 2018-08-31 | 华为技术有限公司 | 通过合成特征和梯度提升决策树进行预测的系统和方法 |
US20190272887A1 (en) * | 2018-03-05 | 2019-09-05 | The Board Of Trustees Of The Leland Stanford Junior University | Machine Learning and Molecular Simulation Based Methods for Enhancing Binding and Activity Prediction |
CN110503249A (zh) * | 2019-08-07 | 2019-11-26 | 国网河北省电力有限公司 | 一种由停电引起的投诉预测方法 |
CN110503245A (zh) * | 2019-07-30 | 2019-11-26 | 南京航空航天大学 | 一种机场航班大面积延误风险的预测方法 |
CN111462485A (zh) * | 2020-03-31 | 2020-07-28 | 电子科技大学 | 一种基于机器学习的交通路口拥堵的预测方法 |
CN111641608A (zh) * | 2020-05-18 | 2020-09-08 | 咪咕动漫有限公司 | 异常用户识别方法、装置、电子设备及存储介质 |
-
2020
- 2020-09-30 CN CN202011063333.0A patent/CN112365023A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108475393A (zh) * | 2016-01-27 | 2018-08-31 | 华为技术有限公司 | 通过合成特征和梯度提升决策树进行预测的系统和方法 |
US20190272887A1 (en) * | 2018-03-05 | 2019-09-05 | The Board Of Trustees Of The Leland Stanford Junior University | Machine Learning and Molecular Simulation Based Methods for Enhancing Binding and Activity Prediction |
CN110503245A (zh) * | 2019-07-30 | 2019-11-26 | 南京航空航天大学 | 一种机场航班大面积延误风险的预测方法 |
CN110503249A (zh) * | 2019-08-07 | 2019-11-26 | 国网河北省电力有限公司 | 一种由停电引起的投诉预测方法 |
CN111462485A (zh) * | 2020-03-31 | 2020-07-28 | 电子科技大学 | 一种基于机器学习的交通路口拥堵的预测方法 |
CN111641608A (zh) * | 2020-05-18 | 2020-09-08 | 咪咕动漫有限公司 | 异常用户识别方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
刘琳岚;高声荣;舒坚;: "基于随机森林的链路质量预测", 通信学报, no. 04 * |
邱维蓉;吴帮玉;潘学树;唐亚明;: "几种聚类优化的机器学习方法在灵台县滑坡易发性评价中的应用", 西北地质, no. 01 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836893A (zh) * | 2021-02-26 | 2021-05-25 | 上海海事大学 | 一种基于海况条件和船舶航行状况预测恶劣海况下船舶油耗的方法 |
CN112836893B (zh) * | 2021-02-26 | 2024-05-14 | 上海海事大学 | 一种基于海况条件和船舶航行状况预测恶劣海况下船舶油耗的方法 |
CN115115079A (zh) * | 2021-03-23 | 2022-09-27 | 中国科学院国家空间科学中心 | 一种基于集成学习的太阳质子事件短期预报方法 |
CN117037427A (zh) * | 2023-08-23 | 2023-11-10 | 旺苍县地质环境监测站 | 一种地质灾害联网监测预警系统 |
CN117037427B (zh) * | 2023-08-23 | 2024-02-20 | 旺苍县地质环境监测站 | 一种地质灾害联网监测预警系统 |
CN118627933A (zh) * | 2024-08-02 | 2024-09-10 | 中国民用航空总局第二研究所 | 一种机场群体性事件发展阶段的预测方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112365023A (zh) | 基于机器学习的机场群体性事件预测及预警方法 | |
Esmaeilzadeh et al. | Machine learning approach for flight departure delay prediction and analysis | |
CN109284896B (zh) | 人误模式影响分析方法 | |
CN111985685B (zh) | 基于大数据分析的航班计划优化方法、装置及电子设备 | |
CN111415039B (zh) | 一种基于非负张量分解的航班延误模式分析方法 | |
Burnett et al. | Prediction of injuries and fatalities in aviation accidents through machine learning | |
Lytvyn et al. | Aviation aircraft planning system project development | |
Basturk et al. | Prediction of aircraft estimated time of arrival using machine learning methods | |
CN109270851A (zh) | 人机交互动态故障树认知过载故障逻辑门的设计方法 | |
CN110796315A (zh) | 基于时效信息和深度学习的离港航班延误预测方法 | |
Chin et al. | Phases of flight identification for rotorcraft operations | |
Lukáčová et al. | Building the prediction model from the aviation incident data | |
Zhang et al. | Flight delay prediciton at an airport using maching learning | |
Chou et al. | A machine learning application for predicting and alerting missed approaches for airport management | |
CN114219116B (zh) | 对流天气影响终端区的容量预测方法 | |
Pérez-Campuzano et al. | Visualizing the historical COVID-19 shock in the US airline industry: A Data Mining approach for dynamic market surveillance | |
Lázaro et al. | Human Factors as Predictor of Fatalities in Aviation Accidents: A Neural Network Analysis | |
Caetano | Aviation accident and incident forecasting combining occurrence investigation and meteorological data using machine learning | |
Ai | Predicting Titanic Survivors by Using Machine Learning | |
Fala et al. | Study on machine learning methods for general aviation flight phase identification | |
CN112101780A (zh) | 结构熵权法的机场场面运行综合评价方法 | |
Yousefi | Optimum airspace design with air traffic controller workload-based partitioning | |
CN113807579B (zh) | 一种基于机器学习的航班抵港延误时间预测方法 | |
Anderson et al. | Analysis of flight delays in aviation system using different classification algorithms and feature selection methods | |
Hossain | Application of Interpretable Machine Learning in Flight Delay Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |