CN111881213A - 一种储存、加工、使用飞行大数据的系统 - Google Patents
一种储存、加工、使用飞行大数据的系统 Download PDFInfo
- Publication number
- CN111881213A CN111881213A CN202010740438.9A CN202010740438A CN111881213A CN 111881213 A CN111881213 A CN 111881213A CN 202010740438 A CN202010740438 A CN 202010740438A CN 111881213 A CN111881213 A CN 111881213A
- Authority
- CN
- China
- Prior art keywords
- parameter
- analysis
- flight
- data
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/221—Column-oriented storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Fuzzy Systems (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了储存、加工、使用飞行大数据的系统,储存和加工QAR数据,形成满足各业务需求的分析参数数据库,提高飞行数据的使用便利。其技术方案为:系统包括参数自动译码和数据处理模块,对不同机型全部参数进行译码解析、大数据写入以及与航班运行系统中的信息匹配关联;工程参数模块,基于参数自动译码和数据处理模块输出的飞行数据对不同飞机机型的工程参数进行归一化处理;分析参数模块,包括标准分析参数库单元和分析参数编辑单元,标准分析参数库单元建立覆盖飞行从起飞到落地全过程的预设关注的统计参数体系,分析参数编辑单元提供用于计算飞行大数据特定指标分析参数的算法语法;分析模块,基于分析参数与航班元素结合的分析。
Description
技术领域
本发明涉及一种应用于民航领域的计算机技术,具体地说,涉及的是一种利用计算机技术,对航空公司飞行运行数据进行储存、加工的系统,用于提高飞行运行数据的方便使用性能。
背景技术
目前市面上主流的飞机机型包含波音737-700、737-800、777-300ER、787;空客320、320Neo、330、350、380等诸多机型。这些飞机上都安装有设备快速存取记录仪(QuickAccess Recorder,以下称QAR)。QAR设备的容量一般为128M,存储介质为MO(MagnetoOptical)磁光盘或PCMCIA卡,记录飞行员操作、飞机状态、天气等飞行参数,能够连续记录时间长达六百个小时。无线QAR的出现提升了获取数据的速度和便捷度,无线QAR数据下载不受拆卸固态储存介质的限制。在飞机降落后,当满足发动机停车、舱门打开等条件,以及降落机场满足网络和硬件设施等外界条件,无线QAR数据将自动通过当地网络下传。公司每天运行航班产生QAR数据约400GB,全年产生QAR数据超过100TB。
QAR数据是以二进制方式排列并储存,需要将其通过一定的逻辑转换成直观的、可供工程师辨识的工程数据,这个过程称为QAR数据的译码。使用最广泛的也是国内普遍采用的商用译码软件有AirFASE、AGS和GRAF。对于工程数据,不同机型中QAR记录的数据类型、频率、参数名称各不相同;同一机型由于生产年代不同,QAR记录的数据类型、频率也会存在不小差异。且工程数据只包括飞行员操作、飞机状态、天气等飞行参数,不包含飞行员信息、起飞(降落)机场等环境信息等。
上述的商用译码工具同时也具有飞行数据分析的功能,主要是通过分析参数对超限事件进行预警,如:采用拍照方式记录行车过程中一次超速事件;而对于正常情况下QAR数据(即,飞机行驶全过程中的各个部件传感器记录参数)不作任何处理。
此外,这些商用译码分析软件的分析参数数目有限,导致了传统的飞行数据研究工作展开难度较大:
1、数据源较少,能够获取到的数据来源两方面,一是传统商用译码软件提供的超限数据,以开车为例,某次行车超速被摄像头拍摄到行驶速度到97km/h,超过80km/h的限速;仅能获取到97km/h这个数据;二是传统译码工具提供的200项为上限并且修改后无法追述历史的分析参数。
2、数据匹配难度较大,由于译码数据和航班数据处于不同的系统之中,将飞行具体的数据与谁在操纵、在哪里操纵、当时的天气、跑道、环境是怎么样的诸多因素结合起来会花费大量时间。
分析参数数目有限也导致了QAR数据在诸多应用场景中的使用显得力不从心。例如,在面对需要利用QAR中的数据对飞行员的操作技能水平评估和飞机的性能分析进行有效管理的场景中,目前的译码分析软件就无法满足这一需求。
综上所述,目前的民航业需要有一个这样的平台,能够对源自QAR数据的分析参数进行大量的扩容,建立起一个庞大的分析参数库,以便在多样化的分析和管理场景中得到应用,满足分析和管理上的多样化需求。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
本发明的目的在于解决上述问题,提供了一种储存、加工、使用飞行大数据的系统,能够对航空公司飞行运行QAR数据进行有效的储存和加工,形成能够满足各类业务需求的分析参数的数据库,提高了飞行运行数据在使用上的便利性。
本发明的技术方案为:本发明揭示了一种储存、加工、使用飞行大数据的系统,系统包括参数自动译码和数据处理模块、工程参数模块、分析参数模块、分析模块,其中:
参数自动译码和数据处理模块,用于对不同机型的全部参数进行译码解析、大数据的写入以及与航班运行系统中的信息的匹配关联;
工程参数模块,连接参数自动译码和数据处理模块的输出端,用于基于参数自动译码和数据处理模块输出的飞行数据,对不同飞机机型的工程参数进行归一化处理;
分析参数模块,包括标准分析参数库单元和分析参数编辑单元,标准分析参数库单元用于建立覆盖飞行从起飞到落地全过程的预设关注的统计参数体系,分析参数编辑单元用于提供用于计算飞行大数据特定指标分析参数的算法语法;
分析模块,用于建立完成基于分析参数与航班元素相结合的智能分析。
根据本发明的储存、加工、使用飞行大数据的系统的一实施例,参数自动译码和数据处理模块配置为对每一航班的QAR数据原始文件中的QAR数据进行译码,导出包含全参数的CSV格式的全参数文件;关联QAR数据原始文件、全参数文件和航班运行系统中的航班信息,确定数据主键,把译码后的飞行数据经过列式存储转换存储于HBase集群中,并对飞行数据进行压缩;再根据配置的清洗规则对飞行数据进行初步的清洗过滤。
根据本发明的储存、加工、使用飞行大数据的系统的一实施例,参数自动译码和数据处理模块在对QAR数据进行译码的过程中,在译码后自动生成日志文件,日志文件中记录有QAR数据原始文件的名称、全参数文件的名称,判断全参数文件是否为正确译码后的结果,如果不是则根据日志文件中的信息对相应的QAR数据原始文件进行人工干预下的重新译码。
根据本发明的储存、加工、使用飞行大数据的系统的一实施例,工程参数模块配置为根据所配置的清洗规则对飞行数据进行二次清洗过滤,获得机型参数库元数据;根据设定的匹配规则对不同机型参数库元数据与标准的工程参数进行映射和匹配。
根据本发明的储存、加工、使用飞行大数据的系统的一实施例,工程参数模块对不同机型参数库元数据与标准的工程参数所进行的映射和匹配的处理进一步包括:
通过名称正则匹配进行第一层自动匹配,找出名字相同或者相近的机型参数,同时验证数据输出范围;
在第一层自动匹配完成后,对于未匹配的机型参数通过语义相似匹配进行第二层的自动匹配;
对经过第一层和第二层的自动匹配的匹配结果计算可信度;
对剩余未匹配的机型参数进行人工验证,根据计算出的可信度采用人工方式进行调整和参数匹配;
设定标准频率,对于低于标准频率的参数自动以均值填充的方式进行频率增加,同时支持手动设置频率。
根据本发明的储存、加工、使用飞行大数据的系统的一实施例,工程参数模块还配置为提供自定义函数、工程参数自定义脚本的接口,通过该接口使用自定义函数来编辑自定义新的工程参数,对机型参数库元数据进行处理以获得工程参数库。
根据本发明的储存、加工、使用飞行大数据的系统的一实施例,分析参数模块配置为:根据民航业务逻辑,基于工程参数模块中的统一标准的工程参数,使用系统函数,通过用户自定义脚本方式计算分析参数。
根据本发明的储存、加工、使用飞行大数据的系统的一实施例,分析参数模块采用Spark分布式计算引擎,分析参数的计算请求发送到Spark on YARN中,Spark以航班-分析参数为最小单位进行切割进行并行计算,其中每个核心负责一个最小单位的计算,任意核心在计算完一个航班的一个分析参数后会被分配新的计算任务。
根据本发明的储存、加工、使用飞行大数据的系统的一实施例,分析参数模块将Spark运算的脚本计算结果存储于列式数据库Kudu中,在Kudu中建立标准分析参数库,标准分析参数库中的多项分析参数覆盖飞行全过程的飞行指标。
根据本发明的储存、加工、使用飞行大数据的系统的一实施例,分析模块配置为底层采用Impala作为数据库查询引擎,分析模块接收用户在查询页面上选择的航班或分析参数的筛选条件,在后台生成对应的SQL语句并提交到Impala引擎,由Impala引擎执行SQL语句,在分析处理中基于航班运行数据与分析参数模块的计算结果进行多维度多场景的聚合分析。
本发明对比现有技术有如下的有益效果:本发明的系统能够对海量的飞机运行数据进行有效存储,对不同机型或同一机型不同生产时间的飞机的工程参数建立标准工程参数库,在此基础上结合实际运行情况适当增加自定义的分析参数,建立起具有民航逻辑、可扩展性良好的分析参数库,分析参数库中的数据能够在后续的各种应用场景中得到广泛的使用。
详细而言,本发明的系统提供了一套类似数据处理模型数据帧的方式来处理飞行过程大数据。其特点主要体现在以下几个方面:
1、类似于面向对象的理念,把飞行过程数据当作一个数据集(表)来处理:区别于传统译码软件面向过程的行级计算,即每译码一行飞行过程数据就处理一次的处理方式,系统使用的是拿到所有结果集,对整个结果集的操作。这样做的好处在于,省去了传统译码软件中定义大量变量来记录上一行计算的结果。
2、简化数据处理:飞行过程数据复杂度很高,如碰到一秒多帧的参数,用户是否需要降频、降频如何取值、升频、两个不同频率的参数相加、跳帧、用户指定采样频率等复杂的情况。这些在系统的系统函数中已经做了完善的处理并与传统译码软件的计算结果比对来验证了结果的正确性。
3、提供了大量分析参数互相调用的系统函数:系统融合了各种传统处理方式的优点,即系统计算结果与传统译码软件的结果靠拢,又在参数复用灵活性上得到提升。
4、基于归一化的工程参数:由于在工程参数层面已经完成了多机型飞行参数的归一化,因此设计不同机型的分析参数算法时,只需要运用归一化后的数据,无需针对每一种机型都设计一种算法,极大加快了飞行算法的效率。
附图说明
在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
图1示出了本发明的储存、加工、使用飞行大数据的系统的一实施例的原理图。
具体实施方式
以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。
图1示出了本发明的储存、加工、使用飞行大数据的系统的一实施例的原理。请参见图1,本实施例的系统包括:参数自动译码和数据处理模块、工程参数模块、分析参数模块、分析模块。
参数自动译码和数据处理模块的输出端连接工程参数模块,工程参数模块的输出端连接分析参数模块,分析参数模块的输出端连接分析模块。
以下分别就各个模块的实施原理进行详述。
参数自动译码和数据处理模块用于对不同机型的全部参数进行译码、解析、大数据的写入以及与航班运行系统中的信息的匹配关联。
如图1所示,在参数自动译码和数据处理模块的具体实施过程中,参数自动译码和数据处理模块配置为采用传统译码软件对每一航班的QAR数据进行译码,导出包含全参数的CSV格式文件(以下简称:全参数文件)。同时,提取译码软件在译码后自动生成的日志文件,日志文件中记录有QAR数据原始文件的名称、QAR数据译码后的全参数文件的名称。然后判断全参数文件是否为正确译码后的结果,如果不是,则根据译码软件的日志文件中的信息,对相应的QAR数据原始文件进行人工干预下的重新译码;如果是,则继续后续的步骤,将QAR数据译码后的CSV格式的数据称为飞行数据。
然后,由于QAR数据需要通过航班的离地时间、机尾号、起降机场因素与现有的航班运行系统(存储了航班的其他基本因素,诸如天气、跑道、单位、人员等信息)进行匹配和关联,因此根据给定规则,关联QAR数据原始文件、全参数文件和航班运行系统中的航班信息,确定数据主键,把飞行数据经过列式存储转换(将传统的行存储转换为列存储)存储于HBase集群中,并使用Snappy开发包对飞行数据进行压缩,相匹配的其他信息(例如匹配航班的人员、机场、天气等信息)通过Oracle进行存储。
此外,参数自动译码和数据处理模块还提供提高飞行数据质量的接口。通过这一接口提取飞行数据,根据飞机系统特征,配置清洗规则(跳变处理、阈值处理等),对飞行数据进行初步的清洗过滤。
工程参数模块用于基于参数自动译码和数据处理模块输出的飞行数据,对不同飞机机型的工程参数进行归一化处理。
如图1所示,在具体实施过程中,工程参数模块配置为运行以下的处理:
首先,配置清洗规则,根据清洗规则对飞行数据进行二次清洗过滤,从而获得机型参数库元数据。
然后,一方面给定匹配规则(包括名称正则匹配规则和语义相似匹配规则),对不同机型参数库元数据与标准的工程参数进行映射和匹配;另一方面,工程参数模块提供自定义函数、工程参数自定义脚本接口,通过该接口使用自定义函数来编辑自定义新的工程参数,对机型参数库元数据进行处理以获得工程参数库。
上述的不同机型参数库元数据与工程参数所进行的匹配进一步包括:
步骤1:通过名称正则匹配进行第一层自动匹配,找出名字相同或者接近的机型参数(比如,系统加入一个新机型,新机型具有一个新的参数列表,系统会对该新的参数列表中名字和工程参数模块中已有的工程参数进行比较,如果名字相同或者接近,就自动匹配),同时验证数据输出范围。数据输出范围的验证过程为:首先将样本数据A排序,获取25分位值至75分位值之间数据,认为是A的有效范围数据。计算获得A样本的标准差;其次将同名参数样本B排序,获取25分位值至75分位值之间数据,认为是B的有效范围数据;将B的样本与A样本混合,如果混合后,新样本参数波动小于A样本的3倍标准差,则认为A与B样本数据范围一致。通过不同的机型输出的参数数据,这一方法在同一生产厂家的机型中较为有效,诸如空客的320、320Neo、330机型之间。
步骤2:在第一层自动匹配完成后,对于未匹配的机型参数通过语义相似匹配进行第二层的自动匹配。目前多数工程参数在飞机制造厂商那里会提供字段的说明。通过对说明字段拆分成多个单词,使用单词匹配,找到使用单词频度、顺序最接近的默认匹配的方法解决部分空客、波音参数的问题。
步骤3:对经过第一层和第二层的自动匹配的匹配结果计算可信度。
计算出的可信度分为:极高、高、较高、中等这4个等级。可信度极高说明名称、频率、参数范围完全一致,参数说明一致或者存在微小差别,诸如标点符号。可信度高说明名称、参数范围相同;频率、参数说明存在一定差异。可信度较高说明名称通过正则匹配能够模糊匹配,参数范围相同。可信度中等说明参数名称无法匹配,参数范围相同,但参数说明使用单词类似。剩余未能匹配的机型参数,需要人工验证和处理。
步骤4:对剩余未匹配的机型参数进行人工验证,根据可信度采用人工方式进行调整和参数匹配。
步骤5:设定标准频率(系统默认为此频率是所有机型参数中的最高频率),对于低于标准频率的参数会自动以均值填充的方式进行频率增加,同时支持手动设置频率。
因为不同机型中参数频率会存在较大差异。因此在步骤1至4的参数匹配完成后,需要统一设置频率。
分析参数模块包括标准分析参数库单元和分析参数编辑单元。其中标准分析参数库单元用于建立覆盖飞行从起飞到落地全过程的预设关注(一般为系统推荐关注)的统计参数体系;分析参数编辑单元用于提供用于计算飞行大数据特定指标分析参数的算法语法。
分析参数模块配置为运行以下的处理:根据民航业务逻辑,基于工程参数模块中的统一标准的工程参数,使用系统函数,通过用户自定义脚本方式,来计算分析参数。分析参数的计算请求发送到大数据计算环境Spark on YARN中,Spark会以航班-分析参数为最小单位进行切割进行并行计算。每个核心负责一个最小单位的计算,计算完一个航班的一个分析参数后,核心会被分配新的计算任务。分析参数的计算结果存储于列式数据库Kudu中,最终在Kudu中建立了标准分析参数库,标准分析参数库中的多项分析参数覆盖了飞行全过程,即从起飞到落地预设关注(推荐关注)的飞行指标。
上述的用户自定义脚本的脚本语言为Groovy,支持所有基础语法。在Groovy运行的上下文环境中插入了对java的支持,可调用java的基础类包。上述的系统函数主要有:
1、filter:最常用的飞行计算函数,典型的数据帧类SQL过滤处理方式。该方法能在大量飞行过程数据中剔除用户不需要关系的数据。如:filter(“’FLIGHT_PHASE’=3and‘RALTC’<1000”),这就代表着,用户只关心飞行阶段为3且无线电高度低于1000的数据,其他的数据剔除掉。
2、runScript:同一个参数库中的参数引用。如:_.runScript(“时间点1”);代表要引用当前参数库中的时间点1的这个分析参数。
3、foreach:工程计算参数中的foreach方法,能提供用户更底层的处理逻辑方式。用户在内部函数中拿到每一帧的数据后自行处理计算逻辑。
在计算引擎方面,考虑到计算的复杂度与计算性能之间平衡的需求要求,分析参数模块优选的采用Spark分布式计算引擎。Spark生态系统是流行的大数据处理技术,兼容传统的大数据存储HDFS和资源管理框架Yarn,非常适合分析参数模块中处理海量复杂的飞行过程分析参数。在本实施例的分析参数模块中,Spark分布式计算引擎读取待计算的分析参数脚本配置,将分析参数的计算转化为一个有向无环图(DAG)的任务集,通过丰富的SQL语句和丰富的机器学习算法包完成对复杂飞行过程分析参数的计算,能够满足复杂度方面需求。将多个航班*多个参数(笛卡尔积)的计算任务生成任务配置文件,由主程序读取任务配置文件并将计算任务分发到不同的运行节点上,利用集群的优势批量计算,从而满足性能的要求。
在存储技术方面,考虑到分析参数模块对Spark运算的脚本计算结果需要高并发持续的写入计算结果,诸如:用户自定义分析参数算法,并且也需要支持实时的查询和分析,诸如:查询事件相关连续工程参数等的应用场景。优选的采用Kudu存储技术,该技术是开源的运行在Hadoop平台上的列式存储技术,兼容Hadoop生态系统,适用于随机读写和批量扫描的场景。分析参数模块中,Kudu的数据库表设计采用分表的形式,每张表保存大量分析参数,通过分表的策略,系统理论上可支持的无限多个分析参数的扩容。
分析模块用于实现基于分析参数与航班元素相结合的智能分析。
本实施例的系统在上述飞行大数据的基础上,优选的将商务智能的思路应用到飞行领域,正如前述模块所描述到的,在底层大数据中,不仅仅存储了飞行过程大数据,并且将航班运行数据、排班数据、气象数据、跑道数据、机务维修数据等多种因素与飞行过程大数据统一存储到了大数据环境之中,并预先进行了匹配,解决了数据不够丰富以及匹配难的问题。分析模块可供分析人员利用预设的多项标准分析参数进行分析,同时也支持分析人员在分析参数模块中自定义新的分析参数,解决了飞行分析数据不够丰富的问题。
考虑到前端分析查询需要在处理大量数据的同时兼顾响应速度的要求,分析模块的底层采用Impala作为数据库查询引擎。用户在查询页面上选择了航班或分析参数的筛选条件后,分析模块在后台生成对应的SQL语句并提交到Impala引擎,由Impala引擎执行SQL语句。Impala引擎是基于内存计算、高性能、低延迟的交互式SQL查询框架,可兼容Hadoop生态系统的原生数据仓库查询,是CDH平台首选的PB级大数据实时查询分析引擎。本实施例系统预设的大量与航班运行相关的数据均存储在数据仓库中,在分析模块的分析处理中需要与分析参数模块的计算结果进行多维度多场景的聚合分析。Impala引擎实现分析参数模块的计算结果与航班运行等数据进行关联查询的秒级响应,使得用户仅通过基于系统页面的分析配置就可实现复杂的分析内容和报表成果,缩减了用户分析的学习成本。
分析模块供飞行人员将分析参数与飞行员、环境等因素自由组合,将任意的分析参数或者航班属性拖动至图表的X轴、Y轴、Z轴上,分析模块自动识别是维度类型(非数值型)或者度量类型(数值型)参数,并自动进行相应的转换,生成分析用图表。目前已经支持的图表包含:折线图、柱状图、堆叠图、散点图、3D图、饼图等,极大提高了分析过程的效率。
综上,参数自动译码和数据处理模块的输入为QAR原始数据(数据由飞机上传至地面,为2进制压缩,不可读),经过译码输出为可读的数据文件,切分为一个起落对应一个数据文件。然后对数据文件进行一系列的操作,规格化写入到大数据环境中。这一模块侧重于数据的技术处理。
对于写入大数据的数据文件,由于不同机型数据格式、数据名称、频率都不同,利用工程参数模块,在工程参数层面实现了多机型参数的标准化归一化。
分析参数模块则是对经过工程参数模块统一后的工程参数以一定算法进行汇总统计,形成可用于航班分析的指标参数,诸如:原始数据文件记录的是飞机每分每秒的速度,但是这个速度无法分析研究,在分析参数模块根据用户的需要加工成了诸如:航班巡航平均速度,航班巡航最大速度这样的指标分析参数,这样可用于进行研究分析。
分析模块则是对分析参数模块产生的参数,做成各种分析用的图表,做研究或者持续性追踪。
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。
Claims (10)
1.一种储存、加工、使用飞行大数据的系统,其特征在于,系统包括参数自动译码和数据处理模块、工程参数模块、分析参数模块、分析模块,其中:
参数自动译码和数据处理模块,用于对不同机型的全部参数进行译码解析、大数据的写入以及与航班运行系统中的信息的匹配关联;
工程参数模块,连接参数自动译码和数据处理模块的输出端,用于基于参数自动译码和数据处理模块输出的飞行数据,对不同飞机机型的工程参数进行归一化处理;
分析参数模块,包括标准分析参数库单元和分析参数编辑单元,标准分析参数库单元用于建立覆盖飞行从起飞到落地全过程的预设关注的统计参数体系,分析参数编辑单元用于提供用于计算飞行大数据特定指标分析参数的算法语法;
分析模块,用于建立完成基于分析参数与航班元素相结合的智能分析。
2.根据权利要求1所述的储存、加工、使用飞行大数据的系统,其特征在于,参数自动译码和数据处理模块配置为对每一航班的QAR数据原始文件中的QAR数据进行译码,导出包含全参数的CSV格式的全参数文件;关联QAR数据原始文件、全参数文件和航班运行系统中的航班信息,确定数据主键,把译码后的飞行数据经过列式存储转换存储于HBase集群中,并对飞行数据进行压缩;再根据配置的清洗规则对飞行数据进行初步的清洗过滤。
3.根据权利要求2所述的储存、加工、使用飞行大数据的系统,其特征在于,参数自动译码和数据处理模块在对QAR数据进行译码的过程中,在译码后自动生成日志文件,日志文件中记录有QAR数据原始文件的名称、全参数文件的名称,判断全参数文件是否为正确译码后的结果,如果不是,则根据日志文件中的信息对相应的QAR数据原始文件进行人工干预下的重新译码。
4.根据权利要求1所述的储存、加工、使用飞行大数据的系统,其特征在于,工程参数模块配置为根据所配置的清洗规则对飞行数据进行二次清洗过滤,获得机型参数库元数据;根据设定的匹配规则对不同机型参数库元数据与标准的工程参数进行映射和匹配。
5.根据权利要求4所述的储存、加工、使用飞行大数据的系统,其特征在于,工程参数模块对不同机型参数库元数据与标准的工程参数所进行的映射和匹配的处理进一步包括:
通过名称正则匹配进行第一层自动匹配,找出名字相同或者相近的机型参数,同时验证数据输出范围;
在第一层自动匹配完成后,对于未匹配的机型参数通过语义相似匹配进行第二层的自动匹配;
对经过第一层和第二层的自动匹配的匹配结果计算可信度;
对剩余未匹配的机型参数进行人工验证,根据计算出的可信度采用人工方式进行调整和参数匹配;
设定标准频率,对于低于标准频率的参数自动以均值填充的方式进行频率增加,同时支持手动设置频率。
6.根据权利要求4所述的储存、加工、使用飞行大数据的系统,其特征在于,工程参数模块还配置为提供自定义函数、工程参数自定义脚本的接口,通过该接口使用自定义函数来编辑自定义新的工程参数,对机型参数库元数据进行处理以获得工程参数库。
7.根据权利要求1所述的储存、加工、使用飞行大数据的系统,其特征在于,分析参数模块配置为:根据民航业务逻辑,基于工程参数模块中的统一标准的工程参数,使用系统函数,通过用户自定义脚本方式计算分析参数。
8.根据权利要求7所述的储存、加工、使用飞行大数据的系统,其特征在于,分析参数模块采用Spark分布式计算引擎,分析参数的计算请求发送到Spark on YARN中,Spark以航班-分析参数为最小单位进行切割进行并行计算,其中每个核心负责一个最小单位的计算,任意核心在计算完一个航班的一个分析参数后会被分配新的计算任务。
9.根据权利要求8所述的储存、加工、使用飞行大数据的系统,其特征在于,分析参数模块将Spark运算的脚本计算结果存储于列式数据库Kudu中,在Kudu中建立标准分析参数库,标准分析参数库中的多项分析参数覆盖飞行全过程的飞行指标。
10.根据权利要求1所述的储存、加工、使用飞行大数据的系统,其特征在于,分析模块配置为底层采用Impala作为数据库查询引擎,分析模块接收用户在查询页面上选择的航班或分析参数的筛选条件,在后台生成对应的SQL语句并提交到Impala引擎,由Impala引擎执行SQL语句,在分析处理中基于航班运行数据与分析参数模块的计算结果进行多维度多场景的聚合分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010740438.9A CN111881213B (zh) | 2020-07-28 | 2020-07-28 | 一种储存、加工、使用飞行大数据的系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010740438.9A CN111881213B (zh) | 2020-07-28 | 2020-07-28 | 一种储存、加工、使用飞行大数据的系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111881213A true CN111881213A (zh) | 2020-11-03 |
CN111881213B CN111881213B (zh) | 2021-03-19 |
Family
ID=73200902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010740438.9A Active CN111881213B (zh) | 2020-07-28 | 2020-07-28 | 一种储存、加工、使用飞行大数据的系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111881213B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114282811A (zh) * | 2021-12-24 | 2022-04-05 | 中国民航科学技术研究院 | 基于跨机型SOPs标准化公务机飞行风险监测系统及方法 |
CN114486941A (zh) * | 2021-12-29 | 2022-05-13 | 天津市人工影响天气办公室 | 一种机载微波辐射计gvr数据质量控制系统 |
CN115314300A (zh) * | 2022-08-10 | 2022-11-08 | 东航技术应用研发中心有限公司 | 飞行训练模拟机数据分析系统 |
CN115357671A (zh) * | 2022-10-19 | 2022-11-18 | 成都飞机工业(集团)有限责任公司 | 一种飞机装配数据构建方法、装置、设备及介质 |
WO2022257620A1 (zh) * | 2021-06-08 | 2022-12-15 | 东航技术应用研发中心有限公司 | 着陆空中距离的测量方法和系统 |
CN116049259A (zh) * | 2023-01-28 | 2023-05-02 | 深圳市瑞达飞行科技有限公司 | Qar参数回算方法、装置、计算机设备及存储介质 |
CN117251298A (zh) * | 2023-11-20 | 2023-12-19 | 广州嘉为科技有限公司 | 一种流水线任务循环执行方法、系统、设备及介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102867073A (zh) * | 2011-07-08 | 2013-01-09 | 中国民航科学技术研究院 | 一种基于性能导航的飞行程序设计系统及验证平台和验证方法 |
US20140029448A1 (en) * | 2012-07-26 | 2014-01-30 | Krishna Balachandran | Method And Apparatus For Improved Signal Processing In Wireless Networks |
CN105260426A (zh) * | 2015-05-08 | 2016-01-20 | 中国科学院自动化研究所 | 基于大数据的飞机综合健康管理系统和方法 |
CN106127407A (zh) * | 2016-07-01 | 2016-11-16 | 中国民航管理干部学院 | 基于多传感器信息融合的飞机行程打分方法及打分系统 |
CN106228176A (zh) * | 2016-06-29 | 2016-12-14 | 中国商用飞机有限责任公司北京民用飞机技术研究中心 | 一种基于工况数据检测设备状态的方法和系统 |
CN106933977A (zh) * | 2017-02-16 | 2017-07-07 | 中国航天空气动力技术研究院 | 一种基于大数据挖掘分类剔除飞行参数野值的方法 |
CN107229695A (zh) * | 2017-05-23 | 2017-10-03 | 深圳大学 | 多平台航空电子大数据系统及方法 |
CN109141847A (zh) * | 2018-07-20 | 2019-01-04 | 上海工程技术大学 | 一种基于mscnn深度学习的飞机系统故障诊断方法 |
CN110618983A (zh) * | 2019-08-15 | 2019-12-27 | 复旦大学 | 基于json文档结构的工业大数据多维分析与可视化方法 |
CN111241694A (zh) * | 2020-01-16 | 2020-06-05 | 山东超越数控电子股份有限公司 | 一种基于大数据处理的飞机机群健康评估方法,设备及可读存储介质 |
-
2020
- 2020-07-28 CN CN202010740438.9A patent/CN111881213B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102867073A (zh) * | 2011-07-08 | 2013-01-09 | 中国民航科学技术研究院 | 一种基于性能导航的飞行程序设计系统及验证平台和验证方法 |
US20140029448A1 (en) * | 2012-07-26 | 2014-01-30 | Krishna Balachandran | Method And Apparatus For Improved Signal Processing In Wireless Networks |
CN105260426A (zh) * | 2015-05-08 | 2016-01-20 | 中国科学院自动化研究所 | 基于大数据的飞机综合健康管理系统和方法 |
CN106228176A (zh) * | 2016-06-29 | 2016-12-14 | 中国商用飞机有限责任公司北京民用飞机技术研究中心 | 一种基于工况数据检测设备状态的方法和系统 |
CN106127407A (zh) * | 2016-07-01 | 2016-11-16 | 中国民航管理干部学院 | 基于多传感器信息融合的飞机行程打分方法及打分系统 |
CN106933977A (zh) * | 2017-02-16 | 2017-07-07 | 中国航天空气动力技术研究院 | 一种基于大数据挖掘分类剔除飞行参数野值的方法 |
CN107229695A (zh) * | 2017-05-23 | 2017-10-03 | 深圳大学 | 多平台航空电子大数据系统及方法 |
CN109141847A (zh) * | 2018-07-20 | 2019-01-04 | 上海工程技术大学 | 一种基于mscnn深度学习的飞机系统故障诊断方法 |
CN110618983A (zh) * | 2019-08-15 | 2019-12-27 | 复旦大学 | 基于json文档结构的工业大数据多维分析与可视化方法 |
CN111241694A (zh) * | 2020-01-16 | 2020-06-05 | 山东超越数控电子股份有限公司 | 一种基于大数据处理的飞机机群健康评估方法,设备及可读存储介质 |
Non-Patent Citations (2)
Title |
---|
潘琪: "基于数据仓库的QAR数据组织方法及聚类模式相似性度量研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
黄磊: "基于QAR数据的飞机性能监控", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022257620A1 (zh) * | 2021-06-08 | 2022-12-15 | 东航技术应用研发中心有限公司 | 着陆空中距离的测量方法和系统 |
CN114282811A (zh) * | 2021-12-24 | 2022-04-05 | 中国民航科学技术研究院 | 基于跨机型SOPs标准化公务机飞行风险监测系统及方法 |
CN114282811B (zh) * | 2021-12-24 | 2022-09-27 | 中国民航科学技术研究院 | 基于跨机型SOPs标准化公务机飞行风险监测系统及方法 |
CN114486941A (zh) * | 2021-12-29 | 2022-05-13 | 天津市人工影响天气办公室 | 一种机载微波辐射计gvr数据质量控制系统 |
CN114486941B (zh) * | 2021-12-29 | 2024-05-10 | 天津市人工影响天气办公室 | 一种机载微波辐射计gvr数据质量控制系统 |
CN115314300A (zh) * | 2022-08-10 | 2022-11-08 | 东航技术应用研发中心有限公司 | 飞行训练模拟机数据分析系统 |
CN115357671A (zh) * | 2022-10-19 | 2022-11-18 | 成都飞机工业(集团)有限责任公司 | 一种飞机装配数据构建方法、装置、设备及介质 |
CN115357671B (zh) * | 2022-10-19 | 2023-01-10 | 成都飞机工业(集团)有限责任公司 | 一种飞机装配数据构建方法、装置、设备及介质 |
CN116049259A (zh) * | 2023-01-28 | 2023-05-02 | 深圳市瑞达飞行科技有限公司 | Qar参数回算方法、装置、计算机设备及存储介质 |
CN116049259B (zh) * | 2023-01-28 | 2023-11-24 | 深圳市瑞达飞行科技有限公司 | Qar参数回算方法、装置、计算机设备及存储介质 |
CN117251298A (zh) * | 2023-11-20 | 2023-12-19 | 广州嘉为科技有限公司 | 一种流水线任务循环执行方法、系统、设备及介质 |
CN117251298B (zh) * | 2023-11-20 | 2024-03-19 | 广州嘉为科技有限公司 | 一种流水线任务循环执行方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111881213B (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111881213B (zh) | 一种储存、加工、使用飞行大数据的系统 | |
CN110147357A (zh) | 一种基于大数据环境下的多源数据聚合抽样方法及系统 | |
US11681282B2 (en) | Systems and methods for determining relationships between defects | |
CN112181960B (zh) | 一种基于AIOps的智能运维框架系统 | |
US11829358B2 (en) | Systems and methods for natural language queries | |
CN105912594B (zh) | Sql语句处理方法和系统 | |
US11615076B2 (en) | Monolith database to distributed database transformation | |
US20130304737A1 (en) | System and method for the classification of storage | |
Chen et al. | A big data analysis and application platform for civil aircraft health management | |
CN112000773A (zh) | 基于搜索引擎技术的数据关联关系挖掘方法及应用 | |
CN114218218A (zh) | 基于数据仓库的数据处理方法、装置、设备及存储介质 | |
CN114880405A (zh) | 一种基于数据湖的数据处理方法及系统 | |
CN111046059B (zh) | 基于分布式数据库集群的低效sql语句分析方法及系统 | |
CN115640300A (zh) | 一种大数据管理方法、系统、电子设备和存储介质 | |
CN114328601A (zh) | 数据降采样和数据查询方法、系统及存储介质 | |
CN117827881A (zh) | 一种基于历史信息的Spark SQL Shuffle任务数优化系统 | |
US20230409567A1 (en) | Managing Multiple Types of Databases Using a Single User Interface (UI) That Includes Voice Recognition and Artificial Intelligence (AI) | |
US20110231360A1 (en) | Persistent flow method to define transformation of metrics packages into a data store suitable for analysis by visualization | |
CN116523328A (zh) | 一种航空装备协同制造产业链协作智能决策方法 | |
CN113407980B (zh) | 数据标注系统 | |
CN113535758B (zh) | 一种把传统数据库脚本批量转换上云的大数据系统和方法 | |
CN112749754B (zh) | 一种对不正常计算撤轮档时间预警的方法及装置 | |
CN114817240A (zh) | 基于选煤厂管理平台的数据资源区的数据处理方法 | |
CN114862233A (zh) | 智能决策方法和智能决策系统 | |
CN115168297A (zh) | 绕行日志审计方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information |
Inventor after: Fu Jing Inventor after: Li Jun Inventor after: Wang Zhimin Inventor after: Zhang Guiming Inventor after: Jia Bo Inventor after: Jiang Yin Inventor after: Zheng Xin Inventor before: Fu Jing |
|
CB03 | Change of inventor or designer information |