CN115964372A - 一种空间站有效载荷分布式事件提取方法和系统 - Google Patents

一种空间站有效载荷分布式事件提取方法和系统 Download PDF

Info

Publication number
CN115964372A
CN115964372A CN202310003731.0A CN202310003731A CN115964372A CN 115964372 A CN115964372 A CN 115964372A CN 202310003731 A CN202310003731 A CN 202310003731A CN 115964372 A CN115964372 A CN 115964372A
Authority
CN
China
Prior art keywords
payload
parallel computing
event extraction
computing node
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310003731.0A
Other languages
English (en)
Other versions
CN115964372B (zh
Inventor
施建明
王功
王伟
刘王佳
殷缘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Technology and Engineering Center for Space Utilization of CAS
Original Assignee
Technology and Engineering Center for Space Utilization of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Technology and Engineering Center for Space Utilization of CAS filed Critical Technology and Engineering Center for Space Utilization of CAS
Priority to CN202310003731.0A priority Critical patent/CN115964372B/zh
Publication of CN115964372A publication Critical patent/CN115964372A/zh
Application granted granted Critical
Publication of CN115964372B publication Critical patent/CN115964372B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及工业大数据和产品状态监测数据分析领域,尤其涉及一种空间站有效载荷分布式事件提取方法和系统,方法包括:按照预设分区和备份策略,将空间站的目标类的有效载荷的运行数据文件集划分为不同的子集,将所有的子集分发至不同的并行计算节点;基于Spark框架,每个并行计算节点对各自接收到的子集进行并行事件提取处理,得到每个并行计算节点的事件提取的一次处理结果,并发送至汇总节点,汇总节点对接收到所有的一次处理结果进行聚合统计处理,得到目标类的有效载荷的事件提取结果。多个并行计算节点能够通过对接收到的子集的数据进行同时处理,处理有效载荷大数据效率更高。

Description

一种空间站有效载荷分布式事件提取方法和系统
背景技术
空间站长期在轨运行期间,站上有效载荷产品将按照一定的模式运行。由于空间站上具备一定的维护维修条件,长期运行的有效载荷产品是按照高可靠且可维修的理念而设计的,为了跟踪和管理有效载荷的运行情况,需要从有效载荷监测数据中提取事件,包括常见的开关机事件及其他模式下的事件,例如气瓶放气、电池充放电、风扇开机运转、位移机构动作等等。通过挖掘、提取有效载荷从入轨后所经历事件的次数和持续时间段等信息,便于地面保障人员认识有效载荷的运行规律和特点,实时掌握产品的寿命耗损情况,为有效载荷的可靠性和健康状态评估提供依据,从而提升维护保障支持水平。
有效载荷在轨加电工作时,会采集并向地面传输包括时间戳在内的传感器和离散状态类的原始数据,事件统计的常规技术手段是在单台计算机上对数据进行处理,存在以下不足:
1)处理效率较低,有效载荷这些监测数据的采集频率为每秒多条,随着时间推移数据量积累到一定程度后,单机因内存和处理器等计算资源不足可能无法完成计算任务;
2)一旦计算机或者程序出现崩溃,计算将从头开始,浪费大量的时间成本,影响寿命和可靠性评估工作。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供了一种空间站有效载荷分布式事件提取方法和系统。
本发明的一种空间站有效载荷分布式事件提取方法的技术方案如下:
按照预设分区和备份策略,将空间站的目标类的有效载荷的运行数据文件集划分为不同的子集,将所有的子集分发至不同的并行计算节点;
基于Spark框架,每个并行计算节点对各自接收到的子集进行并行事件提取处理,得到每个并行计算节点的事件提取的一次处理结果,并发送至汇总节点,所述汇总节点对接收到所有的一次处理结果进行聚合统计处理,得到所述目标类的有效载荷的事件提取结果。
本发明的一种空间站有效载荷分布式事件提取系统的技术方案如下:
包括工作站、汇总节点和多个并行计算节点;
所述工作站用于:按照预设分区和备份策略,将空间站的目标类的有效载荷的运行数据文件集划分为不同的子集,将所有的子集分发至不同的并行计算节点;
基于Spark框架,每个并行计算节点对各自接收到的子集进行并行事件提取处理,得到每个并行计算节点的事件提取的一次处理结果,并发送至汇总节点,所述汇总节点对接收到所有的一次处理结果进行聚合统计处理,得到所述目标类的有效载荷的事件提取结果。
本发明的技术方案的有益效果如下:
通过将有效载荷的运行数据文件集进行划分并发送至多个并行计算节点,多个并行计算节点能够通过对接收到的子集的数据进行同时处理,避免“单机因内存和处理器等计算资源不足”以及“单机处理过程中故障导致全部计算任务需重新执行”的情况,处理有效载荷大数据效率更高。
附图说明
图1为本发明实施例的一种空间站有效载荷分布式事件提取方法的流程示意图;
图2为有效载荷原始监测数据分区和备份;
图3为并行计算节点的数据处理的流程示意图;
图4为汇总节点的数据处理的流程示意图;
图5为时间线的示意图;
图6为DAG图;
图7为Stage0时间线的示意图;
图8为Driver故障模拟测试结果;
图9为Executor故障模拟测试结果。
具体实施方式
如图1所示,本发明实施例的一种空间站有效载荷分布式事件提取方法,包括如下步骤:
S1、按照预设分区和备份策略,将空间站的目标类的有效载荷的运行数据文件集划分为不同的子集,将所有的子集分发至不同的并行计算节点;
其中,可将任一指定类的有效载荷作为目标类的有效载荷,例如,将热控类的产品作为目标类的有效载荷,或,将气瓶类的产品作为目标类的有效载荷,或者,将阀门类的产品作为目标类的有效载荷,或者,将电池类的产品作为目标类的有效载荷,等等。
其中,按照预设分区和备份策略,将空间站的目标类的有效载荷的运行数据文件集划分为不同的子集,具体过程如下:
有效载荷在轨运行持续下行状态监测数据,由地面系统生成CSV格式的运行数据文件集,属于结构化大数据。运行数据文件集中的原始的监测数据生成频次一般为每秒2~3条数据,每条数据包含时间戳字段以及反映有效载荷运行状态的标记类字段,随着时间的推移,运行数据文件集中的数据量越来越大。运行数据文件集中的数据文件按照时间顺序而排列的,相邻两段数据之所以生成两个数据文件是因为它们之间间隔了较长时间,而此时间段有效载荷一般处于停机状态。
基于目标类的有效载荷的运行数据文件集开展事件提取分析,缩短处理时间的关键在于将运行数据文件集划分为多个子集,以便于多个并行计算节点进行并行处理,所以运行数据文件集的分区存储取决于一次处理任务的并行度设置,具体地:
假设一次处理任务的并行度为Parallelism=3,那么按照平均分配的策略,将待处理的运行数据文件集转化为等分的3份子集,并将全部子集存储为hdfs格式的文件,假如hdfs备份机制设为Replication=3,按照如图2所示的方式进行分区和备份,例如,共有三个并行计算节点,分别为并行计算节点一,并行计算节点二,并行计算节点三,分成的三个子集分别为子集一,子集二和子集三,将子集一分发至并行计算节点一,将子集二分发至并行计算节点二,将子集三分发至并行计算节点三,为在某一并行计算节点发生异常时将该计算节点的处理任务调度至其他正常节点执行,按照hdfs备份机制设为Replication=3,将每个子集备份至其他两个并行计算节点。
S2、基于Spark框架,每个并行计算节点对各自接收到的子集进行并行事件提取处理,得到每个并行计算节点的事件提取的一次处理结果,并发送至汇总节点,汇总节点对接收到所有的一次处理结果进行聚合统计处理,得到目标类的有效载荷的事件提取结果。
其中,基于Spark框架,任一并行计算节点对该并行计算节点接收到的子集进行处理的过程,包括:
基于Spark框架,任一并行计算节点基于适配目标类的有效载荷的数据特点的参数,对该并行计算节点接收到的子集进行一次过滤操作、一次映射操作和多次分区拉链操作,得到该并行计算节点的事件提取的一次处理结果。
其中,适配目标类的有效载荷的数据特点的参数包括:时间间隔最小值、状态变量名称、匹配条件,具体地:
1)时间间隔最小值:由于有效载荷运行数据的时间戳是按照增量式排序的,正常情况下每秒采集2~3条数据,但是由于运行数据存在异常断点,给数据分段和事件提取带来难度。有效载荷间断工作,会在间断处看到尾头相邻的时间戳相差较长时间段,时间间隔最小值参数就是给出了数据正常分段的依据,前后相差超过这个值就作为分段的标记。通过合理设置该参数,能正确将数据按照真实的工作断续情况分段,避免数据采集本身混入的异常断点带来的干扰。
2)状态变量名称:有效载荷的运行数据采集了数十种甚至几百种的变量,选择最易于事件提取的变量,将变量名称作为一个参数传给有效载荷事件提取处理任务,提升方法的适应性。
3)匹配条件:匹配条件与用户关心的事件类型有关,例如,用户关心气瓶从投入使用到现在为止,每次放气事件的起止时间,这就要去从状态变量中匹配出与放气对应的数据。
基于Spark框架,任一并行计算节点基于适配目标类的有效载荷的数据特点的时间间隔最小值、状态变量名称、匹配条件,对该并行计算节点接收到的子集进行一次过滤操作、一次映射操作和多次分区拉链操作,得到事件提取的一次处理结果,具体过程如下:
为了提升效率,每一并行计算节点处理过程中不涉及数据重新分区,任务中所采用的算子均为Spark非混洗(shuffle)类的算子,针对每个分区的数据,在对应并行计算节点并行开展处理。具体流程如图3所示,具体地:
1)基于Spark框架,读取待处理的hdfs格式的子集,自动形成分区与各子集一一对应的rdd01,作为后续事件提取并行计算任务的分布式数据源。
2)rdd01为按行读取的原始数据,均为字符串类型,由时间戳、逗号分隔符、状态变量组成,经过filter算子操作后,将状态变量中符合匹配条件的行过滤出来,形成rdd02。读取数据后第一步就采取filter操作,能减少后续计算的数据量。
3)rdd02通过map操作,首先将每行的字符串分割成包含两个元素的数组(Array),然后将其中的时间戳字符串解析为长整型(Long)的数据,生成rdd03。
4)rdd03与自身开展分区拉链操作(zipPartitions),该操作将rdd03每个分区的时间戳数据拉链在一起,生成(BeijingTime01,BeijingTime02)类型的rdd04数据,其中BeijingTime01是BeijingTime02相邻的下一个时间戳数据:
BeijingTime01>BeijingTime02
5)rdd04与自身开展分区拉链操作(zipPartitions)生成rdd05,该操作的目标是找到前后两个时间戳相隔≥时间间隔最小值的点,同时保留rdd04每个分区的头尾两条时间戳数据,为了便于后续处理,需要将两列时间戳数据按照如下方式排序:
①rdd04各分区的首条时间戳数据(记为rdd04.PartXX.00)为rdd03对应分区前两条数据形成的拉链节(rdd03.PartXX.00.BeijingTime,rdd03.PartXX.01.BeijingTime),其中:
rdd04.PartXX.00._0=rdd03.PartXX.01.BeijingTime
rdd04.PartXX.00._1=rdd03.PartXX.00.BeijingTime
在rdd05中,rdd05.PartXX.00._0=rdd04.PartXX.00._1
rdd05.PartXX.00._1=rdd04.PartXX.00._0
即将这个两个相邻的时间戳顺序对调。
②rdd04各分区从第二条数据开始,判断各拉链节中前后两条时间戳数据相差是否≥时间间隔最小值,如果是,那么将这两个时间戳按照rdd04的顺序保留在rdd05中,如果否,那么这条数据就不保留在rdd05中。
③针对rdd04各分区的最后一条拉链节的数据(记为rdd04.PartXX.end),其为rdd03对应分区后两条数据:
(rdd03.PartXX.-1.BeijingTime,rdd03.PartXX.-2.BeijingTime)
判断前后两条时间戳数据相差是否≥时间间隔最小值,如果是,则在rdd05中增加如下一条数据:
(rdd04.PartXX.end._0,rdd04.PartXX.end._0)
如果否,则在rdd05中增加如下一条数据:
(rdd04.PartXX.end._1,rdd04.PartXX.end._0)
6)rdd05与自身开展分区拉链操作(zipPartitions),将rdd05前后两条数据的第一个时间戳和第二时间戳组合在一起,将Long类型的时间戳反解析成北京时间,作为匹配状态的起止时间信息,计算两个时间戳的差值为状态持续时长,并附上对应的状态变量。然后,通过repartition操作,将各并行计算节点的处理结果发送至汇总节点,形成只有1个分区的rdd06。
7)不同于对全部运行数据进行串行处理的单机处理方式,每一并行计算节点对各自接收到的子集的数据处理过程是一样的,将数据分区并行处理能提高处理效率,数据量越大并行处理的优势越明显。在某个任务节点即并行计算节点出现崩溃时,Yarn自动将计算任务调度到其他并行计算节点进行,不影响其他并行计算节点的计算任务,只需要将分区对应的部分数据重新计算即可,得到每个并行计算节点的一次处理结果。
任一并行计算节点的一次处理结果包括:该并行计算节点从该并行计算节点接收到的子集中提取到的事件序列。其中,汇总节点对接收到所有的一次处理结果进行聚合统计处理,得到目标类的有效载荷的事件提取结果,具体地:
基于Spark框架,汇总节点对接收到接收到所有的一次处理结果进行一次拉链操作,得到所述目标类的有效载荷的事件提取结果,具体过程如下:
由于rdd分区导致所有一次处理结果最终汇总的rdd06包含分区相连处的数据元素,这些数据元素会对最终结果产生影响,汇总节点进行聚合统计处理的目标就是要根据以下几种可能的情况来进行必要处理:
针对rdd03除最后1个分区外的其他分区:
1)如果其中某个分区的最后两条数据元素的时间戳相差≥时间间隔最小值,那么在rdd06中将对应有一条前后时间戳完全一样的事件提取结果,说明数据分区恰好将匹配状态的起始数据元素留在了该分区,而匹配状态的其他数据元素都在该分区相邻的下一个分区中,此时需要将rdd06中的该状态提取结果和跟它相邻的下一个状态提取结果融合。
2)如果某个分区的最后一条数据元素的时间戳和与该分区相邻的下一个分区的第一条数据元素的时间戳相差<时间间隔最小值,那么说明数据分区恰好将匹配状态的一部分数据元素留在了该分区,而其他数据元素都留在了下一个分区,此时同样需要将rdd06中的该状态提取结果和跟它相邻的下一个状态提取结果融合。
3)如果某个分区的最后一条数据元素的时间戳和与该分区相邻的下一个分区的第一条数据元素的时间戳相差≥时间间隔最小值,那么说明数据分区恰好将两个不同批次的状态匹配提取结果分隔了,此时不需要进行任何操作。
汇总节点采用zipPartitions算子来实现,如图4所示。
rdd06与自身开展分区拉链操作(zipPartitions),将两个迭代器组成的二元组(iter1,iter2)进行如下操作:
①调用iter1.next()方法,使得iter1迭代器索引移至第一个元素。
②创建1个ArrayBuffer[(String,String,Long,String)]类型的值result,用于逐条添加最终符合条件的数据元素。
③判断iter1是否有下一个元素,开展迭代操作:
a.调用iter1.next()方法,以获取数据元素data1;
b.调用iter2.next()方法,以获取数据元素data2,每次迭代data1都是data2紧邻的下一条数据;
c.获取data1中的起始时间戳数据t1;
d.获取data2中的终止时间戳数据t2;
e.判断t1-t2是否<时间间隔最小值,如果小于,那么融合data2和data1,添加到result中,如果不小于,那么将data2添加到result中。
④完成步骤3的迭代操作后,此时iter1没有下一个元素,而iter2还有最后一个元素,此时按照如下操作处理最后一条数据:
a.调用iter2.next()方法,以获取数据元素data2;
b.获取data2中的起始时间戳数据t1;
c.获取此时result最后一个数据的终止时间戳数据t2;
d.判断t1-t2是否≥时间间隔最小值,如果是,那么将data2添加到result中,如果不是,那么不做任何处理。
⑤返回result的迭代器,完成zipPartitions操作,生成最终事件提取的计算结果rdd07。由此得到目标类的有效载荷的事件提取结果,目标类的有效载荷的事件提取结果包括:汇总得到的事件序列。
可选地,在上述技术方案中,还包括:
S4、根据目标类的有效载荷的事件提取结果对目标类的有效载荷的剩余寿命和/或可靠性进行评估,得到评估结果。
在另外一个实施例中,把目标类的有效载荷的运行数据文件集划分为不同的子集,发送至不同的并行计算节点;每个并行计算节点执行相同的处理方式对各自接收到的子集进行处理,得到各并行计算节点的一次处理结果;在某个并行计算节点出现故障而导致计算任务失败的情况下,将该并行计算节点的计算任务调度到其他并行计算节点完成相同任务;设计主备两个汇总节点,各并行计算节点完成处理任务后,将一次处理结果发送至主汇总节点和备汇总节点;主汇总节点开展聚合统计处理,输出最终结果即事件提取结果,当主汇总节点出现故障时,将汇总任务调度至备汇总节点完成。
通过如下实例对本发明的技术效果进行说明:
1)有效载荷事件提取用数据源说明:
空间站有效载荷在运行过程,生成的时序数据包含北京时(BeijingTime)、传感器数据、离散状态数据等。其中,离散状态数据持续记录着有效载荷一些关键的工作状态。随着有效载荷运行模式的切换,这些工作状态会发生变化,从采集并下行的包含北京时间和离散状态数据的数据源中,地面人员可以通过一定的技术手段提取事件相关的信息,让用户掌握有效载荷在长期运行过程中的状态转换时间节点和对应状态的持续时长。
以某类有效载荷即目标类的有效载荷的实例来具体说明事件提取过程,该类有效载荷有个工作模式是喷气悬浮,喷气需要气瓶进行放气,由于气瓶的气体是有限的,需要持续跟踪喷气事件的情况,这样才能获知气体消耗的情况。
如表1所示,用于有效载荷气瓶放气事件提取的数据源,表1中,其中,BeijingTime字段是数据点产生的时间,为事件时间,精确到毫秒级;OutValveStatus为气瓶出口阀状态,一共包括两种取值,分别是代表关闭状态的00B以及代表开启状态的11B。
表1:
BeijingTime OutValveStatus
2021-04-29 11:31:30.241 00B
2021-04-29 11:31:30.332 00B
…… ……
2021-05-16 14:03:47.674 11B
…… ……
2)测试项及测试方法
①测试包括本地开发环境测试以及集群运行程序测试,具体的测试项见表2。
表2:
Figure BDA0004035240740000101
Figure BDA0004035240740000111
②测试过程及结果:
a.本地测试1
原始数据共有2564285条记录,记录了该有效载荷在轨工作近一年的数据,将该数据等分为3个子集,在本地处理时,数据保存在本地指定路径上。
经过textFile操作后,形成分区数为3的rdd01。rdd01经过filter算子后,生成的rdd02也保留了父级rdd01的分区,每个分区独立操作,不存在数据混洗(shuffle),经过测试,rdd02三个分区的数据量分别是57698、58287、47902。可见,数据经过filter后大幅度减少了。
得到每个并行计算节点的事件提取的一次处理结果,见表3。
表3:
Figure BDA0004035240740000112
表3中,序号1~7是并行计算节点一的一次处理结果,序号8~15是并行计算节点二的一次处理结果,序号16~21是并行计算节点三的一次处理结果。时间戳1列的第i个数据和时间戳2列的第i+1个数据构成了气瓶放气状态持续起止时间段。
汇总节点对接收到所有的一次处理结果进行聚合统计处理,得到目标类的有效载荷的事件提取结果下表4所示。表4:
序号 起始时间 终止时间 持续时长/ms 状态
1 2021-05-07 13:43:00.465 2021-05-07 13:44:00.136 59671 11B
2 2021-05-12 14:25:00.210 2021-05-12 16:01:30.167 5789957 11B
3 2021-05-16 13:35:00.199 2021-05-16 14:24:59.818 2999619 11B
4 2021-05-26 09:37:00.591 2021-05-26 10:58:30.173 4889582 11B
5 2021-06-01 12:29:30.567 2021-06-01 14:36:29.829 7619262 11B
6 2021-06-10 10:19:30.333 2021-06-10 12:36:29.903 8219570 11B
7 2021-07-14 09:43:00.248 2021-07-14 11:32:30.104 6569856 11B
8 2021-07-20 14:43:00.258 2021-07-20 16:32:30.182 6569924 11B
9 2021-07-24 15:17:30.724 2021-07-24 16:30:50.104 4399380 11B
10 2021-07-27 16:04:00.655 2021-07-27 17:00:59.785 3419130 11B
11 2021-07-29 09:03:30.241 2021-07-29 09:39:47.300 2177059 11B
12 2021-11-17 11:09:30.517 2021-11-17 11:44:00.126 2069609 11B
13 2021-11-29 16:31:30.570 2021-11-29 17:48:29.523 4618953 11B
14 2021-12-21 12:57:00.663 2021-12-21 15:40:00.078 9779415 11B
15 2021-12-28 09:21:00.368 2021-12-28 10:35:30.100 4469732 11B
16 2022-01-22 10:36:00.542 2022-01-22 11:32:09.079 3368537 11B
17 2022-02-18 09:39:50.784 2022-02-18 11:04:28.932 5078148 11B
18 2022-03-05 15:01:50.595 2022-03-05 15:32:05.748 1815153 11B
b.本地测试2
基于同样的数据源,分别在本地运行Spark程序和Matlab程序,对比测试两者的结果和处理时间,其中事件提取的结果两者完全一致,旁证了Spark程序的正确性。两者运行时间测试结果:
Spark程序耗时3771ms
Matlab程序耗时17.69s。
c.集群测试1
将Spark程序打包好后部署至集群系统,用下面的命令提交至集群系统进行测试:
bin/spark-submit\
--class com.atcsu.lev.LevN2GCEventExtract\
--master yarn\
--deploy-mode cluster\
--num-executors 3\
./userapp/jars/PayloadEventAnalysis.jar 10
程序成功执行,得到的结果和在本地测试结果一致。如图5所示为整个程序运行的时间线,如图6所示为整个程序运行的DAG图、如图7所示为整个程序运行的Stage0时间线。从整体时间线可以看出,首先是driver节点加入,然后是先后加入了3个任务执行节点。其中,耗时最长的是重分区操作,由于网络I/O带来了较长的耗时。DAG图可以明显看出程序分为两个阶段执行,符合程序设计的处理方案。Stage0时间线可以看出三个并行计算节点同步执行各自接收到的子集的事件提取任务。
d.集群测试2
开始执行程序后,在Driver进程运行的并行计算节点执行如下命令:
jps-m|grep 000001|cut-f1-d""|xargs kill-9
将Application Master进程人为终止,YARN集群会在另一个并行计算节点重新生成了一个appattempt,重新提交一遍应用,并且执行成功,如图8所示。
e.集群测试3
开始执行程序后,在集群系统中某个运行Executor进程的并行计算节点执行如下命令:
jps-m|grep 000004|cut-f1-d""|xargs kill-9
将Executor进程人为终止,YARN集群会在另一个并行计算节点开启1个新的Executor节点,并把任务调度到新开启的节点取执行,成功执行完成应用程序,如图9所示。
在上述各实施例中,虽然对步骤进行了编号S1、S2等,但只是本申请给出的具体实施例,本领域的技术人员可根据实际情况调整S1、S2等的执行顺序,此也在本发明的保护范围内,可以理解,在一些实施例中,可以包含如上述各实施方式中的部分或全部。
本发明实施例的一种空间站有效载荷分布式事件提取系统,包括工作站、汇总节点和多个并行计算节点;
工作站用于:按照预设分区和备份策略,将空间站的目标类的有效载荷的运行数据文件集划分为不同的子集,将所有的子集分发至不同的并行计算节点;
基于Spark框架,每个并行计算节点对各自接收到的子集进行并行事件提取处理,得到每个并行计算节点的事件提取的一次处理结果,并发送至汇总节点,汇总节点对接收到所有的一次处理结果进行聚合统计处理,得到目标类的有效载荷的事件提取结果。
可选地,在上述技术方案中,基于Spark框架,任一并行计算节点对该并行计算节点接收到的子集进行处理的过程,包括:
基于Spark框架,任一并行计算节点基于适配目标类的有效载荷的数据特点的参数,对该并行计算节点接收到的子集进行一次过滤操作、一次映射操作和多次分区拉链操作,得到该并行计算节点的事件提取的一次处理结果。
可选地,在上述技术方案中,基于Spark框架,汇总节点对接收到所有的一次处理结果进行聚合统计处理的过程,包括:
基于Spark框架,汇总节点对接收到接收到所有的一次处理结果进行一次拉链操作,得到所述目标类的有效载荷的事件提取结果。
可选地,在上述技术方案中,工作站还用于:根据目标类的有效载荷的事件提取结果对目标类的有效载荷的剩余寿命和/或可靠性进行评估,得到评估结果。
上述关于本发明的一种空间站有效载荷分布式事件提取系统中的各参数和各个单元模块实现相应功能的步骤,可参考上文中关于一种空间站有效载荷分布式事件提取方法的实施例中的各参数和步骤,在此不做赘述。
本发明实施例的一种存储介质,存储介质中存储有指令,当计算机读取指令时,使计算机执行上述任一项的一种空间站有效载荷分布式事件提取方法。
本发明实施例的一种电子设备,包括处理器和上述的存储介质,处理器执行存储介质中的指令。其中,电子设备可以选用电脑、手机等。
所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。
因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一一但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM),只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种空间站有效载荷分布式事件提取方法,其特征在于,包括:
按照预设分区和备份策略,将空间站的目标类的有效载荷的运行数据文件集划分为不同的子集,将所有的子集分发至不同的并行计算节点;
基于Spark框架,每个并行计算节点对各自接收到的子集进行并行事件提取处理,得到每个并行计算节点的事件提取的一次处理结果,并发送至汇总节点,所述汇总节点对接收到所有的一次处理结果进行聚合统计处理,得到所述目标类的有效载荷的事件提取结果。
2.根据权利要求1所述的一种空间站有效载荷分布式事件提取方法,其特征在于,基于Spark框架,任一并行计算节点对该并行计算节点接收到的子集进行处理的过程,包括:
基于Spark框架,任一并行计算节点基于适配所述目标类的有效载荷的数据特点的参数,对该并行计算节点接收到的子集进行一次过滤操作、一次映射操作和多次分区拉链操作,得到该并行计算节点的事件提取的一次处理结果。
3.根据权利要求1所述的一种空间站有效载荷分布式事件提取方法,其特征在于,基于Spark框架,汇总节点对接收到所有的一次处理结果进行聚合统计处理的过程,包括:
基于Spark框架,汇总节点对接收到接收到所有的一次处理结果进行一次拉链操作,得到所述目标类的有效载荷的事件提取结果。
4.根据权利要求1至3任一项所述的一种空间站有效载荷分布式事件提取方法,其特征在于,还包括:
根据所述目标类的有效载荷的事件提取结果对所述目标类的有效载荷的剩余寿命和/或可靠性进行评估,得到评估结果。
5.一种空间站有效载荷分布式事件提取系统,其特征在于,包括工作站、汇总节点和多个并行计算节点;
所述工作站用于:按照预设分区和备份策略,将空间站的目标类的有效载荷的运行数据文件集划分为不同的子集,将所有的子集分发至不同的并行计算节点;
基于Spark框架,每个并行计算节点对各自接收到的子集进行并行事件提取处理,得到每个并行计算节点的事件提取的一次处理结果,并发送至汇总节点,所述汇总节点对接收到所有的一次处理结果进行聚合统计处理,得到所述目标类的有效载荷的事件提取结果。
6.根据权利要求5所述的一种空间站有效载荷分布式事件提取系统,其特征在于,基于Spark框架,任一并行计算节点对该并行计算节点接收到的子集进行处理的过程,包括:
基于Spark框架,任一并行计算节点基于适配所述目标类的有效载荷的数据特点的参数,对该并行计算节点接收到的子集进行一次过滤操作、一次映射操作和多次分区拉链操作,得到该并行计算节点的事件提取的一次处理结果。
7.根据权利要求5所述的一种空间站有效载荷分布式事件提取系统,其特征在于,基于Spark框架,汇总节点对接收到所有的一次处理结果进行聚合统计处理的过程,包括:
基于Spark框架,汇总节点对接收到接收到所有的一次处理结果进行一次拉链操作,得到所述目标类的有效载荷的事件提取结果。
8.根据权利要求5至7任一项所述的一种空间站有效载荷分布式事件提取系统,其特征在于,所述工作站还用于:根据所述目标类的有效载荷的事件提取结果对所述目标类的有效载荷的剩余寿命和/或可靠性进行评估,得到评估结果。
CN202310003731.0A 2023-01-03 2023-01-03 一种空间站有效载荷分布式事件提取方法和系统 Active CN115964372B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310003731.0A CN115964372B (zh) 2023-01-03 2023-01-03 一种空间站有效载荷分布式事件提取方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310003731.0A CN115964372B (zh) 2023-01-03 2023-01-03 一种空间站有效载荷分布式事件提取方法和系统

Publications (2)

Publication Number Publication Date
CN115964372A true CN115964372A (zh) 2023-04-14
CN115964372B CN115964372B (zh) 2023-11-21

Family

ID=87357678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310003731.0A Active CN115964372B (zh) 2023-01-03 2023-01-03 一种空间站有效载荷分布式事件提取方法和系统

Country Status (1)

Country Link
CN (1) CN115964372B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116991562A (zh) * 2023-09-28 2023-11-03 宁波银行股份有限公司 一种数据处理方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190370407A1 (en) * 2018-05-30 2019-12-05 Ab Initio Technology Llc Systems and methods for dataflow graph optimization
CN111221839A (zh) * 2018-11-23 2020-06-02 北京京东金融科技控股有限公司 数据处理方法、系统、电子设备和计算机可读存储介质
CN111753019A (zh) * 2019-03-26 2020-10-09 北京沃东天骏信息技术有限公司 一种应用于数据仓库的数据分区方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190370407A1 (en) * 2018-05-30 2019-12-05 Ab Initio Technology Llc Systems and methods for dataflow graph optimization
CN111221839A (zh) * 2018-11-23 2020-06-02 北京京东金融科技控股有限公司 数据处理方法、系统、电子设备和计算机可读存储介质
CN111753019A (zh) * 2019-03-26 2020-10-09 北京沃东天骏信息技术有限公司 一种应用于数据仓库的数据分区方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
STEVEKANGPEI: "Spark编程之基本的RDD算子之zip,zipPartitions,zipWithIndex,zipWithUniqueId", pages 1, Retrieved from the Internet <URL:https://blog.csdn.net/stevekangpei/article/details/75808273> *
施建明等: "空间站有效载荷预测性维护支持系统设计", 《载人航天》, vol. 27, no. 3, pages 395 - 402 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116991562A (zh) * 2023-09-28 2023-11-03 宁波银行股份有限公司 一种数据处理方法、装置、电子设备及存储介质
CN116991562B (zh) * 2023-09-28 2023-12-26 宁波银行股份有限公司 一种数据处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN115964372B (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
CN111209131B (zh) 一种基于机器学习确定异构系统的故障的方法和系统
CN113282635B (zh) 一种微服务系统故障根因定位方法及装置
CN101477543B (zh) 用于自动化etl应用的系统和方法
CN107967485A (zh) 用电计量设备故障分析方法及装置
CN102998996A (zh) 一种飞机机载实时故障诊断方法
CN115964372A (zh) 一种空间站有效载荷分布式事件提取方法和系统
CN106155035A (zh) 基于维修类数据的故障诊断方法及故障诊断系统
Mancini et al. Anytime system level verification via random exhaustive hardware in the loop simulation
CN111782532B (zh) 一种基于网络异常节点分析的软件故障定位方法及系统
CN110489317A (zh) 基于工作流的云系统任务运行故障诊断方法与系统
JP2642438B2 (ja) プラント機器保守管理支援装置
CN105243180A (zh) 机电设备故障预警方法及系统
Gersting et al. A comparison of voting algorithms for n-version programming
CN107818106B (zh) 一种大数据离线计算数据质量校验方法和装置
CN115599621A (zh) 微服务异常诊断方法、装置、设备及存储介质
Dilenno et al. Fault tolerance testing in the advanced automation system
EP3958124B1 (en) Flight management system and method for reporting an intermitted error
CN107783896B (zh) 一种数据处理模型的优化方法和装置
CN112486748B (zh) 测试系统及其测试方法
CN112149288B (zh) 一种列车网络控制系统的可靠性预计方法
Kantz et al. Reliability modeling of the mars system: A case study in the use of different tools and techniques
Malefaki et al. Modeling software rejuvenation on a redundant system using Monte Carlo simulation
CN111046556B (zh) 考虑维修的含间歇性工作逻辑门的动态故障树仿真方法
CN109657699B (zh) 一种基于马尔科夫的动态故障树分析评价涡轮发动机的方法
CN117591508B (zh) 一种大数据场景下的数据质量保障方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant