CN111221919A

CN111221919A - 用于生成飞机故障预测分类器的系统和方法

Info

Publication number: CN111221919A
Application number: CN201911163986.3A
Authority: CN
Inventors: 拉希米·孙达雷斯瓦拉; 弗朗茨·大卫·贝茨; 蔡-青·卢
Original assignee: Boeing Co
Current assignee: Boeing Co
Priority date: 2018-11-27
Filing date: 2019-11-22
Publication date: 2020-06-02
Also published as: US20200167640A1; CA3061041A1; BR102019024782A2; US11907833B2; JP2020104839A; EP3660751A1; JP7386675B2

Abstract

本公开涉及一种用于生成飞机故障预测分类器的系统和方法。该方法包括接收包括多个特征向量的输入数据，并基于特征向量与故障发生的时间接近度来标记每个特征向量。故障发生的阈值时间接近度内的特征向量用第一标签值标记，而其他特征向量用第二标签值标记。该方法包括为子集的每个特征向量确定与特征向量相关联的标签正确的概率。该子集包括具有指示第一标签值的标签的特征向量。该方法包括重新分配子集的具有不满足概率阈值的概率的一个或多个特征向量的标签，并且在重新分配标签之后，使用包括多个特征向量和标签的监督式训练数据来训练飞机故障预测分类器。

Description

用于生成飞机故障预测分类器的系统和方法

技术领域

本公开总体上涉及生成飞机故障预测分类器。

背景技术

技术的进步导致交通工具上传感器的数量增加，例如，飞机、汽车、轮船、无人驾驶飞机、火箭、宇宙飞船等交通工具。这些传感器可以记录交通工具运输之前、期间和之后的数据。例如，参数飞行数据可以由飞行数据记录器(FDR)、快速访问记录器(QAR)、连续参数记录(CPL)系统、增强型机载飞行记录器(EAFR)或其他类型的传感器系统记录。该传感器数据可用于多种目的，包括故障预测。

执行故障预测的一种方法是基于模型的方法。例如，可以生成飞机的预期运行状态的基于物理的模型，并且可以将传感器数据与该模型进行比较，以预测故障状态。为了进一步说明，基于规则的模型使用由可访问预期值的逻辑表生成的规则来确定何时违反规则(例如，何时预测到故障)。一些基于模型的技术需要知道预期运行状态，这可使得确定是耗时的或资源密集的，并且可能使用大量的系统资源(例如，存储空间和处理资源)。此外，如果交通工具经历维护或以其他方式改变配置，由于这些变化，模型可能不再表示交通工具的运行状态。

发明内容

在具体实现方式中，一种方法包括：接收包括多个特征向量的输入数据。输入数据包括与一个或多个飞机相关联的传感器数据。该方法包括基于特征向量与故障发生的时间接近度，来标记多个特征向量中的每个特征向量。在故障发生的阈值时间接近度内的特征向量用第一标签值标记，而不在故障发生的阈值时间接近度内的特征向量用第二标签值标记。该方法包括为多个特征向量的子集中的每个特征向量，确定与特征向量相关联的标签值正确的概率。子集包括具有指示第一标签值的标签的特征向量。该方法包括重新分配子集的一个或多个特征向量的标签，所述一个或多个特征向量具有不满足概率阈值的概率。该方法还包括在重新分配一个或多个特征向量的标签之后，使用包括多个特征向量和与多个特征向量相关联的标签的监督式训练数据来训练飞机故障预测分类器。飞机故障预测分类器被配置为使用飞机的第二传感器数据来预测飞机的第二故障的发生。

在另一具体实现方式中，一种系统包括：处理器以及耦接到处理器并存储指令的存储器，指令可由处理器运行以执行以下操作，该操作包括接收包括多个特征向量的输入数据。输入数据包括与一个或多个飞机相关联的传感器数据。操作包括基于特征向量与故障发生的时间接近度来标记多个特征向量中的每个特征向量。在故障发生的阈值时间接近度内的特征向量用第一标签值标记，而不在故障发生的阈值时间接近度内的特征向量用第二标签值标记。操作包括为多个特征向量的子集中的每个特征向量，确定与特征向量相关联的标签值正确的概率。子集包括具有指示第一标签值的标签的特征向量。操作包括重新分配子集的一个或多个特征向量的标签，所述一个或多个特征向量具有不满足概率阈值的概率。操作还包括在重新分配一个或多个特征向量的标签之后，使用包括多个特征向量和与多个特征向量相关联的标签的监督式训练数据来训练飞机故障预测分类器。飞机故障预测分类器被配置为使用飞机的第二传感器数据来预测飞机的第二故障的发生。

在另一具体实现方式中，一种计算机可读存储装置，存储有指令，当由处理器执行指令时，指令促使处理器执行包括接收包括多个特征向量的输入数据的操作。输入数据包括与一个或多个飞机相关联的传感器数据。操作包括基于特征向量与故障发生的时间接近度，来标记多个特征向量中的每个特征向量。在故障发生的阈值时间接近度内的特征向量用第一标签值标记，而不在故障发生的阈值时间接近度内的特征向量用第二标签值标记。操作包括为多个特征向量的子集中的每个特征向量，确定与特征向量相关联的标签值正确的概率。子集包括具有指示第一标签值的标签的特征向量。操作包括重新分配子集的一个或多个特征向量的标签，一个或多个特征向量具有不满足概率阈值的概率。操作还包括在重新分配一个或多个特征向量的标签之后，使用包括多个特征向量和与多个特征向量相关联的标签的监督式训练数据来训练飞机故障预测分类器。飞机故障预测分类器被配置为使用飞机的第二传感器数据来预测飞机的第二故障的发生。

附图说明

图1是示出重新分配特征向量的标签以生成飞机故障预测分类器的系统的具体实现方式的框图；

图2示出了确定潜在特征状态值的序列的示例；

图3示出了基于概率重新分配标签的示例；

图4是生成飞机故障预测分类器的方法的示例的流程图；

图5是生成飞机故障预测分类器的方法的示例的流程图；

图6是与飞机故障预测系统相关联的方法的流程图；以及

图7是包括飞机故障预测系统的飞机的框图。

具体实施方式

参考附图描述了具体实现方式。在描述中，在所有附图中，共同的特征由共同的附图标记表示。如本文所使用的，各种术语仅用于描述具体实现方式的目的，并不旨在进行限制。例如，单数形式“一(a)”、“一个(an)”和“该(the)”也旨在包括复数形式，除非上下文另有明确指示。此外，术语“包括(comprise)”、“包含(comprises)”和“含有(comprising)”可以与“包括(include)”、“包含(includes)”或“含有(including)”互换。另外，应当理解，术语“其中(wherein)”可以与“其中(where)”互换使用。如本文所使用的，“示例性”可以指示示例、实现和/或方面，并且不应该被解释为限制或者指示偏好或优选实现。如本文所使用的，序数术语(例如，“第一”、“第二”、“第三”等)用于修饰元件，例如，结构、组件、操作等，本身并不表示该元件相对于另一个元件的任何优先级或顺序，而是仅仅将该元件与具有相同名称的另一个元件区分开来(但是用于序数术语)。如本文所使用的，术语“组”指一个或多个元件的分组，术语“多个”指多个元件。

在本公开中，诸如“确定”、“计算”、“生成”、“调整”、“修改”等术语可以用来描述如何执行一个或多个操作。应当注意，这些术语不应被解释为限制，并且可以利用其他技术来执行类似的操作。此外，如本文所述，“生成”、“计算”、“使用”、“选择”、“访问”和“确定”可以互换使用。例如，“生成”、“计算”或“确定”参数(或信号)可以指主动生成、计算或确定参数(或信号)，或者可以指使用、选择或访问已经生成的参数(或信号)，例如，另一组件或装置。另外，“调整”和“修改”可以互换使用。例如，“调整”或“修改”参数可以指将参数从第一值改变为第二值(“修改值”或“调整值”)。如本文所使用的，“耦接”可以包括“通信耦接”、“电耦接”或“物理耦接”，并且还可以(或者可替换地)包括其任何组合。两个装置(或组件)可以直接或经由一个或多个其他装置、组件、导线、总线、网络(例如，有线网络、无线网络或其组合)等间接耦接(例如，通信耦接、电耦接或物理耦接)。作为说明性的非限制性示例，电耦接的两个装置(或组件)可以包括在相同的装置或不同的装置中，并且可以经由电子器件、一个或多个连接器或电感耦接来连接。在一些实现中，通信耦接(例如，在电通信中)的两个装置(或组件)可以直接或间接地发送和接收电信号(数字信号或模拟信号)，例如，经由一条或多条导线、总线、网络等。如本文所使用的，“直接耦接”可以包括没有中间组件的两个耦合(例如，通信耦接、电耦接或物理耦接)的装置。

本文描述的实现方式描述了用于飞机(或其他交通工具)故障检测的无模型系统和方法。这种方法对于来自任何飞行阶段的任何类型的时间序列飞行传感器数据都是通用的。本文描述的技术在监督式学习算法中使用潜在特征状态值(1atent feature statevalues)序列(例如，时间签名)以生成飞机故障预测分类器。

潜在特征状态值的序列基于来自飞行传感器(或其他交通工具传感器)的参数数据来确定，并在训练飞机故障预测分类器时用作特征向量，如本文进一步描述的。在特定示例中，对来自传感器的数据执行聚类操作，以生成潜在特征状态值，并且确定采样周期内潜在特征状态值的序列，以生成特征向量。

一旦生成特征向量，基于每个特征向量(例如，潜在特征状态值序列)与故障发生的时间接近度，来标记特征向量。例如，与在故障特定范围内(例如，故障前三分钟)的时间段相关联的特征向量用第一标签值(例如，对应于“前体”的数值)来标记，而与不在故障特定范围内的时间段相关联的特征向量用第二标签值(例如，对应于“正常”的数值)来标记。在这一阶段，特征向量仅基于其与故障发生的时间接近度而被识别为故障状态的前体。然而，并非故障之前的每个潜在特征状态值的序列实际上归因于故障或与故障相关联，因此，基于与故障发生的时间接近度来标记每个特征向量导致一些特征向量的误报标签(falsepositive label)。

为了减少故障状态前体的误报识别的数量，确定特征向量的子集的每个特征向量被正确标记的概率。在具体实现方式中，标记的特征向量作为训练数据而被提供给概率分类器(例如，随机森林回归预测器)以确定概率。随机森林回归预测器被训练以对多个特征向量和标签执行回归分析，以输出回归值(regression values)，其中，回归值指示对于给定的多个特征向量，特征向量的子集中的特征向量被正确标记的概率。特征向量的子集包括用第一标签值标记的特征向量(例如，在故障的特定范围内并且用对应于“前体”的数值标记的特征向量)。特征向量的子集中具有不满足概率阈值的概率的特征向量用第二标签值(例如，对应于“正常”的数值)重新标记。子集之外的特征向量(例如，用对应于“正常”的数值标记的特征向量)和具有不满足概率阈值的概率的子集的特征向量不重新标记。因此，概率用于将错误地标记为故障前体的一些特征向量重新分类为正常特征向量(例如，不是故障前体)。

在重新分配一个或多个特征向量的标签之后，标记的特征向量用作飞机故障预测分类器的训练数据。飞机故障预测分类器被训练成基于输入数据预测故障的发生(例如，识别作为故障前体的潜在特征状态值的序列)。在具体实现方式中，飞机故障预测分类器包括随机森林分类器，随机森林分类器被配置为基于输入的特征向量输出标签(例如，第一标签或第二标签)。(在生成潜在特征状态值的特征向量之后)可以对飞机的实时(或接近实时)传感器数据执行飞机故障预测分类器，以预测飞机的故障。在一些实现中，飞机故障预测分类器生成指示预测的发生和与预测相关联的特定修复或组件的提示。此外，或者可替换地，飞机故障预测分类器可以基于预测来重新制定飞机的修复计划。因此，本文描述的实现方式描述了一种数据驱动的方法，该方法在无需时间序列数据的大量人工标记的情况下确定故障之前的潜在特征状态值的序列以用于故障预测和修复，并且减少了故障(或故障前体)的误报识别。

图1示出了生成一个或多个飞机故障预测分类器的系统100的具体实现方式的示例。系统100包括一个或多个传感器102、计算装置104和显示装置106。在具体实现方式中，系统100集成到交通工具中。作为说明性的非限制性示例，例如，系统100可以集成在飞机、无人驾驶飞机(UAV)(例如，无人机)、汽车、火车、摩托车、公共汽车、轮船或船、火箭、航天器、自主车辆或其他交通工具中。在其他实现中，一个或多个组件可以在交通工具外部，例如，传感器102、计算装置104、显示装置106或其组合。

传感器102被配置为执行交通工具的一个或多个方面或特征的读取，以生成传感器数据150。在具体实现方式中，传感器102耦接到一个或多个飞机，并且传感器102被配置为在一个或多个飞机飞行之前、期间和之后生成传感器数据150。传感器102可以包括多种类型的传感器。作为说明性示例，传感器102可以包括速度传感器、高度传感器、压力传感器、控制表面传感器(例如，襟翼位置指示器)、起落架位置指示器、燃料流速传感器、发动机传感器(例如，发动机每分钟转数(RPM)传感器)、振动传感器、温度传感器、其他传感器或其组合。

传感器数据150包括指示一个或多个参数(例如，变量)的值的时间序列数据。为了说明，传感器102被配置为连续地或以离散的间隔测量一个或多个特性。测量值可以称为样本，以及测量速率可以称为采样率。作为非限制性示例，传感器数据150包括度量FAMV的温度、压力和位置的风扇空气调节阀(FAMV)传感器值。作为另一非限制性示例，传感器数据150包括度量FCV的高度和位置的流量调节阀(FCV)传感器值。在其他示例中，传感器数据150包括其他类型的传感器值。在一些实现中，对传感器数据150进行时间标记。在其他实现中，传感器数据150包括开始时间和采样率，并且传感器数据由计算装置104或由另一组件(例如，飞机的另一处理器或控制器)进行时间标记或同步。

在一些实现中，计算装置104耦接到传感器102，并且被配置为从传感器102获得传感器数据150。在具体实现方式中，计算装置104经由网络耦接到传感器102。该网络可以包括有线网络或无线网络。网络可以根据一个或多个无线通信协议来配置，例如，电气和电子工程师协会(IEEE)协议、Wi-Fi联盟协议、

协议、

协议、近场通信协议、蜂窝协议、长期演进(LTE)协议或其组合。蓝牙是蓝牙技术联盟(SIG)的注册商标，以及Zigbee是Zigbee联盟的注册商标。在另一具体实现方式中，计算装置104耦接到飞机的传感器系统的接口(例如，总线)，并且被配置为经由接口接收传感器数据150。在其他实现中，计算装置104在飞机外部，并且被配置为从一个或多个中间装置接收传感器数据150，一个或多个中间装置例如是飞机中存储传感器数据150的数据存储装置或其他存储器。在一些实现中，经由一个或多个中间装置(例如，存储传感器数据150的服务器)从多个飞机接收传感器数据150。

在一些实现中，传感器数据150来自特定飞机飞行之前、期间和之后的传感器读数。例如，传感器数据150可以包括来自一个航班的多个航段或多个不同航班的多个航段的传感器数据。另外，传感器数据150可以包括来自其他飞机飞行之前、期间和之后的传感器读数。例如，传感器数据150可以包括来自多个不同飞机的特定飞行航段、多个不同飞机的不同飞行的不同航段或其任意组合的传感器数据。

计算装置104包括输入接口110、耦接到输入接口110的处理器112以及耦接到处理器112的存储器114。在具体实现方式中，输入接口110、处理器112和存储器114经由总线或其他接口耦接在一起。作为非限制性示例，输入接口110被配置为从用户输入装置(例如，键盘、鼠标、触摸屏、相机(用于手势命令)、麦克风(用于语音命令)或其组合)接收用户输入。存储器114包括易失性存储器、非易失性存储器或其组合。处理器112被配置为执行存储在存储器114中的指令，以执行本文描述的操作。

在图1所示的实现中，指令包括特征向量生成指令120、标记指令122、概率确定指令124、标签重新分配指令126和分类器生成指令128。特征向量生成指令120被配置为基于传感器数据150生成特征向量130，如本文进一步描述的。标记指令122被配置为用第一标签136来标记特征向量130，如本文进一步描述的。概率确定指令124被配置为确定第一标签136的子集中的每一个标签是正确的概率，如本文进一步描述的。标签重新分配指令126被配置为基于概率来重新分配一个或多个第一标签136以生成第二标签138，如本文进一步描述的。分类器生成指令128被配置为生成和训练飞机故障预测分类器140，如本文进一步描述的。

显示装置106耦接到计算装置104，并被配置为基于来自计算装置104的数据显示输出。例如，显示装置106可以包括屏幕、触摸屏、监视器或其他类型的显示装置。尽管图示为在计算装置104外部，但是在其他实现中，显示装置106集成在计算装置104内。

在操作期间，处理器112接收传感器数据150。传感器数据150包括传感器读数和相应时间的时间序列数据。处理器112还接收故障数据132，故障数据可以存储在存储器114中。故障数据132指示在一个或多个飞机上检测到故障的时间。例如，故障数据132指示一个或多个飞机生成维护消息的时间，维护消息指示故障的发生。

特征向量生成指令120基于传感器数据生成特征向量130。特征向量130包括在多个采样时间周期上的潜在特征状态值的序列，其中，一个潜在特征状态值对应于一个采样时间周期。为了确定潜在特征状态值，处理器112对传感器数据150执行聚类操作，以将传感器数据150分组为潜在特征状态值。聚类操作可以包括任何类型的聚类操作，例如，质心聚类操作(例如，k均值、k-中间值、k中心点等)、分布聚类操作、期望最大化(EM)聚类操作、分层聚类操作、密度聚类操作(例如，DBSCAN)、其他类型的聚类操作或其任意组合。在具体实现方式中，每个潜在特征状态值对应于j维特征空间中的聚类，其中，j是传感器数据150中的传感器变量类型的数量。参考图2进一步描述生成潜在特征状态值的额外细节。在确定潜在特征状态值之后，基于潜在特征状态值生成特征向量130。例如，第一特征向量包括潜在特征状态值的第一序列(例如，第一特征向量的每个元素指示潜在特征状态值)，并且第二特征向量指示潜在特征状态值的第二序列。

在具体实现方式中，生成潜在特征状态值的序列可以减小传感器数据150的大小。例如，与存储全部传感器数据150相比，生成存储为特征向量130的潜在特征状态值的序列，减少了要存储在存储器114中的信息量。为了进一步说明，代替存储在每个采样时间的多个测量值，该时间周期的传感器数据150被表示为单个潜在特征状态值。因此，可以通过将传感器数据150转换成特征向量130，来减少存储器114处的存储空间。

在生成潜在特征状态值之后，特征向量生成指令120确定潜在特征状态值的序列，并且潜在特征状态值的这些序列是特征向量130。例如，n个时间步长的滚动窗口被用于将n个潜在特征状态值的序列识别为特征向量。例如，特征向量的每个元素基于与潜在特征状态值相关联的时间步长指示序列中的潜在特征状态值。

在生成特征向量130之后，标记每个特征向量130。例如，标记指令122被配置为用第一标签值或第二标签值来标记每个特征向量。第一标签值对应于被识别为故障前体的特征向量，以及第二标签值对应于“正常”特征向量(例如，不是故障前体的特征向量)。例如，每个特征向量用数值标记，例如，对应于前体的第一数值(例如，1)或对应于“正常”特征向量的第二数值(例如，0)。每个特征向量130的标签作为第一标签136存储在存储器114中。

基于特征向量130与故障发生的时间接近度来标记每个特征向量130。为了说明，标记指令122访问故障数据132，以确定故障发生的时间(例如，生成维护消息的时间)。另外或替代地，至少一些传感器数据150包括历史数据，历史数据包括具有相应故障指示的至少一些数据(例如，当被计算装置104接收时，至少一些传感器数据150可以被标记)。在故障的阈值时间接近度(例如，m秒)内发生的潜在特征状态值的序列用第一标签值(例如，1)标记，而不在故障发生的阈值时间接近度内的特征向量用第二标签值(例如，0)标记。作为特定示例，与故障发生前三分钟的时间段相对应的每个特征向量用第一标签值(例如，1，对应于“前体”)来标记。在该示例中，与不是故障发生前三分钟的时间段相对应的特征向量用第二标签值(例如，0，对应于“正常”)来标记。在其他示例中，m小于3分钟或大于3分钟(例如，180秒)。

基于正确识别导致故障的潜在特征状态值的序列和减少误报识别的数量的竞争问题来选择m的值。例如，增大m会增加初始用第一标签值标记的特征向量(例如，潜在特征状态值的序列)的数量，这增加了识别导致故障的特征向量的可能性，但是也增加了误报的特征向量的数量(例如，用第一标签值标记，但是实际上与故障无关)。减小m会减少起初用第一标签值标记的特征向量的数量，这减少了误报的数量，但也降低了识别正确特征向量的可能性。

在生成第一标签136之后，确定第一标签136的子集是正确的概率。例如，概率确定指令124被配置为针对特征向量130的子集的每个特征向量，确定与特征向量相关联的标签正确的概率。概率用于重新标记一个或多个特征向量130，如本文进一步描述的。子集包括具有指示第一标签值(例如，1，对应于“前体”)的标签的特征向量。例如，概率确定指令124被配置为确定用第一标签值标记的特征向量被正确标记的概率。

在具体实现方式中，概率确定指令124被配置为生成和训练概率预测器134。概率预测器134被配置为确定正确标记每个特征向量的概率。在具体实现方式中，概率预测器134包括随机森林回归预测器。例如，随机森林回归预测器包括使用监督式学习过程训练的多个回归决策树，该监督式学习过程使用特征向量130和第一标签136作为输入。每个决策树被配置为基于特征向量130的特征的随机采样输出数值，并且多个回归决策树的输出在一起平均，以生成随机森林回归预测器的输出。因为多个回归决策树的输出在一起平均，所以随机森林回归预测器降低了过度拟合训练数据的可能性，同时保持了复杂度和预测速度的可接受水平。

回归随机森林预测器将提供给回归随机森林预测器的每个训练和测试特征向量的回归值返回。回归值被解释为每个特征向量与其类别(例如，前体或正常)关联程度的数据驱动置信度。这是可行的，因为特征向量130的初始标签是数字的(例如，1对应于前体，以及0对应于正常)。因此，在训练随机森林回归预测器之后，特征向量130的子集被提供给随机森林回归预测器，并且随机森林回归预测器的输出(例如，回归值)被用于确定正确标记特征向量130的子集的每个特征向量的概率。

在其他实现中，概率预测器134包括不同类型的预测器，例如，神经网络预测器、支持向量机预测器、贝叶斯预测器、感知器预测器或其他类型的预测器。概率预测器134的使用使得能够使用机器学习技术有效地确定概率。

在确定与子集(例如，用第一标签值标记的特征向量)相关联的概率之后，重新分配一个或多个第一标签136，以生成第二标签138。例如，标签重新分配指令126被配置为重新分配特征向量130的子集的一个或多个特征向量的标签。一个或多个特征向量(例如，具有重新分配的标签的特征向量)在重新分配之前，具有指示第一标签值(例如，1，对应于“前体”)的标签，并且具有不满足概率阈值的概率。例如，用第一标签值(例如，对应于“前体”)标记并且具有不满足概率阈值的概率(例如，基于概率预测器134的输出)的一个或多个特征向量用第二标签138中的第二标签值(例如，0，对应于“正常”特征向量)重新标记。尽管被称为用数字标签值(例如，0或1)重新标记，但是在其他实现中，所有标签可以使用分类标签值(例如，“前体”或“正常”)来标记。因此，基于具有第二标签值的概率，重新标记在故障发生的阈值时间接近度内的一个或多个特征向量(子集中初始用第一标签值标记的一个或多个特征向量)。重新标记一个或多个特征向量，减少了特征向量识别为“前体”的误报，因为基于相应的概率，一个或多个特征成为故障原因的可能性较低。另外，一些第一标签136没有重新标记。例如，标签重新分配指令126被配置为禁止重新标记具有指示第二标签值的标签的特征向量(例如，被标记为“正常”的特征向量)。作为另一示例，标签重新分配指令126被配置为禁止标记子集中具有满足概率阈值的概率的特征向量(例如，被标记为“前体”的特征向量)。因此，可能与故障相关的特征向量保持用第一标签值标记(例如，作为“前体”)。

在重新分配标签(例如，生成第二标签138)之后，对飞机故障预测分类器140进行训练。例如，分类器生成指令128被配置为生成和训练飞机故障预测分类器140。使用包括特征向量130和第二标签138的训练数据来训练飞机故障预测分类器140。例如，每个特征向量被标记为“前体”或“正常”(使用数字标签值或分类标签值)，并且在监督式学习过程中使用标记的特征向量训练飞机故障预测分类器140，以基于输入传感器数据预测飞机故障的发生。训练数据优选地包括用第一标签值(例如，“前体”)标记的多个特征向量和用第二标签值(例如，“正常”)标记的多个特征向量。

在具体实现方式中，飞机故障预测分类器140包括随机森林分类器。随机森林分类器包括多个决策树分类器，其基于特征向量130和第二标签138使用监督式学习过程来训练，以确定输入特征向量是与第一标签值(例如，1或“前体”)还是第二标签值(例如，0或“正常”)相关联。使用从特征向量130中随机(或伪随机)选择的特征来训练每个决策树分类器，以输出分类(例如，将输入特征向量标记为“前体”或“正常”)。使用多数投票过程聚集多个决策树分类器的输出。例如，如果对于给定的输入特征向量，输出“前体”的决策树分类器多于输出“正常”，则随机森林分类器的输出是“前体”。因为随机森林分类器的输出是多个决策树分类器的输出的集合，所以随机森林分类器降低了过度拟合训练数据的可能性，同时保持了复杂度和分类速度的可接受水平。因此，随机森林分类器的输出是与输入特征向量相关联的标签值。尽管被描述为随机森林分类器，但是在其他实现中，飞机故障预测分类器140包括不同类型的分类器，例如，神经网络分类器、支持向量机分类器、贝叶斯分类器、感知器分类器或其他类型的分类器。

在具体实现方式中，在飞机运行期间，计算装置104从传感器102接收实时传感器数据152(或接近实时的传感器数据)。如本文所使用的，实时或接近实时接收的传感器数据是指在飞机(或其他交通工具)运行期间生成并且在执行任何处理之后从传感器102接收的传感器数据。例如，传感器102被配置为监测飞机，以生成实时传感器数据152并将实时传感器数据152传递(或处理和传递)到计算装置104。与可以包括来自多架飞机(例如，具有相同类型的多架飞机、多种不同类型飞机或其组合)的历史传感器数据的传感器数据150不同，实时传感器数据152是在特定飞机飞行(或以其他方式运行)时从特定飞机接收的。处理器112执行特征向量生成指令120，以基于实时传感器数据152生成额外特征向量。根据用于生成特征向量130的过程来生成额外特征向量。在生成额外特征向量之后，额外特征向量提供给飞机故障预测分类器140，飞机故障预测分类器140基于实时传感器数据152(例如，基于额外特征向量)输出是否预测到故障的指示。因此，飞机故障预测分类器140可用于基于来自飞机(或其他交通工具)的实时传感器数据，预测在飞机(或其他交通工具)运行期间是否发生故障。

在具体实现方式中，处理器112被配置为执行飞机故障预测分类器140。例如，计算装置104可以在飞机中实现，并且处理器112被配置为在飞机飞行期间执行飞机故障预测分类器140，以预测故障的发生。可替换地，飞机故障预测分类器140可以由计算装置104生成，并提供给另一装置执行。例如，计算装置104可以在地面基站中实现，并且飞机故障预测分类器140可以在地面基站生成，然后提供给飞机以在飞机运行期间执行。飞机执行特征生成指令，以基于实时传感器数据生成特征向量，并将特征向量提供给飞机故障预测分类器140，以用于预测飞机的故障状态。

在具体实现方式中，处理器112被配置为生成图形用户界面(GUI)160，用于在显示装置106上显示。例如，存储器114存储可由处理器112执行的GUI生成指令。GUI 160指示飞机故障预测分类器140对实时传感器数据152的执行结果。作为特定示例，GUI 160可以包括提示162，该提示指示预测发生故障以及与预测发生故障相关联的特定修复。为了说明，存储在存储器114中的数据可以将潜在特征状态值的一个或多个序列(例如，特征向量)与特定类型的故障相关联，并且特定类型的故障可以与要在飞机上执行的不同修复相关联。处理器112在将特定特征向量与相应的修复匹配之后发出提示162。作为另一特定示例，GUI160可以包括修复计划164的指示，并且可以基于故障发生的预测来重新制定修复计划。例如，由于飞机故障预测分类器140对故障的预测，可以加速飞机的预定安排的修复或停机时间。

系统100能够以快速有效的方式生成飞机故障预测分类器140。因为基于特征向量130(例如，基于传感器数据150)训练飞机故障预测分类器140，所以与为了模拟飞机的运行状态而生成的基于物理的模型相比，本文描述的技术是数据驱动的。这些基于物理的模型可能需要很长时间研发，并且会使用大量的处理和存储资源。作为另一优点，用于训练飞机故障预测分类器140的训练数据由系统100标记，从而减少(或消除)由用户执行的时间序列数据的标记。此外，因为特征向量130在用作训练数据之前重新标记，所以减少了飞机故障预测分类器140对故障的误报识别。因此，系统100能够生成这样的飞机故障预测分类器140，其减少飞机的修复时间或停机时间，并且具有较少的故障误报识别，这提高了飞机故障预测分类器140的效用。

参考图2，示出了确定潜在特征状态值的序列的示例，并且总体上指定为200。基于图1的传感器数据150来确定潜在特征状态值的序列。一旦确定潜在特征状态值的序列，序列的值被存储为特征向量130。

为了确定潜在特征状态值的序列，传感器数据150首先被转换成潜在特征状态值。为了将传感器数据150转换成潜在特征状态值，对传感器数据150执行聚类操作。聚类操作基于数据点的特征和关系将传感器数据150的元素(例如，数据点)分组为j维特征空间中的聚类，其中，j是传感器数据150中传感器变量(例如，参数)的类型的数量。因为传感器数据150在聚类之前没有标记，所以使用无监督学习过程来执行聚类。

在具体实现方式中，对传感器数据150执行k均值聚类，以将传感器数据150聚类在特征空间中。为了说明，确定聚类的数量，并且初始在特征空间中设置每个聚类的聚类中心。在具体实现方式中，基于用户输入、基于数据的额外分析或以某种其他方式来确定聚类的数量。在初始化特征空间中的每个聚类中心之后，数据点添加到各个聚类中，并且修改聚类中心的位置。例如，响应于确定第一数据点更靠近第一聚类而不是任何其他聚类，将第一数据点添加到第一聚类，并且第一聚类的中心位置被修改(例如，更新)为在初始聚类中心的位置和第一数据点的位置之间。在具体实现方式中，更新聚类中心，使得聚类中心和第一聚类中的每个数据点之间的欧几里德的平方最小。可以以类似的方式向聚类添加额外的点。例如，可以基于第二数据点更靠近第二聚类的聚类中心而不是任何其他聚类的中心，而将第二数据点添加到第二聚类，并且基于第二数据点的位置，更新第二聚类的聚类中心的位置。第一聚类操作继续，直到所有数据点(例如，传感器数据150的数据点)都分配给相应的聚类，并且基于分配更新每个聚类中心的位置。

在另一实现中，对传感器数据150执行k中心点聚类操作，以确定潜在特征状态值。k中心点聚类操作类似于k均值聚类操作，除了聚类中心更新到聚类中数据点的位置，该位置使聚类中心的位置和聚类中每个数据点的位置之间的差异最小。与k均值聚类操作相比，k中心点聚类操作对噪声和异常值更鲁棒。

在另一具体实现方式中，对传感器数据150执行高斯混合模型(GMM)聚类操作，例如，狄利克莱过程GMM(DPGMM)聚类操作，以确定潜在特征状态值。为了说明，基于每个聚类中心周围的数据点正态分布这一假设来确定聚类中心。具体而言，DPGMM假设一个无限混合模型，狄利克莱过程是GMM中混合模型数量的先验分布，其中，“混合”对应于状态或聚类。在DPGMM中，根据分布G(μ)来计算最适合数据的聚类的数量，该分布可以由等式1定义。

聚类均值(cluster means)

的值根据分布H(λ)分布(其中H(λ)表示用户对聚类分布的先验假设，并且可以分配为具有用户选择的参数λ的任何参数分布)。δ_μk是指示函数。关于π_k的分布在无限组聚类上是对称的，其中，π_k是数据点属于第k个聚类的先验概率。基于带参数λ、遍及聚类数的狄利克莱过程分布和聚类中的点内的高斯模型分布的假设找到描述数据的最佳聚类数(转化为潜在特征状态数)，意味着找到聚类概率及其相关均值的后验分布。在具体实现方式中，通过对聚类数量的后验概率进行马尔科夫链蒙特卡罗(MCMC)采样，来确定聚类数量。

在其他实现中，执行其他类型的聚类操作，例如，分层聚类、均值漂移聚类操作、连通性聚类操作、密度聚类操作(例如，DBSCAN)、分布聚类操作、EM聚类操作或其他类型的聚类操作或算法。

每个聚类表示特征空间中的潜在特征状态值。在将传感器数据150聚类成潜在特征状态值之后，确定潜在特征状态值的序列。在图2所示的示例中，传感器数据150被聚类成四个聚类中的一个，并且每个聚类表示四种状态中的一种：第一状态、第二状态、第三状态和第四状态。在每个时间t，可以基于对应于时间t的数据点被聚类操作放置到哪个聚类，来确定潜在特征状态值。在图2所示的示例中，作为聚类操作的结果，时间t1与第二状态相关联，时间t2与第二状态相关联，时间t3与第一状态相关联，时间t4与第三状态相关联，时间t5与第三状态相关联，时间t6与第四状态相关联，时间t7与第一状态相关联，时间t8与第三状态相关联，时间t9与第二状态相关联，并且时间t10与第四状态相关联。在其他示例中，传感器数据150被聚类成少于四个或多于四个聚类。

在基于传感器数据150确定潜在特征状态值之后，确定潜在特征状态值的序列。在具体实现方式中，通过将滚动窗口215应用于潜在特征状态值来确定序列。例如，可以将具有n个样本的滚动窗口应用于潜在特征状态值，以确定具有长度n的潜在特征状态值的序列。在图2所示的示例中，n是四个时间步长。时间步长可以对应于时间的任何增量，并且在其他实现中，n小于四个或多于四个时间步长。在图2的示例中，选择具有长度n的潜在特征状态值的序列(也称为潜在特征的时间序列(TSLF))，生成潜在特征状态值的第一序列202、潜在特征状态值的第二序列204、潜在特征状态值的第三序列206、潜在特征状态值的第四序列208、潜在特征状态值的第五序列210、潜在特征状态值的第六序列212和潜在特征状态值的第七序列214。潜在特征状态值的第一序列202对应于时间t1至t4，潜在特征状态值的第二序列204对应于时间t2至t5，潜在特征状态值的第三序列206对应于时间t3至t6，潜在特征状态值的第四序列208对应于时间t4至t7，潜在特征状态值的第五序列210对应于时间t5至t8，潜在特征状态值的第六序列212对应于时间t6至t9，以及潜在特征状态值的第七序列214对应于时间t7至t10。可以从时间t8、t9、t10、t11等开始确定潜在特征状态值的额外序列。

潜在特征状态值的序列202至214包括与连续时间步长相关联的n个特征值的序列。在图2所示的示例中，潜在特征状态值的第一序列202包括第二状态，接着是第二状态，接着是第一状态，接着是第三状态。潜在特征状态值的第二序列204包括第二状态，接着是第一状态，接着是第三状态，接着是第三状态。潜在特征状态值的第三序列206包括第一状态，接着是第三状态，接着是第三状态，接着是第四状态。潜在特征状态值的第四序列208包括第三状态，接着是第三状态，接着是第四状态，接着是第一状态。潜在特征状态值的第五序列210包括第三状态，接着是第四状态，接着是第一状态，接着是第三状态。潜在特征状态值的第六序列212包括第四状态，接着是第一状态，接着是第三状态，接着是第二状态。潜在特征状态值的第七序列214包括第一状态，接着是第三状态，接着是第二状态，接着是第四状态。

潜在特征状态值的序列202至214可以存储为特征向量130。为了说明，确定特征向量130的第一特征向量包括确定第一时间周期的第一组采样时间周期(例如，t1至t4)内的潜在特征状态值的第一序列202。第一特征向量的每个元素包括潜在特征状态值的第一序列202的相应潜在特征状态值。在图2的示例中，第一特征向量包括基于潜在特征状态值的第一序列202的潜在特征状态值[2，2，1，3]。为了进一步说明，确定特征向量130的第二特征向量包括在第二时间周期的第二组采样时间周期(例如，t2至t5)内确定潜在特征状态值的第二序列204。第二特征向量的每个元素包括潜在特征状态值的第二序列204的相应潜在特征状态值。在图2的示例中，第二特征向量包括[2，1，3，3]。此外，如图2所示，与一个特征向量相关联的时间周期可以与和另一特征向量相关联的时间段重叠。例如，第一特征向量和第二特征向量都与t2至t4的重叠时间段相关联(例如，由于在每个连续的时间步长应用滚动窗口215)。类似地，第三特征向量包括[1，3，3，4]，第四特征向量包括[3，3，4，1]，第五特征向量包括[3，4，1，3]，第六特征向量包括[4，1，3，2]，以及第七特征向量包括[1，3，2，4]。

在确定对应于潜在特征状态值的序列202至214的特征向量之后，标记特征向量。基于特征向量与故障的时间接近度进行标记。为了说明，传感器数据150包括与不同时间相关的历史传感器数据，并且故障数据132指示在不同时间发生故障。在具体实现方式中，通过飞机生成维护消息来指示故障。为了标记的目的，尺寸为n的滚动窗口215被用于确定潜在特征状态值的序列(以及相应的特征向量)，并且与在故障发生之前的时间量m(例如，阈值时间接近度)内的时间相关联的特征向量被标记为“前体”，而其他特征向量被标记为“正常”。在具体实现方式中，n是十五秒，m是三分钟。在其他实现中，n和m具有其他值。

为了说明，在图2的示例中，故障218在时间t12发生。在故障218发生的阈值时间接近度216内的特征向量用第一标签值220标记，而不在故障218发生的阈值时间接近度216内的特征向量用第二标签值222标记。例如，对应于潜在特征状态值的第五序列210、潜在特征状态值的第六序列212、和潜在特征状态值的第七序列214的特征向量被分配有第一标签值220(例如，1，对应于“前体”)，因为潜在特征状态值的这些时间序列完全出现在阈值时间接近度216内。作为另一示例，对应于潜在特征状态值的第一序列202、潜在特征状态值的第二序列204、潜在特征状态值的第三序列206、和潜在特征状态值的第四序列208的特征向量，分配第二标签值222(例如，0，对应于“正常”)，因为潜在特征状态值的时间序列的至少一部分出现在阈值时间接近度216之外。因此，与在故障218发生的阈值时间接近度216内的时间相关联的特征向量初始被标记为“前体”，而与不在故障218发生的阈值时间接近度216内的时间相关联的特征向量初始被标记为“正常”。如参考图1进一步描述的，基于与特征向量相关联的概率重新标记这些特征向量中的一个或多个，从而降低误报率(例如，将潜在特征状态值的序列识别为前体的比率，即使潜在特征状态值的序列不是故障的近因)。

因此，图2示出了将传感器数据(例如，图1的传感器数据150)转换成潜在特征状态值的序列。基于潜在特征状态值的序列存储特征向量，而不是存储全部传感器数据，减少了存储器114中对存储空间的使用。此外，特征向量可以基于与故障发生的时间接近度进行初始标记。初始标记特征向量的这种技术提供了“过程”标记，这可以通过基于与特征向量相关联的概率值重新分配一个或多个标签来“微调”，如参考图1进一步描述的。

参考图3，示出了基于概率重新分配标签的示例，并且通常被指定为300。生成多个特征向量302至308。例如，特征向量302至308包括或对应于图1的特征向量130。如参考图2所述，特征向量指示潜在特征状态值的序列。在图3的示例中，第一特征向量302包括[3，2，4，1]，第二特征向量304包括[2，4，1，2]，第三特征向量306包括[2，2，1，3]，以及第四特征向量308包括[2，1，3，3]。在其他示例中，特征向量具有其他值，并且可以生成少于四个或多于四个的特征向量。

在确定特征向量302至308之后，基于特征向量是否在故障发生的阈值时间接近度内而向特征向量302至308分配标签，如参考图2所述。在该初始标记过程中，确定第一特征向量302和第二特征向量304在故障发生的阈值时间接近度内，并且第三特征向量306和第四特征向量308不在故障的阈值时间接近度内。因此，第一特征向量302的标签320和第二特征向量304的标签322分配有第一标签值(例如，1，对应于“前体”)，并且第三特征向量306的标签324和第四特征向量308的标签326分配有第二标签值(例如，0，对应于“正常”)。

在初始标签分配之后，确定初始标签分配对于特征向量302至304是正确的概率。如参考图1所解释的，特征向量302至308和相应的标签320至326用作训练数据来训练概率分类器，例如，随机森林回归分类器。使用概率分类器，确定相应特征向量的初始标签分配正确的概率值。在图3的示例中，第一特征向量302被分配0.9的概率310，以及第二特征向量304被分配0.43的概率312。第三特征向量306和第四特征向量308的概率无关重要，因为第三特征向量306和第四特征向量308的标签具有第二标签值(例如，0，对应于“正常”)。

将概率310至312与概率阈值330进行比较，以确定概率310至312中的任何一个是否未能满足(例如，小于)概率阈值330。在图3的示例中，概率阈值330是0.7，因此，第二特征向量304的概率312不满足概率阈值330。

为了减少故障状态前体的误报识别的数量，基于概率310至312重新分配标签320至322的一个或多个标签。为了说明，如果标签具有第一标签值(例如，1，对应于“前体”)，并且相应的概率不满足概率阈值330，则标签被重新分配为第二标签值(例如，0，对应于“正常”)。例如，因为第二特征向量304初始分配第一标签值，并且因为概率312不满足概率阈值330，所以标签322被重新分配为具有第二标签值(例如，0，对应于“正常”)的重新分配的标签340。在图3中，没有重新分配标签320，因为概率310满足概率阈值330。另外，没有重新分配标签324和326，因为初始标签值是第二标签值(例如，0，对应于“正常”)。

通过基于概率重新分配标签，减少了故障前体的一个或多个误报识别。在重新分配一个或多个标签之后，标记的特征向量被用作训练数据，以训练飞机故障预测分类器140，如参考图1所述。训练飞机故障预测分类器140以输出更少的故障状态误报识别，提高了飞机故障预测分类器140的效用。

图4示出了生成飞机故障预测分类器的方法400。在具体实现方式中，方法400由计算装置104(例如，由处理器112)执行。

方法400包括在402计算潜在特征状态值。例如，如参考图2所述，基于传感器数据150来确定潜在特征状态值。在具体实现方式中，通过对传感器数据150执行聚类操作，以将传感器数据150分组为对应于潜在特征状态值的聚类，来确定潜在特征状态值。聚类操作可以是k均值聚类操作、k中心点聚类操作、DPGMM聚类操作或其他类型的聚类操作。

方法400包括在404计算特征向量。在具体实现方式中，计算特征向量130包括计算长度为n的潜在特征状态值的序列。为标记目的而识别故障发生之前的时间段m内的特征向量。

方法400包括在406标记特征向量。例如，在故障发生的阈值时间接近度(例如，时间段m)内的特征向量用第一标签值(例如，对应于“前体”的数值)来标记，而不在故障发生的阈值时间接近度内的特征向量用第二标签值(例如，对应于“正常”的数值)来标记。这个初始标记过程生成第一标签136。

方法400包括在408将特征向量和标签传递给概率预测器。例如，特征向量130和第一标签136作为监督式训练数据传递给概率预测器134。在具体实现方式中，概率预测器134包括随机森林回归分类器。在其他实现中，概率预测器134包括神经网络预测器、支持向量机预测器、贝叶斯预测器、感知器预测器或其他类型的预测器。除了被训练以输出指示输入的特征向量属于特定类别(例如，“前体”或“正常”)的概率的数值之外，概率预测器134还用于确定正确标记特征向量130的概率。

方法400包括在410识别最可能与故障相关联的特征向量，并重新标记其他特征向量。例如，初始用第一标签值(例如，“前体”)标记并且具有满足阈值(例如，大于或等于阈值)的概率的特征向量被认为最有可能与故障相关联，因此保持这些特征向量的标签。初始用第一标签值(例如，“前体”)标记并且具有不满足阈值(例如，小于阈值)的概率的特征向量用第二标签值(例如，“正常”)重新标记。方法400禁止重新标记初始用第二标签值(例如，“正常”)标记的特征向量。一个或多个标签的重新标记生成第二标签138。

方法400还包括在412使用重新标记的特征向量来训练飞机故障预测分类器。例如，特征向量130和第二标签138作为监督式训练数据提供给飞机故障预测分类器140，以训练飞机故障预测分类器基于输入的特征向量预测故障。在具体实现方式中，飞机故障预测分类器140包括随机森林分类器。在其他实现中，飞机故障预测分类器包括其他类型的分类器，例如，神经网络分类器、支持向量机分类器、贝叶斯分类器、感知器分类器或其他类型的分类器。

方法400能够生成和训练飞机故障预测分类器140。因为基于重新标记的训练数据(例如，特征向量130和第二标签138，而不是第一标签136)来训练飞机故障预测分类器140，所以飞机故障预测分类器140生成较少的故障误报识别。因此，方法400提高了飞机故障预测分类器140的效用。

图5示出了生成飞机故障预测分类器的方法500。在具体实现方式中，方法500由计算装置104(例如，由处理器112)执行。

方法500包括在502接收包括多个特征向量的输入数据。输入数据包括与一个或多个飞机相关联的传感器数据。例如，处理器112从传感器102(或从一个或多个其他装置，例如，数据存储装置，或存储在存储器114中)接收传感器数据150。

方法500包括在504基于特征向量与故障发生的时间接近度来标记多个特征向量中的每个特征向量。在故障发生的阈值时间接近度内的特征向量用第一标签值标记，而不在故障发生的阈值时间接近度内的特征向量用第二标签值标记。例如，基于故障数据132来标记特征向量130，以生成第一标签136。基于相应的特征向量是否在故障的阈值时间接近度内，每个第一标签136包括第一标签值(例如，对应于“前体”的数值)或第二标签值(例如，对应于“正常”的数值)。

方法500包括在506为多个特征向量的子集的每个特征向量，确定与特征向量相关联的标签正确的概率。子集包括具有指示第一标签值的标签的特征向量。例如，特征向量130和第一标签136被提供给概率预测器134，以确定正确标记特征向量130的子集的概率。特征向量130的子集包括在初始标记步骤期间用第一标签值(例如，“前体”)标记的特征向量。

方法500包括在508重新分配子集的一个或多个特征向量的标签。一个或多个特征向量具有不满足概率阈值的概率。例如，第一特征向量用第一标签值(例如，“前体”)标记，并且具有不满足概率阈值的概率。因此，第一特征向量的标签被重新分配为第二标签值(例如，“正常”)。重新分配一个或多个第一标签136，生成第二标签138。

方法500还包括在510，在重新分配一个或多个特征向量的标签之后，使用包括多个特征向量和与多个特征向量相关联的标签的监督式训练数据，来训练飞机故障预测分类器。飞机故障预测分类器被配置为使用飞机的第二传感器数据来预测飞机的第二故障的发生。例如，特征向量130和第二标签138用作监督式训练数据，以训练飞机故障预测分类器140。飞机故障预测分类器140被配置为基于来自传感器102的实时传感器数据152来预测飞机的故障。

在具体实现方式中，一个或多个特征向量在故障发生的阈值时间接近度内。例如，具有重新分配的标签的特征向量在故障发生的阈值时间接近度内(例如，特征向量被初始分配“前体”标签)。将在故障的阈值时间接近度内并且因此用第一标签值(例如，“前体”)标记的一个或多个特征向量重新分配，减少了飞机故障预测分类器140对故障状态的误报识别，这提高了飞机故障预测分类器140的效用。

在具体实现方式中，飞机故障预测分类器包括随机森林分类器。例如，飞机故障预测分类器140包括随机森林分类器。随机森林分类器降低了过度拟合飞机故障预测分类器140的训练数据的可能性，同时保持复杂性和分类速度的可接受水平。

在具体实现方式中，方法500还包括训练概率预测器，以确定与每个特征向量相关联的概率。例如，概率预测器134被训练成输出概率系数，概率系数指示第一标签136的相应标记正确的概率。使用概率预测器134来确定概率，使得能够使用机器学习技术来有效地确定概率。在一些实现中，概率预测器134包括随机森林回归预测器。随机森林回归预测器降低了过度拟合概率预测器134的训练数据的可能性，同时保持复杂性和分类速度的可接受水平。

在具体实现方式中，方法500还包括禁止重新标记具有指示第二标签值的标签的特征向量或者具有满足概率阈值的概率的子集的特征向量。例如，参考图3，没有重新标记第一特征向量302，因为概率310满足(例如，大于或等于)概率阈值330。另外，第三特征向量306和第四特征向量308没有重新标记，因为特征向量初始用第二标签值(例如，“正常”)来标记。禁止重新标记初始用第二标签值标记的特征向量，减少了进行概率比较的数量，从而提高了重新标记过程的速度。

在具体实现方式中，多个特征向量包括在多个采样时间周期上的潜在特征状态值的序列。一个潜在特征状态值对应于一个采样时间周期。例如，基于传感器数据150来确定潜在特征状态值的序列202至214。每个潜在特征状态值对应于不同的时期。确定潜在特征状态值的序列，减小了传感器数据150的大小，同时确定了可用于预测故障状态的信息。在一些实现中，方法500包括对传感器数据执行聚类操作，以将传感器数据分组为潜在特征状态值。例如，对传感器数据150执行聚类操作，以将传感器数据150聚类成潜在特征状态值。在具体实现方式中，聚类操作包括k均值聚类操作、k中心点聚类操作、DPGMM聚类操作或其他类型的聚类操作。将传感器数据150聚类成聚类，使得能够基于传感器数据150的特征和传感器数据150内的关系来确定相关的潜在特征状态值。在一些实现中，潜在特征状态值对应于j维特征空间中的聚类，其中，j是传感器数据中传感器变量的类型的数量。例如，通过执行聚类操作，传感器数据150被减少为j维特征空间中的聚类。将传感器数据150减少到j维特征空间中的聚类，使得能够基于传感器数据150中许多变量的特征来确定相关的潜在特征状态值。

在一些实现中，确定多个特征向量中的第一特征向量，包括确定第一时间周期的第一组采样时间周期内的潜在特征状态值的第一序列。第一特征向量的每个元素包括第一序列的相应潜在特征状态值。例如，对于图2中的采样时间周期t1至t4，确定潜在特征状态值的第一序列202。如图2所示，基于潜在特征状态值的第一序列202生成第一特征向量，使得第一特征向量的第一元素包括第二状态，第一特征向量的第二元素包括第二状态，第一特征向量的第三元素包括第一状态，并且第一特征向量的第四元素包括第三状态。在一些实现中，确定多个特征向量中的第二特征向量，包括确定与第一时间周期部分重叠的第二时间周期的第二组采样时间周期内的潜在特征状态值的第二序列。第二特征向量的每个元素包括第二序列的相应潜在特征状态值。例如，对于图2中的采样时间周期t2至t5(其与和第一特征向量相关联的采样时间周期部分重叠)确定潜在特征状态值的第二序列204。基于潜在特征状态值的第二序列204生成第二特征向量，使得第二特征向量的第一元素包括第二状态，第二特征向量的第二元素包括第一状态，第二特征向量的第三元素包括第三状态，并且第二特征向量的第四元素包括第三状态，如图2所示。与使用全部传感器数据150相比，基于潜在特征状态值的时间序列生成特征向量，减小了用于训练飞机故障预测分类器140的信息的大小。

在具体实现方式中，方法500还包括在飞机运行期间执行飞机故障预测分类器，以生成指示第二故障的预测发生和与第二故障的预测发生相关联的特定修复的提示。例如，基于实时传感器数据152执行飞机故障预测分类器140使得可以生成经由GUI 160在显示装置106上显示的提示162。在具体实现方式中，提示162指示要对飞机执行特定修复。例如，在训练飞机故障预测分类器之前，可以用“正常”或“特定故障的前体”来标记特征向量，并且训练飞机故障预测分类器140来识别输入特征向量是“正常”还是相应类型故障的“前体”。在本示例中，不同的修复与不同类型的故障相关联。识别与故障相关联的特定修复提高了对故障的响应能力。

在具体实现方式中，方法500还包括在飞机运行期间执行飞机故障预测分类器，以基于与第二故障的预测发生相关联的特定修复来重新制定修复计划。例如，基于实时传感器数据152执行飞机故障预测分类器140使得可以基于与故障的预测发生相关联的修复来重新制定修复计划164。为了进一步说明，当飞机着陆以弥补和修复故障时，可以优先进行特定的修复，从而减少维护和修复飞机的停机时间。如果预测到故障，即使故障没有实际发生，也可以重新制定修复计划，以预先防止故障的未来发生。

在具体实现方式中，接收输入数据包括接收传感器数据并生成多个特征向量。多个特征向量包括潜在特征状态值的序列，并且生成多个特征向量减小了传感器数据的大小。例如，基于潜在特征状态值的序列生成特征向量130。因为特征向量是基于j维特征空间中的聚类(而不是每个元素的j个变量)，所以在存储器114中存储特征向量130，比存储全部传感器数据150使用更少的存储空间。

方法500能够生成和训练飞机故障预测分类器140。因为基于重新标记的训练数据(例如，特征向量130和第二标签138，而不是第一标签136)来训练飞机故障预测分类器140，所以飞机故障预测分类器140生成较少的故障误报识别。因此，方法500提高了飞机故障预测分类器140的效用。

在一些实现中，图4的方法400、图5的方法500或这两者都被实现为存储在计算机可读存储装置上的指令。在具体实现方式中，计算机可读存储装置存储指令，当由处理器执行时，这些指令促使处理器执行包括接收包括多个特征向量的输入数据的操作。输入数据包括与一个或多个飞机相关联的传感器数据。操作包括基于特征向量与故障发生的时间接近度来标记多个特征向量中的每个特征向量。在故障发生的阈值时间接近度内的特征向量用第一标签值标记，而不在故障发生的阈值时间接近度内的特征向量用第二标签值标记。操作包括为多个特征向量子集的每个特征向量，确定与特征向量相关联的标签正确的概率。子集包括具有指示第一标签值的标签的特征向量。操作包括重新分配子集的一个或多个特征向量的标签，所述一个或多个特征向量具有不满足概率阈值的概率。操作还包括在重新分配一个或多个特征向量的标签之后，使用包括多个特征向量和与多个特征向量相关联的标签的监督式训练数据来训练飞机故障预测分类器。飞机故障预测分类器被配置为使用飞机的第二传感器数据来预测飞机的第二故障的发生。在具体实现方式中，多个特征向量至少部分地基于历史数据，历史数据包括至少一些具有相应故障指示的数据。例如，传感器数据150可以包括预先标记的历史故障数据。或者，执行初始标记过程，来确定第一标签136。使用标记的历史数据来训练飞机故障预测分类器140，使得飞机故障预测分类器140能够预测基于来自一个或多个飞机的一次或多次飞行的传感器数据而被识别的故障。在另一具体实现方式中，第二传感器数据包括在飞机运行期间生成的实时或接近实时的传感器数据。例如，对实时传感器数据152执行飞机故障预测分类器140，以预测飞机故障。使用实时传感器数据152作为飞机故障预测分类器140的输入，能够预测飞机飞行期间的故障。

参考图6和图7，在如图6的流程图所示的交通工具制造和保养方法600以及如图7的框图所示的交通工具系统700的上下文中，描述了本公开的示例。由图6的交通工具制造和保养方法600生产的交通工具和图7的交通工具700可以包括飞机、汽车、火车、摩托车、公共汽车、轮船或船、火箭、宇宙飞船、自主车辆或其他交通工具，作为说明性的非限制性示例。

参考图6，示出了与飞机故障预测系统相关联的方法的说明性示例的流程图，并指定为600。在预生产期间，示例性方法600包括在602交通工具的规格和设计，例如，参考图7描述的交通工具700。在交通工具的规格和设计期间，方法600包括指定一个或多个传感器、处理器、存储器、显示装置或其组合。在具体实现方式中，一个或多个传感器、处理器、存储器和显示装置分别包括或对应于图1的传感器102、处理器112、存储器114和显示装置106。在604，方法600包括材料采购。例如，方法600可以包括为飞机故障预测系统采购材料(例如，一个或多个传感器、处理器、存储器、显示装置或其组合)。

在生产过程中，方法600包括在606的部件和子组件制造以及在608的交通工具的系统集成。在具体实现方式中，方法600包括飞机故障预测系统的部件和子组件制造(例如，产生一个或多个传感器、处理器、存储器、显示装置或其组合)和飞机故障预测系统的系统集成(例如，将一个或多个传感器耦接到处理器)。在610，方法600包括交通工具的认证和交付，并且在612，将交通工具投入使用。在一些实现中，认证和交付包括认证飞机故障预测系统。将交通工具投入使用还可以包括将飞机故障预测系统投入使用。在客户使用期间，交通工具可能会被安排进行日常维护和保养(也可能包括改装、重新配置、翻新等)。在614，方法600包括对交通工具进行维护和保养。在具体实现方式中，方法600包括对飞机故障预测系统执行维护和保养。例如，飞机故障预测系统的维护和保养包括更换一个或多个传感器、处理器、存储器、显示装置或其组合中的一个或多个。

方法600的每个过程由系统集成商、第三方和/或运营商(例如，客户)执行或实施。出于本说明书的目的，系统集成商包括但不限于任何数量的交通工具制造商和主要系统分包商；第三方包括但不限于任何数量的供货商、分包商和供应商；并且运营商是航空公司、租赁公司、军事实体、服务组织等。

参考图7，示出了包括飞机故障预测系统的部件的交通工具的说明性实现的框图，并指定为700。在具体实现方式中，交通工具700包括飞机。在其他实现中，交通工具700包括其他类型的交通工具。在至少一个实现中，由图6的方法600的至少一部分生产交通工具700。如图7所示，交通工具700包括具有多个系统720和内部722的机身718。多个系统720的示例包括推进系统724、电气系统726、环境系统728、液压系统730和传感器系统(例如，传感器102)中的一个或多个。传感器102包括交通工具700上的一个或多个传感器，并且被配置为在交通工具700运行之前、期间和之后生成传感器数据。

交通工具700还包括飞机故障预测系统734。飞机故障预测系统734包括处理器112和存储器114，如参考图1所述。处理器112被配置为对来自传感器102的实时(或接近实时)传感器数据执行飞机故障预测分类器140，以预测交通工具700的故障。飞机故障预测系统734可选地包括显示装置106(被配置为显示GUI 160，如参考图1所述)。

交通工具700可以包括任何数量的其他系统。尽管示出了航空航天的示例，但是本公开可以应用于其他行业。例如，飞机故障预测系统734可用于载人或无人驾驶交通工具(例如，卫星、船只或陆基交通工具)上或者建筑物或其他结构中。

可以在图6的方法600的任何一个或多个阶段期间使用本文包括的设备和方法。例如，通过示例而非限制性的方式，在612，可以以类似于交通工具700在使用中生产的部件或子组件的方式制作或制造对应于生产过程608的部件或子组件。此外，在生产阶段(例如，方法600的阶段602至610)，例如，通过显著加快交通工具700的组装或降低交通工具700的成本，可以使用一个或多个设备实现、方法实现或其组合。类似地，在612，当交通工具700使用时，例如但不限于在614维护和保养，可以使用一个或多个设备实现、方法实现或其组合。

尽管图1至图7中的一个或多个可以示出根据本公开教导的系统、设备和/或方法，但是本公开不限于这些示出的系统、设备和/或方法。本文示出或描述的图1至图7中的任一个图的一个或多个功能或部件，可以与图1至图7中的另一个图的一个或多个其他部分组合。例如，图5的方法500、图6的方法600或其组合的一个或多个元素，可以结合图5的方法500、图6的方法600、其任意组合或本文描述的其他操作的一个或多个元素来执行。因此，本文描述的任何单个实现都不应被解释为限制性的，并且在不脱离本公开的教导的情况下，可以适当地组合本公开的实现。作为示例，参考图5至图6描述的一个或多个操作可以是可选的，可以至少部分地同时执行，和/或可以以与所显示或描述的顺序不同的顺序执行。

本文描述的示例的图示旨在提供对各种实现的结构的一般理解。这些图示并不旨在用作对利用本文描述的结构或方法的设备和系统的所有元素和特征的完整描述。在阅读本公开后，许多其他实现对于本领域技术人员来说可能是显而易见的。可以利用并从本公开中导出其他实现，使得可以在不脱离本公开的范围的情况下进行结构和逻辑的替换和改变。例如，方法操作可以以不同于图中所示的顺序执行，或者可以省略一个或多个方法操作。因此，本公开和附图应被视为说明性的，而不是限制性的。

此外，尽管在本文已经示出和描述了特定的示例，但是应当理解，设计成实现相同或相似结果的任何后续设置可以替代所示的具体实现方式。本公开旨在覆盖各种实现的任何和所有后续改编或变化。本领域技术人员在阅读说明书后，上述实现的组合以及本文未具体描述的其他实现将是显而易见的。

此外，本公开包括根据以下项的实施例：

项1.一种生成飞机故障预测分类器(140)的方法，该方法包括：

接收包括多个特征向量(130)的输入数据，输入数据包括与一个或多个飞机相关联的传感器数据(150)；

基于特征向量与故障发生的时间接近度来标记多个特征向量(130)中的每个特征向量，其中，在故障发生的阈值时间接近度内的特征向量用第一标签值来标记，并且其中，不在故障发生的阈值时间接近度内的特征向量用第二标签值来标记；

对于多个特征向量(130)的子集中的每个特征向量，确定与特征向量相关联的标签值正确的概率，其中，子集包括具有指示第一标签值的标签的特征向量；

重新分配子集的一个或多个特征向量的标签，一个或多个特征向量具有不满足概率阈值的概率；并且

在重新分配一个或多个特征向量的标签之后，使用包括多个特征向量(130)和与多个特征向量相关联的标签的监督式训练数据来训练飞机故障预测分类器(140)，飞机故障预测分类器(140)被配置为使用飞机的第二传感器数据来预测飞机的第二故障的发生。

项2.根据项1所述的方法，其中，一个或多个特征向量在故障发生的阈值时间接近度内。

项3.根据项1或2所述的方法，其中，飞机故障预测分类器(140)包括随机森林分类器。

项4.根据项1至3中任一项所述的方法，还包括训练概率预测器(134)，以确定与每个特征向量相关联的概率。

项5.根据项1至4中任一项所述的方法，其中，所述概率预测器(134)包括随机森林回归预测器。

项6.根据项1至5中任一项所述的方法，还包括禁止重新标记具有指示第二标签值的标签的特征向量或具有满足概率阈值的概率的子集的特征向量。

项7.根据项1至6中任一项所述的方法，其中，多个特征向量(130)包括在多个采样时间周期上的潜在特征状态值的序列(202-214)，并且其中，一个潜在特征状态值对应于一个采样时间周期。

项8.根据项1至7中任一项所述的方法，其中，潜在特征状态值对应于j维特征空间中的聚类，并且其中，j是传感器数据(150)中传感器变量的类型的数量。

项9.根据项1至8中任一项所述的方法，还包括对传感器数据(150)执行聚类操作，以将传感器数据(150)分组为潜在特征状态值。

项10.根据项1至8中任一项所述的方法，其中，确定多个特征向量(130)中的第一特征向量包括在第一时间周期的第一组采样时间周期内确定潜在特征状态值的第一序列(202)，并且其中，第一特征向量的每个元素包括第一序列(202)的对应潜在特征状态值。

项11.根据项1至10中任一项所述的方法，还包括在飞机运行期间执行飞机故障预测分类器(140)，以生成指示第二故障的预测发生和与第二故障的预测发生相关联的特定修复的提示(162)。

项12.根据项1至13中任一项所述的方法，还包括在飞机运行期间执行飞机故障预测分类器(140)，以基于与第二故障的预测发生相关联的特定修复来重新制定修复计划(164)。

项13.根据项1至13中任一项所述的方法，其中，接收输入数据包括接收传感器数据(150)并生成多个特征向量(130)，其中，多个特征向量(130)包括潜在特征状态值的序列(202-214)，并且其中，生成多个特征向量(130)减小了传感器数据(150)的大小。

项14.一种系统(100)，包括：

处理器(112)；以及

存储器(114)，耦接到处理器(112)，并存储能由处理器(112)执行的指令以执行操作，操作包括：

对于多个特征向量(130)的子集的每个特征向量，确定与特征向量相关联的标签值正确的概率，其中，子集包括具有指示第一标签值的标签的特征向量；

在重新分配一个或多个特征向量的标签之后，使用包括多个特征向量(130)和与多个特征向量(130)相关联的标签的监督式训练数据来训练飞机故障预测分类器(140)，飞机故障预测分类器(140)被配置为使用飞机的第二传感器数据来预测飞机的第二故障的发生。

项15.根据项14所述的系统(100)，其中，多个特征向量(130)包括在多个采样时间周期上的潜在特征状态值的序列(202-214)，其中，每个潜在特征状态值对应于一个采样时间周期，并且其中，潜在特征状态值对应于特征空间中的聚类。

项16.根据项14或15所述的系统(100)，还包括所述飞机，其中，处理器(112)被配置为执行飞机故障预测分类器(140)。

项17.根据项14至16中任一项所述的系统(100)，还包括一个或多个传感器(102)，传感器被配置为监测飞机，以生成第二传感器数据。

项18.一种存储指令的计算机可读存储装置，当由处理器(112)执行时，指令促使处理器(112)执行操作，操作包括：

项19.根据项18所述的计算机可读存储装置，其中，多个特征向量(130)至少部分地基于历史数据，历史数据包括至少一些具有相应故障指示的数据。

项20.根据项18或19所述的计算机可读存储装置，其中，第二传感器数据包括在飞机运行期间生成的实时或接近实时的传感器数据(152)。

提交本公开的摘要时，应理解其不会用于解释或限制权利要求的范围或含义。此外，在前面的详细描述中，为了简化本公开，各种特征可以组合在一起或者在单个实现中描述。上述示例说明但不限于本公开。还应当理解，根据本公开的原理，许多修改和变化是可行的。如所附权利要求所反映的，所要求保护的主题可以涉及并非任何所公开的示例的所有特征。因此，本公开的范围由所附权利要求及其等同物限定。

Claims

1.一种生成飞机故障预测分类器(140)的方法，所述方法包括：

接收包括多个特征向量(130)的输入数据，所述输入数据包括与一个或多个飞机相关联的传感器数据(150)；

基于所述特征向量与故障发生的时间接近度来标记所述多个特征向量(130)中的每个特征向量，其中，在故障发生的阈值时间接近度内的特征向量用第一标签值来标记，并且其中，不在故障发生的所述阈值时间接近度内的特征向量用第二标签值来标记；

对于所述多个特征向量(130)的子集的每个特征向量，确定与所述特征向量相关联的标签值正确的概率，其中，所述子集包括具有指示所述第一标签值的标签的特征向量；

重新分配所述子集的一个或多个特征向量的标签，所述一个或多个特征向量具有不满足概率阈值的概率；并且

在重新分配所述一个或多个特征向量的标签之后，使用包括所述多个特征向量(130)和与所述多个特征向量相关联的标签的监督式训练数据来训练飞机故障预测分类器(140)，所述飞机故障预测分类器(140)被配置为使用所述飞机的第二传感器数据来预测所述飞机的第二故障的发生。

2.根据权利要求1所述的方法，其中，所述一个或多个特征向量在故障发生的所述阈值时间接近度内。

3.根据权利要求1或2所述的方法，其中，所述飞机故障预测分类器(140)包括随机森林分类器。

4.根据权利要求1或2所述的方法，还包括训练概率预测器(134)以确定与每个特征向量相关联的概率。

5.根据权利要求4所述的方法，其中，所述概率预测器(134)包括随机森林回归预测器。

6.根据权利要求1或2所述的方法，还包括禁止重新标记具有指示所述第二标签值的标签的特征向量或具有满足所述概率阈值的概率的所述子集的特征向量。

7.根据权利要求1或2所述的方法，其中，所述多个特征向量(130)包括在多个采样时间周期的潜在特征状态值的序列(202-214)，并且其中，一个所述潜在特征状态值对应于一个所述采样时间周期。

8.根据权利要求7所述的方法，其中，所述潜在特征状态值对应于j维特征空间中的聚类，并且其中，j是所述传感器数据(150)中传感器变量的类型的数量。

9.根据权利要求8所述的方法，还包括对所述传感器数据(150)执行聚类操作，以将所述传感器数据(150)分组为所述潜在特征状态值。

10.根据权利要求7所述的方法，其中，确定所述多个特征向量(130)中的第一特征向量包括在第一时间周期的第一组采样时间周期内确定所述潜在特征状态值的第一序列(202)，并且其中，所述第一特征向量的每个元素包括所述第一序列(202)的对应潜在特征状态值。

11.根据权利要求1或2所述的方法，还包括在飞机运行期间执行所述飞机故障预测分类器(140)，以生成指示所述第二故障的预测发生和与所述第二故障的预测发生相关联的特定修复的提示(162)。

12.根据权利要求1或2所述的方法，还包括在飞机运行期间执行所述飞机故障预测分类器(140)，以基于与所述第二故障的预测发生相关联的特定修复来重新制定修复计划(164)。

13.根据权利要求1或2所述的方法，其中，接收所述输入数据包括接收所述传感器数据(150)并生成所述多个特征向量(130)，其中，所述多个特征向量(130)包括潜在特征状态值的序列(202-214)，并且其中，生成所述多个特征向量(130)减小了所述传感器数据(150)的大小。

14.一种生成飞机故障预测分类器(140)的系统(100)，包括：

处理器(112)；以及

存储器(114)，耦接到所述处理器(112)并存储能由所述处理器(112)执行以执行操作的指令，所述操作包括：

在重新分配所述一个或多个特征向量的标签之后，使用包括所述多个特征向量(130)和与所述多个特征向量(130)相关联的标签的监督式训练数据来训练飞机故障预测分类器(140)，所述飞机故障预测分类器(140)被配置为使用所述飞机的第二传感器数据来预测所述飞机的第二故障的发生。

15.根据权利要求14所述的系统(100)，其中，所述多个特征向量(130)包括在多个采样时间周期的潜在特征状态值的序列(202-214)，其中，每个所述潜在特征状态值对应于一个所述采样时间周期，并且其中，所述潜在特征状态值对应于特征空间中的聚类。

16.根据权利要求14或15所述的系统(100)，还包括所述飞机，其中，所述处理器(112)被配置为执行所述飞机故障预测分类器(140)。

17.根据权利要求16所述的系统(100)，还包括一个或多个传感器(102)，所述传感器被配置为监测所述飞机以生成所述第二传感器数据。

18.一种计算机可读存储装置，存储有指令，当由处理器(112)执行时，所述指令促使所述处理器(112)执行操作，所述操作包括：

19.根据权利要求18所述的计算机可读存储装置，其中，所述多个特征向量(130)至少部分地基于历史数据，所述历史数据包括至少一些具有相应故障指示的数据。

20.根据权利要求18或19所述的计算机可读存储装置，其中，所述第二传感器数据包括在飞机运行期间生成的实时或接近实时的传感器数据(152)。