CN115380294A - 针对工业机器学习的数据处理 - Google Patents
针对工业机器学习的数据处理 Download PDFInfo
- Publication number
- CN115380294A CN115380294A CN202180026316.6A CN202180026316A CN115380294A CN 115380294 A CN115380294 A CN 115380294A CN 202180026316 A CN202180026316 A CN 202180026316A CN 115380294 A CN115380294 A CN 115380294A
- Authority
- CN
- China
- Prior art keywords
- data
- machine learning
- time series
- computer
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B23/00—Testing or monitoring of control systems or parts thereof
- G05B23/02—Electric testing or monitoring
- G05B23/0205—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
- G05B23/0218—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
- G05B23/0224—Process history based detection method, e.g. whereby history implies the availability of large amounts of data
- G05B23/024—Quantitative history assessment, e.g. mathematical relationships between available data; Functions therefor; Principal component analysis [PCA]; Partial least square [PLS]; Statistical classifiers, e.g. Bayesian networks, linear regression or correlation analysis; Neural networks
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B23/00—Testing or monitoring of control systems or parts thereof
- G05B23/02—Electric testing or monitoring
- G05B23/0205—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
- G05B23/0259—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterized by the response to fault detection
- G05B23/0283—Predictive maintenance, e.g. involving the monitoring of a system and, based on the monitoring results, taking decisions on the maintenance schedule of the monitored system; Estimating remaining useful life [RUL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/40—Data acquisition and logging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B23/00—Testing or monitoring of control systems or parts thereof
- G05B23/02—Electric testing or monitoring
- G05B23/0205—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
- G05B23/0218—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
- G05B23/0221—Preprocessing measurements, e.g. data collection rate adjustment; Standardization of measurements; Time series or signal analysis, e.g. frequency analysis or wavelets; Trustworthiness of measurements; Indexes therefor; Measurements using easily measured parameters to estimate parameters difficult to measure; Virtual sensor creation; De-noising; Sensor fusion; Unconventional preprocessing inherently present in specific fault detection methods like PCA-based methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/80—Management or planning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Automation & Control Theory (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明涉及用于自动化工业机器学习应用的开发的计算机实现方法(100),特别地针对预测性维护、过程监视、事件预测或根本原因分析。该方法由一个或多个子方法组成,根据工业机器学习问题,该一个或多个子方法可以被迭代地执行。这些子方法包括以下方法中的至少一个:自动清洗在机器学习模型的训练(S10)和后续应用(S15)中的数据的方法,借助其他时间戳记录标记(S11)时间序列(特别是信号数据)的方法,借助过程挖掘的特征工程(S12),以及用于数据分割和分类的自动超参数调试(S14)。
Description
技术领域
本发明涉及针对工业机器学习的数据预处理的计算机实现的方法。该方法可以被用于例如预测性维护、过程监视、事件预测或根本原因分析。本发明还涉及被配置为执行计算机实现的方法的步骤的数据处理系统、包括使得数据处理系统执行方法的指令的计算机程序以及存储这样的计算机程序的计算机可读介质。
背景技术
机器学习尤其可用于工业中,用于预测性维护、过程监视、事件预测或根本原因分析。例如,在预测性维护的情况下,诸如电机或机器人的工业资产的状况可以被预测,以估计应当执行维护动作的时间。因此,维护动作可以根据基于机器学习的工业资产状况预测来调度。
这提供了与基于时间的预防性维护相比的成本节省,因为维护动作仅在需要时被执行。此外,由于资产的状况被连续地监视,所以降低了工业资产的意外故障的概率。
然而,将机器学习方法应用于预测性维护并不是微不足道的任务。具体地,来自工业资产的传感器或来自工业过程或工厂的控制系统的数据通常需要在应用机器学习模型之前进行预处理。该预处理可以包括例如原始传感器数据的清洗,包括例如去除离群值和/或抑制噪声。此外,预处理通常涉及从数据时间序列导出特征。这些预处理算法对于可由机器学习模型实现的性能是关键的。另一关键的要求是为机器学习模型的训练提供足够数量的训练样本。
因此,由领域和机器学习专家的混合团队开发了用于预测性维护以及用于诸如过程监视、事件预测或根本原因分析的其他目的的机器学习应用。
发明内容
然而,机器学习和数据科学专家很少,并且通常缺乏工业机器学习所需的领域专家知识。此外,工业机器学习应用的开放是耗时的过程。尤其是手动数据清洗、特征工程、数据标记和超参数调试所需的时间较长。缺乏使得领域专家能够自己开发机器学习应用的自动化方法。
用于在开发诸如自动机器学习(AutoML)的机器学习应用中支持领域专家的现有方法利用主流机器学习应用的同质特性(例如关于表格、文本或图像数据的机器学习)。这些方法依赖于所标记的数据的可用性来建立用于模型选择和超参数调试的目标函数。然而,这样的经标记的数据在工业机器学习应用中通常是不可用的。
因此,期望为工业机器学习应用的开发提供改进的自动化。
这通过独立权利要求的主题来实现,其中在从属权利要求和以下描述中并入了另外的实施例。应当注意,如下所述的计算机实现的方法的任何步骤、特征或方面同样适用于如下文所述的被配置为执行方法步骤的数据处理系统、计算机程序和计算机可读介质,反之亦然。
用于自动开发工业机器学习应用的方法由一个或多个子方法组成,根据工业机器学习问题,该一个或多个子方法可以被迭代地执行。子方法可以是(a)自动清洗在机器学习模型的训练和后续应用中的数据的方法,(b)使用其它时间戳记录来标记数据时间序列(诸如传感器信号)的方法,(c)借助过程挖掘的特征工程,以及(d)用于数据分割和分类的自动超参数调试。
根据本公开的第一方面,提出了用于机器学习的计算机实现的方法。方法包括从工业资产的传感器或从针对工业过程或工厂的控制系统获取第一数据时间序列。此外,方法包括处理第一数据时间序列以获得事件日志,以及将过程挖掘应用于事件日志以提供一致性分析和/或瓶颈标识。
第一数据时间序列可以是来自诸如电机或机器人的工业资产的传感器的离散时间信号,或者来自诸如计算机化的分布式或集中式控制系统的工业过程或工厂的控制系统的离散时间信号。获取第一数据时间序列可以意味着例如从传感器或控制系统接收第一数据时间序列,或者从存储介质加载第一时间序列。例如,第一数据时间序列可以从诸如远程服务器的服务器加载。第一数据时间序列可以包括来自传感器或控制系统的原始数据,或者第一数据时间序列可以是经处理的数据,例如经清洗的数据时间序列。
获取第一数据时间序列、处理第一数据时间序列和应用过程挖掘的步骤可以是预处理步骤,预处理步骤可以在训练或应用第一机器学习模型之前执行,其中第一机器学习模型可以被用于例如预测性维护或用于预测批量过程将如何演变。具体地,获取第一数据时间序列、处理第一数据时间序列以及应用过程挖掘的步骤可以被用于特征工程,即,用于确定第一机器学习模型的输入参数。
在一个示例中,计算机实现的方法还包括基于一致性分析和/或瓶颈标识来确定工业资产的状况指示符。
由过程挖掘提供的一致性分析可以被量化成工业资产的状况指示符。例如,不同类型的一致性和阈值可以被使用和/或优化。通过周期性地(例如,每秒、每分钟、每小时或每天)计算这些状况指示符,可以比较这些度量来发现异常行为。
例如,来自控制系统的警报和/或事件数据和/或来自电机的传感器数据可以在过程挖掘的帮助下被利用来监视其状况以及预测其行为。该方法对于所使用的传感器或控制系统是不可知的,即,它也可以被单独地应用于其它工业资产和控制系统,因为资产的正常操作将在随着时间收集数据时被推断。换言之,不需要显式信息或工作模型来检测诸如随时间降级的异常。
在一个示例中,计算机实现的方法还包括训练和/或应用第一机器学习模型来确定过程偏差、确定潜在改进、执行基于条件的监视、执行预测性维护和/或预测批量过程将如何演变,其中第一机器学习模型的输入参数基于一致性分析和/或瓶颈标识。
当第一机器学习模型待被训练时,第一数据时间序列可以是诸如原始的或经清洗的训练数据数据时间序列时间序列。具体地,训练数据时间序列可以是历史数据时间序列。相反,当第一机器学习模型待被应用时,第一数据时间序列可以是来自工业资产或来自诸如计算机化分布式或集中式控制系统的控制系统的生命数据流。
第一机器学习模型可以被训练来确定过程偏差、确定潜在改进、执行基于状况的监视、执行预测性维护和/或预测批量过程将如何演进。
第一机器学习模型的输入参数可以是或者可以基于一致性分析和/或瓶颈标识。具体地,第一机器学习模型的一些或全部输入参数可以是或可以基于从一致性分析和/或瓶颈标识导出的工业资产的状况指示符。
在另一示例中,处理第一数据时间序列来获得事件日志包括通过应用符号聚合近似或人工智能技术来对第一数据时间序列进行编码。
为了对数据时间序列执行过程挖掘,需要将其转换为事件日志,即,离散事件集合。这样的编码可以使用符号聚合近似(SAX)或AI技术来完成。
在另一示例中,处理第一数据时间序列来获得事件日志还包括对经编码的第一数据时间序列执行抽象。
由于对原始低级事件日志执行过程挖掘可能是困难的,所以这些日志可以通过执行抽象来变换。在一个示例中,这可以包括将原始低级事件聚合或应用低于阈值的过滤器。例如,低于阈值的原始低电平事件可以被设置为零来去除噪声。原始低级事件的其它抽象也是可能的。
在另一示例中,计算机实现的方法还包括获取第二数据时间序列并清洗第二数据时间序列来获得第三数据时间序列。此外,数据清洗机器学习模型使用多个第一训练样本来训练,其中第一训练样本包括来自第三数据时间序列的干净数据点和来自第二数据时间序列的多个原始数据点。
因此,计算机实现的方法可以包括训练用于数据清洗的机器学习模型。为了训练该机器学习模型,可以使用第一训练样本集,其中第一训练样本集可以从第二和第三数据时间序列导出。
第二数据时间序列可以是来自工业资产的传感器或来自工业过程或工厂的控制系统的原始数据时间序列。
第三数据时间序列可以例如由领域专家或机器学习专家手动确定。清洗第二数据时间序列来获得第三数据时间序列可以包括处理缺失值、去除噪声和/或去除离群值。
不同的第一训练样本可以包括来自第三数据时间序列的不同的干净数据点。第一训练样本中的每个训练样本还可以包括来自第二数据时间序列的多个原始数据点。因此,第二数据时间序列的原始数据点可以被包含在若干第一训练样本中。具体地,第一训练样本可以在时间窗内包括第二数据时间序列的原始数据点,时间窗可以以对应的干净数据点的时间为中心。为了训练数据清洗机器学习模型,训练样本的干净数据点可以被用作机器学习模型的期望输出,而训练样本的原始数据点用作机器学习模型的输入参数。
在训练用于数据清洗的机器学习模型之后,该机器学习模型可以被应用于来自工业资产的传感器或来自控制系统的原始数据时间序列,以提供干净数据时间序列。该干净数据时间序列可以等于第一数据时间序列。
在另一示例中,计算机实现的方法还包括从传感器或从控制系统获取第四数据时间序列,并将数据清洗机器学习模型应用于第四数据时间序列来获得第一数据时间序列。
数据清洗机器学习模型可以如上所述基于第二数据时间序列和第三数据时间序列来训练。这可能需要手动确定第三数据时间序列,例如由领域专家手动确定。
第四数据时间序列可以不同于第二数据时间序列。换言之,经训练的数据清洗机器学习模型可以被应用于不在第一训练样本的训练集中的新数据。因此,数据清洗机器学习模型提供了通用的清洗逻辑。具体地,第四数据时间序列可以是来自传感器或来自控制系统的实况数据流。第四数据时间序列可以包括可以由数据清洗机器学习模型来清洗的每秒数千个数据点。
第二数据时间序列和第三数据时间序列还可以包括来自其它应用的原始和干净数据时间序列,即,来自其它应用的原始数据时间序列和干净数据时间序列可以被用于训练数据清洗机器学习模型。这可以减少或避免人工确定第三数据时间序列的干净数据点的工作。
备选地,来自另一应用的数据清洗机器学习模型可以被用于清洗第四数据时间序列。
在另一示例中,专用数据清洗算法可以被用于清洗第四数据时间序列。该专用数据清洗算法可以不基于机器学习模型。当上述确定的数据清洗机器学习模型不提供足够的数据清洗性能时,这可能是需要的。
在另一示例中,计算机实现的方法还包括获取用于训练用于自动标记的机器学习模型的第一标签集。此外,一个或多个数据源被获取,并且第一特征集从一个或多个数据源提取。用于自动标记的机器学习模型然后可以使用多个第二训练样本来训练,其中第二训练样本包括来自第一标签集的标签和来自第一特征集的一个或多个特征。
第一标签集的标签可以具有时间戳。这些标签可以被用作分类过程中的类标签。第一标签集的标签可以被手动确定。
数据源可以是非结构化的、半结构化的或表格化的数据源。典型的示例是警报和事件数据、轮换簿条目以及计算机化维护管理系统(CMMS)中的条目。
从一个或多个数据源提取的特征可以包括典型的自然语言处理特征(例如,词袋、所识别的命名实体),而且还包括情感分析或文本分类、统计数字(警报率,#操作员动作)、来自实验室的质量测试或者关于特定工厂区域中的资产的故障注释(来自CMMS)。来自实验室的质量测试可以是布尔值(例如,规格内与规格外)或数字或分类质量指示符。
数据源中的条目可以具有相关联的时间戳,或者这些条目可以包括时间信息(例如,在轮换簿条目中提到的时间)。这可以被用于提取用于标记过程值的时间范围。这些数据源的一个挑战是它们的时间戳可能与过程值的时间戳无法精确匹配。该问题可以通过在时间窗上分配具有概率的标签来解决。此处,过程值可以是第一数据时间序列的数据点。然而,第一机器学习问题的特征(诸如工业资产的状况指示符)也可以被分配与它们从其导出的过程值相同的标签。
用于自动标记的机器学习模型可以是概率网络/模型,诸如贝叶斯网络。因此,第一特征集的特征可以被用作概率模型的输入,概率模型描述了特征和感兴趣标签上的联合概率分布(例如,正常对异常操作)。
对于每个概率模型,可以定义来自数据源的哪些文档或条目被用于生成概率模型的输入以及如何为输出标签生成时间窗(t_start、t_end)。例如,概率模型可以生成从t_start到t_end=t_start+4h的四小时(4h)窗口的标签。因此,可以使用例如t_start和t_end之间的警报和事件。附加地或备选地,可以使用例如t_start和t_start+8h(近似对应于一次轮换)之间的轮换簿条目,或者从t_start直到轮换结束的轮换簿条目。附加地或备选地,可以使用例如t_start-12h和t_start+12h之间的CMMS数据。
由用于自动标记的机器学习模型生成的标签的概念可以不是标签可能出现在t_start和t_end之间的整个时间窗期间,而是标签可能出现在t_start和t_end之间的至少一段时间。
在训练用于自动标记的机器学习模型之后,模型可以被用于基于在轮换簿、警报列表、事件列表和/或CMMS中的对应数据来标记到目前为止未标记的时间窗。
在另一示例中,计算机实现的方法还包括从一个或多个数据源提取第二特征集,并且通过将用于自动标记的机器学习模型应用于来自第二特征集的特征来确定第二标签集。
与第一特征集相比,第二特征集可以从数据源的稍后条目中提取。还可以存在重叠,因此数据源的一些条目可以被用于提取第一和第二特征集的特征。
给定第二特征集中的特征,标签值的概率可以通过用于自动标记的机器学习模型来推断。因此,第二标签集的带时间戳的标签可以通过选择具有最大概率的标签值来确定。这可以被用于利用来自第二标签集的标签来标记历史过程。
在另一示例中,多个标签而不是单个标签可以被分配给过程值。此外,可以使用多个机器学习模型,诸如多个概率模型。例如,可以使用每个数据源一个概率模型。此外,可以使用用于实现实际工业监视和控制任务的算法,该算法可以被配置为处理不一致的类标签。
在另一示例中,第一机器学习模型使用多个第三训练样本来训练,其中第三训练样本包括来自第一标签集或第二标签集的标签和/或工业资产的状况指示符。
更具体地,对于第一机器学习模型的训练,第一标签集和/或第二标签集的标签可以被用作第一机器学习模型的期望输出值。此外,工业资产的状况指示符可以被用作第一机器学习模型的输入值。
根据本发明,还提供了数据处理系统。数据处理系统被配置为执行根据本发明的任何方法的步骤。
数据处理系统可以包括用于存储第一数据时间序列、第二数据时间序列、第三数据时间序列和/或第四数据时间序列的存储介质。数据处理系统还可以包括处理器,诸如具有一个或多个处理器核的微处理器。附加地,数据处理系统可以包括图形处理单元,其可以被用于有效地训练第一机器学习模型、用于数据清洗的机器学习模型和/或用于自动标记的机器学习模型。数据处理系统还可以包括诸如LAN、WLAN或蜂窝通信调制解调器的通信装置。数据处理系统可以经由通信装置连接到工业资产的传感器或工业过程或工厂的控制系统。数据处理系统还可以被连接到一个或多个服务器,一个或多个服务器可以存储训练样本,或者可以执行计算机实现的方法的一个或多个步骤,诸如训练第一机器学习模型、用于数据清洗的机器学习模型和/或用于自动标记的机器学习模型。此外,数据处理系统可以包括诸如屏幕的外围设备。
根据本公开,还提供了计算机程序,其中计算机程序包括指令,当计算机程序在数据处理系统上运行时,指令使得独立权利要求中限定的数据处理系统执行根据本发明的任一方法。
根据本公开,还提供了计算机可读介质,其中计算机可读介质存储如独立权利要求中所限定的计算机程序。
应当理解,用于机器学习的计算机实现的方法、被配置为执行方法的步骤的数据处理系统、用于使得数据处理系统执行方法的计算机程序以及存储有这样的计算机程序的计算机可读介质具有具体地,如从属权利要求中所限定的类似和/或相同的优选实施例。还应当理解,本发明的优选实施例也可以是从属权利要求与相应独立权利要求的任何组合。
参考下文中描述的实施例,本发明的这些和其它方面将变得显而易见并被阐明。
附图说明
以下将参考附图来描述本发明的示例性实施例:
图1图示了用于自动化工业机器学习应用的开发的方法。
图2图示了用于训练和应用数据清洗模型来实现对从工业资产在线接收的原始数据进行自动数据清洗的方法。
图3图示了通过应用用于自动标记的机器学习模型来自动确定标签的方法。
图4图示了用于训练用于自动标记的机器学习模型的方法。
图5图示了用于对数据时间序列执行过程挖掘的方法。
图6图示了从场景选择到模型导出的工作流。
图7图示了生成针对异常和过程阶段检测的无监督模型的过程。
具体实施方式
图1示出了用于自动化工业机器学习应用的开发的方法100,具有地用于预测性维护、过程监视、事件预测或根本原因分析。
在步骤S10中,自动数据清洗算法被应用于历史数据。此外,可以应用用于数据清洗的机器学习模型。在步骤S11中,标签被确定,这可以由用于自动标记的机器学习模型来执行。在最后的预处理步骤、步骤S12中,特征工程通过过程挖掘来执行。在步骤S13中,机器学习模型的常规训练被执行。该机器学习模型可以被配置用于诸如预测性维护、过程监视、事件预测或根本原因分析的应用。训练数据可以包括或可以基于步骤S11中确定的标签和步骤S12中确定的特征。
在步骤S14中,自动机器学习编排针对步骤S10至步骤S12来执行。该过程是迭代的,并且根据从步骤S13获得的机器学习模型的测量性能,步骤S10到步骤S12中的一个或多个可以被重新访问。在一些实施例中,步骤S10至步骤S12中的一个或多个可以至少部分地手动执行,例如初始数据清洗。机器学习编排也可以手动执行。也可以跳过步骤S10到步骤S12和步骤S14中的一个或多个,例如自动数据标记或特征工程步骤。
如步骤S15至步骤S17所示,当机器学习编排算法的迭代结束时,可以提供步骤S10的最终数据清洗算法、步骤S12的最终特征预处理算法和步骤S13的最终机器学习模型,以应用于新数据。
在步骤S15中,最终数据清洗算法被应用于来自工业设施的实况数据流。在步骤S16中,最终特征确定算法被应用于从步骤S15获得的干净数据。在步骤S17中,经训练的机器学习模型被应用于在步骤S16中确定的特征。
在不同的实施例中,数据清洗、标记和特征工程步骤S10、步骤S11和步骤S12的顺序可以分别变化。
图2示出了用于训练和应用数据清洗模型来对从工业资产在线接收的原始数据实现自动数据清洗的方法200。
在步骤S20中,来自工业资产的原始数据被接收并清洗。由此,所接收的原始数据时间序列中的原始数据点可以被映射到干净数据时间序列中的干净数据点上。从原始数据点到干净数据点的映射可以至少部分地由例如机器学习专家手动执行。所接收的原始数据的清洗可以包括处理缺失值。例如,缺失值可以被设置为前一数据点和后一数据点的平均值。此外,所接收的原始数据的清洗可以包括去除噪声。例如,去除噪声可以通过将小于阈值的数据点设置为零来实现。此外,所接收的原始数据的清洗可以包括去除离群值。
在步骤S21中,经清洗的数据点可以被用作用于训练用于数据清洗的机器学习模型的标签。完整的原始数据集可用作回归量。还可以使用元数据(诸如测量值之间的拓扑连接或其他类型的测量值(温度、水平、压力))来选择完整的原始数据集的子集作为经清洗的数据点的回归量。因此,用于训练用于数据清洗的机器学习模型的训练样本可以包括经清洗的数据点和原始数据集的数据点的子集。用于数据清洗的机器学习模型可以被训练为从对应训练样本中的原始数据点的子集预测经清洗的数据点的值。该模型的训练可以以手动调试的传统方式进行,或者以类似超参数调试的概念自动进行。输出可以是机器学习模型或者能够基于多个原始数据点产生经清洗的数据点的若干机器学习模型。
在步骤S22中,从步骤S21获得的用于数据清洗的机器学习模型可以被应用于来自工业过程的数据流,即,应用于数据时间序列,清洗原始在线数据并且使得其适合作为随后的监视和/或控制模型的输入。监视和/或控制模型的输出可以被显示在人机界面(HMI)上。附加地或备选地,例如当在模型预测控制器中用作模型时,监视和/或控制模型的输出可以触发技术系统上的一些动作。
当用于数据清洗的足够数量的训练样本已经可从其它应用获得时,可以跳过步骤S20。然后,来自这些其它应用的训练样本可以被用来训练用于数据清洗的机器学习模型。在这种情况下,不再需要用于确定训练数据的人力。
备选地,可以从其它应用获得用于数据清洗的机器学习模型。
在一个实施例中,即使用于数据清洗的足够数量的训练样本或用于数据清洗的机器学习模型可从其它应用获得,也可执行用于数据清洗的改进的机器学习模型的训练。这可能涉及在主动学习过程中标记附加的原始数据点(指定干净数据点)。主动学习过程可以从机器学习开发者或领域专家选择性地请求标签,以为训练过程提供进一步的信息。
在另一实施例中,超参数优化和其它AutoML技术在训练过程中使用来找到最佳可能的超参数设置和机器学习模型架构来学习数据清洗逻辑。
图3示出了使用具有时间戳的非结构化、半结构化或表格化数据源来自动确定标签的方法300。示例数据源是警报和/或事件列表、轮换簿或CMMS。
在步骤S30中,特征从不同数据源的数据条目中提取。例如,在步骤S30a中,特征可以从轮换簿的数据条目中提取。在步骤S30b中,特征可以从警报和/或事件列表的数据条目中提取。在步骤S30c中,特征可以从CMMS中的数据条目中提取。所提取的特征可以是典型的自然语言处理特征(例如,词袋、所识别的命名实体),但也可以是情感分析或文本分类、统计数字(警报率、#操作员动作)、来自实验室的质量测试或者关于特定工厂区域中的资产的故障注释(来自CMMS)。
数据源的条目可以具有相关联的时间戳或者可以包括时间信息。根据与数据源中的条目相关联的时间戳或条目本身中的时间信息(例如,在轮换簿中提到的时间),用于标记过程值的时间范围可以被提取。诸如轮换簿、警报和/或事件列表以及CMMS的数据源的一个挑战是它们的时间戳不能被精确地映射到过程值的时间戳上。该问题可以例如通过在时间窗上分配具有概率的标签来解决。
在步骤S31中,所提取的特征被用作对概率模型(例如贝叶斯网络)的输入,概率模型可以描述在感兴趣的特征和标签上的联合概率分布。例如,感兴趣的标签可以指示异常或正常操作。给定这些特征,标签值的概率可以被推断,并且带时间戳的标签可以通过选择具有最大概率的标签来创建。
在步骤S32中,在步骤S31中确定的标签被分配给例如过程值,即,数据时间序列的数据点,或者被分配给从一个或多个过程值导出的量,诸如工业资产的状况指示符。与图1的步骤S12中所确定的特征一起,所确定的标签可以形成用于训练图1的步骤S14的机器学习模型的训练样本。
对于每个概率模型,定义来自数据源的哪些文档或条目被用来生成概率模型的输入以及如何为输出标签生成时间窗(t_start、t_end)。
在一个示例性实施例中,概率模型可以使用t_start与t_end之间的警报和事件、从t_start到t_start+8小时(近似对应于一个轮换)或者从t_start到轮换结束的的轮换簿条目以及t_start-12小时与t_end+12小时之间的CMMS条目来生成四小时窗口(t_start=t、t_end=t_start+4小时)的标签。
所生成的标签的概念可以不是标签可能出现在t_start和t_end之间的整个时间窗期间,而是所生成的标签可能出现在t_start和t_end之间的至少一段时间。
图4示出了用于训练用于自动标记的机器学习模型的方法400。在步骤S40中,特征从不同数据源的数据条目中提取。例如,在步骤S40a中,特征可以从轮换簿的数据条目中提取。在步骤S40b中,特征可以从警报和/或事件列表的数据条目中提取。在步骤S40c中,特征可以从CMMS中的数据条目中提取。对轮换簿、警报/事件列表和CMMS中的数据条目进行处理来用于提取特征可以与步骤S30a至S30c的处理类似或相同。
在步骤S41中,用于自动标记的机器学习模型被训练。用于自动标记的机器学习模型可以是诸如贝叶斯网络的概率模型。为了训练用于自动标记的机器学习模型,带时间戳的标签在分类过程中用作类标签。
经训练的概率模型可以在步骤S11和S31中使用,以基于轮换簿、警报/事件列表和/或CMMS中的数据条目来确定迄今为止未标记的时间窗的标签。
在一个实施例中,多个标签可以针对每个时间窗和/或过程值来确定,而不是单个标签。此外,可以使用若干概率模型,甚至可以是每个数据源一个概率模型,或多个机器学习模型。在这种情况下,用于实现实际工业监视和/或控制任务的算法可以被使用来处理不一致的类标签。
图5示出了用于对数据时间序列执行过程挖掘的方法500,方法500可以被用于特征工程,特别是用于针对工业资产的基于状况的监视或预测性维护的机器学习模型。
过程挖掘提供了执行一致性分析的能力。这样的一致性报告可以被量化成工业资产的状况指示符。例如,不同类型的一致性和阈值可以被使用和/或优化。通过周期性地(例如,每秒、每分钟、每小时或每天)计算这些状况指示符,可以比较这些度量来发现异常行为。
例如,来自控制系统的警报和/或事件数据和/或诸如电机的工业资产的传感器数据可以在过程挖掘的帮助下被利用来监视其状况以及预测其行为。该方法对于所使用的传感器或控制系统是不可知的,即,它也可以单独地应用于其他工业资产和控制系统(例如,应用于机器人数据),因为资产的正常操作将被推断为随着时间收集的数据。换言之,不需要显式信息或工作模型来检测诸如随时间降级的异常。
在向领域专家报告异常时,可以容易地提供用于将新数据检测为异常的解释,因为可以容易地检索状况指示符以及实际历史事件日志。
实际上,这样的方法不必限于基于状况的监视。随着更多的数据被收集并用于过程挖掘,该历史数据的收集可以被连续地用于训练机器学习模型,以对将来的状况指示符和其他统计(例如,不同事件的发生频率)进行预测。例如,对于批量过程,通过将实时批量数据作为输入,可以预测过程将如何继续演变。
在图5的步骤S50中,获取数据时间序列。该时间序列可以是来自诸如电机或机器人的工业资产的传感器或来自诸如用于工业过程或工厂的分布式控制系统或集中式控制系统的控制系统的原始时间序列。备选地,时间序列可以是来自传感器或来自控制系统的已处理时间序列。例如,经清洗的时间序列可以从传感器或从控制系统获取。
在步骤S51中,所获取的数据时间序列使用例如符号聚合近似(SAX)或人工智能技术来进行编码。由此,数据时间序列被变换为原始低级事件日志,即,离散的原始低级事件集。
在可选步骤S52中,相关事件可以从原始低级事件日志中提取。附加地或备选地,抽象可以对原始低级事件日志来执行。这可以包括对原始低级事件日志执行聚合或过滤。例如,原始低级事件日志的过滤可以被执行来去除噪声。这可以通过将低于阈值的值设置为零来实现。步骤S52提供低级事件日志。
在步骤S53中,过程挖掘被应用于低级事件日志,以提供一致性分析和/或瓶颈标识。具体地,批量过程中的瓶颈和/或与标准操作程序的偏差可以被发现。
步骤S53中的过程挖掘使得能够将调查集中在感兴趣的情况。对于这些感兴趣的情况,可以在步骤S54中执行进一步的数据分析。这允许考虑诸如操作者当时的工作量之类的上下文信息,更仔细地查看偏离正常工作流的过程。因此,例如通过向操作者提供训练、调整标准操作程序等,不同的动作可以被采取来改进过程效率和安全性。
如何应用过程挖掘的一个简单示例是对警报的反应。可能存在不同优先级的警报。在激活警报之后,可以预期操作者的确认。此外,根据警报优先级,操作者的动作可以在时限内预期,其中时限可以与警报的优先级相关。如果大的偏差被检测,例如,当对优先级1警报的反应发生在警报之后超过5分钟时,这可以被用于重新确定警报的优先级或者用于重新训练操作者更快地动作。快速返回到正常的那些动作序列应成为报警的标准响应。换言之,动作序列可以针对返回到正常的最短时间来优化。
图6示出了从场景选择到模型导出的工作流600。
在步骤S60中,场景被选择。
在步骤S61中,数据被提供。
在步骤S62中,机器学习模型利用AutoML来确定。这可以包括利用AutoML来确定无监督机器学习模型(步骤S62a),利用AutoML来确定监督机器学习模型(步骤S62b)以及由模型管理器进行自动机器学习编排(步骤S62c)。
从原始过程/时间序列数据开始,方法以两个问题类为目标:数据时间序列的异常检测和数据时间序列到阶段的分割。对于这两个问题,无监督机器学习模型的集合被运行来找到用于这两个任务的最佳无监督机器学习模型。在这些结果之上,顺序模式挖掘可以被用来导出可以辅助例如根本原因分析的关联规则。关联规则可以帮助标识其中例如倾向于发生特定异常或者其中过程的生产率受损的情形(例如,“在90%的情况下,当阶段A短于15分钟时,在后续阶段中发生异常”)。
在步骤S63中,报告被生成。多个结果可以被呈现给用户:时间序列到阶段的分割,数据时间序列内的异常以及挖掘规则/模式列表。针对所有结果的置信度阈值可以由用户选择,使得只有那些结果被显示在机器学习模型高度可信的位置。
用户然后可以导出(步骤S64)机器学习模型来用于生产用途,例如用于监视或故障排除,或者提供结果的反馈(步骤S65):所检测的异常的真/假(或更详细的标签)、所检测的阶段的更高/更低粒度(以及可选的标签)。基于反馈,无监督机器学习模型被改进,或者监督机器学习模型利用AutoML来创建(步骤S62b),其中无监督机器学习模型的结果和用户反馈被用来生成标签。过程可以被重复,直到用户接受用于导出的机器学习模型。这可以是有监督的或无监督的机器学习模型。
图7图示了生成用于异常和过程阶段检测的无监督机器学习模型的过程700。因此,图7的过程可以被用于时间序列分割和/或用于异常检测。附加地,关于分割的关联规则或用于异常的关联规则可以被导出。
在步骤S70中,数据(预)处理使用例如符号聚合近似或动态时间扭曲来执行。
在步骤S71中,群集挖掘可选地经由集合学习来执行。
在步骤S72中,模型和数据稳定性检查被执行。
必须注意,本发明的实施例参考不同的主题来描述。然而,本领域技术人员将从以上和以下描述中总结出,除非另有说明,否则除了属于一个类型的主题的特征的任何组合之外,涉及不同主题的特征之间的任何组合也被认为在本申请中公开。然而,所有特征可以被组合,从而提供比特征的简单求和更多的协同效果。
虽然已在附图和前面的描述中详细图示和描述了本发明,但是这样的图示和描述应当被认为是例示性的或示例性的而不是限制性的。本发明不限于所公开的实施例。通过研究附图、公开内容和从属权利要求,本领域技术人员在实践所要求保护的本发明时,可以理解和实现所公开的实施例的其它变型。
在权利要求中,词语“包括”不排除其他元素或步骤,并且不定冠词“一”或“一个”不排除多个。单个处理器或其它单元可以实现权利要求中引用的若干项的功能。在相互不同的从属权利要求中重新记载某些措施的事实并不表示不能有利地使用这些措施的组合。权利要求中的任何附图标记不应被解释为限制范围。
Claims (16)
1.一种针对机器学习的计算机实现的方法(100),所述方法包括:
从工业资产的传感器或从针对工业过程或工厂的控制系统获取(S12、S16、S50)第一数据时间序列;
处理(S12、S16、S51、S52)所述第一数据时间序列以获得事件日志;以及
将过程挖掘应用(S12、S16、S53)于所述事件日志以提供一致性分析和/或瓶颈标识。
2.根据权利要求1所述的计算机实现的方法(100),还包括:
基于所述一致性分析和/或瓶颈标识来确定所述工业资产的状况指示符。
3.根据权利要求1或2中任一项所述的计算机实现的方法(100),还包括:
训练(S13)和/或应用(S17)第一机器学习模型以确定过程偏差、确定潜在改进、执行基于状况的监视、执行预测性维护和/或预测批量过程将如何演变,其中所述第一机器学习模型的输入参数基于所述一致性分析和/或瓶颈标识。
4.根据前述权利要求中任一项所述的计算机实现的方法(100),
其中处理所述第一数据时间序列以获得所述事件日志包括:通过应用符号聚合近似或人工智能技术来编码(S12、S16、S51)所述第一数据时间序列。
5.根据权利要求4所述的计算机实现的方法(100),
其中处理所述第一数据时间序列以获得所述事件日志还包括:对经编码的所述第一数据时间序列执行抽象(S12、S16、S52)。
6.根据权利要求5所述的计算机实现的方法(100),
其中对经编码的所述第一数据时间序列执行的所述抽象包括:数据聚合和/或噪声抑制过滤器。
7.根据前述权利要求中任一项所述的计算机实现的方法(100),还包括:
获取第二数据时间序列;
清洗(S10、S20)所述第二数据时间序列以获得第三数据时间序列;
使用多个第一训练样本来训练(S10、S21)数据清洗机器学习模型;
其中第一训练样本包括来自所述第三数据时间序列的干净数据点和来自所述第二数据时间序列的多个原始数据点。
8.根据权利要求7所述的计算机实现的方法(100),
其中清洗所述第二数据时间序列包括:处理缺失值、去除噪声和/或去除离群值。
9.根据前述权利要求中任一项所述的计算机实现的方法(100),还包括:
从所述传感器或从所述控制系统获取第四数据时间序列;以及
将数据清洗机器学习模型应用(S10、S15、S22)于所述第四数据时间序列以获得所述第一数据时间序列。
10.根据前述权利要求中任一项所述的计算机实现的方法(100),还包括:
获取用于训练针对自动标记的机器学习模型的第一标签集;
获取一个或多个数据源;
从所述一个或多个数据源提取(S11、S40)第一特征集;
使用多个第二训练样本来训练(S11、S41)针对自动标记的所述机器学习模型;
其中第二训练样本包括来自所述第一标签集的标签和来自所述第一特征集的一个或多个特征。
11.根据权利要求10所述的计算机实现的方法(100),
其中所述一个或多个数据源包括以下中的至少一项:轮换簿、警报列表、事件列表和/或来自计算机化维护管理系统的数据源;和/或
其中针对自动标记的所述机器学习模型是概率模型。
12.根据权利要求10或11中任一项所述的计算机实现的方法(100),还包括:
从所述一个或多个数据源提取(S11、S30)第二特征集;
将针对自动标记的所述机器学习模型应用(S11、S31)于来自所述第二特征集的特征,以获得第二标签集。
13.根据权利要求2、3和12所述的计算机实现的方法(100),
其中使用多个第三训练样本来训练所述第一机器学习模型;以及
其中第三训练样本包括来自所述第一标签集或所述第二标签集的标签和/或所述工业资产的所述状况指示符。
14.一种数据处理系统,包括用于执行根据权利要求1至13中任一项所述的方法的步骤的装置。
15.一种包括指令的计算机程序,当所述程序由计算机执行时,所述指令使得所述计算机执行根据权利要求1至13中任一项所述的方法的步骤。
16.一种包括指令的计算机可读介质,所述指令在由计算机执行时,使得所述计算机执行根据权利要求1至13中任一项所述的方法的步骤。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EPPCT/EP2020/059135 | 2020-03-31 | ||
EPPCT/EP2020/059135 | 2020-03-31 | ||
PCT/EP2021/056093 WO2021197782A1 (en) | 2020-03-31 | 2021-03-10 | Data processing for industrial machine learning |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115380294A true CN115380294A (zh) | 2022-11-22 |
Family
ID=74858462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180026316.6A Pending CN115380294A (zh) | 2020-03-31 | 2021-03-10 | 针对工业机器学习的数据处理 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20230019404A1 (zh) |
EP (1) | EP4128087A1 (zh) |
JP (1) | JP2023520066A (zh) |
CN (1) | CN115380294A (zh) |
CA (1) | CA3173398A1 (zh) |
WO (1) | WO2021197782A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117009751A (zh) * | 2023-10-07 | 2023-11-07 | 南方电网数字电网研究院有限公司 | 基于自适应的时序数据清洗方法和装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230195842A1 (en) * | 2021-12-20 | 2023-06-22 | Sap Se | Automated feature engineering for predictive modeling using deep reinforcement learning |
CN114776304B (zh) * | 2022-05-30 | 2022-11-04 | 广州海洋地质调查局 | 一种深海矿产异常区识别的方法、装置、设备及介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08202444A (ja) * | 1995-01-25 | 1996-08-09 | Hitachi Ltd | 機械設備の異常診断方法および装置 |
JP2011145846A (ja) * | 2010-01-14 | 2011-07-28 | Hitachi Ltd | 異常検知方法、異常検知システム、及び異常検知プログラム |
JP5808605B2 (ja) * | 2011-08-17 | 2015-11-10 | 株式会社日立製作所 | 異常検知・診断方法、および異常検知・診断システム |
JP5996384B2 (ja) * | 2012-11-09 | 2016-09-21 | 株式会社東芝 | プロセス監視診断装置、プロセス監視診断プログラム |
US10936564B2 (en) * | 2017-04-19 | 2021-03-02 | Xerox Corporation | Diagnostic method and system utilizing historical event logging data |
JP2020027424A (ja) * | 2018-08-10 | 2020-02-20 | 東京エレクトロンデバイス株式会社 | 学習データ生成装置、判別モデル生成装置、及びプログラム |
JP7167992B2 (ja) * | 2018-09-20 | 2022-11-09 | 日本電気株式会社 | ラベル修正装置 |
-
2021
- 2021-03-10 CN CN202180026316.6A patent/CN115380294A/zh active Pending
- 2021-03-10 WO PCT/EP2021/056093 patent/WO2021197782A1/en unknown
- 2021-03-10 JP JP2022560024A patent/JP2023520066A/ja active Pending
- 2021-03-10 EP EP21710006.4A patent/EP4128087A1/en active Pending
- 2021-03-10 CA CA3173398A patent/CA3173398A1/en active Pending
-
2022
- 2022-09-29 US US17/956,117 patent/US20230019404A1/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117009751A (zh) * | 2023-10-07 | 2023-11-07 | 南方电网数字电网研究院有限公司 | 基于自适应的时序数据清洗方法和装置 |
CN117009751B (zh) * | 2023-10-07 | 2024-05-07 | 南方电网数字电网研究院有限公司 | 基于自适应的时序数据清洗方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2023520066A (ja) | 2023-05-15 |
US20230019404A1 (en) | 2023-01-19 |
CA3173398A1 (en) | 2021-10-07 |
WO2021197782A1 (en) | 2021-10-07 |
EP4128087A1 (en) | 2023-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108073497B (zh) | 一种基于数据中心数据采集平台的多指标异动分析方法 | |
CN115380294A (zh) | 针对工业机器学习的数据处理 | |
US11080127B1 (en) | Methods and apparatus for detection of process parameter anomalies | |
KR102118670B1 (ko) | Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법 | |
US20190268214A1 (en) | Predicting issues before occurrence, detection, or reporting of the issues | |
CN111177485B (zh) | 基于参数规则匹配设备故障的预测方法、设备及介质 | |
JP2019185422A (ja) | 故障予知方法、故障予知装置および故障予知プログラム | |
US10810508B1 (en) | Methods and apparatus for classifying and discovering historical and future operational states based on Boolean and numerical sensor data | |
KR102627062B1 (ko) | 비정상 장비 트레이스 검출 및 분류 | |
JP2018180759A (ja) | システム分析装置、及びシステム分析方法 | |
JP2023547849A (ja) | ラベルなしセンサデータを用いた産業システム内の稀な障害の自動化されたリアルタイムの検出、予測、及び予防に関する、方法または非一時的コンピュータ可読媒体 | |
Navinchandran et al. | Studies to predict maintenance time duration and important factors from maintenance workorder data | |
Becherer et al. | Intelligent choice of machine learning methods for predictive maintenance of intelligent machines | |
CN113835387A (zh) | 运维管理方法、系统及介质 | |
US20230376795A1 (en) | Device, computing platform and method of analyzing log files of an industrial plant | |
Lee et al. | Enhanced Anomaly Detection in Manufacturing Processes through Hybrid Deep Learning Techniques | |
Bellini et al. | A deep learning approach for short term prediction of industrial plant working status | |
EP4136515B1 (en) | Method, apparatus and computer program product for monitoring of industrial devices | |
Feau et al. | A method to build a production process model prior to a process mining approach | |
CN114265891A (zh) | 基于多源数据融合的智慧车间系统、方法及存储介质 | |
Yitmen et al. | AI-Driven Digital Twins for Predictive Operation and Maintenance in Building Facilities | |
CN117216701B (zh) | 智慧桥梁监测预警方法及系统 | |
Simi et al. | A Robust Data-Driven Predictive Maintenance Framework for Industrial Machinery using Explainable Machine Learning Techniques | |
Tayeh et al. | Anomaly Detection in Smart Manufacturing with an Application Focus on Robotic Finishing Systems: A Review | |
Xiong et al. | Case-based reasoning supports fault diagnosis using sensor information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |