CN114546256A

CN114546256A - 从时间序列数据导出的用于kpi的基于数据质量的置信度计算

Info

Publication number: CN114546256A
Application number: CN202111400516.1A
Authority: CN
Inventors: V·穆尼加拉; D·萨哈; S·昆都; G·阿迪纳拉扬
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-11-25
Filing date: 2021-11-24
Publication date: 2022-05-27
Anticipated expiration: 2041-11-24
Also published as: US11314584B1; JP2022083983A; DE102021125859A1; US11860727B2; CN114546256B; US20220237074A1; GB2603252A

Abstract

提供了一种用于向用于具有指示错误的问题的数据的替换数据提供置信度值的系统、计算机程序产品和方法，其中，数据问题、替换数据和置信度值与一个或多个KPI相关。该方法包括识别一个或多个潜在错误数据实例，以及确定用于潜在错误数据实例的一个或多个预测替换值。该方法还包括针对每个预测替换值确定置信度值，以及用一个或多个预测替换值中的一个预测替换值解决一个或多个潜在错误数据实例。该方法还包括生成针对一个或多个潜在错误数据实例的解决的解释基础。

Description

从时间序列数据导出的用于KPI的基于数据质量的置信度计算

技术领域

本公开涉及针对时间序列数据内的已校正数据计算置信度值，并且更具体地，涉及对用于具有指示一个或多个错误的问题的数据的替换数据提供置信度值，其中，数据问题、替换数据和置信度值与一个或多个关键绩效指标(KPI)相关。

背景技术

许多已知的实体(包括商业实体和住宅实体)包括从各种源(诸如物联网(IoT)设备、智能家居设备、人类活动、设备活动等)收集时间序列数据的系统。所收集的数据可被分析以促进能量节约、占用分配等。有时，由于各种原因，诸如受控设备的故障、相应的感测设备故障、以及关于数据收集系统、数据存储系统或数据传输系统的问题，所收集的时间序列数据的一部分可能是错误的。

发明内容

提供了一种用于针对时间序列数据内的已校正数据计算置信度值的系统、计算机程序产品和方法。

在一个方面，提供了一种用于针对时间序列数据内的已校正数据计算置信度值的计算机系统。该系统包括一个或多个处理设备和可操作地耦合到该一个或多个处理设备的至少一个存储器设备。一个或多个处理设备被配置为在时间序列数据流中识别一个或多个潜在错误数据实例，并确定用于一个或多个潜在错误数据实例的一个或多个预测替换值。一个或多个处理设备还被配置为针对一个或多个预测替换值中的每个预测替换值确定置信度值，并用一个或多个预测替换值中的一个预测替换值解决一个或多个潜在错误数据实例。一个或多个处理设备进一步被配置为生成针对一个或多个潜在错误数据实例的解决的解释基础。

在另一个方面，提供了一种用于针对时间序列数据内的已校正数据计算置信度值的计算机程序产品。该计算机程序产品包括一个或多个计算机可读存储介质以及被共同存储在一个或多个计算机存储介质上的程序指令。该产品还包括用于在时间序列数据流中识别一个或多个潜在错误数据实例的程序指令。该产品进一步包括用于确定用于一个或多个潜在错误数据实例的一个或多个预测替换值的程序指令。该产品还包括用于针对一个或多个预测替换值中的每个预测替换值确定置信度值的程序指令。该产品进一步包括用一个或多个预测替换值中的一个预测替换值解决一个或多个潜在错误数据实例的程序指令。该产品还包括用于生成针对一个或多个潜在错误数据实例的解决的解释基础的程序指令。

在又一个方面，提供了一种用于针对时间序列数据内的已校正数据计算置信度值的计算机实现的方法。该方法包括在时间序列数据流中识别一个或多个潜在错误数据实例。该方法还包括确定用于一个或多个潜在错误数据实例的一个或多个预测替换值。该方法进一步包括针对一个或多个预测替换值中的每个预测替换值确定置信度值。该方法还包括用一个或多个预测替换值中的一个预测替换值解决一个或多个潜在错误数据实例。该方法进一步包括生成针对一个或多个潜在错误数据实例的解决的解释基础。

本发明内容并不旨在说明本公开的每个方面、每个实现和/或每个实施例。从下面结合附图对本实施例的详细描述中，这些和其它特征和优点将变得显而易见。

附图说明

本申请中包括的附图被并入说明书中并形成说明书的一部分。它们示出了本公开的实施例，并且与说明书一起用于解释本公开的原理。附图是某些实施例的图示，而不是限制本公开。

图1是示出根据本公开的一些实施例的云计算机环境的示意图。

图2是示出根据本公开的一些实施例的由云计算环境提供的一组功能抽象模型层的框图。

图3是示出根据本公开的一些实施例的可用作基于云的支持系统以实现本文描述的过程的计算机系统/服务器的框图。

图4是示出根据本公开的一些实施例的针对时间序列数据内的已校正数据计算置信度值的系统的示意图。

图5A是示出根据本公开的一些实施例的用于针对时间序列数据内的已校正数据计算置信度值的过程的流程图。

图5B是图5A所示的流程图的继续，其示出根据本公开的一些实施例的用于针对时间序列数据内的已校正数据计算置信度值的过程。

图5C是图5A和5B所示的流程图的继续，其示出根据本公开的一些实施例的用于针对时间序列数据内的已校正数据计算置信度值的过程。

图6是示出根据本公开的一些实施例的用于识别相关问题的算法的文本图。

图7是示出根据本公开的一些实施例的用于可观察箱(box)KPI分析的算法的文本图。

图8是示出根据本公开的一些实施例的用于不可观察箱KPI分析的算法的文本图。

图9是示出根据本公开的一些实施例的用于快照模拟的过程的一部分的示意图。

图10是示出根据本公开的一些实施例的用于基于方法的模拟的过程的示意图。

图11是示出根据本公开的一些实施例的用于基于点的模拟的过程的示意图。

图12是示出根据本公开的一些实施例的用于快照优化器的算法的文本图。

图13是示出根据本公开的一些实施例的KPI值推断的图形图。

图14是示出根据本公开的一些实施例的置信度度量的生成的图形/文本图。

图15是示出根据本公开的一些实施例的置信度度量的图形图。

图16是示出根据本公开的一些实施例的置信度度量解释的文本图。

虽然本公开可修改为各种修改和替代形式，但其细节已在附图中以示例的方式示出并将详细描述。然而，应当理解，目的不是将本公开限制于所描述的特定实施例。相反，本发明将涵盖落入本公开的精神和范围内的所有修改、等同物和替代物。

具体实施方式

容易理解，如在此一般性描述并在附图中示出的本实施例的组件可以以各种不同的配置来布置和设计。因此，如附图中所呈现的，以下对本实施例的装置、系统、方法和计算机程序产品的实施例的详细描述不旨在限制如所要求保护的实施例的范围，而仅仅代表所选的实施例。另外，将理解，尽管出于说明的目的已在本文中描述了特定实施例，但是，可在不脱离这些实施例的精神和范围的情况下作出各种修改。

在整个说明书中对“选择的实施例”、“至少一个实施例”、“一个实施例”、“另一个实施例”、“其它实施例”、或“实施例”以及类似语言的提及意味着结合实施例描述的特定特征、结构或特性被包括在至少一个实施例中。因此，在本说明书中的各个地方出现的短语“选择的实施例”、“至少一个实施例”、“在一个实施例中”、“另一个实施例”、“其它实施例”或“实施例”不一定是指相同的实施例。

通过参考附图，将更好地理解所示的实施例，其中，相同的部分始终由相同的附图标记表示。以下描述仅意在作为示例，并且仅示出与所要求保护的实施例一致的设备、系统和过程的某些所选实施例。

应当理解，尽管本公开包括关于云计算的详细描述，但是本文所记载的教导的实现不限于云计算环境。相反，本公开的实施例能够结合现在已知或以后开发的任何其他类型的计算环境来实现。

云计算是一种服务交付模式，用于实现对共享的可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、VM和服务)池池的方便、按需的网络访问，可配置计算资源可以以最小的管理成本或与服务提供商进行最少的交互来快速供应和释放。这种云模式可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特征如下：

按需自助式服务：云的消费者可以单方面自动地按需提供计算能力(诸如服务器时间和网络存储)，而无需与服务提供者进行人工交互。

广泛的网络接入：能力在网络上可用并通过促进异构的瘦或厚客户端平台(例如，移动电话、膝上型计算机和PDA)的使用的标准机制来接入。

资源池：提供商的计算资源被归入资源池以使用多租户模型来服务多个消费者，其中不同的物理和虚拟资源根据需求被动态地分配和再分配。一般情况下，消费者不能控制或不知道所提供的资源的确切位置，但是可以在较高抽象程度上指定位置(例如国家、州或数据中心)，因此具有位置无关性。

迅速弹性：可以迅速且有弹性地(在一些情况下自动地)提供能力以快速向外扩展并被迅速释放以快速缩小。对于消费者，可用于提供的能力通常看起来是无限的，并可以在任何时间以任何数量购买。

可测量的服务：云系统通过利用在适于服务类型(例如，存储、处理、带宽和活动用户账户)的某一抽象程度的计量能力，自动地控制和优化资源使用。可以监视、控制和报告资源使用情况，为所利用的服务的提供者和消费者双方提供透明度。

服务模型如下：

软件即服务(SaaS)：向消费者提供的能力是使用提供者在云基础架构上运行的应用。可通过诸如网络浏览器的瘦客户机接口(例如，基于网络的电子邮件)来从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置以外，消费者既不管理也不控制包括网络、服务器、操作系统、存储、或甚至单个应用能力等的底层云基础架构。

平台即服务(PaaS)：向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用，这些应用是使用由提供商支持的编程语言和工具创建的。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构，但对其部署的应用具有控制权，对应用托管环境配置可能也具有控制权。

基础架构即服务(IaaS)：向消费者提供的能力是提供消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其它基础计算资源。消费者既不管理也不控制底层云基础架构，但对操作系统、存储、所部署的应用具有控制权，对所选择的网络组件(例如，主机防火墙)可能具有有限的控制权。

部署模型如下：

私有云：云基础架构单独为某个组织运行。它可以由该组织或第三方管理，并且可以存在于该组织内部或外部。

共同体云：云基础架构被若干组织共享，并支持具有共同利害关系(例如，任务、安全要求、政策和合规考虑)的特定共同体。它可以由该组织或第三方管理，并且可以存在于该组织内部或外部。

公共云：云基础架构可用于一般公众或大型产业群，并由销售云服务的组织拥有。

混合云：云基础架构由两个或更多云(私有云、共同体云或公共云)组成，这些云依然是独特实体，但是通过使数据和应用能够移植的标准化技术或私有技术(例如，用于云之间的负载平衡的云突发)绑定在一起。

云计算环境是面向服务的，特点集中在无状态性、低耦合性、模块性和语义的互操作性。云计算的核心是包括互连节点网络的基础架构。

现在参考图1，描绘了说明性的云计算环境50。如图所示，云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10，本地计算设备例如是个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N。节点10可以彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络(诸如如上文所描述的私有云、共同体云、公共云或混合云或其组合)中。这允许云计算环境50提供基础架构即服务、平台即服务和/或软件即服务，而云消费者不需要为其在本地计算设备上维护资源。应当理解，图1中所示的各类计算设备54A-N仅仅是示意性的，计算节点10和云计算环境50可以在任何类型的网络和/或网络可寻址连接上(例如，使用网络浏览器)与任何类型的计算设备通信。

现在参考图2，示出了由云计算环境50(图1)提供的一组功能抽象层。首先应当理解，图2所示的组件、层和功能仅仅是示意性的，本发明的实施例不限于此。如图所示，提供了以下层和相应的功能：

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：大型机61；基于RISC(精简指令集计算机)架构的服务器62；服务器63；刀片服务器64；存储设备65；以及网络和网络组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。

虚拟化层70提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器71；虚拟存储器72；虚拟网络73，包括虚拟专用网络；虚拟应用程序和操作系统74；以及虚拟客户端75。

在一个示例中，管理层80可以提供以下描述的功能。资源供应功能81提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取。计量和定价功能82提供对在云计算环境内使用资源的成本跟踪，并为这些资源的消耗提供账单或发票。在一个示例中，这些资源可以包括应用软件许可。安全功能为云消费者和任务提供身份认证，并为数据和其他资源提供保护。用户门户功能83为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能84提供云计算资源的分配和管理，以满足所需的服务水平。服务水平协议(SLA)计划和履行功能85提供对根据SLA针对其预测未来需求的云计算资源的预安排和采购。

工作负载层90提供可以利用云计算环境的功能的示例。在该层中，可提供的工作负载和功能的示例包括：地图绘制与导航91；软件开发及生命周期管理92；虚拟教室的教学提供93；数据分析处理94；交易处理95；以及针对时间序列数据计算置信度值96。

参考图3，提供了示例数据处理系统(在此被称为计算机系统100)的框图。系统100可以被实现在单一位置处的计算机系统/服务器中，或者在至少一个实施例中，可以被配置在共享计算资源的基于云的系统中。例如但不限于，计算机系统100可以用作云计算节点10。

计算机系统100的各方面可以在单一位置处的计算机系统/服务器中实现，或者在至少一个实施例中，可以在共享计算资源的基于云的系统中被配置为基于云的支持系统，以实现本文描述的系统、工具和过程。计算机系统100可与许多其它通用或专用计算机系统环境或配置一起操作。适合与计算机系统100一起使用的公知的计算机系统、环境和/或配置的示例包括但不限于包括上述系统、设备及其等同物中的任一个的个人计算机系统、服务器计算机系统、瘦客户端、胖客户端、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机系统、大型计算机系统、以及文件系统(例如，分布式存储环境和分布式云计算环境)。

计算机系统100可以在计算机系统可执行指令的一般上下文中描述，诸如由计算机系统100执行的程序模块。通常，程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算机系统100可以在分布式云计算环境中实践，其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中，程序模块可以位于包括存储器存储设备的本地和远程计算机系统存储介质中。

如图3所示，采用通用计算设备的形式示出计算机系统100。计算机系统100的组件可以包括但不限于一个或多个处理器或处理设备104(有时被称为处理器和处理单元)(例如硬件处理器)、系统存储器106(有时被称为存储器设备)、以及将包括系统存储器106的各种系统组件耦合到处理设备104的通信总线102。通信总线102表示若干类型的总线结构中的任何一种的一个或多个，包括存储器总线或存储器控制器、外围总线、加速图形端口、以及使用各种总线架构中的任何一种的处理器或局部总线。作为示例而非限制，这种架构包括工业标准架构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子标准协会(VESA)局部总线和外设组件互连(PCI)总线。计算机系统100通常包括各种计算机系统可读介质。这样的介质可以是计算机系统100可访问的任何可用介质，并且它包括易失性和非易失性介质、可移除和不可移除介质。另外，计算机系统100可以包括一个或多个永久性存储设备108、通信单元110、输入/输出(I/O)单元112、和显示器114。

处理设备104用于执行可被加载到系统存储器106中的软件的指令。处理设备104可以是多个处理器、多核处理器、或某种其他类型的处理器，这取决于特定实现。如本文所用的关于项目的数量意味着一个或多个项目。进一步地，处理设备104可以使用多个异构处理器系统来实现，其中主处理器与辅助处理器一起存在于单个芯片上。作为另一个说明性示例，处理设备104可以是包含相同类型的多个处理器的对称多处理器系统。

系统存储器106和永久性存储设备108是存储设备116的示例。存储设备可以是能够临时和/或永久地存储信息(例如但不限于数据、功能形式的程序代码、和/或其他合适的信息)的任何硬件。在这些示例中，系统存储器106可以是例如随机存取存储器或任何其他合适的易失性或非易失性存储设备。系统存储器106可以包括采用易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)和/或高速缓冲存储器。

取决于特定的实现，永久性存储设备108可以采取各种形式。例如，永久性存储设备108可以包含一个或多个组件或设备。例如但不限于，永久性存储设备108可被提供用于从不可移除的非易失性磁介质(未示出并且通常被称为“硬盘驱动器”)读取和向其写入。尽管未示出，但是，可以提供用于从可移除的非易失性磁盘(例如，“软盘”)读取和向其写入的磁盘驱动器以及用于从可移除的非易失性光盘(诸如CD-ROM、DVD-ROM或其它光学介质等)读取和向其写入的光盘驱动器。在这种情况下，每一个可通过一个或多个数据介质接口被连接到通信总线102。

在这些例子中的通信单元110可以提供与其他计算机系统或设备的通信。在这些示例中，通信单元110是网络接口卡。通信单元110可以通过使用物理和无线通信链路中的任何一个或两者来提供通信。

输入/输出单元112可以允许与可被连接到计算机系统100的其它设备的数据的输入和输出。例如，输入/输出单元112可提供连接以用于通过键盘、鼠标、和/或一些其它合适的输入设备的用户输入。进一步地，输入/输出单元112可以将输出发送到打印机。显示器114可以提供向用户显示信息的机制。便于在计算机系统100内的各种设备之间建立通信的输入/输出单元112的示例包括但不限于网卡、调制解调器和输入/输出接口卡。此外，计算机系统100可以经由网络适配器(在图3中未示出)与一个或多个网络(诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如，互联网))通信。应当理解，尽管未示出，但是，可以结合计算机系统100使用其他硬件和/或软件组件。这种组件的实例包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动器阵列、RAID系统、磁带驱动器、以及数据档案存储系统。

用于操作系统、应用和/或程序的指令可以位于存储设备116中，其通过通信总线102与处理设备104通信。在这些说明性示例中，指令在永久性存储设备108上是采用功能形式的。这些指令可以被加载到系统存储器106中以便由处理设备104执行。不同实施例的过程可以由处理设备104使用计算机实现的指令来执行，这些指令可以位于诸如系统存储器106的存储器中。这些指令被称为程序代码、计算机可用程序代码、或计算机可读程序代码，其可以由处理设备104中的处理器读取和执行。不同实施例中的程序代码可以体现在不同的物理或有形计算机可读介质上，例如系统存储器106或永久性存储设备108。

程序代码118可以采用功能形式位于可选择性移除的计算机可读介质120上，并且可以被加载到或转移到计算机系统100以用于由处理设备104执行。在这些示例中，程序代码118和计算机可读介质120可以构成计算机程序产品122。在一个示例中，计算机可读介质120可以是计算机可读存储介质124或计算机可读信号介质126。计算机可读存储介质124可以包括例如光盘或磁盘，其被插入或放置到作为永久性存储设备108的一部分的驱动器或其他设备中，以用于传送到作为永久性存储设备108的一部分的存储设备(诸如硬盘驱动器)上。计算机可读存储介质124还可以采取被连接到计算机系统100的永久性存储设备的形式，例如硬盘驱动器、拇指驱动器或闪存。在一些情况下，计算机可读存储介质124可以不是从计算机系统100可移除的。

替代地，程序代码118可以使用计算机可读信号介质126被传送到计算机系统100。计算机可读信号介质126可以是例如包含程序代码118的传播数据信号。例如，计算机可读信号介质126可以是电磁信号、光信号、和/或任何其他合适类型的信号。这些信号可以通过通信链路(例如无线通信链路、光纤电缆、同轴电缆、电线和/或任何其他合适类型的通信链路)来传输。换句话说，在说明性示例中，通信链路和/或连接可以是物理的或无线的。

在一些说明性实施例中，程序代码118可以在网络上从另一个设备或计算机系统通过计算机可读信号介质126被下载到永久性存储设备108，以在计算机系统100内使用。例如，被存储在服务器计算机系统中的计算机可读存储介质中的程序代码可以通过网络从服务器被下载到计算机系统100。提供程序代码118的计算机系统可以是服务器计算机、客户端计算机、或能够存储并发送程序代码118的一些其它设备。

程序代码118可包括可被存储在系统存储器106中的一个或多个程序模块(在图3中未示出)(作为示例而非限制)、以及操作系统、一个或多个应用程序、其它程序模块、和程序数据。操作系统、一个或多个应用程序、其它程序模块、以及程序数据或其某种组合中的每一个可包括联网环境的实现。程序代码118的程序模块通常执行如本文所描述的实施例的功能和/或方法。

图示用于计算机系统100的不同组件并不意味着对可以实现不同实施例的方式提供架构限制。不同的说明性实施例可以在包括附加或替代那些图示用于计算机系统100的组件的组件的计算机系统中实现。

本发明可以是任何可能的技术细节集成水平的系统、方法和/或计算机程序产品。计算机程序产品可以包括在其上具有计算机可读程序指令的(一个或多个)计算机可读存储介质，计算机可读程序指令用于使处理器执行本发明的各方面。

计算机可读存储介质可以是可保持并存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或前述存储设备的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如在上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码设备、以及上述设备的任何适当的组合。如本文所使用的计算机可读存储介质不应被解释为是暂时性信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤线缆的光脉冲)、或通过导线传输的电信号。

本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络(例如互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或者以一种或多种编程语言(包括面向对象的编程语言，例如Smalltalk、C++等)和过程编程语言(例如“C”编程语言或类似的编程语言)的任意组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户的计算机上执行、部分在用户的计算机上执行、作为独立的软件包执行、部分在用户的计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种场景下，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机，或者可以连接到外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化，以便执行本发明的各方面。

在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，以使得经由计算机或其他可编程数据处理装置的处理器而执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作，已使得在其中存储有指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使一系列操作步骤将在计算机、其他可编程装置或其他设备上执行，以产生计算机实现的过程，以使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。

附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上，流程图或框图中的每个框可以表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中，框中所注明的功能可不按图中所注明的次序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还将注意，框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。

许多已知的实体(包括商业实体和住宅实体)包括从各种源(诸如物联网(IoT)设备、智能家居设备、人类活动、设备活动等)收集时间序列数据的系统。所收集的数据可被分析以促进能量节约、占用分配等。有时，由于各种原因，诸如受控设备的故障、相应的感测设备故障、以及关于数据收集系统、数据存储系统或数据传输系统的问题，所收集的时间序列数据的一部分可能是错误的。例如，在一个实施例中，占用管理系统针对峰值负载值评估电力使用，并且响应于错误的占用数据值，为了避免峰值使用费用，可能错误地启动在相关联空间中的预定设备的断电。

此外，许多已知的实体拥有一个或多个关键绩效指标(KPI)，其中，如在此所使用的，KPI是指与一个或多个关键目标相关联的一个或多个可测量指标。KPI通过评估满足这些关键目标的成功来促进实现关键目标。KPI是可伸缩的，因为可以使用企业范围的KPI，也可以使用较低级别的子组织特定KPI，例如销售KPI、营销KPI、HR KPI、IT支持KPI、和维护KPI。在一些实施例中，在一个或多个文档中明确标识和描述KPI，并且在一些实施例中，KPI根据对所收集的数据的分析而变得明确，其中，“隐藏的”KPI可以被“发现”，并且先前陈述的KPI可被验证。

本文公开并描述了一种系统、计算机程序产品和方法，其针对从一个或多个传感器设备收集时间序列数据。在一些实施例中，该系统包括数据质量到KPI预测置信度引擎。所收集的时间序列数据在此被称为“原始数据”和“原始时间序列数据流”。除非另外指明，否则如本文针对各种实施例所讨论的，每个时间序列数据流源自单个感测设备或者源自多个传感器，其中，该流是来自各传感器的输出的组合(例如聚类)或者是来自多个传感器中的已被竞拍或以其他方式被选择的一个传感器的输出。此外，除非另外指出，否则本文所描述的系统被配置为同时分析多个数据流，而对数据流的数量没有限制。因此，本文所描述的系统被配置成分析单独的数据流。

在一个或多个实施例中，分析被嵌入各数据流内的数据的质量，并通过两步过程来确定与各数据相关的相应的一个或多个KPI。最初，作为数据分组的原始数据的质量从传感器被传输到数据检查模块，其中，由被嵌入数据检查模块内的数据检查子模块检查数据分组。在一些情况下，一个或多个数据分组可以包括将相应的数据分组识别为包含潜在故障数据的问题。一个这样的问题可与采样频率相关联。例如但不限于，数据检查子模块检查数据传感器的采样频率以确定在数据中是否存在多个采样频率，例如，是否在采样频率中存在偶然扰动，以及是否存在连续的采样频率变化。此外，例如但不限于，数据检查子模块检查数据的时间戳以确定在数据中是否缺失任何时间戳、数据是否缺失了连续的延长持续时间、以及是否存在变化格式的时间戳。此外，例如但不限于，数据检查子模块检查句法值问题以确定所谓数值数据是否包括“非数字(NaN)”数据的延长持续时间以及不恰当的数值舍入和截断。另外，例如但不限于，数据检查子模块检查语义值问题以确定任何数据是否包括异常事件和噪声数据。因此，数据检查子模块检查流中的数据，并确定数据是否在预定容限内和在数据中是否存在任何可疑的错误以及错误的性质。

在一些实施例中，有两种形式，即，对系统试图操作以确定数据质量的原始数据的处理(如上所述)，以及确定计划要被应用于数据的一个或多个KPI公式。如在此所使用的，KPI公式包括一个或多个KPI特性，其中KPI特性还包括但不限于公式的细节，例如但不限于公式的算法所针对的一个或多个数据问题、算法本身、以及各KPI的任何参数和定义。在一些实施例中，通过数据检查模块来执行两种形式，即，通过数据检查子模块来评估数据质量，以及通过可操作地耦合到数据检查子模块的KPI特性确定子模块来执行KPI特性化的公式评估。在一些实施例中，KPI特性确定子模块是可操作地耦合到数据检查模块的单独模块。因此，数据检查特征和确定相关KPI公式特性紧密结合。

在至少一些实施例中，这样的KPI公式特性的至少一部分通常被实现为对进入的数据流进行操作以向用户提供支持相应的KPI的必要输出数据和功能的算法。此外，在一些实施例中，KPI公式位于被嵌入KPI特性确定子模块内的KPI公式子模块内。因此，如前所述，首先检查数据以验证它在某一容限内，然后确定是否存在潜在错误数据与一个或多个特定KPI的任何关联。在一个或多个实施例中，所收集的原始数据的至少一部分与任何KPI不相关联，因此，对于给定KPI，这种错误的原始数据是没有影响的。因此，为了执行相关问题的初始识别，执行简单的KPI相关性测试。例如但不限于，如果一个或多个特定KPI使用基于平均值的公式，并且在各个数据流中的潜在错误数据包括无序的时间戳，则确定无序的时间戳不对相应的一个或多个KPI产生任何影响。类似地，如果一个或多个特定KPI是基于中值或基于众数(mode)的公式，则在相应的数据流中存在异常值不对相应的KPI产生任何影响。因此，一些错误数据属性可能对特定KPI没有影响，并且这种数据与在此进一步描述的KPI相关的分析无关。

在一些实施例中，可以采用的用于确定KPI相关性的另一机制是将具有已知的非错误数据和在一些实施例中的可疑的错误数据的至少一部分原始时间序列数据流传送到KPI公式子模块中的一个或多个相应的KPI公式以生成数值，即生成原始KPI测试值。具体地，可以处理没有错误值的数据以将至少一个值改变为已知的错误值，从而生成带有估算错误的数据，该带有估算错误的数据也被传递到相应的一个或多个KPI以生成估算的KPI测试值。在一些实施例中，注入的错误可以包括但不限于在原始数据流中随机选择一些数据并移除这样的随机数据以确定缺失数据问题是否相关、以及随机选择已知的非错误数据并注入已知扩展超出已建立的容限的值以确定异常值问题是否相关。估算的KPI测试值与原始KPI测试值进行比较，并且如果它们之间有足够的相似性，则将原始数据(即，与原始数据相关联的问题)标记为与相应的KPI相关。如果在估算的KPI测试值与原始KPI测试值之间没有足够的相似性，则将包括上述问题的原始数据标记为与相应的KPI不相关。因此，为了确定在原始数据流中的可疑或以其它方式识别的数据错误之间是否存在任何相关关系，在其中嵌入有预定错误的数据被用于确定错误数据是否对相应的KPI公式存在任何相关和明显的影响。

在至少一些实施例中，执行KPI特性确定。用于每个KPI特性确定(有时被称为KPI特性描述)的基础包括一个或多个KPI，例如，用于商业的一个或多个商业特定KPI、用于私人住宅的一个或多个住宅特定KPI。在一些实施例中，KPI被预先确定并描述为例如用于获得特定商业目标的成功或不成功的显式测量。在一些实施例中，根据商业数据的收集和分析来开发KPI，以确定用于获得商业目标的以其它方式未识别的测量，从而便于识别一个或多个附加KPI。因此，不管来源如何，KPI都可用于将KPI内的相关联的固有属性与在原始数据中发现的相应问题进行匹配，并且在一些情况下，便于识别相关问题。

在一个或多个实施例中，当原始数据被发送到数据检查模块时，在原地执行KPI特性确定操作。此外，由于实时产生的原始数据问题的性质事先是未知的，因此，将实时动态地进行数据检查和KPI特性确定。因此，结合影响进入的原始数据的问题的确定来执行具有被嵌入相应KPI的相应公式内的相应特性的相应KPI的确定。KPI特性确定的至少一部分包括确定与原始数据相关联的相应KPI的性质。在一些实施例中，进入的原始数据的一部分将不与任何KPI相关联，并且对于本公开，该数据将不被进一步操作，并且任何嵌入的问题将被忽略并且数据被原样处理，或者问题通知将以一种或多种方式被发送给用户。在其它实施例中，将进一步确定进入的原始数据和相关联的KPI公式的关系。

在实施例中，KPI公式被分组成两种类型公式中的一种，即“可观察箱”公式和“不可观察箱”公式。可观察箱KPI公式对于检查可用，即，细节是可观察的，并且KPI特性确定子模块包括可观察箱子模块。不可观察箱KPI公式对于在其中包含的操作和算法是不透明的，例如但不限于，各个不可观察箱算法和操作可以在本质上是专有的，并且各个用户对于其内容需要一定级别的保密和机密性。KPI特性确定子模块包括不可观察箱子模块。在具有可观察箱KPI公式和不可观察箱KPI公式两者的一些实施例中，相关联的算法检查适当的KPI特性公式是否包括关于具有问题的数据的周围原始数据值的一个或多个分析，包括但不限于最大值确定、最小值确定、平均值确定、中值确定、以及其它统计确定(例如但不限于标准差分析)中的一个或多个。如前所述，如果在各个原始数据与KPI公式特性之间没有关系，则根据本公开，对带有问题的数据不采取进一步动作。因此，对于与KPI有关系的原始数据(两者都由用户提供)所关联的那些问题，确定KPI公式的属性即特性，即可观察箱还是不可观察箱，以使得可以对可能不利地影响相关的KPI的相关数据质量问题进行正确地分类，并可以执行后续的优化。

在一个或多个实施例中，快照生成器模块接收数据检查模块的输出，该输出包括具有已知的嵌入问题的错误数据和相应的KPI公式特性。快照生成器模块被配置为通过被投入生产的一个或多个模型来模拟各数据值，从而生成模拟数据的快照，以促进对原始数据的模拟。在一些实施例中，使用基于方法的模拟和基于点的模拟。尽管可以使用任何一种模拟(包括同时使用两种模拟)而不管错误数据中的问题的性质，但是在一些实施例中，选择两种模拟中的哪一种是基于原始数据质量问题的性质，并且在一些实施例中，该选择可以基于由用户生成的预定指令。然而，一般地，基于方法的模拟被更好地配置用于处理缺失值问题，并且基于点的模拟被更好地配置用于处理异常值问题。

例如，在一些实施例中，用户的先前试运行可能已经指示了缺失数据可以基于数据是否丢失了连续的延长持续时间或者句法值问题是否存在(即，所谓数值数据包括NaN数据的延长持续时间或者确定不恰当的数值舍入或截断)来确定。这样，基于方法的模拟可以提供对前述状况的更好分析。如果存在语义值问题，即一些数据包括异常事件或者一致或模式化的噪声数据，则可以确定异常值问题。这样，基于点的模拟可以提供对前述状况的更好分析。类似地，如果用户确定基于方法的模拟还是基于点的模拟对于指定状况提供更好的模拟可能是不确定的，则对于任何一者可以提供更好的模拟的如上所述的那些状况，可以使用两种模拟方法。

快照生成器模块被配置为使用基于方法的模拟来分析一个或多个补救方法，其中每个补救方法可以包括例如但不限于用于确定平均值、中值等的算法。此外，无论KPI公式特性是不可观察箱还是可观察箱，都可以使用基于方法的模拟子模块。每个补救方法包括生成一个或多个估算值，如果使用该特定补救方法，则该一个或多个估算值被包括在相应的模拟快照中作为对错误值的潜在解决方案或替代。注意，估算值可以是或者可以不是潜在的替换值。由于没有关于哪个补救方法提供针对特定的当前状况的最佳或最正确的替换值的预定概念，因此，使用多个模型，其中每个模型用于执行相应的补救方法。在一些实施例中，基于方法的模拟子模块被通信地耦合到KPI公式子模块。而且，用于计算针对错误数据的估算值的非错误数据部分取决于特定的补救技术。例如，如果确定用所有值的平均值替换缺失值，则在补救模块中使用基本完整的相应数据的集合。替代地，如果仅使用周围三个值来计算缺失值，则补救模块仅使用那些周围值。因此，基于方法的模拟用于生成非错误原始数据的一个或多个模拟快照以及针对每个错误原始数据值的估算值，其中，每个模拟值指示当使用特定补救方法时数据值会看上去像什么，从而生成多个估算值，每个估算值是不同补救方法的产物。

在至少一些实施例中，数据收集包括使用基于启发式的特征，其便于在收集数据点时确定数据点中的模式。如本文所使用的，术语“数据点”和术语“数据元素”可互换使用。在一些情况下，由于各数据点超过阈值，因此，原始数据的一个或多个实例可能似乎不正确，其中该阈值是基于数据点值根据所建立的数据模式而应当是什么的概率。例如但不限于，可以通过错误的数据分组或者根据对实时正发生的事情的准确描绘来生成表面的数据偏移(即，向上或向下的数据尖峰)。因此，快照生成器模块进一步被配置为使用基于点的模拟来分析错误以确定表面上错误的数据是否是实际上错误的数据。

在一个或多个实施例中，包括已知的正确原始数据和可疑的潜在错误数据点的数据被组合成各种配置以发起对潜在错误数据值是正确还是错误的概率的确定。每个潜在错误数据值被单独推断为离散“正确”或离散“错误”，然后，潜在错误数据值被称为“推断数据点”以将其与已知的正确原始数据相区分。这样，推断数据点具有被传输的原始数据值和正确或错误的推断标签。分析的剩余部分专门集中在推断数据点上。具体地，评估在上述模拟快照中收集的推断数据点的所有可能组合的全部范围。离散“正确”标签和离散“错误”标签的所有可能组合的生成和这些的后续聚类促进了对“最佳”动作的进一步确定，无论那些动作是校正错误数据还是接受正确数据。这些操作通过确定一个或多个可疑的潜在错误数据值是“正确”或“错误”的概率来考虑与可能是或者可能不是错误的原始数据相关联的被接受的不准确性。例如但不限于，通过基于点的模拟产生错误数据点2³或8个组合的情况。在每个组合中，假定一些错误值被错误地识别为错误的，并且一些被正确地识别为错误的。因此，对于每个组合，基于预定的补救方法，错误值用估算值来替换。因此，每个组合具有不同的一组正确和不正确的数据点，并且基于预定的补救技术而需要不同的估算值。

离散“正确”和“错误”的推断数据点的每个可能组合的总数随着推断数据点的数量而指数地增长(即，2^x，其中x＝推断数据值的数量)，并且生成所有可能的组合和处理它们可以是时间和资源密集型的。推断数据点的每个组合是潜在的模拟，并且将每个组合作为潜在的模拟来处理仅仅增加了处理开销。因此，进一步考虑所描述的推断数据点的可能组合；然而，推断数据点的可能组合被“修剪”，以使得仅进一步考虑所有可能组合的子集。因此，基于点的模拟子模块可操作地耦合到快照优化子模块。在这样的实施例中，通过使用如前所描述地确定的KPI公式特性来采用快照优化特征，而不管KPI公式特性是不可观察箱还是可观察箱。例如但不限于，可以使用针对最大值、最小值、平均值和中值分析的KPI公式特性来过滤推断数据点的模拟。因此，快照优化模块通信地耦合到KPI公式子模块。通常，只有成功通过修剪过程的那些具有估算值的推断数据点的组合将幸存，以通过模型生成相应的可疑点值的模拟，并用非错误原始数据和针对所识别的错误数据的估算值生成相应的模拟快照，其中，可疑的错误点值的一部分实际上可能不是错误的并将不需要替换。

在至少一些实施例中，由快照生成器模块创建的模拟快照，无论是基于方法的还是基于点的，都被传输到KPI值推断模块。如上所述，每个模拟快照包括非错误的原始数据和针对错误数据的估算值。每个估算值和相关联的原始数据被提供给相应的KPI公式，以生成预测替换值，即，针对各模拟快照中的每个估算值的推断快照值。每个推断快照值至少部分地基于在时间序列数据流上的非错误的原始数据的上下文内的相应KPI公式。因此，对于被传输到KPI值推断模块的每个模拟快照，生成一个或多个预测替换值，即推断快照值。

在一些实施例中，推断快照值被传输到置信度度量模块，以针对每个推断快照值生成采用置信度值形式的分析分数(在下面进一步讨论)。对于针对错误数据的每个相应的打分的推断快照值，选择最好的置信度值，并且相应的推断快照值现在被提升到所选择的KPI值以替换错误数据，其中所选择的KPI值被称为推断KPI值。因此，推断KPI值是从一个或多个预测替换值(即，推断快照值)中选择用以解决潜在错误数据实例的值。

另外，在一个或多个实施例中，置信度度量模块接收相应的信息以便于选择推断KPI值和用于生成对所选择的推断KPI值的解释的附加信息。通常，置信度度量模块将通过一个或多个上述的模拟而生成的推断快照值与相应的原始错误数据进行比较。比较的结果中的至少一个是针对每个推断快照值的采用数值形式的相应置信度值。被应用于数据的各快照的各置信度值指示相应的推断快照值是正确的预测置信水平。相对低的置信度值指示不应使用或者谨慎使用包括推断KPI值的相应的推断快照值。相对高的置信度值指示应当使用包括推断KPI值的相应的推断快照值。用于相关联的置信度值的阈值可以由用户建立，并还可以用于训练一个或多个模型，这两种情况都有助于使选择完全自动化。此外，后续动作可以是自动的。例如但不限于，对于低于预定阈值的置信度值，相应的推断快照值将不被传递以用于在利用原始数据流的本机应用内进一步处理。类似地，对于高于预定阈值的置信度值，相应的所选择的推断KPI值将被传递以用于在利用原始数据的本机应用内进一步处理。因此，本文所描述的系统和方法以防止无意的动作或根据情况和正确数据指示而启动适当动作的方式来自动校正原始数据流中带有错误数据的问题。

此外，由于推断KPI值的置信度值不可能是100％，因此，置信度度量模块包括解释子模块，以通过提供选择具有推断KPI值的特定模拟快照的细节和证据来提供对一个或多个潜在错误数据实例的解决的解释基础。解释子模块提供这样的细节，包括但不限于在数据集中检测到的问题的类型、所生成的模拟的数量和性质、从各种模拟中获得的分数的统计特性、以及分数的比较。因此，置信度度量模块生成针对来自KPI值推断模块的模拟快照的各种值和信息，以便于用户理解值的分布的属性，从而进一步提供对相应的推断KPI值的选择的清楚性。

在一些实施例中，置信度度量模块还包括多个附加子模块以便于生成上述的置信度值以及支持这些值的细节和证据。在这些实施例的一些中，使用三个置信度度量子模块，即，基于数量的置信度度量子模块、基于扩展的置信度度量子模块、以及基于数量和扩展的置信度度量子模块。

基于数量的置信度度量子模块被配置为考虑从KPI值推断模块获得的值的大小，并生成相关联的置信度度量信息，例如，无论KPI值的大小是50还是1050，所得到的KPI值的置信度可以根据附加数据和情况而不同。基于扩散的置信度度量子模块考虑模拟值所处的范围，并生成相关联的置信度度量信息，即，代替KPI值的绝对大小，基于扩展的置信度度量使用KPI值的统计特性，如平均值、最小值、最大值和标准差，因此基本上不受大小的影响。基于数量和扩展的置信度度量子模块考虑值的大小以及范围，以生成相关联的置信度度量信息。

参考图4，提供了示出被配置为针对时间序列数据内的已校正数据计算置信度值的系统(即时间序列数据替换置信系统400)的示意图。时间序列数据替换置信系统400在此被称为“系统400”，指代除了所标识的时间序列数据替换置信系统400之外的任何一个。系统400包括一个或多个处理设备404(仅示出一个)，其通信地且可操作地耦合到一个或多个存储器设备406(仅示出一个)。系统400还包括通过通信总线402通信地耦合到处理设备404和存储器设备406的数据存储系统408。在一个或多个实施例中，通信总线402、处理设备404、存储器设备406和数据存储系统408分别类似于图3中所示的对应装置，即通信总线102、处理设备104、系统存储器106和永久性存储设备108。

在一个或多个实施例中，系统400包括过程控制系统410，其被配置为操作使能如本文所描述的系统400的操作的任何过程，包括但不限于电过程(例如，能量管理系统)、机械过程(机械管理系统)、机电过程(工业制造系统)和金融过程。在一些实施例中，过程控制系统410是通信地耦合到系统400的外部系统。如在此所示和所述的，在一些实施例中，处理设备404、存储器设备406和数据存储系统408通过输入/输出单元112(图3所示)通信地耦合到过程控制系统410。

过程控制系统410包括与相应的一个或多个过程接口的一个或多个过程设备412，其中，过程设备412执行通过相关联的编程指令通过处理设备404和存储器设备406的交互而产生的设备/过程控制命令414。过程控制系统410还包括：传感器套件416，其包括用于监控过程设备412和相应的过程并产生到过程设备412的反馈418(例如但不限于，“传感器操作正常”和“传感器故障”信号)的传感器；以及一个或多个原始时间序列数据流420，其包括表示传感器套件416的过程测量输出的数据分组(以下被称为原始数据422)。

存储器设备406包括过程控制算法和逻辑引擎430，其被配置为接收原始时间序列数据流420以生成设备/过程控制命令414。另外，在一些实施例中，存储器设备406包括数据质量到KPI预测置信引擎440。在一个或多个实施例中，数据质量到KPI预测置信引擎440包括被嵌入其中的一个或多个模型442。系统400还包括通信地耦合到通信总线402以接收数据质量到KPI预测置信引擎440的输出444的一个或多个输出设备450。参考图5讨论数据质量到KPI预测置信引擎440中的模块和子模块。

数据存储系统408存储数据质量到KPI预测置信数据460，其包括但不限于(通过原始时间序列数据流420捕获的)原始时间序列数据462以及置信度值和解释464。数据存储系统408还存储包括公式468、属性和特性470(在本文可互换使用)、以及相应的度量472的商业KPI 466，其中公式468包括特性470和度量472。

参考图5A，提供了示出用于针对时间序列数据内的已校正数据计算置信度值的过程500的流程图。此外，参考图4，还参考图5A示出和讨论数据质量到KPI预测置信引擎440中的模块和子模块的至少一部分。

在一个或多个实施例中，分析被嵌入在各原始时间序列数据流420内的原始数据504(其基本上类似于原始数据422)的质量，并通过两步过程来确定与相应的原始数据504相关的相应一个或多个KPI。最初，将原始数据504的质量作为数据分组从传感器套件502(其基本上类似于传感器套件416)中的相应传感器传输到数据检查模块510(其驻留在数据质量到KI预测置信引擎440内)，其中，数据分组由被嵌入在数据检查模块510内的数据检查子模块512检查。在至少一些实施例中，如进一步所讨论的，数据检查模块510还包括集成KPI特性确定特征，从而避免数据检查子模块512冗余。

在一些实施例中，原始数据504的一个或多个数据分组可以包括将相应的数据分组识别为包含潜在故障数据的问题。一个这样的问题可与采样频率相关联。例如但不限于，数据检查子模块512检查传感器套件502的采样频率以确定在原始数据504中是否存在多个采样频率，例如，是否在采样频率中存在偶然扰动，以及是否存在连续的采样频率变化。此外，例如但不限于，数据检查子模块512检查原始数据504的时间戳以确定在原始数据504中是否缺失任何时间戳、原始数据504是否缺失了连续的延长持续时间、以及是否存在变化格式的时间戳。此外，例如但不限于，数据检查子模块512检查句法值问题以确定所谓数值数据是否包括“非数字(NaN)”数据504的延长持续时间和不恰当的数值舍入和截断。另外，例如但不限于，数据检查子模块512检查语义值问题以确定任一个原始数据504是否包括异常事件和噪声数据。因此，数据检查子模块512检查各原始时间序列数据流420中的原始数据504，并确定原始数据504是否在预定容限内和在原始数据504中是否存在任何可疑错误以及错误的性质。

在一些实施例中，有两种形式，即，对系统400试图操作以确定数据质量的原始数据504的处理(如上所述)，以及确定计划要被应用于原始数据504的一个或多个KPI公式468。如本文所使用的，KPI公式468包括一个或多个KPI特性470，其中KPI特性470还包括但不限于公式468的细节，例如但不限于公式468的算法所针对的一个或多个数据问题、算法本身、以及各KPI 466的任何参数和定义。包括公式468、特性470和度量472的KPI 466被存储在数据存储系统408中。在一些实施例中，通过数据检查模块510来执行两种形式，即，通过数据检查子模块512来评估数据质量，以及通过可操作地耦合到数据检查子模块512的KPI特性确定子模块514来执行KPI公式特性评估。在一些实施例中，KPI特性确定子模块514是可操作地耦合到数据检查模块510的单独模块。因此，数据检查特征和确定相关的KPI公式特性470紧密结合。

在至少一些实施例中，这样的KPI公式特性470的至少一部分通常被实现为对进入的原始时间序列数据流420进行操作以向用户提供支持相应的KPI 466的必要输出数据和功能的算法。此外，在一些实施例中，KPI公式468可以容易地位于被嵌入KPI特性确定子模块514内的KPI公式子模块516内，其中，可以从数据存储系统408输入这种KPI公式468。因此，如前所述，首先检查原始数据504以验证它在某一容限内，然后，确定是否存在任何潜在错误数据与一个或多个特定KPI 466的任何关联。在一个或多个实施例中，所收集的原始数据504的至少一部分与任何KPI466不相关联，因此，对于给定KPI 466，这种错误的原始数据504没有影响。因此，为了执行相关问题的初始识别，执行简单的KPI相关性测试。例如但不限于，如果一个或多个特定KPI 466使用基于平均值的公式，并且在各个原始时间序列数据流420中的潜在错误数据504包括无序的时间戳，则确定无序的时间戳不对相应的一个或多个KPI 466产生任何影响。类似地，如果一个或多个特定KPI 466是基于中值或基于众数的公式468，则在相应的原始时间序列数据流420中存在异常值不对相应的KPI 466产生任何影响。因此，一些错误数据属性可能对特定KPI 466没有影响，并且这样的数据与在此进一步描述的KPI相关的分析无关。

在一些实施例中，可以采用的用于确定KPI相关性的另一机制是将具有已知的非错误数据和在一些实施例中的可疑的错误数据的至少一部分原始时间序列数据流420传送到KPI公式子模块516中的一个或多个相应的KPI公式468，以生成数值，即生成原始KPI测试值。具体地，可以处理没有错误值的数据以将至少一个值改变为已知的错误值，从而生成带有估算错误的数据，该带有估算错误的数据也被传递到相应的一个或多个KPI公式468以生成估算的KPI测试值。

参考图6，提供了示出用于识别相关问题的示例算法600的文本图。还参考图4和5A，算法600驻留在KPI公式子模块516内。算法600包括问题列出操作602，其中预定的一组潜在数据错误问题被列出以用于在算法600内选择，并且每个潜在数据错误问题包括一个或多个对应的模型442。执行数据识别操作604以识别原始时间序列数据流420中的原始数据504的哪个部分将被分析以用于潜在的错误、潜在的数据替换、以及该替换的置信度确定。在一些实施例中，数据质量到KPI预测置信引擎440可缩放以同时检查原始时间序列数据流420的多个流，包括但不限于原始数据504的一小部分，并增大到所有原始时间序列数据流420中的所有原始数据504。在KPI公式识别和检索操作606中识别和检索用户所开发的KPI公式468，并在原始数据到KPI公式操作608中将要被分析的所选原始数据504经过相应的KPI公式468。通过影响问题分析选择算法610一次一个或者同时并行地循环来自问题列出操作602的影响问题。

在一个或多个实施例中，执行数据到问题子算法612，其包括通过估算数据注入操作614来注入具有估算错误数据的原始数据504的至少一部分。在一些实施例中，注入的错误可以包括但不限于在原始时间序列数据流420中随机选择一些原始数据504并移除这样的随机数据以确定缺失数据问题是否相关。此外，注入的错误可以包括但不限于随机选择已知的非错误原始数据504并注入已知扩展超出已建立的容限的值以确定异常值问题是否相关。估算数据被传输通过KPI公式468，以通过KPI测试值生成操作616确定估算的KPI测试值。通过KPI值比较操作618将来自操作616的估算的KPI测试值与来自操作608的原始KPI测试值进行比较，并根据比较操作618执行问题确定操作620。在一些实施例中，如果在估算的KPI测试值和原始KPI测试值有足够的相似性，则原始数据504(即，与原始数据504相关联的问题)被标记为通过KPI公式468与相应的KPI466相关。如果在估算的KPI测试值与原始KPI测试值之间没有足够的相似性，则包括上述问题的原始数据504被标记为通过KPI公式468与相应的KPI 466不相关。在通过用尽来自问题列出操作602的问题来执行子算法612后，子算法612结束622，并且算法600结束624。因此，为了确定在原始时间序列数据流420中的可疑或以其它方式识别的数据错误之间是否存在任何相关关系，在其中嵌入有预定错误的数据被用于确定错误数据是否对相应的KPI公式存在任何相关和明显的影响468。

再次参考图4和图5A，在至少一些实施例中，执行KPI特性确定。用于每个KPI特性确定(有时被称为KPI特性描述)的基础包括一个或多个KPI 466。例如但不限于，针对商业的基础是一个或多个商业特定KPI466，而针对私人住宅，基础是一个或多个住宅特定KPI466。在一些实施例中，使用任何基于实体的KPI，其将使能本文所公开的时间序列数据替换置信系统400。

在一些实施例中，KPI 466被预先确定并描述为例如用于获得特定商业目标的成功或不成功的显式测量。在一些实施例中，根据商业数据的收集和分析来开发KPI 466，以确定用于获得商业目标的以其它方式未识别的测量，从而便于识别一个或多个附加KPI466。因此，不管来源如何，KPI 466都可用于将相应的KPI公式468内的相关联的固有属性与在原始数据504中发现的相应问题匹配，并且在一些情况下，便于识别相关问题。

在一个或多个实施例中，当原始数据504被发送到数据检查模块512时，在原地执行KPI特性确定操作。此外，由于实时产生的原始数据问题的性质事先是未知的，因此，将实时动态地进行数据检查和KPI特性确定。因此，结合影响进入的原始数据422的问题的确定来执行具有被嵌入相应KPI 466的相应公式468内的相应特性470的相应KPI 466的确定。KPI特性确定的至少一部分包括确定与原始数据504相关联的相应KPI 466的性质。

在一些实施例中，进入的原始数据504的一部分将不与任何KPI 466相关联，并且对于本公开，该数据将不被进一步操作，并且任何嵌入的问题将被忽略并且数据被原样处理，或者问题通知将以一种或多种方式(例如但不限于通过一个或多个输出设备450)被发送给用户。在其它实施例中，将进一步确定进入的原始数据和相关联的KPI公式468的关系。

在实施例中，KPI公式468被分组成两种类型公式中的一种，即“可观察箱”公式和“不可观察箱”公式。在具有可观察箱KPI公式和不可观察箱KPI公式两者的一些实施例中，相关联的算法检查适当的KPI特性公式是否包括关于具有问题的数据的周围原始数据值的一个或多个分析，包括但不限于最大值确定、最小值确定、平均值确定、中值确定、以及其它统计确定(例如但不限于，众数值确定和标准差分析)中的一个或多个。

在至少一些实施例中，可观察箱KPI公式468对于检查可用，即，细节是可观察的，并且KPI特性确定子模块514包括可观察箱子模块518。参考图7，提供了示出用于可观察箱KPI分析的示例算法700的文本图。还参考图4和5A，算法700驻留在可观察箱子模块518内。算法700包括KPI公式呈现操作702，其中，各个KPI公式468的特性被清楚地表达给用户和系统400，如本文所描述的。算法还包括解析树操作704，其中，KPI特性470被转换成抽象语法树(AST)以生成KPI特性470，作为采用相应编程语言的源代码的AST表示，以使得当KPI 466的细节可用时，各种代码块可被解析并可理解为AST中的节点。如图7所示，算法700包括第一子算法，即，被配置为确定AST中的特定节点是否是函数(例如但不限于，如进一步讨论的数学运算)的函数分析操作706。

在图7所示的实施例中，针对定义原始数据504的中值确定的那些KPI公式特性470执行第二子算法，即中值确定操作708，以使得KPI特性分配操作710被执行，在这种情况下，所分配的KPI特性470是用于过程500的后续部分的“中值”。然后，结束712中值确定操作708。在一些实施例中，算法包括用于其它类型KPI特性的第一子算法的一个或多个其它部分，例如但不限于最大值确定、最小值确定、平均值确定、和其它统计确定(例如但不限于众数值确定和标准差分析)。在图7所示的实施例中，针对定义原始数据504的平均值确定的KPI公式特性470执行第三子算法，即平均值确定操作714，以使得KPI特性分配操作716被执行，在这种情况下，所分配的KPI特性470是用于过程500的后续部分的“平均值”。然后，结束718平均值确定操作714。类似地，确定如上所述的任何剩余的可能KPI公式特性470。在完成了函数分析操作706后，结束720。

进一步地，在一个或多个实施例中，如图7所示，算法700包括第四子算法，即二元运算分析操作722，其被配置为确定AST中的特定节点是否是二元运算，例如但不限于，使用两个元素或操作数来创建另一个元素的数学运算。在图7所示的实施例中，针对定义原始数据504的除法运算的KPI公式特性470执行第五子算法，即除法子算法724。除法运算包括第六子算法，即积分求和操作数和len操作数、或积分平均子算法726，其中len操作数或运算提供被求和的项的数量，以使得KPI特性分配操作728被执行，在这种情况下，所分配的KPI特性470是用于过程500的后续部分的“平均值”。结束730积分平均子算法726，结束732除法子算法724，并结束734二元运算子算法722。如果用户需要除了函数运算和二元运算之外的其它运算，则示出了开放的子算法736。当与各个KPI 466相关联的所有相应的可观察箱操作被识别时，结束738解析树操作704。

在至少一些实施例中，不可观察箱KPI公式468对于被包含在其中的操作和算法是不透明的，例如但不限于，各个不可观察箱算法和操作可以在本质上是专有的，并且各个用户对其内容需要一定级别的保密和机密性。在一些实施例中，这种不可观察箱公式可以采用应用编程接口(API)的形式。因此，用于确定不可观察箱KPI公式468内的KPI公式特性470的一种机制包括对原始数据504重复采样以通过公式的模拟来测试原始数据504。因此，KPI特性确定子模块514包括不可观察箱子模块520。

参考图8，提供了示出用于不可观察箱KPI分析的示例算法800的文本图。还参考图4和5A，算法800驻留在不可观察箱子模块520内。在至少一些实施例中，算法800包括数据子集生成操作802，其中原始数据504被分成K个数据子集，每个子集具有M个数据点，其中M是预定常数。例如但不限于，一个100个数据点的串可以被分成五个子集，每个子集20个点。生成这样的子集便于确定特定错误是否反复出现、或者是否是错误的单一实例(即一次性错误)。算法800还包括KPI公式特性列出操作804，其被配置为标识可在不可观察箱计算内使用的所有潜在KPI公式特性470。如本文前面描述的，这种KPI公式特性470包括但不限于以下中的一个或多个：平均值确定(“平均值”)，中值确定(“中值”)，众数确定(“众数”)，最大值确定(“最大值”)，最小值确定(“最小值”)，以及其它统计确定(例如但不限于标准差分析)。将通过一个或多个基于不可观察箱模型的模拟来检查这些KPI公式特征470中的每一个，以识别错误数据的潜在问题，其中，基于不可观察箱模型的模拟不直接与本文关于快照生成所进一步讨论的模拟建模相关。

在一个或多个实施例中，执行原始KPI评估操作806，其中，通过使用相应的不可观察箱模型来处理每个数据子集中的每个数据元素，其中这样的模型尚未确定。如本文所使用的，术语“数据点”和术语“数据元素”可互换使用。因此，在原始数据504的100个数据点或数据元素的实施例中，将有100个相应的KPI值，即，对于原始数据504的5个子集中的每一个子集有20个KPI值。这样，通过不可观察箱公式处理100个过程数据元素，无论它们可能是什么，从而通过实际的不可观察箱公式生成100个原始KPI值。此外，在一些实施例中，执行包括模拟/相关性子算法810的相关性操作808。具体地，在一个或多个实施例中，执行模拟KPI评估操作812，其中，通过使用在KPI公式特性列出操作804中标识的每个KPI公式特性470的相应模型来分析原始数据504的每个数据元素。执行原始KPI值与模拟KPI值相关性操作814，其中，将原始KPI值中的每个值与通过从KPI公式特性列出操作804中标识的KPI公式特性470的每个模型而生成的每个相应模拟KPI值进行比较。这样，对于具有100个数据元素的实施例，对于从KPI公式特征列出操作804中标识的每个KPI公式特性470将有100个相关性。在一些实施例中，执行对每组相关的数据元素的统计评估以确定相关性的强度，例如但不限于弱相关性和强相关性，其中，每个相关性的定义可以由用户建立。强相关性表明模拟KPI公式遵循实际的不可观察箱KPI公式468。弱相关性表明模拟KPI公式与实际的不可观察箱KPI公式468不一致。一旦完成了相关性的处理，则结束816模拟/相关性子算法810。用于不可观察箱KPI分析的算法800包括KPI公式特性选择操作818，其中选择最高相关特性。一旦确定了不可观察箱KPI公式，则算法800结束820。

数据检查模块510的输出522包括原始数据504的分析以确定其中是否有任何数据错误，并且如果有的话，确定受影响的KPI公式特性470。如果没有错误，则不再通过过程500来处理相应的数据，其中，在KPI特性确定子模块514内的操作不被调用，并且没有输出522。如果在原始数据504中存在数据错误，则输出522被传输到确定操作524，该操作基于KPI特性确定子模块514的分析来确定524数据问题是否与所识别的KPI相关。如前所述，如果在相应的原始数据504与KPI公式特性470之间没有关系，则根据本公开，生成“否”确定，并对带有问题的数据不采取进一步的动作。如果需要，用户可以选择对数据错误采取其它动作。对于“是”确定，即对于与KPI有关系的与原始数据504相关联的那些数据错误问题(两者都由用户提供)，通过相应的属性，确定操作524的输出526被发送以用于进一步的处理，其中，输出526基本上与输出522类似。因此，当针对错误数据的KPI公式468的特性470(无论是可观察箱还是不可观察箱)被确定为不利地影响相关的KPI时，进一步分析错误，以使得该错误可以被正确地分类并可以执行后续的优化。

参考图5B，提供了图5A所示的流程图的继续，其进一步示出了用于针对时间序列数据内的已校正数据计算置信度值的过程500。还参考图4，在一个或多个实施例中，过程500进一步包括将输出526发送到快照生成器模块530。快照生成器模块530接收数据检查模块510的输出526，该输出包括具有已知的嵌入问题的错误数据和相应的KPI公式特性470的标识。快照生成器模块530被配置为通过被投入生产的一个或多个模型来模拟各数据值，从而生成模拟数据的快照，以促进对原始数据504的模拟。

参考图9，提供了示出用于使用基本上类似于快照生成器模块530的快照生成器模块904的快照模拟的过程900的一部分的示意图。还参考图5B，进一步评估基本上类似于原始数据504的通过输出526被传输到快照生成器模块904的原始数据902。通过多个模型532(其基本上类似于图4所示的模型442)来处理原始数据902(在其中嵌入了错误数据问题)，以生成包括模拟数据的多个模拟快照906，如本文进一步讨论的。模拟数据快照906随后被用于KPI推断908和置信度测量910，其在图9中仅被示出用于上下文。

再次参考图4和图5B，在一些实施例中，使用基于方法的模拟和基于点的模拟。尽管可以使用任何一种模拟(包括同时使用两种模拟)而不管错误数据中的问题的性质，但是在一些实施例中，选择两种模拟中的哪一种是基于原始数据质量问题的性质，并且在一些实施例中，该选择可以基于由用户生成的预定指令。然而，一般地，基于方法的模拟被更好地配置用于处理缺失值问题，并且基于点的模拟被更好地配置用于处理异常值问题。例如，在一些实施例中，用户的先前试运行可能已经指示了缺失数据可以基于数据是否丢失了连续的延长持续时间或者句法值问题是否存在(即所谓数值数据包括NaN数据的延长持续时间或者确定不恰当的数值舍入或截断)来确定。这样，基于方法的模拟可以提供对前述状况的更好分析。如果存在语义值问题，即一些数据包括异常事件或者一致或模式化的噪声数据，则可以确定异常值问题。这样，基于点的模拟可以提供对前述状况的更好分析。类似地，如果用户确定基于方法的模拟还是基于点的模拟对于指定状况提供更好的模拟可能是不确定的，则对于任何一者可以提供更好的模拟的如上所述的那些状况，可以使用两种模拟方法。

在一个或多个实施例中，快照生成器模块530被配置为使用基于方法的模拟来分析一个或多个补救方法，其中每个补救方法可以包括例如但不限于用于至少部分地根据受数据错误影响的相应KPI 466来确定平均值、中值等的算法。然而，补救方法不必限于KPI公式特性470。快照生成器模块530包括基于方法的模拟子模块534，无论KPI公式特性470是不可观察箱还是可观察箱，都可以使用该子模块。

参考图10，提供了示出用于生成基于方法的模拟的过程1000的示意图。还参考图4和5B，通过基于方法的模拟子模块534生成基于方法的模拟。包括具有嵌入问题的错误数据和相应的KPI公式特性470的标识的数据检查模块510的输出526的一部分被示为具有非错误数据1004的十个实例和错误数据1006的三个实例的片段1002。数据片段1002被传输到多个补救方法1010，其包括补救方法M1、M2、M3和M4，其中每个补救方法M1-M4与不同的相应模型532相关联，并且数量四是非限制性的。每个补救方法M1-M4包括生成一个或多个估算值，如果要使用该特定补救方法，则该估算值被包括在相应的模拟快照中作为对错误值的潜在解决方案或替代。由于没有关于补救方法M1-M4中的哪个补救方法提供针对特定的当前错误数据1006的最佳或最正确的潜在替换值的预定概念，因此，使用多个模型532，其中每个模型532用于执行相应的补救方法M1-M4。在一些实施例中，基于方法的模拟子模块534被通信地耦合到KPI公式子模块516，以用于随时访问在其中驻留的KPI公式468。

在至少一些实施例中，生成多个模拟数据快照1020。例如，在所示的实施例中，补救方法M1采用相应的模型532以计算模拟数据快照1022中的估算值1024。在一些实施例中，用于计算错误数据1006的估算值1024的非错误数据部分1004取决于与相应的补救方法M1相关联的特定补救技术。例如，如果确定用所有值的平均值替换缺失值，则在相应的补救方法M1中使用基本完整的相应非错误数据1004的集合。替代地，如果仅使用非错误数据1004的周围三个值来计算缺失值，即错误数据1006，则相应的补救方法M1仅使用非错误数据1004的那些周围值。类似地，通过相应的补救方法M2-M4来生成模拟数据快照1032、1042和1052，包括相应的估算值1034、1044和1054。由于补救方法M1-M4不同，因此，预期相应的估算值1024、1034、1044和1054也不同。参考图4和图5B，模拟数据快照1022、1032、1042和1052被示为来自基于方法的模拟子模块534的输出536，其中输出536被传输到数据模拟快照存储模块538，在一些实施例中，该数据模拟快照存储模块驻留在数据存储系统408内。

在至少一个实施例中，例如示例性实施例中，错误数据1006的三个实例基本上相同。在至少一个实施例中，错误数据1006的每一个实例是不同的。因此，由于对所有错误数据1006使用多个模型532和补救方法M1-M4，因此，便于对每个不同错误生成多个相应的估算值1024、1034、1044和1054。因此，采用补救方法M1-M4形式的基于方法的模拟被用于生成非错误原始数据1004的一个或多个模拟快照1022、1032、1042和1052以及针对每个错误原始数据值1006的估算值1024、1034、1044和1054，其中，每个估算值1024、1034、1044和1054指示当使用特定的补救方法M1-M4时数据值会看上去像什么，每个估算值1024、1034、1044和1054是不同补救方法M1-M4的产物。

在至少一些实施例中，通过传感器套件416收集原始时间序列数据流420包括使用基于启发式的特征，其便于在收集数据元素时确定数据元素中的模式。在一些情况下，由于各数据元素超过阈值，因此，原始数据422的一个或多个实例可能似乎不正确，其中该阈值是基于数据元素值根据所建立的数据模式而应当是什么的概率。例如但不限于，可以通过错误的数据分组或者根据对实时正发生的事情的准确描绘来生成表面的数据偏移，即向上或向下的数据尖峰。因此，快照生成器模块530进一步被配置为使用基于点的模拟来分析错误，以确定表面上的错误数据是否是实际上的错误数据，即，快照生成器模块530包含基于点的模拟子模块540。

参考图11，提供了示出用于基于点的模拟的过程1100的示意图。还参考图4和图5B，通过基于点的模拟子模块540成生基于点的模拟。包括具有嵌入问题的错误数据和相应的KPI公式特性470的标识的数据检查模块510的输出526的一部分被示为具有非错误数据点1104的十个实例和可疑的潜在错误数据点1106的三个实例的数据片段1102。可疑的潜在错误数据点1106的三个实例分别被称为1106A、1106B和1106C，且被统称为1106。在一个或多个实施例中，包括已知的正确原始数据(即非错误数据点1104)和可疑的潜在错误数据点1106的数据片段1102被组合成配置的矩阵1110，以启动对可疑的潜在错误数据点1106的值是正确还是错误的概率的确定。如图所示，矩阵1110是基于三个可疑的潜在错误数据点1106，即，三个可疑的潜在错误数据点1106的2³个或八个可能组合。矩阵1110被配置有三列1112、1114和1116，即，分别对于每个可疑的潜在错误数据点1106A、1106B和1106C有一个。所得到的八行(分别称为D1至D8，并且被统称为1120)包括三个可疑的潜在错误数据点1106的可用组合。

三个可疑的潜在错误数据点1106中的每一个被单独推断为离散“正确”或离散“错误”，并且潜在的错误数据值则被称为“推断数据点”以将其与已知的正确原始数据(即，非错误数据点1104)相区分。如图11所示，推断的错误数据点被统称为1130。与可疑的潜在错误数据点1106A相关联的那些推断的错误数据点1130被单独示出，并在列1112中被称为1122、1132、1162和1182。此外，与可疑的潜在错误数据点1106B相关联的那些推断的错误数据点1130被单独示出，并在列1114中被称为1124、1144、1164和1174。进一步地，与可疑的潜在错误数据点1106C相关联的那些推断的错误数据点1130被单独示出，并在列1116中被称为1126、1146、1176和1186。

类似地，如图11所示，推断的正确数据点被统称为1140。与可疑的潜在错误数据点1106A相关联的那些推断的正确数据点1140被单独示出，并在列1112中被称为1142、1152、1172和1192。此外，与可疑的潜在错误数据点1106B相关联的那些推断的正确数据点1140被单独示出，并在列1114中被称为1134、1154、1184和1194。此外，与可疑的潜在错误数据点1106C相关联的那些推断的正确数据点1140被单独示出，并在列1116中被称为1136、1146、1166和1196。执行矩阵1120的模拟快照542。

因此，第一行D1将所有三个可疑的潜在错误数据点1106表示为推断的错误数据点1130。类似地，第八行D8将所有三个可疑的潜在错误数据点1106表示为推断的正确数据点1140。第二、第三和第四行D2、D3和D4分别将三个可疑的潜在错误数据点1106中的仅一个表示为推断的错误数据点1130，并将三个可疑的潜在错误数据点1106中的两个表示为推断的正确数据点1140。第五、第六和第七行D5、D6和D7分别将三个可疑的潜在错误数据点1106中的两个表示为推断的错误数据点1130，并将三个可疑的潜在错误数据点1106中的仅一个表示为推断的正确数据点1140。

这样，推断的错误数据点1130和推断的正确数据点1140具有被传输的原始数据值和正确或错误的离散推断标签。分析的剩余部分专门集中在推断的错误数据点1130和推断的正确数据点1140上。具体地，推断的数据点1130和1140的所有可能组合(如示为D1至D8)的全部范围被收集在前述的模拟快照542中以用于进一步评估。离散“正确”标签(即，推断的正确数据点1140)和离散“错误”标签(即，推断的错误数据点1130)的所有可能组合的生成以及这些组合的后续聚类促进进一步确定“最佳”动作，无论那些动作是校正错误数据还是接受正确数据。这些操作通过确定一个或多个可疑的潜在错误数据值是“正确”或“错误”的概率来考虑与数据片段1102中的可能是或者可能不是错误的原始数据相关联的被接受的不准确性。在组合D1至D8的每一个中，假定一些可疑的潜在错误值1106被错误地识别为错误的，并且一些被正确地识别为错误的。因此，对于每个组合D1至D8，基于预定的补救方法(类似但不限于参考图10所讨论的方法)，错误值用估算值来替换，因此，每个组合D1至D8具有不同的一组正确和不正确的数据点，并且基于预定的补救技术而需要不同的估算值。

如上所述，基于点的模拟被更好地配置用于处理异常值问题，并且异常值问题将被用于进一步描述图11中的示例性实施例。如上所述，可以在原始数据504中辨别模式，其中，模式包括数据片段1102和各个数据元素值根据所建立的数据模式而应当是什么的概率。因此，离散“错误”的推断的数据点1130具有以被分配给其的百分比保证而错误分类为错误的概率。三个可疑的潜在错误值1106中的每一个的概率被用于确定值1106是否是错误的。当评估变化的八个组合D1至D8时，确定D1至D8中的每一个为真的概率，并且为真的概率最高的那些行D1至D8被提交以用于进一步分析。D1至D8的总概率是100％。例如但不限于，给定D1中的每个点1122、1124和1126的启发式分析及其相关联的求和概率，可确定D1中的所有三个点是错误的概率相对低，如行D8那样(所有三个值是正确的)。这两行D1和D8将不再接受进一步的考虑。注意，对于没有错误值的行D8是正确的概率最高的那些实施例，不需要执行进一步的分析，并且值1106不通过如进一步描述的下游的操作来校正。因此，为真的概率较高的值组合被进一步处理。

通常，离散“正确”和“错误”的推断的数据点1130和1140的每个可能组合的总数随推断数据点的数量而指数地增长(即，2^x，其中x＝推断数据值的数量)，并且生成所有可能的组合和处理它们可以是时间和资源密集型的。推断数据点的每个组合是潜在的模拟，并且将每个组合作为潜在的模拟来处理仅仅增加了处理开销。因此，进一步考虑所描述的推断数据点1130和1140的可能组合D1至D8；然而，推断数据点1130和1140的可能组合被“修剪”，以使得仅进一步考虑所有可能组合的子集。如上所述，当从进一步的处理中去除潜在的错误值的低概率组合时，发生初始修剪。

基于点的模拟子模块540可操作地耦合到快照优化子模块544。在这样的实施例中，通过使用如前所述地确定的KPI公式特性470来采用快照优化特征，而不管KPI公式特性470是不可观察箱还是可观察箱。例如但不限于，可以使用针对最大值、最小值、平均值和中值分析的KPI公式特性470来过滤推断数据点1130和1140的模拟。因此，快照优化模块544通信地耦合到KPI公式子模块516。通常，只有成功通过修剪过程的推断数据点的那些组合将幸存以通过模型生成相应的可疑点值的模拟，并且用非错误原始数据和针对所识别的错误数据的估算值生成相应的模拟快照，其中，可疑的错误点值的一部分实际上可能不是错误的并将不需要替换。

参考图12，提供了示出用于快照优化器的示例算法1200的文本图，该快照优化器被配置用于在快照优化子模块544(如图5B所示)内执行。参考图4、图5A、图5B和图11，算法1200包括确定1202如先前由KPI特性确定子模块514确定并参考图6至图8描述的KPI公式特性470的操作。在示例实施例中被表示为矩阵1120的数据(即，被嵌入在如上所述的由于低概率而没有被去除的剩余行中的数据)被进一步分析，以通过数据呈现操作1204产生如在此所描述的修剪效果。如上所述，示例性实施例包括分析异常值。在一个或多个实施例中，考虑执行第一子算法，即“最大值”子算法1206。在先前确定的KPI公式特性470是最大值特性的情况下，通过一个或多个模型532执行修改数据操作1208。修改数据操作1208包括确定可疑的潜在错误数据1106是否是在原始数据504的数据片段1102的上升峰值内的异常值。如果数据片段1102没有表现出上升趋势，从而消除任何上升峰值的机会，则算法1200进行到下一组操作。如果数据片段1102确实表现出上升趋势，则以先前描述的概率值(其提供可疑的错误数据实际上是错误的某一级别的保证)，用对每一修改数据操作1208的上升趋势提供平滑效果的值替换受影响的异常值。通过一个或多个模型532选择这些数据点以用于模拟。一旦执行数据替换识别或“修复”，则结束1210最大值子算法1206。

考虑执行第二子算法，即“最小值”子算法1212。在先前确定的KPI公式特性470是最小值特性的情况下，通过一个或多个模型532执行修改数据操作1214。修改数据操作1214包括确定可疑的潜在错误数据1106是否是在原始数据504的数据片段1102的下降峰值内的异常值。如果数据片段1102没有表现出下降趋势，从而消除任何下降峰值的机会，则算法1200进行到下一组操作。如果数据片段1102确实表现出下降趋势，则以先前描述的概率值(其提供可疑的错误数据实际上是错误的某一级别的保证)，用对每一修改数据操作1214的下降趋势提供平滑效果的值来替换受影响的异常值。通过一个或多个模型532选择这些数据点以用于模拟。一旦执行数据补救或“修复”，则结束1216最小值子算法1212。

考虑执行第三子算法，即“平均值”子算法1218。在先前确定的KPI公式特性470是平均值特性的情况下，通过一个或多个模型532执行修改数据操作1220。修改数据操作1220包括通过考虑所有问题(即，上述的所有受影响的可疑的潜在错误数据1106和相应的概率)来确定可疑的潜在错误数据1106是否是异常值，并且基于相关的相应值彼此的接近性，将它们分组成潜在错误数据值的一个或多个聚类中。在一些实施例中，可存在潜在错误数据值的多个聚类，指示被用作聚类基础的平均值特性。执行聚类考虑操作1222，其中，代表点(例如但不限于来自每个聚类的平均值)的集合被认为是用于模拟的代表点。一旦通过一个或多个模型532执行了用于模拟的数据选择，则结束1224平均值子算法1218。

考虑执行第四子算法，即“中值”子算法1226。在先前确定的KPI公式特性470是中值特性的情况下，通过一个或多个模型532执行修改数据操作1228。修改数据操作1228包括通过考虑所有问题(即，上面讨论的所有受影响的可疑的潜在错误数据1106和相应的概率)来确定可疑的潜在错误数据1106是否是异常值。如果可疑的潜在错误数据1106实际上是异常值，并且由于基于中值的KPI没有受到值扰动的影响，则对数据不采取进一步的动作，并且中值子算法1226结束1230。在一些实施例中，可以同时并行地执行子算法1206、1212、1218和1226。快照优化模块544的输出(被示为优化的模拟数据快照546)被传输到数据模拟快照存储模块538，在一些实施例中，其驻留在数据存储系统408内。因此，生成多个模拟快照536和546以用于进一步处理，其中以显著减少大量估算值的方式生成模拟快照536和546。

继续参考图4、图5B、图10和图11，在至少一些实施例中，由快照生成器模块(无论是基于方法还是基于点)创建的模拟快照536和546被传输到KPI值推断模块550。如上所述，模拟快照536和546中的每个模拟快照包括非错误的原始数据(例如，1004和1104)和针对所建立的错误数据(例如，1006和1106)的估算值。每个估算值和相关联的原始数据被呈现给相应的KPI公式468以生成预测的换值，即，针对相应的模拟快照536和546中的每个估算值的推断快照值。这样，原始数据504也被传输到KPI值推断模块550。

参考图13，提供了示出KPI值推断过程1300的至少一部分的图形图。还参考图4和图5B，针对模拟快照536和546的推断快照值是基于相应的KPI公式468，并且在时间序列数据流上的非错误的原始数据的上下文中。因此，对于被传输到KPI值推断模块550的每个模拟快照536和546，生成预测替换值，即推断快照值。图13示出横坐标(Y轴)1302和纵坐标(X轴)1304。Y轴1302被示为从41.8延伸到42.6，其中值是无单位的。X轴1304被示为无值且无单位。值的性质并不重要；然而，过程1300示出被确定为与模拟快照536和546一起呈现的KPI公式特性470的函数的值的一部分。原始KPI值1306(即，通过相应的KPI公式468处理可疑的错误数据而产生的值)被呈现为参考，其中相应值是42.177。模拟KPI最大值快照1308呈现推断快照值42.548，模拟KPI平均值快照1310呈现推断快照值42.091，以及模拟KPI最小值快照1312呈现推断快照值41.805。这些推断快照值将用于过程500的后续部分的讨论中。

参考图5C，提供了图5A和图5B中所示的流程图的继续，其示出了用于针对在时间序列数据内的已校正数据计算置信度值的过程500。还参考图5B，KPI值推断模块550的输出包括所推断的基于点的快照值552、所推断的基于方法的快照值554和原始数据504，这些输出被传输到通信地耦合到KPI值推断模块550的置信度度量模块570。通常，对于在KPI值推断模块550中从模拟快照中生成的针对错误数据的每个相应的推断快照值，在置信度度量模块570内，单独对推断的快照值进行评分。相应的评分包括生成被评分的所推断的基于点的快照值562，即，具有相应的置信度值的所推断的基于点的快照值552。另外，相应的评分生成被评分的所推断的基于方法的快照值564，即，具有相应的置信度值的所推断的基于方法的快照值554。在下面进一步讨论置信度值的生成。选择最好的分析分数，并且相应的推断快照值现在被提升到所选择的KPI值以替换错误数据，其中所选择的KPI值被称为推断KPI值566。因此，推断KPI值566是从一个或多个预测替换值(即，被评分的推断快照值562和564)中选择的值，以解决潜在错误数据实例。

在一些实施例中，置信度度量模块570包括多个附加子模块以便于生成置信度值和支持这样的值的细节和证据。在这些实施例的一些中，使用三个置信度度量子模块，即，基于数量的置信度度量子模块572、基于扩展的置信度度量子模块574、以及基于数量和扩展的置信度度量子模块576。

基于数量的置信度度量子模块572被配置为考虑从KPI值推断模块550获得的值的大小，并生成包括相应的置信度分数的相关联的置信度度量信息。例如但不限于，无论KPI值的大小是50还是1050，所得到的KPI值的置信度可以根据附加数据和情况而不同。基于扩散的置信度度量子模块574考虑模拟值所处的范围，并且生成包括相应的置信度分数的相关联的置信度度量信息。代替KPI值的绝对大小，基于扩展的置信度度量使用KPI值的统计特性，如平均值、最小值、最大值和标准差，因此基本不受大小的影响。基于数量和扩展的置信度度量子模块576考虑值的大小以及范围，以生成包括相应的置信度分数的相关联的置信度度量信息。在一些实施例中，并行使用所有三个子模块572、574和576，并且考虑并评估每个子模块的结果以供选择。在一些实施例中，基于进入的推断KPI值566和其它数据568(下面进一步讨论)的性质，仅选择子模块572、574和576中的一个或两个。

参考图14，提供了示出数值置信度度量的生成1400的图形/文本图。还参考图5B和图5C，生成所推断的基于点的快照值552和所推断的基于方法的快照值554的置信度值。线性图形表示1410具有图13所示的四个值。具体地，示出了其它数据568(如图5C所示)，例如但不限于具有推断快照值41.805的模拟KPI最小值快照值1412、具有推断快照值42.091的模拟KPI平均值快照值1414、原始KPI值1416 42.117、以及具有推断快照值42.548的模拟KPI最大值快照值1418。图14中还示出了第一组置信度度量评估算法，即最大偏差置信度度量算法1430。置信度度量1A算法将推断快照值1412、1414和1418的最大方差之间的关系确定为原始KPI值1416的函数。置信度度量1B算法将推断快照值1412、1414和1418的最大方差之间的关系确定为模拟KPI平均值快照值1414的函数。图14中进一步示出了第二组置信度度量评估算法，即，平均偏差置信度度量算法1440。置信度度量2A算法将原始KPI值1416与模拟KPI平均值快照值1414之间的方差关系确定为原始KPI值1416的函数。置信度度量2B算法将原始KPI值1416与模拟KPI平均值快照值1414之间的方差关系确定为模拟KPI平均值快照值1414的函数。此外，图14示出了基于扩展的度量算法1450，即置信度度量3算法，其根据模拟KPI最大值1418与模拟KPI最小值1412之间的扩展1454来评估原始KPI值1416与模拟KPI平均值快照值1414之间的偏差1452。用于置信度度量1A和1B的最大偏差置信度度量算法1430和用于置信度度量2A和2B的平均偏差置信度度量算法1440驻留在基于数量的置信度度量子模块572和基于数量和扩展的置信度度量子模块576内。类似地，基于扩展的度量算法1450的置信度度量3算法驻留在基于扩展的置信度度量子模块574和基于数量和扩展的置信度度量子模块576内。

此外，参考图15，提供了图表，即柱形图表1500，其示出了具有从在图14中提供的算法和值计算的值的置信度度量，并在它们之间进行比较。柱形图表1500包括表示在0％和100％之间延伸的所计算的置信度值的纵坐标(Y轴1502)。柱形图表1500还包括横坐标(X轴)1504，其标识置信度度量1A、1B、2A、2B和3。置信度度量2A和2B的置信度值提供最高值99.8。因此，模拟KPI平均值快照值1414提供错误数据的最佳置信度值。在至少一些实施例中，对于本例，模拟KPI平均值快照值1414是推断KPI值566。

通常，置信度度量模块570将通过一个或多个上述的模拟而生成的推断快照值552和554与相应的原始错误数据进行比较。比较的结果中的至少一个是针对被应用于数据的相应快照的推断快照值552和554中的每一个的采用数值形式的置信度值，其指示推断快照值552和554是针对错误数据的合适替换的置信水平。相对低的置信度值指示不应使用或者谨慎使用包括所得到的推断KPI值566的相应的推断快照值552和554。相对高的置信度值指示应当使用包括所得到的推断KPI值566的相应的推断快照值552和554。用于相关联的置信度值的阈值可以由用户建立，并还可以用于训练一个或多个模型，这两种情况都有助于使选择完全自动化。此外，后续动作可以是自动的。例如但不限于，对于低于预定阈值的置信度值，推断KPI值566将不被传递以用于在利用原始数据流420的本机应用(例如，过程控制系统410)内进一步处理。类似地，对于高于预定阈值的置信度值，推断KPI值566将被传递以用于在利用原始数据422的本机应用内进一步处理。因此，如本文所描述的系统和方法以防止无意的动作或根据情况和正确数据指示而启动适当动作的方式自动校正原始数据流420中的错误数据的问题。

再次参考图5C，置信度度量模块570包括解释子模块578，其被配置为从置信度度量子模块572、574和576接收基于置信度的数据580。基于置信度的数据580包括但不限于推断KPI值566及其相关联的置信度值、与推断KPI值566的选择相关联的相应信息、以及用于生成对所选择的推断KPI值566的解释的附加信息，包括其它数据568，其包括但不限于所有的推断快照值552和554，包括相应的置信度值。此外，由于预测(即推断)KPI值566的置信度值不可能是100％，因此，解释子模块578通过提供选择特定被评分的推断快照值562和564作为推断KPI值566的细节和证据来提供对一个或多个潜在错误数据实例的解决的解释基础。解释子模块578提供这样的细节，包括但不限于在数据集中检测到的问题的类型、所生成的模拟的数量和性质、从各种模拟中获得的分数的统计特性、以及分数的比较。因此，置信度度量模块570生成针对被评分的推断快照值562和564的各种置信度度量和信息，以便于用户理解被评分的推断快照值562和564的分布的属性，以进一步提供对相应的推断KPI值566的选择的清楚性，从而生成置信度分数和解释582作为过程500的输出。

此外，参考图16，提供了示出置信度度量解释1600的文本图。在置信度度量解释1600中提供的数据基本上是自明的。

本文公开的系统、计算机程序产品和方法便于克服无意处理错误时间序列数据的缺点和限制，并潜在地遇到意外后果。例如，当生成相应的数据时，并且对于给定商业KPI，本文所描述的自动化系统和方法决定数据质量问题对于相应的商业KPI是否是有影响。此外，本文描述的系统和方法识别相关的商业KPI的属性(或特性)，从而可以识别相关的数据问题，并且可以执行优化，不管准确的KPI公式是否明确可见，即不管公式本质上是可观察箱还是不可观察箱。此外，本文描述的系统和方法通过针对错误数据选择被评分的替换值的预测来解决所识别的数据问题。此外，本文描述的系统和方法优化了对可能的替换值的选择，以有效地使用系统资源。此外，被评分的预测伴随有量化的置信度值，带有关于所推断的置信度度量的置信度值的解释和值的原因。因此，如本文所述，基于对给定KPI的分析来过滤数据质量问题，并且考虑各种场景来修改数据以减轻质量问题，从而计算其对给定KPI的测量的影响并且另外测量所预测的替换值的置信度。

另外，本文公开的系统、计算机程序产品和方法的特征可以被扩展到在仅基于商业的实施例中的实现之外。还设想了非商业实现来克服无意地处理错误时间序列数据并潜在地遇到意外后果的类似缺点和限制。具体地，依赖于时间序列数据以适当地执行相应功能的任何计算机实现的过程可以通过实现本公开中的特征来改进。例如但不限于，对从包括住宅和车辆用户的IoT设备收集的时间序列数据的任何使用将通过以最高置信度来替换缺失数据值来避免无意且不必要的自动化动作。具体地，对于住宅用户，可以防止错误指示来自相应电力公司的低电压的错误数据无意且不必要地激活低电压保护电路，否则该低电压保护电路将中断到相应住宅的令人满意的电力输送。在这样的实现中，一个相应的KPI可以用于维持到住宅用户的电力的连续性。此外，具体地，对于车辆用户，可以防止错误指示过高推进机构温度的错误数据无意且不必要地启动自动紧急发动机停机。在这种实现中，一个相应的KPI可以用于维持推进力对车辆用户的连续性。

因此，本文公开的实施例通过提供一种机制来提供对计算机技术的改进，该机制用于高效、有效和自动地识别与错误时间序列数据相关联的问题，通过识别商业KPI的特性来确定数据质量问题对于给定商业KPI是否有影响，以使得可以识别相关的数据问题，并且可以执行优化，无论准确的KPI特性是否被公开定义，即KPI公式本质上是可观察箱还是不可观察箱，并且在呈现所检查的潜在解决方案的置信度分析的同时解决所识别的数据问题。

已经出于说明的目的提供了对本公开的各种实施例的描述，但是其并非旨在是穷举的或限于所公开的实施例。在不背离所描述的实施例的范围和精神的情况下，许多修改和变化对于本领域的普通技术人员将是显而易见的。本文所使用的术语被选择以最好地解释实施例的原理、实际应用或对市场上存在的技术改进，或使本领域的其他普通技术人员能够理解本文所公开的实施例。

Claims

1.一种计算机实现的方法，包括：

在时间序列数据流中识别一个或多个潜在错误数据实例；

确定用于所述一个或多个潜在错误数据实例的一个或多个预测替换值；

针对所述一个或多个预测替换值中的每个预测替换值，确定置信度值；

用所述一个或多个预测替换值中的一个预测替换值解决所述一个或多个潜在错误数据实例；以及

生成针对所述一个或多个潜在错误数据实例的解决的解释基础。

2.根据权利要求1所述的计算机实现的方法，还包括：

识别通过所述一个或多个潜在错误数据实例影响的一个或多个关键绩效指标KPI。

3.根据权利要求2所述的计算机实现的方法，还包括：

确定一个或多个KPI公式特性与所述一个或多个潜在错误数据实例相关联，其中，所述一个或多个KPI中的每个KPI包括一个或多个公式，所述一个或多个公式中的每个公式包括一个或多个特性。

4.根据权利要求3所述的计算机实现的方法，还包括：

分析可观察的KPI公式，从而分析可观察箱公式；以及

分析不可观察的KPI公式，从而分析不可观察箱公式。

5.根据权利要求3所述的计算机实现的方法，还包括：

生成一个或多个模拟快照，其中，所述一个或多个模拟快照中的每个模拟快照包括一个或多个估算值，其中，所述一个或多个预测替换值中的每个预测替换值至少部分地基于所述一个或多个估算值和所述一个或多个KPI公式特性。

6.根据权利要求5所述的计算机实现的方法，还包括：

通过基于点的模拟来生成多个模拟快照，其包括：

从所述一个或多个潜在错误数据实例中产生多个推断数据点，其包括向所述一个或多个潜在错误数据实例中的每个潜在错误数据实例交替地指定离散正确标签和离散错误标签中的一者；

生成所述多个推断数据点的所有可能组合的集合；

确定所述多个推断数据点实际上是错误的概率；以及

仅在所述多个推断数据点的所有可能组合的所述集合的子集上生成所述多个基于点的模拟快照，其中，所述多个基于点的模拟快照中的每个基于点的模拟快照包括所述一个或多个估算值；以及

通过基于方法的模拟来生成多个模拟快照，其包括：

针对每个潜在错误数据实例生成所述一个或多个估算值，其中，所述一个或多个估算值中的每个估算值是通过相应的补救操作来生成的。

7.根据权利要求6所述的计算机实现的方法，还包括：

生成所述多个推断数据点的所有可能组合的所述集合的所述子集，其包括通过使用所述KPI公式特性来采用快照优化特征。

8.根据权利要求1所述的计算机实现的方法，还包括：

解决所述一个或多个潜在错误数据实例，以及通过基于数量的置信度度量和基于扩展的置信度度量中的一个或多个来生成针对所述一个或多个潜在错误数据实例的解决的所述解释基础。

9.一种计算机程序产品，包括：

一个或多个计算机可读存储介质；以及

被共同存储在所述一个或多个计算机存储介质上的程序指令，所述程序指令包括用于执行根据权利要求1至8中任一项所述的方法的程序指令。

10.一种系统，包括：

一个或多个处理设备和可操作地耦合到所述一个或多个处理设备的至少一个存储器设备，所述一个或多个处理设备被配置为执行根据权利要求1至8中任一项所述的方法。