CN111445597B

CN111445597B - 用于机器学习的数据拼接和整合

Info

Publication number: CN111445597B
Application number: CN201911377135.9A
Authority: CN
Inventors: N.帕特尔; J.迪克森; D.梅塔利亚; S.拉梅什; G.博尔
Original assignee: Harman International Industries Inc
Current assignee: Harman International Industries Inc
Priority date: 2018-12-28
Filing date: 2019-12-27
Publication date: 2024-02-06
Anticipated expiration: 2039-12-27
Also published as: KR20200083313A; US20200210775A1; CN111445597A; EP3674912A1

Abstract

公开了用于自动预处理数据以生成适合于机器学习和数据分析操作的数据的单个视图的技术。如果所述数据集中的原始数据具有相同频率，则使用一个或多个主键将所述多个数据集接合在一起。另一方面，如果所述数据集中的原始数据并不具有相同频率，则对于具有与用户指定的基本数据集中的数据不同频率的数据集中的原始数据，对所述原始数据进行归一化和重采样。基于与所述基本数据集相关联的时间戳，进一步聚合所述数据集中的所述归一化和重采样后的数据，然后使用一个或多个主键将所述数据集接合到所述基本数据集。所述接合后的数据集可以存储，并且用于训练机器学习模型和/或进行数据分析操作。

Description

用于机器学习的数据拼接和整合

相关申请的交叉引用

本申请要求于2018年12月28日提交的且序列号为62/786,254的美国临时专利申请的优先权，其标题为“AUTOMATICALLY COMBINING HETEROGENOUSLY SAMPLED VEHICULARDATA”。本相关申请的主题在此以引用的方式并入本文。

技术领域

本公开总体涉及机器学习，并且更具体地，涉及用于机器学习的数据拼接和整合。

背景技术

机器学习(ML)和数据分析通常依赖大量数据来分别训练机器学习模型和识别数据中有意义的模式等。来自不同来源的原始数据(诸如，车辆上各种传感器收集的数据)可以具有不同的结构、格式和频率。如本文中所使用的，数据的“频率”是指期间通常记录一个或多个数据点的时间量(例如，一分钟、一秒、几分之一秒、一微秒等)。例如，一些车辆传感器数据可以每微秒记录一次，而其他车辆传感器数据可以以较低的频率，诸如每分钟记录一次。

由于原始数据的异构形式，数据科学家可能难以将此类数据“整形”或“预处理”为适合于训练机器学习模型和数据分析操作的均匀结构。通常，数据科学家会花大量时间来整形原始数据，然后才能开始使用它们。一般来说，原始数据的整形或预处理通常耗时且费力。

如前所述，本领域需要的是用于数据预处理的更有效的技术。

发明内容

本申请的一个实施方案阐述了一种用于预处理数据的计算机实现的方法。所述方法包括，对于包括在多个数据集中的每个数据集，对数据集中包括的原始数据进行归一化，以生成数据集内的归一化后的数据。所述方法进一步包括，对于包括在多个数据集中的每个数据集，基于与第一数据集相关联的持续时间，聚合数据集内的归一化后的数据，以生成数据集内的聚合后的数据。另外，所述方法包括，将包括聚合后的数据的多个数据集接合到第一数据集以生成接合后的数据集。

本申请的其他实施方案包括但不限于一种非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质包括使计算机系统能够实现上述方法的一个或多个方面的指令，以及一种被配置为实现所述方法的一个或多个方面的计算机系统。

相对于现有技术，所公开的技术的至少一个技术优势在于，在所公开的技术中，原始数据被自动预处理为适合于机器学习和数据分析操作的均匀结构。结果，用户不需要对原始数据进行预处理，这可能很费时且费力。因此，原本要耗费数月才能解决的许多机器学习和数据分析问题在几日之内就可以解决。这些技术优势代表相对于现有技术方法的一项或多项技术改进。

为了可以详细地理解本公开的上文阐述的特征所用方式，可参考实施方案来获得本公开的更具体的描述，这些特定实施方案中的一些在附图中示出。然而，应当注意，附图仅示出典型实施方案，且因此不应被视为限制本公开的范围，其他同等有效的实施方案也可在所述范围内。

附图说明

图1示出了被配置为实现各种实施方案的一个或多个方面的计算系统；

图2示出了根据各种实施方案的用于预处理具有相同频率的数据集的方法；

图3示出了根据各种实施方案的用于预处理具有不同频率的数据集的方法；

图4示出了根据各种实施方案的用于预处理数据的方法步骤的流程图；

图5是根据各种实施方案的对图4的方法步骤中的一者的更详细图示；以及

图6是根据各种实施方案的图4的方法步骤中的另一者的更详细图示。

具体实施方式

在以下描述中，阐述许多特定细节，以便提供对本公开的实施方案的更透彻的理解。然而，对本领域的技术人员来说将显而易见的是，本公开的实施方案可在没有这些特定细节中的一个或多个的情况下实践。

系统概述

图1示出了被配置为实现各种实施方案的一个或多个方面的计算系统100。如图所示，系统100包括预处理服务器110、数据存储库120和机器学习(ML)服务器140。如图所示，预处理服务器110、数据存储库120和ML服务器140通过网络130进行通信。在一些实施方案中，网络130可以是诸如互联网的广域网(WAN)、局域网(LAN)或任何其他适合的网络。

如图所示，预处理应用程序116在预处理服务器110的处理器112上执行，并且存储在预处理服务器110的存储器114中。尽管出于说明性目的将其示出为服务器，但是应当理解，预处理服务器110不需要是服务器，并且通常可以是任何类型的计算系统。包括处理器112以代表单个中央处理单元(CPU)、多个CPU，具有多个处理核心的单个CPU、一个或多个图形处理单元(GPU)、现场可编程门阵列(FPGA)、其他类型处理器、前述处理器的某种组合等。在操作中，处理器112可以控制和协调其他系统部件的操作。处理器112还可以从诸如键盘或鼠标的输入设备接收用户输入。

预处理服务器110的系统存储器114存储供处理器112使用的内容，诸如软件应用程序和数据。系统存储器114可以是能够存储数据和软件应用程序的任何类型的存储器，诸如随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存ROM)或前述的任何适合组合。在一些实施方案中，存储装置(未示出)可以补充或替换系统存储器114。存储装置可包括处理器112可访问的任何数目和类型的外部存储器。举例来说，但是非限制地，存储装置可包括安全数码卡、外部闪存存储器、便携式压缩光盘只读存储器(CD-ROM)、光学存储设备、磁性存储设备，或前述的任何适合组合。

应当理解，本文所示的预处理服务器110是说明性的，并且变型和修改是可能的。例如，可以根据需要修改处理器112的数量、系统存储器114的数量以及系统存储器114中包括的应用程序的数量。此外，可以根据需要修改图3中各个单元之间的连接拓扑。在一些实施方案中，处理器112和系统存储器114的任何组合可以由任何类型的虚拟计算系统、分布式计算系统或云计算环境(诸如，公共云或混合云)来代替。

预处理应用程序116被配置为将原始数据预处理为适合于训练机器学习模型或其他数据分析操作的均匀结构，如下文更详细地讨论。例如，可以将来自车辆中不同来源的原始数据拼接在一起形成均匀结构。由处理应用程序116生成的预处理后的数据可以存储在数据存储库120中或其他地方(例如，存储在云中)。

在一些实施方案中，数据存储库120可以包括任何一个或多个存储设备，诸如一个或多个固定盘驱动器、一个或多个闪存驱动器、光学存储装置、网络附加存储装置(NAS)和/或存储区域网络(SAN)。尽管示出为可通过网络130访问，但是在一些实施方案中，预处理服务器110可以包括数据存储库120。在一些实施方案中，数据存储库120可以包括一个或多个数据库。这样，系统100可以包括用于访问数据并且将其存储在数据存储库120中的数据库管理系统(DBMS)。

如图所示，模型训练应用程序146(“模型训练器”)存储在存储器144中，并且在ML服务器140的处理器142上执行。ML服务器140的部件(包括存储器144和处理器142)可以与上文讨论的预处理服务器110的相应部件类似。尽管出于说明性目的将其示出为服务器，但是ML服务器140不需要是服务器，并且通常可以是任何类型的计算系统。

通过使用由预处理应用程序116生成的预处理后的数据，模型训练应用程序145可以训练一个或多个ML模型以执行预测任务。训练后的ML模型也可以存储在数据存储库120中或其他地方。在训练之后，可以将训练后的ML模型部署到使用训练后的模型的任何技术上可行的应用程序。回到车辆示例，可以训练ML模型，以基于从车辆收集的数据来预测何时有可能发生发动机故障，并且可以将此类ML模型部署在车辆上运行的应用程序中，以警告用户即将出现的发动机故障。作为另一个示例，可以训练ML模型并且将其部署以改进车辆的性能。

ML服务器和计算设备的数量可以根据需要进行修改。在一些实施方案中，处理器142和系统存储器144的任何组合可以由任何类型的虚拟计算系统、分布式计算系统或云计算环境(诸如，公共云或混合云)来代替。此外，包括在任何应用程序中的功能可以被划分为经由位于任意数量的物理位置中的任意数量的设备来存储和执行的任意数量的应用程序或其他软件。

自动化数据预处理

图2示出了根据各种实施方案的用于预处理具有相同频率的数据集的方法。本文所公开的数据的自动化预处理通常可以用于将大量异构数据构造为具有均匀结构的单个视图，从而促进机器学习和数据分析操作。在一些实施方案中，均匀结构包括结构化数据，所述结构化数据具有适当标签、分布均匀并且以相等的时间间隔可用。

如图所示，预处理应用程序116接收数据集202、204、206和208。数据集202、204、206和208中的每一者可以包括任何格式的任何技术上可行类型的数据。例如，数据集206、204、206和208可以是包括数据库表格的JavaScript对象表示法(JSON)或可扩展标记语言(XML)文件。数据集202、204、206和208中的数据通常可以具有各种特征，诸如，数量、频率、方向和/或分布。此外，数据可以是仅具有大小的标量或具有大小和方向的向量的形式。

例如，在车辆的上下文中，数据集202、204、206和208中的每一者可以是控制器区域网络(CAN)总线文件，其指定多个时间戳下的一个或多个诊断故障代码(DTC)代码。CAN总线是被设计来在没有主机计算机的情况下允许微控制器和设备与应用程序进行通信的车辆总线标准。可以通过CAN总线系统发送的传感器数据的示例包括指南针数据、迎角数据、陀螺仪数据、温度数据、致动器数据、压力数据、ALT压力数据和燃料管理数据。

尽管本文将CAN总线数据描述为车辆数据的参考示例，但是本文所公开的技术也适用于来自车辆生态系统中其他来源的数据，诸如事件数据记录器(EDR)、车载诊断信息(例如，加密狗、OBD-II)、音响主机和信息娱乐系统、电子控制单元(ECU)或各种传感器。应当理解，车辆可以包括实时生成源数据的任意数量和类型的部件。更一般地，实施方案可以用于预处理来自任何一个或多个来源的任何适合的数据，诸如，车辆、医疗保健系统、银行等中的传感器或电子设备。

数据集202、204、206和208可以存储在任何数据存储库中(例如，存储在云中)，然后由预处理应用程序116检索。在检索数据集202、204、206和208之后，预处理应用程序116分别在210、212、214和216确定数据集202、204、206和208中数据的频率。如上所述，数据的频率是指期间通常记录一个或多个数据点的时间量。通常，每个数据集202、204、206或208中的数据点可以每分钟、每秒、每几分之一秒、每微秒或每任何其他时间量记录一次。例如，一个数据集可以包括具有分钟时间戳的1个记录，另一个数据集可以包括具有微秒时间戳的数千个记录，而另一个数据集可以包括以每秒30帧的频率的图像等。应当注意的是，特定数据集中数据的频率通常取决于其中包括的数据的类型。为了确定给定数据集的频率，预处理应用程序116可以(例如)使用时间戳(例如，以一分钟为间隔)作为基准，并且确定数据集中针对所述时间戳的数据记录(例如，针对特定列或字段)的数量。

假设数据集202、204、206和208中数据的频率相同，则将数据视为来自单个来源，并且使用主键合并在一起。如图所示，在220，预处理应用程序116获得每个时间戳的主键，然后在222，预处理应用程序116使用主键将每个数据集接合到基本数据集。如本文中所使用的，“基本”数据集是指其他数据集接合到的主要数据集，并且在一些实施方案中，可以由用户指定基本数据集。例如，用户可以将数据集202、204、206或208中的一者指定为基本数据集。时间戳可以是与数据集202、204、206、208中数据的频率相关联的时间单位，诸如，分钟时间戳、微秒时间戳等。例如，假设用户在一家管理多个车辆的公司工作。在这种情况下，用户可以指定VIN(车辆识别号)编号和用户感兴趣的时间戳范围(例如，过去两年中)，以及具有期望频率(例如，每分钟)的基本表格，之后，预处理应用程序116可以根据本文所公开的技术自动生成包括相关数据并且具有均匀结构的最终数据集。

在一些实施方案中，用于将数据集接合到基本数据集的主键是时间戳或与时间戳相对应的生成值。数据集的接合在本文中也称为将数据集“拼接”在一起。例如，假设数据集中的每一者是数据库，则在222将数据集接合到基本数据集可以包括：针对每个时间戳创建与主键相关联的数据库行，以及将来自数据集202、204、206和208中的每一者针对所述时间戳的数据组合到所述数据库行中。这样做会生成结构化数据，所述结构化数据具有标签、分布均匀并且以相等的时间间隔可用，这些时间间隔对应于数据集202、204、206和208中数据的频率。作为另一个示例，当在222将数据集接合到基本数据集时，所使用的主键可以是时间戳，而辅键可以包括在一定范围之间或基于某些统计参数(诸如，平均值、中位数、众数、标准偏差、范围等)的值。在一些实施方案中，预处理应用程序116还可以创建一个或多个更高级别的索引以促进查询和搜索。

预处理后的数据可以随后以任何适合的方式存储(例如，在数据存储库120中)并且用于训练机器学习模型，或用在其他数据分析操作中。此外，可以基于相关联的元数据从预处理后的数据集(例如，数据库)中过滤掉数据，并且基于搜索条件创建数据集的子集(例如，子集数据库)。由于预处理后的数据具有均匀结构，因此用户可能不需要在训练机器学习模型或使用此类数据执行分析之前对预处理后的数据进行整形。例如，用户可以基于感兴趣的时间戳编制查询，以从预处理后的数据中检索信息。

图3示出了根据各种实施方案的用于预处理具有不同频率的数据集的方法。如图所示，预处理应用程序116接收数据集302、304、306和308。类似于数据集202、204、206和208，数据集302、304、306和308可以包括任何格式的任何技术上可行类型的数据。例如，数据集302、304、306和308可以是CAN总线文件，所述CAN总线文件包括存储多个时间戳下的DTC代码的数据库。

数据集302、304、306和308可以存储在任何数据存储库中(例如，存储在云中)，然后由预处理应用程序116检索。在检索数据集302、304、306和308之后，预处理应用程序116分别在310、312、314和316确定数据集302、304、306和308中数据的频率，这类似于在上面讨论的在210、212、214和216确定数据集的频率。假设数据集302、304、306和308中数据的频率不同，则预处理应用程序116分别在320、322、324和326处对数据集302、304、306和308中的每一者进行归一化。

在一些实施方案中，对数据集302、304、306或308进行归一化包括确定所述数据集的缩放值，以及基于所含原始数据值、数据集的缩放值和用于单位转换的偏移量来为数据集中的数据计算缩放后的值(在本文中也称为“归一化后的”值)。在一些实施方案中，缩放后的值被计算为Scaled_Value＝Offset+Scale*Raw_Data_Value，其中Scale是缩放值，并且Offset是单位转换器或噪声和基线滤波值。缩放值用于缩放两点之间的数据值。例如，缩放后的值可以各自在0与1之间、在最小值和最大值之间，和/或遵循某种统计分布。在一些实施方案中，数据集302、304、306或308中的一者的缩放值可以是数据集的最大值减去数据集的最小值。应当注意，缩放因子不能直接应用于值为0和1的数据集。在这种情况下，可以基于时间戳创建0和1的频率分布，并且可以缩放频率分布。偏移量用于虑及数据集302、304、306和308中具有不同测量单位或噪声和基线滤波单位的数据。例如，偏移量可以利用数据集中在数据矩阵中彼此相邻的变量之间的关系，以删除高频或低频入侵，这有时也称为数据偏移或噪声或基线滤波。

在一些实施方案中，在320、322、324和326的归一化还包括分别代表包括在数据集302、304、306和308中的原始数据的计算特征。上面讨论的缩放后的数据值是特征的一个示例。特征的其他示例包括从数据集中的原始数据计算出的统计数据，诸如，平均值、最大值、标准偏差等。即，通过计算代表原始数据的各种特征，在特征级别上捕获由原始数据指定的信息。例如，归一化后的数据可以包括缩放后的值，所述缩放后的值指示在多个一分钟间隔内每微秒记录的某种类型的事件发生的次数，以及其他特征，诸如，在一分钟间隔期间与事件相关联的值的平均值、最大值、最小值和标准偏差等。如在此示例中所示，当数据以较高的时间戳聚合时，可以将统计数据计算为原始数据的特征。在一些实施方案中，可以计算不导致信息丢失的特征，并且可以代替原始数据而将特征存储在数据集内。即，由于特征是更干净的数据形式，因此在计算特征之后可以丢弃原始数据。例如，如果针对每个DTC代码计算了10个特征，则可以将包括对应于DTC代码的500列的CAN总线数据库表格转换成包括5000列的表格。在这种情况下，特征的数量也可以使用下采样技术来减少，这将在下面更详细地讨论。

在一些实施方案中，与归一化原始数据相反，预处理应用程序116可以对数据集302、304、306和308中的原始数据进行解码并且对解码后的数据进行归一化。回到CAN总线示例，原始CAN总线数据没有结构。取而代之的是，CAN总线数据通常包括数据位，每个数据位都对一条消息进行编码。在这种情况下，预处理应用程序116可以包括解析器，所述解析器标识诸如分组类型(例如，陀螺仪数据、指南针数据等)、位置(例如，x、y、z坐标)和在原始CAN总线数据中指定的缩放等信息，从而对数据进行解码，并且解析器可以将解码后的数据进一步转换为标准的可读格式，诸如表格。例如，在一些实施方案中，标准格式可以是指示诸如开门、关门、制动、加速等的物理事件以及与每个物理事件相关联的时间长度和位置的表格。在这种情况下，解析器可以将原始CAN总线数据链接到物理事件。例如，解析器可以将超过阈值的特定CAN总线数据与制动相关联。然后，预处理应用程序116可以将解码后的数据归一化为标准格式。例如，归一化后的数据可以包括指示在多个一分钟间隔内发生制动的次数的缩放后的值，以及其他特征，诸如，与在一分钟间隔内发生的制动相关联的值的平均值、最大值、最小值和标准偏差等。作为另一个示例，预处理应用程序116可以接收已经指示了制动和其他物理事件的数据集，在这种情况下，解析器将不需要对CAN总线数据进行解码以确定物理事件。

在对数据集302、304、306和308进行归一化之后，预处理应用程序116可选地在330、332、334和336对归一化后的数据集进行重采样。在一些实施方案中，预处理应用程序116可以提供由归一化过程创建的特征的汇总报告，询问用户是否应当执行重采样，并且仅执行用户请求的重采样。重采样可以包括对归一化后的数据集进行上采样和/或下采样。上采样可用于在归一化后的数据稀疏的情况下外推或插补值。也就是说，上采样基于(例如)其他来源的数据的趋势来创建更多数据。在一些实施方案中，如果一种类型的数据与其他类型的数据相关，则预处理应用程序116可以基于其他类型的数据的值来插补所述类型的数据的值。回到车辆的示例，如果在多个其他传感器读数之后发动机故障灯趋于打开，则预处理应用程序可以基于来自其他传感器的数据来插补发动机故障灯数据。作为另一个示例，在一些实施方案中，预处理应用程序116可以使用诸如SMOTE(合成少数过采样技术)的系统过采样技术来在330、332、334和336对归一化后的数据进行上采样。与上采样相比而言，下采样可用于删除冗余数据。在下采样期间，预处理应用程序116可以应用统计功能以聚合归一化后的数据并且将此类数据缩减到期望水平。例如，可以使用诸如MRMR(最大相关性和最小冗余技术)的特征约简技术来缩减归一化后的数据集中特征的数量。

在对归一化后的数据集进行重采样之后，预处理应用程序116在340、342、344和346聚合数据集中的每一者的归一化和重采样后的数据(在本文中也称为特征)。在340、342、344和346的聚合用于通过合并以比与基本数据集相关联的频率高的频率记录的数据集内的数据，匹配数据集302、304、306和308的频率，而不会丢失信息。也就是说，基本数据集的频率是固定的，而其他数据集则经过处理以调整其频率以匹配基本数据集的频率。例如，数据集302、304、306或308中的一者可以包括每毫秒的数据记录，而数据集302、304、306或308中的另一者可以包括在给定的分钟数内(例如，5分钟)每分钟的数据记录。假设包括每分钟的数据记录的数据集是基本数据集，则可以将一分钟用作标准时间单位，并且预处理应用程序116通过累计指定分钟数内(例如，5分钟内)每分钟时间间隔的此类记录来聚合微秒记录。在一些实施方案中，预处理应用程序116可以允许用户选择数据集302、304、306或308中的一者作为基本数据集，其时间间隔被用作在340、342、344和346的聚合期间的标准时间单位。返回到上面的示例，用户可以选择数据集340、342、344或346中包括每分钟的数据记录的一者作为基本数据集，在这种情况下，预处理应用程序116将按分钟时间间隔聚合包括在其他微秒级数据集中的数据。再举一个例子，如果另一个数据集包括频率低于每分钟一次(例如，每小时一次)的数据记录，则预处理应用程序116可以针对与任何数据记录都不相关联的分钟插入零或留空。在这种情况下，将不针对频率低于每分钟一次的数据记录计算特征(例如，平均值、最大值、最小值、标准差等)。

尽管出于说明性目的在图3中将数据集340、342、344和346中的每一者示出为进行归一化、重采样和聚合，但是应当理解，如果数据集340、342、344或346中的一者被选择为基本数据集，则无需对此类数据集进行归一化、重采样和聚合以匹配其自身的频率。然而，在一些实施方案中，预处理应用程序116可以允许用户选择使用持续时间长于基本数据集的频率的时间戳(例如，一小时)，在这种情况下，基本数据集也需要进行归一化、重采样和聚合。

在340、342、344和346的聚合之后，数据集302、304、306和308的特征具有相同频率，类似于上面结合图2讨论的数据集202、204、206和208中的数据。类似于220，预处理应用程序116在350获得每个时间戳的主键，然后在360，预处理应用程序116将每个数据集接合到基本数据集。如所描述的，基本数据集可以是数据集302、304、306或308中的任何一者，并且在一些实施方案中，基本数据集可以由用户指定。此外，主键可以是时间戳或与时间戳对应的生成值，在这种情况下，在360将数据集接合到基本数据集可以包括：例如，针对时间戳创建与主键相关联的数据库行，以及将与同一时间戳相关联的数据集302、304、306和308中的每一者的特征组合到数据库行中。这样做会生成结构化数据，所述结构化数据具有标签、分布均匀并且以相等的时间间隔可用，这些时间间隔对应于基本数据集中数据的频率，与异构数据集302、304、306和308形成对比。如所描述的，在一些实施方案中，预处理应用程序116还可以创建一个或多个更高级别的索引以促进查询和搜索。

尽管出于说明性目的将数据集302、304、306和308示为同时接合在一起，但是，在处理每个此类数据集以进行归一化、重采样并且聚合其中的数据之后，可以替代地将数据集相继接合到基本数据集。一些实施方案可以允许用户在相继或同时将数据集接合到基本数据集之间进行选择。例如，如果所有数据集都具有依赖性，则用户可以根据其潜在分布而选择同时将数据集接合在一起。另一方面，如果不存在这种依赖性，则用户可以选择将数据集相继接合到基本数据集。

在接合数据集之后，可以以任何适合的方式存储预处理后的数据(例如，存储在数据存储库120中)，然后用于训练机器学习模型或用在任何技术上可行的数据分析操作中。类似于上面结合图3进行的讨论，由于预处理后的数据具有均匀结构，因此用户可能不需要在训练机器学习模型或使用此类数据执行分析之前对预处理后的数据进行整形。如所描述的，用户可以(例如)基于感兴趣的时间戳编制查询，以从预处理后的数据中检索信息。此外，可以基于相关联的元数据从预处理后的数据集(例如，数据库)中过滤掉数据，并且基于搜索条件创建数据集的子集(例如，子集数据库)。

尽管图2到图3分别显示了具有相同和不同频率的数据集，但是应当注意，在其他情况下，多个数据集内的某些数据集可能具有与基本数据集相同的频率，而其他数据集可能具有与基本数据集不同的频率。在这样的情况下，预处理应用程序116可以将上面结合图3描述的归一化、重采样和聚合步骤仅应用于具有与基本数据集不同频率的那些数据集，而将具有与基本数据集相同频率的数据集(以及归一化、重采样和聚合之后的其他数据集)直接接合到基本数据集。

图4示出了根据各种实施方案的用于预处理数据的方法步骤的流程图。尽管结合图1的系统来描述方法步骤，但本领域普通技术人员将理解，被配置为按任何顺序执行方法步骤的任何系统都落在本发明的范围内。

如图所示，方法400在框402开始，在框402预处理应用程序116接收包括原始数据的多个数据集和用户在所述数据集中选择的基本数据集。如所描述的，原始数据可以包括来自任何数据来源的任何技术上可行类型的数据类型，诸如，在车辆的上下文中的CAN总线数据。

在框404，预处理应用程序116选择数据集中不是基本数据集的一者来进行处理。如所描述的，除非用户已选择使用持续时间长于基本数据集的频率的时间戳，否则基本数据集通常不需要进行归一化、重采样和聚合以匹配其自身的频率。

在框406，预处理应用程序116确定所选数据集中的原始数据是否具有与基本数据集中的数据相同的频率。如果预处理应用程序116在框406确定所选数据集中的原始数据不具有与基本数据集中的数据相同的频率，则方法400进行到框408，在框408预处理应用程序116对所选数据集中的原始数据进行归一化。在一些实施方案中，如以上结合图3到图4所讨论的，预处理应用116还可以在对数据进行归一化之前对原始数据进行解码。

图5是根据各种实施方案的在框408对原始数据进行归一化的更详细图示。尽管结合图1的系统来描述方法步骤，但本领域普通技术人员将理解，被配置为按任何顺序执行方法步骤的任何系统都落在本发明的范围内。

如图所示，在框502，预处理应用程序116确定缩放值。在一些实施方案中，缩放值可以是数据集的最大值减去最小值，如以上结合图3所讨论的。

在框504，预处理应用116基于原始数据、缩放值和偏移量来确定缩放后的数据值。在一些实施方案中，缩放后的值中的每一者可以被计算为Scaled_Value＝Offset+Scale*Raw_Data_Value。

除了或代替计算缩放后的数据值，在一些实施方案中，预处理应用程序116可以在框408的归一化期间计算其他特征值，包括从数据集中的每一者中的原始数据计算出的统计数据，诸如，平均值、最大值、最小值、标准偏差等，如以上结合图3所讨论的。

返回图4，在框410，预处理应用程序116(可选地)对归一化后的数据进行重采样。如所描述的，对归一化后的数据重采样可以包括对归一化后的数据进行上采样以插补或外推附加数据和/或对归一化后的数据进行下采样以删除重复特征。在一些实施方案中，预处理应用程序116可以提供由在框408的归一化过程创建的特征的汇总报告，并且询问用户是否应当执行重采样。在这样的情况下，预处理应用程序116可以仅执行用户请求的重采样。

在框412，预处理应用程序116基于基本数据集的频率来聚合所选数据集中的重采样和归一化后的数据。如所描述的，此类聚合包括累计所选数据集中与基本数据集中的数据相关联的时间间隔内的数据记录，使得两个数据集的频率变得相同。

然后，方法400进行到框414，在框414预处理应用程序116确定是否有更多数据集要处理。如果预处理应用程序116在框406确定所选数据集中的原始数据具有与基本数据集相同的频率，则方法400也直接进行到框414。如果有更多数据集要处理，则方法400返回到框404，在框404预处理应用程序116选择另一个数据集来处理。

另一方面，如果没有更多的数据集要处理，则方法400进行到框416，在框416预处理应用程序116将处理后的数据集与基本数据集拼接在一起。这样做会以均匀结构生成数据的单个视图，从而可用于机器学习或数据分析操作。如所描述的，出于说明性目的，处理后的数据集被示出为同时与基本数据集拼接在一起，但是可替代地，在处理每个数据集之后，可将处理后的数据集与基本数据集相继拼接在一起。另外，一些实施方案可以允许用户在相继或同时拼接处理后的数据集与基本数据集之间进行选择，具体取决于(例如)是否所有数据集都具有依赖性。

图6是根据各种实施方案的对框416的更详细图示。尽管结合图1的系统来描述方法步骤，但本领域普通技术人员将理解，被配置为按任何顺序执行方法步骤的任何系统都落在本发明的范围内。

如图所示，在框602，预处理应用程序116获得与处理后的数据集中的数据相关联的每个时间戳的主键。在一些实施方案中，每个时间戳的主键可以是时间戳本身或与所述时间戳相对应的生成值。

然后，在框604，预处理应用程序116基于所获得的一个或多个主键将处理后的数据集接合到用户指定的基本数据集。接合数据集可以包括将数据集中(例如)数据库表格的行中或任何其他适合的格式的数据组合到一起。在一些实施方案中，预处理应用程序116还可创建更高级别的索引以促进查询和搜索。

在框416执行拼接之后，可以将已预处理的数据保留在任何数据存储库中，可以从所述数据存储库中检索预处理后的数据并且用于训练ML模型或其他数据分析操作。例如，可以使用已拼接在一起和整合的车辆数据来训练ML模型，并且可以部署训练后的ML模型来改进车辆的性能。

总之，公开了用于通过拼接和整合来自动预处理数据以生成适合于机器学习和数据分析操作的数据的单个视图的技术。在所公开的技术中，如果数据集中的原始数据具有相同频率，则使用一个或多个主键将多个数据集接合在一起。另一方面，如果数据集中的原始数据并不全部具有相同的频率，则对于具有与用户指定的基本数据集中的数据不同频率的数据集中的原始数据，对原始数据进行归一化，并且(可选地)进行重采样。基于与基本数据集相关联的时间戳，进一步聚合数据集中的归一化和重采样后的数据，然后使用一个或多个主键将所述数据集接合到基本数据集。在这两种情况下，接合后的数据集可以存储，并且用于训练机器学习模型和/或进行数据分析操作。

1.一些实施方案包括一种用于预处理数据的计算机实现的方法，所述方法包括：对于包括在多个数据集中的每个数据集，对所述数据集中包括的原始数据进行归一化，以生成所述数据集内的归一化后的数据；对于包括在所述多个数据集中的每个数据集，基于与第一数据集相关联的持续时间，聚合所述数据集内的所述归一化后的数据，以生成所述数据集内的聚合后的数据；以及将包括聚合后的数据的所述多个数据集接合到所述第一数据集以生成接合后的数据集。

2.根据条款1所述的方法，所述方法还包括：确定包括在所述多个数据集中的每个数据集中包括的所述原始数据具有与所述第一数据集中包括的原始数据不同的频率。

3.根据条款1到2中的任一条款所述的方法，其中，对所述数据集中包括的所述原始数据进行归一化包括：确定用于所述数据集的缩放值，以及基于所述缩放值和偏移值来缩放所述数据集中包括的所述原始数据。

4.根据条款1到3中的任一条款所述的方法，其中，通过从所述数据集中包括的最大数据值减去所述数据集中包括的最小数据值来确定所述数据集的所述缩放值。

5.根据条款1到4中的任一条款所述的方法，所述方法还包括：对于包括在所述多个数据集中的每个数据集，通过对所述归一化后的数据进行上采样或下采样中的至少一者来对所述数据集内的所述归一化后的数据进行重采样。

6.根据条款1到5中的任一条款所述的方法，其中，将包括聚合后的数据的所述多个数据集接合到所述第一数据集包括：将一个或多个主键分配给包括聚合后的数据的所述多个数据集和所述第一数据集内的行，以及基于所述一个或多个主键来将包括聚合后的数据的所述多个数据集接合到所述第一数据集。

7.根据条款1到6中的任一条款所述的方法，其中，所述多个数据集包括多个数据库表格。

8.根据条款1到7中的任一条款所述的方法，所述方法还包括：基于所述接合后的数据集来训练至少一个机器学习模型。

9.根据条款1到8中的任一条款所述的方法，所述方法还包括：将包括具有与所述第一数据集中包括的原始数据相同频率的原始数据的至少一个其他数据集接合到所述第一数据集。

10.一些实施方案包括一种包括指令的非暂时性计算机可读存储介质，所述指令在由处理器执行时致使所述处理器执行用于预处理数据的步骤，所述步骤包括：对于包括在多个数据集中的每个数据集，对所述数据集中包括的原始数据进行归一化，以生成所述数据集内的归一化后的数据；对于包括在所述多个数据集中的每个数据集，基于与第一数据集相关联的持续时间，聚合所述数据集内的所述归一化后的数据，以生成所述数据集内的聚合后的数据；以及将包括聚合后的数据的所述多个数据集接合到所述第一数据集以生成接合后的数据集。

11.根据条款10所述的计算机可读存储介质，所述步骤还包括：对于包括在所述多个数据集中的每个数据集，对所述数据集内的所述归一化后的数据进行重采样。

12.根据条款10到11中的任一条款所述的计算机可读存储介质，其中，所述重采样包括：对所述归一化后的数据进行上采样或下采样中的至少一者。

13.根据条款10到12中的任一条款所述的计算机可读存储介质，所述步骤还包括：确定包括在所述多个数据集中的每个数据集中包括的所述原始数据具有与所述第一数据集中包括的原始数据不同的频率。

14.根据条款10到13中的任一条款所述的计算机可读存储介质，其中，将包括聚合后的数据的所述多个数据集接合到所述第一数据集包括：将一个或多个主键分配给包括聚合后的数据的所述多个数据集和所述第一数据集内的行，以及基于所述一个或多个主键来将包括聚合后的数据的所述多个数据集接合到所述第一数据集。

15.根据条款10到14中的任一条款所述的计算机可读存储介质，其中，对所述数据集中包括的所述原始数据进行归一化包括：确定用于所述数据集的缩放值，以及基于所述缩放值和偏移值来缩放所述数据集中包括的所述原始数据。

16.根据条款10到15中的任一条款所述的计算机可读存储介质，其中，所述多个数据集包括多个数据库表格。

17.根据条款10到16中的任一条款所述的计算机可读存储介质，所述计算机可读存储介质还包括：基于所述接合后的数据集来训练至少一个机器学习模型。

18.根据条款10到17中的任一条款所述的计算机可读存储介质，其中，包括在所述多个数据集中的每个数据集包括来自控制器区域网络(CAN)总线、事件数据记录器(EDR)、车载诊断信息、音响主机、信息娱乐系统、电子控制单元(ECU)或传感器中的至少一者的数据。

19.一些实施方案包括一种系统，所述系统包括：存储器，所述存储器存储指令；以及处理器，所述处理器耦接到所述存储器，并且当执行所述指令时，被配置为：对于包括在多个数据集中的每个数据集，对所述数据集中包括的原始数据进行归一化，以生成所述数据集内的归一化后的数据，对于包括在所述多个数据集中的每个数据集，基于与第一数据集相关联的持续时间，聚合所述数据集内的所述归一化后的数据，以生成所述数据集内的聚合后的数据，以及将包括聚合后的数据的所述多个数据集接合到所述第一数据集以生成接合后的数据集。

20.根据条款19所述的系统，其中，包括在所述多个数据集中的每个数据集包括由车辆上的相应传感器收集的数据。

已经出于说明和描述的目的而呈现了对实施方案的描述。可以鉴于以上描述执行或可以通过实践所述方法获得实施方案的适合的修改和变型。例如，除非另外指出，否则所描述的方法中的一种或多种可以由适合的设备和/或设备的组合来执行。所描述的方法和相关联的动作也可按照除本申请中所描述的顺序之外的各种顺序、并行地和/或同时地执行。所描述的系统本质上是示例性的，并且可以包括附加元件和/或省略元件。

如本申请中所使用的，以单数形式列举并且前面带有词语“一个”或“一种”的元件或步骤应当理解为并不排除多个所述元件或步骤，除非指出这种排除情况。此外，对本公开的“一个实施方案”或“一个示例”的参考并非意图解释为排除也并入了所列举特征的附加实施方案的存在。术语“第一”、“第二”和“第三”等仅用作标签且并非意图对其对象施加数字要求或特定位置顺序。

本公开的实施方案总体提供多个电路、电气设备和/或至少一个控制器。所有对所述电路、至少一个控制器和其他电气设备和由它们中的每一者提供的功能的提及并非意图限于仅涵盖本文中所图示和描述的内容。虽然特定标签可分配给所公开的各种电路、控制器和其他电气设备，但是这些标签并非意图限制各种电路、控制器和其他电气设备的操作范围。此类电路、控制器和其他电气设备可以基于所期望的特定类型的电气实现方式以任何方式彼此组合和/或分离。

应当理解，框是具有以下各者中的至少一者的硬件系统或其元件：执行软件的处理单元和用于实现相应的期望信号传送或处理功能的专用电路结构。因此，系统的部分或全部可实现为由处理器或可编程数字电路执行的软件和固件。应当认识到，如本文所公开的任何系统可以包括任何数量的微处理器、集成电路、存储器设备(例如，快闪、随机存取存储器(RAM)、只读存储器(ROM)、电可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)，或它们的其他适合变型)，以及彼此共同作用以执行本文所公开的一个或多个操作的软件。另外，如所公开的任何系统可以利用任何一个或多个微处理器来执行计算机程序，所述计算机程序实现在非暂时性计算机可读介质中，所述非暂时性计算机可读介质被编程为执行如所公开的任何数量的功能。此外，如本文所提供的任何控制器包括外壳和各种数量的微处理器、集成电路，和存储器设备，(例如，快闪、随机存取存储器(RAM)、只读存储器(ROM)、电可编程只读存储器(EPROM)，和/或电可擦可编程只读存储器(EEPROM)。

虽然已描述了本发明的各种实施方案，但是对于本领域的普通技术人员来说显而易见的是，在本发明的范围内，更多的实施方案和实现方式是可能的。具体地，技术人员将认识到来自不同的实施方案的各种特征的可互换性。虽然在某些实施方案和示例的上下文中已公开了这些技术和系统，但应当理解，这些技术和系统可以超出具体公开的实施方案而扩展到其他实施方案和/或其用途和明显修改。

Claims

1.一种用于预处理数据的计算机实现的方法，所述方法包括：

对于包括在多个数据集中的每个数据集，对所述数据集中包括的原始数据进行归一化，以生成所述数据集内的归一化后的数据；

对于包括在所述多个数据集中的每个数据集，基于记录基本数据集的原始数据的数据点的第一频率，聚合所述数据集内的所述归一化后的数据，以生成所述数据集内的聚合后的数据，所述聚合包括将其他数据集经过处理以调整其频率以匹配基本数据集的频率；以及

将包括聚合后的数据的所述多个数据集接合到所述基本数据集以生成接合后的数据集，

其中，将包括聚合后的数据的所述多个数据集接合到所述基本数据集包括：将一个或多个主键分配给包括聚合后的数据的所述多个数据集和所述基本数据集内的行，以及基于所述一个或多个主键来将包括聚合后的数据的所述多个数据集接合到所述基本数据集，其中主键是时间戳或与时间戳对应的生成值。

2.如权利要求1所述的方法，所述方法还包括：确定包括在所述多个数据集中的每个数据集中包括的所述原始数据具有与所述第一频率不同的记录原始数据的数据点的频率。

3.如权利要求1所述的方法，其中，对所述数据集中包括的所述原始数据进行归一化包括：确定用于所述数据集的缩放值，以及基于所述缩放值和偏移值来缩放所述数据集中包括的所述原始数据。

4.如权利要求3所述的方法，其中，通过从所述数据集中包括的最大数据值减去所述数据集中包括的最小数据值来确定所述数据集的所述缩放值。

5.如权利要求1所述的方法，所述方法还包括：对于包括在所述多个数据集中的每个数据集，通过对所述归一化后的数据进行上采样或下采样中的至少一者来对所述数据集内的所述归一化后的数据进行重采样。

6.如权利要求1所述的方法，其中，所述多个数据集包括多个数据库表格。

7.如权利要求1所述的方法，所述方法还包括：基于所述接合后的数据集来训练至少一个机器学习模型。

8.如权利要求1所述的方法，所述方法还包括：将包括具有与记录原始数据的数据点为所述第一频率相同频率的原始数据的至少一个其他数据集接合到所述基本数据集。

9.一种包括指令的非暂时性计算机可读存储介质，所述指令在由处理器执行时致使所述处理器执行用于预处理数据的步骤，所述步骤包括：

其中，将包括聚合后的数据的所述多个数据集接合到所述基本数据集包括：将一个或多个主键分配给包括聚合后的数据的所述多个数据集和所述基本数据集内的行，以及基于所述一个或多个主键来将包括聚合后的数据的所述多个数据集接合到所述基本数据集，其中主键包括时间戳或与时间戳对应的生成值。

10.如权利要求9所述的计算机可读存储介质，所述步骤还包括：对于包括在所述多个数据集中的每个数据集，对所述数据集内的所述归一化后的数据进行重采样。

11.如权利要求10所述的计算机可读存储介质，其中，所述重采样包括：对所述归一化后的数据进行上采样或下采样中的至少一者。

12.如权利要求9所述的计算机可读存储介质，所述步骤还包括：确定包括在所述多个数据集中的每个数据集中包括的所述原始数据具有与所述第一频率不同的记录原始数据的数据点的频率。

13.如权利要求9所述的计算机可读存储介质，其中，对所述数据集中包括的所述原始数据进行归一化包括：确定用于所述数据集的缩放值，以及基于所述缩放值和偏移值来缩放所述数据集中包括的所述原始数据。

14.如权利要求9所述的计算机可读存储介质，其中，所述多个数据集包括多个数据库表格。

15.如权利要求9所述的计算机可读存储介质，所述计算机可读存储介质还包括：基于所述接合后的数据集来训练至少一个机器学习模型。

16.如权利要求9所述的计算机可读存储介质，其中，包括在所述多个数据集中的每个数据集包括来自控制器区域网络(CAN)总线、事件数据记录器(EDR)、车载诊断信息、音响主机、信息娱乐系统、电子控制单元(ECU)或传感器中的至少一者的数据。

17.一种系统，所述系统包括：

存储器，所述存储器存储指令；以及

处理器，所述处理器耦接到所述存储器，并且当执行所述指令时，被配置为：

对于包括在多个数据集中的每个数据集，对所述数据集中包括的原始数据进行归一化，以生成所述数据集内的归一化后的数据，

对于包括在所述多个数据集中的每个数据集，基于记录基本数据集的原始数据的数据点的第一频率，聚合所述数据集内的所述归一化后的数据，以生成所述数据集内的聚合后的数据，其中，所述基本数据集不同于所述数据集，所述聚合包括将其他数据集经过处理以调整其频率以匹配基本数据集的频率，以及

18.如权利要求17所述的系统，其中，包括在所述多个数据集中的每个数据集包括由车辆上的相应传感器收集的数据。