CN112306421B

CN112306421B - 一种用于存储分析测量数据格式mdf文件的方法和系统

Info

Publication number: CN112306421B
Application number: CN202011312910.5A
Authority: CN
Inventors: 胡庆刚; 李宗阳; 李康
Original assignee: Kunyi Electronic Technology Shanghai Co Ltd
Current assignee: Kunyi Electronic Technology Shanghai Co Ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-04-30
Anticipated expiration: 2040-11-20
Also published as: CN112306421A

Abstract

本发明提供了一种用于存储分析测量数据格式MDF文件的方法和系统。方法包括：采集并上传MDF数据文件；对所采集的MDF数据文件进行排序；从所述经排序的MDF数据文件中提取元数据并存储所提取出的元数据；将所述经排序的MDF数据文件中的各条记录的电信号值转换成物理值；生成自解析的列式存储格式文件并将所生成的列式存储格式文件存储在分布式存储系统中；以及利用分布式计算系统对所存储的列式存储格式文件进行计算。

Description

一种用于存储分析测量数据格式MDF文件的方法和系统

技术领域

本发明涉及数据存储和分析领域，更具体地，涉及用于存储分析测量数据格式MDF文件的方法和系统。

背景技术

MDF文件是用来记录数据的一种文件格式，主要特点是同数据量的情况下占用空间更小。目前已有存储和分析方案是把MDF文件解析存入分布式数据库(例如，MySQL)，再通过SQL语句进行查询和分析。然而，这一解决方案有以下问题：

(1)需要提前知道所需存储的数据的数据结构；

(2)存储的扩容、备份异常复杂；

(3)过多地依赖于数据库，无法在不连接数据库的情况下读取数据；

(4)数据的移动困难；

(5)数据所占存储空间比原始数据增加，分析查询的效率受限于数据库的处理能力；

(6)数据库集群的扩展、运维复杂度加大，数据可靠性差；以及

(7)为了保证数据库的处理能力，可采用小型或大型机，从而导致系统构建成本高。

此外，由于关系型数据库通常使用行式存储，在查询时需要扫描全部的数据，效率较低。因此，为了改善MDF数据存储空间占用率、文件存储可靠性、数据查询分析处理能力、集群扩展能力、降低集群运维和构建成本，希望提供一种改进的MDF数据文件存储分析方法。

发明内容

提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

根据本发明的一个方面，提供了一种用于存储分析测量数据格式MDF文件的方法，所述方法包括：

采集并上传MDF数据文件；

对所采集的MDF数据文件进行排序；

从所述经排序的MDF数据文件中提取元数据并存储所提取出的元数据；

将所述经排序的MDF数据文件中的各条记录的电信号值转换成物理值；

生成自解析的列式存储格式文件并将所生成的列式存储格式文件存储在分布式存储系统中；以及

利用分布式计算系统对所存储的列式存储格式文件进行计算。

根据本发明的一个实施例，所述对所采集的MDF数据文件进行排序包括对所采集的MDF数据文件中的各条记录按时间戳进行排序。

根据本发明的进一步实施例，所述将电信号值转换成物理值包括根据从车辆的电子控制单元ECU获取的转换公式来将所述MDF数据文件中的电信号值转换成物理值。

根据本发明的进一步实施例，所述列式存储格式文件是ORC格式文件或Parquet格式文件。

根据本发明的进一步实施例，所述分布式存储系统是以下中的一者：阿里云对象存储服务OSS、hadoop分布式文件系统HDFS或亚马逊简单云存储服务S3。

根据本发明的进一步实施例，所述分布式计算系统是集群计算平台spark或mapreduce2。

根据本发明的另一方面，提供了一种用于存储分析测量数据格式MDF文件的系统，所述系统包括：

数据采集器，用于采集并上传MDF数据文件；

数据处理平台，用于对所采集的MDF数据文件进行排序；

数据解析器，所述数据解析器被配置成：

从所述经排序的MDF数据文件中提取元数据；

将所述经排序的MDF数据文件中的各条记录的电信号值转换成物理值；以及

生成自解析的列式存储格式文件；

数据库，用于存储所提取出的元数据；

分布式文件存储系统，用于存储所生成的列式存储格式文件；以及

分布式文件计算系统，用于对所存储的列式存储格式文件进行计算。

根据本发明的一个实施例，所述数据库是关系型数据库或文本检索数据库。

根据本发明的进一步实施例，所述对所采集的MDF数据文件进行排序包括对所采集的MDF数据文件中的各条记录按时间戳进行排序。

与现有技术中的方案相比，本发明所提供的数据文件存储分析系统和方法通过引入分布式存储和分布式计算而至少具有以下优点：

(1)存储时不需要提前知道数据结构；

(2)存储扩容方便，通过副本的机制保证的数据的高可用性；

(3)数据能方便的移动；

(4)减少了数据存储占用空间；以及

(5)存储的文件是自解析的列式存储格式文件，文件数据区的数据结构已经在文件中存储，解析文件不需要依赖于外部系统。此外，相对于关系数据库中通常使用的行式存储，在使用列式存储时每一列的所有元素都是顺序存储的。由此可以给查询带来如下的优化：

(1)查询的时候不需要扫描全部的数据，而只需要读取每次查询涉及的列，这样可以将I/O消耗降低N倍，另外可以保存每一列的统计信息(min、max、sum等)，实现部分的谓词下推。

(2)由于每一列的成员都是同构的，可以针对不同的数据类型使用更高效的数据压缩算法，进一步减小I/O。

(3)由于每一列的成员的同构性，可以使用更加适合CPU流水线的编码方式，减小CPU的缓存失效。

通过阅读下面的详细描述并参考相关联的附图，这些及其他特点和优点将变得显而易见。应该理解，前面的概括说明和下面的详细描述只是说明性的，不会对所要求保护的各方面形成限制。

附图说明

为了能详细地理解本发明的上述特征所用的方式，可以参照各实施例来对以上简要概述的内容进行更具体的描述，其中一些方面在附图中示出。然而应该注意，附图仅示出了本发明的某些典型方面，故不应被认为限定其范围，因为该描述可以允许有其它等同有效的方面。

图1是根据本发明的一个实施例的用于存储分析MDF文件的系统的示例架构图。

图2是根据本发明的一个实施例的包括具有不同布局的两条记录的DT块的示例。

图3是根据本发明的一个实施例的未经排序的MDF数据文件的层次结构的示例。

图4是根据本发明的一个实施例的经排序的MDF数据文件的层次结构的示例。

图5是根据本发明的一个实施例的Parquet列式存储文件结构的示例。

图6是根据本发明的一个实施例的hadoop分布式文件系统架构的示例。

图7是根据本发明的一个实施例的spark分布式计算框架的示例。

图8是根据本发明的一个实施例的用于存储分析MDF文件的方法的流程图。

具体实施方式

下面结合附图详细描述本发明，本发明的特点将在以下的具体描述中得到进一步的显现。

图1是根据本发明的一个实施例的用于存储分析MDF文件的系统100的示例架构图。如图1中所示，本发明的系统100包括：数据采集器101、数据处理平台102、数据解析器103、数据库104、分布式文件存储系统105和分布式文件计算系统106。

数据采集器101用于采集MDF数据文件并将所采集的数据文件上传到数据处理平台，其中所采集的MDF数据文件是无序混乱的。在此，测量数据格式(MDF)是一种由ASAM(自动化及测量系统标准协会)定义的用于记录和传输测量数据的专用标准格式，原始测量数据和用于解读原始测量数据的元数据被存储在此类MDF文件中。MDF文件通常由9个必须块和2个非必须块组成，其中9个必须块分别为文件标识(ID)块、头信息(HD)块、文本(TX)块、数据组(DG)块、数据(DT)块、通道组(CG)块、通道(CN)块、通道转换(CC)块、通道扩展(CE)块，2个非必须块分别为程序(PR)块和触发(TR)块。图3示出了MDF数据文件的层次结构300的示例，其中数据块中的每条数据是无序存储的。MDF数据文件以64字节长的ID块开始，其主要目的是将数据文件标识为MDF文件并且指定MDF版本。ID块指向包含对该MDF文件的一般描述的HD块，HD块可被看作是MDF结构的“根”，因为其指向DG块的开始。每个DG块指向DT块和CG块，其中包含原始测量数据的一条或多条记录被存储在一个或多个DT块中，其中每条记录的布局是由与该记录相关联的CG块以及下一级别的CN块来定义的。为简单起见，在图3中仅示出了一个DT块，该DT块的具体结构200由图2示出。该DT块包括具有不同布局的两条记录，其中每条记录包含被同时获取或采样的信号值(即，每条记录中的所有信号值具有相同的时间戳)，每条记录以记录ID开始，该记录ID将该条记录与当前数据组中的通道组之一相关联。在该示例中，第一记录包括记录ID(ID 1)、时间(t1)和信号值(A)，第二记录包括记录ID(ID 2)、时间(t2)和信号值(B、C)。应注意，DT块不具有链接部分(即，链接计数为0)，并且数据部分中的各条记录必须无间隙地被存储。针对ID 1的记录布局由一个通道组描述，而针对ID 2的记录布局由另一通道组描述，这两个通道组均为该DT块的父数据组的子通道组。

数据处理平台102用于对所采集的MDF数据文件进行排序。数据处理平台可以例如是云端的数据处理系统。作为一个示例，图4示出了将图3所示的MDF数据文件排序之后的MDF数据文件的层次结构400。由于未经排序的数据组的数据块包含具有不同布局(记录ID)的记录以及可能不同的长度，因此搜索并读取其中某条记录是非常不方便的，因为必须要从数据块的开始读取所有记录，直到找到所需记录为止。因此，首先对MDF数据文件进行排序是有利的。对MDF数据文件进行排序是一种无损转换，其中未经排序的数据组中的各条记录被分开并且被存储在与每个记录ID相对应的数据块中，未经排序的数据组中的通道组也因此被分开，使得每个通道组具有其自己的父数据组。例如，图3的DT块中的两条记录被分开并且被存储在图4的相应的DT块中，描述这两条记录的布局的CG块也因此被分开，使得每个CG块具有其自己的父DG块，由此实现了按时间戳对图3的MDF数据文件中的每条数据进行排序。

数据解析器103用于接收经排序的MDF数据文件，提取出元数据，将该MDF数据文件中的各条记录的电信号值转换成物理值，并且生成自解析的列式存储格式文件。可以例如根据从车辆的电子控制单元(ECU)获取的转换公式来将MDF数据文件中的电信号值转换成物理值。列式存储格式可以是例如Apache ORC格式或Apache Parquet格式。ApacheParquet是Hadoop生态圈中一种新型列式存储格式，它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等)，被多种查询引擎(Hive、Impala、Drill等)支持，并且它是语言和平台无关的。由于在查询时大多数都只使用部分列来进行过滤、聚合，对少数列进行计算，因此使用列式存储格式是有利的。在图5中示出了Parquet列式存储文件结构500的示例。在Parquet文件中可存储多个行组(RowGroup)，其中每个行组包含这个行组对应的区间内的所有列的列块(Column Chunk)，每个列块被划分为多个页(Page)，页是压缩和编码的单元。在Parquet文件中存在三种类型的页：数据页、字典页和索引页。数据页用于存储当前行组中该列的值，字典页存储该列值的编码字典，每一个列块中最多包含一个字典页，索引页用来存储当前行组下该列的索引。通过对Parquet文件中的每一个行组的每一个列块在存储时计算对应的统计信息(包括该列块的最大值、最小值和空值个数)来实现更有效的谓词下推。经过这样的处理所生成的文件大小比原始MDF文件大小减小40％至60％，例如从100M减小到60M或40M。

数据库104用于存储所提取出的元数据，分布式文件存储系统105用于存储所生成的列式存储格式文件，并且随后由分布式文件计算系统106根据业务要求来对数据进行计算。数据库104可以是例如关系型数据库(例如，MySQL)或文本检索数据库(例如，elasticsearch)。作为一个示例，当所提取的元数据量很大时，利用文本检索数据库来存储元数据是有利的，因为其可以在UI界面上展示mdf的列。分布式文件存储系统105可以是例如阿里云对象存储服务(OSS)、hadoop分布式文件系统(HDFS)或亚马逊简单云存储服务(S3)。分布式文件计算系统106可以是例如集群计算平台(spark)或mapreduce2(其主要思想是映射(map)和规约(reduce))。例如，图6示出了hadoop分布式文件系统的架构600，其包括客户端(Client)、名字节点(NameNode)和数据节点(DataNode)，其中客户端负责发送读写请求，缓存文件元数据和文件数据，名字节点负责管理元数据和处理客户端的请求，是整个系统的核心组件，数据节点负责存放文件数据，保证数据的可用性和完整性。图7示出了spark分布式计算框架700的示例，其核心组件包括驱动器程序(Driver Program)、集群管理器(Cluster Manager)、工人节点(Worker Node)以及任务(Task)，其中驱动器程序负责创建SparkContext并运行main()函数，集群管理器负责控制整个集群并监控工人节点，工人节点负责控制计算节点，任务负责处理若干弹性分布式数据集(RDD)分区的计算逻辑。

本领域技术人员能够理解，本发明的系统及其各模块既可以以硬件形式实现，也可以以软件形式实现，并且各模块可以任意合适的方式合并或组合。

图8是根据本发明的一个实施例的用于存储分析MDF文件的方法800的流程图。方法开始于步骤801，数据采集器101采集MDF数据文件并将所采集的MDF数据文件上传到数据处理平台102。

步骤802，数据处理平台102对所采集的MDF数据文件进行排序，该排序是按MDF数据文件中各条记录的时间戳进行的。

步骤803，数据解析器103从经排序的MDF数据文件中提取元数据，并将所提取出元数据存储在数据库104中。

步骤804，数据解析器103将经排序的MDF数据文件中的各条记录的电信号值转换成物理值，其中该转换是利用从车辆的电子控制单元(ECU)获取的转换公式来进行的。

步骤805，数据解析器103生成自解析的列式存储格式文件，并且将所生成的列式存储格式文件存储在分布式文件存储系统105中。

步骤806，分布式文件计算系统106根据业务要求来对分布式文件存储系统105中所存储的数据文件进行计算。

以上所已经描述的内容包括所要求保护主题的各方面的示例。当然，出于描绘所要求保护主题的目的而描述每一个可以想到的组件或方法的组合是不可能的，但本领域内的普通技术人员应该认识到，所要求保护主题的许多进一步的组合和排列都是可能的。从而，所公开的主题旨在涵盖落入所附权利要求书的精神和范围内的所有这样的变更、修改和变化。

Claims

1.一种用于存储分析测量数据格式MDF文件的方法，所述方法包括：

采集并上传MDF数据文件；

对所采集的MDF数据文件进行排序；

从经排序的MDF数据文件中提取元数据并存储所提取出的元数据；

将经排序的MDF数据文件中的各条记录的电信号值转换成物理值；

2.如权利要求1所述的方法，其特征在于，所述对所采集的MDF数据文件进行排序包括对所采集的MDF数据文件中的各条记录按时间戳进行排序。

3.如权利要求1所述的方法，其特征在于，将电信号值转换成物理值包括根据从车辆的电子控制单元ECU获取的转换公式来将所述MDF数据文件中的电信号值转换成物理值。

4.如权利要求1所述的方法，其特征在于，所述列式存储格式文件是ORC格式文件或Parquet格式文件。

5.如权利要求1所述的方法，其特征在于，所述分布式存储系统是以下中的一者：阿里云对象存储服务OSS、hadoop分布式文件系统HDFS或亚马逊简单云存储服务S3。

6.如权利要求1所述的方法，其特征在于，所述分布式计算系统是集群计算平台spark或mapreduce2。

7.一种用于存储分析测量数据格式MDF文件的系统，所述系统包括：

数据采集器，用于采集并上传MDF数据文件；

数据处理平台，用于对所采集的MDF数据文件进行排序；

数据解析器，所述数据解析器被配置成：

从经排序的MDF数据文件中提取元数据；

将经排序的MDF数据文件中的各条记录的电信号值转换成物理值；以及

生成自解析的列式存储格式文件；

数据库，用于存储所提取出的元数据；

8.如权利要求7所述的系统，其特征在于，所述数据库是关系型数据库或文本检索数据库。

9.如权利要求7所述的系统，其特征在于，所述对所采集的MDF数据文件进行排序包括对所采集的MDF数据文件中的各条记录按时间戳进行排序。

10.如权利要求7所述的系统，其特征在于，将电信号值转换成物理值包括根据从车辆的电子控制单元ECU获取的转换公式来将所述MDF数据文件中的电信号值转换成物理值。