CN116483916A

CN116483916A - 基于子段拆分的高频实时码流存储和数据同步检索系统

Info

Publication number: CN116483916A
Application number: CN202310110711.3A
Authority: CN
Inventors: 何亮; 李庆亮; 冯先旺; 陈振华; 牛学智; 魏明; 薛开创; 陶金钱
Original assignee: No63811 Unit Of Pla
Current assignee: No63811 Unit Of Pla
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2023-07-25
Anticipated expiration: 2043-02-14

Abstract

本发明公开了一种基于子段拆分的高频实时码流存储和数据同步检索系统，包括：数据接入，包括网络实时接收和事后文件导入两种渠道的接口；数据存储，将从数据接入得到的两种数据通过数据管理层存入数据存储层；数据检索，所述数据检索包括本地/远程命令行和Web接口两种数据获取方式；数据应用，通过数据检索的两种方式实现源码回溯、曲线补全和数据抽取分析。本发明实施例的基于子段拆分的高频实时码流存储和数据同步检索系统能够完成高帧率数据实时存储；具有高效的数据检索能力，满足数据的实时应用和事后分析需求，拓展了任务数据应用手段；设计了开放的访问接口和二次开发接口，数据共享性好，为数据积累沉淀和后续信息挖掘打下良好基础。

Description

基于子段拆分的高频实时码流存储和数据同步检索系统

技术领域

本发明属于数据更新技术领域，具体涉及一种基于子段拆分的高频实时码流存储和数据同步检索系统。

背景技术

在航空、航天、导弹工程等领域，控制中心收到的数据码流往往具有传输帧频高且数据规模较大的特点，在不影响数据准确性的前提下，对这样的数据进行实时存储和实时检索的难度极大，常用的数据库存取效率难以满足需求。现有的数据库中，二进制源码存储的文件写入性能高，但存储体制设计过于简单，不便于检索。而解算后MySQL数据库存储和MySQL内存表存储，这两种基于MySQL数据库的方案则受限于表设计、MySQL参数调优以及MySQL系统本身写入性能。三种方案各有优缺点，但都没有完全实现高帧率下的实时存储和检索。

目前，一般采取存储和检索相分离的策略。直接从网络中收包并解析数据用于显示；而存储数据则以文件或数据库的形式另作处理。这种策略在数据同步检索和过往数据展示等方面的应用受限。

为便于描述，本申请定义“热数据”、“温数据”和“冷数据”如下。“热数据”是指当前获取的最新数据。“温数据”是指自数据接收软件启动至当前时间内所接收到的过往数据。“冷数据”，是指历史上以往的数据，非本次任务数据。

目前，对于低帧频，数据实时性要求不高的应用领域，已经有成熟数据治理系统，无论对“热数据”的存储和检索，还是对“冷数据”的挖掘和应用，都有较好的方案。而对于高帧频、大规模数据量，且实时性要求较高的数据应用场景，能够同时满足“热数据”实时存储和读取，兼顾“冷数据”存储治理需求的系统还较少。当前相关系统在实际应用中，主要面临以下几个问题：一是以关注“热数据”为主，系统仅处理和显示当前最新数值，满足对当前最新数据的获取和展示需求，难以兼顾对“冷数据”的获取和展示需求；二是“温数据”应用不够灵活，“温数据”用于绘制数据曲线、对数据进行滤波处理等需要数据积累的应用场景。因此，有必要对“温数据”进行存储，而当前大多情况下的做法是将其暂存于计算机内存中，这样就难免存在数据冗余问题、内存溢出和数据丢失风险；三是“冷数据”的应用挖掘不足，导致实时辅助决策能力不够。

发明内容

为了解决上述问题，本发明的实施例提出一种基于子段拆分的高频实时码流存储和数据同步检索系统(PBase系统)。该系统能够实现高帧率数据实时存储、实时同步检索，并可用于事后数据检索。与成熟数据库产品相比，具有轻量级、高实时、方便移植等优势。在实时数据分析、任务数据显示、事后知识挖掘和支撑辅助决策等方面具有很大潜力。

本发明实施例提出一种基于子段拆分的高频实时码流存储和数据同步检索系统，包括：数据接入，包括网络实时接收和事后文件导入两种渠道的接口；数据存储，将从数据接入得到的两种数据通过数据管理层存入数据存储层；数据检索，对来自用户的搜索请求进行实时处理，查询检索数据存储层，检索相关内容，所述数据检索包括本地/远程命令行和Web接口两种数据获取方式；数据应用，通过数据检索的两种方式实现源码回溯、曲线补全和数据抽取分析。

本发明实施例的基于子段拆分的高频实时码流存储和数据同步检索系统，能够完成高帧率(大于590帧每秒,大于33357参数每秒)数据实时存储；具有高效的数据检索能力，满足数据的实时应用和事后分析需求，拓展了任务数据应用手段；设计了开放的访问接口和二次开发接口，数据共享性好，为数据积累沉淀和后续信息挖掘打下良好基础。

在一些实施例中，所述数据是包含多个完整子数据段的数据码流，所述数据码流的格式包括：数据帧头，用于存储数据帧的基本信息；数据域，用于存储具体的数据段，包含多个子数据段。

在一些实施例中，所述的数据采用文件形式进行存储，所述文件形式为“3+1”文件体系结构，“3”指的是三层文件结构，第一层为任务文件夹，第二层为子任务文件夹，第三层为数据表，数据表是二进制源码文件，用于存储数据域主体；“1”指的是数据表格式，是文本文件，用于存储子数据段的格式信息。

在一些实施例中，所述的数据帧头统一存储到帧头文件中，数据域中不同的子数据段分别存储到不同的数据文件中，子数据段用“表”表示。

在一些实施例中，所述“表”是数据的载体，是数据存储和检索的主体，“表”文件包括一个文件头、行索引和具体数据内容，行索引位于每行的开头。

在一些实施例中，所述文件头包括：表号；表长，为表的字节数；表总量，为文件中存储的总行数；参数量，为表中参数的个数；格式标志，为是否包含格式信息；参数偏移量，为该参数在表中的起始位置；类型，为参数类型。

在一些实施例中，所述行索引包括：表序号，是该行的唯一标识；帧序号，为该行数据在接收时所处的帧头索引。

在一些实施例中，所述帧头文件包括帧文件行索引和帧头，所述帧文件行索引的格式包括表个数、各表的表号和对应的表索引号。

在一些实施例中，所述数据表格式文件包含表号、格式名称、参数序号、参数名称、参数代码、参数数量、参数类型以及单位。

在一些实施例中，还包括一套指令集，用户通过命令行工具使用，或通过二次开发接口集成到应用程序中进行数据访问；同时设计了针对Web应用开发的Restfull接口，通过JSON数据将检索结果推送至前端。

附图说明

图1是本发明实施例的基于子段拆分的高频实时码流存储和数据同步检索系统(PBase)的系统构架图。

图2是本发明实施例的子数据段拆分存储过程。

图3是本发明实施例的表的存储结构。

图4是本发明实施例的表文件数据冗余率估算。

图5是本发明实施例的帧头的存储结构。

图6是本发明实施例的帧头文件数据冗余率估算。

图7是本发明实施例的Format示例-轨迹数据格式。

图8是本发明实施例的PBase检索33351行2列数据。

图9是本发明实施例的PBase检索33351行8列数据。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

如图1-图9所示，本发明实施例提出一种基于子段拆分的高频实时码流存储和数据同步检索系统(PBase系统)，包括：数据接入、数据存储、数据检索和数据应用。数据接入包括网络实时接收和事后文件导入两种渠道的接口，分别对应“热数据”和“冷数据”接口；数据存储是指将从数据接入得到的两种数据通过数据管理层存入数据存储层；数据检索对来自用户的搜索请求进行实时处理，查询检索数据存储层，检索相关内容，数据检索包括本地/远程命令行和Web接口两种数据获取方式；数据应用通过数据检索的两种方式实现应用层功能，如源码回溯、曲线补全(“温数据”绘制)和数据抽取分析等实时和事后运用。

本发明实施例的PBase系统设计了历史数据(即事后文件)导入和网络实时接收两种方式。前者针对历史数据管理，将可读性差的二进制源码文件导入PBase系统中，便于数据检索和分析。后者针对实时数据存储，满足数据实时应用需求。

PBase从网络实时接收数据时，可能要接受来自多个业务类型的数据帧，为了提高数据接收存储效率，引入“通道”概念，一个“通道”负责接收一个对应的业务类型，系统为不同的通道启动相应的子进程，从而实现并行任务数据存储。对于特定通道，支持多组播接收。

本发明实施例的数据存储和检索方法针对的是包含多个完整子数据段的数据码流，数据码流的格式包括：数据帧头和数据域。数据帧头用于存储数据帧的基本信息，如信源、信宿标志、数据发送时间等；数据域用于存储具体的数据段，如表1所示，表1中的“多”是指数据域包含多个子数据段，不同数据帧之间的子数据段个数和字段类型可不同；“完整”是指子数据段需打包约定格式的全部参数。子数据段内可打包不同类型的数据，包括但不限于表2所示，子数据段的具体格式没有要求。

表1多完整数据段格式

表2数据类型(部分)

本发明实施例的数据采用文件形式进行存储，可以根据业务实际，设计不同层级的文件结构对数据进行存储。

本发明实施例采用的文件形式为“3+1”文件体系结构，“3”指的是三层文件结构，第一层为任务(Mission)文件夹，第二层为子任务(Submission)文件夹，第三层为数据表(Table)，数据表是二进制源码文件，用于存储数据域主体；“1”指的是数据表格式(Foramt)，它是文本文件，用于存储子数据段的格式信息。

本发明实施例的基于子段拆分的高频实时码流存储和数据同步检索系统的数据存储充分运用多完整数据段的数据码流格式特点，把数据帧的帧头统一存储到帧头文件中，数据域中不同的子数据段分别存储到不同的数据文件中，子段拆分存储过程如图2所示。

将存入数据文件的子数据段看作是“一行”；当不同数据帧的相同子数据段写进同一文件时，由于相同子数据段是等长的，某一具体数据就成为文件中的某“一列”，由此就产生了一个“数据矩阵”。“数据矩阵”是规则“形状”，通过“行”和“列”能够轻松定位到具体数据，从而达到数据高效检索的目的。因为“数据矩阵”像一张“表”，因此我们用“表”来表示子数据段，即不同的“表”表示不同的子数据段。

数据“表”是数据的载体，是数据存储和检索的主体。为便于高效检索表内数据，为“表”文件设计了存储格式，如图3所示，以表A为例，其表文件包括一个文件头，每行开头包括一个行索引，接着才是表An的具体数据内容。

其中，文件头信息如表3所示，表号(TableNo)为表号；表长(TableBytes)为表的字节数；表总量(TableCount)为文件中存储的总行数；参数量(ParaCount)为表中参数的个数；格式标志(HasFormat)为是否包含格式信息；参数偏移量(Offset)为该参数在表中的起始位置；类型(Type)为参数类型。

表3表文件头信息

行索引非常简洁，只有两个字段，分别为：表序号和帧序号。表序号(TableIndex，4Bytes)是该行的唯一标识；帧序号(HeaderIndex，4Bytes)为该行数据在接收时所处的帧头索引，它相当于关系数据库中的外键，通过它可以从帧头文件中检索到对应的帧头信息。

表文件头中包含了数据格式信息，因此表文件是具备自解析能力的，不用依赖额外的格式文件就可以检索到表内任意参数值。参数P在文件中第n行的位置为：

Pos(n,m)＝sizeof(H_f)+sizeof(H_r)*n+sizeof(H_t)*(n-1)+offset_m (1)

式(1)中，sizeof(H_f)、sizeof(H_r)、sizeof(H_t)分别为文件头长度、行索引长度和表长度，均为常数；offset_m为参数偏移，从文件头中读取，也为常数。因此特定参数值位置只跟行号相关，能够直接定位并读取。

数据存储的冗余率，指存储的非数据域部分(如文件头、索引)与所有存储信息(包括数据和非数据部分)所占的空间比之比，计算本文上述数据存储的冗余率Rate为：

式(2)中：M为该表的参数个数(ParaCount)，N为行数(TableCount)。为了估算参数冗余，根据实际数据情况，假设所有参数均为Double_8类型，长度8字节，即sizeof(H_t)＝8M，则在不同参数个数M情况下，数据行数N与冗余率Rate的关系如图4所示。存储行数30以上冗余率趋于稳定，10参数的表冗余率小于10％，50参数的表冗余率小于2％，数据冗余率总体较小。

如果将帧头信息和数据信息都存储在一起，即表文件中，则势必造成表文件中数据存储冗余增多，为确保数据存储冗余率控制可接受范围内，同时便于数据回放，将帧头单独存储于帧头文件中。帧头的存储如图5所示。

帧头文件包括帧文件行索引和帧头，其中帧文件行索引的格式如表4所示。帧文件行索引的格式包含的信息有：该帧数据中包含的表个数(TableCount)，以及各表的表号(tableNo_n)和对应的表索引号(table_n_Index)。根据这样的行索引到相应的表文件中检索，即可对帧进行重组恢复，用于数据回放。

表4帧文件行索引信息

从帧头存储结构可以看到，由于不同数据帧表的数量是不同的，因此帧文件行索引的长度是不定的。帧头文件数据冗余率如下：

其中，M_i为第i帧包含的表个数。为估算冗余率，假设所有帧包含的表个数相同为M，则：

Rate(n)＝(6+4M)n/[(38+4M)n+4] (4)

不同表个数M情况下，帧头文件数据冗余率如图6所示。可以看到，表个数为1时，冗余率最小，约23％；表个数为50时，冗余率高达86％。实际任务数据M不为常数。

PBase“3+1”文件体系存储架构中，数据表格式文件(Format格式文件)用于明确参数数量、每个参数的数据类型、参数名称、参数代码等格式信息。Format的具体作用在于两个方面：一是在数据存储过程中，构建表文件头时，需要通过Format文件查询参数数量、参数类型信息；二是在数据检索过程中，用于明确参数的具体含义，毕竟数据文件中未保存诸如参数名称等信息。

Format为文本文件，每个表号对应一个format文件，其依据来源于数据格式约定。图7是表A的Format文件示例，包含表号(文件名中，假设为5009)、格式名称、参数序号、参数名称、参数代码、参数类型以及单位。

为方便快速便捷的检索，本发明实施例的PBase系统还设计了一套丰富的PBase指令集，见表5。用户可通过命令行工具使用，也可以通过二次开发接口集成到应用程序中进行数据访问。同时设计了针对Web应用开发的Restfull接口，通过JSON数据将检索结果推送至前端，见表6。

表5PBase指令集

表6PBase Web接口(http://ip:port/pbase)

本发明实施例的PBase能够高效查看数据帧的时间信息、重组数据帧源码、检索特定表中的特定参数，因此能够快速定位异常数据或排除故障的数据因素。

PBase实时存储任务数据，并且提供高效的检索能力，无论是何时打开软件，均能将数据补全，软件也不必将所有页面加载到内存中，运行内存大大降低，稳定性和可靠性大幅提升，并且能随时查看任意参数的演进趋势。

PBase的高效数据检索能力完美满足该需求。不但可以通过编程获取数据，还能将数据抽取到指定文件(query into file)，满足数据分析需求。

实施例

将7次历史任务数据导入PBase，导入耗时情况如表7所示。不同任务数据大小不同，导入耗时不尽相同，但数据导入耗时与数据运行时长相比相当小。由此可见，PBase能够胜任实时任务场景下数据存储需求。

表7PBase数据导入性能

由表7可见，PBase与当前使用的存储方式，存储空间占用相当。PBase数据冗余主要体现在帧头文件存储方案，在此对7次历史任务的帧头文件数据冗余分析如所表8示。“冗余率”和“理论大小”根据公式(4)在“假设表数为5”的情况下计算所得。平均表数为根据“实际大小”和“实际冗余率”运用公式(4)反推，对于特定任务的平均表数。可以看到不同任务的表头文件数据冗余率不同，最大冗余率为45％，最小冗余率为34％，但由于表头文件本身较小，因此最终文件体量可接受。

表8历史任务帧头文件数据冗余度计算

对某任务数据进行查询的情况如图8、图9所示。该任务5009表有33351行，对该表的8列数据一次性检索耗时为768毫秒，性能满足数据抽取业务场景。对该表的2列数据进行检索耗时143毫秒，性能能够应对大多数情况下的实时补线和数据演进趋势的实时查看。

除了命令行PBase还能应用于Web端、桌面端和移动端。

基于Web的数据检索是对数据检索功能的Restfull封装和浏览器呈现。通过前端交互设计，提供了友好的数据浏览用户交互。通过二次开发能将数据检索功能融入用户个性化桌面应用。

移动平台数据显示系统运用PBase的实时数据存储和检索能力，实现了实时曲线补全和参数趋势查看等功能。

在本发明中，术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管已经示出和描述了上述实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域普通技术人员对上述实施例进行的变化、修改、替换和变型均在本发明的保护范围内。

Claims

1.一种基于子段拆分的高频实时码流存储和数据同步检索系统，其特征在于，包括：

数据接入，包括网络实时接收和事后文件导入两种渠道的接口；

数据存储，将从数据接入得到的两种数据通过数据管理层存入数据存储层；

数据检索，对来自用户的搜索请求进行实时处理，查询检索数据存储层，检索相关内容，所述数据检索包括本地/远程命令行和Web接口两种数据获取方式；

数据应用，通过数据检索的两种方式实现源码回溯、曲线补全和数据抽取分析。

2.根据权利要求1所述的基于子段拆分的高频实时码流存储和数据同步检索系统，其特征在于，所述数据是包含多个完整子数据段的数据码流，所述数据码流的格式包括：

数据帧头，用于存储数据帧的基本信息；

数据域，用于存储具体的数据段，包含多个子数据段。

3.根据权利要求2所述的基于子段拆分的高频实时码流存储和数据同步检索系统，其特征在于，所述的数据采用文件形式进行存储，所述文件形式为“3+1”文件体系结构，“3”指的是三层文件结构，第一层为任务文件夹，第二层为子任务文件夹，第三层为数据表，数据表是二进制源码文件，用于存储数据域主体；“1”指的是数据表格式，是文本文件，用于存储子数据段的格式信息。

4.根据权利要求2所述的基于子段拆分的高频实时码流存储和数据同步检索系统，其特征在于，所述的数据帧头统一存储到帧头文件中，数据域中不同的子数据段分别存储到不同的数据文件中，子数据段用“表”表示。

5.根据权利要求4所述的基于子段拆分的高频实时码流存储和数据同步检索系统，其特征在于，所述“表”是数据的载体，是数据存储和检索的主体，“表”文件包括一个文件头、行索引和具体数据内容，行索引位于每行的开头。

6.根据权利要求5所述的基于子段拆分的高频实时码流存储和数据同步检索系统，其特征在于，所述文件头包括：

表号；

表长，为表的字节数；

表总量，为文件中存储的总行数；

参数量，为表中参数的个数；

格式标志，为是否包含格式信息；

参数偏移量，为该参数在表中的起始位置；

类型，为参数类型。

7.根据权利要求5所述的基于子段拆分的高频实时码流存储和数据同步检索系统，其特征在于，所述行索引包括：

表序号，是该行的唯一标识；

帧序号，为该行数据在接收时所处的帧头索引。

8.根据权利要求4所述的基于子段拆分的高频实时码流存储和数据同步检索系统，其特征在于，所述帧头文件包括帧文件行索引和帧头，所述帧文件行索引的格式包括表个数、各表的表号和对应的表索引号。

9.根据权利要求3所述的基于子段拆分的高频实时码流存储和数据同步检索系统，其特征在于，所述数据表格式文件包含表号、格式名称、参数序号、参数名称、参数代码、参数数量、参数类型以及单位。

10.根据权利要求1所述的基于子段拆分的高频实时码流存储和数据同步检索系统，其特征在于，还包括一套指令集，用户通过命令行工具使用，或通过二次开发接口集成到应用程序中进行数据访问；同时设计了针对Web应用开发的Restfull接口，通过JSON数据将检索结果推送至前端。