CN113239105A

CN113239105A - 一种野外科学观测数据表头表尾自动检测入库的方法

Info

Publication number: CN113239105A
Application number: CN202110559497.0A
Authority: CN
Inventors: 魏守峰; 包亮; 余慧明
Original assignee: Wuhan Yige Space Technology Co ltd
Current assignee: Wuhan Yige Space Technology Co ltd
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2021-08-10
Anticipated expiration: 2041-05-21
Also published as: CN113239105B

Abstract

本发明公开了一种野外科学观测数据表头表尾自动检测入库的方法，它涉及软件技术领域。其步骤为：野外科学观测数据表头表尾分隔符在线快速自动检测；海量野外科学观测数据记录实体在线快速整合与入库；野外科学观测数据治理与多模式可视化。本发明实现自动检测观测数据表头表尾、自动提取数据记录实体及海量观测数据快速整合入库，具有自动检测表头表尾、支持海量表格快速入库的优势，满足野外科学观测数据表头表尾自动检测、数据实体自动提取与快速入库、多样化展示等需求，应用前景广阔。

Description

一种野外科学观测数据表头表尾自动检测入库的方法

技术领域

本发明涉及的是软件技术领域，具体涉及一种野外科学观测数据表头表尾自动检测入库的方法。

背景技术

科学数据作为科技创新、经济发展和相关决策活动不可或缺的科技资源，被公认为继物质和能量之后的第三类资源，是国家重要的战略资源。在大数据时代，对海量科学数据的全面掌握和深入挖掘分析正是当前许多前沿科学领域研究取得重大发现和突破的关键依托基础。随着我国野外科学观测事业的快速发展，野外科学观测数据有力支撑了我国地球系统科学、气象水文、环境保护和生态文明等建设。

野外科学观测数据的海量持续增长，对野外科学观测数据的接收、提取、保存、分析和应用提出了更高的要求。野外科学观测数据具有持续时间长、类型多样、海量快速增长等特点。其原始获取的数据主要存储形式是Excel格式、csv格式和txt格式等文本型表格数据。其中，Excel是非常流行的表格数据计算机处理工具，操作简单，支持通过函数进行处理，是一种应用广泛、能够很好提升工作效率的表格数据处理工具。

然而，随着互联网的发展，传统的以Excel为代表的个人计算机表格型数据处理工具难以完全满足人们对野外科学观测数据日益增长的多样化、在线化之处理需求，诸如野外科学观测数据处理时遇到的表头表尾如何自动检测、海量数据如何规范整合与快速整合入库等难点一直困扰着人们。

现有野外科学观测数据的原始数据结构如图1所示，其合并入库处理流程如图2，常见的野外科学观测数据表头表尾提取技术方面，需要人为事先分析判断数据构成特点、表头表尾所在位置、分隔符等信息，再针对每类表格数据开发特定的数据读取程序，甚至是手工处理表头表尾等内容。在野外科学观测数据入库方面，需要人为分析判断字段名称、字段类型，海量数据入库处理效率很低。具体地，现有的野外科学观测数据表头表尾、记录实体提取与海量数据入库展示技术主要存在以下问题：

(1)表头表尾所在位置及分隔符难以在线自动检测。在进行多个野外科学观测数据文件合并、关联处理及关联查询等操作时，首先需要判断多个数据文件各自的表头、表尾、记录行与分隔符等信息。目前通常由作业人员人工判断各个表格数据的表头、表尾、记录行与分隔符等信息，再通过人工或编程方式提取记录内容并进行后续之合并、关联处理及关联查询等操作。这种基于人工分析的编程或手工提取表头表尾的方法，存在手工处理易出错、编写的程序适用性差、遇到新的数据结构需要重新编程、处理费时费力等问题。

(2)海量野外科学观测数据难以在线快速整合入库。随着数字时代的到来，如今人们需要处理的野外科学观测数据的数据量呈几何级数增长，有的长时间序列观测数据可达到上千万甚至上亿条记录。Excel由于基于文件的设计思路，无法达到数据库系统的性能，在处理大量数据时常常会遇到严重的问题。比如，Excel表格一旦读取超过上百万条的记录时就会非常缓慢，此时若要进行函数操作则会使电脑罢工，更无法开展更深层次的数据分析操作。

为了解决野外科学观测数据提取处理应用中的诸多痛点难点，且目前业内还没有一种针对野外科学观测数据表头表尾自动检测的方法和平台，开发一种野外科学观测数据表头表尾自动检测入库的方法尤为必要。

发明内容

针对现有技术上存在的不足，本发明目的是在于提供一种野外科学观测数据表头表尾自动检测入库的方法，实现自动检测观测数据表头表尾、自动提取数据记录实体及海量观测数据快速整合入库，具有自动检测表头表尾、支持海量表格快速入库的优势，满足野外科学观测数据表头表尾自动检测、数据实体自动提取与快速入库、多样化展示等需求，易于推广使用。

为了实现上述目的，本发明是通过如下的技术方案来实现：一种野外科学观测数据表头表尾自动检测入库的方法，其步骤为：

(1)野外科学观测数据表头表尾分隔符在线快速自动检测：首先构建小于等于十行的野外科学观测数据中所含特殊字符的数组，对数组进行循环遍历，找到出现次数最多之特殊字符，即自动将之确定为分隔符；基于首次出现和末次出现该分隔符所在之记录行数，即自动将之确定为野外科学观测数据之表头表尾；

(2)海量野外科学观测数据记录实体在线快速整合与入库：根据表头信息确定野外科学观测数据之字段名、字段类型，结合表头表尾位置信息，提取野外科学观测数据全部记录实体，并基于分布式存储与分布式计算技术实现海量野外科学观测数据记录实体快速整合与入库；

(3)野外科学观测数据治理与多模式可视化：研发数据质量检查、数据转换、数据提取、数据分析功能，实现野外科学观测数据规范化治理，在此基础上，将野外科学观测数据与空间数据相关联，研发野外科学观测数据地图可视化之方法，实现集文本可视化、图表可视化与地图可视化于一体的野外科学观测数据在线多模式融合展示。

作为优选，所述的步骤(1)野外科学观测数据表头表尾分隔符在线快速自动检测的流程为：

①首先读取科学观测数据首行，若数据首行不包含“，”“\t”“|”“空格”特殊字符，则继续移动到下一行进行判断，直到找到特殊字符存在的行为止；先假定此行为表头所在行，从此行开始进行特殊字符之判断；

②判断此行存在的上述列表中的特殊字符并将其存入数组中，继续移动到下一行进行判断并同样将结果存入数组中，继续向下总共找到10行特殊字符并存入数组，即最终数组的长度小于等于10；

③对数组进行循环遍历，找到出现次数最多之特殊字符，即可自动将之确定为分隔符；

④若存在两个或多个分隔符出现的次数一样多之情形，则按照“，”“\t”“|”“空格”之顺序进行判断，即判断个数相同之分隔符在上述列表中哪一个先出现即将之确定为最终之分隔符；

⑤找到在数组中首次出现此分隔符之索引号，并将此值加上第一步中记录的假定表头所在行之行数，即可自动将之确定为真正的表头所在行之行数；

⑥继续从野外科学观测数据文件末尾一行开始判断，若不存在已经找到的分隔符，则继续对倒数第二行进行判断，直到找到前述的分隔符为止，则可认为当前行之后的行均为表尾，不属于表格中记录实体之内容。

作为优选，所述的步骤(2)中海量野外科学观测数据在线快速整合与入库的流程为：

①提取表头表尾之间内容，根据表头信息确定野外科学观测数据之字段名、字段类型；

②结合表头表尾位置信息，提取野外科学观测数据全部记录实体；

③判断多个数据文件表头是否一致，若表头不一致，进行表头一致性处理；

④基于分布式存储与分布式计算技术，实现海量野外科学观测数据记录实体在线快速整合与入库。

作为优选，所述的步骤(3)中野外科学观测数据规范化治理与多模式可视化的流程为：

①研发野外科学观测数据文本可视化功能模块，实现野外科学观测数据记录实体元数据查看、数据信息统计分析等详情查看功能；

②研发数据质量检查、数据转换、数据提取、数据分析等功能模块，实现野外科学观测数据规范化治理；

③将野外科学观测数据与空间数据相关联，研发野外科学观测数据地图可视化的方法，实现集文本可视化、图表可视化与地图可视化于一体的野外科学观测数据多模式在线融合展示。

本发明的有益效果：本发明提出的野外科学观测数据在线自动检测表头所在行、分隔符、表尾结束行及多模式在线可视化的方法，实现自动检测野外科学观测数据表头表尾、自动提取数据记录实体、海量数据快速整合入库的目的，具有自动检测表头表尾、支持海量表格快速入库的优势，满足野外科学观测数据表头表尾自动检测、数据实体自动提取与快速入库、多样化展示等需求。

附图说明

下面结合附图和具体实施方式来详细说明本发明；

图1为背景技术中野外科学观测原始数据构成示例图；

图2为背景技术中现有的野外科学观测数据合并入库流程图；

图3为本发明的流程图；

图4为本发明的野外科学观测数据表头表尾自动检测流程图；

图5为本发明的海量野外科学观测数据快速整合入库流程图；

图6为本发明的野外科学观测数据规范化治理与多模式可视化流程图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

参照图3-6，本具体实施方式采用以下技术方案：一种野外科学观测数据表头表尾自动检测入库的方法，其步骤为：

具体的，本具体实施方式对于野外科学观测数据表头表尾在线自动检测，处理的野外科学观测数据的主要格式包括Excel、csv、txt等文本型数据格式，首先，假定野外科学观测数据中的特殊字符(分隔符)包括“，”“\t”“|”“空格”等。其流程为：

②判断此行存在的上述列表中的特殊字符并将其存入数组中，继续移动到下一行进行判断并同样将结果存入数组中，继续向下总共找到10行特殊字符并存入数组，即最终数组的长度小于等于10，如果野外科学观测数据记录实体的行数不足10行，则会存在数组长度小于10的情形；

值得注意的是，海量野外科学观测数据在线快速整合与入库的流程为：

此外，所述的野外科学观测数据规范化治理与多模式可视化的流程为：

本具体实施方式提出的野外科学观测数据表头表尾分隔符等信息在线自动检测的技术方法，以及海量野外科学观测数据在线快速整合入库的技术方法，解决了野外科学观测数据处理应用中的诸多痛点难点，其技术优势在于：

(1)基于数组循环遍历算法，提出了一种野外科学观测数据表头表尾分隔符等信息自动检测之方法，实现了野外科学观测数据表头表尾分隔符等信息的在线快速自动检测；

(2)基于自动检测到的表头信息确定观测数据表格之字段名、字段类型，自动批量提取数据记录实体，进行多数据文件表头字段一致性处理，基于分布式存储与分布式计算技术，实现了海量野外科学观测数据记录实体在线快速整合与入库。

综上，本具体实施方式采用的在线自动检测表头所在行、分隔符、表尾结束行及野外科学观测数据多模式在线融合展示的方法，在业内首次实现了野外科学观测数据表头表尾及分隔符之在线快速自动检测，提高了野外科学观测数据在线提取效率和准确性，实现了野外科学观测数据表格之字段名、字段类型以及数据记录实体自动提取，实现了海量野外科学观测数据快速整合与入库处理，具有自动检测表头表尾、支持海量表格快速入库的优势，满足野外科学观测数据表头表尾自动检测、数据实体自动提取与快速入库、多样化展示等需求，具有广阔的市场应用前景。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种野外科学观测数据表头表尾自动检测入库的方法，其特征在于，其步骤为：

2.根据权利要求1所述的一种野外科学观测数据表头表尾自动检测入库的方法，其特征在于，所述的步骤(1)野外科学观测数据表头表尾分隔符在线快速自动检测的流程为：

3.根据权利要求1所述的一种野外科学观测数据表头表尾自动检测入库的方法，其特征在于，所述的步骤(2)中海量野外科学观测数据在线快速整合与入库的流程为：

4.根据权利要求1所述的一种野外科学观测数据表头表尾自动检测入库的方法，其特征在于，所述的步骤(3)中野外科学观测数据规范化治理与多模式可视化的流程为：

①研发野外科学观测数据文本可视化功能模块，实现野外科学观测数据记录实体元数据查看、数据信息统计分析详情查看功能；

②研发数据质量检查、数据转换、数据提取、数据分析功能模块，实现野外科学观测数据规范化治理；