CN115495544A

CN115495544A - 一种非结构化测绘报告数据解析方法及系统

Info

Publication number: CN115495544A
Application number: CN202210994247.4A
Authority: CN
Inventors: 李旺民; 曾仕声; 丁建勋; 黎彬; 高春辉; 贠法长; 李自然; 杜阳; 刘亚楠
Original assignee: Beijing Shanwei Technology Co ltd; Shanghai Carved Feather Mdt Infotech Ltd; Zhuhai Surveying And Mapping Institute
Current assignee: Beijing Shanwei Technology Co ltd; Shanghai Carved Feather Mdt Infotech Ltd; Zhuhai Surveying And Mapping Institute
Priority date: 2022-08-18
Filing date: 2022-08-18
Publication date: 2022-12-20

Abstract

本发明涉及一种非结构化测绘报告数据解析方法及系统，包括：S1.预解析分类处理：对非结构化测绘数据进行预解析分类；S2.数据解析处理：根据映射关系对预解析分类得到的分类数据进行数据解析，得到中间数据和二进制格式原始文件；S3.结构化转换处理：将数据解析得到的中间数据和二进制格式原始文件作为数据源，调用相应的结构化表模板和映射关系，转换输出组织结构化测绘数据。本方法通过利用映射关系对非结构化历史测绘数据的锁定关键信息解析区域进行解析、完成非结构化测绘数据信息的最大化提取，实现结构化测绘报告数据转换，显著提升数据提取组织的自动化能力，提高信息整理水平，进而提升了测绘单位数据产品共享服务的质量。

Description

一种非结构化测绘报告数据解析方法及系统

技术领域

本发明属于测绘地理信息技术领域，具体涉及一种非结构化测绘报告数据解析方法及系统。

背景技术

近年来，为了优化营商环境，加快城市发展建设，同时随着大数据浪潮的来临，海量数据处理技术的日渐成熟，数据存储成本下降，数据分析应用方向也逐渐向非结构化数据转移。

但是申请人发现：在新的形势下，针对测绘行业，国家、省级测绘主管部门相继提出了统一测绘，成果共享的更高要求。随着各地测绘业务整合及测绘成果共享资源池的建立，各单位保存着大量有用信息的非结构化历史测绘报告数据，却无法充分得到有效的组织与利用，因为非结构化历史测绘报告数据不但格式多样，标准多样，而且在技术层面上非结构化信息比结构化信息更难以标准化，所以非结构化数据的存储、检索、发布和利用需要更加智能化的 IT技术，比如海量存储、智能检索、知识挖掘、内容保护及信息的增值开发利用等；对比结构化数据，非结构化数据数量巨大、产生速度快，缺乏规律性，价值密度较低，加上缺乏有效的技术手段进行处理和分析，往往被丢弃和忽视。为了挖掘这些有用信息，各单位通常往往需要消耗大量的人力物力，不仅造成了资源的浪费，而且容易出现人工错漏，更加不利于长期稳定的信息化提取、存储以及共享；例如：非结构化历史测绘报告数据存储着大量如面积、权属调查等关键信息，但同时其数据结构不规则或不完整，没有预定义的数据模型，为了便于提取关键信息，需要对大批非结构化历史测绘成果报告进行关键信息的解析与结构化。然而由于非结构化数据存在组织复杂、标记较少，逻辑性差等缺点，使得基于文档资料的历史数据查询与统计分析难以实现，测绘单位往往面临历史数据存放临散、格式不统一、内容无法有效程序化、人工干预部分较多等问题。因此亟需探索研究一种非结构化历史测绘报告数据解析方法。

发明内容

为了克服现有技术的不足，本发明的目的在于提供一种非结构化测绘报告数据解析方法，以及基于该非结构化测绘报告数据解析方法的系统。

为解决上述问题，本发明所采用的技术方案如下：

第一方面，本发明提供了一种非结构化测绘报告数据解析方法，包括：

S1.预解析分类处理：对非结构化测绘数据进行预解析分类；

S2.数据解析处理：根据映射关系对预解析分类得到的分类数据进行数据解析，得到中间数据和二进制格式原始文件；

S3.结构化转换处理：将数据解析得到的中间数据和二进制格式原始文件作为数据源，调用相应的结构化表模板和映射关系，转换输出组织结构化测绘数据。

进一步地，本发明所述方法还包括在预解析分类处理之前，进行映射关系建立，所述映射关系建立具体为：提取各类测绘业务的成果共享资源池中关键信息，建立结构映射和语义映射。

进一步地，所述建立结构映射和语义映射，具体为：通过利用基于Grok语法的规则表达式开发的历史测绘报告信息映射技术对提取的非结构、不连续、单元离散的关键信息进行匹配重组，得到结构映射关系和语义映射关系。

进一步地，所述预解析分类处理包括：

获取原始非结构化测绘数据；

分析该原始非结构化测绘数据，并根据测绘报告业务类型进行解析预分类。

进一步地，所述分析该原始非结构化测绘数据，并根据测绘报告业务类型进行解析预分类，具体为：根据测绘报告业务类型选用相应的非结构化数据模板元，并根据该非结构化数据模板元对原始非结构化测绘数据进行比对，锁定关键信息解析区域，并将非锁定区域的数据进行预分类处理。

进一步地，所述根据该非结构化数据模板元对原始非结构化测绘数据进行比对，锁定信息解析区域，具体为：基于元数据的模板匹配机制，对原始非结构化测绘数据正反比较差异化，得到非结构化测绘数据的锁定关键信息解析区域。

进一步地，所述数据解析，具体包括：

根据分类规则从解析库中选取相应的映射关系；

在解析过程中，从选取的映射关系中根据对预解析分类得到的分类数据动态触发映射关系进行数据解析；

在解析完毕后生成Json中间数据以及二进制格式原始文件。

进一步地，在结构化转换处理并转换输出组织结构化的测绘数据后，根据独立模板元对转换输出组织结构化测绘数据进行冗余分析，确保组织结构化测绘数据的正确性。

进一步地，在预解析分类处理之前，建立非结构化数据模板元，该非结构化数据模板元不包含提取信息的原始结构数据，用于数据解析过程中对偏离模板的内容进行识别并单独处理。

第二方面，本发明还提供了一种基于上述非结构化测绘报告数据解析方法的系统，包括：

预解析分类模块，用于对非结构化测绘数据进行预解析分类；

数据解析处理模块，用于根据映射关系对预解析分类得到的分类数据进行数据解析，得到中间数据和二进制格式原始文件；

以及，结构化转换处理模块，用于将数据解析得到的中间数据和二进制格式原始文件作为数据源，调用相应的结构化表模板和映射关系，转换输出组织结构化的测绘数据。

相比现有技术，本发明的有益效果在于：

本发明通过利用映射关系对非结构化历史测绘数据的锁定关键信息解析区域进行解析，完成锁定关键信息解析区域内有效非结构化测绘数据信息的最大化提取，实现将非结构化测绘报告数据转换成为结构化测绘报告数据，有效解决因非结构化测绘报告数据临散、可利用性差而导致的需耗费大量人工提取问题，显著提升了整个数据共享资源池对于数据提取组织的自动化能力，提高单位内部的信息整理水平，进而提升了测绘数据产品共享服务的质量。

附图说明

图1是本发明所述的非结构化测绘报告数据解析方法的流程示意图；

图2是本发明所述的非结构化测绘报告数据解析系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明所述的非结构化测绘报告数据解析方法，包括：

步骤S1.预解析分类处理：对非结构化测绘数据进行预解析分类。具体包括：

S1-1.获取原始非结构化测绘数据，例如：获取一条原始非结构化测绘数据，以及根据之前的分类规则作为参数输入到解析系统中；其中分类规则是非结构化数据资源池中预先制定的数据类型规则，根据数据的类型、范围、领域等进行分类，用于更加精准的数据匹配。

S1-2.分析该原始非结构化测绘数据，并根据测绘报告业务类型进行解析预分类；具体为：根据测绘报告业务类型选用相应的非结构化数据模板元，并根据该非结构化数据模板元对原始非结构化测绘数据进行比对，锁定关键信息解析区域，并将非锁定区域的数据进行预分类处理；该预分类处理是指先根据已有条件对数据类型进行分类，限定分类条件，在此是指将划定的非锁定区域数据输入后进行比对，判断属于哪一类，进行单独处理。其中所述根据该非结构化数据模板元对原始非结构化测绘数据进行比对(即：利用非结构化数据模板元与原始非结构化测绘数据进行匹配、比对，根据匹配率、相似性等比对原则来判断是否为要抽取的信息)，锁定信息解析区域，具体为：基于元数据的模板匹配机制，对原始非结构化测绘数据正反比较差异化，得到非结构化测绘数据的锁定关键信息解析区域；所述非结构化数据模板元是该类非结构化数据最小标准化信息单元，根据该类数据的信息组成标准进行制定，用于匹配、抽取非标准化数据中的基本信息单元，方便后续处理。

为此，在预解析分类处理之前，还需要建立非结构化数据模板元，该非结构化数据模板元不包含提取信息的原始结构数据(因为非结构化数据模板元是由测绘数据资源池中提取出的数据规则，待解析的数据不能够作为建立原始模板元的输入数据，以免形成数据匹配过程中的矛盾。)，用于数据解析过程中对偏离模板的内容进行识别并单独处理。

步骤S2.数据解析处理：根据映射关系对预解析分类得到的分类数据进行数据解析，得到中间数据和二进制格式原始文件。具体包括：

S2-1.根据分类规则从解析库中选取相应的映射关系；

S2-2.在解析过程中，从选取的映射关系中根据对预解析分类得到的分类数据动态触发映射关系进行数据解析；具体是指，对预解析的分类数据进行映射关系的自动化判别，并利用索引关系在备选映射关系中实现动态筛选，选中符合要求的映射关系进行触发，实现数据解析。

S2-3.在解析完毕后生成Json中间数据以及二进制格式原始文件。

若上述过程未成功获取到解析内容，或锁定关键信息解析区域内数据提取与解析的结果为空，则输出解析内容定位日志，方便操作者查询，并在必要的情况下，将上述内容添加更新到模板库；如上述过程成功获取到解析内容，则将Json中间数据进行入库处理。

步骤S3.结构化转换处理：将数据解析得到的中间数据和二进制格式原始文件作为数据源，调用相应的结构化表模板和映射关系，转换输出组织结构化测绘数据；具体为：中间数据以及二进制格式文件数据，都是不符合最终标准的数据形式，在提取到关键信息后，通过与结构化表模板的自动化匹配映射，将抽取出的信息进行重组、转换，最终根据资源池的定义用符合标准的形式输出为结构化测绘数据。

本发明通过利用映射关系(包含中转映射关系)对非结构化历史测绘数据的锁定关键信息解析区域进行解析，完成锁定关键信息解析区域内有效非结构化测绘数据信息的最大化提取，实现将非结构化测绘报告数据转换成为结构化测绘报告数据，有效解决因非结构化测绘报告数据临散、可利用性差而导致的需耗费大量人工提取问题，显著提升了整个数据共享资源池对于数据提取组织的自动化能力，提高单位内部的信息整理水平，进而提升了测绘单位数据产品共享服务的质量。

在一种可能实现的方案中，本发明所述方法还包括在预解析分类处理之前，进行映射关系建立，所述映射关系建立具体为：提取各类测绘业务的成果共享资源池中关键信息，建立结构映射和语义映射，主要是整理各类测绘业务成果资源，建立关键信息的资源池，为资源池中的信息标定结构和语义映射的逻辑和方法，用于后续的信息匹配。

更具体地，通过利用基于Grok语法的规则表达式开发的历史测绘报告信息映射技术对提取的非结构、不连续、单元离散的关键信息进行匹配重组，得到结构映射关系和语义映射关系；其中历史测绘报告是众多测绘业务成果资源当中的一大类，由于该类数据属于非结构化数据，针对该类数据，会有一套关键信息的提取和表达规则，当提取出核心信息后，再与资源池中的标准化信息进行匹配、比对、重组，形成映射关系。

本发明通过提取各类测绘业务的成果共享资源池中关键信息建立映射关系 (结构映射和语义映射)，不仅能够使本方法适用于各类测绘业务的非结构化测绘报告数据的解析，适用性强，还能够提高历史测绘数据的可利用程度。

在一种可能实现的方案中，在结构化转换处理并转换输出组织结构化的测绘数据后，根据独立模板元对转换输出组织结构化测绘数据进行冗余分析，具体为，通过冗余数据校对，自动将冗余信息与原始非结构化测绘数据来源进行对比，并输出定位日志供操作者进行核验，进一步确保组织结构化测绘数据的正确性；其中所述独立模板元指根据数据定义、数据类型制定的最小标准数据模板单元，用于作为标准来匹配非结构化数据。

以下通过实施例对本发明所述非结构化测绘报告数据解析方法做进一步说明。

实施例：

本发明实施例所述的非结构化测绘报告数据解析方法的机器环境为： Windows操作系统，.Net FrameWork技术框架，Oracle数据库软件；其处理流程具体包括：

(1)收到一条原始非结构化测绘报告数据raw_event；

(2)提取关键信息key(token+appname(appname不存在，则使用hostname)， Token指的是关键信息识别令牌，是一种认证令牌，appname是应用程序名称， hostname是主服务器名称)，从解析器缓存ParserCache(ParserCache解析缓存器是存储解析规则的缓存池，方便规则的快速匹配和提取)中找对应的解析规则EventParser(EventParser是缓存器中的具体解析规则，解析规则包括分类规则、映射关系、处理逻辑、处理方法等，是一个逻辑几何体，告诉机器如何处理这条数据)；

如果找到对应的解析规则并且处理成功，则返回结构化数据structured event；

如果没找到对应的解析规则EventParser或解析规则EventParser处理不成功，则进入ParserContainer(解析器容器)处理，即在找不到指定解析缓存池的情况下，就放入到解析器的原始大容器中进行通用化处理；

(3)查找token+appname(appname不存在，则使用hostname)中是否有对应的用户Custom配置；

如果有，则使用按照该配置产生的Parser来处理，如果处理成功则产生event_parser和结构化数据structured event，更新存储器cache，若不成功则使用DefaultParser(DefaultParser一般会有默认的处理规则，通用性的，如果不能找到针对性的规则，就采用通用规则处理)只保留raw_message(未经处理的原始数据信息)，不提取任何字段；

如果没有，则使用Common配置处理，需要依次使用各种类型的Parser去尝试处理，如果处理成功则产生event_parser和结构化数据structured event，更新存储器cache，若不成功则使用DefaultParser只保留raw_message，不提取任何字段；

(4)返回结构化数据structured event。

正则解析(数据解析处理)：

(1)通过配置正则解析出匹配的字段，支持命名分组、多行正则、Grok语法；

(2)KeyValue解析(即关键值解析方法，用来提取较为规则的日志中的关键信息)适用于日志中包含字段名，分隔符比较明确的日志，配置KV对分隔符和KV之间的分隔符来抽取字段；

(3)KeyValue正则解析适用于分隔符不确定，KV对不连续的日志，通过配置Key，Value，分隔符的正则来抽取字段；

(4)Json解析适用于Json日志格式，抽取出来的字段结构和Json中定义的结构一致；

(5)XML解析适用于XML日志解析，抽取出来的字段结构和XML中定义的结构一致；

(6)CSV解析适用于列顺序固定，分隔符固定的日志，配置分隔符和列名来解析字段；

(7)结构体解析适用于按固定字节长度写入的日志，配置字节格式的解析。

如图2，本发明还提供了一种基于上述非结构化测绘报告数据解析方法的系统，包括有预解析分类模块100、数据解析处理模块200以及结构化转换处理模块300。其中，所述预解析分类模块100主要用于对非结构化测绘数据进行预解析分类；所述数据解析处理模块200主要用于根据映射关系对预解析分类得到的分类数据进行数据解析，得到中间数据和二进制格式原始文件；所述结构化转换处理模块300主要用于将数据解析得到的中间数据和二进制格式原始文件作为数据源，调用相应的结构化表模板和映射关系，转换输出组织结构化测绘数据；在此之前建立结构化表模板(即结构化数据的标准模板)，该结构化表模板具体表现为一张数据库结构化表的信息，主要包括表名、字段名、数据类型、字段长度、值约束、主外键约束等。

本发明所述系统是基于上述非结构化测绘报告数据解析方法的系统，其各方案及预期的技术效果请参照上文说明，这里不再重复赘述。

此外，本发明所述非结构化测绘报告数据解析方法和系统还包括建立数据调入输出系统和建立关联数据自动入库系统；其中建立的数据调入输出系统能够在上述数据解析的全过程实现内存管理和进行多数据自动化分配，保障软件在运行过程中的内存管理，同时能够实现多数据自动化作业要求。建立关联数据自动入库系统对结构化完毕的成果进行自动入库处理，一方面可以减少人工工作量，二方面提取的数据成果实现快速入库管理。而且本发明还建立了统一的数据转换接口，兼容历史测绘数据各个时期的版本，由于不同时期的待处理数据存在微小的版本差异，只有进行统一的预处理转换，才能够调用统一标准进行处理。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.一种非结构化测绘报告数据解析方法，其特征在于，包括：

S1.预解析分类处理：对非结构化测绘数据进行预解析分类；

2.根据权利要求1所述的非结构化测绘报告数据解析方法，其特征在于，还包括在预解析分类处理之前，进行映射关系建立，所述映射关系建立具体为：提取各类测绘业务的成果共享资源池中关键信息，建立结构映射和语义映射。

3.根据权利要求3所述的非结构化测绘报告数据解析方法，其特征在于，所述建立结构映射和语义映射，具体为：通过利用基于Grok语法的规则表达式开发的历史测绘报告信息映射技术对提取的非结构、不连续、单元离散的关键信息进行匹配重组，得到结构映射关系和语义映射关系。

4.根据权利要求1或2或3所述的非结构化测绘报告数据解析方法，其特征在于，所述预解析分类处理包括：

获取原始非结构化测绘数据；

5.根据权利要求4所述的非结构化测绘报告数据解析方法，其特征在于，所述分析该原始非结构化测绘数据，并根据测绘报告业务类型进行解析预分类，具体为：根据测绘报告业务类型选用相应的非结构化数据模板元，并根据该非结构化数据模板元对原始非结构化测绘数据进行比对，锁定关键信息解析区域，并将非锁定区域的数据进行预分类处理。

6.根据权利要求5所述的非结构化测绘报告数据解析方法，其特征在于，所述根据该非结构化数据模板元对原始非结构化测绘数据进行比对，锁定信息解析区域，具体为：基于元数据的模板匹配机制，对原始非结构化测绘数据正反比较差异化，得到非结构化测绘数据的锁定关键信息解析区域。

7.根据权利要求1或2或3或5或6所述的非结构化测绘报告数据解析方法，其特征在于，所述数据解析处理，具体包括：

根据分类规则从解析库中选取相应的映射关系；

在解析完毕后生成Json中间数据以及二进制格式原始文件。

8.根据权利要求1或2或3或5或6所述的非结构化测绘报告数据解析方法，其特征在于，在结构化转换处理并转换输出组织结构化的测绘数据后，根据独立模板元对转换输出组织结构化测绘数据进行冗余分析，确保组织结构化测绘数据的正确性。

9.根据权利要求1或2或3或5或6所述的非结构化测绘报告数据解析方法，其特征在于，在预解析分类处理之前，建立非结构化数据模板元，该非结构化数据模板元不包含提取信息的原始结构数据，用于数据解析过程中对偏离模板的内容进行识别并单独处理。

10.一种基于权利要求1-9所述的非结构化测绘报告数据解析方法的系统，其特征在于，包括：

预解析分类模块(100)，用于对非结构化测绘数据进行预解析分类；

数据解析处理模块(200)，用于根据映射关系对预解析分类得到的分类数据进行数据解析，得到中间数据和二进制格式原始文件；

以及，结构化转换处理模块(300)，用于将数据解析得到的中间数据和二进制格式原始文件作为数据源，调用相应的结构化表模板和映射关系，转换输出组织结构化的测绘数据。