CN112328589A

CN112328589A - 一种电子表格数据颗粒化及指标标准化处理方法

Info

Publication number: CN112328589A
Application number: CN202011365226.3A
Authority: CN
Inventors: 李银生; 聂永川; 张朝宗; 王红; 吴峰; 任雁; 刘淼; 张金龙; 陈娟; 张碟; 蒋倩男; 张聪; 高原; 高银珍; 毋鹏杰
Original assignee: Hebei Academy Of Science And Technology Information Hebei Academy Of Science And Technology Innovation Strategy
Current assignee: Hebei Academy Of Science And Technology Information Hebei Academy Of Science And Technology Innovation Strategy
Priority date: 2020-11-28
Filing date: 2020-11-28
Publication date: 2021-02-05
Anticipated expiration: 2040-11-28
Also published as: ZA202106279B; CN112328589B

Abstract

本发明公开了一种电子表格数据颗粒化及指标标准化处理方法，包括以下步骤：利用电子表格格式规整器将表格统一为标准表格待处理文档PD；利用区域自动识别器读取待处理文档PD，形成表格矩阵M，并识别指标区域和数值区域；利用指标结构解析器，递归遍历指标区域，识别并提取指标单元存入I库；识别并提取指标分类描述单元存入C库；识别并标引指标单元和指标分类描述单元之间的应用场景存入R库；利用数值项自动提取器，通过遍历数值区域提取数值项，同时将其对应的横纵坐标、指标单元键值、指标分类描述单元键值存入D库。本发明一次性解决了二维电子表格数据的颗粒化、标准化、隐性属性显性化等问题，为进行多源、大规模数据运算提供了基础。

Description

一种电子表格数据颗粒化及指标标准化处理方法

技术领域

本发明属于大数据处理技术领域，特别是一种对电子表格进行颗粒化、标准化、隐性属性显性化的处理方法。

背景技术

在大数据治理过程中，数据的来源是多样化的，表格数据文件是其中一种常见类型。目前，表格数据文件多是二维电子表格，在数据处理时，二维电子表格数据的存储和表达方式通常是将表格的横坐标和纵坐标直接组合之后进行存储与展现，例如，图2展示的二维电子表格，其表达数据348时，通常采用“大型企业数348”进行表示。这种方式主要存在以下缺陷。

1)由于表格数据庞杂、指标不统一，缺少对指标的分类和分级定义，利用现有技术处理的二维表格数据，都以同一类型存储在数据库中，从而导致指标多样化、非标准化；2)现有技术在提取二维电子表格数据的过程中，大多没有直接记录指标单元的层级关系以及应用场景等隐含属性，而是以横坐标、纵坐标直接组合方式存储，这样不但丢失了很多隐含关系，还增加了指标名称的长度、增大了指标的数量，在数据表达时会导致指标不标准、可读性差、无法准确描述指标(数据)之间的层级关系等诸多问题；延续上例，“大型企业数348”仅能供读者看到字面含义，而其隐含的“2016年年鉴(书名)、按企业规模及登记注册类型分规模以上工业企业基本情况(表格名称)”都没有真正的表达出来；3)另外，目前数据的表达和展示大多采用EXCEL表格、PDF、HTML、图片等方式，现有的存储方式由于缺失数据指标层级关系，因此不利于数据的查询、提取、汇总、统计以及大规模运算和精准表达。

发明内容

本发明需要解决的技术问题是提供一种电子表格数据颗粒化及指标标准化处理方法，以解决现有二维电子表格数据无法实现便捷查询和精准表达的问题，通过对指标分类、分级定义和抽取，结合隐性属性显性化以及分类分级存储等技术方法，一次性解决二维电子表格数据的颗粒化、标准化、隐性属性显性化等问题，为进行多源、大规模数据运算提供基础。

为解决上述技术问题，本发明所采取的技术方案如下。

一种电子表格数据颗粒化及指标标准化处理方法，具体包括以下步骤：

S1.加载表格文档，利用电子表格格式规整器，将多种形式的表格统一为标准表格待处理文档PD；

S2.利用区域自动识别器，读取步骤S1形成的待处理文档PD，形成表格矩阵M，并识别指标区域和数值区域；

S3.利用指标结构解析器，递归遍历指标区域，识别并提取指标单元，存入I库；识别并提取指标分类描述单元，存入C库；识别并标引指标单元和指标分类描述单元之间的应用场景，存入R库；

S4.利用数值项自动提取器，通过遍历数值区域，提取数值项，同时依据步骤S2形成的表格矩阵M的横坐标和纵坐标以及步骤S3提取的指标单元和指标分类描述单元，定位并标引该数值项对应的指标单元键值和指标分类描述单元键值，存入D库。

上述一种电子表格数据颗粒化及指标标准化处理方法，在表格文档加载前，将表格中的内容划分为数值项和指标项；其中数值项包含横纵坐标值和数值，指标项根据属性划分为特征类、名词类、分类类以及统计类，统计类又分为指标和指标分类描述。

上述一种电子表格数据颗粒化及指标标准化处理方法，步骤S1中所述电子表格格式规整器将多种形式的表格统一为标准表格待处理文档PD的具体方法为：

S11.加载表格文档；

S12.根据表格特征判断文档类型，是业务数据表格还是年鉴数据表格；如果是业务数据表格，则跳转到步骤S13；如果是年鉴数据表格，则跳转到步骤S16；

S13.在表格文档左侧添加一列，作为区域标注列；在表格文档上部添加一行，作为指标分类标注行；

S14.利用自学习算法，根据每行单元格特征，识别数值区域和指标区域，进行区域标注列标注；利用自学习算法，根据每列单元格特征，识别指标分类，进行指标分类标注行标注；

S15.引入业务样表，标注指标单元和指标分类描述单元的层级关系；同时将特征类指标项、名词类指标项做为隐含属性和应用场景处理；

S16.形成规范的待处理文档PD。

上述一种电子表格数据颗粒化及指标标准化处理方法，步骤S2中所述区域自动识别器形成表格矩阵并识别指标区域和数值区域的具体方法为：

S21.加载步骤S16形成的待处理文档PD；

S22.形成表格矩阵；

S23.按照指标单元特征，识别指标单元区域；按照指标分类描述单元特征，识别指标分类描述单元区域；按照数值项特征，识别数值区域。

上述一种电子表格数据颗粒化及指标标准化处理方法，步骤S3中所述指标结构解析器提取指标单元、指标分类描述单元、应用场景的具体方法为：

S31.加载经步骤S23识别后的表格文档PD；

S32.提取表格文档PD中的源、库、表等隐含关系属性；

S33.读取目标区域；

S34.依据单元格特征，分别沿X轴、Y轴识别目标区域，利用递归算法，识别并读取目标区域的层级关系；

S35.提取目标区域，利用自学习算法判断是指标单元还是指标分类描述单元；

S36.迭代判断，如果是指标单元，则存入I库，同时将其应用场景与步骤S32提取的关系属性存入R库；如果是指标分类描述单元，则存入C库，同时将其应用场景与步骤S32提取的关系属性存入R库。

上述一种电子表格数据颗粒化及指标标准化处理方法，步骤S4中所述数值项自动提取器提取数值项的具体方法为：

S41.加载步骤S2中表格矩阵的数值区域；

S42.顺次读取单元格内容，记录单元格的横纵坐标值；

S43.依据横纵坐标值以及步骤S3提取的指标单元和指标分类描述单元，定位并记录横纵坐标对应的指标单元键值和指标分类描述单元键值；

S44.提取数值项以及数值项对应的横纵坐标值、指标单元键值、指标分类描述单元键值，存入D库。

由于采用了以上技术方案，本发明所取得技术进步如下。

本发明通过把指标分类处理后，可以将各式各样的二维表格数据进行归一化处理，并且提取了源、库、表等隐含属性信息，记录了数据的应用场景，使数据规整化、指标标准化、隐性属性显性化，为进行数据多源、大规模数据运算提供了可行性的存储方案。

本发明提出的指标分类，将常见的二维表格数据进行统一处理、存储，改变了现有分别处理、多库存储的服务方式，大大减少了数据联合大规模运算的程序开发复杂度，提高了数据使用的灵活性。本发明通过将统计类指标划分为指标和指标分类描述，同时记录了二者的层级关系和应用场景，与传统X轴Y轴直接组合形成的指标相比，大大缩减了指标数量，使指标更简洁、可读性更强、更易于理解；且指标和指标分类描述分层级管理，使层次更清晰、表达更准确，应用场景的记录可使用户的选择更明确、指向更精准。

本发明在对数据进行颗粒化的同时，记录了数据之间的层级关系，标引了数据的指标分类描述，记录了源、库、表等隐含属性信息，与现有处理方法、存储结构相比，展示的数据包含了更完整的数据关系、指标关系等隐性属性，可准确、丰富且详细的表达数据关系。

附图说明

图1为本发明所述指标分类示意图；

图2为本发明所述表格分区的示例图；

图3为本发明所述方法的流程图；

图4为本发明步骤S1的流程图；

图5为本发明步骤S2的流程图；

图6为本发明步骤S3的流程图；

图7为本发明步骤S4的流程图。

具体实施方式

下面将结合附图和具体实施方式对本发明进行进一步详细说明。

本发明提出一种电子表格数据颗粒化及指标标准化处理方法，通过将表格中大量的、多样冗余的指标进行分类，并建立存储库，然后通过将多种形式的表格统一为标准表格、识别标题区域和数值区域、分别提取数值的相关属性信息，最终形成颗粒化、标准化的数据；形成的数据不仅仅是数值本身，而是自身带有指标单元、指标分类描述单元以及应用场景属性的数值。

本发明，采集的二维电子表格中的内容包含数值项和指标项。其中数值项包含横坐标值、纵坐标值、数值以及应用场景等隐性属性；指标项根据属性划分为特征类、名词类、分类类以及统计类，统计类又分为指标和指标分类描述，如图1所示。

上述特征类指标是指描述主体唯一性属性的指标，例如：公民的身份证号码、企业(法人和其他组织)的统一社会信用代码、科技计划项目的项目编号等；名词类指标是指描述主体字符型属性的指标，例如公民的姓名、企业(法人和其他组织)的名称、地址等；分类类指标是指描述主体分类型属性的指标，例如公民的学历、学位，企业(法人和其他组织)的行业、领域等；统计类指标指的是描述主体的数值型属性，例如公民的年收入、年支出，企业(法人和其他组织)的固定资产、销售收入等。

指标由指标名称、计量单位、时间限制、空间限制、应用限制五个要素组成。指标分类描述指的是描述指标的角度，主要来自分类类指标项，例如：按企业规模角度，分为大型、中型、小型、微型；按登记注册类型角度，分为内资企业、港澳台商投资企业、外商投资企业等。

本发明的存储库包含了数值库、指标库、指标分类描述库以及关系库。其中，数值库为Data数据库，简称D库，用于存储数值项，包含横坐标值、纵坐标值和数值等；指标库为Index数据库，简称I库，用于存储指标单元信息等，指标单元是指指标及其层级关系；指标分类描述库为Classification数据库，简称C库，用于存储指标分类描述单元信息等，指标分类描述单元是指指标分类描述及其层级关系；关系库为Relation数据库，简称R库，用于存储应用场景等，应用场景是指指标单元与指标分类描述单元在具体二维表中的对应关系，以及二者对应的源、库、表等信息。

存入D库的数据既包含了数值本身，也包含了数值自身所携带的指标单元、指标分类描述单元以及应用场景等属性，使数据具有了完整的数据关系，真实表达了数值所代表的含义，方便理解。例如，图2中所示的Z区域表示数值，X1、X2、X3区域为指标单元；Y1和Y2区域为指标分类描述单元，X1与Y1的对应关系以及这种对应关系所在的源、库、表等属性信息为应用场景。

本发明的电子表格数据颗粒化及指标标准化处理方法，其流程如图3所示，具体包括以下步骤。

S1.加载表格文档，利用电子表格格式规整器，将多种形式的表格统一为标准表格待处理文档PD。

本步骤中，电子表格格式规整器将多种形式的表格统一为标准表格待处理文档PD的方法如图4所示，具体如下。

S11.加载表格文档。

S12.根据表格特征判断文档类型，是业务数据表格还是年鉴数据表格；如果是业务数据表格，则跳转到步骤S13；如果是年鉴数据表格，则跳转到步骤S16。

S13.在表格文档左侧添加一列，作为区域标注列；在表格文档上部添加一行，作为指标分类标注行。

S14.利用自学习算法，根据每行单元格特征，识别数值区域和指标区域，进行区域标注列标注；利用自学习算法，根据每列单元格特征，识别指标分类，进行指标分类标注行标注。

S15.引入业务样表，如调查表、指标说明等，标注指标单元和指标分类描述单元的层级关系；同时将特征类指标项、名词类指标项做为隐含属性和应用场景处理。

S16.形成规范的待处理文档PD。

S2.利用区域自动识别器，读取步骤S1形成的待处理文档PD，形成表格矩阵M，并识别指标区域和数值区域。

本步骤中所述区域自动识别器形成表格矩阵并识别指标区域和数值区域的方法如图5所示，具体如下。

S21.加载步骤S16形成的待处理文档PD。

S22.形成表格矩阵。

S23.按照指标单元特征，识别指标单元区域，例如图2的X1、X2、X3区域；按照指标分类描述单元特征，识别指标分类描述单元区域，例如图2的Y1、Y2区域；按照数值项特征，识别数值区域，例如图2的Z区域。

S3.利用指标结构解析器，递归遍历指标区域，识别并提取指标单元，存入I库；识别并提取指标分类描述单元，存入C库；识别并标引指标单元和指标分类描述单元之间的应用场景，存入R库。

本步骤中所述指标结构解析器提取指标单元、指标分类描述单元、应用场景的方法如图6所示，具体如下。

S31.加载经步骤S23识别后的表格文档PD。

S32.提取表格文档PD中的源、库、表等隐含关系属性。其中，源指的是数据的来源，如业务类数据的《高新技术企业调查》，年鉴类数据的《中国统计年鉴(2018)》；库指的是数据所在源下的某一具体单元，如《高新技术企业调查》中的“经济概况”部分，《中国统计年鉴(2018)》中的“固定资产投资”章节；表指的是数据所在源下库中的某一细分数据单元，如《高新技术企业调查》“经济概况”部分中的“主营业务收入”(表)，《中国统计年鉴(2018)》“固定资产投资”章节中的“规模以上工业企业固定资产投资”(表)。

S33.读取目标区域，目标区域为指标单元区域或指标分类描述单元区域。

S34.依据单元格特征，分别沿X轴、Y轴识别目标区域，利用递归算法，识别并读取目标区域的层级关系。

S35.提取目标区域，利用自学习算法判断是指标单元还是指标分类描述单元，也可以采用人工干预方式判断。

本步骤中所述数值项自动提取器提取数值项的方法如图7所示，具体如下。

S41.加载步骤S2中表格矩阵的数值区域。

S42.顺次读取单元格内容，记录单元格的横纵坐标值。

S43.依据横纵坐标值以及步骤S3提取的指标单元和指标分类描述单元，定位并记录横纵坐标对应的指标单元键值和指标分类描述单元键值。

经过本发明处理后的表格数据具备了指标分类分级管理、指标分类描述分类分级管理、数值颗粒化存储以及应用场景个性化记录的特点，一次性解决了数据的规整化、指标标准化、隐性属性显性化等诸多问题，为多源数据处理以及大规模数据运算提供了基础。

Claims

1.一种电子表格数据颗粒化及指标标准化处理方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的一种电子表格数据颗粒化及指标标准化处理方法，其特征在于，在表格文档加载前，将表格中的内容划分为数值项和指标项；其中数值项包含横纵坐标值和数值，指标项根据属性划分为特征类、名词类、分类类以及统计类，统计类又分为指标和指标分类描述。

3.根据权利要求2所述的一种电子表格数据颗粒化及指标标准化处理方法，其特征在于，步骤S1中所述电子表格格式规整器将多种形式的表格统一为标准表格待处理文档PD的具体方法为：

S11.加载表格文档；

S16.形成规范的待处理文档PD。

4.根据权利要求3所述的一种电子表格数据颗粒化及指标标准化处理方法，其特征在于，步骤S2中所述区域自动识别器形成表格矩阵并识别指标区域和数值区域的具体方法为：

S21.加载步骤S16形成的待处理文档PD；

S22.形成表格矩阵；

5.根据权利要求4所述的一种电子表格数据颗粒化及指标标准化处理方法，其特征在于，步骤S3中所述指标结构解析器提取指标单元、指标分类描述单元、应用场景的具体方法为：

S31.加载经步骤S23识别后的表格文档PD；

S32.提取表格文档PD中的源、库、表隐含关系属性；

S33.读取目标区域；

6.根据权利要求5所述的一种电子表格数据颗粒化及指标标准化处理方法，其特征在于，步骤S4中所述数值项自动提取器提取数值项的具体方法为：

S41.加载步骤S2中表格矩阵的数值区域；

S42.顺次读取单元格内容，记录单元格的横纵坐标值；