CN112486989A - 一种多源数据颗粒化融合及指标分类分层处理方法 - Google Patents

一种多源数据颗粒化融合及指标分类分层处理方法 Download PDF

Info

Publication number
CN112486989A
CN112486989A CN202011361683.5A CN202011361683A CN112486989A CN 112486989 A CN112486989 A CN 112486989A CN 202011361683 A CN202011361683 A CN 202011361683A CN 112486989 A CN112486989 A CN 112486989A
Authority
CN
China
Prior art keywords
index
source
library
area
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011361683.5A
Other languages
English (en)
Other versions
CN112486989B (zh
Inventor
李银生
聂永川
张朝宗
王红
吴峰
任雁
刘淼
张金龙
陈娟
张碟
蒋倩男
张聪
高原
高银珍
毋鹏杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei Academy Of Science And Technology Information Hebei Academy Of Science And Technology Innovation Strategy
Original Assignee
Hebei Academy Of Science And Technology Information Hebei Academy Of Science And Technology Innovation Strategy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei Academy Of Science And Technology Information Hebei Academy Of Science And Technology Innovation Strategy filed Critical Hebei Academy Of Science And Technology Information Hebei Academy Of Science And Technology Innovation Strategy
Priority to CN202011361683.5A priority Critical patent/CN112486989B/zh
Publication of CN112486989A publication Critical patent/CN112486989A/zh
Application granted granted Critical
Publication of CN112486989B publication Critical patent/CN112486989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Abstract

本发明公开了一种多源数据颗粒化融合及指标分类分层处理方法,通过将表格中大量多样冗余的指标进行分类,并建立存储库,再通过将多种形式的表格统一为标准表格、识别标题区域和数值区域、分别提取数值的相关属性信息,从而形成颗粒化、标准化的数据;然后通过构建指标索引结构,依据用户的个性化选择,以电子表格形式呈现数值项、以及与数值相对应的指标及层级、指标分类描述及层级、指标与指标分类描述的应用场景和其它隐含属性,实现对二维表格数据的准确表达。本发明能够将多源数据进行归一化处理、存储,从而使指标名称唯一性、层级关系多源性、指标分类描述多源性以及应用场景多源性,为多源数据的灵活、多样、快速呈现提供了基础。

Description

一种多源数据颗粒化融合及指标分类分层处理方法
技术领域
本发明属于大数据处理技术领域,特别是一种多源数据颗粒化融合及指标分类分层处理方法。
背景技术
在大数据治理过程中,数据的来源是多样化的,表格数据文件是其中一种常见类型。比较典型的二维电子表格数据有业务(调查)类和年鉴类,针对业务(调查)类数据,由于其多样性,现有技术大多采用分库存储、分别查询、各自表达的形式,没有形成统一的解决方案;针对年鉴类数据,虽然现有技术基本实现了年鉴类数据的统一存储、联合查询,但大多采用X轴Y轴直接组合,即XY(或YX)组合指标方式,存在指标名称过长、不规范、不准确、可读性差等诸多缺陷。
究其原因,主要体现在以下几个方面:
1)多源数据的多样性导致难以统一处理。由于多源数据来源于不同的源,导致这些数据各式各样,其指标名称和样式都不同,现有技术针对不同的表格数据大多采用不同的存储和表达方案,很难做到统一存储和表达。
2)多源指标冗余导致难以统一存储。由于二维电子表格的多样性,同一指标名称在不同的数据表格中同时出现,现有技术采用分别存储方式,导致指标冗余,不能确保指标名称的唯一性。
3)多源指标的应用场景多样性导致难以统一检索。现有处理技术由于没有存储指标及指标分类描述之间的层级关系和应用场景,导致无法针对多源指标的不同应用场景进行统一检索。
4)XY(或YX)直接组合的指标表达方式难以准确表达数据含义。现有处理技术由于其存储方式的缺陷导致指标采用组合指标方式呈现,存在指标名称过长、不规范、不准确、可读性差等诸多缺陷,很难做到准确表达数据含义。
发明内容
本发明需要解决的技术问题是提供一种多源数据颗粒化融合及指标分类分层处理方法,能够将多源数据进行归一化处理、存储,从而使指标名称唯一性、层级关系多源性、指标分类描述多源性以及应用场景多源性,为多源数据的灵活、多样、快速展示提供基础。
为解决上述技术问题,本发明所采取的技术方案如下。
一种多源数据颗粒化融合及指标分类分层处理方法,主要包括以下步骤:
Z1.采集各种二维表格数据;
Z2.利用多源数据颗粒化融合器,将采集到的数据经过清洗后,分别存储到SI库、SC库、SD库、SR库、SQ库五个数据库中;
Z3.构建多源指标索引结构SS,依据用户的选择,利用多源数据指标分类分级呈现器读取SI库、SC库、SD库、SR库、SQ库中的信息;
Z4.渲染多源数据检索结果,呈现给用户。
上述一种多源数据颗粒化融合及指标分类分层处理方法,步骤Z2中所述的多源数据颗粒化融合器包括电子表格格式规整器、区域自动识别器、指标结构解析器和数值项自动提取器,具体实现方法如下:
Z21.加载表格文档,读取表格文档所属的数据源多源信息,存入SQ库;
Z22.利用电子表格格式规整器,将多种形式的表格统一为标准多源表格待处理文档PD;
Z23.利用区域自动识别器,读取步骤Z22形成的待处理文档PD,形成表格矩阵M,并识别指标区域和数值区域;
Z24.利用指标结构解析器,递归遍历指标区域,结合SQ库存储的多源信息,识别并提取指标单元及其对应的多源信息键值,存入SI库;识别并提取指标分类描述单元及其对应的多源信息键值,存入SC库;识别并标引指标单元和指标分类描述单元之间的应用场景及其对应的多源信息键值,存入SR库;
Z25.利用数值项自动提取器,通过遍历数值区域,结合SQ库存储的多源信息,提取多源数值项,同时依据步骤Z23形成的表格矩阵M的横坐标和纵坐标以及步骤Z24提取的指标单元和指标分类描述单元,定位并标引该多源数值项对应的指标单元键值、指标分类描述单元键值和其对应的多源信息键值,存入SD库。
上述一种多源数据颗粒化融合及指标分类分层处理方法,步骤Z22具体包括以下内容:
Z221.加载表格文档;
Z222.根据表格特征判断文档类型,是业务数据表格还是年鉴数据表格;如果是业务数据表格,则跳转到步骤Z223;如果是年鉴数据表格,则跳转到步骤Z226;
Z223.在表格文档左侧添加一列,作为区域标注列;在表格文档上部添加一行,作为指标分类标注行;
Z224.利用自学习算法,根据每行单元格特征,识别数值区域和指标区域,进行区域标注列标注;利用自学习算法,根据每列单元格特征,识别指标分类,进行指标分类标注行标注;
Z225.引入业务样表,标注指标单元和指标分类描述单元的层级关系;同时将特征类指标项、名词类指标项做为隐含属性和应用场景处理;
Z226.形成规范的待处理文档PD。
上述一种多源数据颗粒化融合及指标分类分层处理方法,步骤Z23具体包括以下内容:
Z231.加载步骤Z226形成的待处理文档PD;
Z232.形成表格矩阵;
Z233.按照指标单元特征,识别指标单元区域;按照指标分类描述单元特征,识别指标分类描述单元区域;按照数值项特征,识别数值区域。
上述一种多源数据颗粒化融合及指标分类分层处理方法,步骤Z24具体包括以下内容:
Z241.加载经步骤Z233识别后的表格文档PD;
Z242.提取表格文档PD中的源、库、表隐含关系属性;
Z243.读取目标区域;
Z244.依据单元格特征,分别沿X轴、Y轴识别目标区域,利用递归算法,识别并读取目标区域的层级关系;
Z245.提取目标区域,利用自学习算法判断是指标单元还是指标分类描述单元;
Z246.结合SQ库存储的多源信息进行迭代判断,如果是指标单元,将多源指标单元及其对应的多源信息键值存入SI库,同时将其应用场景及其对应的多源信息键值与步骤Z242提取的关系属性存入SR库;如果是指标分类描述单元,将多源指标分类描述单元及其对应的多源信息键值存入SC库,同时将其应用场景及其对应的多源信息键值与步骤Z242提取的关系属性存入SR库。
上述一种多源数据颗粒化融合及指标分类分层处理方法,步骤Z25具体包括以下内容:
Z251.加载步骤Z23中表格矩阵的数值区域;
Z252.顺次读取单元格内容,记录单元格的横纵坐标值;
Z253.依据横纵坐标值以及步骤Z24提取的指标单元和指标分类描述单元,定位并记录横纵坐标对应的指标单元键值和指标分类描述单元键值;
Z254.提取多源数值项以及多源数值项对应的横纵坐标值、指标单元键值、指标分类描述单元键值和其对应的多源信息键值,存入SD库。
上述一种多源数据颗粒化融合及指标分类分层处理方法,步骤Z3中所述的多源数据指标分类分级呈现器包括指标索引结构构建器和层级分类结果呈现器,具体包括以下内容:
Z31.构建多源指标索引结构SS;
Z32.结合用户的选择,利用指标索引结构构建器读取SI库、SC库、SD库、SR库、SQ库中的信息,填充多源指标索引结构SS;
Z33.依据用户的选择项,利用层级分类结果呈现器迭代提取SI库、SC库、SD库、SR库、SQ库中的相应信息。
上述一种多源数据颗粒化融合及指标分类分层处理方法,步骤Z31中所述的多源指标索引结构SS包括多源指标区、多源指标分类描述区、多源关系区和多源已选指标区;其中多源指标区为SIA区域,该区域用于呈现SI库中的多源指标及多源指标层级关系;多源指标分类描述区为SCA区域,该区域用于呈现SC库中的多源指标分类描述及其层级关系;多源关系区为SRA区域,该区域用于呈现多源指标单元和多源指标分类描述单元之间的应用场景、源库表等隐含属性信息以及SQ库中对应的多源信息;多源已选指标区为SSA区域,该区域用于呈现用户已经选择的多源指标、多源指标分类描述以及源属性信息。
上述一种多源数据颗粒化融合及指标分类分层处理方法,步骤Z32的具体实现方法为:
Z321.初始化多源指标索引结构SS;
Z322.读取SI库中的多源指标单元信息,填充多源指标索引结构SS的SIA区域,形成多源指标的树形层级结构,供用户选择;
Z323.依据用户选择的多源指标i,在SR库中读取多源指标i对应的关系,填充多源指标索引结构SS的SRA区域,形成多源应用场景r;
Z324.依据SR库中读取的多源指标i对应的关系,读取SC库中的多源指标分类描述c,填充多源指标索引结构SS的SCA区域,形成多源指标分类描述的树形层级结构,供用户选择;
Z325.依据用户选择的多源指标i、多源指标分类描述c和多源应用场景r,填充多源指标索引结构SS的SSA区域。
上述一种多源数据颗粒化融合及指标分类分层处理方法,步骤Z33的具体实现方法为:
Z331.初始化数据存储容器矩阵M;
Z332.读取多源指标索引结构SS中的SSA区域信息;
Z333.依据SSA区域的用户已选多源指标信息,在SI库中读取多源指标单元信息,填充矩阵M的X轴指标区;
Z334.依据矩阵M的X轴指标区的多源指标单元信息,在SD库中读取相关数据,生成临时数据集合DS1;
Z335.依据SSA区域的用户已选多源指标分类描述信息,在SC库中读取多源指标分类描述单元,填充矩阵M的Y轴指标分类描述区;
Z336.依据矩阵M的Y轴指标分类描述区的多源指标分类描述单元信息,在SD库中读取相关数据,生成临时数据集合DS2;
Z337.对临时数据集合DS1和临时数据集合DS2求交集,获得矩阵数据集合DS3,将矩阵数据集合DS3填充到矩阵M。
由于采用了以上技术方案,本发明所取得技术进步如下。
本发明针对二维表格数据,既能做到多源数据的归一化处理、存储,又能做到多源数据的统一检索、表达;主要体现在以下几点:
1)多源数据归一化。针对二维表格数据,不管是业务(调查)数据还是年鉴类数据,本发明都可预先处理为统一格式,然后进行颗粒化处理、存储,做到了将多种多样的二维表格进行归一化处理,减少了分库存储的数据冗余,降低了程序开发的复杂度。
2)多源指标名称唯一性。由于本发明采用多源数据统一存储,经数据清洗、排重、标引处理后,可以保证指标名称唯一性,减少了指标名称的冗余。
3)多源指标层级和分类描述多源性。本发明在处理多源数据的过程中,赋予了指标和指标分类描述的应用场景和多源属性,即同一指标单元或指标分类描述单元与多个数据源的信息相关联,用户在使用和查阅的过程中,能准确、便捷的获得其所需信息。
4)多源指标层级清晰、呈现灵活、表达一致。本发明在处理多源数据的过程中,不但将指标分类描述从指标中分类出来,而且提取并标引了它们的层级和应用场景,不但缩减了指标数量,而且也使指标和指标分类描述分别按层级展示,使表达方式一致、呈现方式灵活、组合方式多样、指标表述明确、数据含义准确。
附图说明
图1为本发明所述指标分类示意图;
图2为本发明的流程图;
图3本发明步骤Z2的流程图;
图4本发明步骤Z3的流程图;
图5本发明所述多源指标索引结构SS的示意图;
图6为实施例中经填充后的指标索引结构SS’;
图7为实施例最终展现的电子表格示例图。
具体实施方式
下面将结合附图和具体实施方式对本发明进行进一步详细说明。
本发明提出了一种多源数据颗粒化融合及指标分类分层处理方法,通过将表格中大量的、多样冗余的指标进行分类,并建立存储库,再通过将多种形式的表格统一为标准表格、识别标题区域和数值区域、分别提取指标单元、指标分类描述单元、以及指标单元和指标分类描述单元的应用场景、源库表等隐含属性、数值项及相关属性信息,从而形成颗粒化、标准化的数据;然后通过构建指标索引结构,依据用户的个性化选择,以电子表格形式呈现数值项、以及与数值相对应的指标及层级、指标分类描述及层级、指标与指标分类描述的应用场景和其它隐含属性,实现对二维表格数据的准确表达。
本发明经过颗粒化处理后形成的数据不仅仅是数值本身,而是自身带有指标单元、指标分类描述单元以及应用场景等属性的数值。
本发明,采集的二维电子表格中的内容包含数值项和指标项。其中数值项包含横坐标值、纵坐标值、数值以及应用场景等隐性属性;指标项根据属性划分为特征类、名词类、分类类以及统计类,统计类又分为指标和指标分类描述,如图1所示。
上述特征类指标是指描述主体唯一性属性的指标,例如:公民的身份证号码、企业(法人和其他组织)的统一社会信用代码、科技计划项目的项目编号等;名词类指标是指描述主体字符型属性的指标,例如公民的姓名、企业(法人和其他组织)的名称、地址等;分类类指标是指描述主体分类型属性的指标,例如公民的学历、学位,企业(法人和其他组织)的行业、领域等;统计类指标指的是描述主体的数值型属性,例如公民的年收入、年支出,企业(法人和其他组织)的固定资产、销售收入等。
指标由指标名称、计量单位、时间限制、空间限制、应用限制五个要素组成。指标分类描述指的是描述指标的角度,主要来自分类类指标项,例如:按企业规模角度,分为大型、中型、小型、微型;按登记注册类型角度,分为内资企业、港澳台商投资企业、外商投资企业等。
本发明的存储库包含了多源数值库、多源指标库、多源指标分类描述库、多源关系库以及多源指标引用库。其中,多源数值库为Source Data数据库,简称SD库,用于存储数值项,包含横坐标值、纵坐标值、数值及其相应的多源信息键值;多源指标库为Source Index数据库,简称SI库,用于存储指标单元信息及其相应的多源信息键值,指标单元是指指标及其层级关系;多源指标分类描述库为Source Classification数据库,简称SC库,用于存储指标分类描述单元信息及其相应的多源信息键值,指标分类描述单元是指指标分类描述及其层级关系;多源关系库为Source Relation数据库,简称SR库,用于存储应用场景及其相应的多源信息键值,应用场景是指指标单元与指标分类描述单元在具体二维表中的对应关系,以及二者对应的源、库、表等信息;多源指标引用库为Source Quote数据库,简称SQ库,用于存储多源信息。
一种多源数据颗粒化融合及指标分类分层处理方法,其流程如图2所示,具体包括以下步骤。
Z1.采集各种二维表格数据。
Z2.利用多源数据颗粒化融合器,将采集到的数据经过清洗后,分别存储到SI库、SC库、SD库、SR库、SQ库五个数据库中。
本步骤中所述的多源数据颗粒化融合器包括电子表格格式规整器、区域自动识别器、指标结构解析器和数值项自动提取器,其具体流程如图3所示,详细包括以下内容:
Z21.加载表格文档,读取表格文档所属的数据源名称、年度等隐含的多源信息,存入SQ库。
Z22.利用电子表格格式规整器,将多种形式的表格统一为标准多源表格待处理文档PD。具体实现方法如下。
Z221.加载表格文档。
Z222.根据表格特征判断文档类型,是业务数据表格还是年鉴数据表格;如果是业务数据表格,则跳转到步骤Z223;如果是年鉴数据表格,则跳转到步骤Z226。
Z223.在表格文档左侧添加一列,作为区域标注列;在表格文档上部添加一行,作为指标分类标注行。
Z224.利用自学习算法,根据每行单元格特征,识别数值区域和指标区域,进行区域标注列标注;利用自学习算法,根据每列单元格特征,识别指标分类,进行指标分类标注行标注。
Z225.引入业务样表,如调查表、指标说明等,标注指标单元和指标分类描述单元的层级关系;同时将特征类指标项、名词类指标项做为隐含属性和应用场景处理。
Z226.形成规范的待处理文档PD。
Z23.利用区域自动识别器,读取步骤Z22形成的待处理文档PD,形成表格矩阵M,并识别指标区域和数值区域。
Z231.加载步骤Z226形成的待处理文档PD。
Z232.形成表格矩阵。
Z233.按照指标单元特征,识别指标单元区域;按照指标分类描述单元特征,识别指标分类描述单元区域;按照数值项特征,识别数值区域。
Z24.利用指标结构解析器,递归遍历指标区域,结合SQ库存储的多源信息,识别并提取指标单元及其对应的多源信息键值,存入SI库;识别并提取指标分类描述单元及其对应的多源信息键值,存入SC库;识别并标引指标单元和指标分类描述单元之间的应用场景及其对应的多源信息键值,存入SR库。
Z241.加载经步骤Z233识别后的表格文档PD。
Z242.提取表格文档PD中的源、库、表隐含关系属性。
Z243.读取目标区域。
Z244.依据单元格特征,分别沿X轴、Y轴识别目标区域,利用递归算法,识别并读取目标区域的层级关系。
Z245.提取目标区域,利用自学习算法判断是指标单元还是指标分类描述单元。
Z246.结合SQ库存储的多源信息进行迭代判断,如果是指标单元,将多源指标单元及其对应的多源信息键值存入SI库,同时将其应用场景及其对应的多源信息键值与步骤Z242提取的关系属性存入SR库;如果是指标分类描述单元,将多源指标分类描述单元及其对应的多源信息键值存入SC库,同时将其应用场景及其对应的多源信息键值与步骤Z242提取的关系属性存入SR库。
Z25.利用数值项自动提取器,通过遍历数值区域,结合SQ库存储的多源信息,提取多源数值项,同时依据步骤Z23形成的表格矩阵M的横坐标和纵坐标以及步骤Z24提取的指标单元和指标分类描述单元,定位并标引该多源数值项对应的指标单元键值、指标分类描述单元键值和其对应的多源信息键值,存入SD库。
Z251.加载步骤Z23中表格矩阵的数值区域。
Z252.顺次读取单元格内容,记录单元格的横纵坐标值。
Z253.依据横纵坐标值以及步骤Z24提取的指标单元和指标分类描述单元,定位并记录横纵坐标对应的指标单元键值和指标分类描述单元键值。
Z254.提取多源数值项以及多源数值项对应的横纵坐标值、指标单元键值、指标分类描述单元键值和其对应的多源信息键值,存入SD库。
经过步骤Z2处理后的表格数据具备了多源指标分类分级管理、多源指标分类描述分类分级管理、数值颗粒化存储以及多源应用场景个性化记录的特点,一次性解决了数据的规整化、指标标准化、隐性属性显性化等诸多问题,为多源数据处理以及大规模数据运算提供了基础。
Z3.构建多源指标索引结构SS,依据用户的选择,利用多源数据指标分类分级呈现器读取SI库、SC库、SD库、SR库、SQ库中的信息。
本步骤中所述的多源数据指标分类分级呈现器包括指标索引结构构建器和层级分类结果呈现器,其具体流程如图4所示,详细包括以下内容:
Z31.构建多源指标索引结构SS。
多源指标索引结构SS的结构如图5所示,包括多源指标区、多源指标分类描述区、多源关系区和多源已选指标区;其中多源指标区为SIA区域,该区域用于呈现SI库中的多源指标及多源指标层级关系;多源指标分类描述区为SCA区域,该区域用于呈现SC库中的多源指标分类描述及其层级关系;多源关系区为SRA区域,该区域用于呈现多源指标单元和多源指标分类描述单元之间的应用场景、源库表等隐含属性信息以及SQ库中对应的多源信息;多源已选指标区为SSA区域,该区域用于呈现用户已经选择的多源指标、多源指标分类描述以及源属性信息。
Z32.结合用户的选择,利用指标索引结构构建器读取SI库、SC库、SD库、SR库、SQ库中的信息,填充多源指标索引结构SS。
Z321.初始化多源指标索引结构SS。
Z322.读取SI库中的多源指标单元信息,填充多源指标索引结构SS的SIA区域,形成多源指标的树形层级结构,供用户选择。
Z323.依据用户选择的多源指标i,在SR库中读取多源指标i对应的关系,填充多源指标索引结构SS的SRA区域,形成多源应用场景r。
Z324.依据SR库中读取的多源指标i对应的关系,读取SC库中的多源指标分类描述c,填充多源指标索引结构SS的SCA区域,形成多源指标分类描述的树形层级结构,供用户选择。
Z325.依据用户选择的多源指标i、多源指标分类描述c和多源应用场景r,填充多源指标索引结构SS的SSA区域。
本发明中,无论是多源指标的树形层级结构,还是多源指标分类描述的树形层级结构,不仅可以使指标层次清晰,用户选择时,可直观的看到多源指标在不同分类描述上的分布情况,有利于更快、更精准的找到需要的数据;而且经过填充后的多源指标索引结构SS能够更准确的表达数据自身含义。本实施例中,经过填充后的多源指标索引结构SS’如图6所示。
Z33.依据用户的选择,利用层级分类结果呈现器迭代提取SI库、SC库、SD库、SR库、SQ库中的相应信息。
Z331.初始化数据存储容器矩阵M。
Z332.读取多源指标索引结构SS中的SSA区域信息。
Z333.依据SSA区域的用户已选多源指标信息,在SI库中读取多源指标单元信息,填充矩阵M的X轴指标区。
Z334.依据矩阵M的X轴指标区的多源指标单元信息,在SD库中读取相关数据,生成临时数据集合DS1。
Z335.依据SSA区域的用户已选多源指标分类描述信息,在SC库中读取多源指标分类描述单元,填充矩阵M的Y轴指标分类描述区。
Z336.依据矩阵M的Y轴指标分类描述区的多源指标分类描述单元信息,在SD库中读取相关数据,生成临时数据集合DS2。
Z337.对临时数据集合DS1和临时数据集合DS2求交集,获得矩阵数据集合DS3,将矩阵数据集合DS3填充到矩阵M。Z4.渲染多源数据检索结果,呈现给用户。
本实施例呈现给用户的表格示例如图7所示,其指标单元包括指标X11、指标X21、指标X22(指标X221、指标X222、指标X223),分别来源于源1和源2;指标分类描述单元包括分类描述Y1(分类描述Y11、分类描述Y12、分类描述Y13、)、分类描述Y2(分类描述Y21、分类描述Y22、分类描述Y221),分别来源于源1和源2。各指标对应的应用场景分别为:①指标单元:指标X11、指标X21;指标分类描述单元:分类描述Y1(分类描述Y11、分类描述Y12、分类描述Y13),来源于源1;②指标单元:指标X11、指标X21;指标分类描述单元:Y2(分类描述Y21、分类描述Y22、分类描述Y221),来源于源1;③指标单元:指标X22(指标X221、指标X222、指标X223);指标分类描述单元:分类描述Y1(分类描述Y11、分类描述Y12、分类描述Y13),来源于源2;④指标单元:指标X22(指标X221、指标X222、指标X223);指标分类描述单元:Y2(分类描述Y21、分类描述Y22、分类描述Y221),来源于源2。
可见,在多源数据情况下,用户在选择来自不同数据源的数据展现方式时,在树形层级结构中,随意的选择一个(一组)或多个(多组)指标,同时选择一个(一组)或多个(多组)指标分类描述,便能够根据用户的选择,快速在表格中呈现结果,且与规范的二维表格的呈现方式基本相同,实现了对二维表格数据的准确表达。
本发明通过将多源文档预处理为统一的待处理文档,对指标进行分类,实现了多源数据的统一处理、存储;通过记录指标的源、库、表等隐含属性信息,将冗余的指标名称统一化,保证了多源指标的唯一性;通过提取并记录多源指标的不同应用场景,实现了多源指标应用场景个性化;通过对指标和指标分类描述的分类分级处理,实现了指标标准化,使指标层次清晰、分类明确、展现方式灵活多样,做到了多源指标的统一表达和呈现。

Claims (10)

1.一种多源数据颗粒化融合及指标分类分层处理方法,其特征在于,主要包括以下步骤:
Z1.采集各种二维表格数据;
Z2.利用多源数据颗粒化融合器,将采集到的数据经过清洗后,分别存储到SI库、SC库、SD库、SR库、SQ库五个数据库中;
Z3.构建多源指标索引结构SS,依据用户的选择,利用多源数据指标分类分级呈现器读取SI库、SC库、SD库、SR库、SQ库中的信息;
Z4.渲染多源数据检索结果,呈现给用户。
2.根据权利要求1所述的一种多源数据颗粒化融合及指标分类分层处理方法,其特征在于,步骤Z2中所述的多源数据颗粒化融合器包括电子表格格式规整器、区域自动识别器、指标结构解析器和数值项自动提取器,具体实现方法如下:
Z21.加载表格文档,读取表格文档所属的数据源多源信息,存入SQ库;
Z22.利用电子表格格式规整器,将多种形式的表格统一为标准多源表格待处理文档PD;
Z23.利用区域自动识别器,读取步骤Z22形成的待处理文档PD,形成表格矩阵M,并识别指标区域和数值区域;
Z24.利用指标结构解析器,递归遍历指标区域,结合SQ库存储的多源信息,识别并提取指标单元及其对应的多源信息键值,存入SI库;识别并提取指标分类描述单元及其对应的多源信息键值,存入SC库;识别并标引指标单元和指标分类描述单元之间的应用场景及其对应的多源信息键值,存入SR库;
Z25.利用数值项自动提取器,通过遍历数值区域,结合SQ库存储的多源信息,提取多源数值项,同时依据步骤Z23形成的表格矩阵M的横坐标和纵坐标以及步骤Z24提取的指标单元和指标分类描述单元,定位并标引该多源数值项对应的指标单元键值、指标分类描述单元键值和其对应的多源信息键值,存入SD库。
3.根据权利要求2所述的一种多源数据颗粒化融合及指标分类分层处理方法,其特征在于,步骤Z22具体包括以下内容:
Z221.加载表格文档;
Z222.根据表格特征判断文档类型,是业务数据表格还是年鉴数据表格;如果是业务数据表格,则跳转到步骤Z223;如果是年鉴数据表格,则跳转到步骤Z226;
Z223.在表格文档左侧添加一列,作为区域标注列;在表格文档上部添加一行,作为指标分类标注行;
Z224.利用自学习算法,根据每行单元格特征,识别数值区域和指标区域,进行区域标注列标注;利用自学习算法,根据每列单元格特征,识别指标分类,进行指标分类标注行标注;
Z225.引入业务样表,标注指标单元和指标分类描述单元的层级关系;同时将特征类指标项、名词类指标项做为隐含属性和应用场景处理;
Z226.形成规范的待处理文档PD。
4.根据权利要求3所述的一种多源数据颗粒化融合及指标分类分层处理方法,其特征在于,步骤Z23具体包括以下内容:
Z231.加载步骤Z226形成的待处理文档PD;
Z232.形成表格矩阵;
Z233.按照指标单元特征,识别指标单元区域;按照指标分类描述单元特征,识别指标分类描述单元区域;按照数值项特征,识别数值区域。
5.根据权利要求4所述的一种多源数据颗粒化融合及指标分类分层处理方法,其特征在于,步骤Z24具体包括以下内容:
Z241.加载经步骤Z233识别后的表格文档PD;
Z242.提取表格文档PD中的源、库、表隐含关系属性;
Z243.读取目标区域;
Z244.依据单元格特征,分别沿X轴、Y轴识别目标区域,利用递归算法,识别并读取目标区域的层级关系;
Z245.提取目标区域,利用自学习算法判断是指标单元还是指标分类描述单元;
Z246.结合SQ库存储的多源信息进行迭代判断,如果是指标单元,将多源指标单元及其对应的多源信息键值存入SI库,同时将其应用场景及其对应的多源信息键值与步骤Z242提取的关系属性存入SR库;如果是指标分类描述单元,将多源指标分类描述单元及其对应的多源信息键值存入SC库,同时将其应用场景及其对应的多源信息键值与步骤Z242提取的关系属性存入SR库。
6.根据权利要求5所述的一种多源数据颗粒化融合及指标分类分层处理方法,其特征在于,步骤Z25具体包括以下内容:
Z251.加载步骤Z23中表格矩阵的数值区域;
Z252.顺次读取单元格内容,记录单元格的横纵坐标值;
Z253.依据横纵坐标值以及步骤Z24提取的指标单元和指标分类描述单元,定位并记录横纵坐标对应的指标单元键值和指标分类描述单元键值;
Z254.提取多源数值项以及多源数值项对应的横纵坐标值、指标单元键值、指标分类描述单元键值和其对应的多源信息键值,存入SD库。
7.根据权利要求1所述的一种多源数据颗粒化融合及指标分类分层处理方法,其特征在于,步骤Z3中所述的多源数据指标分类分级呈现器包括指标索引结构构建器和层级分类结果呈现器,具体包括以下内容:
Z31.构建多源指标索引结构SS;
Z32.结合用户的选择,利用指标索引结构构建器读取SI库、SC库、SD库、SR库、SQ库中的信息,填充多源指标索引结构SS;
Z33.依据用户的选择,利用层级分类结果呈现器迭代提取SI库、SC库、SD库、SR库、SQ库中的相应信息。
8.根据权利要求7所述的一种多源数据颗粒化融合及指标分类分层处理方法,其特征在于,步骤Z31中所述的多源指标索引结构SS包括多源指标区、多源指标分类描述区、多源关系区和多源已选指标区;其中多源指标区为SIA区域,该区域用于呈现SI库中的多源指标及多源指标层级关系;多源指标分类描述区为SCA区域,该区域用于呈现SC库中的多源指标分类描述及其层级关系;多源关系区为SRA区域,该区域用于呈现多源指标单元和多源指标分类描述单元之间的应用场景、源库表等隐含属性信息以及SQ库中对应的多源信息;多源已选指标区为SSA区域,该区域用于呈现用户已经选择的多源指标、多源指标分类描述以及源属性信息。
9.根据权利要求7所述的一种多源数据颗粒化融合及指标分类分层处理方法,其特征在于,步骤Z32的具体实现方法为:
Z321.初始化多源指标索引结构SS;
Z322.读取SI库中的多源指标单元信息,填充多源指标索引结构SS的SIA区域,形成多源指标的树形层级结构,供用户选择;
Z323.依据用户选择的多源指标i,在SR库中读取多源指标i对应的关系,填充多源指标索引结构SS的SRA区域,形成多源应用场景r;
Z324.依据SR库中读取的多源指标i对应的关系,读取SC库中的多源指标分类描述c,填充多源指标索引结构SS的SCA区域,形成多源指标分类描述的树形层级结构,供用户选择;
Z325.依据用户选择的多源指标i、多源指标分类描述c和多源应用场景r,填充多源指标索引结构SS的SSA区域。
10.根据权利要求7所述的一种多源数据颗粒化融合及指标分类分层处理方法,其特征在于,步骤Z33的具体实现方法为:
Z331.初始化数据存储容器矩阵M;
Z332.读取多源指标索引结构SS中的SSA区域信息;
Z333.依据SSA区域的用户已选多源指标信息,在SI库中读取多源指标单元信息,填充矩阵M的X轴指标区;
Z334.依据矩阵M的X轴指标区的多源指标单元信息,在SD库中读取相关数据,生成临时数据集合DS1;
Z335.依据SSA区域的用户已选多源指标分类描述信息,在SC库中读取多源指标分类描述单元,填充矩阵M的Y轴指标分类描述区;
Z336.依据矩阵M的Y轴指标分类描述区的多源指标分类描述单元信息,在SD库中读取相关数据,生成临时数据集合DS2;
Z337.对临时数据集合DS1和临时数据集合DS2求交集,获得矩阵数据集合DS3,将矩阵数据集合DS3填充到矩阵M。
CN202011361683.5A 2020-11-28 2020-11-28 一种多源数据颗粒化融合及指标分类分层处理方法 Active CN112486989B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011361683.5A CN112486989B (zh) 2020-11-28 2020-11-28 一种多源数据颗粒化融合及指标分类分层处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011361683.5A CN112486989B (zh) 2020-11-28 2020-11-28 一种多源数据颗粒化融合及指标分类分层处理方法

Publications (2)

Publication Number Publication Date
CN112486989A true CN112486989A (zh) 2021-03-12
CN112486989B CN112486989B (zh) 2021-08-27

Family

ID=74936560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011361683.5A Active CN112486989B (zh) 2020-11-28 2020-11-28 一种多源数据颗粒化融合及指标分类分层处理方法

Country Status (1)

Country Link
CN (1) CN112486989B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114780654A (zh) * 2022-05-27 2022-07-22 河北省科学技术情报研究院(河北省科技创新战略研究院) 一种多源主附实体结构模块化构建的处理方法
CN114880330A (zh) * 2022-05-27 2022-08-09 河北省科学技术情报研究院(河北省科技创新战略研究院) 单源多期指标体系模块化构建及实体自动识别处理方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101051313A (zh) * 2007-05-09 2007-10-10 崔志明 用于深层网页数据源集成的数据源发现方法
CN103365998A (zh) * 2013-07-12 2013-10-23 华东师范大学 一种相似字符串检索方法
CN105868861A (zh) * 2016-04-08 2016-08-17 青岛海信网络科技股份有限公司 一种基于时空数据融合的公交客流演化分析方法
CN106779407A (zh) * 2016-12-15 2017-05-31 国网浙江省电力公司杭州供电公司 一种基于数据池的电力数据融合方法
CN107451282A (zh) * 2017-08-09 2017-12-08 南京审计大学 一种基于大数据环境下的多源数据聚合抽样策略
CN107766579A (zh) * 2017-11-16 2018-03-06 四川长虹电器股份有限公司 基于xbrl标准的主数据管理系统的设计方法
CN108010317A (zh) * 2017-11-29 2018-05-08 天津易华录信息技术有限公司 一种交通管理大数据系统
CN109474594A (zh) * 2018-11-09 2019-03-15 北京海兰信数据科技股份有限公司 船端数据轻量化装置、岸端数据还原装置、船岸一体化数据轻量化传输系统及传输方法
CN110147357A (zh) * 2019-05-07 2019-08-20 浙江科技学院 一种基于大数据环境下的多源数据聚合抽样方法及系统
US20200040373A1 (en) * 2018-08-06 2020-02-06 The Procter & Gamble Company Method of Screening Skin Products
CN110941612A (zh) * 2019-11-19 2020-03-31 上海交通大学 基于关联数据的自治数据湖构建系统及方法
CN111125069A (zh) * 2019-11-13 2020-05-08 深圳市华傲数据技术有限公司 一种数据清洗融合系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101051313A (zh) * 2007-05-09 2007-10-10 崔志明 用于深层网页数据源集成的数据源发现方法
CN103365998A (zh) * 2013-07-12 2013-10-23 华东师范大学 一种相似字符串检索方法
CN105868861A (zh) * 2016-04-08 2016-08-17 青岛海信网络科技股份有限公司 一种基于时空数据融合的公交客流演化分析方法
CN106779407A (zh) * 2016-12-15 2017-05-31 国网浙江省电力公司杭州供电公司 一种基于数据池的电力数据融合方法
CN107451282A (zh) * 2017-08-09 2017-12-08 南京审计大学 一种基于大数据环境下的多源数据聚合抽样策略
CN107766579A (zh) * 2017-11-16 2018-03-06 四川长虹电器股份有限公司 基于xbrl标准的主数据管理系统的设计方法
CN108010317A (zh) * 2017-11-29 2018-05-08 天津易华录信息技术有限公司 一种交通管理大数据系统
US20200040373A1 (en) * 2018-08-06 2020-02-06 The Procter & Gamble Company Method of Screening Skin Products
CN109474594A (zh) * 2018-11-09 2019-03-15 北京海兰信数据科技股份有限公司 船端数据轻量化装置、岸端数据还原装置、船岸一体化数据轻量化传输系统及传输方法
CN110147357A (zh) * 2019-05-07 2019-08-20 浙江科技学院 一种基于大数据环境下的多源数据聚合抽样方法及系统
CN111125069A (zh) * 2019-11-13 2020-05-08 深圳市华傲数据技术有限公司 一种数据清洗融合系统
CN110941612A (zh) * 2019-11-19 2020-03-31 上海交通大学 基于关联数据的自治数据湖构建系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘顺利等: "我国科技报告建设面临的发展瓶颈及其对策建议", 《科学管理研究》 *
王锦华等: "基于多源数据融合的军事医学机构名称规范研究", 《中华医学图书情报杂志》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114780654A (zh) * 2022-05-27 2022-07-22 河北省科学技术情报研究院(河北省科技创新战略研究院) 一种多源主附实体结构模块化构建的处理方法
CN114880330A (zh) * 2022-05-27 2022-08-09 河北省科学技术情报研究院(河北省科技创新战略研究院) 单源多期指标体系模块化构建及实体自动识别处理方法
CN114780654B (zh) * 2022-05-27 2022-11-15 河北省科学技术情报研究院(河北省科技创新战略研究院) 一种多源主附实体结构模块化构建的处理方法
CN114880330B (zh) * 2022-05-27 2023-05-30 河北省科学技术情报研究院(河北省科技创新战略研究院) 单源多期指标体系模块化构建及实体自动识别处理方法

Also Published As

Publication number Publication date
CN112486989B (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN110119395B (zh) 大数据治理中基于元数据实现数据标准与数据质量关联处理的方法
CN112328589B (zh) 一种电子表格数据颗粒化及指标标准化处理方法
CN112486989B (zh) 一种多源数据颗粒化融合及指标分类分层处理方法
US20010051947A1 (en) Spatial data mining method, spatial data mining apparatus and storage medium
CN112199433A (zh) 一种用于城市级数据中台的数据治理系统
CN104750776B (zh) 使用元数据访问数据库平台中的信息内容
US20100199223A1 (en) Hierarchy display
CN110990403A (zh) 业务数据的存储方法、系统、计算机设备及存储介质
CN111125284A (zh) 一种一体化时空大数据与地理信息公共服务云平台
CN111159204B (zh) 一种通过配置的方式生成标签的方法及系统
EP2251802B1 (en) Method and program for generating a subset of data from a database
CN114547077A (zh) 基层政务表格数据智能处理系统及方法
CN117150138A (zh) 一种基于高维空间映射的科技资源组织方法及系统
CN109636303B (zh) 一种半自动提取和结构化文档信息的存储方法及系统
CN116932632A (zh) 一种数据资产管理和可视化的方法和系统
CN112183037A (zh) 一种平行企业财税SaaS系统中数据分类汇总方法及系统
CN116226108A (zh) 可实现不同治理程度的数据治理方法及系统
CN113642291B (zh) 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端
CN115293682A (zh) 异常物流订单监控方法及相关装置
CN110737790B (zh) 一种基于数据库的通用图像数据集管理方法
US20070226085A1 (en) System and method for automated mapping of data in a multi-valued data structure
CN115952160B (zh) 一种数据盘点方法
CN116541382B (zh) 基于数据安全识别级别的数据治理方法及系统
US20070214139A1 (en) System and method for mapping data in a multi-valued data structure
KR100925725B1 (ko) 다차원 속성을 가진 확장성 비지니스 리포팅 언어 택사노미 구성 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant