CN112328589A - 一种电子表格数据颗粒化及指标标准化处理方法 - Google Patents

一种电子表格数据颗粒化及指标标准化处理方法 Download PDF

Info

Publication number
CN112328589A
CN112328589A CN202011365226.3A CN202011365226A CN112328589A CN 112328589 A CN112328589 A CN 112328589A CN 202011365226 A CN202011365226 A CN 202011365226A CN 112328589 A CN112328589 A CN 112328589A
Authority
CN
China
Prior art keywords
index
unit
numerical
area
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011365226.3A
Other languages
English (en)
Other versions
CN112328589B (zh
Inventor
李银生
聂永川
张朝宗
王红
吴峰
任雁
刘淼
张金龙
陈娟
张碟
蒋倩男
张聪
高原
高银珍
毋鹏杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei Academy Of Science And Technology Information Hebei Academy Of Science And Technology Innovation Strategy
Original Assignee
Hebei Academy Of Science And Technology Information Hebei Academy Of Science And Technology Innovation Strategy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei Academy Of Science And Technology Information Hebei Academy Of Science And Technology Innovation Strategy filed Critical Hebei Academy Of Science And Technology Information Hebei Academy Of Science And Technology Innovation Strategy
Priority to CN202011365226.3A priority Critical patent/CN112328589B/zh
Publication of CN112328589A publication Critical patent/CN112328589A/zh
Application granted granted Critical
Publication of CN112328589B publication Critical patent/CN112328589B/zh
Priority to ZA2021/06279A priority patent/ZA202106279B/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种电子表格数据颗粒化及指标标准化处理方法,包括以下步骤:利用电子表格格式规整器将表格统一为标准表格待处理文档PD;利用区域自动识别器读取待处理文档PD,形成表格矩阵M,并识别指标区域和数值区域;利用指标结构解析器,递归遍历指标区域,识别并提取指标单元存入I库;识别并提取指标分类描述单元存入C库;识别并标引指标单元和指标分类描述单元之间的应用场景存入R库;利用数值项自动提取器,通过遍历数值区域提取数值项,同时将其对应的横纵坐标、指标单元键值、指标分类描述单元键值存入D库。本发明一次性解决了二维电子表格数据的颗粒化、标准化、隐性属性显性化等问题,为进行多源、大规模数据运算提供了基础。

Description

一种电子表格数据颗粒化及指标标准化处理方法
技术领域
本发明属于大数据处理技术领域,特别是一种对电子表格进行颗粒化、标准化、隐性属性显性化的处理方法。
背景技术
在大数据治理过程中,数据的来源是多样化的,表格数据文件是其中一种常见类型。目前,表格数据文件多是二维电子表格,在数据处理时,二维电子表格数据的存储和表达方式通常是将表格的横坐标和纵坐标直接组合之后进行存储与展现,例如,图2展示的二维电子表格,其表达数据348时,通常采用“大型企业数348”进行表示。这种方式主要存在以下缺陷。
1)由于表格数据庞杂、指标不统一,缺少对指标的分类和分级定义,利用现有技术处理的二维表格数据,都以同一类型存储在数据库中,从而导致指标多样化、非标准化;2)现有技术在提取二维电子表格数据的过程中,大多没有直接记录指标单元的层级关系以及应用场景等隐含属性,而是以横坐标、纵坐标直接组合方式存储,这样不但丢失了很多隐含关系,还增加了指标名称的长度、增大了指标的数量,在数据表达时会导致指标不标准、可读性差、无法准确描述指标(数据)之间的层级关系等诸多问题;延续上例,“大型企业数348”仅能供读者看到字面含义,而其隐含的“2016年年鉴(书名)、按企业规模及登记注册类型分规模以上工业企业基本情况(表格名称)”都没有真正的表达出来;3)另外,目前数据的表达和展示大多采用EXCEL表格、PDF、HTML、图片等方式,现有的存储方式由于缺失数据指标层级关系,因此不利于数据的查询、提取、汇总、统计以及大规模运算和精准表达。
发明内容
本发明需要解决的技术问题是提供一种电子表格数据颗粒化及指标标准化处理方法,以解决现有二维电子表格数据无法实现便捷查询和精准表达的问题,通过对指标分类、分级定义和抽取,结合隐性属性显性化以及分类分级存储等技术方法,一次性解决二维电子表格数据的颗粒化、标准化、隐性属性显性化等问题,为进行多源、大规模数据运算提供基础。
为解决上述技术问题,本发明所采取的技术方案如下。
一种电子表格数据颗粒化及指标标准化处理方法,具体包括以下步骤:
S1.加载表格文档,利用电子表格格式规整器,将多种形式的表格统一为标准表格待处理文档PD;
S2.利用区域自动识别器,读取步骤S1形成的待处理文档PD,形成表格矩阵M,并识别指标区域和数值区域;
S3.利用指标结构解析器,递归遍历指标区域,识别并提取指标单元,存入I库;识别并提取指标分类描述单元,存入C库;识别并标引指标单元和指标分类描述单元之间的应用场景,存入R库;
S4.利用数值项自动提取器,通过遍历数值区域,提取数值项,同时依据步骤S2形成的表格矩阵M的横坐标和纵坐标以及步骤S3提取的指标单元和指标分类描述单元,定位并标引该数值项对应的指标单元键值和指标分类描述单元键值,存入D库。
上述一种电子表格数据颗粒化及指标标准化处理方法,在表格文档加载前,将表格中的内容划分为数值项和指标项;其中数值项包含横纵坐标值和数值,指标项根据属性划分为特征类、名词类、分类类以及统计类,统计类又分为指标和指标分类描述。
上述一种电子表格数据颗粒化及指标标准化处理方法,步骤S1中所述电子表格格式规整器将多种形式的表格统一为标准表格待处理文档PD的具体方法为:
S11.加载表格文档;
S12.根据表格特征判断文档类型,是业务数据表格还是年鉴数据表格;如果是业务数据表格,则跳转到步骤S13;如果是年鉴数据表格,则跳转到步骤S16;
S13.在表格文档左侧添加一列,作为区域标注列;在表格文档上部添加一行,作为指标分类标注行;
S14.利用自学习算法,根据每行单元格特征,识别数值区域和指标区域,进行区域标注列标注;利用自学习算法,根据每列单元格特征,识别指标分类,进行指标分类标注行标注;
S15.引入业务样表,标注指标单元和指标分类描述单元的层级关系;同时将特征类指标项、名词类指标项做为隐含属性和应用场景处理;
S16.形成规范的待处理文档PD。
上述一种电子表格数据颗粒化及指标标准化处理方法,步骤S2中所述区域自动识别器形成表格矩阵并识别指标区域和数值区域的具体方法为:
S21.加载步骤S16形成的待处理文档PD;
S22.形成表格矩阵;
S23.按照指标单元特征,识别指标单元区域;按照指标分类描述单元特征,识别指标分类描述单元区域;按照数值项特征,识别数值区域。
上述一种电子表格数据颗粒化及指标标准化处理方法,步骤S3中所述指标结构解析器提取指标单元、指标分类描述单元、应用场景的具体方法为:
S31.加载经步骤S23识别后的表格文档PD;
S32.提取表格文档PD中的源、库、表等隐含关系属性;
S33.读取目标区域;
S34.依据单元格特征,分别沿X轴、Y轴识别目标区域,利用递归算法,识别并读取目标区域的层级关系;
S35.提取目标区域,利用自学习算法判断是指标单元还是指标分类描述单元;
S36.迭代判断,如果是指标单元,则存入I库,同时将其应用场景与步骤S32提取的关系属性存入R库;如果是指标分类描述单元,则存入C库,同时将其应用场景与步骤S32提取的关系属性存入R库。
上述一种电子表格数据颗粒化及指标标准化处理方法,步骤S4中所述数值项自动提取器提取数值项的具体方法为:
S41.加载步骤S2中表格矩阵的数值区域;
S42.顺次读取单元格内容,记录单元格的横纵坐标值;
S43.依据横纵坐标值以及步骤S3提取的指标单元和指标分类描述单元,定位并记录横纵坐标对应的指标单元键值和指标分类描述单元键值;
S44.提取数值项以及数值项对应的横纵坐标值、指标单元键值、指标分类描述单元键值,存入D库。
由于采用了以上技术方案,本发明所取得技术进步如下。
本发明通过把指标分类处理后,可以将各式各样的二维表格数据进行归一化处理,并且提取了源、库、表等隐含属性信息,记录了数据的应用场景,使数据规整化、指标标准化、隐性属性显性化,为进行数据多源、大规模数据运算提供了可行性的存储方案。
本发明提出的指标分类,将常见的二维表格数据进行统一处理、存储,改变了现有分别处理、多库存储的服务方式,大大减少了数据联合大规模运算的程序开发复杂度,提高了数据使用的灵活性。本发明通过将统计类指标划分为指标和指标分类描述,同时记录了二者的层级关系和应用场景,与传统X轴Y轴直接组合形成的指标相比,大大缩减了指标数量,使指标更简洁、可读性更强、更易于理解;且指标和指标分类描述分层级管理,使层次更清晰、表达更准确,应用场景的记录可使用户的选择更明确、指向更精准。
本发明在对数据进行颗粒化的同时,记录了数据之间的层级关系,标引了数据的指标分类描述,记录了源、库、表等隐含属性信息,与现有处理方法、存储结构相比,展示的数据包含了更完整的数据关系、指标关系等隐性属性,可准确、丰富且详细的表达数据关系。
附图说明
图1为本发明所述指标分类示意图;
图2为本发明所述表格分区的示例图;
图3为本发明所述方法的流程图;
图4为本发明步骤S1的流程图;
图5为本发明步骤S2的流程图;
图6为本发明步骤S3的流程图;
图7为本发明步骤S4的流程图。
具体实施方式
下面将结合附图和具体实施方式对本发明进行进一步详细说明。
本发明提出一种电子表格数据颗粒化及指标标准化处理方法,通过将表格中大量的、多样冗余的指标进行分类,并建立存储库,然后通过将多种形式的表格统一为标准表格、识别标题区域和数值区域、分别提取数值的相关属性信息,最终形成颗粒化、标准化的数据;形成的数据不仅仅是数值本身,而是自身带有指标单元、指标分类描述单元以及应用场景属性的数值。
本发明,采集的二维电子表格中的内容包含数值项和指标项。其中数值项包含横坐标值、纵坐标值、数值以及应用场景等隐性属性;指标项根据属性划分为特征类、名词类、分类类以及统计类,统计类又分为指标和指标分类描述,如图1所示。
上述特征类指标是指描述主体唯一性属性的指标,例如:公民的身份证号码、企业(法人和其他组织)的统一社会信用代码、科技计划项目的项目编号等;名词类指标是指描述主体字符型属性的指标,例如公民的姓名、企业(法人和其他组织)的名称、地址等;分类类指标是指描述主体分类型属性的指标,例如公民的学历、学位,企业(法人和其他组织)的行业、领域等;统计类指标指的是描述主体的数值型属性,例如公民的年收入、年支出,企业(法人和其他组织)的固定资产、销售收入等。
指标由指标名称、计量单位、时间限制、空间限制、应用限制五个要素组成。指标分类描述指的是描述指标的角度,主要来自分类类指标项,例如:按企业规模角度,分为大型、中型、小型、微型;按登记注册类型角度,分为内资企业、港澳台商投资企业、外商投资企业等。
本发明的存储库包含了数值库、指标库、指标分类描述库以及关系库。其中,数值库为Data数据库,简称D库,用于存储数值项,包含横坐标值、纵坐标值和数值等;指标库为Index数据库,简称I库,用于存储指标单元信息等,指标单元是指指标及其层级关系;指标分类描述库为Classification数据库,简称C库,用于存储指标分类描述单元信息等,指标分类描述单元是指指标分类描述及其层级关系;关系库为Relation数据库,简称R库,用于存储应用场景等,应用场景是指指标单元与指标分类描述单元在具体二维表中的对应关系,以及二者对应的源、库、表等信息。
存入D库的数据既包含了数值本身,也包含了数值自身所携带的指标单元、指标分类描述单元以及应用场景等属性,使数据具有了完整的数据关系,真实表达了数值所代表的含义,方便理解。例如,图2中所示的Z区域表示数值,X1、X2、X3区域为指标单元;Y1和Y2区域为指标分类描述单元,X1与Y1的对应关系以及这种对应关系所在的源、库、表等属性信息为应用场景。
本发明的电子表格数据颗粒化及指标标准化处理方法,其流程如图3所示,具体包括以下步骤。
S1.加载表格文档,利用电子表格格式规整器,将多种形式的表格统一为标准表格待处理文档PD。
本步骤中,电子表格格式规整器将多种形式的表格统一为标准表格待处理文档PD的方法如图4所示,具体如下。
S11.加载表格文档。
S12.根据表格特征判断文档类型,是业务数据表格还是年鉴数据表格;如果是业务数据表格,则跳转到步骤S13;如果是年鉴数据表格,则跳转到步骤S16。
S13.在表格文档左侧添加一列,作为区域标注列;在表格文档上部添加一行,作为指标分类标注行。
S14.利用自学习算法,根据每行单元格特征,识别数值区域和指标区域,进行区域标注列标注;利用自学习算法,根据每列单元格特征,识别指标分类,进行指标分类标注行标注。
S15.引入业务样表,如调查表、指标说明等,标注指标单元和指标分类描述单元的层级关系;同时将特征类指标项、名词类指标项做为隐含属性和应用场景处理。
S16.形成规范的待处理文档PD。
S2.利用区域自动识别器,读取步骤S1形成的待处理文档PD,形成表格矩阵M,并识别指标区域和数值区域。
本步骤中所述区域自动识别器形成表格矩阵并识别指标区域和数值区域的方法如图5所示,具体如下。
S21.加载步骤S16形成的待处理文档PD。
S22.形成表格矩阵。
S23.按照指标单元特征,识别指标单元区域,例如图2的X1、X2、X3区域;按照指标分类描述单元特征,识别指标分类描述单元区域,例如图2的Y1、Y2区域;按照数值项特征,识别数值区域,例如图2的Z区域。
S3.利用指标结构解析器,递归遍历指标区域,识别并提取指标单元,存入I库;识别并提取指标分类描述单元,存入C库;识别并标引指标单元和指标分类描述单元之间的应用场景,存入R库。
本步骤中所述指标结构解析器提取指标单元、指标分类描述单元、应用场景的方法如图6所示,具体如下。
S31.加载经步骤S23识别后的表格文档PD。
S32.提取表格文档PD中的源、库、表等隐含关系属性。其中,源指的是数据的来源,如业务类数据的《高新技术企业调查》,年鉴类数据的《中国统计年鉴(2018)》;库指的是数据所在源下的某一具体单元,如《高新技术企业调查》中的“经济概况”部分,《中国统计年鉴(2018)》中的“固定资产投资”章节;表指的是数据所在源下库中的某一细分数据单元,如《高新技术企业调查》“经济概况”部分中的“主营业务收入”(表),《中国统计年鉴(2018)》“固定资产投资”章节中的“规模以上工业企业固定资产投资”(表)。
S33.读取目标区域,目标区域为指标单元区域或指标分类描述单元区域。
S34.依据单元格特征,分别沿X轴、Y轴识别目标区域,利用递归算法,识别并读取目标区域的层级关系。
S35.提取目标区域,利用自学习算法判断是指标单元还是指标分类描述单元,也可以采用人工干预方式判断。
S36.迭代判断,如果是指标单元,则存入I库,同时将其应用场景与步骤S32提取的关系属性存入R库;如果是指标分类描述单元,则存入C库,同时将其应用场景与步骤S32提取的关系属性存入R库。
S4.利用数值项自动提取器,通过遍历数值区域,提取数值项,同时依据步骤S2形成的表格矩阵M的横坐标和纵坐标以及步骤S3提取的指标单元和指标分类描述单元,定位并标引该数值项对应的指标单元键值和指标分类描述单元键值,存入D库。
本步骤中所述数值项自动提取器提取数值项的方法如图7所示,具体如下。
S41.加载步骤S2中表格矩阵的数值区域。
S42.顺次读取单元格内容,记录单元格的横纵坐标值。
S43.依据横纵坐标值以及步骤S3提取的指标单元和指标分类描述单元,定位并记录横纵坐标对应的指标单元键值和指标分类描述单元键值。
S44.提取数值项以及数值项对应的横纵坐标值、指标单元键值、指标分类描述单元键值,存入D库。
经过本发明处理后的表格数据具备了指标分类分级管理、指标分类描述分类分级管理、数值颗粒化存储以及应用场景个性化记录的特点,一次性解决了数据的规整化、指标标准化、隐性属性显性化等诸多问题,为多源数据处理以及大规模数据运算提供了基础。

Claims (6)

1.一种电子表格数据颗粒化及指标标准化处理方法,其特征在于,具体包括以下步骤:
S1.加载表格文档,利用电子表格格式规整器,将多种形式的表格统一为标准表格待处理文档PD;
S2.利用区域自动识别器,读取步骤S1形成的待处理文档PD,形成表格矩阵M,并识别指标区域和数值区域;
S3.利用指标结构解析器,递归遍历指标区域,识别并提取指标单元,存入I库;识别并提取指标分类描述单元,存入C库;识别并标引指标单元和指标分类描述单元之间的应用场景,存入R库;
S4.利用数值项自动提取器,通过遍历数值区域,提取数值项,同时依据步骤S2形成的表格矩阵M的横坐标和纵坐标以及步骤S3提取的指标单元和指标分类描述单元,定位并标引该数值项对应的指标单元键值和指标分类描述单元键值,存入D库。
2.根据权利要求1所述的一种电子表格数据颗粒化及指标标准化处理方法,其特征在于,在表格文档加载前,将表格中的内容划分为数值项和指标项;其中数值项包含横纵坐标值和数值,指标项根据属性划分为特征类、名词类、分类类以及统计类,统计类又分为指标和指标分类描述。
3.根据权利要求2所述的一种电子表格数据颗粒化及指标标准化处理方法,其特征在于,步骤S1中所述电子表格格式规整器将多种形式的表格统一为标准表格待处理文档PD的具体方法为:
S11.加载表格文档;
S12.根据表格特征判断文档类型,是业务数据表格还是年鉴数据表格;如果是业务数据表格,则跳转到步骤S13;如果是年鉴数据表格,则跳转到步骤S16;
S13.在表格文档左侧添加一列,作为区域标注列;在表格文档上部添加一行,作为指标分类标注行;
S14.利用自学习算法,根据每行单元格特征,识别数值区域和指标区域,进行区域标注列标注;利用自学习算法,根据每列单元格特征,识别指标分类,进行指标分类标注行标注;
S15.引入业务样表,标注指标单元和指标分类描述单元的层级关系;同时将特征类指标项、名词类指标项做为隐含属性和应用场景处理;
S16.形成规范的待处理文档PD。
4.根据权利要求3所述的一种电子表格数据颗粒化及指标标准化处理方法,其特征在于,步骤S2中所述区域自动识别器形成表格矩阵并识别指标区域和数值区域的具体方法为:
S21.加载步骤S16形成的待处理文档PD;
S22.形成表格矩阵;
S23.按照指标单元特征,识别指标单元区域;按照指标分类描述单元特征,识别指标分类描述单元区域;按照数值项特征,识别数值区域。
5.根据权利要求4所述的一种电子表格数据颗粒化及指标标准化处理方法,其特征在于,步骤S3中所述指标结构解析器提取指标单元、指标分类描述单元、应用场景的具体方法为:
S31.加载经步骤S23识别后的表格文档PD;
S32.提取表格文档PD中的源、库、表隐含关系属性;
S33.读取目标区域;
S34.依据单元格特征,分别沿X轴、Y轴识别目标区域,利用递归算法,识别并读取目标区域的层级关系;
S35.提取目标区域,利用自学习算法判断是指标单元还是指标分类描述单元;
S36.迭代判断,如果是指标单元,则存入I库,同时将其应用场景与步骤S32提取的关系属性存入R库;如果是指标分类描述单元,则存入C库,同时将其应用场景与步骤S32提取的关系属性存入R库。
6.根据权利要求5所述的一种电子表格数据颗粒化及指标标准化处理方法,其特征在于,步骤S4中所述数值项自动提取器提取数值项的具体方法为:
S41.加载步骤S2中表格矩阵的数值区域;
S42.顺次读取单元格内容,记录单元格的横纵坐标值;
S43.依据横纵坐标值以及步骤S3提取的指标单元和指标分类描述单元,定位并记录横纵坐标对应的指标单元键值和指标分类描述单元键值;
S44.提取数值项以及数值项对应的横纵坐标值、指标单元键值、指标分类描述单元键值,存入D库。
CN202011365226.3A 2020-11-28 2020-11-28 一种电子表格数据颗粒化及指标标准化处理方法 Active CN112328589B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011365226.3A CN112328589B (zh) 2020-11-28 2020-11-28 一种电子表格数据颗粒化及指标标准化处理方法
ZA2021/06279A ZA202106279B (en) 2020-11-28 2021-08-30 A method for data granulation and index standardization of spreadsheets

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011365226.3A CN112328589B (zh) 2020-11-28 2020-11-28 一种电子表格数据颗粒化及指标标准化处理方法

Publications (2)

Publication Number Publication Date
CN112328589A true CN112328589A (zh) 2021-02-05
CN112328589B CN112328589B (zh) 2021-08-17

Family

ID=74309619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011365226.3A Active CN112328589B (zh) 2020-11-28 2020-11-28 一种电子表格数据颗粒化及指标标准化处理方法

Country Status (2)

Country Link
CN (1) CN112328589B (zh)
ZA (1) ZA202106279B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010503A (zh) * 2021-03-01 2021-06-22 广州智筑信息技术有限公司 一种基于深度学习的工程造价数据智能解析方法及系统
CN114510912A (zh) * 2022-04-20 2022-05-17 佳瑛科技有限公司 基于分布式系统对电子表格进行分类的方法和系统及介质
CN114880330A (zh) * 2022-05-27 2022-08-09 河北省科学技术情报研究院(河北省科技创新战略研究院) 单源多期指标体系模块化构建及实体自动识别处理方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5293429A (en) * 1991-08-06 1994-03-08 Ricoh Company, Ltd. System and method for automatically classifying heterogeneous business forms
CN1755667A (zh) * 2004-09-30 2006-04-05 微软公司 在电子文档中创建、插入和复用文档组成部分的方法、系统和计算机可读介质
CN102043819A (zh) * 2009-10-20 2011-05-04 华中科技大学 Html表格语义脉络分析方法
US20110249905A1 (en) * 2010-01-15 2011-10-13 Copanion, Inc. Systems and methods for automatically extracting data from electronic documents including tables
US20130117648A1 (en) * 2011-11-03 2013-05-09 Knowledge Inside Spreadsheet data processing method and system
CN103198069A (zh) * 2012-01-06 2013-07-10 株式会社理光 抽取关系型表格的方法和装置
CN106709032A (zh) * 2016-12-29 2017-05-24 深圳市华傲数据技术有限公司 抽取电子表格文档中结构化信息的方法及装置
US9672200B1 (en) * 2013-11-06 2017-06-06 Apttex Corporation Spreadsheet with dynamic cell dimensions generated by a spreadsheet template based on remote application values
CN107992625A (zh) * 2017-12-25 2018-05-04 湖南星汉数智科技有限公司 一种网页表格数据自动抽取方法及装置
CN109117479A (zh) * 2018-08-13 2019-01-01 数据地平线(广州)科技有限公司 一种金融文档智能核查方法、装置及存储介质
CN110427382A (zh) * 2019-08-09 2019-11-08 安徽工业大学 一种非匀质excel表转换成关系数据库表的方法
CN110532968A (zh) * 2019-09-02 2019-12-03 苏州美能华智能科技有限公司 表格识别方法、装置和存储介质
CN110609998A (zh) * 2019-08-07 2019-12-24 中通服建设有限公司 一种电子文档信息的数据提取方法、电子设备及存储介质
CN111274327A (zh) * 2020-01-09 2020-06-12 浙江工业大学 一种面向非结构化表格文档的实体与关系抽取方法
CN111309819A (zh) * 2020-01-19 2020-06-19 中国农业科学院农业信息研究所 训练表格指标抽取模型、表格指标抽取的方法及系统

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5293429A (en) * 1991-08-06 1994-03-08 Ricoh Company, Ltd. System and method for automatically classifying heterogeneous business forms
CN1755667A (zh) * 2004-09-30 2006-04-05 微软公司 在电子文档中创建、插入和复用文档组成部分的方法、系统和计算机可读介质
CN102043819A (zh) * 2009-10-20 2011-05-04 华中科技大学 Html表格语义脉络分析方法
US20110249905A1 (en) * 2010-01-15 2011-10-13 Copanion, Inc. Systems and methods for automatically extracting data from electronic documents including tables
US20130117648A1 (en) * 2011-11-03 2013-05-09 Knowledge Inside Spreadsheet data processing method and system
CN103198069A (zh) * 2012-01-06 2013-07-10 株式会社理光 抽取关系型表格的方法和装置
US9672200B1 (en) * 2013-11-06 2017-06-06 Apttex Corporation Spreadsheet with dynamic cell dimensions generated by a spreadsheet template based on remote application values
CN106709032A (zh) * 2016-12-29 2017-05-24 深圳市华傲数据技术有限公司 抽取电子表格文档中结构化信息的方法及装置
CN107992625A (zh) * 2017-12-25 2018-05-04 湖南星汉数智科技有限公司 一种网页表格数据自动抽取方法及装置
CN109117479A (zh) * 2018-08-13 2019-01-01 数据地平线(广州)科技有限公司 一种金融文档智能核查方法、装置及存储介质
CN110609998A (zh) * 2019-08-07 2019-12-24 中通服建设有限公司 一种电子文档信息的数据提取方法、电子设备及存储介质
CN110427382A (zh) * 2019-08-09 2019-11-08 安徽工业大学 一种非匀质excel表转换成关系数据库表的方法
CN110532968A (zh) * 2019-09-02 2019-12-03 苏州美能华智能科技有限公司 表格识别方法、装置和存储介质
CN111274327A (zh) * 2020-01-09 2020-06-12 浙江工业大学 一种面向非结构化表格文档的实体与关系抽取方法
CN111309819A (zh) * 2020-01-19 2020-06-19 中国农业科学院农业信息研究所 训练表格指标抽取模型、表格指标抽取的方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANDREW WITKOWSKI等: "《Query by Excel》", 《ACM》 *
张安庆: "《建立规范Excel数据表的方法》", 《信息与电脑(理论版)》 *
曾瑾: "《分布式统计信息基础数据库统计报表查询子系统的设计与实现》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010503A (zh) * 2021-03-01 2021-06-22 广州智筑信息技术有限公司 一种基于深度学习的工程造价数据智能解析方法及系统
CN114510912A (zh) * 2022-04-20 2022-05-17 佳瑛科技有限公司 基于分布式系统对电子表格进行分类的方法和系统及介质
CN114510912B (zh) * 2022-04-20 2022-07-08 佳瑛科技有限公司 基于分布式系统对电子表格进行分类的方法和系统及介质
CN114880330A (zh) * 2022-05-27 2022-08-09 河北省科学技术情报研究院(河北省科技创新战略研究院) 单源多期指标体系模块化构建及实体自动识别处理方法

Also Published As

Publication number Publication date
ZA202106279B (en) 2021-10-27
CN112328589B (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
CN112328589B (zh) 一种电子表格数据颗粒化及指标标准化处理方法
CN110427411B (zh) 一种通过图层将关联数据进行可视化的方法
US10210235B2 (en) Declarative data warehouse definition for object-relational mapped objects
US20120005153A1 (en) Creation of a data store
CN110119395B (zh) 大数据治理中基于元数据实现数据标准与数据质量关联处理的方法
CN103605651A (zh) 一种基于olap多维分析的数据处理展现方法
CN102376029B (zh) 一种供决策分析用的信息对象模型架构装置及方法
US20080071736A1 (en) Apparatus, system, and method for criteria-based grouping and searching of database management system log records
CN112486989B (zh) 一种多源数据颗粒化融合及指标分类分层处理方法
CN111538733A (zh) 一种多维数据综合分析系统及其分析方法
CN107729330B (zh) 获取数据集的方法和装置
CN110908983A (zh) 一种基于用户画像识别的智能营销系统
CN110378569A (zh) 产业关系链构建方法、装置、设备及存储介质
CN117150138A (zh) 一种基于高维空间映射的科技资源组织方法及系统
CN115908062A (zh) 一种知识产权全周期管理系统
CN113642291B (zh) 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端
CN115587098A (zh) 一种智能识别图表数据的方法及系统
Yinsheng et al. A method of data granulation and indicators standardization of spreadsheet
CN115952160B (zh) 一种数据盘点方法
KR100925725B1 (ko) 다차원 속성을 가진 확장성 비지니스 리포팅 언어 택사노미 구성 방법
CN107491906A (zh) 测绘产品检查方法及系统
US20020178172A1 (en) Methods and apparatuses for application analysis and report
CN112507002B (zh) 一种数据图表生成系统、方法、计算机装置和存储介质
CN114661699A (zh) 一种数据字典的生成方法和系统
CN117151080A (zh) 一种导入文件标题识别方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Li Yinsheng

Inventor after: Zhang Die

Inventor after: Jiang Qiannan

Inventor after: Zhang Cong

Inventor after: Gao Yuan

Inventor after: Gao Yinzhen

Inventor after: Peng Jie Wu

Inventor after: Wang Hong

Inventor after: Zhang Chaozong

Inventor after: Wu Feng

Inventor after: Nie Yongchuan

Inventor after: Ren Yan

Inventor after: Liu Miao

Inventor after: Zhang Jinlong

Inventor after: Chen Juan

Inventor before: Li Yinsheng

Inventor before: Zhang Die

Inventor before: Jiang Qiannan

Inventor before: Zhang Cong

Inventor before: Gao Yuan

Inventor before: Gao Yinzhen

Inventor before: Peng Jie Wu

Inventor before: Nie Yongchuan

Inventor before: Zhang Chaozong

Inventor before: Wang Hong

Inventor before: Wu Feng

Inventor before: Ren Yan

Inventor before: Liu Miao

Inventor before: Zhang Jinlong

Inventor before: Chen Juan