CN111695330A - 生成表格的方法、装置、电子设备及计算机可读存储介质 - Google Patents

生成表格的方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111695330A
CN111695330A CN202010620790.9A CN202010620790A CN111695330A CN 111695330 A CN111695330 A CN 111695330A CN 202010620790 A CN202010620790 A CN 202010620790A CN 111695330 A CN111695330 A CN 111695330A
Authority
CN
China
Prior art keywords
operated
file
data
title
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010620790.9A
Other languages
English (en)
Other versions
CN111695330B (zh
Inventor
刘松青
黄俊杰
张小福
邵河山
王雨功
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wanghai Kangxin Beijing Technology Co ltd
Original Assignee
Wanghai Kangxin Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wanghai Kangxin Beijing Technology Co ltd filed Critical Wanghai Kangxin Beijing Technology Co ltd
Priority to CN202010620790.9A priority Critical patent/CN111695330B/zh
Publication of CN111695330A publication Critical patent/CN111695330A/zh
Application granted granted Critical
Publication of CN111695330B publication Critical patent/CN111695330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种生成表格的方法、装置、电子设备及计算机可读存储介质,涉及数据分析领域。该方法包括:对待操作文件进行解析操作,得到解析结果,解析结果包括该待操作文件中的各个标题栏和各个数据单元之间的对应关系、以及各个标题栏中的各个单元格之间的位置关系和各个数据单元中的各个单元格之间的位置关系,标题栏中的标题内容用于表示与标题栏对应的数据单元中的数据内容所属的类目;基于每一待操作文件的解析结果、以及各个标题栏中的标题内容和各个数据单元中的数据内容,生成预设形式的目标表格。本申请实施例解决了对多文件多表格进行大数据分析时,由于依赖人工操作,导致工作效率和准确性都很低的问题。

Description

生成表格的方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及数据分析技术领域,具体而言,本申请涉及一种生成表格 的方法、装置、电子设备及计算机可读存储介质。
背景技术
目前,大数据指标分析已经是很多单位或者公司日常工作必不可少的 一部分内容。通过大数据指标分析的结果可以很好地掌控市场动态,以及 公司内部相关工作的变化及未来发展的走向。
例如,医疗范畴内就需要对大数据进行分析,其涉及到的大数据指标 分析业务是对全国的统计年鉴数据进行采集、解析、结构化处理,最终得 到大数据分析结果,而统计年鉴数据是由数量庞大的Excel文件构成,因 此,其中包括了大量的表格和数据。
截止目前,医疗范畴内涉及数以万计的统计年鉴数据Excel文件,可 见这将是一个庞大且繁琐的工作量,而本发明人发现现有技术中存在以下 缺陷:
1、统计年鉴数据Excel文件没有统一的标准模板,现有技术无法使 用相关工具进行统一处理,因此还要依赖人工操作;
2、统计年鉴数据Excel文件中的栏位名区域或者数据集区域都可能 以行的形式出现,也可能以列的形式出现,因此出现形势不固定,现有技 术对这种出现形式不固定的情况只能依赖人工处理;
3、栏位名区域或者数据集区域都可能同时包括连续的多行和/或多 列,现有技术对这种跨行、跨列的情况只能依赖人工处理。
可见,现有技术中对这些多文件、多表格进行大数据分析时,由于还 要依赖人工操作,因此导致工作效率和准确性都很低。
发明内容
本申请提供了一种生成表格的方法、装置、电子设备及计算机可读存 储介质,可以解决对多文件多表格进行大数据分析时,由于依赖人工操作, 导致工作效率和准确性都很低的问题。所述技术方案如下:
第一方面,提供了一种生成表格的方法,该方法包括:获取至少一个 待操作文件;
关于每一待操作文件,对该待操作文件进行解析操作,得到解析结果, 其中,解析结果包括该待操作文件中的各个标题栏和各个数据单元之间的 对应关系、以及各个标题栏中的各个单元格之间的位置关系和各个数据单 元中各个单元格之间的位置关系,标题栏中的标题内容用于表示与标题栏 对应的数据单元中的数据内容所属的类目;
基于每一待操作文件的解析结果、以及各个标题栏中的标题内容和各 个数据单元中的数据内容,生成预设形式的目标表格。
获取至少一个待操作文件之前,还包括:
通过爬取操作将所有待操作文件进行归类处理;
获取至少一个待操作文件,包括:
获取属于同一类别下的至少一个待操作文件。
待操作文件中包括至少一个待操作表格;待操作表格的表格信息中包 括至少一个栏位名区域和至少一个数据集区域;栏位名区域包括至少一个 标题栏;数据集区域包括至少一个数据单元;
对该待操作文件进行解析操作,包括:
关于该待操作文件中的每一待操作表格,确定该待操作表格中的栏位 名区域并对确定出的栏位名区域进行解析操作,以及确定该待操作表格中 的数据集区域并对确定出的数据集区域进行解析操作。
上述基于每一待操作文件的解析结果、以及各个标题栏中的标题内容 和各个数据单元中的数据内容,生成预设形式的目标表格,包括:
关于该待操作文件中的每个标题栏,基于该待操作文件的解析结果、 以及该标题栏中的标题内容,对该标题栏中的标题内容进行合并和/或删 除冗余数据的操作;关于该待操作文件中的每个数据单元,基于该待操作 文件的解析结果、以及该数据单元中的数据内容,对该数据单元中的数据 内容进行合并和/或删除冗余数据的操作;基于操作结果,生成预设形式 的目标表格。
第二方面,提供了一种生成表格的装置,该装置包括:
获取单元,用于获取至少一个待操作文件;
解析单元,用于关于每一待操作文件,对该待操作文件进行解析操作, 得到解析结果,其中,解析结果包括该待操作文件中的各个标题栏和各个 数据单元之间的对应关系、以及各个标题栏中的各个单元格之间的位置关 系和各个数据单元中的各个单元格之间的位置关系,标题栏中的标题内容 用于表示与标题栏对应的数据单元中的数据内容所属的类目;
生成单元,用于基于每一待操作文件的解析结果、以及各个标题栏中 的标题内容和各个数据单元中的数据内容,生成预设形式的目标表格。
装置还包括:
爬取单元,用于通过爬取操作将所有待操作文件进行归类处理;
获取单元具体用于,获取属于同一类别下的至少一个待操作文件。
待操作文件中包括至少一个待操作表格;待操作表格的表格信息中包 括至少一个栏位名区域和至少一个数据集区域;栏位名区域包括至少一个 标题栏;数据集区域包括至少一个数据单元;
解析单元具体用于,关于该待操作文件中的每一待操作表格,确定该 待操作表格中的栏位名区域并对确定出的栏位名区域进行解析操作,以及 确定该待操作表格中的数据集区域并对确定出的数据集区域进行解析操 作。
生成单元具体用于:
关于该待操作文件中的每个标题栏,基于该待操作文件的解析结果、 以及该标题栏中的标题内容,对该标题栏中的标题内容进行合并和/或删 除冗余数据的操作;
关于该待操作文件中的每个数据单元,基于该待操作文件的解析结 果、以及该数据单元中的数据内容,对该数据单元中的数据内容进行合并 和/或删除冗余数据的操作;
基于操作结果,生成预设形式的目标表格。
第三方面,提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并 被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行上述 生成表格的方法。
第四方面,提供了一种计算机可读存储介质,该程序被处理器执行时 实现上述生成表格的方法。
本申请提供的技术方案带来的有益效果是:
本申请提供的技术方案可对多个待操作文件进行数据分析,其中每个 待操作文件中包括多个表格,每个表格中包括多个页,每个页中包含大量 的数据,可见每个待操作文件都包含了庞大的数据量。在如此庞大的数据 量情况下,通过本申请提供的技术方案,在经过解析出每个待操作文件的 标题栏、数据单元格之间的对应关系、以及各个标题栏中的各个单元格之 间的位置关系和各个数据单元中的各个单元格之间的位置关系,即可生成 预设形式的目标表格,该目标表格的预设形式可根据实际需要进行设置。 可见,本申请提供的技术方案,完全可以处理包含庞大数据量的表格,并 根据这些表格中的数据按照预设形式生成目标表格,该过程不需要任何人 工操作,同时还可提高对表格处理时的工作效率和准确性,同时还可根据 各个标题栏中的各个单元格之间的位置关系和各个数据单元中的各个单 元格之间的位置关系进行跨行跨列情况的处理。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施 例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例中涉及的原始表格的结构示意图;
图2为本申请实施例提供的一种生成表格的方法的流程示意图;
图3为本申请实施例中涉及的目标表格的结构示意图;
图4为本申请实施例提供的一种生成表格的装置结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其 中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似 功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本 申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式 “一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是, 本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操 作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整 数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件 被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或 者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线 连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出 项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本 申请实施方式作进一步地详细描述。
本申请提供的生成表格的方法、装置、电子设备和计算机可读存储介 质,旨在解决现有技术的如上技术问题。
为了方便后续介绍,此处对本申请文件中出现的名称进行相应解释:
本申请提供的技术方案可用于对多个待操作文件进行操作,每个待操 作文件中可包括多个待操作表格,每个待操作表格中可包括多个待操作 页,该待操作页也是以表格形式呈现,例如Excel文件中表格以及“sheet” 页之间的关系;
如图1所示,每个待操作表格中都包括至少一个栏位名区域11,至 少一个数据集区域12;其中栏位名区域11包括至少一个标题栏;数据集 区域12包括至少一个数据单元;标题栏中的标题内容用于表示与标题栏 对应的数据单元中的数据内容所属的类目;
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如 何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结 合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将 结合附图,对本申请的实施例进行描述。
本申请实施例中提供了一种生成表格的方法,如图2所示,该方法包 括:
步骤S21,获取至少一个待操作文件;
本申请提供的技术方案中,可同时对多个待操作文件进行操作;每个 待操作文件中还可包括多个表格,每个表格中还可包含多个页,例如,excel 表格中的“sheet”页;即该待操作文件是由至少一个表格组成的;
步骤S22,关于每一待操作文件,对该待操作文件进行解析操作,得 到解析结果;
本步骤中,待操作表格中包括栏位名区域和数据集区,每个栏位名区 域中包括多个标题栏,每个数据集区域中包括多个数据单元。对该待操作 文件进行解析后的解析结果包括该待操作文件中表格的各个标题栏和各 个数据单元之间的对应关系、以及各个标题栏中的各个单元格之间的位置 关系和各个数据单元中的各个单元格之间的位置关系;
标题栏中的标题内容用于表示与标题栏对应的数据单元中的数据内 容所属的类目;例如,图1中标题栏中的标题内容为“单位个数”,与该 标题栏对应的数据单元所包含的数据内容为“284、5、2、2、166、109”, 可见该组数据属于“单位个数”这个类目下。
步骤S23,基于每一待操作文件的解析结果、以及各个标题栏中的标 题内容和各个数据单元中的数据内容,生成预设形式的目标表格。
具体的,在步骤S21之前,还进一步包括:通过爬取操作将所有待操 作文件进行归类处理;由于可以同时对多个待进行操作的文件进行操作, 因此需要对待操作文件进行归类处理,使得具有相同表格结构的待操作文 件作为一类,可方便后续进行操作时数据的获取;此时,步骤S21中的获 取至少一个待操作文件的具体操作为:
获取属于同一类别下的至少一个待操作文件。
具体的,步骤S22中的对该待操作文件进行解析操作,包括:
关于该待操作文件中的每一待操作表格,确定该待操作表格中的栏位 名区域并对确定出的栏位名区域进行解析操作,以及确定该待操作表格中 的数据集区域并对确定出的数据集区域进行解析操作。
具体的,基于每一待操作文件的解析结果、以及各个标题栏中的标题 内容和各个数据单元中的数据内容,生成预设形式的目标表格,的具体实 现方式包括:
关于该待操作文件中的每个标题栏,基于该待操作文件的解析结果、 以及该标题栏中的标题内容,对该标题栏中的标题内容进行合并和/或删 除冗余数据的操作;
例如图1中第一个标题栏中包含多个单元格,且标题内容为“指标 item”此时,可将冗余标题内容“item”删除,最终该标题栏内留下的标 题内容为“指标”,该过程可起到对跨行、跨列标题栏进行操作的目的;
关于该待操作文件中的每个数据单元,基于该待操作文件的解析结 果、以及该数据单元中的数据内容,对该数据单元中的数据内容进行合并 和/或删除冗余数据的操作;例如,标题栏“指标item”所对应的数据单 元,其中包括多个单位名称以及每个单位名称的英文解释,可将冗余的英 文解释删除,仅留下中文的单位名称,该过程可起到对跨行、跨列的数据 单元进行操作的目的。
因此,本申请实施例提供的上述解析过程,完全可以对包含跨行、跨 列的栏位名区域和数据集区域进行操作,弥补了现有技术中仅可对单行、 单列的栏位名区域和数据集区域进行操作的缺陷。
可见,本申请提供的技术方案可对多个待操作文件进行数据分析,其 中每个待操作文件中包括多个表格,每个表格中包括多个页,每个页中包 含大量的数据,可见每个待操作文件都包含了庞大的数据量。在如此庞大 的数据量情况下,通过本申请提供的技术方案,在经过解析出每个待操作 文件的标题栏、数据单元格之间的对应关系、以及各个标题栏中的各个单 元格之间的位置关系和各个数据单元中的各个单元格之间的位置关系,生成预设形式的目标表格,该目标表格的预设形式可根据实际需要进行设 置。可见,本申请提供的技术方案,完全可以处理包含庞大数据量的表格, 并根据这些表格中的数据按照预设形式生成目标表格,该过程不需要任何 人工操作,同时还可提高对表格处理时的工作效率和准确性。
针对上述生成表格的方法,本申请实施例中提供了具体实施方式,该 方法可应用于大量具有不同结构的待操作文件中,具体过程如下:
步骤A,通过爬取操作对所有待操作文件进行分类;
在实际应用中,同属于同一个市区的待操作文件拥有相同格式的表格 结构,因此可根据待操作文件的来源地区进行分类,将属于同一个市区的 待操作文件归为一类;即属于同一类别的待操作文件的表格结构相同,例 如,栏位名区域的个数、位置以及数据集区域的个数、位置相同;且各个 标题栏和各个数据单元之间的对应关系、以及各个标题栏中的各个单元格 之间的位置关系和各个数据单元中的各个单元格之间的位置关系相同,参考图1,例如,表格中包括栏位名区域11;且栏位名区域11中包括多个 标题栏,且各个标题栏之间的位置关系为按序排列,例如“指标item”、 “单位个数”“职工人数”以及“床位数”的排列顺序;各个数据单元之 间的位置关系如图1所示,标题栏与数据单元的对应关系如图1所示,且 栏位名区域11和数据集区域都可以跨行跨列,例如图1所示的栏位名区 域11包含了3行,且标题内容为“指标item”的标题栏中还包括多个单 元格。
在图1所示的表格中,栏位名区域11由第一边框13和第二边框14 以及该表格的起始列标识(表格的起始列所在位置)和结束列标识(表格 的结束列所在位置)所围成的范围确定;在栏位名区域11中包括4个标 题栏,每个标题栏以右边框16(仅在第4个标题栏“床位数”标识出) 作为该标题栏的结束标志;数据集区域12由第二边框14和第三边框15 以及该表格的起始列(表格的起始列所在位置)和结束列标识(表格的结 束列所在位置)所围成的范围确定;在该数据集区域中包括四个数据单元, 每个数据单元由多个单元格组成,且每个数据单元中的数据内容都与标题 栏一一对应,例如,标题栏为“职工人数”所对应的数据单元包括“5371、338、134、381、3901以及617”这些数据内容;每个数据单元的结束标 志是由右边框(仅在第4个标题栏“床位数”标识出)表示的;
步骤B,获取属于同一类别下的至少一个待操作文件;
步骤C,对每一个获取到的待操作文件进行如下解析操作,并得到解 析结果;本步骤包括以下过程:
步骤C01,根据第一边框13、第二边框14以及起始列标识和结束列 标识,确定出栏位名区域所在表格中的位置;即,从表格中确定出栏位名 区域;
步骤C02,根据栏位名区域中所包含的右边框,确定出该表格中包括 四个标题栏,分别是“指标item”、“单位个数”“职工人数”以及“床 位数”;即从栏位名区域中解析出标题栏;
步骤C03,当确定标题栏中包括多个单元格时,即包含多行多列的情 况,对该标题栏中的标题内容进行合并和/或删除冗余数据的操作;进行 合并和/或删除冗余数据的规则可根据实际情况人为设置,例如,将标题 栏“指标item”中的英文删除,也可删除不必要的空格、符号等内容;
步骤C04,根据第二边框14、第三边框15以及起始列标识和结束列 标识确定出数据集区域所在表格中的位置;即从表格中确定出数据集区 域;
步骤C05,根据数据集区域中所包含的右边框,确定出表格中包括的 四个数据单元,且每个数据单元对应一个标题栏;每个数据单元包括多个 数据单元;即从数据集区域中解析出数据单元;
步骤C06,当确定该数据单元包括多个单元格时,即,该数据单元跨 行跨列,对该数据单元中的数据内容进行合并和/或删除冗余数据的操作。 进行合并和/或删除冗余数据的规则可根据实际情况人为设置,例如,删 除英文、不必要的空格、符号等内容;
经过上述步骤C可以解析出每一个标题栏以及与该标题栏对应的数 据单元;
可见,步骤C提供的方法可根据标题栏中的各个单元格之间的位置关 系,确定该标题栏是否跨行、跨列;也可根据数据单元中的各个单元格之 间的位置关系,确定该数据单元是否跨行、跨列;可见,该方法可对跨行 跨列的标题栏和数据单元进行操作;
步骤D,基于每一待操作文件的解析结果、以及各个标题栏中的标题 内容和各个数据单元中的数据内容,生成预设形式的目标表格;
本步骤中,目标表格的预设形式可根据实际需要进行设置,即将标题 栏及其对应的数据按照目标表格所需格式进行归类放置即可,如图3所 示,图3为图1表格在在解析后得到的目标表格。
可见,上述方法只要解析出表格中的栏位名区域、数据集区域、标题 栏以及数据单元,即可生成目标表格。同时,该方法可以在没有任何人工 干预的情况下完成对表格的解析、生成过程。
具体地,上述步骤C中所涉及到的解析栏位名区域和解析数据集区域 的先后顺序可根据实际情况进行调整;
本实施例还提供另一种可能实现的方式,例如,在制作表格时给栏位 名区域以及数据集区域设置不同的颜色,在解析过程中即可根据颜色属性 直接区分出栏位名区域或者数据集区域,之后再按照上述方式对栏位名区 域或者数据集区域进行解析操作。
本申请实施例提供了一种生成表格的装置,如图4所示,该装置包括:
获取单元41,用于获取至少一个待操作文件;
解析单元42,用于关于每一待操作文件,对该待操作文件进行解析 操作,得到解析结果,其中,解析结果包括该待操作文件中的各个标题栏 和各个数据单元之间的对应关系、以及各个标题栏中的各个单元格之间的 位置关系和各个数据单元中的各个单元格之间的位置关系,标题栏中的标 题内容用于表示与标题栏对应的数据单元中的数据内容所属的类目;
生成单元43,用于基于每一待操作文件的解析结果、以及各个标题 栏中的标题内容和各个数据单元中的数据内容,生成预设形式的目标表 格。
该装置还包括:
爬取单元44,用于通过爬取操作将所有待操作文件进行归类处理;
获取单元41具体用于,获取属于同一类别下的至少一个待操作文件。
待操作文件中包括至少一个待操作表格;待操作表格的表格信息中包 括至少一个栏位名区域和至少一个数据集区域;栏位名区域包括至少一个 标题栏;数据集区域包括至少一个数据单元;
解析单元42具体用于,关于该待操作文件中的每一待操作表格,确 定该待操作表格中的栏位名区域并对确定出的栏位名区域进行解析操作, 以及确定该待操作表格中的数据集区域并对确定出的数据集区域进行解 析操作。
生成单元42具体用于:
关于该待操作文件中的每个标题栏,基于该待操作文件的解析结果、 以及该标题栏中的标题内容,对该标题栏中的标题内容进行合并和/或删 除冗余数据的操作;
关于该待操作文件中的每个数据单元,基于该待操作文件的解析结 果、以及该数据单元中的数据内容,对该数据单元中的数据内容进行合并 和/或删除冗余数据的操作;
基于操作结果,生成预设形式的目标表格。
本申请提供的技术方案可对多个待操作文件进行数据分析,其中每个 待操作文件中包括多个表格,每个表格中包括多个页,每个页中包含大量 的数据,可见每个待操作文件都包含了庞大的数据量。在如此庞大的数据 量情况下,通过本申请提供的技术方案,在经过解析出每个待操作文件的 标题栏、数据单元格之间的对应关系、以及各个标题栏中的各个单元格之 间的位置关系和各个数据单元中的各个单元格之间的位置关系,生成预设 形式的目标表格,该目标表格的预设形式可根据实际需要进行设置。可见, 本申请提供的技术方案,完全可以处理包含庞大数据量的表格,并根据这 些表格中的数据按照预设形式生成目标表格,该过程不需要任何人工操 作,同时还可提高对表格处理时的工作效率和准确性,同时还可根据各个 标题栏之间的位置关系和各个数据单元之间的位置关系进行跨行跨列情 况的处理。
本申请实施例中提供了一种电子设备,该电子设备包括:存储器和处 理器;至少一个程序,存储于存储器中,用于被处理器执行时,与现有技 术相比可实现上述实施例所涉及的生成表格的方法。
在一个可选实施例中提供了一种电子设备,如图5所示,图5所示的 电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和 存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可 以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个, 该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器), 通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC (Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、 晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申 请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001 也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP 和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以 是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或 EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线 等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示, 图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存 储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存 储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光 碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储 设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代 码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序 代码,以实现前述方法实施例所示的内容。
其中,电子设备包括但不限于:电脑、笔记本以及服务器等可运行系 统的任何终端。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介 质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前 述方法实施例中相应内容。与现有技术相比,可实现上述表格生成的方法。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次 显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文 中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他 的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步 骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成, 而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替 地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的 普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进 和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种生成表格的方法,其特征在于,包括:
获取至少一个待操作文件;
关于每一待操作文件,对该待操作文件进行解析操作,得到解析结果,其中,所述解析结果包括该待操作文件中的各个标题栏和各个数据单元之间的对应关系、以及各个标题栏中的各个单元格之间的位置关系和各个数据单元中的各个单元格之间的位置关系,所述标题栏中的标题内容用于表示与所述标题栏对应的数据单元中的数据内容所属的类目;
基于每一待操作文件的解析结果、以及各个标题栏中的标题内容和各个数据单元中的数据内容,生成预设形式的目标表格。
2.根据权利要求1所述的生成表格的方法,其特征在于,所述获取至少一个待操作文件之前,还包括:
通过爬取操作将所有待操作文件进行归类处理;
所述获取至少一个待操作文件,包括:
获取属于同一类别下的至少一个待操作文件。
3.根据权利要求1所述的生成表格的方法,其特征在于,所述待操作文件中包括至少一个待操作表格;所述待操作表格的表格信息中包括至少一个栏位名区域和至少一个数据集区域;所述栏位名区域包括至少一个标题栏;所述数据集区域包括至少一个数据单元;
所述对该待操作文件进行解析操作,包括:
关于该待操作文件中的每一待操作表格,确定该待操作表格中的栏位名区域并对确定出的栏位名区域进行解析操作,以及确定该待操作表格中的数据集区域并对确定出的数据集区域进行解析操作。
4.根据权利要求1-3任一所述的生成表格的方法,其特征在于,所述基于每一待操作文件的解析结果、以及各个标题栏中的标题内容和各个数据单元中的数据内容,生成预设形式的目标表格,包括:
关于该待操作文件中的每个标题栏,基于该待操作文件的解析结果、以及该标题栏中的标题内容,对该标题栏中的标题内容进行合并和/或删除冗余数据的操作;
关于该待操作文件中的每个数据单元,基于该待操作文件的解析结果、以及该数据单元中的数据内容,对该数据单元中的数据内容进行合并和/或删除冗余数据的操作;
基于操作结果,生成预设形式的目标表格。
5.一种生成表格的装置,其特征在于,该装置包括:
获取单元,用于获取至少一个待操作文件;
解析单元,用于关于每一待操作文件,对该待操作文件进行解析操作,得到解析结果,其中,所述解析结果包括该待操作文件中的各个标题栏和各个数据单元之间的对应关系、以及各个标题栏中的各个单元格之间的位置关系和各个数据单元中的各个单元格之间的位置关系,所述标题栏中的标题内容用于表示与所述标题栏对应的数据单元中的数据内容所属的类目;
生成单元,用于基于每一待操作文件的解析结果、以及各个标题栏中的标题内容和各个数据单元中的数据内容,生成预设形式的目标表格。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
爬取单元,用于通过爬取操作将所有待操作文件进行归类处理;
所述获取单元具体用于,获取属于同一类别下的至少一个待操作文件。
7.根据权利要求5所述的装置,其特征在于,所述待操作文件中包括至少一个待操作表格;所述待操作表格的表格信息中包括至少一个栏位名区域和至少一个数据集区域;所述栏位名区域包括至少一个标题栏;所述数据集区域包括至少一个数据单元;
所述解析单元具体用于,关于该待操作文件中的每一待操作表格,确定该待操作表格中的栏位名区域并对确定出的栏位名区域进行解析操作,以及确定该待操作表格中的数据集区域并对确定出的数据集区域进行解析操作。
8.根据权利要求5-7任一所述的装置,其特征在于,所述生成单元具体用于:
关于该待操作文件中的每个标题栏,基于该待操作文件的解析结果、以及该标题栏中的标题内容,对该标题栏中的标题内容进行合并和/或删除冗余数据的操作;
关于该待操作文件中的每个数据单元,基于该待操作文件的解析结果、以及该数据单元中的数据内容,对该数据单元中的数据内容进行合并和/或删除冗余数据的操作;
基于操作结果,生成预设形式的目标表格。
9.一种电子设备,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1~4任一项所述的生成表格的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-4任一项所述的生成表格的方法。
CN202010620790.9A 2020-06-30 2020-06-30 生成表格的方法、装置、电子设备及计算机可读存储介质 Active CN111695330B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010620790.9A CN111695330B (zh) 2020-06-30 2020-06-30 生成表格的方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010620790.9A CN111695330B (zh) 2020-06-30 2020-06-30 生成表格的方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111695330A true CN111695330A (zh) 2020-09-22
CN111695330B CN111695330B (zh) 2023-10-27

Family

ID=72484874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010620790.9A Active CN111695330B (zh) 2020-06-30 2020-06-30 生成表格的方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111695330B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111897884A (zh) * 2020-07-20 2020-11-06 北京用友薪福社云科技有限公司 数据关系信息显示方法、终端设备
CN112418180A (zh) * 2020-12-11 2021-02-26 深圳前海微众银行股份有限公司 表格数据提取方法、装置、设备及计算机存储介质
CN113779943A (zh) * 2021-01-12 2021-12-10 北京沃东天骏信息技术有限公司 表格生成方法、表格生成装置、存储介质及电子设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020062241A1 (en) * 2000-07-19 2002-05-23 Janet Rubio Apparatus and method for coding electronic direct marketing lists to common searchable format
CN101894099A (zh) * 2010-06-29 2010-11-24 北京科技大学 一种报表模板定制方法
CN104239366A (zh) * 2013-06-21 2014-12-24 苏州精易会信息技术有限公司 基于c/s模式的电子表格数据管理方法
CN105630916A (zh) * 2015-12-21 2016-06-01 浙江工业大学 一种大数据环境下非结构化表格文档数据抽取与组织方法
CN105975562A (zh) * 2016-05-03 2016-09-28 水木智博(北京)网络信息科技有限公司 一种工程图纸的概预算表自动生成方法和装置
US20180225270A1 (en) * 2017-02-06 2018-08-09 International Business Machines Corporation Processing user action in data integration tools
CN109684210A (zh) * 2018-12-18 2019-04-26 宁夏隆基宁光仪表股份有限公司 一种网站自动化测试方法、装置、设备及可读存储介质
CN109783554A (zh) * 2018-12-13 2019-05-21 重庆金融资产交易所有限责任公司 excel文档解析方法、装置及计算机可读存储介质
CN110069553A (zh) * 2019-04-28 2019-07-30 中国疾病预防控制中心 一种突发公共卫生事件的数据采集及处理方法、设备
CN110569489A (zh) * 2018-06-05 2019-12-13 北京国双科技有限公司 基于pdf文件的表格数据解析方法及装置
CN110795919A (zh) * 2019-11-07 2020-02-14 达而观信息科技(上海)有限公司 一种pdf文档中的表格抽取方法、装置、设备及介质
CN110874324A (zh) * 2019-10-14 2020-03-10 平安普惠企业管理有限公司 一种测试结果数据保存方法、装置、终端设备及存储介质
CN110955416A (zh) * 2019-10-12 2020-04-03 平安普惠企业管理有限公司 接口文档生成方法、装置、设备和计算机存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020062241A1 (en) * 2000-07-19 2002-05-23 Janet Rubio Apparatus and method for coding electronic direct marketing lists to common searchable format
CN101894099A (zh) * 2010-06-29 2010-11-24 北京科技大学 一种报表模板定制方法
CN104239366A (zh) * 2013-06-21 2014-12-24 苏州精易会信息技术有限公司 基于c/s模式的电子表格数据管理方法
CN105630916A (zh) * 2015-12-21 2016-06-01 浙江工业大学 一种大数据环境下非结构化表格文档数据抽取与组织方法
CN105975562A (zh) * 2016-05-03 2016-09-28 水木智博(北京)网络信息科技有限公司 一种工程图纸的概预算表自动生成方法和装置
US20180225270A1 (en) * 2017-02-06 2018-08-09 International Business Machines Corporation Processing user action in data integration tools
CN110569489A (zh) * 2018-06-05 2019-12-13 北京国双科技有限公司 基于pdf文件的表格数据解析方法及装置
CN109783554A (zh) * 2018-12-13 2019-05-21 重庆金融资产交易所有限责任公司 excel文档解析方法、装置及计算机可读存储介质
CN109684210A (zh) * 2018-12-18 2019-04-26 宁夏隆基宁光仪表股份有限公司 一种网站自动化测试方法、装置、设备及可读存储介质
CN110069553A (zh) * 2019-04-28 2019-07-30 中国疾病预防控制中心 一种突发公共卫生事件的数据采集及处理方法、设备
CN110955416A (zh) * 2019-10-12 2020-04-03 平安普惠企业管理有限公司 接口文档生成方法、装置、设备和计算机存储介质
CN110874324A (zh) * 2019-10-14 2020-03-10 平安普惠企业管理有限公司 一种测试结果数据保存方法、装置、终端设备及存储介质
CN110795919A (zh) * 2019-11-07 2020-02-14 达而观信息科技(上海)有限公司 一种pdf文档中的表格抽取方法、装置、设备及介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KAVEH BASTANI: "Latent Dirichlet allocation (LDA) for topic modeling of the CFPB consumer complaints", 《EXPERT SYSTEMS WITH APPLICATIONS》, vol. 127, no. 1, pages 256 - 271 *
于旭: "基于有效特征子集提取的高效推荐算法", 《计算机系统应用》, vol. 28, no. 07, pages 162 - 168 *
张晓萍: "构建医院预算信息化管理体系", 《中国医疗设备》, vol. 12, no. 25, pages 75 - 77 *
王赵慧: "基于BS模式下的动态表格研究", 《数字技术与应用》, no. 03, pages 81 - 82 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111897884A (zh) * 2020-07-20 2020-11-06 北京用友薪福社云科技有限公司 数据关系信息显示方法、终端设备
CN111897884B (zh) * 2020-07-20 2024-02-23 北京用友薪畴数字科技有限公司 数据关系信息显示方法、终端设备
CN112418180A (zh) * 2020-12-11 2021-02-26 深圳前海微众银行股份有限公司 表格数据提取方法、装置、设备及计算机存储介质
CN113779943A (zh) * 2021-01-12 2021-12-10 北京沃东天骏信息技术有限公司 表格生成方法、表格生成装置、存储介质及电子设备
CN113779943B (zh) * 2021-01-12 2024-10-18 北京沃东天骏信息技术有限公司 表格生成方法、表格生成装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN111695330B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN111695330A (zh) 生成表格的方法、装置、电子设备及计算机可读存储介质
CN110147364B (zh) 数据清洗方法、装置、设备和存储介质
CN110968997B (zh) 强可控型文档生成方法、装置、存储介质、电子设备
CN110737689B (zh) 数据标准符合性检测方法、装置、系统及存储介质
CN113609820A (zh) 基于可扩展标记语言文件生成word文件的方法、装置及设备
CN109657208B (zh) 网页相似度计算方法、装置、设备、计算机可读存储介质
CN109002425B (zh) 企业上下游关系的获取方法、终端设备及介质
CN108388640A (zh) 一种数据转换方法、装置以及数据处理系统
WO2015160351A1 (en) Cascading style sheet meta language performance
CN114357943A (zh) 一种通用高效Excel读取处理方法、工具、介质及设备
CN101290622A (zh) 数据库清洗系统及方法
CN113918686A (zh) 智能问答模型构建方法、装置、计算机设备及存储介质
CN116029080A (zh) 芯片存储装置设计及验证方法、装置及电子设备
Goloboff et al. Comparative cladistics: identifying the sources for differing phylogenetic results between competing morphology-based datasets
CN114385167A (zh) 前端页面生成方法、装置、设备及介质
CN111291547B (zh) 模板生成方法、装置、设备及介质
CN111324463A (zh) 一种工程文件清标方法、系统、装置及存储介质
CN107729476B (zh) 一种机器数据在线处理方法及系统
CN113850265A (zh) Pdf文档的解析方法、装置、电子设备及存储介质
CN111309623B (zh) 一种坐标类数据分类测试方法及装置
CN111667214B (zh) 基于二维码的货物信息获取方法、装置及电子设备
CN111125483B (zh) 网页数据抽取模板生成方法、装置、计算机装置及存储介质
CN106909570B (zh) 一种数据转换方法及装置
CN114115831A (zh) 数据处理方法、装置、设备和存储介质
CN112115159A (zh) 一种sql语句的生成方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant