CN114036914A

CN114036914A - 一种表格数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN114036914A
Application number: CN202111222425.3A
Authority: CN
Inventors: 辛洋
Original assignee: Beijing Kingsoft Office Software Inc; Zhuhai Kingsoft Office Software Co Ltd; Wuhan Kingsoft Office Software Co Ltd
Current assignee: Beijing Kingsoft Office Software Inc; Zhuhai Kingsoft Office Software Co Ltd; Wuhan Kingsoft Office Software Co Ltd
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2022-02-11

Abstract

本发明提供一种表格数据处理方法、装置、电子设备及存储介质。所述方法包括：识别表格结构，根据所述表格结构和表格中数据内容的相似度，将所述表格的区域进行拆分，生成多个子表格；对所述子表格的数据内容进行规范化处理，得到处理后的子表格。本发明根据表格结构和表格数据内容的相似度计算出是否需要拆分表格，并对拆分后的表格进行数据清洗，降低了人的参与度的同时保证了拆分后的表格数据完整性和可分析性。

Description

一种表格数据处理方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种表格数据处理方法、装置、电子设备及存储介质。

背景技术

表格支持数据内容输入、输出和显示，可以帮助用户制作各种复杂的表格文档。然而，在表格中数据内容输入格式不统一的情况下，无法根据数据内容进行后续的引用、统计和计算等处理。

现有技术中，为了利用这些输入格式不统一的数据内容，需要人工对数据内容进行格式统一处理，然而这种人工处理数据内容的方式较为繁琐且效率低下。

发明内容

本发明提供一种表格数据处理方法、装置、电子设备及存储介质，用以解决现有技术中只能通过人工对表格的数据内容进行格式统一处理的问题。

本发明提供一种表格数据处理方法，包括：

识别表格结构，根据所述表格结构和表格中数据内容的相似度，将所述表格的区域进行拆分，生成多个子表格；

对所述子表格的数据内容进行规范化处理，得到处理后的子表格。

优选地，所述根据所述表格结构和表格中数据内容的相似度，将所述表格的区域进行拆分，生成多个子表格，包括：

获取当前表格的第一字段构成和第一数据内容，以及在先表格的第二字段构成和第二数据内容；

计算所述在先表格和所述当前表格的相似值；

若所述相似值小于第一阈值，则将所述表格拆分为在先子表格和当前子表格。

优选地，所述计算所述在先表格和所述当前表格的相似值，包括：

根据所述第一字段构成和所述第一数据内容确定所述当前表格的第一类型值，根据所述第二字段构成和所述第二数据内容确定所述在先表格的第二类型值；

根据所述第一类型值和所述第二类型值，计算所述相似值。

优选地，所述根据所述第一类型值和所述第二类型值，计算所述相似值，包括：

将所述第一类型值和所述第二类型值的比值作为所述相似值。

优选地，还包括：

识别所述表格中的空白区域，若所述空白区域对应的空白行数/ 空白列数大于第二阈值，则将所述表格拆分为多个子表格。

优选地，所述对所述子表格的数据内容进行规范化处理，得到处理后的子表格，包括：

根据所述子表格的行标题的数据字段，遍历所述子表格的全部数据内容，将每个数据内容列的数据内容以与所述子表格的行标题的数据字段对应的格式显示；或者，根据所述子表格的列标题的数据字段，遍历所述子表格的全部数据内容，将每个数据内容行的数据内容以与所述子表格的列标题的数据字段对应的格式显示。

遍历所述子表格的各个数据内容行，确定每个数据内容行的数据内容的显示格式的第一种类及对应所述显示格式的第一种类的第一数据内容个数，以数据内容个数最多的显示格式为依据进行数据内容的显示；

或者，遍历所述子表格的各个数据内容列，确定每个数据内容列的数据内容的显示格式的第二种类及对应所述显示格式的第二种类的第二数据内容个数，以数据内容个数最多的显示格式为依据进行数据内容的显示。

优选地，所述对所述子表格的数据内容进行规范化处理，得到处理后的子表格后，还包括：

根据所述处理后的子表格中的数据内容进行校对；

将不符合规范的数据内容标记为异常数据内容，并输出所述异常数据内容的提示信息。

本发明还提供了一种表格数据处理装置，包括：

第一处理模块，用于识别表格结构，根据所述表格结构和表格中数据内容的相似度，将所述表格的区域进行拆分，生成多个子表格；

第二处理模块，用于对所述子表格的数据内容进行规范化处理，得到处理后的子表格。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述表格数据处理方法的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述表格数据处理方法的步骤。

本发明提供的表格数据处理方法、装置、电子设备及存储介质，通过识别表格结构，根据表格结构和表格中数据内容的相似度，将表格的区域进行拆分，生成多个子表格，然后对子表格的数据内容进行规范化处理，得到处理后的子表格。由此可见，本发明根据表格结构和表格数据内容的相似度情况，将相似度较高的数据内容重组为子表格，进而对子表格中的数据内容做规范化处理，即令子表格中每一行的数据内容按照一致的显示格式显示，或者令子表格中每一列的数据内容按照一致的显示格式显示，从而实现对表格的数据内容智能进行格式统一处理，不需要人工参与处理数据内容的显示格式，节省了人力成本，降低了人工的参与度，且保证了子表格的数据内容的规整性和可引用。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的表格数据处理方法的流程示意图之一；

图2是本发明提供的表格数据处理方法的流程示意图之二；

图3是本发明提供的表格数据处理方法的处理示意图之一；

图4是本发明提供的表格数据处理方法的处理示意图之二；

图5是本发明提供的表格数据处理方法的处理示意图之三；

图6是本发明提供的表格数据处理方法的处理示意图之四；

图7是本发明提供的表格数据处理方法的处理示意图之五；

图8是本发明提供的表格数据处理方法的处理示意图之六；

图9是本发明提供的表格数据处理方法的处理示意图之七；

图10是本发明提供的表格数据处理方法的处理示意图之八；

图11是本发明提供的表格数据处理方法的处理示意图之九；

图12是本发明提供的表格数据处理方法的处理示意图之十；

图13是本发明提供的表格数据处理装置的结构示意图；

图14是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明所提供的一种表格处理方法适用于电子设备中，例如：智能手机、平板电脑和计算机等。可选的，本发明所提供的一种表格处理方法的执行主体可以为运行于电子设备中的表格处理客户端，例如表格处理应用程序APP(Application)。本方法应用于表格文档、文字文档、演示文档中的表格。

通常，表格具有许多以矩阵形式连续排列的单元格，数据内容可以显示在表格中的各个单元格中。单元格的纵向排列称为“列”，横向排列称为“行”。

本说明书一个或多个实施例中采用横向、纵向；横线、竖线，横向、横线的方向指，针对客户端的显示界面显示的数据内容，以用户平视时肉眼可识别的显示界面，且该显示界面正常、准确显示数据内容为基准，平行于水平地面的水平方向；纵向、竖线的方向指，针对客户端的显示界面显示的数据内容，以用户平视时肉眼可识别的显示界面，且该显示界面正常、准确显示数据内容为基准，垂直于水平地面的竖直方向。

数据内容布设在构成行的各个单元格中，和/或布设在构成列的各个单元格中。针对客户端的显示界面显示的数据内容，以用户平视时肉眼可识别的显示界面，且该显示界面正常、准确显示数据内容为基准，行是横线所组成的区域；列是竖线所组成的区域；行和列交叉形成的表格为单元格。

下面结合图1和图2描述本发明的表格处理方法。如图1所示，本发明提供的一种表格处理方法，包括：

步骤101：识别表格结构，根据表格结构和表格中数据内容的相似度，将表格的区域进行拆分，生成多个子表格；

在本步骤中，需要说明的是，首先基于表格结构识别算法获取表格结构，可选的，基于表格结构识别算法获取当前表格的第一字段构成和第一数据内容，以及在先表格的第二字段构成和第二数据内容。其中，第一字段构成和第二字段构成指代横向表格每一字段对应的数据内容类型，或纵向表格每一字段对应的数据内容类型，这里的字段可以指代表格中的每一行也可以是每一列，这里的每一字段对应的数据内容类型也即表格中的数据内容包含的全部单元格类型，单元格类型可以为：文本、数字、日期和时间等。第一数据内容和第二数据内容为表格中数据内容包含的全部单元格集合。

在本步骤中，可以理解的是，表格中可能包含多个子表格，因此在对表格的数据内容进行格式统一处理时，需要先拆分得到表格中包含的子表格，然后分别对各个子表格进行规范化处理。具体的，通过表格中数据内容的相似度对表格进行拆分，生成多个子表格。其中，相似度可以通过计算表格中不同数据内容之间的相似值得到，可以表明表格中不同数据内容之间的相似程度，从而根据判断相似值是否小于预设阈值来对表格进行拆分。其中，表格的区域指代表格中数据内容相似的区域。

相似度指数据内容的显示格式和数据内容的字符构成的相类似程度。表格的区域指表格的数据内容行，或者数据内容列，或者多个数据内容行形成的集合，或者多个数据内容列形成的集合。拆分指将表格以选定行为基准进行拆开，或者以选定列为基准进行拆开，还可以指将间隔的多个数据内容行重组为新的表格，还可以指将间隔的多个数据内容列重组为新的表格。

步骤102：对子表格的数据内容进行规范化处理，得到处理后的子表格。

在本步骤中，需要说明的是，在将表格拆分为多个子表格后，分别对各个子表格的数据内容进行规范化处理。规范化处理指代根据子表格行标题的数据字段，遍历子表格的全部数据内容，数字字段包括整型、浮点型、字符类型、日期类型、枚举与集合。将每个数据内容列的数据内容以与子表格的行标题的数据字段对应的格式显示；或者，根据子表格的列标题的数据字段，遍历子表格的全部数据内容，将每个数据内容行的数据内容以与所述子表格的列标题的数据字段对应的格式显示；或者，遍历子表格的各个数据内容行，确定每个数据内容行的数据内容的显示格式的第一种类及对应显示格式的第一种类的第一数据内容个数，以数据内容个数最多的显示格式为依据进行数据内容的显示，例如，将少数数据内容修改为与多数数据内容一致，和/或，遍历子表格的各个数据内容列，确定每个数据内容列的数据内容的显示格式的第二种类及对应显示格式的第二种类的第二数据内容个数，以数据内容个数最多的显示格式为依据进行数据内容的显示；或者将子表格中与行标题无直接对应关系的数据内容进行删除。在对各个子表格的数据内容进行规范化处理后，完成表格的数据内容格式统一处理。

本发明提供的表格数据处理方法，通过识别表格结构，根据表格结构和表格中数据内容的相似度，将表格的区域进行拆分，生成多个子表格，然后对子表格的数据内容进行规范化处理，得到处理后的子表格。由此可见，本发明根据表格结构和表格数据内容的相似度情况，将相似度较高的数据内容重组为子表格，进而对子表格中的数据内容做规范化处理，即令子表格中每一行的数据内容按照一致的显示格式显示，或者令子表格中每一列的数据内容按照一致的显示格式显示，从而实现对表格的数据内容智能进行格式统一处理，不需要人工参与处理数据内容的显示格式，节省了人力成本，降低了人工的参与度，且保证了子表格的数据内容的规整性和可引用。

基于上述实施例的内容，在本实施例中，根据表格结构和表格中数据内容的相似度，将表格的区域进行拆分，生成多个子表格，包括：

计算在先表格和当前表格的相似值；

若相似值小于第一阈值，则将表格拆分为在先子表格和当前子表格。

在本实施例中，第一字段构成和第二字段构成指代横向表格每一字段对应的数据内容类型，或纵向表格每一字段对应的数据内容类型，这里的字段可以指代表格中的每一行也可以是每一列，这里的每一字段对应的数据内容类型也即表格中的数据内容包含的全部单元格类型，单元格类型可以为：文本、数字、日期和时间等。第一数据内容和第二数据内容为表格中数据内容包含的全部单元格集合。当前表格指待进行相似度确认的数据内容对应的表格区域，其可以为一行或者一列，也可以为多行或者多列；在先表格指已进行相似度确认的数据内容对应的表格区域，其可以为一行或者一列，也可以为多行或者多列。

在本实施例中，计算在先表格和当前表格的相似值的具体方式为：根据当前横向表格每一字段对应的数据内容类型和在先横向表格每一字段对应的数据内容类型，确定当前横向表格数据内容的第一类型值，以及根据当前横向表格每一字段对应的数据内容类型和在先横向表格每一字段对应的数据内容类型，确定当前横向表格数据内容的第二类型值；或者根据当前纵向表格每一字段对应的数据内容类型和在先纵向表格每一字段对应的数据内容类型，确定当前纵向表格数据内容的第一类型值，以及根据当前纵向表格每一字段对应的数据内容类型和在先纵向表格每一字段对应的数据内容类型，确定当前纵向表格数据内容的第二类型值；如图12所示，当前纵向表格每一字段对应的数据内容类型分别为中文、中文、中文、日期和空白，对应的第一字段构成为([Chinese]、[Chinese]、[Chinese]、[Date]、[无])。类似的，在先纵向表格每一字段对应的数据内容类型分别为数字+英文、中文、数字和英文、中文、中文，对应的第二字段构成为([Number，English]、[Chinese]、[Number，English]、[Chinese]、[Chinese])。

在本实施例中，根据第一字段构成和第二字段构成，确定第一数据内容的第一类型值，以及确定第二数据内容的第二类型值，可以理解为根据第一字段构成和第二字段构成确定第一数据内容和第二数据内容的不相似列类型个数和可对比列类型个数，进而根据不相似列类型个数和可对比列类型个数的比值，确定第一数据内容和第二数据内容的相似值，当相似值小于预设阈值时，将表格拆分为在先子表格和当前子表格。

基于上述实施例的内容，在本实施例中，还包括：

识别表格中的空白区域，若空白区域对应的空白行数/空白列数大于第二阈值，则将表格拆分为多个子表格。

在本实施例中，本发明还提供了一种拆分表格的方式，即识别表格中的空白区域，当空白区域对应的行数或列数大于预设行数或列数时，将表格拆分为多个子表格，并在拆分后对各个子表格进行规范化处理。

空白区域指单元格中没有任何数据内容的空白单元格构成的空白单元格行或者空白单元格列。示例性的，第二阈值可以为3行、6 行、5列、8列等，本发明对此不做限制。

基于上述实施例的内容，在本发明的一个示例性实施例中，对子表格的数据内容进行规范化处理，得到处理后的子表格，包括：

根据子表格的行标题的数据字段，遍历子表格的全部数据内容，将每个数据内容列的数据内容以与子表格的行标题的数据字段对应的格式显示；或者，根据子表格的列标题的数据字段，遍历子表格的全部数据内容，将每个数据内容行的数据内容以与子表格的列标题的数据字段对应的格式显示。

在本发明的另一示例性实施例中，对子表格的数据内容进行规范化处理，得到处理后的子表格，包括：

遍历子表格的各个数据内容行，确定每个数据内容行的数据内容的显示格式的第一种类及对应显示格式的第一种类的第一数据内容个数，以数据内容个数最多的显示格式为依据进行数据内容的显示；

或者，遍历子表格的各个数据内容列，确定每个数据内容列的数据内容的显示格式的第二种类及对应显示格式的第二种类的第二数据内容个数，以数据内容个数最多的显示格式为依据进行数据内容的显示。

即，根据字段构成的类型个数，将少数类型修改为与多数类型一致，和/或，将子表格中与行标题无直接对应关系的数据内容进行删除。

在本实施例中，当表格中的数据字体或大小不统一时，将数据内容以与子表格行标题的数据字段对应的格式显示；若表格中某一列对应的数据内容大多数为数值，但却出现一个中文内容，则可以视为该中文内容为书写错误，并将该中文类型修改为与多数数值类型一致；对于表格中可能存在的无效数据内容，需要在规范化处理时对其删除，例如表格的最后一行为“备注信息”但对应的单元格内容为空白，则将该行删除。

基于上述实施例的内容，在本实施例中，对子表格的数据内容进行规范化处理，得到处理后的子表格后，还包括：

根据预先建立的校对指令对处理后的子表格中的数据内容进行校对；

将不符合规范的数据内容标记为异常数据内容，并输出异常数据内容的提示信息。

在本实施例中，在对各个子表格进行规范化处理后可以根据预先建立的校对指令对处理后的子表格中的数据内容进行校对，并将不符合规范的数据内容标记为异常数据内容，并输出异常数据内容的提示信息。其中，预设校对指令可以根据实际进行编写，此处不做详细说明。

下面通过具体实施例进行说明：

第一实施例：

在本实施例中，如图3所示，可以理解的是，表格中的单元格类型可以分为：大标题、行标题、内容和其他。其中，大标题包括：高一三班学期成绩统计和高二一班学期成绩统计，行标题包括文化课成绩、课外活动成绩、序号、标号、语文、数学、英语、体育和社会实践，其他包括“备注”，内容为除“大标题”、“行标题”和“其他”外的单元格内容。

在本实施例中，基于表格结构划分方式，获取表格数据的合并行列表；合并行列表包括合并行区域行区间、合并行区域列区间和合并行类型；合并行类型包括表格数据的大标题、行标题和内容；

在本实施例中，需要说明的是，由于用户在记录或书写表格时的排版较为随意，导致无法直接采用数据分析功能，因此，本发明需要将初始表格数据以数据表形式重新生成，具体的，首先采用表格结构化分算法得到表格数据的合并行列表，如图4所示，从图4中可以看出，其包括了合并行区域行区间、合并行区域列区间和合并行类型，合并行类型包括表格数据的大标题、行标题和内容。

在本实施例中，遍历表格数据的每一列，基于合并单元格平铺的方式，将合并行类型为行标题的单元格合并，得到表格数据的字段名列表；

在本步骤中，需要说明的是，在大多数情况下，待生成数据表的表格数据会包括多个子表。当待生成数据表的表格数据为单一表格数据时，遍历该表格的每一列数据，基于合并单元格平铺的方式，将合并行类型为行标题的合并后平铺得到对应的字段名，若当前合并行类型非行标题，则输出默认行标题_索引名，在遍历表格每一列对应的单元格数据后，得到表格数据的字段名列表。例如图3中，基于合并单元格平铺的方式，将合并行类型为行标题的合并后平铺得到对应的字段名包括：文化课成绩_数学、文化课成绩_语文、课外活动成绩_ 体育和课外活动成绩_社会实践。

在本实施例中，识别表格数据中的空白列，并根据空白列和合并行类型为行标题和内容的合并行，对合并行列表进行划分，得到“行标题+内容”或“内容”的列表为使用行标题划分的子表列表，如图5 所示。在得到表格数据的子表列表后，遍历子表列表的每一列，将合并行类型为行标题的单元格合并后平铺得到表格数据的行标题合并单元格平铺列表，如图6所示，进而可以根据图6得到表格数据的字段名列表，如图7所示。

在本实施例中，根据字段名列表和合并行类型为内容的单元格，将表格数据以数据表形式进行重组，生成表格数据对应的数据表。

在本实施例中，需要说明的是，当待生成数据表的表格数据为单一表格数据时，在获取字段名列表后，将字段名列表和合并行类型为内容的单元格合并，实现将表格数据以数据表形式进行重组，生成表格数据对应的数据表。当待生成数据表的表格数据包含至少两个子表格数据时，首先确定子表列表中内容合并行每一列的类型，具体的，遍历子表列表中内容合并行的每一行，统计每列中每个单元格类型出现的次数，然后根据每列中每个单元格类型出现的次数和内容合并行的行数，确定子表列表中内容合并行每一列的类型。在确定子表列表中内容合并行每一列的类型后，根据子表列表中内容合并行每一列的类型，计算内容合并行之间的不相似度，以使根据内容合并行之间的不相似度，对子表列表进行划分，得到表格数据的内容相似列表，如图8所示。在得到内容相似列表后，遍历表格数据的内容相似列表，将内容相似列表中的内容合并行与字段名列表合并，生成表格数据对应的数据表，如图9和图10所示，从而实现根据内容识别并切分数据表的逻辑。

基于上述实施例的内容，在本实施例中，基于表格结构划分方式，获取表格数据的合并行列表，包括：

基于表格结构划分方式，确定表格数据的合并行区域行区间和合并行区域列区间；

根据表格数据的合并行区域行区间和合并行区域列区间，确定表格数据的合并行类型，以使基于表格数据的合并行区域行区间、合并行区域列区间和合并行类型，生成表格数据的合并行列表。

在本实施例中，需要说明的是，采用预设的表格结构划分算法对表格结构进行划分，首先确定表格数据的合并行区域行区间和合并行区域列区间，然后根据表格数据的合并行区域行区间和合并行区域列区间，判断当前合并行的所属类型，最终汇总上述数据生成表格数据的合并行列表。本发明通过表格结构划分算法得到的合并行列表为后面的表格数据重组提供了保障，让用户在对表格数据结构化规范调整的过程，提升了效率降低了操作时间。

基于上述实施例的内容，在本实施例中，在遍历表格数据的每一列，基于合并单元格平铺的方式，将合并行类型为行标题的单元格合并，得到表格数据的字段名列表前，还包括：

根据合并行类型和表格数据中的空白列，划分合并行列表，得到表格数据的子表列表。

其中，根据合并行类型和表格数据中的空白列，划分合并行列表，得到表格数据的子表列表，包括：

获取表格数据中的空白列，并根据空白列和合并行类型为行标题和内容的合并行，对合并行列表进行划分，得到表格数据的子表列表。

在本实施例中，需要说明的是，当待生成数据表的表格数据包含至少两个子表格数据时，首先识别表格数据中的空白列，并根据空白列和合并行类型为行标题和内容的合并行，对合并行列表进行划分，得到“行标题+内容”或“内容”的列表为使用行标题划分的子表列表。本发明通过空白列和合并行类型为行标题和内容的合并行，对合并行列表进行划分，能够准确识别表格中包含的各个子表格数据，为后面的数据表拆分提供了基础。

基于上述实施例的内容，在本实施例中，遍历表格数据的每一列，基于合并单元格平铺的方式，将合并行类型为行标题的单元格合并，得到表格数据的字段名列表，包括：

遍历子表列表的每一列，将合并行类型为行标题的单元格合并后平铺得到表格数据的行标题合并单元格平铺列表，并根据行标题合并单元格平铺列表，得到表格数据的字段名列表。

基于上述实施例的内容，在本实施例中，还包括：

确定子表列表中内容合并行每一列的类型；

根据子表列表中内容合并行每一列的类型，计算内容合并行之间的不相似度，以使根据内容合并行之间的不相似度，对子表列表进行划分，得到表格数据的内容相似列表。

在本实施例中，需要说明的是，通过遍历子表列表中内容合并行的每一行，统计每列中每个单元格类型出现的次数，然后根据每列中每个单元格类型出现的次数和内容合并行的行数，确定子表列表中内容合并行每一列的类型。可选的，遍历子表列表中内容合并行的每一行，统计每列中每个单元格类型出现的次数，汇总(单元格类型出现的次数/行数)大于预设阈值的全部单元格类型，得到子表列表中内容合并行每一列的类型，单元格类型包括：中文、英文、数字、时间和日期。

在本实施例中，通过遍历子表列表中内容合并行每一列的类型，统计子表列表包含的第一内容合并行和第二内容合并行的可对比列类型个数和不相似列类型个数，进而根据子表列表包含的第一内容合并行和第二内容合并行的可对比列类型个数和不相似列类型个数，计算第一内容合并行和第二内容合并行的不相似度，以使根据内容合并行之间的不相似度，对子表列表进行划分，得到表格数据的内容相似列表。可选的，通过下述方式统计子表列表包含的第一内容合并行和第二内容合并行的可对比列类型个数和不相似列类型个数：

1、若第一内容合并行和第二内容合并行的对比列类型任意一个为空，则将第一内容合并行和第二内容合并行的可对比列类型个数和不相似列类型个数分别+0；

2、若第一内容合并行和第二内容合并行的对比列类型相同，且对比列类型仅包含时间、日期和数字中的一种，则将第一内容合并行和第二内容合并行的可对比列类型个数+1，不相似列类型个数+0；

3、若第一内容合并行和第二内容合并行的对比列类型相同，且均为时间或日期，则将第一内容合并行和第二内容合并行的可对比列类型个数+1，不相似列类型个数+0；

4、若第一内容合并行和第二内容合并行的单元格均包含中文，则将第一内容合并行和第二内容合并行的可对比列类型个数和不相似列类型个数分别+0；

5、若第一内容合并行和第二内容合并行的对比列类型不同，则根据下述公式计算第一内容合并行和第二内容合并行的对比列类型的差异值，若差异值大于0.5，则将第一内容合并行和第二内容合并行的可对比列类型个数和不相似列类型个数分别+1，否则将第一内容合并行和第二内容合并行的可对比列类型个数+1，不相似列类型个数 +0；公式为：

差异值＝(第二内容合并行的对比列类型未出现在第一内容合并行的对比列类型的个数+第一内容合并行的对比列类型未出现在第二内容合并行的对比列类型的个数)/最大对比列类型个数。

在本实施例中，可选的，若内容合并行之间的不相似度大于预设阈值，和/或内容合并行之间的间隔大于预设行数，则对子表列表进行划分，得到表格数据的内容相似列表。可见，本发明实施例采用行内容的相似度计算出是否需要拆分数据表，在降低人参与度的同时增加处理复杂场景的的可能性。

基于上述实施例的内容，在本实施例中，根据字段名列表和合并行类型为内容的单元格，将表格数据以数据表形式进行重组，生成表格数据对应的数据表，包括：

遍历表格数据的内容相似列表，将内容相似列表中的内容合并行与字段名列表合并，生成表格数据对应的数据表。

基于上述实施例的内容，在本实施例中，确定子表列表中内容合并行每一列的类型，包括：

遍历子表列表中内容合并行的每一行，统计每列中每个单元格类型出现的次数；单元格类型包括：中文、英文、数字、时间和日期；

将每列中每个单元格类型出现的次数/内容合并行的行数大于0.2 的单元格类型作为内容合并行每一列的类型。

在本实施例中，需要说明的是，通过遍历子表列表中内容合并行的每一行，统计每列中每个单元格类型出现的次数，然后根据每列中每个单元格类型出现的次数和内容合并行的行数，确定子表列表中内容合并行每一列的类型。可选的，遍历子表列表中内容合并行的每一行，统计每列中每个单元格类型出现的次数，汇总(单元格类型出现的次数/行数)大于0.2的全部类型，得到子表列表中内容合并行每一列的类型。例如，内容合并行为[2-15]，在遍历第一列对应的14行单元格后，假设14行单元格类型均为数字，则单元格类型为数字出现了14次，行数为14，此时根据上述公式计算结果为 1，其大于阈值0.2，则将内容合并行为[2-15]的第一列类型视为数字 [Number]。又例如，内容合并行为[2-15]，在遍历第一列对应的14 行单元格后，假设其中8行单元格类型为数字，6行单元格类型为英文，则单元格类型为数字出现了8次，行数为14，此时根据上述公式计算结果为0.57，其大于阈值0.2。同时，单元格类型为英文出现了6次，行数为14，此时根据上述公式计算结果为0.28，其大于阈值0.2，则将内容合并行为[2-15]的第一列类型为数字和英文[Number， English]。

基于上述实施例的内容，在本实施例中，根据子表列表中内容合并行每一列的类型，计算内容合并行之间的不相似度，包括：

遍历子表列表中内容合并行每一列的类型，统计子表列表包含的第一内容合并行和第二内容合并行的可对比列类型个数和不相似列类型个数；

根据子表列表包含的第一内容合并行和第二内容合并行的可对比列类型个数和不相似列类型个数，计算第一内容合并行和第二内容合并行的不相似度。

在本实施例中，在得到第一内容合并行和第二内容合并行的可对比列类型个数和不相似列类型个数后，基于下述公式计算第一内容合并行和第二内容合并行的不相似度：

基于上述实施例的内容，在本实施例中，根据内容合并行之间的不相似度，对子表列表进行划分，得到表格数据的内容相似列表，包括：

若内容合并行之间的不相似度大于预设阈值，和/或内容合并行之间的间隔大于预设行数，则对子表列表进行划分，得到表格数据的内容相似列表。

在本实施例中，可选的，若内容合并行之间的不相似度大于0.5，和/或内容合并行之间的间隔大于4行，则对子表列表进行划分，得到表格数据的内容相似列表。

第二实施例：

在本实施例中，首先获取表格数据，然后利用表格结构划分算法，得到合并行列表的识别类型，类型包含：大标题、行标题、内容、其他。

在本实施例中，获取使用行标题划分的子表列表。具体的，使用空白列、行标题对表格区域进行划分，得到“行标题+内容”或“内容”的列表为使用行标题划分的子表列表。

在本实施例中，遍历行标题划分的子表列表，遍历子表获取行标题的字段名列表。具体的，将行标题合并行的合并单元格平铺得到字段名，若没有行标题，给出默认行标题列_索引名，从而得到字段名列表。

在本实施例中，收集有数字或时间的内容合并行，遍历内容的合并行。具体的，收集单元格包含日期、数字的合并行，然后获取内容相似表的列表。具体的，遍历有数字或时间的内容合并行，判断当前行与之前全部合并行最相似的不相似度大于0.5，和/或上一个间隔4行，则拆分为2个表，得到内容相似列表。

在本实施例中，获取符合数据表结构的表的列表，并遍历内容相似列表，将内容相似列表的内容合并行单元格和字段名列表合并，得到数据表的列表。

由此可见，本发明实施例提供的一种基于表格数据生成数据表的方法，通过收集包含数字或时间的内容进行合并的方法剔除掉不规范的内容，并根据内容的相似度对表格进行拆分，实现根据内容识别并切分数据表的逻辑。

第三实施例：

在本实施例中，计算内容合并行之间的不相似度的方法具体为：

1、遍历全部内容合并行，使用方法1收集合并行每列的类型。

方法1：遍历合并行中的每一行，统计每列中每个单元格类型出现的次数，汇总(单元格类型出现的次数/行数)大于0.2的全部类型，得到列的类型。

2、遍历合并行的列的类型，使用方法2对比当前合并行和该表之前全部合并行的相似度最小的值，如果该值大于0.5，和/或与上一个间隔4行，则拆分为2个表。

方法2：对比当前合并行和之前合并行同一列的相似度需要统计 2个值：可对比列类型个数、不相似列类型个数，使用方法3计算2 个列类型的不相似度＝不相似列类型个数/可对比列类型个数。

方法3：

1)若第一内容合并行和第二内容合并行的对比列类型任意一个为空，则将第一内容合并行和第二内容合并行的可对比列类型个数和不相似列类型个数分别+0；

2)若第一内容合并行和第二内容合并行的对比列类型相同，且对比列类型仅包含时间、日期和数字中的一种，则将第一内容合并行和第二内容合并行的可对比列类型个数+1，不相似列类型个数+0；

3)若第一内容合并行和第二内容合并行的对比列类型相同，且均为时间或日期，则将第一内容合并行和第二内容合并行的可对比列类型个数+1，不相似列类型个数+0；

4)若第一内容合并行和第二内容合并行的单元格均包含中文，则将第一内容合并行和第二内容合并行的可对比列类型个数和不相似列类型个数分别+0；

5)若第一内容合并行和第二内容合并行的对比列类型不同，则根据下述公式计算第一内容合并行和第二内容合并行的对比列类型的差异值，若差异值大于0.5，则将第一内容合并行和第二内容合并行的可对比列类型个数和不相似列类型个数分别+1，否则将第一内容合并行和第二内容合并行的可对比列类型个数+1，不相似列类型个数 +0；公式为：

例如，如图11和图12所示，通过方法1得到属于包含数字或时间的内容合并行[2-4]，[5-8]，合并行内容对比通过方法3，得到每个列类型的可对比列类型个数和不相似列类型个数。例如，内容合并行[2-4]和[5-8]的第一列对比列类型分别为[Number，English]和[Chinese]，也即内容合并行[2-4]的第一列对比列类型包含数字和英文，其与内容合并行[5-8]的第一列对比列类型(中文)不同，则采用上述方法3中的5)。具体的，首先计算内容合并行[2-4]和[5-8]的对比列类型的差异值，差异值＝(内容合并行[5-8]的可对比列类型未出现在内容合并行[2-4]的可对比列类型的个数+内容合并行[2-4]的可对比列类型未出现在内容合并行[5-8]的可对比列类型的个数)/可对比列类型长度的最大值，也即差异值＝(2+1)/2＝1.5，其大于阈值 0.5，则在统计内容合并行[2-4]和[5-8]的可对比列类型个数和不相似列类型个数时，将内容合并行[2-4]和[5-8]的可对比列类型个数和不相似列类型个数分别+1。又例如，内容合并行[2-4]和[5-8]的第二列对比列类型分别为[Chinese]和[Chinese]，也即内容合并行[2-4]和[5-8] 的第二列对比列类型均为中文，则采用上述方法3中的4)，将内容合并行[2-4]和[5-8]的可对比列类型个数和不相似列类型个数分别+0。内容合并行[2-4]和[5-8]的第三列和第四列的对比列类型均不相同，同样采取上述方法3中的5)计算差异度，再根据差异度对可对比列类型个数和不相似列类型个数进行统计，此处不再赘述。在遍历完内容合并行全部列类型后，得到可对比列类型个数为3，不相似列类型个数为3，则内容合并行[2-4]和[5-8]的不相似度＝不相似列类型个数/可对比列类型个数＝3/3＝1，大于0.5，即将图11中的表格拆分为 2个表。

下面对本发明提供的表格数据处理装置进行描述，下文描述的表格数据处理装置与上文描述的表格数据处理方法可相互对应参照。

如图13所示，本发明提供的一种表格数据处理装置，包括：

第一处理模块1，用于识别表格结构，根据表格结构和表格中数据内容的相似度，将表格的区域进行拆分，生成多个子表格；

第二处理模块2，用于对子表格的数据内容进行规范化处理，得到处理后的子表格。

在本实施例中，需要说明的是，首先基于表格结构识别算法获取表格结构，可选的，基于表格结构识别算法获取当前表格的第一字段构成和第一数据内容，以及在先表格的第二字段构成和第二数据内容。其中，第一字段构成和第二字段构成指代横向表格每一字段对应的数据内容类型，或纵向表格每一字段对应的数据内容类型，这里的字段可以指代表格中的每一行也可以是每一列，这里的每一字段对应的数据内容类型也即表格中的数据内容包含的全部单元格类型，单元格类型可以为：文本、数字、日期和时间等。第一数据内容和第二数据内容为表格中数据内容包含的全部单元格集合。

在本实施例中，可以理解的是，表格中可能包含多个子表格，因此在对表格的数据内容进行格式统一处理时，需要先拆分得到表格中包含的子表格，然后分别对各个子表格进行规范化处理。具体的，通过表格中数据内容的相似度对表格进行拆分，生成多个子表格。其中，相似度可以通过计算表格中不同数据内容之间的相似值得到，可以表明表格中不同数据内容之间的相似程度，从而根据判断相似值是否小于预设阈值来对表格进行拆分。其中，表格的区域指代表格中数据内容相似的区域。

在本实施例中，需要说明的是，在将表格拆分为多个子表格后，分别对各个子表格的数据内容进行规范化处理。规范化处理指代根据子表格行标题的数据字段，遍历子表格的全部数据内容，数字字段包括整型、浮点型、字符类型、日期类型、枚举与集合。将每个数据内容列的数据内容以与子表格的行标题的数据字段对应的格式显示；或者，根据子表格的列标题的数据字段，遍历子表格的全部数据内容，将每个数据内容行的数据内容以与所述子表格的列标题的数据字段对应的格式显示；或者，遍历子表格的各个数据内容行，确定每个数据内容行的数据内容的显示格式的第一种类及对应显示格式的第一种类的第一数据内容个数，以数据内容个数最多的显示格式为依据进行数据内容的显示，例如，将少数数据内容修改为与多数数据内容一致，和/或，遍历子表格的各个数据内容列，确定每个数据内容列的数据内容的显示格式的第二种类及对应显示格式的第二种类的第二数据内容个数，以数据内容个数最多的显示格式为依据进行数据内容的显示；或者将子表格中与行标题无直接对应关系的数据内容进行删除。在对各个子表格的数据内容进行规范化处理后，完成表格的数据内容格式统一处理。

本发明提供的表格数据处理装置，通过识别表格结构，根据表格结构和表格中数据内容的相似度，将表格的区域进行拆分，生成多个子表格，然后对子表格的数据内容进行规范化处理，得到处理后的子表格。由此可见，本发明根据表格结构和表格数据内容的相似度情况，将相似度较高的数据内容重组为子表格，进而对子表格中的数据内容做规范化处理，即令子表格中每一行的数据内容按照一致的显示格式显示，或者令子表格中每一列的数据内容按照一致的显示格式显示，从而实现对表格的数据内容智能进行格式统一处理，不需要人工参与处理数据内容的显示格式，节省了人力成本，降低了人工的参与度，且保证了子表格的数据内容的规整性和可引用。

基于上述实施例的内容，在本实施例中，第一处理模块，具体用于：

计算在先表格和当前表格的相似值；

基于上述实施例的内容，在本实施例中，第一处理模块，还具体用于：

根据所述第一类型值和所述第二类型值，计算所述相似值。

基于上述实施例的内容，在本实施例中，第二处理模块，具体用于：

基于上述实施例的内容，在本实施例中，第二处理模块在得到处理后的子表格后，还具体用于：

对所述处理后的子表格中的数据内容进行校对；

图14示例了一种电子设备的实体结构示意图，如图14所示，该电子设备可以包括：处理器(processor)1410、通信接口(Communications Interface)1420、存储器(memory)1430、通信总线1440和存储在所述存储器上并可在所述处理器上运行的计算机程序。其中，处理器1410，通信接口1420，存储器1430通过通信总线1440完成相互间的通信。处理器1410可以调用存储器1430中的逻辑指令，以执行表格数据处理方法，该方法包括：识别表格结构，根据表格结构和表格中数据内容的相似度，将表格的区域进行拆分，生成多个子表格；对子表格的数据内容进行规范化处理，得到处理后的子表格。

存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序

此外，上述的存储器1430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，计算机程序被处理器执行时，计算机能够执行上述各方法所提供的表格数据处理方法，该方法包括：识别表格结构，根据表格结构和表格中数据内容的相似度，将表格的区域进行拆分，生成多个子表格；对子表格的数据内容进行规范化处理，得到处理后的子表格。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的表格数据处理方法，该方法包括：识别表格结构，根据表格结构和表格中数据内容的相似度，将表格的区域进行拆分，生成多个子表格；对子表格的数据内容进行规范化处理，得到处理后的子表格。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种表格数据处理方法，其特征在于，包括：

2.根据权利要求1所述的表格数据处理方法，其特征在于，所述根据所述表格结构和表格中数据内容的相似度，将所述表格的区域进行拆分，生成多个子表格，包括：

计算所述在先表格和所述当前表格的相似值；

3.根据权利要求2所述的表格数据处理方法，其特征在于，所述计算所述在先表格和所述当前表格的相似值，包括：

根据所述第一类型值和所述第二类型值，计算所述相似值。

4.根据权利要求3所述的表格数据处理方法，其特征在于，所述根据所述第一类型值和所述第二类型值，计算所述相似值，包括：

5.根据权利要求1所述的表格数据处理方法，其特征在于，还包括：

识别所述表格中的空白区域，若所述空白区域对应的空白行数/空白列数大于第二阈值，则将所述表格拆分为多个子表格。

6.根据权利要求1所述的表格数据处理方法，其特征在于，所述对所述子表格的数据内容进行规范化处理，得到处理后的子表格，包括：

7.根据权利要求1所述的表格数据处理方法，其特征在于，所述对所述子表格的数据内容进行规范化处理，得到处理后的子表格，包括：

8.根据权利要求6或7所述的表格数据处理方法，其特征在于，所述对所述子表格的数据内容进行规范化处理，得到处理后的子表格后，还包括：

对所述处理后的子表格中的数据内容进行校对；

9.一种表格数据处理装置，其特征在于，包括：

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述表格数据处理方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述表格数据处理方法的步骤。