CN111859895A

CN111859895A - 一种对批量文档内表格进行比对的方法、系统和存储介质

Info

Publication number: CN111859895A
Application number: CN202010737954.6A
Authority: CN
Inventors: 王立君; 葛亚飞; 林加旗; 魏巍; 包卿
Original assignee: Zhejiang Mingdu Intelligent Control Technology Co ltd
Current assignee: Zhejiang Mingdu Intelligent Control Technology Co ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-10-30
Anticipated expiration: 2040-07-28
Also published as: CN111859895B

Abstract

本发明公开了一种对批量文档内表格进行比对的方法，包括批量获取各类格式文档中的待分析表格，获取表格中的各单元格坐标和内容；依次逐对比较两表格中的内容一致单元格的坐标及内容；根据内容一致单元格的数量和/或分布位置来判断所述两表格是否为关联表格对；如两表格为关联表格对则比较两表格对应各单元格的内容，分别记录两表格中内容不一致单元格坐标及内容。最终减少呈现给用户的不一致单元格结果数量，便于用户快速排查发现错误、异常表格。

Description

一种对批量文档内表格进行比对的方法、系统和存储介质

技术领域

本发明涉及数据处理和分析技术领域，尤其涉及一种对批量文档内表格进行比对的方法、系统和存储介质。

背景技术

电子表格(Spreadsheet)，又称电子数据表，由一系列行与列构成的网格，网格内可以存放数值、计算式以及文本等。常用的电子表格例如Excel表格，Excel表格被提交至版本管理服务器做版本管理。在日常的一些领域的文字处理工作中，经常需要处理大量的文档，而这些文档中又存在大量表格，这些表格具有相似度高，相互引用、嵌套的情况，同时由于处理工作量大等原因，经常需要多个用户协作进行文档编辑。例如，药企研发机构在准备整理药品申报资料时存在大量文档，文档中存在大量表格。这些表格存在相似度高、相互引用、和嵌套等各类情况。同时，由于这些关联表格由多人人为整理，往往存在对应单元格内容不一致、表格行列丢失、表格行列顺序错乱等各种错误情况。但是由于表格众多，而其分布在大量不同文档中，这就造成后期人为检查的工作量极大，且上述错误情况难以发现，最终直接导致资料错误，合规性需求难以满足，严重拖延了药品申报进度。

发明内容

本发明针对现有技术中的不足，提供了一种对批量文档内表格进行比对的方法，具体包括：

S1，批量获取各类格式文档中的待分析表格，获取表格中的各单元格坐标和内容；

S2，依次逐对比较两表格中的内容一致单元格的坐标及内容；

S3，根据内容一致单元格的数量和/或分布位置来判断所述两表格是否为关联表格对；

S4，如两表格为关联表格对则比较两表格对应各单元格的内容，分别记录两表格中内容不一致单元格坐标及内容。

优选的，所述步骤S3包括：

获取两表格的内容一致单元格数量和在表格中的分布位置；

获取两表格的最小表格矩阵，所述最小表格矩阵为包含有该表格内所有内容一致单元格的最小矩形表格区域；

当所述内容一致单元格数量和/或最小表格矩阵所包含单元格数量符合预设关联表格对规则时，判断所述两表格为关联表格对。

优选的，所述关联表格对规则包括但不限于：内容一致单元格数量大于预设值、和/或内容一致单元格数量的两倍要大于所在两表格所包含单元格数量之和的预设比例时、和/或内容一致单元格数量大于其所在最小表格矩阵内的单元格总数的预设比例。

优选的，所述步骤S3还包括：分别获取所述两表格的行数和列数；如果所述两表格的行数或列数差值大于预设值时，判断两表格为非关联表格对，否则再根据内容一致单元格的数量和/或分布位置来判断所述两表格是否为关联表格对。

优选的，所述步骤S1包括：根据分别获取的两表格中各单元格坐标和内容生成表格单元格坐标与内容相对应的表格结构化数据。

优选的，所述步骤S1包括：所述表格结构化数据包括表格所属文档信息、表格在文档中位置、表格内单元格坐标、及单元格内容信息。

本发明还公开了一种对批量文档内表格进行比对的系统，包括：

内容结构化模块，用于批量获取各类格式文档中的待分析表格，获取表格中的各单元格坐标和内容；

表格关联分析模块，用于依次逐对比较两表格中的内容一致单元格的坐标及内容，并根据内容一致单元格的数量和/或分布位置来判断所述两表格是否为关联表格对；

表格差异处理模块，用于比较关联表格对的两表格对应各单元格的内容，分别记录两表格中内容不一致单元格坐标及内容。

优选的，所述表格关联分析模块包括：表格分析模块，用于获取两表格的内容一致单元格数量和在表格中的分布位置；最小表格矩阵获取模块，用于获取两表格的最小表格矩阵，所述最小表格矩阵为包含有该表格内所有内容一致单元格的最小矩形表格区域；关联表格对判断模块，用于在所述内容一致单元格数量和/或最小表格矩阵所包含单元格数量符合预设关联表格对规则时，判断所述两表格为关联表格对。

本发明还公开了一种批量文档内表格智能比对装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述所述对批量文档内表格进行比对的方法的步骤。

本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如上述所述对批量文档内表格进行比对的方法的步骤。

本发明通过获取表格中的各单元格坐标和内容，对各表格进行表格关联分析，建立内容一致单元格形成的关联表格对，通过自定义预设准则判断两个表格是否为关联表格对。后续通过仅对具有关联关系的关联表格对进行后续对比分析，大大减少对比分析的计算量。另外，在对关联表格对进行对比分析过程中，还可以充分考虑小表格嵌入大表格，表格行列转置，表格行列顺序错乱，表格内部及四周行列缺失等各类情况，根据关联表格对各情况状态分别进行分析，找出关联表格对的不一致单元格坐标及位置。最后可以通过排除行列顺序错乱和行列缺失产生的不一致单元格，根据找出的真实不一致单元格、及不一致单元格内容中的不一致字符集合，筛选出真正异常的表格对以及不一致单元格内不一致字符集合，最终减少呈现给用户的结果数量，便于用户快速排查发现错误、异常表格。可以实现对大量表格的对比分析，发现和定位关联表格不一致的单元格及单元格内容差异。适用于需要处理大量相似表格，表格多处嵌套、复用的场景，可以减少人工检查表格一致性的大量重复性工作，避免关联表格对应单元格内容不一致的错误。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1 为本实施例公开的对批量文档内表格进行比对的方法的流程示意图。

图2 为本实施例公开的步骤S3的具体流程示意图。

图3为本实施例公开的待分析表格的转化示意图。

图4为本实施例公开的步骤S33的具体流程示意图。

图5为本实施例公开的步骤S4的具体流程示意图。

图6为本实施例公开的步骤S41在状态一时的具体流程示意图。

图7为本实施例公开的步骤S41在状态二时的具体流程示意图。

图8为本实施例公开的步骤S41在状态三一情形时的具体流程示意图。

图9为本实施例公开的步骤S41在状态三另一情形时的具体流程示意图。

图10为本实施例公开的步骤S41在状态四一情形时的具体流程示意图。

图11为本实施例公开的步骤S41在状态四另一情形时的具体流程示意图。

图12为本实施例公开的对批量文档内表格进行比对的系统的结构示意图。

图13为本实施例公开的对批量文档内表格进行比对的装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方，或仅仅表示第一特征水平高度小于第二特征。

除非另作定义，此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”或者“一”等类似词语也不表示数量限制，而是表示存在至少一个。

目前各类企业例如药企研发机构等在准备整理药品申报资料时存在大量文档，文档中存在大量表格。而这些表格中普遍存在相似度高、相互引用、嵌套的情况。由于这些关联表格往往是由多人人为整理，导致在这些表格中不开避免的出现对应单元格内容不一致、表格丢失行列、行列顺序错乱等各类错误情况。另外由于表格众多，且分布在大量不同文档中，后期人为检查的工作量极大，使得上述错误情况难以被完整的、快速的发现，导致资料错误，材料合规性需求难以满足。针对这些技术问题，如附图1所示，本实施例公开了一种对批量文档内表格进行比对的方法，具体包括：

步骤S1，批量获取各类格式文档中的待分析表格，获取表格中的各单元格坐标和内容。

具体的，根据分别获取的两表格中各单元格坐标和内容生成表格单元格坐标与内容相对应的表格结构化数据。其中表格结构化数据包括表格所属文档信息、表格在文档中位置、表格内单元格坐标、及单元格内容信息。

通过获取表格各单元格的坐标和内容，将每个表格处理成单元格坐标和单元格内容一一对应的数据结构。具体的，可以通过现有工具、方法读取Word、Excel、PDF等各种格式文档中的表格，遍历表格的每一个单元格，将所有单元格的坐标以空格为分隔符，形成一个字符串；所有单元格的内容也以空格为分隔符，形成一个字符串，要保证单元格的坐标与内容一一对应。在一些具体实施例中，由于表格存在合并单元格的情况，在读取表格各单元格坐标时，要确保同一行单元格的行坐标相等，同一列单元格的列坐标相等。对于这类情况中的合并单元格产生的缺失单元格坐标，可以用空内容补充，可以是对应坐标的单元格内容为空。

具体的，每个表格可以形成如下形成的数据结构，

{

String fileId; // 表格所在文档的id

Integer location; // 表格在文档中的位置

String coordinate; // 表格所有单元格的坐标信息

String content; // 表格所有单元格的内容信息

}

其中fileId和location字段用于标明表格所属文档及其在该文档中的位置，用于向用户呈现表格分析对比结果时定位表格。coordinate和content字段为单元格坐标及内容信息，用于表格关联分析和对比分析。表格结构化后的数据可直接用于后续分析，但当表格数量很大时，结构化数据将占用大量内存；其为了避免每次分析都进行结构化运算，推荐将表格结构化数据进行持久化。可选择任何关系型、非关系型数据库，如MySQL、SqlServer、Oracle、MongoDB、Elasticsearch等进行表格结构化数据的持久化。通过提取表格单元格坐标和内容形成表格结构化数据，确保同一行列单元格的行列坐标一致，为后续分析做准备。

步骤S2，依次逐对比较两表格中的内容一致单元格的坐标及内容。

步骤S3，根据内容一致单元格的数量和/或分布位置来判断所述两表格是否为关联表格对。

该步骤S2和S3用于筛选出内容关联的表格以便进行下一步的对比分析，对非关联表格当作是完全不同的两个表格，不再进行对比分析。即当两个表格不存在关联关系时，可以认为是正常的不同表格，无需将没有关联关系的不同表格间的区别呈现给用户。因为本发明所公开的方法是用于向用户标识那些在不同文档或同一文档的不同表格中内容本应相同但由于人为错误而可能产生了不一致的单元格。

优选的，如附图2所示，所述步骤S3包括：

步骤S31，获取两表格的内容一致单元格数量和在表格中的分布位置。

步骤S32，获取两表格的最小表格矩阵，所述最小表格矩阵为包含有该表格内所有内容一致单元格的最小矩形表格区域。

具体的，以A、B两个表格为例，取A表格结构化数据，将coordinate和content字段分别解析为两个链表，coordinateListA和contentListA。两个链表相应索引位置的坐标和内容一一对应。同样地，取B表格结构化数据解析得到coordinateListB和contentListB。遍历链表contentListA和contentListB，找到其中相等的元素；分别根据内容元素在coordinateListA和coordinateListB中找到相应的坐标。A、B表格内容一致单元格的坐标可以形成一个字典sameCell，key值为A表格一致单元格坐标，value为B表格一致单元格坐标。

将A、B表格转换为矩阵，如附图3所示，以A表格为例，图3所示表格为原始表格矩阵，根据坐标初始化A表格矩阵为原始矩阵，各元素值初始为0。根据字典sameCell，将一致单元格坐标位置的元素改写为1，以右下角1的坐标形成大矩阵。去除大矩阵上部和左侧全为0的行列得到最小表格矩阵和最小表格矩阵首元素坐标。具体的，虚线边框所包围的多个单元格组成大矩阵，灰色填充的多个单元格组成最小表格矩阵。最小表格矩阵可以看做是嵌入大表格的小表格。各矩阵坐标从0开始，上图中最小表格矩阵第一个元素[0，0]在大矩阵中的坐标为[2，2]，即最小表格矩阵首元素坐标。

步骤S33，当所述内容一致单元格数量和/或最小表格矩阵所包含单元格数量符合预设关联表格对规则时，判断所述两表格为关联表格对。

具体的，如附图4所示，所述步骤S33还包括：

步骤S331，分别获取所述两表格的行数和列数。

步骤S332，如果所述两表格的行数或列数差值大于预设值时，判断两表格为非关联表格对，否则再根据内容一致单元格的数量和/或分布位置来判断所述两表格是否为关联表格对。

其中，在本实施例中，关联表格对规则包括但不限于：内容一致单元格数量大于预设值、和/或内容一致单元格数量的两倍要大于所在两表格所包含单元格数量之和的预设比例时、和/或内容一致单元格数量大于其所在最小表格矩阵内的单元格总数的预设比例。

具体的，得到表格A、B的矩阵后，判断两个表格A、B是否是关联表格。其中关联表格的判断规则可以根据经验和实际情况进行制定。本实施例中预设的判断规则可以为：

两个表格至少要有n个单元格内容一致，即最小表格矩阵中1的个数大于n。

一致单元格数的二倍要大于两表格单元格数和的百分之m。

A表格和B表格的最小表格矩阵的行列数要大于1，且1的个数要大于最小表格矩阵元素总数的百分之L。

只有满足上面的一个或多个规则才是关联表格，否则可能是两个无关表格。在本实施例中，其中n可以优先选择推荐值为3，m推荐值为50，L推荐值为50，当然也可根据具体文档情况另行设定。

通过对两表格的最小表格矩阵来进行分析，可以充分的考虑到部分表格内容嵌套的情形，即考虑小表格嵌入其余大表格中的情况下，只有嵌入的小表格内容才与另一表格具有关联关系，此时即需要通过获取最小表格矩阵的形式来分辨出该表格内嵌入的小表格所在区域，然后再将该嵌入表格区域与其它表格或其它表格中的嵌套区域进行比较来确定相互间的关联关系。另外，由于通常情况下，人为错误只会造成少量错误，即在关联表格中产生少量不一致单元格。因此当被分析的两表格中不一致单元格数量过多时，即两个表格差异较大，可以认为是正常的无关联的不同表格，不用呈现给用户。

通过以上步骤，遍历所有结构化后的表格，找出关联表格对，及其一致单元格坐标字典sameCell，和表格矩阵，作为下一步对比分析的输入参数。通过比较各表格的单元格内容进行表格关联分析，建立由内容一致单元格形成的最小表格矩阵，通过预设的自定义准则筛选两个表格是否为关联表格对。仅对关联表格对进行后续对比分析，大大减少对比分析的计算量。

步骤S4，如两表格为关联表格对则比较两表格对应各单元格的内容，分别记录两表格中内容不一致单元格坐标及内容。

如附图5所示，所示步骤S4可具体包括：

步骤S41，比较关联表格对的各单元格内容，根据内容不一致单元格的分布位置筛选出关联表格对上的异常单元格组，所述异常单元格组包括部分或全部内容不一致单元格。

该步骤S41具体可以分成以下几种状态分别进行处理：

状态一，被判断为关联表格对的两个表格内的最小表格矩阵的行列数一致。

状态二，被判断为关联表格对的两个表格中的一个表格的最小表格矩阵进过转置后，与另一表格的最小表格矩阵的行列数一致。

状态三，被判断为关联表格对的两个表格内的最小表格矩阵的行数相差n，或列数相差n，其中n小于预设值。

状态四，被判断为关联表格对的两个表格的行数相差n，或列数相差n，其中n小于预设值。

对于状态一，步骤根据内容不一致单元格的分布位置筛选出关联表格对上的异常单元格组，如附图6所示，具体包括：

步骤S101，当关联表格对的两最小表格矩阵的行列数一致时，遍历最小表格矩阵的每一单元格。

步骤S102，比较两最小表格矩阵对应位置的单元格内容是否相同，如果存在不同则将其中内容不一致单元格坐标和内容进行录入异常单元格组，否则不进行记录。即如果两最小表格矩阵对应位置的单元格内容相同，则不进行记录。即关联表格对中没有内容错误的异常单元格。

具体的，以本实施例中关联表格对A和B为例，在A、B两表格的最小表格矩阵的行数和列数相同时。遍历最小表格矩阵的每个元素，比较A、B最小表格矩阵对应坐标的内容是否相等，分别记录A、B中所有不相等的单元格坐标和内容，同时记录该关联表格对，生成异常单元格组。该异常单元格组可采用字典数据结构DifTableCells，key值为关联表格对，如AB。value值为数组形成的链表，链表的每个元素为两个表格不一致单元格的坐标和内容，如[A单元格坐标，A单元格内容，B单元格坐标，B单元格内容]。若A、B最小表格矩阵对应坐标的内容都相等，则表格A、B内容一致，不进行记录。

对于状态一中的情形，步骤其中根据内容不一致单元格的分布位置筛选出关联表格对上的异常单元格组具体还可以包括如下步骤：

步骤S103，如果最小表格矩阵的行数和列数相同，则将关联表格对中的一表格转置形成第一转置表格。

步骤S104，将另一表格的最小表格矩阵与该第一转置表格的最小表格矩阵进行比较并获取不一致单元格数量。

步骤S105，比较转置前后分别获得的不一致单元格数量，将数量较小的作为该关联表格对的异常单元格组数据。

例如在本实施例中，如果A、B的最小表格矩阵行数和列数相等，也可能存在两个表格转置后内容一致的可能。将一个表格转置后，比较对应坐标的元素是否相等，得到的内容不一致单元格数量与前面的A和B表格间内容不一致单元格数量进行比较，数量较小者则为正确的比较结果。例如，在A表格转置后形成的转置表格C，遍历转置表格C和表格B的最小表格矩阵区域内的每个单元格，比较C和B的最小表格矩阵对应坐标的元素或内容是否相等，分别记录C和B最小表格矩阵中所有对应的内容不一致单元格坐标和内容，同时记录该关联表格对。如果表格A转置后形成的转置表格C与表格B的最小表格矩阵经分析后获得的内容不一致单元格数量，要小于前述步骤获得的表格A和B的最小表格矩阵的内容不一致单元格数量。则表明可能A表格的行内容刚好对应关联的是B表格的列内容，而A表格的列内容刚好对应关联的是B表格的行内容，只有这样经过转置后的表格才会比原表格与另一表格间的内容不一致单元格数量更少。通过对最小表格矩阵行数和列数相等的两表格进行转置前和转置后的两次内容不一致单元格的获取和筛选，可以有效分辨出那些仅仅是将表格行列内容进行调换的表格，此类仅对行列内容进行调换的表格可以认为是正常的内容相同的关联表格，无需呈现给用户。

对于状态二，如附图7所示，步骤根据内容不一致单元格的分布位置筛选出关联表格对上的异常单元格组具体包括：

步骤S201，当关联表格对中一表格的最小表格矩阵经转置后与另一表格的最小表格矩阵的行列数均相等时，将该表格转置形成第二转置表格。

步骤S202，比较第二转置表格最小表格矩阵与另一表格最小表格矩阵在对应位置的内容是否相同，若存在不同则将其中内容不一致单元格坐标和内容录入异常单元格组。

具体的，在本实施例中，即当A、B最小表格矩阵中的一个转置后，两个矩阵的行列数一致的情况下。对于该情况，将一个表格转置后，再遍历最小表格矩阵内的每个单元格，比较A、B最小表格矩阵对应坐标的单元格内容或元素是否相等，分别记录A、B中所有不相等的单元格坐标和内容，同时记录该关联表格对，生成或录入异常单元格组中，其中异常单元格组的数据格式可参数前述步骤。若比较结果都相等，则表格A、B内容一致，不进行记录。在本实施例中，当A和B的最小表格矩阵中的一个转置后，两个矩阵的行列数一致，即表明A表格中嵌套的小表格与B表格中嵌套的小表格上的内容很有可能仅仅只是行内容和列内容间进行了互相替换，而表格行列内容的转换仅仅只是表现方式的不同，可以认为是正常的内容相同的关联表格，无需呈现给用户，只需将其中一小表格经过转置后与另一小表格进行对应比对，找出真正的内容不一致单元格并呈现给用户即可。

对于状态三中的两个表格内最小表格矩阵的行数相差n，如附图8所示，步骤根据内容不一致单元格的分布位置筛选出关联表格对上的异常单元格组具体包括：

步骤S301，当关联表格对中的第一表格最小表格矩阵的行数比第二表格的最小表格矩阵多N行，且N小于预设值时，获取第一表格最小表格矩阵中不一致单元格最多的N行，并记录这N行各单元格的坐标和内容。

步骤S302，在第一表格的最小表格矩阵中去除该N行后形成过渡表格矩阵。

步骤S303，依次比较过渡表格矩阵与第二表格最小表格矩阵对应位置的单元格内容是否相同，若存在不相同单元格则生成或录入异常单元格组，所述异常单元格组包括但不限于关联表格对、过渡表格矩阵与第二表格中内容不一致单元格坐标和内容、以及所述N行单元格的坐标和内容。

其中在本实施例中，n值可以根据实际使用环境进行预先设定，在本实施例中以n为2进行举例说明。具体的，当A和B的最小表格矩阵行数相差超过2行时，认为A和B两个表格不是关联表格，不进行对比分析。以A的最小表格矩阵比B的最小表格矩阵多一行的情况来具体说明。找出A的最小表格矩阵中“0”最多的一行，该行则为多出来的一行，记录该行各单元格元素的坐标和内容。在A的最小表格矩阵中去除该行，将该行下方的各元素上移，形成表格A’。比较A’ 的最小表格矩阵和B的最小表格矩阵对应坐标的单元格内容或元素是否相等，如不相等则分别记录所有不相等的单元格坐标和内容，同时记录该关联表格对，生成或录入异常单元格组中，其中异常单元格组包括但不限于关联表格对、过渡表格矩阵与第二表格中内容不一致单元格坐标和内容、以及多出来的N行单元格的坐标和内容。其它相差行的情况可以参照上述方法进行对比分析。

对于状态三中的两个表格内最小表格矩阵的列数相差n，如附图9所示，步骤根据内容不一致单元格的分布位置筛选出关联表格对上的异常单元格组具体包括：

步骤S401，当关联表格对中的第一表格最小表格矩阵的列数比第二表格的最小表格矩阵多N列，且N小于预设值时，获取第一表格最小表格矩阵中不一致单元格最多的N列，并记录这N列各单元格的坐标和内容。

步骤S402，在第一表格的最小表格矩阵中去除该N列后形成过渡表格矩阵。

步骤S403，依次比较过渡表格矩阵与第二表格最小表格矩阵对应位置的单元格内容是否相同，若存在不相同单元格则生成或录入异常单元格组，所述异常单元格组包括但不限于关联表格对、过渡表格矩阵与第二表格中内容不一致单元格坐标和内容、以及所述N列单元格的坐标和内容。

其中在本实施例中，n值可以根据实际使用环境进列预先设定，在本实施例中以n为2进列举例说明。具体的，当A和B的最小表格矩阵列数相差超过2列时，认为A和B两个表格不是关联表格，不进列对比分析。以A的最小表格矩阵比B的最小表格矩阵多一列的情况来具体说明。找出A的最小表格矩阵中“0”最多的一列，该列则为多出来的一列，记录该列各单元格元素的坐标和内容。在A的最小表格矩阵中去除该列，将该列右侧的各元素左移，形成表格A’。比较A’ 的最小表格矩阵和B的最小表格矩阵对应坐标的单元格内容或元素是否相等，如不相等则分别记录所有不相等的单元格坐标和内容，同时记录该关联表格对，生成或录入异常单元格组中，其中异常单元格组包括但不限于关联表格对、过渡表格矩阵与第二表格中内容不一致单元格坐标和内容、以及多出来的N列单元格的坐标和内容。其它相差列的情况可以参照上述方法进列对比分析。

在本实施例中，当表格A和B的最小表格矩阵的行数或者列数相差为n行或n列时。即表明A表格中嵌套的小表格与B表格中嵌套的小表格上的内容上成行的或成列的单元格不一致很可能是由于在具体表格处理时由于人为疏忽导致表格内某一些行列顺序错乱和行列丢失产生的。因此需要首先排除掉这些因人为错误导致的嵌套表格内成行或成列的不一致单元格后，再进行对应的单元格内容的比对分析，避免其它单元格比对受到这些整行或整列不一致单元格的影响，从而能更加精确和快速的找到这些可能的因行列顺序错乱或行列丢失造成的内容不一致单元格，以及其它因输入错误导致的单个内容不一致单元格。

对于状态四的其中一种情形，即关联表格对的两个表格的列数相差n，其中n小于预设值。如附图10所示，步骤根据内容不一致单元格的分布位置筛选出关联表格对上的异常单元格组，具体包括：

步骤S501，当两表格的列数相差大于R时，其中R为预设值，认为两个表格不是关联表格，不进列对比分析。

步骤S502，否则当两表格的列数相差n列时，其中n不大于R，获取具有较多列数的表格中的全部为不一致单元格的列位置，如果该列部分或全部位于该表格的最小表格矩阵内，则按前述状态三的步骤进行处理。

步骤S503，如果该列位于该表格的最小表格矩阵外，则记录该列所有单元格坐标和内容，生成或录入该关联表格对的异常单元格组中。

具体的，在本实施例中，由于表格最小表格矩阵是去除了四周的不一致单元格形成的，而两个表格可能存在四周的最外层相差行列的情况。R值可以根据实际情况指定，在该实施例中设定R为2，例如当表格A和B相差超过2时，认为两个表格不是关联表格，不进行对比分析。以表格A比表格B多一列的情况来具体说明。判断A比B多出的一列是第一列还是最后一列，若多出的一列不再两侧，则属于情况3，已经分析处理。判断表格A第一列是否全部为0，若是则第一列为多出的一列，若否则判断最后一列是否全部为0，若是则最后一列为多出的一列，若否则多出的一列不在表格两侧，属于状态三，不再进行对比分析。找多出的一列后，若DifTableCells中已存在该关联表格对A、B，则将value增加该列单元格的坐标和内容；若DifTableCells中不存在该关联表格对A、B，则将关联表格对A B，及该列单元格的坐标和内容加入字典DifTableCells中，其中表格B对应单元格的坐标和内容为空。

对于状态四的另一种情形，即关联表格对的两个表格的行数相差n，其中n小于预设值。如附图11所示，步骤根据内容不一致单元格的分布位置筛选出关联表格对上的异常单元格组，具体包括：

所述步骤S41还包括如下情形：

步骤S601，当两表格的行数相差大于R时，其中R为预设值，认为两个表格不是关联表格，不进行对比分析。

步骤S602，否则当两表格的行数相差n行时，其中n不大于R，获取具有较多行数的表格中的全部为不一致单元格的行位置，如果该行部分或全部位于该表格的最小表格矩阵内，则按前述状态三的步骤进行处理。

步骤S603，如果该行位于该表格的最小表格矩阵外，则记录该行所有单元格坐标和内容，生成或录入该关联表格对的异常单元格组中。

具体的，在本实施例中，由于表格最小表格矩阵是去除了四周的不一致单元格形成的，而两个表格可能存在四周的最外层相差行行的情况。R值可以根据实际情况指定，在该实施例中设定R为2，例如当表格A和B相差超过2时，认为两个表格不是关联表格，不进行对比分析。以表格A比表格B多一行的情况来具体说明。判断A比B多出的一行是第一行还是最后一行，若多出的一行不再两侧，则属于情况3，已经分析处理。判断表格A第一行是否全部为0，若是则第一行为多出的一行，若否则判断最后一行是否全部为0，若是则最后一行为多出的一行，若否则多出的一行不在表格两侧，属于状态三，不再进行对比分析。找多出的一行后，若DifTableCells中已存在该关联表格对A、B，则将value增加该行单元格的坐标和内容；若DifTableCells中不存在该关联表格对A、B，则将关联表格对A B，及该行单元格的坐标和内容加入字典DifTableCells中，其中表格B对应单元格的坐标和内容为空。上述各步骤中得到的字典DifTableCells可作为下面步骤S42差异内容处理的输入参数。

对比分析算法可以考虑小表格嵌入大表格，表格行列转置，表格行列顺序错乱，表格内部及四周行列缺失的情况，找出关联表格对的不一致单元格坐标及位置。

上述步骤S41的表格对比分析充分考虑了小表格嵌入大表格，表格行列转置，表格行列顺序错乱，表格内部及四周行列缺失的情况，找出关联表格对的不一致单元格坐标及位置，对各类表格的适用性和通用性更强，可以帮助用户对各种类型的表格进行对比分析。

步骤S42，对关联表格对的异常单元格组中对应单元格内容进行对比，找出并标记单元格内容中的不一致字符集合。

具体的，上述步骤S42用于对上述的关联表格对根据内容不一致单元格数量进行筛选，同时对内容不一致单元格的内容进行对比，找出并标记单元格内容中不一致的字符集合。由于通常情况下，人为错误只会造成少量错误，产生少量不一致单元格。当关联表格对中不一致单元格数量过多时，两个表格差异较大，可以认为是正常的不同表格，不呈现给用户。除去这种情况外，可以认为是各种原因造成的异常表格，需要呈现给用户进行检查和处理。由于一个人为错误可能产生一个或多个相对离散的不一致单元格，也或者可能造成行列顺序错乱或行列丢失，从而产生成行或成列的多个不一致单元格。所以定义所有内容不一致单元格数量减去由行列顺序错乱和行列丢失产生的单元格数量，得到的单元格数量为真实不一致单元格数。当真实不一致单元格数小于等于M时，认为关联表格对为异常表格，需要呈现给用户进行处理；否则认为是正常的不同表格，不呈现给用户，在本实施例中，优选的M值可以为3。

通过遍历异常单元格组，即遍历字典DifTableCells，首先去除由于行列缺失而产生的不一致单元格，即去除字典value值链表中A表格单元格坐标为空或B表格单元格坐标为空的数组元素。然后再去除由于行列顺序错乱而产生的不一致单元格。A、B表格差异结果去除由于行列缺失而产生的不一致单元格后的不一致单元格链表为difCell，数据结构为List<String[ ]>，其中数组String[ ]为[A单元格坐标，A单元格内容，B单元格坐标，B单元格内容]。取出difCell中的所有A单元格坐标，采用表格转换为最小表格矩阵的方法，转换为差异结果最小表格矩阵difMA，对于该最小表格矩阵，元素值为1的坐标代表不一致单元格的坐标。存在两列单元格顺序错乱的充要条件是difMA中有两列值全部为1，交换这两列单元格的列坐标后与B表格相应单元格的内容相等。存在两行单元格顺序错乱的充要条件是difMA中有两行值全部为1，交换这两行单元格的行坐标后与B表格相应单元格的内容相等。存在大于2列或2行单元格顺序错乱的情况可参考上述条件进行扩展。推荐最多考虑3行或3列单元格顺序错乱的情况，其它情况认为是正常的不同表格，不呈现给用户。根据上述充要条件判断，找出行列顺序错乱的单元格，从difCell中去除这些单元格，最终剩下的单元格数量即为真实不一致单元格数量。从字典DifTableCells中去除真实不一致单元格数量大于n的关联表格对，剩下的结果即为需要呈现给用户的差异表格对。

由于两个对应不一致单元格的内容可能很多很相似，用户难以快速发现两个单元格内容的真正不一致处。所以需要对差异表格对的对应不一致单元格内容进行对比分析，标识出不一致的字符集合。两个单元格内容可以当做是两个字符串a、b，寻找a、b的最长公共子序列l，a、b中除去l后的字符集合则是不一致的字符集合，可以通过在字符前后添加标签将其进行高亮显示。

上述步骤S42根据真实不一致单元格数量再次过滤筛选分析结果，可以排除行列顺序错乱和行列缺失产生的不一致单元格，根据找出的真实不一致单元格，及不一致单元格内容的不一致字符集合。筛选出真正异常的表格对，和不一致单元格内的不一致字符集合，减少呈现给用户的结果数量，便于用户快速排查发现错误、异常表格。同时对不一致单元格的内容进行对比分析，可以找出并高亮不一致的字符集合，便于用户发现表格异常内容。

本发明所公开的批量文档内表格智能比对方法，通过提取表格单元格坐标和内容形成表格结构化数据，确保同一行列单元格的行列坐标一致，为后续分析做准备。然后对各表格进行表格关联分析，建立内容一致单元格形成的关联表格对，通过自定义预设准则判断两个表格是否为关联表格对。后续通过仅对关联表格对进行后续对比分析，大大减少对比分析的计算量。在对关联表格对进行对比分析过程中，充分考虑小表格嵌入大表格，表格行列转置，表格行列顺序错乱，表格内部及四周行列缺失等各类情况，根据关联表格对各情况状态分别进行分析，找出关联表格对的不一致单元格坐标及位置。最后异常结果处理步骤可以通过排除行列顺序错乱和行列缺失产生的不一致单元格，根据找出的真实不一致单元格、及不一致单元格内容中的不一致字符集合，筛选出真正异常的表格对以及不一致单元格内不一致字符集合，最终减少呈现给用户的结果数量，便于用户快速排查发现错误、异常表格。

本发明所公开的批量文档内表格智能比对方法，通过提取表格单元格坐标和内容形成表格结构化数据，确保同一行列单元格的行列坐标一致，为后续分析做准备。然后对各表格进行表格关联分析，建立内容一致单元格形成的关联表格对，通过自定义预设准则判断两个表格是否为关联表格对。后续通过仅对具有关联关系的关联表格对进行后续对比分析，大大减少对比分析的计算量。另外，在对关联表格对进行对比分析过程中，还可以充分考虑小表格嵌入大表格，表格行列转置，表格行列顺序错乱，表格内部及四周行列缺失等各类情况，根据关联表格对各情况状态分别进行分析，找出关联表格对的不一致单元格坐标及位置。最后可以通过排除行列顺序错乱和行列缺失产生的不一致单元格，根据找出的真实不一致单元格、及不一致单元格内容中的不一致字符集合，筛选出真正异常的表格对以及不一致单元格内不一致字符集合，最终减少呈现给用户的结果数量，便于用户快速排查发现错误、异常表格。可以实现对大量表格的对比分析，发现和定位关联表格不一致的单元格及单元格内容差异。适用于需要处理大量相似表格，表格多处嵌套、复用的场景，可以减少人工检查表格一致性的大量重复性工作，避免关联表格对应单元格内容不一致的错误。

附图12为实施例公开的一种对批量文档内表格进行比对的系统，包括：内容结构化模块1、表格关联分析模块2、表格差异处理模块3，其中内容结构化模块1用于批量获取各类格式文档中的待分析表格，获取表格中的各单元格坐标和内容。表格关联分析模块2用于依次逐对比较两表格中的内容一致单元格的坐标及内容，并根据内容一致单元格的数量和/或分布位置来判断所述两表格是否为关联表格对。表格差异处理模块3用于比较关联表格对的两表格对应各单元格的内容，分别记录两表格中内容不一致单元格坐标及内容。

其中表格关联分析模块2包括表格分析模块21、最小表格矩阵获取模块22和关联表格对判断模块23，其中表格分析模块21用于获取两表格的内容一致单元格数量和在表格中的分布位置。最小表格矩阵获取模块22用于获取两表格的最小表格矩阵，所述最小表格矩阵为包含有该表格内所有内容一致单元格的最小矩形表格区域。关联表格对判断模块23用于在所述内容一致单元格数量和/或最小表格矩阵所包含单元格数量符合预设关联表格对规则时，判断所述两表格为关联表格对。对于本实施例公开的上述对批量文档内表格进行比对的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处和所达到的技术效果参见方法部分说明即可。

如附图13所示，本发明还提供了一种批量文档内表格智能比对装置5，包括存储器51、处理器52以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述各实施例中描述的批量文档内表格智能比对方法的各个步骤。

所述批量文档内表格智能比对装置可包括但不仅限于，处理器、存储器。本领域技术人员可以理解，所述示意图仅仅是批量文档内表格智能比对装置的示例，并不构成对批量文档内表格智能比对装置设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述批量文档内表格智能比对系统设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述批量文档内表格智能比对装置设备的控制中心，利用各种接口和线路连接整个批量文档内表格智能比对系统设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述批量文档内表格智能比对装置设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（FlashCard）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述批量文档内表格智能比对装置如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个批量文档内表格智能比对方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

总之，以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所作的均等变化与修饰，皆应属本发明专利的涵盖范围。

Claims

1.一种对批量文档内表格进行比对的方法，其特征在于，包括：

2.根据权利要求1所述的对批量文档内表格进行比对的方法，其特征在于：所述步骤S3包括：

获取两表格的内容一致单元格数量和在表格中的分布位置；

3.根据权利要求2所述的对批量文档内表格进行比对的方法，其特征在于：所述关联表格对规则包括但不限于：内容一致单元格数量大于预设值、和/或内容一致单元格数量的两倍要大于所在两表格所包含单元格数量之和的预设比例时、和/或内容一致单元格数量大于其所在最小表格矩阵内的单元格总数的预设比例。

4.根据权利要求3所述的对批量文档内表格进行比对的方法，其特征在于，所述步骤S3还包括：

分别获取所述两表格的行数和列数；

如果所述两表格的行数或列数差值大于预设值时，判断两表格为非关联表格对，否则再根据内容一致单元格的数量和/或分布位置来判断所述两表格是否为关联表格对。

5.根据权利要求4所述的对批量文档内表格进行比对的方法，其特征在于，所述步骤S1包括：

根据分别获取的两表格中各单元格坐标和内容生成表格单元格坐标与内容相对应的表格结构化数据。

6.根据权利要求5所述的对批量文档内表格进行比对的方法，其特征在于，所述步骤S1包括：所述表格结构化数据包括表格所属文档信息、表格在文档中位置、表格内单元格坐标、及单元格内容信息。

7.一种对批量文档内表格进行比对的系统，其特征在于，包括：

8.根据权利要求7所述的对批量文档内表格进行比对的系统，其特征在于，所述表格关联分析模块包括：

表格分析模块，用于获取两表格的内容一致单元格数量和在表格中的分布位置；

最小表格矩阵获取模块，用于获取两表格的最小表格矩阵，所述最小表格矩阵为包含有该表格内所有内容一致单元格的最小矩形表格区域；

关联表格对判断模块，用于在所述内容一致单元格数量和/或最小表格矩阵所包含单元格数量符合预设关联表格对规则时，判断所述两表格为关联表格对。

9.一种批量文档内表格智能比对装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于：所述处理器执行所述计算机程序时实现如权利要求1-6任一所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-6任一所述方法的步骤。