CN117973334B

CN117973334B - 基于文件表格的自动识别导入方法

Info

Publication number: CN117973334B
Application number: CN202410394125.0A
Authority: CN
Inventors: 谷敏骏; 吴庆东
Original assignee: Nanjing Anxia Electronic Technology Co ltd
Current assignee: Nanjing Anxia Electronic Technology Co ltd
Filing date: 2024-04-02
Publication date: 2024-06-07
Anticipated expiration: 2044-04-02

Abstract

本发明公开了基于文件表格的自动识别导入方法，本发明涉及表格识别技术领域，解决了未识别对应账单内部的特征内容并录入至表格的问题，本发明通过优先对表格内相关的特征字符进行赋值，再分析文本内容，确定相关赋值，通过赋值匹配的方式，来确定相应的特征内容，并将所确定的特征内容进行提取，针对于未搜到赋值的情况，对待填补项的过往数据进行特征确认，锁定特征值，再进行文本搜索，确定相关特征值的相关内容，并进行提取，由操作人员进行选定，以此来完成对应文件表格的自动录入过程，降低操作人员的工作负担，锁定特征内容，进行自行填补。

Description

基于文件表格的自动识别导入方法

技术领域

本发明涉及表格识别技术领域，具体为基于文件表格的自动识别导入方法。

背景技术

电子表格，又称电子数据表，是一类模拟纸上计算表格的计算机程序。它会显示由一系列行与列构成的网格；单元格内可以存放数值、计算式、或文本。电子表格通常用于财务信息，因为它能够频繁的重新计算整个表格。

针对于目前所出现的大量账单相关文件，将其录入相关的文件表格时，需耗费大量的人力物力，且在录入过程中还容易出错，并未识别对应账单内部的特征内容，并将特征内容与对应的特征项进行匹配，完成一组自行录入的过程，从而减少工作人员的相关工作负担，提升对应账单的录入效率。

发明内容

针对现有技术的不足，本发明提供了基于文件表格的自动识别导入方法，解决了未识别对应账单内部的特征内容并录入至表格的问题。

为实现以上目的，本发明通过以下技术方案予以实现：基于文件表格的自动识别导入方法，包括以下步骤：

S1、确认待识别文稿，再确定其相关格式，若本待识别文稿内部相关内容均为同一格式，则直接进行后续处理，若本待识别文稿内部相关内容存在多个格式，则进行数值分析，确定最佳转换方式，并对相关内容进行格式转换完成格式统一，包括：

S11、识别本待识别文稿内部文本内容的相关格式，并将不同相关格式所对应的文本内容容量标定为R_i，其中i代表不同的相关格式；

S12、随机提取一种相关格式的文本内容，并从云端数据内确认本相关格式向其他相关格式的转换速率，其他相关格式不包括本相关格式，基于文本内容的容量R_i，确定其转换时长T_k，其中k代表所转换的相关格式的标记；

S13、再依次对每个相关格式的文本内容采用步骤S12的方式进行转换，确定对应的转换时长T_k，基于标记k确定带有相同相关格式的标记的时长并求和，确定时长总合值Z_k，从若干组Z_k中，选定最小值，并将其标定为Z_kmin；

S14、提取比最小值Z_kmin最为接近的一组次小值CZ_k，若（CZ_k-Z_kmin）≥Y1，其中Y1为预设值，则直接执行步骤S15，若不满足：（CZ_k-Z_kmin）≥Y1，则确定最小值以及次小值的对应下标k，锁定对应的两组相关格式A或B，并确定同时包含分别转换为A或B两组相关格式的文本内容，将此文本内容划分为两组待转内容，前一组待转内容向A格式进行转换，后一组待转内容向B格式进行转换，确定转换速率，锁定一组转换速率较大的转换过程，并确定对应格式并复原另一格式的转换过程，将其标定为待转格式，将本待识别文稿内部不属于本待转格式的内容均转换为待转格式的相关内容，得到格式统一的待识别文稿；

S15、基于所确定的最小值Z_kmin，锁定标记k，将其标定为待转格式，将本待识别文稿内部不属于本待转格式的内容均转换为待转格式的相关内容，得到格式统一的待识别文稿；

S2、对格式统一的待识别文稿进行确认，并确定待填补表格，对待填补表格进行优先处理，确定其待填补项的相关字符，并与赋值特征表进行比对，确定相关待填补项的特征赋值，基于特征赋值，从待识别文稿内搜索相关的特征数据并填补，生成初填补表格，包括：

S21、提取预设的赋值特征表，且赋值特征表内每个不同的字符均对应不同的赋值，将待填补项的相关字符与赋值特征表比对，确定对应待填补项所对应的特征赋值；

S22、再对待识别文稿内部的文本内容的字符与赋值特征表进行比对，优先确定产生相关赋值的特征字符，确定其特征字符的首位赋值，并将首位赋值与待填补项特征赋值的首位字符进行比对，识别是否存在比对结果，若存在，则继续后续处理，若不存在，则剔除对应特征字符的赋值并还原；

S23、基于第一待填补项的特征赋值，确定与之首位相同赋值的特征字符，并确定本特征字符的后续内容赋值：

若二者赋值一致，将本特征字符后续的特征内容，填补至本待填补项的填补区域，特征内容的确定方式为：

确定特征字符的后续内容，并锁定后续的分隔符号，将第一组分隔符号之前，特征字符至后的相关内容标定为特征内容，分隔符号包括：逗号、句号或其他相关断句符号；

若二者赋值不一致，则继续搜索，若仍未找到相同的特征字符所对应的内容赋值，则不对此待填补项的填补区域进行填补；

S24、对后续待填补项进行依次填补，并在填补完毕后，确定初填补表格；

S3、确定初填补表格内空白区域的相关待填补项，从此待填补项的过往填补内容中，识别对应填补内容的相关特征，并依据识别规则，生成其待填补项的特征序列，包括：

S31、从过往的填补内容中，确定单组填补内容的数据个数，并将其标记为G_t，其中t代表不同的填补内容，若G_t均为相同值，将此G_t标定为第一特征值，若G_t不是相同值，则使用“0”作为第一特征值；

S32、确认单组填补内容的特殊符号的个数，并将其标定为S_t，其中特殊符号确认时，将其与符号列表进行比对，从而确定单组填补内容的特殊符号，且符号列表为预设表，若S_t均为相同值，将此S_t标定为第二特征值，若S_t不是相同值，则使用“0”作为第二特征值；

S33、若存在特殊符号，基于对应特殊符号位于对应填补内容的排序位置，并记录位置数值W_t，若排序在第5位，则所记录的位置数值为5，若在对应内容第5位以及第7位均有对应的特殊符号，则所记录的位置数值为57，若W_t均为相同值，将此W_t标定为第三特征值，若W_t不是相同值，则使用“0”作为第三特征值，同时，若不存在特殊符号，也使用“0”作为第三特征值；

S34、基于所确定若干个特征值，按照第一、第二、第三的排序方式，生成此待填补项的特征序列；

S4、基于对应待填补项所确认的特征序列，从文本内容进行内容确认提取，来识别具有相同特征序列的内容，并将其标定为关联内容；包括：

S41、基于对应文本内容内部的分隔符号，对文本内容中未提取的内容标定为待提取内容；

S42、优先确定若干个待提取内容的数值个数，将数值个数与特征序列第一特征值相同的待提取内容进行确定，再基于特征序列后续的特征值，对所确定的待提取内容进行依次筛选，确定筛选后的关联内容，若对应特征序列内某特征值为0，则直接跳过对应特征值的筛选过程，直接执行后续的特征筛选；

S43、将所确认的关联内容置于对应待填补项的待选区域，操作人员介入，确定本待填补项的正确内容，并直接进行填补。

本发明提供了基于文件表格的自动识别导入方法。与现有技术相比具备以下有益效果：

本发明通过对文本内容的内部文本格式进行确定，若存在单组格式则不处理，若存在多组格式，则需要进行格式转换，并通过确定对应的转换速率以及转换时间，来确定最佳的转换方式，来确定最快的格式转换效率，缩减转换时间，以此来达到更好的转换效果，提升文件的初步处理速率；

后续，进行内容提取时，优先对表格内相关的特征字符进行赋值，再分析文本内容，确定相关赋值，通过赋值匹配的方式，来确定相应的特征内容，并将所确定的特征内容进行提取，针对于未搜到赋值的情况，对待填补项的过往数据进行特征确认，锁定特征值，再进行文本搜索，确定相关特征值的相关内容，并进行提取，由操作人员进行选定，以此来完成对应文件表格的自动录入过程，降低操作人员的工作负担，锁定特征内容，进行自行填补。

附图说明

图1为本发明方法流程示意图；

图2为本发明特征内容确定示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

请参阅图1，本申请提供了基于文件表格的自动识别导入方法，包括以下步骤：

S1、确认待识别文稿，再确定其相关格式，若本待识别文稿内部相关内容均为同一格式，则直接进行后续处理，若本待识别文稿内部相关内容存在多个格式，则进行数值分析，确定最佳转换方式，并对相关内容进行格式转换，并将完成格式转换后的待识别文稿进行后续处理，具体的，单个文稿内，可能会存在多个不同的文本格式，也可能只存在单个格式，存在单个格式的相关文本，则不需要进行格式转换，若存在多个文本格式，为了便于后续的特征识别并提取，就需要将待识别文稿内部的不同格式内容转换为同一格式，其中，确定最佳转换方式并进行格式转换的具体子步骤包括：

S12、随机提取一种相关格式的文本内容，并从云端数据内确认本相关格式向其他相关格式的转换速率，其他相关格式不包括本相关格式，基于文本内容的容量R_i，确定其转换时长T_k，其中k代表所转换的相关格式的标记，例：若存在三组格式内容，分别为A、B以及C，假设所选定的格式为A，那么就从云端内确认A转换至B或A转换至C的相关转换速率，来确定对应的转换时间T_B或T_c，那么k就代表其对应的相关格式的标记B或C；

S14、提取比最小值Z_kmin最为接近的一组次小值CZ_k（次小值就是若干个数值中仅大于最小值却小于其他值的数值），若（CZ_k-Z_kmin）≥Y1，其中Y1为预设值，其具体取值由操作人员根据经验拟定，则直接执行步骤S15，若不满足，则确定最小值以及次小值的对应下标k，锁定对应的两组相关格式A或B，并确定同时包含分别转换为A或B两组相关格式的文本内容，将此文本内容划分为两组待转内容，前一组待转内容向A格式进行转换，后一组待转内容向B格式进行转换，确定转换速率，锁定一组转换速率较大的转换过程，并确定对应格式并复原另一格式的转换过程，将其标定为待转格式，将本待识别文稿内部不属于本待转格式的内容均转换为待转格式的相关内容，得到格式统一的待识别文稿，例：为了达到更好更快的格式转换效果，其中所确定的相关格式为A或B，那么包含转换为A或B两组相关格式的文本内容就是C格式的相关内容，将此部分相关内容进行分类，一部分向A转换，一部分向B转换，那么便可确定转换速率，其转换时间不宜过长，具体时间由操作人员自行定义，那其中转换更快的在实际转换过程中的时间便会更短，便能达到更快的转换效果，故确定对应的待转格式，在转换时，其原本的格式内容还存在，故直接中断其转换过程并复原即可，不会影响其待识别文稿整体的转换速率；

S15、基于所确定的最小值Z_kmin，锁定标记k，将其标定为待转格式，将本待识别文稿内部不属于本待转格式的内容均转换为待转格式的相关内容，得到格式统一的待识别文稿。

S2、对格式统一的待识别文稿进行确认，并确定待填补表格，对待填补表格进行优先处理，确定其待填补项的相关字符，并与赋值特征表进行比对，确定相关待填补项的特征赋值，基于特征赋值，从待识别文稿内搜索相关的特征数据并填补，生成初填补表格，其中，进行具体处理的子步骤包括：

S21、结合图2，提取预设的赋值特征表，且赋值特征表内每个不同的字符均对应不同的赋值，将待填补项的相关字符与赋值特征表比对，确定对应待填补项所对应的特征赋值，例：其对应的待填补项包括：账户、户名、交易金额等多个填补关键词，假设“账”字符对应的特征赋值为0，“户”字符对应的特征赋值为“1”，那么账户所对应的特征赋值就是01，后续，每个不同的相关字符均对应不同的特征赋值，由赋值特征表内对应的参数赋值，来确定其填补关键词的相关特征赋值；

若二者赋值一致，将本特征字符后续的特征内容，填补至本待填补项的填补区域，其特征内容的确定方式为：

确定特征字符的后续内容，并锁定后续的分隔符号，将第一组分隔符号之前，特征字符至后的相关内容标定为特征内容，其中分隔符号包括：逗号、句号或其他相关断句符号，由操作人员提前拟定分隔符号的相关内容；

S24、对后续待填补项进行依次填补，并在填补完毕后，确定初填补表格。

具体的，对应的文本内容存在相关的特征项，其特征项后续存在对应的特征内容，故采用同样赋值的方式对文本内容内部的特征项进行赋值，并基于对应的初赋值比对，便可针对于大部分对比内容来缩减比对时间，提升比对效率，后续再进行完全比对，来锁定后续的特征内容，来实现自行填补，无需人工介入，其基于本方式进行处理来锁定特征内容，完成自行填补的相关过程。

实施例二

本实施例在具体实施过程中，相比于上述实施例，本实施例主要针对于初填补表格内部空白区域内容的填补，基于对应过往对应空白区域所填数据的相关特征，来确定对应的特征参数，并对文本内容进行全文搜索，确定存在相同特征参数的相关内容，并进行填补；

还包括以下步骤：

S3、确定初填补表格内空白区域的相关待填补项，从此待填补项的过往填补内容中，识别对应填补内容的相关特征，并依据识别规则，生成其待填补项的特征序列，其中特征序列的确定方式具体包括：

S31、从过往的填补内容中，确定单组填补内容的数据个数，并将其标记为G_t，其中t代表不同的填补内容，若G_t均为相同值，将此G_t标定为第一特征值，若G_t不是相同值，则使用“0”作为第一特征值，具体的，正常情况下，同一项的填补内容一般均为同一数值，例如时间、日期等相关数据，其内部的数据均为相同值；

S32、确认单组填补内容的特殊符号的个数，并将其标定为S_t，其中特殊符号确认时，将其与符号列表进行比对，从而确定单组填补内容的特殊符号，且符号列表为预设表，由操作人员基于过往的处理经验提前拟定，若S_t均为相同值，将此S_t标定为第二特征值，若S_t不是相同值，则使用“0”作为第二特征值；

S34、基于所确定若干个特征值，按照第一、第二、第三的排序方式，生成此待填补项的特征序列，例：对应的待填补项为日期，那么按照规格，其过往的内容为：2024/03/14，代表2024年3月14日，那么所确认的第一特征值就是数值总数，就是8，其字符为“/”，存在两组，就是2，其对应的位置是58，因“/”分别位于本编码的第五位以及第八位，那么所产生的特征序列就是8-2-58。

S4、基于对应待填补项所确认的特征序列，从文本内容进行内容确认提取，来识别具有相同特征序列的内容，并将其标定为关联内容，其中，进行标定的具体子步骤包括：

S42、优先确定若干个待提取内容的数值个数，将数值个数与特征序列第一特征值相同的待提取内容进行确定，再基于特征序列后续的特征值，对所确定的待提取内容进行依次筛选，确定筛选后的关联内容，若对应特征序列的特征值为0，则直接跳过对应的筛选过程，直接执行后续的特征筛选；

S43、将所确认的关联内容置于对应待填补项的待选区域，操作人员介入，确定本待填补项的正确内容，并直接进行填补，完成整个文件表格的自动填补过程，此处需要人员介入，因所选取的关联内容可能存在多组，正常情况下，对应的待填补项所对应的内容只存在一组，就需要人为确定其正确的内容，完成整个填补过程；

此部分基于所确认的特征值，来确定对应待提取内容内是否存在相同特性的数值，以此来锁定对应的关联内容并进行展示，供其进行选取。

实施例三

本实施例在具体实施过程中，包含上述两组实施例的全部实施过程。

上述公式中的部分数据均是去其纲量进行数值计算，同时本说明书中未作详细描述的内容均属于本领域技术人员公知的现有技术。

以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法的精神和范围。

Claims

1.基于文件表格的自动识别导入方法，其特征在于，包括以下步骤：

S1、确认待识别文稿，再确定其相关格式，若本待识别文稿内部相关内容均为同一格式，则直接进行后续处理，若本待识别文稿内部相关内容存在多个格式，则进行数值分析，确定最佳转换方式，并对相关内容进行格式转换完成格式统一，确定最佳转换方式的子步骤包括：

S14、提取比最小值Z_kmin最为接近的一组次小值CZ_k，若（CZ_k-Z_kmin）≥Y1，其中Y1为预设值，则直接执行步骤S15，若（CZ_k-Z_kmin）≥Y1，则确定最小值以及次小值的对应下标k，锁定对应的两组相关格式A或B，并确定同时包含分别转换为A或B两组相关格式的文本内容，将此文本内容划分为两组待转内容，前一组待转内容向A格式进行转换，后一组待转内容向B格式进行转换，确定转换速率，锁定一组转换速率较大的转换过程，并确定对应格式并复原另一格式的转换过程，将其标定为待转格式，将本待识别文稿内部不属于本待转格式的内容均转换为待转格式的相关内容，得到格式统一的待识别文稿；

若二者赋值一致，将本特征字符后续的特征内容，填补至本待填补项的填补区域；

S4、基于对应待填补项所确认的特征序列，从文本内容进行内容确认提取，来识别具有相同特征序列的内容，并将其标定为关联内容。

2.根据权利要求1所述的基于文件表格的自动识别导入方法，其特征在于，所述步骤S23中，特征内容的确定方式为：

确定特征字符的后续内容，并锁定后续的分隔符号，将第一组分隔符号之前，特征字符至后的相关内容标定为特征内容。

3.根据权利要求2所述的基于文件表格的自动识别导入方法，其特征在于，所述分隔符号包括：逗号、句号或其他相关断句符号。

4.根据权利要求1所述的基于文件表格的自动识别导入方法，其特征在于，所述步骤S4中，标定关联内容的子步骤包括：

S42、优先确定若干个待提取内容的数值个数，将数值个数与特征序列第一特征值相同的待提取内容进行确定，再基于特征序列后续的特征值，对所确定的待提取内容进行依次筛选，确定筛选后的关联内容；

5.根据权利要求4所述的基于文件表格的自动识别导入方法，其特征在于，所述步骤S42中，若对应特征序列内某特征值为0，则直接跳过对应特征值的筛选过程，直接执行后续的特征筛选。