CN116434258A

CN116434258A - 一种表格数据的自动识别方法

Info

Publication number: CN116434258A
Application number: CN202310434915.2A
Authority: CN
Inventors: 谌永庭; 黄春霞; 王勃; 陈宁; 陈丽云; 肖继华; 程凉; 周勇; 刘智才; 黄鑫; 周勉
Original assignee: Hualian Century Engineering Consulting Co ltd
Current assignee: Hualian Century Engineering Consulting Co ltd
Priority date: 2023-04-21
Filing date: 2023-04-21
Publication date: 2023-07-14

Abstract

本发明公开了一种表格数据的自动识别方法，涉及图像识别技术领域，包括：获取文档和CAD图纸等文件，并将所述文档和CAD图纸转化为图像格式；对各个图像识别终端的算力占用情况进行监测分析，选取算力充余系数KY最大的图像识别终端作为目标终端，对所述文档和CAD图纸转化的图像进行表格数据识别，从而提高数据识别效率；目标终端基于深度学习算法对所述文档和CAD图纸转化的图像进行文本框位置检测和文本框内容识别，获取所述图像中每个文本框的文本框位置信息，以及和每个文本框位置信息对应的文本框内容信息；基于所述文本框位置信息对所述文本框进行排序，输出经过排布后的所述图像的结构化文本信息；识别精度高。

Description

一种表格数据的自动识别方法

技术领域

本发明涉及图像识别技术领域，具体是一种表格数据的自动识别方法。

背景技术

CAD图纸中涉及大量表格，表格格式多样化，表格有边框无边框，少量边框等形式多样，自动识别表格是表格信息与图形信息联动的基础，对表格识别之前，需要先对文档进行版面分析，提取出文档中的表格，然后对表格进行定位，最后根据定位结果识别出表格中的文本。

在物体检测和定位方面，常用的技术有：边缘检测技术(canny边缘检测)和rcnn/faster-rcnn/yolo/ssd等技术；在OCR(光学字符识别)方面，主要技术有：基于监督学习的文字分类、cnn(卷积神经网络)和CRNN+CTC等；然而随着表格类别的增多，识别效率也会逐渐降低；如果样本集缺乏代表性和普遍性，这就会造成系统学习不到某些模式，最终导致模型对某些表格定位失败，基于以上不足，本发明提出一种表格数据的自动识别方法。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种表格数据的自动识别方法。

为实现上述目的，根据本发明的第一方面的实施例提出一种表格数据的自动识别方法，包括如下步骤：

步骤一：获取文档和CAD图纸等文件，并将所述文档和CAD图纸转化为图像格式，所述图像格式包括：jpg、png；

步骤二：对各个图像识别终端的算力占用情况进行监测分析，计算得到算力充余系数KY；选取算力充余系数KY最大的图像识别终端作为目标终端，对所述文档和CAD图纸转化的图像进行表格数据识别；

步骤三：目标终端对所述文档和CAD图纸转化的图像进行表格数据识别，具体识别步骤包括：

基于深度学习算法对所述文档和CAD图纸转化的图像进行文本框位置检测和文本框内容识别，获取所述图像中每个文本框的文本框位置信息，以及和每个文本框位置信息对应的文本框内容信息；

对所述图像中的表格整体单元格进行检测，检测出所述表格整体单元格的所有横线和所有竖线；基于检测出的所有横线和所有竖线获取所述表格整体单元格中所有小单元格的小单元格位置信息；

基于所述文本框位置信息和所述小单元格位置信息，判断所述文本框是否与所述小单元格相对应；

当判断出所述文本框与所述小单元格相对应时，基于所述文本框位置信息对所述文本框进行排序，获取排序后的文本框内容信息；

基于排序后的文本框内容信息确定所述表格整体单元格的内容排布，输出经过排布后的所述图像的结构化文本信息；

步骤四：对目标终端进行数据识别监测，对数据识别过程中目标终端的状态偏离值进行评估；若状态偏离值ZP大于预设偏离阈值，则生成偏离预警信号，以提醒管理人员对目标终端进行检修。

进一步地，对各个图像识别终端的算力占用情况进行监测分析，具体监测分析步骤包括：

从初始时刻起，按照预设间隔采集图像识别终端的算力占用率并标记为Nc，建立算力占用率Nc随时间变化的曲线图；

当曲线图处于上升阶段时，对曲线图进行求导获取占用率变化速率曲线图；将图像识别终端的实时算力占用率变化速率标记为Vt；

将Vt与预设速率阈值相比较；若Vt＞预设速率阈值，则表示图像识别终端忙于数据识别，在对应的曲线图中截取对应的曲线段进行标注；

在预设时间内，统计标注曲线段的数量为R1，将所有的标注曲线段对时间进行积分得到标注参考能量WE，利用公式WR=R1×d1+WE×d2计算得到图像识别终端的运算热度值WR，其中d1、d2均为系数因子；

获取图像识别终端的当前算力占用率为Nt，利用公式KY=(1-Nt)×d3/(WR×d4)计算得到图像识别终端的算力充余系数KY，其中d3、d4均为系数因子。

进一步地，对目标终端进行数据识别监测，对数据识别过程中目标终端的状态偏离值进行评估，具体为：

当监测到目标终端进行表格数据识别时，每间隔R2时间采集目标终端的状态参数，状态参数包括访问节点连接数、CPU负载率、带宽负载率和实时网络速率；其中R2为预设值；

将访问节点连接数、CPU负载率、带宽负载率和实时网络速率依次标记为Q1、Q2、Q3、Q4；利用公式ZX=(Q1×b1+Q4×b4)/(Q2×b2+Q3×b3)计算得到目标终端的状态系数ZX，其中b1、b2、b3、b4为系数因子；

将状态系数ZX与设定阈值相比较，若状态系数ZX小于设定阈值，则生成偏离信号；根据偏离信号的时空变化趋势，计算得到状态偏离值ZP。

进一步地，状态偏离值ZP的具体计算方法为：

当监测到偏离信号时，自动倒计时，倒计时时长为Td时间，Td为预设值；在倒计时阶段继续对偏离信号进行监测，若再次监测到偏离信号，则倒计时自动归为原值，重新按照Td进行倒计时；

统计倒计时阶段偏离信号的出现次数为C1；当监测到偏离信号时，将对应的状态系数ZX与设定阈值进行差值计算，并将所有的差值进行求和得到偏离总值CT，统计倒计时阶段的持续时长为Tc；

利用公式ZP=(C1×b1+CT×b2)/(Tc×b3)计算得到状态偏离值ZP，其中b1、b2、b3为系数因子。

进一步地，对所述图像中的表格整体单元格进行检测，检测出所述表格整体单元格的所有横线和所有竖线；具体包括：

将所述图像进行归一化处理，使得所述图像调整为预定尺寸；

将调整后的所述图像转化为灰度模式，并进行腐蚀处理；

通过中值滤波过滤掉经过腐蚀处理的所述图像的噪声干扰；

分别确定所述图像的X方向和Y方向的梯度，并进行阈值化处理，通过霍夫直线检测初步筛选出所有横线和所有竖线；分别对筛选出的所有横线和所有竖线进行排序和合并处理。

进一步地，当判断出所述文本框与所述小单元格位置不完全重合时，分别计算所述文本框与所述小单元格的面积；

计算所述文本框与所述小单元格的交集面积与所述文本框与所述小单元格的并集面积的比值；当计算出的比值满足预设范围时，确定所述文本框与所述小单元格相对应。

与现有技术相比，本发明的有益效果是：

1、本发明中首先获取文档和CAD图纸等文件，并将文档和CAD图纸转化为图像格式；对各个图像识别终端的算力占用情况进行监测分析，计算得到算力充余系数KY；选取KY最大的图像识别终端作为目标终端，提高数据识别效率；当监测到目标终端进行表格数据识别时，每间隔R2时间采集目标终端的状态参数，对数据识别过程中目标终端的状态偏离值进行评估，若状态偏离值ZP大于预设偏离阈值，则生成偏离预警信号，以提醒管理人员对目标终端进行检修，从而提高数据识别效率；

2、本发明中目标终端对文档和CAD图纸转化的图像进行表格数据识别，首先基于深度学习算法对文档和CAD图纸转化的图像进行文本框位置检测和文本框内容识别，获取图像中每个文本框的文本框位置信息，以及和每个文本框位置信息对应的文本框内容信息；对图像中的表格整体单元格进行检测，检测出表格整体单元格的所有横线和所有竖线；基于检测出的所有横线和所有竖线获取表格整体单元格中所有小单元格的小单元格位置信息；当判断出文本框与小单元格相对应时，基于文本框位置信息对文本框进行排序，获取排序后的文本框内容信息；基于排序后的文本框内容信息确定表格整体单元格的内容排布，输出经过排布后的图像的结构化文本信息，识别精度高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种表格数据的自动识别方法的原理框图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，一种表格数据的自动识别方法，包括如下步骤：

步骤一：获取文档和CAD图纸等文件，并将文档和CAD图纸转化为图像格式，图像格式包括：jpg、png；

步骤二：对各个图像识别终端的算力占用情况进行监测分析，计算得到算力充余系数KY；选取算力充余系数KY最大的图像识别终端作为目标终端，对文档和CAD图纸转化的图像进行表格数据识别，提高数据识别效率；具体监测分析的过程如下：

获取图像识别终端的当前算力占用率为Nt，利用公式KY=(1-Nt)×d3/(WR×d4)计算得到图像识别终端的算力充余系数KY，其中d3、d4均为系数因子；

本发明通过对各个图像识别终端的算力占用情况进行监测分析，能够选取算力充余系数KY最大的图像识别终端作为目标终端，对文档和CAD图纸转化的图像进行表格数据识别，有效提高数据识别效率；

步骤三：目标终端对文档和CAD图纸转化的图像进行表格数据识别，具体识别步骤包括：

基于深度学习算法对文档和CAD图纸转化的图像进行文本框位置检测和文本框内容识别，获取图像中每个文本框的文本框位置信息，以及和每个文本框位置信息对应的文本框内容信息；

本发明不同于传统OCR识别技术，采用了深度学习技术实现文本位置检测和文本内容识别，具体算法根据场景不同可进行调整。例如，为了提高检测速度，文本检测模型可采用DBNet，为了提高检测精度，文本检测模型可采用Yolo系列模型；对于文本识别，主要采用CRNN模型，为了提高识别速度，主干网络可采用MobileNet，为了提高识别精度，主干网络可采用ResNet。

对图像中的表格整体单元格进行检测，检测出表格整体单元格的所有横线和所有竖线；基于检测出的所有横线和所有竖线获取表格整体单元格中所有小单元格的小单元格位置信息；

基于文本框位置信息和小单元格位置信息，判断文本框是否与小单元格相对应；

当判断出文本框与小单元格相对应时，基于文本框位置信息对文本框进行排序，获取排序后的文本框内容信息；

基于排序后的文本框内容信息确定表格整体单元格的内容排布，输出经过排布后的图像的结构化文本信息；

步骤四：对目标终端进行数据识别监测，对数据识别过程中目标终端的状态偏离值进行评估，具体为：

将状态系数ZX与设定阈值相比较，若状态系数ZX小于设定阈值，则生成偏离信号；根据偏离信号的时空变化趋势，计算得到状态偏离值ZP；

将状态偏离值ZP与预设偏离阈值相比较，若ZP大于预设偏离阈值，则生成偏离预警信号，以提醒管理人员对目标终端进行检修，从而提高数据识别效率；

其中，根据偏离信号的时空变化趋势，计算得到状态偏离值ZP，具体为：

利用公式ZP=(C1×b1+CT×b2)/(Tc×b3)计算得到状态偏离值ZP，其中b1、b2、b3为系数因子；

在本实施例中，对图像中的表格整体单元格进行检测，检测出表格整体单元格的所有横线和所有竖线；具体包括：

将图像进行归一化处理，使得图像调整为预定尺寸；

将调整后的图像转化为灰度模式，并进行腐蚀处理；

通过中值滤波过滤掉经过腐蚀处理的图像的噪声干扰；

分别确定图像的X方向和Y方向的梯度，并进行阈值化处理，通过霍夫直线检测初步筛选出所有横线和所有竖线；分别对筛选出的所有横线和所有竖线进行排序和合并处理；

在本实施例中，该方法还包括：当判断出文本框与小单元格位置不完全重合时，分别计算文本框与小单元格的面积；

计算文本框与小单元格的交集面积与文本框与小单元格的并集面积的比值；当计算出的比值满足预设范围时，确定文本框与小单元格相对应。

上述公式均是去除量纲取其数值计算，公式是由采集大量数据进行软件模拟得到最接近真实情况的一个公式，公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者大量数据模拟获得。

本发明的工作原理：

一种表格数据的自动识别方法，在工作时，首先获取文档和CAD图纸等文件，并将文档和CAD图纸转化为图像格式；对各个图像识别终端的算力占用情况进行监测分析，计算得到算力充余系数KY；选取KY最大的图像识别终端作为目标终端，对文档和CAD图纸转化的图像进行表格数据识别，提高数据识别效率；当监测到目标终端进行表格数据识别时，每间隔R2时间采集目标终端的状态参数，对数据识别过程中目标终端的状态偏离值进行评估，若状态偏离值ZP大于预设偏离阈值，则生成偏离预警信号，以提醒管理人员对目标终端进行检修，从而提高数据识别效率；

目标终端对文档和CAD图纸转化的图像进行表格数据识别，首先基于深度学习算法对文档和CAD图纸转化的图像进行文本框位置检测和文本框内容识别，获取图像中每个文本框的文本框位置信息，以及和每个文本框位置信息对应的文本框内容信息；对图像中的表格整体单元格进行检测，检测出表格整体单元格的所有横线和所有竖线；基于检测出的所有横线和所有竖线获取表格整体单元格中所有小单元格的小单元格位置信息；当判断出文本框与小单元格相对应时，基于文本框位置信息对文本框进行排序，获取排序后的文本框内容信息；基于排序后的文本框内容信息确定表格整体单元格的内容排布，输出经过排布后的图像的结构化文本信息，识别精度高。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种表格数据的自动识别方法，其特征在于，包括如下步骤：

步骤一：获取文档和CAD图纸文件，并将所述文档和CAD图纸转化为图像格式，所述图像格式包括：jpg、png；

基于所述文本框位置信息和所述小单元格位置信息，判断所述文本框是否与所述小单元格相对应；当判断出所述文本框与所述小单元格相对应时，基于所述文本框位置信息对所述文本框进行排序，获取排序后的文本框内容信息；

2.根据权利要求1所述的一种表格数据的自动识别方法，其特征在于，对各个图像识别终端的算力占用情况进行监测分析，具体包括：

3.根据权利要求1所述的一种表格数据的自动识别方法，其特征在于，对数据识别过程中目标终端的状态偏离值进行评估，具体为：

4.根据权利要求3所述的一种表格数据的自动识别方法，其特征在于，根据偏离信号的时空变化趋势，计算得到状态偏离值ZP；具体为：

5.根据权利要求1所述的一种表格数据的自动识别方法，其特征在于，对所述图像中的表格整体单元格进行检测，检测出所述表格整体单元格的所有横线和所有竖线；具体包括：

将调整后的所述图像转化为灰度模式，并进行腐蚀处理；

通过中值滤波过滤掉经过腐蚀处理的所述图像的噪声干扰；

6.根据权利要求5所述的一种表格数据的自动识别方法，其特征在于，当判断出所述文本框与所述小单元格位置不完全重合时，分别计算所述文本框与所述小单元格的面积；