CN117540715A - 一种基于深度学习和计算机视觉的表格识别方法与系统 - Google Patents
一种基于深度学习和计算机视觉的表格识别方法与系统 Download PDFInfo
- Publication number
- CN117540715A CN117540715A CN202311721371.4A CN202311721371A CN117540715A CN 117540715 A CN117540715 A CN 117540715A CN 202311721371 A CN202311721371 A CN 202311721371A CN 117540715 A CN117540715 A CN 117540715A
- Authority
- CN
- China
- Prior art keywords
- image
- deep learning
- cell
- computer vision
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013135 deep learning Methods 0.000 title claims abstract description 39
- 238000001514 detection method Methods 0.000 claims abstract description 54
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000005516 engineering process Methods 0.000 claims abstract description 7
- 238000006243 chemical reaction Methods 0.000 claims abstract description 5
- 239000000284 extract Substances 0.000 claims abstract description 5
- 238000001914 filtration Methods 0.000 claims description 19
- 238000004458 analytical method Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 11
- 238000003708 edge detection Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012015 optical character recognition Methods 0.000 claims description 4
- 238000007477 logistic regression Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 abstract description 7
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/164—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/18086—Extraction of features or characteristics of the image by performing operations within image blocks or by using histograms
- G06V30/18095—Summing image-intensity values; Projection and histogram analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Abstract
本发明公开了一种基于深度学习和计算机视觉的表格识别方法与系统,涉及深度学习和计算机视觉技术领域,包括步骤:采集包含各种类型的表格图像;对待识别的表格图像进行预处理;利用目标检测模型对表格进行检测和定位,获取表格边界和行列;利用深度学习算法对预处理后表格图像中的文本进行分析和识别,并将文本填充到表格单元格中;识别每个单元格中的表格数据类型,并对表格数据类型进行相应的数据类型判断和转换,提取最终的表格数据;将提取的表格数据转换成电子数据格式进行保存和输出。本发明通过计算机视觉、深度学习和数据分析等领域的前沿技术,能够自动化、高效地识别和提取各类表格数据,提供便捷、准确的表格处理解决方案。
Description
技术领域
本发明涉及深度学习和计算机视觉技术领域,特别涉及一种基于深度学习和计算机视觉的表格识别方法与系统。
背景技术
在现代社会中,表格是一种常见的信息整理和数据呈现方式。无论是在企业、学术研究还是个人生活中,我们经常需要处理和分析各种表格数据。表格作为一种高度精练、集中的信息表达形式,在各个行业都得到广泛地应用。
在实际应用中,由于行业和应用领域的不同,表格的内容和格式差别很大,很难用几种特定的表格样式满足各种应用需求,表格在以图片文件的形式存在时,会丢失易于计算机理解的原有结构信息,若是采用人工手段对表格进行重新处理录入,会面临效率低下、数据量大导致出错等问题。为了提高表格处理的效率和准确性,智能表格识别方法应运而生。
而现有的智能表格识别方法主要依赖于规则和模板匹配,对于结构复杂或样式多样的表格,识别率较低,并且对于格式变化的表格需要频繁更新规则和模板,缺乏对各种类型和样式表格数据的快速提取。
发明内容
本发明的目的在于针对上述现有技术的不足,提供一种基于深度学习和计算机视觉的表格识别方法与系统,以解决现有技术中识别率较低,并且对于格式变化的表格需要频繁更新规则和模板的问题。
本发明具体提供如下技术方案:一种基于深度学习和计算机视觉的表格识别方法,包括步骤:
采集包含多种类型的表格图像;
利用目标检测模型对表格图像中的表格进行检测和定位,获取表格边界和行列,并创建表格结构;
利用计算机视觉算法对表格结构中的单元格进行分割,确定分割后每个单元格的位置和大小,并将所述表格图像划分为不同的单元格图像;
利用深度学习算法对每个单元格图像进行分析和识别,并将分析和识别后的内容填充到对应的所述单元格中;
填充所述内容后,识别每个单元格中的表格数据类型,并对所述表格数据类型进行相应的数据类型判断和转换,提取最终的表格数据;
将提取的表格数据转换成电子数据格式进行保存和输出。
优选的,所述采集包含多种类型的表格图像后,对所述表格图像进行标注和整理,所述标注包括标注表格的边界和单元格的位置,以及标注单元格内容的文本或图像。
优选的,在标注表格图像后,对目标检测模型进行训练,包括以下步骤:
将表格图像按照固定大小进行调整;
将标注的边界框信息转换为YOLOv3要求的格式;
使用深度学习算法框架构建基于YOLOv3的目标检测模型,并对目标检测模型定义目标检测任务的损失函数;
使用标注好的表格图像对目标检测模型进行训练,并使用技术学习率调整、正则化、批归一化方法进行模型优化;
使用测试集对训练好的目标检测模型进行评估,其中评估指标包括精确率、召回率、平均准确率mAP。
优选的,所述采集包含多种类型的表格图像后,还对所述表格图像中待识别的表格图像进行预处理,包括步骤:
使用滤波算法去除表格图像中的噪声;
使用直方图均衡化算法增强表格图像的对比度和清晰度;
使用插值算法调整表格图像的尺寸。
优选的,所述使用滤波算法去除表格图像中的噪声,包括如下步骤:
使用OpenCV库来实现中值滤波,通过调用cv2.medianBlur()函数进行滤波操作;
通过调整滤波器的大小,控制滤波的程度。
优选的,所述利用目标检测模型对表格图像中的表格进行检测和定位,获取表格边界和行列,创建表格结构,包括步骤:
将表格图像输入目标检测模型;
所述目标检测模型从表格图像中提取特征,并将所述特征通过卷积操作和激活函数转化为目标的边界框,生成表格的边界框和预测目标类别;
所述目标检测模型使用逻辑回归对每个预测目标类别进行二次预测,判断该目标是否属于该类别;
使用非极大值抑制算法对重叠的边界框进行筛选和合并,以得到最终的表格边界框。
优选的,所述利用计算机视觉算法对表格结构中的单元格进行分割,确定分割后每个单元格的位置和大小,并将所述表格图像划分为不同的单元格图像,包括步骤:
利用所述最终的表格边界框,将表格图像切割成单元格图像;
使用边缘检测算法对单元格图像进行高斯滤波,计算单元格图像的梯度,找到梯度的边缘点;
通过滞后阈值处理保留满足梯度阈值条件的边缘点,得到最终的边缘图像;
基于所述边缘图像,利用连通区域分析算法来识别和分割单元格,并使用深度优先搜索DFS或广度优先搜索BFS算法进行连通区域分析;
通过分割后的单元格和连通区域分析获得不同的单元格图像。
优选的,利用深度学习算法对每个单元格图像进行分析和识别,包括步骤:
利用自然语言处理模型或光学字符识别模型对单元格图像中的文本内容进行识别;
利用图像识别模型对单元格图像中的图像内容进行识别。
优选的,在所述利用深度学习算法对每个单元格图像进行分析和识别后,对识别结果进行校验和修正,包括步骤:
使用规则匹配和逻辑推理方法对识别结果进行校验和修正;
根据表格的布局和样式要求,对识别结果进行格式调整,获取具有一致性的识别结果。
本发明还提供一种基于深度学习和计算机视觉的表格识别系统,包括:
数据采集模块:用于采集包含各种类型的表格图像;
表格识别模块:用于利用目标检测模型对表格图像中的表格进行检测和定位,获取表格边界和行列,创建表格结构;
表格分割模块:用于利用计算机视觉算法对表格结构中的单元格进行分割,确定分割后每个单元格的位置和大小,并将所述表格图像划分为不同的单元格图像;
字符识别模块:用于利用深度学习算法对每个单元格图像进行分析和识别,并将分析和识别后的内容填充到对应的所述单元格中;
数据类型判断和转换模块:用于识别填充后内容后,每个单元格中的表格数据类型,并对所述表格数据类型进行相应的数据类型判断和转换,提取最终的表格数据;
数据输出模块:用于将提取的表格数据转换成电子数据格式进行保存和输出。
与现有技术相比,本发明具有如下显著优点:
本发明提出的表格识别方法利用图像处理、字符识别和深度学习等技术,能够自动检测表格边界和行列,并快速准确地识别表格中的文本和数字;通过引入数据类型判断和转换技术,能够自动识别不同类型的数据并进行相应的处理,保证提取数据的准确性。此外,本发明还能将识别和提取的表格数据转换为常用的电子数据格式,极大地方便了用户的后续处理和分析需求,借助计算机视觉、深度学习和数据分析等领域的前沿技术,能够自动化、高效地识别和提取各类表格数据,提供便捷、准确的表格处理解决方案。
附图说明
图1是本发明提供的整体流程图;
图2是本发明提供的表格识别系统框图。
具体实施方式
下面结合本发明中的附图,对本发明实施例的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
为了便于理解和说明,如图1所示,先对本发明提供的一种基于深度学习和计算机视觉的表格识别方法进行说明,包括以下步骤:
步骤S1:采集包含各种类型的表格图像。
采集(数据)包含各种类型的表格图像后,对表格图像进行标注和整理,其中标注包括标注表格的边界和单元格的位置,以及标注单元格内容的文本或图像。
在标注表格图像后,使用其对目标检测模型进行训练,使用目标检测模型YOLO进行表格检测,使用自然语言处理模型或光学字符识别模型进行文本内容识别,使用图像识别模型进行图像内容识别。训练模型的过程中,可以使用数据增强技术来增加数据的多样性和数量,以提高模型的鲁棒性和泛化能力。具体包括如下步骤:
步骤S11:数据预处理:将表格图像按照固定大小进行调整,例如416x416像素,并进行归一化处理,将像素值缩放到0-1的范围。
步骤S12:标签处理:将标注的边界框信息转换为YOLOv3模型要求的格式。标签格式通常为(class_id,x,y,width,height),其中class_id表示表格类别的标识,(x,y)表示边界框的中心坐标,(width,height)表示边界框的宽度和高度。
步骤S13:YOLOv3模型构建:使用深度学习算法框架(如TensorFlow或PyTorch)构建YOLOv3模型(目标检测模型),并对YOLOv3模型定义目标检测任务的损失函数。模型包括主干网络和检测头两部分。主干网络通常是一个预训练的卷积神经网络,如Darknet53或ResNet50,用于提取图像特征。检测头是一系列卷积层,用于生成边界框和预测类别。定义目标检测任务的损失函数,一般包括分类损失、边界框坐标损失和目标回归损失等。常用的损失函数包括交叉熵损失和均方误差损失。
步骤S14:使用标注好的表格图像对目标检测模型进行训练。将调整大小、归一化和转换后的数据作为输入,将标签作为目标输出,通过反向传播和优化算法更新模型参数。
步骤S15:使用技术学习率调整、正则化、批归一化方法进行模型优化,提高模型的性能和泛化能力。
步骤S16:使用测试集对训练好的目标检测模型进行评估,其中评估指标包括精确率、召回率、平均准确率mAP,用于衡量模型的检测性能。
将模型应用于实际场景中,用于自动检测表格的位置和边界框。
步骤S2:对表格图像中待识别的表格图像进行预处理。
常见的预处理方法包括图像去噪、图像增强(调整去噪和对比度等)和图像尺寸调整,以提高后续的识别准确性以及提升图像质量。使用滤波算法(如中值滤波)去除图像中的噪声,使用直方图均衡化算法增强图像的对比度和清晰度,使用插值算法调整图像的尺寸。
其中使用滤波算法去除表格图像中的噪声,包括如下步骤:
步骤S21:使用OpenCV库来实现中值滤波,通过调用cv2.medianBlur()函数进行滤波操作。
步骤S22:通过调整滤波器的大小,控制滤波的程度。
其中,较小的滤波器大小可以保留更多的细节,但可能无法完全去除较强的噪声;较大的滤波器大小可以有效去除噪声,但可能会模糊图像的细节。
步骤S3:利用训练好的目标检测模型对表格图像中的表格进行检测和定位,获取表格边界和行列,并创建表格结构。
利用深度学习模型(目标检测模型)进行表格检测,将表格从整个图像中分割出来。深度学习模型使用卷积神经网络(CNN)和目标检测算法YOLO、Faster R-CNN。采用训练有素的神经网络模型(目标检测模型),对表格图像进行分析和识别,并通过训练模型,可以实现对表格的精确检测和定位。
步骤S31:将表格图像输入目标检测模型,目标检测模型会输出表格的边界框。
步骤S32:目标检测模型从表格图像中提取特征,并将特征通过卷积操作和激活函数转化为目标的边界框,生成表格的边界框和预测目标类别。
步骤S33:目标检测模型使用逻辑回归对每个预测目标类别进行二次预测,判断该目标是否属于该类别。
步骤S34:使用非极大值抑制算法对重叠的边界框进行筛选和合并,以得到最终的表格边界框。
具体为:
YOLOv3采用一个强大的卷积神经网络作为主干网络,从输入图像中提取特征,其次YOLOv3的检测头负责生成边界框和预测目标类别。检测头由一系列卷积层和全连接层组成,用于将主干网络提取的特征映射转化为包含检测信息的特征向量。而后检测头输出的特征向量通过卷积操作和激活函数转化为目标的边界框,除了边界框,检测头还预测每个边界框所属的目标类别,YOLOv3使用逻辑回归来对每个类别进行二分类预测,判断目标是否属于该类别。最后为了抑制重叠的边界框和提高检测效果,使用了非极大值抑制算法,对预测得到的边界框进行筛选和过滤,只保留最准确的边界框。
步骤S4:利用计算机视觉算法对表格结构中的单元格进行分割,确定分割后每个单元格的位置和大小,并将表格图像划分为不同的单元格图像。
对于检测到的表格,利用计算机视觉算法进行单元格的分割。可以使用图像处理和分割算法,如边缘检测、连通区域分析等。通过分析表格的结构和布局,可以将表格划分为不同的单元格,并确定每个单元格的位置和大小。
步骤S41:利用最终的表格边界框,将表格图像切割成单元格图像。
步骤S42:使用边缘检测算法(如Canny边缘检测)和连通区域分析算法来确定单元格的边界和位置。
步骤S421:使用边缘检测算法(如Canny边缘检测)对单元格图像进行高斯滤波,以去除噪声,并平滑图像,计算单元格图像的梯度,找到梯度的边缘点。
步骤S422:通过滞后阈值处理保留满足梯度阈值条件的边缘点,得到最终的边缘图像。
步骤S423:基于边缘检测得到的边缘图像,利用连通区域分析算法来识别和分割单元格,并使用深度优先搜索DFS或广度优先搜索BFS算法进行连通区域分析。连通区域分析是一种标记和分割连通区域的方法。它的基本原理是将图像中的像素分为不同的连通区域,并为每个连通区域分配一个唯一的标签。
步骤S5:利用深度学习算法对预处理后表格图像中的文本进行分析和识别,并将分析和识别后的文本填充到表格结构中,对应的表格单元格中。
目标检测模型对表格图像中的文本进行分析和识别,处理不同字体、大小和风格的文本,将其准确地填充到对应的单元格中。对于文本内容,使用自然语言处理模型或光学字符识别模型OCR进行识别;对于图像内容,使用图像识别模型进行识别。将单元格图像输入相应的模型,模型会输出识别结果。通过训练模型,可以实现对不同类型的内容进行准确识别,如文字、数字、日期、图像等。
结果整合:将识别到的单元格内容按照表格的结构进行整合,得到完整的结构化表格数据,如电子数据格式的Excel、CVS或是数据库等形式。使用数据结构(如二维数组)来存储和组织表格数据,通过将识别结果按照表格的结构进行组织和整合,可以得到完整的表格数据。
步骤S6:填充文本后,识别每个表格单元格中的表格数据类型(如文字、数字、日期等),并对表格数据类型进行相应的数据类型判断和转换,提取最终的表格数据。
对于识别结果进行后处理,包括对识别结果进行校验和修正,以及错误纠正、格式调整等操作,以提高识别准确性和结果的可用性。使用规则匹配和逻辑推理等方法对识别结果进行校验和修正。根据表格的布局和样式要求,对识别结果进行格式调整,以保证结果的一致性和可用性(准确性)。
总的来说,该方法利用深度学习和计算机视觉技术,通过对表格图像进行预处理、表格检测、单元格分割、单元格内容识别、结果整合和后处理等步骤,实现了对表格的自动识别和解析。
步骤S7:将识别和提取的表格数据转换成电子数据格式进行保存和输出。
将最终的表格数据以表格(Excel或CSV)、数据库或其他形式进行保存和输出。
如图2所示,本发明还提供了一种基于深度学习和计算机视觉的表格识别系统,包括:数据采集模块、模型训练模块、图像处理模块、表格识别模块、表格分割模块、字符识别模块、数据类型判断和转换模块和数据输出模块。
其中,数据采集模块用于采集包含各种类型的表格图像;即采集数据。模型训练模块用于对深度学习模型进行训练。图像处理模块用于对表格图像中待识别的表格图像进行预处理。表格识别模块包括表格分割和表格检测,用于利用目标检测模型对表格图像中的表格进行检测和定位,获取表格边界和行列,创建表格结构。表格分割模块用于利用计算机视觉算法对表格结构中的单元格进行分割,确定分割后每个单元格的位置和大小,并将表格图像划分为不同的单元格图像。字符识别模块用于利用深度学习算法对预处理后表格图像中的文本进行分析和识别,并将分析和识别后的文本(内容)填充到表格结构中对应的单元格中。数据类型判断和转换模块用于填充内容后,识别每个单元格中的表格数据类型,并对表格数据类型进行相应的数据类型判断和转换,提取最终的表格数据。数据输出模块用于将识别和提取的表格数据转换成电子数据格式进行保存和输出。其中,字符识别模块、数据类型判断和转换模块以及数据输出模块属于数据优化提取模块,进行单元格内容识别、后处理和结果输出。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于深度学习和计算机视觉的表格识别方法,其特征在于,包括步骤:
采集包含多种类型的表格图像;
利用目标检测模型对表格图像中的表格进行检测和定位,获取表格边界和行列,创建表格结构;
利用计算机视觉算法对表格结构中的单元格进行分割,确定分割后每个单元格的位置和大小,并将所述表格图像划分为不同的单元格图像;
利用深度学习算法对每个单元格图像进行分析和识别,并将分析和识别后的内容填充到对应的所述单元格中;
填充所述内容后,识别每个单元格中的表格数据类型,并对所述表格数据类型进行相应的数据类型判断和转换,提取最终的表格数据;
将提取的表格数据转换成电子数据格式进行保存和输出。
2.如权利要求1所述的一种基于深度学习和计算机视觉的表格识别方法,其特征在于,所述采集包含多种类型的表格图像后,对所述表格图像进行标注和整理,所述标注包括标注表格的边界和单元格的位置,以及标注单元格内容的文本或图像。
3.如权利要求2所述的一种基于深度学习和计算机视觉的表格识别方法,其特征在于,在标注所述表格图像后,对目标检测模型进行训练,包括以下步骤:
将表格图像按照固定大小进行调整;
将标注的边界框信息转换为YOLOv3要求的格式;
使用深度学习算法框架构建基于YOLOv3的目标检测模型,并对目标检测模型定义目标检测任务的损失函数;
使用标注好的表格图像对目标检测模型进行训练,并使用技术学习率调整、正则化、批归一化方法进行模型优化;
使用测试集对训练好的目标检测模型进行评估,其中评估指标包括精确率、召回率、平均准确率mAP。
4.如权利要求1所述的一种基于深度学习和计算机视觉的表格识别方法,其特征在于,所述采集包含多种类型的表格图像后,还对所述表格图像中待识别的表格图像进行预处理,包括步骤:
使用滤波算法去除表格图像中的噪声;
使用直方图均衡化算法增强表格图像的对比度和清晰度;
使用插值算法调整表格图像的尺寸。
5.如权利要求4所述的一种基于深度学习和计算机视觉的表格识别方法,其特征在于,所述使用滤波算法去除表格图像中的噪声,包括如下步骤:
使用OpenCV库来实现中值滤波,通过调用cv2.medianBlur()函数进行滤波操作;
通过调整滤波器的大小,控制滤波的程度。
6.如权利要求1所述的一种基于深度学习和计算机视觉的表格识别方法,其特征在于,所述利用目标检测模型对表格图像中的表格进行检测和定位,获取表格边界和行列,创建表格结构,包括步骤:
将表格图像输入目标检测模型;
所述目标检测模型从表格图像中提取特征,并将所述特征通过卷积操作和激活函数转化为目标的边界框,生成表格的边界框和预测目标类别;
所述目标检测模型使用逻辑回归对每个预测目标类别进行二次预测,判断该目标是否属于该类别;
使用非极大值抑制算法对重叠的边界框进行筛选和合并,以得到最终的表格边界框。
7.如权利要求6所述的一种基于深度学习和计算机视觉的表格识别方法,其特征在于,所述利用计算机视觉算法对表格结构中的单元格进行分割,确定分割后每个单元格的位置和大小,并将所述表格图像划分为不同的单元格图像,包括步骤:
利用所述最终的表格边界框,将表格图像切割成单元格图像;
使用边缘检测算法对单元格图像进行高斯滤波,计算单元格图像的梯度,找到梯度的边缘点;
通过滞后阈值处理保留满足梯度阈值条件的边缘点,得到最终的边缘图像;
基于所述边缘图像,利用连通区域分析算法来识别和分割单元格,并使用深度优先搜索DFS或广度优先搜索BFS算法进行连通区域分析;
通过分割后的单元格和连通区域分析获得不同的单元格图像。
8.如权利要求1所述的一种基于深度学习和计算机视觉的表格识别方法,其特征在于,利用深度学习算法对每个单元格图像进行分析和识别,包括步骤:
利用自然语言处理模型或光学字符识别模型对单元格图像中的文本内容进行识别;
利用图像识别模型对单元格图像中的图像内容进行识别。
9.如权利要求1所述的一种基于深度学习和计算机视觉的表格识别方法,其特征在于,在所述利用深度学习算法对每个单元格图像进行分析和识别后,对识别结果进行校验和修正,包括以下步骤:
使用规则匹配和逻辑推理方法对识别结果进行校验和修正;
根据表格的布局和样式要求,对识别结果进行格式调整,获取具有一致性的识别结果。
10.一种基于深度学习和计算机视觉的表格识别系统,其特征在于,包括:
数据采集模块:用于采集包含多种类型的表格图像;
表格识别模块:用于利用目标检测模型对表格图像中的表格进行检测和定位,获取表格边界和行列,创建表格结构;
表格分割模块:用于利用计算机视觉算法对表格结构中的单元格进行分割,确定分割后每个单元格的位置和大小,并将所述表格图像划分为不同的单元格图像;
字符识别模块:用于利用深度学习算法对每个单元格图像进行分析和识别,并将分析和识别后的内容填充到对应的所述单元格中;
数据类型判断和转换模块:用于填充所述内容后,识别每个单元格中的表格数据类型,并对所述表格数据类型进行相应的数据类型判断和转换,提取最终的表格数据;
数据输出模块:用于将提取的表格数据转换成电子数据格式进行保存和输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311721371.4A CN117540715A (zh) | 2023-12-14 | 2023-12-14 | 一种基于深度学习和计算机视觉的表格识别方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311721371.4A CN117540715A (zh) | 2023-12-14 | 2023-12-14 | 一种基于深度学习和计算机视觉的表格识别方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117540715A true CN117540715A (zh) | 2024-02-09 |
Family
ID=89786102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311721371.4A Pending CN117540715A (zh) | 2023-12-14 | 2023-12-14 | 一种基于深度学习和计算机视觉的表格识别方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117540715A (zh) |
-
2023
- 2023-12-14 CN CN202311721371.4A patent/CN117540715A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110110799B (zh) | 细胞分类方法、装置、计算机设备和存储介质 | |
US10817717B2 (en) | Method and device for parsing table in document image | |
CN110516208B (zh) | 一种针对pdf文档表格提取的系统及方法 | |
US20190355113A1 (en) | Multi-sample Whole Slide Image Processing in Digital Pathology via Multi-resolution Registration and Machine Learning | |
CN108805076B (zh) | 环境影响评估报告书表格文字的提取方法及系统 | |
CN107316036B (zh) | 一种基于级联分类器的害虫识别方法 | |
CN111027297A (zh) | 一种对图像型pdf财务数据关键表格信息的处理方法 | |
CN113158808B (zh) | 中文古籍字符识别、组段与版面重建方法、介质和设备 | |
CN106203539B (zh) | 识别集装箱箱号的方法和装置 | |
CN111460927B (zh) | 对房产证图像进行结构化信息提取的方法 | |
CN112883926B (zh) | 表格类医疗影像的识别方法及装置 | |
CN112365497A (zh) | 基于TridentNet和Cascade-RCNN结构的高速目标检测方法和系统 | |
CN112507782A (zh) | 文本图像的识别方法及装置 | |
CN112861917A (zh) | 基于图像属性学习的弱监督目标检测方法 | |
CN111461133A (zh) | 快递面单品名识别方法、装置、设备及存储介质 | |
CN112241730A (zh) | 一种基于机器学习的表格提取方法和系统 | |
CN116824608A (zh) | 基于目标检测技术的答题卡版面分析方法 | |
CN111340032A (zh) | 一种基于金融领域应用场景的字符识别方法 | |
CN113673528B (zh) | 文本处理方法、装置、电子设备和可读存储介质 | |
CN114581928A (zh) | 一种表格识别方法及系统 | |
CN114463767A (zh) | 信用证识别方法、装置、计算机设备和存储介质 | |
CN111914706B (zh) | 一种文字检测输出结果质量检测和控制的方法与装置 | |
CN117437647A (zh) | 基于深度学习和计算机视觉的甲骨文字检测方法 | |
CN110287970B (zh) | 一种基于cam与掩盖的弱监督物体定位方法 | |
CN110889418A (zh) | 一种气体轮廓识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |