CN112364834A - 一种基于深度学习和图像处理的表格识别的还原方法 - Google Patents

一种基于深度学习和图像处理的表格识别的还原方法 Download PDF

Info

Publication number
CN112364834A
CN112364834A CN202011414603.8A CN202011414603A CN112364834A CN 112364834 A CN112364834 A CN 112364834A CN 202011414603 A CN202011414603 A CN 202011414603A CN 112364834 A CN112364834 A CN 112364834A
Authority
CN
China
Prior art keywords
image
line segment
character
coordinates
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011414603.8A
Other languages
English (en)
Inventor
王禛贤
吴伟峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Dienian Information Technology Co ltd
Original Assignee
Shanghai Dienian Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Dienian Information Technology Co ltd filed Critical Shanghai Dienian Information Technology Co ltd
Priority to CN202011414603.8A priority Critical patent/CN112364834A/zh
Publication of CN112364834A publication Critical patent/CN112364834A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明适用于光学字符识别技术领域,具体是一种基于深度学习和图像处理的表格识别的还原方法,包括如下步骤:利用显著目标检测提取图像中的线段;并由满足一定长度的线段计算图像的偏转角度,初步校正表格的倾斜角度;根据各线条形成的组合区域提取图像的最大凸包;以横向纵向线条交点数量、凸包面积筛选处理结果,得到符合条件的表格图像凸包进行透视变换,进一步校正表格的倾斜角度以及一定的畸变;对校正后的交点坐标按照一定规则进行合并排序,得出单元格坐标;利用文字检测算法提取文本框坐标;将该表格及其单元格内文字内容按照一定比例还原至word页面;进而提供了一种鲁棒性强、形式简单、实现方便的解决方法。

Description

一种基于深度学习和图像处理的表格识别的还原方法
技术领域
本发明涉及光学字符识别技术领域,具体是一种基于深度学习和图像处理的表格识别的还原方法。
背景技术
OCR(optical character recognition)文字识别是指电子设备检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。
随着基于深度学习理论的OCR技术的迅速发展,卷积神经网络和长短期记忆网络占据了愈发重要的地位。基于显著目标检测的表格线检测方法和后续的图像处理算法结合的方法具有比传统方法更加鲁棒的性能的同时,在实现和部署运行速度上也具有较好的性能。随着现代社会对文档电子化管理的需求愈加频繁,表格电子化作为还原原始文档格式的重要部分,寻求一种鲁棒性强,实现简便的表格识别及还原方法变得尤为重要。
经典的传统表格识别方法主要包含通过对待识别图像进行二值化获取表格线的处理方式,该方式在图像明暗不均衡,背景复杂的情况下很难取得较好的表格线识别结果,从而难以准确地还原表格真实结构;
现行的表格文本还原方法主流方式有两种:一是通过整张表格的文本字符串检测框和单元格位置重叠阈值判断文本内容是否从属于该单元格;二是截取各个单元格区域图像进行文本识别,在表格还原阶段将其结果填充至所属单元格内;其中第一种方法很难区分从属于不同单元格但绝对距离接近的两个文本实例,从而导致还原结果出错,第二种方法需要进行多次文本检测算法的遍历从而导致文本识别过程具有较高的时延,同时单元格边缘区域文本识别这一场景需要对单元格边界有极其精准的判断,具有较高的复杂度。
发明内容
本发明的目的在于提供一种基于深度学习和图像处理的表格识别的还原方法,以解决上述背景技术中提出的问题。为实现上述目的,本发明提供如下技术方案:
一种基于深度学习和图像处理的表格识别的还原方法,包括如下步骤:
步骤1:利用显著目标检测提取图像中的线段;
获取待识别图像中的表格ROI(Region of Interest,感兴趣)区域;
步骤2:对步骤1中得到的线条图像进行形态学运算,求得横向线段和纵向线段;并由满足一定长度的线段计算图像的偏转角度,初步校正表格的倾斜角度;
根据表格ROI区域横向线段和纵向线段交点以及单元格最小外接矩形得到各个单元格相对于表格ROI区域的坐标信息,以及跨行列的合并信息;
步骤3:根据各线条形成的组合区域提取图像的最大凸包;以横向纵向线条交点数量、凸包面积筛选处理结果,得到符合条件的表格图像凸包进行透视变换,进一步校正表格的倾斜角度以及一定的畸变;
步骤4:对校正后的交点坐标按照一定规则进行合并排序,得出单元格坐标;
对所述表格ROI区域进行文本检测和识别得到表格内的各个字符内容及其相对于表格ROI区域的坐标信息;根据所述表格ROI区域内各个单元格坐标信息和各个字符坐标信息,将各个字符识别结果填充至合并后的单元格内;
步骤5:利用文字检测算法提取文本框坐标,截取文字区域图像由CRNN算法进行文字识别;
步骤6:利用CRNN算法的CTC解码过程得出单字坐标,该单字坐标经由文本框坐标映射到原图像区域,结合单元格坐标以确定该字的单元格归属;
步骤7:将该表格及其单元格内文字内容按照一定比例还原至word页面。
在本发明基于深度学习和图像处理的表格识别的还原方法中:所述获取待识别图像中的表格ROI区域,包括:
应用SOD(Salient Object Detection,显著目标检测)方法检测待识别图像中属于表格结构的线段将其作为显著目标与背景分离;
根据所述显著目标图像进行形态学运算得到分别含有横向线段和纵向线段的两幅图像并按照一定的规则进行噪声线段的删除;
待识别图像校正,利用所述纵向线段图像获取待识别图像的偏转角,并对待识别图像、横向线段图像、纵向线段图像进行旋转校正。
作为进一步的方案:根据所述旋转校正后的横向线段图像、纵向线段图像求和获得表格掩膜图像;
对所述表格掩膜图像求外接矩形获取初步的表格ROI区域,对该ROI区域进行透视变换校正。
作为进一步的方案:所述待识别图像校正,包括:
对纵向线段应用Hough直线拟合算法,求得拟合直线结果的纵向统计线段长度大于图像高度的一定比例的平均角度确定第一阶段的图像偏转角度;
将待识别图像、横向线段图像和纵向线段图像均进行上述图像偏转角度的相反数值的旋转,使得表格的偏转角近似为0。
优化的:对所述所得横向线段和纵向线段图像求和运算,得到表格的掩膜图像;
对所述所得表格掩膜图像求外接矩形,得到待识别图像、横向线段图像、纵向线段图像的ROI区域;对所述ROI区域进行透视变换二次校正。
在本发明基于深度学习和图像处理的表格识别的还原方法中:获取待识别所述各个字符的坐标信息,包括:
获取待识别图像的表格ROI区域的文本框坐标;
根据所述文本框坐标得到待识别文本区域,截取该区域图像利用CRNN算法进行识别;
根据所述识别阶段进行CTC解码,获取文本框内的图像片段和各个字符的从属关系,从而获取单个字符在文本框内的坐标。
作为进一步的方案:根据所述单个字符在文本框内的坐标以及文本框坐标,建立字符坐标与文本框坐标的映射关系,从而获取单个字符在表格ROI区域的坐标。
与现有技术相比,本发明基于深度学习和图像处理的表格识别的还原方法,包括如下步骤:利用显著目标检测提取图像中的线段;并由满足一定长度的线段计算图像的偏转角度,初步校正表格的倾斜角度;根据各线条形成的组合区域提取图像的最大凸包;以横向纵向线条交点数量、凸包面积筛选处理结果,得到符合条件的表格图像凸包进行透视变换,进一步校正表格的倾斜角度以及一定的畸变;对校正后的交点坐标按照一定规则进行合并排序,得出单元格坐标;利用文字检测算法提取文本框坐标,截取文字区域图像由CRNN算法进行文字识别;利用CRNN算法的CTC解码过程得出单字坐标,该单字坐标经由文本框坐标映射到原图像区域,结合单元格坐标以确定该字的单元格归属;将该表格及其单元格内文字内容按照一定比例还原至word页面。进而提供了一种鲁棒性强、形式简单、实现方便的解决方法。
附图说明
图1为本发明基于深度学习和图像处理的表格识别的还原方法的流程框图。
图2为本发明基于深度学习和图像处理的表格识别的还原方法中的待识别表格示意图。
图3为本发明基于深度学习和图像处理的表格识别的还原方法中的显著目标检测结果示意图。
图4为本发明基于深度学习和图像处理的表格识别的还原方法中的初始表格ROI区域示意图。
图5为本发明基于深度学习和图像处理的表格识别的还原方法中的校正后的表格ROI区域示意图。
图6为本发明基于深度学习和图像处理的表格识别的还原方法中的CTC解码单字坐标在表格ROI区域示意图。
图7为本发明基于深度学习和图像处理的表格识别的还原方法中的表格还原至word的最终结果示意图。
具体实施方式
下面结合具体实施方式对本发明的技术方案作进一步详细地说明。
经典的传统表格识别方法主要包含通过对待识别图像进行二值化获取表格线的处理方式,该方式在图像明暗不均衡,背景复杂的情况下很难取得较好的表格线识别结果,从而难以准确地还原表格真实结构;
现行的表格文本还原方法主流方式有两种:一是通过整张表格的文本字符串检测框和单元格位置重叠阈值判断文本内容是否从属于该单元格;二是截取各个单元格区域图像进行文本识别,在表格还原阶段将其结果填充至所属单元格内;其中第一种方法很难区分从属于不同单元格但绝对距离接近的两个文本实例,从而导致还原结果出错,第二种方法需要进行多次文本检测算法的遍历从而导致文本识别过程具有较高的时延,同时单元格边缘区域文本识别这一场景需要对单元格边界有极其精准的判断,具有较高的复杂度。
针对上述问题,本发明的目的在于提供一种基于深度学习和图像处理的表格识别的还原方法,以解决上述提出的问题。为实现上述目的,本发明提供如下技术方案:
本发明实施例中,如图1所示,一种基于深度学习和图像处理的表格识别的还原方法,包括如下步骤:
步骤1:利用显著目标检测提取图像中的线段;
获取待识别图像中的表格ROI区域;
步骤2:对步骤1中得到的线条图像进行形态学运算,求得横向线段和纵向线段;并由满足一定长度的线段计算图像的偏转角度,初步校正表格的倾斜角度;
根据表格ROI区域横向线段和纵向线段交点以及单元格最小外接矩形得到各个单元格相对于表格ROI区域的坐标信息,以及跨行列的合并信息;
步骤3:根据各线条形成的组合区域提取图像的最大凸包;以横向纵向线条交点数量、凸包面积筛选处理结果,得到符合条件的表格图像凸包进行透视变换,进一步校正表格的倾斜角度以及一定的畸变;
步骤4:对校正后的交点坐标按照一定规则进行合并排序,得出单元格坐标;
对所述表格ROI区域进行文本检测和识别得到表格内的各个字符内容及其相对于表格ROI区域的坐标信息;根据所述表格ROI区域内各个单元格坐标信息和各个字符坐标信息,将各个字符识别结果填充至合并后的单元格内;
步骤5:利用文字检测算法提取文本框坐标,截取文字区域图像由CRNN算法进行文字识别;
步骤6:利用CRNN算法的CTC解码过程得出单字坐标,该单字坐标经由文本框坐标映射到原图像区域,结合单元格坐标以确定该字的单元格归属;
步骤7:将该表格及其单元格内文字内容按照一定比例还原至word页面。
本发明实施例中,所述获取待识别图像中的表格ROI区域,包括:应用SOD方法检测待识别图像中属于表格结构的线段将其作为显著目标与背景分离;根据所述显著目标图像进行形态学运算得到分别含有横向线段和纵向线段的两幅图像并按照一定的规则进行噪声线段的删除;待识别图像校正,利用所述纵向线段图像获取待识别图像的偏转角,并对待识别图像、横向线段图像、纵向线段图像进行旋转校正;:根据所述旋转校正后的横向线段图像、纵向线段图像求和获得表格掩膜图像;对所述表格掩膜图像求外接矩形获取初步的表格ROI区域,对该ROI区域进行透视变换校正。
本发明实施例中,所述待识别图像校正,包括:对纵向线段应用Hough直线拟合算法,求得拟合直线结果的纵向统计线段长度大于图像高度的一定比例的平均角度确定第一阶段的图像偏转角度;将待识别图像、横向线段图像和纵向线段图像均进行上述图像偏转角度的相反数值的旋转,使得表格的偏转角近似为0;对所述所得横向线段和纵向线段图像求和运算,得到表格的掩膜图像;对所述所得表格掩膜图像求外接矩形,得到待识别图像、横向线段图像、纵向线段图像的ROI区域;对所述ROI区域进行透视变换二次校正。
本发明实施例中,获取待识别所述各个字符的坐标信息,包括:获取待识别图像的表格ROI区域的文本框坐标;根据所述文本框坐标得到待识别文本区域,截取该区域图像利用CRNN算法进行识别;根据所述识别阶段进行CTC解码,获取文本框内的图像片段和各个字符的从属关系,从而获取单个字符在文本框内的坐标。
具体的,根据所述单个字符在文本框内的坐标以及文本框坐标,建立字符坐标与文本框坐标的映射关系,从而获取单个字符在表格ROI区域的坐标。
本发明基于深度学习和图像处理的表格识别的还原方法,包括如下步骤:利用显著目标检测提取图像中的线段;并由满足一定长度的线段计算图像的偏转角度,初步校正表格的倾斜角度;根据各线条形成的组合区域提取图像的最大凸包;以横向纵向线条交点数量、凸包面积筛选处理结果,得到符合条件的表格图像凸包进行透视变换,进一步校正表格的倾斜角度以及一定的畸变;对校正后的交点坐标按照一定规则进行合并排序,得出单元格坐标;利用文字检测算法提取文本框坐标,截取文字区域图像由CRNN算法进行文字识别;利用CRNN算法的CTC解码过程得出单字坐标,该单字坐标经由文本框坐标映射到原图像区域,结合单元格坐标以确定该字的单元格归属;将该表格及其单元格内文字内容按照一定比例还原至word页面。进而提供了一种鲁棒性强、形式简单、实现方便的解决方法。
如附图2所示,采用一种显著目标检测方法检测待识别图像中存在的线段将其作为显著目标与背景分离;
根据所述显著目标图像进行形态学运算得到分别含有横向线段和纵向线段的两幅图像,将各条线段的端点坐标进行排序,对于横向线段图像若端点坐标的x坐标的最大值与第二大值的差值大于该端点最大值所属直线长度的10%,则视为横向线段图像并无与该线段平行的线段,即该线段作为噪声被消去,重复上述步骤直至条件不被满足为止;同理,对于纵向线段图像若端点坐标的y坐标的最大值与第二大值的差值大于该端点最大值所属直线长度的10%,则视为横向线段图像并无与该线段平行的线段,即该线段作为噪声被消去,重复上述步骤直至条件不被满足为止;
对纵向线段应用Hough直线拟合算法,求得拟合直线结果的纵向统计线段长度大于图像高度的一定比例的平均角度确定第一阶段的图像偏转角度;
将待识别图像、横向线段图像和纵向线段图像均进行上述图像偏转角度的相反数值的旋转,使得表格的偏转角近似为0;对所述所得横向线段和纵向线段图像求和运算,得到表格的掩膜图像;
如附图4所示,对所述所得表格掩膜图像求外接矩形,得到待识别图像、横向线段图像、纵向线段图像的ROI区域;
通过对表格掩膜图像应用Douglas-Peucker算法拟合获取表格的近似四边形凸包并对该凸包求角点;取上述掩膜图像外接矩形的长宽分别为h, w,取四个顶点为(0, 0),(w,0),(w, h),(0, h),从而求得四个角点和四个顶点之间的透视变换矩阵M,并将待识别图像、横向线段图像、纵向线段图像的ROI区域校正为大小为(w, h)的图像;其中校正后的待识别图像的ROI区域如附图5所示;
在透视校正的过程中,表格外围四个边框线段有一定概率被消去,需要在横向线段图像的点(1, 1)至点(w-1, 1),点(1, h-1)至点(w-1, h-1),纵向线段图像的点(1, 1)至点(1, h-1),点(w-1, 1)至点(w-1, h-1)补充四条线段;
通过对上述所得横向线段和纵向线段ROI图像求与运算,得到表格中各个单元格的顶点坐标;
通过对上述取各个单元格的顶点坐标的x坐标和y坐标进行排序并且按照一定规则进行归并,可以得到待识别图像中表格的列数为归并后的x坐标数量减一,行数为归并后的y坐标数量减一;
通过对上述所得横向线段和纵向线段图像ROI求和运算,得到表格掩膜ROI图像;
通过对上述表格掩膜ROI图像求各个二级轮廓的最小外接矩即可获得单元格图像坐标;
利用文字检测算法对待识别图像ROI区域进行文本框检测,将检测到的文本框送入CRNN模型进行识别,利用CTC解码获取的结果形式包含单个字符的识别结果、单个字符的置信度、相对文本框的单个字符坐标信息;
如附图6所示,利用文本框在待识别图像ROI区域的坐标信息和上述文本框内单个字符相对文本框的坐标信息可以得到单字在待识别图像ROI区域的映射关系,即可得到每个字符在待识别图像ROI区域的坐标;
通过对比每个字符和单元格相对于ROI区域的坐标信息,将每个字符结果填充进其归属的单元格内,将待识别表格按照一定比例还原至word页面,最终的结果如附图7所示。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (7)

1.一种基于深度学习和图像处理的表格识别的还原方法,其特征在于,包括如下步骤:
步骤1:利用显著目标检测提取图像中的线段;
获取待识别图像中的表格ROI区域;
步骤2:对步骤1中得到的线条图像进行形态学运算,求得横向线段和纵向线段;并由满足一定长度的线段计算图像的偏转角度,初步校正表格的倾斜角度;
根据表格ROI区域横向线段和纵向线段交点以及单元格最小外接矩形得到各个单元格相对于表格ROI区域的坐标信息,以及跨行列的合并信息;
步骤3:根据各线条形成的组合区域提取图像的最大凸包;以横向纵向线条交点数量、凸包面积筛选处理结果,得到符合条件的表格图像凸包进行透视变换,进一步校正表格的倾斜角度以及一定的畸变;
步骤4:对校正后的交点坐标按照一定规则进行合并排序,得出单元格坐标;
对所述表格ROI区域进行文本检测和识别得到表格内的各个字符内容及其相对于表格ROI区域的坐标信息;根据所述表格ROI区域内各个单元格坐标信息和各个字符坐标信息,将各个字符识别结果填充至合并后的单元格内;
步骤5:利用文字检测算法提取文本框坐标,截取文字区域图像由CRNN算法进行文字识别;
步骤6:利用CRNN算法的CTC解码过程得出单字坐标,该单字坐标经由文本框坐标映射到原图像区域,结合单元格坐标以确定该字的单元格归属;
步骤7:将该表格及其单元格内文字内容按照一定比例还原至word页面。
2.根据权利要求1所述的一种基于深度学习和图像处理的表格识别的还原方法,其特征在于,
所述获取待识别图像中的表格ROI区域,包括:
应用SOD方法检测待识别图像中属于表格结构的线段将其作为显著目标与背景分离;
根据所述显著目标图像进行形态学运算得到分别含有横向线段和纵向线段的两幅图像并按照一定的规则进行噪声线段的删除;
待识别图像校正,利用所述纵向线段图像获取待识别图像的偏转角,并对待识别图像、横向线段图像、纵向线段图像进行旋转校正。
3.根据权利要求2所述的一种基于深度学习和图像处理的表格识别的还原方法,其特征在于,
根据所述旋转校正后的横向线段图像、纵向线段图像求和获得表格掩膜图像;
对所述表格掩膜图像求外接矩形获取初步的表格ROI区域,对该ROI区域进行透视变换校正。
4.根据权利要求2所述的一种基于深度学习和图像处理的表格识别的还原方法,其特征在于,
所述待识别图像校正,包括:
对纵向线段应用Hough直线拟合算法,求得拟合直线结果的纵向统计线段长度大于图像高度的一定比例的平均角度确定第一阶段的图像偏转角度;
将待识别图像、横向线段图像和纵向线段图像均进行上述图像偏转角度的相反数值的旋转,使得表格的偏转角近似为0。
5.根据权利要求4所述的一种基于深度学习和图像处理的表格识别的还原方法,其特征在于,
对所述所得横向线段和纵向线段图像求和运算,得到表格的掩膜图像;
对所述所得表格掩膜图像求外接矩形,得到待识别图像、横向线段图像、纵向线段图像的ROI区域;对所述ROI区域进行透视变换二次校正。
6.根据权利要求1所述的一种基于深度学习和图像处理的表格识别的还原方法,其特征在于,
获取待识别所述各个字符的坐标信息,包括:
获取待识别图像的表格ROI区域的文本框坐标;
根据所述文本框坐标得到待识别文本区域,截取该区域图像利用CRNN算法进行识别;
根据所述识别阶段进行CTC解码,获取文本框内的图像片段和各个字符的从属关系,从而获取单个字符在文本框内的坐标。
7.根据权利要求6所述的一种基于深度学习和图像处理的表格识别的还原方法,其特征在于,根据所述单个字符在文本框内的坐标以及文本框坐标,建立字符坐标与文本框坐标的映射关系,从而获取单个字符在表格ROI区域的坐标。
CN202011414603.8A 2020-12-07 2020-12-07 一种基于深度学习和图像处理的表格识别的还原方法 Pending CN112364834A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011414603.8A CN112364834A (zh) 2020-12-07 2020-12-07 一种基于深度学习和图像处理的表格识别的还原方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011414603.8A CN112364834A (zh) 2020-12-07 2020-12-07 一种基于深度学习和图像处理的表格识别的还原方法

Publications (1)

Publication Number Publication Date
CN112364834A true CN112364834A (zh) 2021-02-12

Family

ID=74535884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011414603.8A Pending CN112364834A (zh) 2020-12-07 2020-12-07 一种基于深度学习和图像处理的表格识别的还原方法

Country Status (1)

Country Link
CN (1) CN112364834A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065536A (zh) * 2021-06-03 2021-07-02 北京欧应信息技术有限公司 处理表格的方法、计算设备和计算机可读存储介质
CN113723252A (zh) * 2021-08-23 2021-11-30 上海财联社金融科技有限公司 一种表格型文本图片的识别方法和系统
CN113850249A (zh) * 2021-12-01 2021-12-28 深圳市迪博企业风险管理技术有限公司 一种图表信息格式化提取方法
CN115273113A (zh) * 2022-09-27 2022-11-01 深圳擎盾信息科技有限公司 表格类文本语义识别方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000187705A (ja) * 1998-12-22 2000-07-04 Toshiba Corp 文書読取装置および方法および記憶媒体
CN106778739A (zh) * 2016-12-02 2017-05-31 中国人民解放军国防科学技术大学 一种曲面化变形文本页面图像矫正方法
CN109685052A (zh) * 2018-12-06 2019-04-26 泰康保险集团股份有限公司 文本图像处理方法、装置、电子设备及计算机可读介质
WO2020010547A1 (zh) * 2018-07-11 2020-01-16 深圳前海达闼云端智能科技有限公司 字符识别方法、装置、存储介质及电子设备
WO2020140698A1 (zh) * 2019-01-04 2020-07-09 阿里巴巴集团控股有限公司 表格数据的获取方法、装置和服务器
CN111814722A (zh) * 2020-07-20 2020-10-23 电子科技大学 一种图像中的表格识别方法、装置、电子设备及存储介质
CN112036259A (zh) * 2020-08-10 2020-12-04 晶璞(上海)人工智能科技有限公司 一种基于图像处理与深度学习相结合的表格矫正与识别的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000187705A (ja) * 1998-12-22 2000-07-04 Toshiba Corp 文書読取装置および方法および記憶媒体
CN106778739A (zh) * 2016-12-02 2017-05-31 中国人民解放军国防科学技术大学 一种曲面化变形文本页面图像矫正方法
WO2020010547A1 (zh) * 2018-07-11 2020-01-16 深圳前海达闼云端智能科技有限公司 字符识别方法、装置、存储介质及电子设备
CN109685052A (zh) * 2018-12-06 2019-04-26 泰康保险集团股份有限公司 文本图像处理方法、装置、电子设备及计算机可读介质
WO2020140698A1 (zh) * 2019-01-04 2020-07-09 阿里巴巴集团控股有限公司 表格数据的获取方法、装置和服务器
CN111814722A (zh) * 2020-07-20 2020-10-23 电子科技大学 一种图像中的表格识别方法、装置、电子设备及存储介质
CN112036259A (zh) * 2020-08-10 2020-12-04 晶璞(上海)人工智能科技有限公司 一种基于图像处理与深度学习相结合的表格矫正与识别的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吴俊盼;王智;张侃健;: "雷达故障表格处理系统", 信息技术与信息化, no. 01, 10 February 2020 (2020-02-10) *
周冠玮;平西建;程娟;: "基于改进Hough变换的文本图像倾斜校正方法", 计算机应用, no. 07, 1 July 2007 (2007-07-01) *
邓小宁;孙琳;陈念年;张玉浦;: "基于HOG特征的财务报表图像识别", 电子设计工程, no. 10, 20 May 2019 (2019-05-20) *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065536A (zh) * 2021-06-03 2021-07-02 北京欧应信息技术有限公司 处理表格的方法、计算设备和计算机可读存储介质
CN113065536B (zh) * 2021-06-03 2021-09-14 北京欧应信息技术有限公司 处理表格的方法、计算设备和计算机可读存储介质
CN113723252A (zh) * 2021-08-23 2021-11-30 上海财联社金融科技有限公司 一种表格型文本图片的识别方法和系统
CN113850249A (zh) * 2021-12-01 2021-12-28 深圳市迪博企业风险管理技术有限公司 一种图表信息格式化提取方法
CN115273113A (zh) * 2022-09-27 2022-11-01 深圳擎盾信息科技有限公司 表格类文本语义识别方法及装置

Similar Documents

Publication Publication Date Title
CN111814722B (zh) 一种图像中的表格识别方法、装置、电子设备及存储介质
CN111626146B (zh) 一种基于模板匹配的合并单元格表格分割识别方法
CN112364834A (zh) 一种基于深度学习和图像处理的表格识别的还原方法
US5410611A (en) Method for identifying word bounding boxes in text
CN109389121B (zh) 一种基于深度学习的铭牌识别方法及系统
CN110020692B (zh) 一种基于印刷体模板的手写体分离与定位方法
TW201405440A (zh) 表單識別方法與裝置
CN111753706B (zh) 一种基于图像统计学的复杂表格交点聚类提取方法
CN113723330B (zh) 一种图表文档信息理解的方法及系统
CN115457565A (zh) 一种ocr文字识别方法、电子设备及存储介质
CN111626145B (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
Malik et al. An efficient skewed line segmentation technique for cursive script OCR
CN116824608A (zh) 基于目标检测技术的答题卡版面分析方法
CN111652117A (zh) 一种对多文档图像分割的方法及介质
CN109271882B (zh) 一种区分颜色的手写体汉字提取方法
CN109241975B (zh) 一种基于字符中心点定位的车牌字符分割方法
CN112200053B (zh) 一种融合局部特征的表格识别方法
CN112364863B (zh) 证照文档的文字定位方法及系统
CN110378337B (zh) 金属切削刀具图纸标识信息视觉输入方法及系统
CN109325483B (zh) 内部短笔段的处理方法和装置
CN110991440A (zh) 一种像素驱动的手机操作界面文本检测方法
CN111488870A (zh) 文字识别方法和文字识别装置
CN112215192B (zh) 一种基于机器视觉技术的快速录入试卷成绩的方法
CN111898402A (zh) 一种智能排版系统
JP2004094427A (ja) 帳票画像処理装置及び該装置を実現するためのプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination