CN109934160A - 基于表格识别的表格文字信息提取的方法及系统 - Google Patents
基于表格识别的表格文字信息提取的方法及系统 Download PDFInfo
- Publication number
- CN109934160A CN109934160A CN201910182866.1A CN201910182866A CN109934160A CN 109934160 A CN109934160 A CN 109934160A CN 201910182866 A CN201910182866 A CN 201910182866A CN 109934160 A CN109934160 A CN 109934160A
- Authority
- CN
- China
- Prior art keywords
- image
- text information
- identification
- information based
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Character Input (AREA)
Abstract
本发明涉及一种基于表格识别的表格文字信息提取的方法及系统,其特征在于,包括如下步骤:利用图像算法框架载入表格图像;识别定位出表格图像中的所有横线,确定中间位置的横线为候选线;将候选线两端延长至左右边界,左右边界分别纵向延长至上下顶点;根据预设的相邻像素值,左右边界分别沿横向与相邻像素值内的节点进行连接,连接过程中,同时寻找纵向在相邻像素值内的节点进行连接;对于表格中每个单元格内的信息分别进行提取识别。本发明采取针对表格本身结构识别,进而尽可能的还原表格本身结构化的特征,再对每个表格内容进行独立识别再做个性化处理,使其完成针对性的提取表格内的文字信息,进而提高识别准确率。
Description
技术领域
本发明涉及表格文字识别技术领域,尤其涉及一种基于表格识别的表格文字信息提取的方法及系统。
背景技术
表格是文档中常用的数据资料载体,目前,表格在日常工作生活中得到广泛应用,大量的文档信息以简明的信息表达方式即表格形式存在,特别是IT、银行、金融等行业,每天要处理的表格数量惊人,如果这些表格都能由计算机来处理,将会大大提高工作效率。表格内容的自动输入、存储、管理已经成为文档智能处理领域的一个重要组成部分,表格内容的分析与识别是计算机文档处理中的一个重要项目,广泛应用于各种场合,例如商业和政府机构,表格中文字信息的提取具有很高的研究和应用价值。由于电脑软件的发展,目前的表格多是预先设计的模板,并用word、excel等软件打印而成,在设计模板的时候有些单元格长度或者宽度预留不足导致字体变小,或者单元格自动适配格式变化等多种情况出现,使得表格识别存在较多的特殊行。当前主流的算法大多是在不提取表格框线基础上,实现字线分离,从而识别所有文字信息后再进行内容上的进一步筛选,从而完成内容信息识别。主流的技术对于表格本身结构破坏性较高,同时使得表格信息结构化输出效果变弱,且不管用户需要识别表格所有内容还是需要识别部分表格信息,主流的算法都需要识别所有的文字信息后,再进行位置和信息的筛选,需要做大量的工作,综上所述,现有技术能够识别的表格类型较少,且存在准确率较低、速度较慢的问题。
发明内容
本发明所要解决的技术问题是克服现有技术中存在的不足,提供一种基于表格识别的表格文字信息提取的方法及系统。
本发明是通过以下技术方案予以实现:
一种基于表格识别的表格文字信息提取的方法,其特征在于,包括如下步骤:
a.利用图像算法框架载入表格图像;
b.识别定位出表格图像中的所有横线,确定中间位置的横线为候选线;
c.将候选线两端延长至左右边界,左右边界分别纵向延长至上下顶点;
d.根据预设的相邻像素值,左右边界分别沿横向与相邻像素值内的节点进行连接,连接过程中,同时寻找纵向在相邻像素值内的节点进行连接;
e.对于表格中每个单元格内的信息分别进行提取识别。
根据上述技术方案,优选地,步骤a还包括:在所述利用图像算法框架载入表格图像之后,对表格信息进行预处理。
根据上述技术方案,优选地,步骤c还包括:在所述左右边界分别纵向延长至上下顶点之后,对图像进行矫正处理。
根据上述技术方案,优选地,步骤e具体包括:根据表格结构特征对表格单元格进行ID标记;提取需要识别的表格对应标记的原图中局部图像;识别提取局部图像内的文字信息。
根据上述技术方案,优选地,步骤e还包括:在所述识别提取局部图像内的文字信息之前,进行局部图像增强处理。
一种基于表格识别的表格文字信息提取的系统,其特征在于,包括:提取单元,用于利用图像算法框架载入表格图像;筛选单元,用于识别定位出表格图像中的所有横线,确定中间位置的横线为候选线;第一连线单元,用于将候选线两端延长至左右边界,左右边界分别纵向延长至上下顶点;第二连线单元,用于根据预设的相邻像素值,左右边界分别沿横向与相邻像素值内的节点进行连接,连接过程中,同时寻找纵向在相邻像素值内的节点进行连接;识别单元,用于对于表格中每个单元格内的信息分别进行提取识别。
根据上述技术方案,优选地,所述提取单元还包括:预处理模块,用于在所述利用图像算法框架载入表格图像之后,对表格信息进行预处理。
根据上述技术方案,优选地,所述第一连线单元还包括:矫正模块,用于在所述左右边界分别纵向延长至上下顶点之后,对图像进行矫正处理。
根据上述技术方案,优选地,所述识别单元具体包括:标记模块,用于根据表格结构特征对表格单元格进行ID标记;提取模块,用于提取需要识别的表格对应标记的原图中局部图像;分析模块,用于识别提取局部图像内的文字信息。
根据上述技术方案,优选地,所述识别单元还包括:图像增强模块,用于在所述识别提取局部图像内的文字信息之前,进行局部图像增强处理。
本发明的有益效果是:
本发明采取针对表格本身结构识别,进而尽可能的还原表格本身结构化的特征,再对每个表格内容进行独立识别再做个性化处理,使其完成针对性的提取表格内的文字信息,进而提高识别准确率。
附图说明
图1是本发明的工作过程示意图。
图2是本发明提取识别表格中每个单元格内信息部分的工作过程示意图。
具体实施方式
为了使本技术领域的技术人员更好地理解本发明的技术方案,下面结合附图和最佳实施例对本发明作进一步的详细说明。
如图所示,本发明公开了一种基于表格识别的表格文字信息提取的方法,其特征在于,包括如下步骤:a.利用图像算法框架载入表格图像,本例中利用图像算法框架openCV载入表格图像;b.识别定位出表格图像中的所有横线,确定中间位置的横线为候选线,本例中选取的候选线为两条;c.将候选线两端延长至左右边界,左右边界分别纵向延长至上下顶点;d.根据预设的相邻像素值,左右边界分别沿横向与相邻像素值内的节点进行连接,连接过程中,同时寻找纵向在相邻像素值内的节点进行连接,本例中预设的相邻像素值为100pixel,根据位置判断沿纵向与横向在100pixel内是否有节点,通过X方向、Y方向像素偏差容忍度,确认相邻的节点进行连接;e.对于表格中每个单元格内的信息分别进行提取识别。本发明采取针对表格本身结构识别,进而尽可能的还原表格本身结构化的特征,再对每个表格内容进行独立识别再做个性化处理,使其完成针对性的提取表格内的文字信息,进而提高识别准确率。
根据上述实施例,优选地,步骤a还包括:在所述利用图像算法框架载入表格图像之后,对表格信息进行预处理,本例中通过对表格信息进行整体增强或者做低通滤波处理,增强表格结构部分,提高表格结构信息部分的识别准确度,以保证后续精确定位识别文字信息。
根据上述实施例,优选地,所述候选线为两条,由于识别出的表格图像中的所有横线有可能存在表格外部的横线,选择中间两条横线为候选线,可以避免选取的候选线不是表格内的线。
根据上述实施例,优选地,步骤c还包括:在所述左右边界分别纵向延长至上下顶点之后,对图像进行矫正处理,找到四个顶角点后,用warpPerspective对于有倾斜、有透视角度的图像进行矫正,以便后续连线操作。
根据上述实施例,优选地,步骤e具体包括:根据表格结构特征对表格单元格进行ID标记;提取需要识别的表格对应标记的原图中局部图像;识别提取局部图像内的文字信息。图像内表格中所有的线段连接完毕后,表格本身结构信息即可以还原为计算机可以识别的信息,将表格中每个单元格从上到下、从左到右依次进行标记Image(m,n),左上角小图Image(0,0),右下角Image(m-1,n-1),并取出所有表格标记的单元格内部图像,通过Ocr(Image(m,n))提取文字信息并存储。
根据上述实施例,优选地,步骤e还包括:在所述识别提取局部图像内的文字信息之前,进行局部图像增强处理,可以有目的地强调图像的局部特性,将原来不清晰的图像变得清晰,加强图像判读和识别效果,进而提高表格内文字信息的识别准确率,本例中图像增强处理可以通过低通滤波法或高通滤波法进行实现,采用低通滤波法可去掉图中的噪声,采用高通滤波法则可增强边缘等高频信号,使模糊的图片变得清晰。
同时,本发明还公开了一种基于表格识别的表格文字信息提取的系统,其特征在于,包括:提取单元,用于利用图像算法框架载入表格图像;筛选单元,用于识别定位出表格图像中的所有横线,确定中间位置的横线为候选线;第一连线单元,用于将候选线两端延长至左右边界,左右边界分别纵向延长至上下顶点;第二连线单元,用于根据预设的相邻像素值,左右边界分别沿横向与相邻像素值内的节点进行连接,连接过程中,同时寻找纵向在相邻像素值内的节点进行连接;识别单元,用于对于表格中每个单元格内的信息分别进行提取识别。
根据上述实施例,优选地,所述提取单元还包括:预处理模块,用于在所述利用图像算法框架载入表格图像之后,对表格信息进行预处理。
根据上述实施例,优选地,所述第一连线单元还包括:矫正模块,用于在所述左右边界分别纵向延长至上下顶点之后,对图像进行矫正处理。
根据上述实施例,优选地,所述识别单元具体包括:标记模块,用于根据表格结构特征对表格单元格进行ID标记;提取模块,用于提取需要识别的表格对应标记的原图中局部图像;分析模块,用于识别提取局部图像内的文字信息。
根据上述实施例,优选地,所述识别单元还包括:图像增强模块,用于在所述识别提取局部图像内的文字信息之前,进行局部图像增强处理。
本发明采取针对表格本身结构识别,进而尽可能的还原表格本身结构化的特征,再对每个表格内容进行独立识别再做个性化处理,使其完成针对性的提取表格内的文字信息,进而提高识别准确率。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于表格识别的表格文字信息提取的方法,其特征在于,包括如下步骤:
a.利用图像算法框架载入表格图像;
b.识别定位出表格图像中的所有横线,确定中间位置的横线为候选线;
c.将候选线两端延长至左右边界,左右边界分别纵向延长至上下顶点;
d.根据预设的相邻像素值,左右边界分别沿横向与相邻像素值内的节点进行连接,连接过程中,同时寻找纵向在相邻像素值内的节点进行连接;
e.对于表格中每个单元格内的信息分别进行提取识别。
2.根据权利要求1所述一种基于表格识别的表格文字信息提取的方法,其特征在于,步骤a还包括:在所述利用图像算法框架载入表格图像之后,对表格信息进行预处理。
3.根据权利要求2所述一种基于表格识别的表格文字信息提取的方法,其特征在于,步骤c还包括:在所述左右边界分别纵向延长至上下顶点之后,对图像进行矫正处理。
4.根据权利要求3所述一种基于表格识别的表格文字信息提取的方法,其特征在于,步骤e具体包括:根据表格结构特征对表格单元格进行ID标记;提取需要识别的表格对应标记的原图中局部图像;识别提取局部图像内的文字信息。
5.根据权利要求4所述一种基于表格识别的表格文字信息提取的方法,其特征在于,步骤e还包括:在所述识别提取局部图像内的文字信息之前,进行局部图像增强处理。
6.一种基于表格识别的表格文字信息提取的系统,其特征在于,包括:
提取单元,用于利用图像算法框架载入表格图像;
筛选单元,用于识别定位出表格图像中的所有横线,确定中间位置的横线为候选线;
第一连线单元,用于将候选线两端延长至左右边界,左右边界分别纵向延长至上下顶点;
第二连线单元,用于根据预设的相邻像素值,左右边界分别沿横向与相邻像素值内的节点进行连接,连接过程中,同时寻找纵向在相邻像素值内的节点进行连接;
识别单元,用于对于表格中每个单元格内的信息分别进行提取识别。
7.根据权利要求6所述一种基于表格识别的表格文字信息提取的系统,其特征在于,所述提取单元还包括:预处理模块,用于在所述利用图像算法框架载入表格图像之后,对表格信息进行预处理。
8.根据权利要求7所述一种基于表格识别的表格文字信息提取的系统,其特征在于,所述第一连线单元还包括:矫正模块,用于在所述左右边界分别纵向延长至上下顶点之后,对图像进行矫正处理。
9.根据权利要求8所述一种基于表格识别的表格文字信息提取的系统,其特征在于,所述识别单元具体包括:标记模块,用于根据表格结构特征对表格单元格进行ID标记;提取模块,用于提取需要识别的表格对应标记的原图中局部图像;分析模块,用于识别提取局部图像内的文字信息。
10.根据权利要求9所述一种基于表格识别的表格文字信息提取的系统,其特征在于,所述识别单元还包括:图像增强模块,用于在所述识别提取局部图像内的文字信息之前,进行局部图像增强处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910182866.1A CN109934160B (zh) | 2019-03-12 | 2019-03-12 | 基于表格识别的表格文字信息提取的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910182866.1A CN109934160B (zh) | 2019-03-12 | 2019-03-12 | 基于表格识别的表格文字信息提取的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109934160A true CN109934160A (zh) | 2019-06-25 |
CN109934160B CN109934160B (zh) | 2023-06-02 |
Family
ID=66986859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910182866.1A Active CN109934160B (zh) | 2019-03-12 | 2019-03-12 | 基于表格识别的表格文字信息提取的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109934160B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126160A (zh) * | 2019-11-28 | 2020-05-08 | 天津瑟威兰斯科技有限公司 | 基于五笔输入法构建的智能汉字结构评价方法及系统 |
CN112215192A (zh) * | 2020-10-22 | 2021-01-12 | 常州大学 | 一种基于机器视觉技术的快速录入试卷成绩的试卷及方法 |
CN115471188A (zh) * | 2022-09-05 | 2022-12-13 | 漱玉平民大药房连锁股份有限公司 | 一种参会人员服务券供给需求的识别方法及设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07200834A (ja) * | 1993-12-28 | 1995-08-04 | Nec Corp | 図形認識装置 |
JPH1153466A (ja) * | 1997-07-31 | 1999-02-26 | Hitachi Ltd | 表認識方法 |
CN1534539A (zh) * | 1996-12-27 | 2004-10-06 | ��ʿͨ��ʽ���� | 表格形式识别设备与方法 |
CN103577817A (zh) * | 2012-07-24 | 2014-02-12 | 阿里巴巴集团控股有限公司 | 表单识别方法与装置 |
CN105589841A (zh) * | 2016-01-15 | 2016-05-18 | 同方知网(北京)技术有限公司 | 一种pdf文档表格识别的方法 |
CN106156761A (zh) * | 2016-08-10 | 2016-11-23 | 北京交通大学 | 面向移动终端拍摄的图像表格检测与识别方法 |
CN106293185A (zh) * | 2015-06-05 | 2017-01-04 | 夏普株式会社 | 手写表识别方法和设备 |
US20170308746A1 (en) * | 2016-04-25 | 2017-10-26 | Fujitsu Limited | Form recognition method, form recognition device, and non-transitory computer-readable medium |
-
2019
- 2019-03-12 CN CN201910182866.1A patent/CN109934160B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07200834A (ja) * | 1993-12-28 | 1995-08-04 | Nec Corp | 図形認識装置 |
CN1534539A (zh) * | 1996-12-27 | 2004-10-06 | ��ʿͨ��ʽ���� | 表格形式识别设备与方法 |
JPH1153466A (ja) * | 1997-07-31 | 1999-02-26 | Hitachi Ltd | 表認識方法 |
CN103577817A (zh) * | 2012-07-24 | 2014-02-12 | 阿里巴巴集团控股有限公司 | 表单识别方法与装置 |
CN106293185A (zh) * | 2015-06-05 | 2017-01-04 | 夏普株式会社 | 手写表识别方法和设备 |
CN105589841A (zh) * | 2016-01-15 | 2016-05-18 | 同方知网(北京)技术有限公司 | 一种pdf文档表格识别的方法 |
US20170308746A1 (en) * | 2016-04-25 | 2017-10-26 | Fujitsu Limited | Form recognition method, form recognition device, and non-transitory computer-readable medium |
CN106156761A (zh) * | 2016-08-10 | 2016-11-23 | 北京交通大学 | 面向移动终端拍摄的图像表格检测与识别方法 |
Non-Patent Citations (16)
Title |
---|
HIROMICHI FUJISAWA等: "Segmentation methods for character recognition: from segmentation to document structure analysis", 《PROCEEDINGS OF THE IEEE 》 * |
HIROMICHI FUJISAWA等: "Segmentation methods for character recognition: from segmentation to document structure analysis", 《PROCEEDINGS OF THE IEEE 》, vol. 80, no. 7, 31 July 1992 (1992-07-31), pages 1079 - 1092, XP055124929, DOI: 10.1109/5.156471 * |
HIROSHI KAWASAKI等: "Dynamic scene shape reconstruction using a single structured light pattern", 《2008 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
HIROSHI KAWASAKI等: "Dynamic scene shape reconstruction using a single structured light pattern", 《2008 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, 5 August 2008 (2008-08-05), pages 1 - 8 * |
HUNG-PIN CHIU: "A feature-preserved thinning algorithm for handwritten Chinese characters", 《 PROCEEDINGS OF 13TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION》 * |
HUNG-PIN CHIU: "A feature-preserved thinning algorithm for handwritten Chinese characters", 《 PROCEEDINGS OF 13TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION》, 6 August 2002 (2002-08-06), pages 235 - 239 * |
SYED SAQIB BUKHARI等: "Coupled Snakelet Model for Curled Textline Segmentation of Camera-Captured Document Images", 《2009 10TH INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITIO》 * |
SYED SAQIB BUKHARI等: "Coupled Snakelet Model for Curled Textline Segmentation of Camera-Captured Document Images", 《2009 10TH INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITIO》, 2 October 2009 (2009-10-02), pages 61 - 65 * |
刘长松等: "一种表格框线检测和字线分离算法", 《电子与信息学报》 * |
刘长松等: "一种表格框线检测和字线分离算法", 《电子与信息学报》, no. 9, 15 September 2002 (2002-09-15), pages 1190 - 1196 * |
夏禾等: "手持终端自动阅卷的表格数据定位算法的研究", 《微型机与应用》 * |
夏禾等: "手持终端自动阅卷的表格数据定位算法的研究", 《微型机与应用》, vol. 33, no. 6, 15 March 2014 (2014-03-15), pages 33 - 36 * |
李星原等: "一种鲁棒性的结构未知表格分析方法", 《软件学报》 * |
李星原等: "一种鲁棒性的结构未知表格分析方法", 《软件学报》, no. 11, 5 November 1999 (1999-11-05), pages 1216 - 1224 * |
郑秀清等: "一种改进的自动表格框线检测方法", 《中国民航飞行学院学报》 * |
郑秀清等: "一种改进的自动表格框线检测方法", 《中国民航飞行学院学报》, no. 4, 30 August 2004 (2004-08-30), pages 30 - 32 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126160A (zh) * | 2019-11-28 | 2020-05-08 | 天津瑟威兰斯科技有限公司 | 基于五笔输入法构建的智能汉字结构评价方法及系统 |
CN111126160B (zh) * | 2019-11-28 | 2023-04-07 | 天津瑟威兰斯科技有限公司 | 基于五笔输入法构建的智能汉字结构评价方法及系统 |
CN112215192A (zh) * | 2020-10-22 | 2021-01-12 | 常州大学 | 一种基于机器视觉技术的快速录入试卷成绩的试卷及方法 |
CN112215192B (zh) * | 2020-10-22 | 2024-01-23 | 常州大学 | 一种基于机器视觉技术的快速录入试卷成绩的方法 |
CN115471188A (zh) * | 2022-09-05 | 2022-12-13 | 漱玉平民大药房连锁股份有限公司 | 一种参会人员服务券供给需求的识别方法及设备 |
CN115471188B (zh) * | 2022-09-05 | 2023-06-30 | 漱玉平民大药房连锁股份有限公司 | 一种参会人员服务券供给需求的识别方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109934160B (zh) | 2023-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210256253A1 (en) | Method and apparatus of image-to-document conversion based on ocr, device, and readable storage medium | |
CN108537146B (zh) | 一种印刷体与手写体混合文本行提取系统 | |
CN101908136B (zh) | 一种表格识别处理方法及系统 | |
CN109934160A (zh) | 基于表格识别的表格文字信息提取的方法及系统 | |
EP0854434B1 (en) | Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof | |
CN104751142B (zh) | 一种基于笔划特征的自然场景文本检测方法 | |
US5907631A (en) | Document image processing method and system having function of determining body text region reading order | |
CN106503711A (zh) | 一种文字识别方法 | |
CN101833648A (zh) | 文本图像的校正方法 | |
CN108830269B (zh) | 确定满文单词中轴线宽度的方法 | |
CN114419647B (zh) | 一种表格信息提取方法及系统 | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN107633055B (zh) | 一种将图片转成html文档的方法 | |
WO2023045277A1 (zh) | 一种将图像中表格转换为电子表格的方法及装置 | |
CN112329641B (zh) | 一种表格识别方法、装置、设备及可读存储介质 | |
CN113901933B (zh) | 基于人工智能的电子发票信息抽取方法、装置及设备 | |
CN107766854A (zh) | 一种基于模板匹配实现快速页码识别的方法 | |
CN116071763A (zh) | 基于文字识别的教辅图书智能校编系统 | |
CN114821612B (zh) | 一种证券期货场景下pdf文档的信息抽取方法和系统 | |
CN107977648B (zh) | 一种基于人脸识别的身份证清晰度的判别方法和系统 | |
CN113139535A (zh) | 一种ocr文档识别方法 | |
Mullick et al. | An efficient line segmentation approach for handwritten Bangla document image | |
CN110516674B (zh) | 一种文本图像的手写汉字分割方法及系统 | |
CN112036294A (zh) | 一种纸质表格结构自动识别的方法及装置 | |
CN115588202A (zh) | 一种基于轮廓检测的电气设计图纸中文字提取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |