CN110188649B - 基于tesseract-ocr的pdf文件解析方法 - Google Patents

基于tesseract-ocr的pdf文件解析方法 Download PDF

Info

Publication number
CN110188649B
CN110188649B CN201910436587.3A CN201910436587A CN110188649B CN 110188649 B CN110188649 B CN 110188649B CN 201910436587 A CN201910436587 A CN 201910436587A CN 110188649 B CN110188649 B CN 110188649B
Authority
CN
China
Prior art keywords
text
line
ocr
cell
tesseract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910436587.3A
Other languages
English (en)
Other versions
CN110188649A (zh
Inventor
金霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Firestone Creation Technology Co ltd
Original Assignee
Chengdu Firestone Creation Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Firestone Creation Technology Co ltd filed Critical Chengdu Firestone Creation Technology Co ltd
Priority to CN201910436587.3A priority Critical patent/CN110188649B/zh
Publication of CN110188649A publication Critical patent/CN110188649A/zh
Application granted granted Critical
Publication of CN110188649B publication Critical patent/CN110188649B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种基于tesseract‑ocr的pdf文件解析方法,该方法用fitz工具包把pdf文件转换为图片序列;针对图片序列的每一个图片,用TableBank工具得到表格的多个区域位置;利用tesseract‑ocr进行图片中的图提取、表格单元格的提取和识别:本发明在tesseract‑ocr基础上,通过结合TableBank的表格检测和表格结构识别模型,得到了表格各单元格中的内容;匹配docx解析结果,解决了ocr识别错误的问题;对tesseract‑ocr的ocr模型进行替换,提升了识别的准确率和速度。本发明具有表格结构识别的功能、ocr错误纠正的功能,优化了模型的准确率和速度,纠正了多栏排版下的段落顺序混乱问题,以及部分段落或表格丢失的问题。

Description

基于tesseract-ocr的pdf文件解析方法
技术领域
本发明属于文件识别领域,尤其涉及一种基于tesseract-ocr的pdf文件解析方法。
背景技术
在大数据和人工智能的应用场景下,要对大量的信息进行搜集、处理、分析,对数据进行结构化,发现数据中的规律来指导生产。然而信息的存在方式是多样的、非结构化的,存在于各种网页、文本、各种格式的文件、图像、声音媒体中,pdf就是其中的一种存储文件类型,要抽取pdf文件的内容,首先要对它进行解析,得到其中的文本段落结构、表格的结构、图,才能进一步获取结构化的信息。
pdf的内容形式多样,且文件质量参差不齐,用目前的开源解析工具(xpdf、pdfminer、pypdf2等)不能很好地进行解析,存在各种问题,如:不能区分图、表和文本段落;不能准确提取表格中的内容(表格有几行几列、第几行第几列单元格是什么内容);对于有多栏排版的pdf,文字段落有时会出现混乱。如果不能有效的解决这些问题,pdf文件的抽取只能依赖人工,在对大量pdf抽取的应用场景中会增加大量的成本,且效率低下。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于tesseract-ocr的pdf文件解析方法。
本发明的目的是通过以下技术方案来实现的:一种基于tesseract-ocr的pdf文件解析方法,该方法包括以下步骤:
(1)用fitz工具包把pdf文件转换为图片序列;
(2)针对图片序列的每一个图片,用TableBank工具得到表格的多个区域位置TableArea[1,…n],n为该图片中的表格总数;
(3)利用tesseract-ocr进行图片中的图提取、表格单元格的提取和识别:
(3.1)形态学预处理和连通域分析:得到线条、图像区域和文字块blob;
(3.2)文本行结束位置(tab-stop)检测:得到每一行文本的开始和结束位置;
(3.3)发现列排版(column layout):得到文本的顺序;
(3.4)得到各个块block,块block有多种类型,包括文本块、图像块、表格块,每个块有多个文本行;
(3.5)表格的处理:用步骤2得到的表格区域TableArea代替步骤3.4中的表格块;利用在TableArea[i]区域中的线条,把在TableArea[i]中的文本行分隔到各个单元格中,完成表格单元格的识别;
(3.6)对各个文本块的每一行、表格每个单元格中的文本行,用lstm模型进行识别,得到每个词的位置和内容,此时表格中的文本带有所在的表格index、所在的单元格行列index。
进一步地,所述步骤(3.5)具体包括以下子步骤:
(3.5.1)修正TableArea[i]区域:用TableArea[i]区域附近的横竖线条对区域进行修正,寻找TableArea[i]区域上下左右四面的线条,如果有一面在阈值距离内存在线条,则把TableArea[i]这一面的位置移动到该线条的位置;
(3.5.2)有线条表格的分隔:如果有一个文本行的位置包含在第i、i+1个横线中间,第j、j+1个竖线中间,那么它将被放置到第i行、第j列的单元格,每个单元格作为一个块block,block包含了单元格中的文本行、所在的表格index、所在的单元格行列index;
(3.5.3)没有线条表格的分隔:将修正后的区域输入到TableBank表格结构识别模型,得到表格的行列结构,以行列结构为指导,得到表格中各文本行分隔间距的阈值,把文本行分隔到各单元格。
进一步地,所述步骤(3.5.3)中,把表格中的文字按照tessrect-ocr中的方法组织成行,即以tab-stop开始和结束的文本行,如果TableBank表格结构识别模型识别到表格有3行4列,则要寻找分割表格的最佳分割线的位置Xj,j∈{1,2}和Yi,i∈{1,2,3},表格边缘的单元格用表格的区域构成矩形框的一边;最佳分割线的寻找通过定义最优化问题来得到:对Xj和Yi每一具体的赋值,得到由此切割后的相邻单元之间的x、y轴上的距离之和Z,计算使得Z最大的Xj,Yi值;用距离变换来计算该最优化问题;得到表格分割线位置后,把文本行放到对应的由分割线构成的单元格中。
进一步地,该方法还包括文本内容的纠错步骤,具体如下:如果pdf带有PDF/A标记,用python-docx得到结果A,则匹配python-docx得到的结果,纠正ocr识别的字符、表格结果B中的错误;如果pdf不带有PDF/A标记,则不纠错。
进一步地,文本内容的纠错步骤中,匹配时以整行文本为单位,用Levenshtein工具顺序匹配;对A、B结果中的文本段落和表格内容分别匹配,对A、B文本段落的每一行如果匹配值达到阈值,则认为找到了对应的两行,用A的结果替换B的结果,并把替换了的字符交给人工确认;对A、B各个页面中的每个表格,通过比较行列个数找到最接近的表格,对两个对应的表格进一步比较单元格内容,对每个单元格中的文字计算Levenshtein相似度,如果达到阈值则认为找到了对应的单元格,并用A中单元格内容替换B中单元格内容,把替换了的字符交给人工确认;如果发现有单元格没有找到对应的单元格,交给人工确认;在匹配过程中,如果由于docx结果的多栏顺序混乱问题造成不匹配,则跳过混乱区域,把这一区域的文本交给人工核对,发现ocr识别中的问题。
进一步地,该方法还包括lstm模型的提升的步骤,具体为:对Tesseract-ocr中的字符集自动生成更多的样本,并训练GPU版本的lstm模型(lstm+ctc),替换原有lstm模型,提升识别准确率和速度。
本发明的有益效果是:tesseract-ocr中将表格当作一个block,没有对表格中的单元格内容进行识别,没有以表格单元格为单位,识别表格中的内容,这样造成了后续的信息抽取过程中的困难。本发明在tesseract-ocr基础上,通过结合TableBank的表格检测和表格结构识别模型,得到了表格各单元格中的内容;匹配docx解析结果,解决了ocr识别错误的问题;对tesseract-ocr的ocr模型进行替换,提升了识别的准确率和速度。与tesseract-ocr相比,增加了表格结构识别的功能,增加了ocr错误纠正的功能,优化了模型的准确率和速度;与docx相比,增加了页面中图像的检测功能,纠正了多栏排版下的段落顺序混乱问题,纠正了部分段落或表格丢失的问题。
附图说明
图1是本发明方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所述实施例是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的其他实施例,都属于本发明的保护范围。
如图1所示,本发明提出的一种基于tesseract-ocr的pdf文件解析方法,该方法包括以下步骤:
(1)用fitz工具包(python)把pdf文件转换为图片序列;
例如100页的pdf,转换成100张图片;
(2)针对图片序列的每一个图片,用TableBank工具得到表格的多个区域位置TableArea[1,…n],n为该图片中的表格总数;
(3)利用tesseract-ocr进行图片中的图提取、表格单元格的提取和识别:
(3.1)形态学预处理和连通域分析:得到线条、图像区域和文字块blob;
(3.2)文本行结束位置(tab-stop)检测:得到每一行文本的开始和结束位置;
(3.3)发现列排版(column layout):得到文本的顺序;
(3.4)得到各个块block,块block有多种类型,包括文本块、图像块、表格块,每个块有多个文本行;
(3.5)表格的处理:用步骤2得到的表格区域TableArea代替步骤3.4中的表格块;利用在TableArea[i]区域中的线条,把在TableArea[i]中的文本行分隔到各个单元格中,完成表格单元格的识别,具体如下:
(3.5.1)修正TableArea[i]区域:用TableArea[i]区域附近的横竖线条对区域进行修正,寻找TableArea[i]区域上下左右四面的线条,如果有一面在阈值距离内存在线条,则把TableArea[i]这一面的位置移动到该线条的位置;
(3.5.2)有线条表格的分隔:如果有一个文本行的位置包含在第i、i+1个横线中间,第j、j+1个竖线中间,那么它将被放置到第i行、第j列的单元格,每个单元格作为一个块block,block包含了单元格中的文本行、所在的表格index、所在的单元格行列index;
(3.5.3)没有线条表格的分隔:将修正后的区域输入到TableBank表格结构识别模型,得到表格的行列结构,以行列结构为指导,得到表格中各文本行分隔间距的阈值,把文本行分隔到各单元格;一般表格都会有明显的分隔间距;
具体的,把表格中的文字按照tessrect-ocr中的方法组织成行,即以tab-stop开始和结束的文本行,如果TableBank表格结构识别模型识别到表格有3行4列,则要寻找分割表格的最佳分割线的位置Xj,j∈{1,2}和Yi,i∈{1,2,3},如X11,X12,Y11,Y12构成了表格第2行第2列的单元格的矩形框,表格边缘的单元格用表格的区域构成矩形框的一边;最佳分割线的寻找通过定义最优化问题来得到:对Xj和Yi每一具体的赋值,得到由此切割后的相邻单元之间的x、y轴上的距离之和Z,计算使得Z最大的Xj,Yi值;用距离变换来计算该最优化问题;
得到表格分割线位置后,把文本行放到对应的由分割线构成的单元格中;
(3.6)对各个文本块的每一行、表格每个单元格中的文本行,用lstm模型进行识别,得到每个词的位置和内容,此时表格中的文本带有所在的表格index、所在的单元格行列index;
(3.7)经过以上步骤,得到了pdf文件每个页面中的文字段落(3.6)、表格单元格结构和内容(3.6)、图像(3.4),完成pdf文件的解析。
在以上基本方案的基础上,可进行如下操作:
1、文本内容的纠错:如果pdf带有PDF/A标记,用python-docx得到结果A,则匹配python-docx得到的结果,纠正ocr识别的字符、表格结果B中的错误;
匹配时以整行文本为单位,用Levenshtein工具顺序匹配。对A、B结果中的文本段落和表格内容分别匹配,对A、B文本段落的每一行如果匹配值达到阈值(0.8),则认为找到了对应的两行,用A的结果替换B的结果,并把替换了的字符交给人工确认。对A、B各个页面中的每个表格,通过比较行列个数找到最接近的表格,对两个对应的表格进一步比较单元格内容,对每个单元格中的文字计算Levenshtein相似度,如果达到阈值(0.8)则认为找到了对应的单元格,并用A中单元格内容替换B中单元格内容,把替换了的字符交给人工确认。如果发现有单元格没有找到对应的单元格,交给人工确认。
在匹配过程中,如果由于docx结果的多栏顺序混乱问题造成不匹配,则跳过混乱区域,把这一区域的文本交给人工核对,发现ocr识别中的问题。如果pdf不带有PDF/A标记,则不纠错。
2、lstm模型的提升:Tesseract-ocr中的ocr字符识别模型是lstm,训练样本少,且没有利用GPU,造成检测速度很慢,对Tesseract-ocr中的字符集自动生成更多的样本,并训练GPU版本的lstm模型(lstm+ctc),替换原有lstm模型,提升识别准确率和速度。
本发明提供了一种对pdf文件自动解析的方法,得到pdf中的文本段落层级结构、表格的结构、图。本发明在tesseract-ocr的基础上进行修改,实现pdf中的图片定位、表格定位、表格单元格内文本识别,并结合其他多个pdf抽取工具,相互补充:利用docx工具可以得到文字段落和表格内容,但是没有图片、且会有多栏段落顺序混乱的问题;利用开源的表格位置检测模型和数据集TableBank(https://github.com/doc-analysis/TableBank)得到表格的位置,由于表格样式多变,用大量样本训练深度模型是一种有效的手段。本发明把流程中置信度低的部分交给人工处理,阈值是可配置的。本发明提升了识别的准确率和速度。
本技术领域的人员根据本发明所提供的文字描述、附图以及权利要求书能够很容易在不脱离权利要求书所限定的本发明的思想和范围条件下,可以做出多种变化和改动。凡是依据本发明的技术思想和实质对上述实施例进行的任何修改、等同变化,均属于本发明的权利要求所限定的保护范围之内。

Claims (5)

1.一种基于tesseract-ocr的pdf文件解析方法,其特征在于,该方法包括以下步骤:
(1)用fitz工具包把pdf文件转换为图片序列;
(2)针对图片序列的每一个图片,用TableBank工具得到表格的多个区域位置TableArea[1,…n],n为该图片中的表格总数;
(3)利用tesseract-ocr进行图片中的图提取、表格单元格的提取和识别:
(3.1)形态学预处理和连通域分析:得到线条、图像区域和文字块blob;
(3.2)文本行结束位置tab-stop检测:得到每一行文本的开始和结束位置;
(3.3)发现列排版column layout:得到文本的顺序;
(3.4)得到各个块block,块block有多种类型,包括文本块、图像块、表格块,每个块有多个文本行;
(3.5)表格的处理:用步骤2得到的表格区域TableArea代替步骤3.4中的表格块;利用在TableArea[i]区域中的线条,把在TableArea[i]中的文本行分隔到各个单元格中,完成表格单元格的识别;包括以下子步骤:
(3.5.1)修正TableArea[i]区域:用TableArea[i]区域附近的横竖线条对区域进行修正,寻找TableArea[i]区域上下左右四面的线条,如果有一面在阈值距离内存在线条,则把TableArea[i]这一面的位置移动到该线条的位置;
(3.5.2)有线条表格的分隔:如果有一个文本行的位置包含在第i、i+1个横线中间,第j、j+1个竖线中间,那么它将被放置到第i行、第j列的单元格,每个单元格作为一个块block,block包含了单元格中的文本行、所在的表格index、所在的单元格行列index;
(3.5.3)没有线条表格的分隔:将修正后的区域输入到TableBank表格结构识别模型,得到表格的行列结构,以行列结构为指导,得到表格中各文本行分隔间距的阈值,把文本行分隔到各单元格;
(3.6)对各个文本块的每一行、表格每个单元格中的文本行,用lstm模型进行识别,得到每个词的位置和内容,此时表格中的文本带有所在的表格index、所在的单元格行列index。
2.根据权利要求1所述的一种基于tesseract-ocr的pdf文件解析方法,其特征在于,所述步骤(3.5.3)中,把表格中的文字按照tessrect-ocr中的方法组织成行,即以tab-stop开始和结束的文本行,如果TableBank表格结构识别模型识别到表格有3行4列,则要寻找分割表格的最佳分割线的Xj,j∈{1,2}和Yi,i∈{1,2,3},表格边缘的单元格用表格的区域构成矩形框的一边;最佳分割线的寻找通过定义最优化问题来得到:对Xj和Yi每一具体的赋值,得到由此切割后的相邻单元之间的x、y轴上的距离之和Z,计算使得Z最大的Xj,Yi值;用距离变换来计算该最优化问题;得到表格分割线位置后,把文本行放到对应的由分割线构成的单元格中。
3.根据权利要求1所述的一种基于tesseract-ocr的pdf文件解析方法,其特征在于,该方法还包括文本内容的纠错步骤,具体如下:如果pdf带有PDF/A标记,用python-docx得到结果A,则匹配python-docx得到的结果,纠正ocr识别的字符、表格结果B中的错误;如果pdf不带有PDF/A标记,则不纠错。
4.根据权利要求3所述的一种基于tesseract-ocr的pdf文件解析方法,其特征在于,文本内容的纠错步骤中,匹配时以整行文本为单位,用Levenshtein工具顺序匹配;对A、B结果中的文本段落和表格内容分别匹配,对A、B文本段落的每一行如果匹配值达到阈值,则认为找到了对应的两行,用A的结果替换B的结果,并把替换了的字符交给人工确认;对A、B各个页面中的每个表格,通过比较行列个数找到最接近的表格,对两个对应的表格进一步比较单元格内容,对每个单元格中的文字计算Levenshtein相似度,如果达到阈值则认为找到了对应的单元格,并用A中单元格内容替换B中单元格内容,把替换了的字符交给人工确认;如果发现有单元格没有找到对应的单元格,交给人工确认;在匹配过程中,如果由于docx结果的多栏顺序混乱问题造成不匹配,则跳过混乱区域,把这一区域的文本交给人工核对,发现ocr识别中的问题。
5.根据权利要求1所述的一种基于tesseract-ocr的pdf文件解析方法,其特征在于,该方法还包括lstm模型的提升的步骤,具体为:对Tesseract-ocr中的字符集自动生成更多的样本,并训练GPU版本的lstm模型lstm+ctc,替换原有lstm模型,提升识别准确率和速度。
CN201910436587.3A 2019-05-23 2019-05-23 基于tesseract-ocr的pdf文件解析方法 Active CN110188649B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910436587.3A CN110188649B (zh) 2019-05-23 2019-05-23 基于tesseract-ocr的pdf文件解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910436587.3A CN110188649B (zh) 2019-05-23 2019-05-23 基于tesseract-ocr的pdf文件解析方法

Publications (2)

Publication Number Publication Date
CN110188649A CN110188649A (zh) 2019-08-30
CN110188649B true CN110188649B (zh) 2021-11-23

Family

ID=67717498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910436587.3A Active CN110188649B (zh) 2019-05-23 2019-05-23 基于tesseract-ocr的pdf文件解析方法

Country Status (1)

Country Link
CN (1) CN110188649B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259873B (zh) * 2020-04-26 2021-02-26 江苏联著实业股份有限公司 一种表格数据提取方法及装置
CN113194023B (zh) * 2020-11-02 2023-06-20 常熟理工学院 丢失证件找回系统及其控制方法
CN112241730A (zh) * 2020-11-21 2021-01-19 杭州投知信息技术有限公司 一种基于机器学习的表格提取方法和系统
CN112528813B (zh) * 2020-12-03 2021-07-23 上海云从企业发展有限公司 表格识别方法、装置以及计算机可读存储介质
CN112651331B (zh) * 2020-12-24 2024-04-16 万兴科技集团股份有限公司 文本表格提取方法、系统、计算机设备及存储介质
CN112686319A (zh) * 2020-12-31 2021-04-20 南京太司德智能电气有限公司 一种电力信号模型训练文件的合并方法
CN114463766B (zh) * 2021-07-16 2023-05-12 荣耀终端有限公司 一种表格的处理方法及电子设备
CN113435449B (zh) * 2021-08-03 2023-08-22 全知科技(杭州)有限责任公司 基于深度学习的ocr图像文字识别与段落输出方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491730A (zh) * 2017-07-14 2017-12-19 浙江大学 一种基于图像处理的化验单识别方法
CN107622230A (zh) * 2017-08-30 2018-01-23 中国科学院软件研究所 一种基于区域识别与分割的pdf表格数据解析方法
CN108446264A (zh) * 2018-03-26 2018-08-24 阿博茨德(北京)科技有限公司 Pdf文档中的表格矢量解析方法及装置
WO2018175686A1 (en) * 2017-03-22 2018-09-27 Drilling Info, Inc. Extracting data from electronic documents
CN109409362A (zh) * 2018-10-11 2019-03-01 杭州安恒信息技术股份有限公司 基于tesseract引擎的图片敏感词检测和定位方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018175686A1 (en) * 2017-03-22 2018-09-27 Drilling Info, Inc. Extracting data from electronic documents
CN107491730A (zh) * 2017-07-14 2017-12-19 浙江大学 一种基于图像处理的化验单识别方法
CN107622230A (zh) * 2017-08-30 2018-01-23 中国科学院软件研究所 一种基于区域识别与分割的pdf表格数据解析方法
CN108446264A (zh) * 2018-03-26 2018-08-24 阿博茨德(北京)科技有限公司 Pdf文档中的表格矢量解析方法及装置
CN109409362A (zh) * 2018-10-11 2019-03-01 杭州安恒信息技术股份有限公司 基于tesseract引擎的图片敏感词检测和定位方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Optical Character Recognition by Open source OCR Tool Tesseract: A Case Study;Chirag Indravadanbhai Patel等;《International Journal of Computer Applications》;20121031;50-56 *
TableBank: Table Benchmark for Image-based Table Detection and Recognition;Minghao Li等;《arXiv:1903.01949v1》;20190305;1-8 *
基于Python实现对PDF文件的OCR识别;daisy;《脚本之家》;20160805;1-5 *
基于Tesseract-ocr的藏文脱机识别;翟娟秀等;《科技创业月刊》;20161110(第21期);136-137 *

Also Published As

Publication number Publication date
CN110188649A (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
CN110188649B (zh) 基于tesseract-ocr的pdf文件解析方法
US10592184B2 (en) Method and device for parsing tables in PDF document
CN110516208B (zh) 一种针对pdf文档表格提取的系统及方法
Sanchez et al. ICDAR2017 competition on handwritten text recognition on the READ dataset
Kleber et al. Cvl-database: An off-line database for writer retrieval, writer identification and word spotting
CN113158808B (zh) 中文古籍字符识别、组段与版面重建方法、介质和设备
CN112052852B (zh) 一种基于深度学习的手写气象档案资料的字符识别方法
Hussain et al. Nastalique segmentation-based approach for Urdu OCR
CN113221711A (zh) 一种信息提取方法及装置
CN112434496B (zh) 一种公告文档表格数据识别方法及终端
Van Phan et al. A nom historical document recognition system for digital archiving
CN110543844A (zh) 一种政务元数据pdf文件的元数据抽取方法
CN110909123A (zh) 一种数据提取方法、装置、终端设备及存储介质
CN116824608A (zh) 基于目标检测技术的答题卡版面分析方法
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
CN110532569B (zh) 一种基于中文分词的数据碰撞方法及系统
Fateh et al. Enhancing optical character recognition: Efficient techniques for document layout analysis and text line detection
CN117076455A (zh) 一种基于智能识别的保单结构化存储方法、介质及系统
Singh et al. Document layout analysis for Indian newspapers using contour based symbiotic approach
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
CN115830620A (zh) 一种基于ocr的档案文本数据处理方法及系统
KR102324221B1 (ko) 이미지 문서의 비정형 레이아웃 인식 방법
CN115543915A (zh) 人事档案目录自动化建库方法及系统
CN115050025A (zh) 基于公式识别的知识点抽取方法及装置
García-Calderón et al. Unsupervised multi-language handwritten text line segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant