CN110188649B

CN110188649B - 基于tesseract-ocr的pdf文件解析方法

Info

Publication number: CN110188649B
Application number: CN201910436587.3A
Authority: CN
Inventors: 金霞
Original assignee: Chengdu Firestone Creation Technology Co ltd
Current assignee: Chengdu Firestone Creation Technology Co ltd
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2021-11-23
Anticipated expiration: 2039-05-23
Also published as: CN110188649A

Abstract

本发明公开了一种基于tesseract‑ocr的pdf文件解析方法，该方法用fitz工具包把pdf文件转换为图片序列；针对图片序列的每一个图片，用TableBank工具得到表格的多个区域位置；利用tesseract‑ocr进行图片中的图提取、表格单元格的提取和识别：本发明在tesseract‑ocr基础上，通过结合TableBank的表格检测和表格结构识别模型，得到了表格各单元格中的内容；匹配docx解析结果，解决了ocr识别错误的问题；对tesseract‑ocr的ocr模型进行替换，提升了识别的准确率和速度。本发明具有表格结构识别的功能、ocr错误纠正的功能，优化了模型的准确率和速度，纠正了多栏排版下的段落顺序混乱问题，以及部分段落或表格丢失的问题。

Description

基于tesseract-ocr的pdf文件解析方法

技术领域

本发明属于文件识别领域，尤其涉及一种基于tesseract-ocr的pdf文件解析方法。

背景技术

在大数据和人工智能的应用场景下，要对大量的信息进行搜集、处理、分析，对数据进行结构化，发现数据中的规律来指导生产。然而信息的存在方式是多样的、非结构化的，存在于各种网页、文本、各种格式的文件、图像、声音媒体中，pdf就是其中的一种存储文件类型，要抽取pdf文件的内容，首先要对它进行解析，得到其中的文本段落结构、表格的结构、图，才能进一步获取结构化的信息。

pdf的内容形式多样，且文件质量参差不齐，用目前的开源解析工具(xpdf、pdfminer、pypdf2等)不能很好地进行解析，存在各种问题，如：不能区分图、表和文本段落；不能准确提取表格中的内容(表格有几行几列、第几行第几列单元格是什么内容)；对于有多栏排版的pdf，文字段落有时会出现混乱。如果不能有效的解决这些问题，pdf文件的抽取只能依赖人工，在对大量pdf抽取的应用场景中会增加大量的成本，且效率低下。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于tesseract-ocr的pdf文件解析方法。

本发明的目的是通过以下技术方案来实现的：一种基于tesseract-ocr的pdf文件解析方法，该方法包括以下步骤：

(1)用fitz工具包把pdf文件转换为图片序列；

(2)针对图片序列的每一个图片，用TableBank工具得到表格的多个区域位置TableArea[1,…n]，n为该图片中的表格总数；

(3)利用tesseract-ocr进行图片中的图提取、表格单元格的提取和识别：

(3.1)形态学预处理和连通域分析：得到线条、图像区域和文字块blob；

(3.2)文本行结束位置(tab-stop)检测：得到每一行文本的开始和结束位置；

(3.3)发现列排版(column layout)：得到文本的顺序；

(3.4)得到各个块block，块block有多种类型，包括文本块、图像块、表格块，每个块有多个文本行；

(3.5)表格的处理：用步骤2得到的表格区域TableArea代替步骤3.4中的表格块；利用在TableArea[i]区域中的线条，把在TableArea[i]中的文本行分隔到各个单元格中，完成表格单元格的识别；

(3.6)对各个文本块的每一行、表格每个单元格中的文本行，用lstm模型进行识别，得到每个词的位置和内容，此时表格中的文本带有所在的表格index、所在的单元格行列index。

进一步地，所述步骤(3.5)具体包括以下子步骤：

(3.5.1)修正TableArea[i]区域：用TableArea[i]区域附近的横竖线条对区域进行修正，寻找TableArea[i]区域上下左右四面的线条，如果有一面在阈值距离内存在线条，则把TableArea[i]这一面的位置移动到该线条的位置；

(3.5.2)有线条表格的分隔：如果有一个文本行的位置包含在第i、i+1个横线中间，第j、j+1个竖线中间，那么它将被放置到第i行、第j列的单元格，每个单元格作为一个块block，block包含了单元格中的文本行、所在的表格index、所在的单元格行列index；

(3.5.3)没有线条表格的分隔：将修正后的区域输入到TableBank表格结构识别模型，得到表格的行列结构，以行列结构为指导，得到表格中各文本行分隔间距的阈值，把文本行分隔到各单元格。

进一步地，所述步骤(3.5.3)中，把表格中的文字按照tessrect-ocr中的方法组织成行，即以tab-stop开始和结束的文本行，如果TableBank表格结构识别模型识别到表格有3行4列，则要寻找分割表格的最佳分割线的位置X_j,j∈{1,2}和Y_i,i∈{1,2,3}，表格边缘的单元格用表格的区域构成矩形框的一边；最佳分割线的寻找通过定义最优化问题来得到：对X_j和Y_i每一具体的赋值，得到由此切割后的相邻单元之间的x、y轴上的距离之和Z，计算使得Z最大的X_j,Y_i值；用距离变换来计算该最优化问题；得到表格分割线位置后，把文本行放到对应的由分割线构成的单元格中。

进一步地，该方法还包括文本内容的纠错步骤，具体如下：如果pdf带有PDF/A标记，用python-docx得到结果A，则匹配python-docx得到的结果，纠正ocr识别的字符、表格结果B中的错误；如果pdf不带有PDF/A标记，则不纠错。

进一步地，文本内容的纠错步骤中，匹配时以整行文本为单位，用Levenshtein工具顺序匹配；对A、B结果中的文本段落和表格内容分别匹配，对A、B文本段落的每一行如果匹配值达到阈值，则认为找到了对应的两行，用A的结果替换B的结果，并把替换了的字符交给人工确认；对A、B各个页面中的每个表格，通过比较行列个数找到最接近的表格，对两个对应的表格进一步比较单元格内容，对每个单元格中的文字计算Levenshtein相似度，如果达到阈值则认为找到了对应的单元格，并用A中单元格内容替换B中单元格内容，把替换了的字符交给人工确认；如果发现有单元格没有找到对应的单元格，交给人工确认；在匹配过程中，如果由于docx结果的多栏顺序混乱问题造成不匹配，则跳过混乱区域，把这一区域的文本交给人工核对，发现ocr识别中的问题。

进一步地，该方法还包括lstm模型的提升的步骤，具体为：对Tesseract-ocr中的字符集自动生成更多的样本，并训练GPU版本的lstm模型(lstm+ctc)，替换原有lstm模型，提升识别准确率和速度。

本发明的有益效果是：tesseract-ocr中将表格当作一个block，没有对表格中的单元格内容进行识别，没有以表格单元格为单位，识别表格中的内容，这样造成了后续的信息抽取过程中的困难。本发明在tesseract-ocr基础上，通过结合TableBank的表格检测和表格结构识别模型，得到了表格各单元格中的内容；匹配docx解析结果，解决了ocr识别错误的问题；对tesseract-ocr的ocr模型进行替换，提升了识别的准确率和速度。与tesseract-ocr相比，增加了表格结构识别的功能，增加了ocr错误纠正的功能，优化了模型的准确率和速度；与docx相比，增加了页面中图像的检测功能，纠正了多栏排版下的段落顺序混乱问题，纠正了部分段落或表格丢失的问题。

附图说明

图1是本发明方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所述实施例是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的其他实施例，都属于本发明的保护范围。

如图1所示，本发明提出的一种基于tesseract-ocr的pdf文件解析方法，该方法包括以下步骤：

(1)用fitz工具包(python)把pdf文件转换为图片序列；

例如100页的pdf，转换成100张图片；

(3.3)发现列排版(column layout)：得到文本的顺序；

(3.5)表格的处理：用步骤2得到的表格区域TableArea代替步骤3.4中的表格块；利用在TableArea[i]区域中的线条，把在TableArea[i]中的文本行分隔到各个单元格中，完成表格单元格的识别，具体如下：

(3.5.3)没有线条表格的分隔：将修正后的区域输入到TableBank表格结构识别模型，得到表格的行列结构，以行列结构为指导，得到表格中各文本行分隔间距的阈值，把文本行分隔到各单元格；一般表格都会有明显的分隔间距；

具体的，把表格中的文字按照tessrect-ocr中的方法组织成行，即以tab-stop开始和结束的文本行，如果TableBank表格结构识别模型识别到表格有3行4列，则要寻找分割表格的最佳分割线的位置X_j,j∈{1,2}和Y_i,i∈{1,2,3}，如X₁₁,X₁₂,Y₁₁,Y₁₂构成了表格第2行第2列的单元格的矩形框，表格边缘的单元格用表格的区域构成矩形框的一边；最佳分割线的寻找通过定义最优化问题来得到：对X_j和Y_i每一具体的赋值，得到由此切割后的相邻单元之间的x、y轴上的距离之和Z，计算使得Z最大的X_j,Y_i值；用距离变换来计算该最优化问题；

得到表格分割线位置后，把文本行放到对应的由分割线构成的单元格中；

(3.6)对各个文本块的每一行、表格每个单元格中的文本行，用lstm模型进行识别，得到每个词的位置和内容，此时表格中的文本带有所在的表格index、所在的单元格行列index；

(3.7)经过以上步骤，得到了pdf文件每个页面中的文字段落(3.6)、表格单元格结构和内容(3.6)、图像(3.4)，完成pdf文件的解析。

在以上基本方案的基础上，可进行如下操作：

1、文本内容的纠错：如果pdf带有PDF/A标记，用python-docx得到结果A，则匹配python-docx得到的结果，纠正ocr识别的字符、表格结果B中的错误；

匹配时以整行文本为单位，用Levenshtein工具顺序匹配。对A、B结果中的文本段落和表格内容分别匹配，对A、B文本段落的每一行如果匹配值达到阈值(0.8)，则认为找到了对应的两行，用A的结果替换B的结果，并把替换了的字符交给人工确认。对A、B各个页面中的每个表格，通过比较行列个数找到最接近的表格，对两个对应的表格进一步比较单元格内容，对每个单元格中的文字计算Levenshtein相似度，如果达到阈值(0.8)则认为找到了对应的单元格，并用A中单元格内容替换B中单元格内容，把替换了的字符交给人工确认。如果发现有单元格没有找到对应的单元格，交给人工确认。

在匹配过程中，如果由于docx结果的多栏顺序混乱问题造成不匹配，则跳过混乱区域，把这一区域的文本交给人工核对，发现ocr识别中的问题。如果pdf不带有PDF/A标记，则不纠错。

2、lstm模型的提升：Tesseract-ocr中的ocr字符识别模型是lstm，训练样本少，且没有利用GPU，造成检测速度很慢，对Tesseract-ocr中的字符集自动生成更多的样本，并训练GPU版本的lstm模型(lstm+ctc)，替换原有lstm模型，提升识别准确率和速度。

本发明提供了一种对pdf文件自动解析的方法，得到pdf中的文本段落层级结构、表格的结构、图。本发明在tesseract-ocr的基础上进行修改，实现pdf中的图片定位、表格定位、表格单元格内文本识别，并结合其他多个pdf抽取工具，相互补充：利用docx工具可以得到文字段落和表格内容，但是没有图片、且会有多栏段落顺序混乱的问题；利用开源的表格位置检测模型和数据集TableBank(https://github.com/doc-analysis/TableBank)得到表格的位置，由于表格样式多变，用大量样本训练深度模型是一种有效的手段。本发明把流程中置信度低的部分交给人工处理，阈值是可配置的。本发明提升了识别的准确率和速度。

本技术领域的人员根据本发明所提供的文字描述、附图以及权利要求书能够很容易在不脱离权利要求书所限定的本发明的思想和范围条件下，可以做出多种变化和改动。凡是依据本发明的技术思想和实质对上述实施例进行的任何修改、等同变化，均属于本发明的权利要求所限定的保护范围之内。

Claims

1.一种基于tesseract-ocr的pdf文件解析方法，其特征在于，该方法包括以下步骤：

(1)用fitz工具包把pdf文件转换为图片序列；

(3.2)文本行结束位置tab-stop检测：得到每一行文本的开始和结束位置；

(3.3)发现列排版column layout：得到文本的顺序；

(3.5)表格的处理：用步骤2得到的表格区域TableArea代替步骤3.4中的表格块；利用在TableArea[i]区域中的线条，把在TableArea[i]中的文本行分隔到各个单元格中，完成表格单元格的识别；包括以下子步骤：

(3.5.3)没有线条表格的分隔：将修正后的区域输入到TableBank表格结构识别模型，得到表格的行列结构，以行列结构为指导，得到表格中各文本行分隔间距的阈值，把文本行分隔到各单元格；

2.根据权利要求1所述的一种基于tesseract-ocr的pdf文件解析方法，其特征在于，所述步骤(3.5.3)中，把表格中的文字按照tessrect-ocr中的方法组织成行，即以tab-stop开始和结束的文本行，如果TableBank表格结构识别模型识别到表格有3行4列，则要寻找分割表格的最佳分割线的X_j,j∈{1,2}和Y_i,i∈{1,2,3}，表格边缘的单元格用表格的区域构成矩形框的一边；最佳分割线的寻找通过定义最优化问题来得到：对X_j和Y_i每一具体的赋值，得到由此切割后的相邻单元之间的x、y轴上的距离之和Z，计算使得Z最大的X_j,Y_i值；用距离变换来计算该最优化问题；得到表格分割线位置后，把文本行放到对应的由分割线构成的单元格中。

3.根据权利要求1所述的一种基于tesseract-ocr的pdf文件解析方法，其特征在于，该方法还包括文本内容的纠错步骤，具体如下：如果pdf带有PDF/A标记，用python-docx得到结果A，则匹配python-docx得到的结果，纠正ocr识别的字符、表格结果B中的错误；如果pdf不带有PDF/A标记，则不纠错。

4.根据权利要求3所述的一种基于tesseract-ocr的pdf文件解析方法，其特征在于，文本内容的纠错步骤中，匹配时以整行文本为单位，用Levenshtein工具顺序匹配；对A、B结果中的文本段落和表格内容分别匹配，对A、B文本段落的每一行如果匹配值达到阈值，则认为找到了对应的两行，用A的结果替换B的结果，并把替换了的字符交给人工确认；对A、B各个页面中的每个表格，通过比较行列个数找到最接近的表格，对两个对应的表格进一步比较单元格内容，对每个单元格中的文字计算Levenshtein相似度，如果达到阈值则认为找到了对应的单元格，并用A中单元格内容替换B中单元格内容，把替换了的字符交给人工确认；如果发现有单元格没有找到对应的单元格，交给人工确认；在匹配过程中，如果由于docx结果的多栏顺序混乱问题造成不匹配，则跳过混乱区域，把这一区域的文本交给人工核对，发现ocr识别中的问题。

5.根据权利要求1所述的一种基于tesseract-ocr的pdf文件解析方法，其特征在于，该方法还包括lstm模型的提升的步骤，具体为：对Tesseract-ocr中的字符集自动生成更多的样本，并训练GPU版本的lstm模型lstm+ctc，替换原有lstm模型，提升识别准确率和速度。