CN108537146A

CN108537146A - 一种印刷体与手写体混合文本行提取系统

Info

Publication number: CN108537146A
Application number: CN201810241986.XA
Authority: CN
Inventors: 应自炉; 朱健菲; 陈鹏飞; 陈俊娟; 甘俊英; 翟懿奎
Original assignee: Wuyi University
Current assignee: Wuyi University
Priority date: 2018-03-22
Filing date: 2018-03-22
Publication date: 2018-09-14
Anticipated expiration: 2038-03-22
Also published as: CN108537146B

Abstract

本发明公开了一种印刷体与手写体混合文本行提取系统，包括文本块区域预处理以及文本行提取；本发明先通过文本块区域预处理过程，对包含有印刷体或手写体或混合文本的文档图像进行扭斜校正，通过版面分析获取文本块区域；然后对文本块区域进行连通域聚类并分配所属文本行标签，并对粘连字符像素进行聚类分割并重新分配所属文本行标签；最后通过文本行标签实现文档图像文本行的提取。本发明克服了现有技术中的手写文本或印刷体与手写体混合文本中的文本行因倾斜粘连而造成的提取笔画信息丢失或冗余笔画信息引入的缺陷，提高了文本行提取过程中的像素可控性，从而达到快速高效地提取文本行的目的。

Description

一种印刷体与手写体混合文本行提取系统

技术领域

本发明涉及文本行提取技术领域，更具体地说，涉及一种印刷体与手写体混合文本行提取系统。

背景技术

文档数字化加工是图像处理与模式识别研究的重要领域，其任务是将纸质文档通过拍照或扫描的方式转化成数字图像，并进一步对数字文档图像版面分析、版面理解、版面重构，使之成为完全可编辑、可检索的数字文档，在拍照文档、笔记、档案、票据、手稿文书等的数字化方面具有重要的应用前景。

将文本块区域分割为独立的文本行是文档图像数字化的一个重要基础步骤，在很大程度上影响着后续的字符识别、文字定位、关键词检索等任务。相对于印刷体文本行分割与提取技术已经相对成熟，手写文本图像由于其自由随意的书写风格、参差不齐的笔画结构，文本行都会呈现出不同程度的倾斜、弯曲、交叉、粘连等问题，以至于手写文本图像的文本行分割提取依然没有理想的解决方案。

目前对于手写文本图像的文本行分割或提取方法可以分为自顶向下 (Top-down)、自底向上(Bottom-up)、混合型方法(Hybrid)三类。Top-down的分析方法其局限性主要在于文本块的行结构必须要规范、整齐而且还要保证一定的行间距，因此该方法仅适用于印刷体文本行的提取，在无约束的书写条件下倾斜、弯曲、交叉、粘连的文本行提取根本无法胜任。Bottom-up的分析方法对文本行结构的规范性要求不高，一般能够较好的处理倾斜、弯曲、交叉、粘连的文本行，此类方法的效果也受限于聚类所采用的各种启发式规则。Hybrid的分析方法为Top-down与Bottom-up方法的结合，这些方法很明显的缺点就是算法较为复杂，并且最终效果也受限于算法融合的策略。另外这些方法对于倾斜、弯曲、交叉、粘连较严重的文本行提取问题，由于相邻文本行的干扰使得文本行的提取容易引入冗余笔画信息或造成笔画信息丢失，而这会严重影响到后续的字符识别及其他步骤。

发明内容

有鉴于此，本发明提供了一种印刷体与手写体混合文本行提取系统，克服了现有技术中的手写文本或印刷体与手写体混合文本中的文本行因倾斜粘连而造成的提取笔画信息丢失或冗余笔画信息引入的缺陷，提高了文本行提取过程中的像素可控性，从而达到快速高效地提取文档图像文本行的目的。

一种印刷体与手写体混合文本行提取系统，包括文本块区域预处理以及文本行提取；其中，所述文本块区域预处理的具体步骤为：步骤S11、获取文档图像；步骤S12、对文档图像进行扭斜校正；步骤S13、对文档图像进行版面分析并屏蔽非文本区域；步骤S14、获取经版面分析后的文本块区域并进行二值化处理；所述文本行提取的具体步骤为：步骤S21、获取经二值化处理后的文本块区域；步骤S22、由全卷神经网络模型对文本块区域进行密度估计，提取文本行主体区域；步骤S23、对文本行主体区域进行回归分析，得到文本行回归模型；步骤S24、由文本行回归模型引导字符连通域聚类；步骤S25、检测文本行间粘连字符块；步骤S26、粘连字符像素聚类；步骤S27、对粘连字符块中的像素进行分割，并重新分配文本行标签。

作为本发明的优选方案，该步骤S11的具体过程为：通过对纸质文档资料进行摄像机拍照或扫描仪扫描的方式获取数字的文档图像。

作为本发明的优选方案，该步骤S12的具体过程为：运用LSD算法，对文档图像版面进行线段检测，提取文档图像中的文本行基准线、表格线以及插图边框线，通过单应变换关系，利用文本行基准线、表格线以及插图边框线构建校正复原模型，从而实现文档图像的扭斜校正。

作为本发明的优选方案，该步骤S13的具体过程为：先通过人工采用界限框的方式标注出文档图像版面上的目标对象并保存目标对象的类别、坐标作为监督学习数据；然后采用基于区域建议的卷积神经网络Faster R-CNN为基础网络模型，通过监督学习的方式将带有目标类别与坐标标记的文档图像数据作为训练样本对网络参数进行迭代更新，从而得到文档图像目标检测模型；最终利用文档图像目标检测模型对文档图像进行版面分析，得到文档版面中的文本块、插图、表格、公式所在的区块，进而屏蔽非文本区域，得到纯文本图像部分。

作为本发明的优选方案，该步骤S14的具体过程为：先根据步骤S13提取出来的纯文本图像得到文本块区域；然后将文本块区域的笔画像素作为前景，其余像素作为背景；最后利用二值化算法移除背景像素，并增强前景字符笔画像素，从而得到二值化的文本块区域。

作为本发明的优选方案，该步骤S22的具体过程为：先建立膨胀卷积运算公式，

其中，x表示输入像素，i表示像素编号；m表示卷积核的大小，r表示膨胀率， y(i)表示卷积滤波的输出，本发明使用膨胀卷积的目的是减少运算量，使用较小的卷积核即可实现较大的感受野，同时还可以取代池化层；将卷积运算与膨胀卷积运算应用到卷积神经网络中，得到全卷积神经网络模型，其中，所述全卷积神经网络从低层到高层依次设立有第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层以及第七卷积层；然后由全卷神经网络模型对经二值化处理后的文本块区域进行密度估计；最后根据全卷神经网络模型对经二值化处理后的文本块区域的密度估计结果，提取文本行主体区域。

作为本发明的优选方案，该步骤S23的具体过程为：先对文本行主体区域进行骨架信息提取并结合形态学处理得到初始的文本行回归线；然后对初始的文本行回归线进行行分析：假设现在有文本行回归线片段s_i，该片段的端点坐标分别为p_i(x_i1,y_i1)、q_i(x_i2,y_i2)，与其相邻的文本行片段为s_j，与之相对应的端点坐标分别为p_j(x_j1,y_j1)、q_j(x_j2,y_j2)，建立条件式：

其中，k(i)表示回归线片段两端点所构成线段的斜率，w为文本图像宽度， h_line为文本行平均高度；若满足条件式，则认为文本行回归线片段s_i与s_j同属一行，需要将文本行回归线片段s_i和s_j整合为同一行；初始的文本行回归线片段经行分析合并后得到最终的文本行回归线，从而得到最终的文本行回归模型。

作为本发明的优选方案，该步骤S24的具体过程为：利用连通域分组标注的策略，由文本行回归模型引导字符连通域聚类；其中，根据能量函数优化的方式实现连通域分组标注，建立高阶能量函数E(f)：

f表示将连通域赋以相应文本行标签的函数，E(f)表示所有连通域的所属文本行标签赋值代价函数；ψ_i(x_i)为一阶数据项，表示连通域i所属文本行标签取值为x_i的代价，ψ_i(x_i)＝exp(-α·mind(x_i,L))，min{d(x_i,L)}为此连通域到文本行回归线的最小欧氏距离，其中L＝{l₁,l₂,...,l_t}，t为文本行的总数，α为平衡权重的参数；ψ_i,j(x_i,x_j)为二阶平滑项，用来表示相邻的连通域的坐标关系，即两两相邻的连通域i、j分别取文本行标签x_i、x_j的代价，ψ_i,j(x_i,x_j)＝exp(-β·d(x_i,x_j))，d(x_i,x_j)为相邻连通域质心之间的欧氏距离，β为平衡权重的系数；ψ_c(x_c)为高阶标签项，表示定义在连通域集合上的能量项，即文本行的密度，其中，{m₁,m₂,,...,m_t}为距离各个文本行回归线最近的连通域的数量统计，m_c为当前文本行的连通域数量，s为文本块字符连通域的总数量，γ为平衡权重的系数；最后，根据高阶能量函数E(f)，通过能量函数优化的方式得到所有连通域的所属文本行标签。

作为本发明的优选方案，该步骤S26的具体过程为：定义粘连字符块的所有像素点到文本行回归线的距离总和为粘连字符像素的聚类代价L_cost，即其中，x表示像素在图像坐标系中的二维坐标，l_i表示最终的文本行回归线，C表示粘连字符所在的连通体，k表示连通体C所跨越的文本行数，通过最小化L_cost可以将粘连字符像素集合分为k个簇群即不同的文本行，从而实现粘连字符块的像素聚类。

从上述的技术方案可以看出，本发明的有益效果为：本发明先通过文本块区域预处理过程，文档图像的扭斜校正，接下来利用预定义的版面目标检测模型对文档图像进行版面分析并定位文本块区域；然后再利用全卷积神经网络对文本块区域进行密度估计并获取文本行主体区域，对文本行主体区域进行骨架信息提取并结合形态学分析得到文本行回归模型；然后利用文本行回归模型来引导文本块区域字符的连通域聚类并分配所属文本行标签；然后根据文本行主体区域与字符连通域的关系检测出文本行行间粘连字符块，对文本行行间粘连字符块进行像素分组并重新分配所属文本行标签；最后通过文本行标签实现对文档图像文本行提取的目的；本发明能够同时处理印刷体文档、手写体文档以及印刷体与手写体混合文档图像的文本行提取问题，提高了系统的通用性；并且由于文本行检测不再依赖于人工特征的设计与规则的归纳，通过深度学习的方式，利用全卷神经网络模型实现文本行主体区域检测，提高了系统的鲁棒性，有效克服了现有技术中印刷体与手写体混合文本行因倾斜粘连而造成提取笔画信息丢失或冗余笔画信息引入的缺陷，在高效文本行提取的同时能够充分保持文本行边缘的字符笔画像素信息，减少了文本行提取过程中的像素损失，提高了文本行提取过程中的像素可控性；本发明通过像素标签化的思想将每一个像素都赋予所属文本行标签，从而可以直接利用所属文本行标签来提取文本行字符，不仅简化了文本行提取的步骤，也避免了几何分割带来的不确定因素如笔画像素损失，从而达到快速高效提取印刷体与手写混合文本行的目的。

附图说明

图1为本发明实施例提供的文本块区域预处理的步骤流程图。

图2为本发明实施例提供的文本行提取的步骤流程图。

图3为本发明实施例提供的全卷积神经网络的具体架构图。

图4为本发明实施例提供的文本行主体区域的参考示意图。

图5为本发明实施例提供的文本行回归线的参考示意图。

图6为本发明实施例提供的文本行的提取结果示意图。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所述的附图作简单地介绍，显而易见，下面的描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

具体实施方式

本发明实施例提供了一种印刷体与手写体混合文本行提取系统。

如图1-6所示，一种印刷体与手写体混合文本行提取系统，包括文本块区域预处理以及文本行提取。

其中，所述文本块区域预处理的具体步骤为：

步骤S11、获取文档图像；通过对纸质文档资料进行摄像机拍照或扫描仪扫描的方式获取数字的文档图像。如对病例、工程技术档案资料进行拍摄，得到相应的文档图像；待处理的文档图像可为异构的非曼哈顿文档版面图像，版面中可以包含公式、插图、表格等基本元素。

步骤S12、对文档图像进行扭斜校正；运用LSD算法，对文档图像进行线段检测，提取文档图像中的文本行基准线、表格线以及插图边框线，通过单应变换关系，利用文本行基准线、表格线以及插图边框线构建校正复原模型，从而实现文档图像的扭斜校正。在步骤S12中，所述LSD算法为现有技术，其主要目的是提取文本行基准线、表格线以及插图边框线并利用这些线条构建校正复原模型，通过校正图与透视图之间的单应关系实现文档图像的扭斜校正；当然，用户也可以根据实际需求选择不同的扭斜校正算法，将获取的文档图像进行扭斜校正处理，以供后续步骤进行运行。

步骤S13、对文档图像进行版面分析并屏蔽非文本区域；先通过人工采用界限框的方式标注出文档图像版面上的目标对象并保存目标对象的类别和坐标作为监督学习数据；然后采用基于区域建议的卷积神经网络Faster R-CNN为基础网络模型，通过监督学习的方式将带有目标类别与坐标标记的文档图像数据作为训练样本对网络参数进行迭代更新，从而得到文档图像目标检测模型；最终利用文档图像目标检测模型对文档图像进行版面分析，得到文档版面中的文本块、插图、表格、公式所在的区块，进而屏蔽非文本区域，得到纯文本图像部分。本步骤S13利用预先定义的现有技术中的卷积神经网络Faster R-CNN的文档版面分析模型检测文档版面中的公式、插图、表格等非文本结构，并屏蔽掉版面中非文本结构得到纯文本图像；对图像进行版面分析是根据图像的内容将版面划分为独立的模块，从而方便对文本块进行单独处理。在本发明实施例中可以预先构建版面分析模型，实现文档版面中的目标检测、区域的划分。

步骤S14、获取文本块区域并进行二值化处理；先根据步骤S13提取出来的纯文本图像得到文本块区域；然后将文本块区域的笔画像素作为前景，其余像素作为背景；最后利用二值化算法移除背景像素，并增强前景字符笔画像素，从而得到二值化的文本块区域。此步骤S14仅对纯文本图像进行二值化处理，这样不仅大大的减少了运算量还可以避免对文档版面中插图元素的破坏；本实施例将笔画像素信息作为前景，其余像素作为背景，通过现有的二值化处理步骤移除背景像素的同时增强前景字符笔画像素，从而得到二值化的文本块区域。

本发明实施例通过步骤S11-S14，如图1所示，实现了从文档图像获取到版面分析再到文本块区域的定位的过程，最后对纯文本的文本块区域进行二值化处理，得到二值化的文本块区域，达到了后续文本行提取处理步骤的要求。

在所述文本块区域预处理的具体步骤S11-S14中，本发明实施例在此处的重要创新点在于利用深度学习的方式取代传统的手动定义特征来定位文档图像文本块区域的方式。在步骤S13中的版面分析模块中，在一个网络框架下同时实现了文档版面中文本块、公式、插图、表格的检测与定位，避免了多重的特征定义，有效实现了异构文档版面的分解。

经过所述文本块区域预处理的具体步骤S11-S14后，本发明实施例可得到经二值化处理后的纯文本图像；然后再继续执行所述文本行提取的具体步骤。

所述文本行提取的具体步骤为：步骤S21、获取文本块区域；当执行步骤 S14后，可得到经二值化处理后的纯文本图像，并将经二值化处理后的纯文本图像定义为文本块区域。

步骤S22、由全卷神经网络模型对文本块区域进行密度估计，提取文本行主体区域；先建立膨胀卷积运算公式，

其中，x表示输入像素，i表示像素编号；m表示卷积核的大小，r表示膨胀率， y(i)表示卷积滤波的输出，本发明使用膨胀卷积的目的是减少卷积神经网络每一层的计算量，使用较小的卷积核即可实现较大的感受野，同时还可以取代池化层；将卷积运算与膨胀卷积运算应用到卷积神经网络中，得到全卷积神经网络模型，其中，所述全卷积神经网络从低层到高层依次设立有第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层以及第七卷积层，如图3所示；然后由全卷神经网络模型对文本块区域进行密度估计；最后根据全卷神经网络模型对文本块区域的密度估计结果，提取文本行主体区域，如图4所示。在本步骤S22中，由于上采样会带来粗糙的文本行边缘，甚至会使得相邻的文本行连为一体，为避免上采样而造成的文本行之间的粘连，同时保持输入、输出图像分辨率一致，本发明实施例利用膨胀卷积来取代传统卷积神经网络中的反卷积层与上采样层，标准的卷积运算公式如式(1)所示，膨胀卷积运算公式如式(2)所示，其中x表示输入像素，m为卷积核的大小，r表示膨胀率，通过人为的填充0元素，从而可以在不增加运算量的前提下扩大特征图的节点感受野。

本发明实施例通过全卷积神经网络对文本行区域进行密度估计与预测。全卷积神经网络架构如图3所示，本发明实施例采用七层的全卷积结构，第一卷积层与第二卷积层为标准的卷积结构，卷积核大小为3×3，膨胀因子为1；第三卷积层与第四卷积层采用膨胀因子为2的膨胀卷积，第五卷积层与第六卷积层采用膨胀因子为4的膨胀卷积，卷积核大小均为3×3，在不增加运算量的条件下不仅扩大了卷积核的感受野还可以取代2×2的池化层；第七卷积层为预测层，用来预测文本行主体区域，其中文本行主体区域如图4所示，该层采用1×1的标准卷积核用来对特征图降维，最终得到文本行主体区域分布图。关于模型的训练，可以通过人工地对文本行主体区域进行标注，文本行主体区域如图4所示，将文本行主体区域作为监督数据训练该网络实现文本行主体区域的预测。全卷积神经网络对文本块区域进行密度估计的原理是：位于文本行中轴线附近的像素在预测层会产生较高的分数，而偏离中轴线较远的像素会有较低的分数，根据文本图像在预测层的输出分数并设置合适的阈值来预测文本行的主体区域，具体阈值可以根据的文本图像与实验来确定。本发明实施例通过全卷积神经网络对文本块区域进行密度估计，利用语义分割方式实现对文本块区域的检测与定位，从而获取得到文本行主体区域。

步骤S23、对文本行主体区域进行回归分析，得到文本行回归模型；由于在步骤22中得到了所有的文本行主体区域，因此，本步骤S23通过对文本行主体区域进行骨架信息提取并结合形态学处理原理进行回归分析，可以得到如图5 所示初始的文本行回归线，但是由于文本行内字符间距不均，尤其是无约束的手写体文本其字符分布一般没有规整的文本行结构。因此对于文本行内字符间距较大的字符所预测的文本行主体区域往往是离散的，因此所得到的文本行回归线也是离散的，但是这些离散的文本行回归线可能同属于一行，因此需要将可能同属于一行的文本行回归线合并；将离散的文本行回归线片段合并为同一行的过程为：假设现在有文本行回归线片段s_i，该片段的端点坐标分别为 p_i(x_i1,y_i1)、q_i(x_i2,y_i2)，与其相邻的文本行片段为s_j，与之相对应的端点坐标分别为 p_j(x_j1,y_j1)、q_j(x_j2,y_j2)，建立条件式：

其中，k(i)表示回归线片段两端点所构成线段的斜率，w为文本图像宽度，h_line为文本行平均高度；若满足条件式(3)，则认为文本行回归线片段s_i与s_j同属一行，需要将文本行回归线片段s_i和s_j整合为同一行，从而得到最终的文本行回归线，即得到最终的文本行回归模型。本发明实施例通过将离散的文本行片段合并不仅强化了文本行的完整结构，还能进一步促进文本行字符的有效聚类。

步骤S24、由文本行回归模型引导文本块区域中的字符连通域聚类；本发明实施例利用连通域分组标注的策略，由文本行回归模型引导字符连通域聚类；在本步骤S24中，根据步骤S23中最终的文本行回归模型，可得到所有文本行最终的回归线，但是要实现文本行边缘字符笔画的有效控制，避免字符笔画错误分组，需要对字符笔画进行精确操控：本发明采用连通域分组标注的策略来实现文本行字符的有效聚类，即使用高阶能量函数优化的方式实现字符连通域的标注与分类。定义高阶能量函数式(4)为字符连通域的标记代价函数，有三项能量项：数据项ψ_i(x_i)、平滑项ψ_i,j(x_i,x_j)、标签项ψ_c(x_c)，f表示将连通域赋以相应文本行标签的函数，E(f)表示所有连通域的所属文本行标签赋值代价函数。利用高阶能量模型实现标记约束、区域一致性约束等局部区域先验与全局先验信息的有效描述，从而建立高效的连通域超像素分割模型。

定义ψ_i(x_i)为一阶数据项，表示连通域i所属文本行标签取值为x_i的代价，定义此连通域到文本行回归线的最小欧氏距离为min{d(x_i,L)}，其中L＝{l₁,l₂,...,l_t}，t为文本行的总数，最终标签项代价定义为式(5)所示，其中α为平衡权重的超参数，具体取值可以根据实验来确定。

ψ_i(x_i)＝exp(-α·mind(x_i,L)) (5)

定义ψ_i,j(x_i,x_j)为二阶平滑项，用来表示相邻的连通域的坐标关系，即两两相邻的连通域i、j分别取文本行标签x_i、x_j的代价，定义d(x_i,x_j)为相邻连通域质心之间的欧氏距离，利用欧氏距离来度量相邻连通域标签一致性的代价。定义二阶平滑项如式(6)所示，其中β为平衡权重的系数，具体取值可以根据实验来确定。

ψ_i,j(x_i,x_j)＝exp(-β·d(x_i,x_j)) (6)

定义ψ_c(x_c)为高阶标签项，表示定义在连通域集合上的能量项，本发明中定义为文本行的密度。采用KNN最近邻的方法搜索出距离各个文本行回归线最近的连通域集合，并统计距离各个文本行回归线最近的连通域数量{m₁,m₂,,...,m_t}，若连通域数量为s，则文本行密度定义为式(7)所示，其中γ为平衡权重的系数，具体取值可以根据实验来确定。

本发明实施例根据步骤S24的高阶能量函数E(f)，通过能量函数优化的方式得到所有连通域的所属文本行标签，实现了文本行边缘字符笔画的有效控制聚类的目的，最终通过能量函数优化的方式得到所有连通域的所属文本行标签。

步骤S25、检测文本行间粘连字符块；检测出所有的文本行间粘连字符块并分割，对分割后的字符块重新分配所属文本行标签；根据文本行主体区域与字符连通域的关系，当连通域与多个文本行主体区域相交时，便可以认定该连通域包含行间粘连字符；检测出的行间粘连字符块与字符块连通体所跨越的文本行数k，对粘连的字符块进行像素分割，并重新分配所属文本行标签。本发明实施例利用连通体与文本行主体区域的坐标关系来判断该连通体是否包含行间粘连字符块。当连通体与多个文本行主体区域相交时便可以认定该连通体包含有行间粘连字符。接下来对检测出的行间粘连字符进行二次聚类，并重新分配所属文本行标签。

步骤S26、粘连字符像素聚类；本发明实施例先定义粘连字符块的所有像素点到文本行回归线的距离总和为粘连字符像素的聚类代价L_cost，如式(8)所示，其中x表示像素在图像坐标系中的二维坐标，l_i表示由步骤23得到的文本行回归线，C表示粘连字符所在的连通体，k表示连通体C所跨越的文本行数，通过最小化L_cost可以将粘连字符像素集合分为k个簇群即不同的文本行，从而实现粘连字符块的像素聚类，最后对聚类所得的像素簇群根据最近邻算法来确定其所属文本行标签，最终实现文本图像所有像素的分组标注，有效的解决了文本行间的笔画交叉、粘连问题。L_cost的具体公式为：

本发明实施例通过最小化粘连字符像素的聚类代价函数实现粘连字符块的像素分组，并对分组之后的像素块采用最近邻搜索的方式找到最近的连通域，并得到该连通域的所属文本行标签，并且此像素块的所属文本行标签与该连通域的所属文本行标签相同。最终实现了文本块区域所有像素的分组与文本行标签赋值，从而实现文本图像所有像素的分组标注。

步骤S27、对粘连字符块中的像素进行分割，并重新分配文本行标签。通过前一步骤S26已经得到所有连通域的所属文本行标签，并且行间粘连字符也得到分离，因此文本图像的每一个字符的文本行归属问题已经确定，从而可以直接利用所属文本行标签来提取文本行字符。记检测出的所有的文本行为 {l₁,l₂,...,l_n}，在提取当前文本行l_m时只需要利用文本行标签屏蔽掉{l₁,l₂,...,l_m-1,l_m+1,...,l_n} 即可直接使用BoundingBox的形式提取所需要的文本行。传统的文本行提取方法如基于Piece-wise Projection、Seam Carving、MST等的方法均是先将文本图像分割为独立的文本行ROI片段，然后再对这些ROI区域内的字符进行二次定位，本发明通过像素标签化的思想不再需要对文本图像进行几何分割，可以直接通过文本行标签来定向提取文本行，提取的文本行样图如图6所示，不仅简化了文本行提取的步骤，也避免了几何分割带来的不确定因素如笔画像素损失。

因此，在本发明实施例中，本发明先通过文本块区域预处理过程，文档图像的扭斜校正，接下来利用预定义的版面目标检测模型对文档图像进行版面分析并定位文本块区域；然后再利用全卷积神经网络对文本块区域进行密度估计并获取文本行主体区域，对文本行主体区域进行骨架信息提取并结合形态学分析得到文本行回归模型；然后利用文本行回归模型，对文本块区域的所有连通域进行聚类并分配所属文本行标签。然后根据文本行主体区域与连通体的坐标关系检测出行间粘连字符块，对粘连字符像素进行二次聚类并重新分配所属文本行标签；最后通过文本行标签实现对文档图像文本行提取的目的；本发明能够同时处理印刷体文档、手写体文档以及印刷体与手写体混合文档图像的文本行提取问题，提高了系统的通用性；并且由于文本行检测不再依赖于人工特征的设计与规则的归纳，通过全卷神经网络模型实现文本行主体区域的检测，提高了系统的鲁棒性；有效克服了现有技术中印刷体与手写体混合文本行因倾斜粘连而造成提取笔画信息丢失或冗余笔画引入的缺陷，在高效文本行提取的同时能够充分保持文本行边缘的字符笔画像素信息，减少了文本行提取过程中的像素损失，提高了文本行提取过程中的像素可控性。用户通过本技术方案可以得到文本块区域所有像素的所属文本行标签，从而可以直接利用所属文本行标签来提取文本行字符，不仅简化了文本行提取的步骤，也避免了几何分割带来的不确定因素如笔画像素损失，从而达到快速高效提取文本行的目的。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分相互参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种印刷体与手写体混合文本行提取系统，其特征在于，包括文本块区域预处理以及文本行提取；其中，所述文本块区域预处理的具体步骤为：

步骤S11、获取文档图像；

步骤S12、对文档图像进行扭斜校正；

步骤S13、对文档图像进行版面分析并屏蔽非文本区域；

步骤S14、获取文本块区域并进行二值化处理；

所述文本行提取的具体步骤为：

步骤S21、获取文本块区域；

步骤S22、由全卷神经网络模型对文本块区域进行密度估计，提取文本行主体区域；

步骤S23、对文本行主体区域进行回归分析，得到文本行回归模型；

步骤S24、由文本行回归模型引导字符连通域聚类；

步骤S25、检测文本行间粘连字符块；

步骤S26、粘连字符像素聚类；

步骤S27、对粘连字符块中的像素进行分割，并重新分配文本行标签。

2.如权利要求1所述的一种印刷体与手写体混合文本行提取系统，其特征在于，所述步骤S11的具体过程为：通过对纸质文档资料进行摄像机拍照或扫描仪扫描的方式获取数字的文档图像。

3.如权利要求1所述的一种印刷体与手写体混合文本行提取系统，其特征在于，所述步骤S12的具体过程为：运用LSD算法，对文档图像进行线段检测，提取文档图像中的文本行基准线、表格线以及插图边框线，通过单应变换关系，利用文本行基准线、表格线以及插图边框线构建校正复原模型，从而实现文档图像的扭斜校正。

4.如权利要求1所述的一种印刷体与手写体混合文本行提取系统，其特征在于，所述步骤S13的具体过程为：先通过人工采用界限框的方式标注出文档图像版面上的目标对象并保存目标对象的类别和坐标作为监督学习数据；然后采用基于区域建议的卷积神经网络Faster R-CNN为基础网络模型，通过监督学习的方式将带有目标类别与坐标标记的文档图像数据作为训练样本对网络参数进行迭代更新，从而得到文档图像目标检测模型；最终利用文档图像目标检测模型对文档图像进行版面分析，得到文档版面中的文本块、插图、表格以及公式所在的区块，屏蔽非文本区域，得到纯文本图像部分。

5.如权利要求4所述的一种印刷体与手写体混合文本行提取系统，其特征在于，所述步骤S14的具体过程为：先根据步骤S13提取出来的纯文本图像得到文本块区域；然后将文本块区域的笔画像素作为前景，其余像素作为背景；最后利用二值化算法移除背景像素，并增强前景字符笔画像素，从而得到二值化的文本块区域。

6.如权利要求1所述的一种印刷体与手写体混合文本行提取系统，其特征在于，所述步骤S22的具体过程为：先建立膨胀卷积运算公式，

其中，x表示输入像素，i表示像素编号；m表示卷积核的大小，r表示膨胀率，y(i)表示卷积滤波的输出；然后将卷积运算与膨胀卷积运算应用到卷积神经网络中，得到全卷积神经网络模型，其中，所述全卷积神经网络从低层到高层依次设立有第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层以及第七卷积层；然后由全卷神经网络模型对文本块区域进行密度估计；最后根据全卷神经网络模型对文本块区域的密度估计结果，提取文本行主体区域。

7.如权利要求1所述的一种印刷体与手写体混合文本行提取系统，其特征在于，所述步骤S23的具体过程为：先对文本行主体区域进行骨架信息提取并结合形态学处理进行回归分析，获得初始的文本行回归线片段；然后对初始的文本行回归线片段进行行分析：假设现在有文本行回归线片段s_i，该片段的端点坐标分别为p_i(x_i1,y_i1)、q_i(x_i2,y_i2)，与其相邻的文本行片段为s_j，与之相对应的端点坐标分别为p_j(x_j1,y_j1)、q_j(x_j2,y_j2)，建立条件式：

其中，k(i)表示回归线片段两端点所构成线段的斜率，w为文本图像宽度，h_line为文本行平均高度；若满足条件式，则认为文本行回归线片段s_i与s_j同属一行，需要将文本行回归线片段s_i和s_j合并；初始的文本行回归线片段经行分析合并后得到最终的文本行回归线，从而得到最终的文本行回归模型。

8.如权利要求1所述的一种印刷体与手写体混合文本行提取系统，其特征在于，所述步骤S24的具体过程为：利用连通域分组标注的策略由文本行回归模型引导字符连通域聚类；根据能量函数优化的方式实现连通域分组标注，建立高阶能量函数E(f)：

f表示将连通域赋以相应文本行标签的函数，E(f)表示所有连通域的所属文本行标签赋值代价函数；ψ_i(x_i)为一阶数据项，表示连通域i所属文本行标签取值为x_i的代价，ψ_i(x_i)＝exp(-α·mind(x_i,L))，min{d(x_i,L)}为此连通域到文本行回归线的最小欧氏距离，其中L＝{l₁,l₂,...,l_t}，t为文本行的总数，α为平衡权重的参数；ψ_i,j(x_i,x_j)为二阶平滑项，用来表示相邻的连通域的坐标关系，即两两相邻的连通域i、j分别取文本行标签x_i、x_j的代价，ψ_i,j(x_i,x_j)＝exp(-β·d(x_i,x_j))，d(x_i,x_j) 为相邻连通域质心之间的欧氏距离，β为平衡权重的系数；ψ_c(x_c)为高阶标签项，表示定义在连通域集合上的能量项，即文本行的密度，其中，{m₁,m₂,,...,m_t}为距离各个文本行回归线最近的连通域的数量统计，m_c为当前文本行的连通域数量，s为文本块字符连通域的总数量，γ为平衡权重的系数；最后，根据高阶能量函数E(f)，通过能量函数优化的方式得到所有连通域的所属文本行标签。

9.如权利要求1所述的一种印刷体与手写体混合文本行提取系统，其特征在于，所述步骤S26的具体过程为：定义粘连字符块的所有像素点到文本行回归线的距离总和为粘连字符像素的聚类代价L_cost，即其中，x表示像素在图像坐标系中的二维坐标，l_i表示最终的文本行回归线，C表示粘连字符所在的连通体，k表示连通体C所跨越的文本行数，通过最小化L_cost将粘连字符像素集合分为k个簇群即不同的文本行，从而实现粘连字符块的像素聚类。