CN110427946B

CN110427946B - 一种文档图像二值化方法、装置和计算设备

Info

Publication number: CN110427946B
Application number: CN201910601009.0A
Authority: CN
Inventors: 黄萧; 李林; 徐丞申; 刘荣
Original assignee: Tianjin Chezhijia Data Information Technology Co ltd
Current assignee: Tianjin Chezhijia Data Information Technology Co ltd
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2021-09-03
Anticipated expiration: 2039-07-04
Also published as: CN110427946A

Abstract

本发明公开了一种文档图像二值化方法，适于在计算设备中执行，该计算设备中分别训练有对应于第一和第二图像尺寸的第一和第二卷积神经网络，该方法包括：将原始文档图像转换为灰度图像，并生成该灰度图像的降采样图像；采用第一图像尺寸对灰度图像进行局部分块，并根据第一卷积神经网络得到各局部分块的文本概率图像后进行拼接，得到第一完整图像；采用第二图像尺寸对降采样图像进行全局分块，并根据第二卷积神经网络得到各全局分块的文本概率图像后进行拼接，得到第二完整图像；基于预定概率阈值将两个完整图像转换为对应的二值图像后取交运算，得到原始文档图像的二值化图像。本发明还一并公开了对应的文档图像二值化装置和计算设备。

Description

一种文档图像二值化方法、装置和计算设备

技术领域

本发明图像文本检测领域，尤其涉及一种文档图像二值化方法、装置和计算设备。

背景技术

文档二值化是文档分析和识别最重要的预处理步骤之一，其旨在从复杂的文档背景图像中分离出前景文本，而文档图像特别是古籍文档图像中往往受到多种降质因素影响，例如页面污渍、背面字迹渗透、字迹模糊和光照不均匀等，这使得降质文档图像的二值化成为一项艰巨的任务。而文档二值化的精确程度直接影响后续的步骤，例如会影响后续字符识别的精度。

传统的文档二值化的方法主要分为全局阈值法、局部阈值法以及两者相结合的一些方法。全局阈值法直接采用固定的阈值将文档图像分割为文本前景和背景两部分，如经典的OTSU算法。局部阈值法根据图像中的局部邻域窗口计算动态的局部阈值实现对该像素分类为前景文本或背景。这些方法在背景图像存在多种降质情形时效果较差。

另一种方法是将文档图像二值化看作图像分割的任务，通过卷积神经网络对每个像素点进行前景文本和背景区域的二分类，得到整个文档图像的二值化分割图。但由于每张文档图像的分辨率较大，考虑到GPU显存的限制，往往在神经网络方法中输入的并不是整张图像，而从整张图像中裁剪得到的图像块。这种裁剪策略丢失了整个文档图像的全局空间信息，特别在有背面字迹渗透情况时，背面字迹由于和真实前景文本很难区分而容易被误认为是前景文本，导致二值化精度降低。

发明内容

鉴于上述问题，本发明提出了一种文档图像二值化方法、装置和计算设备，以力图解决或者至少解决上面存在的问题。

根据本发明的一个方面，提供一种文档图像二值化方法，适于在计算设备中执行，该计算设备中分别训练有对应于第一和第二图像尺寸的第一和第二卷积神经网络，该卷积神经网络能够得到输入图像的文本概率图像，该文本概率图像中标记有每个像素的文本概率值，该方法包括：将原始文档图像转换为灰度图像，并生成该灰度图像的降采样图像；采用第一图像尺寸对灰度图像进行局部分块，根据第一卷积神经网络得到各局部分块的文本概率图像，并将各文本概率图像拼接为第一完整图像；采用第二图像尺寸对降采样图像进行全局分块，根据第二卷积神经网络得到各全局分块的文本概率图像，并将各文本概率图像拼接为第二完整图像；以及基于预定概率阈值，分别将第一和第二完整图像转换为对应的二值图像后取交运算，得到原始文档图像的二值化图像。

可选地，在根据本发明的文档图像二值化方法中，基于预定概率阈值将第一完整图像转换为对应的二值图像的步骤包括：若第一完整图像中某像素点的文本概率值小于预定概率阈值，则将该像素点的值设为背景属性值，反之则设为文本属性值。

可选地，在根据本发明的文档图像二值化方法中，计算设备中还训练有对应于第三图像尺寸的第三卷积神经网络，该方法还包括步骤：对灰度图像采用第三图像尺寸进行局部分块，根据第三卷积神经网络得到各局部分块的文本概率图像，并将各文本概率图像拼接为第三完整图像。

可选地，在根据本发明的文档图像二值化方法中，基于预定概率阈值将第一完整图像转换为对应的二值图像的步骤包括：将第一完整图像和第三完整图像中每个像素的文本概率值取平均，得到均值融合后的图像；以及基于预定概率阈值将均值融合后的图像转换为第一完整图像所对应的二值图像。

可选地，在根据本发明的文档图像二值化方法中，第一图像尺寸为m×m，第二图像尺寸为n×n，第三图像尺寸为p×p，其中m＜p＜n。

可选地，在根据本发明的文档图像二值化方法中，若原始文档图像的宽度和高度分别为w和h，则降采样图像的宽度w₁和高度h₁分别为：

可选地，在根据本发明的文档图像二值化方法中，m＝128，p＝256，n＝512。

可选地，在根据本发明的文档图像二值化方法中，采用第一图像尺寸对灰度图像进行局部分块的步骤包括：设定图像分割的滑窗步长，并在该滑窗步长下采用第一图像尺寸对灰度图像进行图像分割。

可选地，在根据本发明的文档图像二值化方法中，还包括训练各卷积神经网络的步骤：分别采集多张对应图像尺寸的训练图片构成训练集，并根据该训练集对对应图像尺寸的卷积神经网络进行训练，其中每张训练图像中标记有各像素的文本属性值或背景属性值。

可选地，在根据本发明的文档图像二值化方法中，背景属性值和文本属性值分别为0和1，此时文本概率值的取值范围为[0，1]，预定概率阈值为0.5。

可选地，在根据本发明的文档图像二值化方法中，将各全局分块的文本概率图像拼接为第二完整图像的步骤包括：对各全局分块所对应的文本概率图像进行图像拼接，并采用图像还原方法将拼接后的图像还原为原始文档图像尺寸，得到该第二完整图像。

可选地，在根据本发明的文档图像二值化方法中，两个二值图像取交运算的步骤包括：若某像素在两个二值图像中的值不相同，则取交运算后该像素值为0；若该像素在两个二值图像中的值均为a，则取交运算后该像素值依然为a。

可选地，在根据本发明的文档图像二值化方法中，卷积神经网络为U型卷积神经网络。

根据本发明的另一个方面，提供一种文档图像二值化装置，适于驻留在计算设备中，该计算设备中分别训练有对应于第一和第二图像尺寸的第一和第二卷积神经网络，该卷积神经网络能够得到输入图像的文本概率图像，该文本概率图像中标记有每个像素的文本概率值，该装置包括：图像预处理模块，适于将原始文档图像转换为灰度图像，并生成该灰度图像的降采样图像；第一预测模块，适于采用第一图像尺寸对灰度图像进行局部分块，根据第一卷积神经网络得到各局部分块的文本概率图像，并将各文本概率图像拼接为第一完整图像；第二预测模块，适于采用第二图像尺寸对降采样图像进行全局分块，根据第二卷积神经网络得到各全局分块的文本概率图像，并将各文本概率图像拼接为第二完整图像；以及终值确定模块，适于基于预定概率阈值，分别将第一和第二完整图像转换为对应的二值图像后取交运算，得到原始文档图像的二值化图像。

可选地，在根据本发明的文档图像二值化装置中，计算设备中还训练有对应于第三图像尺寸的第三卷积神经网络，该装置还包括：第三预测模块，适于对灰度图像采用第三图像尺寸进行局部分块，根据第三卷积神经网络得到各局部分块的文本概率图像，并将各文本概率图像拼接为第三完整图像。

可选地，在根据本发明的文档图像二值化装置中，终值确定模块适于：将第一完整图像和第三完整图像中每个像素的文本概率值取平均，得到均值融合后的图像，并基于预定概率阈值将均值融合后的图像转换为第一完整图像所对应的二值图像。

可选地，在根据本发明的文档图像二值化装置中，第一图像尺寸为m×m，所述第二图像尺寸为n×n，所述第三图像尺寸为p×p，其中m＜p＜n。

可选地，在根据本发明的文档图像二值化装置中，若原始文档图像的宽度和高度分别为w和h，则降采样图像的宽度w₁和高度h₁分别为：

根据本发明的又一方面，提供一种计算设备，包括：一个或多个处理器；存储器；以及一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，该一个或多个程序被处理器执行时实现如上所述的文档图像二值化方法的步骤。

根据本发明的又一方面，提供一种存储一个或多个程序的计算机可读存储介质，该一个或多个程序包括指令，所述指令当由计算设备执行时实现如上所述的文档图像二值化方法的步骤。

根据本发明的技术方案，基于多个对应于第一图像尺寸(如128*128)的局部分块图像得到局部文档信息，再基于多个对应于第二图像尺寸(如512*512)全局分块图像得到全局文档信息，通过对局部文档信息和全局文档信息取交运算，既可得到精确的前景文本轮廓信息，也可得到全局上下文信息，从而更好地区分前景文本和背景区域。

进一步地，本发明还可以基于多个对应于第三图像尺寸(如256*256)的局部分块得到更高层次的局部文档信息，并将两种局部文档信息进行均值融合。通过这两级尺度的信息融合可以使模型对前景文本的轮廓分割更未精准。之后，将均值融合后的结果与全局文档信息取交运算，从而得到最终的二值化图像。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的计算设备100的结构框图；

图2示出了根据本发明一个实施例的文档图像二值化方法200的流程图；

图3示出了根据本发明另一个实施例的文档图像二值化方法300的流程图；

图4示出了根据本发明一个实施例的对某原始文档图像进行不同二值化处理的结果对比图；以及

图5示出了根据本发明一个实施例的文档图像二值化装置500的结构图；

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是根据本发明一个实施例的计算设备100的框图。在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中，应用122可以布置为在操作系统上利用程序数据124进行操作。程序数据124包括指令，在根据本发明的计算设备100中，程序数据124包含用于执行文档图像二值化方法200和/或300的指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备100可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等，也可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。在一些实施例中，计算设备100被配置为执行文档图像二值化方法200和/或300。

另外，根据本发明的一个实施例，计算设备100中还可以训练有对应于不同图输入图像尺寸的卷积神经网络，例如对应于第一图像尺寸(如m×m)的第一卷积神经网络、对应于第二图像尺寸(如n×n)的第二卷积神经网络和对应于第三图像尺寸(p×p)的第三卷积神经网络，其中m＜p＜n。根据一个实施例，m＝128，p＝256，n＝512，当然也可以设置为其他数值，本发明对此不作限制。当然，还可以有对应于其他图像尺寸的其他卷积神经网络，本发明对此不作限制。这些卷积神经网络能够得到输入图像的文本概率图像，该文本概率图像中标记有每个像素的文本概率值，即每个像素属于文本的概率值。

计算设备100在训练各卷积神经网络时，可以分别采集多张对应图像尺寸的训练图片构成训练集，其中每张训练图像中标记有各像素的文本属性值(如1)或背景属性值(如0)。之后，根据该训练集对对应图像尺寸的卷积神经网络进行训练，训练采用的损失函数为dice损失函数和交叉熵损失函数相结合的方式。应当理解的是，存在多种能够输出图像文本概率的模型，本发明不受限于模型的具体方式，所有能够输出输入图像的图像文本概率的模型均在本发明的保护范围之内。

根据一个实施例，该模型为U型卷积神经网络模型，其可采用经典的U-Net网络结构，由编码器和解码器构成，编码器由4个重复的模块组成，每个模块包括2层3×3的卷积层和1层2×2的池化层，每层卷积层后接批标准化层(Batch Normalization)及线性修正单元的激活函数层(RELU)，沿着编码器的下采样路径，特征图的高度和宽度减半，而通道数量加倍。解码器的网络结构与编码器的结构正好相反，沿着解码器的上采样路径，特征图的高度和宽度加倍，而通道数量减半。

图2示出了根据本发明一个实施例的文档图像二值化方法200的流程示意图。方法200在计算设备中执行，如在计算设备100中执行，以便生成原始文档图像的二值化图像。

如图2所示，该方法始于步骤S210。在步骤S210中，将原始文档图像转换为灰度图像，并生成该灰度图像的降采样图像。

原始文档图像可以是通过图像采集技术对原始的纸质或其他材质的文档直接进行扫描或拍照获得，也可以通过对文档图像打印或复印后的纸质文件进行拍照获得，本实施例以DIBCO(Document Image Binarization Contest)公开数据集的古籍文档为例。原始文档图像的尺寸较大，例如可以为3000*3000尺寸。灰度图像转换可以采用分量法、最大值法、平均值法、加权平均法等任意方法，本发明对此不作限制。

若原始文档图像的宽度和高度分别为w和h，则降采样图像的宽度w₁和高度h₁分别为：

随后，在步骤S220中，采用第一图像尺寸对灰度图像进行局部分块，根据第一卷积神经网络得到各局部分块的文本概率图像，并将各文本概率图像拼接为得到第一完整图像。

根据一个实施例，在进行局部分块时，可以设定图像分割的滑窗步长l(l≤m)，并在该滑窗步长下采用该第一图像尺寸对灰度图像进行局部分块，得到多个局部分块图像。存在多种图像平均分割方法，本发明不限于图像分割方法的具体实现方式，所有能将该图像分割为多个均等的图像块的方法均在本发明的保护范围之内。

具体地，若l＝m，则各局部分块之间没有重合像素，若最后一个局部分块的尺寸大小不够，则可以按0值进行像素填充，以达到一个完整的局部分块大小。若l＜m，则各局部分块之间有重合的像素，此时若最后一个局部分块的尺寸大小不够时，可以进行像素填充，也可以调整最后几次的滑窗步长，使得恰好能被整除分割。当然，也可以在初始条件下就计算好一个统一的滑窗步长，以保证经过多次步长移动后恰好能够整除分割。

另外，在进行局部分块时，还可标记各局部分块的位置顺序，这样可以按照位置顺序将各局部分块所对应的文本概率图像拼接为与原始文档图像尺寸一致的第一完整图像。应当理解的是，每个局部分块的文本概图像中都标记有各像素的文本概率值，相应的第一完整图像中就标记有原始文档图像中所有像素的文本概率值。

可以看出，卷积神经网络的输入为128×128的图像分块，由于128×128相比原始文档图像3000×3000的尺寸很小，因此该第一图像尺寸可定义为局部分块。图像分块是通过滑窗直接在未降采样的原始文档图像中裁剪得到，每个图像块包含了精确的前景文本轮廓信息，也就是局部文档信息，然而无法包括足够大的背景和前景区域，会丢失许多全局上下文的信息。

因此，与步骤S220相对应，在步骤S230中，对降采样图像采用第二图像尺寸进行全局分块，根据第二卷积神经网络得到各全局分块的文本概率图像，并将各文本概率图像拼接为第二完整图像。

由于上述局部分块尺寸相比原始完整图像很小，得到的是基于局部信息的分类概率图。而要兼顾全局的空间上下文信息以及模型容量的限制，比较直接的一种方法是将原始图像(例如3000×3000的尺寸)通过降采样的方式缩小成某一固定的较低分辨率的尺寸(例如512×512的尺寸)。但是这种方法有两个缺点：一是不同的文档图像有不同的高宽比，统一缩小为512×512会造成高宽比畸变而引入误差；二是相比图像分块的方式训练模型时减少了可训练样本的数量。基于此，本发明给出了一种能兼顾全局信息以及模型容量限制的方法：先对灰度图像按指定规则进行降采样，然后采用512×512固定尺寸的滑窗将该降采样图像裁剪为多个全局分块，每个分块都包含了一定的全局信息。

以n＝512为例，降采样的图像尺寸为：

也就是降采样图像的某一边为512或1024，其与全局分块512×512的尺寸非常接近，因此可认为此时的全局分块包含了足够的降质背景、前景文本、以及全局的空间上下文信息。

全局图像分割的方法与局部图像分割的方法相同，只是分割块尺寸的变化以及待分割图像不同，具体可参考局部图像的分割处理描述，这里不再展开赘述。将多个全局分块图像输入卷积神经网络中，可以得到每个全局分块的分类概率图。之后，将所得到的每个全局分块所对应的文本概率图像进行图像拼接，并采用图像还原方法将拼接后的图像还原为原始文档图像尺寸，得到该第二完整图像。应当理解的是，存在多种图像尺寸还原方法，本发明不限于图像还原方法的具体实现方式，所有能将压缩后的图像还原为原始文档图像大小的方法均在本发明的保护范围之内。根据一个实施例，图像还原方法resize可以采用opencv的cv2.resize库。

随后，在步骤S240中，基于预定概率阈值，分别将第一和第二完整图像转换为对应的二值图像，并将转换后的两个二值图像取交运算，得到原始文档图像的二值化图像。

根据一个实施例，可以根据以下方法将某完整图像转换为二值图像：若该完整图像中某像素点的文本概率值小于预定概率阈值，则将该像素点的值设为背景属性值，反之则设为文本属性值。这里可认为是将第一完整图像直接转换为对应的二值图像。其中，背景属性值和文本属性值可以分别为0和1，此时卷积神经网络输出的文本概率值的取值范围为[0，1]，相应的预定概率阈值为0.5。这里，若某像素点的文本概率值为0.4，小于预定概率阈值0.5，因此将其像素值设为背景属性值0。

进一步地，本发明在将第一完整图像转换为二值图像时，还可以融合第三完整图像进行转换。第一完整图像和第三完整图像是通过具有不同感受区域大小的U-Net图像分割模型得到。因此，可以将第一完整图像和第三完整图像中每个像素的文本概率值取平均，得到和原始文档图像尺寸大小一致均值融合后的图像，并基于该预定概率阈值将该均值融合后的图像转换为第一完整图像所对应的二值图像。这里可认为是将第一完整图像间接转换为对应的二值图像。例如，某像素在第一完整图像和第三完整图像中的文本概率值分别为0.4和0.7，则均值融合后的图像中该像素的文本概率值为0.55，大于0.5，因此在二值转换时将该像素值设为1。这里，融合了两级局部分块尺度的信息得到的完整二值化图像可以使模型对前景文本的轮廓分割得更为精准。

也就是，本发明可以单独基于第一完整图像转换一个局部二值图像A，也可以融合第一完整图像和第三完整图像后转换一个局部二值图像B，另外还基于第二完整图像转换一个全局二值图像A＇。之后，对全局二值图像A＇和其中一个局部二值图像取交运算，得到原始文档图像的二值化图像，该二值化图像既含有局部文档信息，也含有全局上下文信息。因为B中融合了两级局部尺度的文档信息，因此当取A＇和B进行交运算时，能够得到更精确的文档属性分类。在取交运算过程中，若某像素在两个二值图像中的值不相同(如一个为0另一个为1)，则取交运算后该像素值为0；若该像素在两个二值图像中的值均为a，则取交运算后该像素值依然为a。

在此基础上，还可以设置更多的局部图像分割尺寸、全局图像分割尺寸以及对应的卷积神经网络，以进行更多层级更多尺寸的图像预测和融合。例如可以采用第四图像尺寸(如80×80)对灰度图像进行局部分块，根据对应的第四卷积神经网络得到各局部分块的文本概率图像，并将各文本概率图像拼接为得到第四完整图像。之后，将第一、第三和第四这个三个代表局部信息的完整图像进行均值融合，并将均值融合后的图像转换为局部二值图像C。同理，还可以有第五尺寸(192×192)的图像分割、模型预测和图像拼接，相应的可以基于这四个完整图像得到对应的局部二值图像D，以此类推。

而对于全局图像分块，同样可以按照局部分块的均值融合方式进行处理，例如可以采用第六图像尺寸(如768×768或1024×1024等)对降采样图像进行全局分块，根据对应的第六卷积神经网络得到各全局分块的文本概率图像，并将各文本概率图像拼接为得到第六完整图像。之后，将第二和第六这个两个代表全局信息的完整图像进行均值融合，并将均值融合后的图像转换为全局二值图像B＇，以此类推。应当理解，降采样图像的宽度w₁和高度h₁直接与全局分割的图像尺寸相关，当该分块尺寸变化时，降采样的图像尺寸也会相应变化。

这样，本发明将多个局部小尺寸的完整文本概率图像均值融合后得到一个二值图像，将多个全局大尺寸的完整文本概率图像均值融合后得到一个二值图像，再将两个融合后的二值图像取交运算，得到最终的二值化图像。经过这样更多层级更多尺寸的图像融合，可以更加精确的区分出图像的前景文本和背景区域。

图3示出了根据本发明另一个实施例的文档图像二值化方法300的流程图。方法300由前述计算设备100执行。与前述方法200相比，方法300所生成的文档图像二值化检测精度更高、前景文本和背景区域的分割更精确。如图3所示，方法300始于步骤S310。

在步骤S310中，将原始文档图像转换为灰度图像，并生成该灰度图像的降采样图像。

随后，在步骤S320中，采用第一图像尺寸对灰度图像进行局部分块，得到多个局部分块，并根据第一卷积神经网络得到各局部分块的文本概率图像，以及对各文本概率图像拼接为第一完整图像。

同时，在步骤S330中，采用第三图像尺寸对灰度图像进行局部分块，根据第三卷积神经网络得到各局部分块的文本概率图像，并将各文本概率图像拼接为第三完整图像。

同时，在步骤S340中，对降采样图像采用第二图像尺寸进行全局分块，根据第二卷积神经网络得到各全局分块的文本概率图像，并将各文本概率图像拼接为第二完整图像。

步骤S320和S330分别得到了两种小尺寸分块的局部信息，步骤S340得到了一种大尺寸分块的全局信息。之后，可以先将两种局部信息融合，再与全局信息取交运算。

具体地，在步骤S350中，将第一完整图像和第三完整图像中每个像素的文本概率值取平均，得到均值融合后的图像，并基于该预定概率阈值将均值融合后的图像转换为二值图像。同时，在步骤S360中，基于预定概率阈值将第二完整图像转换为二值图像。

随后，在步骤S370中，将步骤S350和步骤S360生成的两个二值图像取交运算，得到该原始文档图像的最终二值化图像。

根据本发明的文档图像二值化方法300，其图像分块、局部图像拼接、全局图像拼接、二值图像转换、取交运算等具体细节可以参考前述方法200的相关描述，此处不再赘述。

图4示出了采用本发明实例的模型在DIBCO数据集的印刷文档图像上的二值化结果，其中左上角为原始文档图像，右上角为实际的二值化图像，左下角为基于局部信息预测的二值化图像，右下角则为结合局部信息和全局信息预测的二值化图像。可以看出，当只考虑局部信息时，即采用局部分块得到二值化图像时，容易错误地将降质文档图像中背景区域的文字预测为前景文本。而结合了全局和局部信息后则可以更好地区分背景区域和前景文字区域，从而对之后的图像字符识别、文本识别等工作带来极大便利，另一方面也能提高这些识别工作的准确性。

图5示出了根据本发明一个实施例的文档图像二值化装置500的结构框图，该装置500可以包含在如图1所示的计算设备100中。该计算设备中训练有对应于不同图像尺寸的卷积神经网络。如图5所示，该装置包括：图像预处理模块510、第一预测模块520、第二预测模块530和终值确定模块540。

图像预处理模块510将原始文档图像转换为灰度图像，并生成该灰度图像的降采样图像。图像预处理模块510可以进行与上面在步骤S210中描述的处理相对应的处理，这里不再展开赘述。

第一预测模块520采用第一图像尺寸对灰度图像进行局部分块，根据第一卷积神经网络得到各局部分块的文本概率图像，并将各文本概率图像拼接为第一完整图像。第一预测模块520可以进行与上面在步骤S220中描述的处理相对应的处理，这里不再展开赘述。

第二预测模块530采用第二图像尺寸对降采样图像进行全局分块，根据第二卷积神经网络得到各全局分块的文本概率图像，并将各文本概率图像拼接为第二完整图像。第二预测模块530可以进行与上面在步骤S230中描述的处理相对应的处理，这里不再展开赘述。

终值确定模块540基于预定概率阈值，分别将第一和第二完整图像转换为对应的二值图像后取交运算，得到原始文档图像的二值化图像。终值确定模块540可以进行与上面在步骤S240中描述的处理相对应的处理，这里不再展开赘述。

根据本发明的一个实施例，装置500还可以包括第三预测模块(图中未示出)，适于采用第三图像尺寸对灰度图像进行局部分块，根据第三卷积神经网络得到各局部分块的文本概率图像，并将各文本概率图像拼接为第三完整图像。这样，终值确定模块540在对第一完整图像进行二值转换时，可以先将第一完整图像和第三完整图像中每个像素的文本概率值取平均，得到均值融合后的图像。之后再基于预定概率阈值将均值融合后的图像转换为该第一完整图像所对应的二值图像。

在此基础上，装置500还可以包括第四预测模块(图中未示出)，适于采用第四图像尺寸对灰度图像进行局部分块，根据对应的第四卷积神经网络得到各局部分块的文本概率图像，并将各文本概率图像拼接为第四完整图像。这样，终值确定模块540在对第一完整图像进行二值转换时，可以先将第一、第三和第四完整图像进行均值融合后再转换为对应的二值图像。同理，装置500还可以有其他用于局部分块的预测模块(如第五预测模块等)。

同样地，对于全局分块的预测，也可以设置其他一个或多个全局预测模块(如第六预测模块、第七预测模块等)，再将其他全局预测模块的结果与第二预测模块的结果进行均值融合后再转换对应的二值图像。之后，再将所有局部预测模块的二值图像与所有全局预测模块的二值图像取交运算，得到更准确的最终二值化图像。

根据本发明的技术方案，可以兼顾全局上下文的空间信息以及前景文本轮廓的局部细节，更有效地从复杂背景中分割出前景文本。本发明对具有复杂的降质背景的文档图像二值化有明显的提升效果，适用于具有页面污渍、背面字迹渗透、字迹模糊和光照不均匀等降质文档图像的二值化。在实际应用中，本发明在公开数据集DIBCO2017上的四项评测指标Fm、p-Fm、PSNR、DRD均达到了非常好的评测值，超过了比赛的第一名。

A8、如A1-A7中任一项所述的方法，所述采用第一图像尺寸对所述灰度图像进行局部分块的步骤包括：设定图像分割的滑窗步长，并在该滑窗步长下采用所述第一图像尺寸对所述灰度图像进行图像分割。A9、如A1-A8中任一项所述的方法，还包括训练各卷积神经网络的步骤：分别采集多张对应图像尺寸的训练图片构成训练集，并根据该训练集对卷积神经网络进行训练，其中每张训练图像中标记有各像素的文本属性值或背景属性值。A10、如A8所述的方法，其中，所述背景属性值和文本属性值分别为0和1，此时所述文本概率值的取值范围为[0，1]，所述预定概率阈值为0.5。

A11、如A1-A10中任一项所述的方法，其中，将各全局分块的文本概率图像拼接为第二完整图像的步骤包括：对各全局分块所对应的文本概率图像进行图像拼接，并采用图像还原方法将拼接后的图像还原为原始文档图像尺寸，得到所述第二完整图像。A12、如A1-A11中任一项所述的方法，其中，两个二值图像取交运算的步骤包括：若某像素在两个二值图像中的值不相同，则取交运算后该像素值为0；若该像素在两个二值图像中的值均为a，则取交运算后该像素值依然为a。A13、如A1-A12中任一项所述的方法，其中，所述卷积神经网络为U型卷积神经网络。

B15、如B14所述的装置，其中，所述计算设备中还训练有对应于第三图像尺寸的第三卷积神经网络，所述装置还包括：第三预测模块，适于采用第三图像尺寸对所述灰度图像进行局部分块，根据所述第三卷积神经网络得到各局部分块的文本概率图像，并将各文本概率图像拼接为第三完整图像。B16、如B15所述的装置，其中，所述终值确定模块适于：将所述第一完整图像和第三完整图像中每个像素的文本概率值取平均，得到均值融合后的图像，并基于所述预定概率阈值将所述均值融合后的图像转换为所述第一完整图像所对应的二值图像。B17、如B15所述的装置，其中，所述第一图像尺寸为m×m，所述第二图像尺寸为n×n，所述第三图像尺寸为p×p，其中m＜p＜n。B18、如B17所述的装置，其中，若所述原始文档图像的宽度和高度分别为w和h，则所述降采样图像的宽度w₁和高度h₁分别为：

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的文档图像二值化方法。

以示例而非限制的方式，可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。

Claims

1.一种文档图像二值化方法，适于在计算设备中执行，所述计算设备中分别训练有对应于第一、第二和第三图像尺寸的第一、第二和第三卷积神经网络，该卷积神经网络能够得到输入图像的文本概率图像，该文本概率图像中标记有每个像素的文本概率值，所述方法包括：

将原始文档图像转换为灰度图像，并生成该灰度图像的降采样图像；其中，第一图像尺寸为m×m，第二图像尺寸为n×n，第三图像尺寸为p×p，其中m＜p＜n；并且，若所述原始文档图像的宽度和高度分别为w和h，则所述降采样图像的宽度w1和高度h1分别为：

采用第一图像尺寸对所述灰度图像进行局部分块，根据所述第一卷积神经网络得到各局部分块的文本概率图像，并将各文本概率图像拼接为第一完整图像；

采用第二图像尺寸对所述降采样图像进行全局分块，根据所述第二卷积神经网络得到各全局分块的文本概率图像，并将各文本概率图像拼接为第二完整图像；

采用第三图像尺寸对所述灰度图像进行局部分块，根据所述第三卷积神经网络得到各局部分块的文本概率图像，并将各文本概率图像拼接为第三完整图像；

将所述第一完整图像和第三完整图像中每个像素的文本概率值取平均，得到均值融合后的图像；

基于预定概率阈值，分别将所述均值融合后的图像和第二完整图像转换为对应的二值图像后取交运算，得到所述原始文档图像的二值化图像。

2.如权利要求1所述的方法，其中，基于预定概率阈值将所述第一完整图像转换为对应的二值图像的步骤包括：

若所述第一完整图像中某像素点的文本概率值小于所述预定概率阈值，则将该像素点的值设为背景属性值，反之则设为文本属性值。

3.如权利要求1所述的方法，其中，m＝128，p＝256，n＝512。

4.如权利要求1-3中任一项所述的方法，所述采用第一图像尺寸对所述灰度图像进行局部分块的步骤包括：

设定图像分割的滑窗步长，并在该滑窗步长下采用所述第一图像尺寸对所述灰度图像进行图像分割。

5.如权利要求1-3中任一项所述的方法，还包括训练各卷积神经网络的步骤：

分别采集多张对应图像尺寸的训练图片构成训练集，并根据该训练集对卷积神经网络进行训练，其中每张训练图像中标记有各像素的文本属性值或背景属性值。

6.如权利要求2所述的方法，其中，

所述背景属性值和文本属性值分别为0和1，此时所述文本概率值的取值范围为[0，1]，所述预定概率阈值为0.5。

7.如权利要求1-3中任一项所述的方法，其中，将各全局分块的文本概率图像拼接为第二完整图像的步骤包括：

对各全局分块所对应的文本概率图像进行图像拼接，并采用图像还原方法将拼接后的图像还原为原始文档图像尺寸，得到所述第二完整图像。

8.如权利要求1-3中任一项所述的方法，其中，两个二值图像取交运算的步骤包括：

若某像素在两个二值图像中的值不相同，则取交运算后该像素值为0；

若该像素在两个二值图像中的值均为a，则取交运算后该像素值依然为a。

9.如权利要求1-3中任一项所述的方法，其中，所述卷积神经网络为U型卷积神经网络。

10.一种文档图像二值化装置，适于驻留在计算设备中，所述计算设备中分别训练有对应于第一、第二和第三图像尺寸的第一、第二和第三卷积神经网络，该卷积神经网络能够得到输入图像的文本概率图像，该文本概率图像中标记有每个像素的文本概率值，所述装置包括：

图像预处理模块，适于将原始文档图像转换为灰度图像，并生成该灰度图像的降采样图像；其中，第一图像尺寸为m×m，第二图像尺寸为n×n，第三图像尺寸为p×p，其中m＜p＜n；并且，若所述原始文档图像的宽度和高度分别为w和h，则所述降采样图像的宽度w1和高度h1分别为：

第一预测模块，适于采用第一图像尺寸对所述灰度图像进行局部分块，根据所述第一卷积神经网络得到各局部分块的文本概率图像，并将各文本概率图像拼接为第一完整图像；

第二预测模块，适于采用第二图像尺寸对所述降采样图像进行全局分块，根据所述第二卷积神经网络得到各全局分块的文本概率图像，并将各文本概率图像拼接为第二完整图像；

第三预测模块，适于采用第三图像尺寸对所述灰度图像进行局部分块，根据所述第三卷积神经网络得到各局部分块的文本概率图像，并将各文本概率图像拼接为第三完整图像；

终值确定模块，适于将所述第一完整图像和第三完整图像中每个像素的文本概率值取平均，得到均值融合后的图像，基于预定概率阈值，分别将所述均值融合后的图像和第二完整图像转换为对应的二值图像后取交运算，得到所述原始文档图像的二值化图像。

11.一种计算设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序被处理器执行时实现权利要求1-9任一项所述的方法的步骤。

12.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时实现权利要求1-9任一项所述的方法的步骤。