CN111401372A

CN111401372A - 一种扫描文档图文信息提取与鉴别的方法

Info

Publication number: CN111401372A
Application number: CN201911326611.4A
Authority: CN
Inventors: 姚渭箐; 李新德; 戴俊峰; 张�成; 黄杰; 郭峰; 张泉; 肖进胜; 熊闻心; 杨天
Original assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-07-10
Anticipated expiration: 2039-12-20
Also published as: CN111401372B

Abstract

本发明涉及一种扫描文档图文信息提取与鉴别的方法，该方法包括以下步骤：1)将扫描的文档图像进行预处理，并将预处理后图像进行版面分割，选出包括但不限于签名、印章；2)将1)提取的签名经过预处理，采用OTSU算法去除背景后，输入到Writer‑Dependent网络中提取其特征值，再输入至使用真实签名训练得到的SVM分类器中，得到该签名的真伪性；3)将1)提取的印章经过预处理后进行极坐标转化，使得印章内部的环形文字展开为横向排列文字，将展开后的文字输入到CPTN+CRNN网络中依次进行提取和识别，输出印章的文字内容；4)判断该文档的有效性。本发明能够代替人工对文档进行分析与判断。

Description

一种扫描文档图文信息提取与鉴别的方法

技术领域

本发明涉及图文识别技术领域，更具体地说，涉及一种扫描文档图文信息提取与鉴别的方法。

背景技术

OCR(optical character recognition，光学字符识别)能够利用光学设备去捕获图像并识别文字，将人眼的能力延伸到机器上，将扫描文档中的图文信息识别成可编辑的文本，可代替人工录入，提升业务效率。而在实际的工作中，文档处理者往往会使用文档的日期、签名和印章等关键内容去鉴别该文档的类别与有效性。目前文档信息的提取与鉴别都是通过人工完成，效率低下且存在误判漏判等情况。所以利用OCR与图像处理相关的技术对扫描文档图文信息进行提取与鉴别，在实际的工作中具有重要意义。

目前光学字符识别主要包含以下三个领域：文档版面分析、文本检测与识别、自然场景下多形态文本检测与识别。文档版面分析包含文档分割与分割区域识别两大步，能够对版面内的图像、文本、表格信息和位置关系所进行的自动分析。文本检测与识别能够识别出扫描文档内的文字信息，将纸质文档转化成为方便编辑的电子文本。自然场景下多形态文本检测与识别克服了自然场景的复杂多样性，可以识别出各种场景下的文字。

光学字符识别具体的实现主要包含文档图文信息内容的检测与文档图文信息的识别两个步骤。文档图文信息内容的提取主要是能够将筛选出文档内的图文信息区域，文档图文信息的识别对得到的图文信息区域进行识别，将纸质文本信息转化为电子文本信息。文档图文信息内容的检测主要有基于纹理的连通域的传统方法和基于目标检测的深度学习的方法。文档图文信息内容的识别主要有基于浅层模型的字符识别算法、基于深度网络的字符识别算法和基于深度网络的序列识别算法。

对于简单的印刷字体文档识别与复杂场景的文字检测与识别已经取得了长足的发展，但是对于文档关键信息的提取与鉴别却缺乏有效的方法。

发明内容

(一)要解决的技术问题

为解决现有技术存在的问题，本发明提供一种扫描文档图文信息提取与鉴别的方法，利用图像处理、深度学习、模式识别多种方法对扫描文档的多处关键图文信息进行提取与鉴别，能够利用扫描文档内部的关键信息判断出该文档的有效性与真实性，能够代替人工对文档进行分析与判断，具有重要的使用价值。

(二)技术方案

为了达到上述目的，本发明采用的主要技术方案包括：

设计一种扫描文档图文信息提取与鉴别的方法，该方法包括以下步骤：

步骤1)，将扫描的文档图像进行去噪、平滑预处理，并将预处理后图像进行版面分割，选出包括但不限于签名、印章；

步骤2)，将步骤1)提取的签名经过预处理，采用OTSU算法去除背景后，输入到Writer-Dependent网络中提取其特征值，再输入至使用真实签名训练得到的SVM分类器中，得到该签名的真伪性；

步骤3)，将步骤1)提取的印章经过预处理后进行极坐标转化，使得印章内部的环形文字展开为横向排列文字，将展开后的文字输入到 CPTN+CRNN网络中依次进行提取和识别，输出印章的文字内容；

步骤4)，利用步骤2)至步骤3)得到的签名得分值与印章内容判断该文档的有效性。

优选地，在所述步骤1)中，使用相机将纸质文档转化为扫描照片。对相机拍摄的图像进行去噪、平滑预处理，就是对相机拍摄的图像进行中值滤波。

优选地，在所述步骤1)中，将预处理后图像进行版面分割，选出包括但不限于签名、印章，包括以下步骤：使用关键字模板匹配定位出签名、印章；然后在签名关键字附近分割出签名区域；在盖章关键字附近采用霍夫变换检测出印章所在的区域，分割出印章区域。

优选地，在所述步骤1)中，签名关键区域分割具体包括以下步骤：首先采用Canny算子提取字符轮廓，然后寻找物体的凸包，再使用矩形将轮廓凸包包围，筛选轮廓矩形进行分割，在进行图像分割的同时将分割后的矩形按左上角横坐标的值进行矩形框信息的存储。

优选地，在所述步骤1)中，印章关键区域分割具体包括以下步骤：先采用圆形检测识别印章所在区域，然后依赖检测出的圆形对印章进行提取。

优选地，在所述步骤4)中，根据步骤2)至步骤3)提取得到文档的签发日期、签名者的真伪信息与文档所盖公章的信息，如果检测出签发日期超出范围、签名者签名伪造或文档印章信息与单位所属印章内容不符合，则判断该文档为无效文档。

(三)有益效果

本发明可以有效应对各种纸质文档的日期、签名、印章等关键信息实现快速高效的检测和识别，依据这些关键信息去判断该文档的有效性与真实性。

本发明综合利用合同电子文档中的签名与印章内容作为鉴别印章有效性的依据，相比与其他方法具有更加严格的判断标准。

本发明在预处理、子图像提取、特征提取等各个方面具有显著的优势，具有很好的参考价值和可比性，在预处理阶段结合印章颜色的特殊性，在灰度化过程中采用非线性灰度化，加大R通道的比重，能够更好的保留印章的内容，去除与印章内容无关的背景信息。

本发明在印章文字提取前，对印章进行极坐标展开，并且与双线性插值拉升合并，在展开的同时能够对印章进行拉升，保证极坐标展开后的印章文字能够保证正确的比例，防止因为字体形变而产生的漏检与误检等情况。

本发明在印章文字的提取阶段，相比CTPN原始算法简单的矩形框提取，在文字提取算法方面做出来改进，在anchor合并过程中采用贝塞尔曲线拟合，可以使得提取的文字框更加紧凑，减少由于文字位置分布而造成的冗余信息，降低印章中无效信息的干扰。

附图说明

图1是本发明实施例提供的中值滤波效果图；

图2是本发明实施例提供的轮廓点坐标图；

图3是本发明实施例提供的圆形检测识别印章所在区域的流程图；

图4是本发明实施例提供的签名鉴别流程图；

图5是本发明实施例提供的Writer-Dependent卷积网络的训练架构图；

图6是本发明实施例提供的印章识别流程图；

图7是本发明实施例提供的环形图像转化为直角图像的原理示意图；

图8是本发明实施例提供的CTPN网络提取文字的流程图；

图9是本发明实施例提供的CRNN网络识别文字的流程图；

图10是本发明实施例提供的Map-to-Sequence示意图；

图11是本发明实施例提供的循环层输入与输出示意图；

图12是本发明实施例提供的转录层最终输出效果图。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

本发明提供一种扫描文档图文信息提取与鉴别的方法，该方法包括以下步骤：

步骤2)，将步骤1)提取的签名经过预处理，去除背景后，输入到 Writer-Dependent网络中提取其特征值，再输入至使用真实签名训练得到的 SVM分类器中，得到该签名的真伪性；

步骤3)，将步骤1)提取的印章经过预处理后进行极坐标转化，使得印章内部的环形文字展开为横向排列文字，将展开后的文字输入到 CPTN+CRNN网络中，输出印章的文字内容；

优选地，步骤1)中使用相机将纸质文档转化为扫描照片，所述扫描照片宽度为U，高度为V；步骤1)中对相机拍摄的图像进行去噪、平滑预处理，就是对相机拍摄的图像进行中值滤波，滤波后可以去除扫描文档内的噪点，其中，中值滤波原理如下：

如图1所示，我们在图像中取3×3的矩阵，里面有9个像素点，我们将 9个像素以像素值的大小进行排序，最后将这9个像素的中值赋值为这个矩阵的中心点。

步骤1)中将预处理后图像进行版面分割，选出包括但不限于签名、印章，包括以下步骤：使用关键字模板匹配定位出签名、印章，然后在签名关键字附近分割出签名区域，在盖章关键字附近采用霍夫变换检测出印章所在的区域，分割出印章区域。

步骤1)中签名关键区域分割是依靠字符轮廓进行分割，首先采用Canny 算子提取其轮廓，然后寻找物体的凸包，再使用矩形将轮廓凸包包围，筛选轮廓矩形进行分割，在进行图像分割的同时将分割后的矩形按左上角横坐标的值进行矩形框信息的存储。其中，字符轮廓点提取采用Canny算子，Canny 算子提取字符轮廓点的原理如下：

1、消除噪声：使用高斯平滑滤波器进行卷积降噪，所选用的高斯内核k 如下:

2、计算每个像素点的梯度幅值和方向：按照Sobel滤波器的步骤，先运用一维卷积矩阵G_x,G_y沿水平方向与垂直方向对图像W进行卷积操作，得到水平方向与垂直方向的Sobel矩阵S_x,S_y，

分别代表Sobel矩阵S_x,S_y中的任意一个点，然后使用

计算出每个点的像素梯度值G与方向θ，计算过程如下：

3、进行非最大值抑制：比较当前点的梯度强度G和具有相同正负梯度方向θ点的梯度强度，如果当前点的梯度强度和同方向的其他点的梯度强度相比较是最大，保留其值。否则抑制，即将强度设置为0。比如当前点的方向指向正上方90°方向，那它需要和它的正上方和正下方的像素比较，找出这些方向上最大的梯度强度点，其他点的梯度强度设置为0。

4、双阈值抑制：采用一个高阀值h＝100和一个低阀值l＝50来区分边缘像素。如果像素点梯度值G>h，则被认为是强边缘点。如果像素点梯度值 l<G<h，则标记为弱边缘点。像素点梯度值G<l，则被抑制掉。

5、滞后边界跟踪：检查一个弱边缘点的8连通领域像素，只要有强边缘点存在，那么这个弱边缘点被认为是真是边缘保留下来，最后将这些保留下来的边缘点作为提取的轮廓。

步骤1)中轮廓提取的主要作用是将上一步提取的每个字符轮廓点连接起来构成的多边形，然后以该多边形分割字符。原理如下所示：

1、把上一步提取的所有轮廓点放在二维直角坐标系中，则纵坐标最小的点一定是凸包上的点，如图2中的P0。

2、以P0作为坐标参考点，计算各个点相对于P0的幅角α，按从小到大的顺序对各个点排序。当α相同时，距离P0比较近的排在前面。例如图2 得到的结果为P1，P2，P3，P4，P5，P6，P7，P8。我们由定义可以知道，结果中第一个点P1一定是凸包上的点。

3、我们已经知道凸包上的第一个点P0和第二个点P1，我们把凸点放在栈里面。把P1后面的那个点P2拿出来作为当前点，接下来开始找第三个点。

4、依次从栈顶取出两个点组成直线P_x-1,x，看当前点P2是否处入直线P_x-1,x的左边，若是则将P2压入栈，若不是则选择下一个点P3作为当前点，直到所有点都处理完。然后选出栈中所有点中最小的横纵坐标x_min,y_min，所有点中最大的横纵坐标x_max,y_max，以点(x_min,y_min)为左上角坐标，以点(x_max,y_max)为右下角坐标截取字符。

步骤1)中印章关键区域分割依靠圆形检测识别印章所在区域，然后依赖检测出的圆形对印章进行提取，圆形提取流程如图3所示：

对于任意一个圆，采用如下表示方法：

(x-a)²+(y-b)²＝r² (5)

其中，a,b为圆心坐标，r为半径。经过一个点可以作出无数个圆。假设某个点平面坐标为(x_i,y_i)，使用的参数为(a_i,b_i,r_i)，则经过此点的圆的表达式为(x_i-a_i)²+(y_i-b_i)²＝r_i ²。对于点(x_j,y_j)，必定存在(a_j,b_j,r_j)使得近似计算中 a_i＝a_j,b_i＝b_j,r_i＝r_j，即两个点在同一个圆上；同理，如果三个点在同一个圆上，则也必须存在a_i＝a_j＝a_k＝a,b_i＝b_j＝b_k＝b,r_i＝r_j＝r_k＝r的情况。所以在指定半径r 的范围时，此时点(x,y)又已知，根据(x-a)²+(y-b)²＝r²，则(a,b)的轨迹在几何上则变成了以(x,y)为圆心，r为半径的圆。联立(a_i,b_i,r_i),(a_j,b_j,r_j),(a_k,a_k,r_k)的方程。求解出(x,y)即为圆心。

步骤2)中签名鉴别流程图如4所示，该步骤包括下步骤：

步骤2.1)，预处理过程首先将图片缩放至W₂*H₂，其中W₂＝220,H₂＝150；再将图片行灰度转化。

灰度图像转化过程为将预处理后图像的RGB三个通道中的最低值作为当前像素点的像素值：

f(i,j)＝min(R(i,j),G(i,j),B(i,j)) (6)

其中，f(i,j)表示灰度图像中第i行第j列像素点的像素值，R(i,j)表示预处理后图像中第i行第j列R通道像素点的像素值，G(i,j)表示预处理后图像中第i行第j列G通道像素点的像素值，B(i,j)表示预处理后图像中第i行第j列B通道像素点的像素值，i∈[0,W₂-1],j∈[0,H₂-1]。

步骤2.2)，使用OTSU算法去除背景。设置背景为白色，保留前景像素的灰度值，然后将每个像素进行反转，得到零值背景图像。

OTSU算法实现过程：

将灰度等级T从0～255划分为16个等级，当T为某个值时，前景和背景的像素值方差g最大，这个T就为我们所求的灰度等级，其中，

g＝w₀*(u₀-u)*(u₀-u)+w₁*(u₁-u)*(u₁-u) (7)

w₀表示灰度图以T划分后前景像素点所占的比例；

u₀表示灰度图以T划分后前景像素点的平均灰度值；

w₁表示灰度图以T划分后背景像素点所占的比例；

u₁表示灰度图以T划分后背景像素点的平均灰度值；

u＝w₀*u₀+w₁*u₁表示图像总的平均灰度。

利用灰度等级T把灰度化之后的图片分成2个部分，当像素值f(i,j)>T，则该像数值为前景，当像素值f(i,j)<T，则该像数值为背景。

像素反转原理：

其中f(i,j)为图像的像素值，T为OTSU算法所求的灰度划分值。

步骤2.3)，Writer-Dependent卷积网络结构如表1所示：

表1 Writer-Dependent卷积神经网络

Writer-Dependent卷积网络的输入为W₂*H₂的灰度签名图片，输出为2048 维特征向量

然后特征向量

输入至分类器SVM中得到最终的真伪分数C，当输出分数C大于8时认为其为伪造签名，当C小于或等于8时认为其为真实签名。

Writer-Dependent卷积网络的训练架构图如图5所示。

设x_i是来自于一组用户y_j的签名数据集(i∈N,j∈M)，其中签名样本图片数量为N，用户数量为M，每个用户拥有若干真实签名与伪造签名。每张签名样本表示为(x,y,f)，x表示签名图片样本(x∈x_i)，y为该样本的用户标签 (y∈y_i)，f为签名样本的真伪标签(f＝1为真实签名，f＝0为伪造签名)。将每个样本输入Writer-Dependent卷积网络经过全连接层后可以得到该样本的特征向量

然后将该特征向量作为输入经过Softmax全连接层输出一个M维向量，其中每一维为P(y_i|x)，表示签名样本x属于用户y_i的概率。将特征向量

作为输入经过Sigmoid全连接层输出一个概率值P(f|x)，表示该签名样本为真实签名的概率。在Writer-Dependent网络训练过程中使用随机梯度下降算法，当损失函数L₂取得最小值时即可以得到Writer-Dependent 网络的权重参数W。其中，

L₂＝(1-λ)L_c+λL_f (9)

L_f＝-f_ilog(P(f|x_i))-(1-f_i)log(1-P(f|x_i)) (11)

L_c为用户分类损失函数，y_ij为签名样本x_i对应的用户标签，f_i为签名样本x_i对应的真伪标签，λ为超参数。

利用训练好的Writer-Dependent网络可以计算得到每个签名样本x_i的特征向量

其中

然后将特征向量输入至SVM分类器中，得到该签名的真伪得分C。其中，

w_svm为SVM分类器的权重系数。

步骤2.4)，训练最终SVM分类器。

将签名图片x_i经过Writer-Dependent网络后得到其1024维的特征

以该用户的真实签名为正样本，以其他用户的签名或者该用户的伪造签名为负样本，为每一个用户训练一个SVM分类器。并且在SVM分类器在训练过程中对于正负样本采用不同的权重系数，来消除正负样本不均衡的问题。 SVM分类器的训练目标如下：

其中，y_i(w_svm*x_i+b)≥1-ξ_i；ξ_i≥0；

w_svm为SVM 分类器的权重系数，c⁺为正样本系数，c^-为负样本系数，ξ_i为拉格朗日乘子。

步骤3)中印章识别流程图如图6所示。印章识别具体包括以下步骤：

步骤3.1)，预处理过程主要目的是为了能够提取出印章部分，其预处理主要包含非线性灰度化与圆形区域提取两步：

一般的图像处理过程中灰度化能够将将彩色图像转化成为灰度图像，彩色图像中的每个像素的颜色有R、G、B三个分量决定，而每个分量有255 中值可取，这样一个像素点可以有1600多万(255*255*255)的颜色的变化范围。而灰度图像是R、G、B三个分量相同的一种特殊的彩色图像，其像素点的变化范围为255种，所以在数字图像处理种一般先将各种格式的图像转变成灰度图像以使后续的图像的计算量变得少一些。灰度图像的描述与彩色图像一样仍然反映了整幅图像的整体和局部的色度和亮度等级的分布和特征。一般的灰度化过程如步骤2.1)中的预处理所示，获取R、G、B三通道中的均值或者最小值，而在印章的提取过程中，往往印章的红色属性被作为主要的特征使用，所以印章部分的灰度化采用非线性灰度化，加强R通道的比重，这样使得灰度化之后的图像能够够好的保留印章的信息。灰度化的公式如下：

f(i,j)＝0.5R(i,j),+0.25(i,j)+0.25B(i,j)) (14)

步骤3.2)，极坐标转化过程能够将印章内环形的文字展开为横向排列的文字，一般转换后的文字会产生形变，为了方便后续的文字识别，在转换的同时也融合了双线性插值，能够克服环形文字转换之后产生的形变问题，其转换原理如图7所示。

圆图中点p(i,j)在方图中对应的坐标为q(x,y)，方图中的每一列对应圆图中的一个圆环，圆图的半径为R，方图的长宽为N×M，定义缩放因子

角度因子为

圆图上图像坐标系(i,j)和矩形坐标系 (x,y)的变换关系为：

再将极坐标转换为直角坐标图像的过程中，采用了双线性插值，对图像进行拉伸，该拉升的过程可以在转换的同时完成，并不需要先进行拉升在进行转换。整体的转换过程如下：

f(x,y)＝(1-u)(1-v)f(Z_x,Z_y)+(1-u)vf(Z_x,Z_y+1)+u(v+1)f(Z_x+1,j)+uvf(Z_x+1,Z_y+1)

(19)

其中，Z_x、Z_y为直角坐标转换为极坐标后的整数部分，u,v为直角坐标转换为极坐标后的小数部分。

步骤3.3)，CTPN网络的主要作用是在展开的矩形图像中提取出文字所在区域，方便后续CRNN网络对文字的识别，CTPN网络的流程如图8所示：

1、首先用VGG16的前5个卷积层得到feature map，大小为W×H×C；

2、用3*3的滑动窗口在前一步得到的feature map上提取特征，得到一个新的feature map,在新的feature map上面对每一个点选取10个框，每个框的高度从11～273像素变换(每次增加1.4倍)，宽度固定为16个像素点，这样的框也可以称为anchor，其数量为k个；

3、将这k个anchor输入到一个双向的LSTM中，输出W*256的结果，再将这个结果输入到一个512维的全连接层(FC)；

4、最后通过分类或回归得到输出结果，主要分为三部分，根据图8从上到下依次为：2k vertical coordinates表示选择框的高度和中心的y轴的坐标；2k scores表示k个anchor的类别信息，说明其是否为字符； k side-refinement表示选择框的水平偏移量；该步骤可以判断所选的k个 anchor中哪些属于文字框，哪些属于背景框；

5、用文本构造的算法，将上一步得到的细长文字框合并成文本的序列框。文本构造的算法如下：

每两个相近的文字框组成一个pair，然后迭代合并不同的pair成一个新的pair，直到不同的pair不能够合并为止，最后剩下m个pair，即代表该图像内部有m个文本区域，合并文本框或pair的条件为B_i->B_j，B_j->B_i。

B_i->B_j该符号的判定条件如下：

B_i到B_j的水平距离最小，即B_ix至B_jx的值最小；

B_i到B_j的距离值小于50个像素，即

B_i与B_j的交并比大于0.7；

其中：B_i、B_j代表不同的文本框或pair，(B_ix,B_iy)为B_i的中心坐标， (B_jx,B_jy)为B_j的中心坐标。在CTPN原始的合并算法中，当确定每个anchor 所属的pair之后，对于每个pair选取所属anchor之中最小的横纵坐标 (x_min,y_min)为左上角顶点，以每个pair选取所属anchor之中最大的横纵坐标 (x_max,y_max)为右下角顶点，直接将该区域作为文本框进行截取，有可能将复杂背景包含进来，本发明采用贝塞尔曲线拟合该文本框，能够有效去除多余的背景，其原理如下：

假设当前pair中由n个anchor构成，选取第一个anchor的左上角顶点为上边界点

每个anchor的上边界框的中点为当前anchor的上边界点

i∈(1,n)，第n个anchor的右上角顶点为上边界点

同理选取第一个 anchor的左下角顶点为上边界点

每个anchor的上边界框的中点为当前 anchor的上边界点

i∈(1,n)，第n个anchor的右上角顶点为上边界点

对于所有的上边界与下边界点集采用三阶贝塞尔曲线进行拟合，其拟合的公式如下：

B(t)＝(1-t)³p_i+3(1-t)²p_i+1+3(1-t)t²p_i+2+t³p_i+3,0≤t≤1 0≤i≤n-1 (20)

步骤3.4)，CRNN网络的主要作用是对前一步CTPN提取的文字框进行识别。整个CRNN识别文字流程如图9所示下。CRNN主要有三部分构成：

1、CNN(卷积层)，使用深度CNN，对输入图像提取特征，得到特征图；

2、RNN(循环层)，使用双向RNN(BLSTM)对特征序列进行预测，对序列中的每个特征向量进行学习，并输出预测标签(真实值)分布；

3、CTC loss(转录层)，使用CTC损失，把从循环层获取的一系列标签分布转换成最终的标签序列。

下面对每一层做出说明：

CNN(卷积层)：将CTPN网络提取的文字区域进行缩放，同一缩放为高度height＝32,宽度width＝160,通道数channel＝1的灰度图像，然后输入到 CNN网络中，得到height＝1,width＝40,channel＝512的feature map,该过程使用的CNN网络结构如表2所示：

表2 CNN卷积神经网络

通过CNN网络的提取后我们可以得到字符图片的feature map，但是不能够将feature map直接输入到RNN网络，还需要通过Map-to-Sequence将特征图提取成为RNN需要的特征序列，在CNN模型产生的feature map中按照通道数将相同通道的特征组成新的特征序列feature sequence，feature sequence的每列对应于原始图像的一个矩形区域(该区域称为感受野)，并且这些矩形区域与feature sequence从左到右对应。所以可以组合生成40个特征向量，记为

每个特征向量的大小为height＝1,width＝1,channel＝512，feature sequence中的每个特征向量关联一个感受野。Map-to-Sequence示意图如图10所示：

RNN(循环层)：将CNN输出的feature sequence输入至RNN网络中可以得到每个特征向量对应的字符标签，这里采用的是两层各256单元的双向 LSTM网络，LSTM网络能够使得上下文信息相互影响，卷积层得到的40 个特征向量

作为40个时间步输入至LSTM网络中，因此，LSTM 输出40个26维的字符的概率分布向量y_i(0≤i<40)，组成 height＝40,width＝26,channel＝1的后验概率矩阵W，该矩阵的横坐标为s(与40 个特征序列对应),横坐标为w(与26个字母对应)，每个元素

代表特征向量

可能包含字符w的概率，RNN的结构与输出如图11所示。经过RNN层得到后验概率矩阵W，将该矩阵作为CTC层的输入。

CTC loss(转录层)：转录是将RNN输出的后验概率矩阵W转化为实际输出的字符，将后验概率矩阵W中的每一列的最大值对应的字符作为该列标签，这样每个后验概率矩阵W可以得到40个文本标签，然后使用CTC 网络对标签进行编码，编码后使用合并算法输出最终的字符串。

CTC网络编码的规则与合并算法：在40个文本标签中重复的字符之间插入一个“-”，并且能够去除不存在字符的标签，“-”代表该符号两边相同的字符不需要合并，而没有“-”号的相连相同字符需要合并为同一个字符，该编码过程是由CTC网络训练得到的,训练过程依旧使用梯度下降算法。转录层过程如图12所示。

步骤4)中文档有效性鉴别的主要参考标准为步骤2)至步骤3)得到的时间日期、签名得分值与印章内容，通过步骤2)至步骤3)的提取后，可以得到该文档的签发日期、签名者的真伪信息与文档所盖公章的信息，如果检测出签发日期超出范围、签名者签名伪造或文档印章信息与单位所属印章内容不符合则可以判断该文档为无效文档。

附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种扫描文档图文信息提取与鉴别的方法，该方法包括以下步骤：

步骤3)，将步骤1)提取的印章经过预处理后进行极坐标转化，使得印章内部的环形文字展开为横向排列文字，将展开后的文字输入到CPTN+CRNN网络中依次进行提取和识别，输出印章的文字内容；

2.根据权利要求1所述的一种扫描文档图文信息提取与鉴别的方法，其特征在于，在所述步骤1)中，使用相机将纸质文档转化为扫描照片。对相机拍摄的图像进行去噪、平滑预处理，就是对相机拍摄的图像进行中值滤波。

3.根据权利要求1所述的一种扫描文档图文信息提取与鉴别的方法，其特征在于，在所述步骤1)中，将预处理后图像进行版面分割，选出包括但不限于签名、印章，包括以下步骤：使用关键字模板匹配定位出签名、印章；然后在签名关键字附近分割出签名区域；在盖章关键字附近采用霍夫变换检测出印章所在的区域，分割出印章区域。

4.根据权利要求3所述的一种扫描文档图文信息提取与鉴别的方法，其特征在于，在所述步骤1)中，签名关键区域分割具体包括以下步骤：首先采用Canny算子提取字符轮廓，然后寻找物体的凸包，再使用矩形将轮廓凸包包围，筛选轮廓矩形进行分割，在进行图像分割的同时将分割后的矩形按左上角横坐标的值进行矩形框信息的存储。

5.根据权利要求3所述的一种扫描文档图文信息提取与鉴别的方法，其特征在于，在所述步骤1)中，印章关键区域分割具体包括以下步骤：先采用圆形检测识别印章所在区域，然后依赖检测出的圆形对印章进行提取。

6.根据权利要求1所述的一种扫描文档图文信息提取与鉴别的方法，其特征在于，在所述步骤4)中，根据步骤2)至步骤3)提取得到文档的签发日期、签名者的真伪信息与文档所盖公章的信息，如果检测出签发日期超出范围、签名者签名伪造或文档印章信息与单位所属印章内容不符合，则判断该文档为无效文档。