CN109993160A

CN109993160A - 一种图像矫正及文本与位置识别方法及系统

Info

Publication number: CN109993160A
Application number: CN201910119284.9A
Authority: CN
Inventors: 何宁; 孙欣
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2019-02-18
Filing date: 2019-02-18
Publication date: 2019-07-09
Anticipated expiration: 2039-02-18
Also published as: CN109993160B

Abstract

本发明提供一种图像矫正及文本与位置识别方法及系统，其中方法包括输入待检测图片，还包括以下步骤：检测所述待检测图片的文字角度，拟合直线，并统计所述直线的斜率，依据众数方向θ作为图片的矫正方向；利用仿射变换矩阵，对所述待检测图片进行位置旋转；使用faster‑rcnn定位技术对所述待检测图片的信息进行预识别；将预识别的目标区域输入卷积深度神经网络CLNN进行文字及其位置的精准识别；输出识别结果。本发明提出一种图像矫正及文本与位置识别方法及系统，基于神经网络的图像矫正及文本与位置识别模型，主要解决身份证、名片、表格图片等文本及其位置识别问题，以满足各行业应用需求，给用户带来更好的体验。

Description

一种图像矫正及文本与位置识别方法及系统

技术领域

本发明涉及图像视觉的技术领域，特别是一种图像矫正及文本与位置识别方法及系统。

背景技术

诸多行业领域、场合都需要进行图像序列的文字识别与检测，例如身份证件信息的文本检测，银行、火车站、飞机场、酒店等都有专门工作人员来进行该项工作。文本及位置检测识别系统的研发初衷，就是基于深度学习网络，使用深层特征表示身份证信息，实现快速、准确的文本识别与检测。随着移动互联网的发展，越来越多的应用技术都涉及到证件信息的输入认证(即实名认证)，手动输入信息速度较慢，且用户体验差。

公开号为CN107749048A的发明专利公开了一种图像矫正系统及方法、色盲图像矫正系统及方法，该方法包括以下步骤：矫正图像数据集合构建步骤，采用复合规定要求的图片，根据所述图片构建矫正数据集合；图像矫正模型构建步骤，基于所述矫正图像数据集合，利用深度卷积神经网络构建图像矫正模型；以及图像矫正步骤，将原始图像作为输入数据到所述图像矫正模型作为输出，出处得到矫正后的矫正图像。该方法的缺点是利用神经网络矫正图像，速度慢，而且适用场景固定，不能进行很好的迁移，因此不能针对任何场景达到理想的矫正效果。

发明内容

为了解决上述的技术问题，本发明提出一种图像矫正及文本与位置识别方法及系统，基于神经网络的图像矫正及文本与位置识别模型，主要解决身份证、名片、表格图片等文本及其位置识别问题，以满足各行业应用需求，给用户带来更好的体验。

本发明的第一目的是提供一种图像矫正及文本与位置识别方法，包括以下步骤：

步骤1：检测所述待检测图片的文字角度，拟合直线，并统计所述直线的斜率，依据众数方向θ作为图片的矫正方向；

步骤2：利用仿射变换矩阵，对所述待检测图片进行位置旋转；

步骤3：使用faster-rcnn定位技术对所述待检测图片的信息进行预识别；

步骤4：将预识别的目标区域输入卷积深度神经网络CLNN进行文字及其位置的精准识别；

步骤5：输出识别结果。

优选的是，所述步骤1包括利用点和线之间的对偶关系，将图像空间中的离散点转换为霍夫空间的曲线，并将曲线交点作为所述直线方程的参数，对参数进行统计。

在上述任一方案中优选的是，所述转换的公式如下：

ρ＝x₁ cosθ+y₁ sinθ

其中，ρ表示像素点在霍夫空间的表示，x₁表示像素点在图像空间中的横坐标，y₁表示像素点在图像空间中的纵坐标。

在上述任一方案中优选的是，所述步骤1还包括统计转换到霍夫空间的曲线交点，如果超过阈值则认为是文字方向，记录参数(ρ，θ)，进一步统计参数的众数。

在上述任一方案中优选的是，所述步骤2包括将所述众数方向θ作为旋转角度得到仿射变换矩阵A。

在上述任一方案中优选的是，利用仿射变换公式映射像素点，其方法包括一个对向量平移与仿射变换矩阵A的仿射映射为：

其中，y表示矫正图片的像素位置，K表示仿射变换矩阵的缩放因子，x表示原始图像中像素位置，b表示仿变换矩阵的平移因子。

在上述任一方案中优选的是，在两个仿射空间之间的仿射变换，是在向量上呈现线性坐标点的变换，f‘变换到决定于任一坐标点的线性变换：P，Q∈A：

其中，P表示原始图片任意一点，Q表示原始图片任意一点，f表示原始图片中线性表示，即P点Q点共线，表示放射变换空间中的线性表示，即通过同一线之点(即称为共线点)在变换后仍呈共线。

在上述任一方案中优选的是，所述步骤3包括使用矫正图片，输入faster-rcnn识别网络，对图片的信息进行预识别，识别出可能是文本信息的目标。

在上述任一方案中优选的是，所述步骤3包括以下子步骤：

步骤31：产生候选区域，包括其位置坐标和预测得分，对相同横坐标的候选区域构建一个列表；

步骤32：对每个列表中的候选区域建立关系图，进行非极大值抑制，过滤掉大面积重合的候选区域；

步骤33：选择得分最高的候选区域作为最后的文本目标区域，将文本区域保存为图片进行下一步检测识别。

在上述任一方案中优选的是，所述步骤4包括以下子步骤：

步骤41：将识别网络得到的信息区域，逐个进入检测网络；

步骤42：生成N个时序下，每个批次的M个概率信息。

在上述任一方案中优选的是，所述步骤41包括将长度为T的输出路径映射到序列l，公式为

其中，α表示输出时刻t且经过映射之后为序列l的路径的概率之和，t表示输出路径长度T的任意位置，u表示序列l的任意位置，表示t时刻label为l′_u，i的取值根据f(u)决定，f(u)为常规变量。

在上述任一方案中优选的是，所述常规变量f(u)的公式为

其中，l′_u表示u时刻的label。

在上述任一方案中优选的是，所述步骤5包括选择最大概率文字作为输出信息结果。

本发明的第二目的是提供一种图像矫正及文本与位置识别系统，包括用于输入待检测图片的输入模块，还包括以下模块：

测模块：用于检测所述待检测图片的文字角度，拟合直线，并统计所述直线的斜率，依据众数方向θ作为图片的矫正方向；

旋转模块：用于利用仿射变换矩阵，对所述待检测图片进行位置旋转；

预识别模块：用于计算当前所述场地无人车与所述M点的横向偏差ex(t)和切线夹角e(t)；

精确识别模块：用于将预识别的目标区域输入卷积深度神经网络CLNN进行文字及其位置的精准识别；

输出模块：用于输出识别结果。

优选的是，所述检测模块用于利用点和线之间的对偶关系，将图像空间中的离散点转换为霍夫空间的曲线，并将曲线交点作为所述直线方程的参数，对参数进行统计。

在上述任一方案中优选的是，所述转换的公式如下：

ρ＝x₁ cosθ+y₁ sinθ

在上述任一方案中优选的是，所述检测模块还用于统计转换到霍夫空间的曲线交点，如果超过阈值则认为是文字方向，记录参数(ρ，θ)，进一步统计参数的众数。

在上述任一方案中优选的是，所述旋转模块用于将所述众数方向θ作为旋转角度得到仿射变换矩阵A。

在上述任一方案中优选的是，所述预识别模块用于使用矫正图片，输入faster-rcnn识别网络，对图片的信息进行预识别，识别出可能是文本信息的目标。

在上述任一方案中优选的是，所述预识别模块的工作包括以下子步骤：

在上述任一方案中优选的是，所述精确识别模块的工作包括以下子步骤：

步骤41：将识别网络得到的信息区域，逐个进入检测网络；

步骤42：生成N个时序下，每个批次的M个概率信息。

在上述任一方案中优选的是，所述常规变量f(u)的公式为

其中，l′_u表示u时刻的label。

本发明提出了一种图像矫正及文本与位置识别方法及系统，实现了端到端可训练和测试，输出图像中文本信息及其位置；自然地处理任意长度的序列，不涉及字符分割或水平尺度正规化。

附图说明

图1为按照本发明的图像矫正及文本与位置识别方法的一优选实施例的流程图。

图1A为按照本发明的图像矫正及文本与位置识别方法的如图1所示实施例的预识别流程图。

图1B为按照本发明的图像矫正及文本与位置识别方法的如图1所示实施例的精准识别流程图。

图2为按照本发明的图像矫正及文本与位置识别系统的一优选实施例的模块图。

图3为按照本发明的图像矫正及文本与位置识别方法的另一优选实施例的检测图片原图。

图4为按照本发明的图像矫正及文本与位置识别方法的如图3所示实施例的检测图片角度旋转后的结果图。

图5为按照本发明的图像矫正及文本与位置识别方法的如图3所示实施例的预识别检测到的文本目标区域的预测位置图。

图6为按照本发明的图像矫正及文本与位置识别方法的如图3所示实施例的识别检测到的文本信息的输出结果图。

图7为按照本发明的图像矫正及文本与位置识别方法的如图3所示实施例的针对表格图片的文本信息检测输出的结果图。

图8为按照本发明的图像矫正及文本与位置识别系统的卷积深度神经网络CLNN的一实施例的网络结构图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的阐述。

实施例一

如图1、2所示，执行步骤100，输入模块200输入待检测图片。

执行步骤110，检测模块210检测所述待检测图片的文字角度，拟合直线，并统计所述直线的斜率，依据众数方向θ作为图片的矫正方向。利用点和线之间的对偶关系，将图像空间中的离散点转换为霍夫空间的曲线，并将曲线交点作为所述直线方程的参数，对参数进行统计。所述转换的公式如下：

ρ＝x₁ cosθ+y₁ sinθ，其中，ρ表示像素点在霍夫空间的表示，x₁表示像素点在图像空间中的横坐标，y₁表示像素点在图像空间中的纵坐标。统计转换到霍夫空间的曲线交点，如果超过阈值则认为是文字方向，记录参数(ρ，θ)，进一步统计参数的众数。

执行步骤120，旋转模块220利用仿射变换矩阵，对所述待检测图片进行位置旋转。将所述众数方向θ作为旋转角度得到仿射变换矩阵A。利用仿射变换公式映射像素点，其方法包括一个对向量平移与仿射变换矩阵A的仿射映射为：其中，y表示矫正图片的像素位置，K表示仿射变换矩阵的缩放因子，x表示原始图像中像素位置，b表示仿变换矩阵的平移因子。在两个仿射空间之间的仿射变换，是在向量上呈现线性坐标点的变换，f‘变换到决定于任一坐标点的线性变换：P，Q∈A：其中，P表示原始图片任意一点，Q表示原始图片任意一点，f表示原始图片中线性表示，即P点Q点共线，表示放射变换空间中的线性表示，即通过同一线之点(即称为共线点)在变换后仍呈共线。

执行步骤130，预识别模块230使用faster-rcnn定位技术对所述待检测图片的信息进行预识别。使用矫正图片，输入faster-rcnn识别网络，对图片的信息进行预识别，识别出可能是文本信息的目标。如图1A所示，本步骤包括以下子步骤：执行步骤131，产生候选区域，包括其位置坐标和预测得分，对相同横坐标的候选区域构建一个列表。执行步骤132，对每个列表中的候选区域建立关系图，进行非极大值抑制，过滤掉大面积重合的候选区域。执行步骤133，选择得分最高的候选区域作为最后的文本目标区域，将文本区域保存为图片进行下一步检测识别。

执行步骤140，精确识别模块240将预识别的目标区域输入卷积深度神经网络CLNN进行文字及其位置的精准识别。如图1B所示，本步骤包括以下子步骤：执行步骤141，将识别网络得到的信息区域，逐个进入检测网络。执行步骤142，生成N个时序下，每个批次的M个概率信息。将长度为T的输出路径映射到序列l，公式为：其中，α表示输出时刻t且经过映射之后为序列l的路径的概率之和，t表示输出路径长度T的任意位置，u表示序列l的任意位置，表示t时刻label为l′_u，i的取值根据f(u)决定，f(u)为常规变量。所述常规变量f(u)的公式为：

其中，l′_u表示u时刻的label，如果当前时刻是空格或者与前两时刻label相同，上一时刻的输出是两种可能性，否则有三种可能性。

执行步骤150，输出模块250选择最大概率文字作为输出信息结果。

实施例二

一种图像矫正及文本与位置识别模型方法，包括以下步骤：

第一步，对于输入的图片(如图3所示)，检测图片的文字角度，拟合直线，并统计直线的斜率，依据众数方向作为图片的矫正方向。利用点和线之间的对偶关系，将图像空间中的离散点转换为霍夫空间的曲线，并将曲线交点作为直线方程的参数，转换方程如下：

统计转换到霍夫空间的曲线交点，如果超过阈值则认为是文字方向，记录参数(ρ，θ)，进一步统计参数的众数，将θ作为旋转角度。

第二步，利用仿射变换矩阵，对检测图片进行位置旋转(如图4所示)。利用仿射变换矩阵，对检测图片进行位置旋转，首先使用旋转角度得到仿射变换矩阵A，利用仿射变换公式映射像素点，方法如下：一个对向量平移与仿射变换矩阵A的仿射映射为：

上式在齐次坐标上，等价于下面的式子：

在两个仿射空间之间的仿射变换，是在向量上呈现线性坐标点的变换。以符号表示，f‘变换到决定于任一坐标点的线性变换：P，Q∈A

或者：

第三步，使用faster-rcnn定位技术对图片的信息进行预识别，识别出可能是文本信息的目标。使用矫正图片，输入faster-rcnn识别网络，对图片的信息进行预识别，识别出可能是文本信息的目标。首先产生候选区域，包括其位置坐标和预测得分，对相同横坐标的候选区域构建一个列表，然后对每个列表中的候选区域建立关系图，进行非极大值抑制，选择得分最高的候选区域作为最后的文本目标区域。如图5所示的是识别检测到的文本目标区域的预测位置。

第四步，将预识别的目标区域输入卷积深度神经网络CLNN(CNN+LSTM)进行文字及其位置的精准识别。将目标区域输入卷积深度神经网络CLNN进行文字及其位置识别。首先将识别网络得到的信息区域，逐个进入检测网络，检测网络采用CLNN，损失使用CTCLOSS解决标签不对齐问题。长度为T的输出路径映射到序列I，其中U为序列l的长度。公式如下：

其中，α表示输出时刻t且经过映射之后为序列l的路径的概率之和，t表示输出路径长度T的任意位置，u表示序列l的任意位置，表示t时刻1abel为l′_u，i的取值根据f(u)决定，

CNN输出结果为128x1x32x256，LSTM输出结果为65x128x1011，即65个时序下，每个批次(共128个批次)的1011个概率信息。最后选择最大概率文字作为输出信息结果。如图6所示的是识别检测到的文本信息的输出结果。

第五步，根据得到的所有文本目标区域的纵坐标信息建立关系图，并从大到小进行排列。对于排列好的目标区域根据横坐标信息建立关系图，得到所有目标区域的列数信息，并输出所有目标区域的位置信息。

输入如果是表格图片，则利用输出位置信息(如图7所示)和文本预测信息构建表格。根据位置信息，匹配相应的表格位置。根据网络预测表格中文本的位置信息(第几行第几列)，应用于表格绘制工作中。将文本信息映射到表格的相应位置，绘制出最终表格(表一)。

性别	女	男
			姓名	张三	李四
年龄	18	19
			学号	2013100	2013199

表一

实施例三

本专利提出一种基于图像的文本信息及其位置检测识别系统OCR(opticalcharacter recognition)，以满足各行业应用需求，给用户带来更好的体验。OCR(opticalcharacter recognition)是基于图像的序列识别的应用之一，基于图像的序列识别一直是计算机视觉领域的长期研究课题，OCR文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过程；即，对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。为了更好的将OCR技术应用不同场景识别，首先对待检测图片进行角度旋转，以提高神经网络中对目标区域检测的准确率，从而提升文本识别和检测的精度。单纯的文本识别技术不能满足所有OCR应用领域，如果输入的检测图片是表格信息，那么预测出文字的位置信息就可以应用到绘制表格中，并将输出文字信息对应到表格的相应位置中。

本发明是基于神经网络的图像矫正及文本与位置识别模型，主要解决身份证、名片、表格图片等文本及其位置识别问题。为了完成本发明目的，本发明提供了一种基于神经网络的图像矫正及文本与位置识别模型。其中：

图像角度预测方程：

ρ＝x cosθ+y sinθ，(图像坐标空间的的点(x，y)映射到霍夫空间参数(ρ，θ))；

图像矫正仿射变换方程：

(根据图像的预测角度建立仿射变换矩阵A，对向量平移)；

网络损失函数CTCLOSS为：

(长度为T的输出路径映射到序列l，其中U为序列l的长度)，

其中：

为了完成上述文本检测识别及其位置预测之间关系的建模，所述方法包括如下步骤：

一、确定矫正方向

利用点和线之间的对偶关系，将图像空间中的离散点转换为霍夫空间的曲线，并将曲线交点作为直线方程的参数，对参数进行统计，并将众数方向θ作为矫正方向。

二、图片旋转

将θ作为旋转角度得到仿射变换矩阵A，利用仿射变换公式映射像素点，对检测图片进行位置旋转。

三、预识别图片信息

将矫正图片输入faster-rcnn识别网络，对图片的信息进行预识别，识别出可能是文本信息的目标。首先产生候选区域，包括其位置坐标和预测得分，对相同横坐标的候选区域构建一个列表，然后对每个列表中的候选区域建立关系图，进行非极大值抑制，过滤掉大面积重合的候选区域，并选择得分最高的候选区域作为最后的文本目标区域，将文本区域保存为图片进行下一步检测识别。

四、图片文字及位置识别

(1)如图8所示，检测网络CLNN(CNN+LSTM)的网络架构由三个组成部分组成，包括卷积层，循环层和从下到上的转换层。在CLNN的底部，卷积层的分量是通过从标准CNN模型中取出卷积和最大池层来构建的(全连接层被移除)。这种结构用于从输入图像中提取顺序特征表示。

(2)在进入网络之前，所有图像都需要缩放到相同的高度。然后，从卷积层分量产生的特征映射中提取一系列特征向量，这是循环层的输入。特征序列的每个特征向量在特征图上按列数从左到右生成。卷积、最大池化、激活函数的对象在局部区域上运行，它们是平移不变的。因此，特征图的每一列对应于原始图像的矩形区域，并且这样的矩形区域是与特征图相对应的，从左侧跟踪的特征图。每个矢量特征序列都与感知域相关联，并且可以被认为是该区域的图像描述符。

(3)在卷积网络之上，建立了循环网络，深度双向递归神经网络构建在卷积层的顶部，作为循环层，构成级联网络。循环层预测特征序列x＝x1，...，xT中每个帧xt的标签分布yt。级联结构有多个优点，首先，RNN具有捕获序列内的上下文信息的强大能力。使用基于图像的序列识别的上下文信息比独立处理每个信息更稳定和有效。其次，RNN可以将误差反向传播到其输入，即卷积层，从而允许模型在单一网络中联合训练。用于对由卷积层输出的特征序列的每帧进行预测，因此本发明可以将目标区域输入CLNN网络进行端到端的文字及其位置检测。

(4)使用损失函数CTCLOSS反向传播，对网络进行训练，可以解决标签不对齐问题。其中CNN输出结果为128x1x32x256，LSTM输出结果为65x128x1011，即65个时序下，每个批次(共128个批次)的1011个概率信息。最后选择最大概率文字作为输出信息结果。

五、输出识别结果

根据第三步得到所有文本目标区域的纵坐标信息建立关系图，并从大到小进行排列，得到所有目标区域的行数信息。基于排列好的目标区域根据横坐标信息建立关系图，得到所有目标区域的列数信息。输出所有目标区域的位置信息，根据位置信息，匹配相应的表格位置。

本发明的有益效果是：(1)端到端可训练和测试，输出图像中文本信息及其位置。(2)自然地处理任意长度的序列，不涉及字符分割或水平尺度正规化，神经网络模型被称为卷积递归神经网络(CRNN)，因为它是DCNN和RNN的组合。对于类序列对象，CRNN具有优于传统神经网络模型的几个独特优势：1)它可以直接从序列标签(例如，句子)学习，不需要详细的注释(例如，汉字)；2)DCNN具有直接从图像数据学习信息表示的相同属性，既不需要手工工艺特征也不需要预处理步骤；3)它具有相同的RNN特性，能够产生一系列标签；4)它不受序列式物体长度的限制，在训练和测试阶段只需要高度归一化；5)它包含的参数比标准DCNN模型少得多，占用的存储空间更少。

为了更好地理解本发明，以上结合本发明的具体实施例做了详细描述，但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改，均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种图像矫正及文本与位置识别方法，包括输入待检测图片，其特征在于，还包括以下步骤：

步骤5：输出识别结果。

2.如权利要求1所述的图像矫正及文本与位置识别方法，其特征在于：所述步骤1包括利用点和线之间的对偶关系，将图像空间中的离散点转换为霍夫空间的曲线，并将曲线交点作为所述直线方程的参数，对参数进行统计。

3.如权利要求2所述的图像矫正及文本与位置识别方法，其特征在于：所述转换的公式如下：

ρ＝x₁cosθ+y₁sinθ

4.如权利要求3所述的图像矫正及文本与位置识别方法，其特征在于：所述步骤1还包括统计转换到霍夫空间的曲线交点，如果超过阈值则认为是文字方向，记录参数(ρ，θ)，进一步统计参数的众数。

5.如权利要求1所述的图像矫正及文本与位置识别方法，其特征在于：所述步骤2包括将所述众数方向θ作为旋转角度得到仿射变换矩阵A。

6.如权利要求5所述的图像矫正及文本与位置识别方法，其特征在于：利用仿射变换公式映射像素点，其方法包括一个对向量平移与仿射变换矩阵A的仿射映射为：

7.如权利要求6所述的图像矫正及文本与位置识别方法，其特征在于：在两个仿射空间之间的仿射变换，是在向量上呈现线性坐标点的变换，f‘变换到决定于任一坐标点的线性变换：P,Q∈A：

其中，P表示原始图片任意一点，Q表示原始图片任意一点，f表示原始图片中线性表示，即P点Q点共线，表示放射变换空间中的线性表示，即通过同一线之点在变换后仍呈共线。

8.如权利要求1所述的图像矫正及文本与位置识别方法，其特征在于：所述步骤3包括使用矫正图片，输入faster-rcnn识别网络，对图片的信息进行预识别，识别出可能是文本信息的目标。

9.如权利要求8所述的图像矫正及文本与位置识别方法，其特征在于：所述步骤3包括以下子步骤：

10.一种图像矫正及文本与位置识别系统，包括用于输入待检测图片的输入模块，其特征在于，还包括以下模块：

检测模块：用于检测所述待检测图片的文字角度，拟合直线，并统计所述直线的斜率，依据众数方向θ作为图片的矫正方向；

输出模块：用于输出识别结果。