CN109993160A - 一种图像矫正及文本与位置识别方法及系统 - Google Patents
一种图像矫正及文本与位置识别方法及系统 Download PDFInfo
- Publication number
- CN109993160A CN109993160A CN201910119284.9A CN201910119284A CN109993160A CN 109993160 A CN109993160 A CN 109993160A CN 201910119284 A CN201910119284 A CN 201910119284A CN 109993160 A CN109993160 A CN 109993160A
- Authority
- CN
- China
- Prior art keywords
- text
- picture
- image
- identification
- flame detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/242—Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/48—Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种图像矫正及文本与位置识别方法及系统,其中方法包括输入待检测图片,还包括以下步骤:检测所述待检测图片的文字角度,拟合直线,并统计所述直线的斜率,依据众数方向θ作为图片的矫正方向;利用仿射变换矩阵,对所述待检测图片进行位置旋转;使用faster‑rcnn定位技术对所述待检测图片的信息进行预识别;将预识别的目标区域输入卷积深度神经网络CLNN进行文字及其位置的精准识别;输出识别结果。本发明提出一种图像矫正及文本与位置识别方法及系统,基于神经网络的图像矫正及文本与位置识别模型,主要解决身份证、名片、表格图片等文本及其位置识别问题,以满足各行业应用需求,给用户带来更好的体验。
Description
技术领域
本发明涉及图像视觉的技术领域,特别是一种图像矫正及文本与位置识别方法及系统。
背景技术
诸多行业领域、场合都需要进行图像序列的文字识别与检测,例如身份证件信息的文本检测,银行、火车站、飞机场、酒店等都有专门工作人员来进行该项工作。文本及位置检测识别系统的研发初衷,就是基于深度学习网络,使用深层特征表示身份证信息,实现快速、准确的文本识别与检测。随着移动互联网的发展,越来越多的应用技术都涉及到证件信息的输入认证(即实名认证),手动输入信息速度较慢,且用户体验差。
公开号为CN107749048A的发明专利公开了一种图像矫正系统及方法、色盲图像矫正系统及方法,该方法包括以下步骤:矫正图像数据集合构建步骤,采用复合规定要求的图片,根据所述图片构建矫正数据集合;图像矫正模型构建步骤,基于所述矫正图像数据集合,利用深度卷积神经网络构建图像矫正模型;以及图像矫正步骤,将原始图像作为输入数据到所述图像矫正模型作为输出,出处得到矫正后的矫正图像。该方法的缺点是利用神经网络矫正图像,速度慢,而且适用场景固定,不能进行很好的迁移,因此不能针对任何场景达到理想的矫正效果。
发明内容
为了解决上述的技术问题,本发明提出一种图像矫正及文本与位置识别方法及系统,基于神经网络的图像矫正及文本与位置识别模型,主要解决身份证、名片、表格图片等文本及其位置识别问题,以满足各行业应用需求,给用户带来更好的体验。
本发明的第一目的是提供一种图像矫正及文本与位置识别方法,包括以下步骤:
步骤1:检测所述待检测图片的文字角度,拟合直线,并统计所述直线的斜率,依据众数方向θ作为图片的矫正方向;
步骤2:利用仿射变换矩阵,对所述待检测图片进行位置旋转;
步骤3:使用faster-rcnn定位技术对所述待检测图片的信息进行预识别;
步骤4:将预识别的目标区域输入卷积深度神经网络CLNN进行文字及其位置的精准识别;
步骤5:输出识别结果。
优选的是,所述步骤1包括利用点和线之间的对偶关系,将图像空间中的离散点转换为霍夫空间的曲线,并将曲线交点作为所述直线方程的参数,对参数进行统计。
在上述任一方案中优选的是,所述转换的公式如下:
ρ=x1 cosθ+y1 sinθ
其中,ρ表示像素点在霍夫空间的表示,x1表示像素点在图像空间中的横坐标,y1表示像素点在图像空间中的纵坐标。
在上述任一方案中优选的是,所述步骤1还包括统计转换到霍夫空间的曲线交点,如果超过阈值则认为是文字方向,记录参数(ρ,θ),进一步统计参数的众数。
在上述任一方案中优选的是,所述步骤2包括将所述众数方向θ作为旋转角度得到仿射变换矩阵A。
在上述任一方案中优选的是,利用仿射变换公式映射像素点,其方法包括一个对向量平移与仿射变换矩阵A的仿射映射为:
其中,y表示矫正图片的像素位置,K表示仿射变换矩阵的缩放因子,x表示原始图像中像素位置,b表示仿变换矩阵的平移因子。
在上述任一方案中优选的是,在两个仿射空间之间的仿射变换,是在向量上呈现线性坐标点的变换,f‘变换到决定于任一坐标点的线性变换:P,Q∈A:
其中,P表示原始图片任意一点,Q表示原始图片任意一点,f表示原始图片中线性表示,即P点Q点共线,表示放射变换空间中的线性表示,即通过同一线之点(即称为共线点)在变换后仍呈共线。
在上述任一方案中优选的是,所述步骤3包括使用矫正图片,输入faster-rcnn识别网络,对图片的信息进行预识别,识别出可能是文本信息的目标。
在上述任一方案中优选的是,所述步骤3包括以下子步骤:
步骤31:产生候选区域,包括其位置坐标和预测得分,对相同横坐标的候选区域构建一个列表;
步骤32:对每个列表中的候选区域建立关系图,进行非极大值抑制,过滤掉大面积重合的候选区域;
步骤33:选择得分最高的候选区域作为最后的文本目标区域,将文本区域保存为图片进行下一步检测识别。
在上述任一方案中优选的是,所述步骤4包括以下子步骤:
步骤41:将识别网络得到的信息区域,逐个进入检测网络;
步骤42:生成N个时序下,每个批次的M个概率信息。
在上述任一方案中优选的是,所述步骤41包括将长度为T的输出路径映射到序列l,公式为
其中,α表示输出时刻t且经过映射之后为序列l的路径的概率之和,t表示输出路径长度T的任意位置,u表示序列l的任意位置,表示t时刻label为l′u,i的取值根据f(u)决定,f(u)为常规变量。
在上述任一方案中优选的是,所述常规变量f(u)的公式为
其中,l′u表示u时刻的label。
在上述任一方案中优选的是,所述步骤5包括选择最大概率文字作为输出信息结果。
本发明的第二目的是提供一种图像矫正及文本与位置识别系统,包括用于输入待检测图片的输入模块,还包括以下模块:
测模块:用于检测所述待检测图片的文字角度,拟合直线,并统计所述直线的斜率,依据众数方向θ作为图片的矫正方向;
旋转模块:用于利用仿射变换矩阵,对所述待检测图片进行位置旋转;
预识别模块:用于计算当前所述场地无人车与所述M点的横向偏差ex(t)和切线夹角e(t);
精确识别模块:用于将预识别的目标区域输入卷积深度神经网络CLNN进行文字及其位置的精准识别;
输出模块:用于输出识别结果。
优选的是,所述检测模块用于利用点和线之间的对偶关系,将图像空间中的离散点转换为霍夫空间的曲线,并将曲线交点作为所述直线方程的参数,对参数进行统计。
在上述任一方案中优选的是,所述转换的公式如下:
ρ=x1 cosθ+y1 sinθ
其中,ρ表示像素点在霍夫空间的表示,x1表示像素点在图像空间中的横坐标,y1表示像素点在图像空间中的纵坐标。
在上述任一方案中优选的是,所述检测模块还用于统计转换到霍夫空间的曲线交点,如果超过阈值则认为是文字方向,记录参数(ρ,θ),进一步统计参数的众数。
在上述任一方案中优选的是,所述旋转模块用于将所述众数方向θ作为旋转角度得到仿射变换矩阵A。
在上述任一方案中优选的是,利用仿射变换公式映射像素点,其方法包括一个对向量平移与仿射变换矩阵A的仿射映射为:
其中,y表示矫正图片的像素位置,K表示仿射变换矩阵的缩放因子,x表示原始图像中像素位置,b表示仿变换矩阵的平移因子。
在上述任一方案中优选的是,在两个仿射空间之间的仿射变换,是在向量上呈现线性坐标点的变换,f‘变换到决定于任一坐标点的线性变换:P,Q∈A:
其中,P表示原始图片任意一点,Q表示原始图片任意一点,f表示原始图片中线性表示,即P点Q点共线,表示放射变换空间中的线性表示,即通过同一线之点(即称为共线点)在变换后仍呈共线。
在上述任一方案中优选的是,所述预识别模块用于使用矫正图片,输入faster-rcnn识别网络,对图片的信息进行预识别,识别出可能是文本信息的目标。
在上述任一方案中优选的是,所述预识别模块的工作包括以下子步骤:
步骤31:产生候选区域,包括其位置坐标和预测得分,对相同横坐标的候选区域构建一个列表;
步骤32:对每个列表中的候选区域建立关系图,进行非极大值抑制,过滤掉大面积重合的候选区域;
步骤33:选择得分最高的候选区域作为最后的文本目标区域,将文本区域保存为图片进行下一步检测识别。
在上述任一方案中优选的是,所述精确识别模块的工作包括以下子步骤:
步骤41:将识别网络得到的信息区域,逐个进入检测网络;
步骤42:生成N个时序下,每个批次的M个概率信息。
在上述任一方案中优选的是,所述步骤41包括将长度为T的输出路径映射到序列l,公式为
其中,α表示输出时刻t且经过映射之后为序列l的路径的概率之和,t表示输出路径长度T的任意位置,u表示序列l的任意位置,表示t时刻label为l′u,i的取值根据f(u)决定,f(u)为常规变量。
在上述任一方案中优选的是,所述常规变量f(u)的公式为
其中,l′u表示u时刻的label。
在上述任一方案中优选的是,所述步骤5包括选择最大概率文字作为输出信息结果。
本发明提出了一种图像矫正及文本与位置识别方法及系统,实现了端到端可训练和测试,输出图像中文本信息及其位置;自然地处理任意长度的序列,不涉及字符分割或水平尺度正规化。
附图说明
图1为按照本发明的图像矫正及文本与位置识别方法的一优选实施例的流程图。
图1A为按照本发明的图像矫正及文本与位置识别方法的如图1所示实施例的预识别流程图。
图1B为按照本发明的图像矫正及文本与位置识别方法的如图1所示实施例的精准识别流程图。
图2为按照本发明的图像矫正及文本与位置识别系统的一优选实施例的模块图。
图3为按照本发明的图像矫正及文本与位置识别方法的另一优选实施例的检测图片原图。
图4为按照本发明的图像矫正及文本与位置识别方法的如图3所示实施例的检测图片角度旋转后的结果图。
图5为按照本发明的图像矫正及文本与位置识别方法的如图3所示实施例的预识别检测到的文本目标区域的预测位置图。
图6为按照本发明的图像矫正及文本与位置识别方法的如图3所示实施例的识别检测到的文本信息的输出结果图。
图7为按照本发明的图像矫正及文本与位置识别方法的如图3所示实施例的针对表格图片的文本信息检测输出的结果图。
图8为按照本发明的图像矫正及文本与位置识别系统的卷积深度神经网络CLNN的一实施例的网络结构图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的阐述。
实施例一
如图1、2所示,执行步骤100,输入模块200输入待检测图片。
执行步骤110,检测模块210检测所述待检测图片的文字角度,拟合直线,并统计所述直线的斜率,依据众数方向θ作为图片的矫正方向。利用点和线之间的对偶关系,将图像空间中的离散点转换为霍夫空间的曲线,并将曲线交点作为所述直线方程的参数,对参数进行统计。所述转换的公式如下:
ρ=x1 cosθ+y1 sinθ,其中,ρ表示像素点在霍夫空间的表示,x1表示像素点在图像空间中的横坐标,y1表示像素点在图像空间中的纵坐标。统计转换到霍夫空间的曲线交点,如果超过阈值则认为是文字方向,记录参数(ρ,θ),进一步统计参数的众数。
执行步骤120,旋转模块220利用仿射变换矩阵,对所述待检测图片进行位置旋转。将所述众数方向θ作为旋转角度得到仿射变换矩阵A。利用仿射变换公式映射像素点,其方法包括一个对向量平移与仿射变换矩阵A的仿射映射为:其中,y表示矫正图片的像素位置,K表示仿射变换矩阵的缩放因子,x表示原始图像中像素位置,b表示仿变换矩阵的平移因子。在两个仿射空间之间的仿射变换,是在向量上呈现线性坐标点的变换,f‘变换到决定于任一坐标点的线性变换:P,Q∈A:其中,P表示原始图片任意一点,Q表示原始图片任意一点,f表示原始图片中线性表示,即P点Q点共线,表示放射变换空间中的线性表示,即通过同一线之点(即称为共线点)在变换后仍呈共线。
执行步骤130,预识别模块230使用faster-rcnn定位技术对所述待检测图片的信息进行预识别。使用矫正图片,输入faster-rcnn识别网络,对图片的信息进行预识别,识别出可能是文本信息的目标。如图1A所示,本步骤包括以下子步骤:执行步骤131,产生候选区域,包括其位置坐标和预测得分,对相同横坐标的候选区域构建一个列表。执行步骤132,对每个列表中的候选区域建立关系图,进行非极大值抑制,过滤掉大面积重合的候选区域。执行步骤133,选择得分最高的候选区域作为最后的文本目标区域,将文本区域保存为图片进行下一步检测识别。
执行步骤140,精确识别模块240将预识别的目标区域输入卷积深度神经网络CLNN进行文字及其位置的精准识别。如图1B所示,本步骤包括以下子步骤:执行步骤141,将识别网络得到的信息区域,逐个进入检测网络。执行步骤142,生成N个时序下,每个批次的M个概率信息。将长度为T的输出路径映射到序列l,公式为:其中,α表示输出时刻t且经过映射之后为序列l的路径的概率之和,t表示输出路径长度T的任意位置,u表示序列l的任意位置,表示t时刻label为l′u,i的取值根据f(u)决定,f(u)为常规变量。所述常规变量f(u)的公式为:
其中,l′u表示u时刻的label,如果当前时刻是空格或者与前两时刻label相同,上一时刻的输出是两种可能性,否则有三种可能性。
执行步骤150,输出模块250选择最大概率文字作为输出信息结果。
实施例二
一种图像矫正及文本与位置识别模型方法,包括以下步骤:
第一步,对于输入的图片(如图3所示),检测图片的文字角度,拟合直线,并统计直线的斜率,依据众数方向作为图片的矫正方向。利用点和线之间的对偶关系,将图像空间中的离散点转换为霍夫空间的曲线,并将曲线交点作为直线方程的参数,转换方程如下:
统计转换到霍夫空间的曲线交点,如果超过阈值则认为是文字方向,记录参数(ρ,θ),进一步统计参数的众数,将θ作为旋转角度。
第二步,利用仿射变换矩阵,对检测图片进行位置旋转(如图4所示)。利用仿射变换矩阵,对检测图片进行位置旋转,首先使用旋转角度得到仿射变换矩阵A,利用仿射变换公式映射像素点,方法如下:一个对向量平移与仿射变换矩阵A的仿射映射为:
上式在齐次坐标上,等价于下面的式子:
在两个仿射空间之间的仿射变换,是在向量上呈现线性坐标点的变换。以符号表示,f‘变换到决定于任一坐标点的线性变换:P,Q∈A
或者:
第三步,使用faster-rcnn定位技术对图片的信息进行预识别,识别出可能是文本信息的目标。使用矫正图片,输入faster-rcnn识别网络,对图片的信息进行预识别,识别出可能是文本信息的目标。首先产生候选区域,包括其位置坐标和预测得分,对相同横坐标的候选区域构建一个列表,然后对每个列表中的候选区域建立关系图,进行非极大值抑制,选择得分最高的候选区域作为最后的文本目标区域。如图5所示的是识别检测到的文本目标区域的预测位置。
第四步,将预识别的目标区域输入卷积深度神经网络CLNN(CNN+LSTM)进行文字及其位置的精准识别。将目标区域输入卷积深度神经网络CLNN进行文字及其位置识别。首先将识别网络得到的信息区域,逐个进入检测网络,检测网络采用CLNN,损失使用CTCLOSS解决标签不对齐问题。长度为T的输出路径映射到序列I,其中U为序列l的长度。公式如下:
其中,α表示输出时刻t且经过映射之后为序列l的路径的概率之和,t表示输出路径长度T的任意位置,u表示序列l的任意位置,表示t时刻1abel为l′u,i的取值根据f(u)决定,
CNN输出结果为128x1x32x256,LSTM输出结果为65x128x1011,即65个时序下,每个批次(共128个批次)的1011个概率信息。最后选择最大概率文字作为输出信息结果。如图6所示的是识别检测到的文本信息的输出结果。
第五步,根据得到的所有文本目标区域的纵坐标信息建立关系图,并从大到小进行排列。对于排列好的目标区域根据横坐标信息建立关系图,得到所有目标区域的列数信息,并输出所有目标区域的位置信息。
输入如果是表格图片,则利用输出位置信息(如图7所示)和文本预测信息构建表格。根据位置信息,匹配相应的表格位置。根据网络预测表格中文本的位置信息(第几行第几列),应用于表格绘制工作中。将文本信息映射到表格的相应位置,绘制出最终表格(表一)。
性别 | 女 | 男 |
姓名 | 张三 | 李四 |
年龄 | 18 | 19 |
学号 | 2013100 | 2013199 |
表一
实施例三
本专利提出一种基于图像的文本信息及其位置检测识别系统OCR(opticalcharacter recognition),以满足各行业应用需求,给用户带来更好的体验。OCR(opticalcharacter recognition)是基于图像的序列识别的应用之一,基于图像的序列识别一直是计算机视觉领域的长期研究课题,OCR文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。为了更好的将OCR技术应用不同场景识别,首先对待检测图片进行角度旋转,以提高神经网络中对目标区域检测的准确率,从而提升文本识别和检测的精度。单纯的文本识别技术不能满足所有OCR应用领域,如果输入的检测图片是表格信息,那么预测出文字的位置信息就可以应用到绘制表格中,并将输出文字信息对应到表格的相应位置中。
本发明是基于神经网络的图像矫正及文本与位置识别模型,主要解决身份证、名片、表格图片等文本及其位置识别问题。为了完成本发明目的,本发明提供了一种基于神经网络的图像矫正及文本与位置识别模型。其中:
图像角度预测方程:
ρ=x cosθ+y sinθ,(图像坐标空间的的点(x,y)映射到霍夫空间参数(ρ,θ));
图像矫正仿射变换方程:
(根据图像的预测角度建立仿射变换矩阵A,对向量平移);
网络损失函数CTCLOSS为:
(长度为T的输出路径映射到序列l,其中U为序列l的长度),
其中:
为了完成上述文本检测识别及其位置预测之间关系的建模,所述方法包括如下步骤:
一、确定矫正方向
利用点和线之间的对偶关系,将图像空间中的离散点转换为霍夫空间的曲线,并将曲线交点作为直线方程的参数,对参数进行统计,并将众数方向θ作为矫正方向。
二、图片旋转
将θ作为旋转角度得到仿射变换矩阵A,利用仿射变换公式映射像素点,对检测图片进行位置旋转。
三、预识别图片信息
将矫正图片输入faster-rcnn识别网络,对图片的信息进行预识别,识别出可能是文本信息的目标。首先产生候选区域,包括其位置坐标和预测得分,对相同横坐标的候选区域构建一个列表,然后对每个列表中的候选区域建立关系图,进行非极大值抑制,过滤掉大面积重合的候选区域,并选择得分最高的候选区域作为最后的文本目标区域,将文本区域保存为图片进行下一步检测识别。
四、图片文字及位置识别
(1)如图8所示,检测网络CLNN(CNN+LSTM)的网络架构由三个组成部分组成,包括卷积层,循环层和从下到上的转换层。在CLNN的底部,卷积层的分量是通过从标准CNN模型中取出卷积和最大池层来构建的(全连接层被移除)。这种结构用于从输入图像中提取顺序特征表示。
(2)在进入网络之前,所有图像都需要缩放到相同的高度。然后,从卷积层分量产生的特征映射中提取一系列特征向量,这是循环层的输入。特征序列的每个特征向量在特征图上按列数从左到右生成。卷积、最大池化、激活函数的对象在局部区域上运行,它们是平移不变的。因此,特征图的每一列对应于原始图像的矩形区域,并且这样的矩形区域是与特征图相对应的,从左侧跟踪的特征图。每个矢量特征序列都与感知域相关联,并且可以被认为是该区域的图像描述符。
(3)在卷积网络之上,建立了循环网络,深度双向递归神经网络构建在卷积层的顶部,作为循环层,构成级联网络。循环层预测特征序列x=x1,...,xT中每个帧xt的标签分布yt。级联结构有多个优点,首先,RNN具有捕获序列内的上下文信息的强大能力。使用基于图像的序列识别的上下文信息比独立处理每个信息更稳定和有效。其次,RNN可以将误差反向传播到其输入,即卷积层,从而允许模型在单一网络中联合训练。用于对由卷积层输出的特征序列的每帧进行预测,因此本发明可以将目标区域输入CLNN网络进行端到端的文字及其位置检测。
(4)使用损失函数CTCLOSS反向传播,对网络进行训练,可以解决标签不对齐问题。其中CNN输出结果为128x1x32x256,LSTM输出结果为65x128x1011,即65个时序下,每个批次(共128个批次)的1011个概率信息。最后选择最大概率文字作为输出信息结果。
五、输出识别结果
根据第三步得到所有文本目标区域的纵坐标信息建立关系图,并从大到小进行排列,得到所有目标区域的行数信息。基于排列好的目标区域根据横坐标信息建立关系图,得到所有目标区域的列数信息。输出所有目标区域的位置信息,根据位置信息,匹配相应的表格位置。
本发明的有益效果是:(1)端到端可训练和测试,输出图像中文本信息及其位置。(2)自然地处理任意长度的序列,不涉及字符分割或水平尺度正规化,神经网络模型被称为卷积递归神经网络(CRNN),因为它是DCNN和RNN的组合。对于类序列对象,CRNN具有优于传统神经网络模型的几个独特优势:1)它可以直接从序列标签(例如,句子)学习,不需要详细的注释(例如,汉字);2)DCNN具有直接从图像数据学习信息表示的相同属性,既不需要手工工艺特征也不需要预处理步骤;3)它具有相同的RNN特性,能够产生一系列标签;4)它不受序列式物体长度的限制,在训练和测试阶段只需要高度归一化;5)它包含的参数比标准DCNN模型少得多,占用的存储空间更少。
为了更好地理解本发明,以上结合本发明的具体实施例做了详细描述,但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (10)
1.一种图像矫正及文本与位置识别方法,包括输入待检测图片,其特征在于,还包括以下步骤:
步骤1:检测所述待检测图片的文字角度,拟合直线,并统计所述直线的斜率,依据众数方向θ作为图片的矫正方向;
步骤2:利用仿射变换矩阵,对所述待检测图片进行位置旋转;
步骤3:使用faster-rcnn定位技术对所述待检测图片的信息进行预识别;
步骤4:将预识别的目标区域输入卷积深度神经网络CLNN进行文字及其位置的精准识别;
步骤5:输出识别结果。
2.如权利要求1所述的图像矫正及文本与位置识别方法,其特征在于:所述步骤1包括利用点和线之间的对偶关系,将图像空间中的离散点转换为霍夫空间的曲线,并将曲线交点作为所述直线方程的参数,对参数进行统计。
3.如权利要求2所述的图像矫正及文本与位置识别方法,其特征在于:所述转换的公式如下:
ρ=x1cosθ+y1sinθ
其中,ρ表示像素点在霍夫空间的表示,x1表示像素点在图像空间中的横坐标,y1表示像素点在图像空间中的纵坐标。
4.如权利要求3所述的图像矫正及文本与位置识别方法,其特征在于:所述步骤1还包括统计转换到霍夫空间的曲线交点,如果超过阈值则认为是文字方向,记录参数(ρ,θ),进一步统计参数的众数。
5.如权利要求1所述的图像矫正及文本与位置识别方法,其特征在于:所述步骤2包括将所述众数方向θ作为旋转角度得到仿射变换矩阵A。
6.如权利要求5所述的图像矫正及文本与位置识别方法,其特征在于:利用仿射变换公式映射像素点,其方法包括一个对向量平移与仿射变换矩阵A的仿射映射为:
其中,y表示矫正图片的像素位置,K表示仿射变换矩阵的缩放因子,x表示原始图像中像素位置,b表示仿变换矩阵的平移因子。
7.如权利要求6所述的图像矫正及文本与位置识别方法,其特征在于:在两个仿射空间之间的仿射变换,是在向量上呈现线性坐标点的变换,f‘变换到决定于任一坐标点的线性变换:P,Q∈A:
其中,P表示原始图片任意一点,Q表示原始图片任意一点,f表示原始图片中线性表示,即P点Q点共线,表示放射变换空间中的线性表示,即通过同一线之点在变换后仍呈共线。
8.如权利要求1所述的图像矫正及文本与位置识别方法,其特征在于:所述步骤3包括使用矫正图片,输入faster-rcnn识别网络,对图片的信息进行预识别,识别出可能是文本信息的目标。
9.如权利要求8所述的图像矫正及文本与位置识别方法,其特征在于:所述步骤3包括以下子步骤:
步骤31:产生候选区域,包括其位置坐标和预测得分,对相同横坐标的候选区域构建一个列表;
步骤32:对每个列表中的候选区域建立关系图,进行非极大值抑制,过滤掉大面积重合的候选区域;
步骤33:选择得分最高的候选区域作为最后的文本目标区域,将文本区域保存为图片进行下一步检测识别。
10.一种图像矫正及文本与位置识别系统,包括用于输入待检测图片的输入模块,其特征在于,还包括以下模块:
检测模块:用于检测所述待检测图片的文字角度,拟合直线,并统计所述直线的斜率,依据众数方向θ作为图片的矫正方向;
旋转模块:用于利用仿射变换矩阵,对所述待检测图片进行位置旋转;
预识别模块:用于计算当前所述场地无人车与所述M点的横向偏差ex(t)和切线夹角e(t);
精确识别模块:用于将预识别的目标区域输入卷积深度神经网络CLNN进行文字及其位置的精准识别;
输出模块:用于输出识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910119284.9A CN109993160B (zh) | 2019-02-18 | 2019-02-18 | 一种图像矫正及文本与位置识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910119284.9A CN109993160B (zh) | 2019-02-18 | 2019-02-18 | 一种图像矫正及文本与位置识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109993160A true CN109993160A (zh) | 2019-07-09 |
CN109993160B CN109993160B (zh) | 2022-02-25 |
Family
ID=67129236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910119284.9A Active CN109993160B (zh) | 2019-02-18 | 2019-02-18 | 一种图像矫正及文本与位置识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109993160B (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322206A (zh) * | 2019-07-26 | 2019-10-11 | 苏州创腾软件有限公司 | 一种基于ocr识别的试剂信息录入方法及装置 |
CN110414510A (zh) * | 2019-07-26 | 2019-11-05 | 华中科技大学 | 一种指针式仪表读数校正方法 |
CN110598708A (zh) * | 2019-08-08 | 2019-12-20 | 广东工业大学 | 一种街景文本目标识别检测方法 |
CN110705547A (zh) * | 2019-09-06 | 2020-01-17 | 中国平安财产保险股份有限公司 | 图像内文字识别方法、装置及计算机可读存储介质 |
CN110738119A (zh) * | 2019-09-16 | 2020-01-31 | 深圳市国信合成科技有限公司 | 一种票据识别方法、装置、设备及可读介质 |
CN110807454A (zh) * | 2019-09-19 | 2020-02-18 | 平安科技(深圳)有限公司 | 基于图像分割的文字定位方法、装置、设备及存储介质 |
CN111291752A (zh) * | 2020-01-22 | 2020-06-16 | 山东浪潮通软信息科技有限公司 | 一种发票识别方法及设备、介质 |
CN111402168A (zh) * | 2020-03-19 | 2020-07-10 | 同盾控股有限公司 | 图像目标矫正方法及装置、终端、存储介质 |
CN111414915A (zh) * | 2020-02-21 | 2020-07-14 | 华为技术有限公司 | 一种文字识别方法以及相关设备 |
CN111507348A (zh) * | 2020-04-15 | 2020-08-07 | 深源恒际科技有限公司 | 基于ctc深度神经网络的文字分割和识别的方法 |
CN111626292A (zh) * | 2020-05-09 | 2020-09-04 | 北京邮电大学 | 一种基于深度学习技术的楼宇指示标识的文字识别方法 |
CN111680690A (zh) * | 2020-04-26 | 2020-09-18 | 泰康保险集团股份有限公司 | 一种文字识别方法及装置 |
CN112036259A (zh) * | 2020-08-10 | 2020-12-04 | 晶璞(上海)人工智能科技有限公司 | 一种基于图像处理与深度学习相结合的表格矫正与识别的方法 |
CN112215018A (zh) * | 2020-08-28 | 2021-01-12 | 北京中科凡语科技有限公司 | 校正术语对的自动定位方法、装置、电子设备及存储介质 |
CN112308046A (zh) * | 2020-12-02 | 2021-02-02 | 龙马智芯(珠海横琴)科技有限公司 | 图像的文本区域定位方法、装置、服务器及可读存储介质 |
CN112464852A (zh) * | 2020-12-09 | 2021-03-09 | 重庆大学 | 一种车辆行驶证图片自适应矫正与识别方法 |
CN112541506A (zh) * | 2020-12-09 | 2021-03-23 | 上海肇观电子科技有限公司 | 文本图像的矫正方法及装置、设备和介质 |
CN112651396A (zh) * | 2019-10-12 | 2021-04-13 | 丰图科技(深圳)有限公司 | 字符拼接方法、装置、网络设备及计算机可读存储介质 |
CN112836632A (zh) * | 2021-02-02 | 2021-05-25 | 浪潮云信息技术股份公司 | 自定义模板文字识别的实现方法及系统 |
CN113159031A (zh) * | 2021-04-21 | 2021-07-23 | 广州逅艺文化科技有限公司 | 一种手写文本检测方法、装置及存储介质 |
CN113420684A (zh) * | 2021-06-29 | 2021-09-21 | 深圳壹账通智能科技有限公司 | 基于特征提取的报表识别方法、装置、电子设备及介质 |
CN113850208A (zh) * | 2021-09-29 | 2021-12-28 | 平安科技(深圳)有限公司 | 一种图片信息结构化方法、装置、设备及介质 |
CN115690806A (zh) * | 2022-10-11 | 2023-02-03 | 杭州瑞成信息技术股份有限公司 | 一种基于图像数据处理的非结构化文档格式识别方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491730A (zh) * | 2017-07-14 | 2017-12-19 | 浙江大学 | 一种基于图像处理的化验单识别方法 |
CN107609557A (zh) * | 2017-08-24 | 2018-01-19 | 华中科技大学 | 一种指针式仪表读数识别方法 |
CN108133212A (zh) * | 2018-01-05 | 2018-06-08 | 东华大学 | 一种基于深度学习的定额发票金额识别系统 |
CN108229463A (zh) * | 2018-02-07 | 2018-06-29 | 众安信息技术服务有限公司 | 基于图像的文字识别方法 |
CN108334955A (zh) * | 2018-03-01 | 2018-07-27 | 福州大学 | 基于Faster-RCNN的身份证复印件检测方法 |
CN108596066A (zh) * | 2018-04-13 | 2018-09-28 | 武汉大学 | 一种基于卷积神经网络的字符识别方法 |
CN109165697A (zh) * | 2018-10-12 | 2019-01-08 | 福州大学 | 一种基于注意力机制卷积神经网络的自然场景文字检测方法 |
CN109241894A (zh) * | 2018-08-28 | 2019-01-18 | 南京安链数据科技有限公司 | 一种基于表格定位和深度学习的针对性票据内容识别系统和方法 |
-
2019
- 2019-02-18 CN CN201910119284.9A patent/CN109993160B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491730A (zh) * | 2017-07-14 | 2017-12-19 | 浙江大学 | 一种基于图像处理的化验单识别方法 |
CN107609557A (zh) * | 2017-08-24 | 2018-01-19 | 华中科技大学 | 一种指针式仪表读数识别方法 |
CN108133212A (zh) * | 2018-01-05 | 2018-06-08 | 东华大学 | 一种基于深度学习的定额发票金额识别系统 |
CN108229463A (zh) * | 2018-02-07 | 2018-06-29 | 众安信息技术服务有限公司 | 基于图像的文字识别方法 |
CN108334955A (zh) * | 2018-03-01 | 2018-07-27 | 福州大学 | 基于Faster-RCNN的身份证复印件检测方法 |
CN108596066A (zh) * | 2018-04-13 | 2018-09-28 | 武汉大学 | 一种基于卷积神经网络的字符识别方法 |
CN109241894A (zh) * | 2018-08-28 | 2019-01-18 | 南京安链数据科技有限公司 | 一种基于表格定位和深度学习的针对性票据内容识别系统和方法 |
CN109165697A (zh) * | 2018-10-12 | 2019-01-08 | 福州大学 | 一种基于注意力机制卷积神经网络的自然场景文字检测方法 |
Non-Patent Citations (13)
Title |
---|
JEFF DONAHUE等: "Long-Term Recurrent Convolutional Networks for Visual Recognition and Description", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
ORIOL VINYALS等: "Show and Tell: A Neural Image Caption Generator", 《ARXIV:1411.4555V2 [CS.CV] 》 * |
SHAOQING REN等: "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
TARA N.SAINATH等: "CONVOLUTIONAL, LONG SHORT-TERM MEMORY,FULLY CONNECTED DEEP NEURAL NETWORKS", 《2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
YOON KIM等: "Character-Aware Neural Language Models", 《ARXIV:1508.06615V4 [CS.CL]》 * |
ZHI TIAN等: "Detecting Text in Natural Image with Connectionist Text Prop osal Network", 《ARXIV:1609.03605V1 [CS.CV]》 * |
严培荣等: "基于改进 Hough变换的直线检测方法研究", 《电脑知识与技术》 * |
候宏花: "《数字图像处理与分析》", 30 September 2011 * |
崔吉等: "《工业视觉实用教程》", 31 October 2018 * |
张传果: "柱面压印字符识别算法研究和实现", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ 辑》 * |
李文轩: "基于深度学习的路牌文字识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
段大高等: "《图像处理与应用》", 31 January 2013 * |
赵春晖等: "基于改进Faster R-CNN算法的舰船目标检测与识别", 《沈阳大学学报(自然科学版)》 * |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414510A (zh) * | 2019-07-26 | 2019-11-05 | 华中科技大学 | 一种指针式仪表读数校正方法 |
CN110322206A (zh) * | 2019-07-26 | 2019-10-11 | 苏州创腾软件有限公司 | 一种基于ocr识别的试剂信息录入方法及装置 |
CN110414510B (zh) * | 2019-07-26 | 2021-10-08 | 华中科技大学 | 一种指针式仪表读数校正方法 |
CN110598708B (zh) * | 2019-08-08 | 2022-09-23 | 广东工业大学 | 一种街景文本目标识别检测方法 |
CN110598708A (zh) * | 2019-08-08 | 2019-12-20 | 广东工业大学 | 一种街景文本目标识别检测方法 |
CN110705547A (zh) * | 2019-09-06 | 2020-01-17 | 中国平安财产保险股份有限公司 | 图像内文字识别方法、装置及计算机可读存储介质 |
CN110705547B (zh) * | 2019-09-06 | 2023-08-18 | 中国平安财产保险股份有限公司 | 图像内文字识别方法、装置及计算机可读存储介质 |
CN110738119A (zh) * | 2019-09-16 | 2020-01-31 | 深圳市国信合成科技有限公司 | 一种票据识别方法、装置、设备及可读介质 |
CN110807454A (zh) * | 2019-09-19 | 2020-02-18 | 平安科技(深圳)有限公司 | 基于图像分割的文字定位方法、装置、设备及存储介质 |
CN110807454B (zh) * | 2019-09-19 | 2024-05-14 | 平安科技(深圳)有限公司 | 基于图像分割的文字定位方法、装置、设备及存储介质 |
CN112651396A (zh) * | 2019-10-12 | 2021-04-13 | 丰图科技(深圳)有限公司 | 字符拼接方法、装置、网络设备及计算机可读存储介质 |
CN111291752A (zh) * | 2020-01-22 | 2020-06-16 | 山东浪潮通软信息科技有限公司 | 一种发票识别方法及设备、介质 |
CN111414915A (zh) * | 2020-02-21 | 2020-07-14 | 华为技术有限公司 | 一种文字识别方法以及相关设备 |
CN111414915B (zh) * | 2020-02-21 | 2024-03-26 | 华为技术有限公司 | 一种文字识别方法以及相关设备 |
CN111402168A (zh) * | 2020-03-19 | 2020-07-10 | 同盾控股有限公司 | 图像目标矫正方法及装置、终端、存储介质 |
CN111402168B (zh) * | 2020-03-19 | 2024-04-05 | 同盾控股有限公司 | 图像目标矫正方法及装置、终端、存储介质 |
CN111507348A (zh) * | 2020-04-15 | 2020-08-07 | 深源恒际科技有限公司 | 基于ctc深度神经网络的文字分割和识别的方法 |
CN111680690A (zh) * | 2020-04-26 | 2020-09-18 | 泰康保险集团股份有限公司 | 一种文字识别方法及装置 |
CN111626292A (zh) * | 2020-05-09 | 2020-09-04 | 北京邮电大学 | 一种基于深度学习技术的楼宇指示标识的文字识别方法 |
CN111626292B (zh) * | 2020-05-09 | 2023-06-30 | 北京邮电大学 | 一种基于深度学习技术的楼宇指示标识的文字识别方法 |
CN112036259A (zh) * | 2020-08-10 | 2020-12-04 | 晶璞(上海)人工智能科技有限公司 | 一种基于图像处理与深度学习相结合的表格矫正与识别的方法 |
CN112215018A (zh) * | 2020-08-28 | 2021-01-12 | 北京中科凡语科技有限公司 | 校正术语对的自动定位方法、装置、电子设备及存储介质 |
CN112308046A (zh) * | 2020-12-02 | 2021-02-02 | 龙马智芯(珠海横琴)科技有限公司 | 图像的文本区域定位方法、装置、服务器及可读存储介质 |
CN112464852A (zh) * | 2020-12-09 | 2021-03-09 | 重庆大学 | 一种车辆行驶证图片自适应矫正与识别方法 |
WO2022121843A1 (zh) * | 2020-12-09 | 2022-06-16 | 上海肇观电子科技有限公司 | 文本图像的矫正方法及装置、设备和介质 |
CN112541506A (zh) * | 2020-12-09 | 2021-03-23 | 上海肇观电子科技有限公司 | 文本图像的矫正方法及装置、设备和介质 |
CN112464852B (zh) * | 2020-12-09 | 2023-12-05 | 重庆大学 | 一种车辆行驶证图片自适应矫正与识别方法 |
CN112541506B (zh) * | 2020-12-09 | 2023-11-28 | 上海肇观电子科技有限公司 | 文本图像的矫正方法及装置、设备和介质 |
CN112836632A (zh) * | 2021-02-02 | 2021-05-25 | 浪潮云信息技术股份公司 | 自定义模板文字识别的实现方法及系统 |
CN112836632B (zh) * | 2021-02-02 | 2023-04-07 | 浪潮云信息技术股份公司 | 自定义模板文字识别的实现方法及系统 |
CN113159031B (zh) * | 2021-04-21 | 2024-05-10 | 广州逅艺文化科技有限公司 | 一种手写文本检测方法、装置及存储介质 |
CN113159031A (zh) * | 2021-04-21 | 2021-07-23 | 广州逅艺文化科技有限公司 | 一种手写文本检测方法、装置及存储介质 |
CN113420684A (zh) * | 2021-06-29 | 2021-09-21 | 深圳壹账通智能科技有限公司 | 基于特征提取的报表识别方法、装置、电子设备及介质 |
CN113850208A (zh) * | 2021-09-29 | 2021-12-28 | 平安科技(深圳)有限公司 | 一种图片信息结构化方法、装置、设备及介质 |
CN115690806B (zh) * | 2022-10-11 | 2023-06-13 | 杭州瑞成信息技术股份有限公司 | 一种基于图像数据处理的非结构化文档格式识别方法 |
CN115690806A (zh) * | 2022-10-11 | 2023-02-03 | 杭州瑞成信息技术股份有限公司 | 一种基于图像数据处理的非结构化文档格式识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109993160B (zh) | 2022-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109993160A (zh) | 一种图像矫正及文本与位置识别方法及系统 | |
CN110766014B (zh) | 票据信息定位方法、系统及计算机可读存储介质 | |
CN106504233B (zh) | 基于Faster R-CNN的无人机巡检图像电力小部件识别方法及系统 | |
WO2022147965A1 (zh) | 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统 | |
Tu et al. | ORSI salient object detection via multiscale joint region and boundary model | |
CN111931664A (zh) | 混贴票据图像的处理方法、装置、计算机设备及存储介质 | |
CN107169485B (zh) | 一种数学公式识别方法和装置 | |
CN105138998B (zh) | 基于视角自适应子空间学习算法的行人重识别方法及系统 | |
US11194997B1 (en) | Method and system for thermal infrared facial recognition | |
CN107871101A (zh) | 一种人脸检测方法及装置 | |
CN105913093A (zh) | 一种用于文字识别处理的模板匹配方法 | |
CN108898063A (zh) | 一种基于全卷积神经网络的人体姿态识别装置及方法 | |
CN105447441A (zh) | 人脸认证方法和装置 | |
CN108334881A (zh) | 一种基于深度学习的车牌识别方法 | |
CN106446882A (zh) | 一种基于8字码的智能留痕阅卷方法 | |
CN110321894A (zh) | 一种基于深度学习ocr的图书馆图书快速定位方法 | |
CN110334709A (zh) | 基于端到端多任务深度学习的车牌检测方法 | |
CN110929746A (zh) | 一种基于深度神经网络的电子卷宗标题定位提取与分类方法 | |
CN113158895A (zh) | 票据识别方法、装置、电子设备及存储介质 | |
CN110287940B (zh) | 一种基于人工智能的掌纹识别方法及系统 | |
CN113159014A (zh) | 基于手写题号的客观题批阅方法、装置、设备及存储介质 | |
CN114266881A (zh) | 一种基于改进型语义分割网络的指针式仪表自动读数方法 | |
CN115810197A (zh) | 一种多模态电力表单识别方法及装置 | |
Shao et al. | InMAS: Deep learning for designing intelligent making system | |
CN105868776A (zh) | 一种基于图像处理技术的变压器设备识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |