CN110363199A - 基于深度学习的证件图像文本识别方法及系统 - Google Patents

基于深度学习的证件图像文本识别方法及系统 Download PDF

Info

Publication number
CN110363199A
CN110363199A CN201910640001.5A CN201910640001A CN110363199A CN 110363199 A CN110363199 A CN 110363199A CN 201910640001 A CN201910640001 A CN 201910640001A CN 110363199 A CN110363199 A CN 110363199A
Authority
CN
China
Prior art keywords
text
certificate image
image
certificate
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910640001.5A
Other languages
English (en)
Inventor
尹青山
李锐
于治楼
王相成
宗云兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Inspur Hi Tech Investment and Development Co Ltd
Original Assignee
Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Hi Tech Investment and Development Co Ltd filed Critical Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority to CN201910640001.5A priority Critical patent/CN110363199A/zh
Publication of CN110363199A publication Critical patent/CN110363199A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的证件图像文本识别方法及系统,属于证件图像识别领域,要解决的技术问题为如何实现自然场景下证件图像中文本的有效识别。方法包括如下步骤:对证件图像进行预处理以除噪声,得到预处理后图像;基于CTPN算法对预处理后图像进行文本检测,得到证件图像的文本区域;通过图像位置模板对证件图像的文本区域进行筛选,得到证件图像的目标文本区域;以证件图像的目标文本区域为输入,通过TensorFlow Slim算法对文字识别模型进行训练,得到训练后文字识别模型;通过训练后文字识别模型对待识别字体进行识别。系统包括预处理模块、文本检测模块、文本区域模块、模型训练模块和测试模块。

Description

基于深度学习的证件图像文本识别方法及系统
技术领域
本发明涉及证件图像识别领域,具体地说是一种基于深度学习的证件图像文本识别方法及系统。
背景技术
随着人工智能的兴起,图像识别技术逐步应用于安全、军事、医疗、智能交通等领域,人脸识别和指纹识别等技术越来越多的使用到公共安全、金融和航空航天等安全领域。在军事领域,图像识别主要应用于目标的侦查和识别,通过自动化的图像识别技术来进行敌方目标的识别并进行打击;在医疗领域,通过图像识别技术可以进行各类医学图像分析和诊断,一方面可以大大降低医疗的成本,另一方面也有助于提高医疗质量和效率;在交通领域不仅可以进行车牌识别,同时也可以应用到前沿的自动驾驶领域,实现对道路、车辆和行人的清晰识别,提高生活的便利并且降低人们出行成本。
传统的证件图像光学识别(OCR)技术主要面向高清扫描的图像,该方法要求识别的图像拥有干净的背景、使用规范的印刷体并具有较高的分辨率。但是,自然场景中存在文本背景噪声大、文本分布不规范和自然光源影响等问题,OCR技术在实际自然场景中检测率并不理想。
如何实现自然场景下证件图像中文本的有效识别,是需要解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供一种基于深度学习的证件图像文本识别方法及系统,来解决如何实现自然场景下证件图像中文本的有效识别的问题。
第一方面,本发明提供一种基于深度学习的证件图像文本识别方法,包括如下步骤:
对证件图像进行预处理以除噪声,得到预处理后图像;
基于CTPN算法对预处理后图像进行文本检测,得到证件图像的文本区域;
证件图像中字体相对位置固定,基于上述原则制作图像位置模板,并通过图像位置模板对证件图像的文本区域进行筛选,得到证件图像的目标文本区域;
基于汉字的类别重建VGG16模型得到文字识别模型,以证件图像的目标文本区域为输入,通过TensorFlow Slim算法对文字识别模型进行训练,得到训练后文字识别模型;
通过训练后文字识别模型对待识别字体进行识别。
本实施方式中,通过CTPN算法对预处理后证件图像文本区域进行初步检测,并通过文本构造算法得到证件图像的文本区域,以微调后的VGG16模型作为文本识别模块,以筛选后证件图像的文本区域为输入,对文本识别模型进行训练,得到训练后文本识别模型,通过该训练后文本识别模型可对后续证件图像进行文本识别。
TensorFlow是一个基于数据流编程(dataflow programming)的符号数学系统,被广泛应用于各类机器学习(machine learning)算法的编程实现,其前身是谷歌的神经网络算法库DistBelief。
TensorFlow Slim是Tensorflow中一个轻量级的库,用于定义、训练和评估复杂的模型。TF-Slim中的组件可以与Tensorflow中原生的函数一起使用,与其他的框架,比如与tf.contrib.learn也可以一起使用。
作为优选,对证件图像进行预处理以去除噪声包括:
对证件图像进行傅里叶变换,得到证件图像的空间频域。
在图像的空间频域,图像的颜色特征比较突出,容易处理噪声。本实施例中通过傅里叶变换将证件图像变换为图像的空间频域,方便后续证件图像的形态学处理。
更优的,对证件图像进行预处理以去除噪声还包括:
通过对证件图像进行旋转变换、仿射变换、透视变换以及色彩变换以实现对证件图像中待识别文字进行文字大小、文字方向、文字形状以及文字颜色的校正。
由于拍照环境不同,证件图像中字体颜色和大小等相差很大,或者因拍照角度证件图像可能扭曲,需要将证件图像中待识别的文本进行校正,使得文本的颜色和大小达到统一。
作为优选,基于CTPN算法对预处理后图像进行文本检测,包括如下步骤:
通过VGG16的前5个卷积层提取证件图像的特征图,所述特征图大小为W*H*C,W*H表示空间排列,C表示通道数;
通过大小为3*3*C的滑动窗口在特征图上进行密集滑动,每次滑动得到大小为3*3*C的特征向量;
将上述特征向量组成序列作为双向LSTM的输入,得到W*256的输出;
将W*256的输出作为512维全连接层的输入,并通过softmax归一化指数函数得到输出结果,输出结果包括三种结果,分别为选择框的高度及中心的y轴坐标、选择框的水平偏移量、以及选择框的类别信息,选择框的类别信息用于判断其是否为字符;
得到密集预测的文本候选区,每个文本候选区呈细长矩形框;
基于文本构造方法,将上述文本合并成文本的序列框。
LSTM(英文全称为Long Short-Term Memory)长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
作为优选,证件图像中字体相对位置固定,包括:
文字以及数字数据在证件图像中均配置有固定的位置坐标范围,文字以及数字数据包括但不限于身份证图像中的姓名、性别以及住址;
图像数据中显示内容的字体相对位置固定,图像数据包括但不限于火车票和发票中的图像数据。
作为优选,基于汉字的类别重建VGG16模型得到文字识别模型,包括如下步骤:
去除VGG16模型中的fc8层;
以汉字的类别作为VGG16模型中的fc8的类别。
第二方面,本发明提供一种基于深度学习的证件图像文本识别系统,包括:
预处理模块,所述预处理模块用于对证件图像进行预处理以除噪声,并输出预处理后图像;
文本检测模块,所述文本检测模块用于基于CTPN算法对预处理后图像进行文本检测,并输出证件图像的文本区域;
文本区域模块,所述文本区域模块用于基于证件图像中字体相对位置固定的原则制作图像位置模板,并通过图像位置模板对证件图像的文本区域进行筛选,并输出证件图像的目标文本区域;
模型训练模块,所述模型训练模块用于基于汉字的类别重建VGG16模型得到文字识别模型,以证件图像的目标文本区域为输入,通过TensorFlow Slim算法对文字识别模型进行训练,并输出训练后文字识别模型;
测试模块,所述测试模块用于训练后文字识别模型对待识别字体进行识别。
作为优选,预处理模块包括:
空间频域提取子模块,所述空间频域提取子模块用于对对证件图像进行傅里叶变换,得到证件图像的空间频域;
文本矫正子模块,所述文本矫正子模块用于对证件图像进行旋转变换、仿射变换、透视变换以及色彩变换以实现对证件图像中待识别文字进行文字大小、文字方向、文字形状以及文字颜色的校正。
作为优选,文本检测模块用于通过如下步骤对预处理后图像进行文本检测,并输出证件图像的文本区域:
通过VGG16的前5个卷积层提取证件图像的特征图,所述特征图大小为W*H*C,W*H表示空间排列,C表示通道数;
通过大小为3*3*C的滑动窗口在特征图上进行密集滑动,每次滑动得到大小为3*3*C的特征向量;
将上述特征向量组成序列作为双向LSTM的输入,得到W*256的输出;
将W*256的输出作为512维全连接层的输入,并通过softmax归一化指数函数得到输出结果,输出结果包括三种结果,分别为选择框的高度及中心的y轴坐标、选择框的水平偏移量、以及选择框的类别信息,选择框的类别信息用于判断其是否为字符;
得到密集预测的文本候选区,每个文本候选区呈细长矩形框;
基于文本构造方法,将上述文本合并成文本的序列框。
本发明的一种基于深度学习的证件图像文本识别系统具有以下优点:基于CTPN算法对预处理后图像进行文本检测,得到证件图像的文本区域,并通过制作的图像位置模板对文本区域进行筛选,得到目标文本区域,以目标文本区域为输入,通过TensorFlow Slim算法对重建后的文字识别模型进行训练,得到训练后文字识别模型,通过训练后文字识别模型可对证件图像进行文字识别,实现了自然场景下证件图像的文字的有效准确识别,不受限于拍照环境和拍照角度的影响。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合附图对本发明进一步说明。
附图1为实施例1基于深度学习的证件图像文本识别方法的流程框图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
本发明实施例提供一种基于深度学习的证件图像文本识别方法及系统,用于解决如何实现自然场景下证件图像中文本的有效识别的技术问题。
实施例1:
本发明的一种基于深度学习的证件图像文本识别方法,包括如下步骤:
S100、对证件图像进行预处理以除噪声,得到预处理后图像;
S200、基于CTPN算法对预处理后图像进行文本检测,得到证件图像的文本区域;
S300、证件图像中字体相对位置固定,基于上述原则制作图像位置模板,并通过图像位置模板对证件图像的文本区域进行筛选,得到证件图像的目标文本区域;
S400、基于汉字的类别重建VGG16模型得到文字识别模型,以证件图像的目标文本区域为输入,通过TensorFlow Slim算法对文字识别模型进行训练,得到训练后文字识别模型;
S500、通过训练后文字识别模型对待识别字体进行识别。
其中,本实施例步骤S100中对证件图像进行预处理以去除噪声,包括如下步骤:
S110、对证件图像进行傅里叶变换,得到证件图像的空间频域,在图像的空间频域,图像的颜色特征比较突出,容易处理噪声,可方便后续证件图像的形态学处理;
S120、由于拍照环境不同或者因拍照角度使得证件图像扭曲,证件图像中字体颜色和大小等相差很大,针对是上述问题,通过对证件图像进行旋转变换、仿射变换、透视变换以及色彩变换以实现对证件图像中待识别文字进行文字大小、文字方向、文字形状以及文字颜色的校正,使得文本的颜色和大小达到统一。
步骤S200中基于CTPN算法对预处理后图像进行文本检测,得到证件图像的文本区域,包括如下步骤:
S210、通过VGG16的前5个卷积层提取证件图像的特征图,特征图大小为W*H*C,W*H表示空间排列,C表示通道数;
S220、通过大小为3*3*C的滑动窗口在特征图上进行密集滑动,每次滑动得到大小为3*3*C的特征向量,3*3表示长宽的像素大小,C表示通道数量,提取的特征向量用于预测该位置候选区域对应的类别信息和位置信息;
S230、将上述特征向量组成序列作为双向LSTM的输入,得到W*256的输出;
S240、将W*256的输出作为512维全连接层的输入,并通过softmax归一化指数函数得到输出结果,输出结果包括三种结果,分别为选择框的高度及中心的y轴坐标、选择框的水平偏移量、以及选择框的类别信息,选择框的类别信息用于判断其是否为字符;
S250、得到密集预测的文本候选区,每个文本候选区呈细长矩形框;
S260、基于文本构造方法,将上述文本合并成文本的序列框,得到证件图像的文本区域。
步骤S300中,证件图像中字体相对位置固定,包括:文字以及数字数据在证件图像中均配置有固定的位置坐标范围,以及图像数据在证件图像中显示内容的字体相对位置固定。
其中,文字以及数字数据包括但不限于身份证图像中的姓名、性别以及住址,比如身份证的姓名、性别、身份证号、住址等在身份证图像中都有固定的位置坐标范围;图像数据包括但不限于火车票和发票中的图像数据,火车票、发票等图像数据,显示内容的字体相对位置都是固定的。
步骤S400中,去除VGG16模型中的fc8层,以汉字的类别作为VGG16模型中的fc8的类别,该微调后的VGG16模型作为文字识别模型。
步骤S500中,对待识别文字进行识别时,需要按照步骤S100对将待识别的证件图像进行预处理,将预处理后的待识别的证件图像输入训练后文字识别模型,从而执行后续文字识别。
本发明的基于深度学习的证件图像文本识别方法,构建并训练文字识别模型得到训练后文字识别模型,通过该文字识别模型对后续的文字进行识别,可对自然场景下证件图像中文字进行有效识别,克服了拍照环境以及拍照角度不同带来的影响。
实施例2:
本发明的基于深度学习的证件图像文本识别系统,包括预处理模块、文本检测模块、文本区域模块、模型训练模块和测试模块,预处理模块用于获取证件图像并证件图像进行预处理,输出预处理后图像;文本检测模块用于基于CTPN算法对预处理后图像进行文本检测,并输出证件图像的文本区域;文本区域模块用于基于证件图像中字体相对位置固定的原则制作图像位置模板,并通过图像位置模板对证件图像的文本区域进行筛选,并输出证件图像的目标文本区域;模型训练模块用于基于汉字的类别重建VGG16模型得到文字识别模型,以证件图像的目标文本区域为输入,通过TensorFlow Slim算法对文字识别模型进行训练,并输出训练后文字识别模型;测试模块用于训练后文字识别模型对待识别字体进行识别。
其中,预处理模块包括空间频域提取子模块和文本矫正子模块,空间频域提取子模块用于对对证件图像进行傅里叶变换,得到证件图像的空间频域;文本矫正子模块用于对证件图像中待识别文本进行校正,包括对待识别文本进行文字大小矫正以及文字颜色矫正。
在图像的空间频域,图像的颜色特征比较突出,容易处理噪声,通过空间频域提取子模块将证件图像变换为图像的空间频域,方便后续证件图像的形态学处理。由于拍照环境不同,证件图像中字体颜色和大小等相差很大,或者因拍照角度证件图像可能扭曲,通过文本矫正子模块将证件图像中待识别的文本进行校正,使得文本的颜色和大小达到统一。
文本检测模块通过如下步骤对预处理后图像进行文本检测,并输出证件图像的文本区域:
(1)通过VGG16的前5个卷积层提取证件图像的特征图,所述特征图大小为W*H*C,W*H表示空间排列,C表示通道数;
(2)通过大小为3*3*C的滑动窗口在特征图上进行密集滑动,每次滑动得到大小为3*3*C的特征向量;
(3)将上述特征向量组成序列作为双向LSTM的输入,得到W*256的输出;
(4)将W*256的输出作为512维全连接层的输入,并通过softmax归一化指数函数得到输出结果,输出结果包括三种结果,分别为选择框的高度及中心的y轴坐标、选择框的水平偏移量、以及选择框的类别信息,选择框的类别信息用于判断其是否为字符;
(5)得到密集预测的文本候选区,每个文本候选区呈细长矩形框;
(6)基于文本构造方法,将上述文本合并成文本的序列框。
本发明的基于深度学习的证件图像文本识别系统可执行实施例1公开的基于深度学习的证件图像文本识别方法。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (9)

1.基于深度学习的证件图像文本识别方法,其特征在于包括如下步骤:
对证件图像进行预处理以除噪声,得到预处理后图像;
基于CTPN算法对预处理后图像进行文本检测,得到证件图像的文本区域;
证件图像中字体相对位置固定,基于上述原则制作图像位置模板,并通过图像位置模板对证件图像的文本区域进行筛选,得到证件图像的目标文本区域;
基于汉字的类别重建VGG16模型得到文字识别模型,以证件图像的目标文本区域为输入,通过TensorFlow Slim算法对文字识别模型进行训练,得到训练后文字识别模型;
通过训练后文字识别模型对待识别字体进行识别。
2.根据权利要求1所述的基于深度学习的证件图像文本识别方法,其特征在于对证件图像进行预处理以去除噪声包括:
对证件图像进行傅里叶变换,得到证件图像的空间频域。
3.根据权利要求2所述的基于深度学习的证件图像文本识别方法,其特征在于对证件图像进行预处理以去除噪声还包括:
通过对证件图像进行旋转变换、仿射变换、透视变换以及色彩变换以实现对证件图像中待识别文字进行文字大小、文字方向、文字形状以及文字颜色的校正。
4.根据权利要求1、2或3所述的基于深度学习的证件图像文本识别方法,其特征在于基于CTPN算法对预处理后图像进行文本检测,包括如下步骤:
通过VGG16的前5个卷积层提取证件图像的特征图,所述特征图大小为W*H*C,W*H表示空间排列,C表示通道数;
通过大小为3*3*C的滑动窗口在特征图上进行密集滑动,每次滑动得到大小为3*3*C的特征向量;
将上述特征向量组成序列作为双向LSTM的输入,得到W*256的输出;
将W*256的输出作为512维全连接层的输入,并通过softmax归一化指数函数得到输出结果,输出结果包括三种结果,分别为选择框的高度及中心的y轴坐标、选择框的水平偏移量、以及选择框的类别信息,选择框的类别信息用于判断其是否为字符;
得到密集预测的文本候选区,每个文本候选区呈细长矩形框;
基于文本构造方法,将上述文本合并成文本的序列框。
5.根据权利要求1所述的基于深度学习的证件图像文本识别方法,其特征在于证件图像中字体相对位置固定,包括:
文字以及数字数据在证件图像中均配置有固定的位置坐标范围,文字以及数字数据包括但不限于身份证图像中的姓名、性别以及住址;
图像数据中显示内容的字体相对位置固定,图像数据包括但不限于火车票和发票中的图像数据。
6.根据权利要求1所述的基于深度学习的证件图像文本识别方法,其特征在于基于汉字的类别重建VGG16模型得到文字识别模型,包括如下步骤:
去除VGG16模型中的fc8层;
以汉字的类别作为VGG16模型中的fc8的类别。
7.基于深度学习的证件图像文本识别系统,其特征在于包括:
预处理模块,所述预处理模块用于对证件图像进行预处理以除噪声,并输出预处理后图像;
文本检测模块,所述文本检测模块用于基于CTPN算法对预处理后图像进行文本检测,并输出证件图像的文本区域;
文本区域模块,所述文本区域模块用于基于证件图像中字体相对位置固定的原则制作图像位置模板,并通过图像位置模板对证件图像的文本区域进行筛选,并输出证件图像的目标文本区域;
模型训练模块,所述模型训练模块用于基于汉字的类别重建VGG16模型得到文字识别模型,以证件图像的目标文本区域为输入,通过TensorFlow Slim算法对文字识别模型进行训练,并输出训练后文字识别模型;
测试模块,所述测试模块用于训练后文字识别模型对待识别字体进行识别。
8.根据权利要求7所述的基于深度学习的证件图像文本识别系统,其特征在于预处理模块包括:
空间频域提取子模块,所述空间频域提取子模块用于对对证件图像进行傅里叶变换,得到证件图像的空间频域;
文本矫正子模块,所述文本矫正子模块用于对证件图像进行旋转变换、仿射变换、透视变换以及色彩变换以实现对证件图像中待识别文字进行文字大小、文字方向、文字形状以及文字颜色的校正。
9.根据权利要求7所述的基于深度学习的证件图像文本识别系统,其特征在于文本检测模块用于通过如下步骤对预处理后图像进行文本检测,并输出证件图像的文本区域:
通过VGG16的前5个卷积层提取证件图像的特征图,所述特征图大小为W*H*C,W*H表示空间排列,C表示通道数;
通过大小为3*3*C的滑动窗口在特征图上进行密集滑动,每次滑动得到大小为3*3*C的特征向量;
将上述特征向量组成序列作为双向LSTM的输入,得到W*256的输出;
将W*256的输出作为512维全连接层的输入,并通过softmax归一化指数函数得到输出结果,输出结果包括三种结果,分别为选择框的高度及中心的y轴坐标、选择框的水平偏移量、以及选择框的类别信息,选择框的类别信息用于判断其是否为字符;
得到密集预测的文本候选区,每个文本候选区呈细长矩形框;
基于文本构造方法,将上述文本合并成文本的序列框。
CN201910640001.5A 2019-07-16 2019-07-16 基于深度学习的证件图像文本识别方法及系统 Pending CN110363199A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910640001.5A CN110363199A (zh) 2019-07-16 2019-07-16 基于深度学习的证件图像文本识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910640001.5A CN110363199A (zh) 2019-07-16 2019-07-16 基于深度学习的证件图像文本识别方法及系统

Publications (1)

Publication Number Publication Date
CN110363199A true CN110363199A (zh) 2019-10-22

Family

ID=68219514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910640001.5A Pending CN110363199A (zh) 2019-07-16 2019-07-16 基于深度学习的证件图像文本识别方法及系统

Country Status (1)

Country Link
CN (1) CN110363199A (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889403A (zh) * 2019-11-05 2020-03-17 浙江大华技术股份有限公司 文本检测方法以及相关装置
CN110909733A (zh) * 2019-10-28 2020-03-24 世纪保众(北京)网络科技有限公司 基于ocr图片识别的模版定位方法、装置和计算机设备
CN111008635A (zh) * 2019-11-28 2020-04-14 的卢技术有限公司 一种基于ocr的多票据自动识别方法及识别系统
CN111291661A (zh) * 2020-01-21 2020-06-16 上海悦易网络信息技术有限公司 一种屏幕中图标的文本内容的识别方法及设备
CN111310762A (zh) * 2020-03-16 2020-06-19 天津得迈科技有限公司 一种基于物联网的智能医疗票据识别方法
CN111340022A (zh) * 2020-02-24 2020-06-26 深圳市华云中盛科技股份有限公司 身份证信息识别方法、装置、计算机设备及存储介质
CN111382740A (zh) * 2020-03-13 2020-07-07 深圳前海环融联易信息科技服务有限公司 文本图片解析方法、装置、计算机设备及存储介质
CN111444908A (zh) * 2020-03-25 2020-07-24 腾讯科技(深圳)有限公司 图像识别方法、装置、终端和存储介质
CN111583203A (zh) * 2020-04-27 2020-08-25 齐鲁工业大学 基于深度学习模型的病理图像标注方法及系统
CN111652205A (zh) * 2020-06-04 2020-09-11 广东小天才科技有限公司 基于深度学习的文本矫正方法、装置、设备和介质
CN111723789A (zh) * 2020-02-19 2020-09-29 王春宝 一种基于深度学习的图像文本坐标定位方法
CN111738979A (zh) * 2020-04-29 2020-10-02 北京易道博识科技有限公司 证件图像质量自动检查方法及系统
CN112115949A (zh) * 2020-09-24 2020-12-22 深圳爱莫科技有限公司 一种烟草证件以及订单的光学文字识别方法
CN112257629A (zh) * 2020-10-29 2021-01-22 广联达科技股份有限公司 一种建筑图纸的文本信息识别方法及装置
CN112541772A (zh) * 2020-12-04 2021-03-23 浪潮云信息技术股份公司 一种面向商户的资格认证方法
CN112668572A (zh) * 2020-12-24 2021-04-16 成都新希望金融信息有限公司 身份证图像标准化方法、装置、电子设备及存储介质
CN112668575A (zh) * 2020-12-28 2021-04-16 中国平安人寿保险股份有限公司 关键信息提取方法、装置、电子设备及存储介质
CN112784932A (zh) * 2021-03-01 2021-05-11 北京百炼智能科技有限公司 一种字体识别方法、装置和存储介质
CN112887655A (zh) * 2021-01-25 2021-06-01 联想(北京)有限公司 一种信息处理方法和信息处理装置
CN112926469A (zh) * 2021-03-04 2021-06-08 浪潮云信息技术股份公司 基于深度学习ocr与版面结构的证件识别方法
CN113313726A (zh) * 2021-06-28 2021-08-27 安徽信息工程学院 一种社保卡的识别方法及系统
CN113569859A (zh) * 2021-07-27 2021-10-29 北京奇艺世纪科技有限公司 一种图像处理方法、装置、电子设备及存储介质
CN113591634A (zh) * 2021-07-19 2021-11-02 青岛新奥燃气有限公司 一种基于深度学习的lng卸车风险监控系统及方法
CN116503880A (zh) * 2023-06-29 2023-07-28 武汉纺织大学 一种倾斜字体的英文字符识别方法和系统
CN116681628A (zh) * 2023-08-03 2023-09-01 湖南华菱电子商务有限公司 一种基于深度学习的营业执照数据处理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229299A (zh) * 2017-10-31 2018-06-29 北京市商汤科技开发有限公司 证件的识别方法和装置、电子设备、计算机存储介质
CN108694393A (zh) * 2018-05-30 2018-10-23 深圳市思迪信息技术股份有限公司 一种基于深度卷积的证件图像文本区域提取方法
CN109492643A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
US20190205636A1 (en) * 2018-01-02 2019-07-04 Bank Of America Corporation Artificial Intelligence Based Smart Data Engine

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229299A (zh) * 2017-10-31 2018-06-29 北京市商汤科技开发有限公司 证件的识别方法和装置、电子设备、计算机存储介质
US20190205636A1 (en) * 2018-01-02 2019-07-04 Bank Of America Corporation Artificial Intelligence Based Smart Data Engine
CN108694393A (zh) * 2018-05-30 2018-10-23 深圳市思迪信息技术股份有限公司 一种基于深度卷积的证件图像文本区域提取方法
CN109492643A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHI TIAN, WEILIN HUANG, TONG HE, PAN HE, YU QIAO: "Detecting Text in Natural Image with Connectionist Text Proposal Network", 《ECCV 2016》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909733A (zh) * 2019-10-28 2020-03-24 世纪保众(北京)网络科技有限公司 基于ocr图片识别的模版定位方法、装置和计算机设备
CN110889403A (zh) * 2019-11-05 2020-03-17 浙江大华技术股份有限公司 文本检测方法以及相关装置
CN111008635A (zh) * 2019-11-28 2020-04-14 的卢技术有限公司 一种基于ocr的多票据自动识别方法及识别系统
CN111291661A (zh) * 2020-01-21 2020-06-16 上海悦易网络信息技术有限公司 一种屏幕中图标的文本内容的识别方法及设备
CN111291661B (zh) * 2020-01-21 2023-10-27 上海万物新生环保科技集团有限公司 一种屏幕中图标的文本内容的识别方法及设备
CN111723789A (zh) * 2020-02-19 2020-09-29 王春宝 一种基于深度学习的图像文本坐标定位方法
CN111340022A (zh) * 2020-02-24 2020-06-26 深圳市华云中盛科技股份有限公司 身份证信息识别方法、装置、计算机设备及存储介质
CN111382740A (zh) * 2020-03-13 2020-07-07 深圳前海环融联易信息科技服务有限公司 文本图片解析方法、装置、计算机设备及存储介质
CN111382740B (zh) * 2020-03-13 2023-11-21 深圳前海环融联易信息科技服务有限公司 文本图片解析方法、装置、计算机设备及存储介质
CN111310762A (zh) * 2020-03-16 2020-06-19 天津得迈科技有限公司 一种基于物联网的智能医疗票据识别方法
CN111444908A (zh) * 2020-03-25 2020-07-24 腾讯科技(深圳)有限公司 图像识别方法、装置、终端和存储介质
CN111444908B (zh) * 2020-03-25 2024-02-02 腾讯科技(深圳)有限公司 图像识别方法、装置、终端和存储介质
CN111583203A (zh) * 2020-04-27 2020-08-25 齐鲁工业大学 基于深度学习模型的病理图像标注方法及系统
CN111738979A (zh) * 2020-04-29 2020-10-02 北京易道博识科技有限公司 证件图像质量自动检查方法及系统
CN111738979B (zh) * 2020-04-29 2024-01-19 北京易道博识科技有限公司 证件图像质量自动检查方法及系统
CN111652205A (zh) * 2020-06-04 2020-09-11 广东小天才科技有限公司 基于深度学习的文本矫正方法、装置、设备和介质
CN112115949A (zh) * 2020-09-24 2020-12-22 深圳爱莫科技有限公司 一种烟草证件以及订单的光学文字识别方法
CN112115949B (zh) * 2020-09-24 2024-05-28 深圳爱莫科技有限公司 一种烟草证件以及订单的光学文字识别方法
CN112257629A (zh) * 2020-10-29 2021-01-22 广联达科技股份有限公司 一种建筑图纸的文本信息识别方法及装置
CN112541772A (zh) * 2020-12-04 2021-03-23 浪潮云信息技术股份公司 一种面向商户的资格认证方法
CN112668572A (zh) * 2020-12-24 2021-04-16 成都新希望金融信息有限公司 身份证图像标准化方法、装置、电子设备及存储介质
CN112668575A (zh) * 2020-12-28 2021-04-16 中国平安人寿保险股份有限公司 关键信息提取方法、装置、电子设备及存储介质
CN112668575B (zh) * 2020-12-28 2024-05-21 中国平安人寿保险股份有限公司 关键信息提取方法、装置、电子设备及存储介质
CN112887655A (zh) * 2021-01-25 2021-06-01 联想(北京)有限公司 一种信息处理方法和信息处理装置
CN112784932B (zh) * 2021-03-01 2024-06-07 北京百炼智能科技有限公司 一种字体识别方法、装置和存储介质
CN112784932A (zh) * 2021-03-01 2021-05-11 北京百炼智能科技有限公司 一种字体识别方法、装置和存储介质
CN112926469A (zh) * 2021-03-04 2021-06-08 浪潮云信息技术股份公司 基于深度学习ocr与版面结构的证件识别方法
CN113313726A (zh) * 2021-06-28 2021-08-27 安徽信息工程学院 一种社保卡的识别方法及系统
CN113591634A (zh) * 2021-07-19 2021-11-02 青岛新奥燃气有限公司 一种基于深度学习的lng卸车风险监控系统及方法
CN113569859B (zh) * 2021-07-27 2023-07-04 北京奇艺世纪科技有限公司 一种图像处理方法、装置、电子设备及存储介质
CN113569859A (zh) * 2021-07-27 2021-10-29 北京奇艺世纪科技有限公司 一种图像处理方法、装置、电子设备及存储介质
CN116503880B (zh) * 2023-06-29 2023-10-31 武汉纺织大学 一种倾斜字体的英文字符识别方法和系统
CN116503880A (zh) * 2023-06-29 2023-07-28 武汉纺织大学 一种倾斜字体的英文字符识别方法和系统
CN116681628B (zh) * 2023-08-03 2023-10-24 湖南华菱电子商务有限公司 一种基于深度学习的营业执照数据处理方法及系统
CN116681628A (zh) * 2023-08-03 2023-09-01 湖南华菱电子商务有限公司 一种基于深度学习的营业执照数据处理方法及系统

Similar Documents

Publication Publication Date Title
CN110363199A (zh) 基于深度学习的证件图像文本识别方法及系统
Wen et al. An algorithm for license plate recognition applied to intelligent transportation system
CN107545239B (zh) 一种基于车牌识别与车辆特征匹配的套牌检测方法
CN111178291B (zh) 一种停车支付系统以及停车支付方法
CN105913093B (zh) 一种用于文字识别处理的模板匹配方法
CN109740478B (zh) 车辆检测及识别方法、装置、计算机设备及可读存储介质
CN106599792B (zh) 一种手部驾驶违规行为的检测方法
CN107247950A (zh) 一种基于机器学习的身份证图像文本识别方法
Gebhardt et al. Document authentication using printing technique features and unsupervised anomaly detection
CN107194393B (zh) 一种检测临时车牌的方法及装置
CN109784342A (zh) 一种基于深度学习模型的ocr识别方法及终端
CN111325769A (zh) 一种目标对象检测方法及装置
Paruchuri Application of Artificial Neural Network to ANPR: An Overview
CN113971792A (zh) 交通标志牌的字符识别方法、装置、设备和存储介质
CN111339932B (zh) 一种掌纹图像预处理方法和系统
CN112016519A (zh) 一种基于Hard Triple的车辆重识别方法及系统
CN110516666B (zh) 基于mser和isodata相结合的车牌定位方法
Liu et al. Deep domain adaptation for pavement crack detection
Chen et al. License plate recognition for moving vehicles using a moving camera
CN110263784A (zh) 智能的英语试卷成绩识别录入方法
De Nardin et al. Few-shot pixel-precise document layout segmentation via dynamic instance generation and local thresholding
TWI498830B (zh) 不均勻光線下的車牌辨識方法及系統
CN108647679B (zh) 一种基于车窗粗定位的车标识别方法
Bala et al. Image simulation for automatic license plate recognition
Angeline et al. Multiple vehicles license plate tracking and recognition via isotropic dilation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191022