CN108022243A - 一种基于深度学习的图像中纸张检测方法 - Google Patents

一种基于深度学习的图像中纸张检测方法 Download PDF

Info

Publication number
CN108022243A
CN108022243A CN201711181082.4A CN201711181082A CN108022243A CN 108022243 A CN108022243 A CN 108022243A CN 201711181082 A CN201711181082 A CN 201711181082A CN 108022243 A CN108022243 A CN 108022243A
Authority
CN
China
Prior art keywords
mtd
image
paper
mtr
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711181082.4A
Other languages
English (en)
Inventor
李世东
苗长龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangtze Delta Region Institute of Tsinghua University Zhejiang
Original Assignee
Yangtze Delta Region Institute of Tsinghua University Zhejiang
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangtze Delta Region Institute of Tsinghua University Zhejiang filed Critical Yangtze Delta Region Institute of Tsinghua University Zhejiang
Priority to CN201711181082.4A priority Critical patent/CN108022243A/zh
Publication of CN108022243A publication Critical patent/CN108022243A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/149Segmentation; Edge detection involving deformable models, e.g. active contour models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/168Segmentation; Edge detection involving transform domain methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像识别与分割技术领域,具体公开了一种基于深度学习的图像中纸张检测方法,可以将复杂的自然场景下的图像中的纸张检测并分割出来,包括以下步骤:步骤1:用端到端的深度卷积网络对输入图像进行检测,得到图像中纸张较为精确的位置信息,将纸张从原始图像中分割;步骤2:在分割后的图像上通过轮廓检测算法得到其轮廓图像;步骤3:在轮廓图像上使用多边形拟合算法得到纸张的4个顶点的坐标信息;步骤4:利用坐标信息将原始图像上的纸张部分进行变换,求得变换矩阵,并一定程度地消除其透视变化;步骤5:利用变换矩阵进行图像变换得到从原始图像中分割出来的纸张的正面图像。

Description

一种基于深度学习的图像中纸张检测方法
技术领域
本发明涉及图像识别与分割技术领域,特别涉及一种基于深度学习的图像中纸张检测方法。
背景技术
近年来,得益于深度学习技术,计算机视觉领域有了突破性的进展。如在目标检测和识别方面,都比传统算法取得了更好的成绩,甚至在某些领域取得了超越人类能力的结果,如人脸识别问题等。逐渐地,深度学习技术也被应用于图像分割领域,也得到了超过传统算法的结果,如图像语义分割问题等。在图像分割领域,端到端的深度卷积网络有较好的结果,该网络以任意尺寸的图像为输入,输出原尺寸的分割结果,同时有较高的图像分割结果,由于该网络是一种端到端的网络,易于训练和测试,实用性强。
对于图像中的纸张的检测有较大的应用价值,如检测到纸张并将其从原始图像上分割出来后,可以对纸张上的文字或者图画内容做进一步的检测、识别和提取。在日常场景下,拍照得到的照片通常包含复杂的背景,增加了纸张检测的难度,同时,图像中的纸张通常不会处于完全水平放置的情况,而且拍照时也会存在视角倾斜的情况,导致了图像中纸张存在一定的透视变换,这就一定程度的增加了之后对纸张内容的检测和识别的难度。
目前存在一些纸张检测的手机软件应用,可以通过手机摄像头获取纸张的内容,进而可以将其转换成PDF格式的文件,但是这些软件应用在获取纸张的照片时有较高的要求,如手机摄像头要放在正对着纸张的位置,距离要求适中,同时纸张要摆放的较为整齐,这一定程度的导致了图像中纸张检测应用的局限性和实用性。
发明内容
针对上述现有技术的缺陷及存在的技术问题,本发明提供了一种精确度、实用性高的基于深度学习的图像中纸张检测方法。
本发明解决其技术问题所采用的技术方案是:一种基于深度学习的图像中纸张检测方法,可以将复杂的自然场景下的图像中的纸张检测并分割出来包括以下步骤:
步骤1:使用端到端的深度卷积网络对输入图像进行检测,得到图像中纸张较为精确的位置信息,并将纸张从原始图像中分割出来,得到纸张分割后的图像;
步骤2:在步骤1所得的分割后的图像上通过轮廓检测算法得到其轮廓图像;
步骤3:在步骤2所得的轮廓图像上使用多边形拟合算法得到纸张的4个顶点的坐标信息;
步骤4:利用步骤3所得的坐标信息将原始图像上的纸张部分进行变换,求得变换矩阵,并一定程度地消除其透视变化;
步骤5:利用步骤4所得变换矩阵进行图像变换得到从原始图像中分割出来的纸张的正面图像。
本发明的有益效果是:对比现有技术,本发明的一种基于深度学习的图像中纸张检测方法,利用深度卷积网络从复杂的自然场景下获取的照片中精确地将纸张检测并分割出来,通过图像变换一定程度地消除其透视变换,最终得到从原始图像上分割出来的纸张的正面图像。
附图说明
图1为本发明的整体示意图。
图2为基于端到端的深度卷积网络的纸张分割方法的示意图。
图3为一定程度地消除纸张仿射变换方法的示意图。
其中:a为原始图像,b为使用深度卷积网络得到的分割图像,c为得到纸张4个顶点坐标信息的图像,d为最终得到从原始图像上分割出来的纸张的正面图像,e为纸张,f为背景,g为训练阶段,h为测试阶段,i为训练图像,j为真值,k为测试图像,l为分割结果,m为分割图像的轮廓图像。
具体实施方式
下面结合附图对本发明的具体实施方式作详细说明,进一步阐明本发明的优点及相对于现有技术的突出贡献,可以理解的,下述的实施例仅是对本发明较佳实施方案的详细说明,不应该解释为对本发明技术方案的任何限制。在不脱离本发明设计构思的前提下,本领域普通人员对本发明的技术方案做出的各种变型和改进,均应落入到本发明的保护范围,本发明请求保护的技术内容,已经全部记载在权利要求书中。
如图1所示,本发明实施例的一种基于深度学习的图像中纸张检测方法的实施步骤如下:
步骤1:使用端到端的深度卷积网络对输入图像进行检测,得到图像中纸张较为精确的位置信息,并将纸张从原始图像中分割出来,得到纸张分割后的图像;
步骤2:在步骤1所得的分割后的图像上通过轮廓检测算法得到其轮廓图像;
步骤3:在步骤2所得的轮廓图像上使用多边形拟合算法得到纸张的4个顶点的坐标信息;
步骤4:利用步骤3所得的坐标信息将原始图像上的纸张部分进行变换,求得变换矩阵,并一定程度地消除其透视变化;
步骤5:利用步骤4所得变换矩阵进行图像变换得到从原始图像中分割出来的纸张的正面图像。
如图2所示,基于端到端的深度卷积网络的图像中纸张分割方法包含训练阶段和测试阶段,在训练阶段,首先收集包含纸张图像的数据库,并对数据库中的图像进行人工标注;标注方法为将原始图像中的纸张部位像素值标定为1,背景部分的像素值标定为0,最后将得到一幅二值图像,即为原始图像的真值;选择一个合适的端到端的深度卷积网络模型,如DeepLab网络和FCN网络;然后使用数据库中的训练图像和真值对该网络模型进行训练;当网络收敛后得到该网络训练好的模型;在测试阶段中,使用训练阶段得到的模型,即可对输入的图像进行测试,得到纸张的分割结果。
如图3所示,得到原始图像中纸张的分割结果后,需要消除图像中的纸张的透视变化,得到其正面图像,首先检测出分割结果图像的轮廓,得到其轮廓图像,该图像为一幅二值图像,其中轮廓是一个由坐标点组成的向量,按照顺时针储存;然后在轮廓图像上使用多边形拟合函数,如OpenCV库中的approxPolyDP函数,得到纸张4个顶点的坐标信息;并对4个点进行编号,距离图像原点,即(0,0)点,最近的点为1号点,剩下三个点按照其在储存轮廓的向量中的先后顺序依次为2、3和4号;计算得出d1为1、2号点之间的位置距离,d2为1、4号点之间的位置距离;最后将1、2、3和4号点依次对应(0,0)、(d1,0)、(d1,d2)和(0,d2)4个坐标点,使用图像变换公式可得出变换矩阵T,由公式:
表示,其中x和y为变换后的坐标,u和v为原始图像的坐标,T为图像变换矩阵。
最后利用变换矩阵T可得到消除透视变换的纸张,最后可以得到从原始图像上分割出来的纸张的正面图像。

Claims (6)

1.一种基于深度学习的图像中纸张检测方法,其特征在于:包括以下步骤:
步骤1:使用端到端的深度卷积网络对输入图像进行检测,得到图像中纸张较为精确的位置信息,并将纸张从原始图像中分割出来,得到纸张分割后的图像;
步骤2:在步骤(1)所得的分割后的图像上通过轮廓检测算法得到其轮廓图像;
步骤3:在步骤(2)所得的轮廓图像上使用多边形拟合算法得到纸张的4个顶点的坐标信息;
步骤4:利用步骤(3)所得的坐标信息将原始图像上的纸张部分进行变换,求得变换矩阵,并一定程度地消除其透视变化;
步骤5:利用步骤(4)所得变换矩阵进行图像变换得到从原始图像中分割出来的纸张的正面图像。
2.根据权利要求1所述的一种基于深度学习的图像中纸张检测方法,其特征在于:所述步骤(1)中端到端的深度卷积网络,包括DeepLab网络和FCN网络,是一种处理图像分割领域的深度卷积网络,可以端到端的对图像进行训练,输入为一张图像并输出原尺寸大小的分割图像,图像中的纸张检测问题属于两分类的语义分割问题。
3.根据权利要求1所述的一种基于深度学习的图像中纸张检测方法,其特征在于:所述步骤(1)中的纸张分割后的图像是一幅二值图像,所述步骤(2)中使用轮廓检测算法可以得到该二值图像的轮廓信息,并将轮廓点按照顺时针储存在一个向量中。
4.根据权利要求1所述的一种基于深度学习的图像中纸张检测方法,其特征在于:所述步骤(3)中使用多边形拟合算法,包括OpenCV库中的approxPolyDP函数,可以从原始图像的纸张轮廓图像上得到四边形的4个顶点的坐标信息,即纸张4个顶点的坐标信息。
5.根据权利要求1所述的一种基于深度学习的图像中纸张检测方法,其特征在于:所述步骤(4)中变换矩阵的求解过程为:对纸张4个点进行编号,距离图像原点,即(0,0)点,距离最小的点为1号点,剩下三个点按照其在储存轮廓的向量中的先后顺序依次为2、3和4号;计算得出d1为1、2号点之间的位置距离,d2为1、4号点之间的位置距离;最后将1、2、3和4号点依次对应(0,0)、(d1,0)、(d1,d2)和(0,d2)4个坐标点,使用图像变换公式可得出变换矩阵T,由公式:
<mrow> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mi>x</mi> </mtd> <mtd> <mi>y</mi> </mtd> <mtd> <mn>1</mn> </mtd> </mtr> </mtable> </mfenced> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mi>u</mi> </mtd> <mtd> <mi>v</mi> </mtd> <mtd> <mn>1</mn> </mtd> </mtr> </mtable> </mfenced> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mi>a</mi> </mtd> <mtd> <mi>b</mi> </mtd> <mtd> <mi>c</mi> </mtd> </mtr> <mtr> <mtd> <mi>d</mi> </mtd> <mtd> <mi>e</mi> </mtd> <mtd> <mi>f</mi> </mtd> </mtr> <mtr> <mtd> <mi>g</mi> </mtd> <mtd> <mi>h</mi> </mtd> <mtd> <mi>i</mi> </mtd> </mtr> </mtable> </mfenced> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mi>u</mi> </mtd> <mtd> <mi>v</mi> </mtd> <mtd> <mn>1</mn> </mtd> </mtr> </mtable> </mfenced> <mi>T</mi> </mrow>
表示,其中x和y为变换后的坐标,u和v为原始图像的坐标,T为图像变换矩阵。
6.根据权利要求1所述的一种基于深度学习的图像中纸张检测方法,其特征在于:所述步骤(5)中利用变换矩阵T,可以将原始图像中纸张部分转换得到纸张的正面图像。
CN201711181082.4A 2017-11-23 2017-11-23 一种基于深度学习的图像中纸张检测方法 Pending CN108022243A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711181082.4A CN108022243A (zh) 2017-11-23 2017-11-23 一种基于深度学习的图像中纸张检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711181082.4A CN108022243A (zh) 2017-11-23 2017-11-23 一种基于深度学习的图像中纸张检测方法

Publications (1)

Publication Number Publication Date
CN108022243A true CN108022243A (zh) 2018-05-11

Family

ID=62080051

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711181082.4A Pending CN108022243A (zh) 2017-11-23 2017-11-23 一种基于深度学习的图像中纸张检测方法

Country Status (1)

Country Link
CN (1) CN108022243A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711448A (zh) * 2018-12-19 2019-05-03 华东理工大学 基于判别关键域和深度学习的植物图像细粒度分类方法
CN110097561A (zh) * 2019-03-14 2019-08-06 长安大学 一种基于空间约束条件的快速纸张检测及分割方法
CN110276344A (zh) * 2019-06-04 2019-09-24 腾讯科技(深圳)有限公司 一种图像分割的方法、图像识别的方法以及相关装置
WO2019227615A1 (zh) * 2018-06-01 2019-12-05 平安科技(深圳)有限公司 校正发票图像的方法、装置、计算机设备和存储介质
CN111105418A (zh) * 2019-03-27 2020-05-05 上海洪朴信息科技有限公司 一种针对图像中矩形目标的高精度图像分割方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105957238A (zh) * 2016-05-20 2016-09-21 聚龙股份有限公司 一种纸币管理方法及其系统
CN107153822A (zh) * 2017-05-19 2017-09-12 北京航空航天大学 一种基于深度学习的半自动图像精标注方法
CN107169488A (zh) * 2017-05-03 2017-09-15 四川长虹电器股份有限公司 一种票据扫描图像的矫正系统及矫正方法
CN107256552A (zh) * 2017-06-14 2017-10-17 成都康托医疗设备有限公司 息肉图像识别系统及方法
JP2017204085A (ja) * 2016-05-10 2017-11-16 トヨタ自動車株式会社 画像認識システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017204085A (ja) * 2016-05-10 2017-11-16 トヨタ自動車株式会社 画像認識システム
CN105957238A (zh) * 2016-05-20 2016-09-21 聚龙股份有限公司 一种纸币管理方法及其系统
CN107169488A (zh) * 2017-05-03 2017-09-15 四川长虹电器股份有限公司 一种票据扫描图像的矫正系统及矫正方法
CN107153822A (zh) * 2017-05-19 2017-09-12 北京航空航天大学 一种基于深度学习的半自动图像精标注方法
CN107256552A (zh) * 2017-06-14 2017-10-17 成都康托医疗设备有限公司 息肉图像识别系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李念东: "背景复杂的机票信息识别技术的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019227615A1 (zh) * 2018-06-01 2019-12-05 平安科技(深圳)有限公司 校正发票图像的方法、装置、计算机设备和存储介质
CN109711448A (zh) * 2018-12-19 2019-05-03 华东理工大学 基于判别关键域和深度学习的植物图像细粒度分类方法
CN110097561A (zh) * 2019-03-14 2019-08-06 长安大学 一种基于空间约束条件的快速纸张检测及分割方法
CN110097561B (zh) * 2019-03-14 2022-07-15 长安大学 一种基于空间约束条件的快速纸张检测及分割方法
CN111105418A (zh) * 2019-03-27 2020-05-05 上海洪朴信息科技有限公司 一种针对图像中矩形目标的高精度图像分割方法
CN110276344A (zh) * 2019-06-04 2019-09-24 腾讯科技(深圳)有限公司 一种图像分割的方法、图像识别的方法以及相关装置
WO2020244373A1 (zh) * 2019-06-04 2020-12-10 腾讯科技(深圳)有限公司 基于人工智能的图像识别方法以及相关装置
CN110276344B (zh) * 2019-06-04 2023-11-24 腾讯科技(深圳)有限公司 一种图像分割的方法、图像识别的方法以及相关装置

Similar Documents

Publication Publication Date Title
CN108022243A (zh) 一种基于深度学习的图像中纸张检测方法
CN103679702B (zh) 一种基于图像边缘矢量的匹配方法
CN104134071B (zh) 一种基于颜色描述的可变形部件模型物体检测方法
AU2011301774B2 (en) A method for enhancing depth maps
CN107103277B (zh) 一种基于深度相机和3d卷积神经网络的步态识别方法
CN110866871A (zh) 文本图像矫正方法、装置、计算机设备及存储介质
CN107292318B (zh) 基于中心暗通道先验信息的图像显著性物体检测方法
CN104850825A (zh) 一种基于卷积神经网络的人脸图像颜值计算方法
CN104463108A (zh) 一种单目实时目标识别及位姿测量方法
CN110263768A (zh) 一种基于深度残差网络的人脸识别方法
CN103632153B (zh) 一种基于区域的图像显著图提取方法
CN103927758B (zh) 一种基于对比度与角点最小凸包的显著性检测方法
CN102147867B (zh) 一种基于主体的国画图像和书法图像的识别方法
CN103839042A (zh) 人脸识别方法和人脸识别系统
CN107766864B (zh) 提取特征的方法和装置、物体识别的方法和装置
CN110796101A (zh) 一种嵌入式平台的人脸识别方法及系统
CN111126240A (zh) 一种三通道特征融合人脸识别方法
CN112101208A (zh) 高龄老人特征串联融合手势识别方法及装置
CN105069745A (zh) 基于普通图像传感器及增强现实技术的带表情变脸系统及方法
CN109344706A (zh) 一种可单人操作的人体特殊姿势照片的获取方法
Yanagisawa et al. Face detection for comic images with deformable part model
CN110120013A (zh) 一种点云拼接方法及装置
CN109583341B (zh) 对包含人像的图像的多人骨骼关键点检测方法及装置
CN105975906A (zh) 一种基于面积特征的pca静态手势识别方法
CN105574535B (zh) 基于间接距离角直方图空间关系模型的图形符号识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180511