CN108846385A - 基于卷积-反卷积神经网络的图像识别、校正方法和装置 - Google Patents

基于卷积-反卷积神经网络的图像识别、校正方法和装置 Download PDF

Info

Publication number
CN108846385A
CN108846385A CN201810752074.9A CN201810752074A CN108846385A CN 108846385 A CN108846385 A CN 108846385A CN 201810752074 A CN201810752074 A CN 201810752074A CN 108846385 A CN108846385 A CN 108846385A
Authority
CN
China
Prior art keywords
convolution
network
layer
picture
mid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810752074.9A
Other languages
English (en)
Other versions
CN108846385B (zh
Inventor
夏鑫
郑伟波
孙立新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur General Software Co Ltd
Original Assignee
Inspur General Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur General Software Co Ltd filed Critical Inspur General Software Co Ltd
Priority to CN201810752074.9A priority Critical patent/CN108846385B/zh
Publication of CN108846385A publication Critical patent/CN108846385A/zh
Application granted granted Critical
Publication of CN108846385B publication Critical patent/CN108846385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种基于卷积‑反卷积神经网络的图像识别、校正方法和装置,通过构建卷积‑反卷积神经网络模型;为训练集中的至少一张图片样本构建对应的标注图;训练卷积‑反卷积神经网络模型,利用训练后的所述卷积‑反卷积神经网络模型和预设的几何约束,识别待检测图片中的图像主体。本发明提供的方案实现了对图片中的图像主体的识别。

Description

基于卷积-反卷积神经网络的图像识别、校正方法和装置
技术领域
本发明涉及计算机技术领域,特别涉及一种基于卷积-反卷积神经网络的图像识别、校正方法和装置。
背景技术
随着移动互联网和多媒体的飞速发展,图片已经成为获取重要信息的方式之一,例如从图片中获取文档、名片、身份证、护照等的信息,其所带来的便捷和高效也使人们对其青睐有加。而随手拍摄需要采集的图像如文档、名片、身份证、护照等均存在偏转和扭曲的问题,而对偏转和扭曲的图像进行识别和校正,是准确提取信息的必要条件。因此,对图像主体如图片中的文档、名片、身份证以及护照等进行识别和校正则显得十分重要。
发明内容
本发明实施例提供了一种基于卷积-反卷积神经网络的图像识别、校正方法和装置,实现了对图片中的图像主体的识别。
基于卷积-反卷积神经网络的图像识别方法:
构建卷积-反卷积神经网络模型,包括:为所述卷积-反卷积神经网络模型设置网络结构、每层卷积核尺寸和数目、每层反卷积核尺寸和数目、每层最大池化核的尺寸、卷积核与反卷积核在每一维的移动步长;
为训练集中的至少一张图片样本构建对应的标注图;
训练所述卷积-反卷积神经网络模型,包括循环执行下述步骤N1至N5:
N1:确定当前输入批次,从所述训练集中,为所述当前输入批次抽取至少一张图片样本,其中,抽取的图片样本张数等于所述当前输入批次对应的预设输入批量;
N2:将所述当前输入批次对应的每一张图片样本输入所述卷积-反卷积神经网络模型,为输入的每一张所述图片样本生成对应的预测结果;
N3:利用所述预测结果和所述图片样本对应的标注图,计算所述当前输入批次的权重差异值;
N4:按照预设的学习速率和所述权重差异值,调整所述卷积-反卷积神经网络模型中的网络参数权重值;
N5:判断是否完成预设的训练目标,如果否,则确定下一输入批次,并将所述下一输入批次作为当前输入批次,返回执行N1,如果是,则结束循环;
所述方法还包括:
利用训练后的所述卷积-反卷积神经网络模型和预设的几何约束,识别待检测图片中的图像主体。
可选地,
所述图像主体为四边形结构;
所述为训练集中的至少一张图片样本构建对应的标注图,包括:
针对每一张图片样本,均执行:
用线段描绘所述图片样本中的四边形结构图像主体的主体边缘;
根据描绘出的所述主体边缘,确定四个顶点;
基于所述四边形结构图像主体,构造对应的灰度图,并将所述灰度图背景填充为黑色;
基于所述四个顶点,利用宽度不大于3像素的白色直线,描绘所述灰度图的边缘,形成标注图;
其中,所述训练集中的所有图片样本以及所述图片样本对应的标注图具有相同的设定分辨率大小。
可选地,所述利用所述预测结果和所述图片样本对应的标注图,计算所述当前输入批次的权重差异值,包括:
利用下述差异值计算公式,计算所述当前输入批次的权重差异值;
差异值计算公式:
其中,loss表征当前输入批次的权重差异值;i表征当前输入批次对应的第i张图片样本;n表征对应的预设输入批量,n为不小于1的正整数;zi表征当前输入批次对应的第i张图片样本对应的标注图的值;yi表征第i张图片样本对应的预测结果;qi表征第i张图片样本对应的预测结果与对应标注图之间相同值所占百分比。
可选地,所述训练目标,包括:
所述权重差异值不大于预设的收敛阈值。
可选地,所述训练目标,包括:
所述循环的次数达到预设的迭代次数阈值。
可选地,所述利用训练后的所述卷积-反卷积神经网络模型和预设的几何约束识别,待检测图片中的图像主体,包括:
利用训练后的所述卷积-反卷积神经网络模型检测待检测图片中的直线/线段;
利用四边形几何约束,筛选出所述直线/线段组成的四边形结构;
确定面积最大的四边形包围的区域为待检测图片中的图像主体。
可选地,为所述卷积-反卷积神经网络模型所设置的所述网络结构,包括:具有三个卷积层和一个最大池化层的第一网络层,至少一个具有三个卷积层、一个最大池化层以及一个反卷积层的中间网络层,具有三个卷积层和一个反卷积层的底层网络层以及具有一个卷积层的合并卷积网络层,其中,
所述第一网络层的连接为:
所述中间网络层的连接为:
其中,当所述中间网络层的个数为一个时,M表征第一网络层,K表征底层网络层;当所述中间网络层的个数为至少两个时,针对首个中间网络层,M表征第一网络层;针对非首个中间网络层,M表征前续中间网络层;针对最后一个中间网络层,K表征底层网络层;针对非最后一个中间网络层,K表征后续中间网络层;
所述底层网络层的连接为:
中间网络层→卷积层→卷积层→卷积层→反卷积层→合并卷积网络层。
一种图像校正方法,利用上述任一所述的基于卷积-反卷积神经网络的图像识别方法识别出待检测图片中的图像主体;还包括:
构建一个视平面;
将识别出的所述图像主体投影到所述视平面上;
根据识别出的所述图像主体的边缘与所述视平面的边缘之间的夹角,变换识别出的所述图像主体的角度,以使识别出的所述图像主体的边缘与所述视平面的边缘平行;
按照预设的输出分辨率,以图片格式输出识别出的所述图像主体。
一种基于卷积-反卷积神经网络的图像识别装置,包括:构建与存储单元、模型训练单元以及识别单元,其中,
所述构建与存储单元,用于构建并存储卷积-反卷积神经网络模型,包括为所述卷积-反卷积神经网络模型设置网络结构、每层卷积核尺寸和数目、每层反卷积核尺寸和数目、每层最大池化核的尺寸、卷积核与反卷积核在每一维的移动步长;
所述模型训练单元,用于训练所述构建与存储单元存储的卷积-反卷积神经网络模型,包括循环执行下述步骤N1至N5:
N1:确定当前输入批次,从所述训练集中,为所述当前输入批次抽取至少一张图片样本,其中,抽取的图片样本张数等于所述当前输入批次对应的预设输入批量;
N2:将所述当前输入批次对应的每一张图片样本输入所述卷积-反卷积神经网络模型,为输入的每一张所述图片样本生成对应的预测结果;
N3:利用所述预测结果和所述图片样本对应的标注图,计算所述当前输入批次的权重差异值;
N4:按照预设的学习速率和所述权重差异值,调整所述卷积-反卷积神经网络模型中的网络参数权重值;
N5:判断是否完成预设的训练目标,如果否,则确定下一输入批次,并将所述下一输入批次作为当前输入批次,返回执行N1,如果是,则结束循环;
所述识别单元,用于利用所述模型训练单元训练后的卷积-反卷积神经网络模型和预设的几何约束,识别待检测图片中的图像主体。
可选地,
所述模型训练单元,用于当所述图像主体为四边形结构时,所述为训练集中的图片样本执行:用线段描绘所述图片样本中的四边形结构图像主体的主体边缘;根据描绘出的所述主体边缘,确定四个顶点;基于所述四边形结构图像主体,构造对应的灰度图,并将所述灰度图背景填充为黑色;基于所述四个顶点,利用宽度不大于3像素的白色直线,描绘所述灰度图的边缘,形成标注图,其中,所述训练集中的所有图片样本以及所述图片样本对应的标注图具有相同的设定分辨率大小。
可选地,
所述模型训练单元,用于利用下述差异值计算公式,计算所述当前输入批次的权重差异值;
差异值计算公式:
其中,loss表征当前输入批次的权重差异值;i表征当前输入批次对应的第i张图片样本;n表征对应的预设输入批量,n为不小于1的正整数;zi表征当前输入批次对应的第i张图片样本对应的标注图的值;yi表征第i张图片样本对应的预测结果;qi表征第i张图片样本对应的预测结果与对应标注图之间相同值所占百分比。
可选地,
所述构建与存储单元,为所述卷积-反卷积神经网络模型所设置的所述网络结构,包括:具有三个卷积层和一个最大池化层的第一网络层,至少一个具有三个卷积层、一个最大池化层以及一个反卷积层的中间网络层,具有三个卷积层和一个反卷积层的底层网络层以及具有一个卷积层的合并卷积网络层,其中,
所述第一网络层的连接为:
所述中间网络层的连接为:
其中,当所述中间网络层的个数为一个时,M表征第一网络层,K表征底层网络层;当所述中间网络层的个数为至少两个时,针对首个中间网络层,M表征第一网络层;针对非首个中间网络层,M表征前续中间网络层;针对最后一个中间网络层,K表征底层网络层;针对非最后一个中间网络层,K表征后续中间网络层;
所述底层网络层的连接为:
中间网络层→卷积层→卷积层→卷积层→反卷积层→合并卷积网络层。
本发明实施例提供了一种基于卷积-反卷积神经网络的图像识别、校正方法和装置,通过构建卷积-反卷积神经网络模型,包括:为所述卷积-反卷积神经网络模型设置网络结构、每层卷积核尺寸和数目、每层反卷积核尺寸和数目、每层最大池化核的尺寸、卷积核与反卷积核在每一维的移动步长;为训练集中的至少一张图片样本构建对应的标注图;训练所述卷积-反卷积神经网络模型,包括循环执行下述步骤N1至N5:N1:确定当前输入批次,从所述训练集中,为所述当前输入批次抽取至少一张图片样本,其中,抽取的图片样本张数等于所述当前输入批次对应的预设输入批量;N2:将所述当前输入批次对应的每一张图片样本输入所述卷积-反卷积神经网络模型,为输入的每一张所述图片样本生成对应的预测结果;N3:利用所述预测结果和所述图片样本对应的标注图,计算所述当前输入批次的权重差异值;N4:按照预设的学习速率和所述权重差异值,调整所述卷积-反卷积神经网络模型中的网络参数权重值;N5:判断是否完成预设的训练目标,如果否,则确定下一输入批次,并将所述下一输入批次作为当前输入批次,返回执行N1,如果是,则结束循环;所述方法还包括:利用训练后的所述卷积-反卷积神经网络模型和预设的几何约束,识别待检测图片中的图像主体。标注图包含有图像主体的特征,由于卷积-反卷积神经网络模型的训练过程中计算输入批次的权重差异值实际是计算每一批次预测结果与标注图之间的差异值,通过获得收敛性的权重差异值来完成训练,这使得训练出的卷积-反卷积神经网络模型能够更加准确的识别出图像主体,因此,本发明提供的方案实现了对图片中的图像主体的识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种基于卷积-反卷积神经网络的图像识别方法的流程图;
图2是本发明一个实施例提供的一种基于卷积-反卷积神经网络的图像识别方法的流程图;
图3是本发明一个实施例提供的一种卷积-反卷积神经网络模型的结构示意图;
图4是本发明一个实施例提供的一种图像校正方法的流程图;
图5是本发明一个实施例提供的一种基于卷积-反卷积神经网络的图像识别装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于卷积-反卷积神经网络的图像识别方法,该方法可以包括以下步骤:
步骤101:构建卷积-反卷积神经网络模型;
该步骤中构建卷积-反卷积神经网络模型包括:为所述卷积-反卷积神经网络模型设置网络结构、每层卷积核尺寸和数目、每层反卷积核尺寸和数目、每层最大池化核的尺寸、卷积核与反卷积核在每一维的移动步长;
步骤102:为训练集中的至少一张图片样本构建对应的标注图;
步骤103:利用训练集中的图片样本和对应的标注图,训练所述卷积-反卷积神经网络模型;
该步骤103中训练所述卷积-反卷积神经网络模型,包括:循环执行下述步骤N1至N5:
N1:确定当前输入批次,从所述训练集中,为所述当前输入批次抽取至少一张图片样本,其中,抽取的图片样本张数等于所述当前输入批次对应的预设输入批量;
N2:将所述当前输入批次对应的每一张图片样本输入所述卷积-反卷积神经网络模型,为输入的每一张所述图片样本生成对应的预测结果;
N3:利用所述预测结果和所述图片样本对应的标注图,计算所述当前输入批次的权重差异值;
N4:按照预设的学习速率和所述权重差异值,调整所述卷积-反卷积神经网络模型中的网络参数权重值;
N5:判断是否完成预设的训练目标,如果否,则确定下一输入批次,并将所述下一输入批次作为当前输入批次,返回执行N1,如果是,则结束循环;
步骤104:利用训练后的所述卷积-反卷积神经网络模型和预设的几何约束,识别待检测图片中的图像主体。
可以理解地,上述步骤101至步骤103是为了得到能够识别图像主体的卷积-反卷积神经网络模型,在获得能够识别图像主体的卷积-反卷积神经网络模型之后,在进行图像主体识别过程中,可以直接调用该能够识别图像主体的卷积-反卷积神经网络模型,而无须每次进行图像主体识别时重复执行步骤101至步骤103。
可以理解地,输入批次与卷积-反卷积神经网络模型训练次数一致,也与循环次数一致,当前输入批次对应的输入批量为当前输入批次中,为卷积-反卷积神经网络模型输入图片样本的张数。该输入批量的取值为不小于1的正整数,当输入批量为1时,即一次循环针对一张图片样本。
值得说明的是,在从所述训练集中,为所述当前输入批次抽取至少一张图片样本之前,对训练集中的图片样本进行随机乱序处理,即将训练集中的图片样本顺序进行随机重排,通过该过程可避免不同输入批次抽取出的图片样本完全相同,同时也可避免相同的多个图片样本顺序一致。通过该过程可以避免卷积-反卷积神经网络模型产生记忆,从而保证训练出来的卷积-反卷积神经网络模型的准确性。
另外,值得说明的是,当训练集中的图片样本数量不能满足训练需求时,可使用自动生成图片样本的方式增加图片样本,具体步骤为:分别采集训练集中现有的图片样本中的图像主体与图片背景;采用现有的图像处理技术对图像主体进行随机旋转及透视变换,并保留变换后的边缘信息;使用现有的图像合成技术将随机旋转及透视变换后的图像主体与任意图片背景进行融合,即合成图片样本,可通过适当增加随机噪声,以提高合成图片样本的质量。另外,需要将合成的图片样本与图像主体分别存储为设定的分辨率大小。
在图1所示的实施例中,通过构建卷积-反卷积神经网络模型,包括:为所述卷积-反卷积神经网络模型设置网络结构、每层卷积核尺寸和数目、每层反卷积核尺寸和数目、每层最大池化核的尺寸、卷积核与反卷积核在每一维的移动步长;为训练集中的至少一张图片样本构建对应的标注图;训练所述卷积-反卷积神经网络模型,包括循环执行下述步骤N1至N5:N1:确定当前输入批次,从所述训练集中,为所述当前输入批次抽取至少一张图片样本,其中,抽取的图片样本张数等于所述当前输入批次对应的预设输入批量;N2:将所述当前输入批次对应的每一张图片样本输入所述卷积-反卷积神经网络模型,为输入的每一张所述图片样本生成对应的预测结果;N3:利用所述预测结果和所述图片样本对应的标注图,计算所述当前输入批次的权重差异值;N4:按照预设的学习速率和所述权重差异值,调整所述卷积-反卷积神经网络模型中的网络参数权重值;N5:判断是否完成预设的训练目标,如果否,则确定下一输入批次,并将所述下一输入批次作为当前输入批次,返回执行N1,如果是,则结束循环;所述方法还包括:利用训练后的所述卷积-反卷积神经网络模型和预设的几何约束,识别待检测图片中的图像主体。标注图包含有图像主体的特征,由于卷积-反卷积神经网络模型的训练过程中计算输入批次的权重差异值实际是计算每一批次预测结果与标注图之间的差异值,通过获得收敛性的权重差异值来完成训练,这使得训练出的卷积-反卷积神经网络模型能够更加准确的识别出图像主体,因此,本发明提供的方案实现了对图片中的图像主体的识别。
在本发明一个实施例中,所述图像主体为四边形结构;针对四边形结构的图像主体,上述步骤102的具体实施方式,包括:针对每一张图片样本,均执行:
用线段描绘所述图片样本中的四边形结构图像主体的主体边缘;根据描绘出的所述主体边缘,确定四个顶点;基于所述四边形结构图像主体,构造对应的灰度图,并将所述灰度图背景填充为黑色;基于所述四个顶点,利用宽度不大于3像素的白色直线,描绘所述灰度图的边缘,形成标注图;其中,所述训练集中的所有图片样本以及所述图片样本对应的标注图具有相同的设定分辨率大小。通过针对四边形结构的图像主体构建标注图,则训练出的卷积-反卷积神经网络模型能够识别出四边形结构的图像主体如图片中的幻灯片、文件、名片、身份证、护照、银行卡以及广告牌等等。即本发明实施例提供的方案实现了识别图片中的四边形结构如幻灯片、文件、名片、身份证、护照、银行卡以及广告牌等等,另外,描绘边缘的直线不大于3像素,能够减小边缘识别的偏差,从而有效地提高训练卷积-反卷积神经网络模型的准确性,另外,图片样本以及所述图片样本对应的标注图具有相同的设定分辨率大小,能够进一步提高训练卷积-反卷积神经网络模型的准确性。
另外,对于图片样本及标注图的分辨率大小来说,一般不大于480×480,优选地为240×240,一方面保证训练卷积-反卷积神经网络模型的效率和识别图像主体的效率,另一方面可以减少设备硬件的运行压力,降低对设备硬件的要求。
在本发明一个实施例中,上述利用所述预测结果和所述图片样本对应的标注图,计算所述当前输入批次的权重差异值,包括:
利用下述差异值计算公式,计算所述当前输入批次的权重差异值;
差异值计算公式:
其中,loss表征当前输入批次的权重差异值;i表征当前输入批次对应的第i张图片样本;n表征对应的预设输入批量,n为不小于1的正整数;zi表征当前输入批次对应的第i张图片样本对应的标注图的值;yi表征第i张图片样本对应的预测结果;qi表征第i张图片样本对应的预测结果与对应标注图之间相同值所占百分比。
在本发明一个实施例中,所述训练目标,包括:所述权重差异值不大于预设的收敛阈值。
在本发明一个实施例中,所述训练目标,包括:所述循环的次数达到预设的迭代次数阈值。
在本发明一个实施例中,针对四边形图像主体来说,上述步骤104的具体实施方式包括:利用训练后的所述卷积-反卷积神经网络模型检测待检测图片中的直线/线段;利用四边形几何约束,筛选出所述直线/线段组成的四边形结构;确定面积最大的四边形包围的区域为待检测图片中的图像主体。
在本发明一个实施例中,为所述卷积-反卷积神经网络模型所设置的所述网络结构,包括:具有三个卷积层和一个最大池化层的第一网络层,至少一个具有三个卷积层、一个最大池化层以及一个反卷积层的中间网络层,具有三个卷积层和一个反卷积层的底层网络层以及具有一个卷积层的合并卷积网络层,其中,
所述第一网络层的连接为:
所述中间网络层的连接为:
其中,当所述中间网络层的个数为一个时,M表征第一网络层,K表征底层网络层;当所述中间网络层的个数为至少两个时,针对首个中间网络层,M表征第一网络层;针对非首个中间网络层,M表征前续中间网络层;针对最后一个中间网络层,K表征底层网络层;针对非最后一个中间网络层,K表征后续中间网络层;
所述底层网络层的连接为:
中间网络层→卷积层→卷积层→卷积层→反卷积层→合并卷积网络层。
值得说明的是,上述中间网络层可以按照用户需求和对识别精确度的要求进行设置,例如当设置3层中间网络层时,卷积-反卷积神经网络模型包括:第一层网络层、3层中间网络层、底层网络层及合并卷积网络层。当设置4层中间网络层时,卷积-反卷积神经网络模型包括:第一层网络层、4层中间网络层、底层网络层及合并卷积网络层等等。通过上述设置的网络结构能够较好地识别图片中的图像主体。
为了能够清楚地说明基于卷积-反卷积神经网络的图像识别方法,下面将以为四边形图像主体构建并训练卷积-反卷积神经网络模型,为图片样本构建标注图,然后利用训练后的卷积-反卷积神经网络模型识别待检测图片中的四边形图像主体为例,展开说明。如图2所示,该基于卷积-反卷积神经网络的图像识别方法可以包括以下步骤:
步骤201:构建卷积-反卷积神经网络模型;
该步骤中构建卷积-反卷积神经网络模型包括:为所述卷积-反卷积神经网络模型设置网络结构、每层卷积核尺寸和数目、每层反卷积核尺寸和数目、每层最大池化核的尺寸、卷积核与反卷积核在每一维的移动步长;
其中,为所述卷积-反卷积神经网络模型所设置的网络结构,包括:具有三个卷积层和一个最大池化层的第一网络层,至少一个具有三个卷积层、一个最大池化层以及一个反卷积层的中间网络层,具有三个卷积层和一个反卷积层的底层网络层以及具有一个卷积层的合并卷积网络层,其中,
所述第一网络层的连接为:
所述中间网络层的连接为:
其中,当所述中间网络层的个数为一个时,M表征第一网络层,K表征底层网络层;当所述中间网络层的个数为至少两个时,针对首个中间网络层,M表征第一网络层;针对非首个中间网络层,M表征前续中间网络层;针对最后一个中间网络层,K表征底层网络层;针对非最后一个中间网络层,K表征后续中间网络层;
所述底层网络层的连接为:
中间网络层→卷积层→卷积层→卷积层→反卷积层→合并卷积网络层。
如图3给出包含第一层网络层、3层中间网络层、底层网络层及合并卷积网络层的卷积-反卷积神经网络模型以及每层卷积核尺寸和数目、每层反卷积核尺寸和数目、每层最大池化核的尺寸,其中,每层卷积核尺寸和数目、每层反卷积核尺寸和数目、每层最大池化核的尺寸均在图中进行了标示,比如说,图3给出的第一层网络层中前两个卷积层的卷积核尺寸为3*3,卷积核数目为12,后一个卷积层的卷积核尺寸为1*1,卷积核数目为1,最大池化层的最大池化核尺寸为2,其他网络层中卷积核尺寸和数目、每层反卷积核尺寸和数目、每层最大池化核的尺寸也均在图中进行了标示,在此不再赘述。可以理解地,用户可以根据需求,调整每层卷积核尺寸和数目、每层反卷积核尺寸和数目以及每层最大池化核的尺寸,一般来说卷积核尺寸为图片样本长度的公约数,比如对于240×240的图片样本来说,卷积核尺寸可以为240的约数。一般来说沿着数据走向,各网络层中卷积核的个数是增加的,该过程是为了使底层网络层输出的图片大小恢复至原图片大小。
另外,卷积核与反卷积核在每一维的移动步长可以根据用户需求就行设定。
综上所述,该步骤采用的网络结构由多个对称的卷积-反卷积层叠加组成,可分为并行的卷积子网络层和反卷积子网络层。其中,卷积子网络层起着特征提取的作用,其在对图像主体的关键信息进行编码的同时也会消除背景信息及主体内部文字及阴影的影响,与之并列的反卷积子网络层作为解释型的上采样层,可对卷积所得到的关键特征信息进行解码,试图恢复图像主体的主要边缘信息,最终反卷积层的输出结果即为提取到的图像主体边缘信息。
步骤202:为训练集中的至少一张具有四边形图像主体的图片样本构建对应的标注图;
为四边形图像主体的图片样本构建对应的标注图具体实施方式:针对训练集中每一张图片样本,均执行:
用线段描绘所述图片样本中的四边形结构图像主体的主体边缘;
根据描绘出的所述主体边缘,确定四个顶点;
基于所述四边形结构图像主体,构造对应的灰度图,并将所述灰度图背景填充为黑色;
基于所述四个顶点,利用宽度不大于3像素的白色直线,描绘所述灰度图的边缘,形成标注图;其中,所述训练集中的所有图片样本以及所述图片样本对应的标注图具有相同的设定分辨率大小。该设定分辨率大小一般不大于480×480。
可以理解地,该标注图为四边形图像主体的特征集合。
步骤203:确定当前输入批次,从所述训练集中,为所述当前输入批次抽取至少一张图片样本,其中,抽取的图片样本张数等于所述当前输入批次对应的预设输入批量;
步骤204:将所述当前输入批次对应的每一张图片样本输入所述卷积-反卷积神经网络模型,为输入的每一张所述图片样本生成对应的预测结果;
步骤205:利用所述预测结果和所述图片样本对应的标注图,计算所述当前输入批次的权重差异值;
该步骤主要是利用下述差异值计算公式,计算所述当前输入批次的权重差异值;
差异值计算公式:
其中,loss表征当前输入批次的权重差异值;i表征当前输入批次对应的第i张图片样本;n表征对应的预设输入批量,n为不小于1的正整数;zi表征当前输入批次对应的第i张图片样本对应的标注图的值;yi表征第i张图片样本对应的预测结果;qi表征第i张图片样本对应的预测结果与对应标注图之间相同值所占百分比。
步骤206:按照预设的学习速率和所述权重差异值,调整所述卷积-反卷积神经网络模型中的网络参数权重值;
该学习速率是指卷积-反卷积神经网络模型中的网络参数调整速率,例如可以为3/1000等等。在实际训练过程中,卷积-反卷积神经网络模型中的网络参数调整是结合学习速率和权重差异值进行调整的。
步骤207:判断是否完成预设的训练目标,如果否,则执行步骤208;如果是,则执行步骤210;
该训练目标可以为所述权重差异值不大于预设的收敛阈值,即当权重差异值不大于预设的收敛阈值时,说明训练的卷积-反卷积神经网络模型已满足要求;该训练目标还可以为循环的次数达到预设的迭代次数阈值,该过程可以避免无限次的循环。
步骤208:确定下一输入批次,并将所述下一输入批次作为当前输入批次,返回执行步骤203;
步骤209:确定卷积-反卷积神经网络模型训练结束;
步骤210:利用训练后的所述卷积-反卷积神经网络模型检测待检测图片中的直线/线段;
步骤211:利用四边形几何约束,筛选出所述直线/线段组成的四边形结构;
步骤212:确定面积最大的四边形包围的区域为待检测图片中的图像主体。
其中,上述步骤203至步骤209为卷积-反卷积神经网络模型的训练过程;步骤210至步骤212为卷积-反卷积神经网络模型识别四边形图像主体的过程。
可以理解地,当上述步骤203至步骤209完成后,即得到训练后的卷积-反卷积神经网络模型之后,在以后的四边形图像主体识别,可以调用得到的训练后的卷积-反卷积神经网络模型执行步骤210至步骤211即可,而无须每次都执行步骤201至步骤209。
可以理解地,上述实施例是以识别四边形图像主体为例进行描述。对于其他类型的图像主体,只需要将步骤202的标注图换为相应类型的图像主体的特征集合,然后训练的过程为训练卷积-反卷积神经网络模型提取相应类型的图像主体的特征集合。
如图4所示,本发明实施例提供一种图像校正方法,该方法可以包括如下步骤:
步骤401:利用基于卷积-反卷积神经网络的图像识别方法识别出待检测图片中的图像主体;
该步骤在上述实施例中均进行了详细的说明,在此不再赘述。
步骤402:构建一个视平面;
步骤403:将识别出的所述图像主体投影到所述视平面上;
步骤404:根据识别出的所述图像主体的边缘与所述视平面的边缘之间的夹角,变换识别出的所述图像主体的角度,以使识别出的所述图像主体的边缘与所述视平面的边缘平行;
步骤405:按照预设的输出分辨率,以图片格式输出识别出的所述图像主体。
可以理解地,上述基于卷积-反卷积神经网络的图像识别方法和图像校正方法可以作为相机拍照的后续处理,也可为解析图像信息的前续处理过程。例如:用手机/相机对文件或者身份证进行拍照之后,通过基于卷积-反卷积神经网络的图像识别方法识别出照片中的文件或者身份证,由于拍照角度或者拍照时抖动等原因使照片中的文件或者身份证歪斜,则通过图像校正方法校正照片中的文件或者身份证,以供后续解析或者转化文件或者身份证中的信息使用。由于在解析或者转化图片/照片中的文件、身份证、广告牌、护照等等中的信息时,需要识别出图片/照片中的文件、身份证、广告牌、护照等等,并保证图片/照片中的文件、身份证、广告牌、护照等等没有歪斜,即需要基于卷积-反卷积神经网络的图像识别方法和图像校正方法进行前处理。
本发明实施例通过卷积-反卷积神经网络的参数训练,提取深层次的图像主体特征如四边形等,自动归纳学习图片中图像主体边缘信息与其它干扰信号的区别,确定符合四边形集合特征的主体,结合图像校正方法,实现对输入图片中关键主体的检测定位及透视修正的效果。通过对上述基于卷积-反卷积神经网络的图像识别方法和图像校正方法进行相关实验,实验结果表明,本发明与传统的校正方法相比,不仅能够更好地压低噪声信号的影响,而且能保留主体的几何学特征降低后期处理难度,使校正效果更好、精度更高。
如图5所示,本发明实施例提供一种基于卷积-反卷积神经网络的图像识别装置,包括:构建与存储单元501、模型训练单元502以及识别单元503,其中,
所述构建与存储单元501,用于构建并存储卷积-反卷积神经网络模型,包括为所述卷积-反卷积神经网络模型设置网络结构、每层卷积核尺寸和数目、每层反卷积核尺寸和数目、每层最大池化核的尺寸、卷积核与反卷积核在每一维的移动步长;
所述模型训练单元502,用于训练所述构建与存储单元501存储的卷积-反卷积神经网络模型,包括循环执行下述步骤N1至N5:
N1:确定当前输入批次,从所述训练集中,为所述当前输入批次抽取至少一张图片样本,其中,抽取的图片样本张数等于所述当前输入批次对应的预设输入批量;
N2:将所述当前输入批次对应的每一张图片样本输入所述卷积-反卷积神经网络模型,为输入的每一张所述图片样本生成对应的预测结果;
N3:利用所述预测结果和所述图片样本对应的标注图,计算所述当前输入批次的权重差异值;
N4:按照预设的学习速率和所述权重差异值,调整所述卷积-反卷积神经网络模型中的网络参数权重值;
N5:判断是否完成预设的训练目标,如果否,则确定下一输入批次,并将所述下一输入批次作为当前输入批次,返回执行N1,如果是,则结束循环;
所述识别单元503,用于利用所述模型训练单元502训练后的卷积-反卷积神经网络模型和预设的几何约束,识别待检测图片中的图像主体。
在本发明另一实施例中,所述模型训练单元502,用于当所述图像主体为四边形结构时,所述为训练集中的图片样本执行:用线段描绘所述图片样本中的四边形结构图像主体的主体边缘;根据描绘出的所述主体边缘,确定四个顶点;基于所述四边形结构图像主体,构造对应的灰度图,并将所述灰度图背景填充为黑色;基于所述四个顶点,利用宽度不大于3像素的白色直线,描绘所述灰度图的边缘,形成标注图,其中,所述训练集中的所有图片样本以及所述图片样本对应的标注图具有相同的设定分辨率大小。
在本发明又一实施例中,所述模型训练单元,用于利用下述差异值计算公式,计算所述当前输入批次的权重差异值;
差异值计算公式:
其中,loss表征当前输入批次的权重差异值;i表征当前输入批次对应的第i张图片样本;n表征对应的预设输入批量,n为不小于1的正整数;zi表征当前输入批次对应的第i张图片样本对应的标注图的值;yi表征第i张图片样本对应的预测结果;qi表征第i张图片样本对应的预测结果与对应标注图之间相同值所占百分比。
在本发明又一实施例中,所述构建与存储单元,为所述卷积-反卷积神经网络模型所设置的所述网络结构,包括:具有三个卷积层和一个最大池化层的第一网络层,至少一个具有三个卷积层、一个最大池化层以及一个反卷积层的中间网络层,具有三个卷积层和一个反卷积层的底层网络层以及具有一个卷积层的合并卷积网络层,其中,
所述第一网络层的连接为:
所述中间网络层的连接为:
其中,当所述中间网络层的个数为一个时,M表征第一网络层,K表征底层网络层;当所述中间网络层的个数为至少两个时,针对首个中间网络层,M表征第一网络层;针对非首个中间网络层,M表征前续中间网络层;针对最后一个中间网络层,K表征底层网络层;针对非最后一个中间网络层,K表征后续中间网络层;
所述底层网络层的连接为:
中间网络层→卷积层→卷积层→卷积层→反卷积层→合并卷积网络层。
本发明一个实施例提供一种图像校正系统,包括:上述任一所述的基于卷积-反卷积神经网络的图像识别装置和图像校正装置(图中未示出),其中,
所述图像校正装置,用于构建一个视平面;将识别出的所述图像主体投影到所述视平面上;根据识别出的所述图像主体的边缘与所述视平面的边缘之间的夹角,变换识别出的所述图像主体的角度,以使识别出的所述图像主体的边缘与所述视平面的边缘平行;按照预设的输出分辨率,以图片格式输出识别出的所述图像主体。该图像校正装置可以基于OpenCV工具实现。
上述各个实施例所使用的图像样本或者待检测图片一般是压缩后的分辨率不大于480×480优选分辨率为240×240的图片,因此,将上述装置或者系统部署在服务端时,仅需传输压缩后的图片,对网络要求低;上述装置或者系统部署在客户端时,也可降低对客户端的计算压力。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例提供了一种可读介质,包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行本发明上述任一实施例提供的方法。
本发明实施例提供了一种存储控制器,包括:处理器、存储器和总线;所述存储器用于存储执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行本发明上述任一实施例提供的方法。
综上所述,本发明以上各个实施例至少具有如下有益效果:
1、在本发明实施例中,通过构建卷积-反卷积神经网络模型,包括:为所述卷积-反卷积神经网络模型设置网络结构、每层卷积核尺寸和数目、每层反卷积核尺寸和数目、每层最大池化核的尺寸、卷积核与反卷积核在每一维的移动步长;为训练集中的至少一张图片样本构建对应的标注图;训练所述卷积-反卷积神经网络模型,包括循环执行下述步骤N1至N5:N1:确定当前输入批次,从所述训练集中,为所述当前输入批次抽取至少一张图片样本,其中,抽取的图片样本张数等于所述当前输入批次对应的预设输入批量;N2:将所述当前输入批次对应的每一张图片样本输入所述卷积-反卷积神经网络模型,为输入的每一张所述图片样本生成对应的预测结果;N3:利用所述预测结果和所述图片样本对应的标注图,计算所述当前输入批次的权重差异值;N4:按照预设的学习速率和所述权重差异值,调整所述卷积-反卷积神经网络模型中的网络参数权重值;N5:判断是否完成预设的训练目标,如果否,则确定下一输入批次,并将所述下一输入批次作为当前输入批次,返回执行N1,如果是,则结束循环;所述方法还包括:利用训练后的所述卷积-反卷积神经网络模型和预设的几何约束,识别待检测图片中的图像主体。标注图包含有图像主体的特征,由于卷积-反卷积神经网络模型的训练过程中计算输入批次的权重差异值实际是计算每一批次预测结果与标注图之间的差异值,通过获得收敛性的权重差异值来完成训练,这使得训练出的卷积-反卷积神经网络模型能够更加准确的识别出图像主体,因此,本发明提供的方案实现了对图片中的图像主体的识别。
2、本发明实施例提供的卷积-反卷积神经网络模型采用的网络结构由多个对称的卷积-反卷积层叠加组成,可分为并行的卷积子网络层和反卷积子网络层。其中,卷积子网络层起着特征提取的作用,其在对图像主体的关键信息进行编码的同时也会消除背景信息及主体内部文字及阴影的影响。
3、本发明实施例通过卷积-反卷积神经网络的参数训练,提取深层次的图像主体特征如四边形等,自动归纳学习图片中图像主体边缘信息与其它干扰信号的区别,确定符合四边形集合特征的主体,结合图像校正方法,实现对输入图片中关键主体的检测定位及透视修正的效果。
4、通过对上述基于卷积-反卷积神经网络的图像识别方法和图像校正方法进行相关实验,实验结果表明,本发明与传统的校正方法相比,不仅能够更好地压低噪声信号的影响,而且能保留主体的几何学特征降低后期处理难度,使校正效果更好、精度更高。
5、针对每一张图片样本,均执行:用线段描绘所述图片样本中的四边形结构图像主体的主体边缘;根据描绘出的所述主体边缘,确定四个顶点;基于所述四边形结构图像主体,构造对应的灰度图,并将所述灰度图背景填充为黑色;基于所述四个顶点,利用宽度不大于3像素的白色直线,描绘所述灰度图的边缘,形成标注图,一方面完成了四边形图像主体的特征描绘,另一方面标注图为图像主体的特征集合,在后续通过标注图与卷积-反卷积神经网络模型输出的预测结果之间的差异,调整卷积-反卷积神经网络模型,使卷积-反卷积神经网络模型的训练更加高效,训练出的卷积-反卷积神经网络模型也更加准确。
6、本发明实施例所针对的图像样本或者待检测图片一般是压缩后的分辨率不大于480×480优选分辨率为240×240的图片,因此,基于服务端进行图像识别或者图像校正时,仅需传输压缩后的图片,对网络要求低;基于客户端进行图像识别或者图像校正时,也可降低对客户端的计算压力,保证了图像主体的识别效率以及图像主体的校正效率。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.基于卷积-反卷积神经网络的图像识别方法,其特征在于,
构建卷积-反卷积神经网络模型,包括:为所述卷积-反卷积神经网络模型设置网络结构、每层卷积核尺寸和数目、每层反卷积核尺寸和数目、每层最大池化核的尺寸、卷积核与反卷积核在每一维的移动步长;
为训练集中的至少一张图片样本构建对应的标注图;
训练所述卷积-反卷积神经网络模型,包括循环执行下述步骤N1至N5:
N1:确定当前输入批次,从所述训练集中,为所述当前输入批次抽取至少一张图片样本,其中,抽取的图片样本张数等于所述当前输入批次对应的预设输入批量;
N2:将所述当前输入批次对应的每一张图片样本输入所述卷积-反卷积神经网络模型,为输入的每一张所述图片样本生成对应的预测结果;
N3:利用所述预测结果和所述图片样本对应的标注图,计算所述当前输入批次的权重差异值;
N4:按照预设的学习速率和所述权重差异值,调整所述卷积-反卷积神经网络模型中的网络参数权重值;
N5:判断是否完成预设的训练目标,如果否,则确定下一输入批次,并将所述下一输入批次作为当前输入批次,返回执行N1,如果是,则结束循环;
所述方法还包括:
利用训练后的所述卷积-反卷积神经网络模型和预设的几何约束,识别待检测图片中的图像主体。
2.根据权利要求1所述的方法,其特征在于,
所述图像主体为四边形结构;
所述为训练集中的至少一张图片样本构建对应的标注图,包括:
针对每一张图片样本,均执行:
用线段描绘所述图片样本中的四边形结构图像主体的主体边缘;
根据描绘出的所述主体边缘,确定四个顶点;
基于所述四边形结构图像主体,构造对应的灰度图,并将所述灰度图背景填充为黑色;
基于所述四个顶点,利用宽度不大于3像素的白色直线,描绘所述灰度图的边缘,形成标注图;
其中,所述训练集中的所有图片样本以及所述图片样本对应的标注图具有相同的设定分辨率大小。
3.根据权利要求1所述的方法,其特征在于,所述利用所述预测结果和所述图片样本对应的标注图,计算所述当前输入批次的权重差异值,包括:
利用下述差异值计算公式,计算所述当前输入批次的权重差异值;
差异值计算公式:
其中,loss表征当前输入批次的权重差异值;i表征当前输入批次对应的第i张图片样本;n表征对应的预设输入批量,n为不小于1的正整数;zi表征当前输入批次对应的第i张图片样本对应的标注图的值;yi表征第i张图片样本对应的预测结果;qi表征第i张图片样本对应的预测结果与对应标注图之间相同值所占百分比。
4.根据权利要求1所述的方法,其特征在于,所述训练目标,包括:
所述权重差异值不大于预设的收敛阈值;
或者,
所述循环的次数达到预设的迭代次数阈值。
5.根据权利要求2所述的方法,其特征在于,所述利用训练后的所述卷积-反卷积神经网络模型和预设的几何约束识别,待检测图片中的图像主体,包括:
利用训练后的所述卷积-反卷积神经网络模型检测待检测图片中的直线/线段;
利用四边形几何约束,筛选出所述直线/线段组成的四边形结构;
确定面积最大的四边形包围的区域为待检测图片中的图像主体。
6.根据权利要求1至5任一所述的方法,其特征在于,为所述卷积-反卷积神经网络模型所设置的所述网络结构,包括:具有三个卷积层和一个最大池化层的第一网络层,至少一个具有三个卷积层、一个最大池化层以及一个反卷积层的中间网络层,具有三个卷积层和一个反卷积层的底层网络层以及具有一个卷积层的合并卷积网络层,其中,
所述第一网络层的连接为:
所述中间网络层的连接为:
其中,当所述中间网络层的个数为一个时,M表征第一网络层,K表征底层网络层;当所述中间网络层的个数为至少两个时,针对首个中间网络层,M表征第一网络层;针对非首个中间网络层,M表征前续中间网络层;针对最后一个中间网络层,K表征底层网络层;针对非最后一个中间网络层,K表征后续中间网络层;
所述底层网络层的连接为:
中间网络层→卷积层→卷积层→卷积层→反卷积层→合并卷积网络层。
7.一种图像校正方法,其特征在于,利用权利要求1至6任一所述的基于卷积-反卷积神经网络的图像识别方法识别出待检测图片中的图像主体;还包括:
构建一个视平面;
将识别出的所述图像主体投影到所述视平面上;
根据识别出的所述图像主体的边缘与所述视平面的边缘之间的夹角,变换识别出的所述图像主体的角度,以使识别出的所述图像主体的边缘与所述视平面的边缘平行;
按照预设的输出分辨率,以图片格式输出识别出的所述图像主体。
8.一种基于卷积-反卷积神经网络的图像识别装置,其特征在于,包括:构建与存储单元、模型训练单元以及识别单元,其中,
所述构建与存储单元,用于构建并存储卷积-反卷积神经网络模型,包括为所述卷积-反卷积神经网络模型设置网络结构、每层卷积核尺寸和数目、每层反卷积核尺寸和数目、每层最大池化核的尺寸、卷积核与反卷积核在每一维的移动步长;
所述模型训练单元,用于训练所述构建与存储单元存储的卷积-反卷积神经网络模型,包括循环执行下述步骤N1至N5:
N1:确定当前输入批次,从所述训练集中,为所述当前输入批次抽取至少一张图片样本,其中,抽取的图片样本张数等于所述当前输入批次对应的预设输入批量;
N2:将所述当前输入批次对应的每一张图片样本输入所述卷积-反卷积神经网络模型,为输入的每一张所述图片样本生成对应的预测结果;
N3:利用所述预测结果和所述图片样本对应的标注图,计算所述当前输入批次的权重差异值;
N4:按照预设的学习速率和所述权重差异值,调整所述卷积-反卷积神经网络模型中的网络参数权重值;
N5:判断是否完成预设的训练目标,如果否,则确定下一输入批次,并将所述下一输入批次作为当前输入批次,返回执行N1,如果是,则结束循环;
所述识别单元,用于利用所述模型训练单元训练后的卷积-反卷积神经网络模型和预设的几何约束,识别待检测图片中的图像主体。
9.根据权利要求8所述的装置,其特征在于,
所述模型训练单元,用于当所述图像主体为四边形结构时,所述为训练集中的图片样本执行:用线段描绘所述图片样本中的四边形结构图像主体的主体边缘;根据描绘出的所述主体边缘,确定四个顶点;基于所述四边形结构图像主体,构造对应的灰度图,并将所述灰度图背景填充为黑色;基于所述四个顶点,利用宽度不大于3像素的白色直线,描绘所述灰度图的边缘,形成标注图,其中,所述训练集中的所有图片样本以及所述图片样本对应的标注图具有相同的设定分辨率大小;
和/或,
所述模型训练单元,用于利用下述差异值计算公式,计算所述当前输入批次的权重差异值;
差异值计算公式:
其中,loss表征当前输入批次的权重差异值;i表征当前输入批次对应的第i张图片样本;n表征对应的预设输入批量,n为不小于1的正整数;zi表征当前输入批次对应的第i张图片样本对应的标注图的值;yi表征第i张图片样本对应的预测结果;qi表征第i张图片样本对应的预测结果与对应标注图之间相同值所占百分比。
10.根据权利要求8或9所述的装置,其特征在于,所述构建与存储单元,为所述卷积-反卷积神经网络模型所设置的所述网络结构,包括:具有三个卷积层和一个最大池化层的第一网络层,至少一个具有三个卷积层、一个最大池化层以及一个反卷积层的中间网络层,具有三个卷积层和一个反卷积层的底层网络层以及具有一个卷积层的合并卷积网络层,其中,
所述第一网络层的连接为:
所述中间网络层的连接为:
其中,当所述中间网络层的个数为一个时,M表征第一网络层,K表征底层网络层;当所述中间网络层的个数为至少两个时,针对首个中间网络层,M表征第一网络层;针对非首个中间网络层,M表征前续中间网络层;针对最后一个中间网络层,K表征底层网络层;针对非最后一个中间网络层,K表征后续中间网络层;
所述底层网络层的连接为:
中间网络层→卷积层→卷积层→卷积层→反卷积层→合并卷积网络层。
CN201810752074.9A 2018-07-10 2018-07-10 基于卷积-反卷积神经网络的图像识别、校正方法和装置 Active CN108846385B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810752074.9A CN108846385B (zh) 2018-07-10 2018-07-10 基于卷积-反卷积神经网络的图像识别、校正方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810752074.9A CN108846385B (zh) 2018-07-10 2018-07-10 基于卷积-反卷积神经网络的图像识别、校正方法和装置

Publications (2)

Publication Number Publication Date
CN108846385A true CN108846385A (zh) 2018-11-20
CN108846385B CN108846385B (zh) 2021-11-09

Family

ID=64196968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810752074.9A Active CN108846385B (zh) 2018-07-10 2018-07-10 基于卷积-反卷积神经网络的图像识别、校正方法和装置

Country Status (1)

Country Link
CN (1) CN108846385B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110992725A (zh) * 2019-10-24 2020-04-10 合肥讯图信息科技有限公司 用于检测交通信号灯故障的方法、系统及存储介质
CN111695371A (zh) * 2019-03-12 2020-09-22 珠海金山办公软件有限公司 一种表格识别的方法、装置、电子设备及存储介质
CN111739035A (zh) * 2020-06-30 2020-10-02 腾讯科技(深圳)有限公司 基于人工智能的图像处理方法、装置、设备及存储介质
CN112215301A (zh) * 2020-10-29 2021-01-12 上海勘察设计研究院(集团)有限公司 基于卷积神经网络的影像直线探测方法
CN112396082A (zh) * 2019-08-19 2021-02-23 北京中关村科金技术有限公司 图像认证的方法、装置以及存储介质
CN112632309A (zh) * 2020-12-15 2021-04-09 北京百度网讯科技有限公司 图像展示方法、装置、电子设备和存储介质
CN113362353A (zh) * 2020-03-04 2021-09-07 上海分众软件技术有限公司 一种利用合成训练图片识别广告机边框的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866900A (zh) * 2015-01-29 2015-08-26 北京工业大学 一种反卷积神经网络训练方法
CN105488534A (zh) * 2015-12-04 2016-04-13 中国科学院深圳先进技术研究院 交通场景深度解析方法、装置及系统
WO2018126228A1 (en) * 2016-12-30 2018-07-05 DeepMap Inc. Sign and lane creation for high definition maps used for autonomous vehicles

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866900A (zh) * 2015-01-29 2015-08-26 北京工业大学 一种反卷积神经网络训练方法
CN105488534A (zh) * 2015-12-04 2016-04-13 中国科学院深圳先进技术研究院 交通场景深度解析方法、装置及系统
WO2018126228A1 (en) * 2016-12-30 2018-07-05 DeepMap Inc. Sign and lane creation for high definition maps used for autonomous vehicles

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695371A (zh) * 2019-03-12 2020-09-22 珠海金山办公软件有限公司 一种表格识别的方法、装置、电子设备及存储介质
CN111695371B (zh) * 2019-03-12 2024-05-03 珠海金山办公软件有限公司 一种表格识别的方法、装置、电子设备及存储介质
CN112396082A (zh) * 2019-08-19 2021-02-23 北京中关村科金技术有限公司 图像认证的方法、装置以及存储介质
CN110992725A (zh) * 2019-10-24 2020-04-10 合肥讯图信息科技有限公司 用于检测交通信号灯故障的方法、系统及存储介质
CN113362353A (zh) * 2020-03-04 2021-09-07 上海分众软件技术有限公司 一种利用合成训练图片识别广告机边框的方法
CN111739035A (zh) * 2020-06-30 2020-10-02 腾讯科技(深圳)有限公司 基于人工智能的图像处理方法、装置、设备及存储介质
CN111739035B (zh) * 2020-06-30 2022-09-30 腾讯科技(深圳)有限公司 基于人工智能的图像处理方法、装置、设备及存储介质
CN112215301A (zh) * 2020-10-29 2021-01-12 上海勘察设计研究院(集团)有限公司 基于卷积神经网络的影像直线探测方法
CN112215301B (zh) * 2020-10-29 2023-04-07 上海勘察设计研究院(集团)有限公司 基于卷积神经网络的影像直线探测方法
CN112632309A (zh) * 2020-12-15 2021-04-09 北京百度网讯科技有限公司 图像展示方法、装置、电子设备和存储介质
CN112632309B (zh) * 2020-12-15 2022-10-04 北京百度网讯科技有限公司 图像展示方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN108846385B (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
CN108846385A (zh) 基于卷积-反卷积神经网络的图像识别、校正方法和装置
Lu et al. Masa-sr: Matching acceleration and spatial adaptation for reference-based image super-resolution
Alonso et al. Adversarial generation of handwritten text images conditioned on sequences
CN110660037B (zh) 图像间脸部交换的方法、装置、系统和计算机程序产品
CN106778928B (zh) 图像处理方法及装置
WO2020098250A1 (zh) 字符识别方法、服务器及计算机可读存储介质
CN110147721B (zh) 一种三维人脸识别方法、模型训练方法和装置
Ren et al. Single image super-resolution via adaptive high-dimensional non-local total variation and adaptive geometric feature
CN109492643A (zh) 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN108960020A (zh) 信息处理方法和信息处理设备
CN103824272B (zh) 基于k近邻重识别的人脸超分辨率重建方法
US20170116705A1 (en) Method for automatic facial impression transformation, recording medium and device for performing the method
US20200311459A1 (en) Training language models using text corpora comprising realistic optical character recognition (ocr) errors
CN103279936A (zh) 基于画像的人脸伪照片自动合成及修正方法
CN108564120A (zh) 基于深度神经网络的特征点提取方法
CN107330854B (zh) 一种基于新型模板的图像超分辨率增强方法
CN107992807A (zh) 一种基于cnn模型的人脸识别方法及装置
Lu et al. Rethinking prior-guided face super-resolution: A new paradigm with facial component prior
CN109977762B (zh) 一种文本定位方法及装置、文本识别方法及装置
CN110135230A (zh) 表情辨识训练系统及表情辨识训练方法
CN109359527A (zh) 基于神经网络的头发区域提取方法及系统
CN111507181B (zh) 票据图像的矫正方法、装置及计算机设备
CN111667556A (zh) 表格矫正方法及装置
CN111563563B (zh) 一种手写体识别的联合数据的增强方法
CN110826534B (zh) 一种基于局部主成分分析的人脸关键点检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant