CN107657256A - 基于深度神经网络的端到端的图像多字符定位和匹配方法 - Google Patents

基于深度神经网络的端到端的图像多字符定位和匹配方法 Download PDF

Info

Publication number
CN107657256A
CN107657256A CN201711025494.9A CN201711025494A CN107657256A CN 107657256 A CN107657256 A CN 107657256A CN 201711025494 A CN201711025494 A CN 201711025494A CN 107657256 A CN107657256 A CN 107657256A
Authority
CN
China
Prior art keywords
neural network
deep neural
picture
character
locatings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711025494.9A
Other languages
English (en)
Inventor
费行健
潘嵘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
National Sun Yat Sen University
Original Assignee
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Sun Yat Sen University filed Critical National Sun Yat Sen University
Priority to CN201711025494.9A priority Critical patent/CN107657256A/zh
Publication of CN107657256A publication Critical patent/CN107657256A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种基于深度神经网络的端到端的图像多字符定位和匹配方法,其具有以下有益效果:1)方法的运行效率更高,整个方法流程在深度神经网络训练好之后,每次使用,只需要经过一次深度神经网络的前向传播计算,而不像现有方法有多个神经网络需计算多次,还有用聚类算法做字符提取等比较耗时的步骤。2)方法的准确率更高。整个方法流程就是直接优化最终目标的准确率,通过深度神经网络可以很好的做到这一点。而现有技术,最终目标的准确率依赖于各个步骤流程的准确率,由于只能分别优化各个步骤的准确率,没法直接优化最终目标,导致准确率较低,也很难改进。

Description

基于深度神经网络的端到端的图像多字符定位和匹配方法
技术领域
本发明涉及人工智能技术领域,更具体地,涉及一种基于深度神经网络的端到端的图像多字符定位和匹配方法。
背景技术
对于两张包含有相同字符的图片,查询图x和被查询图y,现有技术主要通过以下方法对查询图x中的字符在被查询图y中的位置进行定位及匹配:
S1.首先基于卷积神经网络识别出查询图x中从左到右出现的字符内容;
S2.基于DBSCAN算法定位被查询图y中的所有字符,并将它们从被查询图y中切割出来;
S3.基于卷积神经网络识别切割出来的所有字符内容;
S4.将步骤S1中识别出的字符内容与步骤S3中识别出的字符内容进行匹配,即可得到查询图x中的字符在被查询图y中的位置。
但是上述方案在进行定位和匹配的时候是将整个流程划分为四个步骤的,每个流程步骤在执行的时候均需要花费不少时间,这导致方法的运行效率较低,且最终定位和匹配的准确率依赖于每个流程步骤的准确率,若其中某一流程步骤的准确率不高,将会导致方法的准确率不高。
发明内容
本发明为解决以上现有技术的缺陷,提供了一种基于深度神经网络的端到端的图像多字符定位和匹配方法。
为实现以上发明目的,采用的技术方案是:
基于深度神经网络的端到端的图像多字符定位和匹配方法,包括有以下步骤:
S1.令查询图片与对应的被查询图片为一对图片对,收集大量的图片对作为数据集,并对图片对中查询图片中的字符在被查询图片中的位置进行标注;
S2.将数据集按照一定比例划分为三部分,分别为训练集、验证集和测试集;
S3.搭建深度神经网络,利用训练集中的图片对作为输入对深度神经网络进行训练,并利用Adam算法对深度神经网络进行优化;
S4.使用验证集中的图片对作为输入对优化后的深度神经网络进行验证,深度神经网络输出图片对中查询图片中的字符在被查询图片中的定位及匹配结果,由于步骤S1已经对图片对中查询图片中的字符在被查询图片中的位置进行标注,因此可计算深度神经网络在验证集上的准确率;
S5.重复步骤S3~S4直至深度神经网络在验证集上的准确率满足设定的条件;
S6.将测试集中的图片对作为输入对步骤S5训练好的深度神经网络进行测试,并根据深度神经网络输出的测试结果对深度神经网络的在测试集上的准确率进行统计,作为对深度神经网络的评估结果;
S7.对于新的一对图片对,将其作为深度神经网络的输入,即可通过深度神经网络得到图片对中查询图片中的字符在被查询图片中的定位及匹配结果。
与现有技术相比,本发明的有益效果是:
1)方法的运行效率更高,整个方法流程在深度神经网络训练好之后,每次使用,只需要经过一次深度神经网络的前向传播计算,而不像现有方法有多个神经网络需计算多次,还有用聚类算法做字符提取等比较耗时的步骤。
2)方法的准确率更高。整个方法流程就是直接优化最终目标的准确率,通过深度神经网络可以很好的做到这一点。而现有技术,最终目标的准确率依赖于各个步骤流程的准确率,由于只能分别优化各个步骤的准确率,没法直接优化最终目标,导致准确率较低,也很难改进。
附图说明
图1为方法的原理示意图。
图2为深度神经网络的结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
本发明提供的方法具体包括有以下步骤:
S1.令查询图片与对应的被查询图片为一对图片对,收集大量的图片对作为数据集,并对图片对中查询图片中的字符在被查询图片中的位置进行标注;
S2.将数据集按照7:2:1的比例划分为三部分,分别为训练集、验证集和测试集;
S3.搭建深度神经网络,利用训练集中的图片对作为输入对深度神经网络进行训练,并利用Adam算法(考虑动量和梯度历史大小的梯度下降法)对深度神经网络进行优化,调整学习率等参数;训练过程中,如果发现深度神经网络的偏差较高,方差较低,则应当继续使用Adam算法,迭代多轮;如果发现偏差较低,方差较高,此时应收集更多数据作为训练集,或者减少梯度优化算法迭代的轮数;
S4.使用验证集中的图片对作为输入对优化后的深度神经网络进行验证,深度神经网络输出图片对中查询图片中的字符在被查询图片中的定位及匹配结果,具体如图1、图2所示,由于步骤S1已经对图片对中查询图片中的字符在被查询图片中的位置进行标注,因此可计算深度神经网络在验证集上的准确率;
S5.重复步骤S3~S4直至深度神经网络在验证集上的准确率满足设定的条件;
S6.将测试集中的图片对作为输入对步骤S5训练好的深度神经网络进行测试,并根据深度神经网络输出的测试结果对深度神经网络的在测试集上的准确率进行统计,作为对深度神经网络的评估结果;
S7.对于新的一对图片对,将其作为深度神经网络的输入,即可通过深度神经网络得到图片对中查询图片中的字符在被查询图片中的定位及匹配结果。
其中,所述步骤S3、S4、S6、S7将图片对作为深度神经网络的输入时,是将查询图片、被查询图片的RGB像素值作为两个矩阵输入至深度神经网络中,深度神经网络经过前向传播的运算,计算得到的输出有多个值,这些值的含义是查询图片中的字符,按从左到右的顺序,在被查询图片中的位置坐标。最终还有两个 -1,-1结束标志符,代表所有字符位置已经全部输出。在结束标志符前面的所有数字,每相邻两个组合,就是字符位置坐标。
本实施例中,如图2所示,所述深度神经网络基于Keras深度学习框架进行搭建,深度神经网络包括有从左到右依次连接的三层卷积层和两层全连接层。其中所述第一层卷积层的卷积核大小为3x3,卷积核个数为64个,激活函数是relu函数。第二层卷积层的卷积核大小为3x3,卷积核个数为128个,激活函数是relu函数。所述第三层卷积层的卷积核大小为3x3,卷积核个数为256,激活函数是relu函数。所述第一层全连接层的维数为512,激活函数是relu函数。所述第二层全连接层的维数为512,激活函数是relu函数。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.基于深度神经网络的端到端的图像多字符定位和匹配方法,其特征在于:包括有以下步骤:
S1.令查询图片与对应的被查询图片为一对图片对,收集大量的图片对作为数据集,并对图片对中查询图片中的字符在被查询图片中的位置进行标注;
S2.将数据集按照一定比例划分为三部分,分别为训练集、验证集和测试集;
S3.搭建深度神经网络,利用训练集中的图片对作为输入对深度神经网络进行训练,并利用Adam算法对深度神经网络进行优化;
S4.使用验证集中的图片对作为输入对优化后的深度神经网络进行验证,深度神经网络输出图片对中查询图片中的字符在被查询图片中的定位及匹配结果,由于步骤S1已经对图片对中查询图片中的字符在被查询图片中的位置进行标注,因此可计算深度神经网络在验证集上的准确率;
S5.重复步骤S3~S4直至深度神经网络在验证集上的准确率满足设定的条件;
S6.将测试集中的图片对作为输入对步骤S5训练好的深度神经网络进行测试,并根据深度神经网络输出的测试结果对深度神经网络的在测试集上的准确率进行统计,作为对深度神经网络的评估结果;
S7.对于新的一对图片对,将其作为深度神经网络的输入,即可通过深度神经网络得到图片对中查询图片中的字符在被查询图片中的定位及匹配结果。
2.根据权利要求1所述的基于深度神经网络的端到端的图像多字符定位和匹配方法,其特征在于:所述步骤S3、S4、S6、S7中,将图片对作为深度神经网络的输入时,是将查询图片、被查询图片的RGB像素值作为两个矩阵输入至深度神经网络中,深度神经网络经过前向传播的运算,计算得到的输出有多个值,这些值的含义是查询图片中的字符,按从左到右的顺序,在被查询图片中的位置坐标。
3.根据权利要求1所述的基于深度神经网络的端到端的图像多字符定位和匹配方法,其特征在于:所述深度神经网络包括有从左到右依次连接的三层卷积层和两层全连接层。
4.根据权利要求3所述的基于深度神经网络的端到端的图像多字符定位和匹配方法,其特征在于:所述第一层卷积层的卷积核大小为3x3,卷积核个数为64个,激活函数是relu函数。
5.根据权利要求3所述的基于深度神经网络的端到端的图像多字符定位和匹配方法,其特征在于:第二层卷积层的卷积核大小为3x3,卷积核个数为128个,激活函数是relu函数。
6.根据权利要求3所述的基于深度神经网络的端到端的图像多字符定位和匹配方法,其特征在于:所述第三层卷积层的卷积核大小为3x3,卷积核个数为256,激活函数是relu函数。
7.根据权利要求3所述的基于深度神经网络的端到端的图像多字符定位和匹配方法,其特征在于:所述第一层全连接层的维数为512,激活函数是relu函数。
8.根据权利要求3所述的基于深度神经网络的端到端的图像多字符定位和匹配方法,其特征在于:所述第二层全连接层的维数为512,激活函数是relu函数。
9.根据权利要求1~9任一项所述的基于深度神经网络的端到端的图像多字符定位和匹配方法,其特征在于:所述训练集、验证集和测试集之间的图片对数量的比例为7:2:1。
10.根据权利要求9所述的基于深度神经网络的端到端的图像多字符定位和匹配方法,其特征在于:所述深度神经网络基于Keras深度学习框架进行搭建。
CN201711025494.9A 2017-10-27 2017-10-27 基于深度神经网络的端到端的图像多字符定位和匹配方法 Pending CN107657256A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711025494.9A CN107657256A (zh) 2017-10-27 2017-10-27 基于深度神经网络的端到端的图像多字符定位和匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711025494.9A CN107657256A (zh) 2017-10-27 2017-10-27 基于深度神经网络的端到端的图像多字符定位和匹配方法

Publications (1)

Publication Number Publication Date
CN107657256A true CN107657256A (zh) 2018-02-02

Family

ID=61096472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711025494.9A Pending CN107657256A (zh) 2017-10-27 2017-10-27 基于深度神经网络的端到端的图像多字符定位和匹配方法

Country Status (1)

Country Link
CN (1) CN107657256A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783558A (zh) * 2020-06-11 2020-10-16 上海交通大学 一种卫星导航干扰信号类型智能识别方法及系统
CN112529986A (zh) * 2019-09-19 2021-03-19 百度在线网络技术(北京)有限公司 图文相关性的计算模型建立方法、计算方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1384464A (zh) * 2001-01-20 2002-12-11 三星电子株式会社 根据图像中分段区域之间的特征匹配提取目标的方法和装置
CN101093545A (zh) * 2006-06-22 2007-12-26 王宏源 古籍文档检索系统中检索词在古籍快照图片上进行高亮标识的方法
CN106407891A (zh) * 2016-08-26 2017-02-15 东方网力科技股份有限公司 基于卷积神经网络的目标匹配方法及装置
CN106407981A (zh) * 2016-11-24 2017-02-15 北京文安智能技术股份有限公司 一种车牌识别方法、装置及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1384464A (zh) * 2001-01-20 2002-12-11 三星电子株式会社 根据图像中分段区域之间的特征匹配提取目标的方法和装置
CN101093545A (zh) * 2006-06-22 2007-12-26 王宏源 古籍文档检索系统中检索词在古籍快照图片上进行高亮标识的方法
CN106407891A (zh) * 2016-08-26 2017-02-15 东方网力科技股份有限公司 基于卷积神经网络的目标匹配方法及装置
CN106407981A (zh) * 2016-11-24 2017-02-15 北京文安智能技术股份有限公司 一种车牌识别方法、装置及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
S. BEN DRISS ET AL: "A comparison study between MLP and Convolutional Neural Network models for character recognition", 《REAL-TIME IMAGE AND VIDEO PROCESSING 2017》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529986A (zh) * 2019-09-19 2021-03-19 百度在线网络技术(北京)有限公司 图文相关性的计算模型建立方法、计算方法及装置
CN112529986B (zh) * 2019-09-19 2023-09-22 百度在线网络技术(北京)有限公司 图文相关性的计算模型建立方法、计算方法及装置
CN111783558A (zh) * 2020-06-11 2020-10-16 上海交通大学 一种卫星导航干扰信号类型智能识别方法及系统

Similar Documents

Publication Publication Date Title
CN106471526B (zh) 用于处理图像的方法和系统
CN107368845A (zh) 一种基于优化候选区域的Faster R‑CNN目标检测方法
CN109492582A (zh) 一种基于算法对抗性攻击的图像识别攻击方法
CN107862668A (zh) 一种基于gnn的文物图像复原方法
CN106203625A (zh) 一种基于多重预训练的深层神经网络训练方法
CN108648095A (zh) 一种基于图卷积网络梯度的节点信息隐藏方法
CN107403141A (zh) 人脸检测方法及装置、计算机可读存储介质、设备
CN108090093A (zh) 生成推荐结果的方法和装置
CN107358575A (zh) 一种基于深度残差网络的单幅图像超分辨率重建方法
CN107403430A (zh) 一种rgbd图像语义分割方法
CN103761276B (zh) 一种树形结构数据比较的展示方法和装置
CN105160678A (zh) 基于卷积神经网络的无参考立体图像质量评估方法
CN105426930B (zh) 一种基于卷积神经网络的变电站属性分割方法
CN107103285B (zh) 基于卷积神经网络的人脸深度预测方法
CN105893349A (zh) 类目标签匹配映射方法及装置
CN105069413A (zh) 一种基于深度卷积神经网络的人体姿势识别方法
CN104067314A (zh) 人形图像分割方法
CN106776545A (zh) 一种通过深度卷积神经网络进行短文本间相似度计算的方法
CN104778702A (zh) 基于深度学习的图像隐写检测方法
CN111400452B (zh) 文本信息分类处理方法、电子设备及计算机可读存储介质
CN108229290A (zh) 视频物体分割方法和装置、电子设备、存储介质和程序
CN107463881A (zh) 一种基于深度增强学习的人物图像搜索方法
CN111709244A (zh) 一种用于矛盾纠纷事件因果关系识别的深度学习方法
CN108537747A (zh) 一种基于带对称跨层连接的卷积神经网络的图像修复方法
CN110263236A (zh) 基于动态多视图学习模型的社交网络用户多标签分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180202

WD01 Invention patent application deemed withdrawn after publication