CN111062885B - 基于多阶段迁移学习的标志检测模型训练及标志检测方法 - Google Patents

基于多阶段迁移学习的标志检测模型训练及标志检测方法 Download PDF

Info

Publication number
CN111062885B
CN111062885B CN201911252628.XA CN201911252628A CN111062885B CN 111062885 B CN111062885 B CN 111062885B CN 201911252628 A CN201911252628 A CN 201911252628A CN 111062885 B CN111062885 B CN 111062885B
Authority
CN
China
Prior art keywords
mark
training
model
image
bounding box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911252628.XA
Other languages
English (en)
Other versions
CN111062885A (zh
Inventor
胡卫明
刘冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201911252628.XA priority Critical patent/CN111062885B/zh
Publication of CN111062885A publication Critical patent/CN111062885A/zh
Application granted granted Critical
Publication of CN111062885B publication Critical patent/CN111062885B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉领域,具体涉及一种基于多阶段迁移学习的标志检测模型训练及标志检测方法、系统、装置,旨在解决现有标志检测模型因标志样本较少导致检测准确率低的问题。本系统模型训练方法包括基于ImageNet数据集中选取的样本对标志检测模型进行预训练,得到第一模型;基于合成标志样本对第一模型进行微调训练,得到第二模型;基于真实标志样本对第二模型进行训练,得到第三模型;并将第三模型作为训练好的标志检测模型;检测方法包括获取待检测的标志图像;通过上述模型训练方法获取的标志检测模型对标志图像进行目标标志检测。本发明增加了标志样本的数量,提高了标志检测模型检测的准确率。

Description

基于多阶段迁移学习的标志检测模型训练及标志检测方法
技术领域
本发明属于计算机视觉领域,具体涉及一种基于多阶段迁移学习的标志检测模型训练及标志检测方法、系统、装置。
背景技术
尽管现在已经涌现出了许多优秀的目标检测研究成果,但是由于在真实世界不同场景、不同的附着物的背景丰富性很高,标志在其中颜色各样、形态各异,又千差万别,使得标志检测问题本身具有较高的难度。另外随着近年深度学习模型对大数据集的依赖,在少量样本情况下的标志检测问题更是难上加难。
训练庞大的深度学习模型需要巨大的数据集作为支撑,从而利用深度学习算法进行标志检测的首要的问题就是大规模数据集的问题。而现在已知的数据集,有些大型标志数据集还未公开,而公开的数据集中大多数每类的标志图片数量很少,还有大部分无标签或混杂标志数据,不能直接很好地用于深度学习模型的训练。如此小规模的数据集都给基于深度学习的标志检测研究带来了基础性的问题。
其次是标志图像在复杂背景的形态各异性。首先标志在不同场景下与附着物下的形态多样化的问题,不同光线、不同材质的物体上予以呈现都会带来不同的检测问题。其次标志本身在自然场景下的噪声干扰、图像模糊、仿射变换图像变形等各种变换问题也是标志检测的难点。最后是标志图像的更好的定位与特征表示方式。由于标志检测主要分为两块基本内容,对标志的定位问题与识别问题。基于传统手工特征的滑动窗口的定位与提取目标区域特征过程复杂繁琐且效果较差,采用深度学习模型进行定位与特征提取的方法更为合理与实用。
发明内容
为了解决现有技术中的上述问题,即为了解决现有标志检测模型因标志样本较少导致检测准确率低的问题,本发明第一方面,提出了一种基于多阶段迁移学习的标志检测模型训练方法,该方法包括:
步骤S100,基于第一预设训练样本集对所述标志检测模型进行预训练,得到第一模型;所述第一预设训练样本集为从ImageNet数据集中随机选取的一组训练样本构成的样本集合;
步骤S200,基于第二预设训练样本集对所述第一模型进行微调训练,得到第二模型;
所述第二预设训练样本集中的样本为合成标志样本,其获取方法为:
获取多张标志图像以及无目标标志的背景图像,分别构建标志图像集合、背景图像集合;
基于预设的图像增强变换方法对所述标志图像集合中的标志图像进行增强变换处理;
随机选取增强变换处理后的标志图像、背景图像,通过泊松融合将选取的图像进行融合得到合成标志样本;
步骤S300,基于第三预设训练样本集对所述第二模型进行微调训练,得到第三模型,并将所述第三模型作为训练好的标志检测模型;所述第三预设训练样本集为真实拍摄的带目标标志的图像。
在一些优选的实施方式中,所述标志检测模型为FasterR-CNN检测模型。
在一些优选的实施方式中,所述图像增强变换方法包括仿射变换、随机裁剪、颜色变换、高斯模糊中的一种或多种。
在一些优选的实施方式中,所述仿射变换,其变换方法为:
Q'=IQPxPy
其中,Q为输入的图像,Q'为仿射变换后的图像,I为仿射变换矩阵,Px、Py为旋转矩阵。
在一些优选的实施方式中,所述颜色变换,其变换方法为:
'
y=cy
其中,y为输入图像,y'为颜色变换后的图像,c为均匀采样随机数,其选取区间为[0,1]。
本发明的第二方面,提出了一种基于多阶段迁移学习的标志检测方法,该方法包括:
步骤A100,获取待检测的标志图像,作为输入图像;
步骤A200,基于所述输入图像,通过上述所述的基于多阶段迁移学习的标志检测模型训练方法获取的标志检测模型进行目标标志的检测。
本发明的第三方面,提出了一种基于多阶段迁移学习的标志检测模型训练系统,该系统包括预训练模块、合成样本训练模块、真实样本训练模块;
所述预训练模块,配置为基于第一预设训练样本集对所述标志检测模型进行预训练,得到第一模型;所述第一预设训练样本集为从ImageNet数据集中随机选取的一组训练样本构成的样本集合;
所述合成样本训练模块,配置为基于第二预设训练样本集对所述第一模型进行微调训练,得到第二模型;
所述第二预设训练样本集中的样本为合成标志样本,其获取方法为:
获取多张标志图像以及无目标标志的背景图像,分别构建标志图像集合、背景图像集合;
基于预设的图像增强变换方法对所述标志图像集合中的标志图像进行增强变换处理;
随机选取增强变换处理后的标志图像、背景图像,通过泊松融合将选取的图像进行融合得到合成标志样本;
所述真实样本训练模块,配置为基于第三预设训练样本集对所述第二模型进行微调训练,得到第三模型,并将所述第三模型作为训练好的标志检测模型;所述第三预设训练样本集为真实拍摄的带目标标志的图像。
本发明的第四方面,提出了一种基于多阶段迁移学习的标志检测的系统,该系统包括获取模块、检测模块;
所述的获取模块,配置为获取待检测的图像,作为输入图像;
所述的检测模块,配置为基于所述输入图像,通过上述所述的基于多阶段迁移学习的标志检测模型训练系统获取的标志检测模型进行目标标志的检测。
本发明的第五方面,提出了一种存储装置,其中存储有多条程序,所述程序应用由处理器加载并执行以实现上述的基于多阶段迁移学习的标志检测模型训练方法和/或基于多阶段迁移学习的标志检测方法。
本发明的第六方面,提出了一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的基于多阶段迁移学习的标志检测模型训练方法和/或基于多阶段迁移学习的标志检测方法。
本发明的有益效果:
本发明增加了标志样本的数量,提高了标志检测模型检测的准确率。本发明基于迁移学习的思想设计了基于多阶段迁移学习的标志检测方法,基于Faster R-CNN检测模型通过在大数据库中预训练与多阶段逐步微调训练,在有限的样本内训练出更好的模型参数,提高了标志检测模型的准确率。
本发明在数据层面,自动生成合成标志样本的方法,作为模型训练的第二个步骤。根据标志自带的环境属性去选择合适的标志模板,然后是进行模板的多种变换,选取了最具有代表性的变换方式,随后随机插入到了无关的背景图像中。因为卷积神经网络对数据极其敏感,如果不采取一定的融合措施消除边界所带来的影响,网络会学到这些边界信息,降低模型的泛化能力,因此,本发明采取了泊松融合的方式,让标志模板和背景图像合成起来更为真实,增加了数据样本的丰富性,提升了模型的泛化能力。
附图说明
通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。
图1是本发明一种实施例的基于多阶段迁移学习的标志检测模型训练方法的流程示意图;
图2是本发明一种实施例的基于多阶段迁移学习的标志检测方法的流程示意图;
图3是本发明一种实施例的基于多阶段迁移学习的标志检测模型训练系统的框架示意图;
图4是本发明一种实施例的基于多阶段迁移学习的标志检测系统的框架示意图;
图5是本发明一种实施例的标志检测模型的训练流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的基于多阶段迁移学习的标志检测模型训练方法,如图1所示,包括以下步骤:
步骤S100,基于第一预设训练样本集对所述标志检测模型进行预训练,得到第一模型;所述第一预设训练样本集为从ImageNet数据集中随机选取的一组训练样本构成的样本集合;
步骤S200,基于第二预设训练样本集对所述第一模型进行微调训练,得到第二模型;
所述第二预设训练样本集中的样本为合成标志样本,其获取方法为:
获取多张标志图像以及无目标标志的背景图像,分别构建标志图像集合、背景图像集合;
基于预设的图像增强变换方法对所述标志图像集合中的标志图像进行增强变换处理;
随机选取增强变换处理后的标志图像、背景图像,通过泊松融合将选取的图像进行融合得到合成标志样本;
步骤S300,基于第三预设训练样本集对所述第二模型进行微调训练,得到第三模型,并将所述第三模型作为训练好的标志检测模型;所述第三预设训练样本集为真实拍摄的带目标标志的图像。
为了更清晰地对本发明基于多阶段迁移学习的标志检测模型训练方法进行说明,下面结合附图对本发明方法一种实施例中各步骤进行展开详述。
步骤S100,基于第一预设训练样本集对所述标志检测模型进行预训练,得到第一模型;所述第一预设训练样本集为从ImageNet数据集中随机选取的一组训练样本构成的样本集合。
在本实施例中,在ImageNet大数据集下初始化我们模型的训练参数。ImageNet是一个计算机视觉系统识别项目,是目前世界上图像识别最大的数据库。ImageNet数据集大概1500万张,2.2万个种类。根据标志检测的实际任务需求,我们在生成第一模型这一步骤中需要嵌套一个基本的检测模型,我们采用的是Faster R-CNN检测模型,FasterR-CNN检测模型由卷积层、RPN网络、ROI池化层、分类回归层构成,如图5所示,其中特征提取网络即卷积层,各层具体内容在下述步骤S200中展开详述。正常情况下,如果我们使用的基础网络已经是他人调试好的网络,则我们无需修改其网络结构。这一阶段生成的模型即第一模型,也称为初始化模型。
步骤S200,基于第二预设训练样本集对所述第一模型进行微调训练,得到第二模型。
所述第二预设训练样本集中的样本为合成标志样本,合成标志用来作为进一步训练第一模型的训练样本。模型可以通过在合成标志样本上这一相较于真实标志样本简单的训练样本中得到一定的权重信息,即利用一个前次训练学习率的1/10把所有的卷积层都进行了权重信息的更新,从而将一个训练结果较为不错的模型送入到下一阶段进行真实样本的模型训练。虽然合成标志与真实世界的标志还是有一定的区别度,但是还是可以进一步对第一模型的参数进行修正和改善。这一阶段的模型即第二模型,我们称为合成模型。
其中,合成模型的训练过程具体如下:
其中,合成标志样本的合成步骤主要包括:标志模板选取、背景图像选取、标志模板变换、标志图像合成。
在标志模板的选取上,依据标志自身的环境属性综合选用了像素级别的标志掩码(标志mask,图像处理的一种常见做法,即抠图操作),其来源于真实图像的目标标志,以及背景完全透明的标志图像。作为承载合成标志全局上下文信息的背景图像,本发明筛选了背景无目标标志的背景图片。对于标志模板的变换采用图像合成作为训练数据的主要增强方法。另外在此基础上运用了泊松融合的方式,使模板和背景融合性更强。其中,标志模板即标志图像。
本发明对标志模板尝试进行了仿射变换、随机裁剪、颜色变换、高斯模糊等一系列增强变换。需要说明的是,每种变换之间相互独立且随机进行。下面以仿射变换为例给出其数学描述。由于卷积神经网络本身具有平移不变性,所以本文针对标志模板并不进行平移变换,由此仿射变换的维度从3维降到2维,在2维平面上对于标志模板进行仿射变换的具体数学形式如公式(1)所示:
Q'=IQPxPy (1)
其中,Q为输入图像,Q'为仿射变换后的图像,I为仿射变换矩阵,Px和Py为旋转矩阵,旋转角度在[0,360]的范围内随机取值。
颜色变换的具体数学形式如公式(2)所示:
y'=cy (2)
其中,y为输入图像,y'为颜色变换后的图像,c为均匀采样随机数,从[0,1]随机选取。
下述是针对合成标志样本的训练过程:
步骤S1,基于合成标志样本图像,基于卷积神经网络提取输入图像的特征。
采用基于基础的卷积神经网络模型作为标志图片的特征提取器。本发明优选VGG16网络模型,VGG16网络模型的卷积神经网络部分一共有13个卷积层、13个relu层、4个池化层。在卷积层中,kernel size(卷积核大小)的大小均为3,padding(填充)为1,池化层的kernel size为2。输入的标志图片在经过VGG16网络提取特征后,在第五个卷积层后得到特征图其大小为(M/16)*(N/16),M、N表示原特征图的边长。输入标志图片后经过VGG网络的第五个卷积层后得到64*64的特征图。
步骤S2,根据提取的图像特征,通过RPN网络提取多个候选区域,并进行池化。
RPN网络的输入为上述卷积神经网络提取的特征图,输出为多个候选区域,并且该层用分类损失函数Softmax来判断候选框是属于前景或是属于背景,并在后面会利用边框回归损失函数来修正候选框。ROI池化层将经过RPN的不同大小的输入转化成为固定长度的输出。
将标志图片经过卷积神经网络后的得到的特征图送入RPN网络。对RPN网络候选框提取时在每一个特征图的像素点采用三种比例,三种尺度用以产生9个锚点,而且每个锚点要分为前景和背景,就是9*H*W个anchor二分类为前景、背景的概率,而且都有x,y,w,h四个方向的偏移量,且在一个特征图中有多个Ground Truth(真实目标的标定框),每个锚点只会与和它重叠度最高的Ground Truth来计算偏移量。由RPN产生的大量的候选框后经过映射可以得到其在特征图上的映射区域,这些映射区域即作为ROI池化层的输入。ROI池化时,将输入的h*w大小的特征图分割成H*W大小的子窗口(每个子窗口的大小约为h/H,w/W,其中H、W为超参数,如设定为7x 7),对每个子窗口进行最大池化操作,得到固定输出大小的特征图。而后进行后续的全连接层操作。
步骤S3,基于池化特征,获取候选区域的标志类别及标志位置。
根据分类任务与回归任务最小化其损失函数,其输入标志图片的损失函数如公式(3)所示:
其中,i为标志图片中锚点的索引,pi为锚点i预测为目标标志的概率,ti表示预测的候选包围框的x,y,w,h 4个坐标的向量即ti={tx,ty,tw,th},pi *表示锚点预测的偏移量,ti *是与正例锚点对应的Ground Truth候选包围框的坐标的向量。该损失函数分为两部分分类损失与边框回归损失,Ncls为分类层的归一化值,Nreg为回归层的归一化值,λ为平衡权重,Lcls为分类损失函数,Lreg为回归损失函数。
分类损失函数Lcls是判断其是目标标志或者非目标标志的对数损失,如公式(4)所示:
Lcls(pi,pi *)=-log[pi *pi+(1-pi *)(1-pi)] (4)
这是一个经典的二分类交叉熵损失,对于每一个锚点计算对数损失,然后求和再除以总的锚点数量。再训练RPN时,Ncls为256,在训练后,Ncls为128。
回归损失函数Lreg如公式(5)所示:
Lreg(ti,ti *)=R(ti-ti *) (5)
其中,R是Smooth L1函数,其数学表达式如式(6)所示:
对于每一个锚点计算完回归损失函数要乘以pi *。pi *有标志时为1,没有标志时则为0,即只有前景目标才计算损失,而背景就不计算损失。对于Ground Truth标定的框也对应一个中心点位置坐标,因此计算回归损失将采用如公式(7)(8)(9)(10)所示:
tx=(x-xa)/wa,ty=(y-ya)/ha (7)
tw=log(w/wa),th=log(h/ha) (8)
tx=(x*-xa)/wa,ty *=(y*-ya)/ha (9)
tw *=log(w*/wa),th=log(h*/ha) (10)
其中,x,y,w,h分别代表包围框中心的横纵坐标、宽、高。x、xa、x*、y、ya、y*分别代表预测的目标包围框、锚点的包围框、GroundTruth的包围框的x、y坐标,w、wa、w*、h、ha、h*分别代表预测的目标包围框、锚点的包围框、Ground Truth的包围框的宽、高。计算回归需要三组信息:预测框,即RPN网络测出的区域候选框,锚点,锚点对应9个不同尺度和长宽比的锚点盒;Ground Truth为真实目标的标定框。
以上描述了对于RPN如何产生候选框以及整个的损失函数定义,把区域候选网络和检测网络进行连接。采用由RPN与Fast R-CNN进行共享卷积特征的操作,先让RPN进行提取区域候选框的步骤,再进行Fast R-CNN的检测步骤。我们采用一种联合训练的方式,交替优化两个模块,使其都达到模型的最优值。
基于第二预设训练样本集对所述第一模型进行微调训练,得到合成模型,将其作为第二模型。
步骤S300,基于第三预设训练样本集对所述第二模型进行微调训练,得到第三模型,并将所述第三模型作为训练好的标志检测模型;所述第三预设训练样本集为真实拍摄的带目标标志的图像。
模型参数经过上一阶段的合成标志样本的训练之后已经较为接近理想模型参数,此时进行二次微调训练,将真实标志样本被用于模型训练,使模型更为精细化,这一阶段的模型即第三模型,我们称为精细化模型。将第三模型作为训练好的标志检测模型。
本发明第二实施例的一种基于多阶段迁移学习的标志检测方法,如图2所示,包括以下步骤:
步骤A100,获取待检测的标志图像,作为输入图像;
步骤A200,基于所述输入图像,通过上述所述的基于多阶段迁移学习的标志检测模型训练方法获取的标志检测模型进行目标标志的检测。
为了更清晰地对本发明基于多阶段迁移学习的标志检测方法进行说明,下面结合附图对本发明方法一种实施例中各步骤进行展开详述。
步骤A100,获取待检测的标志图像,作为输入图像。
在本实施例中,输入图像优选为标志图像,可以基于网络或者其他手段获取。
步骤A200,基于所述输入图像,通过上述所述的基于多阶段迁移学习的标志检测模型训练方法获取的标志检测模型进行目标标志的检测。
标志图像检测方法,从图像分类和定位扩展而来。近年来受到许多研究者的关注。标志检测是针对图像中包含多个物体时,对其进行识别和定位,而图像分类和定位针对图像中仅包含单个物体的情况。在深度学习广泛应用之前,检测效果最好的方法是可变形组件模型。而近年来最成功的方法主要包括:两级方法和单级方法。其中单级方法有YOLO和SSD。两级方法包括基于区域的快速卷积神经网络(FasterR-CNN)和其扩展方法,其中Faster R-CNN的两级方法具有较高的准确率。
在本实施例中,标志检测模型通过Faster R-CNN检测模型微调训练得到。基于获取的输入图像,通过标志检测模型对输入图像进行目标标志的检测。
本发明第三实施例的一种基于多阶段迁移学习的标志检测模型训练系统,如图3所示,包括预训练模块S1000、合成样本训练模块S2000、真实样本训练模块S3000;
所述预训练模块S1000,配置为基于第一预设训练样本集对所述标志检测模型进行预训练,得到第一模型;所述第一预设训练样本集为从ImageNet数据集中随机选取的一组训练样本构成的样本集合;
所述合成样本训练模块S2000,配置为基于第二预设训练样本集对所述第一模型进行微调训练,得到第二模型;
所述第二预设训练样本集中的样本为合成标志样本,其获取方法为:
获取多张标志图像以及无目标标志的背景图像,分别构建标志图像集合、背景图像集合;
基于预设的图像增强变换方法对所述标志图像集合中的标志图像进行增强变换处理;
随机选取增强变换处理后的标志图像、背景图像,通过泊松融合将选取的图像进行融合得到合成标志样本;
所述真实样本训练模块S3000,配置为基于第三预设训练样本集对所述第二模型进行微调训练,得到第三模型,并将所述第三模型作为训练好的标志检测模型;所述第三预设训练样本集为真实拍摄的带目标标志的图像。
本发明第四实施例的一种基于多阶段迁移学习的标志检测系统,如图4所示,包括获取模块A1000、检测模块A2000;
所述的获取模块A1000,配置为获取待检测的图像,作为输入图像;
所述的检测模块A2000,配置为基于所述输入图像,通过上述所述的基于多阶段迁移学习的标志检测模型训练系统获取的标志检测模型进行目标标志的检测。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统的具体的工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于多阶段迁移学习的标志检测模型训练系统和/或基于多阶段迁移学习的标志检测系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第五实施例的一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并实现上述的基于多阶段迁移学习的标志检测模型训练方法和/或基于多阶段迁移学习的标志检测方法。
本发明第六实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于多阶段迁移学习的标志检测模型训练方法和/或基于多阶段迁移学习的标志检测方法。
所述技术领域的技术人员可以清楚的了解到,未描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考签署方法实例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (8)

1.一种基于多阶段迁移学习的标志检测模型训练方法,用于对所述标志检测模型进行训练,其特征在于,该训练方法包括:
步骤S100,基于第一预设训练样本集对所述标志检测模型进行预训练,得到第一模型;所述第一预设训练样本集为从ImageNet数据集中随机选取的一组训练样本构成的样本集合;
步骤S200,基于第二预设训练样本集对所述第一模型进行微调训练,得到第二模型;
所述第二预设训练样本集中的样本为合成标志样本,其获取方法为:
获取多张标志图像以及无目标标志的背景图像,分别构建标志图像集合、背景图像集合;
基于预设的图像增强变换方法对所述标志图像集合中的标志图像进行增强变换处理;所述图像增强变换方法包括仿射变换、随机裁剪、颜色变换、高斯模糊中的一种或多种;
所述仿射变换,其变换方法为:
Q'=IQPXPy
其中,Q为输入的图像,Q'为仿射变换后的图像,I为仿射变换矩阵,Px、Py为旋转矩阵;
随机选取增强变换处理后的标志图像、背景图像,通过泊松融合将选取的图像进行融合得到合成标志样本;
基于第二预设训练样本集对所述第一模型进行微调训练过程中的损失函数为:
Lreg(ti,ti *)=R(ti-ti *)
tx=(x-xa)/wa,ty=(y-ya)/ha
tw=log(w/wa),th=log(h/ha)
tx *=(x*-xa)/wa,ty *=(y*-ya)/ha
tw *=log(w*/wa),th=log(h*/ha)
其中,i为标志图片中锚点的索引,pi为锚点i预测为目标标志的概率,ti表示预测的候选包围框的x,y,w,h4个坐标的向量即ti={tx,ty,tw,th},pi *表示锚点预测的偏移量,ti *是与正例锚点对应的Ground Truth候选包围框的坐标的向量,Ncls为分类层的归一化值,Nreg为回归层的归一化值,λ为平衡权重,Lcls为分类损失函数,即二分类交叉熵损失函数,Lreg为回归损失函数,R是Smooth L1函数,x,y,w,h分别代表包围框中心的横纵坐标、宽、高,x、xa、x*、y、ya、y*分别代表预测的目标包围框、锚点的包围框、Ground Truth的包围框的x、y坐标,w、wa、w*、h、ha、h*分别代表预测的目标包围框、锚点的包围框、Ground Truth的包围框的宽、高;
步骤S300,基于第三预设训练样本集对所述第二模型进行微调训练,得到第三模型,并将所述第三模型作为训练好的标志检测模型;所述第三预设训练样本集为真实拍摄的带目标标志的图像。
2.根据权利要求1所述的基于多阶段迁移学习的标志检测模型训练方法,其特征在于,所述标志检测模型为Faster R-CNN检测模型。
3.根据权利要求1所述的基于多阶段迁移学习的标志检测模型训练方法,其特征在于,所述颜色变换,其变换方法为:
y′=cy
其中,y为输入图像,y'为颜色变换后的图像,c为均匀采样随机数,其选取区间为[0,1]。
4.一种基于多阶段迁移学习的标志检测方法,其特征在于,该方法包括:
步骤A100,获取待检测的标志图像,作为输入图像;
步骤A200,基于所述输入图像,通过权利要求1-3任一项所述的基于多阶段迁移学习的标志检测模型训练方法获取的标志检测模型进行目标标志的检测。
5.一种基于多阶段迁移学习的标志检测模型训练系统,其特征在于,该系统包括预训练模块、合成样本训练模块、真实样本训练模块;
所述预训练模块,配置为基于第一预设训练样本集对所述标志检测模型进行预训练,得到第一模型;所述第一预设训练样本集为从ImageNet数据集中随机选取的一组训练样本构成的样本集合;
所述合成样本训练模块,配置为基于第二预设训练样本集对所述第一模型进行微调训练,得到第二模型;
所述第二预设训练样本集中的样本为合成标志样本,其获取方法为:
获取多张标志图像以及无目标标志的背景图像,分别构建标志图像集合、背景图像集合;
基于预设的图像增强变换方法对所述标志图像集合中的标志图像进行增强变换处理;所述图像增强变换方法包括仿射变换、随机裁剪、颜色变换、高斯模糊中的一种或多种;
所述仿射变换,其变换方法为:
Q'=IQPXPy
其中,Q为输入的图像,Q'为仿射变换后的图像,I为仿射变换矩阵,Px、Py为旋转矩阵;
随机选取增强变换处理后的标志图像、背景图像,通过泊松融合将选取的图像进行融合得到合成标志样本;
基于第二预设训练样本集对所述第一模型进行微调训练过程中的损失函数为:
Lreg(ti,ti *)=R(ti-ti *)
tx=(x-xa)/wa,ty=(y-ya)/ha
tw=log(w/wa),th=log(h/ha)
tx *=(x*-xa)/wa,ty *=(y*-ya)/ha
tw *=log(w*/wa),th=log(h*/ha)
其中,i为标志图片中锚点的索引,pi为锚点i预测为目标标志的概率,ti表示预测的候选包围框的x,y,w,h4个坐标的向量即ti={tx,ty,tw,th},pi *表示锚点预测的偏移量,ti *是与正例锚点对应的Ground Truth候选包围框的坐标的向量,Ncls为分类层的归一化值,Nreg为回归层的归一化值,λ为平衡权重,Lcls为分类损失函数,即二分类交叉熵损失函数,Lreg为回归损失函数,R是Smooth L1函数,x,y,w,h分别代表包围框中心的横纵坐标、宽、高,x、xa、x*、y、ya、y*分别代表预测的目标包围框、锚点的包围框、Ground Truth的包围框的x、y坐标,w、wa、w*、h、ha、h*分别代表预测的目标包围框、锚点的包围框、Ground Truth的包围框的宽、高;
所述真实样本训练模块,配置为基于第三预设训练样本集对所述第二模型进行微调训练,得到第三模型,并将所述第三模型作为训练好的标志检测模型;所述第三预设训练样本集为真实拍摄的带目标标志的图像。
6.一种基于多阶段迁移学习的标志检测系统,其特征在于,该系统包括获取模块、检测模块;
所述的获取模块,配置为获取待检测的图像,作为输入图像;
所述的检测模块,配置为基于所述输入图像,通过权利要求5所述的基于多阶段迁移学习的标志检测模型训练系统获取的标志检测模型进行目标标志的检测。
7.一种存储装置,其中存储有多条程序,其特征在于,所述程序应用由处理器加载并执行以实现权利要求1-3任一项所述的基于多阶段迁移学习的标志检测模型训练方法和/或权利要求4所述的基于多阶段迁移学习的标志检测方法。
8.一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-3任一项所述的基于多阶段迁移学习的标志检测模型训练方法和/或权利要求4所述的基于多阶段迁移学习的标志检测方法。
CN201911252628.XA 2019-12-09 2019-12-09 基于多阶段迁移学习的标志检测模型训练及标志检测方法 Active CN111062885B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911252628.XA CN111062885B (zh) 2019-12-09 2019-12-09 基于多阶段迁移学习的标志检测模型训练及标志检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911252628.XA CN111062885B (zh) 2019-12-09 2019-12-09 基于多阶段迁移学习的标志检测模型训练及标志检测方法

Publications (2)

Publication Number Publication Date
CN111062885A CN111062885A (zh) 2020-04-24
CN111062885B true CN111062885B (zh) 2023-09-12

Family

ID=70300445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911252628.XA Active CN111062885B (zh) 2019-12-09 2019-12-09 基于多阶段迁移学习的标志检测模型训练及标志检测方法

Country Status (1)

Country Link
CN (1) CN111062885B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091167B (zh) * 2020-03-25 2020-07-28 同盾控股有限公司 标志识别训练数据合成方法、装置、电子设备及存储介质
CN111783844B (zh) * 2020-06-10 2024-05-28 广东正扬传感科技股份有限公司 基于深度学习的目标检测模型训练方法、设备及存储介质
CN111914837A (zh) * 2020-07-10 2020-11-10 北京嘉楠捷思信息技术有限公司 车牌检测方法、装置、设备和存储介质
CN111968048B (zh) * 2020-07-30 2024-03-26 国网智能科技股份有限公司 电力巡检少样本图像数据增强方法及系统
CN112633375A (zh) * 2020-12-23 2021-04-09 深圳市赛为智能股份有限公司 鸟类检测方法、装置、计算机设备及存储介质
CN112434680B (zh) * 2021-01-27 2021-05-14 武汉星巡智能科技有限公司 智能摄像头模型自训练方法、装置、设备及介质
CN112836756B (zh) * 2021-02-04 2024-02-27 上海明略人工智能(集团)有限公司 图像识别模型训练方法、系统和计算机设备
CN113160231A (zh) * 2021-03-29 2021-07-23 深圳市优必选科技股份有限公司 一种样本生成方法、样本生成装置及电子设备
CN113436259A (zh) * 2021-06-23 2021-09-24 国网智能科技股份有限公司 基于深度学习的变电站设备实时定位方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016155371A1 (zh) * 2015-03-31 2016-10-06 百度在线网络技术(北京)有限公司 识别交通标志的方法和装置
CN109325449A (zh) * 2018-01-04 2019-02-12 苏州中科天启遥感科技有限公司 基于样本更新的卷积神经网络目标检测框架
CN110163187A (zh) * 2019-06-02 2019-08-23 东北石油大学 基于f-rcnn的远距离交通标志检测识别方法
CN110210362A (zh) * 2019-05-27 2019-09-06 中国科学技术大学 一种基于卷积神经网络的交通标志检测方法
CN110334612A (zh) * 2019-06-19 2019-10-15 上海交通大学 具有自学习能力的电力巡检图像目标检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016155371A1 (zh) * 2015-03-31 2016-10-06 百度在线网络技术(北京)有限公司 识别交通标志的方法和装置
CN109325449A (zh) * 2018-01-04 2019-02-12 苏州中科天启遥感科技有限公司 基于样本更新的卷积神经网络目标检测框架
CN110210362A (zh) * 2019-05-27 2019-09-06 中国科学技术大学 一种基于卷积神经网络的交通标志检测方法
CN110163187A (zh) * 2019-06-02 2019-08-23 东北石油大学 基于f-rcnn的远距离交通标志检测识别方法
CN110334612A (zh) * 2019-06-19 2019-10-15 上海交通大学 具有自学习能力的电力巡检图像目标检测方法

Also Published As

Publication number Publication date
CN111062885A (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
CN111062885B (zh) 基于多阶段迁移学习的标志检测模型训练及标志检测方法
Xie et al. Multilevel cloud detection in remote sensing images based on deep learning
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
Christiansen et al. Unsuperpoint: End-to-end unsupervised interest point detector and descriptor
US10984289B2 (en) License plate recognition method, device thereof, and user equipment
CN106909924B (zh) 一种基于深度显著性的遥感影像快速检索方法
CN110770752A (zh) 多尺度特征融合网络结合定位模型的害虫自动计数方法
CN109977997B (zh) 基于卷积神经网络快速鲁棒的图像目标检测与分割方法
CN112800964B (zh) 基于多模块融合的遥感影像目标检测方法及系统
CN111368769B (zh) 基于改进锚点框生成模型的船舶多目标检测方法
CN108875600A (zh) 一种基于yolo的车辆信息检测和跟踪方法、装置及计算机存储介质
CN112651438A (zh) 多类别图像的分类方法、装置、终端设备和存储介质
CN111563414B (zh) 一种基于非局部特征增强的sar图像舰船目标检测方法
CN110728197B (zh) 基于深度学习的单木级树种识别方法
CN111738055B (zh) 多类别文本检测系统和基于该系统的票据表单检测方法
CN111860537B (zh) 基于深度学习的绿色柑橘识别方法、设备及装置
CN106204651B (zh) 一种基于改进的判决与生成联合模型的目标跟踪方法
CN112528862B (zh) 基于改进的交叉熵损失函数的遥感图像目标检测方法
CN109711416A (zh) 目标识别方法、装置、计算机设备和存储介质
CN111767962A (zh) 基于生成对抗式网络的一阶段目标检测方法、系统及装置
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN112800955A (zh) 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统
CN111259808A (zh) 一种基于改进ssd算法的交通标识的检测识别方法
CN110580446A (zh) 行为语义细分化理解方法、系统、计算机装置以及介质
CN111368637A (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant