CN109523015B - 一种神经网络中图像处理方法 - Google Patents

一种神经网络中图像处理方法 Download PDF

Info

Publication number
CN109523015B
CN109523015B CN201811328273.3A CN201811328273A CN109523015B CN 109523015 B CN109523015 B CN 109523015B CN 201811328273 A CN201811328273 A CN 201811328273A CN 109523015 B CN109523015 B CN 109523015B
Authority
CN
China
Prior art keywords
target
network
layer
pooling
prediction label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811328273.3A
Other languages
English (en)
Other versions
CN109523015A (zh
Inventor
霍煜豪
徐志京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Maritime University
Original Assignee
Shanghai Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Maritime University filed Critical Shanghai Maritime University
Priority to CN201811328273.3A priority Critical patent/CN109523015B/zh
Publication of CN109523015A publication Critical patent/CN109523015A/zh
Application granted granted Critical
Publication of CN109523015B publication Critical patent/CN109523015B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种神经网络中图像处理方法,方法包括步骤:第一分类网络对所接收到的目标图像进行特征提取;第一定位网络将所得到的第一目标像素个数和第一目标位置发送至第一分类网;第一分类网根据第一目标像素个数确定所选择的第一目标池化层的池化结果;第二分类网络对第一数量个特征图中每一个特征图进行特征提取;第二分类网络确定所选择的第二目标池化层的池化结果,得到第二个尺度层的第二预测标签;确定目标类别标签,以及确定最终的目标定位。应用本发明实施例,通过增加了复数个先验矩形框来描述特征区域,最后通过将所有的特征区域分别分类判定,对每个预测概率进行加权平均强化矩形框在最终判决的影响力。

Description

一种神经网络中图像处理方法
技术领域
本发明涉及运用神经网络进行图像处理的技术领域,特别是涉及一种神经网络中图像处理方法。
背景技术
舰船光电图像具有便于获取和高时效性等特点,在军事侦察与预警等领域具有重要的应用价值。但是由于舰船种类繁多,型号复杂多样,所处背景环境复杂多变等原因,快速精准分类舰船类别,及时预警出警成为一个研究难题。
针对这个问题,国内外处理方法可以大致分为两个方向。其中一个方向是对图像直接处理,先定位目标位置后分类的识别策略。根据目标边缘信息定位分类,通过分割目标使用支持向量机SVM完成分类。上述研究的算法模型都依赖于先验的图像标注信息训练并且对于细粒度分类效果较差。另一个方向是通过提取舰船尾迹特征进行分类,然而图像中尾迹信息易受天气与环境干扰,影响最终图像的分类而造成漏判,误判。同时,上述方法需要对图像进行复杂的预处理,极易损失图像的信息进而影响最终判别。
近年来新兴的深度学习技术作为一种智能信息处理方式,通过训练可以使模型更鲁棒地识别图像中的目标。目前主流的检测方法多采用卷积神经网络(ConvolutionalNeural Network,简称CNN)提取图像特征,定位目标位置并判别舰船种类。然而采用的神经网络层数较浅,仅通过卷积提取特征,忽视图像特征深层之间联系,则会导致检测效果不理想。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种神经网络中图像处理方法,旨在通过增加了复数个先验矩形框来描述特征区域,最后通过将所有的特征区域分别分类判定,对每个预测概率进行加权平均强化矩形框在最终判决的影响力。
为实现上述目的及其他相关目的,本发明提供一种神经网络中图像处理方法,所述神经网络至少包括第一尺度层和第二尺度层,所述第一尺度层至少包括:第一分类网络、第一定位网络,所述第二尺度层至少包括:第二分类网络、第二定位网络;所述方法包括步骤:
所述第一分类网络对所接收到的目标图像进行特征提取,并将最后一个池化层的输出结果送入所述第一定位网络;
所述第一定位网络得到第一目标像素个数和第一目标位置,并将所得到的第一目标像素个数和第一目标位置发送至所述第一分类网,以及根据所述第一定位网络输出截取出第一数量个特征图作为所述第二尺度层的输入;
所述第一分类网根据所述第一目标像素个数确定所选择的第一目标池化层的池化结果并反馈至所述第一定位网络,以及得到所述第一个尺度层的第一预测标签;
所述第二分类网络对所述第一数量个特征图中每一个特征图进行特征提取,并将最后一个池化层的输出结果送入所述第二定位网络;
所述第二定位网络获得第二目标像素个数和第二目标位置,并将所得到的第二目标像素个数和第二目标位置发送至所述第二分类网;
所述第二分类网根据所述第二目标像素个数确定所选择的第二目标池化层的池化结果并反馈至所述第二定位网络,以及得到所述第二个尺度层的第二预测标签;
根据所述第一预测标签和所述第二预测标签的融合确定目标类别标签,以及确定最终的目标定位。
本发明的一种实现方式中,所述神经网络还包括第三尺度层;
所述方法还包括:
所述第二定位网络将其输出的第一数量个特征图作为所述第三尺度层的输入;
所述根据所述第一预测标签和所述第二预测标签的融合确定目标类别,以及确定最终的目标定位的步骤,包括:
根据所述第一预测标签、所述第二预测标签、第三预测标签的融合确定目标类别,以及确定最终的目标定位,其中,所述第三预测标签为所述第三尺度层的预测标签。
本发明的一种实现方式中,所述得到所述第一个尺度层的第一预测标签的步骤,包括:
采用全连接操作后使用softmax函数得到所述第一个尺度层的第一预测标。
本发明的一种实现方式中,所述得到所述第二个尺度层的第二预测标签的步骤,包括:
将所述第一数量个特征图的预测概率融合成所述第二尺度层的第二预测标签。
本发明的一种实现方式中,所述第一分类网根据所述第一目标像素个数确定所选择的第一目标池化层的池化结果所采用的公式,具体表达包括:
Figure BDA0001859276190000031
其中,N是第一目标像素个数,P3第三池化层,P4第四池化层,P5是第五池化层,f根据MF-APN网络返回的目标区域像素个数N选择使用最佳的池化输出函数;
所述第一分类网络对所接收到的目标图像进行特征提取,并将最后一个池化层的输出结果送入所述第一定位网络的步骤,包括:
所述第一分类网络对所接收到的目标图像进行特征提取,并将第五池化层的输出结果送入所述第一定位网络。
本发明的一种实现方式中,第一定位网络输出截取出第一数量个特征图的步骤,包括:
获取目标区域的中心点坐标值、任意一个正方形框的长度的二分之一值、宽度的二分之一值,定义比例系数;
规定先验矩形框的面积等于输出的正方形框面积;
得到新的先验矩形框长度的二分之一值、宽度的二分之一值;
根据所得到的新的先验矩形框长度的二分之一值、宽度的二分之一值、目标区域的中心点坐标值,定义先验矩形框的左上角的坐标值和右下角的坐标值;
采用可导的截取函数进行截取,获得截取后的目标区域。
本发明的一种实现方式中,所述根据所述第一预测标签和所述第二预测标签的融合确定目标类别标签的步骤,包括:
将每所述第一预测标签和所述第二预测标签进行归一化,放入一个全连接层,然后使用softmax函数得到目标类别标签。
如上所述,本发明实施例提供的一种神经网络中图像处理方法,增加了复数个先验矩形框来描述特征区域,最后通过将所有的特征区域分别分类判定,对每个预测概率进行加权平均强化矩形框在最终判决的影响力。
附图说明
图1是本发明实施例的一种神经网络中图像处理方法的一种流程示意图。
图2是本发明实施例的一种神经网络中图像处理方法的第一种实施例示意图。
图3是本发明实施例的一种神经网络中图像处理方法的第二种实施例示意图。
图4是本发明实施例的一种神经网络中图像处理方法的第三种实施例示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
请参阅图1-4。需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
针对光电图像中舰船分类检测困难的问题,提出了一种基于改进循环注意卷积神经网络(RA-CNN)的舰船目标检测方法。该方法中的VGG19网络采用多个卷积层提取图像特征,注意建议区域网络(APN)通过全连接层的输出定位特征区域,然后采用基于尺度池化(SDP)算法选择VGG19中合适的卷积层输出进行类别判定,最后引入多个先验矩形框(MF)描述特征区域,交叉训练VGG19与APN网络,加速损失收敛提高模型精度。
如图1所示,本发明时候实施例提供一种神经网络中图像处理方法,所述神经网络至少包括第一尺度层和第二尺度层,所述第一尺度层至少包括:第一分类网络、第一定位网络,所述第二尺度层至少包括:第二分类网络、第二定位网络;所述方法包括步骤:
S101,所述第一分类网络对所接收到的目标图像进行特征提取,并将最后一个池化层的输出结果送入所述第一定位网络。
需要说明的是,当输入图像I时,图像首先会先经过第一分类网络提取特征,具体的,提取的是特征向量。
图2中,10表示原始的输入图像I,11、12、13、14、15分别表示多个卷积层组成的对应卷积块,21表示第一池化层P1、22表示第二池化层P2,23表示第三池化层P3,24表示第四池化层P4,25表示第五池化层P5,可以理解的是,21、22、23、24、25分别表示对应卷积块中的一个卷积层。31表示全连接层。示例性的,如图2中所示,采用的是第三池化层P3输出结果,而实际应用中,输出的结果可以是第一池化层P1、第二池化层P2,第三池化层P3,第四池化层P4,第五池化层P5中的任意一个池化层,而实际应用中根据本领域技术人员的经验,第一池化层P1、第二池化层P2,第三池化层P3,效果较差,往往不做使用。
如图2所示,第一分类网络为VGG-SDP(v1),第一定位网络为MF-APN(m1),其中,第一分类网络VGG-SDP(V1)的网络结构如图3所示。
如图2可以获得P5是最后一个池化层,将其输出结果发送至第一定位网络。示例性的,第一分类网络VGG-SDP网络将池化结果P5反馈至第一定位网络MF-APN网络,第一定位网络为MF-APN网络。
S102,所述第一定位网络得到第一目标像素个数和第一目标位置,并将所得到的第一目标像素个数和第一目标位置发送至所述第一分类网,以及根据所述第一定位网络输出截取出第一数量个特征图作为所述第二尺度层的输入。
可以理解的是,针对第一分类网络得到的特征区域,第一定位网络MF-APN网络可以计算出特征区域的大小N,以及对应的目标位置,并将计算得到的第一目标像素个数和第一目标位置返回至第一分类网络,如图2所示,将计算出来的第一目标像素个数通过第一定位网络MF-APN返回至第一分类网络中。
需要说明的是,第一定位网络MF-APN通过使用不同的先验矩形框来框取目标,最后将多个特征区域分类后通过加权平均决策的方式,强化矩形框影响力,弱化原有默认正方形框的影响力,使得网络可以更鲁棒的识别定位目标。
具体的,本发明实施例中,本发明的一种实现方式中,第一定位网络输出截取出第一数量个特征图的步骤,包括:获取目标区域的中心点坐标值、任意一个正方形框的长度的二分之一值、宽度的二分之一值,定义比例系数;规定先验矩形框的面积等于输出的正方形框面积;得到新的先验矩形框长度的二分之一值、宽度的二分之一值;根据所得到的新的先验矩形框长度的二分之一值、宽度的二分之一值、目标区域的中心点坐标值,定义先验矩形框的左上角的坐标值和右下角的坐标值;采用可导的截取函数进行截取,获得截取后的目标区域。
假设APN网络输出tx,ty代表目标区域中心点的坐标值,tl为正方形框边长的一半,N为正方形框中的像素个数即目标面积。Wi,Hi分别代表第i个先验矩形框长宽的一半,定义比例系数ki代表第i个矩形框的长宽比值。则有以下关系:
Figure BDA0001859276190000061
规定先验矩形框的面积等于输出的正方形框面积,则有:
N=2Wi×2Hi=4kiHi 2 (4)
将(3)式带入(4)式得到新的Wi,Hi表达式:
Figure BDA0001859276190000062
(5)式中int(·)函数表示向下取整。使用先验矩形框的左上角和右下角两个顶点来表示矩形框。定义ul代表左上角,br代表右下角,则两点坐标为:
Figure BDA0001859276190000071
考虑到神经网络反向传播要求可导,不能使用普通的截取方法,所以设计一个可导的截取函数M(·):
Figure BDA0001859276190000072
h(·)代表sigmod函数,公式如下:
Figure BDA0001859276190000073
当k足够大时,只有在特征区域内的点通过截取函数时M(·)的值才为1,在本方案中设置k=10。最终截取的目标区域Mi可以表示成以下形式:
Figure BDA0001859276190000074
其中,
Figure BDA0001859276190000075
运算表示元素点乘。
接下来仍使用双线性插值的办法放大目标区域得到下一个尺度的输入。如果让第一个尺度后的每个尺度都选取复数个先验矩形框,最终特征区域数量会成乘性增长,考虑到计算消耗本文仅在第二个尺度层提取i个矩形框。此外,新尺度中的tl不能小于上一尺度的1/3,防止特征区域过小不能有效包含特征部分。具体的,第一定位网络MF-APN输出示意图如图4所示。
S103,所述第一分类网根据所述第一目标像素个数确定所选择的第一目标池化层的池化结果并反馈至所述第一定位网络,以及得到所述第一个尺度层的第一预测标签。
本发明的一种实现方式中,所述第一分类网根据所述第一目标像素个数确定所选择的第一目标池化层的池化结果所采用的公式,具体表达包括:
Figure BDA0001859276190000076
其中,N是第一目标像素个数,P3第三池化层,P4第四池化层,P5是第五池化层,f根据MF-APN网络返回的目标区域像素个数N选择使用最佳的池化输出函数;
由于上述最后一个池化层是池化层P5,所以所述第一分类网络对所接收到的目标图像进行特征提取,并将最后一个池化层的输出结果送入所述第一定位网络的步骤,包括:所述第一分类网络对所接收到的目标图像进行特征提取,并将第五池化层的输出结果送入所述第一定位网络。
示例性的,如图3所示,当输入图像I时,图像首先会先经过分类网络提取特征。随后MF-APN网络计算出特征区域的大小N,VGG-SDP网络将根据N选择使用后三个池化层中最佳的池化结果代表图像I进行之后的类别判断。选择池化结果的准则如下:
Figure BDA0001859276190000081
Y(I)=F[f(I)]
其中,f根据MF-APN网络返回的目标区域像素个数N选择使用最佳的池化输出。F表示最后的全连接与softmax操作。当N过大时,应当选取最终P5的输出,能更好的描述大目标的特征,而当N较小时,应选择含有更多信息的P3。然后进行全连接操作后使用softmax函数得到第一个尺度层的预测标签Y(1)
S104,所述第二分类网络对所述第一数量个特征图中每一个特征图进行特征提取,并将最后一个池化层的输出结果送入所述第二定位网络。
如图2所示,第二分类网络为VGG-SDP(v2),第二定位网络为APN(m2),其中,第二分类网络为VGG-SDP(v2)与第一分类网络VGG-SDP(V1)的网络结构相同,如图3所示。
将第一个尺度层输出的第一数量个特征图,例如,为i个特征图,并将该i个特征图输入第二个尺度层的第二分类网络为VGG-SDP(v2)进行特征提取,由于第二个尺度层中的定位网络APN(m2)仅使用普通的APN网络,因此仍生成i个特征图,当包含第三个尺度层时,该i个特征图进入第三个尺度层。
S105,所述第二定位网络获得第二目标像素个数和第二目标位置,并将所得到的第二目标像素个数和第二目标位置发送至所述第二分类网。
该过程与步骤S102的处理方式相同,本发明实施例在此不做赘述。
S106,所述第二分类网根据所述第二目标像素个数确定所选择的第二目标池化层的池化结果并反馈至所述第二定位网络,以及得到所述第二个尺度层的第二预测标签。
该过程与步骤S103的处理方式相同,本发明实施例在此不做赘述。
本发明的一种实现方式中,所述得到所述第二个尺度层的第二预测标签的步骤,包括:将所述第一数量个特征图的预测概率融合成所述第二尺度层的第二预测标签。具体的,可以通过将i个特征图的预测概率融合成第二个尺度层的预测标签Y(2)
S107,根据所述第一预测标签和所述第二预测标签的融合确定目标类别标签,以及确定最终的目标定位。
本发明的一种实现方式中,所述根据所述第一预测标签和所述第二预测标签的融合确定目标类别标签的步骤,包括:将每所述第一预测标签和所述第二预测标签进行归一化,放入一个全连接层,然后使用softmax函数得到目标类别标签。
本发明的一种实现方式中,所述神经网络还包括第三尺度层;所述方法还包括:所述第二定位网络将其输出的第一数量个特征图作为所述第三尺度层的输入;所述根据所述第一预测标签和所述第二预测标签的融合确定目标类别,以及确定最终的目标定位的步骤,包括:根据所述第一预测标签、所述第二预测标签、第三预测标签的融合确定目标类别,以及确定最终的目标定位,其中,所述第三预测标签为所述第三尺度层的预测标签,最终将i个特征图的预测概率融合成第三个尺度层的预测标签Y(3)
示例性的,最终图像I的分类结果是由3个尺度的VGG-SDP网络的预测标签融合而成。首先将每个预测标签Y(s)进行归一化后,放入一个全连接层,然后使用softmax函数得到最终的预测分类标签。
如图2所示,还包括第三尺度层中的第三分类网络为VGG-SDP(v3),第三定位网络为APN(m3),其中,第二分类网络为VGG-SDP(v2)与第三分类网络VGG-SDP(V3)的网络结构相同,如图3所示。
示例性的,最终目标定位为第一个尺度层中的正方形特征框,目标类别为三个尺度层的预测标签的融合。
针对网络损失部分,如图2所示,采用本发明实施例改进后的RA-CNN整体流程图。图中pt代表真实类别的预测概率;Linner代表每一个尺度的分类损失,是真实类别标签Ytruth和预测类别标签Y(s)进行交叉熵运算结果;Lscale代表相邻尺度之间的损失。
改进后的RA-CNN网络损失函数仍分为尺度内分类损失和尺度间损失两个部分组成,因此网络损失定义如下:
Figure BDA0001859276190000101
其中s代表尺度个数,Linner代表每一个尺度的分类损失,公式如下:
Linner(Y(s),Ytruth)=-∑{Ytruth×log[Y(s)]+(1-Ytruth)×log[1-Y(s)]}(11)
Lscale代表相邻尺度之间的损失,其计算公式为:
Figure BDA0001859276190000102
通过取最大值的方法,要求网络更新当前尺度真实类别概率
Figure BDA0001859276190000103
要比上一尺度真实类别概率
Figure BDA0001859276190000104
更小的情况,促使网络在更精细的尺度上预测概率更高。只有当
Figure BDA0001859276190000105
时,尺度间损失才会更新。其中附加0.05是为了防止比较双方均为0而导致损失停滞不更新。
由于在第二、三尺度有i个特征矩形框,最终的预测类别标签Y(s)是这i个特征矩形框的预测概率的加权平均。对于Y(s)中第j个类的预测概率
Figure BDA0001859276190000106
其计算公式为:
Figure BDA0001859276190000107
M代表矩形框个数,ai代表第i个矩形框的权值且有
Figure BDA0001859276190000108
在本文中,设置i=3个矩形框,其比例系数ki分别为2,1,0.5,相应的权值ai为0.4,0.2,0.4。通过这样的设置,强化矩形框在预测中的影响,弱化正方形框的影响。
此外,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述神经网络中图像处理方法的步骤。
以及,提供了一种终端,包括处理器存储器,存储器存储有程序指令,处理器运行程序指令实现所述点神经网络中图像处理方法的步骤。
因此,应用本发明提供的实施例,该算法是利用了原RA-CNN网络中每一尺度层都会产生特征区域的特点,通过特征区域像素个数衡量目标区域的大小并融合SDP算法优化分类性能。根据像素个数,选择合适的卷积块输出进行分类判别。根据原有的正方形特征框,增加了复数个先验矩形框来描述特征区域,最后通过将所有的特征区域分别分类判定,对每个预测概率进行加权平均强化矩形框在最终判决的影响力。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (6)

1.一种神经网络中图像处理方法,其特征在于,所述神经网络至少包括第一尺度层和第二尺度层,所述第一尺度层至少包括:第一分类网络、第一定位网络,所述第二尺度层至少包括:第二分类网络、第二定位网络;所述方法包括步骤:
所述第一分类网络对所接收到的目标图像进行特征提取,并将最后一个池化层的输出结果送入所述第一定位网络;
所述第一定位网络得到第一目标像素个数和第一目标位置,并将所得到的第一目标像素个数和第一目标位置发送至所述第一分类网络 ,以及根据所述第一定位网络输出截取出第一数量个特征图作为所述第二尺度层的输入;
所述第一分类网络 根据所述第一目标像素个数确定所选择的第一目标池化层的池化结果并反馈至所述第一定位网络,以及得到所述第一个尺度层的第一预测标签;
所述第二分类网络对所述第一数量个特征图中每一个特征图进行特征提取,并将最后一个池化层的输出结果送入所述第二定位网络;
所述第二定位网络获得第二目标像素个数和第二目标位置,并将所得到的第二目标像素个数和第二目标位置发送至所述第二分类网络 ;
所述第二分类网络 根据所述第二目标像素个数确定所选择的第二目标池化层的池化结果并反馈至所述第二定位网络,以及得到所述第二个尺度层的第二预测标签;
根据所述第一预测标签和所述第二预测标签的融合确定目标类别标签,以及确定最终的目标定位;
第一定位网络输出截取出第一数量个特征图的步骤,包括:
获取目标区域的中心点坐标值、任意一个正方形框的长度的二分之一值、宽度的二分之一值,定义比例系数;
规定先验矩形框的面积等于输出的正方形框面积;
得到新的先验矩形框长度的二分之一值、宽度的二分之一值;
根据所得到的新的先验矩形框长度的二分之一值、宽度的二分之一值、目标区域的中心点坐标值,定义先验矩形框的左上角的坐标值和右下角的坐标值;
采用可导的截取函数进行截取,获得截取后的目标区域。
2.根据权利要求1所述的一种神经网络中图像处理方法,其特征在于,所述神经网络还包括第三尺度层;
所述方法还包括:
所述第二定位网络将其输出的第一数量个特征图作为所述第三尺度层的输入;
所述根据所述第一预测标签和所述第二预测标签的融合确定目标类别,以及确定最终的目标定位的步骤,包括:
根据所述第一预测标签、所述第二预测标签、第三预测标签的融合确定目标类别,以及确定最终的目标定位,其中,所述第三预测标签为所述第三尺度层的预测标签。
3.根据权利要求1所述的一种神经网络中图像处理方法,其特征在于,所述得到所述第一个尺度层的第一预测标签的步骤,包括:
采用全连接操作后使用softmax函数得到所述第一个尺度层的第一预测标签 。
4.根据权利要求1所述的一种神经网络中图像处理方法,其特征在于,所述得到所述第二个尺度层的第二预测标签的步骤,包括:
将所述第一数量个特征图的预测概率融合成所述第二尺度层的第二预测标签。
5.根据权利要求1所述的一种神经网络中图像处理方法,其特征在于,所述第一分类网络 根据所述第一目标像素个数确定所选择的第一目标池化层的池化结果所采用的公式,具体表达包括:
Figure FDA0003140247450000021
其中,N是第一目标像素个数,P3第三池化层,P4第四池化层,P5是第五池化层,f根据MF-APN网络返回的目标区域像素个数N选择使用最佳的池化输出函数,I为输入图像;
所述第一分类网络对所接收到的目标图像进行特征提取,并将最后一个池化层的输出结果送入所述第一定位网络的步骤,包括:
所述第一分类网络对所接收到的目标图像进行特征提取,并将第五池化层的输出结果送入所述第一定位网络。
6.根据权利要求1-5任一项所述的一种神经网络中图像处理方法,其特征在于,所述根据所述第一预测标签和所述第二预测标签的融合确定目标类别标签的步骤,包括:
将每所述第一预测标签和所述第二预测标签进行归一化,放入一个全连接层,然后使用softmax函数得到目标类别标签。
CN201811328273.3A 2018-11-09 2018-11-09 一种神经网络中图像处理方法 Active CN109523015B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811328273.3A CN109523015B (zh) 2018-11-09 2018-11-09 一种神经网络中图像处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811328273.3A CN109523015B (zh) 2018-11-09 2018-11-09 一种神经网络中图像处理方法

Publications (2)

Publication Number Publication Date
CN109523015A CN109523015A (zh) 2019-03-26
CN109523015B true CN109523015B (zh) 2021-10-22

Family

ID=65773475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811328273.3A Active CN109523015B (zh) 2018-11-09 2018-11-09 一种神经网络中图像处理方法

Country Status (1)

Country Link
CN (1) CN109523015B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898622B (zh) * 2019-05-05 2022-07-15 阿里巴巴集团控股有限公司 信息处理、信息显示与模型训练方法、系统及设备
CN110210544B (zh) * 2019-05-24 2021-11-23 上海联影智能医疗科技有限公司 图像分类方法、计算机设备和存储介质
CN110610210B (zh) * 2019-09-18 2022-03-25 电子科技大学 一种多目标检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007120585A2 (en) * 2006-04-12 2007-10-25 Penthera Technologies, Inc. A system and method for delivering content based on demand to a client
CN106250812A (zh) * 2016-07-15 2016-12-21 汤平 一种基于快速r‑cnn深度神经网络的车型识别方法
CN106683091A (zh) * 2017-01-06 2017-05-17 北京理工大学 一种基于深度卷积神经网络的目标分类及姿态检测方法
CN108416394A (zh) * 2018-03-22 2018-08-17 河南工业大学 基于卷积神经网络的多目标检测模型构建方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
CN108564097B (zh) * 2017-12-05 2020-09-22 华南理工大学 一种基于深度卷积神经网络的多尺度目标检测方法
CN108319949A (zh) * 2018-01-26 2018-07-24 中国电子科技集团公司第十五研究所 一种高分辨率遥感图像中多朝向舰船目标检测与识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007120585A2 (en) * 2006-04-12 2007-10-25 Penthera Technologies, Inc. A system and method for delivering content based on demand to a client
CN106250812A (zh) * 2016-07-15 2016-12-21 汤平 一种基于快速r‑cnn深度神经网络的车型识别方法
CN106683091A (zh) * 2017-01-06 2017-05-17 北京理工大学 一种基于深度卷积神经网络的目标分类及姿态检测方法
CN108416394A (zh) * 2018-03-22 2018-08-17 河南工业大学 基于卷积神经网络的多目标检测模型构建方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A modified faster R-CNN based on CFAR algorithm for SAR ship detection;Miao Kang 等;《2017 International Workshop on Remote Sensing with Intelligent Processing (RSIP)》;20170626;第1-4页 *
Exploit All the Layers: Fast and Accurate CNN Object Detector with Scale Dependent Pooling and Cascaded Rejection Classifiers;Fan Yang 等;《2016 IEEE Conference on Computer Vision and Pattern Recognition》;20161212;第2129-2137页 *
Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition;Jianlong Fu 等;《2017 IEEE Conference on Computer Vision and Pattern Recognition》;20171109;第4476-4484页 *
基于目标检测及高密度轨迹的动作识别;王新宇 等;《复旦学报(自然科学版)》;20160831;第55卷(第4期);第442-451页 *

Also Published As

Publication number Publication date
CN109523015A (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN110555481B (zh) 一种人像风格识别方法、装置和计算机可读存储介质
CN111178208B (zh) 基于深度学习的行人检测方法、装置及介质
CN112084869B (zh) 一种基于紧致四边形表示的建筑物目标检测方法
CN109522908A (zh) 基于区域标签融合的图像显著性检测方法
CN110619369A (zh) 基于特征金字塔与全局平均池化的细粒度图像分类方法
CN111914727B (zh) 基于平衡采样与非线性特征融合的小目标人体检测方法
CN108710913A (zh) 一种基于深度学习的开关柜图像开关状态自动识别方法
CN109523015B (zh) 一种神经网络中图像处理方法
CN112085072B (zh) 基于时空特征信息的草图检索三维模型的跨模态检索方法
CN106778635A (zh) 一种基于视觉显著性的人体区域检测方法
CN114663502A (zh) 物体姿态估计、图像处理方法及相关设备
CN114694038A (zh) 基于深度学习的高分辨率遥感影像分类方法及系统
CN109165658B (zh) 一种基于Faster-RCNN的强负样本水下目标检测方法
CN108305260A (zh) 一种图像中角点的检测方法、装置及设备
CN112733614A (zh) 一种带有相似尺寸强化识别的害虫图像检测方法
CN112784869A (zh) 一种基于注意力感知与对抗学习的细粒度图像识别方法
CN111310821A (zh) 多视图特征融合方法、系统、计算机设备及存储介质
CN111292377A (zh) 目标检测方法、装置、计算机设备和存储介质
CN113159215A (zh) 一种基于Faster Rcnn的小目标检测识别方法
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
Huo et al. Semisupervised learning based on a novel iterative optimization model for saliency detection
CN114067128A (zh) 一种基于语义特征的slam回环检测方法
CN112396701A (zh) 卫星图像的处理方法、装置、电子设备和计算机存储介质
Laupheimer et al. The importance of radiometric feature quality for semantic mesh segmentation
CN115393635A (zh) 一种基于超像素分割以及数据增强的红外小目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant