CN107145889A - 基于具有RoI池化的双CNN网络的目标识别方法 - Google Patents

基于具有RoI池化的双CNN网络的目标识别方法 Download PDF

Info

Publication number
CN107145889A
CN107145889A CN201710244790.1A CN201710244790A CN107145889A CN 107145889 A CN107145889 A CN 107145889A CN 201710244790 A CN201710244790 A CN 201710244790A CN 107145889 A CN107145889 A CN 107145889A
Authority
CN
China
Prior art keywords
window
target
roi
target area
cnn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710244790.1A
Other languages
English (en)
Other versions
CN107145889B (zh
Inventor
江天
彭元喜
彭学锋
舒雷志
张松松
宋明辉
周士杰
肖震
赵健宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201710244790.1A priority Critical patent/CN107145889B/zh
Publication of CN107145889A publication Critical patent/CN107145889A/zh
Application granted granted Critical
Publication of CN107145889B publication Critical patent/CN107145889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于具有RoI池化的双CNN网络的目标识别方法,步骤包括:S1.将待识别图像通过第一级CNN获取目标区域窗口,以及通过具有RoI池化层的第二级CNN获取待识别图像的全局特征图;S2.将获取到的全局特征图、目标区域窗口输入第二级CNN的RoI池化层中,提取出目标区域窗口指定维数的特征向量;S3.将步骤S2提取到的特征向量训练分类器,根据训练得到的分类器检测待识别图像中的目标,输出识别结果。本发明具有实现方法简单、兼具目标识别效率高以及识别精度高,且易于调节网络参数等优点。

Description

基于具有RoI池化的双CNN网络的目标识别方法
技术领域
本发明涉及数字图像处理技术领域,尤其涉及一种基于具有RoI(Region ofInterest,兴趣区)池化的双CNN(Convolution Neural Network,卷积神经网络)网络的目标识别方法。
背景技术
无人机、机器人等各种智能无人系统的应用越来越广泛,对视觉系统的目标检测与识别的速率和准确率的要求也随之越来越高。常用的目标识别方法有基于模板匹配、基于语法结构分析、基于神经网络以及单纯的基于传统统计方法等,图像目标识别中较为常用的则如基于卷积神经网络CNN的目标识别方法。基于CNN的目标识别方法是利用卷积神经网络的多层卷积层的卷积作用来获得能够代表数字图像的特征矩阵,然后再将获得的特征矩阵输入分类器以实现分类、识别等。
目前基于CNN的目标识别方法,通常都是先将原图像划分成若干个候选框,然后利用常规的CNN对候选框进行逐个提取特征,再对提取的特征进行分类,进行目标检测以便于目标的识别,主要包括以下几种方法,且均存在一定的缺陷;
(1)RCNN(Rich feature hierarchies based CNN)方法,是采用selective-search技术获取一系列窗口(通常为2000多个),包括目标区域和背景区域,这些窗口会覆盖输入原始图像,对每一个窗口先进行缩放处理以满足一个固定大小的尺寸,然后利用CNN进行特征提取,再利用分类器(如SVM/softmax等)进行分类、识别;但是RCNN算法由于需要逐个处理多达2000多个的区域窗口,所需处理的区域窗口数据众多,使得所需消耗的时间长、识别速度慢,并且由于全连接层需要固定大小的维度矩阵,而RCNN结构需要在输入网络之前对图像进行剪切或缩放处理,造成图像信息损失,使得无论在识别准确度还是在识别速度上都比较差;
(2)spp-net(Spatial Pyramid Pooling based CNN)方法,是针对传统的CNN用于目标检测、识别过程中都必须保证输入的图像大小维度相同这一缺陷所提出,通过引入spp池化避免图像剪切、缩放的过程。由于传统方法都是通过剪切或者缩放的方式将输入图像转换成固定大小的图像然后再进行后续的处理,这一处理过程会损失图像信息,造成识别准确度下降,通过spp池化避免了图像剪切、缩放的过程,从而保证了识别的准确率。但是SPP-NET结构是将目标和背景区域窗口混在一起处理,因而所需消耗时间仍然较长,而且SPP的金字塔结构也使得不便于调节参数;
(3)fast-RCNN方法,是在RCNN和SPP-net的基础上进行的改进,采用单层池化即RoI层,代替多层金字塔池化,使得可以同时对RoI池化层两边的处理层(卷积层、全连接层)进行调参,达到优化网络的作用。但是Fast-RCNN结构仅是对SPP-NET的spp结构进行改进,但是未区分目标区域和背景区域,因而所需消耗时间仍然较长;
(4)double-CNN方法,是采用两级CNN进行图像目标识别,其中第一级CNN只有5层卷积层,用于获得目标所在的区域窗口,排除背景区域减少窗口的总共数目,然后对这些目标区域窗口进行缩放,达到一个固定大小的尺寸,再逐个利用第二级CNN提取特征,最后利用分类器进行分类、识别;double-CNN结构虽然将目标区域和背景区域的窗口分开,只保留目标区域的窗口,可以减少处理时间,但是在提取特征时,是逐个窗口进行卷积提取特征,而且为了保证全连接值层的输入具有固定的维度,还需要对每个目标区域窗口进行一定的缩放处理,因此识别速度、准确率仍然不高。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种实现方法简单、兼具目标识别效率高以及识别精度高,且易于调节网络参数的基于具有RoI池化的双CNN网络的目标识别方法。
为解决上述技术问题,本发明提出的技术方案为:
一种基于具有RoI池化的双CNN网络的目标识别方法,步骤包括:
S1.将待识别图像通过第一级CNN网络获取目标区域窗口,以及通过具有RoI池化层的第二级CNN网络获取待识别图像的全局特征图;
S2.将获取到的所述全局特征图、目标区域窗口输入所述第二级CNN网络的RoI池化层中进行池化处理,提取出所述目标区域窗口指定维数的特征向量;
S3.将所述步骤S2提取到的特征向量训练分类器,根据训练得到的分类器检测待识别图像中的目标,输出识别结果。
作为本发明的进一步改进,所述步骤S1中获取目标区域窗口的具体步骤为:
S11.将待识别图像通过所述第一级CNN网络的多层卷积层进行卷积处理,分别获得包含有目标区域窗口、背景区域窗口的多个区域窗口;
S12.区分获得的多个所述区域窗口中目标区域窗口、背景区域窗口后,去除所述背景区域窗口、保留指定个数的所述目标区域窗口,输出对应各个所述目标区域窗口的RoI元组。
作为本发明的进一步改进:所述步骤S12中具体分别对各个所述区域窗口的边界计算IoU值,根据计算得到的IoU值区分目标区域窗口、背景区域窗口。
作为本发明的进一步改进:所述步骤S11后、步骤S12前还包括确定各个所述区域窗口的边界步骤。
作为本发明的进一步改进,所述步骤S1中全局特征图的具体获取步骤为:将待识别图像通过所述第二级CNN网络的多层卷积层进行卷积处理,输出多个三维全局特征图矩阵,获取得到待识别图像的全局特征图。
作为本发明的进一步改进,所述步骤S2中RoI池化层中进行池化处理的具体步骤为:
S21.获取一个目标区域窗口作为当前目标区域窗口,使用当前目标区域窗口所对应的RoI元组定位当前目标区域在所述全局特征图中的位置;
S22.在所述全局特征图中截取当前目标区域的特征矩阵,并使用RoI池化层将所述特征矩阵划分为指定大小的网格,根据每个所述网格中的最大值作为特征值,得到对应当前目标区域窗口的特征值矩阵;
S23.重复执行步骤S21、S23,得到对应每一个所述目标区域窗口的特征值矩阵。
作为本发明的进一步改进:所述步骤S2还包括将各个所述目标区域窗口的特征值矩阵输入全连接层进行非线性组合处理步骤,得到所述目标区域窗口所需的特征向量。
作为本发明的进一步改进:所述进行全连接层的非线性组合处理时,具体采用SVD(Singular Value Decomposition,奇异值分解)权值分解方法对原始权值矩阵进行分解。
作为本发明的进一步改进:所述步骤S3中具体将所述步骤S2提取到的特征向量训练Softmax分类器,根据训练得到的所述Softmax分类器检测待识别图像中的目标。
作为本发明的进一步改进:所述步骤S3后还包括窗口调整步骤,所述窗口调整步骤对窗口大小进行调整,返回执行步骤S2以重新训练分类器,直至达到预设识别效果。
与现有技术相比,本发明的优点在于:
1)本发明基于具有RoI池化的双CNN网络的目标识别方法,综合考虑目标识别的准确率及识别速度,采用两级CNN网络处理实现双CNN网络架构的图像目标识别,通过第一级CNN网络排除背景区域窗口获取到目标区域窗口信息,对目标区域和背景区域进行了区分处理,同时结合RoI池化技术,通过具有RoI池化层的第二级CNN网络获取全局特征图,并将全局特征图和目标区域窗口一起输入到RoI池化层进行池化处理,能够大大减少所需数据处理量,同时提高识别精度,从而能够同时满足目标识别速度高以及目标识别精度高的需求,尤其适用于实时性要求较高的应用场合中,且基于双CNN网络结构便于实现参数调节;
2)本发明基于具有RoI池化的双CNN网络的目标识别方法,通过第一级CNN网络排除背景区域窗口得到目标区域窗口,避免了如传统方法中需要对背景区域进行卷积处理,大大减少了数据处理量及所需处理时间;通过具有RoI池化层的第二级CNN网络将全局特征图和目标区域窗口进行池化处理,能够获得固定尺寸的目标窗口特征,使得仅需对整幅图像做一次卷积操作,无需对目标区域窗口逐个进行卷积提取特征,相比于传统方法中耗时较大的对大量目标区域窗口逐个进行卷积提取特征,能够大大减少识别计算量、提高识别效率,同时避免了如传统方法中需要剪切、缩放处理而导致图像信息损失,有效提高了识别精度;
3)本发明基于具有RoI池化的双CNN网络的目标识别方法,进一步将全连接层的权值矩阵采用SVD分解技术,可以减少全连接层的参数,进而减少参数训练学习的时间,从而进一步减少识别所需的时间、提高识别效率。
附图说明
图1是本实施例基于具有RoI池化的双CNN网络的目标识别方法的实现原理示意图。
图2是本实施例双CNN网络的目标识别方法的具体实现流程示意图。
图3本发明具体实施例中双CNN网络的目标识别方法的具体实现流程示意图。
图4是本实施例中所采用的CNN网络中卷积层处理的实现原理示意图。
图5是本实施例RoI池化层进行池化处理的实现原理示意图。
图6是本实施例全连接层进行非线性组合处理的实现原理示意图。
具体实施方式
以下结合说明书附图和具体优选的实施例对本发明作进一步描述,但并不因此而限制本发明的保护范围。
如图1、2所示,本实施例基于具有RoI池化的双CNN网络的目标识别方法,步骤包括:
S1.图像数据获取:将待识别图像通过第一级CNN网络获取目标区域窗口,以及通过具有RoI池化层的第二级CNN网络获取待识别图像的全局特征图;
S2.RoI池化:将获取到的全局特征图、目标区域窗口输入第二级CNN网络的RoI池化层中进行池化处理,提取出目标区域窗口指定维数的特征向量;
S3.目标检测识别:将步骤S2提取到的特征向量训练分类器,根据训练得到的分类器检测待识别图像中的目标,输出识别结果。
本实施例综合考虑目标识别的准确率及识别速度,采用两级CNN网络处理实现双CNN网络架构的图像目标识别,通过第一级CNN网络排除背景区域窗口获取到目标区域窗口信息,对目标区域和背景区域进行了区分处理,同时结合RoI池化技术,通过具有RoI池化层的第二级CNN网络获取全局特征图,并将全局特征图和目标区域窗口一起输入到RoI池化层进行池化处理,能够大大减少所需数据处理量,同时提高识别精度,从而能够同时满足目标识别速度高以及目标识别精度高的需求,尤其适用于实时性要求较高的应用场合中,且基于双CNN网络结构便于实现参数调节。
本实施例中,步骤S1中获取目标区域窗口的具体步骤为:
S11.将待识别图像通过第一级CNN网络的多层卷积层进行卷积处理,分别获得包含有目标区域窗口、背景区域窗口的多个区域窗口;
S12.区分获得的多个区域窗口中目标区域窗口、背景区域窗口后,去除背景区域窗口、保留指定个数的目标区域窗口,输出对应各个目标区域窗口的RoI元组。
本实施例中,步骤S11后、步骤S12前还包括确定各个区域窗口的边界步骤,即给每个目标区域窗口、背景区域窗口加一个明确的边界。本实施例具体采用轮廓估计方法(contour approximation method)来确定各个区域窗口的边界。
本实施例中,步骤S12中具体分别对各个区域窗口的边界计算IoU(Intersectionof Unit,交叠)值,根据计算得到的IoU值区分目标区域窗口、背景区域窗口。本实施例具体将各个区域窗口的边界计算得到的IoU值与预设阈值进行比较,以确定是背景区域窗口或是目标区域窗口,并确定是否保留该窗口,最后保留得到的即为目标区域窗口核心信息。
如图3所示,本发明具体实施例中步骤S1中获取目标区域窗口的详细步骤为:
首先,将输入的大小为A*A*3的待识别图像经过第一级CNN的卷积处理后,获得包含有目标区域和背景区域的窗口特征信息,如图4所示,其中每一层卷积层处理按如下公式:
其中,X为输入的图像,H为卷积核。
然后,将五层卷积层输出的窗口特征信息经过轮廓估计方法处理后给每个目标区域窗口、背景区域窗口加一个明确的边界,本实施例轮廓估计方法具体通过直接调用opencv库(Open Source Computer Vision Library,开源计算机视觉库)中的cvFindContours函数实现,也可以采用其他方式实现;
再对每个目标区域窗口、背景区域窗口的边界计算IoU值,并判断IoU值跟阈值的大小,确定是否是目标区域并确定是否保留,以去除所有的背景区域目标,同时保留R个大小不等的目标区域目标窗口,输出R个RoI元组,从而可以获得一系列排除背景区域后锁定所有目标的具有明显边界的区域窗口核心信息RoI元组;每个RoI元组具体包含(n,r,c,h,w)等信息,其中n表示该窗口的序列号,(r,c)表示该窗口左上角坐标,(h,w)表示该窗口的高和宽。
本实施例采用上述步骤,利用CNN的局部感受视野特性,通过第一级CNN网络排除背景区域窗口得到目标区域窗口,避免了如传统方法中需要对背景区域进行卷积处理,大大减少了数据处理量及所需处理时间。
本实施例中,步骤S1中全局特征图的具体获取步骤为:将待识别图像通过第二级CNN网络的多层卷积层进行卷积处理,输出多个三维全局特征图矩阵,获取得到待识别图像的全局特征图。本实施例具体通过第二级CNN网络的5层卷积层的卷积处理,从输入的待识别图像中逐层抽取出维度较低且能够代表图像的全局特征图(feature map),获得N个H*W*C大小的三维立体的全局特征图(feature maps)矩阵,每一层卷积层处理具体如式(1)所示;获取到全局特征图(feature maps)、目标窗口信息RoI元组后,将获取的全局特征图(feature maps)矩阵、目标窗口信息RoI元组一起输入到RoI池化层进行池化处理,即可得到目标区域窗口固定长度的特征向量。
本实施例中,步骤S2中RoI池化层中进行池化处理的具体步骤为:
S21.获取一个目标区域窗口作为当前目标区域窗口,使用当前目标区域窗口所对应的RoI元组定位当前目标区域在全局特征图中的位置;
S22.在全局特征图中截取当前目标区域的特征矩阵,并使用RoI池化层将特征矩阵划分为指定大小的网格,根据每个网格中的最大值作为特征值,得到对应当前目标区域窗口的特征值矩阵;
S23.重复执行步骤S21、S23,得到对应每一个目标区域窗口的特征值矩阵。
本实施例RoI池化处理中,具体首先利用步骤S1所获得的RoI元组定位目标区域在全局特征图中的位置,然后在特征图中截取该目标区域部分的特征矩阵,其中对于任意大小的特征矩阵,RoI池化层都将其划分为H1*W1大小的网格,利用取池化网格中最大的值maxpooling方法获取每个小网格中的最大值以代表对应网格的特征值,每个小网格单元的大小具体是(h/H1)*(w/W1),即可获取H1*W1个网格小单元,每个网格大小可根据RoI的大小调整,网格数目为固定;经过上述RoI池化层的处理之后,输入的每一个RoI窗口池化成一个固定大小的矩阵H1*W1*C,从而能够满足全连接层所需的固定维度的输入。
如图5所示,本实施例将第二级CNN的五层卷积层处理原始输入图像,获得N个H*W*C大小的三维立体的全局特征图(feature maps)矩阵,N表示卷积核数目;将获取的全局特征图(feature maps)矩阵、目标窗口信息RoI元组(R个RoI元组,R>>N,每个RoI是一个元组(n,r,c,h,w))一起输入到RoI池化层进行池化处理,经过RoI池化层的处理之后,每一个RoI窗口池化成一个固定大小的矩阵H1*W1*C,该特征矩阵代表了目标的信息,由最终得到的特征矩阵即可进行后续的目标检测、识别。
本实施例采用上述步骤,通过具有RoI池化层的第二级CNN网络将全局特征图和目标区域窗口进行池化处理,能够获得固定尺寸的目标窗口特征,使得仅需对整幅图像做一次卷积操作,无需对目标区域窗口逐个进行卷积提取特征,相比于传统方法中耗时较大的对大量目标区域窗口逐个进行卷积提取特征,能够大大减少识别计算量、提高识别效率,同时避免了如传统方法中需要剪切、缩放处理而导致图像信息损失,有效提高了识别精度。
本实施例中,步骤S2还包括将各个目标区域窗口的特征值矩阵进行全连接层的非线性组合处理步骤(FC处理),得到目标区域窗口所需的特征向量。通过在RoI池化层处理后的全连接层,对固定大小的特征矩阵进行非线性组合,使得可获得便于后续分类器所需的特征向量,从而便于对目标图像特征进行分类、识别处理。
本实施例中,进行全连接层的非线性组合处理时,具体采用SVD权值分解方法对原始权值矩阵进行分解,可以减少全连接层的参数,进而减少参数训练学习的时间,从而进一步减少识别所需的时间、提高识别效率,结合RoI池化技术以及SVD权值分解技术,能够最大限度的减少整个图像目标检测识别过程所需消耗的时间。
如图6所示,本实施例在全连接层中采用SVD权值分解技术时,具体按照式(2)将原始的权值矩阵进行分解;
W≈U∑tVT (2)
其中W是原始fc层的权值矩阵,经过矩阵分解得到公式右边的三个矩阵U、VT以及∑t,其中U是u*t大小的矩阵,∑t是t*t大小的单位矩阵,VT是t*v大小的矩阵。
本实施例进一步通过调整参数t的值使得u,v远大于t,能够使得需要训练学习的fc参数大大减少。
本实施例中,步骤S3中具体将步骤S2提取到的特征向量训练Softmax分类器,根据训练得到的Softmax分类器检测待识别图像中的目标,实现最终的分类、识别。Softmax回归模型是logistic回归模型对多分类问题的推广得到。
本实施例Softmax分类器具体表示为:
其中,i=0,1,2,3..K-1,K表示数据集的K个类,ai是由输入的特征向量计算得到。
Softmax分类器的结果相当于输入图像被分到每个标签的概率分布,且为单调递增函数,即输入值越大,则输出也越大,对应输入图像属于该标签的概率也越大,因而识别的效果就越明显。如图3所示,当对输入图像经过上述具有RoI池化的双CNN网络处理后,得到图像目标归属于各类的概率P,最终通过概率的大小确定识别结果,其中由Pmax对应的类为识别类。
本实施例中,步骤S3后还包括窗口调整步骤,窗口调整步骤对窗口大小进行调整,返回执行步骤S2以重新训练分类器,直至达到预设识别效果。若分类器的分类损失函数值较大,分类效果不好,本实施例进一步根据目标检测效果的反馈调整窗口边界大小,再重新进行分类器训练,直到分类效果明显为止,具体可采用回归方法对窗口边界进行不断微调实现。
本实施例进一步采用回归调参模块对网络结构进行回归调参,返回重新进行分类器训练,以进一步提高识别精度、识别效果。
上述只是本发明的较佳实施例,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。因此,凡是未脱离本发明技术方案的内容,依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应落在本发明技术方案保护的范围内。

Claims (10)

1.一种基于具有RoI池化的双CNN网络的目标识别方法,其特征在于,步骤包括:
S1.将待识别图像通过第一级CNN网络获取目标区域窗口,以及通过具有RoI池化层的第二级CNN网络获取待识别图像的全局特征图;
S2.将获取到的所述全局特征图、目标区域窗口输入所述第二级CNN网络的RoI池化层中进行池化处理,提取出所述目标区域窗口指定维数的特征向量;
S3.将所述步骤S2提取到的特征向量训练分类器,根据训练得到的分类器检测待识别图像中的目标,输出识别结果。
2.根据权利要求1所述的基于具有RoI池化的双CNN网络的目标识别方法,其特征在于,所述步骤S1中获取目标区域窗口的具体步骤为:
S11.将待识别图像通过所述第一级CNN网络的多层卷积层进行卷积处理,分别获得包含有目标区域窗口、背景区域窗口的多个区域窗口;
S12.区分获得的多个所述区域窗口中目标区域窗口、背景区域窗口后,去除所述背景区域窗口、保留指定个数的所述目标区域窗口,输出对应各个所述目标区域窗口的RoI元组。
3.根据权利要求2所述的基于具有RoI池化的双CNN网络的目标识别方法,其特征在于:所述步骤S12中具体分别对各个所述区域窗口的边界计算IoU值,根据计算得到的IoU值区分目标区域窗口、背景区域窗口。
4.根据权利要求3所述的基于具有RoI池化的双CNN网络的目标识别方法,其特征在于:所述步骤S11后、步骤S12前还包括确定各个所述区域窗口的边界步骤。
5.根据权利要求1~4中任意一项所述的基于具有RoI池化的双CNN网络的目标识别方法,其特征在于,所述步骤S1中全局特征图的具体获取步骤为:将待识别图像通过所述第二级CNN网络的多层卷积层进行卷积处理,输出多个三维全局特征图矩阵,获取得到待识别图像的全局特征图。
6.根据权利要求1~4中任意一项所述的基于具有RoI池化的双CNN网络的目标识别方法,其特征在于,所述步骤S2中RoI池化层中进行池化处理的具体步骤为:
S21.获取一个目标区域窗口作为当前目标区域窗口,使用当前目标区域窗口所对应的RoI元组定位当前目标区域在所述全局特征图中的位置;
S22.在所述全局特征图中截取当前目标区域的特征矩阵,并使用RoI池化层将所述特征矩阵划分为指定大小的网格,根据每个所述网格中的最大值作为特征值,得到对应当前目标区域窗口的特征值矩阵;
S23.重复执行步骤S21、S23,得到对应每一个所述目标区域窗口的特征值矩阵。
7.根据权利要求6所述的基于具有RoI池化的双CNN网络的目标识别方法,其特征在于:所述步骤S2还包括将各个所述目标区域窗口的特征值矩阵输入全连接层进行非线性组合处理步骤,得到所述目标区域窗口所需的特征向量。
8.根据权利要求7所述的基于具有RoI池化的双CNN网络的目标识别方法,其特征在于:所述进行全连接层的非线性组合处理时,具体采用SVD权值分解方法对原始权值矩阵进行分解。
9.根据权利要求1~4中任意一项所述的基于具有RoI池化的双CNN网络的目标识别方法,其特征在于:所述步骤S3中具体将所述步骤S2提取到的特征向量训练Softmax分类器,根据训练得到的所述Softmax分类器检测待识别图像中的目标。
10.根据权利要求9所述的基于具有RoI池化的双CNN网络的目标识别方法,其特征在于,所述步骤S3后还包括窗口调整步骤,所述窗口调整步骤对窗口大小进行调整,返回执行步骤S2以重新训练分类器,直至达到预设识别效果。
CN201710244790.1A 2017-04-14 2017-04-14 基于具有RoI池化的双CNN网络的目标识别方法 Active CN107145889B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710244790.1A CN107145889B (zh) 2017-04-14 2017-04-14 基于具有RoI池化的双CNN网络的目标识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710244790.1A CN107145889B (zh) 2017-04-14 2017-04-14 基于具有RoI池化的双CNN网络的目标识别方法

Publications (2)

Publication Number Publication Date
CN107145889A true CN107145889A (zh) 2017-09-08
CN107145889B CN107145889B (zh) 2020-02-18

Family

ID=59774746

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710244790.1A Active CN107145889B (zh) 2017-04-14 2017-04-14 基于具有RoI池化的双CNN网络的目标识别方法

Country Status (1)

Country Link
CN (1) CN107145889B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107622267A (zh) * 2017-10-16 2018-01-23 天津师范大学 一种基于嵌入双边卷积激活的场景文字识别方法
CN108564024A (zh) * 2018-04-10 2018-09-21 四川超影科技有限公司 应用于电厂环境的开关识别方法
CN108960114A (zh) * 2018-06-27 2018-12-07 腾讯科技(深圳)有限公司 人体识别方法及装置、计算机可读存储介质及电子设备
CN108986127A (zh) * 2018-06-27 2018-12-11 北京市商汤科技开发有限公司 图像分割神经网络的训练方法及图像分割方法、装置
CN109829398A (zh) * 2019-01-16 2019-05-31 北京航空航天大学 一种基于三维卷积网络的视频中的目标检测方法
CN109886279A (zh) * 2019-01-24 2019-06-14 平安科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN110116067A (zh) * 2019-05-26 2019-08-13 天津大学 一种车轴自动喷涂装置和方法
CN110245664A (zh) * 2019-06-26 2019-09-17 深兰科技(上海)有限公司 车牌识别方法
CN110363803A (zh) * 2019-07-18 2019-10-22 深圳市思锐视科技有限公司 一种结合深度图切片和神经网络的目标检测方法和系统
CN110503046A (zh) * 2019-08-26 2019-11-26 华北电力大学(保定) 一种基于图像识别技术的铅封识别法
CN110705544A (zh) * 2019-09-05 2020-01-17 中国民航大学 基于Faster-RCNN的自适应快速目标检测方法
CN111079730A (zh) * 2019-11-20 2020-04-28 北京云聚智慧科技有限公司 一种在界面图中确定样图所在区域的方法和电子设备
CN111127510A (zh) * 2018-11-01 2020-05-08 杭州海康威视数字技术股份有限公司 一种目标对象位置的预测方法及装置
CN111476343A (zh) * 2019-01-23 2020-07-31 斯特拉德视觉公司 利用掩蔽参数的方法和装置
CN111598084A (zh) * 2020-05-11 2020-08-28 北京阿丘机器人科技有限公司 缺陷分割网络训练方法、装置、设备及可读存储介质
CN112330743A (zh) * 2020-11-06 2021-02-05 安徽清新互联信息科技有限公司 一种基于深度学习的高空抛物检测方法
CN113378808A (zh) * 2021-08-16 2021-09-10 北京赛搏体育科技股份有限公司 人物图像识别方法、装置、电子设备和计算机可读介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016118883A1 (en) * 2015-01-23 2016-07-28 Washington University Detection of rare sequence variants, methods and compositions therefor
CN106056082A (zh) * 2016-05-31 2016-10-26 杭州电子科技大学 一种基于稀疏低秩编码的视频动作识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016118883A1 (en) * 2015-01-23 2016-07-28 Washington University Detection of rare sequence variants, methods and compositions therefor
CN106056082A (zh) * 2016-05-31 2016-10-26 杭州电子科技大学 一种基于稀疏低秩编码的视频动作识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨名等: "甚高速区域卷积神经网络的船舶视频目标识别算法", 《2016年全国通信软件学术会议程序册与交流文集》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107622267B (zh) * 2017-10-16 2020-07-28 天津师范大学 一种基于嵌入双边卷积激活的场景文字识别方法
CN107622267A (zh) * 2017-10-16 2018-01-23 天津师范大学 一种基于嵌入双边卷积激活的场景文字识别方法
CN108564024A (zh) * 2018-04-10 2018-09-21 四川超影科技有限公司 应用于电厂环境的开关识别方法
CN108960114A (zh) * 2018-06-27 2018-12-07 腾讯科技(深圳)有限公司 人体识别方法及装置、计算机可读存储介质及电子设备
CN108986127A (zh) * 2018-06-27 2018-12-11 北京市商汤科技开发有限公司 图像分割神经网络的训练方法及图像分割方法、装置
CN111127510B (zh) * 2018-11-01 2023-10-27 杭州海康威视数字技术股份有限公司 一种目标对象位置的预测方法及装置
CN111127510A (zh) * 2018-11-01 2020-05-08 杭州海康威视数字技术股份有限公司 一种目标对象位置的预测方法及装置
CN109829398B (zh) * 2019-01-16 2020-03-31 北京航空航天大学 一种基于三维卷积网络的视频中的目标检测方法
CN109829398A (zh) * 2019-01-16 2019-05-31 北京航空航天大学 一种基于三维卷积网络的视频中的目标检测方法
CN111476343A (zh) * 2019-01-23 2020-07-31 斯特拉德视觉公司 利用掩蔽参数的方法和装置
WO2020151153A1 (zh) * 2019-01-24 2020-07-30 平安科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN109886279A (zh) * 2019-01-24 2019-06-14 平安科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN109886279B (zh) * 2019-01-24 2023-09-29 平安科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN110116067A (zh) * 2019-05-26 2019-08-13 天津大学 一种车轴自动喷涂装置和方法
CN110245664A (zh) * 2019-06-26 2019-09-17 深兰科技(上海)有限公司 车牌识别方法
CN110363803A (zh) * 2019-07-18 2019-10-22 深圳市思锐视科技有限公司 一种结合深度图切片和神经网络的目标检测方法和系统
CN110363803B (zh) * 2019-07-18 2021-08-27 光沦科技(深圳)有限公司 一种结合深度图切片和神经网络的目标检测方法和系统
CN110503046A (zh) * 2019-08-26 2019-11-26 华北电力大学(保定) 一种基于图像识别技术的铅封识别法
CN110705544A (zh) * 2019-09-05 2020-01-17 中国民航大学 基于Faster-RCNN的自适应快速目标检测方法
CN110705544B (zh) * 2019-09-05 2023-04-07 中国民航大学 基于Faster-RCNN的自适应快速目标检测方法
CN111079730A (zh) * 2019-11-20 2020-04-28 北京云聚智慧科技有限公司 一种在界面图中确定样图所在区域的方法和电子设备
CN111079730B (zh) * 2019-11-20 2023-12-22 北京云聚智慧科技有限公司 一种在界面图中确定样图所在区域的方法和电子设备
CN111598084B (zh) * 2020-05-11 2023-06-02 北京阿丘机器人科技有限公司 缺陷分割网络训练方法、装置、设备及可读存储介质
CN111598084A (zh) * 2020-05-11 2020-08-28 北京阿丘机器人科技有限公司 缺陷分割网络训练方法、装置、设备及可读存储介质
CN112330743B (zh) * 2020-11-06 2023-03-10 安徽清新互联信息科技有限公司 一种基于深度学习的高空抛物检测方法
CN112330743A (zh) * 2020-11-06 2021-02-05 安徽清新互联信息科技有限公司 一种基于深度学习的高空抛物检测方法
CN113378808A (zh) * 2021-08-16 2021-09-10 北京赛搏体育科技股份有限公司 人物图像识别方法、装置、电子设备和计算机可读介质

Also Published As

Publication number Publication date
CN107145889B (zh) 2020-02-18

Similar Documents

Publication Publication Date Title
CN107145889A (zh) 基于具有RoI池化的双CNN网络的目标识别方法
CN108573276B (zh) 一种基于高分辨率遥感影像的变化检测方法
CN107563372B (zh) 一种基于深度学习ssd框架的车牌定位方法
DE112020005609T5 (de) Domainanpassung für semantische Segmentierung durch Ausnutzen schwacher Etiketten
CN111079674B (zh) 一种基于全局和局部信息融合的目标检测方法
CN103049763B (zh) 一种基于上下文约束的目标识别方法
CN108520516A (zh) 一种基于语义分割的桥梁路面裂缝检测和分割方法
CN109191455A (zh) 一种基于ssd卷积网络的大田作物病虫害检测方法
CN107239759B (zh) 一种基于深度特征的高空间分辨率遥感图像迁移学习方法
CN109446922B (zh) 一种实时鲁棒的人脸检测方法
CN106446930A (zh) 基于深层卷积神经网络的机器人工作场景识别方法
CN106919902B (zh) 一种基于cnn的车辆识别和轨迹追踪方法
CN109598268A (zh) 一种基于单流深度网络的rgb-d显著目标检测方法
CN109271991A (zh) 一种基于深度学习的车牌检测方法
CN109583483A (zh) 一种基于卷积神经网络的目标检测方法和系统
CN103971091B (zh) 飞机机号自动识别方法
CN113160062B (zh) 一种红外图像目标检测方法、装置、设备及存储介质
CN109325484A (zh) 基于背景先验显著性的花卉图像分类方法
CN109344699A (zh) 基于分层深度卷积神经网络的冬枣病害识别方法
CN102254326A (zh) 利用核传递进行图像分割的方法
CN106709528A (zh) 基于多目标函数深度学习的车辆重识别方法及装置
CN114758288A (zh) 一种配电网工程安全管控检测方法及装置
CN103679187A (zh) 图像识别方法和系统
CN109241814A (zh) 基于yolo神经网络的行人检测方法
CN112861970A (zh) 一种基于特征融合的细粒度图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant