CN112949629A - 目标检测方法、装置、计算机设备及可读存储介质 - Google Patents
目标检测方法、装置、计算机设备及可读存储介质 Download PDFInfo
- Publication number
- CN112949629A CN112949629A CN202110213713.6A CN202110213713A CN112949629A CN 112949629 A CN112949629 A CN 112949629A CN 202110213713 A CN202110213713 A CN 202110213713A CN 112949629 A CN112949629 A CN 112949629A
- Authority
- CN
- China
- Prior art keywords
- target
- feature
- result
- candidate
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 65
- 238000000605 extraction Methods 0.000 claims abstract description 94
- 238000012545 processing Methods 0.000 claims abstract description 32
- 230000008707 rearrangement Effects 0.000 claims abstract description 30
- 238000011176 pooling Methods 0.000 claims abstract description 18
- 238000010586 diagram Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 40
- 238000000034 method Methods 0.000 claims description 31
- 238000005070 sampling Methods 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000001629 suppression Effects 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 15
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000013074 reference sample Substances 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了目标检测方法、装置、计算机设备及可读存储介质,涉及人工智能技术领域,包括获取初始图像,采用预训练的第一提取网络对所述初始图像处理,获取带有关键特征的候选目标区域图像;采用第一卷积网络对所述候选目标区域图像进行特征提取,获得所述目标区域图像对应的第一特征图;其中,所述第一卷积网络包括至少一个卷积层;对所述第一特征图进行特征重排池化,获得目标结果,解决现有小目标区域的信息到达输出层之前已经全部丢失,由此会导致小目标检测精度较低,导致目标检测结果准确度较差的问题。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种目标检测方法、装置、计算机设备及可读存储介质。
背景技术
目标检测是计算机视觉的一个重要应用,目标检测是指给定预先定义感兴趣的物体类别和对应的图像,识别图像中包含的所有感兴趣的物体,并输出这些物体在图像中的位置和对应的类别,例如从图像中检测出目标人脸、车辆或建筑等。
在目标检测过程中,对于同时包含大目标和小目标检测与识别的应用,随着神经网络的下采样,小目标区域的信息量可能会严重丢失,比如小目标区域面积为20*10,网络输出层的卷积步长为32*32,则小目标区域的信息极有可能在到达输出层之前已经全部丢失,由此会导致小目标检测精度较低,导致目标检测结果准确度较差。
发明内容
本发明的目的是提供一种目标检测方法、装置、计算机设备及可读存储介质,用于解决现有的小目标小目区域的信息丢失,导致检测精度较低,准确度较差问题。
为实现上述目的,本发明提供一种目标检测方法,包括:
获取初始图像,采用预训练的第一提取网络对所述初始图像处理,获取带有关键特征的候选目标区域图像;
采用第一卷积网络对所述候选目标区域图像进行特征提取,获得所述目标区域图像对应的第一特征图;其中,所述第一卷积网络包括至少一个卷积层;
对所述第一特征图进行特征重排池化,获得目标结果。
进一步的,对所述第一特征图进行特征重排池化,获得目标结果,包括以下:
根据预设步幅对所述第一特征图进行采样,获得第一子特征图集合;
对所述第一子特征图集合中各个位置进行特征采样并输入对应通道内,获得各个通道对应的特征提取结果;
基于所述特征提取结果获得目标对象所在区域作为目标结果。
进一步的,在所述基于所述特征提取结果获得目标对象所在区域作为目标结果前,包括以下:
获得所述特征重排池化后的第一特征图作为第二特征图;
获取目标通道数,采用卷积核数与所述目标通道数一致的第二卷积网络对所述第二特征图进行缩放处理,采用带有所述目标通道数的特征图更新所述特征提取结果。
进一步的,基于所述特征提取结果获得目标对象所在区域作为目标结果,包括以下:
采用全连接层对所述特征提取结果进行预测,获得预测结果区域;
采用边框修正算法对所述预测结果区域进行调整,获得目标对象所在区域作为目标结果。
进一步的,所述采用预训练的第一提取网络对所述初始图像处理,获取带有关键特征的候选目标区域图像,包括以下步骤:
采用预设算法对所述初始图像进行提取,获得多个类别候选区域;
采用多层卷积网络对各个类别候选区域进行特征提取,获得各个所述类别候选区域对应的特征向量;
基于所述各个类别候选区域对应的特征向量分类并修正,获取带有关键特征的候选目标区域图像。
进一步的,所述基于所述各个类别候选区域对应的特征向量分类并修正,获取带有关键特征的候选目标区域图像,包括以下步骤:
获取分类器,采用预设数据集对分类器进行训练;
采用训练后分类器对各个所述各个类别候选区域对应的特征向量进行处理,获取各个类别候选区域的得分;
基于所述各个类别候选区域的得分进行非极大值抑制剔除重叠候选区域后,采用边框回归处理获得带有关键特征的候选目标区域。
进一步的,在所述采用预训练的第一提取网络对所述初始图像处理,获取带有关键特征的候选目标区域图像前,包括以下步骤:
建立第一提取网络,获取训练图像,所述训练图像包括带有目标区域的标签信息;
基于所述训练图像对所述第一提取网络进行处理,获取训练结果;
根据所述训练结果与所述训练图像对应的标签信息确定损失值;
根据所述损失值在所述第一提取网络中进行反向传播,并更新权重参数,获得预训练好的第一提取网络。
为实现上述目的,本发明还提供一种目标检测装置,包括:
在所述采用预训练的第一提取网络对所述初始图像处理,获取带有关键特征的候选目标区域图像前,包括以下步骤:
建立第一提取网络,获取训练图像,所述训练图像包括带有目标区域的标签信息;
基于所述训练图像对所述第一提取网络进行处理,获取训练结果;
根据所述训练结果与所述训练图像对应的标签信息确定损失值;
根据所述损失值在所述第一提取网络中进行反向传播,并更新权重参数,获得预训练好的第一提取网络。
为实现上述目的,本发明还提供一种计算机设备,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述目标检测方法的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,其包括多个存储介质,各存储介质上存储有计算机程序,所述多个存储介质存储的所述计算机程序被处理器执行时共同实现上述目标检测方法的步骤。
本发明提供的目标检测方法、装置、计算机设备及可读存储介质,采用预训练好的第一提取网络对初始图像进行候选目标区域确定,以获得候选目标区域图像,而后对候选目标区域图像进行卷积后,以预设步幅及预设位置采样后将原来空间上的特征转移到扩展的通道上,进而减少特征信息的损失,解决现有小目标区域的信息极有可能在到达输出层之前已经全部丢失,由此会导致小目标检测精度较低,导致目标检测结果准确度较差的问题。
附图说明
图1为本发明所述目标检测方法实施例一的流程图;
图2为本发明所述目标检测方法实施例一中用预训练的第一提取网络对所述初始图像处理,获取带有关键特征的候选目标区域图像的流程图;
图3为本发明所述目标检测方法实施例一中基于所述各个类别候选区域对应的特征向量分类并修正,获取带有关键特征的候选目标区域图像的流程图;
图4为本发明所述目标检测方法实施例一中在所述采用预训练的第一提取网络对所述初始图像处理,获取带有关键特征的候选目标区域图像前,对第一提取网络进行训的流程图;
图5为本发明所述目标检测方法实施例一中对所述第一特征图进行特征重排池化,获得目标结果的流程图;
图6为本发明所述目标检测方法实施例一中基于所述特征提取结果获得目标对象所在区域作为目标结果的流程图;
图7为本发明所述目标检测方法实施例一中在所述基于所述特征提取结果获得目标对象所在区域作为目标结果前的流程图;
图8为本发明所述目标检测装置实施例二的程序模块示意图;
图9为本发明计算机设备实施例三中计算机设备的硬件结构示意图。
附图标记:
4、目标检测装置 41、预处理模块 42、特征提取模块
43、特征重排模块 431、采样子模块 432、重排子模块
433、更新子模块 434、结果获取子模块 5、计算机设备
51、存储器 52、处理器 53、网络接口
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本发明提供的目标检测方法、装置、计算机设备及可读存储介质,适用于人工智能领域,为提供一种基于预处理模块、特征提取模块以及特征重排模块的目标检测方法。本发明基于预处理模块采用预训练好的第一提取网络对初始图像进行候选目标区域确定,以获得候选目标区域图像,用以实现对初始图像的第一次大尺寸提取,而后通过特征提取模块对候选目标区域图像进行卷积后,采用特征重排模块在第一次大尺寸提取后执行第二次小尺寸提取,以预设步幅及预设位置采样后将原来空间上的特征转移到扩展的通道上,进而减少特征信息的损失,区别于现有的下采样操作中直接丢弃特征的方式,这种通过重排池化信息的方式能够保留重要的信息,解决现有小目标区域的信息极有可能在到达输出层之前已经全部丢失,由此会导致小目标检测精度较低,导致目标检测结果准确度较差的问题。
实施例一
请参阅图1,本实施例的一种目标检测方法,应用于服务器端,用于物体检测中小目标检测,用于解决现有技术中由于提升精度导致信息丢失的问题,包括以下步骤:
S100:获取初始图像,采用预训练的第一提取网络对所述初始图像处理,获取带有关键特征的候选目标区域图像;
在上述步骤中,第一提取网络用于对初始图像进行第一次提取,用于确定关键特征的区域,可视作为对大尺寸特征的提取,由于此步骤中特征提取对尺寸要求较为宽松,不会出现小尺寸特征丢失的情况,也可采用现有的目标检测网络(即多层卷积网络)用作该步骤中的第一提取网络,通过训练过程能够实现对关键特征定位的神经网络均可。
具体的,上述步骤S100中采用预训练的第一提取网络对所述初始图像处理,获取带有关键特征的候选目标区域图像,参阅图2,包括以下步骤:
S110:采用预设算法对所述初始图像进行提取,获得多个类别候选区域;
在上述步骤中,预设算法包括但不限于objectness算法、selective search算法、category-independen object proposals算法等,均可用于对初始图像分割以获得多个类别候选区域,前述算法图像处理方法均是将图像分成很多小尺寸区域,然后根据小尺寸区域的特征合并小尺寸得到大尺寸区域,以实现候选区域的获得。
S120:采用多层卷积网络对各个类别候选区域进行特征提取,获得各个所述类别候选区域对应的特征向量;
在上述步骤中,多层卷积网络根据类别候选区域的尺寸和候选目标区域图像的尺寸设置,作为举例的,依次设置Conv4_3,Conv6,Conv7,主要用于大尺寸对象的识别,精准度要求较低,如候选步骤S131~S133所述,采用预设训练集对该多层卷积网络进行训练,以使其满足本方案中粗略识别的需求。
S130:基于所述各个类别候选区域对应的特征向量分类并修正,获取带有关键特征的候选目标区域图像。
根据上述步骤S110,根据初始图像获得多个类别候选区域,而后通过上述步骤S120对各个类别候选区域进行特征识别以获得每一类别候选区域对应的特征向量,最后步骤S130基于每一类别候选区域对应的特征向量进行合并、分类获得可能的候选目标区域,然后对各个该可能的候选目标区域进行边框修正,即可获得带有关键特征的候选目标区域图像。
上述基于所述各个类别候选区域对应的特征向量分类并修正,获取带有关键特征的候选目标区域图像,参阅图3,具体的包括以下步骤:
S131:获取分类器,采用预设数据集对分类器进行训练;
在上述步骤中,分类器采用SVM分类器,SVM是二分类器,需要为每个类别训练单独的SVM,上述预设数据集为ImageNet数据,除了前述SVM分类器外,其他能够实现对基于所述各个类别候选区域对应的特征向量分类并修正的算法或网络(可采用对应的预设数据集进行训练)也可用于上述步骤S130中。
S132:采用训练后分类器对各个所述各个类别候选区域对应的特征向量进行处理,获取各个类别候选区域的得分;
为了更具体的说明上述步骤S132,作为举例的,设类别候选区域包含20个,2000个类别候选区域,每个类别候选区域获得4096的特征向量,将2000×4096维特征与20个SVM组成的权值矩阵4096×20相乘(20种分类,SVM是二分类器,每个种类训练一个SVM,则有20个SVM),获得2000×20维矩阵表示每个类别候选区域是某个物体类别的得分。
S133:基于所述各个类别候选区域的得分进行非极大值抑制剔除重叠候选区域后,采用边框回归处理获得带有关键特征的候选目标区域。
在上述步骤中,基于上述步骤S132获得每个类别候选区域是某个物体类别的得分,非极大值抑制NMS在目标检测常用的提出重叠候选区域的方法,因此根据上述得分可获得分数最高的即为该类别候选区域对应的物体类别,在确定类别候选区域对应的物体类别后,进行边框回归处理,具体的,可以输入为卷积神经网络pool5层的4096维特征向量,输出为x、y方向的缩放和平移,实现候选目标区域的修正,以获得带有关键特征的候选目标区域。
在上述方案中,在所述采用预训练的第一提取网络对所述初始图像处理,获取带有关键特征的候选目标区域图像前,需要对第一提取网络进行训练,参阅图4,具体包括以下步骤:
S100-1:建立第一提取网络,获取训练图像,所述训练图像包括带有目标区域的标签信息;
在本方案中,第一提取网络包括依次设置的输入层(S131)、多层卷积层(S132)、边框确定及修正层(S133),用于完后上述S131~S133的处理,训练图像包括的标签信息即为通过该第一提取网络对训练图像处理后即可获得的带有关键特征的候选目标区域。
S100-2:基于所述训练图像对所述第一提取网络进行处理,获取训练结果;
在上述步骤中,训练过程可参考上述步骤S131~S133中的处理过程,与处理过程不一致的在于后述S100-3~S100-4中在处理完成后需要根据训练结果与标签信息的比对调整第一提取网络。
S100-3:根据所述训练结果与所述训练图像对应的标签信息确定损失值;
通过前述步骤S100-2可实现第一提取网络对初始图像的训练结果确定与标签信息之间的损失值,进而根据损失值对第一提取网络进行调整。
S100-4:根据所述损失值在所述第一提取网络中进行反向传播,并更新权重参数,获得预训练好的第一提取网络。
在本方案中,可以设置损失阈值或训练次数阈值,当损失值达到损失阈值或训练次数达到训练次数阈值时即可停止训练,并获得训练完成的第一提取网络,以便应用于上述步骤S131~S133。
S200:采用第一卷积网络对所述候选目标区域图像进行特征提取,获得所述目标区域图像对应的第一特征图;其中,所述第一卷积网络包括至少一个卷积层;
在上述实施方式中,所述第一卷积网络包括一个或多个卷积层,对候选目标区域图像进行卷积,用于基于候选目标区域图像输出特征图,主要用于计算初始图像中局部感受视野内的特征,获得具有完整特征数据的集合。
S300:对所述第一特征图进行特征重排池化,获得目标结果。
本方案中通过对第一图进行特征重排池化将大尺度上的特征图像素通过通道重排的方式转移到通道上,使得大尺度到小尺度转换过程中完全无信息损失,解决现有技术中的小尺寸信息丢失问题。具体的,对各个通道特征进行重排具体的包括将特征依次抽出重排形成新的特征张量,因此所述对所述第一特征图进行特征重排池化,获得目标结果,参阅图5,包括以下:
S311:根据预设步幅对所述第一特征图进行采样,获得第一子特征图集合;
在上述步骤中,预设步幅可根据实际使用场景,作为举例的,设候选目标区域图像为16*16,预设步幅为2,采样后则获得的图像为8*8,具体的,可依据目标结果对应的尺寸设置。
S312:对所述第一子特征图集合中各个位置进行特征采样并输入对应通道内,获得各个通道对应的特征提取结果;
在上述实施方式中,作为举例以便阐述与现有技术区别之处,以上述候选目标区域图像为16*16,采样预设步幅为2,采样后则获得的图像为8*8为例,现有的采样过程中将16*16分成8*8个的4*4子区域,从每一4*4子区域随机获得1个1*1的特征图,即可获得8*8的图像;但是,在本方案中,在将16*16分成8*8个的4*4子区域后,对于每一4*4子区域,包括4个1*1子区域,采集每一1*1区域并将位于4*4子区域同一位置的1*1子区域放入在同一通道内(一共包括4个通道),则最终获得8*8*4(4为通道数)的输出图像,由于现有的是4个图像中随机获取一个,因此可能会导致特征丢失,本方案中通过将所有特征均采集并放置在不同通道中以克服特征丢失的问题,解决现有的小目标检测精度较低,准确度较差问题。
S313:基于所述特征提取结果获得目标对象所在区域作为目标结果。
更具体的,上述基于所述特征提取结果获得目标对象所在区域作为目标结果,参阅图6,包括以下:
S313-1:采用全连接层对所述特征提取结果进行预测,获得预测结果区域;
全连接层在整个卷积神经网络中起到“分类器”的作用,全连接层将前述中卷积层、池化层(即本方案中第一卷积网络)等操作映射到标记空间。具体的,全连接层可由卷积操作实现:对前层是全连接的全连接层可以转化为卷积核为1*1的卷积;而前层是卷积层的全连接层可以转化为卷积核为h*w的全局卷积,h和w分别为前层卷积结果的高和宽。
S313-2:采用边框修正算法对所述预测结果区域进行调整,获得目标对象所在区域作为目标结果。
在上述步骤中,所述边框修正算法包括但不限于边框回归(Bounding BoxRegression)算法,或者通过与步骤S313-1中全连接层不同维度的全连接层进行进一步修正(用于回归输出)后,再通过ROI Pooling Layer进行处理等。
在所述基于所述特征提取结果获得目标对象所在区域作为目标结果前,参阅图7,包括以下步骤:
S321:获得所述特征重排池化后的第一特征图作为第二特征图;
在上述步骤中,设置该步骤的目的主要用于对第一特征图的通道数进行特征调整,如上述举例所述,获得8*8*4(4为通道数)的输出图像,当目标结果的图像通道数为1或其他时,则可采用卷积网络进行压缩(或放大)处理。
S322获取目标通道数,采用卷积核数与所述目标通道数一致的第二卷积网络对所述第二特征图进行缩放处理,采用带有所述目标通道数的特征图更新所述特征提取结果。
作为举例的,可采用1*1卷积层实现信息压缩的目的,结合1*1卷积层的调节在各种任务上也具有更强的伸缩性,例如在物体检测任务重,针对小目标,使用该池化方法可以充分保留小目标信息,针对大目标可以通过调节1*1卷积通道数压缩冗余信息。
上述初始图像及对应的特征提取结果或目标结果可上传至区块链以便于后续作为参考样本或训练样本,上传至区块链可保证其安全性和对用户的公正透明性,用户设备可以从区块链中下载得该摘要信息,以便查证优先级列表是否被篡改,后续也可以从区块链中下载获得对应特征提取结果或目标结果用于特征识别或目标检测,无需生成过程,有效提高目标检测效率。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请通过本方案相比现有的下采样操作中直接丢弃特征的方式,这种通过重排池化信息的方式更易保留重要的信息,其中,特征重排过程中,未修改特征的空间对应关系,但是将原来空间上的特征转移到扩展的通道上(具体的体现为以预设步符采样,如上述步骤S200),未损失任何特征信息,同时通过与1*1卷积结合(如上述步骤S313),达到原池化信息压缩(或通过其他卷积放大)同样的效果,但是该方法中信息压缩是可以根据不同的需求调节的,而且压缩策略也是通过参数学习的,所以在小目标、细粒度识别等对信息损失要求较高的问题上具有更好的效果。
本申请通过步骤S110~S130采用预训练好的第一提取网络对初始图像进行候选目标区域确定,以获得候选目标区域图像,用以实现对初始图像的第一次大尺寸提取,而后通过步骤S200对候选目标区域图像进行卷积后,采用预设步幅及预设位置采样后将原来空间上的特征转移到扩展的通道上,进而减少特征信息的损失,解决现有小目标区域的信息极有可能在到达输出层之前已经全部丢失,由此会导致小目标检测精度较低,导致目标检测结果准确度较差的问题。
实施例二:
请参阅图8,本实施例的一种目标检测装置4,包括:预处理模块41、特征提取模块42以及特征重排模块43。
预处理模块41,用于获取初始图像,采用预训练的第一提取网络对所述初始图像处理,获取带有关键特征的候选目标区域图像;
特征提取模块42,用于采用第一卷积网络对所述候选目标区域图像进行特征提取,获得所述目标区域图像对应的第一特征图;其中,所述第一卷积网络包括至少一个卷积层;
特征重排模块43,用于对所述第一特征图进行特征重排池化,获得目标结果。
上述特征重排模块43还包括采样子模块431、重排子模块432、更新子模块433和结果获取子模块434。
采样子模块431,用于根据预设步幅对所述第一特征图进行采样,获得第一子特征图集合;
重排子模块432,用于对所述第一子特征图集合中各个位置进行特征采样并输入对应通道内,获得各个通道对应的特征提取结果;
更新子模块433,用于获得所述特征重排池化后的第一特征图作为第二特征图;获取目标通道数,采用卷积核数与所述目标通道数一致的第二卷积网络对所述第二特征图进行缩放处理,采用带有所述目标通道数的特征图更新所述特征提取结果。
结果获取子模块434,用于基于所述特征提取结果获得目标对象所在区域作为目标结果。
本技术方案基于智能决策的检测模型,基于预处理模块采用预训练好的第一提取网络对初始图像进行候选目标区域确定,以获得候选目标区域图像,用以实现对初始图像的第一次大尺寸提取,而后通过特征提取模块对候选目标区域图像进行卷积后,采用特征重排模块在第一次大尺寸提取后执行第二次小尺寸提取,以预设步幅及预设位置采样后将原来空间上的特征转移到扩展的通道上,进而减少特征信息的损失,解决现有小目标区域的信息极有可能在到达输出层之前已经全部丢失,由此会导致小目标检测精度较低,导致目标检测结果准确度较差的问题。
本方案中在第二次小尺寸提取过程中,通过采样子模块基于预设步幅对第一特征图进行采样,而后通过重排子模块将预设位置的特征输入对应通道内,最后通过结果获取子模块获得目标结果,特征重排过程中,未修改特征的空间对应关系,但是将原来空间上的特征转移到扩展的通道上未损失任何特征信息,同时通过与1*1卷积结合,达到原池化信息压缩同样的效果,减少特征丢失,进一步提高小尺寸目标结果准确性。
在上述重排子模块将将原来空间上的特征转移到扩展的通道上后,还可采用更新子模块用卷积核数与所述目标通道数一致的第二卷积网络对所述第二特征图进行缩放处理,进而后的预设通道数的目标结果,以进一步提高小目标提取结果适用性。
实施例三:
为实现上述目的,本发明还提供一种计算机设备5,该计算机设备可包括多个计算机设备,实施例二的目标检测装置1的组成部分可分散于不同的计算机设备5中,计算机设备5可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于:可通过系统总线相互通信连接的存储器51、处理器52、网络接口53以及目标检测装置4,如图9所示。需要指出的是,图9仅示出了具有组件-的计算机设备,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器51至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器51可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,存储器51也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器51还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,存储器51通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例一的目标检测装置4的程序代码等。此外,存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器52在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制计算机设备的总体操作。本实施例中,处理器52用于运行存储器51中存储的程序代码或者处理数据,例如运行目标检测装置,以实现实施例一的目标检测方法。
所述网络接口53可包括无线网络接口或有线网络接口,该网络接口53通常用于在所述计算机设备5与其他计算机设备5之间建立通信连接。例如,所述网络接口53用于通过网络将所述计算机设备5与外部终端相连,在所述计算机设备5与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图9仅示出了具有部件51-53的计算机设备5,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器51中的所述目标检测装置4还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器51中,并由一个或多个处理器(本实施例为处理器52)所执行,以完成本发明。
实施例四:
为实现上述目的,本发明还提供一种计算机可读存储介质,其包括多个存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器23执行时实现相应功能。本实施例的计算机可读存储介质用于存储目标检测装置4,被处理器23执行时实现实施例一的目标检测方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种目标检测方法,其特征在于,包括以下:
获取初始图像,采用预训练的第一提取网络对所述初始图像处理,获取带有关键特征的候选目标区域图像;
采用第一卷积网络对所述候选目标区域图像进行特征提取,获得所述目标区域图像对应的第一特征图;其中,所述第一卷积网络包括至少一个卷积层;
对所述第一特征图进行特征重排池化,获得目标结果。
2.根据权利要求1所述的目标检测方法,其特征在于,对所述第一特征图进行特征重排池化,获得目标结果,包括以下:
根据预设步幅对所述第一特征图进行采样,获得第一子特征图集合;
对所述第一子特征图集合中各个位置进行特征采样并输入对应通道内,获得各个通道对应的特征提取结果;
基于所述特征提取结果获得目标对象所在区域作为目标结果。
3.根据权利要求2所述的目标检测方法,其特征在于,在所述基于所述特征提取结果获得目标对象所在区域作为目标结果前,包括以下:
获得所述特征重排池化后的第一特征图作为第二特征图;
获取目标通道数,采用卷积核数与所述目标通道数一致的第二卷积网络对所述第二特征图进行缩放处理,采用带有所述目标通道数的特征图更新所述特征提取结果。
4.根据权利求2所述的目标检测方法,其特征在于,基于所述特征提取结果获得目标对象所在区域作为目标结果,包括以下:
采用全连接层对所述特征提取结果进行预测,获得预测结果区域;
采用边框修正算法对所述预测结果区域进行调整,获得目标对象所在区域作为目标结果。
5.根据权利要求1所述的目标检测方法,其特征在于,所述采用预训练的第一提取网络对所述初始图像处理,获取带有关键特征的候选目标区域图像,包括以下步骤:
采用预设算法对所述初始图像进行提取,获得多个类别候选区域;
采用多层卷积网络对各个类别候选区域进行特征提取,获得各个所述类别候选区域对应的特征向量;
基于所述各个类别候选区域对应的特征向量分类并修正,获取带有关键特征的候选目标区域图像。
6.根据权利要求5所述的目标检测方法,其特征在于,所述基于所述各个类别候选区域对应的特征向量分类并修正,获取带有关键特征的候选目标区域图像,包括以下步骤:
获取分类器,采用预设数据集对分类器进行训练;
采用训练后分类器对各个所述各个类别候选区域对应的特征向量进行处理,获取各个类别候选区域的得分;
基于所述各个类别候选区域的得分进行非极大值抑制剔除重叠候选区域后,采用边框回归处理获得带有关键特征的候选目标区域。
7.根据权利要求1所述的目标检测方法,其特征在于,在所述采用预训练的第一提取网络对所述初始图像处理,获取带有关键特征的候选目标区域图像前,包括以下步骤:
建立第一提取网络,获取训练图像,所述训练图像包括带有目标区域的标签信息;
基于所述训练图像对所述第一提取网络进行处理,获取训练结果;
根据所述训练结果与所述训练图像对应的标签信息确定损失值;
根据所述损失值在所述第一提取网络中进行反向传播,并更新权重参数,获得预训练好的第一提取网络。
8.一种目标检测装置,其特征在于,包括:
预处理模块,用于获取初始图像,采用预训练的第一提取网络对所述初始图像处理,获取带有关键特征的候选目标区域图像;
特征提取模块,用于采用第一卷积网络对所述候选目标区域图像进行特征提取,获得所述目标区域图像对应的第一特征图;其中,所述第一卷积网络包括至少一个卷积层;
特征重排模块,用于对所述第一特征图进行特征重排池化,获得目标结果。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述目标检测方法的步骤。
10.一种计算机可读存储介质,其包括多个存储介质,各存储介质上存储有计算机程序,其特征在于,所述多个存储介质存储的所述计算机程序被处理器执行时共同实现权利要求1至7任一项所述目标检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110213713.6A CN112949629A (zh) | 2021-02-25 | 2021-02-25 | 目标检测方法、装置、计算机设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110213713.6A CN112949629A (zh) | 2021-02-25 | 2021-02-25 | 目标检测方法、装置、计算机设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112949629A true CN112949629A (zh) | 2021-06-11 |
Family
ID=76246239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110213713.6A Pending CN112949629A (zh) | 2021-02-25 | 2021-02-25 | 目标检测方法、装置、计算机设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112949629A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344200A (zh) * | 2021-06-17 | 2021-09-03 | 阿波罗智联(北京)科技有限公司 | 用于训练可分离卷积网络的方法、路侧设备及云控平台 |
CN115131198A (zh) * | 2022-04-12 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 模型训练方法、图像处理方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670517A (zh) * | 2018-12-24 | 2019-04-23 | 北京旷视科技有限公司 | 目标检测方法、装置、电子设备和目标检测模型 |
CN111178121A (zh) * | 2018-12-25 | 2020-05-19 | 中国科学院合肥物质科学研究院 | 基于空间特征和深度特征强化技术的害虫图像定位识别方法 |
WO2020181685A1 (zh) * | 2019-03-12 | 2020-09-17 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
-
2021
- 2021-02-25 CN CN202110213713.6A patent/CN112949629A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670517A (zh) * | 2018-12-24 | 2019-04-23 | 北京旷视科技有限公司 | 目标检测方法、装置、电子设备和目标检测模型 |
CN111178121A (zh) * | 2018-12-25 | 2020-05-19 | 中国科学院合肥物质科学研究院 | 基于空间特征和深度特征强化技术的害虫图像定位识别方法 |
WO2020181685A1 (zh) * | 2019-03-12 | 2020-09-17 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
Non-Patent Citations (2)
Title |
---|
YONG LI ET AL.: "Electronic Product Surface Defect Detection Based on a MSSD Network", 《2020 IEEE 4TH INFORMATION TECHNOLOGY, NETWORKING, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE (ITNEC 2020)》, 4 May 2020 (2020-05-04), pages 773 - 777 * |
任坤等: "基于多尺度像素特征融合的实时小交通标志检测算法", 《信号处理》, vol. 36, no. 9, 16 September 2020 (2020-09-16), pages 1457 - 1463 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344200A (zh) * | 2021-06-17 | 2021-09-03 | 阿波罗智联(北京)科技有限公司 | 用于训练可分离卷积网络的方法、路侧设备及云控平台 |
CN113344200B (zh) * | 2021-06-17 | 2024-05-28 | 阿波罗智联(北京)科技有限公司 | 用于训练可分离卷积网络的方法、路侧设备及云控平台 |
CN115131198A (zh) * | 2022-04-12 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 模型训练方法、图像处理方法、装置、设备及存储介质 |
CN115131198B (zh) * | 2022-04-12 | 2024-03-22 | 腾讯科技(深圳)有限公司 | 模型训练方法、图像处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106548127B (zh) | 图像识别方法 | |
CN112052781B (zh) | 特征提取模型训练方法、人脸识别方法、装置、设备及介质 | |
US10410353B2 (en) | Multi-label semantic boundary detection system | |
CN112800805A (zh) | 视频剪辑方法、系统、计算机设备及计算机存储介质 | |
CN112036400B (zh) | 构建用于目标检测的网络的方法和目标检测方法及系统 | |
CN111291825A (zh) | 病灶分类模型训练方法、装置、计算机设备和存储介质 | |
CN109801275B (zh) | 基于图像识别的马铃薯病害检测方法和系统 | |
CN110659667A (zh) | 图片分类模型训练方法、系统和计算机设备 | |
CN112949629A (zh) | 目标检测方法、装置、计算机设备及可读存储介质 | |
CN112215179B (zh) | 车内人脸识别方法、设备、装置及存储介质 | |
CN112183212A (zh) | 一种杂草识别方法、装置、终端设备及可读存储介质 | |
CN111401196A (zh) | 受限空间内自适应人脸聚类的方法、计算机装置及计算机可读存储介质 | |
CN112132216B (zh) | 车型识别方法、装置、电子设备及存储介质 | |
CN113780201A (zh) | 手部图像的处理方法及装置、设备和介质 | |
US20200210754A1 (en) | Cloud device, terminal device, and method for classifyiing images | |
CN111860582B (zh) | 图像分类模型构建方法、装置、计算机设备和存储介质 | |
CN112733672A (zh) | 基于单目相机的三维目标检测方法、装置和计算机设备 | |
CN113705294A (zh) | 一种基于人工智能的图像识别方法、装置 | |
CN112634246A (zh) | 一种口腔图像识别方法及相关设备 | |
CN112733652A (zh) | 图像目标识别方法、装置、计算机设备及可读存储介质 | |
CN111353429A (zh) | 基于眼球转向的感兴趣度方法与系统 | |
CN112016617A (zh) | 细粒度分类方法、装置及计算机可读存储介质 | |
CN114170231A (zh) | 基于卷积神经网络的图像语义分割方法、装置及电子设备 | |
CN112966687B (zh) | 图像分割模型训练方法、装置及通信设备 | |
CN112132215B (zh) | 一种识别物体类型的方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |