CN113283396A - 目标对象的类别检测方法、装置、计算机设备和存储介质 - Google Patents
目标对象的类别检测方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113283396A CN113283396A CN202110726112.5A CN202110726112A CN113283396A CN 113283396 A CN113283396 A CN 113283396A CN 202110726112 A CN202110726112 A CN 202110726112A CN 113283396 A CN113283396 A CN 113283396A
- Authority
- CN
- China
- Prior art keywords
- image
- detection model
- target object
- class
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 232
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims description 20
- 230000004927 fusion Effects 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 239000011521 glass Substances 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000013434 data augmentation Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种目标对象的类别检测方法、装置、计算机设备和存储介质。该方法包括:获取待检测图像,通过对象检测模型对待检测图像进行对象检测,得到对象图像以及对象的初始所属类别;根据对象的初始所属类别以及预设相似关系,得到目标对象图像;通过类别检测模型对目标对象图像进行类别检测,得到目标对象图像的最终所属类别。使用本发明的技术方案,可以提高目标对象类别检测的精度,降低误检概率。
Description
技术领域
本发明实施例涉及计算机视觉技术,尤其涉及一种目标对象的类别检测方法、装置、计算机设备和存储介质。
背景技术
图像中目标对象的检测识别,在诸如智能视频监控等应用场合,具有广泛的实用需求。现有的目标对象检测算法,通常是基于人工设计的算法,例如HOG(Histogram ofOriented Gridients,方向梯度直方图)算法,对样本图像提取特征,根据样本图像集合训练检测模型。或者基于深度学习检测算法,利用卷积神经网络进行特征提取,根据样本图像集合的特征库进行训练得到检测模型。通过训练得到的检测模型对图像中的目标对象以及对象的类别进行检测。
但是,在检测模型的实际应用中,由于有时会存在与要检测的目标对象特征类似的物体,因此存在误检的情形。
发明内容
本发明实施例提供一种目标对象的类别检测方法、装置、计算机设备和存储介质,以实现提高目标对象类别检测的精度,降低误检概率。
第一方面,本发明实施例提供了一种目标对象的类别检测方法,该方法包括:
获取待检测图像,通过对象检测模型对待检测图像进行对象检测,得到对象图像以及对象的初始所属类别;
根据对象的初始所属类别以及预设相似关系,得到目标对象图像;
通过类别检测模型对目标对象图像进行类别检测,得到目标对象图像的最终所属类别。
第二方面,本发明实施例还提供了一种目标对象的类别检测装置,该装置包括:
对象检测模块,用于获取待检测图像,通过对象检测模型对待检测图像进行对象检测,得到对象图像以及对象的初始所属类别;
目标对象图像获取模块,用于根据对象的初始所属类别以及预设相似关系,得到目标对象图像;
类别检测模块,用于通过类别检测模型对目标对象图像进行类别检测,得到目标对象图像的最终所属类别。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明实施例中任一所述的目标对象的类别检测方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本发明实施例中任一所述的目标对象的类别检测方法。
本发明实施例通过对象检测模型对待检测图像进行对象检测,获取对象图像和对象的初始所属类别,根据初始所属类别的预设相似关系,在对象图像中筛选得到目标对象图像,通过类别检测模型对目标对象图像进行类别检测,确定目标对象图像的最终所属类别。解决了现有技术中对图像中的目标对象以及对象的类别进行检测的方式,容易出现误检情形的问题,提高了目标对象类别检测的精度,降低了误检概率。
附图说明
图1是本发明实施例一中的一种目标对象的类别检测方法的流程图;
图2a是本发明实施例二中的一种目标对象的类别检测方法的流程图;
图2b是本发明具体适用场景一中的一种目标对象类别检测模型的结构示意图;
图3是本发明实施例三中的一种目标对象的类别检测装置的结构示意图;
图4是本发明实施例四中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的一种目标对象的类别检测方法的流程图,本实施例可适用于对图像中的目标对象类别进行精确检测的情况,该方法可以由目标对象的类别检测装置来执行,该装置可以由软件和/或硬件来实现,并一般集成在计算机设备中。
如图1所示,本发明实施例的技术方案,具体包括如下步骤:
S110、获取待检测图像,通过对象检测模型对待检测图像进行对象检测,得到对象图像以及对象的初始所属类别。
其中,待检测图像为需要检测目标对象及其类别的图像,示例性的,待检测图像可以是在待检测视频中提取的视频帧图像。
对象检测模型用于检测待检测图像中的对象及其类别,对象检测模型对待检测图像进行对象检测,在待检测图像中通过候选框,标注检测得到的各对象及其类别,对各候选框区域进行裁剪,得到对象图像,以及对象的初始所属类别。
在本发明实施例中,由于存在特征差异较小、难以进行分类的目标对象,或者存在与目标对象特征差异较小的其他对象,并且,对象检测模型需要兼顾多种类别对象之间的区分,因此,经由对象检测模型检测得到的对象及其类别存在误检的情形。将对象检测模型检测得到的对象及其类别直接作为目标对象及其最终所属类别,将降低检测的精确度。因此,本发明实施例将经由对象检测模型检测后得到的各对象图像的类别作为其初始所属类别,根据其初始所属类别进行筛选,将筛选出的目标对象图像进行更加精确的类别检测,可以降低误检概率,提高检测精度。
S120、根据对象的初始所属类别以及预设相似关系,得到目标对象图像。
在本发明实施例中,如果两个或多个类别为相似类别,则预先设置两个或多个类别之间存在相似关系。示例性的,在进行玻璃伤检测时,待检测图像为对玻璃拍摄得到的正面图像,目标对象为各种类型的玻璃伤,可以预先设置划痕类和纤维类之间存在相似关系。
可选的,如果对象的初始所属类别为存在相似关系的类别,则将其对应的对象图像作为目标对象图像,进行进一步的类别检测,以提高检测的精确度。
S130、通过类别检测模型对目标对象图像进行类别检测,得到目标对象图像中对象的最终所属类别。
类别检测模型用于对筛选出来的目标对象图像进行精确的类别检测,确定目标对象图像的最终所属类别。在本发明实施例中,预先训练类别检测模型,专门用于对类别相似的目标对象图像进行精确的类别检测。
本实施例的技术方案,通过对象检测模型对待检测图像进行对象检测,获取对象图像和对象的初始所属类别,根据初始所属类别的预设相似关系,在对象图像中筛选得到目标对象图像,通过类别检测模型对目标对象图像进行类别检测,确定目标对象图像的最终所属类别。解决了现有技术中对图像中的目标对象以及对象的类别进行检测的方式,容易出现误检情形的问题,提高了目标对象类别检测的精度,降低了误检概率。
实施例二
图2a是本发明实施例二提供的一种目标对象的类别检测方法的流程图,本发明实施例在上述实施例的基础上,对对象检测模型对待检测图像进行对象检测的过程,以及得到目标对象图像的过程进行了进一步的具体化,并加入了训练得到对象检测模型和类别检测模型的步骤,以及对对象检测模型对样本图像进行处理后得到的候选对象样本图像进行处理的步骤。
相应的,如图2a所示,本发明实施例的技术方案,具体包括如下步骤:
S210、根据样本图像集合,对预设的深度网络模型进行训练,得到对象检测模型。
样本图像集合为多个样本图像构成的集合,样本图像是用于训练对象检测模型和类别检测模型的图像,样本图像应与待检测图像相匹配,示例性的,当进行玻璃伤检测时,样本图像和待检测图像可以都为对玻璃正面进行拍摄得到的图像。
示例性的,可以基于Faster-RCNN(Region-Convolutional Neural Network,区域卷积神经网络)构造一个两级检测网络。第一级检测网络为对象检测模型,对象检测模型为根据样本图像集合进行训练得到。
可选的,对象检测模型可以包括卷积神经网络模块、区域生成模块和分类回归模块。卷积神经网络模块用于对图像进行深度特征提取,区域生成模块也即RPN(RegionProposal Network,区域选取网络)模块,用于对深度特征图进行候选框提取,分类回归模块用于对各候选框区域进行类别识别。
S220、获取对象检测模型对样本图像进行处理后得到的候选对象样本图像。
对象检测模型对样本图像进行处理后,得到候选对象样本图像,候选对象样本图像可以是对样本图像进行对象检测之后,对获得的候选框区域进行裁剪得到的图像。
为提高类别检测模型的准确性,对于获得的候选对象样本图像,可以将其变换到同一尺度大小。
S230、获取特征系数,根据特征系数对两张候选对象样本图像进行图像融合,将融合后的图像存储到候选对象样本图像集合中。
对象检测模型对样本图像进行处理后,在进行类别检测模型训练之前,为提高类别检测模型的鲁棒性,可以对候选对象样本图像进行一系列的处理。
在本发明实施例中,可以预先设置超参数α、β,以超参数进行贝塔分布计算,获得特征系数。也可以在0-1的范围内,随机生成特征系数,本实施例对特征系数的获取方式不进行限制。
确定特征系数之后,对于两张候选对象样本图像,每个对应坐标的像素值都通过以下公式进行计算:
M=λ*m1+(1-λ)*m2
其中,M为融合后的图像,λ为特征系数,m1、m2为两张候选对象样本图像。
在本发明实施例中,对候选对象样本图像进行融合得到新的样本图像用于训练,这种数据增广方法,可以缓解训练样本过少而导致的学习不充分的问题。
S240、获取候选对象样本图像对应的回归前候选对象样本图像,对候选对象样本图像和回归前候选对象样本图像进行位置组合,将位置组合后的图像存储到候选对象样本图像集合中。
在本发明实施例中,由于对象检测模型的分类回归模块的回归结果不一定准确,因此,获取与候选对象样本图像匹配的分类回归模块进行回归前的候选框区域图像,对于候选对象样本图像和候选框区域图像,每个对应像素的坐标值进行线性组合,获得新的位置组合后的图像。
S250、根据最大池化特征和最小池化特征,对候选对象样本图像进行系列特征融合,将系列特征融合后的图像存储到候选对象样本图像集合中。
对于候选对象样本图像,将其坐标映射到其所在特征金字塔的前一层特征层,即尺度变换为原候选对象样本图像对应的候选框图像的四倍。根据最大池化特征和最小池化特征,对尺度变换后的候选对象样本图像进行最大池化和最小池化操作,得到该位置降维后的纹理与背景特征作为新的通道特征,与原候选对象样本图像进行特征融合,得到融合后的图像。
本实施例中的特征融合方式,增加了更加具有判别度的特征,可以提高类别检测模型的辨识能力。
S260、根据候选对象样本图像集合对预设的深度网络模型进行训练,得到类别检测模型。
可选的,类别检测模型是基于Faster-RCNN构造的两级检测网络中的第二级检测网络。
在本发明实施例中,对候选对象样本图像进行尺度变换、数据增广和特征融合,通过候选对象样本图像集合训练得到的类别检测模型,可以提高准确性和鲁棒性。
S270、根据对象检测模型的损失以及类别检测模型的损失进行加权求和。
在本发明实施例中,可以采用多任务学习机制,对对象检测模型和类别检测模型,也即两级检测模型的损失进行加权求和,作为整个两级检测模型的总损失。也即,将对象检测模型和类别检测模型进行多任务同步训练,得到一个端到端的目标对象类别检测模型。
可选的,对象检测模型的损失又可以包括分类损失和回归损失,则总损失为对象检测模型的分类损失和回归损失,以及类别检测模型的损失之和。
S280、将对象检测模型和类别检测模型融合为目标对象类别检测模型,将加权求和得到的总损失作为目标对象类别检测模型的损失。
根据对象检测模型和类别检测模型的损失之和,构造一个端到端的目标对象类别检测模型,实现端到端的网络模型训练。
S290、获取待检测图像。
训练得到目标对象类别检测模型之后,对于需要进行目标对象类别检测的待检测图像,将其输入至目标对象类别检测模型。
S2100、通过对象检测模型的卷积神经网络模块,对待检测图像进行深度特征提取,生成特征图像。
待处理图像经过目标对象类别检测模型中的对象检测模型时,通过卷积神经网络模块的深卷积层对待处理图像进行多层卷积运算,提取待检测图像的深度特征,得到与待检测图像匹配的特征图像。
S2110、通过对象检测模型的区域生成模块,对特征图像进行对象提取,生成对象图像。
基于深度特征,通过区域生成模块获得特征图像中的候选框,对候选框区域进行分割得到对象图像。
S2120、通过对象检测模型的分类回归模块,对对象图像进行初始类别识别,得到对象的初始所属类别。
将对象图像输入至分类回归模块,对对象图像进行分类和位置回归,获得对象图像中对象的初始所属类别。
S2130、判断根据预设相似关系是否确定对象的初始所属类别为预设相似类别,若是,则执行S2140,否则执行S2160。
如果初始所属类别为预设相似关系中的预设相似类别,并且初始所属类别的置信度小于或者等于预设置信度阈值,则将对象图像作为目标对象图像,继续输入至类别检测模型进行进一步的精确类别检测。
S2140、判断所述初始所属类别的置信度是否小于或者等于预设置信度阈值,若是,则执行S2150,否则执行S2160。
S2150、将所述对象图像作为目标对象图像。
S2160、判断是否完成对全部对象图像的处理,若是,则执行S2170,否则返回执行S2130。
S2170、对目标对象图像进行尺度变换,得到标准尺度大小的目标对象图像。
对于目标对象图像,将其分割为固定个采样点数的矩形单元,得到每个矩形单元的中心点坐标,通过离每个中心点最近的四个目标对象图像像素点的值,分别在x方向和y方向上利用线性插值法计算中心点的像素值,权重取决于该中心点在x方向或y方向上与最近像素点的距离。对每个矩形单元的中心点像素值都采用以上方式进行计算,最终得到标准尺度大小的目标对象图像。
示例性的,采样点数为7时,目标对象图像尺寸为M*N,则每个矩形单元尺寸为(M/7)*(N/7),对于第一个矩形单元,其中心点坐标为(M/14,N/14),记为(x,y),与该中心点距离最近的四个像素点分别为P0、P1、P2、P3,坐标分别为(x1,y1)、(x1,y2)、(x2,y1)以及(x2,y2),像素值分别为I0、I1、I2、I3。则通过以下公式计算该中心点像素值:
在本发明实施例中,对于各矩形单元的中心点都采用上述方式计算像素值,最终得到经过校准后的7*7的目标对象图像。
S2180、通过类别检测模型对目标对象图像进行类别检测,得到目标对象图像中对象的最终所属类别。
将进行尺度变换后的目标对象图像,送入类别检测模型,类别检测模型的分类模块对目标对象图像的类别进行精确识别,获得目标对象图像中对象的最终所属类别。
本实施例的技术方案,预先训练对象检测模型,将对象检测模型处理后的图像进行尺度变换、数据增广、位置组合和特征融和之后,训练类别检测模型,根据对象检测模型和类别检测模型训练得到端到端的目标对象类别检测模型,通过对象检测模型的卷积神经网络模块,对待检测图像进行深度特征提取,生成特征图像,通过区域生成模块,对特征图像进行对象提取,生成对象图像,通过分类回归模块,对对象图像进行初始类别识别,得到对象的初始所属类别,根据初始所属类别的预设相似关系,在对象图像中筛选得到目标对象图像,对目标对象图像进行尺度变换,通过类别检测模型对尺度变换后的目标对象图像进行类别检测,确定目标对象图像的最终所属类别。解决了现有技术中对图像中的目标对象以及对象的类别进行检测的方式,容易出现误检情形的问题,提高了目标对象类别检测的精度,降低了误检概率。
具体适用场景一
图2b是本发明具体适用场景一中的一种目标对象类别检测模型的结构示意图,如图b所示,目标对象类别检测模型为两级检测模型结构,第一级检测模型为对象检测模型,对象检测模型又包括CNN(Convolutional Neural Network,卷积神经网络)模块、RPN模块以及分类回归模块。第二级检测模型为类别检测模型,包括分类模块。目标对象类别检测模型中还包括目标对象筛选模块、特征图变换与增广模块,以及特征融合模块。
在目标对象类别检测模型的训练过程中,CNN模块对样本图像进行深度特征提取,RPN模块基于深度特征进行候选框提取,生成候选对象样本图像,分类回归模块用于对候选对象样本图像进行分类和位置回归,获得候选对象样本图像的初始所属类别。目标对象筛选模块筛选出属于相似类别的候选对象样本图像,特征图变换与增广模块对筛选出的候选对象样本图像进行尺度变换,并通过图像融合和位置组合的方式,进行数据增广,生成新的样本图像。将候选对象样本图像和新生成的样本图像输入至类别检测模型的分类模块,进行精确分类。
训练得到目标对象类别检测模型之后,对待处理图像进行目标对象类别检测时,通过对象检测模型对待检测图像进行对象检测,得到对象图像以及对象的初始所属类别,目标对象筛选模块根据对象图像中对象的初始所属类别,以及预设的相似关系,在对象图像中筛选得到目标对象图像,将目标对象图像输入至类别检测模型,得到目标对象图像中对象的最终所属类别。
本适用场景中的技术方案,通过对象检测模型对待检测图像进行对象检测,获取对象图像和对象的初始所属类别,根据初始所属类别的预设相似关系,在对象图像中筛选得到目标对象图像,通过类别检测模型对目标对象图像进行类别检测,确定目标对象图像的最终所属类别。解决了现有技术中对图像中的目标对象以及对象的类别进行检测的方式,容易出现误检情形的问题,提高了目标对象类别检测的精度,降低了误检概率。
实施例三
图3是本发明实施例三中的一种目标对象的类别检测装置的结构示意图,如图3所示,该装置包括:对象检测模块310、目标对象图像获取模块320以及类别检测模块330。其中:
对象检测模块310,用于获取待检测图像,通过对象检测模型对待检测图像进行对象检测,得到对象图像以及对象的初始所属类别;
目标对象图像获取模块320,用于根据对象的初始所属类别以及预设相似关系,得到目标对象图像;
类别检测模块330,用于通过类别检测模型对目标对象图像进行类别检测,得到目标对象图像的最终所属类别。
本实施例的技术方案,通过对象检测模型对待检测图像进行对象检测,获取对象图像和对象的初始所属类别,根据初始所属类别的预设相似关系,在对象图像中筛选得到目标对象图像,通过类别检测模型对目标对象图像进行类别检测,确定目标对象图像的最终所属类别。解决了现有技术中对图像中的目标对象以及对象的类别进行检测的方式,容易出现误检情形的问题,提高了目标对象类别检测的精度,降低了误检概率。
在上述实施例的基础上,对象检测模块310,包括:
特征图像生成单元,用于通过对象检测模型的卷积神经网络模块,对待检测图像进行深度特征提取,生成特征图像;
对象图像生成单元,用于通过对象检测模型的区域生成模块,对特征图像进行对象提取,生成对象图像;
初始类别识别单元,用于通过对象检测模型的分类回归模块,对对象图像进行初始类别识别,得到对象的初始所属类别。
在上述实施例的基础上,目标对象图像获取模块320,包括:
目标对象图像获取单元,用于若根据预设相似关系确定对象的初始所属类别为预设相似类别,并且所述初始所属类别的置信度小于或者等于预设置信度阈值,则将所述对象图像作为目标对象图像。
在上述实施例的基础上,所述装置,还包括:
尺度变换模块,用于对目标对象图像进行尺度变换,得到标准尺度大小的目标对象图像。
在上述实施例的基础上,所述装置,还包括:
对象检测模型训练模块,用于根据样本图像集合,对预设的深度网络模型进行训练,得到对象检测模型;
类别检测模型训练模块,用于获取对象检测模型对样本图像进行处理后得到的候选对象样本图像,根据候选对象样本图像集合对预设的深度网络模型进行训练,得到类别检测模型。
在上述实施例的基础上,所述装置,还包括候选对象样本图像集合处理模块,用于对候选对象样本图像集合进行以下至少一项操作:
获取特征系数,根据特征系数对两张候选对象样本图像进行图像融合,将融合后的图像存储到候选对象样本图像集合中;
获取候选对象样本图像对应的回归前候选对象样本图像,对候选对象样本图像和回归前候选对象样本图像进行位置组合,将位置组合后的图像存储到候选对象样本图像集合中;
根据最大池化特征和最小池化特征,对候选对象样本图像进行系列特征融合,将系列特征融合后的图像存储到候选对象样本图像集合中。
在上述实施例的基础上,所述装置,还包括:
损失计算模块,用于根据对象检测模型的损失以及类别检测模型的损失进行加权求和;
模型融合模块,用于将对象检测模型和类别检测模型融合为目标对象类别检测模型,将加权求和得到的总损失作为目标对象类别检测模型的损失。
本发明实施例所提供的目标对象的类别检测装置可执行本发明任意实施例所提供的目标对象的类别检测方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4为本发明实施例四提供的一种计算机设备的结构示意图,如图4所示,该计算机设备包括处理器70、存储器71、输入装置72和输出装置73;计算机设备中处理器70的数量可以是一个或多个,图4中以一个处理器70为例;计算机设备中的处理器70、存储器71、输入装置72和输出装置73可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器71作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的目标对象的类别检测方法对应的模块(例如,目标对象的类别检测装置中的对象检测模块310、目标对象图像获取模块320以及类别检测模块330)。处理器70通过运行存储在存储器71中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的目标对象的类别检测方法。该方法包括:
获取待检测图像,通过对象检测模型对待检测图像进行对象检测,得到对象图像以及对象的初始所属类别;
根据对象的初始所属类别以及预设相似关系,得到目标对象图像;
通过类别检测模型对目标对象图像进行类别检测,得到目标对象图像的最终所属类别。
存储器71可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器71可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器71可进一步包括相对于处理器70远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置72可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置73可包括显示屏等显示设备。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种目标对象的类别检测方法,该方法包括:
获取待检测图像,通过对象检测模型对待检测图像进行对象检测,得到对象图像以及对象的初始所属类别;
根据对象的初始所属类别以及预设相似关系,得到目标对象图像;
通过类别检测模型对目标对象图像进行类别检测,得到目标对象图像的最终所属类别。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的目标对象的类别检测方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述目标对象的类别检测装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种目标对象的类别检测方法,其特征在于,包括:
获取待检测图像,通过对象检测模型对待检测图像进行对象检测,得到对象图像以及对象的初始所属类别;
根据对象的初始所属类别以及预设相似关系,得到目标对象图像;
通过类别检测模型对目标对象图像进行类别检测,得到目标对象图像中对象的最终所属类别。
2.根据权利要求1所述的方法,其特征在于,所述通过对象检测模型对待检测图像进行对象检测,得到对象图像以及对象的初始所属类别,包括:
通过对象检测模型的卷积神经网络模块,对待检测图像进行深度特征提取,生成特征图像;
通过对象检测模型的区域生成模块,对特征图像进行对象提取,生成对象图像;
通过对象检测模型的分类回归模块,对对象图像进行初始类别识别,得到对象的初始所属类别。
3.根据权利要求1所述的方法,其特征在于,所述根据对象的初始所属类别以及预设相似关系,得到目标对象图像,包括:
若根据预设相似关系确定对象的初始所属类别为预设相似类别,并且所述初始所属类别的置信度小于或者等于预设置信度阈值,则将所述对象图像作为目标对象图像。
4.根据权利要求1所述的方法,其特征在于,在得到目标对象图像之后,还包括:
对目标对象图像进行尺度变换,得到标准尺度大小的目标对象图像。
5.根据权利要求1所述的方法,其特征在于,在获取待检测图像之前,还包括:
根据样本图像集合,对预设的深度网络模型进行训练,得到对象检测模型;
获取对象检测模型对样本图像进行处理后得到的候选对象样本图像,根据候选对象样本图像集合对预设的深度网络模型进行训练,得到类别检测模型。
6.根据权利要求5所述的方法,其特征在于,获取对象检测模型对样本图像进行处理后得到的候选对象样本图像之后,还包括:
对候选对象样本图像集合进行以下至少一项操作:
获取特征系数,根据特征系数对两张候选对象样本图像进行图像融合,将融合后的图像存储到候选对象样本图像集合中;
获取候选对象样本图像对应的回归前候选对象样本图像,对候选对象样本图像和回归前候选对象样本图像进行位置组合,将位置组合后的图像存储到候选对象样本图像集合中;
根据最大池化特征和最小池化特征,对候选对象样本图像进行系列特征融合,将系列特征融合后的图像存储到候选对象样本图像集合中。
7.根据权利要求5所述的方法,其特征在于,得到类别检测模型之后,还包括:
根据对象检测模型的损失以及类别检测模型的损失进行加权求和;
将对象检测模型和类别检测模型融合为目标对象类别检测模型,将加权求和得到的总损失作为目标对象类别检测模型的损失。
8.一种目标对象的类别检测装置,其特征在于,包括:
对象检测模块,用于获取待检测图像,通过对象检测模型对待检测图像进行对象检测,得到对象图像以及对象的初始所属类别;
目标对象图像获取模块,用于根据对象的初始所属类别以及预设相似关系,得到目标对象图像;
类别检测模块,用于通过类别检测模型对目标对象图像进行类别检测,得到目标对象图像的最终所属类别。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的目标对象的类别检测方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的目标对象的类别检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110726112.5A CN113283396A (zh) | 2021-06-29 | 2021-06-29 | 目标对象的类别检测方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110726112.5A CN113283396A (zh) | 2021-06-29 | 2021-06-29 | 目标对象的类别检测方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113283396A true CN113283396A (zh) | 2021-08-20 |
Family
ID=77286155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110726112.5A Pending CN113283396A (zh) | 2021-06-29 | 2021-06-29 | 目标对象的类别检测方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113283396A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114627443A (zh) * | 2022-03-14 | 2022-06-14 | 小米汽车科技有限公司 | 目标检测方法、装置、存储介质、电子设备及车辆 |
WO2024109902A1 (zh) * | 2022-11-25 | 2024-05-30 | 中国科学院深圳先进技术研究院 | 一种基于视频超分辨率的多目标识别方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109760515A (zh) * | 2019-03-19 | 2019-05-17 | 艾礼富电子(深圳)有限公司 | 一种酒驾预警系统及车辆 |
CN110458107A (zh) * | 2019-08-13 | 2019-11-15 | 北京百度网讯科技有限公司 | 用于图像识别的方法和装置 |
CN111428586A (zh) * | 2020-03-09 | 2020-07-17 | 同济大学 | 基于特征融合与样本增强的三维人体姿态估计方法 |
CN112232241A (zh) * | 2020-10-22 | 2021-01-15 | 华中科技大学 | 一种行人重识别方法、装置、电子设备和可读存储介质 |
CN112232349A (zh) * | 2020-09-23 | 2021-01-15 | 成都佳华物链云科技有限公司 | 模型训练方法、图像分割方法及装置 |
CN112669271A (zh) * | 2020-12-22 | 2021-04-16 | 深圳酷派技术有限公司 | 物体表面缺陷检测方法、相关装置及计算机存储介质 |
-
2021
- 2021-06-29 CN CN202110726112.5A patent/CN113283396A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109760515A (zh) * | 2019-03-19 | 2019-05-17 | 艾礼富电子(深圳)有限公司 | 一种酒驾预警系统及车辆 |
CN110458107A (zh) * | 2019-08-13 | 2019-11-15 | 北京百度网讯科技有限公司 | 用于图像识别的方法和装置 |
CN111428586A (zh) * | 2020-03-09 | 2020-07-17 | 同济大学 | 基于特征融合与样本增强的三维人体姿态估计方法 |
CN112232349A (zh) * | 2020-09-23 | 2021-01-15 | 成都佳华物链云科技有限公司 | 模型训练方法、图像分割方法及装置 |
CN112232241A (zh) * | 2020-10-22 | 2021-01-15 | 华中科技大学 | 一种行人重识别方法、装置、电子设备和可读存储介质 |
CN112669271A (zh) * | 2020-12-22 | 2021-04-16 | 深圳酷派技术有限公司 | 物体表面缺陷检测方法、相关装置及计算机存储介质 |
Non-Patent Citations (2)
Title |
---|
李宗民;邢敏敏;刘玉杰;李华;: "结合Faster RCNN和相似性度量的行人目标检测", 图学学报, no. 05, 15 October 2018 (2018-10-15), pages 2 * |
李宗民等: "结合Faster RCNN和相似性度量的行人目标检测", 《图学学报》, pages 2 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114627443A (zh) * | 2022-03-14 | 2022-06-14 | 小米汽车科技有限公司 | 目标检测方法、装置、存储介质、电子设备及车辆 |
WO2024109902A1 (zh) * | 2022-11-25 | 2024-05-30 | 中国科学院深圳先进技术研究院 | 一种基于视频超分辨率的多目标识别方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109087510B (zh) | 交通监测方法及装置 | |
CN109086811B (zh) | 多标签图像分类方法、装置及电子设备 | |
CN111368636B (zh) | 目标分类方法、装置、计算机设备和存储介质 | |
CN112508975A (zh) | 一种图像识别方法、装置、设备及存储介质 | |
CN111274926B (zh) | 图像数据筛选方法、装置、计算机设备和存储介质 | |
CN109409288B (zh) | 图像处理方法、装置、电子设备和存储介质 | |
CN112861917B (zh) | 基于图像属性学习的弱监督目标检测方法 | |
CN112492343A (zh) | 一种视频直播监控方法及相关装置 | |
CN114187311A (zh) | 一种图像语义分割方法、装置、设备及存储介质 | |
CN110942456B (zh) | 篡改图像检测方法、装置、设备及存储介质 | |
CN113283396A (zh) | 目标对象的类别检测方法、装置、计算机设备和存储介质 | |
CN112528058B (zh) | 基于图像属性主动学习的细粒度图像分类方法 | |
CN113487610A (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN111259823A (zh) | 一种基于卷积神经网络的色情图像识别方法 | |
CN111368634B (zh) | 基于神经网络的人头检测方法、系统及存储介质 | |
CN113780145A (zh) | 精子形态检测方法、装置、计算机设备和存储介质 | |
CN111738319A (zh) | 一种基于大规模样本的聚类结果评价方法及装置 | |
CN111539456A (zh) | 一种目标识别方法及设备 | |
CN113011528B (zh) | 一种基于上下文和级联结构的遥感图像小目标检测方法 | |
CN116843677A (zh) | 钣金件的外观质量检测系统及其方法 | |
CN116109874A (zh) | 一种检测方法、装置、电子设备和存储介质 | |
CN111488776A (zh) | 对象检测方法、对象检测装置和电子设备 | |
CN114330542A (zh) | 一种基于目标检测的样本挖掘方法、装置及存储介质 | |
CN112784691B (zh) | 一种目标检测模型训练方法、目标检测方法和装置 | |
CN112199984B (zh) | 一种大尺度遥感图像的目标快速检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |