CN112949583A - 复杂城市场景的目标检测方法、系统、设备及存储介质 - Google Patents
复杂城市场景的目标检测方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN112949583A CN112949583A CN202110342241.4A CN202110342241A CN112949583A CN 112949583 A CN112949583 A CN 112949583A CN 202110342241 A CN202110342241 A CN 202110342241A CN 112949583 A CN112949583 A CN 112949583A
- Authority
- CN
- China
- Prior art keywords
- self
- classifier
- target detection
- supervision
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 143
- 239000013598 vector Substances 0.000 claims abstract description 57
- 238000007781 pre-processing Methods 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 27
- 238000000034 method Methods 0.000 claims description 25
- 238000005070 sampling Methods 0.000 claims description 18
- 239000000126 substance Substances 0.000 claims description 18
- 238000012544 monitoring process Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 14
- 230000000694 effects Effects 0.000 description 6
- 238000012795 verification Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000000704 physical effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了复杂城市场景的目标检测方法,包括如下步骤,构建目标检测模型、自监督分类器,其中,目标检测模型、自监督分类器共享特征提取器;判断数据集中目标图像是否需要预处理,若否,则输入特征提取器进行特征提取,获得特征向量,并将特征向量输入目标检测模型,预测目标图像标签;若是则对图片进行预处理,并将输入特征提取器获得的特征向量输入自监督分类器,预测处理结果。另外,还公开了装置、设备及存储介质,本发明通过共享特征提取器在目标检测任务和自监督任务上的共同训练,实现更优的特征提取功能,可在一定程度上提高目标检测算法的准确率,并广泛适用于复杂城市场景图像的目标检测当中。
Description
技术领域
本发明涉及图像识别技术领域,尤其涉及一种复杂城市场景的目标检测 方法、检测系统、设备及存储介质。
背景技术
目标的可靠检测是实现自动驾驶的关键要求。由于车辆与许多其他交通 参与者共用道路,特别是在城市地区,因此车辆的智能算法中心需要具备识 别其他交通参与者或障碍物的能力,以避免可能危及生命的事故。在城市中, 由于目标的外观和遮挡的多样性,使得目标的检测比较困难。此外,物体之 间的相似性或与背景的相似性以及投射阴影或反射等物理效果会使物体的检 测变得困难。
目标检测算法的关键在于学出有效的表征,然而,城市场景中的目标检 测,存在着目标类别多,目标样本数量少等问题,阻碍了目标检测算法的准 确性。因此,如何利用尽可能少的目标样本,训练模型,以识别尽可能多的 类别,成为城市场景中的目标检测的挑战。
自监督学习可以训练模型学出有效的表征。自监督学习是一种无监督算 法,只使用图像中的视觉信息,而无需标签即可训练模型学出有效的表征。 通过大量无需标注的样本,即可学出多样化的图像表征,从而实现高效的目 标检测。然而,如何将自监督学习结合到目标检测方法中,仍然是一个挑战。
总而言之,目前的目标检测系统和算法无法很好地结合自监督学习缓解 样本数量不足带来的性能问题,也就限制了其在城市场景中的应用。
发明内容
本发明要解决的技术问题在于,提供一种可有效提高目标检测准确率的 复杂城市场景的目标检测方法;另外,还提供一种复杂城市场景的目标检测 系统。
本发明解决其技术问题所采用的技术方案是:第一方面,该复杂城市场 景的目标检测方法,包括如下步骤,
S10、构建目标检测模型、自监督分类器,其中,目标检测模型、自监督 分类器共享特征提取器;
S20、判断数据集中目标图像是否需要预处理,若否则执行步骤S30,若 是则执行步骤S40;
S30、输入特征提取器进行特征提取,获得特征向量,并将特征向量输入 目标检测模型,预测目标图像标签;
S40、则对图片进行预处理,并将输入特征提取器获得的特征向量输入自 监督分类器,预测处理结果。
进一步地,所述自监督分类器包括自监督旋转分类器;
所述S40中对图片进行预处理,并将输入特征提取器获得的特征向量输 入自监督分类器,预测处理结果,包括
对目标图像进行0°、90°、180°或270°的随机旋转,获取旋转后的 旋转图像及旋转角度标签;
将旋转图像输入特征提取器,获得特征向量;
将特征向量输入自监督旋转分类器,获得预测角度旋转结果。
进一步地,所述自监督分类器包括自监督位置区域分类器;
所述步骤S40中对图片进行预处理,并将输入特征提取器获得的特征向 量输入自监督分类器,预测处理结果,包括
对目标图像进行裁切,裁切成四区域图像及区域标签;
将四区域图像输入特征提取器,获得特征向量;
将特征向量输入自监督位置区域分类器,获得预测区域分类结果。
进一步地,目标检测模型及自监督分类器为共同训练,其中,构建所述 目标检测模型通过如下步骤:
S100、初始化:随机初始化特征提取器参数、目标检测模型参数、自监 督旋转角度分类器参数以及自监督位置区域分类器参数;
S200、数据采样:从数据集中随机采样图像及标签,按比例采样得到支 持集S和查询集Q;
S300、网络训练:对于支持集S内的每个图像x,目标检测模型无需图像 预处理,自监督旋转分类和自监督位置区域分类需要图像预处理;包括如下 步骤,
S301、图像x通过共享特征提取器Fθ后得到的特征向量为Fθ(x),特征向 量Fθ(x)输入到目标检测模型后,得到的预测结果为:
C(Fθ(x);S)=softmax[sim(Fθ(x),W)]
其中,sim(.,.)是一个余弦相似度函数,W是目标检测模型的网络参数, 计算得到的结果C是每个类的归一化分类概率值,值最大的类即为预测结果;
目标检测模型的损失函数Lobj为
S302、自监督旋转分类器对给定的图像x进行旋转,得到四个旋转图像 {xr|r∈{0°,90°,180°,270°}},其中Xr是图像x旋转r角度得到的;
四个旋转图像xr输入共享特征提取器Fθ,得到Fθ(xr),自监督旋 转分类器Rφ预测旋转角度r,其损失函数为:
自监督位置区域分类器Pφ(·,·)预测区域位置,其损失函数为:
S400、更新网络参数:根据目标检测模型、自监督旋转角度分类器及自 监督位置区域分类器损失计算总损失:
L=Lobj+Lrot+Lloc
S500、计算总损失相对目标检测模型参数的梯度,并更新网络参数,其 中包括特征提取器参数、目标检测模型参数、自监督旋转角度分类器参数以 及自监督位置区域分类器参数,直至网络参数收敛;
S600、预测:将查询集的图像输入收敛后的特征提取器和目标检测模型, 得到查询集图像标签。
第二方面,还提供一种复杂城市场景的目标检测系统,包括目标检测模 型、自监督分类器、特征提取器及判断单元,其中,目标检测模型、自监督 分类器共享特征提取器;
所述判断单元,用于判断数据集中目标图像是否需要预处理;
所述特征提取器用于在输入特征提取器目标图像后进行特征提取,获得 特征向量;
所述目标检测模型用于接收输入的特征向量并预测目标图像标签;
所述自监督分类器用于接收输入的特征向量并预测处理结果。
进一步地,所述自监督分类器包括第一预处理单元及自监督旋转分类器;
所述第一预处理单元用于对目标图像进行0°、90°、180°或270°的 随机旋转,获取旋转后的旋转图像及旋转角度标签;
所述自监督旋转分类器用于接收特征向量输入,并获得预测角度旋转结 果。
进一步地,所述自监督分类器包括第二预处理单元及自监督位置区域分 类器;
所述第二预处理单元用于对目标图像进行裁切,裁切成四区域图像及区 域标签;
所述自监督位置区域分类器用于接收特征向量输入,获得预测区域分类 结果。
进一步地,目标检测模型及自监督分类器为共同训练,构建所述目标检 测模型包括:
初始化单元用于随机初始化特征提取器参数、目标检测模型参数、自监 督旋转角度分类器参数以及自监督位置区域分类器参数;
数据采样单元用于从数据集中随机采样图像及标签,按比例采样得到支 持集S和查询集Q;
网络训练单元用于对于支持集S内的每个图像x,目标检测模型无需图像 预处理,自监督旋转分类和自监督位置区域分类需要图像预处理;包括如下 步骤,S301、图像x通过共享特征提取器Fθ后得到的特征向量为Fθ(x),特征 向量Fθ(x)输入到目标检测模型后,得到的预测结果为:
C(Fθ(x);S)=softmax[sim(Fθ(x),W)]
其中,sim(.,.)是一个余弦相似度函数,W是目标检测模型的网络参数, 计算得到的结果C是每个类的归一化分类概率值,值最大的类即为预测结果;
目标检测模型的损失函数Lobj为
自监督旋转分类器对给定的图像x进行旋转,得到四个旋转图像 {xr|r∈{0°,90°,180°,270°}},其中xr是图像x旋转r角度得到的;
四个旋转图像xr输入共享特征提取器Fθ,得到Fθ(xr),自监督旋 转分类器Rφ预测旋转角度r,其损失函数为:
自监督位置区域分类器Pφ(·,·)预测区域位置,其损失函数为:
更新网络参数用于根据目标检测模型、自监督旋转角度分类器及自监督 位置区域分类器损失计算总损失:
L=Lobj+Lrot+Lloc
梯度计算单元用于计算总损失相对目标检测模型参数的梯度,并更新网 络参数,其中包括特征提取器参数、目标检测模型参数、自监督旋转角度分 类器参数以及自监督位置区域分类器参数,直至网络参数收敛;
输出单元用于将查询集的图像输入收敛后的特征提取器和目标检测模 型,得到查询集图像标签。
第三方面,还提供一种包括
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个 或多个处理器执行上述任一项所述的方法。
第四方面,还提供一种存储有计算机程序的存储介质,该程序被处理器 执行时实现上述任一项所述的方法。
本发明通过共享特征提取器在目标检测任务和自监督任务上的共同训 练,实现更优的特征提取功能,可在一定程度上提高目标检测算法的准确率, 并广泛适用于复杂城市场景图像的目标检测当中。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的整体流程图;
图2是本发明实施例的目标检测模型的示意图;
图3是本发明实施例的复杂场景效果图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图 详细说明本发明的具体实施方式。
如图1-2所示,该复杂城市场景的目标检测方法,包括如下步骤,
S10、构建目标检测模型、自监督分类器,其中,目标检测模型、自监督 分类器共享特征提取器;
S20、判断数据集中目标图像是否需要预处理,若否则执行步骤S30,若 是则执行步骤S40;
S30、输入特征提取器进行特征提取,获得特征向量,并将特征向量输入 目标检测模型,预测目标图像标签;
S40、则对图片进行预处理,并将输入特征提取器获得的特征向量输入自 监督分类器,预测处理结果。
本发明通过共享特征提取器在目标检测任务和自监督任务上的共同训 练,实现更优的特征提取功能,可在一定程度上提高目标检测算法的准确率, 并广泛适用于复杂城市场景图像的目标检测当中。
自监督分类器包括自监督旋转分类器;
S40中对图片进行预处理,并将输入特征提取器获得的特征向量输入自监 督分类器,预测处理结果,包括
对目标图像进行0°、90°、180°或270°的随机旋转,获取旋转后的 旋转图像及旋转角度标签;
将旋转图像输入特征提取器,获得特征向量;
将特征向量输入自监督旋转分类器,获得预测角度旋转结果。
自监督分类器包括自监督位置区域分类器;
步骤S40中对图片进行预处理,并将输入特征提取器获得的特征向量输 入自监督分类器,预测处理结果,包括
对目标图像进行裁切,裁切成四区域图像及区域标签;
将四区域图像输入特征提取器,获得特征向量;
将特征向量输入自监督位置区域分类器,获得预测区域分类结果。
目标检测模型及自监督分类器为共同训练,其中,构建目标检测模型通 过如下步骤:
S100、初始化:随机初始化特征提取器参数、目标检测模型参数、自监 督旋转角度分类器参数以及自监督位置区域分类器参数;
S200、数据采样:从数据集中随机采样图像及标签,按比例采样得到支 持集S和查询集Q;
S300、网络训练:对于支持集S内的每个图像x,目标检测模型无需图像 预处理,自监督旋转分类和自监督位置区域分类需要图像预处理;包括如下 步骤,
S301、图像x通过共享特征提取器Fθ后得到的特征向量为Fθ(x),特征向 量Fθ(x)输入到目标检测模型后,得到的预测结果为:
C(Fθ(x);S)=softmax[sim(Fθ(x),W)]
其中,sim(.,.)是一个余弦相似度函数,W是目标检测模型的网络参数, 计算得到的结果C是每个类的归一化分类概率值,值最大的类即为预测结果;
目标检测模型的损失函数Lobj为
S302、自监督旋转分类器对给定的图像x进行旋转,得到四个旋转图像 {xr|r∈{0°,90°,180°,270°}},其中xr是图像x旋转r角度得到的;
四个旋转图像xr输入共享特征提取器Fθ,得到Fθ(xr),自监督旋 转分类器Rφ预测旋转角度r,其损失函数为:
自监督位置区域分类器Pφ(·,·)预测区域位置,其损失函数为:
S400、更新网络参数:根据目标检测模型、自监督旋转角度分类器及自 监督位置区域分类器损失计算总损失:
L=Lobj+Lrot+Lloc
S500、计算总损失相对目标检测模型参数的梯度,并更新网络参数,其 中包括特征提取器参数、目标检测模型参数、自监督旋转角度分类器参数以 及自监督位置区域分类器参数,直至网络参数收敛;
S600、预测:将查询集的图像输入收敛后的特征提取器和目标检测模型, 得到查询集图像标签。
第二方面,还提供一种复杂城市场景的目标检测系统,包括目标检测模 型、自监督分类器、特征提取器及判断单元,其中,目标检测模型、自监督 分类器共享特征提取器;
判断单元,用于判断数据集中目标图像是否需要预处理;
特征提取器用于在输入特征提取器目标图像后进行特征提取,获得特征 向量;
目标检测模型用于接收输入的特征向量并预测目标图像标签;
自监督分类器用于接收输入的特征向量并预测处理结果。
自监督分类器包括第一预处理单元及自监督旋转分类器;
第一预处理单元用于对目标图像进行0°、90°、180°或270°的随机 旋转,获取旋转后的旋转图像及旋转角度标签;
自监督旋转分类器用于接收特征向量输入,并获得预测角度旋转结果。
自监督分类器包括第二预处理单元及自监督位置区域分类器;
第二预处理单元用于对目标图像进行裁切,裁切成四区域图像及区域标 签;
自监督位置区域分类器用于接收特征向量输入,获得预测区域分类结果。
目标检测模型及自监督分类器为共同训练,构建目标检测模型包括:
初始化单元用于随机初始化特征提取器参数、目标检测模型参数、自监 督旋转角度分类器参数以及自监督位置区域分类器参数;
数据采样单元用于从数据集中随机采样图像及标签,按比例采样得到支 持集S和查询集Q;
网络训练单元用于对于支持集S内的每个图像x,目标检测模型无需图像 预处理,自监督旋转分类和自监督位置区域分类需要图像预处理;包括如下 步骤,S301、图像x通过共享特征提取器Fθ后得到的特征向量为Fθ(x),特征 向量Fθ(x)输入到目标检测模型后,得到的预测结果为:
C(Fθ(x);S)=softmax[sim(Fθ(x),W)]
其中,sim(.,.)是一个余弦相似度函数,W是目标检测模型的网络参数, 计算得到的结果C是每个类的归一化分类概率值,值最大的类即为预测结果;
目标检测模型的损失函数Lobj为
自监督旋转分类器对给定的图像x进行旋转,得到四个旋转图像 {xr|r∈{0°,90°,180°,270°}},其中xr是图像x旋转r角度得到的;
四个旋转图像xr输入共享特征提取器Fθ,得到Fθ(xr),自监督旋 转分类器Rφ预测旋转角度r,其损失函数为:
自监督位置区域分类器Pφ(·,·)预测区域位置,其损失函数为:
更新网络参数用于根据目标检测模型、自监督旋转角度分类器及自监督 位置区域分类器损失计算总损失:
L=Lobj+Lrot+Lloc
梯度计算单元用于计算总损失相对目标检测模型参数的梯度,并更新网 络参数,其中包括特征提取器参数、目标检测模型参数、自监督旋转角度分 类器参数以及自监督位置区域分类器参数,直至网络参数收敛;
输出单元用于将查询集的图像输入收敛后的特征提取器和目标检测模 型,得到查询集图像标签。
第三方面,还提供一种设备,包括
一个或多个处理器;
存储器,用于存储一个或多个程序,
当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器 执行上述任一项的方法。
该设备包括处理单元、存储器、总线、外部设备、I/O接口以及网络适配 器,该存储器包括随机存取存储器(random access memory,RAM)、高速缓存 存储器、只读存储器(Read-Only Memory,ROM)以及至少一片存储单元构成 的存储单元阵列。其中该存储器,用于存储处理单元执行的程序或指令;该 处理单元,用于根据该存储器存储的程序或指令,执行上述对应的本发明示 例性实施方式中的方法;该I/O接口,用于在该处理单元的控制下接收或发送 数据。
第四方面,还提供一种存储有计算机程序的存储介质,该程序被处理器 执行时实现上述任一项的方法。
如图3所示复杂场景效果图为利用本申请的方法取得的较佳检测效果, 利用本申请的方法检测效率、精确度等大大提升,下面申请人将结合具体示 例佐证其应用效果。
本次效果验证,本申请人采用了大量的实验,包括视觉数据库目标检测 任务,车道目标检测任务,车辆目标检测任务。
视觉数据库目标检测任务及数据集介绍如下:
使用经典的公开数据集ImageNet进行目标检测任务。目标检测任务是给 定64个类别作为训练集,16个类别作为验证集,20个类别作为测试集。算 法在训练集上训练,并通过验证集的结果评价模型收敛情况,将验证集上测 试最优的算法在测试集上评估,以评价不同算法的性能。
城市车道目标检测任务、城市车辆目标检测任务及数据集介绍如下:
使用公开的城市场景数据集Apollo中的城市车道检测数据集和城市车辆 检测数据集进行目标检测任务。城市车道和车辆目标检测任务均选取60%的图 像作为训练集,20%的图像作为验证集,20%的图像作为测试集。算法在训练 集上训练,并通过验证集的结果评价模型收敛情况,将验证集上测试最优的 算法在测试集上评估,以评价不同算法的性能。
实验结果:
实施在视觉数据库目标检测任务上的实验如表一所示,实施在城市车道目 标检测任务、城市车辆目标检测任务上的实验分别如表二和表三所示,表一、 表二和表三说明了本方案的方法和其他基线方法在预测准确率(Accuracy) 方面的性能,其中每种情况下的最高值用黑体突出显示。结果表明,我们所 提出的方法(Ours)在所有情况下都达到了最佳性能。更具体地说,没有考虑 不同语义层面信息的方法如ResNet18,VGG19等都无法取得最优的性能。
而考虑了不同语义层面信息的本方案的方法,在三个不同的目标检测任 务上都取得了最优的性能,尤其是在复杂城市场景的城市车道目标检测任务、 城市车辆目标检测任务上取得了最优的性能。这是由于自监督分类器和目标 检测器关注的是不同语义层面上的信息,通过损失函数的梯度更新共享特征 提取器,提升共享特征提取器的性能,从而提高泛化能力。
表一
表二
表三
Claims (10)
1.一种复杂城市场景的目标检测方法,其特征在于,包括如下步骤,
S10、构建目标检测模型、自监督分类器,其中,目标检测模型、自监督分类器共享特征提取器;
S20、判断数据集中目标图像是否需要预处理,若否则执行步骤S30,若是则执行步骤S40;
S30、输入特征提取器进行特征提取,获得特征向量,并将特征向量输入目标检测模型,预测目标图像标签;
S40、则对图片进行预处理,并将输入特征提取器获得的特征向量输入自监督分类器,预测处理结果。
2.根据权利要求1所述的种复杂城市场景的目标检测方法,其特征在于,所述自监督分类器包括自监督旋转分类器;
所述S40中对图片进行预处理,并将输入特征提取器获得的特征向量输入自监督分类器,预测处理结果,包括
对目标图像进行0°、90°、180°或270°的随机旋转,获取旋转后的旋转图像及旋转角度标签;
将旋转图像输入特征提取器,获得特征向量;
将特征向量输入自监督旋转分类器,获得预测角度旋转结果。
3.根据权利要求2所述的复杂城市场景的目标检测方法,其特征在于,所述自监督分类器包括自监督位置区域分类器;
所述步骤S40中对图片进行预处理,并将输入特征提取器获得的特征向量输入自监督分类器,预测处理结果,包括
对目标图像进行裁切,裁切成四区域图像及区域标签;
将四区域图像输入特征提取器,获得特征向量;
将特征向量输入自监督位置区域分类器,获得预测区域分类结果。
4.根据权利要求3所述的复杂城市场景的目标检测方法,其特征在于,目标检测模型及自监督分类器为共同训练,其中,构建所述目标检测模型通过如下步骤:
S100、初始化:随机初始化特征提取器参数、目标检测模型参数、自监督旋转角度分类器参数以及自监督位置区域分类器参数;
S200、数据采样:从数据集中随机采样图像及标签,按比例采样得到支持集S和查询集Q;
S300、网络训练:对于支持集S内的每个图像x,目标检测模型无需图像预处理,自监督旋转分类和自监督位置区域分类需要图像预处理;包括如下步骤,
S301、图像x通过共享特征提取器Fθ后得到的特征向量为Fθ(x),特征向量Fθ(x)输入到目标检测模型后,得到的预测结果为:
C(Fθ(x);S)=softmax[sim(Fθ(x),W)]
其中,sim(.,.)是一个余弦相似度函数,W是目标检测模型的网络参数,计算得到的结果C是每个类的归一化分类概率值,值最大的类即为预测结果;
目标检测模型的损失函数Lobj为
S302、自监督旋转分类器对给定的图像x进行旋转,得到四个旋转图像{xr|r∈{0°,90°,180°,270°}},其中xr是图像x旋转r角度得到的;
四个旋转图像xr输入共享特征提取器Fθ,得到Fθ(xr),自监督旋转分类器Rφ预测旋转角度r,其损失函数为:
自监督位置区域分类器Pφ(·,·)预测区域位置,其损失函数为:
S400、更新网络参数:根据目标检测模型、自监督旋转角度分类器及自监督位置区域分类器损失计算总损失:
L=Lobj+Lrot+Lloc
S500、计算总损失相对目标检测模型参数的梯度,并更新网络参数,其中包括特征提取器参数、目标检测模型参数、自监督旋转角度分类器参数以及自监督位置区域分类器参数,直至网络参数收敛;
S600、预测:将查询集的图像输入收敛后的特征提取器和目标检测模型,得到查询集图像标签。
5.一种复杂城市场景的目标检测系统,其特征在于,包括目标检测模型、自监督分类器、特征提取器及判断单元,其中,目标检测模型、自监督分类器共享特征提取器;
所述判断单元,用于判断数据集中目标图像是否需要预处理;
所述特征提取器用于在输入特征提取器目标图像后进行特征提取,获得特征向量;
所述目标检测模型用于接收输入的特征向量并预测目标图像标签;
所述自监督分类器用于接收输入的特征向量并预测处理结果。
6.根据权利要求5所述的复杂城市场景的目标检测系统,其特征在于,所述自监督分类器包括第一预处理单元及自监督旋转分类器;
所述第一预处理单元用于对目标图像进行0°、90°、180°或270°的随机旋转,获取旋转后的旋转图像及旋转角度标签;
所述自监督旋转分类器用于接收特征向量输入,并获得预测角度旋转结果。
7.根据权利要求5所述的复杂城市场景的目标检测系统,其特征在于,所述自监督分类器包括第二预处理单元及自监督位置区域分类器;
所述第二预处理单元用于对目标图像进行裁切,裁切成四区域图像及区域标签;
所述自监督位置区域分类器用于接收特征向量输入,获得预测区域分类结果。
8.根据权利要求5所述的复杂城市场景的目标检测系统,其特征在于,目标检测模型及自监督分类器为共同训练,构建所述目标检测模型包括:
初始化单元用于随机初始化特征提取器参数、目标检测模型参数、自监督旋转角度分类器参数以及自监督位置区域分类器参数;
数据采样单元用于从数据集中随机采样图像及标签,按比例采样得到支持集S和查询集Q;
网络训练单元用于对于支持集S内的每个图像x,目标检测模型无需图像预处理,自监督旋转分类和自监督位置区域分类需要图像预处理;包括如下步骤,S301、图像x通过共享特征提取器Fθ后得到的特征向量为Fθ(x),特征向量Fθ(x)输入到目标检测模型后,得到的预测结果为:
C(Fθ(x);S)=softmax[sim(Fθ(x),W)]
其中,sim(.,.)是一个余弦相似度函数,W是目标检测模型的网络参数,计算得到的结果C是每个类的归一化分类概率值,值最大的类即为预测结果;
目标检测模型的损失函数Lobj为
自监督旋转分类器对给定的图像x进行旋转,得到四个旋转图像{xr|r∈{0°,90°,180°,270°}},其中xr是图像x旋转r角度得到的;
四个旋转图像xr输入共享特征提取器Fθ,得到Fθ(xr),自监督旋转分类器Rφ预测旋转角度r,其损失函数为:
自监督位置区域分类器Pφ(·,·)预测区域位置,其损失函数为:
更新网络参数用于根据目标检测模型、自监督旋转角度分类器及自监督位置区域分类器损失计算总损失:
L=Lobj+Lrot+Lloc
梯度计算单元用于计算总损失相对目标检测模型参数的梯度,并更新网络参数,其中包括特征提取器参数、目标检测模型参数、自监督旋转角度分类器参数以及自监督位置区域分类器参数,直至网络参数收敛;
输出单元用于将查询集的图像输入收敛后的特征提取器和目标检测模型,得到查询集图像标签。
9.一种设备,其特征在于,包括
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1-4中任一项所述的方法。
10.一种存储有计算机程序的存储介质,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110342241.4A CN112949583A (zh) | 2021-03-30 | 2021-03-30 | 复杂城市场景的目标检测方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110342241.4A CN112949583A (zh) | 2021-03-30 | 2021-03-30 | 复杂城市场景的目标检测方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112949583A true CN112949583A (zh) | 2021-06-11 |
Family
ID=76230932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110342241.4A Pending CN112949583A (zh) | 2021-03-30 | 2021-03-30 | 复杂城市场景的目标检测方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112949583A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113469296A (zh) * | 2021-09-03 | 2021-10-01 | 广东众聚人工智能科技有限公司 | 基于少量标签数据自监督联合学习的图像分类方法及系统 |
CN113705662A (zh) * | 2021-08-26 | 2021-11-26 | 中国银联股份有限公司 | 一种协同训练方法、装置及计算机可读存储介质 |
CN114595780A (zh) * | 2022-03-15 | 2022-06-07 | 百度在线网络技术(北京)有限公司 | 图文处理模型训练及图文处理方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919209A (zh) * | 2019-02-26 | 2019-06-21 | 中国人民解放军军事科学院国防科技创新研究院 | 一种领域自适应深度学习方法及可读存储介质 |
CN111046855A (zh) * | 2019-06-21 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 图片识别方法、识别模型训练方法、装置及电子装置 |
CN111259366A (zh) * | 2020-01-22 | 2020-06-09 | 支付宝(杭州)信息技术有限公司 | 一种基于自监督学习的验证码识别器的训练方法和装置 |
CN112052754A (zh) * | 2020-08-24 | 2020-12-08 | 西安电子科技大学 | 基于自监督表征学习的极化sar影像地物分类方法 |
CN112348792A (zh) * | 2020-11-04 | 2021-02-09 | 广东工业大学 | 一种基于小样本学习和自监督学习的x光胸片图像分类方法 |
-
2021
- 2021-03-30 CN CN202110342241.4A patent/CN112949583A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919209A (zh) * | 2019-02-26 | 2019-06-21 | 中国人民解放军军事科学院国防科技创新研究院 | 一种领域自适应深度学习方法及可读存储介质 |
CN111046855A (zh) * | 2019-06-21 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 图片识别方法、识别模型训练方法、装置及电子装置 |
CN111259366A (zh) * | 2020-01-22 | 2020-06-09 | 支付宝(杭州)信息技术有限公司 | 一种基于自监督学习的验证码识别器的训练方法和装置 |
CN112052754A (zh) * | 2020-08-24 | 2020-12-08 | 西安电子科技大学 | 基于自监督表征学习的极化sar影像地物分类方法 |
CN112348792A (zh) * | 2020-11-04 | 2021-02-09 | 广东工业大学 | 一种基于小样本学习和自监督学习的x光胸片图像分类方法 |
Non-Patent Citations (2)
Title |
---|
SPYROS GIDARIS,ANDREI BURSUC,NIKOS KOMODAKIS AND ET AL: "《Boosting Few-Shot Visual Learning With Self-Supervision》", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 * |
疏颖,毛龙彪,陈思,严严: "《结合自监督学习和生成对抗网络的小样本人脸属性识别》", 《中国图象图形学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705662A (zh) * | 2021-08-26 | 2021-11-26 | 中国银联股份有限公司 | 一种协同训练方法、装置及计算机可读存储介质 |
CN113469296A (zh) * | 2021-09-03 | 2021-10-01 | 广东众聚人工智能科技有限公司 | 基于少量标签数据自监督联合学习的图像分类方法及系统 |
CN114595780A (zh) * | 2022-03-15 | 2022-06-07 | 百度在线网络技术(北京)有限公司 | 图文处理模型训练及图文处理方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112949583A (zh) | 复杂城市场景的目标检测方法、系统、设备及存储介质 | |
CN111666921B (zh) | 车辆控制方法、装置、计算机设备和计算机可读存储介质 | |
CN111612008B (zh) | 基于卷积网络的图像分割方法 | |
US20200349847A1 (en) | System and method for camera or sensor-based parking spot detection and identification | |
CN109711416B (zh) | 目标识别方法、装置、计算机设备和存储介质 | |
CN109948707B (zh) | 模型训练方法、装置、终端及存储介质 | |
CN115035361A (zh) | 基于注意力机制和特征交叉融合的目标检测方法及系统 | |
CN111582182A (zh) | 船舶名称识别方法、系统、计算机设备及存储介质 | |
CN113065427A (zh) | 一种车辆停车状态确定方法、装置、设备和存储介质 | |
CN116563680A (zh) | 基于高斯混合模型的遥感图像特征融合方法、电子设备 | |
CN113673505A (zh) | 实例分割模型的训练方法、装置、系统及存储介质 | |
CN115375899A (zh) | 点云语义分割网络训练方法、点云语义分割方法及装置 | |
CN110909656A (zh) | 一种雷达与摄像机融合的行人检测方法和系统 | |
Gao et al. | An automatic verification method for vehicle line-pressing violation based on CNN and geometric projection | |
CN115222690A (zh) | 基于球体iou损失和降假阳多任务的肺结节检测方法及装置 | |
Jin | Real-time parking sign detection for smart street parking | |
CN114677508A (zh) | 一种基于动态滤波和逐点相关的点云实例语义分割方法 | |
CN114359352A (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 | |
CN113128492A (zh) | 一种票据文本定位方法和装置 | |
Yu et al. | Construction of garden landscape design system based on multimodal intelligent computing and deep neural network | |
Liu et al. | Efficient dense attention fusion network with channel correlation loss for road damage detection | |
CN115775377B (zh) | 图像和方向盘转向角度融合的自动驾驶车道线分割方法 | |
CN117372983B (zh) | 一种低算力的自动驾驶实时多任务感知方法及装置 | |
Singh et al. | Improved YOLOv5l for vehicle detection: an application to estimating traffic density and identifying over speeding vehicles on highway scenes | |
CN118015397A (zh) | 自动驾驶的困难样本的确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210611 |
|
RJ01 | Rejection of invention patent application after publication |