CN116071625A - 深度学习模型的训练方法、目标检测方法及装置 - Google Patents
深度学习模型的训练方法、目标检测方法及装置 Download PDFInfo
- Publication number
- CN116071625A CN116071625A CN202310206397.9A CN202310206397A CN116071625A CN 116071625 A CN116071625 A CN 116071625A CN 202310206397 A CN202310206397 A CN 202310206397A CN 116071625 A CN116071625 A CN 116071625A
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- deep learning
- learning model
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013136 deep learning model Methods 0.000 title claims abstract description 259
- 238000001514 detection method Methods 0.000 title claims abstract description 259
- 238000000034 method Methods 0.000 title claims abstract description 107
- 238000012549 training Methods 0.000 title claims abstract description 71
- 238000012545 processing Methods 0.000 claims abstract description 243
- 238000009826 distribution Methods 0.000 claims abstract description 221
- 230000006870 function Effects 0.000 claims abstract description 49
- 238000012216 screening Methods 0.000 claims description 82
- 238000000605 extraction Methods 0.000 claims description 60
- 238000010586 diagram Methods 0.000 claims description 56
- 238000010606 normalization Methods 0.000 claims description 48
- 238000004821 distillation Methods 0.000 claims description 44
- 230000008569 process Effects 0.000 claims description 35
- 230000009466 transformation Effects 0.000 claims description 30
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000013140 knowledge distillation Methods 0.000 description 21
- 238000004590 computer program Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 8
- 238000005070 sampling Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000003623 enhancer Substances 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种深度学习模型的训练方法、目标检测方法及装置,涉及计算机视觉、深度学习。该训练方法具体实现方案为:利用第一深度学习模型对样本图像进行处理,得到第一图像特征;并根据初始位置分布特征图和第一图像特征,得到第一特征图。利用第二深度学习模型对样本图像进行处理,得到第二图像特征;并根据初始位置分布特征图和第二图像特征,得到第二特征图。利用第一深度学习模型对样本图像进行目标检测,得到第一检测结果。基于目标损失函数,根据第一检测结果、第一特征图和第二特征图,调整第一深度学习模型的模型参数和初始位置分布特征图,得到与样本图像对应的目标位置分布特征图和经训练的第一深度学习模型。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及计算机视觉、深度学习技术领域,具体地涉及一种深度学习模型的训练方法、目标检测方法及装置。
背景技术
由于受限于资源容量,深度学习模型很难部署在资源受限的设备上,例如:嵌入式设备或移动设备。为了解决该问题,目前可以利用知识蒸馏技术,从大型的教师模型中学习到小型的学生模型。
发明内容
本申请提供了一种第一深度学习模型的训练方法、目标检测方法及装置。
根据本申请的一方面,提供了一种第一深度学习模型的训练方法,包括:利用第一深度学习模型对样本图像进行处理,得到第一图像特征;并根据初始位置分布特征图和第一图像特征,得到第一特征图,初始位置分布特征图表征目标对象在像素坐标空间内任一位置的分布概率。利用第二深度学习模型对样本图像进行处理,得到第二图像特征;并根据初始位置分布特征图和第二图像特征,得到第二特征图;其中,第二深度学习模型的各卷积层与第一深度学习模型的各卷积层一一对应。利用第一深度学习模型对样本图像进行目标检测,得到第一检测结果。基于目标损失函数,根据第一检测结果、第一特征图和第二特征图,调整第一深度学习模型的模型参数和初始位置分布特征图,得到与样本图像对应的目标位置分布特征图和经训练的第一深度学习模型。
根据本申请的另一方面,提供了一种目标检测方法,包括:获取待检测图像。利用第一深度学习模型对待检测图像进行处理,得到目标检测结果,其中,第一深度学习模型是利用上述训练方法训练得到的。
根据本申请的另一方面,提供了一种第一深度学习模型的训练装置,包括:第一处理模块、第二处理模块、第一检测模块和调整模块。其中,第一处理模块,用于利用第一深度学习模型对样本图像进行处理,得到第一图像特征;并根据初始位置分布特征图和第一图像特征,得到第一特征图,初始位置分布特征图表征目标对象在像素坐标空间内任一位置的分布概率。第二处理模块,用于利用第二深度学习模型对样本图像进行处理,得到第二图像特征;并根据初始位置分布特征图和第二图像特征,得到第二特征图;其中,第二深度学习模型的各卷积层与第一深度学习模型的各卷积层一一对应。第一检测模块,用于利用第一深度学习模型对样本图像进行目标检测,得到第一检测结果。调整模块,用于基于目标损失函数,根据第一检测结果、第一特征图和第二特征图,调整第一深度学习模型的模型参数和初始位置分布特征图,得到与样本图像对应的目标位置分布特征图和经训练的第一深度学习模型。
根据本申请的另一方面,提供了一种目标检测装置,包括:获取模块和第二检测模块。其中,获取模块,用于获取待检测图像。第二检测模块,用于利用第一深度学习模型对待检测图像进行处理,得到目标检测结果,其中,第一深度学习模型是利用上述训练方法训练得到的。
根据本申请的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如上所述的方法。
根据本申请的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方法。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1A示意性示出了根据本申请实施例的可以应用深度学习模型的训练方法或装置执行知识蒸馏任务的示例性系统架构;
图1B示意性示出了根据本申请实施例的可以应用深度学习模型的训练方法或装置执行目标检测任务的示例性系统架构;
图2示意性示出了根据本申请实施例的深度学习模型的训练方法的流程图;
图3示意性示出了根据本申请实施例的深度学习模型的训练方法的示意图;
图4示意性示出了根据本申请实施例的基于目标损失函数调整第一深度学习模型的模型参数和初始位置分布特征图的流程图;
图5示意性示出了根据本申请实施例的根据初始位置分布特征图、第一图像特征、第二图像特征得到第一特征图、第二特征图的示意图;
图6A示意性示出了根据本申请一些实施例对样本图像进行数据增强处理的示意图;
图6B示意性示出了根据本申请另一些实施例对样本图像进行数据增强处理的示意图;
图7示意性示出了根据本申请实施例的目标检测方法的流程图;
图8示意性示出了根据本申请实施例的对待检测图像进行目标检测的示意图;
图9示意性示出了根据本申请实施例的深度学习模型的训练装置的框图;
图10示意性示出了根据本申请实施例的目标检测装置的框图;以及
图11示意性示出了根据本申请实施例的适于实现深度学习模型的训练方法或目标检测方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
知识蒸馏是指利用教师模型学习到的知识去指导学生模型训练,使得学生模型具有教师模型相当的性能。一般情况下,教师模型指的是单个复杂网络或者若干网络的集合,而学生模型指的是网络规模较小的网络,且学生模型的参数数量相对于教师模型大幅降低。
传统的知识蒸馏方法主要包括基于响应结果的知识蒸馏、基于特征的知识蒸馏和基于特征关系的知识蒸馏。例如:可以通过引入卷积神经网络和注意力模块的稀疏化实现模型的压缩。但是,这种方法改变了模型结构,使得模型精度与泛化性较弱,较难进行指定模型大小的压缩,因此,在利用传统的知识蒸馏方法对目标检测模型进行压缩时,由于目标检测模型中缺少一致性输入输出的样本对,使得知识蒸馏的精度受限。
有鉴于此,本申请实施例提供了一种第一深度学习模型的训练方法,通过随机生成的初始位置分布特征图对第一深度学习模型提取的第一图像特征、第二深度学习模型提取的第二图像特征进行特征筛选,得到特征一致的第一特征图和第二特征图。再利用第一深度学习模型对样本图像进行目标检测,得到第一检测结果。基于目标损失函数,根据第一检测结果、第一特征图和第二特征图,调整第一深度学习模型的模型参数和初始位置分布特征图,得到与样本图像对应的目标位置分布特征图和经训练的第一深度学习模型。通过对第一深度学习模型和第二深度学习模型的图像特征的一致性采样,达到提升第一深度学习模型的蒸馏效果的目的,以提高第一深度学习模型的精度。
本申请实施例的第一深度学习模型、第二深度学习模型均可以采用DETR(Detection Transformer)网络结构。在本申请实施例的第一深度学习模型的训练方法中,知识蒸馏任务和目标检测任务是被分别执行的。
根据本申请的实施例,第一深度学习模型可以表示学生模型。第二深度学习模型可以表示教师模型。
图1A示意性示出了根据本申请实施例的可以应用第一深度学习模型的训练方法或装置执行知识蒸馏任务的示例性系统架构。
需要注意的是,图1所示仅为可以应用本申请实施例的系统架构的示例,以帮助本领域技术人员理解本申请的技术内容,但并不意味着本申请实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用内容处理方法及装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本申请实施例提供的内容处理方法及装置。
如图1A所示,该实施例的系统架构100A可以包括:第一深度学习模型和第二深度学习模型。其中,第一深度学习模型可以包括第一特征提取层101、第一特征筛选层102。第二深度学习模型可以包括第二特征提取层104和第二特征筛选层105。
根据本申请的实施例,在执行知识蒸馏任务时,利用第一深度学习模型的第一特征提取层101提取样本图像的第一图像特征。然后将第一图像特征和初始位置分布特征图108输入第一特征筛选层102,得到第一特征图103。同理,利用第二深度学习模型的第二特征提取层102提取样本图像的第二图像特征。然后将第二图像特征和初始位置分布特征图108输入第二特征筛选层105,得到第二特征图106。再根据第一特征图103和第二特征图106确定蒸馏损失107。
图1B示意性示出了根据本申请实施例的可以应用第一深度学习模型的训练方法或装置执行目标检测任务的示例性系统架构。
如图1B所示,该实施例的系统架构100B可以包括第一深度学习模型的第一特征提取层101、第一特征筛选层102、类别回归层110、位置回归层111。
根据本申请的实施例,在执行目标检测任务时,利用第一深度学习模型的第一特征提取层101提取样本图像的第一图像特征。然后将第一图像特征和预定位置分布特征图113输入第一特征筛选层102,得到第三特征图109。将第三特征图109输入类别回归层110,得到类别检测结果。将第三特征图109输入位置回归层111,得到位置检测结果。再根据类别检测结果、位置检测结果和样本标签112得到检测结果损失114。
需要说明的是,在执行知识蒸馏任务时,初始位置分布特征图108是随机生成的。在执行目标检测任务时,预定位置分布特征图是第一深度学习模型中预设的。通过对第一深度学习模型的训练,使得预定位置分布特征图不断学习到与样本图像相对应的目标位置分布特征图,以达到提高知识蒸馏精度和第一深度学习模型的检测精度的目的。
应该理解,图1A和图1B中的第一特征提取层、第一特征筛选层、第二特征提取层、第二特征筛选层、类别回归层、位置回归层的数目仅仅是示意性的。根据实现需要,可以具有任意数目的第一特征提取层、第一特征筛选层、第二特征提取层、第二特征筛选层、类别回归层、位置回归层。
在本申请的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
在本申请的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
图2示意性示出了根据本申请实施例的第一深度学习模型的训练方法的流程图。
如图2所示,该方法包括操作S210~S240。
在操作S210,利用第一深度学习模型对样本图像进行处理,得到第一图像特征;并根据初始位置分布特征图和第一图像特征,得到第一特征图。
在操作S220,利用第二深度学习模型对样本图像进行处理,得到第二图像特征;并根据初始位置分布特征图和第二图像特征,得到第二特征图。
在操作S230,利用第一深度学习模型对样本图像进行目标检测,得到第一检测结果。
在操作S240,基于目标损失函数,根据第一检测结果、第一特征图和第二特征图,调整第一深度学习模型的模型参数和初始位置分布特征图,得到与样本图像对应的目标位置分布特征图和经训练的第一深度学习模型。
根据本申请的实施例,初始位置分布特征图表征目标对象在像素坐标空间内任一位置的分布概率。目标对象在像素坐标空间内的多个位置可以是均匀分布的。像素坐标空间内可以包括均匀分布多个像素区域,初始位置分布特征图可以表示目标对象在任一像素区域的分布概率。例如:初始位置分布特征图可以是根据随机生成的一组均匀分布在物体查询值概率空间的物体查询值得到的。其中,物体查询值可以用于筛选图像特征。
根据本申请的实施例,利用第一深度学习模型对样本图像可以进行特征提取处理,得到第一图像特征。第一图像特征中可以包括处于样本图像中不同位置的图像。利用初始位置分布特征图可以从第一图像特征中筛选到分布概率较高的位置对应的图像特征,生成第一特征图。
例如:经过第一深度学习模型提取的样本图像的第一图像特征可以包括:在样本图像中位于位置Po1的图像特征Fe1、在样本图像中位于位置Po2的图像特征Fe2和在样本图像中位于位置Po3的图像特征Fe3。在初始位置分布特征图中,目标对象在位置Po1的分布概率可以是Pr1,目标对象在位置Po2的分布概率可以是Pr2,目标对象在位置Po3的分布概率可以是Pr3。其中,分布概率Pr3>Pr2>Pr1。可以利用初始位置分布特征图从样本图像的第一图像特征中筛选到位于位置Po2的图像特征Fe2和位于位置Po3的图像特征Fe3,生成第一特征图。
根据本申请的实施例,利用第二深度学习模型对样本图像可以进行特征提取处理,得到第二图像特征。第二图像特征中可以包括处于样本图像中不同位置的图像。利用初始位置分布特征图可以从第二图像特征中筛选到分布概率较高的位置对应的图像特征,生成第二特征图。
例如:经过第二深度学习模型提取的样本图像的第二图像特征可以包括:在样本图像中位于位置Po1的图像特征Fe1、在样本图像中位于位置Po2的图像特征Fe2、在样本图像中位于位置Po3的图像特征Fe3、在样本图像中位于位置Po4的图像特征Fe4、在样本图像中位于位置Po5的图像特征Fe5。在初始位置分布特征图中,目标对象在位置Po1的分布概率可以是Pr1,目标对象在位置Po2的分布概率可以是Pr2,目标对象在位置Po3的分布概率可以是Pr3。其中,分布概率Pr3>Pr2>Pr1>Pr4>Pr5。可以利用初始位置分布特征图从样本图像的第二图像特征中筛选到位于位置Po2的图像特征Fe2和位于位置Po3的图像特征Fe3,生成第二特征图。
根据本申请的实施例,在利用初始位置分布特征图对第一图像特征进行处理时,可以通过设置分布概率阈值从第一图像特征中筛选满足分布概率阈值要求的图像特征,用于生成第一特征图。也可以根据第一图像特征中不同位置的图像特征的分布概率进行排序,根据排序结果,从第一图像特征中筛选得到用于生成第一特征图的图像特征。
根据本申请的实施例,利用初始位置分布特征图从第二图像特征中筛选用于生成第二特征图的图像特征的处理过程与利用初始位置分布特征图对第一图像特征进行处理的过程相同,在此不做赘述。
需要说明的是,无论是利用分布概率阈值,还是利用分布概率的排序结果对图像特征进行筛选,只要确保针对第一图像特征和第二图像特征的筛选条件相同即可。本申请实施例对于具体的筛选条件不做限定。
由于在本申请实施例的第一深度学习模型的训练方法中,知识蒸馏任务与目标检测任务是解耦的。在利用第一深度学习模型对样本图像进行目标检测时,是利用第一深度学习模型中预设位置分布特征图进行特征筛选的。预设位置分布特征图与知识蒸馏过程中应用的初始位置分布特征图一般是不相同的。
根据本申请的实施例,利用第一深度学习模型对样本图像进行目标检测时,可以先提取样本图像的图像特征,然后根据预设位置分布特征图对样本图像的图像特征进行筛选,得到样本图像的特征图。再将样本图像的特征图分别进行目标对象的类别和位置的识别,得到第一检测结果。
根据本申请的实施例,目标损失函数可以包括蒸馏损失函数和真值损失函数。基于目标损失函数,根据第一检测结果、第一特征图、第二特征图得到目标损失值。在目标损失值不满足收敛条件的情况下,调整第一深度学习模型的模型参数和初始位置分布特征图,得到与样本图像对应的目标位置分布特征图和经训练的第一深度学习模型。
根据本申请的实施例,通过随机生成的初始位置分布特征图对第一深度学习模型提取的第一图像特征、第二深度学习模型提取的第二图像特征进行特征筛选,得到特征一致的第一特征图和第二特征图。再利用第一深度学习模型对样本图像进行目标检测,得到第一检测结果。基于目标损失函数,根据第一检测结果、第一特征图和第二特征图,调整第一深度学习模型的模型参数和初始位置分布特征图,得到与样本图像对应的目标位置分布特征图和经训练的第一深度学习模型。通过对第一深度学习模型和第二深度学习模型的图像特征的一致性采样,达到提升第一深度学习模型的蒸馏效果的目的,以提高第一深度学习模型的精度。
需要说明的是,本申请实施例提供的第一深度学习模型的训练方法,可以应用于自动驾驶技术领域、安防技术领域等。本申请实施例对第一深度学习模型的训练方法的应用领域不做具体限定。
例如:可以先利用高精度的障碍物检测的教师模型,利用本申请实施例提供的训练方法训练得到轻量级、高精度的学生模型,以便将训练得到的学生模型部署在车载芯片中,实现对障碍物的检测。
例如:可以先利用高精度的安防检测的教师模型,利用本申请实施例提供的训练方法训练得到轻量级、高精度的学生模型,以便将训练得到的学生模型部署在安防设备芯片中,实现对安防目标的检测。
根据本申请的实施例,上述操作S240可以包括如下操作:基于蒸馏损失函数,根据第一特征图和第二特征图,得到蒸馏损失。基于真值损失函数,根据第一检测结果和样本图像的标签,得到检测结果损失。基于蒸馏损失和检测结果损失,调整第一深度学习模型的模型参数和初始位置分布特征图,得到经训练的第一深度学习模型和目标位置分布特征图。
根据本申请的实施例,调整第一深度学习模型的模型参数和初始位置分布特征图,得到经训练的第一深度学习模型和目标位置分布特征图,可以包括如下操作:
调整第一深度学习模型的模型参数和初始位置分布特征图,得到经训练的第一深度学习模型,并从位置分布特征图集中得到目标位置分布特征。
根据本申请的实施例,蒸馏损失函数可以采用KL(Kullback-LeiblerDivergence)散度损失函数或均方损失函数。例如:可以采用KL散度损失函数计算第一特征图的特征分布概率与第二特征图的特征分布概率的相对熵损失,即蒸馏损失。
根据本申请的实施例,真值损失函数可以采用交叉熵损失函数。例如:可以利用交叉熵损失函数计算第一检测结果与样本标签的交叉熵损失。第一检测结果可以包括类别检测结果和位置检测结果。样本标签也可以包括类别标签和位置标签。可以基于交叉熵损失函数,根据类别检测结果、位置检测结果、类别标签和位置标签得到检测结果损失。
根据本申请的实施例,基于蒸馏损失和检测结果损失,调整第一深度学习模型的参数和初始位置分布特征图,得到经训练的第一深度学习模型,并从位置分布特征图集中得到目标位置分布特征图。
图3示意性示出了根据本申请实施例的第一深度学习模型的训练方法的示意图。
如图3所示,在该实施例300中可以包括第一深度学习模型302和第二深度学习模型301。第一深度学习模型302中可以包括第一特征提取层3021、第一特征筛选层3023。第二深度学习模型301可以包括与第一深度学习模型302一一对应的第二特征提取层3011和第二特征筛选层3013。
在执行知识蒸馏任务时,先将样本图像303输入第一深度学习模型302的第一特征提取层3021,输出第一图像特征3022。再将第一图像特征3022和初始位置分布特征图304输入第一特征筛选层3023,输出第一特征图306。
在第二深度学习模型301中,先将样本图像303输入第二特征提取层3011,输出第二图像特征3012。再将第二图像特征3012和初始位置分布特征图304输入第二特征筛选层3013,输出第二特征图305。
基于蒸馏损失函数,根据第一特征图306和第二特征图305,可以得到蒸馏损失308。
在执行目标检测任务时,先将样本图像303输入第一深度学习模型302的第一特征提取层3021,输出第一图像特征3022。再将第一图像特征3022和预定位置分布特征图3024输入第一特征筛选层3023,输出第三特征图307。通过对第三特征图307进行处理,得到检测结果309。
基于真值损失函数,根据检测结果309和样本标签310,可以得到检测结果损失311。
根据蒸馏损失308和检测结果损失311得到目标损失312。并基于目标损失312调整第一深度学习模型的模型参数和初始位置分布特征图。
根据本申请的实施例,通过解耦知识蒸馏过程和目标检测过程,由于在知识蒸馏过程中对第一深度学习模型、第二深度学习模型的图像特征进行了一致性采样,为知识蒸馏过程提供了大量的蒸馏对象,可以提高知识蒸馏的精度和效率。再基于蒸馏损失和检测结果损失共同调整第一深度学习模型的参数,可以有效降低由于对图像特征的一致性采样对检测结果造成的真值损失,从而提高目标检测精度。
根据本申请的实施例,初始位置分布特征图是随机生成的目标对象在像素坐标空间内任一位置的分布概率。目标对象在像素坐标空间内每一个位置的分布概率均可以得到一个初始位置分布特征图,得到位置分布特征图集。例如:位置分布特征图集可以包括S个位置分布特征图,S为大于1的整数。
图4示意性示出了根据本申请实施例的基于目标损失函数调整第一深度学习模型的模型参数和初始位置分布特征图的流程图。
如图4所示,该实施例400可以包括操作S4410~S4440。
在操作S4410,针对第s个位置分布特征图,利用第二深度学习模型对第一深度学习模型进行第s轮训练,得到第s个蒸馏损失和第s个检测结果损失,其中,s为大于等于1且小于S的整数。
在操作S4420,根据第s个蒸馏损失和第s个检测结果损失,得到第s个目标损失。
在操作S4430,确定第s个目标损失是否大于预定阈值。若是,则从位置分布特征图集中选择第s+1个初始位置分布特征图,利用第s+1个初始位置分布特征图,返回执行操作S4410。若不是,则执行操作S4440。
在操作S4440,得到经训练的第一深度学习模型,并将第s个位置分布特征图确定为目标位置分布特征图。
根据本申请的实施例,针对第s个位置分布特征图,利用第二深度学习模型对第一深度学习模型进行第s轮训练的过程可以包括如下操作:
根据第s个位置分布特征图和利用第一深度学习模型提取到的样本图像的第一图像特征,生成第s个第一特征图。根据第s个位置分布特征图和利用第二深度学习模型提取到的样本图像的第二图像特征,生成第s个第二特征图。再基于蒸馏损失函数,根据第s个第一特征图和第s个第二特征图,得到第s个蒸馏损失。
利用第一深度学习模型对样本图像进行目标检测,得到第一检测结果。并基于真值损失函数,根据第一检测结果和样本标签得到第s个检测结果损失。
根据本申请的实施例,可以基于第s个蒸馏损失和第s个检测结果损失之和得到第s个目标损失。也可以基于蒸馏损失权重、检测损失权重,对第s个蒸馏损失和第s个检测结果损失进行加权求和得到第s个目标损失。通过调整第一深度学习模型的参数和初始位置分布特征图,最小化目标损失,当目标损失小于等于预定阈值时,得到经训练的第一深度学习模型,并从位置分布特征图集中得到目标位置分布特征图。
根据本申请的实施例,在位置分布特征图集中,目标对象在像素坐标空间内是均匀分布的每一个位置上的,因此,在利用位置分布特征图对图像特征进行筛选时,在满足对图像特征采样一致性的同时,也可以确保对图像特征被采集到的概率是相同的,以减少由于增加了对图像特征进行一致性采样的操作,导致第一深度学习模型的检测精度降低的问题。
根据本申请的实施例,上述操作S210中,根据初始位置分布特征图和第一图像特征,得到第一特征图,可以包括如下操作:
根据初始位置分布特征图,确定初始检测位置特征。根据初始检测位置特征,从第一图像特征中得到第一目标图像特征。根据第一目标图像特征,生成第一特征图。
根据本申请的实施例,上述操作S220中根据初始位置分布特征图和第二图像特征,得到第二特征图,可以包括如下操作:
根据初始位置分布特征图,确定初始检测位置特征。根据初始检测位置特征,从第二图像特征中得到第二目标图像特征。根据第二目标图像特征,生成第二特征图。
根据本申请的实施例,初始检测位置特征可以表征在初始位置分布特征图中分布概率值较高的位置的特征。
例如:在初始位置分布特征图中,位置Po1和位置Po3的分布概率值较高。可以确定初始检测位置特征为位置Po1的坐标和和位置Po3的坐标。
根据本申请的实施例,可以从第一图像特征中筛选与初始检测位置特征相对应的图像特征作为第一目标图像特征。可以从第二图像特征中筛选与初始检测位置特征相对应的图像特征作为第二目标图像特征。
例如:在第一目标图像特征中可以包括:与位置Po1相对应的图像特征Fe1、与位置Po2相对应的图像特征Fe2、与位置Po3相对应的图像特征Fe3。则得到的第一目标图像特征可以是图像特征Fe1和图像特征Fe3。在第二目标图像特征中可以包括:与位置Po1相对应的图像特征Fe1、与位置Po3相对应的图像特征Fe3、与位置Po4相对应的图像特征Fe4。则得到的第二目标图像特征可以是图像特征Fe1和图像特征Fe3。实现了对第一深度学习模型的第一图像特征和第二深度学习模型的第二图像特征的一致性采样过程。
图5示意性示出了根据本申请实施例的根据初始位置分布特征图、第一图像特征、第二图像特征得到第一特征图、第二特征图的示意图。
如图5所示,可以将样本图像501划分为4×4的位置区域,利用第一深度学习模型对样本图像501进行特征提取处理,可以得到第一图像特征511。第一图像特征511中包括与每一个位置区域相对应的图像特征。例如:在位于第一行第一列的位置区域对应的图像特征T1、在位于第一行第二列的位置区域对应的图像特征T6等。
根据本申请的实施例,利用第二深度学习模型对样本图像502进行特征提取处理,可以得到第二图像特征521。第二图像特征521中包括与每一个位置区域相对应的图像特征。例如:在位于第一行第一列的位置区域对应的图像特征T1、在位于第一行第三列的位置区域对应的图像特征T10等。
根据本申请的实施例,初始位置分布特征图502中也可以包括与样本图像501相对应的位置区域,且每一个位置区域内包括目标对象在该位置区域内的分布概率。在初始位置分布特征图502中,标识“1”的位置区域,表征目标对象在该位置区域内的分布概率为1,其他未标识的位置区域,表征目标对象在该位置区域内的分布概率为0。
根据本申请的实施例,根据初始位置分布特征图502可以将第一图像特征511中与分布概率为1的位置区域相对应的图像特征筛选出来得到第一目标图像特征。即:第一目标图像特征可以包括:位于第一行第一列的位置区域对应的图像特征T1、位于第二行第二列的位置区域对应的图像特征T2、位于第二行第三列的位置区域对应的图像特征T3、位于第三行第四列的位置区域对应的图像特征T4和位于第四行第二列的位置区域对应的图像特征T5。并根据第一目标图像特征和与第一目标图像特征对应的位置区域生成第一特征图512。
同理,根据初始位置分布特征图502可以将第二图像特征521中与分布概率为1的位置区域相对应的图像特征筛选出来得到第二目标图像特征。并根据第二目标图像特征和与第二目标图像特征对应的位置区域生成第二特征图522。以达到第一深度学习模型和第二深度学习模型对样本图像特征采样的一致性的技术效果。
由于在实际应用过程中,样本图像的数量可能是有限的。在不实际获取更多数量样本图像的情况下,可以通过数据增强的方式得到数量更多且图像特征更显著的增强样本图像。
根据本申请的实施例,上述操作S210可以包括如下操作:对样本图像进行数据增强处理,得到第一增强样本图像。利用第一深度学习模型对第一增强样本图像进行处理,得到第一图像特征。
根据本申请的实施例,数据增强处理可以包括几何变换处理、色彩变换处理和像素变换处理中的任意一种或多种。
根据本申请的实施例,对样本图像进行数据增强处理,得到第一增强样本图像,可以包括如下操作:对样本图像进行几何变换处理,得到多个第一样本图像。对多个第一样本图像进行归一化处理,得到第一增强样本图像。
根据本申请的实施例,几何变换处理可以包括图像翻转处理、图像旋转处理、图像剪裁处理、图像缩放处理、图像移位处理的图像边缘填充处理等。
例如:按照不同比例对样本图像进行图像缩放处理,可以得到多个缩放比例彼此不同的第一样本图像。然后将多个第一样本图像进行拼接处理,得到第一增强样本图像。
图6A示意性示出了根据本申请一些实施例对样本图像进行数据增强处理的示意图。
如图6A所示,在该实施例600A中,样本图像611经过几何变换得到形状彼此不同的多个第一样本图像612。通过对多个第一样本图像进行归一化处理,得到经几何变换的增强样本图像613。
根据本申请的实施例,对样本图像进行数据增强处理,得到第一增强样本图像,可以包括如下操作:对样本图像进行像素重分布处理,得到多个第二样本图像。对多个第二样本图像进行归一化处理,得到第一增强样本图像。
根据本申请的实施例,像素重分布处理可以包括色彩变换处理和像素变换处理。其中,色彩变换处理可以包括在色彩通道上进行图像亮度调节和/或图像色度调节。例如:通过颜色通道的变化和叠加得到不同颜色的色彩空间,以实现对样本图像的了色度进行调节。还可以利用HSV(Hue-Saturation-Value)模型(也称:六角锥体模型)调节样本图像的色调、饱和度、明暗程度等对样本图像进行数据增强。
根据本申请的实施例,像素变换处理可以包括对样本图像添加噪声、对样本图像进行高斯模糊处理、图像融合处理等。其中,图像融合处理可以是通过随机裁剪样本图像,并将裁剪后的样本图像拼接在一起得到新的样本图像。也可以通过求取两个样本图像的像素值的均值将两个样本图像混合在一起得到新的样本图像。还可以随机选取样本图像中的矩形区域,并使用随机像素值对矩形区域进行遮挡,得到新的样本图像。
根据本申请的实施例,对样本图像进行数据增强处理可以采用在线数据增强,也可以采用离线数据增强,可以基于实际样本图像的数量需求选择适宜的数据增强方法。
根据本申请的实施例,对样本图像进行数据增强处理,可以根据样本图像集的特点出发,搜索适合不同样本图像集的数据增强策略,执行自动数据增强处理。例如:可以采用Auto Augment、Rand Augment、Population Based Augment等数据增强策略对样本图像进行处理。本申请实施例对数据增强策略不做具体限定。
图6B示意性示出了根据本申请另一些实施例对样本图像进行数据增强处理的示意图。
如图6B所示,在该实施例600B中,样本图像611经过像素重分布处理得到像素分布彼此不同的多个第二样本图像614。通过对多个第二样本图像614进行归一化处理,得到经像素重分布的增强样本图像615。
根据本申请的实施例,通过对样本图像进行数据增强处理后,不仅可以对增加有限样本图像的数量,还可以增强样本图像的特征,以提高第一深度学习模型的训练效率。
根据本申请的实施例,上述操作S220可以包括如下操作:对样本图像进行数据增强处理,得到第二增强样本图像;其中,第二增强样本图像与利用第一深度学习模型对样本图像进行数据增强处理得到的第一增强样本图像相同。利用第二深度学习模型对第二增强样本图像进行处理,得到第二图像特征。
根据本申请的实施例,为保证教师模型与学生模型输入的一致性,在对样本图像进行数据增强处理时,需要采用相同的数据增强策略对样本图像进行处理,以使得被输入第一深度学习模型的第一增强样本图像与被输入第二深度学习模型的第二增强样本图像相同。
根据本申请的实施例,对样本图像进行数据增强处理,得到第二增强样本图像可以包括如下操作:对样本图像进行几何变换处理,得到多个第三样本图像。对多个第三样本图像进行归一化处理,得到第二增强样本图像。
根据本申请的实施例,对几何变换处理的定义范围与得到第一增强样本图像采用的几何变换处理的定义范围相同,在此不做赘述。
例如:可以沿着不同方向对样本图像进行翻转处理,得到翻转方向彼此不同的多个第三样本图像。
根据本申请的实施例,对多个第三样本图像进行归一化处理,可以是线性归一化,也可以是非线性归一化,得到第二增强样本图像。
例如:利用图像的不变矩寻找一组参数使其能够消除其他变换函数对样本图像几何变换的影响,将样本图像转换成相应的唯一标准形式,该标准形式的图像对平移、旋转、缩放等仿射变换具有不变特征,再将这些不变的特征进行拼接得到第二增强样本图像。
根据本申请的实施例,图像归一化使得图像可以抵抗几何变换处理的攻击,得到样本图像中的不变的图像特征,达到特征增强的目的。
根据本申请的实施例,对样本图像进行数据增强处理,得到第二增强样本图像,可以包括如下操作:对样本图像进行像素重分布处理,得到多个第四样本图像。对多个第四样本图像进行归一化处理,得到第二增强样本图像。
根据本申请的实施例,对像素重分布处理的定义范围与得到第一增强样本图像采用的像素重分布处理的定义范围相同,在此不做赘述。
根据本申请的实施例,可以通过图像归一化处理将经过像素重分布处理的样本图像限制在较小的范围内,例如:可以将像素值缩小到0~1范围内,以提高模型训练的效率。
根据本申请的实施例,对图像归一化处理可以是线性归一化,例如:可以通过对多个第四样本图像进行线性插值,得到第二增强样本图像。
根据本申请的实施例,通过对样本图像进行数据增强处理后,不仅可以对增加有限样本图像的数量,还可以增强样本图像的特征,以保证第二深度学习模型的输入与第一深度学习模型的输入的一致性。
根据本申请的实施例,第一深度学习模型包括卷积层和全连接层,卷积层包括特征提取层和特征筛选层,全连接层包括类别回归层和位置回归层,特征筛选层的输入端与特征提取层的输出端连接,特征筛选层的输出端分别与类别回归层的输入端、位置回归层的输入端连接。
根据本申请的实施例,第一深度学习模型与第二深度学习模型的各卷积层一一对应,表示第一深度学习模型的特征提取层与第二深度学习模型的特征提取层相对应;第一深度学习模型的特征筛选层与第二深度学习模型的特征筛选层相对应。
根据本申请的实施例,上述操作S230可以包括如下操作:利用特征提取层对样本图像进行处理,得到第一图像特征。利用特征筛选层根据第一深度学习模型的预定位置特征分布图和第一图像特征,得到第三特征图。利用类别回归层和位置回归层对第三特征图进行处理,得到第一检测结果。
根据本申请的实施例,预定位置特征分布图表示第一深度学习模型的网络架构中预先配置的位置特征分布图。例如:样本图像中可以包括3个目标位置区域,预先配置的位置特征分布图用于筛选样本图像中的图像特征的位置区域一般是大于目标位置区域的数量的,可以是5个。这5个位置区域中可以包括样本图像中的前景图像特征,也可以包括样本图像中的背景图像特征。
例如:利用特征提取层对样本图像进行特征提取处理,可以得到10个位置区域的图像特征。利用预定位置特征分布图可以从10个位置区域的图像特征中筛选得到5个位置区域的图像特征,并生成第三特征图。可以将第三特征图分别输入类别回归层、位置回归层,得到第一检测结果。
根据本申请的实施例,利用类别回归层和位置回归层对第三特征图进行处理,得到第一检测结果,可以包括如下操作:利用类别回归层对第三特征图进行处理,得到第一类别检测结果。利用位置回归层对第三特征图进行处理,得到第一位置检测结果。根据第一类别检测结果和第一位置检测结果,得到第一检测结果。
例如:对于第三特征图中5个位置区域的图像特征,类别回归层对5个位置区域的图像特征的特征类别进行识别,得到的第一类别检测结果可以是目标对象的类别,例如:人、树、鸟、背景等等。位置回归层对5个位置区域进行位置识别,得到的是目标对象在样本图像中的位置。例如:在样本图像中能够包围目标对象的最小面积矩形框的四个顶点的像素坐标。
根据本申请的实施例,在利用第一深度学习模型对样本图像进行目标检测时,采用的是第一深度学习模型中预先配置的位置分布特征图,可以减小引入外部随机生成的为位置分布特征图对目标检测结果所带来的不必要的真值损失。
图7示意性示出了根据本申请实施例的目标检测方法的流程图。
如图7所示,该实施例700的目标检测方法包括操作S710~S720。
在操作S710,获取待检测图像。
在操作S720,利用第一深度学习模型对待检测图像进行处理,得到目标检测结果,其中,第一深度学习模型是利用上述第一深度学习模型的训练方法训练得到的。
根据本申请的实施例,第一深度学习模型包括卷积层和全连接层,卷积层包括特征提取层和特征筛选层,全连接层包括类别回归层和位置回归层,特征筛选层的输入端与特征提取层的输出端连接,特征筛选层的输出端分别与类别回归层的输入端、位置回归层的输入端连接。
图8示意性示出了根据本申请实施例的对待检测图像进行目标检测的示意图。
如图8所示,在实施例800中,将待检测图像输入特征提取层801中,得到待检测图像特征。将待检测图像特征和与待检测图像特征对应的目标位置分布特征图,共同输入特征筛选层802,输出待检测特征图。将待检测特征图输入类别回归层803,输出类别检测结果。将待检测特征图输入位置回归层804,输出位置检测结果。并根据类别检测结果和位置检测结果得到目标检测结果。
根据本申请的实施例,目标位置分布特征图表示与待检测的图像相对应的目标位置分布特征图。在利用第二深度学习模型训练第一深度学习模型的过程中,通过不断调整初始位置分布特征图和第一深度学习模型的参数,可以得到与样本图像相对应的位置分布特征图。即在模型训练的过程中,第一深度学习模型中预先配置的预定位置分布特征图不断学习调整后的初始位置分布图,直到得到与样本图像相对应的目标分布特征图。当进行目标检测时,训练好的第一深度学习模型可以根据待检测图像自动选择与该检测图像对应的目标位置分布特征图,以实现对待检测的图像特征的针对性特征筛选。
例如:待检测图像中存在3个目标位置区域的目标对象,利用目标位置分布特征图,可以实现对该待检测图像中与3个目标位置区域相同及临近的4~5个位置区域的图像特征进行针对性的筛选和识别,以提高目标检测的效率。
根据本申请的实施例,由于利用第二深度学习模型训练第一深度学习模型的过程中,利用初始位置分布特征图实现了第一深度学习模型的输入样本图像特征和第二深度学习模型的输入样本图像特征的一致性。在进行目标检测时,可以根据待检测图像先确定与待检测图像相对应的目标位置分布特征图,再对待检测的图像特征进行针对性的筛选,以提高目标检测的检测速度和检测精度。
为了增强待检测图像中的图像特征,提高目标检测的精度,可以对待检测图像进行数据增强处理,得到特征增强的待检测图像。再利用特征提取层对特征增强的待检测图像进行处理,得到待检测的图像特征。
根据本申请的实施例,对待检测图像进行的数据增强处理过程与对第一深度学习模型进行模型训练过程中,对样本图像进行的数据增强处理过程相同,也可以包括几何变换处理和像素充分布处理。
根据本申请的实施例,对待检测图像进行数据增强处理,得到特征增强的待检测图像,可以包括如下操作:对待检测图像按照不同比例进行几何变换处理,得到多个第一待检测图像。对多个第一待检测图像进行归一化处理,得到特征增强的待检测图像。
例如:对待检测图像按照不同比例进行缩放处理,得到缩放比例彼此不同的多个第一待检测图像。再利用线性插值法对多个第一待检测图像进行图像归一化处理,得到特征增强的待检测图像。
根据本申请的实施例,对待检测图像进行数据增强处理,得到特征增强的待检测图像,可以包括如下操作:对待检测图像进行像素重分布处理,得到多个第二待检测图像。对多个第二待检测图像进行归一化处理,得到特征增强的待检测图像。
例如:调节待检测图像的色彩通道,得到色彩彼此不同的多个第二待检测图像。再利用线性插值法对多个第二待检测图像进行图像归一化处理,得到特征增强的待检测图像。
根据本申请的实施例,通过对待检测图像进行数据增强处理,增强待检测图像的图像特征,提高目标检测的精度和速度。
根据本申请的实施例,利用特征筛选层根据目标位置分布特征图和待检测的图像特征,得到待检测的特征图,可以包括如下操作:
根据目标位置分布特征图,确定目标位置特征。利用特征筛选层根据目标位置特征,从待检测的图像特征中得到待检测的目标图像特征。根据待检测的目标图像特征,生成待检测的特征图。
根据本申请的实施例,根据目标位置分布特征图中目标对象在每一个位置区域的分布概率,确定目标位置特征。目标位置特征可以表征位置区域的像素坐标。
例如:目标位置分布特征图可以包括大小相同的4×4个位置区域。在4×4个位置区域中可以包括分布概率为“1”的位置区域和分布概率为“0”的位置区域。可以将分布概率为“1”的位置区域的特征确定为目标位置特征。例如:目标位置特征可以是分布概率为“1”的位置区域的四个顶点的坐标(xa1,ya1)、(xa2,ya2)、(xa3,ya3)、(xa4,ya4)。
根据本申请的实施例,利用特征筛选层根据目标位置特征,从待检测的图像特征中得到待检测的目标图像特征。根据待检测的目标图像特征,生成待检测的特征图。
例如:待检测的图像特征中可以包括图像特征Fea、图像特征Feb。图像特征Fea在待检测图像中的位置区域可以是[(xa1,ya1)、(xa2,ya2)、(xa3,ya3)、(xa4,ya4)]。图像特征Feb在待检测图像中的位置区域可以是[(xb1,yb1)、(xb2,yb2)、(xb3,yb3)、(xb4,yb4)]。则,根据目标位置特征,从待检测的图像特征中得到待检测的目标图像特征可以是图像特征Fea[(xa1,ya1)、(xa2,ya2)、(xa3,ya3)、(xa4,ya4)]。并根据筛选到待检测的目标图像特征生成待检测的特征图。
根据本申请的实施例,利用与样本图像相对应的目标位置分布特征图,可以实现快速从待检测图像特征中筛选到与目标对象相对应的图像特征,提高了目标检测的速度和精度。
根据本申请的实施例,利用类别回归层和位置回归层对待检测的特征图进行处理,得到目标检测结果,可以包括如下操作:利用类别回归层对待检测的特征图进行处理,得到第一类别检测结果。利用位置回归层对待检测的特征图进行处理,得到第一位置检测结果。根据第一类别检测结果和第一位置检测结果,得到目标检测结果。
例如:将待检测的特征图分别输入类别回归层、位置回归层,可以得到每个目标对象的分类概率和候选检测框的坐标。可以将分类概率最高的多个目标对象的分类概率中的最大值作为该多个目标对象的第一类别检测结果。将分类概率最高的多个目标对象对应的候选检测框的坐标,作为第一位置检测结果。
图9示意性示出了根据本申请实施例的第一深度学习模型的训练装置的框图。
如图9所示,在第一深度学习模型的训练装置900中,可以包括:第一处理模块910、第二处理模块920、第一检测模块930和调整模块940。
第一处理模块910,用于利用第一深度学习模型对样本图像进行处理,得到第一图像特征;并根据初始位置分布特征图和第一图像特征,得到第一特征图,初始位置分布特征图表征目标对象在像素坐标空间内任一位置的分布概率。在一些实施例中,第一处理模块910可以用于实施上述操作S210,在此不做赘述。
第二处理模块920,用于利用第二深度学习模型对样本图像进行处理,得到第二图像特征;并根据初始位置分布特征图和第二图像特征,得到第二特征图;其中,第二深度学习模型的各卷积层与第一深度学习模型的各卷积层一一对应。在一些实施例中,第二处理模块920可以用于实施上述操作S220,在此不做赘述。
第一检测模块930,用于利用第一深度学习模型对样本图像进行目标检测,得到第一检测结果。在一些实施例中,第一检测模块930可以用于实施上述操作S230,在此不做赘述。
调整模块940,用于基于目标损失函数,根据第一检测结果、第一特征图和第二特征图,调整第一深度学习模型的模型参数和初始位置分布特征图,得到与样本图像对应的目标位置分布特征图和经训练的第一深度学习模型。在一些实施例中,调整模块940可以用于实施上述操作S240,在此不做赘述。
根据本申请的实施例,目标损失函数包括真值损失函数和蒸馏损失函数。调整模块可以包括:第一获得子模块、第二获得子模块和调整子模块。其中:第一获得子模块,用于基于蒸馏损失函数,根据第一特征图和第二特征图,得到蒸馏损失。第二获得子模块,用于基于真值损失函数,根据第一检测结果和样本图像的标签,得到检测结果损失。调整子模块,用于基于蒸馏损失和检测结果损失,调整第一深度学习模型的模型参数和初始位置分布特征图,得到经训练的第一深度学习模型和目标位置分布特征图。
根据本申请的实施例,调整子模块包括调整单元,用于调整第一深度学习模型的模型参数和初始位置分布特征图,得到经训练的第一深度学习模型,并从位置分布特征图集中得到目标位置分布特征图。
根据本申请的实施例,位置分布特征图集包括S个位置分布特征图,S为大于1的整数;调整子模块可以包括:训练单元、第一获得单元、调整单元和第二获得单元。其中:训练单元,用于针对第s个位置分布特征图,利用第二深度学习模型对第一深度学习模型进行第s轮训练,得到第s个蒸馏损失和第s个检测结果损失,其中,s为大于等于1且小于S的整数。第一获得单元,用于根据第s个蒸馏损失和第s个检测结果损失,得到第s个目标损失。调整单元,用于在确定第s个目标损失大于预定阈值的情况下,调整第一深度学习模型的模型参数,并递增s,返回执行利用第二深度学习模型对第一深度学习模型进行第s轮训练操作。第二获得单元,用于在确定第s个目标损失小于等于预定阈值的情况下,得到经训练的第一深度学习模型,并将第s个位置分布特征图确定为目标位置分布特征图。
根据本申请的实施例,第一处理模块可以包括第一数据增强子模块和第三获得子模块。其中,第一数据增强子模块,用于对样本图像进行数据增强处理,得到第一增强样本图像。第三获得子模块,用于利用第一深度学习模型对第一增强样本图像进行处理,得到第一图像特征。
根据本申请的实施例,第一数据增强子模块可以包括:第一几何变换处理单元和第一归一化处理单元。其中,第一几何变换处理单元,用于对样本图像进行几何变换处理,得到多个第一样本图像。第一归一化处理单元,用于对多个第一样本图像进行归一化处理,得到第一增强样本图像。
根据本申请的实施例,第一数据增强子模块可以包括:第一像素重分布处理单元和第二归一化处理单元。其中,第一像素重分布处理单元,用于对样本图像进行像素重分布处理,得到多个第二样本图像。第二归一化处理单元,用于对多个第二样本图像进行归一化处理,得到第一增强样本图像。
根据本申请的实施例,第一处理模块可以包括:第一确定子模块、第一筛选子模块和第一生成子模块。其中,第一确定子模块,用于根据初始位置分布特征图,确定初始检测位置特征。第一筛选子模块,用于根据初始检测位置特征,从第一图像特征中得到第一目标图像特征。第一生成子模块,用于根据第一目标图像特征,生成第一特征图。
根据本申请的实施例,第二处理模块可以包括:第二数据增强处理子模块和第四获得子模块。其中,第二数据增强处理子模块,用于对样本图像进行数据增强处理,得到第二增强样本图像;其中,第二增强样本图像与利用第一深度学习模型对样本图像进行数据增强处理得到的第一增强样本图像相同。第四获得子模块,用于利用第二深度学习模型对第二增强样本图像进行处理,得到第二图像特征。
根据本申请的实施例,第二数据增强处理子模块可以包括:第二几何变换处理单元和第三归一化处理单元。其中,第二几何变换处理单元,用于对样本图像进行几何变换处理,得到多个第三样本图像。第三归一化处理单元,用于对多个第三样本图像进行归一化处理,得到第二增强样本图像。
根据本申请的实施例,第二数据增强处理子模块可以包括:第二像素重分布处理单元和第四归一化处理单元。其中,第二像素重分布处理单元,用于对样本图像进行像素重分布处理,得到多个第四样本图像。第四归一化处理单元,用于对多个第四样本图像进行归一化处理,得到第二增强样本图像。
根据本申请的实施例,第二处理模块可以包括:第二确定子模块、第二筛选子模块和第二生成子模块。其中,第二确定子模块,用于根据初始位置分布特征图,确定初始检测位置特征。第二筛选子模块,用于根据初始检测位置特征,从第二图像特征中得到第二目标图像特征。第二生成子模块,用于根据第二目标图像特征,生成第二特征图。
根据本申请的实施例,第一深度学习模型包括卷积层和全连接层,卷积层包括特征提取层和特征筛选层,全连接层包括类别回归层和位置回归层,特征筛选层的输入端与特征提取层的输出端连接,特征筛选层的输出端分别与类别回归层的输入端、位置回归层的输入端连接。第一检测模块可以包括:第一特征提取子模块、第一特征筛选子模块和第一检测子模块。其中:第一特征提取子模块,用于利用特征提取层对样本图像进行处理,得到第一图像特征。第一特征筛选子模块,用于利用特征筛选层根据第一深度学习模型的预定位置特征分布图和第一图像特征,得到第三特征图。第一检测子模块,用于利用类别回归层和位置回归层对第三特征图进行处理,得到第一检测结果。
根据本申请的实施例,第一检测子模块可以包括:第一类别检测单元、第一位置检测单元和第三获得单元。其中:第一类别检测单元,用于利用类别回归层对第三特征图进行处理,得到第一类别检测结果。第一位置检测单元,用于利用位置回归层对第三特征图进行处理,得到第一位置检测结果。第三获得单元,用于根据第一类别检测结果和第一位置检测结果,得到第一检测结果。
图10示意性示出了根据本申请实施例的目标检测装置的框图。
如图10所示,该实施例的目标检测装置1000中可以包括获取模块1010和第二检测模块1020。
获取模块1010,用于获取待检测图像。在一些实施例中,获取模块1010可以用于实施上述操作S710,在此不做赘述。
第二检测模块1020,用于利用第一深度学习模型对待检测图像进行处理,得到目标检测结果,其中,第一深度学习模型是利用上述第一深度学习模型的训练方法训练得到的。在一些实施例中,第二检测模块1020可以用于实时上述操作S720,在此不做赘述。
根据本申请的实施例,第一深度学习模型包括卷积层和全连接层,卷积层包括特征提取层和特征筛选层,全连接层包括类别回归层和位置回归层,特征筛选层的输入端与特征提取层的输出端连接,特征筛选层的输出端分别与类别回归层的输入端、位置回归层的输入端连接,第二检测模块可以包括:第二特征提取子模块、第三确定子模块、第二特征筛选子模块和第二检测子模块。其中,第二特征提取子模块,用于利用特征提取层对待检测图像进行处理,得到待检测的图像特征。第三确定子模块,用于根据待检测图像,确定目标位置分布特征图。第二特征筛选子模块,用于利用特征筛选层,根据目标位置分布特征图和待检测的图像特征,得到待检测的特征图。第二检测子模块,用于利用类别回归层和位置回归层对待检测的特征图进行处理,得到目标检测结果。
根据本申请的实施例,第二特征提取子模块可以包括:数据增强处理单元和归一化处理单元。其中:数据增强处理单元,用于对待检测图像进行数据增强处理,得到特征增强的待检测图像。归一化处理单元,用于利用特征提取层对特征增强的待检测图像进行处理,得到待检测的图像特征。
根据本申请的实施例,数据增强处理单元可以包括:几何变换处理子单元和第一归一化处理子单元。其中:几何变换处理子单元,用于对待检测图像按照不同比例进行几何变换处理,得到多个第一待检测图像。第一归一化处理子单元,用于对多个第一待检测图像进行归一化处理,得到特征增强的待检测图像。
根据本申请的实施例,数据增强处理单元可以包括:像素重分布处理子单元和第二归一化处理子单元。其中:像素重分布处理子单元,用于对待检测图像进行像素重分布处理,得到多个第二待检测图像。第二归一化处理子单元,用于对多个第二待检测图像进行归一化处理,得到特征增强的待检测图像。
根据本申请的实施例,第二特征筛选模块可以包括:第四确定子模块、第三筛选子模块和第三生成子模块。其中:第四确定子模块,用于根据目标位置分布特征图,确定目标位置特征。第三筛选子模块,用于利用特征筛选层根据目标位置特征,从待检测的图像特征中得到待检测的目标图像特征。第三生成子模块,用于根据待检测的目标图像特征,生成待检测的特征图。
根据本申请的实施例,第二检测模块可以包括:类别检测子模块、位置检测子模块和第五获得子模块。其中:类别检测子模块,用于利用类别回归层对待检测的特征图进行处理,得到第一类别检测结果。位置检测子模块,用于利用位置回归层对待检测的特征图进行处理,得到第一位置检测结果。第五获得子模块,用于根据第一类别检测结果和第一位置检测结果,得到第一检测结果。
根据本申请的实施例,本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本申请的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上所述的方法。
根据本申请的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如上所述的方法。
根据本申请的实施例,一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如上所述的方法。
图11示出了可以用来实施本申请的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图11所示,设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理,例如第一深度学习模型的训练方法或目标检测方法。例如,在一些实施例中,第一深度学习模型的训练方法或目标检测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM1103并由计算单元1101执行时,可以执行上文描述的第一深度学习模型的训练方法或目标检测方法的一个或多个步骤。备选地,在其他实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行第一深度学习模型的训练方法或目标检测方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以是分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (40)
1.一种深度学习模型的训练方法,包括:
利用第一深度学习模型对样本图像进行处理,得到第一图像特征,并根据初始位置分布特征图和所述第一图像特征,得到第一特征图,所述初始位置分布特征图表征目标对象在像素坐标空间内任一位置的分布概率;
利用第二深度学习模型对所述样本图像进行处理,得到第二图像特征,并根据所述初始位置分布特征图和所述第二图像特征,得到第二特征图;其中,所述第二深度学习模型的各卷积层与所述第一深度学习模型的各卷积层一一对应;
利用所述第一深度学习模型对所述样本图像进行目标检测,得到第一检测结果;以及
基于目标损失函数,根据所述第一检测结果、所述第一特征图和所述第二特征图,调整所述第一深度学习模型的模型参数和所述初始位置分布特征图,得到与所述样本图像对应的目标位置分布特征图和经训练的第一深度学习模型。
2.根据权利要求1所述的方法,其中,所述目标损失函数包括真值损失函数和蒸馏损失函数;所述基于目标损失函数,根据所述第一检测结果、所述第一特征图和所述第二特征图,调整所述第一深度学习模型的模型参数和所述初始位置分布特征图,得到与所述样本图像对应的目标位置分布特征图和经训练的第一深度学习模型,包括:
基于所述蒸馏损失函数,根据所述第一特征图和所述第二特征图,得到蒸馏损失;
基于所述真值损失函数,根据所述第一检测结果和所述样本图像的标签,得到检测结果损失;以及
基于所述蒸馏损失和所述检测结果损失,调整所述第一深度学习模型的模型参数和所述初始位置分布特征图,得到经训练的第一深度学习模型和所述目标位置分布特征图。
3.根据权利要求2所述的方法,其中,基于所述蒸馏损失和所述检测结果损失,调整所述第一深度学习模型的模型参数和所述初始位置分布特征图,得到经训练的第一深度学习模型和所述目标位置分布特征图,包括:
基于所述蒸馏损失和所述检测结果损失,调整所述第一深度学习模型的模型参数和所述初始位置分布特征图,得到经训练的第一深度学习模型,并从位置分布特征图集中得到所述目标位置分布特征图。
4.根据权利要求3所述的方法,其中,所述位置分布特征图集包括S个位置分布特征图,S为大于1的整数;所述基于所述蒸馏损失和所述检测结果损失,调整所述第一深度学习模型的模型参数和所述初始位置分布特征图,得到经训练的第一深度学习模型,并从位置分布特征图集中得到所述目标位置分布特征图,包括:
针对第s个位置分布特征图,利用所述第二深度学习模型对所述第一深度学习模型进行第s轮训练,得到第s个蒸馏损失和第s个检测结果损失,其中,s为大于等于1且小于S的整数;
根据所述第s个蒸馏损失和所述第s个检测结果损失,得到第s个目标损失;
在确定所述第s个目标损失大于预定阈值的情况下,调整所述第一深度学习模型的模型参数,并递增s,返回执行所述利用所述第二深度学习模型对所述第一深度学习模型进行第s轮训练的操作;以及
在确定所述第s个目标损失小于等于所述预定阈值的情况下,得到所述经训练的第一深度学习模型,并将所述第s个位置分布特征图确定为所述目标位置分布特征图。
5.根据权利要求1所述的方法,其中,所述利用第一深度学习模型对样本图像进行处理,得到第一图像特征,包括:
对所述样本图像进行数据增强处理,得到第一增强样本图像;以及
利用所述第一深度学习模型对所述第一增强样本图像进行处理,得到所述第一图像特征。
6.根据权利要求5所述的方法,其中,所述对所述样本图像进行数据增强处理,得到第一增强样本图像,包括:
对所述样本图像进行几何变换处理,得到多个第一样本图像;以及
对所述多个第一样本图像进行归一化处理,得到所述第一增强样本图像。
7.根据权利要求5所述的方法,其中,所述对所述样本图像进行数据增强处理,得到第一增强样本图像,包括:
对所述样本图像进行像素重分布处理,得到多个第二样本图像;以及
对所述多个第二样本图像进行归一化处理,得到所述第一增强样本图像。
8.根据权利要求1所述的方法,其中,所述根据初始位置分布特征图和所述第一图像特征,得到第一特征图,包括:
根据所述初始位置分布特征图,确定初始检测位置特征;
根据所述初始检测位置特征,从所述第一图像特征中得到第一目标图像特征;以及
根据所述第一目标图像特征,生成所述第一特征图。
9.根据权利要求1所述的方法,其中,所述利用第二深度学习模型对所述样本图像进行处理,得到第二图像特征,包括:
对所述样本图像进行数据增强处理,得到第二增强样本图像;其中,所述第二增强样本图像与利用第一深度学习模型对所述样本图像进行数据增强处理得到的第一增强样本图像相同;以及
利用所述第二深度学习模型对所述第二增强样本图像进行处理,得到所述第二图像特征。
10.根据权利要求1所述的方法,其中,所述根据所述初始位置分布特征图和所述第二图像特征,得到第二特征图,包括:
根据所述初始位置分布特征图,确定初始检测位置特征;
根据所述初始检测位置特征,从所述第二图像特征中得到第二目标图像特征;以及
根据所述第二目标图像特征,生成所述第二特征图。
11.根据权利要求1所述的方法,其中,所述第一深度学习模型包括卷积层和全连接层,所述卷积层包括特征提取层和特征筛选层,所述全连接层包括类别回归层和位置回归层,所述特征筛选层的输入端与所述特征提取层的输出端连接,所述特征筛选层的输出端分别与所述类别回归层的输入端、所述位置回归层的输入端连接,所述利用所述第一深度学习模型对所述样本图像进行目标检测,得到第一检测结果,包括:
利用所述特征提取层对所述样本图像进行处理,得到所述第一图像特征;
利用所述特征筛选层根据所述第一深度学习模型的预定位置特征分布图和所述第一图像特征,得到第三特征图;以及
利用所述类别回归层和所述位置回归层分别对所述第三特征图进行处理,得到所述第一检测结果。
12.根据权利要求11所述的方法,其中,所述利用所述类别回归层和所述位置回归层分别对所述第三特征图进行处理,得到所述第一检测结果,包括:
利用所述类别回归层对所述第三特征图进行处理,得到第一类别检测结果;
利用所述位置回归层对所述第三特征图进行处理,得到第一位置检测结果;以及
根据所述第一类别检测结果和所述第一位置检测结果,得到所述第一检测结果。
13.一种目标检测方法,包括:
获取待检测图像;
利用第一深度学习模型对所述待检测图像进行处理,得到目标检测结果,其中,所述第一深度学习模型是利用权利要求1~12任一项所述的训练方法训练得到的。
14.根据权利要求13所述的目标检测方法,其中,所述第一深度学习模型包括卷积层和全连接层,所述卷积层包括特征提取层和特征筛选层,所述全连接层包括类别回归层和位置回归层,所述特征筛选层的输入端与所述特征提取层的输出端连接,所述特征筛选层的输出端分别与所述类别回归层的输入端、所述位置回归层的输入端连接,所述利用第一深度学习模型对待检测图像进行处理,得到目标检测结果,包括:
利用所述特征提取层对所述待检测图像进行处理,得到待检测的图像特征;
根据所述待检测图像,确定目标位置分布特征图;
利用所述特征筛选层,根据所述目标位置分布特征图和所述待检测的图像特征,得到待检测的特征图;以及
利用所述类别回归层和所述位置回归层分别对所述待检测的特征图进行处理,得到目标检测结果。
15.根据权利要求14所述的方法,其中,所述利用所述特征提取层对所述待检测图像进行处理,得到待检测的图像特征,包括:
对所述待检测图像进行数据增强处理,得到特征增强的待检测图像;以及
利用所述特征提取层对所述特征增强的待检测图像进行处理,得到所述待检测的图像特征。
16.根据权利要求15所述的方法,其中,所述对待检测图像进行数据增强处理,得到特征增强的待检测图像,包括:
对所述对待检测图像按照不同比例进行几何变换处理,得到多个第一待检测图像;以及
对所述多个第一待检测图像进行归一化处理,得到所述特征增强的待检测图像。
17.根据权利要求15所述的方法,其中,所述对待检测图像进行数据增强处理,得到特征增强的待检测图像,包括:
对所述对待检测图像进行像素重分布处理,得到多个第二待检测图像;以及
对所述多个第二待检测图像进行归一化处理,得到所述特征增强的待检测图像。
18.根据权利要求14所述的方法,其中,所述利用所述特征筛选层,根据所述目标位置分布特征图和所述待检测的图像特征,得到待检测的特征图,包括:
根据所述目标位置分布特征图,确定目标位置特征;
利用所述特征筛选层,根据所述目标位置特征,从所述待检测的图像特征中得到待检测的目标图像特征,以及
根据所述待检测的目标图像特征,生成所述待检测的特征图。
19.根据权利要求14所述的方法,其中,所述利用所述类别回归层和所述位置回归层对所述待检测的特征图进行处理,得到目标检测结果,包括:
利用所述类别回归层对所述待检测的特征图进行处理,得到第一类别检测结果;
利用所述位置回归层对所述待检测的特征图进行处理,得到第一位置检测结果;以及
根据所述第一类别检测结果和所述第一位置检测结果,得到所述目标检测结果。
20.一种深度学习模型的训练装置,包括:
第一处理模块,用于利用第一深度学习模型对样本图像进行处理,得到第一图像特征;并根据初始位置分布特征图和所述第一图像特征,得到第一特征图,所述初始位置分布特征图表征目标对象在像素坐标空间内任一位置的分布概率;
第二处理模块,用于利用第二深度学习模型对所述样本图像进行处理,得到第二图像特征;并根据所述初始位置分布特征图和所述第二图像特征,得到第二特征图;其中,所述第二深度学习模型的各卷积层与所述第一深度学习模型的各卷积层一一对应;
第一检测模块,用于利用所述第一深度学习模型对所述样本图像进行目标检测,得到第一检测结果;以及
调整模块,用于基于目标损失函数,根据所述第一检测结果、所述第一特征图和所述第二特征图,调整所述第一深度学习模型的模型参数和所述初始位置分布特征图,得到与所述样本图像对应的目标位置分布特征图和经训练的第一深度学习模型。
21.根据权利要求20所述的训练装置,其中,所述目标损失函数包括真值损失函数和蒸馏损失函数;所述调整模块包括:
第一获得子模块,用于基于所述蒸馏损失函数,根据所述第一特征图和所述第二特征图,得到蒸馏损失;
第二获得子模块,用于基于所述真值损失函数,根据所述第一检测结果和所述样本图像的标签,得到检测结果损失;以及
调整子模块,用于基于所述蒸馏损失和所述检测结果损失,调整所述第一深度学习模型的模型参数和所述初始位置分布特征图,得到经训练的第一深度学习模型和所述目标位置分布特征图。
22.根据权利要求21所述的训练装置,其中,所述调整子模块包括:调整单元;
调整单元,用于基于所述蒸馏损失和所述检测结果损失,调整所述第一深度学习模型的模型参数和所述初始位置分布特征图,得到经训练的第一深度学习模型,并从位置分布特征图集中得到所述目标位置分布特征图。
23.根据权利要求22所述的训练装置,其中,所述位置分布特征图集包括S个位置分布特征图,S为大于1的整数;所述调整子模块包括:
训练单元,用于针对第s个位置分布特征图,利用所述第二深度学习模型对所述第一深度学习模型进行第s轮训练,得到第s个蒸馏损失和第s个检测结果损失,其中,s为大于等于1且小于S的整数;
第一获得单元,用于根据所述第s个蒸馏损失和所述第s个检测结果损失,得到第s个目标损失;
调整单元,用于在确定所述第s个目标损失大于预定阈值的情况下,调整所述第一深度学习模型的模型参数,并递增s,返回执行所述利用所述第二深度学习模型对所述第一深度学习模型进行第s轮训练操作;以及
第二获得单元,用于在确定所述第s个目标损失小于等于预定阈值的情况下,得到经训练的第一深度学习模型,并将所述第s个位置分布特征图确定为所述目标位置分布特征图。
24.根据权利要求20所述的训练装置,其中,所述第一处理模块包括:
第一数据增强子模块,用于对所述样本图像进行数据增强处理,得到第一增强样本图像;以及
第三获得子模块,用于利用所述第一深度学习模型对所述第一增强样本图像进行处理,得到所述第一图像特征。
25.根据权利要求24所述的训练装置,其中,所述第一数据增强子模块包括:
第一几何变换处理单元,用于对所述样本图像进行几何变换处理,得到多个第一样本图像;以及
第一归一化处理单元,用于对所述多个第一样本图像进行归一化处理,得到所述第一增强样本图像。
26.根据权利要求24所述的训练装置,其中,所述第一数据增强子模块包括:
第一像素重分布处理单元,用于对所述样本图像进行像素重分布处理,得到多个第二样本图像;以及
第二归一化处理单元,用于对所述多个第二样本图像进行归一化处理,得到所述第一增强样本图像。
27.根据权利要求20所述的训练装置,其中,所述第一处理模块包括:
第一确定子模块,用于根据所述初始位置分布特征图,确定初始检测位置特征;
第一筛选子模块,用于根据所述初始检测位置特征,从所述第一图像特征中得到第一目标图像特征;以及
第一生成子模块,用于根据所述第一目标图像特征,生成所述第一特征图。
28.根据权利要求20所述的训练装置,其中,所述第二处理模块包括:
第二数据增强处理子模块,用于对所述样本图像进行数据增强处理,得到第二增强样本图像;其中,所述第二增强样本图像与利用第一深度学习模型对所述样本图像进行数据增强处理得到的第一增强样本图像相同;以及
第四获得子模块,用于利用所述第二深度学习模型对所述第二增强样本图像进行处理,得到所述第二图像特征。
29.根据权利要求20所述的训练装置,其中,所述第二处理模块包括:
第二确定子模块,用于根据所述初始位置分布特征图,确定初始检测位置特征;
第二筛选子模块,用于根据所述初始检测位置特征,从所述第二图像特征中得到第二目标图像特征;以及
第二生成子模块,用于根据所述第二目标图像特征,生成所述第二特征图。
30.根据权利要求20所述的训练装置,其中,所述第一深度学习模型包括卷积层和全连接层,所述卷积层包括特征提取层和特征筛选层,所述全连接层包括类别回归层和位置回归层,所述特征筛选层的输入端与所述特征提取层的输出端连接,所述特征筛选层的输出端分别与所述类别回归层的输入端、所述位置回归层的输入端连接,所述第一检测模块包括:
第一特征提取子模块,用于利用所述特征提取层对所述样本图像进行处理,得到第一图像特征;
第一特征筛选子模块,用于利用所述特征筛选层根据所述第一深度学习模型的预定位置特征分布图和所述第一图像特征,得到第三特征图;以及
第一检测子模块,用于利用所述类别回归层和所述位置回归层对所述第三特征图进行处理,得到所述第一检测结果。
31.根据权利要求30所述的训练装置,其中,所述第一检测子模块包括:
第一类别检测单元,用于利用所述类别回归层对所述第三特征图进行处理,得到第一类别检测结果;
第一位置检测单元,用于利用所述位置回归层对所述第三特征图进行处理,得到第一位置检测结果;以及
第三获得单元,用于根据所述第一类别检测结果和所述第一位置检测结果,得到所述第一检测结果。
32.一种目标检测装置,包括:
获取模块,用于获取待检测图像;
第二检测模块,用于利用第一深度学习模型对所述待检测图像进行处理,得到目标检测结果,其中,所述第一深度学习模型是利用权利要求1~12任一项所述的训练方法训练得到的。
33.根据权利要求32所述的装置,其中,所述第一深度学习模型包括卷积层和全连接层,所述卷积层包括特征提取层和特征筛选层,所述全连接层包括类别回归层和位置回归层,所述特征筛选层的输入端与所述特征提取层的输出端连接,所述特征筛选层的输出端分别与所述类别回归层的输入端、所述位置回归层的输入端连接,所述第二检测模块包括:
第二特征提取子模块,用于利用所述特征提取层对待检测图像进行处理,得到待检测的图像特征;
第三确定子模块,用于根据所述待检测图像,确定目标位置分布特征图;
第二特征筛选子模块,用于利用所述特征筛选层,根据所述目标位置分布特征图和所述待检测的图像特征,得到待检测的特征图;以及
第二检测子模块,用于利用所述类别回归层和所述位置回归层分别对所述待检测的特征图进行处理,得到目标检测结果。
34.根据权利要求32所述的装置,其中,所述第二特征提取子模块包括:
数据增强处理单元,用于对待检测图像进行数据增强处理,得到特征增强的待检测图像;以及
归一化处理单元,用于利用所述特征提取层对所述特征增强的待检测图像进行处理,得到所述待检测的图像特征。
35.根据权利要求33所述的装置,其中,所述数据增强处理单元包括:
几何变换处理子单元,用于对所述对待检测图像按照不同比例进行几何变换处理,得到多个第一待检测图像;以及
第一归一化处理子单元,用于对所述多个第一待检测图像进行归一化处理,得到所述特征增强的待检测图像。
36.根据权利要求33所述的装置,其中,所述数据增强处理单元包括:
像素重分布处理子单元,用于对所述对待检测图像进行像素重分布处理,得到多个第二待检测图像;以及
第二归一化处理子单元,用于对所述多个第二待检测图像进行归一化处理,得到所述特征增强的待检测图像。
37.根据权利要求32所述的装置,其中,所述第二特征筛选模块包括:
第四确定子模块,用于根据所述目标位置分布特征图,确定目标位置特征;
第三筛选子模块,用于利用所述特征筛选层根据所述目标位置特征,从所述待检测的图像特征中得到待检测的目标图像特征,以及
第三生成子模块,用于根据所述待检测的目标图像特征,生成待检测的特征图。
38.根据权利要求32所述的装置,其中,所述第二检测模块包括:
类别检测子模块,用于利用所述类别回归层对所述待检测的特征图进行处理,得到第一类别检测结果;
位置检测子模块,用于利用所述位置回归层对所述待检测的特征图进行处理,得到第一位置检测结果;以及
第五获得子模块,用于根据所述第一类别检测结果和所述第一位置检测结果,得到所述目标检测结果。
39. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-19中任一项所述的方法。
40.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-19中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310206397.9A CN116071625B (zh) | 2023-03-07 | 2023-03-07 | 深度学习模型的训练方法、目标检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310206397.9A CN116071625B (zh) | 2023-03-07 | 2023-03-07 | 深度学习模型的训练方法、目标检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116071625A true CN116071625A (zh) | 2023-05-05 |
CN116071625B CN116071625B (zh) | 2023-06-02 |
Family
ID=86178635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310206397.9A Active CN116071625B (zh) | 2023-03-07 | 2023-03-07 | 深度学习模型的训练方法、目标检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116071625B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117744732A (zh) * | 2023-12-20 | 2024-03-22 | 北京百度网讯科技有限公司 | 深度学习模型的训练方法、推理方法、装置、设备和介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112529178A (zh) * | 2020-12-09 | 2021-03-19 | 中国科学院国家空间科学中心 | 一种适用于无预选框检测模型的知识蒸馏方法及系统 |
CN113221867A (zh) * | 2021-05-11 | 2021-08-06 | 北京邮电大学 | 一种基于深度学习的pcb图像字符检测方法 |
CN113361510A (zh) * | 2021-08-11 | 2021-09-07 | 腾讯科技(深圳)有限公司 | 超分网络模型训练方法、装置、电子设备以及存储介质 |
CN114494784A (zh) * | 2022-01-28 | 2022-05-13 | 北京百度网讯科技有限公司 | 深度学习模型的训练方法、图像处理方法和对象识别方法 |
CN114782771A (zh) * | 2022-03-30 | 2022-07-22 | 北京百度网讯科技有限公司 | 训练方法、图像检索方法、图像处理方法、装置及设备 |
CN115205806A (zh) * | 2022-07-28 | 2022-10-18 | 北京京东乾石科技有限公司 | 生成目标检测模型的方法、装置和自动驾驶车辆 |
US20220414868A1 (en) * | 2019-09-18 | 2022-12-29 | Ping An Technology (Shenzhen) Co., Ltd. | Method, Device, Apparatus, and Medium for Training Recognition Model and Recognizing Fundus Features |
-
2023
- 2023-03-07 CN CN202310206397.9A patent/CN116071625B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220414868A1 (en) * | 2019-09-18 | 2022-12-29 | Ping An Technology (Shenzhen) Co., Ltd. | Method, Device, Apparatus, and Medium for Training Recognition Model and Recognizing Fundus Features |
CN112529178A (zh) * | 2020-12-09 | 2021-03-19 | 中国科学院国家空间科学中心 | 一种适用于无预选框检测模型的知识蒸馏方法及系统 |
CN113221867A (zh) * | 2021-05-11 | 2021-08-06 | 北京邮电大学 | 一种基于深度学习的pcb图像字符检测方法 |
CN113361510A (zh) * | 2021-08-11 | 2021-09-07 | 腾讯科技(深圳)有限公司 | 超分网络模型训练方法、装置、电子设备以及存储介质 |
CN114494784A (zh) * | 2022-01-28 | 2022-05-13 | 北京百度网讯科技有限公司 | 深度学习模型的训练方法、图像处理方法和对象识别方法 |
CN114782771A (zh) * | 2022-03-30 | 2022-07-22 | 北京百度网讯科技有限公司 | 训练方法、图像检索方法、图像处理方法、装置及设备 |
CN115205806A (zh) * | 2022-07-28 | 2022-10-18 | 北京京东乾石科技有限公司 | 生成目标检测模型的方法、装置和自动驾驶车辆 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117744732A (zh) * | 2023-12-20 | 2024-03-22 | 北京百度网讯科技有限公司 | 深度学习模型的训练方法、推理方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116071625B (zh) | 2023-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN113033537B (zh) | 用于训练模型的方法、装置、设备、介质和程序产品 | |
CN111340077B (zh) | 基于注意力机制的视差图获取方法和装置 | |
CN109871845B (zh) | 证件图像提取方法及终端设备 | |
CN110059728B (zh) | 基于注意力模型的rgb-d图像视觉显著性检测方法 | |
CN112949767B (zh) | 样本图像增量、图像检测模型训练及图像检测方法 | |
CN110148117B (zh) | 基于电力图像的电力设备缺陷识别方法、装置与存储介质 | |
CN107506792B (zh) | 一种半监督的显著对象检测方法 | |
CN109426773A (zh) | 一种道路识别方法和装置 | |
CN110852327A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN112836625A (zh) | 人脸活体检测方法、装置、电子设备 | |
CN116071625B (zh) | 深度学习模型的训练方法、目标检测方法及装置 | |
CN113850136A (zh) | 基于yolov5与BCNN的车辆朝向识别方法及系统 | |
CN111179270A (zh) | 基于注意力机制的图像共分割方法和装置 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN111862040A (zh) | 人像图片质量评价方法、装置、设备及存储介质 | |
CN117557784B (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN114492634A (zh) | 一种细粒度装备图片分类识别方法及系统 | |
WO2022222036A1 (zh) | 车位确定方法及装置 | |
CN114049491A (zh) | 指纹分割模型训练、指纹分割方法、装置、设备及介质 | |
CN116188917B (zh) | 缺陷数据生成模型训练方法、缺陷数据生成方法及装置 | |
CN112883959A (zh) | 身份证照完整性检测方法、装置、设备及存储介质 | |
CN116758373A (zh) | 深度学习模型的训练方法、图像处理方法、装置和设备 | |
CN114494782B (zh) | 图像处理方法、模型训练方法、相关装置及电子设备 | |
CN116258873A (zh) | 一种位置信息确定方法、对象识别模型的训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |