CN114419667A - 基于迁移学习的人物检测方法和系统 - Google Patents
基于迁移学习的人物检测方法和系统 Download PDFInfo
- Publication number
- CN114419667A CN114419667A CN202111616327.8A CN202111616327A CN114419667A CN 114419667 A CN114419667 A CN 114419667A CN 202111616327 A CN202111616327 A CN 202111616327A CN 114419667 A CN114419667 A CN 114419667A
- Authority
- CN
- China
- Prior art keywords
- network
- teacher
- student
- loss
- feature richness
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明提出一种基于迁移学习的人物检测方法和系统,构建用于图像目标检测的教师网络和其对应的学生网络,获取已标注人物类别标签的图片数据集作为训练数据集;分别根据老师网络和学生网络每层目标检测FPN中特征包含的目标对象信息量,得到老师网络每层目标检测FPN的老师特征丰富度得分和学生网络每层目标检测FPN的学生特征丰富度得分;基于该老师特征丰富度得分和该学生特征丰富度得分,得到分类头约束损失;对教师网络的损失、学生网络的损失和该分类头约束损失进行求和,得到蒸馏损失;该蒸馏损失收敛后使用该学生网络对图片中的人物进行检测。
Description
本申请是申请日为2021年9月18日、申请号为202111103913.2、发明名称为“基于迁移学习的人物检测方法和系统”发明专利申请的分案申请。
技术领域
本发明涉及目标检测和迁移学习中知识蒸馏技术领域,并特别涉及一种基于迁移学习的人物检测方法、系统、存储介质和客户端。
背景技术
近年来,大规模的深度模型取得了巨大的成功,但巨大的计算复杂度和海量的存储需求使得将它们部署在资源有限的设备中是一个巨大的挑战。作为一种模型压缩和加速方法,知识蒸馏通过转移来自教师检测器的暗知识,即教师网络中隐含的对学生网络中有用的信息,进而有效地提高了小模型的性能。现有大多数基于知识蒸馏的目标检测方法主要让学生网络去模仿老师网络中与边界框重叠的特征,并认为从bounding box中选择的前景特征很重要。
现有的目标检测中知识蒸馏方法过分注重bounding box区域的信息,而忽视了其他的区域的有用信息。首先,从bounding box中选出的前景特征只包含数据集中的类别,而忽略了数据集外对象的类别,导致遗漏了一些重要的特征。例如,COCO数据集中不包含人体模特类别,但包含人物类别。由于模特在视觉上与人相似,人体模型的特征包含了许多有用的人特征,这些特征有利于提高蒸馏检测器对人的检测效果。其次,仅使用边界框的先验知识来选择特征进行蒸馏忽略了教师网络的缺陷。模仿被教师网络误认为背景的特征会对学生网络产生误导。
发明内容
本发明基于在目标检测中蒸馏方法有效利用除bounding box区域外的有用信息,提出了一种基于迁移学习的人物检测方法,其中包括:
步骤1、构建用于图像目标检测的教师网络和其对应的学生网络,获取已标注人物类别标签的图片数据集作为训练数据集;
步骤2、分别根据老师网络和学生网络每层目标检测FPN中特征包含的目标对象信息量,得到老师网络每层目标检测FPN的老师特征丰富度得分和学生网络每层目标检测FPN的学生特征丰富度得分;
步骤3、基于该老师特征丰富度得分和该学生特征丰富度得分,得到分类头约束损失;
步骤4、对教师网络的损失、学生网络的损失和该分类头约束损失进行求和,得到蒸馏损失;
步骤5、循环该步骤2到该步骤4,直到该蒸馏损失收敛或达到预设重复迭代次数,终止训练,将当前学生网络作为人物检测模型,并使用该人物检测模型对待识别图片中的人物进行检测,得到待识别图片中人物的人物类别作为识别结果。
所述的基于迁移学习的人物检测方法,其中该分类头约束损失:
本发明还提出了一种基于特征丰富度知识蒸馏的人物检测系统,其中包括:
模块1,用于构建用于图像目标检测的教师网络和其对应的学生网络,获取已标注人物类别标签的图片数据集作为训练数据集;
模块2,用于分别根据老师网络和学生网络每层目标检测FPN中特征包含的目标对象信息量,得到老师网络每层目标检测FPN的老师特征丰富度得分和学生网络每层目标检测FPN的学生特征丰富度得分;
模块3,用于基于该老师特征丰富度得分和该学生特征丰富度得分,得到分类头约束损失;
模块4,用于对教师网络的损失、学生网络的损失和该分类头约束损失进行求和,得到蒸馏损失;
模块5,用于重复迭代调用该模块2到该模块4,直到该蒸馏损失收敛或达到预设重复迭代次数,终止训练,将当前学生网络作为人物检测模型,并使用该人物检测模型对待识别图片中的人物进行检测,得到待识别图片中人物的人物类别作为识别结果。
所述的基于迁移学习的人物检测系统,其中该分类头约束损失:
本发明还提出了一种存储介质,用于存储执行所述的基于迁移学习的人物检测方法的程序。
本发明还提出了一种客户端,用于所述基于迁移学习的人物检测系统。
由以上方案可知,本发明的优点在于,提高了目标检测的准确率,在COCO数据集上评测指标是mAP的情况下:Faster-Resnet50提升2.1%,FCOS-Resnet50提升2.4%,GFL-Resnet50提升3.4%。
附图说明
图1为本发明系统框图;
图2为本发明方法流程图。
具体实施方式
为了解决上述问题,本发明提出了一种特征丰富度评分(FRS)方法来选择有利于蒸馏的重要特征。特征丰富度是指特征中包含的对象的信息量,同时可以用这些特征是对象的概率来表示。提取特征丰富度高的特征而不是boundingbox区域中的特征可以有效解决上述两个限制——忽略boundingbox之外,未包含在数据集类别中的对象的特征;以及过分注重教师检测器错误分类的特征。
首先,未包含在数据集类别中的对象的特征具有很高的特征丰富度。因此,使用特征丰富度可以检索边界框外的重要特征,这可以指导学生网络学习教师网络的广义可检测性。例如,具有高特征丰富度的人体模特的特征可以促进学生检测器提高其对人的广义可检测性。
其次,边界框中的特征但被教师检测器错误分类的特征丰富度低。因此,使用特征丰富度可以去除边界框中教师检测器的误导性特征。
因此,特征的重要性与特征丰富度密切相关,即特征丰富度适合选择重要特征进行蒸馏。由于所有类别的分类分数聚合是特征为对象的概率的近似值,因此本发明使用聚合的分类分数作为特征丰富度的标准。
在实践中,本发明利用教师网络中每个FPN层对应的分类分数得分作为特征掩码,用作特征丰富度图来指导学生网络学习。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
1.特征掩码矩阵S:
基于老师网络每层目标检测FPN的分类分支得到,NCHW的四维矩阵,然后在C通道方向上面求和,得到NHW维度的特征矩阵。然后作为特征掩码矩阵S。其中学生网络是resnet50时候,老师网络可以是resnet101,resnext101等比学生网络大的网络。NCHW中N代表一批图片的大小,比如一次处理几张图片。C代表图片的通道维度,HW分别代表图片或者特征图的长宽。
yt是老师网络分类分支的输出,c’指的通道,l为对应FPN的层数,t指的是教师网络。
2.约束Loss:
2.1.特征图约束Loss:
M代表着FPN的层数,W,H代表着特征图的宽度和高度,l为对应FPN的层数,i,j代表着特征图上具体某个点,Flijc'指的是对于每个FPN层上HW维度上每个特征通过特征掩模给予不同的权重;老师网络相比于学生网络会更复杂,本发明主要目的是通过知识蒸馏使学生网络的检测性能得到提升,两者的FPN层数一样。分别代表着老师网络和学生网络第L层对应的FPN特征图。φadapt是一个自适应卷积层。本发明采用特征图约束损失充分利用教师网络中每个FPN层对应的特征掩码,更加高效的指导学生网络的学习。
2.2.分类头约束Loss
M代表着FPN的层数,W,H代表着特征图的宽度和高度,分别代表着老师网络和学生网络第l层对应的老师特征丰富度得分和学生特征丰富度得分,其中分类分支的得分是基于现有技术,在图像检测中都会带有,用以判断类别的准确度。φ是一个二进制交叉熵函数。本发明采用分类头约束损失充分利用特征中目标对象的信息量(丰富度),促进学生网络提高其对目标的广义可检测性。
在具体应用时,可基于上述内容:
第一步:获取COCO数据集训练数据。
第二步,构建教师网络,并用COCO数据集对教师网络进行训练。
第三步,构建学生网络。在原有训练loss的基础上对所有FPN(feature pyramidnetworks)层加入对应的蒸馏loss(特征图约束loss和/或分类头约束loss)。并用COCO数据集进行训练。
最后一步使用训练完成的学生网络对图片中的人物进行检测。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种基于迁移学习的人物检测系统,其特征在于,包括:
模块1,用于构建用于图像目标检测的教师网络和其对应的学生网络,获取已标注人物类别标签的图片数据集作为训练数据集;
模块2,用于以该训练数据集对该教师网络和该学生网络进行训练时,提取老师网络每层目标检测FPN的分类分支输出,得到包括NCHW四个通道输出结果的四维矩阵;
模块3,用于通过在该四维矩阵的C通道方向求和,得到NHW维度的特征矩阵作为特征掩码矩阵,基于该特征掩码矩阵、老师网络和学生网络的FPN特征图,得到特征图约束损失;
模块4,用于对教师网络的损失、学生网络的损失和该特征图约束损失进行求和,得到蒸馏损失;
模块5、重复迭代执行该模块2到该模块4,直到该蒸馏损失收敛或达到预设重复迭代次数,终止训练,将当前学生网络作为人物检测模型,并使用该人物检测模型对图片中的人物进行检测。
所述的基于迁移学习的人物检测系统,其特征在于,
该模块2包括:分别根据老师网络和学生网络每层目标检测FPN中特征包含的目标对象信息量,得到老师网络每层目标检测FPN的老师特征丰富度得分和学生网络每层目标检测FPN的学生特征丰富度得分;
该模块3包括:基于该老师特征丰富度得分和该学生特征丰富度得分,得到分类头约束损失;
该模块4包括:对教师网络的损失、学生网络的损失、该特征图约束损失和该分类头约束损失进行求和,得到该蒸馏损失。
所述的基于迁移学习的人物检测系统,其特征在于,该特征图约束损失:
所述的基于迁移学习的人物检测系统,其特征在于,该分类头约束损失:
本发明还提出了另一种基于特征丰富度知识蒸馏的人物检测系统,其和上述人物检测系统的区别在于,上述实施方式中采用特征图约束损失,以及特征图约束损失和分类头约束损失进行训练,而本实施例仅单独采用分类头约束损失,具体来说包括:
模块1,用于构建用于图像目标检测的教师网络和其对应的学生网络,获取已标注人物类别标签的图片数据集作为训练数据集;
模块2,用于分别根据老师网络和学生网络每层目标检测FPN中特征包含的目标对象信息量,得到老师网络每层目标检测FPN的老师特征丰富度得分和学生网络每层目标检测FPN的学生特征丰富度得分;
模块3,用于基于该老师特征丰富度得分和该学生特征丰富度得分,得到分类头约束损失;
模块4,用于对教师网络的损失、学生网络的损失和该分类头约束损失进行求和,得到蒸馏损失;
模块5,用于重复迭代调用该模块2到该模块4,直到该蒸馏损失收敛或达到预设重复迭代次数,终止训练,将当前学生网络作为人物检测模型,并使用该人物检测模型对待识别图片中的人物进行检测,得到待识别图片中人物的人物类别作为识别结果。
本发明还提出了一种客户端,用于上述基于迁移学习的人物检测系统。
本发明还提出了一种存储介质,用于存储执行所述基于迁移学习的人物检测的程序。
Claims (6)
1.一种基于基于迁移学习的人物检测方法,其特征在于,包括:
步骤1、构建用于图像目标检测的教师网络和其对应的学生网络,获取已标注人物类别标签的图片数据集作为训练数据集;
步骤2、分别根据老师网络和学生网络每层目标检测FPN中特征包含的目标对象信息量,得到老师网络每层目标检测FPN的老师特征丰富度得分和学生网络每层目标检测FPN的学生特征丰富度得分;
步骤3、基于该老师特征丰富度得分和该学生特征丰富度得分,得到分类头约束损失;
步骤4、对教师网络的损失、学生网络的损失和该分类头约束损失进行求和,得到蒸馏损失;
步骤5、循环该步骤2到该步骤4,直到该蒸馏损失收敛或达到预设重复迭代次数,终止训练,将当前学生网络作为人物检测模型,并使用该人物检测模型对待识别图片中的人物进行检测,得到待识别图片中人物的人物类别作为识别结果。
3.一种基于迁移学习的人物检测系统,其特征在于,包括:
模块1,用于构建用于图像目标检测的教师网络和其对应的学生网络,获取已标注人物类别标签的图片数据集作为训练数据集;
模块2,用于分别根据老师网络和学生网络每层目标检测FPN中特征包含的目标对象信息量,得到老师网络每层目标检测FPN的老师特征丰富度得分和学生网络每层目标检测FPN的学生特征丰富度得分;
模块3,用于基于该老师特征丰富度得分和该学生特征丰富度得分,得到分类头约束损失;
模块4,用于对教师网络的损失、学生网络的损失和该分类头约束损失进行求和,得到蒸馏损失;
模块5,用于重复迭代调用该模块2到该模块4,直到该蒸馏损失收敛或达到预设重复迭代次数,终止训练,将当前学生网络作为人物检测模型,并使用该人物检测模型对待识别图片中的人物进行检测,得到待识别图片中人物的人物类别作为识别结果。
5.一种存储介质,用于存储执行权利要求1或2所述的基于迁移学习的人物检测方法的程序。
6.一种客户端,用于权利要求3或4所述的基于迁移学习的人物检测系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111616327.8A CN114419667A (zh) | 2021-09-18 | 2021-09-18 | 基于迁移学习的人物检测方法和系统 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111103913.2A CN113936295B (zh) | 2021-09-18 | 2021-09-18 | 基于迁移学习的人物检测方法和系统 |
CN202111616327.8A CN114419667A (zh) | 2021-09-18 | 2021-09-18 | 基于迁移学习的人物检测方法和系统 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111103913.2A Division CN113936295B (zh) | 2021-09-18 | 2021-09-18 | 基于迁移学习的人物检测方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114419667A true CN114419667A (zh) | 2022-04-29 |
Family
ID=79276135
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111103913.2A Active CN113936295B (zh) | 2021-09-18 | 2021-09-18 | 基于迁移学习的人物检测方法和系统 |
CN202111616327.8A Pending CN114419667A (zh) | 2021-09-18 | 2021-09-18 | 基于迁移学习的人物检测方法和系统 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111103913.2A Active CN113936295B (zh) | 2021-09-18 | 2021-09-18 | 基于迁移学习的人物检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN113936295B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114842449A (zh) * | 2022-05-10 | 2022-08-02 | 安徽蔚来智驾科技有限公司 | 目标检测方法、电子设备、介质及车辆 |
CN115527083A (zh) * | 2022-09-27 | 2022-12-27 | 中电金信软件有限公司 | 图像标注方法、装置和电子设备 |
CN116310293A (zh) * | 2023-02-13 | 2023-06-23 | 中国矿业大学(北京) | 一种基于弱监督学习的生成高质量候选框目标检测方法 |
CN117875406A (zh) * | 2023-10-27 | 2024-04-12 | 上海湃道智能科技有限公司 | 基于特征丰富度的知识蒸馏方法、系统、电子设备和介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116486285B (zh) * | 2023-03-15 | 2024-03-19 | 中国矿业大学 | 一种基于类别掩码蒸馏的航拍图像目标检测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428191B (zh) * | 2020-03-12 | 2023-06-16 | 五邑大学 | 基于知识蒸馏的天线下倾角计算方法、装置和存储介质 |
CN112132278A (zh) * | 2020-09-23 | 2020-12-25 | 平安科技(深圳)有限公司 | 模型压缩方法、装置、计算机设备及存储介质 |
CN112308019B (zh) * | 2020-11-19 | 2021-08-17 | 中国人民解放军国防科技大学 | 基于网络剪枝和知识蒸馏的sar舰船目标检测方法 |
-
2021
- 2021-09-18 CN CN202111103913.2A patent/CN113936295B/zh active Active
- 2021-09-18 CN CN202111616327.8A patent/CN114419667A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114842449A (zh) * | 2022-05-10 | 2022-08-02 | 安徽蔚来智驾科技有限公司 | 目标检测方法、电子设备、介质及车辆 |
CN115527083A (zh) * | 2022-09-27 | 2022-12-27 | 中电金信软件有限公司 | 图像标注方法、装置和电子设备 |
CN115527083B (zh) * | 2022-09-27 | 2023-04-11 | 中电金信软件有限公司 | 图像标注方法、装置和电子设备 |
CN116310293A (zh) * | 2023-02-13 | 2023-06-23 | 中国矿业大学(北京) | 一种基于弱监督学习的生成高质量候选框目标检测方法 |
CN116310293B (zh) * | 2023-02-13 | 2023-09-12 | 中国矿业大学(北京) | 一种基于弱监督学习的生成高质量候选框目标检测方法 |
CN117875406A (zh) * | 2023-10-27 | 2024-04-12 | 上海湃道智能科技有限公司 | 基于特征丰富度的知识蒸馏方法、系统、电子设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113936295B (zh) | 2024-08-16 |
CN113936295A (zh) | 2022-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114419667A (zh) | 基于迁移学习的人物检测方法和系统 | |
CN114241282B (zh) | 一种基于知识蒸馏的边缘设备场景识别方法及装置 | |
Karayaneva et al. | Object recognition in python and mnist dataset modification and recognition with five machine learning classifiers | |
CN108416370A (zh) | 基于半监督深度学习的图像分类方法、装置和存储介质 | |
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
CN113762269B (zh) | 基于神经网络的中文字符ocr识别方法、系统及介质 | |
CN110782420A (zh) | 一种基于深度学习的小目标特征表示增强方法 | |
CN104866524A (zh) | 一种商品图像精细分类方法 | |
CN108898138A (zh) | 基于深度学习的场景文本识别方法 | |
CN106570521A (zh) | 多语言场景字符识别方法及识别系统 | |
CN113591978B (zh) | 一种基于置信惩罚正则化的自我知识蒸馏的图像分类方法、设备及存储介质 | |
CN114092747A (zh) | 基于深度元度量模型互学习的小样本图像分类方法 | |
CN114170672A (zh) | 一种基于计算机视觉的课堂学生行为识别的方法 | |
CN114241495B (zh) | 一种用于脱机手写文本识别的数据增强方法 | |
CN111241933A (zh) | 一种基于通用对抗扰动的养猪场目标识别方法 | |
CN114677687A (zh) | 一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法 | |
CN115424288A (zh) | 一种基于多维度关系建模的视觉Transformer自监督学习方法及系统 | |
CN113642602A (zh) | 一种基于全局与局部标签关系的多标签图像分类方法 | |
CN110533074B (zh) | 一种基于双深度神经网络的图片类别自动标注方法及系统 | |
CN113192108B (zh) | 一种针对视觉跟踪模型的人在回路训练方法及相关装置 | |
CN114445691A (zh) | 模型训练方法、装置、电子设备及存储介质 | |
CN117173409A (zh) | 一种实时的交互式图像分割方法 | |
CN112749257A (zh) | 一种基于机器学习算法的智能阅卷系统 | |
CN112329830A (zh) | 一种基于卷积神经网络和迁移学习的无源定位轨迹数据识别方法及系统 | |
CN113221870B (zh) | 一种用于移动终端的ocr识别方法、装置、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |