CN115409818A - 一种应用于内窥镜图像目标检测模型的增强训练方法 - Google Patents
一种应用于内窥镜图像目标检测模型的增强训练方法 Download PDFInfo
- Publication number
- CN115409818A CN115409818A CN202211079140.3A CN202211079140A CN115409818A CN 115409818 A CN115409818 A CN 115409818A CN 202211079140 A CN202211079140 A CN 202211079140A CN 115409818 A CN115409818 A CN 115409818A
- Authority
- CN
- China
- Prior art keywords
- target detection
- detection model
- image
- trained
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10068—Endoscopic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Radiology & Medical Imaging (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种应用于内窥镜图像目标检测模型的增强训练方法,从样本标签的选择上进行优化,一个是引入对抗样本训练,并优化对抗样本的使用方式,实验表明,这两种策略综合使用,提高了模型在受限数据训练情况下的精度和泛化能力。
Description
技术领域
本发明属于目标检测技术领域,具体的为:一种应用于内窥镜图像目标检测模型的增强训练方法。
背景技术
随着电子技术的发展,医用内窥镜产品越来越丰富,极大的融入了各式各样的疾病诊断、治疗流程中。同时随着图像智能识别技术的发展,利用内窥镜图像,实现部分疾病的自动识别和预警等得到了越来越多的重视。
在图像智能识别中,人工建立的数据库往往具有决定性的作用,但是海量的数据在很多场景下并不存在,尤其是医疗领域,比如妇科内窥镜图像,往往由于各种原因,如隐私等,数据并不能充分的获取和标注。这样就要求对于图像目标检测模型的训练方式,进行尽量的优化。
发明内容
发明目的:针对上述现有技术,提出一种应用于内窥镜图像目标检测模型的增强训练方法
技术方案:一种应用于内窥镜图像目标检测模型的增强训练方法,其特征在于,包括以下步骤:
1)获取待训练图像,所述待训练图像包括标注信息;
2)通过目标检测模型对所述待训练图像进行特征提取,得到所述待训练图像的多尺度特征图;
3)通过所述目标检测模型的特征金字塔网络对所述待训练图像的多尺度特征图进行融合得到融合后的多尺度特征图;
4)通过所述目标检测模型的检测头网络对融合后的多尺度特征图进行检测得到待训练图像的目标检测结果;
5)引入最优对抗样本对所述目标检测模型进行训练,预设锚点集合,通过预设锚点的样本的权重对所述目标检测模型的损失进行调制,得到训练后的目标检测模型。
对所有锚框样本进行权重计算,从大到小排序,得到集合,根据下式计算k值:
其中,T表示固定阈值,选出权重大于固定阈值T的k个正锚框样本。
优选的,所述目标检测模型为YOLOv6。
有益效果:
1)从两个方面,对目标检测训练流程进行了优化。一个是从样本标签的选择上进行优化,一个是引入对抗样本训练,并优化对抗样本的使用方式。实验表面,这两种策略综合使用,提高了模型在受限数据训练情况下的精度和泛化能力。
2)不但维护了网络对于常规样本的响应能力,同时也强化了其对于攻击性样本的鲁棒性
具体实施方式
下面对本发明做更进一步的解释。
一种应用于内窥镜图像目标检测模型的增强训练方法,其特征在于,包括以下步骤:
1)获取待训练图像,所述待训练图像包括标注信息;
2)通过目标检测模型对所述待训练图像进行特征提取,得到所述待训练图像的多尺度特征图;
3)通过所述目标检测模型的特征金字塔网络对所述待训练图像的多尺度特征图进行融合得到融合后的多尺度特征图;
4)通过所述目标检测模型的检测头网络对融合后的多尺度特征图进行检测得到待训练图像的目标检测结果;
5)引入最优对抗样本对所述目标检测模型进行训练,预设锚点集合,通过预设锚点的样本的权重对所述目标检测模型的损失进行调制,得到训练后的目标检测模型。
对所有锚框样本进行权重计算,从大到小排序,得到集合,根据下式计算k值:
其中,T表示固定阈值,选出权重大于固定阈值T的k个正锚框样本。
所述目标检测模型为YOLOv6。
随着电子技术的发展,医用内窥镜产品越来越丰富,极大的融入了各式各样的疾病诊断、治疗流程中。同时随着图像智能识别技术的发展,利用内窥镜图像,实现部分疾病的自动识别和预警等得到了越来越多的重视。
在图像智能识别中,人工建立的数据库往往具有决定性的作用,但是海量的数据在很多场景下并不存在,尤其是医疗领域,比如妇科内窥镜图像,往往由于各种原因,如隐私等,数据并不能充分的获取和标注。这样就要求对于图像目标检测模型的训练方式,进行尽量的优化。
这里从两个方面,对目标检测训练流程进行了优化。一个是从样本标签的选择上进行优化,一个是引入对抗样本训练,并优化对抗样本的使用方式。实验表面,这两种策略综合使用,提高了模型在受限数据训练情况下的精度和泛化能力。
经典的标签分配策略通常采用预定义的规则来匹配每个锚点的样本,选择为目标或背景。这种静态的策略并没有考虑对于具有不同大小、形状或遮挡条件的目标,其目标边界会有很大的不同。
此前有些研究表明,预设锚点的预测置信度得分可以作为设计动态分配策略的指标。但这种策略依然是基于单个锚点的,如果可以为图像中的所有的目标标签找到全局更优的锚点置信度分配,这样理应可以实现更好的效果。基于此,训练中采用了一种全局动态分配的策略。
则训练中选取的正锚点样本的权重为:
训练中,使用样本权重对损失进行调制,可以加快训练收敛速度和效果。这里对于单个锚点权重,综合考虑了目标框与真实目标的重叠程度和模型响应。
而对于全局信息的融入,使用控制正锚点样本的方式,训练使用的正锚点数量根据如下规则选取:
对所有锚点样本进行权重计算,从大到小排序,得到集合{w'i},根据下式计算k值:
其中,T表示固定阈值。这样可以选出权重和大于T的k个正锚点样本。控制T值,可以动态控制正锚点的选择,对于严格不能漏掉感兴趣目标的应用场景,可以选择较大的T值。比如在妇科宫腔镜筛查中,希望所有可能的目标都得到响应,而对错误的目标响应并不敏感,这样可以选择较大的T值。
在很多医疗领域,由于隐私等原因,图像数据并不能充分的获取和标注。而使用对抗训练,可以在相对受限的样本中,提供模型的鲁棒性。这里使用PGD方法(Towards deeplearning models resistant to adversarial attacks),通过计算最大化交叉熵来获得最优攻击性的样本。
但是,通常的操作是攻击性样本和正常的样本放在一起,来最小化网络损失,这样做的问题是常常会导致的模型鲁棒性虽然更高了,但是对于正常图像的检测能力却会一定程度的下降。究其原因,因为攻击性样本是人造的样本,跟正常样本的数据分布并不相同,使用同样的网络参数并不是很合理,导致影响到正常样本的模型响应也就算预期之内了。
在训练过程中,对于网络结构中所有的batchnorm层,对于普通样本X依旧正常计算,对于攻击性的样本Xa,则通过上一步单独计算得到作为batchnorm的输出。这样不但维护了网络对于常规样本的响应能力,同时也强化了其对于攻击性样本的鲁棒性。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种应用于内窥镜图像目标检测模型的增强训练方法,其特征在于,包括以下步骤:
1)获取待训练图像,所述待训练图像包括标注信息;
2)通过目标检测模型对所述待训练图像进行特征提取,得到所述待训练图像的多尺度特征图;
3)通过所述目标检测模型的特征金字塔网络对所述待训练图像的多尺度特征图进行融合得到融合后的多尺度特征图;
4)通过所述目标检测模型的检测头网络对融合后的多尺度特征图进行检测得到待训练图像的目标检测结果;
5)引入最优对抗样本对所述目标检测模型进行训练,预设锚点集合,通过预设锚点的样本的权重对所述目标检测模型的损失进行调制,得到训练后的目标检测模型。
4.如权利要求1所述的一种应用于内窥镜图像目标检测模型的增强训练方法,其特征在于,所述目标检测模型为YOLOv6。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211079140.3A CN115409818B (zh) | 2022-09-05 | 2022-09-05 | 一种应用于内窥镜图像目标检测模型的增强训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211079140.3A CN115409818B (zh) | 2022-09-05 | 2022-09-05 | 一种应用于内窥镜图像目标检测模型的增强训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115409818A true CN115409818A (zh) | 2022-11-29 |
CN115409818B CN115409818B (zh) | 2023-10-27 |
Family
ID=84163048
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211079140.3A Active CN115409818B (zh) | 2022-09-05 | 2022-09-05 | 一种应用于内窥镜图像目标检测模型的增强训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115409818B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784190A (zh) * | 2018-12-19 | 2019-05-21 | 华东理工大学 | 一种基于深度学习的自动驾驶场景关键目标检测提取方法 |
CN110751185A (zh) * | 2019-09-26 | 2020-02-04 | 高新兴科技集团股份有限公司 | 目标检测模型的训练方法和装置 |
CN110969200A (zh) * | 2019-11-27 | 2020-04-07 | 中国科学院自动化研究所 | 基于一致性负样本的图像目标检测模型训练方法及装置 |
CN112818783A (zh) * | 2021-01-22 | 2021-05-18 | 南京邮电大学 | 一种基于交通标志目标检测器改进的对抗样本生成方法 |
CN113239982A (zh) * | 2021-04-23 | 2021-08-10 | 北京旷视科技有限公司 | 检测模型的训练方法、目标检测方法、装置和电子系统 |
CN113919497A (zh) * | 2021-10-25 | 2022-01-11 | 中国科学院自动化研究所 | 针对连续学习能力系统的基于特征操纵的攻击和防御方法 |
CN114140750A (zh) * | 2021-12-09 | 2022-03-04 | 浙江浙石油综合能源销售有限公司 | 一种基于YOLOv4-Tiny的加油站安全帽佩戴实时检测方法 |
US20220188635A1 (en) * | 2020-12-10 | 2022-06-16 | Cognizant Technology Solutions U.S. Corporation | System and Method For Detecting Misclassification Errors in Neural Networks Classifiers |
CN114998603A (zh) * | 2022-03-15 | 2022-09-02 | 燕山大学 | 一种基于深度多尺度特征因子融合的水下目标检测方法 |
-
2022
- 2022-09-05 CN CN202211079140.3A patent/CN115409818B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784190A (zh) * | 2018-12-19 | 2019-05-21 | 华东理工大学 | 一种基于深度学习的自动驾驶场景关键目标检测提取方法 |
CN110751185A (zh) * | 2019-09-26 | 2020-02-04 | 高新兴科技集团股份有限公司 | 目标检测模型的训练方法和装置 |
CN110969200A (zh) * | 2019-11-27 | 2020-04-07 | 中国科学院自动化研究所 | 基于一致性负样本的图像目标检测模型训练方法及装置 |
US20220188635A1 (en) * | 2020-12-10 | 2022-06-16 | Cognizant Technology Solutions U.S. Corporation | System and Method For Detecting Misclassification Errors in Neural Networks Classifiers |
CN112818783A (zh) * | 2021-01-22 | 2021-05-18 | 南京邮电大学 | 一种基于交通标志目标检测器改进的对抗样本生成方法 |
CN113239982A (zh) * | 2021-04-23 | 2021-08-10 | 北京旷视科技有限公司 | 检测模型的训练方法、目标检测方法、装置和电子系统 |
CN113919497A (zh) * | 2021-10-25 | 2022-01-11 | 中国科学院自动化研究所 | 针对连续学习能力系统的基于特征操纵的攻击和防御方法 |
CN114140750A (zh) * | 2021-12-09 | 2022-03-04 | 浙江浙石油综合能源销售有限公司 | 一种基于YOLOv4-Tiny的加油站安全帽佩戴实时检测方法 |
CN114998603A (zh) * | 2022-03-15 | 2022-09-02 | 燕山大学 | 一种基于深度多尺度特征因子融合的水下目标检测方法 |
Non-Patent Citations (3)
Title |
---|
DONG Y P等: "Boosting adversarial attacks with momentum", 《CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
徐源;翟春艳;王国良;: "基于对抗学习与深度估计的车辆检测系统", 辽宁石油化工大学学报, no. 03 * |
杨弋?;邵文泽;王力谦;葛琦;鲍秉坤;邓海松;李海波;: "面向智能驾驶视觉感知的对抗样本攻击与防御方法综述", 南京信息工程大学学报(自然科学版), no. 06 * |
Also Published As
Publication number | Publication date |
---|---|
CN115409818B (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109583342B (zh) | 基于迁移学习的人脸活体检测方法 | |
US20210065381A1 (en) | Target tracking method, device, system and non-transitory computer readable medium | |
CN108062574B (zh) | 一种基于特定类别空间约束的弱监督目标检测方法 | |
US10445602B2 (en) | Apparatus and method for recognizing traffic signs | |
CN114821014B (zh) | 基于多模态与对抗学习的多任务目标检测识别方法及装置 | |
CN116935447B (zh) | 基于自适应师生结构的无监督域行人重识别方法及系统 | |
CN114255434A (zh) | 一种多目标跟踪方法及装置 | |
CN113378675A (zh) | 一种同时检测和特征提取的人脸识别方法 | |
CN112149664A (zh) | 一种优化分类与定位任务的目标检测方法 | |
CN117040939B (zh) | 基于改进视觉自注意力模型的车载网络入侵检测方法 | |
CN110532937A (zh) | 基于识别模型与分类模型进行列车前向目标精准识别的方法 | |
CN111126155B (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
Li et al. | A self-attention feature fusion model for rice pest detection | |
CN111882525A (zh) | 一种基于lbp水印特征和细粒度识别的图像翻拍检测方法 | |
CN114170686A (zh) | 一种基于人体关键点的屈肘行为检测方法 | |
Zeng et al. | A new multi-object tracking pipeline based on computer vision techniques for mussel farms | |
CN113449676A (zh) | 一种基于双路互促进解纠缠学习的行人重识别方法 | |
CN112926496A (zh) | 用于预测图像清晰度的神经网络、训练方法及预测方法 | |
Chen et al. | SRCBTFusion-Net: An Efficient Fusion Architecture via Stacked Residual Convolution Blocks and Transformer for Remote Sensing Image Semantic Segmentation | |
CN112052722A (zh) | 行人身份再识别方法及存储介质 | |
CN115661586B (zh) | 模型训练和人流量统计方法、装置及设备 | |
CN115409818A (zh) | 一种应用于内窥镜图像目标检测模型的增强训练方法 | |
CN114913438B (zh) | 一种基于锚框最优聚类的YOLOv5园林异常目标识别方法 | |
CN112597842B (zh) | 基于人工智能的运动检测面瘫程度评估系统 | |
CN117173075A (zh) | 医学图像检测方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |