CN115409818B - 一种应用于内窥镜图像目标检测模型的增强训练方法 - Google Patents

一种应用于内窥镜图像目标检测模型的增强训练方法 Download PDF

Info

Publication number
CN115409818B
CN115409818B CN202211079140.3A CN202211079140A CN115409818B CN 115409818 B CN115409818 B CN 115409818B CN 202211079140 A CN202211079140 A CN 202211079140A CN 115409818 B CN115409818 B CN 115409818B
Authority
CN
China
Prior art keywords
detection model
target detection
trained
image
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211079140.3A
Other languages
English (en)
Other versions
CN115409818A (zh
Inventor
张云飞
曹黎俊
王孝群
蔡占毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Jiyuan Medical Technology Co ltd
Original Assignee
Jiangsu Jiyuan Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Jiyuan Medical Technology Co ltd filed Critical Jiangsu Jiyuan Medical Technology Co ltd
Priority to CN202211079140.3A priority Critical patent/CN115409818B/zh
Publication of CN115409818A publication Critical patent/CN115409818A/zh
Application granted granted Critical
Publication of CN115409818B publication Critical patent/CN115409818B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10068Endoscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种应用于内窥镜图像目标检测模型的增强训练方法,从样本标签的选择上进行优化,一个是引入对抗样本训练,并优化对抗样本的使用方式,实验表明,这两种策略综合使用,提高了模型在受限数据训练情况下的精度和泛化能力。

Description

一种应用于内窥镜图像目标检测模型的增强训练方法
技术领域
本发明属于目标检测技术领域,具体的为:一种应用于内窥镜图像目标检测模型的增强训练方法。
背景技术
随着电子技术的发展,医用内窥镜产品越来越丰富,极大的融入了各式各样的疾病诊断、治疗流程中。同时随着图像智能识别技术的发展,利用内窥镜图像,实现部分疾病的自动识别和预警等得到了越来越多的重视。
在图像智能识别中,人工建立的数据库往往具有决定性的作用,但是海量的数据在很多场景下并不存在,尤其是医疗领域,比如妇科内窥镜图像,往往由于各种原因,如隐私等,数据并不能充分的获取和标注。这样就要求对于图像目标检测模型的训练方式,进行尽量的优化。
发明内容
发明目的:针对上述现有技术,提出一种应用于内窥镜图像目标检测模型的增强训练方法
技术方案:一种应用于内窥镜图像目标检测模型的增强训练方法,其特征在于,包括以下步骤:
1)获取待训练图像,所述待训练图像包括标注信息;
2)通过目标检测模型对所述待训练图像进行特征提取,得到所述待训练图像的多尺度特征图;
3)通过所述目标检测模型的特征金字塔网络对所述待训练图像的多尺度特征图进行融合得到融合后的多尺度特征图;
4)通过所述目标检测模型的检测头网络对融合后的多尺度特征图进行检测得到待训练图像的目标检测结果;
5)引入最优对抗样本对所述目标检测模型进行训练,预设锚点集合,通过预设锚点的样本的权重对所述目标检测模型的损失进行调制,得到训练后的目标检测模型。
优选的,预设锚框样本集合为{Qi},目标真实位置为R,所述目标检测模型使用所述锚框样本集合{Qi}得到的预测置信度集合为目标预测位置集合为/>其中i表示锚点序号;则训练中选取的正锚框样本的权重wi为:
对所有锚框样本进行权重计算,从大到小排序,得到集合,根据下式计算k值:
其中,T表示固定阈值,选出权重大于固定阈值T的k个正锚框样本。
优选的,通过最大化交叉熵法来获得最优对抗样本,将所述最优对抗样本记为Xa,计算最优对抗样本Xa的均值μa和方差σa,然后归一化所有的Xa得到将/>作为所述目标检测模型的batchnorm层的输出。
优选的,所述目标检测模型为YOLOv6。
有益效果:
1)从两个方面,对目标检测训练流程进行了优化。一个是从样本标签的选择上进行优化,一个是引入对抗样本训练,并优化对抗样本的使用方式。实验表面,这两种策略综合使用,提高了模型在受限数据训练情况下的精度和泛化能力。
2)不但维护了网络对于常规样本的响应能力,同时也强化了其对于攻击性样本的鲁棒性
具体实施方式
下面对本发明做更进一步的解释。
一种应用于内窥镜图像目标检测模型的增强训练方法,其特征在于,包括以下步骤:
1)获取待训练图像,所述待训练图像包括标注信息;
2)通过目标检测模型对所述待训练图像进行特征提取,得到所述待训练图像的多尺度特征图;
3)通过所述目标检测模型的特征金字塔网络对所述待训练图像的多尺度特征图进行融合得到融合后的多尺度特征图;
4)通过所述目标检测模型的检测头网络对融合后的多尺度特征图进行检测得到待训练图像的目标检测结果;
5)引入最优对抗样本对所述目标检测模型进行训练,预设锚点集合,通过预设锚点的样本的权重对所述目标检测模型的损失进行调制,得到训练后的目标检测模型。
预设锚框样本集合为{Qi},目标真实位置为R,所述目标检测模型使用所述锚框样本集合{Qi}得到的预测置信度集合为目标预测位置集合为/>其中i表示锚点序号;则训练中选取的正锚框样本的权重wi为:
对所有锚框样本进行权重计算,从大到小排序,得到集合,根据下式计算k值:
其中,T表示固定阈值,选出权重大于固定阈值T的k个正锚框样本。
通过最大化交叉熵法来获得最优对抗样本,将所述最优对抗样本记为Xa,计算最优对抗样本Xa的均值μa和方差σa,然后归一化所有的Xa得到将/>作为所述目标检测模型的batchnorm层的输出。
所述目标检测模型为YOLOv6。
随着电子技术的发展,医用内窥镜产品越来越丰富,极大的融入了各式各样的疾病诊断、治疗流程中。同时随着图像智能识别技术的发展,利用内窥镜图像,实现部分疾病的自动识别和预警等得到了越来越多的重视。
在图像智能识别中,人工建立的数据库往往具有决定性的作用,但是海量的数据在很多场景下并不存在,尤其是医疗领域,比如妇科内窥镜图像,往往由于各种原因,如隐私等,数据并不能充分的获取和标注。这样就要求对于图像目标检测模型的训练方式,进行尽量的优化。
这里从两个方面,对目标检测训练流程进行了优化。一个是从样本标签的选择上进行优化,一个是引入对抗样本训练,并优化对抗样本的使用方式。实验表面,这两种策略综合使用,提高了模型在受限数据训练情况下的精度和泛化能力。
经典的标签分配策略通常采用预定义的规则来匹配每个锚点的样本,选择为目标或背景。这种静态的策略并没有考虑对于具有不同大小、形状或遮挡条件的目标,其目标边界会有很大的不同。
此前有些研究表明,预设锚点的预测置信度得分可以作为设计动态分配策略的指标。但这种策略依然是基于单个锚点的,如果可以为图像中的所有的目标标签找到全局更优的锚点置信度分配,这样理应可以实现更好的效果。基于此,训练中采用了一种全局动态分配的策略。
假设预设锚点集合为{Qi},某目标真实位置为R,模型使用锚点得到的预测置信度集合为预测位置集合为/>其中i表示锚点序号。
则训练中选取的正锚点样本的权重为:
训练中,使用样本权重对损失进行调制,可以加快训练收敛速度和效果。这里对于单个锚点权重,综合考虑了目标框与真实目标的重叠程度和模型响应。
而对于全局信息的融入,使用控制正锚点样本的方式,训练使用的正锚点数量根据如下规则选取:
对所有锚点样本进行权重计算,从大到小排序,得到集合{w'i},根据下式计算k值:
其中,T表示固定阈值。这样可以选出权重和大于T的k个正锚点样本。控制T值,可以动态控制正锚点的选择,对于严格不能漏掉感兴趣目标的应用场景,可以选择较大的T值。比如在妇科宫腔镜筛查中,希望所有可能的目标都得到响应,而对错误的目标响应并不敏感,这样可以选择较大的T值。
在很多医疗领域,由于隐私等原因,图像数据并不能充分的获取和标注。而使用对抗训练,可以在相对受限的样本中,提供模型的鲁棒性。这里使用PGD方法(Towards deeplearning models resistant to adversarial attacks),通过计算最大化交叉熵来获得最优攻击性的样本。
但是,通常的操作是攻击性样本和正常的样本放在一起,来最小化网络损失,这样做的问题是常常会导致的模型鲁棒性虽然更高了,但是对于正常图像的检测能力却会一定程度的下降。究其原因,因为攻击性样本是人造的样本,跟正常样本的数据分布并不相同,使用同样的网络参数并不是很合理,导致影响到正常样本的模型响应也就算预期之内了。
鉴于此,在通过计算最大化交叉熵来获得最优攻击性的样本,记为Xa,区别于很多基于PGD的方法,并没有直接进行训练,而是计算其均值μa和方差σa,然后归一化所有的Xa得到
在训练过程中,对于网络结构中所有的batchnorm层,对于普通样本X依旧正常计算,对于攻击性的样本Xa,则通过上一步单独计算得到作为batchnorm的输出。这样不但维护了网络对于常规样本的响应能力,同时也强化了其对于攻击性样本的鲁棒性。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (3)

1.一种应用于内窥镜图像目标检测模型的增强训练方法,其特征在于,包括以下步骤:
1)获取待训练图像,所述待训练图像包括标注信息;
2)通过目标检测模型对所述待训练图像进行特征提取,得到所述待训练图像的多尺度特征图;
3)通过所述目标检测模型的特征金字塔网络对所述待训练图像的多尺度特征图进行融合得到融合后的多尺度特征图;
4)通过所述目标检测模型的检测头网络对融合后的多尺度特征图进行检测得到待训练图像的目标检测结果;
5)引入最优对抗样本对所述目标检测模型进行训练,预设锚点集合,通过预设锚点的样本的权重对所述目标检测模型的损失进行调制,得到训练后的目标检测模型;
预设锚框样本集合为{Qi},目标真实位置为R,所述目标检测模型使用所述锚框样本集合{Qi}得到的预测置信度集合为目标预测位置集合为/>其中i表示锚点序号;则训练中选取的正锚框样本的权重wi为:
对所有锚框样本进行权重计算,从大到小排序,得到集合,根据下式计算k值:
其中,T表示固定阈值,选出权重大于固定阈值T的k个正锚框样本。
2.如权利要求1所述的一种应用于内窥镜图像目标检测模型的增强训练方法,其特征在于,通过最大化交叉熵法来获得最优对抗样本,将所述最优对抗样本记为Xa,计算最优对抗样本Xa的均值μa和方差σa,然后归一化所有的Xa得到将/>作为所述目标检测模型的batchnorm层的输出。
3.如权利要求1所述的一种应用于内窥镜图像目标检测模型的增强训练方法,其特征在于,所述目标检测模型为YOLOv6。
CN202211079140.3A 2022-09-05 2022-09-05 一种应用于内窥镜图像目标检测模型的增强训练方法 Active CN115409818B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211079140.3A CN115409818B (zh) 2022-09-05 2022-09-05 一种应用于内窥镜图像目标检测模型的增强训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211079140.3A CN115409818B (zh) 2022-09-05 2022-09-05 一种应用于内窥镜图像目标检测模型的增强训练方法

Publications (2)

Publication Number Publication Date
CN115409818A CN115409818A (zh) 2022-11-29
CN115409818B true CN115409818B (zh) 2023-10-27

Family

ID=84163048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211079140.3A Active CN115409818B (zh) 2022-09-05 2022-09-05 一种应用于内窥镜图像目标检测模型的增强训练方法

Country Status (1)

Country Link
CN (1) CN115409818B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784190A (zh) * 2018-12-19 2019-05-21 华东理工大学 一种基于深度学习的自动驾驶场景关键目标检测提取方法
CN110751185A (zh) * 2019-09-26 2020-02-04 高新兴科技集团股份有限公司 目标检测模型的训练方法和装置
CN110969200A (zh) * 2019-11-27 2020-04-07 中国科学院自动化研究所 基于一致性负样本的图像目标检测模型训练方法及装置
CN112818783A (zh) * 2021-01-22 2021-05-18 南京邮电大学 一种基于交通标志目标检测器改进的对抗样本生成方法
CN113239982A (zh) * 2021-04-23 2021-08-10 北京旷视科技有限公司 检测模型的训练方法、目标检测方法、装置和电子系统
CN113919497A (zh) * 2021-10-25 2022-01-11 中国科学院自动化研究所 针对连续学习能力系统的基于特征操纵的攻击和防御方法
CN114140750A (zh) * 2021-12-09 2022-03-04 浙江浙石油综合能源销售有限公司 一种基于YOLOv4-Tiny的加油站安全帽佩戴实时检测方法
CN114998603A (zh) * 2022-03-15 2022-09-02 燕山大学 一种基于深度多尺度特征因子融合的水下目标检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3201557A1 (en) * 2020-12-10 2022-06-16 Xin Qiu System and method for detecting misclassification errors in neural networks classifiers

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784190A (zh) * 2018-12-19 2019-05-21 华东理工大学 一种基于深度学习的自动驾驶场景关键目标检测提取方法
CN110751185A (zh) * 2019-09-26 2020-02-04 高新兴科技集团股份有限公司 目标检测模型的训练方法和装置
CN110969200A (zh) * 2019-11-27 2020-04-07 中国科学院自动化研究所 基于一致性负样本的图像目标检测模型训练方法及装置
CN112818783A (zh) * 2021-01-22 2021-05-18 南京邮电大学 一种基于交通标志目标检测器改进的对抗样本生成方法
CN113239982A (zh) * 2021-04-23 2021-08-10 北京旷视科技有限公司 检测模型的训练方法、目标检测方法、装置和电子系统
CN113919497A (zh) * 2021-10-25 2022-01-11 中国科学院自动化研究所 针对连续学习能力系统的基于特征操纵的攻击和防御方法
CN114140750A (zh) * 2021-12-09 2022-03-04 浙江浙石油综合能源销售有限公司 一种基于YOLOv4-Tiny的加油站安全帽佩戴实时检测方法
CN114998603A (zh) * 2022-03-15 2022-09-02 燕山大学 一种基于深度多尺度特征因子融合的水下目标检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Dong Y P等.Boosting adversarial attacks with momentum.《CVF Conference on Computer Vision and Pattern Recognition》.2018,全文. *
徐源;翟春艳;王国良.基于对抗学习与深度估计的车辆检测系统.辽宁石油化工大学学报.2020,(03),全文. *
杨弋鋆;邵文泽;王力谦;葛琦;鲍秉坤;邓海松;李海波.面向智能驾驶视觉感知的对抗样本攻击与防御方法综述.南京信息工程大学学报(自然科学版).2019,(06),全文. *

Also Published As

Publication number Publication date
CN115409818A (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
CN109583342B (zh) 基于迁移学习的人脸活体检测方法
Sathya et al. Modified bacterial foraging algorithm based multilevel thresholding for image segmentation
CN110136103A (zh) 医学影像解释方法、装置、计算机设备及存储介质
US20200330028A1 (en) System and method for facilitating analysis of a wound in a target subject
CN108389220A (zh) 遥感视频图像运动目标实时智能感知方法及其装置
CN110647802A (zh) 基于深度学习的遥感影像舰船目标检测方法
US11935213B2 (en) Laparoscopic image smoke removal method based on generative adversarial network
CN111709966B (zh) 眼底图像分割模型训练方法及设备
CN109241898B (zh) 腔镜视像的目标定位方法和系统、存储介质
CN114663426B (zh) 一种基于关键骨区定位的骨龄评估方法
CN114842343A (zh) 一种基于ViT的航空图像识别方法
CN112396588A (zh) 一种基于对抗网络的眼底图像识别方法、系统及可读介质
CN117649610B (zh) 一种基于YOLOv5的害虫检测方法及系统
CN118397280B (zh) 基于人工智能的内镜下胃肠道图像分割识别系统及方法
CN113421228A (zh) 一种基于参数迁移的甲状腺结节识别模型训练方法及系统
CN112149664A (zh) 一种优化分类与定位任务的目标检测方法
CN112149689A (zh) 基于目标领域自监督学习的无监督领域适应方法和系统
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN111598144A (zh) 图像识别模型的训练方法和装置
CN117040939A (zh) 基于改进视觉自注意力模型的车载网络入侵检测方法
CN115409818B (zh) 一种应用于内窥镜图像目标检测模型的增强训练方法
Dubey et al. A review of image segmentation using clustering methods
Chen et al. SRCBTFusion-Net: An Efficient Fusion Architecture via Stacked Residual Convolution Blocks and Transformer for Remote Sensing Image Semantic Segmentation
CN112634308A (zh) 基于不同感受野的鼻咽癌靶区和危及器官的勾画方法
CN117036392A (zh) 图像检测方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant