CN116452855A - 基于深度学习的伤口图像分类及激光辅助治疗方法 - Google Patents
基于深度学习的伤口图像分类及激光辅助治疗方法 Download PDFInfo
- Publication number
- CN116452855A CN116452855A CN202310277955.0A CN202310277955A CN116452855A CN 116452855 A CN116452855 A CN 116452855A CN 202310277955 A CN202310277955 A CN 202310277955A CN 116452855 A CN116452855 A CN 116452855A
- Authority
- CN
- China
- Prior art keywords
- wound
- image
- network
- layer
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 238000013135 deep learning Methods 0.000 title claims abstract description 71
- 238000011282 treatment Methods 0.000 title claims abstract description 50
- 238000013532 laser treatment Methods 0.000 claims abstract description 37
- 230000004927 fusion Effects 0.000 claims abstract description 29
- 238000003745 diagnosis Methods 0.000 claims abstract description 20
- 230000000694 effects Effects 0.000 claims abstract description 19
- 238000001514 detection method Methods 0.000 claims abstract description 17
- 206010052428 Wound Diseases 0.000 claims description 317
- 208000027418 Wounds and injury Diseases 0.000 claims description 317
- 238000012549 training Methods 0.000 claims description 91
- 230000007246 mechanism Effects 0.000 claims description 44
- 230000006870 function Effects 0.000 claims description 42
- 238000013527 convolutional neural network Methods 0.000 claims description 37
- 230000001225 therapeutic effect Effects 0.000 claims description 37
- 239000013598 vector Substances 0.000 claims description 22
- 230000004913 activation Effects 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 238000013145 classification model Methods 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 16
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 12
- 238000013136 deep learning model Methods 0.000 claims description 12
- 230000005855 radiation Effects 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 230000035876 healing Effects 0.000 claims description 7
- 238000002647 laser therapy Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 230000007704 transition Effects 0.000 claims description 7
- 230000036074 healthy skin Effects 0.000 claims description 6
- 238000013508 migration Methods 0.000 claims description 6
- 230000005012 migration Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000001965 increasing effect Effects 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 230000008034 disappearance Effects 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 206010011985 Decubitus ulcer Diseases 0.000 claims description 3
- 208000008960 Diabetic foot Diseases 0.000 claims description 3
- 241001465754 Metazoa Species 0.000 claims description 3
- 208000004210 Pressure Ulcer Diseases 0.000 claims description 3
- 208000002847 Surgical Wound Diseases 0.000 claims description 3
- 208000025865 Ulcer Diseases 0.000 claims description 3
- 208000000558 Varicose Ulcer Diseases 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 3
- 230000005764 inhibitory process Effects 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 230000002441 reversible effect Effects 0.000 claims description 3
- 229920006395 saturated elastomer Polymers 0.000 claims description 3
- 230000028327 secretion Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 231100000397 ulcer Toxicity 0.000 claims description 3
- 230000001737 promoting effect Effects 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 5
- 230000010354 integration Effects 0.000 abstract description 3
- 238000013526 transfer learning Methods 0.000 description 6
- 238000012935 Averaging Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000000116 mitigating effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 210000000857 visual cortex Anatomy 0.000 description 2
- 102000008186 Collagen Human genes 0.000 description 1
- 108010035532 Collagen Proteins 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 229920001436 collagen Polymers 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000002950 fibroblast Anatomy 0.000 description 1
- 238000011369 optimal treatment Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000029663 wound healing Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/0059—Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence
- A61B5/0077—Devices for viewing the surface of the body, e.g. camera, magnifying lens
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/44—Detecting, measuring or recording for evaluating the integumentary system, e.g. skin, hair or nails
- A61B5/441—Skin evaluation, e.g. for skin disorder diagnosis
- A61B5/445—Evaluating skin irritation or skin trauma, e.g. rash, eczema, wound, bed sore
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61N—ELECTROTHERAPY; MAGNETOTHERAPY; RADIATION THERAPY; ULTRASOUND THERAPY
- A61N5/00—Radiation therapy
- A61N5/06—Radiation therapy using light
- A61N5/0613—Apparatus adapted for a specific treatment
- A61N5/0616—Skin treatment other than tanning
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61N—ELECTROTHERAPY; MAGNETOTHERAPY; RADIATION THERAPY; ULTRASOUND THERAPY
- A61N5/00—Radiation therapy
- A61N5/06—Radiation therapy using light
- A61N5/067—Radiation therapy using light using laser light
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1679—Programme controls characterised by the tasks executed
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Molecular Biology (AREA)
- Radiology & Medical Imaging (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Heart & Thoracic Surgery (AREA)
- Surgery (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Quality & Reliability (AREA)
- Dermatology (AREA)
- Optics & Photonics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开的基于深度学习的伤口图像分类及激光辅助治疗方法,属于伤口图像分类及激光辅助治疗领域。本发明公开的基于深度学习的伤口图像分类方法,使用多光谱相机同时采集伤口的可见光图像和红外图像,将伤口的可见光图像和红外图像信息进行特征融合,再将伤口图像输入到基于深度学习的检测分类器中完成定位、分类和识别。本发明具有定位、分类和识别精度高、效率高的优点。本发明公开的基于深度学习的伤口图像辅助诊断与辅助激光治疗方法,计算机将伤口类型与治疗参数进行智能匹配,将最佳的激光治疗参数反馈给激光治疗仪进行调制;使用机械臂引导激光发射头对伤口区域进行照射处理,实现辅助诊断、治疗一体化,提高辅助治疗效果和效率。
Description
技术领域
本发明属于伤口图像分类及激光辅助治疗领域,尤其涉及一种基于深度学习的伤口图像分类方法,以及基于所述一种伤口图像分类方法实现的一种基于深度学习的伤口图像辅助诊断与辅助激光治疗一体化方法。
背景技术
全世界每年有数百万人受到急性和慢性创伤的影响,由于弱激光治疗可以促进胶原生成、成纤维细胞增殖、微血管新生以及组织重建,被广泛应用于不同伤口的愈合中,达到了减少疼痛和加速伤口愈合的效果。伤口观察与分析是伤口治疗的基础,激光治疗时,需要首先确定伤口类型及其严重程度,再进一步确定所使用激光的波长、频率、功率密度、能量密度、治疗时间等参数。传统的激光治疗仪需要能熟练操作激光治疗仪的专业医生对伤口类型及其严重程度进行诊断之后再匹配出最佳的治疗参数进行激光治疗。医生诊断伤口的传统方法是根据其经验对伤口进行目测分析,然而伤口种类繁多,外观复杂且一些医生的临床经验匮乏等因素会导致临床检查对伤口的诊断不准确,因此伤口患者无法使用最佳的激光治疗参数进行有效治疗。近年来,随着机器学习算法的不断优化以及图像采集设备和计算机硬件水平的提高,利用计算机对不同的伤口类型以及每种伤口的严重程度进行分类和识别是一个新兴的研究领域。随着计算机硬件水平的不断提高,深度学习技术得到了迅速的发展,深度学习理论是在人工神经网络的基础上发展起来的机器学习理论。深度卷积神经网络模型是该理论中的重要模型之一,使用该模型可以进行有监督地学习,将特征提取过程与分类器训练过程整合在一起,实现端到端的机器学习。作为一种有价值的图像处理工具,深度学习算法被广泛应用于端到端的医学成像模型中,为疾病提供有效的辅助诊断帮助,在伤口图像分析领域有着非常广阔的应用前景。然而,由于伤口图像存在难以收集、涉及病人隐私等问题,所以缺乏足够的数据集,伤口图像分析技术在近几年才逐渐有进展。
发明内容
本发明的主要目的之一是基于深度学习的伤口图像分类方法,使用多光谱相机同时采集伤口的可见光图像和红外图像,将伤口的可见光图像和红外图像信息进行特征融合,再将伤口图像输入到基于深度学习的检测分类器中完成定位、分类和识别。本发明具有定位、分类和识别精度高、效率高的优点。
本发明的主要目的之二是在所述一种基于深度学习的伤口图像分类方法基础上,提供一种基于深度学习的伤口图像辅助诊断与辅助激光治疗方法,计算机将伤口类型与治疗参数进行智能匹配,将最佳的激光治疗参数反馈给激光治疗仪进行调制;使用机械臂引导激光发射头对伤口区域进行照射处理,实现辅助诊断、治疗一体化。因此本发明可广泛应用于疫情期间医护人员不足或者缺乏医生的偏远地区,辅助医务人员进行伤口的诊断和治疗。
为达到以上目的,本发明采用以下技术方案。
本发明公开的基于深度学习的伤口图像分类方法,使用多光谱相机同时采集伤口的可见光图像和红外图像,利用DenseNet网络将红外图像中的热辐射信息和可见光图像中的纹理信息进行特征融合后的图像作为伤口图像数据集,可以更加准确地表达图像特征。之后使用YOLOv5对伤口图像中的伤口区域进行精准定位,再进行数据增强。针对伤口数据集规模较小、种类不平衡等问题,采用迁移学习的方法进行模型训练。为了消除自然图像与伤口图像之间的差异,除了在ImageNet上进行预先训练外,还使用一组与伤口图像相似的皮肤镜图像进行二次预训练。此外,在分类模型中引入混合域注意力模块ConvolutionalBlock Attention Module(CBAM),使网络学会关注伤口图像分类重点信息,从而提高分类的准确率。
在所述一种基于深度学习的伤口图像分类方法基础上,本发明公开的一种基于深度学习的伤口图像辅助诊断与辅助激光治疗方法,将伤口图像输入到分类器中完成分类后,计算机匹配出伤口类型的标签及其对应的治疗参数,并将最佳的激光治疗参数反馈给激光治疗仪。最后使用机械臂控制激光发射头在伤口区域的照射,相比人工控制照射,机械臂能更严格控制治疗时间以及更加均匀地照射治疗区域。
本发明公开的一种基于深度学习的伤口图像分类方法,包括以下步骤:
步骤一:由多光谱相机同时采集伤口的可见光图像和红外图像,将融合后的图像作为伤口定位器的输入。通过图像融合实现图像增强,生成用于促进后续精准分类的鲁棒性图像。可见光图像提供具有高空间分辨率和清晰度的纹理细节,主要捕获伤口的细节信息,而红外图像能够根据辐射差异将目标与背景区分开来,捕获伤口的热辐射信息。基于深度学习的特征融合算法将融合特征引入深度神经网络模型,使用多特征输入到模型中进行训练。
针对伤口图像数据集不足的情况,通过图像特征融合构建更适合人与计算机感知识别的图像,从而减少后续分类器网络训练所需的数据量。在深度学习任务中,现有方法主要采用两种方式进行融合。第一种是按元素进行相加,生成信息量更加丰富的图像,比如FPN、ResNet、SENet等网络结构。另一种是图像特征融合,结合各个维度的特征进行特征图拼接(Concatenation),从而增强特征的表达力,本发明使用DenseNet网络进行向量拼接,实现图像特征融合。通过下式进行向量拼接实现特征融合:现有特征向量v1∈Rm,v2∈Rn,则经过拼接后融合特征向量v=[v1,v2]∈Rm+n。
相较于单源的图像输入,利用DenseNet网络将红外图像中的热辐射信息和可见光图像中的纹理信息进行特征融合,使得该图像比其他任何单张图像都包含更多信息,更加准确地表征图像特征,丰富伤口数据集。
步骤二:在伤口图像数据预处理阶段,使用步骤一中融合后的数据集训练伤口图像的定位器,对伤口图像中的伤口区域进行精准检测定位,重点寻找该区域存在的显著特征。利用Yolov5模型进行伤口位置的检测定位,得到伤口区域的回归检测边界框。Yolov5算法是在Yolov4的基础上进行改进,网络训练阶段结合自适应锚框计算与自适应图片缩放,Yolov5使用Mosaic数据增强操作提升模型的训练速度和网络的精度。将预处理步骤得到的增强后的子图像作为用作卷积神经网络的输入,用于模型的训练及验证。
Mosaic数据增强采用4张图片,按照随机缩放、随机裁剪和随机排布的方式对图片进行处理再拼接到一张图上作为训练数据。通过Mosaic数据增强将几张图片组合成一张,在丰富为数不多的伤口数据集的同时显著提升网络的训练速度。在YOLO系列算法中,针对不同的数据集,都需要设定特定长宽的锚框。在网络训练阶段,Yolov5模型在初始锚点框的基础上输出对应的预测框,计算预测框与真实框之间的差距,并执行反向更新操作,从而更新整个网络的参数。在Yolov3、Yolov4中,训练不同的数据集时,计算初始锚框的值是通过单独的程序运行的。Yolov5模型在每次训练时,根据数据集的名称自适应的计算出最佳的锚点框。在常用的目标检测算法中,不同的图片长宽都不相同,因此常用的方式是将原始图片统一缩放到一个标准尺寸,再送入检测网络中。传统的缩放方式都是按原始比例缩放图像并用黑色填充至目标大小,由于在实际使用中的很多图片的长宽比不同,因此缩放填充之后,两端的黑边大小都不相同,然而如果填充的过多,则会存在大量的信息冗余,从而影响整个算法的推理速度。为了进一步提升Yolov5算法的推理速度,通过Yolov5主干网络部分引入focus结构和CSP(Cross Stage Paritial)结构自适应的添加最少的黑边到缩放之后的图片中。focus结构基于切片操作实现。在Yolov5网络模型中,原始608×608×3的图像输入Focus结构,采用切片操作,先变成304×304×12的特征图,再经过一次32个卷积核的卷积操作,最终变成304×304×32的特征图。用一个focus层替代三个普通下采样卷积层,能够减少计算量和参数量。Yolov4中只有主干网络使用了CSP结构,而Yolov5中采用两种CSP结构。在得到伤口区域的回归检测边界框后,自动截取边界框内的伤口图像ROI(Regionof interest),提取到的ROI大小因伤口大小而异,对每个ROI进行水平、垂直翻转等数据增强操作。在数据增强时,为了保留伤口的颜色特征,不对伤口图像的颜色进行修改,保证扩充后的图像与原始图像是相似的。将预处理步骤得到的增强后的子图像作为用作卷积神经网络的输入,用于伤口分类模型的训练及验证。定位伤口区域不仅能够保护病人的隐私,而且使得系统更加高效率、精准的完成后续不同伤口的分类。
步骤三:设计基于深度学习模型的不同伤口类型及伤口严重程度的分类器,此分类器使用步骤二中数据增强后的子图像进行训练。使用基于深度学习的方法将创面图像分为糖尿病足溃疡、静脉溃疡、动脉溃疡、压疮、外科手术创伤、烧伤伤口6个类别,其中根据烧伤的实际愈合时间又分为浅烧伤(0-10天),中等烧伤(11-20天)和深层烧伤(超过21天或皮肤移植愈合),最终共得到8个类别,不同的伤口类别分别对应不同的激光治疗参数。针对伤口数据集规模较小、种类不平衡的问题,采用迁移学习方法进行深度学习模型训练。选用的深度学习网络模型分别为VGG16,ResNet18、ResNet50和DenseNet121,模型的初始参数为ImageNet上预训练过的参数。为了适应伤口数据集对8种伤口图像进行分类,需要对网络的输出层做出调整。本发明将原来最后一个全连接层的输入传给一个有256个输出单元的线性层,接着是ReLU层,为了避免过拟合,在第二个全连接层FC层之后增加了dropout层,最终输出通道为8的softmax层,网络只处理8个类的分类。使用十倍交叉验证的方法在预先训练的VGG16,ResNet18、ResNet50和DenseNet121模型中选取最合适的分类模型,使用选取的分类模型设计基于深度学习模型的不同伤口类型及伤口严重程度的分类器,将伤口图像输入到基于深度学习的检测分类器中完成定位、分类和识别。
为了实现伤口图像的精准分类,选用DenseNet121作为主干网络。此外,在DenseNet121的第4个Densblock后添加了Convolutional Block Attention Module(CBAM)混合域注意力机制模块,使网络学会关注重点信息,从而提高分类的准确率。考虑到伤口图像数据集太小,并且自然图像与医学图像之间的巨大差异不利于直接进行迁移学习,所以先在相似图像(ISIC的皮肤镜图像)上进行二次预训练,再放在伤口图像数据集上进行微调。所述相似图像指ISIC的皮肤镜图像。
步骤三中所述预训练DenseNet121模型中的知识的“可迁移性”是深度学习模型的一个重要特点。在分类伤口图像时,从零开始训练深度CNN是困难的。首先,CNN需要大量的标记训练数据,大量标记训练数据在医学领域很难满足,因为医学专家对伤口图像的注释很昂贵,而且不同医生对于同一伤口的判断不一定相同。其次从头开始训练网络需要重复调整网络的权重和超参数,非常耗时间。预先训练的深度学习网络模型已经成功地应用于各种计算机视觉任务。迁移学习的第一种方式是使用预先训练的CNN作为特征生成器。具体来说,将预先训练好的CNN应用于输入图像,然后从网络的某一层提取CNN输出特征。之后再使用提取的特征来训练一个新的分类器。第二种方式是对预先训练的CNN的所有层进行微调。在自然图像上训练的深度卷积神经网络,第一层特征不是针对特定的数据集或任务,而是适用于许多数据集和任务。随着预训练数据集和目标数据集之间差别增大,网络特征的可迁移性会降低,但即使是从区别很大的任务迁移的特征也比随机权重更好。在使用VGG16,ResNet18、ResNet50和DenseNet121模型进行迁移学习时,需要兼顾两个主要因素,即新数据集的大小以及原始数据集和新数据集之间的相似性。
用于图像分类的预训练网络通常在数量巨大的图像数据库ImageNet上进行训练,ImageNet数据集一共包含14197122张被注释的图片,共1000个类别,所述类别包括不同的动物、植物、汽车。由于伤口图像数据集很小且与原始ImageNet数据集不相似,采集伤口样本时的角度、光线条件、像素不同,所以除了在自然图像上进行预先训练外,在训练伤口图像之前,还使用一组来自开源档案ISIC的皮肤镜图像进行模型训练。在相似图像的相对大型数据集上训练深度学习网络模型会减少与ImageNet数据集的差距。通过微调的训练方式调整所有网络层的参数,改变低阶特征提取的特征,从而提升分类效果。
步骤三中所述的深度学习网络模型为VGG16,ResNet18、ResNet50和DenseNet121,网络的输入端只使用图像,而不使用患者的其他额外数据。卷积神经网络建立的分类模型与传统模型的不同之处在于,卷积神经网络建立的分类模型直接将伤口的二维图像输入模型,最终将伤口类型作为输出。其中ResNet深度残差网络是为了克服由于网络深度加深而产生的学习效率变低与准确率无法有效提升的问题。其内部的残差块使用跳跃连接,缓解在深度神经网络中增加深度带来的梯度消失问题。残差块的实现方法为:设原先的网络输入X,输出为F(X),现在令输出:
H(X)=F(X)+X (1)则深度残差网络就只需要学习一个残差函数:
F(X)=H(X)-X (2)
当F(X)=0时,即变为恒等映射H(X)=X,所述结构把优化的目标由H(X)转化成H(X)-X。在准确率饱和时就变为恒等映射的学习来保证最后精度不会下降。
残差块里有2个具有相同输出通道数的3×3卷积层,在每个卷积层后接一个批量规一化层和ReLU激活函数。然后再跳过这2个卷积运算,将输入直接加在最后的ReLU激活函数前。这就要求经过2个卷积层的输出与输入的形状一样,这样才能相加。若改变通道数,则需要加一个1×1卷积层来将输入变换成与输出一样的形状。
而DenseNet密集卷积网络的每层的输入除了前一层的输出外还包含前面所有层的输出,因此K层的模型会有K(K-1)/2个连接。一般的卷积神经网络最后的输出层只会利用最高层次的特征。在DenseNet中,使用不同层次的特征,通过对特征的反复利用达到更好的效果和更少的参数。这种密集连接有正则化的效果,对过拟合有一定的抑制作用,所以在伤口训练数据不足时使用DenseNet表现依旧良好。
DenseNet模型主要包含三个基本结构,Dense Layer,Dense Block和TransitionLayer。Dense Layer是整个模型中最基本的子结构,用于提取特征,Dense Layer层的第一个结构是批归一化BN层,BN层前面的拼接操作用于将Dense Block模块中前面所有层的输出以及第一层的输出进行拼接操作。Dense Layer能够减少输入特征图数量,在融合各个通道特征的同时减少计算量。Dense Block是由许多Dense Layer组成,且每个Dense Block模块中不同的Dense Layer之间密集连接。若Dense Block的第一层的输入是K0,第二层的输入为K0和K1(K1是第一层的输出),依次类推,公式表达如下:
Kl=Hl([K0,K1,K2,…,Kl-1]) (3)
[K0,K1,K2,…,Kl-1]表示将0到l-1层的输出特征图做通道的合并,而ResNet通道数是不变的,仅做值的加法。Hl指Dense Layer的操作。
DenseNet的密集连接方式需要特征图大小一致,因此需要Dense Block和Transition Layer相连接。Transition Layer的作用就是连接不同的Dense Block,由于每个Dense Block结束后的输出通道个数很多,所以需要用1×1的卷积核来降低通道数。2×2的平均池化用来降低特征图尺寸,将特征图尺寸降到1/2。总之,DenseNet在使用较少的参数数量的同时更加有效地利用特征,加强特征的传递,减轻梯度消失的情况。
步骤三中所述的注意力机制模块是指在计算机视觉中能够把注意力聚集在图像重要区域而丢弃掉不相关的机制。在人类视觉大脑皮层中,使用注意力机制能够更快捷和高效地分析复杂场景信息。不同伤口类型的伤口图像中伤口区域的特征与健康皮肤有所不同,伤口区域的特征与健康皮肤有所不同包括烧伤的伤口处皮肤发红有水疱;感染的伤口处皮肤发红、分泌物增加;而手术缝合后的伤口范围比较规则。在基础网络中加入注意力机制模块能够灵活捕获伤口图像的全局信息和伤口区域的局部信息之间的联系,使分类网络模型获得需要重点关注的伤口区域,并对该部分投入更大的权重,突出显著有用的特征,抑制和忽略无关的特征。
CBAM(Convolutional Block Attention Module)是一种用于前馈卷积神经网络的注意力模块。CBAM结合通道和空间的注意力机制模块,给定一个中间特征图,CBAM模块会沿着通道和空间两个独立的维度依次推断注意力图,然后将注意力图乘以输入特征图以进行自适应特征修饰。由于CBAM是轻量级的通用模块,因此可以将CBAM集成到任何CNN架构中,并且可以与基础CNN一起进行端到端训练。
输入数据一般是[B,C,H,W],B指的是Batch(批量大小),Channel(通道),Height(高),Width(宽)。在Channel上施加注意力机制,得到通道域注意力机制,在Height、Width施加注意力机制,Height、Width两个是空间域,即得到空间域注意力机制,将通道域的注意力机制和空间域的注意力机制结合起来即得到混合域注意力机制。
对于CBAM的通道注意力机制是给定一个输入F,同时经过全局平均池化AvgPool和全局最大池化MaxPool操作,分别得到不同的空间语义描述算子,将二者通过一个共享感知机MLP(两个全连接层),随后将两个通道注意力特征向量使用相加方式进行融合,二者相加通过sigmoid激活函数,得到通道注意力向量Mc∈RC×1×1如下式:
其中σ指sigmoid激活函数,W0和W1分别是两个全连接层的权重,指经过全局平均池化,/>指经过全局最大池化。
对于CBAM的空间注意力机制给定一个输入F∈RH×W×C,沿着通道维度同时经过全局平均池化(GAP)和全局最大池化操作(GMP)操作,分别得到两种不同的通道特征描述算子(得到两个切片),将二者进行拼接,然后经过一个卷积核为7×7的卷积操作f7×7实现降维和增大感受野,再经过sigmoid激活函数,得到空间注意力向量Ms∈R1×H×W如下式:
CBAM最终结构采取串联形式,通道注意力特征图对原特征图进行校正得到F′,空间注意力特征图对特征图F′再进行校正,得到重新校准后的特征图,该混合注意力能够集成到任何一个卷积模块中。由于要使用ResNet和DenseNet的预训练参数,所以添加CBAM不能改变ResNet的网络结构。CBAM不能加在Residual block或Dense block里面,加在最后一层卷积或第一层卷积不改变网络结构,且能够使用预训练参数。
步骤三中所述的伤口分类器网络训练时为了确保非线性,使用非线性激活函数用于映射滤波器输出,在每一层之后使用整流线性单元ReLU激活函数。ReLU是一个分段线性函数,保留线性模型的能力,提高分类模型的泛化性,并易于使用基于梯度的方法进行优化。当输入为X时,输出f(X)的表达式是:
f(X)=max(0,X) (6)
训练设置的损失函数是交叉熵损失函数,用于解决多分类问题。损失函数如下式:
其中log以e为底,损失函数有两个参数,第一个参数x为输入也是网络的最后一层的输出,形状为[batchsize,class],batchsize指批量大小,class指类别。第二个参数是传入的标签,即是某个类别的索引值,在公式(6)没有参与计算。batchsize如果是1,则只有一个数字,0、1或者2,表示的是此时该样本对应的真实类别,如果为batchsize是2,则有两个数字,例如(0,1),两个数字分别表示所述两个样本对应的真实类别。
训练前设置的超参数为epoch,学习率,损失函数以及正则化参数和Dropout。通过Dropout实现神经网络正则化和减少过拟合的目的。在训练过程中不断调整和测试每个超参数,每次根据重新训练后的性能指标来进行评估,从而确定最佳的超参数值和网络结构。所述性能指标包括损耗、准确率、精度、召回率、F1分数。在皮肤镜图像和伤口图像对网络权重进行微调时,优化器、学习率以及损失函数的设置都是不变的。经以上步骤搭建并训练完成的伤口分类网络可以有效提高伤口图像分类的准确率和效率。
本发明还公开基于深度学习的伤口图像辅助诊断与辅助激光治疗方法,基于所述基于深度学习的伤口图像分类方法实现。所述基于深度学习的伤口图像辅助诊断与辅助激光治疗方法包括所述基于深度学习的伤口图像分类方法所述的步骤一至步骤三,还包括如下步骤:
步骤四:不同的伤口类型对应不同的激光治疗参数,非相关专业人士在进行参数调整时,容易发生混淆情况从而影响治疗效果。为了缓解所述问题,本发明将伤口图像输入到分类器中完成分类后,计算机将伤口图像所对应的标签及其对应的治疗参数输出,并将最佳的激光治疗参数通过计算机反馈给激光治疗仪。激光治疗仪通过其串口与计算机相连接,计算机将激光治疗仪中控制器的通信协议、数据类型、串口信息编程在计算机中,通过控制器来调制激光治疗仪的参数。由治疗仪的控制模块自主调参引导操作者正确操作激光治疗仪,提高对不同伤口类型治疗效果的针对性和适应性,避免错误调制激光治疗仪参数带来的不良治疗效果。
步骤五:使用机械臂控制激光发射头在伤口区域的照射,通过机械臂更严格控制辅助伤口治疗时间,且提高对伤口照射治疗区域的照射均匀性。不同的伤口类型对应着不同的激光治疗时间,激光治疗仪发射激光的光束直径为2mm,根据多光谱相机在固定位置拍摄到的伤口图像计算得到伤口区域的形状和面积。伤口区域的面积、形状以及对应伤口类别的治疗时间经计算机优化处理传给机械臂,拥有6个自由度的机械臂可控制手爪以任意姿态移动,能够精准地锁定目标区域,到达待治疗区域的每个部分。机械臂的手爪紧握激光发射头,按照激光光束直径以及治疗时间在伤口区域处以固定的速度进行移动,从而使激光均匀地照射在待治疗伤口区域。机械臂的6个自由度的每一个组合ε=(ε1,ε2,ε3,ε4,ε5,ε6)都表示机械臂的一个状态,每个状态能确定机械手爪到达目标的空间位置g(ε),通过一系列的指令将机械臂的手爪移动到空间点位置g(ε)′,g(ε)″,g(ε)″′,每次的移动距离d=2mm,空间点位置依次代表伤口区域的不同点位置。与传统的手持激光治疗的扫描方式相比,通过控制机械臂不需要医护人员不断地调整激光照射位置,减小医务人员的临床工作量。
有益效果:
1、本发明公开的基于深度学习的伤口图像分类方法,使用多光谱相机同时采集伤口的可见光图像和红外图像,可见光图像捕获伤口的细节信息,而红外图像捕获伤口的热辐射信息。相较于单源的图像输入,利用DenseNet网络将红外图像中的热辐射信息和可见光图像中的纹理信息进行特征融合,能够更加准确地表征图像特征,提高伤口图像定位、分类和识别精度和效率。
2、本发明公开的基于深度学习的伤口图像分类方法,使用YOLOv5对伤口图像中的伤口区域进行精准定位,再进行数据增强,能够解决伤口的公开数据集缺乏、不同类别的伤口图像数据不平衡等问题。定位伤口区域不仅能够保护病人的隐私,而且使得系统更加高效率、精准的完成后续不同伤口的分类。
3、本发明公开的基于深度学习的伤口图像分类方法,针对伤口数据集规模较小、种类不平衡等问题,采用迁移学习的方法进行模型训练。为了消除自然图像与伤口图像之间的差异,除了在ImageNet上进行预先训练外,还使用了一组与伤口图像相似的皮肤镜图像进行二次预训练。此外,在分类模型中引入混合域注意力模Convolutional BlockAttention Module(CBAM),使网络学会关注重点信息,从而提高分类的准确率。
4、本发明公开的一种基于深度学习的伤口图像辅助诊断与辅助激光治疗方法,基于一种基于深度学习的伤口图像分类方法实现,具有上述有益效果1、2、3所述优点,且基于深度学习的伤口图像分类方法将伤口图像输入到分类器中完成分类后,计算机匹配出伤口类型的标签及其对应的治疗参数,并将最佳的激光治疗参数反馈给激光治疗仪,由治疗仪的控制模块自主调参可有效引导操作者正确操作激光治疗仪,提高对不同伤口类型治疗效果的针对性和适应性,避免错误调制激光治疗仪参数带来的不良治疗效果。
5、本发明公开的一种基于深度学习的伤口图像辅助诊断与辅助激光治疗方法,使用机械臂控制激光发射头在伤口区域的照射,相比人工控制照射,机械臂能更严格控制治疗时间以及更加均匀地照射治疗区域。
6、本发明公开的一种基于深度学习的伤口图像辅助诊断与辅助激光治疗方法,能够实现计算机辅助诊断与激光治疗一体化,实现对不同伤口的辅助诊断与辅助治疗,能够在医疗资源不足的情况下辅助治疗,使受伤患者得到及时的伤口护理。
附图说明
图1是本发明公开的基于深度学习的伤口图像分类及激光辅助治疗方法流程图;
图2是本发明系统整体结构框图;
图3是伤口图像数据增强技术原理图;
图4是基于深度学习模型的伤口分类器结构框图;
图5是机械臂操控激光发射头的简化图。
具体实施方式
为了更好地说明本发明的目的和优点,下面结合附图和实例对发明内容做进一步说明。应指出的是,所描述的实例仅旨在便于对本发明的理解,而对其不起任何限定作用。
如图2所示,本实施例公开的一种基于深度学习的伤口图像分类及激光辅助治疗方法基于下述系统实现,所述系统由一台多光谱相机、一台激光治疗仪、一台机械臂和一台PC机组成。其中激光治疗仪的波长范围在800-1100nm且不同的波长可以同步发射不同脉冲频率的激光,能够促进多种类型伤口愈合。PC机负责显示传入多光谱相机拍摄的可见光和红外图像并进行伤口图像的预处理和分类,同时向激光治疗仪的控制器和机械臂发送控制指令。总体技术路线如下所示:首先,将伤口图像进行可见光与红外图像的特征融合,再通过伤口定位器将伤口图像中的感兴趣区域提取出来,再经过数据增强完成数据预处理操作。其次,将预处理后的伤口子图像输入到基于深度学习模型的分类器中进行分类识别,得到分类结果后,经计算机匹配出不同伤口的标签及其对应的治疗参数,并将最佳激光治疗参数反馈给激光治疗仪。最后,计算机通过串口连接激光治疗仪的控制器来调制激光治疗仪的参数,由计算机向机械臂发送指令来操控激光发射头进行精准的伤口治疗。
如图1所示,本实施例公开的一种基于深度学习的伤口图像分类及激光辅助治疗方法,具体实现步骤如下:
步骤一:由多光谱相机同时采集伤口的可见光图像和红外图像,将融合后的图像作为伤口定位器的输入。通过图像融合实现图像增强,生成用于促进后续精准分类的鲁棒性图像。可见光图像提供具有高空间分辨率和清晰度的纹理细节,主要捕获伤口的细节信息,而红外图像能够根据辐射差异将目标与背景区分开来,捕获伤口的热辐射信息。基于深度学习的特征融合算法将融合特征引入深度神经网络模型,使用多特征输入到模型中进行训练。
针对伤口图像数据集不足的情况,通过图像特征融合构建更适合人与计算机感知识别的图像,从而减少后续分类器网络训练所需的数据量。在深度学习任务中,现有方法主要采用两种方式进行融合。第一种是按元素进行相加,生成信息量更加丰富的图像,比如FPN、ResNet、SENet等网络结构。另一种是图像特征融合,结合各个维度的特征进行特征图拼接(Concatenation),从而增强特征的表达力,本发明使用DenseNet网络进行向量拼接,实现图像特征融合。通过下式进行向量拼接实现特征融合:现有特征向量v1∈Rm,v2∈Rn,则经过拼接后融合特征向量v=[v1,v2]∈Rm+n。
相较于单源的图像输入,利用DenseNet网络将红外图像中的热辐射信息和可见光图像中的纹理信息进行特征融合,使得该图像比其他任何单张图像都包含更多信息,更加准确地表征图像特征,丰富伤口数据集。
步骤二:如图3所示,在伤口图像数据预处理阶段,使用步骤一中融合后的数据集训练伤口图像的定位器,对伤口图像中的伤口区域进行精准检测定位,重点寻找该区域存在的显著特征。利用Yolov5模型进行伤口位置的检测定位,得到伤口区域的回归检测边界框。Yolov5算法是在Yolov4的基础上进行改进,网络训练阶段结合自适应锚框计算与自适应图片缩放,Yolov5使用Mosaic数据增强操作提升模型的训练速度和网络的精度。将预处理步骤得到的增强后的子图像作为用作卷积神经网络的输入,用于模型的训练及验证。
Mosaic数据增强采用4张图片,按照随机缩放、随机裁剪和随机排布的方式对图片进行处理再拼接到一张图上作为训练数据。通过Mosaic数据增强将几张图片组合成一张,在丰富为数不多的伤口数据集的同时显著提升网络的训练速度。在YOLO系列算法中,针对不同的数据集,都需要设定特定长宽的锚框。在网络训练阶段,Yolov5模型在初始锚点框的基础上输出对应的预测框,计算预测框与真实框之间的差距,并执行反向更新操作,从而更新整个网络的参数。在Yolov3、Yolov4中,训练不同的数据集时,计算初始锚框的值是通过单独的程序运行的。Yolov5模型在每次训练时,根据数据集的名称自适应的计算出最佳的锚点框。在常用的目标检测算法中,不同的图片长宽都不相同,因此常用的方式是将原始图片统一缩放到一个标准尺寸,再送入检测网络中。传统的缩放方式都是按原始比例缩放图像并用黑色填充至目标大小,由于在实际使用中的很多图片的长宽比不同,因此缩放填充之后,两端的黑边大小都不相同,然而如果填充的过多,则会存在大量的信息冗余,从而影响整个算法的推理速度。为了进一步提升Yolov5算法的推理速度,通过Yolov5主干网络部分引入focus结构和CSP(Cross Stage Paritial)结构自适应的添加最少的黑边到缩放之后的图片中。focus结构基于切片操作实现。在Yolov5网络模型中,原始608×608×3的图像输入Focus结构,采用切片操作,先变成304×304×12的特征图,再经过一次32个卷积核的卷积操作,最终变成304×304×32的特征图。用一个focus层替代三个普通下采样卷积层,能够减少计算量和参数量。Yolov4中只有主干网络使用了CSP结构,而Yolov5中采用两种CSP结构。在得到伤口区域的回归检测边界框后,自动截取边界框内的伤口图像ROI(Regionof interest),提取到的ROI大小因伤口大小而异,对每个ROI进行水平、垂直翻转等数据增强操作。在数据增强时,为了保留伤口的颜色特征,不对伤口图像的颜色进行修改,保证扩充后的图像与原始图像是相似的。将预处理步骤得到的增强后的子图像作为用作卷积神经网络的输入,用于伤口分类模型的训练及验证。定位伤口区域不仅能够保护病人的隐私,而且使得系统更加高效率、精准的完成后续不同伤口的分类。
步骤三:如图4所示,设计基于深度学习模型的不同伤口类型及伤口严重程度的分类器,此分类器使用步骤二中数据增强后的子图像进行训练。使用基于深度学习的方法将创面图像分为糖尿病足溃疡、静脉溃疡、动脉溃疡、压疮、外科手术创伤、烧伤伤口6个类别,其中根据烧伤的实际愈合时间又分为浅烧伤(0-10天),中等烧伤(11-20天)和深层烧伤(超过21天或皮肤移植愈合),最终共得到8个类别,不同的伤口类别分别对应不同的激光治疗参数。针对伤口数据集规模较小、种类不平衡的问题,采用迁移学习方法进行深度学习模型训练。选用的深度学习网络模型分别为VGG16,ResNet18、ResNet50和DenseNet121,模型的初始参数为ImageNet上预训练过的参数。为了适应伤口数据集对8种伤口图像进行分类,需要对网络的输出层做出调整。本发明将原来最后一个全连接层的输入传给一个有256个输出单元的线性层,接着是ReLU层,为了避免过拟合,在第二个全连接层FC层之后增加了dropout层,最终输出通道为8的softmax层,网络只处理8个类的分类。使用十倍交叉验证的方法在预先训练的VGG16,ResNet18、ResNet50和DenseNet121模型中选取最合适的分类模型。
为了实现伤口图像的精准分类,选用DenseNet121作为主干网络。此外,在DenseNet121的第4个Densblock后添加了Convolutional Block Attention Module(CBAM)混合域注意力机制模块,使网络学会关注重点信息,从而提高分类的准确率。考虑到伤口图像数据集太小,并且自然图像与医学图像之间的巨大差异不利于直接进行迁移学习,所以先在相似图像(ISIC的皮肤镜图像)上进行二次预训练,再放在伤口图像数据集上进行微调。所述相似图像指ISIC的皮肤镜图像。
步骤三中所述预训练DenseNet121模型中的知识的“可迁移性”是深度学习模型的一个重要特点。在分类伤口图像时,从零开始训练深度CNN是困难的。首先,CNN需要大量的标记训练数据,大量标记训练数据在医学领域很难满足,因为医学专家对伤口图像的注释很昂贵,而且不同医生对于同一伤口的判断不一定相同。其次从头开始训练网络需要重复调整网络的权重和超参数,非常耗时间。预先训练的深度学习网络模型已经成功地应用于各种计算机视觉任务。迁移学习的第一种方式是使用预先训练的CNN作为特征生成器。具体来说,将预先训练好的CNN应用于输入图像,然后从网络的某一层提取CNN输出特征。之后再使用提取的特征来训练一个新的分类器。第二种方式是对预先训练的CNN的所有层进行微调。在自然图像上训练的深度卷积神经网络,第一层特征不是针对特定的数据集或任务,而是适用于许多数据集和任务。随着预训练数据集和目标数据集之间差别增大,网络特征的可迁移性会降低,但即使是从区别很大的任务迁移的特征也比随机权重更好。在使用VGG16,ResNet18、ResNet50和DenseNet121模型进行迁移学习时,需要兼顾两个主要因素,即新数据集的大小以及原始数据集和新数据集之间的相似性。
用于图像分类的预训练网络通常在数量巨大的图像数据库ImageNet上进行训练,ImageNet数据集一共包含14197122张被注释的图片,共1000个类别,所述类别包括不同的动物、植物、汽车。由于伤口图像数据集很小且与原始ImageNet数据集不相似,采集伤口样本时的角度、光线条件、像素不同,所以除了在自然图像上进行预先训练外,在训练伤口图像之前,还使用一组来自开源档案ISIC的皮肤镜图像进行模型训练。在相似图像的相对大型数据集上训练深度学习网络模型会减少与ImageNet数据集的差距。通过微调的训练方式调整所有网络层的参数,改变低阶特征提取的特征,从而提升分类效果。
步骤三中所述的深度学习网络模型为VGG16,ResNet18、ResNet50和DenseNet121,网络的输入端只使用图像,而不使用患者的其他额外数据。卷积神经网络建立的分类模型与传统模型的不同之处在于,卷积神经网络建立的分类模型直接将伤口的二维图像输入模型,最终将伤口类型作为输出。其中ResNet深度残差网络是为了克服由于网络深度加深而产生的学习效率变低与准确率无法有效提升的问题。其内部的残差块使用跳跃连接,缓解在深度神经网络中增加深度带来的梯度消失问题。残差块的实现方法为:设原先的网络输入X,输出为F(X),现在令输出:
H(X)=F(X)+X (1)则深度残差网络就只需要学习一个残差函数:
F(X)=H(X)-X (2)
当F(X)=0时,即变为恒等映射H(X)=X,所述结构把优化的目标由H(X)转化成H(X)-X。在准确率饱和时就变为恒等映射的学习来保证最后精度不会下降。
残差块里有2个具有相同输出通道数的3×3卷积层,在每个卷积层后接一个批量规一化层和ReLU激活函数。然后再跳过这2个卷积运算,将输入直接加在最后的ReLU激活函数前。这就要求经过2个卷积层的输出与输入的形状一样,这样才能相加。若改变通道数,则需要加一个1×1卷积层来将输入变换成与输出一样的形状。
而DenseNet密集卷积网络的每层的输入除了前一层的输出外还包含前面所有层的输出,因此K层的模型会有K(K-1)/2个连接。一般的卷积神经网络最后的输出层只会利用最高层次的特征。在DenseNet中,使用不同层次的特征,通过对特征的反复利用达到更好的效果和更少的参数。这种密集连接有正则化的效果,对过拟合有一定的抑制作用,所以在伤口训练数据不足时使用DenseNet表现依旧良好。
DenseNet模型主要包含三个基本结构,Dense Layer,Dense Block和TransitionLayer。Dense Layer是整个模型中最基本的子结构,用于提取特征,Dense Layer层的第一个结构是批归一化BN层,BN层前面的拼接操作用于将Dense Block模块中前面所有层的输出以及第一层的输出进行拼接操作。Dense Layer能够减少输入特征图数量,在融合各个通道特征的同时减少计算量。Dense Block是由许多Dense Layer组成,且每个Dense Block模块中不同的Dense Layer之间密集连接。若Dense Block的第一层的输入是K0,第二层的输入为K0和K1(K1是第一层的输出),依次类推,公式表达如下:
Kl=Hl([K0,K1,K2,…,Kl-1]) (3)
[K0,K1,K2,…,Kl-1]表示将0到l-1层的输出特征图做通道的合并,而ResNet通道数是不变的,仅做值的加法。Hl指Dense Layer的操作。
DenseNet的密集连接方式需要特征图大小一致,因此需要Dense Block和Transition Layer相连接。Transition Layer的作用就是连接不同的Dense Block,由于每个Dense Block结束后的输出通道个数很多,所以需要用1×1的卷积核来降低通道数。2×2的平均池化用来降低特征图尺寸,将特征图尺寸降到1/2。总之,DenseNet在使用较少的参数数量的同时更加有效地利用特征,加强特征的传递,减轻梯度消失的情况。
步骤三中所述的注意力机制模块是指在计算机视觉中能够把注意力聚集在图像重要区域而丢弃掉不相关的机制。在人类视觉大脑皮层中,使用注意力机制能够更快捷和高效地分析复杂场景信息。不同伤口类型的伤口图像中伤口区域的特征与健康皮肤有所不同,伤口区域的特征与健康皮肤有所不同包括烧伤的伤口处皮肤发红有水疱;感染的伤口处皮肤发红、分泌物增加;而手术缝合后的伤口范围比较规则。在基础网络中加入注意力机制模块能够灵活捕获伤口图像的全局信息和伤口区域的局部信息之间的联系,使分类网络模型获得需要重点关注的伤口区域,并对该部分投入更大的权重,突出显著有用的特征,抑制和忽略无关的特征。
CBAM(Convolutional Block Attention Module)是一种用于前馈卷积神经网络的注意力模块。CBAM结合通道和空间的注意力机制模块,给定一个中间特征图,CBAM模块会沿着通道和空间两个独立的维度依次推断注意力图,然后将注意力图乘以输入特征图以进行自适应特征修饰。由于CBAM是轻量级的通用模块,因此可以将CBAM集成到任何CNN架构中,并且可以与基础CNN一起进行端到端训练。
输入数据一般是[B,C,H,W],B指的是Batch(批量大小),Channel(通道),Height(高),Width(宽)。在Channel上施加注意力机制,得到通道域注意力机制,在Height、Width施加注意力机制,Height、Width两个是空间域,即得到空间域注意力机制,将通道域的注意力机制和空间域的注意力机制结合起来即得到混合域注意力机制。
对于CBAM的通道注意力机制是给定一个输入F,同时经过全局平均池化AvgPool和全局最大池化MaxPool操作,分别得到不同的空间语义描述算子,将二者通过一个共享感知机MLP(两个全连接层),随后将两个通道注意力特征向量使用相加方式进行融合,二者相加通过sigmoid激活函数,得到通道注意力向量MC∈RC×1×1如下式:
其中σ指sigmoid激活函数,W0和W1分别是两个全连接层的权重,指经过全局平均池化,/>指经过全局最大池化。
对于CBAM的空间注意力机制给定一个输入F∈RH×W×C,沿着通道维度同时经过全局平均池化(GAP)和全局最大池化操作(GMP)操作,分别得到两种不同的通道特征描述算子(得到两个切片),将二者进行拼接,然后经过一个卷积核为7×7的卷积操作f7×7实现降维和增大感受野,再经过sigmoid激活函数,得到空间注意力向量Ms∈R1×H×W如下式:
CBAM最终结构采取串联形式,通道注意力特征图对原特征图进行校正得到F′,空间注意力特征图对特征图F′再进行校正,得到重新校准后的特征图,该混合注意力能够集成到任何一个卷积模块中。由于要使用ResNet和DenseNet的预训练参数,所以添加CBAM不能改变ResNet的网络结构。CBAM不能加在Residual block或Dense block里面,加在最后一层卷积或第一层卷积不改变网络结构,且能够使用预训练参数。
步骤三中所述的伤口分类器网络训练时为了确保非线性,使用非线性激活函数用于映射滤波器输出,在每一层之后使用整流线性单元ReLU激活函数。ReLU是一个分段线性函数,保留线性模型的能力,提高分类模型的泛化性,并易于使用基于梯度的方法进行优化。当输入为X时,输出f(X)的表达式是:
f(X)=max (0,X) (6)
训练设置的损失函数是交叉熵损失函数,用于解决多分类问题。损失函数如下式:
其中log以e为底,损失函数有两个参数,第一个参数x为输入也是网络的最后一层的输出,形状为[batchsize,class],batchsize指批量大小,class指类别。第二个参数是传入的标签,即是某个类别的索引值,在公式(6)没有参与计算。batchsize如果是1,则只有一个数字,0、1或者2,表示的是此时该样本对应的真实类别,如果为batchsize是2,则有两个数字,例如(0,1),两个数字分别表示所述两个样本对应的真实类别。
训练前设置的超参数为epoch,学习率,损失函数以及正则化参数和Dropout。Dropout是神经网络正则化和减少过拟合的有效和常用的技术之一。在训练过程中不断调整和测试每个超参数,每次根据重新训练后的损耗、准确率、精度、召回率、F1分数等性能指标来进行评估,从而确定最佳的超参数值和网络结构。在皮肤镜图像和伤口图像对网络权重进行微调时,优化器、学习率以及损失函数的设置都是不变的。由于全连接层前面层的参数是在ImageNet数据集上预训练得到的,已经足够好,因此一般只需使用较小的学习率来微调这些参数。而全连接层参数采用了随机初始化,一般需要更大的学习率从头训练,可以将全连接层的学习率设为其他层学习率的十倍。该网络使用Python实现,软件环境为Pycharm,使用Pytorch深度学习框架来训练、验证和测试我们的网络。经以上步骤搭建并训练完成的伤口分类网络可以有效提高伤口图像分类的准确率和效率。
本发明还公开基于深度学习的伤口图像辅助诊断与激光治疗一体化方法,基于所述基于深度学习的伤口图像分类方法实现。所述基于深度学习的伤口图像辅助诊断与激光治疗一体化方法包括所述基于深度学习的伤口图像分类方法所述的步骤一至步骤三,还包括如下步骤:
步骤四:不同的伤口类型对应不同的激光治疗参数,非相关专业人士在进行参数调整时,容易发生混淆情况从而影响治疗效果。为了缓解这一问题,本发明实现了自动调参的功能,将伤口图像输入到分类器中完成分类后,计算机将伤口图像所对应的标签及其对应的治疗参数输出,并将最佳的激光治疗参数通过计算机反馈给激光治疗仪。激光治疗仪通过其串口与计算机相连接,计算机将激光治疗仪中控制器的通信协议,数据类型,串口等信息编程在计算机语言中,通过控制器来调制激光治疗仪的参数。由治疗仪的控制模块自主调参可有效引导非相关领域人士正确操作激光治疗仪,提高对不同伤口类型治疗效果的针对性和适应性,避免错误调制激光治疗仪参数带来的不良治疗效果。
步骤五:使用机械臂控制激光发射头在伤口区域的照射,通过机械臂可以更严格控制辅助伤口治疗时间,且提高对伤口照射治疗区域的照射均匀性,机械臂操控激光发射头的简化图如图5所示。不同的伤口类型对应着不同的激光治疗时间,激光治疗仪发射激光的光束直径为2mm,根据多光谱相机在固定位置拍摄到的伤口图像可以计算得到伤口区域的形状和面积。伤口区域的面积、形状以及对应伤口类别的治疗时间经计算机优化处理传给机械臂,拥有6个自由度的机械臂可控制手爪以任意姿态移动,能够精准地锁定目标区域,到达待治疗区域的每个部分。机械臂的手爪紧握激光发射头,按照激光光束直径以及治疗时间在伤口区域处以固定的速度进行移动,从而使激光均匀地照射在待治疗伤口区域。机械臂的6个自由度的每一个组合ε=(ε1,ε2,ε3,ε4,ε5,ε6)都表示机械臂的一个状态,每个状态能确定机械手爪到达目标的空间位置g(ε),通过一系列的指令将机械臂的手爪移动到空间点位置g(ε)′,g(ε)″,g(ε)″′等,每次的移动距离d=2mm,空间点位置依次代表伤口区域的不同位置。与传统的手持激光治疗的扫描方式相比,机械臂控制方法不需要医护人员不断地调整激光照射位置,减小了医务人员的临床工作量。并且机械臂操作治疗的时间经过了严格校准,比人为控制时间更加准确,治疗效果更好。
本发明能够对伤口进行辅助诊断与辅助治疗,无需太多复杂的操作,患者只需使用多光谱相机将其受伤部位拍摄上传。即使在疫情期间医护人员缺乏的情况下也能使受伤患者得到及时的护理。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于深度学习的伤口图像分类方法,其特征在于:包括以下步骤,
步骤一:由多光谱相机同时采集伤口的可见光图像和红外图像,将融合后的图像作为伤口分类器的输入;通过图像融合实现图像增强,生成用于促进后续精准分类的鲁棒性图像;可见光图像用于提供具有高空间分辨率和清晰度的纹理细节,主要捕获伤口的细节信息,根据红外图像辐射差异将目标与背景区分开来,捕获伤口的热辐射信息;基于深度学习的特征融合算法将融合特征引入深度神经网络模型,使用多特征输入到模型中进行训练;
步骤二:在伤口图像数据预处理阶段,使用步骤一中融合后的数据集训练伤口图像的定位器,对伤口图像中的伤口区域进行精准检测定位,重点寻找该区域存在的显著特征;利用Yolov5模型进行伤口位置的检测定位,得到伤口区域的回归检测边界框;Yolov5算法是在Yolov4的基础上进行改进,网络训练阶段结合自适应锚框计算与自适应图片缩放,Yolov5使用Mosaic数据增强操作提升模型的训练速度和网络的精度;将预处理步骤得到的增强后的子图像作为用作卷积神经网络的输入,用于模型的训练及验证;
步骤三:设计基于深度学习模型的不同伤口类型及伤口严重程度的分类器,此分类器使用步骤二中数据增强后的子图像进行训练;使用基于深度学习的方法将创面图像分为糖尿病足溃疡、静脉溃疡、动脉溃疡、压疮、外科手术创伤、烧伤伤口6个类别,其中根据烧伤的实际愈合时间又分为浅烧伤,中等烧伤和深层烧伤,最终共得到8个类别,不同的伤口类别分别对应不同的激光治疗参数;针对伤口数据集规模较小、种类不平衡的问题,采用迁移学习方法进行深度学习模型训练;选用的深度学习网络模型分别为VGG16、ResNet18、ResNet50和DenseNet121,模型的初始参数为ImageNet上预训练过的参数;为了适应伤口数据集对8种伤口图像进行分类,需要对网络的输出层做出调整;本发明将原来最后一个全连接层的输入传给一个有256个输出单元的线性层,接着是ReLU层,为了避免过拟合,在第二个全连接层FC层之后增加dropout层,最终输出通道为8的softmax层,网络只处理8个类的分类;使用十倍交叉验证的方法在预先训练的VGG16,ResNet18、ResNet50和DenseNet121模型中选取最合适的分类模型,通过选取的分类模型设计基于深度学习模型的不同伤口类型及伤口严重程度的分类器,将伤口图像输入到基于深度学习的检测分类器中完成定位、分类和识别。
2.如权利要求1所述的基于深度学习的伤口图像分类方法,其特征在于:步骤一中,
针对伤口图像数据集不足的情况,通过图像特征融合构建更适合人与计算机感知识别的图像,从而减少后续分类器网络训练所需的数据量;使用DenseNet网络进行向量拼接,实现图像特征融合;通过下式进行向量拼接实现特征融合:现有特征向量v1∈Rm,v2∈Rn,则经过拼接后融合特征向量v=[v1,v2]∈Rm+n;
利用DenseNet网络将红外图像中的热辐射信息和可见光图像中的纹理信息进行特征融合,使得该图像比其他任何单张图像都包含更多信息,更加准确地表征图像特征,丰富伤口数据集。
3.如权利要求2所述的基于深度学习的伤口图像分类方法,其特征在于:步骤二中,
Mosaic数据增强采用4张图片,按照随机缩放、随机裁剪和随机排布的方式对图片进行处理再拼接到一张图上作为训练数据;通过Mosaic数据增强将几张图片组合成一张,在丰富为数不多的伤口数据集的同时显著提升网络的训练速度;在网络训练阶段,Yolov5模型在初始锚点框的基础上输出对应的预测框,计算预测框与真实框之间的差距,并执行反向更新操作,从而更新整个网络的参数;Yolov5模型在每次训练时,根据数据集的名称自适应的计算出最佳的锚点框;在常用的目标检测算法中,不同的图片长宽都不相同,因此常用的方式是将原始图片统一缩放到一个标准尺寸,再送入检测网络中;为了进一步提升Yolov5算法的推理速度,通过Yolov5主干网络部分引入focus结构和CSP结构自适应的添加最少的黑边到缩放之后的图片中;focus结构基于切片操作实现;在Yolov5网络模型中,原始608×608×3的图像输入Focus结构,采用切片操作,先变成304×304×12的特征图,再经过一次32个卷积核的卷积操作,最终变成304×304×32的特征图;用一个focus层替代三个普通下采样卷积层,能够减少计算量和参数量;而Yolov5中采用两种CSP结构,在得到伤口区域的回归检测边界框后,自动截取边界框内的伤口图像ROI,提取到的ROI大小因伤口大小而异,对每个ROI进行水平、垂直翻转等数据增强操作;在数据增强时,为了保留伤口的颜色特征,不对伤口图像的颜色进行修改,保证扩充后的图像与原始图像是相似的;将预处理步骤得到的增强后的子图像作为用作卷积神经网络的输入,用于伤口分类网络的训练及验证;定位伤口区域不仅能够保护病人的隐私,而且使得系统更加高效率、精准的完成后续不同伤口的分类。
4.如权利要求3所述的基于深度学习的伤口图像分类方法,其特征在于:选用DenseNet121作为主干网络;此外,在DenseNet121的第4个Densblock后添加了CBAM混合域注意力机制模块,使网络学会关注重点信息,从而提高分类的准确率;考虑到伤口图像数据集太小,并且自然图像与医学图像之间的巨大差异不利于直接进行迁移学习,所以先在相似图像上进行二次预训练,再放在伤口图像数据集上进行微调;所述相似图像指ISIC的皮肤镜图像。
5.如权利要求4所述的基于深度学习的伤口图像分类方法,其特征在于:步骤三中,用于图像分类的预训练网络通常在数量巨大的图像数据库ImageNet上进行训练,ImageNet数据集一共包含14197122张被注释的图片,共1000个类别,所述类别包括不同的动物、植物、汽车;由于伤口图像数据集很小且与原始ImageNet数据集不相似,采集伤口样本时的角度、光线条件、像素不同,所以除了在自然图像上进行预先训练外,在训练伤口图像之前,还使用一组来自开源档案ISIC的皮肤镜图像进行模型训练;在相似图像的相对大型数据集上训练伤口分类模型会减少与ImageNet数据集的差距;通过微调的训练方式调整所有网络层的参数,改变低阶特征提取的特征,从而提升分类效果。
6.如权利要求5所述的基于深度学习的伤口图像分类方法,其特征在于:步骤三中所述的深度学习网络模型分别为VGG16,ResNet18、ResNet50和DenseNet12,网络的输入端只使用图像,而不使用患者其它的数据;卷积神经网络建立的分类模型直接将伤口的二维图像输入模型,将伤口类型作为输出;其中ResNet深度残差网络是为了克服由于网络深度加深而产生的学习效率变低与准确率无法有效提升的问题;其内部的残差块使用跳跃连接,缓解在深度神经网络中增加深度带来的梯度消失问题;残差块的实现方法为:设原先的网络输入X,输出为F(X),现在令输出:
H*X)=F(X)+X (1)
则深度残差网络就只需要学习一个残差函数:
F(X)=H(X)-X (2)
当F(X)=0时,即变为恒等映射H(X)=X,所述结构把优化的目标由H(X)转化成H(X)-X;在准确率饱和时就变为恒等映射的学习来保证最后精度不会下降;
残差块里有2个具有相同输出通道数的3×3卷积层,在每个卷积层后接一个批量规一化层和ReLU激活函数;然后再跳过这2个卷积运算,将输入直接加在最后的ReLU激活函数前;这就要求经过2个卷积层的输出与输入的形状一样,这样才能相加;若改变通道数,则需要加一个1×1卷积层来将输入变换成与输出一样的形状;
而DenseNet密集卷积网络的每层的输入除了前一层的输出外还包含前面所有层的输出,因此K层的模型会有K(K-1)/2个连接;一般的卷积神经网络最后的输出层只会利用最高层次的特征;在DenseNet中,使用不同层次的特征,通过对特征的反复利用达到更好的效果和更少的参数;所述密集连接有正则化的效果,对过拟合有抑制作用,所以在伤口训练数据不足时使用DenseNet表现依旧良好;
DenseNet模型主要包含三个基本结构,Dense Layer,Dense Block和TransitionLayer;Dense Layer是整个模型中最基本的子结构,用于提取特征,Dense Layer层的第一个结构是批归一化BN层,BN层前面的拼接操作用于将Dense Block模块中前面所有层的输出以及第一层的输出进行拼接操作;Dense Layer能够减少输入特征图数量,在融合各个通道特征的同时减少计算量;Dense Block是由许多Dense Layer组成,且每个Dense Block模块中不同的Dense Layer之间密集连接;若Dense Block的第一层的输入是K0,第二层的输入为K0和K1(K1是第一层的输出),依次类推,公式表达如下:
K=Hl([K0,K1,K2,...,Kl-1]) (3)
[K0,K1,K2,...,Kl-1]表示将0到l-1层的输出特征图做通道的合并,而ResNet通道数是不变的,仅做值的加法;Hl指Dense Layer的操作;
DenseNet的密集连接方式需要特征图大小一致,因此需要Dense Block和TransitionLayer相连接;Transition Layer的作用就是连接不同的Dense Block,由于每个DenseBlock结束后的输出通道个数很多,通过DenseNet在使用较少的参数数量的同时更加有效地利用特征,加强特征的传递,减轻梯度消失的情况。
7.如权利要求6所述的基于深度学习的伤口图像分类方法,其特征在于:步骤三中所述的注意力机制模块是指在计算机视觉中能够把注意力聚集在图像重要区域而丢弃掉不相关的机制;不同伤口类型的伤口图像中伤口区域的特征与健康皮肤有所不同,伤口区域的特征与健康皮肤有所不同包括烧伤的伤口处皮肤发红有水疱;感染的伤口处皮肤发红、分泌物增加;而手术缝合后的伤口范围比较规则;在基础网络中加入注意力机制模块能够灵活捕获伤口图像的全局信息和伤口区域的局部信息之间的联系,使分类网络模型获得需要重点关注的伤口区域,并对该部分投入更大的权重,突出显著有用的特征,抑制和忽略无关的特征;
CBAM结合通道和空间的注意力机制模块,给定一个中间特征图,CBAM模块会沿着通道和空间两个独立的维度依次推断注意力图,然后将注意力图乘以输入特征图以进行自适应特征修饰;由于CBAM是轻量级的通用模块,因此可以将CBAM集成到任何CNN架构中,并且能够与基础CNN一起进行端到端训练;
输入数据一般是[B,C,H,W],B指的是Batch(批量大小),Channel(通道),Height(高),Width(宽);在Channel上施加注意力机制,得到通道域注意力机制,在Height、Width施加注意力机制,Height、Width两个是空间域,即得到空间域注意力机制,将通道域的注意力机制和空间域的注意力机制结合起来即得到混合域注意力机制;
对于CBAM的通道注意力机制是给定一个输入F,同时经过全局平均池化AvgPool和全局最大池化MaxPool操作,分别得到不同的空间语义描述算子,将二者通过一个共享感知机MLP,随后将两个通道注意力特征向量使用相加方式进行融合,二者相加通过sigmoid激活函数,得到通道注意力向量Mc∈RC×1×1如下式:
对于CBAM的空间注意力机制给定一个输入F∈RH×W×C,沿着通道维度同时经过全局平均池化(GAP)和全局最大池化操作(GMP)操作,分别得到两种不同的通道特征描述算子,即得到两个切片,将二者进行拼接,然后经过一个卷积核为7×7的卷积操作f7×7实现降维和增大感受野,再经过sigmoid激活函数,得到空间注意力向量Ms∈R1×H×W如下式:
CBAM最终结构采取串联形式,通道注意力特征图对原特征图进行校正得到F′,空间注意力特征图对特征图F′再进行校正,得到重新校准后的特征图,该混合注意力能够集成到任何一个卷积模块中;由于要使用ResNet和DenseNet的预训练参数,所以添加CBAM不能改变ResNet的网络结构;CBAM不能加在Residual block或Dense block里面,加在最后一层卷积或第一层卷积不改变网络结构,且能够使用预训练参数。
8.如权利要求7所述的基于深度学习的伤口图像分类方法,其特征在于:步骤三中所述的伤口分类器网络训练时为了确保非线性,使用非线性激活函数用于映射滤波器输出,在每一层之后使用整流线性单元ReLU激活函数;ReLU是一个分段线性函数,保留线性模型的能力,提高分类模型的泛化性,并易于使用基于梯度的方法进行优化;
当输入为X时,输出f(X)的表达式是:
f(X)=max(0,X) (6)
训练设置的损失函数是交叉熵损失函数,用于解决多分类问题;损失函数如下式:
其中log以e为底,损失函数有两个参数,第一个参数x为输入也是网络的最后一层的输出,形状为[batchsize,class],batchsize指批量大小,class指类别;第二个参数是传入的标签,即是某个类别的索引值,在公式(7)有参与计算;batchsize如果是1,则只有一个数字,0、1或者2,表示的是此时该样本对应的真实类别,如果为batchsize是2,则有两个数字,例如(0,1),两个数字分别表示所述两个样本对应的真实类别;
训练前设置的超参数为epoch,学习率,损失函数以及正则化参数和Dropout;通过Dropout实现神经网络正则化和减少过拟合的目的;在训练过程中不断调整和测试每个超参数,每次根据重新训练后的性能指标来进行评估,从而确定最佳的超参数值和网络结构;所述性能指标包括损耗、准确率、精度、召回率、f1分数;在皮肤镜图像和伤口图像对网络权重进行微调时,优化器、学习率以及损失函数的设置都是不变的;以上步骤搭建并训练完成的伤口分类网络可以有效提高伤口图像分类的准确率和效率。
9.基于深度学习的伤口图像辅助诊断与辅助激光治疗方法,基于如权利要求1、2、3、4、5、6、7或8所述的基于深度学习的伤口图像分类方法实现,其特征在于:包括所述基于深度学习的伤口图像分类方法所述的步骤一至步骤三,还包括如下步骤四:
将伤口图像输入到分类器中完成分类后,计算机将伤口图像所对应的标签及其对应的治疗参数输出,并将最佳的激光治疗参数通过计算机反馈给激光治疗仪;激光治疗仪通过其串口与计算机相连接,计算机将激光治疗仪中控制器的通信协议、数据类型、串口信息编程在计算机中,通过控制器来调制激光治疗仪的参数;由治疗仪的控制模块自主调参引导操作者正确操作激光治疗仪,提高对不同伤口类型治疗效果的针对性和适应性,避免错误调制激光治疗仪参数带来的不良治疗效果。
10.如权利要求9所述的基于深度学习的伤口图像辅助诊断与辅助激光治疗方法,其特征在于:还包括步骤五:
使用机械臂控制激光发射头在伤口区域的照射,通过机械臂更严格控制辅助伤口治疗时间,且提高对伤口照射治疗区域的照射均匀性;不同的伤口类型对应着不同的激光治疗时间,激光治疗仪发射激光的光束直径为2mm,根据多光谱相机在固定位置拍摄到的伤口图像计算得到伤口区域的形状和面积;伤口区域的面积、形状以及对应伤口类别的治疗时间经计算机优化处理传给机械臂,拥有6个自由度的机械臂可控制手爪以任意姿态移动,能够精准地锁定目标区域,到达待治疗区域的每个部分;机械臂的手爪紧握激光发射头,按照激光光束直径以及治疗时间在伤口区域处以固定的速度进行移动,从而使激光均匀地照射在待治疗伤口区域;机械臂的6个自由度的每一个组合ε=(ε1,ε2,ε3,ε4,ε5,ε6)都表示机械臂的一个状态,每个状态能确定机械手爪到达目标的空间位置g(ε),通过一系列的指令将机械臂的手爪移动到空间点位置g(ε)′,g(ε)″,g(ε)″′,每次的移动距离d=2mm,空间点位置依次代表伤口区域的不同点位置;通过控制机械臂不需要医护人员不断地调整激光照射位置,减小医务人员的临床工作量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310277955.0A CN116452855A (zh) | 2023-03-21 | 2023-03-21 | 基于深度学习的伤口图像分类及激光辅助治疗方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310277955.0A CN116452855A (zh) | 2023-03-21 | 2023-03-21 | 基于深度学习的伤口图像分类及激光辅助治疗方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116452855A true CN116452855A (zh) | 2023-07-18 |
Family
ID=87124740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310277955.0A Pending CN116452855A (zh) | 2023-03-21 | 2023-03-21 | 基于深度学习的伤口图像分类及激光辅助治疗方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116452855A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117876371A (zh) * | 2024-03-11 | 2024-04-12 | 南京理工大学 | 基于改进卷积神经网络的液压泵零件齐套检测方法 |
-
2023
- 2023-03-21 CN CN202310277955.0A patent/CN116452855A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117876371A (zh) * | 2024-03-11 | 2024-04-12 | 南京理工大学 | 基于改进卷积神经网络的液压泵零件齐套检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6947759B2 (ja) | 解剖学的対象物を自動的に検出、位置特定、及びセマンティックセグメンテーションするシステム及び方法 | |
Kumar et al. | Breast cancer classification of image using convolutional neural network | |
CN112155729A (zh) | 手术穿刺路径智能自动化规划方法及系统和医疗系统 | |
CN111243730B (zh) | 一种基于乳腺超声影像的乳腺病灶智能分析方法及系统 | |
CN116452855A (zh) | 基于深度学习的伤口图像分类及激光辅助治疗方法 | |
KR20210054678A (ko) | 전처리 모듈을 포함하는 머신 러닝 기반의 인공지능을 이용하는 영상 분석 장치 | |
CN116258732A (zh) | 一种基于pet/ct图像跨模态特征融合的食管癌肿瘤靶区分割方法 | |
Yang et al. | Unsupervised domain adaptation for cross-device OCT lesion detection via learning adaptive features | |
CN113974627A (zh) | 一种基于脑机生成对抗的情绪识别方法 | |
CN111640127B (zh) | 一种用于骨科的精准临床诊断导航方法 | |
WO2022209574A1 (ja) | 医療画像処理装置、医療画像処理プログラム、および医療画像処理方法 | |
CN111640126B (zh) | 基于医学影像的人工智能诊断辅助方法 | |
CN113796850A (zh) | 甲状旁腺mibi图像分析系统、计算机设备及存储介质 | |
Joseph et al. | MODCN: Fine-Tuned Deep Convolutional Neural Network with GAN Deployed to Forecast Diabetic Eye Damage in Fundus Retinal Images | |
Gupta et al. | Deep learning-based segmentation and analysis of pneumothorax using chest X-ray images | |
Wei et al. | Application of U-net with variable fractional order gradient descent method in rectal tumor segmentation | |
Yu et al. | Convolutional Neural Network Classification of Basal Cell Carcinoma in Harmonically Generated Microscopy Images | |
Liu et al. | A Novel Robot System for Hair Transplant Surgery Based on Self-Calibration and Structured Light Hair Follicle Detection | |
CN117994266A (zh) | 一种基于对抗性域适应的低质量眼底彩照智能分割方法 | |
Akella et al. | Hybrid Edge-Artificial Intelligence Model for Identification and Classification of Brain Tumours from Computed Tomography Scans | |
Lim et al. | ViTMed: Vision Transformer for Medical Image Analysis | |
Khoroshchuk et al. | Machine learning in lung lesion detection caused by certain diseases | |
Padthe et al. | APOA based Multi-scale Parallel Convolution Blocks with Hybrid Deep Learning for Gastric Cancer Prediction from Endoscopic Images | |
Tabrizi | Semantic segmentation of medical images with deep learning | |
Bhujang et al. | Hybrid Deep Learning Based PDOA Model for Prediction of BCI Task Using EEG Signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |