CN116664929A - 一种基于多模态信息融合的喉镜图像多属性分类方法 - Google Patents
一种基于多模态信息融合的喉镜图像多属性分类方法 Download PDFInfo
- Publication number
- CN116664929A CN116664929A CN202310606272.5A CN202310606272A CN116664929A CN 116664929 A CN116664929 A CN 116664929A CN 202310606272 A CN202310606272 A CN 202310606272A CN 116664929 A CN116664929 A CN 116664929A
- Authority
- CN
- China
- Prior art keywords
- image
- laryngoscope
- attribute
- feature
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000004927 fusion Effects 0.000 title claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 41
- 238000013507 mapping Methods 0.000 claims abstract description 23
- 238000005065 mining Methods 0.000 claims abstract description 19
- 238000003745 diagnosis Methods 0.000 claims abstract description 18
- 201000010099 disease Diseases 0.000 claims abstract description 9
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 25
- 230000003902 lesion Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 230000007246 mechanism Effects 0.000 claims description 9
- 241000282326 Felis catus Species 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 claims description 6
- 230000008447 perception Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000002596 correlated effect Effects 0.000 claims description 3
- 230000007717 exclusion Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 abstract description 2
- 230000017074 necrotic cell death Effects 0.000 description 6
- 210000001260 vocal cord Anatomy 0.000 description 5
- 238000012360 testing method Methods 0.000 description 3
- 241000519995 Stachys sylvatica Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000001338 necrotic effect Effects 0.000 description 2
- YREOLPGEVLLKMB-UHFFFAOYSA-N 3-methylpyridin-1-ium-2-amine bromide hydrate Chemical compound O.[Br-].Cc1ccc[nH+]c1N YREOLPGEVLLKMB-UHFFFAOYSA-N 0.000 description 1
- 208000029951 Laryngeal disease Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 206010023841 laryngeal neoplasm Diseases 0.000 description 1
- 210000004400 mucous membrane Anatomy 0.000 description 1
- 230000036285 pathological change Effects 0.000 description 1
- 231100000915 pathological change Toxicity 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明属于医学图像分类领域,具体涉及一种基于多模态信息融合的喉镜图像多属性分类方法。本发明的方法包含文本特征提取模块、图像特征提取模块、内联特征挖掘模块和逆映射输出模块。首先,使用配对的喉镜图像和报告建立自己的多模态数据集,通过文本特征提取模块实现从诊断报告中自动获取目标属性标签;然后,通过图像特征提取模块获得图像的特征表示;之后,提出了内联特征挖掘模块,该模块融合了文本特征和图像特征,挖掘各个属性的内部关联性,从而实现疾病自动分类;最后,逆映射输出模块实现自动生成包含多个表征属性和最终诊断结论的报告。
Description
技术领域
本发明属于医学图像分类领域,具体涉及一种基于多模态信息融合的喉镜图像多属性分类方法。
背景技术
纤维电子鼻咽喉镜,作为一种无创检查,可清晰显示咽喉部解剖结构以及病变,在临床上获得了广泛的应用。常见的喉镜图像有标准内窥镜的白光(White Light,WL)图像和窄带成像(Narrow Band Imaging,NBI)两种。喉镜图像所呈现出的喉部形态,是对喉疾病做出诊断的重要依据。但是息肉、白斑、早期喉癌等病变组织在喉镜下的图像表现形态具有较大的相似性,诊断多依赖于医生主观判断。近年来,深度学习技术与临床医学相结合的智慧医疗技术得到了广泛的关注与研究。然而,目前大部分的方法都主要集中在利用WL图像进行简单的疾病类型分类。喉部的粘膜光滑度,坏死,颜色等是临床医生给出诊断并制定后续治疗方案的重要依据。而目前尚未见有针对病变部位的状态进行自动判断的方法,同时需要建立同时能适应WL和NBI图像的诊断模型以适应两者相结合的检查手段。另外,现有的方法通常依赖有经验的医生来对图像进行人工标注,这无疑是一个耗时耗力的过程。若能实现自动图像标注、自动疾病识别的同时,对病变部位进行定位、定性并自动生成诊断报告,有助于提高准确性,并节省人力成本。
发明内容
针对上述问题,本发明提出了一个喉镜图像多属性分类及报告自动生成方法,该方法能够通过文本映射自动获取图像中病变部位的多重属性标签,实现文本与图像的多模态特征提取、特征内联信息挖掘,最后实现精确的喉部病变识别,并自动生成诊断报告。
本发明以实现喉部疾病智能分类诊断为背景,针对人工标注图像费时费力、病变状态属性判别和不同病变类型的喉镜图像存在数量不平衡的问题,提出了一种基于多模态信息融合的喉镜图像多属性分类及报告自动生成方法。该方法包含文本特征提取模块、图像特征提取模块、内联特征挖掘模块和逆映射输出模块。首先,使用配对的喉镜图像和报告建立自己的多模态数据集,通过文本特征提取模块实现从诊断报告中自动获取目标属性标签;然后,通过图像特征提取模块获得图像的特征表示;之后,提出了内联特征挖掘模块,该模块融合了文本特征和图像特征,挖掘各个属性的内部关联性,从而实现疾病自动分类;最后,逆映射输出模块实现自动生成包含多个表征属性和最终诊断结论的报告。
本发明的技术方案为:
一种基于多模态信息融合的喉镜图像多属性分类方法,从文本报告中自动获取图像中病变部位的多重属性标签,实现文本与图像的多模态特征提取、特征内联信息挖掘,最后实现精确的喉部病变识别和多个属性识别,并自动生成诊断报告。包括以下步骤:
S1、获取原始喉镜图像记为i0=1,2,...,a,a为获取的原始喉镜图像数量,h0,w0是原始喉镜图像的高度和宽度;对原始喉镜图像进行处理,获得大小格式统一的喉镜图像,表示为xi∈R3×h×w,i=1,2,...a,h,w是原始喉镜图像重新调整大小之后的高度和宽度;
同时获取与原始喉镜图像对应的文本格式的诊断报告,记为xt,t=1,2,...,a,其中,a表示诊断报告样本的数量,诊断报告与喉镜图像是一一对应匹配的,获得训练数据[xi,xt];
S2、构建神经网络,包括文本特征提取模块、图像特征提取模块、内联特征挖掘模块、逆映射输出模块;
所述文本特征提取模块的输入为诊断报告,用于从诊断报告中提取感兴趣信息作为图像的多属性标签,对于xt,采用文本映射函数f(I,xt)进行推理,推理函数作用于输入xt和感兴趣信息列表I,I是由内镜医生确定的n项医学感知结果作为需要获取的属性信息,表示为I=[I1,I2,I3,...,In],输出xt与I的匹配信息:L=f(I,xt)=[l1,l2,l3,...,ln],其中,li表示第i个感兴趣信息与xt的相似度;最后通过词级嵌入函数E(x)获得医学感知结果的文本特征 其中,channels表示特征维数;
所述图像特征提取模块用于对喉镜图像xi进行特征提取,具体为采用ResNet50网络,从ResNet50网络的5个输出层C1,C2,C3,C4,C5中选取C5的输出作为ResNet50的输出,得到提取的图像特征为其中,channels是输出特征的通道数,与前述特征维数channels相同,h′和w′分别是输出特征的高度和宽度;
所述内联特征挖掘模块由M个增强型Transformer编码器组成,将文本特征提取模块输出的文本特征与图像特征提取模块输出的图像特征进行拼接融合,具体为先通过view函数对图像特征降维,将第二维和第三维展平获得一个新的维度,即
然后通过拼接获得作为增强型Transformer编码器的输入集,在编码器中,通过自我注意力机制计算输入集元素si∈S和sj∈S之间的注意力系数:
其中,Wq和Wk分别是query和key权重矩阵,是比例因子;通过加权和操作将si更新为si:
其中Wv为value权重矩阵,再引入变换矩阵Wt、Wf和偏差向量b1、b2,经过ReLu激活函数得到更新后的:
最后经过卷积层来增强局部信息的学习,将更新过程重复M次,从而将增强的局部信息与多头自我注意机制的全局信息相融合,减少不相关属性之间的相关系数,而增加相关属性之间的相关系数;
编码器输出学习后的融合特征表示:cat=m+n,其中channels为融合后特征的通道数,cat为融合后特征的大小;
所述逆映射输出模块用于通过多分支输出结构预测喉镜图像的类别和属性,进而经过逆映射函数输出最终的诊断报告,具体为利用内联特征挖掘模块输出的融合特征,利用多个前馈神经网络FFN实现属性的预测,表示为:
其中,fi表示预测第i个属性所用的FFN及其参数,T表示转置操作,n表示属性的总数,si′为S′中的元素;针对互斥属性,预测概率较大的属性将作为最终预测属性;针对非互斥属性,确定阈值thi,阈值以下的属性将被丢弃,根据预测得到的属性结果,通过逆映射函数生成诊断报告,诊断报告包含疾病诊断结果与病变属性状态的预测结果;
S3、利用S1得到的训练数据[xi,xt]对S2构建神经网络进行训练,其中图像特征提取模块部分在ImageNet数据集上先进行预训练,将通过预训练得到的参数作为ResNet50的初始参数,训练采用的损失函数为非对称损失:
其中,a+,a-是聚焦参数,y是网络的输出概率,概率参数z≥0是一个可调整的超参数,通过神经网络的反向传播机制,修正网络的参数,直至网络基本收敛得到训练好的神经网络;
S4、采用训练好的网络对喉镜图像进行属性预测和诊断报告的生成:
选择需要分类的喉镜图像,将其送入图像特征提取模块,得到的特征图经过前向反馈网络,获得关于喉镜图像的病变类别预测和相应的属性预测,最后通过逆映射函数获得预测的诊断报告。
本发明的有益效果为:本发明开创性的提出了获取图像中病灶部位的多重属性信息,然后利用不同属性间的内在关联性实现对疾病类型的更精确的分类的思路和方法,最后还以多重属性及疾病类型识别结果为基础自动生成了诊断报告。该方法具有较强的实用性和可靠性,将作为辅助信息减轻专业医生的负担。
附图说明
图1是网络整体模型示意图。
图2是网络详细结构示意图。
具体实施方式
下面结合附图对本发明进行详细描述。
如图1所述,本发明包括以下步骤:
S1:数据预处理:
从多个医疗中心的多个电子喉镜设备采集1867张WL和NBI喉镜图像,从数百名患者的喉镜视频中随机抓取高质量的图像,即声带为打开状态且大致位于图片中央、清晰显示喉部结构和病变的原始图像。同时收集1867份文本格式的喉镜诊断报告,与1867张喉镜图像是配对关系。按照6:2:2的比例将图像和配对的诊断报告随机分配到训练集、验证集和测试集。
对于输入的喉镜图像,记为i=1,2,...,a,其中,a表示图像样本的数量,即为1867,h0,w0是原始喉镜图像的高度和宽度。由于喉镜图像的大小不统一,要统一使用resize函数将图像缩放到适应特征提取网络的输入大小640×640。然后,由于喉镜图像声带位置通常位于中间部位,因此再将图像随机中心裁剪成576×576大小,以减少边缘无关区域的干扰,最终输入到特征提取网络的图像表示为:xi∈R3×h×w,i=1,2,...n,h,w是喉镜图像重新调整大小之后的高度和宽度,即分别为576,576。
对于输入的文本格式的诊断报告,记为xt,t=1,2,...,a,其中,a表示报告样本的数量。在输入在文本特征提取模块之前,需要由专业内镜医生确定n项医学感知结果作为我们需要获取的属性信息,记为感兴趣信息列表:I=[I1,I2,I3,...,In]。本发明重点关注的属性信息包含疾病类别、光滑度、是否颜色污秽、是否坏死、病变位置信息,确定n=13项医学感知结果,分别为[白斑,息肉,癌变,正常,光滑,不光滑,颜色污秽,颜色正常,坏死,未坏死,左侧声带,右侧声带,两侧声带]。
S2:构建神经网络,包括文本特征提取模块、图像特征提取模块、内联特征挖掘模块、逆映射输出模块。
S2.1:文本特征提取模块:
该模块是从文本格式的报告xt中提取感兴趣信息作为图像的多属性标签。对于输入的文本报告xt,如图2所示,采用文本映射函数f(I,xt)在由多个句子组成的报告上进行推理。该推理函数作用于输入xt和感兴趣信息列表I,输出xt与I的匹配信息:L=f(I,xt)=[l1,l2,l3,...,ln]。其中,li表示第i个感兴趣信息与xt的相似度。接下来,通过词级嵌入函数E(x)获得医学感知结果的特征向量其中,channels表示与图像特征提取模块输出的相一致的通道数。
S2.2:图像特征提取模块:
图像特征提取模块是对喉镜图像进行特征提取。将预处理之后的喉镜图像xi∈R3 ×h×w,i=1,2,...n送入图像特征提取模块来学习图像的特征表示,如图2所示。该模块是由ResNet50组成,其有5个输出层C1,C2,C3,C4,C5,逐层挖掘深层次特征,最终取C5的输出作为ResNet50的输出。由于样本存在数量不足的问题,因为采用迁移学习的思路,先将ResNet模型在ImageNet数据集上进行预训练,利用模型预训练得到的参数为ResNet50的初始参数,再用采集的喉镜图像数据对ResNet50微调参数。ResNet50的5个输出层的参数如表1所示。最后得到其中,channels是图像特征提取模块输出特征的通道数,为2048,h′和w′分别是输出特征的高度和宽度,分别为18,18。
表1ResNet50输出层的参数
S2.3:内联特征挖掘模块:
内联特征挖掘模块主要由M个增强型Transformer编码器组成,挖掘不同属性之间的关系。基于配对输入[xi,xt]经过特征提取模块获得的特征表示,为了能够将文本特征与图像特征/>拼接融合,首先通过view函数对图像特征降维,将第二维和第三维展平获得一个新的维度,即
通过拼接获得作为增强型Transformer编码器的输入集。在编码器中,首先通过自我注意力机制计算输入集元素si∈S和si∈S之间的注意力系数:
其中,Wq和Wk分别是query和key权重矩阵,是比例因子,取d=64。然后加权和操作将si更新为/>
其中Wv为value权重矩阵。进而再引入变换矩阵Wt、Wf和偏差向量b1、b2,经过ReLu激活函数得到更新后的:
最后经过卷积层来增强局部信息的学习。将上述更新过程重复M=3次,就可以将增强的局部信息与多头自我注意机制的全局信息相融合,多头注意力为4。该过程减少不相关属性之间的相关系数,而增加相关属性之间的相关系数。例如,在有癌性病变的喉镜图像中,“坏死”和“颜色污秽”的特征将被赋予更高的关注权重。这意味着在特征图中会得到更突出这两个属性,从而让模块关注不同属性之间的关联。
编码器输出学习后的特征表示:cat=m+n,其中channels为融合后特征的通道数,为2048,cat为融合后特征的大小,为337。
S2.4:逆映射输出模块:
该模块主要是通过多分支输出结构预测喉镜图像的类别和属性,进而经过逆映射函数输出最终的诊断报告。首先,基于内联特征挖掘模块对图像特征和属性信息的融合学习,利用多个前馈神经网络(FFN)实现属性的预测,即,通过一个线性层f,预测出图像中存在的对象、属性相对应的一组属性:
其中,fi表示预测第i个属性所用的FFN及其参数,T表示转置操作,n表示属性的总数,si′为内联特征挖掘模块输出的特征表示S′中的元素。
然后,针对互斥属性,预测概率较大的属性将作为最终预测属性。针对非互斥属性,确定阈值thi为0.5,阈值以下的属性将被丢弃。
最后,根据预测得到的属性结果,通过逆映射函数生成诊断报告,该报告包含疾病诊断结果与4个病变属性(光滑度、颜色污秽度、坏死度、位置)。例如,假设/>代表已经坏死的属性,若/>则/>得到“该喉镜图像的病变部位存在坏死迹象”的文本描述。
S3:对构建的神经网络进行训练:
输入的数据为配对的诊断报告和喉镜图像[xi,xt],加载网络模型的预训练权重,使用喉镜数据对模型微调参数。由于图像类别数量不平衡,损失函数采用非对称损失(Asymmetric Loss):
其中,a+,a-是聚焦参数,y是网络的输出概率,概率参数z≥0是一个可调整的超参数。通过神经网络的反向传播机制,修正网络的参数,直至网络基本收敛。训练过程中的实验参数设置如表2所示。
表2:训练过程中的实验参数设置
S4:采用训练好的网络对喉镜图像进行属性预测和诊断报告的生成:
选择需要测试的喉镜图像,将其送入图像特征提取模块,得到的特征图经过前向反馈网络,获得关于喉镜图像的病变类别预测和相应的属性预测,最后通过逆映射函数获得预测的诊断报告。最终,测试集在模型上预测的性能如表3所示。
表3测试集上的mAP,敏感性、特异性、报告准确率指标
Claims (1)
1.一种基于多模态信息融合的喉镜图像多属性分类方法,其特征在于,包括以下步骤:
S1、获取原始喉镜图像记为a为获取的原始喉镜图像数量,h0,w0是原始喉镜图像的高度和宽度;对原始喉镜图像进行处理,获得大小格式统一的喉镜图像,表示为xi∈R3×h×w,i=1,2,...a,h,w是原始喉镜图像重新调整大小之后的高度和宽度;
同时获取与原始喉镜图像对应的文本格式的诊断报告,记为xt,t=1,2,...,a,其中,a表示诊断报告样本的数量,诊断报告与喉镜图像是一一对应匹配的,获得训练数据[xi,xt];
S2、构建神经网络,包括文本特征提取模块、图像特征提取模块、内联特征挖掘模块、逆映射输出模块;
所述文本特征提取模块的输入为诊断报告,用于从诊断报告中提取感兴趣信息作为图像的多属性标签,对于xt,采用文本映射函数f(I,xt)进行推理,推理函数作用于输入xt和感兴趣信息列表I,I是由内镜医生确定的n项医学感知结果作为需要获取的属性信息,表示为I=[I1,I2,I3,...,In],输出xt与I的匹配信息:L=f(I,xt)=[l1,l2,l3,...,ln],其中,li表示第i个感兴趣信息与xt的相似度;最后通过词级嵌入函数E(x)获得医学感知结果的文本特征 其中,channels表示特征维数;
所述图像特征提取模块用于对喉镜图像xi进行特征提取,具体为采用ResNet50网络,从ResNet50网络的5个输出层C1,C2,C3,C4,C5中选取C5的输出作为ResNet50的输出,得到提取的图像特征为其中,channels是输出特征的通道数,与前述特征维数channels相同,h′和w′分别是输出特征的高度和宽度;
所述内联特征挖掘模块由M个增强型Transformer编码器组成,将文本特征提取模块输出的文本特征与图像特征提取模块输出的图像特征进行拼接融合,具体为先通过view函数对图像特征降维,将第二维和第三维展平获得一个新的维度,即
然后通过拼接获得作为增强型Transformer编码器的输入集,在编码器中,通过自我注意力机制计算输入集元素si∈S和sj∈S之间的注意力系数:
其中,Wq和Wk分别是query和key权重矩阵,是比例因子;通过加权和操作将si更新为/>
其中Wv为value权重矩阵,再引入变换矩阵Wt、Wf和偏差向量b1、b2,经过ReLu激活函数得到更新后的:
最后经过卷积层来增强局部信息的学习,将更新过程重复M次,从而将增强的局部信息与多头自我注意机制的全局信息相融合,减少不相关属性之间的相关系数,而增加相关属性之间的相关系数;
编码器输出学习后的融合特征表示:cat=m+n,其中channels为融合后特征的通道数,cat为融合后特征的大小;
所述逆映射输出模块用于通过多分支输出结构预测喉镜图像的类别和属性,进而经过逆映射函数输出最终的诊断报告,具体为利用内联特征挖掘模块输出的融合特征,利用多个前馈神经网络FFN实现属性的预测,表示为:
其中,fi表示预测第i个属性所用的FFN及其参数,T表示转置操作,n表示属性的总数,s′i为S′中的元素;针对互斥属性,预测概率较大的属性将作为最终预测属性;针对非互斥属性,确定阈值thi,阈值以下的属性将被丢弃,根据预测得到的属性结果,通过逆映射函数生成诊断报告,诊断报告包含疾病诊断结果与病变属性状态的预测结果;
S3、利用S1得到的训练数据[xi,xt]对S2构建神经网络进行训练,其中图像特征提取模块部分在ImageNet数据集上先进行预训练,将通过预训练得到的参数作为ResNet50的初始参数,训练采用的损失函数为非对称损失:
其中,a+,a-是聚焦参数,y是网络的输出概率,概率参数z≥0是一个可调整的超参数,通过神经网络的反向传播机制,修正网络的参数,直至网络基本收敛得到训练好的神经网络;
S4、采用训练好的网络对喉镜图像进行属性预测和诊断报告的生成:
选择需要分类的喉镜图像,将其送入图像特征提取模块,得到的特征图经过前向反馈网络,获得关于喉镜图像的病变类别预测和相应的属性预测,最后通过逆映射函数获得预测的诊断报告。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310606272.5A CN116664929A (zh) | 2023-05-26 | 2023-05-26 | 一种基于多模态信息融合的喉镜图像多属性分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310606272.5A CN116664929A (zh) | 2023-05-26 | 2023-05-26 | 一种基于多模态信息融合的喉镜图像多属性分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116664929A true CN116664929A (zh) | 2023-08-29 |
Family
ID=87720024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310606272.5A Pending CN116664929A (zh) | 2023-05-26 | 2023-05-26 | 一种基于多模态信息融合的喉镜图像多属性分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116664929A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117238458A (zh) * | 2023-09-14 | 2023-12-15 | 广东省第二人民医院(广东省卫生应急医院) | 基于云计算的重症护理跨机构协同平台系统 |
CN117393100A (zh) * | 2023-12-11 | 2024-01-12 | 安徽大学 | 诊断报告的生成方法、模型训练方法、系统、设备及介质 |
-
2023
- 2023-05-26 CN CN202310606272.5A patent/CN116664929A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117238458A (zh) * | 2023-09-14 | 2023-12-15 | 广东省第二人民医院(广东省卫生应急医院) | 基于云计算的重症护理跨机构协同平台系统 |
CN117238458B (zh) * | 2023-09-14 | 2024-04-05 | 广东省第二人民医院(广东省卫生应急医院) | 基于云计算的重症护理跨机构协同平台系统 |
CN117393100A (zh) * | 2023-12-11 | 2024-01-12 | 安徽大学 | 诊断报告的生成方法、模型训练方法、系统、设备及介质 |
CN117393100B (zh) * | 2023-12-11 | 2024-04-05 | 安徽大学 | 诊断报告的生成方法、模型训练方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7279015B2 (ja) | マンモグラフィにおける密度の評価 | |
CN109543719B (zh) | 基于多模态注意力模型的宫颈非典型病变诊断模型和装置 | |
CN116664929A (zh) | 一种基于多模态信息融合的喉镜图像多属性分类方法 | |
CN109544526B (zh) | 一种慢性萎缩性胃炎图像识别系统、装置和方法 | |
CN110600122A (zh) | 一种消化道影像的处理方法、装置、以及医疗系统 | |
US11893659B2 (en) | Domain adaption | |
Yue et al. | Automated endoscopic image classification via deep neural network with class imbalance loss | |
CN115115897B (zh) | 多模态预训练的胃部肿瘤分类系统 | |
CN116188436A (zh) | 基于局部特征和全局特征融合的膀胱镜图像分类方法 | |
CN116759068A (zh) | 针对消化系统的医学视觉问答方法及系统 | |
CN116740435A (zh) | 基于多模态深度学习影像组学的乳腺癌超声图像分类方法 | |
CN115965630A (zh) | 一种基于内窥镜图像的深度融合的肠息肉分割方法及装置 | |
Yousef et al. | Detection of vocal fold image obstructions in high-speed videoendoscopy during connected speech in adductor spasmodic dysphonia: A convolutional neural networks approach | |
Tsung et al. | Recognizing edge-based diseases of vocal cords by using convolutional neural networks | |
CN113011514B (zh) | 基于双线性池化应用于ct影像的颅内出血亚类型分类算法 | |
CN117322865B (zh) | 基于深度学习的颞下颌关节盘移位mri检查诊断系统 | |
CN117524402A (zh) | 关于内镜影像分析并自动生成诊断报告的方法 | |
CN115171889B (zh) | 一种小样本胃部肿瘤诊断系统 | |
CN117350979A (zh) | 一种基于医疗超声影像的任意病灶分割和追踪系统 | |
JP6710853B2 (ja) | プローブ型共焦点レーザー顕微内視鏡画像診断支援装置 | |
CN116245828A (zh) | 一种融合医学领域知识的胸部x线质量评价方法 | |
CN111798427B (zh) | 基于迁移学习的胃肠道间质瘤中核分裂象检测系统 | |
US11998318B2 (en) | System and method of using visually-descriptive words to diagnose ear pathology | |
CN115240847B (zh) | 一种胃溃疡诊断装置、设备及存储介质 | |
CN113222061B (zh) | 一种基于双路小样本学习的mri图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |