CN117316369A - 平衡跨模态信息的胸部影像诊断报告自动生成方法 - Google Patents
平衡跨模态信息的胸部影像诊断报告自动生成方法 Download PDFInfo
- Publication number
- CN117316369A CN117316369A CN202311070565.2A CN202311070565A CN117316369A CN 117316369 A CN117316369 A CN 117316369A CN 202311070565 A CN202311070565 A CN 202311070565A CN 117316369 A CN117316369 A CN 117316369A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- chest
- information
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000003745 diagnosis Methods 0.000 title claims abstract description 10
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims description 29
- 238000011976 chest X-ray Methods 0.000 claims description 21
- 210000002569 neuron Anatomy 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 3
- 230000000946 synaptic effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 6
- 238000012795 verification Methods 0.000 abstract description 2
- 238000011156 evaluation Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000002411 adverse Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010835 comparative analysis Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000010304 firing Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 208000010392 Bone Fractures Diseases 0.000 description 1
- 206010017076 Fracture Diseases 0.000 description 1
- 208000032376 Lung infection Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 208000010643 digestive system disease Diseases 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 208000019622 heart disease Diseases 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000002601 radiography Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 210000000857 visual cortex Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/40—ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供平衡跨模态信息的胸部影像诊断报告自动生成方法,涉及医疗信息领域。该网络通过优化编码器‑解码器框架,充分考虑了图像和文本之间的联系,在编码时,该网络的侧重点在图像特征处理,通过DFC‑MSPCNN和多感受野残差网络病灶区域信息提取模块对X射线影像区域进行多维特征提取;在解码时,该网络的侧重点在医学报告生成,通过图像文本对齐模块CMITAM寻找图像和文本之间的中间态,并将此中间态引入基于Transformer解码层的报告生成模块,在IUX‑Ray和MIMIC‑CXR基准数据集上进行其有效性验证,结果表明,本文方法在平衡胸部影像与文本信息方面有出色的表现,能够自动生成可靠的胸部X射线影像诊断报告。
Description
技术领域
本发明涉及医疗信息领域,尤其涉及平衡跨模态信息的胸部影像诊断报告自动生成方法。
背景技术
X射线广泛用于骨折、肺部感染、肿瘤、心脏病和消化系统等疾病的检测和诊断。胸部影像诊断报告通常包括影像学所见、诊断意见和建议等部分,是对胸部影像检查结果的专业解读和总结,为临床医生提供关于患者胸部状况的详细的有价值信息。
胸部影像诊断报告自动生成的公认难题是:X射线影像特征难以提取;X射线影像难以与对应医学报告进行匹配;生成的医学报告存在大量复杂词汇等。靠医生使用传统方法整理形成胸部影像诊断报告,存在书写信息负载高、掺杂主观性因素不可避免、影像与文本信息关联匹配度不高等问题。近年来深度学习技术广泛应用,在目前机器学习尚不能实现多器官成像报告自动生成的情况下,一些学者提出了基于深度学习的医学影像报告自动生成方法,并在实际应用中取得了一定的成功,证明深度学习是一种有效的工具,但其在平衡图像特征或文本特征信息方面还存在不足。现有的研究对图像信息和文本信息之间的注释对应关系还解释得不够清楚,尚缺乏能够有效学习这种对应关系的适配模型设计。这导致生成的医学报告可能缺乏跨模态信息融合的可解释性和可描述性,影响到生成报告的可靠性。
本发明提出了一种平衡图像和文字信息的医学报告自动生成网络,与现有方法不同,该网络通过优化编码器-解码器框架,充分考虑了图像和文本之间的联系。在编码时,该网络的侧重点在图像特征处理,通过DFC-MSPCNN和多感受野残差网络病灶区域信息提取模块对X射线影像区域进行多维特征提取;在解码时,该网络的侧重点在医学报告生成,通过图像文本对齐模块CMITAM寻找图像和文本之间的中间态,并将此中间态引入基于Transformer解码层的报告生成模块,在IUX-Ray和MIMIC-CXR基准数据集上进行其有效性验证。实验结果表明,本文方法在平衡胸部影像与文本信息方面有出色的表现,能够自动生成可靠的胸部X射线影像诊断报告。
发明内容
为了解决上述技术问题,本发明提出了平衡跨模态信息的胸部影像诊断报告自动生成方法,网络模型主体包括DFC-MSPCNN模型、Resnet-152的多尺度残差网络、CMITAM跨模态图像文本对齐模块和Transformer模块的跨模态神经网络,并通过跨模态记忆网络,增强胸部X射线影像和对应医学报告的联系,
其中,DFC-MSPCNN模型公式为:
Eij[n]=e-αEij[n-1]+Q(B+V)Yij[n] (3)
其中,突触权重矩阵Wijkl代表中心神经元与相邻神经元相互作用的结果,采用一种新的权重矩阵设置方法,控制邻域神经元对中心神经元的影响力,新的权重矩阵Wijkl如下式所示:
在公式(1)-公式(3)中,Uij[n]是内部活动结果,Eij[n]是动态阈值。
进一步地,所述Resnet-152的多尺度残差网络增加了一个最大池化层和一个平均池化层,并与DFC-MSPCNN提取到的特征进行融合,最后结合自注意力机制实现完整的胸部X射线影像特征提取。
进一步地,具体步骤如下:
S1:使用DFC-MSPCNN模型对图像的边缘特征进行提取,然后使用基于Resnet-152的多尺度残差网络对医学X射线影像进行多通道特征提取;
S2:基于CMN对原有Transformer的注意力层进行改进,生成Transformer模块的跨模态图像文本对齐模块;
S3:CMITAM跨模态图像文本对齐模块使用知识图谱矩阵存储中间态信息,通过存储中间态信息捕捉图像和文本之间的关联性;
S4:该知识网络在训练过程中记录了图像和文本特征的对应关系,将它们进行编码并存储在共享内存中;
S5:最后,通过解码器对处理后的中间态信息进行解码,实现医学报告自动生成。
采用上述技术方案所产生的有益效果在于:
(1)在编码时,侧重图像特征处理,通过DFC-MSPCNN和Restnet-152信息提取模块对X射线影像区域进行多维特征提取;
(2)在解码时,侧重医学报告生成,通过图像文本对齐模块CMITAM,寻找图像和文本之间的中间态,捕捉其中的相关性。
附图说明
图1为本发明的平衡图像和文字信息的医学报告自动生成网络主体框架示意图;
图2为本发明的DFC-MSPCNN模型结构示意图;
图3为本发明的胸部X射线影像特征提取网络示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于
说明本发明,但不用来限制本发明的范围。
①网络模型主体框架
平衡图像和文字信息的医学报告自动生成网络主体框架示意图如图1所示。
②基于DFC-MSPCNN和Resnet-152的特征提取网络
Eckhorn于20世纪90年代初提出PCNN基础模型,作为一种受视觉皮层启发的第三代人工神经网络,PCNN具备生物合理性和生物可解释性,具有脉冲调制和耦合链接特性。本发明简化Lian等人提出的(FC-MSPCNN算法,结合胸部X射线影像特征提取任务,提出了DFC-MSPCNN算法,用于病灶区域信息提取,DFC-MSPCNN模型结构示意图如图2所示。其计算公式如下:
Eij[n]=e-αEij[n-1]+Q(B+V)Yij[n] (3)
其中,突触权重矩阵Wijkl代表中心神经元与相邻神经元相互作用的结果,采用一种新的权重矩阵设置方法,控制邻域神经元对中心神经元的影响力,新的权重矩阵Wijkl如下式所示:
在公式(1)-公式(3)中,Uij[n]是内部活动结果,Eij[n]是动态阈值,当Uij[n]>Eij[n]时,神经元点火,生成本文所需的胸部X射线影像边缘特征;当Uij[n]<Eij[n]时,神经元无脉冲生成。DFC-MSPCNN移除了传统PCNN模型中的链接强度β参数,因为新模型能够通过合理设置参数Wijkl的值,实现领域神经元对中心神经元的影响。为了保证动态阈值和内部活动项的设定值更加合理,动态阈值中的幅度参数V被进一步简化,设定为e-2α。参数B表示微调参数,可对动态阈值进行微调,被设置为1。参数Q表示乘积参数,可进一步调整动态阈值,被设定为整幅图像的大津阈值S'。本模型中参数α采用FC-MSPCNN模型的设置方法,本模型中的衰减因子α表达式:
在公式(5)中,P表示预设迭代次数,为一个有效点火周期神经元总的迭代次数。Smin表示整幅待处理图像最小像素灰度值。
此外,本发明基于Resnet-152网络增加了一个最大池化层和一个平均池化层,并与DFC-MSPCNN提取到的特征进行融合,最后结合自注意力机制实现完整的胸部X射线影像特征提取。
在网络训练过程中,原始输入图像采用卷积操作来增加其维度,通过最大池化层和平均池化层计算得到特征矩阵C1和C2,然后将原始输入信息部分映射到自注意力网络层,胸部X射线影像特征提取网络示意图如图3所示,其影像特征公式表达式如下:
在公式(6)-公式(8)中,C1和C2分别表示经过平均池化和最大池化的残差网络提取到的结构特征,σ表示Sigmoid函数,f表示进行卷积核为7的卷积操作,
c被视为通过特征标记μ(c)进行卷积操作得到的中间状态,n表示残差神经网络层的数量,总的Resnet层数为152,Avg和Max分别表示平均池化和最大池化,C表示原始状态下的可训练图像特征矩阵,C'表示自注意力特征矩阵,它将DFC-MSPCNN提取到的边缘特征与C1和C2进行融合。
在自注意力特征提取过程中,特征矩阵C'被引入DFC-MSPCNN和自注意力模块进行强化训练,生成最终的特征矩阵C”。自注意力机制模块可以更好地融合多分支特征信息,加快任务收敛速度,防止梯度消散,并增强Resnet-152对胸部X射线影像的特征提取能力。通过改进胸部X射线影像的多尺度特征提取能力,最终特征矩阵C”减少了原始图像信息在空间层次上的丢失以及扩张卷积过程中重复出现不重要信息的不利影响。
③CMITAM模块
本发明提出的图像文本对齐模块CMITAM如图1所示,是基于跨模态网络和注意力机制研发的。M(t-1)为前一状态的知识图谱矩阵,CMITAM负责使用多头注意力机制将拼接学习到的跨模态知识嵌入到知识图谱矩阵中。在设计网络模型时,本发明参考了Transformer的门单元网络架构,输入Q为上一状态的知识图谱矩阵,评估信息K和V分别表示通过病灶区域信息提取模块和分词器学习到的图像特征和文本信息。知识图谱矩阵M(t)具有两个主要作用:信息存储和信息输出。它通过组合网络的每一层来存储信息,并将每一层的信息权重进行排序以获得最优解。在CMITAM的训练过程中,插入如此多的参数可能会产生不利影响,比如信息混乱。因此,本发明提出了选择性遗忘门网络输出新的状态矩阵信息M(t),如图1所示,选择性遗忘门如式(9)所示:
M(t)=Gt[Sigmoid(Wf(M(t-1),y(t))+bf)] (9)
其中Wf是用于控制输出结果的权重矩阵。本发明将M(t-1)和y(t)连接成一个连接矩阵,并和Wf进行矩阵乘法运算,再加上偏置bf,使用Sigmoid函数将这个值映射到范围[0,1]。参考长短期记忆网络(Long Short-term Memory,LSTM)的门结构,本发明提出了选择性遗忘门Gt,选择性遗忘门通过矩阵运算获得当前状态的权重分数,如果输出值小于或等于0.15,则丢弃相应的信息,而如果结果大于或等于0.55,则保留相应的信息,最终生成存储胸部X射线影像和对应医学报告的中间态知识图谱矩阵。
在解码部分,本发明使用基于Transformer的解码器来实现胸部X射线影像报告自动生成任务(如图1所示)。首先,将编码器的最终语义表示作为解码器的初始隐藏状态,并引入一个起始标记作为解码器的第一个输入;然后,结合CMITAM提取到的中间态特征逐步生成每个词语,每次生成一个词语时,将其作为下一时刻的输入,并更新隐藏状态,以提高解码器的生成准确性;最后,采用注意力机制来完成报告自动生成,注意力机制允许解码器在生成每个词语时对知识图谱矩阵M(t)的不同部分进行加权关注,以便更好地捕捉关联的语义信息。
本发明的实验图像:
1.是来自印第安纳大学公开X射线影像检查报告及影像集(IUX-RAY),最终选择了3956份报告和7472幅图像。
2.是来自医学信息智能化重症监护胸部X射线(Medical Information Mart forIntensive Care-Chest X-Ray,MIMIC-CXR)数据集,其为麻省理工学院计算生理实验室建立的大型样本数据库,本团队已获得该数据集的使用权限,最终选择206563份报告和473057图像作为模型训练数据的主要来源。
引入双语评估替补(Bilingual Evaluation Understudy,BLEU)值作为报告自动生成效果的客观评价指标。包括BLEU-1到BLEU-4,ROUGE-L和METEOR得分,BLEU是2002年由科学家Kishore papineni在其论文中提出的,它的取值范围为0≤BLEU≤1,越接近1,表明翻译质量越好。
本发明将提出的CMITAM方法在IUX-RAY和MIMIC-CXR数据集上与其他五种先进方法进行比较,它们分别是先验和后验知识增强描述生成(Prior and Posterior KnowledgeEnhanced Description Generation,PPKED)、跨模态记忆网络(Cross-modal MemoryNetwork,CMN)、包容性任务感知框架(Inclusive Task-Aware framework,ITA)、基于视觉生成的预训练Transformer(Visual Generative Pre-trainedTransformer,VisualGPT)和区域指导报告生成(Region-Guided Report Generation,RGRG),这五种方法均为基于Transformer的医学报告自动生成方法。对比评价结果如下:
表1各类实验方法指标评价结果
表2胸部X射线影像各部分提取LOU值
表1对比评价指标显示:与PPKED、CMN和ITA相比,本发明方法在两个数据集上显示出明显的优势;与VisualGPT相比,虽然其引入GPT预训练模型增强了模型的学习能力,在某些评价指标上占优,但在生成结果时可能存在错误匹配的问题,而本发明方法则使用知识图谱矩阵实现了对存储图像和报告中间态信息的有效提取;与RGRG相比,本发明方法与其在两个数据集上BLEU-1和ROUGE-L结果相似,RGRG方法采用区域导向的方式生成报告,本发明方法则使用DFC-MSPCNN和多感受野残差网络的病灶区域信息提取模块来辅助报告生成,侧重点有所不同。
综上所述,本发明方法在IUX-RAY和MIMIC-CXR数据集上表现出语言指标评价的综合优势。
表3给出了本发明CMITAM与VisualGPT、RGRG所生成报告的词组匹配直观对比结果,可以看出,本发明提出的CMITAM方法无论是形容词还是专业性名词的生成都达到了最好的效果,VisualGPT存在多处错误理解和关键名词生成错误,这可能是由于网络参数过多导致梯度难以回归,本发明在网络中使用选择性遗忘门来避免这一问题的发生。与RGRG相比,CMITAM生成内容与之相似,但是在个别名词的理解上还是CMITAM占有优势,这可能是因为RGRG和CMITAM的出发点都是以影像局部特征处理为出发点,RGRG之所以出现多处错误判断,主要原因在于其未能准确平衡X射线影像对应的医学文本特征,而本发明提出的CMITAM能够更好地处理胸部X射线影像和对应医学报告的中间态信息,从而构建更有利于模型收敛的网络通道。
值得一提的是,CMITAM模型能够预测和理解原文中的伪输入内容,并且预测结果与实际结果一致,证明了本发明模型处理医学报告的鲁棒性和有效性。
表3:本发明方法与其他方法进行直观对比结果
本发明提出的医学报告自动生成网络包括DFC-MSPCNN、Resnet-II、CMITAM和Transformer的解码器,机器学习算法使用MATLAB平台实现,深度学习实验平台为PyTorch1.9.1,编程语言为Python 3.6.13,中央处理器型号为i9-10 920x@3.5GHz,独立显卡为NVIDIA旗下的RTX4090Ti 24GB。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明,本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案,例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (3)
1.平衡跨模态信息的胸部影像诊断报告自动生成方法,其特征在于,网络模型主体包括DFC-MSPCNN模型、Resnet-152的多尺度残差网络、CMITAM跨模态图像文本对齐模块和Transformer模块的跨模态神经网络,并通过跨模态记忆网络,增强胸部X射线影像和对应医学报告的联系,
其中,DFC-MSPCNN模型公式为:
Eij[n]=e-αEij[n-1]+Q(B+V)Yij[n] (3)
其中,突触权重矩阵Wijkl代表中心神经元与相邻神经元相互作用的结果,采用一种新的权重矩阵设置方法,控制邻域神经元对中心神经元的影响力,新的权重矩阵Wijkl如下式所示:
在公式(1)-公式(3)中,Uij[n]是内部活动结果,Eij[n]是动态阈值。
2.根据权利要求1所述的平衡跨模态信息的胸部影像诊断报告自动生成方法,其特征在于,所述Resnet-152的多尺度残差网络增加了一个最大池化层和一个平均池化层,并与DFC-MSPCNN提取到的特征进行融合,最后结合自注意力机制实现完整的胸部X射线影像特征提取。
3.根据权利要求1至2所述的平衡跨模态信息的胸部影像诊断报告自动生成方法,其特征在于,具体步骤如下:
S1:使用DFC-MSPCNN模型对图像的边缘特征进行提取,然后使用基于Resnet-152的多尺度残差网络对医学X射线影像进行多通道特征提取;
S2:基于CMN对原有Transformer的注意力层进行改进,生成Transformer模块的跨模态图像文本对齐模块;
S3:CMITAM跨模态图像文本对齐模块使用知识图谱矩阵存储中间态信息,通过存储中间态信息捕捉图像和文本之间的关联性;
S4:该知识网络在训练过程中记录了图像和文本特征的对应关系,将它们进行编码并存储在共享内存中;
S5:最后,通过解码器对处理后的中间态信息进行解码,实现医学报告自动生成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311070565.2A CN117316369B (zh) | 2023-08-24 | 2023-08-24 | 平衡跨模态信息的胸部影像诊断报告自动生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311070565.2A CN117316369B (zh) | 2023-08-24 | 2023-08-24 | 平衡跨模态信息的胸部影像诊断报告自动生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117316369A true CN117316369A (zh) | 2023-12-29 |
CN117316369B CN117316369B (zh) | 2024-05-07 |
Family
ID=89259281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311070565.2A Active CN117316369B (zh) | 2023-08-24 | 2023-08-24 | 平衡跨模态信息的胸部影像诊断报告自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117316369B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117542538A (zh) * | 2024-01-10 | 2024-02-09 | 中国科学技术大学 | 一种基于强化学习的医疗多模态内容分析及生成方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020143137A1 (zh) * | 2019-01-07 | 2020-07-16 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
CN115132313A (zh) * | 2021-12-07 | 2022-09-30 | 北京工商大学 | 基于注意力机制的医学影像报告自动生成方法 |
CN115171838A (zh) * | 2022-08-24 | 2022-10-11 | 中南大学 | 基于跨模态融合的医学报告生成模型的训练方法 |
CN115205880A (zh) * | 2022-07-29 | 2022-10-18 | 中国医学科学院医学信息研究所 | 一种医学影像报告生成方法及装置 |
CN115223678A (zh) * | 2022-07-27 | 2022-10-21 | 重庆师范大学 | 基于多任务多模态深度学习的x光胸片诊断报告生成方法 |
CN115374815A (zh) * | 2022-08-12 | 2022-11-22 | 武汉大学 | 一种基于视觉Transformer的自动睡眠分期方法 |
CN115394397A (zh) * | 2022-05-20 | 2022-11-25 | 北京工业大学 | 一种基于跨模态对比注意力的医学报告自动生成方法 |
CN115472255A (zh) * | 2022-08-31 | 2022-12-13 | 昆明理工大学 | 一种基于病史与标签辅助的胸部放射影像报告生成方法 |
-
2023
- 2023-08-24 CN CN202311070565.2A patent/CN117316369B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020143137A1 (zh) * | 2019-01-07 | 2020-07-16 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
CN115132313A (zh) * | 2021-12-07 | 2022-09-30 | 北京工商大学 | 基于注意力机制的医学影像报告自动生成方法 |
CN115394397A (zh) * | 2022-05-20 | 2022-11-25 | 北京工业大学 | 一种基于跨模态对比注意力的医学报告自动生成方法 |
CN115223678A (zh) * | 2022-07-27 | 2022-10-21 | 重庆师范大学 | 基于多任务多模态深度学习的x光胸片诊断报告生成方法 |
CN115205880A (zh) * | 2022-07-29 | 2022-10-18 | 中国医学科学院医学信息研究所 | 一种医学影像报告生成方法及装置 |
CN115374815A (zh) * | 2022-08-12 | 2022-11-22 | 武汉大学 | 一种基于视觉Transformer的自动睡眠分期方法 |
CN115171838A (zh) * | 2022-08-24 | 2022-10-11 | 中南大学 | 基于跨模态融合的医学报告生成模型的训练方法 |
CN115472255A (zh) * | 2022-08-31 | 2022-12-13 | 昆明理工大学 | 一种基于病史与标签辅助的胸部放射影像报告生成方法 |
Non-Patent Citations (1)
Title |
---|
尤诚诚;冯旭鹏;刘利军;黄青松;: "基于主题模型的胸部X光片诊断报告异常检测方法", 计算机工程与科学, no. 04, 15 April 2020 (2020-04-15) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117542538A (zh) * | 2024-01-10 | 2024-02-09 | 中国科学技术大学 | 一种基于强化学习的医疗多模态内容分析及生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117316369B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shin et al. | Learning to read chest x-rays: Recurrent neural cascade model for automated image annotation | |
US20190139642A1 (en) | System and methods for medical image analysis and reporting | |
AU2020100604A4 (en) | Expert report editor | |
CN107193919A (zh) | 一种电子病历的检索方法及系统 | |
Zhou et al. | Employing Inception-Resnet-v2 and Bi-LSTM for Medical Domain Visual Question Answering. | |
CN112614561A (zh) | 一种基于层级自注意力序列编码的脑ct医学报告生成方法 | |
CN111651991B (zh) | 一种利用多模型融合策略的医疗命名实体识别方法 | |
CN110120055B (zh) | 基于深度学习的眼底荧光造影图像无灌注区自动分割方法 | |
WO2023160264A1 (zh) | 医疗数据处理方法、装置及存储介质 | |
CN117316369B (zh) | 平衡跨模态信息的胸部影像诊断报告自动生成方法 | |
CN111430025B (zh) | 一种基于医疗影像数据扩增的疾病诊断模型训练方法 | |
Li et al. | Vispi: Automatic visual perception and interpretation of chest x-rays | |
CN113012163A (zh) | 一种基于多尺度注意力网络的视网膜血管分割方法、设备及存储介质 | |
Ambati et al. | A sequence-to-sequence model approach for imageclef 2018 medical domain visual question answering | |
CN114220516A (zh) | 一种基于层级循环神经网络解码的脑ct医学报告生成方法 | |
Xiao et al. | Exploration of Attention Mechanism-Enhanced Deep Learning Models in the Mining of Medical Textual Data | |
Huang et al. | Enhancing representation in radiography-reports foundation model: A granular alignment algorithm using masked contrastive learning | |
CN118136239A (zh) | 基于多模态对比学习的胸部医学影像多标签智能诊断算法 | |
Liao et al. | Medical data inquiry using a question answering model | |
CN117194604B (zh) | 一种智慧医疗病患问诊语料库构建方法 | |
Shaik et al. | Gated contextual transformer network for multi-modal retinal image clinical description generation | |
CN115862837A (zh) | 一种基于类型推理与语义约束的医学视觉问答方法 | |
CN116913459A (zh) | 基于深度卷积网络控制门模型的用药推荐方法及系统 | |
CN116934777A (zh) | 一种不确定性引导的视网膜血管图像分割方法及系统 | |
CN115588486A (zh) | 一种基于Transformer的中医诊断生成装置及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |