CN116779091B - 一种多模态网络互联融合的胸部影像诊断报告自动生成方法 - Google Patents
一种多模态网络互联融合的胸部影像诊断报告自动生成方法 Download PDFInfo
- Publication number
- CN116779091B CN116779091B CN202310710730.XA CN202310710730A CN116779091B CN 116779091 B CN116779091 B CN 116779091B CN 202310710730 A CN202310710730 A CN 202310710730A CN 116779091 B CN116779091 B CN 116779091B
- Authority
- CN
- China
- Prior art keywords
- image
- matrix
- information
- fusion
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000004927 fusion Effects 0.000 title claims abstract description 28
- 238000003745 diagnosis Methods 0.000 title claims abstract description 11
- 230000015654 memory Effects 0.000 claims abstract description 49
- 230000007246 mechanism Effects 0.000 claims abstract description 27
- 239000011159 matrix material Substances 0.000 claims description 101
- 238000011156 evaluation Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 210000000056 organ Anatomy 0.000 claims description 5
- 239000012528 membrane Substances 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 210000000038 chest Anatomy 0.000 claims 8
- 210000000115 thoracic cavity Anatomy 0.000 claims 3
- 210000000481 breast Anatomy 0.000 claims 1
- 238000013461 design Methods 0.000 claims 1
- 230000003993 interaction Effects 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 description 13
- 230000000007 visual effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/40—ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10081—Computed x-ray tomography [CT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30096—Tumor; Lesion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Radiology & Medical Imaging (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Quality & Reliability (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供了一种多模态网络互联融合的胸部影像诊断报告自动生成方法,涉及医疗信息领域。本发明提出了一种基于残差网络(Resnet)、注意力机制(Transformer)模块的网络、跨模态强化记忆网络(DCTMN)的多模态网络互联融合医学报告自动生成方法,关照和融通上述两个发力点,促进跨模态(医学影像和对应报告文本)信息的交互与匹配,自动生成图像与文本信息有效融合的医学影像诊断报告。
Description
技术领域
本发明涉及医疗信息领域,尤其涉及一种多模态网络互联融合的胸部影像诊断报告自动生成方法。
背景技术
近年来,医疗技术不断进步,其在医学影像诊断中的应用越来越广泛,由此产生了大量的医学影像数据。由于医学影像数据的复杂性和多样性,传统人工操作方式整理形成胸部影像诊断报告,存在书写信息负载高、医生重复劳动强度大等问题。因此,计算机自动生成医学影像报告的研究备受关注。
医学影像报告自动生成技术旨在提高医学数据处理的效率和准确性。使用自然语言处理技术和深度学习算法,可对医学影像数据进行训练和意义关联,形成易于理解和使用的基于自然语言文本的医学影像报告。医师根据该类报告科学制定治疗方案。
目前,有关医学报告自动生成的研究取得了一定进展,流行的方法主要有基于传统网络规则的方法和基于深度学习的方法。基于规则的方法依赖于专家知识和规则库,通过匹配和组合规则来生成报告。这种方法的优点是可解释性强,但需要人工编写规则,且难以适应新数据。相比之下,基于无监督的深度学习方法能通过网络训练自动从数据中学习报告生成的规律,具有更好的泛化能力。
基于深度学习的医学报告自动生成有两个切入点,即以图像处理为切入点和以自然语言处理为切入点。存在的问题是:以图像处理为切入点生成报告,模型很难完全理解领会图像的复杂信息,生成的报告缺乏语言表达的灵活性。以自然语言处理为切入点,生成报告的模型是基于预定义的模板,生成的报告同样缺乏灵活性,难以适应不同的应用场景。为了解决上述问题,本发明提出了一种基于残差网络(Resnet)、注意力机制(Transformer)模块的网络、跨模态强化记忆网络(DCTMN)的多模态网络互联融合医学报告自动生成方法,关照和融通上述两个发力点,促进跨模态(医学影像和对应报告文本)信息的交互与匹配,自动生成图像与文本信息有效融合的医学影像诊断报告。
发明内容
针对现有技术不足,本发明提供一种多模态网络互联融合的胸部影像诊断报告自动生成方法,包括以下步骤:
S1:双通道残差网络ResnetII特征提取,
a.对输入图像进行对比度增强、图像尺寸变换、图像像素块调整,得到预处理图像;
b.对预处理图像通过卷积神经网络CNN将图像转化为图像特征矩阵,并将该矩阵所有数据拉长为一列,得到胸部CT图像可训练图像特征矩阵C,之后代入ResnetII,提取与胸部器官关联度高的特征信息,得到最终胸部特征矩阵C”。
S2:跨模态记忆矩阵文本图像关系强化,
a.将胸部特征矩阵C”、文本信息矩阵和前状态跨膜态记忆矩阵M(t-1)代入跨膜态强化记忆网络DCTMN,通过网络拼接和多头注意力运算,得到融合特征记忆矩阵。
b.将融合特征记忆矩阵代入选择性遗忘门,并将输出结果与胸部特征矩阵、文本信息矩阵计算求和,并代入更新门,得到可表示图像和文字特征的跨膜态记忆矩阵M(t)。
S3:双通道解码器实现医学影像报告自动生成。
a.将ResnetII提取的胸部特征矩阵C”代入编码器和多头注意力机制网络,并将该输出结果与文本信息矩阵、可表示图像和文字特征的跨膜态记忆矩阵M(t)共同输入双通道解码器Decoder,得到正确的医学影像报告。
进一步地,ResnetII中包含152层残差网络,其底层模块由12个不同维度卷积构成。
进一步地,DCTMN是基于注意力机制研发而成的;
其中,胸部特征矩阵C”表示ResnetII网络提取特征得到的图像特征矩阵,文本信息矩阵表示医学报告通过分词器编码步骤得到的可训练文本信息特征矩阵,前状态机跨膜态记忆矩阵M(t-1)表示前一个状态图像信息和文本信息的关联度。
进一步地,在设计DCTMN时还改进了Transformer多头注意力机制,将主体输入Q、评价信息K和V代入多头注意力机制,其计算表达式如下:
Z=∑Attention(Q,K,V) (8)
式中,Attention(Q,K,V)表示单头注意力机制的计算结果,dk表示缩放系数,Z表示多头注意力机制的计算结果,之后把每一层的信息权重进行叠加求和,得到融合特征记忆矩阵。
进一步地,S2-b中的选择性遗忘门具体操作为将DCTMN模块提取的融合特征记忆矩阵代入判别器,通过提前对照设定好的评价指标进行多尺度模型判别,其表达式如下:
Gt(f)=Sigmoid(Wf(M(t-1),yei (t-1))+bf) (9)
Gt(i)=Sigmoid(Wi(M(t-1),yei (t-1))+bi) (10)
其中,Wf和Wi分别表示控制有用信息和无用信息的权重矩阵,yei (t-1)表示t-1时刻的遗忘门,Gt(f)和Gt(i)分别表示存储有用信息的记忆矩阵和存储无用信息的记忆矩阵,bf和bi分别表示Gt(f)和Gt(i)对应的偏置。
生成的结果输入更新门中,更新门将对输入的值进行评估并执行如下操作:
M(t)=Gt(f)+Tanh(Gt(i)+bc) (11)
式中,上文中提到的参数bf、bi、bc是公式(9)、公式(10)和公式(11)对应的偏置,M(t)是可表示图像和文字特征的跨膜态记忆矩阵。
采用上述技术方案所产生的有益效果在于:
(1)在残差网络的基础上提出的多感受野残差网络病灶区域信息提取方法,该方法提高了网络模型对医学CT影像的特征提取能力。
(2)以注意力网络为基础提出的能明显增强CT影像和医学报告关联性的跨膜态记忆矩阵M(t),,以及可将不重要特征信息遗忘、将重要特征信息更新的选择性遗忘门网络模型。
(3)在生成医学报告时提出的具有较强处理图像文本信息能力的双通道Decoder模块。
附图说明
图1为本发明的主体网络模型框架实现步骤示意图;
图2为本发明的ResnetII网络架构示意图;
图3为本发明的选择性遗忘模块示意图;
图4为本发明的双通道Decoder模型对比图;
图5为本发明的对比试验结果示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于
说明本发明,但不用来限制本发明的范围。
图1为本发明主体网络模型框架实现步骤示意图,包括双通道残差网络(ResnetII)特征提取、跨模态记忆矩阵文本图像关系强化、双通道解码器实现医学影像报告自动生成。其具体实现步骤如下:
ResnetII特征提取实现步骤如下:
①对输入图像进行对比度增强、图像尺寸变换、图像像素块调整,得到预处理图像;
②对预处理图像通过卷积神经网络(CNN)将图像转化为图像特征矩阵,并将该矩阵所有数据拉长为一列,得到胸部CT图像可训练图像特征矩阵C,之后代入ResnetII,提取与胸部器官关联度高的特征信息,得到最终胸部特征矩阵C”。该残差网络既可以学习原始图像的胸部器官特征,又可以学习卷积提取后的胸部器官特征,避免了信息传递过程中出现的梯度消失和梯度爆炸问题,其中,ResnetII网络架构示意图如图2所示。
在图2中,Resnet-152表示152层残差网络,其底层模块由12个不同维度卷积(1×1和3×3为卷积核,64、128、256、512、1024、2048为网络层数)构成,
为确保编码器更好地学习胸部CT影像特征,加入双通道模块网络架构,内分最大池化(Maxpool)层和平均池化(AvgPool)层,并加入自注意力机制,增强Maxpool和AvgPool提取影像特征的效果。
训练ResnetII网络共包括2个步骤:双通道模块特征提取和自注意力机制模块特征提取。在双通道模块特征提取过程中,先对胸部CT图像可训练图像特征矩阵C进行卷积运算并增加维数,之后分别通过Maxpool和Avgpool将图像送入Resnet 152的膨胀卷积层得到Resnet网络输出结果(膨胀速率为2,卷积核大小为7×7),再将该输出结果分别通过Maxpool和Avgpool进行双通道残差运算,并与原始输入信息进行相加求和运算,得到Resnet网络第一次处理后的特征矩阵C'。双通道模块特征提取增强了模型对胸部CT影像细节的多尺度提取能力,同时减少了单一使用膨胀卷积运算导致的原始图像空间层次信息丢失和不重要信息重复提取等负面影响。
如图2所示,每一步得到的特征矩阵c通过卷积运算学习得到的特征标记为H(c),预期学习到的残差特征标记为F(c)=H(c)-c,原始信息的特征标记为F(c)+c。
在自注意力机制模块特征提取过程中,将ResnetII网络第一次处理后的特征矩阵C'代入自注意力模块进行特征强化训练,生成最终胸部特征矩阵C”。自注意力机制模块特征提取能更好地融合多分支特征信息,加快任务收敛速度,防止梯度分散,提高ResnetII对胸部CT影像的特征提取能力。
跨模态记忆矩阵文本图像关系强化实现步骤如下:
①将胸部特征矩阵C”(在图1中用绿色矩形框表示)、文本信息矩阵(在图1中用蓝色矩形框表示)和前状态跨膜态记忆矩阵M(t-1)代入DCTMN(在图1中用红色矩形框表示),通过网络拼接和多头注意力运算,得到融合特征记忆矩阵。
在图1中,本发明提出的DCTMN是基于注意力机制研发而成的。其中,胸部特征矩阵C”表示ResnetII网络提取特征得到的图像特征矩阵,文本信息矩阵表示医学报告通过分词器编码步骤得到的可训练文本信息特征矩阵,前状态机跨膜态记忆矩阵M(t-1)表示前一个状态图像信息和文本信息的关联度。本发明在设计DCTMN时还改进了Transformer多头注意力机制,将主体输入Q、评价信息K和V代入多头注意力机制,其计算表达式如下:
Z=∑Attention(Q,K,V) (8)
式中,Attention(Q,K,V)表示单头注意力机制的计算结果,dk表示缩放系数,Z表示多头注意力机制的计算结果。之后把每一层的信息权重进行叠加求和,得到融合特征记忆矩阵。
②将融合特征记忆矩阵代入选择性遗忘门,并将输出结果与胸部特征矩阵、文本信息矩阵计算求和,并代入更新门,得到可表示图像和文字特征的跨膜态记忆矩阵M(t)。
为了解决DCTMN模块提取重要信息较为困难等问题,受长短期记忆网络(LSTM)门控单元的启发,基于LSTM的遗忘门、更新门和输出门,设计了一个选择性遗忘门模块,它能将多头注意力机制提取到的信息进行筛选,删除不重要的信息,并将重要信息进行权重分配。选择性遗忘门模块示意图如下:
如图3所示,α和β分别表示有用信息和无用信息。将DCTMN模块提取的融合特征记忆矩阵代入判别器,通过提前对照设定好的评价指标进行多尺度模型判别,主要的操作如下:
Gt(f)=Sigmoid(Wf(M(t-1),yei (t-1))+bf) (9)
Gt(i)=Sigmoid(Wi(M(t-1),yei (t-1))+bi) (10)
其中,Wf和Wi分别表示控制有用信息和无用信息的权重矩阵,yei (t-1)表示t-1时刻的遗忘门,Gt(f)和Gt(i)分别表示存储有用信息的记忆矩阵和存储无用信息的记忆矩阵,bf和bi分别表示Gt(f)和Gt(i)对应的偏置。以Gt(f)为例,将前状态跨膜态记忆矩阵M(t-1)和t-1时刻的遗忘门yei (t-1)连接起来,并用Wf去乘连接后的矩阵,然后再加上一个偏置bf防止梯度消失,最后通过Sigmoid函数将得到的概率矩阵映射到区间[0,1],这能极大的减少计算复杂度。遗忘模块的输出结果将会与上一个单元的状态值进行对应元素的乘法运算,如果输出结果值为0或接近0,那么上一个单元的对应信息(比方说代表主语的无关信息)将被丢弃,如果结果趋向或等于1,那么对应的信息将被保留。生成的结果输入更新门中,更新门将对输入的值进行评估并执行如下操作:
M(t)=Gt(f)+Tanh(Gt(i)+bc) (11)
式中,上文中提到的参数bf、bi、bc是公式(9)、公式(10)和公式(11)对应的偏置,M(t)是可表示图像和文字特征的跨膜态记忆矩阵,它融合了过去的单元状态信息、旧的单元内部的隐藏信息以及新的输入数据。
双通道解码器实现医学影像报告自动生成的实现步骤:
①将ResnetII提取的胸部特征矩阵C”代入编码器和多头注意力机制网络,并将该输出结果与本文信息矩阵、可表示图像和文字特征的跨膜态记忆矩阵M(t)共同输入双通道解码器(Decoder),得到正确的医学影像报告,双通道解码器模型示意图如图4所示。
在图中,本发明的Decoder模块参考了Transformer模型、AoA模型和Visual GPT模型,其中α、PL、PV是所谓的门结构,发明人对AoA模型的α门进行了修改,并在Visual GPT模型的基础上增加了一组判别门,负责判别当前状态。上下文双文本通道建立在Transformer模型的Decoder模块基础上,在Train模式下和在Test模式下Decoder的输入是不同的,在Train模式下,Decoder的输入是经过ResnetII处理后的图像特征和经过DCTMN模块处理后的医学CT影像和对应报告的关联矩阵,不论网络模型如何变化,输入永远是上一时刻储存进记忆矩阵的特征信息,然后通过并行运算将正确的语义权重逐个分配,最终得到报告词汇出现概率;在Test模式下,会调用已经训练好的权重文件进行测试验证生成的医学报告是否正确。我们在Add&Norm后加入了判别门模块,此模块是用来判别当前状态的输入是该词语的过去状态还是未来状态。如果是过去状态,就将之前在DCTMN学习到的信息进行强化,如果是未来信息,就会对其进行预测,判断是否与下一个词汇相同,这有助于网络模型加速收敛。最后,引入更新门更新状态权重,防止网络模型学习到重复的知识或者不重要的知识。
实施例:第一阶段,本发明选择印第安纳大学研究人员提取出的IU X-RAY数据集进行模型初步验证,该数据集内有报告3996份,对应图像8121幅,在预训练阶段,统一设定图像尺寸大小为224×224,在文本数据处理时,删除所有非字母数字标记,将所有单词转换为小写,并用特殊标记替换单次出现的标记。第二阶段,选择MIMIC-CXR数据集进行主体训练,该数据集为麻省理工学院计算生理实验室建立的大型样本数据库,包含BID医学中心的大量数据,选择其中206563份报告和473057图像作为主模型训练数据的主要来源,预训练与第一阶段保持一致。
实施例中,通过与其他五种具有代表性的算法比较,验证本发明算法的优越性能。对比算法包括ATT2IN算法、M2算法、R2GEN算法、VisualGPT算法、CMN算法。文本生成效果采用几种常用评价指标:双语评估替补指标(BLEU 1~4)、多样化的机器翻译评价指标(MTR)、翻译输出评价指标(Rouge-L)。IU X-RAY数据集和MIMIC-CXR数据集的实验结果如表1所示(最好的评价结果用加粗字体表示)。
表1:各网络模型评价指标结果对比图
经过与ATT2IN Transformer、M2 Transformer和R2GEN Transformer等方法的比较,本发明在IU X-RAY和MIMIC-CXR数据集上展现出了优越的性能。尤其是与ATT2INTransformer和M2 Transformer相比,本发明方法具有明显的优势。同时,在与VisualGPT算法的比较中,发现VisualGPT算法的MTR和RG-L评价指标结果与本发明结果类似。然而,VisualGPT算法通过引入GPT预训练步骤增强了模型的学习能力,而本发明方法则通过跨模态网络DCTMN来增强图像和报告之间的联系,并借助残差网络和迁移学习来辅助文本生成。通过相关实验,我们发现VisualGPT提取了过多的不重要信息,而本发明方法通过注意力机制和门单元只保留了重要信息,从而减少了模型的计算量并加快了网络收敛速度。此外,在对比实验中,本发明提出的跨模态网络模型在BLEU-1到BLEU-4评价指标上明显优于学界先进算法,进一步验证了本方法的优越性。
生成的医学影像报告如图5所示。从图中可以观察到,本发明提出的DCTMN方法在动词和名词的生成方面都达到了最佳效果。与ATT2IN和M2方法相比,DCTMN能够生成更准确的报告内容,而R2GEN存在多处错误理解,CMN存在关键名词生成错误。与VisualGPT相比,DCTMN生成的内容与之相似,但在个别名词的理解上,DCTMN明显具有优势。DCTMN模型能够准确预测原文中的伪输入内容,并且预测结果与实际结果一致。
综上所述,本发明方法在主观和客观结果上都优于目前主流的方法,表现出色。通过跨模态网络DCTMN的引入和注意力机制的优化,本发明方法能够更好地提取重要信息,减少计算量,并生成准确的医学影像报告。
除此之外,本发明提出的模型学习到了更多的医学知识,这些知识可能来自于放射图像及其报告之间共享的隐藏和规律性信息,记忆矩阵能明确合理地对其建模,以促进疾病症状的识别和医学报告的生成,对比其他实验方法具有较大优势。医学图像存在大量的潜在信息,本发明方法能极大提高信息收集能力,产生较少错误信息,放射科医生能够较容
易地筛选出这些错误信息。总之,本发明提出的模型成功地增强了医学报告的自动生成能力。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (5)
1.一种多模态网络互联融合的胸部影像诊断报告自动生成方法,其特征包括如下步骤:
S1:双通道残差网络ResnetII特征提取,
a.对输入图像进行对比度增强、图像尺寸变换、图像像素块调整,得到预处理图像;
b.对预处理图像通过卷积神经网络CNN将图像转化为图像特征矩阵,并将该矩阵所有数据拉长为一列,得到胸部CT图像可训练图像特征矩阵C,之后代入ResnetII,提取与胸部器官关联度高的特征信息,得到最终胸部特征矩阵C”;
S2:跨模态记忆矩阵文本图像关系强化,
a.将胸部特征矩阵C”、文本信息矩阵和前状态跨膜态记忆矩阵M(t-1)代入跨膜态强化记忆网络DCTMN,通过网络拼接和多头注意力运算,得到融合特征记忆矩阵;
b.将融合特征记忆矩阵代入选择性遗忘门,并将输出结果与胸部特征矩阵、文本信息矩阵计算求和,并代入更新门,得到可表示图像和文字特征的跨膜态记忆矩阵M(t);
S3:双通道解码器实现医学影像报告自动生成;
a.将ResnetII提取的胸部特征矩阵C"代入Transformer的编码器,再将通过处理的结果使用多头注意力机制网络进行二次处理,并将该输出结果与文本信息矩阵、可表示图像和文字特征的跨膜态记忆矩阵M(t)共同输入双通道解码器Decoder,得到正确的医学影像报告。
2.根据权利要求1所述的一种多模态网络互联融合的胸部影像诊断报告自动生成方法,其特征在于,ResnetII中包含152层残差网络,其底层模块由12个不同维度卷积构成。
3.根据权利要求1所述的一种多模态网络互联融合的胸部影像诊断报告自动生成方法,其特征在于,DCTMN是基于注意力机制研发而成的;
其中,胸部特征矩阵C”表示ResnetII网络提取特征得到的图像特征矩阵,文本信息矩阵表示医学报告通过分词器编码步骤得到的可训练文本信息特征矩阵,前状态机跨膜态记忆矩阵M(t-1)表示前一个状态图像信息和文本信息的关联度。
4.根据权利要求3所述的一种多模态网络互联融合的胸部影像诊断报告自动生成方法,其特征在于,在设计DCTMN时还改进了Transformer多头注意力机制,将主体输入Q、评价信息K和V代入多头注意力机制,其计算表达式如下:
Z=∑Attention(Q,K,V) (8)
式中,Attention(Q,K,V)表示单头注意力机制的计算结果,dk表示缩放系数,Z表示多头注意力机制的计算结果,之后把每一层的信息权重进行叠加求和,得到融合特征记忆矩阵。
5.根据权利要求1所述的一种多模态网络互联融合的胸部影像诊断报告自动生成方法,其特征在于,S2-b中的选择性遗忘门具体操作为将DCTMN模块提取的融合特征记忆矩阵代入判别器,通过提前对照设定好的评价指标进行多尺度模型判别,其表达式如下:
Gt(f)=Sigmoid(Wf(M(t-1),yei (t-1))+bf) (9)
Gt(i)=Sigmoid(Wi(M(t-1),yei (t-1))+bi) (10)
其中,Wf和Wi分别表示控制有用信息和无用信息的权重矩阵,yei (t-1)表示t-1时刻的遗忘门,Gt(f)和Gt(i)分别表示存储有用信息的记忆矩阵和存储无用信息的记忆矩阵,bf和bi分别表示Gt(f)和Gt(i)对应的偏置;
生成的结果输入更新门中,更新门将对输入的值进行评估并执行如下操作:
M(t)=Gt(f)+Tanh(Gt(i)+bc) (11)
式中,上文中提到的参数bf、bi、bc是公式(9)、公式(10)和公式(11)对应的偏置,M(t)是可表示图像和文字特征的跨膜态记忆矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310710730.XA CN116779091B (zh) | 2023-06-15 | 2023-06-15 | 一种多模态网络互联融合的胸部影像诊断报告自动生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310710730.XA CN116779091B (zh) | 2023-06-15 | 2023-06-15 | 一种多模态网络互联融合的胸部影像诊断报告自动生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116779091A CN116779091A (zh) | 2023-09-19 |
CN116779091B true CN116779091B (zh) | 2024-02-27 |
Family
ID=88010884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310710730.XA Active CN116779091B (zh) | 2023-06-15 | 2023-06-15 | 一种多模态网络互联融合的胸部影像诊断报告自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116779091B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117558394A (zh) * | 2023-09-28 | 2024-02-13 | 兰州交通大学 | 一种基于跨模态网络的胸部x线影像报告生成方法 |
CN117457142A (zh) * | 2023-11-17 | 2024-01-26 | 浙江飞图影像科技有限公司 | 用于报告生成的医学影像处理系统及方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128671A (zh) * | 2021-04-19 | 2021-07-16 | 烟台大学 | 一种基于多模态机器学习的服务需求动态预测方法及系统 |
CN113657450A (zh) * | 2021-07-16 | 2021-11-16 | 中国人民解放军陆军炮兵防空兵学院 | 基于注意机制的陆战场图像-文本跨模态检索方法及其系统 |
WO2021232589A1 (zh) * | 2020-05-21 | 2021-11-25 | 平安国际智慧城市科技股份有限公司 | 基于注意力机制的意图识别方法、装置、设备及存储介质 |
CN114944213A (zh) * | 2022-06-08 | 2022-08-26 | 长江大学 | 基于记忆驱动的Transformer医学内窥镜图像报告生成方法 |
CN115132313A (zh) * | 2021-12-07 | 2022-09-30 | 北京工商大学 | 基于注意力机制的医学影像报告自动生成方法 |
CN115171838A (zh) * | 2022-08-24 | 2022-10-11 | 中南大学 | 基于跨模态融合的医学报告生成模型的训练方法 |
CN116230154A (zh) * | 2023-03-03 | 2023-06-06 | 华东师范大学 | 基于记忆强化Transformer的胸腔X光诊断报告生成方法 |
CN116664467A (zh) * | 2023-06-09 | 2023-08-29 | 兰州交通大学 | 一种基于交叉神经网络和eca-s的多模态医学图像融合方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180350459A1 (en) * | 2017-06-05 | 2018-12-06 | University Of Florida Research Foundation, Inc. | Methods and apparatuses for implementing a semantically and visually interpretable medical diagnosis network |
-
2023
- 2023-06-15 CN CN202310710730.XA patent/CN116779091B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021232589A1 (zh) * | 2020-05-21 | 2021-11-25 | 平安国际智慧城市科技股份有限公司 | 基于注意力机制的意图识别方法、装置、设备及存储介质 |
CN113128671A (zh) * | 2021-04-19 | 2021-07-16 | 烟台大学 | 一种基于多模态机器学习的服务需求动态预测方法及系统 |
CN113657450A (zh) * | 2021-07-16 | 2021-11-16 | 中国人民解放军陆军炮兵防空兵学院 | 基于注意机制的陆战场图像-文本跨模态检索方法及其系统 |
CN115132313A (zh) * | 2021-12-07 | 2022-09-30 | 北京工商大学 | 基于注意力机制的医学影像报告自动生成方法 |
CN114944213A (zh) * | 2022-06-08 | 2022-08-26 | 长江大学 | 基于记忆驱动的Transformer医学内窥镜图像报告生成方法 |
CN115171838A (zh) * | 2022-08-24 | 2022-10-11 | 中南大学 | 基于跨模态融合的医学报告生成模型的训练方法 |
CN116230154A (zh) * | 2023-03-03 | 2023-06-06 | 华东师范大学 | 基于记忆强化Transformer的胸腔X光诊断报告生成方法 |
CN116664467A (zh) * | 2023-06-09 | 2023-08-29 | 兰州交通大学 | 一种基于交叉神经网络和eca-s的多模态医学图像融合方法 |
Non-Patent Citations (5)
Title |
---|
Multimodal Product Matching and Category Mapping: Text+Image based Deep Neural Network;Ketki Gupte 等;《2021 IEEE International Conference on Big Data (Big Data)》;4500-4505 * |
一种基于深度学习的中文图像描述模型;郭淑涛;《天津理工大学学报》(第03期);30-35 * |
基于改进Unet与动态阈值可变FCMSPCNN的医学图像分割;邸敬 等;《中国医学物理学杂志》;第40卷(第03期);328-335 * |
基于深度学习的多模态骨癌影像分类诊断系统研究;柯艺雅 等;《信息与电脑(理论版)》;第33卷(第06期);136-138 * |
基于深度学习的眼底视网膜图像多疾病分类研究;夏秋婷;《中国优秀硕士学位论文全文数据库 医药卫生科技辑》(第02期);E073-115 * |
Also Published As
Publication number | Publication date |
---|---|
CN116779091A (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116779091B (zh) | 一种多模态网络互联融合的胸部影像诊断报告自动生成方法 | |
CN110570920B (zh) | 一种基于集中注意力模型的实体、关系联合学习方法 | |
CN112508077B (zh) | 一种基于多模态特征融合的社交媒体情感分析方法及系统 | |
CN110111864B (zh) | 一种基于关系模型的医学报告生成系统及其生成方法 | |
Liu et al. | Medical-vlbert: Medical visual language bert for covid-19 ct report generation with alternate learning | |
CN109559799A (zh) | 医学图像语义描述方法、描述模型的构建方法及该模型 | |
CN112364174A (zh) | 基于知识图谱的病人病历相似度评估方法及系统 | |
CN116013449B (zh) | 融合临床信息与磁共振图像的心肌病预后辅助预测方法 | |
CN111275118A (zh) | 基于自我修正式标签生成网络的胸片多标签分类方法 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
CN116230154A (zh) | 基于记忆强化Transformer的胸腔X光诊断报告生成方法 | |
CN114220516A (zh) | 一种基于层级循环神经网络解码的脑ct医学报告生成方法 | |
CN111242059B (zh) | 基于递归记忆网络的无监督图像描述模型的生成方法 | |
CN112530584A (zh) | 一种医疗诊断辅助方法及系统 | |
CN115658886A (zh) | 基于语义文本的智能肝癌分期方法、系统及介质 | |
CN115579141A (zh) | 一种可解释疾病风险预测模型构建方法以及疾病风险预测装置 | |
CN113920379B (zh) | 一种基于知识辅助的零样本图像分类方法 | |
CN117421591A (zh) | 一种基于文本引导图像块筛选的多模态表征学习方法 | |
CN114359656A (zh) | 一种基于自监督对比学习的黑色素瘤图像识别方法和存储设备 | |
CN117316369B (zh) | 平衡跨模态信息的胸部影像诊断报告自动生成方法 | |
CN116913459B (zh) | 基于深度卷积网络控制门模型的用药推荐方法及系统 | |
Wu et al. | AGNet: Automatic generation network for skin imaging reports | |
CN116431789A (zh) | 一种基于因果事件抽取模型的因果事件抽取方法 | |
CN115588486A (zh) | 一种基于Transformer的中医诊断生成装置及其应用 | |
CN115909455A (zh) | 多尺度特征提取与注意力机制融合的表情识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |