CN116779091A - 一种多模态网络互联融合的胸部影像诊断报告自动生成方法 - Google Patents

一种多模态网络互联融合的胸部影像诊断报告自动生成方法 Download PDF

Info

Publication number
CN116779091A
CN116779091A CN202310710730.XA CN202310710730A CN116779091A CN 116779091 A CN116779091 A CN 116779091A CN 202310710730 A CN202310710730 A CN 202310710730A CN 116779091 A CN116779091 A CN 116779091A
Authority
CN
China
Prior art keywords
image
matrix
feature
network
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310710730.XA
Other languages
English (en)
Other versions
CN116779091B (zh
Inventor
廉敬
董子龙
石斌
刘冀钊
张家骏
张怀堃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lanzhou Jiaotong University
Original Assignee
Lanzhou Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lanzhou Jiaotong University filed Critical Lanzhou Jiaotong University
Priority to CN202310710730.XA priority Critical patent/CN116779091B/zh
Publication of CN116779091A publication Critical patent/CN116779091A/zh
Application granted granted Critical
Publication of CN116779091B publication Critical patent/CN116779091B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10081Computed x-ray tomography [CT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Abstract

本发明提供了一种多模态网络互联融合的胸部影像诊断报告自动生成方法,涉及医疗信息领域。本发明提出了一种基于残差网络(Resnet)、注意力机制(Transformer)模块的网络、跨模态强化记忆网络(DCTMN)的多模态网络互联融合医学报告自动生成方法,关照和融通上述两个发力点,促进跨模态(医学影像和对应报告文本)信息的交互与匹配,自动生成图像与文本信息有效融合的医学影像诊断报告。

Description

一种多模态网络互联融合的胸部影像诊断报告自动生成方法
技术领域
本发明涉及医疗信息领域,尤其涉及一种多模态网络互联融合的胸部影像诊断报告自动生成方法。
背景技术
近年来,医疗技术不断进步,其在医学影像诊断中的应用越来越广泛,由此产生了大量的医学影像数据。由于医学影像数据的复杂性和多样性,传统人工操作方式整理形成胸部影像诊断报告,存在书写信息负载高、医生重复劳动强度大等问题。因此,计算机自动生成医学影像报告的研究备受关注。
医学影像报告自动生成技术旨在提高医学数据处理的效率和准确性。使用自然语言处理技术和深度学习算法,可对医学影像数据进行训练和意义关联,形成易于理解和使用的基于自然语言文本的医学影像报告。医师根据该类报告科学制定治疗方案。
目前,有关医学报告自动生成的研究取得了一定进展,流行的方法主要有基于传统网络规则的方法和基于深度学习的方法。基于规则的方法依赖于专家知识和规则库,通过匹配和组合规则来生成报告。这种方法的优点是可解释性强,但需要人工编写规则,且难以适应新数据。相比之下,基于无监督的深度学习方法能通过网络训练自动从数据中学习报告生成的规律,具有更好的泛化能力。
基于深度学习的医学报告自动生成有两个切入点,即以图像处理为切入点和以自然语言处理为切入点。存在的问题是:以图像处理为切入点生成报告,模型很难完全理解领会图像的复杂信息,生成的报告缺乏语言表达的灵活性。以自然语言处理为切入点,生成报告的模型是基于预定义的模板,生成的报告同样缺乏灵活性,难以适应不同的应用场景。为了解决上述问题,本发明提出了一种基于残差网络(Resnet)、注意力机制(Transformer)模块的网络、跨模态强化记忆网络(DCTMN)的多模态网络互联融合医学报告自动生成方法,关照和融通上述两个发力点,促进跨模态(医学影像和对应报告文本)信息的交互与匹配,自动生成图像与文本信息有效融合的医学影像诊断报告。
发明内容
针对现有技术不足,本发明提供一种多模态网络互联融合的胸部影像诊断报告自动生成方法,包括以下步骤:
S1:双通道残差网络(ResnetII)特征提取,
c.对输入图像进行对比度增强、图像尺寸变换、图像像素块调整,得到预处理图像;
d.对预处理图像通过卷积神经网络(CNN)将图像转化为图像特征矩阵,并将该矩阵所有数据拉长为一列,得到胸部CT图像可训练图像特征矩阵C,之后代入ResnetII,提取与胸部器官关联度高的特征信息,得到最终胸部特征矩阵C”。
S2:跨模态记忆矩阵文本图像关系强化,
c.将胸部特征矩阵C”、文本信息矩阵和前状态跨膜态记忆矩阵M(t-1)代入DCTMN,通过网络拼接和多头注意力运算,得到融合特征记忆矩阵。
d.将融合特征记忆矩阵代入选择性遗忘门,并将输出结果与胸部特征矩阵、文本信息矩阵计算求和,并代入更新门,得到可表示图像和文字特征的跨膜态记忆矩阵M(t)
S3:双通道解码器实现医学影像报告自动生成。
a.将ResnetII提取的胸部CT影像特征矩阵C”代入编码器和多头注意力机制网络,并将该输出结果与本文信息矩阵、可表示图像和文字特征的跨膜态记忆矩阵M(t)共同输入双通道解码器(Decoder),得到正确的医学影像报告。
进一步地,ResnetII中包含152层残差网络,其底层模块由12个不同维度卷积构成。
进一步地,训练ResnetII网络共包括2个步骤:
S1:双通道模块特征提取;
在双通道模块特征提取过程中,先对胸部CT图像可训练图像特征矩阵C进行卷积运算并增加维数,之后分别通过Maxpool和Avgpool将图像送入Resnet 152的膨胀卷积层得到Resnet网络输出结果(膨胀速率为2,卷积核大小为7×7),再将该输出结果分别通过Maxpool和Avgpool进行双通道残差运算,并与原始输入信息进行相加求和运算,得到Resnet网络第一次处理后的特征矩阵C'。
ResnetII网络第一次处理后的特征矩阵C'的公式表达式如下:
ResnetΙΙ=Resnet[Avg (C)152+Max (C)152] (5)
C′=ResnetII+C (6)
式中,σ表示Sigmoid函数,Resnet表示残差网络,n表示残差神经网络的层数,Resnet层数共计152层,Avg表示平均池化,Max表示最大池化,C表示胸部CT图像可训练图像特征矩阵,c表示胸部CT图像每一步得到的特征矩阵;
每一步得到的特征矩阵c通过卷积运算学习得到的特征标记为H(c),预期学习到的残差特征标记为F(c)=H(c)-c,原始信息的特征标记为F(c)+c;
S2:自注意力机制模块特征提取
在自注意力机制模块特征提取过程中,将ResnetII网络第一次处理后的特征矩阵C'代入自注意力模块进行特征强化训练,生成最终胸部特征矩阵C”。
进一步地,DCTMN是基于注意力机制研发而成的;
其中,胸部特征矩阵C”表示ResnetII网络提取特征得到的图像特征矩阵,文本信息矩阵表示医学报告通过分词器编码步骤得到的可训练文本信息特征矩阵,前状态机跨膜态记忆矩阵M(t-1)表示前一个状态图像信息和文本信息的关联度。
进一步地,在设计DCTMN时还改进了Transformer多头注意力机制,将主体输入Q、评价信息K和V代入多头注意力机制,其计算表达式如下:
Z=∑Attention(Q,K,V) (8)
式中,Attention(Q,K,V)表示单头注意力机制的计算结果,dk表示缩放系数,Z表示多头注意力机制的计算结果,之后把每一层的信息权重进行叠加求和,得到融合特征记忆矩阵。
进一步地,S2-b中的选择性遗忘门具体操作为将DCTMN模块提取的融合特征记忆矩阵代入判别器,通过提前对照设定好的评价指标进行多尺度模型判别,其表达式如下:
Gt(f)=Sigmoid(Wf(M(t-1),yei (t-1))+bf) (9)
Gt(i)=Sigmoid(Wi(M(t-1),yei (t-1))+bi) (10)
其中,Wf是用来控制遗忘门行为的权重矩阵,yei (t-1)表示t-1时刻的遗忘门,Gt(f)和Gt(i)分别表示存储有用信息的记忆矩阵和存储无用信息的记忆矩阵,bf和bi分别表示Gt(f)和Gt(i)对应的偏置。
生成的结果输入更新门中,更新门将对输入的值进行评估并执行如下操作:
M(t)=Gt(f)+Tanh(Gt(i)+bc) (11)
式中,上文中提到的参数bf、bi、bc对应三组不同的权重参数,这些权重参数主要作用是防止模型过饱和,M(t)是可表示图像和文字特征的跨膜态记忆矩阵。
采用上述技术方案所产生的有益效果在于:
(1)在残差网络的基础上提出的多感受野残差网络病灶区域信息提取方法,该方法提高了网络模型对医学CT影像的特征提取能力。
(2)以注意力网络为基础提出的能明显增强CT影像和医学报告关联性的跨膜态记忆矩阵M(t),,以及可将不重要特征信息遗忘、将重要特征信息更新的选择性遗忘门网络模型。
(3)在生成医学报告时提出的具有较强处理图像文本信息能力的双通道Decoder模块。
附图说明
图1为本发明的主体网络模型框架实现步骤示意图;
图2为本发明的ResnetII网络架构示意图;
图3为本发明的选择性遗忘模块示意图;
图4为本发明的双通道Decoder模型对比图;
图5为本发明的对比试验结果示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于
说明本发明,但不用来限制本发明的范围。
图1为本发明主体网络模型框架实现步骤示意图,包括双通道残差网络(ResnetII)特征提取、跨模态记忆矩阵文本图像关系强化、双通道解码器实现医学影像报告自动生成。其具体实现步骤如下:
ResnetII特征提取实现步骤如下:
①对输入图像进行对比度增强、图像尺寸变换、图像像素块调整,得到预处理图像;
②对预处理图像通过卷积神经网络(CNN)将图像转化为图像特征矩阵,并将该矩阵所有数据拉长为一列,得到胸部CT图像可训练图像特征矩阵C,之后代入ResnetII,提取与胸部器官关联度高的特征信息,得到最终胸部特征矩阵C”。该残差网络既可以学习原始图像的胸部器官特征,又可以学习卷积提取后的胸部器官特征,避免了信息传递过程中出现的梯度消失和梯度爆炸问题,其中,ResnetII网络架构示意图如图2所示。
在图2中,Resnet-152表示152层残差网络,其底层模块由12个不同维度卷积(1×1和3×3为卷积核,64、128、256、512、1024、2048为网络层数)构成,
为确保编码器更好地学习胸部CT影像特征,加入双通道模块网络架构,内分最大池化(Maxpool)层和平均池化(AvgPool)层,并加入自注意力机制,增强Maxpool和AvgPool提取影像特征的效果。
训练ResnetII网络共包括2个步骤:双通道模块特征提取和自注意力机制模块特征提取。在双通道模块特征提取过程中,先对胸部CT图像可训练图像特征矩阵C进行卷积运算并增加维数,之后分别通过Maxpool和Avgpool将图像送入Resnet 152的膨胀卷积层得到Resnet网络输出结果(膨胀速率为2,卷积核大小为7×7),再将该输出结果分别通过Maxpool和Avgpool进行双通道残差运算,并与原始输入信息进行相加求和运算,得到Resnet网络第一次处理后的特征矩阵C'。双通道模块特征提取增强了模型对胸部CT影像细节的多尺度提取能力,同时减少了单一使用膨胀卷积运算导致的原始图像空间层次信息丢失和不重要信息重复提取等负面影响。ResnetII网络第一次处理后的特征矩阵C'的公式表达式如下:
ResnetΙΙ=Resnet[Avg (C)152+Max (C)152] (5)
C′=ResnetII+C (6)
式中,σ表示Sigmoid函数,Resnet表示残差网络,n表示残差神经网络的层数,Resnet层数共计152层,Avg表示平均池化,Max表示最大池化,C表示胸部CT图像可训练图像特征矩阵,c表示胸部CT图像每一步得到的特征矩阵。如图2所示,每一步得到的特征矩阵c通过卷积运算学习得到的特征标记为H(c),预期学习到的残差特征标记为F(c)=H(c)-c,原始信息的特征标记为F(c)+c。
在自注意力机制模块特征提取过程中,将ResnetII网络第一次处理后的特征矩阵C'代入自注意力模块进行特征强化训练,生成最终胸部特征矩阵C”。自注意力机制模块特征提取能更好地融合多分支特征信息,加快任务收敛速度,防止梯度分散,提高ResnetII对胸部CT影像的特征提取能力。
跨模态记忆矩阵文本图像关系强化实现步骤如下:
①将胸部特征矩阵C”(在图1中用绿色矩形框表示)、文本信息矩阵(在图1中用蓝色矩形框表示)和前状态跨膜态记忆矩阵M(t-1)代入DCTMN(在图1中用红色矩形框表示),通过网络拼接和多头注意力运算,得到融合特征记忆矩阵。
在图1中,本发明提出的DCTMN是基于注意力机制研发而成的。其中,胸部特征矩阵C”表示ResnetII网络提取特征得到的图像特征矩阵,文本信息矩阵表示医学报告通过分词器编码步骤得到的可训练文本信息特征矩阵,前状态机跨膜态记忆矩阵M(t-1)表示前一个状态图像信息和文本信息的关联度。本发明在设计DCTMN时还改进了Transformer多头注意力机制,将主体输入Q、评价信息K和V代入多头注意力机制,其计算表达式如下:
Z=∑Attention(Q,K,V) (8)
式中,Attention(Q,K,V)表示单头注意力机制的计算结果,dk表示缩放系数,Z表示多头注意力机制的计算结果。之后把每一层的信息权重进行叠加求和,得到融合特征记忆矩阵。
②将融合特征记忆矩阵代入选择性遗忘门,并将输出结果与胸部特征矩阵、文本信息矩阵计算求和,并代入更新门,得到可表示图像和文字特征的跨膜态记忆矩阵M(t)
为了解决DCTMN模块提取重要信息较为困难等问题,受长短期记忆网络(LSTM)门控单元的启发,基于LSTM的遗忘门、更新门和输出门,设计了一个选择性遗忘门模块,它能将多头注意力机制提取到的信息进行筛选,删除不重要的信息,并将重要信息进行权重分配。选择性遗忘门模块示意图如下:
如图3所示,α和β分别表示有用信息和无用信息。将DCTMN模块提取的融合特征记忆矩阵代入判别器,通过提前对照设定好的评价指标进行多尺度模型判别,主要的操作如下:
Gt(f)=Sigmoid(Wf(M(t-1),yei (t-1))+bf) (9)
Gt(i)=Sigmoid(Wi(M(t-1),yei (t-1))+bi) (10)
其中,Wf是用来控制遗忘门行为的权重矩阵,yei (t-1)表示t-1时刻的遗忘门,Gt(f)和Gt(i)分别表示存储有用信息的记忆矩阵和存储无用信息的记忆矩阵,bf和bi分别表示Gt(f)和Gt(i)对应的偏置。以Gt(f)为例,将前状态跨膜态记忆矩阵M(t-1)和t-1时刻的遗忘门yei (t-1)连接起来,并用Wf去乘连接后的矩阵,然后再加上一个偏置bf防止梯度消失,最后通过Sigmoid函数将得到的概率矩阵映射到区间[0,1],这能极大的减少计算复杂度[15]。遗忘模块的输出结果将会与上一个单元的状态值进行对应元素的乘法运算,如果输出结果值为0或接近0,那么上一个单元的对应信息(比方说代表主语的无关信息)将被丢弃,如果结果趋向或等于1,那么对应的信息将被保留。生成的结果输入更新门中,更新门将对输入的值进行评估并执行如下操作:
M(t)=Gt(f)+Tanh(Gt(i)+bc) (11)
式中,上文中提到的参数bf、bi、bc对应三组不同的权重参数,这些权重参数主要作用是防止模型过饱和,M(t)是可表示图像和文字特征的跨膜态记忆矩阵,它融合了过去的单元状态信息、旧的单元内部的隐藏信息以及新的输入数据。
双通道解码器实现医学影像报告自动生成的实现步骤:
①将ResnetII提取的胸部CT影像特征矩阵C”代入编码器和多头注意力机制网络,并将该输出结果与本文信息矩阵、可表示图像和文字特征的跨膜态记忆矩阵M(t)共同输入双通道解码器(Decoder),得到正确的医学影像报告,双通道解码器模型示意图如图4所示。
在图中,本发明的Decoder模块参考了Transformer模型、AoA模型和Visual GPT模型,其中α、PL、PV是所谓的门结构,发明人对AoA模型的α门进行了修改,并在Visual GPT模型的基础上增加了一组判别门,负责判别当前状态。上下文双文本通道建立在Transformer模型的Decoder模块基础上,在Train模式下和在Test模式下Decoder的输入是不同的,在Train模式下,Decoder的输入是经过ResnetII处理后的图像特征和经过DCTMN模块处理后的医学CT影像和对应报告的关联矩阵,不论网络模型如何变化,输入永远是上一时刻储存进记忆矩阵的特征信息,然后通过并行运算将正确的语义权重逐个分配,最终得到报告词汇出现概率;在Test模式下,会调用已经训练好的权重文件进行测试,验证生成的医学报告是否正确。我们在Add&Norm后加入了判别门模块,此模块是用来判别当前状态的输入是该词语的过去状态还是未来状态。如果是过去状态,就将之前在DCTMN学习到的信息进行强化,如果是未来信息,就会对其进行预测,判断是否与下一个词汇相同,这有助于网络模型加速收敛。最后,引入更新门更新状态权重,防止网络模型学习到重复的知识或者不重要的知识。
实施例:第一阶段,本发明选择印第安纳大学研究人员提取出的IU X-RAY数据集进行模型初步验证,该数据集内有报告3996份,对应图像8121幅,在预训练阶段,统一设定图像尺寸大小为224×224,在文本数据处理时,删除所有非字母数字标记,将所有单词转换为小写,并用特殊标记替换单次出现的标记。第二阶段,选择MIMIC-CXR数据集进行主体训练,该数据集为麻省理工学院计算生理实验室建立的大型样本数据库,包含BID医学中心的大量数据,选择其中206563份报告和473057图像作为主模型训练数据的主要来源,预训练与第一阶段保持一致。
实施例中,通过与其他五种具有代表性的算法比较,验证本发明算法的优越性能。对比算法包括ATT2IN算法、M2算法、R2GEN算法、VisualGPT算法、CMN算法。文本生成效果采用几种常用评价指标:双语评估替补指标(BLEU 1~4)、多样化的机器翻译评价指标(MTR)、翻译输出评价指标(Rouge-L)。IU X-RAY数据集和MIMIC-CXR数据集的实验结果如表1所示(最好的评价结果用加粗字体表示)。
表1:各网络模型评价指标结果对比图
经过与ATT2IN Transformer、M2 Transformer和R2GEN Transformer等方法的比较,本发明在IU X-RAY和MIMIC-CXR数据集上展现出了优越的性能。尤其是与ATT2INTransformer和M2 Transformer相比,本发明方法具有明显的优势。同时,在与VisualGPT算法的比较中,发现VisualGPT算法的MTR和RG-L评价指标结果与本发明结果类似。然而,VisualGPT算法通过引入GPT预训练步骤增强了模型的学习能力,而本发明方法则通过跨模态网络DCTMN来增强图像和报告之间的联系,并借助残差网络和迁移学习来辅助文本生成。通过相关实验,我们发现VisualGPT提取了过多的不重要信息,而本发明方法通过注意力机制和门单元只保留了重要信息,从而减少了模型的计算量并加快了网络收敛速度。此外,在对比实验中,本发明提出的跨模态网络模型在BLEU-1到BLEU-4评价指标上明显优于学界先进算法,进一步验证了本方法的优越性。
生成的医学影像报告如图5所示。从图中可以观察到,本发明提出的DCTMN方法在动词和名词的生成方面都达到了最佳效果。与ATT2IN和M2方法相比,DCTMN能够生成更准确的报告内容,而R2GEN存在多处错误理解,CMN存在关键名词生成错误。与VisualGPT相比,DCTMN生成的内容与之相似,但在个别名词的理解上,DCTMN明显具有优势。DCTMN模型能够准确预测原文中的伪输入内容,并且预测结果与实际结果一致。
综上所述,本发明方法在主观和客观结果上都优于目前主流的方法,表现出色。通过跨模态网络DCTMN的引入和注意力机制的优化,本发明方法能够更好地提取重要信息,减少计算量,并生成准确的医学影像报告。
除此之外,本发明提出的模型学习到了更多的医学知识,这些知识可能来自于放射图像及其报告之间共享的隐藏和规律性信息,记忆矩阵能明确合理地对其建模,以促进疾病症状的识别和医学报告的生成,对比其他实验方法具有较大优势。医学图像存在大量的潜在信息,本发明方法能极大提高信息收集能力,产生较少错误信息,放射科医生能够较容易地筛选出这些错误信息。总之,本发明提出的模型成功地增强了医学报告的自动生成能力。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (6)

1.一种多模态网络互联融合的胸部影像诊断报告自动生成方法,其特征包括如下步骤:
S1:双通道残差网络(ResnetII)特征提取,
a.对输入图像进行对比度增强、图像尺寸变换、图像像素块调整,得到预处理图像;
b.对预处理图像通过卷积神经网络(CNN)将图像转化为图像特征矩阵,并将该矩阵所有数据拉长为一列,得到胸部CT图像可训练图像特征矩阵C,之后代入ResnetII,提取与胸部器官关联度高的特征信息,得到最终胸部特征矩阵C”;
S2:跨模态记忆矩阵文本图像关系强化,
a.将胸部特征矩阵C”、文本信息矩阵和前状态跨膜态记忆矩阵M(t-1)代入DCTMN,通过网络拼接和多头注意力运算,得到融合特征记忆矩阵;
b.将融合特征记忆矩阵代入选择性遗忘门,并将输出结果与胸部特征矩阵、文本信息矩阵计算求和,并代入更新门,得到可表示图像和文字特征的跨膜态记忆矩阵M(t)
S3:双通道解码器实现医学影像报告自动生成;
a.将ResnetII提取的胸部CT影像特征矩阵C”代入编码器和多头注意力机制网络,并将该输出结果与本文信息矩阵、可表示图像和文字特征的跨膜态记忆矩阵M(t)共同输入双通道解码器(Decoder),得到正确的医学影像报告。
2.根据权利要求1所述的一种多模态网络互联融合的胸部影像诊断报告自动生成方法,其特征在于,ResnetII中包含152层残差网络,其底层模块由12个不同维度卷积构成。
3.根据权利要求1所述的一种多模态网络互联融合的胸部影像诊断报告自动生成方法,其特征在于,训练ResnetII网络共包括2个步骤:
S1:双通道模块特征提取;
在双通道模块特征提取过程中,先对胸部CT图像可训练图像特征矩阵C进行卷积运算并增加维数,之后分别通过Maxpool和Avgpool将图像送入Resnet 152的膨胀卷积层得到Resnet网络输出结果(膨胀速率为2,卷积核大小为7×7),再将该输出结果分别通过Maxpool和Avgpool进行双通道残差运算,并与原始输入信息进行相加求和运算,得到Resnet网络第一次处理后的特征矩阵C';
ResnetII网络第一次处理后的特征矩阵C'的公式表达式如下:
ResnetΙΙ=Resnet[Avg(C)152+Max(C)152](5)
C′=ResnetII+C(6)
式中,σ表示Sigmoid函数,Resnet表示残差网络,n表示残差神经网络的层数,Resnet层数共计152层,Avg表示平均池化,Max表示最大池化,C表示胸部CT图像可训练图像特征矩阵,c表示胸部CT图像每一步得到的特征矩阵;
每一步得到的特征矩阵c通过卷积运算学习得到的特征标记为H(c),预期学习到的残差特征标记为F(c)=H(c)-c,原始信息的特征标记为F(c)+c;
S2:自注意力机制模块特征提取
在自注意力机制模块特征提取过程中,将ResnetII网络第一次处理后的特征矩阵C'代入自注意力模块进行特征强化训练,生成最终胸部特征矩阵C”。
4.根据权利要求1所述的一种多模态网络互联融合的胸部影像诊断报告自动生成方法,其特征在于,DCTMN是基于注意力机制研发而成的;
其中,胸部特征矩阵C”表示ResnetII网络提取特征得到的图像特征矩阵,文本信息矩阵表示医学报告通过分词器编码步骤得到的可训练文本信息特征矩阵,前状态机跨膜态记忆矩阵M(t-1)表示前一个状态图像信息和文本信息的关联度。
5.根据权利要求4所述的一种多模态网络互联融合的胸部影像诊断报告自动生成方法,其特征在于,在设计DCTMN时还改进了Transformer多头注意力机制,将主体输入Q、评价信息K和V代入多头注意力机制,其计算表达式如下:
Z=∑Attention(Q,K,V) (8)
式中,Attention(Q,K,V)表示单头注意力机制的计算结果,dk表示缩放系数,Z表示多头注意力机制的计算结果,之后把每一层的信息权重进行叠加求和,得到融合特征记忆矩阵。
6.根据权利要求1所述的一种多模态网络互联融合的胸部影像诊断报告自动生成方法,其特征在于,S2-b中的选择性遗忘门具体操作为将DCTMN模块提取的融合特征记忆矩阵代入判别器,通过提前对照设定好的评价指标进行多尺度模型判别,其表达式如下:
Gt(f)=Sigmoid(Wf(M(t-1),yei (t-1))+bf) (9)
Gt(i)=Sigmoid(Wi(M(t-1),yei (t-1))+bi) (10)
其中,Wf是用来控制遗忘门行为的权重矩阵,yei (t-1)表示t-1时刻的遗忘门,Gt(f)和Gt(i)分别表示存储有用信息的记忆矩阵和存储无用信息的记忆矩阵,bf和bi分别表示Gt(f)和Gt(i)对应的偏置;
生成的结果输入更新门中,更新门将对输入的值进行评估并执行如下操作:
M(t)=Gt(f)+Tanh(Gt(i)+bc) (11)
式中,上文中提到的参数bf、bi、bc对应三组不同的权重参数,这些权重参数主要作用是防止模型过饱和,M(t)是可表示图像和文字特征的跨膜态记忆矩阵。
CN202310710730.XA 2023-06-15 2023-06-15 一种多模态网络互联融合的胸部影像诊断报告自动生成方法 Active CN116779091B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310710730.XA CN116779091B (zh) 2023-06-15 2023-06-15 一种多模态网络互联融合的胸部影像诊断报告自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310710730.XA CN116779091B (zh) 2023-06-15 2023-06-15 一种多模态网络互联融合的胸部影像诊断报告自动生成方法

Publications (2)

Publication Number Publication Date
CN116779091A true CN116779091A (zh) 2023-09-19
CN116779091B CN116779091B (zh) 2024-02-27

Family

ID=88010884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310710730.XA Active CN116779091B (zh) 2023-06-15 2023-06-15 一种多模态网络互联融合的胸部影像诊断报告自动生成方法

Country Status (1)

Country Link
CN (1) CN116779091B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117457142A (zh) * 2023-11-17 2024-01-26 浙江飞图影像科技有限公司 用于报告生成的医学影像处理系统及方法
CN117558394A (zh) * 2023-09-28 2024-02-13 兰州交通大学 一种基于跨模态网络的胸部x线影像报告生成方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180350459A1 (en) * 2017-06-05 2018-12-06 University Of Florida Research Foundation, Inc. Methods and apparatuses for implementing a semantically and visually interpretable medical diagnosis network
CN113128671A (zh) * 2021-04-19 2021-07-16 烟台大学 一种基于多模态机器学习的服务需求动态预测方法及系统
CN113657450A (zh) * 2021-07-16 2021-11-16 中国人民解放军陆军炮兵防空兵学院 基于注意机制的陆战场图像-文本跨模态检索方法及其系统
WO2021232589A1 (zh) * 2020-05-21 2021-11-25 平安国际智慧城市科技股份有限公司 基于注意力机制的意图识别方法、装置、设备及存储介质
CN114944213A (zh) * 2022-06-08 2022-08-26 长江大学 基于记忆驱动的Transformer医学内窥镜图像报告生成方法
CN115132313A (zh) * 2021-12-07 2022-09-30 北京工商大学 基于注意力机制的医学影像报告自动生成方法
CN115171838A (zh) * 2022-08-24 2022-10-11 中南大学 基于跨模态融合的医学报告生成模型的训练方法
CN116230154A (zh) * 2023-03-03 2023-06-06 华东师范大学 基于记忆强化Transformer的胸腔X光诊断报告生成方法
CN116664467A (zh) * 2023-06-09 2023-08-29 兰州交通大学 一种基于交叉神经网络和eca-s的多模态医学图像融合方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180350459A1 (en) * 2017-06-05 2018-12-06 University Of Florida Research Foundation, Inc. Methods and apparatuses for implementing a semantically and visually interpretable medical diagnosis network
WO2021232589A1 (zh) * 2020-05-21 2021-11-25 平安国际智慧城市科技股份有限公司 基于注意力机制的意图识别方法、装置、设备及存储介质
CN113128671A (zh) * 2021-04-19 2021-07-16 烟台大学 一种基于多模态机器学习的服务需求动态预测方法及系统
CN113657450A (zh) * 2021-07-16 2021-11-16 中国人民解放军陆军炮兵防空兵学院 基于注意机制的陆战场图像-文本跨模态检索方法及其系统
CN115132313A (zh) * 2021-12-07 2022-09-30 北京工商大学 基于注意力机制的医学影像报告自动生成方法
CN114944213A (zh) * 2022-06-08 2022-08-26 长江大学 基于记忆驱动的Transformer医学内窥镜图像报告生成方法
CN115171838A (zh) * 2022-08-24 2022-10-11 中南大学 基于跨模态融合的医学报告生成模型的训练方法
CN116230154A (zh) * 2023-03-03 2023-06-06 华东师范大学 基于记忆强化Transformer的胸腔X光诊断报告生成方法
CN116664467A (zh) * 2023-06-09 2023-08-29 兰州交通大学 一种基于交叉神经网络和eca-s的多模态医学图像融合方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
KETKI GUPTE 等: "Multimodal Product Matching and Category Mapping: Text+Image based Deep Neural Network", 《2021 IEEE INTERNATIONAL CONFERENCE ON BIG DATA (BIG DATA)》, pages 4500 - 4505 *
夏秋婷: "基于深度学习的眼底视网膜图像多疾病分类研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》, no. 02, pages 073 - 115 *
柯艺雅 等: "基于深度学习的多模态骨癌影像分类诊断系统研究", 《信息与电脑(理论版)》, vol. 33, no. 06, pages 136 - 138 *
邸敬 等: "基于改进Unet与动态阈值可变FCMSPCNN的医学图像分割", 《中国医学物理学杂志》, vol. 40, no. 03, pages 328 - 335 *
郭淑涛: "一种基于深度学习的中文图像描述模型", 《天津理工大学学报》, no. 03, pages 30 - 35 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117558394A (zh) * 2023-09-28 2024-02-13 兰州交通大学 一种基于跨模态网络的胸部x线影像报告生成方法
CN117457142A (zh) * 2023-11-17 2024-01-26 浙江飞图影像科技有限公司 用于报告生成的医学影像处理系统及方法

Also Published As

Publication number Publication date
CN116779091B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CN111681252B (zh) 一种基于多路径注意力融合的医学图像自动分割方法
CN116779091B (zh) 一种多模态网络互联融合的胸部影像诊断报告自动生成方法
CN110570920B (zh) 一种基于集中注意力模型的实体、关系联合学习方法
CN110111864B (zh) 一种基于关系模型的医学报告生成系统及其生成方法
CN110033008B (zh) 一种基于模态变换与文本归纳的图像描述生成方法
CN109559799A (zh) 医学图像语义描述方法、描述模型的构建方法及该模型
CN112614561A (zh) 一种基于层级自注意力序列编码的脑ct医学报告生成方法
CN111275118B (zh) 基于自我修正式标签生成网络的胸片多标签分类方法
CN116013449B (zh) 融合临床信息与磁共振图像的心肌病预后辅助预测方法
CN116230154A (zh) 基于记忆强化Transformer的胸腔X光诊断报告生成方法
CN114220516A (zh) 一种基于层级循环神经网络解码的脑ct医学报告生成方法
CN111242059B (zh) 基于递归记忆网络的无监督图像描述模型的生成方法
CN115658886A (zh) 基于语义文本的智能肝癌分期方法、系统及介质
CN115471716A (zh) 一种基于知识蒸馏的胸部放射影像疾病分类模型轻量化方法
CN111784713A (zh) 一种引入注意力机制的u形心脏分割方法
CN117316369B (zh) 平衡跨模态信息的胸部影像诊断报告自动生成方法
CN117393098A (zh) 基于视觉先验和跨模态对齐网络的医疗影像报告生成方法
CN112668481A (zh) 一种遥感图像语义抽取方法
CN112419322A (zh) 一种基于3d多尺度多池化特征融合网络的颞骨外半规管分割方法
CN112562809A (zh) 一种基于电子病历文本进行辅助诊断的方法及系统
CN116524352A (zh) 一种遥感图像水体提取方法及装置
CN115909455A (zh) 多尺度特征提取与注意力机制融合的表情识别方法
CN115588486A (zh) 一种基于Transformer的中医诊断生成装置及其应用
CN114387282A (zh) 一种医学影像器官精准自动分割方法及系统
CN114170460A (zh) 一种基于多模态融合的艺术品分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant