CN111984772A - 一种基于深度学习的医疗影像问答方法及系统 - Google Patents
一种基于深度学习的医疗影像问答方法及系统 Download PDFInfo
- Publication number
- CN111984772A CN111984772A CN202010719316.1A CN202010719316A CN111984772A CN 111984772 A CN111984772 A CN 111984772A CN 202010719316 A CN202010719316 A CN 202010719316A CN 111984772 A CN111984772 A CN 111984772A
- Authority
- CN
- China
- Prior art keywords
- medical image
- visual
- encoder
- question
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013135 deep learning Methods 0.000 title claims abstract description 25
- 230000000007 visual effect Effects 0.000 claims abstract description 103
- 238000012549 training Methods 0.000 claims abstract description 54
- 230000008569 process Effects 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 2
- 230000007774 longterm Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims 1
- 238000011160 research Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 210000001015 abdomen Anatomy 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000003187 abdominal effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000011976 chest X-ray Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Public Health (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Pathology (AREA)
- Human Computer Interaction (AREA)
- Epidemiology (AREA)
- Computational Linguistics (AREA)
- Primary Health Care (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开一种基于深度学习的医疗影像问答方法及系统,所述方法包括:采用多任务预训练方法,利用非医疗影像问答数据训练视觉编码器;导入预先训练好的模型权重,获取医疗影像以及对应的问题;通过视觉编码器提取医疗影像的视觉特征,并根据视觉特征图的尺寸,定义空间特征;通过文本编码器提取文本特征;通过跨模态自注意力模块对视觉、空间和文本特征进行融合,得到多模态特征;将多模态特征输入多层感知机中推断出估计的答案;根据估计的答案和实际的答案、估计的医疗影像类型和实际的医疗影像类型计算损失,更新模型参数;采用不同的医疗影像和不同的问题多次迭代式地进行上述过程直至符合停止条件。本发明能够提升医疗影像问答的准确率。
Description
技术领域
本发明涉及计算机视觉和自然语言处理技术领域,尤其涉及一种基于深度学习的医疗影像问答方法及系统。
背景技术
医疗影像问答是指给定一张医疗影像以及与其相关的问题,需要根据医疗影像的内容来回答问题。近几年,这项任务受到越来越多的关注。
当前医疗影像问答系统一般参照视觉问答系统进行设计,许多医疗影像问答系统采用卷积神经网络来提取图像的特征,并利用长短期记忆网络或者基于Transformer的模型来提取问题的特征,然后利用已有的跨模态融合策略来对提取得到的两个模态的特征进行结合。例如:J.J.Lau等人在2018年的研究工作“A dataset of clinically generatedvisual questions and answers about radiology images”(Scientific data,pages 1-10,2018)尝试使用了MCB和SAN两种为自然图像的视觉问答系统设计的跨模态特征融合策略。与基于自然图像的视觉问答系统相比,医疗影像问答系统需要理解医疗术语并关注医疗影像中相应的视觉内容。然而,现有的医疗影像问答系统并没有意识到这些问题的严重性,而是直接借鉴了基于自然图像的视觉问答系统的技术,这导致了系统的预测准确性的瓶颈。
除此之外,医疗影像问答任务还受到数据量少的局限,许多研究工作都需要借助迁移学习来获得有效的图像特征表示。X.Yan等人在2019年的研究工作“Zhejianguniversity at imageclef 2019visual question answering in the medical domain”(Working Notes of CLEF,2019)使用在ImageNet数据集上预训练得到的VGGNet来编码医疗影像。I.Allaouzi等人在2019年的研究工作“An encoder-decoder model for visualquestion answering in the medical domain”(Working Notes of CLEF,2019)利用一个大型的胸部X射线影像数据集CheXpert来预训练DenseNet-121作为视觉特征编码器。此外,B.D.Nguyen等人在2019年的研究工作“Overcoming data limitation in medical visualquestion answering”(International Conference on Medical Image Computing andComputer-AssistedIntervention,pages 522-530,2019)利用大量没有标注的医疗影像通过重建任务来预训练其无监督去噪自动编码器。然而,现有的工作没有考虑到用于跨模态融合的特征的兼容性和适用性。
发明内容
为克服上述现有技术存在的不足,本发明的目的在于提供一种基于深度学习的医疗影像问答方法及系统,通过有效地利用额外的数据来解决医疗影像问答数据量少的问题,并高效地融合视觉和文本两个不同模态的特征,从而提升医疗影像问答的准确率。
第一方面,本发明实施例提供一种基于深度学习的医疗影像问答方法,包括:
S1、采用多任务预训练方法,利用非医疗影像问答数据集的图像以及医疗影像问答数据集的问题训练视觉编码器;
S2、导入预先训练好的模型权重,获取医疗影像以及对应的问题;
S3、通过所述视觉编码器提取所述医疗影像的视觉特征,并根据视觉特征图的尺寸,定义一组空间特征;通过文本编码器提取文本特征;
S4、通过跨模态自注意力模块对所述视觉特征、所述空间特征、所述文本特征进行融合,得到多模态特征;
S5、将所述多模态特征输入到所述多层感知机中推断出估计的答案;
S6、根据所述估计的答案和实际的答案、估计的医疗影像类型和实际的医疗影像类型计算总交叉熵损失;
S7、根据所述交叉熵损失更新所述模型参数;
S8、采用不同的医疗影像和不同的问题多次迭代式地进行S2-S7步骤,直至符合停止条件。
进一步地,在所述通过所述视觉编码器提取所述医疗影像的视觉特征,并根据视觉特征图的尺寸,定义一组空间特征之前,还包括,对所述医疗影像和问答数据分别进行预处理,具体为:
将所述医疗影像随机裁剪成预设地固定大小;
将所述问题的单词数目缩减或增加到预设的数目。
进一步地,所述通过文本编码器提取所述问题的文本特征,包括:
通过词嵌入模型对所述问题中的单词映射得到词向量;
根据所述词向量,通过长短期记忆网络建模序列信息,得到所述问题的文本特征。
进一步地,所述跨模态自注意力模块能通过学习和利用长期的上下文相关性来融合所述视觉特征、空间特征和文本特征。
进一步地,所述视觉编码器包括,N个子视觉编码器和M个医疗影像分类器,其中,N大于1,M大于等于1。
进一步地,当所述视觉编码器包括N个子视觉编码器和1个医疗影像分类器时,所述通过所述视觉编码器提取所述医疗影像的视觉特征,具体为:
采用所述医疗影像分类器的输出对所有所述子视觉编码器提取的特征进行加权组合,得到所述视觉特征。
所述视觉编码器包括三个子视觉编码器和一个医疗影像分类器,所述三个子视觉编码器分别为第一子视觉编码器、第二子视觉编码器、和第三子视觉编码器;其中,所述第一子视觉编码器的结构、第二子视觉编码器结构、第三子视觉编码器的结构相同;所述第一子视觉编码器的训练集、第二子视觉编码器训练集、第三子视觉编码器的训练集不同;所述分类器的训练集包括所述第一子视觉编码器的训练集、第二子视觉编码器训练集和第三子视觉编码器的训练集。
进一步地,所述多任务包括图像理解任务、问题与图像匹配任务;其中,所述图像理解任务为分割任务或者分类任务;
所述子视觉编码器的训练方法为:
从非医疗影像数据集中获取一张图像,以及从医疗影像数据集中随机抽取一个问题;
从所述非医疗影像问答数据集中获取所述图像对应的图像理解任务的标注;
获取所述问题与图像匹配任务的标注;
通过子视觉编码器提取所述图像的视觉特征,并根据视觉特征图的尺寸,定义一组空间特征;
通过文本编码器提取所述问题文本特征;
将所述视觉特征输入到特定图像理解任务对应的解码器进行解码,得到对应任务的结果;
通过跨模态自注意力模块对所述视觉特征、所述空间特征、所述文本特征进行融合,得到多模态特征;
将所述多模态特征输入到分类器中,得到所述问题与所述图像的估计匹配度;
根据所述估计的匹配度与所述问题与图像匹配任务的标注、所述结果和所述图像理解任务的标注计算交叉熵损失,更新模型参数;
采用非医疗影像问答数据集中不同的图像和医疗影像问答数据集中不同的问题多次迭代式地进行上述所有步骤的训练过程,直至符合停止条件。
第二方面,本发明实施例提供一种基于深度学习的医疗影像问答系统,包括:
预训练单元,用于采用多任务预训练方法,利用非医疗影像问答数据集的图像以及医疗影像问答数据集的问题训练视觉编码器;
预处理单元,用于导入预先训练好的模型权重,获取医疗影像以及对应的问题;
特征提取单元,用于通过所述视觉编码器提取所述医疗影像的视觉特征,并根据视觉特征图的尺寸,定义一组空间特征;通过文本编码器提取文本特征;
特征融合单元,用于通过跨模态自注意力模块对所述视觉特征、所述空间特征、所述文本特征进行融合,得到多模态特征;
估计答案生成单元,用于将所述多模态特征输入到所述多层感知机中推断出估计的答案;
总交叉熵损失计算单元,用于根据所述估计的答案和实际的答案、估计的医疗影像类型和实际的医疗影像类型计算总交叉熵损失;
更新单元,用于根据所述交叉熵损失更新所述模型参数;
迭代训练单元,用于采用不同的医疗影像和不同的问题多次迭代式地执行预处理单元-更新单元,直至符合停止条件。
进一步地,所述预处理单元还用于,在所述通过所述视觉编码器提取所述医疗影像的视觉特征,并根据视觉特征图的尺寸,定义一组空间特征之前,对所述医疗影像和问答数据分别进行预处理,具体为:
将所述医疗影像随机裁剪成预设地固定大小;
将所述问题的单词数目缩减或增加到预设的数目
相比于现有技术,本发明实施例的有益效果在于:
本发明实施例通过采用采用多任务预训练方法,利用非医疗影像问答数据集的图像以及医疗影像问答数据集的问题训练视觉编码器;导入预先训练好的模型权重,获取医疗影像以及对应的问题;通过所述视觉编码器提取所述医疗影像的视觉特征,并根据视觉特征图的尺寸,定义一组空间特征;通过文本编码器提取文本特征;通过跨模态自注意力模块对所述视觉特征、所述空间特征、所述文本特征进行融合,得到多模态特征;将所述多模态特征输入到所述多层感知机中推断出估计的答案;根据所述估计的答案和实际的答案、估计的医疗影像类型和实际的医疗影像类型计算总交叉熵损失;根据所述交叉熵损失更新模型参数;采用不同的医疗影像和不同的问题多次迭代式地进行训练过程直至符合停止地条件。本发明实施例通过有效地利用额外地数据来解决医疗影像问答数据量少的问题,并高效地融合了视觉和文本两个不同模态的特征,从而提升了医疗影像问答的准确率。
附图说明
图1是本发明实施例提供的一种基于深度学习的医疗影像问答方法的流程图;
图2是本发明实施例提供的医疗影像问答模型的结构图;
图3是本发明实施例中进行多任务预训练的模型结构图;
图4是本发明实施例提供的一种基于深度学习的医疗影像问答系统的系统架构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种基于深度学习的医疗影像问答方法,包括步骤S1-S8:
S1、采用多任务预训练方法,利用非医疗影像问答数据集的图像以及医疗影像问答数据集的问题训练视觉编码器;
S2、导入预先训练好的模型权重,从医疗影像数据集中获取医疗影像以及对应的问题;
S3、通过所述视觉编码器提取所述医疗影像的视觉特征,并根据视觉特征图的尺寸,定义一组空间特征;通过文本编码器提取文本特征;
S4、通过跨模态自注意力模块对所述视觉特征、所述空间特征、所述文本特征进行融合,得到多模态特征;
S5、将所述多模态特征输入到所述多层感知机中推断出估计的答案;
S6、根据所述估计的答案和实际的答案、估计的医疗影像类型和实际的医疗影像类型计算总交叉熵损失;
S7、根据所述交叉熵损失更新所述模型参数;
S8、采用不同的医疗影像和不同的问题多次迭代式地进行S2-S7步骤,直至符合停止条件。
作为本发明实施例的一种举例,步骤S1中,所述视觉编码器包括,N个子视觉编码器和M个医疗影像分类器,其中,N大于1,M大于等于1。
作为本发明实施例的一种举例,当所述视觉编码器包括,N个子视觉编码器和M个医疗影像分类器时,所述子视觉编码器的训练方法包括S101-S108:
S101、从非医疗影像数据集中获取一张图像,以及从医疗影像数据集中随机抽取一个问题;
S102、从所述非医疗影像问答数据集中获取所述图像对应的图像理解任务的标注;其中,所述图像理解认为为分割任务或分类任务;
S103、获取所述问题与图像匹配任务的标注;
在本发明实施例中,可通过判断在所述医疗影像问答数据集中是否存在由所述抽取的问题与给出的影像所对应的器官构成的问题图像对获得所述问题与图匹配任务的标注,无需手工标注。
S104、通过子视觉编码器提取所述图像的视觉特征,并根据视觉特征图的尺寸,定义一组空间特征;通过文本编码器提取所述问题文本特征;
S105、将所述视觉特征输入到特定图像理解任务对应的解码器进行解码,得到对应任务的结果;
S106、通过跨模态自注意力模块对所述视觉特征、所述空间特征、所述文本特征进行融合,得到多模态特征;
S107、将所述多模态特征输入到分类器中,得到所述问题与所述图像的估计匹配度;
S108、根据所述估计的匹配度与所述问题与图像匹配任务的标注、所述结果和所述图像理解任务的标注计算交叉熵损失,更新模型参数;
S109、采用非医疗影像问答数据集中不同的图像和医疗影像问答数据集中不同的问题多次迭代式地进行步骤S101-步骤S108的训练过程,直至符合停止条件。
由上可见,通过所述子视觉编码器的训练方法,采用不同的非医疗影像问答数据集能够得到多个不同权重的子视觉编码器。
作为本发明实施例的一种举例,步骤S1中,所述视觉编码器包括三个子视觉编码器和一个医疗影像分类器,所述三个子视觉编码器分别为第一子视觉编码器、第二子视觉编码器、和第三子视觉编码器;其中,所述第一子视觉编码器的结构、第二子视觉编码器结构、第三子视觉编码器的结构相同;所述第一子视觉编码器的训练集、第二子视觉编码器训练集、第三子视觉编码器的训练集不同;所述分类器的训练集包括所述第一子视觉编码器的训练集、第二子视觉编码器训练集和第三子视觉编码器的训练集。
优选的,所述子视觉编码器采用K.He等人的研究工作“Deep residual learningfor image recognition”(In Proceedings of the IEEE conference on computervision and pattern recognition,pages 770-778,2016)中的ResNet-34模型,所述医疗影像分类器由卷积层、两个最大值池化层、两个全连接层、四个批量标准化层、一个随机失活层以及ReLU激活函数构成。由于本发明实施例的第一子视觉编码器的训练集、第二子视觉编码器训练集、第三子视觉编码器的训练集不同,即本发明实施例一共使用了三个非医疗影像问答数据集,故在此步骤能得到三个预训练好的ResNet-34模型。
当所述子视觉编码器采用的是K.He等人的研究工作“Deep residual learningfor image recognition”(In Proceedings of the IEEE conference on computervision andpattern recognition,pages 770-778,2016)中的ResNet-34模型,所述文本编码器包括词嵌入模型和长短期记忆网络时,进行多任务预训练的模型结构图如图3所示。
作为本发明实施例地一种举例,所述三个预训练好的ResNet-34模型分别用于提取头部、胸部和腹部影像的视觉特征,所述医疗分类器用于将所述医疗影像分成三个类别——头部、胸部和腹部。
步骤S2中,导入的模型权重是步骤S1中视觉编码器的权重以及预训练好的词嵌入模型的权重,
作为本发明实施例的一种举例,当所述视觉编码器包括三个子视觉编码器和一个医疗影像分类器时,导入的权重则是第一个子视觉编码器的权重、第二子视觉编码器的权重、第三子视觉编码器的权重、医疗影像分类器器的权重以及训练好的词嵌入模型的权重。优选地,导入三个预训练好的ResNet-34模型的权重,和Y.Zhang等人研究工作“Biowordvec,improving biomedical word embeddings with subword information andmesh”(Scientific data,pages 1-9,2019)的词嵌入模型的权重。
作为本发明实施例的一种举例,在步骤S3之前,即在所述通过所述视觉编码器提取所述医疗影像的视觉特征,并根据视觉特征图的尺寸,定义一组空间特征之前,还包括,对所述医疗影像和问答数据分别进行预处理,具体为:
将所述医疗影像随机裁剪成预设地固定大小;优选地,裁剪为224×224;
将所述问题的单词数目缩减或增加到预设的数目;优选地,是所述问题包含的单词数目为12。
将所述图像随机裁剪成预设地固定大小;优选地,裁剪为224×224;
将所述问题的单词数目缩减或增加到预设的数目;优选地,是所述问题包含的单词数目为12。
作为本发明实施例的一种举例,当所述视觉编码器包括N个子视觉编码器和1个医疗影像分类器时,所述通过所述视觉编码器提取所述医疗影像的视觉特征,具体为:
采用所述医疗影像分类器的输出对所有所述子视觉编码器提取的特征进行加权组合,得到所述视觉特征。
作为本发明实施例的一种举例,步骤S3中,当所述视觉编码器包括三个子视觉编码器和一个医疗影像分类器时,且所述三个子视觉编码器分别用于提取腹部的影像特征、头部的影像特征和胸部的影像特征时,所述医疗影像分类器根据其输出权重按下列公式对所述三个子视觉编码器得到的特征进行加权组合:
v=w1va+w2vh+w3vc
其中,va、vh、vc分别表示用于提取腹部、头部、胸部影像的特征的子视觉编码器的输出;w是医疗影像分类器输出的权重向量,该向量和为1。
在本发明实施例中,优选地,所述子视觉编码器采用的是K.He等人的研究工作“Deep residual learning for image recognition”(In Proceedings of the IEEEconference on computer vision and pattern recognition,pages 770-778,2016)中的ResNet-34模型。
作为本发明实施例的一种举例,步骤S3中,所述空间特征用于编码特图的左上角、中心、右下角、宽度和高度的标准化坐标。
图2是其中一种医疗影像问答模型的结构图,包括视觉编码器、文本编码器、跨模态自注意力模块以及多层感知机;所述视觉编码器由三个ResNet34模型和一个医疗影像分类器构成,所述文本编码器由词嵌入模型和长短期记忆网络组成,所述跨模态自注意力模块接收视觉编码器输出的视觉特征、文本编码器输出的文本特征以及定义的空间特征。
在本发明实施例中,在进入多层感机中之前,视觉特征的维度为7×7×512,空间特征的维度为7×7×8,文本特征的维度为12×1024。对于问题中每个单词,将其特征表示与每个空间位置上的视觉与空间特征拼接起来,然后将得到的所有拼接特征串联起来,得到多模态特征F,其维度为12×7×7×1544。之后,本发明将利用自注意力机制在多模态特征F上捕获非局部的上下文信息,进而更好地融合多模态的信息。
自注意力机制首先对多模态特征F采用三个1×1×1卷积进行线性变换,得到三个特征Q、K、V,它们的维度都是12×7×7×772。之后,将其维度调整成588×772,并利用特征Q和K按以下的公式来计算注意力图A:
A=soft max(QKT)
其中,注意力图A的维度为588×588,表示不同位置的特征之间的相关性。然后,利用注意力图A与特征V相乘,得到增强后的多模态特征F',其维度为588×772。之后,将多模态特征F'的维度进行调整,并使用1×1×1卷积来恢复特征的通道数目,得到维度为12×7×7×1544的多模态特征F′。进一步地,通过多模态特征F'进行如下地残差链接和平均池化操作得到最终地多模态特征
其中,i、j、k为特征图F'前三个维度的下标,用于索引单词数、特征图的高和宽、特征F'的维度为12x1544。之后,将多模态特征线性转换成维度与文本特征q一致的特征,与文本特征q相加,并沿着单词数那一维度累加,输入到2层的感知机中生成估计的答案,如下面公式所示:
其中,MLP为多层感知机,s表示在候选答案中各答案的预测分数,通过选取分数最高的哪一个候选答案即为模型最终预测的答案。
于步骤S6中,所述根据估计的答案和实际的答案、估计的医疗影像类型和实际的医疗影像类型计算总交叉熵损失,具体地:
根据所述估计的答案和实际的答案计算第一交叉熵损,根据所述估计的医疗影像类型和实际的医疗影像类型计算第二交叉熵损失算;
根据所述第一交叉熵损失、第二交叉熵损失以及平衡所述第一交叉熵损失和第二交叉熵损失的超参计算总交叉熵损失。
所述计算所述总交叉熵损失的公式为:
L=Lvqa+aLtype
其中,a为平衡第一交叉熵损失和第二交叉熵损失的超参计算总交叉熵损失,Lvqa为第一交叉熵损失,Ltype为第二交叉熵损失。优选地,a设为0.5。
综上所述,本发明实施例提供一种基于深度学习的医疗影像问答方法,通过采用采用多任务预训练方法,利用非医疗影像问答数据集的图像以及医疗影像问答数据集的问题训练视觉编码器;导入预先训练好的模型权重,获取医疗影像以及对应的问题;通过所述视觉编码器提取所述医疗影像的视觉特征,并根据视觉特征图的尺寸,定义一组空间特征;通过文本编码器提取文本特征;通过跨模态自注意力模块对所述视觉特征、所述空间特征、所述文本特征进行融合,得到多模态特征;将所述多模态特征输入到所述多层感知机中推断出估计的答案;根据所述估计的答案和实际的答案、估计的医疗影像类型和实际的医疗影像类型计算总交叉熵损失;根据所述交叉熵损失更新模型参数;采用不同的医疗影像和不同的问题多次迭代式地进行训练过程直至符合停止地条件。本发明实施例通过有效地利用额外地数据来解决医疗影像问答数据量少的问题,并高效地融合了视觉和文本两个不同模态的特征,从而提升了医疗影像问答的准确率。
请参阅图4,本发明实施例还提供一种基于深度学习的医疗影像问答系统,包括:
预训练单元401,用于采用多任务预训练方法,利用非医疗影像问答数据集的图像以及医疗影像问答数据集的问题训练视觉编码器;
预处理单元402,用于导入预先训练好的模型权重,从医疗影像数据集中获取医疗影像以及对应的问题;
特征提取单元403,用于通过所述视觉编码器提取所述医疗影像的视觉特征,并根据视觉特征图的尺寸,定义一组空间特征;通过文本编码器提取文本特征;
特征融合单元404,用于通过跨模态自注意力模块对所述视觉特征、所述空间特征、所述文本特征进行融合,得到多模态特征;
估计答案生成单元405,用于将所述多模态特征输入到所述多层感知机中推断出估计的答案;
总交叉熵损失计算单元406,用于根据所述估计的答案和实际的答案、估计的医疗影像类型和实际的医疗影像类型计算总交叉熵损失;
更新单元407,用于根据所述交叉熵损失更新模型参数;
迭代训练单元408,用于采用不同的医疗影像和不同的问题多次迭代式地执行预处理单元401-更新单元407,直至符合停止条件。
进一步地,所述预处理单元还用于,在所述通过所述视觉编码器提取所述医疗影像的视觉特征,并根据视觉特征图的尺寸,定义一组空间特征之前,对所述医疗影像和问答数据分别进行预处理,具体为:
将所述医疗影像随机裁剪成预设地固定大小;
将所述问题的单词数目缩减或增加到预设的数目。
需要说明的是,由于本发明实施例基于深度学习的医疗影像问答系统是于基于深度学习的医疗影像问答方法意义对应的系统项,因此本发明实施例基于深度学习的医疗影像问答系统的内容不再做过多赘述。
相比于现有技术,本发明实施例的有益效果在于:
本发明实施例通过采用采用多任务预训练方法,利用非医疗影像问答数据集的图像以及医疗影像问答数据集的问题训练视觉编码器;导入预先训练好的模型权重,获取医疗影像以及对应的问题;通过所述视觉编码器提取所述医疗影像的视觉特征,并根据视觉特征图的尺寸,定义一组空间特征;通过文本编码器提取文本特征;通过跨模态自注意力模块对所述视觉特征、所述空间特征、所述文本特征进行融合,得到多模态特征;将所述多模态特征输入到所述多层感知机中推断出估计的答案;根据所述估计的答案和实际的答案、估计的医疗影像类型和实际的医疗影像类型计算总交叉熵损失;根据所述交叉熵损失更新模型参数;采用不同的医疗影像和不同的问题多次迭代式地进行训练过程直至符合停止地条件。本发明实施例通过有效地利用额外地数据来解决医疗影像问答数据量少的问题,并高效地融合了视觉和文本两个不同模态的特征,从而提升了医疗影像问答的准确率。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种基于深度学习的医疗影像问答方法,其特征在于,包括:
S1、采用多任务预训练方法,利用非医疗影像问答数据集的图像以及医疗影像问答数据集的问题训练视觉编码器;
S2、导入预先训练好的模型权重,从医疗影像数据集中获取医疗影像以及对应的问题;
S3、通过所述视觉编码器提取所述医疗影像的视觉特征,并根据视觉特征图的尺寸,定义一组空间特征;通过文本编码器提取文本特征;
S4、通过跨模态自注意力模块对所述视觉特征、所述空间特征、所述文本特征进行融合,得到多模态特征;
S5、将所述多模态特征输入到所述多层感知机中推断出估计的答案;
S6、根据所述估计的答案和实际的答案、估计的医疗影像类型和实际的医疗影像类型计算总交叉熵损失;
S7、根据所述交叉熵损失更新所述模型参数;
S8、采用不同的医疗影像和不同的问题多次迭代式地进行S2-S7步骤,直至符合停止条件。
2.根据权利要求1所述的基于深度学习的医疗影像问答方法,其特征在于,在所述通过所述视觉编码器提取所述医疗影像的视觉特征,并根据视觉特征图的尺寸,定义一组空间特征之前,还包括,对所述医疗影像和问答数据分别进行预处理,具体为:
将所述医疗影像随机裁剪成预设地固定大小;
将所述问题的单词数目缩减或增加到预设的数目。
3.根据权利要求1或2所述的基于深度学习的医疗影像问答方法,其特征在于,所述通过文本编码器提取所述问题的文本特征,包括:
通过词嵌入模型对所述问题中的单词映射得到词向量;
根据所述词向量,通过长短期记忆网络建模序列信息,得到所述问题的文本特征。
4.根据权利要求1或2所述的基于深度学习的医疗影像问答方法,其特征在于,
所述跨模态自注意力模块能通过学习和利用长期的上下文相关性来融合所述视觉特征、空间特征和文本特征。
5.根据权利要求1或2所述的基于深度学习的医疗影像问答方法,其特征在于,所述视觉编码器包括,N个子视觉编码器和M个医疗影像分类器,其中,N大于1,M大于等于1。
6.根据权利要求1或2所述的基于深度学习的医疗影像问答方法,其特征在于,当所述视觉编码器包括N个子视觉编码器和1个医疗影像分类器时,所述通过所述视觉编码器提取所述医疗影像的视觉特征,具体为:
采用所述医疗影像分类器的输出对所有所述子视觉编码器提取的特征进行加权组合,得到所述视觉特征。
7.根据权利要求6所述的基于深度学习的医疗影像问答方法,其特征在于,所述视觉编码器包括三个子视觉编码器和一个医疗影像分类器,所述三个子视觉编码器分别为第一子视觉编码器、第二子视觉编码器、和第三子视觉编码器;其中,所述第一子视觉编码器的结构、第二子视觉编码器结构、第三子视觉编码器的结构相同;所述第一子视觉编码器的训练集、第二子视觉编码器训练集、第三子视觉编码器的训练集不同;所述分类器的训练集包括所述第一子视觉编码器的训练集、第二子视觉编码器训练集和第三子视觉编码器的训练集。
8.根据权利要求5所述的基于深度学习的医疗影像问答方法,其特征在于,所述多任务包括图像理解任务、问题与图像匹配任务;其中,所述图像理解任务为分割任务或者分类任务;
所述子视觉编码器的训练方法为:
从非医疗影像数据集中获取一张图像,以及从医疗影像数据集中随机抽取一个问题;
从所述非医疗影像问答数据集中获取所述图像对应的图像理解任务的标注;
获取所述问题与图像匹配任务的标注;
通过子视觉编码器提取所述图像的视觉特征,并根据视觉特征图的尺寸,定义一组空间特征;
通过文本编码器提取所述问题文本特征;
将所述视觉特征输入到特定图像理解任务对应的解码器进行解码,得到对应任务的结果;
通过跨模态自注意力模块对所述视觉特征、所述空间特征、所述文本特征进行融合,得到多模态特征;
将所述多模态特征输入到分类器中,得到所述问题与所述图像的估计匹配度;
根据所述估计的匹配度与所述问题与图像匹配任务的标注、所述结果和所述图像理解任务的标注计算交叉熵损失,更新所述模型参数;
采用非医疗影像问答数据集中不同的图像和医疗影像问答数据集中不同的问题多次迭代式地进行上述所有步骤的训练过程,直至符合停止条件。
9.根据权利要求6所述的基于深度学习的医疗影像问答方法,其特征在于,所述多任务包括图像理解任务、问题与图像匹配任务;其中,所述图像理解任务为分割任务或者分类任务;
所述子视觉编码器的训练方法为:
从非医疗影像数据集中获取一张图像,以及从医疗影像数据集中随机抽取一个问题;
从所述非医疗影像问答数据集中获取所述图像对应的图像理解任务的标注;
获取所述问题与图像匹配任务的标注;
通过子视觉编码器提取所述图像的视觉特征,并根据视觉特征图的尺寸,定义一组空间特征;
通过文本编码器提取所述问题文本特征;
将所述视觉特征输入到特定图像理解任务对应的解码器进行解码,得到对应任务的结果;
通过跨模态自注意力模块对所述视觉特征、所述空间特征、所述文本特征进行融合,得到多模态特征;
将所述多模态特征输入到分类器中,得到所述问题与所述图像的估计匹配度;
根据所述估计的匹配度与所述问题与图像匹配任务的标注、所述结果和所述图像理解任务的标注计算交叉熵损失,更新所述模型参数;
采用非医疗影像问答数据集中不同的图像和医疗影像问答数据集中不同的问题多次迭代式地进行上述所有步骤的训练过程,直至符合停止条件。
10.一种基于深度学习的医疗影像问答系统,其特征在于,包括:
预训练单元,用于采用多任务预训练方法,利用非医疗影像问答数据集的图像以及医疗影像问答数据集的问题训练视觉编码器;
预处理单元,用于导入预先训练好的模型权重,从医疗影像数据集中获取医疗影像以及对应的问题;
特征提取单元,用于通过所述视觉编码器提取所述医疗影像的视觉特征,并根据视觉特征图的尺寸,定义一组空间特征;通过文本编码器提取文本特征;
特征融合单元,用于通过跨模态自注意力模块对所述视觉特征、所述空间特征、所述文本特征进行融合,得到多模态特征;
估计答案生成单元,用于将所述多模态特征输入到所述多层感知机中推断出估计的答案;
总交叉熵损失计算单元,用于根据所述估计的答案和实际的答案、估计的医疗影像类型和实际的医疗影像类型计算总交叉熵损失;
更新单元,用于根据所述交叉熵损失更新模型参数;
迭代训练单元,用于采用不同的医疗影像和不同的问题多次迭代式地执行预处理单元-更新单元,直至符合停止条件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010719316.1A CN111984772B (zh) | 2020-07-23 | 2020-07-23 | 一种基于深度学习的医疗影像问答方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010719316.1A CN111984772B (zh) | 2020-07-23 | 2020-07-23 | 一种基于深度学习的医疗影像问答方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111984772A true CN111984772A (zh) | 2020-11-24 |
CN111984772B CN111984772B (zh) | 2024-04-02 |
Family
ID=73438504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010719316.1A Active CN111984772B (zh) | 2020-07-23 | 2020-07-23 | 一种基于深度学习的医疗影像问答方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111984772B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112768041A (zh) * | 2021-01-07 | 2021-05-07 | 湖北公众信息产业有限责任公司 | 医疗云管平台 |
CN113360621A (zh) * | 2021-06-22 | 2021-09-07 | 辽宁工程技术大学 | 一种基于模态推理图神经网络的场景文本视觉问答方法 |
CN113392253A (zh) * | 2021-06-28 | 2021-09-14 | 北京百度网讯科技有限公司 | 视觉问答模型训练及视觉问答方法、装置、设备及介质 |
CN113591902A (zh) * | 2021-06-11 | 2021-11-02 | 中国科学院自动化研究所 | 基于多模态预训练模型的跨模态理解与生成方法和装置 |
CN114691847A (zh) * | 2022-03-10 | 2022-07-01 | 华中科技大学 | 基于深度感知与语义引导的关系注意力网络视觉问答方法 |
CN117152752A (zh) * | 2023-10-30 | 2023-12-01 | 之江实验室 | 一种自适应权重的视觉深度特征重建方法和装置 |
CN117253112A (zh) * | 2023-08-29 | 2023-12-19 | 哈尔滨工业大学 | 结构健康诊断大模型视觉语言跨模态学习方法 |
CN118297166A (zh) * | 2024-06-06 | 2024-07-05 | 南京邮电大学 | 基于先计划再求解思维链的科学问答任务解决方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170816A (zh) * | 2017-12-31 | 2018-06-15 | 厦门大学 | 一种基于深度神经网络的智能视觉问答模型 |
WO2019148315A1 (en) * | 2018-01-30 | 2019-08-08 | Intel Corporation | Visual question answering using visual knowledge bases |
CN110377710A (zh) * | 2019-06-17 | 2019-10-25 | 杭州电子科技大学 | 一种基于多模态融合的视觉问答融合增强方法 |
CN110717431A (zh) * | 2019-09-27 | 2020-01-21 | 华侨大学 | 一种结合多视角注意力机制的细粒度视觉问答方法 |
CN110895561A (zh) * | 2019-11-13 | 2020-03-20 | 中国科学院自动化研究所 | 基于多模态知识感知的医疗问答检索方法、系统、装置 |
CN111222339A (zh) * | 2020-01-13 | 2020-06-02 | 华南理工大学 | 一种基于对抗多任务学习的医疗咨询命名实体识别方法 |
-
2020
- 2020-07-23 CN CN202010719316.1A patent/CN111984772B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170816A (zh) * | 2017-12-31 | 2018-06-15 | 厦门大学 | 一种基于深度神经网络的智能视觉问答模型 |
WO2019148315A1 (en) * | 2018-01-30 | 2019-08-08 | Intel Corporation | Visual question answering using visual knowledge bases |
CN110377710A (zh) * | 2019-06-17 | 2019-10-25 | 杭州电子科技大学 | 一种基于多模态融合的视觉问答融合增强方法 |
CN110717431A (zh) * | 2019-09-27 | 2020-01-21 | 华侨大学 | 一种结合多视角注意力机制的细粒度视觉问答方法 |
CN110895561A (zh) * | 2019-11-13 | 2020-03-20 | 中国科学院自动化研究所 | 基于多模态知识感知的医疗问答检索方法、系统、装置 |
CN111222339A (zh) * | 2020-01-13 | 2020-06-02 | 华南理工大学 | 一种基于对抗多任务学习的医疗咨询命名实体识别方法 |
Non-Patent Citations (1)
Title |
---|
HEDI BEN-YOUNES 等: ""BLOCK: Bilinear Superdiagonal Fusion for Visual Question Answering and Visual Relationship Detection"", 《ARXIV》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112768041B (zh) * | 2021-01-07 | 2022-04-08 | 湖北公众信息产业有限责任公司 | 医疗云管平台 |
CN112768041A (zh) * | 2021-01-07 | 2021-05-07 | 湖北公众信息产业有限责任公司 | 医疗云管平台 |
CN113591902A (zh) * | 2021-06-11 | 2021-11-02 | 中国科学院自动化研究所 | 基于多模态预训练模型的跨模态理解与生成方法和装置 |
CN113360621A (zh) * | 2021-06-22 | 2021-09-07 | 辽宁工程技术大学 | 一种基于模态推理图神经网络的场景文本视觉问答方法 |
CN113392253B (zh) * | 2021-06-28 | 2023-09-29 | 北京百度网讯科技有限公司 | 视觉问答模型训练及视觉问答方法、装置、设备及介质 |
CN113392253A (zh) * | 2021-06-28 | 2021-09-14 | 北京百度网讯科技有限公司 | 视觉问答模型训练及视觉问答方法、装置、设备及介质 |
CN114691847A (zh) * | 2022-03-10 | 2022-07-01 | 华中科技大学 | 基于深度感知与语义引导的关系注意力网络视觉问答方法 |
CN114691847B (zh) * | 2022-03-10 | 2024-04-26 | 华中科技大学 | 基于深度感知与语义引导的关系注意力网络视觉问答方法 |
CN117253112A (zh) * | 2023-08-29 | 2023-12-19 | 哈尔滨工业大学 | 结构健康诊断大模型视觉语言跨模态学习方法 |
CN117253112B (zh) * | 2023-08-29 | 2024-06-04 | 哈尔滨工业大学 | 结构健康诊断大模型视觉语言跨模态学习方法 |
CN117152752A (zh) * | 2023-10-30 | 2023-12-01 | 之江实验室 | 一种自适应权重的视觉深度特征重建方法和装置 |
CN117152752B (zh) * | 2023-10-30 | 2024-02-20 | 之江实验室 | 一种自适应权重的视觉深度特征重建方法和装置 |
CN118297166A (zh) * | 2024-06-06 | 2024-07-05 | 南京邮电大学 | 基于先计划再求解思维链的科学问答任务解决方法 |
CN118297166B (zh) * | 2024-06-06 | 2024-08-06 | 南京邮电大学 | 基于先计划再求解思维链的科学问答任务解决方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111984772B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111984772A (zh) | 一种基于深度学习的医疗影像问答方法及系统 | |
US20210034813A1 (en) | Neural network model with evidence extraction | |
CN111985369A (zh) | 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法 | |
CN110390363A (zh) | 一种图像描述方法 | |
CN111680484B (zh) | 一种视觉常识推理问答题的答题模型生成方法和系统 | |
CN111985239A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN112464865A (zh) | 一种基于像素和几何混合特征的人脸表情识别方法 | |
CN111461174A (zh) | 多层次注意力机制的多模态标签推荐模型构建方法及装置 | |
CN111949824B (zh) | 基于语义对齐的视觉问答方法和系统、存储介质 | |
CN114201592A (zh) | 面向医学图像诊断的视觉问答方法 | |
CN111311364B (zh) | 基于多模态商品评论分析的商品推荐方法及系统 | |
CN113360621A (zh) | 一种基于模态推理图神经网络的场景文本视觉问答方法 | |
WO2017149559A1 (en) | An information processing system, an information processing method and a computer readable storage medium | |
CN116129141B (zh) | 医学数据处理方法、装置、设备、介质和计算机程序产品 | |
CN113704392A (zh) | 文本中实体关系的抽取方法、装置、设备及存储介质 | |
CN113704396A (zh) | 短文本分类方法、装置、设备及存储介质 | |
CN116187349A (zh) | 一种基于场景图关系信息增强的视觉问答方法 | |
CN114092931B (zh) | 场景文字识别方法、装置、电子设备及存储介质 | |
CN114283432A (zh) | 一种文本块识别方法、装置及电子设备 | |
Sharmila et al. | An automated system for the early detection of dysgraphia using deep learning algorithms | |
Lungociu | REAL TIME SIGN LANGUAGE RECOGNITION USING ARTIFICIAL NEURAL NETWORKS. | |
CN116401364A (zh) | 语言模型的训练方法、电子设备、存储介质及产品 | |
CN113779244B (zh) | 文档情感分类方法、装置、存储介质以及电子设备 | |
CN115759262A (zh) | 基于知识感知注意力网络的视觉常识推理方法及系统 | |
Dehaqi et al. | Adversarial image caption generator network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |