CN115171838B - 基于跨模态融合的医学报告生成模型的训练方法 - Google Patents
基于跨模态融合的医学报告生成模型的训练方法 Download PDFInfo
- Publication number
- CN115171838B CN115171838B CN202211018319.8A CN202211018319A CN115171838B CN 115171838 B CN115171838 B CN 115171838B CN 202211018319 A CN202211018319 A CN 202211018319A CN 115171838 B CN115171838 B CN 115171838B
- Authority
- CN
- China
- Prior art keywords
- image
- text
- cross
- attention
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012549 training Methods 0.000 title claims abstract description 38
- 230000004927 fusion Effects 0.000 title claims abstract description 21
- 201000010099 disease Diseases 0.000 claims abstract description 41
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 41
- 230000002159 abnormal effect Effects 0.000 claims abstract description 34
- 239000013598 vector Substances 0.000 claims description 103
- 239000011159 matrix material Substances 0.000 claims description 24
- 238000013527 convolutional neural network Methods 0.000 claims description 20
- 230000009466 transformation Effects 0.000 claims description 18
- 238000011976 chest X-ray Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000003902 lesion Effects 0.000 claims description 8
- 230000005856 abnormality Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 16
- 230000000007 visual effect Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 210000004072 lung Anatomy 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 210000000056 organ Anatomy 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 208000002151 Pleural effusion Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 210000000115 thoracic cavity Anatomy 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 210000005242 cardiac chamber Anatomy 0.000 description 1
- 230000000747 cardiac effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
- G06V10/811—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10116—X-ray image
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明实施例中提供了一种基于跨模态融合的医学报告生成模型的训练方法,属于数据处理技术领域,具体包括:得到第一图像特征;关联细粒度异常区域,得到第二图像特征,以及,提取粗粒度疾病语义信息,得到第三图像特征;将第二图像特征和第三图像特征输入交叉注意力模块建模多尺度关联,得到第四图像特征;将第四图像特征和t‑1轮的第一文本特征输入文本生成模块,得到模态不变性特征;根据模态不变性特征得到第t轮医学文本预测结果,直到完成文本序列每一轮的预测,并结合源图像对应的文本标签计算文本生成损失;根据文本生成损失迭代训练得到训练好的医学报告生成模型。通过本发明的方案,实现跨模态识别,且提高了模型识别精度和鲁棒性。
Description
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种基于跨模态融合的医学报告生成模型的训练方法。
背景技术
目前,医学报告是医生与患者沟通的主要媒介,报告中的描述常常是针对于描述病灶的大小,位置,不同器官存在的可能异常等,且撰写医学报告需要专业性和规范性,需要放射科医生强大的医学知识储备和长期的医学工作经验。自动生成胸腔放射学图像的医学报告具有诸多好处,在医患关系日益紧张且医疗资源相对不足的今天,放射科医生面临着非常沉重的工作压力,在完成每日的工作之余,还需要花费大量的时间分析胸腔图像并撰写报告,详细的医学报告能够为医生诊断和后续的治疗提供极大的便利,自动生成医学报告就能够解放医生的工作压力,显著减轻医疗系统的负担。
现有的医学报告生成模型的训练方法大多遵循图像字幕生成任务中的编码器-解码器结构,编码器主要依靠基于卷积神经网络提取图像特征中不同通道的视觉语义信息,再结合注意力机制关注到X光图像中的关键部分,解码器主要基于各类序列式的模型,能够根据图像信息以及上文推理出的前t-1个文本嵌入以自回归的方式推断第t个词嵌入。现有的模型训练方法方法存在的三个不足:1)单个医学图像中存在着多个异常病灶区域,生成一份可读且医学报告需要完整的找到所有应当被重视的异常区域,并且对各个区域进行具体的描述,准确的挖掘所有异常区域是十分困难的。2)医学文本具有语义复杂性,与常规的描述使用的单词不同,对于医学报告而言,其中的医学文本包含着医学领域特点的深层语义信息,因而撰写医学报告只能够由具有丰富医学经验和医学知识的专业医生完成,模型要能具备媲美医生的推理能力,就需要对医学文本的深层语义进行挖掘。3)缺少对模态不变性特征的学习,模态不变性特征是图像和文本特征之间的语义一致性表示,然而模态之间的语义鸿沟和语义密度差异使得学习这种不变性变得十分困难,因为二维图像是一种低语义密度的信息,单个像素基本上不具有任何的表征能力,需要多个像素才能够对语义信息进行表征,而文本作为一维序列形式,单个单词就具有非常高度的概括性和表达性,虽然现有模型的结构带来了种种的好处,但还是导致模型难以拓展跨模态的推理和表达能力,报告生成效果好坏的关键因素就是学习语义级别的模态不变性特征,它能够保证在图像到文本的跨模态转化过程中引入最少的噪声,并且学习到具有图像-文本语义一致性的高级语义表示。
可见,亟需一种能实现跨模态的识别精度和鲁棒性更高的基于跨模态融合的医学报告生成模型的训练方法。
发明内容
有鉴于此,本发明实施例提供一种基于跨模态融合的医学报告生成模型的训练方法,至少部分解决现有技术中存在无法实现跨模态训练以及识别精度和鲁棒性较差的问题。
本发明实施例提供了一种基于跨模态融合的医学报告生成模型的训练方法,应用于医学报告生成模型,医学报告生成模型包括卷积神经网络模块、自注意力模块、全局特征提取模块、交叉注意力模块和文本生成模块,所述方法包括:
步骤1,将源图像输入到卷积神经网络模块,得到第一图像特征;
步骤2,将第一图像特征输入自注意力模块关联细粒度异常区域,得到第二图像特征,以及,将第一图像特征输入全局特征提取模块提取粗粒度疾病语义信息,得到第三图像特征;
步骤3,将第二图像特征和第三图像特征输入交叉注意力模块建模多尺度关联,得到第四图像特征;
步骤4,将第四图像特征和t-1轮的第一文本特征输入文本生成模块,得到模态不变性特征;
步骤5,根据模态不变性特征得到第t轮医学文本预测结果,直到完成文本序列每一轮的预测,并结合源图像对应的文本标签计算文本生成损失;
步骤6,根据文本生成损失重复步骤1至步骤6,迭代训练卷积神经网络模块、自注意力模块、全局特征提取模块、交叉注意力模块和文本生成模块直到达到预设条件,得到训练好的医学报告生成模型。
根据本发明实施例的一种具体实现方式,所述步骤1之前,所述方法还包括:
从原始数据集中获取胸腔X光图像,并将全部胸腔X光图像缩放至预设尺寸和通道数;
对全部胸腔X光图像每个通道分别减去原始数据集中各个通道的均值,进行归一化,并进行随机裁剪和随机反转,得到源图像。
根据本发明实施例的一种具体实现方式,所述步骤1具体包括:
步骤1.1,卷积神经网络模块提取源图像的局部特征,得到源图像的病灶区域表示;
步骤1.2,将病灶区域表示拉平为序列形式并添加Transformer中的位置编码,形成第一图像特征。
根据本发明实施例的一种具体实现方式,所述第一图像特征的表达式为
I0={v1,v2,...,vN}+Epos,I0∈RN×d,Epos∈RN×d,{v1,v2,...,vN}∈R1×d
其中,vi∈R1×d,i=1,2,....,N分别表示第i个异常区域特征,Epos表示Transformer中代表位置信息的编码向量,N表示异常区域特征数量,d表示异常区域特征的维度。
根据本发明实施例的一种具体实现方式,所述步骤2中将第一图像特征输入自注意力模块关联细粒度异常区域,得到第二图像特征的步骤,包括:
自注意力模块建模第一图像特征中不同异常区域特征之间的长距离依赖,自注意力层对病灶区域相互关联得到第二图像特征。
根据本发明实施例的一种具体实现方式,所述步骤2中将第一图像特征输入全局特征提取模块提取粗粒度疾病语义信息,得到第三图像特征的步骤,包括:
对第一图像特征中图像块的特征维度进行压缩得到全局语义表示;
将全局语义表示还原成与原维度相同的多个疾病嵌入向量,每一个嵌入向量表示与该疾病相关的全局语义信息;
将全部疾病嵌入向量的集合作为第三图像特征。
根据本发明实施例的一种具体实现方式,所述步骤3具体包括:
将第三图像特征输入交叉注意力模块变换为键向量和值向量,将第二图像特征输入交叉注意力模块变换为查询向量进行交叉注意力计算,得到第四图像特征,其中,交叉注意力模块的网络结构表示为
代表将第二图像特征转换为交叉注意力中查询向量的转换矩阵,代表将第三图像特征转换为交叉注意力中键向量和值向量的转换矩阵,表示交叉注意力层的带权注意力表示,Ie∈RN×d为交叉注意力层中前馈神经网络输出的第四图像特征。
根据本发明实施例的一种具体实现方式,所述步骤3之后,所述方法还包括:
根据第四图像特征和源图像的多分类标签计算疾病一致性损失;
根据疾病一致性损失更新卷积神经网络模块、自注意力模块和交叉注意力模块的参数。
根据本发明实施例的一种具体实现方式,所述步骤4具体包括:
步骤4.1,利用跨模态的注意力向量编码方式对第四图像特征和t-1轮的第一文本特征进行编码,将其编码为融合的查询向量、键向量和值向量;
步骤4.2,根据融合的查询向量、键向量计算跨模态注意力得分矩阵;
步骤4.3,根据跨模态注意力得分矩阵和融合的值向量计算得到模态不变性特征。
根据本发明实施例的一种具体实现方式,所述医学报告生成模型还包括自回归迭代模块,所述步骤6之后,所述方法还包括:
将待预测图像输入训练好的医学报告生成模型,得到其对应的第四图像特征;
将第t-1轮预测的自回归结果作为当前第t轮预测的第一文本特征,并结合第四图像特征预测第t轮的预测单词,直到识别结束符,将全部预测的单词按序列输出,得到预测医学报告。
本发明实施例中的基于跨模态融合的医学报告生成模型的训练方案,包括:步骤1,将源图像输入到卷积神经网络模块,得到第一图像特征;步骤2,将第一图像特征输入自注意力模块关联细粒度异常区域,得到第二图像特征,以及,将第一图像特征输入全局特征提取模块提取粗粒度疾病语义信息,得到第三图像特征;步骤3,将第二图像特征和第三图像特征输入交叉注意力模块建模多尺度关联,得到第四图像特征;步骤4,将第四图像特征和t-1轮的第一文本特征输入文本生成模块,得到模态不变性特征;步骤5,根据模态不变性特征得到第t轮医学文本预测结果,直到完成文本序列每一轮的预测,并结合源图像对应的文本标签计算文本生成损失;步骤6,根据文本生成损失重复步骤1至步骤6,迭代训练卷积神经网络模块、自注意力模块、全局特征提取模块、交叉注意力模块和文本生成模块直到达到预设条件,得到训练好的医学报告生成模型。
本发明实施例的有益效果为:本实施例提供一种基于跨模态融合的医学报告生成模型训练方法和医学报告生成方法,本方案的自注意力模块和交叉注意力模块通过全局的高级疾病语义信息指导模型发现所有临床诊断中不可忽略的异常区域或病灶,本方案的文本生成模块对提取的第四图像特征和t-1轮文本特征进行语义级别的跨模态注意力计算,并将这两种异构的信息融合到同一个模态不变的表征空间,模态不变性表示作为视觉和文本特征的桥梁,能够使训练的模型在后续使用过程中预测出更加具有可读性且具有临床诊断一致性的,准确率和鲁棒性高的医学报告。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种基于跨模态融合的医学报告生成模型的训练方法的流程示意图;
图2为本发明实施例提供的一种基于跨模态融合的医学报告生成模型的训练方法涉及的模型结构示意图;
图3为本发明实施例提供的一种模型预测结果的类激活可视化示意图;
图4为本发明实施例提供的训练方法训练的模型输出的医学报告预测结果与传统Transformer模型以及真实值结果的生成效果对比示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本发明,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
本发明实施例提供一种基于跨模态融合的医学报告生成模型的训练方法,所述方法可以应用于医学领域的医学影像与医学报告分析生成过程中。
参见图1,为本发明实施例提供的一种基于跨模态融合的医学报告生成模型的训练方法的流程示意图。如图1所示,所述方法主要包括以下步骤:
步骤1,将源图像输入到卷积神经网络模块,得到第一图像特征;
可选的,所述步骤1之前,所述方法还包括:
从原始数据集中获取胸腔X光图像,并将全部胸腔X光图像缩放至预设尺寸和通道数;
对全部胸腔X光图像每个通道分别减去原始数据集中各个通道的均值,进行归一化,并进行随机裁剪和随机反转,得到源图像。
进一步的,所述步骤1具体包括:
步骤1.1,卷积神经网络模块提取源图像的局部特征,得到源图像的病灶区域表示;
步骤1.2,将病灶区域表示拉平为序列形式并添加Transformer中的位置编码,形成第一图像特征。
可选的,所述第一图像特征的表达式为
I0={v1,v2,...,vN}+Epos,I0∈RN×d,Epos∈RN×d,{v1,v2,...,vN}∈R1×d
其中,vi∈R1×d,i=1,2,....,N分别表示第i个异常区域特征,Epos表示Transformer中代表位置信息的编码向量,N表示异常区域特征数量,d表示异常区域特征的维度。
具体实施时,考虑到需要获取深度学习网络中可训练的图像,所有的输入图像均可以从MIMIC-CXR和IU-Xray两个大型公开数据集中获取,原始胸腔X光图像定义为x,所有训练图像被统一缩放到T×T像素的宽高尺寸,通道数为3,对于三个通道分别减去数据集中各个通道的均值,进行归一化,并进行随机裁剪和随机反转。
然后利用卷积神经网络模块提取源图像的局部特征,局部特征对应于不同的异常\非异常器官或病灶区域,通过卷积神经网络将源图像转化为不同区域的特征图,每个特征图代表不同的病灶区域表示。
对于得到的原始胸腔X光图像x,构建152层的残差卷积神经网络(ResNet152)提取源图像为可训练的第一图像特征,维度为K×K×d(K=7,d=2048)的第一图像特征为了使胸腔X光图像符合Transformer的序列输入形式,将拉平为序列形式,并添加Transformer中的位置编码,第一图像特征I0表示为:
I0={v1,v2,...,vN}+Epos,I0∈RN×d,Epos∈RN×d,{v1,v2,...,vN}∈R1×d
vi∈R1×d,i=1,2,....,N分别表示第i个异常区域特征,Epos表示Transformer中代表位置信息的编码向量,N表示异常区域特征数量,d表示异常区域特征的维度,其中N可以为49,d可以为2048。
步骤2,将第一图像特征输入自注意力模块关联细粒度异常区域,得到第二图像特征,以及,将第一图像特征输入全局特征提取模块提取粗粒度疾病语义信息,得到第三图像特征;
在上述实施例的基础上,所述步骤2中将第一图像特征输入自注意力模块关联细粒度异常区域,得到第二图像特征的步骤,包括:
自注意力模块建模第一图像特征中不同异常区域特征之间的长距离依赖,自注意力层对病灶区域相互关联得到第二图像特征。
进一步的,所述步骤2中将第一图像特征输入全局特征提取模块提取粗粒度疾病语义信息,得到第三图像特征的步骤,包括:
对第一图像特征中图像块的特征维度进行压缩得到全局语义表示;
将全局语义表示还原成与原维度相同的多个疾病嵌入向量,每一个嵌入向量表示与该疾病相关的全局语义信息;
将全部疾病嵌入向量的集合作为第三图像特征。
具体实施时,自注意力模块可以建模第一图像特征中不同异常区域特征之间的长距离依赖,在训练过程中,对报告生成有帮助的病灶或异常区域能够相互关联。
自注意力模块采用Transformer中的自注意力层实现,本发明设计的自注意力模块包含堆叠的L层Transformer结构中的多头注意力层和前馈神经网络层,对于每一层来说,第一图像特征需要由变换矩阵转化对应的查询向量,键向量,以及值向量:
L层自注意力层的网络结构可以用下式表示:
Ii-1表示第i-1层前馈神经网络的输出,表示第i层层归一化和残差链接计算后的多头注意力层输出,Ii表示第i层前馈神经网络的输出,LayNorm为层归一化函数,用于解决由于网络深度过深造成的网络数值偏大从而影响梯度下降速度的问题,FFN()代表前馈神经网络层,前馈神经网络层的模型结构可以通过下式表示:
FFN(x)=Gelu(W1x+b1)W2+b2
其中,W1,W2为权重变换矩阵,b1,b2为偏置系数,Gelu为高斯误差线性激活函数:
L表示堆叠层数,第L层的最终输出IL∈RN×d为第二图像特征。
全局特征提取模块是为了提取第一图像特征中不同疾病所对应的全局语义信息。
全局特征模块由全局平均池化层以及一层线性层构成,先对图像块的特征维度进行压缩产生能够关注图像全局的全局语义表示,然后将全局语义表示还原成与原维度相同的14个疾病嵌入向量,每一个嵌入向量表示与该疾病相关的全局语义信息,14个疾病嵌入向量的集合就是用于下述输入的第三图像特征D。
步骤3,将第二图像特征和第三图像特征输入交叉注意力模块建模多尺度关联,得到第四图像特征;
在上述实施例的基础上,所述步骤3具体包括:
将第三图像特征输入交叉注意力模块变换为键向量和值向量,将第二图像特征输入交叉注意力模块变换为查询向量进行交叉注意力计算,得到第四图像特征,其中,交叉注意力模块的网络结构表示为
代表将第二图像特征转换为交叉注意力中查询向量的转换矩阵,代表将第三图像特征转换为交叉注意力中键向量和值向量的转换矩阵,表示交叉注意力层的带权注意力表示,Ie∈RN×d为交叉注意力层中前馈神经网络输出的第四图像特征。
具体实施时,交叉注意力模块可以通过挖掘关键的局部异常区域与对应的全局疾病嵌入向量之间的关联性选择性的强调有利于当前预测的关键区域,从而达到对关键区域全面描述的目的。
引入全局疾病嵌入能够有侧重的关联关键异常区域,为了全面的对所有关键的异常病灶和器官进行描述,就需要找到所有与潜在疾病有关的特征,通过引入疾病嵌入向量的全局性关联,使生成的每一句异常区域的描述都能够关联相关的疾病,生成的医学报告真正具有全面的诊断分析能力。
本发明将第三图像特征D变换为键向量和值向量,将第二图像特征IL变换为查询向量进行交叉注意力计算,键向量,值向量,查询向量的变换可以参考上述所述,这里不再赘述,交叉注意力层可以用下式表示:
代表将视觉特征IL转换为交叉注意力中查询向量的转换矩阵,代表将全局疾病嵌入D转换为交叉注意力中键向量和值向量的转换矩阵,表示交叉注意力层的带权注意力表示,Ie∈RN×d为交叉注意力层中前馈神经网络输出的第四图像特征,也是编码单元的最终输出。
步骤4,将第四图像特征和t-1轮的第一文本特征输入文本生成模块,得到模态不变性特征;
在上述实施例的基础上,所述步骤4具体包括:
步骤4.1,利用跨模态的注意力向量编码方式对第四图像特征和t-1轮的第一文本特征进行编码,将其编码为融合的查询向量、键向量和值向量;
步骤4.2,根据融合的查询向量、键向量计算跨模态注意力得分矩阵;
步骤4.3,根据跨模态注意力得分矩阵和融合的值向量计算得到模态不变性特征。
具体实施时,文本生成单元遵循序列生成模型传统的自回归生成模型结构,即前t-1步的生成结果与输入图像共同对第t步的文本结果进行预测,重复迭代时间步,直到预测结果出现结束符号。传统的解码器旨在学习一种视觉特征到文本特征之间的关联性映射关系,却没有充分利用好生成过程中的语义表示进行目标模态的表征学习,存留的视觉和语言模态的差异性为图像到文本的转化过程引入了不必要噪声。缺少了对文本模态内在语义表示的探索,导致生成的文本不能保证图像-文本之间的语义一致性,本发明提出了一种跨模态的文本生成模块来建模医学文本与源图像的语义一致性。
首先将医学报告数据集中的单词编码为维度大小为d的词嵌入向量,d=2048,一个向量代表一个单词。数据集中所有的医学报告会按照词频进行符号化,所有的单词都被变化为小写,且符号化的要求只有在对数据集医学报告统计结果的单词中出现次数阈值大于3次(IU-Xray数据集)和10次(MIMIC-CXR数据集)的单词才会被符号化。被统计的所有满足阈值的单词将会被符号化为维度大小为d的词嵌入向量,d=2048,一个向量代表一个单词。
第(t-1)轮的数据集中的单词作为当前第t轮预测的第一文本特征,为了使后续的视觉特征和文本特征能够在语义层面进行对齐,我们对模态内关联性和模态间关联性进行了解耦,解耦的跨模态注意力能够同时表达模态内和模态间的关联性,本发明先由一种跨模态的注意力向量编码方式对第一文本特征和第四图像特征进行编码,将其编码为融合的查询向量/键向量/值向量,可以表示为下式:
其中F表示拼接的视觉特征和文本特征,QF∈RN×d跨模态融合注意力层的查询向量,输入仅来源于文本特征,KF,VF∈R(N+t-1)×d表示跨模态融合注意力层的键向量和值向量,输入来源于文本和视觉特征,表示跨模态融合注意力层的查询向量/键向量/值向量转换矩阵,QR,KR,VR表示文本模态对应的查询向量/键向量/值向量,KI,VI表示视觉模态对应的键向量/值向量,跨模态的注意力得分计算可以表示为:
Sim(QF,KF)∈RN×(N+t-1)表示跨模态注意力得分矩阵,Softmax函数中的第一项表示文本特征与视觉特征的注意力得分,即前t-1步的文本序列图像区域之间的注意力关系,第二项为t-1步文本序列自身的上下文关系,显示的解耦模态内和模态间的注意力有助于模型挖掘医学文本背后的内在语义表示。
本步骤通过将跨模态注意力得分矩阵与对应的融合值向量进行计算,将具有模态差异的第四图像特征和第一文本特征映射到同一个跨模态公共特征子空间,通过在同一子空间合并具有语义相关性的表征来建模模态不变性,模态不变性作为图像到文本信息转换的桥梁,增加了图像-文本特征的语义一致性,缓解了视觉特征和文本特征的模态差异,减少了从图像到文本转化过程中引入的非必要噪声,从而进行更准确的预测。跨模态特征融合可以表示为:
代表文本生成模块的带权注意力表示,表示文本生成模块中前馈神经网络输出的模态不变性特征,输出的会用于下一轮预测第t+1个单词。从上式可以看到,最后输出的模态不变性特征是既具有视觉特征也具有文本特征的模态不变性特征。
步骤5,根据模态不变性特征得到第t轮医学文本预测结果,直到完成文本序列每一轮的预测,并结合源图像对应的文本标签计算文本生成损失;
具体实施时,可以在文本生成模块后加入一个由全连接层和Softmax层组成的判别器,这里的全连接层映射大小与预编码的医学文本词表大小相同,用以判别基于第t个时间步的模态不变性特征产生的预测结果为词表中的哪一个单词,并与源图像的医学文本标签计算交叉熵损失作为文本生成损失。Softmax激活函数的输出符合多项分布,即对于所有类别的预测概率之和为1,对于类别i来说,Softmax激活函数的计算公式如下:
|V|为预编码的词表大小,i代表当前类别,
文本生成单元的训练过程中,我们采用teacher forcing策略作为我们的训练策略,即训练网络的过程中,每一次都不以上一个时间步的输出作为当前时间步的文本特征输入,而是直接使用医学文本标签实际单词的预编码向量,这种强制引入真实标签进行训练的方法能够减少训练过程中出现错误预测时累积的损失过大,从而收敛缓慢的问题,显著加快模型的收敛速度,给定解码单元视觉特征和第(t-1)个时间步医学文本标签的预编码词向量其中,M为文本序列长度,文本生成单元的优化目标就是生成第t个时间步关于词单词i的条件概率分布:
p(yi|Yt-1)=Softmax(fθ(Yt-1))
其中,yi为第t个时间步类别为i的单词的条件概率分布,fθ()为可学习的网络,θ为模型参数。
网络模型参数优化由交叉熵损失函数可以表示为下式:
Lθ为文本生成模块的损失,log为对数函数。
步骤6,根据文本生成损失重复步骤1至步骤6,迭代训练卷积神经网络模块、自注意力模块、全局特征提取模块、交叉注意力模块和文本生成模块直到达到预设条件,得到训练好的医学报告生成模型。
具体实施时,考虑到需要使最终收敛的结果接近最优且加快收敛速度,避免梯度爆炸/消失,我们采用Xavier初始化方法对所有的网络参数进行初始化,使梯度保持稳定,使每一层输出的方差尽量一致,Xavier初始化使模型参数服从如下的均匀分布:
nin和nout代表输入和输出的网络层的神经元个数。
模型采用Adam算法对网络参数进行更新,学习率为2e-4,采用warmup策略对学习率进行调整,warmup率为0.1,即前10%的训练轮次学习率从0递增,能够有效缓解Transformer结构在训练前期梯度过大导致的训练不稳定的问题,例如,预设条件可以设置为训练轮数为30,前3轮随步长学习率增大,后续学习率逐步减小,所有的参数采用Xaiver初始化策略进行初始化。
本实施例提供的基于跨模态融合的医学报告生成模型的训练方法,通过关联疾病标签与对应的异常视觉区域,模型能够从不同尺度上对关键属性进行推理,从而对异常特征进行具有医学专业性的挖掘,定位以及对应属性的描述。本发明提出的跨模态融合的文本生成模块加强了文本表征的探索,增加了对文本表征内部的医学语义的挖掘,然后通过建模模态不变性表示来建模图像和文本之间的语义一致性,跨模态注意力模块能够对文本特征和视觉特征的注意力进行解耦,后续学习的公共模态表征空间作为过度的桥梁,能够将刚刚解耦的跨模态特征融合到公共表征空间,从而在潜在特征空间拉近语义相关的文本特征和视觉特征的距离,而不是学习两个空间的相似性映射,有效减少了模态异构的差异性,实现跨模态的识别,且提高了模型的识别精度和鲁棒性。
在上述实施例的基础上,所述步骤3之后,所述方法还包括:
根据第四图像特征和源图像的多分类标签计算疾病一致性损失;
根据疾病一致性损失更新卷积神经网络模块、自注意力模块和交叉注意力模块的参数。
具体实施时,为了使生成单元生成的医学报告描述与输入源图像的相关疾病具有一致性,我们在编码单元后加入一个由全连接层和Softmax层组成的判别器输出对于数据集中十四类疾病的疾病标签进行预测,使编码单元的编码结果能够与临床疾病诊断结果具有一致性,从而对卷积提取模块,自注意力模块以及交叉注意力模块的模型参数进行更新,更新过程使用Adam优化器,和小批次梯度下降算法,以二分交叉熵损失函数作为多标签分类损失函数对模型参数进行更新,如下式所示:
在上述实施例的基础上,所述医学报告生成模型还包括自回归迭代模块,所述步骤6之后,所述方法还包括:
将待预测图像输入训练好的医学报告生成模型,得到其对应的第四图像特征;
将第t-1轮预测的自回归结果作为当前第t轮预测的第一文本特征,并结合第四图像特征预测第t轮的预测单词,直到识别结束符,将全部预测的单词按序列输出,得到预测医学报告。
具体实施时,将待预测图像输入训练号的医学报告生成模块,得到其对应的第四图像特征,然后文本生成模块遵循序列生成模型传统的自回归生成模型结构,即前t-1步的生成结果与输入图像共同对第t步的文本结果进行预测,重复迭代时间步,具体的,首先将医学报告数据集中的单词编码为维度大小为d的词嵌入向量,d=2048,一个向量代表一个单词。数据集中所有的医学报告会按照词频进行符号化,所有的单词都被变化为小写,且符号化的要求只有在对数据集医学报告统计结果的单词中出现次数阈值大于3次(IU-Xray数据集)和10次(MIMIC-CXR数据集)的单词才会被符号化。被统计的所有满足阈值的单词将会被符号化为维度大小为d的词嵌入向量,d=2048,一个向量代表一个单词。
第(t-1)轮预测的自回归结果作为当前第t轮预测的第一文本特征,可以表示为:
其中M代表文本序列的长度,t代表当前预测的时间步,r1,r2,...,rt-1代表前t-1个时间步所预测单词的词嵌入向量。
医学报告生成模型的主要结构如图2所示,训练完成后模型预测的医学报告结果的类激活可视化示意图如图3所示,可以看到,对于不同的单词,模型都正确的关注到了应该关注的区域,比如心脏起搏器(“pacemaker”)模型的关注就集中在左上方的设备区域,而对于心脏轮廓扩大,模型也能够很好的关注到有心室已经心脏轮廓的改变。而对于难以察觉的肺部阴影(主要集中在左上和右上方的肺部区域),模型能够对这种相关专家才能够诊断的异常进行正确的推理,进一步说明了本发明的方法正确的关注到了所有的有必要进行针对性描述的异常区域。
如图4所示,本发明的方法能够从输入图像中挖掘出更全面的潜在属性,且对目标分类的种类以及位置有着更准确的描述,能够对医学文本的内在语义表示进行充分的推理和理解,可以看到真实值中发现了输入图像中的右下肺大块胸腔积液(描述①)以及左肺的小部分胸腔积液(描述②),右中下肺部分有肺实变(描述③),我们的模型正确的捕获了该图像中易发现的部分,且难以察觉的肺部实变也被找到,但传统的Transformer模型对描述②中左下肺的病灶进行了错误的描述,而且未能捕获到描述③所对应的肺部实变。
为了验证生成的文本的可读性,采用医学报告生成常用的BLEU,METEOR,ROUGE评价指标对经过本发明的方法训练后的模型进行了评估,表一为本发明涉及的模型在MIMIC-CXR和IU-Xray数据集下的效果与近几年来效果的对比,可以看到我BLEU-1指标在两个数据集上分别达到了38.2%和48.5%,BLEU-4指标在两个数据集上分别达到了10.8%和16.3%,高于大多数现有方法的报告生成评估指标,证明了经过本发明的方法训练后的模型能够生成正确且具有可读性的医学报告。
表1
为了验证生成的文本的可读性和完整性,我们采用医学报告生成常用的BLEU,METEOR,ROUGE评价指标对我们的模型进行了评估,表一为经过本发明的方法训练后的模型在MIMIC-CXR和IU-Xray数据集下的效果与近几年来效果的对比,可以看到BLEU-1指标在两个数据集上分别达到了38.2%和48.5%,BLEU-4指标在两个数据集上分别达到了10.8%和16.3%,高于大多数现有方法的报告生成评估指标,证明了经过本发明的方法训练后的模型能够生成正确且具有可读性的医学报告。
表2
为了验证生成的文本的临床有效性,我们使用ChexpertLabeler对本发明的模型生成的医学报告结果进行标注得到的多标签分类性能,表二为经过本发明的方法训练后的模型和现有模型多标签分类性能的对比,可以看到在微平均(Micro-average)和宏平均(Macro-average)两种指标下的召回率(Recall)分别达到了36.1%,22.5%。微平均和宏平均两种指标下的F1指标分别达到了41.3%,24.5%。超过了目前完成了能够对比的大多数方法。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (5)
1.一种基于跨模态融合的医学报告生成模型的训练方法,应用于医学报告生成模型,医学报告生成模型包括卷积神经网络模块、自注意力模块、全局特征提取模块、交叉注意力模块和文本生成模块,其特征在于,所述方法包括:
步骤1,将源图像输入到卷积神经网络模块,得到第一图像特征;
所述步骤1具体包括:
步骤1.1,卷积神经网络模块提取源图像的局部特征,得到源图像的病灶区域表示;
步骤1.2,将病灶区域表示拉平为序列形式并添加Transformer中的位置编码,形成第一图像特征;
步骤2,将第一图像特征输入自注意力模块关联细粒度异常区域,得到第二图像特征,以及,将第一图像特征输入全局特征提取模块提取粗粒度疾病语义信息,得到第三图像特征;
所述将第一图像特征输入自注意力模块关联细粒度异常区域,得到第二图像特征的步骤,包括:
自注意力模块建模第一图像特征中不同异常区域特征之间的长距离依赖,自注意力层对病灶区域相互关联得到第二图像特征;
所述将第一图像特征输入全局特征提取模块提取粗粒度疾病语义信息,得到第三图像特征的步骤,包括:
对第一图像特征中图像块的特征维度进行压缩得到全局语义表示;
将全局语义表示还原成与原维度相同的多个疾病嵌入向量,每一个嵌入向量表示与该疾病相关的全局语义信息;
将全部疾病嵌入向量的集合作为第三图像特征;
步骤3,将第二图像特征和第三图像特征输入交叉注意力模块建模多尺度关联,得到第四图像特征;
所述步骤3具体包括:
将第三图像特征输入交叉注意力模块变换为键向量和值向量,将第二图像特征输入交叉注意力模块变换为查询向量进行交叉注意力计算,得到第四图像特征,其中,交叉注意力模块的网络结构表示为
代表将第二图像特征转换为交叉注意力中查询向量的转换矩阵,代表将第三图像特征转换为交叉注意力中键向量和值向量的转换矩阵,表示交叉注意力层的带权注意力表示,Ie∈RN×d为交叉注意力层中前馈神经网络输出的第四图像特征;
步骤4,将第四图像特征和t-1轮的第一文本特征输入文本生成模块,得到模态不变性特征;
所述步骤4具体包括:
步骤4.1,利用跨模态的注意力向量编码方式对第四图像特征和t-1轮的第一文本特征进行编码,将其编码为融合的查询向量、键向量和值向量;
步骤4.2,根据融合的查询向量、键向量计算跨模态注意力得分矩阵;
步骤4.3,根据跨模态注意力得分矩阵和融合的值向量计算得到模态不变性特征;
步骤5,根据模态不变性特征得到第t轮医学文本预测结果,直到完成文本序列每一轮的预测,并结合源图像对应的文本标签计算文本生成损失;
步骤6,根据文本生成损失重复步骤1至步骤6,迭代训练卷积神经网络模块、自注意力模块、全局特征提取模块、交叉注意力模块和文本生成模块直到达到预设条件,得到训练好的医学报告生成模型。
2.根据权利要求1所述的方法,其特征在于,所述步骤1之前,所述方法还包括:
从原始数据集中获取胸腔X光图像,并将全部胸腔X光图像缩放至预设尺寸和通道数;
对全部胸腔X光图像每个通道分别减去原始数据集中各个通道的均值,进行归一化,并进行随机裁剪和随机反转,得到源图像。
3.根据权利要求2所述的方法,其特征在于,所述第一图像特征的表达式为
I0={v1,v2,...,vN}+Epos,I0∈RN×d,Epos∈RN×d,{v1,v2,...,vN}∈R1×d
其中,vi∈R1×d,i=1,2,....,N分别表示第i个异常区域特征,Epos表示Transformer中代表位置信息的编码向量,N表示异常区域特征数量,d表示异常区域特征的维度。
4.根据权利要求3所述的方法,其特征在于,所述步骤3之后,所述方法还包括:
根据第四图像特征和源图像的多分类标签计算疾病一致性损失;
根据疾病一致性损失更新卷积神经网络模块、自注意力模块和交叉注意力模块的参数。
5.根据权利要求4所述的方法,其特征在于,所述医学报告生成模型还包括自回归迭代模块,所述步骤6之后,所述方法还包括:
将待预测图像输入训练好的医学报告生成模型,得到其对应的第四图像特征;
将第t-1轮预测的自回归结果作为当前第t轮预测的第一文本特征,并结合第四图像特征预测第t轮的预测单词,直到识别结束符,将全部预测的单词按序列输出,得到预测医学报告。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211018319.8A CN115171838B (zh) | 2022-08-24 | 2022-08-24 | 基于跨模态融合的医学报告生成模型的训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211018319.8A CN115171838B (zh) | 2022-08-24 | 2022-08-24 | 基于跨模态融合的医学报告生成模型的训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115171838A CN115171838A (zh) | 2022-10-11 |
CN115171838B true CN115171838B (zh) | 2023-04-07 |
Family
ID=83482063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211018319.8A Active CN115171838B (zh) | 2022-08-24 | 2022-08-24 | 基于跨模态融合的医学报告生成模型的训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115171838B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115406815B (zh) * | 2022-11-02 | 2023-02-03 | 杭州华得森生物技术有限公司 | 基于多源数据融合的肿瘤细胞检测设备及其方法 |
CN116185182B (zh) * | 2022-12-30 | 2023-10-03 | 天津大学 | 一种融合眼动注意力的可控图像描述生成系统及方法 |
CN116779091B (zh) * | 2023-06-15 | 2024-02-27 | 兰州交通大学 | 一种多模态网络互联融合的胸部影像诊断报告自动生成方法 |
CN116597267B (zh) * | 2023-07-12 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置、计算机设备和存储介质 |
CN117316369B (zh) * | 2023-08-24 | 2024-05-07 | 兰州交通大学 | 平衡跨模态信息的胸部影像诊断报告自动生成方法 |
CN117153393B (zh) * | 2023-08-30 | 2024-07-12 | 哈尔滨工业大学 | 一种基于多模态融合的心血管疾病风险预测方法 |
CN117558394B (zh) * | 2023-09-28 | 2024-06-25 | 兰州交通大学 | 一种基于跨模态网络的胸部x线影像报告生成方法 |
CN117291165B (zh) * | 2023-11-24 | 2024-10-15 | 中国民航信息网络股份有限公司 | 一种数据报告生成方法、装置及设备 |
CN117523593B (zh) * | 2024-01-02 | 2024-03-12 | 吉林大学 | 患者病历数据处理方法及系统 |
CN117522877B (zh) * | 2024-01-08 | 2024-04-05 | 吉林大学 | 一种基于视觉自注意力的胸部多疾病诊断模型的构建方法 |
CN117542538A (zh) * | 2024-01-10 | 2024-02-09 | 中国科学技术大学 | 一种基于强化学习的医疗多模态内容分析及生成方法 |
CN117557883B (zh) * | 2024-01-12 | 2024-07-05 | 中国科学技术大学 | 基于病理对齐扩散网络的医疗多模态内容分析及生成方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114661933A (zh) * | 2022-03-08 | 2022-06-24 | 重庆邮电大学 | 基于胎儿先心病超声图像—诊断报告的跨模态检索方法 |
CN114817673A (zh) * | 2022-04-14 | 2022-07-29 | 华侨大学 | 一种基于模态关系学习的跨模态检索方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905827B (zh) * | 2021-02-08 | 2024-02-27 | 中国科学技术大学 | 跨模态图文匹配的方法、装置及计算机可读存储介质 |
CN114429119B (zh) * | 2022-01-18 | 2024-05-28 | 重庆大学 | 一种基于多交叉注意力的视频与字幕片段检索方法 |
-
2022
- 2022-08-24 CN CN202211018319.8A patent/CN115171838B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114661933A (zh) * | 2022-03-08 | 2022-06-24 | 重庆邮电大学 | 基于胎儿先心病超声图像—诊断报告的跨模态检索方法 |
CN114817673A (zh) * | 2022-04-14 | 2022-07-29 | 华侨大学 | 一种基于模态关系学习的跨模态检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115171838A (zh) | 2022-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115171838B (zh) | 基于跨模态融合的医学报告生成模型的训练方法 | |
Han et al. | Trusted multi-view classification with dynamic evidential fusion | |
CN117253614B (zh) | 基于大数据分析的糖尿病风险预警方法 | |
JP2019091443A (ja) | オープンセット認識方法と装置及びコンピュータ可読記憶媒体 | |
CN112364174A (zh) | 基于知识图谱的病人病历相似度评估方法及系统 | |
CN111737511B (zh) | 基于自适应局部概念嵌入的图像描述方法 | |
CN110120265B (zh) | 基于多维特征和模型融合的提高预测血尿酸精度的方法 | |
CN110032739A (zh) | 中文电子病历命名实体抽取方法及系统 | |
JP7257585B2 (ja) | 深層cca及び能動ペアワイズクエリを用いるマルチモーダル検索及びクラスタリングのための方法 | |
EP3311311A1 (en) | Automatic entity resolution with rules detection and generation system | |
CN112765370B (zh) | 知识图谱的实体对齐方法、装置、计算机设备和存储介质 | |
CN112614561A (zh) | 一种基于层级自注意力序列编码的脑ct医学报告生成方法 | |
KR20200044183A (ko) | 병리 이미지 검색을 위한 시스템 및 방법 | |
CN115391494B (zh) | 中医症候智能识别方法及装置 | |
CN114708952B (zh) | 一种图像标注方法、装置、存储介质和电子设备 | |
CN117688974A (zh) | 基于知识图谱的生成式大模型建模方法、系统及设备 | |
CN116822579A (zh) | 基于对比学习的疾病分类icd自动编码方法和装置 | |
CN117789911A (zh) | 基于跨模态融合和记忆监督放射学报告生成方法及系统 | |
CN115408551A (zh) | 一种医疗图文数据互检方法、装置、设备及可读存储介质 | |
CN112084944B (zh) | 一种动态演化表情的识别方法与系统 | |
US11977952B1 (en) | Apparatus and a method for generating a confidence score associated with a scanned label | |
US20240028831A1 (en) | Apparatus and a method for detecting associations among datasets of different types | |
CN116704609A (zh) | 基于时序注意力的在线手卫生评估方法及系统 | |
CN114328938B (zh) | 一种影像报告结构化提取方法 | |
CN115964475A (zh) | 一种用于医疗问诊的对话摘要生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |