CN115205880A - 一种医学影像报告生成方法及装置 - Google Patents
一种医学影像报告生成方法及装置 Download PDFInfo
- Publication number
- CN115205880A CN115205880A CN202210906078.4A CN202210906078A CN115205880A CN 115205880 A CN115205880 A CN 115205880A CN 202210906078 A CN202210906078 A CN 202210906078A CN 115205880 A CN115205880 A CN 115205880A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- medical image
- information
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种医学影像报告生成方法及装置,包括:获取目标医学影像;基于目标医学影像语义关联模型对所述目标医学影像进行处理,得到与所述目标医学影像对应的多模态主题分布信息;基于所述多模态主题分布信息,生成所述目标医学影像的多层次文本描述信息;对所述多层次文本描述信息进行优化,得到与所述目标医学影像对应的医学影像报告。本发明基于目标医学影像语义关联模型实现了模态互补的相关主题对医学影像的潜在语义关联进行建模,可以实现对医学影像所代表的语义进行解释,并且基于多层次文本信息描述实现了客观、准确的文本信息的生成,提升了医学影像报告自动生成的准确性。
Description
技术领域
本发明涉及医学信息处理技术领域,特别是涉及一种医学影像报告生成方法及装置。
背景技术
随着数字化医学影像数据的大规模增长,国内外研究人员利用计算机视觉、自然语言理解、深度学习等技术,针对MRI、CT、X射线、超声、PRT等不同成像原理的医学影像数据开展了一系列医学影像分类与识别、定位与监测、组织器官与病灶分割等研究。然而,利用计算机识别影像中的异常病变特征只是临床影像辅助诊断的第一个环节。在临床实践中,影像科医生通过阅读医学影像,结合自身经验知识对影像中的正常或异常表现进行分析并形成影像检查报告,报告中关于医学影像的相关文字描述是临床诊断的重要依据。
由于影像报告中关于正常表现的语言描述十分相似,导致影像科医生经常耗费大量经历重复撰写内容趋同的报告。为了辅助医生高效撰写报告,目前已有通过医学影像进行深度学习的方式实现自动生成报告的研究,但是,目前已有的方式,存在着可靠性和可解释较差的问题,无法提升报告自动生成的准确性。
发明内容
针对于上述问题,本发明提供一种医学影像报告生成方法及装置,实现了提升自动生成的医学影像报告的可靠性、可解释性和准确性的目的。
为了实现上述目的,本发明提供了如下技术方案:
一种医学影像报告生成方法,包括:
获取目标医学影像;
基于目标医学影像语义关联模型对所述目标医学影像进行处理,得到与所述目标医学影像对应的多模态主题分布信息,所述目标医学影像语义关联模型为基于目标训练样本进行多模态主题建模得到的,所述目标训练样本中每一图文对为医学影像与文本信息的信息对,所述多模态主题至少包括模态共享主题和模态相关主题,所述模态共享主题表征图文对中医学影像与文本信息对应相同的主题,所述模态相关主题表征图文对中医学影像与文本信息对应不同的主题;
基于所述多模态主题分布信息,生成所述目标医学影像的多层次文本描述信息;
对所述多层次文本描述信息进行优化,得到与所述目标医学影像对应的医学影像报告。
可选地,还包括:
获取初始训练样本;
对所述初始训练样本进行优化,得到目标训练样本:
将目标训练训练样本中具有目标邻域结构的图文对,确定为多模态样本;
分别对所述多模态样本进行多模态主题相似度计算,得到模态共享主题和模态相关主题;
将所述模态共享主题和模态相关主题确定为高层语义特征描述符;
基于医学影像报告中的处理逻辑与所述高层语义特征描述符进行语义关联分析,得到医学影像语义关联信息;
针对所述医学影像语义关联信息进行机器学习,得到目标医学影像语义关联模型。
可选地,所述对所述初始训练样本进行优化,得到目标训练样本,包括:
基于所述初始训练样本进行训练,得到初始模型,所述初始模型为能够确定医学影像与文本信息匹配关系的模型,所述初始模型包括单模态编码器、基于图像的文本编码器和基于图像的文本解码器;
通过所述单模态编码器对所述初始训练样本中的每一图文对对应的医学影像和文本信息进行编码,得到图像编码信息和文本编码信息;
基于已人工标注的图文对对所述基于图像的文本解码器进行调整,得到描述器;
利用所述描述器生成所述初始训练样本中的无人工标注文本信息的第一医学影像的文本描述信息,得到第一类图文对,所述第一类图文对为医学影像与通过描述器生成的文本描述信息对应的图文对;
基于所述已人工标注的图文对对所述基于图像的文本编码器进行调整,得到过滤器;
利用所述过滤器对所述第一类图文对和所述第二类图文对进行过滤,得到第三类图文对,其中,所述第二类图文对为无人工标注文本信息的医学影像和与之对应的自动提取的文本信息组成的图文对,所述第三类图文对包括过滤后的第一类图文对和过滤后的第二类图文对;
根据已人工标注的图文对和所述第三类图文对,生成目标医学图文样本数据。
可选地,所述基于所述多模态主题分布信息,生成所述目标医学影像的多层次文本描述信息,包括:
基于所述多模态主题分布信息,确定每一主题与所述目标医学影像的关联概率;
基于所述关联概率,在所述多模态主题分布对应的各个主题中确定出目标主题;
将所述目标主题确定生成描述文本的监督信息,并基于层次长短期记忆力网络和视觉注意机制,生成与所述目标医学影像对应的文本句子;
对所述文本句子进行处理,得到多层次文本描述信息。
可选地,所述对所述多层次文本描述信息进行优化,得到与所述目标医学影像对应的医学影像报告,包括:
基于展示可视化信息和影像报告描述模式,对所述多层次文本描述信息进行优化,得到与所述目标医学影像对应的医学影像报告。
一种医学影像报告生成装置,包括:
获取单元,用于获取目标医学影像;
处理单元,用于基于目标医学影像语义关联模型对所述目标医学影像进行处理,得到与所述目标医学影像对应的多模态主题分布信息,所述目标医学影像语义关联模型为基于目标训练样本进行多模态主题建模得到的,所述目标训练样本中每一图文对为医学影像与文本信息的信息对,所述多模态主题至少包括模态共享主题和模态相关主题,所述模态共享主题表征图文对中医学影像与文本信息对应相同的主题,所述模态相关主题表征图文对中医学影像与文本信息对应不同的主题;
生成单元,用于基于所述多模态主题分布信息,生成所述目标医学影像的多层次文本描述信息;
优化单元,用于对所述多层次文本描述信息进行优化,得到与所述目标医学影像对应的医学影像报告。
可选地,还包括:
样本获取单元,用于获取初始训练样本;
样本优化单元,用于对所述初始训练样本进行优化,得到目标训练样本:
第一确定单元,用于将目标训练训练样本中具有目标邻域结构的图文对,确定为多模态样本;
计算单元,用于分别对所述多模态样本进行多模态主题相似度计算,得到模态共享主题和模态相关主题;
第二确定单元,用于将所述模态共享主题和模态相关主题确定为高层语义特征描述符;
分析单元,用于基于医学影像报告中的处理逻辑与所述高层语义特征描述符进行语义关联分析,得到医学影像语义关联信息;
机器学习单元,用于针对所述医学影像语义关联信息进行机器学习,得到目标医学影像语义关联模型。
可选地,所述样本优化单元具体用于:
基于所述初始训练样本进行训练,得到初始模型,所述初始模型为能够确定医学影像与文本信息匹配关系的模型,所述初始模型包括单模态编码器、基于图像的文本编码器和基于图像的文本解码器;
通过所述单模态编码器对所述初始训练样本中的每一图文对对应的医学影像和文本信息进行编码,得到图像编码信息和文本编码信息;
基于已人工标注的图文对对所述基于图像的文本解码器进行调整,得到描述器;
利用所述描述器生成所述初始训练样本中的无人工标注文本信息的第一医学影像的文本描述信息,得到第一类图文对,所述第一类图文对为医学影像与通过描述器生成的文本描述信息对应的图文对;
基于所述已人工标注的图文对对所述基于图像的文本编码器进行调整,得到过滤器;
利用所述过滤器对所述第一类图文对和所述第二类图文对进行过滤,得到第三类图文对,其中,所述第二类图文对为无人工标注文本信息的医学影像和与之对应的自动提取的文本信息组成的图文对,所述第三类图文对包括过滤后的第一类图文对和过滤后的第二类图文对;
根据已人工标注的图文对和所述第三类图文对,生成目标医学图文样本数据。
可选地,所述生成单元包括:
第一确定子单元,用于基于所述多模态主题分布信息,确定每一主题与所述目标医学影像的关联概率;
第二确定子单元,用于基于所述关联概率,在所述多模态主题分布对应的各个主题中确定出目标主题;
生成子单元,用于将所述目标主题确定生成描述文本的监督信息,并基于层次长短期记忆力网络和视觉注意机制,生成与所述目标医学影像对应的文本句子;
处理子单元,用于对所述文本句子进行处理,得到多层次文本描述信息。
可选地,所述优化单元具体用于:
基于展示可视化信息和影像报告描述模式,对所述多层次文本描述信息进行优化,得到与所述目标医学影像对应的医学影像报告。
相较于现有技术,本发明提供了一种医学影像报告生成方法及装置,包括:获取目标医学影像;基于目标医学影像语义关联模型对所述目标医学影像进行处理,得到与所述目标医学影像对应的多模态主题分布信息;基于所述多模态主题分布信息,生成所述目标医学影像的多层次文本描述信息;对所述多层次文本描述信息进行优化,得到与所述目标医学影像对应的医学影像报告。本发明基于目标医学影像语义关联模型实现了模态互补的相关主题对医学影像的潜在语义关联进行建模,可以实现对医学影像所代表的语义进行解释,并且基于多层次文本信息描述实现了客观、准确的文本信息的生成,提升了医学影像报告自动生成的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种医学影像报告生成方法的流程示意图;
图2为本发明实施例提供的一种中文胸部影像报告的局部示意图;
图3为本发明实施例提供的一种医学影像报告生成装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在本发明实施例中提供了一种医学影像报告生成方法,该方法可以应用于自动对医学影像生成与之匹配的医学影像报告的应用场景中。具体的,本发明针对目前医学影像高层语义建模能力不足的问题,以大规模医学影像与文本模态融合的知识表示模型为基础,构建基于多模态语义主题建模的医学影像语义关联模型。根据医学影像语义关联预测的多模态语义主题,利用多主题层次化的自然语言文本实现对医学影像内容的可解释的描述。可以应用于面向智能辅助诊断场景,基于医学影像描述方法的医学影像报告生成系统。
参见图1,为本发明实施例提供的一种医学影像报告生成方法的流程示意图,该方法可以包括以下步骤:
S101、获取目标医学影像。
其中,目标医学影像为需要生成医学影像报告的影像,可以是以任何医学设备采集得到的图像,如,超声设备、计算机断层扫描设备、核磁共振设备等,对应的,目标医学影像可以是一副医学图像,也可以是具有关联的一组医学图像,如针对某个部分的各个局部的医学影像组成的图像。
S102、基于目标医学影像语义关联模型对目标医学影像进行处理,得到与目标医学影像对应的多模态主题分布信息。
其中,所述目标医学影像语义关联模型为基于目标训练样本进行多模态主题建模得到的,所述目标训练样本中每一图文对为医学影像与文本信息的信息对,所述多模态主题至少包括模态共享主题和模态相关主题,所述模态共享主题表征图文对中医学影像与文本信息对应相同的主题,所述模态相关主题表征图文对中医学影像与文本信息对应不同的主题。
目标训练样本是对初始训练样本进行优化得到的,其中,初始训练样本是对大规模医学影像公开数据、中英文临床影像报告、病例报告及影像相关科学论述等数据分别进行预处理及规范化信息提取,并结合医学知识库,开展医学的“影像-文本”联合表示学习得到。在得到了初始训练样本后,可以采用基于数据自举思想的多阶段多模态预训练方法,得到目标训练样本。具体的样本处理过程将在本发明后续实施例中进行详细说明,此处不再详述。
基于目标训练样本联合表示对医学影像进行向量化表示,将医学影像及其描述文本之间的语义关联归纳为跨模态潜在语义主题相关性的度量及模糊推理,利用主题模型对医学影像的潜在语义主题进行建模。在一种实施方式中,还包括:获取初始训练样本;对所述初始训练样本进行优化,得到目标训练样本:将目标训练训练样本中具有目标邻域结构的图文对,确定为多模态样本;分别对所述多模态样本进行多模态主题相似度计算,得到模态共享主题和模态相关主题;将所述模态共享主题和模态相关主题确定为高层语义特征描述符;基于医学影像报告中的处理逻辑与所述高层语义特征描述符进行语义关联分析,得到医学影像语义关联信息;针对所述医学影像语义关联信息进行机器学习,得到目标医学影像语义关联模型。
若有视觉特征(异常表现)高度相似的医学影像,则描述器病变异常的高层语义主题分布(如病灶部位、形态、边缘、周围情况等)也相似。本发明基于目标训练样本中“医学影像-文本信息”联合表示,将医学影像之间的潜在语义关联归结为跨模态语义主题相关性的度量,可以利用潜在狄利克雷主题模型(Latent Dirichlet Allocation,LDA)理论对相似医学影像的多模态共享空间及单模态相关空间进行主题建模。其中,这里的主题建模,是根据假设的语义空间,对图像和文本的共享主题分布进行预测,同时,也假设文本本身存在冗余信息,那么对文本中与图像不相关的描述也有一个主题分布,即单模态相关主题。也就是说这一步先利用主题模型预测了样本的主题分布。
具体的,若存在单模态医学影像样本Si(Vi,*),其中,Vi表示图文对中的图像信息,如果是目标医学影像就只有医学影像,没有文本信息。利用联合表示模型对其进行向量化表示,然后在基于向量化表示的图文对中确定具有目标邻域结构的图文对,其中,目标邻域结构是指相同模态下具有相似邻域结构的图文对,将其确定为多模态样本。其中,根据样本Si的影像信息Vi,它的向量化表示,计算与它的向量相似度高的其他有标注(文本)样本,也就是寻找视觉特征相似的影像,然后根据相似影像的文本信息,分析它们的主题分布。例如,将多模态样本表示为Ssim(V,D),其中,V表示医学影像,D表示与医学影像相关文本信息。分别对具有相似样本的模态共享空间LS以及模态相关空间LM进行主题建模,并对不同潜在变量空间的主题分布(ZM,ZS)进行语义相似度计算。对于多模态样本Sj(Vj,Dj),同样对其进行向量化表示,寻找具有相似邻域结构的样本,并计算多模态主题相似度。其中,模态共享空间是指图像和文本共享的一个语义空间,比如图像中的特定解剖部位、病变等局部特征,对应描述这些特征的不同粒度文本(主要是词、短语组成的语义主题),存在显著关联的;模态相关空间,是指图像和文本各自的语义空间,二者之间不存在直接关联。
将多模态共享主题分布ZS以及模态相关主题分布ZM分别作为高层语义特征描述符,然后根据医学影像报告中的处理逻辑进行语义关联分析,得到医学影像语义关联信息;针对所述医学影像语义关联信息进行机器学习,得到目标医学影像语义关联模型。其中,医学影像报告中的处理逻辑主要是结合医学影像诊断指南中围绕疾病部位、征象、性质、病因等形成的影像学诊断逻辑。并基于多模态主题相似度的并行模糊规则,从而对影像异常表现所代表的临床意义进行归纳及关联分析,即医学影像语义关联。
S103、基于所述多模态主题分布信息,生成所述目标医学影像的多层次文本描述信息。
利用得到的多模态主题分布信息可以获得目标医学影像的语义相关主题,结合视觉注意力机制,根据特定主题生成包含主题词、句子、段落等多粒度文本的层次化医学影像描述信息。
具体的,在一种实施方式中,所述基于所述多模态主题分布信息,生成所述目标医学影像的多层次文本描述信息,包括:基于所述多模态主题分布信息,确定每一主题与所述目标医学影像的关联概率;基于所述关联概率,在所述多模态主题分布对应的各个主题中确定出目标主题;将所述目标主题确定生成描述文本的监督信息,并基于层次长短期记忆力网络和视觉注意机制,生成与所述目标医学影像对应的文本句子;对所述文本句子进行处理,得到多层次文本描述信息。
在得到多模态主题分布信息之后,这里面包含多个主题,每个主题与当前目标医学影像的关联概率不同,通常会选取关联概率最大的主题作为个描述文本的监督信息。基于医学影像语义关联模型对医学影像Snew(Vnew,*),的视觉模态主题分布进行建模,并推导其他模态下与语义相关的主题预测该样本的多模态主题分布其中,Vnew为目标医学影像。
生成基于特定主题的层次化医学影像描述:若生成的每个句子都聚焦一个特定主题,利用多模态主题作为监督信息,加入对长文本序列生成效果较好的层次长短期记忆网络(Hierarchical Long Short-Term Memory),结合视觉注意机制,自动生成与影像特定区域内容关联的自然语言句子。对所有生成的文本序列进行拼接及归纳,得到层次化的影像学描述及诊断意见。其中,层次化是指文本粒度,根据之前预测的语义主题,生成文本包括词、概念、短语,以及完整的句子。
S104、对所述多层次文本描述信息进行优化,得到与所述目标医学影像对应的医学影像报告。
该过程主要是基于展示可视化信息和影像报告描述模式,对多层次文本描述信息进行优化,得到与目标医学影像对应的医学影像报告。其中,展示可视化信息主要是指报告的展示模式或者可视化格式信息,影像报告描述模式是指通常的影像报告的描述逻辑。即可以运用神经网络特征可视化方法从视觉及逻辑角度对医学影像描述的生成过程进行展示,便于人工评价分析。
参见图2,为本发明实施例提供的一种中文胸部影像报告的局部示意图,在该应用场景中,选取临床应用较为广泛的胸部影像检查(X线)作为研究对象,结合医学影像描述、迁移学习及机器翻译等技术,构建中文胸部影像报告生成系统,基于本发明实施例提供的医学影像报告生成方法,通过机器辅助生成与人机交互反馈的方式,生成中文胸部影像报告。
本发明提供了一种医学影像报告生成方法,包括:获取目标医学影像;基于目标医学影像语义关联模型对所述目标医学影像进行处理,得到与所述目标医学影像对应的多模态主题分布信息;基于所述多模态主题分布信息,生成所述目标医学影像的多层次文本描述信息;对所述多层次文本描述信息进行优化,得到与所述目标医学影像对应的医学影像报告。本发明基于目标医学影像语义关联模型实现了模态互补的相关主题对医学影像的潜在语义关联进行建模,可以实现对医学影像所代表的语义进行解释,并且基于多层次文本信息描述实现了客观、准确的文本信息的生成,提升了医学影像报告自动生成的准确性。
下面具体说明本发明实施例中对初始训练样本进行优化的过程,该过程可以学习可泛化的医学“影像-文本”联合表示是获取高质量多模态语义特征的重要基础。本发明基于大规模多模态医学影像数据以及影像诊断报告、病例报告及描述影像学发现的科学论述等文本数据,结合医学知识库,采用基于数据自举思想的多阶段多模态预训练方法,建立医学“影像-文本”联合表示模型。医学“影像-文本”联合表示模型学习所涉及的数据包括医学影像公开数据集、临床影像报告、医学病例报告及影像相关科学论述等其他数据。首先对不同来源及类型的医学数据进行预处理及规范化信息提取,包括从影像报告、病例报告等数据中提取医学“影像-文本”平行对;从开放医学影像数据中提取不同模态的医学影像及其语义标签信息等。其次,基于数据自举的视觉语言模型预训练方法,结合医学知识库构建学习框架,形成模态信息融合互补的医学知识表示。
在一种实施方式中,所述对所述初始训练样本进行优化,得到目标训练样本,包括:
基于所述初始训练样本进行训练,得到初始模型,所述初始模型为能够确定医学影像与文本信息匹配关系的模型,所述初始模型包括单模态编码器、基于图像的文本编码器和基于图像的文本解码器;
通过所述单模态编码器对所述初始训练样本中的每一图文对对应的医学影像和文本信息进行编码,得到图像编码信息和文本编码信息;
基于已人工标注的图文对对所述基于图像的文本解码器进行调整,得到描述器;
利用所述描述器生成所述初始训练样本中的无人工标注文本信息的第一医学影像的文本描述信息,得到第一类图文对,所述第一类图文对为医学影像与通过描述器生成的文本描述信息对应的图文对;
基于所述已人工标注的图文对对所述基于图像的文本编码器进行调整,得到过滤器;
利用所述过滤器对所述第一类图文对和所述第二类图文对进行过滤,得到第三类图文对,其中,所述第二类图文对为无人工标注文本信息的医学影像和与之对应的自动提取的文本信息组成的图文对,所述第三类图文对包括过滤后的第一类图文对和过滤后的第二类图文对;
根据已人工标注的图文对和所述第三类图文对,生成目标医学图文样本数据。
其中,初始模型是一个多阶段的多模态训练模式,实质可以是从较小的语义标签单元到较大的句子单元的医学图文对数据分阶段进行训练,从而在不同阶段学习不同粒度的图像-文本对应信息。具体的,单模态编码器是分别针对文本和图像的输入数据进行编码,相当于特征提取器,为后续的基于图像的文本编码器和基于图像的文本解码器提供文本模态和图像模态的输入向量。单模态编码器对医学影像和相关文本进行单模态编码的过程主要包括:利用ViT(Vision Transformer)模型对医学影像进行编码,将输入图像划分成一组图片块(patch),再输入transformer单元,得到输出的图像,输出的图像嵌入序列加上一个[CLS]标记,构成全局图像特征,其中,[CLS]标记为专用标记,放在图片或文本输入内容之前,代表整个图片或句子信息。对应的,文本模态的编码方式与BERT模型(Bidirectional Encoder Representations from Transformer,基于Transformer的双向编码器表示,是一个预训练的语言表征模型)一致,并添加一个[CLS]标记表示全局的文本信息。基于图像的文本编码器,需要获取单模态编码器得到的图像编码信息即单模态图像输入向量,其单独使用可以用于图文匹配过滤器,也可以结合基于图像的文本解码器构成编解码器联合使用。基于图像的文本编码器在在BERT模型的基础上,在前馈网络层(FFN)和自注意力层(SA)之间增加一个交叉注意力层(Cross Attention,CA)层,为网络注入图像信息。文本前附加了一个[Encode]标记,输出的嵌入表示作为图文对的多模态表示信息。基于图像的文本解码器需要对单模态编码器的图像/文本编码信息进行解码,可以生成图像的文本描述信息。即将基于图像的文本编码器中的双向自注意力层替换为因果自注意力层,用于解码操作,同时文本中附加一个[Decode]标记用于表示序列的开始,[EOS]标记表示序列的结束。
需要说明的是,单模态编码器、基于图像的文本编码器和基于图像的文本解码器均可以应用在对初始预训练模型的训练过程中图文对的学习过程中。此外,在本发明实施例中还可以利用上述结构对初始医学图文样本数据进行优化。
在本发明实施例中基于图像的文本编码器可以作为“过滤器”使用,基于图像的文本解码器可以作为“描述器”使用,从而实现数据自举的处理过程,以解决初始医学图文样本数据中存在数据噪声的问题。在该实施方式中,当基于图像的文本编码器可以作为“过滤器”使用,基于图像的文本解码器可以作为“描述器”使用时,是从同一个经过预训练的初始模型中初始化,并再经过高质量的已人工标注的图文对上分别进行微调得到的。描述器根据给定医学图像生成对应的合成描述文本信息,过滤器可以用于判定通过自动提取文字的方式得到的医学图文对,或通过描述器给医学图像生成的描述信息是否匹配,如果不匹配,则过滤掉对应的图文对。因此,该实施方式便于生成高质量的训练样本,并且可以解决样本数量有限的问题,从而可以提升后续应用的准确性。
参见图3,在本发明的另一实施例中还提供了一种医学影像报告生成装置其特征在于,包括:
获取单元301,用于获取目标医学影像;
处理单元302,用于基于目标医学影像语义关联模型对所述目标医学影像进行处理,得到与所述目标医学影像对应的多模态主题分布信息,所述目标医学影像语义关联模型为基于目标训练样本进行多模态主题建模得到的,所述目标训练样本中每一图文对为医学影像与文本信息的信息对,所述多模态主题至少包括模态共享主题和模态相关主题,所述模态共享主题表征图文对中医学影像与文本信息对应相同的主题,所述模态相关主题表征图文对中医学影像与文本信息对应不同的主题;
生成单元303,用于基于所述多模态主题分布信息,生成所述目标医学影像的多层次文本描述信息;
优化单元304,用于对所述多层次文本描述信息进行优化,得到与所述目标医学影像对应的医学影像报告。
在一种实施方式中,还包括:
样本获取单元,用于获取初始训练样本;
样本优化单元,用于对所述初始训练样本进行优化,得到目标训练样本:
第一确定单元,用于将目标训练训练样本中具有目标邻域结构的图文对,确定为多模态样本;
计算单元,用于分别对所述多模态样本进行多模态主题相似度计算,得到模态共享主题和模态相关主题;
第二确定单元,用于将所述模态共享主题和模态相关主题确定为高层语义特征描述符;
分析单元,用于基于医学影像报告中的处理逻辑与所述高层语义特征描述符进行语义关联分析,得到医学影像语义关联信息;
机器学习单元,用于针对所述医学影像语义关联信息进行机器学习,得到目标医学影像语义关联模型。
进一步地,所述样本优化单元具体用于:
基于所述初始训练样本进行训练,得到初始模型,所述初始模型为能够确定医学影像与文本信息匹配关系的模型,所述初始模型包括单模态编码器、基于图像的文本编码器和基于图像的文本解码器;
通过所述单模态编码器对所述初始训练样本中的每一图文对对应的医学影像和文本信息进行编码,得到图像编码信息和文本编码信息;
基于已人工标注的图文对对所述基于图像的文本解码器进行调整,得到描述器;
利用所述描述器生成所述初始训练样本中的无人工标注文本信息的第一医学影像的文本描述信息,得到第一类图文对,所述第一类图文对为医学影像与通过描述器生成的文本描述信息对应的图文对;
基于所述已人工标注的图文对对所述基于图像的文本编码器进行调整,得到过滤器;
利用所述过滤器对所述第一类图文对和所述第二类图文对进行过滤,得到第三类图文对,其中,所述第二类图文对为无人工标注文本信息的医学影像和与之对应的自动提取的文本信息组成的图文对,所述第三类图文对包括过滤后的第一类图文对和过滤后的第二类图文对;
根据已人工标注的图文对和所述第三类图文对,生成目标医学图文样本数据。
在一种实施方式中,所述生成单元包括:
第一确定子单元,用于基于所述多模态主题分布信息,确定每一主题与所述目标医学影像的关联概率;
第二确定子单元,用于基于所述关联概率,在所述多模态主题分布对应的各个主题中确定出目标主题;
生成子单元,用于将所述目标主题确定生成描述文本的监督信息,并基于层次长短期记忆力网络和视觉注意机制,生成与所述目标医学影像对应的文本句子;
处理子单元,用于对所述文本句子进行处理,得到多层次文本描述信息。
可选地,所述优化单元具体用于:
基于展示可视化信息和影像报告描述模式,对所述多层次文本描述信息进行优化,得到与所述目标医学影像对应的医学影像报告。
本发明实施例提供了一种医学影像报告生成装置,包括:获取单元获取目标医学影像;处理单元基于目标医学影像语义关联模型对所述目标医学影像进行处理,得到与所述目标医学影像对应的多模态主题分布信息;生成单元基于所述多模态主题分布信息,生成所述目标医学影像的多层次文本描述信息;优化单元对所述多层次文本描述信息进行优化,得到与所述目标医学影像对应的医学影像报告。本发明基于目标医学影像语义关联模型实现了模态互补的相关主题对医学影像的潜在语义关联进行建模,可以实现对医学影像所代表的语义进行解释,并且基于多层次文本信息描述实现了客观、准确的文本信息的生成,提升了医学影像报告自动生成的准确性。
基于前述实施例,本发明的实施例提供一种计算机可读存储介质,计算机可读存储介质存储有一个或者多个程序,该一个或者多个程序可被一个或者多个处理器执行,以实现如上任一项的医学影像报告生成方法的步骤。
本发明实施例还提供了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现的医学影像报告生成方法的步骤。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种医学影像报告生成方法,其特征在于,包括:
获取目标医学影像;
基于目标医学影像语义关联模型对所述目标医学影像进行处理,得到与所述目标医学影像对应的多模态主题分布信息,所述目标医学影像语义关联模型为基于目标训练样本进行多模态主题建模得到的,所述目标训练样本中每一图文对为医学影像与文本信息的信息对,所述多模态主题至少包括模态共享主题和模态相关主题,所述模态共享主题表征图文对中医学影像与文本信息对应相同的主题,所述模态相关主题表征图文对中医学影像与文本信息对应不同的主题;
基于所述多模态主题分布信息,生成所述目标医学影像的多层次文本描述信息;
对所述多层次文本描述信息进行优化,得到与所述目标医学影像对应的医学影像报告。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取初始训练样本;
对所述初始训练样本进行优化,得到目标训练样本:
将目标训练训练样本中具有目标邻域结构的图文对,确定为多模态样本;
分别对所述多模态样本进行多模态主题相似度计算,得到模态共享主题和模态相关主题;
将所述模态共享主题和模态相关主题确定为高层语义特征描述符;
基于医学影像报告中的处理逻辑与所述高层语义特征描述符进行语义关联分析,得到医学影像语义关联信息;
针对所述医学影像语义关联信息进行机器学习,得到目标医学影像语义关联模型。
3.根据权利要求2所述的方法,其特征在于,所述对所述初始训练样本进行优化,得到目标训练样本,包括:
基于所述初始训练样本进行训练,得到初始模型,所述初始模型为能够确定医学影像与文本信息匹配关系的模型,所述初始模型包括单模态编码器、基于图像的文本编码器和基于图像的文本解码器;
通过所述单模态编码器对所述初始训练样本中的每一图文对对应的医学影像和文本信息进行编码,得到图像编码信息和文本编码信息;
基于已人工标注的图文对对所述基于图像的文本解码器进行调整,得到描述器;
利用所述描述器生成所述初始训练样本中的无人工标注文本信息的第一医学影像的文本描述信息,得到第一类图文对,所述第一类图文对为医学影像与通过描述器生成的文本描述信息对应的图文对;
基于所述已人工标注的图文对对所述基于图像的文本编码器进行调整,得到过滤器;
利用所述过滤器对所述第一类图文对和所述第二类图文对进行过滤,得到第三类图文对,其中,所述第二类图文对为无人工标注文本信息的医学影像和与之对应的自动提取的文本信息组成的图文对,所述第三类图文对包括过滤后的第一类图文对和过滤后的第二类图文对;
根据已人工标注的图文对和所述第三类图文对,生成目标医学图文样本数据。
4.根据权利要求1所述的方法,其特征在于,所述基于所述多模态主题分布信息,生成所述目标医学影像的多层次文本描述信息,包括:
基于所述多模态主题分布信息,确定每一主题与所述目标医学影像的关联概率;
基于所述关联概率,在所述多模态主题分布对应的各个主题中确定出目标主题;
将所述目标主题确定生成描述文本的监督信息,并基于层次长短期记忆力网络和视觉注意机制,生成与所述目标医学影像对应的文本句子;
对所述文本句子进行处理,得到多层次文本描述信息。
5.根据权利要求1所述的方法,其特征在于,所述对所述多层次文本描述信息进行优化,得到与所述目标医学影像对应的医学影像报告,包括:
基于展示可视化信息和影像报告描述模式,对所述多层次文本描述信息进行优化,得到与所述目标医学影像对应的医学影像报告。
6.一种医学影像报告生成装置,其特征在于,包括:
获取单元,用于获取目标医学影像;
处理单元,用于基于目标医学影像语义关联模型对所述目标医学影像进行处理,得到与所述目标医学影像对应的多模态主题分布信息,所述目标医学影像语义关联模型为基于目标训练样本进行多模态主题建模得到的,所述目标训练样本中每一图文对为医学影像与文本信息的信息对,所述多模态主题至少包括模态共享主题和模态相关主题,所述模态共享主题表征图文对中医学影像与文本信息对应相同的主题,所述模态相关主题表征图文对中医学影像与文本信息对应不同的主题;
生成单元,用于基于所述多模态主题分布信息,生成所述目标医学影像的多层次文本描述信息;
优化单元,用于对所述多层次文本描述信息进行优化,得到与所述目标医学影像对应的医学影像报告。
7.根据权利要求6所述的装置,其特征在于,还包括:
样本获取单元,用于获取初始训练样本;
样本优化单元,用于对所述初始训练样本进行优化,得到目标训练样本:
第一确定单元,用于将目标训练训练样本中具有目标邻域结构的图文对,确定为多模态样本;
计算单元,用于分别对所述多模态样本进行多模态主题相似度计算,得到模态共享主题和模态相关主题;
第二确定单元,用于将所述模态共享主题和模态相关主题确定为高层语义特征描述符;
分析单元,用于基于医学影像报告中的处理逻辑与所述高层语义特征描述符进行语义关联分析,得到医学影像语义关联信息;
机器学习单元,用于针对所述医学影像语义关联信息进行机器学习,得到目标医学影像语义关联模型。
8.根据权利要求7所述的装置,其特征在于,所述样本优化单元具体用于:
基于所述初始训练样本进行训练,得到初始模型,所述初始模型为能够确定医学影像与文本信息匹配关系的模型,所述初始模型包括单模态编码器、基于图像的文本编码器和基于图像的文本解码器;
通过所述单模态编码器对所述初始训练样本中的每一图文对对应的医学影像和文本信息进行编码,得到图像编码信息和文本编码信息;
基于已人工标注的图文对对所述基于图像的文本解码器进行调整,得到描述器;
利用所述描述器生成所述初始训练样本中的无人工标注文本信息的第一医学影像的文本描述信息,得到第一类图文对,所述第一类图文对为医学影像与通过描述器生成的文本描述信息对应的图文对;
基于所述已人工标注的图文对对所述基于图像的文本编码器进行调整,得到过滤器;
利用所述过滤器对所述第一类图文对和所述第二类图文对进行过滤,得到第三类图文对,其中,所述第二类图文对为无人工标注文本信息的医学影像和与之对应的自动提取的文本信息组成的图文对,所述第三类图文对包括过滤后的第一类图文对和过滤后的第二类图文对;
根据已人工标注的图文对和所述第三类图文对,生成目标医学图文样本数据。
9.根据权利要求6所述的装置,其特征在于,所述生成单元包括:
第一确定子单元,用于基于所述多模态主题分布信息,确定每一主题与所述目标医学影像的关联概率;
第二确定子单元,用于基于所述关联概率,在所述多模态主题分布对应的各个主题中确定出目标主题;
生成子单元,用于将所述目标主题确定生成描述文本的监督信息,并基于层次长短期记忆力网络和视觉注意机制,生成与所述目标医学影像对应的文本句子;
处理子单元,用于对所述文本句子进行处理,得到多层次文本描述信息。
10.根据权利要求6所述的装置,其特征在于,所述优化单元具体用于:
基于展示可视化信息和影像报告描述模式,对所述多层次文本描述信息进行优化,得到与所述目标医学影像对应的医学影像报告。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210906078.4A CN115205880A (zh) | 2022-07-29 | 2022-07-29 | 一种医学影像报告生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210906078.4A CN115205880A (zh) | 2022-07-29 | 2022-07-29 | 一种医学影像报告生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115205880A true CN115205880A (zh) | 2022-10-18 |
Family
ID=83584575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210906078.4A Pending CN115205880A (zh) | 2022-07-29 | 2022-07-29 | 一种医学影像报告生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115205880A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116797889A (zh) * | 2023-08-24 | 2023-09-22 | 青岛美迪康数字工程有限公司 | 医学影像识别模型的更新方法、装置和计算机设备 |
CN117316369A (zh) * | 2023-08-24 | 2023-12-29 | 兰州交通大学 | 平衡跨模态信息的胸部影像诊断报告自动生成方法 |
CN117496126A (zh) * | 2023-11-13 | 2024-02-02 | 浙江飞图影像科技有限公司 | 基于关键词的影像自动定位系统及方法 |
-
2022
- 2022-07-29 CN CN202210906078.4A patent/CN115205880A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116797889A (zh) * | 2023-08-24 | 2023-09-22 | 青岛美迪康数字工程有限公司 | 医学影像识别模型的更新方法、装置和计算机设备 |
CN116797889B (zh) * | 2023-08-24 | 2023-12-08 | 青岛美迪康数字工程有限公司 | 医学影像识别模型的更新方法、装置和计算机设备 |
CN117316369A (zh) * | 2023-08-24 | 2023-12-29 | 兰州交通大学 | 平衡跨模态信息的胸部影像诊断报告自动生成方法 |
CN117316369B (zh) * | 2023-08-24 | 2024-05-07 | 兰州交通大学 | 平衡跨模态信息的胸部影像诊断报告自动生成方法 |
CN117496126A (zh) * | 2023-11-13 | 2024-02-02 | 浙江飞图影像科技有限公司 | 基于关键词的影像自动定位系统及方法 |
CN117496126B (zh) * | 2023-11-13 | 2024-04-30 | 浙江飞图影像科技有限公司 | 基于关键词的影像自动定位系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Boecking et al. | Making the most of text semantics to improve biomedical vision–language processing | |
Xue et al. | Multimodal recurrent model with attention for automated radiology report generation | |
CN112712879B (zh) | 医学影像报告的信息提取方法、装置、设备及存储介质 | |
US20190347269A1 (en) | Structured report data from a medical text report | |
Harzig et al. | Addressing data bias problems for chest x-ray image report generation | |
Ayesha et al. | Automatic medical image interpretation: State of the art and future directions | |
Wang et al. | A self-boosting framework for automated radiographic report generation | |
CN115205880A (zh) | 一种医学影像报告生成方法及装置 | |
Lin et al. | Pmc-clip: Contrastive language-image pre-training using biomedical documents | |
Beddiar et al. | Automatic captioning for medical imaging (MIC): a rapid review of literature | |
EP4266195A1 (en) | Training of text and image models | |
Allaouzi et al. | Automatic caption generation for medical images | |
Alsharid et al. | Captioning ultrasound images automatically | |
Sirshar et al. | Attention based automated radiology report generation using CNN and LSTM | |
Sun et al. | Study on medical image report generation based on improved encoding-decoding method | |
CN113903422A (zh) | 医疗影像诊断报告实体提取方法、装置及设备 | |
Zhang et al. | BiomedCLIP: a multimodal biomedical foundation model pretrained from fifteen million scientific image-text pairs | |
Rodin et al. | Multitask and multimodal neural network model for interpretable analysis of x-ray images | |
Tiwari et al. | Automatic generation of chest x-ray medical imaging reports using lstm-cnn | |
Huang et al. | OVQA: A clinically generated visual question answering dataset | |
Hartsock et al. | Vision-language models for medical report generation and visual question answering: A review | |
Wu et al. | AGNet: Automatic generation network for skin imaging reports | |
Gu et al. | Automatic generation of pulmonary radiology reports with semantic tags | |
Lin et al. | Contrastive pre-training and linear interaction attention-based transformer for universal medical reports generation | |
Gajbhiye et al. | Translating medical image to radiological report: Adaptive multilevel multi-attention approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |