CN111882652A - 生成三维图像的报告 - Google Patents
生成三维图像的报告 Download PDFInfo
- Publication number
- CN111882652A CN111882652A CN202010372655.7A CN202010372655A CN111882652A CN 111882652 A CN111882652 A CN 111882652A CN 202010372655 A CN202010372655 A CN 202010372655A CN 111882652 A CN111882652 A CN 111882652A
- Authority
- CN
- China
- Prior art keywords
- image
- module
- report
- semantic
- annotated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 83
- 238000012545 processing Methods 0.000 claims description 112
- 238000012549 training Methods 0.000 claims description 64
- 238000007689 inspection Methods 0.000 claims description 25
- 238000004458 analytical method Methods 0.000 claims description 23
- 238000010801 machine learning Methods 0.000 abstract description 189
- 230000008569 process Effects 0.000 description 40
- 239000013598 vector Substances 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 8
- 230000009466 transformation Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 7
- 230000005856 abnormality Effects 0.000 description 6
- 238000002591 computed tomography Methods 0.000 description 6
- 238000003384 imaging method Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 5
- 229910052791 calcium Inorganic materials 0.000 description 5
- 239000011575 calcium Substances 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 238000011144 upstream manufacturing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000003709 image segmentation Methods 0.000 description 4
- 210000004072 lung Anatomy 0.000 description 4
- 230000000644 propagated effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 206010028980 Neoplasm Diseases 0.000 description 3
- 230000000747 cardiac effect Effects 0.000 description 3
- 238000002595 magnetic resonance imaging Methods 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 208000031481 Pathologic Constriction Diseases 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000001143 conditioned effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000002600 positron emission tomography Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000036262 stenosis Effects 0.000 description 2
- 208000037804 stenosis Diseases 0.000 description 2
- 238000002604 ultrasonography Methods 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000002308 calcification Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/768—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Computational Linguistics (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
Abstract
生成三维图像的报告。本公开的各种示例提供了一种生成三维(3D)图像的报告的方法和装置。该方法包括:使用用注释的3D图像训练的第一机器学习(ML)模块来标识3D图像中的多个体积特征;使用用注释的3D图像和与注释的3D图像相关联的报告训练的第二ML模块来标识与3D图像相关联的多个语义表示;以及使用第三ML模块基于体积特征和语义表示来生成3D图像的报告,该第三ML模块用报告和由第一ML模块和第二ML模块使用注释的3D图像和报告生成的输出来训练。
Description
技术领域
本公开涉及图像处理技术。更特别地,本公开涉及一种生成三维(3D)图像的报告的方法和装置。
背景技术
三维(3D)成像技术,诸如超声、计算断层摄影术(CT)、磁共振成像(MRI)、正电子发射断层摄影术(PET)以及诸如此类能够产生扫描结构的三维表示,并被广泛用于许多领域中,所述领域诸如医学诊断、机械故障检测、逆向工程等。3D图像由领域专家读取,领域专家然后撰写(compose)关于发现和印象的分析报告。
发明内容
该部分提供了本公开的一般概述,并且不是其全部范围或其全部特征的全面公开。
各种示例提供了一种生成3D图像的报告的方法,包括:
使用用注释的3D图像训练的第一机器学习ML模块来标识3D图像中的多个体积特征;
使用用注释的3D图像和与注释的3D图像相关联的报告训练的第二ML模块来标识与3D图像相关联的多个语义表示;以及
使用第三ML模块基于体积特征和语义表示来生成3D图像的报告,所述第三ML模块用报告和由第一ML模块和第二ML模块使用注释的3D图像和报告生成的输出来训练。
根据各种示例,不仅从3D图像获得体积特征而且还获得语义表示,并且两者都在生成3D图像的分析报告时使用,这可以确保可以由所生成的报告覆盖大多数的重要特征。
在一些示例中,使用第二ML模块来标识与3D图像相关联的多个语义表示的过程可以包括:
使用第二ML模块的多标签分类模块标识与3D图像中的体积结构相关联的属性的语义表示,使用注释的3D图像和从与注释的3D图像相关联的报告中获得的语义表示来训练多标签分类模块。
这样,可以提供比仅仅结构和异常的名称的列表更多的信息来引导报告的后续生成,因此该报告可以提供额外的信息,诸如描述性陈述、否定陈述或不确定性陈述,所述陈述可能是更有用的。
根据一些示例,生成3D图像的报告的过程可以包括:
在每个时间步骤处使用第三ML模块、体积特征、语义表示和在先前时间步骤中选择的语义元素从预定义元素集中选择语义元素;以及
将选择的语义元素添加到报告中。
通过基于已经生成的报告在每个时间步骤处生成语义元素,生成的报告的内容可以借助元素之间的强联系(ties)被良好地布置。
根据一些示例,预定义元素集可以是预定义词汇表,并且从预定义元素集中选择语义元素的过程可以包括:
使用第三ML模块计算给定在先前时间步骤中选择的语义元素和语义表示的情况下预定义词汇表中的每个语义元素的条件概率值;以及
根据词汇表中的每个语义元素的条件概率值选择语义元素。
通过考虑语义元素的概率并根据条件概率值选择语义元素,选择过程可以是更加高效和准确的。
根据一些示例,该方法还可以包括:
使用注释的3D图像中的体积结构的注释来确定第一ML模块的参数;
使用注释的3D图像、报告和从由第一ML模块和第二ML模块处理注释的3D图像生成的结果来确定第三ML模块的参数;以及
在确定第三ML模块的参数时,使用由第三ML模块生成的反馈来调整第一ML模块的参数。
这样,通过在ML模块之间提供反馈,可以提高报告生成方法的整体性能。
根据一些示例,该方法还可以包括:
通过使用注释的3D图像中的体积结构的注释来训练第一ML模块和第二ML模块中的一个,来确定第一ML模块和第二ML模块中的一个的参数;以及
使用参数来初始化第一ML模块和第二ML模块中的另一个。
通过训练第一ML模块和第二ML模块中的一个并且使用训练的参数来初始化第一ML模块和第二ML模块中的另一个,可以减少训练所需的资源和时间。
根据一些示例,该方法还可以包括:
获得由图像处理工作站生成的历史检验记录,所述历史检验记录包括:历史3D图像、在图像处理工作站中生成的历史3D图像上的标记、以及与历史3D图像相关联的历史分析报告;
提供历史3D图像作为注释的3D图像,提供标记作为注释的3D图像的注释,以及提供历史分析报告作为与注释的3D图像相关联的报告。
通过从由图像处理工作站提供的历史检验记录中获得注释的3D图像和相关联的报告,可以训练ML模块,而无需附加的注释工作。
各种示例提供了生成3D图像的报告的装置,包括:
图像特征标识模块,其被配置成使用用注释的3D图像训练的第一机器学习ML模块来标识3D图像中的多个体积特征;
语义属性预测模块,其被配置成使用用注释的3D图像和与注释的3D图像相关联的报告训练的第二ML模块来标识与3D图像相关联的多个语义表示;以及
报告生成模块,其被配置成使用第三ML模块基于体积特征和语义表示来生成3D图像的报告,所述第三ML模块用报告和由第一ML模块和第二ML模块使用注释的3D图像和报告生成的输出来训练。
根据各种示例,该装置不仅从3D图像中获得体积特征,而且还获得语义表示,并且在生成3D图像的分析报告时使用两者,从而可以确保大多数的重要特征可以被生成的报告覆盖。
根据一些示例,语义属性预测模块可以:
使用第二ML模块的多标签分类模块标识与3D图像中的体积结构相关联的属性的语义表示,使用注释的3D图像和从与注释的3D图像相关联的报告中获得的语义表示来训练多标签分类模块。
这样,语义属性预测模块可以提供比仅仅结构和异常的名称的列表更多的信息来引导报告的后续生成,因此该报告可以提供额外的信息,诸如描述性陈述、否定陈述或不确定性陈述,所述陈述可能是更有用的。
根据一些示例,报告生成模块可以:
在每个时间步骤处使用第三ML模块、体积特征、语义表示和在先前时间步骤中选择的语义元素从预定义元素集中选择语义元素;以及
将选择的语义元素添加到报告中。
通过基于已经生成的报告在每个时间步骤处生成语义元素,该装置可以生成借助元素之间的强联系具有良好布置的内容的报告。
根据一些示例,预定义元素集可以是预定义词汇表,并且报告生成模块可以:
使用第三ML模块计算给定在先前时间步骤中选择的语义元素和语义表示的情况下词汇表中的每个语义元素的条件概率值;
根据词汇表中的每个语义元素的条件概率值选择语义元素。
通过考虑语义表示的概率并根据条件概率值选择语义元素,选择过程可以是更加高效和准确的。
根据一些示例,该装置还可以包括:
训练模块,其被配置成:
使用注释的3D图像中的体积结构的注释来确定第一ML模块的参数;
使用注释的3D图像、报告和从由第一ML模块和第二ML模块处理注释的3D图像生成的结果来确定第三ML模块的参数;
在确定第三ML模块的参数时,使用由第三ML模块生成的反馈来调整第一ML模块的参数。
这样,通过ML模块之间的向后传播,可以提高报告生成装置的整体性能。
根据一些示例,该装置还可以包括:
训练模块,其被配置成:
通过使用注释的3D图像中的体积结构的注释来训练第一ML模块和第二ML模块中的一个,来确定第一ML模块和第二ML模块中的一个的参数;以及
使用参数来初始化第一ML模块和第二ML模块中的另一个。
通过训练第一ML模块和第二ML模块中的一个并且使用训练的参数来初始化第一ML模块和第二ML模块中的另一个,可以减少训练所需的资源和时间。
根据一些示例,该装置还可以包括:
数据获得模块,其被配置成:
获得由图像处理工作站生成的历史检验记录,所述历史检验记录包括:历史3D图像、在图像处理工作站中生成的历史3D图像上的标记、以及与历史3D图像相关联的历史分析报告;
提供历史3D图像作为注释的3D图像,提供标记作为注释的3D图像的注释,以及提供历史分析报告作为与注释的3D图像相关联的报告。
通过从由图像处理工作站提供的历史检验记录中获得注释的3D图像和相关联的报告,可以训练ML模块,而无需附加的注释工作。
各种示例还提供了一种计算机可读存储介质,该计算机可读存储介质包括可由处理器执行以执行各种示例的方法的计算机可读指令。
附图说明
为了对本公开的更好理解,应当结合以下附图参考下面的具体实施方式,在附图中,相同的参考标号贯穿附图指代对应的部位。
图1是图示根据本公开的示例的生成3D图像的报告的方法的流程图;
图2是图示根据本公开的示例的用于处理3D图像的系统的示意图;
图3A是图示根据本公开的示例的图像特征标识模块的两条处理路径的示意图;
图3B是图示根据本公开的示例的图像特征标识模块的两条处理路径的输入和输出的示意图;
图4是图示根据本公开的示例的第二ML模块的训练的示意图;
图5是图示根据本公开的示例的第二ML模块的预测过程的示意图;
图6A是图示根据本公开的示例的生成报告的过程的示意图;
图6B是图示根据本公开的示例的生成报告的过程的示意图;
图7是图示根据本公开的示例的报告生成装置的示意图。
具体实施方式
现在将详细参考在附图中图示的示例。在以下详细描述中,阐述了许多具体细节,以便提供对本公开的透彻理解。此外,附图是示例的图示,其中附图中所示的模块或过程对于实现本公开而言不一定是必要的。在其他实例中,尚未详细描述众所周知的方法、过程、组件和电路,以免不必要地模糊示例的各方面。
检验图像的分析报告是在例如医学检验、机械检验或诸如此类中的检验期间获得的所有发现和印象的概述。报告句子被列为针对每个被检验部位的描述。正常发现的描述可能比如:某个部位是正常的或者某个部位中没有发现。异常发现的描述可能更有可能是以这种格式:一些疾病或异常或故障位于具有诸如严重性、异常的尺寸、异常的形状等的性质的某个部位处。分析报告通常包括比仅仅疾病关键字或故障关键字更丰富的信息,并且还可以由否定和不确定性陈述组成。可疑的发现可能导致建议进行附加的或后续的(follow-up)成像研究。这样,分析报告由难以产生的有挑战性的信息的混合组成。
各种示例提供了一种生成3D图像的报告的方法。3D图像可以是用于检验或检查目的(例如,用于医学检查、机械检验或诸如此类)的图像。3D图像在本文中也可以被称为3D检查图像或3D检验图像。可以通过各种成像技术(例如超声、CT、MRI、PET等)来生成3D图像。如图1中所示,方法10可以包括以下过程。
在框S11处,可以使用用注释的3D图像训练的第一机器学习(ML)模块来标识3D图像中的多个体积特征。
体积特征指代分布在具有某个高度、长度和宽度的一定量的空间内的信息。体积特征可以是表示3D图像中或3D图像的变换版本中的结构的数据。结构指代一个对象(例如,机械结构、身体部位或诸如此类)或对象的集合、与对象相关联的一个特征(例如,区域、空腔、裂缝(fissure)、肿瘤、狭窄(stenosis)、钙化片(calcification flake)或诸如此类)或特征的集合等或其组合。3D图像的变换版本可以是经过通过变换操作(例如,几何变换、数学变换或诸如此类)处理3D图像而获得的数据。几何变换可以是诸如图像缩放或诸如此类的操作。数学变换可以是诸如卷积、上卷积或诸如此类的操作。为了处置3D空间内的3D图像数据以提取跨三个空间维度存在的特征,变换操作可以是3D版本操作,例如3D缩放、3D卷积等。
注释的3D图像指代具有注释的3D图像。注释指代关于在独立于生成3D图像的过程的过程中生成的3D图像中的至少一个结构的附加信息。注释可以包括由专家对3D图像做出的标记。在一些示例中,注释还可以包括3D图像的类别信息或诸如此类。
如本文中所使用的,标记指代对3D图像中的体素做出的指示,通常由专家手动添加,以用于标识3D图像中所图示的结构。标记可以被存储为与3D图像中的体素的信息相关联的数据。例如,可以使用在那里做出标记的体素的坐标信息来标识标记。标记也可以与结构的标识信息相关联,例如,对身体部位做出的标记可以与指定身体部位的名称的标识信息相关联等。例如,标记可以例如以诸如{(2,2,5),“肿瘤”}或诸如此类的形式被存储为包括体素的坐标和结构的名称的数据。在另一个示例中,标记可以例如以诸如{“狭窄_1”,(2,2,3),(4,2,5)…}或诸如此类的形式被存储在与结构相关联的标记列表中。3D图像可以包括标识图像中图示的至少一种结构的大量的标记,例如,标识3D图像中的一部分或区域的标记、标识异常的轮廓的标记或诸如此类。
3D图像的类别信息指代关于3D图像所属的至少一个类别的信息。3D图像可以属于至少一个类别,例如,与检验部位相对应的类别、或与规定检验的部门相对应的类别、或与要检查的异常的类型相对应的类别或诸如此类。类别信息可以由图像处理工作站自动生成,或者从由专家手动输入或选择的信息(例如,存储3D图像的目录、3D图像的文件名等)获得或诸如此类。
可以使用注释的3D图像,即,使用3D图像和与3D图像相关联的注释来训练第一ML模块。在训练期间,第一ML模块可以将3D图像作为输入并将注释作为地面实情(groundtruth)以训练第一ML模块的参数。这样,第一ML模块能够从输入3D图像和/或从输入3D图像的变换版本标识体积特征。
在框S12处,可以使用用注释的3D图像和与注释的3D图像相关联的报告训练的第二ML模块来标识与3D图像相关联的多个语义表示。
语义表示指代描述图像的语义元素的表示。语义元素指代文本的段,例如单词、短语、句子段、句子或诸如此类。语义表示可以是以可以由计算机处理的形式的,例如,数字的串、实数的矢量或诸如此类。可以通过使用自然语言处理(NLP)技术处理语义元素来生成语义表示。例如,可以使用诸如词袋(Bag-of-Words)、术语频率-逆文档频率(TermFrequency–Inverse Document Frequency)(TF-IDF)或诸如此类的技术来生成单词的语义表示。
可以使用注释的3D图像和相关联的报告来训练第二ML模块,以便能够标识3D图像的特性并找出描述该特性的语义信息。
在框S13处,可以使用第三ML模块基于体积特征和语义表示来生成3D图像的报告,可以用注释的3D图像、报告以及由第一ML模块和第二ML模块使用注释的3D图像和报告生成的输出来训练第三ML模块。
可以使用注释的3D图像和报告来训练第三ML模块,以学习报告中的体积特征与语义元素(例如,单词、短语、句子或诸如此类)之间的关系、语义元素之间的关系和体积特征之间的相对关系(例如,位置关系、大小关系或诸如此类)、报告中的语义元素之间的关系以及诸如此类。此外,第三ML模块的训练还可以使用第二ML模块的输出来增强报告生成性能。因此,第三ML模块能够基于由第一ML模块提取的体积特征、由第二ML模块获得的语义表示以及学习的关系来生成报告。
根据各种示例,不仅从3D图像获得体积特征而且还获得语义表示,并且两者都在生成3D图像的分析报告时使用,这可以确保由所生成的报告覆盖大多数的重要特征。
在各种示例中,ML模块可以使用机器学习算法的任一个或任何组合,诸如人工神经网络(ANN)、多层感知器(perceptron)(MLP)、回归、分类器、强化学习(reinforcementlearning)或诸如此类。
各种示例的方法可以由在下文中被称为报告生成装置的装置来实现。报告生成装置可以是独立的计算设备,或者可以是计算设备的组件。报告生成装置可以在用于处理3D图像的系统(例如,如图2中所示的系统20)中使用。如图2中所示,系统20可以包括报告生成装置21、图像处理工作站25和成像设备26。
成像设备26可以使用例如CT扫描仪、MRI扫描仪或诸如此类的扫描仪来生成3D图像。
图像处理工作站25可以是用于处理、存储和传送图像或诸如此类的设备。例如,在临床场景中,图像处理工作站25可以是运行诸如医院信息系统(HIS)、图片存档和通信系统(PACS)、放射学信息系统(RIS)或诸如此类的管理系统的设备。图像处理工作站25可以处理和存储由成像设备25生成的3D图像,例如,生成针对3D图像的类别信息、将3D图像与客户身份或检验记录相关联、将3D图像与分析报告相关联或诸如此类。图像处理工作站25可以将3D图像和相关联的信息存储到存储设备中,该存储设备例如硬盘驱动器、远程数据库设备或诸如此类。图像处理工作站25可以直接经由有线或无线通信链路或者经由存储设备为报告生成装置21提供3D图像。例如,图像处理工作站25可以将3D图像和相关联的信息存储到存储设备中,并且报告生成装置21可以在必要时(例如,当需要生成针对3D图像的分析报告时)从存储设备获得3D图像。
报告生成装置21可以是能够与图像处理工作站25通信的设备。报告生成设备21可以例如经由有线或无线通信链路或网络或经由诸如存储设备的另一设备或诸如此类直接或间接地与图像处理工作站25通信。如图2中所示,报告生成装置21可以包括图像特征标识模块22、语义属性预测模块23和报告生成模块24。
图像特征标识模块22可以使用用注释的3D图像训练的第一机器学习(ML)模块来标识3D图像中的多个体积特征。
语义属性预测模块23可以使用用注释的3D图像和与注释的3D图像相关联的报告训练的第二ML模块来标识与3D图像相关联的多个语义表示。
报告生成模块24可以基于体积特征、使用用注释的3D图像训练的第三ML模块的语义表示、报告以及基于注释的3D图像和报告生成的第一ML模块和第二ML模块的输出来生成3D图像的报告。
在一些示例中,报告生成装置21可以由硬件模块(例如,专用逻辑电路或芯片、FPGA、ASIC或诸如此类)来实现。在其他示例中,报告生成装置21可以由通用处理器实现。例如,报告生成装置21可以包括处理器和存储对应于报告生成装置21的模块(例如,图像特征标识模块22、语义属性预测模块23和报告生成模块24)的计算机可读指令的存储器。所述指令可由处理器执行,以实现报告生成装置21的功能。
在一些示例中,系统20可以包括多个报告生成装置21,并且每个报告生成装置21可以被用于生成针对特定类型的3D图像的报告。在一些示例中,报告生成装置21可以包括ML模块的多个集合,并且ML模块的每个集合可以被训练用于处理特定类型的3D图像。3D图像的类型可以指代被检验的部位、在检验中被检查的异常的类型或诸如此类。可以从由图像处理工作站25生成的类别信息、存储3D图像的目录、3D图像的文件名或诸如此类获得3D图像的类型。例如,当专家执行检验时,他/她可以针对在工作站中生成的图像选择类别信息,例如规定检验的临床部门、检验的部位、要检查的异常或诸如此类。根据3D图像的类型,可以激活多个报告生成装置21之一或与该类型相关联的ML模块的集合之一来处理3D图像。ML模块的多个集合可被用于针对一个3D图像生成一个或多个报告。例如,在比如胸部CT扫描(其在一次扫描中包括心脏和肺)的集成扫描中,它可以通过使用ML模块的两个集合(包括ML模块的一个集合用于心脏,并且ML模块的另一集合用于肺)的组合来生成心脏报告和肺报告,或者包括关于心脏的内容和关于肺的内容的报告。
根据各种示例,报告生成装置可以不仅使用体积特征而且还使用从3D图像获得的语义表示来生成3D图像的分析报告,从而可以生成覆盖3D图像中大多数的重要特征的分析报告。
在各种示例中,图像特征标识模块22可以标识检验部位(例如,机械组件、身体部位或诸如此类)的体积特征和与检验部位相关联的异常的体积特征,即,体积结构的体积特征。异常的标识通常是更重要的。不同情况下的异常可能具有不同的形状、大小或诸如此类,因此从3D图像正确提取异常的体积特征是有挑战性的。为了解决该问题,在一些示例中,可以如下执行步骤S11处的过程。可以通过多个预定的变换操作来处理3D图像,以生成3D图像的变换版本,并且可以使用第一ML模块从3D图像和变换版本中标识与体积结构相关联的体积特征。因为变换操作可以使3D图像中的结构变形,所以使用图像的变换版本可以增加标识和提取结构的体积特征的机会。
在检验中,小异常通常是比较大结构更重要的。为了提高提取的体积特征的分辨率并使得能够实现微小体积特征的提取,图像特征标识模块22可以通过两条处理路径来处理3D图像,一条路径用于捕获每个体素(即,体积像素或像素的3D对应物)的上下文信息,并且另一条路径用于增加体积特征的分辨率以精确定位体积结构。图3A是图示图像特征标识模块22的两条处理路径的示意图。如图3A中所示,两条处理路径包括第一处理路径31和第二处理路径32。
在如图3A中所示的示例中,图像特征标识模块22可以将3D图像输入到第一处理路径31。第一处理路径31可以包括多个连续的第一处理节点311、312、…、31n。第一处理节点中的每个可以包括执行3D卷积的单元。例如,3D图像可以被输入到第一处理路径31的头节点,即第一处理节点311。节点311对图像执行其预定义操作,并将体积特征输出到其下游节点312,下游节点312对体积特征执行其预定义操作。下游指代图像数据在其中流动的方向。由下游节点执行类似的过程,直到第一处理路径31的端节点(即第一处理节点31n)对接收到的体积特征执行其预定义操作,并生成其输出体积特征,该输出体积特征用作第一处理路径31的输出。图3B是图示两个处理路径31和32的输入和输出的示意图。如图3B中所示,左上侧斑块(blob)33是输入到第一处理路径31的3D图像,并且左下侧斑块34是由第一处理节点输出的体积特征。
由第一处理路径31输出的体积特征可以被输入到第二处理路径32。第二处理路径32可以包括多个连续的第二处理节点321、322、…、32n。第二处理节点中的每个可以包括执行3D上卷积的单元,并且将由第二处理路径32中的先前的第二处理节点输出的特征和由第一处理节点之一输出的特征作为输入。在一些示例中,第一节点的先前节点指代是第一节点的直接上游节点的节点。上游指代图像数据在其中流动的方向的相反方向。
在一些示例中,除了从先前节点接收第一体积特征之外,第二处理节点也可以接收由第一处理路径31中的对应的节点输出的第二体积特征。对应的节点指代第一处理节点,其输出体积特征具有与由第二处理节点接收的第一体积特征的分辨率相同或与由第二处理节点接收的第一体积特征的分辨率相似的分辨率。当由对应的节点输出的体积特征具有与第一体积特征的分辨率不一致的分辨率时,可以处理体积特征以调整分辨率以与第一体积特征的分辨率一致。可以通过或可以不通过分辨率调整来处理的具有与第一体积特征的分辨率相同的分辨率的体积特征,被称为输入到第二处理节点的第二体积特征。第二处理节点可以将接收到的第一体积特征与第二体积特征接合(join),以获得接合的特征,并且对接合的特征执行预定义操作。如图3B中所示,右侧斑块35是由第二处理节点输出的体积特征。右侧斑块35中的每个与左侧斑块34之一合并(merge)以形成下一个第二处理节点的输入。由于合并的两个斑块包括来自不同视觉水平的特征,因此将它们接合可以增强图像特征标识模块22的辨别能力。可以将接合操作应用于体积特征中的每个体素,即,通过将第一体积特征中的体素与第二体积特征中与第一体积特征相对应的对应的体素接合(例如,第二体积特征可以对应于输入3D图像中与第一体积特征相同的空间的部分,或诸如此类)。在各种示例中,接合操作可以是以下各项之一:求和、最大化、级联或诸如此类。每个下游第二处理节点可以受益于对应的第一处理节点的输出特征的引导,因此第二处理路径32的端节点可以具有强预测能力和最高的标识分辨率。
例如,第二处理路径32的头节点,即第二处理节点32n,在第二处理路径32中没有上游节点,并且仅接收由第一处理路径31输出的体积特征。由第二处理节点32n输出的体积特征被输入到第二处理路径32中的下游节点以进行处理。在第二处理节点322处,输入包括由上游第二处理节点输出的第一体积特征,以及由第一处理路径31中的对应的第一处理节点312输出的第二体积特征。第二处理路径32的端节点,即第二处理节点321,接收由上游第二处理节点322输出的体积特征和由第一处理路径31中的对应的第一处理节点311输出的体积特征,处理体积特征,并输出用作第二处理路径32的输出的体积特征。
由第一处理节点311、312、…、31n中的每个输出的所有的体积特征和由第二处理节点321、322、…、32n中的每个输出的体积特征被收集作为由图像特征标识模块22标识的体积特征。
由处理节点中的每个执行的操作可以根据需要来确定。在示例中,由第一处理路径31中的每个第一处理节点执行的操作可以包括具有步幅(stride)为二的两个3D卷积,以便扩大接收域(receptive field)并包含更多的上下文信息,并且3D卷积中的每个之后可以是批量归格化、激活函数(诸如整流线性单元(ReLu)),并且然后是最大池化(pooling);由第二处理路径32中的每个第二处理节点执行的操作可以包括在每个维度上具有步幅为二的3D上卷积,之后是两个3D卷积,每个3D卷积之后是批量归格化、激活函数(诸如整流线性单元(ReLu))。
在示例中,图像特征标识模块22可以包括转换层,以操纵输出体积特征的空间网格大小和特征尺寸,使得输出体积特征满足报告生成模块24的输入要求。
通过使用两个处理路径,一个执行3D卷积,并且另一个执行3D上卷积,可以以增加的分辨率和准确度从3D图像中标识微小的体积特征。
除了由图像特征标识模块22获得的体积特征之外,语义属性预测模块23被包括在报告生成装置21中,以获得3D图像的属性的显式语义表示。语义属性预测模块23可以从语义元素的预定义元素集中标识被确定为最有可能与3D图像相关联的多个语义元素的语义表示。例如,语义属性预测模块23可以通过针对元素集中的每个语义元素计算与3D图像相关联的概率,来标识预测为与该3D图像相关联的前N个语义元素。元素集可以包括从与用作训练数据集的注释的3D图像相关联的报告中提取(mine)的多个语义元素。在一些示例中,语义元素可以以语义表示的形式来存储,即元素集可以包括语义元素的语义表示。
在示例中,为了标识3D图像中的比如钙的微小结构,语义属性预测模块23可以执行以下过程:执行对象(objectness)检测以产生候选对象3D边界框的集合,使用假设提取方法选择数量少得多的候选边界框作为假设,使用聚类算法将候选边界框分组为m个聚类,并且从m个聚类中的每个中选择具有最高概率的k个假设。m和k是正整数。与3D图像一起,对于3D图像有m*k+1个假设。所选择的假设可以被馈送到第二ML模块。在一些示例中,第二ML模块可以是共享卷积神经网络(CNN)或诸如此类。第二ML模块可以针对每个输入的假设生成预测矢量。每个预测矢量包括多个预测语义表示和预测语义表示的概率值。交叉假设最大池化可以被应用来将输出的预测矢量集成到单个预测矢量中。以上仅是说明性示例。在其他示例中,语义属性预测模块23可以以替代方式实现。
在各种示例中,语义属性预测模块23不仅可以标识3D图像中图示的结构的名称的表示,诸如体积结构的名称、异常的名称或诸如此类,而且还可以标识与3D图像中的体积结构相关联的属性的表示。属性可以包括各种类型的信息,例如,描述性陈述(例如,形容词)、否定、不确定陈述、可疑发现、结论、建议或诸如此类。
在各种示例中,可以使用第二ML模块的多标签分类模块来标识与3D图像中的体积结构相关联的属性的语义表示。可以使用注释的3D图像和从与注释的3D图像相关联的报告中获得的语义表示来训练多标签分类模块。
在一些示例中,可以使用第二ML模块的第一参数来标识与3D图像中的体积结构相关联的名词的多个第一语义表示。可以使用注释的3D图像中的体积结构的注释来确定第二ML模块的第一参数。
在一些示例中,可以使用第二ML模块的第二参数来标识与体积结构相关联的描述性陈述的多个第二语义表示。可以使用从与注释的3D图像相关联的报告中获得的语义表示来确定第二ML模块的第二参数。
例如,第二ML模块可以通过至少两个阶段来训练以确定第一参数和第二参数。在第一阶段处,可以以与训练第一ML模块类似的方式,使用注释的3D图像来预训练第二ML模块,以确定用于标识3D图像中的体积结构的第一参数。在第二阶段处,可以进一步使用从报告和注释的3D图像提取的语义元素的语义表示来训练第二ML模块,以确定用于标识与3D图像相关联的其他信息(例如,描述性陈述、不确定性陈述或诸如此类)的第二参数。在第二阶段中,可以通过使用注释的3D图像作为输入并使用报告作为地面实情来训练第二ML模块。
以上仅是第二ML模块的训练的示例。在各种示例中,可以以其他方式训练第二ML模块。例如,如图4中所示,第二ML模块可以包括CNN,并且CNN的训练可以包括第一训练41、第二训练42和第三训练43。
在第一训练41期间,可以使用注释的3D图像和大结构(例如,机械结构或部位、身体部位或诸如此类)的注释来训练第二ML模块,以便使得第二ML模块能够标识输入图像中的大结构。大结构的注释可以从由专家在图像处理工作站中对注释的3D图像做出的标记中获得,或从由医学图像处理工作站提供的定义被该结构(例如,心脏罩(mask)或大脑罩或诸如此类)占据的3D区域的模板中获得。可以将第一训练41视为解决图像分割问题的过程,并且图像分割损失44可以使用CNN的输出和大结构的注释来计算,并用于调整参数。
在第二训练42期间,可以使用注释的3D图像和微小结构的注释来训练第二ML模块,以便使得第二ML模块能够标识输入图像中的微小结构。微小结构的注释可以从由专家在图像处理工作站中对注释的3D图像做出的标记中获得,或从由医学图像处理工作站生成的定义微小结构(例如钙罩或诸如此类)的3D区域的模板中获得。第二训练42也可以被视为解决图像分割问题的过程,并且图像分割损失45可以使用CNN的输出和微小结构的注释来计算,并用于调整参数。
在第三训练43期间,第二ML模块可以被馈送有注释的3D图像和对应的报告。第三训练43可以被视为解决多标签分类问题的过程。在第三训练43期间,将通过诸如TF-IDF之类的NLP过程从每个报告获得的语义元素的表示的列表用作地面实情。语义元素可以包括在报告中使用的各种结构的名称和性质。报告语言元素的使用保证了可以提取图像的最显著的属性。分类损失46可以使用输出语义表示和地面实情来计算,并用于调整第二ML模块的参数。
在一些示例中,第二ML模块可以使用多种预测方法。每种预测方法可以输出预测的语义元素的列表。例如,如图5中所示,第二ML模块可以包括第一预测方法51、第二预测方法52和第三预测方法53。预测方法51、52、53全部都可以使用注释的3D图像和报告来训练。在报告生成过程期间,可以将3D图像输入到预测方法中的每种,并且可以输出三个语义元素列表54、55、56。每种预测方法还可以输出列表中每个语义元素的概率值。概率值表示如通过预测方法预测的语义元素与3D图像相关的概率。预测的语义元素可以包括名词(诸如“狭窄”)并且也可以包括形容词(诸如“严重”)。可以根据预定义的方法使用合并单元57来组合列表54、55、56,以生成最终语义元素列表58。列表58可以包括语义元素或语义元素的语义表示,并且可以用作语义属性预测模块23的输出。
在一些示例中,仅关键词可以从报告中被提取并在训练第二ML模块时使用,使得由第二ML模块从输入3D图像中仅提取有意义和重要的语义特征。在一些示例中,可以通过NLP技术来处理报告,以提取报告中多个单词的语义表示。在其他示例中,可以根据需要使用注释的3D图像和遵循其他方法的报告来训练第二ML模块。
通过使用与注释的3D图像相关联的报告来训练第二ML模块,可以由第二ML模块不仅从3D图像中提取结构的名称,而且还可以提取与结构相关联的描述性陈述,以引导第三ML模块中的报告的后续生成。这样,可以确保所生成的报告可以覆盖3D图像的大多数的重要特征,并且可以提供比仅仅结构和异常的名称的列表更多的信息。
在各种示例中,在从3D图像获得体积特征和语义表示之后,可以使用第三ML模块的训练的参数来确定与体积特征相关联的语义元素,并且可以使用语义元素与由第二ML模块获得的语义表示一起来生成报告。报告可以以各种方法来生成。
在一些示例中,可以通过使用第三ML模块的训练的参数来布置与体积特征相关联的语义元素和与语义表示相对应的语义元素来生成报告,以形成符合自然语言规则的报告。
在一些其他示例中,可以在一系列的时间步骤中逐元素地(例如,逐单词、逐段、逐句或诸如此类)生成报告,并且在每个时间步骤中使用第三ML模块根据体积特征、语义表示和在先前时间步骤中选择的至少一个语义元素来决定语义元素。例如,第三ML模块可以包括时间神经网络,例如具有长短期记忆(LSTM)单元的递归神经网络(RNN)或诸如此类。在框S13处,报告生成模块24可以基于第三ML模块的参数、体积特征、语义表示和在先前时间步骤中选择的语义元素,在每个时间步骤处从预定义元素集中选择语义元素,并将选择的语义元素添加到报告中。
元素集是可能出现在分析报告中的语义元素的集合,例如词汇表、句子集合或诸如此类。在一些示例中,可以针对特定类型的检验(例如,针对由检验所涉及的特定部位、针对由检验所涉及的特定类型的异常或诸如此类)生成元素集。例如,可以使用来自由领域专家生成或确认的报告或者来自领域特定的字典或诸如此类的语义元素来生成元素集。
图6A是图示了通过在每个时间步骤中决定语义元素来生成报告的过程的示意图。如图6A中所示,可以将由图像特征标识模块22获得的体积特征和由语义属性预测模块23获得的语义表示输入到第三ML模块61中。在第一时间步骤处,可以将指示“报告的开始”的预定义表示62输入到第三ML模块61中,该第三ML模块61基于体积特征、语义表示和第三ML模块61的训练的参数从预定义元素集中选择第一语义元素63。在第二时间步骤处,可以将语义元素63输入到第三ML模块61中,该第三ML模块61然后从预定义元素集中选择第二语义元素64。可以重复该过程,直到选择了指示“报告的结束”的预定义表示67。所有的选择的语义元素形成生成的报告。
在一些示例中,第三ML模块61可以包括时间神经网络单元和输入预处理单元,该输入预处理单元将由语义属性预测模块23获得的语义表示与来自元素集的语义元素混合,以在每个时间步骤中生成时间神经网络单元的输入,使得可以在报告生成过程中考虑语义表示。图6B是图示通过在每个时间步骤中决定语义元素来生成报告的过程的示意图。如图6B中所示,第三ML模块可以包括输入预处理单元611和用作时间神经网络单元的LSTM单元612。可以将由图像特征标识模块22获得的体积特征输入到LSTM单元612中以初始化LSTM单元612的第一隐藏状态。在每个时间步骤处,输入预处理单元611可以将由语义属性预测模块23获得的语义表示与要被输入到LSTM单元612中的语义表示进行集成,并提供集成的数据作为LSTM单元612的输入。输入预处理单元611可以使用预定义的处理方法来处理语义表示以集成语义表示。处理方法可以是级联方法、线性处理方法或诸如此类。例如,语义元素的语义表示可以是实数的矢量,并且由语义属性预测模块23获得的语义表示可以是矢量Vsa(I)的列表。在第(i)时间步骤处,输入预处理单元611可以使用预定义函数f(S(i-1),Vsa(I))将语义表示S(i-1)与Vsa(I)集成,并将f(S(i-1),Vsa(I))的结果输入到LSTM单元612中,该LSTM单元612生成语义表示S(i)。i是正整数。对于第1时间步骤,S0可以是指示“报告的开始”的预定义的表示62;对于之后的时间步骤,S(i-1)可以是由LSTM单元612在先前的时间步骤中选择的语义表示。在示例中,函数f(S(i-1),Vsa(I))可以是将矢量S(i-1)和Vsa(I)中的矢量首尾(end to end)接合的级联函数,以形成更长的矢量,例如,具有P*(Q+1)个元素的矢量,其中P是每个语义表示中的元素的数量,Q是由语义属性预测模块23获得的语义表示的数量。在另一示例中,函数f(S(i-1),Vsa(I))可以是线性处理函数,其生成具有与语义表示相同长度的矢量,而矢量中的每个元素通过组合S(i-1)和Vsa(I)的对应的元素来获得。例如,线性处理函数可以是α•S(i-1)+(1-α)•Vsa(I),其中α是预定的超参数权重。可以将由输入预处理单元611获得的包含3D图像的预测语义信息的集成数据输入到LSTM单元612中。LSTM单元612可以基于集成数据从词汇表中进行语义元素的选择。可以重复该过程,直到选择了指示“报告的结束”的预定义表示。在各种示例中,LSTM单元可以采用任何可行的LSTM结构,诸如双向LSTM、多层LSTM或诸如此类。
由于已经使用注释的3D图像和相关联的报告训练了第三ML模块,因此第三ML模块的参数能够标识与体积特征相关联的语义元素和语义元素的布置次序。基于从3D图像获得的体积特征和先前决定并添加到报告的至少一个语义元素,报告生成模块24可以在来自由语义属性预测模块23获得的语义表示的帮助下,决定要在当前时间步骤中添加到报告的语义元素。通过基于已经生成的报告内容在每个时间步骤处生成语义元素,生成的报告的内容可以借助元素之间的强联系被良好地布置。
根据各种示例,在每个时间步骤处,报告生成模块24可以在给定当前情况的情况下选择具有最大概率的语义元素。当前情况可以包括报告的上下文、已经被描述或尚未被描述的体积特征、自然语言规则或诸如此类。在一些示例中,语义属性预测模块23还可以获得与标识的语义表示中的每个相对应的概率值。语义表示的概率值表示语义表示与3D图像相关联的概率。报告生成模块24可以使用由语义属性预测模块23获得的概率值来决定要添加到报告的下一个语义元素。
在示例中,语义元素是单词,元素集是预定义的词汇表,并且报告生成模块24可以获得由第二ML模块确定的语义表示中的每个的概率值,基于语义表示中的每个的概率值和第三ML模块的参数,计算给定在先前时间步骤中选择的语义元素的情况下词汇表中的每个语义元素的条件概率值,并且根据词汇表中的每个语义元素的条件概率值来选择语义元素。例如,假设是预定义的词汇表。第三ML模块可以根据下式计算在给定上下文单词和3D图像I的情况下单词中的每个的对数似然性(log-likelihood):
例如,词汇表可以包括从由领域专家生成或确认的报告中获得的单词、表示“报告的开始”的预定义的第一表示和表示“报告的结束”的预定义的第二表示。在开始时,报告生成模块24可以创建报告。可以将新创建的报告发起(initiate)为空白,即没有内容。报告生成模块24可以将第一表示添加到报告中,并且基于体积特征、语义表示和第三ML模块的参数,根据出现在第一表示之后的词汇表来计算单词的概率。如果决定单词“There(那里)”是在第一表示之后最有可能的单词,则将“那里”添加到报告。然后,基于自然语言规则,单词“is(是)”和“are(是)”具有大概率出现在“There”之后。根据体积特征包括被标识为肿瘤的体积特征以及由语义属性预测模块23获得的语义表示包括“肿瘤”的语义表示的发现,报告生成模块24可以使用第三ML模块的参数确定单词“is”的计算概率大于单词“are”的计算概率,做出单词“is”将被添加到报告的决定。类似地,可以根据第三ML模块的计算结果在连续的时间步骤中将单词“a(一)”和“肿瘤”添加到报告。可以重复该过程,以连续不断地将其他单词和句子添加到报告,直到表示“报告的结束”的第二表示被添加到报告以结束该过程。
通过考虑语义表示的概率并根据条件概率值选择语义元素,选择过程可以是更加高效和准确的。
在各种示例中,报告生成装置还可以包括用于训练第一ML模块、第二ML模块和第三ML模块的训练模块。
根据一些示例,可以单独地训练ML模块,即,第一ML模块、第二ML模块和第三ML模块。根据一些其他示例,替代地或附加地,可以联合地训练ML模块,并且可以在ML模块之间交换在联合训练期间生成的信息。在ML模块的联合训练期间,可以基于来自ML模块中的另一个的反馈信息来调整ML模块中的至少一个的参数,以便实现更好的整体性能。
例如,可以在联合训练期间根据来自第三ML模块的反馈来调整第一ML模块。具体地,第一ML模块的训练过程可以由报告生成装置的训练模块如下执行。
训练模块可以使用注释的3D图像中的体积结构的注释来确定第一ML模块的参数,并且该过程被称为第一ML模块的预训练。通过预训练,第一ML模块能够使用参数从3D图像中提取体积特征。
然后,可以使用报告和在联合训练过程中由第一ML模块与第二ML模块生成的结果来确定第三ML模块的参数。在联合训练过程期间,第三ML模块可以将使用第一ML模块获得的体积特征和使用第二ML模块获得的语义表示作为输入,并将与注释的3D图像相关联的报告作为全局地面实情来确定第三ML模块的参数。
在确定第三ML模块的参数时,可以使用由第三ML模块生成的反馈来调整第一ML模块的参数。第三ML模块可以基于输入来生成预测输出,使用全局地面实情作为预期输出,并且沿着处理路径向后传播预测输出和预期输出之间的误差,以调整每个处理节点(例如,感知器或神经元)的参数。向后传播的信息可以被传播到第一ML模块,并且第一ML模块使用向后传播的信息作为来自第三ML模块的反馈来调整第一ML模块的参数。例如,第三ML模块在时间步骤中针对注释的3D图像生成单词,从与注释的3D图像相关联的报告中获得单词,并且使用向后传播的两个单词来生成反馈信息,以调整第三ML模块的参数和第一ML模块的参数。
这样,通过ML模块之间的向后传播,可以提高报告生成装置的整体性能。
第一ML模块和第二ML模块两者都需要标识3D图像中的体积特征,因此具有一些共享参数。在一些示例中,不必分别训练第一ML模块和第二ML模块,而是代之以,可以训练第一ML模块和第二ML模块中的一个,并且可以彼此共享训练的参数。例如,训练模块可以使用注释的3D图像中的体积结构的注释来训练第一ML模块和第二ML模块中的一个,以确定第一ML模块和第二ML模块中的一个的参数,并且使用通过训练获得的第一ML模块和第二ML模块中的一个的参数来初始化第一ML模块和第二ML模块中的另一个的参数。这样,可以减少训练所需的资源和时间。
ML模块的训练需要注释的3D图像和相关联的报告。大量数据注释需要专业知识并且是耗时的。根据各种示例,可以从历史检验记录中获得与用于训练的3D图像相关联的注释和报告,而无需附加的手动注释工作。
在示例中,报告生成装置可以包括数据获得模块。数据获得模块可以获得由图像处理工作站(例如,图像处理工作站25)生成的历史检验记录。历史检验记录可以包括:历史3D图像、由图像处理工作站生成的历史3D图像的类别信息、由专家确认的历史3D图像上的标记、以及与历史3D图像相关联的历史分析报告或诸如此类。
历史3D图像是在日常检验例程(routine)期间生成的图像。历史分析报告是在日常检验例程期间针对历史3D图像生成并由专家确认的报告。
与历史3D图像相关联的注释可以包括与历史3D图像相关联的类别信息和标记。
类别信息可以由图像处理工作站生成。例如,当专家执行检验时,他/她可以针对在工作站中生成的图像选择类别信息,例如规定检验的临床部门、检验的部位、要检查的异常或诸如此类。
当专家读取工作站中的图像时,他/她可以使用由工作站提供的工具来标记某些部位或异常,用于诸如缩放(zooming)、测量或诸如此类的目的。历史3D图像上的手动添加的标记可以被用作结构注释。
一些工作站还为部位提供罩。罩是定义被部位占据的3D区域的模板。工作站可以使用由专家选择的罩来从3D图像中分割部位,使得仅显示图像中的部位,而使其他部分无效(blank out)以突出显示该部位。由工作站提供或由专家针对图像选择的罩也可以被用作与图像相关联的结构注释,即被检验的部位的注释。
这样,历史3D图像可以被提供作为注释的3D图像,标记(有时与类别信息一起)可以被提供作为注释的3D图像的注释,并且历史分析报告可以被提供作为与注释的3D图像相关联的报告。通过从由图像处理工作站提供的历史检验记录中获得注释的3D图像和相关联的报告,可以训练ML模块,而无需附加的注释工作。
以下是报告生成装置的另一示例。如图7中所示,报告生成装置70可以包括图像特征标识模块72、语义属性预测模块73、报告生成模块74、数据获得模块75和训练模块76。
在该示例中,报告生成装置70采用CNN-RNN结构作为用于生成报告的基本结构。图像特征标识模块72使用第一ML模块中的CNN用于提取体积特征。报告生成模块74使用第三ML模块中的RNN用于生成报告。语义属性预测模块73通过提供被预测为与输入3D图像相关的语义表示来向CNN-RNN结构提供附加引导。
数据获得模块75可以获得注释的3D体积图像和相关报告作为训练数据集。数据获得模块75可以获得由图像处理工作站产生的历史图像注释结果。例如,在心脏钙分数分析的场景中,数据获得模块75可以从图像处理工作站提取历史钙注释结果和心脏罩。注释结果由图像处理工作站临床地和例行地生成,并由放射科医生确认。数据获得模块75可以提供注释结果作为在训练时使用的地面实情。训练数据集可以包括3D图像、图像注释和相关联的报告,其全部都来自临床生成的历史数据。这使得用大量的数据和注释来训练ML模块而无需在结构上绘制边界框、将单词映射到边界框以及诸如此类的附加的繁重注释工作是可能的。
训练模块76可以使用训练数据集来训练ML模块。训练模块76可以包括NLP处理模块77,以用于将报告中的自然语言元素转换成语义元素的语义表示,然后在训练时使用语义元素的语义表示。语义表示可以是数字或字符串或矢量,因此允许计算设备处置语义信息。
训练模块76可以以两个步骤来训练图像特征标识模块72。在第一训练步骤中,通过将训练3D图像(即,注释的3D图像)作为输入并且将图像注释作为地面实情,来单独训练图像特征标识模块72。在第二训练步骤中,图像特征标识模块72与报告生成模块74一起被训练,并且训练3D图像是输入,并且报告是整体地面实情。在第二训练步骤期间,可以通过反向传播来调整图像特征标识模块72的参数。
从第一训练步骤确定的图像特征标识模块72的参数可以被用于初始化语义属性预测模块73。然后,训练模块76可以使用由NLP处理模块77从报告获得的语义元素的语义表示来训练语义属性预测模块73。
在第二训练步骤中,还可以将由图像特征标识模块72从3D图像标识的体积特征、由语义属性预测模块73从报告中生成的语义预测结果(可以包括预测的表示和相关联的概率值)馈送到报告生成模块74中。体积特征可以被用于初始化报告生成模块74的RNN的第一隐藏状态。另外,报告生成模块74可以在生成报告的每个单词时,例如在计算每个单词的条件概率值(例如,对数似然性)时,使用语义预测结果作为针对RNN的外部引导。
在报告生成过程期间(例如,当测试报告生成装置70时,或当将报告生成装置70投入到使用中(put into use)时),将输入3D图像输入到图像特征标识模块72中以生成体积特征,并输入到语义属性预测模块73中以生成语义预测结果。将体积特征输入到报告生成模块74中以初始化RNN的第一隐藏状态。然后,RNN通过在每个时间步骤处以先前隐藏状态、先前生成的单词、语义预测结果为条件(conditioned on)生成一个单词来产生报告。随着RNN中的隐藏状态随时间演变,根据由隐藏状态控制的概率矢量从词汇表中逐个选择单词。每个生成的单词在下一个时间步骤中被反馈回到RNN中作为输入的部分,这驱动隐藏状态的转换。语义预测结果在该过程中用作针对RNN的外部引导。
根据各种示例,报告生成装置可以自动生成针对3D图像(例如,针对心脏钙CT图像或诸如此类)的报告。
为了解释的目的,已经参考具体示例描述了前述描述。然而,上面的说明性讨论并不旨在是穷尽的或者将本公开限于所公开的精确形式。鉴于以上教导,许多修改和变化是可能的。选择和描述示例以便最好地解释本公开的原理及其实际应用,以由此使得本领域中的其他技术人员能够最好地利用本公开和具有适合于预期的特定用途的各种修改的各种示例。
Claims (15)
1.一种生成三维3D图像的报告的方法,包括:
使用用注释的3D图像训练的第一机器学习ML模块来标识(S11)3D图像中的多个体积特征;
使用用注释的3D图像和与注释的3D图像相关联的报告训练的第二ML模块来标识(S12)与3D图像相关联的多个语义表示;以及
使用第三ML模块基于体积特征和语义表示来生成(S13)3D图像的报告,所述第三ML模块用报告和由第一ML模块和第二ML模块使用注释的3D图像和报告生成的输出来训练。
2.根据权利要求1所述的方法,其中,使用第二ML模块来标识与3D图像相关联的多个语义表示包括:
使用第二ML模块的多标签分类模块标识与3D图像中的体积结构相关联的属性的语义表示,使用注释的3D图像和从与注释的3D图像相关联的报告中获得的语义表示来训练多标签分类模块。
3.根据权利要求1所述的方法,其中,生成3D图像的报告包括:
在每个时间步骤处使用第三ML模块、体积特征、语义表示和在先前时间步骤中选择的语义元素从预定义元素集中选择语义元素;以及
将选择的语义元素添加到报告中。
4.根据权利要求3所述的方法,其中预定义元素集是预定义词汇表,并且从预定义元素集中选择语义元素包括:
使用第三ML模块计算给定在先前时间步骤中选择的语义元素和语义表示的情况下预定义词汇表中的每个语义元素的条件概率值;以及
根据词汇表中的每个语义元素的条件概率值选择语义元素。
5.根据权利要求1所述的方法,进一步包括:
使用注释的3D图像中的体积结构的注释来确定第一ML模块的参数;
使用注释的3D图像、报告和从由第一ML模块和第二ML模块处理注释的3D图像生成的结果来确定第三ML模块的参数;以及
在确定第三ML模块的参数时,使用由第三ML模块生成的反馈来调整第一ML模块的参数。
6.根据权利要求1所述的方法,进一步包括:
通过使用注释的3D图像中的体积结构的注释来训练第一ML模块和第二ML模块中的一个,来确定第一ML模块和第二ML模块中的一个的参数;以及
使用参数来初始化第一ML模块和第二ML模块中的另一个。
7.根据权利要求1-6中的任一项所述的方法,进一步包括:
获得由图像处理工作站生成的历史检验记录,所述历史检验记录包括:历史3D图像、在图像处理工作站中生成的历史3D图像上的标记、以及与历史3D图像相关联的历史分析报告;
提供历史3D图像作为注释的3D图像,提供标记作为注释的3D图像的注释,以及提供历史分析报告作为与注释的3D图像相关联的报告。
8.一种生成三维3D图像的报告的装置,包括:
图像特征标识模块(22),其被配置成使用用注释的3D图像训练的第一机器学习ML模块来标识3D图像中的多个体积特征;
语义属性预测模块(23),其被配置成使用用注释的3D图像和与注释的3D图像相关联的报告训练的第二ML模块来标识与3D图像相关联的多个语义表示;以及
报告生成模块(24),其被配置成使用第三ML模块基于体积特征和语义表示来生成3D图像的报告,所述第三ML模块用报告和由第一ML模块和第二ML模块使用注释的3D图像和报告生成的输出来训练。
9.根据权利要求8所述的装置,其中,语义属性预测模块(23)被配置成:
使用第二ML模块的多标签分类模块标识与3D图像中的体积结构相关联的属性的语义表示,使用注释的3D图像和从与注释的3D图像相关联的报告中获得的语义表示来训练多标签分类模块。
10.根据权利要求8所述的装置,其中,报告生成模块(24)被配置成:
在每个时间步骤处使用第三ML模块、体积特征、语义表示和在先前时间步骤中选择的语义元素从预定义元素集中选择语义元素;以及
将选择的语义元素添加到报告中。
11.根据权利要求10所述的装置,其中,预定义元素集是预定义词汇表,并且报告生成模块(24)被配置成:
使用第三ML模块计算给定在先前时间步骤中选择的单词和语义表示的情况下词汇表中的每个语义元素的条件概率值;
根据词汇表中的每个语义元素的条件概率值选择语义元素。
12.根据权利要求8所述的装置,进一步包括:
训练模块,其被配置成:
使用注释的3D图像中的体积结构的注释来确定第一ML模块的参数;
使用注释的3D图像、报告和从由第一ML模块和第二ML模块处理注释的3D图像生成的结果来确定第三ML模块的参数;
在确定第三ML模块的参数时,使用由第三ML模块生成的反馈来调整第一ML模块的参数。
13.根据权利要求8所述的装置,进一步包括:
训练模块,其被配置成:
通过使用注释的3D图像中的体积结构的注释来训练第一ML模块和第二ML模块中的一个,来确定第一ML模块和第二ML模块中的一个的参数;以及
使用参数来初始化第一ML模块和第二ML模块中的另一个。
14.根据权利要求8-13中的任一项所述的装置,进一步包括:
数据获得模块,其被配置成:
获得由图像处理工作站生成的历史检验记录,所述历史检验记录包括:历史3D图像、在图像处理工作站中生成的历史3D图像上的标记、以及与历史3D图像相关联的历史分析报告;
提供历史3D图像作为注释的3D图像,提供标记作为注释的3D图像的注释,以及提供历史分析报告作为与注释的3D图像相关联的报告。
15.一种计算机可读存储介质,包括可由处理器执行以执行根据权利要求1-7中的任一项所述的方法的计算机可读指令。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP19172268.5 | 2019-05-02 | ||
EP19172268.5A EP3734499A1 (en) | 2019-05-02 | 2019-05-02 | Generating reports of three dimensional images |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111882652A true CN111882652A (zh) | 2020-11-03 |
Family
ID=66397040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010372655.7A Pending CN111882652A (zh) | 2019-05-02 | 2020-05-06 | 生成三维图像的报告 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11263501B2 (zh) |
EP (1) | EP3734499A1 (zh) |
CN (1) | CN111882652A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220284571A1 (en) * | 2021-03-05 | 2022-09-08 | Shenzhen Keya Medical Technology Corporation | Method and system for automatic calcium scoring from medical images |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080103828A1 (en) * | 2006-11-01 | 2008-05-01 | Squilla John R | Automated custom report generation system for medical information |
CN107767928A (zh) * | 2017-09-15 | 2018-03-06 | 深圳市前海安测信息技术有限公司 | 基于人工智能的医学影像报告生成系统及方法 |
WO2019030410A1 (en) * | 2017-08-10 | 2019-02-14 | Aidence B.V | COMPUTER-AIDED DIAGNOSIS USING DEEP NEURAL NETWORKS |
CN109545302A (zh) * | 2018-10-22 | 2019-03-29 | 复旦大学 | 一种基于语义的医学影像报告模板生成方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100131873A1 (en) * | 2008-11-25 | 2010-05-27 | General Electric Company | Clinical focus tool systems and methods of use |
WO2018094438A1 (de) * | 2016-11-25 | 2018-05-31 | Contextflow Gmbh | Verfahren und system zum erstellen einer medizinischen bilddatenbank mittels eines konvolutionellen neuronalen netzwerk |
-
2019
- 2019-05-02 EP EP19172268.5A patent/EP3734499A1/en active Pending
-
2020
- 2020-05-01 US US16/864,414 patent/US11263501B2/en active Active
- 2020-05-06 CN CN202010372655.7A patent/CN111882652A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080103828A1 (en) * | 2006-11-01 | 2008-05-01 | Squilla John R | Automated custom report generation system for medical information |
WO2019030410A1 (en) * | 2017-08-10 | 2019-02-14 | Aidence B.V | COMPUTER-AIDED DIAGNOSIS USING DEEP NEURAL NETWORKS |
CN107767928A (zh) * | 2017-09-15 | 2018-03-06 | 深圳市前海安测信息技术有限公司 | 基于人工智能的医学影像报告生成系统及方法 |
CN109545302A (zh) * | 2018-10-22 | 2019-03-29 | 复旦大学 | 一种基于语义的医学影像报告模板生成方法 |
Non-Patent Citations (1)
Title |
---|
BAOYU JING: ""On the Automatic Generation of Medical Imaging Reports"", pages 1 - 9 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220284571A1 (en) * | 2021-03-05 | 2022-09-08 | Shenzhen Keya Medical Technology Corporation | Method and system for automatic calcium scoring from medical images |
Also Published As
Publication number | Publication date |
---|---|
US11263501B2 (en) | 2022-03-01 |
US20200349402A1 (en) | 2020-11-05 |
EP3734499A1 (en) | 2020-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yin et al. | Automatic generation of medical imaging diagnostic report with hierarchical recurrent neural network | |
ES2967682T3 (es) | Diagnóstico asistido por ordenador mediante redes neuronales profundas | |
CN109545302A (zh) | 一种基于语义的医学影像报告模板生成方法 | |
US20200401854A1 (en) | Method and system for image segmentation and identification | |
Beddiar et al. | Automatic captioning for medical imaging (MIC): a rapid review of literature | |
Tataru et al. | Deep Learning for abnormality detection in Chest X-Ray images | |
Imran et al. | Fast and automatic segmentation of pulmonary lobes from chest CT using a progressive dense V-network | |
Bi et al. | Multiple instance learning of pulmonary embolism detection with geodesic distance along vascular structure | |
US20220375576A1 (en) | Apparatus and method for diagnosing a medical condition from a medical image | |
Albahli et al. | AI-driven deep convolutional neural networks for chest X-ray pathology identification | |
Rodin et al. | Multitask and multimodal neural network model for interpretable analysis of x-ray images | |
CN112686899B (zh) | 医学图像分析方法和装置、计算机设备及存储介质 | |
CN112216379A (zh) | 一种基于智能联合学习的疾病诊断系统 | |
Nicolson et al. | AEHRC CSIRO at ImageCLEFmed caption 2021 | |
CN111882652A (zh) | 生成三维图像的报告 | |
Liu et al. | RPLS-Net: pulmonary lobe segmentation based on 3D fully convolutional networks and multi-task learning | |
Gaggion et al. | Chexmask: a large-scale dataset of anatomical segmentation masks for multi-center chest x-ray images | |
US20220083878A1 (en) | Label inference system | |
Agnihotri et al. | Using Multi-modal Data for Improving Generalizability and Explainability of Disease Classification in Radiology | |
Hassan et al. | Analysis of multimodal representation learning across medical images and reports using multiple vision and language pre-trained models | |
Jain et al. | SumNet Convolution Neural network based Automated pulmonary nodule detection system | |
TWI792751B (zh) | 醫學影像專案管理平台 | |
Shaikh et al. | MDEV Model: A Novel Ensemble-Based Transfer Learning Approach for Pneumonia Classification Using CXR Images. | |
Munna et al. | An Automatic Detection of Pneumonia from Chest Ionizing Radiation Images Using Machine Learning Algorithm | |
US20230096522A1 (en) | Method and system for annotation of medical images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |