CN111126024B

CN111126024B - 语句生成

Info

Publication number: CN111126024B
Application number: CN201910967589.5A
Authority: CN
Inventors: 许娟; P.沙马
Original assignee: Siemens Healthineers AG
Current assignee: Siemens Healthineers AG
Priority date: 2018-10-12
Filing date: 2019-10-12
Publication date: 2024-02-02
Anticipated expiration: 2039-10-12
Also published as: US11341333B2; US20200117712A1; CN111126024A; EP3637428A1

Abstract

公开了用于为放射学报告生成自然语言语句的方法、装置。所述方法包括：获得一个或多个词，所述一个或多个词已经基于对放射学图像的图像处理而被产生；通过使用计算机实现的文本分析过程来分析所述一个或多个词，用于生成表示放射学图像的自然语言语句；以及输出自然语言语句。所述计算机实现的文本分析过程包括：对于所述一个或多个词中的每一个并且通过使用经修改的词嵌入而确定表示词的向量；以及基于所确定的一个或多个向量并且通过使用文本生成器模型来确定自然语言语句。

Description

语句生成

技术领域

本发明涉及语句生成，并且更具体地涉及通过使用计算机实现的文本分析过程的语句生成。

背景技术

医学文本报告、例如放射学报告被使用在医学领域中用以在医学专业人士之间传送信息。例如，患者的医师可以建议患者进行某种医学成像，例如计算机断层扫描血管造影术（CTA）。放射科技师然后实施对患者的医学成像，并且放射科医师然后读取或解释结果得到的图像以产生他们的发现的基于文本的放射学报告，其典型地通过使用自然语言语句来被编写。放射学报告然后被提供给咨询医师。咨询医师然后可以基于放射学报告而做出对患者的状况的诊断。

已知的基于人工智能（AI）的图像分析算法分析医学图像以检测异常，检测解剖实体，对器官尺寸进行分割和量化，或将异常分类成各种类型等等。为不同的特定任务训练不同的AI算法。给定AI算法的输出一般包括：包括数值或类别变量的发现的经结构化且定量的表。

US9767557B1（西门子保健有限责任公司）公开了基于递归神经网络（RNN）长短期记忆（LSTM）的斑块检测AI算法，其可以被应用到冠状CT血管造影术图像以检测斑块，并且输出与图像有关的分类结果。分类结果可以是多类标签，例如针对斑块类型分类（例如钙化的、非钙化的、混合的），或连续的值，例如针对狭窄分级退化。

然而，对于咨询医师或信息的其他消费者而言可以难以解释AI算法的输出。将AI图像处理算法输出转换成自然语言语句将减轻该问题。

用于将放射学发现转换成自然语言语句的已知方法是供放射科医师使用听写系统中的预定义的宏，所述听写系统基于关键字而自动地将叙述性文本填充到报告中。这些宏是硬编码的并且被单独定义，从而需要大量手动努力来创建。所述宏此外不可适应于可能不同于创建宏的时候所意图的规则的情形，并且当仅仅向它们提供部分信息的时候不能创建叙述性语句。

因此合期望的是提供一种用于根据从放射学图像分析所获得的数据来生成自然语言语句的高效、灵活并且可靠的方法。

发明内容

根据本发明的第一方面，提供有一种用于为放射学报告生成自然语言语句的方法，所述方法包括：获得一个或多个词，所述一个或多个词已经基于对放射学图像的图像处理而被产生；通过使用计算机实现的文本分析过程来分析所述一个或多个词，用于生成表示放射学图像的自然语言语句；以及输出自然语言语句；其中所述计算机实现的文本分析过程包括：对于所述一个或多个词中的每一个并且通过使用词嵌入而确定表示词的向量；以及基于所确定的一个或多个向量并且通过使用文本生成器模型来确定自然语言语句；并且其中所述词嵌入是已经通过基于第一数据而修改第一词嵌入所生成的词嵌入，所述第一词嵌入已经基于第一语料库和第二语料库中之一而被生成，所述第一数据已经基于所述第一语料库和第二语料库中的另一个而被生成，所述第一语料库包括来自一个或多个放射学报告的文本，所述第二语料库不同于第一语料库并且包括明语文本。

可选地，第一数据包括第二词嵌入，所述第二词嵌入已经基于第一和第二语料库中的另一个而被生成，并且所述词嵌入是已经通过基于第二词嵌入而修改第一词嵌入所生成的词嵌入。

可选地，词嵌入是已经通过如下而被生成的词嵌入：对于针对给定词的给定词嵌入，连接（concatenate）针对给定词的第一词嵌入的向量与针对给定词的第二词嵌入的向量以产生针对给定词的经修改的向量。

可选地，所述第一数据包括语义词典，所述语义词典已经基于所述第一和第二语料库中的另一个而被生成，并且所述词嵌入是已经通过基于所述语义词典而修改第一词嵌入的向量的值所生成的词嵌入。

可选地，所述方法包括：生成第一词嵌入和第一数据；以及基于所述第一数据来修改第一词嵌入，从而生成用于确定表示每个词的向量的词嵌入。

可选地，所述方法包括：基于训练数据的数据库来训练文本生成器模型，所述训练数据包括一个或多个词的群组，每个群组利用与自然语言语句相对应的地面实况来被标注。

可选地，所述方法包括：通过使用第一所述文本生成器模型并且基于一个或多个所获得的词而确定第一自然语言语句；以及通过使用第二、不同的所述文本生成器模型并且基于所述一个或多个所获得的词而确定第二自然语言语句。

可选地，所述第二自然语言语句采用与第一自然语言语句不同的语言。

可选地，所述方法包括：在第一放射学报告中输出第一自然语言语句；以及在与第一放射学报告不同的第二放射学报告中输出第二自然语言语句。

可选地，所述方法包括：基于第一训练数据来训练第一文本生成器模型；以及基于与第一训练数据不同的第二训练数据来训练第二文本生成器模型。

可选地，所述方法包括：分析在放射学图像上所执行的经计算机实现的图像分析过程的输出来确定所述一个或多个词。

可选地，所述方法包括：在放射学图像上执行经计算机实现的分析过程以提供图像分析过程的输出。

根据本发明的第二方面，提供有包括处理器和存储器的装置，所述处理器和存储器被布置成执行根据第一方面的方法。

可选地，所述装置是医学成像扫描仪。

根据本发明的第三方面，提供有一种具有被存储在其上的指令的计算机可读介质，所述指令当由计算机执行的时候使得计算机执行根据任何第一方面的方法。

根据仅仅作为示例被给出的本发明优选实施例的以下描述，本发明的另外的特征和优点将变得显而易见，所述以下描述参考附图而被做出。

附图说明

图1是一流程图，其示意性地图示了根据示例的方法；

图2是一图解，其示意性地图示了根据示例的功能单元；并且

图3是一图解，其示意性地图示了根据示例的装置。

具体实施方式

图1示意性地图示了根据示例的用于为放射学报告生成自然语言语句的方法的步骤的流程图。

参考图1，所述方法包括在步骤102中获得一个或多个词，所述一个或多个词已经基于对放射学图像的图像处理而被产生。

例如，放射学图像可以是通过使用医学成像扫描仪而执行医学成像所获得的图像。例如，用于获得放射学图像的医学成像可以包括计算机断层扫描（CT）扫描，例如计算机断层扫描血管造影术（CTA），或可以包括例如磁共振成像（MRI），例如应力灌注心脏MRI等等。

在一些示例中，用于产生所述一个或多个词的对放射学图像的图像处理可以包括由人类进行的分析。例如，放射科医师可以读取或解释放射学图像，并且提供一个或多个关键字，其表示所述图像或其越来越多的医学发现。例如，参考图2，用于产生所述一个或多个词的第一示例方法208可以包括放射科医师分析204一个或多个放射学图像202以提供可视关键字206的表。在该示例中，表示图像202或其相关发现的可视关键字是“中等狭窄”、“中间部分”以及“钙化的动脉粥样硬化”。在该示例中，所述一个或多个词可以通过如下来被获得：放射科医师通过使用键盘来将词录入到计算机中，或通过使用语音至文本软件进行的听写，或通过web（网络）形式，其例如包括一个或多个下拉菜单，等等。放射科医师因此可以将对图像的分析的发现录入为一个或多个关键字，如与自然语言语句相对。这可以改善放射学图像分析的效率。

在一些示例中，用于产生所述一个或多个词的对放射学图像的图像处理可以包括计算机实现的图像分析过程。在一些示例中，所述方法可以包括在放射学图像上执行经计算机实现的分析过程以提供图像分析过程的输出。

在一些示例中，经计算机实现的图像处理可以包括基于人工智能（AI）的图像处理。例如，放射学图像可以是冠状CT血管造影术。基于递归神经网络（RNN）长短期记忆（LSTM）的斑块检测AI算法可以被应用到冠状CT血管造影术图像以检测斑块，例如，如在US9767557B1中所述。该算法的输出可以是分类结果，其可以是多类标签，例如针对斑块类型分类（例如钙化的、非钙化的、混合的），和/或连续的值，例如针对狭窄分级退化。

例如，参考图2，用于获得所述一个或多个词的第二示例方法210包括获得从基于AI的图像处理算法所输出的测量212的表。如同所述第一方法，在该示例中，通过基于AI的图像处理算法被处理以产生测量212的表的（多个）图像（未被示出）是冠状CT血管造影术图像。在图2的示例中，测量212的表包括多类标签214，在该示例中：斑块存在；斑块类型分类（钙化的、非钙化的、混合的）；斑块位置；以及狭窄存在、严重性和位置。在图2的示例中，测量212的表指示存在斑块（在斑块存在字段中有“Y”），它是钙化的斑块（在“类型：钙化的”字段中有“Y”），存在狭窄（在狭窄存在字段中有“Y”），狭窄是中等的（在“严重性”字段中有词“中等”），并且位置是在中间部分中（在“位置”字段中有词“中间”）。

在一些示例中，所述方法可以包括分析在放射学图像上所执行的计算机图像分析过程的输出来确定所述一个或多个词。例如，可以基于测量212的表（或从而表示的数据）来确定一个或多个所获得的词。例如，基于在“斑块//类型：钙化的”字段中“Y”的存在、在“狭窄//严重性”字段中“中等”的存在，以及在“狭窄//位置”字段中“中间”的存在，所述一个或多个词可以被确定为是“钙化的斑块”、“中等狭窄”和“中间部分”。这些所确定的词可以是在图1的方法的步骤102中所获得的所述一个或多个词。

将领会到，在一些示例中，可以基于任何合适的经计算机实现的图像分析过程来获得所述一个或多个词。例如，可以通过被应用到其他形式的放射学图像的其他AI图像处理算法来产生一个或多个所获得的词。例如，放射学图像可以是胸部CT扫描，并且图像处理算法可以是基于卷积神经网络（CNN）的肺结节检测。作为另一示例，放射学图像可以是多参数前列腺MRI，并且所述图像处理算法可以是例如用于分割和病变检测算法的对抗性图像到图像深度学习。

在任何情况中，获得一个或多个词，所述一个或多个词已经基于对放射学图像的图像处理而被产生。

再次参考图1，所述方法包括在步骤104中通过使用计算机实现的文本分析过程来分析所述一个或多个词，用以生成表示放射学图像的自然语言语句。

步骤104的计算机实现的文本分析过程包括：对于所述一个或多个词中的每一个并且通过使用词嵌入而确定表示词的向量；以及基于所确定的一个或多个向量并且通过使用文本生成器模型来确定自然语言语句。

词嵌入可以是单独的词或词汇的短语往在向量空间中表示其的实值向量上的映射。每个向量可以是词在向量空间中的密集分布的表示。词嵌入可以被学习/生成，以提供：具有类似含义的词或短语在向量空间中具有类似的表示。

可以通过使用机器学习技术来学习词嵌入。可以为文本的语料库的词汇的词来学习/生成词嵌入。可以通过使用在文本的语料库上所应用的训练过程来学习/生成词嵌入。可以通过深度学习网络，例如基于神经网络来实现训练过程。例如，所述训练可以通过使用递归神经网络（RNN）架构来被实现，在所述递归神经网络（RNN）架构中，内部存储器可以用于处理任意输入序列。例如，训练可以通过使用基于长短期记忆（LSTM）的递归神经网络（RNN）架构来被实现，所述架构例如包括用于在任意时间间隔上记住值的一个或多个LSTM单元，和/或例如包括门控递归单元（GRU）。可以通过使用卷积神经网络（CNN）来实现训练。可以使用其他合适的神经网络。

可以采用各种模型来用于针对学习/生成词嵌入的训练过程。例如，可以通过使用在神经网络上所实现的跳字模型（skip-gram model）来学习词嵌入。给定词的局部使用上下文，跳字模型可以学习针对词的词嵌入，其中通过近邻词的窗口来限定上下文。该窗口是模型的可配置参数。跳字模型可以通过预测围绕给定词的词来学习词嵌入。例如，文本的语料库的所有词可以用于构建词汇。词嵌入可以初始地将每个词映射到被填充有随机生成的数的给定维度的向量上。跳字模型可以取词汇的一词，并且通过使用与该词相关联的词嵌入来尝试预测在给定窗口中围绕该词的词。跳字模型然后可以比较所述预测与在文本的语料库中实际围绕该词的词，并且基于此来相应地调节词嵌入。该过程可以被递归地应用，直到生成准确的词嵌入为止。可以应用用于学习词嵌入的其他合适模型。例如与稀疏词表示相比，通过词嵌入所映射的向量可以是密集的，即具有相对低的维度，从而允许高效的实现。

用于在图1的步骤104的计算机实现的文本分析过程中确定向量的词嵌入是经修改的词嵌入。也就是说，词嵌入是已经通过基于第一数据而修改第一词嵌入所生成的词嵌入，所述第一词嵌入已经基于第一语料库和第二语料库中之一而被生成，所述第一数据已经基于所述第一语料库和第二语料库中的另一个而被生成，所述第一语料库包括来自一个或多个放射学报告的文本，所述第二语料库不同于第一语料库并且包括明语文本。

在一个示例中，第一数据可以包括第二词嵌入。可以基于与基于其来生成第一词嵌入的第一语料库和第二语料库中之一相比的第一和第二语料库中不同的那个来生成第二词嵌入。所述经修改的词嵌入可以是已经通过基于第二词嵌入而修改第一词嵌入所生成的词嵌入。

例如，并且如图2中所图示的，第一词嵌入222可以通过如下来被生成：在包括来自一个或多个放射学报告的文本的第一语料库220上应用例如如上所述的训练过程。例如，可以从数据库提取多个、例如数百或数千个放射学报告，并且被（例如排他地）应用到放射学报告的文本的词嵌入训练过程产生第一词嵌入。在一些示例中，所使用的第一词嵌入可以是预训练的词嵌入并且提取自数据库。第一词嵌入的向量可以在向量空间中捕获或表示放射学词典的并且如在放射学报告中所使用的词的含义或上下文。

第二词嵌入226可以通过如下来被生成：在包括明语文本的第二语料库224上应用例如如上所述的训练过程。例如，第二语料库可以包括并非提取自放射学报告的文本。例如，可以从数据库中提取多个、例如数百或数千个网络（web）文章、或其他机器可读明文文档，并且词嵌入训练过程被（例如排他地）应用到那些文档的文本以产生第二词嵌入。在一些示例中，所使用的第二词嵌入可以是预训练的词嵌入并且提取自数据库。第二词嵌入的向量可以在向量空间中捕获或表示明语词典的并且如在自然语言语句中所使用的词的含义或上下文。

如所提及的，第一词嵌入的向量可以在向量空间中捕获或表示放射学词典的并且如在放射学报告中所使用的词的含义或上下文。然而，放射学报告的语言可以是简洁并且实事求是的。例如相对于准确语句生成，单独的第一词嵌入因此不可以准确地捕获明语的细微差别。另一方面，第二词嵌入的向量可以在向量空间中捕获或表示明语词典的并且如在自然语言语句中所使用的词的含义或上下文。然而，单独的第二词嵌入不可以准确地捕获如在放射学报告中所使用的词的词典和恰当的上下文以及含义。在图1的方法的步骤104中所使用的词嵌入是已经通过基于第一222和第二词226嵌入中的另一个来修改第一222和第二226词嵌入之一而被生成的经修改的词嵌入228允许基于其所生成的语句准确地表示在放射学报告中所使用的词的含义或上下文，但是具有明语的细微差别。

在一些示例中，经修改的词嵌入228可以是已经通过如下而被生成的词嵌入：对于针对给定词的给定词嵌入，连接针对给定词的第一词嵌入222的向量与针对给定词的第二词嵌入226的向量以产生针对给定词的经修改的向量。例如，第一词嵌入222可以包括针对第一词汇的每个词的在向量空间中表示词的300维的向量。类似地，第二词嵌入226可以包括针对第二词汇的每个词的在向量空间中表示词的300维的向量。针对给定词的经修改的词嵌入228可以通过如下来被生成：连接（即链接）针对该词的来自第一词嵌入的向量与针对该词的来自第二词嵌入的向量（或反之亦然），从而生成例如针对该词的600维的向量。经修改的词嵌入228因此在向量空间中捕获同时在放射学和明语上下文二者中的该词的含义和使用。如果词存在于第一和第二词嵌入的词汇之一中但不在另一个中，那么针对其中词不在词汇中的词嵌入的向量可以被指派零值，在该示例中300个零。例如，这可以导致600维的经修改的词嵌入向量，其连接针对该词的第一（或第二）词嵌入的300维向量与300个零值。这可发生在例如在词仅仅被使用在放射学语言语料库中、例如特定于没有在明语语料库中找到使用的放射学词典的词的情况下。这可以允许在经修改的词嵌入中仍计及特定的词。通过连接来生成经修改的词嵌入228可以是用于生成将在语句生成中使用的经修改的词嵌入的在计算上不昂贵并且因此高效的方法。

在其他示例（未被图示）中，第一数据可以包括语义词典。可基于与已经基于其生成了第一词嵌入的第一语料库和第二语料库中之一相比的第一和第二语料库中的不同的那个来生成语义词典。所述词嵌入可以是已经通过基于所述语义词典而修改第一词嵌入的向量的值所生成的词嵌入。

语义词典可以是被加标签有语义类的词的字典。可以基于放射学报告的语料库或明语语料库来生成语义词典。在一些示例中，可以基于如下来生成语义词典：基于语料库的监督式或非监督式机器学习。在一些示例中，如在“Luo等人：Corpus-based Approach toCreating a Semantic Lexicon for Clinical Research Eligibility Criteria fromUMLS，Summit on Translat Bioinforma. 2010，2010:26-30”中所描述的技术可以用于处理语料库以标识语义单元或词位（例如词），从数据库中检索针对所标识的单元的概念唯一的标识符，然后利用适当的语义类来为所标识的单元加标记或标签，从而生成语义词典。在一些示例中，可以从数据库获得基于放射学报告或明语所生成的语义词典。例如，语义词典可以被预生成并且从数据库中被检索，以用于在生成经修改的词嵌入中使用。在一些示例中，生成经修改的词嵌入可以包括基于语义词典来改装或细化第一或第二词嵌入。例如，通过使用如在“Faruqui等人：Retrofitting Word Vectors to Semantic Lexicons；https://arxiv.org/pdf/1411.4166.pdf”中所描述的技术，语义词典可以被表示为认知图，其包括针对每个词的一个顶点以及指示词之间的语义关系的边。与认知图中的每个词相关联的词嵌入可以基于其近邻的词嵌入来被迭代地修改，用于减小其之间的距离。针对认知图的没有词嵌入的词（即语义词典的词）的词嵌入可以在该过程期间通过如下来被确定：初始为向量指派零值，并且允许向量值在现有词嵌入的迭代修改期间发展。

从而可以生成经修改的词嵌入，其更好地捕获并且反映如由语义词典所限定的语义关系，和/或其包括针对来自语义词典的词的附加词嵌入。例如，可以基于明语文本来生成第一词嵌入，并且可以基于放射学报告来生成语义词典。在该情况中，得自明语文本的词嵌入将被修改以计及如在放射学特定的上下文和/或特定于放射学的词中所使用的语义关系。作为另一示例，可以基于放射学报告来生成第一词嵌入，并且可以基于明语文本来生成语义词典。在该情况中，得自放射学文本的词嵌入将被修改以计及如在明语上下文中所使用的语义关系。

例如如上所述的基于修改词嵌入—其基于使用语义词典——来生成经修改的词嵌入可以允许捕获放射学特定的上下文以及明语细微差别二者的经修改的词嵌入，而不增大词嵌入的向量的维数。例如，第一词嵌入可以具有300维的向量，并且经修改的词嵌入仍可具有300维的向量。这可以允许基于经修改的词嵌入来高效生成语句。

在一些示例中，所述方法可以包括：例如作为训练阶段的部分，生成或以其他方式获得第一词嵌入和第一数据（例如，如上所述），并且基于所述第一数据来修改第一词嵌入（例如，如上所述），从而生成用于确定表示每个词的向量的词嵌入。

如所提及的，步骤104的计算机实现的文本分析过程包括：为所述一个或多个词中的每一个并且使用词嵌入（即如上所述的经修改的词嵌入），来确定表示词的向量。步骤104的计算机实现的文本分析过程还包括基于所确定的一个或多个向量并且通过使用文本生成器模型来确定自然语言语句。例如，如图2中所图示的，文本生成器模型230作为输入而具有从对放射学图像202的图像处理所获得的一个或多个词206以及经修改的词嵌入228，并且可以输出表示图像202的自然语言语句232。

文本生成器模型230可以是用于基于所述一个或多个词的向量表示来确定针对所获得的一个或多个词的自然语言语句的模型。文本生成器模型230可以将一函数应用到来自所获得的一个或多个词的经修改的词嵌入的向量，并且基于该函数的输出来确定表示如下图像的自然语言语句：基于所述图像而获得所述一个或多个词。例如，所述函数可以将来自针对所获得的一个或多个词的词嵌入的向量映射到自然语言声明上。例如，文本生成器模型230可以将所获得的一个或多个词中的每一个的向量编码成表示所述一个或多个词的向量，例如通过使用神经网络，并且文本生成器模型可以将表示所述一个或多个词的向量映射到自然语言语句上。文本生成器模型230可以基于深度学习网络或通过使用深度学习网络来被实现，所述深度学习网络例如是神经网络，例如递归神经网络（RNN）架构，其中内部存储器可以用于处理输入的任意序列，例如基于长短期记忆（LSTM）的递归神经网络架构，其例如包括用于在任意时间间隔之上记住值的一个或多个LSTM单元，和/或例如包括门控递归单元（GRU）。可以通过使用卷积神经网络（CNN）来实现文本生成器模型230。神经网络可以包括注意力模型，其可以允许文本生成器模型230不同地注意（attend to）所输入的一个或多个词的不同部分（例如不同词）。可以使用其他合适的神经网络。

可以通过使用训练过程来训练文本生成器模型230，用以为给定的所输入的一个或多个词确定适当的自然语言语句。例如，所述函数可以被训练用于将来自针对一个或多个词的词嵌入的向量映射到适当的语句上。

可以通过使用深度学习网络来实现训练过程，例如基于神经网络，例如上述示例神经网络中的任何一个或多个。

文本生成器模型训练过程可以包括机器学习技术。

在一些示例中，训练过程可以包括监督式学习。监督式学习可以包括从包括训练示例的经标注的训练数据中推断函数。例如，所述方法可以包括基于训练数据的数据库来训练文本生成器模型，所述训练数据包括一个或多个词的群组或集合，每个群组或集合利用与自然语言语句相对应的地面实况来被标注。也就是说，所述训练可以基于一个或多个词的集合的数据库，每个集合利用与语句（即将通过文本分析过程被给出的语句）相对应的地面实况来被标注。例如，监督式学习可以基于放射学报告的语料库的一个或多个词的集合的数据库，每个集合利用与准确地表示词的集合的自然语言语句相对应的地面实况来被标注（例如由放射科医师或其他医师标注）。词的集合和/或语句可以来自多个放射学报告，所述放射学报告作为训练数据集合和语料库而被预收集以用于训练过程。训练数据的一个或多个词的每个集合可以表示输入对象，并且对应的地面实况语句表示监督信号，以用于训练过程。训练过程可以分析训练数据以产生所推断的函数，其然后可以用于为一个或多个词的给定输入集合确定自然语言语句。

参考图1，所述方法包括在步骤106中输出自然语言语句。例如，如图2中所图示的，文本生成器模型230输出自然语言语句232。在该示例中，基于所获得的一个或多个词206是“中等狭窄”、“中间部分”和“钙化的动脉粥样硬化”，文本生成器模型230输出自然语言语句“钙化的动脉粥样硬化斑块引起中间部分的中等狭窄”。输出可以被存储在存储构件中，或可以例如被传送到一设备（未被示出），所述设备可以自己存储或进一步处理自然语言语句。例如，自然语言语句可以被输出到放射学报告文档中。放射学报告文档可以例如被传送到咨询医师或其他消费者的终端，使得可以读取并且领会放射学报告的自然语言语句。例如，咨询医师可以基于所述自然语言语句来做出诊断。与解释从图像分析所输出的测量的关键字或表相比，这可以比咨询医师或其他消费者做出判断或以其他方式使用被包含在放射学报告中的信息更加可靠且高效。

文本生成器模型230可以基于从对放射学图像的图像处理所获得的词206来产生自然语言语句，其既通过包含来自图像的关键信息而表示所述图像又捕获自然语言的细微差别。因此可以提供可靠并且准确的自然语言语句产生。适当的自然语言语句可以通过文本生成器模型、在各种条件下被产生，例如其可以不取决于词输入的数目或类型，并且因此可以提供用于提供自然语言语句的灵活方法，例如与用于语句生成的硬编码宏相比。

在一些示例中，所述方法可以包括通过使用相应的多个文本生成器模型（未被示出）来确定多个语句。例如，所述方法可以包括通过使用第一所述文本生成器模型并且基于所述一个或多个所获得的词而确定第一自然语言语句；以及通过使用第二、不同的所述文本生成器模型并且基于所述一个或多个所获得的词而确定第二自然语言语句。

例如，可以与第二文本生成器模型不同地训练第一文本生成器模型。例如，所述方法可以包括：基于第一训练数据来训练第一文本生成器模型；以及基于与第一训练数据不同的第二训练数据来训练第二文本生成器模型。例如，可以基于针对一个或多个词的给定集合具有第一地面实况语句的训练数据来训练第一文本生成器模型，并且可以基于针对一个或多个词的给定集合具有第二地面实况语句的训练数据来训练第二文本生成器模型。

在一些示例中，可以根据自然语言语句（并且进而放射学报告）的给定听众或接收者来选择用于训练文本生成器模型中特定一个的地面实况语句。例如，第一听众可以是咨询医师，并且第二听众可以是患者。可以是：与咨询医师相比，患者需要在放射学报告中的不同细节水平。第一地面实况语句因此可以包括更多的放射学细节，而第二地面实况语句可以更多地基于明语。因此，对于（来自对放射学图像的分析的）所获得的输入词的相同集合，第一文本生成器可以为给咨询医师的放射学报告输出放射学上详细的语句，并且第二文本生成器可以为给患者的放射学报告输出放射学上不太详细的语句。

在一些示例中，所述第二自然语言语句可以采用与第一自然语言语句不同的语言。例如，这可以允许产生适应于不同的语言的放射学报告。例如，可以基于针对一个或多个词的给定集合具有以第一语言的第一地面实况语句的训练数据来训练第一文本生成器模型，并且可以基于针对一个或多个词的给定集合具有以第二语言的第二地面实况语句的训练数据来训练第二文本生成器模型。将领会到，可以通过将文本生成器模型所输出的语句翻译成不同的语言而获得以不同语言的语句。然而，这不可以准确地捕获原始语句的上下文和含义。另一方面，词嵌入中表示词的向量是语言无关的，并且捕获如在其上训练它们的语言中所使用的词的上下文和含义。因此，所述一个或多个输入词可以采用第一语言，但是如通过在已经基于以第二语言的地面实况语句而被训练的文本生成器模型中所使用的词嵌入所传达的词的含义和上下文将以第二语言存在于文本生成器模型的输出中。这使得能够基于以单种语言的输入的一个或多个词而以多种语言产生准确的放射学报告。这可以提供灵活性。

在一些示例中，所述方法可以包括：在第一放射学报告中输出第一自然语言语句；以及在与第一放射学报告不同的第二放射学报告中输出第二自然语言语句。例如，第一放射学报告可以被分离地存储或被传送到与第二放射学报告不同的接收者。那可以是有用的，如上所述，用于酌情将包括具有不同细节水平或以不同语言的语句的放射学报告提供给不同的接收者，如上所述。

图3示意性地图示了示例装置500，通过所述装置500可以执行或实现以上参考图1或2所述的方法。装置300包括处理器302和存储器304。存储器304可以存储指令，所述指令在由处理器302执行的时候使得装置300执行根据以上参考图1或2所述的示例中的任一个或组合的方法。例如，装置300可以被布置成实现叙述性文本生成器模型230，或图2的词嵌入218的修改。装置包括输入306和输出308。例如，输入306可以被布置成接收放射学图像、从对放射学图像的图像处理中获得的一个或多个词、一个或多个词嵌入、经修改的词嵌入、语义词典、放射学报告或其文本、和/或明语文本，如上所述，其例如来自存储单元（未被示出）或从一个或多个其他设备（未被示出）被传送。输出308可以将如上所述的一个或多个自然语言语句和/或一个或多个放射学报告输出到例如存储构件（未被示出），或用于传送到一个或多个另外的设备（未被示出）。

在一些示例中，所述装置可以是医学成像扫描仪（未被示出）。例如，所述装置可以包括用于捕获放射学图像的成像单元（未被示出），所述放射学图像可以被提供到处理器302。处理器302然后可以向放射学图像应用图像分析，例如如上所述，用于提供表示图像的一个或多个关键字，并且处理器302然后可以应用如参考图1所述的方法来酌情从其中提供自然语言语句或放射学报告。是医学成像扫描仪或是医学成像扫描仪的部分的装置300可以允许在医学成像点处直接产生包括准确并且可靠的自然语言语句的放射学报告。这可以减少对于产生放射学报告所需要的时间，并且可以改善工作流。

以上示例要被理解为本发明的说明性示例。要理解的是，关于任一个示例所描述的任何特征可以单独地或与所描述的其他特征相组合地被使用，并且还可以与任何其他示例的一个或多个特征、或任何其他示例的任何组合相组合地被使用。此外，还可以采用没有在以上被描述的等同物和修改，而不偏离在随附权利要求中所限定的本发明的范围。

Claims

1.一种用于为放射学报告生成自然语言语句的方法，所述方法包括：

获得（102）一个或多个词（206），所述一个或多个词已经基于对放射学图像（202）的图像处理而被产生；

通过使用计算机实现的文本分析过程来分析（104）所述一个或多个词，用于生成表示放射学图像（202）的自然语言语句（232）；以及

输出（106）自然语言语句（232）；

其中所述计算机实现的文本分析过程包括：

对于所述一个或多个词中的每一个并且通过使用经修改的词嵌入（228）而确定表示词的向量；以及

基于所确定的一个或多个向量并且通过使用文本生成器模型（230）来确定自然语言语句（232）；

其中所述文本生成器模型（230）应用经过训练的函数来将所述向量映射到自然语言语句（232）上；并且

其中所述经修改的词嵌入（228）是已经通过基于第一数据而修改第一词嵌入所生成的词嵌入，所述第一词嵌入已经基于第一语料库（220）和第二语料库（224）中之一而被生成，所述第一数据已经基于所述第一语料库（220）和第二语料库（224）中的另一个而被生成，所述第一语料库（220）包括来自一个或多个放射学报告的文本，所述第二语料库（224）不同于第一语料库（220）并且包括明语文本。

2.根据权利要求1所述的方法，其中所述第一数据包括第二词嵌入，所述第二词嵌入已经基于与已经基于其生成了第一词嵌入的第一语料库和第二语料库中之一相比的第一（220）和第二（224）语料库中的不同的那个而被生成，并且其中所述经修改的词嵌入（228）是已经通过基于第二词嵌入而修改第一词嵌入所生成的词嵌入（228）。

3.根据权利要求2所述的方法，其中所述经修改的词嵌入（228）是已经通过如下而被生成的词嵌入：对于针对给定词的给定词嵌入，连接针对给定词的第一词嵌入的向量与针对给定词的第二词嵌入的向量以产生针对给定词的经修改的向量。

4.根据权利要求1所述的方法，其中所述第一数据包括语义词典，所述语义词典已经基于与已经基于其生成了第一词嵌入的第一语料库（220）和第二语料库（224）中之一相比的第一（220）和第二语料库（224）中的不同的那个而被生成，并且其中经修改的词嵌入（228）是已经通过基于所述语义词典而修改第一词嵌入的向量的值所生成的词嵌入。

5.根据权利要求1至权利要求4中任一项所述的方法，其中所述方法包括：

生成第一词嵌入和第一数据；以及

基于所述第一数据来修改第一词嵌入，从而生成经修改的词嵌入。

6.根据权利要求1至权利要求4中任一项所述的方法，其中所述方法包括：

基于训练数据的数据库来训练文本生成器模型（230），所述训练数据包括一个或多个词的群组，每个群组利用与自然语言语句相对应的地面实况来被标注。

7.根据权利要求1至权利要求4中任一项所述的方法，其中所述方法包括：

通过使用第一所述文本生成器模型并且基于一个或多个所获得的词（206）而确定第一自然语言语句；以及

通过使用第二、不同的所述文本生成器模型并且基于一个或多个所获得的词（206）而确定第二自然语言语句。

8.根据权利要求7所述的方法，其中所述第二自然语言语句采用与第一自然语言语句不同的语言。

9.根据权利要求7所述的方法，其中所述方法包括：

在第一放射学报告中输出第一自然语言语句；以及

在与第一放射学报告不同的第二放射学报告中输出第二自然语言语句。

10.根据权利要求7所述的方法，其中所述方法包括：

基于第一训练数据来训练第一文本生成器模型；以及

基于与第一训练数据不同的第二训练数据来训练第二文本生成器模型。

11.根据权利要求1至权利要求4中任一项所述的方法，其中所述方法包括：

分析在放射学图像（202）上所执行的经计算机实现的图像分析过程的输出来确定所述一个或多个词（206）。

12.根据权利要求11所述的方法，其中所述方法包括：

在放射学图像（202）上执行经计算机实现的分析过程以提供图像分析过程的输出。

13.包括处理器（302）和存储器（304）的装置（300），所述处理器（302）和存储器（304）被布置成执行根据权利要求1至权利要求12中任一项所述的方法。

14.根据权利要求13所述的装置（300），其中装置（300）是医学成像扫描仪。

15.一种具有被存储在其上的指令的计算机可读介质，所述指令当由计算机（300）执行的时候使得计算机（300）执行根据权利要求1至权利要求12中任一项所述的方法。