CN115631825A

CN115631825A - 利用自然语言模型自动生成结构化报告的方法及相关设备

Info

Publication number: CN115631825A
Application number: CN202211078506.5A
Authority: CN
Inventors: 陈杰; 田永鸿; 高文; 王中岐; 王林
Original assignee: Peng Cheng Laboratory
Current assignee: Peng Cheng Laboratory
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2023-01-20

Abstract

本发明公开了利用自然语言模型自动生成结构化报告的方法及相关设备，所述方法包括：获取输入的样本图像，图像诊断网络根据样本图像生成隐藏状态序列和分类标识序列，并得到结构是否异常的预测结果；若所述预测结果为无结构异常，获取所述样本图像中的无异常样本图像，完整报告生成网络根据所述无异常样本图像生成无异常图像的医学图像报告；若所述预测结果为存在结构异常，获取所述样本图像中的有异常样本图像，任务感知报告生成网络根据所述有异常样本图像生成有异常图像的医学图像报告。本发明根据样本图像是否有异常分别进行医学图像报告的生成，通过对不同结构分别生成报告的方式，保证生成报告诊断的准确性，从而大大降低了医生的工作量。

Description

利用自然语言模型自动生成结构化报告的方法及相关设备

技术领域

本发明涉及图像处理信技术领域，尤其涉及一种利用自然语言模型自动生成结构化报告的方法、系统、终端及计算机可读存储介质。

背景技术

医学图像是反映解剖区域内部结构的图像，常被用于医学分析。在此基础上撰写的医学报告，能够进一步用于辅助疾病诊断或者医学研究。但由于有经验的医生数量的缺少以及就诊者数量的增加，一个医生会面临大量的影像阅读和报告书写工作，势必会造成工作质量的下降。因此通过计算机技术自动分析图像并生成诊断报告，实现医学图像报告自动生成具有非常重要的意义。

由于医学图像报告的书写只能够由经验丰富的医生进行，因此相较于自然图像字幕，医学图像报告数据通常更难获取。例如，IU X-Ray数据集中只包含大约四千个样本，规模较大的MIMIC-CXR数据集包含二十七万的样本，但这也远小于自然图像字幕数据集三百多万的标注数量。同时，目前医学图像报告数据集中，通常包含了大量的无异常的图像以及报告样本，这使得医学图像报告数据集均存在较为严重的样本不平衡问题。

在医学图像报告数据集中，样本不平衡问题不仅仅体现在含有大量的无异常样本上。医学图像报告数据集中不同结构中的样本不平衡程度也是不相同的。例如在胸部X光图像上，医生往往会对多个结构以及多种疾病进行相应地描述，而不同类型的疾病有可能同时出现。如果按不同疾病对于样本进行分类的话，样本空间成指数级(每一种疾病都有存在和不存在两种可能)，在这种情况下，包含特定几种疾病的报告则更加稀少。因此，如果将医学图像报告视为一个整体去处理存在的样本不平衡问题，不仅具有更高的复杂度，同时也容易遗漏样本不平衡问题更严重的结构或者疾病的诊断。

由于数据集存在严重的样本不平衡问题，直接将自然图像字幕生成的方法应用于数据集进行训练时，网络会倾向于输出数据集中更常见的平凡的报告，这并不能够满足医学报告对症状准确描述的要求。

因此，现有技术还有待于改进和发展。

发明内容

本发明的主要目的在于提供一种利用自然语言模型自动生成结构化报告的方法、系统、终端及计算机可读存储介质，旨在解决现有技术中由于数据集存在严重的样本不平衡问题，导致生成的医学图像报告不准确，无法满足医学报告对症状准确描述的要求的问题。

为实现上述目的，本发明提供一种利用自然语言模型自动生成结构化报告的方法，所述利用自然语言模型自动生成结构化报告的方法包括如下步骤：

获取输入的样本图像，基于图像诊断网络根据所述样本图像生成隐藏状态序列和分类标识序列，并根据所述隐藏状态序列和所述分类标识序列得到结构是否异常的预测结果；

若所述预测结果为无结构异常，获取所述样本图像中的无异常样本图像，基于完整报告生成网络根据所述无异常样本图像生成无异常图像的医学图像报告；

若所述预测结果为存在结构异常，获取所述样本图像中的有异常样本图像，基于任务感知报告生成网络根据所述有异常样本图像生成有异常图像的医学图像报告。

可选地，所述的利用自然语言模型自动生成结构化报告的方法，其中，所述获取输入的样本图像，基于图像诊断网络根据所述样本图像生成隐藏状态序列和分类标识序列，并根据所述隐藏状态序列和所述分类标识序列得到结构是否异常的预测结果，之前还包括：

预先训练所述完整报告生成网络和所述任务感知报告生成网络。

可选地，所述的利用自然语言模型自动生成结构化报告的方法，其中，所述预先训练所述完整报告生成网络和所述任务感知报告生成网络，具体包括：

先利用无异常样本集合对所述完整报告生成网络进行训练；

当所述完整报告生成网络训练完成后，再利用有异常样本集合对所述任务感知报告生成网络进行训练。

可选地，所述的利用自然语言模型自动生成结构化报告的方法，其中，所述利用自然语言模型自动生成结构化报告的方法还包括：

所述图像诊断网络计算所述样本图像中各个结构的异常概率；

判断每个结构的异常概率是否低于预设阈值；

当所有结构的异常概率低于所述预设阈值时，则认为所述样本图像为无异常样本图像；

当存在一个或者多个结构的异常概率不低于所述预设阈值时，则认为所述样本图像为有异常样本图像。

在训练所述完整报告生成网络和所述任务感知报告生成网络时，引入自动平衡掩码损失函数；

平衡不同结构中参与训练的异常样本和正常样本的数量，在训练时对第i个区域正常样本以一定概率值p_i进行丢弃，概率值p_i为：

其中，

和

分别代表第i个区域的异常样本和正常样本的数量，α是设定的超参，用于调节实际参与训练的正常样本和异常样本之间的比例；

所述自动平衡掩码损失函数的计算过程如下：

其中，

表示自动平衡掩码损失函数，

表示基线模型的损失函数，δ(r_i)的作用是保留所有的异常样本，Rand(p_i)表示对概率值p_i使用Rand函数；

如果样本是异常样本，则对应的损失直接计入总损失；

如果样本是正常样本，则以概率值p_i进行丢弃。

可选地，所述的利用自然语言模型自动生成结构化报告的方法，其中，所述图像诊断网络包括图像特征提取器和Transformer编码器。

可选地，所述的利用自然语言模型自动生成结构化报告的方法，其中，所述任务感知报告生成网络包括Transformer解码器。

可选地，所述的利用自然语言模型自动生成结构化报告的方法，其中，在Transformer解码器中新增设置多头自适应注意力模块。

可选地，所述的利用自然语言模型自动生成结构化报告的方法，其中，所述多头自适应注意力模块用于实现所述Transformer解码器输出与所述Transformer解码器输入的信息交互，输入的查询为所述Transformer解码器输入的文本所对应的嵌入向量序列，键和值则为所述Transformer编码器输出的来自于图像的嵌入向量序列。

可选地，所述的利用自然语言模型自动生成结构化报告的方法，其中，所述多头自适应注意力模块获取语言和视觉信号，计算过程如下：

S_L＝Linear(Q)；

其中，S_L和S_V分别是语言信号和视觉信号，Linear为线性映射函数，Q表示目标查询序列矩阵，K表示待查询序列矩阵，K^T表示K的转置矩阵，d_k表示键对应的特征向量维度；

语言信号和视觉信号中包含不同时间节点下对应的信号，不同的时间节点则对应不同位置单词的生成过程，不同时间节点的计算过程分开进行；

语言信号和视觉信号根据时间节点被合并起来，并通过归一化指数函数得到相应的权重向量：

V_weight＝Softmax(Concat(S_V，S_L))；

其中，V_weight为权重向量；

通过取出权重向量最后的值，并按时间节点顺序进行排列后，得到语言特征权重向量β；

所述多头自适应注意力模块利用门控机制，实现对视觉特征和语言特征的控制，计算过程如下：

V_adap＝β×Linear(Q)+(1-β)×Attention(Q，K，V)；

其中，V_adap是所述多头自适应注意力模块的输出，Linear函数用于获取语言上下文信息，V表示自身含义编码序列矩阵；

所述多头自适应注意力模块通过将输入、键和值映射到不同的特征子空间学习特征表示，计算过程如下：

head_i＝AdaptiveAttention(Q_i，K_i，V_i)；

MultiHead(Q，K，V)＝Concat(head₁，…，head_h)W^O；

其中，head_i表示矩阵，W^O表示权重矩阵。

此外，为实现上述目的，本发明还提供一种利用自然语言模型自动生成结构化报告的系统，其中，所述利用自然语言模型自动生成结构化报告的系统包括：

图像处理与结果预测模块，用于获取输入的样本图像，基于图像诊断网络根据所述样本图像生成隐藏状态序列和分类标识序列，并根据所述隐藏状态序列和所述分类标识序列得到结构是否异常的预测结果；

无异常图像报告生成模块，用于若所述预测结果为无结构异常，获取所述样本图像中的无异常样本图像，基于完整报告生成网络根据所述无异常样本图像生成无异常图像的医学图像报告；

有异常图像报告生成模块，用于若所述预测结果为存在结构异常，获取所述样本图像中的有异常样本图像，基于任务感知报告生成网络根据所述有异常样本图像生成有异常图像的医学图像报告。

此外，为实现上述目的，本发明还提供一种终端，其中，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的利用自然语言模型自动生成结构化报告的程序，所述利用自然语言模型自动生成结构化报告的程序被所述处理器执行时实现如上所述的利用自然语言模型自动生成结构化报告的方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有利用自然语言模型自动生成结构化报告的程序，所述利用自然语言模型自动生成结构化报告的程序被处理器执行时实现如上所述的利用自然语言模型自动生成结构化报告的方法的步骤。

本发明中，获取输入的样本图像，基于图像诊断网络根据所述样本图像生成隐藏状态序列和分类标识序列，并根据所述隐藏状态序列和所述分类标识序列得到结构是否异常的预测结果；若所述预测结果为无结构异常，获取所述样本图像中的无异常样本图像，基于完整报告生成网络根据所述无异常样本图像生成无异常图像的医学图像报告；若所述预测结果为存在结构异常，获取所述样本图像中的有异常样本图像，基于任务感知报告生成网络根据所述有异常样本图像生成有异常图像的医学图像报告。本发明根据样本图像是否有异常分别进行医学图像报告的生成，通过对不同结构分别生成报告的方式，保证生成报告诊断的准确性，从而大大降低了医生的工作量。

附图说明

图1是本发明利用自然语言模型自动生成结构化报告的方法的较佳实施例的流程图；

图2是本发明利用自然语言模型自动生成结构化报告的方法的较佳实施例中根据样本图像是否有异常分别进行医学图像报告的生成框架示意图；

图3是本发明利用自然语言模型自动生成结构化报告的方法的较佳实施例中结构异常预测和报告生成两个阶段的示意图；

图4是本发明利用自然语言模型自动生成结构化报告的方法的较佳实施例中注意力机制的原理示意图；

图5是本发明利用自然语言模型自动生成结构化报告的方法的较佳实施例中多头自适应注意力模块的原理示意图；

图6是本发明利用自然语言模型自动生成结构化报告的系统的较佳实施例的原理示意图；

图7为本发明终端的较佳实施例的运行环境示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明较佳实施例所述的利用自然语言模型自动生成结构化报告的方法，如图1所示，所述利用自然语言模型自动生成结构化报告的方法包括以下步骤：

步骤S10、获取输入的样本图像，基于图像诊断网络根据所述样本图像生成隐藏状态序列和分类标识序列，并根据所述隐藏状态序列和所述分类标识序列得到结构是否异常的预测结果。

具体的，如图2所示，所述图像诊断网络由图像特征提取器以及包含分类标识模块的Transformer编码器组成，用于输出生成分支所需的隐藏状态序列和分类标识序列(即所述图像诊断网络根据所述样本图像生成隐藏状态序列和分类标识序列)，同时还能够得到结构是否异常(例如结构异常是指区别于正常人体的图像，可能是出现疾病的状态)的预测结果(即所述图像诊断网络根据所述隐藏状态序列和所述分类标识序列得到结构是否异常的预测结果)，即预测结果包括两种，分别是无结构异常和存在结构异常。

进一步地，在所述步骤S10之前还包括：预先训练所述完整报告生成网络和所述任务感知报告生成网络。具体为：先利用无异常样本集合对所述完整报告生成网络进行训练；当所述完整报告生成网络训练完成后，再利用有异常样本集合对所述任务感知报告生成网络进行训练。在训练时，分别利用了无异常样本和有异常样本进行训练，通常对训练样本的调整，缓解了样本不平衡度。

如图2所示，为了实现对两个生成分支(两个分支指的是对无异常样本图像和有异常样本图像的两个处理分支)的训练，本发明将整个报告训练集合分为了无异常样本和有异常样本两个集合，其中无异常样本集合用于训练完整报告生成网络(分支)，有异常样本集合用于训练任务感知报告生成网络(分支)。

在训练时，分为两个阶段，分别实现对两个生成网络(分支)的训练。在第一个训练阶段，该框架利用无异常样本集合对完整报告生成网络(分支)进行训练，在第二个训练阶段则利用有异常样本集合对任务感知报告生成网络(分支)进行训练。需要注意的是，由于训练集中的无异常样本并没有参与到任务感知报告生成网络(分支)的训练，因此样本层面的不平衡问题得到了改善。此外，该框架中的图像特征提取以及分类网络部分的参数在两个阶段中都会进行更新，因此训练两个生成网络(分支)的顺序会对这部分网络结构的参数更新产生影响。本发明在对训练过程进行设计时，联想到了人类和动物的学习过程一般都是易到难。而在本训练过程中，两个训练阶段分别对应网络对无异常和有异常样本的学习，而无异常样本相比于有异常样本，是更容易学习的。因此，本发明训练时采用了先对完整报告生成网络(分支)进行训练，再对任务感知报告生成网络(分支)进行训练的顺序。

进一步地，本发明在得到结构是否异常的预测结果时还可以通过如下方式：如图3所示，在结构异常预测阶段，所述图像诊断网络计算所述样本图像中各个结构的异常概率(例如，肺部异常：肺容量低，双侧胸腔积液等心脏异常：心脏肥大，主动脉钙化等异常)，根据这些异常概率，能够判断出当前样本图像的是否存在异常；判断每个结构的异常概率是否低于预设阈值(例如预设阈值为0.5)；当所有结构的异常概率低于所述预设阈值时，则认为所述样本图像为无异常样本图像；当存在一个或者多个结构的异常概率不低于所述预设阈值时，则认为所述样本图像为有异常样本图像。

进一步地，样本不平衡问题会对生成报告的诊断准确性带来影响，直接利用自然图像字幕生成领域的模型进行训练，通常会描述来提供琐碎的解决方案大多数结构都是正常的。而现有的方法采取了直接生成完整报告的方式，因此没有办法较好的处理不同结构之间样本不平衡的差异性问题。如果直接用结构化报告进行训练，则极端数据不平衡，网络往往通过描述来提供琐碎的解决方案大多数结构都是正常的。

为了解决这个问题，本发明中引入一种自动平衡掩码损失函数解决数据不平衡问题，该损失函数考虑到了不同结构的样本不平衡程度不同的问题，即在训练所述完整报告生成网络和所述任务感知报告生成网络时，引入自动平衡掩码损失函数。为了平衡不同结构中参与训练的异常样本和正常样本的数量，在训练时对第i个区域正常样本以一定概率值p_i进行丢弃，概率值p_i为：

其中，

和

分别代表第i个区域的异常样本和正常样本的数量，α是设定的超参，用于调节实际参与训练的正常样本和异常样本之间的比例。

基于上述平衡方式，所述自动平衡掩码损失函数的计算过程如下：

其中，

表示自动平衡掩码损失函数，

表示基线模型的损失函数，δ(r_i)的作用是保留所有的异常样本，Rand(p_i)表示对概率值p_i使用Rand函数。

直观地说，如果样本是异常样本，则对应的损失直接计入总损失；如果样本是正常样本，则以概率值p_i进行丢弃。

在这样的方式下，包括在总损失计算中的有效正常样本数量与异常样本数量之间的比例会被近似平衡到α。

步骤S20、若所述预测结果为无结构异常，获取所述样本图像中的无异常样本图像，基于完整报告生成网络根据所述无异常样本图像生成无异常图像的医学图像报告。

具体地，如图2和图3所示，判断出样本图像有无异常后，则进入到报告生成阶段，如果预测结果不存在异常，则选择完整报告生成网络(分支)，模拟医生判断出无异常后，填写模板化的报告的过程，因为没有异常，所以生成无异常图像的医学图像报告是固定格式的，这个过程比较简单，生成报告的速度也很快。在这样的方式下，无异常样本能够由完整报告生成分支进行生成，避免了内容冗余的问题。

步骤S30、若所述预测结果为存在结构异常，获取所述样本图像中的有异常样本图像，基于任务感知报告生成网络根据所述有异常样本图像生成有异常图像的医学图像报告。

具体地，如图2和图3所示，判断出样本图像有无异常后，则进入到报告生成阶段，如果预测结果存在异常，则选择任务感知报告生成网络(分支)，生成任务感知报告，模拟医生诊断出异常后，书写内容详实的报告的过程。通过对不同结构分别生成报告的方式，保证生成报告诊断的准确性。

当人们在对周围环境进行观察时，通常会只关注眼前最主要的目标，而忽视其余信息，这种现象的本质是注意力机制。而在深度学习中，模型通常会接收大量信息，不加选择地对所有信息进行处理，会大大增加计算量。而实际上，对于其中的某一个环节或者某一个时刻而言，往往只需要利用到其中的一部分信息。因此，网络(例如任务感知报告生成网络)利用注意力机制，在输入的大量信息中先筛选出当前所需要的关键信息，能够更好的实现对于信息的建模和处理，从而实现性能的提升。

注意力的本质是对于一组输出的查询，去对“键-值”形式的数据对进行查找，并选出所需的信息，如图4所示，一般的注意力机制由三个阶段组成，在第一个阶段是，输入的查询向量会与键进行相似性度量，并得到相应的相似度分数，其中，相似性度量的方法有很多种，可以是点积运算、加性运行或者双线性模型，在得到相似度分数后，需要对其进行归一化，并得到每个键值对的权重，权重的大小代表了每个键值对对于这组查询的重要程度，最后，将相似度分数与值加权求和，得到最终的注意力值。

医学图像报告通常由多句话构成，每句话分别是对不同部位进行相应的描述。医学图像报告中，存在多种类型的单词，例如报告“The heart is normal in size.Theaorta is tortuous and ectatic.The lungs are clear without focal airspaceopacity,pleural effusion,or pneumothorax.The osseous structures are intact.”。报告中不同单词的目的是不同的，其中，一部分是连接词，例如“the”、“is”和“and”，用于使句子更加流畅可读。其余是医学相关的词语，例如“heart”、“aorta”和“lungs”等描述部位的单词或者“normal”、“tortuous”和“clear”等描述症状的词语。而在生成不同的单词时，其需要的信息是不同的。“the”、“is”和“and”之类的连接词，不需要任何视觉信息，而仅仅可以通过上下文的语言特征进行推断，例如“heart”和“aorta”后面有很大概率是“is”，因为需要利用“is”对结构及其描述进行相应的连接。但对于医学相关的单词来说，上下文特征是不够的，例如生成“heart”和“aorta”等单词时，需要根据图像特征去捕获其具体位置，而“normal”、“tortuous”和“clear”等描述词，则需要更加细致的视觉信息去确定相应的症状。

现有的医学报告生成算法在报告生成阶段，通常会直接采用自然图像字幕生成方法中的分层长短时记忆网络或者Transformer模型作为解码器。这些方法在解码时，并没有考虑到不同的单词需要的信息不同这一问题，而是对不同类型的单词都提供了相同的视觉特征。这使得网络解码时，难以理解到不同单词的特性，从而影响到生成报告的质量。

针对这一问题，本文提出了多头自适应注意力(Multi-Head Adaptive Attentionmodule，MHAA)模块，如图5所示，在Transformer解码器(所述任务感知报告生成网络包括Transformer解码器)中新增设置多头自适应注意力模块，从而让所述任务感知报告生成网络在根据有异常样本图像生成有异常图像的医学图像报告时减少计算量，即多头自适应注意力模块位于Transformer的解码器部分，用于实现Transformer编码器输出与Transformer解码器输入的信息交互，其输入的查询是Transformer解码器输入的文本所对应的嵌入向量序列，键和值则是Transformer编码器输出的来自于图像的嵌入向量序列。

所述多头自适应注意力模块获取语言和视觉信号，计算过程如下：

S_L＝Linear(Q)；

其中，S_L和S_V分别是语言信号和视觉信号，Linear为线性映射函数，Q表示目标查询序列矩阵，K表示待查询序列矩阵，K^T表示K的转置矩阵，d_k表示键对应的特征向量维度。

语言信号和视觉信号中包含不同时间节点下对应的信号，不同的时间节点则对应不同位置单词的生成过程。因此，不同时间节点的计算过程分开进行，图5给出了时间节点t下的计算过程。随后，语言信号和视觉信号根据时间节点被合并起来，并通过归一化指数函数得到相应的权重向量：

V_weight＝Softmax(Concat(S_V，S_L))；

其中，V_weight为权重向量，其长度为H×W+1(H和W是权重向量的维度)，并且最后的值对应了语言特征的权重。

通过取出权重向量最后的值，并按时间节点顺序进行排列后，得到语言特征权重向量β。

最后，所述多头自适应注意力模块利用门控机制，实现对视觉特征和语言特征的控制，计算过程如下：

V_adap＝β×Linear(Q)+(1-β)×Attention(Q，K，V)；

其中，V_adap是所述多头自适应注意力模块的输出，Linear函数用于获取语言上下文信息，V表示自身含义编码序列矩阵。

此外，所述多头自适应注意力模块通过将输入、键和值映射到不同的特征子空间学习特征表示，计算过程如下：

head_i＝AdaptiveAttention(Q_i，K_i，V_i)；

MultiHead(Q，K，V)＝Concat(head₁，…，head_h)W^O；

其中，head_i表示矩阵，W^O表示权重矩阵，AdaptiveAttention(Q_i，K_i，V_i)表示将所有的head_i矩阵拼接起来。

本发明提出了一个双分支生成框架，其中两个分支分别用于实现对无异常样本和有异常样本的报告生成，由于这两个分支输出的报告类型不同，因此在训练时，分别利用了无异常样本和有异常样本进行训练，通常对训练样本的调整，缓解了样本不平衡度，同时，考虑到不同结构之间样本平衡度不相同的问题，对此本发明法还提出了自动平衡掩码损失，分别平衡不同结构的实际参与训练的样本的比例；此外，本发明还对模型中的注意力机制进行了改进，提出了多头自适应注意力模块，该模块在生成每个单词时，根据当前的状态，自适应地控制上下文信息以及视觉信息，控制两部分信息对当前单词生成的影响。

即本发明提出一种利用自然语言模型自动生成结构化报告的方法，用于生成诊断准确的报告。首先，构建了双分支生成框架，通过对有无异常样本的分别分成，从样本层面缓解了样本不平衡问题；其次，提出了自动掩码损失函数，进一步解决了结构层面的不平衡问题；此外，还提出了多头自适应注意力模块，用于优化网络对视觉和语言特征的利用。

进一步地，如图6所示，基于上述利用自然语言模型自动生成结构化报告的方法，本发明还相应提供了一种利用自然语言模型自动生成结构化报告的系统，其中，所述利用自然语言模型自动生成结构化报告的系统包括：

图像处理与结果预测模块51，用于获取输入的样本图像，基于图像诊断网络根据所述样本图像生成隐藏状态序列和分类标识序列，并根据所述隐藏状态序列和所述分类标识序列得到结构是否异常的预测结果；

无异常图像报告生成模块52，用于若所述预测结果为无结构异常，获取所述样本图像中的无异常样本图像，基于完整报告生成网络根据所述无异常样本图像生成无异常图像的医学图像报告；

有异常图像报告生成模块53，用于若所述预测结果为存在结构异常，获取所述样本图像中的有异常样本图像，基于任务感知报告生成网络根据所述有异常样本图像生成有异常图像的医学图像报告。

进一步地，如图7所示，基于上述利用自然语言模型自动生成结构化报告的方法和系统，本发明还相应提供了一种终端，所述终端包括处理器10、存储器20及显示器30。图7仅示出了终端的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器20在一些实施例中可以是所述终端的内部存储单元，例如终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器20还可以既包括所述终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述终端的应用软件及各类数据，例如所述安装终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有利用自然语言模型自动生成结构化报告的程序40，该利用自然语言模型自动生成结构化报告的程序40可被处理器10所执行，从而实现本申请中利用自然语言模型自动生成结构化报告的方法。

所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行所述利用自然语言模型自动生成结构化报告的方法等。

所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。所述显示器30用于显示在所述终端的信息以及用于显示可视化的用户界面。所述终端的部件10-30通过系统总线相互通信。

在一实施例中，当处理器10执行所述存储器20中利用自然语言模型自动生成结构化报告的程序40时实现如上所述的利用自然语言模型自动生成结构化报告的方法的步骤。

本发明还提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有利用自然语言模型自动生成结构化报告的程序，所述利用自然语言模型自动生成结构化报告的程序被处理器执行时实现如上所述的利用自然语言模型自动生成结构化报告的方法的步骤。

综上所述，本发明提供一种利用自然语言模型自动生成结构化报告的方法及相关设备，所述方法包括：获取输入的样本图像，基于图像诊断网络根据所述样本图像生成隐藏状态序列和分类标识序列，并根据所述隐藏状态序列和所述分类标识序列得到结构是否异常的预测结果；若所述预测结果为无结构异常，获取所述样本图像中的无异常样本图像，基于完整报告生成网络根据所述无异常样本图像生成无异常图像的医学图像报告；若所述预测结果为存在结构异常，获取所述样本图像中的有异常样本图像，基于任务感知报告生成网络根据所述有异常样本图像生成有异常图像的医学图像报告。本发明根据样本图像是否有异常分别进行医学图像报告的生成，通过对不同结构分别生成报告的方式，保证生成报告诊断的准确性，从而大大降低了医生的工作量。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者终端中还存在另外的相同要素。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件(如处理器，控制器等)来完成，所述的程序可存储于一计算机可读取的计算机可读存储介质中，所述程序在执行时可包括如上述各方法实施例的流程。其中所述的计算机可读存储介质可为存储器、磁碟、光盘等。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种利用自然语言模型自动生成结构化报告的方法，其特征在于，所述利用自然语言模型自动生成结构化报告的方法包括：

2.根据权利要求1所述的利用自然语言模型自动生成结构化报告的方法，其特征在于，所述获取输入的样本图像，基于图像诊断网络根据所述样本图像生成隐藏状态序列和分类标识序列，并根据所述隐藏状态序列和所述分类标识序列得到结构是否异常的预测结果，之前还包括：

3.根据权利要求2所述的利用自然语言模型自动生成结构化报告的方法，其特征在于，所述预先训练所述完整报告生成网络和所述任务感知报告生成网络，具体包括：

先利用无异常样本集合对所述完整报告生成网络进行训练；

4.根据权利要求1所述的利用自然语言模型自动生成结构化报告的方法，其特征在于，所述利用自然语言模型自动生成结构化报告的方法还包括：

判断每个结构的异常概率是否低于预设阈值；

5.根据权利要求3所述的利用自然语言模型自动生成结构化报告的方法，其特征在于，所述利用自然语言模型自动生成结构化报告的方法还包括：

其中，

和

所述自动平衡掩码损失函数的计算过程如下：

其中，

表示自动平衡掩码损失函数，

如果样本是异常样本，则对应的损失直接计入总损失；

如果样本是正常样本，则以概率值p_i进行丢弃。

6.根据权利要求1所述的利用自然语言模型自动生成结构化报告的方法，其特征在于，所述图像诊断网络包括图像特征提取器和Transformer编码器。

7.根据权利要求6所述的利用自然语言模型自动生成结构化报告的方法，其特征在于，所述任务感知报告生成网络包括Transformer解码器。

8.根据权利要求7所述的利用自然语言模型自动生成结构化报告的方法，其特征在于，在Transformer解码器中新增设置多头自适应注意力模块。

9.根据权利要求8所述的利用自然语言模型自动生成结构化报告的方法，其特征在于，所述多头自适应注意力模块用于实现所述Transformer解码器输出与所述Transformer解码器输入的信息交互，输入的查询为所述Transformer解码器输入的文本所对应的嵌入向量序列，键和值则为所述Transformer编码器输出的来自于图像的嵌入向量序列。

10.根据权利要求9所述的利用自然语言模型自动生成结构化报告的方法，其特征在于，所述多头自适应注意力模块获取语言和视觉信号，计算过程如下：

S_L＝Linear(Q)；

V_weight＝Softamx(Concat(S_V，S_L))；

其中，V_weight为权重向量；

V_adap＝β×Linear(Q)+(1-β)×Attention(Q，K，V)；

head_i＝AdaptiveAttention(Q_i，K_i，V_i)；

MultiHead(Q，K，V)＝Concat(head₁，…，head_h)W^O；

其中，head_i表示矩阵，W^O表示权重矩阵。

11.一种利用自然语言模型自动生成结构化报告的系统，其特征在于，所述利用自然语言模型自动生成结构化报告的系统包括：

12.一种终端，其特征在于，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的利用自然语言模型自动生成结构化报告的程序，所述利用自然语言模型自动生成结构化报告的程序被所述处理器执行时实现如权利要求1-10任一项所述的利用自然语言模型自动生成结构化报告的方法的步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有利用自然语言模型自动生成结构化报告的程序，所述利用自然语言模型自动生成结构化报告的程序被处理器执行时实现如权利要求1-10任一项所述的利用自然语言模型自动生成结构化报告的方法的步骤。