CN110084297A

CN110084297A - 一种面向小样本的影像语义对齐结构

Info

Publication number: CN110084297A
Application number: CN201910327483.9A
Authority: CN
Inventors: 李继云; 王伟鹏; 李凯华; 孙莉; 乐嘉锦
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2019-08-02
Anticipated expiration: 2039-04-23
Also published as: CN110084297B

Abstract

本发明基于编码‑解码模型，公开了一种面向小样本的影像语义对齐结构，是人工智能领域下医学影像报告自动生成的辅助诊疗模型。该结构主要分为三大层次结构：预处理层、编码层和解码层。预处理层包含图像增强、图像分割、图像矩阵转换以及标签对齐；编码层主要利用卷积神经网络(Convolutional Neural Network，CNN)编码器提取图像特征；解码层主要利用长短期记忆网络(long short‑term memory，LSTM)循环网络解码文本匹配。本发明的对齐结构通过调整图像编码层中卷积网络的结构，以适应小样本图像描述的生成。

Description

一种面向小样本的影像语义对齐结构

技术领域

本发明涉及自然语言处理(NLP)领域和计算机视觉(CV)领域，具体涉及了一种面向小样本的影像语义对齐结构，实现了医学影像自动转化成文本报告的功能。

背景技术

在过去二十年中，自然语言处理和计算机视觉领域在分析和生成文本以及理解图像和视频方面取得了巨大的进步。虽然这两个领域都有一套类似于人工智能和机器学习的方法，但它们在历史上是分开发展的，而且它们的科学界通常只有很少的交互作用。然而，近年来对需要结合语言和视觉信息的问题兴趣激增，自动图像描述已经成为关键任务。

图像描述的生成方法抽象为抽取摘要方法，从SumBasic模型抽取摘要技术到基于查询的词分布与候选描述之间的Kullback-Leibler分歧，以及最近提出的 VisualGeometry Group卷积神经网络提取特征技术，经被证明在许多计算机视觉问题中是有效的。自15年开始，图像描述任务逐渐形成了一个编解码的主流解决方案，使用不同的卷积网提取有效的图像特征以及不同的序列处理模型生成更好的表达语句成为了技术攻坚的方向，于此同时注意力机制也在图像和文本两个部分被逐渐引入该任务。

随着智能医疗的兴起、图像描述任务的不断发展，影像的特征分析、理解以及报告文本的自动生成的研究也显得尤其重要。

发明内容

本发明的目的是：设计一种人工智能领域下医学影像报告自动生成的辅助诊疗模型，尤其适用于小样本的影像数据。

为了达到上述目的，本发明的技术方案是提供了一种面向小样本的影像语义对齐结构，其特征在于，包括数据预处理层、编码层和解码层，其中：

数据预处理层为数据前期准备阶段，对输入的影像图像和文本的数据进行预处理操作；

编码层采用CNN作为编码器将影像图编码成固定长度的向量，在CNN中提取图像特征；

解码层采用LSTM特殊形式的循环网络构建语言模型。

优选地，所述数据预处理层对图像进行的预处理操作包括常规的医学影像增强的方法，并对包含大面积背景的影像进行阈值分割减少背景区域。

优选地，所述数据预处理层对文本进行的预处理操作包括分词和报告主要含义语句的提取。

优选地，所述编码层由参数数量更少、权重更易传递的残差网络和对单通道灰度影像更为敏感的全卷积网络构成。

优选地，所述解码层每个输出时间步骤都会在序列中生成一个新词，然后每个生成的词都会使用一个词嵌入进行编码，该编码会作为输入被传递给解码器以生成后续的词。

本发明的另一个技术方案是提供了一种上述小样本影像语义对齐结构的应用，其特征在于，用于在小样本影像上的训练以及预测

本发明的有益效果是，克服了小规模数据集上参数的训练造成的欠拟合及过拟合问题，对于少参数、小样本的数据集，该对齐结构可以良好的生成对应的文本描述。此外，该模型还具有如下特点：

(1)影像报告不受医生的个人经验而产生的个人差异影响；

(2)擅长在数据中识别复杂的模式，并以自动化方式提供定量评估；

(3)对医学影像中的病灶对象及对象关系的结构学习，可以更好地构建图像语义，增加辅助诊疗模型的可解释性。

附图说明

图1为影像语义对齐结构结构图。该结构分为三大层次：数据预处理层、 CNN编码层和LSTM解码层。

图2为残差网络结构图。卷积和池化部分就是残差网络结构，对于输出层做出调整，添加一个1×256的全连接层来压缩数据维度，并进一步提高语义特征的精度，以用于后续序列预测。

图3为全卷积网络结构图。网络的输出层之后添加了一个1×1卷积来代替全连接进一步减少网络参数，并使用一个均值池化获得最终256维长度的语义向量这与残差网最后一层的全连接层等效。

图4为乳腺癌钼靶影像报告生成比较图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明提供的一种面向小样本的影像语义对齐结构是面向小样本的影像报告自动生成而提出的一种新的解决方案。

为了实现上述目的，本发明的技术方案如下：

(一)影像语义对齐结构的要求

影像语义对齐结构作为医疗辅助诊断下影像报告自动生成的模型，适用于少参数、小样本，需要满足如下要求：

(1)自动识别影像中的可疑实体并进行标注；

(2)基于深度学习的医学影像语义表达方法，从放射影像中获取足够的语义内容并进行良好表达；

(3)基于影像的语义特征，自动生成病变的语义描述；

(4)保证影像报告描述的准确度。

(二)影像语义对齐结构的架构

本发明的语义对齐结构的主要目标是面向小样本数据集的图像描述。因此，可以将该结构分为三个大的层次：数据预处理层，编码层和解码层。

数据预处理层是该结构的数据前期准备阶段，对影像和报告文本数据进行处理，更好的提取特征以及识别实体。

编码层是该结构的核心层，将影像图转变成固定长度的向量，在CNN中提取图像特征，利用编码解码模型，解决长度不一致的额映射问题。

解码层是该结构的语言生成层，利用LSTM网络很好的解决梯度消失或者梯度爆炸的问题，从而生成目标句子。

1、影像语义对齐结构的数据预处理层

数据预处理包含图像和文本的两个方面。图像的处理包含常规的医学影像增强的方法(限制对比度自适应直方图均衡/Contrast Limited Adaptive histgramequalization:CLAHE)，并对包含大面积背景的影像进行阈值分割减少背景区域。考虑到数据量较少的问题，对图像进行了一定程度的裁剪、旋转、平移等操作来增强数据集。

报告文本的处理，主要集中在分词和报告主要含义语句的提取，参考医学相关术语添加了自定义词典和停用词表，词向量的编码过程嵌入到联合模型中进行训练获得最好的表达方式。对报告主旨句的提取工作主要利用序列模型进行词性标注和实体识别来完成。

2、影像语义对齐结构的编码层

利用U-Net简单地将编码器的特征图拼接至每个阶段解码器的上采样特征而形成一个梯形结构，简单的解决了使用卷积神经网络进行语义分割存在的扩大感受野、聚合语境而造成了位置信息的丢失的问题。除此之外，语义分割要求类别图完全贴合，因此需要保留位置信息。采用残差网络结构，在神经网的前向传播过程中，通过前向神经网络输出+shortcut连接实现。shortcut连接相当于简单执行了恒等映射，不会产生额外的参数，也不会增加计算复杂度。而且，整个网络可以依旧通过端到端的反向传播训练，使得浅层网络的特征信息得以传递到深层。最后使用一个1×256的全连接层来压缩数据维度，并进一步提高语义特征的精度，以用于后续序列预测。

3、影像语义对齐结构的解码层

RNN的序列处理往往会存在梯度消失和梯度爆炸。为了解决逆向传播过程中的这一问题，选择了在文本处理/翻译和序列处理/预测面取得了很好的成果的 LSTM的特殊形式的循环网络。初始时刻输入image-embedding的特征向量，输入序列经word-embedding后形成相应维词向量，目标序列为输入序列右移一个位置，最终被训练成一个以图像编码为条件的语言模型。

如图4所示，是根据本发明的乳腺癌钼靶影像报告生成图，图中左侧为以残差网为特征提取网络的结果，右侧为全卷积网做特征提取的结果，可以看到，参数数量较少的网络在我们的数据集上表现出了更为出色的性能，可以差异化的表达影像中的实体类别，腺体分型等信息。

Claims

1.一种面向小样本的影像语义对齐结构，其特征在于，包括数据预处理层、编码层和解码层，其中：

解码层采用LSTM特殊形式的循环网络构建语言模型。

2.如权利要求1所述的一种面向小样本的影像语义对齐结构，其特征在于，所述数据预处理层对图像进行的预处理操作包括常规的医学影像增强的方法，并对包含大面积背景的影像进行阈值分割减少背景区域。

3.如权利要求1所述的一种面向小样本的影像语义对齐结构，其特征在于，所述数据预处理层对文本进行的预处理操作包括分词和报告主要含义语句的提取。

4.如权利要求1所述的一种面向小样本的影像语义对齐结构，其特征在于，所述编码层由参数数量更少、权重更易传递的残差网络和对单通道灰度影像更为敏感的全卷积网络构成。

5.如权利要求1所述的一种面向小样本的影像语义对齐结构，其特征在于，所述解码层每个输出时间步骤都会在序列中生成一个新词，然后每个生成的词都会使用一个词嵌入进行编码，该编码会作为输入被传递给解码器以生成后续的词。

6.一种如权利要求1所述小样本影像语义对齐结构的应用，其特征在于，用于在小样本影像上的训练以及预测。