CN112786160A

CN112786160A - 基于图神经网络的多图片输入的多标签胃镜图片分类方法

Info

Publication number: CN112786160A
Application number: CN202110146691.6A
Authority: CN
Inventors: 李寿山; 俞旸; 鲍小异; 张栋; 周国栋
Original assignee: Zidong Information Technology Suzhou Co ltd
Current assignee: Zidong Information Technology Suzhou Co ltd
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2021-05-11

Abstract

本申请涉及一种基于图神经网络的多图片输入的多标签胃镜图片分类方法，属于医学图像智能处理技术领域，该方法包括：对样本数据中的多张胃镜图片进行预处理，得到预处理后的胃镜图片；获取整体标签结果之间的共现矩阵；将预处理后的胃镜图片和共现矩阵输入预设的网络模型进行训练，得到分类模型，以对输入的至少一张图片进行分类；该网络模型中的BiT‑ResNet用于提取预处理后的胃镜图片的图像特征；Attention层用于计算图像特征中各部分的权重，得到更新后的图像特征；图神经网络用于根据共现矩阵输出网络结果，网络结果和更新后的图像特征用于生成分类结果；相较于使用多个单图片单标签图片分类方法，能获得更好的分类效果。

Description

基于图神经网络的多图片输入的多标签胃镜图片分类方法

【技术领域】

本申请涉及一种基于图神经网络的多图片输入的多标签胃镜图片分类方法，属于医学图像智能处理技术领域。

【背景技术】

随着云服务、大数据、人工智能等新技术的发展以及应用，深度学习网络逐渐被应用到图片分类、图片识别领域。深度学习网络与医疗结合，辅助医生诊疗也成了一个热门研究领域。

现有的图像识别通常用来判断单张图片是否属于某个标签类别。

然而，真实世界中，一张图片可能包含多个物体，一次需要判断的也不止一张图片。比如一次胃镜检查，就对应着多张胃镜图片的输入和多项疾病标签的输出。现有的图像识别技术可以应用于该问题，但会忽略标签间的关系，也无法很好地找到多张图片中的重点，进而影响了图像分类的性能。

【发明内容】

本申请提供了一种基于图神经网络的多图片输入的多标签胃镜图片分类方法，可以充分捕捉图片间的重点和标签间的联系，提升胃镜检查样本自动识别的准确率。本申请提供如下技术方案：

获取多组样本数据，每组样本数据包括多张胃镜图片和所述多张胃镜图片对应的整体标签结果；

对所述多张胃镜图片进行预处理，得到预处理后的胃镜图片；

获取所述整体标签结果之间的共现矩阵；

将所述预处理后的胃镜图片和所述共现矩阵输入预设的网络模型，并使用预设的损失函数和所述整体标签结果对所述网络模型进行训练，得到分类模型，所述分类模型用于对输入的至少一张图片进行分类；

其中，预设的网络模型包括BiT-ResNet、与所述BiT-ResNet相连的注意力Attention层、以及与所述Attention层相连的图神经网络；所述BiT-ResNet用于提取所述预处理后的胃镜图片的图像特征；所述Attention层用于计算所述图像特征中各部分的权重，得到更新后的图像特征；所述图神经网络用于根据所述共现矩阵输出网络结果，所述网络结果和所述更新后的图像特征用于生成分类结果。

可选地，所述对所述多张胃镜图片进行预处理，得到预处理后的胃镜图片，包括：

对所述多张胃镜图片进行缩放，得到多张预设尺寸的图片；

将多张预设尺寸的图片进行拼接；

对拼接后的得到图片数据进行标准化，得到所述预处理后的胃镜图片。

可选地，所述将所述预处理后的胃镜图片和所述共现矩阵输入预设的网络模型，并使用预设的损失函数和所述整体标签结果对所述网络模型进行训练，得到分类模型之前，还包括：

通过BiT-ResNet预训练模型初始化参数。

可选地，所述预设的网络模型还用于，将所述网络结果作为分类器向量与所述更新后的图像特征相乘，得到图片分类的概率；按照所述图片分类的概率得到所述分类结果。

可选地，将所述网络结果作为分类器向量与所述更新后的图像特征相乘，通过sigmoid函数激活得到图片分类的概率。

可选地，所述预设的损失函数通过下式表示：

其中，y_i是该样本i的真实标签分布，x_i是模型对样本i的预测标签分布。

可选地，所述方法还包括：

在训练得到所述分类模型后，使用测试集对所述分类模型进行测试，以确定所述分类模型的性能。

可选地，所述方法还包括：

在使用所述分类模型时，将多张待分类的胃镜图像进行预处理；

将预处理后的胃镜图像输入所述分类模型，得到所述多张待分类的胃镜图像的整体分类结果。

可选地，所述整体标签结果包括以下几种中的一种或多种：健康胃、胃息肉、胃溃疡、胃癌、胃炎以及胆汁反流。

本申请的有益效果至少包括：通过收集并整理胃镜检查的图片及结果，每个样本包含多张胃镜图片和一份检查报告，对应一次胃镜检查。接着根据检查报告对样本图片进行标注，共分为6个类别，分别是：健康胃、胃息肉、胃溃疡、胃癌、胃炎以及胆汁反流，每个样本可以包含一个或多个标签。然后对每个样本内的图片做预处理并拼接，并将其输入到BiT-ResNet模型以及其后的Attention层中，得到统一维度的特征表示。与此同时，通过标签共现信息构建标签间的图神经网络，并最终训练得到一个分类器，使用分类器对特征表示进行分类，即可判断出该样本包含哪些标签。由于每个样本包含多张图片，且不是每张图片都对样本的标签有贡献，而Attention层的加入可以感知多张图片中的重点，图神经网络训练出的分类器又能充分利用标签间的联系。因此，相较于使用多个传统的单图片单标签图片分类方法，通过这种方法可以获得更好的分类效果。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，并可依照说明书的内容予以实施，以下以本申请的较佳实施例并配合附图详细说明如后。

【附图说明】

图1是本申请一个实施例提供的BiT-ResNet的网络结构示意图；

图2是本申请一个实施例提供的基于图神经网络的多图片输入的多标签胃镜图片分类方法的流程图；

图3是本申请一个实施例提供的分类模型的训练过程的示意图。

【具体实施方式】

下面结合附图和实施例，对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

首先，对本申请涉及的若干名词进行介绍。

大迁移(BigTransfer，BiT)模型：是一个可以作为任意视觉任务起点的预训练残差网络(ResNet)。预训练的ResNet利用经典的ResNet架构，增加模型容量，并在较大的数据集上进行预训练、通过增加计算预算和训练时间，可以提高网络性能。针对下游任务微调预训练BiT模型，BiT只需要预训练一次，此后在针对下游任务进行微调时，成本很低。微调涉及到很多超参数，比如学习率、权重衰减等。基于此，提出了超参数调校(BiT-HyperRule)方法。该方法仅基于高级数据集特征，如图像分辨率和标注样本数量等。也就是说，BiT并不会对每个下游任务都进行超参数调整。这能有效地降低任务适应成本。

参考图1所示的采用迁移学习的方法在ResNet模型框架基础上，采用BiT预训练模型进行训练，得到BiT-ResNet的网络结构示意图。根据图1可知，BiT-ResNet包括基于ResNet-50构成，即，BiT-ResNet由50个带有权重的层组成，使用的卷积核分别为1*1，3*3，1*1。ResNet-50主要分为6个部分，分别为conv1、conv2_x、conv3_x、conv4_x、conv5_x以及最后的全局平均池化层和全连接层。全局平均池化层用于将二维特征图映射为向量，输入到全连接层，全连接层包括两层，第一层全连接层包含1000个神经元，第二层全连接层包含100个神经元，得到最终对应输入图像的输出表征。

需要补充说明的是，在实际实现时，BiT-ResNet的网络结构也可以略有不同，比如：残差网络中带有权重的层数不同，或者，全连接层中神经元的数量不同等，本实施例不对BiT-ResNet的网络结构作限定。

图神经网络(Graph Neural Networks，GNN)：传统的机器学习所用到的数据是欧氏空间(Euclidean Domain)的数据，欧氏空间下的数据最显著的特征就是有着规则的空间结构，比如图片是规则的正方形栅格，语音数据是一维序列，这些数据能够通过一维或二维的矩阵进行表示。同时，存在一个核心的假设：样本之间是相互独立的。但是，在现实生活中许多数据都是不具备规则的空间结构，即是非欧氏空间下的数据，如电子交易、推荐系统等抽象出来的图谱，图谱中每个节点与其他节点的连接不是固定的。图神经网络可以对非欧氏空间的数据进行建模，捕获数据的内部依赖关系。图神经网络是不规则的、无序的。

由于图的特点可以很好的表征各个标签之间的相互依赖性，因此可以选择基于图神经网络进行建模学习，从而用于图像分类网络中。

一种典型的图神经网络的网络结构包括输入层、隐藏层、线性整流函数(Rectified Linear Unit，ReLU)层和输出层。其中，隐藏层和ReLU层可以重复多个。在实际实现时，图神经网络也可以为其它结构，本实施例不对图神经网络的实现方式作限定。

输入层包括特征描述矩阵H(n*d)和相关系数矩阵A(n*n)，其中n为节点个数，即所有标签的个数，d为特征的维度，特征维度根据采用的神经网络的结构决定。其中，相关系数矩阵是GCN网络中表征标签关系的一个矩阵。

示意性地，通过挖掘标签在数据集中的共现情况来初始化相关系数矩阵A。N_i为标签i在数据中出现的次数，M_ij为标签i和标签j两个标签一起出现的概率，两者相除便可以得到不同标签之间的条件概率矩阵P。

P_ij＝M_ij/N_i

隐藏层用来学习节点之间的相关信息并更新节点表示，每一个Hidden Layer都可以用一个非线性函数表示。

共现矩阵：可以统计出分类标签同时出现的次数。构建共现矩阵的基本步骤为：首先将每一份文本的标签分隔开并转换成列表，同时建立关于标签的字典，建立空矩阵用于存放标签的共现矩阵，然后计算标签与标签之间的共现频次。

注意力机制(Attention Mechanism)：使得神经网络具备专注于其输入(或特征)子集的能力。

可选地，本申请以各个实施例的执行主体为具有图像处理能力的电子设备为例进行说明，该电子设备可以为终端或服务器，该终端可以为计算机、笔记本电脑、平板电脑、医疗诊断设备等，本实施例不对终端的类型和电子设备的类型作限定。

图2是本申请一个实施例提供的基于图神经网络的多图片输入的多标签胃镜图片分类方法的流程图。该方法至少包括以下几个步骤：

步骤201，获取多组样本数据，每组样本数据包括多张胃镜图片和多张胃镜图片对应的整体标签结果。

可选地，整体标签结果包括以下几种中的一种或多种：健康胃、胃息肉、胃溃疡、胃癌、胃炎以及胆汁反流。

比如：收集2400份胃镜检查样本，每个样本中包含3-99张不等的胃镜检查图像以及一份检查报告。每个样本中的检查报告会给出该样本中若干张图片的整体结果，结果会包含以下6种标签中的一个或多个：健康胃、胃息肉、胃溃疡、胃癌、胃炎以以及胆汁反流。将2400份样本按7:2:1的比例划分训练集、验证集和测试集，训练基于图神经网络的多图片输入的多标签图像分类网络，最终获得自动分类模型。

步骤202，对多张胃镜图片进行预处理，得到预处理后的胃镜图片。

对多张胃镜图片进行预处理用于得到适配于网络模型的输入。

在一个示例中，对多张胃镜图片进行预处理，得到预处理后的胃镜图片，包括：对多张胃镜图片进行缩放，得到多张预设尺寸的图片；将多张预设尺寸的图片进行拼接；对拼接后的得到图片数据进行标准化，得到预处理后的胃镜图片。

预设尺寸可以为3*224*224，当然，也可以为其它尺寸，本实施例不对预设尺寸的取值作限定。相应地，将n张预设尺寸的图片进行拼接，得到在新的维度上的拼接图像，如：n*3*224*224。n为正整数。

步骤203，获取整体标签结果之间的共现矩阵。

可选地，共现矩阵可以通过自动统计工具得到，或者人工统计得到，本实施例不对共现矩阵的获取方式作限定。

步骤204，将预处理后的胃镜图片和共现矩阵输入预设的网络模型，并使用预设的损失函数和整体标签结果对网络模型进行训练，得到分类模型，分类模型用于对输入的至少一张图片进行分类；其中，预设的网络模型包括BiT-ResNet、与BiT-ResNet相连的注意力Attention层、以及与Attention层相连的图神经网络；BiT-ResNet用于提取预处理后的胃镜图片的图像特征；Attention层用于计算图像特征中各部分的权重，得到更新后的图像特征；图神经网络用于根据共现矩阵输出网络结果，网络结果和更新后的图像特征用于生成分类结果。

本实施例中，在训练前，即，本步骤前还需要通过BiT-ResNet预训练模型初始化参数。

在训练时，使用初始学习率(如0.0001)、使用随机梯度下降(stochasticgradient descent，SGD)优化器来优化网络模型的网络参数，使用根据最大熵(max-entropy)的多标签one-versus-all损失作为训练的损失函数。

其中，预设的损失函数通过下式表示：

y_i是该样本i的真实标签分布，x_i是模型对样本i的预测标签分布。

可选地，为了满足不同维度的图片输入，批的大小设置为1。

可选地，设置学习率指数下降，参数为0.99。

预设的网络模型还用于，将网络结果作为分类器向量与更新后的图像特征相乘，得到图片分类的概率；按照图片分类的概率得到分类结果。具体地，将网络结果作为分类器向量与更新后的图像特征相乘，通过sigmoid函数激活得到图片分类的概率。

示意性地，每个标签的概率p_i若大于0.5，则判断该样本含有此标签。

其中，Attention层能计算输入特征各部分的权重，是识别图片病灶部分的关键。使用Attention技术构建的Attention层，会对图像特征的各个区域赋予不同的权重，所有权重之和为1，权重的大小代表该区域的重要程度。并最终将一个样本中不同维度的图片特征转化为统一的2048的大小。

构建图神经网络时采用了最先进的多标签分类方法之一，有效捕捉了标签的分布和标签间的联系。图神经网络可以很好地保留逻辑图中的各种信息，按照标签间的共现关系构建图神经网络，就可以保留标签间的联系。

参考图3所示的预设的网络模型(与分类模型的网络结构相同)，该网络模型包括BiT-ResNet、与BiT-ResNet相连的注意力Attention层、以及与Attention层相连的图神经网络；BiT-ResNet用于提取预处理后的胃镜图片的图像特征；Attention层用于计算图像特征中各部分的权重，得到更新后的图像特征；图神经网络用于根据共现矩阵输出网络结果，网络结果和更新后的图像特征相乘后经过sigmoid函数激活得到分类结果。

可选地，在训练得到分类模型后，使用测试集对分类模型进行测试，以确定分类模型的性能。

在测试时，图片依旧经过缩放、拼接和标准化，转化为n*3*224*224的图像特征，将其输入训练完成的分类模型，即可得到最终的分类结果。整个过程不需要人工参与，减少人为因素的同时，可以更加高效地为医生提供辅助诊断的依据。

表1为不同方法在测试集上的性能比较。由于该训练集只对每个样本中的多张图片有一个整体性的标注，并不能对应到某张确定的图片，因此，传统的单图片单标签分类方法无法在此应用。无Attention层的方法的模型结构与有Attention层的方法均使用了图神经网络捕捉标签间的联系，区别仅在Attention的有无。可以看出，Attention层的加入，大大提升了模型的性能，各项指标均提升一倍以上。巨大的性能差异凸显了Attention层的重要性。结合图神经网络对标签间联系的捕捉，该方法的微平均F1值已达到75％，完全可以应用于胃镜检查的辅助诊疗。

表1

使用模型	准确率	微平均F1值	宏平均F1值
				无Attention层	0.100	0.442	0.120
有Attention层	0.525	0.750	0.577

其中，准确率考察的是每个样本的预测分布是否与真实分布完全一致，微平均F1值主要考察样本量少的标签的分类正确性，宏平均F1值则主要考察样本量多的标签的分类正确性。

可选地，在使用分类模型时，将多张待分类的胃镜图像进行预处理；将预处理后的胃镜图像输入分类模型，得到多张待分类的胃镜图像的整体分类结果。此时，无论输入图片有多少张，都可以使用该模型预测。

综上所述，本实施例提供的基于图神经网络的多图片输入的多标签胃镜图片分类方法，通过收集并整理胃镜检查的图片及结果，每个样本包含多张胃镜图片和一份检查报告，对应一次胃镜检查。接着根据检查报告对样本图片进行标注，共分为6个类别，分别是：健康胃、胃息肉、胃溃疡、胃癌、胃炎以及胆汁反流，每个样本可以包含一个或多个标签。然后对每个样本内的图片做预处理并拼接，并将其输入到BiT-ResNet模型以及其后的Attention层中，得到统一维度的特征表示。与此同时，通过标签共现信息构建标签间的图神经网络，并最终训练得到一个分类器，使用分类器对特征表示进行分类，即可判断出该样本包含哪些标签。由于每个样本包含多张图片，且不是每张图片都对样本的标签有贡献，而Attention层的加入可以感知多张图片中的重点，图神经网络训练出的分类器又能充分利用标签间的联系。因此，相较于使用多个传统的单图片单标签图片分类方法，通过这种方法可以获得更好的分类效果。

可选地，本申请还提供有一种计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的基于图神经网络的多图片输入的多标签胃镜图片分类方法。

可选地，本申请还提供有一种计算机产品，该计算机产品包括计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的基于图神经网络的多图片输入的多标签胃镜图片分类方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于图神经网络的多图片输入的多标签胃镜图片分类方法，其特征在于，所述方法包括：

获取所述整体标签结果之间的共现矩阵；

2.根据权利要求1所述的方法，其特征在于，所述对所述多张胃镜图片进行预处理，得到预处理后的胃镜图片，包括：

对所述多张胃镜图片进行缩放，得到多张预设尺寸的图片；

将多张预设尺寸的图片进行拼接；

3.根据权利要求1所述的方法，其特征在于，所述将所述预处理后的胃镜图片和所述共现矩阵输入预设的网络模型，并使用预设的损失函数和所述整体标签结果对所述网络模型进行训练，得到分类模型之前，还包括：

通过BiT-ResNet预训练模型初始化参数。

4.根据权利要求1所述的方法，其特征在于，所述预设的网络模型还用于，将所述网络结果作为分类器向量与所述更新后的图像特征相乘，得到图片分类的概率；按照所述图片分类的概率得到所述分类结果。

5.根据权利要求4所述的方法，其特征在于，将所述网络结果作为分类器向量与所述更新后的图像特征相乘，通过sigmoid函数激活得到图片分类的概率。

6.根据权利要求1所述的方法，其特征在于，所述预设的损失函数通过下式表示：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述整体标签结果包括以下几种中的一种或多种：健康胃、胃息肉、胃溃疡、胃癌、胃炎以及胆汁反流。