CN113486990B

CN113486990B - 内窥镜图像分类模型的训练方法、图像分类方法和装置

Info

Publication number: CN113486990B
Application number: CN202111039189.1A
Authority: CN
Inventors: 边成; 李永会; 杨延展
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2021-12-21
Anticipated expiration: 2041-09-06
Also published as: WO2023030520A1; CN113486990A

Abstract

一种内窥镜图像分类模型的训练方法、图像分类方法和装置。其中所述内窥镜图像分类模型包括多个专家子网络，所述方法包括：获取训练数据集，所述训练数据集包括多个内窥镜影像图像以及所述多个内窥镜影像图像的标注标签，其中所述训练数据集呈现长尾分布；以及基于所述训练数据集对所述内窥镜图像分类模型进行训练，直到所述内窥镜图像分类模型的目标损失函数收敛，以获得训练完成的内窥镜图像分类模型，其中，所述目标损失函数是至少基于所述多个专家子网络的相应多个输出结果来确定的。

Description

内窥镜图像分类模型的训练方法、图像分类方法和装置

技术领域

本申请涉及人工智能领域，具体涉及一种融合了知识蒸馏的内窥镜图像分类模型的训练方法、图像分类方法、装置及计算机可读介质。

背景技术

结直肠癌是世界上发病率第3和死亡率第4的癌症，而95%以上的结直肠癌是由结肠息肉癌变的。在检出的息肉中，腺瘤占大多数，大约占10.86%到80%，一般认为结直肠癌起源于腺瘤性息肉，其癌变率为1.4%～9.2%。而其他息肉类型如增生型息肉、炎症性息肉（占比2.32%到13.8%）等分别只占很少的比例，呈现一种长尾分布。

为了减轻医生的负担，有一些工作尝试研究使用深度学习的方式自动化地实现对息肉类型的识别。现有的对息肉分类的识别工作基本基于普通的卷积神经网络。它们通常使用一个现成的卷积神经网络，如ResNet，VGG，Inceptionv3等。但是它们都仅使用传统的训练方式，并没有考虑到息肉类型分布的不均衡性。

目前针对长尾问题进行了大量的研究，例如，有一部分研究工作通过对数据集进行重采样的方法来解决长尾问题，包括对头部进行欠采样，对尾部进行过采样，或是根据每个类别的分布进行一种数据均衡的采样。然而这些方法预先了解了未来的数据分布，不符合现实的情况，且容易造成对尾部数据的过拟合。有一部分研究工作通过对不同的类或是样本分配不同的权重来解决长尾问题，通过修改损失来对尾部数据分配更高的权重。然而，这类方法虽然相较基于重采样的方法更简洁，但是它们面临着同样的问题，即易造成对头部/尾部数据的欠拟合/过拟合，且不符合现实情境。有一部分研究工作通过将头部数据学到的特征迁移到尾部数量不足的数据上，然而这类方法通常模型和计算量都较为复杂。还有一些工作尝试融合以上方法或从其他角度解决长尾问题。如通过修改分类器模型更新的动量，去除其偏向头部数据的动量来解决这种不平衡问题。然而这种方法无法保证不会牺牲一部分头部数据的准确性。

在现有的对息肉进行分类的方法或研究工作中，通常没有考虑息肉类型长尾分布的特性，而直接使用卷积神经网络进行训练，或是将数据集的分布进行调整之后再训练，而这显然不符合现实中息肉数据的特性。不考虑数据的不均衡性直接进行训练容易使模型无法很好的对尾部数据进行识别，而将数据集重新调整之后再训练易形成对尾部数据的过拟合而对头部数据的准确性造成一定的损失。

因此，期望提出一种改进的息肉分类方法，使得能够适应于长尾数据分布并且可以同时提升头尾部准确性。

发明内容

考虑到以上问题而做出了本公开。本公开的一个目的是提供一种训练内窥镜图像分类模型的方法、内窥镜图像分类方法、装置及计算机可读介质。

本公开的实施例提供了一种基于多专家决策的内窥镜图像分类模型的训练方法，其中所述内窥镜图像分类模型包括多个专家子网络，所述方法包括：获取训练数据集，所述训练数据集包括多个内窥镜影像图像以及所述多个内窥镜影像图像的标注标签，其中所述训练数据集呈现长尾分布；以及基于所述训练数据集对所述内窥镜图像分类模型进行训练，直到所述内窥镜图像分类模型的目标损失函数收敛，以获得训练完成的内窥镜图像分类模型，其中，所述目标损失函数是至少基于所述多个专家子网络的相应多个输出结果来确定的。

例如，其中，基于所述训练数据集对所述内窥镜图像分类模型进行训练包括：将所述训练数据集中的图像样本输入到所述多个专家子网络中的每一个中；利用所述多个专家子网络，生成针对所述图像样本的相应的多个专家子网络输出结果；基于所述多个专家子网络输出结果，生成所述内窥镜图像分类模型的最终输出结果；以及基于至少所述多个专家子网络输出结果和所述最终输出结果，通过目标损失函数来计算损失值，并基于所述损失值调整所述内窥镜图像分类模型的参数。

例如，其中，所述内窥镜图像分类模型还包括共享子网络，基于所述训练数据集对所述内窥镜图像分类模型进行训练包括：将所述训练数据集中的图像样本输入到所述共享子网络中以提取浅层特征表示;基于所提取的浅层特征表示，利用所述多个专家子网络生成针对所述图像样本的相应的多个专家子网络输出结果；基于所述多个专家子网络输出结果，生成所述内窥镜图像分类模型的最终输出结果；以及基于至少所述多个专家子网络输出结果和所述最终输出结果，通过目标损失函数来计算损失值，并基于所述损失值调整所述内窥镜图像分类模型的参数。

例如，其中，所述内窥镜图像分类模型的目标损失函数包括：基于所述内窥镜图像分类模型的最终输出结果与图像样本的标注标签而确定的交叉熵损失函数，以及基于所述多个专家子网络输出结果而确定的KL散度。

例如，其中，基于所述多个专家子网络输出结果，生成所述内窥镜图像分类模型的最终输出结果包括：将所述多个专家子网络输出结果进行融合，以作为所述内窥镜图像分类模型的最终输出结果。

例如，其中，将所述多个专家子网络输出结果进行融合包括：对所述多个专家子网络输出结果进行加权平均。

例如，其中，所述内窥镜图像分类模型还包括与所述专家子网络具有相同结构的学生网络，其中，所述多个专家子网络构成教师网络，基于知识蒸馏利用所述教师网络来训练所述学生网络，所述方法进一步包括利用所述学生网络来生成针对所述图像样本的相应的学生网络输出结果。

例如，其中，基于至少所述多个专家子网络输出结果和所述最终输出结果，通过目标损失函数来计算损失值包括：基于所述多个专家子网络输出结果、所述最终输出结果以及所述学生网络输出结果，通过目标损失函数来计算损失值。

例如，其中，所述目标损失函数是所述教师网络的损失函数和所述学生网络的损失函数的加权和。

例如，其中，所述教师网络的损失函数的权重值和所述学生网络的损失函数的权重值之和为1，并且其中所述教师网络的损失函数的权重值随着训练的迭代而不断减小，直到最终减小为0，所述学生网络的损失函数的权重值随着训练的迭代而不断增加，直到最终增加为1。

例如，其中，所述教师网络的损失函数包括：基于所述内窥镜图像分类模型的最终输出结果与图像样本的标注标签而确定的交叉熵损失函数，以及基于所述多个专家子网络输出结果而确定的KL散度；所述学生网络的损失函数包括：基于所述学生网络的学生网络输出结果与所述内窥镜图像分类模型的最终输出结果而确定的交叉熵损失函数，以及基于所述学生网络的学生网络输出结果与所述多个专家子网络所生成的多个专家子网络输出结果所确定的KL散度。

例如，其中，所述共享子网络包括Vision Transformer，所述多个专家子网络中的每一个包括多层依次连接的Transformer编码器，以及一个分类器。

根据本公开的另一个实施例，提供了一种内窥镜图像分类方法，包括：获取待识别的内窥镜图像；基于训练好的内窥镜图像分类模型，获得所述内窥镜图像的分类结果；其中，所述训练好的内窥镜图像分类模型是基于根据如上所述的内窥镜图像分类模型的训练方法所获得的。

根据本公开的另一个实施例，提供了一种内窥镜图像分类方法，包括：获取待识别的内窥镜图像；基于训练好的内窥镜图像分类模型中的学生网络，获得所述内窥镜图像的分类结果；其中，所述训练好的内窥镜图像分类模型基于如上所述的内窥镜图像分类模型的训练方法所获得的。

根据本公开的另一个实施例，提供了一种内窥镜图像分类系统，包括：图像获取部件，用于获取待识别的内窥镜图像；处理部件，用于基于训练好的内窥镜图像分类模型获得所述内窥镜图像的分类结果；输出部件，用于输出待识别图像的分类结果，其中，所述训练好的内窥镜图像分类模型是基于根据如上所述的内窥镜图像分类模型的训练方法所获得的。

根据本公开的另一个实施例，提供了一种内窥镜图像分类系统，包括：图像获取部件，用于获取待识别的内窥镜图像；处理部件，用于基于训练好的内窥镜图像分类模型中的学生网络获得所述内窥镜图像的分类结果；输出部件，用于输出待识别图像的分类结果，其中，所述训练好的内窥镜图像分类模型基于根据如上所述的内窥镜图像分类模型的训练方法所获得的。

根据本公开的另一个实施例，提供了一种基于多专家决策的内窥镜图像分类模型的训练装置，其中所述内窥镜图像分类模型包括多个专家子网络，所述装置包括：训练数据集获取部件，用于获取训练数据集，所述训练数据集包括多个内窥镜影像图像以及所述多个内窥镜影像图像的标注标签，其中所述训练数据集呈现长尾分布；以及训练部件，用于基于所述训练数据集对所述内窥镜图像分类模型进行训练，直到所述内窥镜图像分类模型的目标损失函数收敛，以获得训练完成的内窥镜图像分类模型，其中，所述目标损失函数是至少基于所述多个专家子网络的相应多个输出结果来确定的。

本公开的实施例还提供了一种电子设备，包括存储器和处理器，其中，所述存储器上存储有处理器可读的程序代码，当处理器执行所述程序代码时，执行如上所述的方法。

本公开的实施例还提供了一种计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令用于执行如上所述的方法。

根据本公开的实施例的内窥镜图像分类模型的训练方法结合实际情况提出了一种基于多专家共同决策的方式来学习不均衡的数据分布，不需要预先了解数据分布，且可以同时提高模型对头部和尾部数据的预测准确性，而不造成偏倚，此外通过知识蒸馏的方式来对模型进行压缩，使模型更简洁。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对本公开实施例的附图作简单地介绍。明显地，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1示出了本公开实施例中内窥镜图像分类模型训练及内窥镜图像分类方法的应用架构示意图；

图2示出了Vision Transformer（ViT）的一个示例性框图；

图3示出了图2中的ViT将原始图片展平成序列的示意图；

图4示出了根据本公开实施例的息肉影像图像；

图5A示出了根据本公开一个实施例的内窥镜图像分类模型500A的示意性结构；

图5B示出了根据本公开另一个实施例的内窥镜图像分类模型500B的示意性结构；

图5C示出了根据本公开又一个实施例的以Transformer作为特征提取器的内窥镜图像分类模型500C的示意结构；

图6A示出了用于训练根据本公开一个实施例的内窥镜图像分类模型的方法的流程图；

图6B示出了图6A中的步骤S603的更具体的示例性说明；

图7A示出了根据本公开一个实施例的融合了知识蒸馏的内窥镜图像分类模型700A的示意性图；

图7B示出了根据本公开另一个实施例的融合了知识蒸馏的内窥镜图像分类模型700B的示意性图；

图7C示出了根据本公开又一个实施例的融合了知识蒸馏的内窥镜图像分类模型700C的示意性图；

图8示出了用于训练根据本公开一个实施例的融合了知识蒸馏的内窥镜图像分类模型的方法的流程图；

图9描述了根据本公开实施例的内窥镜图像分类方法的流程图；

图10本公开实施例中一种内窥镜图像分类系统的结构示意图；

图11示出了根据本公开实施例的内窥镜图像分类模型的训练装置；以及

图12示出了根据本公开的实施例的存储介质的示意图。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述，显而易见地，所描述的实施例仅仅是本申请的部分实施例，而不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，也属于本申请保护的范围。

本说明书中使用的术语是考虑到关于本公开的功能而在本领域中当前广泛使用的那些通用术语，但是这些术语可以根据本领域普通技术人员的意图、先例或本领域新技术而变化。此外，特定术语可以由申请人选择，并且在这种情况下，其详细含义将在本公开的详细描述中描述。因此，说明书中使用的术语不应理解为简单的名称，而是基于术语的含义和本公开的总体描述。

虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用，然而，任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的，并且所述系统和方法的不同方面可以使用不同模块。

本申请中使用了流程图来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，根据需要，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

关于消化道疾病的诊断，通常基于内窥镜等诊断工具获取消化道内部的病灶影像，相关医疗人员通过人眼观察判断病变类别。为了减轻医生的负担，有一些工作尝试研究使用深度学习的方式自动识别病变类别，然而这些病变类型通常具有长尾分布特征。例如，在检出的息肉中，腺瘤占大多数，大约占10.86%到80%，一般认为结直肠癌起源于腺瘤性息肉，其癌变率为1.4%～9.2%。而其他息肉类型如增生型息肉、炎症性息肉（占比2.32%到13.8%）等分别只占很少的比例，呈现一种长尾分布。在现有的对息肉进行分类的方法中，通常没有考虑息肉类型分布的特性，而直接使用卷积神经网络进行训练，或调是将数据集的分布进行调整之后再训练，而这显然不符合现实中息肉数据的特性。不考虑数据的不均衡性直接进行训练容易使模型无法很好的对尾部数据进行识别，而将数据集重新调整之后再训练易形成对尾部数据的过拟合而对头部数据的准确性造成一定的损失。

因此，本公开针对息肉影像数据的长尾分布特性，提出了一种适应于长尾数据分布并且可以同时提升头尾部准确性的多专家联合算法，同时通过一种端到端（end-to-end）的知识蒸馏方法将其集成为一个更简洁的模型。

图1示出了本公开实施例的内窥镜图像分类模型训练方法及内窥镜图像分类方法的应用架构示意图，包括服务器100、终端设备200。

终端设备200可以是医疗设备，例如，用户可以基于终端设备200查看内窥镜图像分类结果。

终端设备200与服务器100之间可以通过互联网相连，实现相互之间的通信。可选地，上述的互联网使用标准通信技术和/或协议。互联网通常为因特网、但也可以是任何网络，包括但不限于局域网（Local Area Network，LAN）、城域网（MetropolitanAreaNetwork，MAN）、广域网（Wide Area Network，WAN）、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言（Hyper TextMarkupLanguage，HTML）、可扩展标记语言（Extensible Markup Language，XML）等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层（SecureSocketLayer，SSL）、传输层安全（Transport Layer Security，TLS）、虚拟专用网络（VirtualPrivate Network，VPN）、网际协议安全（Internet Protocol Security，IPsec）等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

服务器100可以为终端设备200提供各种网络服务，其中，服务器100可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。

具体地，服务器100可以包括处理器110（Center Processing Unit，CPU）、存储器120、输入设备130和输出设备140等，输入设备130可以包括键盘、鼠标、触摸屏等，输出设备140可以包括显示设备，如液晶显示器（Liquid Crystal Display，LCD）、阴极射线管（Cathode Ray Tube，CRT）等。

存储器120可以包括只读存储器（ROM）和随机存取存储器（RAM），并向处理器110提供存储器120中存储的程序指令和数据。在本公开实施例中，存储器120可以用于存储本公开实施例中内窥镜图像分类模型训练方法或基于训练好的内窥镜图像分类模型进行内窥镜影像分类方法的程序。

处理器110通过调用存储器120存储的程序指令，处理器110用于按照获得的程序指令执行本公开实施例中任一种内窥镜图像分类模型训练方法或基于训练好的内窥镜图像分类模型进行内窥镜影像分类方法的步骤。

例如，本公开实施例中，内窥镜图像分类模型训练方法或基于训练好的内窥镜图像分类模型进行内窥镜影像分类方法主要由服务器100侧执行，例如，针对内窥镜图像分类方法，终端设备200可以将采集到的消化道病灶（例如，息肉）的影像图像发送给服务器100，由服务器100对病灶影像进行类型识别，并可以将病灶分类结果返回给终端设备200。

如图1所示的应用架构，是以应用于服务器100侧为例进行说明的，当然，本公开实施例中内窥镜图像分类方法也可以由终端设备200执行，例如终端设备200可以从服务器100侧获得训练好的融合了知识蒸馏的内窥镜图像分类模型，从而基于该融合了知识蒸馏的内窥镜图像分类模型中的学生网络，对病灶影像进行类型识别，获得病灶分类结果，对此本公开实施例中并不进行限制。

另外，本公开实施例中的应用架构图是为了更加清楚地说明本公开实施例中的技术方案，并不构成对本公开实施例提供的技术方案的限制，当然，对于其它的应用架构和业务应用，本公开实施例提供的技术方案对于类似的问题，同样适用。

本公开各个实施例以应用于图1所示的应用架构图为例进行示意性说明。

首先，为了使本领域技术人员能更清楚地理解本公开的原理，下面对本公开所涉及的一些技术术语进行简要的描述。

知识蒸馏：知识蒸馏通常采用一种老师-学生（teacher-student）架构，利用大模型（老师）学习到的知识去指导小模型（学生）训练，使得小模型具有与大模型相当的性能，但是参数数量大幅降低，从而实现模型压缩与加速。

KL散度：KL散度全称叫kullback leibler 散度，一般用于度量两个概率分布函数之间的“距离”，对于一个离散型随机变量的两个概率分布P和Q来说，他们的KL散度定义为：

最小化KL散度，可以使分布P和Q变得接近，同理，最小化负的KL散度，可以使P和Q的分布距离最大化。KL散度是机器学习领域中常用的一种损失函数。

Transformer：Transformer在谷歌公司的一篇论文《Attention is All YouNeed》中被提出，用于解决自然语言翻译问题。其基于注意力机制来提高模型训练速度。典型的Transformer包括多头注意力（Multi-head Attention）模块和多层感知机（MLP，Multilayer Perceptron）模块。多头注意力模块可以帮助编码器在编码某个特定单词时，也会查看其他单词。每个模块之前具有一个层归一化（Layer Normalization）模块，并使用残差连接来联通每个模块，层归一化模块用于对Transformer学习过程中由于多词条嵌入（embedding）累加可能带来的“尺度”问题施加约束，相当于对表达每个词一词多义的空间施加了约束，有效降低模型方差。

Vision Transformer（ViT）：Vision Transformer是一种将Transformer从自然语言处理转移到图像处理的一个技术。

图2示出了ViT的一个示例性框图。类似于在将Transformer应用于文本时使用的一系列单词嵌入，ViT对原始图片分为方块网格，通过连接一个方块中所有像素通道，然后利用线性映射器将其线性投影到所需的输入维度，将每个方块展平为单个向量。ViT与输入元素的结构无关，因此还进一步需要利用位置编码器在每个方块向量中添加可学习的位置嵌入，使模型能够了解图像结构。最后将展平的序列输入进原始Transformer模型的编码器部分（例如图2所示的m层（m×）的Transformer编码器块）用以进行特征提取，最后接入一个全连接层对图片进行分类或分割等任务。

图3示出了图2中的ViT将原始图片展平成序列的示意图。

如图3所示，输入ViT的图像是一张H×W×C的息肉白光影像图像，其中H和W分别为长和宽方向上的像素数量，C为通道数量。先对图片分为方块，再进行展平。假设每个方块的长宽为(P×P)，那么方块的数目为N=H×W/(P×P)，然后对每个图片方块展平成一维向量，每个向量大小为P×P×C，N个方块总的输入向量变换为N×(P×P×C)。接着利用线性映射器对每个向量都做一个线性变换（即全连接层）来进行矩阵变维（reshape），将维度压缩为D，这里称其为图块嵌入（Patch Embedding），就得到了一个N×D的嵌入序列（embeddingvector），N是最终得到的嵌入序列的长度，D是嵌入序列的每个向量的维度。由此，H×W×C的三维图形就转换为了（N×D）的二维输入。随后，用一个位置编码器在序列中加入位置信息。接下来便可以将加入了位置信息以后的序列输入到Transformer编码器中进行特征提取。应当理解，Transformer和Vision Transformer的结构及其进行提取特征的技术在本领域是公知的，在此不做过多赘述。

根据本公开的一个实施例可以利用Vision Transformer来作为主干网络（backbone）来提取特征，以更准确的获取图像中的关键信息。在神经网络中，尤其是计算机视觉（Computer Vision，CV）领域，一般先对图像进行特征提取，这一部分是整个CV任务的根基，因为后续的下游任务都是基于提取出来的图像特征进行（比如分类，生成等等），所以将这一部分网络结构称为主干网络。

当然，应当注意的是，本公开实施例还可以利用其它的网络架构来作为主干网络，例如VggNet和ResNet架构等，本公开在此不做限制。

图4示出了根据本公开实施例的息肉影像图像。

内窥镜经人体的天然孔道，或者是经手术做的小切口进入人体内，获取关于病灶的影像，这些影像后续被用于疾病的诊断和治疗。如图4示出了利用内窥镜所拍摄到的息肉影像，左边的图像是在白光（white light，WL）成像模式下操作的内窥镜所获取的息肉的观测结果，右边是在窄带光成像（Narrow Band Imaging，NBI）模式下操作的内窥镜所获取的同一息肉的另一观测结果。

白光的宽带光谱由R/G/B（红/绿/蓝）3种光组成的，其波长分别为605nm、540nm、415nm。在白光成像模式下呈现高亮度、锐利的白光内镜图像，有利于观察黏膜深层的构造。窄带光模式采用窄带滤光器代替传统的宽带滤光器，对不同波长的光进行限定，仅留下540nm和415nm波长的绿、蓝色窄带光波。在窄带光模式下生成的图像血管相对于粘膜的对比度显著增强，适合观察黏膜表层的血管形态和黏膜构造。

为了减轻医生的负担，现有的一些工作尝试研究使用深度学习的方式自动识别内窥镜获取的影像中的病灶的病变类别。然而现有的内窥镜影像分类的自动识别工作基本基于普通的卷积神经网络。它们通常使用一个现成的卷积神经网络，如ResNet，VGG，Inceptionv3等。但是它们都仅使用传统的训练方式，并没有考虑到某些内窥镜影像类型分布的不均衡性，例如，在检出的息肉中，腺瘤通常占大多数，而其他息肉类型如增生型息肉、炎症性息肉等分别只占很少的比例，呈现一种长尾分布。

因此，本公开针对息肉影像数据的长尾分布特性，提出了一种适应于长尾数据分布并且可以同时提升头尾部准确性的多专家联合算法。

以下，以息肉影像分类问题为例，对本公开实施例的技术方案进行示意性说明。应当注意，本公开实施例提供的技术方案同样适用于分布不均衡的一些其他内窥镜影像。

例如，根据本公开的一个实施例，采用息肉的白光影像来构建呈现长尾分布的数据集。通过利用本申请提出的内窥镜图像分类模型的训练方法，可以使得训练好的内窥镜图像分类模型能够更好地识别出呈现长尾分布的息肉影像。

应当理解，如果要针对其他分布不均衡的消化道病灶内窥镜影像进行分类识别，这里也可以采用任何其他分布不均衡的消化道病灶的内窥镜影像来构建数据集并对根据本公开实施例的内窥镜图像分类模型进行训练。这些内窥镜影像可以是内窥镜采取任意合适的模式所获取的影像，例如窄带光影像、自发荧光影像、I-SCAN影像等。例如，还可以将以上各种模态影像混合起来构建数据集，本公开对此不作限制。

本公开实施例针对息肉影像长尾分布的问题，提出多专家决策的内窥镜图像分类模型，一方面通过融合多个专家的决策结果来提高预测的整体准确性，另一方面通过最大化多个专家的预测结果之间的分布距离来使得不同的专家可以关注不同的数据分布，从而提高对分布不均衡的数据集的学习能力。

图5A示出了根据本公开一个实施例的内窥镜图像分类模型500A的示意性结构。

如图5A所示，根据本公开一个实施例的内窥镜图像分类模型500A包括n个专家子网络，其中n是例如大于2的整数。每个专家子网络都包括一个特征提取器和一个分类器。

根据本公开实施例，这里的每个专家子网络可以具有相同的网络结构，每个专家子网络的结构可以是任何可以用于执行分类任务的深度学习网络结构，这类网络结构通常包括一个用于提取特征表示的特征提取器和一个用于进行分类的分类器。

例如，这里的特征提取器可以是如图2所示的Vision Transformer。例如，在利用图2的Vision Transformer作为特征提取器时，首先基于线性映射模块和位置编码器将输入的图像展平为N个一维的向量，再经过m层的transformer编码器块进行特征提取。

例如，这里的分类器可以是一个多头归一化分类器（multi-head normalizedclassifier），基于从Vision Transformer接收的图像样本的特征表示，该分类器可以输出所图像样本的预测的分类概率值。

应当理解，本公开实施例的多专家子网络中的特征提取器和分类器可以是任何可以进行类似功能的其他结构。例如，这里的特征提取器还可以是深度残差网络（Deepresidual network，ResNet），例如，这里的分类器还可以是ResNet网络的卷积层部分，本公开在此不做限制。

例如，这里将可以该内窥镜图像分类模型的最终优化目标确定为如下两个，一个是该内窥镜图像分类模型的最终输出的分类预测值与真实的标签之间的损失最小化，使得能够提高该内窥镜图像分类模型的预测准确率。另一个是多个专家输出的分类预测值之间的分布距离最大化，使得多个专家可以关注于数据集的不同数据分布。

例如，根据本公开的实施例，这里可以基于交叉熵损失函数来计算内窥镜图像分类模型的最终输出的分类预测值与真实的标签之间的损失。例如，根据本公开的实施例，可以通过最大化不同专家输出的分类预测值之间的KL散度来最大化不同专家之间的差异。

如此，本公开实施例基于交叉熵损失函数和KL散度来构造训练内窥镜图像分类模型的目标损失函数，在训练过程中不断优化目标损失函数，使其最小化并收敛，即可确定内窥镜图像分类模型训练完成。

此外，由于上述内窥镜图像分类模型500A中的每个专家子网络都需要从原始图片开始，先基于网络的较浅的层次来提取浅层特征表示，再基于更深层次的网络结构来提取具有特异性的更深层次的特征表示。事实上，由于浅层特征表示对分类决策的影响不大，为了进一步简化模型复杂度，这些专家子网络可以共享同一个浅层特征提取器所提取的浅层特征表示，再基于深层特征提取器来进一步地学习特异性的深层特征，以进行分类任务。

因此，本公开提出了内窥镜图像分类模型500A的一个变型，如图5B所示。在图5B的内窥镜图像分类模型500B中，多个专家子网络共享一个浅层特征提取器，同时每个专家子网络具有各自的深层次的特征提取器，以及最后的一个分类器，通过共享一些共同的浅层的特征提取器，内窥镜图像分类模型500B具有比内窥镜图像分类模型500A更简洁的结构。

例如，这里的浅层特征提取器可以是图5A的内窥镜图像分类模型500A的多个专家子网络的特征提取器中的一些共同的浅层结构。

例如，当内窥镜图像分类模型500A的每个专家子网络中的特征提取器是如图2所示的Vision Transformer的情况下，这里的浅层特征提取器可以是该Vsion Tranformer的线性映射器层、位置编码器层和一个Transformer编码器块。这些专家子网络可以共享这个共同的浅层特征提取器来获取共同的浅层特征，并基于剩下的（m-1）层的Transformer编码器块作为深层特征提取器，以提取具有特异性的深层特征，如图5C中的内窥镜分类模型500C所示。可替代地，这里的共享子网络和深层特征提取器也可以是其他用于提取图像特征的任何合适的特征提取器。

图6A示出了用于训练根据本公开一个实施例的内窥镜图像分类模型的方法600的流程图。例如，这里该内窥镜图像分类模型是如上参考图5A所示的内窥镜图像分类模型500A。例如，该内窥镜图像分类模型500A的训练方法600可以由服务器来执行，该服务器可以是图1中所示的服务器100。

首先，在步骤S601中，获取训练数据集，所述训练数据集包括多个内窥镜影像图像以及所述多个内窥镜影像图像的标注标签，其中所述训练数据集呈现长尾分布。

这里的训练数据集可以是模仿真实情况中息肉类型呈现长尾分布的情况所准备的。例如，在本公开的实施例的一个具体实现方式中，这里的训练数据集可以包括2131张息肉的白光影像图像，这些图像有四种标注标签，分别为腺瘤、增生、炎症和癌症，其中标注腺瘤标签的影像占大多数（例如为65%），而其他息肉标签类型如增生型息肉、炎症性息肉和癌症等的影像分别只占很少的比例（例如分别只有13%、12%和10%），使得整个训练数据集呈现一种长尾分布。

应当理解，用于训练根据本公开实施例的内窥镜图像分类模型的训练方法的训练数据集的数量和标签比例可以根据实际情况进行调整，本公开对此不做限制。

例如，这里的训练数据集可以是通过操作内窥镜获得的，也可以是通过网络下载的方式获取的，也可以通过其他途径获取的，本公开的实施例对此不作限制。

应当理解，本公开实施例还可以同样适用于除息肉以外的其他消化道病灶的影像分类，例如炎症、溃疡、血管畸形以及憩室等，本公开对此不作限制。

在步骤S603中，基于所述训练数据集对所述内窥镜图像分类模型进行训练，直到所述内窥镜图像分类模型的目标损失函数收敛，以获得训练完成的内窥镜图像分类模型。

如上所述，这里的目标一方面是通过融合多个专家的决策结果来提高预测的整体准确性，另一方面是通过最大化多个专家的预测结果之间的分布距离来使得不同的专家可以关注不同的数据分布，从而提高对分布不均衡的数据集的学习能力。因此，这里可以基于多专家决策内窥镜图像分类模型500A的最终输出的分类预测值与真实的标签之间的交叉熵损失最小化以及不同专家子网络输出的分类预测值之间的KL散度最大化来作为这里训练根据本申请实施例的内窥镜图像分类模型的训练目标。

下面参考图6B，来对步骤S603中的基于所述训练数据集对所述内窥镜图像分类模型进行训练步骤进行更具体的示例性说明。

如图6B所示，步骤S603中的基于所述训练数据集对所述内窥镜图像分类模型进行训练可以包括以下子步骤S603_1-S603_4。

具体地，在步骤S603_1中，将所述训练数据集中的图像样本输入到所述多个专家子网络中的每一个中。

作为一个替代实施例，在基于图5B所示的内窥镜图像分类模型500B来进行分类训练的情况下，可以首先经过一个共享子网络提取该图像像本的浅层特征，随后将该图像样本的这些浅层特征（而不是直接将原始图像样本）输入到如图内窥镜图像分类模型500B的多个专家子网络中的每一个中。如上所述，通过共享一些共同的浅层的特征提取器，内窥镜图像分类模型500B具有比内窥镜图像分类模型500A更简洁的结构。

接着，在步骤S603_2中，利用所述多个专家子网络，生成针对所述图像样本的相应的多个专家子网络输出结果。

例如，设输入图像为x，对于每个专家子网络，首先基于其特征提取器来提取图像样本的特征表示

(x)（例如，这里的特征提取器是如上所述的Vision Transformer，以函数

(x)代表，其中

表示第i个专家子网络的参数），则提取的特征表示为：

(x)=

(x)。

作为一个替代实施例，在基于图5B所示的内窥镜图像分类模型500B来进行分类训练的情况下，提取的特征还可以表示为：

(x)=

，其中

表示共享子网络，

表示深层特征提取器。

然后，基于特征表示

(x)，利用分类器对该图像样本进行分类，例如，这里的分类器可以是一个多头归一化分类器，基于该多头归一化分类器，第i个专家子网络的logits计算如下：

（1）

其中，

和

为参数，K为多头（multi-head）的数量，

为第i个专家子网络中分类器的权重参数，

为第i个专家子网络针对输入的图像样本进行分类计算得出的 logits，如本领域技术人员已知的，将该logits通过softmax归一化后，便可得到所预测的分类的概率值，如下方等式（2）所示。

（2）

在步骤S603_3中，基于所述多个专家子网络输出结果，生成所述内窥镜图像分类模型的最终输出结果。例如，可以将多个专家子网络的输出结果进行融合来得到内窥镜图像分类模型的最终结果。例如，这里的融合可以是线性平均，如下方等式（3）所示。

（3）

其中，n为内窥镜图像分类模型中专家子网络的数量，

即为内窥镜图像分类模型的最终预测结果。

在步骤S603_4中，通过目标损失函数来计算损失值，并基于所述损失值调整所述内窥镜图像分类模型的参数。

如上所述，这里的模型优化的目标有两个，一个目标是多专家融合的最终结果更接近真实标签，另一个目标是使得多个专家的输出结果之间的分布距离最大化，以使得多个专家能够关注于数据不同的分布。

因此，目标函数可以包括两部分，第一部分是基于融合后的分类预测概率与图像样本的真实标签之间的交叉熵损失函数，例如，如下等式（4）所示，

（4）

其中，

表示交叉熵损失函数，

为对多个专家子网络的预测结果进行融合后得到的内窥镜图像分类模型的最终预测结果，

为图像样本的真实标签。

目标函数中的第二部分是多个专家子网络的输出的分类预测概率之间的负的KL散度。如本领域技术人员所理解的，KL散度越小，表示不同分布之间距离最接近。由于当以损失函数来进行优化时，最终的优化目标是使得损失函数最小化。因此这里通过最小化负的KL散度来增大各个专家子网络输出的分布之间的差异，例如，如下等式（5），

（5）

如上等式（5）表示对第i个专家子网络的输出与其余（n-1）个专家子网络的KL散度求平均。

其中，

，

。

定义所有专家子网络的散度损失函数如等式（6）所示：

（6）

其中，n表示多个专家子网络的数量，

表示第i个专家子网络的参数，c为标签类别数。

因此，可以定义根据本公开一个实施例的内窥镜图像分类模型的训练方法的总的损失函数，如下等式（7）所示。

（7）

基于上述总的损失函数可以对本公开实施例的内窥镜图像分类模型进行参数调整，以使得随着迭代训练的继续，总损失函数最小化，以得到训练完成的内窥镜图像分类模型。

本公开实施例基于多专家共同决策的方式，以多专家融合的最终结果最接近真实标签、并且多个专家的输出结果之间的分布距离最大化作为训练的目标，使得训练好的内窥镜图像分类模型能够适应于数据分布并且可以同时提升头尾部预测的准确性。

此外，由于专家子网络的数量较多、模型较为复杂，本公开进一步基于知识蒸馏的方式来将多个专家子网络构成的内窥镜图像分类模型结构进行压缩，使其集成为更简洁的学生网络。

图7A示出了根据本公开另一个实施例的融合了知识蒸馏的内窥镜图像分类模型700A的示意性图。

如图7A所示，根据本公开实施例的融合了知识蒸馏的内窥镜图像分类模型700A包括两个子网络，分别是教师网络703A和学生网络705A。

例如，这里的教师网络703A可以是图5A所描述的内窥镜图像分类模型500A中的多个专家子网络。这里的学生网络705A可以具有与每个专家子网络相同的结构。

本公开实施例设计了一个与多专家子网络相同结构的学生网络705A，基于知识蒸馏的原理，利用多个专家子网络作为教师网络来训练该学生网络，使得最终得到一个训练好的学生网络，其相对于原来的多专家的网络结构更为简洁、参数量更少，且同时能实现和多专家分类网络接近的准确率。

同样地，由于在图7A中的教师网络703A中的每个专家子网络以及学生网络都需要从原始图片开始，先基于网络的较浅的层次来提取浅层特征表示，再基于更深层次的网络结构来提取具有特异性的更深层次的特征表示。事实上，由于浅层特征表示对分类影响不大，为了进一步简化模型复杂度，在根据本公开实施例的融合了知识蒸馏的内窥镜图像分类模型700A的一个变型中，教师网络和学生网络可以共享同一个浅层特征提取器，再基于深层特征提取器来进行进一步地学习特异性的深层特征，以进行分类任务。如图7B所示，图7B示出了根据本公开另一个实施例的融合了知识蒸馏的内窥镜图像分类模型700B的示意性图。

如图7B所示，融合了知识蒸馏的内窥镜图像分类模型700B除了包括一个教师网络703B和一个学生网络705B以外，还包括一个共享子网络701B。

参考图5B所述，这里的教师网络703B可以是图5B所描述的构成内窥镜图像分类模型500B的多个专家子网络。教师网络703B和学生网络705B都连接到一个共享子网络701B，并基于该共享子网络701B提取的浅层特征表示进行进一步深度特征提取以执行分类任务。

可替代地，这里的共享子网络701B中的浅层特征提取器和多个专家子网络中的深层特征提取器也可以是其他用于提取图像特征的任何合适的特征提取器。

图7C示出了以Transformer作为特征提取器的一个示例性的融合了知识蒸馏的内窥镜图像分类模型700C。例如，这里的共享子网络701C可以是一个Vision Transformer，其包括一个线性映射器层、一个位置编码器层和一个传统的Transformer编码器块。教师网络703C中的这些专家子网络和学生网络705C可以共享这个共同的浅层特征提取器（即，共享子网络701C）来获取共同的浅层特征，并基于多层（例如，图7C中示出为3层，也可以是其他层数，本公开在此不做限制）的传统Transformer编码器块作为深层特征提取器，提取具有特异性的深层特征，以便用于进行分类识别，如图7C所示。

图8示出了用于训练根据本公开一个实施例的融合了知识蒸馏的内窥镜图像分类模型的方法800的流程图。

首先，在步骤S801中，将所述训练数据集中的图像样本输入到所述教师网络的多个专家子网络中的每一个中以及学生网络中。

例如，这里的融合了知识蒸馏的内窥镜图像分类模型可以是图7A所示的模型700A。

作为一个替代实施例，在基于图7B所示的融合了知识蒸馏的内窥镜图像分类模型700B来进行分类训练的情况下，可以首先经过一个共享子网络提取该图像像本的浅层特征，随后将该图像样本的这些浅层特征（而不是直接将原始图像样本）输入到所述多个专家子网络中的每一个中以及学生网络中，这些专家子网络中和学生网络进一步利用深层特征提取器来提取更具有特异性的深层特征。

接着，在步骤S803中，利用所述多个专家子网络，生成针对所述图像样本的相应的多个专家子网络输出结果，以及利用所述学生网络生成针对所述图像样本的相应的学生网络输出结果。这里的网络输出结果的生成过程和图6B的步骤S603_2相似，在此将省略其重复描述。

在步骤S805中，基于所述多个专家子网络输出结果，生成所述教师网络的最终输出结果。这里生成所述教师网络的最终输出结果的过程和图6B的步骤S603_3相似，在此将省略其重复描述。

在步骤S807中，通过目标损失函数来计算损失值，并基于所述损失值调整所述融合了知识蒸馏的内窥镜图像分类模型的参数。

如上所述，内窥镜图像分类模型500A、500B或500C的优化的目标有两个，一个目标是1）多专家融合的最终结果更接近真实标签，另一个目标是2）使得多个专家的输出结果之间的分布距离最大化，以使得多个专家能够关注于数据不同的分布。这里的融合了知识蒸馏的内窥镜图像分类模型的训练方法800将模型500A、500B或500C作为教师网络，基于知识蒸馏的方式来训练出在结构和参数上都较为精简的学生网络。因此，这里的融合了知识蒸馏的内窥镜图像分类模型的训练方法800的目标除了上面那两个目标1）和2）以外，还期望达到如下进一步的两个目标：3）使得学生网络的输出结果更加接近教师网络的输出结果，以及4）使得学生网络的输出分布更接近于教师网络中各个专家子网络的输出结果的分布。

本公开实施例基于上面的目标1）和2），构造出了教师网络的损失函数（8）：

（8）

这里的

就是前面参考图6B所描述的基于多个专家子网络的输出结果融合后的教师网络的最终输出结果（例如分类预测概率）与图像样本的真实标签之间的交叉熵损失函数，

就是前面参考图6B所描述的多个专家子网络输出结果的散度损失函数。

本公开实施例基于上面的目标3）和4），构造出了学生网络的损失函数，如下等式（9）所示：

（9）

其中，

是教师网络的最终输出的分类预测概率，

是学生网络输出的分类预测概率。

表示学生网络输出的分类预测概率与教师网络输出的最终的分类预测概率之间的交叉熵损失函数。

是教师网络中每个专家子网络输出的 logits，n是教师网络中专家子网络的数量，

是学生网络输出的logits，本领域技术人员应当了解，将该logits通过softmax归一化后，便可得到所预测的分类的概率分布。

是学生网络输出的分布与教师网络中多个专家子网络的多个输出之间的KL散度。

因此，可以定义根据本公开一个实施例的融合了知识蒸馏的内窥镜图像分类模型的训练方法的总的损失函数，如下等式（10）所示。

（10）

其中，

为权重参数，在开始的阶段，将其设置为1，并随着训练过程进行逐渐减小，最终降为0。

基于上述总的损失函数可以对本公开实施例的融合了知识蒸馏的内窥镜图像分类模型进行参数调整，以使得随着迭代训练的继续，总损失函数最小化，从而得到训练完成的融合了知识蒸馏的内窥镜图像分类模型。该训练完成的融合了知识蒸馏的内窥镜图像分类模型中，学生网络参数量较小、模型结构相对简单，并且能够达到接近复杂的教师网络的预测准确度，因此便可直接仅基于训练后的学生网络来进行后续的分类应用。

基于通过如上方式训练好的学生网络，本公开实施例还提供了一种内窥镜图像分类方法。参考图9来描述本公开实施例中内窥镜图像分类方法的流程图，该方法包括：

在步骤S901中，获取待识别的内窥镜图像。

例如，如果训练的图像分类模型是针对息肉类型识别训练的，获取的待识别的内窥镜图像即是采集到的息肉影像。

在步骤S903中，将所述待识别的内窥镜图像输入到训练好的内窥镜图像分类模型中，以获得所述内窥镜图像的分类结果。

例如，这里的内窥镜图像分类模型可以是针对上述方法训练完成的内窥镜图像分类模型500A、500B或500C。

例如，可替代地，若训练好的内窥镜图像分类模型是图5B所示的模型，则可以先将该待识别的内窥镜图像输入到训练好的融合了知识蒸馏的内窥镜图像分类模型中的共享子网络以提取浅层特征，再将该浅层特征输入到该训练好的内窥镜图像分类模型中。

例如，可替代地，训练完成的是融合了知识蒸馏的内窥镜图像分类模型，例如上述融合了知识蒸馏的内窥镜图像分类模型700A、700B或700C。由于学生网络参数量较小、模型结构相对简单，并且能够达到接近复杂的教师网络的预测准确度，因此可以直接将待识别的内窥镜图像输入到训练好的融合了知识蒸馏的内窥镜图像分类模型中的学生网络中。

基于上述实施例，参阅图10所示，为本公开实施例中一种内窥镜图像分类系统1000的结构示意图。该内窥镜图像分类系统1000至少包括图像获取部件1001、处理部件1002和输出部件1003。本公开实施例中，图像获取部件1001、处理部件1002和输出部件1003为相关的医疗器械，可以集成在同一医疗器械中，也可以分为多个设备，相互连接通信，组成一个医疗系统来使用等，例如针对消化道疾病诊断，图像获取部件1001可以为内镜，处理部件1002和输出部件1003可以为与内镜相通信的计算机设备等。

具体地，图像获取部件1001用于获取待识别图像。处理部件1002例如用于执行图9所示的方法步骤，提取待识别图像的图像特征信息，并基于待识别的图像的特征信息获得待识别图像的病变分类结果。输出部件1003用于输出待识别图像的分类结果。

图11示出了根据本公开实施例的内窥镜图像分类模型的训练装置1100，具体包括训练数据集获取部件1101和训练部件1103。

训练数据集获取部件1101用于：获取训练数据集，所述训练数据集包括多个内窥镜影像图像以及所述多个内窥镜影像图像的标注标签，其中所述训练数据集呈现长尾分布；以及训练部件1103，用于基于所述训练数据集对所述内窥镜图像分类模型进行训练，直到所述内窥镜图像分类模型的目标损失函数收敛，以获得训练完成的内窥镜图像分类模型。

例如，其中，所述目标损失函数是至少基于所述多个专家子网络的相应多个输出结果来确定的。

例如，所述训练部件1103包括：输入子部件1103_1，用于将所述训练数据集中的图像样本输入到所述多个专家子网络中的每一个中；输出结果生成子部件1103_2，利用所述多个专家子网络，生成针对所述图像样本的相应的多个专家子网络输出结果；基于所述多个专家子网络输出结果，生成所述内窥镜图像分类模型的最终输出结果；以及损失函数计算子部件1103_3，基于至少所述多个专家子网络输出结果和所述最终输出结果，通过目标损失函数来计算损失值；以及参数调整子部件1103_4，基于所述损失值调整所述内窥镜图像分类模型的参数。

例如，所述内窥镜图像分类模型还包括共享子网络，其中，所述训练部件1103包括：输入子部件1103_1，将所述训练数据集中的图像样本输入到所述共享子网络中以提取浅层特征表示；输出结果生成子部件1103_2，基于所提取的浅层特征表示，利用所述多个专家子网络生成针对所述图像样本的相应的多个专家子网络输出结果；基于所述多个专家子网络输出结果，生成所述内窥镜图像分类模型的最终输出结果；以及损失函数计算子部件1103_3，基于至少所述多个专家子网络输出结果和所述最终输出结果，通过目标损失函数来计算损失值；以及参数调整子部件1103_4，基于所述损失值调整所述内窥镜图像分类模型的参数。

例如，其中，所述输出结果生成子部件1103_2将所述多个专家子网络输出结果进行融合，以作为所述内窥镜图像分类模型的最终输出结果。

例如，其中，所述输出结果生成子部件1103_2将所述多个专家子网络输出结果进行融合包括：对所述多个专家子网络输出结果进行加权平均。

例如，所述内窥镜图像分类模型还包括与所述专家子网络具有相同结构的学生网络，其中，所述多个专家子网络构成教师网络，基于知识蒸馏利用所述教师网络来训练所述学生网络，所述输出结果生成子部件1103_2进一步利用所述学生网络来生成针对所述图像样本的相应的学生网络输出结果。

例如，所述损失函数计算子部件1103_3基于所述多个专家子网络输出结果、所述最终输出结果以及所述学生网络输出结果，通过目标损失函数来计算损失值，并且参数调整子部件1103_4基于所述损失值调整所述内窥镜图像分类模型的参数。

例如，其中，所述教师网络的损失函数包括：基于所述内窥镜图像分类模型的最终输出结果与图像样本的标注标签而确定的交叉熵损失函数，以及基于所述多个专家子网络输出结果而确定的KL散度，所述学生网络的损失函数包括：基于所述学生网络的学生网络输出结果与所述内窥镜图像分类模型的最终输出结果而确定的交叉熵损失函数，以及基于所述学生网络的学生网络输出结果与所述多个专家子网络所生成的多个专家子网络输出结果所确定的KL散度。

基于上述实施例，本公开实施例中还提供了另一示例性实施方式的电子设备。在一些可能的实施方式中，本公开实施例中电子设备可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行程序时可以实现上述实施例中内窥镜图像分类模型训练方法或内窥镜图像识别方法的步骤。

例如，以电子设备为本公开图1中的服务器100为例进行说明，则该电子设备中的处理器即为服务器100中的处理器110，该电子设备中的存储器即为服务器100中的存储器120。

本公开的实施例还提供了一种计算机可读存储介质。图12示出了根据本公开的实施例的存储介质的示意图1200。如图12所示，所述计算机可读存储介质1200上存储有计算机可执行指令1201。当所述计算机可执行指令1201由处理器运行时，可以执行参照以上附图描述的根据本公开实施例的融合了知识蒸馏的内窥镜图像分类模型的训练方法和内窥镜图像分类方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。

本公开的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行根据本公开实施例的融合了知识蒸馏的内窥镜图像分类模型的训练方法和内窥镜图像分类方法。

本领域技术人员能够理解，本公开所披露的内容可以出现多种变型和改进。例如，以上所描述的各种设备或组件可以通过硬件实现，也可以通过软件、固件、或者三者中的一些或全部的组合实现。

此外，虽然本公开对根据本公开的实施例的系统中的某些单元做出了各种引用，然而，任何数量的不同单元可以被使用并运行在客户端和/或服务器上。所述单元仅是说明性的，并且所述系统和方法的不同方面可以使用不同单元。

本领域普通技术人员可以理解上述方法中的全部或部分的步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本公开并不限制于任何特定形式的硬件和软件的结合。

除非另有定义，这里使用的所有术语（包括技术和科学术语）具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

以上是对本公开的说明，而不应被认为是对其的限制。尽管描述了本公开的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本公开的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本公开范围内。应当理解，上面是对本公开的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本公开由权利要求书及其等效物限定。

Claims

1. 一种基于多专家决策的内窥镜图像分类模型的训练方法，其中所述内窥镜图像分类模型包括由多个专家子网络构成的教师网络和与所述专家子网络具有相同结构的学生网络，所述方法包括：

获取训练数据集，所述训练数据集包括多个内窥镜影像图像以及所述多个内窥镜影像图像的标注标签，其中所述训练数据集呈现长尾分布；以及

基于所述训练数据集对所述内窥镜图像分类模型进行训练，直到所述内窥镜图像分类模型的目标损失函数收敛，以获得训练完成的内窥镜图像分类模型，

其中，所述目标损失函数是至少基于所述多个专家子网络的相应多个输出结果来确定的，

其中，基于所述训练数据集对所述内窥镜图像分类模型进行训练包括：将所述训练数据集中的图像样本输入到所述多个专家子网络中的每一个中和所述学生网络中；利用所述多个专家子网络，生成针对所述图像样本的相应的多个专家子网络输出结果；基于所述多个专家子网络输出结果，生成所述内窥镜图像分类模型的最终输出结果；利用所述学生网络来生成针对所述图像样本的相应的学生网络输出结果；以及基于至少所述多个专家子网络输出结果、所述最终输出结果以及所述学生网络输出结果，通过目标损失函数来计算损失值，并基于所述损失值调整所述内窥镜图像分类模型的参数，

其中，所述目标损失函数是所述教师网络的损失函数和所述学生网络的损失函数的加权和；

所述教师网络的损失函数的权重值和所述学生网络的损失函数的权重值之和为1，并且其中所述教师网络的损失函数的权重值随着训练的迭代而不断减小，直到最终减小为0，所述学生网络的损失函数的权重值随着训练的迭代而不断增加，直到最终增加为1；

其中，所述教师网络的损失函数包括：基于所述内窥镜图像分类模型的最终输出结果与图像样本的标注标签而确定的交叉熵损失函数，以及基于所述多个专家子网络输出结果而确定的KL散度，其中，通过最小化交叉熵损失函数来使得模型最终的输出结果与真实标签更接近，以及通过最小化负的KL散度来使得各个专家子网络输出结果的分布之间的差异最大化，以及

所述学生网络的损失函数包括：基于所述学生网络的学生网络输出结果与所述内窥镜图像分类模型的最终输出结果而确定的交叉熵损失函数，以及基于所述学生网络的学生网络输出结果与所述多个专家子网络所生成的多个专家子网络输出结果所确定的KL散度。

2.根据权利要求1所述的方法，其中，所述内窥镜图像分类模型还包括共享子网络，其中，基于所述训练数据集对所述内窥镜图像分类模型进行训练包括：

将所述训练数据集中的图像样本输入到所述共享子网络中以提取浅层特征表示;

基于所提取的浅层特征表示，利用所述多个专家子网络生成针对所述图像样本的相应的多个专家子网络输出结果；

基于所述多个专家子网络输出结果，生成所述内窥镜图像分类模型的最终输出结果；以及

基于至少所述多个专家子网络输出结果和所述最终输出结果，通过目标损失函数来计算损失值，并基于所述损失值调整所述内窥镜图像分类模型的参数。

3.根据权利要求1或2中任一项所述的方法，其中，基于所述多个专家子网络输出结果，生成所述内窥镜图像分类模型的最终输出结果包括：

将所述多个专家子网络输出结果进行融合，以作为所述内窥镜图像分类模型的最终输出结果。

4.根据权利要求3所述的方法，其中，将所述多个专家子网络输出结果进行融合包括：

对所述多个专家子网络输出结果进行加权平均。

5. 根据权利要求2所述的方法，其中，所述共享子网络包括Vision Transformer，所述多个专家子网络中的每一个包括多层依次连接的Transformer编码器，以及一个分类器。

6.一种内窥镜图像分类方法，包括：

获取待识别的内窥镜图像；

基于训练好的内窥镜图像分类模型中的教师网络，获得所述内窥镜图像的分类结果；

其中，所述训练好的内窥镜图像分类模型是基于根据权利要求1-5中任一项所述的内窥镜图像分类模型的训练方法所获得的。

7.一种内窥镜图像分类方法，包括：

获取待识别的内窥镜图像；

基于训练好的内窥镜图像分类模型中的学生网络，获得所述内窥镜图像的分类结果；

其中，所述训练好的内窥镜图像分类模型基于根据权利要求1-5中任一项所述的内窥镜图像分类模型的训练方法所获得的。

8.一种内窥镜图像分类系统，包括：

图像获取部件，用于获取待识别的内窥镜图像；

处理部件，用于基于训练好的内窥镜图像分类模型中的教师网络获得所述内窥镜图像的分类结果；

输出部件，用于输出待识别图像的分类结果，

9.一种内窥镜图像分类系统，包括：

图像获取部件，用于获取待识别的内窥镜图像；

处理部件，用于基于训练好的内窥镜图像分类模型中的学生网络获得所述内窥镜图像的分类结果；

输出部件，用于输出待识别图像的分类结果，

10. 一种基于多专家决策的内窥镜图像分类模型的训练装置，其中所述内窥镜图像分类模型包括由多个专家子网络构成的教师网络和与所述专家子网络具有相同结构的学生网络，所述装置包括：

训练数据集获取部件，用于获取训练数据集，所述训练数据集包括多个内窥镜影像图像以及所述多个内窥镜影像图像的标注标签，其中所述训练数据集呈现长尾分布；以及

训练部件，用于基于所述训练数据集对所述内窥镜图像分类模型进行训练，直到所述内窥镜图像分类模型的目标损失函数收敛，以获得训练完成的内窥镜图像分类模型，

11.一种电子设备，包括存储器和处理器，其中，所述存储器上存储有处理器可读的程序代码，当处理器执行所述程序代码时，执行根据权利要求1-7中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令用于执行上述权利要求1-7中任一项所述的方法。