CN113487608B

CN113487608B - 内窥镜图像检测方法、装置、存储介质及电子设备

Info

Publication number: CN113487608B
Application number: CN202111039891.8A
Authority: CN
Inventors: 边成; 李剑; 杨志雄; 石小周; 赵家英
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2021-12-07
Anticipated expiration: 2041-09-06
Also published as: WO2023030370A1; CN113487608A

Abstract

本公开涉及一种内窥镜图像检测方法、装置、存储介质及电子设备，以减少内窥镜图像检测场景下用于模型部署的人力和时间，提高模型部署效率和模型迭代效率，从而提高内窥镜图像检测效率。该方法包括：获取待检测的内窥镜图像；通过内窥镜图像检测模型对内窥镜图像执行多个目标任务，得到内窥镜图像对应的多个任务检测结果，该内窥镜图像检测模型用于通过如下方式执行多个目标任务：通过任务特征网络从内窥镜图像中提取目标任务对应的图像特征，通过交互特征网络将提取到的每一图像特征和预训练的质控图像特征进行融合计算，得到每一目标任务对应的融合特征，针对每一目标任务，通过目标任务网络根据目标任务对应的融合特征，确定目标任务对应的任务检测结果。

Description

内窥镜图像检测方法、装置、存储介质及电子设备

技术领域

本公开涉及医疗图像技术领域，具体地，涉及一种内窥镜图像检测方法、装置、存储介质及电子设备。

背景技术

随着人工智能技术的不断发展，内窥镜例如结肠镜或直肠镜已经可以通过不同的AI（Artificial Intelligence，人工智能）模型来实现不同的检测任务，每个检测任务的背后包括一个AI模型加一个质控模型，因此实际应用中需要部署多个模型来满足多任务检测的需求。如果有新的检测任务，则需要部署用于执行新增检测任务的AI模型和对应的质控模型。如果新增的检测任务较多，则需要部署的模型数量会成倍增长，增加了用于模型部署的工作量。并且模型迭代过程中，由于需要对每一个独立的模型进行迭代，因此随着模型数量的增加，模型的整体迭代效率会受到影响，从而会影响内窥镜图像检测效率。

发明内容

提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

第一方面，本公开提供一种内窥镜图像检测方法，所述方法包括：

获取待检测的内窥镜图像；

通过内窥镜图像检测模型对所述内窥镜图像执行多个目标任务，得到所述内窥镜图像对应的多个任务检测结果，所述内窥镜图像检测模型用于通过如下方式执行所述多个目标任务：

通过任务特征网络从所述内窥镜图像中提取所述目标任务对应的图像特征，通过交互特征网络将提取到的每一所述图像特征和预训练的质控图像特征进行融合计算，得到每一所述目标任务对应的融合特征，针对每一所述目标任务，通过目标任务网络根据所述目标任务对应的所述融合特征，确定所述目标任务对应的任务检测结果。

第二方面，本公开提供一种内窥镜图像检测装置，所述装置包括：

获取模块，用于获取待检测的内窥镜图像；

检测模块，用于通过内窥镜图像检测模型对所述内窥镜图像执行多个目标任务，得到所述内窥镜图像对应的多个任务检测结果，所述内窥镜图像检测模型用于通过如下模块执行所述多个目标任务：

第一处理子模块，用于通过任务特征网络从所述内窥镜图像中提取所述目标任务对应的图像特征；

第二处理子模块，用于通过交互特征网络将提取到的每一所述图像特征和预训练的质控图像特征进行融合计算，得到每一所述目标任务对应的融合特征；

第三处理子模块，用于针对每一所述目标任务，通过目标任务网络根据所述目标任务对应的所述融合特征，确定所述目标任务对应的任务检测结果。

第三方面，本公开提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理装置执行时实现第一方面中所述方法的步骤。

第四方面，本公开提供一种电子设备，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行所述存储装置中的所述计算机程序，以实现第一方面中所述方法的步骤。

通过上述技术方案，可以将待处理的内窥镜图像输入内窥镜图像检测模型，从而通过该内窥镜图像检测模型执行多个目标任务，得到对应的多个任务检测结果。由此，可以通过一个模型实现内窥镜图像场景下的多任务检测，因此在模型部署时可以只部署一个模型，减少了需要部署的模型数量，进而减少了内窥镜图像检测场景下用于模型部署的人力和时间，可以提高模型部署效率。并且，由于只需部署一个内窥镜图像检测模型，因此在模型迭代过程中对该内窥镜图像检测模型进行迭代即可，相较于相关技术中对多个模型逐一迭代的方式，可以提高模型迭代效率，进而提高内窥镜图像检测效率。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。在附图中：

图1是根据本公开一示例性实施例示出的一种内窥镜图像检测方法的流程图；

图2是根据本公开一示例性实施例示出的一种内窥镜图像检测方法中内窥镜图像检测模型的示意图；

图3是根据本公开一示例性实施例示出的一种内窥镜图像检测装置的框图；

图4是根据本公开一示例性实施例示出的一种电子设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。另外需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

发明人研究发现，相关技术中的内窥镜例如结肠镜或直肠镜已经可以通过不同的AI（Artificial Intelligence，人工智能）模型来实现不同的检测任务，每个检测任务的背后包括一个AI模型加一个质控模型，因此实际应用中需要部署多个模型来满足多任务检测的需求。如果有新的检测任务，则需要部署用于执行新增检测任务的AI模型和对应的质控模型。如果新增的检测任务较多，则需要部署的模型数量会成倍增长，增加了用于模型部署的工作量。并且模型迭代过程中，由于需要对每一个独立的模型进行迭代，因此随着模型数量的增加，模型的整体迭代效率会受到影响。

有鉴于此，本公开提供一种新的内窥镜图像检测方法，以通过一个内窥镜检测模型实现多任务检测，减少需要部署的模型数量，从而减少用于模型部署的工作量，提高内窥镜检测场景下的模型部署效率和模型迭代效率，进而提高内窥镜图像检测效率。

首先应当理解的是，本公开提供的内窥镜图像检测方法可以应用于结肠镜、直肠镜等不同类型的内窥镜，或者可以应用于包括结肠镜或直肠镜等不同类型内窥镜的医疗系统，本公开实施例对此不作限定。比如，将本公开提供的内窥镜图像检测方法应用于肠镜，则该肠镜可以对患者体内的结肠或直肠进行图像拍摄，从而生成肠镜视频流，之后则可以从该肠镜视频流中选取待处理的内窥镜图像执行多任务检测过程。或者，将本公开提供的内窥镜图像检测方法应用于医疗系统，则该医疗系统可以包括内窥镜装置和内窥镜图像检测装置，其中内窥镜装置用于进行内窥镜图像拍摄，生成内窥镜视频流，并从该内窥镜视频流中选取待处理的内窥镜图像，将该内窥镜图像发送给内窥镜图像检测装置。内窥镜图像检测装置用于对接收到的内窥镜图像执行多任务检测过程。

图1是根据本公开一示例性实施例示出的一种内窥镜图像检测方法的流程图。参照图1，该内窥镜图像检测方法包括：

步骤101，获取待检测的内窥镜图像。

步骤102，通过内窥镜图像检测模型对内窥镜图像执行多个目标任务，得到该内窥镜图像对应的多个任务检测结果。

其中，内窥镜图像检测模型用于通过如下方式执行多个目标任务：通过任务特征网络从内窥镜图像中提取目标任务对应的图像特征，通过交互特征网络将提取到的每一图像特征和预训练的质控图像特征进行融合计算，得到每一目标任务对应的融合特征，针对每一目标任务，通过目标任务网络根据目标任务对应的融合特征，确定目标任务对应的任务检测结果。

通过上述方式，可以将待处理的内窥镜图像输入内窥镜图像检测模型，从而通过该内窥镜图像检测模型执行多个目标任务，得到对应的多个任务检测结果。由此，可以通过一个模型实现内窥镜图像场景下的多任务检测，因此在模型部署时可以只部署一个模型，减少了需要部署的模型数量，进而减少了用于模型部署的工作量，可以提高模型部署效率。并且，由于只需部署一个内窥镜图像检测模型，因此在模型迭代过程中对该内窥镜图像检测模型进行迭代即可，相较于相关技术中对多个模型逐一迭代的方式，可以提高模型迭代效率，从而可以提高内窥镜图像检测效率。

为了使得本领域技术人员更加理解本公开提供的内窥镜图像检测方法，下面对上述各步骤进行详细举例说明。

示例地，内窥镜图像可以是通过内窥镜对患者体内的直肠或结肠进行图像拍摄而得到的。比如，可以先对患者体内的直肠或结肠进行图像拍摄生成内窥镜视频流，然后在该内窥镜视频流中选取待处理的内窥镜图像。当然，还可以通过其他方式获得内窥镜图像，本公开实施例对此不作限定。

在获得内窥镜图像后，可以将该内窥镜图像输入内窥镜图像检测模型，从而通过该内窥镜图像检测模型对该内窥镜图像执行多个目标任务，得到多个任务检测结果。在可能的方式中，多个目标任务可以包括肠道清洁度评估任务、寻腔进镜任务、息肉目标任务、回盲识别任务和内窥镜图像质量监控任务中的至少两者，本公开实施例对此不作限定。

图2是根据本公开一示例性实施例示出的内窥镜图像检测模型的示意图。参照图2，该内窥镜图像检测模型主要包括三部分。第一部分为任务特征网络，包括线性层和编码器。其中，线性层可以将输入的内窥镜图像转换为一维特征向量。编码器可以与目标任务对应，即一个目标任务可以对应一个编码器（图2以transformer网络的编码器进行示意），通过该编码器可以对一维特征向量进行特征处理，得到每一目标任务对应的图像特征向量。内窥镜图像检测模型的第二部分为交互特征网络，该交互特征网络用于将任务特征网络提取到的每一图像特征与预训练的质控图像特征进行融合计算，得到融合特征。内窥镜图像检测模型的第三部分为目标任务网络，该目标任务网络用于根据每一目标任务对应的融合特征，确定目标任务的任务检测结果。应当理解的是，一个目标任务对应一个目标任务网络，从而可以实现多任务检测。

在可能的方式中，内窥镜图像检测模型中的任务特征网络和交互特征网络可以包括深度自注意力变换transformer网络的编码器。

应当理解的是，transformer结构方便拓展，在本公开实施例中，任务特征网络和交互特征网络采用transformer网络的编码器（encoder），既可以保证图像特征的共享，又可以保证任务的独立和相关性。另外，如果有新的目标任务，则可以通过增加新的任务特征网络和目标任务网络，方便地将该新的目标任务融入内窥镜图像检测模型。

对于任务特征网络，应当理解的是，在内窥镜图像检测场景下，肠道清洁度评估任务、寻腔进镜任务、息肉目标任务和回盲识别任务关注图像的局部特征，因此可以通过任务特征网络提取局部特征进行后续处理。

也即是说，在可能的方式中，可以先将内窥镜图像划分为多个内窥镜子图像，然后通过线性特征提取器对每一内窥镜子图像提取二维图像特征，并将提取到的每一二维图像特征转换为一维特征向量，之后再针对每一内窥镜子图像对应的一维特征向量，通过编码器进行特征处理，得到每一内窥镜子图像对应的任务特征子向量，最后将同一任务特征网络输出的任务特征子向量相加，得到目标任务对应的图像特征向量。

例如，参照图2，可以将待处理的内窥镜图像划分为9个内窥镜子图像（patch），然后通过任务特征网络的的线性特征提取器对每一内窥镜子图像提取二维图像特征，并对提取到的二维图像特征进行处理，得到对应的embedding，即将其转换为对应的一维特征向量

（i=1，2，…，9）。之后，任务特征网络中与目标任务对应的各编码器可以对该多个内窥镜子图像对应的一维特征向量进行特征处理，输出多个内窥镜子图像对应的任务特征子向量

（t=1，2，…，T，T为任务特征网络的数量，图2中取2）。最后，可以将同一任务特征网络输出的任务特征子向量相加，得到目标任务对应的任务特征向量

：

其中，N表示内窥镜子图像的数量，本公开实施例中N取9。

另外应当理解的是，在内窥镜图像检测场景下，内窥镜图像质量监控任务关注的是图像全局特征，通过每一内窥镜子图像对应的图像特征无法较好的进行图像质量评估，因此可以将内窥镜图像质量监控任务对应的图像特征设定为通过模型训练结果来确定。比如，参照图2所示的内窥镜图像检测模型，可以将内窥镜图像质量监控任务对应的质控图像特征设定为随机值，然后在模型训练过程中调整该质控图像特征，之后则可以在每一次检测过程中，将该调整后的质控图像特征作为内窥镜图像质量监控任务对应的特征输入交互特征网络。

对于交互特征网络，应当理解的是，内窥镜图像检测模型要执行多任务检测，上述单一的任务特征网络可以提取每个目标任务各自的特征，以保证单独任务的独立性。但是，目标任务之间也存在一定的关联性和辅助性，例如清洁度评估较好的图片，对于息肉检测和寻腔进镜任务有较好的作用。因此，在提取到目标任务对应的图像特征后，可以通过交互特征网络将提取到的每一图像特征和预训练的质控图像特征进行融合计算，使得独立的图像特征互相交互，得到融合特征。

示例地，交互特征网络采用transformer结构的编码器，从而可以在融合计算过程中针对每一图像特征，通过注意力机制将该图像特征与提取到的其他图像特征和预训练的质控图像特征进行自适应权重的融合计算，得到更准确的融合特征。也即是说，交互特征网络可以基于预训练的融合权重将每一图像特征和预训练的质控图像特征进行特征融合计算，得到每一目标任务对应的融合特征融合特征。其中，融合权重可以表征融合计算过程中各图像特征的权重大小，在不同融合特征的计算过程中，同一图像特征对应的融合权重可以不同，图像特征之间的关联越大，则对应的融合权重越大。

示例地，融合权重可以是通过训练内窥镜图像检测模型而确定的。比如，在内窥镜图像检测模型开始训练时，图像特征对应的融合权重设定为随机值。之后，在训练过程中，可以通过内窥镜图像检测模型输出的预测结果与样本标注结果之间的差异调整该融合权重，直到模型训练结束。在训练结束后，通过该融合权重和各任务特征网络输出的图像特征和预训练的质控图像特征可以较好地进行融合计算，从而提高多任务检测的准确性。

在得到融合特征后，可以根据每一目标任务对应的融合特征，确定每一目标任务的检测结果。比如，参照图2，可以将交互特征网络输出的每一融合特征

输入对应的目标任务网络中，从而通过目标任务网络得到对应的检测结果。应当理解的是，目标任务网络和融合特征可以有对应的预设标号，因此交互特征网络可以根据该预设标号将融合特征输入对应的目标任务网络进行任务检测。如果要实现单一任务检测，则可以将目标任务网络设置为单一任务对应的检测网络。也即是说，本公开实施例中可以通过设置目标任务网络的数量和类型来控制实现不同的任务检测。

应当理解的是，本公开实施例对于各目标任务网络的结构不作限定。下面对各目标任务网络的可能结构进行说明。

示例地，针对肠道清洁度评估任务，目标任务网络可以包括一个256维的全连接层和一个4维的全连接层，中间加一个非线性ReLU层。应当理解的是，由于肠道清洁度评估结果包括四个类别结果，因此该肠道清洁度评估任务对应的目标任务网络输出是4维的数据。针对寻腔进镜任务，考虑到主要是找到腔的位置，需要考虑到局部和全局信息，因此目标任务网络可以是ResNet50网络的译码器（decoder），再接一个2维的全连接层，输出是二维坐标点。针对息肉检测任务，目标任务网络可以是标准的,检测网络，包括一个256维的全连接层，该全连接层后面接一个非线性ReLU层，该非线性ReLU层后面接一个256维的全连接层，该全连接层输出分成两个分支，分别输入2维的全连接层和4维的全连接层，最终输出息肉分类概率（是否有息肉）、息肉检测框的坐标。针对回盲识别任务，目标任务网络包括一个256维的全连接层和一个3维的全连接层，中间接一个非线性ReLU层。针对内窥镜图像质量监控任务，目标任务网络包括一个256维的全连接层和T维的全连接层（T为目标任务的数量），中间接一个非线性ReLU层。

通过上述方式，目标任务网络可以输出对应目标任务的检测结果，比如参照图2所示的内窥镜图像检测模型，目标任务网络包括内窥镜图像质量监控任务、肠道清洁度任务、寻腔进镜任务，则输入一张内窥镜图像后，执行多任务检测，可以得到该三个目标任务的检测结果。

下面说明本公开中内窥镜图像检测模型的训练过程。

在可能的方式中，内窥镜图像检测模型的训练过程包括：通过任务特征网络从样本内窥镜图像中提取目标任务对应的样本图像特征，该样本内窥镜图像标注有每一目标任务对应的实际检测结果；通过交互特征网络将提取到的每一样本图像特征与本次训练过程中对应的质控图像特征进行融合计算，得到每一目标任务对应的样本融合特征，并针对每一目标任务，通过目标任务网络根据目标任务对应的样本融合特征，确定目标任务对应的预估检测结果；根据每一目标任务对应的预估检测结果与实际检测结果，计算每一目标任务对应的损失函数，并根据每一目标任务对应的损失函数的计算结果，调整内窥镜图像检测模型的参数，该参数包括用于表征质控图像特征的向量参数。

示例地，可以将真实情况下采集到的患者内窥镜图像作为样本内窥镜图像，或者也可以通过图像处理技术模拟生成样本内窥镜图像，本公开实施例对于样本内窥镜图像的获取方式不作限定。在得到样本内窥镜图像后，可以由经验丰富的医师针对不同的目标任务对该样本内窥镜图像进行标注。

本公开实施例中，样本内窥镜图像可以标注有每一目标任务对应的实际检测结果。比如，目标任务包括肠道清洁度评估任务、寻腔进镜任务、息肉检测任务、回盲识别任务和内窥镜图像质量监控任务，则样本内窥镜图像可以标注有针对肠道清洁度评估任务的实际检测结果、针对寻腔进镜任务的实际检测结果、针对息肉目标任务的实际检测结果、针对回盲识别任务的实际检测结果和针对内窥镜图像质量监控任务的实际检测结果。

其中，肠道清洁度评估任务可以包括清洁度评估质控标注和清洁度评估分类标注。清洁度评估质控标注可以表征该样本内窥镜图像通过质控后是否执行清洁度评估任务，比如未执行清洁度评估任务可以标注0，执行清洁度评估任务则可以标注1。清洁度评估分类标注可以表征该样本内窥镜图像对应的肠道清洁度类别。比如，可以根据BBPS（波士顿量表，衡量肠道清洁度评分的量表）进行标注：若由于无法清除的固体和液体粪便导致整段肠粘膜无法观测，则可以标注0；若由于污斑、浑浊液体、残留粪便导致的部分肠道粘膜无法观测，则可以标注1；若肠道粘膜观察良好，但残留少量污斑、浑浊液体、粪便，则可以标注2；若肠道粘膜观察良好，基本无残留污斑、浑浊液体、粪便，则可以标注3。

寻腔进镜任务可以包括寻腔进镜质控标注和寻腔进镜位置标注。其中，寻腔进镜质控标注可以表征该样本内窥镜图像通过质控后是否执行寻腔进镜，比如未执行寻腔进镜任务可以标注0，执行寻腔进镜任务则可以标注1。寻腔进镜位置标注可以表征样本内窥镜图像中腔点的具体位置，比如腔点位置用（x，y）坐标进行标注。息肉检测任务可以包括息肉检测质控标注和息肉信息标注。其中，息肉检测质控标注可以表征该样本内窥镜图像通过质控后是否执行息肉检测任务，比如未执行息肉检测任务可以标注0，执行息肉检测任务则可以标注1。息肉信息标注可以表征样本内窥镜图像中是否有息肉以及息肉的具体位置，比如通过标注0表示样本内窥镜图像中没有息肉，通过标注1表示样本内窥镜图像中有息肉，并且通过坐标（x1，x2，y1，y2）标注包括息肉的位置检测框的位置。

回盲识别任务可以包括回盲识别质控标注和回盲信息标注。其中，回盲识别质控标注可以表征该样本内窥镜图像通过质控后是否执行回盲识别任务，比如未执行回盲识别任务可以标注0，执行回盲识别任务则可以标注1。回盲信息标注可以表征样本内窥镜图像中是否包括回盲瓣信息以及该回盲瓣信息的具体位置，比如通过标注0表示不包括回盲瓣信息，通过标注1表示包括回盲瓣信息，并且通过标注0表示该回盲瓣信息来源于回盲瓣，通过标注1表示该回盲瓣信息来源于体内，通过标注2表示该回盲瓣信息来源于体外。

通过上述方式，样本内窥镜图像可以标注有每一目标任务对应的实际检测结果。应当理解的是，若某一样本内窥镜图像没有通过某个目标任务的质控，则可以将该样本内窥镜图像对应质控标注为-1进行占位。

之后，可以将标注有多个目标任务对应的实际检测结果的样本内窥镜图像输入内窥镜图像检测模型中，以实现对内窥镜图像检测模型的训练。示例地，内窥镜图像检测模型可以通过任务特征网络从样本内窥镜图像中提取目标任务对应的样本图像特征，然后通过交互特征网络将提取到的每一样本图像特征与本次训练过程中对应的质控图像特征进行融合计算，得到每一目标任务对应的样本融合特征。其中，该训练过程中任务特征网络和交互特征网络的处理过程可以参见上文模型应用过程中所述的相关内容，这里不再赘述。

之后，可以针对每一目标任务，通过目标任务网络根据目标任务对应的样本融合特征，确定目标任务对应的预估检测结果，并根据每一目标任务对应的预估检测结果与实际检测结果，计算每一目标任务对应的损失函数。最后，根据每一目标任务对应的损失函数的计算结果，调整内窥镜图像检测模型的参数。

示例地，调整的参数包括用于表征质控图像特征的向量参数，从而在每一次训练之后，质控图像特征可以被更新，使得该质控图像特征与符合内窥镜图像检测任务需求的高质量图像特征相符。由此，在模型训练结束后，执行内窥镜图像质量监控任务时，可以将输入的图像特征与该质控图像特征进行比较，从而确定内窥镜图像质量监控任务对应的预估检测结果。另外，调整的参数还可以包括上文所述的融合权重等，本公开实施例对此不作限定。

应当理解的是，对于多任务学习来说，不同任务的学习难度是不一样的，而给定模型的学习能力是一定的(即参数和运算量是一定的)，因此可以针对不同难度的任务分配不同的学习算力，以提升模型的整体训练效率。

在可能的方式中，可以确定每一目标任务对应的自适应权重，其中每一目标任务的自适应权重与目标任务对应的预估检测结果的指标数值负相关，所述预估检测结果的指标数值用于表征所述预估检测结果的准确性，然后根据每一目标任务对应的损失函数的计算结果和每一目标任务对应的自适应权重，计算内窥镜图像检测模型的总损失函数，并根据总损失函数的计算结果，调整内窥镜图像检测模型的参数。

示例地，对于不同的目标任务，预估检测结果的指标数值可以不同。比如对于内窥镜图像质量监控任务、清洁度评估任务、息肉检测任务、回盲识别任务，预估检测结果的指标数值可以是对应的分类准确率，而对于寻腔进镜任务，预估检测结果的指标数值可以是坐标误差值，本公开实施例对此不作限定。应当理解的是，若根据坐标误差值确定寻腔进镜任务对应的预估检测结果的指标数值，可以将每一预估检测结果的坐标误差值除以最大的坐标误差值后再取反，最后将取反的结果作为最终的指标数值。

例如，按照如下公式计算内窥镜图像检测模型的总损失函数：

其中，

表示总损失函数的计算结果，T表示目标任务的数量，

表示第i个目标任务的自适应权重，

表示第i个目标任务对应的损失函数的计算结果。应当理解的是，i的取值范围为1至T，T表示目标任务的数量，比如T取5，则内窥镜图像检测模型可以用于执行肠道清洁度评估任务、寻腔进镜任务、息肉检测任务、回盲识别任务和内窥镜图像质量监控任务这5个目标任务，实现单一模型的多任务检测。

在本公开实施例中，每一目标任务的自适应权重与目标任务对应的预估检测结果的指标数值负相关。比如，每一目标任务的自适应权重可以与目标任务对应的预估检测结果的指标数值成反比。或者，在可能的方式中，可以在内窥镜图像检测模型的训练过程中，按照如下公式确定每一目标任务对应的自适应权重：

其中，

表征第i个目标任务对应的自适应权重，

表征第i个目标任务对应的预估检测结果的指标数值，

表征第i个目标任务的预设权重调节参数。应当理解的是，该预设权重调节参数可以根据实际情况设定，本公开实施例对此不作限定，只要该预设权重调节参数位于0至1之间（包括数值1）即可，比如可以将第1个目标任务的预设权重调节参数设定为0.5，将第2个目标任务的预设权重调节参数设定为1，等等。

在可能的方式中，内窥镜图像检测模型的训练过程为迭代训练的过程，确定每一所述目标任务对应的自适应权重还可以是：针对每一目标任务，确定上次迭代过程中目标任务对应的预估检测结果的历史指标数值和本次迭代过程中目标任务对应的预估检测结果的当前指标数值，然后根据预设衰减因子、历史指标数值和当前指标数值，确定每一目标任务对应的预估检测结果的目标指标数值，并根据目标指标数值和负相关对应关系，确定每一目标任务的自适应权重，其中负相关对应关系用于表征自适应权重与目标指标数值负相关。

也即是说，用于确定自适应权重的指标数值可以结合上次迭代过程中的历史指标数值和本次迭代过程中的当前指标数值，以提高自适应权重的准确性，从而更加准确地调整内窥镜图像检测模型的参数，进而提高模型应用阶段中内窥镜图像检测模型的结果准确性。

示例地，预设衰减因子用于表征模型更新速度，可以根据实际情况设定，比如可以设定为0.99，本公开实施例对此不作限定。

示例地，历史指标数值可以是上次迭代过程中目标任务对应的预估检测结果的指标数值，或者可以是根据上次迭代过程中目标任务对应的预估检测结果的指标数值、再上次迭代过程中目标任务对应的预估检测结果的指标数值和预设衰减因子计算得到的历史目标指标数值，本公开实施例不作限定。

例如，可以按照如下公式确定目标指标数值：

其中，

表示第

次迭代过程中第i个目标任务对应的预估检测结果的目标指标数值，

表示预设衰减因子，

表示第

次迭代过程中第i个目标任务对应的预估检测结果的当前指标数值，

表示第

次迭代过程中第i个目标任务对应的预估检测结果的历史目标指标数值。

通过上述方式，可以将待处理的内窥镜图像输入内窥镜图像检测模型，从而通过该内窥镜图像检测模型执行多个目标任务，得到对应的多个检测结果。由此，可以通过一个模型实现内窥镜图像检测场景下的多任务检测，因此在模型部署时可以只部署一个模型，减少了需要部署的模型数量，进而减少了用于模型部署的工作量，可以提高模型部署效率。并且，由于只需部署一个内窥镜图像检测模型，因此在模型迭代过程中对该内窥镜图像检测模型进行迭代即可，相较于相关技术中对多个模型逐一迭代的方式，可以提高模型迭代效率。

另外，在模型训练过程中，还可以根据不同目标任务不同的指标变化，自动调整内窥镜图像检测模型中针对不同目标任务的模型参数，从而在通过内窥镜图像检测模型实现多任务检测的同时，提升内窥镜图像检测模型对不同目标任务的检测性能。

基于同一构思，本公开还提供一种内窥镜图像检测装置，该装置可以通过软件、硬件或者两者结合的方式成为医疗电子设备（比如包括直肠镜或结肠镜等不同类型的内窥镜、或者包括不同类型内窥镜的医疗设备）的部分或全部。参照图3，该内窥镜图像检测装置300包括：

获取模块301，用于获取待检测的内窥镜图像；

检测模块302，用于通过内窥镜图像检测模型对所述内窥镜图像执行多个目标任务，得到所述内窥镜图像对应的多个任务检测结果，所述内窥镜图像检测模型用于通过如下模块执行所述多个目标任务：

第一处理子模块3021，用于通过任务特征网络从所述内窥镜图像中提取所述目标任务对应的图像特征；

第二处理子模块3022，用于通过交互特征网络将提取到的每一所述图像特征和预训练的质控图像特征进行融合计算，得到每一所述目标任务对应的融合特征；

第三处理子模块3023，用于针对每一所述目标任务，通过目标任务网络根据所述目标任务对应的所述融合特征，确定所述目标任务对应的任务检测结果。

可选地，所述第一处理子模块3021用于：

将所述内窥镜图像划分为多个内窥镜子图像；

通过线性特征提取器对每一所述内窥镜子图像提取二维图像特征，并将提取到的每一所述二维图像特征转换为一维特征向量；

针对每一所述内窥镜子图像对应的一维特征向量，通过编码器进行特征处理，得到每一所述内窥镜子图像对应的任务特征子向量；

将同一所述任务特征网络输出的所述任务特征子向量相加，得到所述目标任务对应的图像特征向量。

可选地，所述装置300还包括用于训练所述内窥镜图像检测模型的训练模块，所述训练模块用于：

通过所述任务特征网络从样本内窥镜图像中提取所述目标任务对应的样本图像特征，其中所述样本内窥镜图像标注有每一所述目标任务对应的实际检测结果；

通过所述交互特征网络将提取到的每一所述样本图像特征与本次训练过程中的所述质控图像特征进行融合计算，得到每一所述目标任务对应的样本融合特征，并针对每一所述目标任务，通过所述目标任务网络根据所述目标任务对应的所述样本融合特征，确定所述目标任务对应的预估检测结果；

根据每一所述目标任务对应的所述预估检测结果与所述实际检测结果，计算每一所述目标任务对应的损失函数，并根据每一所述目标任务对应的所述损失函数的计算结果，调整所述内窥镜图像检测模型的参数，所述参数包括用于表征所述质控图像特征的向量参数。

可选地，所述训练模块用于：

确定每一所述目标任务对应的自适应权重，其中每一所述目标任务的自适应权重与所述目标任务对应的预估检测结果的指标数值负相关，所述预估检测结果的指标数值用于表征所述预估检测结果的准确性；

根据每一所述目标任务对应的所述损失函数的计算结果和每一所述目标任务对应的所述自适应权重，计算所述内窥镜图像检测模型的总损失函数，并根据所述总损失函数的计算结果，调整所述内窥镜图像检测模型的参数。

可选地，所述内窥镜图像检测模型的训练过程为迭代训练的过程，所述训练模块用于：

针对每一所述目标任务，确定上次迭代过程中所述目标任务对应的预估检测结果的历史指标数值和本次迭代过程中所述目标任务对应的预估检测结果的当前指标数值；

根据预设衰减因子、所述历史指标数值和所述当前指标数值，确定每一所述目标任务对应的预估检测结果的目标指标数值，并根据所述目标指标数值和负相关对应关系，确定每一所述目标任务的自适应权重，其中所述负相关对应关系用于表征所述自适应权重与所述目标指标数值负相关。

可选地，所述训练模块用于：

在所述内窥镜图像检测模型的训练过程中，按照如下公式确定每一所述目标任务对应的自适应权重：

其中，

表征第i个目标任务对应的自适应权重，

表征第i个目标任务对应的预估检测结果的指标数值，

表征第i个目标任务的预设权重调节参数。

可选地，所述多个目标任务包括肠道清洁度评估任务、寻腔进镜任务、息肉检测任务、回盲识别任务和内窥镜图像质量监控任务中的至少两者。

可选地，所述任务特征网络和所述交互特征网络包括深度自注意力变换网络transformer网络的编码器。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

基于同一构思，本公开还提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理装置执行时实现上述任一内窥镜图像检测方法的步骤。

基于同一构思，本公开还提供一种电子设备，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行所述存储装置中的所述计算机程序，以实现上述任一内窥镜图像检测方法的步骤。

下面参考图4，其示出了适于用来实现本公开实施例的电子设备400的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图4示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图4所示，电子设备400可以包括处理装置（例如中央处理器、图形处理器等）401，其可以根据存储在只读存储器（ROM）402中的程序或者从存储装置408加载到随机访问存储器（RAM）403中的程序而执行各种适当的动作和处理。在RAM 403中，还存储有电子设备400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出（I/O）接口405也连接至总线404。

通常，以下装置可以连接至I/O接口405：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406；包括例如液晶显示器（LCD）、扬声器、振动器等的输出装置407；包括例如磁带、硬盘等的存储装置408；以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备400，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置409从网络上被下载和安装，或者从存储装置408被安装，或者从ROM 402被安装。在该计算机程序被处理装置401执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

在一些实施方式中，可以利用诸如HTTP（HyperText Transfer Protocol，超文本传输协议）之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信（例如，通信网络）互连。通信网络的示例包括局域网（“LAN”），广域网（“WAN”），网际网（例如，互联网）以及端对端网络（例如，ad hoc端对端网络），以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取待处理的内窥镜图像；通过内窥镜图像检测模型对所述内窥镜图像执行多个目标任务，得到所述内窥镜图像对应的多个任务检测结果，所述内窥镜图像检测模型用于通过如下方式执行所述多个目标任务：通过任务特征网络从所述内窥镜图像中提取所述目标任务对应的图像特征，通过交互特征网络将提取到的每一所述图像特征和预训练的质控图像特征进行融合计算，得到每一所述目标任务对应的融合特征，针对每一所述目标任务，通过目标任务网络根据所述目标任务对应的所述融合特征，确定所述目标任务对应的任务检测结果。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网（LAN）或广域网（WAN）——连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、片上系统（SOC）、复杂可编程逻辑设备（CPLD）等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，示例1提供了一种内窥镜图像检测方法，包括：

获取待检测的内窥镜图像；

根据本公开的一个或多个实施例，示例2提供了示例1的方法，所述通过任务特征网络从所述内窥镜图像中提取所述目标任务对应的图像特征，包括：

将所述内窥镜图像划分为多个内窥镜子图像；

根据本公开的一个或多个实施例，示例3提供了示例1或2的方法，所述内窥镜图像检测模型的训练过程包括：

根据本公开的一个或多个实施例，示例4提供了示例3的方法，所述根据每一所述目标任务对应的所述损失函数的计算结果，调整所述内窥镜图像检测模型的参数，包括：

根据本公开的一个或多个实施例，示例5提供了示例4的方法，所述内窥镜图像检测模型的训练过程为迭代训练的过程，所述确定每一所述目标任务对应的自适应权重，包括：

根据本公开的一个或多个实施例，示例6提供了示例4的方法，所述确定每一所述目标任务对应的自适应权重，包括：

其中，

表征第i个目标任务对应的自适应权重，

表征第i个目标任务对应的预估检测结果的指标数值，

表征第i个目标任务的预设权重调节参数。

根据本公开的一个或多个实施例，示例7提供了示例1或2的方法，所述多个目标任务包括肠道清洁度评估任务、寻腔进镜任务、息肉检测任务、回盲识别任务和内窥镜图像质量监控任务中的至少两者。

根据本公开的一个或多个实施例，示例8提供了示例1或2的方法，所述任务特征网络和所述交互特征网络包括深度自注意力变换网络transformer网络的编码器。

根据本公开的一个或多个实施例，示例9提供了一种内窥镜图像检测装置，所述装置包括：

获取模块，用于获取待检测的内窥镜图像；

根据本公开的一个或多个实施例，示例10提供了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理装置执行时实现示例1-8中任一项所述方法的步骤。

根据本公开的一个或多个实施例，示例11提供了一种电子设备，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行所述存储装置中的所述计算机程序，以实现示例1-8中任一项所述方法的步骤。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

Claims

1.一种内窥镜图像检测方法，其特征在于，所述方法包括：

获取待检测的内窥镜图像；

通过任务特征网络从所述内窥镜图像中提取所述目标任务对应的图像特征，通过交互特征网络将提取到的每一所述图像特征和预训练的质控图像特征进行融合计算，得到每一所述目标任务对应的融合特征，针对每一所述目标任务，通过目标任务网络根据所述目标任务对应的所述融合特征，确定所述目标任务对应的任务检测结果；

所述内窥镜图像检测模型的训练过程包括：

2.根据权利要求1所述的方法，其特征在于，所述通过任务特征网络从所述内窥镜图像中提取所述目标任务对应的图像特征，包括：

将所述内窥镜图像划分为多个内窥镜子图像；

3.根据权利要求1所述的方法，其特征在于，所述根据每一所述目标任务对应的所述损失函数的计算结果，调整所述内窥镜图像检测模型的参数，包括：

4.根据权利要求3所述的方法，其特征在于，所述内窥镜图像检测模型的训练过程为迭代训练的过程，所述确定每一所述目标任务对应的自适应权重，包括：

5.根据权利要求3所述的方法，其特征在于，所述确定每一所述目标任务对应的自适应权重，包括：

其中，

表征第i个目标任务对应的自适应权重，

表征第i个目标任务对应的预估检测结果的指标数值，

表征第i个目标任务的预设权重调节参数。

6.根据权利要求1或2所述的方法，其特征在于，所述多个目标任务包括肠道清洁度评估任务、寻腔进镜任务、息肉检测任务、回盲识别任务和内窥镜图像质量监控任务中的至少两者。

7.根据权利要求1或2所述的方法，其特征在于，所述任务特征网络和所述交互特征网络包括深度自注意力变换网络transformer网络的编码器。

8.一种内窥镜图像检测装置，其特征在于，所述装置包括：

获取模块，用于获取待检测的内窥镜图像；

第三处理子模块，用于针对每一所述目标任务，通过目标任务网络根据所述目标任务对应的所述融合特征，确定所述目标任务对应的任务检测结果；

所述装置还包括用于训练所述内窥镜图像检测模型的训练模块，所述训练模块用于：

9.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现权利要求1-7中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行所述存储装置中的所述计算机程序，以实现权利要求1-7中任一项所述方法的步骤。