CN113302649A

CN113302649A - 用于自动诊断的方法、装置和系统

Info

Publication number: CN113302649A
Application number: CN201980062257.0A
Authority: CN
Inventors: 潘颂欣; 张芮恺; 姜宇奇
Original assignee: Chinese University of Hong Kong CUHK
Current assignee: Chinese University of Hong Kong CUHK
Priority date: 2018-10-16
Filing date: 2019-10-10
Publication date: 2021-08-24
Also published as: WO2020078252A1

Abstract

本公开公开了一种用于自动诊断的方法(2000)、装置(100)和系统(900、1000)。所述方法(2000)包括：通过CNN组依次接收预定数量的医学视频数据的帧(S201)；通过CNN组预测每个帧的病变预测(S202)；以及输出各自标记有病变预测的帧(S203)。对于每个输入的帧，所述预测包括：通过CNN组中的第一CNN从输入的帧中提取特征并确定对输入的帧的预测；通过第一CNN之后的每个CNN从其输入中提取特征，其中通过级联来自先前CNN的至少一个最新输出来生成所述输入；以及确定输入的帧的预测，其中来自CNN组的最后CNN的预测被输出为输入的帧的病变预测。

Description

用于自动诊断的方法、装置和系统

技术领域

本公开的实施例总体涉及自动诊断领域。特别地，本公开的实施例涉及用于自动诊断的方法、装置和系统。

背景技术

诸如结肠直肠癌(CRC)的胃肠道癌症是世界范围内最常见的癌症之一。CRC是可预防的，内窥镜检查是检测CRC的有效方法。内窥镜医生可以使用内窥镜目视检查下胃肠道并切除具有发展成结肠直肠癌的高风险的息肉。然而，这种内窥镜检查过程主要依赖于人的视觉检查，因此是高度依赖于经验的。在这种内窥镜检查过程中，损伤可能被漏检或漏诊。

因此，需要开发一种自动诊断系统，其能够帮助内窥镜医生定位和分类息肉并降低息肉漏检率和不必要的病理评估的成本。

发明内容

本发明的一个方面提供了一种用于自动诊断的方法，包括：通过包括串联连接的多个CNN的CNN组依次接收预定数量的医学视频数据的帧；通过CNN组预测每个帧的病变预测；以及输出各自标记有病变预测的帧；其中，对于每个输入的帧，预测包括：通过CNN组中的第一CNN从输入的帧中提取特征；通过第一CNN基于所提取的特征来确定对输入的帧的预测；通过第一CNN之后的每个CNN从其输入中提取特征，其中通过级联来自先前CNN的至少一个最新输出来生成输入到第一CNN之后的每个CNN的输入，并且每个CNN的输出是所提取的特征和所确定的预测中的至少一个；以及由第一CNN之后的每个CNN基于其所提取的特征来确定输入的帧的预测，其中来自CNN组中的最后CNN的预测被输出为输入的帧的病变预测。

本发明的另一方面提供了一种自动诊断装置，包括：处理器；以及存储器，联接至处理器，用于存储能够由处理器执行的指令，以构建CNN组并执行操作：通过包括串联连接的多个CNN的CNN组依次接收预定数量的医学视频数据的帧；通过CNN组预测每个帧的病变预测；以及输出各自标记有病变预测的帧；其中，对于每个输入的帧，预测包括：通过CNN组中的第一CNN从输入的帧中提取特征；通过第一CNN基于所提取的特征来确定对输入的帧的预测；通过第一CNN之后的每个CNN从其输入中提取特征，其中通过级联来自先前CNN的至少一个最新输出来生成输入到第一CNN之后的每个CNN的输入，并且每个CNN的输出是所提取的特征和所确定的预测中的至少一个；以及由第一CNN之后的每个CNN基于其所提取的特征来确定输入的帧的预测，其中来自CNN组中的最后CNN的预测被输出为输入的帧的病变预测。

本发明的又一方面提供了一种自动诊断系统，包括：内窥镜，用于获得内窥镜检查数据；诊断装置，用于接收内窥镜检查数据，并且包括：处理器；以及存储器，联接至所述处理器，用于存储能够由所述处理器执行的指令，以构建CNN组并执行操作：通过包括串联连接的多个CNN的CNN组依次接收预定数量的医学视频数据的帧；通过所述CNN组预测每个所述帧的病变预测；以及输出各自标记有所述病变预测的所述帧；其中，对于每个输入的帧，所述预测包括：通过所述CNN组中的第一CNN从所述输入的帧中提取特征；通过所述第一CNN基于所提取的特征来确定对所述输入的帧的预测；通过所述第一CNN之后的每个CNN从其输入中提取特征，其中通过级联来自先前CNN的至少一个最新输出来生成输入到所述第一CNN之后的每个CNN的输入，并且每个CNN的输出是所提取的特征和所确定的预测中的至少一个；以及由所述第一CNN之后的每个CNN基于其所提取的特征来确定所述输入的帧的预测，其中来自所述CNN组中的最后CNN的预测被输出为所述输入的帧的病变预测。

附图说明

通过参考附图详细描述本发明的示例性实施例，本发明的上述和其它特征将变得更加清楚，其中：

图1是示出具有根据本公开的一个实施例的自动诊断设备的自动诊断系统的示意图。

图2示出了根据本公开的一个实施例的用于自动诊断的方法的流程图。

图3示出了根据本申请的一个实施例的CNN组的示意性结构。

图4A至图4C示出了根据本申请的一个实施例的用于说明CNN组的操作的示例。

图5示出了根据本申请的一个实施例的用于说明CNN组的操作的另一个示例。

图6示出了根据本申请的一个实施例的CNN的结构。

图7A至图7C示出了根据本申请的一个实施例的特征提取器的三个可选结构。

图8A至图8B示出了根据本申请的一个实施例的CNN中的预测器的两个可选结构。

图9是示出适于实现本申请的系统的示意图。

具体实施方式

将参考以下讨论的细节来描述本公开的各种实施例和方面，并且附图将示出各种实施例。以下描述和附图是本公开的示例，而不应被解释为限制本公开。描述了许多具体细节以提供对本公开的各种实施例的透彻理解。然而，在某些情况下，为了提供对本公开的实施例的简洁讨论，没有描述公知的或常规的细节。

在说明书中提及“一个实施例”或“实施例”意味着结合该实施例描述的特定特征、结构或特性可以被包括在本公开的至少一个实施例中。在说明书的各个地方出现的短语“在一个实施例中”不一定都指同一实施例。

本申请的自动诊断方法、装置和系统用于根据医学视频数据自动诊断疾病，尤其适用于内窥镜检查的癌症筛查。用于本申请的自动诊断的系统可以连接在医学视频获取设备和显示设备之间，以自动诊断病变并在显示设备上实时显示诊断结果。该系统可以帮助临床医生提高内窥镜检查的质量并减少不必要的组织切除。

图1是示出根据本公开的一个实施例的自动诊断系统1000的示意图。图1示出了自动诊断装置100用于根据内窥镜检查数据诊断病变的情况，但是应当注意，本申请不限于此。参照图1，自动诊断装置100连接在内窥镜200和显示设备300之间。自动诊断装置100可以从内窥镜200接收内窥镜检查视频数据，根据内窥镜检查视频数据诊断病变，然后将具有诊断预测的内窥镜检查视频数据输出到显示设备300。内窥镜检查人员可以通过显示设备300观看内窥镜检查视频数据和自动诊断设备100的诊断预测。在本申请中，自动诊断装置100可以应用稍后根据图2至图8B描述的自动诊断方法。在下面的描述中，将详细描述用于本申请的自动诊断的方法。

图2示出了根据本公开的一个实施例的用于自动诊断的方法2000的流程图。如图所示，方法2000从步骤S201开始，通过包括多个串联连接的CNN(卷积神经网络)的CNN组(稍后详细描述)依次接收预定数量的医学视频数据的帧。医疗视频数据可以由诸如内窥镜的医疗视频获取设备或存储设备获取，并且可以包括多个帧。然后，在步骤S202，CNN组可以预测每个帧的病变预测。最后，在步骤S203，输出每个用病变预测标记的帧。例如，可以用指示病变、病变分类等的边界框来标记输出的帧。标记的帧可以被输出到显示设备，使得医生可以将显示的信息作为诊断参考来观看。

在下文中，将参考图3至图8B详细描述CNN组。

图3示出了根据本申请的一个实施例的CNN组的示意性结构。

参照图3，CNN组包括将参照图6详细描述的多个CNN 1-n，其中前CNN中的每一个连接到下一CNN，即，多个CNN 1-n串联连接。在步骤S201接收的帧被顺序地输入到CNN组中。图3示出了帧1-n已经被输入到CNN组中的情况。

在下文中，帧n将作为描述CNN组的预测操作的示例。应当注意，CNN组对其它帧的预测可以与帧n相同。

首先将帧n输入到CNN 1中。CNN 1从输入的帧n中提取特征，然后基于所提取的特征确定对输入的帧n的预测。在CNN 1的提取和确定操作之后，可以输出所提取的特征和预测中的至少一个。

对于CNN组中的CNN 2，其输入可以是来自先前CNN 1的至少一个最新输出的和。例如，可以将CNN 1的分别基于帧n-2、n-1和n的输出级联并输入到CNN 2中。如上所述，CNN组中每个CNN的输出可以是所提取的特征和预测中的至少一个。所提取的特征和预测可以是向量形式或矩阵形式，并且可以通过将多个向量或矩阵链接到具有较高维度的一个向量或矩阵来执行不同特征或预测之间的链接。

CNN组中CNN 1之后的CNN可以与CNN 2类似地操作。也就是说，通过级联来自之前CNN的至少一个最新输出来生成CNN1之后的每个CNN的输入。

在CNN组的最后一个CNN n确定对输入帧n的预测之后，输出来自CNN n的预测作为对输入帧n的病变预测。

图4A至图4C示出了用于说明根据本申请的一个实施例的CNN组的操作的具体示例。在图4A至图4C所示的示例中描述了对三个帧1-3的预测，并且CNN组包括两个CNN(CNN 1和CNN 2)。然而，应当注意，本申请不限于此，并且帧和CNN的数量可以不同地改变。

图4A示出了帧1的预测过程。由于帧1是输入帧中的第一帧，因此仅使用一个CNN来预测帧1。如图所示，首先将帧1输入CNN 1。然后，CNN 1从帧1中提取特征，并基于所提取的特征确定对帧1的预测。所确定的预测1可以被输出作为对帧1的病变预测，同时，CNN1还可以输出所提取的特征和所确定的预测中的至少一个，以辅助对后续帧的预测过程。

图4B示出了帧2的预测过程。帧2首先被输入CNN1。然后，CNN 1从帧2中提取特征，并基于所提取的特征确定对帧1的预测。CNN1可以输出所提取的特征和所确定的预测中的至少一个。接下来，可以将CNN 1的分别基于帧1和帧2获得的输出(输出1和输出2)级联在一起并输入到CNN 2中，其中输出1在帧1的预测过程期间已由CNN 1获得。CNN 2基于其输入来确定对帧2的预测2，并且该预测可以作为对帧2的病变预测而输出。

图4C示出了帧3的预测过程。首先将帧3输入CNN1，并且CNN1执行的过程与参考图4B所描述的过程相同。在图4C所示的处理过程中,CNN 2的输入是CNN 1的分别基于帧1-3获得的级联输出(输出1-3)，其中输出1-2已分别在帧1和帧2的预测过程期间由CNN 1获得。然后，CNN 2可以基于其输入来确定帧3的预测3，并且可以输出该预测作为帧3的病变预测。应该注意的是，尽管是图4B和图4C示出了多个CNN 1，其仅用于示意性地说明如何获得来自CNN 1的级联输出，并且在CNN组中仅存在一个CNN 1。

图5示出了根据本申请的一个实施例的用于说明CNN组的操作的另一个示例。在图5所示的示例中，描述了帧4的预测，并且CNN组包括三个CNN(CNN 1、CNN 2和CNN 3)。然而，应当注意，本申请不限于此，并且帧和CNN的数量可以不同地改变。

如图5所示，首先将帧4输入CNN 1。由CNN 1执行的过程与参照图4B描述的过程相同。接下来，将CNN1的分别基于帧2至帧4获得的级联输出输入到CNN2中。CNN 2可以基于其输入来提取特征，并且基于所提取的特征来确定对帧3的预测，然后输出所提取的特征和所确定的预测中的至少一个。然后，将CNN 2的分别基于帧3至帧4获得的级联输出输入到CNN3中，其中，通过将CNN 1的分别基于帧1至帧3获得的级联输出输入到CNN 2中，提取特征并通过CNN 2确定对帧3的预测，并输出所提取的特征和所确定的预测中的至少一个来生成CNN 2的基于帧3获得的输出。最后，CNN3可以基于帧4的输入来确定帧4的预测4，并且可以输出该预测作为帧4的病变预测。在图5所示的实施例中，由于CNN 1连续地处理输入的帧，CNN1的基于帧1-4的输出被连续地获得。因此，当预测帧4时，分别基于帧2-4获得的CNN1的输出是CNN1的最近三个输出。类似地，当预测帧4时，分别基于帧3-4获得的CNN2的输出是CNN2的最近两个输出。换句话说，通过级联来自前CNN的至少一个最新输出来产生输入到第一CNN之后的每个CNN的输入。此外，应当注意，尽管图5仅示出了帧4的预测过程，但是可以通过类似的过程来预测其它帧。

因为从前面的帧获得的信息被用于后续帧的预测处理中，所以包含在医学视频数据中的信息可以被充分利用，从而可以提高预测的准确性。

图6示出了根据本申请的一个实施例的CNN的结构。在本公开的CNN中，使用多个特征提取器层，每个先前的特征提取器层连接到下一个特征提取器层。每个特征提取器层包括多个特征提取器，每个特征提取器被配置为提取其输入的特征。此外，每个特征提取器可以具有图7A至图7C所示的结构。此外，CNN可以包括在提取特征层之后的预测器，并且该预测器被配置为根据先前特征提取器的输出来预测病变预测。如图6所示，每个特征提取器层由并联连接的多个特征提取器组成。例如，特征提取器层L1包括并联连接的特征提取器E11-Em1，特征提取器层L2包括并联连接的特征提取器E21-Em2，特征提取器层Ln包括并联连接的特征提取器E2n-Emn。一个特征提取器层中的特征提取器的输出可以被连接并输入到下一个特征提取器层中的每个特征提取器中。例如，特征提取器层L1中的特征提取器E11-Em1的输出被连接为特征F1，然后特征F1被输入到特征提取器层L2的特征提取器(特征提取器E12-Em2)中的每一个。特征提取器E12-Em2中的每一个可以从其输入提取特征，然后特征提取器E12-Em2的输出可以被连接为特征F2并且被输入到下一个特征提取器层的每一个特征提取器中。后面的特征提取器层中的特征提取器可以类似地操作。最后一个特征提取器层Ln中的特征提取器E1n-Emn的输出可以被连接为特征Fn并被输入到预测器中，并且预测器可以基于输入的特征来确定输入的帧的预测。在一个实施例中，特征F1-Fn和预测中的至少一个可以用作CNN的输出。

在本申请中，一个特征提取器层中的特征提取器可以在不同的方面提取特征，这可以充分利用包含在输入的帧中的信息。

图7A至图7C示出了用于特征提取器的三个可选结构。

在图7A中，用于特征提取器的第一结构包括多个卷积层，例如卷积层C11-C15。在第一结构中，每个卷积层连接到该卷积层的后面的层。具体地，以卷积层C11-C15为例，卷积层C11不仅连接到卷积层C12，而且连接到卷积层C13-C15。换句话说，卷积层C11连接到其后的所有卷积层。类似地，卷积层C12-C15可以以类似的方式连接到随后的卷积层。

在图6B中，用于特征提取器的第二结构包括多个卷积层，例如卷积层C21-C25。在第二结构中，每个卷积层连接到卷积层的下一层或下两层。具体地，以卷积层C21-C25为例，将卷积层C21连接到紧接着卷积层C21的卷积层C22和C23(即，层C21的下两层)。卷积层C22连接到紧接着卷积层C22的卷积层C23(即，层C21的下一层)。卷积层C23和25可以以与卷积层C21类似的方式连接到其随后的卷积层，并且卷积层C24可以以与卷积层C22类似的方式连接到其随后的卷积层。

在图6C中，用于特征提取器的第三结构包括并联的图6A至图6B中描述的结构，其中来自两个结构的输出被级联作为输出。例如，在第三结构中，由卷积层C11-C15构成的第一结构和由卷积层C21-C25构成的第二结构并联连接。

在图6A至图6C所示的结构中，在彼此连接的卷积层中，由先前层提取的特征可以被级联并输出作为后续卷积层的输入。

应该注意的是，尽管图6A至图6C示出了包括五个卷积层的第一和第二结构，但卷积层的数量不限于此。还应该注意的是，尽管图6C中的第三结构被示出为包括一个图6A中的第一结构和一个图6B中的第二结构，但本公开不限于此。此外，CNN中的特征提取器可以具有第一至第三结构中的一个，并且一个CNN中的特征提取器的结构可以彼此不同。而且，一个CNN组中的CNN的结构可以彼此不同。

在一个实施例中，在CNN中，每个卷积层之后可以是池化层，并且全连接层可以位于所有卷积层之后。卷积层对输入的图像或特征执行卷积运算并生成多个特征图，然后池化层对特征图执行池化运算以从特征图获得具有平移不变性的特征。全连接层合并池化层的输出，然后产生输入图像或特征的表示。该表示可以是矢量形式。

如图6所示的CNN可以包括一个或多个预测器。

图8A示出了CNN包括一个预测器的示例。预测器可以生成一个输出矢量。输出向量是多个预测的组合，其中每个预测与特定任务相关联。该任务可以是病变识别、病变检测、病变定位确定、病变分割和疾病诊断中的至少一个。

图8A示出CNN包括多个预测器的示例。多个预测可以由多个预测器生成，其中每个预测器与特定任务的一个预测相关联。

再次参照图3和图6至图7B，在一个实施例中，CNN组中除最后的CNN之外的CNN中的特征提取器可以具有图7A所示的第一结构，CNN组中的最后的CNN中的特征提取器可以具有图7B所示的第二结构。

因为第一结构中的卷积层被连接到其所有随后的卷积层，所以可以将通过卷积层之一从帧中获得的信息发送到所有随后的卷积层。这样，CNN可以充分利用每个帧，并且可以提高预测的准确性。此外，因为最后CNN的输入是先前CNN的级联输出，所以要处理的信息的信息量相对较小。在这种情况下，在最后的CNN中的每个卷积层都不需要连接到所有随后的卷积层。因此，最后CNN的结构使用图7B中的第二结构，用于在保持预测精度的同时降低计算成本。

在一些实施例中，CNN组可以在应用于实际预测任务之前被训练。CNN组可以通过以下方式训练：

a)向CNN组输入预定数量的医学视频数据的训练帧；

b)通过CNN组中除最后的CNN外的CNN预测每个训练帧的帧病变预测候选；

c)比较每个训练帧的帧病变预测候选与参考值，得到针对每个训练帧的第一训练误差；

d)通过CNN组中的最后的CNN根据之前CNN的级联输出预测每个训练帧的最终帧病变预测候选；

e)比较每个训练帧的最终帧病变预测候选与参考值，得到针对每个训练帧的第二训练误差；

f)将所述第一训练误差和所述第二训练误差后向传播至所述CNN组，以调整所述CNN的参数；以及

g)重复步骤a)-f)，直到第一训练误差和第二训练误差收敛。

在步骤a)，用于训练的医学视频数据可以从医学视频数据库获得或者从因特网下载，但是本公开不限于此。在本实施例中，每个训练帧具有对应的参考值(在步骤c)中使用)，并且参考值呈现关于帧中的病变的参考答案。在一些实施例中，参考值可以包括以下中的至少一个：感兴趣的病变的存在、感兴趣的病变的大小、感兴趣的病变的位置、感兴趣的病变的组织学类型、感兴趣的病变的区域以及与感兴趣的病变相关的诊断。由CNN确定的帧病变预测候选可以对应于参考值，例如，帧病变预测候选还可以包括感兴趣的病变的存在、感兴趣的病变的大小、感兴趣的病变的位置、感兴趣的病变的组织学类型、感兴趣的病变的区域以及与感兴趣的病变相关的诊断中的至少一个。在其它实施例中，帧病变预测候选可以是病变识别、病变检测、病变定位、病变分裂和疾病诊断中的至少一个。在这种情况下，参考值是病变识别、病变检测、病变定位、病变分裂和疾病诊断中的至少一个。

在步骤b)，除了每个CNN组中除最后一个CNN之外的CNN被用于预测每个训练帧的帧病变预测候选。每个使用的CNN的预测过程可以类似于参考图6描述的过程，并且使用的CNN之间的信息传输可以类似于参考图3描述的信息传输。

在步骤c)，比较每个训练帧的帧病变预测候选和参考值，以获得针对每个训练帧的第一训练误差。在本实施例中，第一训练误差表示所使用的CNN的预测与帧的参考值之间的差异，这可以反映所使用的CNN的训练程度。

在步骤d)，步骤b)中使用的CNN的输出被输入到每个CNN组中的最后的CNN，并且每个CNN组中的最后的CNN可以根据先前CNN的级联输出预测每个帧的最终帧病变预测候选。预测过程可以类似于参考图6描述的过程。

在步骤e)，可以比较每个训练帧的最终帧病变预测候选和最终参考值，以获得每个训练帧的第二训练误差。在本公开中，最终参考值可以表示关于整个训练医学视频或医学视频片段的参考答案。在一些实施例中，最终参考值可以是医学视频的最后一帧的参考值。

在步骤f)，第一训练误差和第二训练误差被反向传播到CNN组以调整CNN组中CNN的参数。在本实施例中，CNN的参数可以是CNN的神经元之间的连接权重。此外，在一些实施例中，第一训练误差和第二训练误差的和可以被反向传播到CNN组，以调整CNN的神经元之间的连接权重。

可以重复步骤a)-f)，直到第一训练误差和第二训练误差收敛。通过重复步骤a)-g)，CNN组中的CNN的参数可以根据后向传播的误差不断地优化，并且误差逐渐减小。当所有误差不能进一步减少时，重复可以停止并且训练过程结束。

在一些实施例中，本申请的方法还可以包括对CNN组中除最后CNN之外的CNN进行预训练。预训练过程可以包括：

h)向CNN组中除最后一个CNN外的CNN输入训练图像；

i)由CNN组中除最后一个CNN之外的CNN预测每个输入的训练图像的图像预测候选；

j)将所述图像预测候选与所述输入的训练图像中的每一个的参考值进行比较，得到所述输入的训练图像中的每一个的图像误差；

k)将图像误差后向传播至除最后一个CNN外的CNN并调整其参数；以及

l)重复步骤h)-k)，直到图像误差收敛。

步骤h)-j)类似于上述步骤a)-c)，并且它们之间的区别在于预训练过程使用图像作为训练数据。然而，应当注意，预训练过程也可以使用视频数据作为训练数据。对于步骤k)，因为预训练过程仅训练CNN组中除最后CNN之外的CNN，所以仅一组误差(即图像的检测和定位误差)被反向传播。与上述训练过程类似，预训练过程也重复多次，直到该组误差收敛。

在一些实施例中，可以通过分别输入公共非医学图像和公共医学图像作为训练图像来执行预训练过程。具体地，CNN组中除最后一个CNN之外的CNN首先由公共非医学图像预训练，然后由公共医学图像预训练。这样，除了CNN组中的最后一个CNN之外的CNN可以被逐渐优化以适于医学预测。

在分别使用公共非医学图像和公共医学图像进行预训练之后，CNN组中的所有CNN可以通过训练步骤a)-g)使用特定的医学视频数据进行训练。特定的医学视频数据可以是特定的目标医学视频数据。在这三个阶段之后，可以训练所有CNN以适合特定的医学诊断。

在一些实施例中，在由步骤a)-g)组成的训练过程和由步骤h)-1)组成的预训练期间，训练帧的数量和CNN的精度可以根据应用该方法的设备动态地改变。例如，如果应用本公开的方法的设备具有有限的计算资源，则可以减少训练帧的数量和CNN的精确度；如果应用本公开的方法的设备具有足够的计算资源，则可以增加训练帧的数量和CNN的精确度。这可以使得本公开的方法更适合于具有不同计算资源的设备。

在一些实施例中，为了使帧更清晰并消除可能干扰预测的一些噪声，本发明的方法可包括通过缩放、亮度和对比度调整、色彩变换、锐化和模糊中的至少一者来预处理医学视频数据的帧。

在一些实施例中，除了将标记有最终预测的医学视频数据实时地输出到显示设备之外，还可以将其发送至外围设备，例如通用IO设备、无线收发器、USB接收器或外围存储器，以便适应不同的应用场景。例如，可以将标有最终预测的医学视频数据发送到外围存储器以进行备份，或者可以将标有最终预测的医学视频数据发送到无线收发器以与其他地方的内窥镜医生共享。

本公开还提供了一种自动诊断装置，该装置包括：处理器；以及存储器，联接至处理器，用于存储能够由处理器执行的指令，以构建CNN组并执行操作：通过包括串联连接的多个CNN的CNN组依次接收预定数量的医学视频数据的帧；通过CNN组预测每个帧的病变预测；以及输出各自标记有病变预测的帧；其中，对于每个输入的帧，预测包括：通过CNN组中的第一CNN从输入的帧中提取特征；通过第一CNN基于所提取的特征来确定对输入的帧的预测；通过第一CNN之后的每个CNN从其输入中提取特征，其中通过级联来自先前CNN的至少一个最新输出来生成输入到第一CNN之后的每个CNN的输入，并且每个CNN的输出是所提取的特征和所确定的预测中的至少一个；以及由第一CNN之后的每个CNN基于其所提取的特征来确定输入的帧的预测，其中来自CNN组中的最后CNN的预测被输出为输入的帧的病变预测。

在一个实施例中，CNN组中的每个CNN包括串联连接的多个特征提取器层以及在特征提取器层中的最后一个特征提取器层之后的至少一个预测器，其中，每个特征提取器层包括并联连接的多个特征提取器，并且每个特征提取器提取针对其输入的特征，第一特征提取器层中的每个特征提取器的输入是相应CNN的输入，在第一特征提取器层之后的每个特征提取器层的输入是由先前特征提取器层中的所有特征提取器提取的特征的总和，每个预测器的输入是由最后的特征提取器层中的所有特征提取器提取的特征的和，并且预测器基于其输入来确定预测。

在一个实施例中，特征提取器中的每一个具有多个卷积层，并且具有第一结构、第二结构和平行结构中的至少一个，在第一结构中，每个卷积层连接到其所有后续卷积层；在第二结构中，每个卷积层连接到下一层或下两层的卷积层；以及在并联结构中，第一结构和第二结构并联连接。

在一个实施例中，CNN组中的每个CNN包括一个预测器，并且由一个预测器确定的预测是用于不同预测任务的多个预测的组合。

在一个实施例中，CNN组中的每个CNN包括多个预测器，并且由多个预测器确定的预测分别用于不同预测任务。

在一个实施例中，所述操作还包括：通过以下方式训练CNN组：a)向CNN组输入预定数量的医学视频数据的训练帧；b)通过CNN组中除最后一个CNN外的CNN预测每个训练帧的帧病变预测候选；c)比较每个训练帧的帧病变预测候选与参考值，得到针对每个训练帧的第一训练误差；d)通过CNN组中的最后一个CNN根据先前CNN的级联输出预测每个训练帧的最终帧病变预测候选；e)比较每个训练帧的最终帧病变预测候选与最终参考值，得到针对每个训练帧的第二训练误差；f)将第一训练误差和第二训练误差后向传播至CNN组，以调整CNN的参数；以及g)重复步骤a)-f)，直到第一训练误差和第二训练误差收敛。

在一个实施例中，后向传播包括：后向传播第一训练误差和第二训练误差的和到CNN组以调整CNN的参数。

在一个实施例中，所述操作还包括：通过以下方式预训练CNN组中除最后一个CNN外的CNN：h)向CNN组中除最后一个CNN外的CNN输入训练图像；i)由CNN组中除最后一个CNN之外的CNN预测每个输入的训练图像的图像预测候选；j)将图像预测候选与输入的训练图像中的每一个的参考值进行比较，得到针对输入的训练图像中的每一个的图像误差；k)将图像误差后向传播至除最后一个CNN外的CNN并调整其参数；以及1)重复步骤h)-k)，直到图像误差收敛。

在一个实施例中，通过分别输入公共非医学图像和公共医学图像作为训练图像来执行预训练。

在一个实施例中，训练医学视频数据是特定目标医学视频数据。

在一个实施例中，最终参考值是最后的训练帧的参考值。

在一个实施例中，帧病变预测候选和最终预测候选中的每一者包含病变识别、病变检测、病变定位、病变分裂和疾病诊断中的至少一者。

在一个实施例中，每个训练帧的参考值包括以下中的至少一个：感兴趣的病变的存在、感兴趣的病变的大小、感兴趣的病变的位置、感兴趣的病变的组织学类型、感兴趣的病变的区域以及与感兴趣的病变相关的诊断。

在一个实施例中，多个CNN的数量以及数据精度根据应用所述方法的设备动态改变。

在一个实施例中，所述操作还包括：通过缩放、亮度和对比度调整、色彩变换、锐化和模糊中的至少一个对医学视频数据的帧进行预处理。

在一个实施例中，所述操作还包括：将标记有病变预测的医学视频数据实时输出到外围设备。

图9是示出适于实现本申请的系统的示意图。

系统900可以是移动终端、个人计算机(PC)、平板计算机、服务器等。在图9中，系统900包括一个或多个处理器、通信部分等。一个或多个处理器可以是：一个或多个中央处理单元(CPU)901和/或一个或多个图像处理器(GPU)913和/或一个或多个域专用深度学习加速器(XPU)等。处理器可根据存储在只读存储器(ROM)902中的可执行指令或从存储单元908加载到随机存取存储器(RAM)903中的可执行指令来执行各种适当的动作和过程。通信部分912可以包括但不限于网卡和/或特定媒体接收器。网卡可以包括但不限于IB(Infiniband)网卡。特定媒体接收器可以包括但不限于高清晰度SDI图像/视频接收机。处理器可与只读存储器902和/或RAM 903通信以执行可执行指令，通过总线904连接到通信部分912并通过通信部分912与其它目标设备通信以完成本申请中的相应步骤。在本申请的特定示例中，由处理器执行的步骤包括：通过包括串联连接的多个CNN的CNN组依次接收预定数量的医学视频数据的帧；通过CNN组预测每个帧的病变预测；以及输出各自标记有病变预测的帧；其中，对于每个输入的帧，预测包括：通过CNN组中的第一CNN从输入的帧中提取特征；通过第一CNN基于所提取的特征来确定对输入的帧的预测；通过第一CNN之后的每个CNN从其输入中提取特征，其中通过级联来自先前CNN的至少一个最新输出来生成输入到第一CNN之后的每个CNN的输入，并且每个CNN的输出是所提取的特征和所确定的预测中的至少一个；以及由第一CNN之后的每个CNN基于其所提取的特征来确定输入的帧的预测，其中来自CNN组中的最后CNN的预测被输出为输入的帧的病变预测。

此外，在RAM 903中，也可以存储设备操作所需的各种程序和数据。CPU 901、ROM902和RAM 903通过总线904彼此连接。在存在RAM 903的情况下，ROM 902是可选模块。RAM903在操作期间存储可执行指令或将可执行指令写入ROM 902，且可执行指令致使中央处理单元901执行包括在本申请的任一实施例的方法中的步骤。输入/输出(I/O)接口905也连接到总线904。通信部分912可以被集成，并且还可以被分别提供有多个子模块(例如，多个IB网卡)并且连接到总线904。

以下组件连接到I/O接口905：输入单元906，包括键盘、鼠标等；输出单元907，包括诸如阴极射线管(CRT)、液晶显示器(LCD)和扬声器等；存储单元908，包括硬盘等；以及通信单元909，包括诸如LAN卡、调制解调器等的网络接口卡。通信单元909经由诸如因特网的网络和/或USB接口和/或PCIE接口执行通信处理。根据需要，驱动器910还连接到I/O接口905。可移动介质911，例如磁盘、光盘、磁光盘、半导体存储器，根据需要安装在驱动器910上，以便根据需要将从中读取的计算机程序安装在存储单元908中。

应注意，图9中所示的架构仅为可选实施方案。在具体的实施过程中，可以根据实际需要选择、删除、添加或替换如图9所示的部件的数量和类型。在设置不同的功能部分时，也可以采用诸如单独设置或集成设置之类的实现，例如，GPU和CPU可以单独设置，并且再次出于相同的原因，GPU可以集成在CPU上，通信部分可以单独设置，并且也可以集成在CPU或GPU上。这些替代实施都落入本申请的保护范围内。

特别地，根据本申请的实施例，上面参考流程图描述的过程可以被实现为计算机软件程序，例如，本申请的实施例包括计算机程序产品，该计算机程序产品包括有形地包括在机器可读介质中的计算机程序。该计算机程序包括用于执行流程图中所示的步骤的程序代码。程序代码可以包括相应的指令，以相应地执行由本申请的任何实施例提供的方法中的步骤，包括：通过包括串联连接的多个CNN的CNN组依次接收预定数量的医学视频数据的帧；通过CNN组预测每个帧的病变预测；以及输出各自标记有病变预测的帧；其中，对于每个输入的帧，预测包括：通过CNN组中的第一CNN从输入的帧中提取特征；通过第一CNN基于所提取的特征来确定对输入的帧的预测；通过第一CNN之后的每个CNN从其输入中提取特征，其中通过级联来自先前CNN的至少一个最新输出来生成输入到第一CNN之后的每个CNN的输入，并且每个CNN的输出是所提取的特征和所确定的预测中的至少一个；以及由第一CNN之后的每个CNN基于其所提取的特征来确定输入的帧的预测，其中来自CNN组中的最后CNN的预测被输出为输入的帧的病变预测。

在这样的实施例中，计算机程序可以通过通信单元909从网络下载和安装，和/或从可移动介质911安装。当计算机程序由中央处理单元(CPU)901和/或GPU 913和/或XPU执行时，执行本申请中描述的上述指令。

如本领域技术人员将理解的，本公开可以被实现为具有域专用硬件和计算机程序产品的系统、方法或装置。因此，本发明可采取完全硬件实施例和硬件方面的形式，其在本文中可统称为“单元”、“电路”、“模块”或“系统”。当实现本发明的许多功能和许多本发明的原理时，优选由集成电路(IC)支持，例如数字信号处理器和软件或应用专用IC。可以预期，本领域的普通技术人员，尽管可能有由例如可用时间、当前技术和经济考虑所激发的大量努力和许多设计选择，但是当由在此公开的构思和原理指导时，将能够容易地以最小的实验生成IC。因此，为了简洁和最小化使根据本公开的原理和构思模糊的任何风险，对这种软件和IC(如果有的话)的进一步讨论将限于关于优选实施例所使用的原理和构思的要点。此外，本发明可以采取完全软件实施例(包括固件、驻留软件、微代码等)或组合软件的实施例的形式。例如，系统可以包括存储可执行组件的存储器和处理器，该处理器电联接到存储器以执行可执行组件来执行系统的操作，如参考图1-8B所讨论的。此外，本发明可以采用在任何有形的表达介质中实现的计算机程序产品的形式，该表达介质具有在该介质中实现的计算机可用程序代码。

本公开还提供了一种其中存储有指令的非暂时性机器可读介质，所述指令在由处理器执行时使得所述处理器执行用于自动诊断的操作，所述操作包括：通过包括串联连接的多个CNN的CNN组依次接收预定数量的医学视频数据的帧；通过CNN组预测每个帧的病变预测；以及输出各自标记有病变预测的帧；其中，对于每个输入的帧，预测包括：通过CNN组中的第一CNN从输入的帧中提取特征；通过第一CNN基于所提取的特征来确定对输入的帧的预测；通过第一CNN之后的每个CNN从其输入中提取特征，其中通过级联来自先前CNN的至少一个最新输出来生成输入到第一CNN之后的每个CNN的输入，并且每个CNN的输出是所提取的特征和所确定的预测中的至少一个；以及由第一CNN之后的每个CNN基于其所提取的特征来确定输入的帧的预测，其中来自CNN组中的最后CNN的预测被输出为输入的帧的病变预测。

尽管已经描述了本公开的优选实施例，但是本领域技术人员可以在知道基本发明构思的情况下对这些实施例进行改变或修改。所附权利要求旨在被认为包括优选的实施例，并且所有的变化或修改都落入本公开的范围内。

显然，本领域技术人员可以在不脱离本公开的精神和范围的情况下对本公开进行变化或修改。因此，如果这些变化或修改属于权利要求书和等效技术的范围，则它们也可以落入本公开的范围内。

Claims

1.一种用于自动诊断的方法，包括：

通过包括串联连接的多个CNN的CNN组依次接收预定数量的医学视频数据的帧；

通过所述CNN组预测每个所述帧的病变预测；以及

输出各自标记有所述病变预测的所述帧；

其中，对于每个输入的帧，所述预测包括：

通过所述CNN组中的第一CNN从所述输入的帧中提取特征；

通过所述第一CNN基于所提取的特征来确定对所述输入的帧的预测；

通过所述第一CNN之后的每个CNN从其输入中提取特征，其中通过级联来自先前CNN的至少一个最新输出来生成输入到所述第一CNN之后的每个CNN的输入，并且每个CNN的输出是所提取的特征和所确定的预测中的至少一个；以及

由所述第一CNN之后的每个CNN基于其所提取的特征来确定所述输入的帧的预测，其中来自所述CNN组中的最后CNN的预测被输出为所述输入的帧的病变预测。

2.如权利要求1所述的方法，其中，所述CNN组中的每个CNN包括串联连接的多个特征提取器层以及在所述特征提取器层中的最后一个特征提取器层之后的至少一个预测器，

其中，每个所述特征提取器层包括并联连接的多个特征提取器，并且每个特征提取器提取针对其输入的特征，

第一特征提取器层中的每个特征提取器的输入是相应CNN的输入，

在所述第一特征提取器层之后的每个特征提取器层的输入是由先前特征提取器层中的所有特征提取器提取的特征的总和，

每个所述预测器的输入是由最后的特征提取器层中的所有特征提取器提取的特征的和，并且所述预测器基于其输入来确定预测。

3.如权利要求2所述的方法，其中，所述特征提取器中的每一个具有多个卷积层，并且具有第一结构、第二结构和平行结构中的至少一个，

在所述第一结构中，每个所述卷积层连接到其所有后续卷积层；

在所述第二结构中，每个所述卷积层连接到下一层或下两层的卷积层；以及

在并联结构中，所述第一结构和所述第二结构并联连接。

4.如权利要求2所述的方法，其中，所述CNN组中的每个CNN包括一个预测器，并且由所述一个预测器确定的预测是用于不同预测任务的多个预测的组合。

5.如权利要求2所述的方法，其中，所述CNN组中的每个CNN包括多个预测器，并且由所述多个预测器确定的预测分别用于不同预测任务。

6.如权利要求2所述的方法，还包括：

通过以下方式训练所述CNN组：

a)向所述CNN组输入预定数量的医学视频数据的训练帧；

b)通过所述CNN组中除最后一个CNN外的CNN预测每个所述训练帧的帧病变预测候选；

c)比较每个所述训练帧的帧病变预测候选与参考值，得到针对每个所述训练帧的第一训练误差；

d)通过所述CNN组中的最后一个CNN根据先前CNN的级联输出预测每个所述训练帧的最终帧病变预测候选；

e)比较每个所述训练帧的最终帧病变预测候选与最终参考值，得到针对每个训练帧的第二训练误差；

f)将所述第一训练误差和所述第二训练误差后向传播至所述CNN组，以调整CNN的参数；以及

g)重复步骤a)-f)，直到所述第一训练误差和所述第二训练误差收敛。

7.如权利要求6所述的方法，其中，所述后向传播包括：

后向传播所述第一训练误差和所述第二训练误差的和到所述CNN组以调整CNN的参数。

8.如权利要求2所述的方法，还包括：

通过以下方式预训练所述CNN组中除最后一个CNN外的CNN：

h)向所述CNN组中除最后一个CNN外的CNN输入训练图像；

i)由所述CNN组中除最后一个CNN之外的CNN预测每个输入的所述训练图像的图像预测候选；

j)将所述图像预测候选与输入的所述训练图像中的每一个的参考值进行比较，得到针对输入的所述训练图像中的每一个的图像误差；

k)将所述图像误差后向传播至所述除最后一个CNN外的CNN并调整其参数；以及

l)重复步骤h)-k)，直到所述图像误差收敛。

9.如权利要求8所述的方法，其中，通过分别输入公共非医学图像和公共医学图像作为所述训练图像来执行所述预训练。

10.如权利要求6所述的方法，其中，所述训练医学视频数据是特定目标医学视频数据。

11.如权利要求6所述的方法，其中，所述最终参考值是最后的训练帧的参考值。

12.如权利要求6所述的方法，其中，所述帧病变预测候选和所述最终预测候选中的每一者包含病变识别、病变检测、病变定位、病变分裂和疾病诊断中的至少一者。

13.如权利要求6所述的方法，其中，每个所述训练帧的所述参考值包括以下中的至少一个：感兴趣的病变的存在、感兴趣的病变的大小、感兴趣的病变的位置、感兴趣的病变的组织学类型、感兴趣的病变的区域以及与感兴趣的病变相关的诊断。

14.如权利要求6所述的方法，其中，所述多个CNN的数量以及数据精度根据应用所述方法的设备动态改变。

15.如权利要求1所述的方法，还包括：

通过缩放、亮度和对比度调整、色彩变换、锐化和模糊中的至少一个对所述医学视频数据的帧进行预处理。

16.如权利要求1所述的方法，还包括：

将标记有病变预测的医学视频数据实时输出到外围设备。

17.一种自动诊断装置，包括：

处理器；以及

存储器，联接至所述处理器，用于存储能够由所述处理器执行的指令，以构建CNN组并执行操作：

通过所述CNN组预测每个所述帧的病变预测；以及

输出各自标记有所述病变预测的所述帧；

其中，对于每个输入的帧，所述预测包括：

通过所述CNN组中的第一CNN从所述输入的帧中提取特征；

18.如权利要求17所述的装置，其中，所述CNN组中的每个CNN包括串联连接的多个特征提取器层以及在所述特征提取器层中的最后一个特征提取器层之后的至少一个预测器，

19.如权利要求18所述的装置，其中，所述特征提取器中的每一个具有多个卷积层，并且具有第一结构、第二结构和平行结构中的至少一个，

在并联结构中，所述第一结构和所述第二结构并联连接。

20.如权利要求18所述的装置，其中，所述CNN组中的每个CNN包括一个预测器，并且由所述一个预测器确定的预测是用于不同预测任务的多个预测的组合。

21.如权利要求18所述的装置，其中，所述CNN组中的每个CNN包括多个预测器，并且由所述多个预测器确定的预测分别用于不同预测任务。

22.如权利要求18所述的装置，其中，所述操作还包括：

通过以下方式训练所述CNN组：

a)向所述CNN组输入预定数量的医学视频数据的训练帧；

23.如权利要求22所述的装置，其中，所述后向传播包括：

24.如权利要求18所述的装置，其中，所述操作还包括：

通过以下方式预训练所述CNN组中除最后一个CNN外的CNN：

h)向所述CNN组中除最后一个CNN外的CNN输入训练图像；

l)重复步骤h)-k)，直到所述图像误差收敛。

25.如权利要求24所述的装置，其中，通过分别输入公共非医学图像和公共医学图像作为所述训练图像来执行所述预训练。

26.如权利要求22所述的装置，其中，所述训练医学视频数据是特定目标医学视频数据。

27.如权利要求22所述的装置，其中，所述最终参考值是最后的训练帧的参考值。

28.如权利要求22所述的装置，其中，所述帧病变预测候选和所述最终预测候选中的每一者包含病变识别、病变检测、病变定位、病变分裂和疾病诊断中的至少一者。

29.如权利要求22所述的装置，其中，每个所述训练帧的所述参考值包括以下中的至少一个：感兴趣的病变的存在、感兴趣的病变的大小、感兴趣的病变的位置、感兴趣的病变的组织学类型、感兴趣的病变的区域以及与感兴趣的病变相关的诊断。

30.如权利要求22所述的装置，其中，所述多个CNN的数量以及数据精度根据应用所述方法的设备动态改变。

31.如权利要求17所述的装置，其中，所述操作还包括：

32.如权利要求17所述的装置，其中，所述操作还包括：

将标记有病变预测的医学视频数据实时输出到外围设备。

33.一种自动诊断系统，包括：

内窥镜，用于获得内窥镜检查数据；

诊断装置，用于接收内窥镜检查数据，并且包括：

处理器；以及

通过所述CNN组预测每个所述帧的病变预测；以及

输出各自标记有所述病变预测的所述帧；

其中，对于每个输入的帧，所述预测包括：

通过所述CNN组中的第一CNN从所述输入的帧中提取特征；

34.一种其中存储有指令的非暂时性机器可读介质，所述指令在由处理器执行时使得所述处理器执行用于自动诊断的操作，所述操作包括：

通过所述CNN组预测每个所述帧的病变预测；以及

输出各自标记有所述病变预测的所述帧；

其中，对于每个输入的帧，所述预测包括：

通过所述CNN组中的第一CNN从所述输入的帧中提取特征；