CN112041912A

CN112041912A - 用于诊断肠胃肿瘤的系统和方法

Info

Publication number: CN112041912A
Application number: CN201980025246.5A
Authority: CN
Inventors: 许志仲; 李宗錞
Original assignee: American Scobie Artificial Intelligence Co ltd
Current assignee: American Scobie Artificial Intelligence Co ltd
Priority date: 2018-02-12
Filing date: 2019-02-12
Publication date: 2020-12-04
Also published as: TW201941217A; EP3753006A1; WO2019157508A1; US20190252073A1; TWI823897B; JP2021513435A; US11011275B2

Abstract

一种于内视镜检查系统中诊断胃肠道肿瘤或病理的系统及方法，该内视镜检查系统包含用于显示图像增强内视镜(IEE)图像的一内视镜系统显示器。该方法包含借由一对抗网络(AN)随机生成具有或不具有癌症区域的训练图像样本，该对抗网络包含收集内视镜训练图像(T1)并使用来自一生成分段地图的该AN中的一生成器，自动生成一逼真的IEE图像作为一新的训练图像样本(T2)；使用一预测网络(L1PN)从该所收集的T1及该T2，学习一1级预测结果，该1级预测结果为一IEE图像的一癌变概率；使用一预测网络(L2PN)学习一2级预测结果，该2级预测结果为一IEE图像所侦测到的癌变区域；及使用该L1PN及该L2PN并且不使用AN，预测IEE图像的该1级结果及该2级结果。

Description

用于诊断肠胃肿瘤的系统和方法

相关申请

此申请案请求于2018年2月12日提交的美国专利临时申请案第62/629,600号的优先权权利，该专利申请案的全部内容以引用的方式并入本文中。

技术领域

所揭露的技术系关于内视镜检查，更具体而言，系关于借由内视镜检查早期诊断及侦测早期胃癌(及其他胃肠道癌症)。

背景技术

借由内视镜检查诊断胃肠道(GI)癌症的需求正在增加，但仅有有限数量的、富有经验的内视镜检查医生可侦测到并且不会错过病变(尤其是早期癌症)。因此，计算机辅助诊断，经由深度学习的进步，比传统的图像特征分析方法(在一些研究中，约50-70％的水平))显著提高准确性/敏感性/特异性表现(高达95％的水平)，可帮助医生进行内视镜检查，以诊断及侦测早期胃肠癌。

已发现使用预定图像特征诊断早期胃癌的习知图像分析方法仅达成在约50-70％的范围内的准确性、灵敏度及特异性。

发明内容

该技术的系统与方法各自具有若干态样，其中没有一个态样单独负责其期望的属性。在不限制本发明范围的情况下，现将简要探讨一些态样。

在该发展的一个态样中，存在一种在内视镜检查系统中诊断胃肠肿瘤或病理的方法，该内视镜系统包含用于显示图像增强内视镜(IEE)图像的内视镜系统显示器，该方法包括以下步骤：借由对抗网络(AN)生成具有或不具有癌症区域的训练图像样本，包括收集内视镜训练图像(T1)；根据相应分段地图(S1)将训练图像划分为训练正常区块以及训练癌变(cancerous)区块；使用来自训练癌变区块的癌变生成对抗网络(CGAN)，学习自动生成癌变区块；使用来自训练正常区块的正常生成对抗网络(NGAN)，学习自动生成正常IEE图像区块；随机生成分段地图(S2)，分段地图(S2)包括基于自动生成的癌变区块及自动生成的正常IEE图像区块之黑白图像，其中任何白色像素表示癌变区域，并且其中分段地图可仅有黑色像素，其为无癌症的表示；使用来自被生成之分段地图之AN中的生成器网络，学习自动生成逼真的IEE图像作为新的训练图像样本(T2)；使用1级预测网络(L1PN)，学习1级预测结果，1级预测结果为来自所收集的T1及T2之IEE图像的癌变概率，其中T2由AN生成；使用2级预测网络(L2PN)，学习2级预测结果，2级预测结果为来自所收集的T1及T2之IEE图像所侦测到的癌变区域，其中T2由AN生成；及使用L1PN及L2PN并且不使用AN，预测IEE图像的1级结果及2级结果。

IEE图像可包含放大的窄频影像技术、细胞内视显微镜、i-SCAN、柔性光谱成像颜色增强、蓝色激光成像及亮激光成像中的至少一种。分段地图(S1)可包括参考标准(groundtruth)。参考标准可能由医师标记。该方法还可包括以下步骤：基于所收集的内视镜训练图像，生成附加训练图像，该生成步骤包括：旋转或翻转所收集的内视镜训练图像以创建一个或更多个增强训练图像；提供分辨率大于所收集的内视镜训练图像的引导分段地图；随机裁剪引导分段地图，以获得分辨率等于所收集的内视镜训练图像分辨率的子地图；并且将子地图与每个增强的训练图像重迭(multiplying)，以便产生额外的训练图像。2级预测结果之所侦测到的癌变区域可为像素级别的分辨率。

在该发展的另一个态样中，存在一种用于诊断内视镜检查系统中的胃肠道肿瘤或病理的系统，包括用于显示图像增强内视镜(IEE)图像的内视镜系统显示器，该系统包括：用于借由对抗网络(AN)生成具有或不具有癌症区域的训练图像样本之装置，包括用于收集内视镜训练图像(T1)之装置；根据相应分段地图(S1)，用于将训练图像划分为训练正常区块以及训练癌变区块之装置；使用来自训练癌变区块的癌变生成对抗网络(CGAN)，用于学习自动生成癌变区块之装置；使用来自训练正常区块的正常生成对抗网络(NGAN)，用于学习自动生成正常IEE图像区块之装置；用于随机生成分段地图(S2)之装置，分段地图(S2)包括基于自动生成的癌变区块及自动生成的正常IEE图像区块之黑白图像，其中任何白色像素表示癌变区域，并且其中分段地图可仅有黑色像素，其为无癌症的表示；使用来自所生成的分段地图之AN中的生成器网络，用于学习自动生成逼真的IEE图像作为新的训练图像样本(T2)之装置；使用1级预测网络(L1PN)，用于学习1级预测结果之装置，1级预测结果为来自所收集的T1及T2之IEE图像的癌变概率，其中T2由AN生成；使用2级预测网络(L2PN)，用于学习2级预测结果之装置，2级预测结果为来自所收集的T1及T2之IEE图像所侦测到的癌变区域，其中T2由AN生成；及使用L1PN及L2PN并且不使用AN，用于预测IEE图像的1级结果及2级结果之装置。

IEE图像可包含放大的窄频影像技术、细胞内视显微镜、i-SCAN、柔性光谱成像颜色增强、蓝色激光成像及亮激光成像中的至少一种。分段地图(S1)可包括参考标准(groundtruth)。参考标准可能由医师标记。该系统可额外包括基于所收集的内视镜训练图像，用于生成附加训练图像之装置，该生成装置包括：用于旋转或翻转所收集的内视镜训练图像之装置，以创建一个或更多个增强训练图像；用于提供分辨率大于所收集的内视镜训练图像的引导分段地图之装置；用于随机裁剪引导分段地图之装置，以获得分辨率等于所收集的内视镜训练图像分辨率的子地图；并且使用用于将子地图与每个增强的训练图像相乘之装置，以便产生额外的训练图像。

2级预测结果之所侦测到的癌变区域可为像素级别的分辨率。

在该发展的另一态样中，存在一种在内视镜检查系统中，借由对抗网络(AN)随机生成具有或不具有癌症区域的训练图像样本的方法，该内视镜检查系统用于诊断胃肠肿瘤或病理，包含用于显示图像增强内视镜(IEE)图像的内视镜系统显示器，该方法包括以下步骤：提供内视镜训练图像(T1)、根据相应分段地图(S1)将训练图像划分为训练正常区块与训练癌变区块、使用来自训练癌变区块的癌变生成对抗网络(CGAN)学习自动生成癌变图像区块、使用来自训练正常区块的正常生成对抗网络(NGAN)学习自动生成正常图像区块、随机生成分段地图(S2)，分段地图(S2)包括基于自动生成的癌变图像区块及自动生成正常图像区块的图像，并从生成的分段地图，使用AN中的生成器网络，学习自动生成逼真的IEE图像作为新的训练图像样本(T2)。

任何白色像素可表示分段地图中的癌变区域，并且其中分段地图可仅有黑色像素，其为无癌症的表示。

在该发展的另一个态样中，存在一种在内视镜检查系统中诊断胃肠肿瘤或病理的方法，该系统包含用于显示图像增强内视镜(IEE)图像的内视镜系统显示器，该方法包括以下步骤：使用1级预测网络(L1PN)，特征提取，然后进行分段以学习1级预测结果，1级预测结果为来自所收集的训练图像之IEE图像的癌变概率；使用2级预测网络(L2PN)，特征提取提供预测网络以学习2级预测结果，2级预测结果为来自所收集的训练图像之IEE图像所侦测到的癌变区域，并使用L1PN与L2PN预测IEE图像的1级结果与2级结果。

在该发展的又一个态样中，存在一种用于处理放射学图像的系统，包括：特征提取网络，配置成接收待处理的放射学图像；分段网络，配置成接收特征提取网络的输出并生成癌变定位结果；及预测网络，配置成接收特征提取网络的输出并生成癌症侦测结果。

附图说明

此申请案内含至少一个由彩色打印的图式。此专利具有彩色图式的副本将在请求及支付必要费用后由主管机关提供。

图1为示出计算机辅助诊断系统的总体框架的一方块图，该系统包括用于图像识别的人工智能组件，称为AISKOPY系统。

图2为示出AISKOPY系统的训练阶段的一方块图。

图3为示出特征提取器、分段及预测网络的网络架构的一方块图。

图4为示出用于对抗性网络(AN)的训练阶段的数据增强方法的一方块图。

图5为示出AN训练阶段的一方块图。

图6为示出生成器及鉴别器网络的网络架构的一方块图。

图7为示出1级及2级预测的测试阶段的一方块图。

图8为识别与医师注释的癌变区域输出形成对比的癌变区域的2级预测网络输出的一图像范例。

图9为识别与医师注释的癌变区域输出形成对比的癌变区域的2级预测网络输出的另一图像范例。

图10为识别与医师注释的癌变区域输出形成对比的癌变区域的2级预测网络输出的另一图像范例。

图11为识别与医师注释的癌变区域输出形成对比的癌变区域的2级预测网络输出的另一图像范例。

图12为识别与医师注释的癌变区域输出形成对比的癌变区域的2级预测网络输出的又另一图像范例。

具体实施方式

某些示意性实施例的以下详细描述呈现了本发明的特定实施例的各种描述。然而，本发明能以多种不同方式实施。

在此呈现的描述中使用的术语仅因其与本发明的某些特定实施例的详细描述一起使用，并非意图以任何限制或限制性的方式解释。此外，本发明的实施例可包含若干新颖特征，其中没有一个特征单独负责其期望的属性或对于实践本文所述的发明为不可或缺的。

表示数据关系与模式的模型(如函数、算法、系统等)可接受输入(有时称为输入向量)，并以某种方式产生对应于输入的输出(有时称为输出向量)。举例而言，模型可实现为人工神经网络(NN)。由于人工神经网络为计算实体，故在某种意义上是人工的，类似于动物中的生物神经网络，但由计算设备实现。基于NN的模型中的输出借由前向传递获得。前向传递涉及将表示模型参数的大NN权重矩阵，乘以对应于输入特征向量或隐藏中间表示的向量。在识别系统中，如设计用于识别语音、手写文字、面部等的系统，基于NN的模型可借着前向传递生成概率分数。概率分数可指示输入对应于特定标签、类别等的概率。

可在称为训练的过程中设置NN的参数。举例而言，可使用训练数据训练基于NN的模型，该训练数据报含输入数据，及对应输入数据的模型的正确或较佳输出。可借由使用输入矩阵而非单个输入向量同时处理各个输入向量的集合。NN可重复处理输入数据，并且可修改NN的参数(如，权重矩阵)，直到模型产生(或收敛至)正确或较佳的输出。可借由称为反向传播的过程来执行权重值的修改。反向传播包含决定预期模型输出及获得的模型输出之间的差异，随后决定如何修改模型的一些或所有参数的值，以减小预期模型输出与获得的模型输出之间的差异。

一般而言，人工神经网络(包含但不限于深度神经网络)具有多层节点。示意性地，NN可包含输入层与输出层，及输入与输出层之间的任何数量的中间或隐藏层。各个层可包含任何数量的单独节点。相邻层的节点可彼此连接，并且相邻层的各个节点之间的每个连接可与相应的权重相关联。从概念上而言，节点可被认为是计算单元，其计算输出值作为复数个不同输入值的函数。输入值可包含先前层中的节点的输出，乘以与先前层中的节点与当前节点之间的连接相关联的权重。当NN以输入向量矩阵(如，一批训练资料输入向量)的形式处理输入资料时，NN可执行正向传递以生成输出向量矩阵。输入向量每个可包含n个单独的数据元素或维度，对应于NN输入层的n个节点(其中n为某个正整数)。每个资料元可为一值，如浮点数或整数。前向传递包含将输入向量矩阵，乘以表示与输入层的节点与下一层的节点之间的连接相关联的权重的矩阵，并将激活函数应用于结果。然后对每个后续NN层重复该过程。

借由使用端到端深度学习方法，早期胃癌的诊断与癌症区域侦测的效能在至少一项研究中实现了跨越式改进，达到85-95％的范围。

一般而言，深度学习需要大规模的训练集才能在各种任务上达到良好且稳定的表现。然而，在诸如医学成像或从新设备捕获的成像的若干应用中没有足够的训练样本。此发展提供了一种有效且高效的深度学习框架，可用于小规模训练样本以进行指定的目标定位及侦测。

该发展的范例性使用案例包含，胃肠癌侦测及内视镜检查系统的定位或补充。系统可专注于对图像增强内视镜(IEE)图像(例如，放大的窄频影像内视镜)的早期胃癌的诊断及侦测，但相同的工作模型与过程亦可应用于其他胃肠道病理/癌症，例如，早期食道癌，巴瑞氏食道及结肠直肠息肉/癌症。

此发展的其他额外临床应用，包含监测与监控炎性肠病(克罗恩病、溃疡性结肠炎)中的肠炎症(如结肠炎)。

发展不仅限于IEE的类型，可适用于包含放大的窄频影像技术、细胞内视显微镜、i-SCAN、柔性光谱成像颜色增强、蓝色激光成像及亮激光成像之IEE。放大的窄频影像技术在此用作范例性案例。

两个高阶能力如下：

1.高效能计算机辅助诊断系统提供癌症区域定位与侦测。

2.一个有效及高效的深度学习框架允许使用小规模的样本数据集进行训练。

该框架使用卷积神经网络(CNN)及生成对抗网络(GAN)。该系统的目的为目标区域侦测及定位或语义分段。以下列表中提供了现有技术。这三篇文献中的每一篇均经由引用方式全文并入本文中。

1.He、Kaiming，等。"Mask r-cnn."arXiv preprint arXiv：1703.06870(2017)。

2.Long、Jonathan、Evan Shelhamer、及Trevor Darrell。「用于语义分段的完全卷积网络。」IEEE计算机视觉及模式识别会议论文集(2015)。

3.Shrivastava、Ashish，等。「经由对抗训练学习仿真及无监督的图像。」arXivpreprint arXiv：1612.07828(2016)。

在某些实施例中，此发展的图像增强技术含有三个GAN，并且可生成由控制器因子控制的指定身份的辨别图像。此外，可利用指定的癌变区域生成M-NBI图像。习知方法不能生成具有指定癌变区域的图像。

设计了一种新的CNN架构，包含：

·全为3x3内核(kernel)：传统的CNN在前1-3层中使用7x7甚至更大的内核来降低计算复杂度。然而，这个尺寸会降低这里的空间分辨率，并且M-NBI中的特征非常微不足道，因此利用较小的内核尺寸来维持空间分辨率。

·没有使用池化采样(pooling)，但使用了跨步卷积：池化采样会破坏空间关系，在M-NBI图像中，像素之间的关系很重要，是为为何不使用池化采样的原因。

·多个特征提取器层(例如，六个)；多个分段层(例如，四个)；及多个预测层(例如，四个)：根据几个实验，根据经验决定新CNN架构中的这些层的数量。在某些实施例中，此等值提供计算复杂性与效能之间的最佳折衷。

该发展的优势包含：

·仅需一个小规模的样本数据集即达到训练之目的

·内视镜实时计算机辅助诊断系统

·快速准确的癌症区域定位

·一种快速有效的CNN，用于内视镜检查系统中的癌症位置侦测

·一种实时计算机辅助内视镜诊断系统

·来自小规模数据集的2级预测网络之训练阶段的内容感知资料增强

·可用于生成具有/不具有癌症区域的合成-NBI图像之M-NBI图像合成技术。

此发展的新特微如下：

1.卷积神经网络结构在此发展中为新的。独特的CNN结构(图2-3及5-7被设计用于生成1级输出(癌症的整体图像诊断与否)及2级输出(像素级癌症区域指示)。

2.自动生成具有/不具有癌变区域的逼真训练M-NBI图像。

执行该过程的一组步骤及组件的实施例

1.借由对抗网络(AN)随机生成具有或不具有癌症区域的训练图像。

1.1.收集训练图像(T1)

1.2.根据对应分段地图，将图像划分为正常区块及癌变区块。

1.3.使用来自训练癌变区块的癌变生成对抗网络(CGAN)，学习自动生成癌变区块。

1.4.使用正常生成对抗网络(NGAN)从训练正常区块，学习自动生成正常放大的窄频成像(M-NBI)图像区块。

1.5.随机生成分段地图(仅白色区域表示癌变区域的黑白图像)分段地图可仅有黑色像素，意味着无癌症。

1.6.根据1.5，黑色区域将从1.4中的结果填充，而白色区域将从1.3中的结果填充。

1.7.使用AN中的生成器网络从1.6中的结果，学习自动生成逼真的M-NBI图像。生成的结果可视为新的训练样本(T2)。

2.使用L1PN从所收集的T1与T2学习1级预测结果(M-NBI图像的癌变概率)，其中T2由AN生成。

3.使用L2PN从所收集的T1与T2学习2级预测结果(M-NBI图像的癌变区域)，其中T2由AN生成。

4.在训练过程完成后，使用L1PN及L2PN来预测M-NBI图像的L1与L2结果。在此步骤中，不再需要AN。

在训练图像上运行系统的三个顶级组件，产生放大的窄频成像(M-NBI)结果如下：

A.对抗网络(AN)-此用于训练L1PN与L2PN，不用于测试阶段。测试阶段＝生成M-NBI图像的诊断结果。

B.CNN的1级预测网络(L1PN)

C.CNN的2级预测网络(L2PN)

以下为AN、L1PN及L2PN的第二级组件：

A.对抗网络(AN)

1.训练图像

2.癌变GAN(CGAN)

3.正常GAN(NGAN)

4.生成网络

5.鉴别器网络

6.最终GAN

7.合成图像

B.1级预测网络(L1PN)

1.L1PN的损耗函数

2.特征提取器

3.一级预测

C.2级预测网络(L2PN)

1.L2PN的损耗函数

2.特征提取器

3.分段

4.二级分段地图

一级预测与二级分段地图被用于生成M-NBI图像。如上述一组步骤中所述，仅使用AN生成逼真的M-NBI图像。尽管已经训练AN，但AN可用于合成任何正常的M-NBI图像及癌变N-NBI图像。这可用于增加训练集的大小。当存在大规模训练集时，可训练有效的L1PN及L2PN。最后，L1PN与L2PN可用于预测M-NBI图像的癌变概率及其位置。

完全连接(FC)层及Softmax功能可放置在L1PN的末端。这些系使CNN运作良好的常用策略。

图1示出了范例性计算器辅助诊断系统的总体框架。被称为AISKOPY系统的组件人工智能系统120，可应用于接收具有任何影像讯号输出(例如，RGB或YCbCr)的任何合适的现有内视镜系统110的图像输入。传统的内视镜系统将在显示监视器160上显示内视镜图像。随后，医生可观察内视镜图像并基于在区块6内视镜系统显示器上观察图像，来诊断170关于内视镜图像是否癌变。AISKOPY系统120可接收内视镜图像讯号(静止帧图像或影像)并分析图像讯号(静止帧图像或讯号影像)内容，随后在显示器130上生成具有两级信息的输出结果：1)癌变侦测140及其概率，及2)癌变区域定位150(若有的话)。

L1PN/L2PN的训练阶段

众所周知，一旦用数据集训练，神经网络即可提供图像识别功能。参照图2，描述了系统120的训练阶段200。框架含有三个主要部分：

1. 1级预测网络(L1PN)：侦测图像是否癌变。此外，系统提供侦测结果的信赖度参数。

2. 2级预测网络(L2PN)：标记图像中癌变区域的位置(若有的话)。

3.对抗网络(AN)：用于生成具有或不具有癌变区域的合成的M-NBI图像。

系统120的训练阶段的细节描述如下。具有其卷标210b的训练图像被用于训练四个网络：特征提取器网络220、分段网络230、预测网络240及对抗性网络280。首先，在某些实施例中，训练图像210b被输入至特征提取器网220(图3中示出了架构/结构)以提取256个(256)特征地图。每个特征地图被输入至预测网络240，以生成范围在0-1中的两个响应值。第一响应值表示癌变P⁺的概率，第二响应值表示图像中的非癌变P^-的概率。图像的癌症概率P由下式决定：

P＝P⁺/(P⁺+P^-).

可借由将预测标记250与预测网络240及(由医师标记)参考标准210a进行比较，来更新网络220与240。该分支被称为L1PN(网络220到网络240)。

参照图3，描绘了网络架构300。提供一组训练图像310，作为由六个密集区块构成的特征提取器网络320的输入[参考文献1：HuangGao，等，「密集连接的卷积网络」，CVPR。2017年第1期，第2期，第3页。]。在参考文献1中，提出了一种密集连接的卷积网络(DenseNet)，使用从任何层到所有后续层的直接连接。因此，第l层接收所有先前层的特征地图，x₀，...，x_l-1，作为输入：x_l＝H_l([x₀，x₁，...，x_l-1])，其中[x₀，x₁，...，x_l-1]指的是层0，...l-1中产生的特征映像的串联。为了便于实现，本段等式中的H_l(·)的多个输入可以连接成单个张量。图像x₀经由具有L层的卷积网络，每个L层实现非线性变换H_l(·)，其中l对该层进行索引。H_l(·)可为如批量归一化(BN)、整流线性单位(ReLU)、汇集或卷积(Conv)之类的操作的复合函数。第l层的输出被识别为x_l。

DenseNet系由几个密集区块构建的。如参考文献1第4页，表1中所述，典型的DenseNet至少有58个密集区块。在此开发中，在特征提取器网络中仅采用六个密集区块以具有更高效的效能。该系统的一个任务为识别图像是否癌变。区与参考文献1中描述的任务相比，该系统的任务为不同的，因此，该系统不需要那么多的密集区块。

分段网络330接收特征提取器网络320的输出。分段网络330受到[参考文献2：Long、Jonathan、Evan Shelhamer及Trevor Darrell，「用于语义分段的完全卷积网络」，IEEE计算器视觉及模式识别会议论文集，2015年]中提出的完全卷积网络的启发，卷积层用于最后一层、以密集连接层替换[参考文献2第3页，参考文献2]。分段网络与完全卷积网络(FCN)之间的区别在于，特征提取器网络用作分段网络的输入，而FCN使用AlexNet、Vgg16或GoogleNet网络架构作为最终卷积层的输入[参考文献2，第5页，表1]。与AlexNet相比，DenseNet可提供更有意义的特征表示，并在分段结果中提供更高的效能。

再次参照图2，256(256)个特征地图被视为分段网络230的输入(其中该架构可参照图3)。随后，使用分段网络将此等特征上采样到高分辨率分段结果。再次地，可借由将预测的分段地图260与参考标准210a进行比较，来更新特征提取器网络220及分段网络230。该分支称为使用网络220到网络230的L2PN。下文描述LI PN及L2PN的训练阶段的细节。

在训练阶段，原始训练图像用于基于预定义的损失函数训练LIPN及L2PN。同时，借由类型控制器(TC)295，从AN生成的图像随机地替换训练图像。TC为标量，用于决定生成的图像是否含有癌变区域。在此种情况下，TC为0或1。TC＝I表示生成的图像确实含有癌变区域。AN的训练阶段将在后面描述。此步骤用于增强训练样本的多样性，并且亦为训练小规模训练集的有效模型的关键。之后，训练特征提取器220及预测网络240。训练处理后，保存特征提取器网络与预测网络中的最佳权重。随后，预测网络中的所有权重及特征提取器网络220中的卷积(Conv.)1至Conv.5的权重为固定的。同时，分段网络230中的权重与特征提取器网络220中Conv.6的权重，系借由L2PN中使用的损失函数来学习。最后，所有学习的权重皆保存为模型文件。在任何测试任务上，系统预加载模型文件以恢复特征提取器、分段及预测网络中的所有最佳权重，并将M-SBI图像馈送至AISKOPY系统120以分别获得L1与L2结果。

L1PN的训练阶段

L1PM的损失函数可定义为任何卷标式损失函数。在某些实施例中，交叉熵系以以下方式使用：

其中p_i为预测标签并且q_i为L1参考标准(1表示癌变图像，0表示非癌变图像)。请注意，L1输出及其参考标准为标量值。以此种方式，损失函数用于测量预测结果与其参考标准(正确答案)之间的差异，可用于推断梯度信息。由损失函数获得的梯度，可用于更新特征提取网络220与预测网络240(图2)中的权重。更新方式系基于标准随机梯度下降(SGD)[参考文献4：Kingma，D.P.，&Ba，J.L。(2015年)。Adam：一种随机优化方法，国际学习表征会议，I-13]。

L2PN的训练阶段

L2PN的损失函数可定义为任何重建损失函数。在某些实施例中，L2范数距离被用于测量预测的分段地图与其L2参考标准之间的距离，如下：

应当注意，预测结果及其参考标准为图像类型。类似地，在L2PN中，损失函数270(图2)亦用于借由标准SGD[参考文献4]更新特征提取网络与分段网络的权重。最后，可借由上述两个损失函数来更新图2的区块220、230及240中的权重。

另外，一个有效的深度学习神经网络，即，具有多个级别的神经网络可能难以用小规模数据集进行训练，尤其是在训练图像的数量相对较低的L2PN中。因此，设计与开发了一种独特的数据增强方法，以克服如下缺点。

L2PN训练阶段的内容感知资料增强

在内容感知数据增强(CDA)方法400中，可借由如图4中描述的若干步骤来处理任何训练图像410。首先，对尺寸为224×224的训练图像410执行标准数据增强430，包含垂直翻转、水平翻转与90度、180度及270度旋转。这产生六个可能的图像，包含原始图像。然后开发引导分段地图420，其具有2048×2048的分辨率。在该引导分段地图420上使用随机裁剪操作450以获得尺寸为224×224的子地图470。随后，将图像470与图像440相乘460以获得处理后的训练图像480。以此种方式，根据引导的分段离子地图420，每个训练图像中的一些部分被随机破坏，并且放大了训练集的大小。在一些实施例中，可任意地修改引导分段地图。

AN的训练阶段

生成性对抗网络(GAN)的基本思想为最小-最大优化[参考文献3：Goodfellow、Ian.等，「Generative adversarial nets」，神经信息处理系统的进展，2014]。在图5所示的范例中，生成器530及560旨在从输入合成图像，该输入可欺骗鉴别器540及570。鉴别器的主要任务为检查输入图像是否合成。若生成器为胜方，则生成的图像可视为真实图像。生成器560及鉴别器570的网络架构在图6中示为生成器610及鉴别器620。传统的GAN用于从随机噪声中随机生成任意逼真图像[参考文献3]。在此发展中，需要控制具有或不具有癌变区域的合成图像。然而，因为传统的GAN不能指定合成图像的类型，传统的GAN不能用于此任务。此开发的新AN可用于解决此问题，如图5所示。

在图5所示的AN中，有三个用于指定图像合成任务的GAN(生成对抗网络)。第一及第二GAN用于生成癌变图像区块或正常图像区块。为此，训练图像分别被分成癌症及正常图像区块。随后，癌变图像区块520a用于训练第一GAN(称为癌变GAN、CGAN、530-黑色及550-黑色)并借由遵循标准GAN损失函数来更新第一GAN的参数：

其中DI(550-黑色)为识别器，而G1(530-黑色)为生成器。

同样地，我们可用相同的方式训练正常图像区块的GAN模型(称为普通GAS，NGAN)，如下所示：

其中D2(550-棕色)为识别器而G2(530-棕色)为生成器。请注意，NGAN及NGAN中的组件可彼此相同。

一旦训练了CGAN及NGAN的模型，生成器网络560就适于根据随机生成的分段地图594合成癌变及正常图像区块。控制器因子596为0或I。控制器因子可如下使用。当控制器因子为1时，癌症区域在分段地图中由任意形状及大小随机生成。当控制器因子是0时，分段地图594将为空白图像(即，无癌症区域)。生成器的合成图像被发送至鉴别器网络570以检查图像为真实的还虚假的。一旦描述器网络570将合成图像视为真实，即可终止训练过程。最后，最终的GAS(560及570)可借由以下方式更新：

其中D3(570)为识别器而G3(560)为生成器。在某些实施例中，该GAN中的组件能与NGAN及CGAN中的组件相同。

测试阶段

用于LIPN750及L2PN760的测试阶段配置700可包含图像710、特征提取器720、分段层730及预测层740，如图7所示。可借由将图像经由L1PN及L2PN来获得M-SBI图像之L1及L2预测的结果。

实验

在第一组实验中，总共有三个数据集：A(130张图像)、B(343张图像)及C(影像，3000帧)。有两个测试集：T1：来自数据集A及B的70个癌变图像与60个正常图像；及T2：来自三个数据集的30个癌变图像与30个正常图像；结果列于表I中。图像的运行时间为10毫秒。在配备Nvidia GPU Titan X的个人计算机中，帧速率大约为每秒70帧(FPS)。表I显示了L1效能结果，表II显示了L2效能结果。

	精确度	调回	特异性	准确性	F-测量	Youden指数
							测试集I.	0.9155	0.9286	0.9000	0.9154	0.9220	1.8155
测试集II.	0.9655	0.9333	0.9667	0.9500	0.9492	1.9322

表I：Ll表现结果

	精确度	调回
			测试集I.	0.9301	0.9107
测试集II.	0.9168	0.8845

表II：L2表现结果

在第二组实验中，有三个用于L1测试的数据集：A(130张图像)、B(343张图像)及C(影像帧，5565图像)。测试集包含30个正片图像和30个负片图像。表III显示了L1表现结果。对于L2测试，有两个数据集：A(130张图像)及B(343张图像)。测试集包含30个正片图像和30个负片图像。表IV显示了L2表现结果。

L1输出-改进的结果

·3个数据集：影像帧(5565个图像)、第2组(343个图像)、第1组(130个图像)

·训练集：5978个图像

·测试集II.30个正片图像，30个负片图像

表III：L1改善了表现结果

L2输出以像素为准确度-改善的结果

·2个数据集：第2组(343个图像)、第1组(130个图像)

·训练集：473个图像

·测试集：30个正片图像，30个负片图像

运行时间：平均10毫秒

最大运行时间：使用Titan X的个人计算机上为67毫秒平均运行时间：使用TitanX的个人计算机上为26.5毫秒最大运行时间：在Nvidia TX2上556毫秒

最大运行时间：在Nvidia TX2上130毫秒

最大运行时间：使用GTX 1050 2G的个人计算机上为88毫秒平均运行时间：

使用GTX 1050 2G的个人计算机上为39毫秒：

表IV：L2改善了表现结果

在医院最近的一组实验中，测试的一个配置包含一台配备Intel i7-7700处理器、16GB DDR4内存、GTX 1080Ti 11GB显示适配器、及480GB SSD的PC。在某些实施例中，使用HDMI to VGA转换器来提供640×480的系统分辨率。在此配置上使用基于修改的AlexNet(仅六个卷积层)及FCN特征的第一版算法来实现均值(FPS)＝12.25。

另一种配置采用了Nvidia Jetson TX2模型，其中包含双核Nvidia Denver2及作为CPU复合体的四核ARM Cortex-A57、256核Pascal GPU、8GB LPDDR4及32GB eMMC。JetsonTX2为一款快速、功耗效率最高的嵌入式AI计算装置。在此配置上使用基于修改的AlexNet(仅六个卷积层)及FCN特征的第二版算法来实现平均FPS＝10.15。第二版算法与第一版的不同处在于执行了python编码优化以降低执行复杂性。第三版算法利用相同的NvidiaJetson TX2模型，基于六个密集区块的堆栈器、FCN功能及内容感知数据增强。此配置的平均FPS为8.1。

替代实施例

现在描述上述实施例的替代方案。在某些实施例中，GAN能被任何可用于合成图像的CNN代替。在某些实施例中，可生成判别性训练样本的任何框架可视为与先前描述的实施例类似的工作。

结论

熟习技术者将理解信息及讯号可使用各种不同的科技及技术来表示。举例而言，在整个以上描述中可指称的数据、指令、命令、信息、讯号、位、符号及芯片可由电压、电流、电磁波、磁场或粒子、光场或粒子或任何表示其组合。

熟习技术者将进一步理解，结合本文揭露的范例描述的各种说明性逻辑块、模型、电路、方法及算法能以电子硬件、计算机软件或两者的组合方式实现。

为了清楚地说明硬件及软件的此种可互换性，上面已在功能方面对各种说明性的组件、区块、模型、电路、方法及算法进行了总体描述。将此功能性实施为硬件还是软件，取决于特定应用及强加于整个系统的设计约束。熟习技术者可针对每个特定应用，以不同方式实现所描述的功能，但此种实现决策不应被解释成会导致脱离本发明的范围。

结合本文揭露的范例描述的各种说明性逻辑块、模块及电路，可利用通用处理器、数字讯号处理器(DSP)、专用集成电路(ASIC)、现场可程序化门阵列(FPGA)、或其他可程序化逻辑设备、离散闸或晶体管逻辑、分立硬件组件或被设计用于执行本文所述的功能之任何组合来实现或执行。通用处理器可为微处理器，但可选地，处理器可为任何传统的处理器、控制器、微控制器或状态机。处理器亦可以计算装置的组合，如DSP与微处理器的组合、复数个微处理器、一个或多个微处理器结合DSP内核、或任何其他这样的配置方式实现。

结合本文中所示的范例而描述的方法或算法可直接体现于硬件中，由处理器执行的软件模型中、或两者的组合中。软件模型可驻留在RAM内存、闪存、ROM内存、EPROM内存、EEPROM内存、缓存器、硬盘、可移除硬盘、CD-ROM或现存已知或未来可用于的任何其他合适形式的数据储存媒体中。储存媒体可连接至处理器，使处理器可从储存媒体读取信息及向储存媒体写入信息。在替代方案中，储存媒体可为处理器的组成部分。处理器与储存媒体可驻留在ASIC中。

取决于实施例，本文描述的任何方法的某些动作、事件或功能能以不同的顺序执行，可被添加、合并或完全省略(例如，并非所有描述的动作或事件皆为实施该方法必需的。)此外，在某些实施例中，动作或事件可同时执行，而非依顺序执行。

提供先前对所示范例的描述系为了使本领域熟习技术者能够实施或使用本发明。对此等范例的各种修改对于本领域熟习技术者而言将为显而易见的，并且在不脱离本发明的精神或范围的情况下，本文定义的一般原理可应用于其他范例。将认知到的，因为一些特征能与其他特征分开使用或实践，本文描述的发明的某些实施例可体现为，不提供本文所述的所有特征及优点的形式。本文揭露的某些发明的范围由所附申请专利范围的描述表示而非前文的描述。在申请专利范围的含义及等同范围内的所有变化都包含在其范围内。因此，本发明不限于本文所示的实施例，而是与符合本文揭露的原理及新颖特征的最广泛范围相一致。

为了总结本发明与相对于现有技术实现的优点，本文已于上文中描述了本发明的某些目的与优点。当然，应当理解，根据本发明的任何特定实施例，不一定能够实现所有这些目的或优点。因此，举例而言，本领域熟习技术者将认知到，本发明能以实现或优化本文所教导或建议的一个优点或一组优点的方式实施或运行，而非必实现可教导或建议的其他目的或优点。

所有此等实施方案皆在本文揭露的本发明的范围内。借由参照附图的较佳实施例的以下详细描述，此等及其他实施例对于本领域熟习技术者将变得显而易见，本发明不限于所揭露的任何特定较佳实施例。

Claims

1.一种在内视镜检查系统中诊断胃肠道肿瘤或病理的方法，该内视镜系统包含用于显示图像增强内视镜IEE图像的一内视镜系统显示器，该方法包括以下步骤：

借由对抗网络AN随机生成具有或不具有癌症区域的训练图像样本，包括以下步骤：

收集内视镜训练图像T1；

根据相应分段地图(S1)，将所述训练图像划分为训练正常块并训练癌变图块；

使用来自所述训练癌变区块的癌变生成对抗网络(CGAN)，学习自动生成癌性区块；

使用来自所述训练正常区块的正常生成对抗网络(NGAN)，学习自动生成正常IEE图像区块；

随机生成分段地图(S2)，所述分段地图包括基于该自动生成的癌变区块及该自动生成的正常IEE图像区块的黑白图像，其中任何白色像素表示癌变区域，并且其中该分段地图能仅有黑色像素，其为无癌症的表示；

使用来自该被生成之分段地图中的该AN中的生成器网络，学习自动生成逼真的IEE图像作为新的训练图像样本T2；

使用1级预测网络L1PN学习1级预测结果，该1级预测结果为该从所收集的T1及T2之IEE图像的癌变概率，其中T2由该AN生成；

使用2级预测网络L2PN，学习2级预测结果，该2级预测结果为来自该所收集的T1及T2的IEE图像所侦测到的癌变区域，其中T2由该AN生成；及

使用该L1PN及该L2PN并且不使用该AN，预测IEE图像的该1级结果及该2级结果。

2.根据权利要求1所述的方法，其中所述IEE图像包含放大的窄频成像、内视镜显微镜、i-SCAN、柔性光谱成像颜色增强、蓝色激光成像及亮激光成像中的至少一种。

3.根据权利要求1所述的方法，其中该分段地图(S1)包括参考标准。

4.根据权利要求3所述的方法，其中该参考标准系由医师定义。

5.根据权利要求1所述的方法，额外包括以下步骤：

基于所述所收集的内视镜训练图像，生成附加训练图像，该生成步骤包括以下步骤：

旋转或翻转所收集的内视镜训练图像，以创建一个或更多个增强训练图像。

提供引导分段地图，该引导分段地图具有分辨率大于所述所收集的内视镜训练图像；

随机裁剪该引导分段地图，以获得子地图，该子地图的分辨率等于所述所收集的内视镜训练图像的该分辨率；及

将该子地图与每个增强的训练图像相乘，以便产生额外的训练图像。

6.根据权利要求1所述的方法，其中该2级预测结果的所侦测到的癌变区域为像素级别的分辨率。

7.一种用于诊断内视镜检查系统中的胃肠道肿瘤或病理的系统，包含用于显示图像增强内视镜IEE图像的内视镜系统显示器，该系统包括：

借由对抗网络AN随机生成具有或不具有癌症区域的训练图像样本的装置，包括：

用于收集内视镜训练图像T1的装置；

用于根据相应的分段地图(S1)将所述训练图像划分为训练正常区块及训练癌变区块；

使用来自所述训练癌变区块的癌变生成对抗网络(CGAN)，用于学习自动生成癌变区块的装置；

使用来自所述训练正常区块的正常对抗网络(NGAN)，用于学习自动生成正常IEE图像区块的装置；

用于随机生成分段地图(S2)的装置，所述分段地图包括基于该自动生成的癌变区块及该自动生成的正常IEE图像区块的黑白图像，其中任何白色像素表示癌变区域，并且其中该分段地图能仅有黑色像素，其为无癌症的表示；

使用来自该所生成的分段地图的该AN中的生成器网络，用于学习自动生成逼真的IEE图像作为新的训练图像样本T2的装置；

使用1级预测网络L1PN，用于学习1级预测结果的装置，该1级预测结果为来自该所收集的T1及T2的IEE图像的癌变概率，其中T2由该AN生成；

使用2级预测网络L2PN，用于学习2级预测结果的装置，该2级预测结果为该从所收集的T1及T2的IEE图像所侦测到的癌变区域，其中T2由该AN生成；以及

使用该L1PN及该L2PN并且不使用该AN，用于预测IEE图像的该1级结果及该2级的装置。

8.根据权利要求7所述的系统，其中所述IEE图像包含放大的窄频影像技术、细胞内视显微镜、i-SCAN、柔性光谱成像颜色增强、蓝色激光成像及亮激光成像中的至少一种。

9.根据权利要求7所述的系统，其中该分段地图(S1)包括参考标准。

10.根据权利要求9所述的系统，其中该参考标准系由医师标记。

11.根据权利要求7所述的系统，额外包括：基于所述所收集的内视镜训练图像，用于生成附加训练图像的装置，该生成装置包括：

用于旋转或翻转所收集的内视镜训练图像的装置，以创建一个或更多个增强训练图像；

用于提供引导分段地图的装置，该引导分段地图具有分辨率大于所述所收集的内视镜训练图像；

用于随机裁剪该引导分段地图的装置，以获得子地图，该子地图的分辨率与所述所收集的内视镜训练图像的该分辨率相等；及

用于将该子地图与每个增强训练图像相乘的装置，以便产生额外的训练图像。

12.根据权利要求7所述的系统，其中该2级预测结果的所侦测到的癌变区域能为像素级别的分辨率。

13.一种在内视镜检查系统中，借由对抗网络AN随机生成具有或不具有癌症区域的训练图像样本的方法，该内视镜检查系统用于诊断胃肠肿瘤或病理，包含用于显示图像增强内视镜IEE图像的内视镜系统显示器，该方法包括以下步骤：

提供内视镜训练图像(T1)；

根据相应的分段地图(S1)将所述训练图像划分为训练正常区块及训练癌变区块；

使用来自所述训练癌变区块的癌变生成对抗网络(CGAN)，学习自动生成癌变区块；

使用来自所述训练正常区块的正常对抗网络(NGAN)，学习自动生成正常图像区块；

随机生成分段地图(S2)，所述分段地图包括基于该自动生成的癌变图像区块及该自动生成的正常图像区块的图像；及

从该生成的分段地图使用该AN中的生成器网络，学习自动生成逼真的IEE图像作为新的训练图像样本(T2)。

14.根据权利要求13所述的方法，其中任何白色像素表示该分段地图中的癌变区域，并且其中该分段地图能仅有黑色像素，其为无癌症的表示。

15.一种在内视镜检查系统中诊断胃肠道肿瘤或病理的方法，该内视镜系统包含用于显示图像增强内视镜IEE图像的内视镜系统显示器，该方法包括以下步骤：

使用1级预测网络L1PN，包括特征提取，随后进行分段，以学习1级预测结果，该1级预测结果为来自所收集的训练图像的IEE图像的癌变概率；

使用2级预测网络L2PN，包括特征提取提供预测网络，以学习2级预测结果，该2级预测结果为来自所述所收集的训练图像中所侦测到的IEE图像的癌变区域；

使用该L1PN及该L2PN预测IEE图像的该1级结果及该2级结果。

16.一种用于处理放射图像的系统，包括：

特征提取网络，配置成接收欲处理的放射图像；

分段网络，配置成接收该特征提取网络的输出并生成癌变定位结果；及

预测网络，配置成接收该特征提取网络的输出并生成癌变预测结果。