CN112348125A

CN112348125A - 基于深度学习的胶囊内窥镜影像识别方法、设备及介质

Info

Publication number: CN112348125A
Application number: CN202110010379.4A
Authority: CN
Inventors: 张行; 张皓; 袁文金; 张楚康; 刘慧�; 黄志威
Original assignee: Ankon Technologies Co Ltd
Current assignee: Ankon Technologies Co Ltd
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2021-02-09
Anticipated expiration: 2041-01-06
Also published as: EP4276684A4; WO2022148216A1; CN112348125B; JP2024502105A; US20240070858A1; KR20230113386A; EP4276684A1

Abstract

本发明提供了一种基于深度学习的胶囊内窥镜影像识别方法、设备及介质，所述方法包括：通过胶囊内窥镜按照时间生成顺序收集N幅原始图像；采用滑动窗口分割方法将N幅原始图像分割为大小相同的M组原始图像序列；解析N幅原始图像或解析M组原始图像序列形成M组RGB图像序列，以及解析N幅原始图像或解析M组RGB图像序列形成M组光流图像；每一所述RGB图像序列由RGB格式的图像数据构成，每一所述光流图像序列由通过计算相邻RGB图像的光流场所形成的图像数据构成；将所述RGB图像序列和所述光流图像序列分别输入到3D卷积神经网络模型以输出识别结果；所述识别结果为预设参数出现的概率值。本发明提高图像识别精度。

Description

基于深度学习的胶囊内窥镜影像识别方法、设备及介质

技术领域

本发明涉及医疗设备成像领域，尤其涉及一种基于深度学习的胶囊内窥镜影像识别方法、电子设备及可读存储介质。

背景技术

胶囊内窥镜是一种医疗设备，其将摄像头、无线传输天线等核心器件集成；并在体内的消化道内采集图像并同步传送到体外，以根据获得的图像数据进行医疗检查。胶囊内窥镜在检测过程中会采集几万张图像，大量的图像数据使得阅片工作变得艰巨且耗时；随着技术的发展，利用图像处理和计算机视觉技术进行病灶识别获得了广泛的关注。

现有技术中，公开号为CN103984957A的中国专利申请，公开了一种胶囊内窥镜图像可疑病变区域自动预警系统，该系统采用图像增强模块对图像进行自适应增强，再通过纹理特征提取模块对平坦性病变的纹理特征进行检测，最后用分类预警模块进行分类，实现了对小肠平坦性病变的检测和预警功能。

公开号为CN111462082A的中国专利申请，公开了一种病灶图片识别装置、方法、设备及可读存储介质，其利用训练好的2D目标深度学习模型对单张图像进行病灶识别。

现有技术所提及的方案都是对单张图像进行识别，识别过程中只能利用单张图像拍摄的信息，不能综合利用前后拍摄的图像信息；如此，单一角度拍摄的图像并不能直观的反映出病灶的整体情况，尤其是在某些特定角度下拍摄的消化道褶皱、胃壁等图像容易和息肉、隆起等病变相混淆；另外，现有技术不能同时获得拍摄内容的空间和时间信息，病灶识别的准确率较低。

发明内容

为解决上述技术问题，本发明的目的在于提供一种基于深度学习的胶囊内窥镜影像识别方法、设备及介质。

为了实现上述发明目的之一，本发明一实施方式提供一种基于深度学习的胶囊内窥镜影像识别方法，所述方法包括：通过胶囊内窥镜按照时间生成顺序收集N幅原始图像；

采用滑动窗口分割方法将N幅原始图像分割为大小相同的M组原始图像序列；

解析N幅原始图像或解析M组原始图像序列形成M组RGB图像序列，以及解析N幅原始图像或解析M组RGB图像序列形成M组光流图像；

每一所述RGB图像序列由RGB格式的图像数据构成，每一所述光流图像序列由通过计算相邻RGB图像的光流场所形成的图像数据构成；

将所述RGB图像序列和所述光流图像序列分别输入到3D卷积神经网络模型以输出识别结果；所述识别结果为预设参数出现的概率值；

其中，将所述RGB图像序列和所述光流图像序列分别输入到3D卷积神经网络模型以输出识别结果，包括：

所述3D卷积神经网络模型包括：RGB支路和光流支路；

将RGB图像序列输入RGB支路进行计算以输出第一分类概率

；

将光流图像序列输入光流支路进行计算以输出第二分类概率

；

对所述第一分类概率和所述第二分类概率进行融合形成所述识别结果

；

；

，

;

其中

,

分别表示构建3D卷积神经网络模型过程中，验证集分别在RGB支路和光流支路的识别精度。

作为本发明一实施方式的进一步改进，采用滑动窗口分割方法将N幅原始图像分割为大小相同的M组原始图像序列，包括：

依据时间生成顺序为N幅原始图像进行编号，其依次为1，2，……N；

以预设窗口大小K，预设滑动步长S依次分割N幅图像，将其划分为M组原始图像序列，其中，

。

作为本发明一实施方式的进一步改进，3D卷积神经网络模型的训练方式包括：

将预训练的2D识别模型中尺寸为

的2D卷积核参数复制N遍;所述的2D识别模型通过有病灶标签的图像训练获得，其输入为单帧图像，且只能对单帧图像进行识别；

将复制后的各核参数分别除以N，使得每一位置的核参数为原来的1/3;

将新的核参数重新组合形成尺寸为

的卷积核参数，以构成3D卷积神经网络模型中3D卷积核的初始化参数；

利用随机梯度下降法训练参数初始化后的3D卷积神经网络模型，迭代更新模型的参数，直到满足迭代停止条件，形成用于输出识别结果的所述3D卷积神经网络模型。

作为本发明一实施方式的进一步改进，自处理流程的先后顺序排布，所述3D卷积神经网络模型包括：

7*7*7的3D卷积层，3*3*3的3D池化层，至少1个协同时空特征结构，3D池化层，全连接层。

作为本发明一实施方式的进一步改进，所述协同时空特征结构的数量为P个，P∈（4，16）；

自输入至输出的处理流程的先后顺序排布，所述协同时空特征结构包括：第一协同时空卷积层，第一归一化层，激活层；以及与第一协同时空卷积层，第一归一化层，激活层并行执行、且从所述协同时空特征结构输入到输出的快连接。

作为本发明一实施方式的进一步改进，自输入至输出的处理流程的先后顺序排布，所述协同时空特征结构还包括：处于激活层之后的第二协同时空卷积层，第二归一化层。

作为本发明一实施方式的进一步改进，所述第一协同时空卷积层处理数据的流程包括：

将其入口输入特征图分解为三个视图，分别以

、

和

表示，

配置三个视图的输出特征分别以

、

和

表示，则：

其中，

为尺寸

的输入数据，

为输入特征图，

为输入特征图的通道数，

表示三维卷积，

表示卷积滤波核；

对三组输入数据进行加权求和得到第一协同时空卷积层的输出

：

，

其中，

为尺寸

的系数，且

使用softmax进行归一化，

为输出的通道数，数字3表示三个视图。

为了解决上述发明目的之一，本发明一实施方式提供一种电子设备，包括存储器和处理器，所述存储器存储有可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述基于深度学习的胶囊内窥镜影像识别方法中的步骤。

为了解决上述发明目的之一，本发明一实施方式提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述基于深度学习的胶囊内窥镜影像识别方法中的步骤。

与现有技术相比，本发明的有益效果是：本发明的基于深度学习的胶囊内窥镜影像识别方法、设备及介质，将连续拍摄的多帧图像形成特定格式的图像序列后，通过3D卷积神经网络模型对多帧图像进行多通道识别，进而联合各通道的识别概率输出识别结果，提高图像识别精度。

附图说明

图1是本发明第一实施方式基于深度学习的胶囊内窥镜影像识别方法的流程示意图；

图2是本发明一具体示例提供的滑动窗口分割示意图；

图3是本发明一具体示例提供的利用已训练好的2D识别模型卷积核参数生成3D卷积神经网络模型卷积核初始化参数的示意图；

图4是本发明提供的3D卷积神经网络模型的结构示意图；

图5是本发明提供的协同时空特征结构的结构示意图；

图6是本发明具体示例中协同时空卷积层处理数据的流程示意图。

具体实施方式

以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明，本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。

如图1所示，本发明第一实施方式中提供一种基于深度学习的胶囊内窥镜影像识别方法，所述方法包括：

S1、通过胶囊内窥镜按照时间生成顺序收集N幅原始图像；

S2、采用滑动窗口分割方法将N幅原始图像分割为大小相同的M组原始图像序列；

S3、将所述RGB图像序列和所述光流图像序列分别输入到3D卷积神经网络模型以输出识别结果；所述识别结果为预设参数出现的概率值。

对于步骤S1,胶囊内窥镜运行过程中，通过其上设置的摄像头连续拍摄图像，并同步或异步地进行收集存储以形成原始图像；

对于步骤S2，采用滑动窗口分割方法将N幅原始图像分割为大小相同的M组原始图像序列，包括：依据时间生成顺序为N幅原始图像进行编号，其依次为1，2，……N；以预设窗口大小K，预设滑动步长S依次分割N幅图像，将其划分为M组原始图像序列，其中，

。

具体的，经过分割后的第一组原始图像序列由编号为1、2、...、K的原始图像组成，第二组原始图像序列由编号为S+1、S+2、...、S+K的原始图像组成，经过依次分割后，最后一组原始图像序列由编号为N-K、N-K+1、...、N的原始图像组成，共分割成

组原始图像序列，公式中符号

表示向上取整。较佳的，K的取值范围为2≤K≤1000，S的取值范围为1≤S<K。

需要说明的是，若N不能被K整除，则存在一组原始图像序列的数量不为K，较佳的，将该数量不为K的原始图像序列设定为第一组或者最后一组；通常情况下，为了计算方便，选取用于计算的原始图像的数量N可以被K整除，在此不做进一步的赘述。

结合图2所示，本发明一具体示例中，原始图像总张数为N=10000张，滑动窗口的大小设置为K=10，滑动步长设置为S=5，则分割后的第一组原始图像序列由原始图像1、2、...、10组成，第二组原始图像序列由原始图像6、7、...、15组成，一直到最后一组原始图像序列由原始图像9991、9992、...、10000组成，共分割成1999个原始图像序列。

相应的，解析N幅原始图像或解析M组原始图像序列形成M组RGB图像序列，每一所述RGB图像序列由RGB格式的图像数据构成；具体的，将原始图像序列中的每一原始图像分别转换为RGB格式的图像，以将每一原始图像序列分别形成一对应的RGB图像序列；这里需要说明的是，也可以对N幅原始图像先做RGB格式转换，再采用与形成原始图像序列相同的滑动窗口分割方法形成M组RGB图像序列，上述两种方式形成的RGB图像序列相同。

另外，若原始图像为RGB格式的图像，则无需再次变换，原始图像序列即为RGB图像序列，在此不做进一步的赘述。

相应的，解析N幅原始图像或解析M组RGB图像序列形成M组光流图像，与RGB图像序列形成过程相类似的，可直接解析原始图像获取光流图像，再将光流图像按照形成原始图像序列相同的滑动窗口分割方法形成M组光流图像序列；也可以解析原始图像序列直接形成光流图像序列；具体的，以原始图像序列为例，先将原始图像序列转换为RGB图像序列，之后，通过计算相邻RGB图像的光流场得到光流场图像数据；在原始图像已知，获得原始图像相对应的RGB图像，光流图像均为现有技术，因此，在本专利中不做过多赘述。

对于步骤S3，3D卷积神经网络模型包括：RGB支路和光流支路；

将RGB图像序列输入RGB支路进行计算以输出第一分类概率p1；

将光流图像序列输入光流支路进行计算以输出第二分类概率p2；

对所述第一分类概率和所述第二分类概率进行融合形成所述识别结果p；

；

，

;

其中

,

具体的，所述识别精度为成功识别的概率。

本发明一具体示例中，

，

，则

，则

；

在具体应用中，所示识别结果为当前图像序列中包含病灶的概率，所述病灶例如：出血，溃疡，息肉，糜烂等，所述识别结果P的值越大，表示出现病灶的概率越大。

相应的，RGB支路对局部时空信息进行建模，能够很好的描述拍摄内容的外形轮廓；光流支路对相邻帧图像的变化进行建模，能够很好的捕捉胶囊内镜运动造成的拍摄内容的动态变化过程，有利于恢复全局的空间信息，因此，同一图像序列经过变换形成两种数据，并分别通过构建的两个支路进行识别输出，并进一步的将两个支路的结果进行融合，提高识别效果。

本发明具体实施方式中，RGB支路和光流支路的构建方式相同，本发明以下描述中以3D卷积神经网络模型概括两种支路。3D卷积神经网络模型通过将卷积核从二维扩展到三维，能够同时编码空间和时间信息；以对多帧图像进行病灶识别，综合利用连续拍摄的相邻图像得到的不同角度的拍摄信息，相对于2D卷积神经网络模型对单帧图像识别，能够利用的信息更多，从而提高识别精度。

具体的，3D卷积神经网络模型的训练方式包括：

M1、将预训练的2D识别模型中尺寸为

的2D卷积核参数复制N遍;所述的2D识别模型通过有病灶标签的图像训练获得，其输入为单帧图像，且只能对单帧图像进行识别；2D识别模型的构建及应用均为现有技术，例如：背景技术CN111462082A的中国专利申请所公开内容，在此不做赘述。

M2、将复制后的各核参数分别除以N，使得每一位置的核参数为原来的1/3;

M3、将新的核参数重新组合形成尺寸为

具体参考图3所示，将2D识别模型的3*3的卷积核复制3遍，进行维度扩充；进一步的，将每一维的数据单独除以3,形成3*3*3的3D卷积核的初始化参数。

进一步的，3D卷积神经网络模型的训练方式还包括：M4、利用随机梯度下降法训练参数初始化后的3D卷积神经网络模型，迭代更新模型的参数，直到满足迭代停止条件，形成用于输出识别结果的所述3D卷积神经网络模型。

较佳的，结合图4所示，自处理流程的先后顺序排布，所述3D卷积神经网络模型包括：7*7*7的3D卷积层，3*3*3的3D池化层，至少1个协同时空特征结构，3D池化层，全连接层。

所述协同时空特征结构的数量为P个，P∈（4，16），本发明具体实施方式中，配置P=8。

较佳的，结合图5所示，自输入至输出的处理流程的先后顺序排布，所述协同时空特征结构包括：第一协同时空卷积层，第一归一化层，激活层；以及与第一协同时空卷积层，第一归一化层，激活层并行执行、且从所述协同时空特征结构输入到输出的快连接。

较佳的，结合图6所示，第一协同时空卷积层和第二协同时空卷积层的处理流程相同，这里，将其均以协同时空卷积层表述；具体的，协同时空卷积层处理数据的流程包括：

将其入口输入特征图分解为三个视图，分别以

、

和

表示，

配置三个视图的输出特征分别以

、

和

表示，则：

其中，

为尺寸

的输入数据，

为输入特征图，

为输入特征图的通道数，

表示三维卷积，

表示卷积滤波核；

：

，

其中，

为尺寸

的系数，且

使用softmax进行归一化，

为输出的通道数，数字3表示三个视图。

所示协同时空卷积层对输入数据的三个正交视图进行卷积，分别学习空间外观和时间运动信息，通过共享不同视图的卷积核，协作学习空间和时间特征。

对

使用softmax进行归一化，可以防止响应的数量级爆炸。

进一步的，本发明一实施方式提供一种电子设备，包括存储器和处理器，所述存储器存储有可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述基于深度学习的胶囊内窥镜影像识别方法中的步骤。

进一步的，本发明一实施方式提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述基于深度学习的胶囊内窥镜影像识别方法中的步骤。

综上所述，本发明的基于深度学习的胶囊内窥镜影像识别方法、设备及介质，将连续拍摄的多帧图像形成特定格式的图像序列后，通过3D卷积神经网络模型对多帧图像进行多通道识别，进而联合各通道的识别概率输出识别结果，提高图像识别精度。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本发明时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

以上所描述的装置实施方式仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施方式方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施方式中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。