CN111105412B

CN111105412B - 一种用于肠道息肉检测识别的智能辅助系统

Info

Publication number: CN111105412B
Application number: CN201911397715.4A
Authority: CN
Inventors: 杨潇楠; 吕培; 姚建宁; 李娅
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2023-10-20
Anticipated expiration: 2039-12-30
Also published as: CN111105412A

Abstract

本发明公开了一种用于肠道息肉检测识别的智能辅助系统。该系统包括肠道影像采集单元、肠道息肉检测单元和肠道检测显示单元，其中，肠道影像采集单元用于对肠道影像的采集，然后将肠道影像输入到肠道息肉检测单元进行肠道息肉的定位和识别，肠道检测显示单元则对肠道影像进行视频呈现的同时，还能在肠道影像上同步标注显示肠道息肉的检测信息。该系统能够接入多种不同类型的肠道影像设备，通用性强，检测单元采用深度学习的方法大大提高了对肠道息肉的定位和识别的准确度，并且与肠道影像实时同步显示，提高了检测效率和便利性。

Description

一种用于肠道息肉检测识别的智能辅助系统

技术领域

本发明涉及医学和计算机结合技术领域，尤其涉及一种用于肠道息肉检测识别的智能辅助系统。

背景技术

肠道息肉是一种常见的肠道疾病，内窥镜肠道检测是一种肠道疾病检测方式，使用肠道内窥镜深入肠道内对肠道图像进行采集，通过对内窥镜视觉范围内的图像进行判断，最大限度的发现病灶，从而确定患者病情。内窥镜肠道检查具有检测效率高和成本低的优点，能基本检测所有肠道区域，已经被世界各国各大医院所采用。现有的内窥镜肠道检测通常为医师肉眼观察探测结果来确定息肉位置，息肉的检出率也受医师的经验、疲劳度、探测速率等因素的影响，故存在着一定程度的息肉漏检情况。

因此，为了提高诊断准确率，降低漏诊率，同时也希望提高肠道检测的实时诊断的准确性，需要对肠道息肉检测识别提供智能辅助系统，以此可以实现对息肉的定位精度，为医师的诊断提供了参考。

发明内容

本发明主要解决的技术问题是提供一种用于肠道息肉检测识别的智能辅助系统，解决现有技术中的肠道息肉检测存在的定位和识别的准确度不高、以及识别的时效性不强等问题。

为解决上述技术问题，本发明采用的一个技术方案是提供一种用于肠道息肉检测识别的智能辅助系统，包括肠道影像采集单元、肠道息肉检测单元和肠道检测显示单元，其中，肠道影像采集单元用于对肠道影像的采集，然后将肠道影像输入到肠道息肉检测单元进行肠道息肉的定位和识别，肠道检测显示单元则对肠道影像进行呈现的同时还能在肠道影像上同步标注显示肠道息肉检测信息。

在本发明用于肠道息肉检测识别的智能辅助系统另一实施例中，肠道息肉检测单元还进一步包括转换模块、检测模块和显示模块。

在本发明用于肠道息肉检测识别的智能辅助系统另一实施例中，所述检测模块包括6级依次串联的卷积检测组和检测识别组，其中，第一卷积检测组和第二卷积检测组具有相同的结构，均是由两个卷积层和一个最大池化层串联而成，第三卷积检测组、第四卷积检测组和第五卷积检测组具有相同的结构，均是由三个卷积层和一个最大池化层串联而成，第六卷积检测组则包括9个卷积层串联而成；第四卷积检测组有一个卷积层输出特征图至检测识别组，而第六卷积检测组则有五个卷积层分别输出特征图至检测识别组。

在本发明用于肠道息肉检测识别的智能辅助系统另一实施例中，第一卷积检测组包括依次串联的第一输入卷积层、第一输出卷积层和第一最大池化层；第二卷积检测组包括依次串联的第二输入卷积层、第二输出卷积层和第二最大池化层。

在本发明用于肠道息肉检测识别的智能辅助系统另一实施例中，第三卷积检测组包括依次串联的第三输入卷积层、第三中间卷积层、第三输出卷积层和第三最大池化层，第四卷积检测组包括依次串联的第四输入卷积层、第四中间卷积层、第四输出卷积层3和第四最大池化层，第五卷积检测组中包括依次串联的第五输入卷积层、第五中间卷积层、第五输出卷积层和第五最大池化层。

在本发明用于肠道息肉检测识别的智能辅助系统另一实施例中，第六卷积检测组包括10个卷积子层，依次是串联的第1级卷积子层至第10级卷积子层，其中第2级卷积子层输出特征图至检测识别组，第4级卷积子层输出特征图至检测识别组，第6级卷积子层输出特征图至检测识别组，第8级卷积子层输出特征图至检测识别组，第10级卷积子层输出特征图至检测识别组Q7。

在本发明用于肠道息肉检测识别的智能辅助系统另一实施例中，所述检测模块包括前后级联的五级检测组和检测输出组，其中，第一级检测组包括串联的卷积层和池化层，第二级检测组包括两级串联的Inception结构，第三级检测组包括四级串联的Inception结构，第四级检测组包括两级串联的Inception结构，第五级检测组包括串联的卷积层和池化层，第三级检测组和第四级检测组分别有一路输出至检测输出组，第五级检测组则有三路输出至检测输出组，由检测输出组输出最终检测结果。

在本发明用于肠道息肉检测识别的智能辅助系统另一实施例中，其中，第一级检测组包括五层，从左至右依次是第一卷积层、第一最大池化层、第二卷积层、第三卷积层、第二最大池化层。

在本发明用于肠道息肉检测识别的智能辅助系统另一实施例中，所述Inception结构包括四个分支，其中，第一分支中包括一个卷积层，在第二分支中包括两个串联的卷积层，在第三分支中包括三个串联的卷积层，在第四分支中包括串联的均值池化层和卷积层，这四个分支共同汇接到一个连接层。

在本发明用于肠道息肉检测识别的智能辅助系统另一实施例中，所述检测模块包括Faster RCNN网络，所述Faster RCNN网络包括4个部分：第一，特征提取部分，使用连续的卷积加池化操作从原图提取特征，获取特征图，该部分可以进行替换，换成其他分类网络；第二，区域建议网络部分，通过网络训练的方式从特征图中获取前景目标的大致位置；第三，ROI Pooling部分，利用前面获取到的区域建议框，从特征图中抠出要用于分类的特征图区域，并池化成固定长度的数据；第四，全连接部分，利用全连接网络对前面提取的特征图区域进行类别分类和边框回归，从而得到最终的类别概率和定位框。

在本发明用于肠道息肉检测识别的智能辅助系统另一实施例中，所述检测模块包括Yolo检测网络，所述Yolo检测网络采用网络模型darknet网络，共包含53个卷积层，采用Leaky Relu为激活函数，并且整个网络没有池化层，使用卷积的步长为2完成降采样。

本发明的有益效果是：本发明公开了一种用于肠道息肉检测识别的智能辅助系统。该系统包括肠道影像采集单元、肠道息肉检测单元和肠道检测显示单元，其中，肠道影像采集单元用于对肠道影像的采集，然后将肠道影像输入到肠道息肉检测单元进行肠道息肉的定位和识别，肠道检测显示单元则对肠道影像进行视频呈现的同时，还能在肠道影像上同步标注显示肠道息肉的检测信息。该系统能够接入多种不同类型的肠道影像设备，通用性强，检测单元采用深度学习的方法大大提高了对肠道息肉的定位和识别的准确度，并且与肠道影像实时同步显示，提高了检测效率和便利性。

附图说明

图1是根据本发明用于肠道息肉检测识别的智能辅助系统一实施例的组成框图；

图2是根据本发明用于肠道息肉检测识别的智能辅助系统一实施例中的检测单元组成框图；

图3是根据本发明用于肠道息肉检测识别的智能辅助系统一实施例中的网络训练示意图；

图4是根据本发明用于肠道息肉检测识别的智能辅助系统一实施例中的第一检测模块实施例组成框图；

图5是图4所示第一检测模块实施例中的第一卷积检测组和第二卷积检测组的内部组成示意图；

图6是图4所示第一检测模块实施例中的第三卷积检测组至第五卷积检测组的内部组成示意图；

图7是图4所示第一检测模块实施例中的第六卷积检测组内部组成示意图；

图8是根据本发明用于肠道息肉检测识别的智能辅助系统一实施例中的第二检测模块实施例组成框图；

图9是图8所示第二检测模块实施例中的第一级检测组的内部组成示意图；

图10是图8所示第二检测模块实施例中的Inception结构组成示意图；

图11是图8所示第二检测模块实施例中的第五级检测组的内部组成示意图；

图12是根据本发明用于肠道息肉检测识别的智能辅助系统一实施例中的第三检测模块实施例组成框图；

图13是根据本发明用于肠道息肉检测识别的智能辅助系统一实施例中的第四检测模块实施例组成框图；

图14是根据本发明用于肠道息肉检测识别的智能辅助系统一实施例中的损失函数收敛图；

图15是根据本发明用于肠道息肉检测识别的智能辅助系统一实施例中的检测效果图。

具体实施方式

为了便于理解本发明，下面结合附图和具体实施例，对本发明进行更详细的说明。附图中给出了本发明的较佳的实施例。但是，本发明可以以许多不同的形式来实现，并不限于本说明书所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

需要说明的是，除非另有定义，本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

图1显示了本发明用于肠道息肉检测识别的智能辅助系统一实施例的组成框图。在图1中包括：肠道影像采集单元1、肠道息肉检测单元2和肠道检测显示单元3，其中，肠道影像采集单元1用于对肠道影像的采集，然后将肠道影像输入到肠道息肉检测单元2进行肠道息肉的定位和识别，肠道检测显示单元3则对肠道影像进行呈现的同时还能在肠道影像上同步标注显示肠道息肉检测信息。

优选的，对于肠道影像采集单元包括肠道内镜探测设备，该设备通过传感器及图像处理装置能够检测肠道内部清晰、高质量的图像，通过DVI视频接将采样得到的数据输出。例如，奥林巴斯(Olympus)公司的CV-290电子内镜探测设备。CV-290电子内镜探测设备是通过传感器及图像处理装置提供了清晰、高质量的图像，并融合双焦距、NBI窄带成像、AFI自体荧光成像等技术，通过DVI视频接将采样得到的数据输出。

进一步的，如图2所示，肠道息肉检测单元还进一步包括转换模块21、检测模块22和显示模块23。

优选的，转换模块21用于将从肠道影像采集单元传送过来的视频数据进行格式转换，以及对每一帧图像进行裁剪等处理。

优选的，在格式转换中包括把DVI数字视频接口传递过来的视频信号转换为USB接口的数字视频信号。进一步的，还可以对数字视频信号进一步优化处理，包括对画面色彩、亮度、对比度等参数进行设置和调整。

优选的，视频格式包括YUY2和RGG24，输出分辨率包含1280*720、1920*1080等10种，帧率从25fps-60fps可调，传输速率最高可达2.97Gb/s。

优选的，通过裁剪可以将输入的单帧图像由像素1920*1080裁剪为像素是300*300，然后输入到检测模块中。

优选的，转换模块21的数据源来源于CV-290电子内镜探测设备的数据采集模块，数据经转换模块21处理完毕后输出给下游的检测模块22。格式转换的目的是为了将Olympus CV-290主机采集到的DVI格式转换成数据处理模块所需要的USB格式，方便数据的后续处理。

优选的，转换模块21采用TYHD采集卡实现视频格式转换功能，该采集卡的驱动采用微软标准的AVStream架构，可以直接调用DirectShow接口进行数据格式的处理。另一方面，用户既可调用LibXIStream接口，通过C语言完成对视频信号的进一步优化处理，采用设置回叫函数的方式访问视频帧信息，又可以调用LibXIProperty接口访问画面色彩、亮度、对比度等参数。通过调用API完成参数设置，通过C语言编程完成信号的格式转换功能，并可兼容Windows media encoder、adobe flash media live encoder、real producer plus等软件，方便与其他软件协同联合处理。该采集卡的输出接口包含USB多种接口标准，以适配不同的传输速率，输出色彩空间为YUY2和RGG24两种模式，输出分辨率包含1280*720、1920*1080等10种，帧率从25-60fps可调，传输速率最高可达2.97Gb/s，其内部存储结构采用64MB的DDR2，工作频率为300Mhz，满足实时分析、响应、处理的设计需求。

进一步的，转换模块21还进一步将格式转换过来的数据进行预处理，完成从摄像头获取数据到送入检测模块之间的所有工作。包含视频获取、读取原始分辨率、获取每一帧图像、图像裁剪等几个部分。具体包括的步骤是：视频获取，使用cv2中的函数VideoCapture()实现对输入视频流信号的捕捉，VideoCapture的内置参数为视频路径，并将捕获的数据存入变量video_cap中；读取原始分辨率，在获取到视频信号之后，通过set(cv2.CAP_PROP_FRAME_WIDTH,2000)和set(cv2.CAP_PROP_FRAME_WIDTH,2000)来获取变量video_cap的真实分辨率；获取每一帧图像，使用cv2中read()函数获取输入视频信号的每一帧数据，并将每一帧数据保存在frame中；图像裁剪，对得到的frame中的每一帧图像进行裁剪，并送入检测模块进行检测。

进一步的，对于检测模块而言，优选采用基于卷积神经网络的目标检测网络对肠道内窥镜图像进行检测，因此需要预先对检测模块进行训练，考虑到实际结肠镜检查中光照，角度等因素对息肉的影响，于是在训练之前，对输入的训练图片进行扩增，主要使用的扩增方式包括：随机旋转变换，随机将图像旋转一定角度；随机缩小并填充变换，缩小图片之后，填充形状为原始尺寸；对比度变换，通过改变图像像元的亮度值来改变图像像元的对比度。由此，得到的图像数据集中包含了多种尺度的息肉，以及高亮度条件下的图片数据，有利于增强网络的鲁棒性。

检测模块是本发明系统的核心模块。主要工作是对采集到的肠道视频信号进行实时检测，并将检测到的结果进行画框标注显示出来。优选的，该模块主要由MXNet,Caffe,TensorFlow,Torch,Theano等多种深度学习框架实现核心检测处理得到检测结果，使用自定义函数label_map_util读取息肉标签信息，最后使用自定义函数vis_utils接收图像，对图像执行一些可视化操作。

MXNet,Caffe,TensorFlow,Torch,Theano等多种深度学习框架部分主要包括的步骤有：加载训练好的模型，读取标签信息，检测算法，显示模块。其中，加载预训练好的模型：使用函数tf.gfile.GFile()获取文本操作句柄，类似于python提供的文本操作open()函数，filename是要打开的文件名，mode是以何种方式去读写，将会返回一个文本操作句柄。然后使用read()函数读取数据，之后进行函数解析。最终获得预训练好的模型里的参数和图表等信息；读取标签信息：使用自定义函数读取事先定义好的数据标签信息，以便于在输出结果中显示出标签信息；检测算法：该算法首先读取到视频数据采集模块采集的每一帧信号，然后使用cv2中的read()函数判断每一帧信号是否为真，如果是，则进行定位检测处理，否则就跳出。然后使用numpy函数对数组进行处理，转化为计算机语言，送入到MXNet,Caffe,TensorFlow,Torch,Theano等多种深度学习框架的模块中进行定位检测，最总得到检测结果：定位框、标签信息和阈值得分。三类信息一一对应，并以元组，列表，集合嵌套的格式存储。定位检测算法实现主要还是依赖于MXNet,Caffe,TensorFlow,Torch,Theano等多种深度学习框架中的特有的函数结构。利用检测模块对图像进行目标检测，得出病灶的定位框和类别概率值，最后经过非极大值抑制，进而得到最终的定位框和类别概率。

对于显示模块，进一步优选的，检测模块得到了所有目标的检测结果，得到的每组结果将在显示模块中画出。显示模块在函数中实现时，使用python中导入的PIL图像处理库中的ImageFont、ImageDraw、ImageColor等函数，设置了输出框的粗细、颜色、字体大小等属性。

优选的，检测模块和显示模块还可以通过单独的视频图像处理硬件电路来实现，例如采用jetson板卡作为硬件实现平台，完成视频图像的采集、数据格式转换、定位检测处理和视频显示控制。这样，由前述的CV-290电子内镜探测设备采集的肠道图像信息并不是直接显示到显示屏上，而是接入到jetson卡的视频输入口，这样在jetson板卡完成转换和检测功能后，再在原有的肠道图像信息上叠加检测定位结果，然后通过jetson板卡的视频输出口连接显示器，这样由显示器显示的肠道图像就可以叠加显示有定位指示框，实现对肠道内息肉的辅助定位识别检测。

进一步的，通过上述肠道影像采集单元，如CV-290电子内镜探测设备输出的DVI数字视频信号接入到TYHD采集卡进行格式转换，转换为USB格式，这样转换模块21实现DVI到USB格式的转换，然后再接入到jetson板卡的USB接口，其中的检测模块完成对息肉的实时精确定位，软件设计结合算法模块和输入视频流，最后同步显示检测结果，而显示模块23实现视频数据以HDMI、USB、DVI、VGA等多种视频接口方式进行传输与显示。

优选的，对于检测模块，使用MXNet,Caffe,TensorFlow,Torch,Theano等多种深度学习框架来构建目标检测网络，使用python开发语言进行代码编写，在Ubuntu系统环境下进行模型的训练。硬件环境为NVIDIA GTX1080ti显卡。

优选的，对于检测模块的训练，如图3所示，对于检测模块中的神经网络，通过训练使得神经网络中的参数值不断的调整，使输出的坐标和类别结果无限接近真实值，最终使损失函数(图3中的交叉熵，用于求目标值与预测值之间的差距)达到最小值。神经网络的初始值一开始是人工赋予的，随着训练的进行，网络的参数逐渐调整，直到该神经网络收敛。该图3中的标注信息是指使用标注软件，对样本图片中的病灶部位进行标注，包含位置信息和类别信息，表示图像中病灶的真实信息。

优选的，为了在规模较小的数据集上训练出准确度高的神经网络检测模型，使用COCO数据集下的预训练模型参数作为基础网络的初始参数，然后在此基础上进行训练。

进一步的，在检测模块完成训练之后，则需要对转换模块输入的视频信号进行实时检测，并将检测到的结果通过显示模块进行画框标注显示出来。

优选的，检测模块一优选实施例，如图4所示，包括6级依次串联的卷积检测组，其中，第一卷积检测组Q1和第二卷积检测组Q2具有相同的结构，均是由两个卷积层和一个最大池化层串联而成，第三卷积检测组Q3、第四卷积检测组Q4和第五卷积检测组Q5具有相同的结构，均是由三个卷积层和一个最大池化层串联而成，第六卷积检测组Q6则包括9个卷积层串联而成。进一步，第四卷积检测组Q4有一个卷积层输出特征图至检测识别组Q7，而第六卷积检测组Q6则有五个卷积层分别输出特征图至检测识别组Q7。

进一步的，如图5所示，显示了第一卷积检测组Q1和第二卷积检测组Q2的内部组成，在第一卷积检测组Q1中，包括第一输入卷积层Q11、第一输出卷积层Q12和第一最大池化层Q13，第一输入卷积层Q11的卷积核为3*3，通道数为64，每一通道输出的像素值300*300，第一输出卷积层Q12的结构与第一输入卷积层Q11的结构完全相同，即第一输出卷积层Q12的卷积核为3*3，通道数为64，每一通道输出的像素值300*300，第一最大池化层Q13为2*2，通道数为64，每一通道输出的像素值150*150；与第一卷积检测组Q1类似，在第二卷积检测组Q2中，包括第二输入卷积层Q21、第二输出卷积层Q22和第二最大池化层Q23，第二输入卷积层Q21的卷积核为3*3，通道数为128，每一通道输出的像素值150*150，第二输出卷积层Q22的结构与第一输入卷积层Q21的结构完全相同，即第二输出卷积层Q22的卷积核为3*3，通道数为128，每一通道输出的像素值150*150，第二最大池化层Q23为2*2，通道数为128，每一通道输出的像素值75*75。

进一步的，如图6所示，显示了第三卷积检测组Q3至第五卷积检测组Q5的内部组成。在第三卷积检测组Q3中，包括第三输入卷积层Q31、第三中间卷积层Q32、第三输出卷积层Q33和第三最大池化层Q34，第三输入卷积层Q31至第三输出卷积层Q33的卷积核为3*3，通道数均为256，每一通道输出的像素值均为75*75，第三最大池化层Q34为2*2，通道数为256，每一通道输出的像素值38*38；在第四卷积检测组Q4中，包括第四输入卷积层Q41、第四中间卷积层Q42、第四输出卷积层Q43和第四最大池化层Q44，第四输入卷积层Q41至第四输出卷积层Q43的卷积核为3*3，通道数均为512，每一通道输出的像素值均为38*38，第四输出卷积层Q43还输出到输出特征图至检测识别组Q7，第四最大池化层Q44为2*2，通道数为512，每一通道输出的像素值19*19；在第五卷积检测组Q5中，包括第五输入卷积层Q51、第五中间卷积层Q52、第五输出卷积层Q53和第五最大池化层Q54，第五输入卷积层Q51至第五输出卷积层Q53的卷积核为3*3，通道数均为512，每一通道输出的像素值均为19*19，第五最大池化层Q54为2*2，通道数为512，每一通道输出的像素值19*19。

进一步的，如图7所示，显示了第六卷积检测组Q6的内部组成，包括10个卷积子层，依次是串联的第1级卷积子层Q61至第10级卷积子层Q610，其中第1级卷积子层Q61的卷积核为3*3，通道数为1024，每一通道输出的像素值19*19；第2级卷积子层Q62的卷积核为1*1，通道数为1024，每一通道输出的像素值19*19，第2级卷积子层Q62还输出特征图至检测识别组Q7；第3级卷积子层Q63的卷积核为1*1，通道数为256，每一通道输出的像素值19*19；第4级卷积子层Q64的卷积核为3*3，通道数为512，每一通道输出的像素值10*10，第4级卷积子层Q64还输出特征图至检测识别组Q7；第5级卷积子层Q65的卷积核为1*1，通道数为128，每一通道输出的像素值10*10；第6级卷积子层Q66的卷积核为3*3，通道数为256，每一通道输出的像素值5*5，第6级卷积子层Q66还输出特征图至检测识别组Q7；第7级卷积子层Q67的卷积核为1*1，通道数为128，每一通道输出的像素值5*5；第8级卷积子层Q68的卷积核为3*3，通道数为256，每一通道输出的像素值3*3，第8级卷积子层Q68还输出特征图至检测识别组Q7；第9级卷积子层Q69的卷积核为1*1，通道数为128，每一通道输出的像素值3*3；第10级卷积子层Q610的卷积核为3*3，通道数为256，每一通道输出的像素值1*1，第10级卷积子层Q610输出特征图至检测识别组Q7。

进一步，图8显示了检测模块另一优选实施例的组成框图，包括前后级联的五级检测组和检测输出组。其中，第一级检测组J1包括串联的卷积层和池化层，第二级检测组J2包括两级串联的Inception结构，第三级检测组J3包括四级串联的Inception结构，第四级检测组J4包括两级串联的Inception结构，第五级检测组J5包括串联的卷积层和池化层，第三级检测组J3和第四级检测组J4分别有一路输出至检测输出组S1，第五级检测组J5则有三路输出至检测输出组S1，由检测输出组S1输出最终检测结果。

其中，第一级检测组J1包括五层，如图9所示，从左至右依次是第一卷积层J11、第一最大池化层J12、第二卷积层J13、第三卷积层J14、第二最大池化层J15，其中，第一卷积层J11的卷积核为7*7，通道数为64，每一通道输出的像素值均为150*150；第一最大池化层J12为3*3，通道数为64，每一通道输出的像素值75*75；第二卷积层J13的卷积核为1*1，通道数为64，每一通道输出的像素值均为75*75；第三卷积层J14的卷积核为3*3，通道数为192，每一通道输出的像素值均为75*75；第二最大池化层J15为3*3，通道数为192，每一通道输出的像素值38*38。

进一步的，第二级检测组J2包括两级串联的Inception结构，如图10所示，这两级Inception结构均具有相同结构组成的四个分支，区别在于分支中的通道数有所不同。

优选的，对于第一级Inception结构，结构图如图10所示，在第一分支B1中包括一个卷积层B11，卷积核为1*1，通道数为64；在第二分支B2中包括两个串联的卷积层，第一卷积层B21的卷积核为1*1，通道数为64，第二卷积层B22的卷积核为3*3，通道数为64；在第三分支B3中包括三个串联的卷积层，第一卷积层B31的卷积核为1*1，通道数为64，第二卷积层B32的卷积核为3*3，通道数为96，第三卷积层B33的卷积核为3*3，通道数为96；在第四分支B4中包括一个均值池化层B41和一个卷积层B42，均值池化层B41为3*3，卷积层B42的卷积核为1*1，通道数为32。因此，对于第一级Inception结构共有256个通道，每个通道输出的像素值均为38*38。这四个分支通过共同汇接到一个连接层L1。

对于第二级Inception结构，结构图如图10所示，与第一级Inception具有相同的结构，区别在于：第二分支B2中的第二卷积层B22的通道数为96，第四分支B4中的卷积层B42的通道数为64。

在第二级检测组J2和第三级检测组J3之间串联的是第一组间均值池化层，为3*3，经过该第一组间均值池化层输出的像素为19*19，通道数为320。

第三级检测组J3包括四级串联的Inception结构，如图10所示，这四级Inception结构均具有相同结构组成的四个分支，区别在于分支中的通道数有所不同。其中，主要区别在于：第一级Inception结构中第一分支的卷积层的卷积核为1*1，通道数为224，第二分支中的第一卷积层的卷积核为1*1，通道数为64，第二卷积层的卷积核为3*3，通道数为96；第三分支中的第一卷积层的卷积核为1*1，通道数为96，第二卷积层的卷积核为3*3，通道数为128，第三卷积层的卷积核为3*3，通道数为128；第四分支B4中的均值池化层为3*3，卷积层的卷积核为1*1，通道数为128。第二级Inception结构中第一分支的卷积层的卷积核为1*1，通道数为192，第二分支中的第一卷积层的卷积核为1*1，通道数为96，第二卷积层的卷积核为3*3，通道数为128；第三分支中的第一卷积层的卷积核为1*1，通道数为96，第二卷积层的卷积核为3*3，通道数为128，第三卷积层的卷积核为3*3，通道数为128；第四分支B4中的均值池化层为3*3，卷积层的卷积核为1*1，通道数为128。第三级Inception结构中第一分支的卷积层的卷积核为1*1，通道数为160，第二分支中的第一卷积层的卷积核为1*1，通道数为128，第二卷积层的卷积核为3*3，通道数为160；第三分支中的第一卷积层的卷积核为1*1，通道数为128，第二卷积层的卷积核为3*3，通道数为160，第三卷积层的卷积核为3*3，通道数为160；第四分支B4中的均值池化层为3*3，卷积层的卷积核为1*1，通道数为96。第四级Inception结构中第一分支的卷积层的卷积核为1*1，通道数为96，第二分支中的第一卷积层的卷积核为1*1，通道数为128，第二卷积层的卷积核为3*3，通道数为192；第三分支中的第一卷积层的卷积核为1*1，通道数为160，第二卷积层的卷积核为3*3，通道数为192，第三卷积层的卷积核为3*3，通道数为192；第四分支B4中的均值池化层为3*3，卷积层的卷积核为1*1，通道数为96。

在第三级检测组J3和第四级检测组J4之间串联的是第二组间最大池化层，为3*3，经过该第二组间最大池化层输出的像素为10*10，通道数为576。

第四级检测组J4包括两级串联的Inception结构，如图10所示，这两级Inception结构均具有相同结构组成的四个分支，第一级Inception结构中第一分支的卷积层的卷积核为1*1，通道数为352，第二分支中的第一卷积层的卷积核为1*1，通道数为192，第二卷积层的卷积核为3*3，通道数为320；第三分支中的第一卷积层的卷积核为1*1，通道数为160，第二卷积层的卷积核为3*3，通道数为224，第三卷积层的卷积核为3*3，通道数为224；第四分支B4中的均值池化层为3*3，卷积层的卷积核为1*1，通道数为128。第二级Inception结构中第一分支的卷积层的卷积核为1*1，通道数为352，第二分支中的第一卷积层的卷积核为1*1，通道数为192，第二卷积层的卷积核为3*3，通道数为320；第三分支中的第一卷积层的卷积核为1*1，通道数为160，第二卷积层的卷积核为3*3，通道数为224，第三卷积层的卷积核为3*3，通道数为224；第四分支B4中的均值池化层为3*3，卷积层的卷积核为1*1，通道数为128。

以上网络结构中采用了Inception结构，主要是可以增加网络的宽度和深度，实现了对特征的多维度的提取，从而提取了更多的特征，再就是其中采用了尺寸为1*1的卷积核对数据进行降维，减小了网络的计算量。

第五级检测组J5包括八级依次串联的卷积层，如图11所示，第一级卷积层J51的卷积核为1*1，通道数为256，第二级卷积层J52的卷积核为3*3，通道数为512，第三级卷积层J53的卷积核为1*1，通道数为128，第四级卷积层J54的卷积核为3*3，通道数为256，第五级卷积层J55的卷积核为1*1，通道数为256，第六级卷积层J56的卷积核为3*3，通道数为128，第七级卷积层J57的卷积核为1*1，通道数为128，第八级卷积层J58的卷积核为3*3，通道数为64。

优选的,图8中的检测输出组S1对6个特征图以选择框的方式输出，例如这六个特征图中分别包括的选择框的个数为[4,6,6,6,4,4]，而这些选择框的尺寸比例还可以进一步限定，第一特征图中各个选择框的归一化比例为[1.0,1.25,2.0,3.0]，第二特征图中各个选择框的归一化比例为[1.0,1.25,2.0,3.0,0.5,0.33]，第三特征图中各个选择框的归一化比例为[1.0,1.25,2.0,3.0,0.5,0.33]，第四特征图中各个选择框的归一化比例为[1.0,1.25,2.0,3.0,0.5,0.33]，第五特征图中各个选择框的归一化比例为[1.0,1.25,2.0,3.0]，第六特征图中各个选择框的归一化比例为[1.0,1.25,2.0,3.0]。这些选择框汇总后作为候选目标，然后再经过非极大值抑制得到有效目标的选择框。

以上图4至图11中的网络结构参数设置是通过大量的训练实验不断优化调整得到的，由此获得了对息肉检测的高准确率和高时效性。

进一步，如图12显示检测模块另一优选实施例，采用SSD(Single Shot MultiBoxDetector)网络结构。SSD是一个前向传播的CNN网络，基于事先设定好的不同宽高比的定位框，预测每一个定位框的偏移量以及每一个定位框包含物体的类别概率，之后对符合要求的定位框进行非极大值抑制，最终得出预测的定位框和类别概率。

从图12可以看出SSD网络包括两个部分：基础特征提取网络和金字塔网络。基础网络是VGG-16网络改造而来，使用前面的前5层，然后利用astrous算法将fc6和fc7层转化成两个卷积层，再额外增加了3个卷积层和1个均值池化层。金字塔网络是对逐渐变小的特征图进行卷积处理，不同层次的特征图分别用于选择框的偏移以及不同类别得分的预测。

这些增加的卷积层的特征图变化比较大，允许能够检测出不同尺度下的物体：在低层的特征图感受野比较小，高层的感受野比较大，在不同的特征图进行卷积，可以达到多尺度的目的。

SSD去掉了全连接层，每一个输出只会感受到目标周围的信息，包括上下文。这样来做就增加了合理性。并且不同的特征图预测不同宽高比的图像，这样增加了预测更多的比例的选择框。SSD网络通过对不同的特征层进行卷积操作，直接预测坐标和类别，这样就可以对原图中不同尺度的物体进行检测。

进一步，如图13显示检测模块另一优选实施例，采用Faster RCNN网络，该目标检测网络的优点是使用网络训练来获取区域建议框，而且需要的时间非常短，使得整个网络的检测、分类速度大幅提升。

该Faster RCNN个网络由4个部分构成：第一，特征提取部分：使用连续的卷积加池化操作从原图提取特征，获取特征图，该部分可以进行替换，换成其他分类网络；第二，区域建议网络部分：这部分是Faster RCNN全新提出的结构，也是整个网络最大的改进地方，作用是通过网络训练的方式从特征图中获取前景目标的大致位置；第三，ROI Pooling部分：利用前面获取到的区域建议框，从特征图中抠出要用于分类的特征图区域，并池化成固定长度的数据，方便后面的卷积操作；第四，最后的全连接部分：利用全连接网络对前面提取的特征图区域进行类别分类和边框回归，从而得到最终的类别概率和定位框。

Faster RCNN的主要贡献在于提出了RPN来进行高效而准确的区域提议。这种网络与检测网络共享卷积层，而且区域建议的过程基本上不消耗时间，该方法使统一的，端到端的目标检测系统能够以接近实时的帧率运行，通过训练学习的RPN也提高了区域提议的质量，从而提高了整体的目标检测精度。

进一步，在检测模块另一优选实施例中，采用Yolo目标检测网络，该网络是JosephRedmon等人在Yolov1版本基础上不断升级改进而来，该网络可以实现端到端的目标检测。

Yolo目标检测网络的核心思想是将图片分成s×s的网格，每个网格有B个boxbounding，相应的每个box bounding有一个confindence，四个box位置，c个类别概率。如果物体的中心坐标落在某个格子中，那么这个格子就负责检测这个物体(包括bounding box的坐标和类别概率)。Yolo目标检测网络借鉴Faster RCNN的anchor box思想，去掉了早期版本的全连接层，使用anchor boxes来预测bounding boxes，同时采用加快收敛速度和多尺度训练技术。

优选的，Yolo目标检测网络采用多尺度对不同大小的目标进行检测，在保证速度的前提下提高了精度。进一步的，Yolo目标检测网络采用一种新的网络模型darknet网络，共包含53个卷积层，采用Leaky Relu为激活函数，并且整个网络没有池化层，使用卷积的步长为2完成降采样。为增加对小目标的检测，没有像SSD那样直接采用backbone中间层的处理结果作为feature map的输出，而是和后面网络层的上采样结果进行一个拼接之后的处理结果作为特征图。最终输出了3个不同尺度的特征图，分别是13*13*1255，26*126*1255，52*152*1255。

优选的，为了验证本发明的检测特性，本发明的训练过程是在Ubuntu系统环境下使用python进行的。所有实验均采用MXNet,Caffe,TensorFlow,Torch,Theano等多种深度学习框架来实现软件库。整个训练过程使用梯度下降及反向传播算法来学习网络参数。训练的批次处理大小batch为32，动量(momentum)为0.9，权重衰减(decay)为0.0005，最大迭代次数为60000次。初始化网络训练的初始学习率为0.004,decay_steps为15000，decay_factor为0.9。训练过程中模型的损失函数收敛曲线如图14所示，由图可知，损失函数随着迭代次数的增加越来越接近于0，网络是稳定收敛的。

优选的，还选取了检测性能指标，包括IOU(交并比)：即Intersection-over-Union，表示检测结果DR(DetectionResult)与真实标注框GroundTruth的交集比上它们的并集，即为IOU。

其中，j+1表示检测图片的总数，i表示被检测图片的标号，DRi表示第i张检测结果，GTi表示第i张的真实值。

第二个指标是敏感性：是测试集中所有正样本比例中，被正确识别为正样本的比例。公式如下：

其中，TP(True Positives,TP)为正样本被正确识别为正样本的数量，FN(FalseNegatives,FN)为正样本被错误识别为负样本的数量。

第三个指标是特异性：是测试集中所有负样本比例中，被正确识别为负样本的比例。公式如下：

其中，TN(True Negatives,TN)为负样本中被正确识别为负样本的数量，FP(FalsePositives,FP)为负样本被错误识别为正样本的数量。

第四个指标是准确率(Accuracy):为所有样本中检查正确的比例。公式如下：

为了进一步评估本发明实施例的检测性能，我们在同一数据集上评估了第一实施例(图4对应的实施例)，第二实施例(图8对应的实施例)在IOU、敏感性、特异性方面的性能，如表一所示。

表一：两种实施例检测性能对比

从图15可以看出，结肠镜下息肉检测定位算法取得了较好的结果。并且能够在检测视频中实时呈现检测目标对应的选择框及检测概率。

由此可见，本发明公开了一种用于肠道息肉检测识别的智能辅助系统。该系统包括肠道影像采集单元、肠道息肉检测单元和肠道检测显示单元，其中，肠道影像采集单元用于对肠道影像的采集，然后将肠道影像输入到肠道息肉检测单元进行肠道息肉的定位和识别，肠道检测显示单元则对肠道影像进行视频呈现的同时，还能在肠道影像上同步标注显示肠道息肉的检测信息。该系统能够接入多种不同类型的肠道影像设备，通用性强，检测单元采用深度学习的方法大大提高了对肠道息肉的定位和识别的准确度，并且与肠道影像实时同步显示，提高了检测效率和便利性。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种用于肠道息肉检测识别的智能辅助系统，其特征在于，包括肠道影像采集单元、肠道息肉检测单元和肠道检测显示单元，其中，肠道影像采集单元用于对肠道影像的采集，然后将肠道影像输入到肠道息肉检测单元进行肠道息肉的定位和识别，肠道检测显示单元则对肠道影像进行呈现的同时还能在肠道影像上实时同步标注显示肠道息肉检测信息；

肠道息肉检测单元还进一步包括转换模块、检测模块和显示模块；

所述检测模块包括6级依次串联的卷积检测组和检测识别组，其中，第一卷积检测组和第二卷积检测组具有相同的结构，均是由两个卷积层和一个最大池化层串联而成，第三卷积检测组、第四卷积检测组和第五卷积检测组具有相同的结构，均是由三个卷积层和一个最大池化层串联而成，第六卷积检测组则包括9个卷积层串联而成；第四卷积检测组有一个卷积层输出特征图至检测识别组，而第六卷积检测组则有五个卷积层分别输出特征图至检测识别组；

第一卷积检测组包括依次串联的第一输入卷积层、第一输出卷积层和第一最大池化层；第二卷积检测组包括依次串联的第二输入卷积层、第二输出卷积层和第二最大池化层；

第三卷积检测组包括依次串联的第三输入卷积层、第三中间卷积层、第三输出卷积层和第三最大池化层，第四卷积检测组包括依次串联的第四输入卷积层、第四中间卷积层、第四输出卷积层3和第四最大池化层，第五卷积检测组中包括依次串联的第五输入卷积层、第五中间卷积层、第五输出卷积层和第五最大池化层；

第六卷积检测组包括10个卷积子层，依次是串联的第1级卷积子层至第10级卷积子层，其中第2级卷积子层输出特征图至检测识别组，第4级卷积子层输出特征图至检测识别组，第6级卷积子层输出特征图至检测识别组，第8级卷积子层输出特征图至检测识别组，第10级卷积子层输出特征图至检测识别组。