CN110309329A

CN110309329A - 内镜检查中智能化识别和记录消化道组织和异物的方法

Info

Publication number: CN110309329A
Application number: CN201910385762.0A
Authority: CN
Inventors: 曾凡; 段惠峰; 黄锦; 柯钦瑜; 黄勇; 邰海军
Original assignee: Henan Xuan Yongtang Medical Information Technology Co Ltd
Current assignee: Henan Xuan Yongtang Medical Information Technology Co Ltd
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2019-10-08

Abstract

本发明公开了一种内镜检查中智能化识别和记录消化道组织和异物的方法，将消化道内镜检测的的图像进行分类存储，建立深度学习神经网络模型，将分类存储的图片数据随机划分为训练集和测试集进行深度学习训练的数据，获取实时肠镜图片信息并进行向量网格化处理后输入深度学习神经网络模型中进行识别，具有快速精准、自主学习性的有益效果。

Description

内镜检查中智能化识别和记录消化道组织和异物的方法

技术领域

本发明涉及图像识别技术领域，具体涉及内镜检查中智能化识别和记录消化道组织和异物的方法。

背景技术

对内镜下消化道组织和异物的识别是消化内镜视觉辅助诊断的基础，只有识别出组织和异物，才能去分析和提示这些组织和异物的问题。传统的消化道组织和异物的识别为医生通过肉眼观察发现消化道内异物或病变组织，准确发现和描述消化道组织和异物需要医生具备丰富的经验，并且医生通过回忆方式记录这些内容，若检查次数过多，容易记录混乱，此外，组织或异物的识别和记录没有科学的手段和方法，无法为后续的研究提供支持。

发明内容

为解决上述问题，本发明提供一种内镜检查中智能化识别和记录消化道组织和异物的方法，具有自主学习性、训练快速和识别精准的特点。

本发明通过以下技术方案实现：

内镜检查中智能化识别和记录消化道组织和异物的方法，包括如下步骤：

h）：建立数据集：将自动批量抓取从消化道内镜检测中采集到的目标特征图片分类存储，以建立分类数据集；

i）：建立训练集、验证集和测试集：从各分类数据集中抽取一定比例的数据生成测试集；依据K折交叉验证法将各分类数据集划分为训练集和验证集，将所述的测试集、训练集和验证集进行数据向量化处理；

j）：建立深度学习神经网络模型：根据3D卷积、最大池化、全链接神经元、数据扁平化和概率输出创建卷积神经网络模型，并对测试集、训练集和验证集进行正则化处理；

k）：对神经网络模型进行训练；

l）：对神经网络模型进行测试：

使用训练模型对向量正则化后的测试集进行测试，以测试其泛化能力和识别能力；

m）：获取实时消化道内镜视频并对其进行识别和记录：获取实时的消化道内镜视频图像，将其均匀的分割为多个子区域，将每个子区域压缩至神经网络模型输入的图片格式大小，遍历所述消化道内镜图像的所有子区域，并将每个子区域进行向量化，输入到神经网络模型中，模型返回识别概率向量，使用其中值最大的概率标量作为结果，判定概率标量是否大于标量阈值，若大于则将识别后的目标特征子区域进行存储。

步骤i）中，所述一定比例的数据集为各分类数据集总数量的60%以上；

所述K折交叉验证法为将各数据集划分为K个分区，并进行K次图片获取，每次随机获取K-1个分区作为训练集，并将剩余的一个分区作为验证集以进行验证。

步骤i）中，所述测试集、训练集和验证集进行向量化处理包括如下步骤：

i1）：创建图片路径向量imagePaths存储单元，将每类数据集的地址信息依次存储图片路径向量imagePaths中；

i2）：分别创建data和label存储单元，遍历imagePaths中的所有存储图片，将图片进行压缩，然后将图片均值按列遍历，拼接首尾行得到图片向量；

i3）：将图片向量的色值除255，以使得色值转换为0至1范围内的小数并依次存储于data中，将图片向量对应的类别名称依次存入label中。

步骤j）中，神经网络模型包括输入层、第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第三最大池化层，数据扁平过渡层、全链接数据层和概率输出层。

步骤k）中所述神经网络模型进行训练的方法为：设置神经网络模型的损失函数，初始化各层网络参数，输入向量正则化后的训练集和验证集进行训练，设置均方根误差作为优化器，通过多分类交叉熵损失值的梯度下降，对各层网络中权值参数进行更新，以得到训练模型。

步骤m）中，所述标量阈值为95%，所述实时的消化道内镜图像均匀分割为多个子区域包括如下步骤：

m1）：获取内镜实时图像的图像宽度和图像高度，将图像宽度和图像高度均除十以将所述消化道内镜图像分割为100个子区域；

m2）：遍历所有子区域，压缩所有子区域图片，将各子区域图片向量化，并将向量化后的各子区域的色值除255，将RGB三个通道的值压缩为0至1范围内的小数。

本发明公开了一种内镜检查中智能化识别和记录消化道组织和异物的方法，批量自动识别内镜检测中的特征图像，并将消化道内镜检测的的特征图像进行分类存储，建立深度学习网络模型，获取实时消化内镜视频信息，获取逐帧的图片，并对其进行向量化处理后输入深度学习模型中进行识别，记录识别率达到标准的图片，具有节约成本、训练快速、识别精准、的有益效果。

附图说明

图1 是内镜检查中智能化识别和记录消化道组织和异物的方法流程图。

图2是参数H，S和V调节的进度条示意图。

图3是目标特征为手术器械时二值化后的特征图。

图4是从确定目标特征在图片中的位置和宽度的图片。

图5是从视频中截取的目标特征为手术器械的部分图片。

图6是各分类数据集中图片向量化的存储结构示意图。

图7是深度学习模型识别并标注实时视频中的组织或异物的结果图。

图8是图7中识别的组织或异物存储后的结果图。

图9是两图片特征点集合中相同特征点的数量。

图10是未比较和归档的数据集中的图片。

图11是将图10数据集中的图片比较和归档后的结果。

图12是高精度卷积神经网络识别手术过程并分类的结果图。

图13是识别的手术过程中电烧切除环金属套圈的图片结果。

图14是识别的手术过程中金属夹张开的图片结果。

图15是识别的手术过程中止血钛夹闭合后未脱离的图片。

图16是识别的手术过程中止血钛夹闭合后脱离的图片。

具体实施方式

下面将结合本发明中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例实例仅仅是本发明一部分实施实例，而不是全部的实施实例，基于本发明的实施实例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施实例，都属于本发明保护的范围。

在内镜检查中智能化识别和记录消化道组织和异物的方法之前还包括对批量抓取特征图片的步骤，具体如下：

步骤一：批量从视频中抓取手术视频特征图片，

a）：视频读取和色彩通道格式转换：读取存储设备上消化道内镜诊治过程的视频，将视频的颜色通道格式由RGB转换为HSV，以便于寻找可以剥离特定目标识别区域的背景掩码；

b）：定位视频中目标并除去视频背景：如图2所示，调节HSV颜色空间中参数H、S和V的范围以定位视频内容，采用视频背景中的HSV颜色空间得到相应的HSV掩码，通过HSV掩码定位视频中的目标特征，调节参数H、S和V除去除目标特征外所有的背景，所述目标特征为消化道内组织器官、粪便、检查和手术器具中的任意一种；

c）：获取目标特征图片：利用掩码与目标特征中的每个像素进行掩码运算，且所述目标特征图片包括目标特征区图像和非目标特征区图像，所述目标特征区图像内的像素值保持不变，非目标特征区图像的像素值为零；

d）：对目标特征图片进行灰度转换与二值化处理：采用灰度转换公式Gray=(R*299+G*587+B*114+500）/1000得到目标特征图片，将目标特征图片的灰度图通过二进制阈值算法得到二值化图，并对二值化图进行形态学腐蚀操作和膨胀操作来去噪，所述目标特征图片的灰度图为单通道灰度图，且单通道值范围为0-255，所述二值化图为单通道为0或255的二值化图，如图3所示；

e）：对目标特征进行轮廓检测与定位：采用Freeman链码对二值化图进行轮廓检测，返回目标特征图片的位置、目标特征轮廓范围和目标特征点的统计总数，如图4所示，此时，目标特征为手术器械，图片中的线框位置为目标特征在图片中的位置。线框的宽度大小为目标特征的轮廓范围；

f）：计算目标特征在图片中的比例：将二值化图像中的目标特征图映射到矩阵，并将矩阵转换为行首尾相接的向量，将向量值累加并除以255得到特征值所有白色像素点的数量，计算白色像素在背景黑色像素的比例，得出目标特征在图片上的大小；

g）：逐帧判定视频帧是否满足截取判定条件，若满足，则对图片中目标特征图进行截取，并保存截取结果。如图5所示，是从视频中截取的目标特征为手术器械时的部分图片。

步骤g）中，判定视频帧是否满足截取判定条件包括如下步骤：

g1）：判断步骤e）中的目标特征点的统计总数是否大于5000，若大于则转入步骤g2），否则，直接进行下一视频帧的转换；

g2）：判断步骤e）中的目标特征轮廓的宽和高的比例是否为宽高比在5倍以下，且大于五分之一，若是，则转入步骤g3），否则，直接进行下一视频帧的转换；

g3）：判断步骤f）中的目标特征在图片中的比例是否在2%-20%范围内，若在，则截取帧中目标特征，保存到结果集，否则，进行下一视频帧的转换。

医生对结果集进行人工筛选，需要删除其中非相关特征的图片，最终剩下的就是标准且精确的特征图。

如图1所示，内镜检查中智能化识别和记录消化道组织和异物的方法，包括如下步骤：

步骤二：建立神经网络模型，并对神经网络模型进行训练：

h）：建立数据集：将从消化道内镜检测中采集到的目标特征图片分类存储以建立分类数据集；

根据目标特征属性建立目标特征图片的数学和业务模型，自动化批量抓取从消化道内镜检测中出现的目标特征图片，并分类存储以建立分类数据集；

目标特征属性包括，目标特征无规律，离散分布在视频中、目标特征的大小在图片中所占比例为3%-20%、目标特征颜色与消化道颜色不一致，消化道内镜镜头移动并屏蔽消化道背景后，可以得到目标特征在区域内移动的错觉、以及目标特特征视频帧数较高和需要专业医疗人员对图片进行标注，得到的数据量小；

所述分类数据集为在存储器件上开辟的存储空间，优选为文件夹格式进行存储，所述存储器件包括磁盘或移动硬盘。所述分类数据集包括背景类数据集、消化道组织数据集和异物类数据集，所述背景类数据集的目标特征图片包括肠壁、胃壁和食道等非识别内容图片，所述消化道组织数据集内的目标特征图片包括贲门、胃底、息肉和肿瘤等需要识别和记录的肠道组织，所述异物类数据集内的目标特征图片包括粪便、夹子、套圈和吸管等需要识别和记录非肠道组织内容。

i）：建立训练集、验证集和测试集：从各分类数据集中抽取60%以上数据生成测试集；依据K折交叉验证法将各分类数据集划分为训练集和验证集，将所述的测试集、训练集和验证集进行数据向量化处理；

所述训练集和验证集以进行深度卷积神经网络模型的训练，所述测试集用来评估深度神经网络模型的实际识别结果；

由于医疗数据中的标记数据较少且从视频中提取的内容相似度较高，使得验证集的数据会很小，这样验证的会有较大波动，验证集的划分方式会造成深度学习神经网络模型在评估时有很大方差，因此，优选为K折交叉验证法为训练集和验证集的划分方法，将K次图片获取的测试结果求取平均数来评估神经网络模型的可靠性。

i2）：分别创建data和label存储单元，遍历imagePaths中的所有存储图片，将图片进行压缩为96x96大小的图片，然后将图片均值按列遍历，拼接首尾行得到图片的向量；

i3）：将图片向量的色值除255，以使得色值转换为0至1范围内的小数并依次存储于data中，将图片向量对应的类别名称依次存入label中；

如图6所示，是各分类数据集中图片向量化的存储结构示意图。

j）：根据3D卷积、最大池化、全链接神经元、数据扁平化和概率输出创建神经网络模型，并对测试集、训练集和验证集进行正则化处理，神经网络模型包括输入层、第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第三最大池化层，数据扁平过渡层、全链接数据层和概率输出层；

所述输入层是向量化的图片的输入入口，所述输入层的模型宽高均为150，色彩通道为三通道。

所述第一卷积层将输入内容输入卷积核，所述卷积核的大小为3*3，64隐藏节点，激活函数为修正线性单元；

所述第一最大池化层将第一卷积层的卷积结果进行2*2池化；

所述第二卷积层的卷积核的大小为3*3，128隐藏节点，激活函数为修正线性单元；

所述第二最大池化层将第二卷积层的卷积结果进行2*2池化；

所述第三卷积层的卷积核的大小为3*3，256隐藏节点，激活函数为修正线性单元；

所述第三最大池化层将第三卷积层的卷积结果进行2*2池化；

所述数据扁平过渡层将多维数据一维化，是卷积层到全链接层的过渡；

所述全链接数据层，将输入参数传入1024个隐藏节点，其激活函数为修正线性单元；

所述概率输出层通过有限项离散概率分布的梯度对数归一化来实现对不同分类的概率分配；

对神经网络模型的正则化采用权重正则化中的权重为L2范数的正则化方法，以降低神经网络模型的过拟合。

k）：对神经网络模型进行训练：设置神经网络模型的损失函数，初始化各层网络参数，输入向量正则化后的训练集和验证集进行训练，设置均方根误差作为优化器，通过多分类交叉熵损失函数值的梯度下降，对各层网络中权值参数进行更新，以得到训练模型。

l）：对神经网络模型进行测试：使用训练模型对向量正则化后的测试集进行测试，以测试其泛化能力和识别能力；

如果泛化能力和识别能力不足，需要重新进行训练；

m）：获取实时消化道内镜视频并对其进行识别和记录：获取实时的消化道内镜视频图像，将其均匀分割为多个子区域，将每个子区域压缩至训练模型输入的图片格式大小，遍历所述消化道内镜图像的所有子区域，将每个子区域进行向量化，输入到神经网络模型中，模型返回识别概率向量，使用其中值最大的概率标量作为结果，判定概率标量是否大于95%，若大于则将识别后的目标特征子区域进行存储。

步骤m）中，所述实时的消化道内镜图像均匀分割为多个子区域包括如下步骤：

m2）：遍历所有子区域，压缩所有子区域图片，将各子区域图片向量化，并将向量化后的各子区域的色值除255，将RGB三个通道值压缩为0至1范围内的小数。

将图片子区域向量输入到深度学习神经网络模型中，输出概率向量预测值和与预测值相对应的索引值，将预测值乘100，若大于95，则在画面中进行标示，如图7所示图片中采用方框形式标识出肠道中的组织和异物，而后依据索引值找到label中对应值，识别出实时图片中的特征图的组织或异物的名称，将特征组织或异物的网格图片以系统所在时间进行命名后，对图片进行存储记录，如图8所示。

基于上述记录和识别消化道组织和异物的步骤，还可进一步的实施内镜黏膜下剥离术摘除息肉视频的工作，具体包括如下步骤：

步骤三：批量遍历视频验证神经网络模型，根据神经网络模型生成预测图片。

步骤四：智能比对相似度较高的图片，并将无相似度的图片进行归档到数据集；

p）：处理器获取图片的输入路径和输出路径，并依据图片修改时间对数据集中的图片进行排序；

q）：依次读取数据集中的两张图片，所述两张图片为数据集中的任意一张图片以及与该图片在修改时间上相邻的上一张图片或下一张图片；

r）：判断所述两张图片的尺寸大小的比例值是否在预设比例范围内，若在，则转入步骤s），否则，将所述两张图片同时保存在输出路径指向的数据集中，并转入步骤q），所述两张图片的尺寸大小的比例值为修改时间在前图片的尺寸大小除以修改时间在后图片的尺寸大小，所述图片的尺寸大小为图片的高度和宽度的乘积，所述预设比例范围为小于0.5或大于1.5；

s）：将所述两张图片转换为大小相同的灰度化图，对所述灰度化图进行子区域转换处理，并创建灰度均值矩阵；

t）：判断所述两张图片的均值矩阵相减得到的矩阵的标准差是否小于指定的阈值，若小于，则转入步骤u），否则，将所述两张图片同时保存在输出路径指向的数据集中，并转入步骤q），所述指定阈值为15；

u）：对所述两张图片进行特征值检测，分别得到两张图片特征点集合，所述特征值检测为SIFT（Scale invariant feature transform）特征值检测器；

v）：统计两图片特征点集合中相同特征点的数量，采用LANN进行匹配和 KNN得到特征点集合中相同特征点的数量，如图9所示，所述LANN为（Library for Approximate NearestNeighbors）快速近似最近邻搜索；

w）：计算得到相同特征点数量阈值，判断相同特征点数量是否超过特征点数量阈值，没有超过，则将修改时间在后的图片保存至输出路径指向的数据集中，超过，则不做处理，比较完成后进入步骤q）重新进行下一张图片的比对，所述特征点数量阈值为：所述两张图片尺寸大小的均值与数据集中图片总数量的比值。

如图10所示，是未比较和归档的数据集中的图片，图11是图10数据集中的图片比较和归档后的结果。

步骤s）中，所述两张图片转换为大小相同的灰度化图包括如下步骤：

s1）：依次获取所述两张图片的宽度、高度和色彩通道信息；

s2）：依据通道信息依次获取两张图片的RGB各单通道色值，采用灰度转换公式对所述两张图片依次进行灰度转换；

s3）：分别计算两张图片的宽度和高度的乘积结果值，将乘积结果值大的图片转换为乘积结果值小的图片。

步骤s）中，所述灰度化图进行子区域转换处理，并创建灰度均值矩阵包括如下步骤：

S1）：获取图片的宽度和高度信息；

S2）：将图片的宽度和高度信息分别除同一常数，得到每个子区域的宽度CellWidth和每个子区域的高度CellHeigh大小，所述常数为整数且为图片在宽度或高度上的子区域个数；

S3）：创建维矩阵，所述矩阵的行或列的大小与图片在宽度或高度上的子区域的数量相等；

S4）：遍历图片的宽度像素，将当前遍历的像素除以子区域的宽度CellWidth，得到当前像素在图片宽度方向上为第几个子区域，遍历图片的高度像素，将当前遍历的像素除以子区域的高度CellHeigh，得到当前像素在图片高度方向上为第几个子区域，将确定的当前子区域的像素值与该子区域像素之前的像素值进行累加，并将累加结果存入与当前像素位置相对应的矩阵的行列位置处；

S5）：将矩阵中的每个值除以子区域总数量值，得到灰度值的平均色值，并将255减去空间内平均色值，得到取反值，将取反后的空间平均色值存入相应的矩阵中。

步骤五：根据无相似度图片的数据集进行神经网络模型的再训练，得到高精度神经网络模型；依据步骤二中的方法，将无相似度图片的数据集作为训练集，重新进行网络模型训练，直到总体分类精度达到95%。

步骤六：高精度神经网络模型读取手术过程图片并分类；

标记止血钳子打开和关闭的图片作为训练数据以识别手术过程中的止血钳，标记金属夹打开和关闭的图片作为训练数据以识别手术过程中的金属夹，标记电烧金属套圈的打开和收紧作为训练数据以识别电烧金属套圈，标记止血钛夹闭合后未脱落和脱离的图片作为训练数据以识别止血钛夹，识别分类结果如图12所示，其中，（I）图是分类后的止血钳，（II）图是分类后的电烧金属套圈，（III）图是分类后的金属夹，（IV）图是分类后的止血钛夹。

步骤七：神经网络模型识别特定手术器具确认视频开始时间并开始录制视频；

如图13所示，高精度神经网络模型识别手术过程中的电烧切除环金属套圈的第一张图，并记录电烧切除环金属套圈的时间；

如图14所示，高精度神经网络模型识别金属夹张开的第一张图片，并记录金属夹张开时间；

判断记录的电烧切除环金属套圈的时间和记录金属夹张开时间，以记录时间在前的时间为时间基准，若高精度神经网络模型识别出现三张以上的电烧切除环金属套圈或金属夹张开的图，且没有视频录制，则开始视频的录制。

步骤八：神经网络模型识别特定手术器具确认视频结束时间并结束录制；

高精度神经网络模型识别止血钛夹闭合后未脱离的图片，并记录止血钛夹闭合后未脱离时最后一张图片出现的时间，如图15所示；

高精度神经网络模型识别止血钛夹闭合后脱离的图片，并记录止血钛夹闭合后脱离时最后一张图片出现的时间，如图16所示；

若连续出现止血钛夹闭合后未脱离的图片，则以止血钛夹闭合后脱离的图片的时间为结束时间；

若出现止血钛夹闭合后脱离的图片，则以最后一个止血钛夹闭合后脱离图片的时间为最终结束时间。

步骤九：对视频进行剪辑并保存。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.内镜检查中智能化识别和记录消化道组织和异物的方法，其特征在于：包括如下步骤：

k）：对神经网络模型进行训练；

l）：对神经网络模型进行测试：

2.根据权利要求1所述的内镜检查中智能化识别和记录消化道组织和异物的方法，其特征在于：步骤i）中，所述一定比例的数据集为各分类数据集总数量的60%以上；

3.根据权利要求1所述的内镜检查中智能化识别和记录消化道组织和异物的方法，其特征在于：步骤i）中，所述测试集、训练集和验证集进行向量化处理包括如下步骤：

4.根据权利要求1所述的内镜检查中智能化识别和记录消化道组织和异物的方法，其特征在于：步骤j）中，神经网络模型包括输入层、第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第三最大池化层，数据扁平过渡层、全链接数据层和概率输出层。

5.根据权利要求1所述的内镜检查中智能化识别和记录消化道组织和异物的方法，其特征在于：步骤k）中所述神经网络模型进行训练的方法为：设置神经网络模型的损失函数，初始化各层网络参数，输入向量正则化后的训练集和验证集进行训练，设置均方根误差作为优化器，通过多分类交叉熵损失值的梯度下降，对各层网络中权值参数进行更新，以得到训练模型。

6.根据权利要求1所述的内镜检查中智能化识别和记录消化道组织和异物的方法，其特征在于：步骤m）中，所述标量阈值为95%，所述实时的消化道内镜图像均匀分割为多个子区域包括如下步骤：