CN110334730B

CN110334730B - 比较和归档人工智能训练数据集中高相似图片的方法

Info

Publication number: CN110334730B
Application number: CN201910385758.4A
Authority: CN
Inventors: 曾凡; 柯钦瑜; 黄勇; 邰海军; 段惠峰; 黄锦
Original assignee: Henan Xuan Yongtang Medical Information Technology Co ltd
Current assignee: Henan Xuanwei Digital Medical Technology Co.,Ltd.
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2022-07-29
Anticipated expiration: 2039-05-09
Also published as: CN110334730A

Abstract

本发明公开了一种比较和归档人工智能训练数据集中高相似图片的方法，获取图片的输入和输出路径，将数据中的图片进行排序，读取在相邻的两张图片，比较两张图片尺寸大小是否是否在预设比例范围内，若超过了比较范围则两张图片是非高相似图片，则将两张图片按输出路径进行存储，若两张图片尺寸大小在比较范围内，则比较两张图片的均值矩阵的相减的矩阵的标准差是否小于指定阈值，若接近，判断两图片相同特征点数量是否在阈值内，若在，将修改时间在后的图片保存，否则，不做处理，具有减少人力，批量处理，速度快，增加学习模型的泛化能力的有益效果。

Description

比较和归档人工智能训练数据集中高相似图片的方法

技术领域

本发明涉及消化道内镜处理技术领域，具体涉及一种比较和归档人工智能训练数据集中高相似度图片的方法。

背景技术

现今，深度学习神经网络在图像识别方面中应用较为广泛，行业内相关单位累积的标签数据集也越来越庞大，管理维护和训练新的卷积神经网络模型也越来越复杂，不仅要对模型的结构进行调整，同时标签数据的获取，归一化和去重也需要进行专业的处理。

采用机器学习对于在视频中识别并保存的数据集会出现重复的按时间序列排序的图片，这样的状况在消化道内镜检测中图片相似度的几率会更大，人工智能的模型训练过程中数据被分为训练集合测试集，如果有相同的图片被同时分给了训练集合测试集，会造成人工智能模型泛化能力的削弱，影响对未知内容得识别，对于海量的分类的图片合集，采取人工筛选，并对图片进行去重操作，是一项非常耗时的工作，并且采用常规方法对图片进行全比对分析，则极大耗费计算资源，影响计算机处理速度。

发明内容

为解决上述问题，本发明提供一种比较和归档人工智能训练数据集中高相似度图片的方法，用以对相同内容图片进行去重操作，具有批量处理，速度快的特点。

本发明通过以下技术方案实现：

比较和归档人工智能训练数据集中高相似度图片的方法，包括如下步骤：

p）：处理器获取图片的输入路径和输出路径，并依据图片修改时间对数据集中的图片进行排序；

q）：依次读取数据集中的两张图片，所述两张图片为数据集中的任意一张图片以及与该图片在修改时间上相邻的上一张图片或下一张图片；

r）：判断所述两张图片的尺寸大小的比例值是否在预设比例范围内，若在，则转入步骤s），否则，将所述两张图片同时保存在输出路径指向的数据集中，并转入步骤q）；

s）：将所述两张图片转换为大小相同的灰度化图，对所述灰度化图进行子区域转换处理，并创建灰度均值矩阵；

t）：判断所述两张图片的均值矩阵相减得到的矩阵的标准差是否小于指定的阈值，若小于，则转入步骤u），否则，将所述两张图片同时保存在输出路径指向的数据集中，并转入步骤q）；

u）：对所述两张图片进行特征值检测，分别得到两张图片特征点集合；

v）：统计两图片特征点集合中相同特征点的数量；

w）：计算得到相同特征点数量阈值，判断相同特征点数量是否超过特征点数量阈值，没有超过，则将修改时间在后的图片保存至输出路径指向的数据集中，超过，则不做处理，比较完成后进入步骤q）重新进行下一张图片的比对。

步骤r）中，所述两张图片的尺寸大小的比例值为修改时间在前图片的尺寸大小除以修改时间在后图片的尺寸大小，所述图片的尺寸大小为图片的高度和宽度的乘积，所述预设比例范围为小于0.5或大于1.5；

步骤t）中，所述指定阈值为15；

步骤w）中，所述特征点数量阈值为：所述两张图片尺寸大小的均值与数据集中图片总数量的比值。

步骤s）中，所述两张图片转换为大小相同的灰度化图包括如下步骤：

s1）：依次获取所述两张图片的宽度、高度和色彩通道信息；

s2）：依据通道信息依次获取两张图片的RGB各单通道色值，采用灰度转换公式对所述两张图片依次进行灰度转换；

s3）：分别计算两张图片的宽度和高度的乘积结果值，将乘积结果值大的图片转换为乘积结果值小的图片。

步骤s）中，所述灰度化图进行子区域转换处理，并创建灰度均值矩阵包括如下步骤：

S1）：获取图片的宽度和高度信息；

S2）：将图片的宽度和高度信息分别除同一常数，得到每个子区域的宽度CellWidth和每个子区域的高度CellHeigh大小，所述常数为整数且为图片在宽度或高度上的子区域个数；

S3）：创建矩阵，所述矩阵的行或列的大小与图片在宽度或高度上的子区域的数量相等；

S4）：遍历图片的宽度像素，将当前遍历的像素除以子区域的宽度CellWidth，得到当前像素在图片宽度方向上为第几个子区域，遍历图片的高度像素，将当前遍历的像素除以子区域的高度CellHeigh，得到当前像素在图片高度方向上为第几个子区域，将确定的当前子区域的像素值与该子区域像素之前的像素值进行累加，并将累加结果存入与当前像素位置相对应的矩阵的行列位置处；

S5）：将矩阵中的每个值除以子区域总数量值，得到灰度值的平均色值，并将255减去空间内平均色值，得到取反值，将取反后的空间平均色值存入相应的矩阵中。

本发明公开了一种比较和归档人工智能训练数据集中高相似图片的方法，从输入路径中读取在时间上相邻的两张图片，首先比较两张图片尺寸大小是否超过了比较范围，若超过了比较范围则两张图片是非高相似图片，则将两张图片按输出路径进行存储，若两张图片尺寸大小在比较范围内，则进一步比较两张图片的相同位置的色值差是否在指定阈值内，以确认两张图片在直方图层次上是否接近，若接近，则比较两张图片相同特征点数量是否在相同特征点数量阈值，若没有超过，则认为两张图片为高相似图片，保存修改时间再后的图片至输出路径进行存储，若超过，则两张图片不同，不做处理，均进行保存，具有减少人力，批量处理，速度快，增加学习模型的泛化能力的有益效果。

附图说明

图1是智能识别和记录内镜黏膜下剥离术摘除息肉视频的方法流程图。

图2是参数H，S和V调节的进度条示意图。

图3是目标特征为手术器械时二值化后的特征图。

图4是从确定目标特征在图片中的位置和宽度的图片。

图5是从视频中截取的目标特征为手术器械的部分图片。

图6是各分类数据集中图片向量化的存储结构示意图。

图7是神经网络模型识别实时图片中的组织或异物的结果图。

图8是记录图7中识别异物的结果图。

图9是两图片特征点集合中相同特征点的数量。

图10是未比较和归档的数据集中的图片。

图11是将图10数据集中的图片比较和归档后的结果。。

图12是高精度卷积神经网络识别手术过程并分类的结果图。

图13是识别的手术过程中电烧切除环金属套圈的图片结果。

图14是识别的手术过程中金属夹张开的图片结果。

图15是识别的手术过程中止血钛夹闭合后未脱离的图片。

图16是识别的手术过程中止血钛夹闭合后脱离的图片。

具体实施方式

下面将结合本发明中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例实例仅仅是本发明一部分实施实例，而不是全部的实施实例，基于本发明的实施实例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施实例，都属于本发明保护的范围。

在进行人工智能训练数据集中高相似图片的比较和归档步骤前，还具有批量抓取视频中目标特征图片和消化道内的异物识别，具体步骤如下：

步骤一：批量从视频中抓取手术视频特征图片：

a）：视频读取和色彩通道格式转换：读取存储设备上消化道内镜诊治过程的视频，将视频的颜色通道格式由RGB转换为HSV，以便于寻找可以剥离特定目标识别区域的背景掩码；

b）：定位视频中目标并除去视频背景：如图2所示，调节HSV颜色空间中参数H、S和V的范围以定位视频内容，采用视频背景中的HSV颜色空间得到相应的HSV掩码，通过HSV掩码定位视频中的目标特征，调节参数H、S和V除去除目标特征外所有的背景，所述目标特征为消化道内组织器官、粪便、检查和手术器具中的任意一种；

c）：获取目标特征图片：利用掩码与目标特征中的每个像素进行掩码运算，且所述目标特征图片包括目标特征区图像和非目标特征区图像，所述目标特征区图像内的像素值保持不变，非目标特征区图像的像素值为零；

d）：对目标特征图片进行灰度转换与二值化处理：采用灰度转换公式Gray=(R*299+G*587+B*114+500）/1000得到目标特征图片，将目标特征图片的灰度图通过二进制阈值算法得到二值化图，并对二值化图进行形态学腐蚀操作和膨胀操作来去噪，所述目标特征图片的灰度图为单通道灰度图，且单通道值范围为0-255，所述二值化图为单通道为0或255的二值化图，如图3所示；

e）：对目标特征进行轮廓检测与定位：采用Freeman链码对二值化图进行轮廓检测，返回目标特征图片的位置、目标特征轮廓范围和目标特征点的统计总数；如图4所示，此时，目标特征为手术器械，图片中的线框位置为目标特征在图片中的位置，线框的宽度大小为目标特征的轮廓范围；

f）：计算目标特征在图片中的比例：将二值化图像中的目标特征图映射到矩阵，并将矩阵转换为行首尾相接的向量，将向量值累加并除以255得到特征值所有白色像素点的数量，计算白色像素在背景黑色像素的比例，得出目标特征在图片上的大小；

g）：逐帧判定视频帧是否满足截取判定条件，若满足，则对图片中目标特征图进行截取，并保存截取结果。图5是从视频中截取的目标特征为手术器械的部分图片。

步骤g）中，判定视频帧是否满足截取判定条件包括如下步骤：

g1）：判断步骤e）中的目标特征点的统计总数是否大于5000，若大于则转入步骤g2），否则，直接进行下一视频帧的转换；

g2）：判断步骤e）中的目标特征轮廓的宽和高的比例是否为宽高比在5倍以下，且大于五分之一，若是，则转入步骤g3），否则，直接进行下一视频帧的转换；

g3）：判断步骤f）中的目标特征在图片中的比例是否在2%-20%范围内，若在，则截取帧中目标特征，保存到结果集，否则，进行下一视频帧的转换。

步骤二：建立神经网络模型，并对神经网络模型进行训练：

h）：建立数据集：将从消化道内镜检测中采集到的目标特征图片分类存储以建立分类数据集；

根据目标特征属性建立目标特征图片的数学和业务模型，自动化批量抓取从消化道内镜检测中出现的目标特征图片，并分类存储以建立分类数据集；

目标特征属性包括，目标特征无规律，离散分布在视频中、目标特征的大小在图片中所占比例为3%-20%、目标特征颜色与消化道颜色不一致，消化道内镜镜头移动并屏蔽消化道背景后，可以得到目标特征在区域内移动的错觉、以及目标特特征视频帧数较高和需要专业医疗人员对图片进行标注，得到的数据量小；

所述分类数据集为在存储器件上开辟的存储空间，优选为文件夹格式进行存储，所述存储器件包括磁盘或移动硬盘。所述分类数据集包括背景类数据集、消化道组织数据集和异物类数据集，所述背景类数据集的目标特征图片包括肠壁、胃壁和食道等非识别内容图片，所述消化道组织数据集内的目标特征图片包括贲门、胃底、息肉和肿瘤等需要识别和记录的肠道组织，所述异物类数据集内的目标特征图片包括粪便、夹子、套圈和吸管等需要识别和记录非肠道组织内容。

i）：建立训练集、验证集和测试集：从各分类数据集中抽取60%以上数据生成测试集；依据K折交叉验证法将各分类数据集划分为训练集和验证集，将所述的测试集、训练集和验证集进行数据向量化处理；

所述K折交叉验证法为将各数据集划分为K个分区，并进行K次图片获取，每次随机获取K-1个分区作为训练集，并将剩余的一个分区作为验证集以进行验证。

所述训练集和验证集以进行深度神经网络模型的训练，所述测试集用来评估深度神经网络模型的实际识别结果。

由于医疗数据中的标记数据较少且从视频中提取的内容相似度较高，使得验证集的数据会很小，这样验证的会有较大波动，验证集的划分方式会造成深度学习的神经网络模型在评估时有很大方差，因此，优选为K折交叉验证法为训练集和验证集的划分方法，将K次图片获取的测试结果求取平均数来评估神经网络模型的可靠性；

步骤i）中，所述测试集、训练集和验证集进行向量化处理包括如下步骤：

i1）：创建图片路径向量imagePaths存储单元，将每类数据集的地址信息依次存储图片路径向量imagePaths中；

i2）：分别创建data和label存储单元，遍历imagePaths中的所有存储图片，将图片进行压缩为96x96大小的图片，然后将图片均值按列遍历，拼接首尾行得到图片的向量；

i3）：将图片向量的色值除255，以使得色值转换为0至1范围内的小数并依次存储于data中，将图片向量对应的类别名称依次存入label中；

如图6所示，是各分类数据集中图片向量化的存储结构示意图。

j）：根据3D卷积、最大池化、全链接神经元、数据扁平化和概率输出创建神经网络模型，并对测试集、训练集和验证集进行正则化处理，神经网络模型包括输入层、第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第三最大池化层，数据扁平过渡层、全链接数据层和概率输出层；

所述输入层是向量化的图片的输入入口，所述输入层的模型宽高均为150，色彩通道为三通道。

所述第一卷积层将输入内容输入卷积核，所述卷积核的大小为3*3，64隐藏节点，激活函数为修正线性单元；

所述第一最大池化层将第一卷积层的卷积结果进行2*2池化；

所述第二卷积层的卷积核的大小为3*3，128隐藏节点，激活函数为修正线性单元；

所述第二最大池化层将第二卷积层的卷积结果进行2*2池化；

所述第三卷积层的卷积核的大小为3*3，256隐藏节点，激活函数为修正线性单元；

所述第三最大池化层将第三卷积层的卷积结果进行2*2池化；

所述数据扁平过渡层将多维数据一维化，是卷积层到全链接层的过渡；

所述全链接数据层，将输入参数传入1024个隐藏节点，其激活函数为修正线性单元；

所述概率输出层通过有限项离散概率分布的梯度对数归一化来实现对不同分类的概率分配；

对神经网络模型的正则化采用权重正则化中的权重为L2范数的正则化方法，以降低神经网络模型的过拟合。

k）：对神经网络模型进行训练：设置神经网络模型的损失函数，初始化各层网络参数，输入向量正则化后的训练集和验证集进行训练，设置均方根误差作为优化器，通过多分类交叉熵损失函数值的梯度下降，对各层网络中权值参数进行更新，以得到训练模型。

l）：对神经网络模型进行测试：使用训练模型对向量正则化后的测试集进行测试，以测试其泛化能力和识别能力，如果泛化能力和识别能力不足，需要重新进行训练。

m）：获取实时消化道内镜视频并对其进行识别和记录：获取实时的消化道内镜视频图像，将其均匀分割为多个子区域，将每个子区域压缩至训练模型输入的图片格式大小，遍历所述消化道内镜图像的所有子区域，将每个子区域进行向量化，输入到神经网络模型中，模型返回识别概率向量，使用其中值最大的概率标量作为结果，判定概率标量是否大于95%，若大于则将识别后的目标特征子区域进行存储。

步骤m）中，所述实时的消化道内镜图像均匀分割为多个子区域包括如下步骤：

m1）：获取内镜实时图像的图像宽度和图像高度，将图像宽度和图像高度均除十以将所述消化道内镜图像分割为100个子区域；

m2）：遍历所有子区域，压缩所有子区域图片，将各子区域图片向量化，并将向量化后的各子区域的色值除255，将RGB三个通道值压缩为0至1范围内的小数。

将图片子区域向量输入到深度学习神经网络模型中，输出概率向量预测值和与预测值相对应的索引值，将预测值乘100，若大于95，则在画面中进行标示，如图7所示图片中采用方框形式标识出肠道中的组织和异物，而后依据索引值找到label中对应值，识别出实时图片中的特征图的组织或异物的名称，将特征组织或异物的网格图片以系统所在时间进行命名后，对图片进行存储记录，如图8所示。

步骤三：批量遍历视频验证神经网络模型，根据神经网络模型生成预测图片。

步骤四：智能比对相似度较高的图片，并将无相似度的图片进行归档到数据集；

如图1所示，一种比较和归档人工智能训练数据集中高相似度图片的方法，包括如下步骤：

r）：判断所述两张图片的尺寸大小的比例值是否在预设比例范围内，若在，则转入步骤s），否则，将所述两张图片同时保存在输出路径指向的数据集中，并转入步骤q），所述两张图片的尺寸大小的比例值为修改时间在前图片的尺寸大小除以修改时间在后图片的尺寸大小，所述图片的尺寸大小为图片的高度和宽度的乘积，所述预设比例范围为小于0.5或大于1.5；

t）：判断所述两张图片的均值矩阵相减得到的矩阵的标准差是否小于指定的阈值，若小于，则转入步骤u），否则，将所述两张图片同时保存在输出路径指向的数据集中，并转入步骤q），所述指定阈值为15；

u）：对所述两张图片进行特征值检测，分别得到两张图片特征点集合，所述特征值检测为SIFT（Scale invariant feature transform）特征值检测器；

v）：统计两图片特征点集合中相同特征点的数量，采用LANN进行匹配和 KNN得到特征点集合中相同特征点的数量，如图9所示，所述LANN为（Library for ApproximateNearest Neighbors）快速近似最近邻搜索；

w）：计算得到相同特征点数量阈值，判断相同特征点数量是否超过特征点数量阈值，没有超过，则将修改时间在后的图片保存至输出路径指向的数据集中，超过，则不做处理，比较完成后进入步骤q）重新进行下一张图片的比对，所述特征点数量阈值为：所述两张图片尺寸大小的均值与数据集中图片总数量的比值。

如图10所示，是未比较和归档的数据集中的图片，图11是图10数据集中的图片比较和归档后的结果。

S1）：获取图片的宽度和高度信息；

S3）：创建维矩阵，所述矩阵的行或列的大小与图片在宽度或高度上的子区域的数量相等；

基于上述步骤，还可进一步的实施内镜黏膜下剥离术摘除息肉视频的工作，具体包括如下步骤：

步骤五：根据无相似度图片的数据集进行神经网络模型的再训练，得到高精度神经网络模型；依据步骤二中的方法，将无相似度图片的数据集作为训练集，重新进行网络模型训练，直到总体分类精度达到95%。

步骤六：高精度神经网络模型读取手术过程图片并分类；

标记止血钳子打开和关闭的图片作为训练数据以识别手术过程中的止血钳，标记金属夹打开和关闭的图片作为训练数据以识别手术过程中的金属夹，标记电烧金属套圈的打开和收紧作为训练数据以识别电烧金属套圈，标记止血钛夹闭合后未脱落和脱离的图片作为训练数据以识别止血钛夹，识别分类结果如图12所示，其中，（I）图是分类后的止血钳，（II）图是分类后的电烧金属套圈，（III）图是分类后的金属夹，（IV）图是分类后的止血钛夹。

步骤七：神经网络模型识别特定手术器具确认视频开始时间并开始录制视频；

如图13所示，高精度神经网络模型识别手术过程中的电烧切除环金属套圈的第一张图，并记录电烧切除环金属套圈的时间；

如图14所示，高精度神经网络模型识别金属夹张开的第一张图片，并记录金属夹张开时间；

判断记录的电烧切除环金属套圈的时间和记录金属夹张开时间，以记录时间在前的时间为时间基准，若高精度神经网络模型识别出现三张以上的电烧切除环金属套圈或金属夹张开的图，且没有视频录制，则开始视频的录制。

步骤八：神经网络模型识别特定手术器具确认视频结束时间并结束录制；

高精度神经网络模型识别止血钛夹闭合后未脱离的图片，并记录止血钛夹闭合后未脱离时最后一张图片出现的时间，如图15所示；

高精度神经网络模型识别止血钛夹闭合后脱离的图片，并记录止血钛夹闭合后脱离时最后一张图片出现的时间，如图16所示；

若连续出现止血钛夹闭合后未脱离的图片，则以止血钛夹闭合后脱离的图片的时间为结束时间；

若出现止血钛夹闭合后脱离的图片，则以最后一个止血钛夹闭合后脱离图片的时间为最终结束时间。

步骤九：对视频进行剪辑并保存。

以记录的开始时间和结束时间为准，对视频进行剪辑，并保存到默认指定轮径中存档。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.比较和归档人工智能训练数据集中高相似度图片的方法，其特征在于，包括如下步骤：

v）：统计两图片特征点集合中相同特征点的数量；先采用LANN进行匹配，后采用KNN得到特征点集合中相同特征点的数量；

2.根据权利要求1所述的比较和归档人工智能训练数据集中高相似度图片的方法，其特征在于：步骤r）中，所述两张图片的尺寸大小的比例值为修改时间在前图片的尺寸大小除以修改时间在后图片的尺寸大小，所述图片的尺寸大小为图片的高度和宽度的乘积，所述预设比例范围为小于0.5或大于1.5；

步骤t）中，所述指定阈值为15；

3.根据权利要求1所述的比较和归档人工智能训练数据集中高相似度图片的方法，其特征在于：步骤s）中，所述两张图片转换为大小相同的灰度化图包括如下步骤：

4.根据权利要求1所述的比较和归档人工智能训练数据集中高相似度图片的方法，其特征在于：步骤s）中，所述灰度化图进行子区域转换处理，并创建灰度均值矩阵包括如下步骤：

S1）：获取图片的宽度和高度信息；

S4）：遍历图片的宽度像素，将当前遍历的宽度像素除以子区域的宽度CellWidth，得到当前像素在图片宽度方向上为第几个子区域，遍历图片的高度像素，将当前遍历的高度像素除以子区域的高度CellHeigh，得到当前像素在图片高度方向上为第几个子区域，将确定的当前子区域的像素值与该子区域像素之前的像素值进行累加，并将累加结果存入与当前像素位置相对应的矩阵的行列位置处；