CN109241898B

CN109241898B - 腔镜视像的目标定位方法和系统、存储介质

Info

Publication number: CN109241898B
Application number: CN201810997357.XA
Authority: CN
Inventors: 丁帅; 杨善林
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2018-08-29
Filing date: 2018-08-29
Publication date: 2020-09-22
Anticipated expiration: 2038-08-29
Also published as: CN109241898A

Abstract

本发明提供一种腔镜视像的目标定位方法和系统、存储介质，该方法包括：S100、获取腔镜镜头采集到的视频；S200、根据所述视频中各帧图像的时间和颜色，从所述视频中选取出关键帧图像；S300、将各张关键帧图像输入预设训练的YOLO目标检测模型，得到多张带有目标定位框和目标类别标识的图像；S400、将所述多张带有目标定位框和目标类别标识的图像进行合成，得到目标定位视频；其中，所述YOLO目标检测模型的训练过程至少包括：采用K‑centers聚类方法对训练样本数据集进行聚类。本发明采用K‑centers聚类的方式可以有效改善“噪声”敏感问题，从而可以提高目标定位视频的画面质量。

Description

腔镜视像的目标定位方法和系统、存储介质

技术领域

本发明涉及图像处理技术领域，具体涉及一种腔镜视像的目标定位方法和系统、存储介质。

背景技术

目前，外科手术腔镜化已经越来越深入人心，微创手术已经成为外科医生和患者的共识。腔镜系统能够提供高清放大的手术画面，能清楚显示体内组织的细微结构，与传统开放手术相比，视野更清晰，因此手术更加准确、精细，有效避免了手术部位以外脏器受到不必要的干扰，且术中出血少，手术更安全。

在腔镜手术过程中，由于移动救治中腔镜抖动带来的微创手术视野的噪声特性，对于腔体内一些异常情况的定位和信息挖掘产生一定的影响。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种腔镜视像的目标定位方法和系统、存储介质，能够有效改善“噪声”敏感问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

第一方面，本发明提供一种腔镜视像的目标定位方法，包括：

S100、获取腔镜镜头采集到的视频；

S200、根据所述视频中各帧图像的时间和颜色，从所述视频中选取出关键帧图像；

S300、将各张关键帧图像输入预设训练的YOLO目标检测模型，得到多张带有目标定位框和目标类别标识的图像；

S400、将所述多张带有目标定位框和目标类别标识的图像进行合成，得到目标定位视频；

其中，所述YOLO目标检测模型的训练过程至少包括：采用K-centers聚类方法对训练样本数据集进行聚类。

第二方面，本发明提供一种腔镜视像的目标定位系统，该系统包括：至少一个存储器；至少一个处理器；其中，所述至少一个存储器存储有至少一个指令模块，经配置由所述至少一个处理器执行；其中，所述至少一个指令模块包括：

视频获取模块，用于执行S100、获取腔镜镜头采集到的视频；

关键帧提取模块，用于执行S200、根据所述视频中各帧图像的时间和颜色，从所述视频中选取出关键帧图像；

目标定位模块，用于执行S300、将各张关键帧图像输入预设训练的YOLO目标检测模型，得到多张带有目标定位框和目标类别标识的图像；

合成模块，用于执行S400、将所述多张带有目标定位框和目标类别标识的图像进行合成，得到目标定位视频；

模型训练模块，用于预先训练所述YOLO目标检测模型，训练过程至少包括：采用K-centers聚类方法对训练样本数据集进行聚类。

第三方面，本发明提供一种腔镜视像的目标定位系统，该系统包括：至少一个存储器；至少一个处理器；其中，所述至少一个存储器用于存储计算机程序，所述计算机程序被所述至少一个处理器执行时可实现如下方法：

S100、获取腔镜镜头采集到的视频；

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，在所述计算机程序被处理器执行时可实现以上方法。

(三)有益效果

本发明实施例提供了一种腔镜视像的目标定位方法和系统、存储介质，首先获取腔镜视像，然后提取出其中的关键帧图像，然后采用预先训练的YOLO目标检测模型对关键帧图像中的目标进行定位并确定目标类型，再将带有目标定位框和目标类别标识的图像进行合成，得到动态的目标定位视频。由于预先训练的YOLO目标检测模型的训练过程中包括采用K-centers聚类方法对训练样本数据集进行聚类，而采用K-centers聚类的方式可以有效改善“噪声”敏感问题，从而可以提高目标定位视频的画面质量。同时本发明由于采用目标检测模型进行目标定位和目标类型的识别，其处理效率高、处理速度快，能够做到实时的目标定位和目标类型识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明一实施例中腔镜视像的目标定位方法的流程示意图；

图2示出了本发明一实施例中腔镜视像的目标定位系统中的部分结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一方面，本发明提供一种腔镜视像的目标定位方法，该方法由电子设备执行，该电子设备可以是连接在腔镜系统中的腔镜镜头和显示设备之间的装置，该装置可以为腔镜系统中的一部分，也可以为独立于腔镜系统的装置(例如，采用一个单独的装置执行该方法，在执行完该方法后将动态目标视频发送至显示装置进行显示)。

如图1所示，该方法包括：

S100、获取腔镜镜头采集到的视频；

可理解的是，上述视频是腔镜系统中的镜头在插入人体体腔和器脏内腔内直接观察和拍摄的，因此也可以称为腔镜视像。

可理解的是，腔镜镜头为腔镜系统中的一部分，而腔镜系统可以为腹腔镜系统、胸腔镜系统、关节腔镜系统，当然还可以是其他腔镜系统。通过腔镜镜头对腔体内部进行视频拍摄，然后将视频数据传输至外部显示器上，这样医护人员可以观察到相关部位的病变情况等。

可理解的是，根据图像的时间和颜色提取关键帧，实际上是采用图像的时间与颜色的变化的方法提取关键帧。时间变化能够充分体现图像的全局信息，颜色特征能够反映图像的局部变化信息。

举例来说，可以通过以下步骤提取关键帧图像：

S201、将视频中的第一帧图像作为一张关键帧图像，并令d＝2；

可理解的是，d表示所述视频中图像的帧号，例如，d＝2表示视频中的第2帧图像的帧号。

S202、计算

其中，S_i为所述视频中的第i帧图像，s_i＝s(t_i，c_i)，t_i为第i帧图像在所述视频中所处的时间点，c_i为第i帧图像的颜色矩阵。

举例来说，s'₂＝s₂-s₁，s'₃＝(s₂-s₁)+(s₃-s₂)。

S203、判断s'_d是否大于对应的预设阈值，其中s'_d对应的预设阈值为m*β，m为当前关键帧图像的总帧数，β为常数：

若是，则将所述视频中的第d帧图像作为一张关键帧图像，并进入步骤S204；

否则，进入步骤S204。

可理解的是，s'_d用于度量基于时间和颜色变化特征的图像之间的差异性，s'_d越大表示图像之间的差异性越大，这样可以剔除相似性高的图像，保留差异性明显的图像作为关键帧图像。

这里，通过s'_d与预设阈值的比较判定视频中的第d帧图像是否为关键帧图像。

S204、判断d是小于所述视频的总帧数：

若是，则将d的数值增加1，并返回步骤S202；

否则，结束关键帧图像提取过程；

这里，通过对d与总帧数的比较，只有当d等于总帧数时才结束关键帧图像提取过程，从而实现对视频中各帧图像的遍历。

当然，还可以采用其他方式提取视频中的关键帧，以上步骤S201～S204仅为其中一种具体方式。

S300-、根据所述腔镜镜头的视野参数对所述关键帧图像的边沿黑边进行平滑处理，采用高通滤波器对平滑处理后的图像进行滤波去噪，并采用中值滤波器对滤波去噪后的图像进行滤波增强。

可理解的是，对关键帧图像的边沿黑边进行平滑处理，可以得到边界清晰的腔镜图像。再采用高通滤波器和中值滤波器进行滤波，得到去掉关键帧图像中的噪声而保留关键帧图像中的高频部分。

这里在步骤S300设置了步骤S300-，该步骤主要实现对关键帧图像的优化处理，这对于实现本发明的基本目的而言并不是必须的，因此在某些实施例中可以不包括步骤S300-。

上述采用K-centers聚类方法对训练样本数据集进行聚类的具体过程包括：每次迭代后的质点是从聚类的样本点中选取，选取标准为选用簇中离平均值最近的对象作为簇中心，这样可以有效改善“噪声”敏感问题。采用K-centers聚类方法可对训练样本数据集中的实际集(即ground truth box)进行聚类，从而找到ground truth box的统计规律。以聚类个数k为候选框(即anchor boxes)的个数，以k个聚类中心的框的宽高维度为候选框的维度。

然而，现有技术中原YOLO神经网络所使用的K-means聚类方法对“噪声”十分敏感，所以导致移动腔镜下的图像存在“噪声”问题。相比之下，本发明能够有效改善“噪声”敏感问题，提高画面质量。

除此之外，本发明提供的YOLO目标检测模型还有其他不同之处：所述YOLO目标检测模型的网络结构中包括池化层，所述池化层能够将n个激活函数值从小到大依次排序，将n个权重值从小到大依次排序，将n个权重值分别与对应的激活函数值相乘，计算n个相乘结果的平均值，并将所述平均值作为最终的激活函数值。

本发明中采用的池化层可以称作sort-pooling，具体按照渐增的顺序排列n个激活函数：{a₁，a₂，a₃...a_n}(2₁＜a₂＜a₃＜...)，而不是选择最大的那个。用n个权重{w₁，w₁，w₃…w_n}与之相乘得到n个值，取这n个值的平均值，即

采用这种方式，神经网络依然能够学习对应于{w₁，w₂，w₃...w_n}＝{0,0,0…1}的良好的、旧的最大池化，且后面的层可以获取更多信息，反向传播时梯度流过上一层中的所有值。sort-pooling能够实现更快更好地收敛，优化迭代时间，保留更多的图像信息，同时也突出重要的图像信息，从而使得目标定位与识别更加精确和处理效率更高。

然而，现有技术中的池化层为max-pooling，是指选取n个激活函数中最大的那个，删除其他激活函数。所以max-pooling存在空间信息损失、不能使用来自多次激活函数的信息和反向传播只能改善最大池化激活函数等问题。

这里，通过对K-centers聚类方法和sort-pooling，可以实现对目标检测模型的优化。

在该步骤中，采用YOLO目标检测模型确定带有目标定位框和目标类别标识的图像的过程具体可以包括：

S301、将每一张关键帧图像划分为S*S个网格，s为大于1的整数；

S302、针对每一个网格，采用多个候选框确定目标的位置、置信度和目标类别概率，将每一个候选框对应的所述置信度和所述目标类别概率相乘，得到该网络的该候选框中的目标属于每一目标类别的置信得分；

S303、将低于预设阈值的置信得分对应的候选框滤除，保留高于等于所述预设阈值的置信得分对应的候选框；

S304、对每一张关键帧图像中保留的各个候选框均进行非极大值抑制(即NMS)处理，得到一张带有目标定位框和目标类别标识的图像；其中，所述目标定位框和所述目标类别标识一一对应。

S400、将所述多张带有目标定位框和目标类别标识的图像进行合成，得到目标定位视频。

在实际应用时，可以将目标类别标识设置在目标定位框的旁边，以对目标的类别进行说明。

可理解的是，本发明提供的上述方法是基于图像处理技术实现的，其中的目标可以根据需要设置，例如，腔体内的一些异常情况，通过上述目标定位方法可以识别出异常情况的部位和异常情况的种类。

本发明提供的腔镜视像的目标定位方法，首先获取腔镜视像，然后提取出其中的关键帧图像，然后采用预先训练的YOLO目标检测模型对关键帧图像中的目标进行定位并确定目标类型，再将带有目标定位框和目标类别标识的图像进行合成，得到动态的目标定位视频。由于预先训练的YOLO目标检测模型的训练过程中包括采用K-centers聚类方法对训练样本数据集进行聚类，而采用K-centers聚类的方式可以有效改善“噪声”敏感问题，从而可以提高目标定位视频的画面质量。同时本发明由于采用目标检测模型进行目标定位和目标类型的识别，其处理效率高、处理速度快，能够做到实时的目标定位和目标类型识别。

视频获取模块，用于执行S100、获取腔镜镜头采集到的视频；

在一些实施例中，所述指令模块还可以包括：

图像优化模块，用于执行：根据所述腔镜镜头的视野参数对所述关键帧图像的边沿黑边进行平滑处理，采用高通滤波器对平滑处理后的图像进行滤波去噪，并采用中值滤波器对滤波去噪后的图像进行滤波增强。

在一些实施例中，关键帧提取模块具体用于：

S202、计算

S203、判断s'_d是否大于对应的预设阈值，其中对应的预设阈值为m*β，m为当前关键帧图像的总帧数，β为常数：

否则，进入步骤S204；

S204、判断d是小于所述视频的总帧数：

若是，则将d的数值增加1，并返回步骤S202；

否则，结束关键帧图像提取过程；

在一些实施例中，目标定位模块具体用于：

S304、对每一张关键帧图像中保留的各个候选框均进行非极大值抑制处理，得到一张带有目标定位框和目标类别标识的图像；其中，所述目标定位框和所述目标类别标识一一对应。

在一些实施例中，所述YOLO目标检测模型的网络结构中包括池化层，所述池化层能够将n个激活函数值从小到大依次排序，将n个权重值从小到大依次排序，将n个权重值分别与对应的激活函数值相乘，计算n个相乘结果的平均值，并将所述平均值作为最终的激活函数值。

可理解的是，本发明提供的目标定位系统与上述目标定位方法相对应，其有关内容的解释、举例、有益效果等部分可以参考上述目标定位方法中的相应部分，此处不在赘述。

可理解的是，如果将上述目标定位系统设置为腔镜系统中的一部分，则目标定位系统可以与显示屏、气腹仪、摄像机、冷光源等功能模块一起构成智能的具有目标定位功能的腔镜系统。如果将上述目标定位系统设置为独立于腔镜系统的装置，则可以将该目标定位系统与上述摄像机、显示屏连接，这样目标定位系统获取摄像机采集到的视频，基于图像处理技术得到目标定位视频，发送给显示屏进行显示，以供医护人员参考。

S100、获取腔镜镜头采集到的视频；

在一些实施例中，所述计算机程序被所述至少一个处理器执行时可还实现如下方法：所述将各张关键帧图像输入预设训练的YOLO目标检测模型之前，根据所述腔镜镜头的视野参数对所述关键帧图像的边沿黑边进行平滑处理，采用高通滤波器对平滑处理后的图像进行滤波去噪，并采用中值滤波器对滤波去噪后的图像进行滤波增强。

在一些实施例中，所述根据所述视频中各帧图像的时间和颜色，从所述视频中选取出关键帧图像，包括：

S202、计算

否则，进入步骤S204；

S204、判断d是小于所述视频的总帧数：

若是，则将d的数值增加1，并返回步骤S202；

否则，结束关键帧图像提取过程；

在一些实施例中，所述将各张关键帧图像输入预设训练的YOLO目标检测模型之前，还可实现如下步骤：

根据所述腔镜镜头的视野参数对所述关键帧图像的边沿黑边进行平滑处理，采用高通滤波器对平滑处理后的图像进行滤波去噪，并采用中值滤波器对滤波去噪后的图像进行滤波增强。

在一些实施例中，所述将各张关键帧图像输入预设训练的YOLO目标检测模型，得到多张带有目标定位框和目标类别标识的图像，包括：

在一些实施例中，目标定位系统的硬件中除了处理器和存储器之外，还可以包括显示器，用于显示上述目标定位视频，以供医护人员参考。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，在所述计算机程序被处理器执行时可实现如上述方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于腔镜系统的腔镜视像目标定位方法，其特征在于，该方法由电子设备执行，该方法包括：

S100、获取腔镜镜头采集到的视频；

其中，所述YOLO目标检测模型的训练过程至少包括：采用K-centers聚类方法对训练样本数据集进行聚类；

所述根据所述视频中各帧图像的时间和颜色，从所述视频中选取出关键帧图像，包括：

S202、计算

否则，进入步骤S204；

S204、判断d是否小于所述视频的总帧数：

若是，则将d的数值增加1，并返回步骤S202；

否则，结束关键帧图像提取过程；

其中，s_i为所述视频中的第i帧图像，s_i＝s(t_i，c_i)，t_i为第i帧图像在所述视频中所处的时间点，c_i为第i帧图像的颜色矩阵；

所述将各张关键帧图像输入预设训练的YOLO目标检测模型之前，所述方法还包括：

2.根据权利要求1所述的方法，其特征在于，所述将各张关键帧图像输入预设训练的YOLO目标检测模型，得到多张带有目标定位框和目标类别标识的图像，包括：

S302、针对每一个网格，采用多个候选框确定目标的位置、置信度和目标类别概率，将每一个候选框对应的所述置信度和所述目标类别概率相乘，得到该网格的该候选框中的目标属于每一目标类别的置信得分；

3.根据权利要求1-2任一项所述的方法，其特征在于，所述YOLO目标检测模型的网络结构中包括池化层，所述池化层能够将n个激活函数值从小到大依次排序，将n个权重值从小到大依次排序，将n个权重值分别与对应的激活函数值相乘，计算n个相乘结果的平均值，并将所述平均值作为最终的激活函数值。

4.一种用于腔镜系统的腔镜视像目标定位系统，其特征在于，该系统包括：至少一个存储器；

至少一个处理器；

其中，所述至少一个存储器存储有至少一个指令模块，经配置由所述至少一个处理器执行；其中，所述至少一个指令模块包括：视频获取模块，用于执行S100、获取腔镜镜头采集到的视频；

模型训练模块，用于预先训练所述YOLO目标检测模型，训练过程至少包括：采用K-centers聚类方法对训练样本数据集进行聚类；

S202、计算

否则，进入步骤S204；

S204、判断d是否小于所述视频的总帧数：

若是，则将d的数值增加1，并返回步骤S202；

否则，结束关键帧图像提取过程；

所述指令模块还包括：图像优化模块，用于执行：根据所述腔镜镜头的视野参数对所述关键帧图像的边沿黑边进行平滑处理，采用高通滤波器对平滑处理后的图像进行滤波去噪，并采用中值滤波器对滤波去噪后的图像进行滤波增强。

5.一种用于腔镜系统的腔镜视像的目标定位系统，其特征在于，该系统包括：至少一个存储器；

至少一个处理器；

其中，所述至少一个存储器用于存储计算机程序，所述计算机程序被所述至少一个处理器执行时可实现如下方法：S100、获取腔镜镜头采集到的视频；

S202、计算

否则，进入步骤S204；

S204、判断d是否小于所述视频的总帧数：

若是，则将d的数值增加1，并返回步骤S202；

否则，结束关键帧图像提取过程；

所述计算机程序被所述至少一个处理器执行时可还实现如下方法：

所述将各张关键帧图像输入预设训练的YOLO目标检测模型之前，根据所述腔镜镜头的视野参数对所述关键帧图像的边沿黑边进行平滑处理，采用高通滤波器对平滑处理后的图像进行滤波去噪，并采用中值滤波器对滤波去噪后的图像进行滤波增强。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，在所述计算机程序被处理器执行时可实现如权利要求1～3任一项所述的方法。