CN113379693B

CN113379693B - 基于视频摘要技术的胶囊内镜关键病灶图像检测方法

Info

Publication number: CN113379693B
Application number: CN202110610259.8A
Authority: CN
Inventors: 王新琪; 温涛; 孙箫宇; 于丹; 来关军
Original assignee: Neusoft Education Technology Group Co ltd
Current assignee: Neusoft Education Technology Group Co ltd
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2024-02-06
Anticipated expiration: 2041-06-01
Also published as: CN113379693A

Abstract

本发明公开了一种基于视频摘要技术的胶囊内镜关键病灶图像检测方法，包括：对胶囊拍摄到的视频图像进行分帧处理保存每一帧图像，并按拍摄时间顺序组成图像序列；将视频分帧后的图像序列输入至预训练的特征提取模型中从而获得每一张图像具有语义信息的特征向量；通过计算帧间特征向量的相似性识别突变帧，根据突变帧将视频划分为若干个缓变区间，根据画面变化帧与参考强干扰图像相似度，滤除视频中强干扰区间，从而得到过滤后的缓变区间，在各缓变区间中选择关键帧，最终组成关键帧序列；采用深度学习目标检测技术对关键帧序列进行病灶检测与识别，并保存关键帧序列中所有检出有病灶的图像极其对应的病变检测信息；根据病变检测信息获取病变关键帧图像的检测信息，对病变关键帧图像进行排序并显示关键病变图像。

Description

基于视频摘要技术的胶囊内镜关键病灶图像检测方法

技术领域

本发明涉及图像处理领域，尤其涉及一种基于视频摘要技术的胶囊内镜关键病灶图像检测方法。

背景技术

无线胶囊内镜是近年来引进的胃肠道检查新技术，该技术检查过程无痛，且不存在检测盲区。胶囊通过口腔进入肠胃，随着肠胃自然蠕动，胶囊摄像头捕捉胃肠道内的彩色图像，通过无线传输给数据记录装置。然而，阅片医生需要从患者庞大的内镜图像中寻找出血点、息肉、溃疡、糜烂等病理特征，对一位患者视频的检查常常需要花费2-3小时时间，诊断效率较低。对于多个病例的连续检查过程冗长枯燥，极大地降低了临床医生的使用意愿，而且视觉疲劳易引起漏检。人工判读的低效率，影响了胶囊内镜的大规模使用，在一定程度上制约了临床上的普及和发展。因此寻找一种快速筛选机制，使得医生在不必浏览全部视频的前提下，自动提取携带医生感兴趣信息的视频图像供医生进一步诊断，对于减轻医生的诊断负担，提高医生的诊断效率是十分重要的。

深度学习在图像识别等领域取得了成功，深度学习技术逐渐应用于医学图像领域。基于深度学习的目标检测算法目前发展较为成熟，如yolo、faster-rcnn等模型，现有技术将深度学习的目标检测算法应用于多样性强的病灶检测问题中。但是，一方面，胶囊内镜视频时长大约在8小时左右，胶囊在肠道内的运动缓慢且非匀速，有可能长时间停留在一个位置，连续拍摄的图像重复性高，且没有增加新的信息量。现有病灶检测技术对视频的每一帧都进行了检测，检测的方法效率低，会包含连续帧呈现的同一个病灶图像，检测结果冗余。另一方面，小肠部位的影像相比于胃部，具有更复杂的环境，如食物残渣、浑浊肠液、残渣、气泡等，特别是与残渣特征相似的粘膜溃疡，易造成病灶的误检；

对于视频摘要生成的现有技术来说，有一类方法是利用聚类算法进行视频关键帧选取，将聚类中心的图像作为视频关键帧。由于肠道内采集图像相似度高，此类方法的缺陷在于会将时间相隔较远，不同部位的图像聚集在一起，使得摘要中丢失了处于肠道不同部位的关键信息帧，不能全面地展现患者的肠道病情。有改进方法是先将视频划分成若干个等间隔的区间，再对区间内的图像帧进行聚类。但是，由于胶囊在肠道内是非匀速运动，实际情况下的视频关键帧间隔不是均匀分布的，因此区间间隔参数难以人工设定，不适用于实际应用。另一类方法是根据胶囊内镜图像特征进行帧间差测定，根据相邻帧之间特征的相似度判定图像为关键帧或非关键帧。在特征提取技术上，现有方法主要通过设计胶囊内镜图像的一种普适特征。对于胃肠道内镜影像，常用特征主要包括颜色直方图、梯度、形状特征、纹理特征等。此类方法的缺陷在于，由于拍摄视角和距离的不同，以及患者之间肠道环境的多样性，因此，仅通过低级图像特征进行图像全局表示的鲁棒性较差。

发明内容

根据现有技术存在的问题，本发明公开了一种基于视频摘要技术的胶囊内镜关键病灶图像检测方法，具体包括如下步骤：

对胶囊拍摄到的视频图像进行分帧处理保存每一帧图像，并按拍摄时间顺序组成图像序列；

将视频分帧后的图像序列输入至卷积神经网络模型中从而获得每一张图像具有语义信息的特征向量；

采用视频摘要技术自动获取视频中具有代表性的内镜图像，将该内镜图像定义为关键帧，计算帧间特征向量的相似性来识别突变帧，根据突变帧将视频划分为若干个缓变区间，根据突变帧与参考强干扰图像相似度，滤除视频中强干扰区间，从而得到过滤后的缓变区间；在各缓变区间中选择有效的关键帧，最终组成关键帧序列；

采用深度学习目标检测方法对关键帧序列进行病灶检测与识别，并保存关键帧序列中所有检出有病灶的图像极其对应的病变检测信息；

根据病变检测信息获取病变关键帧图像的检测信息，对病变关键帧图像进行排序并显示关键病变图像。

进一步的，识别突变帧从而划分视频的缓变区间包括：

突变帧初始化：将输入图像序列中的第一帧图像记为第一段缓变区间的突变帧，记为

获取相邻帧间变化：计算第t帧与t-1帧特征向量之间的余弦距离，记为D(f_t-1,f_t)；

获取区间积累变化：计算第t帧与前一个突变帧特征向量之间的余弦距离，记为

结合上述两种变化对应的特征相似度结果计算距离的加权和，得到该帧与第Ci段缓变区间图像的相似度：

S(f_t)＝1-[α×D(f_t-1,f_t)+(1-α)×D(f_Ci,f_t)]

判断当前帧是否与前一帧或前一段图像帧具有明显的画面变化，将发生明显变化的图像帧记为突变帧，根据设定的相似度阈值判断该帧是否为突变帧：当相似度大于第一阈值则该帧为突变帧，即新一段缓变区间的开始，记为第i+1段缓变区间的第一帧：当相似度小于第一阈值，则该帧不是突变帧，即在当前缓变区间中增加一帧，记为当前缓变区间i的第j+1张图：/>表达式如下：

其中α为当前帧于前一帧的相似度在相似度度量所占比重，th为突变帧相似度判断阈值，若当前帧为突变帧，将其特征向量记为f_C(i+1)。

进一步的，滤除视频中强干扰区间时首先判断突变帧图像是否为强干扰图像，由此推断该帧所在的缓变区间是否为强干扰区间，具体采用如下方式：

从分帧后的图像中选取干扰程度强的图像，查询图像对应的特征向量作为强干扰参考特征向量，记为f_occluded；

计算关键帧图像提取的特征向量与强干扰参考特征向量之间的余弦相似度：

D(f_C(i+1),f_occluded)

如果余弦相似度大于第二阈值则为强干扰图像，则将该张突变帧图像所在的缓变区间定义为强干扰区间。

进一步的，所述第二阈值小于第一阈值。

进一步的，获取关键帧序列时：在一个缓变区间中，每隔10帧选择一帧组成关键帧序列，设第i段缓变区间内共n帧，则缓变区间中的图像序列表示为则第i段缓变区间中抽取的关键帧序列为：

式中[·]表示取整运算，返回不超过括号内计算结果的最大整数。

进一步的，对病变关键帧图像进行排序时：

假设第i张病变关键帧图像为Iⁱ，图像内病灶总数为K，将第k个病灶记为病灶类型记为/>模型置信度/>

读取病变图像的病灶类型，将病变图像分成不同类型病灶构成的子集；

对于各类型病灶组内的病变图像，依据检测信息计算代表性得分，返回各病灶类型的排序前m％的病变图像，依据各关键病灶图像的代表性性得分从大到小排列病变图像，则第i张病灶图像代表性得分记为C(Iⁱ),其计算方式如下：

式中P_th为预测概率阈值，当预测概率越高且预测概率大于阈值，病灶个数越多，该病灶图像的代表性得分越高，排序越靠前。由于采用了上述技术方案，本发明提供的一种基于视频摘要技术的胶囊内镜关键病灶图像检测方法，具有如下有益效果：

1、本方法在关键帧检测过程中实现了自动生成可视胶囊视频中关键帧，与现有技术相比，本发明为了适用于肠道内的复杂环境，在关键帧检测过程中融入了强干扰图像过滤机制，不仅能有效地去除视频帧中大量的冗余图像，而且能滤除可视胶囊视频中易造成病灶误检的粪渣、气泡等强干扰图像，因此可有效地提高后续基于深度学习的病灶检测过程的效率和检测准确度。

2、本方法考虑了人体具有多样性的特点，在检测画面变化帧时，采用卷积神经网络模型提取图像的广义高级语义特征，该方法相比于传统特征提取方法更具有鲁棒性。与现有的聚类、帧差等技术相比，针对内镜视频的画面变化具有缓慢积累的问题，本方法综合计算了与前一时刻、以及前一关键帧图像的相似度，该方法可以有效加强对画面变化检测的敏感度，将视频中具有时间、空间上相似性的图像帧划分为一个缓变区间，更符合人类的观察直觉。

3、此外，本发明设计了一种病变图像代表性得分，对检出的病变图像按照进行该代表性得分进行排序、筛选，使得最终输出的病变图像是典型、多样的，更全面地描述患者肠道内的病情。因此，本方法可使阅片医生能够快速地从庞杂的视频图像中，找到患者肠道内镜中具有代表性、多样性的病灶图像，方便医生进行诊断患者病情、辅助生成患者检查报告。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法中视频关键帧检测过程的流程图；

图2为本发明方法中关键病灶自动检测方法整体流程图；

图3为本发明中对视频关键帧病变图像检出效果图；

图4为本发明中病灶检测模型训练收敛过程示意图；

图5为本发明中模型在测试集上的P-R曲线示意图；

图6为本发明中强干扰参考帧图像示意图；

图7为本发明中视频关键帧的病灶检测结果展示图。

具体实施方式

为使本发明的技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：

如图1和图2所示的一种基于视频摘要技术的胶囊内镜关键病灶图像检测方法，具体包括如下步骤：

S1：首先，将胶囊拍摄视频分帧，共记T帧。保存每一帧图像，按拍摄时间顺序组成图像序列{I₁,I₂,...,I_t,...,I_T}。

S2：本方法中，视频摘要技术的输入是视频，输出是关键帧序列，具体方式为首先通过检测视频画面突变帧将视频序列分成若干个不定长的缓变区间。并在划分的过程中，实现视频中强干扰区间的过滤，以减少后续病灶检测的误检情况。模块输入为连续帧图像，输出为划分后的各缓变区间。

S2.1、提取序列图像的高层语义特征：本发明通过预训练卷积神经网络模型，分别提取每一帧图像{I₁,I₂,...,I_t,...,I_T}的高层语义特征，获得{f₁,f₂,...,f_t,...,f_T}。具体地，将视频分帧后的图像序列，批量地输入至预训练的特征提取模型。此处特征提取模型可选地，可以是resnet-18、resnet-50、vgg、shufflenet、inceptionnet等卷积网络在ImageNet数据集上训练后的模型。预训练模型避免了大量有标签数据的收集，用其训练模型参数，可以得到具有广义特征提取能力的模型。因此从网络的全连接层输出每一张图像的广义特征表达、具有语义信息的特征向量，保存该特征向量序列。

S2.2、识别关键帧，划分视频的缓变区间：本发明通过比较图像特征之间的相似度，判断是否为内容发生变化的关键帧。将相邻两个关键帧之间的图像帧序列作为一个缓变区间，表示此区间内的画面相似且时间相邻，因此可认为是胶囊在同一部位拍摄的镜头，该镜头内的病灶为同一病灶。在突变帧的识别方法上，由于胶囊在肠道内拍摄的镜头随着肠道自然蠕动拍摄，当胶囊运动速度慢时，相邻帧之间的画面差异极其微小，所拍摄的镜头画面呈现出缓慢变化的特点。但是随着缓变的积累，又会与开始的画面产生比较大的变化。因此，本发明除计算相邻两帧画面变化程度之外，为了可以识别出缓变情况下的图像关键帧，还计算当前帧与上一个关键帧的变化程度。综上，本发明通过综合以上两种变化程度来判断是否为关键帧，更适应于可视胶囊视频的变化特点。

用表示第i段缓变区间的第j帧图像，当j＝0表示为该缓变区间的第一帧，作为关键帧。判断方法具体如下：

S2.2-1，初始化关键帧：将输入序列中的第一帧图像记为第一段缓变区间的关键帧，记为

S2.2-2，计算前一帧的特征相似度：计算第t帧与t-1帧特征向量之间的余弦距离，记为D(f_t-1,f_t)。

S2.2-3，计算与上一关键帧的特征相似度：第t帧与最近的缓变区间的关键帧特征向量之间的余弦距离，记为

S2.2-4，综合上述两个特征相似度结果：计算距离的加权和，得到该帧与第Ci段缓变区间图像的相似度：

S(f_t)＝1-[α×D(f_t-1,f_t)+(1-α)×D(f_Ci,f_t)]

S2.2-5，判断当前帧是否为画面变化帧，记为关键帧：根据预先设定阈值判断该帧是否为突变帧，若大于阈值，则该帧记为即第i+1段缓变区间的第一帧，若小于阈值，则该帧记为/>即为当前缓变区间的第j+1张图：

式中α为当前帧于前一帧的相似度在相似度度量所占比重，取值范围为[0,1]。th为突变帧相似度判断阈值，经验取值在[2,10]范围。若当前帧为突变帧，将其特征向量记为f_C(i+1)。

S2.3，根据画面变化帧与参考强干扰图像相似度，滤除视频中强干扰区间。本发明通过判断关键帧图像是否属于强干扰图像，推断该帧所在的缓变区间是否为强干扰区间。判断的方法如下：

具体地，首先，从分帧后的图像中选取干扰程度强的图像，包括含大量粪渣、出现较大型气泡。查询图像对应的特征向量作为强干扰参考特征向量，记为f_occluded。

接着，计算关键帧图像提取的特征向量与强干扰参考特征向量之间的余弦相似度：

D(f_C(i+1),f_occluded)

若相似度大于预设阈值为强干扰图像，此处预设阈值应低于关键帧检测阈值，经验取值在[2,4]。为防止干扰物较多导致后续检测模型对病灶的误检，将滤除此区间，即所在缓变区间内的图像不进入后续检测过程。若相似度小于或等于预设阈值，则保留该缓变区间。

S2.4，对过滤后的缓变区间，扩充关键帧，组成关键帧序列。由于画面可能出现多个病灶，为了避免某一帧病灶图像质量较低或被肠液遮挡，而造成病灶的漏检情况。因此，在缓变区间内，根据区间的长度n，自适应地选择多帧组成待检测帧序列，提供给后续的检测模型。抽取关键帧如下式，假设第i段缓变区间内共n帧，图像序列表示为式中[·]表示取整运算，返回不超过括号内计算结果的最大整数。

例如，第i个缓变区间内图像个数n＝27时，抽取的关键帧为

S3：输入为关键帧序列，采用病灶检测模型预测病灶并保存预测结果。具体操作如下：

S3.1，对关键帧序列，采用深度学习目标检测技术进行病灶检测与识别。使用现有基于卷积神经网络的目标检测技术，可选地，如yolov3、yolov4等一阶段检测网络，faster-rcnn等二阶段检测网络进行单帧病灶图像检测模型。此处的检测模型可以是用息肉、溃疡、出血、肿瘤等肠道内病灶图像训练后的模型，模型的输出包括图像中病灶的矩形包围框的左上、右下顶点坐标，病灶的类型、预测置信度得分。

S3.2，保存关键帧序列中所有检出有病灶的图像极其对应的检测信息。

按照病变帧的时间戳、图像中病灶包围框坐标、病灶类型、预测概率，保存成病变图像的检测信息文件。

S4：载入病变检测信息文件，获取病变关键帧图像的检测信息，对病变关键帧图像进行排序。排序规则如下：

假设第i张病变关键帧图像为Iⁱ，图像内病灶总数为K。将第k个病灶记为病灶类型记为/>模型置信度/>

S4.1，读取病变图像的病灶类型，将病变图像分成不同类型病灶构成的子集；

S4.2，对于各类型病灶组内的病变图像，依据检测信息计算代表性得分，返回各病灶类型的排序前m％的病变图像。排序按各关键病灶图像的代表性得分从大到小的顺序。第i张病灶图像代表性得分记为C(Iⁱ),其计算方式如下：

式中P_th为预测概率阈值，通常设为0.5。通过上式可以看出，预测概率越高且预测概率大于阈值，病灶个数越多，该病灶图像的代表性得分越高，排序越靠前。目的是筛选出病灶明显、病灶数量多、模型预测准确可能性越高的病灶图像。

S5、显示排序后筛选出的关键病变图像。

实施例：

下面以可视胶囊在一位肠道溃疡患者肠道内采集的视频为例，说明本胶囊内镜视频病灶检测系统的实际工作过程：

1、将该视频文件输入视频处理模块。读取视频文件，逐帧读取视频图像，保存为图像序列。在此案例中，胶囊在小肠部位上采集的视频长约8小时，视频帧率为3帧/秒。分帧后储存共计80000余帧图像。

2、将分帧后图像序列输入视频关键帧检测模块

对各图像进行缩放、标准化等预处理操作后，输入至特征提取模型。在本实施例中选取resnet-18作为特征提取模型，加载网络在Image-net数据集上训练的预训练权重。将最后一层全连接层的神经元输出作为该图像的特征表示，即将每一张图像转换成一个1024维向量。按照发明方法所述步骤，检测图像序列中的画面突变帧，将视频划分为若干缓变区间，并滤除其中画面干扰物过多的图像区间，生成摘要关键帧共计12533帧图像，压缩率为15.67％。过滤使用的强干扰参考图像如图6所示。

3、将提取的视频关键帧图像序列输入病灶检测模型

首先构建一个小肠病灶检测模型，本实施例中采用了YoloV4目标检测网络，该网络将CSPDarkNet53作为骨干网络，采用fpn特征金字塔结构。针对胶囊内镜肠道病灶的检测模型构建过程包括准备数据集、数据增强、模型训练、模型选择等。具体操作方式如下：

第一步，收集了专业医生对胶囊采集视频中的肠道病变图像，图像中病灶位标记置通常采用矩形框形式。为收集病灶图像数据集制作各自标注文件，包括：矩形的左上角及右下角点像素坐标、框内病灶的类型。

第二步，对原始图像进行随机裁剪、缩放、平移、翻转等数据增强变换，达到增强检测模型鲁棒性的目的。根据各图像的变换方式调整病灶的标注坐标，以保证标注框的准确性。

第三步，采用模型迁移的训练方法，迁移在大规模数据集coco训练的网络参数，通过参数微调的方式，在收集的小肠可视胶囊采集图像数据集上完成在本发明应用场景的模型训练。

第四步，模型的收敛过程如图4所示。当模型训练过程收敛后，采用均值平均精度(mAP)作为模型评价指标，保存在验证数据集上表现最优的模型。

接下来，基于构建完成的小肠病灶检测模型，对关键帧检测模块得到的缓变区间中的关键帧图像序列实施病灶检测。

本实施例中，模型输出对各图像的病灶检测结果如图3所示，检测结果包含图像中病灶的位置信息、病灶类型信息、模型预测置信度。图3中红色框为模型预测的病灶所在位置，框上方为模型预测的病灶类型和模型对该预测结果的置信程度。绿色框为真实病灶位置。由于该案例测试的是模型在小肠溃疡病例上的表现。采用溃疡类别的AP作为模型检测结果评估指标，本例中绘制溃疡(ulcer)类别的P-R曲线如图5所示，计算平均精度(AP)为94.67％。算法演示界面如图7所示。

本发明针对肠道内镜的图像数据特点和技术挑战，通过将视频摘要技术与病灶检测技术相结合，对现有视频的关键帧筛选方面进行了改进。在充分保留原始信息的前提下，去除了视频序列中的冗余图像帧和具有较强干扰的无效图像帧，筛选出能够有代表性地反映人体消化道情况的关键信息帧。本发明方案的关键是找出视频中具有代表性的关键帧，通过检测画面发生突变的图像，将视频划分为若干个缓变区间。对关键帧进行肠道病灶检测，并通过对检测结果进行筛选、排序，为医生着重展示胶囊在患者肠道内采集的病灶明显、病情严重的图像，并标识出病灶在图像中的位置。达到节省医生诊断、筛选病变图像的时间、辅助医生生成检查报告的目的。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于视频摘要技术的胶囊内镜关键病灶图像检测方法，其特征在于包括：

2.根据权利要求1所述的方法，其特征在于：识别突变帧从而划分视频的缓变区间包括：

S(f_t)＝1-[α×D(f_t-1,f_t)+(1-α)×D(f_Ci,f_t)]

3.根据权利要求2所述的方法，其特征在于：滤除视频中强干扰区间时首先判断突变帧图像是否为强干扰图像，由此推断该帧所在的缓变区间是否为强干扰区间，具体采用如下方式：

D(f_C(i+1),f_occluded)

4.根据权利要求3所述的方法，其特征在于：所述第二阈值小于第一阈值。

5.根据权利要求3所述的方法，其特征在于：获取关键帧序列时：在一个缓变区间中，每隔10帧选择一帧组成关键帧序列，设第i段缓变区间内共n帧，则缓变区间中的图像序列表示为则第i段缓变区间中抽取的关键帧序列为：

6.根据权利要求1所述的方法，其特征在于：对病变关键帧图像进行排序时：

式中P_th为预测概率阈值，当预测概率越高且预测概率大于阈值，病灶个数越多，该病灶图像的代表性得分越高，排序越靠前。