CN110087097B

CN110087097B - 一种基于电子内窥镜的自动去除无效视频剪辑方法

Info

Publication number: CN110087097B
Application number: CN201910485965.7A
Authority: CN
Inventors: 潘晓英; 王红玉; 刘妮; 赵浩; 王昊; 许成
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2021-08-03
Anticipated expiration: 2039-06-05
Also published as: CN110087097A

Abstract

本发明属于人工智能和计算机视觉技术领域，具体涉及一种基于内窥镜的自动去除无效视频剪辑方法。本发明将待剪辑内窥镜手术视频进行拆帧，在视频帧中提取关键帧；将所述关键帧输入本发明改进的密集连接卷积神经网络中；通过所述网络对所述手术视频关键帧进行预判，再通过自修复模块，进一步获得精准结果；根据上述结果和原视频时间点的对比，剪辑并合成视频，得到医生期待的有效内窥镜手术视频段。与其他剪辑方法相比，密集连接卷积神经网络加入自修复模块在准确度上进一步提升，将达到60％分类变化的视频帧进行自修复，更精确手术视频的剪辑时间，使得有效视频与无效视频分割更精确。

Description

一种基于电子内窥镜的自动去除无效视频剪辑方法

技术领域

本发明属于人工智能和计算机视觉技术领域，涉及一种基于内窥镜的自动去除无效视频剪辑方法。

背景技术

现今内窥镜的功能性微创手术技术已经得到医生和患者的广泛接受，内窥镜下录制的手术视频也作为医生教学、研讨的重要素材，但是目前电子内窥镜手术视频生成量大，导致存储不完整，而且存在很多冗余信息，比如清洗镜头，镜头闲置等情况，导致医生重新查看手术视频时关键信息获取不连贯，此外，现有的医学视频剪辑采用人工手动方式进行剪辑，对视频进行预览，手动截取内窥镜拍摄的有效视频片段，将每段视频片段进行拼接，以得到医生期望的内窥镜手术视频；这种方法剪辑过程复杂，剪辑效率低，耗时长，对医生在手术后的研讨以及教学造成影响。

为了解决目前技术存在的问题，现有视频剪辑技术还提供了以下方法：

1、人工对手术视频进行预览，手动插入开始时间点与结束时间点，将手术视频进行拆分成若干小的视频段，将小视频段按照时间顺序进行输入，输出合成视频。该方法存在的问题是：耗费时间、精力，靠人工进行手术视频预览，剪辑顺序依靠人工进行判断，剪辑精度较差；

2、利用颜色直方图、背景差分法等传统方法对视频进行视频帧的提取，合成视频帧，生成视频预览。该方法存在的问题是：由于是通过颜色直方图等传统方法进行视频帧抽取，因此不适用于所有类型视频，并且利用该方法生成视频的预览，信息不连贯；

3、将待剪辑视频全部拆分为视频帧；将视频帧输入到预先训练的卷积神经网络进行训练；用户手动输入剪辑对象，根据用户输入的剪辑对象对视频进行检索，对存在剪辑对象的图片进行合成，生成剪辑视频。这是目前被普遍使用的方法，但是该方法仍然存在着下述问题：由于要提取所有的视频帧，因此处理速度较慢；同时由于利用卷积神经网络对图像进行检索，对存在剪辑对象的图像进行合成，没有考虑视频的时序效果，因此视频剪辑连续性较差，精度低。

发明内容

针对目前视频剪辑技术存在的视频剪辑连续性较差、精度低和处理速度较慢的问题，本发明提供了一种基于内窥镜的自动去除无效视频智能剪辑方法。

为实现上述目的，本发明提供了一种基于内窥镜的自动去除无效视频智能剪辑方法，包括以下步骤：

1：将收集到的手术视频进行拆分，提取关键帧，经过提取后得到图像序列 {I_i,i＝1,2,3,…,n}；

2：构建训练集和测试集；

将收集到的内窥镜手术视频的关键帧随机分组生成训练集和测试集，并进行分类，分别得到1(有效)、0(无效)两种类别关键帧；

3：构建密集连接卷积神经网络；

3.1：对输入密集连接卷积神经网络的关键帧图片序列进行预处理；

3.2：网络结构搭建：

密集连接卷积神经网络包括输入层，两个Dense Block层，两个过渡层(Transition Layer)和输出层；

输入层由卷积层和Pre-Activation Batch Norm(BN层)组成，并由BN层对每次训练输入到网络中的数据做标准化处理；

输出层由全局平均池化层和全连接层构成，最后附加一个Softmax分类器，计算像素点的均值，组成向量并映射得到图像分类的预测值；

4：将训练集输入已构建的网络模型中训练、生成网络模型；

调整网络参数进行训练，设置earlystoper，当网络训练达到预设程度时停止训练，得到网络模型并保存；

5：将测试集输入已生成模型后得到预判结果；

5.1：对输入的测试集图像序列进行预处理；

5.2：将经过预处理的图像输入现已生成的模型中进行预测，生成预判结果，预判结果分为两类：无效类别为“0”，有效类别为“1”；

6：将上述预判结果输入自修复模块，出现两种情况：

(6.1)在序列从“1”变为“0”的变化边界；

(6.1.1)提取从“1”变为“0”的两个关键帧在原视频之间的所有视频帧；

(6.1.2)将第(1)步提取出的视频帧再输入密集连接卷积神经网络进行判断，得到分类序列：若分类结果大于60％是“1”，则将后一关键帧自修复为“1”；

若分类结果小于60％是“1”，则停止自修复，保持原来序列；

若修复后序列第二个关键帧还是“0”，继续执行自修复，直到分类结果小于 60％；

若修复后序列第二个关键帧是“1”，停止自修复；

(6.2)：在序列从“0”变为“1”的变化边界；

(6.2.1)提取从“0”变为“1”的两个关键帧在原视频之间的所有视频帧；

(6.2.2)第(1)步提取的视频帧再输入密集连接卷积神经网络进行判断，得到分类序列，

若分类结果大于60％是“0”，则将后一关键帧改为“0”；

若分类结果小于60％是“0”，则停止自修复，保持原来序列；

若修复后序列第二个关键帧还是“1”，继续执行自修复，直到分类结果小于 60％；

若修复后序列第二个关键帧是“0”，停止自修复；

7：根据上述结果，剪辑视频并输出

根据步骤6得到的分类序列，找出视频第一帧的类别，记录序列变化的时间点，按变化时间点进行剪辑，对类别相同的视频片段进行合成，生成有效、无效两类视频段。

与现有技术相比，本发明有以下优点：

1.与其他剪辑方法相比，密集连接卷积神经网络加入自修复模块在准确度上进一步提升，将达到60％分类变化的视频帧进行自修复，更精确手术视频的剪辑时间，使得有效视频与无效视频分割更精确；

2.不需要人工进行手术视频剪辑，极大降低了医院的人力成本；

3.以医生的角度处理视频，得到精简的手术视频，提高内窥镜手术视频剪辑效率；便于医生的技术交流和教学指导；

4.本发明在原始图像上不做过多预处理，对内存等硬件设备要求不高，在普通PC机上也能顺利进行剪辑，整个剪辑过程耗时短，并且软、硬件都有良好的兼容性；可用于各类内窥镜无效手术视频剪辑。

附图说明

图1是本发明的总流程图；

图2是本发明训练流程图；

图3是本发明测试流程图；

图4是关键帧示意图；

图5Dense Block结构图

图6是本发明密集连接卷积神经网络结构图；

图7是自修复结构图；

图8是手术视频剪辑示例图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

下面将结合附图和实施例对本发明进行详细的说明。

本发明将待剪辑内窥镜手术视频进行拆帧，在视频帧中提取关键帧；将所述关键帧输入本发明改进的密集连接卷积神经网络中；通过所述网络对所述手术视频关键帧进行预判，再通过自修复模块，进一步获得精准结果；根据上述结果和原视频时间点的对比，剪辑并合成视频，得到医生期待的有效内窥镜手术视频段。

参见图1，本发明的一种基于内窥镜的自动去除无效视频智能剪辑方法，具体包括以下步骤：

步骤1，将收集到的手术视频进行拆分，提取关键帧；

参见图4，帧是视频中的静态画面，每秒超过24帧以上画面平滑变化的动态画面称为视频，视频编码按照“组”进行，“组”被称为GOP(Group of Pictures),一个GOP序列就是一组连续IPB画面，关键帧(I帧)是一个GOP 组的开始，I帧是一幅完整的画面，B帧和P帧是依赖关键帧进行解码的；

本实施例中使用FFmpeg开源程序进行关键帧提取，得到图像序列 {I_i,i＝1,2,3,…,n}；

步骤2，构建训练集和测试集；

步骤3，参见图2，构建密集连接卷积神经网络；

步骤3.1，对输入本发明网络的图像进行预处理；

将输入密集连接卷积神经网络的关键帧图片{I_A,A＝1,2,3,…,a}，重置大小为224*224尺寸；

步骤3.2：网络结构搭建；

参见图6，本发明的密集连接卷积神经网络主要包括输入层，两个Dense Block层，两个过渡层(Transition Layer)和输出层；

第一个Dense Block层由m个卷积块构成，第二个Dense Block层由n个卷积块构成，参见图5，每一个Dense Block层采用一种稠密连接的highway模块，每个卷积块包括卷积层、激活函数、归一化函数构成；将该层与之后的所有层进行连接；因此，l_th层将之前所有层的特征图x₀，……x_l-1作为输入：

x_l＝H_l([x₀，x₁，…，x_l-1])

其中[x₀，x₁，…，x_l-1]表示将第0,…,l-1等每层输出的特征图进行连接；

过渡层由一个瓶颈层(bott leneck layer即卷积层)和平均池化层构成，目的是连接相邻Dense Block，采用1×1卷积和2×2平均池化作为相邻dense block之间的转换层，降低feature map数量；

步骤4，将训练集输入已构建的网络模型中，训练生成网络模型；

调整网络参数进行训练，设置ear lystoper，当网络训练达到预设程度时停止训练，得到网络模型并保存；

步骤5，参见图3，将测试集输入已生成模型后得到预判结果；

5.1：对输入图像进行预处理；

将测试集图像{I_B,B＝1,2,3,…,b}，重置大小为224*224尺寸；

5.2：将经过预处理的图像输入现已生成的模型中，得到预判结果；

将经过预处理的图像输入现已生成的模型中进行预测，生成预判结果，预判结果分为两类：无效类别为“0”，有效类别为“1”；

步骤6，将上述预判结果输入自修复模块，出现两种情况：参见图7

6.1：在序列从“1”变为“0”的变化边界；

若修复后序列第二个关键帧还是“0”，继续执行自修复，直到分类结果小于60％；

若修复后序列第二个关键帧是“1”，停止自修复；

6.2：在序列从“0”变为“1”的变化边界；

若分类结果大于60％是“0”，则将后一关键帧改为“0”；

若修复后序列第二个关键帧还是“1”，继续执行自修复，直到分类结果小于60％；

若修复后序列第二个关键帧是“0”，停止自修复；

步骤7，根据上述结果，剪辑视频并输出：

参见图8，根据步骤6得到的分类序列，找出视频第一帧的类别，记录序列变化的时间点，按变化时间点进行剪辑，对类别相同的视频片段进行合成，生成有效、无效两类视频段。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种基于内窥镜的自动去除无效视频智能剪辑方法，其特征在于，包括以下步骤：

步骤1：将收集到的手术视频进行拆分，提取关键帧，经过提取后得到图像序列{

,i=1,2,3,…,n}；

步骤2：构建训练集和测试集；

将收集到的内窥镜手术视频的关键帧随机分组生成训练集和测试集，并进行分类，分别得到1、0两种类别关键帧，1代表有效、0代表无效；

步骤3：构建密集连接卷积神经网络；

步骤3.1：对输入密集连接卷积神经网络的关键帧图片序列进行预处理；

步骤3.2：网络结构搭建：

密集连接卷积神经网络包括输入层，两个Dense Block层，两个过渡层TransitionLayer和输出层；

输入层由卷积层和Pre-Activation Batch Norm层组成，并由Pre-Activation BatchNorm层对每次训练输入到网络中的数据做标准化处理；

步骤4：将训练集输入已构建的网络模型中训练、生成网络模型；

步骤5：将测试集输入已生成模型后得到预判结果；

步骤5.1：对输入的测试集图像序列进行预处理；

步骤5.2：将经过预处理的图像输入现已生成的模型中进行预测，生成预判结果，预判结果分为两类：无效类别为“0”，有效类别为“1”；

步骤6：将上述预判结果输入自修复模块，出现两种情况：

步骤6.1：在序列从“1”变为“0”的变化边界；

步骤6.1.1：提取从“1”变为“0”的两个关键帧在原视频之间的所有视频帧；

步骤6.1.2：将步骤1提取出的视频帧再输入密集连接卷积神经网络进行判断，得到分类序列：若分类结果大于60%是“1”，则将后一关键帧自修复为“1”；

若分类结果小于60%是“1”，则停止自修复，保持原来序列；

若修复后序列第二个关键帧还是“0”，继续执行自修复，直到分类结果小于60%；

若修复后序列第二个关键帧是“1”，停止自修复；

步骤6.2：在序列从“0”变为“1”的变化边界；

步骤6.2.1：提取从“0”变为“1”的两个关键帧在原视频之间的所有视频帧；

步骤6.2.2：步骤1提取的视频帧再输入密集连接卷积神经网络进行判断，得到分类序列，

若分类结果大于60%是“0”，则将后一关键帧改为“0”；

若分类结果小于60%是“0”，则停止自修复，保持原来序列；

若修复后序列第二个关键帧还是“1”，继续执行自修复，直到分类结果小于60%；

若修复后序列第二个关键帧是“0”，停止自修复；

步骤7：根据上述结果，剪辑视频并输出