CN113838014A

CN113838014A - 基于双重空间扭曲的航空发动机损伤视频检测方法

Info

Publication number: CN113838014A
Application number: CN202111078204.3A
Authority: CN
Inventors: 万夕里; 肖仁睿; 李义丰; 管昕洁
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2021-12-24
Anticipated expiration: 2041-09-15
Also published as: CN113838014B

Abstract

一种基于双重空间扭曲的航空发动机损伤视频检测方法，步骤包括：步骤1，确定孔探视频中的关键帧；若当前帧为关键帧，则执行步骤2，若当前帧为非关键帧，则执行步骤3；步骤2，提取当前视频帧的多尺度语义特征图；步骤3，通过计算当前帧与其前一帧之间的光流场，得到扭曲语义特征图；若当前帧为关键帧的下一帧，则执行步骤5，否则执行步骤4；步骤4，通过计算关键帧到当前帧之间连续帧对的扭曲光流场得到当前帧的扭曲语义特征图；步骤5，对步骤2得到的多尺度语义特征图以及步骤3或步骤4得到的扭曲语义特征图进行特征解码，得到当前帧的语义分割图。本发明的方法将双流场用于扭曲关键帧特征，可以解决孔探视频中快速移动对象的扭曲误差。

Description

基于双重空间扭曲的航空发动机损伤视频检测方法

技术领域

本发明属于计算机视觉领域，特别是涉及关键帧空间特征扭曲的视频语义分割方法，是一种在航空发动机孔探技术的应用场景中快速检测损伤的新视频语义分割方法。

背景技术

语义分割技术可生成像素级别的损伤预测图像，换句话说，每个像素被分类为损伤或非损伤。由损伤分割产生的精确的损伤位置和结构既可以用来对损伤类型进行分类，也可以用来获取重要的损伤特征。应用于孔探视频领域时，由于图像语义分割网络结构复杂，采用逐帧分析的方式进行语义分割预测会导致庞大的计算量，无法满足检测的实时性。

近年来，随着语义分割技术在图像识别领域取得了巨大成就，视频语义分割逐渐成为研究的方向。Deep Feature Flow于2015年首次提出利用连续视频帧之间的相似性，通过关键帧与当前帧之间的光流场进行空间扭曲，将稀疏关键帧的分割结果传播给非关键帧，从而降低网络的计算量，与逐帧分析相比显著地提升了视频语义分割的运行速率。

然而，针对快速移动的对象来说，这种方法就不是很适合。这是因为，关键帧与当前帧之间存在一定间隔，快速移动的对象在内容上会发生很大的变化，而单一空间扭曲的方法易遗漏其包含的语义信息，产生较大的扭曲误差。

在实际航空发动机孔探技术的应用中，发动机内部结构复杂，并且孔探拍摄角度变化大，导致损伤的出现时间短、移动速度快以及特征变化明显，因此单一空间扭曲并不适合实际孔探技术。

发明内容

为了解决上述问题，本发明提供一种基于双重空间扭曲的航空发动机损伤视频检测方法，该方法精度高，处理速度快，更适合快速移动的对象，为达此目的，本发明采用的技术方案如下：

步骤1，以固定时间间隔方式选择孔探视频中的关键帧；若当前帧为关键帧，则执行步骤2，若当前帧为非关键帧，则执行步骤3；

步骤2，提取当前视频帧的多尺度语义特征图；

步骤3，通过计算当前帧与其前一帧之间的光流场，得到扭曲语义特征图；若当前帧为关键帧的下一帧，则执行步骤5，否则执行步骤4；

步骤4，通过计算关键帧到当前帧之间连续帧对的扭曲光流场得到当前帧的扭曲语义特征图；

步骤5，对步骤2得到的多尺度语义特征图和步骤3或步骤4得到的扭曲语义特征图进行特征解码，得到当前帧的语义分割图。

进一步地，步骤1包括如下子步骤：

步骤1.1，从孔探视频中选取第一个视频帧作为第一个关键帧；

步骤1.2，采用固定时间间隔的方式依次选取新的关键帧，其余视频帧为非关键帧。

进一步地，步骤2包括如下子步骤：

步骤2.1，采用特征编码模块提取关键帧图像的语义特征图；

步骤2.2，将步骤2.1得到的语义特征图送入密集空洞卷积模块，得到高层语义特征图。

步骤2.3，将步骤2.2得到的高层语义特征图送入残差多核池化模块，得到多尺度语义特征图。

进一步地，步骤2.1中的所述特征编码模块的结构由多个线性整流函数卷积层、批归一化层和池化层交替组成。

进一步地，步骤2.2中的所述密集空洞卷积模块的结构包括级联方式连接的四个空洞卷积分支，每个分支的空洞卷积数目逐渐增加，从1到1、2和3，每个分支的感受野分别为3、5、7、17；空洞卷积所用卷积核的空间尺寸为3x3；每个分支的最后应用一个线性整流函数卷积层，所用卷积核的空间尺寸为1x1。

进一步地，步骤2.3中的所述残差多核池化模块的结构包括级联方式连接的四个最大池化层；每个最大池化层的空间尺寸依次为2x2、3x3、4x4、5x5，步长依次为2、3、4、5；每个最大池化层后应用一个卷积层，所用卷积核的空间尺寸为1x1；最后通过双线性插值法进行上采样操作并与原始特征图连接。

进一步地，步骤3包括如下子步骤：

步骤3.1，通过光流预测网络计算当前视频帧与其前一视频帧的光流场；

步骤3.2，将步骤2得到的多尺度空间特征图与步骤3.1得到的光流场进行空间扭曲，得到扭曲语义特征图。

进一步地，步骤4包括如下子步骤：

步骤4.1，通过光流预测网络计算关键帧到当前帧中每一连续帧对的光流场；

步骤4.2，通过叠加空间扭曲的方式计算步骤4.1得到的光流场，得到扭曲光流场。

步骤4.3，将步骤4.2得到的扭曲光流场与步骤3得到的扭曲语义特征图再次进行空间扭曲，得到当前视频帧的扭曲语义特征图。

进一步地，所述光流预测网络的结构包括：迭代残差的编解码器网络，将前一次迭代的输出同样作为编码器的输入，编码器采用9个卷积层对融合后的输入进行下采样，以提取特征得到特征图，解码器采用反卷积的方式对编码器输出的特征图进行上采样。

进一步地，步骤5中特征解码通过叠加多个卷积层、批归一化层和转置卷积层的形式实现。

本发明的有益效果为：

本技术方案聚焦于快速移动的对象，可以精确地传播其语义特征，在保持了视频语义分割速率的同时提升了准确性。

本技术方案取得上述成果的技术原因有：

1)在视频语义分割中单一空间扭曲方法易产生较大的扭曲误差，本发明通过双重空间扭曲的方法校正了单一空间扭曲中遗漏的快速移动的特征，精确地将关键帧的特征传播到后续帧中，特别是改善了快节奏空间内容在帧之间的传播。

2)引入空洞卷积和多核池化的操作，有效提取了关键帧中语义特征的多尺度信息，提升了对不同损伤的特征图的识别能力，可准确的识别不同类型的损伤。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本方法的基于双重空间扭曲的航空发动机损伤视频检测方法的流程示意图。

图2是本方法实施例的基于双重空间扭曲的航空发动机损伤视频检测方法的网络架构图。

图3是本方法实施例的密集空洞卷积模块的结构示意图。

图4是本方法实施例的残差多核池化模块的结构示意图。

图5是本方法实施例的光流预测网络的结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细描述：

本发明提供的基于双重空间扭曲的航空发动机损伤视频检测方法，该方法在保持视频语义分割速率的同时提升了准确性。

本发明的具体实施方式如下：

连续帧具有相似的图像内容和高级语义，利用连续帧之间的特征相似性，我们可以廉价地将关键帧的特征传播到相邻帧。具体地，步骤1包括如下子步骤：

给定孔探视频序列作为输入，选取视频序列的第一帧作为第一个关键帧。表示为：

I_k＝I₀

设I_n表示视频序列的视频帧，其中n＝0,1,2,…，即I₀表示视频序列的第一个视频帧；I_k表示关键帧；

步骤1.2，采用固定时间间隔的方式依次选取新的关键帧，其余视频帧为非关键帧。具体地：

在本实例中，为防止帧间隔过大导致图像内容变化明显，将固定时间间隔设置为5，也就是说每5帧分配为关键帧，其余视频帧为非关键帧；I_i表示非关键帧；表示为：

L＝5

其中，L表示为固定时间间隔。

步骤2，提取当前视频帧的多尺度语义特征图；

本实例首先通过特征提取模块获取关键帧的语义特征图，特征提取模块中叠加多个深度卷积层虽然可以提取图像的特征，但也缩小了特征图尺寸，特征图缩小再放大的过程会导致图像语义信息的丢失。此外，接受场的大小决定了我们可以使用多少语义信息，一般的接收场只使用单一池化内核，不易于检测不同大小的目标。为了克服上述限制，本发明引入空洞卷积和多核池化操作，通过组合不同膨胀率的空洞卷积生成多种感受野，以提取不同大小目标的高级语义特征图；其次组合不同大小的接收场编码高级语义特征图，以获取多尺度的语义特征图。具体地，步骤2包括如下子步骤：

步骤2.1，采用特征编码模块提取关键帧图像的语义特征图；

所述特征编码模块的结构由多个线性整流函数卷积层、批归一化层和池化层交替组成，目的是对输入视频帧进行降维操作，获取其初步的语义特征图，其中批归一化层可以解决在训练过程中，中间层数据分布发生改变的问题，以防止梯度消失或爆炸、加快训练速度。表示为：

S_k1＝N_seg1(I_k)

其中，N_seg1()表示特征编码模块，S_k1表示关键帧图像的语义特征图。

如图3所示，所述密集空洞卷积模块的结构包括级联方式连接的四个空洞卷积分支，每个分支的空洞卷积数目逐渐增加，从1到1、2和3，每个分支的感受野分别为3、5、7、17；空洞卷积所用卷积核的空间尺寸为3x3；每个分支的最后应用一个线性整流函数卷积层，所用卷积核的空间尺寸为1x1。

上述密集空洞卷积模块改变感受野大小的同时不改变图像输出特征图的尺寸，其中小的感受野包含的特征趋向局部和细节，大的感受野可能蕴含更为全局，语义层次更高的特征。表示为：

S_k2＝N_seg2(I_k)

其中，N_seg2()表示密集空洞卷积模块，S_k2表示关键帧图像的高级语义特征图。

如图4所示，所述残差多核池化模块的结构包括级联方式连接的四个最大池化层；每个最大池化层的空间尺寸依次为2x2、3x3、4x4、5x5，步长依次为2、3、4、5；用四个不同尺寸的接收场进行编码高级语义信息，输出包含具有各种尺寸的特征映射；为了减少权重和计算成本的尺寸，我们在每个最大池化层后应用一个卷积层，所用卷积核的空间尺寸为1x1，它将特征映射的尺寸减少到原始维度的

其中N表示原始特征映射中的通道数；最后通过双线性插值法进行上采样操作并与原始特征图连接,得到与原始特征图相同大小的多尺度语义特征图。表示为：

S_k＝N_seg3(I_k)

其中，N_seg3()表示密集空洞卷积模块，S_k表示关键帧图像的多尺度语义特征图。

为了提高视频语义分割的速度，一般采用简单的光流特征传播方法，通过当前视频帧与关键视频帧之间的光流场将关键帧的语义特征图传播到当前视频帧。但是这种方法对于快速移动的对象来说容易产生较大的扭曲误差，因此本发明通过计算当前视频帧与其前一视频帧之间的光流场，在第一次空间扭曲中初步校正语义特征图；若当前视频帧为关键帧的下一帧，则仅进行一次空间扭曲，否则进行二次空间扭曲进一步校正语义特征图，具体地，步骤3包含如下子步骤：

语义分割网络大多采用CNN结构，其中间卷积特征映射保留了低级图像内容和中高级语义概念之间的空间对应关系，光流场表示视频帧中运动对象的相对位移，也及对应关系。这种对应关系提供了通过光流场的空间扭曲在附近帧之间廉价地传播特征的机会。

通常光流场的预测采用经典的FLOWNET网络，其网络结构简单，参数较少，但是预测精度较差。该网络的结构依赖于具有跳过连接的编码器-解码器结构，编码器采用9个卷积层对输入图像进行下采样，以提取输入图像的特征得到特征图，解码器采用反卷积的方式对编码器输出的特征图进行上采样。

如图5所示，本实施例采用一种迭代残差求精方案对FLOWNET网络进行改进，将前一次迭代的输出同样作为输入，只使用一个具有共享权的网络块进行迭代求精，可以在不增加参数的情况下显著提高精度。表示为：

其中，

表示当前视频帧I_i与其前一帧I_i-1之间的光流场，

表示改进后的光流预测网络，j代表迭代次数。

由步骤3.1可知，语义分割网络和光流场中均包含着运动对象的对应关系。我们可以将关键帧的语义特征通过光流场廉价地传播到当前帧。在本实施例中，通过空间扭曲函数将步骤2得到的关键帧的多尺度空间特征图与步骤3.1得到的光流场进行融合得到当前帧初步的扭曲语义特征图；表示为：

其中，W()表示空间扭曲函数，一般采用双线性插值函数，S_k是步骤2得到的关键帧的多尺度空间特征图，

是步骤3.1得到的判定为非关键帧图像的当前帧与其前一帧之间的光流场，

表示经过一次空间扭曲后得到的判定为非关键帧图像的当前帧的扭曲语义特征图。

由步骤3可知，以前的光流传播方法通常采用单一的空间扭曲，对于快速移动的对象来说，由于关键帧到当前帧之间存在一定间隔，对象特征可能会产生较大变化，单一的空间扭曲容易导致扭曲误差，因此本发明通过计算关键帧到当前帧之间的连续光流场再次对初始扭曲的空间特征应用扭曲操作以校正当前帧的特征，可用于解决快速移动对象的扭曲误差，具体地，步骤4包含如下子步骤：

步骤4.1，通过光流预测网络计算关键帧到当前帧中每一连续帧对的光流场。

步骤4.2，通过叠加空间扭曲的方式计算步骤4.1得到的光流场，得到扭曲光流场；表示为：

其中，M表示通过叠加空间扭曲得到的从关键帧到当前帧的扭曲光流场。

在计算最终扭曲光流场之后，再次对初始扭曲的空间特征应用空间扭曲操作。由于扭曲光流场聚焦于快速移动的空间对象，并进一步校正了当前帧的语义特征。在本实施例中，将双流场用于扭曲关键帧特征解决了视频中快速移动对象的扭曲误差，得到当前视频帧的扭曲语义特征图；表示为：

其中，

表示经过二次空间扭曲后得到的判定为非关键帧图像的当前帧的扭曲语义特征图。

本发明将遍历视频序列中的每一视频帧，得到每一视频帧的语义分割图，即多损伤类别的像素级别预测。由步骤2和步骤3或步骤4分别得到了关键帧的多尺度语义特征图和当前帧的扭曲语义特征图，以上特征图均包含了视频帧的语言信息。由于特征图的维度较高与输入的视频帧图像维度不匹配，因此，需要特征图进行特征解码得到和输入的视频帧图像大小相匹配的语义分割图，本实施例中特征解码的方法为通过叠加多个卷积层、批归一化层和转置卷积层的形式实现；表示为：

Semantic_n＝N_task(S_n)

其中N_task表示为特征解码运算，S_n表示视频序列第n帧的语义特征图，Semantic_n表示视频序列第n帧的语义分割结果图。

Claims

1.一种基于双重空间扭曲的航空发动机损伤视频检测方法，其特征在于，包括如下步骤；

步骤1，输入的孔探视频的序列；判断孔探视频中的关键帧：若当前帧为关键帧，则执行步骤2；若当前帧为非关键帧，则执行步骤3；

步骤2，提取当前视频帧的多尺度语义特征图；

步骤5，对步骤2得到的多尺度语义特征图和步骤3或步骤4得到的扭曲语义特征图进行特征解码，得到当前帧的语义分割图；

所述步骤2包括如下子步骤：

步骤2.1，采用特征编码模块提取关键帧图像的语义特征图；

步骤2.2，将步骤2.1得到的语义特征图送入密集空洞卷积模块，得到高层语义特征图；

步骤2.3，将步骤2.2得到的高层语义特征图送入残差多核池化模块，得到多尺度语义特征图；

所述步骤3包括如下子步骤：

步骤3.2，将步骤2得到的多尺度语义特征图与步骤3.1得到的光流场进行空间扭曲，得到扭曲语义特征图；

所述步骤4包括如下子步骤：

步骤4.2，通过叠加空间扭曲的方式计算步骤4.1得到的光流场，得到扭曲光流场；

2.根据权利要求1所述的基于双重空间扭曲的航空发动机损伤视频检测方法，其特征在于，步骤1包括如下子步骤：

3.根据权利要求1所述的基于双重空间扭曲的航空发动机损伤视频检测方法，其特征在于，步骤2.1中的所述特征编码模块的结构由多个线性整流函数卷积层、批归一化层和池化层交替组成；

步骤2.2中的所述密集空洞卷积模块的结构包括级联方式连接的四个空洞卷积分支，每个分支的空洞卷积数目逐渐增加，从1到1、2和3，每个分支的感受野分别为3、5、7、17；

空洞卷积所用卷积核的空间尺寸为3x3；每个分支的最后应用一个线性整流函数卷积层，所用卷积核的空间尺寸为1x1；

步骤2.3中的所述残差多核池化模块的结构包括级联方式连接的四个最大池化层；

每个最大池化层的空间尺寸依次为2x2、3x3、4x4、5x5，步长依次为2、3、4、5；每个最大池化层后应用一个卷积层，所用卷积核的空间尺寸为1x1；最后通过双线性插值法进行上采样操作并与原始特征图连接。

4.根据权利要求1所述的基于双重空间扭曲的航空发动机损伤视频检测方法，其特征在于，步骤3.1和步骤4.1中，所述光流预测网络的结构包括：迭代残差的编解码器网络，将前一次迭代的输出同样作为编码器的输入，编码器采用9个卷积层对融合后的输入进行下采样，以提取特征得到特征图，解码器采用反卷积的方式对编码器输出的特征图进行上采样。

5.根据权利要求4所述的基于双重空间扭曲的航空发动机损伤视频检测方法，其特征在于，所述光流预测网络中，采用迭代残差求精方案对FLOWNET网络进行改进，将前一次迭代的输出同样作为输入，只使用一个具有共享权的网络块进行迭代求精，在不增加参数的情况下显著提高精度；表示为：

其中，

表示当前视频帧I_i与其前一帧I_i-1之间的光流场，

表示改进后的光流预测网络，j代表迭代次数。

6.根据权利要求1所述的基于双重空间扭曲的航空发动机损伤视频检测方法，其特征在于，步骤5中特征解码通过叠加多个卷积层、批归一化层和转置卷积层的形式实现。