CN109919051A

CN109919051A - 一种用于视频图像处理的卷积神经网络加速方法

Info

Publication number: CN109919051A
Application number: CN201910131936.0A
Authority: CN
Inventors: 黄禹尧; 熊璐; 邓振文; 张培志; 曾德全; 严森炜
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-02-22
Filing date: 2019-02-22
Publication date: 2019-06-21

Abstract

本发明涉及一种用于视频图像处理的卷积神经网络加速方法，包括以下步骤：S1：将用于视频图像处理的整个卷积神经网络分为第一阶段和第二阶段，第一阶段包括但不限于两个具有相同输入、计算量不同的子网络，将计算量较小的子网络作为快路径，将计算量较大的子网络作为慢路径；S2：令两条路径异步执行，并对快、慢路径进行视频处理的特征图进行更新；S3：通过包括但不限于拼接、求和、全连接等融合方式将两条路径的特征图进行融合，将融合的输出作为第二阶段的输入；S4：根据最终目标问题设计第二阶段模型，组成完整的网络模型，并对模型进行训练和部署。与现有技术相比，本发明具有加快神经网络的运行速度的同时保证精度的优点。

Description

一种用于视频图像处理的卷积神经网络加速方法

技术领域

本发明涉及计算机视觉技术领域，尤其是涉及一种用于视频图像处理的卷积神经网络加速方法。

背景技术

卷积神经网络(Convolutional Neural Network，CNN)是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。通常，参数量越多的卷积神经网络具有越强的学习能力，但其计算速度相应地变慢，大量的网络由于计算速度的限制，无法应用到对实时性要求较高的应用场合，如无人驾驶汽车。

基于表达变换的语义视频分割技术(NetWarp)，通过在网络中融合了视频帧间的光流等运动信息，提升了对标网络的语义分割精度。该方法将上一帧的神经网络的特征层表达经过变换与当前帧特征层的对应位置融合，只是简单的堆叠，且大多只有一条更新速率恒定的单一路径，主要目的是提升网络精度，但计算量较大且网络的运行速度较慢。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种用于视频图像处理的卷积神经网络加速方法。

本发明的目的可以通过以下技术方案来实现：

一种用于视频图像处理的卷积神经网络加速方法，包括以下步骤：

(一)、将用于视频图像处理的整个卷积神经网络分为用以编码视觉特征的第一阶段和用以解码特征获取输出的第二阶段，第一阶段包括但不限于两个具有相同输入、计算量不同的子网络，将计算量较小的子网络作为快路径，将计算量较大的子网络作为慢路径；

(二)、令两条路径异步执行，并对快、慢路径进行视频处理的特征图进行更新；

(三)、通过融合方式将两条路径输出的特征图进行融合，将融合的输出作为第二阶段的输入；

(四)、根据最终目标问题设计第二阶段模型，组成完整的网络模型，并对模型进行训练，完成最终的网络加速。

本发明方法提供了一种利用双路径异步执行的卷积神经网络加速结构，该结构为两阶段的划分方式，第一阶段用于编码视觉特征，第二阶段则用于解码特征以获得理想的输出。第二阶段的具体形式因需要解决问题的不同而不同，可以采用任何一种学习方法，例如目标分类、语义分割或目标检测。第一阶段包含具有相同输入但计算量具有显著区别的两条计算路径(快路径、慢路径)，两条路径异步执行，并通过一种融合方式进行融合，融合的输出作为第二阶段的输入。融合方式包括但不限于拼接方式、求和方式、全连接方式等。

优选地，在第一阶段中，使用的融合方式除快慢路径外，还可包括额外的输入信息，如快慢路径的两帧输入图像。融合方式包含额外的输入信息，即快慢两路径的输入图像，并利用这两张图像进行光流计算，得出慢路径所需要实现的几何变换过程，作用到慢路径。

第一阶段中融合的步骤包括：

(1)计算快慢两路径输入帧之间的光流信息；

(2)通过光流信息计算出两帧间的几何变换；

(3)对慢路径应用几何变换；

(4)将慢路径的特征层与快路径的特征层相连接。

优选地，因快路径与慢路径的处理速度不同，第一阶段中快路径通过卷积神经网络进行视频处理使用的输入除当前帧的图像外，快路径包含额外的输入信息，如慢路径的输入图像，以及两张图像的差，通过快路径的卷积之后，与经过处理后的慢路径融合起来，可显式地为第二阶段的网络关注两帧图像的差异部分提供条件。

可选地，快、慢路径之间的速度比率设计为整数倍，并辅以一定倍率的同步措施，使加速方法具有最稳定的性能。

可选地，基于本发明的模型，采用以下步骤进行训练：

(1)训练慢路径，在慢路径后设计替代模型，并进行预训练，在训练完成后，丢弃替代模型部分的参数；

(2)使用带有连续帧的视频数据，采用临近帧的视频组成图像对分别作为快、慢路径的输入数据，真值以输入快路径的帧对应的真值为准，构造联合训练数据集；

(3)设计最终目标问题的第二阶段模型，组成完整的网络结构，可选地固定慢路径中的参数，进行迁移学习训练。

与现有技术相比，本发明具有以下优点：

一、与现有技术第一阶段为更新速率恒定的单一路径相比，本发明方法中，快路径可以快速更新神经网络的细微输出，并着重关注视频帧间变化的部分；慢路径可以提取出极为抽象的图像特征，两条路径互相补充，可以实现精度和速度的平衡；利用帧间信息去除冗余计算，减少了不必要的计算，加快了神经网络的运行速度，同时可保证较好的精度。

二、本发明可以针对慢路径应用多种预训练数据集进行训练，提升其特征表达能力；同时，训练快速路径时，则可以使用对特征丰富程度要求较低的视频数据进行训练，并且给出了数据集的制作方法；

三、本发明中所提供的融合方式包含额外的输入信息，即快慢两路径的输入图像，并利用这两张图像进行光流计算，得出慢路径所需要实现的几何变换过程，作用到慢路径，可显式地限定融合方法对慢路径的语义信息进行精确的变换。

附图说明

图1为本发明方法的流程示意图；

图2为本发明的双路径卷积神经网络的结构拓扑图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

车道线检测是智能驾驶先进传感技术中关键的一项，为了实现对外界环境鲁棒的车道线检测，往往需要借助卷积神经网络强大的特征表达功能，但这样一来，又受限于卷积神经网络所需要的大量的计算性能，尤其是车载嵌入式设备，对计算量的要求更为苛刻。因此，可以套用本发明，以语义分割为基础网络，实现实时性较高的车道线检测神经网络，如图2所示。

本发明涉及一种用于视频图像处理的卷积神经网络加速方法，该方法基于双路径卷积神经网络加速结构，该结构的各部分包括：

(一)整个网络可以分为第一阶段和第二阶段两个阶段；该结构符合一种通用的两阶段的划分方式，第一阶段用于编码视觉特征，第二阶段则用于解码特征以获得理想的输出。

其中，第二阶段的具体形式因需要解决问题的不同而不同，本专利所声明的方法均可以适用(达到加速效果)，因此不予以限制。第一阶段中，则包含具有相同输入但计算量具有显著区别的两条计算路径(快路径、慢路径)，两条路径必须能够异步执行，并通过一种融合方式进行融合，融合的输出作为第二阶段的输入。

对于语义分割网络来说，又可分别称为编码器和解码器，前者是指视觉特征的编码提取，而后者是指像素级分类，对于不同的其它网络，也可能有其它称呼方法。

(二)第一阶段的网络包含但不限于两个具有相同输入但计算量具有显著区别的子网络，分别称为快、慢两条路径，两条路径必须能够异步执行，并通过一种融合方式进行融合，融合的输出作为第二阶段的输入；此实施例中的慢路径，可以是单独预训练的语义分割网络的较深的编码器；而快路径，既可以是一个浅的编码器，也可以直接对两帧之间的变化做一些编码；此处的融合方式，可以对慢路径的输出进行光流变换，再与快路径相连接。

(三)第二阶段此时为一个普通的语义分割解码器。

第一阶段中的各部分网络可包括额外的输入信息：

(1)使用的融合方式除快慢路径外，还可包括额外的输入信息，如快慢路径的两帧输入图像；例如使用FlowNet进行光流计算，再使用NetWarp的部分技术对慢路径进行变换。

(2)快路径除当前帧的图像外，还可包括额外的输入信息，如慢路径对应帧的输入图像；例如对两帧之间的差直接进行卷积。

第一阶段中融合方式的步骤包括：

S1：计算快慢两路径输入帧之间的光流信息；可以采用不同的计算方法，有基于CPU的计算方法，也有使用神经网络的方法，如FlowNet。

S2：通过光流信息计算出两帧间的几何变换；可以通过光流信息计算出每个像素的位移大小和方向，进一步推导出几何变换。

S3：对慢路径应用几何变换；使得慢路径中的各像素语义信息变换到新的位置，省去了重新计算新一帧的语义信息。

S4：与快路径的特征层相连接；使用快路径加强对边界位置判断的精确度。

本实施例在训练完成后，装车运行时，所对应的神经网络加速方法：

1、使用两个阶段所构成的模型，必须能异步地执行两条路径，使得快路径的更新频率高于慢路径的更新频率，从而网络的整体更新频率决定于快路径的更新频率；在实施时，可以使用双核以上的CPU对程序进行控制，并将慢路径计算出的结果存储在GPU的显存中，每次快路径需要融合时，就从显存中取出最近的一次慢路径特征图。由于双核是异步独立执行的，慢路径的更新频率不影响快路径的更新频率，因此得以加速。

2、快慢路径之间的速度比率通常设计为整数倍，可选地辅以一定的同步措施，则加速方法具有更稳定的性能。由于存在显存部分的数据共享，两个独立进程之间也需要一定的同步机制，以避免读写竞争；更进一步，如果事先以知慢路径和网络剩余部分更新频率之比值，可以设计较为固定的更新周期，以更有效地利用CPU时间片完成附加任务。

上述模型的加速网络的训练方法包括以下步骤：

步骤一、首先训练慢路径，此时，需要在慢路径后设计替代模型，并进行预训练，在训练完成后，丢弃替代模型部分的参数；慢路径的单独训练，一方面是因为共同训练难以收敛，另一方面，可以利用更多的预训练模型，以保证慢路径的编码效果；对于车道线任务，可以在cityscapes等数据集上进行预训练，对于最终的训练是非常有帮助的。

步骤二、使用带有连续帧的视频数据，采用临近帧的视频组成图像对分别作为快慢路径的输入数据，而真值以输入快路径的帧对应的真值为准，构造联合训练数据集；为了在训练时模拟实车效果，需要在慢路径中输入带有较大时延的帧，而在快路径中输入带有较小时延的帧，在视频中截取这样的帧是非常容易的，但同时要注意，输出的真值则应该使用快路径所对应的真值，才能真正学到正确的融合方法。

步骤三、选用FCN8s中的跳层结构作为车道线分割问题的第二阶段模型，组成完整的网络结构，并固定慢路径中的参数，在新的车道线分割数据集上进行迁移学习训练，此时训练出的网络，就具有了加速的车道线分割性能。

本发明中快路径可以快速更新神经网络的细微输出，并着重关注视频帧间变化的部分；慢路径可以提取出极为抽象的图像特征，两条路径互相补充，可以实现精度和速度的平衡；利用帧间信息去除冗余计算，减少了不必要的计算，加快了神经网络的运行速度，同时可保证较好的精度。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于视频图像处理的卷积神经网络加速方法，其特征在于，包括以下步骤：

S1：将用于视频图像处理的整个卷积神经网络分为用以编码视觉特征的第一阶段和用以解码特征获取输出的第二阶段，第一阶段包括但不限于两个具有相同输入、计算量不同的子网络，将计算量较小的子网络作为快路径，将计算量较大的子网络作为慢路径；

S2：令两条路径异步执行，并对快、慢路径通过卷积神经网络进行视频处理的特征图进行更新；

S3：通过融合方式将快、慢两条路径输出的特征图进行融合，将融合的输出作为第二阶段的输入；

S4：根据最终目标问题设计第二阶段模型，组成完整的网络模型，并对模型进行训练和部署。

2.根据权利要求1所述的一种用于视频图像处理的卷积神经网络加速方法，其特征在于，第一阶段中各部分网络于融合的输入信息还包括额外的输入信息。

3.根据权利要求2所述的一种用于视频图像处理的卷积神经网络加速方法，其特征在于，额外的输入信息包括快、慢路径的两帧输入图像。

4.根据权利要求1所述的一种用于视频图像处理的卷积神经网络加速方法，其特征在于，第一阶段中快路径通过卷积神经网络进行视频处理的输入包括快路径当前帧图像。

5.根据权利要求1所述的一种用于视频图像处理的卷积神经网络加速方法，其特征在于，第一阶段中快路径通过卷积神经网络进行视频处理的输入包括快路径当前帧图像及慢路径对应帧的输入图像。

6.根据权利要求1所述的一种用于视频图像处理的卷积神经网络加速方法，其特征在于，所述的融合方式包括拼接方式、求和方式、全连接方式。

7.根据权利要求1所述的一种用于视频图像处理的卷积神经网络加速方法，其特征在于，步骤S2中，对快、慢路径进行视频处理的特征图进行更新的具体内容包括：

频率更新：令两条路径异步执行，使快路径的更新频率高于慢路径的更新频率；

速度更新：将快、慢路径之间的速度比率设为整数倍。

8.根据权利要求5所述的一种用于视频图像处理的卷积神经网络加速方法，其特征在于，步骤S3中，融合方式包括以下步骤：

201)计算快、慢两路径的输入帧之间的光流信息；

202)通过光流信息计算出两帧间的几何变换；

203)对慢路径应用几何变换，获取特征层；

204)将慢路径的特征层与快路径的特征层相连接，获取融合结果。

9.根据权利要求8所述的一种用于视频图像处理的卷积神经网络加速方法，其特征在于，步骤S4)中，对模型进行训练的具体内容包括：

1)训练慢路径，在慢路径后设计替代模型，并对替代模型进行预训练，训练完成后，丢弃替代模型部分的参数；

2)采用带有连续帧的视频数据作为快路径的输入数据，采用临近帧的视频组成图像作为慢路径的输入数据，真值以输入快路径的帧对应的真值为准，构造联合训练数据集；

3)根据最终目标问题设计第二阶段模型，组成完整的网络结构，确定慢路径中的参数，进行迁移学习训练。