CN114140755A

CN114140755A - 图像语义分割模型的转换方法和交通道路场景分析平台

Info

Publication number: CN114140755A
Application number: CN202210103576.5A
Authority: CN
Inventors: 张帆; 曹松; 任必为; 宋君; 陶海
Original assignee: Beijing Vion Intelligent Technology Co ltd
Current assignee: Beijing Vion Intelligent Technology Co ltd
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-03-04

Abstract

本发明提供了一种图像语义分割模型的转换方法和交通道路场景分析平台，其中，模型转换方法包括：构造基础网络并对其轻量化处理，对DeepLabV3plus网络进行算子替换后获得语义分割初始模型；在基于PyTorch的深度学习框架下训练其得到图像语义分割模型；将图像语义分割模型转换到Caffe深度学习框架下，再转换到TensorRt深度学习框架下；其中，转换至Caffe深度学习框架下后，裁剪掉形成的填充层。本发明解决了现有技术中的图像语义分割模型存在与交通道路场景分析平台部署适配性差而无法稳定发挥性能的问题；以及因具有过多的网络参数而导致模型部署到交通道路场景分析平台时会浪费大量的算力，实用性差的问题。

Description

图像语义分割模型的转换方法和交通道路场景分析平台

技术领域

本发明涉及计算机视觉图像处理技术领域，具体而言，涉及一种图像语义分割模型的转换方法和交通道路场景分析平台。

背景技术

图像语义分割是计算机视觉领域的核心研究问题之一，图像语义分割的目标是对输入图像的每个像素分配标签，即实现像素级别的物体分类任务，主通过图像语义分割模型对输入图像的像素进行预测并分类，生成语义标签，最终将图像分割为若干个具有某种特定语义含义的像素区域。

在交通道路场景中，图像语义分割技术的应用广泛，图像语义分割技术通过对可行驶区域、行人、车辆等目标进行精准分析区分，为交通道路场景下的信息感知提供了可能。

随着AI技术的不断发展，各种先进的图像语义分割模型的网络虽然拥有较强的图像分割性能，但在特定的交通道路环境场景中，拥有过新的网络结构、过先进的算子的图像语义分割模型存在与交通道路场景分析平台部署适配性差的问题，这是因为现有的图像语义分割模型的部分算子模块对于不同版本的ONNX模型格式或Caffe模型格式的支持不尽相同，从而导致现有的图像语义分割模型无法在交通道路场景分析平台中稳定地发挥性能。不仅如此，现有的图像语义分割模型具有过多的网络参数，模型部署到交通道路场景分析平台时会浪费大量的算力，存在实用性差的问题。

相关技术中，公布号为CN113689441A的发明专利申请公开了一种基于DeepLabV3plus网络的左心室超声动态分割方法，其使用弱监督的学习方式学习标注图像的特征对未进行标注的二维超声心动图中的心尖四腔切面中的左心室超声图像进行动态分割。但并未能解决本申请所要解决的现有技术中存在的上述问题。

发明内容

本发明的主要目的在于提供一种图像语义分割模型的转换方法和交通道路场景分析平台，以解决现有技术中的图像语义分割模型存在与交通道路场景分析平台部署适配性差而无法稳定发挥性能的问题；以及因具有过多的网络参数而导致模型部署到交通道路场景分析平台时会浪费大量的算力，实用性差的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种图像语义分割模型的转换方法，包括：步骤S1，构造基础网络为DeepLabV3plus+ResnetX，并对其轻量化处理后得到语义分割基础模型；步骤S2，对语义分割基础模型中的DeepLabV3plus网络进行算子替换后获得语义分割初始模型；步骤S3，利用样本图像训练集在基于PyTorch的深度学习框架下训练语义分割初始模型得到图像语义分割模型；步骤S4，将基于PyTorch的深度学习框架下的图像语义分割模型转换到Caffe深度学习框架下，再转换到TensorRt深度学习框架下，最终得到TensorRt深度学习框架下的图像语义分割模型；其中，当图像语义分割模型转换至Caffe深度学习框架下后，裁剪掉图像语义分割模型的DeepLabV3plus网络中形成的填充层再向TensorRt深度学习框架下转换。

进一步地，在步骤S4中，裁剪掉填充层的方式为：将填充层的上一层结构的输入端与填充层的下一层结构的输出端直接连接。

进一步地，步骤S2包括：步骤S21，将DeepLabV3plus网络的ASPP结构中的自适应均值池化算子替换为均值池化算子；步骤S22，将DeepLabV3plus网络的上采样算子使用的双线性差值模式计算替换为使用最邻近插值模式计算。

进一步地，在步骤S1中，对基础网络轻量化处理包括：将DeepLabV3plus网络的ASPP结构中的各卷积层的深度按预设比例值减小；和/或将DeepLabV3plus网络的底层卷积模块和ASPP结构之间的各卷积层的深度按预设比例值减小；和/或将DeepLabV3plus网络的底层卷积模块的各卷积层的深度按预设比例值减小。

进一步地，预设比例值的取值范围为[0.4，0.6]。

进一步地，将DeepLabV3plus网络的ASPP结构中的各卷积层的深度按预设比例值为0.5减小。

进一步地，DeepLabV3plus网络的底层卷积模块的层结构自上而下包括：卷积层、BN层、Relu层和卷积层。

进一步地，在步骤S4中，将基于PyTorch的深度学习框架下的图像语义分割模型转换到Caffe深度学习框架下包括：将基于PyTorch的深度学习框架下的图像语义分割模型转换到ONNX深度学习框架下，将得到的ONNX深度学习框架下的图像语义分割模型再转换到Caffe深度学习框架下。

进一步地，语义分割基础模型中的ResnetX网络为Resnet18网络、Resnet34网络、Resnet50网络、Resnet101网络和Resnet152网络中的一种。

根据本发明的另一方面，提供了一种交通道路场景分析平台，部署有图像语义分割模型，用于对交通道路场景图像进行语义分割，图像语义分割模型为使用上述的图像语义分割模型的转换方法得到的TensorRt深度学习框架的图像语义分割模型。

应用本发明的技术方案，通过对语义分割基础模型的基础网络中DeepLabV3plus网络进行轻量化处理，即减小DeepLabV3plus网络的卷积层的深度，从而达到缩减整个基础网络的网络参数的数量的目的，进而有利于节省图像语义分割模型部署到交通道路场景分析平台时的算力，提升模型的实用性。更重要的是，本发明的核心技术方案是对语义分割基础模型的基础网络中DeepLabV3plus网络的算子进行了替换，整体优化了算子模块，从而使得基础网络中的所有算子均能够支持TensorRt深度学习框架的图像语义分割模型在Caffe深度学习框架下和TensorRt深度学习框架下的转换操作，在确保图像语义分割模型保持原有性能的前提下，顺利在不同模式之间转换，进而转换模式后的图像语义分割模型与交通道路场景分析平台之间具有良好的部署适配性，确保图像语义分割模型在交通道路场景分析平台上稳定地发挥自身性能。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明的一种可选实施例的图像语义分割模型的转换方法的流程图；

图2示出了根据本发明的一种可选实施例的语义分割基础模型的基础网络为DeepLabV3plus+Resnet50的网络结构示意图；

图3示出了对图2中的语义分割基础模型的DeepLabV3plus网络进行算子替换后，得到的语义分割初始模型的网络结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例。此外，术语“包括”、“和”、“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

由于基于PyTorch的深度学习框架下的图像语义分割模型无法完整的转换到TensorRt模型，因此无法利用TensorRt的硬件加速功能提供给服务器后端进行分析和开展实际的工作。为了解决现有技术中的图像语义分割模型存在与交通道路场景分析平台部署适配性差而无法稳定发挥性能的问题；以及因具有过多的网络参数而导致模型部署到交通道路场景分析平台时会浪费大量的算力，实用性差的问题，本发明提供了一种图像语义分割模型的转换方法和交通道路场景分析平台，其中，交通道路场景分析平台用于对交通道路场景图像进行语义分割，其上部署有使用上述和下述的图像语义分割模型的转换方法得到的TensorRt深度学习框架的图像语义分割模型。

需要说明的是，本发明中提及的PyTorch本质上是支持GPU的Numpy（矩阵运算）替代，用于构建和训练深度神经网络，是一种简洁、优雅、高效的深度学习框架。任何深度学习框架都有各自优缺点。PyTorch深度学习框架的因其代码容易理解的特点被相关技术领域广为使用，方便实验复现。

ONNX是一种用于表示深度学习模型的开放格式。ONNX受到 Amazon WebServices、Microsoft、Facebook等多个方面的支持。便于使用任何选定的深度学习框架来设计、训练和部署深度学习模型，并通过ONNX这种开放格式的模型轻松的转换到另一种框架下；ONNX 模型特点是能够在深度学习框架之间便捷地转换。

Caffe是伯克利主导开发，以C++/CUDA代码为主的较早的深度学习框架，需要编译安装。支持命令行、PyTorch和Matlab接口，单机多卡、多机多卡等都可以方便的使用。

TensorRT的核心是一个C++库，它促进了对NVIDIA图形处理单元（GUP）的高性能计算。它与TensorFlow，PyTorch等深度学习框架相辅相成。可以快速高效地运行一个已经训练好的神经网络，并生成结果。它包括用于从Caffe、ONNX或TensorFlow导入现有模型的解析器，以及用于以编程方式构建模型的C++和Python api。TensorRT在所有支持的平台上提供C++实现，在X86上提供Python实现。

图1是根据本发明的一种可选实施例的图像语义分割模型的转换方法的流程图，该方法包括步骤如下：步骤S1，构造基础网络为DeepLabV3plus+ResnetX，并对其轻量化处理后得到语义分割基础模型；步骤S2，对语义分割基础模型中的DeepLabV3plus网络进行算子替换后获得语义分割初始模型；步骤S3，利用样本图像训练集在基于PyTorch的深度学习框架下训练语义分割初始模型得到图像语义分割模型；步骤S4，将基于PyTorch的深度学习框架下的图像语义分割模型转换到Caffe深度学习框架下，再转换到TensorRt深度学习框架下，最终得到TensorRt深度学习框架下的图像语义分割模型；其中，当图像语义分割模型转换至Caffe深度学习框架下后，裁剪掉图像语义分割模型的DeepLabV3plus网络中形成的填充层再向TensorRt深度学习框架下转换。

通过对语义分割基础模型的基础网络中DeepLabV3plus网络进行轻量化处理，即减小DeepLabV3plus网络的卷积层的深度，从而达到缩减整个基础网络的网络参数的数量的目的，进而有利于节省图像语义分割模型部署到交通道路场景分析平台时的算力，提升模型的实用性。更重要的是，本发明的核心技术方案是对语义分割基础模型的基础网络中DeepLabV3plus网络的算子进行了替换，整体优化了算子模块，从而使得基础网络中的所有算子均能够支持TensorRt深度学习框架的图像语义分割模型在Caffe深度学习框架下和TensorRt深度学习框架下的转换操作，在确保图像语义分割模型保持原有性能的前提下，顺利在不同模式之间转换，进而转换模式后的图像语义分割模型与交通道路场景分析平台之间具有良好的部署适配性，确保图像语义分割模型在交通道路场景分析平台上稳定地发挥自身性能。

需要解释的是，图像语义分割模型的神经网络训练之后，TensorRT使神经网络能够被压缩、优化并作为运行时部署，而不需要深度学习框架的开销。TensorRT结合了多个层，优化内核选择，并根据指定的精度（FP32、FP16或INT8）执行规范化和转换，以优化矩阵计算，从而提高延迟、吞吐量和效率。TensorRT通过将API与特定硬件细节的高级抽象以及专门针对高吞吐量、低延迟和低设备内存占用计算而将开发和优化的实现相结合。

在本发明的具体实施例中，步骤S2包括：步骤S21，将DeepLabV3plus网络的ASPP结构中的自适应均值池化算子替换为均值池化算子；以及步骤S22，将DeepLabV3plus网络的上采样算子使用的双线性差值模式计算替换为使用最邻近插值模式计算。

如图2和图3所示，图3相较于图2，在基础网络的DeepLabV3plus网络的ASPP结构中，使用均值池化算子代替自适应均值池化算子，这样即有利于模型转换，还不会造成对输入出现处理结果的像素损失；同时考虑到上采样模块在模型转换过程中不支持双线性插值，对于上采样算子，使用双线性插值模式计算替代为使用最邻近插值模式计算，这样保证了DeepLabV3plus网络中的所有算子均支持基于PyTorch的深度学习框架下的图像语义分割模型在Caffe深度学习框架和TensorRT深度学习框架下的转换操作，打通图像语义分割模型转换的整个过程，且保持图像语义分割模型原有的对输入图像的处理功能特性不变，有利于交通道路场景分析平台上的顺利加载部署。

需要说明的是，在本发明的优选实施例中，如图2和图3所示，图像语义分割模型的基础网络中有三个位置处的双线性插值模式计算的上采样算子需要替换为使用最邻近插值模式计算，其中一个位置在DeepLabV3plus网络的ASPP结构中，另两个位置分别在DeepLabV3plus网络的ASPP结构与底层卷积模块之间，以及在底层卷积模块之后；这样才能保证基于PyTorch的深度学习框架下的图像语义分割模型进行顺利转化。

在一个可选实施例中，如图1所示，在步骤S4中，将基于PyTorch的深度学习框架下的图像语义分割模型转换到Caffe深度学习框架下包括：将基于PyTorch的深度学习框架下的图像语义分割模型转换到ONNX深度学习框架下，将得到的ONNX深度学习框架下的图像语义分割模型再转换到Caffe深度学习框架下。这样可以满足将基于PyTorch的深度学习框架下的图像语义分割模型顺利转换到ONNX深度学习框架下，从而便于交通道路场景分析平台成功部署ONNX深度学习框架下的图像语义分割模型。

还需要补充的是，利用本发明的技术方案转换到Caffe深度学习框架下的图像语义分割模型能够被部署到包括交通道路场景分析平台的多种平台架构中。

需要重点说明的是，在使用本发明的图像语义分割模型的转换方法时，在步骤S4中，裁剪掉填充层的方式为：将填充层的上一层结构的输入端与填充层（Pad层）的下一层结构的输出端直接连接。这是因为，DeepLabV3plus网络中形成的填充层在对输入图像处理中无实际功能作用，会阻碍转换到TensorRt深度学习框架下的图像语义分割模型的正常使用，上述问题利用本技术方案可以得到完全解决，保证了图像语义分割模型的结构统一，从而有利于后期的正常使用。

本发明的技术方案适用的优选模型转换方案为，PyTorch深度学习框架转换版本在ONNX v3版本（IR version0.0.3，opset_version=6），Caffe 1.0版本以及TensorRt5.1.5版本之间。

图像语义分割模型的网络中过多的网络参数在实际的参数运算过程中会浪费大量不必要的计算资源，削弱了模型在实际应用过程中的实用性和实时性。进而，在步骤S1中，对基础网络轻量化处理包括：将DeepLabV3plus网络的ASPP结构中的各卷积层的深度按预设比例值减小；和/或将DeepLabV3plus网络的底层卷积模块和ASPP结构之间的各卷积层的深度按预设比例值减小；和/或将DeepLabV3plus网络的底层卷积模块的各卷积层的深度按预设比例值减小。预设比例值的取值范围为[0.4，0.6]。

在本发明的优选实施例中，将DeepLabV3plus网络的ASPP结构中的各卷积层的深度按预设比例值为0.5减小。即对ASPP结构中的各卷积层的深度进行减半处理，这样ASPP结构后的卷积层（底层卷积模块中的卷积层深度不变）为了配合会进行形同改变，既不会影响图像语义分割模型的正常功能，同时降低了图像语义分割模型在参数运算中的算力需求，提升了图像语义分割模型的实用性。具体地，本发明的DeepLabV3plus网络的ASPP结构中卷积层的原有深度设置为256，减小至128。

如图2和图3所示，本发明中，图像语义分割模型的DeepLabV3plus网络的底层卷积模块的层结构自上而下包括：卷积层、BN层、Relu层和卷积层。

可选地，其特征在于，语义分割基础模型中的ResnetX网络为Resnet18网络、Resnet34网络、Resnet50网络、Resnet101网络和Resnet152网络中的一种。本发明的优选实施例中，语义分割基础模型中的ResnetX网络为Resnet50网络。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.图像语义分割模型的转换方法，其特征在于，包括：

步骤S1，构造基础网络为DeepLabV3plus+ResnetX，并对其轻量化处理后得到语义分割基础模型；

步骤S2，对所述语义分割基础模型中的DeepLabV3plus网络进行算子替换后获得语义分割初始模型；

步骤S3，利用样本图像训练集在基于PyTorch的深度学习框架下训练所述语义分割初始模型得到图像语义分割模型；

步骤S4，将基于PyTorch的深度学习框架下的图像语义分割模型转换到Caffe深度学习框架下，再转换到TensorRt深度学习框架下，最终得到TensorRt深度学习框架下的图像语义分割模型；其中，当图像语义分割模型转换至所述Caffe深度学习框架下后，裁剪掉图像语义分割模型的DeepLabV3plus网络中形成的填充层再向所述TensorRt深度学习框架下转换。

2.根据权利要求1所述的图像语义分割模型的转换方法，其特征在于，在所述步骤S4中，裁剪掉所述填充层的方式为：将所述填充层的上一层结构的输入端与所述填充层的下一层结构的输出端直接连接。

3.根据权利要求1所述的图像语义分割模型的转换方法，其特征在于，所述步骤S2包括：

步骤S21，将所述DeepLabV3plus网络的ASPP结构中的自适应均值池化算子替换为均值池化算子；

步骤S22，将所述DeepLabV3plus网络的上采样算子使用的双线性差值模式计算替换为使用最邻近插值模式计算。

4.根据权利要求1所述的图像语义分割模型的转换方法，其特征在于，在所述步骤S1中，对所述基础网络轻量化处理包括：

将所述DeepLabV3plus网络的ASPP结构中的各卷积层的深度按预设比例值减小；和/或

将所述DeepLabV3plus网络的底层卷积模块和所述ASPP结构之间的各卷积层的深度按所述预设比例值减小；和/或

将所述DeepLabV3plus网络的底层卷积模块的各卷积层的深度按所述预设比例值减小。

5.根据权利要求4所述的图像语义分割模型的转换方法，其特征在于，所述预设比例值的取值范围为[0.4，0.6]。

6.根据权利要求5所述的图像语义分割模型的转换方法，其特征在于，将所述DeepLabV3plus网络的ASPP结构中的各卷积层的深度按预设比例值为0.5减小。

7.根据权利要求4所述的图像语义分割模型的转换方法，其特征在于，所述DeepLabV3plus网络的底层卷积模块的层结构自上而下包括：卷积层、BN层、Relu层和卷积层。

8.根据权利要求1所述的图像语义分割模型的转换方法，其特征在于，在所述步骤S4中，将基于PyTorch的深度学习框架下的图像语义分割模型转换到Caffe深度学习框架下包括：将所述基于PyTorch的深度学习框架下的图像语义分割模型转换到ONNX深度学习框架下，将得到的所述ONNX深度学习框架下的图像语义分割模型再转换到所述Caffe深度学习框架下。

9.根据权利要求1所述的图像语义分割模型的转换方法，其特征在于，所述语义分割基础模型中的ResnetX网络为Resnet18网络、Resnet34网络、Resnet50网络、Resnet101网络和Resnet152网络中的一种。

10.交通道路场景分析平台，其特征在于，部署有图像语义分割模型，用于对交通道路场景图像进行语义分割，所述图像语义分割模型为使用权利要求1至9中任一项所述图像语义分割模型的转换方法得到的TensorRt深度学习框架的图像语义分割模型。