CN112668672A

CN112668672A - 基于TensorRT的目标检测模型加速方法及装置

Info

Publication number: CN112668672A
Application number: CN202110278220.0A
Authority: CN
Inventors: 武大硕; 王伟伟; 郑双午; 闫潇宁
Original assignee: Shenzhen Anruan Huishi Technology Co ltd; Shenzhen Anruan Technology Co Ltd
Current assignee: Shenzhen Anruan Huishi Technology Co ltd; Shenzhen Anruan Technology Co Ltd
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2021-04-16

Abstract

本发明实施例提供基于TensorRT的目标检测模型加速方法及装置，该方法包括以下步骤：获取初始检测图像数据集，并对所述初始检测图像数据集进行数据预处理得到目标检测的训练图像；对所述目标检测图像进行训练，提取到图像的高级特征，得到对应的目标检测模型；将目标检测模型转换为预设格式的模型，并根据预设的TensorRT引擎代码以及设定的TensorRT引擎参数构建TensorRT引擎，进而得到TensorRT加速后的目标检测模型。本发明能够在保证准确率的基础上大幅提高目标检测速度。

Description

基于TensorRT的目标检测模型加速方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及基于TensorRT的目标检测模型加速方法及装置。

背景技术

随着社会的进步与发展，各种摄像设备已经在我们的生活中得到了普及。为了加强城市、社区轨道交通安防工作的建设，从边缘监控设备获得的监控图像数据中快速得到有价值的信息，对于机关人员、安防工作者等工作人员的安防工作来说尤为重要。近年来，以人工智能技术为核心的各种智能化产品正在慢慢走进大众的视野。让人工智能技术为社会的安防工作保驾护航已是大势所趋。作为人工智能领域的重要分支，计算机视觉已经日渐成熟，尤其是基于深度学习的目标检测技术。图像的目标检测就是对图像中的目标进行定位和分类识别，利用目标检测的结果可以锁定图像中的目标，有利于工作人员对监控视频开展分析工作。但现有的目标检测方法在目标图像较多，且图像中目标较多时，检测速度跟不上，并且对目标的检测准确率也相对较低，不利于工作人员对监控视频开展分析工作。可见现有的目标检测方法存在检测速度慢的问题。

发明内容

本发明实施例提供基于TensorRT的目标检测模型加速方法，能够在保证准确率的基础上大幅提高目标检测速度。

第一方面，本发明实施例提供一种基于TensorRT的目标检测模型加速方法，该方法包括：

获取初始检测图像数据集，并对所述初始检测图像数据集进行数据预处理得到目标检测的训练图像；

基于所述训练图像对预设的神经网络模型进行训练，提取到所述训练图像的高级特征图，得到对应的目标检测模型；

将所述目标检测模型转换为预设格式的模型，并根据预设的TensorRT引擎代码以及设定的TensorRT引擎参数构建TensorRT引擎，进而得到TensorRT加速后的目标检测模型；

所述获取初始检测图像数据集，并对所述初始检测图像数据集进行数据预处理得到目标检测的训练图像的步骤包括：

获取初始检测图像数据集，并对所述初始检测图像数据集中的图像进行旋转、缩放、色域变化，并按照预设方位将图像进行组合，以得到目标组合图像；

根据计算得到的缩放比例、缩放尺寸以及黑边填充数值对缩小的目标组合图像进行黑边填充，进而得到所述目标检测的训练图像；

或者，使用双线性插值法对放大的目标组合图像进行处理，得到所述目标检测的训练图像；

所述基于所述训练图像对预设的神经网络模型进行训练，提取到训练图像的高级特征图，得到对应的目标检测模型的步骤包括：

将所述目标检测的训练图像进行切片处理得到切片特征图；

对所述切片特征图进行整合拼接得到拼接特征图；

对所述拼接特征图进行卷积处理得到卷积特征图；

对所述卷积特征图进行批归一化处理得到归一化特征图；

对所述归一化特征图进行激活函数处理得到目标特征图；

根据所述切片特征图、拼接特征图、卷积特征图、归一化特征图以及所述目标特征图对所述预设的神经网络模型进行迭代训练，提取到所述训练图像的高级特征图，得到对应的所述目标检测模型。

可选的，该方法还包括步骤：

将所述高级特征图进行向量转换，得到与所述目标检测训练图像对应的目标图像向量；

基于预设的损失函数对所述目标图像向量进行损失计算，在神经网络里不断迭代训练，以缩小预测值与真实值的差距。

可选的，所述将所述高级特征图进行向量转换，得到与所述目标检测的训练图像对应的目标图像向量的步骤包括：

基于预设的SPP结构对所述高级特征图中的特征进行多尺度最大池化，再进行拼接，得到高级特征，所述预设的SPP结构包括三组不同的池化操作；

基于预设的FPN结构对所述高级特征进行增强，以适应不同尺度缩放的目标检测；

基于预设的PAN结构对增强后的高级特征进行融合，得到对应的所述目标图像向量。

可选的，在所述将所述目标检测模型转换为预设格式的模型，并根据预设的TensorRT引擎代码以及设定的TensorRT引擎参数构建TensorRT引擎，进而得到TensorRT加速后的目标检测模型的步骤之后，该方法还包括：

通过非极大值抑制筛选出最后的结果，抑制掉重复的预测坐标框和概率小的坐标框。

第二方面，本发明实施例还提供了一种基于TensorRT的目标检测模型加速装置，该装置包括：

数据预处理模块，用于获取初始检测图像数据集，并对所述初始检测图像数据集进行数据预处理得到目标检测的训练图像；

训练模块，用于基于所述训练图像对预设的神经网络模型进行训练，提取到所述训练图像的高级特征图，得到对应的目标检测模型；

加速优化模块，用于将所述目标检测模型转换为预设格式的模型，并根据预设的TensorRT引擎代码以及设定的TensorRT引擎参数构建TensorRT引擎，进而得到TensorRT加速后的目标检测模型；

所述数据预处理模块包括：

图像组合单元，用于获取初始检测图像数据集，并对所述初始检测图像数据集中的图像进行旋转、缩放、色域变化，并按照预设方位将图像进行组合，以得到目标组合图像；

填充单元，用于根据计算得到的缩放比例、缩放尺寸以及黑边填充数值对缩小的目标组合图像进行黑边填充，进而得到所述目标检测的训练图像；

或者，插值处理单元，用于使用双线性插值法对放大的目标组合图像进行处理，得到所述目标检测的训练图像；

所述训练模块包括：

切片单元，用于将目标检测的训练图像进行切片处理得到切片特征图；

图像拼接单元，用于对切片特征图进行整合拼接得到拼接特征图；

卷积单元，用于对拼接特征图进行卷积处理得到卷积特征图；

归一化单元，用于对卷积特征图进行批归一化处理得到归一化特征图；

激活函数单元，用于对归一化特征图进行激活函数处理得到目标特征图；

训练单元，用于根据切片特征图、拼接特征图、卷积特征图、归一化特征图以及所述目标特征图对预设的神经网络模型进行迭代训练，提取到所述训练图像的高级特征图，得到对应的所述目标检测模型。

可选的，还包括：

特征增强模块，用于将所述高级特征图进行向量转换，得到与所述目标检测训练图像对应的目标图像向量；

计算模块，用于基于预设的损失函数对所述目标图像向量进行损失计算，在神经网络里不断迭代训练，以缩小预测值与真实值的差距。

可选的，所述特征增强模块包括：

高级特征拼接单元，用于基于预设的SPP结构对所述高级特征图中的特征进行多尺度最大池化，再进行拼接，得到高级特征，所述预设的SPP结构包括三组不同的池化操作；

特征增强单元，用于基于预设的FPN结构对所述高级特征进行增强，以适应不同尺度缩放的目标检测；

特征融合单元，用于基于预设的PAN结构对增强后的高级特征进行融合，得到对应的所述目标图像向量。

可选的，在所述加速优化模块之后，该基于TensorRT的目标检测模型加速装置还包括：

更新单元，用于通过非极大值抑制筛选出最后的结果，抑制掉重复的预测坐标框和概率小的坐标框。

第三方面，本发明实施例还提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例中提供的基于TensorRT的目标检测模型加速方法中的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中提供的基于TensorRT的目标检测模型加速方法中的步骤。

在本发明实施例中，通过获取初始检测图像数据集，并对初始检测图像数据集进行数据预处理得到目标检测的训练图像；基于训练图像对预设的神经网络模型进行训练，提取到所述训练图像的高级特征图，得到对应的目标检测模型；将所述目标检测模型转换为预设格式的模型，并根据预设的TensorRT引擎代码以及设定的TensorRT引擎参数构建TensorRT引擎，进而得到TensorRT加速后的目标检测模型；所述获取初始检测图像数据集，并对所述初始检测图像数据集进行数据预处理得到目标检测的训练图像的步骤包括：获取初始检测图像数据集，并对所述初始检测图像数据集中的图像进行旋转、缩放、色域变化，并按照预设方位将图像进行组合，以得到目标组合图像；根据计算得到的缩放比例、缩放尺寸以及黑边填充数值对缩小的目标组合图像进行黑边填充，进而得到所述目标检测的训练图像；或者，使用双线性插值法对放大的目标组合图像进行处理，得到所述目标检测的训练图像；所述基于所述训练图像对预设的神经网络模型进行训练，提取到训练图像的高级特征图，得到对应的目标检测模型的步骤包括：将所述目标检测的训练图像进行切片处理得到切片特征图；对所述切片特征图进行整合拼接得到拼接特征图；对所述拼接特征图进行卷积处理得到卷积特征图；对所述卷积特征图进行批归一化处理得到归一化特征图；对所述归一化特征图进行激活函数处理得到目标特征图；根据所述切片特征图、拼接特征图、卷积特征图、归一化特征图以及所述目标特征图对所述预设的神经网络模型进行迭代训练，提取到所述训练图像的高级特征图，得到对应的所述目标检测模型。这样可以从对获取到的初始检测图像数据集进行预处理，得到目标检测的训练图像，再到提取所述训练图像的高级特征图，得到对应的目标检测模型，并通过TensorRT对目标检测模型进行加速优化，使得加速后的目标检测模型的运行速度提高约5至8倍。本发明能够在保证准确率的基础上大幅提高目标检测速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于TensorRT的目标检测模型加速方法的流程图；

图2是本发明实施例提供的另一种基于TensorRT的目标检测模型加速方法的流程图；

图3是本发明实施例中步骤101提供的一种方法流程图；

图4是本发明实施例中步骤102提供的一种方法流程图；

图5是本发明实施例中步骤103提供的一种方法流程图；

图6是本发明实施例提供的一种基于TensorRT的目标检测模型加速方法的流程图；

图7是本发明实施例步骤201提供的一种方法流程图；

图8是本发明实施例提供的一种基于TensorRT的目标检测模型加速装置的结构示意图；

图9是本发明实施例提供的另一种基于TensorRT的目标检测模型加速装置的结构示意图；

图10是本发明实施例提供的另一种基于TensorRT的目标检测模型加速装置的结构示意图；

图11是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，图1是本发明实施例提供的一种基于TensorRT的目标检测模型加速方法的流程图，方法适用于神经网络模型的目标检测器中，如图1所示，该基于TensorRT（英伟达可编程推理加速器）的目标检测模型加速方法包括以下步骤：

步骤101、获取初始检测图像数据集，并对初始检测图像数据集进行数据预处理得到目标检测的训练图像。

其中，该初始检测图像数据集可以包括多张图像，在本发明实施例中，以四张图像为例进行说明。当然了，该初始检测图像数据集可以是从监控器采集到的视频流中获取得到的。初始检测图像中的每张图像均包含有目标，且，每张图片可以包含有多个目标。所说的目标可以是人体、车辆、设备等，也可以为不同应用场景中所要检测的对象目标。

具体的，如图2所示，步骤101包括：

步骤1011、获取初始检测图像数据集，并对初始检测图像数据集中的图像进行旋转、缩放、色域变化，并按照预设方位将图像进行组合，以得到目标组合图像。

步骤1012、根据计算得到的缩放比例、缩放尺寸以及黑边填充数值对缩小的目标组合图像进行黑边填充，进而得到目标检测的训练图像。

或者，步骤1013、使用双线性插值法对放大的目标组合图像进行处理，得到目标检测的训练图像。

其中，预设方位可以是左上、左下、右上和右下四宫格的形式，当然也可以是九宫格的形式，还可以是其他形式的方位设置。上述双线性插值法，又称为双线性内插。双线性插值是有两个变量的插值函数的线性插值扩展，其核心思想是在两个方向分别进行一次线性插值。

更具体的，步骤101的过程可以是制作目标检测数据集的过程。首先将获取到的初始检测图像数据集中的图像经过图像增强阶段，分别对图像进行缩放、旋转以及色域变化等图像增强操作，然后随机将N（N为大于2的整数）张图像整合为一张目标组合图像，随后进行图像缩放，对输入的目标组合图像进行随机增大/缩小50%。对于缩小的图片，需要计算缩放的比例和缩放后的尺寸，得到结果后计算出图像的黑边填充数值，并对空白部分使用黑边填充，最终会得到一张新的目标组合图像作为神经网络模型的输入。或者，对于放大的目标组合图像使用双线性插值法进行处理，得到一张新的目标组合图像。此时该新的目标组合图像则为训练图像。

示例性的，如图3所示，图3是本发明实施例中步骤101提供的一种方法流程图。将初始检测图像数据集中的四张图像进行数据预处理为例进行说明。先经过图像增强阶段，读取四张图像；分别对四张图像进行旋转、缩放以及色域变化等操作；然后分别将四张图像放置于四个方位，四个方位分别为左上、左下、右上和右下；然后进行图像组合，组合为一张图像，得到目标组合图像；在经过图像缩放阶段，图像的缩放为先计算需要的缩放比例，计算缩放尺寸，以及计算黑边填充数值；根据计算得到的缩放比例、缩放尺寸以及黑边填充数值对缩小的目标组合图像进行黑边填充，以输出缩放后固定尺寸图像，进而得到目标检测图像。最终会将该目标检测图像作为深度神经网络模型的输入图像。需要注意的是，锚框是可以进行自定义的。

步骤102、基于训练图像对预设的神经网络模型进行训练，提取到训练图像的高级特征图，得到对应的目标检测模型。

其中，预设的神经网络模型可以为没有被训练的基础的神经网络模型。

具体的，如图2所示，步骤102包括：

步骤1021、将目标检测的训练图像进行切片处理得到切片特征图。

步骤1022、对切片特征图进行整合拼接得到拼接特征图。

步骤1023、对拼接特征图进行卷积处理得到卷积特征图。

步骤1024、对卷积特征图进行批归一化处理得到归一化特征图。

步骤1025、对归一化特征图进行激活函数处理得到目标特征图。

步骤1026、根据切片特征图、拼接特征图、卷积特征图、归一化特征图以及目标特征图对预设的神经网络模型进行迭代训练，提取到训练图像的高级特征图，得到对应的目标检测模型。

更具体的，如图4所示，图4是本发明实施例中步骤102提供的一种方法流程图。首先经过一个Focus结构对目标检测的训练图像进行切片操作，然后在进行整合拼接，在经过卷积、批归一化和激活函数（Leaky_relu、Mish）的迭代训练得到高级的特征作为接下来的神经网络模型的输入，若干个CSP（Cross Stage Partial，跨阶段部分）结构构成了神经网络模型的结构，当目标特征图经过该网络后会得到高级特征图。此时的神经网络模型则为目标检测模型。

步骤103、将目标检测模型转换为预设格式的模型，并根据预设的TensorRT引擎代码以及设定的TensorRT引擎参数构建TensorRT引擎，进而得到TensorRT加速后的目标检测模型。

具体的，首先编写代码，将之前训练好的目标检测模型，转换为预设格式（如，wts格式、onnx格式等）的模型。根据之前训练好的目标检测模型的结构，使用C++语言复构目标检测模型的各个神经网络层，据此编写构建TensorRT引擎代码。编写调用使用TensorRT引擎的代码，包括如何调用TensorRT引擎去进行目标检测、设定一些TensorRT引擎相关的参数（比如，包括但不限于，输入图片的尺寸、需要检测目标的类别总数、非极大值抑制的阈值、检测置信度的阈值等等）。然后使用构建TensorRT引擎的代码，结合预设格式的模型，构建生成TensorRT引擎。使用调用TensorRT引擎的代码去调用得到的TensorRT引擎，去做目标检测，进而得到TensorRT加速后的目标检测模型。

需要说明的是，这个TensorRT引擎不是通用加速引擎，是根据我们目标检测模型生成的TensorRT引擎，专门用来做我们场景的目标检测，跟训练好的目标检测模型是一模一样的功能，只是速度会提升很多，如会提升30-70%。

更具体的，如图5所示，图5是本发明实施例中步骤103提供的一种方法流程图。将目标检测模型转换为wst格式的模型。获取预设的TensorRT引擎代码。获取设定的TensorRT引擎参数。根据wst格式的模型、预设的TensorRT引擎代码以及设定的TensorRT引擎参数构建TensorRT引擎，进而得到TensorRT加速后的目标检测模型。

在本发明一实施方式中，目标检测任务是很多视觉任务的基础任务，可以将检测的结果应用到很多个子系统中，例如行人车辆目标重识别任务以及跟踪任务。针对使用卷积神经网络方法的多任务分类模型，均可以使用本发明提供的系统对目标进行检测。

在本发明一实施方式中，如图6所示，图6是本发明实施例提供的一种基于TensorRT的目标检测模型加速方法的流程图。该方法还包括步骤：

步骤201、将高级特征图进行向量转换，得到与目标检测训练图像对应的目标图像向量。

步骤202、基于预设的损失函数对目标图像向量进行损失计算，在神经网络里不断迭代训练，以缩小预测值与真实值的差距。

具体的，步骤201包括：基于预设的SPP（spatial pyramid pooling，空间金字塔池化）结构对高级特征图中的特征进行多尺度最大池化，再进行拼接，得到高级特征，预设的SPP结构包括三组不同的池化操作。基于预设的FPN结构（Feature Pyramid Networks，特征金字塔结构）对高级特征进行增强，以适应不同尺度缩放的目标检测。基于预设的PAN（PathAggregation Network，路径聚合网络）结构对增强后的高级特征进行融合得到对应的目标图像向量。其中FPN结构是自顶向下的，将高层的特征信息通过上采样的方式进行传递融合，得到预测的特征图，传达了强语义特征，即主要用来确定目标的类别信息。PAN结构是自底向上的，通过下采样的方式进行传递融合，传达强定位特征，即主要用来确定目标在图片中所在位置。

更具体的，如图7所示，图7是本发明实施例步骤201提供的一种方法流程图。步骤201是在由预设的SPP结构和预设的FPN+PAN结构组成模块中完成的。预设的SPP由三组不同的池化操作组成（13*13、9*9和5*5），三组池化操作的输出进行拼接（concat）得到一个新的输出，然后使用特征金字塔（FPN）对特征进行增强用于不同尺度缩放的目标检测，再使用PAN结构对特征进行融合，最终得到一个1维的目标图像向量。目标图像向量包括（类别+置信度+目标的坐标位置)*3锚定框。

在步骤202中，预设的损失函数包括：二进制交叉熵以及Logits损失函数。

更具体的，通过使用GIOU Loss（Generalized Intersection over Union,广义交并比损失）作为bounding box的损失，使用二进制交叉熵和Logits损失函数计算类概率和目标得分的损失，通过计算损失来缩小预测值和真实值的差距。

在本发明一实施方式中，该方法还包括步骤：通过非极大值抑制筛选出最后的结果，抑制掉重复的预测坐标框和概率小的坐标框。

具体的，在通过步骤202计算损失来缩小预测值和真实值的差距后，经过非极大值抑制筛选出最后的结果，抑制掉重复的预测坐标框和概率小的坐标框。

在本发明另一实施方式中经过非极大值抑制筛选概率最大的预测值，然后使用Adam(Adaptive Moment Estimation，自适应矩估计)或SGD（Stochastic GradientDescent，随机梯度下降）作为梯度优化函数在训练神经网络模型的时候更新中概率最大的预测值的权重，进而更新TensorRT加速后的目标检测模型的权重。当然，更新权重后的TensorRT加速后的目标检测模型最终会对目标检测图像做出一个检测结果输出，进而得到一个预测结果。

需要说明的是，筛选最大的预测值的方法可以是对预测结果按概率由大道小排序，在根据概率大小分别进行非极大值抑制，即对交并比（IOU）大于50%的框进行两两对比，将概率小的坐标框删除，最后得到概率最大的预测值。

在本发明实施例中，通过获取初始检测图像数据集，并对初始检测图像数据集进行数据预处理得到目标检测的训练图像；基于训练图像对预设的神经网络模型进行训练，提取到训练图像的高级特征图，得到对应的目标检测模型；将目标检测模型转换为预设格式的模型，并根据预设的TensorRT引擎代码以及设定的TensorRT引擎参数构建TensorRT引擎，进而得到TensorRT加速后的目标检测模型;获取初始检测图像数据集，并对初始检测图像数据集进行数据预处理得到目标检测的训练图像的步骤包括：获取初始检测图像数据集，并对初始检测图像数据集中的图像进行旋转、缩放、色域变化，并按照预设方位将图像进行组合，以得到目标组合图像；根据计算得到的缩放比例、缩放尺寸以及黑边填充数值对缩小的目标组合图像进行黑边填充，进而得到目标检测的训练图像；或者，使用双线性插值法对放大的目标组合图像进行处理，得到目标检测的训练图像；基于训练图像对预设的神经网络模型进行训练，提取到训练图像的高级特征图，得到对应的目标检测模型的步骤包括：将目标检测的训练图像进行切片处理得到切片特征图；对切片特征图进行整合拼接得到拼接特征图；对拼接特征图进行卷积处理得到卷积特征图；对卷积特征图进行批归一化处理得到归一化特征图；对归一化特征图进行激活函数处理得到目标特征图；根据切片特征图、拼接特征图、卷积特征图、归一化特征图以及目标特征图对预设的神经网络模型进行迭代训练，提取到训练图像的高级特征图，得到对应的目标检测模型。这样可以从对获取到的初始检测图像数据集进行预处理，得到目标检测的训练图像，再到提取所述训练图像的高级特征图，得到对应的目标检测模型，并通过TensorRT对目标检测模型进行加速优化，使得加速后的目标检测模型的运行速度提高约5至8倍。本发明能够在保证准确率的基础上大幅提高目标检测速度。

在优化运行速度的同时，还极大地优化了服务器显存、带宽、内存的利用率，且目标检测的准确度在模型加速前后的损失趋近于0。且本发明检测效果良好，主要服务于各种类型的街道交通场景的监控平台。此外，整个系统基于深度学习算法，由于拥有强劲的计算力和优良的深度学习算法以及海量的数据，本发明取得了良好的且可用于实际的检测效果。

参见图8，图8是本发明实施例提供的一种基于TensorRT的目标检测模型加速装置的结构示意图，该基于TensorRT的目标检测模型加速装置300包括：

数据预处理模块301，用于获取初始检测图像数据集，并对初始检测图像数据集进行数据预处理得到目标检测的训练图像；

训练模块302，用于基于训练图像对预设的神经网络模型进行训练，提取到训练图像的高级特征图，得到对应的目标检测模型；

加速优化模块303，用于将目标检测模型转换为预设格式的模型，并根据预设的TensorRT引擎代码以及设定的TensorRT引擎参数构建TensorRT引擎，进而得到TensorRT加速后的目标检测模型；

如图9所示，数据预处理模块301包括：

图像组合单元3011，用于获取初始检测图像数据集，并对初始检测图像数据集中的图像进行旋转、缩放、色域变化，并按照预设方位将图像进行组合，以得到目标组合图像；

填充单元3012，用于根据计算得到的缩放比例、缩放尺寸以及黑边填充数值对缩小的目标组合图像进行黑边填充，进而得到目标检测的训练图像；

或者，插值处理单元3013，用于使用双线性插值法对放大的目标组合图像进行处理，得到目标检测的训练图像；

如图9所示，训练模块302包括：

切片单元3021，用于将目标检测的训练图像进行切片处理得到切片特征图；

图像拼接单元3022，用于对切片特征图进行整合拼接得到拼接特征图；

卷积单元3023，用于对拼接特征图进行卷积处理得到卷积特征图；

归一化单元3024，用于对卷积特征图进行批归一化处理得到归一化特征图；

激活函数单元3025，用于对归一化特征图进行激活函数处理得到目标特征图；

训练单元3026，用于根据切片特征图、拼接特征图、卷积特征图、归一化特征图以及目标特征图对预设的神经网络模型进行迭代训练，提取到训练图像的高级特征图，得到对应的目标检测模型。

可选的，如图10所示，该基于TensorRT的目标检测模型加速装置300还包括：

特征增强模块304，用于将高级特征图进行向量转换，得到与目标检测训练图像对应的目标图像向量；

计算模块305，用于基于预设的损失函数对目标图像向量进行损失计算，在神经网络里不断迭代训练，以缩小预测值与真实值的差距。

可选的，特征增强模块304包括：

高级特征拼接单元，用于基于预设的SPP结构对高级特征图中的特征进行多尺度最大池化，再进行拼接，得到高级特征，预设的SPP结构包括三组不同的池化操作；

特征增强单元，用于基于预设的FPN结构对高级特征进行增强，以适应不同尺度缩放的目标检测，FPN结构是自顶向下的，将高层的特征信息通过上采样的方式进行传递融合，得到预测的特征图，传达了强语义特征；

特征融合单元，用于基于预设的PAN结构对增强后的高级特征进行下采样，自底向上传达强定位特征，得到对应的目标图像向量。

可选的，加速优化模块303包括：

转换单元，用于将目标检测模型转换为TensorRT可用的wts模型文件；

构建单元，用于基于wts模型文件构建TensorRT工程；

加速优化单元，用于基于TensorRT工程对目标检测模型进行加速优化，得到TensorRT加速后的目标检测模型。

可选的，在加速优化模块303之后，该基于TensorRT的目标检测模型加速装置300还包括：

本发明实施例提供的基于TensorRT的目标检测模型加速装置300能够实现上述方法实施例中的各个实施方式，以及相应有益效果，为避免重复，这里不再赘述。

参见图11，图11是本发明实施例提供的一种电子设备的结构示意图，该电子设备4包括：存储器402、处理器401及存储在存储器402上并可在处理器401上运行的计算机程序，处理器401执行计算机程序时实现上述实施例提供的基于TensorRT的目标检测模型加速方法中的步骤，处理器401执行以下步骤：

获取初始检测图像数据集，并对初始检测图像数据集进行数据预处理得到目标检测的训练图像；

基于训练图像对预设的神经网络模型进行训练，提取到训练图像的高级特征图，得到对应的目标检测模型；

将目标检测模型转换为预设格式的模型，并根据预设的TensorRT引擎代码以及设定的TensorRT引擎参数构建TensorRT引擎，进而得到TensorRT加速后的目标检测模型；

处理器401执行的获取初始检测图像数据集，并对初始检测图像数据集进行数据预处理得到目标检测的训练图像的步骤包括：

获取初始检测图像数据集，并对初始检测图像数据集中的图像进行旋转、缩放、色域变化，并按照预设方位将图像进行组合，以得到目标组合图像；

根据计算得到的缩放比例、缩放尺寸以及黑边填充数值对缩小的目标组合图像进行黑边填充，进而得到目标检测的训练图像；

或者，使用双线性插值法对放大的目标组合图像进行处理，得到目标检测的训练图像；

处理器401执行的基于训练图像对预设的神经网络模型进行训练，提取到训练图像的高级特征图，得到对应的目标检测模型的步骤包括：

将目标检测的训练图像进行切片处理得到切片特征图；

对切片特征图进行整合拼接得到拼接特征图；

对拼接特征图进行卷积处理得到卷积特征图；

对卷积特征图进行批归一化处理得到归一化特征图；

对归一化特征图进行激活函数处理得到目标特征图；

根据切片特征图、拼接特征图、卷积特征图、归一化特征图以及目标特征图对预设的神经网络模型进行迭代训练，提取到训练图像的高级特征图，得到对应的目标检测模型。

可选的，处理器401还执行步骤：

将高级特征图进行向量转换，得到与目标检测训练图像对应的目标图像向量；

基于预设的损失函数对目标图像向量进行损失计算，在神经网络里不断迭代训练，以缩小预测值与真实值的差距。

可选的，处理器401执行的将高级特征图进行向量转换，得到与目标检测的训练图像对应的目标图像向量的步骤包括：

基于预设的SPP结构对高级特征图中的特征进行多尺度最大池化，再进行拼接，得到高级特征，预设的SPP结构包括三组不同的池化操作；

基于预设的FPN结构对高级特征进行增强，以适应不同尺度缩放的目标检测；

基于预设的PAN结构对增强后的高级特征进行融合，得到对应的目标图像向量。

可选的，处理器401在执行将目标检测模型转换为预设格式的模型，并根据预设的TensorRT引擎代码以及设定的TensorRT引擎参数构建TensorRT引擎，进而得到TensorRT加速后的目标检测模型的步骤之后，处理器401还执行：

本发明实施例提供的电子设备400能够实现上述方法实施例中的各个实施方式，以及相应有益效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现本发明实施例提供的基于TensorRT的目标检测模型加速方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存取存储器（Random Access Memory，简称RAM）等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于TensorRT的目标检测模型加速方法，其特征在于，所述方法包括以下步骤：

将所述目标检测的训练图像进行切片处理得到切片特征图；

对所述切片特征图进行整合拼接得到拼接特征图；

对所述拼接特征图进行卷积处理得到卷积特征图；

对所述卷积特征图进行批归一化处理得到归一化特征图；

对所述归一化特征图进行激活函数处理得到目标特征图；

2.如权利要求1所述的基于TensorRT的目标检测模型加速方法，其特征在于，该方法还包括步骤：

3.如权利要求2所述的基于TensorRT的目标检测模型加速方法，其特征在于，所述将所述高级特征图进行向量转换，得到与所述目标检测的训练图像对应的目标图像向量的步骤包括：

4.如权利要求2所述的基于TensorRT的目标检测模型加速方法，其特征在于，在所述将所述目标检测模型转换为预设格式的模型，并根据预设的TensorRT引擎代码以及设定的TensorRT引擎参数构建TensorRT引擎，进而得到TensorRT加速后的目标检测模型的步骤之后，该方法还包括：

5.一种基于TensorRT的目标检测模型加速装置，其特征在于，该装置包括：

所述数据预处理模块包括：

所述训练模块包括：

6.如权利要求5所述的基于TensorRT的目标检测模型加速装置，其特征在于，还包括：

7.如权利要求6所述的基于TensorRT的目标检测模型加速装置，其特征在于，所述特征增强模块包括：

8.如权利要求6所述的基于TensorRT的目标检测模型加速装置，其特征在于，在所述加速优化模块之后，该基于TensorRT的目标检测模型加速装置还包括：

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的基于TensorRT的目标检测模型加速方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的基于TensorRT的目标检测模型加速方法中的步骤。