CN109063574B

CN109063574B - 一种基于深度神经网络检测的包络框的预测方法、系统及设备

Info

Publication number: CN109063574B
Application number: CN201810730065.XA
Authority: CN
Inventors: 李海峰; 宋翔; 郭明坚
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd
Priority date: 2018-07-05
Filing date: 2018-07-05
Publication date: 2021-04-23
Anticipated expiration: 2038-07-05
Also published as: CN109063574A

Abstract

本发明公开了一种基于深度神经网络检测的包络框的预测方法、系统及设备。基于深度神经网络检测目标物体，获取所述目标物体的包络框的信息；设置感兴趣区域，计算所述目标物体的包络框与所述感兴趣区域的第一交并比；过滤小于第一阈值的所述第一交并比，并输出符合条件的所述目标物体的包络框的信息；根据三个以上视频帧的目标物体的包络框信息，通过加权线性回归法预测包络框的信息。此方法提高了系统预测的准确度和可信度，补足了神经网络在训练样本时因使用强约束条件加强判断时丢失的包络框的数据，增强了物体轨迹的完整性。

Description

一种基于深度神经网络检测的包络框的预测方法、系统及设备

技术领域

本发明涉及物流技术领域，尤其涉及基于深度神经网络检测的包络框的预测方法、系统及设备。

背景技术

随着监控网络的发展，大量深度学习方法被用在视频及语音的提取上，其中典型的技术是通过深度神经网络对各类物体的检测。

物流行业大量地使用监控技术来跟踪货物的走向，而基于深度学习方法来检测物体并跟踪物体轨迹是使用比较广泛的一种技术。物流行业对货物的类别和位置的准确度要求较高，但如果通过在深度学习过程中使用数据增广的样本技术，会产生大量误检，所以一般会使用强约束条件(一般通过神经网络检测物体时，即使物体不完整也会被检测到，这里的强约束条件是指通过设置神经网络，使其只能检测出相对完整的物体)来加强判断的正确性，虽然减少了误检，但却会出现丢失目标的情况。

现有技术使用的解决方法是：检测到足够的物体包络框后再对缺失的包络框进行插值。这个方法的缺点是：1)在实时系统中，对消息的实时性要求极高，而进行回归时需要足够的预测值，这样会加大系统的延迟，即在检测到物体的包络框后，不能及时返回数据，因为需要缓存足够帧的物体包络框信息；2)插值缺失的帧时，如果要以这些帧来获取实时画面，那么这些帧也要被缓存，这需要占用计算机大量的内存空间，造成成本上升。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种基于深度神经网络检测的包络框的预测方法、系统及设备。

根据本发明的一个方面，提供了一种基于深度神经网络检测的包络框的预测方法，包括步骤：

S1、基于深度神经网络检测视频帧中的目标物体，获取所述目标物体的包络框的信息；设置感兴趣区域，计算所述目标物体的包络框与所述感兴趣区域的第一交并比；

S2、过滤小于第一阈值的所述第一交并比，并输出符合条件的所述目标物体的包络框的信息；

S3、根据三个以上视频帧的目标物体的包络框信息，通过加权线性回归法预测包络框的信息。

进一步的，所述包络框的信息包括所述包络框的帧号和/或坐标。

进一步的，滤波装置接收所述包络框的信息，若所述滤波装置对所述信息有记忆，则输出所述信息；若否，则对所述信息进行加权线性回归法预测，并判断经过预测后的信息是否符合预设条件，若是，则输出所述预测后的信息。

进一步的，所述预设条件包括，所述感兴趣区域与预测后的包络框的第二交并比大于/等于第一阈值或包络框的帧号等于/小于第二阈值。

进一步的，所述加权线性回归法依据的公式包括：

Wi＝0.2+(2.0-0.2)/(N-1)*i，

所述Wi为权值；所述N为滤波装置中记忆点总数，是自然数；所述i为小于N的自然数。

进一步的，所述滤波装置包括若干个线性滤波器，输入所述线性滤波器的信息包括包络框的帧号和坐标。

根据本发明的另一个方面，提供了一种基于深度神经网络检测的包络框的预测系统，包括：

第一信息处理单元，配置用于基于深度神经网络检测视频帧中的目标物体，获取所述目标物体的包络框的信息；设置感兴趣区域，计算所述目标物体的包络框与所述感兴趣区域的第一交并比；

第二信息处理单元，配置用于过滤小于第一阈值的所述第一交并比，并输出符合条件的所述目标物体的包络框的信息；

包络框信息预测单元，配置用于根据三个以上视频帧的目标物体的包络框信息，通过加权线性回归法预测包络框的信息。

进一步的，第一信息处理单元、第二信息处理单元及包络框信息预测单元，配置用于设置所述包络框的信息包括所述包络框的帧号和/或坐标。

进一步的，包络框信息预测单元，还配置用于通过滤波装置接收所述包络框的信息，若所述滤波装置对所述信息有记忆，则输出所述信息；若否，则对所述信息进行加权线性回归法预测，并判断经过预测后的信息是否符合预设条件，若是，则输出所述预测后的信息。

进一步的，包络框信息预测单元，还配置用于设置所述预设条件包括，所述感兴趣区域与预测后的包络框的第二交并比大于/等于第一阈值或包络框的帧号等于/小于第二阈值。

进一步的，包络框信息预测单元，还配置用于预测所述包络框的信息依据的所述加权线性回归法的公式包括：

Wi＝0.2+(2.0-0.2)/(N-1)*i，

进一步的，包络框信息预测单元，还配置用于所述滤波装置包括若干个线性滤波器。

进一步的，包络框信息预测单元，还配置用于所述滤波装置包括四个线性滤波器，输入所述线性滤波器的信息包括包络框的帧号和坐标。

根据本发明的另一个方面，提供了一种设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如上任一项所述的方法。

根据本发明的另一个方面，提供了一种存储有计算机程序的计算机可读存储介质，该程序被处理器执行时实现如上任一项所述的方法。

与现有技术相比，本发明具有以下有益效果：

1、本发明示例的基于深度神经网络检测的包络框的预测方法，基于深度神经网络检测视频帧中的目标物体，获取所述目标物体的包络框的信息；设置感兴趣区域，计算所述目标物体的包络框与所述感兴趣区域的第一交并比；过滤小于第一阈值的所述第一交并比，并输出符合条件的所述目标物体的包络框的信息；根据三个以上视频帧的目标物体的包络框信息，通过加权线性回归法预测包络框的信息。本实施例示例的基于深度神经网络检测的包络框的预测方法，通过过滤掉小于第一交并比的包络框的信息，根据三个以上视频帧的目标物体的包络框信息，通过加权线性回归法预测缺失的包络框的信息，可以补足因神经网络训练样本的强约束条件而丢失的包络框，极大的增强了物体轨迹的完整性；通过使用滤波装置进行预测同时判断预测的信息是否符合条件，提高了预测包络框信息的准确性；通过设置预设条件，即通过第二交并比与第一阈值的对比，确定物体的包络框是否有效，同时通过设置第二阈值，过滤掉非目标物体，提高预测的准确性；在线性滤波器中使用加权线性回归法对目标物体包络框的坐标进行预测，极大地提高了准确度和可信度；通过把线性滤波器输出的数据反转换成物体的包络框的数据，补足了丢失的关于物体包络框的数据，增强了物体轨迹的完整性。

2、本发明示例的基于深度神经网络检测的包络框的预测系统，第一信息处理单元，配置用于基于深度神经网络检测视频帧中的目标物体，获取所述目标物体的包络框的信息；设置感兴趣区域，计算所述目标物体的包络框与所述感兴趣区域的第一交并比；第二信息处理单元，配置用于过滤小于第一阈值的所述第一交并比，并输出符合条件的所述目标物体的包络框的信息；包络框信息预测单元，配置用于根据三个以上视频帧的目标物体的包络框信息，通过加权线性回归法预测包络框的未来信息。本实施例示例的基于深度神经网络检测的包络框的预测系统，第二信息处理单元，配置用于通过过滤掉小于第一交并比的包络框的信息，以及包络框信息预测单元，配置用于根据三个以上视频帧的目标物体的包络框信息，通过加权线性回归法预测缺失的包络框的信息，可以补足因神经网络训练样本的强约束条件而丢失的包络框，极大的增强了物体轨迹的完整性；包络框信息预测单元，配置用于通过使用滤波装置进行预测同时判断预测的信息是否符合条件，提高了预测包络框信息的准确性；包络框信息预测单元，还配置用于通过设置预设条件，即通过第二交并比与第一阈值的对比，确定物体的包络框是否有效，同时通过设置第二阈值，过滤掉非目标物体，提高预测的准确性；在线性滤波器中使用加权线性回归法对目标物体包络框的坐标进行预测，极大地提高了准确度和可信度；包络框信息预测单元，还配置用于通过把线性滤波器输出的数据反转换成物体的包络框的数据，补足了丢失的关于物体包络框的数据，增强了物体轨迹的完整性。

3、本发明示例的基于深度神经网络检测的包络框的预测设备、通过存储有计算机程序的计算机可读介质,所述程序被运行用于补足在对神经网络训练样本时，因使用强约束条件加强判断时而丢失的关于物体包络框的数据，增强了物体轨迹的完整性。

附图说明

图1为本发明流程图。

具体实施方式

为了更好的了解本发明的技术方案，下面结合具体实施例、说明书附图对本发明作进一步说明。

本实施例提供了一种基于深度神经网络检测的包络框的预测方法，包括步骤：

S1、基于深度神经网络检测目标物体，获取所述目标物体的包络框的信息；设置感兴趣区域，计算所述目标物体的包络框与所述感兴趣区域的第一交并比(IoU，intersection-over-union)；

进一步的，将检测到的包含目标物体的视频图像的宽高归一化到(0，1)，后面所使用的数据均为归一化后的数据，有了归一化的统一标准后，使算法设计的数据跟视频画面的宽高无关。因为在机器学习领域中，在进行数据分析之前，通常需要将数据进行标准化，利用标准化后的数据进行数据分析，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性，原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。本实施例中的归一化是将视频图像的宽高进行归一化，例如，一个视频帧的像素为1920*1080，将其宽高归一化为1.0*1.0，那么原来视频帧的中心点的坐标为(960，540)，归一化后的坐标为(0.5，0.5)。而设置的感兴趣区域的选取也是在将视频帧归一化的基础上进行的，本实施例中所设置的感兴趣区域的坐标为：左上角XY坐标为(0.25，0.25)，宽高为(0.5，0.5)。

本实施例采用单个神经网络(SSD)检测目标物体。由于应用的场景主要是物流行业，在分拣场或装卸场有多条车道，而一条车道上会出现多个需要检测的目标车辆，神经网络在检测的过程中会检测到多个目标车辆，会同时获取这些检测到的有关目标车辆的信息。所述包络框的信息为所述包络框的帧号和/或坐标，现有的深度神经网络自动输出的包络框坐标的表示方法包括四个点，分别为包络框左边界的横坐标、包络框右边界的横坐标、包络框下边界的纵坐标及包络框上边界的纵坐标。

目标物体的包络框与设置的感兴趣区域的交并比(IoU)的计算公式如下：

S2、过滤小于第一阈值的所述第一交并比，并输出符合条件的所述目标物体的包络框的信息。

进一步的，通过设置滤波器自动过滤掉小于第一阈值的第一交并比，并输出符合条件的所述目标物体的包络框的帧号和/或坐标。

本实施例设定的第一阈值为0.07，当检测出的目标物体的包络框和设置的感兴趣区域的交并比大于或等于0.07才视为有效的包络框，并对这些有效包络框的帧号和/或坐标进行输出，通过这些输出的包络框的帧号和/或坐标对缺失的包络框进行预测。

由于用加权线性回归法进行预测时，一次线性回归只需要两个点就能决定一条直线，两次线性回归需要三个点，为了减少无效的结果，使用滤波器预测时，至少需要输入三个点才会开始预测，在这种极端的情况下，滤波器都能达到非常高的响应，本实施例中设置三个包络框就可以进行预测，所以包络框的信息(也就是包络框的帧号和/或坐标)至少需要来源于三个以上的视频帧。而用其它的方法进行预测时至少需要五个以上的包络框，本实施例相比于其它的方法降低了预测时所需要信息节省了计算机的存储空间，节约了成本。

此步骤中，所述包络框的信息为所述包络框的帧号和/或坐标，包络框的坐标包括包络框中心点的横坐标及纵坐标，以及包络框的宽度和高度。也就是说，本实施例示例的基于深度神经网络检测的包络框的预测方法中的包络框的坐标有两种表示方法，步骤S1-S2中的包络框的坐标为深度神经网络设置输出的，但在步骤S3中包络框的坐标为变换后的，由于因为对于滤波器来说，如果采用神经网络输出的包络框的坐标，由于左右的位置是相对的，包络框甚至会发生倾斜等运动，在用滤波器预测时，会导致预测的数据不准确，因而采用另一种表示方法来表示包络框的坐标，包括包络框中心点的横坐标X，中心点的纵坐标Y，包络框的宽度W，包络框的高度H。

滤波器接受包络框的帧号和/或坐标信息，并对包络框的帧号和/或坐标进行判断，若是滤波器对接收的包络框的帧号和/或坐标有记忆，那么输出的原样输出包络框的帧号和/或坐标；若是滤波器对接收的包络框的帧号和/或坐标没有记忆，就需要对包络框的帧号和/或坐标进行预测，预测使用的方法是加权线性回归法，滤波器对预测后的有关包络框的帧号和/或坐标还要再进行判断，判断的条件主要有两个个，一个是：若是预测后的包络框与设置的感兴趣区域的第二交并比小于第一阈值(本实施例中采用的阈值是0.07)时，则视为无效的包络框；另一个判断的条件是：帧号与最大的记忆帧号差值大于45(根据不同业务场景的不同特点，选择最远预测到45帧约7.5秒，超过这个阈值算不同的物体)时，则认为当前的目标物体消失，因此这两种情况下，滤波器都不会对预测的包络框的信息进行输出。

本实施例中的滤波装置采用的是线性滤波器，由于在线性滤波器中，自变量为时间T，应变量为幅值Y，而一个包络框包含帧号和四个坐标点，为了适应线性滤波器的特点，设置四个线性滤波器，包括第一线性滤波器、第二线性滤波器、第三线性滤波器、第四线性滤波器。其中，输入第一线性滤波器的数据为时刻T及包络框中心点的横坐标；输入第二线性滤波器的数据为时刻T及包络框中心点的纵坐标；输入第三线性滤波器的数据为时刻T及包络框的宽度；输入第四线性滤波器的数据为时刻T及包络框的高度，这里线性滤波器的横坐标为帧号，是时间的量化形式。因为一次线性回归预测只能由时间预测一个坐标点，而本实施例的二维包络框的坐标包括四个点，因此需要四个线性滤波器。在输出包络框的预测坐标(即第二种表示方法表示的)后，进行反变换到第一种表示方法，就补足了因神经网络训练样本强约束而丢失的包络框。

其中，线性回归方程的最小化式为：

当

i为自然数；y_i为包络框的坐标值；e_i为线性变换后输出的数据；w_i为权重值，已知权重的计算公式为：

本实施例中每个点的权值Wi的计算公式为：

Wi＝0.2+(2.0-0.2)/(N-1)*i

N为滤波器中记忆点总数，为自然数，i为小于等于N的自然数。

记忆点的总数和有效输出的包络框的个数相等。本实施例设置权重的原因是：在使用加权线性回归法进行预测时，说明此时未检测到包络框，那么预测的包络框因为离上一时刻t近一些，关系就大一些，离上上一时刻(t-1)远一些，关系就小一些。

因为在预测物体轨迹时，只需要向前预测，所以离预测点越近的点其权值越高，而在未使用加权的先前预测过程中发现其工作性能也良好，因此此处将滤波器中所记忆最远的加权值设为0.2。记忆点数总数为权值之和。

对于上述的处理方式，进一步提高了物体轨迹预测的准确度和可信度，同时得到了因对神经网络在训练样本时强加的约束性而丢失的包络框。

该系统具体组成单元用途与上述基于深度神经网络检测的包络框的预测方法，具体步骤对应，固不再赘述。

本实施例还提供了一种设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

本实施例还提供了一种存储有计算机程序的计算机可读存储介质，该程序被处理器执行时实现如上任一项所述的方法。以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于深度神经网络检测的包络框的预测方法，其特征在于，包括步骤：

S3、根据三个以上视频帧的目标物体的包络框信息，通过加权线性回归法预测包络框的信息；其中，所述加权线性回归法包括：线性回归方程的最小式为：

当

i为自然数；y_i为包络框的坐标值；e_i为线性变换后输出的数据；w_i为权重值，y_i为包络框的坐标值的估计值。

2.如权利要求1所述的基于深度神经网络检测的包络框的预测方法，其特征在于，所述包络框的信息包括所述包络框的帧号和/或坐标。

3.如权利要求1所述的基于深度神经网络检测的包络框的预测方法，其特征在于，滤波装置接收所述包络框的信息，若所述滤波装置对所述信息有记忆，则输出所述信息；若否，则对所述信息进行加权线性回归法预测，并判断经过预测后的信息是否符合预设条件，若是，则输出所述预测后的信息。

4.如权利要求3所述的基于深度神经网络检测的包络框的预测方法，其特征在于，所述预设条件包括，所述感兴趣区域与预测后的包络框的第二交并比大于/等于第一阈值或包络框的帧号等于/小于第二阈值。

5.如权利要求1所述的基于深度神经网络检测的包络框的预测方法，其特征在于，所述加权线性回归法依据的公式包括：

Wi＝0.2+(2.0-0.2)/(N-1)*i，

6.如权利要求3所述的基于深度神经网络检测的包络框的预测方法，其特征在于，所述滤波装置包括若干个线性滤波器，输入所述线性滤波器的信息包括包络框的帧号和坐标。

7.一种基于深度神经网络检测的包络框的预测系统，其特征在于，包括：

包络框信息预测单元，配置用于根据三个以上视频帧的目标物体的包络框信息，通过加权线性回归法预测包络框的信息；其中，所述加权线性回归法包括：线性回归方程的最小式为：

当

时，i为自然数；y_i为包络框的坐标值；e_i为线性变换后输出的数据；w_i为权重值，y_i为包络框的坐标值的估计值。

8.如权利要求7所述的基于深度神经网络检测的包络框的预测系统，其特征在于，第一信息处理单元、第二信息处理单元及包络框信息预测单元，配置用于设置所述包络框的信息包括所述包络框的帧号和/或坐标。

9.如权利要求7所述的基于深度神经网络检测的包络框的预测系统，其特征在于，包络框信息预测单元，还配置用于通过滤波装置接收所述包络框的信息，若所述滤波装置对所述信息有记忆，则输出所述信息；若否，则对所述信息进行加权线性回归法预测，并判断经过预测后的信息是否符合预设条件，若是，则输出所述预测后的信息。

10.如权利要求9所述的基于深度神经网络检测的包络框的预测系统，其特征在于，包络框信息预测单元，还配置用于设置所述预设条件包括，所述感兴趣区域与预测后的包络框的第二交并比大于/等于第一阈值或包络框的帧号等于/小于第二阈值。

11.如权利要求7所述的基于深度神经网络检测的包络框的预测系统，其特征在于，包络框信息预测单元，还配置用于预测所述包络框的信息依据的所述加权线性回归法的公式包括：

Wi＝0.2+(2.0-0.2)/(N-1)*i，

12.如权利要求9所述的基于深度神经网络检测的包络框的预测系统，其特征在于，包络框信息预测单元，还配置用于所述滤波装置包括若干个线性滤波器，输入所述线性滤波器的信息包括包络框的帧号和坐标。

13.一种计算机设备，其特征是，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1-6中任一项所述的方法。

14.一种存储有计算机程序的计算机可读存储介质，其特征是，该程序被处理器执行时实现如权利要求1-6中任一项所述的方法。