CN106845338A

CN106845338A - 视频流中行人检测方法与系统

Info

Publication number: CN106845338A
Application number: CN201611146815.6A
Authority: CN
Inventors: 陈榕齐
Original assignee: Airmada Technology Inc
Current assignee: Airmada Technology Inc
Priority date: 2016-12-13
Filing date: 2016-12-13
Publication date: 2017-06-13
Anticipated expiration: 2036-12-13
Also published as: CN106845338B

Abstract

本发明提供一种视频流中行人检测方法与系统，获取多路视频流，对每路视频流分别进行移动目标检测，分割出每张图片的移动目标区域，通过基于分治的合并算法将拼接成单张大图，获得拼接图像，通过卷积神经网络对拼接图像进行神经网络预测，获得检测结。整个过程中，通过分治的区域合并算法将移动目标检测算法和卷积神经网络行人检测算法高效的结合在一起，实现高效且准确对视频流中行人检测。

Description

视频流中行人检测方法与系统

技术领域

本发明涉及图像跟踪技术领域，特别是涉及视频流中行人检测方法与系统。

背景技术

视频流中行人检测技术目前广泛应用于智能家居及工业安防领域。行人检测技术通过对前端摄像头采集的视频流逐帧分析获得行人区域，并以此为触发条件将检测得到的人行物体上报给用户。

视频流中行人检测技术大体分为两类：1、基于移动目标的检测，该类技术通过无人的静止图像作为前景图像，实时分析每一帧图像与前景图像的差值，对每个位置的像素建立其属于静止目标或移动目标的概率，将属于移动目标的位置合并联通为行人区域，该类技术具有检测速度快的优点；2、基于卷积神经网络的检测，该类技术设计对行人区域有高响应值的卷积神经网络，将每一帧图像通过卷积神经网络获得其特征图像，在特征图像上滑窗检测计算每个窗口的响应值，将高响应值的窗口输出为行人区域，该类技术具有检测精度高的优点。

虽然上述两类视频流中行人检测技术都能实现行人检测且具有各自的优点，但基于移动目标的检测技术容易造成误报，其检测结果不准确，基于卷积神经网络的检测检测过程数据处理复杂，效率低且结果不准确。

发明内容

基于此，有必要针对一般视频流中行人检测技术检测效率低且检测结果不准确的问题，提供一种检测效率高且检测结果准确的视频流中行人检测方法与系统。

一种视频流中行人检测方法，包括步骤：

获取多路视频流，对每路视频流分别进行移动目标检测，分割出每张图片的移动目标区域；

通过基于分治的合并算法将每张图像的移动目标区域拼接成单张大图，获得拼接图像；

通过卷积神经网络对拼接图像进行神经网络预测，获得检测结果。

一种视频流中行人检测系统，包括：

分割模块，用于获取多路视频流，对每路视频流分别进行移动目标检测，分割出每张图片的移动目标区域；

拼接模块，用于通过基于分治的合并算法将每张图像的移动目标区域拼接成单张大图，获得拼接图像；

检测模块，用于通过卷积神经网络对拼接图像进行神经网络预测，获得检测结果。

本发明视频流中行人检测方法与系统，获取多路视频流，对每路视频流分别进行移动目标检测，分割出每张图片的移动目标区域，通过基于分治的合并算法将拼接成单张大图，获得拼接图像，通过卷积神经网络对拼接图像进行神经网络预测，获得检测结。整个过程中，通过分治的区域合并算法将移动目标检测算法和卷积神经网络行人检测算法高效的结合在一起，实现高效且准确对视频流中行人检测。

附图说明

图1为本发明视频流中行人检测方法第一个实施例的流程示意图；

图2为本发明视频流中行人检测方法第二个实施例的流程示意图；

图3至图7为在本发明视频流中行人检测方法其中一个应用实例中，每张图片的移动目标区域填充过程示意图；

图8为本发明视频流中行人检测系统第一个实施例的结构示意图；

图9为本发明视频流中行人检测系统第一个实施例的结构示意图。

具体实施方式

为了清楚解释说明本发明视频流中行人检测方法与系统的技术方案，下面将针对后续内容中出现的符号定义进行说明，具体如下表1、表2、表3以及表4所示。

表1为符号与定义第一对应表

符号	idx	full	valid	roi
					说明	移动帧侧区域序号	最终合并后的图像	可填充区域	真实填充区域

表2为符号与定义第二对应表

符号	right	down
			说明	填充后右侧剩余区域	填充后下方剩余区域

表3为符号与定义第三对应表

表4为符号与定义第四对应表

如图1所示，一种视频流中行人检测方法，其特征在于，包括步骤：

S200：获取多路视频流，对每路视频流分别进行移动目标检测，分割出每张图片的移动目标区域。

获取多路视频流，并且针对每路视频分别进行移动目标检测，在检测之后分割出每张图片的移动目标区域。在这里，获取视频流的方式可以是采用相机等视频拍摄设备实时采集，也可以是外部存储的数据直接获取导入的视频流。在分割出的每张图片的移动目标区域中可能有行人也可能没有行人。

S400：通过基于分治的合并算法将每张图像的移动目标区域拼接成单张大图，获得拼接图像。

针对步骤S200获得的每张图片的移动目标区域进行拼接，具体采用分治的合并算法进行拼接，获得拼接图像。

S600：通过卷积神经网络对拼接图像进行神经网络预测，获得检测结果。

卷积神经网络主要用来识别位移、缩放及其他形式扭曲不变性的图形。卷积神经网络可以并行学习，另外，卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。在这里，采用卷积神经网络对拼接图像进行神经网络预测，获得检测结果。由于卷积神经网络只需针对单个图像(拼接图像)进行神经网络预测，在进行视频流中行人检测过程需要处理的数据量已经大大减小。

非必要的，在获得检测结果可以将检测结果推送至用户，推送方式可以采用远程数据传输，例如通过无线网络远程传输方式推送，以便用户及时且准确了解视频流中行人检测结果。

本发明视频流中行人检测方法，获取多路视频流，对每路视频流分别进行移动目标检测，分割出每张图片的移动目标区域，通过基于分治的合并算法将拼接成单张大图，获得拼接图像，通过卷积神经网络对拼接图像进行神经网络预测，获得检测结。整个过程中，通过分治的区域合并算法将移动目标检测算法和卷积神经网络行人检测算法高效的结合在一起，实现高效且准确对视频流中行人检测。

如图2所示，在其中一个实施例中，步骤S200包括：

S220：通过分布式服务器集群应用移动目标检测算法，并行检测每路视频流中每一帧的移动区域，获得移动区域检测结果。

分布式服务器集群是指一定数量服务器分布式设置，通过这些分布服务器群，能够第一时间对获取的视频流进行并行处理。在每个服务器内应用移动目标检测算法，每个服务器处理自身获取的一路视频流，并行检测该路视频流中每一帧的移动区域。

S240：根据移动区域检测结果，分割出每张图片的移动目标区域。

针对步骤S220中检测得到的每路视频流中每一帧的移动区域，分割出每张图片的移动目标区域。

具体来说，输入多视频流通过并行服务器的移动目标检测算法获得所有待合并(检测)的移动区域。Q{I_idx}＝{I₁,I₂...I_N}，idx∈[1,N]，Q{S_idx}＝{S₁,S₂...S_N}。

如图2所示，在其中一个实施例中，步骤S400包括：

S420：获取卷积神经网络中设定的固定宽度与高度值。

卷积神经网络中设定的固定宽度与高度值是基于行业准则设定好的数值，可以将卷积神经网络处理图片的尺寸大小理解为一个处理窗口的大小，这个窗口固定有宽度和高度，而这个宽度和高度即为卷积神经网络中设定的固定宽度与高度值。

S440：根据卷积神经网络模型中设定的固定宽度与高度值，确定拼接图像的初始矩形区域大小，获得初始拼接图像。

最终获得的拼接图像的尺寸大小即为卷积神经网络中固定宽度与高度值。简单来说，在这里划设一个拼接图像的矩形区域，这个矩形区域的宽度与高度值等于卷积神经网络模型中设定的固定宽度与高度值。

S460：根据每张图片的移动目标区域的高度值，对每张图片的移动目标区域根据高度值由大到小进行优先级排序，获得移动目标区域排序集合。

在步骤S200获得的每张图片的移动目标区域中，有的图片的移动目标区域的高度大、有的小，为了将一定数量的图片的移动目标区域填充至步骤S440划设好的矩形区域中(初始拼接图像)，需要对每张图片的移动目标区域的高度值由大到小进行优先级排序。具体来说，高度值越大的图片的移动目标区域对应的优先级越高。即在移动目标区域排序集合中元素(每张图片的移动目标区域)对应的高度值依次减小。

S480：根据优先级顺序依次将每张图片的移动目标区域填充至初始拼接图像，获得每张图像的移动目标区域拼接成的无缝单张大图。

由于初始矩形区域大小有限，为了将每张图片的移动目标区域合理填充至初始拼接图像，在这里需要根据优先级顺序依次填充。具体来说，优先级越高的图片的移动目标区域优先填充，即高度值越大的图片的移动目标区域的越先填充，最终获得每张图像的移动目标区域拼接成的无缝单张大图。

非必要的，在其中一个实施例中，步骤S480包括：

步骤一：在初始拼接图像中构建坐标，其中，初始拼接图像的任意一个角作为坐标原点，坐标X轴表征移动目标区的宽度，坐标Y轴表征移动目标区的高度。

具体来说，初始拼接图像I_full为一个初始化的形状，该形状宽高即为卷积神经网络模型接受的固定宽高。初始化的形状记为S_full。空间坐标系原点建于I_full的任意一个角即可(在这里选择左上角)，即X(S_full)＝0，Y(S_full)＝0。

步骤二：确定当前可填充区域，初始时，可填充区域为初始拼接图像。

当前可填充区域S_valid是一个变化的区域，在每次填充之后可填充区域大小将会减小。在初始时，可填充区域为初始拼接图像S_valid＝S_full，且初始时I_full所有像素点为0，即可以将初始拼接图像理解为一种大小固定且已知的白纸。

步骤三：从移动目标区域排序集合中第一元素开始，查找图片的移动目标区域的宽度值与高度值均小于或等于当前可填充区域的宽度值与高度值的元素。

从移动目标区域排序集合中第一个S_idx开始遍历Q{S_idx}，选取S_i满足h(S_i)≤h(S_valid)且w(S_i)≤w(S_valid)。

步骤四：若查找到，则确定当前真实填充区域，并将查找到的图片的移动目标区域的像素填充至当前真实填充区域，其中，当前真实填充区域的高度值等于查找到的图片的移动目标区域的高度值，当前真实填充区域的宽度值等于查找到的图片的移动目标区域的宽度值，当前真实填充区域的起始点为当前可填充区域四个方位角中与坐标原点方位相同的一个角，即若步骤一中坐标原点为初始拼接图像的左上角，那么当前真实填充区域的起始点为当前可填充区域的左上角。若查找到合格的S_i，则确定当前真实填充区域S_roi，将查找到的图片的移动目标区域S_i的像素填充至当前真实填充区域S_roi，当前真实填充区域S_roi为：

X(S_roi)＝X(S_valid)，Y(S_roi)＝Y(S_valid)；

h(S_roi)＝h(S_i)，w(S_roi)＝w(S_i)。

步骤五：计算填充后真实填充区域X轴方向侧剩余的可填充区域以及Y轴方向侧剩余的可填充区域。

计算步骤四填充后在X轴方向侧剩余的可填充区域S_right，具体来说，由于坐标原点为初始拼接图像中任意一个角，以其左上角为例，X轴方向侧剩余的可填充区域，即为其右侧剩余的可填充区域，其具体为：

X(S_right)＝X(S_valid)+w(S_i)，Y(S_right)＝Y(S_valid)；

w(S_right)＝w(S_valid)-w(S_i)，h(S_right)＝h(S_i)。

同理，Y轴方向侧剩余的可填充区域，即为下方剩余的可填充区域，其具体为：

X(S_down)＝X(S_valid)，Y(S_down)＝Y(S_valid)+h(S_i)；

w(S_down)＝w(S_valid)，h(S_down)＝h(S_valid)-h(S_i)。

步骤六：分别使用真实填充区域X轴方向侧剩余的可填充区域以及Y轴方向侧剩余的可填充区域作为当前可填充区域，返回确定当前可填充区域的步骤。

设X轴方向侧剩余的可填充区域S_valid，即令S_valid＝S_right，返回确定当前可填充区域的步骤，设Y轴方向侧剩余的可填充区域作为当前可填充区域S_valid，即令S_valid＝S_down，返回确定当前可填充区域的步骤。在这里分别将X轴方向侧剩余的可填充区域以及Y轴方向侧剩余的可填充区域作为当前可填充区域，返回步骤二，当发现X轴方向侧剩余的可填充区域无法填充当前S_i时，尝试在Y轴方向侧剩余的可填充区域作为当前可填充区域填充当前S_i，反之亦然，以此来循坏填充，最终递归终止获得最终合并图像。

为了更进一步详细说明上述填充过程，下面将采用具体实例，并结合附图3至图7进行详细说明。

1、如图3所示，为I_full设置一个初始化的形状，记录为S_full，空间坐标系原点建于I_full的左上角，即S_full，Y(S_full)＝0，令S_valid＝S_full。初始化I_full所有像素点为0。

2、如图4所示，根据高优先准则，排序Q{S}，使其中的形状按照高度由高到低排列即当满足i＜j，h(S_i)≥h(S_j)。

3、如图5所示，根据可填充区域选取S_i，从第一个S_idx开始遍历Q{S_idx}，选取S_i满足h(S_i)≤h(S_valid)且w(S_i)≤w(S_valid)。如果找到S_i执行步骤4，否则返回上一层递归。

4、如图5与图6所示，填充图像，记S_roi为真实填充区域。

X(S_roi)＝X(S_valid)，Y(S_roi)＝Y(S_valid)；

h(S_roi)＝h(S_i)，w(S_roi)＝w(S_i)。

将I_i将其像素值拷贝至I_full的S_roi区域，计算填充后右侧还剩余的可填充区域：

X(S_right)＝X(S_valid)+w(S_i)，Y(S_right)＝Y(S_valid)；

w(S_right)＝w(S_valid)-w(S_i)，h(S_right)＝h(S_i)。

计算填充后下方还剩余的可填充区域：

X(S_down)＝X(S_valid)，Y(S_down)＝Y(S_valid)+h(S_i)；

w(S_down)＝w(S_valid)，h(S_down)＝h(S_valid)-h(S_i)。

5、如图6所示，设右侧区域为填充区域执行步骤3，即令S_valid＝S_right执行步骤3。

6、如图6所示，设右侧区域为填充区域执行步骤3，即令S_valid＝S_down执行步骤3。

7、如图7所示，递归终止获得最终合并图像，当递归完全终止时获得最终图像I_full。

如图8所示，一种视频流中行人检测系统，包括：

分割模块200，用于获取多路视频流，对每路视频流分别进行移动目标检测，分割出每张图片的移动目标区域。

拼接模块400，用于通过基于分治的合并算法将每张图像的移动目标区域拼接成单张大图，获得拼接图像。

检测模块600，用于通过卷积神经网络对拼接图像进行神经网络预测，获得检测结果。

本发明视频流中行人检测系统，分割模块200获取多路视频流，对每路视频流分别进行移动目标检测，分割出每张图片的移动目标区域，拼接模块400通过基于分治的合并算法将拼接成单张大图，获得拼接图像，检测模块600通过卷积神经网络对拼接图像进行神经网络预测，获得检测结。整个过程中，通过分治的区域合并算法将移动目标检测算法和卷积神经网络行人检测算法高效的结合在一起，实现高效且准确对视频流中行人检测。

如图9所示，在其中一个实施例中，分割模块200包括：

并行处理单元220，用于通过分布式服务器集群应用移动目标检测算法，并行检测每路视频流中每一帧的移动区域，获得移动区域检测结果。

分割单元240，用于根据移动区域检测结果，分割出每张图片的移动目标区域。

如图9所示，在其中一个实施例中，拼接模块400包括：

参数值获取单元420，用于获取卷积神经网络中设定的固定宽度与高度值。

初始确定单元440，用于根据卷积神经网络模型中设定的固定宽度与高度值，确定拼接图像的初始矩形区域大小，获得初始拼接图像。

优先级排序单元460，用于根据每张图片的移动目标区域的高度值，对每张图片的移动目标区域根据高度值由大到小进行优先级排序，获得移动目标区域排序集合。

填充拼接单元480，用于根据优先级顺序依次将每张图片的移动目标区域填充至初始拼接图像，获得每张图像的移动目标区域拼接成的无缝单张大图。

在其中一个实施例中，填充拼接单元480包括：

坐标构建层，用于在初始拼接图像中构建坐标，其中，初始拼接图像的任意一个角作为坐标原点，坐标X轴表征移动目标区的宽度，坐标Y轴表征移动目标区的高度。

可填充区域确定层，用于确定当前可填充区域，初始时，可填充区域为初始拼接图像。

查找层，用于从移动目标区域排序集合中第一元素开始，查找图片的移动目标区域的宽度值与高度值均小于或等于当前可填充区域的宽度值与高度值的元素。

填充层，用于若查找到，则确定当前真实填充区域，并将查找到的图片的移动目标区域的像素填充至当前真实填充区域，其中，当前真实填充区域的高度值等于查找到的图片的移动目标区域的高度值，当前真实填充区域的宽度值等于查找到的图片的移动目标区域的宽度值，当前真实填充区域的起始点为当前可填充区域四个方位角中与坐标原点方位相同的一个角。

剩余计算层，用于计算填充后真实填充区域X轴方向侧剩余的可填充区域以及Y轴方向侧剩余的可填充区域。

递归层，用于分别使用真实填充区域X轴方向侧剩余的可填充区域以及Y轴方向侧剩余的可填充区域作为当前可填充区域，返回确定当前可填充区域的步骤。

在其中一个实施例中，视频流中行人检测系统还包括：

推送模块，用于推送检测结果。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种视频流中行人检测方法，其特征在于，包括步骤：

获取多路视频流，对每路所述视频流分别进行移动目标检测，分割出每张图片的移动目标区域；

通过基于分治的合并算法将所述每张图像的移动目标区域拼接成单张大图，获得拼接图像；

通过卷积神经网络对所述拼接图像进行神经网络预测，获得检测结果。

2.根据权利要求1所述的视频流中行人检测方法，其特征在于，所述对每路所述视频流分别进行移动目标检测，分割出每张图片的移动目标区域的步骤包括：

通过分布式服务器集群应用移动目标检测算法，并行检测每路所述视频流中每一帧的移动区域，获得移动区域检测结果；

根据所述移动区域检测结果，分割出每张图片的移动目标区域。

3.根据权利要求1所述的视频流中行人检测方法，其特征在于，所述通过基于分治的合并算法将所述每张图像的移动目标区域拼接成单张大图，获得拼接图像的步骤包括：

获取卷积神经网络中设定的固定宽度与高度值；

根据所述卷积神经网络模型中设定的固定宽度与高度值，确定拼接图像的初始矩形区域大小，获得初始拼接图像；

根据所述每张图片的移动目标区域的高度值，对所述每张图片的移动目标区域根据高度值由大到小进行优先级排序，获得移动目标区域排序集合；

根据优先级顺序依次将所述每张图片的移动目标区域填充至所述初始拼接图像，获得所述每张图像的移动目标区域拼接成的无缝单张大图。

4.根据权利要求3所述的视频流中行人检测方法，其特征在于，所述根据优先级顺序依次将所述每张图片的移动目标区域填充至所述初始拼接图像的步骤包括：

在所述初始拼接图像中构建坐标，其中，所述初始拼接图像的任意一个角作为坐标原点，坐标X轴表征所述移动目标区的宽度，坐标Y轴表征所述移动目标区的高度；

确定当前可填充区域，初始时，可填充区域为所述初始拼接图像；

从所述移动目标区域排序集合中第一元素开始，查找图片的移动目标区域的宽度值与高度值均小于或等于所述当前可填充区域的宽度值与高度值的元素；

若查找到，则确定当前真实填充区域，并将查找到的图片的移动目标区域的像素填充至所述当前真实填充区域，其中，所述当前真实填充区域的高度值等于查找到的图片的移动目标区域的高度值，所述当前真实填充区域的宽度值等于查找到的图片的移动目标区域的宽度值，所述当前真实填充区域的起始点为当前可填充区域四个方位角中与坐标原点方位相同的一个角；

计算填充后所述真实填充区域X轴方向侧剩余的可填充区域以及Y轴方向侧剩余的可填充区域；

分别使用真实填充区域X轴方向侧剩余的可填充区域以及Y轴方向侧剩余的可填充区域作为当前可填充区域，返回确定当前可填充区域的步骤。

5.根据权利要求1所述的视频流中行人检测方法，其特征在于，所述通过卷积神经网络对所述拼接图像进行神经网络预测，获得检测结果的步骤之后还包括：

推送所述检测结果。

6.一种视频流中行人检测系统，其特征在于，包括：

分割模块，用于获取多路视频流，对每路所述视频流分别进行移动目标检测，分割出每张图片的移动目标区域；

拼接模块，用于通过基于分治的合并算法将所述每张图像的移动目标区域拼接成单张大图，获得拼接图像；

检测模块，用于通过卷积神经网络对所述拼接图像进行神经网络预测，获得检测结果。

7.根据权利要求6所述的视频流中行人检测系统，其特征在于，所述分割模块包括：

并行处理单元，用于通过分布式服务器集群应用移动目标检测算法，并行检测每路所述视频流中每一帧的移动区域，获得移动区域检测结果；

分割单元，用于根据所述移动区域检测结果，分割出每张图片的移动目标区域。

8.根据权利要求6所述的视频流中行人检测系统，其特征在于，所述拼接模块包括：

参数值获取单元，用于获取卷积神经网络中设定的固定宽度与高度值；

初始确定单元，用于根据所述卷积神经网络模型中设定的固定宽度与高度值，确定拼接图像的初始矩形区域大小，获得初始拼接图像；

优先级排序单元，用于根据所述每张图片的移动目标区域的高度值，对所述每张图片的移动目标区域根据高度值由大到小进行优先级排序，获得移动目标区域排序集合；

填充拼接单元，用于根据优先级顺序依次将所述每张图片的移动目标区域填充至所述初始拼接图像，获得所述每张图像的移动目标区域拼接成的无缝单张大图。

9.根据权利要求8所述的视频流中行人检测系统，其特征在于，所述填充拼接单元包括：

坐标构建层，用于在所述初始拼接图像中构建坐标，其中，所述初始拼接图像的任意一个角作为坐标原点，坐标X轴表征所述移动目标区的宽度，坐标Y轴表征所述移动目标区的高度；

可填充区域确定层，用于确定当前可填充区域，初始时，可填充区域为所述初始拼接图像；

查找层，用于从所述移动目标区域排序集合中第一元素开始，查找图片的移动目标区域的宽度值与高度值均小于或等于所述当前可填充区域的宽度值与高度值的元素；

填充层，用于若查找到，则确定当前真实填充区域，并将查找到的图片的移动目标区域的像素填充至所述当前真实填充区域，其中，所述当前真实填充区域的高度值等于查找到的图片的移动目标区域的高度值，所述当前真实填充区域的宽度值等于查找到的图片的移动目标区域的宽度值，所述当前真实填充区域的起始点为当前可填充区域四个方位角中与坐标原点方位相同的一个角；

剩余计算层，用于计算填充后所述真实填充区域X轴方向侧剩余的可填充区域以及Y轴方向侧剩余的可填充区域；

10.根据权利要求6所述的视频流中行人检测系统，其特征在于，还包括：

推送模块，用于推送所述检测结果。