CN107316320A

CN107316320A - 一种使用gpu加速的实时行人检测系统

Info

Publication number: CN107316320A
Application number: CN201710463293.0A
Authority: CN
Inventors: 黄亮; 王旭; 王欣欣; 叶超; 应艳丽
Original assignee: Jiangxi Hongdu Aviation Industry Group Co Ltd
Current assignee: Jiangxi Hongdu Aviation Industry Group Co Ltd
Priority date: 2017-06-19
Filing date: 2017-06-19
Publication date: 2017-11-03

Abstract

一种使用GPU加速的实时行人检测系统，包括GPU设备，采用开源工具ffmpeg将接入的视频流进行解码，此时格式为RGB的视频存数据位于内存中，在采用多核混序拷贝将内存中的数据传输至GPU设备内存中，而后将位于GPU设备内存中的待识别图像数据进行多尺度缩放，最后对每一个尺度的待识别图像加载GPU加速检测算法，进行实时行人检测；能够快速、准确对视频中出现的人进行检测，有效降低防卫人员的工作量。

Description

一种使用GPU加速的实时行人检测系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种使用GPU加速的实时行人检测系统。

背景技术

针对视频的行人检测有着广泛的应用场景，如：安防监控、机场安全、自动驾驶、辅助驾驶等等，故行人检测是计算机视觉和模式识别领域中的重要研究方向；不同行人的身材、姿势、视角、衣着、光照方面都有着极大的变化，再加上复杂的背景以及摄像头的晃动，都成为行人检测需要解决的问题。一个良好的行人检测系统需要满足两个属性，首先是准确性，其次是实时性，为满足系统的准确性，需要设计一个或若干个能够表征行人特征的描述符，通常这些描述符越复杂，系统的准确性会有一定程度的提高，但同时计算的复杂度也会随之提高；此外，针对一些特定的应用，如实时视频安防、自动驾驶，系统则必须满足实时性，因此实现一个既能准确检测出行人，又能满足实时性的行人检测系统有客观需求。

发明内容

本发明所解决的技术问题在于提供一种使用GPU加速的实时行人检测系统，以解决上述背景技术中的缺点。

本发明所解决的技术问题采用以下技术方案来实现：

一种使用GPU加速的实时行人检测系统，包括GPU设备，采用开源工具ffmpeg将接入的视频流进行解码，此时格式为RGB的视频存数据位于内存中，在采用多核混序拷贝将内存中的数据传输至GPU设备内存中，而后将位于GPU设备内存中的待识别图像数据进行多尺度缩放，最后对每一个尺度的待识别图像加载GPU加速检测算法，进行实时行人检测，具体步骤如下：

1)训练行人检测模型

①数据集

使用INRIA数据集，INRIA数据集中用来训练的正样本有2416张，正样本的宽高分辨率有三个版本64x128、70x134、96x160，可供选择；而1218张分辨率不同的负样本只有一个版本，选择宽高分辨率为64x128的紧凑型(周围背景较少)正样本，为了使CENTRIST特征更好的描述行人，将宽高分辨率为64x128的正样本裁剪为宽高分辨率为36x108的紧凑缩版正样本；

②建立分类器

在训练阶段，使用所有的正样本形成规模为2416的训练集P和规模为1218的负样本N₁(在每一个负样本中随机选取位置截取10个36x108的矩形框形成)，令N_T←N₁使用P∪N_T训练得到一个线性SVM分类器H₁；使用SVM分类器H₁检测所有的负样本N₁，将误识别为正样本的负样本称为难例，记为N_hard，令N_T←N_T∪N_hard(这一过程称之为Bootstrap流程)，并重复识别难例这个流程，直到难例的数量为0，最终得到的线性SVM分类器记为H_LIN；对于非线性HIK-SVM，同样使用上述Bootstrap流程方法训练，最终得到非线性SVM分类器记为H_HIK；

2)GPU加速检测算法

采用中心变换直方图特征结合CT变换对训练行人检测模型的样本图片进行检测，通过比较像素点与其周围像素灰度值的大小计算，计算方法如下：

使用高宽分辨率为36x108的检测窗口，将训练行人检测模型中的每个样本图片划分9x4个块(每个块的尺寸为12x9)与邻近的2x2个块组成一个超级块，并提取每一个超级块的中心变换直方图特征，每一个检测窗口合计有8x3＝24个超级块，故每一检测窗口将形成256x24＝6144维的特征向量(CT变换后变量取值范围是[0～255]，每一个超级块形成一个1x256的中心变换直方图)；在计算中心变换直方图特征时，每一个超级块边界不需要考虑，因为CT变换需要3x3的区域；

将采集的训练行人检测模型样本图片进行灰度化处理得灰度图，在灰度图的基础上进行sobel变换；

待sobel变换后，继而进行CT变换得CT变换图，在CT变换图上加载GPU加速检测算法；

假设一个w∈R⁶¹⁴⁴的线性SVM分类器，并将其按照从左到右，自上而下的顺序将w分割24个w_i,j∈R²⁵⁶,i≤i≤8,1≤j≤3对应于每一个超级块，给定一个训练行人检测模型中的样本图片，宽高分辨率为108x36，根据下式的正负判断是否包含行人：

(h,w)表达一个检测窗口，(h_s,w_s)＝(h/9,w/4)表示一个块，则一个超级块为(2h_s,2w_s)，给定一张训练行人检测模型中的样本图片I，S表示其sobel边缘图，S的CT变换图用C表示，对于左上角坐标为(t,l)的检测窗口，式(1)可以改写为：

其中，是w_i,j第k个元素，C(x,y)是CT变换图C的一个像素点的值，x为2～2h_s-1，以移除超级块的边界；

接下来创建多张辅助图A_i,j,1≤i≤8,1≤j≤3，辅助图的尺寸与训练行人检测模型中的样本图片I相同，设辅助图A_i,j位于(x,y)处的像素值为：

于是式(2)可写为：

使用积分图技巧，式(4)中括号的部分仅需3次算术操作，因此式(4)的计算复杂度为0(1)；

使用一张辅助图计算式(4)，从而不需要显式地计算出每一个位置对应的特征f，具体方法如下，定义唯一一个辅助图A，

其中，n_x＝8,n_y＝3.故w^Tf可以写为：

式(6)的计算只需要一张辅助图，实践发现式(6)的计算速度快于式(4)的计算3～4倍，这是检测系统实现实时性的重要一环；

3)将GPU加速检测算法应用于实时视频流

采用滑窗方式对待识别图像进行行人检测时，真实行人附近将出现大量的响应，这些响应被具体化为统一尺度下的矩形框，而虚假的目标则不会出现，根据此现象，制定后处理原则，局部响应小于等于三次的响应将被过滤，同一目标的多个响应合并为一个响应，被包含的矩形框将被移除，重叠区域超过一定比例的矩形框将被融合为一个，即可快速地、准确地检测出行人。

有益效果：本发明采用开源工具ffmpeg将接入的视频流进行解码，在采用多核混序拷贝将内存中的数据传输至GPU设备内存中，而后将位于GPU设备内存中的待识别图像数据进行多尺度缩放，最后对每一个尺度的待识别图像加载GPU加速检测算法，能够快速、准确对视频中出现的人进行检测，有效降低防卫人员的工作量。

附图说明

图1是本发明的较佳实施例的流程图。

图2(a～b)是本发明的较佳实施例中的GPU加速检测算法应用于实时视频流检测结果后处理被过滤示意图。

图3(a～b)是本发明的较佳实施例中的GPU加速检测算法应用于实时视频流检测结果后处理被融合示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示，进一步阐述本发明。

参见图1～图3所示一种使用GPU加速的实时行人检测系统，包括GPU设备，GPU设备为GTX980Ti，CPU为E5-1650v3 6核12线程，系统为Debian8.1，首先采用开源工具ffmpeg将接入的视频流进行解码，此时格式为RGB的视频存数据位于内存中，在采用多核混序拷贝将内存中的数据传输至GPU设备内存中，而后将位于GPU设备内存中的图像数据进行多尺度缩放，最后对每一个尺度的待识别图像加载GPU加速检测算法，进行实时行人检测，具体步骤如下：

1)训练行人检测模型

①数据集

使用INRIA数据集，INRIA数据集中用来训练的正样本有2416张，正样本的宽高分辨率有三个版本64x128、70x134、96x160，可供选择；而1218张分辨率不同的负样本只有一个版本，选择宽高分辨率为64x128的紧凑型(周围的背景较少)正样本，为了使CENTRIST特征更好的描述行人，将宽高分辨率为64x128的正样本裁剪为宽高分辨率为36x108的紧凑缩版正样本；

②建立分类器

在训练阶段，使用所有的正样本形成规模为2416的训练集P和规模为12180的负样本N₁(在每一个负样本中随机选取位置截取10个36x108的矩形框形成)，令N_T←N₁使用P∪N_T训练得到一个线性SVM分类器H₁；使用SVM分类器H₁检测所有的负样本N₁，将误识别为正样本的负样本称为难例，记为N_hard，令N_T←N_T∪N_hard(这一过程称之为Bootstrap流程)，并重复难例这个流程，直到难例的数量为0，最终得到的线性SVM分类器记为H_LIN；对于非线性HIK-SVM，同样使用上述Bootstrap流程方法训练，最终得到非线性SVM分类器记为H_HIK；伪代码如下：

1 BEGIN

2 N_T←N₁

3 REPEAT

4 H←linearsvm_train(P∪N_T)

5 N_hard←Bootstrap(N,H)

6 N_T←{N_T,N_hard}

8 H_LIN←H

9 END

2)GPU加速检测算法

采用中心变换直方图特征CENTRIST(全称CENsus TRansform hISTogram，CENsusTRansform)结合CT变换(Census Transform)对训练行人检测模型中的样本图片进行检测，通过比较像素点与其周围像素灰度值的大小计算，计算方法如下：

使用高宽分辨率为36x108的检测窗口，将将训练行人检测模型中的每个样本图片划分9x4个块(每个块的尺寸为12x9)与邻近的2x2个块组成一个超级块，并提取每一个超级块的中心变换直方图特征，每一个检测窗口合计有8x3＝24个超级块，故每一检测窗口将形成256x24＝6144维的特征向量(CT变换后变量取值范围是[0～255]，每一个超级块形成一个1x256的中心变换直方图)；在计算中心变换直方图特征时，每一个超级块边界不需要考虑，因为CT变换需要3x3的区域；

假设一个w∈R⁶¹⁴⁴的线性SVM分类器，并将其按照从左到右，自上而下的顺序将w分割24个w_i,j∈R²⁵⁶,i≤i≤8,1≤j≤3对应于每一个超级块，给定一张训练行人检测模型中的样本图片(大小为108x36)，根据下式的正负判断是否包含行人：

于是式(2)可写为：

使用积分图技巧，等式(4)中括号的部分仅需3次算术操作，因此式(4)的计算复杂度为0(1)；

其中，n_x＝8,n_y＝3.故w^Tf可以写为：

3)将GPU加速检测算法应用于实时视频流

采用滑窗方式对待识别图像进行行人检测时，真实行人附近将出现大量的响应，这些响应被具体化为统一尺度下的矩形框，而虚假的目标则不会出现，根据此现象，制定后处理原则，以有效过滤一些错误的响应，如图2(a～b)所示，图2a中的误检测不会滤掉，而图2b中的误检测将被过滤掉；局部响应小于等于三次的响应将被过滤，同一目标的多个响应合并为一个响应，被包含的矩形框将被移除，重叠区域超过一定比例的矩形框将被融合为一个，即可快速、准确检测出行人，如图3(a～b)所示。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种使用GPU加速的实时行人检测系统，其特征在于，包括GPU设备，采用开源工具ffmpeg将接入的视频流进行解码，此时格式为RGB的视频存数据位于内存中，在采用多核混序拷贝将内存中的数据传输至GPU设备内存中，而后将位于GPU设备内存中的待识别图像数据进行多尺度缩放，最后对每一个尺度的待识别图像加载GPU加速检测算法，进行实时行人检测，具体步骤如下：

1)训练行人检测模型

①数据集

使用INRIA数据集，INRIA数据集中用来训练的正样本有2416张，1218张负样本；

②建立分类器

在训练阶段，使用所有的正样本形成规模为2416的训练集P和规模为1218的负样本N₁，令N_T←N₁使用P∪N_T训练得到一个线性SVM分类器H₁；使用SVM分类器H₁检测所有的负样本N₁，将误识别为正样本的负样本称为难例，记为N_hard，令N_T←N_T∪N_hard，此过程称之为Bootstrap流程，并重复识别难例这个流程，直到难例的数量为0，最终得到的线性SVM分类器记为H_LIN；对于非线性HIK-SVM，同样使用上述Bootstrap流程方法训练，最终得到非线性SVM分类器记为H_HIK；

2)GPU加速检测算法

<mrow> <mtable> <mtr> <mtd> <mn>32</mn> </mtd> <mtd> <mn>64</mn> </mtd> <mtd> <mn>96</mn> </mtd> </mtr> <mtr> <mtd> <mn>32</mn> </mtd> <mtd> <mn>64</mn> </mtd> <mtd> <mn>96</mn> </mtd> </mtr> <mtr> <mtd> <mn>32</mn> </mtd> <mtd> <mn>32</mn> </mtd> <mtd> <mn>96</mn> </mtd> </mtr> </mtable> <mo>&RightArrow;</mo> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mn>1</mn> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow></mrow> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mn>1</mn> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> </mtable> <mo>&RightArrow;</mo> <msub> <mrow> <mo>(</mo> <mn>11010110</mn> <mo>)</mo> </mrow> <mn>2</mn> </msub> <mo>&RightArrow;</mo> <mi>C</mi> <mi>T</mi> <mo>=</mo> <mn>214</mn> </mrow>

使用高宽分辨率为36x108的检测窗口，将训练行人检测模型中的每个样本图片划分9x4个块与邻近的2x2个块组成一个超级块，并提取每一个超级块的中心变换直方图特征，每一个检测窗口合计有8x3＝24个超级块，故每一检测窗口将形成256x24＝6144维的特征向量，每一个超级块形成一个1x256的中心变换直方图；

<mrow> <msup> <mi>w</mi> <mi>T</mi> </msup> <mi>f</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>8</mn> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>3</mn> </munderover> <msubsup> <mi>w</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mi>T</mi> </msubsup> <msub> <mi>f</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>&GreaterEqual;</mo> <mn>0.</mn> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

(h,w)表达一个检测窗口，(h_s,w_s)＝(h/9,w/4)表示一个块，则一个超级块为(2h_s,2w_s)，给定一张训练行人检测模型中的样本图片I，S表示其sobel边缘图，S的CT变换图用C表示，对于左上角坐标为(t,l)的检测窗口，式(1)为：

<mrow> <msup> <mi>w</mi> <mi>T</mi> </msup> <mi>f</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>8</mn> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>3</mn> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>x</mi> <mo>=</mo> <mn>2</mn> </mrow> <mrow> <mn>2</mn> <msub> <mi>h</mi> <mi>s</mi> </msub> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>y</mi> <mo>=</mo> <mn>2</mn> </mrow> <mrow> <mn>2</mn> <msub> <mi>w</mi> <mi>s</mi> </msub> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <msubsup> <mi>w</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>+</mo> <mo>(</mo> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> <mo>)</mo> <msub> <mi>h</mi> <mi>s</mi> </msub> <mo>+</mo> <mi>x</mi> <mo>,</mo> <mi>l</mi> <mo>+</mo> <mo>(</mo> <mrow> <mi>j</mi> <mo>-</mo> <mn>1</mn> </mrow> <mo>)</mo> <msub> <mi>w</mi> <mi>s</mi> </msub> <mo>+</mo> <mi>y</mi> <mo>)</mo> </mrow> </mrow> </msubsup> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow> 1

其中，是第k个元素，C(x,y)是CT变换图C的一个像素点的值，x为2～2h_s-1，以移除超级块的边界；

于是式(2)为：

<mrow> <msup> <mi>w</mi> <mi>T</mi> </msup> <mi>f</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>8</mn> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>3</mn> </munderover> <mrow> <mo>(</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>x</mi> <mo>=</mo> <mn>2</mn> </mrow> <mrow> <mn>2</mn> <msub> <mi>h</mi> <mi>s</mi> </msub> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>y</mi> <mo>=</mo> <mn>2</mn> </mrow> <mrow> <mn>2</mn> <msub> <mi>w</mi> <mi>s</mi> </msub> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <msubsup> <mi>A</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mrow> <mi>t</mi> <mo>+</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <msub> <mi>h</mi> <mi>s</mi> </msub> <mo>+</mo> <mi>x</mi> <mo>,</mo> <mi>l</mi> <mo>+</mo> <mrow> <mo>(</mo> <mi>j</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <msub> <mi>w</mi> <mi>s</mi> </msub> <mo>+</mo> <mi>y</mi> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>A</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>n</mi> <mi>x</mi> </msub> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>n</mi> <mi>y</mi> </msub> </munderover> <msubsup> <mi>w</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mrow> <mi>C</mi> <mrow> <mo>(</mo> <mo>(</mo> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> <mo>)</mo> <msub> <mi>h</mi> <mi>s</mi> </msub> <mo>+</mo> <mi>x</mi> <mo>,</mo> <mo>(</mo> <mrow> <mi>j</mi> <mo>-</mo> <mn>1</mn> </mrow> <mo>)</mo> <msub> <mi>w</mi> <mi>s</mi> </msub> <mo>+</mo> <mi>y</mi> <mo>)</mo> </mrow> </mrow> </msubsup> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

其中，n_x＝8,n_y＝3.故w^Tf为：

<mrow> <mi>A</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>x</mi> <mo>=</mo> <mn>2</mn> </mrow> <mrow> <mn>2</mn> <msub> <mi>h</mi> <mi>s</mi> </msub> <mo>-</mo> <mn>12</mn> </mrow> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>y</mi> <mo>=</mo> <mn>2</mn> </mrow> <mrow> <mn>2</mn> <msub> <mi>w</mi> <mi>s</mi> </msub> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mi>A</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>+</mo> <mi>x</mi> <mo>,</mo> <mi>l</mi> <mo>+</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>.</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

3)将GPU加速检测算法应用于实时视频流

采用滑窗方式对待识别图像进行行人检测时，真实行人附近将出现大量的响应，这些响应被具体化为统一尺度下的矩形框，而虚假的目标则不会出现，根据此现象，制定后处理原则，即可快速地、准确地检测出行人。

2.根据权利要求1所述的一种使用GPU加速的实时行人检测系统，其特征在于，正样本的宽高分辨率有三个版本64x128、70x134、96x160，负样本只有一个版本。

3.根据权利要求2所述的一种使用GPU加速的实时行人检测系统，其特征在于，选择宽高分辨率为64x128的紧凑型为正样本。

4.根据权利要求3所述的一种使用GPU加速的实时行人检测系统，其特征在于，为了更好描述行人，将宽高分辨率为64x128的正样本裁剪为宽高分辨率为36x108的紧凑缩版正样本。

5.根据权利要求1所述的一种使用GPU加速的实时行人检测系统，其特征在于，后处理原则是：局部响应小于等于三次的响应将被过滤，同一目标的多个响应合并为一个响应，被包含的矩形框将被移除，重叠区域超过一定比例的矩形框将被融合为一个。