CN110736970B

CN110736970B - 基于asic机器学习处理器的雷达目标快速识别方法

Info

Publication number: CN110736970B
Application number: CN201911017078.3A
Authority: CN
Inventors: 丁金闪; 梁东星; 黄学军; 温利武
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2023-03-24
Anticipated expiration: 2039-10-24
Also published as: CN110736970A

Abstract

本发明公开了一种基于ASIC机器学习处理器的雷达目标快速识别方法，主要解决现有方法利用神经网络模型对雷达目标的识别速度慢，能效比低的问题，其方案是：获取VGG16识别模型，将该模型参数进行int8量化，并将其结构均匀拆分为N份；将拆分后模型从主处理器导入协处理器中；对毫米波雷达数据进行距离向傅里叶变换和短时傅里叶变换，得到目标的微多普勒图；将微多普勒图从主处理器导入协处理器中；通过协处理器按照拆分后的模型进行端到端的计算，得到目标属于不同类别的概率，并将结果拷入到主处理器中；主处理器将识别概率最大的结果作为最终识别结果输出。本发明能够加快雷达目标识别速度，提高能效比，可用于毫米波雷达场景监视。

Description

基于ASIC机器学习处理器的雷达目标快速识别方法

技术领域

本发明属于雷达技术领域，特别涉及一种雷达目标快速识别方法，可用于毫米波雷达场景监视的目标识别。

背景技术

随着深度学习技术的快速发展，深度神经网络被广泛应用于各个领域。由于其在特征提取、目标检测以及目标识别等方面的出色表现，也被引入雷达领域。利用神经网络技术搭建智能雷达系统，实现雷达目标智能识别也成为一种雷达发展趋势。

雷达微多普勒效应在原理上与经典的多普勒效应类似，是除目标主体运动外的微小运动对雷达回波信号产生的附加频率调制。不同运动目标的微动特性都会有或大或小的差异，因此，基于目标微动差异提取相应的微多普勒特征可用于雷达目标识别。由于毫米波波长较短，微多普勒特征相较来说更加明显，将毫米波雷达应用于基于微多普勒的目标识别更加有利，并且结合深度卷积网络技术，可以实现毫米波雷达目标智能识别。然而，深度卷积神经网络算法往往存在着存储资源消耗大、计算密集度大、耗时长等问题，无法满足雷达目标识别在实际中使用的需求。

为了解决深度卷积网络耗时较长，难于应用于实际系统中的问题，诸多系统方案被提出。目前，针对该问题主要有两种方案：

一是沈恬，胡飞在论文“卷积神经网络在图形处理GPU芯片上的优化”中提出了结合图形处理芯片的硬件特点，进行特定图形处理芯片上的优化。该论文首先分析了GPU的硬件特点，GPU具有大量的并行计算单元，适合计算密集型问题。随后分析了卷积神经网络应用于GPU所存在的问题，及输入瓶颈。因此采用直接卷积优化大量共享输入数据来平衡输入和运算之间的资源比例，达到了卷积神经网络在GPU上的加速运行。

二是王绍润在论文“神经网络算法的FPGA加速研究”中提出了基于FPGA开发的神经网络加速器。该论文首先分析了FPGA在硬件加速方面能效比较高，且灵活易重构的特点，适合采用FPGA实现硬件加速。随后针对卷积神经网络，从优化内存访问和提高并行计算程度两方面对不同的功能层进行设计。通过设计矩阵乘法模块完成对卷积层和全连接层的并行计算加速，设计线性缓冲结构使池化层流水线处理，提出并行流水线执行策略提高各功能模块的使用效率来提升系统整体性能。

但是上述两种方法在应用系统中均面临一定的问题，方法一采用了GPU作为神经网络加速硬件，首先，GPU不是专为神经网络搭建的硬件，底层运算单元对于神经网络基本算子的运算效率不是最高的；其次，GPU存在功耗大问题，不适合部署在实际应用系统中。方法二采用FPGA进行神经网络加速器硬件系统开发，虽然相比于GPU获得了较高的能效比，但是实现难度较大，并且一些复杂网络的硬件实现，对于FPGA上的各种资源需求很大，因其可重构的特点，FPGA还存在一些额外的硬件开销，不利于系统小型集成化。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于ASIC机器学习处理器的雷达目标快速识别方法，以提高神经网络计算中的运算速度与能效比，进一步提高雷达目标识别速度，避免额外的资源浪费，有利于系统小型集成化。

实现本发明目的的技术方案包括如下步骤：

(1)从公开网络下载VGG16识别模型，将该模型参数进行int8量化，再将参数量化后的VGG16模型结构均匀拆分为N份，将拆分后的模型从主机处理器拷入ASIC机器学习处理器的片上内存中，得到预处理后的识别模型；

(2)从主机处理器读取现有毫米波雷达监测场景中的二维数据，包括快时间维和慢时间维，对该二维数据依次进行距离向傅里叶变换和短时傅里叶变换处理，得到检测场景中目标的微多普勒图；

(3)多线程操作，得到目标的识别结果：

3a)将目标的微多普勒图从主机处理器拷入ASIC机器学习协处理器中；

3b)协处理器按照预处理后的模型对输入数据进行端到端的计算，得到目标属于不同类别的概率，并将该计算结果拷入到主处理器中；

3c)主处理器按照应用需求根据目标属于不同类别的概率，从中选出识别概率最大的结果作为目标的识别结果并输出。

本发明与现有技术相比具有以下优点：

第一，本发明由于采用ASIC机器学习协处理器按照VGG16模型进行端到端计算，有利于系统集成化，同时大大加快了运算速度，提高了能效比。

第二，本发明采用了int8模型参数量化，不仅大大降低了系统的存储压力，还加快了运算速度；同时利用多核处理器的优势，将同一个模型拆分成N份同时运行在ASIC处理器中不同的内核上，大大降低了系统单次响应时间，加快了雷达目标识别速度。

附图说明

图1是本发明的实现总流程图；

图2是现有VGG16识别模型的结构图。

具体实施方式

下面结合附图对本发明实施例做进一步描述。

参照图1，本发明的实施步骤如下：

步骤一，对VGG16识别模型进行参数量化及结构拆分。

1a)从公开网络下载获取VGG16识别模型：

如图2所示，该模型结构由五个卷积池化模块、两个全连接层以及一个Softmax层依次连接组成，其中：

每一个卷积池化模块，由若干个卷积层和一个最大池化层组成，每个卷积层后面都采用激活函数，卷积核均为3×3，步长为1，池化核尺寸均为2×2，步长为2；五个卷积池化模块的卷积层个数分别为2，2，3，3，3，激活函数都为relu(x)函数，其公式表示如下：

五个卷积池化模块的输出通道数分别为64，128，256，512，512；

所有卷积层加上两个全连接层和一个Softmax层，形成十六层网络结构；

1b)对识别模型参数进行int8量化，即将VGG16模型中的float32类型参数按如下公式量化为int8类型：

i＝int(Value_fp32*scale)，

其中，i表示量化后的int8类型参数，int(·)表示取整函数，Value_fp32为截断后的VGG16模型float32类型参数，scale为量化缩放因子，

T表示参数的截断阈值，T的选取是采取最小化KL散度来确定；

1c)将VGG16模型结构均匀拆分成N份：

对VGG16模型结构的均匀拆分包括有两种方法，其中：

第一种方法是按照模型每层输入数据的通道维、长度维或者宽度维方向进行划分，根据当前层输入数据的输入通道数、长度以及宽度，按照通道维>长度维>宽度维的优先级，选取其中一个维度将输入数据均匀划分为N份，N为正整数，其取值范围为1≤N≤32，由于该模型的第一层输入数据的通道数为1，则按照第一层的长度维和宽度维进行均匀拆分，沿长度维均匀拆分为J份，沿宽度维均匀拆分为K份，J，K都为正整数，且J×K＝N，之后的每一层都执行类似的操作，最后得到一个N等分的模型结构；

第二种方法是根据当前层的卷积核数量，将卷积核均匀分成N份，由于该模型中的每一层卷积核的数量与其同一层的输出通道数相等，则可以将每一层的卷积核均匀拆分N份，其余参数共享，最后得到一个N等分的模型结构；

对于模型拆分方法的选取，主要考虑采取该方法是否可以实现模型结构的均匀拆分，在本实例中，两种方法都可以采用。

步骤二，在主处理器中对雷达二维数据依次进行距离向傅里叶变换和短时傅里叶变换。

主处理器为常规的个人电脑中央处理器，本实例中采用的是但不限于Inter CPU，

距离向傅里叶变换和短时傅里叶变换是常规的雷达信号处理技术，具体实现如下：

2a)主处理器读取现有毫米波雷达监测场景中的二维数据；

2b)对回波信号快时间维进行快速傅里叶变换，得到目标的高分辨距离像s(l,m)，其中，l代表快时间维采样单元，l＝1,2,…L，L为一个慢时间采样间隔内快时间维采样点的个数，m代表慢时间维序号，m＝1,2,…,M，M为慢时间维采样个数；

2c)将高分辨距离像s(l,m)按如下公式相加，得到累积距离像

2d)对累积距离像

进行短时傅里叶变换，得到微多普勒特征p：/>

其中，STFT(·)表示短时傅里叶变换操作。

步骤三，将目标的微多普勒图从主机处理器拷入ASIC机器学习协处理器中，即将微多普勒图从Inter CPU拷入ASIC机器学习协处理器中。

ASIC机器学习处理器就是采用专用集成电路的硬件架构，专为机器学习开发的处理器，在本实例中，该机器学习处理器协助主处理器进行网络模型加速，因此也称为ASIC机器学习协处理器，该处理器有32个内核，4个双倍速率同步动态随机存储DDR控制器。

步骤四，ASIC机器学习协处理器按照拆分后的模型对输入数据进行端到端的计算。

所述端到端的计算，即给予协处理器一个输入数据，协处理器按照拆分后的模型结构运行，直接得到输出结果，中间没有其他额外操作，具体实现如下：

4a)将协处理器上32个内核按每8个内核与一个双倍速率同步动态随机存储DDR控制器绑定，得到4个DDR通道，用以减少核与核之间的访存冲突，并且充分挖掘各个DDR通道中的访存局部性；

4b)将拆分后的VGG16模型分别绑定在不同的内核上运行，协处理器内核解析该模型结构及模型参数，将微多普勒图作为该模型的第一层输入数据，由协处理器进行核间数据同步，该模型最后一层的输出结果即为目标属于不同类别的概率。

步骤五，将目标属于不同类别的概率从协处理器拷入到主处理器中，即从ASIC机器学习协处理器拷入到Inter CPU中，主处理器按照应用需求从目标属于不同类别的概率中选出识别概率最大的结果作为目标的识别结果并输出。

本发明的效果可以通过以下实验进一步说明：

分别采用本发明和现有基于CPU、基于GPU的方法，利用同样的VGG16识别模型，对监测场景中的雷达目标进行识别，统计其识别速率，如表一所示。

表一三种方法的识别速率对比

采用方法	基于CPU	基于GPU	本发明
				识别速率/每秒识别帧数	5	168	312

从上表一可以看出，本方法识别速率比基于CPU的方法提高了61.4倍，比GPU的方法提高了0.86倍。

Claims

1.一种基于ASIC机器学习处理器的雷达目标快速识别方法，其特征在于，包括如下：

(3)多线程操作，得到目标的识别结果：

2.根据权利要求1所述的方法，其中(1)中的VGG16模型共由五个卷积池化模块、两个全连接层以及一个Softmax层依次连接组成；

所有卷积层加上两个全连接层和一个Softmax层，形成十六层网络结构。

3.根据权利要求1所述的方法，其中(1)中对VGG16模型参数进行int8量化,是将VGG16模型中的float32类型参数按如下公式量化为int8类型：

i＝int(Value_fp32*scale)

i表示int8量化后的参数，int(·)表示取整函数，Value_fp32为截断后的VGG16模型float32类型参数，scale为量化缩放因子，

T表示参数的截断阈值，T的选取是采取最小化KL散度来确定。

4.根据权利要求1所述的方法，其中(1)中对参数量化后的VGG16模型结构均匀拆分，包括有两种方法，其中：

第一种方法是按照模型每层输入数据的通道维、长度维或者宽度维方向进行划分，根据当前层输入数据的输入通道数、长度以及宽度，按照通道维>长度维>宽度维的优先级，选取其中一个维度将输入数据均匀划分为N份，N为正整数，其取值范围为1≤N≤32；

第二种方法是根据当前层的卷积核数量，将卷积核均匀分成N份，其余模型参数共享。

5.根据权利要求1所述的方法，其中(2)中对二维数据依次进行距离向傅里叶变换和短时傅里叶变换，具体实现如下：

2a)读取现有毫米波雷达监测场景中的二维数据；

2b)对该二维数据的快时间维进行快速傅里叶变换，得到目标的高分辨距离像s(l,m)，其中，l代表快时间维采样单元，l＝1,2,…L，L为一个慢时间采样间隔内快时间采样点的个数，m代表慢时间维序号，m＝1,2,…,M，M为慢时间维采样个数；

2c)将高分辨距离像s(l,m)按如下公式相加，得到累积距离像

2d)对累积距离像

进行短时傅里叶变换，得到微多普勒特征p：

其中，STFT(·)表示短时傅里叶变换操作。

6.根据权利要求1所述的方法，其中(3b)中协处理器按照预处理后的模型对输入数据进行端到端的计算，具体实现如下：

3b1)先将协处理器上32个内核按每8个内核与一个双倍速率同步动态随机存储DDR控制器绑定，得到4个DDR通道；

3b2)将拆分后的VGG16模型分别绑定在不同的内核上运行，协处理器内核解析该模型结构及模型参数，将微多普勒图作为该模型的第一层输入数据，由协处理器进行核间数据同步，该模型最后一层的输出结果即为目标属于不同类别的概率。