CN111186379B

CN111186379B - 一种基于深度学习的汽车盲区危险物报警方法

Info

Publication number: CN111186379B
Application number: CN202010072669.7A
Authority: CN
Inventors: 沈畅
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2021-12-03
Anticipated expiration: 2040-01-21
Also published as: CN111186379A

Abstract

本发明提出了一种基于深度学习的汽车盲区危险物报警方法。本发明包括一种基于深度学习的汽车盲区危险物报警系统。本发明方法通过训练网络模型；使用多个摄像头分别采集驾驶中汽车各盲区的图像，传输至对应的处理器；对应的处理器将预处理好的图像输入到训练后网络模型中，检测图像中危险物的类别、置信度及位置坐标；计算出危险物到对应摄像头的水平距离；中央控制器将标有危险物边界框的图像输送至车载显示器实时显示，将危险物的类别、置信度及位置坐标分别传输到语音转换器，生成危险警告语音，由车载音响播报。本发明达到了盲区实时报警的效果，有效地减少了盲区内儿童、小动物等小型目标被遮挡而造成的事故。

Description

一种基于深度学习的汽车盲区危险物报警方法

技术领域

本发明属于计算机视觉技术领域和智能驾驶辅助领域，尤其是涉及一种基于深度学习的汽车盲区危险物报警方法。

背景技术

道路交通事故比例逐年攀升，驾驶员的主观判断失误是事故发生的重要因素，但其中不乏车辆自身因素影响了驾驶员的判断。一方面，汽车由于自身设计，在驾驶途中存在较多盲区，尤其在转弯时，会有A/B/C柱盲区，车头/车尾盲区、后视镜盲区等，驾驶员无法通过后视镜看到盲区内的危险物，即使汽车上安装了后视镜及一些补盲视镜，但由于其安装位置、视角等限制，在一些行驶状态下，仍存在视觉盲区。另一方面，小动物、小孩等小型目标的运动轨迹具有很高的不确定性、应急反应速度慢等特点，容易造成事故发生。

驾驶辅助系统是目前市面上最受欢迎的主动安全技术之一，其利用安装在车上的各种传感器，在汽车行驶中随时感应周围的环境，实时运算和分析数据，从而预报可能发生的危险，有效增加汽车驾驶的安全性。相机传感器可利用纹理和颜色特征准确识别物体类型，并比其他传感器成本更低，特别是利用相机传感器进行基于深度学习的目标检测，达到了比人类更快更准确的能力。主流目标检测方法如Faster R-CNN、R-FCN、SSD等，然而在准确度和检测速度的权衡中，这些方法或多或少存在不足，在汽车这种对准确度和速度要求严格的应用中受到限制，尤其是对小目标的检验效果不够理想。

发明内容

本发明的目的是提供一种基于深度学习的汽车盲区危险物报警系统及方法，在保证危险物准确检测的前提下，迅速对盲区内危险物所处方位进行计算，并报警，从而减少由于汽车盲区造成的交通事故，从而保护小动物、儿童等小目标的生命安全。

本发明系统的技术方案为一种汽车盲区报警系统，其特征在于，包括：左后视镜摄像头、车前摄像头、右后视镜摄像头、左车尾摄像头、车尾摄像头、右车尾摄像头、第一处理器、第二处理器、第三处理器、第四处理器、第五处理器、第六处理器、交换机、中央控制器、车载显示器、语音转换器、车载音响以及电源模块。

所述左后视镜摄像头与所属第一处理器通过导线连接；所述车前摄像头与所属第二处理器通过导线连接；所述右后视镜摄像头与所属第三处理器通过导线连接；所述左车尾摄像头与所属第四处理器通过导线连接；所述车尾摄像头与所属第五处理器通过导线连接；所述右车尾摄像头与所属第六处理器通过导线连接；所述左后视镜摄像头与所属第一处理器通过导线连接；所述左后视镜摄像头与所属第一处理器通过导线连接；所述左后视镜摄像头与所属第一处理器通过导线连接。

所述第一处理器与所述交换机通过网线连接；所述第二处理器与所述交换机通过网线连接；所述第三处理器与所述交换机通过网线连接；所述第四处理器与所述交换机通过网线连接；所述第五处理器与所述交换机通过网线连接；所述第六处理器与所述交换机通过网线连接。

所述交换机与所述中央控制器通过导线连接；所述中央控制器与所述车载显示器通过导线连接；所述中央控制器与所述语音转换器通过导线连接；所述语音转换器与所述车载音响通过导线连接；所述电源模块分别与所述左后视镜摄像头、车前摄像头、右后视镜摄像头、左车尾摄像头、车尾摄像头、右车尾摄像头、第一处理器、第二处理器、第三处理器、第四处理器、第五处理器、第六处理器、交换机、中央控制器、车载显示器、语音转换器、车载音响通过导线依次连接。

所述左后视镜摄像头安装在汽车车头左后视镜下方，向下倾斜使摄像头光轴与水平地面成α度角，每隔T秒采集一次汽车左前方A米范围内的图像，并将拍摄图像传输至所述第一处理器。

所述车前摄像头安装在汽车正前侧，向下倾斜使摄像头光轴与水平地面成α度角，每隔T秒采集一次汽车正前方B米范围内的图像，并将拍摄图像传输至所述第二处理器。

所述右后视镜摄像头安装在汽车车头右后视镜下方，向下倾斜使摄像头光轴与水平地面成α度角，每隔T秒采集一次汽车右前方A米范围内的图像，并将拍摄图像传输至所述第三处理器。

所述左车尾摄像头安装在汽车左车尾灯附近，向下倾斜使摄像头光轴与水平地面成α度角，每隔T秒采集一次汽车左后方A米范围内的图像，并将拍摄图像传输至所述第四处理器。

所述车尾摄像头安装在汽车正前侧，向下倾斜使摄像头光轴与水平地面成α度角，每隔T秒采集一次汽车正后方B米范围内的图像，并将拍摄图像传输至所述第五处理器。

所述左车尾摄像头安装在汽车车头右车尾灯附近，向下倾斜使摄像头光轴与水平地面成α度角，每隔T秒采集一次汽车右后方A米范围内的图像，并将拍摄图像传输至所述第六处理器。

所述的第一处理器、第二处理器、第三处理器、第四处理器、第五处理器、第六处理器若检测到危险物存在，则计算出危险物所在位置，根据换算方法计算危险物距离汽车各处的距离，然后将信息送达所述中央控制器控制；

所述中央控制器接收到信息后，控制所述车载显示器显示实时画面，并且在画面中同步标记出危险物，同时所述中央控制器整合危险物信息发送给所述语音转换器，所述语音转换器将危险物识别信息和距离信息进行处理，输出语音至车载音响，用以警示驾驶者。

本发明方法的技术方案为一种基于深度学习的汽车盲区报警方法，该方法包括如下步骤：

步骤1：构建数据集，配置网络模型并通过数据集训练，待损失值稳定时停止训练，得到训练后网络模型；

步骤2：使用左后视镜摄像头、车前摄像头、右后视镜摄像头、左车尾摄像头、车尾摄像头、右车尾摄像头分别采集驾驶中的图像，传输至对应的处理器中对图像进行预处理；

步骤3：对应的处理器将处理好的图像输入到训练后网络模型中，检测图像中危险物类别、危险物边界框的位置坐标以及危险物类别的置信度；

步骤4：通过距离转换公式，将危险物边界框的位置坐标转换到世界坐标系中，并计算出危险物到对应摄像头的水平距离；

步骤5：中央控制器根据第一处理器、第二处理器、第三处理器、第四处理器、第五处理器、第六处理器输入的标有危险物边界框的图像输送至车载显示器实时显示，将危险物的类别、危险物边界框的位置坐标以及危险物类别的置信度分别传输到语音转换器，生成危险警告的语音，由车载音响播报警告。

作为优选，步骤1中所述配置网络模型为：

步骤1所述配置网络模型：

所述网络模型由三部分构成；

网络模型的L0层为输入层；

所述网络模型第一部分由一组卷积层和最大池化层交替组成，其中所述网络模型第一部分一组卷积层为：(L1、L3、L5、L7、L9、L11)，过滤器大小为3×3，步长为1；

所述网络模型第一部分最大池化层为：(L2、L4、L6、L8、L10、L12)，过滤器大小为2×2，步长为2，所述卷积层、最大池化层过滤器的长度均依次为16，32，64，128，256，512；

其中，L12与其他最大池化层不同，步长为1；接着第13层为卷积层即L13，过滤器大小为3×3×1024，步长为1，输出大小为13×13×1024的张量；

所述网络模型第一部分结构为：(L1、L2、L3、L4、L5、L6、L7、L8、L9、L10、L11、L12)；

所述网络模型的第二部分由三个卷积层构成，输入为第一部分网络模型产生的13×13×1024的张量，所述第二部分中三个卷积层依次串联连接；

第一个卷积层为：L14，过滤器大小为1×1×256，步长为1，输出大小为13×13×256的张量；

第二个卷积层为：L15，过滤器大小为1×1×512，步长为1，输出大小为13×13×512的张量；

第三个卷积层为：L16，过滤器大小为1×1×87，步长为1，输出大小为13×13×87的张量作为模型的预测结果的第一部分；

所述网络模型第二部分结构为：(L14、L15、L16)；

所述网络模型第三部分的输入为第一部分网络模型产生的输出结果，经过第一个过滤器大小为1×1×128，步长为1的卷积层即L17；

再执行2倍上采样即L19，产生26×26×1024的张量，与所述网络模型第一部分的L9产生的26×26×256的张量连接为L20，产生张量大小为26×26×1280；第三层为卷积层即L21，过滤器大小为3×3×256，步长为1，输出大小为26×26×256的张量；

第四层为卷积层即L22，过滤器大小为1×1×87，步长为1，输出大小为26×26×87的张量，作为模型预测结果的第二部分；

所述网络模型的所有卷积层均采用Leaky ReLU函数；

网络模型的最终结果由所述网络模型第二部分的13×13×87的张量和所述网络模型第三部分的26×26×87的张量共同构成；

其中，S1＝13和S2＝26为输入图像经过32倍和16倍下采样的结果，分别被划分为13×13和26×26个网格，如果某个真实框对应的目标的中心坐标值落入在某个网格中，那么就由该网格负责预测该目标；

该张量第三维大小为：

87＝3×(8+1+20)＝B×(8+Pr(object)+C)

其中，3表示每个网格上包围盒的数量B，也即是标定锚的数量，8为位置坐标，具体定义为：

是预测包围盒中心位置的横坐标相对于所在网格中心位置的横坐标的偏移量，

是预测包围盒中心位置的纵坐标相对于网格中心位置的纵坐标的偏移量，

是预测包围盒的宽和高相对于输入图像宽和高的比值；

代表横坐标

纵坐标

宽度

高度

的不确定性；

1为置信度Pr(object)表示了包围盒含有目标的概率和准确度，如果包围盒中不存在目标，则置信度为零；

C为目标的种类数，表示包围盒中的目标object存在的条件下，属于第i个类别class_i的概率为Pr(class_i|object)；

使用sigmod函数转换八个位置值

得到介于0和1之间的坐标即

所述转换公式为：

所述训练网络的损失函数模型包括为：

Loss＝L_x+L_y+L_w+L_h+L_obj+L_conf

其中，(L_x，L_y，L_w，L_h)为坐标损失，L_obj为置信度损失，L_conf为分类损失；

所述包围盒坐标的产生使用了正态分布模型即N(μ，σ²)，所述包围盒坐标损失使用修改的负对数似然损失-log(f(x)+ε)；

所述x坐标的损失计算如下：

其中，

为正态分布模型，

表示的是特征图上(i，j)处网格上的第k个包围盒中心点的横坐标，

表示的是特征图上(i，j)处网格上的第k个包围盒中心点的横坐标的不确定性，

表示特征图上(i，j)处网格上的第k个包围盒处真实框的中心点的横坐标，

表示该真实框的中心点的横坐标占整张图片的比例；

如前所述，网络模型的每部分预测结果可表示为S×S×(B×(8+1+20))；

因此上述公式中的S×S表示特征图中网格的个数，B是每个包围盒上anchor的个数；

进一步地，所述y坐标的损失计算公式为：

其中，

为正态分布模型，

表示的是特征图上(i，j)处网格上的第k个包围盒中心点的纵坐标，

表示的是特征图上(i，j)处网格上的第k个包围盒中心点的纵坐标的不确定性，

表示特征图上(i，j)处网格上的第k个包围盒真实框的中心点的纵坐标，

其中y^G表示真实框的中心点的横坐标占整张图片的比例；

所述宽度w的损失计算公式如下：

其中，

为正态分布模型，

表示特征图上(i，j)处网格上的第k个包围盒真实框的宽度，

其中w^G表示真实框的宽度占整张图片的比例，

表示第k个标定锚的宽和高；

所述高度h的损失计算公式如下：

其中，

为正态分布模型，

表示的是特征图上(i，j)处网格上的第k个包围盒中心点的纵坐标；

表示特征图上(i，j)处网格上的第k个包围盒真实框的宽度，

其中h^G表示真实框的宽度占整张图片的比例，

表示第k个标定锚的宽和高；

真实框进行对应的调整：

w_scale＝2-w^G×h^G

其中，参数

只有当包围盒中的目标能找到合适的标定锚框时才有意义，即当真实框与(i，j)处网格的第k个标定锚框的IOU值最大时，

否则为0；

所述置信度损失，采用二分类交叉熵损失，设置参数λ_coord，λ_noobj；

其中，C_ijk为真实图片在网格(i，j)处第k个包围盒所在的区域内包含目标的置信度，

是网络模型预测的，在网格(i，j)处第k个包围盒所在的区域内包含目标的置信度，也就是上文说的Pr(object)；

类别损失为：

其中，p_ijk(m)为真实图片在网格(i，j)处第k个包围盒所在的区域内包含目标属于第m类的概率，

为网络模型预测的，在网格(i，j)处第k个包围盒所在的区域内包含目标属于第m类的概率即所述的Pr(class_i|object)；

锚的产生：所述网络模型采用锚计算预测包围盒，每个网格有S×S个包围盒，每个包围盒有B个锚，锚一共有2*B种尺寸，采用采用K-Means算法基于训练数据集聚类成2*B个组，得到2*B个尺寸锚值；

其中数据点到中心点的距离为：

d(box，centroid)＝1-IOU(box，centroid)

其中，Centroid为聚类中心，box为其余的数据点，IOU为交并比；

通过反向梯度传播的算法进行迭代计算，逐渐降低损失值至损失值不再降低，并不断调整网络模型中的参数；

设置所述网络模型的初始学习率、冲量、权重衰减率、梯度衰减率，所述网络模型在训练集上迭代多次，得到训练后网络模型。

本发明设计的汽车盲区报警系统，弥补了汽车行驶过程中盲区的缺陷，通过摄像头与网络模型结合的方式实时地监测汽车盲区内的危险物，并根据检测结果转换得到危险物的实际距离，转化成报警信息由车载音响输出，从而提醒驾驶员注意，达到了盲区实时报警的效果，有效地减少了盲区内小孩、小动物等小型目标被遮挡而造成的事故；

所构建网络模型，将低层特征与高层特征融合，实现了对小目标的检测准确度，不仅回归了目标边界框的位置和置信度，还回归了坐标的不确定性，相应地使用了结合了高斯函数的负对数似然比损失函数，降低了模型的误差，提高了模型的准确性和检测速度；

同时利用检测结果对危险物、相机、照片建立数学模型，转换得到真实世界中危险物到汽车的距离和方位，使报警信息更准确可靠，更有利于驾驶员及时处理危险，能满足驾驶辅助中对不同危险物的测距要求。

附图说明

图1：为本发明的系统结构示意图。

图2：为本发明的网络模型结构示意图。

图3：为本发明的距离转换方法示意图。

图4：为本发明方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明的系统框图，一种汽车盲区危险物预警系统，系统包括左后视镜摄像头、车前摄像头、右后视镜摄像头、左车尾摄像头、车尾摄像头、右车尾摄像头、第一处理器、第二处理器、第三处理器、第四处理器、第五处理器、第六处理器、交换机、中央控制器、车载显示器、语音转换器、车载音响以及电源模块。

所述左后视镜摄像头安装在汽车车头左后视镜下方，向下倾斜使摄像头光轴与水平地面成30度角，每隔0.024秒采集一次汽车左前方1.5m范围内的图像，并将拍摄图像传输至所述第一处理器。

所述车前摄像头安装在汽车正前侧，向下倾斜使摄像头光轴与水平地面成30度角，每隔0.024秒采集一次汽车正前方2.1m范围内的图像，并将拍摄图像传输至所述第二处理器。

所述右后视镜摄像头安装在汽车车头右后视镜下方，向下倾斜使摄像头光轴与水平地面成30度角，每隔0.024秒采集一次汽车右前方1.5m范围内的图像，并将拍摄图像传输至所述第三处理器。

所述左车尾摄像头安装在汽车左车尾灯附近，向下倾斜使摄像头光轴与水平地面成30度角，每隔0.024秒采集一次汽车左后方1.5m范围内的图像，并将拍摄图像传输至所述第四处理器。

所述车尾摄像头安装在汽车正前侧，向下倾斜使摄像头光轴与水平地面成30度角，每隔0.024秒采集一次汽车正后方2.1m范围内的图像，并将拍摄图像传输至所述第五处理器。

所述左车尾摄像头安装在汽车车头右车尾灯附近，向下倾斜使摄像头光轴与水平地面成30度角，每隔0.024秒采集一次汽车右后方1.5m范围内的图像，并将拍摄图像传输至所述第六处理器。

所述电源模块用于给所述的左后视镜摄像头、车前摄像头、右后视镜摄像头、左车尾摄像头、车尾摄像头、右车尾摄像头、第一处理器、第二处理器、第三处理器、第四处理器、第五处理器、第六处理器、交换机、中央控制器、车载显示器、语音转换器供电。

所述的第一处理器、第二处理器、第三处理器、第四处理器、第五处理器、第六处理器若检测到危险物存在，则计算出危险物所在位置，根据换算方法计算危险物距离汽车各处的距离，然后将信息送达所述中央控制器控制。所述中央控制器接收到信息后，控制所述车载显示器显示实时画面，并且在画面中同步框出危险物，同时所述中央控制器整合危险物信息发送给所述语音转换器，所述语音转换器将危险物识别信息和距离信息进行处理，输出语音至车载音响，用以警示驾驶者。

所述的左后视镜摄像头、车前摄像头、右后视镜摄像头、左车尾摄像头、车尾摄像头、右车尾摄像头型号一致，为WaveShare OV5640摄像头，具有500万像素，170°视场角，35.70mm×23.90mm，传输速度快，能较大程度实时覆盖汽车盲区景象。

所述的第一处理器、第二处理器、第三处理器、第四处理器、第五处理器、第六处理器、中央控制器选型一致，为树莓派4B+型嵌入式开发板，其主要包括双频2.4/5.0GHz、64位四核处理器，4GB内存，支持千兆以太网，视频解码高达4Kp60。

所述交换机选择TP-LINK SG1008+，具有8个RJ45端口，每个端口支持10/100/1000Mbps速率自适应，双工模式自协商。

所述车载显示器选泽YOELBEAR 7寸液晶屏，分辨率为1024*800，接口选择AV/HDMI。

所述语音转换器选择WM8960音频模块，工作电压3.3V，音频接口I2S，支持立体声、3D环绕等音效输出。

所述电源模块选择RYDBATT 12V锂电池和TELESKY电压转换模组，12V锂电池容量为7800mAh,TELESKY电压转换模组可将6V-12V输入电压转换为3.3V，5V，12V输出电压。

下面结合图1至图4，介绍本发明的实施方式为一种基于深度学习的汽车盲区危险物报警方法，具体包括网络模型训练与检测、目标测距、危险警告过程。

步骤1所述构建数据集为：

通过爬虫工具在互联网上采集多张汽车驾驶中的图片，从中筛选出6个盲区内有儿童、小动物等危险物的图片做为正样本，其余情况的图片作为负样本，控制正负样本比为3：1。

采用标注工具LabelImg对训练集中每一张图片标注，得到每张图片包含目标物体的类别(包括儿童、鸟、猫、狗等20个类别)和位置信息。

对训练集中的每张图片进行预处理，所述预处理包括图像随机剪裁、随机缩放、随机反转、随机移位、随机旋转、调整亮度、随机加噪声。

步骤1所述配置网络模型：

为了节约计算资源，调整样本图片大小为416×416，输入到如图2所示的网络模型的L0层处理。

所述网络模型第一部分由一组卷积层和最大池化层交替组成，其中卷积层(L1、L3、L5、L7、L9、L11)，过滤器大小为3×3，步长为1；最大池化层(L2、L4、L6、L8、L10、L12)，过滤器大小为2×2，步长为2；所述卷积层、最大池化层过滤器的长度均依次为16，32，64，128，256，512；

其中，L12最大池化层与其他最大池化层不同，步长为1；接着第13层为卷积层(L13)，过滤器大小为3×3×1024，步长为1，输出大小为13×13×1024的张量。

第一个卷积层(L14)的过滤器大小为1×1×256，步长为1，输出大小为13×13×256的张量；

第二个卷积层(L15)的过滤器大小为1×1×512，步长为1，输出大小为13×13×512的张量；

第三个卷积层(L16)的过滤器大小为1×1×87，步长为1，输出大小为13×13×87的张量作为模型的预测结果的第一部分。

所述网络模型的第三部分的输入为第一部分网络模型产生的输出结果，经过第一个过滤器大小为1×1×128，步长为1的卷积层(L17)；再执行2倍上采样(L19)，产生26×26×1024的张量，与网络模型第一部分的L9层产生的26×26×256的张量连接(L20)，产生张量大小为26×26×1280；第三层(L21)为卷积层，过滤器大小为3×3×256，步长为1，输出大小为26×26×256的张量；第四层(L22)为卷积层，过滤器大小为1×1×87，步长为1，输出大小为26×26×87的张量，作为模型预测结果的第二部分。

所述网络模型的所有卷积层均采用Leaky ReLU函数：

网络模型的最终结果detection由模型第二部分的13×13×87的张量和模型第三部分的26×26×87的张量共同构成。

其中，S1＝13和S2＝26为输入图像经过32倍和16倍下采样的结果，分别被划分为13×13和26×26个网格，如果某个真实框对应的目标的中心坐标值落入在某个网格中，那么就由该网格负责预测该目标。

该张量第三维大小为87＝3×(8+1+20)＝B×(8+Pr(object)+C)，3表示每个网格上包围盒的数量B，也即是标定锚的数量。

8为位置坐标

其中，

是预测包围盒中心位置的横坐标相对于所在网格中心位置的横坐标的偏移量；

是预测包围盒中心位置的纵坐标相对于网格中心位置的纵坐标的偏移量；

是预测包围盒的宽和高相对于输入图像宽和高的比值；

代表横坐标

纵坐标

宽度

高度

的不确定性。

C＝20为目标的种类数，表示包围盒中的目标object存在的条件下，属于第i个类别class_i的概率为Pr(class_i|object)。

使用sigmod函数转换八个位置值

得到介于0和1之间的坐标

所述转换公式为：

所述训练网络的损失函数模型为：包括坐标损失即(L_x，L_y，L_w，L_h)、置信度损失即L_obj和分类损失即L_conf；

Loss＝L_x+L_y+L_w+L_h+L_obj+L_conf

所述包围盒坐标的产生使用了正态分布模型N(μ，σ²)，所述包围盒坐标损失使用修改的负对数似然损失-log(f(x)+ε)。

所述x坐标的损失计算如下：

为正态分布模型，

表示的是特征图上(i，j)处网格上的第k个包围盒中心点的横坐标；

表示的是特征图上(i，j)处网格上的第k个包围盒中心点的横坐标的不确定性；

其中，x^G表示该真实框的中心点的横坐标占整张图片的比例。

如前所述，网络模型的每部分预测结果可表示为S×S×(B×(8+1+20))；因此上述公式中的S×S表示特征图中网格的个数，B是每个包围盒上anchor的个数；

进一步地，所述y坐标的损失计算公式为：

为正态分布模型，

表示的是特征图上(i，j)处网格上的第k个包围盒中心点的纵坐标的不确定性；

其中y^G表示真实框的中心点的横坐标占整张图片的比例；

同理，所述宽度w的损失计算公式如下：

为正态分布模型，

表示特征图上(i，j)处网格上的第k个包围盒真实框的宽度，

其中w^G表示真实框的宽度占整张图片的比例，

表示第k个标定锚的宽和高。

同理，所述高度h的损失计算公式如下：

为正态分布模型，

表示特征图上(i，j)处网格上的第k个包围盒真实框的宽度，

其中h^G表示真实框的宽度占整张图片的比例，

表示第k个标定锚的宽和高。

进一步地，由于包围盒的大小根据标定锚计算，因此样本真实框也要做对应的调整：

w_scale＝2-w^G×h^G

参数

否则为0；为了维护数值稳定，ε＝10^-9。

所述置信度损失，采用二分类交叉熵损失，为了增强模型的稳定性，需要增加位置预测的损失，减少不包含目标的包围盒的置信度损失，因此设置参数λ_coord＝5，λ_noobj＝0.5。

是网络模型预测的，在网格(i，j)处第k个包围盒所在的区域内包含目标的置信度，也就是上文说的Pr(object)

同理，类别损失为：

其中，P_ijk(m)为真实图片在网格(i，j)处第k个包围盒所在的区域内包含目标属于第m类的概率；

为网络模型预测的，在网格(i，j)处第k个包围盒所在的区域内包含目标属于第m类的概率，也就是上文所述的Pr(class_i|object)；

步骤1所述通过数据集训练为：

通过集中每个包围框的位置、不确定性、置信度、分类损失来学习模型，使模型对嘈杂的数据更具有鲁棒性，提高了算法的准确性。

标定锚的产生：所述网络模型采用标定锚box预测包围盒，每个网格有S×S个包围盒，每个包围盒有B＝3个标定锚box，因此标定锚一共有6种尺寸。采用采用K-Means算法基于训练数据集聚类成6个组，得到6个尺寸标定锚值。所述K-Means方法如下：

步骤1.1，随机选择6个点，作为聚类中心；

步骤1.2，对余下的数据集中的每个数据点，按照距离K个中心点的距离，将其与距离最近的中心关联，与同一中心关联的所有点聚成一类；

步骤1.3，重新计算新组合的各组平均值，将各组中心点移动到平均值的位置；

步骤1.4，重复执行步骤1.2-步骤1.3，直到新的中心点与原中心点一致或小于阈值，算法结束；

所述距离计算方法如下：

d(box，centroid)＝1-IOU(box，centroid)

其中，Centroid为聚类中心，box为其余的数据点，IOU为交并比。

通过反向梯度传播的算法进行迭代计算，逐渐降低损失值至损失值不再降低，并不断调整网络模型中的参数。所述网络模型在训练集上迭代160次，初始学习率为0.001，冲量为4，权重衰减率为0.0005，梯度衰减率为0.9。

所述神经网络模型，保留了传统网络模型的卷积训练的同时，加入了特征融合层，将低层特征与高层特征融合，实现了对小目标的检测准确度，不仅回归了目标边界框的位置和置信度，还回归了坐标的不确定性，相应地使用了结合了高斯函数的负对数似然比损失函数，降低了模型的误差，提高了模型的准确性和检测速度。

步骤3：对应的处理器将处理好的图像输入到训练后网络模型中，检测图像中危险物类别、危险物边界框的位置坐标以及危险物类别的置信度

步骤3中所述检测图像中危险物的类别、危险物边界框的位置坐标以及危险物类别的置信度，具体为：

首先，将其转换为416×416大小的图像后输入到网络模型得到多个预测框，每个预测框包括中心坐标值为

宽高值为

每种坐标值的不确定性为

包含目标的置信度为Pr(object)、20个类别目标的概率为Pr(class_i|object)；

然后代入以下转换公式反向计算得到预测矩形框的中心坐标值b_x、b_y、b_w、b_h和包含第i类目标的置信度conf：

其中，Uncertainty_layer＝Mean(∑t_x，∑t_y，∑t_w，∑t_h)表示对坐标的不确定性∑t_x，∑t_y，∑t_w，∑t_h取平均值，p_w、p_h为所述K-Means算法产生的标定锚值。

将得到的多个预测矩形框通过非极大值抑制方法处理，去掉重复框，选取目标类别出现概率最高的边界框，通过非极大值抑制算法，即可得到危险物类别、边界框位置坐标和危险物类别的置信度。

步骤4：通过距离转换公式将危险物边界框的像素坐标即b_x、b_y、b_w、b_h转换到世界坐标系中，并计算出危险物到该摄像头的水平距离I′L′；

如图3所示为照相机成像原理，图中ABCD表示照片，对应的地面真实图像为A’B’C’D’；MNPQ表示目标框，对应的地面真实框为M’N’P’Q’，记边MN上的中点I为目标点；O为相机，O’为相机坐标系原点，A为像素坐标系原点；相机向上倾斜与水平面夹角α＝30°

根据每个所述边界框的位置即(b_x，b_y，b_w、b_h)以及世界坐标系与像素坐标系的相互对应关系，计算得到世界坐标系下各线段长度

其中d_x，d_y表示照片分辨率，即像素的总行数与总列数，a_x、a_y为照片单个像素的高度。

O′O＝f，表示相机的有效焦距；

OH′＝h，表示相机到地面的垂直距离；

在RtΔO’OL中，由勾股定理，

在RtΔOO’L与ΔOH’L’中，设∠O’OL＝β＝∠O′OL′，则

因此

在RtΔOH’L’中，

进一步地，ΔOIL～ΔO’I’L’，因此

整理可得相机在地面上的投影点H’到目标点的实际距离：

步骤5：中央控制器根据第一处理器、第二处理器、第三处理器、第四处理器、第五处理器、第六处理器输入的标有危险物边界框的图像输送至车载显示器实时显示，将危险物的类别、危险物边界框的位置坐标以及危险物类别的置信度整理成一条信息输到语音转换器，生成危险警告的语音，由车载音响播报警告。

中央控制器整合检测结果，将标有危险物边界框的图像传输给车载显示器；将危险物的类别、位置和距离整合成信号传输给语音转换器，语音转换器收到信号后转换成语音，报告距离车辆哪个位置处有何种危险物，最后，由连接的车载音响将语音播报出来，警示驾驶员注意。

综上所述，本发明提出了一种汽车盲区报警系统，通过在6个盲区内设置摄像头实时监控盲区内的危险物，结合神经网络模型，各个处理器对采集到的图像迅速准确的检测，并通过转换公式估算危险物到车身的距离，通过中央控制器控制车载显示器显示标记了危险物的实时画面，控制语音转换器将危险信息转换成语音并由车载音响播报，以警示驾驶者危险。同时，还提出了一种神经网络模型，保留了传统网络模型的卷积训练的同时，加入了特征融合层，将低层特征与高层特征融合，实现了对小目标的检测准确度，不仅回归了目标边界框的位置和置信度，还回归了坐标的不确定性，相应地使用了结合了高斯函数的负对数似然比损失函数，降低了模型的误差，提高了模型的准确性和检测速度。

尽管本文较多地使用了左后视镜摄像头、车前摄像头、右后视镜摄像头、左车尾摄像头、车尾摄像头、右车尾摄像头、第一处理器、第二处理器、第三处理器、第四处理器、第五处理器、第六处理器、交换机、中央控制器、车载显示器、语音转换器、车载音响以及电源模块等术语，但并不排除使用其他术语的可能性。使用这些术语仅仅是为了更方便的描述本发明的本质，把它们解释成任何一种附加的限制都是与本发明精神相违背的。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.基于汽车盲区报警系统的深度学习汽车盲区报警方法，其特征在于，

所述深度学习汽车盲区报警方法，包括以下步骤：

步骤5：中央控制器根据第一处理器、第二处理器、第三处理器、第四处理器、第五处理器、第六处理器输入的标有危险物边界框的图像输送至车载显示器实时显示，将危险物的类别、危险物边界框的位置坐标以及危险物类别的置信度分别传输到语音转换器，生成危险警告的语音，由车载音响播报警告；

步骤1中所述网络模型为：

所述网络模型由三部分构成；

网络模型的L0层为输入层；

所述网络模型第二部分结构为：(L14、L15、L16)；

所述网络模型第三部分由L17、L18、L19、L20、L21构成；

再执行2倍上采样即L18，产生26×26×1024的张量，与所述网络模型第一部分的L9产生的26×26×256的张量连接为L19，产生张量大小为26×26×1280；接着为卷积层即L20，过滤器大小为3×3×256，步长为1，输出大小为26×26×256的张量；

接着为卷积层即L21，过滤器大小为1×1×87，步长为1，输出大小为26×26×87的张量，作为模型预测结果的第二部分；

所述网络模型的所有卷积层均采用Leaky ReLU函数；

网络模型的预测结果由所述网络模型第二部分的13×13×87的张量和所述网络模型第三部分的26×26×87的张量共同构成，可表示为S×S×87，S表示特征网格的行、列数；

该张量第三维大小为：

87＝3×(8+1+20)＝B×(8+Pr(object)+class)

是预测包围盒的宽和高相对于输入图像宽和高的比值；

代表对

的不确定性、

代表对

的不确定性、

代表对

的不确定性、

代表对

的不确定性；

class为目标的种类数(class＝20)，表示包围盒中的目标object存在的条件下，属于第m个类别class_m的概率为Pr(class_m|object)；

使用sigmod函数转换八个位置值

得到介于0和1之间的坐标即

∑t_x，∑t_y，∑t_w，∑t_h，所述转换公式为：

训练网络的损失函数模型包括为：

Loss＝L_x+L_y+L_w+L_h+L_obj+L_conf

其中，(L_x，L_y，L_w，L_h)为坐标损失，L_obj为分类损失，L_conf为置信度损失；

包围盒坐标的产生使用了正态分布模型即N(μ，σ²)，所述包围盒坐标损失使用修改的负对数似然损失-log(f(x)+ε)；

N是正态分布模型的符号；μ表示正态分布的均值，σ²表示方差；f(x)为似然函数(即N(μ，σ²))；ε表示随机影响因子；

i，j，k，m为下标索引，表示特征图上(i，j)处网格上的第k个包围盒，i，j∈(1，2...，S)，S∈(S1＝13，S2＝26)，k∈(1，2...，B)，m∈(1，2...，class)；

L_x计算如下：

其中，

为正态分布模型，

表示的是特征图上(i，j)处网格上的第k个包围盒中心点的

表示的是特征图上(i，j)处网格上的第k个包围盒中心点的横坐标的∑t_x，

x^G表示该真实框的中心点的横坐标占整张图片的比例；λ_coord＝5，用于增加包围盒预测坐标值的损失；

进一步地，L_y计算公式为：

其中，

为正态分布模型，

表示的是特征图上(i，j)处网格上的第k个包围盒中心点的

表示的是特征图上(i，j)处网格上的第k个包围盒中心点的∑t_y，

其中y^G表示真实框的中心点的横坐标占整张图片的比例；

L_w计算公式如下：

其中，

为正态分布模型，

表示的是特征图上(i，j)处网格上的第k个包围盒中心点的

表示的是特征图上(i，j)处网格上的第k个包围盒中心点的∑t_w，

表示特征图上(i，j)处网格上的第k个包围盒真实框的宽度，

其中w^G表示真实框的宽度占整张图片的比例，

表示第k个标定锚的宽；IW为输入图片的宽度；

L_h计算公式如下：

其中，

为正态分布模型，

表示的是特征图上(i，j)处网格上的第k个包围盒中心点的

表示的是特征图上(i，j)处网格上的第k个包围盒中心点的∑t_h，

表示特征图上(i，j)处网格上的第k个包围盒真实框的高度，

其中h^G表示真实框的宽度占整张图片的比例，

表示第k个标定锚的高；IH表示输入图片的高度；

γ_ijk表示对真实框的尺寸进行调整的比例系数：

w_scale＝2-w^G×h^G

其中，参数

否则为0；w_scale表示目标框的尺寸调整的权重；

所述置信度损失L_conf，采用二分类交叉熵损失：

其中，C_ijk为真实图片在网格(i，j)处第k个包围盒所在的区域内包含目标的置信度；

是网络模型预测的，在网格(i，j)处第k个包围盒所在的区域内包含目标的置信度，也就是上文说的Pr(object)；λ_noobj＝0.5，用于降低不包含目标的包围盒的置信度损失；

分类损失L_obj为：

为网络模型预测的，在网格(i，j)处第k个包围盒所在的区域内包含目标属于第m类的概率即所述的Pr(class_m|object)，class_m表示目标属于第m类，m∈(1，2...，class)；

锚的产生：所述网络模型采用锚计算预测包围盒，每个网格有S×S个包围盒，每个包围盒有B个锚，锚一共有2*B种尺寸，采用K-Means算法基于训练数据集聚类成2*B个组，得到2*B个尺寸锚值；

其中数据点到中心点的距离为：

d(box，centroid)＝1-IOU(box，centroid)

设置所述网络模型的初始学习率、冲量、权重衰减率、梯度衰减率，所述网络模型在训练集上迭代多次，得到训练后网络模型；

所述汽车盲区报警系统包括：左后视镜摄像头、车前摄像头、右后视镜摄像头、左车尾摄像头、车尾摄像头、右车尾摄像头、第一处理器、第二处理器、第三处理器、第四处理器、第五处理器、第六处理器、交换机、中央控制器、车载显示器、语音转换器、车载音响以及电源模块；

所述左后视镜摄像头与所述第一处理器通过导线连接；所述车前摄像头与所述第二处理器通过导线连接；所述右后视镜摄像头与所述第三处理器通过导线连接；所述左车尾摄像头与所述第四处理器通过导线连接；所述车尾摄像头与所述第五处理器通过导线连接；所述右车尾摄像头与所述第六处理器通过导线连接；所述左后视镜摄像头与所述第一处理器通过导线连接；

所述第一处理器与所述交换机通过网线连接；所述第二处理器与所述交换机通过网线连接；所述第三处理器与所述交换机通过网线连接；所述第四处理器与所述交换机通过网线连接；所述第五处理器与所述交换机通过网线连接；所述第六处理器与所述交换机通过网线连接；

2.根据权利要求1所述的基于汽车盲区报警系统的深度学习汽车盲区报警方法，其特征在于：

所述左后视镜摄像头安装在汽车车头左后视镜下方，向下倾斜使摄像头光轴与水平地面成α度角，每隔T秒采集一次汽车左前方A米范围内的图像，并将拍摄图像传输至所述第一处理器；

所述车前摄像头安装在汽车正前侧，向下倾斜使摄像头光轴与水平地面成α度角，每隔T秒采集一次汽车正前方B米范围内的图像，并将拍摄图像传输至所述第二处理器；

所述右后视镜摄像头安装在汽车车头右后视镜下方，向下倾斜使摄像头光轴与水平地面成α度角，每隔T秒采集一次汽车右前方A米范围内的图像，并将拍摄图像传输至所述第三处理器；

所述左车尾摄像头安装在汽车左车尾灯附近，向下倾斜使摄像头光轴与水平地面成α度角，每隔T秒采集一次汽车左后方A米范围内的图像，并将拍摄图像传输至所述第四处理器；

所述车尾摄像头安装在汽车正后侧，向下倾斜使摄像头光轴与水平地面成α度角，每隔T秒采集一次汽车正后方B米范围内的图像，并将拍摄图像传输至所述第五处理器；

所述右车尾摄像头安装在汽车车头右车尾灯附近，向下倾斜使摄像头光轴与水平地面成α度角，每隔T秒采集一次汽车右后方A米范围内的图像，并将拍摄图像传输至所述第六处理器。

3.根据权利要求1所述的基于汽车盲区报警系统的深度学习汽车盲区报警方法，其特征在于：