CN112100435A

CN112100435A - 一种基于边缘端交通音视频同步样本的自动标注方法

Info

Publication number: CN112100435A
Application number: CN202010939383.4A
Authority: CN
Inventors: 郭军; 王馨悦; 刘韬; 闫永明; 刘艳伟; 李晨光
Original assignee: Shenyang Dixin Artificial Intelligence Industry Research Institute Co ltd
Current assignee: Shenyang Dixin Artificial Intelligence Industry Research Institute Co ltd
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2020-12-18
Anticipated expiration: 2040-09-09
Also published as: CN112100435B

Abstract

本发明提供一种基于边缘端交通音视频同步样本的自动标注方法，涉及智能交通及边缘计算技术领域。该方法首先在边缘计算设备上连接麦克风和摄像头，同步采集高速公路交通音频和视频数据并存储；再采用基于混合高斯模型的背景差分法和简单在线实时跟踪算法相结合的车辆检测跟踪计数方法，统计高速公路交通视频数据中的交通流量；最后用高速公路交通视频中车流量的统计结果给同步的高速公路交通音频数据做标签，并将音频数据的文件名和车流量的统计结果写入到文件中，生成高速公路交通流量音频样本。该方法采用音视频结合的方式，用视频给音频作标签，避免了现有的视频监测方法存在摄像头受外界环境影响大、图像处理计算量大等问题。

Description

一种基于边缘端交通音视频同步样本的自动标注方法

技术领域

本发明涉及边缘计算技术领域，尤其涉及一种基于边缘端交通音视频同步样本的自动标注方法。

背景技术

近年来，随着大数据、云计算、人工智能技术的飞速发展，互联网产业正处在变革之中，传统云计算面临带宽和延迟两大问题时，边缘计算应运而生。在边缘计算中，由于带宽和能耗问题，不同类型的物联网设备生成的海量数据可以在网络边缘进行处理，而不是传输到集中式云基础设施，而随着边缘计算技术的发展，也越来越广泛应用于智慧交通领域。

目前高速公路交通监测常用方法有环形线圈检测，电磁波感应检测和视频检测等。随着图像处理技术、模式识别、机器学习和深度学习算法的不断发展，计算机数据处理能力的提高，基于视频检测的高速公路交通异常分析方法逐渐成为当前智能交通领域研究的主流方法。

但是上述方法中电磁感应线圈检测有易损坏、破坏路面的缺点；视频检测方法受环境影响大，在一些条件下视频检测会失效，如在雾霾，沙尘等极端天气条件和火灾引起的浓烟环境下，视频设备拍摄的画面不清或者无效；当前与高速公路上车辆有关的音频数据集比较少，而且在高速公路环境下音频数据采集难度非常大。

此外，边缘计算设备所处的环境不同造成高速公路交通音频样本差异较大，每个边缘端都需要根据具体环境特点建立个性化的分析模型，然而为每一个边缘计算设备采集和标注高速公路交通流量音频样本需要耗费的时间和人力资源很大，缺乏可操作性。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于边缘端交通音视频同步样本的自动标注方法，实现对基于边缘端交通音视频同步样本进行自动标注。

为解决上述技术问题，本发明所采取的技术方案是：一种基于边缘端交通音视频同步样本的自动标注方法，包括以下步骤：

步骤1：在边缘计算设备上连接安装麦克风和摄像头，同步采集高速公路交通音频和视频数据并存储；

步骤2：采用基于混合高斯模型的背景差分法和简单在线实时跟踪算法(SimpleOnline and Realtime Tracking，即SORT)相结合的车辆检测跟踪计数方法，统计高速公路交通视频数据中的交通流量，具体方法为：

步骤2.1：采用基于混合高斯模型的背景差分法对采集的视频数据进行车辆检测；

步骤2.1.1：边缘计算设备采集的高速公路交通视频图像中每个像素点的观测值相互独立，对高速公路交通视频图像中的每一个像素点分别用含有N个高斯分布的混合高斯模型来建立高速公路交通图像背景模型；

所述视频图像中像素点j在t时刻的混合高斯模型P(x_j)如下公式所示：

其中，N为混合高斯模型中高斯分布的个数，

表示像素点j在t时刻第i个高斯分布的权重系数，η()表示高斯分布概率密度函数，x_j表示像素点j在t时刻的取值，

和

分别表示像素点j在t时刻第i个高斯分布的均值向量和协方差矩阵，d是x_j向量的维度；

步骤2.1.2：用高速公路交通视频的第一帧图像的像素值初始化混合高斯模型，将混合高斯模型中的第一个高斯分布的均值赋值为第一帧图像的像素值，权重值赋值为1，第一个以外的高斯分布的均值和权重值都初始化为0；

步骤2.1.3：在t时刻，将高速公路交通视频图像中的像素值X_t同当前的N个高斯分布的均值进行比较，找到与高速公路交通视频图像中像素值X_t匹配的高斯分布，并对混合高斯模型中的参数进行更新；

所述找到与高速公路交通视频图像中像素值X_t匹配的高斯分布模型，即使高速公路交通视频图像中的像素值X_t与高斯分布的均值满足以下关系式：

其中，X_t表示为t时刻高速公路交通视频图像中的像素值，

表示为t-1时刻第i个高斯分布的均值，

表示为t-1时刻第i个高斯分布的标准差；

如果t时刻的像素值X_t与混合高斯分布模型中的任一高斯分布均不匹配时，则删除权重最小的高斯分布，加入一个新的高斯分布；

如果t时刻的像素值X_t与混合高斯分布模型中的至少一个高斯分布匹配时：

若X_t与第i个高斯分布匹配，则该高斯分布的参数按照如下公式进行更新：

其中，ρ表示为高斯分布参数的更新速率，α表示为学习速率，

表示为t时刻的像素值X_t的高斯分布概率，

和

分别表示为t和t-1时刻混合高斯模型中第i个高斯分布的均值，

和

分别表示为t和t-1时刻混合高斯模型中第i个高斯分布的方差；

若X_t与第i个高斯分布不匹配，则该高斯分布的均值和标准差不变；

步骤2.1.4：更新混合高斯模型中各高斯分布的权重系数，并将各高斯分布的权重值进行归一化；

所述更新混合高斯模型中各高斯分布的权重系数，如下公式所示：

其中，

和

分别表示为t和t-1时刻混合高斯模型中第i个高斯分布的权重系数；

步骤2.1.5：将构建的高速公路交通图像背景模型中的N个高斯分布根据权重和标准差之比ω/σ由大到小排序；

步骤2.1.6：从步骤2.1.5所得排序中选择前B个高斯分布作为背景模型，且B满足如下公式：

其中，T表示为高速公路交通视频图像背景占整个高速公路交通视频图像的比例；

步骤2.1.7：将t时刻边缘计算设备拍摄的高速公路视频图像中的所有像素值与t时刻得到的前B个高斯分布进行匹配：

若某像素值与前B个高斯分布某一个分布匹配，则该像素为高速公路交通图像的背景点；

若某像素值与前B个高斯分布均不匹配，则该像素为高速公路交通图像的前景点；

步骤2.1.8：根据t时刻边缘计算设备拍摄的高速公路图像中的前景点检测车辆的轮廓，并用矩形轮廓将车辆标识出来，车辆的矩形轮廓表示如公式：

BBox＝[x,y,x+w,y+h] (10)

其中，BBox表示车辆的矩形轮廓，x为矩形轮廓的左边界，y为矩形轮廓的右边界，w为矩形轮廓的宽度，h为矩形轮廓的高度；

步骤2.2：利用简单在线实时跟踪(Simple Online and Realtime Tracking,即SORT)算法对高速公路上的车辆进行实时跟踪；

步骤2.2.1：使用高速公路交通视频的第一帧图像中检测到的车辆轮廓创建并初始化车辆跟踪器，并初始化车辆跟踪器中每个目标车辆的状态信息state；

所述车辆跟踪器中每个目标车辆的状态建模表示为如下公式所示：

state＝[x',y',s,r,v_x,v_y,v_s] (11)

其中，x'表示为目标车辆中心点的水平坐标，y'表示为目标车辆中心点的垂直坐标，s表示为目标车辆边界框面积，r表示为目标车辆边界框纵横比，v_x表示为目标车辆运动速度在水平方向上的分量，v_y表示为目标车辆运动速度在垂直方向上的分量，v_s表示为目标车辆边界框的面积变化率；

步骤2.2.2：用t时刻之后的高速公路交通视频图像中的车辆轮廓更新车辆跟踪器；

步骤2.2.2.1：预测车辆跟踪器中每个目标车辆t时刻的状态和卡尔曼估计误差协方差矩阵，公式如下：

其中，

表示t时刻的目标车辆状态预测向量，F表示目标状态转移矩阵，state_t-1表示t-1时刻的目标车辆的状态向量，B'表示增益矩阵，u_t表示t时刻的目标车辆矩阵，

表示t时刻预测的目标车辆的卡尔曼估计误差协方差矩阵，F^T表示目标车辆的状态转移矩阵的转置矩阵，P_t-1表示t-1时刻状态转移误差协方差矩阵，Q表示状态噪声协方差矩阵；

步骤2.2.2.2：将t时刻车辆跟踪器中目标车辆的预测状态转换成目标车辆的矩形轮廓，并计算其和t时刻高速公路交通视频检测到的车辆矩形轮廓的IOU(IntersectionOver Union，即交并比)矩阵，得到当前帧的多个车辆检测框与车辆跟踪器中多个目标车辆的矩形轮廓的IOU矩阵；

步骤2.2.2.3：利用匈牙利指派算法得到最大匹配的IOU组合索引对；

步骤2.2.2.4：对最大匹配的IOU组合索引对进行筛选，去掉小于IOU阈值的索引对；

步骤2.2.2.5：根据车辆检测框和车辆跟踪器中目标车辆的匹配关系，将车辆检测框和车辆跟踪器中目标分为三个数组，分别为车辆检测框和车辆跟踪器中目标匹配数组、不匹配车辆检测框目标数组和不匹配车辆跟踪器目标数组；

对于车辆检测框和车辆跟踪器中目标匹配数组，用车辆检测框更新车辆跟踪器中目标状态，并计算卡尔曼增益系数，修正车辆跟踪器中目标车辆的状态和卡尔曼估计误差协方差矩阵，公式如下：

其中，K_t表示t时刻的卡尔曼增益系数，H和H^T表示目标车辆的状态观测矩阵及其转置矩阵，R表示观测噪声协方差矩阵，

表示t时刻目标车辆的修正状态预测向量，Y_t表示t时刻目标车辆的状态观测向量，即与该目标车辆匹配的车辆检测框信息，

表示t时刻目标车辆的卡尔曼估计误差协方差的修正矩阵，I表示单位矩阵；

对于不匹配车辆检测框目标数组，若车辆跟踪器中没有目标车辆与车辆检测框匹配，则为车辆检测框创建和初始化新的车辆跟踪器，并用卡尔曼滤波初始化目标车辆的状态信息；

对于不匹配车辆跟踪器目标数组，若连续T帧都没有车辆检测框与车辆跟踪器中目标车辆匹配，则该目标车辆消失，从车辆跟踪器中移除该目标车辆；

步骤2.2.3：将车辆跟踪器中每个目标车辆的状态转换为如下公式表示：

track＝[x,y,x+w,y+h,id] (17)

其中，track为车辆跟踪器中目标车辆的状态，id为车辆跟踪器中目标车辆的标识符；

步骤2.3：根据各帧的车辆跟踪器中目标车辆的标识符，统计高速公路交通视频中车流量；

步骤2.3.1：比较相邻帧的车辆跟踪器，若当前帧的车辆跟踪器中的目标车辆标识符id存在于前一帧跟踪器中，则此目标车辆为同一辆车；

步骤2.3.2：连接当前帧目标车辆下边框中心点和前一帧目标车辆下边框中心点；

步骤2.3.3：判断步骤2.3.2所得连接线与视频中的计数线是否相交，如果相交，则车辆计数器加一；否则执行步骤2.3.4；

步骤2.3.4：重复执行步骤2.3.1-2.3.3，直到视频结束，完成高速公路交通视频中车流量的统计；

步骤3：用高速公路交通视频中车流量的统计结果给同步的高速公路交通音频数据做标签，并将音频数据的文件名和车流量的统计结果写入到文件中，生成高速公路交通流量音频样本。

采用上述技术方案所产生的有益效果在于：本发明提供的一种基于边缘端交通音视频同步样本的自动标注方法，采用音视频结合的方式，用视频给音频作标签，避免了现有的视频监测方法存在摄像头受外界环境影响大、图像处理计算量大、网络传输带宽压力大和数据缺乏时空关系等问题，充分考虑了边缘计算设备的存储和计算能力，解决了面向特定边缘端的音频数据样本的个性化标注问题，减少了人工标注样本的作业量，同时适应样本多样性。

附图说明

图1为本发明实施例提供的一种基于边缘端交通音视频同步样本的自动标注方法的流程图；

图2为本发明实施例提供的边缘计算设备简易连接图；

图3为本发明实施例提供的高速公路交通视频原图；

图4为本发明实施例提供的背景差分效果图；

图5为本发明实施例提供的车辆轮廓标注图；

图6为本发明实施例提供的基于视频的高速公路交通流量计数可视化图；

图7为本发明实施例提供的高速公路交通流量计数结果图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例以树莓派3Model B作为边缘计算设备，采用本发明的一种基于边缘端交通音视频同步样本的自动标注方法对采集的某高速公路交通音频和视频数据进行标注。

一种基于边缘端交通音视频同步样本的自动标注方法，如图1所示，包括以下步骤：

其中，N为混合高斯模型中高斯分布的个数，一般取值为3～5，

和

分别表示像素点j在t时刻第i个高斯分布的均值向量和协方差矩阵，d是x_j向量的维度，因为高速公路交通图像的像素为RGB三通道，所以d＝3；

步骤2.1.3：为了使高速公路交通图像中的背景模型鲁棒性更强，需要在t时刻，将高速公路交通视频图像中的像素值X_t同当前的N个高斯分布的均值进行比较，找到与高速公路交通视频图像中像素值X_t匹配的高斯分布，并对混合高斯模型中的参数进行更新；

其中，X_t表示为t时刻高速公路交通视频图像中的像素值，

表示为t-1时刻第i个高斯分布的均值，

表示为t-1时刻第i个高斯分布的标准差；

其中，ρ表示为高斯分布参数的更新速率，α表示为学习速率，由用户指定，

表示为t时刻的像素值X_t的高斯分布概率，

和

和

其中，

和

BBox＝[x,y,x+w,y+h] (10)

步骤2.2.1：将步骤2.1所得结果作为输入，在进行高速公路车辆跟踪时，使用高速公路交通视频的第一帧图像中检测到的车辆轮廓创建并初始化车辆跟踪器，并初始化车辆跟踪器中每个目标车辆的状态信息state；

state＝[x',y',s,r,v_x,v_y,v_s] (11)

其中，

步骤2.2.2.4：对最大匹配的IOU组合索引对进行筛选，去掉小于IOU阈值的索引对，IOU阈值一般设置为0.3；

步骤2.2.2.5：根据车辆检测框和车辆跟踪器中目标车辆的匹配关系，将车辆检测框和车辆跟踪器中目标分为三个数组，分别为车辆检测框和车辆跟踪器中目标匹配数组(matches)、不匹配车辆检测框目标数组(unmatched_detections)和不匹配车辆跟踪器目标数组(unmatched_trackers)；

track＝[x,y,x+w,y+h,id] (17)

本实施例中，树莓派参数如表1所示。

表1树莓派参数表

项目	参数
		CPU类型	BCM2837
CPU主频	1.2GHz
		内存类型	ARM cortex-A53
内存容量	1GB
		网络介入	以太网、蓝牙、WiFi
扩展接口	40
		USB 2.0	4
总体尺寸	855617mm
		操作系统	Raspbian

本实施例使用树莓派官方500万像素摄像头，采集高速公路交通视频数据，摄像头与树莓派通过一条15芯的排线进行连接，然后修改树莓派配置开启摄像头模块。使用树莓派双麦克风扩展板ReSpeaker 2-Mics Pi HAT采集高速公路交通音频数据，麦克风扩展板与树莓派通过树莓派40针头相连接，修改树莓派配置开启声音模块，设备简易连接如图2所示。

树莓派采集高速公路交通音视频同步数据，然后对高速公路交通视频数据应用背景差分法检测视频中的车辆，应用SORT算法对视频中的车辆进行跟踪，统计高速公路交通视频中交通流量。用得到的交通流量数据给高速公路交通视频相应的高速公路交通音频数据做标签，最后生成基于音频高速公路交通流量计数模型的样本数据，本实施例分为一下三部分：

(1)车辆检测

使用背景差分法检测视频中的车辆，视频某一帧经过背景差分后得到前景车辆，然后用矩形框标注车辆轮廓。结果如图3-5所示，其中由上到下为视频原图，背景差分后效果图，车辆轮廓标注图，由图3-5可见，背景差分法可以有效地对视频中的车辆进行检测和标注。

(2)车辆跟踪并计数

对背景差分法检测的车辆进行跟踪，然后判断车辆是否经过交通流量计数线，当经过计数线时，计数器加一。由于车辆在相邻帧之间位移较小，为了减少处理时间同时保证结果的正确性，在处理视频时，每隔一帧进行车辆检测和跟踪，由于交通流量数据时间越长，没有车辆经过的时间累积越长，因此本实施例选择每隔5秒采集高速公路交通流量音频和视频数据。

一般情况下，将车辆在相邻帧之间的运动视为匀速直线运动，卡尔曼滤波有7个状态变量和4个观测输入，卡尔曼滤波的状态转移矩阵F，观测矩阵H，观测噪声协方差矩阵R，目标状态协方差矩阵P，系统噪声协方差矩阵Q初始化为：

本实施例对300段高速公路交通视频数据做处理分析，交通流量计数结果主要为0辆车、1辆车、2辆车和3辆车。将一段视频的交通流量计数过程可视化，计数过程如图6所示。

由此可以得出，本实施例提出的背景差分法和SORT结合的高速公路交通流量计数算法是一个有效的交通流量计数算法。据统计，用高速公路交通视频数据给音频数据做标签的实验结果准确率为88％，证明了基于边缘端交通音视频同步样本的自动标签方法的可行性和有效性。

(3)样本生成

同步采集高速公路交通音频和视频数据，同步的高速公路交通视频文件和音频文件的命名相同，因此将高速公路交通视频数据的交通流量计数结果以“文件名：交通流量计数结果”写入到文件中，生成高速公路交通流量音频样本，保存结果如图7所示。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。