CN111860327A

CN111860327A - 一种基于视觉计算视频传输的图像检测与分析方法

Info

Publication number: CN111860327A
Application number: CN202010703552.4A
Authority: CN
Inventors: 王程
Original assignee: Guangzhou Daoyuan Information Technology Co Ltd
Current assignee: Guangzhou Daoyuan Information Technology Co Ltd
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2020-10-30

Abstract

本发明属于视频图像检测技术领域，具体涉及一种基于视觉计算视频传输的图像检测与分析方法。本发明包括：(1)动态图像目标检测；(2)设置背景目标的训练数据库地址；(3)设置分类标签，设置背景名以及背景两个标签；(4)分别设置训练神经网络时输入视频的大小、每次训练样本的数目、目标类别数、测试的准确率阈值；(5)构建卷积神经网络模型；(6)设置目标损失函数，并进行训练等。本发明是计算机领域下的视觉计算系统设计，具有高带宽、低延迟、非压缩、适合远距离无损传输等特点。持不少于3种计算资源的异构组合和高效协同，具备高效能计算、多模态图形图像处理、架构动态可重配置等能力。

Description

一种基于视觉计算视频传输的图像检测与分析方法

技术领域

本发明属于视频图像检测技术领域，具体涉及一种基于视觉计算视频传输的图像检测与分析方法。

背景技术

视觉计算主要涉及图像增强、图像拼接、三维表面重构、纹理映射以及目标识别与跟踪等关键技术。动态可重配置计算是指利用现场可编程门阵列、软件可定义等技术，动态改变计算机系统的硬件和软件功能，在有限的计算资源和功耗的情况下灵活地实现多样化嵌入式计算处理功能，显著提升计算机系统的灵活性、可扩展性和可重用性。根据可重配置部分的大小可分为全局动态可重配置和局部动态可重配置。中国作为世界上的人口大国，人口的密度非常高，无论是在日常生活中，还是在工作学习中，只要有人在的地方，都会有大量不可控因素导致这样或者那样的意外发生，进而产生不必要的危险。而随着摄像头的普及，监控网络无处不在，因此，基于视觉计算的情景理解分析就成为了非常必要的选择。通过对各种动态图像的学习，完成基于视觉计算的情景理解分析，包括场景检测和目标检测以及目标行为分析。由于视频监控的需求，检测必须要具有实时性与精确性，这是一项很严峻的挑战。因此实时精确的情景理解分析的研究具有很大的意义。(1)场景理解是情景理解分析试验中很重要的一部分，通过对场景进行高精度检测确定目标所处环境状态，用目标检测算法实现动态图像下的场景的高精度检测。(1)目标的行为检测是情景理解分析试验中另一个非常重要的一部分，人体的姿势估计是行为检测的基础，通过姿势估计算法预测出人的各个关键点，即人的姿势的估计图，(3)在姿势估计图的基础上，就特定行为对其进行了分析，完成行为检测试验，并在系统上进行了实现。因此我们有必要对目标检测方法以及目标姿势估计方法以及相应的行为检测方法进行深入的研究。

发明内容

本发明的目的在于出一种实现在复杂环境下的实时高精度目标检测与跟踪的基于视觉计算视频传输的图像检测与分析方法。

本发明的目的是这样实现的：

一种基于视觉计算视频传输的图像检测与分析方法，包括如下步骤：

(1)动态图像目标检测，建立与测试项目对应的标准值；构建背景目标的训练数据库，由各摄像头采集训练数据库的视频，对背景目标进行边界框标注；

(2)设置分类标签，设置背景名以及背景两个标签，设置背景目标的训练数据库地址，获取目标在测试区的视频图像；

(3)对所述视频图像进行图像预处理，得到预处理视频图像；

(4)分别设置训练神经网络时输入视频的大小、每次训练样本的数目、目标类别数、测试的准确率阈值；放大所述预处理视频图像得到视频图像矩阵，进行背景目标异常处理；

(5)构建卷积神经网络模型，根据所述训练样本的灰度值，确定检测样本的测试值；

(6)设置目标损失函数，并进行训练，比对所述测试值与所述标准值，确定检测结果。

(7)存储单元通过视频传输总线将输入的视频传递给异构计算单元；

(8)异构计算单元经过视觉计算后得到目标识别后的视频，并通过视频传输总线传递给显示设备；

(9)显示设备输出目标识别后的视频。

优选的，所述建立与测试项目对应的标准值，同时进行边缘定位，所述边缘定位步骤包括：

(1.1)建立边界框置信值；

(1.2)使用所述边界框置信值扫描所述视频图像矩阵，得到所述视频图像矩阵中所述的边缘位置坐标；

所述的边界框置信值为：

CON＝Pro(ob)×IOU

CON为边界框置信值，Pro为出现背景目标ob的概率，IOU为交并比。

优选的，所述目标的训练数据库地址为：

边界框的中心点坐标为(xc,yc)，对中心点坐标进行归一化，得：

w_i、h_j表示视频图像的宽度和高度，s为网格行列数，i、j为视频图像横坐标和纵坐标的标号，x表示归一化后的横坐标；y表示归一化后的纵坐标；

w_p、h_p分别为边界框对网格归一化的宽、高；(w，h)表示所述目标的训练数据库地址。

优选的，所述视频图像进行预处理的步骤包括：

(3.1)对所述视频图像进行裁剪处理，得到包含检测窗口的裁剪视频图像；

(3.2)对所述裁剪视频图像进行图像边缘检测以及图像边缘增强处理。

优选的，背景目标异常处理步骤包括：建立异物形状或颜色变化差异数据；根据边缘位置坐标以及所述异物形状或颜色变化差异数据扫描所述视频图像矩阵，逐行判断所述视频图像矩阵中的异常值；对所述异常值进行标记或者还原。

优选的，所述的输入视频的大小为

z_ij ^*为输入视频的大小，z_ij为视频图像中颜色点值；α为所有样本数据的均值；β为所有样本数据的标准差；

所述的训练样本的数目为：

(w，h)表示所述目标的训练数据库地址，CON为边界框置信值；

所述测试的准确率阈值为：

Cn＝c_kSnRn；

Rn为视频图像的光谱透射率；Sn为视频图像的光谱反射率。

优选的，异构计算单元经过视觉计算后得到目标识别后的视频，包括：

(8.1)异构计算单元接收云端需求；

(8.2)异构计算单元依据需求配置网卡阵列；

(8.3)网卡阵列接收网络数据并进行协议卸载；

(8.4)网卡阵列依据驱动将数据发送至GPU共享的多个内存块；

(8.5)GPU接管共享内存块并进行数据并行运算；

(8.6)GPU将计算结果放入系统主控单元共享内存；

(8.7)异构计算单元依据需求将计算结果进行存储、发送、转发的操作。

优选的，卷积神经网络模型：

y＝F(x′,c_k)Cn；

F为非线性激活函数，x′为网络层的输入；

卷积神经网络设输入层与隐含层的连接权值系数为v_i，隐含层与输出层的连接权值系数为w_i，隐含层和输出层的激励函数为f1，隐含层神经元节点输出为：

其中，n表示网络层数；

根据以上两个公式确定神经网络的模型。

优选的，训练卷积神经网络包括：

对卷积神经网络输入p个测试样本，得到输出值

得到第p个样本的误差函数E_p为：

其中

为期望输出，对全部的p个样本，全局误差函数E为：

其中，η∈(0,1)表示卷积神经网络的学习速率；

所述的目标损失函数loss：

γ为坐标误差，ε为置信值误差，s表示所述卷积神经网络的学习时间；

所述的异构计算单元进行视觉计算包括：

d_i表示为标号为i的点预测的位置与其真实位置的距离；

优选的，基于所述设置背景目标的训练数据库地址，完成对所述背景目标数据的训练的具体过程包括：

对所述设置背景目标的训练数据库地址进行平滑修正；

基于平滑修正结果，确定背景目标数据的样本集合，并作为训练的基准数据集合；

设置所述基准数据集合的最终学习率；

当基于所述基准数据集合进行初始训练时，记录所述初始训练的训练进度，并根据所述训练进度，确定训练学习率；

将所述训练学习率与所述最终学习率进行比较；

当所述学习率与最终学习率一致时，确定所述卷积神经网络是否收敛；

若收敛，停止对所述基准数据集合的训练；

否则，更新所述卷积神经网络的网络参数，获得第二卷积神经网络，同时，获取所述基准数据集合的训练权值；

对所述训练权值进行预设扭曲，获取所述基准数据集合的对抗样本；

基于所述第二卷积神经网络和对抗样本对所述基准数据集合进行多线程训练，直至所述第二卷积神经网络收敛，完成对所述背景目标数据的训练。

本发明的有益效果在于：

本发明是计算机领域下的视觉计算系统设计，具有高带宽、低延迟、非压缩、适合远距离无损传输等特点。输入为一段视频，经过视觉计算后，将目标识别后的视频作为输出。支持不少于3种计算资源的异构组合和高效协同，具备高效能计算、多模态图形图像处理、架构动态可重配置等能力。同时可实现并行计算和指令流的编程，支持分布式异构计算系统的功能按需灵活配置与资源规模扩展。支持视觉计算资源的动态配置。通过优化配置细粒度不同的并行计算模块，同时优化分布式异构计算系统的资源利用率和运行能耗，突破多模态视频融合与显示处理的速度和效能瓶颈，实现实时性需求情况下视觉计算规模的压缩优化。

通过设置背景目标的训练数据库地址进行平滑修正有利于网络在训练是不会过度相信训练样本是完全正确的，通过设置最终学习率，并且基于训练进度，更准确的确定训练学习率，如果学习率与最终学习率一致时，需要确定卷积神经网络的收敛性，从而使得学习结果更加准确，收敛时，完成对背景目标数据的训练，若不收敛，加入对抗样本，可以提高训练时的稳定性。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明针对多模态视频数据传输的高带宽、低延迟和灵活性需求，突破异构视觉计算系统对高带宽低延迟非压缩视视频传输的速度瓶颈，解决视频实时捕获能力不足问题。

本发明采用多尺度深度特征与先验框融合的目标检测算法以及基于双通道卷积网络的目标跟踪算法得以实现。

本发明提出了一套多模态图像实时处理技术框架，本发明从同源图像融合、多模态图像融合、多目标识别等三个方面展开：同源图像融合部分，首先利用视频增强与全景视图拼接技术得到高质量超视角的全景地形图像，实现同源不同视角图像的融合拼接；多模态图像融合部分，本发明基于塔型变换和主成分分析的多模态图像融合算法，通过有效的特征融合，充分挖掘多模态信息间的相关性、差异性及互补性；在多目标识别部分，本发明以卷积神经网络为框架，以多源融合图像为数据输入的目标检测与跟踪技术，从而实现实时高精度多目标检测与跟踪。

本发明提供了一种基于视觉计算视频传输的图像检测与分析方法，包括如下步骤：

(3)对所述视频图像进行图像预处理，得到预处理视频图像；

(9)显示设备输出目标识别后的视频。

本发明提供了一种基于视觉计算视频传输的图像检测与分析方法，所述建立与测试项目对应的标准值，同时进行边缘定位，所述边缘定位步骤包括：

(1.1)建立边界框置信值；

所述的边界框置信值为：

CON＝Pro(ob)×IOU

本发明提供了一种基于视觉计算视频传输的图像检测与分析方法，所述目标的训练数据库地址为：

，所述目标的训练数据库地址为：

本发明提供了一种基于视觉计算视频传输的图像检测与分析方法，所述视频图像进行预处理的步骤包括：

本发明提供了一种基于视觉计算视频传输的图像检测与分析方法，背景目标异常处理步骤包括：建立异物形状或颜色变化差异数据；根据边缘位置坐标以及所述异物形状或颜色变化差异数据扫描所述视频图像矩阵，逐行判断所述视频图像矩阵中的异常值；对所述异常值进行标记或者还原。

本发明提供了一种基于视觉计算视频传输的图像检测与分析方法，所述的输入视频的大小为

所述的训练样本的数目为：

(w，h)表示所述目标的训练数据库地址，CON为边界框置信值；

所述测试的准确率阈值为：

Cn＝c_kSnRn；

Rn为视频图像的光谱透射率；Sn为视频图像的光谱反射率。

本方案检测图像分析方法，通过预先建立与测试样本对应的标准值，基于样本的视频图像，检测时只需获取该视频图像即可快速准确分析出样本的检测结果，能够提高检测效率以及检测准确度。

本发明提供了一种基于视觉计算视频传输的图像检测与分析方法，异构计算单元经过视觉计算后得到目标识别后的视频，包括：

(8.1)异构计算单元接收云端需求；

(8.2)异构计算单元依据需求配置网卡阵列；

(8.3)网卡阵列接收网络数据并进行协议卸载；

(8.4)网卡阵列依据驱动将数据发送至GPU共享的多个内存块；

(8.5)GPU接管共享内存块并进行数据并行运算；

(8.6)GPU将计算结果放入系统主控单元共享内存；

本方案针对边缘端视频处理实时需求与计算性能浪费问题，最终目标是实现异构计算架构的边缘端图像处理系统，通过多FPGA与单GPU构建异构计算架构，实现网络传输带宽与计算性能的匹配，因此，不仅避免GPU并行计算资源浪费，又通过FPGA实现了数据传输低时延，保证实时性；

本发明提供了一种基于视觉计算视频传输的图像检测与分析方法，卷积神经网络模型：

y＝F(x′,c_k)Cn；

F为非线性激活函数，x′为网络层的输入；

其中，n表示网络层数；

根据以上两个公式确定神经网络的模型。

本方案在传统自适应学习算法的基础上，进行自适应学习，更新动量项。神经网络的一大功能是对非线性函数的拟合能力强，完成神经网络对输入函数的拟合过程，从而保证输出精度。

本发明提供了一种基于视觉计算视频传输的图像检测与分析方法，训练卷积神经网络包括：

对卷积神经网络输入p个测试样本，得到输出值

得到第p个样本的误差函数E_p为：

其中

为期望输出，对全部的p个样本，全局误差函数E为：

其中，η∈(0,1)表示卷积神经网络的学习速率；

所述的目标损失函数loss：

所述的异构计算单元进行视觉计算包括：

d_i表示为标号为i的点预测的位置与其真实位置的距离；

在此计算架构下，所使用的加速堆栈技术可有效的对整机进行系统级和单元级动态可重配置，由于使用的就是堆栈结构，每次重新配置时需要经历出栈-进栈的过程，因此这种结构的可扩展性非常强，添加或删减部件都不会影响整体架构设计方案。同时，由于智能计算节点和FPGA节点均使用相同的高速串行总线接口进行互联，因此在接口兼容的情况下，两者可以实现无缝替换。

视频数据协议中的发送与接收端基于接口控制文件(ICD)的定义进行各种通信要素的确定和统一，包括视频格式、像素信息、输出扫描方式、链路速率、帧速率、同步特性等，两端的ICD必须一致才能实现正确的发送与接收操作。发送端执行“实时提交”原则，一旦有视频数据，则基于FHCP协议和分帧原则进行帧的封装并实时将数据提交至链路，无需关心链路与接收端状态。接收端则在获取链路同步后实时接收链路上的数据帧，根据ICD文件要求完成整行图像数据的重组。为了避免由于链路故障而导致的视频输出错误，接收端需要采取以下原则：①当检测到链路失同步或8B/10B编码错误的情况下，需重新获取链路同步并等待直至下一个SOFi到来才开始正常接收；②当检测到CRC校验错误，则丢弃当前帧，停止接收并等待直至下一个SOFi到来才开始正常接收，这样保证了当链路故障情况下始终能够从下一幅图像的第一行数据完整显示输出。

本发明提供了一种基于视觉计算视频传输的图像检测与分析方法，基于所述设置背景目标的训练数据库地址，完成对所述背景目标数据的训练的具体过程包括：

对所述设置背景目标的训练数据库地址进行平滑修正；

设置所述基准数据集合的最终学习率；

将所述训练学习率与所述最终学习率进行比较；

若收敛，停止对所述基准数据集合的训练；

该实施例中，平滑修正是指对不断获得的实际数据和原预测数据给以加权平均，使预测结果更接近于实际情况的预测方法。

该实施例中，预设扭曲可以是数据中提前设置好的与对抗样本相对应的一个扭曲参数。

该实施例中，对抗样本可以是在数据集中通过故意添加细微的干扰所形成的输入样本，导致模型以高置信度给出一个错误的输出。在正则化背景下，通过对抗训练减少原有独立同分布的测试集的错误率。

上述技术方案的工作原理及有益效果是：通过设置背景目标的训练数据库地址进行平滑修正有利于网络在训练是不会过度相信训练样本是完全正确的，通过设置最终学习率，并且基于训练进度，更准确的确定训练学习率，如果学习率与最终学习率一致时，需要确定卷积神经网络的收敛性，从而使得学习结果更加准确，收敛时，完成对背景目标数据的训练，若不收敛，加入对抗样本，可以提高训练时的稳定性。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。