CN112784709A

CN112784709A - 一种远程多目标的高效检测和识别方法

Info

Publication number: CN112784709A
Application number: CN202110014959.0A
Authority: CN
Inventors: 谢巍; 陈定权; 周延; 许练濠
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2021-05-11
Anticipated expiration: 2041-01-06
Also published as: CN112784709B

Abstract

本发明公开了一种远程多目标的高效检测及识别方法，包括下列步骤：S1、终端通过限流算法将视频流处理成图片集S2、对图片集原始图片归一化成固定大小的样本图像；S3、将样本图像的像素点作为节点，用所有节点的邻接矩阵表示无向图的状态；S4、获取每个节点的s纬特征向量；S5、预先构建完备向量化的标签字典，将输出的特征矩阵通过字典得到标签的预测值；S6、终端将标签的预测值通过阈值筛选；S7、服务器根据标签结果生成对应哈希码，通过哈希码进入不同的目标识别模型通道；S8、服务器预先将所有的已知目标识别后存储成特征向量库，有效图片进入对应模型通道后解析成特征向量，和特征向量库比对后得到结果，反馈到终端。

Description

一种远程多目标的高效检测和识别方法

技术领域

本发明涉及计算机视觉和模式识别技术领域，具体涉及一种远程多目标的高效检测和识别方法。

背景技术

目前来说，目标识别是计算机视觉和模式识别领域的热点研究问题之一，如何降低服务器算力负荷和避免网络拥塞问题，成为目标识别中的一个重点和难点问题。

在人工智能发展初期，计算机很容易处理一些人类很难甚至是无法解决的问题，这些问题可以用一种形式化的数学规律来描述。人工智能真正面临的任务是那些很难用形式化符号描述的任务，自从深度神经网络算法首次在ImageNet数据集上大放异彩，物体检测领域逐渐开始利用深度学习来做研究。随后各种结构的深度模型被提出，数据集的准确率一再被刷新。实际上，深度学习模型在分类任务上将传统的方法远远地甩在身后。图像分类上明显的提升也带动了检测领域的快速发展。

到目前为止，高性能的检测算法都基于深度学习。最早的R-CNN(Region-basedCNN)首次使用深度模型提取图像特征，以49.6％的准确率开创了检测算法的新时代。早期的物体检测，都以滑动窗口的方式生成目标建议框，这种方式本质上与穷举法无异。

如今大部分远程目标检测运用在远程监控系统中，传统的远程识别方法是在边缘端的目标检测和识别中，前端采集信息，通过网络传到服务器，服务器使用算法匹配再将识别结果返回到终端，在专利《一种远程监控方法、装置及系统》使用传统的方法会有两个问题：(1)大量终端通过网络将视频流传到后端时候，会造成网络拥塞(2)视频中很多时刻并不存在目标，在服务器识别会占用服务器资源。

发明内容

本发明的目的在于提供种一种远程多目标的高效检测和识别方法，该方法是终端配置摄像头通过网络传输实现远程识别，终端先将终端信息压缩再使用高效的分类器，将摄像机采集到的信息筛选出有效的信息，再通过自身的网络模块将信息传递到服务器，服务器调用正确的网络模型比对有效信息，将识别结果呈现给终端，从而实现远程识别的方案。在保证高识别成功率的前提下大大减小服务器的运算负荷和网络流量，提高实用性。

本发明的目的通过以下技术方案实现。

一种远程多目标的高效检测和识别方法，包括下列步骤：

S1、终端将视频流处理成终端图片集，对终端图片集密度设置上限；

S2、对终端图片集原始图片归一化成固定大小的样本图像；

S3、将样本图像的像素点作为节点，每个节点与周围节点的距离值构造该节点的邻接矩阵，用所有节点的邻接矩阵表示无向图的状态；

S4、每个节点的邻接矩阵使用频域方法得到对应节点的s纬特征向量，最终m个节点构成m×s纬的特征矩阵；

S5、预先构建完备向量化的标签字典，将特征矩阵通过每层图卷积不断更新自己，将输出的特征矩阵通过字典得到标签的预测值，每个标签对应一种检测结果；

S6、终端将标签的预测值通过阈值筛选，把高于阈值的标签定义为有效标签，最终从M个图片中筛选出包含有效标签的N个图片发送到服务器。

S7、服务器根据标签结果生成对应哈希码，通过哈希码进入不同的目标识别模型通道，将选择模型的时间复杂度由O(n)降为O(1)；

S8、服务器预先将所有的已知目标识别后存储成特征向量库，有效图片进入对应模型通道后解析成特征向量，和特征向量库比对后得到结果，最后将识别结果通过网络反馈到终端。

优选的，步骤S1具体包括：

对视频采集fps设置固定时间内计数器count以及设置计数器最大值limit；

将某一个时刻t_i视频流转换成BITMAP格式的图片文件P_i；

给线程设置可调周期T采集，可调周期T满足以下公式的动态平衡：

优选的，所述对终端图片集原始图片归一化成固定大小的样本图像具体为：

式中，x_i表示原图像的像素点，min(x)和max(x)分别表示图像像素的最大值和最小值，norm表示归一化后的值，范围在0到1之间。

优选的，所述构造节点的邻接矩阵具体为：

确定图的特征结点个数N和结点连接状态，其中图像的像素点作为特征节点个数；

依次将每个像素点作为中心节点，与周围节点做欧式距离，如果距离小于距离阈值s确定两个结点连接一条边；

使用深度优先搜索得到邻接矩阵A^N×N,其中A[i][j]状态值根据搜索结果得到：

上式中z_i和z_j表示两节点在矩阵中的坐标，σ²表示样本图像中所有像素点到最远像素点距离的平均值。

优选的，所述使用频域方法得到对应节点的s纬特征向量具体为：

先将图G＝(V,E)转换为拉普拉斯矩阵L＝D-A,其中G表示无向图，V表示节点的集合，E表示边的集合，D为对角度矩阵，将对角线上的元素定义为顶点的度，即该元素链接的元素的个数，A为邻接矩阵；

将Laplacian矩阵L中的所有特征值作为一个节点的特征向量X。

优选的，所述特征矩阵通过字典得到标签的预测值具体为：

将N个节点的D维特征向量X组成初始特征矩阵H⁰；

通过图卷积基于图的结构不断迭代每层的特征矩阵：

上式中H表示每一层的特征矩阵,其中

A为邻接矩阵，I为单位矩阵，

既包括自身节点信息，也包括邻接节点的信息，

为顶点度矩阵，σ为非线性激活函数，W为权重矩阵；

预先获得已知分类图片作为样本集，样本集通过图卷积训练构造完备学习字典，将字典中单词作为标签，再将标签向量化：

上式中m为字典中的单词，M为字典,F₁,…,F_k是单词中的k个特征,F_j为第j个特征，P()为特征值计算公式；

最后通过节点特征嵌入到softmax分类器查询词典得到每个标签的预测值。

优选的，所述终端将标签的预测值通过预测阈值筛选具体为：

边缘端通过限流算法得到的边缘端图片集，共有有M张图片，将边缘端图片集中所有预测值大于预测阈值τ的标签保留下来作为text集合，低于预测阈值τ的标签忽略掉，最终text集合保留N张图片；

将发送到服务器的数据格式打包为{Text,Photo}的格式，其中Text为标签，Photo为图片。

优选的，所述服务器根据标签分类结果的哈希码选择所需识别目标的网络模型具体为：

对调用模型的接口制作hash选择器，每个hash选择器通过专有管道调用各种类型的目标识别模型；

接收到数据{Text,Photo}之后，根据Text标签生成对应的hash码

Hashcode＝H(Text)

上式H()为哈希函数；

hash选择器根据hash码进入不同通道，服务器调用该网络模型。

优选的，所述和特征向量库比对后得到结果具体为：

服务器存储所有目标的特征向量库，该向量库的结构是：

{M₁,x₁₁,x₁₂,x₁₃,....,x_1n}

…………

{M_i,x_i1,x_i2,x_i3,....,x_in}

上式M_i为可查询的识别结果，x_i1到x_in为该目标的特征向量；

最后将输入特征向量和特征向量库中的每个特征向量求欧几里得距离：

上述公式为人脸特征向量欧氏距离计算的公式，其中x_i为输入特征向量的第i维值，y_i为向量库的第i维值，n表示维度；

设置特征阈值σ为0.3，当求得dist(x,y)＜σ时认为结果为特征向量库中的某个特征向量所对应M_i，最终将结果M_i传到终端。

优选的，所述终端图片集与边缘端图片集的图片均通过限流算法获取。

与现有技术相比，本发明的有益效果在于：

1、本发明在远程实现目标识别的时候，首先将视频流处理成高密度的图片集，终端再通过分类器将图片集筛选，将持续的图片集分拣成有效的信息，远程终端通过自身的网络模块实现无线网络传输，将信息传到服务器识别，可以大大减小网络流量，避免网络拥塞，可以拓展路由下连接终端的数量。

2、保证高识别率的同时，通过算力分配，让终端进行检测筛选，让服务器的模型识别，边缘端和服务器端都分配不同的算法，从而减小服务器的计算压力，无需识别无效目标的图片，大大减小服务器的计算负荷从而提升效率，服务器通过标签哈希码调用不同的网络模型减小时间复杂度，更符合实际场景。

附图说明

图1为本实施例公开一种远程多目标的高效检测和识别方法具体实施方式的流程示意图；

图2为本实施例使用分类器和传统方法的性能分别结果图。

图3为本实施例公开一种远程多目标的高效检测和识别方法具体实施方式的场景示意图；

图4为本实施例每层卷积层迭代过程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合附图和具体实施方式，对本发明作进一步详细说明，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例公开了一种远程多目标的高效检测和识别方法，目的在于远程目标识别过程中，在保证高识别成功率的前提下避免网络拥塞问题和减小服务器负荷，从而更好地进行目标识别。本实施例中一种远程多目标的高效检测和识别方法的流程示意图如图1所示，具体包括以下步骤：

S1、终端连接720p像素高清摄像头，开启相机预览后，终端通过限流算法将视频流处理成图片集，原有相机预览画面为每秒约120帧，处理后可以得到每秒30到40张大小为60kb图片构成图片集，对图片集密度设置上限为视频流帧数的30％，减小重复信息概率，以此减小检测信息量。

所述步骤S1中的终端通过限流算法将视频流处理成图片集的过程包括：

S101、对视频采集fps设置固定时间内计数器count以及设置计数器最大值limit；

S102、将某一个时刻t_i视频流转换成BITMAP格式的图片文件P_i；

S103、给线程设置可调周期T采集fps，T应该满足以下公式的动态平衡：

将视频处理成图片集后会减小同一目标的重复率，同时也会减小信息的容量，量化表格如下所示；

	每秒钟同一目标出现次数	每秒终端处理信息量
			使用视频流	20-35次	3MB-6MB
处理成图片集	7-12次	1MB-2MB

S2、对图片集原始图片归一化成固定大小的样本图像。

所述步骤S2中的对图片集原始图片归一化成固定大小的样本图像的过程包括：

利用下式方法完成像素点的归一化：

S3、对样本图像使用邻接矩阵构建无向图。

所述步骤S3中的对样本图像使用邻接矩阵构建无向图的过程包括：

S301、确定图的特征结点个数N和结点连接状态，其中图像的像素点作为特征节点个数；

S302、依次将每个像素点作为中心节点，与周围节点做欧式距离，如果距离小于阈值s确定两个结点连接一条边；

S303、使用深度优先搜索得到邻接矩阵A^N×N,其中A[i][j]状态值根据搜索结果得到：

S4、对样本图像使用频域方法提取特征向量。

所述步骤S4中的对样本图像使用频域方法提取特征向量的过程包括：

S401、先将图G＝(V,E)转换为Laplacian矩阵L＝D-A,其中G表示无向图，V表示节点的集合，E表示边的集合，D为对角度矩阵，将对角线上的元素定义为顶点的度，即该元素链接的元素的个数，A为邻接矩阵；

S402、将L中的所有特征值作为一个节点的特征向量X。

S5、将特征向量通过图卷积得到标签的预测值。

所述步骤S5中的将特征向量通过图卷积得到标签的预测值的过程包括：

S501、将N个节点的D维特征向量X组成初始特征矩阵H⁰；

S502、通过图卷积基于图的结构不断迭代每层的特征矩阵：

上式中H表示每一层的特征矩阵,其中

A为邻接矩阵，I为单位矩阵，这样

既包括了自身节点信息，也包括了邻接节点的信息，

为顶点度矩阵，σ为非线性激活函数，W为权重矩阵；

每层迭代过程如下图4所示：图卷积中每个隐藏层都会对特征矩阵迭代，将前一隐藏层的输出作为为下一隐藏层的输入，初始特征矩阵作为第一层的输入，最后一层的输出作为最终的节点特征。

S503、建立训练图片样本集，将样本集构造过完备学习字典，将字典中单词作为标签，将标签向量化：

上式中s为字典中的单词，S为字典,F₁,…,F_k是单词中的k个特征；

S504、最后通过节点特征嵌入到softmax分类器查询词典得到每个标签的预测值。

S6、终端将标签的预测值通过阈值筛选，把高于阈值的标签定义为有效标签，最终从M个图片中筛选出包含有效标签的N个图片发送到服务器，减少服务器的计算压力到原来的N/M；

所述步骤S6中的边缘端筛选有效标签到服务器具体为：

S601、边缘端将所有预测值大于阈值τ的标签保留下来作为text集合，低于阈值τ的标签忽略掉；

S602、将发送到服务器的数据格式打包为{Text,Photo}的格式，其中Text为标签，Photo为图片。

S7、将网络模型对应每个标签，将标签数量设置2ⁿ以内避免哈希冲突，服务器根据标签分类结果通过分布式算法选择所需识别目标的网络模型。

所述步骤S7中的服务器根据标签分类结果通过分布式算法选择所需识别目标的网络模型具体为：

S701、对后台调用模型的接口制作hash选择器，每个hash选择器通过专有管道调用各种类型的目标识别模型；

S702、接收到数据{Text,Photo}之后，根据Text标签生成对应的hash码

Hashcode＝H(text)

上式H()为哈希函数；

S703、hash选择器根据hash码进入相关通道，服务器调用该网络模型，此方法能大大减小时间复杂度，。

如果有N个标签不同方法的时间复杂度对比为如下表格：

	最小时间复杂度	最大时间复杂度
			不使用哈希方法	O(N)	O(N)
使用哈希方法(有哈希冲突)	O(1)	O(N)
			使用哈希方法(没哈希冲突)	O(1)	O(1)

S8、将识别结果通过网络反馈到终端，终端显示识别结果。

所述步骤S8中的将识别结果通过网络反馈到终端，终端显示识别结果具体为：

S801、服务器存储所有目标的特征向量库，该向量库的结构是：

{M₁,x₁₁,x₁₂,x₁₃,....,x_1n}

…………

{M_i,x_i1,x_i2,x_i3,....,x_in}

S802、最后将输入特征向量和特征向量库中的每个特征向量求欧几里得距离：

上述公式为人脸特征向量欧氏距离计算的公式，其中x_i为输入特征向量的第i维值，y_i为向量库的第i维值；

S803、本实施例设置一个阈值σ为0.3，当求得dist(x,y)＜σ时认为结果为特征向量库中的某个特征向量所对应M_i，最终将结果M_i传到终端。

如图2所示，使用分类器和直接将采集图像信息传给服务器的方法的性能比较。以人脸作为目标为例在使用摄像头分辨率为720p，Android 7.1.2+四核Cortex-A17，主频1.8GHz，4GB内存的开发平台条件下，性能分析见下图，性能分析包括平均每个终端连接服务器时检测信息时的内存消耗从传统方法的5.6MB/S到本发明的1.8MB/S，可看出终端对视频流的处理速度有了一定的提升，减小了检测信息量，降低重复信息的检测率，平均每个终端连接服务器时网络传输流量从传统方法的5.6MB/S到本发明的0.5MB/S，可看出终端使用图卷积做分类器可以减少无效的信息传输，服务器对同一张图片的处理时间从传统方法的145ms到本发明的35ms，可看出服务器在多目标识别情况下调用对应的网络模型的时间复杂度降低。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。