CN110659333B

CN110659333B - 一种多层次视觉特征描述方法和视觉检索系统

Info

Publication number: CN110659333B
Application number: CN201910786387.0A
Authority: CN
Inventors: 殷海兵; 黄晓峰; 贾惠柱
Original assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Current assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2022-04-22
Anticipated expiration: 2039-08-23
Also published as: CN110659333A

Abstract

本发明涉及模式识别技术领域，特别涉及一种多层次视觉特征描述方法和视觉检索系统。包括：获得视频流；获取视频浓缩流，浓缩摘要流；提取特征信息；获取若干特征流；将若干特征流、视频流、浓缩摘要流组合生成多层次视频及视觉特征流；将多层次视频及视觉特征流在云端按照特征分类存储；云端根据终端的应用场景业务需求对云端存储的多层次视频及视觉特征流进行多种特征组合检索。本发明针对应用场景需求，提供多层次视觉特征描述方法，提出一整套视频大数据应用框架，可为不同层次检索分析应用提供弹性解决方案。

Description

一种多层次视觉特征描述方法和视觉检索系统

技术领域

本发明涉及模式识别技术领域，特别涉及一种多层次视觉特征描述方法和视觉检索系统。

背景技术

随着平安城市、平安校园、智慧城市等建设发展，城市安防系统日益完善，视频监控摄像头基本遍布城市各个角落。目前全国公安行业正在进行“雪亮工程”建设：一方面通过跨平台联网，将公安、交通、企事业单位、校园、城镇小区等不同行业类型视频监控系统进行联网，实现视频监控大平台；另一方面，近年来机器视觉深度学习等技术驱动的视频分析技术，逐渐在公安、交通等行业开始落地应用，可实现视频大数据碰撞，支持预警、决策、联动等。

大数据背景下，视频监控遭遇几大困境，飞速增长的视频监控数据使得传统视频监控体系架构、数据的管理方式、数据分析应用等面临新的困境。云计算、大数据技术的发展为安防行业发展带来前所未有的突破，但仍面临许多困境与挑战。包括：(1)目前普遍采用压缩视频流汇聚到云端，基于GPU平台进行智能分析，单路视频智能分析计算消耗大、成本高；(2)在实现大范围城市级视频数据分析感知过程中，面临海量摄像头数据汇聚网络带宽巨大、数据存储代价极高；(3)数据利用率低下：安防监控虽然数据量很大，但真正有用信息并不多。一方面有效信息可能只分布在一个较短时间段内，信息呈现幂率分布，往往越高密度的信息对客户价值越大；另一方面，数据有效性体现在深层次挖掘庞大的海量数据，关联得出有效信息。(4)智能算法性能亟待提高：目前非正面、非卡口场景目标检测识别、高效跟踪、行人重识别性能非常不理想，现有安防监控系统“老花眼”“近视眼”问题突出；基于传统摄像头解码视频智能分析性能更加恶化，行业急需基于原始视频提出新的智能视频分析技术，探索高性能目标检测、识别跟踪等算法。

如上分析，由于云计算是将所有数据统一汇聚到云端进行处理，存在诸如响应不及时、功耗高、网络带宽消耗大、存储成本高等问题。智能边缘前置是安防行业的必然趋势，业界急需一整套智能视频应用框架。

发明内容

本发明实施例提供了一种多层次视觉特征描述方法和视觉检索系统，本发明针对应用场景需求，提供多层次视觉特征描述方法，以行人为例包含浓缩摘要流、SIFT底层视觉特征、CNN高维深度特征、行人结构化描述特征、行人关键点序列特征、行人步态、异常事件标识等多层次特征，提出一整套视频大数据应用框架，可为不同层次检索分析应用提供弹性解决方案。

根据本发明实施例的第一方面，一种多层次视觉特征描述方法，包括：

获得视频流；

将所述视频流压缩获取视频浓缩流，从视频浓缩流截取摘要获取浓缩摘要流；

将所述视频流经过目标检测提取特征信息；

将视频流的特征信息进行目标追踪、目标优选，获取若干特征流；

将若干特征流、视频流、浓缩摘要流组合生成多层次视频及视觉特征流；

将多层次视频及视觉特征流在云端按照特征分类存储；

云端根据终端的应用场景业务需求对云端存储的多层次视频及视觉特征流进行多种特征组合检索。

所述云端根据终端的应用场景业务需求可以对多层次视频及视觉特征流采用特征匹配方法进行目标布控，并将异常事件经过云端发送给终端。

在所述将若干特征流、视频流、浓缩摘要流组合生成多层次视频及视觉特征流后，记录所述视频流的若干特征流的时间和所述视频流的摄像头位置，将时间和位置信息添加于多层次视频及视觉特征流。

所述若干特征流包括步态特征流、CDVS特征流、reID深度特征流、人脸ID特征流、车牌特征流、人体属性特征流、车辆特征流、关键点序列特征流中的一种或多种。

所述将所述视频流经过目标检测提取特征信息，包括：

提取所述视频流的数据帧，经过缩放得到固定尺寸图片，进入多目标检测器，检测出行人、车辆特征信息，若图片满足像素分辨率和角度条件，启用人脸和车牌检测器检测人脸和车牌特征信息。

一种多层次视觉特征的视觉检索系统，包括视频流模块、浓缩模块、特征信息提取模块、特征流模块、多层次流码复用模块、云端模块、终端模块，

视频流模块，用于接收摄像头所采集的原始视频数据和/或接收传统摄像头经过解码后的视频数据，将视频数据转换为视频流；

浓缩模块，用于将从视频流模块接收的视频流经过视频编码得到视频浓缩流，从视频浓缩流截取摘要得到浓缩摘要流；

特征信息提取模块，用于将从视频流模块接收的视频流经过目标检测得到所述视频流中的特征信息；

特征流模块，用于将从特征信息提取模块接收的特征信息进行目标追踪、目标优选得到若干特征流；

多层次流码复用模块，用于将从特征流模块接收的若干特征流、从浓缩模块接收的视频浓缩流、浓缩摘要流组合生成多层次视频及视觉特征流；

云端模块，用于将从多层次流码复用模块接收的多层次视频及视觉特征流在云端按照特征分类存储；

终端模块，用于根据应用场景业务需求对云端模块存储的多层次视频及视觉特征流进行多种特征组合检索。

还包括目标布控模块，云端根据终端的智能检索分析服务器的应用场景业务需求可以对多层次视频及视觉特征流采用特征匹配方法进行目标布控，实时监测目标信息。

还包括定时定位模块，记录所述视频流的若干特征流的时间和所述视频流的摄像头位置，将时间和位置信息添加于多层次视频及视觉特征流。

所述特征流模块包括步态特征流模块、CDVS特征流模块、reID深度特征流模块、人脸ID特征流模块、车牌特征流模块、人体属性特征流模块、车辆特征流模块、关键点序列特征流模块中的一种或多种，其中

步态特征流模块，用以提取步态特征流；

CDVS特征流模块，用以提取CDVS特征流；

reID深度特征流模块，用以提取reID深度特征流；

人脸ID特征流模块，用以提取人脸ID特征流；

车牌特征流模块，用以提取车牌特征流；

人体属性特征流模块，用以提取人体属性特征流；

车辆特征流模块，用以提取车辆特征流；

关键点序列特征流模块，用以提取关键点序列特征流。

所述特征信息提取模块包括：车辆检测模块、人体检测模块、人脸检测模块、车牌定位模块，

车辆检测模块，用以提取所述视频流的数据帧，经过缩放得到固定尺寸图片，检测车辆特征信息；

人体检测模块，用以提取所述视频流的数据帧，经过缩放得到固定尺寸图片，检测行人特征信息；

人脸检测模块，用以在图片满足像素分辨率和角度条件，检测人脸特征信息；

车牌定位模块，用以在图片满足像素分辨率和角度条件，检测车牌特征信息。

本发明实施例提供的技术方案可以包括以下有益效果：

本发明采用类似人眼视网膜的技术，对大量监控摄像头在边缘端进行视觉计算和场景分析，完成监控视频的浓缩转码和特定语义对象(行人、车辆)的各种特征提取，提供包含原始流、浓缩摘要流、特征流的多层次视频流，以及包含底层手动特征、深度特征、结构化特征、步态、关键点序列等多层次视觉特征，为实现多层级监控视频有效数据分析和信息云端智能应用提供系统支持。

本发明包括多层次视频流，包含视频基本流、浓缩摘要流、特征流的多层次视频流，不同层次视频流在端-边-云架构中汇聚存储的方法体系；具有多层次视觉特征：包含底层手工特征、深度特征、结构化特征、关键点时空序列特征、行人步态特征等不同层次视觉特征的提取和表示问题；基于不同层次视觉特征的视频检索问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是一种多层次视觉特征描述方法流程图；

图2是多层次视频及特征流码流图；

图3本发明一种多层次视觉特征的视觉检索系统框架图。

具体实施方式

实施例一

本发明提供了一种多层次视觉特征描述方法，包括：

获得摄像头采集原始视频数据得到视频流或传统摄像头RTSP传输视频数据经过解码获得视频流；

将视频流经过ROI视频编码得到视频浓缩流，从视频浓缩流截取摘要得到浓缩摘要流；

将视频流经过缩放和目标检测得到视频流中的行人、车辆等特征信息；优选的，针对特定的特征信息，可以输入于ROI视频编码，筛选视频浓缩摘要，形浓缩摘要流；

将视频流的特征信息进行目标追踪、目标优选和缩放后，得到若干特征流；其中包括步态特征流、CDVS特征流、reID深度特征流、人脸ID特征流、车牌特征流、人体属性特征流、车辆特征流、关键点序列特征流；

将若干特征流、视频流、浓缩摘要流按照AVS工作组数字视网膜工作组制定的标准生成多层次视频及视觉特征流；

优选的，记录视频流各个目标的时间time和摄像头位置(IP地址及对应位置信息)，将时间和位置信息添加于多层次视频及视觉特征流；

将多层次视频及视觉特征流在云端按照特征分类存储；

在云端根据终端的智能检索分析服务器的应用场景业务需求对存储的多层次视频及视觉特征流进行多种特征组合检索，包括基于结构化特征的对比检索(含行人车辆结构化，以及人脸结构化特征以及车牌比对)，基于ReID深度特征相似度检索，基于CDVS特征相似度检索，基于步态和关键点序列的检索、基于人脸结构化和行人图片中人脸部分结构化匹配的行人和人脸关联检索等；

优选的，云端根据终端的智能检索分析服务器的应用场景业务需求可以对多层次视频及视觉特征流采用特征匹配方法进行目标布控，实时监测目标信息。

实施例二

如图1所示，本发明提供了一种多层次视觉特征描述方法，包括：

本发明解决其技术问题所采用的技术方案是：提供一种多层次视觉特征提取表示方法，以及基于这些特征的视觉检索端到端系统框架，参照图1，包括以下步骤：

获得摄像头采集原始视频数据(YUV RGB)或传统摄像头RTSP传输视频流经过解码获得视频流(YUV RGB)；其中，RGB(RED GREEN BLUE),为红绿蓝三原色，YUV中Y表示亮度,UV表示色差信息，分别表示blue和Red的色差信息

经过缩放得到300*300或500*500图片，进入多目标检测器，检测出行人、车辆(采用业界主流的YOLO3或SSD)，并根据行人车辆角度及图片质量，决定是否启用人脸和车牌检测器，若图片样本满足像素分辨率和角度条件，启用检测器检测人脸和车牌；YOLO3是YOLO(You Only Look Once:Unified,Real-Time Object Detection)，是Joseph Redmon和AliFarhadi等人于2015年提出的基于单个神经网络的目标检测系统的第三版；SSD(全称Single Shot MultiBox Detector)是2016年ICCV的一篇论文，是目前为止主要的目标检测算法；

对检测到的特定目标进行ROI编码，给这些目标区域进行相对精细一点量化(Qp调小)，然后进行H264或H265格式视频编码，产生压缩视频基本流(ES)；

采用视频浓缩模块，获得浓缩流；根据检测跟踪的目标，基于目标构建目标级摘要流str；

每路视频启动多目标跟踪器(如SORT)，跟踪各个目标，记录目标时域轨迹；

经过图片优选模块，为每个目标选择多个(数量可配置，如1-3个)相对较优的图片块(bounding box)，选择策略可以取能量最大化或SSIM质量最高等准则；

对于优选的目标块，依次提取不同层级特征，这个过程根据应用场景需求，可以在前端摄像头里进行，也可以边缘域服务器上并发进行，或部分特征在前端摄像头而部分在服务器端进行，分配的原则是端到端算力消耗-码率及智能分析精度多目标性能最优。多个层次视觉特征如下：

①基于CDVS标准提取SIFT特征v1，长度8K或16K字节；

②基于深度网络提取行人和车辆ReID高维深度特征(可采用ResNet50，GLAD、Aligned ReID等)，2048*1或1024*1维，经过PCA压缩得到96字节特征数据v2；

③基于多标签分类网络(HydraPlusNet或VeSPA网络)，提取行人多种结构化属性若干种(如50种)，长度为32比特特征值v3_1、基于多标签分类网络(如Multitask_GoogleNet网络)检测车辆结构化属性若干种(如30种),长度为32比特特征值v3_2，以及人脸结构化特征(128个特征点)以及人脸识别(如MobileFaceNet)，获得长度为256字节的人脸结构化特征，以及车牌识别模块识别车牌(WPOD-NET)，长度8字节v3_3；并基于层级化RNN的人体骨架关键点序列提出方法，获得关键点序列特征按照AI标准工作组AI M1098提案编码特征v3_4。定义长度为2比特的字段mod3，用于区分v3_1,v3_2,v3_3,v3_4。

④采用行人提取行人步态特征(如GaitSet算法)，长度为15616*32比特特征值v4；

⑤采用特征匹配方法进行目标布控，比对目标图片和候选目标之间相似性程度，超出阈值判断布控到嫌疑人或车辆，给出异常目标或事件发生标识符v5；

记录各个目标的时间time和摄像头位置(IP地址及对应位置信息)location；

经过多层次码流复用模块，按照AVS工作组数字视网膜工作组制定的标准生成多层次视频及视觉特征流；如图2所示，码流组织如下：32比特起始码1,目标特征流，32比特起始码2,str,32起始码3,ES。对于每个目标5种可能视觉特征，码流组织如下：目标序号idx，time,location,v1,v2,mod3,v3,v4,v5。各个目标依次循环描述。

不同层级视觉特征流，在不同层级网络进行汇聚存储；

在云端根据应用场景业务需求进行多种特征组合检索，包括基于结构化特征的对比检索(含行人车辆结构化，以及人脸结构化特征以及车牌比对)，基于ReID深度特征相似度检索，基于CDVS特征相似度检索，基于步态和关键点序列的检索、基于人脸结构化和行人图片中人脸部分结构化匹配的行人和人脸关联检索等。

本发明首先获取原始YUV视频流和压缩视频流经过解码获得YUV视频流，经过基于深度学习的目标检测器(业界主流的SSD或YOLO)检测特定语义对象目标，如行人、车辆、人脸、车牌等；然后采用SORT等多目标跟踪器跟踪这些检测出的目标对象；一方面，基于目标对象检测跟踪结果，进行视频浓缩描述，产生浓缩摘要视频流；另一方面，经过目标优选模块为每个目标对象选择几个(数量可配置)最优图片框(bounding box)，然后经过多层级特征提取模块：(1)底层手工特征提取基于SIFT的CDVS特征，(2)卷积神经网络(如ResNet 50)表达的深度特征(维度可调节)，(3)特定语义对象的结构化特征，如行人、车辆结构化特征，以及人脸识别和车牌识别结果(结构化描述),(4)行人等目标的关键点序列表达特征；(5)行人步态特征；(6)目标布控

这些特征加上摄像头的位置和时间信息，产生视频特征流；然后，特征流和摘要流在端-边-云不同层级进行数据汇聚传输和存储，最后浓缩摘要流和特征流传输到云端，在云端重构出各个层级视觉特征，为大规模视频检索快速分析实现提供支持。

如图3所示，一种多层次视觉特征的视觉检索系统，包括视频流模块、浓缩模块、特征信息提取模块、特征流模块、多层次流码复用模块、云端模块、终端模块，

视频流模块获得摄像头采集原始视频数据(YUV RGB)或传统摄像头RTSP传输视频数据经过解码获得视频流(YUV RGB)；

浓缩模块将视频流经过ROI视频编码得到视频浓缩流，从视频浓缩流截取摘要得到浓缩摘要流；

特征信息提取模块将视频流经过缩放和目标检测得到视频流中的行人、车辆等特征信息；优选的，针对特征信息提取模块提取的特定的特征信息，可以输入浓缩模块，筛选视频浓缩摘要，形浓缩摘要流；

特征流模块将视频流的特征信息进行目标追踪、目标优选和缩放后，得到若干特征流；优选的，特征流模块包括步态特征流模块、CDVS特征流模块、reID深度特征流模块、人脸ID特征流模块、车牌特征流模块、人体属性特征流模块、车辆特征流模块、关键点序列特征流模块

其中包括步态特征流、CDVS特征流、reID深度特征流、人脸ID特征流、车牌特征流、人体属性特征流、车辆特征流、关键点序列特征流；

多层次流码复用模块将若干特征流、视频流、浓缩摘要流按照AVS工作组数字视网膜工作组制定的标准生成多层次视频及视觉特征流；

云端模块将多层次视频及视觉特征流在云端按照特征分类存储；

终端的智能检索分析服务器的应用场景业务需求对在云端存储的多层次视频及视觉特征流进行多种特征组合检索，包括基于结构化特征的对比检索(含行人车辆结构化，以及人脸结构化特征以及车牌比对)，基于ReID深度特征相似度检索，基于CDVS特征相似度检索，基于步态和关键点序列的检索、基于人脸结构化和行人图片中人脸部分结构化匹配的行人和人脸关联检索等；

优选的，还包括定时定位模块，定时定位模块记录视频流各个目标的时间time和摄像头位置(IP地址及对应位置信息)，将时间和位置信息添加于多层次视频及视觉特征流；

优选的，还包括目标布控模块，云端根据终端的智能检索分析服务器的应用场景业务需求可以对多层次视频及视觉特征流采用特征匹配方法进行目标布控，实时监测目标信息。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种多层次视觉特征描述方法，其特征在于，包括：

获得视频流；

将所述视频流经过目标检测提取特征信息；

将若干特征流、视频流、浓缩摘要流按照AVS工作组数字视网膜工作组制定的标准生成多层次视频及视觉特征流，所述多层次视频包括视频流、若干特征流、浓缩摘要流三个层次，视觉特征流包括步态特征流、CDVS特征流、reID深度特征流、人脸ID特征流、车牌特征流、人体属性特征流、车辆特征流、关键点序列特征流中的一种或多种层次的视觉特征流；

将多层次视频及视觉特征流在云端按照特征分类存储；

2.如权利要求1所述的一种多层次视觉特征描述方法，其特征在于，所述云端根据终端的应用场景业务需求可以对多层次视频及视觉特征流采用特征匹配方法进行目标布控，并将异常事件经过云端发送给终端。

3.如权利要求2所述的一种多层次视觉特征描述方法，其特征在于，在所述将若干特征流、视频流、浓缩摘要流组合生成多层次视频及视觉特征流后，记录所述视频流的若干特征流的时间和所述视频流的摄像头位置，将时间和位置信息添加于多层次视频及视觉特征流。

4.如权利要求3所述的一种多层次视觉特征描述方法，其特征在于，所述若干特征流包括步态特征流、CDVS特征流、reID深度特征流、人脸ID特征流、车牌特征流、人体属性特征流、车辆特征流、关键点序列特征流中的一种或多种。

5.如权利要求4所述的一种多层次视觉特征描述方法，其特征在于，所述将所述视频流经过目标检测提取特征信息，包括：

6.一种多层次视觉特征的视觉检索系统，其特征在于，包括视频流模块、浓缩模块、特征信息提取模块、特征流模块、多层次流码复用模块、云端模块、终端模块，

多层次流码复用模块，用于将从特征流模块接收的若干特征流、从浓缩模块接收的视频浓缩流、浓缩摘要流按照AVS工作组数字视网膜工作组制定的标准生成多层次视频及视觉特征流，所述多层次视频包括视频流、若干特征流、浓缩摘要流三个层次，视觉特征流包括步态特征流、CDVS特征流、reID深度特征流、人脸ID特征流、车牌特征流、人体属性特征流、车辆特征流、关键点序列特征流中的一种或多种层次的视觉特征流；

7.如权利要求6所述的一种多层次视觉特征的视觉检索系统，其特征在于，还包括目标布控模块，云端根据终端的智能检索分析服务器的应用场景业务需求可以对多层次视频及视觉特征流采用特征匹配方法进行目标布控，实时监测目标信息。

8.如权利要求7所述的一种多层次视觉特征的视觉检索系统，其特征在于，还包括定时定位模块，记录所述视频流的若干特征流的时间和所述视频流的摄像头位置，将时间和位置信息添加于多层次视频及视觉特征流。

9.如权利要求8所述的一种多层次视觉特征的视觉检索系统，其特征在于，所述特征流模块包括步态特征流模块、CDVS特征流模块、reID深度特征流模块、人脸ID特征流模块、车牌特征流模块、人体属性特征流模块、车辆特征流模块、关键点序列特征流模块中的一种或多种，其中

步态特征流模块，用以提取步态特征流；

CDVS特征流模块，用以提取CDVS特征流；

reID深度特征流模块，用以提取reID深度特征流；

人脸ID特征流模块，用以提取人脸ID特征流；

车牌特征流模块，用以提取车牌特征流；

人体属性特征流模块，用以提取人体属性特征流；

车辆特征流模块，用以提取车辆特征流；

关键点序列特征流模块，用以提取关键点序列特征流。

10.如权利要求9所述的一种多层次视觉特征的视觉检索系统，其特征在于，所述特征信息提取模块包括：车辆检测模块、人体检测模块、人脸检测模块、车牌定位模块，