CN103905824A

CN103905824A - 视频语义检索与压缩同步的摄像系统与方法

Info

Publication number: CN103905824A
Application number: CN201410115063.1A
Authority: CN
Inventors: 修文群
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2014-03-26
Filing date: 2014-03-26
Publication date: 2014-07-02

Abstract

本发明提供一种视频语义检索与压缩同步的摄像方法，包括个性化设置与应用两个阶段，其中，所述个性化设置包括：选择特定目标的集合；建立各特定目标的视频特征语义库；在离线环境下对样本视频进行样本训练，用以获取训练参数集；将训练参数配置于分类器中；所述应用包括：获取视频，开始压缩；在压缩域中提取关键帧；在所述关键帧提取运动对象；在关键帧或运动对象中提取语义特征；读取分类器中的训练参数集；将提取的语义特征与训练参数集进行匹配，获得视频语义的索引。本发明具有压缩与索引同步形成，从而充分发挥各摄像头的分布式处理能力，大为减少计算量，为使城市视频数据的大规模识别、高效内容检索提供基础。

Description

视频语义检索与压缩同步的摄像系统与方法

技术领域

本发明涉及视频数据处理领域，尤其涉及一种视频语义检索与压缩同步的摄像系统与方法。

背景技术

目前对于视频内容的搜索，一般采取图像特征识别或者图像语义抽取模式，两者都需要在视频采集后，通过模型算法或人工方法加以实施。面对城市管理中高速动态累积的海量视频数据，上述后期集中式处理难以获得满意效果。

原因在于：对于视频图像特征的语义识别（颜色、形状、纹理、速度），需针对原始图像进行相关处理，一旦视频被压缩传送到后台，再提取上述信息，需对图像进行二次解压缩，因而扩大了数据处理量。

发明内容

有鉴于此，有必要研发一种视频语义检索与压缩同步的摄像方法，以解决上述问题。

本发明的视频语义检索与压缩同步的摄像方法，包括个性化设置与应用两个阶段，其中，个性化设置包括：(1.1)选择特定目标的集合；(1.2)建立各特定目标的视频特征语义库；(1.3)在离线环境下对样本视频进行样本训练，用以获取所述特定目标的训练参数集；(1.4)将所述训练参数集配置于分类器中；所述应用包括：(2.1)获取实际视频，开始压缩，形成压缩域视频；(2.2)在压缩域中提取关键帧；(2.3)在关键帧中提取运动对象；(2.4)在关键帧或运动对象中提取语义特征；(2.5)读取分类器中的训练参数集；(2.6)将提取的语义特征与训练参数集进行匹配，获得视频语义的索引。

优选地，所述特定目标包括人流、车流、固定建筑物、路口中的一个或多个的组合。

优选地，所述语义库的包括形状特征、颜色特征、纹理特征及速度特征中的一种或多种的组合。

优选地，所述提取关键帧的方法包括根据视频压缩流中的关键帧I帧/P帧标记，或以固定时间间隔提取。

优选地，所述提取运动对象的步骤包括：在所述关键帧获取每个编码单元运动矢量；对所述运动矢量进行预处理；从所述运动矢量中提取运动矢量的幅度、角度；采用聚类等算法，根据所述幅度、角度以及其空间相关性、时间相关性特性提取区域运动对象；采用阈值分割方法分割运动特性分布图，提取运动对象；分割对象后处理，通过区域生长和纹理信息，优化所述运动对象的边缘。

本发明通过在摄像机端应用视频语义检索与压缩同步的摄像方法，将上述规则库的图像语义抽取步骤在视频采集压缩过程中同步进行，从而充分发挥各摄像头的分布式处理能力，大为减少计算量，使城市视频数据的大规模识别、高效内容检索成为可能。

附图说明

图1是本发明中视频语义检索与压缩同步的摄像方法的设置步骤的示意图。

图2是本发明中视频语义检索与压缩同步的摄像方法的设置步骤的示意图。

图3是本发明中在关键帧中提取运动对象的一实施方式示例图。

图4是本发明中在关键帧或运动对象中提取语义特征中的纹理对象为例的一实施方式示例图。

图5是本发明中所示为本发明实施方式中索引的结构示例图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清晰，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明中，视频语义检索与压缩同步的摄像方法包括二个部分：

第一部分是个性化设置，如图1所示，在使用前选择特定目标，并形成特定目标的训练参数集；

第二部分是应用，如图2所示，将采集的视频在压缩的同时，将在关键帧中提取的语义特征与训练参数集进行匹配，在完成压缩的同时，形成语义索引。

实施例1个性化设置

请参阅图1，所示为本发明中视频语义检索与压缩同步的摄像方法的个性化设置步骤，具体包括：

在步骤S101中，初始化，并选择特定目标的集合。

以智能城市中的监控探头为例，其特定目标包括：人流、车流、固定建筑物、路口等。

在步骤S102中，建立各特定目标的视频特征语义库。

语义库的内容通常包括形状特征、颜色特征、纹理特征及速度特征中的一种或多种的组合。其中，分别将上述特征转换成直方图，并进行归一化，使每种特征的度量空间一致，最后将三种特征矢量进行组合。

在步骤S103中，在离线环境下对样本视频进行样本训练，用以获取训练参数集。

通常训练参数集会设定预设的次数，并当达到预设次数后结束训练。所述训练方法包括但不限于采用神经网络等学习方法。

在步骤S104中，将训练参数配置于分类器中。请简单参阅图5，所示为构造的索引结构图，用于进行后续应用中的语义推理。

实施例2应用

请参阅图2，所示为本发明中视频语义检索与压缩同步的摄像方法的应用步骤，具体包括：

在步骤S201中，从摄相机端采集获取监控视频，并开始压缩。

在压缩过程中输出（或从压缩视频码流中提取）视频对象信息，包括运动矢量与分布、变换残差系数分布等，进行包括形状、纹理、运动速度等对象信息的结构化描述。包括压缩域的关键帧的提取、运动对象的提取、及纹理对象的提取。

在步骤S202中，在压缩域中提取关键帧。

提取关键帧的方式通常包括根据视频压缩流中的关键帧I帧/P帧标记，或以固定时间间隔提取。

在步骤S203中，在关键帧中提取运动对象。

视频对象的分割时机器人视觉的重要研究部分，其分割的依据主要是视频图像的时间、空间信息。包括通过颜色空间来确定待分割对象；通过跟踪对象的定位模型参数来提取物体的轮廓；基于颜色、运动和位置信息定位初始运动对象的方法等，其各有针对性。

在本实施例中，还提出了一种通过运动矢量进行提取的方法，可参照图3及后文的说明。

在步骤S204中，在压缩域的关键帧或运动对象中提取语义特征。

在步骤S205中，读取在设置阶段存储在分类器中的训练参数集。

在步骤S206中，将提取的语义特征与训练集参数进行匹配，获得视频语义的索引。

以智慧城市的交通系统为例，训练集参数中给出了固定建筑物、路段、车辆、行人的分结构化描述，如其轮廓（或形状）、颜色、纹理、速度等。

针对视频对象的结构化描述，结合离线训练参数集和相似度匹配信息，输入模式识别模块，识别视频对象的具体特性，并分类描述，例如大车小车分类，行人汽车分类，对象运动速度等，将识别的图像信息与已提取语义对象库进行匹配，获得视频语义描述，存入视频文件或单独文本文件中。

识别过程中，为进一步提高对象匹配和语义提取精度，可按照计算能力结合图像域识别信息，包括HSV，RGB等颜色空间信息，直方图信息，纹理与尺度变换信息等，进一步细化语义描述，并存入视频文件或单独文本文件。

请参阅图3，所示为图2中步骤S203中在关键帧中提取运动对象的一实施方式示例图。其主要步骤包括：

在步骤S301中，在已压缩视频或视频压缩的过程中，直接获取压缩视频流中（或视频压缩过程中编码器生成的）每个编码单元（如宏块或4x4块）运动矢量。

在步骤S302中，对运动矢量进行预处理，主要包括区域性平滑等。

在步骤S303中，从运动矢量中提取运动矢量的强度分量（即幅度），和角度分量（即角度）。

在步骤S304中，采用已公知的聚类等算法，根据幅度、角度以及空间相关性、时间相关性特性提取区域运动对象。

例如，a)分别统计幅度和角度直方图；

b)利用空间相关性，利用幅度和角度直方图分别计算空间方向的区域性运动矢量的幅度和角度，形成空间角度和幅度分布图；

c)利用时间相关性，利用幅度和角度直方图分别计算时间方向的运动矢量的幅度和角度，形成时间方向角度和幅度分布图；

d)将时间、空间上的幅度与角度分布图进行融合，运动特性分布图；

在步骤S305中，采用阈值分割方法分割运动特性分布图，提取运动对象。

在步骤S306中，分割对象后处理，通过区域生长和纹理信息，优化对象边缘。

请参阅图4，所示为图2中步骤S204中在关键帧或运动对象中提取语义特征中的纹理对象为例的一实施方式示例图。其主要步骤包括：

在步骤S401中，在以压缩视频流或者编码过程中的编码器，提取每个编码单元块的变换系数的直流系数和交流系数，即DC和AC系数，分别形成直流和交流系数的分布图。

在步骤S402中，将直流和交流系数的分布图进行预处理。

在步骤S403中，统计直流和交流分布图的直方图，采用聚类算法划分区域。

在步骤S404中，二值化将直流和交流系数较大的区域划分为纹理对象区域或背景区域。

在步骤S405中，处理优化对象轮廓。

请参阅图5，所示为本发明实施方式中索引的结构图，以智慧城市中交通资源库系统为例。

第一级索引包括：建筑、路段、车辆、行人；其中，

建筑的第二级包括：楼宇A、楼宇B等；

路段的第二级包括：一号路、二号路等；

车辆的第二级包括：机动车、非机动车、违章等，其中机动车的还可以包括大车、小车等。

行人的第二级包括：正常和闯红灯等。

在完成设置后，在应用过程中，视频资料在完成采集后，一边压缩，一边形成与图5相对应的索引。

有益效果：

1.压缩域内需要处理的数据量也比像素域少很多，因此计算量大大减少，存储数据的空间也大大减少；

2.从压缩域分割视频对象具有快速的特点，可解决传统的像素域分割难于满足实时分割的要求，更适合于有实时性要求的应用场合。

3.视频流中提供视频语义信息，有利于数据终端快速检索与识别，另外视频摄像端的额外计算量小，且可大幅降低数据终端计算量。

4.通过在设置阶段的学习，可以快速建立个性化需求的索引机制，为后期查找建立了便捷的途径。

在本实施方式中，摄像机包括但不限于手持式摄像机、智能手机、监控摄像头等具有摄像、存储及处理功能的摄像设备。

在本实施方式中，集成有上述方法的模块，主要安装在摄相机或城市监控探头一端，将上述基于规则库的图像语义抽取步骤在视频采集压缩过程中同步进行，从而充分发挥各摄像头的分布式处理能力，大为减少计算量，使城市视频数据的大规模识别、高效内容检索成为可能。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频语义检索与压缩同步的摄像方法，其特征在于，包括个性化设置与应用两个阶段，其中，

所述个性化设置包括：

(1.1)选择特定目标的集合；

(1.2)建立各特定目标的视频特征语义库；

(1.3)在离线环境下对样本视频进行样本训练，用以获取所述特定目标的训练参数集；

(1.4)将所述训练参数集配置于分类器中；

所述应用包括：

(2.1)获取实际视频，开始压缩，形成压缩域视频；

(2.2)在压缩域中提取关键帧；

(2.3)在所述关键帧中提取运动对象；

(2.4)在所述关键帧或所述运动对象中提取语义特征；

(2.5)读取分类器中的训练参数集；

(2.6)将提取的语义特征与训练参数集进行匹配，获得视频语义的索引。

2.如权利要求1所述的摄像方法，其特征在于，所述特定目标包括人流、车流、固定建筑物、路口中的一个或多个的组合。

3.如权利要求1所述的摄像方法，其特征在于，所述语义库的包括形状特征、颜色特征、纹理特征及速度特征中的一种或多种的组合。

4.如权利要求1所述的摄像方法，其特征在于，所述提取关键帧的方法包括根据视频压缩流中的关键帧I帧/P帧标记，或以固定时间间隔提取。

5.如权利要求1所述的摄像方法，其特征在于，所述提取运动对象的步骤包括：

在所述关键帧获取每个编码单元运动矢量；

对所述运动矢量进行预处理；

从经过预处理的运动矢量中提取运动矢量的幅度、角度；

采用聚类等算法，根据所述幅度、角度以及其空间相关性、时间相关性特性提取区域运动对象；

采用阈值分割方法分割运动特性分布图，提取运动对象；

分割对象后处理，通过区域生长和纹理信息，优化所述运动对象的边缘。