CN105049790A

CN105049790A - 视频监控系统图像获取方法及装置

Info

Publication number: CN105049790A
Application number: CN201510342154.3A
Authority: CN
Inventors: 冯文刚
Original assignee: CHINESE PEOPLE'S PUBLIC SECURITY UNIVERSITY
Current assignee: CHINESE PEOPLE'S PUBLIC SECURITY UNIVERSITY
Priority date: 2015-06-18
Filing date: 2015-06-18
Publication date: 2015-11-11

Abstract

本申请提供一种视频监控系统图像获取方法，其包括：获取监控视频中的一个帧，即获得该帧表示的图像；按照预定噪声去除规则去除所述图像中的噪声数据；按照预定对象识别规则在所述去除噪声数据的图像中识别目标对象；为所述帧添加标签，所述标签能基于语义表达目标对象的预定特征；对应所述帧存储所述标签。本申请通过对提取的视觉底层特征，按照预定的算法映射到便于人直观理解的高层语义信息，并在此基础上实现对视频监控图像数据的分类和标注，较好的表达视频监控图像数据的语义，减小甚至消除图像底层特征与人类丰富语义内容之间的“语义鸿沟”，实现视频监控图像的快速、高效的获取。

Description

视频监控系统图像获取方法及装置

技术领域

本发明属于多媒体技术领域，尤其涉及一种视频监控系统图像获取方法及装置。

背景技术

与文本信息相比，图像、视频包含的信息丰富，其以直观、生动和实时等优点而广泛应用于各行各业。

对于大范围区域的视频监控，理论上可以使用大量摄像机将监控区域全面覆盖，这些摄像机在视域上互相重叠或者相邻。这种摄像机布置方式的监控系统成本较高；而且也没有必要，因为并非所有的区域都需要监控。因此，在实际监控系统中，为了降低成本，通常在重要区域布置摄像机，每个摄像机仅覆盖一块需要监控的区域。虽然这些摄像机视域间会留下监控盲区，但每个摄像机并不孤立，目标会通过盲区在不同摄像机视域间转移。这样，通过合理的配置，少量摄像机就可构成一个能覆盖大片区域的监控系统，称之为无重叠视域多摄像机(Non-OverlappingMulti-Camera)监控系统。

无重叠视域多摄像机监控系统是安全防范系统的主要组成部分，是一种防范能力较强的综合系统。随着经济社会的发展，人们对安全监控的需求层次提高，因此在各种重要场合安装大量的摄像机，形成的无重叠视域多摄像机监控系统每一时刻都会产生大量的图像、视频数据，图像、视频数据给人们的工作生活带来极大便利的同时，也使得从大量图像、视频数据中快速准确地寻找感兴趣的目标对象变得十分困难。

发明内容

为了克服现有技术难以快速准确的从大量的图像、视频数据中寻找感兴趣的目标对象，本发明一方面提供了一种视频监控系统图像获取方法。技术方案如下：

一种视频监控系统图像获取方法，其包括：

获取监控视频中的一个帧，即获得该帧表示的图像；

按照预定噪声去除规则去除所述图像中的噪声数据；

按照预定对象识别规则在所述去除噪声数据的图像中识别目标对象；

为所述帧添加标签，所述标签能基于语义表达目标对象的预定特征；

对应所述帧存储所述标签。

对应地，本发明另一方面提供了一种视频监控系统图像获取装置，其包括：

获取单元，所述获取单元用于获取监控视频的一个帧，即获得该帧表示的图像；

去噪单元，所述去噪单元用于按照预定噪声去除规则去除所述图像中的噪声数据；

识别单元，所述识别单元用于按照预定对象识别规则在所述去除噪声数据的图像中识别目标对象；

添加单元，所述添加单元用于为所述帧添加标签，所述标签能基于语义表达目标对象的预定特征；

存储单元，所述存储单元用于存储所述帧对应的标签。

借由以上的技术方案，本发明的有益效果在于：本申请通过对提取的视觉底层特征，按照预定的算法映射到便于人直观理解的高层语义信息，并在此基础上实现对视频监控图像数据的分类和标注，较好的表达视频监控图像数据的语义，减小甚至消除图像底层特征与人类丰富语义内容之间的“语义鸿沟”，实现视频监控图像的快速、高效的获取。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例方法的流程示意图；

图2为一视频监控图像的示意图；

图3为本发明另一实施例方法的流程示意图；

图4为本发明一实施场景的示意图；

图5为本发明一实施例装置的模块结构示意图；

图6为本发明另一实施例装置的模块结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在过去的三十几年时间里，基于内容的图像检索(ContentBasedImageRetrieval，CBIR)成为研究热点，其目的是找到一种高效的方法，可以在大容量的图像数据库中，自动完成图像的检索过程，并且能够最大限度的减小图像底层视觉特征与人类丰富语义内容之间的“语义鸿沟”。

当前大量的基于内容的图像检索思想都是使用颜色、纹理、形状及区域等视觉底层特征来获得图像内容信息，衡量图像之间的相似程度以实现基于内容的检索。然而，这些所谓的图像内容信息反映的只是图像的一些客观统计特性，并不能真正被人类视觉理解，人们判断图像的相似性并非建立在图像的颜色、形状的相似性上，而是主要根据图像的含义来判断图像是否符合自己的需要，这些图像含义即是图像的高层语义知识。

此外，现有技术中基于颜色、纹理、形状及区域等视觉底层特征获得图像内容信息不具有时空连续性。例如：基于颜色特征的检索方法抽取的特征向量是颜色直方图，虽然能够较好地反映图像中各种颜色的频率分布，但实际监控系统的多个摄像机采集的监控图像中，与目标对象的颜色相同或相似的对象较多，从而导致检索得到的并不是想要的；且由于环境光照强度、拍摄角度、成像特性、对象远近等差异，不同摄像机采集到的同一对象的颜色也会有差异。

所以，理想的图像检索模式应该是基于图像高层语义特征的检索。例如，用户需要查找“骑电动车、戴头盔的人”，这就要求系统能够自动识别“电动车”和“头盔”等语义信息。然而，目前的计算机视觉和图像理解技术还不能自动提取图像的语义特征，只能借助图像的外观轮廓和基于专业监控人员个人知识水平的辨别。但是，这种查找方式费时费力，且效率低下。实验表明，一名专业监控人员在同时查看两台视频监控器的情况下，22min之后将会错过95％的应监视目标。此外，西方有句谚语，“apictureisworthathousandwords”，一幅图像本身包含的语义信息非常丰富，不同的人对同一幅图像的语义理解不尽相同，给出的查询结果是基于不同的人的主观认识，自然也就千差万别。

解决这一问题的方法是寻求有效地、具有一定语义意义的特征描述方法，并且该方法可以将视觉底层特征映射到便于人直观理解的高层语义。

CBIR的本质是在提取视频监控图像的视觉底层特征的基础上，从图像库中找出与查询图像相关或相似的对象。这实质上蕴含着一个前提：即语义相关的对象具有相似的视觉底层特征。这就使得对视频监控图像进行语义信息分类、加注分类标签成为可能。

本申请基于上述理论，通过实现基于内容的图像分类、加注分类标签来提取便于人直观理解的高层语义信息。具体地，本申请提供的一种实施方式的流程图如图1所示。

该实施例可以包括：

S10：获取监控视频中的一个帧，即获得该帧表示的图像。

本实施方式获取监控视频的是单帧图像。获取的方式可以是通过单兵装备摄像头、车载摄像头或监控摄像头获取相对应环境中目标区域的视频图像，能反映需控制、处理、监管等场景的环境和周边信息。

S20：按照预定噪声去除规则去除所述图像中的噪声数据。

图像在获取、传输和存储过程中常常会受到各种噪声的干扰和影响而使图像降质。为了得到高质量的数字图像，有必要对图像进行降噪处理，尽可能在保持原始信息完整性的同时，并能够去除信号中无用的信息。

视频图像去噪的最终目的是改善给定的图像，解决实际图像由于噪声干扰而导致图像质量下降的问题。通过去噪技术有效地提高图像质量，增大信噪比，更好的体现原来图像所携带的信息。

目前对图像进行去噪处理的方法基本可分成两类：空间域法和变换域法。前者是在原图像上直接进行数据运算，对像素的灰度值进行处理；常见的空间域图像去噪算法有邻域平均法、中值滤波、低通滤波等。后者是在处理像素点领域有关的空间域上进行运算，对图像进行某种运算，将图像从空间域转换到变换域，再对变换域中的变换系数进行处理，再进行反变换将图像从变换域转换到空间域达到去除图像噪声的目的。其中，傅里叶变换和小波变换是常见的用于图像去噪的变换方法。由于去噪方法是较为成熟的技术，因此本申请实施例可根据实际情况自由选择上述方法，不构成对申请的限制。

鉴于视频监控系统大多是对可动目标对象的监控的特殊性，本申请的一个实施方式中，将不需监控或重点监控的不可动背景与可动前景进行分离，即将获取的监控视频的背景部分作为噪声数据的一部分去除。例如图2所示的是一幅监控视频图像的示意图。图中包含在背景部分中的斑马线、树以及其他固定建筑物如加油站、商店等在监控视域中始终保持位置不动；而相应的行人、汽车等在监控视域中随时可动。且实际情况是包含在背景中部分中的斑马线、树等位置不可动的目标对象是不需监控或重点监控的，因此将其作为噪声数据加以去除。如此，不仅可以大幅降低储存容量，而且在后续的检索过程中，可缩小检索范围，提高检索效率和准确度。

S30：按照预定对象识别规则在所述去除噪声数据的图像中识别目标对象。

对图像进行检索的目的是要识别其中的目标对象，首先要提取目标对象的特征，并依据该特征识别对象。因此图像检索的主要问题之一就是图像底层特征的提取。本申请实施方式即是基于对去噪后的图像中的目标的特征提取以实现目标对象的识别。

语义检索是基于人感知的，所以选取的特征本身要具有较为直观的视觉意义，即较强的视觉表达能力。本申请可以提取图像底层特征可以包括颜色、纹理、形状和景深。

1、颜色

颜色是物体表面的一种重要视觉性质，是人识别图像的主要感知特征之一；与描述图像的形状、纹理等特征相比，颜色特征是CBIR最基础的图像视觉特征，是图像表示与检索中使用的最直接的方法，主要原因在于颜色特征计算简单，其信息和图像中具体物体与场景类别十分相关。此外，颜色特征对图像本身的尺寸、方向、视角的依赖性相对较小。

但实际中，由于环境光照强度、拍摄角度、成像特性、对象远近等差异会引起的不同摄像机采集到的同一对象的颜色出现差异。为了解决这一问题，获取稳定地、具有唯一性地目标特征表达，可以利用颜色转移方法或颜色转换方法消除颜色差异，提高颜色特征的鲁棒性。

在利用颜色转移方法或颜色转换方法消除颜色差异之前，可以首先对采集得到的视频监控图像进行增强预处理。

研究表明，人类视觉系统以高度非线性的方式来感知物体的光照强度。但摄像机等成像过程则较为简单。一般情况下，摄像机所成的像与人类直接的感知是不同的，这种情况在物体的动态范围较大时更加明显。动态范围是指场景中最亮和最暗物体亮度之间的比值。由于采用了区域自适应的方法，人类视觉系统可感知大于1000：1的动态范围，而通常的显示器仅可显示100：1的动态范围。当物体动态范围大于显示器所能显示的范围时，需对图像进行动态范围压缩，以使其适于显示器。简单的色调映射方法采用全局的对数函数、Gamma校正或Sigmoid函数来压缩图像的动态范围，容易造成局部的细节丢失。较高级的色调映射均采用区域自适应的方法，基于Retinex的方法是其中一类。

Retinex理论是Land于1963年提出的基于人类视觉调节感知到物体的颜色和亮度的模型，其基本思想是人感知到某点的光照并不取决于该点的绝对光照值，还和其周围的光照值有关。Retinex增强处理可以改善图像颜色恒常性，压缩图像动态范围，提高对比度，有效显示淹没在阴影区域中的细节。Retinex方法应用在本申请实施方式的步骤是首先对采集得到的视频监控图像进行光照估计，然后在对数域从视频监控图像中减去光照，抑制光照变化对图像的影响，得到增强后的图像。

利用Retinex算法对采集得到的视频监控图像进行增强处理后，采用颜色转移或颜色转法对该增强的视频监控图像进行消除色差处理，提高颜色特征的鲁棒性。对视频监控图像进行消除色差处理是去除图像噪声的重要组成部分。

2、纹理

纹理特征是所有物体表面共有的内在特性和对图像表面空间结构和属性的反映，是一种不依赖于颜色或亮度的反映图像同质现象的视觉特征。纹理特征包含了物体表面结构组织排列的重要信息，其表现为图像上灰度或颜色分布的规律性，因此通常被看作图像的某种局部性质，或是对局部区域中象素之间关系的一种度量。

常用的图像纹理特征有共生矩阵，小波纹理，Tamura纹理特征等。其中，Haralick等利用共生矩阵描述图像纹理特征的方法，从数学角度研究了图像中灰度级的空间依赖性并采用矩阵的形式记录这种依赖性的统计信息。灰度共生矩阵统计的是颜色强度的空间分布信息，根据图像象素间的方位和距离关系构造共生矩阵(co-occurrencematrix)，从中提取有意义的统计特征作为纹理特征的描述。

视频监控图像的特点是目标常处于移动状态中。在非刚体目标跟踪或者长时间目标跟踪中，目标轮廓等全局特征可能变化较大，而局部特征则有良好的不变性，因此局部特征点方法是较好的选择。

本申请实施方式可以采用局部二元模式(LocalBinaryPattern，LBP)描述子对人脸进行检测，以提高对行人的检索精度和检索速度。

3、形状

形状特征以对图像中物体和区域的分割为基础，是图像表达和图像理解中的重要特征。直观上，人们对物体形状的变换、旋转和缩放不敏感，所以提取的形状特征也具有对应的不变性，是一种有效的图像区域形状描述子。

4、景深

对视觉注意力来说，从单幅图像中提取的景深是一个一般性地、自顶向下地特征，当目标放置在摄像机的聚焦区域以外就会出现散焦模糊。

本申请实施方式景深特征的提取方法可以包括两个主要步骤。首先，估计单幅图像边缘的模糊程度。然后，对边缘的模糊度进行高斯加权从而得到每个基本区域的相对景深。单幅图像景深图的具体计算方法如下：

首先，用标准差为σ₁的高斯核对图像进行二次模糊。然后，在图像的边缘处计算原始图像的梯度和二次模糊图像的梯度的比值T。图像边缘处的模糊程度σ可以根据如下公式计算：

σ = \frac{1}{\sqrt{T^{2} - 1}} σ_{1} - - - (1)

本申请用Canny边缘检测子提取图像的边缘，设置二次高斯模糊的标准差为σ₁＝1。然后，把图像所有边缘处的模糊程度σ归一化到[0，1]区间。

随后，基本区域m的相对景深W_m定义为图像所有边缘模糊程度的高斯加权平均值：

W_{m} = \underset{(i, j) &Element; M}{Σ} (1 - σ (i, j)) \cdot f (i, j, i_{p_{m}}, j_{p_{m}}) - - - (2)

(i,j)是基本区域m的像素点的坐标，σ(i,j)是边缘像素点M(i,j)的模糊程度，高斯权重定义为：

f (i, j, i_{p_{m}}, j_{p_{m}}) = \exp (- \frac{1}{2 σ_{W}^{2}} | | (i, j) - (i_{p_{m}}, j_{p_{m}}) | |^{2}) (i_{p_{m}}, j_{p_{m}}) &Element; V_{ij} - - - (3)

其中属于(i,j)的邻域V_ij，σ_W为相对景深的二次高斯模糊标准差，其用于抑制景深对于边缘像素点M(i,j)和基本区域m间距离的敏感性。σ_W取值对景深特征具有较大影响，取值过大则景深趋向相同，取值过小则增强局部模糊。本申请实施方式中将σ_W设置为σ_W＝0.15。

上述提及的颜色、纹理、形状、景深等底层特征均为全局特征。当然，全局特征并不限于上述四种特征，例如其还可以包括GIST特征和分形特征，在此不再赘述。此外，图像的还可以包括局部特征，例如SIFT特征。

基于内容的图像检索的目的是在提取图像视觉底层特征的基础上，从图像库中找出相关图像。图像的内容特征包含底层特征和高层语义特征，用提取的颜色、纹理、形状、景深特征表示图像的底层特征，通过训练选择和组合底层特征以更好的模拟人对图像高层语义特征的直观感受，方便将图像视觉底层特征映射得到图像的高层语义特征。

为了后期便于检索，根据提取的底层特征，可先对获取的视频监控图像进行分类。每一个语义类的识别视为一个独立的两分类问题。假设所有视频监控图像共有m类，记为L＝{A₁、A₂、…A_m}，属于语义类A_i的图像数量为N_i，将m类的分类问题转化为两类分类问题：对于任何一个类A_i而言，训练正例是该类所包含的全部图像，反例是在训练集中不属于该类的所有其他类的图像，即A_i类的正例总数为N_i，反例总数为

对给定的一个语义类A∈L，其两类分类问题的训练集T＝{(x₁，y₁)，(x₂，y₂)，...，(x_l，y_l)}；(x_i，y_i)表示事先给定并且经过语义加注标签的一组图像，其中x_i∈R_n为一个图像向量，表示属于相同或相似的颜色、纹理、形状和景深等特征的图像。y_i∈{+1,-1}，若y_i＝+1表示x_i∈A，即向量x_i表示的图像属于语义类别A。同理，y_i＝-1表示

S40：为所述帧添加标签，所述标签能基于语义表达目标对象的预定特征。

完成目标对象的识别后，即可对识别出的目标对象加注标签，加注的标签能够基于人的直观理解的高层语义信息的表达。例如：设置在十字路口的视频监控系统的摄像机采集得到的视频监控图像中，常见的目标对象是行人和车辆。对行人或车辆可做进一步的细分并加注相应的标签，如行人的衣着颜色、头发颜色、肤色、皮肤纹理、身高等；车辆的型号、外观、车体颜色、车牌以及车牌颜色等。此外，也可以根据实际情况，对底层特征进行组合，如“骑电动车的人”、“挂北京牌照的黑色轿车”等。加注的这些标签所表达的特征均是便于直观理解的高层语义信息。

S50：对应所述帧存储所述标签，形成便于后期获取用标签库。

本申请实施方式通过对提取的视觉底层特征，按照预定的算法映射到便于人直观理解的高层语义信息，并在此基础上实现对视频监控图像数据的分类和标注，较好的表达视频监控图像数据的语义，减小甚至消除图像底层特征与人类丰富语义内容之间的“语义鸿沟”，实现视频监控图像的快速、高效的获取。

本申请实施方式进一步提供了在形成的标签库中获取目标对象的图片的方法。请参见图3。获取步骤如下：

S60：接收查询请求，所述查询请求附带有关键词。

当需要对目标对象进行查询时，接收查询请求，查询请求中附带有预先对目标对象进行定义的关键词。例如“穿黄色上衣、骑电动车的人”，定义的关键词可以包括“黄色”、“上衣”、“电动车”、“行人”。

S70：在所述存储的标签中搜索所述关键词，得到与所述关键词相同的标签对应的帧。

如上，可以先对“黄色”、“上衣”进行匹配，检索到所有具有该语义信息的视频监控图像所对应的帧。

通常情况下，使用单一语义关键词进行的检索，得到的是较为模糊的检索结果，此时可对关键词进行运算，例如使用“黄色”&“上衣”&“电动车”进一步缩小搜索范围，则可以得到较为精细的结果。

S80：按照时间顺序排列所述得到的帧。

通常情况下，无重叠视域多摄像机监控系统会出现监控盲区，如图4所示。例如由7台摄像机组成了一个视频监控系统，目标对象由位置①依次通过②和位置③并最终到达位置④，期间由于障碍物的存在和目标对象进入监控盲区，导致采集得到的目标对象在时空上的间断。因此，将得到的所有具有该目标对象的帧按照时间顺序排列；进一步地，将时间连续的帧组合形成视频，将不连续的帧作为单独的图像。这样能够在一定程度上消除目标对象在时间和空间上的间断，为研判目标对象移动轨迹提供直接客观的信息。

本申请还提供了一种视频监控系统图像获取装置。图5本申请实施方式所述的一种视频监控系统图像获取装置100的模块结构示意图。如图5所示，所述视频监控系统图像获取装置100可以包括：

获取单元10，所述获取单元10可以用于获取监控视频的一个帧，即获得该帧表示的图像。

本实施方式获取监控视频的是单帧图像，获取的方式可以是通过单兵装备摄像头、车载摄像头或监控摄像头获取相对应环境中目标区域的视频图像，能反映需控制、处理、监管等场景的环境和周边信息。

去噪单元20，所述去噪单元20可以用于按照预定噪声去除规则去除所述图像中的噪声数据。

图像在获取、传输和存储过程中常常会受到各种噪声的干扰和影响而使图像降质。为了得到高质量的数字图像，有必要对图像进行降噪处理，尽可能在保持原始信息完整性的同时，又能够去除信号中无用的信息。

鉴于视频监控系统大多是对可动目标对象的监控的特殊性，本申请的一个实施方式中，将不需监控或重点监控的不可动背景与可动前景进行分离，即将获取的监控视频的背景部分作为噪声数据的一部分去除。例如图2所示的是一幅监控视频图像。图中包含在背景部分中的斑马线、树等在监控视域中始终保持位置不动；而相应的行人、汽车等在监控视域中随时可动。且实际情况是包含在背景中部分中的斑马线、树等位置不可动的目标对象是不需监控或重点监控的，因此将其作为噪声数据加以去除。如此，不仅可以大幅降低储存容量，在后续的检索过程中，可缩小检索范围，提高检索效率和准确度。

识别单元30，所述识别单元30可以用于按照预定对象识别规则在所述去除噪声数据的图像中识别目标对象。

语义检索是基于人感知的，所以选取的特征本身要具有较为直观的视觉意义，即较强的视觉表达能力。本申请可以通过提取例如包括颜色、纹理、形状和景深等的图像底层特征来识别图像中的目标对象。

添加单元40，所述添加单元40可以用于为所述帧添加标签，所述标签能基于语义表达目标对象的预定特征。

存储单元50，所述存储单元50可以用于存储所述帧对应的标签。

本申请实施方式进一步提供了在形成的标签库中获取目标对象的图片的查询装置200。请参见图6。该查询装置200可以包括：

接收单元60，所述接收单元60可以用于接收查询请求，所述查询请求附带有关键词。

当需要对目标对象进行查询时，所述接收单元60接收查询请求，查询请求中附带有预先对目标对象进行定义的关键词。例如“穿黄色上衣、骑电动车的人”，定义的关键词可以包括“黄色”、“上衣”、“电动车”、“行人”。

调取单元70，所述调取单元70可以用于在所述存储的标签中搜索所述关键词，得到与所述关键词相同的标签对应的帧。

如上，所述调取单元70可以先对“黄色”、“上衣”进行匹配，检索到所有具有该语义信息的视频监控图像所对应的帧。

排列单元80，所述排列单元80可以用于按照拍摄时间顺序排列所述得到的帧。

通常情况下，无重叠视域多摄像机监控系统会出现监控盲区，如图4所示。例如由7台摄像机组成了一个视频监控系统，目标对象由位置①依次通过②和位置③并最终到达位置④，期间由于障碍物的存在和目标对象进入监控盲区，导致采集得到的目标对象在时空上的间断。目标对象通过该监控盲区会导致监控在时间和空间上出现间断。因此，排列单元80可以将得到的所有具有目标对象的帧按照时间顺序排列，进一步地，将时间连续的帧组合形成视频，将不连续的帧作为单独的图像。这样能够在一定程度上消除目标对象在时间和空间上的间断，为研判目标对象移动轨迹提供直接客观的信息。

上述实施例阐明的装置或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的单元由多个子模块或子单元的组合实现，例如可以将接收单元、调取单元、排列单元在同一单元模块中实现。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上所述仅为本发明的几个实施例，本领域的技术人员依据申请文件公开的内容可以对本发明实施例进行各种改动或变型而不脱离本发明的精神和范围。

Claims

1.一种视频监控系统图像获取方法，其特征在于，其包括：

获取监控视频中的一个帧，即获得该帧表示的图像；

按照预定噪声去除规则去除所述图像中的噪声数据；

对应所述帧存储所述标签。

2.如权利要求1所述的方法，其特征在于，还包括：

接收查询请求，所述查询请求附带有关键词；

在所述存储的标签中搜索所述关键词，得到与所述关键词相同的标签对应的帧；

按照时间顺序排列所述得到的帧。

3.如权利要求2所述的方法，其特征在于：在步骤按照拍摄时间顺序排列所述得到的帧中，将时间连续的帧组合成视频。

4.如权利要求2所述的方法，其特征在于：在步骤按照拍摄时间顺序排列所述得到的帧中，将时间不连续的帧作为单独的图像。

5.如权利要求1所述的方法，其特征在于：噪声数据包括获取的监控视频的背景部分中的数据。

6.一种视频监控系统图像获取装置，其特征在于，其包括：

存储单元，所述存储单元用于存储所述帧对应的标签。

7.如权利要求6所述的装置，其特征在于，还包括：

接收单元，所述接收单元用于接收查询请求，所述查询请求附带有关键词；

调取单元，所述调取单元用于在所述存储的标签中搜索所述关键词，得到与所述关键词相同的标签对应的帧；

排列单元，所述排列单元用于按照拍摄时间顺序排列所述得到的帧。

8.如权利要求7所述的装置，其特征在于：所述排列单元将时间连续的帧组合成视频。

9.如权利要求7所述的装置，其特征在于：所述排列单元将时间不连续的帧作为单独的图像。

10.如权利要求6所述的装置，其特征在于：噪声数据包括获取的监控视频的背景部分中的数据。