CN107564062B

CN107564062B - 位姿异常检测方法及装置

Info

Publication number: CN107564062B
Application number: CN201710701629.2A
Authority: CN
Inventors: 周杰; 邓磊; 陈宝华
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-08-16
Filing date: 2017-08-16
Publication date: 2020-06-19
Anticipated expiration: 2037-08-16
Also published as: CN107564062A

Abstract

本发明公开了一种位姿异常检测方法及装置，其中，方法包括：获取初始监控图像，得到初始参考帧，并获取摄像机的初始位姿；周期获取视频关键帧，并增量式建立桥接图像数据库，得到桥接图像；根据检测周期获取检测帧，并将检测帧与初始参考帧或桥接图像进行特征提取和匹配，并计算检测帧的位姿；获取检测帧的摄像机位姿与初始参考帧的初始位姿间的差异值；判断差异值是否大于预设阈值；如果差异值大于预设阈值，则检测位姿异常，发出警报。该方法可以通过对检测帧与初始参考帧或桥接图像进行特征提取和匹配，从而判断检测摄像机位姿是否发生异常变化，降低监控系统因异常移动造成的风险，降低检测成本，提高监控系统效能。

Description

位姿异常检测方法及装置

技术领域

本发明涉及位姿检测技术领域，特别涉及一种位姿异常检测方法及装置。

背景技术

近年来，人们对安全的需求不断提升，多摄像机监控系统的应用越来越广，成为了解决安全问题的一种重要方式，多摄像机监控系统被应用于街道、机场、车站、广场等场景。伴随着图像传感器技术的进步，摄像机越来越廉价的同时，图像质量(分辨率)越来越高，从而使得多摄像机监控系统的规模越来越大，大中型城市中的监控摄像机数量可达数十万。经历长时间的使用后，监控摄像机的位姿(位置和姿态)与初始安装状态是否一致，即摄像机是否产生较大偏移，进而导致有效监控区域减少，甚至监控无效。导致摄像机异常偏移的原因有可能是建筑物沉降、风吹、鸟兽移动等自然原因，也有可能面临人为破坏。摄像机异常偏移可能使监控效率下降，安全风险上升，甚至导致安全系统失效，而摄像机异常偏移往往比较隐蔽，大多是在重大安全问题发生后，才被发现和修正，产生很大的安全代价。

摄像机位姿异常是指镜头变焦和摄像机被移动或转动，通过对监控视频(序列图像)进行分析，从而检测摄像机位姿是否异常，这也是当前计算机视觉领域的一个重要研究方向，在智能监控、视频会议、人机交互和基于内容的图像检索等方面具有广泛的应用，业界开展了一些相关的研究。

当前已经有的多种视频(序列图像)分析的方法，背景差分方法是典型的方法之一，这一方法的流程是首先进行背景建模，其次再用背景减除法提取目标，但是，其缺点是背景模型的建立、保持与更新都受到场景复杂度的影响。在背景差分法中，时间差分是最基本的方法，它取上一帧视频图像作为当前帧的背景模型，在相邻两帧间根据基于像素的差分获得运动目标。在其基础上，又发展出利用三帧差分代替两帧差分等变种算法。时间差分检测的方法在物体运动时，无法对物体进行检测，虽然这一方法对光照条件不敏感，但提取的目标内容容易产生孔洞。此外，背景差分法的另一个发展是基于时间轴滤波的背景模型，利用多帧中稳定的值作为背景，可以改善背景模型。

背景差分方法处理速度较快，但算法比较简单粗糙，在缺少运动目标的状态下难以发挥效果。为获得更为实用的背景模型，减少动态场景变化对于运动分割的影响。学界展开了广泛的研究，如根据分层原理，将图像分为像素级、区域级、帧级，并逐层进行处理，还有的是为场景中每个像素进行统计和周期背景建模，基于最小、最大强度值和最大时间差分值的原理。基于卡尔曼滤波的自适应背景模型方法的优势是可以适应天气和光照随时间变化，基于核密度估计的非参数模型可以描述背景分布，基于核密度估计的背景模型能准确地给背景建模，但算法对计算机内存有较高要求。mean-shift方法被用于多峰分布建模，运动目标分割效果较好，但其需要考虑数据空间的收敛特性，计算复杂。图像变化同现法和特征背景法认为场景背景中相邻像素块的颜色变化在一段时间内是相似的，利用像素点颜色的空间相关性是这两种算法的特点。此外，像素级的混合高斯模型因其能够能有效描述多峰背景，对动态背景自适应能力较强，对运动目标的检测能力较强。

然而，相关技术中，缺乏摄像机位姿信息，无法反映摄像机位姿异常变化；只能针对视频内容进行异常检测，并对运动目的检测依赖较强；只能反映短期剧烈的内容变化，难以处理长期缓慢的场景变化，有待解决。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种位姿异常检测方法，该方法可以自动、并行地用于大规模监控系统，降低监控系统因异常移动造成的风险，降低检测成本，提高监控系统效能。

本发明的另一个目的在于提出一种位姿异常检测装置。

为达到上述目的，本发明一方面实施例提出了一种位姿异常检测方法，包括以下步骤：获取初始监控图像，得到初始参考帧，并获取摄像机的初始位姿；周期获取视频关键帧，并增量式建立桥接图像数据库，得到桥接图像；根据检测周期获取检测帧，并将所述检测帧与所述初始参考帧或所述桥接图像进行特征提取和匹配，并计算所述检测帧的位姿；获取所述检测帧的摄像机位姿与所述初始参考帧的初始位姿间的差异值；判断所述差异值是否大于预设阈值；如果所述差异值大于所述预设阈值，则检测位姿异常，发出警报。

本发明实施例的位姿异常检测方法，可以通过初始监控图像得到初始参考帧，并通过周期获取视频关键帧得到桥接图像，从而可以将根据检测周期获取的检测帧与初始参考帧或桥接图像进行特征提取和匹配，判断检测摄像机位姿是否发生异常变化，有效降低监控系统因异常移动造成的风险，提高监控系统效能，降低检测成本，能够自动、并行地用于大规模监控系统。

另外，根据本发明上述实施例的位姿异常检测方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述获取初始监控图像，得到初始参考帧，并获取摄像机的初始位姿，进一步包括：获取监控摄像机的监控图像、监控区域的三维地图和/或二维地图；通过所述监控图像与所述三维地图和/或二维地图间的对应点列表，反向推理所述监控摄像机在地图中的位置和姿态。

进一步地，在本发明的一个实施例中，所述周期获取视频关键帧，并增量式建立桥接图像数据库，进一步包括：根据历史监控视频提取关键帧；获取所述关键帧的全局特征索引、所述关键帧的局部特征；根据初始参考帧和当前场景地图得到所述初始参考帧的局部特征和标定摄像机；根据所述关键帧的局部特征、所述初始参考帧的局部特征和所述标定摄像机得到关键帧对应摄像机的绝对位姿；根据所述关键帧的全局特征索引和所述关键帧对应摄像机的绝对位姿实现关键帧入库。

进一步地，在本发明的一个实施例中，所述根据检测周期获取检测帧，并将所述检测帧与所述初始参考帧或所述桥接图像进行特征提取和匹配，进一步包括：在特征提取和匹配之前，对于近邻库图像中的图像进行图像近邻搜索，得到图像特征匹配的范围；根据所述图像特征匹配的范围基于组合多个局部特征的方法构建联合特征，并使用基于仿射变换的特征增强匹配。

进一步地，在本发明的一个实施例中，通过李群的马氏距离描述估计值与初始值间的偏移，以得到所述检测帧的摄像机位姿与所述初始参考帧的初始位姿间的差异值。

为达到上述目的，本发明另一方面实施例提出了一种位姿异常检测装置，包括：第一获取模块，用于获取初始监控图像，得到初始参考帧，并获取摄像机的初始位姿；采集模块，用于周期获取视频关键帧，并增量式建立桥接图像数据库，得到桥接图像；计算模块，用于根据检测周期获取检测帧，并将所述检测帧与所述初始参考帧或所述桥接图像进行特征提取和匹配，并计算所述检测帧的位姿；第二获取模块，用于获取所述检测帧的摄像机位姿与所述初始参考帧的初始位姿间的差异值；检测模块，用于判断所述差异值是否大于预设阈值，并且在所述差异值大于所述预设阈值时，检测位姿异常，发出警报。

本发明实施例的位姿异常检测装置，可以通过初始监控图像得到初始参考帧，并通过周期获取视频关键帧得到桥接图像，从而可以将根据检测周期获取的检测帧与初始参考帧或桥接图像进行特征提取和匹配，判断检测摄像机位姿是否发生异常变化，有效降低监控系统因异常移动造成的风险，提高监控系统效能，降低检测成本，能够自动、并行地用于大规模监控系统。

另外，根据本发明上述实施例的位姿异常检测装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述第一获取模块包括：第一获取单元，用于获取监控摄像机的监控图像、监控区域的三维地图和/或二维地图；推理单元，用于通过所述监控图像与所述三维地图和/或二维地图间的对应点列表，反向推理所述监控摄像机在地图中的位置和姿态。

进一步地，在本发明的一个实施例中，所述采集模块包括：提取单元，用于根据历史监控视频提取关键帧；第二获取单元，用于获取所述关键帧的全局特征索引、所述关键帧的局部特征；第三获取单元，用于根据初始参考帧和当前场景地图得到所述初始参考帧的局部特征和标定摄像机；第四获取单元，用于根据所述关键帧的局部特征、所述初始参考帧的局部特征和所述标定摄像机得到关键帧对应摄像机的绝对位姿；入库单元，用于根据所述关键帧的全局特征索引和所述关键帧对应摄像机的绝对位姿实现关键帧入库。

进一步地，在本发明的一个实施例中，所述计算模块包括：搜索单元，用于在特征提取和匹配之前，对于近邻库图像中的图像进行图像近邻搜索，得到图像特征匹配的范围；构建模块，用于根据所述图像特征匹配的范围基于组合多个局部特征的方法构建联合特征，并使用基于仿射变换的特征增强匹配。

进一步地，在本发明的一个实施例中，所述第二获取模块还用于通过李群的马氏距离描述估计值与初始值间的偏移，以得到所述检测帧的摄像机位姿与所述初始参考帧的初始位姿间的差异值。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的位姿异常检测方法的流程图；

图2为根据本发明一个具体实施例的位姿异常检测方法的流程图；

图3为根据本发明一个实施例的位姿异常检测方法的流程图；

图4为根据本发明一个实施例的摄像机标定原理示意图；

图5为根据本发明一个实施例的建立近邻图像库的流程图；

图6为根据本发明一个实施例的图像近邻搜索的流程图；

图7为根据本发明一个实施例的自动估计摄像位姿的流程图；

图8为根据本发明实施例的位姿异常检测装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的位姿异常检测方法及装置，首先将参照附图描述根据本发明实施例提出的位姿异常检测方法。

图1是本发明一个实施例的位姿异常检测方法的流程图。

如图1所示，该位姿异常检测方法包括以下步骤：

在步骤S101中，获取初始监控图像，得到初始参考帧，并获取摄像机的初始位姿。

进一步地，在本发明的一个实施例中，获取初始监控图像，得到初始参考帧，并获取摄像机的初始位姿，进一步包括：获取监控摄像机的监控图像、监控区域的三维地图和/或二维地图；通过监控图像与三维地图和/或二维地图间的对应点列表，反向推理监控摄像机在地图中的位置和姿态。

可以理解的是，结合图2的a部分和图3所示，在监控系统中，后台监控程序需要了解前端监控摄像机的安装位置和朝向，在此基础上估计监控范围和评价监控效果，如果前端安装位置和朝向不合适，就需要进行调整，并重新进行效果评价，在这一操作中，估计摄像机位置和朝向是核心环节，传统的人工检查的方法随着摄像机网络规模越来越大，其成本越来越高，从而需要寻找一种高效的低成本估计摄像机位置和朝向的方法。

估计摄像机位置和朝向的研究属于摄像机标定(Camera Calibration)。摄像机标定分为标定摄像机内参数(如焦距，主点，畸变等)或(外参数在世界坐标系下的旋转，平移)等，外参数标定的内容即为本发明实施例的方法关注的摄像机位置和朝向的估计，若无其他说明，在本发明的实施例中，摄像机标定、摄像机位姿估计均指代对摄像机位置和朝向的估计。

本发明实施例的方法基于计算机视觉的方法进行摄像机标定，输入为监控摄像机的监控图像以及监控区域的三维地图或二维地图，通过获得监控图像与地图间的对应点列表，反向推理监控图像摄像机在地图中的位置和姿态。由于三维地图和二维地图具有地理信息，所以监控摄像机的地理坐标也可以传递得到，摄像机标定的具体原理和过程如下：

如图4所示，摄像机标定的原理是挖掘摄像机位姿矩阵应该满足的几何投影约束，这些几何约束可以由3D场景与2D图像中对应的几何元素提供，如对应点，对应直线，对应椭圆等。其中，最常用的，性质最好的，也是最基本的约束是由图像2D点与场景3D对应点所决定的投影约束。通过这种2D-3D对应点建立约束来求解摄像机位姿的问题也称为PnP(Perspective-n-Point，n点/线透视定位)问题。

给定一组2D到3D对应点{(ui，Xi)，i＝1...n}，则理想情况下摄像机应满足的投影约束为：

ui＝κ-1(R[I|-C]Xi，K)，s.t.RRT＝I，i＝1...n；

其中，2D-3D匹配(ui，Xi)是已知量，3×4的摄像机外参矩阵P＝R[I|-C]是6自由度未知量，内参K可以是已知量，也可以全部或部分是未知量，这些投影约束提供了标定摄像机的基本方程，基于这些基本的几何投影约束，输入少量的2D-3D对应点便可以估计摄像机的内外参数。

实际问题中，由于噪声的影响，上述约束并不严格满足，因而求解的摄像机参数的一个重要工作是迭代优化来最小化重投影误差(Reprojection Error)，以获取更高精度的位置姿态。重投影误差指的是将3D点按照摄像机的映射函数投影回到图像平面上的理论像素坐标，与图像上观测的对应像素坐标之间的误差。最小化该重投影误差被认为是计算机视觉几何中的黄金法则。被用于各种几何参数的估计问题中，如摄像机位姿估计，三角测量(Triangulation)，捆集调整(Bundle Adjustment)等。

最小化重投影误差的目标函数为：

其中，K,R,C为待优化的摄像机的内外参，Xi与ui为对应的3D点与观测的2D像素点，K为摄像机的映射函数，优化时应满足旋转矩阵的正交约束RRT＝I，理想情况下，该误差为0，即几何投影关系严格满足，在实际中有噪声时，该误差越小，满足的约束越好，最小化该重投影误差背后的假设是图像平面上的像素坐标误差满足高斯分布，在此分布下摄像机位姿的最大似然值为最优值。

需要注意的是，由于旋转阵应满足正交约束RRT＝I，故虽然R为3×3的9参量矩阵，但其内部仅有三个自由度，所以一般求解优化时还需要将旋转阵用自由参数表达，随后优化该自由参数。常见的旋转矩阵的参数化表达为欧拉角(Eluer Angles)，其表达形式为：

R(θ1,θ2,θ3)＝Rx(θ1)Ry(θ2)Rz(θ3),

其中θ1,θ2,θ3为顺次绕x,y,z三个轴的欧拉角。

另一种参数化表达为四元数(Quaternion)，其描述形式为：

其中q＝w+x_i+y_j+z_k是四元数，还应满足w2+x2+y2+z2＝1。

扭曲参数(Skew Parameter)表达为：

角轴(Angle-Axis)表达为：

其中，θ是旋转角度，a是旋转轴，[a]是叉乘矩阵II×II，

为张量积(TensorProduct)。

针对实际中输入的2D-3D对应点往往带有外点的情况，为避免这种原因造成的求解精度误差，此处最小求解器与RANSAC(Random Sample Consensus，随机抽样一致)鲁棒框架相结合，进行鲁棒的估计以支持度更高的模型参数(摄像机姿态)并滤除外点。RANSAC是一种通过随机采样来估计模型的技术，也称为采样一致性的鲁棒估计框架(SampledConsensus)，能够较好的克服外点噪声的影响。其基本假设是输入样本数据中包含内点(Inliers)外点(Outliers)，内点即符合某种模型参数决定的误差分布的样本，外点即不满足该分布的样本，外点主要来自于错误的样本(如输入中错误的2D-3D匹配)。RANSAC还假设需要一个最小求解器，能用很少的必要个数的内点集合来估计出模型的参数。在摄像机位姿估计问题中，样本即为输入的多组2D-3D匹配，最小的位姿求解器可以根据少量的样本估计出摄像机的位姿，摄像机的位姿即为RANSAC中待估计的模型，估计的基本思路是通过随机选取最小样本集结合最小求解器估计得到多个模型的候选，用剩余的样本计算对该模型的支持度，待测样本与模型的距离越近，越满足模型所定义的分布，则支持度越高，选择支持度最高的模型作为最优解，这个过程的内在假设是随机选取的最小样本集合若均为有效内点，则用其估计得到的模型对剩余样本应具有很高的支持度，模型质量很高且距最优解不远，因而通过其他样本的投票支持度就可以评价该模型的有效性，同时分离出支持度不高的样本即外点。RANSAC鲁棒估计的具体流程如下：

(1)随机选择一组最小样本集。

(2)用该最小样本集结合最小求解器估计候选模型。

(3)根据模型定义的损失函数测试其余的样本，并将误差较小的样本筛选出来为支持内点集。

(4)通过多次采样得到最大支持内点集对应的模型。

(5)用所有的支持内点集重新估计并改进模型。

RANSAC鲁棒框架与和最小求解器结合使用，提高摄像机位姿估计的精度，即提高了相对距离和方位角的估计精度。

在步骤S102中，周期获取视频关键帧，并增量式建立桥接图像数据库，得到桥接图像。

进一步地，在本发明的一个实施例中，周期获取视频关键帧，并增量式建立桥接图像数据库，进一步包括：根据历史监控视频提取关键帧；获取关键帧的全局特征索引、关键帧的局部特征；根据初始参考帧和当前场景地图得到初始参考帧的局部特征和标定摄像机；根据关键帧的局部特征、初始参考帧的局部特征和标定摄像机得到关键帧对应摄像机的绝对位姿；根据关键帧的全局特征索引和关键帧对应摄像机的绝对位姿实现关键帧入库。

可以理解的是，结合图2的b部分和图3所示，监控摄像机在运行过程中，监控的场景可能会发生较大变化，这种变化可能是由于光照条件变化引起的，如昼、夜、清晨(傍晚)的光照条件差异非常大，也有可能是季节变化引起的，如春夏秋冬不同季节，植被生长和落叶的变化非常大，可能导致监控场景产生重大差异，此外，人工建筑或道路的变迁(新建、拆除和装饰)也会导致监控场景发生明显变。

应对这种变化，如果只采用初始监控帧作为参考图像去匹配所有时段的监控检测帧，很难保证匹配成功率，后续的基于匹配的监控摄像机位姿估计也难以实施，所以需要寻找一种有效的扩展参考图像的手段，增加其适应变化环境的能力。本发明实施例的方法使用了通过周期获取历史监控图像帧，建立近邻图像库的方法，将近邻库中的图像集作为参考图像集合，并在图像入库时标定其地理坐标，有效地改善了匹配成功率低的情况。

如图5所示，有三条主要路径，提供入库所需的三种信息，分别是关键帧的全局特征索引，关键帧的局部特征和关键帧对应摄像机的绝对位姿。其中，提取关键帧是三条路径的起点，也是最基础的环节，本发明实施例的方法采用了基于稠密光流，并结合场景内容深度分析的方法，具有对场景内容变化响应敏感，智能化程度高的特点。

在步骤S103中，根据检测周期获取检测帧，并将检测帧与初始参考帧或桥接图像进行特征提取和匹配，并计算检测帧的位姿。

进一步地，在本发明的一个实施例中，根据检测周期获取检测帧，并将检测帧与初始参考帧或桥接图像进行特征提取和匹配，进一步包括：在特征提取和匹配之前，对于近邻库图像中的图像进行图像近邻搜索，得到图像特征匹配的范围；根据图像特征匹配的范围基于组合多个局部特征的方法构建联合特征，并使用基于仿射变换的特征增强匹配。

可以理解的是，结合图2的c部分和图3所示，监控摄像机在运行过程中，算法会间隔一个周期对摄像机位姿进行自动估计，以支持摄像机异常偏移检测。自动位姿估计的基本思想是将监控摄像机当前获得的检测帧与带有地理坐标的参考图像进行特征提取和特征匹配，从而根据匹配点列表估计监控摄像机位姿。带有地理坐标的参考图像首先选择初始监控图像，在初始监控图像匹配不成功时使用近邻图像库中的图像，本发明实施例的具体流程如图2所示。

对于近邻库图像中的图像，在进行特征匹配之前，需要进行图像近邻搜索，以缩小图像特征匹配的范围，提高算法的速度。

如图6所示，图像近邻搜索中的核心环节是图像的全局特征表达，即对每一帧图像提取一个全局的特征描述。本发明实施例的方法基于深度学习的方法提取图像全局特征，其具有两个特征：一是分类空间学习，在特征空间中，通过降维聚类，建立各自独立的聚类中心(指标)，使搜索范围限制在指标组合的空间内，降低图片规模增长对搜索时间的影响，该方法影响生成分类空间，建立索引和图像检索三个环节；二是分布式表达和组合特征，在提取图像特征时，训练相互独立的属性，通过数量有限的属性组合表达复杂的图像样本空间，降低了学习参数的数量，将指数级的样本需求降低到线性级别，完成原来小样本数据集不能支撑的任务，使检索比较准。

如图7所示，在自动位姿估计中，局部特征提取与特征匹配是核心环节，本发明实施例的方法使用基于组合多个局部特征的方法构建联合特征，并使用基于仿射变换的特征增强匹配方法，其具有两个特征，一是对场景类型的适应性强，可以适应道路、数目、建筑等多种类型的场景；二是可以降低位姿差异对特征匹配的影响，提升特征匹配的成功率高。

在步骤S104中，获取检测帧的摄像机位姿与初始参考帧的初始位姿间的差异值。

进一步地，在本发明的一个实施例中，通过李群的马氏距离描述估计值与初始值间的偏移，以得到检测帧的摄像机位姿与初始参考帧的初始位姿间的差异值。

在步骤S105中，判断差异值是否大于预设阈值。

在步骤S106中，如果差异值大于预设阈值，则检测位姿异常，发出警报。

可以理解的是，结合图2的a部分和图3所示，监控摄像机位姿估计包括位置和姿态两部分内容，位置指摄像机在以目标为原点的坐标系中的坐标(x,y,z)，姿态为俯仰角θ，偏航角ψ和滚转角φ，位姿估计是对6个自由度(x,y,z,φ,θ,ψ)的估计。

其中，6个自由度中每一个维度的估计结果与真实测量值之间的误差可以作为度量当前位姿与初始位姿间差异的指标，但这种方法有可能带来各个维度的变化都不超标，但监控摄像机总体却产生较大偏移的情况，而且在这6个自由度中，不同的自由度的价值是不一样的，比如在距离较远的情况下，偏航角对着舰的意义就比俯仰角大，因此需要设计能够体现此种差异的算法精度评价指标，如果能够将6个自由度的指标归并成为1个指标，并为其设定阈值，则可以进行快速的判断。为此，本发明实施例的方法使用基于李群的马氏距离(1个指标)来描述(x,y,z,φ,θ,ψ)估计值与初始值间的偏移。

李群也称微分流形，因为李群具有利于微分求解的特性，它在机器人领域中常用来描述和优化几何变换关系。本发明实施例的方法使用的李群包括用于描述SO(3)(Special Orthogonal group，摄像机旋转的特殊正交群)以及描述SE(3)(Special Euclidgroup，刚体变换或位姿的特殊欧氏群)。

本发明实施例的方法使用刚体变换描述摄像机在三维空间中的旋转和平移。其中R∈SO³，t∈R³，虽然刚体变换G由12个参量构成，但在优化过程中只能优化其内在的6个自由度，这6个自由度用扭曲向量(twist vector)ξ∈R⁶来描述，扭曲向量与李群元素之间通过构造扭曲矩阵(twist matrix)

建立映射，映射关系为：

以及：

变换之间的连接操作

:se(3)×se(3)→se(3)为：

变换的逆为：

由于

由ξ组成，二者一一对应，不引起歧义的情况下，后文统一使用ξ表示。

对于第一个考虑摄像机位姿要有明显差异的约束条件，针对位姿变化共包含旋转和平移共6个自由度(x,y,z,φ,θ,ψ)的特点。本发明实施例以李群中描述摄像机间相对位姿的扭曲矩阵ξ_ij来刻画真实值与估计值间的位姿差异，扭曲矩阵ξ_ij包含了平移上的3个自由度参数和旋转中的3个自由度参数，并提供了这些自由度间的约束关系。使用扭曲矩阵ξ_ij刻画位姿差异的方法为：

式中D为描述真实值与估计值间位姿差异的马氏距离，如果D超过某一阈值，则认为误差过大，ξ_ij为关键帧i和j关键帧间的相对变换，考虑到扭曲矩阵ξ_ij中各个自由度辅助着舰的价值具有差异，因此使用了一个权重矩阵Ω表达这种差异，权重矩阵中权重的设定依赖于各种类型的场景，如监控摄像机较高时，方位角的权重可能高于位置的权重，而在于目标接近时，距离的权重应适当提高。

举例而言，如图2所示，图2分为a、b、c、d四个子图，分别对应图3中整体流程中的四个部分。其中，子图c为全图中去除子图a、b、d的部分，在这四个部分中，a部分是算法的基础；b部分是增强系统功能的重要手段，也是整体流程优化的亮点；c部分是算法的核心环节，提供完成系统的核心任务；d部分是算法输出明晰化的手段，具有应用上的创新性。

综上所述，智能视频监控系统已经受到学术界、产业界和相关管理部门的广泛关注，对于一个智能监控系统而言，一项重要的能力是能对场景中的异常情况进行自动检测。

基于本发明实施例提出的位姿异常检测方法，可以保证监控摄像机位姿与初始安装状态保持一致，确保监控区域处于预先设定状态，避免人为或自然原因造成的监控失效，这样不仅利于发现与阻止偷窃、抢劫等常规违法行为，在恐怖主义威胁日益上升的条件下，对于机场、车站等大型公共安全场所的安全防卫意义尤其重大，本发明实施例的方法不仅可应用于城市安全防范领域，在军事、金融、工业等领域也有着广泛的应用前景和巨大的潜在经济价值。

具体地，考虑到城市级监控摄像机的海量规模，使用人力进行摄像机位姿异常检测的人力成本非常巨大，而且检测周期必然也比较长，而采用本发明实施例提供的自动方法相比人工检测方式，不仅不需要人力到达现场，可以节约巨大的工作量，而且由于检测成本低，还可以以较短的周期进行检测，及时发现摄像机的异常状态，确保监控摄像机网络输出其全部的效能。

根据本发明实施例提出的位姿异常检测方法，可以通过初始监控图像得到初始参考帧，并通过周期获取视频关键帧得到桥接图像，从而可以将根据检测周期获取的检测帧与初始参考帧或桥接图像进行特征提取和匹配，判断检测摄像机位姿是否发生异常变化，有效降低监控系统因异常移动造成的风险，提高监控系统效能，降低检测成本，能够自动、并行地用于大规模监控系统。

其次参照附图描述根据本发明实施例提出的位姿异常检测装置。

图8是本发明一个实施例的位姿异常检测装置。

如图8所示，该位姿异常检测装置10包括：第一获取模块100、采集模块200、计算模块300、第二获取模块400和检测模块500。

其中，第一获取模100用于获取初始监控图像，得到初始参考帧，并获取摄像机的初始位姿。采集模块200用于周期获取视频关键帧，并增量式建立桥接图像数据库，得到桥接图像。计算模块300用于根据检测周期获取检测帧，并将检测帧与初始参考帧或桥接图像进行特征提取和匹配，并计算检测帧的位姿。第二获取模块400用于获取检测帧的摄像机位姿与初始参考帧的初始位姿间的差异值。检测模块500用于判断差异值是否大于预设阈值，并且在差异值大于预设阈值时，检测位姿异常，发出警报。本发明实施例的装置10可以通过对检测帧与初始参考帧或桥接图像进行特征提取和匹配，从而判断检测摄像机位姿是否发生异常变化，降低监控系统因异常移动造成的风险，降低检测成本，提高监控系统效能。

进一步地，在本发明的一个实施例中，第一获取模块100包括：第一获取单元和推理单元。其中，第一获取单元，用于获取监控摄像机的监控图像、监控区域的三维地图和/或二维地图。推理单元用于通过监控图像与三维地图和/或二维地图间的对应点列表，反向推理监控摄像机在地图中的位置和姿态。

进一步地，在本发明的一个实施例中，采集模块200包括：提取单元、第二获取单元、第三获取单元、第四获取单元和入库单元。

其中，提取单元用于根据历史监控视频提取关键帧。第二获取单元用于获取关键帧的全局特征索引、关键帧的局部特征。第三获取单元用于根据初始参考帧和当前场景地图得到初始参考帧的局部特征和标定摄像机。第四获取单元用于根据关键帧的局部特征、初始参考帧的局部特征和标定摄像机得到关键帧对应摄像机的绝对位姿。入库单元用于根据关键帧的全局特征索引和关键帧对应摄像机的绝对位姿实现关键帧入库。

进一步地，在本发明的一个实施例中，计算模块300包括：搜索单元和构建模块。

其中，搜索单元用于在特征提取和匹配之前，对于近邻库图像中的图像进行图像近邻搜索，得到图像特征匹配的范围。构建模块用于根据图像特征匹配的范围基于组合多个局部特征的方法构建联合特征，并使用基于仿射变换的特征增强匹配。

进一步地，在本发明的一个实施例中，第二获取模块400还用于通过李群的马氏距离描述估计值与初始值间的偏移，以得到检测帧的摄像机位姿与初始参考帧的初始位姿间的差异值。

需要说明的是，前述对位姿异常检测方法实施例的解释说明也适用于该实施例的位姿异常检测装置，此处不再赘述。

根据本发明实施例提出的位姿异常检测装置，可以通过初始监控图像得到初始参考帧，并通过周期获取视频关键帧得到桥接图像，从而可以将根据检测周期获取的检测帧与初始参考帧或桥接图像进行特征提取和匹配，判断检测摄像机位姿是否发生异常变化，有效降低监控系统因异常移动造成的风险，提高监控系统效能，降低检测成本，能够自动、并行地用于大规模监控系统。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种位姿异常检测方法，其特征在于，包括以下步骤：

获取初始监控图像，得到初始参考帧，并获取摄像机的初始位姿；

周期获取视频关键帧，并增量式建立桥接图像数据库，得到桥接图像；

根据检测周期获取检测帧，并将所述检测帧与所述初始参考帧或所述桥接图像进行特征提取和匹配，并计算所述检测帧的位姿；

获取所述检测帧的摄像机位姿与所述初始参考帧的初始位姿间的差异值；

判断所述差异值是否大于预设阈值；以及

如果所述差异值大于所述预设阈值，则检测位姿异常，发出警报；

其中，所述周期获取视频关键帧，并增量式建立桥接图像数据库，进一步包括：根据历史监控视频提取关键帧；获取所述关键帧的全局特征索引、所述关键帧的局部特征；根据初始参考帧和当前场景地图得到所述初始参考帧的局部特征和标定摄像机；根据所述关键帧的局部特征、所述初始参考帧的局部特征和所述标定摄像机得到关键帧对应摄像机的绝对位姿；以及根据所述关键帧的全局特征索引和所述关键帧对应摄像机的绝对位姿实现关键帧入库。

2.根据权利要求1所述的位姿异常检测方法，其特征在于，所述获取初始监控图像，得到初始参考帧，并获取摄像机的初始位姿，进一步包括：

获取监控摄像机的监控图像、监控区域的三维地图和/或二维地图；

通过所述监控图像与所述三维地图和/或二维地图间的对应点列表，反向推理所述监控摄像机在地图中的位置和姿态。

3.根据权利要求1所述的位姿异常检测方法，其特征在于，所述根据检测周期获取检测帧，并将所述检测帧与所述初始参考帧或所述桥接图像进行特征提取和匹配，进一步包括：

在特征提取和匹配之前，对于近邻库图像中的图像进行图像近邻搜索，得到图像特征匹配的范围；

根据所述图像特征匹配的范围基于组合多个局部特征的方法构建联合特征，并使用基于仿射变换的特征增强匹配。

4.根据权利要求1-3任一项所述的位姿异常检测方法，其特征在于，通过李群的马氏距离描述估计值与初始值间的偏移，以得到所述检测帧的摄像机位姿与所述初始参考帧的初始位姿间的差异值。

5.一种位姿异常检测装置，其特征在于，包括：

第一获取模块，用于获取初始监控图像，得到初始参考帧，并获取摄像机的初始位姿；

采集模块，用于周期获取视频关键帧，并增量式建立桥接图像数据库，得到桥接图像；

计算模块，用于根据检测周期获取检测帧，并将所述检测帧与所述初始参考帧或所述桥接图像进行特征提取和匹配，并计算所述检测帧的位姿；

第二获取模块，用于获取所述检测帧的摄像机位姿与所述初始参考帧的初始位姿间的差异值；以及

检测模块，用于判断所述差异值是否大于预设阈值，并且在所述差异值大于所述预设阈值时，检测位姿异常，发出警报；

其中，所述采集模块包括：提取单元，用于根据历史监控视频提取关键帧；第二获取单元，用于获取所述关键帧的全局特征索引、所述关键帧的局部特征；第三获取单元，用于根据初始参考帧和当前场景地图得到所述初始参考帧的局部特征和标定摄像机；第四获取单元，用于根据所述关键帧的局部特征、所述初始参考帧的局部特征和所述标定摄像机得到关键帧对应摄像机的绝对位姿；以及入库单元，用于根据所述关键帧的全局特征索引和所述关键帧对应摄像机的绝对位姿实现关键帧入库。

6.根据权利要求5所述的位姿异常检测装置，其特征在于，所述第一获取模块包括：

第一获取单元，用于获取监控摄像机的监控图像、监控区域的三维地图和/或二维地图；

推理单元，用于通过所述监控图像与所述三维地图和/或二维地图间的对应点列表，反向推理所述监控摄像机在地图中的位置和姿态。

7.根据权利要求5所述的位姿异常检测装置，其特征在于，所述计算模块包括：

搜索单元，用于在特征提取和匹配之前，对于近邻库图像中的图像进行图像近邻搜索，得到图像特征匹配的范围；

构建模块，用于根据所述图像特征匹配的范围基于组合多个局部特征的方法构建联合特征，并使用基于仿射变换的特征增强匹配。

8.根据权利要求5-7任一项所述的位姿异常检测装置，其特征在于，所述第二获取模块还用于通过李群的马氏距离描述估计值与初始值间的偏移，以得到所述检测帧的摄像机位姿与所述初始参考帧的初始位姿间的差异值。