CN107301665A

CN107301665A - 具有可变焦光学摄像头的深度摄像头及其控制方法

Info

Publication number: CN107301665A
Application number: CN201710302885.4A
Authority: CN
Inventors: 胡瑜; 曾鸣; 曾一鸣; 唐乾坤; 阚美娜; 李晓维
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2017-05-03
Filing date: 2017-05-03
Publication date: 2017-10-27
Anticipated expiration: 2037-05-03
Also published as: CN107301665B

Abstract

本发明提供一种具有可变焦光学摄像头的深度摄像头及其控制方法，所述方法包括：1)识别由所述深度摄像头所拍摄的光学图像上存在的物体；2)确定该物体的识别置信度；以及3)如果该物体的识别置信度不大于设定阈值，则针对该物体进行光学变焦和或数字变焦，以获得新的光学图像。使用根据本发明的智能深度摄像头，可以自动地、智能地进行变焦，当被拍摄物体的识别准确度比较低时，无需人工干预即可根据物体的尺寸和距离信息进行自动变焦，从而很大程度地提高了物体识别的效果。

Description

具有可变焦光学摄像头的深度摄像头及其控制方法

技术领域

本发明涉及深度摄像头，尤其涉及对深度摄像头所拍摄的图像进行物体识别。

背景技术

随着科技的发展，在越来越多的应用和场景中需要使用到图像的深度信息，即需要获知所场景中各个物体的远近距离，致使深度摄像头应运而生。目前，深度摄像头已被应用到移动机器人与无人车的自主导航、虚拟现实与增强现实、游戏娱乐、人机交互、安防与军事、交通控制等各种领域。

常见的市售深度摄像头品牌包括英特尔的RealSense、微软的Kinect、苹果的PrimeSense和谷歌的Project Tango等，按照所采用的深度传感器类别及光学摄像头类别，可将它们分为三类：一类是利用结构光原理进行测距，并利用RGB单目摄像头进行彩色图像的成像；第二类利用飞行时间(Time of Flight，TOF)原理进行测距并利用RGB单目摄像头进行彩色图像的成像；第三类利用RGB双目摄像头同时进行测距和彩色图像的成像。

然而，上述现有的深度摄像头均采用固定焦距的光学摄像头，无法根据感兴趣物体的尺寸和距离来调整光学焦距的远近，例如其无法通过调整光学焦距使得特定物体在图像中的所占面积更大，更无法依据调整焦距后所拍摄的图像进一步确认该物体的类别、尺寸等特征。这样的深度摄像头并不足以满足机器人自主导航、虚拟现实和增强现实、安防与军事等应用的要求。以智能机器人为例，其需要通过摄像头识别出周围环境中的各个物体以及它们的尺寸、远近距离，从而规划行进路线、完成相应的任务，例如提起茶壶向茶杯中倒水、将物品移动到指定地点、跟随活动中的小狗等。可见，现有的深度摄像头具有无法识别周围环境中可能存在的物体、并且针对该可能存在的物体调整光学焦距和或数字焦距以进一步确认其类别、尺寸、轮廓等特征的缺陷。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种对具有可变焦光学摄像头的深度摄像头的控制方法，包括：

1)识别由所述深度摄像头所拍摄的光学图像上存在的物体；

2)确定该物体的识别置信度；以及

3)如果该物体的识别置信度不大于设定阈值，则针对该物体进行光学变焦和或数字变焦，以获得新的光学图像。

优选地，根据所述方法，其中针对该物体进行光学变焦包括：

3-1)根据由所述深度摄像头所拍摄的深度图像中的深度信息、所述物体在所述光学图像上的边框，计算进行光学变焦所使用的光学焦距F_new。

优选地，根据所述方法，其中步骤3-1)包括：

3-1-1)根据用于确定所述物体的边框的点在所述光学图像上的坐标、所述点在深度图像上的坐标、所述光学摄像头与深度传感器之间的物理距离、以及所述物体在变焦后在所述光学图像中所占的比例，确定所述F_new。

优选地，根据所述方法，在步骤3-1-1)中通过下述计算式确定所述F_new：

其中，(x_w,y_w,z_w)是所述物体上某一点P在世界坐标系中的坐标，(u,v)是所述点P在图像坐标系中的坐标，z是点P在世界坐标系中的坐标点到图像平面的距离，dx和dy为每个像素在图像物理坐标系中X轴和Y轴方向上的尺寸；f为焦距F_new，f_x和f_y为X轴和Y轴方向的等效焦距；u₀和v₀是图像中心坐标；R和T为光学摄像头在世界坐标中的旋转矩阵和平移矩阵；矩阵L为光学摄像头的内参数矩阵，矩阵W为光学摄像头的外参数矩阵。

优选地，根据所述方法，其中步骤3)还包括：

利用以下计算式对经过光学变焦所重新拍摄的光学图像与深度图像进行配准：

P^c _color＝R^-1 _wcR_wdP^c _depth–(R^-1 _wcR_wdT_wd-T_wc)

其中，P^c _color为所述重新拍摄的光学图像的坐标系中的像点的坐标；P^c _depth为所述深度图像上的点在深度摄像头坐标系中的坐标；R_wc是光学摄像头的图像坐标相对于世界坐标的旋转变换矩阵；T_wc为光学摄像头的图像坐标相对于世界坐标的平移变换矩阵；R_wd为深度传感器的图像坐标相对于世界坐标的旋转变换矩阵；T_wd为深度传感器的图像坐标相对于世界坐标的平移变换矩阵。

优选地，根据所述方法，其中步骤3)还包括：

指示深度传感器生成新的深度图像。

优选地，根据所述方法，其中步骤3)包括：

针对所述物体，在所述光学图像的相应区域上进行像素插值，使得通过数字变焦所获得的新的光学图像上的所述物体的尺寸适中。

优选地，根据所述方法，在所述步骤3)中，基于设置的优先级来确定在进行光学变焦之前进行数字变焦或在进行数字变焦之前进行光学变焦。

并且，本发明还提供了一种计算机可读存储介质，其中存储有计算机程序，所述计算机程序在被执行时用于上述任意一项所述的方法。

此外，本发明还提供了一种深度摄像头，包括：

可变焦的光学摄像头、图像传感器、深度传感器、处理器、和存储装置，

其中，所述存储装置用于存储计算机程序，所述计算机程序在被所述处理器执行时用于实现如上述任意一项所述的方法。

与现有技术相比，本发明的优点在于：

根据本发明的智能深度摄像头能够对由光学摄像头所拍摄的彩色图像上存在的疑似物体进行初步识别，并且通过光学变焦和/或数字变焦进一步地放大该疑似物体，从而更加准确地对该疑似物体的类别、尺寸、轮廓等特征进行判断。

使用根据本发明的智能深度摄像头，可以自动地、智能地进行变焦，当被拍摄物体的识别准确度比较低时，无需人工干预即可根据物体的尺寸和距离信息进行自动变焦，从而很大程度地提高了物体识别的效果。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1是根据本发明的智能变焦深度摄像头的结构示意图；

图2是根据本发明的一个实施例的使用所述智能变焦深度摄像头的方法的流程图；

图3示出了世界坐标系、摄像头坐标系、图像坐标系间的映射关系；

图4示出了根据本发明的一个实施例的光学摄像头与深度传感器之间的坐标映射关系；

图5示出了根据本发明的一个实施例在进行光学变焦前所拍摄到的彩色图像上存在疑似杯子的物体的示意图；

图6示出了根据本发明的一个实施例对图5中的疑似杯子的物体进行放大的示意图；

图7示出了根据本发明的一个实施例对彩色图像和深度图像进行坐标配准前后的对比图；

图8示出了根据本发明的一个实施例对彩色图像和深度图像进行坐标配准时坐标间的映射关系；

图9示出了根据本发明的一个实施例通过增加像素点的方法对彩色图像进行尺寸放大的示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作详细说明。

如背景技术中所描述的，发明人发现现有的深度摄像头均是采用固定焦距的光学摄像头进行拍摄，并利用深度传感器对所拍摄图像的深度进行标定，其无法针对周围环境中的感兴趣物体调节光学焦距以进一步确认该物体的类别、尺寸、轮廓等特征。

发明人认为，深度摄像头最重要的用途在于通过拍摄来确定图像中所存在的各个物体距离摄像头的远近距离，因而能否准确地识别出图像中所存在的物体对于深度摄像头的使用尤为重要。在针对图像中的物体进行识别时，若图像中的物体占据画面的比例较小，往往难以准确地识别出该物体。尽管存在部分现有技术利用数字变焦放大该物体在画面中的比例，然而在采用固定光学焦距的情况下，数字变焦对画面质量的提高程度有限，这制约了深度摄像头对物体识别的准确性。

若是能够针对图像中可能存在的物体，采用更恰当的焦距，例如针对较远的物体采用较大的光学焦距来拍摄该物体，则能够获得更高质量的图像，并依据新拍摄到的图像进一步对该物体进行识别。

对此，本发明提出了一种新的智能变焦深度摄像头，区别于现有技术，其采用可变焦光学摄像头来代替原有产品中的焦距固定的光学摄像头，并且设计了与之配套的控制方法以自动地调整所述可变焦光学摄像头的焦距。根据本发明的所述智能变焦深度摄像头，能够自动地识别环境中的物体，当检测到可能存在物体时，可以调节光学摄像头的光学焦距和或对图像进行数字焦距，以对可能存在的物体进行进一步地识别。

参考图1，根据本发明的一个实施例，所述智能深度摄像头包括：具有光学变焦能力的光学摄像头11、图像传感器12、深度传感器13、处理器14、存储器15。

其中，所述光学摄像头11为具有可变光学焦距的任意摄像头，其用于拍摄周围环境；

图像传感器12与所述光学摄像头11相连接，并根据光学摄像头11所采集到的信息进行成像，生成黑白或彩色图像(在随后的实施例中将以彩色图像为例进行解释，但是本领域技术人员显然可以理解，本发明同样可以适用于黑白图像或生成黑白图像的摄像头)；优选地，所述黑白或彩色图像为RGB、HSV、HIS格式的图像；

深度传感器13用于获得周围环境中的深度信息以生成深度图像，其可以利用诸如红外等现有技术对物体的远近距离进行探测；优选地，所述深度图像为PPM格式的图像；

处理器14，其可以是例如专用的计算机视觉处理器或通用的市售CPU，根据来自图像传感器12和深度传感器13的彩色图像以及深度图像，调整光学摄像头11的光学焦距和或调整所述彩色图像的数字焦距以识别物体，直到物体识别的置信度超过设定阈值时输出所识别物体的类别、边框、置信度、距离等信息中的一种或多种；

存储器15，用于存储处理器14所输出的信息以及处理器14所执行的程序。

在使用所述智能深度摄像头时，可以首先由光学摄像头11拍摄周围环境，并利用图像传感器12生成周围环境的彩色图像，同时由深度传感器13获取周围环境中的深度信息生成深度图像；处理器14分析所述彩色图像，识别其中的物体：

若识别到物体且识别置信度大于设定的阈值，则向存储器15输出该物体的信息，例如类别、距离等；

若识别到物体但识别置信度不大于设定的阈值，则调整光学摄像头11的光学焦距以重新拍摄彩色图像或对现有的彩色图像进行数字变焦，对新获得的彩色图像重新进行物体识别，直到识别置信度大于设定的阈值时向存储器15输出该物体的信息；

若未识别到物体，则调整光学摄像头11的光学焦距以重新拍摄彩色图像。

下面将通过一个具体的实施例详细介绍所述处理器14的工作过程。参考图2，利用处理器14进行智能变焦从而控制所述智能光学摄像头的方法，包括：

201：获取由光学摄像头11所拍摄到的光学图像(下文中将称作为彩色图像)以及由深度传感器13所生成的深度图像。

在本发明中，为了方便可以设置操作时所采用的初始参数。例如，可以将初始光学焦距设置为最短焦距F_min，以便在随后的智能变焦过程中通过增加光学焦距来放大感兴趣物体在图像中的所占比例。

在步骤201中，可以由处理器14获取采用初始的最短焦距拍摄到的彩色图像。

还可以通过设置标记的方式，使得处理器14获知当前是否已进行了数字变焦、和或已进行了光学变焦。在步骤201中，可以初始地将光学变焦标记位以及数字变焦标记位设置为0，以表示尚未进行过数字变焦以及光学变焦，并在随后的步骤中通过将所述标记位修改为1来标识曾进行过数字变焦和或光学变焦。

202：对所述彩色图像进行物体识别，若无法识别出物体则继续步骤203，若可以识别出物体则继续步骤204。

在本发明中可以采用任意现有的物体识别算法。例如，可以使用基于特征的物体识别算法，通过提取尺度不变特征变换(Scale Invariant Feature Transform，SIFT)或加速鲁棒特征(Speeded Up Robust Feature，SURF)等特征，并使用支持向量机(SupportVector Machine,SVM)或者Adaboost等进行分类。又例如，还可以使用基于深度神经网络、特别是卷积神经网络(Convolutional Neural Network,CNN)的物体识别算法，诸如R-CNN、Fast R-CNN、Faster R-CNN、YOLO(You Only Look Once)、SSD(Single Shot MultiBoxDetector)等算法，以端到端的方式进行物体识别。

根据本发明的一个优选实施例，采用基于CNN的YOLO v2的物体识别算法，以通过该算法输出所识别物体的类别、边框和物体所属类别的置信度。

203：紧接步骤202，在无法从当前光学焦距所拍摄的彩色图像中识别出物体时，向光学摄像头11发出增加光学焦距的指令，并在接收到光学摄像头11所新拍摄的彩色图像后，执行步骤202。

在无法从采用当前光学焦距所拍摄的彩色图像中识别出物体时，增大焦距必然会对某些区域进行放大，因此实际上还会选择需要放大的区域，例如可能存在物体的区域，在此时对彩色图像进行数字变焦的计算量大、效果不好。更好的方法是增加进行拍摄所采用的光学焦距，因而在步骤203中，由处理器14指示光学摄像头11增加光学焦距进行拍摄。

在本发明中，可以根据经验值或依需要而设置变焦步长，也可以根据变焦比F_max/F_min，例如将变焦步长设置为1.5X，2X，…，F_max/F_min。例如，假设当前光学焦距为F_min，则将光学焦距调整为1.5F_min进行拍摄，若仍不能识别出物体，则进一步地将光学焦距调整为2F_min，以此类推直到调整到最大光学焦距F_max。

若仍然无法从最大光学焦距F_max所拍摄的彩色图像中识别出物体，例如在将光学焦距调整为F_max时一并将光学变焦标记设置为1，在执行步骤203时若发现光学变焦标记为1则认为针对该场景的识别失败，从存储器中删除该彩色图像以及深度图像并退出。

204：紧接步骤202，在可以从当前光学焦距所拍摄的彩色图像中识别出物体时，判断所识别物体的置信度是否大于设定的阈值：若置信度>阈值则继续步骤208，即输出该物体的信息，例如类别、边框、置信度、远近(即深度信息)等；若置信度≤阈值则继续步骤205。

205：在彩色图像中所识别出物体的置信度≤阈值时，判断是否需要进行光学变焦或者数字变焦。

在本发明中，可以根据用户的偏好来设置优先采取光学变焦或者优先采取数字变焦。如前文所述，数字变焦能够在一定程度内提高物体识别的准确度，其是对已有的图像进行像素缩放，无需重新拍摄图像，计算速度相比于光学变焦更快，然而其对物体识别效果的提升程度有限。相较之下，光学变焦能够通过调整光学焦距的远近，而拍摄到质量更高的彩色图像。

用户可以根据需要设置为仅执行光学变焦、或仅执行数字变焦、或在执行完光学变焦后执行数字变焦、或在执行完数字变焦后执行光学变焦。

206a：在可从当前彩色图像中识别出物体的情况下进行光学变焦，可以根据深度图像中的物体距离、彩色图像中的物体边框尺寸，计算变焦后的光学焦距F_new。

发明人通过研究发现，可以利用真实的空间坐标、摄像头坐标、和所拍摄图像坐标之间的映射关系来估算满足要求的恰当的变焦后的光学焦距F_new，下面将介绍步骤206a的具体的操作方法。

图3示出了在描述成像过程中存在于各个坐标系之间的映射关系，其中，世界坐标系被用于描述物体处于其所在空间上的位置(可以将该空间上的任意一点作为该坐标系的原点)，摄像头坐标系被用于描述物体对应于光学摄像头的位置(其坐标原点一般认为与摄像头的光心重合)，图像坐标系被用于描述物体在图像传感器所生成的彩色图像中的位置(其坐标原点在彩色图像的左上角)。

参考图3，通过“刚性变换”可以将世界坐标系中的物体的坐标映射到摄像头坐标系中，该变换可以通过“外参数矩阵W”来描述；并且，通过“透射投影”可以将摄像头坐标系中的物体的坐标映射到图像坐标系中，该变换可以通过“内参数矩阵L”来描述。

假设(x_w,y_w,z_w)是物体上某一点P在世界坐标系中的坐标，(u,v)是点P在图像坐标系中的坐标，z是点P在世界坐标系中的坐标点到图像平面的距离，那么(x_w,y_w,z_w)与(u,v)的对应关系可通过如下方程表示：

其中，dx和dy为每个像素在图像物理坐标系中X轴和Y轴方向上的尺寸，该尺寸由所采用的图像传感器14而确定；f为焦距，f_x和f_y被定义为X轴和Y轴方向的等效焦距；u₀和v₀是图像中心(光轴与图像平面的交点)坐标；R和T为摄像机在世界坐标中的旋转矩阵和平移矩阵；矩阵L为摄像机的内参数矩阵，矩阵W为摄像机的外参数矩阵，矩阵L和外参数矩阵W可通过棋盘法等标定方法而获得，例如可以利用MATLAB软件中内置工具箱的CameraCalibration Toolbox对矩阵L和外参数矩阵W进行计算。

如前文中所述，光学变焦可以让物体以适中尺寸清晰呈现于图像传感器采集的彩色图像上，从而提高物体识别算法的识别效果。这样的适中尺寸可以由用户所确定，也可以是预先设置的。

例如，在当前彩色图像中检测到一个疑似物体，其占据彩色图像画面中1/10的面积，若希望将该疑似物体在彩色图像画面中比例放大到1/2，则可以获得该疑似物体轮廓上的多个顶点在深度图像中的位置坐标，并利用上式计算出候选焦距为F_new(如果预估出的F_new大于F_max，则将F_new设置为F_max)。

下面将通过一个具体的实例，来介绍上述计算过程。

假设根据本发明的智能深度摄像头中，光学摄像头11与深度传感器13之间的物理距离为5cm，忽略光学摄像头11与深度传感器13在竖直成像平面上的细微差异，可以认为摄像头坐标系与深度传感器的坐标系在水平方向上相差0.05m，如图4所示。则可以认为外参数矩阵W为单位矩阵，而仅需标定内参数矩阵L。

假设所拍摄的彩色图像和深度图像的分辨率均为480*640，图5示出了变焦前所拍摄到的彩色图像。在该彩色图像上，疑似杯子的物体的边框由A、B、C、D四个点所确定，分别为：

A(200,220)、B(200,240)、C(220,220)、D(220,240)；

并且，所述四个点在深度传感器的图像上所对应的位置由A_d、B_d、C_d、D_d所确定，分别为：

A_d(-0.4m,0.5m,1.0m)、B_d(-0.4m,0.2m,1.0m)、

C_d(-0.1m,0.5m,1.0m)、D_d(-0.1m,0.2m,1.0m)；

考虑到摄像头坐标系与深度传感器的坐标系在水平方向上相差0.05m，则所述四个点在摄像头坐标系中的位置A_w、B_w、C_w、D_w应当为：

A_w(-0.45m,0.5m,1.0m)、B_w(-0.45m,0.2m,1.0m)、

C_w(-0.15m,0.5m,1.0m)、D_w(-0.15m,0.2m,1.0m)。

若需要通过光学变焦来放大该疑似物体水杯在图像中所占的比例，则需要将圆形所占比例20*20/(480*640)放大为100*100/(480*640)。可以选择将变焦后的边框顶点A’、B’、C’、D’的坐标，例如通过用户手动地将变焦前的彩色图像放大到如图6所示出的示意图，则可以确定所述四个点的坐标：

A’(40,140)、B’(40,240)、C’(140,140)、D’(140,240)。

则可以通过上述计算式，进行坐标之间的转换，从而计算出F_new。以其中的A’为例进行解释说明。

将坐标A’与A_d带入上式，则有，

并且，外参数矩阵W为单位矩阵，

内参数矩阵L可以表示为，

其中，(u₀,v₀)是所拍摄图像的中心在图像坐标系中的坐标，其大小为(240,320)；dx和dy分别是每个像素在图像平面x和y方向上的物理尺寸(一般在光学摄像头的传感器说明书上会标出具体值)。

由此，计算式(4)可被变型为，

基于上述计算式(7)，可以将f(即需要计算的F_new)写成dx或dy的表达式，例如-0.45*f/dx+240＝40，而如前文所述dx和dy可从说明书中获取。

由此，可以通过步骤206a，计算获得在需要进行光学变焦时所需要采用的光学焦距F_new。

206b：指示光学摄像头11将光学焦距修改为F_new拍摄彩色图像。

针对在上述步骤中设置有光学变焦标记位以及数字变焦标记位的实施例，还可以在步骤206b中，完成对光学焦距的修改后，将光学变焦标记从0修改为1表示已进行过光学调焦。根据所述光学变焦标记位以及数字变焦标记位，可以判断是否需要在执行过光学变焦后继续进行数字变焦，或是否需要退出。例如，当光学变焦标记位为1，数字变焦标记位为0，且用户设置要求在执行完光学变焦后执行数字变焦，则可以继续执行数字变焦，例如继续步骤207。

由于采用F_new对场景进行重新拍摄后，彩色图像中物体的尺度与之前所拍摄的深度图像无法保持一一对应，因此根据本发明的一个实施例，在步骤206b中还包括指示深度传感器13生成新的深度图像。

根据本发明的又一个实施例，在不通过深度传感器13生成新的深度图像的情况下，还可以通过对彩色图像和深度图像进行配准，使得彩色图像的坐标与深度图像相吻合。发明人发现存在需要进行配置的问题通常发生在进行过光学变焦的情况下，例如仅针对拍摄场景进行了光学变焦，或者针对拍摄场景进行了光学变焦以及数字变焦。

图7示出了需要对彩色图像和深度图像进行配准的示例，其中图7(a)为未经配准的图像，可以看出其彩色图像与深度图像并不重合、相差较多；图7(b)为经过配准后彩色图像与深度图像相重合的图像。

根据本发明的一个实施例，可以通过以下方法来配准彩色图像与深度图像。

步骤206b-1：首先将光学摄像头与深度传感器固定在支架上，尽量使得光学摄像头的的像平面与深度传感器的像平面平行；

步骤206b-2：将支架的中心作为世界坐标系的中心，即支架中心的世界坐标为O^w。

这里可以对光学摄像头11与深度传感器13进行标定，具体方法可以参照前文中所述的棋盘法，通过标定可以确定光学摄像头的图像坐标相对于世界坐标的旋转变换矩阵R_wc、平移变换矩阵T_wc、深度传感器的图像坐标相对于世界坐标的旋转变换矩阵R_wd、以及平移变换矩阵T_wd，如图8所示。

步骤206b-3：将上述矩阵R_wc，T_wc，R_wd，T_wd带入以下表达式中，从而确定深度摄像头坐标系中的点P^c _depth与彩色图像坐标系中的点P^c _color之间的对应关系。

P^c _color＝R^-1 _wcR_wdP^c _depth–(R^-1 _wcR_wdT_wd-T_wc) (8)

上述计算式(8)的推导过程如下：

假设，世界坐标系上的物点的坐标为P^w，在彩色图像坐标系中的像点的坐标为P^c _color，在深度图像坐标系中的像点坐标为P^c _depth，则可将P^c _color与P^w的转换关系，以及P^c _depth与P^w的转换关系表示为：

P^c _color＝R^-1 _wcP^w+T_wc

P^c _depth＝R^-1 _wdP^w+T_wd

根据P^c _depth与P^c _color的转换关系，需要求解深度图像坐标系相对于彩色图像坐标系的旋转变换矩阵R_cd和平移变换矩阵T_cd：

P^c _depth＝R^-1 _cdP^c _color+T_cd

将上述计算式进行整理、消去P^w后，得到如下计算式：

P^c _color＝R^-1 _wcR_wdP^c _depth–(R^-1 _wcR_wdT_wd-T_wc)

由此，可求出深度图像坐标系相对于彩色图像坐标系的旋转变换矩阵R_cd和平移变换矩阵T_cd，即：

R_cd＝R^-1 _wcR_wd

T_cd＝T_wd-R^-1 _wdR_wcT_wc

将求得的R_cd和T_cd代入P^c _depth＝R^-1 _cdP^c _color+T_cd中，由此可将深度图像坐标系投影到彩色图像坐标系中。

以一个具体的实例来说明，假设深度传感器13中读取了一个点的坐标为P^c _depth＝(1.1,0.5,3.2)，则在在彩色图像坐标系中该点的坐标应当被表示为P^c _color＝R^-1 _wcR_wd(1.1,0.5,3.2)^T–(R^-1 _wcR_wdT_wd-T_wc)，其中R_wc，T_wc，R_wd，T_wd通过棋盘法而确定。

由此，可以完成彩色图像与深度图像在尺度上的映射。

207：在可从当前彩色图像中识别出物体的情况下进行数字变焦，可以根据该物体与深度摄像头之间的距离信息，进行像素插值，使得已有彩色图像中的该物体以适中尺寸呈现在新的彩色图像上。

数字变焦的原理在于：数字图像由无数像素点组成，因而可以向目标区域(例如该物体所在区域)的各个像素间增加更多的图像像素点，使图像尺寸得以扩充。例如，参考图9(a)所示出的已有彩色图像中的一部分，其中P1、P2、P3、P4是相邻的四个像素点，若需要利用数字变焦将该图像放大两倍，则需要在相邻的行与列之间插入新的像素点。如图9(b)所示出的，在新获得的彩色图像中，在P1、P2、P3、P4间的水平和竖直方向上均插入了新的像素点。

本发明中可以采用任意恰当的数字变焦方法，例如可以采用以下插值方法：最近邻插值(Nearest Interpolation)、双线性插值(Bilinear Interpolation)和双三次插值(Bicubic interpolation)，还可以采用以下方法来确定需要插入的新的像素值：nearest、Bilinear、Bicubic。

此外，为了维持原图像大小不变，还可以在像素插值前将原图像剪切成一小块区域，然后进行插值填补中间的像素，并使之恢复到原图像的大小(即像素总量不变)。

与经过光学变焦的情况不同的是，由于数字变焦仅是插入新像素而并没有改变摄像头的参数，因此仅进行了数字变焦的情况往往不需要针对彩色图像和深度图像进行重新配准。

综上所述，根据本发明的智能深度摄像头，可以自动地、智能地进行变焦，当被拍摄物体的识别准确度比较低时，无需人工干预即可根据物体的尺寸和距离信息进行自动变焦，不仅为用户解决了现有深度摄像头仅具有彩色图像和深度图像的采集功能而不具备物体识别功能，并且较大程度地提高了物体识别的效果。

需要说明的是，上述实施例中介绍的各个步骤并非都是必须的，本领域技术人员可以根据实际需要进行适当的取舍、替换、修改等。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管上文参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种对具有可变焦光学摄像头的深度摄像头的控制方法，包括：

1)识别由所述深度摄像头所拍摄的光学图像上存在的物体；

2)确定该物体的识别置信度；以及

2.根据权利要求1所述的方法，其中针对该物体进行光学变焦包括：

3.根据权利要求2所述的方法，其中步骤3-1)包括：

4.根据权利要求3所述的方法，在步骤3-1-1)中通过下述计算式确定所述F_new：

其中，(x_w,y_w,z_w)是所述物体上某一点P在世界坐标系中的坐标，(u,v)是所述点P在图像坐标系中的坐标，z是点P在世界坐标系中的坐标点到图像平面的距离，dx和dy为每个像素在图像物理坐标系中X轴和Y轴方向上的尺寸；f为焦距F_new，f_x和f_y为X轴和Y轴方向的等效焦距；u₀和v₀是图像中心坐标；R和T为摄像机在世界坐标中的旋转矩阵和平移矩阵；矩阵L为摄像机的内参数矩阵，矩阵W为摄像机的外参数矩阵。

5.根据权利要求1-4中任意一项所述的方法，其中步骤3)还包括：

P^c _color＝R^-1 _wcR_wdP^c _depth–(R^-1 _wcR_wdT_wd-T_wc)

6.根据权利要求1-4中任意一项所述的方法，其中步骤3)还包括：

指示深度传感器生成新的深度图像。

7.根据权利要求1-4中任意一项所述的方法，其中步骤3)包括：

8.根据权利要求7所述的方法，在所述步骤3)中，基于设置的优先级来确定在进行光学变焦之前进行数字变焦或在进行数字变焦之前进行光学变焦。

9.一种计算机可读存储介质，其中存储有计算机程序，所述计算机程序在被执行时用于实现如权利要求1-8中任意一项所述的方法。

10.一种深度摄像头，包括：

其中，所述存储装置用于存储计算机程序，所述计算机程序在被所述处理器执行时用于实现如权利要求1-8中任意一项所述的方法。