CN103458262B

CN103458262B - 一种3d图像空间与3d视听空间转换方法及装置

Info

Publication number: CN103458262B
Application number: CN201310438138.5A
Authority: CN
Inventors: 胡瑞敏; 张茂胜; 章佩; 李登实; 涂卫平; 王晓晨; 姜林; 王松; 王樱
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2013-09-24
Filing date: 2013-09-24
Publication date: 2015-07-29
Anticipated expiration: 2033-09-24
Also published as: CN103458262A

Abstract

本发明提供了一种3D图像空间与3D视听空间转换方法及装置，包括目将图像坐标系内中心点的位置和目标对象的位置作为输入，得到目标对象相对于中心点的方位信息，映射得到目标对象相对于中心点在视听坐标系中的方位信息；从3D视频中提取出目标对象的深度值和中心点的深度值，计算出目标对象与中心点的深度差，转换得到以物理单位为度量的目标对象相对于中心点的距离信息；还原出目标对象在视听坐标系中的目标位置。本发明创造性提出图像空间转3D视听空间的方案，在图像空间中获取目标对象的方位信息和3D视频中获取目标对象的距离信息，然后在视听空间中还原声像的目标位置，重建目标对象方位信息。

Description

一种3D图像空间与3D视听空间转换方法及装置

技术领域

本发明涉及3D视听技术领域，尤其涉及图像空间转3D视听空间的方法，研究视频中用户视觉对目标对象的位置的感知与用户听觉对目标对象位置的感知之间的转换关系。

背景技术

随着3D影视产业的飞速发展，作为3D影视的灵魂，3D音视频技术已成为多媒体技术领域的研究热点和进一步发展的重要方向，面向影剧院、家庭娱乐环境的3D视听系统不断推陈出新，现有的3D视频技术已经能为观众提供很好的临场体验，市场上也出现了大量支持3D视觉效果的设备，然而，3D音频技术的发展与3D视频技术的发展并未同步跟进。目前市面上销售的产品都是沿用原有的立体声或环绕声技术，基于传统立体声或环绕声发展起来的2D音频系统缺乏对声音对象的三维空间信息表达，在3D视听系统中不能完整表达图像目标对象的声音空间信息，导致3D音频与3D视频感知的不匹配，如3D视频中看到发声体在左前方，而听觉感知发声体在前甚至无法感知到具体位置，损害了听众对视听事件的完整空间感受。.

发明内容

本发明的目的是在图像空间中获取目标对象的方位信息和3D视频中获取目标对象的距离信息，然后在视听空间中还原声像的目标位置，重建目标对象方位信息。

为实现上述目的，本发明提供了一种3D图像空间与3D视听空间转换方法，包括以下步骤，

步骤1，目标对象方位信息获取，包括将图像坐标系内中心点的位置和目标对象的位置作为输入，得到目标对象相对于中心点的方位信息；所述中心点位于图像的中心位置；

步骤2，目标对象方位信息转换，包括将图像坐标系中目标对象相对于中心点的方位信息映射到视听坐标系，得到目标对象相对于中心点在视听坐标系中的方位信息；

步骤3，深度信息获取，包括从3D视频中提取出目标对象的深度值和中心点的深度值；

步骤4，目标对象距离信息获取，包括根据步骤3所得目标对象与中心点的深度值，计算出目标对象与中心点的深度差，转换得到以物理单位为度量的目标对象相对于中心点的距离信息；

步骤5，声像位置还原，包括根据步骤2中所得到的目标对象相对于中心点的方位信息和步骤4中所得到的目标对象相对于中心点的距离信息，还原出目标对象在视听坐标系中的目标位置。

而且，所述图像坐标系是在图像上定义的直角坐标系u-v，图像的左上角为原点O₀，u为图像的水平方向，v为图像的垂直方向；所述视听坐标系是由听音点和X_c，Y_c，Z_c轴组成的直角坐标系，听音点为原点，X_c轴和Y_c轴与图像坐标系的u轴和v轴平行，Zc轴为摄像机光轴，和图像平面垂直；

步骤1中，设图像坐标系内，中心点的位置以二维点的形式记为LC[a，b]^T，目标对象的位置为LO[x，y]^T，得到目标对象相对于中心点的方位信息是[x-a，y-b]^T；

步骤2中，得到目标对象相对于中心点在视听坐标系中的方位信息如下，

[x_w-a_w，y_w-b_w，z_w-c_w]^T

其中，a_w是中心点在视听坐标系中水平方向的值，b_w是中心点在视听坐标系中垂直方向的值，c_w是中心点在视听坐标系中位于摄像机光轴方向的值，x_w是目标对象在视听坐标系中水平方向的值，y_w是目标对象在视听坐标系中垂直方向的值，z_w是目标对象在视听坐标系中位于摄像机光轴方向的值。

而且，步骤3中，所述目标对象的深度值通过计算摄像机光学中心到目标对象的深度值Z_Lspeaker(u，v)得到，公式如下，

Z_{Lspeaker} (u, v) = \frac{BF}{d_{Lspeaker} (u, v)}

其中，d_Lspeaker(u，v)代表目标对象以像素为单位的视差；

所述中心点的深度值通过计算摄像机光学中心到中心点的深度值Z_Llisten(u，v)得到，公式如下，

Z_{Llisten} (u, v) = \frac{BF}{d_{Llisten} (u, v)}

其中，d_Llisten(u，v)代表听音点以像素为单位的视差；

步骤4中，目标对象与中心点的深度差deep根据下式计算得到，

deep = \frac{BF}{d_{Llisten} (u, v)} - \frac{BF}{d_{Lspeaker} (u, v)}

设(X，Y)表示以物理单位度量的成像平面坐标系的坐标，成像平面坐标系的原点O₁定义在摄像机光轴和图像平面的交点处，X轴和Y轴方向分别与图像坐标系的u轴和v轴平行，根据成像平面坐标系与图像坐标系的关系转化得到以物理单位为度量的目标对象相对于中心点的距离信息disifm如下，

disifm = \frac{BF}{d_{Llis \tan} (X, Y)} - \frac{BY}{d_{Lspeaker} (X, Y)}

其中，d_Lspeaker(X，Y)代表目标对象以物理距离为单位的视差，d_Llisten(X，Y)代表听音点以物理距离为单位的视差。

而且，视差根据下式计算得到，

D = \frac{{Frv}_{0}}{{rv}_{0} - F (r + d)}

其中，D为视差，v₀是像距，F是焦距，r为透镜半径，d为测量模糊圆的半径。

而且，步骤5中，还原所得目标对象在视听坐标系中的目标位置为[x_w-a_w，y_w-b_w，z_w-c_w+disifm]^T。

本发明还相应提供一种3D图像空间与3D视听空间转换装置，包括以下模块，

目标对象方位信息获取模块，用于将图像坐标系中心点的位置和目标对象的位置作为输入，得到目标对象相对于中心点的方位信息；

目标对象方位信息转换模块，用于将图像坐标系中目标对象相对于中心点的方位信息映射到视听坐标系，得到目标对象相对于中心点在视听坐标系中的方位信息；

深度信息获取模块，用于从3D视频中提取出目标对象的深度值和中心点的深度值；

目标对象距离信息获取模块，用于根据深度信息获取模块所得目标对象与中心点的深度值，计算出目标对象与中心点的深度差，转换得到以物理单位为度量的目标对象相对于中心点的距离信息；

声像位置还原模块，用于根据目标对象方位信息转换模块所得目标对象相对于中心点的方位信息和目标对象距离信息获取模块所得目标对象相对于中心点的距离信息，还原出目标对象在视听坐标系中的目标位置。

而且，所述图像坐标系是在图像上定义的直角坐标系u-v，图像的左上角为原点O₀，u为图像的水平方向，v为图像的垂直方向；所述视听坐标系是由听音点和X_c，Y_c，Z_c轴组成的直角坐标系，听音点为原点，X_c轴和Y_c轴与图像坐标系的u轴和v轴平行，Z_c轴为摄像机光轴，和图像平面垂直；

目标对象方位信息获取模块中，设图像坐标系内，中心点的位置以二维点的形式记为LC[a，b]^T，目标对象的位置为LO[x，y]^T，得到目标对象相对于中心点的方位信息是[x-a，y-b]^T；

目标对象方位信息转换模块中，得到目标对象相对于中心点在视听坐标系中的方位信息如下，

[x_w-a_w，y_w-b_w，z_w-c_w]^T

而且，深度信息获取模块中，所述目标对象的深度值通过计算摄像机光学中心到目标对象的深度值Z_Lspeaker(u，v)得到，公式如下，

Z_{Lspeaker} (u, v) = \frac{BF}{d_{Lspeaker} (u, v)}

其中，d_Lspeaker(u，v)代表目标对象以像素为单位的视差；

Z_{Llisten} (u, v) = \frac{BF}{d_{Llisten} (u, v)}

其中，d_Llisten(u，v)代表听音点以像素为单位的视差；

声像距离信息计算模块中，目标对象与中心点的深度差deep根据下式计算得到，

deep = \frac{BF}{d_{Llisten} (u, v)} - \frac{BF}{d_{Lspeaker} (u, v)}

disifm = \frac{BF}{d_{Llis \tan} (X, Y)} - \frac{BY}{d_{Lspeaker} (X, Y)}

而且，视差根据下式计算得到，

D = \frac{{Frv}_{0}}{{rv}_{0} - F (r + d)}

而且，声像位置还原模块中，还原所得目标对象在视听坐标系中的目标位置为[x_w-a_w，y_w-b_w，z_w-c_w+disifm]^T。

本发明创造性提出图像空间转3D视听空间的方案，本发明创造性提出图像空间转3D视听空间的方案，在图像空间中获取目标对象的方位信息和3D视频中获取目标对象的距离信息，然后在视听空间中还原声像的目标位置，重建目标对象方位信息。应用本发明可实现3D语音与视频的空间信息一致性，给用户更逼真的3D听觉和视觉体验，实现图像空间信息与3D音频声像空间信息的统一表达，推动3D视听产业的快速同步发展。

附图说明

图1为本发明实施例的图像坐标系到成像平面坐标系的转换示意图。

图2为本发明实施例的图像空间转3D视听空间装置结果图。

图3为本发明实施例的图像空间转3D视听空间示意图。

具体实施方式

以下结合附图和实施例进行详细说明。

本发明所提供方法可采用计算机软件技术实现自动运行流程，实施例的流程具体包括以下步骤：

步骤1，目标对象方位信息获取，包括将图像坐标系中心点的位置和目标对象的位置作为输入，用于计算目标对象相对于中心点的方位信息。

如图1所示，在图像上定义直角坐标系u-v作为图像坐标系，其中图像的左上角为原点O₀，u为水平方向，v为垂直方向，每一像素的坐标(u，v)分别是该像素在数组中的列数和行数，故(u，v)是以像素为单位的图像坐标系坐标。在图像坐标系中计算出目标对象相对于中心点的方位，该中心点位于图像的中心位置。

如图3，在图像坐标系中，已知中心点的位置以二维点的形式记为LC[a，b]^T，目标对象的位置为LO[x，y]^T，得到目标对象相对于中心点的方位信息是[x-a，y-b]^T，其中T表示向量的转置。

步骤2，目标对象方位信息转换，包括将图像坐标系中目标对象相对于中心点的方位信息映射得到视听坐标系的方位信息。

步骤2.1，在用户所在的环境中，以听音点为原点建立视听坐标系，该视听坐标系是由听音点和X_c，Y_c，Z_c轴组成的直角坐标系，X_c轴和Y_c轴分别与图像坐标系的u轴和v轴平行，Z_c轴为摄像机的光轴，和图像平面垂直。

步骤2.2，参考图3，将图像坐标系中的目标对象相对于中心点的方位信息映射到视听坐标系。

步骤2.2.1，在图像坐标系中将图像坐标系内的二维点表示为m＝[U，V]^T，视听坐标系内的三维点表示为M＝[X_w，Y_w，Z_w]^T，它们的齐次向量表示形式分别为和采用小孔透视摄像机模型，可以得到

s \overset{&OverBar;}{m} = K \cdot [Rt] \overset{&OverBar;}{M}

\overset{&OverBar;}{M} = s \overset{&OverBar;}{m} \cdot {(K [Rt])}^{- 1}

式中，s是任意的比例因子；[Rt]是外参数矩阵；K是内参数矩阵，且有

K = [\begin{matrix} f_{u} & γ & u_{0} \\ 0 & f_{v} & v_{0} \\ 0 & 0 & 1 \end{matrix}]

其中，R是旋转矩阵，t是平移向量；主点定义在摄像机光轴和图像平面的交点处，(u₀，v₀)是主点坐标，该点一般位于图像中心处；f_u、f_v分别是u轴和v轴的尺度因子；γ是透镜的畸变因子。

步骤2.2.2，根据步骤3.1的公式在视听坐标系中，图像坐标系中的中心点映射到视听坐标系的坐标表示如下：

LC_th[a_w，b_w，c_w]^T＝s·LC·(K[Rt])^-1

其中，a_w是中心点在视听坐标系中水平方向(即X_c轴方向)的值，b_w是中心点在视听坐标系中垂直方向(即Y_c轴方向)的值，c_w是中心点在视听坐标系中位于摄像机光轴方向(即Z_c轴方向)的值，LC＝[a，b，1]^T表示中心点位置映射到视听坐标系中的坐标。

目标对象在视听坐标系中的坐标表示如下：

LO_th[x_w，y_w，z_w]^T＝s·LO·(K[Rt])^-1

其中，x_w是目标对象在视听坐标系中水平方向的值，y_w是目标对象在视听坐标系中垂直方向的值，z_w是目标对象在视听坐标系中位于摄像机光轴方向的值，LO＝[x，y，1]^T表示目标对象映射到视听坐标系中的坐标。

步骤2.2.3，从步骤2.2.2中可以得到目标对象相对于中心点在视听坐标系中的方位信息表示为如下：

[x_w-a_w，y_w-b_w，z_w-c_w]^T

步骤3，深度信息获取，包括获取目标对象的深度值和中心点的深度值，根据已有的3D视频，在已有的3D视频中提取出目标对象的深度值和中心点的深度值。

步骤3.1，在双目立体视觉中，视差D的公式计算如下：

D = \frac{{Frv}_{0}}{{rv}_{0} - F (r + d)}

其中v₀是像距，F是焦距，r为透镜半径，d为测量模糊圆的半径。

步骤3.2，在双目立体视觉中，深度值Z的公式计算如下

Z = \frac{BF}{D}

其中B是摄像机之间的基线距离。

计算摄像机光学中心到目标对象的深度值如下：

Z_{Lspeaker} (u, v) = \frac{BF}{d_{Lspeaker} (u, v)}

其中，d_Lspeaker(u，v)代表目标对象以像素为单位的视差。

计算摄像机光学中心到中心点的深度值如下：

Z_{Llisten} (u, v) = \frac{BF}{d_{Llisten} (u, v)}

其中，d_Llisten(u，v)代表听音点以像素为单位的视差。

d_Lspeaker(u，v)和d_Llisten(u，v)通过步骤3.1中公式计算得到。

步骤4，目标对象距离信息获取，包括根据步骤3中所得到的目标对象与中心点的深度值，计算出目标对象与中心点的深度差，再根据目标对象与中心点的深度差计算出目标对象相对于中心点的距离信息。

步骤4.1，由步骤3.2.1和步骤3.2.2中获取的中心点和目标对象的深度值，计算出目标对象与中心点的深度差deep如下：

deep = \frac{BF}{d_{Llisten} (u, v)} - \frac{BF}{d_{Lspeaker} (u, v)}

深度差表示以像素为单位的距离信息。

步骤4.2，根据步骤4.1中计算出的目标对象与中心点的深度差deep，将以像素为单位的距离信息转换为以物理单位为度量的距离信息。

步骤4.2.1，如图1所示，用(X，Y)表示以物理单位度量的成像平面坐标系的坐标。在X-Y坐标系中，原点O₁定义在摄像机光轴和图像平面的交点处，称为图像的主点(principal point)，该点一般位于图像中心处，但由于摄像机制作的原因，可能会有些偏离，设O₁在图像坐标系u-v下的坐标为(u₀，v₀)，X轴和Y轴方向分别与图像坐标系的u轴和v轴平行，每个像素在X轴和Y轴方向上的物理尺寸为dX、dY，两个坐标系的关系如下：

[\begin{matrix} u \\ v \\ 1 \end{matrix}] [\begin{matrix} 1 / dX & s^{'} & u_{0} \\ 0 & 1 / dY & v_{0} \\ 0 & 0 & 1 \end{matrix}] [\begin{matrix} X \\ Y \\ 1 \end{matrix}]

[\begin{matrix} X \\ Y \\ 1 \end{matrix}] = [\begin{matrix} u \\ v \\ 1 \end{matrix}] {[\begin{matrix} 1 / dX & s^{'} & u_{0} \\ 0 & 1 / dY & v_{0} \\ 0 & 0 & 1 \end{matrix}]}^{- 1}

其中s′表示因摄像机成像平面坐标轴相互不正交引出的倾斜因子。

步骤4.2.2，由步骤4.1得到的深度差deep，根据步骤4.2.1的公式转化为距离信息disifm，

disifm = \frac{BF}{d_{Llis \tan} (X, Y)} - \frac{BY}{d_{Lspeaker} (X, Y)}

其中，d_Lspeaker(X，Y)代表目标对象以物理距离为单位的视差。

其中，d_Llisten(X，Y)代表听音点以物理距离为单位的视差。

步骤5，声像位置还原，包括根据步骤2中所得到的目标对象相对于中心点的方位信息和步骤4中所得到的目标对象相对于中心点的距离信息，还原出声像在视听坐标系中的目标位置。

如图3所示，由步骤2得到的目标对象相对于中心点在视听坐标系中的方位信息[x_w-a_w，y_w-b_w，z_w-c_w]^T和由步骤4得到的距离信息disifm，将目标对象相对于听音点的方位移动disifm，即可得到视频中的目标对象在视听空间中应处的位置为[x_w-a_w，y_w-b_w，z_w-c_w+disifm]^T。

具体实施时，步骤1、2和步骤3、4为并列关系，可以按步骤1、2、3、4先后执行，也可以先执行步骤3、4后执行步骤1、2，在系统资源足够的情况下也可以并行执行步骤1、2和3、4，最后根据步骤2、4的结果执行步骤5即可，实质上是相同的，都属于本发明保护范围内。

本发明还可采用软件模块化方式实现为装置，如图2所示：

目标对象方位信息获取模块1，用于将图像坐标系中心点的位置和目标对象的位置作为输入，得到目标对象相对于中心点的方位信息；

目标对象方位信息转换模块2，用于将图像坐标系中目标对象相对于中心点的方位信息映射到视听坐标系，得到目标对象相对于中心点在视听坐标系中的方位信息；

深度信息获取模块3，用于从3D视频中提取出目标对象的深度值和中心点的深度值；

目标对象距离信息获取模块4，用于根据深度信息获取模块所得目标对象与中心点的深度值，计算出目标对象与中心点的深度差，转换得到以物理单位为度量的目标对象相对于中心点的距离信息；

声像位置还原模块5，用于根据目标对象方位信息转换模块所得目标对象相对于中心点的方位信息和目标对象距离信息获取模块所得目标对象相对于中心点的距离信息，还原出目标对象在视听坐标系中的目标位置。

各装置具体实现可参见方法的各步骤实现，不予赘述。

以上仅是用以说明本发明的具体实施案例而已，并非用以限定本发明的可实施范围。熟悉本领域的技术人员在不违背本发明所指示的精神与原理下所完成的一切等效变形、替换或修饰，仍包含在本发明权利要求所限定的范围内。

Claims

1.一种3D图像空间与3D视听空间转换方法，其特征在于：包括以下步骤，

2.根据权利要求1所述3D图像空间与3D视听空间转换方法，其特征在于：所述图像坐标系是在图像上定义的直角坐标系u-v，图像的左上角为原点O₀，u为图像的水平方向，v为图像的垂直方向；所述视听坐标系是由听音点和X_c,Y_c,Z_c轴组成的直角坐标系，听音点为原点，X_c轴和Y_c轴与图像坐标系的u轴和v轴平行，Z_c轴为摄像机光轴，和图像平面垂直；

[x_w-a_w，y_w-b_w，z_w-c_w]^T

3.根据权利要求2所述3D图像空间与3D视听空间转换方法，其特征在于：

步骤3中，所述目标对象的深度值通过计算摄像机光学中心到目标对象的深度值Z_Lspeaker(u，v)得到，公式如下，

Z_{Lspeaker} (u, v) = \frac{BF}{d_{Lspeaker} (u, v)}

其中，d_Lspeaker(u,v)代表目标对象以像素为单位的视差，B是摄像机之间的基线距离，F是焦距；

所述中心点的深度值通过计算摄像机光学中心到中心点的深度值Z_Llisten(u,v)得到，公式如下，

Z_{Llisten} (u, v) = \frac{BF}{d_{Llisten} (u, v)}

其中，d_Llisten(u,v)代表听音点以像素为单位的视差；

deep = \frac{BF}{d_{Llisten} (u, v)} - \frac{BF}{d_{Lspeaker} (u, v)}

设(X,Y)表示以物理单位度量的成像平面坐标系的坐标，成像平面坐标系的原点O₁定义在摄像机光轴和图像平面的交点处，X轴和Y轴方向分别与图像坐标系的u轴和v轴平行，根据成像平面坐标系与图像坐标系的关系转化得到以物理单位为度量的目标对象相对于中心点的距离信息disifm如下，

disifm = \frac{BF}{d_{Llisten} (X, Y)} - \frac{BF}{d_{Lspeaker} (X, Y)}

其中，d_Lspeaker(X,Y)代表目标对象以物理距离为单位的视差，d_Llisten(X,Y)代表听音点以物理距离为单位的视差。

4.根据权利要求3所述3D图像空间与3D视听空间转换方法，其特征在于：视差根据下式计算得到，

D = \frac{{Frv}_{0}}{{rv}_{0} - F (r + d)}

5.根据权利要求3或4所述3D图像空间与3D视听空间转换方法，其特征在于：步骤5中，还原所得目标对象在视听坐标系中的目标位置为[x_w-a_w，y_w-b_w，z_w-c_w+disifm]^T。

6.一种3D图像空间与3D视听空间转换装置，其特征在于：包括以下模块，

7.根据权利要求6所述3D图像空间与3D视听空间转换装置，其特征在于：所述图像坐标系是在图像上定义的直角坐标系u-v，图像的左上角为原点O₀，u为图像的水平方向，v为图像的垂直方向；所述视听坐标系是由听音点和X_c,Y_c,Z_c轴组成的直角坐标系，听音点为原点，X_c轴和Y_c轴与图像坐标系的u轴和v轴平行，Z_c轴为摄像机光轴，和图像平面垂直；

目标对象方位信息获取模块中，设图像坐标系内，中心点的位置以二维点的形式记为LC[a,b]^T，目标对象的位置为LO[x,y]^T，得到目标对象相对于中心点的方位信息是[x-a，y-b]^T；

[x_w-a_w，y_w-b_w，z_w-c_w]^T

8.根据权利要求7所述3D图像空间与3D视听空间转换装置，其特征在于：

深度信息获取模块中，所述目标对象的深度值通过计算摄像机光学中心到目标对象的深度值Z_Lspeaker(u,v)得到，公式如下，

Z_{Lspeaker} (u, v) = \frac{BF}{d_{Lspeaker} (u, v)}

Z_{Llisten} (u, v) = \frac{BF}{d_{Llisten} (u, v)}

其中，d_Llisten(u,v)代表听音点以像素为单位的视差；

deep = \frac{BF}{d_{Llisten} (u, v)} - \frac{BF}{d_{Lspeaker} (u, v)}

disifm = \frac{BF}{d_{Llisten} (X, Y)} - \frac{BF}{d_{Lspeaker} (X, Y)}

9.根据权利要求8所述3D图像空间与3D视听空间转换装置，其特征在于：视差根据下式计算得到，

D = \frac{{Frv}_{0}}{{rv}_{0} - F (r + d)}

10.根据权利要求8或9所述3D图像空间与3D视听空间转换装置，其特征在于：声像位置还原模块中，还原所得目标对象在视听坐标系中的目标位置为[x_w-a_w，y_w-b_w，z_w-c_w+disifm]^T。