CN103220545B

CN103220545B - 一种立体视频实时深度估计系统硬件实现方法

Info

Publication number: CN103220545B
Application number: CN201310154526.0A
Authority: CN
Inventors: 安平; 李贺建; 张兆杨
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2013-04-28
Filing date: 2013-04-28
Publication date: 2015-05-06
Anticipated expiration: 2033-04-28
Also published as: CN103220545A

Abstract

本发明公开了一种立体视频实时深度估计系统硬件实现方法，所述方法包括输入接口模块IN、Census变换模块CT、匹配代价计算模块MC、匹配代价累积模块CA、视差生成模块DG、视差后处理模块DP、视差可视化模块DV和系统控制模块SC，将左右两路输入的视频信号依次经输入接口模块IN、Census变换模块CT、匹配代价计算模块MC、匹配代价计算模块MC、匹配代价累积模块CA、视差生成模块DG、视差后处理模块DP、视差可视化模块DV依次顺序传递，控制信号经系统控制模块SC分别向各模块传递，实现基于硬件实时深度估计。该方法基于FPGA的硬件设计，实现实时深度估计，采用融合匹配算法，能提高深度估计准确性，支持高清分辨率视频实时处理，满足三维高清实时视频系统的需求。

Description

一种立体视频实时深度估计系统硬件实现方法

技术领域

本发明涉及一种立体视频的深度估计技术，尤其是一种立体视频实时深度估计系统硬件实现方法。

背景技术

三维视频发展迅速，应用需求广泛，例如3D电视、电影还有如展览、勘察、医疗、游戏等。三维视频在二维视频基础上，增加了深度信息的输出，给人以独特的立体感、景深感，带给人们很强的视觉冲击力。深度估计系统是3DTV系统的一项关键技术，通过深度估计得到深度图增加了合成立体视的灵活性，降低了视频系统发送端的数据量。现有的深度估计方法有的存在分辨率低，遮挡空洞较多的问题，或者算法复杂，耗时长等问题。现在实现实时深度估计并保证一定的准确性成为三维视频应用的紧急需求。

深度估计是获得三维场景中的深度信息，深度图与所采集视频的一个视点图像相对应，得到该视点图像每个象素对应第三维信息,即景物相对于摄像机的距离。在立体显示端虚拟视点绘制技术DIBR（Depth Image-Basd）以深度图作为基础，利用深度信息和不同视点间的位置关系,得到立体视频显示所需要的其它视点的图像。现有的深度估计方法主要可以分为基于光线的主动方式和基于图像的被动方式：

（1）、基于光线的主动方式的深度估计：该方法采用TOF深度相机（如MESA Imaging的 SR4000）获取环境的深度图，通过光线发出和返回的时间差，利用光线捕捉器件实现环境物体测距，该方法可实时得到深度信息，缺点是深度图分辨率比较小（如QCIF：176(h)x144(v)），以及反射率小的物体比如黑色物体，很难在TOF相机中得到深度信息，会产生大的深度图空洞。关键的是彩色相机与深度相机尚未融合，需要额外的图像校正对齐等处理，增加其实时应用的难度，因此在三维视频系统应用中，深度相机的发展尚未达到实际应用的要求。

（2）、基于图像的被动方式的深度估计：该方法基于图像视差原理进行场景视差估计，估计过程一般包括视频采集后的图像预处理，逐点的像素匹配，深度图的后处理等。目前该方法分为软件实现和硬件实现两种方法，a）、软件实现方法，比如MPEG组织提出的深度估计参考软件DERS（Depth Estimation Reference Software），优点是可以得到准确性较高的深度图，缺点是耗时较长、算法复杂，要得到一帧高清（1920x1080）深度图需要耗时10分钟以上；b）、硬件实现方法，是在硬件器件、设备以及微电子技术发展的基础上发展起来的，比如图形处理卡中GPU（Graphic Processing Unit）技术的发展， FPGA（Field Programmable Gate Array），ASIC（Application Specific Integrated Circuit）等芯片技术的发展，其逻辑单元的规模越来越大，性能越来越强，这些都为基于硬件的深度估计设计打下基础。比如早期的Woodfill和Herzen等人从采用多片FPGA芯片到采用单片芯片FPGA芯片和嵌入式系统等完成立体视频系统；还有如S. Hadjitheophanous等人采用改进的Rank算法的基于FPGA立体视频系统，大部分采用的方法是在简化的逐点匹配基础上进行深度的估计，能够达到实时要求，并可以达到比较高的运行速度比如几百帧每秒的速度，但是其都面临匹配算法单一、匹配准确性不高、输入视频和得到的深度图的分辨率比较低等问题。

发明内容

本发明的目的是针对现有技术中存在的不足，提供一种立体视频实时深度估计系统硬件实现方法，该方法通过基于FPGA的系统设计，采用融合匹配算法，能提高实时深度估计准确性，支持高清分辨率视频的实时处理，满足三维高清视频的需求。

本发明的目的是这样实现的：一种立体视频实时深度估计系统硬件实现方法，所述硬件实现方法包括输入接口模块IN、Census变换模块CT、匹配代价计算模块MC、匹配代价累积模块CA、视差生成模块DG、视差后处理模块DP、视差可视化模块DV和系统控制模块SC，其特征在于：

输入接口模块IN，负责接收左右双视点输入的RGB或YUV格式的视频信号，执行彩色信号的灰度转换，对于输入的RGB信号进行实时转换，得到像素点的灰度信号，对YUV信号进行Y信号提取；将左右两路视频的灰度信号输出给Census变换模块CT；

Census变换模块CT，负责将输入接口模块IN输出的左、右两路视频的灰度信号进行Census转换；

匹配代价计算模块MC，负责利用census变换和基于SAD融合的匹配算法进行像素匹配运算，得到每个像素视差范围内的所有的初始匹配代价；

匹配代价累积模块CA，负责对各个像素邻近区域的匹配代价进行累加，其累加之和为中心像素的最终匹配代价；

视差生成模块DG，负责利用winner-takes-all（WTA）方法对上述匹配代价累积模块CA所得到的最终匹配代价进行处理，得到最优匹配代价；将该匹配代价对应的视差作为该像素的初始视差值，将得到的初始视差图输出到视差后处理模块DP；

上述视差后处理模块DP，负责采用中值滤波方法对初始视差图进行滤波去噪处理；

上述视差可视化模块DV，负责实现视差转化成深度图，利用双视相机的场景深度和视差之间的关系，建立深度和视差之间的一一对应关系，将视差转为深度，采用反向量化方法将深度转化为可视的灰度数据，计算显示可区分的灰度值；

上述系统控制模块SC，负责接收输入接口模块IN的控制信号，并输出控制信号与其它各个模块连接，为各个模块确定数据流中数据的起始位置，控制行帧信号的延时，协调各模块时序，实现视频实时深度估计；

所述输入接口模块IN接收外部视频信号，并将其输出连接Census变换模块，Census变换模块CT的输出连接匹配代价计算模块MC；匹配代价计算模块MC、匹配代价累积模块CA、视差生成模块DG、视差后处理模块DP、视差可视化模块DV依次顺序连接。系统控制模块SC接收输入接口模块的控制信号，并输出控制信号到其它各个模块。

上述输入接口模块IN中所述的接收左右双视点输入，其特征在于输入接口模块IN支持RGB或YUV两种格式视频信号的选择输入，对于RGB视频信号的灰度转换采用移位和加法运算变换公式，对于YUV视频信号的灰度变换采用直接抽取Y信号的方法。

上述census变换模块CT中所述的对输入接口输入的左右两路视频图像分别进行灰度信号的Census变换，其变换公式是：

式中，、分别表示左图象和右图象中坐标为的像素进行census转换后得到的结果，转换窗口大小为M×N，、代表原始的像素值，、代表像素坐标，表示所得的每一个比较值进行有序的排列。

上述匹配代价计算模块MC中所述的采用基于Census变换与基于亮度的SAD相结合的方法，计算得到每个像素视差范围内的所有的初始匹配代价，其具体如下：

1）、采用SAD方法是对像素原始亮度值进行差值计算，其计算表达式为：

式中，表示得到的SAD表示的匹配代价，为像素的原始值，表示像素的横坐标，表示像素的纵坐标，为视差值，×表示窗口的位置；

2）、采用基于Census变换的匹配代价通过比较对应像素的census变换值的汉明距得到；

3）然后再将基于census变换的匹配代价值与基于SAD的匹配代价融合，得到该像素初始匹配代价，其表达式为：

式中，表示像素的初始匹配代价，和表示融合参数，表示基于census变换的匹配代价，表示基于SAD的匹配代价。

上述匹配代价累积模块CA中所述的负责对各个像素邻近区域的匹配代价区域进行累加，其累加之和为中心像素的最终匹配代价，其表达式为：

式中，表示最终像素匹配代价，表示像素的初始匹配代价，m×n表示累积窗口。

上述视差后处理模块DP中所述的负责采用中值滤波方法对初始视差图进行滤波去噪处理，具体是，采用m×n窗口的中值滤波，其公式如下：

式中，D_n表示中值滤波后得到视差值，表示原始视差值，表示取中值。

上述视差可视化模块DV中所述的场景深度与视差直接的转换公式如下：

式中，表示场景深度，d表示视差，b表示基线长度和表示通过摄像机标定得到的摄像机焦距，采用反向量化方法将深度量化为可视的灰度值，其计算式为：

式中，Z_max和Z_min 分别表示场景中的最大和最小景深，Z_p为由视差后处理模块DP输出的视差计算得到的该像素深度值，I_d为深度值对应的8位灰度值，即视差可视化模块DV的输出。

本发明的一种立体视频实时深度估计系统硬件实现方法与已有技术相比较，具有如下显而易见的实质性突出特点和显著优点：该方法采用自行优化改进的融合匹配算法，能提高实时深度估计准确性；同时采用基于硬件的设计，支持高清分辨率的视频处理，满足高清视频的需求，可用于3DTV等立体视频系统，实现高清分辨率的稠密像素点的实时深度估计，并且与单一输入方式不同，该方法输入接口模块支持RGB和YUV两种视频格式输入，采用不同的灰度转换方法实现；census变换模块、视差累积模块和视差后处理模块均采用双口RAM进行行缓存，采用寄存器阵列实现窗口操作，在实现并行处理的同时保证了系统实时性；视差后处理模块采用硬件滤波方式对产生的深度图进行降噪处理，系统充分考虑了硬件设计的可行性，采用并行处理和流水线设计，在小延时情况下保证视频数据的实时处理，实现基于硬件的大分辨率实时深度估计。

附图说明

图1是本发明的一种立体视频实时深度估计系统硬件实现方法的系统框图；

图2是与图1对应的本发明系统模块结构图；

图3 是图2中census变换CT和匹配代价计算模块MC的示意图；

图4是图2中匹配代价计算模块MC的汉明距计算逻辑线路图；

图5是图2中匹配代价计算模块MC的汉明距计算的流水线示意图；

图6是图2 中的视差生成模块DG的基本单元图；

图7是图2中的视差后处理模块DP中的中值滤波逻辑线路图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如图1、图2所示，本发明的一种立体视频实时深度估计系统硬件实现方法，它包括输入接口模块IN、Census变换模块CT、匹配代价计算模块MC、匹配代价累积模块CA、视差生成模块DG、视差后处理模块DP、视差可视化模块DV和系统控制模块SC，其特征在于：

上述输入接口模块IN，

负责接收左右双视点输入的RGB或YUV格式的视频信号，执行彩色信号的灰度转换，对于输入的RGB信号进行实时转换，得到像素点的灰度信号，对YUV信号进行Y信号提取；并将左右两路视频的灰度信号输出给Census变换模块CT；

RGB或YUV格式的视频信号有可控的选择设计实现，如果输入的信号是RGB格式的视频信号，可以设定采用移位和加法运算变换公式转换灰度，如果输入的信号是YUV格式的视频信号可设定采用直接抽取Y信号的方法转换灰度，RGB视频信号的灰度转换公式是：

Gray = R*0.299 + G*0.587 + B*0.114

上式中包含浮点运算，由于一般FPGA综合工具不支持浮点运算的直接综合，且实时性要求灰度转换在一个像素时钟周期内完成，因此，浮点运算会转换成整数运算一般格式为xY=aR+bG+cB，在硬件实现时采用左右移位和加减运算进行简化，如一个4位精度的简化公式可以采用Y=（R*4+G*（8+2）+B*2）/16公式，硬件实现是：Y=(R<<2+G<<3+G<<1+B<<1)>>4。实现方法可以用流水线实现，顺序完成左移运算、加和运算，右移除法操作，在三个延时后，输出端按每像素时钟周期输出一个灰度值。

对于YUV格式的视频信号输入，采用直接在YUV格式的视频信号中截取Y信号。

上述Census变换模块CT

负责将输入接口模块IN输出的左、右两路视频的灰度信号进行Census转换，其变换公式是：

式中，、分别表示左图象和右图象中坐标为的像素进行census转换后得到的结果，转换窗口大小为M×N，、代表原始的像素值，、代表像素坐标，表示所得的每一个比较值进行有序的排列；

上述匹配代价计算模块MC，

负责采用census变换和基于SAD融合的匹配算法进行像素匹配运算，计算得到每个像素视差范围内的所有的初始匹配代价，其具体如下：

1）采用SAD方法是对像素原始亮度值进行差值计算，其计算表达式为：

3）、然后再将基于census变换的匹配代价值与基于SAD的匹配代价融合，得到该像素初始匹配代价，其表达式为：

式中，表示像素的初始匹配代价，和表示融合参数，表示基于census变换的匹配代价，表示基于SAD的匹配代价；

Census变换通过窗口中心的像素与周围像素进行比较，对将得到的值进行排列，采用双口RAM的方式对多行数据进行缓存，缓存行数不小于转换窗口的高度，并同时取出转换窗口内所有的像素值；转换逻辑单元在一个像素时钟周期内完成以保证实时处理。

其中数据缓存利用FPGA内部的RAM块资源，用IP核生成可以同时写入和读取的双口RAM作为行缓存，每行RAM的大小根据实际图像尺寸设定，比如设计中对高清（1920×1080）分辨率的视频进行处理，如果每个灰度值用8位表示，每行即每个双口RAM的存储空间要大于1920个字节，如图3所示，以5x5窗口为例给出了寄存器（REG）阵列构成的窗口结构，其它尺寸的窗口可以以此类推，实验中采用9×9的窗口，转换后每个像素用80位数据表示，结合时序调整好的控制信号送入匹配代价计算模块MC，Census变换模块CT中还将对应像素的原始数值进行延时后一起作为输出，送入匹配代价计算模块MC。

利用得到census变换数据进行汉明距计算，并利用原始像素值进行SAD计算的数据，然后将两者融合，得到对应于每个像素视差范围内的所有的初始匹配代价，在每个的视差位置的匹配代价，汉明距计算原理图，如图4所示，采用异或逻辑和加和方式实现，ct0[0:n]和ct1[0:n]分别表示基准视图（右视图）和参考视图（左视图）中的视差范围内像素点的CT变换值，从图中可以看出两数值进行按位异或，然后累加得到汉明距值，同时为了保证每个像素时钟周期内处理的逻辑延迟满足时序要求，对累加过程采用流水线设计如图5所示，基于SAD的匹配代价计算过程中包括绝对差值的计算，采用比较器和加（减）法器实现。

两种代价值的融合，该融合方法包括：首先采用乘法和加法运算、乘（除）法运算、左（右）移位处理，然后再进行加和运算、移位运算、去尾运算，上述混合匹配代价运算克服了现有技术中单一算法的不足，比如，SAD算法改善census变换本身在纹理重复区域局限性所带来的匹配错误，而census变换方法克服了SAD对环境噪声以及设备间差异引入的噪声，均有助于匹配准确性提高。

上述匹配代价累积模块CA

负责对各个像素邻近区域的匹配代价进行累加，其累加之和为中心像素的最终匹配代价，其表达式为：

式中，表示最终像素匹配代价，表示像素的初始匹配代价，m×n表示累积窗口；

窗口操作实现，选择5×5窗口，窗口操作采用与census变换中相同的行缓存和寄存器阵列方法，累加操作需要采用流水线设计，流水线级数采用5级流水，累加过程中第一级输出结果采用10位存储，第二级采用11位存储，以此类推最后一级存储位数为14位表示的像素匹配代价值。

上述视差生成模块DG

负责利用winner-takes-all(WTA)方法对上述匹配代价累积模块CA所得到的最终匹配代价进行处理，得到最优匹配代价；将该匹配代价对应的视差作为该像素的初始视差值，将得到的初始视差图输出到视差后处理模块DP；

winner-takes-all(WTA)方法，该方法立体匹配的基本假设是：匹配像素点对应最小的匹配代价，具体实现方法通过将视差最大视差dmax与最小视差dmin之间的距离值表示在2的（n-1）次方到2的n次方之间，硬件模块通过n级比较过程实现，比较器的位数与匹配代价计算模块MC输出的匹配代价的位数相同。WTA方法采用流水线设计，以保证延时满足时序要求，得到最小匹配代价，其取得过程由每个基本单元完成，如图6所示，基本单元由比较器COMP和多路选择器M2_1组成，cost1，cost2分别是上一模块得到的匹配代价值，Refdis1和Refdis2则是cost1、cost2对应的视差值，比较结果输出作为多路选择器MUX的控制输入，得到匹配代价更小的值所对应的视差值。

上述视差后处理模块DP

负责采用中值滤波方法对初始视差图进行滤波去噪处理，采用m×n窗口的中值滤波，其公式如下：

式中，D_n表示中值滤波后得到视差值，表示原始视差值，表示取中值；

中值滤波采用3x3窗口,实现方法采用如图7所示的6级比较电路实现，基本单元包括3输入3输出的比较器和2输入2输出的比较器C，寄存器REG，I作为原始数据，最后一级得到的中间值为所寻找的结果。

上述视差可视化模块DV

负责实现视差转化成深度图，利用双视相机的场景深度和视差之间的关系，建立深度和视差之间的一一对应关系，将视差转为深度，采用反向量化方法将深度转化为可视的灰度数据，计算显示可区分的灰度值，视差转为深度转换公式如下：

式中，表示场景深度，d表示视差，b表示基线长度和表示通过摄像机标定得到的摄像机焦距，

采用反向量化方法将深度量化为可视的灰度值，其计算式为：

式中，Z_max和Z_min 分别表示场景中的最大和最小景深，Z_p为由视差后处理模块DP输出的视差计算得到的该像素深度值，I_d为深度值对应的8位灰度值，即视差可视化模块DV的输出；

上述系统控制模块SC

负责接收输入接口模块IN的控制信号，并输出控制信号与其它各个模块连接，为各个模块确定数据流中数据的起始位置，控制行帧信号的延时，协调各模块时序，实现视频实时深度估计。

至此基于硬件的实时深度估计设计实现，其分辨率可以达到1920x1080pixel，窗口操作和流水线设计保证其实时处理。该系统可以作为独立模块应用于深度估计，也可以作为摄像机等设备的嵌入模块使用，构成实时三维视频系统，应用于3DTV等立体视频系统中。

本发明的一种立体视频实时深度估计系统的运行流程是：两路输入的视频信号经输入接口模块IN进行灰度转化，得到的灰度信号数据流；Census变换模块CT分别接收这两路灰度数据流进行census变换和像素原始数据的延时处理；匹配代价计算模块MC接收Census变换模块CT的census变换值和像素原始数据，并进行汉明距计算和SAD计算，代价融合计算；代价累积模块CA对每个像素的所有可能视差分别进行邻近区域内的匹配代价累加计算得到最终像素匹配代价；视差生成模块DG根据像素最终匹配代价，利用WTA方法得到初始视差图；视差后处理模块DP采用滤波器去除初始视差图中的噪声；视差可视化模块DV采用离线确定的几何标定参数，实现视差到深度转换，并对深度进行量化，得到可视化的深度图输出，该输出可以作为实验数据分析数据直接显示，也可以作为进一步处理的数据输入信号。系统控制模块SC协调各模块间的时序控制，保证系统运行。census变换模块CT、匹配代价累积模块CA和视差后处理模块DP硬件实现过程中，为保证视频数据的实时性处理，采用双口RAM作行缓存处理，采用寄存器阵列分别实现图像的转换窗口、累积窗口、滤波窗口操作；较复杂计算模块进行合理简化以降低资源使用和降低设计复杂度，例如对乘法运算采用左右移位和加法进行简化；为了保证整个系统有较高的执行频率，较复杂组合逻辑模块采用流水线设计。

Claims

1.一种立体视频实时深度估计系统硬件实现方法，所述的方法包括输入接口模块(IN)、

Census变换模块(CT)、匹配代价计算模块(MC)、匹配代价累积模块(CA)、视差生成模块(DG)、视差后处理模块(DP)、视差可视化模块(DV)和系统控制模块(SC)，其特征在于：

上述输入接口模块(IN)，负责接收左右双视点输入的RGB或YUV格式的视频信号，执行彩色信号的灰度转换，对于输入的RGB信号进行实时转换，得到像素点的灰度信号，对YUV信号进行Y信号提取；将左右两路视频的灰度信号输出给Census变换模块(CT)；

上述Census变换模块(CT)，负责将输入接口模块(IN)输出的左、右两路视频的灰度信号进行Census转换；

上述匹配代价计算模块（MC），负责利用census变换和基于SAD融合的匹配算法进行像素匹配运算，得到每个像素视差范围内的所有的初始匹配代价，具体方法如下：

上述匹配代价累积模块(CA)，负责对各个像素邻近区域的匹配代价进行累加，其累加之和为中心像素的最终匹配代价；

上述视差生成模块(DG)，负责利用winner-takes-all方法对上述匹配代价累积模块(CA)所得到的最终匹配代价进行处理，得到最优匹配代价；将该匹配代价对应的视差作为该像素的初始视差值，将得到的初始视差图输出到视差后处理模块(DP)；

上述视差后处理模块(DP)，负责采用中值滤波方法对初始视差图进行滤波去噪处理；

上述视差可视化模块(DV)，负责实现视差转化成深度图，利用双视相机的场景深度和视差之间的关系，建立深度和视差之间的一一对应关系，将视差转为深度，采用反向量化方法将深度转化为可视的灰度数据，计算显示可区分的灰度值；

上述系统控制模块(SC)，负责接收输入接口模块(IN)的控制信号，并输出控制信号与其它各个模块连接，为各个模块确定数据流中数据的起始位置，控制行帧信号的延时，协调各模块时序，实现视频实时深度估计；

所述输入接口模块(IN)接收外部视频信号，并将其输出连接Census变换模块，Census变换模块(CT)的输出连接匹配代价计算模块（MC）；匹配代价计算模块（MC）、匹配代价累积模块(CA)、视差生成模块(DG)、视差后处理模块(DP)、视差可视化模块(DV)依次顺序连接；系统控制模块(SC)接收输入接口模块的控制信号，并输出控制信号到其它各个模块。

2.根据权利要求1所述的一种立体视频实时深度估计系统硬件实现方法，其特征在于，上述输入接口模块(IN)支持RGB或YUV两种格式视频信号的选择输入，对于RGB视频信号的灰度转换采用移位和加法运算变换公式，对于YUV视频信号的灰度变换采用直接抽取Y信号的方法。

3.根据权利要求1所述的一种立体视频实时深度估计系统硬件实现方法，其特征在于，上述census变换模块(CT)中所述的对输入接口输入的左右两路视频图像分别进行灰度信号的Census变换，其变换公式是：

4.根据权利要求3所述的一种立体视频实时深度估计系统硬件实现方法，其特征在于，上述匹配代价累积模块(CA)中所述的负责对各个像素邻近区域的匹配代价区域进行累加，其累加之和为中心像素的最终匹配代价，其表达式为：

5.根据权利要求4所述的一种立体视频实时深度估计系统硬件实现方法，其特征在于，上述视差后处理模块(DP)中所述的负责采用中值滤波方法对初始视差图进行滤波去噪处理，具体是，采用m×n窗口的中值滤波，其公式如下：

6.根据权利要求1所述的一种立体视频实时深度估计系统硬件实现方法，其特征在于，上述视差可视化模块(DV)中所述的场景深度与视差直接的转换公式如下：

式中，Z_max和Z_min 分别表示场景中的最大和最小景深，Z_p为由视差后处理模块(DP)输出的视差计算得到的该像素深度值，I_d为深度值对应的8位灰度值，即视差可视化模块(DV))的输出。