CN103888749A

CN103888749A - 一种双目视频转换多目视频的方法

Info

Publication number: CN103888749A
Application number: CN201410134438.9A
Authority: CN
Inventors: 金欣; 衣建中; 刘烨斌; 戴琼海
Original assignee: Shenzhen Graduate School Tsinghua University
Current assignee: Shenzhen Graduate School Tsinghua University
Priority date: 2014-04-03
Filing date: 2014-04-03
Publication date: 2014-06-25
Anticipated expiration: 2034-04-03
Also published as: CN103888749B

Abstract

本发明公开了一种双目视频转换多目视频的方法，包括如下步骤：检测第一目视频图像是否存在第一场景文本，若存在则执行下述步骤；从第一目视频图像中提取第一场景文本；从与第一目视频图像对应的第二目视频图像中提取第二场景文本；计算第一场景文本与第二场景文本之间的场景文本视差；计算第一目视频图像中除第一场景文本以外的第一非文本场景与第二目视频图像中除第二场景文本以外的第二非文本场景之间的非文本场景视差；根据场景文本视差和非文本场景视差从第一目视频图像和第二目视频图像中得到第三目视频图像。本方法能够在保证视频输出帧率的同时，以较高的成功率进行文本的识别定位，输出的序列中场景文本的显示也有更好的效果。

Description

一种双目视频转换多目视频的方法

【技术领域】

本发明涉及计算机视觉领域，尤其涉及一种双目视频转换多目视频的方法。

【背景技术】

随着娱乐产业的发展，人们对视觉体验的要求也越来越高，传统的通过佩戴3D眼镜欣赏3D内容等方式逐渐被效果更好，观看更方便的裸眼立体显示所取代。裸眼立体显示器通常需要多目片源，满足不同视角的观看需求。随着立体采集技术的发展，双目拍摄系统的应用越来越广泛，片源也越来越多，因此双目转多目技术逐渐成为了多目片源的主要获取方式。

3D电影等视频资料中的文本可以分为两类，标注文本和场景文本。标注文本是通过后期制作合成到视频流中去的，包含了对当前视频流内容的语义描述，比如电影下方的中文文本；场景文本是录制中环境和物体本身所携带的文字如路牌上的路名，服装上的文字和产品上的商标等。

目前，双目视频转换成多目视频的画面中，场景文本较为模糊。

【发明内容】

经过研究发现，场景文本的出现具有偶然性，而且不同场景文本之间的差异较大，很难寻找出所有场景文本的共同特征进行识别。由于人类对文字的感知相当敏感，如果利用传统的转换方法，难免造成文本内容的模糊，断裂，抖动等情况，所以在双目视频立体转换的过程中需要特殊处理，这就大大的增加了全自动转换的难度。与拍摄到的自然场景内容相比，场景文本的模糊抖动对视觉效果造成的负面影响更大。

通过研究传统双目视频转多目视频处理流程中场景文本的图形学特征，比如文本排列方向固定，文本中各字符一般大小相同，文本内容与背景存在很大的色彩反差等，特别是具有字符笔画宽度比较恒定的性质。

为了克服现有技术的不足，本发明提供了一种双目视频转换多目视频的方法，使得在多目视频中的场景文本看起来更加清晰。

一种双目视频转换多目视频的方法，包括如下步骤：

检测场景文本步骤，检测第一目视频图像是否存在第一场景文本，若存在则执行下述步骤；其中，所述第一场景文本是不同于字幕文本的融合于所述第一目视频图像中的文本；

提取第一场景文本步骤，从第一目视频图像中提取所述第一场景文本；

提取第二场景文本步骤，从与所述第一目视频图像对应的第二目视频图像中提取第二场景文本，其中，所述第二场景文本是不同于字幕文本的融合于所述第二目视频图像中的文本；

计算场景文本视差步骤，计算第一场景文本与第二场景文本之间的场景文本视差；

计算非文本场景视差步骤，计算第一目视频图像中除第一场景文本以外的第一非文本场景与第二目视频图像中除第二场景文本以外的第二非文本场景之间的非文本场景视差；

生成第三目视频图像步骤，根据所述场景文本视差和非文本场景视差从第一目视频图像和第二目视频图像中得到第三目视频图像。

在一个实施例中，

生成第三目视频图像步骤包括如下步骤：

根据所述非文本场景视差得到非文本场景视差值图，根据场景文本视差得到场景文本视差值图；

将场景文本视差值图中非零的像素点的值赋予非文本场景视差值图中的对应像素点，得到合成视差值图；

所述生成第三目视频图像步骤包括：

根据合成视差值图从第一目视频图像和第二目视频图像中得到第三目视频图像。

在一个实施例中，

所述检测场景文本步骤包括如下步骤：

对所述第一目视频图像进行灰度化得到第一目视频灰度图像，对第二目视频图像进行灰度化得到第二目视频灰度图像；

对所述第一目视频灰度图像进行边缘检测计算得到第一目视频边缘图像，对第二目视频灰度图像进行边缘检测计算得到第二目视频边缘图像；

对所述第一目视频边缘图像检测所述第一场景文本，对所述第二目视频边缘图像检测所述第二场景文本；

所述提取第一场景文本步骤包括：

从第一目视频边缘图像中提取所述第一场景文本；

所述提取第二场景文本步骤包括：

从第二目视频边缘图像中提取所述第二场景文本。

在一个实施例中，

对所述第一目视频边缘图像检测所述第一场景文本包括如下步骤：

对所述第一目视频边缘图像的所有非零像素的连通域最外围的任一像素点p，按照路线r＝p+n·d_p(n≥0)来寻找在同一个连通域的另一个像素点q，其中，所述像素点q为非零像素点，d_p为像素点p的梯度方向，d_q为像素点q的梯度方向，d_p与d_q方向相反；

若不存在所述像素点q，则将所述像素点p的像素值设为零；

若存在所述像素点q，则将像素点p和像素点q之间路径的笔画宽度为||p-q||，||p-q||表示像素点p与像素点q之间的欧氏距离；

对所述第二目视频边缘图像检测所述第二场景文本的方法与对所述第一目视频边缘图像检测所述第一场景文本的方法相同。

在一些实施例中，在求视差图的过程中，对场景文本内容进行定位与识别。首先利用水平和垂直方向上图像颜色梯度信息的变化，在排除背景其他内容干扰的前提下，进行场景文本内容的识别与定位；然后对场景文本通过分割方法将其分割为字符，对每个字符进行单独的视差估计，得到与背景内容无关的场景文本视差图，并将得到的场景文本视差图与作为背景的视差图进行融合得到合成视差图；最后利用求得的合成视差图得到新的多目视频图像。

在一些实施例中，场景文本内容的特征得到最大程度的保留，同时防止了相近的连续帧中，同一区域场景文本的抖动模糊。由于该方法充分利用了场景文本的固有特点，能够在不影响实时性的前提下对文本进行单独的处理，较好的提高了场景文本的显示效果。经测试，本方法能够在保证视频输出帧率的同时，以较高的成功率进行文本的识别定位，输出的序列中场景文本的显示也有更好的效果。

在一些实施例中，通过将双目视频图像中的场景文本进行提取，并计算场景文本视差以及非场景文本视差，然后根据两者来生成新的第三目视频图像，从而使得生成的多目视频图像中场景文本的显示更加清晰。

【附图说明】

图1是本发明一种实施例的流程示意图。

图2是本发明一种实施例中的离散梯度角的扇区示意图；

图3是与图2的扇区相对应的抑制窗口示意图。

【具体实施方式】

以对本发明的具体实施例作进一步详细说明。

一种实施例的双目视频转换多目视频的方法，包括如下步骤：

步骤A1:输入的双目视频一般由双目摄像机拍摄所得，并且已经完成了几何校正工作，即对原立体图像对进行变换使校正后的图像满足对级线是水平扫描线。

步骤A2：对步骤A1中输入的图像，可以取当前帧的作为第一目视频图像的左视图作为待处理图像，首先对其进行灰度化得到灰度图f(x,y)，公式为：

Gray＝0.299R+0.587G+0.114B

其中，Gray表示某个像素点的灰度值，R、G和B分别为该像素点的三个颜色分量，进而对该灰度图f(x,y)进行Canny边缘检测，分为以下几个步骤：

a.对该灰度图f(x,y)进行高斯平滑滤波：

h (x, y, σ) = \frac{1}{{2 πσ}^{2}} e^{- \frac{x^{2} + y^{2}}{{2 σ}^{2}}}

g(x,y)＝h(x,y,σ)*f(x,y)

其中f(x,y)为原灰度图，g(x,y)为平滑后的图像，h(x,y,σ)为高斯平滑滤波器，符号*代表卷积，x和y分别代表某个像素点的横坐标和纵坐标。

b.计算水平与垂直方向的偏导数阵列f′_x(x,y)与f′_y(x,y)：

利用一阶有限差分近似计算，公式如下：

f′_x(x,y)≈G_x＝[f(x+1,y)-f(x,y)+f(x+1,y+1)-f(x,y+1)]/2

f′_y(x,y)≈G_y＝[f(x,y+1)-f(x,y)+f(x+1,y+1)-f(x+1,y)]/2

进而得到梯度幅值M(x,y)和方位角θ(x,y)：

M (x, y) = \sqrt{G_{x} {(x, y)}^{2} + G_{y} {(x, y)}^{2}}

θ(x,y)＝arctan(G_x(x,y)/G_y(x,y))

其中使得梯度幅值M(x,y)取得局部最大值的方位角θ(x,y)反映了边缘的方向。

c.对梯度幅值进行非极大值抑制：

将梯度角离散为圆周的四个扇区之一，如图2所示，四个扇区的标号为0到3，如图3所示，用窗口进行抑制运算，四个扇区的标号为0到3，其对应3*3邻域的四种可能组合。在每一点上，邻域的中心像素M(x,y)与沿着梯度线的两个像素相比，如果M(x,y)的梯度值不比沿梯度线的两个相邻像素梯度值大，则令M(x,y)＝0，进而得到抑制后的图像M'(x,y)。

d.用双阈值法检测和连接边缘：

对图像M'(x,y)进行双阈值（th1,th2）检测，其中阈值th1＝0.4th2，对所有像素点，若M'(x,y)＜th1，令M'(x,y)＝0，得到图像M′₁(x,y)；若M'(x,y)＜th2，则令M'(x,y)＝0，得到图像M′₂(x,y)。由于图像M′₂(x,y)的阈值较高，去除大部分噪音，但同时也损失了有用的边缘信息。而图像M′₁(x,y)的阈值较低，保留了较多的信息，我们可以以图像M′₂(x,y)为基础，以图像M′₁(x,y)为补充来连结图像的边缘。

d1.对图像M′₂(x,y)进行扫描，当遇到一个非零灰度的像素p(x,y)时，跟踪以p(x,y)为开始点的轮廓线，直到轮廓线的终点q(x,y)。

d2.考察图像M′₁(x,y)中与图像M′₂(x,y)中q(x,y)点位置对应的点s(x,y)的8邻近区域。如果在s(x,y)点的8邻近区域中有非零像素s(x,y)存在，则将该非零像素包括到图像M′₂(x,y)中，作为r(x,y)点。然后再从r(x,y)开始，重复步骤d1，直到在图像M′₁(x,y)和图像M′₂(x,y)中都无法继续上述步骤d1和d2为止。

d3当完成对包含p(x,y)的轮廓线的连结之后，将这条轮廓线标记为已经访问。

回到步骤d1，寻找下一条轮廓线。重复步骤d1、d2和d3，直到图像M′₂(x,y)中找不到新轮廓线为止。

至此，完成canny算子的边缘检测，输出图像C(x,y)。

步骤A3：利用笔画宽度变换（Stroke Width Transform）进行场景文本内容检测。视频场景中的文本内容，一般都具有恒定的笔画宽度，而且相邻区域中的文字笔画宽度也大致相等。故而利用笔画宽度来寻找文本区域。首先将图像C(x,y)中的每一个像素的笔画宽度值设为无穷大（inf），然后按照如下步骤：

对于C(x,y)中的所有非0像素的连通域，设其连通域最外围的像素为边缘像素点。

若像素点p为边缘像素点，d_p为像素点p的梯度方向，按照路线r＝p+n·d_p(n≥0)来寻找另一个位于与像素点p同一个连通域的非零像素点q，d_q为像素点q的梯度方向，且d_p与d_q方向相反（d_q＝-d_p±π/6）。若未找到相匹配像素点q，则像素点p的像素值设为0，并重新选择新的像素点；若找到匹配像素点q，则对应于[p,q]路线上的所有像素指定笔画宽度值为||p-q||，||p-q||表示像素点p与像素点q之间的欧氏距离。重复上述步骤，直到所有边缘像素点计算完毕。此时得到笔画宽度变换图像S(x,y)。

步骤A4：场景文本内容定位。设定阈值w，对步骤A3中的笔画宽度变换图进行二值化处理，得到图像S'(x,y)。此时对S'(x,y)中所有像素值不为0的连通域，计算其最小外接矩形，即连通域内所有像素的水平坐标及垂直坐标的最大值和最小值，得到所有连通域的外接矩形

{rec}_{i}^{L} (x_{i 1}^{L}, y_{i 1}^{L}, x_{i 2}^{L}, x_{i 2}^{L}), i = 1,2, \cdot \cdot \cdot, n .

此时左视图场景文本内容定位完毕，同理可得到右视图的场景文本内容区域

{rec}_{i}^{R} (x_{i 1}^{R}, y_{i 1}^{R}, x_{i 2}^{R}, x_{i 2}^{R}), i = 1,2, \cdot \cdot \cdot, n .

步骤A5：分别将步骤A4中左右视图求得的所有场景文本矩形

{rec}_{i}^{L} (x_{i 1}^{L}, y_{i 1}^{L}, x_{i 2}^{L}, x_{i 2}^{L}), i = 1,2, \cdot \cdot \cdot, n

及

{rec}_{i}^{R} (x_{i 1}^{R}, y_{i 1}^{R}, x_{i 2}^{R}, x_{i 2}^{R}), i = 1,2, \cdot \cdot \cdot, n

提取出来放入背景为黑色（像素值为0）的同样大小的图像矩阵中，并进行二值化，即以像素值λ作为阈值，若点p(x,y)＞λ，则新的二值图中，p'(x,y)＝255，反之，p'(x,y)＝0。

此时以每个文本区域为单位，以人为设定的水平位移r为半径，在[-r,+r]范围内搜索，求得最小SAD值，记录下此时右视图中最小SAD值所在窗口与左视图中的水平位移x_i，对于当前字符块内的像素，若p'(x,y)＝255，即此像素是字符内容，则d(x,y)＝x_i，即场景文本像素视差值都为x_i，而场景文本区域内的背景像素视差值都为0。

步骤A6：用传统的块匹配方法计算出除场景文本像素外，其他像素的视差值，步骤如下：

a.对左视图的灰度图中的像素p(x,y)，以半径r构造矩形窗口；对当前窗口所有像素点，同样用窗口覆盖右边的图像并选择出覆盖区域的像素点，并求出左右视图窗口的所有像素点的像素值差的绝对值的和（SAD值）。

b.以视差范围[d_min,d_max]水平移动右视图中的窗口，重复a步骤。

c.求得最小SAD值所在窗口的水平位移d，即是当前点的视差值。

d.将A5中求得的场景文本像素视差值图及非文本像素视差值图融合，得到最终视差值图：对于场景文本视差值图中像素不为0的点，将非场景文本视差值图中对应位置的点的像素值替换为文本视差值图中的值，从而得到最终的合成视差值图。

步骤A7：利用得到的合成视差值图，从左视图和右视图中获得新的第一目视频图像、第二目视频图像等等。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明由所提交的权利要求书确定的专利保护范围。

Claims

1.一种双目视频转换多目视频的方法，其特征是，包括如下步骤：

2.如权利要求1所述的双目视频转换多目视频的方法，其特征是,

生成第三目视频图像步骤包括如下步骤：

所述生成第三目视频图像步骤包括：

3.如权利要求1所述的双目视频转换多目视频的方法，其特征是,所述检测场景文本步骤包括如下步骤：

所述提取第一场景文本步骤包括：

从第一目视频边缘图像中提取所述第一场景文本；

所述提取第二场景文本步骤包括：

从第二目视频边缘图像中提取所述第二场景文本。

4.如权利要求3所述的双目视频转换多目视频的方法，其特征是：

若不存在所述像素点q，则将所述像素点p的像素值设为零；