CN102833638B

CN102833638B - 基于字幕信息的视频自动切分及标注方法及系统

Info

Publication number: CN102833638B
Application number: CN201210262506.0A
Authority: CN
Inventors: 刘杰; 李雷; 赵志峰; 张卫
Original assignee: Wasu Media & Network Co Ltd; BEIJING SHUSHI YUTONG TECHNOLOGY Co Ltd
Current assignee: Wasu Media & Network Co Ltd; BEIJING SHUSHI YUTONG TECHNOLOGY Co Ltd
Priority date: 2012-07-26
Filing date: 2012-07-26
Publication date: 2015-03-18
Anticipated expiration: 2032-07-26
Also published as: CN102833638A

Abstract

本发明公开了基于字幕信息的视频自动切分及标注方法及系统，其特征在于对视频中的字幕信息进行提取，并基于字幕信息对视频进行碎片化处理，其包括以下步骤：（1）利用视频字幕信息提取技术，将视频中的字幕信息提取出来，具体包括字幕的时间信息及文字信息；（2）根据字幕的出现时间和下段字幕的出现时间确定待切分视频的所有切分时间区间，基于切分时间区间，利用视频转码技术对视频进行切分，并利用字幕中的文字信息对视频进行标注，本发明结合字幕提取技术与视频切分技术，提出了基于字幕信息的视频自动切分及标注方法，实现视频内容的自动化切分及标注，可以用于视频内容的碎片化处理、视频内容的编目、检索等技术领域。

Description

基于字幕信息的视频自动切分及标注方法及系统

技术领域

本发明涉及可以用于视频内容的碎片化处理、视频内容的编目、检索等技术领域，尤其涉及基于字幕信息的视频自动切分及标注方法及系统。

背景技术

网络时代最明显的特征就是传播的碎片化。在社区化时代到来的如今，由微博引领的信息碎片化传播已经逐步深入人心，“短小精悍”日益成为内容传播和分享的精髓。

在视频行业，以分享、编目及检索为目的的技术创新正在以同样的方式，将视频传播带入碎片化时代。视频中的文字信息无疑是实现这些需求的重要线索。

传统的视频切分是由人工完成的，需要耗费大量的人力与时间。基于字幕信息的视频自动切分及标注技术可将视频内容快速、准确、自动地切分，实现视频内容的碎片化。

发明内容

针对上述技术缺陷，本发明提出一种于字幕信息的视频自动切分及标注方法及系统。

为了解决上述技术问题，本发明的技术方案如下：

基于字幕信息的视频自动切分及标注方法，包括如下步骤：

11）分析视频格式，获得视频的帧率n；

12）每隔n帧利用文字定位技术确定视频帧中的文字区域，并将首次出现文字的视频帧的时间，定为该字幕的起始时间；

13）对于步骤12）的文字区域定位结果，每隔n帧计算相同位置的文字区域之间的相似度S_e，如相似度S_e大于一定阈值，则认为文字没有消失，返回执行步骤12）；否则，认为文字消失，记录文字消失所在视频帧的时间点为当前字幕的消失时间，继续执行步骤14）；

14）对于步骤12）的文字区域定位结果，利用文字识别技术进行文字识别，若视频处理完毕，执行步骤15）；否则，返回执行步骤12）；

15）根据字幕的起始时间和当前字幕的结束时间确定待切分视频的所有切分时间区间，基于切分时间区间，利用视频转码技术对视频进行切分，并利用字幕中的文字信息对视频进行标注。

进一步的，所述文字定位技术包括如下步骤：

21）视频帧图像设为f(x,y)，利用Sobel算子处理f(x,y)，得到边缘图像g(x,y)；

22）利用最大类间方差法对所述边缘图像g(x,y)二值化，得到二值图像b₁(x,y)；

23）如果文字属于暗底亮字情况，计算二值图像b₁(x,y)中值为1的像素的笔画强度特征，所述像素的笔画强度特征的计算公式为

{DE}_{w} (x, y) = \max_{d = 0}^{2} {f (x, y) - \min_{i = 1}^{w} {h (x, y, i, d)}}

其中，h(x,y,i,d)=max(f(x-i×dx_d,y-i×dy_d),f(x+(W+1-i)×dx_d,y+(W+1-i)×dy_d)}式中d=0,1,2,3，dx₀=-1，dy₀=0，dx₁=-1，dy₁=-1，dx₂=0，dy₂=-1，dx₃=1，dy₃=-1，表示笔画最常见的0, 四个方向，W是笔画宽度的上限；

24）将字符的笔画特征图像S_W(x,y)定义为

利用最大类间方差法对字符笔画特征图S_W(x,y)二值化，得到二值图像b₂(x,y)；

25）如果文字属于亮底暗字情况，提取字符的笔画特征图并进行二值化得到二值图像b₃(x,y)；

26）定义二值图像b₄(x,y)=b₂(x,y)Ub₃(x,y)，其中b₄(x,y)中值为1的像素区域就是文字区域，设b₄(x,y)的第i个文字对象的位置为rect_i，所述rect_i为包含第i个文字对象的最小矩形框，E_i(x,y)为b₄(x,y)中rect_i所包含的区域，于是完成字符对象的定位。

进一步的，相同位置的文字区域之间的相似度S_e的计算方法包括如下步骤：

31）视频帧a 的第i 个文字对象在图像中的位置为与a相邻的视频帧b的第j个文字对象在图像中的位置为它们位置重合的比例S_o为：

S_{o} = \frac{| {rect}_{a_{i}} \cap {rect}_{b_{j}} |}{| {rect}_{a_{i}} \cup {rect}_{b_{j}} |}

如果这两个文字对象的位置重合比例S_o不小于一定阈值，则执行步骤32）；否则，认为二者为不同字幕对象，结束比较；

32）计算得到上述文字对象的匹配特征分别为和和的相似度S_e为

S_{e} = \frac{Σ_{(x, y) &Element; {rect}_{a_{i}} \cap {rect}_{b_{j}}} (E_{a_{i}} (x, y) \times E_{b_{j}} (x, y))}{\max (Σ_{(x, y) &Element; {rect}_{a_{i}} \cap {rect}_{b_{j}}} E_{a_{i}} (x, y), Σ_{(x, y) &Element; {rect}_{a_{i}} \cap {rect}_{b_{j}}} E_{b_{j}} (x, y))}

其中表示视频帧a的第i个文字对象的二值图像上像素(x,y)的值，而表示视频帧b的第j个文字对象的二值图像上像素(x,y)的值；

33）如果匹配特征的相似度S_e大于一定阈值，则认为匹配成功，则上述两个文字对象为在相邻视频帧的同一个文字对象。

进一步的，步骤15）的切分方法具体包括如下步骤：

41）利用步骤12）至步骤13）中记录的视频中每条字幕的出现时间、消失时间，计算出视频的一个切分区间，所述切分区间的起始时间点为一条字幕的出现时间，结束时间点为下一条字幕的出现时间；

42）根据所述切分区间的起始时间点，定位到切分时间区间之前的第一个关键帧；

43）逐帧进行解码，分析每个视频帧的时间信息；

44）将属于切分时间区间范围内的视频帧进行编码，写入新的视频片段中，生成切分后的视频；

45）利用步骤14）中记录的视频中每条字幕的文字信息，将对应的切分后的视频片段进行标注；重复步骤41），继续切分，直到视频中所有切分区间处理完毕。

基于字幕信息的视频自动切分及标注系统，包括两个部分，字幕信息提取系统和视频切分及标注系统；

所述字幕信息提取系统对视频中的字幕信息进行提取，获得字幕的出现时间及消失时间，并利用字符识别技术对字幕进行识别，获得文字信息；

所述在视频切分及标注系统，利用字幕信息的时间信息计算出视频切分时间区间，分别定位到每个视频切分时间区间内的第一个关键帧，将符合视频切分时间区间内的每个视频帧逐一解码、再重新编码为新的视频，最后利用字幕的文字信息对形成的新视频进行标注，完成视频的切分及标注工作。

本发明的有益效果在于：本发明的特征在于对视频中的字幕信息进行提取，并基于字幕信息对视频进行碎片化处理，其包括以下步骤：（1）利用视频字幕信息提取技术，将视频中的字幕信息提取出来，具体包括字幕的时间信息及文字信息；（2）根据字幕的出现时间和下段字幕的出现时间确定待切分视频的所有切分时间区间，基于切分时间区间，利用视频转码技术对视频进行切分，并利用字幕中的文字信息对视频进行标注。本发明结合字幕提取技术与视频切分技术，提出了基于字幕信息的视频自动切分及标注方法，实现视频内容的自动化切分及标注，可以用于视频内容的碎片化处理、视频内容的编目、检索等技术领域。

附图说明

图1为本发明的基于字幕信息的视频自动切分及标注方法流程图；

图2为本发明字幕定位方法流程图；

图3为本发明视频切分流程流程图。

具体实施方式

下面将结合附图和实施例对本发明做进一步的说明。

如图1所示，本发明提出的基于字幕信息的视频自动切分及标注方法流程图。本发明的基于字幕信息的视频切分及标注系统可以分为两个部分：字幕信息提取系统和视频切分及标注系统。字幕信息提取系统对视频中的字幕信息进行提取，获得字幕的出现时间及消失时间，并利用字符识别技术对字幕进行识别，获得文字信息。在视频切分及标注系统中，利用字幕信息的时间信息计算出视频切分的时间点，由于视频切分时间区间内的首帧视频不是关键帧会造成视频切分失败，因此需要定位到视频切分时间区间内前置的第一个关键帧，并逐一解码，并将符合视频切分时间区间内的每个视频帧逐一解码、再重新编码为新的视频，最后利用字幕信息中的文字信息对形成的新视频进行标注，最终完成视频的切分及标注工作。

本发明主要包括二个关键部分：一是视频字幕时间信息提取技术；二是视频准确切分技术。

下面将对本发明的二个部分分别加以详细说明。

1.视频字幕时间信息提取技术

基于字幕信息的视频自动切分及标注系统的关键之一在于提取字幕时间信息，而提取字幕时间信息的实现需要考虑如下2个方面：字幕的定位；字幕相似度的计算。

1.1如图2示出的字幕定位方法流程。

21）设当前视频帧图像为f(x,y)，利用Sobel算子处理f(x,y)，得到边缘图像g(x,y)；

22）利用最大类间方差法(Ostu方法)对g(x,y)二值化，得到二值图像b₁(x,y)；

23）假设文字属于暗底亮字情况，计算二值图像b₁(x,y)中值为1的像素的笔画强度特征。像素(x,y)笔画强度特征的计算公式为

{DE}_{w} (x, y) = \max_{d = 0}^{2} {f (x, y) - \min_{i = 1}^{w} {h (x, y, i, d)}}

其中，

h(x,y,i,d)=max(f(x-i×dx_d,y-i×dy_d),f(x+(W+1-i)×dx_d,y+(W+1-i)×dy_d)}式中d=0,1,2,3，dx₀=-1，dy₀=0，dx₁=-1，dy₁=-1，dx₂=0，dy₂=-1，dx₃=1，dy₃=-1，表示笔画最常见的0, 四个方向，W是笔画宽度的上限。字符笔画特征图像S_W(x,y)定义为

S_{W} (x, y) = \{\begin{matrix} {DE}_{w} (x, y), & if & {DE}_{w} (x, y) > 0 & and & b_{1} (x, y) = 1 \\ 0, & otherwise \end{matrix}

利用最大类间方差法(Ostu方法)对字符笔画特征图S_W(x,y)二值化，得到二值图像b₂(x,y)；

24）同理，假设文字属于亮底暗字情况，提取其字符的笔画特征图并进行二值化得到二值图像b₃(x,y)；

25）定义二值图像b₄(x,y)=b₂(x,y)Ub₃(x,y)，其中b₄(x,y)中值为1的像素区域就是文字区域，设b₄(x,y)的第i个文字对象的位置为rect_i，rect_i为包含第i个文字对象的最小矩形框，E_i(x,y)为b₄(x,y)中rect_i所包含的区域，于是完成字符对象的定位，该E_i(x,y)也即第i个文字跟踪的匹配特征。

1.2字幕相似度的计算

定位字幕之后，为提取字幕的时间信息，即获得字幕的出现及消失时间，需要对字幕对象进行跟踪，字幕相似度的计算是其中关键。

对于每个检测到的文字对象，利用基于字符的双边缘笔画模型提取笔画特征图，然后利用最大类间方差法(Ostu方法)对该笔画特征图二值化，用得到的二值图像E(x,y)作为文字跟踪的匹配特征。

31）设视频帧a的第i个文字对象在图像中的位置为与a相邻的视频帧b的第j个文字对象在图像中的位置为它们位置重合的比例S_o为：

S_{o} = \frac{| {rect}_{a_{i}} \cap {rect}_{b_{j}} |}{| {rect}_{a_{i}} \cup {rect}_{b_{j}} |}

如果这两个文字对象的位置重合比例S_o不小于0.8，则执行步骤32）；否则，认为二者为不同字幕对象，结束比较；

32）令上述文字对象的匹配特征分别为和和的相似度S_e为

S_{e} = \frac{Σ_{(x, y) &Element; {rect}_{a_{i}} \cap {rect}_{b_{j}}} (E_{a_{i}} (x, y) \times E_{b_{j}} (x, y))}{\max (Σ_{(x, y) &Element; {rect}_{a_{i}} \cap {rect}_{b_{j}}} E_{a_{i}} (x, y), Σ_{(x, y) &Element; {rect}_{a_{i}} \cap {rect}_{b_{j}}} E_{b_{j}} (x, y))}

33)匹配特征的相似度S_e≥0.5，则认为匹配成功，上述两个文字对象为在相邻视频帧的同一个文字对象。

2.视频准确切分技术

传统的视频切分技术无法准确切分视频。这是由于视频编解码技术的特点造成。一个待切分的视频，如果位于切分时间区间的起点时间的视频帧是非关键帧，就会造成切分后的视频中该帧以及该帧之后的第一个关键帧之间的视频帧全部丢失或者花屏，因此，无法按照时间点准确切分视频。

为解决这个问题，如图3示出的视频切分流程，采用如下步骤完成视频切分：

41）利用步骤12）至步骤13）中记录的视频中每条字幕的出现时间、消失时间，计算出视频的一个切分区间，切分区间的起始时间点为一条字幕的出现时间，结束时间点为下一条字幕的出现时间。

42）根据视频切分区间的起始时间点，定位到切分时间区间之前的第一个关键帧；

43）逐帧进行解码，分析每个视频帧的时间信息；

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明保护范围内。

Claims

1.基于字幕信息的视频自动切分及标注方法，其特征在于，包括如下步骤：

11)分析视频格式，获得视频的帧率n；

12)每隔n帧利用文字定位技术确定视频帧中的文字区域，并将首次出现文字的视频帧的时间，定为该字幕的起始时间；

13)对于步骤12)的文字区域定位结果，每隔n帧计算相同位置的文字区域之间的相似度S_e，如相似度S_e大于一定阈值，则认为文字没有消失，返回执行步骤12)；否则，认为文字消失，记录文字消失所在视频帧的时间点为当前字幕的消失时间，继续执行步骤14)；

14)对于步骤12)的文字区域定位结果，利用文字识别技术进行文字识别，若视频处理完毕，执行步骤15)；否则，返回执行步骤12)；

15)根据字幕的起始时间和当前字幕的结束时间确定待切分视频的所有切分时间区间，基于切分时间区间，利用视频转码技术对视频进行切分，并利用字幕中的文字信息对视频进行标注；

所述文字定位技术包括如下步骤：

21)视频帧图像设为f(x,y)，利用Sobel算子处理f(x,y)，得到边缘图像g(x,y)；

22)利用最大类间方差法对所述边缘图像g(x,y)二值化，得到二值图像b₁(x,y)；

23)如果文字属于暗底亮字情况，计算二值图像b₁(x,y)中值为1的像素的笔画强度特征，所述像素的笔画强度特征的计算公式为

{DE}_{w} (x, y) = \max_{d = 0}^{2} {f (x, y) - \min_{i = 1}^{w} {h (x, y, i, d)}}

其中，h(x,y,i,d)＝max(f(x-i×dx_d,y-i×dy_d),f(x+(W+1-i)×dx_d,y+(W+1-i)×dy_d)}式中d＝0,1,2,3，dx₀＝-1，dy₀＝0，dx₁＝-1，dy₁＝-1，dx₂＝0，dy₂＝-1，dx₃＝1，dy₃＝-1，表示笔画最常见的四个方向，W是笔画宽度的上限；

24)将字符的笔画特征图像S_W(x,y)定义为

25)如果文字属于亮底暗字情况，提取字符的笔画特征图并进行二值化得到二值图像b₃(x,y)；

26)定义二值图像b₄(x,y)＝b₂(x,y)Ub₃(x,y)，其中b₄(x,y)中值为1的像素区域就是文字区域，设b₄(x,y)的第i个文字对象的位置为rect_i，所述rect_i为包含第i个文字对象的最小矩形框，E_i(x,y)为b₄(x,y)中rect_i所包含的区域，于是完成字符对象的定位。

2.根据权利要求1所述的基于字幕信息的视频自动切分及标注方法，其特征在于，相同位置的文字区域之间的相似度S_e的计算方法包括如下步骤：

31)视频帧a的第i个文字对象在图像中的位置为与a相邻的视频帧b的第j个文字对象在图像中的位置为它们位置重合的比例S_o为：

S_{o} = \frac{| {rect}_{a_{i}} \cap {rect}_{b_{j}} |}{| {rect}_{a_{i}} \cup {rect}_{b_{j}} |}

如果这两个文字对象的位置重合比例S_o不小于一定阈值，则执行步骤32)；否则，认为二者为不同字幕对象，结束比较；

32)计算得到上述文字对象的匹配特征分别为和和的相似度S_e为

S_{e} = \frac{Σ_{(x, y) &Element; {rect}_{a_{i}} \cap {rect}_{b_{j}}} (E_{a_{i}} (x, y) \times E_{b_{j}} (x, y))}{\max (Σ_{(x, y) &Element; {rect}_{a_{i}} \cap {rect}_{b_{j}}} E_{a_{i}} (x, y), Σ_{(x, y) &Element; {rect}_{a_{i}} \cap {rect}_{b_{j}}} E_{b_{j}} (x, y))}

33)如果匹配特征的相似度S_e大于一定阈值，则认为匹配成功，则上述两个文字对象为在相邻视频帧的同一个文字对象。

3.根据权利要求1所述的基于字幕信息的视频自动切分及标注方法，其特征在于，步骤15)的切分方法具体包括如下步骤：

41)利用步骤12)至步骤13)中记录的视频中每条字幕的出现时间、消失时间，计算出视频的一个切分区间，所述切分区间的起始时间点为一条字幕的出现时间，结束时间点为下一条字幕的出现时间；

42)根据所述切分区间的起始时间点，定位到切分时间区间之前的第一个关键帧；

43)逐帧进行解码，分析每个视频帧的时间信息；

44)将属于切分时间区间范围内的视频帧进行编码，写入新的视频片段中，生成切分后的视频；

45)利用步骤14)中记录的视频中每条字幕的文字信息，将对应的切分后的视频片段进行标注；重复步骤41)，继续切分，直到视频中所有切分区间处理完毕。