CN103856689B

CN103856689B - 面向新闻视频的人物对话字幕提取方法

Info

Publication number: CN103856689B
Application number: CN201310534003.9A
Authority: CN
Inventors: 姜洪臣
Original assignee: BEIJING PATTEK Co Ltd
Current assignee: BEIJING PATTEK Co Ltd
Priority date: 2013-10-31
Filing date: 2013-10-31
Publication date: 2017-01-18
Anticipated expiration: 2033-10-31
Also published as: CN103856689A

Abstract

本发明公开了一种面向新闻视频的人物对话字幕提取方法，包括步骤：S1、将新闻节目经数字化采集设备转化为数字新闻视频；S2、对所述新闻视频进行镜头边界检测和语音预处理；S3、基于步骤S2得到的语音镜头集合进行主持人检测和聚类，使一个类的镜头都对应同一个主持人；S4、基于步骤S3得到的聚类结果收集的不同主持人的语音，构造相应的主持人声学模型，并依此将视频内所有语音镜头分类为主持人说话镜头和人物对话镜头；S5、对人物对话镜头进行字幕检测和跟踪，得到每条字幕的出现和消失时间，以及它的空间位置；S6、基于字幕位置分析，过滤误判为字幕的背景区域和噪声字幕，将剩余字幕作为人物对话字幕输出。

Description

面向新闻视频的人物对话字幕提取方法

技术领域

本发明涉及音视频智能分析技术领域，特别涉及一种面向新闻视频的人物对话字幕提取方法。

背景技术

新闻节目是以现代电子技术为传播手段，以声音、画面为传播符号，对新近或正在发生的事实通过电视媒体进行报道多媒体数据流文件。随着电视信号覆盖到我国绝大部分的人口和地区，新闻节目已经深入到人们的日常工作、学习和生活中，成为人民群众获取信息的重要途径。

新闻字幕是指在新闻节目制作过程中人工添加到视频中的文字，其包括但不仅限于：对新闻条目进行简要概述的标题字幕；对新闻中出现的人物器件等进行介绍解释的说明性字幕；记录新闻采访片段中，采访者和被采访者谈话内容的人物对话字幕。由于包含大量的重要语义信息，新闻字幕在新闻视频的拆条、编目和检索等应用中扮演了极其重要的角色，它的高精度自动提取和识别也因此成为音视频智能分析领域的一个热点课题。人物对话字幕对新闻视频中，采访者和被采访者说话的语音内容予以同步显示，对新闻条目的细节进行了生动直观的刻画，与其它类型的字幕互为补充，在帮助用户理解新闻内容上起到了重要作用。

从音频角度来看，新闻视频中的语音可分为主持人语音和人物对话两类，与之对应的视频镜头则可分别称为主持人说话镜头和人物对话镜头。根据新闻视频的编辑特点，一般地，标题字幕出现在主持人说话的镜头，人物对话字幕出现在人物对话的镜头，说明性字幕则在两种镜头中都可能出现。

传统的技术在进行新闻字幕提取时，对各种类型的字幕采取的是统一的提取方法，从而忽视了不同类型的字幕有着不同的视觉特性和编辑风格的事实。例如，标题字幕和人物对话字幕的出现位置、字体及大小、颜色都可能不同，而且前者与后者相比通常有着更大的字幕区域和更长的时序持续时间。这些特性导致对通用的字幕提取方法来说，人物对话字幕通常比标题字幕等更难提取。为实现新闻视频人物对话字幕的高精度提取，有必要采取分而治之的思路，探索专门针对人物对话字幕的字幕提取方法。然而，根据我们的查询结果，现有技术中并没有专门针对新闻视频人物对话字幕的提取方法。

发明内容

（一）要解决的技术问题

本发明所要解决的技术问题是：如何利用音视频信息智能处理技术，提供一种高精度的面向新闻视频的人物对话字幕自动提取方法，为新闻视频的高效管理和深入开发利用提供技术支持。

（二）技术方案

为解决上述问题，本发明提供一种面向新闻视频的人物对话字幕提取方法，包括：

S1、将新闻节目经数字化采集设备转化为数字新闻视频；

S2、对所述新闻视频进行镜头边界检测和语音预处理；

S3、基于步骤S2得到的语音镜头集合进行主持人检测和聚类，使一个类的镜头都对应同一个主持人；

S4、基于步骤S3得到的聚类结果收集的不同主持人的语音，构造相应的主持人声学模型，并依此将视频内所有语音镜头分类为主持人说话镜头和人物对话镜头；

S5、对人物对话镜头进行字幕检测和跟踪，得到每条字幕的出现和消失时间，以及它的空间位置；

S6、基于字幕位置分析，过滤误判为字幕的背景区域和噪声字幕，将剩余字幕作为人物对话字幕输出。

优选地，所述步骤S2包括：首先将新闻视频分解为以镜头为单元的片段，然后根据镜头所对应时间片段的声学特征，将镜头分类为语音镜头和非语音镜头。

优选地，所述步骤S2中的语音预处理包括：

S21、将音频信号流分解成音频帧，提取音频帧的基频和能量两种声学特征，利用这两种特征将音频帧分类为静音帧和非静音帧；

S22、将连续的音频帧组合为音频单元，统计音频单元中静音帧的比例，并依此将音频单元分类为静音单元和非静音单元；

S23、提取非静音单元基于谱特征的时域扩展模式作为声学特征，基于该特征预先训练的语音-非语音分类器模型将非静音单元分类为语音单元和非语音单元；

S24、统计镜头内语音单元的比例，并依此将镜头分类为语音镜头和非语音镜头。

优选地，所述步骤S3中的主持人检测和聚类包括步骤：

S31、选取各语音镜头的中间帧图像表示该镜头，进行人脸检测；

S32、对检测到的人脸，计算其大小和中心位置，过滤不满足尺寸和位置要求的人脸，对于剩余的人脸，根据人脸位置计算得到人的躯干和背景区域；

S33、提取人脸特定面部区域的SIFT（Scale-Invariant Feature Transform，尺度不变特征转换）描述子特征、躯干的全局颜色特征和背景区域的全局颜色特征，并依此计算人脸帧之间的两两相似度，采用凝聚式层次聚类方法将属于同一个人的视频帧聚到同一个类；

S34、根据同一个类中视频帧的数量及其所属镜头的时间跨度信息，对聚类结果进行过滤，得到判定为主持人的类。

优选地，所述步骤S4中的主持人声学模型构造和主持人说话镜头—人物对话镜头判别包括步骤：

S41、提取视频中所有语音单元的MFCC（Mel Frequency Cepstrum Coefficient，美尔频率倒谱系数）声学特征，基于GMM-UBM（Gaussian Mixture Model-UniversalBackground Model，高斯混合模型－通用背景模型）框架，采用EM（ExpectationMaximization，数学期望最大化）算法估计UBM（Universal Background Model，通用背景模型）；

S42、根据步骤S34得到的主持人聚类结果收集各个主持人的语音，基于GMM-UBM框架和得到的UBM，为各个主持人构造相应的声学模型；

S43、基于MFCC特征计算语音单元与UBM以及各个主持人声学模型的似然度，采用阈值切分的方法将语音单元分类为主持人说话单元和非主持人说话单元，并根据镜头内主持人说话单元的比例将镜头分类为主持人说话镜头和人物对话镜头。

优选地，所述步骤S5中的字幕检测和跟踪包括步骤：

S51、以一定间隔从人物对话镜头抽取视频帧，作为字幕检测和跟踪的对象；

S52、提取所抽取视频帧的笔画特征，把视频帧转换为笔画特征图，采用Ostu方法对笔画特征图进行二值化；

S53、迭代应用水平和垂直投影的方法从二值化后的笔画特征图中提取文本框形式的字幕区域；

S54、对于得到的字幕区域，沿时间轴一定范围内前向和后向跟踪，计算不同视频帧的相同区域中发生显著变化的像素的比例，并根据该比例，得到字幕的出现和消失时间点。

优选地，所述间隔是5帧，所述发生显著变化是像素灰度值差值大于20，所述范围是25帧。

优选地，所述步骤S6中的字幕位置分析包括步骤：

S61、过滤持续时间少于帧数下限和大于帧数上限的字幕；

S62、将通过步骤S61验证的字幕文本框的左下角坐标投影到二维平面，用N*N的窗口在二维平面中按一定步长水平和垂直滑动，统计每次滑动时落在窗口内的字幕条数，得到拥有字幕条数最多的窗口W；

S63、对步骤S62得到的窗口W，统计窗口W内的字幕文本框的高度，得到高度中值，过滤文本框高度小于三分之二或大于1.5倍高度中值的字幕；

S64、对于落在窗口W外的字幕，若窗口W内不存在与其满足特定对应关系的字幕，则都当作噪声滤除，经过上述步骤处理后剩余的字幕即为人物对话字幕，所述特定对应关系描述为：对于窗口W外的字幕t_out，窗口W内至少存在一条字幕t_in，它与t_out满足如下公式所述的关系

\{\begin{matrix} abs (λ_{in} - λ_{out}) \leq d \\ y_{in} - y_{out} - {height}_{in} \leq d \end{matrix}

其中abs(·)为取绝对值操作，λ∈{s,e,x,height}，分别是字幕的出现时间、消失时间、左下角x坐标和字幕框高度；

d = \frac{W}{100}

其中W为视频帧的宽度。

优选地，所述帧数下限和帧数上限分别是10和200，所述N是10，所述步长是2。

（三）有益效果

根据本发明，提出了一种音视频联合的面向新闻视频的人物对话字幕的高精度提取方法。该方法利用新闻视频存在一定数量主持人镜头和大量主持人语音，且人物对话字幕仅出现在非主持人说话的人物对话镜头的特点，通过音视频智能分析建立主持人声学模型，进而鉴别并排除主持人说话的视频镜头，得到包含人物对话字幕的人物对话镜头集合，并仅对该镜头集合进行字幕提取。本发明通过将人物对话字幕聚焦在有限的视频片段内进行精细提取，既能克服说话人字幕区域小、持续时间短、背景复杂等带来的提取困难，同时又可以利用人物对话字幕出现位置相对固定、字体大小保持不变等编辑风格。与已有各种技术相比，本发明可高精度的实现面向新闻视频的人物对话字幕提取任务。

附图说明

图1为依照本发明实施例的面向新闻视频的人物对话字幕提取方法的流程图；

图2为依照本发明实施例的主持人人脸及特定面部区域、躯干和背景区域示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，本发明的面向新闻视频的人物对话字幕提取方法包括以下步骤：

S1、将新闻节目经数字化采集设备转化为数字新闻视频；

S2、对所述新闻视频进行镜头边界检测和语音预处理；

S6、基于字幕位置分析，过滤误判为字幕的背景区域和噪声字幕，将剩余字幕作为人物对话字幕输出。其中，将电视媒体播出的广播电视新闻节目经数字化采集设备转化为数字新闻视频的具体过程为：

步骤11、电视媒体播出的广播电视新闻节目经数字化采集设备转化为数字新闻视频，转码后视频帧率为25帧/秒，若播出的广播电视新闻节目本身就是数字视频但帧率不是25帧，则需要再次转码至25帧/秒，若播出的广播电视新闻节目本身就是数字视频且帧率为25帧，则无需本步骤；

根据本发明的优选实施例，对步骤11得到的新闻视频进行镜头边界检测和语音预处理，首先将视频分解为以镜头为单元的片段，然后根据镜头所对应时间片段的声学特征，将镜头分类为语音镜头和非语音镜头的具体过程如下：

步骤21、对新闻视频进行镜头边界检测，设检测到s-1个镜头边界点。根据这s-1个镜头边界点将新闻视频分解为s个镜头；

步骤22、按8k Hz/秒对音频信号进行分解，具体做法为将每1秒的音频信号将分解为100个时长为25毫秒，部分重合的音频帧，相邻音频帧起始时间的差值为10毫秒，提取音频帧的基频F0和能量E两种声学特征，计算基频F0和能量E与两个预先训练得到的静音和非静音的高斯模型的似然度，若基频F0的似然度大于能量E的似然度，将音频帧分类为静音帧，否则将音频帧分类为非静音帧；

步骤23、对音频帧进行平滑处理，具体做法为以N为单位将连续的音频帧组合为音频单元，统计音频单元中静音帧的比例，若静音帧的比例大于阈值，将音频单元分类为静音单元，否则将音频单元分类为非静音单元，所述N可以是10，所述阈值可以是0.5；

步骤24、对步骤23得到的非静音单元，提取基于谱特征的时域扩展模式（TRAP）作为声学特征，计算音频单元的TRAP特征与两个基于大量语音和非语音的TRAP特征预先训练得到的高斯模型的似然度，其中非语音训练样本由音乐和噪声组成，若TRAP与非语音高斯模型的似然度大于它与语音高斯模型的似然度，将音频单元分类为非语音单元，否则将音频单元分类为语音单元；

步骤25、根据镜头的开始和结束时间点，统计落在该时间段内语音单元的比例，若语音单元比例大于阈值，将该镜头分类为语音镜头，否则将该镜头分类为非语音镜头，所述阈值可以是0.5。

根据本发明的优选实施例，在步骤25得到的语音镜头集合上进行主持人检测和聚类，使一个类的镜头都对应同一个主持人的具体过程如下：

步骤31、对步骤25得到的语音镜头集合，选取各个镜头的中间视频帧表示该镜头，得到语音镜头视频帧集合，用人脸检测方法检测各帧中的人脸；

步骤32、对步骤31人脸检测后的视频帧集合，首先过滤没有检测到人脸和检测到2个及以上人脸的视频帧，对剩余的人脸，根据公式(1)和公式(2)分别计算人脸的中心位置(F_x,F_y)和人脸的尺寸F_rate：

F_{x} = \frac{x}{W}, F_{y} = \frac{y}{H} - - - (1)

F_{rate} = \frac{F_{len}}{\min (W, H)} - - - (2)

其中x和y分别是人脸区域FR中心点的x和y坐标，W和H分别是视频帧的高度和宽度，min(W,H)是求W和H中较小者的函数，F_len是人脸检测框的边长，检测框是正方形。

然后验证人脸区域FR中心点位置(F_x,F_y)和尺寸F_rate是否满足公式(3)的要求，满足则保留该人脸，否则将该人脸滤除，视频帧中，默认的原点位置为左上角，也即左上角坐标为(0,0)；

\frac{\min (W, H)}{4} \leq F_{rate} \leq \frac{\min (W, H)}{3}, \frac{W}{3} \leq F_{x} \leq \frac{2 \cdot W}{3}, \frac{H}{4} \leq F_{y} \leq \frac{H}{2} - - - (3)

步骤33、对步骤32处理后剩余的人脸，根据人脸FR确定身体躯干UB和背景区域BR，图2是本发明中人脸矩形区域、身体躯干矩形区域和背景不规则区域的示例图，如图2所示，UB为FR下方，宽度为FR宽度的1.5倍，高度为FR高度的3倍的矩形区域，当然如果FR下方没有足够的区域，则UB到视频帧边界为止。为计算BR，首先将FR和UB矩形区域从中心点出发各扩大到原来的1.5倍，得到两个新的矩形区域，基于此，一个像素点被判定为属于BR当且仅当它不属于这两个新的矩形区域的任意一个，BR由所有满足该条件的像素点组成。

步骤34、基于人脸区域FR计算人脸的九个特定位置，具体为人两只眼睛和嘴巴的左右两侧，以及鼻子的左中右侧三个位置，如图2所示，提取这九个位置在特定圆形区域下的128维SIFT特征并一一连接得到1152维的人脸特征，在身体躯干矩形框和背景区域分别提取162维的全局颜色直方图，其中所述的162维颜色直方图在HSV颜色空间计算，其中色彩H、纯度S和明度V分别被量化为18、3和3级，所述特定圆形区域的中心点为所对应位置，半径通过公式(4)计算：

σ = \frac{1}{6} (x_{l, r} - x_{l, l} + x_{r, r} - x_{r, l}) - - - (4)

其中x_m,n，m,n∈{l,r}，下标中的第一个变量代表是左眼还是右眼，第二个变量代表是眼睛的左侧还是右侧，这两个变量中，l和r分别表示左和右。

步骤35、基于步骤34提取的视觉特征，利用余弦相似度分别计算不同视频帧相同区域之间的两两相似度S_R，R∈{FR,UB,BR}，并通过公式(5)将不同区域计算得到的相似度进行平均，得到最终的人脸帧之间的相似度；

s = \frac{1}{3} (S_{FR} + S_{UB} + S_{BR}) - - - (5)

步骤36、基于步骤35得到的相似度，用凝聚式层次聚类方法将相似度大于聚类阈值的视频帧合并到一个类，为尽可能保证聚在同一个类中的人脸都属于同一个主持人，所述聚类阈值为所有人两两相似度平均值的一半。

步骤37、根据同一个类中图像帧数量及其所属镜头的时间跨度信息，对聚类结果进行过滤，保留满足公式(6)的类FG_i为主持人类，设共得到K个主持人类，记为Γ={FG₁,FG₂,…,FG_K}。

| {FG}_{i} | &GreaterEqual; 3, {Dura}_{{FG}_{i}} &GreaterEqual; \frac{VLen}{2} - - - (6)

其中|FG_i|是类别FG_i所包含的人脸（视频帧）数量，是FG_i的时间跨度，即FG_i中出现时间最晚的视频帧所对应的时间与出现时间最早的视频帧所对应的时间的差值，VLen是整个视频的时间长度。

根据本发明的优选实施例，基于步骤37得到的聚类结果收集的不同主持人的语音，构造相应的主持人声学模型，并依此将视频内所有语音镜头分类为主持人说话镜头和人物对话镜头的具体过程如下：

步骤41、对步骤24得到的所有语音单元提取MFCC声学特征，根据MFCC特征的分布，基于GMM-UBM框架，采用EM算法估计背景模型UBM；

步骤42、对于步骤37得到的聚类结果Γ，收集每个类别FG_i中视频帧所在镜头的语音，结合新闻视频的特点，所收集的语音是主持人i的语音，基于GMM-UBM框架，用所收集语音训练主持人i的声学模型GMM_i，为每个主持人重复该步骤得到主持人模型集合

Ω={GMM_i,GMM₂,…,GMM_K}；

步骤43、基于MFCC特征计算语音单元与UBM以及所有K个主持人声学模型的似然度，若语音单元与UBM的似然度不仅大于似然度阈值，而且大于它与所有K个主持人声学模型的似然度，则该语音单元被分类为人物对话单元，所述似然度阈值可以是0.5；

步骤44、对每个语音镜头，根据镜头的开始和结束时间点，统计落在该镜头内人物对话单元的比例，若比例大于阈值，将该镜头分类为其它人说话镜头，所述阈值可以是0.4。

根据本发明的优选实施例，对步骤44得到的人物对话镜头进行字幕检测和跟踪，得到每条字幕的出现和消失时间，以及它的空间位置的具体过程如下：

步骤51、以一定间隔从其它说话人镜头抽取视频帧，作为字幕检测和跟踪的对象，所述一定间隔可以是5帧，设所抽取视频帧为I；

步骤52、将视频帧I转化为灰度图像GI，计算GI的笔画特征图S⁺，根据公式(7)翻转图像GI的像素值，得到翻转图像rGI,

rGI(p)=255–GI(p) (7)

其中GI(p)是图像GI像素点p的灰度值，继续计算图像rGI的笔画特征图S^—；

步骤53、采用Ostu方法对笔画特征图S⁺和S^—进行二值化，二值化结果分别记为BS⁺和BS^—。根据公式(8)对BS⁺和BS^—进行融合，得到最终的二值笔画图SM。

SM=max{BS⁺,BS^-} (8)

步骤54、应用水平和垂直投影的方法从二值笔画图SM中提取文本框形式的字幕区域，若所有字幕区域的高度大于高度阈值下限且小于高度阈值上限，则提取过程结束，输出所提取的字幕区域；若存在字幕区域的高度小于高度阈值下限，则该区域作为提取噪声删除；若存在字幕区域的高度大于高度阈值上限，则对该区域再次应用水平和垂直投影的方法进行字幕区域二次分割，所述高度阈值下限和高度阈值上限分别为15和30；

步骤55、对于步骤54得到的字幕区域，沿时间轴一定范围内前向和后向逐帧跟踪计算不同视频帧相同区域中发生显著变化的像素的比例，若显著变化的像素比例高于变化比例阈值，则认为有字幕跃变结束跟踪过程，低于变化阈值比例认为字幕持续出现继续跟踪，所述发生显著变化指不同视频帧同一位置的像素灰度值差值大于20，所述变化比例阈值可以是0.2，所述范围可以是25帧。

步骤56、对于步骤55的跟踪过程，若跟踪中遇到从其它视频帧上检测到的字幕结果，且跟踪与检测到的字幕区域重合比例大于重合比例阈值，则合并检测与跟踪结果，并根据公式(9)调整字幕跟踪的区域：

{val}_{t}^{k + 1} = \frac{k}{k + 1} {val}_{t}^{k} + {val}_{d} - - - (9)

其中val∈{x,y,width,height}，分别对应字幕区域矩形框的左上角x和y坐标，以及字幕矩形框的宽度和高度，下标t表示该位置值是由字幕跟踪得到，d表示该值是由字幕检测得到，上标k该字幕区域已经合并过的次数，所述重合比例阈值可以为0.8；

步骤57、对于步骤56得到的字幕跟踪结果，若存在多条字幕区域重合的现象，设有L条同时重合字幕{ct₁,ct₂,…,ct_L}，则根据公式(10)计算每条字幕的不稳定性得分unstable_i，

{unstable}_{i} = Σ_{j = s_{i}}^{e_{i} - 1} \frac{{Diff}_{i} (j)}{e_{i} - s_{i}} - - - (10)

其中s_i和e_i为字幕出现和消失的视频帧号，Diff_i(j)是字幕ct_i的矩形区域中，第j+1帧与第j帧的像素灰度值发生显著变化的比例，得到所有L条重合字幕的不稳定性得分后，仅保留不稳定性得分最小的字幕，其余L-1条字幕则删除，所述的发生显著变化是指像素值的变化值超过20；

步骤58、基于步骤57的处理结果，对于间隔不超过N帧，字幕区域像素灰度值发生显著变化的比例低于变化比例阈值，像素区域重合比例超过重合比例阈值的相邻字幕予以合并，字幕合并时相应更新字幕的出现和消失时间点，最终得到M条字幕{t₁,t₂,…,t_M}，其中字幕t_i可写为公式(11)所示的六元组

t_i={s_i,e_i,x_i,y_i,width_i,height_i},i=1,2,…,M (11)

其中，x_i,y_i,width_i和height_i分别是字幕区域的左下角x和y坐标，字幕区域的宽度和高度，所述的N可以是5，变化比例阈值可以是0.2，重合比例阈值可以是0.8。

根据本发明的优选实施例，基于字幕位置分析，过滤误判为字幕的背景区域和噪声字幕，将剩余字幕作为说话人字幕输出的具体过程如下：

步骤61、对于步骤58得到的字幕结果，过滤持续时间少于帧数下限和大于帧数上限的字幕，所述的帧数下限和帧数上限分别为10和200；

步骤62、将通过步骤61验证的字幕文本框的左下角坐标投影到二维平面，用N*N的窗口按一定步长在二维平面中水平和垂直滑动，统计每个滑动位置上落在窗口内的字幕条数，得到拥有字幕条数最多的窗口，记为W，所述N可以是10个像素，所述一定步长可以是2个像素；

步骤63、对步骤62得到的窗口W，统计落在W内的字幕文本框的高度，得到高度中值，仅保留高度大于三分之二高度中值且小于1.5倍高度中值的字幕，其余的字幕则作为噪声删除；

步骤64、对于落在窗口W外的字幕t_out，若窗口W内不存在至少一条与满足如公式(12)所述关系的字幕t_in，则当作噪声字幕滤除，

\{\begin{matrix} abs (λ_{in} - λ_{out}) \leq d \\ y_{in} - y_{out} - {height}_{in} \leq d \end{matrix} - - - (12)

其中abs(·)为取绝对值操作，λ∈{s,e,x,height}，分别是字幕的出现时间、消失时间、左下角x坐标和字幕框高度，

d = \frac{W}{100} - - - (13)

其中W为视频帧的宽度。

步骤65、经过步骤64处理后剩余的字幕即为人物对话字幕。

通过结合附图对本发明具体实施例的描述，本发明的其它方面及特征对本领域的技术人员而言是显而易见的。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种面向新闻视频的人物对话字幕提取方法，其特征在于，包括步骤：

S1、将新闻节目经数字化采集设备转化为数字新闻视频；

S2、对所述新闻视频进行镜头边界检测和语音预处理；

步骤S2包括：首先将新闻视频分解为以镜头为单元的片段，然后根据镜头所对应时间片段的声学特征，将镜头分类为语音镜头和非语音镜头；

S6、基于字幕位置分析，过滤误判为字幕的背景区域和噪声字幕，将剩余字幕作为人物对话字幕输出；

步骤S6中的字幕位置分析包括步骤：

S61、过滤持续时间少于帧数下限和大于帧数上限的字幕；

\{\begin{matrix} a b s (λ_{i n} - λ_{o u t}) \leq d \\ y_{i n} - y_{o u t} - {height}_{i n} \leq d \end{matrix}

d = \frac{W}{100}

其中W为视频帧的宽度。

2.如权利要求1所述的方法，其特征在于，所述步骤S2中的语音预处理包括：

3.如权利要求1所述的方法，其特征在于，所述步骤S3中的主持人检测和聚类包括步骤：

S33、提取人脸特定面部区域的尺度不变特征转换描述子特征、躯干的全局颜色特征和背景区域的全局颜色特征，并依此计算人脸帧之间的两两相似度，采用凝聚式层次聚类方法将属于同一个人的视频帧聚到同一个类；

4.如权利要求3所述的方法，其特征在于，所述步骤S4中的主持人声学模型构造和主持人说话镜头-人物对话镜头判别包括步骤：

S41、提取视频中所有语音单元的美尔频率倒谱系数特征，基于高斯混合模型－通用背景模型框架，采用数学期望最大化算法估计通用背景模型；

S42、根据步骤S34得到的主持人聚类结果收集各个主持人的语音，基于高斯混合模型－通用背景模型框架和得到的通用背景模型，为各个主持人构造相应的声学模型；

S43、基于美尔频率倒谱系数特征计算语音单元与通用背景模型以及各个主持人声学模型的似然度，采用阈值切分的方法将语音单元分类为主持人说话单元和非主持人说话单元，并根据镜头内主持人说话单元的比例将镜头分类为主持人说话镜头和人物对话镜头。

5.如权利要求1所述的方法，其特征在于，所述步骤S5中的字幕检测和跟踪包括步骤：

6.如权利要求5所述的方法，其特征在于，所述间隔是5帧，所述发生显著变化是像素灰度值差值大于20，所述范围是25帧。

7.如权利要求1所述的方法，其特征在于，所述帧数下限和帧数上限分别是10和200，所述N是10，所述步长是2。