CN103546667B

CN103546667B - 一种面向海量广播电视监管的自动新闻拆条方法

Info

Publication number: CN103546667B
Application number: CN201310505496.3A
Authority: CN
Inventors: 冯柏岚; 郑榕; 陈智能; 徐波
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2013-10-24
Filing date: 2013-10-24
Publication date: 2016-08-17
Anticipated expiration: 2033-10-24
Also published as: CN103546667A

Abstract

本发明公开了一种面向海量广播电视监管的自动新闻拆条方法，包括以下步骤：初始化广播电视数据自动获得新闻节目音频波形和视频图像；提取新闻数据的音视频特征，包括主持人检测、字幕检测与跟踪和语音检测；通过启发式规则获取新闻条目边界的视觉候选点和语音候选点；根据音视频融合实现对新闻条目边界的定位计算；上述步骤提供的处理结果，经人工审核后，结果入知识库作为支撑监管需求的知识资源。本发明的有益效果在于：构造的音视频特征符合新闻条目边界描述，设计的音视频融合策略吻合新闻条目组织结构，从而使得新闻拆条过程较现有方法执行效率高，栏目鲁棒性强，结果更为理想。

Description

一种面向海量广播电视监管的自动新闻拆条方法

技术领域

本发明属于面向三网融合的广播电视新媒体内容监管与分发领域，特别涉及一种面向海量广播电视监管的自动新闻拆条方法。

背景技术

电视新闻是一种重要的信息报道形式，与其他类型新闻相比，具有内容丰富、受众面广、表现直观、信息量大等特点。此外，电视新闻也是一种重要的信息传播途径，用来承载重大事件动态和舆论导向，具有重要的监管价值。

近年来，电视新闻受关注度的悄然提升有其深刻的背景。一方面，广播电视行业的蓬勃发展使得电视新闻成为人民群众获取信息的重要途径。根据2011年国家统计局发布的数据显示，截止至2011年，我国电视节目综合人口覆盖率已达到97.6％，可以说，广播电视已经深入到人们的日常工作、学习与生活当中。另一方面，随着“三网融合”概念的提出和相关工作的推进，各产学研机构也逐渐向传统电视领域扩展业务，这也预示着广播电视行业相关业务发展的光明前景。

在广播电视事业不断发展的大背景下，广播电视行业也积累了大量的多媒体数据。其中具有重要价值的新闻节目数据的大量涌现带来了新的困难与挑战：一方面，由于缺乏有效的技术处理手段，大量的新闻资源无法深度开发利用；另一方面，随着我国监测事业的不断发展，对各类异态发现与应急处理的时效性不断提高，如对境外华语新闻节目的内容监控任务，值班员需要在很短的时间内针对数十个卫星节目的内容进行敏感信息判断，随着监控路数的不断增加，在规定时间内完成任务，单纯依靠人工将根本无法实现。诸如广播电视新闻专题监测、广播电视新闻舆情监测等各类新业务的迅速开展对监测内容的规模、多样性、管理能力以及监测工作的时效性都提出了更高的要求，而现行主要依靠人工的内容监测与管理方式已无法适应上述发展。为解决上述问题，有必要融合多种信息处理技术，对海量广播电视数据进行结构分析与理解，从而提高新闻节目的自组织与管理能力。

发明内容

本发明的目的在于提供一种面向海量广播电视监管的自动新闻拆条方法，利用现代计算机音视频内容自动识别算法和良好的音视频融合策略设计对海量广播电视新闻节目进行高效的新闻条目分割打点，为海量广播电视新闻内容的深入开发利用、全面监测监管提供有效技术方案。

为实现本发明的目的，提供了一种面向海量广播电视监管的自动新闻拆条方法，包括以下步骤：

步骤1、新闻数据初始化；

步骤2、提取初始化后的新闻数据的音视频特征；

步骤3、根据所提取的音视频特征，采用启发式规则获取新闻条目边界的视觉候选点和语音候选点；

步骤4、根据所获得的视觉候选点和语音候选点，采用音视频融合策略对新闻条目边界进行定位计算，得到最终的新闻拆条边界位置。

本发明的有益效果在于：提出了一种全新的、面向各类广播电视新闻节目监管的自动新闻拆条方法。利用现代计算机音视频智能处理技术，对多频道、全天的海量广播电视新闻节目进行条目打点计算，并结合有效的启发式手段，通过个性化的信息融合策略，将语音候选点和视觉候选点进行引导与修正，审核后输出最后结果。这种音视频智能处理与信息融合相辅助的方式，可以发挥计算机处理的高效性和即时性优点，解决现有以人工方式为主的广播电视新闻节目打点过程中的高投入、低效率问题，为海量广播电视内容监管提供有效的技术手段。

附图说明

图1是本发明实施例中面向海量广播电视监管的自动新闻拆条方法的流程框图；

图2是本发明实施例中主持人分块矩形区域和身体矩形区域示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

根据本发明的优选实施例，结合广播电视新闻节目的特点以及新闻监管的需求，构造了三类特征用于新闻条目打点，分别是主持人信息、字幕信息以及语音信息；同时设计了启发式规则和音视频融合的特征使用方式。优选地，上述主持人、字幕时序、语音体现了新闻条目边界的描述信息。下面根据本发明的优选实施样例详细描述上述三类特征的具体计算方法。

本发明提供了一种面向海量广播电视监管的自动新闻拆条方法。图1示出了本发明优选实施例中提供的面向海量广播电视监管的自动新闻拆条方法流程图。如图1所示，该方法包括以下步骤：

步骤1、利用计算机实现新闻数据初始化；

步骤2、提取初始化后的新闻数据的音视频特征；

步骤3、采用启发式规则获取新闻条目边界的视觉候选点和语音候选点；

步骤4、根据音视频融合策略实现对新闻条目边界的定位计算；

步骤5、审核/修正拆条定位点后结果入知识库，支撑监管需求。

上述方法的步骤1中，所述新闻数据初始化是指从某频道广播电视节目历史数据标记中提取新闻节目片段，并自动提取新闻节目的音频波形和视频图像。

该步骤1中，利用后台计算机对各类广播电视通道采集的音视频数据做音视频解码处理，得到音频波形和视频图像：本发明可接受经过采集收录系统进行数字化的各类传输形式的广播电视数据信号，目前常见的广播电视信号包括模拟、卫星(DVB-S)、CATV、直播星、数字(DVB-C)、地面数字多媒体广播(TDMB)等。经过与不同信号类型相应的接收设备，将广播电视信号经过转码转为数字文件存储到大容量存储设备或以音视频流的形式传输到后续处理系统中。程序读入文件或音视频流，调用相应解码器将声音和图像进行分离。此步骤优选离线执行。

上述方法的步骤2中，所述新闻数据的音视频特征提取包括：主持人检测、字幕检测及跟踪、语音检测，具体可以为主持人出现位置检测、字幕出现位置及持续时间的检测、声学语音边界点出现位置的检测。

根据本发明的优选实施例，从新闻节目中检测主持人出现位置的具体过程如下：

步骤201、对新闻节目视频做镜头检测，并选取各镜头的中间帧标记为关键帧，得到新闻视频关键帧集合；

步骤202、用人脸检测方法在新闻视频关键帧集合中检测各帧的人脸；

步骤203、根据所述新闻视频关键帧集合中各帧的人脸数目过滤掉不满足条件的关键帧，如可以选取人脸数目位于1-3个之间的关键帧作为主持人候选帧集合，即将人脸数目位于1-3个之外的关键帧过滤掉；

步骤204、在主持人候选帧集合中，分别提取各候选帧的4x4全局分块颜色直方图和身体躯干区域的SIFT点，分别作为全局特征和局部特征描述；

图2示出了本发明实施例中主持人分块矩形区域和身体矩形区域示意图。如图2所示，身体躯干的定位根据人脸位置估算，身体躯干区域计算为人脸矩形区域的宽度的两倍，高度的三倍。当然如果下方没有足够区域，则区域边界到图像帧边界为止；

步骤205、在主持人候选帧集合中，以集合中各主持人候选帧作为结点，将两两主持人候选帧之间的加权距离度量作为各结点之间的边，构建一个全联通关联图，并使用图聚类(GTC)算法对该全联通图做分割，将各主持人候选帧根据全局背景视觉差异和局部前景视觉差异进行无监督聚类，将主持人候选帧集合中全局背景和局部前景视觉差异小的帧聚为一类，其他噪声帧打散为其他类。其中所述全局距离、局部距离和加权距离分别表示两两主持人候选帧之间的主持人背景差异、主持人前景差异，以及基于上述背景差异和前景差异线性加权计算得到的主持人候选帧间整体差异。全局距离、局部距离和加权距离计算分别如下公式(1)(2)(3)所示，参数α可设置为0.7，用于调节全局距离与局部距离的比重。其中，b_his_k(i，j)表示第i帧与第j帧的第k个分块的颜色直方图差异，cos_bow(i，j)表示第i帧与第j帧的躯干区域词袋余弦距离：

{Dis}_{i, j}^{global} = Σ_{k = 1}^{4 * 4} \min {(b_{his}_{k} (i, j))}_{1}^{8} - - - (1)

{Dis}_{i, j}^{local} = \max \cos_{bow} (i, j) - - - (2)

{Dis}_{i, j}^{anchor} = α {Dis}_{i, j}^{global} + (1 - α) {Dis}_{i, j}^{local} - - - (3)

步骤206、计算各类内的帧数、主持人候选帧分布以及主持人候选帧人脸面积信息，并设置启发式条件选取出主持人子类，通过主持人子类内各主持人帧对应的时间点即可得到在新闻视频中主持人出现的时间位置信息。其中，主持人候选帧分布即指各类内主持人候选帧的最大时间间隔跨度；人脸面积信息通过现有的人脸检测工具获得；启发式条件包括：类内帧数大于某阈值A1、类内主持人候选帧分布大于某阈值A2、类内主持人候选帧平均人脸面积小于某阈值A3，其中A1、A2、A3可以为4、0.25、35，同时满足上述三个条件的类被选定为主持人子类。

根据本发明的优选实例，从新闻节目中检测字幕出现位置及持续时间的具体过程如下：

步骤211、对新闻节目视频以一定的间隔抽取图像帧，作为字幕检测及跟踪对象，所述一定的间隔可以为25帧(1秒)；

步骤212、对抽取的图像帧提取两次双边缘特征，得到图像帧的二值笔画图特征：第一次，令I为所抽取的一帧图像，将其转化为灰度图像G，并根据公式(4)计算图像G笔画特征图S⁺：

其中根据公式(5)计算

{S (p)}_{d}^{*} = \max_{i = 1}^{W - 1} {\min {G_{d} (p - i), G_{d} (p - i + W)}} - G (p) - - - (5)

其中d＝0，1，2，3分别代表0°、45°、90°和135°四个笔画方向，W为笔画宽度上限，可以为7；G_d(p-i)表示图像G中d方向上与像素点p距离为i的像素点的灰度值。笔画图S+为四个方向笔画特征的最大值，根据公式(6)表示为

S^{+} = \max_{d = 0}^{3} {S_{d}} - - - (6)

第二次，根据公式(7)翻转图像G的像素值，生成翻转图像rG：

rG(p)＝255-G(p) (7)

其中G(p)是图像帧G像素点p的灰度值。计算图像rG的笔画特征图S^-。S⁺和S^-分别定义为图像G的正、负笔画特征图。之后采用Ostu方法分别对正、负笔画特征图进行二值化，得到正、负二值笔画图，分别记为BS⁺和BS^-。根据公式(8)对正、负二值笔画图进行融合，即并集叠加后，得到最终的二值笔画图SM。

SM＝max{BS⁺，BS^-} (8)

步骤213、对得到的二值笔画图SM进行列投影和平滑，即通过将笔画二值图投影到垂直方向，并采用均值滤波方法对投影值进行平滑，之后采用阈值切分方法计算图像帧的候选字幕行区域，得到候选字幕行的列坐标区域的集合。具体地，首先计算列投影值，其中第y行的列投影值ProV′(y)通过公式(9)计算得到。

{ProV}^{'} (y) = \frac{1}{w} Σ_{x = 1}^{W} SM (x, y) - - - (9)

其中SM(x，y)为二值图SM第x行第y列像素点的值，W为图像帧宽度。之后根据公式(10)对列投影值进行均值滤波，得到平滑后的列投影值ProV(y)。

ProV (y) = \frac{1}{3} ({ProV}^{'} (y - 1) + {ProV}^{'} (y) + {ProV}^{'} (y + 1)) - - - (10)

然后采用阈值切分方法计算图像帧的候选字幕行区域，具体做法为：当ProV(y)大于等于列切分阈值时，第y列被划分为候选字幕列；当ProV(y)小于该阈值时，第y列被划分为非候选字幕列。收集所有不少于连续V1列被划分为候选字幕列的区间，得到候选字幕行的列坐标区域的集合其中和分别为第i个候选字幕行的起始和终止列坐标。所述的列切分阈值可以为0.08*W，V1可以为0.03*H，H为图像帧高度。

步骤214、对上述得到的列区域逐一进行行投影和平滑，即通过对上述选定的列区域逐一投影到水平方向，并采用均值滤波方法对投影值进行平滑，之后采用阈值切分方法计算图像帧的候选字幕列区域，得到四元组表示的矩形字幕文本区域。具体地，对于首先计算行投影值，其中第x列的行投影值ProH′(x)通过公式(11)计算得到。

{ProH}^{'} (x) = \frac{1}{v_{e}^{i} - v_{s}^{i} + 1} Σ_{y = v_{s}^{i}}^{v_{e}^{i}} SM (x, y) - - - (11)

之后根据公式(12)对行投影值进行均值滤波，得到平滑后的行投影值ProV(x)。

ProH (x) = \frac{1}{3} ({ProH}^{'} (x - 1) + {ProH}^{'} (x) + {ProH}^{'} (x + 1)) - - - (12)

然后采用阈值切分方法计算该字幕行中字幕出现的行区间，具体做法为：当ProH(x)大于等于行切分阈值时，第x行被划分为候选字幕行；当ProH(x)小于该阈值时，第x行被划分为非候选字幕行。收集所有不少于连续H1行被划分为候选字幕行的区间，同时连接上述所有行间隔不超过H2个像素的区间。经过这两步操作后，所有长度超过H3行的区间被判定为字幕文本区域，其中，H1、H2、H3分别根据经验设定，例如可分别设定为48、40、112个像素。其起始和终止行坐标记为其中为第i个字幕区域的起始行坐标和终止行坐标。综合字幕文本行和字幕文本列坐标，得到字幕文本四元组集合：

步骤215、基于字幕检测得到的矩形四元组区域，沿时间轴一定范围内前向和后向跟踪计算该区域中显著变化的像素的比例：变化比例高于阈值则认为有字幕跃变结束跟踪；低于阈值则持续跟踪，得到字幕文本的候选出现和消失时间点。此时，第i条视频字幕可表示为如下六元组：

{t_{s}^{i}, t_{e}^{i}, v_{s}^{i}, v_{e}^{i}, h_{s}^{i}, h_{e}^{i}}

其中，分别表示第i条字幕首次被检出的时间和字幕消失时间。上述过程中，所述一定范围可以是25帧，变化比例阈值可以是0.8；

步骤216、根据视频字幕的六元组信息，计算任意两条字幕的时间和空间重合关系。对于时序相交且区域重合度较大的字幕文本，采取直接合并的方式；对于时序相邻且区域重合度较大的字幕文本，计算二者重合区域中发生显著变化的像素的比例，若变化比例低于阈值则认为二者是同一字幕进行合并。字幕合并时相应更新字幕的出现和消失时间点，得到精确的字幕文本出现和消失时间；

步骤217、后处理操作，删除出现时间较短和字幕文本中心点出现在图像帧左四分之一或右四分之一区域的字幕结果。

根据本发明的优选实施例，从新闻节目中检测声学语音边界点出现位置的具体过程如下：

步骤221、初始化新闻节目音频，得到节目音频的波形序列；

步骤222、对新闻音频波形序列检测长静音出现的时间点位置，作为声学语音边界初选候选点；

步骤223、将所述声学语音边界初选候选点输入预先建立的支持向量机，计算支持向量机的输出函数值，函数值大于某阈值则作为支持向量机系统输出，得到第一声学语音边界候选点。所述支持向量机是通过在离线新闻节目集上，基于7种语音特征(静音、基频、基频跃变、能量、能量跃变、语速、广义似然比)构建的56维特征向量语音拆条点/非拆条点的支持向量机模型。支持向量机训练的正样本为拆条点的特征向量参数，负样本为拆条点邻域(正负5秒)以外的特征向量参数。特征参数进行三阶多项式扩展后，采用线性核函数训练得到模型。

步骤224、声学相似度计算：将原始音频文件按照静音位置切分成音频片段，并对每个片段的所有音频按帧计算高斯后验特征，即当前帧在全局背景高斯混合模型的所有高斯函数上的贡献率。通过高斯后验特征参数(高斯混合数即特征参数的维数)计算每个音频片段中音频帧的两两相互距离，并在距离矩阵内通过动态时间规整算法(Dynamic Time Warping)找出最佳匹配路径，用于确定各声学语音边界初选候选点左右的句子长度；

步骤225、计算所述声学语音边界初选候选点左右各两个相邻句子(sentence)之间的相似度，相似度由最佳匹配路径上的平均距离和路径长度得到。具体地，首先通过能量检测对音频文件进行切分，得到片段(fragment)，满足一定聚合准则的连续1个或多个fragment合并成话语(utterance)。之后句子之间的相似度计算如公式(13)所示：

Sent_Sim (s_{i}, s_{i + 1}) = Σ_{k = 1}^{K} Σ_{l = 1}^{L} Utt_Sim (u_{k}, u_{l}) - - - (13)

其中Utt_Sim(u_k，u_l)表示第k个话语与第l个话语的相似度，计算如公式(14)所示：

Utt_Sim (u_{x}, u_{y}) = Σ_{i = 1}^{N_{f}} (1 - \frac{f_{i}}{θ}) - - - (14)

其中N_f表示最佳路径上的片段数目，f_i表示第i个片段的平均距离值，θ取值为6。

步骤226、根据所计算得到的相似度计算所述声学语音边界初选候选点的相对分数，并采用相对分数作为判断依据，获得第二声学语音边界候选点；具体地，相对分数计算方式如下：假设存在i-1、i、i+1、i+2四个连续语音句子，判断句子i和句子i+1之间是否存在第二声学语音边界候选点的计算如公式(15)所示：

Rel(s_i，s_i+1)＝

(Sent_Sim(s_i-1，s_i)-Sent_Sim(s_i，s_i+1))+(Sent_Sim(s_i+1，s_i+2)-

Sent_Sim(s_i，s_i+1)) (15)

其中Sent_Sim(s_i，s_i+1)表示句子s_i和s_i+1的相似度。相对分数大于某阈值则作为声学相似度系统输出，标记为第二声学语音边界候选点。

上述方法中，视觉方面：所述启发式规则用于在字幕跟踪区域外，将主持人检测点、字幕检测点基于启发式规则结合，报出新闻拆条的视觉候选点；语音方面：所述启发式规则用于将声学支持向量机系统与声学相似度系统融合，并报出新闻拆条的语音候选点。

具体在步骤3中，视觉候选点和语音候选点计算。首先采用视觉启发式规则对视觉特征融合，得到视觉候选点；其次再根据声学启发式规则将声学支持向量机系统与声学相似度系统进行融合，得到语音候选点。此步骤为在线执行操作，具体包括下述步骤301-303：

步骤301、条目边界的视觉候选区域计算。根据字幕跟踪得到各字幕持续的起始时间和终止时间，并基于阈值过滤的方法仅保留字幕持续时间大于阈值的字幕，将此类字幕标记为标题类字幕。将标题类字幕持续时间段以外的时间区间作为条目边界候选区域。

步骤302、视觉候选点计算，即检测所述新闻条目边界的视觉候选区域，将主持人出现的位置以及连续字幕开始出现的位置作为视觉候选点。具体地，在条目边界候选区域内，若仅检测出唯一的主持人出现，则标记该位置为视觉候选点；若检测出多个主持人出现点，则计算时序上两两相近的主持人帧的视觉相似度，并根据设定阈值进行主持人合并，标记合并后各主持人首次出现的位置为视觉候选点；若没有检测到主持人，则标记距离该候选区域右边界最近的字幕帧出现位置为视觉候选点。

步骤303、语音候选点计算。将声学支持向量机系统与声学相似度系统融合，即将第一声学语音边界候选点和第二声学语音边界候选点进行合并进行过滤后得到语音候选点。具体地，为降低误报率，采用结果归并融合方式，即将支持向量机系统结果与声学相似度系统结果直接取并集融合，并以支持向量机系统结果作为锚点，抑制各锚点附近一定阈值范围的报出，即以支持向量机模型检测出的点作为基础点，滤除在基础点左右一定阈值范围内出现的声学相似度系统的报出点，得到语音候选点。

上述方法中，所述音视频融合分别从高准确率和高召回率角度配置参数，根据字幕区域抑制和主持人区域抑制策略，融合语音检测和视觉检测结果并报出新闻拆条点的位置。

具体在步骤4中为满足监管用户对于新闻拆条结果的不同需求，分别根据字幕区域抑制和主持人区域抑制策略进行音视频特征融合，提供高准确率和高召回率两种配置的参数设置，为用户提供可选的结果输出；其中，高准确率模式要求得到的新闻条目准确率较高，而高召回率模式要求得到的新闻条目遗漏较少。此步骤为在线执行操作，具体包括下述步骤：

步骤401、当配置参数设置为“高准确率”模式时，根据标题字幕跟踪计算各标题字幕持续时间段，并标记标题字幕持续时间段集合为“禁止区域”，其中所述“禁止区域”中不会出现拆条点。将视觉候选点集和语音候选点集进行并集操作，并将落入“禁止区域”内的候选点删除后，剩余的视觉候选点和语音候选点即为新闻条目边界位置。

步骤402、当配置参数设置为“高召回率”模式时，以各主持人出现时间点为锚点，将锚点前后各5秒为时长划定主持人抑制区域，并标记主持人抑制区域集合为“禁止区域”。将视觉候选点集和语音候选点集进行并集操作，并将落入“禁止区域”内的候选点删除后，剩余的视觉候选点和语音候选点即为新闻条目边界位置。

上述方法步骤5中，所述人工审核/修正操作，用于对拆条点进行审核和修正后结果存入知识库，通过管理人工审核后的新闻条目，支撑监管需求。

综合上述步骤的结果即可得到广播电视新闻的三类边界描述特征。对于广播电视的每个新闻节目，分别进行数据初始化预处理与特征提取。本领域普通技术人员可以理解，该操作优选离线操作。

本发明的有益效果在于：所构造的音视频特征非常符合新闻条目的边界描述，所设计的音视频融合策略非常吻合新闻条目的组织结构，从而使得新闻拆条过程较现有方法执行效率更高，栏目鲁棒性更强，结果更为理想，非常适合在大规模数据上的新闻拆条应用。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向海量广播电视监管的自动新闻拆条方法，包括以下步骤：

步骤1、新闻数据初始化；

步骤2、提取初始化后的新闻数据的音视频特征；

步骤4、根据所获得的视觉候选点和语音候选点，采用音视频融合策略对新闻条目边界进行定位计算，得到最终的新闻拆条边界位置；

步骤2中音视频特征提取包括提取主持人出现位置信息、字幕出现位置及持续时间、声学语音边界点出现位置；

其中主持人出现位置信息如下提取：

步骤201、对新闻数据中的视频做镜头检测，并选取各镜头的中间帧标记为关键帧，得到新闻视频关键帧集合；

步骤203、根据所述新闻视频关键帧集合中各帧的人脸数目选取满足条件的关键帧，作为主持人候选帧集合；

步骤204、在主持人候选帧集合中，分别提取各候选帧的全局分块颜色直方图和身体躯干区域的SIFT点，分别作为全局特征和局部特征描述；

步骤205、计算两两主持人候选帧之间的全局特征和局部特征线性加权后的距离度量得到全局距离、局部距离和加权距离，并基于图聚类对主持人候选帧集合做无监督聚类，得到主持人候选帧集合中各个主持人候选帧的分类；

步骤206、计算聚类所得到的各类内的帧数、主持人候选帧分布以及主持人候选帧人脸面积信息，并设置启发式条件选取出主持人子类，并通过主持人子类内各主持人候选帧对应的时间点获得主持人出现位置信息。

2.如权利要求1所述的面向海量广播电视监管的自动新闻拆条方法，其特征在于，步骤1中新闻数据初始化包括获取新闻数据中的音频波形数据和视频图像数据。

3.如权利要求1所述的面向海量广播电视监管的自动新闻拆条方法，其特征在于，所述全局距离、局部距离和加权距离分别表示两两主持人候选帧之间的主持人背景差异、主持人前景差异，以及基于上述背景差异和前景差异线性加权计算得到的主持人候选帧间整体差异。

4.如权利要求3所述的面向海量广播电视监管的自动新闻拆条方法，其特征在于，字幕出现位置及持续时间如下提取：

步骤211、对新闻数据中的视频以一定的间隔抽取图像帧，作为字幕检测及跟踪对象；

步骤212、对抽取的图像帧提取两次双边缘特征，得到图像帧的二值笔画特征图；

步骤213、对所得到的二值笔画特征图进行列投影和平滑，计算得到候选字幕行集合；

步骤214、对所述候选字幕行集合中的每个候选字幕行进行行投影和平滑，计算得到其中的字幕文本候选区域；

步骤215、基于所得到的字幕文本候选区域沿时间轴一定范围内前向和后向跟踪计算该区域中显著变化的像素的比例，得到该字幕文本候选区域出现和消失时间点；

步骤216、根据所述字幕文本候选区域以及其出现和消失的时间点，计算任意两个字幕文本候选区域的时序相交和空间重合关系，并根据时序相交和空间重合关系进行合并相应的字幕文本候选区域，获取全部字幕文本候选区域出现和消失的时间。

5.如权利要求4所述的面向海量广播电视监管的自动新闻拆条方法，其特征在于，步骤212中两次边缘特征提取分别为：第一次边缘特征提取为提取图像帧对应的灰度图像的第一笔画特征图；第二次边缘特征提取为提取所述灰度图像的像素翻转图像的第二笔画特征图；所述图像的二值笔画特征图为上述第一笔画特征图和第二笔画特征图进行并集叠加后的笔画特征图。

6.如权利要求5所述的面向海量广播电视监管的自动新闻拆条方法，其特征在于，步骤213中所述对二值笔画特征图进行列投影和平滑具体是指通过将二值笔画特征图投影到垂直方向，并采用均值滤波方法对投影值进行平滑，之后采用阈值切分方法计算图像帧的候选字幕行区域，得到候选字幕行的列坐标区域的集合；步骤214中对每个候选字幕行进行行投影和平滑具体是指通过对上述选定的列坐标区域逐一投影到水平方向，并采用均值滤波方法对投影值进行平滑，之后采用阈值切分方法计算图像帧的候选字幕列区域，得到四元组表示的矩形字幕文本区域。

7.如权利要求3所述的面向海量广播电视监管的自动新闻拆条方法，其特征在于，所述声学语音边界点包括第一声学语音边界候选点和第二声学语音边界候选点，其出现位置如下提取：

步骤221、获得新闻数据中音频的波形序列；

步骤222、检测所述音频的波形序列中长静音出现的时间点位置，作为声学语音边界初选候选点；

步骤223、将由语音特征构成的多维语音特征向量输入预先建立的支持向量机，在声学语音边界初选候选点集合中计算支持向量机对各声学语音边界初选候选点的输出函数值，根据所述输出函数值得到第一声学语音边界候选点；

步骤224、将新闻数据中的原始音频文件按照静音位置切分成音频片段，并对每个音频片段的所有音频按帧计算高斯后验特征，通过高斯后验特征参数计算每个音频片段中音频帧的两两相互距离，并在距离矩阵内通过动态时间规整算法找出最佳匹配路径；

步骤225、根据所述最佳匹配路径上的平均距离和路径长度计算所述声学语音边界初选候选点左右各两个相邻句子之间的相似度；

步骤226、根据所述相似度计算所述声学语音边界初选候选点的相对分数，并根据所述相对分数得到第二声学语音边界候选点。

8.如权利要求7所述的面向海量广播电视监管的自动新闻拆条方法，其特征在于，步骤3中采用启发式规则获取新闻条目边界的视觉候选点和语音候选点具体包括：

步骤301、根据步骤2中获得的字幕出现位置及持续时间，将字幕持续时间大于一定阈值的字幕之外区域作为新闻条目边界的视觉候选区域；

步骤302、检测所述新闻条目边界的视觉候选区域，将主持人出现的位置以及连续字幕开始出现的位置作为视觉候选点；

步骤303、合并第一声学语音边界候选点和第二声学语音边界候选点，并滤除不合理的误报，得到语音候选点。

9.如权利要求8所述的面向海量广播电视监管的自动新闻拆条方法，其特征在于，步骤4中合并视觉候选点和语音候选点，并根据设定的高准确率或高召回率模式，将合并后得到的集合中出现在字幕区域或主持人区域中的视觉候选点和语音候选点删除，剩下的视觉候选点和语音候选点即为最终的新闻拆条边界位置。

10.如权利要求1所述的面向海量广播电视监管的自动新闻拆条方法，其特征在于，该方法还包括人工审核或修正所得到的新闻拆条边界位置，并将审核或修改正后的结果存入知识库。