CN103533459B

CN103533459B - 一种新闻视频条目拆分的方法和系统

Info

Publication number: CN103533459B
Application number: CN201310468354.4A
Authority: CN
Inventors: 姜洪臣
Original assignee: BEIJING PATTEK Co Ltd
Current assignee: BEIJING PATTEK Co Ltd
Priority date: 2013-10-09
Filing date: 2013-10-09
Publication date: 2017-05-03
Anticipated expiration: 2033-10-09
Also published as: CN103533459A

Abstract

本发明提出了一种新闻视频条目拆分方法和系统。该方法为：从广播电视信号中，解码出音频信号，对音频信号提取音频指纹特征，与新闻节目模板库中的模板进行匹配，确定新闻节目在广播电视信号中的播出时间，根据播出时间得到新闻节目视频，借助人机交互界面，利用人工操作和计算机智能音视频算法结合的方法，将新闻节目视频拆分为独立的新闻条目。本发明能够保证实现对新闻节目的拆分。

Description

一种新闻视频条目拆分的方法和系统

技术领域

本发明属于网络通信技术领域，特别涉及一种新闻视频条目拆分的方法和系统。

背景技术

广播电视是一种给用户传播信息的媒体，是人们生活、休闲、娱乐、信息和社会生活的重要组成部分。其中，电视新闻由于具有内容丰富、形象生动、传播迅速等特点，成为新闻传播的重要渠道。

随着网络技术的进步以及“三网融合”的不断推进，电视新闻在网络上也得到了巨大的关注。特别是随着智能终端的发展，用户可以选择多种方式观看节目。广播电视中播出的新闻视频是完整的段落，包含多个新闻条目的顺序组合，然而用户在网络上观看新闻节目时通常只关注某条或某类新闻节目，这就需要将完整的新闻视频根据实际需要拆分成多个独立的条目单元，以满足不同用户的个性化需求。另一方面，电视新闻作为电视台的重要媒体资产，在播出后需要对其进行编目入库，以便对其进行查询和管理。通常为了更方便的管理和查找，也需要对完整的新闻视频进行条目拆分。

现有的新闻视频条目拆分方法主要是依靠人工的方法进行拆分，即人工对新闻素材进行浏览，根据新闻素材的内容对新闻素材进行“打点拆分”，从而将整段新闻节目拆分为多个单独的条目。这种方法由于人为主观性因素的存在，拆分位置的准确性和效率不高。

由于现存方法存在的问题，有必要提出一种新的新闻条目拆分方法，提高拆分点的准确性和效率。

发明内容

针对现有技术方案存在的问题和不足，本发明提供了一种基于人机交互的新闻视频条目拆分的方法和系统，提高了拆分位置的准确性和一致性。

为实现以上目的，本发明通过以下技术方案予以实现：

一种新闻视频条目拆分方法，预先设置新闻节目模板库，该方法还包括：

从广播电视信号中，解码出音频信号，对音频信号提取音频指纹特征；

把从广播电视信号中提取出的音频指纹特征与新闻节目模板库中的模板进行匹配，确定新闻节目在广播电视信号中的播出时间，根据播出时间，得到新闻节目视频；

对于得到的新闻节目视频，借助人机交互界面，利用人工操作和计算机智能音视频算法结合的方法，将新闻节目视频拆分为独立的新闻条目。

其中，所述预先设置新闻节目模板库包括：

人工搜集需要做拆分的新闻节目的片花，将搜集的节目片花解码出音频信号，提取音频指纹特征并作为模板存入新闻模板库中。

其中，所述把从广播电视信号中提取出的音频指纹特征与新闻节目模板库中的模板进行匹配包括：

将从广播电视信号中提取出的音频指纹特征分段，把每个分段的音频指纹特征和新闻节目模板库中的模板进行逐帧匹配，当匹配相似度大于设定阈值时，则该分段与模板库中的节目模板匹配成功，当连续匹配成功设定个数的分段后，则确定与新闻节目模板库中的模板匹配成功。

其中，所述确定新闻节目在广播电视信号中的播出时间包括：将连续匹配成功设定个数的分段中第一段的时间点确定为对应于所述匹配成功的模板新闻节目在广播电视中的播出时间。

其中，所述借助人机交互界面利用人工操作和计算机智能音视频算法结合的方法将得到的新闻节目视频拆分为独立的新闻条目包括：

通过人机交互界面，用户浏览新闻视频决定拆分点的候选区域，计算机保存候选区域图像信息；

计算机智能音视频算法对候选区域图像进行分析处理，向用户提供条目拆分点的候选位置；

用户判定计算机智能音视频算法处理的结果是否正确，若正确，用户标记拆分点，存入数据库；否则，用户重新决定候选区域。

其中，所述计算机智能音视频算法包括：

计算候选区域内显示框中视频帧两侧的图像场景差异度V；

计算候选区域内显示框中的视频帧两侧的音频差异度A；

将所述的视频帧两侧的场景差异度V和音频差异度A融合并转化为该视频帧作为新闻条目拆分点的概率P：

P＝e^-δ(V+kA)

这里，k为调整视频差异度和音频差异度的权重，δ为差异度转化为概率的平滑参数；

选取概率值P最大的视频帧，作为新闻条目拆分点的候选位置，并将其所在的显示框以特定颜色做好标记向用户展示处理结果。

较佳地，计算图像场景差异度的方式可以是：在视频帧两侧各1秒的区间内等间隔采样三帧图片，表示为[f_-3,f_-2,f_-1,f₁,f₂,f₃]，然后计算对应视频帧之间的HSV空间颜色直方图的差，并融合得到最终的图像场景差异度：

V＝(|f_-1-f₁|+|f_-2-f₂|+|f_-3-f₃|)/3。

较佳地，计算音频差异度的方式可以是：取视频帧两侧各1秒的音频，计算两端音频的贝叶斯信息值，表示为A，作为该视频帧两侧的音频差异度。

一种新闻视频条目拆分系统，包括：新闻节目模板库模块、音视频解码模块、新闻视频定位模块和新闻视频条目拆分模块，其中，

新闻节目模板库模块，用于存放新闻节目模板库；

音视频解码模块，用于从广播电视信号中，解码出音频信号，对音频信号提取音频指纹特征，将该音频指纹特征发送给新闻视频定位模块；

新闻视频定位模块，用于将接收到的音频指纹特征与新闻节目模板库模块中的新闻节目模板库中的模板进行匹配，确定新闻节目在广播电视信号中的播出时间，根据播出时间得到新闻节目视频，然后将新闻节目视频发送给新闻视频条目拆分模块；

新闻视频条目拆分模块，用于对接收的新闻节目视频，借助人机交互界面，通过人工操作和计算机智能音视频算法结合的方法将新闻节目视频拆分为独立的新闻条目。

其中，所述新闻视频定位模块包括：

将接收到的音频指纹特征分段，把每个分段的音频指纹特征和新闻节目模板库中的模板进行逐帧匹配，当匹配相似度大于设定阈值时，则该分段与模板库中的节目模板匹配成功，当连续匹配成功设定个数的分段后，则确定与新闻节目模板库中的模板匹配成功，将连续匹配成功设定个数的分段中第一段的时间点确定为对应于所述匹配成功的模板新闻节目在广播电视中的播出时间，根据播出时间，定位新闻节目视频。

其中，所述新闻视频条目拆分模块包括：

第一交互处理子模块，通过人机交互界面，由用户浏览新闻视频确定拆分点的候选区域，然后计算机将候选区域图像信息保存起来，作为第二交互处理子模块的输入；

第二交互处理子模块，接收第一交互处理子模块的输出，用计算机智能音视频算法对候选区域图像进行计算处理，得出拆分点候选位置，通过人机交互界面将拆分点的候选位置结果呈现给用户；

第三交互处理子模块，通过人机交互界面，接收用户输入的判定计算机智能音视频算法处理的结果是否正确的信息，若正确，接收用户标记的拆分点信息，存入数据库；否则，发送触发指令给第一交互处理子模块，以触发第一交互处理子模块通过人机交互界面，由用户浏览新闻视频确定拆分点的候选区域。

较佳地，所述新闻视频条目拆分模块包括计算子模块，用于执行如下计算：

计算候选区域内显示框中视频帧两侧的图像场景差异度V；计算候选区域内显示框中的视频帧两侧的音频差异度A；将所述的视频帧两侧的场景差异度V和音频差异度A融合并转化为该视频帧作为新闻条目拆分点的概率P：

P＝e^-δ(V+kA)

其中，k为调整视频差异度和音频差异度的权重，δ为差异度转化为概率的平滑参数；选取概率值P最大的视频帧，作为新闻条目拆分点的候选位置，并将其所在的显示框以特定颜色做好标记向用户展示处理结果。

较佳地，所述计算子模块中场景差异度V和音频差异度A的计算过程如下：

用HSV空间颜色直方图计算场景差异度，具体为：在视频帧两侧各1秒的区间内等间隔采样三帧图片，表示为[f_-3,f_-2,f_-1,f₁,f₂,f₃]，然后计算对应视频帧之间的HSV空间颜色直方图的差，并融合得到最终的图像场景差异度：

V＝(|f_-1-f₁|+|f_-2-f₂|+|f_-3-f₃|)/3。

用贝叶斯信息估计的方法计算音频差异度，具体为：取视频帧两侧各1秒的音频，计算两端音频的贝叶斯信息值，表示为A，作为该视频帧两侧的音频差异度。

在一个较佳系统实现中，所述的人机交互界面，进一步包括：

视频播放区，播放给定新闻视频的区域；

视频控制区，包含起点按钮、继续/暂停按钮、快进按钮、快退按钮和播放设置按钮，控制视频的播放过程；

图片墙展示区，包含七个图像显示框，中间的显示框显示视频暂停时刻的当前帧图像，左边三个显示框显示当前帧之前的采样视频帧图像，右边三个显示框显示当前帧之后的采样视频帧图像；

图片墙控制区，包含帧间隔调整器按钮、开始标记/结束标记按钮、前一帧按钮、后一帧按钮、前一标记点按钮和后一标记点按钮。

本发明至少具有如下的有益效果：

1、在本发明中，从广播电视信号中解码出音频信号提取音频指纹特征作为匹配对象，相对于把音频和视频都作为匹配对象的情形，降低了匹配的复杂度和难度，能够快速定位新闻节目视频，得到新闻节目视频后，利用人机交互界面，结合人工和计算机智能音视频算法，共同完成拆分过程，从而消除了单纯人工拆分时无法快速精确定位拆分点而计算机智能音视频算法不能完全准确定位拆分点的问题，提高了拆分的准确性和效率。

2、在本发明中，先由用户设置拆分点候选区域，计算机接收到用户输入的候选区域信息后，用智能音视频算法计算拆分点候选位置并给出标记，然后用户根据处理结果是否准确来决定采用还是再次设置候选区域，通过有效的人机交互手段，可以不断调整和修正拆分点，得到较精确的拆分位置。

3、在本发明中，由于结合了人工和计算机智能音视频处理算法，所以对不同结构风格或不具有明显可拆分结构信息的新闻节目都可以拆分，因此该方法节目鲁棒性较强。

当然，实施本发明的任一方法或产品不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1的处理过程示意图；

图2是本发明实施例1中对新闻条目拆分的流程图；

图3是本发明实施例2中对新闻条目拆分的流程图；

图4是本发明实施例中提到的人机交互界面的示意图；

图5是本发明实施例3中提出的新闻视频条目拆分系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

本发明实施例提出了一种新闻视频条目拆分方法，如图1和图2所示，该方法包括预先设置新闻节目模板库，并执行如下步骤：

步骤201：从广播电视信号中，解码出音频信号，对音频信号提取音频指纹特征。

步骤202：把从广播电视信号中提取出的音频指纹特征与新闻节目模板库中的模板进行匹配，确定新闻节目在广播电视信号中的播出时间，根据播出时间，得到新闻节目视频

步骤203：对于得到的新闻节目视频，借助人机交互界面，利用人工操作和计算机智能音视频算法结合的方法，将新闻节目视频拆分为独立的新闻条目。

可见，在本发明实施例中，从广播电视信号中解码出音频信号提取音频指纹特征作为匹配对象，相对于把音频和视频都作为匹配对象的情形，降低了匹配的复杂度和难度，能够快速定位新闻节目视频，得到新闻节目视频后，利用人机交互界面，先由用户设置拆分点候选区域，计算机接收到用户输入的候选区域信息后，用智能音视频算法计算拆分点候选位置并给出标记，然后用户根据处理结果是否准确来决定采用还是再次设置候选区域，通过有效的人机交互手段，可以不断调整和修正拆分点，得到较精确的拆分位置，由于本实施例结合人工和计算机智能音视频算法，从而消除了单纯人工拆分时无法快速精确定位拆分点而计算机智能音视频算法不能完全准确定位拆分点的问题，提高了拆分的准确性和效率。

另外，由于结合了人工和计算机智能音视频处理算法，所以对不同结构风格或不具有明显可拆分结构信息的新闻节目都可以拆分，因此该方法的节目鲁棒性较强。

具体的，在本实施例所述中的预先设置的模板库中存放的模块是由人工预先搜集的新闻节目片花，通过解码器解码出的音频信号，然后提取的音频指纹特征。

在上述步骤202中，为了定位出新闻节目在广播电视信号中的位置，采用的一种实现方式是，先对将从广播电视信号中提取出的音频指纹特征分段，把每个分段的音频指纹特征和新闻节目模板库中的模板进行逐帧匹配，当匹配相似度大于设定阈值时，则该分段与模板库中的节目模板匹配成功，当连续匹配成功设定个数的分段后，则确定与新闻节目模板库中的模板匹配成功。基于此种方式，在步骤202中，可以将第一段的时间点确定为对应于所述匹配成功的模板新闻节目在广播电视中的播出时间。

为了能够对新闻视频条目实现准确且一致性的拆分，在上述步骤203中，采用的是一种基于人机交互的方式，通过人工操作和计算机智能音视频算法结合的方法，具体过程为，用户通过人机交互界面浏览新闻视频决定拆分点的候选区域，计算机智能音视频算法对候选区域图像进行分析处理，向用户提供条目拆分点的候选位置，用户判定计算机智能音视频算法处理的结果是否正确，若正确，用户标记拆分点，存入数据库；否则，用户重新确定拆分点候选区域。

在人机交互过程中，计算机采用了智能音视频算法，其处理过程为：

计算候选区域内显示框中视频帧两侧的图像场景差异度V，计算候选区域内显示框中的视频帧两侧的音频差异度A，将场景差异度V和音频差异度A融合并转化为该视频帧作为新闻条目拆分点的概率P，选取概率值P最大的视频帧，作为新闻条目拆分点的候选位置，并将其所在的显示框以特定颜色做好标记向用户展示结果。

其中，图像场景差异度V的计算过程包括：在视频帧两侧各1秒的区间内等间隔采样三帧图片，表示为[f_-3,f_-2,f_-1,f₁,f₂,f₃]，然后计算对应视频帧之间的HSV空间颜色直方图的差，并融合得到最终的图像场景差异度：

V＝(|f_-1-f₁|+|f_-2-f₂|+|f_-3-f₃|)/3。

音频差异度A的计算过程包括：取视频帧两侧各1秒的音频，计算两端音频的贝叶斯信息值，表示为A，作为该视频帧两侧的音频差异度。

实施例2：

下面通过一个具体的例子，来更为详细的说明本发明的一个较佳实施例的实现过程。该方法包括预先设置新闻节目模板库，并执行如下步骤，其中模板库中存放的是由人工搜集的节目片花经过解码器解码为音频信号后进而提取的音频指纹特征。

步骤301：收集广播电视信号。

本步骤中，广播电视信号包括模拟、卫星（DVB-S）、CTV、直播星、数字（DVB-C）、地面数字多媒体广播（TDMB）等各类广播电视信号。

步骤302：将广播电视信号经过转码转为数字文件存储到大容量存储设备或以音视频流的形式传输到后续的处理系统中。

在本步骤中，数字化文件或音视频流以各种常见的诸如MPEG2、MPEG3、MPEG4、H.263、H.264等音视频编码方式存在。

步骤303：程序读入文件或视频流后，调用ffmpeg中相应的解码器将音视频流解码为音频信号。

在本步骤中，音频文件统一解码为wav。解码完成后，将解码后的声音文件存储到计算机的临时存储区。

步骤304：对步骤303解码后的音频信号提取音频指纹特征。

步骤305：将提取的音频指纹特征与模板库中的模板进行匹配，得到新闻节目在广播电视播出的准确时间，得到新闻节目视频。

在本步骤中，匹配时采用分段匹配策略，即将广播电视信号分段，如2秒一段，每段特征到模板库中进行逐帧匹配，当匹配相似度大于设定阈值时，则该分段与模板库中的节目模板匹配成功，当连续匹配成功设定个数的分段后，则确定与新闻节目模板库中的模板匹配成功。将连续匹配成功设定个数的分段中第一段的时间点确定为对应于所述匹配成功的模板新闻节目在广播电视中的播出时间，从而得到新闻节目视频。

步骤306：得到新闻节目视频后，用户通过视觉判断给出视频条目拆分点的候选区域。

人机交互界面如图4所示，在本步骤中，首先用户浏览界面中的视频播放器区，然后通过播放控制区内设置的快进/快退按钮，控制视频的播放速度，对新闻视频进行浏览。此处，快进和快退的速度有3个档位的设置，不同的档位速度可以在播放设置按钮中设置。

当用户浏览到第一条新闻条目拆分点时，点击播放控制区的暂停按钮，给出新闻条目拆分点所在的候选区域，具体含义为，以该暂停点为中心，前后各扩展3倍于单个显示框帧间隔区域，最后这7个显示框显示的内容一起作为拆分点的候选区域，具体可以参照人机交互界面的图片墙展示区。其中，当前帧显示框里面显示的是暂停时刻的画面，左边3个显示框里面显示的是当前帧之前等间隔的3幅画面，右边3个显示框里面显示的是当前帧之后等间隔的3幅画面。其中，显示框的帧间隔可以在人机交互界面的图片墙控制区中的帧间隔调整器中调整，共有六个级别：1秒、0.8秒、0.6秒、0.4秒、0.2秒、0.1秒。

步骤307：计算机智能音视频算法接收用户输入的拆分点候选区域信息后，计算拆分点候选位置，并以特定颜色自动标记其所在的显示框。

在本步骤中，计算机智能音视频算法，进一步包括以下步骤：

步骤3071：计算候选区域内显示框中视频帧两侧的图像场景差异度。优选的，视频帧两侧的图像场景差异度可以用HSV空间颜色直方图计算。在视频帧两侧各1秒的区间内各等间隔的采样三帧图片，分别表示为[f_-3,f_-2,f_-1,f₁,f₂,f₃]，然后计算对应视频帧之间的HSV空间颜色直方图的差，并融合得到最终的图像场景差异度：

V＝(|f_-1-f₁|+|f_-2-f₂|+|f_-3-f₃|)/3

步骤3072：计算候选区域内显示框中视频帧两侧的音频差异度。优选的，视频帧两侧的音频差异度可以用贝叶斯信息估计的方法计算。首先取视频帧两端各1秒的音频，计算两端音频的贝叶斯信息值，表示为A，即作为该视频帧两侧的音频差异度。

步骤3073：将所述的视频帧两侧的场景差异度V和音频场景差异度A融合为该视频帧作为新闻条目拆分点的概率P:

P＝e^-δ(V+kA)

其中，k为调整视频差异度和音频差异度的权重，δ为差异度转化为概率的平滑参数。

步骤3074：选取概率值最大的视频帧，作为候选区域内新闻条目拆分点的候选位置，并将对应的显示框标记为红色或蓝色，以和其他显示框进行区分。其中，红色框表示为新闻条目的开始标记，蓝色框表示结束标记。

步骤308：用户判定计算机智能音视频算法处理的结果是否正确，若正确，执行步骤309，否则，返回步骤306。

步骤309：用户标记拆分点，将拆分点存入数据库中。

在本步骤中，用户双击由智能音视频算法提供的拆分点视频帧，将该视频帧移动到当前帧显示框，或者通过图片墙控制区中的后一帧和前一帧按钮进行调整，将处理结果移动到当前帧显示框。然后用户点击开始结/束标记按钮，将该标记点存入数据库中。

实施例3：

本发明的另一个实施例还提出了一种新闻视频条目拆分系统，参见图5该系统包括：

新闻节目模板库模块501、音视频解码模块502、新闻视频定位模块503和新闻视频条目拆分模块504，其中，

新闻节目模板库模块501，用于存放新闻节目模板库；

音视频解码模块502，用于从广播电视信号中，解码出音频信号，对音频信号提取音频指纹特征，将该音频指纹特征发送给新闻视频定位模块503；

新闻视频定位模块503，用于将接收到的音频指纹特征与新闻节目模板库模块中的新闻节目模板库中的模板进行匹配，确定新闻节目在广播电视信号中的播出时间，根据播出时间得到新闻节目视频，然后将新闻节目视频发送给新闻视频条目拆分模块；

新闻视频条目拆分模块504，用于对接收的新闻节目视频，借助人机交互界面，通过人工操作和计算机智能音视频算法结合的方法将新闻节目视频拆分为独立的新闻条目。

本实施例所述的新闻节目模板库模块501，用于存放新闻节目模板库，其中新闻节目模板库里面放有新闻节目片花音频指纹特征。

为了准确定位新闻节目，该实施例中的新闻视频定位模块503利用广播电视信号与模板库中的新闻节目片花音频指纹特征匹配的方法确定新闻节目在广播电视中的播出时间，从而定位新闻节目。

为了实现准确和一致的节目拆分，该实施例中的新闻视频条目拆分模块504基于人机交互，具体交互过程可以分为：

在本发明实施例的一种实现方式中，新闻视频条目拆分模块504包括计算子模块，用于执行如下计算：

P＝e^-δ(V+kA)

较佳地，计算子模块中场景差异度V和音频差异度A的计算过程如下：

V＝(|f_-1-f₁|+|f_-2-f₂|+|f_-3-f₃|)/3。

在一种较佳的系统实现中，人机交互界面，进一步包括：

视频播放区，播放给定新闻视频的区域；

以上实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种新闻视频条目拆分方法，其特征在于，预先设置新闻节目模板库，该方法还包括：

步骤1：从广播电视信号中，解码出音频信号，对音频信号提取音频指纹特征；

步骤2：把从广播电视信号中提取出的音频指纹特征与新闻节目模板库中的模板进行匹配，确定新闻节目在广播电视信号中的播出时间，根据播出时间，得到新闻节目视频；

步骤3：对于得到的新闻节目视频，借助人机交互界面，利用人工操作和计算机智能音视频算法结合的方法，将新闻节目视频拆分为独立的新闻条目；

其中，所述借助人机交互界面，利用人工操作和计算机智能音视频算法结合的方法，将得到的新闻节目视频拆分为独立的新闻条目包括：

步骤301：通过人机交互界面，用户浏览新闻视频决定拆分点的候选区域，计算机保存候选区域图像信息；

步骤302：计算机智能音视频算法对候选区域图像进行分析处理，向用户提供条目拆分点的候选位置；

步骤303：用户判定计算机智能音视频算法处理的结果是否正确，若正确，用户标记拆分点，存入数据库；否则，返回步骤301～303；

其中，所述计算机智能音视频算法包括：

步骤311：计算候选区域内显示框中视频帧两侧的图像场景差异度V；

步骤312：计算候选区域内显示框中的视频帧两侧的音频差异度A；

步骤313：将所述的视频帧两侧的图像场景差异度V和音频差异度A融合并转化为该视频帧作为新闻条目拆分点的概率P：

P＝e^-δ(V+kA)

其中，k为调整视频差异度和音频差异度的权重，δ为差异度转化为概率的平滑参数；

步骤314：选取概率值P最大的视频帧，作为新闻条目拆分点的候选位置，并将其所在的显示框以特定颜色做标记向用户展示处理结果；

所述步骤311包括：用HSV空间颜色直方图计算图像场景差异度V，具体为：在视频帧两侧各1秒的区间内等间隔采样三帧图片，表示为[f_-3,f_-2,f_-1,f₁,f₂,f₃]，然后计算对应视频帧之间的HSV空间颜色直方图的差，并融合得到最终的图像场景差异度V：

V＝(|f_-1-f₁|+|f_-2-f₂|+|f_-3-f₃|)/3；

其中，所述预先设置新闻节目模板库包括：人工搜集需要做拆分的新闻节目的片花，将搜集的节目片花解码出音频信号，提取音频指纹特征并作为模板存入新闻模板库中；

所述把从广播电视信号中提取出的音频指纹特征与新闻节目模板库中的模板进行匹配包括：将从广播电视信号中提取出的音频指纹特征分段，把每个分段的音频指纹特征和新闻节目模板库中的模板进行逐帧匹配，当匹配相似度大于设定阈值时，则该分段与模板库中的节目模板匹配成功，当连续匹配成功设定个数的分段后，则确定与新闻节目模板库中的模板匹配成功。

2.根据权利要求1所述的方法，其特征在于，

所述确定新闻节目在广播电视信号中的播出时间包括：将连续匹配成功设定个数的分段中第一段的时间点确定为对应于所述匹配成功的模板新闻节目在广播电视中的播出开始时间。

3.根据权利要求1所述的方法，其特征在于，

所述步骤312包括：用贝叶斯信息估计的方法计算音频差异度，具体做法为：取视频帧两侧各1秒的音频，计算两端音频的贝叶斯信息值，表示为A，作为该视频帧两侧的音频差异度。

4.一种新闻视频条目拆分系统，其特征在于，包括：新闻节目模板库模块、音视频解码模块、新闻视频定位模块和新闻视频条目拆分模块，其中，

新闻节目模板库模块，用于存放新闻节目模板库；

新闻视频条目拆分模块，用于对接收的新闻节目视频，借助人机交互界面，通过人工操作和计算机智能音视频算法结合的方法将新闻节目视频拆分为独立的新闻条目；

其中，所述新闻视频条目拆分模块包括：

第三交互处理子模块，通过人机交互界面，接收用户输入的判定计算机智能音视频算法处理的结果是否正确的信息，若正确，接收用户标记的拆分点信息，存入数据库；否则，发送触发指令给第一交互处理子模块，以触发第一交互处理子模块通过人机交互界面，由用户浏览新闻视频确定拆分点的候选区域；

其中，所述第二交互处理子模块采用计算机智能音视频算法具体执行如下操作：计算候选区域内显示框中视频帧两侧的图像场景差异度V；计算候选区域内显示框中的视频帧两侧的音频差异度A；将所述的视频帧两侧的图像场景差异度V和音频差异度A融合并转化为该视频帧作为新闻条目拆分点的概率P：P＝e^-δ(V+kA)其中，k为调整视频差异度和音频差异度的权重，δ为差异度转化为概率的平滑参数；

以及，选取概率值P最大的视频帧，作为新闻条目拆分点的候选位置，并将其所在的显示框以特定颜色做标记向用户展示处理结果；

其中，所述第二交互处理子模块中图像场景差异度V的计算过程如下：

用HSV空间颜色直方图计算图像场景差异度V，具体为：在视频帧两侧各1秒的区间内等间隔采样三帧图片，表示为[f_-3,f_-2,f_-1,f₁,f₂,f₃]，然后计算对应视频帧之间的HSV空间颜色直方图的差，并融合得到最终的图像场景差异度V：

V＝(|f_-1-f₁|+|f-₂-f₂|+|f_-3-f₃|)/3；

其中，所述新闻视频定位模块包括：

5.根据权利要求4所述的系统，其特征在于，所述的人机交互界面，进一步包括：

视频播放区，播放给定新闻视频的区域；