CN108810569B

CN108810569B - 一种视频新闻分割方法和装置

Info

Publication number: CN108810569B
Application number: CN201810503691.5A
Authority: CN
Inventors: 刘楠
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-05-23
Filing date: 2018-05-23
Publication date: 2021-01-22
Anticipated expiration: 2038-05-23
Also published as: CN108810569A

Abstract

本申请提供了一种视频新闻分割方法，为基于新闻标题和静音点的视频新闻分割方法，对于一个镜头内存在多个新闻标题的镜头，该方法根据镜头内的标题和静音点将镜头细分为子镜头，从而实现镜头内部的视频片段的拆分，提高了视频新闻分割的性能。此外，本申请还提供了一种视频新闻分割装置。

Description

一种视频新闻分割方法和装置

技术领域

本申请涉及互联网技术领域，尤其涉及一种视频新闻分割方法和装置。

背景技术

新闻视频中蕴含着大量的最新资讯信息，对于视频网站和新闻类的应用来说有着重要的价值。视频网站或者新闻类的应用需要对每日播出的整条新闻进行分割、上线，供用户对于其中感兴趣的每条新闻进行点击观看。由于全国的电视台数量众多，除卫视台外还存在各类地方台，如果需要对所有的新闻进行分割的话，需要耗费大量的人力进行切分。同时由于新闻的时效性，对于新闻视频的分割的速度要求也是十分严格的，所以给人工分割带来的更大的压力。新闻都是在某个时间(如中午12点)大量播出，为了保证时效性，需要在规定的时间内尽快将整个的新闻节目切割成独立新闻条目，而不能采用积压任务后期处理的方式进行生产。因此，一种视频新闻的自动分割技术就成为解决这一问题的关键。

现有的视频新闻的自动分割技术一般是基于镜头进行的。也就是说，将镜头的起点或终点作为视频新闻的分割点，从而将视频新闻分割成多个不同的视频片段。然而，这种基于镜头进行的视频新闻的分割技术只能实现不同镜头的视频片段的拆分，而不能实现镜头内部的视频片段的拆分，如此，导致视频新闻分割的性能较差。

发明内容

有鉴于此，本申请实施例提供了一种视频新闻分割方法和装置，以实现镜头内部的视频片段的拆分，进而提高视频新闻分割的性能。

为了解决上述技术问题，本申请实施例采用了如下技术方案：

一种视频新闻分割方法，包括：

对视频新闻进行镜头检测、新闻标题检测和静音点检测，以分别得到所述视频新闻的镜头序列、标题序列和静音点序列，所述镜头序列中的每个镜头标记为镜头对应的帧区间，所述标题序列中的每个标题标记为标题在所述视频新闻中持续出现的帧区间；所述静音点序列中的每个静音点标记为持续处于静音状态的帧区间；

分别对所述镜头序列中的每个镜头与所述标题序列中的每个标题进行融合，以查找存在帧交叠的镜头与标题，当查找到存在帧交叠的镜头与标题时，将该标题添加到与其存在帧交叠的镜头的文本列表中；其中，预先设置有每一镜头的文本列表，并且设定任意一个镜头的文本列表的初始值为空；

分别对所述镜头序列中的每个镜头与所述静音点序列中的每个静音点进行融合，以查找存在帧交叠的镜头与静音点，当查找到存在帧交叠的镜头与静音点时，将该静音点添加到与其存在帧交叠的镜头的静音列表中；其中，预先设置有每一镜头的静音列表，并且设定任意一个镜头的静音列表的初始值为空；

依次判断每一镜头的文本列表中的标题数量n是否大于1，其中，n为整数；

若特定镜头的文本列表中的标题数量n大于1，将该特定镜头的文本列表中的每相邻两个标题出现在视频新闻中之间的帧区间分别与所述静音点序列中的每个静音点进行融合，以筛选该特定镜头的内部分割点；根据该特定镜头内部的分割点对该特定镜头内的视频帧进行拆分。

一种视频新闻分割装置，包括：

镜头检测单元，用于对视频新闻进行镜头检测，以得到所述视频新闻的镜头序列，所述镜头序列中的每个镜头标记为镜头对应的帧区间；

新闻标题检测单元，用于对视频新闻进行新闻标题检测，以得到所述视频新闻的标题序列，所述标题序列中的每个标题标记为标题在所述视频新闻中持续出现的帧区间；

静音点检测单元，用于对视频新闻进行静音点检测，以得到所述视频新闻的静音点序列，所述静音点序列中的每个静音点标记为持续处于静音状态的帧区间；

第一融合单元，用于分别对所述镜头序列中的每个镜头与所述标题序列中的每个标题进行融合，以查找存在帧交叠的镜头与标题；

第一添加单元，用于当查找到存在帧交叠的镜头与标题时，将该标题添加到与其存在帧交叠的镜头的文本列表中；其中，预先设置有每一镜头的文本列表，并且设定任意一个镜头的文本列表的初始值为空；

第二融合单元，用于分别对所述镜头序列中的每个镜头与所述静音点序列中的每个静音点进行融合，以查找存在帧交叠的镜头与静音点；

第二添加单元，用于当查找到存在帧交叠的镜头与静音点时，将该静音点添加到与其存在帧交叠的镜头的静音列表中；其中，预先设置有每一镜头的静音列表，并且设定任意一个镜头的静音列表的初始值为空；

判断单元，用于依次判断每一镜头的文本列表中的标题数量n是否大于1，其中，n为整数；

第三融合单元，用于若特定镜头的文本列表中的标题数量n大于1，将该特定镜头的文本列表中的每相邻两个标题出现在视频新闻中之间的帧区间分别与所述静音点序列中的每个静音点进行融合，以筛选该特定镜头的内部分割点；

拆分单元，用于根据该特定镜头内部的分割点对该特定镜头内的视频帧进行拆分。

相较于现有技术，本申请具有以下有益效果：

由于新闻标题是一个具有重要语义信息的标志，如果在一个镜头中出现两个不同标题的过渡，意味着这个镜头中出现了两个不同的语义的信息，应该将这个镜头拆分为两个不同的子镜头。而且有时新闻标题在视频中消失后，该新闻标题对应的新闻条目并没有结束播报，而在播报不同新闻条目之间会存在静音点，因此，本申请实施例提供的视频新闻分割方法根据镜头内的标题和静音点将镜头细分为子镜头，从而实现镜头内部的视频片段的拆分，提高了视频新闻分割的性能。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的视频新闻分割方法的流程图；

图2为本申请实施例提供的视频新闻分割方法的一原理示意图；

图3为本申请实施例提供的一个示例性的应用场景的示意图；

图4为本申请实施例中S101的具体实现方式的流程图；

图5为本申请实施例中S102的一种确定标题候选区的实现方式的流程图；

图6为本申请实施例中S102的一种跟踪标题候选区的实现方式的流程图；

图7为本申请实施例中S102的一种获取标题序列的实现方式的流程图；

图8为本申请实施例中S103的具体实现方式的流程图；

图9为本申请实施例中计算静音点帧长度的一种具体实现方式的流程图；

图10为本申请实施例提供的一种视频新闻分割装置的结构示意图。

具体实施方式

基于背景技术可知，现有的视频新闻的自动分割技术一般是基于镜头进行的，一般都会将视频帧序列先聚类为镜头序列。也就是说，现有的视频新闻的自动分割技术一般将镜头的起点或终点作为视频新闻的分割点，从而将视频新闻分割成多个不同的视频片段。然而，这种基于镜头进行的视频新闻的分割技术只能实现不同镜头的视频片段的拆分，而不能实现镜头内部的视频片段的拆分，如此有可能将不同的新闻条目分到一个视频片段内，例如，针对主持人总结上一条新闻内容，随后播报下一条新闻的情况的视频镜头会分到一个视频片段内，如此，导致分割后的单个视频片段内可能包含多条新闻条目的信息，如此，导致视频新闻分割的性能较差。

由于新闻标题是一个具有重要语义信息的标志，如果在一个镜头中出现两个不同标题的过渡，意味着这个镜头中出现了两个不同的语义的信息，应该将这个镜头拆分为两个不同的子镜头。而且，有时新闻标题在视频中消失后，该新闻标题对应的新闻条目并没有结束播报，而在播报不同新闻条目之间会存在静音点。

基于新闻标题的语义信息，结合视频新闻中的静音点，本申请实施例提供了一种视频新闻分割方法，该分割方法在镜头分割的基础上，对于一个镜头内存在多个新闻标题的镜头，根据镜头内的标题和静音点，将镜头拆分成多个子镜头，并且拆分后的每个子镜头中仅包括一个新闻标题，以及该新闻标题对应的播报内容。如此，通过本申请实施例提供的方法，能够将一个镜头中出现不同语义的信息拆分成不同的视频片段，从而减少了分割后的单个视频片段内包含多条新闻条目，以及拆分界限不精准的可能，进而提高了视频新闻分割的性能。

下面结合附图对本申请的具体实施方式进行详细描述。

请参见图1和图2。图1是本申请实施例提供的视频新闻分割方法的流程示意图，图2是本申请实施例提供的视频新闻分割方法的原理示意图。如图1所示，本申请实施例提供的视频新闻分割方法的具体实现方式包括以下步骤：

S101：对视频新闻进行镜头检测，以得到视频新闻的镜头序列，所述镜头序列中的每个镜头标记为该镜头对应的帧区间。

镜头检测的大体过程如下：将视频流中相似的视频帧进行聚类，合并为一个镜头，并从中挑选代表这个镜头内容的关键帧，以达到减少整体计算量的目的。本步骤可以具体为：对整个视频新闻持续进行镜头检测，将整个视频新闻由帧序列转化为镜头序列。设定视频新闻进行镜头检测后，得到的镜头序列中包括N个镜头，其中，N为正整数，则该镜头序列中的每个镜头标记为镜头对应的帧区间。作为示例，该镜头序列可以表示为：{Shot₀[T_{shot_start},T_{shot_end}],Shot₁[T_{shot_start},T_{shot_end}],…,Shot_i[T_{shot_start},T_{shot_end}],…,Shot_N-1[T_{shot_start},T_{shot_end}]}。其中，Shot_i[T_{shot_start},T_{shot_end}]为第i个镜头在镜头序列的标记，在Shot_i[T_{shot_start},T_{shot_end}]中，T_{shot_start}为第i镜头的开始帧，T_{shot_end}为第i镜头的结束帧。

通过S101对视频新闻的镜头检测，获得该视频新闻的一个镜头序列，该镜头序列包括N个镜头，每个镜头包括至少一个视频帧，且同一个镜头中包括的视频帧的画面相似。

该步骤的具体实现方式将在下文中详细描述。

S102：对视频新闻进行新闻标题检测，以得到所述视频新闻的标题序列，所述标题序列中的每个标题标记为该标题在所述视频新闻中持续出现的帧区间。

新闻标题检测的大体过程如下：对视频新闻的每一视频帧，进行基于时域稳定性的新闻标题检测，获取新闻标题在整个视频新闻中出现的起始帧和结束帧。

本步骤可以具体为：对于整个视频进行新闻标题的检测，以得到所述视频新闻的标题序列，所述标题序列中的每个标题标记为该标题在所述视频新闻中持续出现的帧区间。作为示例，设定在整个视频新闻中共检测到M个标题，其中，M为正整数，则标题序列可以表示为：{Text₀[T_{text_start},T_text__end],Text₁[T_{text_start},T_{text_end}],…,Text_i[T_{text_start},T_{text_end}],Text_M-1[T_{text_start},T_{text_end}]}。其中，Text_i[T_{text_start},T_{text_end}]为视频新闻中出现的第i个标题在标题序列中的标记。在Text_i[T_{text_start},T_{text_end}]中，T_{text_start}为第i个标题在视频新闻中开始出现的视频帧，T_{text_end}为第i个标题在视频新闻中消失时的视频帧。

通过S102对视频新闻的新闻标题检测，获得该视频新闻的标题序列，该标题序列包括M个标题，每个标题包括至少一个视频帧，且同一个标题中包括的视频帧中携带的标题一致。

该步骤的具体实现方式将在下文中详细描述。

S103：对视频新闻进行静音点检测，以得到所述视频新闻的静音点序列，所述静音点序列中的每个静音点标记为持续处于静音状态的帧区间。

静音点检测的大体过程如下：提取视频新闻中的音频信息，依次检测音频信息中满足静音条件的音频片段，获取静音点在整个视频新闻中出现的起始帧和结束帧。

本步骤可以具体为：对于整个视频进行静音点的检测，以得到所述视频新闻的静音点序列，所述静音点序列中的每个静音点标记为持续处于静音状态的帧区间。作为示例，设定在整个视频新闻中共检测到K个静音点，其中，K为正整数，则静音点序列可以表示为：{Silence₀[T_{s_start},T_s__end],Silence₁[T_{s_start},T_{s_end}],…,Silence_i[T_{s_start},T_{s_end}],Silence_K-1[T_{s_start},T_{s_end}]}。其中，Silence_i[T_{s_start},T_{s_end}]为视频新闻中出现的第i个静音点在静音点序列中的标记。在Silence_i[T_{s_start},T_{s_end}]中，T_{s_start}为第i个静音点在视频新闻中开始出现的视频帧，T_{s_end}为第i个静音点在视频新闻中消失时的视频帧。

通过S103对视频新闻的静音点检测，获得该视频新闻的静音点序列，该静音点序列包括K个静音点，每个静音点包括至少一个视频帧，且静音点中包括的视频帧的音频信息为静音信息。

该步骤的具体实现方式将在下文中详细描述。

需要说明的是，上述S101、S102和S103，可以同时执行，也可以顺序执行，当顺序执行时，上述三个步骤可以以任意顺序执行，S101、S102和S103的执行顺序在本申请实施例中不进行具体限定。

S104：对所述镜头序列中的每个镜头与所述标题序列中的每个标题进行融合，以查找存在帧交叠的镜头与标题。

可以理解的是，通过对视频新闻进行镜头检测获得镜头序列，其中，每个镜头包括的视频帧中，可能包括不同的新闻标题。例如，针对某个“主持人串讲”的镜头，主持人先总结上一条新闻内容，随后播报下一条新闻的概况，那么，对于该镜头中“总结上一条新闻内容”对应的视频帧，对应于上一条新闻的标题；对于该镜头中“播报下一条新闻的概况”对应的视频帧，则对应于下一条新闻的标题，如此，该镜头中即包括两个不同的新闻标题。

标题作为划分镜头的考虑因素之一，可以对根据S101获得的镜头序列中的每个镜头和根据S102获得的标题序列中的每个标题分别进行融合，即，确定视频新闻中存在帧交叠的镜头和标题，如此，可以确保拆分后的每个子镜头中有且仅有一个标题。

可以理解的是，对于相同的视频新闻帧，视频帧的帧序号是连续的，那么，只要帧序号一致，镜头包括的视频帧，与标题包括的视频帧，就表示同一帧图像。而镜头和标题的帧交叠，即为镜头包括的视频帧与标题的视频帧的帧序号一致的情况。

具体实现时，将标题序列中的每一标题：Text_i[T_{text_start},T_{text_end}]，和镜头序列中的每一镜头：Shot_i[T_{shot_start},T_{shot_end}]，分别进行融合，以查找标题包括的视频帧和镜头包括的视频帧是否有重叠，即，查找符合

的标题和镜头。

举例来说，假设视频新闻的第2个镜头为Shot₁[T_{shot_start},T_{shot_end}]，其中T_{shot_start}＝100，T_{shot_end}＝150，即，[T_{shot_start},T_{shot_end}]＝[100,150]；而该视频新闻的第3个标题为Text₂[T_{text_start},T_{text_end}]，其中T_{text_start}＝120，T_text__end＝135，即，[T_{text_start},T_text__end]＝[120,135]。可见，

故，查找到的存在帧交叠的镜头与标题，包括：第2个镜头与第3个标题。

具体实现时，S104的实现方式有多种。这里给出两种可能的实现方式：一种实现方式下，可以站在标题的角度上，以标题序列中的每个标题为单位，扫描镜头序列中的所有镜头，以查找与每个标题存在帧交叠的镜头。另一种实现方式下，也可以站在镜头的角度上，以镜头序列中的每个镜头为单位，扫描标题序列中的所有标题，以查找与每个镜头存在帧交叠的标题。该步骤的上述两种可能的具体实现方式将在下文中详细描述。

需要说明的是，S104中，对标题和镜头进行融合的具体方式，可以根据视频新闻的具体情况，以及用户的需要进行具体设定，在本申请实施例中不进行具体限定。

S105：当查找到存在帧交叠的镜头与标题时，将该标题添加到与其存在帧交叠的镜头的文本列表中；其中，预先设置有每一镜头的文本列表，并且设定任意一个镜头的文本列表的初始值为空。

具体实现时，S105的大体过程如下：可以预先为S101所获得的镜头序列中的每个镜头，设置对应的文本列表，预先设置的文本列表的初始值为空；当通过S104查找到镜头与标题存在帧交叠时，确定存在帧交叠的镜头；在该镜头的文本列表中，添加与该镜头存在帧交叠的上述标题。

在具体实现时，假设镜头Shot_j的文本列表为Shot_text_j，当镜头Shot_j[T_{shot_start},T_{shot_end}]和标题Text_i[T_{text_start},T_{text_end}]符合以下条件，即

则，将该标题Text_i写入到该镜头Shot_j的文本列表Shot_text_j中。需要说明的是，对于任意的镜头Shot_j的文本列表Shot_text_j，初始值为空。

通过上述S105的实现方式，对视频新闻的标题序列中每个标题添加至与其存在帧交叠的镜头的文本列表中，这样，每个镜头对应的文本列表中，即包括该镜头对应的视频帧中出现过的所有标题。

S106：对所述镜头序列中的每个镜头与所述静音点序列中的每个静音点进行融合，以查找存在帧交叠的镜头与静音点。

可以理解的是，通过对视频新闻进行镜头检测获得镜头序列，其中，每个镜头包括的视频帧中，可能包括多个静音点。例如，针对某个视频新闻的一个镜头中，播放了两条新闻，上一条新闻内容播报结束和下一条新闻内容播报开始之间，出现了短时停顿，即，出现了一个静音点；另外，在第一条新闻内容播报的过程中，也出现了几次静音点，如此，该镜头中即包括多个静音点。

静音点作为划分镜头的考虑因素之一，可以对根据S101获得的镜头序列中的每个镜头，和根据S103获得的静音点序列中的每个静音点分别进行融合，即，确定视频新闻中存在帧交叠的镜头和静音点，如此，可以确保拆分后的每个子镜头更加精确。

可以理解的是，对于相同的视频新闻帧，视频帧的帧序号是连续的，那么，只要帧序号一致，镜头包括的视频帧，与静音点包括的视频帧，就表示同一帧图像。而镜头和静音点的帧交叠，即为镜头包括的视频帧与静音点的视频帧的帧序号一致的情况。

具体实现时，将静音点序列中的每一静音点：Silence_k[T_{s_start},T_{s_end}]，和镜头序列中的每一镜头：Shot_i[T_{shot_start},T_{shot_end}]，分别进行融合，以查找静音点包括的视频帧和镜头包括的视频帧是否有重叠，即，查找符合

的静音点和镜头。

举例来说，假设视频新闻的第2个镜头为Shot₁[T_{shot_start},T_{shot_end}]，其中T_{shot_start}＝100，T_{shot_end}＝150，即，[T_{shot_start},T_{shot_end}]＝[100,150]；而该视频新闻的第10个静音点为Silence₉[T_{s_start},T_s__end]，其中T_{s_start}＝119，T_text__end＝121，即，[T_{s_start},T_s__end]＝[119,121]。可见，

故，查找到的存在帧交叠的镜头与静音点，包括：第2个镜头与第10个静音点。

具体实现时，S106的实现方式有多种。这里给出两种可能的实现方式：一种实现方式下，可以站在静音点的角度上，以静音点序列中的每个静音点为单位，扫描镜头序列中的所有镜头，以查找与每个静音点存在帧交叠的镜头。另一种实现方式下，也可以站在镜头的角度上，以镜头序列中的每个镜头为单位，扫描静音点序列中的所有静音点，以查找与每个镜头存在帧交叠的静音点。该步骤的上述两种可能的具体实现方式将在下文中详细描述。

需要说明的是，S106中，对静音点和镜头进行融合的具体方式，可以根据视频新闻的具体情况，以及用户的需要进行具体设定，在本申请实施例中不进行具体限定。

S107：当查找到存在帧交叠的镜头与静音点时，将该静音点添加到与其存在帧交叠的镜头的静音列表中；其中，预先设置有每一镜头的静音列表，并且设定任意一个镜头的静音列表的初始值为空。

具体实现时，S107的大体过程如下：可以预先为S101所获得的镜头序列中的每个镜头，设置对应的静音列表，预先设置的静音列表的初始值为空；当通过S106查找到镜头与静音点存在帧交叠时，确定存在帧交叠的镜头；在该镜头的静音列表中，添加与该镜头存在帧交叠的上述静音点。

在具体实现时，假设镜头Shot_j的静音列表为Shot_Silence_j，当镜头Shot_j[T_{shot_start},T_{shot_end}]和静音点Silence_k[T_{s_start},T_{s_end}]符合以下条件，即

则，将该标题Silence_k写入到该镜头Shot_j的静音列表Shot_Silence_j中。需要说明的是，对于任意的镜头Shot_j的静音列表Shot_Silence_j，初始值为空。

通过上述S107的实现方式，对视频新闻的静音点序列中每个静音点添加至与其存在帧交叠的镜头的静音列表中，这样，每个镜头对应的静音列表中，即包括该镜头对应的视频帧中出现过的所有静音点。

需要说明的是，上述S104～S107在本申请实施例中的执行顺序，具体可以是S104至S107顺序执行；也可以按照S106、S107、S104以及S105的顺序执行；还可以在S104和S105执行的同时，执行S106和S107。S104～S107的执行顺序在本申请实施例中不进行具体限定。

S108，依次扫描每个镜头的文本列表，并判断每一镜头的文本列表中的标题数量n是否大于1(n为整数)，若特定镜头的文本列表中的标题数量n大于1，执行S109。

可以理解的是，通过扫描已经生成的镜头序列中每个镜头的文本列表，可以发现：每个镜头的文本列表中，包括正整数n个标题，当然，n可以等于1，也可以大于1，即，每个镜头对应的标题可以是一个，也可以是多个。

一种情况下，当镜头的文本列表中只包括一个标题，即，镜头Shot_j的文本列表Shot_text_j中只包括一个标题Text_i(i只有一个取值)。此时，可以说明该镜头中只包括一个新闻条目，即，只包括一个新闻主题的一条新闻。那么，可以不对该镜头进行进一步的细分。

另一种情况下，当镜头的文本列表中包括多个标题，即，镜头Shot_j的文本列表Shot_text_j中包括多个标题Text_i(i有多个取值)。此时，说明该镜头中包括多条新闻条目，即，该镜头中可能包括多条不同主题的新闻。需要说明的是，一般情况下，镜头中包括的标题数量，与该镜头包括的新闻条目的数量一致。那么，可以对该镜头进行进一步的细分，还可以结合该镜头中的静音点，即，按照下述S109以及后续步骤，对对应的镜头进行拆分。

S109：将该特定镜头的文本列表中的每相邻两个标题出现在视频新闻中之间的帧区间分别与所述静音点序列中的每个静音点进行融合，以筛选该特定镜头的内部分割点。

具体实现时，S109的大体过程如下：从所述文本列表中的每相邻两个标题出现在视频新闻中之间的帧区间内查找该特定镜头中的静音点；若查找到该特定镜头中的静音点，则计算静音点的帧长度；将帧长度最长的静音点位置作为该特定镜头内部的分割点；若该特定镜头中不存在静音点时，则将每相邻两个标题中的前一标题在视频中的结束帧的下一帧作为该特定镜头内部的分割点。

可以理解的是，静音点的位置，是指持续静音的视频帧对应的帧区间，在该视频新闻中的位置，该位置，具体可以是该静音点所在帧区间的中间位置，也可以是该静音点所在帧区间的起始处或者结束处，还可以是静音点所在帧区间的任何预设的位置。上述静音点位置，在本申请实施例中不进行具体限定。

具体实现时，将帧长度最长的静音点位置作为该特定镜头内部的分割点，具体可以包括：将所述帧长度最长的静音点对应的中点作为该特定镜头内部的分割点。

一种情况下，当从所述文本列表中的每相邻两个标题出现在视频新闻中之间的帧区间内，没有查找该特定镜头中的静音点时，则将该相邻两个标题中的前一个标题的结束帧的下一帧，作为该特定镜头的内部分割点。

另一种情况下，当从所述文本列表中的每相邻两个标题出现在视频新闻中之间的帧区间内，查找到了该特定镜头中的静音点时，具体可以是：假设镜头Shot_j的文本列表Shot_text_j中，依次包括：Text_i-1和Text_i，且该镜头的静音列表Shot_Silence_j中包括对静音点Silence_k[T_{s_start},T_{s_end}]。对于Text_i-1[T_{text_start},T_{text_end}]和Text_i[T_{text_start’},T_{text_end’}]，其出现在视频新闻中之间的帧区间为：[T_{text_end},T_{text_start’}]；查找与该帧区间[T_{text_end},T_{text_start’}]存在帧交叠的静音点，即，当静音点与该帧区间[T_{text_end},T_{text_start’}]符合条件：

则，将该标题Silence_k确定为该镜头Shot_j的内部分割点。

通过上述S109的实现方式，对将该特定镜头的文本列表中的每相邻两个标题出现在视频新闻中之间的帧区间分别与所述静音点序列中的每个静音点进行融合，以筛选该特定镜头的内部分割点，即，对每个镜头，结合出现在该镜头中的标题和静音点，确定该镜头的内部分割点。

S110，根据该特定镜头内部的分割点对该特定镜头内的视频帧进行拆分。

可以理解的是，S110在具体实现时，按照该特定镜头的内部分割点，将该特定镜头拆分为多个子镜头，其中，该特定镜头拆分所得的子镜头的数量，与该特定镜头的文本列表中包括的标题数量一致；该特定镜头拆分所得的每个子镜头包括的视频帧中，只涉及该特定镜头的文本列表中的一个标题，且只包括播报该标题对应新闻内容的音频信号，而不存在一个子镜头对应文本列表中的多个标题的情况。

具体实现时，对于任意文本列表内的标题数量大于1的镜头Shot_j[T_{shot_start},T_{shot_end}]，假设其内部分割点依次为：end₀、end₁、……、end_m-1，则，以上述m个内部分割点对镜头Shot_j进行拆分，可以将镜头Shot_j拆分为m+1个子镜头，分别为：第0子镜头Shot_{j_0}[T_{shot_start},end₀]；第1子镜头Shot_{j_1}[end₀+1,end₁]；第2子镜头Shot_{j_2}[end₁+1,end₂]；以此类推，第m子镜头Shot_{j_m}[end_m-1+1,T_{shot_end}]。

在介绍完S101-S110后，为了使本申请实施例的技术方案更加清楚，下面结合图2示出的本申请实施例提供的视频新闻分割方法的原理图，对一个实例进行具体说明。

如图2所示，假设存在一个视频新闻，该视频新闻包括视频帧1-视频帧50，共50帧。对该视频新闻进行分割的具体实现方式为：首先，将该视频新闻分别进行镜头检测、新闻标题检测和静音点检测，获得该视频新闻的镜头序列{Shot₀[1,15],Shot₁[16,25],Shot₂[26,40],Shot₃[41,50]}，标题序列{Text₀[1,8],Text₁[13,18],Text₂[23,25],Text₃[29,32],Text₄[35,42]，Text₅[46,50]}，和静音点序列{Silence₀[2,3],Silence₁[8,12],Silence₂[19,22],Silence₃[26,30],Silence₄[37,38]，Silence₅[43,45]}。

接着，对镜头序列中的每个镜头以及标题序列中的每个标题进行融合，以查找存在帧交叠的镜头和标题；并将标题，添加到与其存在帧交叠的镜头的文本列表中。具体的融合以及为镜头的文本列表添加标题的过程可以是：对于镜头Shot₀，查找标题序列中所有的标题的帧区间，与帧区间[1,15]存在交集的标题，获得标题Text₀和Text₁，将这两个标题添加到该镜头Shot₀的文本列表shot_Text₀中，具体的shot_Text₀包括：Text₀[1,8]和Text₁[13,18]；同理，对于镜头Shot₁，获得的文本列表shot_Text₁包括：Text₁[13,18]和Text₂[23,25]；对于镜头Shot₂，获得的文本列表shot_Text₂包括：Text₃[29,32]和Text₄[35,42]；对于镜头Shot₃，获得的文本列表shot_Text₃包括：Text₄[35,42]和Text₅[46,50]。

同时，对镜头序列中的每个镜头以及静音点序列中的每个静音点进行融合，以查找存在帧交叠的镜头和静音点；并将静音点，添加到与其存在帧交叠的镜头的静音列表中。具体的融合以及为镜头的静音列表添加静音点的过程可以是：对于镜头Shot₀，查找静音点序列中所有的静音点的帧区间，与帧区间[1,15]存在交集的静音点，获得静音点Silence₀和Silence₁，将这两个静音点添加到该镜头Shot₀的静音列表shot_Silence₀中，具体的shot_Silence₀包括：Silence₀[2,3]和Silence₁[8,12]；同理，对于镜头Shot₁，获得的静音列表shot_Silence₁包括：Silence₂[19,22]；对于镜头Shot₂，获得的静音列表shot_Silence₂包括：Silence₃[26,30]和Silence₄[37,38]；对于镜头Shot₃，获得的静音列表shot_Silence₃包括：Silence₅[43,45]。

接着，对于镜头的文本列表中的标题数量大于1的镜头，确定该镜头的文本列表中的每相邻两个标题出现在视频新闻中之间的帧区间，并查找所确定的帧区间内是否存在该镜头的静音列表中的静音点，如果存在，则，将该静音点记作该镜头的内部分割点。具体可以是：对于镜头Shot₀，确定的帧区间为标题Text₀的结束帧8至Text₁的起始帧13，即[8,13]；查找与帧区间[8,13]存在帧交叠的静音点，得到静音点Silence₁[8,12]；则，确定该镜头Shot₀的内部分割点end₀＝Silence₁。同理，对于镜头Shot₁，确定的帧区间为标题Text₁的结束帧18至Text₂的起始帧23，即[18,23]；查找与帧区间[18,23]存在帧交叠的静音点，得到静音点Silence₂[18,22]；则，确定该镜头Shot₁的内部分割点end₁＝Silence₂。对于镜头Shot₂，确定的帧区间为标题Text₃的结束帧32至Text₄的起始帧35，即[32,35]；查找与帧区间[32,35]存在帧交叠的静音点，没有得到静音点，则确定该镜头Shot₂的内部分割点end₂标题Text₃结束帧的下一帧，即，end₂＝33。对于镜头Shot₃，确定的帧区间为标题Text₅的结束帧42至Text₆的起始帧46，即[42,46]；查找与帧区间[42,46]存在帧交叠的静音点，得到静音点Silence₅[43,45]；则，确定该镜头Shot₃的内部分割点end₃＝Silence₅。

最后，根据该镜头的内部分割点对该镜头内的视频帧进行拆分。具体拆分的过程可以是：对于镜头Shot₀，以内部分割点end₀＝Silence₁进行拆分，拆分后第0子镜头Shot_{0_0}的起始帧为Shot₀的起始帧1，结束帧为Silence₁对应的中点帧11，即第0子镜头为Shot_{0_0}[1,11]；第1子镜头Shot_{0_1}的起始帧为end₀的下一帧12，结束帧为Shot₀的结束帧15，即第1子镜头为Shot_{0_1}[11,15]。同理，对于镜头Shot₁，以内部分割点end₁＝Silence₂进行拆分，拆分后第0子镜头Shot_{1_0}的起始帧为Shot₁的起始帧16，结束帧为Silence₂对应的中点帧20，即第0子镜头为Shot_{1_0}[16,20]；第1子镜头Shot_{1_1}的起始帧为end₁的下一帧21，结束帧为Shot₁的结束帧25，即第1子镜头为Shot_{1_1}[21,25]。对于镜头Shot₂，以内部分割点end₂＝33进行拆分，拆分后第0子镜头为Shot_{2_0}[26,33]；第1子镜头为Shot_{2_1}[34,40]。对于镜头Shot₃，以内部分割点end₃＝Silence₅进行拆分，拆分后第0子镜头Shot_{3_0}的起始帧为Shot₃的起始帧41，结束帧为Silence₅对应的中点帧44，即第0子镜头为Shot_{3_0}[41,44]；第1子镜头Shot_{3_1}的起始帧为end₃的下一帧45，结束帧为Shot₃的结束帧50，即第1子镜头为Shot_{3_1}[45,50]。获得的拆分结果，详见图2中右侧所示。

需要说明的是，上述标题序列中，出现的相邻的两个标题中，上一标题的结束帧和下一标题的起始帧的视频帧序号不连续的情况，是视频新闻中可能出现的，对新闻条目发送变化时进行的一种“空帧”或者“非关键帧”等处理方式，不影响本申请实施例提供的方法的实施。当然，镜头序列中的相邻镜头，也可能出现类似的问题，处理方式参见上述实例，这里不再赘述。

参见图3，为利用本申请实施例提供的视频新闻分割方法，对某个视频新闻的一个镜头进行分割的示例图，该镜头中包括：视频帧88～视频帧93，其中，视频帧88和视频帧89中显示的标题1为“长沙一法院公开喊话街道办：欠债8年再不履行或将拘人”，而视频帧90和视频帧91中不显示任何标题，视频帧92和视频帧93中显示的标题2为：“江西：县政府被纳入老赖名单县领导乘飞机高铁受限”，即，该镜头与这两个标题有帧交叠，故，将标题1“长沙一法院公开喊话街道办：欠债8年再不履行或将拘人”和标题2“江西：县政府被纳入老赖名单县领导乘飞机高铁受限”，添加到该镜头的文本列表中。

确定标题1和标题2出现在视频新闻中之间的帧区间为[89,92]，在该帧区间内，根据音频信息，查找到该镜头中存在的帧长度最长的静音点为：静音点1[89,91]，那么，可以将该静音点1对应的中点——第90帧确定为内部分割点；最后，如图3所示，将该镜头的起始帧——第88帧，至第90帧，拆分为该镜头的第0子镜头；将该第90帧的下一帧——第91帧，至该镜头的结束帧——第92帧，拆分为该镜头的第1子镜头。可见，该镜头中拆分后的第0子镜头和第1子镜头，均只包括一个新闻标题。

经过上述说明，已经将本申请实施例的框架进行了相关说明，下面针对本申请实施例提供的方法中的各个步骤的具体实现方式，进行详细介绍。

上述S101至S103的具体实现方式将在下文中详细描述。

首先结合图4，详细描述S101的具体实现方式。

参见图4，S101中对视频新闻进行镜头检测得到镜头序列，可以具体包括：

S401，计算该视频新闻中的每个视频帧的RGB(Red Green Blue)颜色直方图。

S402，在时域上，计算相邻的视频帧的颜色直方图的欧式距离，记作第一距离。

S403，判断第一距离是否大于预设的阈值1；如果是，则执行S404。

S404，确定该视频帧于镜头的切变，记录开始位置和这个结束位置之间的所有视频帧为一个镜头，并记录该镜头的类型为切变镜头。

同时，

S405,计算当前视频帧与其时域上之前的n帧的颜色直方图的欧式距离，记作第二距离。

S406，判断第二距离是否大于预设的阈值2；如果是，则执行S407。

S407，确定在该视频帧处对应于镜头的渐变，记录开始位置和这个结束位置之间的所有视频帧为一个镜头，并记录镜头的类别为渐变镜头。

可以理解的是，S402～S404和S405～S407可以同时执行。

如果S403和S406的判断结果均为否，说明当前检测的所有视频帧，均属于一个镜头，需要继续执行上述步骤，直到检测到镜头的结束帧，或者，检测到该视频新闻的结束帧。

S408，计算镜头的渐变长度L。

一种情况下，该镜头为切变镜头，则L＝0。另一种情况下，该镜头为渐变镜头，渐变长度的计算方法具体可以是：对该镜头结束帧之前n帧的范围内，对于其中的每一视频帧，寻找满足结束帧与该当前帧的颜色直方图的欧式距离大于预设的阈值3的视频帧，该视频帧与结束帧之间对应的视频帧数量，即为渐变长度L的值。

S409，记录每个镜头在视频新闻中的帧区间。

记录镜头的帧区间，即记录该镜头的起始帧和结束帧，具体可以记作：Shot[T_{shot_start},T_{shot_end},R,L]，其中，Shot代表镜头，T_{shot_start}代表该镜头在视频新闻中的起始帧；T_{shot_end}代表该镜头在视频新闻中的结束帧；R代表镜头的类型，可以是“切变”或是“渐变”；L代表镜头的渐变长度。

S410，将视频新闻由帧序列转换为镜头序列，记作：Shot₀[T_{shot_start},T_{shot_end},R,L],Shot₁[T_{shot_start},T_{shot_end},R,L],…,Shot_N[T_{shot_start},T_{shot_end},R,L]。

通过图4所示的方法，可以实现对视频新闻的镜头检测，从完整的视频新闻中检测到多个镜头，组成镜头序列。

下面结合图5至图7，详细描述S102的具体实现方式。

具体实现时，S102中对视频新闻进行新闻标题检测得到标题序列，可以获得新闻标题在视频新闻中出现的起始帧和结束帧，具体的实现可以包括四大步：确定标题候选区、跟踪标题候选区、判断标题候选区是否为标题区域、以及确定标题序列。

作为示例，确定标题候选区的具体实现方式可以如图5所示，跟踪标题候选区的具体实现方式可以如图6所示，判断标题候选区是否为标题区域的具体实现方式可以如图7所示。

首先，参见图5，对于选择视频新闻中视频帧的标题候选区，具体可以包括：

S501，选取视频帧底部区域作为标题候选区。

需要说明的是，对于视频新闻包括的视频帧，由于视频帧的底部区域为大部分新闻标题出现的区域，因此选取视频帧底部区域作为标题候选区。也就是说，选取视频帧底部区域内的图像，作为待检测图像。一般而言，标题候选区为矩形区域。在其他特殊的视频新闻中，也可以通过设置，选择其他区域作为标题候选区，也属于本申请实施例的保护的范围，对应新闻标题检测的实现方式参见该实施例的实现，这里不再赘述。

S502，将视频新闻的每个视频帧由RGB色彩空间转换成灰度图像。

即，将视频新闻的每个视频帧的RGB值转换为灰度值，对于灰度空间转换，公式为：

Gray＝R*0.299+G*0.587+B*0.114。其中Gray表示灰度值，R表示红色通道的取值，G表示绿色通道的取值，B表示蓝色通道的取值。

S503，根据视频新闻的每个视频帧的灰度值，提取每个视频帧的边缘特征。

提取边缘的方法有多种，如Sobel算子，Canny算子等。

S504，根据每个视频帧的边缘特征，将视频帧的边缘进行图像二值化。

S505，对于视频新闻的每个视频帧，分别执行S503和S504，计算得到R、G和B三个通道分别的边缘强度图Er，Eg，Eb。

其中，Er表示红色通道的边缘强度图，Eg表示绿色通道的边缘强度图，Eb表示蓝色通道的边缘强度图。

S506，对边缘强度图像分别进行边缘加强。

S507，对于边缘加强后的边缘强度图像进行水平方向的投影，确定每个视频帧在水平方向的边缘，并将该水平方向边缘之间的图像区域作为第一阶段标题候选区。

S508，对于每一个第一阶段标题候选区，继续查找第一阶段标题候选区中的字幕区域的左右边界；并将左右边界区域内的原始图像，作为第二阶段的标题候选区。

S509，精细寻找第二阶段标题候选区的左右边界，作为新的垂直方向边界。

S510，对于上述方法确定的矩形区域，判断是否符合约束条件；如果符合，执行S511。

约束条件包括但不限于，该矩形区域的起点的位置信息需在一定的图像范围中，该矩形区域的高度需要在一定的范围中等等。

S511，确定视频新闻中符合约束条件的区域为标题候选区。

通过图5所示的方法，即通过S501～S511，可以确定出视频新闻的新闻标题的标题候选区，为对视频新闻的新闻标题检测打下了基础。

然后，参见图6，对于确定的标题候选区，进行进一步的跟踪，具体可以包括：

S601：判断标题候选区是否为第一次被跟踪的标题候选区。

其中，第一次跟踪的标题候选区，可以指首次跟踪这个标题候选区，也可以指上一次跟踪结束后，再次跟踪该标题候选区。

S602，为被跟踪的标题候选区所属的视频帧，设定一个跟踪范围。

由于该视频新闻的视频帧的标题候选区中可能包含背景区域，为了提升跟踪的准确性，需要设置跟踪区域，即，设定视频帧中的一个跟踪范围。

S603，选取视频帧跟踪区域中图像，将选取的彩色图像转换成灰度图像。

即，将选取的图像的RGB值转换为灰度值，对于灰度空间换公式为：

S604，利用自适应阈值确定方法，计算灰度分割阈值。

S605，将通过上述步骤处理后的跟踪区域的图像二值化得到参考二值化图像B_ref。

S606，计算跟踪区域中图像的颜色直方图H_ref。

S607，对视频新闻的视频帧，将视频帧从彩色空间转换到灰度空间。

S608，选取根据S607所得的视频帧中，跟踪区域的灰度图像，进行二值化，得到当前二值化图像B_cur。

S609，将参考二值化图像B_ref和当前二值化图像B_cur进行逐点差分，并计算差分的平均值D_b。

S610，计算跟踪区域中当前图像的颜色直方图H_cur，并计算与H_ref的距离D_c。

S611，判断获得的D_b和D_c与预设的阈值4和阈值5是否同时符合：D_b小于预设的阈值4，D_c是否小于阈值5；如果是，则执行S612；否则，执行S613。

需要注意的是，基于颜色直方图和二值化的跟踪方式，可以只用其中之一，也可以组合使用。

S612，将跟踪计数器进行tracking_num++。

S613，将跟踪计数器进行lost_num++。

S614，判断lost_num是否大于预设的阈值6，如果是，执行S615，否则，返回跟踪中。

S615，返回跟踪结束状态，同时返回当前视频帧的帧序号。

可以理解的是，设立lost_num的目的是为了避免个别视频信号受到干扰，引起图像出现失真，导致匹配失败，通过lost_num的设立，允许算法有个别数量的视频跟踪失败。

通过图6所示的方法，即通过S601～S615，可以对于确定的标题候选区，进行进一步的跟踪。

接着，参见图7，需要根据图6和图5所获得的数据，判断标题候选区是否为标题区域，并确定出该视频新闻的标题序列，具体可以包括：

S701，确定跟踪计数器的tracking_num。

S702，判断tracking_num是否不小于预设的阈值7，如果是，则执行S703；否则，确定该标题候选区为非标题区。

S703，确定该标题候选区为标题区，并记录该标题在视频中出现的起始帧和结束帧，记作Test[T_{text_start},T_{text_end}]。

S704，对视频新闻进行上述标题检测步骤，获得该视频新闻的标题序列：{Text₀[T_{text_start},T_text__end],Text₁[T_{text_start},T_{text_end}],…,Text_i[T_{text_start},T_{text_end}],Text_M-1[T_{text_start},T_{text_end}]}。

图5至图7所示的上述实现方式，可以实现对视频新闻的标题检测，确定出该新闻标题中的标题序列。

下面结合图8，详细描述S103的具体实现方式。

参见图8，S103中对视频新闻进行静音点检测得到静音点序列，可以具体包括：

S801，提取视频中的音频信息。

在具体实现时，可以以一个固定的窗口长度w，步长为w/2，提取该视频新闻对应的音频信息x。

S802，计算该音频信息的过零率ZCR特征Z：

其中sgn[]是符号函数：

S803，计算该音频信息的短时能量STE特征E：

S804，判断是否特征Z小于预先设定的阈值8，且特征E小于预先设定的阈值9如果是，则执行S805。

S805，确定该音频信息的当前片段为静音状况，记录此处音频片段对应的帧区间为Silence[T_{s_start},T_{s_end}]。

S806，合并结果序列中，计算每个合并后静音片段对应的时长。

S807，判断静音片段对应的时长是否小于阈值10，如果是，则执行S808。

S808，从结果序列中消除该静音片段，并将合并后的静音片段记作静音点。

S809，最终视频的静音点序列为：{Silence₀[T_{s_start},T_{s_end}],Silence₁[T_{s_start},T_{s_end}],…,Silence_K[T_{s_start},T_{s_end}]}。

图8所示的上述实现方式，可以实现对视频新闻的静音点检测，确定出该新闻标题中的静音点序列。

下面，详细描述S104的两种具体的实现方式。

一种实现方式下，由于视频新闻中，一般标题序列中标题的数量，远远少于镜头序列中镜头的数量，所以，为了减少融合的次数，S104对镜头和标题进行融合，以查找存在帧交叠的镜头和标题，可以站在标题的角度上，以标题为基准进行查找，具体可以是：以标题序列中的每个标题为单位，扫描镜头序列中的所有镜头，以查找与每个标题存在帧交叠的镜头。

具体实现时，对于标题序列中的每个标题，依次查找与该标题存在帧交叠的镜头，例如，对于标题1[10,35]，查找包括该标题的镜头，获得镜头1[1,15]和镜头2[17,40]，即，存在帧交叠的镜头和标题包括：标题1和镜头1，以及标题1和镜头2。

另一种实现方式下，S104对镜头和标题进行融合，以查找存在帧交叠的镜头和标题，也可以站在镜头的角度上，以镜头为基准进行查找，具体可以是：以镜头序列中的每个镜头为单位，扫描标题序列中的所有标题，以查找与每个镜头存在帧交叠的标题。

具体实现时，对于镜头序列中的每个镜头，依次查找与该镜头存在帧交叠的标题，例如，对于镜头2[17,40]，查找该镜头中的包括的标题，获得标题1[10,35]和标题2[36,42]，即，存在帧交叠的镜头和标题包括：标题1和镜头2，以及标题2和镜头2。

无论是以标题为单元，查找存在帧交叠的镜头和标题，还是以镜头为单元，查找存在帧交叠的镜头和标题，都可以实现镜头和标题的融合。之后，可以将标题，添加到对应的镜头的文本列表中，并将该镜头的文本列表中的标题，按照其在视频中出现的先后次序顺序排列在文本列表中，包含在文本列表中的标题按照顺序依次记作：第0标题、第1标题，依次类推，直至第n-1标题。

同样的，详细描述S106的两种具体的实现方式。

一种实现方式下，由于视频新闻中，一般静音点序列中静音点的数量，远远少于镜头序列中镜头的数量，所以，为了减少融合的次数，S106对镜头和静音点进行融合，以查找存在帧交叠的镜头和静音点，可以站在静音点的角度上，以静音点为基准进行查找，具体可以是：以静音点序列中的每个静音点为单位，扫描镜头序列中的所有镜头，以查找与每个静音点存在帧交叠的镜头。

具体实现时，对于静音点序列中的每个静音点，依次查找与该静音点存在帧交叠的镜头，例如，对于静音点1[10,20]，查找包括该静音点的镜头，获得镜头1[1,15]和镜头2[17,40]，即，存在帧交叠的镜头和静音点包括：静音点1和镜头1，以及静音点1和镜头2。

另一种实现方式下，S106对镜头和静音点进行融合，以查找存在帧交叠的镜头和静音点，也可以站在镜头的角度上，以镜头为基准进行查找，具体可以是：以镜头序列中的每个镜头为单位，扫描静音点序列中的所有静音点，以查找与每个镜头存在帧交叠的静音点。

具体实现时，对于镜头序列中的每个镜头，依次查找与该镜头存在帧交叠的静音点，例如，对于镜头2[17,40]，查找该镜头中的包括的静音点，获得标题1[10,20]和静音点2[36,42]，即，存在帧交叠的镜头和静音点包括：静音点1和镜头2，以及静音点2和镜头2。

无论是以静音点为单元，查找存在帧交叠的镜头和静音点，还是以镜头为单元，查找存在帧交叠的镜头和静音点，都可以实现镜头和静音点的融合。之后，可以将静音点，添加到对应的镜头的静音列表中，并将该镜头的静音列表中的静音点，按照其在视频中出现的先后次序顺序排列在静音列表中，包含在静音列表中的静音点按照顺序依次记作：第0静音点、第1静音点，依次类推，直至第n-1静音点。

对于每个镜头，该镜头的文本列表中的标题数量n大于1时，根据S109对镜头进行进一步拆分的实现方式具体可以为：从所述文本列表中的每相邻两个标题出现在视频新闻中之间的帧区间内查找该特定镜头中的静音点；一种情况下，如果该特定镜头中存在静音点，则计算每个静音点的帧长度；将帧长度最长的静音点位置作为该特定镜头内部的分割点，具体可以将所述帧长度最长的静音点对应的中点作为该特定镜头内部的分割点。另一种情况下，如果该特定镜头中不存在静音点时，则将每相邻两个标题中的前一标题在视频中的结束帧的下一帧作为该特定镜头内部的分割点。

在一些实例中，对于特定镜头的文本列表中包括的标题，如果设定每相邻两个标题为第I标题和第II标题，则，如图9所示，计算静音点的帧长度，具体可以包括：

S901，判断该特定镜头中的静音点的结束帧对应的时间是否大于第II标题在视频新闻中出现的起始帧对应的时间，如果是，则执行S902；否则，执行S903。

S902，将该第II标题在视频新闻中出现的起始帧确定为该特定镜头中的静音点的结束帧。

可以理解的是，当该特定镜头中的静音点的结束帧对应的时间大于第II标题在视频新闻中出现的起始帧对应的时间，说明第II标题出现之后该静音点才结束，那么，为了后续对镜头的拆分更加精准，需要将该第II标题的起始帧记作该特定镜头中的静音点的结束帧。

S903，将静音点结束帧确定为该特定镜头中的静音点的结束帧。

可以理解的是，当该特定镜头中的静音点的结束帧对应的时间不大于第II标题在视频新闻中出现的起始帧对应的时间，说明第II标题出现在该静音点结束之后，那么，确定该静音点的结束帧为该特定镜头中的静音点的结束帧。

S904，判断该特定镜头中的静音点的起始帧对应的时间是否小于第I标题在视频新闻中出现的结束帧对应的时间，如果是，则执行S905；否则，执行S906。

S905，将第I标题在视频新闻中出现的结束帧确定为该特定镜头中的静音点起始帧。

可以理解的是，当该特定镜头中的静音点的起始帧对应的时间小于第I标题在视频新闻中出现的结束帧对应的时间，说明第I标题结束之前该静音点就已经出现了，那么，为了后续对镜头的拆分更加精准，需要将该第I标题的结束帧记作该镜头中的静音点的起始帧。

S906，将静音点起始帧确定为该特定镜头中的静音点的起始帧。

可以理解的是，当该特定镜头中的静音点的起始帧对应的时间不小于第I标题在视频新闻中出现的结束帧对应的时间，说明第I标题结束之后该静音点才出现，那么，确定该静音点的起始帧为该特定镜头中的静音点的起始帧。

需要说明的是，上述S904～S906，可以和S901～S903同时执行，也可以在S901～S903之前执行，在本申请实施例中不作具体限定。

S907，将所述静音点结束帧对应的时间与所述静音点起始帧对应的时间相减，得到的结果为静音点的帧长度。

需要说明的是，S903和S906所确定的该特定镜头中的静音点的起始帧和结束帧之后，将所述静音点结束帧对应的时间与所述静音点起始帧对应的时间相减，得到该静音点的持续时长len，单位为毫秒(ms)。而计算该静音点的帧长度，还需要对该静音点的持续时长len进行换算，即，帧长度＝len*fps/1000，其中，fps为帧率，具体可以从可以从视频头文件获得对应的fps的参数描述。

具体实现时，将所述帧长度最长的静音点对应的中点作为该特定镜头内部的分割点，具体可以在至少一个len中寻找最长的静音点的长度为len_max，该静音点对应的中点(len_{max_Tend}+len_{max_Tstart})/2*fps/1000，作为end_i。如果不存在静音点，则end_i＝Text_{i_Ttext_end}+1。

对于镜头列表中的每个镜头，结合与镜头存在帧交叠的标题和静音点，对该镜头进行进一步的拆分，即按照该镜头的内部分割点进行拆分，使拆分后子镜头只包括一个标题，从而使整个视频新闻拆分后的每个子镜头，均只包括一个新闻条目。

以上为本申请实施例提供的视频新闻分割方法的具体实现方式。该具体实现方式是一种基于新闻标题的视频新闻分割方法的具体实现方式，该具体实现方式是在镜头分割的基础上，对于一个镜头内存在多个新闻标题的镜头，按照镜头包含的标题以及静音点，确定镜头的内部分割点，将镜头拆分成多个子镜头，并且拆分后的每个子镜头中仅包括一个新闻标题。如此，通过本申请实施例提供的方法能够将一个镜头中出现的不同语义的信息和音频信息，拆分成不同的视频片段，从而减少了分割后的单个视频片段内包含多条新闻条目的可能，从而提高视频新闻分割的性能。

另外，参见图10，本申请实施例还提供了一种视频新闻分割装置，包括：

镜头检测单元1001，用于对视频新闻进行镜头检测，以得到所述视频新闻的镜头序列，所述镜头序列中的每个镜头标记为镜头对应的帧区间；

新闻标题检测单元1002，用于对视频新闻进行新闻标题检测，以得到所述视频新闻的标题序列，所述标题序列中的每个标题标记为标题在所述视频新闻中持续出现的帧区间；

静音点检测单元1003，用于对视频新闻进行静音点检测，以得到所述视频新闻的静音点序列，所述静音点序列中的每个静音点标记为静音在所述视频新闻中持续出现的帧区间；

第一融合单元1004，用于分别对所述镜头序列中的每个镜头与所述标题序列中的每个标题进行融合，以查找存在帧交叠的镜头与标题；

第一添加单元1005，用于当查找到存在帧交叠的镜头与标题时，将该标题添加到与其存在帧交叠的镜头的文本列表中；其中，预先设置有每一镜头的文本列表，并且设定任意一个镜头的文本列表的初始值为空；

第二融合单元1006，用于分别对所述镜头序列中的每个镜头与所述静音点序列中的每个静音点进行融合，以查找存在帧交叠的镜头与静音点；

第二添加单元1007，用于当查找到存在帧交叠的镜头与静音点时，将该静音点添加到与其存在帧交叠的镜头的静音列表中；其中，预先设置有每一镜头的静音列表，并且设定任意一个镜头的静音列表的初始值为空；

判断单元1008，用于依次判断每一镜头的文本列表中的标题数量n是否大于1，其中，n为整数；

第三融合单元1009，用于若特定镜头的文本列表中的标题数量n大于1，将该特定镜头的文本列表中的每相邻两个标题出现在视频新闻中之间的帧区间分别与所述静音点序列中的每个静音点进行融合，以筛选该特定镜头的内部分割点；

拆分单元1010，用于根据该特定镜头内部的分割点对该特定镜头内的视频帧进行拆分。

可选地，第三融合单元1009，具体包括：

查找子单元，用于从所述文本列表中的每相邻两个标题出现在视频新闻中之间的帧区间内查找该特定镜头中的静音点；

计算子单元，用于若查找到该特定镜头中的静音点，则计算静音点的帧长度；将帧长度最长的静音点位置作为该特定镜头内部的分割点；

确定子单元，用于若该特定镜头中不存在静音点时，则将上一标题在视频中的结束帧的下一帧作为该特定镜头内部的分割点。

可选地，上述计算子单元，具体包括：

第一判断子单元，用于判断该特定镜头中的静音点的结束帧对应的时间是否大于第II标题在视频新闻中出现的起始帧对应的时间，如果是，将该第II标题在视频新闻中出现的起始帧确定为该特定镜头中的静音点的结束帧，如果否，则将静音点结束帧确定为该特定镜头中的静音点的结束帧；

第二判断子单元，用于判断该特定镜头中的静音点起始帧对应的时间是否小于第I标题在视频新闻中出现的结束帧对应的时间，如果是，将第I标题在视频新闻中出现的结束帧确定为该特定镜头中的静音点起始帧，如果否，则将静音点起始帧确定为该特定镜头中的静音点的起始帧；

结果子单元，用于将所述静音点结束帧对应的时间与所述静音点起始帧对应的时间相减，得到的结果为静音点的帧长度。

可选地，所述将帧长度最长的静音点位置作为该特定镜头内部的分割点，具体包括：

将所述帧长度最长的静音点对应的中点作为该特定镜头内部的分割点。

可选地，第一融合单元1004，具体用于：

以所述标题序列中的每个标题为单位，扫描所述镜头序列中的所有镜头，以查找与每个标题存在帧交叠的镜头。

可选地，第一融合单元1004，具体用于：

以所述镜头序列中的每个镜头为单位，扫描所述标题序列中的所有标题，以查找与每个镜头存在帧交叠的标题。

本申请实施例是上述视频新闻分割方法实施例对应的装置实施例，具体实现方式以及达到的技术效果，可以参考上述视频新闻分割方法实施例的描述，这里不再赘述。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种视频新闻分割方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将该特定镜头的文本列表中的每相邻两个标题出现在视频新闻中之间的帧区间分别与所述静音点序列中的每个静音点进行融合，以筛选该特定镜头的内部分割点，具体包括：

从所述文本列表中的每相邻两个标题出现在视频新闻中之间的帧区间内查找该特定镜头中的静音点；

若该特定镜头中存在静音点，则计算每个静音点的帧长度；将帧长度最长的静音点位置作为该特定镜头内部的分割点；

若该特定镜头中不存在静音点，则将所述每相邻两个标题中的前一标题在视频中的结束帧的下一帧作为该特定镜头内部的分割点。

3.根据权利要求2所述的方法，其特征在于，设定每相邻两个标题为第I标题和第II标题，所述计算静音点的帧长度，具体包括：

判断该特定镜头中的静音点的结束帧对应的时间是否大于第II标题在视频新闻中出现的起始帧对应的时间，如果是，将该第II标题在视频新闻中出现的起始帧确定为该特定镜头中的静音点的结束帧，如果否，则将静音点结束帧确定为该特定镜头中的静音点的结束帧；

判断该特定镜头中的静音点起始帧对应的时间是否小于第I标题在视频新闻中出现的结束帧对应的时间，如果是，将第I标题在视频新闻中出现的结束帧确定为该特定镜头中的静音点起始帧，如果否，则将静音点起始帧确定为该特定镜头中的静音点的起始帧；

将所述静音点结束帧对应的时间与所述静音点起始帧对应的时间相减，得到的结果为静音点的帧长度。

4.根据权利要求2所述的方法，其特征在于，所述将帧长度最长的静音点位置作为该特定镜头内部的分割点，具体包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述镜头序列中的每个镜头与所述标题序列中的每个标题进行融合，以查找存在帧交叠的镜头与标题，具体包括：

6.根据权利要求1所述的方法，其特征在于，所述对所述镜头序列中的每个镜头与所述标题序列中的每个标题进行融合，以查找存在帧交叠的镜头与标题，具体包括：

7.一种视频新闻分割装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述第三融合单元，具体包括：

计算子单元，用于若该特定镜头中存在静音点，则计算每个静音点的帧长度；将帧长度最长的静音点位置作为该特定镜头内部的分割点；

确定子单元，用于若该特定镜头中不存在静音点，则将上一标题在视频中的结束帧的下一帧作为该特定镜头内部的分割点。

9.根据权利要求8所述的装置，所述计算子单元，具体包括：

第一判断子模块，用于判断该特定镜头中的静音点的结束帧对应的时间是否大于第II标题在视频新闻中出现的起始帧对应的时间，如果是，将该第II标题在视频新闻中出现的起始帧确定为该特定镜头中的静音点的结束帧，如果否，则将静音点结束帧确定为该特定镜头中的静音点的结束帧；

第二判断子模块，用于判断该特定镜头中的静音点起始帧对应的时间是否小于第I标题在视频新闻中出现的结束帧对应的时间，如果是，将第I标题在视频新闻中出现的结束帧确定为该特定镜头中的静音点起始帧，如果否，则将静音点起始帧确定为该特定镜头中的静音点的起始帧；

结果子模块，用于将所述静音点结束帧对应的时间与所述静音点起始帧对应的时间相减，得到的结果为静音点的帧长度。

10.根据权利要求8所述的装置，其特征在于，所述将帧长度最长的静音点位置作为该特定镜头内部的分割点，具体包括：