CN108710860A - 一种视频新闻分割方法和装置 - Google Patents
一种视频新闻分割方法和装置 Download PDFInfo
- Publication number
- CN108710860A CN108710860A CN201810503684.5A CN201810503684A CN108710860A CN 108710860 A CN108710860 A CN 108710860A CN 201810503684 A CN201810503684 A CN 201810503684A CN 108710860 A CN108710860 A CN 108710860A
- Authority
- CN
- China
- Prior art keywords
- title
- camera lens
- video
- frame
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
- Studio Devices (AREA)
Abstract
本申请提供了一种视频新闻分割方法,为基于新闻标题的视频新闻分割方法,对于一个镜头内存在多个新闻标题的镜头,该方法按照镜头包含的标题数量将镜头拆分成多个子镜头,并且拆分后的每个子镜头中仅包括一个新闻标题。如此,通过本申请实施例提供的方法能够将一个镜头中出现的不同语义的信息拆分成不同的视频片段,从而减少了分割后的单个视频片段内包含多条新闻条目的可能,从而提高视频新闻分割的性能。此外,本申请还提供了一种视频新闻分割装置。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种视频新闻分割方法和装置。
背景技术
新闻视频中蕴含着大量的最新资讯信息,对于视频网站和新闻类的应用来说有着重要的价值。视频网站或者新闻类的应用需要对每日播出的整条新闻进行分割、上线,供用户对于其中感兴趣的每条新闻进行点击观看。由于全国的电视台数量众多,除卫视台外还存在各类地方台,如果需要对所有的新闻进行分割的话,需要耗费大量的人力进行切分。同时由于新闻的时效性,对于新闻视频的分割的速度要求也是十分严格的,所以给人工分割带来的更大的压力。新闻都是在某个时间(如中午12点)大量播出,为了保证时效性,需要在规定的时间内尽快将整个的新闻节目切割成独立新闻条目,而不能采用积压任务后期处理的方式进行生产。因此,一种视频新闻的自动分割技术就成为解决这一问题的关键。
现有的视频新闻的自动分割技术一般是基于镜头进行的。也就是说,将镜头的起点或终点作为视频新闻的分割点,从而将视频新闻分割成多个不同的视频片段。然而,这种基于镜头进行的视频新闻的分割技术只能实现不同镜头的视频片段的拆分,而不能实现镜头内部的视频片段的拆分,如此有可能将不同的新闻条目分到一个视频片段内,例如,针对主持人总结上一条新闻内容,随后播报下一条新闻的情况的视频镜头会分到一个视频片段内,如此,导致分割后的单个视频片段内可能包含多条新闻条目的信息,如此,导致视频新闻分割的性能较差。
发明内容
有鉴于此,本申请实施例提供了一种视频新闻分割方法和装置,以减少多条新闻条目分到一个视频片段的可能,进而提高视频新闻分割的性能。
为了解决上述技术问题,本申请实施例采用了如下技术方案:
第一方面,本申请实施例提供了一种视频新闻分割方法,包括:
对视频新闻进行镜头检测和新闻标题检测,以分别得到所述视频新闻的镜头序列和标题序列,所述镜头序列中的每个镜头标记为镜头对应的帧区间,所述标题序列中的每个标题标记为标题在所述视频新闻中持续出现的帧区间;
对所述镜头序列中的每个镜头与所述标题序列中的每个标题进行融合,以查找存在帧交叠的镜头与标题,当查找到存在帧交叠的镜头与标题时,将该标题添加到与其存在帧交叠的镜头的文本列表中;其中,预先设置有每一镜头的文本列表,并且设定任意一个镜头的文本列表的初始值为空;
依次判断每一镜头的文本列表中的标题数量n是否大于1,若特定镜头的文本列表中的标题数量n大于1,则将该特定镜头根据其文本列表中的标题拆分成多个子镜头,拆分后的每个子镜头内包括一个标题;其中,n为整数。
可选地,所述对所述镜头序列中的每个镜头与所述标题序列中的每个标题进行融合,以查找存在帧交叠的镜头与标题,具体包括:
以所述标题序列中的每个标题为单位,扫描所述镜头序列中的所有镜头,以查找与每个标题存在帧交叠的镜头。
可选地,所述对所述镜头序列中的每个镜头与所述标题序列中的每个标题进行融合,以查找存在帧交叠的镜头与标题,具体包括:
以所述镜头序列中的每个镜头为单位,扫描所述标题序列中的所有标题,以查找与每个镜头存在帧交叠的标题。
可选地,所述将该特定镜头根据其文本列表中的标题拆分成多个子镜头,具体包括:
将该特定镜头的文本列表中的标题在视频中的结束帧作为该特定镜头的内部分割点;根据该特定镜头的内部分割点对该特定镜头内的视频帧进行拆分。
可选地,添加到镜头的文本列表中的标题按照其在视频中出现的先后次序顺序排列在文本列表中,包含在文本列表中的标题按照顺序依次分别为第0 标题、第1标题,依次类推,直至第n-1标题;
当n=2时,所述将该特定镜头内部的标题在视频中的结束帧作为该特定镜头的内部分割点;根据该特定镜头的内部分割点对该特定镜头内的视频帧进行拆分,具体包括:
将该特定镜头的起始帧至第0题在视频中的结束帧之间的视频片段拆分为第0子镜头;
将第0标题在视频中的结束帧的下一帧至该特定镜头结束帧之间的视频片段拆分为第1子镜头。
可选地,添加到镜头的文本列表中的标题按照其在视频中出现的先后次序顺序排列在文本列表中,包含在文本列表中的标题按照顺序依次分别为第0 标题、第1标题,依次类推,直至第n-1标题;
当n≥3时,所述将该特定镜头内部的标题在视频中的结束帧作为该特定镜头的内部分割点;根据该特定镜头的内部分割点对该特定镜头内的视频帧进行拆分,具体包括:
将该特定镜头的起始帧至第0标题在视频中的结束帧之间的视频片段拆分为第0子镜头;
将第i-1标题在视频中的结束帧的下一帧至第i标题在视频中的结束帧之间的视频片段拆分为第i子镜头,其中,;
将第n-2标题在视频中的结束帧的下一帧至该特定镜头结束帧之间的视频片段拆分为第n-1子镜头。
第二方面,本申请实施例还提供了一种视频新闻分割装置,包括:
镜头检测单元,用于对视频新闻进行镜头检测,以得到所述视频新闻的镜头序列,所述镜头序列中的每个镜头标记为镜头对应的帧区间;
标题检测单元,用于对视频新闻进行新闻标题检测,以得到所述视频新闻的标题序列,所述标题序列中的每个标题标记为标题在所述视频新闻中持续出现的帧区间;
融合单元,用于对所述镜头序列中的每个镜头与所述标题序列中的每个标题进行融合,以查找存在帧交叠的镜头与标题;
添加单元,用于当查找到存在帧交叠的镜头与标题时,将该标题添加到与其存在帧交叠的镜头的文本列表中;其中,预先设置有每一镜头的文本列表,并且设定任意一个镜头的文本列表的初始值为空;
判断单元,用于依次判断每一镜头的文本列表中的标题数量n是否大于1;
拆分单元,用于在特定镜头的文本列表中的标题数量n大于1时,将该特定镜头根据其文本列表中的标题拆分成多个子镜头,拆分后的每个子镜头内包括一个标题;其中,n为整数。
可选地,所述融合单元,具体用于:以所述标题序列中的每个标题为单位,扫描所述镜头序列中的所有镜头,以查找与每个标题存在帧交叠的镜头。
可选地,所述融合单元,具体用于:以所述镜头序列中的每个镜头为单位,扫描所述标题序列中的所有标题,以查找与每个镜头存在帧交叠的标题。
可选地,所述拆分单元,具体用于:将该特定镜头的文本列表中的标题在视频中的结束帧作为该特定镜头的内部分割点;根据该特定镜头的内部分割点对该特定镜头内的视频帧进行拆分。
可选地,添加到镜头的文本列表中的标题按照其在视频中出现的先后次序顺序排列在文本列表中,包含在文本列表中的标题按照顺序依次分别为第0 标题、第1标题,依次类推,直至第n-1标题;
当n=2时,所述拆分单元,具体包括:
第一拆分子单元,用于将该特定镜头的起始帧至第0题在视频中的结束帧之间的视频片段拆分为第0子镜头;
第二拆分子单元,用于将第0标题在视频中的结束帧的下一帧至该特定镜头结束帧之间的视频片段拆分为第1子镜头。
可选地,添加到镜头的文本列表中的标题按照其在视频中出现的先后次序顺序排列在文本列表中,包含在文本列表中的标题按照顺序依次分别为第0 标题、第1标题,依次类推,直至第n-1标题;
当n≥3时,所述拆分单元,具体包括:
第三拆分子单元,用于将该特定镜头的起始帧至第0标题在视频中的结束帧之间的视频片段拆分为第0子镜头;
第四拆分子单元,用于将第i-1标题在视频中的结束帧的下一帧至第i标题在视频中的结束帧之间的视频片段拆分为第i子镜头,其中,i={1,2,…,n-2};
第五拆分子单元,用于将第n-2标题在视频中的结束帧的下一帧至该特定镜头结束帧之间的视频片段拆分为第n-1子镜头。
相较于现有技术,本申请具有以下有益效果:
由于新闻标题是一个具有重要语义信息的标志,如果在一个镜头中出现两个不同标题的过渡,意味着这个镜头中出现了两个不同的语义的信息,应该将这个镜头拆分为两个不同的子镜头。基于此,本申请实施例提供的视频新闻分割方法为基于新闻标题的视频新闻分割方法,对于一个镜头内存在多个新闻标题的镜头,该方法按照镜头包含的标题数量将镜头拆分成多个子镜头,并且拆分后的每个子镜头中仅包括一个新闻标题。如此,通过本申请实施例提供的方法能够将一个镜头中出现的不同语义的信息拆分成不同的视频片段,从而减少了分割后的单个视频片段内包含多条新闻条目的可能,从而提高视频新闻分割的性能。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的视频新闻分割方法的流程图;
图2为本申请实施例提供的视频新闻分割方法的一原理示意图;
图3为本申请实施例提供的一个示例性的应用场景的示意图;
图4为本申请实施例中S101的具体实现方式的流程图;
图5为本申请实施例中S102的一种确定标题候选区的实现方式的流程图;
图6为本申请实施例中S102的一种跟踪标题候选区的实现方式的流程图;
图7为本申请实施例中S102的一种获取标题序列的实现方式的流程图;
图8为本申请实施例提供的一种视频新闻分割装置的结构示意图。
具体实施方式
基于背景技术可知,现有的视频新闻的自动分割技术一般是基于镜头进行的,一般都会将视频帧序列先聚类为镜头序列。也就是说,现有的视频新闻的自动分割技术一般将镜头的起点或终点作为视频新闻的分割点,从而将视频新闻分割成多个不同的视频片段。然而,这种基于镜头进行的视频新闻的分割技术只能实现不同镜头的视频片段的拆分,而不能实现镜头内部的视频片段的拆分,如此有可能将不同的新闻条目分到一个视频片段内,例如,针对主持人总结上一条新闻内容,随后播报下一条新闻的情况的视频镜头会分到一个视频片段内,如此,导致分割后的单个视频片段内可能包含多条新闻条目的信息,如此,导致视频新闻分割的性能较差。
由于新闻标题是一个具有重要语义信息的标志,如果在一个镜头中出现两个不同标题的过渡,意味着这个镜头中出现了两个不同的语义的信息,应该将这个镜头拆分为两个不同的子镜头。
基于新闻标题的语义信息,本申请实施例提供了一种基于新闻标题的视频新闻分割方法,该分割方法是在镜头分割的基础上,对于一个镜头内存在多个新闻标题的镜头,按照镜头包含的标题数量将镜头拆分成多个子镜头,并且拆分后的每个子镜头中仅包括一个新闻标题。如此,通过本申请实施例提供的方法能够将一个镜头中出现的不同语义的信息拆分成不同的视频片段,从而减少了分割后的单个视频片段内包含多条新闻条目的可能,从而提高视频新闻分割的性能。
下面结合附图本申请的具体实施方式进行详细描述。
请参见图1和图2。图1是本申请实施例提供的视频新闻分割方法的流程示意图,图2是本申请实施例提供的视频新闻分割方法的原理示意图。如图1 所示,本申请实施例提供的视频新闻分割方法的具体实现方式包括以下步骤:
S101:对视频新闻进行镜头检测,以得到视频新闻的镜头序列,所述镜头序列中的每个镜头标记为该镜头对应的帧区间。
镜头检测的大体过程如下:将视频流中相似的视频帧进行聚类,合并为一个镜头,并从中挑选代表这个镜头内容的关键帧,以达到减少整体计算量的目的。本步骤可以具体为:对整个视频新闻持续进行镜头检测,将整个视频新闻由帧序列转化为镜头序列。设定视频新闻进行镜头检测后,得到的镜头序列中包括N个镜头,其中,N为正整数,则该镜头序列中的每个镜头标记为镜头对应的帧区间。作为示例,该镜头序列可以表示为:{Shot0[Tshot_start, Tshot_end],Shot1[Tshot_start,Tshot_end],…,Shoti[Tshot_start,Tshot_end],…,ShotN-1[Tshot_start, Tshot_end]}。其中,Shoti[Tshot_start,Tshot_end]为第i镜头在镜头序列的标记,在Shoti[Tshot_start,Tshot_end]中,Tshot_start为第i镜头的开始帧,Tshot_end为第i镜头的结束帧。
该步骤的具体实现方式将在下文中详细描述。
通过S101对视频新闻的镜头检测,获得该视频新闻的一个镜头序列,该镜头序列包括N个镜头,每个镜头包括至少一个视频帧,且同一个镜头中包括的视频帧的画面相似。
S102:对视频新闻进行新闻标题检测,以得到所述视频新闻的标题序列,所述标题序列中的每个标题标记为该标题在所述视频新闻中出现的帧区间。
新闻标题检测的大体过程如下:对视频新闻的每一视频帧,进行基于时域稳定性的新闻标题检测,获取新闻标题在整个视频新闻中出现的起始帧和结束帧。
本步骤可以具体为:对于整个视频进行新闻标题的检测,以得到所述视频新闻的标题序列,所述标题序列中的每个标题标记为该标题在所述视频新闻中持续出现的帧区间。作为示例,设定在整个视频新闻中共检测到M个标题,其中,M为正整数,则标题序列可以表示为:{Text0[Ttext_start,Ttext_end],Text1 [Ttext_start,Ttext_end],…,Texti[Ttext_start,Ttext_end],TextM-1[Ttext_start,Ttext_end]}。其中,Texti [Ttext_start,Ttext_end]为视频新闻中出现的第i个标题在标题序列中的标记。在Texti [Ttext_start,Ttext_end]中,Ttext_start为第i个标题在视频新闻中开始出现的视频帧, Ttext_end为第i个标题在视频新闻中消失时的视频帧。
该步骤的具体实现方式将在下文中详细描述。
需要说明的是,上述S101和S102的执行顺序,具体可以是,先执行S101,对视频新闻进行镜头检测,再执行S102,对该视频新闻进行新闻标题检测;也可以先执行S102,再执行S101;还可以同时执行S101和S102。S101和S102 的执行顺序在本申请实施例中不进行具体限定。
通过S102对视频新闻的新闻标题检测,获得该视频新闻的标题序列,该标题序列包括M个标题,每个标题包括至少一个视频帧,且同一个标题中包括的视频帧中携带的标题一致。
S103:对所述镜头序列中的每个镜头与所述标题序列中的每个标题进行融合,以查找存在帧交叠的镜头与标题。
可以理解的是,通过对视频新闻进行镜头检测获得镜头序列,其中,每个镜头包括的视频帧中,可能包括不同的新闻标题。例如,针对某个“主持人串讲”的镜头,主持人先总结上一条新闻内容,随后播报下一条新闻的概况,那么,对于该镜头中“总结上一条新闻内容”对应的视频帧,对应于上一条新闻的标题;对于该镜头中“播报下一条新闻的概况”对应的视频帧,则对应于下一条新闻的标题,如此,该镜头中即包括两个不同的新闻标题。
为了将镜头按照标题数量,划分为多个子镜头,需要对根据S101获得的镜头序列中的每个镜头和根据S102获得的标题序列中的每个标题分别进行融合,即,确定视频新闻中存在帧交叠的镜头和标题,如此,可以确保拆分后的每个子镜头中有且仅有一个标题。
可以理解的是,对于相同的视频新闻帧,视频帧的帧序号是连续的,那么,只要帧序号一致,镜头包括的视频帧,与标题包括的视频帧,就表示同一帧图像。而帧交叠,即为镜头包括的视频帧与标题的视频帧的帧序号一致的情况。
具体实现时,将标题序列中的每一标题:Texti[Ttext_start,Ttext_end],和镜头序列中的每一镜头:Shoti[Tshot_start,Tshot_end],分别进行融合,以查找标题包括的视频帧和镜头包括的视频帧是否有重叠,即,查找符合 的标题和镜头。
举例来说,假设视频新闻的第2个镜头为Shot1[Tshot_start,Tshot_end],其中 Tshot_start=100,Tshot_end=150,即,[Tshot_start,Tshot_end]=[100,150];而该视频新闻的第3个标题为Text2[Ttext_start,Ttext_end],其中Ttext_start=120,Ttext_end=135,即, [Ttext_start,Ttext_end]=[120,135]。可见, 故,查找到的存在帧交叠的镜头与标题,包括:第2 个镜头与第3个标题。
具体实现时,S103的实现方式有多种。这里给出两种可能的实现方式:一种实现方式下,可以站在标题的角度上,以标题序列中的每个标题为单位,扫描镜头序列中的所有镜头,以查找与每个标题存在帧交叠的镜头。另一种实现方式下,也可以站在镜头的角度上,以镜头序列中的每个镜头为单位,扫描标题序列中的所有标题,以查找与每个镜头存在帧交叠的标题。该步骤的上述两种可能的具体实现方式将在下文中详细描述。
需要说明的是,S103中,对标题和镜头进行融合的具体方式,可以根据视频新闻的具体情况,以及用户的需要进行具体设定,在本申请实施例中不进行具体限定。
S104:当查找到存在帧交叠的镜头与标题时,将该标题添加到与其存在帧交叠的镜头的文本列表中;其中,预先设置有每一镜头的文本列表,并且设定任意一个镜头的文本列表的初始值为空。
具体实现时,S104的大体过程如下:可以预先为S101所获得的镜头序列中的每个镜头,设置对应的文本列表,预先设置的文本列表的初始值为空;当通过S103查找到镜头与标题存在帧交叠时,确定存在帧交叠的镜头;在该镜头的文本列表中,添加与该镜头存在帧交叠的上述标题。
在具体实现时,假设镜头Shotj的文本列表为Shot_textj,当镜头 Shotj[Tshot_start,Tshot_end]和标题Texti[Ttext_start,Ttext_end]符合以下条件,即 则,将该标题Texti写入到该镜头Shotj的文本列表Shot_textj中。需要说明的是,对于任意的镜头Shotj的文本列表 Shot_textj,初始值为空。
通过上述S104的实现方式,对视频新闻的标题序列中每个标题添加至与其存在帧交叠的镜头的文本列表中,这样,每个镜头对应的文本列表中,即包括该镜头对应的视频帧中出现过的所有标题。
S105:依次扫描每个镜头的文本列表,并判断每一镜头的文本列表中的标题数量n是否大于1(n为整数),若特定镜头的文本列表中的标题数量n大于 1,执行S106。
可以理解的是,通过扫描已经生成的镜头序列中每个镜头的文本列表,可以发现:每个镜头的文本列表中,包括正整数n个标题,当然,n可以等于1,也可以大于1,即,每个镜头对应的标题可以是一个,也可以是多个。
一种情况下,当镜头的文本列表中只包括一个标题,即,镜头Shotj的文本列表Shot_textj中只包括一个标题Texti(i只有一个取值)。此时,可以说明该镜头中只包括一个新闻条目,即,只包括一个新闻主题的一条新闻。那么,可以不对该镜头进行进一步的细分。
另一种情况下,当镜头的文本列表中包括多个标题,即,镜头Shotj的文本列表Shot_textj中包括多个标题Texti(i有多个取值)。此时,说明该镜头中包括多条新闻条目,即,该镜头中可能包括多条不同主题的新闻。需要说明的是,一般情况下,镜头中包括的标题数量,与该镜头包括的新闻条目的数量一致。那么,可以对该镜头进行进一步的细分,即,按照下述S106对对应的镜头进行拆分。
S106:将该特定镜头根据其文本列表中的标题拆分成多个子镜头,拆分后的每个子镜头内包括一个标题。
可以理解的是,S106在具体实现时,按照该特定镜头的文本列表中包括的标题,将该特定镜头拆分为多个子镜头,其中,该特定镜头拆分所得的子镜头的数量,与该特定镜头的文本列表中包括的标题数量一致;该特定镜头拆分所得的每个子镜头包括的视频帧中,只涉及该特定镜头的文本列表中的一个标题,而不存在一个子镜头对应文本列表中的多个标题的情况。
在一些实现方式中,S106可以为:将该特定镜头的文本列表中的各个标题在视频中的结束帧作为该特定镜头的内部分割点;根据该特定镜头的内部分割点对该特定镜头内的视频帧进行拆分。
具体实现时,对于任意文本列表内的标题数量大于1的镜头Shotj[Tshot_start,Tshot_end],假设其文本列表为shot_textj{Texti[Ttext_start,Ttext_end],Texti+1[Ttext_start,Ttext_end],…,Texti+m[Ttext_start,Ttext_end]},拆分方法为:将标题Texti、Texti+1、……、Texti+m中每个标题的结束帧Ttext_end作为该镜头Shotj的内部分割点,对镜头 Shotj进行拆分。
可以理解的是,如果Texti+m的Ttext_end对应的时间不晚于该镜头Shotj的 Tshot_end对应的时间时,以上述m+1个内部分割点对镜头Shotj进行拆分,可以将镜头Shotj拆分为m+2个子镜头,分别为:第0子镜头Shotj_0[Tshot_start, Texti_Ttext_end];第1子镜头Shotj_1[Texti_Ttext_end+1,Texti+1_Ttext_end];第2子镜头Shotj_2[Texti+1_Ttext_end+1,Texti+2_Ttext_end];以此类推,第m子镜头 Shotj_m[Texti+m-1_Ttext_end+1,Texti+m_Ttext_end];第m+1子镜头shotj_m+1[Textm_Ttext_end+1,Tshot_end]。
需要说明的是,当最后一个标题的结束帧的时间晚于该镜头的结束帧时,以该镜头的结束帧作为该镜头被拆分后的最后一个子镜头的结束帧。
在介绍完S101-S106后,为了使本申请实施例的技术方案更加清楚,下面结合图2示出的本申请实施例提供的视频新闻分割方法的原理图,对一个实例进行具体说明。
如图2所示,假设存在一个视频新闻,该视频新闻包括视频帧1-视频帧50,共50帧。对该视频新闻进行分割的具体实现方式为:首先,将该视频新闻分别进行镜头检测和新闻标题检测,获得该视频新闻的镜头序列{Shot0[1, 15],Shot1[16,25],Shot2[26,40],Shot3[41,50]},和标题序列{Text0[1,8],Text1[10, 18],Text2[20,23],Text3[24,30],Text4[32,44],Text5[46,50]}。接着,对镜头序列中的每个镜头以及标题序列中的每个标题进行融合,以查找存在帧交叠的镜头和标题;并将标题,添加到与其存在帧交叠的镜头的文本列表中。具体的融合以及为镜头的文本列表添加标题的过程可以是:对于镜头Shot0,查找标题序列中所有的标题的帧区间,与帧区间[1,15]存在交集的标题,获得标题 Text0和Text1,将这两个标题添加到该镜头Shot0的文本列表shot_text0中,具体的shot_text0包括:Text0[1,8]和Text1[10,18];同理,对于镜头Shot1,获得的文本列表shot_text1包括:Text1[10,18],Text2[20,23]和Text3[24,30];对于镜头Shot2,获得的文本列表shot_text2包括:Text3[24,30]和Text4[32,44];对于镜头Shot3,获得的文本列表shot_text3包括:Text4[32,44]和Text5[46,50]。
最后,将镜头序列中的每个镜头,根据该镜头的文本列表中的标题,拆分成多个子镜头;具体拆分的过程可以是:对于镜头Shot0的文本列表shot_text0中2个标题,拆分后第0子镜头Shot0_0的起始帧为Shot0的起始帧1,结束帧为 Text0的结束帧8,即第0子镜头为Shot0_0[1,8];第1子镜头Shot0_1的起始帧为 Shot0_0的结束帧的下一帧9,结束帧为Shot0的结束帧15,即第1子镜头为 Shot0_1[9,15]。同理,对于镜头Shot1的文本列表shot_text1中3个标题,拆分后第 0子镜头Shot1_0的起始帧为Shot1的起始帧16,结束帧为Text1的结束帧18,即第 0子镜头为Shot1_0[16,18];第1子镜头Shot1_1的起始帧为Shot1_0的结束帧的下一帧19,结束帧为Text2的结束帧23,即第1子镜头为Shot0_1[19,23];第2子镜头 Shot1_2的起始帧为Shot1_1的结束帧的下一帧24,结束帧为Shot1的结束帧25,即第2子镜头为Shot1_2[24,25]。以此类推,直到对镜头Shot3完成拆分,获得的拆分结果,详见图2中右侧所示。
需要说明的是,上述标题序列中,出现的相邻的两个标题中,上一标题的结束帧和下一标题的起始帧的视频帧序号不连续的情况,是视频新闻中可能出现的,对新闻条目发送变化时进行的一种“空帧”或者“非关键帧”等处理方式,不影响本申请实施例提供的方法的实施。当然,镜头序列中的相邻镜头,也可能出现类似的问题,处理方式参见上述实例,这里不再赘述。
参见图3,为利用本申请实施例提供的视频新闻分割方法,对某个视频新闻的一个镜头进行分割的示例图,该镜头中包括:视频帧88~视频帧91,其中,视频帧88和视频帧89中显示的标题为“把“诗意城管”和“法制城管”设置在文化墙里”,而视频帧90和视频帧91中显示的标题为:“北京公园投放6.5亿“虫医生”护古树”,即,该镜头与这两个标题有帧交叠,故,将标题“把“诗意城管”和“法制城管”设置在文化墙里”和标题“北京公园投放6.5亿“虫医生”护古树”,添加到该镜头的文本列表中;最后,如图3所示,将该镜头的起始帧——第88帧,至标题“把“诗意城管”和“法制城管”设置在文化墙里”的结束帧——第89帧,拆分为该镜头的第0子镜头;将标题“把“诗意城管”和“法制城管”设置在文化墙里”的结束帧的下一帧——第90帧,至该镜头的结束帧——第91帧,拆分为该镜头的第1子镜头。可见,该镜头中拆分后的第0 子镜头和第1子镜头,均只包括一个新闻标题。
经过上述说明,已经将本申请实施例的框架进行了相关说明,下面针对本申请实施例提供的方法中的各个步骤的具体实现方式,进行详细介绍。
上述S101和S102的具体实现方式将在下文中详细描述。
首先结合图4,详细描述S101的具体实现方式。
参见图4,S101中对视频新闻进行镜头检测得到镜头序列,可以具体包括:
S401,计算该视频新闻中的每个视频帧的RGB(Red Green Blue)颜色直方图。
S402,在时域上,计算相邻的视频帧的颜色直方图的欧式距离,记作第一距离。
S403,判断第一距离是否大于预设的阈值;如果是,则执行S404。
S404,确定该视频帧于镜头的切变,记录开始位置和这个结束位置之间的所有视频帧为一个镜头,并记录该镜头的类型为切变镜头。
同时,S405,计算当前视频帧与其时域上之前的n帧的颜色直方图的欧式距离,记作第二距离。
S406,判断第二距离是否大于预设的阈值;如果是,则执行S407。
S407,确定在该视频帧处对应于镜头的渐变,记录开始位置和这个结束位置之间的所有视频帧为一个镜头,并记录镜头的类别为渐变镜头。
可以理解的是,S402~S404和S405~S407可以同时执行。
如果S403和S406的判断结果均为否,说明当前检测的所有视频帧,均属于一个镜头,需要继续执行上述步骤,直到检测到镜头的结束帧,或者,检测到该视频新闻的结束帧。
S408,计算镜头的渐变长度L。
一种情况下,该镜头为切变镜头,则L=0。另一种情况下,该镜头为渐变镜头,渐变长度的计算方法具体可以是:对该镜头结束帧之前n帧的范围内,对于其中的每一视频帧,寻找满足结束帧与该当前帧的颜色直方图的欧式距离大于预设的阈值的视频帧,该视频帧与结束帧之间对应的视频帧数量,即为渐变长度L的值。
S409,记录每个镜头在视频新闻中的帧区间。
记录镜头的帧区间,即记录该镜头的起始帧和结束帧,具体可以记作: Shot[Tshot_start,Tshot_end,R,L],其中,Shot代表镜头,Tshot_start代表该镜头在视频新闻中的起始帧;Tshot_end代表该镜头在视频新闻中的结束帧;R代表镜头的类型,可以是“切变”或是“渐变”;L代表镜头的渐变长度。
S410,将视频新闻由帧序列转换为镜头序列,记作: Shot0[Tshot_start,Tshot_end,R,L],Shot1[Tshot_start,Tshot_end,R,L],…,ShotN[Tshot_start,Tshot_end, R,L]。
通过图4所示的方法,可以实现对视频新闻的镜头检测,从完整的视频新闻中检测到多个镜头,组成镜头序列。
下面结合图5至图7,详细描述S102的具体实现方式。
具体实现时,S102中对视频新闻进行新闻标题检测得到标题序列,可以获得新闻标题在视频新闻中出现的起始帧和结束帧,具体的实现可以包括四大步:确定标题候选区、跟踪标题候选区、判断标题候选区是否为标题区域、以及确定标题序列。
作为示例,确定标题候选区的具体实现方式可以如图5所示,跟踪标题候选区的具体实现方式可以如图6所示,判断标题候选区是否为标题区域的具体实现方式可以如图7所示。
首先,参见图5,对于选择视频新闻中视频帧的标题候选区,具体可以包括:
S501,选取视频帧底部区域作为标题候选区。
需要说明的是,对于视频新闻包括的视频帧,由于视频帧的底部区域为大部分新闻标题出现的区域,因此选取视频帧底部区域作为标题候选区。也就是说,选取视频帧底部区域内的图像,作为待检测图像。一般而言,标题候选区为矩形区域。在其他特殊的视频新闻中,也可以通过设置,选择其他区域作为标题候选区,也属于本申请实施例的保护的范围,对应新闻标题检测的实现方式参见该实施例的实现,这里不再赘述。
S502,将视频新闻的每个视频帧由RGB色彩空间转换成灰度图像。
即,将视频新闻的每个视频帧的RGB值转换为灰度值,对于灰度空间转换,公式为:
Gray=R*0.299+G*0.587+B*0.114。其中Gray表示灰度值,R表示红色通道的取值,G表示绿色通道的取值,B表示蓝色通道的取值。
S503,根据视频新闻的每个视频帧的灰度值,提取每个视频帧的边缘特征。
提取边缘的方法有多种,如Sobel算子,Canny算子等。
S504,根据每个视频帧的边缘特征,将视频帧的边缘进行图像二值化。
S505,对于视频新闻的每个视频帧,分别执行S503和S504,计算得到R、 G和B三个通道分别的边缘强度图Er,Eg,Eb。
其中,Er表示红色通道的边缘强度图,Eg表示绿色通道的边缘强度图, Eb表示蓝色通道的边缘强度图。
S506,对边缘强度图像分别进行边缘加强。
S507,对于边缘加强后的边缘强度图像进行水平方向的投影,确定每个视频帧在水平方向的边缘,并将该水平方向边缘之间的图像区域作为第一阶段标题候选区。
S508,对于每一个第一阶段标题候选区,继续查找第一阶段标题候选区中的字幕区域的左右边界;并将左右边界区域内的原始图像,作为第二阶段的标题候选区。
S509,精细寻找第二阶段标题候选区的左右边界,作为新的垂直方向边界。
S510,对于上述方法确定的矩形区域,判断是否符合约束条件;如果符合,执行S511。
约束条件包括但不限于,该矩形区域的起点的位置信息需在一定的图像范围中,该矩形区域的高度需要在一定的范围中等等。
S511,确定视频新闻中符合约束条件的区域为标题候选区。
通过图5所示的方法,即通过S501~S511,可以确定出视频新闻的新闻标题的标题候选区,为对视频新闻的新闻标题检测打下了基础。
然后,参见图6,对于确定的标题候选区,进行进一步的跟踪,具体可以包括:
S601:判断标题候选区是否为第一次被跟踪的标题候选区。
其中,第一次跟踪的标题候选区,可以指首次跟踪这个标题候选区,也可以指上一次跟踪结束后,再次跟踪该标题候选区。
S602,为被跟踪的标题候选区所属的视频帧,设定一个跟踪范围。
由于该视频新闻的视频帧的标题候选区中可能包含背景区域,为了提升跟踪的准确性,需要设置跟踪区域,即,设定视频帧中的一个跟踪范围。
S603,选取视频帧跟踪区域中图像,将选取的彩色图像转换成灰度图像。
即,将选取的图像的RGB值转换为灰度值,对于灰度空间换公式为:
Gray=R*0.299+G*0.587+B*0.114。其中Gray表示灰度值,R表示红色通道的取值,G表示绿色通道的取值,B表示蓝色通道的取值。
S604,利用自适应阈值确定方法,计算灰度分割阈值。
S605,将通过上述步骤处理后的跟踪区域的图像二值化得到参考二值化图像Bref。
S606,计算跟踪区域中图像的颜色直方图Href。
S607,对视频新闻的视频帧,将视频帧从彩色空间转换到灰度空间。
S608,选取根据S607所得的视频帧中,跟踪区域的灰度图像,进行二值化,得到当前二值化图像Bcur。
S609,将参考二值化图像Bref和当前二值化图像Bcur进行逐点差分,并计算差分的平均值Db。
S610,计算跟踪区域中当前图像的颜色直方图Hcur,并计算与Href的距离 Dc。
S611,判断获得的Db和Dc与预设的阈值1和阈值2是否同时符合:Db小于预设的阈值1,Dc是否小于第二阈值;如果是,则执行S612;否则,执行S613。
需要注意的是,基于颜色直方图和二值化的跟踪方式,可以只用其中之一,也可以组合使用。
S612,将跟踪计数器进行tracking_num++。
S613,将跟踪计数器进行lost_num++。
S614,判断lost_num是否大于预设的阈值3,如果是,执行S615,否则,返回跟踪中。
S615,返回跟踪结束状态,同时返回当前视频帧的帧序号。
可以理解的是,设立lost_num的目的是为了避免个别视频信号受到干扰,引起图像出现失真,导致匹配失败,通过lost_num的设立,允许算法有个别数量的视频跟踪失败。
通过图6所示的方法,即通过S601~S615,可以对于确定的标题候选区,进行进一步的跟踪。
接着,参见图7,需要根据图6和图5所获得的数据,判断标题候选区是否为标题区域,并确定出该视频新闻的标题序列,具体可以包括:
S701,确定跟踪计数器的tracking_num。
S702,判断tracking_num是否不小于预设的阈值4,如果是,则执行S703;否则,确定该标题候选区为非标题区。
S703,确定该标题候选区为标题区,并记录该标题在视频中出现的起始帧和结束帧,记作Test[Ttext_start,Ttext_end]。
S704,对视频新闻进行上述标题检测步骤,获得该视频新闻的标题序列: {Text0[Ttext_start,Ttext_end],Text1[Ttext_start,Ttext_end],…,Texti[Ttext_start,Ttext_end],TextM-1[Ttext_start,Ttext_end]}。
图5至图7所示的上述实现方式,可以实现对视频新闻的标题检测,确定出该新闻标题中的标题序列。
下面,详细描述S103的两种具体的实现方式。
一种实现方式下,由于视频新闻中,一般标题序列中标题的数量,远远少于镜头序列中镜头的数量,所以,为了减少融合的次数,S103对镜头和标题进行融合,以查找存在帧交叠的镜头和标题,可以站在标题的角度上,以标题为基准进行查找,具体可以是:以标题序列中的每个标题为单位,扫描镜头序列中的所有镜头,以查找与每个标题存在帧交叠的镜头。
具体实现时,对于标题序列中的每个标题,依次查找与该标题存在帧交叠的镜头,例如,对于标题1[10,35],查找包括该标题的镜头,获得镜头1[1,15] 和镜头2[17,40],即,存在帧交叠的镜头和标题包括:标题1和镜头1,以及标题1和镜头2。
另一种实现方式下,S103对镜头和标题进行融合,以查找存在帧交叠的镜头和标题,也可以站在镜头的角度上,以镜头为基准进行查找,具体可以是:以镜头序列中的每个镜头为单位,扫描标题序列中的所有标题,以查找与每个镜头存在帧交叠的标题。
具体实现时,对于镜头序列中的每个镜头,依次查找与该镜头存在帧交叠的标题,例如,对于镜头2[17,40],查找该镜头中的包括的标题,获得标题 1[10,35]和标题2[36,42],即,存在帧交叠的镜头和标题包括:标题1和镜头2,以及标题2和镜头2。
无论是以标题为单元,查找存在帧交叠的镜头和标题,还是以镜头为单元,查找存在帧交叠的镜头和标题,都可以实现镜头和标题的融合。之后,可以将标题,添加到对应的镜头的文本列表中,并将该镜头的文本列表中的标题,按照其在视频中出现的先后次序顺序排列在文本列表中,包含在文本列表中的标题按照顺序依次记作:第0标题、第1标题,依次类推,直至第n-1标题。
对于每个镜头,该镜头的文本列表中的标题数量n大于1时,根据S106 对镜头进行进一步拆分的实现方式具体可以为:将该特定镜头内部的标题在视频中的结束帧作为该特定镜头的内部分割点;根据该特定镜头的内部分割点对该特定镜头内的视频帧进行拆分。
在一些实例中,对于特定镜头的文本列表中只包括两个标题的情况,即,当该特定镜头的文本列表中的标题数量n=2时,所述将该特定镜头内部的标题在视频中的结束帧作为该特定镜头的内部分割点;根据该特定镜头的内部分割点对该特定镜头内的视频帧进行拆分,具体包括:
将该特定镜头的起始帧至第0题在视频中的结束帧之间的视频片段拆分为第0子镜头;
将第0标题在视频中的结束帧的下一帧至该特定镜头结束帧之间的视频片段拆分为第1子镜头。
举例说明,假设对于镜头2[17,40],该镜头2的文本列表中依次包括:标题1[10,35]和标题2[36,42]。对镜头2进行拆分的具体步骤为:第一步,将该镜头2的起始帧——第17帧,至标题1的结束帧——第35帧,之间的视频片段,拆分为第0子镜头,该第0子镜头对应的帧区间为:[17,35];第二步,将该标题1的结束帧的下一帧——第36帧,至该镜头2的结束帧——第40帧,之间的视频片段,拆分为第1子镜头,该第1子镜头对应的帧区间为[36,40]。
在另一些实例中,对于特定镜头的文本列表中包括多于两个标题的情况,即,当该特定镜头的文本列表中的标题数量n≥3时,所述将该特定镜头内部的标题在视频中的结束帧作为该特定镜头的内部分割点;根据该特定镜头的内部分割点对该特定镜头内的视频帧进行拆分,具体包括:
将该特定镜头的起始帧至第0标题在视频中的结束帧之间的视频片段拆分为第0子镜头;
将第i-1标题在视频中的结束帧的下一帧至第i标题在视频中的结束帧之间的视频片段拆分为第i子镜头,其中,i={1,2,…,n-2};
将第n-2标题在视频中的结束帧的下一帧至该特定镜头结束帧之间的视频片段拆分为第n-1子镜头。
举例说明,假设对于镜头3[45,70],该镜头3的文本列表中依次包括:标题3[45,50]、标题4[52,57]、标题5[58,63]和标题6[65,75]。对镜头3进行拆分的具体步骤为:第一步,将该镜头3的起始帧——第45帧,至标题3的结束帧——第50帧,之间的视频片段,拆分为第0子镜头,该第0子镜头对应的帧区间为:[45,50];第二步,将该标题3的结束帧的下一帧——第51帧,至标题4的结束帧——第57帧,之间的视频片段,拆分为第1子镜头,该第1子镜头对应的帧区间为:[51,57];第三步,同理,将该标题4的结束帧的下一帧——第58帧,至标题5的结束帧——第63帧,之间的视频片段,拆分为第 2子镜头,该第2子镜头对应的帧区间为:[58,63];第四步,将该标题5的结束帧的下一帧——第64帧,至该镜头3的结束帧——第70帧,之间的视频片段,拆分为第3子镜头,该第3子镜头对应的帧区间为[64,70]。
因此,对于镜头的文本列表中包括多个标题的情况,可以判断文本列表中的标题数量与上述两个实例中,那个实例对应的标题数量相符,则可以选择与其相符的实例的实现方式,对该镜头进行进一步的拆分,使拆分后子镜头只包括一个标题,从而使整个视频新闻拆分后的每个子镜头,均只包括一个新闻条目。
以上为本申请实施例提供的视频新闻分割方法的具体实现方式。该具体实现方式是一种基于新闻标题的视频新闻分割方法的具体实现方式,该具体实现方式是在镜头分割的基础上,对于一个镜头内存在多个新闻标题的镜头,按照镜头包含的标题数量将镜头拆分成多个子镜头,并且拆分后的每个子镜头中仅包括一个新闻标题。如此,通过本申请实施例提供的方法能够将一个镜头中出现的不同语义的信息拆分成不同的视频片段,从而减少了分割后的单个视频片段内包含多条新闻条目的可能,从而提高视频新闻分割的性能。该具体实现方式能够为后续视频新闻更加精细的分析,例如新闻拆条等视频分析技术提供了更加有力的支持和可靠的依据。
另外,参见图8,本申请实施例还提供了一种视频新闻分割装置,包括:
镜头检测单801,用于对视频新闻进行镜头检测,以得到所述视频新闻的镜头序列,所述镜头序列中的每个镜头标记为镜头对应的帧区间;
标题检测单元802,用于对视频新闻进行新闻标题检测,以得到所述视频新闻的标题序列,所述标题序列中的每个标题标记为标题在所述视频新闻中持续出现的帧区间;
融合单元803,用于对所述镜头序列中的每个镜头与所述标题序列中的每个标题进行融合,以查找存在帧交叠的镜头与标题;
添加单元804,用于当查找到存在帧交叠的镜头与标题时,将该标题添加到与其存在帧交叠的镜头的文本列表中;其中,预先设置有每一镜头的文本列表,并且设定任意一个镜头的文本列表的初始值为空;
判断单元805,用于依次判断每一镜头的文本列表中的标题数量n是否大于1;
拆分单元806,用于在特定镜头的文本列表中的标题数量n大于1时,将该特定镜头根据其文本列表中的标题拆分成多个子镜头,拆分后的每个子镜头内包括一个标题;其中,n为整数。
可选地,所述融合单元803,具体用于:以所述标题序列中的每个标题为单位,扫描所述镜头序列中的所有镜头,以查找与每个标题存在帧交叠的镜头。
可选地,所述融合单元803,具体用于:以所述镜头序列中的每个镜头为单位,扫描所述标题序列中的所有标题,以查找与每个镜头存在帧交叠的标题。
可选地,所述拆分单元806,具体用于:将该特定镜头的文本列表中的标题在视频中的结束帧作为该特定镜头的内部分割点;根据该特定镜头的内部分割点对该特定镜头内的视频帧进行拆分。
可选地,添加到镜头的文本列表中的标题按照其在视频中出现的先后次序顺序排列在文本列表中,包含在文本列表中的标题按照顺序依次分别为第0 标题、第1标题,依次类推,直至第n-1标题;
当n=2时,所述拆分单元806,具体包括:
第一拆分子单元,用于将该特定镜头的起始帧至第0题在视频中的结束帧之间的视频片段拆分为第0子镜头;
第二拆分子单元,用于将第0标题在视频中的结束帧的下一帧至该特定镜头结束帧之间的视频片段拆分为第1子镜头。
可选地,添加到镜头的文本列表中的标题按照其在视频中出现的先后次序顺序排列在文本列表中,包含在文本列表中的标题按照顺序依次分别为第0 标题、第1标题,依次类推,直至第n-1标题;
当n≥3时,所述拆分单元806,具体包括:
第三拆分子单元,用于将该特定镜头的起始帧至第0标题在视频中的结束帧之间的视频片段拆分为第0子镜头;
第四拆分子单元,用于将第i-1标题在视频中的结束帧的下一帧至第i标题在视频中的结束帧之间的视频片段拆分为第i子镜头,其中,i={1,2,…,n-2};
第五拆分子单元,用于将第n-2标题在视频中的结束帧的下一帧至该特定镜头结束帧之间的视频片段拆分为第n-1子镜头。
本申请实施例是上述视频新闻分割方法实施例对应的装置实施例,具体实现方式以及达到的技术效果,可以参考上述视频新闻分割方法实施例的描述,这里不再赘述。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种视频新闻分割方法,其特征在于,包括:
对视频新闻进行镜头检测和新闻标题检测,以分别得到所述视频新闻的镜头序列和标题序列,所述镜头序列中的每个镜头标记为镜头对应的帧区间,所述标题序列中的每个标题标记为标题在所述视频新闻中持续出现的帧区间;
对所述镜头序列中的每个镜头与所述标题序列中的每个标题进行融合,以查找存在帧交叠的镜头与标题,当查找到存在帧交叠的镜头与标题时,将该标题添加到与其存在帧交叠的镜头的文本列表中;其中,预先设置有每一镜头的文本列表,并且设定任意一个镜头的文本列表的初始值为空;
依次判断每一镜头的文本列表中的标题数量n是否大于1,若特定镜头的文本列表中的标题数量n大于1,则将该特定镜头根据其文本列表中的标题拆分成多个子镜头,拆分后的每个子镜头内包括一个标题;其中,n为整数。
2.根据权利要求1所述的方法,其特征在于,所述对所述镜头序列中的每个镜头与所述标题序列中的每个标题进行融合,以查找存在帧交叠的镜头与标题,具体包括:
以所述标题序列中的每个标题为单位,扫描所述镜头序列中的所有镜头,以查找与每个标题存在帧交叠的镜头。
3.根据权利要求1所述的方法,其特征在于,所述对所述镜头序列中的每个镜头与所述标题序列中的每个标题进行融合,以查找存在帧交叠的镜头与标题,具体包括:
以所述镜头序列中的每个镜头为单位,扫描所述标题序列中的所有标题,以查找与每个镜头存在帧交叠的标题。
4.根据权利要求1所述的方法,其特征在于,所述将该特定镜头根据其文本列表中的标题拆分成多个子镜头,具体包括:
将该特定镜头的文本列表中的标题在视频中的结束帧作为该特定镜头的内部分割点;根据该特定镜头的内部分割点对该特定镜头内的视频帧进行拆分。
5.根据权利要求4所述的方法,其特征在于,添加到镜头的文本列表中的标题按照其在视频中出现的先后次序顺序排列在文本列表中,包含在文本列表中的标题按照顺序依次分别为第0标题、第1标题,依次类推,直至第n-1标题;
当n=2时,所述将该特定镜头内部的标题在视频中的结束帧作为该特定镜头的内部分割点;根据该特定镜头的内部分割点对该特定镜头内的视频帧进行拆分,具体包括:
将该特定镜头的起始帧至第0标题在视频中的结束帧之间的视频片段拆分为第0子镜头;
将第0标题在视频中的结束帧的下一帧至该特定镜头结束帧之间的视频片段拆分为第1子镜头。
6.根据权利要求4所述的方法,其特征在于,添加到镜头的文本列表中的标题按照其在视频中出现的先后次序顺序排列在文本列表中,包含在文本列表中的标题按照顺序依次分别为第0标题、第1标题,依次类推,直至第n-1标题;
当n≥3时,所述将该特定镜头内部的标题在视频中的结束帧作为该特定镜头的内部分割点;根据该特定镜头的内部分割点对该特定镜头内的视频帧进行拆分,具体包括:
将该特定镜头的起始帧至第0标题在视频中的结束帧之间的视频片段拆分为第0子镜头;
将第i-1标题在视频中的结束帧的下一帧至第i标题在视频中的结束帧之间的视频片段拆分为第i子镜头,其中,i={1,2,…,n-2};
将第n-2标题在视频中的结束帧的下一帧至该特定镜头结束帧之间的视频片段拆分为第n-1子镜头。
7.一种视频新闻分割装置,其特征在于,包括:
镜头检测单元,用于对视频新闻进行镜头检测,以得到所述视频新闻的镜头序列,所述镜头序列中的每个镜头标记为镜头对应的帧区间;
标题检测单元,用于对视频新闻进行新闻标题检测,以得到所述视频新闻的标题序列,所述标题序列中的每个标题标记为标题在所述视频新闻中持续出现的帧区间;
融合单元,用于对所述镜头序列中的每个镜头与所述标题序列中的每个标题进行融合,以查找存在帧交叠的镜头与标题;
添加单元,用于当查找到存在帧交叠的镜头与标题时,将该标题添加到与其存在帧交叠的镜头的文本列表中;其中,预先设置有每一镜头的文本列表,并且设定任意一个镜头的文本列表的初始值为空;
判断单元,用于依次判断每一镜头的文本列表中的标题数量n是否大于1;
拆分单元,用于在特定镜头的文本列表中的标题数量n大于1时,将该特定镜头根据其文本列表中的标题拆分成多个子镜头,拆分后的每个子镜头内包括一个标题;其中,n为整数。
8.根据权利要求7所述的装置,其特征在于,
所述融合单元,具体用于:以所述标题序列中的每个标题为单位,扫描所述镜头序列中的所有镜头,以查找与每个标题存在帧交叠的镜头。
9.根据权利要求7所述的装置,其特征在于,
所述融合单元,具体用于:以所述镜头序列中的每个镜头为单位,扫描所述标题序列中的所有标题,以查找与每个镜头存在帧交叠的标题。
10.根据权利要求7所述的装置,其特征在于,
所述拆分单元,具体用于:将该特定镜头的文本列表中的标题在视频中的结束帧作为该特定镜头的内部分割点;根据该特定镜头的内部分割点对该特定镜头内的视频帧进行拆分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810503684.5A CN108710860B (zh) | 2018-05-23 | 2018-05-23 | 一种视频新闻分割方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810503684.5A CN108710860B (zh) | 2018-05-23 | 2018-05-23 | 一种视频新闻分割方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108710860A true CN108710860A (zh) | 2018-10-26 |
CN108710860B CN108710860B (zh) | 2021-01-12 |
Family
ID=63869438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810503684.5A Active CN108710860B (zh) | 2018-05-23 | 2018-05-23 | 一种视频新闻分割方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108710860B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111432140A (zh) * | 2020-06-15 | 2020-07-17 | 成都索贝数码科技股份有限公司 | 一种利用人工神经网络进行电视新闻拆条的方法 |
CN112182299A (zh) * | 2020-09-25 | 2021-01-05 | 北京字节跳动网络技术有限公司 | 一种视频中精彩片段的获取方法、装置、设备和介质 |
CN112288047A (zh) * | 2020-12-25 | 2021-01-29 | 成都索贝数码科技股份有限公司 | 基于概率分布转换聚类的广播电视新闻拆条方法 |
CN112929744A (zh) * | 2021-01-22 | 2021-06-08 | 北京百度网讯科技有限公司 | 用于分割视频剪辑的方法、装置、设备、介质和程序产品 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101616264A (zh) * | 2008-06-27 | 2009-12-30 | 中国科学院自动化研究所 | 新闻视频编目方法及系统 |
CN101790049A (zh) * | 2010-02-25 | 2010-07-28 | 深圳市茁壮网络股份有限公司 | 一种新闻节目视频分段方法及系统 |
CN102547139A (zh) * | 2010-12-30 | 2012-07-04 | 北京新岸线网络技术有限公司 | 一种新闻视频节目切分方法、新闻视频编目方法及系统 |
US20130021529A1 (en) * | 2005-08-04 | 2013-01-24 | Samsung Electronics Co., Ltd. | Apparatus, medium, and method segmenting video sequences based on topic |
CN104780388A (zh) * | 2015-03-31 | 2015-07-15 | 北京奇艺世纪科技有限公司 | 一种视频数据的切分方法和装置 |
CN106162223A (zh) * | 2016-05-27 | 2016-11-23 | 北京奇虎科技有限公司 | 一种新闻视频切分方法和装置 |
-
2018
- 2018-05-23 CN CN201810503684.5A patent/CN108710860B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130021529A1 (en) * | 2005-08-04 | 2013-01-24 | Samsung Electronics Co., Ltd. | Apparatus, medium, and method segmenting video sequences based on topic |
CN101616264A (zh) * | 2008-06-27 | 2009-12-30 | 中国科学院自动化研究所 | 新闻视频编目方法及系统 |
CN101790049A (zh) * | 2010-02-25 | 2010-07-28 | 深圳市茁壮网络股份有限公司 | 一种新闻节目视频分段方法及系统 |
CN102547139A (zh) * | 2010-12-30 | 2012-07-04 | 北京新岸线网络技术有限公司 | 一种新闻视频节目切分方法、新闻视频编目方法及系统 |
CN104780388A (zh) * | 2015-03-31 | 2015-07-15 | 北京奇艺世纪科技有限公司 | 一种视频数据的切分方法和装置 |
CN106162223A (zh) * | 2016-05-27 | 2016-11-23 | 北京奇虎科技有限公司 | 一种新闻视频切分方法和装置 |
Non-Patent Citations (1)
Title |
---|
姜帆 等: "新闻视频的场景分段索引及摘要生成", 《计算机学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111432140A (zh) * | 2020-06-15 | 2020-07-17 | 成都索贝数码科技股份有限公司 | 一种利用人工神经网络进行电视新闻拆条的方法 |
CN111432140B (zh) * | 2020-06-15 | 2020-09-15 | 成都索贝数码科技股份有限公司 | 一种利用人工神经网络进行电视新闻拆条的方法 |
CN112182299A (zh) * | 2020-09-25 | 2021-01-05 | 北京字节跳动网络技术有限公司 | 一种视频中精彩片段的获取方法、装置、设备和介质 |
CN112182299B (zh) * | 2020-09-25 | 2024-06-04 | 北京字节跳动网络技术有限公司 | 一种视频中精彩片段的获取方法、装置、设备和介质 |
CN112288047A (zh) * | 2020-12-25 | 2021-01-29 | 成都索贝数码科技股份有限公司 | 基于概率分布转换聚类的广播电视新闻拆条方法 |
CN112288047B (zh) * | 2020-12-25 | 2021-04-09 | 成都索贝数码科技股份有限公司 | 基于概率分布转换聚类的广播电视新闻拆条方法 |
CN112929744A (zh) * | 2021-01-22 | 2021-06-08 | 北京百度网讯科技有限公司 | 用于分割视频剪辑的方法、装置、设备、介质和程序产品 |
CN112929744B (zh) * | 2021-01-22 | 2023-04-07 | 北京百度网讯科技有限公司 | 用于分割视频剪辑的方法、装置、设备、介质和程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN108710860B (zh) | 2021-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108710860A (zh) | 一种视频新闻分割方法和装置 | |
CN106686404B (zh) | 一种视频分析平台、匹配方法、精准投放广告方法及系统 | |
US7383509B2 (en) | Automatic generation of multimedia presentation | |
CN100583088C (zh) | 通过计算组来定位的方法、相应的接收机 | |
CN103442252B (zh) | 视频处理方法及装置 | |
US8890869B2 (en) | Colorization of audio segments | |
CN108347643B (zh) | 一种基于深度学习的字幕叠加截图的实现方法 | |
CN109451360B (zh) | 视频转场特效方法及引擎 | |
CN104504717B (zh) | 一种图像信息检测方法及装置 | |
CN111415399A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN111813998B (zh) | 一种视频数据处理方法、装置、设备及存储介质 | |
CN105657272A (zh) | 一种终端设备及其拍摄方法 | |
CN109146991A (zh) | 一种图片格式转换方法、装置、设备和存储介质 | |
JP6601944B2 (ja) | コンテンツ生成装置およびプログラム | |
CN108810569A (zh) | 一种视频新闻分割方法和装置 | |
CN108108733A (zh) | 一种新闻字幕检测方法及装置 | |
JP3332166B2 (ja) | 動画像の検索装置 | |
CN107918675A (zh) | 一种搜索方法及搜索系统 | |
JP4496358B2 (ja) | オープンキャプションに対する字幕表示制御方法 | |
CN116614672A (zh) | 一种基于文本-视频检索的自动混剪视频的方法 | |
CN103092929A (zh) | 一种视频摘要的生成方法及装置 | |
CN109753657B (zh) | 用于人名识别的数据处理方法以及装置、客户端、服务器 | |
CN108810568B (zh) | 一种新闻分割的方法及装置 | |
CN108363981B (zh) | 一种标题检测方法及装置 | |
CN108551584B (zh) | 一种新闻分割的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |