CN112990191B - 一种基于字幕视频的镜头边界检测与关键帧提取方法 - Google Patents

一种基于字幕视频的镜头边界检测与关键帧提取方法 Download PDF

Info

Publication number
CN112990191B
CN112990191B CN202110012840.XA CN202110012840A CN112990191B CN 112990191 B CN112990191 B CN 112990191B CN 202110012840 A CN202110012840 A CN 202110012840A CN 112990191 B CN112990191 B CN 112990191B
Authority
CN
China
Prior art keywords
frame
video
sequence
image
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110012840.XA
Other languages
English (en)
Other versions
CN112990191A (zh
Inventor
熊荔
王美涵
白立飞
刘灵芝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC Information Science Research Institute
Original Assignee
CETC Information Science Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC Information Science Research Institute filed Critical CETC Information Science Research Institute
Priority to CN202110012840.XA priority Critical patent/CN112990191B/zh
Publication of CN112990191A publication Critical patent/CN112990191A/zh
Application granted granted Critical
Publication of CN112990191B publication Critical patent/CN112990191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本公开提供一种基于字幕视频的镜头边界检测与关键帧提取方法,包括对视频流抽取视频帧序列,对其进行粗筛选,将粗筛选的每个帧图像分为上下两个区域;对每个帧图像的上区域提取图像特征,并计算相邻两帧之间的图像特征的余弦相似性,根据相似性确定表示场景内容变换的关键帧,得到第一目标关键视频帧序列;对每个帧图像的下区域提取文字区域,将存在文字区域的帧序列提取出来,并按照顺序排列,依次比较相邻帧文字区域的长度,如果长度变化相差预设数量的像素以上,则均判别为关键帧,获得第二目标关键视频帧序列;将两者进行整合,获得最终的目标关键视频帧序列。能够在消除冗余信息的同时极大利用文本信息达到更精确的效果。

Description

一种基于字幕视频的镜头边界检测与关键帧提取方法
技术领域
本公开属于图像及视频处理技术领域,具体涉及一种基于字幕视频的镜头边界检测与关键帧提取方法。
背景技术
近年来,视频内容分析是计算机视觉领域中一大热门研究内容,可应用在不同的场景,如安防、影视、情报等。在大数据时代,作为视频处理的关键技术,视频内容分析将是实现大数据在各个应用领域落地的重要基础建设,而镜头边界检测和关键帧提取是其中不可或缺的一部分。
新闻视频、影视视频以及纪实记录片多为配有字幕的视频,字幕作为解释和阐述视频内容的文本信息,包含了大量的有用信息,因此关键帧中必须包含这些重要的字幕信息。相较于无字幕的视频,字幕视频的视频序列变化主要包含如下特征:视频场景的变化与字幕变化不是同步的,即多个场景的变化可能伴随同一句字幕,而同一场景可能配有多句字幕。
目前镜头边界检测以及关键帧提取算法多是基于比较视频序列之间的帧特征差异来检测镜头变化,通过提取视频帧序列的特征,然后利用这些特征量建立评判准则并设定阈值,以此判断场景是否发生变化,从而实现镜头边界检测与关键帧提取。这些算法在无字幕的视频中已经能取得不错的效果,但是由于在字幕视频中,字幕通常在视频场景中占用的面积较小,字幕变化与场景变换往往不同步,仅仅依靠基于视频序列之间的特征差异,往往会漏检带有重要信息的字幕帧,而降低镜头分割的阈值则会增加关键帧提取的冗余。
发明内容
本公开旨在至少解决现有技术中存在的技术问题之一,提供一种基于字幕视频的镜头边界检测与关键帧提取方法。
本公开的一个方面,提供一种基于字幕视频的镜头边界检测与关键帧提取方法,所述方法包括以下步骤:
对视频流抽取视频帧序列,基于帧间差异特征对所述视频帧序列进行粗筛选,并将所述粗筛选的视频帧序列按在所述视频流的序号进行标号;
将所述粗筛选的视频帧序列中的每个帧图像分为上下两个区域;
分别对每个所述帧图像的上区域,基于FPN网络提取图像特征,并计算相邻两帧图像之间的图像特征的余弦相似性,设定阈值,如果相似性值大于阈值,则将第二帧作为镜头边界,并标记为表示场景内容变换的关键帧,得到第一目标关键视频帧序列;
分别对每个所述帧图像的下区域,采用EAST算法检测并提取文字区域,将存在文字区域的帧序列提取出来,并将提取出来的视频帧序列按照顺序排列,依次比较相邻帧图像文字区域的长度,如果长度变化相差预设数量的像素以上,则均判别为关键帧;以及,对短文本帧再提取与长文本行所在帧同样位置的区域,计算两区域的相似性;若不相似则两帧都作为关键帧,若相似,则取前一帧为关键帧,获得第二目标关键视频帧序列;
将所述第一目标关键视频帧序列和所述第二目标关键视频帧序列进行整合,获得最终的目标关键视频帧序列。
在一些可选地实施方式中,所述对视频流抽取视频帧序列,基于帧间差异特征对所述视频帧序列进行粗筛选,包括:
每隔预设时长从所述视频流中抽取一帧图像,获得所述视频帧序列;
计算所述视频帧序列中的相邻两帧图像的差值矩阵;
根据所述差值矩阵包括的非零像素值,计算判定阈值;
根据所述判定阈值,确定当前帧图像是否为粗筛选视频关键帧。
在一些可选地实施方式中,所述计算所述视频帧序列中的相邻两帧图像的差值矩阵,包括:
对抽取的帧图像进行灰度化处理,并用高斯滤波器对提取的每一帧图像对应的灰度图进行平滑处理;
按顺序对相邻帧图像进行灰度差值运算,即将当前帧图像对应的灰度图与上一帧图像对应的灰度图中对应位置处的像素灰度值相减,得到当前帧图像对应的差值矩阵。
在一些可选地实施方式中,所述根据所述差值矩阵包括的非零像素值,计算判定阈值,包括:
计算所述差值矩阵包括的所有非零像素值的平均值及方差;
确定所述差值矩阵中像素值大于所述平均值的非零像素值的第一数量,及像素值大于所述方差的非零像素值的第二数量;
根据所述第一数量和所述第二数量,通过如下公式(1)计算所述判定阈值:
T=1.85×sd+mean (1)
其中,T为所述判定阈值,mean为所述第一数量,sd为所述第二数量。
在一些可选地实施方式中,所述根据所述判定阈值,确定当前帧图像是否为粗筛选视频关键帧,包括:
若非零像素值的数量大于判定阈值,则将当前帧图像确定为视频关键帧;否则,确定当前帧图像不是视频关键帧。
在一些可选地实施方式中,所述分别对每个所述帧图像的上区域,基于FPN网络提取图像特征,包括:
将所述帧图像尺寸缩小至224×224;
采用ResNet50为骨干网络,提取出五个卷积层的特征,分别标记为C_1,C_2,C_3,C_4,C_5,尺寸分别为64×56×56,256 ×56×56,512×28×28,1024×14×14,2048×7×7;
对C_1-C_5进行处理,输出四种特征图P_1,P_2,P_3,P_4,具体尺寸分别为:256×56×56,256×28×28,256×14×14,256 ×14×14;
将C_5降维到256,经过卷积3×3处理,输出得到P_4,将 P_4上采样后与降维处理过的C_4相加,再经过3×3卷积处理,得到P_3,依次类推,得到最终融合特征P_1。
在一些可选地实施方式中,所述计算相邻两帧图像之间的图像特征的余弦相似性,包括:
将所述相邻两帧图像的融合特征分别表示为X,Y,根据如下公式(2)计算所述余弦相似度:
Figure RE-GDA0003043883620000041
在一些可选地实施方式中,所述将提取出来的视频帧序列按照顺序排列,依次比较相邻帧图像文字区域的长度,如果长度变化相差预设数量的像素以上,则均判别为关键帧,包括:
将提取出来的视频帧序列按照顺序排列,提取里面长度最长的文字区域;
依次比较相邻两帧图像的文本行长度,如果相差大于40像素,则均判别为关键帧。
本公开的另一个方面,提供一种电子设备,包括:
一个或多个处理器;
一个存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器实现根据前文记载的所述的方法。
本公开的另一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时能实现根据前文记载的所述的方法。
本公开的基于字幕视频的镜头边界检测与关键帧提取方法具有下述优点:
1)、现有关键帧提取技术都是基于视频帧场景目标变化来进行镜头分割和关键帧提取,并未考虑字幕在视频中的切换。本公开则通过将视频帧流进行分块处理,完善了关键帧中字幕信息的完整性。
2)、本公开通过两个深度神经网络模型分别提取视频场景特征和文字特征,提高了关键帧提取的正确性。
3)、本公开采用粗筛选和精细筛选的模式,降低处理复杂度。
附图说明
图1为本公开一实施例中电子设备的组成示意框图;
图2为本公开另一实施例的一种基于字幕视频的镜头边界检测与关键帧提取方法的流程图。
具体实施方式
为使本领域技术人员更好地理解本公开的技术方案,下面结合附图和具体实施方式对本公开作进一步详细描述。
首先,参照图1来描述用于实现本公开实施例的一种基于字幕视频的镜头边界检测与关键帧提取方法的示例电子设备。
如图1所示,电子设备100包括一个或多个处理器110、一个或多个存储装置120、一个或多个输入装置130、一个或多个输出装置140等,这些组件通过总线系统150和/或其他形式的连接机构互连。应当注意,图1所示的电子设备的组件和结构只是示例性的,而非限制性的,根据需要,电子设备也可以具有其他组件和结构。
处理器110可以是中央处理单元(CPU)、或者可以是由多个处理核构成、或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备100中的其他组件以执行期望的功能。
存储装置120可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器可以运行所述程序指令,以实现下文所述的本公开实施例中(由处理器实现)的客户端功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如,所述应用程序使用和/或产生的各种数据等。
输入装置130可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
输出装置140可以向外部(例如用户)输出各种信息(例如图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
下面,将参考图2描述根据本公开另一实施例的一种基于字幕视频的镜头边界检测与关键帧提取方法。
如图2所示,一种基于字幕视频的镜头边界检测与关键帧提取方法S100,所述方法包括以下步骤:
S110、对视频流抽取视频帧序列,基于帧间差异特征对所述视频帧序列进行粗筛选,并将所述粗筛选的视频帧序列按在所述视频流的序号进行标号。
具体地,在本步骤中,可以对视频流进行等间隔抽取得到视频帧序列,例如,可以每隔预设时长从视频数据中提取一帧图像,预设时长可设为1秒、5秒、10秒等。当然,除此以外,也可以对该视频流进行非等间隔抽取得到所述视频帧序列等等,本实施例对此并不限制。
S120、将所述粗筛选的视频帧序列中的每个帧图像分为上下两个区域。
具体地,在本步骤中,对每个帧图像形成的上下两个区域的面积大小并没有作出限定,例如,上下两个区域的面积比例可以为3:1,当然,本实施例并不以此为限,具体可以根据实际需要确定。
S130、分别对每个所述帧图像的上区域,基于FPN网络提取图像特征,并计算相邻两帧图像之间的图像特征的余弦相似性,设定阈值,如果相似性值大于阈值,则将第二帧作为镜头边界,并标记为表示场景内容变换的关键帧,得到第一目标关键视频帧序列。
S140、分别对每个所述帧图像的下区域,采用EAST算法检测并提取文字区域,将存在文字区域的帧序列提取出来,并将提取出来的视频帧序列按照顺序排列,依次比较相邻帧图像文字区域的长度,如果长度变化相差预设数量的像素以上,则均判别为关键帧;以及,对短文本帧再提取与长文本行所在帧同样位置的区域,计算两区域的相似性;若不相似则两帧都作为关键帧,若相似,则取前一帧为关键帧,获得第二目标关键视频帧序列。
S150、将所述第一目标关键视频帧序列和所述第二目标关键视频帧序列进行整合,获得最终的目标关键视频帧序列。
具体地,在本步骤中,对上述步骤分别标记的场景关键帧和文字关键帧按照在原视频序列中的标号进行融合整理,输出最终的视频关键帧序列。
本公开实施例的基于字幕视频的镜头边界检测与关键帧提取方法具有下述优点:
1)、现有关键帧提取技术都是基于视频帧场景目标变化来进行镜头分割和关键帧提取,并未考虑字幕在视频中的切换。本公开实施例则通过将视频帧流进行分块处理,完善了关键帧中字幕信息的完整性。
2)、本公开实施例通过两个深度神经网络模型分别提取视频场景特征和文字特征,提高了关键帧提取的正确性。
3)、本公开实施例采用粗筛选和精细筛选的模式,降低处理复杂度。
在一些可选地实施方式中,所述对视频流抽取视频帧序列,基于帧间差异特征对所述视频帧序列进行粗筛选,包括:
每隔预设时长从所述视频流中抽取一帧图像,获得所述视频帧序列。预设时长可设为1秒、5秒、10秒等。
计算所述视频帧序列中的相邻两帧图像的差值矩阵。
具体地,在本步骤中,可以对抽取的帧图像进行灰度化处理,并用高斯滤波器对提取的每一帧图像对应的灰度图进行平滑处理。之后,按顺序对相邻帧图像进行灰度差值运算,即将当前帧图像对应的灰度图与上一帧图像对应的灰度图中对应位置处的像素灰度值相减,得到当前帧图像对应的差值矩阵。
根据所述差值矩阵包括的非零像素值,计算判定阈值。
具体地,在本步骤中,计算所述差值矩阵包括的所有非零像素值的平均值及方差。确定所述差值矩阵中像素值大于所述平均值的非零像素值的第一数量,及像素值大于所述方差的非零像素值的第二数量。根据所述第一数量和所述第二数量,通过如下公式(1)计算所述判定阈值:
T=1.85×sd+mean (1)
其中,T为所述判定阈值,mean为所述第一数量,sd为所述第二数量。
根据所述判定阈值,确定当前帧图像是否为粗筛选视频关键帧。
具体地,在本步骤中,若非零像素值的数量大于判定阈值,则将当前帧图像确定为视频关键帧;否则,确定当前帧图像不是视频关键帧。
在一些可选地实施方式中,所述分别对每个所述帧图像的上区域,基于FPN网络提取图像特征,包括:
将所述帧图像尺寸缩小至224×224;
采用ResNet50为骨干网络,提取出五个卷积层的特征,分别标记为C_1,C_2,C_3,C_4,C_5,尺寸分别为64×56×56,256 ×56×56,512×28×28,1024×14×14,2048×7×7;
对C_1-C_5进行处理,输出四种特征图P_1,P_2,P_3,P_4,具体尺寸分别为:256×56×56,256×28×28,256×14×14,256 ×14×14;
将C_5降维到256,经过卷积3×3处理,输出得到P_4,将 P_4上采样后与降维处理过的C_4相加,再经过3×3卷积处理,得到P_3,依次类推,得到最终融合特征P_1。
在一些可选地实施方式中,所述计算相邻两帧图像之间的图像特征的余弦相似性,包括:
将所述相邻两帧图像的融合特征分别表示为X,Y,根据如下公式(2)计算所述余弦相似度:
Figure RE-GDA0003043883620000091
在一些可选地实施方式中,所述将提取出来的视频帧序列按照顺序排列,依次比较相邻帧图像文字区域的长度,如果长度变化相差预设数量的像素以上,则均判别为关键帧,包括:
将提取出来的视频帧序列按照顺序排列,提取里面长度最长的文字区域;
依次比较相邻两帧图像的文本行长度,如果相差大于40像素,则均判别为关键帧。
在一些可选地实施方式中,所述对短文本帧再提取与长文本行所在帧同样位置的区域,计算两区域的相似性;若不相似则两帧都作为关键帧,若相似,则取前一帧为关键帧,包括:
提取长文本帧图像的文本行区域,记录文本区域坐标。
根据上述获得的坐标提取短文本帧中的区域。
计算两个区域的特征,计算相似性,具体地,特征包含灰度均值、方差、信息熵等,根据公式(2)计算相似度。
设定阈值,大于阈值,则取前一帧为关键帧,小于阈值,两帧都作为关键帧。
本公开的另一个方面,提供一种电子设备,包括:
一个或多个处理器;
一个存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器实现根据前文记载的方法。
本公开的另一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时能实现根据前文记载的所述的方法。
其中,计算机可读介质可以是本公开的装置、设备、系统中所包含的,也可以是单独存在。
其中,计算机可读存储介质可是任何包含或存储程序的有形介质,其可以是电、磁、光、电磁、红外线、半导体的系统、装置、设备,更具体的例子包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、光纤、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件,或它们任意合适的组合。
其中,计算机可读存储介质也可包括在基带中或作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码,其具体的例子包括但不限于电磁信号、光信号,或它们任意合适的组合。
可以理解的是,以上实施方式仅仅是为了说明本公开的原理而采用的示例性实施方式,然而本公开并不局限于此。对于本领域内的普通技术人员而言,在不脱离本公开的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本公开的保护范围。

Claims (10)

1.一种基于字幕视频的镜头边界检测与关键帧提取方法,其特征在于,所述方法包括以下步骤:
对视频流抽取视频帧序列,基于帧间差异特征对所述视频帧序列进行粗筛选,并将所述粗筛选的视频帧序列按在所述视频流的序号进行标号;
将所述粗筛选的视频帧序列中的每个帧图像分为上下两个区域;
分别对每个所述帧图像的上区域,基于FPN网络提取图像特征,并计算相邻两帧图像之间的图像特征的余弦相似性,设定阈值,如果相似性值大于阈值,则将第二帧作为镜头边界,并标记为表示场景内容变换的关键帧,得到第一目标关键视频帧序列;
分别对每个所述帧图像的下区域,采用EAST算法检测并提取文字区域,将存在文字区域的帧序列提取出来,并将提取出来的视频帧序列按照顺序排列,依次比较相邻帧图像文字区域的长度,如果长度变化相差预设数量的像素以上,则均判别为关键帧;以及,对短文本帧再提取与长文本行所在帧同样位置的区域,计算两区域的相似性;若不相似则两帧都作为关键帧,若相似,则取前一帧为关键帧,获得第二目标关键视频帧序列;
将所述第一目标关键视频帧序列和所述第二目标关键视频帧序列进行整合,获得最终的目标关键视频帧序列。
2.根据权利要求1所述的方法,其特征在于,所述对视频流抽取视频帧序列,基于帧间差异特征对所述视频帧序列进行粗筛选,包括:
每隔预设时长从所述视频流中抽取一帧图像,获得所述视频帧序列;
计算所述视频帧序列中的相邻两帧图像的差值矩阵;
根据所述差值矩阵包括的非零像素值,计算判定阈值;
根据所述判定阈值,确定当前帧图像是否为粗筛选视频关键帧。
3.根据权利要求2所述的方法,其特征在于,所述计算所述视频帧序列中的相邻两帧图像的差值矩阵,包括:
对抽取的帧图像进行灰度化处理,并用高斯滤波器对提取的每一帧图像对应的灰度图进行平滑处理;
按顺序对相邻帧图像进行灰度差值运算,即将当前帧图像对应的灰度图与上一帧图像对应的灰度图中对应位置处的像素灰度值相减,得到当前帧图像对应的差值矩阵。
4.根据权利要求3所述的方法,其特征在于,所述根据所述差值矩阵包括的非零像素值,计算判定阈值,包括:
计算所述差值矩阵包括的所有非零像素值的平均值及方差;
确定所述差值矩阵中像素值大于所述平均值的非零像素值的第一数量,及像素值大于所述方差的非零像素值的第二数量;
根据所述第一数量和所述第二数量,通过如下公式(1)计算所述判定阈值:
T=1.85×sd+mean (1)
其中,T为所述判定阈值,mean为所述第一数量,sd为所述第二数量。
5.根据权利要求4所述的方法,其特征在于,所述根据所述判定阈值,确定当前帧图像是否为粗筛选视频关键帧,包括:
若非零像素值的数量大于判定阈值,则将当前帧图像确定为视频关键帧;否则,确定当前帧图像不是视频关键帧。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述分别对每个所述帧图像的上区域,基于FPN网络提取图像特征,包括:
将所述帧图像尺寸缩小至224×224;
采用ResNet50为骨干网络,提取出五个卷积层的特征,分别标记为C_1,C_2,C_3,C_4,C_5,尺寸分别为64×56×56,256×56×56,512×28×28,1024×14×14,2048×7×7;
对C_1-C_5进行处理,输出四种特征图P_1,P_2,P_3,P_4,具体尺寸分别为:256×56×56,256×28×28,256×14×14,256×14×14;
将C_5降维到256,经过卷积3×3处理,输出得到P_4,将P_4上采样后与降维处理过的C_4相加,再经过3×3卷积处理,得到P_3,依次类推,得到最终融合特征P_1。
7.根据权利要求6所述的方法,其特征在于,所述计算相邻两帧图像之间的图像特征的余弦相似性,包括:
将所述相邻两帧图像的融合特征分别表示为X,Y,根据如下公式(2)计算所述余弦相似度:
Figure FDA0002885630050000031
8.根据权利要求7所述的方法,其特征在于,所述将提取出来的视频帧序列按照顺序排列,依次比较相邻帧图像文字区域的长度,如果长度变化相差预设数量的像素以上,则均判别为关键帧,包括:
将提取出来的视频帧序列按照顺序排列,提取里面长度最长的文字区域;
依次比较相邻两帧图像的文本行长度,如果相差大于40像素,则均判别为关键帧。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器实现根据权利要求1至8任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时能实现根据权利要求1至8任一项所述的方法。
CN202110012840.XA 2021-01-06 2021-01-06 一种基于字幕视频的镜头边界检测与关键帧提取方法 Active CN112990191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110012840.XA CN112990191B (zh) 2021-01-06 2021-01-06 一种基于字幕视频的镜头边界检测与关键帧提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110012840.XA CN112990191B (zh) 2021-01-06 2021-01-06 一种基于字幕视频的镜头边界检测与关键帧提取方法

Publications (2)

Publication Number Publication Date
CN112990191A CN112990191A (zh) 2021-06-18
CN112990191B true CN112990191B (zh) 2022-11-25

Family

ID=76345299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110012840.XA Active CN112990191B (zh) 2021-01-06 2021-01-06 一种基于字幕视频的镜头边界检测与关键帧提取方法

Country Status (1)

Country Link
CN (1) CN112990191B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113453017B (zh) * 2021-06-24 2022-08-23 咪咕文化科技有限公司 视频处理方法、装置、设备及计算机程序产品
CN113657207B (zh) * 2021-07-29 2023-08-08 威胜信息技术股份有限公司 一种云-边协同配电站火光智能监测方法及系统
CN113887430B (zh) * 2021-09-30 2024-04-30 国网山东省电力公司信息通信公司 一种轮询视频文字定位方法及系统
CN114155473B (zh) * 2021-12-09 2022-11-08 成都智元汇信息技术股份有限公司 基于帧补偿的切图方法、电子设备及介质
CN113963305B (zh) * 2021-12-21 2022-03-11 网思科技股份有限公司 一种视频关键帧和特写片段提取方法
CN114915856B (zh) * 2022-05-17 2023-05-05 中国科学院半导体研究所 视频关键帧标识方法、装置、设备及介质
CN114979481B (zh) * 2022-05-23 2023-07-07 深圳市海创云科技有限公司 一种5g超高清视频监控系统及方法
CN115277650B (zh) * 2022-07-13 2024-01-09 深圳乐播科技有限公司 投屏显示控制方法、电子设备及相关装置
CN115396726B (zh) * 2022-08-01 2024-05-07 陈兵 一种用于商务直播的演示文稿生成系统及方法
CN116112763A (zh) * 2022-11-15 2023-05-12 国家计算机网络与信息安全管理中心 一种自动化生成短视频内容标签的方法及系统
CN116168045B (zh) * 2023-04-21 2023-08-18 青岛尘元科技信息有限公司 扫变镜头的分割方法和系统、存储介质及电子设备
CN116524417B (zh) * 2023-06-30 2023-10-20 深圳市华曦达科技股份有限公司 一种基于Flink的分布式实时视频关键帧的提取方法和装置
CN117710870B (zh) * 2024-02-05 2024-04-30 武汉博特智能科技有限公司 基于大数据技术的互联网内容监测方法、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844779A (zh) * 2017-11-21 2018-03-27 重庆邮电大学 一种视频关键帧提取方法
CN109918987A (zh) * 2018-12-29 2019-06-21 中国电子科技集团公司信息科学研究院 一种视频字幕关键词识别方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844779A (zh) * 2017-11-21 2018-03-27 重庆邮电大学 一种视频关键帧提取方法
CN109918987A (zh) * 2018-12-29 2019-06-21 中国电子科技集团公司信息科学研究院 一种视频字幕关键词识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CUDA框架下的视频关键帧互信息熵多级提取算法;郝晓丽等;《电子科技大学学报》;20180930(第05期);全文 *
互信息熵和Prewitt差测度的Lasso模型关键帧提取;高永等;《中国科技论文》;20171023(第20期);全文 *

Also Published As

Publication number Publication date
CN112990191A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN112990191B (zh) 一种基于字幕视频的镜头边界检测与关键帧提取方法
JP5420199B2 (ja) 映像解析装置、映像解析方法、ダイジェスト自動作成システム及びハイライト自動抽出システム
KR100645300B1 (ko) 시청각 프리젠테이션의 컨텐츠를 요약화하여 색인화하는방법 및 장치
US8358837B2 (en) Apparatus and methods for detecting adult videos
CN106937114B (zh) 用于对视频场景切换进行检测的方法和装置
EP3082065A1 (en) Duplicate reduction for face detection
JP5478047B2 (ja) 映像データ圧縮前処理方法およびこれを用いた映像データ圧縮方法と映像データ圧縮システム
CN111695540B (zh) 视频边框识别方法及裁剪方法、装置、电子设备及介质
US8947600B2 (en) Methods, systems, and computer-readable media for detecting scene changes in a video
JP2006067585A (ja) デジタル画像におけるキャプションを位置特定及び抽出する方法及び装置
EP1932117A2 (en) Method and apparatus for determining automatically the shot type of an image (close-up shot versus long shot)
Fadl et al. Frame duplication and shuffling forgery detection technique in surveillance videos based on temporal average and gray level co-occurrence matrix
CN111836118B (zh) 视频处理方法、装置、服务器及存储介质
CN103198311A (zh) 基于拍摄的图像来识别字符的方法及装置
CN107203763B (zh) 文字识别方法和装置
WO2009034047A1 (en) Method for tracking an object in a sequence of images and device implementing said method
US8311269B2 (en) Blocker image identification apparatus and method
Li et al. Detection of blotch and scratch in video based on video decomposition
CN111191591A (zh) 一种水印检测、视频处理方法和相关设备
KR20110099047A (ko) 영상 디스크립터 생성 장치
US20070061727A1 (en) Adaptive key frame extraction from video data
CN113312949B (zh) 视频数据处理方法、视频数据处理装置和电子设备
KR101667011B1 (ko) 입체 영상의 장면 전환 검출 장치 및 방법
US10686969B2 (en) Detecting shot changes in a video
Chittapur et al. Exposing digital forgery in video by mean frame comparison techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant