CN116740601A - 一种两阶段的学术视频关键帧提取方法 - Google Patents
一种两阶段的学术视频关键帧提取方法 Download PDFInfo
- Publication number
- CN116740601A CN116740601A CN202310626014.3A CN202310626014A CN116740601A CN 116740601 A CN116740601 A CN 116740601A CN 202310626014 A CN202310626014 A CN 202310626014A CN 116740601 A CN116740601 A CN 116740601A
- Authority
- CN
- China
- Prior art keywords
- video
- key frame
- extraction
- constructing
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000001514 detection method Methods 0.000 claims abstract description 24
- 238000005070 sampling Methods 0.000 claims abstract description 20
- 230000006835 compression Effects 0.000 claims abstract description 12
- 238000007906 compression Methods 0.000 claims abstract description 12
- 230000005284 excitation Effects 0.000 claims abstract description 12
- 238000012360 testing method Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000005457 optimization Methods 0.000 claims abstract description 5
- 239000002775 capsule Substances 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 8
- 238000009825 accumulation Methods 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 239000013256 coordination polymer Substances 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/635—Overlay text, e.g. embedded captions in a TV program
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种两阶段的学术视频关键帧提取方法。该方法包括:S1,视频帧分解,按照帧率固定比例对其进行等间隔拆分,并读取场景文本图像数据集ICDAR 2015;S2,构建两阶段的关键帧提取模型,将视频帧图像送入所述关键帧提取模型经Stage1和Stage2处理后得到关键帧集;S3,构建视频字幕检测模型,增加空洞卷积和压缩激励模块改进特征提取层,并动态更新学习率优化路由算法,训练所述视频字幕检测模型;S4,构建关键帧集提取算法,引入自适应时空采样线,测试关键帧集提取算法;S5,利用S3和S4训练测试所得的关键帧提取模型对输入视频执行上述S1和S2,根据字幕帧存在阈值区间生成关键帧集合。该方法能够充分利用视频的多模态信息,具有更好的鲁棒性和普适性,且关键帧提取更加精准,满足用户的现实需求。
Description
技术领域
本发明涉及一种两阶段的学术视频关键帧提取方法,属于视频数据处理领域。
背景技术
在教育数字化背景下,随着互联网和硬件存储介质的飞速发展,每天都会涌现出大量视频,在线视频数量迅速增长。视频作为一种能够直接呈现画面、音频和文本等多模态信息的载体,广泛传播于各媒介之间。尽管视频检索技术在不断的更新迭代,但面对海量的视频数据,人们还是很难高效准确地获取有价值的视频信息。学术视频是人们自主获取信息和知识的重要渠道,近年来得到了普及式发展。学术视频的大量涌现使用户对视频快速浏览的现实需求提出了更紧迫的要求,视频摘要技术的出现,缓解了视频检索和存储压力,并逐渐成为研究热点。该技术能够在分析原始视频特征的基础上,从中选取最有价值的视频信息进行紧凑表示。
视频是多模态信息的结合体,如何充分挖掘其中的信息来构建满足用户现实需求的摘要,已成为亟待解决的问题。Zhang等人通过阈值来识别视频中的镜头,选取镜头内具有代表性的帧为关键帧。瞿等人利用颜色特征进行镜头检测,在计算每帧的图像熵值之后,选取最大熵值所在帧为关键帧,有效提高了镜头检测准确率,且镜头内容分布均匀。此类方法在镜头分割过程中均对阈值有较高的依赖性。Kethsy等人提出基于Fuzzy规则的直方图差分法进行镜头边界检测,克服了基于阈值分量法的阈值依赖缺陷,但容易丢失空间信息。Lo等人利用直方图法获得帧间差分向量,之后用模糊C均值聚类法对镜头变化进行三聚类,并从中选取变化帧用于镜头分割。聚类方法消除了镜头边界检测对阈值的依赖性,但需提前设定聚类的类别。白等人提出一种基于层次聚类与人工免疫聚类相结合的关键帧提取方法,利用初次层次聚类的初始结果作为二次人工免疫聚类的初始条件进行处理,得到关键帧。该方法避免了人工设定聚类中心及数目的缺点,但丢失了图像帧之间的时序信息和动态信息。已有的关键帧提取技术多依赖于视频底层特征,无法兼顾时空信息,且提取结果无法准确全面的表征视频的真实内容。面对不同应用场景的视频,现有摘要技术多以特有的画面信息为特征展开研究。王等人提出基于色矩匹配的镜头检测方法,以主持人画面为模板,准确检测主持人镜头。吴提出慢放镜头检测算法,以精彩慢放镜头为体育视频关键帧来建立摘要。张等人提出基于频域分析的关键帧提取算法,将运动物体局部中心偏移量最大的帧作为关键帧来构建监控视频摘要。研究显示,视频的嵌入式文本(字幕)信息是理解视频内容的重要线索,具有很大的研究价值。除此之外,视频字幕具有显著的结构特性和语义特性,其通常出现在视频下方,与背景对比鲜明,且字幕文本言简意赅,对视频内容有较好的概括作用。金等人认为视频数据携带的字幕是提取视频数据高级语义的核心。肖等人提出了一种基于多特征得到两阶段关键帧提取算法,利用视频字幕定位完成视频关键词统计,并以此提取视频关键片段。现有关键帧提取技术严重依赖于视频的底层单特征,无法获取视频完整的语义信息,计算量大、摘要效果差且具有实际场景应用壁垒。
发明内容
针对传统关键帧提取方法基于全局像素处理后存在计算量大的问题以及现有基于图像底层特征的文本检测方法存在特征提取不充分,检测效果不理想,具有不稳定性的问题,本发明提供了一种两阶段的学术视频关键帧提取方法,通过构建基于改进CapsNet的视频字幕检测模型和自适应关键帧提取算法实现学术视频稳定状态下的关键帧提取。
本发明提供了一种两阶段的学术视频关键帧提取方法,所述方法包括下述步骤:
S1:视频帧分解,按照帧率固定比例对其进行等间隔拆分,并读取场景文本图像数据集;
S2,构建两阶段的关键帧提取模型,将视频帧图像送入所述关键帧提取模型经Stage1模块和Stage2模块处理后得到关键帧集,所述关键帧提取模型包括:
Stage1模块,所述Stage1模块以场景文本图像数据集为数据来源,该阶段首次引入胶囊网络CapsNet作为基本网络架构,并通过搭建软池化、空洞卷积以及压缩激励模块来完成特征增强和特征筛选,使网络能够学习到更丰富的图像特征;
Stage2模块,所述Stage2模块以Stage1的处理结果为输入,通过边界坐标来获取自适应采样位置,以获取更加丰富的学术视频帧特征信息,实现更精准的字幕累积统计;
S3,构建视频字幕检测模型,增加空洞卷积和压缩激励模块改进特征提取层,并动态更新学习率优化路由算法,训练所述视频字幕检测模型;
S4,构建关键帧集提取算法,引入自适应时空采样线,测试关键帧集提取算法;
S5,利用S3和S4训练测试所得的关键帧提取模型对输入视频执行上述S1和S2,根据字幕帧存在阈值区间生成关键帧集合。
优选地,完成所述视频帧分解,包括:
在完成视频信息分析的基础上,将帧率的三分之一作为固定帧率比,即采样间隔,以等间隔抽取视频帧以构成待处理的视频帧序列。
优选地,构建所述视频字幕检测模型,包括:
将所述场景文本图像数据集,利用深层空洞卷积堆叠层进行特征增强,得到卷积特征图;
将所述卷积特征图,利用压缩激励模块进行全局平均池及全连接操作完成特征筛选,得到改善的特征表示;
将改善的特征表示,利用胶囊层和路由的自适应矩估计完成字幕检测并进行8值坐标点输出。
优选地,构建所述关键帧提取算法,包括:
采用等间隔取样法来标定自采样线位置,并根据8值坐标来计算子采样线的空域位置;
构建自适应时空累积,计算自适应时空采样下的字幕累积均值得到所述的时空累积统计;
创建Flag标识,采用双值标定法以及字幕存在阈值得到所述关键帧集合。
与现有技术相比,本发明至少具备以下有益效果:
1、本发明提供了一种两阶段的学术视频关键帧提取方法,该方法结合学术视频字幕嵌入的结构特性,将关键帧选取映射到字幕边界标定,从多模态挖掘视频信息,有助于视频内容的深层表达。
2、本发明引入了胶囊网络CapsNet来进行视频字幕检测,利用胶囊网络本身对旋转适应性较好的性能解决字幕多方向问题,通过加深空洞卷积层来增强特征提取能力,并通过压缩激励模块来完成特征筛选,从而提升网络的特征表示能力。
3、本发明引入了自适应矩估计算法,利用该算法对胶囊之间的误差进行移动指数平均,实现自适应权重矩估计,动态更新路由算法学习率,提高模型稳定性。
4、本发明在基准数据集ICDAR 2015和新建学术视频数据集上进行了实验验证。实验结果表明,所提方法能够充分利用视频的多模态信息,精准提取视频关键帧,且具有较高的普适性。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明提供的一种两阶段的学术视频关键帧提取方法的实现流程图;
图2为本发明实施例提供的一种两阶段的学术视频关键帧提取方法的整体框架图;
图3为本发明实施例提供的视频字幕检测模型的框架图;
图4为本发明实施例提供的关键帧提取算法的流程图;
图5为本发明实施例提供的一个本发明生成的关键帧结果。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
如图1所示,为本发明提供的一种两阶段的学术视频关键帧提取方法的实现流程图。本实施例提供了一种两阶段的学术视频关键帧提取方法,包括如下步骤:
S1:视频帧分解,按照帧率固定比例对其进行等间隔拆分,并读取场景文本图像数据集;
S2,构建两阶段的关键帧提取模型,将视频帧图像送入所述关键帧提取模型经Stage1模块和Stage2模块处理后得到关键帧集;
S3,构建视频字幕检测模型,增加空洞卷积和压缩激励模块改进特征提取层,并动态更新学习率优化路由算法,训练所述视频字幕检测模型;
S4,构建关键帧集提取算法,引入自适应时空采样线,测试关键帧集提取算法;
S5,利用S3和S4训练测试所得的关键帧提取模型对输入视频执行上述S1和S2,根据字幕帧存在阈值区间生成关键帧集合。
实施例一:
本发明提供了一个优选实施例执行S1,视频帧分解,按照帧率固定比例对其进行等间隔拆分,并读取场景文本图像数据集;
本发明可以处理携带字幕的学术视频,也可以处理任何携带字幕的视频,例如电影、新闻等。具体步骤如下:
针对时长为L的视频V进行帧采样操作,根据视频自身帧率fps,按照的比例进行等间隔抽取,最终得到视频帧序列的帧数记为/>并加载场景文本图像数据集ICDAR 2015。
实施例二:
本发明提供了一个实施例执行S2,构建两阶段的关键帧提取模型,将视频帧图像送入所述关键帧提取模型经Stage1模块和Stage2模块处理后得到关键帧集。
如图2所示,为本实施例方法的整体框架图。该架构图分为两个模块,分别为Stage1和Stage2,下面将分别阐述各个模块的具体构建步骤:
S21,构建Stage1模块,具体来说,该以场景文本图像数据集为数据来源,该阶段首次引入胶囊网络CapsNet作为基本网络架构,并通过搭建软池化、空洞卷积以及压缩激励模块来完成特征增强和特征筛选,使网络能够学习到更丰富的图像特征。
S22,构建Stage2模块,具体来说,该模块以Stage1的处理结果为输入,通过边界坐标来获取自适应采样位置,以获取更加丰富的学术视频帧特征信息,实现更精准的字幕累积统计。
实施例三:
本发明提供了一个优选实施例执行S3,构建视频字幕检测模型,增加空洞卷积和压缩激励模块改进特征提取层,并动态更新学习率优化路由算法,训练所述视频字幕检测模型。
如图3所示,为本实施例网络模型的整体框架图。该网络包括特征增强、特征筛选以及改进路由这三部分,下面将阐述该模型的构建步骤:
首先是通过加深网络层数来进行特征增强,利用卷积提取浅层特征后引入3层空洞卷积,增加感受野,以获得目标轮廓特征;之后是在卷积之后引入压缩激励模块来完成特征筛选;最后引入自适应矩估计算法来动态更新路由学习率,提高模型整体性能。
具体来说,该路由改进算法,首先定义胶囊层l和迭代次数r,然后完成初始化,其中向前路由先验概率bij←0,权重一阶矩Ft=0,权重二阶矩St=0,一阶矩指数衰减率δ=0.9,二阶矩指数衰减率γ=0.999,时间步t=0,稳定数值常数ε=10-8,改进后向量归一化表示为:
实施例四:
本发明提供了一个优选实施例执行S4,构建关键帧集提取算法,引入自适应时空采样线,测试关键帧集提取算法。
如图4所示,为本实施例的实现流程图。本发明中设计的自适应关键帧提取的具体实现方式如下:
S41,输入视频V,帧号总数为N,令计数值为n。
S42,迭代停止条件:n>N,跳转到S225,否则继续S43。
S43,令y0=h+x·Δ(x=1,2,3),为时空字幕均值取Δn=9个采样单位,令n=n+1,返回S42。
S44,遍历[nmin,nmax],寻找满足条件的帧号nk∈[nmin,nmax],该过程可以表示为:
当nk不存在时令SSPAAve(nk)=0,nk+=1,返回S42;当nk存在时依采样单位记录SSPAAve(nk)和nk,令nk+=1,返回S42。
S45,按照帧号nk构建关键帧集,算法终止。
其中,SSPA表示字幕累积值,SSPAAve表示自采样下的累积均值,表示第i帧视频帧在位置<j,y0>处的像素值,且y0是变量,j是单帧行像素位置。
实施例五:
基于上述实施例,本发明提供了一个优选实例执行S5,利用S3和S4训练测试所得的关键帧提取模型对输入视频执行上述S1和S2,根据字幕帧存在阈值区间生成关键帧集合。
为了验证以上实施例的可行性,将本发明应用于实际,通过观测其在新建视频数据集上的关键帧结果来证明其可行性。该视频片段时长为15.9s,帧率为30fps/s,共计479帧,且通过人工观测计数可知,该视频选段包含6个关键帧。
所提方法的实验结果如图5所示,本发明能够有效提取学术视频的关键帧。通过对所提方法的分析可知,字幕像素累积曲线能够反映视频字幕的出现和消失,且视频中相同字幕在理想状态下可得到相同的字幕像素累积值,在CP曲线中表现为CPv持续为1的维稳区间段。从图5中的CP曲线中可以看出,该曲线存在6段CPv值为1的稳定区间段,即存在6条字幕。曲线分别在视频序列的第20帧、第112帧、第118帧、第220帧、第229帧、第310帧、第319帧、第379帧、第388帧、第421帧和第430帧处产生瞬间突变,即曲线的突变点位于这些位置点。故稳定状态关键帧分别为原视频帧的第46帧、第168帧、第268帧、第348帧、第405帧和第484帧,总计6帧,符合实验视频的基本信息,进一步验证了所提方法的可行性。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下,可以任意组合使用。
Claims (4)
1.一种两阶段的学术视频关键帧提取方法,其特征在于,包括如下步骤:
S1:视频帧分解,按照帧率固定比例对其进行等间隔拆分,并读取场景文本图像数据集;
S2,构建两阶段的关键帧提取模型,将视频帧图像送入所述关键帧提取模型经Stage1模块和Stage2模块处理后得到关键帧集,所述关键帧提取模型包括:
Stage1模块,所述Stage1模块以场景文本图像数据集为数据来源,该阶段首次引入胶囊网络CapsNet作为基本网络架构,并通过搭建软池化、空洞卷积以及压缩激励模块来完成特征增强和特征筛选,使网络能够学习到更丰富的图像特征;
Stage2模块,所述Stage2模块以Stage1的处理结果为输入,通过边界坐标来获取自适应采样位置,以获取更加丰富的学术视频帧特征信息,实现更精准的字幕累积统计;
S3,构建视频字幕检测模型,增加空洞卷积和压缩激励模块改进特征提取层,并动态更新学习率优化路由算法,训练所述视频字幕检测模型;
S4,构建关键帧集提取算法,引入自适应时空采样线,测试关键帧集提取算法;
S5,利用S3和S4训练测试所得的关键帧提取模型对输入视频执行上述S1和S2,根据字幕帧存在阈值区间生成关键帧集合。
2.根据权利要求1所述的两阶段的学术视频关键帧提取方法,其特征在于,完成所述视频帧分解,其中帧率固定比例是指在完成视频信息分析的基础上,选取帧率的三分之一为采样间隔,等间隔抽取视频帧以构成待处理的视频帧序列。
3.根据权利要求1所述的两阶段的学术视频关键帧提取方法,其特征在于,构建所述视频字幕检测模型,包括:
将所述场景文本图像数据集,通过堆叠的空洞卷积层来进行特征增强,以得到卷积特征图;
将所述卷积特征图,通过压缩激励模块进行全局平均池化和全连接操作来完成特征筛选,以得到改善的特征表示;
将改善的特征表示,通过胶囊层和自适应矩估计下的路由算法来完成字幕检测,最后输出字幕区的8值坐标点。
4.根据权利要求1所述的两阶段的学术视频关键帧提取方法,其特征在于,构建所述关键帧提取算法,包括:
采用等间隔取样法来标定自采样线位置,并根据8值坐标来计算子采样线的空域位置;
构建自适应时空累积,计算自适应时空采样下的字幕累积均值得到所述的时空累积统计;
创建Flag标识,采用双值标定法以及字幕存在阈值得到所述关键帧集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310626014.3A CN116740601B (zh) | 2023-05-30 | 2023-05-30 | 一种两阶段的学术视频关键帧提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310626014.3A CN116740601B (zh) | 2023-05-30 | 2023-05-30 | 一种两阶段的学术视频关键帧提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116740601A true CN116740601A (zh) | 2023-09-12 |
CN116740601B CN116740601B (zh) | 2024-04-30 |
Family
ID=87905481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310626014.3A Active CN116740601B (zh) | 2023-05-30 | 2023-05-30 | 一种两阶段的学术视频关键帧提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116740601B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109151616A (zh) * | 2018-08-07 | 2019-01-04 | 石家庄铁道大学 | 视频关键帧提取方法 |
CN114187506A (zh) * | 2021-11-22 | 2022-03-15 | 武汉科技大学 | 视点意识的动态路由胶囊网络的遥感图像场景分类方法 |
US20220385914A1 (en) * | 2021-05-27 | 2022-12-01 | Samsung Electronics Co., Ltd. | Methods and apparatus for processing of high-resolution video content |
-
2023
- 2023-05-30 CN CN202310626014.3A patent/CN116740601B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109151616A (zh) * | 2018-08-07 | 2019-01-04 | 石家庄铁道大学 | 视频关键帧提取方法 |
US20220385914A1 (en) * | 2021-05-27 | 2022-12-01 | Samsung Electronics Co., Ltd. | Methods and apparatus for processing of high-resolution video content |
CN114187506A (zh) * | 2021-11-22 | 2022-03-15 | 武汉科技大学 | 视点意识的动态路由胶囊网络的遥感图像场景分类方法 |
Non-Patent Citations (3)
Title |
---|
HAO PENGWEI ET AL: "Co-histogram and its applicationin video analysis", 《PROCEEDINGS OF IEEE INTERNATIONALCONFERENCE ON MULTIMEDIA AND EXPO(ICME)》, pages 195 - 203 * |
肖栩豪 等: "基于多特征视频关键片段提取研究———以健康类动画视频为例", 《中国电子科学研究院学报》, no. 6, pages 561 - 568 * |
苗硕等: "基于改进胶囊网络的X 射线图像违禁品检测", 《HTTPS://KNS.CNKI.NET/KCMS/DETAIL/41.1384.N.20211231.1218.001.HTML》, pages 1 - 9 * |
Also Published As
Publication number | Publication date |
---|---|
CN116740601B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Michieli et al. | Adversarial learning and self-teaching techniques for domain adaptation in semantic segmentation | |
US7949188B2 (en) | Image processing apparatus, image processing method, and program | |
KR100873638B1 (ko) | 영상 처리 방법 및 장치 | |
US8503770B2 (en) | Information processing apparatus and method, and program | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
EP2246807A1 (en) | Information processing apparatus and method, and program | |
US20120099793A1 (en) | Video summarization using sparse basis function combination | |
CN100589532C (zh) | 字幕区域提取装置和方法 | |
CN103200463A (zh) | 一种视频摘要生成方法和装置 | |
CN113591968A (zh) | 一种基于非对称注意力特征融合的红外弱小目标检测方法 | |
CN110619284B (zh) | 一种视频场景划分方法、装置、设备及介质 | |
Haq et al. | Video summarization techniques: a review | |
CN111711771B (zh) | 一种图像选取方法、装置、电子设备及存储介质 | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
Qu et al. | An improved keyframe extraction method based on HSV colour space. | |
CN107066488B (zh) | 基于影视内容语义分析的影视桥段自动分割方法 | |
Kam et al. | Content based image retrieval through object extraction and querying | |
JP5116017B2 (ja) | 動画検索方法およびシステム | |
CN111507416A (zh) | 一种基于深度学习的吸烟行为实时检测方法 | |
JP2002513487A (ja) | オブジェクト指向コンテンツに基づくビデオ・サーチ用のアルゴリズム及びシステム | |
CN116740601B (zh) | 一种两阶段的学术视频关键帧提取方法 | |
CN112257638A (zh) | 一种图像比对方法、系统、设备及计算机可读存储介质 | |
CN114567798B (zh) | 一种针对互联网短视频变种的溯源方法 | |
CN115393788B (zh) | 一种基于增强全局信息注意力的多尺度监控行人重识别方法 | |
CN114067356B (zh) | 基于联合局部引导与属性聚类的行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |