CN101719144A - 一种联合字幕和视频图像信息进行场景分割和索引的方法 - Google Patents
一种联合字幕和视频图像信息进行场景分割和索引的方法 Download PDFInfo
- Publication number
- CN101719144A CN101719144A CN200910236887A CN200910236887A CN101719144A CN 101719144 A CN101719144 A CN 101719144A CN 200910236887 A CN200910236887 A CN 200910236887A CN 200910236887 A CN200910236887 A CN 200910236887A CN 101719144 A CN101719144 A CN 101719144A
- Authority
- CN
- China
- Prior art keywords
- captions
- video
- scene
- key
- carry out
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000010586 diagram Methods 0.000 claims abstract description 15
- 230000007704 transition Effects 0.000 claims abstract description 10
- 239000000284 extract Substances 0.000 claims description 31
- 239000012634 fragment Substances 0.000 claims description 25
- 238000000605 extraction Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 15
- 238000010168 coupling process Methods 0.000 claims description 7
- 238000005859 coupling reaction Methods 0.000 claims description 7
- 230000002123 temporal effect Effects 0.000 claims description 7
- 230000008878 coupling Effects 0.000 claims description 5
- 238000005520 cutting process Methods 0.000 claims description 5
- 230000033001 locomotion Effects 0.000 claims description 5
- 238000005303 weighing Methods 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 2
- 230000002457 bidirectional effect Effects 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 12
- 230000008859 change Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000009467 reduction Effects 0.000 description 6
- 230000009466 transformation Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004438 eyesight Effects 0.000 description 3
- 238000012098 association analyses Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003455 independent Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000005039 memory span Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种联合字幕和视频图像信息进行场景分割与索引的方法,其特征在于,每条字幕持续时间段内视频帧集合作为场景聚簇的最小单元,包括步骤:获得场景聚簇的最小单元后,抽取至少3个或以上不连续的视频帧作为该条字幕的视频关键帧集合;使用双向SIFT关键点匹配方法比较若干个相邻最小单元关键帧的相似性,再结合字幕关联转移图建立字幕与场景的初始归属关系;对于被判定为不相似的连续最小聚簇单元利用其对应字幕的相关性进一步判断其是否可以进行合并;根据所确定的字幕场景归属关系进行视频场景抽取。对所抽取的视频场景片段,使用该片段所包含的字幕文本所生成的前向和倒排索引作为检索该视频片段的依据。
Description
技术领域
本发明涉及视频索引与搜索技术领域,具体地说,本发明涉及一种联合字幕和视频图像信息进行场景分割与索引的方法。
背景技术
大容量存储设备制造技术的进步,网络数据传输速率的提高,以及持续改进的高效视频压缩技术使数字视频得以广泛传播和使用,改善了人们的娱乐文化生活。在海量视频库中寻找感兴趣的视频片段成为一个新的问题。视频可被组织为包含场景、镜头和帧的树型层次结构。帧即图像,是视频中最基本的物理单元,镜头是由同一个摄像机连续捕获的帧序列,它是视频图像序列的物理边界。场景则由一个或多个连续镜头组成,这些镜头拥有类似的背景或对象,并且在语义上相关、时间上相近,它表达的是具有完整语义的故事单元,是视频图像序列的语义边界。目前,电影视频内容的浏览和检索基本上是基于镜头进行的,但作为电影最小拍摄单元,镜头数量众多而且没有完整的语义信息。对于一部电影,人们通常关注的是一些特定的场景(如人物对话或打斗的场景),检索时也一般根据特定场景进行,而不仅仅针对某个镜头。因此,有效地将视频划分为多个场景片段并为这些片段生成高层语义信息有利于提高视频检索质量。
本发明主要讨论电影类视频进行场景抽取和索引的方法。该类视频进行场景抽取的过程一般可以分为两个步骤:首先是根据视频图像的颜色、纹理等特征进行镜头边缘检测,并抽取镜头内的若干个帧作为镜头的关键帧来代表镜头内容;然后将视觉内容近似且连续的多个镜头划分为一个组并作为一个场景。这种方法的缺陷首先在于镜头检测容易受到干扰,例如对于渐变镜头有较高的误判率,其次镜头视觉内容的表示和镜头之间相似性的衡量方法目前也不够成熟。这些原因导致场景抽取的查全率和查准率都不是太理想,目前所报道的查全率和查准率的最好结果均在70%左右。另一方面,采用上述方法抽取场景后,为支持高效的检索,还必须为分割出来的视频场景片段作标注,例如说明场景发生的地点、主要人物和发生的事件等。这些工作耗时费力,而且由于个人主观性的影响,会导致标注结果的不客观。
发明内容
本发明的目的在于,克服现有技术中视频场景抽取的查全率和查准率都不是太理想,以及针对视频场景搜索需人工为抽取出来的视频场景片段作标注,导致标注结果的不客观且工作耗时费力,从而提供一种联合字幕和视频图像信息进行场景分割与索引的方法。
为实现上述发明目的,本发明给出了一种联合字幕和视频图像信息进行场景分割与索引的方法,其特征在于,每条字幕持续时间段内视频帧集合作为进行场景聚簇的最小单元,该方法包括如下步骤:
11)获得进行场景聚簇的最小单元后,抽取至少3个或以上不连续的视频帧作为该条字幕的视频关键帧集合;
12)通过比较若干个相邻最小单元关键帧的相似性,再结合字幕关联转移图进行连续字幕与视频场景之间的归属关系划分;
所述的字幕关联转移图即对于字幕Di和Dj(i<j),如果有Di和Dj所对应的视频关键帧集合中存在相似的关键帧,则称字幕Di可转移到字幕Dj,此时创建一条从Di指向Dj的弧线,该弧线覆盖的所有字幕都认为属于同一场景,如果不同弧线之间存在交叉,则要进行弧线的合并操作。
所述的电影场景抽取方法,其特征在于,所述的字幕持续时间段内视频关键帧集合包括:起始帧、结束帧和中点位置的帧。
所述的电影场景抽取方法,其特征在于,还包括步骤13),如果两个相邻字幕的视频关键帧有两个或以上相似的,则判断两个相邻字幕对应的视频帧属于一个场景。
所述的电影场景抽取方法,其特征在于,进一步包括:针对相邻字幕关键帧图像不相似的,再进一步利用相邻字幕在语义、词形或时间方面的相关性进一步确定字幕和场景的归属关系,步骤包括:
a)语义相关性判断的步骤:对于相邻字幕Di和Di+1如果Di的文本中包含疑问词或者Di+1的文本以连词作为起始字符,则字幕Di和Di+1在语义上属于同一场景;
b)词形相关性判断的步骤:对字幕Di和Di+1所包含文本分别进行分词并抽取其中的实词作为关键词,如果Di和Di+1含有相同的关键词,则字幕Di和Di+1在所涉及的主题上相近它们属于同一场景;
c)时间相关性判断的步骤:取字幕Di为中心的长度为L的窗口内相邻字幕平均出现时间间隔,如果字幕Di和Di+1的出现时间间隔与窗口L内字幕平均出现时间之比小于预定义的阈值则字幕Di和Di+1在出现时间上较为接近属于同一场景。
所述的电影场景抽取方法,其特征在于,针对已经基于连续字幕分离出的时间不连续的两个相邻场景,再利用基于字幕提供的时间信息结合关键帧相似性方法判断这段不连续时间段内的视频关键帧图像的相似性,根据两个时间相邻的不相似帧之间存在切换点,依次找到这段不连续时间段内所有切换点,并找到切换点对应的时刻:(DBl+1+(i-1)/R),则可以获得视频所包含场景片段的精确分割时间。
所述的电影场景抽取方法,其特征在于,所述的关键帧的相似性利用图像的SIFT特征进行判断,具体步骤包括:
首先,要对视频关键帧进行提升小波变换抽取子带,再对抽取的子带图像的三个颜色分量进行归一化处理,获得进行SIFT特征提取的目标矩阵;
然后,基于该目标矩阵进行子带图像SIFT特征提取;
最后,利用双向SIFT关键点匹配方法判定关键帧图像的相似性,所述的双向SIFT关键点匹配方法指如果子带图像A中的关键点x可匹配子带图像B中的关键点y并且y可匹配到x;当且仅当从不同关键帧中选取的低频和高频子带图像都相似两个关键帧才相似,子带图像相似的条件是能够双向匹配的SIFT关键点数量达到所设置的阈值。
所述的电影场景抽取方法,其特征在于,所述的SIFT特征提取的步骤包括:
1)根据图像频域增强理论和DoG滤波算子,得到高斯图像并构建目标矩阵的DoG尺度空间;
2)得到所有的高斯图像后,通过在同一阶尺度空间中比较图像每个像素点与它临近26个像素点的值确定该像素是否为局部极值点,局部极值点构成了SIFT候选关键点集合;
3)对于上一步骤选出的局部极值点,如果该极值点不是低对比度的点,其次它不是边缘点,则将该极值点选取为SIFT关键点;
4)采用梯度直方图统计方法确定梯度的大小和方向,生成关键点的SIFT特征向量。
本发明还给出了一种联合字幕和视频图像信息进行场景索引的方法,具体步骤包括:
21)获得进行场景聚簇的最小单元后,抽取每条字幕持续时间段内的视频关键帧集合,所述的视频关键帧集合包含字幕持续时间段内的起始帧,结束帧及中点位置的帧;
22)通过比较若干个相邻最小单元关键帧的相似性,再结合字幕关联转移图进行连续字幕的场景视频分割;
23)针对相邻字幕关键帧图像不相似的,利用相邻字幕在语义、词形和时间方面的相关性进一步确定字幕和场景的归属关系分割场景;
24)为分割的每个场景建立前向索引表;
25)对所有文本进行分词后,为每个词建立其到关键词表的倒排索引;
26)进行视频片段检索时,首先对查询字符串进行分词,提取其中的关键词;
27)根据其编号在倒排索引表中查找包含它的前向索引表,如果多个前向索引表中包含所有的关键词,则此时将这些前向索引表中每个关键词的词频相加作为衡量查询串与场景视频片段相关度的标准,该值越高相关性越高;如果前向索引包含的关键词数量不等,则包含的关键词越多的其与查询串的相关度越高,取相关度最高的视频片段作为查询结果。
所述的联合字幕和视频图像信息进行场景索引的方法,针对不包含字母的场景进行必要的人工标注或添加说明。
本发明所采用方法基于以下观察结果:某条字幕呈现时间段内的视频帧一般不出现场景切换点,这一现象的依据是场景作为一个完整的语义单元它所包含的对白具有完整性。基于这一假设,可以天然地切分出每条字幕持续时间段内视频帧作为进行场景聚簇的最小单元。获得进行场景聚簇的最小单元后,抽取某些特殊的帧作为该视频单元集合的关键帧,通过比较若干个相邻最小单元关键帧的相似性可判定这些最小单元是否属于同一场景。关键帧的相似性利用图像的SIFT特征进行判断。SIFT(Scale Invariant Feature Transform,尺度不变特征变换)算子所获得的图像SIFT特征向量对于图像的尺度缩放、旋转、平移以及一定程度的仿射和光照变化具有良好的不变性,同时由于包含了丰富的图像内容信息SIFT特征具有很强的特殊性,对图像差异敏感区分能力强。由于与其他图像特征算子相比优势明显,虽然SIFT算子提出时间不长,但已在图像检索、计算机视觉等领域产生了广泛影响。如果相邻字幕属于同一场景,则由于属于同一场景的视频图像之间可能具有相似性如存在同样的对象或背景等,通过提取相邻字幕所对应最小单元所包含关键帧图像的SIFT特征,利用SIFT特征强劲的特征点匹配能力即可判定其相似性。通过上述方式可对字幕所属的场景进行基本的划分,但是由于电影视频摄制方法的多样性,仅通过视频图像本身的相似性进行场景分割是不够的,例如同一场景中的远景和近景图像可能并没有相似性,因此,本发明在上述基本划分的基础上通过分析相邻字幕文本之间的相关性对基本划分作进一步精化。将字幕划分到不同的场景后,根据场景所包含字幕的时间特征即可抽取出视频场景片段,但是这种抽取方式不是无缝的——不同场景之间的视频帧可能被遗漏(因为不同字幕在时间上有一定的呈现间隔),为达到无缝的场景片段抽取还必须确定相邻场景之间的切换点。
由于SIFT特征具有多量性特点,例如对于随机选取的一副640×272像素的视频图像可产生上万个关键点百万个特征值,为避免“维数灾难”,需要使用诸如主成分分析、非负矩阵分解或小波变换等方法对特征向量进行降维。在特征矩阵规模很大时,降维运算也需要消耗大量的时间,为了加快处理速度特征矩阵规模不应太大。为此,本发明不直接对视频关键帧图像计算SIFT特征,而是首先对图像进行提升小波变换,之后只对若干子带图像计算其SIFT特征并作为原始关键帧图像的SIFT特征。这样得到的特征矩阵规模较小(可通过控制计算SIFT特征的子带数控制特征矩阵规模),无须进行降维,从这一点上看,本发明方法实际上是前置了降维操作。提升小波变换方法是小波变换的高效实现方法,它极大地降低了小波变换的计算复杂性和存储器容量需求,具有快速、可进行同址运算以及不需要进行傅立叶变换等优点,由于其对传统小波变换的巨大创新,被称为第二代小波变换,这也是本发明选择其进行降维操作的原因。
本发明的优点在于,本发明给出了一种全新的联合字幕和视频图像信息进行场景分割与索引的方法,该方法摒弃了耗时且不够准确的镜头分割过程,融合视频图像的相似性与字幕文本的相关性对电影视频进行场景片段分割,不仅获得了较高的准确率,而且直接使用字幕文本所包含的关键字对视频片段进行标注避免了烦琐的人工标注。
附图说明的
图1为联合字幕和视频图像信息进行场景分割与索引方法的流程示意图;
图2为关键帧图像子带选取示意图;
图3为子带图像SIFT特征抽取流程图;
图4为高斯差分(DoG)尺度空间示意图;
图5为基于字幕关联转移图的场景检测方法示意图;
图6为基于字幕的视频场景片段前向索引表;
图7为基于字幕的关键词倒排索引。
具体实施方式
本发明在对电影类视频进行场景片段抽取和索引时,使用了电影视频图像和字幕这两方面信息,达到较高精度的视频场景片段抽取效果,并且可以为所抽取的场景视频片段自动匹配对应字幕中所包含的关键字作为其索引,从而避免手工标注。字幕一般是电影中的人物对白,它具有三方面的属性即其在电影中的出现时刻、消失时刻和字幕文本。目前对于高清DVD电影,其字幕一般以外挂文件的形式随视频文件一起发布,易于获得;对于内嵌型字幕(字幕文本叠加在视频图像上)则可通过视频OCR技术提取字幕。每条字幕均包含该字幕在视频中的出现和消失时间,本发明正是通过利用这些时间信息结合视频图像特征以及字幕文本的相关性对视频场景片段进行抽取。
下面,结合附图和具体实施例对本发明作进一步地描述。
1 总体流程
附图1是本发明提出的基于字幕相关性和视频图像SIFT特征的电影场景片段抽取与索引方法的总体流程框图。所包含的主要处理步骤如下:1)抽取每条字幕持续时间段内的视频关键帧集合;2)对所抽取的关键帧图像进行提升小波变换,获得子带图像;3)根据一定规则选取若干子带图像进行SIFT特征提取,作为关键帧图像的特征向量;4)采用双向SIFT关键点匹配方法判定关键帧图像的相似性;5)根据电影拍摄制作规则利用关键帧之间的相似性判定若干相邻字幕的场景归属关系;6)利用相邻字幕在语义、词形和时间等方面的相关性对进一步确定字幕和场景的归属关系;7)基于字幕提供的时间信息结合图像SIFT特征对视频进行无缝的场景片段分割;8)提取场景片段所对应字幕文本的关键词作为其索引。下文对上述过程进行具体描述。
2 抽取字幕对应的关键帧
称一部电影视频文件为V,假设V所包含的所有字幕为集合{D1,D2,...,Di,...,Dm},集合中的元素Di(1≤i≤m)表示按顺序出现的第i个字幕为一个四元组:{DIi,DBi,DEi,DCi},DIi为字幕的编号(按其在视频中的出现顺序),DBi为字幕在视频中出现的时间,DEi为字幕在视频中的结束时间,DCi是字幕所包含的文本;V所包含的视频帧序列为集合{F1,F2,...,Fi,...,Fn},集合中的元素Fi(1≤i≤n)为按顺序出现的第i个视频图像,视频的帧率假设为R帧/秒,则T秒时刻对应的视频帧编号N可用下式计算:由此可得字幕Di所对应的视频帧序列集合为:FDi={Fp,Fp+1,…,Fp+k,...,Fq-1,fq},其中起始帧编号结束帧编号由于视频中的对象在字幕Di的持续时段内可能会有运动,这种运动可能导致FDi中视频图像的某些区域在某时刻被遮挡,这些被遮挡的区域有可能存在SIFT关键点,因此不能仅在FDi选择某一帧作为FDi的关键帧。本发明选择FDi中具有较长时间距离(这样有利于暴露更多的SIFT关键点)的起始帧、结束帧以及中点位置的帧作为字幕Di的对应的关键帧集合记为KDi={Fp,Fp+(q-p)/2,Fq}。为便于叙述下文记字幕Di的三个关键帧为BDi,MDi和EDi,KDi={BDi,MDi,EDi},所有字幕对应的关键帧集合为{KD1,KD2,...,KDi,...,KDm},如果关键帧集合KDi和KDi+1中的某两个关键帧匹配则认为KDi和KDi+1匹配,此时认为字幕Di和Di+1是属于同一场景中的字幕,判定关键帧是否匹配的方法将在后文给出。
3 关键帧图像SIFT特征提取
为判定不同关键帧集合中某两个关键帧之间的匹配关系,首先要抽取关键帧的SIFT特征。本节给出进行特征抽取的详细过程。
3.1 基于提升小波变换的图像子带抽取
由于直接对关键帧图像进行SIFT特征提取,会导致特征维数太高,导致不必要的计算资源浪费,因此使用提升小波变换提前对原始图像进行“降维”操作,并根据一定规则选取适当数量的子带图像计算其SIFT特征。提升小波变换过程可分为三步:分裂、预测和更新。我们以x[m,n]表示一个二维离散图像信号。为了实现对该二维信号的小波分解,不失一般性,我们假定先在水平方向对该信号进行一维小波分解,然后在垂直方向再进行一次一维小波分解。如上所述采用提升方案后,每个一维小波变换过程可以被分解为:分裂、预测和更新这三个步骤。下面我们给出这几个变换步骤的详细说明:
1)分裂:将集合x[m,n]中元素进行奇偶分组,得到奇数集xo[m,n]和偶数集xe[m,n],其中:xo[m,n]=x[2m+1,n],而xe[m,n]=x[2m,n]。
2)预测:利用xe[m,n]预测xo[m,n],预测过程可用下式表示:
其中P是预测算子,定义了由预测点周围的若干偶数点通过组合获得预测值的算法,一般情况下P是一个高通滤波器,pi为滤波器系数值;利用预测值可将xo[m,n]用预测残差表示,预测残差计算方法如下:
如果信号之间的相关性足够强,所设计的预测算子合理,可以预期xo d[m,n]的能量分布比xo[m,n]低很多;显然此时集合x[m,n]可由xe[m,n]与xo d[m,n]重构。
3)更新:利用xo d[m,n]来更新xe[m,n],可用公式表示如下:
其中U是更新算子,可定义如下:
由于更新的目的是为了保证xe[m,n]与x[m,n]具有相近的均值,因此更新算子U是一个低通滤波器,uj是滤波器的系数值。pi和uj的值在本实例中采用JPEG2000定义的5/3小波的系数值,但是显然采用其它系数值也在本专利保护范围内。对图像矩阵x[m,n]进行一次小波变化并解交织后得到四个图像子带LL1、HL1、LH1和HH1,如附图2所示,对LL1子带可再进行新一轮的小波变换得到LL2、HL2、LH2和HH2,该过程可重复进行直至达到指定的分辨率等级。图像子带中,LL子带在水平和垂直方向都平滑逼近原图像,HH子带在水平和垂直方向细节逼近原图像。子带图像的选取方法如下:1)随机选取某个关键帧图像,对该图像进行提升小波变换;2)取变换后LLR(R为变换次数)子带,采用3.2给出的方法计算该子带的SIFT特征,如果产生的特征点数量大于阈值H,则对LLR的子带图像继续进行提升小波变换并转步骤2,否则结束并选取LLR和HH1子带作为该部电影视频进行SIFT特征抽取的图像区域。上述子带图像选取方法保证了后续步骤中所获得SIFT特征点数量维持在一定规模。
3.2子带图像SIFT特征生成
SIFT特征的实质是图像中SIFT关键点的特征向量,首先要确定子带图像中关键点位置,然后利用关键点邻域内像素的梯度分布特征生成关键点的特征向量。子带图像SIFT特征抽取流程框图如附图3所示,下面对每个步骤进行具体介绍。
A.子带图像像素矩阵归一化
对图像进行提升小波变换后,图像颜色分量值的动态范围有所增大,另一方面三个颜色分量之间存在较强的相关性没有必要对每个颜色分量都进行SIFT特征提取,因此必须对子带图像三个颜色分量矩阵进行归一化处理,以便于后继处理。设子带图像块为I,I.R、I.G和I.B分别表示子带图像块的RGB颜色分量矩阵,则可由下述公式获得进行子带图像块SIFT特征提取的目标矩阵I.T:
(5)
I.T=[I.R+I.G+I.B]/(255×3)
后继步骤基于目标矩阵I.T进行,从该矩阵提取的特征向量作为I的特征向量。
B.建立尺度空间
根据图像频域增强理论,设定义如公式6所示的二维高斯滤波函数(其中σ表示高斯函数的方差),
则子带图像目标矩阵I.T(x,y)在不同尺度空间下的高斯图像可以通过图像与二维高斯函数进行卷积获得,计算公式如下:
L(x,y,σ)=G(x,y,σ)*I.T(x,y) (7)
称σ为尺度空间因子,给定一个σ就决定了一个高斯滤波器,用该滤波器对图像进行滤波得到的尺度为σ的尺度空间图像。DoG(Difference of Gaussians)滤波算子经常被用于图像边缘检测,其定义如下:
D(x,y,σ)=(G(x,y,kσ)-G(x,y,σ))*I(x,y)=L(x,y,kσ)-L(x,y,σ) (8)
为有效检测出子带图像中的关键点,需要首先检测DoG尺度空间中的局部极值点,因此必须建立DoG尺度空间。根据公式8,相邻尺度空间中的高斯图像相减即可得到DoG尺度空间图像。公式8中k表示相邻的两副图像之间的尺度比例,如果当前的高斯图像的尺度为σ,则下一层高斯图像的尺度参数为kσ。假设尺度空间为n阶,每一阶有s层,为了能够在每一阶的s层图像中检测极值点,需要产生s+2幅高斯差分图像,因此共需产生s+3副高斯图像,这些图像的尺度参数以k递增,一般取s为3。当同一阶的高斯图像全部产生时,就跳到下一阶的尺度空间中,下一阶高斯尺度空间的第一幅图像是当前阶尺度参数为2σ的高斯图像通过1∶2亚采样生成的,当前阶图像的长度或宽度某一值时停止创建下一阶尺度空间。附图4是DoG尺度空间的一个示意图。
C.DoG尺度空间极值检测
得到所有的高斯差分图像后,通过在同一阶尺度空间中比较图像(第2至s+1层图像)每个像素点与它临近26个像素点的值确定该像素是否为局部极值点,局部极值点构成了SIFT候选关键点集合。假设某一阶尺度空间尺度为σ图像像素点P的坐标为(x,y,σ),如果P的值P(x,y,σ)大于其8-邻域像素点的值且满足公式9,则P为极值点。附图4中椭圆所在像素点即为P点所要比较的像素点。
P(x,y,σ)>P(x+i,y+i,k-1σ),i=-1,0,1
(9)
P(x,y,σ)>P(x+i,y+i,kσ),i∈-1,0,1
D.关键点的精确定位
对于上一步骤选出的极值点P(x,y,σ)如果能够通过以下两步检测:首先该极值点不是低对比度的点(关键点与周围的点有必须显著性差异),其次它不是边缘点,则将该极值点选取为SIFT关键点。
为找到低对比度的极值点,首先将公式8定义的DoG尺度空间函数D(x,y,σ)使用二次泰勒级数展开为:
其中D是极值点处的值,D的导数使用极值点处邻域像素差分代替。X=(x,y,σ)T是该极值点坐标与所对应的关键点之间的坐标偏移量。对公式10求一阶导数,并令其等于零,即可得函数D(X)的极值点X:
将公式1`代回公式10可得:
如果公式12求得的X的某一维的值超过0.5,意味着极值点更接近于另一个像素点,此时将极值点变更到该像素点,并重新计算公式11。求得后X,代入公式12后,计算|D(X)|,如果该值小于0.03则认为P是低对比度的点,不选为关键点。将偏移X加到极值点P的坐标中作为关键点的精确位置坐标。
DoG算子具有较强的边缘响应,因此沿着边缘的像素点即便对比度不高也很容易被错判为极值点,如果将这种极值点选为关键点则关键点对噪声非常敏感。为了获得稳健的关键点,还必须去除位于图像边缘的极值点。一个DoG图像中不稳定的极值点在跨越边缘处有较大的曲率但在垂直边缘方向则曲率较小。极值点P的这两个曲率可以通过计算一个2×2的Hessian矩阵H获得:
H中的二阶偏导数通过对P点邻域像素做二阶差分获得。H是一个实对称二维矩阵,因此具有两个实特征值,其中幅值大的特征值所对应的特征向量代表着P点曲率较大的方向,幅值小者代表P点曲率较小的方向,通过求H这两个特征值之间的大小对比关系即可确定这两个曲率的对比关系。用α表示H较大的特征值,β表示H较小的特征值,则根据实对称矩阵的迹为特征值之和以及矩阵行列式性质有下列关系成立:
Tr(H)=Pxx+Pyy=α+β
(14)
Det(H)=PxxPyy-(Pxy)2=αβ
令r表示大特征值与小特征值之间的比值,则有α=rβ,此时等式15的值仅依赖于特征值之间的比值,
当r=1时等式取得最小值,r值增大等式的值也随之增大。为检查极值点P两个曲率之间的比值是否小于某一门限值r,此时只要检测H是否满足下列公式即可。
通过这种方法不超过20次的浮点运算即可判定极值点是否为边缘点,取r为10,即将大小曲率之比超过10的极值点过滤掉。
E.生成关键点特征向量
本步骤生成关键点P(x,y,σ)的特征向量。为生成特征向量,首先在找到最接近尺度σ的同一阶高斯平滑图像(不是DoG图像),假设该图像为L(x,y)。对L(x,y)中的每个像素点采用下列公式计算其梯度大小及方向:
θ(x,y)=tan-1((L(x,y+1)-L(x,y-1))/(L(x+1,y)-L(x-1,y)))
然后对于每一个关键点,采用梯度直方图统计法确定其梯度的大小和方向。统计关键点临近一个窗口内取所有邻域像素的梯度方向:梯度直方图的范围为0至360度,其中每10度作为一个方向,总共36个方向。将统计得到的直方图峰值所在的方向作为为关键点的方向。关键点的方向确定后,为了确保旋转不变性,首先将坐标轴旋转为关键点的方向,以关键点为中心,取16×16的窗口,并将这个窗口切分为16个4×4的子窗口,在每个子窗口中计算8个方向的梯度方向直方图,统计每个方向的累加值,由此形成一个包含各个8个方向向量的种子点。使用16×16的窗口内的16个4×4的子块的种子点所包含的向量作为关键点的特征向量,每个关键点有16×8=128维的特征向量。
4 关键帧相似性衡量
假设存在两个关键帧图像Bi和Bj,Bi和Bj被选取用于计算SIFT特征的图像子带分别为{LLi R,HHi l}和{LLj R,HHj l},各子带对应的SIFT关键点集合LLi R(K)、HHi l(K)、LLj R(K)和HHj l(K)。假设对于关键点集合X和Y,定义xi∈X和yj∈Y的欧氏距离:假设xi在集合Y中找到的距离最近的关键点为yp距离为dip,次近点为yq距离为diq,如果存在(dip/diq)>ε1,则称A中关键点xi与B中关键点yp匹配记为xi→yp,ε1为小于1的常数。为了增强关键点匹配的鲁棒性,减少错误匹配,本发明采用了双向关键点匹配方法,称关键点xi∈X和yj∈Y相似,当且仅当xi→yj同时yj→xi。如果关键帧图像低频子带关键点集合LLi R(K)中有λ个元素在集合LLj R(K)找到相似的关键点,且存在下列关系:则称图像子带LLi R与图像子带LLj R相似,ε2为小于1的常数。使用类似方法判断HHi l是否与HHj l相似,如果两个图像子带都相似,则关键帧图像Bi和Bj相似,用表示这种关系。
5 基于关键帧相似性进行字幕场景归属关系分析
本部分给出判定若干相邻字幕是否属于同一场景的方法。假设字幕Di和Dj(i<j)根据第2部分介绍的方法分别得到关键帧集合KDi={KFi1,KFi2,KFi3}和KDj={KFj1,KFj2,KFj3},
如果公式18成立则字幕Di和Dj属于同一场景,此时称Di可关联到Dj用Di□Dj表示,反之用Di□|Dj表示。为加快运算过程,本发明给出了一种不需要计算所有关键帧SIFT特征的判断方法,具体步骤如下:
步骤1:使用第3部分介绍的方法,计算KFik(k的初始值为1)的SIFT特征,设置l=1,转下一步骤;
步骤2:使用第3部分介绍的方法,计算KFjl的SIFT特征,使用第4部分介绍的方法判断是是否有成立,如果成立则记录Di□Dj,结束程序,否则转下一步骤;
步骤3:设置l=l+1,如果l不大于3转步骤2,否则设置k=k+1,如果k的值不大于3转步骤1,否则设置Di□|Dj,结束程序。
电影视频中同一场景中的镜头具有一下几种组合关系:1)连续性镜头,例如运动物体在场景中不同位置的镜头;2)镜头和反转镜头,例如多个人物之间对话时镜头可以在不同的说话人之间切换;3)内嵌(插入)镜头,这种情况是指一个镜头在没结束前插入另一个镜头,在插入镜头结束后又回到原来的镜头,例如回忆或联想镜头的插入就属于这种情况。受电影视频这种拍摄制作规则影响,对于在连续性镜头中的相邻字幕,通过比较其关键帧之间的相似性即可判定其是否属于同一场景。对于后两种情况,相似性镜头是交错分布的,相邻字幕的关键帧不一定相似,但具有一定间隔的不同字幕之间的关键帧可能相似,例如镜头在不同对话人之间周期性切换时就是如此,因此要对多条相邻字幕进行相似性分析。基于以上分析,本发明提出了一种基于字幕关联转移图的视频场景分割方法。对于字幕Di和Dj(i<j),如果有Di□Dj,则称字幕Di可转移到字幕Dj,此时创建一条从Di指向Dj的弧线Di,j,该弧线覆盖的所有字幕都认为属于同一场景,如附图5中由于存在弧线Di,j,因此字幕Di Di+1 Di+2 Dj被判定为属于同一场景。如果不同弧线之间存在交叉,则要进行弧线的合并,即进行同一场景字幕的合并。例如在附图5中弧线Di,j和Di+2,j+2交叉,进行合并后得到新的弧Di,j+2,Di,j+2所覆盖的字幕都属于同一场景。下面给出本发明场景分割的具体步骤:
步骤1:在视频中才抽取字幕关键帧集合{KD1,KD2,...,KDi,...,KDm},设i=1,窗口F的开始位置p=i+1,转下一步骤;
步骤2:对字幕Di使用KDi中的关键帧考察与从p开始后继一个窗口F内所有字幕的关联性,如果窗口F内有多个字幕与Di相似,取F内编号最大字幕设为Dj作为Di的最终匹配字幕,分别标记Di和Dj为弧线Di,j的起点和终点,设置i=i+1,p=j+1;如果Di在窗口F内没有找到可关联的字幕,设置i=i+1,p=max{i+1,p};如果p≤n转步骤2,否则转步骤3;
步骤3:弧线合并:
一、设置k=1,转二;
二、检查字幕Dk是否是某条弧线的起点,如果是转三,否则令k=k+1,转二;
三、获取与Dk对应的弧线终点字幕设为Sl,令K=k,L=l,h=K+1转四;
四、如果h≥L转五,否则检查字幕Dh是否是另一弧线的起点,如果是设该弧线的终点设为Dj设置L=j+1,h=h+1转四,否则设置h=h+1转四;
五、设置K和L之间的字幕属于同一场景,令k=L+1,如果k≤n转二,否则结束。
6 基于字幕相关性进一步确定字幕场景归属关系
电影一般实景拍摄,由于自然世界的复杂性和多样性,仅依靠视频图像的相似性对字幕的关联关系进行分析是不够的,某些同一场景中的字幕其对应的视频帧可能完全不同,因此还必须结合更高层次的电影语义信息以获得更为精确的场景分割效果。字幕文本作为电影高层语义信息的重要组成部分,蕴涵了很多进行字幕关联分析的线索。假设字幕Di和Di+1被第五部分介绍的方法判定为Di□|Di+1,本部分对存在这种关系的相邻字幕从字幕相关性的角度进一步对其是否关联进行判断。本发明将相邻字幕的相关性定义为一个三元函数F(α,β,γ),其中α代表相邻字幕的主题相关性,相邻字幕文本所涉及的主题一致性越高则字幕的相关性越高,显然谈论同一主题的相邻字幕一般是属于同一场景的;β代表相邻字幕文本的词形相似性,字幕文本是电影中人物的说话内容,作为口语上下句之间经常会有字词重复,因此相邻字幕之间字词重合度越高,其相关性也越大;γ代表相邻字幕的时间接近性,一般而言,相邻字幕出现的间隔时间越短,其相关性越强。定义F(α,β,γ)的值为0或1,如果为1则表示相邻字幕关联,其取值规则如下:F中的三个自变量任意一个为1则F的值为1,否则F的值为0。F中三个自变量的取值范围也为0或1,其取值方法介绍如下。
自变量α取值方法
假设字幕Di和Di+1对应的字幕文本为DCi和DCi+1,当下列条件之一成立时α取值为1否则为0。条件1:DCi包含疑问词集合T中的任一元素,集合T={什么,怎么,怎样,谁,啥,咋,哪,多少,何如,如何,为何,何不,呢,吗};条件2:DCi+1以连词集合Q中的任一元素作为起始字符,集合Q={还,抑或,而,但,才,又,于是,然后,接着,也,另,何况,况且,就是,只,却,所以,因而,便,或者,要么,一方面,或许,也许,可能}。
自变量β取值方法
对DCi进行分词,抽取其中的实词即名词,动词,形容词,副词,代词,数词按从左到右排列得实词集合X={x1,x2,...,xn},用同样的方法获得DCi+1的实词集合Y={y1,y2,...,yn}。统计X和Y相同关键词的数量,如果数量超过不为0则β取值为1否则为0
自变量γ取值方法
假设字幕Di在视频中的消失时刻为DEi,字幕Di+1在视频中出现时刻为DBi+1,则这两个相邻字幕的出现间隔为Pi,i+1=DBi+1-DEi,取以Di为中心的长度为L的窗口内相邻字幕平均出现时间间隔:
如果有Pi,i+1>ε3·E(Pi,i+1)则取γ值为0否则为1,ε3为常数,根据统计取其值为10。
7 视频无缝场景片段分割
对字幕进行关联分析后,字幕被分割为多个关联字幕集合(集合里的字幕属于同一场景),假设第i个关联字幕集合为:{Dk,Dk+1,...,Dl-1,Dl}属于场景Sp,以[DBk,DEl]表示该字幕集合对应的视频片段(DBk为视频段的开始时刻,DEu为视频段的结束时刻);第i+1个关联字幕集合为:{Dl+1,Dl+1,...,Dp-1,Dp}??属于场景Sq,以[DBl+1,DEp]表示该字幕集合对应的视频片段,由于DEl与DBl+1存在时间间隔,本专利称[DEl,DEl+1]视频段为场景切换过渡区域,本部分将给出在该过渡区域中寻找场景切换点的方法。由于,电影中的某些场景可能不包含对白即没有字幕,这些场景对应视频片段显然位于场景切换过渡区域中,此时还必须分割出该种类型场景片段。抽取过渡区域[DBl+1,DEp]中的视频帧序列设为{F1,F2,...,Fn-1,Fn},使用第4部分介绍的方法判定Fi(1≤i<n)和Fi+1的相似性,如果判定为不相似,那么认为Fi和Fi+1之间存在一个场景切换点b,b所对应的时刻为:DBl+1+(i-1)/R,假设最终得到的切换点序列为b1,b2,...,bN+1(N≥0),则场景Sp的结束时刻为b1,场景Sq的开始时刻为bN+1,当N>0时Sp与Sq之间所包含的每个无对白场景对应的视频片段为[bi,bi+1](1≤i≤N)。对所有场景切换过渡区域进行分析后,即获得视频所包含场景片段的精确分割时间。
8 生成场景视频片段索引
设对视频进行无缝分割后得到场景视频片段集合{S1,S2,...,Sn-1,Sn},其中包含字幕的场景可直接使用字幕中的文本作为高层语义信息,对其中不包含字幕的场景进行必要的人工标注或添加说明(如有必要也可对包含字幕的视频片段添加必要说明),如此每个场景视频片段Si都有相应的高层语义文本,将这些文本作为检索相应视频片段的索引信息。假设Si所对应的高层语义文本为Ti,对文本Ti进行分词处理,并计算每个词在Ti的词频,为每个场景Si建立如附图6所示的前向索引表,其中TableID为表的编号,WordID是词的编号,Frequency是词频。对所有文本进行分词后,为加快检索速度为每个词建立其到关键词表的倒排索引,如附图7所示,每个关键词可能在多个关键词表中出现。进行视频片段检索时,首先对查询字符串进行分词,提取其中的关键词,假设所获得的关键词集合为{k1,k2,...,kn-1,kn},对每个关键词ki根据其编号在倒排索引表中查找包含它的前向索引表,如果多个前向索引表中包含所有的关键词ki,则此时将这些前向索引表中每个ki的词频相加作为衡量查询串与场景视频片段相关度的标准,该值越高相关性越高,如果前向索引包含的关键词数量不等,则包含的关键词越多的其与查询串的相关度越高,取相关度最高的视频片段作为查询结果。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (9)
1.一种联合字幕和视频图像信息进行场景分割的方法,其特征在于,该方法将每条字幕持续时间段内视频帧集合作为进行场景聚簇的最小单元,包括如下步骤:
11)获得进行场景聚簇的最小单元后,抽取至少3个或以上不连续的视频帧作为该条字幕的视频关键帧集合;
12)通过比较若干个相邻最小单元关键帧的相似性,再结合字幕关联转移图进行连续字幕与视频场景之间的归属关系划分;
所述的字幕关联转移图即对于字幕Di和Dj(i<j),如果有Di和Dj所对应的视频关键帧集合中存在相似的关键帧,则称字幕Di可转移到字幕Dj,此时创建一条从Di指向Dj的弧线,该弧线覆盖的所有字幕都认为属于同一场景,如果不同弧线之间存在交叉,则要进行弧线的合并操作。
2.根据权利要求1所述的联合字幕和视频图像信息进行场景分割的方法,其特征在于,所述的字幕持续时间段内视频关键帧集合包括:起始帧、结束帧和中点位置的帧。
3.根据权利要求1所述的联合字幕和视频图像信息进行场景分割的方法,其特征在于,还包括步骤13),如果两个相邻字幕的视频关键帧有两个或以上相似的,则判断两个相邻字幕对应的视频帧属于一个场景。
4.根据权利要求1所述的联合字幕和视频图像信息进行场景分割的方法,其特征在于,进一步包括:针对相邻字幕关键帧图像不相似的,再进一步利用相邻字幕在语义、词形或时间方面的相关性进一步确定字幕和场景的归属关系,步骤包括:
a)语义相关性判断的步骤:对于相邻字幕Di和Di+1如果Di的文本中包含疑问词或者Di+1的文本以连词作为起始字符,则字幕Di和Di+1在语义上属于同一场景;
b)词形相关性判断的步骤:对字幕Di和Di+1所包含文本分别进行分词并抽取其中的实词作为关键词,如果Di和Di+1含有相同的关键词,则字幕Di和Di+1在所涉及的主题上相近它们属于同一场景;
c)时间相关性判断的步骤:取字幕Di为中心的长度为L的窗口内相邻字幕平均出现时间间隔,如果字幕Di和Di+1的出现时间间隔与窗口L内字幕平均出现时间之比小于预定义的阈值则字幕Di和Di+1在出现时间上较为接近属于同一场景。
5.根据权利要求1所述的联合字幕和视频图像信息进行场景分割的方法,其特征在于,针对已经基于连续字幕分离出的时间不连续的两个相邻场景,再利用基于字幕提供的时间信息结合关键帧相似性方法判断这段不连续时间段内的视频关键帧图像的相似性,根据两个时间相邻的不相似帧之间存在切换点,依次找到这段不连续时间段内所有切换点,并找到切换点对应的时刻:(DBl+1+(i-1)/R),则可以获得视频所包含场景片段的精确分割时间。
6.根据权利要求1、4或5任一项所述的联合字幕和视频图像信息进行场景分割的方法,其特征在于,所述的关键帧的相似性利用图像的SIFT特征进行判断,具体步骤包括:
首先,要对视频关键帧进行提升小波变换抽取子带,再对抽取的子带图像的三个颜色分量进行归一化处理,获得进行SIFT特征提取的目标矩阵;
然后,基于该目标矩阵进行子带图像SIFT特征提取;
最后,利用双向SIFT关键点匹配方法判定关键帧图像的相似性,所述的双向SIFT关键点匹配方法指如果子带图像A中的关键点x可匹配子带图像B中的关键点y并且y可匹配到x;当且仅当从不同关键帧中选取的低频和高频子带图像都相似两个关键帧才相似,子带图像相似的条件是能够双向匹配的SIFT关键点数量达到所设置的阈值。
7.根据权利要求6所述的联合字幕和视频图像信息进行场景分割的方法,其特征在于,所述的SIFT特征提取的步骤包括:
1)根据图像频域增强理论和DoG滤波算子,得到高斯图像并构建目标矩阵的DoG尺度空间;
2)得到所有的高斯图像后,通过在同一阶尺度空间中比较图像每个像素点与它临近26个像素点的值确定该像素是否为局部极值点,局部极值点构成了SIFT候选关键点集合;
3)对于上一步骤选出的局部极值点,如果该极值点不是低对比度的点,其次它不是边缘点,则将该极值点选取为SIFT关键点;
4)采用梯度直方图统计方法确定梯度的大小和方向,生成关键点的SIFT特征向量。
8.一种联合字幕和视频图像信息进行场景索引的方法,具体步骤包括:
21)获得进行场景聚簇的最小单元后,抽取每条字幕持续时间段内的视频关键帧集合,所述的视频关键帧集合包含字幕持续时间段内的起始帧,结束帧及中点位置的帧;
22)通过比较若干个相邻最小单元关键帧的相似性,再结合字幕关联转移图进行连续字幕的场景视频分割;
23)针对相邻字幕关键帧图像不相似的,利用相邻字幕在语义、词形和时间方面的相关性进一步确定字幕和场景的归属关系分割场景;
24)为分割的每个场景建立前向索引表;
25)对所有文本进行分词后,为每个词建立其到关键词表的倒排索引;
26)进行视频片段检索时,首先对查询字符串进行分词,提取其中的关键词;
27)根据其编号在倒排索引表中查找包含它的前向索引表,如果多个前向索引表中包含所有的关键词,则此时将这些前向索引表中每个关键词的词频相加作为衡量查询串与场景视频片段相关度的标准,该值越高相关性越高;如果前向索引包含的关键词数量不等,则包含的关键词越多的其与查询串的相关度越高,取相关度最高的视频片段作为查询结果。
9.根据权利要求8所述的联合字幕和视频图像信息进行索引的方法,其特征在于,还包括步骤:针对不包含字母的场景进行必要的人工标注或添加说明。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910236887.3A CN101719144B (zh) | 2009-11-04 | 2009-11-04 | 一种联合字幕和视频图像信息进行场景分割和索引的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910236887.3A CN101719144B (zh) | 2009-11-04 | 2009-11-04 | 一种联合字幕和视频图像信息进行场景分割和索引的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101719144A true CN101719144A (zh) | 2010-06-02 |
CN101719144B CN101719144B (zh) | 2013-04-24 |
Family
ID=42433718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910236887.3A Expired - Fee Related CN101719144B (zh) | 2009-11-04 | 2009-11-04 | 一种联合字幕和视频图像信息进行场景分割和索引的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101719144B (zh) |
Cited By (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102129474A (zh) * | 2011-04-20 | 2011-07-20 | 杭州华三通信技术有限公司 | 一种视频数据检索方法及其装置和系统 |
WO2012075634A1 (en) * | 2010-12-09 | 2012-06-14 | Nokia Corporation | Limited-context-based identifying key frame from video sequence |
CN102625155A (zh) * | 2011-01-27 | 2012-08-01 | 天脉聚源(北京)传媒科技有限公司 | 一种视频关键帧展示方法和系统 |
CN102833492A (zh) * | 2012-08-01 | 2012-12-19 | 天津大学 | 一种基于颜色相似度的视频场景分割方法 |
CN102833638A (zh) * | 2012-07-26 | 2012-12-19 | 北京数视宇通技术有限公司 | 基于字幕信息的视频自动切分及标注方法及系统 |
CN103052953A (zh) * | 2010-08-11 | 2013-04-17 | 索尼公司 | 信息处理设备、信息处理方法和程序 |
CN103069414A (zh) * | 2010-08-11 | 2013-04-24 | 索尼公司 | 信息处理设备、信息处理方法和程序 |
CN103475935A (zh) * | 2013-09-06 | 2013-12-25 | 北京锐安科技有限公司 | 一种视频片段的检索方法及装置 |
CN103561264A (zh) * | 2013-11-07 | 2014-02-05 | 北京大学 | 一种基于云计算的媒体解码方法及解码器 |
CN103578094A (zh) * | 2012-07-20 | 2014-02-12 | 清华大学 | 镜头分割方法 |
CN103854020A (zh) * | 2012-11-29 | 2014-06-11 | 北京千橡网景科技发展有限公司 | 文字识别方法及装置 |
CN103888785A (zh) * | 2014-03-10 | 2014-06-25 | 百度在线网络技术(北京)有限公司 | 信息的提供方法和装置 |
CN103984778A (zh) * | 2014-06-06 | 2014-08-13 | 北京金山网络科技有限公司 | 一种视频检索方法及系统 |
CN103996209A (zh) * | 2014-05-21 | 2014-08-20 | 北京航空航天大学 | 一种基于显著性区域检测的红外舰船目标分割方法 |
CN104102683A (zh) * | 2013-04-05 | 2014-10-15 | 联想(新加坡)私人有限公司 | 用于增强视频显示的上下文查询 |
CN104135628A (zh) * | 2013-05-03 | 2014-11-05 | 安凯(广州)微电子技术有限公司 | 一种视频编辑方法及终端 |
CN104540044A (zh) * | 2014-12-30 | 2015-04-22 | 北京奇艺世纪科技有限公司 | 一种视频分段方法及装置 |
CN104572052A (zh) * | 2013-10-21 | 2015-04-29 | 腾讯科技(深圳)有限公司 | 一种应用程序帧率的测量方法及装置 |
CN104680539A (zh) * | 2015-03-12 | 2015-06-03 | 华东理工大学 | 一种基于色彩相似性的数字图像过分割边缘移除方法 |
CN104915433A (zh) * | 2015-06-24 | 2015-09-16 | 宁波工程学院 | 一种影视视频检索方法 |
CN105744356A (zh) * | 2016-01-29 | 2016-07-06 | 杭州观通科技有限公司 | 一种基于内容的视频分段方法 |
CN106021496A (zh) * | 2016-05-19 | 2016-10-12 | 海信集团有限公司 | 视频搜索方法及视频搜索装置 |
CN106126619A (zh) * | 2016-06-20 | 2016-11-16 | 中山大学 | 一种基于视频内容的视频检索方法及系统 |
CN103593363B (zh) * | 2012-08-15 | 2016-12-21 | 中国科学院声学研究所 | 视频内容索引结构的建立方法、视频检索方法及装置 |
CN107066488A (zh) * | 2016-12-27 | 2017-08-18 | 上海东方明珠新媒体股份有限公司 | 基于影视内容语义分析的影视桥段自动分割方法 |
CN107590442A (zh) * | 2017-08-22 | 2018-01-16 | 华中科技大学 | 一种基于卷积神经网络的视频语义场景分割方法 |
CN107798304A (zh) * | 2017-10-20 | 2018-03-13 | 央视国际网络无锡有限公司 | 一种快速视频审核的方法 |
CN108683924A (zh) * | 2018-05-30 | 2018-10-19 | 北京奇艺世纪科技有限公司 | 一种视频处理的方法和装置 |
CN108882057A (zh) * | 2017-05-09 | 2018-11-23 | 北京小度互娱科技有限公司 | 视频摘要生成方法及装置 |
CN109101558A (zh) * | 2018-07-12 | 2018-12-28 | 北京猫眼文化传媒有限公司 | 一种视频检索方法及装置 |
CN109819346A (zh) * | 2019-03-13 | 2019-05-28 | 联想(北京)有限公司 | 视频文件处理方法及装置、计算机系统和可读存储介质 |
CN109949256A (zh) * | 2019-01-14 | 2019-06-28 | 昆明理工大学 | 一种基于傅里叶变换的天文图像融合方法 |
CN110309353A (zh) * | 2018-02-06 | 2019-10-08 | 上海全土豆文化传播有限公司 | 视频索引方法及装置 |
CN110312171A (zh) * | 2018-03-27 | 2019-10-08 | 优酷网络技术(北京)有限公司 | 视频片段提取方法及装置 |
CN110619284A (zh) * | 2019-08-28 | 2019-12-27 | 腾讯科技(深圳)有限公司 | 一种视频场景划分方法、装置、设备及介质 |
CN111046839A (zh) * | 2019-12-25 | 2020-04-21 | 中国建设银行股份有限公司 | 视频分割方法及装置 |
CN111246287A (zh) * | 2020-01-13 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 视频处理方法、发布方法、推送方法及其装置 |
CN111314775A (zh) * | 2018-12-12 | 2020-06-19 | 华为终端有限公司 | 一种视频拆分方法及电子设备 |
CN111641869A (zh) * | 2020-06-04 | 2020-09-08 | 虎博网络技术(上海)有限公司 | 视频分镜方法、装置、电子设备和计算机可读存储介质 |
CN111898608A (zh) * | 2020-07-04 | 2020-11-06 | 西北工业大学 | 一种基于边界预测的自然场景多语言文字检测方法 |
CN112132142A (zh) * | 2020-09-27 | 2020-12-25 | 平安医疗健康管理股份有限公司 | 文本区域确定方法、装置、计算机设备及存储介质 |
CN113254712A (zh) * | 2021-05-12 | 2021-08-13 | 北京百度网讯科技有限公司 | 视频匹配方法、视频处理方法、装置、电子设备及介质 |
US11093755B2 (en) | 2019-11-19 | 2021-08-17 | International Business Machines Corporation | Video segmentation based on weighted knowledge graph |
CN113868465A (zh) * | 2021-09-15 | 2021-12-31 | 河南大学 | 一种基于二维时间格网的可定位视频检索方法 |
CN115619959A (zh) * | 2022-12-19 | 2023-01-17 | 中国人民解放军国防科技大学 | 基于无人机采集视频抽取关键帧的综合环境三维建模方法 |
WO2023035307A1 (zh) * | 2021-09-13 | 2023-03-16 | 华中师范大学 | 一种视频知识点抽取方法及装置 |
CN117033673A (zh) * | 2023-05-16 | 2023-11-10 | 广州比地数据科技有限公司 | 一种基于人工智能的多媒体内容抽取系统 |
CN117478978A (zh) * | 2023-10-31 | 2024-01-30 | 西南大学 | 一种文本生成电影视频片段的方法、系统和设备 |
CN117729391A (zh) * | 2023-09-27 | 2024-03-19 | 书行科技(北京)有限公司 | 一种视频分割方法、装置、计算机设备、介质及产品 |
CN118196695A (zh) * | 2024-05-20 | 2024-06-14 | 上海蜜度科技股份有限公司 | 视频语义分割方法、系统、存储介质及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4377887B2 (ja) * | 2006-03-30 | 2009-12-02 | 株式会社東芝 | 映像分割装置 |
CN101021855B (zh) * | 2006-10-11 | 2010-04-07 | 北京新岸线网络技术有限公司 | 基于内容的视频检索系统 |
-
2009
- 2009-11-04 CN CN200910236887.3A patent/CN101719144B/zh not_active Expired - Fee Related
Cited By (86)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103052953A (zh) * | 2010-08-11 | 2013-04-17 | 索尼公司 | 信息处理设备、信息处理方法和程序 |
CN103052953B (zh) * | 2010-08-11 | 2016-02-10 | 索尼公司 | 信息处理设备、信息处理方法 |
CN103069414A (zh) * | 2010-08-11 | 2013-04-24 | 索尼公司 | 信息处理设备、信息处理方法和程序 |
US9064186B2 (en) | 2010-12-09 | 2015-06-23 | Nokia Technologies Oy | Limited-context-based identifying key frame from video sequence |
RU2549584C2 (ru) * | 2010-12-09 | 2015-04-27 | Нокиа Корпорейшн | Идентификация ключевого кадра видеопоследовательности на основе ограниченного контекста |
KR101512584B1 (ko) | 2010-12-09 | 2015-04-15 | 노키아 코포레이션 | 비디오 시퀀스로부터의 제한된 콘텍스트 기반 식별 키 프레임 |
WO2012075634A1 (en) * | 2010-12-09 | 2012-06-14 | Nokia Corporation | Limited-context-based identifying key frame from video sequence |
CN103262096A (zh) * | 2010-12-09 | 2013-08-21 | 诺基亚公司 | 基于有限上下文从视频序列中识别关键帧 |
CN103262096B (zh) * | 2010-12-09 | 2016-08-10 | 诺基亚技术有限公司 | 基于有限上下文从视频序列中识别关键帧 |
CN102625155A (zh) * | 2011-01-27 | 2012-08-01 | 天脉聚源(北京)传媒科技有限公司 | 一种视频关键帧展示方法和系统 |
CN102625155B (zh) * | 2011-01-27 | 2014-11-26 | 天脉聚源(北京)传媒科技有限公司 | 一种视频关键帧展示方法和系统 |
CN102129474A (zh) * | 2011-04-20 | 2011-07-20 | 杭州华三通信技术有限公司 | 一种视频数据检索方法及其装置和系统 |
CN102129474B (zh) * | 2011-04-20 | 2015-02-11 | 浙江宇视科技有限公司 | 一种视频数据检索方法及其装置和系统 |
CN103578094A (zh) * | 2012-07-20 | 2014-02-12 | 清华大学 | 镜头分割方法 |
CN103578094B (zh) * | 2012-07-20 | 2016-07-13 | 清华大学 | 镜头分割方法 |
CN102833638A (zh) * | 2012-07-26 | 2012-12-19 | 北京数视宇通技术有限公司 | 基于字幕信息的视频自动切分及标注方法及系统 |
CN102833638B (zh) * | 2012-07-26 | 2015-03-18 | 北京数视宇通技术有限公司 | 基于字幕信息的视频自动切分及标注方法及系统 |
CN102833492B (zh) * | 2012-08-01 | 2016-12-21 | 天津大学 | 一种基于颜色相似度的视频场景分割方法 |
CN102833492A (zh) * | 2012-08-01 | 2012-12-19 | 天津大学 | 一种基于颜色相似度的视频场景分割方法 |
CN103593363B (zh) * | 2012-08-15 | 2016-12-21 | 中国科学院声学研究所 | 视频内容索引结构的建立方法、视频检索方法及装置 |
CN103854020A (zh) * | 2012-11-29 | 2014-06-11 | 北京千橡网景科技发展有限公司 | 文字识别方法及装置 |
CN103854020B (zh) * | 2012-11-29 | 2018-11-30 | 捷讯平和(北京)科技发展有限公司 | 文字识别方法及装置 |
CN104102683A (zh) * | 2013-04-05 | 2014-10-15 | 联想(新加坡)私人有限公司 | 用于增强视频显示的上下文查询 |
US10277945B2 (en) | 2013-04-05 | 2019-04-30 | Lenovo (Singapore) Pte. Ltd. | Contextual queries for augmenting video display |
CN104135628B (zh) * | 2013-05-03 | 2018-01-30 | 安凯(广州)微电子技术有限公司 | 一种视频编辑方法及终端 |
CN104135628A (zh) * | 2013-05-03 | 2014-11-05 | 安凯(广州)微电子技术有限公司 | 一种视频编辑方法及终端 |
CN103475935A (zh) * | 2013-09-06 | 2013-12-25 | 北京锐安科技有限公司 | 一种视频片段的检索方法及装置 |
CN104572052A (zh) * | 2013-10-21 | 2015-04-29 | 腾讯科技(深圳)有限公司 | 一种应用程序帧率的测量方法及装置 |
CN104572052B (zh) * | 2013-10-21 | 2019-07-02 | 腾讯科技(深圳)有限公司 | 一种应用程序帧率的测量方法及装置 |
CN103561264A (zh) * | 2013-11-07 | 2014-02-05 | 北京大学 | 一种基于云计算的媒体解码方法及解码器 |
CN103561264B (zh) * | 2013-11-07 | 2017-08-04 | 北京大学 | 一种基于云计算的媒体解码方法及解码器 |
WO2015135332A1 (zh) * | 2014-03-10 | 2015-09-17 | 百度在线网络技术(北京)有限公司 | 信息的提供方法和装置 |
CN103888785A (zh) * | 2014-03-10 | 2014-06-25 | 百度在线网络技术(北京)有限公司 | 信息的提供方法和装置 |
CN103996209A (zh) * | 2014-05-21 | 2014-08-20 | 北京航空航天大学 | 一种基于显著性区域检测的红外舰船目标分割方法 |
CN103996209B (zh) * | 2014-05-21 | 2017-01-11 | 北京航空航天大学 | 一种基于显著性区域检测的红外舰船目标分割方法 |
CN103984778A (zh) * | 2014-06-06 | 2014-08-13 | 北京金山网络科技有限公司 | 一种视频检索方法及系统 |
CN104540044B (zh) * | 2014-12-30 | 2017-10-24 | 北京奇艺世纪科技有限公司 | 一种视频分段方法及装置 |
CN104540044A (zh) * | 2014-12-30 | 2015-04-22 | 北京奇艺世纪科技有限公司 | 一种视频分段方法及装置 |
CN104680539B (zh) * | 2015-03-12 | 2018-11-09 | 华东理工大学 | 一种基于色彩相似性的数字图像过分割边缘移除方法 |
CN104680539A (zh) * | 2015-03-12 | 2015-06-03 | 华东理工大学 | 一种基于色彩相似性的数字图像过分割边缘移除方法 |
CN104915433A (zh) * | 2015-06-24 | 2015-09-16 | 宁波工程学院 | 一种影视视频检索方法 |
CN105744356B (zh) * | 2016-01-29 | 2019-03-12 | 杭州观通科技有限公司 | 一种基于内容的视频分段方法 |
CN105744356A (zh) * | 2016-01-29 | 2016-07-06 | 杭州观通科技有限公司 | 一种基于内容的视频分段方法 |
CN106021496A (zh) * | 2016-05-19 | 2016-10-12 | 海信集团有限公司 | 视频搜索方法及视频搜索装置 |
CN106126619A (zh) * | 2016-06-20 | 2016-11-16 | 中山大学 | 一种基于视频内容的视频检索方法及系统 |
CN107066488A (zh) * | 2016-12-27 | 2017-08-18 | 上海东方明珠新媒体股份有限公司 | 基于影视内容语义分析的影视桥段自动分割方法 |
CN107066488B (zh) * | 2016-12-27 | 2021-08-06 | 东方明珠新媒体股份有限公司 | 基于影视内容语义分析的影视桥段自动分割方法 |
CN108882057B (zh) * | 2017-05-09 | 2021-08-17 | 北京小度互娱科技有限公司 | 视频摘要生成方法及装置 |
CN108882057A (zh) * | 2017-05-09 | 2018-11-23 | 北京小度互娱科技有限公司 | 视频摘要生成方法及装置 |
CN107590442A (zh) * | 2017-08-22 | 2018-01-16 | 华中科技大学 | 一种基于卷积神经网络的视频语义场景分割方法 |
CN107798304A (zh) * | 2017-10-20 | 2018-03-13 | 央视国际网络无锡有限公司 | 一种快速视频审核的方法 |
CN107798304B (zh) * | 2017-10-20 | 2021-11-02 | 央视国际网络无锡有限公司 | 一种快速视频审核的方法 |
CN110309353A (zh) * | 2018-02-06 | 2019-10-08 | 上海全土豆文化传播有限公司 | 视频索引方法及装置 |
CN110312171B (zh) * | 2018-03-27 | 2021-09-24 | 阿里巴巴(中国)有限公司 | 视频片段提取方法及装置 |
CN110312171A (zh) * | 2018-03-27 | 2019-10-08 | 优酷网络技术(北京)有限公司 | 视频片段提取方法及装置 |
CN108683924A (zh) * | 2018-05-30 | 2018-10-19 | 北京奇艺世纪科技有限公司 | 一种视频处理的方法和装置 |
CN108683924B (zh) * | 2018-05-30 | 2021-12-28 | 北京奇艺世纪科技有限公司 | 一种视频处理的方法和装置 |
CN109101558B (zh) * | 2018-07-12 | 2022-07-01 | 北京猫眼文化传媒有限公司 | 一种视频检索方法及装置 |
CN109101558A (zh) * | 2018-07-12 | 2018-12-28 | 北京猫眼文化传媒有限公司 | 一种视频检索方法及装置 |
CN111314775A (zh) * | 2018-12-12 | 2020-06-19 | 华为终端有限公司 | 一种视频拆分方法及电子设备 |
US11902636B2 (en) | 2018-12-12 | 2024-02-13 | Petal Cloud Technology Co., Ltd. | Video splitting method and electronic device |
CN109949256B (zh) * | 2019-01-14 | 2023-04-07 | 昆明理工大学 | 一种基于傅里叶变换的天文图像融合方法 |
CN109949256A (zh) * | 2019-01-14 | 2019-06-28 | 昆明理工大学 | 一种基于傅里叶变换的天文图像融合方法 |
CN109819346A (zh) * | 2019-03-13 | 2019-05-28 | 联想(北京)有限公司 | 视频文件处理方法及装置、计算机系统和可读存储介质 |
CN110619284B (zh) * | 2019-08-28 | 2023-09-05 | 腾讯科技(深圳)有限公司 | 一种视频场景划分方法、装置、设备及介质 |
CN110619284A (zh) * | 2019-08-28 | 2019-12-27 | 腾讯科技(深圳)有限公司 | 一种视频场景划分方法、装置、设备及介质 |
AU2020387677B2 (en) * | 2019-11-19 | 2023-02-23 | International Business Machines Corporation | Video segmentation based on weighted knowledge graph |
US11093755B2 (en) | 2019-11-19 | 2021-08-17 | International Business Machines Corporation | Video segmentation based on weighted knowledge graph |
CN111046839B (zh) * | 2019-12-25 | 2023-05-19 | 中国建设银行股份有限公司 | 视频分割方法及装置 |
CN111046839A (zh) * | 2019-12-25 | 2020-04-21 | 中国建设银行股份有限公司 | 视频分割方法及装置 |
CN111246287A (zh) * | 2020-01-13 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 视频处理方法、发布方法、推送方法及其装置 |
CN111641869A (zh) * | 2020-06-04 | 2020-09-08 | 虎博网络技术(上海)有限公司 | 视频分镜方法、装置、电子设备和计算机可读存储介质 |
CN111898608A (zh) * | 2020-07-04 | 2020-11-06 | 西北工业大学 | 一种基于边界预测的自然场景多语言文字检测方法 |
CN112132142A (zh) * | 2020-09-27 | 2020-12-25 | 平安医疗健康管理股份有限公司 | 文本区域确定方法、装置、计算机设备及存储介质 |
CN113254712A (zh) * | 2021-05-12 | 2021-08-13 | 北京百度网讯科技有限公司 | 视频匹配方法、视频处理方法、装置、电子设备及介质 |
CN113254712B (zh) * | 2021-05-12 | 2024-04-26 | 北京百度网讯科技有限公司 | 视频匹配方法、视频处理方法、装置、电子设备及介质 |
WO2023035307A1 (zh) * | 2021-09-13 | 2023-03-16 | 华中师范大学 | 一种视频知识点抽取方法及装置 |
CN113868465A (zh) * | 2021-09-15 | 2021-12-31 | 河南大学 | 一种基于二维时间格网的可定位视频检索方法 |
CN115619959A (zh) * | 2022-12-19 | 2023-01-17 | 中国人民解放军国防科技大学 | 基于无人机采集视频抽取关键帧的综合环境三维建模方法 |
CN117033673A (zh) * | 2023-05-16 | 2023-11-10 | 广州比地数据科技有限公司 | 一种基于人工智能的多媒体内容抽取系统 |
CN117033673B (zh) * | 2023-05-16 | 2024-04-05 | 广州比地数据科技有限公司 | 一种基于人工智能的多媒体内容抽取系统 |
CN117729391A (zh) * | 2023-09-27 | 2024-03-19 | 书行科技(北京)有限公司 | 一种视频分割方法、装置、计算机设备、介质及产品 |
CN117478978A (zh) * | 2023-10-31 | 2024-01-30 | 西南大学 | 一种文本生成电影视频片段的方法、系统和设备 |
CN117478978B (zh) * | 2023-10-31 | 2024-05-24 | 西南大学 | 一种文本生成电影视频片段的方法、系统和设备 |
CN118196695A (zh) * | 2024-05-20 | 2024-06-14 | 上海蜜度科技股份有限公司 | 视频语义分割方法、系统、存储介质及电子设备 |
CN118196695B (zh) * | 2024-05-20 | 2024-08-13 | 上海蜜度科技股份有限公司 | 视频语义分割方法、系统、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN101719144B (zh) | 2013-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101719144B (zh) | 一种联合字幕和视频图像信息进行场景分割和索引的方法 | |
Zhang et al. | Content-based video retrieval and compression: A unified solution | |
US6185329B1 (en) | Automatic caption text detection and processing for digital images | |
Poignant et al. | From text detection in videos to person identification | |
CN110222719B (zh) | 一种基于多帧音视频融合网络的人物识别方法及系统 | |
EP2224357A1 (en) | Video segmentation | |
CN111353395A (zh) | 一种基于长短期记忆网络的换脸视频检测方法 | |
CN101971190A (zh) | 实时身体分割系统 | |
CN102903124A (zh) | 一种运动目标检测方法 | |
CN110619284B (zh) | 一种视频场景划分方法、装置、设备及介质 | |
Yang et al. | Spatiotemporal trident networks: detection and localization of object removal tampering in video passive forensics | |
CN113792606B (zh) | 基于多目标追踪的低成本自监督行人重识别模型构建方法 | |
Liu et al. | D-unet: a dual-encoder u-net for image splicing forgery detection and localization | |
CN101872415A (zh) | 适用于iptv的视频拷贝检测方法 | |
DE112009005002T5 (de) | Techniken zum Erkennen von Videokopien | |
CN114898263A (zh) | 一种基于图像信息熵和hog_ssim的视频关键帧提取方法 | |
CN104504733A (zh) | 一种基于运动目标检测的视频摘要方法和系统 | |
Sreeja et al. | A unified model for egocentric video summarization: an instance-based approach | |
Zhong et al. | Key frame extraction algorithm of motion video based on priori | |
Qin et al. | Application of video scene semantic recognition technology in smart video | |
Xie et al. | Discovering meaningful multimedia patterns with audio-visual concepts and associated text | |
Zong et al. | Key frame extraction based on dynamic color histogram and fast wavelet histogram | |
Ouyang et al. | The comparison and analysis of extracting video key frame | |
Zhao et al. | A novel method of surveillance video Summarization based on clustering and background subtraction | |
Zhou et al. | A multi-scale spatio-temporal network for violence behavior detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130424 Termination date: 20161104 |
|
CF01 | Termination of patent right due to non-payment of annual fee |