CN101719144A

CN101719144A - 一种联合字幕和视频图像信息进行场景分割和索引的方法

Info

Publication number: CN101719144A
Application number: CN200910236887A
Authority: CN
Inventors: 王劲林; 李松斌; 王玲芳
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2009-11-04
Filing date: 2009-11-04
Publication date: 2010-06-02
Anticipated expiration: 2029-11-04
Also published as: CN101719144B

Abstract

本发明涉及一种联合字幕和视频图像信息进行场景分割与索引的方法，其特征在于，每条字幕持续时间段内视频帧集合作为场景聚簇的最小单元，包括步骤：获得场景聚簇的最小单元后，抽取至少3个或以上不连续的视频帧作为该条字幕的视频关键帧集合；使用双向SIFT关键点匹配方法比较若干个相邻最小单元关键帧的相似性，再结合字幕关联转移图建立字幕与场景的初始归属关系；对于被判定为不相似的连续最小聚簇单元利用其对应字幕的相关性进一步判断其是否可以进行合并；根据所确定的字幕场景归属关系进行视频场景抽取。对所抽取的视频场景片段，使用该片段所包含的字幕文本所生成的前向和倒排索引作为检索该视频片段的依据。

Description

一种联合字幕和视频图像信息进行场景分割和索引的方法

技术领域

本发明涉及视频索引与搜索技术领域，具体地说，本发明涉及一种联合字幕和视频图像信息进行场景分割与索引的方法。

背景技术

大容量存储设备制造技术的进步，网络数据传输速率的提高，以及持续改进的高效视频压缩技术使数字视频得以广泛传播和使用，改善了人们的娱乐文化生活。在海量视频库中寻找感兴趣的视频片段成为一个新的问题。视频可被组织为包含场景、镜头和帧的树型层次结构。帧即图像，是视频中最基本的物理单元，镜头是由同一个摄像机连续捕获的帧序列，它是视频图像序列的物理边界。场景则由一个或多个连续镜头组成，这些镜头拥有类似的背景或对象，并且在语义上相关、时间上相近，它表达的是具有完整语义的故事单元，是视频图像序列的语义边界。目前，电影视频内容的浏览和检索基本上是基于镜头进行的，但作为电影最小拍摄单元，镜头数量众多而且没有完整的语义信息。对于一部电影，人们通常关注的是一些特定的场景(如人物对话或打斗的场景)，检索时也一般根据特定场景进行，而不仅仅针对某个镜头。因此，有效地将视频划分为多个场景片段并为这些片段生成高层语义信息有利于提高视频检索质量。

本发明主要讨论电影类视频进行场景抽取和索引的方法。该类视频进行场景抽取的过程一般可以分为两个步骤：首先是根据视频图像的颜色、纹理等特征进行镜头边缘检测，并抽取镜头内的若干个帧作为镜头的关键帧来代表镜头内容；然后将视觉内容近似且连续的多个镜头划分为一个组并作为一个场景。这种方法的缺陷首先在于镜头检测容易受到干扰，例如对于渐变镜头有较高的误判率，其次镜头视觉内容的表示和镜头之间相似性的衡量方法目前也不够成熟。这些原因导致场景抽取的查全率和查准率都不是太理想，目前所报道的查全率和查准率的最好结果均在70％左右。另一方面，采用上述方法抽取场景后，为支持高效的检索，还必须为分割出来的视频场景片段作标注，例如说明场景发生的地点、主要人物和发生的事件等。这些工作耗时费力，而且由于个人主观性的影响，会导致标注结果的不客观。

发明内容

本发明的目的在于，克服现有技术中视频场景抽取的查全率和查准率都不是太理想，以及针对视频场景搜索需人工为抽取出来的视频场景片段作标注，导致标注结果的不客观且工作耗时费力，从而提供一种联合字幕和视频图像信息进行场景分割与索引的方法。

为实现上述发明目的，本发明给出了一种联合字幕和视频图像信息进行场景分割与索引的方法，其特征在于，每条字幕持续时间段内视频帧集合作为进行场景聚簇的最小单元，该方法包括如下步骤：

11)获得进行场景聚簇的最小单元后，抽取至少3个或以上不连续的视频帧作为该条字幕的视频关键帧集合；

12)通过比较若干个相邻最小单元关键帧的相似性，再结合字幕关联转移图进行连续字幕与视频场景之间的归属关系划分；

所述的字幕关联转移图即对于字幕Di和Dj(i＜j)，如果有Di和Dj所对应的视频关键帧集合中存在相似的关键帧，则称字幕Di可转移到字幕Dj，此时创建一条从Di指向Dj的弧线，该弧线覆盖的所有字幕都认为属于同一场景，如果不同弧线之间存在交叉，则要进行弧线的合并操作。

所述的电影场景抽取方法，其特征在于，所述的字幕持续时间段内视频关键帧集合包括：起始帧、结束帧和中点位置的帧。

所述的电影场景抽取方法，其特征在于，还包括步骤13)，如果两个相邻字幕的视频关键帧有两个或以上相似的，则判断两个相邻字幕对应的视频帧属于一个场景。

所述的电影场景抽取方法，其特征在于，进一步包括：针对相邻字幕关键帧图像不相似的，再进一步利用相邻字幕在语义、词形或时间方面的相关性进一步确定字幕和场景的归属关系，步骤包括：

a)语义相关性判断的步骤：对于相邻字幕D_i和D_i+1如果D_i的文本中包含疑问词或者D_i+1的文本以连词作为起始字符，则字幕D_i和D_i+1在语义上属于同一场景；

b)词形相关性判断的步骤：对字幕D_i和D_i+1所包含文本分别进行分词并抽取其中的实词作为关键词，如果D_i和D_i+1含有相同的关键词，则字幕D_i和D_i+1在所涉及的主题上相近它们属于同一场景；

c)时间相关性判断的步骤：取字幕D_i为中心的长度为L的窗口内相邻字幕平均出现时间间隔，如果字幕D_i和D_i+1的出现时间间隔与窗口L内字幕平均出现时间之比小于预定义的阈值则字幕D_i和D_i+1在出现时间上较为接近属于同一场景。

所述的电影场景抽取方法，其特征在于，针对已经基于连续字幕分离出的时间不连续的两个相邻场景，再利用基于字幕提供的时间信息结合关键帧相似性方法判断这段不连续时间段内的视频关键帧图像的相似性，根据两个时间相邻的不相似帧之间存在切换点，依次找到这段不连续时间段内所有切换点，并找到切换点对应的时刻：(DB_l+1+(i-1)/R)，则可以获得视频所包含场景片段的精确分割时间。

所述的电影场景抽取方法，其特征在于，所述的关键帧的相似性利用图像的SIFT特征进行判断，具体步骤包括：

首先，要对视频关键帧进行提升小波变换抽取子带，再对抽取的子带图像的三个颜色分量进行归一化处理，获得进行SIFT特征提取的目标矩阵；

然后，基于该目标矩阵进行子带图像SIFT特征提取；

最后，利用双向SIFT关键点匹配方法判定关键帧图像的相似性，所述的双向SIFT关键点匹配方法指如果子带图像A中的关键点x可匹配子带图像B中的关键点y并且y可匹配到x；当且仅当从不同关键帧中选取的低频和高频子带图像都相似两个关键帧才相似，子带图像相似的条件是能够双向匹配的SIFT关键点数量达到所设置的阈值。

所述的电影场景抽取方法，其特征在于，所述的SIFT特征提取的步骤包括：

1)根据图像频域增强理论和DoG滤波算子，得到高斯图像并构建目标矩阵的DoG尺度空间；

2)得到所有的高斯图像后，通过在同一阶尺度空间中比较图像每个像素点与它临近26个像素点的值确定该像素是否为局部极值点，局部极值点构成了SIFT候选关键点集合；

3)对于上一步骤选出的局部极值点，如果该极值点不是低对比度的点，其次它不是边缘点，则将该极值点选取为SIFT关键点；

4)采用梯度直方图统计方法确定梯度的大小和方向，生成关键点的SIFT特征向量。

本发明还给出了一种联合字幕和视频图像信息进行场景索引的方法，具体步骤包括：

21)获得进行场景聚簇的最小单元后，抽取每条字幕持续时间段内的视频关键帧集合，所述的视频关键帧集合包含字幕持续时间段内的起始帧，结束帧及中点位置的帧；

22)通过比较若干个相邻最小单元关键帧的相似性，再结合字幕关联转移图进行连续字幕的场景视频分割；

23)针对相邻字幕关键帧图像不相似的，利用相邻字幕在语义、词形和时间方面的相关性进一步确定字幕和场景的归属关系分割场景；

24)为分割的每个场景建立前向索引表；

25)对所有文本进行分词后，为每个词建立其到关键词表的倒排索引；

26)进行视频片段检索时，首先对查询字符串进行分词，提取其中的关键词；

27)根据其编号在倒排索引表中查找包含它的前向索引表，如果多个前向索引表中包含所有的关键词，则此时将这些前向索引表中每个关键词的词频相加作为衡量查询串与场景视频片段相关度的标准，该值越高相关性越高；如果前向索引包含的关键词数量不等，则包含的关键词越多的其与查询串的相关度越高，取相关度最高的视频片段作为查询结果。

所述的联合字幕和视频图像信息进行场景索引的方法，针对不包含字母的场景进行必要的人工标注或添加说明。

本发明所采用方法基于以下观察结果：某条字幕呈现时间段内的视频帧一般不出现场景切换点，这一现象的依据是场景作为一个完整的语义单元它所包含的对白具有完整性。基于这一假设，可以天然地切分出每条字幕持续时间段内视频帧作为进行场景聚簇的最小单元。获得进行场景聚簇的最小单元后，抽取某些特殊的帧作为该视频单元集合的关键帧，通过比较若干个相邻最小单元关键帧的相似性可判定这些最小单元是否属于同一场景。关键帧的相似性利用图像的SIFT特征进行判断。SIFT(Scale Invariant Feature Transform，尺度不变特征变换)算子所获得的图像SIFT特征向量对于图像的尺度缩放、旋转、平移以及一定程度的仿射和光照变化具有良好的不变性，同时由于包含了丰富的图像内容信息SIFT特征具有很强的特殊性，对图像差异敏感区分能力强。由于与其他图像特征算子相比优势明显，虽然SIFT算子提出时间不长，但已在图像检索、计算机视觉等领域产生了广泛影响。如果相邻字幕属于同一场景，则由于属于同一场景的视频图像之间可能具有相似性如存在同样的对象或背景等，通过提取相邻字幕所对应最小单元所包含关键帧图像的SIFT特征，利用SIFT特征强劲的特征点匹配能力即可判定其相似性。通过上述方式可对字幕所属的场景进行基本的划分，但是由于电影视频摄制方法的多样性，仅通过视频图像本身的相似性进行场景分割是不够的，例如同一场景中的远景和近景图像可能并没有相似性，因此，本发明在上述基本划分的基础上通过分析相邻字幕文本之间的相关性对基本划分作进一步精化。将字幕划分到不同的场景后，根据场景所包含字幕的时间特征即可抽取出视频场景片段，但是这种抽取方式不是无缝的——不同场景之间的视频帧可能被遗漏(因为不同字幕在时间上有一定的呈现间隔)，为达到无缝的场景片段抽取还必须确定相邻场景之间的切换点。

由于SIFT特征具有多量性特点，例如对于随机选取的一副640×272像素的视频图像可产生上万个关键点百万个特征值，为避免“维数灾难”，需要使用诸如主成分分析、非负矩阵分解或小波变换等方法对特征向量进行降维。在特征矩阵规模很大时，降维运算也需要消耗大量的时间，为了加快处理速度特征矩阵规模不应太大。为此，本发明不直接对视频关键帧图像计算SIFT特征，而是首先对图像进行提升小波变换，之后只对若干子带图像计算其SIFT特征并作为原始关键帧图像的SIFT特征。这样得到的特征矩阵规模较小(可通过控制计算SIFT特征的子带数控制特征矩阵规模)，无须进行降维，从这一点上看，本发明方法实际上是前置了降维操作。提升小波变换方法是小波变换的高效实现方法，它极大地降低了小波变换的计算复杂性和存储器容量需求，具有快速、可进行同址运算以及不需要进行傅立叶变换等优点，由于其对传统小波变换的巨大创新，被称为第二代小波变换，这也是本发明选择其进行降维操作的原因。

本发明的优点在于，本发明给出了一种全新的联合字幕和视频图像信息进行场景分割与索引的方法，该方法摒弃了耗时且不够准确的镜头分割过程，融合视频图像的相似性与字幕文本的相关性对电影视频进行场景片段分割，不仅获得了较高的准确率，而且直接使用字幕文本所包含的关键字对视频片段进行标注避免了烦琐的人工标注。

附图说明的

图1为联合字幕和视频图像信息进行场景分割与索引方法的流程示意图；

图2为关键帧图像子带选取示意图；

图3为子带图像SIFT特征抽取流程图；

图4为高斯差分(DoG)尺度空间示意图；

图5为基于字幕关联转移图的场景检测方法示意图；

图6为基于字幕的视频场景片段前向索引表；

图7为基于字幕的关键词倒排索引。

具体实施方式

本发明在对电影类视频进行场景片段抽取和索引时，使用了电影视频图像和字幕这两方面信息，达到较高精度的视频场景片段抽取效果，并且可以为所抽取的场景视频片段自动匹配对应字幕中所包含的关键字作为其索引，从而避免手工标注。字幕一般是电影中的人物对白，它具有三方面的属性即其在电影中的出现时刻、消失时刻和字幕文本。目前对于高清DVD电影，其字幕一般以外挂文件的形式随视频文件一起发布，易于获得；对于内嵌型字幕(字幕文本叠加在视频图像上)则可通过视频OCR技术提取字幕。每条字幕均包含该字幕在视频中的出现和消失时间，本发明正是通过利用这些时间信息结合视频图像特征以及字幕文本的相关性对视频场景片段进行抽取。

下面，结合附图和具体实施例对本发明作进一步地描述。

1 总体流程

附图1是本发明提出的基于字幕相关性和视频图像SIFT特征的电影场景片段抽取与索引方法的总体流程框图。所包含的主要处理步骤如下：1)抽取每条字幕持续时间段内的视频关键帧集合；2)对所抽取的关键帧图像进行提升小波变换，获得子带图像；3)根据一定规则选取若干子带图像进行SIFT特征提取，作为关键帧图像的特征向量；4)采用双向SIFT关键点匹配方法判定关键帧图像的相似性；5)根据电影拍摄制作规则利用关键帧之间的相似性判定若干相邻字幕的场景归属关系；6)利用相邻字幕在语义、词形和时间等方面的相关性对进一步确定字幕和场景的归属关系；7)基于字幕提供的时间信息结合图像SIFT特征对视频进行无缝的场景片段分割；8)提取场景片段所对应字幕文本的关键词作为其索引。下文对上述过程进行具体描述。

2 抽取字幕对应的关键帧

称一部电影视频文件为V，假设V所包含的所有字幕为集合{D₁，D₂，...，D_i，...，D_m}，集合中的元素D_i(1≤i≤m)表示按顺序出现的第i个字幕为一个四元组：{DI_i，DB_i，DE_i，DC_i}，DI_i为字幕的编号(按其在视频中的出现顺序)，DB_i为字幕在视频中出现的时间，DE_i为字幕在视频中的结束时间，DC_i是字幕所包含的文本；V所包含的视频帧序列为集合{F₁，F₂，...，F_i，...，F_n}，集合中的元素F_i(1≤i≤n)为按顺序出现的第i个视频图像，视频的帧率假设为R帧/秒，则T秒时刻对应的视频帧编号N可用下式计算：

由此可得字幕Di所对应的视频帧序列集合为：FD_i＝{F_p，F_p+1，…，F_p+k，...，F_q-1，f_q}，其中起始帧编号

结束帧编号

由于视频中的对象在字幕D_i的持续时段内可能会有运动，这种运动可能导致FD_i中视频图像的某些区域在某时刻被遮挡，这些被遮挡的区域有可能存在SIFT关键点，因此不能仅在FD_i选择某一帧作为FD_i的关键帧。本发明选择FD_i中具有较长时间距离(这样有利于暴露更多的SIFT关键点)的起始帧、结束帧以及中点位置的帧作为字幕D_i的对应的关键帧集合记为KD_i＝{F_p，F_p+(q-p)/2，F_q}。为便于叙述下文记字幕D_i的三个关键帧为BD_i，MD_i和ED_i，KD_i＝{BD_i，MD_i，ED_i}，所有字幕对应的关键帧集合为{KD₁，KD₂，...，KD_i，...，KD_m}，如果关键帧集合KD_i和KD_i+1中的某两个关键帧匹配则认为KD_i和KD_i+1匹配，此时认为字幕D_i和D_i+1是属于同一场景中的字幕，判定关键帧是否匹配的方法将在后文给出。

3 关键帧图像SIFT特征提取

为判定不同关键帧集合中某两个关键帧之间的匹配关系，首先要抽取关键帧的SIFT特征。本节给出进行特征抽取的详细过程。

3.1 基于提升小波变换的图像子带抽取

由于直接对关键帧图像进行SIFT特征提取，会导致特征维数太高，导致不必要的计算资源浪费，因此使用提升小波变换提前对原始图像进行“降维”操作，并根据一定规则选取适当数量的子带图像计算其SIFT特征。提升小波变换过程可分为三步：分裂、预测和更新。我们以x[m，n]表示一个二维离散图像信号。为了实现对该二维信号的小波分解，不失一般性，我们假定先在水平方向对该信号进行一维小波分解，然后在垂直方向再进行一次一维小波分解。如上所述采用提升方案后，每个一维小波变换过程可以被分解为：分裂、预测和更新这三个步骤。下面我们给出这几个变换步骤的详细说明：

1)分裂：将集合x[m，n]中元素进行奇偶分组，得到奇数集x_o[m，n]和偶数集x_e[m，n]，其中：x_o[m，n]＝x[2m+1，n]，而x_e[m，n]＝x[2m，n]。

2)预测：利用x_e[m，n]预测x_o[m，n]，预测过程可用下式表示：

P (x_{e}) [m, n] = \underset{i}{Σ} p_{i} x_{e} [m, n + i] - - - (1)

其中P是预测算子，定义了由预测点周围的若干偶数点通过组合获得预测值的算法，一般情况下P是一个高通滤波器，p_i为滤波器系数值；利用预测值可将x_o[m，n]用预测残差表示，预测残差计算方法如下：

x_{o}^{d} [m, n] = x_{o} [m, n] - P (x_{e}) [m, n] - - - (2)

如果信号之间的相关性足够强，所设计的预测算子合理，可以预期x_o ^d[m，n]的能量分布比x_o[m，n]低很多；显然此时集合x[m，n]可由x_e[m，n]与x_o ^d[m，n]重构。

3)更新：利用x_o ^d[m，n]来更新x_e[m，n]，可用公式表示如下：

x_{e}^{u} [m, n] = x_{e} [m, n] + U (x_{o}^{d}) [m, n] - - - (3)

其中U是更新算子，可定义如下：

U (x_{o}^{d}) [m, n] = \underset{j}{Σ} u_{j} x_{o}^{d} [m, n + j] - - - (4)

由于更新的目的是为了保证x_e[m，n]与x[m，n]具有相近的均值，因此更新算子U是一个低通滤波器，u_j是滤波器的系数值。p_i和u_j的值在本实例中采用JPEG2000定义的5/3小波的系数值，但是显然采用其它系数值也在本专利保护范围内。对图像矩阵x[m，n]进行一次小波变化并解交织后得到四个图像子带LL¹、HL¹、LH¹和HH¹，如附图2所示，对LL¹子带可再进行新一轮的小波变换得到LL²、HL²、LH²和HH²，该过程可重复进行直至达到指定的分辨率等级。图像子带中，LL子带在水平和垂直方向都平滑逼近原图像，HH子带在水平和垂直方向细节逼近原图像。子带图像的选取方法如下：1)随机选取某个关键帧图像，对该图像进行提升小波变换；2)取变换后LL^R(R为变换次数)子带，采用3.2给出的方法计算该子带的SIFT特征，如果产生的特征点数量大于阈值H，则对LL^R的子带图像继续进行提升小波变换并转步骤2，否则结束并选取LL^R和HH¹子带作为该部电影视频进行SIFT特征抽取的图像区域。上述子带图像选取方法保证了后续步骤中所获得SIFT特征点数量维持在一定规模。

3.2子带图像SIFT特征生成

SIFT特征的实质是图像中SIFT关键点的特征向量，首先要确定子带图像中关键点位置，然后利用关键点邻域内像素的梯度分布特征生成关键点的特征向量。子带图像SIFT特征抽取流程框图如附图3所示，下面对每个步骤进行具体介绍。

A.子带图像像素矩阵归一化

对图像进行提升小波变换后，图像颜色分量值的动态范围有所增大，另一方面三个颜色分量之间存在较强的相关性没有必要对每个颜色分量都进行SIFT特征提取，因此必须对子带图像三个颜色分量矩阵进行归一化处理，以便于后继处理。设子带图像块为I，I.R、I.G和I.B分别表示子带图像块的RGB颜色分量矩阵，则可由下述公式获得进行子带图像块SIFT特征提取的目标矩阵I.T：

(5)

I.T＝[I.R+I.G+I.B]/(255×3)

后继步骤基于目标矩阵I.T进行，从该矩阵提取的特征向量作为I的特征向量。

B.建立尺度空间

根据图像频域增强理论，设定义如公式6所示的二维高斯滤波函数(其中σ表示高斯函数的方差)，

G (x, y, σ) = e^{- (x^{2} + y^{2}) / 2 σ^{2}} / 2 π σ^{2} - - - (6)

则子带图像目标矩阵I.T(x，y)在不同尺度空间下的高斯图像可以通过图像与二维高斯函数进行卷积获得，计算公式如下：

L(x，y，σ)＝G(x，y，σ)*I.T(x，y) (7)

称σ为尺度空间因子，给定一个σ就决定了一个高斯滤波器，用该滤波器对图像进行滤波得到的尺度为σ的尺度空间图像。DoG(Difference of Gaussians)滤波算子经常被用于图像边缘检测，其定义如下：

D(x，y，σ)＝(G(x，y，kσ)-G(x，y，σ))*I(x，y)＝L(x，y，kσ)-L(x，y，σ) (8)

为有效检测出子带图像中的关键点，需要首先检测DoG尺度空间中的局部极值点，因此必须建立DoG尺度空间。根据公式8，相邻尺度空间中的高斯图像相减即可得到DoG尺度空间图像。公式8中k表示相邻的两副图像之间的尺度比例，如果当前的高斯图像的尺度为σ，则下一层高斯图像的尺度参数为kσ。假设尺度空间为n阶，每一阶有s层，为了能够在每一阶的s层图像中检测极值点，需要产生s+2幅高斯差分图像，因此共需产生s+3副高斯图像，这些图像的尺度参数以k递增，一般取s为3。当同一阶的高斯图像全部产生时，就跳到下一阶的尺度空间中，下一阶高斯尺度空间的第一幅图像是当前阶尺度参数为2σ的高斯图像通过1∶2亚采样生成的，当前阶图像的长度或宽度某一值时停止创建下一阶尺度空间。附图4是DoG尺度空间的一个示意图。

C.DoG尺度空间极值检测

得到所有的高斯差分图像后，通过在同一阶尺度空间中比较图像(第2至s+1层图像)每个像素点与它临近26个像素点的值确定该像素是否为局部极值点，局部极值点构成了SIFT候选关键点集合。假设某一阶尺度空间尺度为σ图像像素点P的坐标为(x，y，σ)，如果P的值P(x，y，σ)大于其8-邻域像素点的值且满足公式9，则P为极值点。附图4中椭圆所在像素点即为P点所要比较的像素点。

P(x，y，σ)＞P(x+i，y+i，k^-1σ)，i＝-1，0，1

(9)

P(x，y，σ)＞P(x+i，y+i，kσ)，i∈-1，0，1

D.关键点的精确定位

对于上一步骤选出的极值点P(x，y，σ)如果能够通过以下两步检测：首先该极值点不是低对比度的点(关键点与周围的点有必须显著性差异)，其次它不是边缘点，则将该极值点选取为SIFT关键点。

为找到低对比度的极值点，首先将公式8定义的DoG尺度空间函数D(x，y，σ)使用二次泰勒级数展开为：

D (X) = D + \frac{&PartialD; D^{T}}{&PartialD; X} X + \frac{1}{2} X^{T} \frac{{&PartialD;}^{2} D}{&PartialD; X^{2}} X - - - (10)

其中D是极值点处的值，D的导数使用极值点处邻域像素差分代替。X＝(x，y，σ)^T是该极值点坐标与所对应的关键点之间的坐标偏移量。对公式10求一阶导数，并令其等于零，即可得函数D(X)的极值点X：

X = - \frac{1}{2} \frac{{&PartialD;}^{2} D^{- 1}}{&PartialD; X^{2}} \frac{&PartialD; D}{&PartialD; X} - - - (11)

将公式1`代回公式10可得：

D (X) = D + \frac{1}{2} \frac{&PartialD; D^{T}}{&PartialD; X} X - - - (12)

如果公式12求得的X的某一维的值超过0.5，意味着极值点更接近于另一个像素点，此时将极值点变更到该像素点，并重新计算公式11。求得后X，代入公式12后，计算|D(X)|，如果该值小于0.03则认为P是低对比度的点，不选为关键点。将偏移X加到极值点P的坐标中作为关键点的精确位置坐标。

DoG算子具有较强的边缘响应，因此沿着边缘的像素点即便对比度不高也很容易被错判为极值点，如果将这种极值点选为关键点则关键点对噪声非常敏感。为了获得稳健的关键点，还必须去除位于图像边缘的极值点。一个DoG图像中不稳定的极值点在跨越边缘处有较大的曲率但在垂直边缘方向则曲率较小。极值点P的这两个曲率可以通过计算一个2×2的Hessian矩阵H获得：

H = [\begin{matrix} P_{xx} & P_{xy} \\ P_{xy} & P_{yy} \end{matrix}] - - - (13)

H中的二阶偏导数通过对P点邻域像素做二阶差分获得。H是一个实对称二维矩阵，因此具有两个实特征值，其中幅值大的特征值所对应的特征向量代表着P点曲率较大的方向，幅值小者代表P点曲率较小的方向，通过求H这两个特征值之间的大小对比关系即可确定这两个曲率的对比关系。用α表示H较大的特征值，β表示H较小的特征值，则根据实对称矩阵的迹为特征值之和以及矩阵行列式性质有下列关系成立：

Tr(H)＝P_xx+P_yy＝α+β

(14)

Det(H)＝P_xxP_yy-(P_xy)²＝αβ

令r表示大特征值与小特征值之间的比值，则有α＝rβ，此时等式15的值仅依赖于特征值之间的比值，

\frac{Tr {(H)}^{2}}{Det (H)} = \frac{{(α + β)}^{2}}{αβ} = \frac{{(rβ + β)}^{2}}{r β^{2}} = \frac{{(r + 1)}^{2}}{r} - - - (15)

当r＝1时等式取得最小值，r值增大等式的值也随之增大。为检查极值点P两个曲率之间的比值是否小于某一门限值r，此时只要检测H是否满足下列公式即可。

\frac{Tr {(H)}^{2}}{Det (H)} < \frac{{(r + 1)}^{2}}{r} - - - (16)

通过这种方法不超过20次的浮点运算即可判定极值点是否为边缘点，取r为10，即将大小曲率之比超过10的极值点过滤掉。

E.生成关键点特征向量

本步骤生成关键点P(x，y，σ)的特征向量。为生成特征向量，首先在找到最接近尺度σ的同一阶高斯平滑图像(不是DoG图像)，假设该图像为L(x，y)。对L(x，y)中的每个像素点采用下列公式计算其梯度大小及方向：

m (x, y) = \sqrt{(L (x, y + 1) - L {(x, y - 1)}^{2} + (L (x + 1, y) - L {(x - 1, y)}^{2}} - - - (17)

θ(x，y)＝tan^-1((L(x，y+1)-L(x，y-1))/(L(x+1，y)-L(x-1，y)))

然后对于每一个关键点，采用梯度直方图统计法确定其梯度的大小和方向。统计关键点临近一个窗口内取所有邻域像素的梯度方向：梯度直方图的范围为0至360度，其中每10度作为一个方向，总共36个方向。将统计得到的直方图峰值所在的方向作为为关键点的方向。关键点的方向确定后，为了确保旋转不变性，首先将坐标轴旋转为关键点的方向，以关键点为中心，取16×16的窗口，并将这个窗口切分为16个4×4的子窗口，在每个子窗口中计算8个方向的梯度方向直方图，统计每个方向的累加值，由此形成一个包含各个8个方向向量的种子点。使用16×16的窗口内的16个4×4的子块的种子点所包含的向量作为关键点的特征向量，每个关键点有16×8＝128维的特征向量。

4 关键帧相似性衡量

假设存在两个关键帧图像B_i和B_j，B_i和B_j被选取用于计算SIFT特征的图像子带分别为{LL_i ^R，HH_i ^l}和{LL_j ^R，HH_j ^l}，各子带对应的SIFT关键点集合LL_i ^R(K)、HH_i ^l(K)、LL_j ^R(K)和HH_j ^l(K)。假设对于关键点集合X和Y，定义x_i∈X和y_j∈Y的欧氏距离：

假设x_i在集合Y中找到的距离最近的关键点为y_p距离为d_ip，次近点为y_q距离为d_iq，如果存在(d_ip/d_iq)＞ε₁，则称A中关键点x_i与B中关键点y_p匹配记为x_i→y_p，ε₁为小于1的常数。为了增强关键点匹配的鲁棒性，减少错误匹配，本发明采用了双向关键点匹配方法，称关键点x_i∈X和y_j∈Y相似，当且仅当x_i→y_j同时y_j→x_i。如果关键帧图像低频子带关键点集合LL_i ^R(K)中有λ个元素在集合LL_j ^R(K)找到相似的关键点，且存在下列关系：

则称图像子带LL_i ^R与图像子带LL_j ^R相似，ε₂为小于1的常数。使用类似方法判断HH_i ^l是否与HH_j ^l相似，如果两个图像子带都相似，则关键帧图像B_i和B_j相似，用表示这种关系。

5 基于关键帧相似性进行字幕场景归属关系分析

本部分给出判定若干相邻字幕是否属于同一场景的方法。假设字幕D_i和D_j(i＜j)根据第2部分介绍的方法分别得到关键帧集合KD_i＝{KF_i1，KF_i2，KF_i3}和KD_j＝{KF_j1，KF_j2，KF_j3}，

{&Exists;}_{k} {&Exists;}_{l} (K F_{ik} &cong; {KF}_{jl}),

其中1≤k≤3，1≤l≤3 (18)

如果公式18成立则字幕D_i和D_j属于同一场景，此时称D_i可关联到D_j用D_i□D_j表示，反之用D_i□|D_j表示。为加快运算过程，本发明给出了一种不需要计算所有关键帧SIFT特征的判断方法，具体步骤如下：

步骤1：使用第3部分介绍的方法，计算KF_ik(k的初始值为1)的SIFT特征，设置l＝1，转下一步骤；

步骤2：使用第3部分介绍的方法，计算KF_jl的SIFT特征，使用第4部分介绍的方法判断是是否有成立，如果成立则记录D_i□D_j，结束程序，否则转下一步骤；

步骤3：设置l＝l+1，如果l不大于3转步骤2，否则设置k＝k+1，如果k的值不大于3转步骤1，否则设置D_i□|D_j，结束程序。

电影视频中同一场景中的镜头具有一下几种组合关系：1)连续性镜头，例如运动物体在场景中不同位置的镜头；2)镜头和反转镜头，例如多个人物之间对话时镜头可以在不同的说话人之间切换；3)内嵌(插入)镜头，这种情况是指一个镜头在没结束前插入另一个镜头，在插入镜头结束后又回到原来的镜头，例如回忆或联想镜头的插入就属于这种情况。受电影视频这种拍摄制作规则影响，对于在连续性镜头中的相邻字幕，通过比较其关键帧之间的相似性即可判定其是否属于同一场景。对于后两种情况，相似性镜头是交错分布的，相邻字幕的关键帧不一定相似，但具有一定间隔的不同字幕之间的关键帧可能相似，例如镜头在不同对话人之间周期性切换时就是如此，因此要对多条相邻字幕进行相似性分析。基于以上分析，本发明提出了一种基于字幕关联转移图的视频场景分割方法。对于字幕D_i和D_j(i＜j)，如果有D_i□D_j，则称字幕D_i可转移到字幕D_j，此时创建一条从D_i指向D_j的弧线D_i，j，该弧线覆盖的所有字幕都认为属于同一场景，如附图5中由于存在弧线D_i，j，因此字幕D_i D_i+1 D_i+2 D_j被判定为属于同一场景。如果不同弧线之间存在交叉，则要进行弧线的合并，即进行同一场景字幕的合并。例如在附图5中弧线D_i，j和D_i+2，j+2交叉，进行合并后得到新的弧D_i，j+2，D_i，j+2所覆盖的字幕都属于同一场景。下面给出本发明场景分割的具体步骤：

步骤1：在视频中才抽取字幕关键帧集合{KD₁，KD₂，...，KD_i，...，KD_m}，设i＝1，窗口F的开始位置p＝i+1，转下一步骤；

步骤2：对字幕D_i使用KD_i中的关键帧考察与从p开始后继一个窗口F内所有字幕的关联性，如果窗口F内有多个字幕与D_i相似，取F内编号最大字幕设为D_j作为D_i的最终匹配字幕，分别标记D_i和D_j为弧线D_i，j的起点和终点，设置i＝i+1，p＝j+1；如果D_i在窗口F内没有找到可关联的字幕，设置i＝i+1，p＝max{i+1，p}；如果p≤n转步骤2，否则转步骤3；

步骤3：弧线合并：

一、设置k＝1，转二；

二、检查字幕D_k是否是某条弧线的起点，如果是转三，否则令k＝k+1，转二；

三、获取与D_k对应的弧线终点字幕设为S_l，令K＝k，L＝l，h＝K+1转四；

四、如果h≥L转五，否则检查字幕D_h是否是另一弧线的起点，如果是设该弧线的终点设为D_j设置L＝j+1，h＝h+1转四，否则设置h＝h+1转四；

五、设置K和L之间的字幕属于同一场景，令k＝L+1，如果k≤n转二，否则结束。

6 基于字幕相关性进一步确定字幕场景归属关系

电影一般实景拍摄，由于自然世界的复杂性和多样性，仅依靠视频图像的相似性对字幕的关联关系进行分析是不够的，某些同一场景中的字幕其对应的视频帧可能完全不同，因此还必须结合更高层次的电影语义信息以获得更为精确的场景分割效果。字幕文本作为电影高层语义信息的重要组成部分，蕴涵了很多进行字幕关联分析的线索。假设字幕D_i和D_i+1被第五部分介绍的方法判定为D_i□|D_i+1，本部分对存在这种关系的相邻字幕从字幕相关性的角度进一步对其是否关联进行判断。本发明将相邻字幕的相关性定义为一个三元函数F(α，β，γ)，其中α代表相邻字幕的主题相关性，相邻字幕文本所涉及的主题一致性越高则字幕的相关性越高，显然谈论同一主题的相邻字幕一般是属于同一场景的；β代表相邻字幕文本的词形相似性，字幕文本是电影中人物的说话内容，作为口语上下句之间经常会有字词重复，因此相邻字幕之间字词重合度越高，其相关性也越大；γ代表相邻字幕的时间接近性，一般而言，相邻字幕出现的间隔时间越短，其相关性越强。定义F(α，β，γ)的值为0或1，如果为1则表示相邻字幕关联，其取值规则如下：F中的三个自变量任意一个为1则F的值为1，否则F的值为0。F中三个自变量的取值范围也为0或1，其取值方法介绍如下。

自变量α取值方法

假设字幕D_i和D_i+1对应的字幕文本为DC_i和DC_i+1，当下列条件之一成立时α取值为1否则为0。条件1：DC_i包含疑问词集合T中的任一元素，集合T＝{什么，怎么，怎样，谁，啥，咋，哪，多少，何如，如何，为何，何不，呢，吗}；条件2：DC_i+1以连词集合Q中的任一元素作为起始字符，集合Q＝{还，抑或，而，但，才，又，于是，然后，接着，也，另，何况，况且，就是，只，却，所以，因而，便，或者，要么，一方面，或许，也许，可能}。

自变量β取值方法

对DC_i进行分词，抽取其中的实词即名词，动词，形容词，副词，代词，数词按从左到右排列得实词集合X＝{x₁，x₂，...，x_n}，用同样的方法获得DC_i+1的实词集合Y＝{y₁，y₂，...，y_n}。统计X和Y相同关键词的数量，如果数量超过不为0则β取值为1否则为0

自变量γ取值方法

假设字幕D_i在视频中的消失时刻为DE_i，字幕D_i+1在视频中出现时刻为DB_i+1，则这两个相邻字幕的出现间隔为P_i，i+1＝DB_i+1-DE_i，取以D_i为中心的长度为L的窗口内相邻字幕平均出现时间间隔：

E (P_{i, i + 1}) = (Σ_{k = - L}^{k = L} ({DB}_{i + k + 1} - {DE}_{i + k})) / (L + 1) - - - (19)

如果有P_i，i+1＞ε₃·E(P_i，i+1)则取γ值为0否则为1，ε₃为常数，根据统计取其值为10。

7 视频无缝场景片段分割

对字幕进行关联分析后，字幕被分割为多个关联字幕集合(集合里的字幕属于同一场景)，假设第i个关联字幕集合为：{D_k，D_k+1，...，D_l-1，D_l}属于场景S_p，以[DB_k，DE_l]表示该字幕集合对应的视频片段(DB_k为视频段的开始时刻，DE_u为视频段的结束时刻)；第i+1个关联字幕集合为：{D_l+1，D_l+1，...，D_p-1，D_p}？？属于场景S_q，以[DB_l+1，DE_p]表示该字幕集合对应的视频片段，由于DE_l与DB_l+1存在时间间隔，本专利称[DE_l，DE_l+1]视频段为场景切换过渡区域，本部分将给出在该过渡区域中寻找场景切换点的方法。由于，电影中的某些场景可能不包含对白即没有字幕，这些场景对应视频片段显然位于场景切换过渡区域中，此时还必须分割出该种类型场景片段。抽取过渡区域[DB_l+1，DE_p]中的视频帧序列设为{F₁，F₂，...，F_n-1，F_n}，使用第4部分介绍的方法判定F_i(1≤i＜n)和F_i+1的相似性，如果判定为不相似，那么认为F_i和F_i+1之间存在一个场景切换点b，b所对应的时刻为：DB_l+1+(i-1)/R，假设最终得到的切换点序列为b₁，b₂，...，b_N+1(N≥0)，则场景S_p的结束时刻为b₁，场景S_q的开始时刻为b_N+1，当N＞0时S_p与S_q之间所包含的每个无对白场景对应的视频片段为[b_i，b_i+1](1≤i≤N)。对所有场景切换过渡区域进行分析后，即获得视频所包含场景片段的精确分割时间。

8 生成场景视频片段索引

设对视频进行无缝分割后得到场景视频片段集合{S₁，S₂，...，S_n-1，S_n}，其中包含字幕的场景可直接使用字幕中的文本作为高层语义信息，对其中不包含字幕的场景进行必要的人工标注或添加说明(如有必要也可对包含字幕的视频片段添加必要说明)，如此每个场景视频片段S_i都有相应的高层语义文本，将这些文本作为检索相应视频片段的索引信息。假设S_i所对应的高层语义文本为T_i，对文本T_i进行分词处理，并计算每个词在T_i的词频，为每个场景S_i建立如附图6所示的前向索引表，其中TableID为表的编号，WordID是词的编号，Frequency是词频。对所有文本进行分词后，为加快检索速度为每个词建立其到关键词表的倒排索引，如附图7所示，每个关键词可能在多个关键词表中出现。进行视频片段检索时，首先对查询字符串进行分词，提取其中的关键词，假设所获得的关键词集合为{k₁，k₂，...，k_n-1，k_n}，对每个关键词k_i根据其编号在倒排索引表中查找包含它的前向索引表，如果多个前向索引表中包含所有的关键词k_i，则此时将这些前向索引表中每个k_i的词频相加作为衡量查询串与场景视频片段相关度的标准，该值越高相关性越高，如果前向索引包含的关键词数量不等，则包含的关键词越多的其与查询串的相关度越高，取相关度最高的视频片段作为查询结果。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种联合字幕和视频图像信息进行场景分割的方法，其特征在于，该方法将每条字幕持续时间段内视频帧集合作为进行场景聚簇的最小单元，包括如下步骤：

2.根据权利要求1所述的联合字幕和视频图像信息进行场景分割的方法，其特征在于，所述的字幕持续时间段内视频关键帧集合包括：起始帧、结束帧和中点位置的帧。

3.根据权利要求1所述的联合字幕和视频图像信息进行场景分割的方法，其特征在于，还包括步骤13)，如果两个相邻字幕的视频关键帧有两个或以上相似的，则判断两个相邻字幕对应的视频帧属于一个场景。

4.根据权利要求1所述的联合字幕和视频图像信息进行场景分割的方法，其特征在于，进一步包括：针对相邻字幕关键帧图像不相似的，再进一步利用相邻字幕在语义、词形或时间方面的相关性进一步确定字幕和场景的归属关系，步骤包括：

5.根据权利要求1所述的联合字幕和视频图像信息进行场景分割的方法，其特征在于，针对已经基于连续字幕分离出的时间不连续的两个相邻场景，再利用基于字幕提供的时间信息结合关键帧相似性方法判断这段不连续时间段内的视频关键帧图像的相似性，根据两个时间相邻的不相似帧之间存在切换点，依次找到这段不连续时间段内所有切换点，并找到切换点对应的时刻：(DB_l+1+(i-1)/R)，则可以获得视频所包含场景片段的精确分割时间。

6.根据权利要求1、4或5任一项所述的联合字幕和视频图像信息进行场景分割的方法，其特征在于，所述的关键帧的相似性利用图像的SIFT特征进行判断，具体步骤包括：

然后，基于该目标矩阵进行子带图像SIFT特征提取；

7.根据权利要求6所述的联合字幕和视频图像信息进行场景分割的方法，其特征在于，所述的SIFT特征提取的步骤包括：

8.一种联合字幕和视频图像信息进行场景索引的方法，具体步骤包括：

24)为分割的每个场景建立前向索引表；

9.根据权利要求8所述的联合字幕和视频图像信息进行索引的方法，其特征在于，还包括步骤：针对不包含字母的场景进行必要的人工标注或添加说明。