CN103593363B

CN103593363B - 视频内容索引结构的建立方法、视频检索方法及装置

Info

Publication number: CN103593363B
Application number: CN201210290808.9A
Authority: CN
Inventors: 王玲芳; 李挺屹; 王劲林
Original assignee: Institute of Acoustics CAS; Beijing Intellix Technologies Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Intellix Technologies Co Ltd
Priority date: 2012-08-15
Filing date: 2012-08-15
Publication date: 2016-12-21
Anticipated expiration: 2032-08-15
Also published as: CN103593363A

Abstract

本发明公开了一种视频内容索引结构的建立方法、视频检索方法及装置，所述视频内容索引结构的建立方法依据影视类视频内容的关联性建立各视频内容的索引文件，包含如下步骤：步骤101）依据各场景的起始时间和终止时间将整个视频文件划分为若干时间区间，再将视频相关文本信息或隐语义依据它们在所述视频文件出现的时刻分别归属到某个场景对应时间区间内，完成视频场景、视频相关文本和隐语义之间的时间关联处理；所述视频相关文本为从视频数据或包含语音数据或字幕数据的相关数据中导出带时间标记的文本信息组成的文本；步骤102）基于上步的时间关联处理分别建立包含：影片级、场景级和关键帧级的从粗到细的多层次的索引结构，完成索引文件的建立。

Description

视频内容索引结构的建立方法、视频检索方法及装置

技术领域

本发明涉及多媒体信息技术领域，特别涉及到影视类视频、记录类视频等带解说或字幕的媒体数据内容关联和索引建立方法，即本发明提供了一种视频内容索引结构的建立方法、视频检索方法及装置。

背景技术

在多媒体信息领域，针对视频数据，普遍采取人工标注、建立索引，才能进行后续的检索。这种方法具有精度较高的优点，但又有耗时长、费用高的缺陷，而且面对日益增多的海量视频数据，视频人工标注面临非常艰难的处境。

随着时代发展，人们发现，对于视频数据，一般都伴随有文本数据、话音数据，因此如何利用文本数据、话音数据来标注视频数据，就成为90年代以来研究人员的主攻方向。沿着这样的思路，第一阶段是粗粒度的标注，即使用文本（或对语音数据经语音识别后的文本），建立文本索引，在索引中有一个字段指向视频数据；第二阶段是使用文本数据与视频数据的共时性关系，即场景关联，做法是使用视频切分工具或辅以人工干预，将视频切分成多个场景，然后利用文本数据（如字幕）中的时间与各场景关联，将整体文本分成与各场景关联的文本段，并从各场景中抽取一个关键帧作为该场景的标志。对各场景关联的文本段建立索引，在索引中有两个字段：一个字段指向关键帧，一个字段指向场景视频数据，目前处于这一阶段。

另外一种研究思路是从视频数据本身出发实施的。第一种方法，类似于文本索引建立过程，该方法抽取视频词项，以视频词项建立索引，这种方法的缺陷是所谓的视频词项是人类不可读的，不具备显式涵义，仅适用于QBE（Query by Example）方法；第二种方法是语义学法，简单地说，是利用统计学方法，抽取视频数据的隐语义，和上面一种方法的缺陷一样，也不具备显式涵义。从视频数据本身出发的方法，实际的系统都要求较好的用户界面，要求用户提供范例，才能进行具体的检索。

目前缺少将基于文本的索引建立方法与基于视频数据的索引建立方法相结合的有效方法，从而解决基于文本索引建立方法粒度粗、基于视频数据索引建立方法不直观的缺陷，提供一种方便检索、粒度较细的索引结构及其建立方法。

发明内容

本发明的目的在于，为克服现有技术的上述问题，本发明提供了一种视频内容索引结构的建立方法、视频检索方法及装置。

为了实现上述目的，一方面本发明提供了一种视频内容索引文件的建立方法，该方法依据影视类视频内容的关联性建立各视频内容的索引文件，所述方法包含如下步骤：

步骤101）依据各场景的起始时间和终止时间将整个视频文件划分为若干时间区间，再将视频相关文本信息或隐语义依据它们在所述视频文件出现的时刻分别归属到某个场景对应时间区间内，完成视频场景、视频相关文本和隐语义之间的时间关联处理；所述视频相关文本为从视频数据或包含语音数据或字幕数据的相关数据中导出带时间标记的文本信息组成的文本；

步骤102）基于上步的时间关联处理分别建立包含：影片级、场景级和关键帧级的从粗到细的多层次的索引结构，完成索引文件的建立。

上述技术方案中，所述步骤101）之前还包含如下步骤：

用于将整个视频文件切分为各个场景的步骤；

用于生成视频相关文本的步骤，该步骤具体为：从视频数据或包含语音数据和字幕数据的相关数据中导出带时间标记的文本信息；

用于关键帧或I帧隐语义的生成步骤，该步骤为：利用视频包含的各图像的图像语义提取算法对图像数据进行计算，得到关键帧或I帧的隐语义；

其中，上述三个步骤之间无执行的先后次序。

上述技术方案中，依据镜头切换、图像锐变或字幕文本话题切换特征对视频数据进行场景分割。

上述技术方案中，所述影片级索引结构包含：影片级倒排文件索引库和影片级倒排隐语义索引；

所述场景级索引结构包含：视频场景倒排文本索引库和视频场景倒排隐语义索引库；

所述关键帧或I帧级索引结构包含：帧组级倒排隐语义索引库和帧级倒排隐语义索引库。

上述技术方案中，所述场景级索引结构的形成方法如下：

利用视频场景、视频相关文本和隐语义关联中得到的归属关系，形成符合如下条件的多个集合：SequenceNo，[Starttime、Endtime]，[text]，[keyframeLSI，occur-time]；

利用所述text集合使用文本索引技术，建立视频场景倒排文本索引库；

利用所述的keyframeLSI集合建立视频场景倒排隐语义索引库。

上述技术方案中，所述影片级的索引结构形成方法如下：

利用与影片视频关联的文本，通过文本分词，形成影片视频的关键字，建立影片级倒排文本索引；其中，所述影片级视频关联的文本包含：影片介绍、剧本或字幕集合；

利用影片代表帧，生成该代表帧的隐语义，建立影片倒排隐语义索引，所述代表帧由编辑人员选择确定。

上述技术方案中，所述关键帧或I帧索引结构形成方法还包含如下步骤：

如果是帧组，依据时间区间，得到这段时间对应的文本集合txt-set，建立帧组级的倒排文本索引；从帧组中为该帧组选择一代表帧，生成代表帧的隐语义，建立帧组级倒排隐语义索引；

如果是单帧，则依据该帧发生时的时刻，得到含该时刻的文本句子，建立帧级的倒排文本索引；并生成该帧的隐语义，建立帧级倒排隐语义索引。

另一方面，本发明还提供一种基于上述构建的视频内容索引文件进行视频检索方法，所述检索方法包含：

用户输入视频检索请求信息；

依据用户输入的视频检索请求信息获取用户检索的类型，并依据用户检索的类型将用户引导到具体类别的索引结构中进行索引查找；其中，所述用户检索的类型包含：影片级检索请求、场景级检索请求或帧组或帧级检索请求；所述索引结构包含：影片级索引结构、场景级索引结构、关键帧或I帧级索引结构；

依据获取的视频索引到服务器或其他的终端用户的视频库查找用户所需的视频检索请求的具体内容并提供给用户。

最后，本发明还提供一种基于上述构建的的视频内容索引文件进行视频检索装置，其特征在于，所述视频检索装置包含：

视频内容索引文件生成单元，用于依据各场景的起始时间和终止时间将整个视频文件划分为若干时间区间，再将文本信息或隐语义依据它们在所述视频文件出现的时刻分别归属到某个场景对应时间区间内，完成视频场景、文本和隐语义之间的时间关联处理；基于上步的时间关联处理分别建立包含：影片级、场景级和关键帧级的从粗到细的多层次的索引结构，完成索引文件的建立;

接收单元，用于接收用户发送的检索请求；

第一处理单元，用于处理接收的用户的检索请求，并将该检索请求进行类别划分，所述类别包含：影片级检索请求、场景级检索请求或帧组或帧级检索请求；

引导单元，用于依据第一处理模块输出的用户检索请求的类别将用户引导至合适的视频内容索引文件生成单元得到的多层次的索引结构进行目标索引，所述多层次的索引结构包含：影片级索引结构、场景级索引结构、关键帧或I帧级索引结构；所述合适的索引结构为将用户请求的类型与具体的索引结构进行匹配；

视频文件定位发送单元，用于借助引导模块从视频库中定位用户所请求的视频文件，并将定位的视频文件发送至请求用户，完成视频文件检索。

上述技术方案中，所述视频内容索引文件生成单元进一步包含：

场景切分子单元，用于将整个视频文件切分为各个场景；

视频相关文本获取子单元，用于生成视频相关文本，具体为：从视频数据或包含语音数据和字幕数据的相关数据中导出带时间标记的文本信息；

隐语义生成子单元，用于关键帧或I帧隐语义的生成，具体为：利用视频包含的各图像的图像语义提取算法对图像数据进行计算，得到关键帧或I帧的隐语义；

关联子单元，用于依据获取的视频场景、视频相关文本和关键帧隐语义的共时性特征，将它们进行关联处理，即依据各场景的起始时间和终止时间将整个视频文件划分为若干时间区间，再将文本信息或隐语义依据它们在所述视频文件出现的时刻分别归属到某个场景对应时间区间内，完成视频场景、文本和隐语义之间的时间关联处理；和

层次化索引结构生成子单元，用于依据得到的关联处理结果，分别建立包含：影片级、场景级和关键帧级的从粗到细的多层次的索引结构，完成索引文件的建立。

与目前的方法相比，本发明具有下列优点：（1）可分级检索：影片级、场景级、帧级；（2）可文本检索；（3）可样例检索QBE。总之，本发明提供了一种利用视频相关文本、视频隐语义建立一种由粗到细的视频数据内容关联和索引建立方法，充分利用了视频数据中的文本/视频信息，为从粗到细粒度的视频内容检索提供了技术手段。

附图说明

图1本发明提供的视频内容关联和索引建立流程图；

图2-a本发明提供的影片级索引层次结构图；

图2-b是本发明提供的场景级索引层次结构图；

图2-c是本发明提供的帧组/帧级索引层次结构图；

图3本发明实施例的检索场景示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细的说明。

本发明提供的一种利用视频相关文本、视频隐语义建立一种由粗到细的视频数据内容关联和索引建立方法。该方法包括视频相关文本的生成方法、视频场景切分方法、关键帧/I帧隐语义生成方法、视频场景/文本/隐语义关联方法、层次化索引结构及构造方法，充分利用了视频数据中的文本/视频信息，为从粗到细粒度的检索提供了技术手段。

为达到上述发明目的，本发明的一种利用视频相关文本、视频隐语义建立一种由粗到细的视频数据内容关联和索引建立方法，包括：视频相关文本的生成方法、视频场景切分方法、关键帧/I帧隐语义生成方法、视频场景/文本/隐语义关联方法、层次化索引结构及构造方法。

其中视频相关文本的生成方法指从视频数据或相关数据（如语音数据、字幕数据）中导出带时间标记文本信息。该方法分几种情况：（1）仅有视频数据，字幕等内嵌在视频图像中。针对这种情况，可采取OCR，从视频中提取字幕数据，同时要带上时间信息是比较繁琐的操作，但也是可以解决的；（2）有视频数据和语音数据，遇到这种情况，则对语音数据使用语音识别软件，生成文本和相关时间信息；（3）视频数据和字幕文件，这种情况则比较简单，直接利用字幕文件就可解决问题。

其中视频场景切分方法指利用镜头切换、图像锐变、字幕文本话题切换等特征对视频数据进行场景分割的过程，这个过程未必是对实际文件的具体分割，只是逻辑上找到各场景的起点时间、终点时间即可。

其中关键帧/I帧隐语义生成方法指利用图像语义提取算法，对图像数据进行计算，得到关键帧/I帧隐语义。另外，可能需要针对范例查询图像的大小，对关键帧/I帧进行缩放处理，之后才能进行上面的过程。

其中视频场景/文本/隐语义关联方法指利用这三者的共时性特征，将它们进行关联，即依据场景的起始时间、终止时间划分成多个时间区间，将文本、隐语义依据时间顺序（看时间落在哪个时间区间）分别归属到各场景。

其中层次化索引结构及构造方法指视频数据的层次结构和构造方法，其中视频数据的层次结构分三个层次，包括影片级、场景级和关键帧/I帧级，由于场景级可能包含的I帧较多，可将I帧分组，比较简单的方法是固定间隔法，也可采用帧相似法对一个场景内的帧分组；其中层次结构构造方法指形成层次结构的方法，场景级处于从粗到细索引结构的中间位置，也最为关键，其形成方法如下：

（1）利用视频场景/文本/隐语义关联方法中得到的归属关系，形成符合如下条件的多个集合：SequenceNo，[Starttime、Endtime]，[text]，[keyframeLSI，occur-time]；其中，SequenceNo是序列号，起始为1，每得到一个归属关系，序列号就增加1；Starttime是视频场景的开始时间；Endtime是视频场景的结束时间；text是[Starttime，Endtime]时间段之间存在的文本；keyframeLSI是关键帧的隐语义，依据图像语义生成算法生成；occur-time是关键帧的发生时间。

（2）利用（1）的text使用文本索引技术，建立视频场景倒排文本索引，其中text是字符串集合；

（3）利用（1）的keyframeLSI建立视频场景倒排隐语义索引，其中隐语义表现形式为二进制串。

其中影片级的视频索引形成方法如下：

（1）利用与影片视频关联的文本（可以是影片介绍、剧本或字幕集合），建立影片级倒排文本索引；

（2）利用影片代表帧（需要人工介入进行选择），生成该帧的隐语义，建立影片倒排隐语义索引；

其中关键帧/I帧级视频索引形成方法如下：

（1）如果是帧组，可依据时间区间，得到这段时间对应的文本集合txt-set，建立帧组级的倒排文本索引；利用帧组第一帧作为帧组代表帧（也可采用其他方法选择代表帧），生成代表帧的隐语义，建立帧组级倒排隐语义索引；

（2）如果是单帧，则依据该帧发生时的时间，得到含该时间的文本句子，建立帧级的倒排文本索引；生成该帧的隐语义，建立帧级倒排隐语义索引。

下面结合附图和具体实施例，对本发明所提供的一种利用视频相关文本、视频隐语义建立一种由粗到细的视频数据内容关联和索引建立方法作进一步阐述。

实施例

下面结合图1、图2-a、2-b和2-c说明利用视频相关文本、视频隐语义建立一种由粗到细的视频数据内容关联和索引建立方法。如图1所示，是视频内容关联和索引建立流程图。本发明提供的一个应用场景：假定有一部电影A（如驯龙高手），有视频文件Av以及相关字幕文件Ac。

（1）依据图1第一步“生成视频相关文本（含各文本发生时间）”，因为字幕文件Ac就含有文本和时间信息，所以这一步可直接得到；

（2）使用视频切分工具，对Av进行场景分割，假如得到n个场景，分别为Av1、Av2、…、Avn；还有每个场景的起始时间、终止时间，即[Ts-av1，Te-av1]、[Ts-av2，Te-av2]、…、[Ts-avn，Te-avn]；关键帧Kav1、Kav2、…、Kavn；

（3）使用图像隐语义提取工具，得到关键帧/I帧的隐语义，因为关键帧是I帧的子集，所以生成隐语义时，仅生成I帧的隐语义即可，要得到关键帧的隐语义，根据时间位置关系，从I帧的隐语义中检索可得到；假定有m个I帧，则得到隐语义H1、H2、…、Hm，以及I帧的时间信息T-I1、T-I2、…、TIm；

（4）利用共时性特征，得到视频场景/文本/隐语义关联关系三元组，[Sno，txtSet，KH]，其中Sno为场景序号、txtSet为场景关联的文本集合、KH为场景关键帧隐语义；利用共时性特征，得到各I帧对应的文本集合，得到帧/文本/隐语义关联关系三元组[Fno，F-txtSet，FH]，其中Fno为帧序号、F-txtSet为帧关联的文本集合、FH为I帧隐语义；影片的文本/代表帧关联关系三元组从（1）中可显然得到，即[film-str，film-txtSet，RH]，其中film-str为影片名字符串信息、film-txtSet为影片关联的文本集合、RH为代表帧隐语义。

（5）依据（4）中得到的各三元组，生成视频三级层次结构索引，得到的索引结构如图2-a、2-b和2-c所示。

下面简单地结合图3所述的检索场景图说明一下索引的使用方法，以场景级文本索引为例说明，其他情况类似。用户按关键字输入文本，采用常规的分词技术对输入文本分词，以各词为关键字搜索场景级文本倒排库，依据排序对得到的条目排序，并显示（在显示时，可显示对应场景的关键帧缩图等），由用户选择合适的条目进一步检索；如果用户通过图像输入，可指定样例图像，则可采用QBE方式，产生该样例图像的隐语义，以隐语义检索场景级关键帧隐语义倒排库，得到的结果可类似以文本方式排序并显示。

说明文档中的其他内容针对本专业领域内的普通技术人员，均可进行技术实现，这里不再赘述。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种视频内容索引文件的建立方法，该方法依据影视类视频内容的关联性建立各视频内容的索引文件，所述方法包含如下步骤：

步骤101)依据各场景的起始时间和终止时间将整个视频文件划分为若干时间区间，再将视频相关文本信息或隐语义依据它们在所述视频文件出现的时刻分别归属到某个场景对应时间区间内，完成视频场景、视频相关文本和隐语义之间的时间关联处理；所述视频相关文本为从视频数据或包含语音数据或字幕数据的相关数据中导出带时间标记的文本信息组成的文本；

步骤102)基于上步的时间关联处理分别建立包含：影片级、场景级和关键帧级的从粗到细的多层次的索引结构，完成索引文件的建立；

所述步骤101)之前还包含如下步骤：

步骤101-1)用于将整个视频文件切分为各个场景的步骤；

步骤101-2)用于生成视频相关文本的步骤，该步骤具体为：从视频数据或包含语音数据和字幕数据的相关数据中导出带时间标记的文本信息；

步骤101-3)用于关键帧或I帧隐语义的生成步骤，该步骤为：利用视频包含的各图像的图像语义提取算法对图像数据进行计算，得到关键帧或I帧的隐语义；

其中，步骤101-1)、步骤101-2)和步骤101-3)之间无执行的先后次序。

2.根据权利要求1所述的视频内容索引文件的建立方法，其特征在于，依据镜头切换、图像锐变或字幕文本话题切换特征对视频数据进行场景分割。

3.根据权利要求1所述的视频内容索引文件的建立方法，其特征在于，所述影片级索引结构包含：影片级倒排文件索引库和影片级倒排隐语义索引；

4.根据权利要求3所述的视频内容索引文件的建立方法，其特征在于，所述场景级索引结构的形成方法如下：

利用所述的keyframeLSI集合建立视频场景倒排隐语义索引库。

5.根据权利要求3所述的视频内容索引文件的建立方法，其特征在于，所述影片级的索引结构形成方法如下：

利用与影片视频关联的文本，通过文本分词，形成影片视频的关键字，建立影片级倒排文本索引；其中，所述与影片视频关联的文本包含：影片介绍、剧本或字幕集合；

6.根据权利要求3所述的视频内容索引文件的建立方法，其特征在于，所述关键帧或I帧索引结构形成方法还包含如下步骤：

7.一种视频检索方法，所述检索方法包含：

用户输入视频检索请求信息；

8.一种视频检索装置，其特征在于，所述视频检索装置包含：

视频内容索引文件生成单元，用于依据各场景的起始时间和终止时间将整个视频文件划分为若干时间区间，再将文本信息或隐语义依据它们在所述视频文件出现的时刻分别归属到某个场景对应时间区间内，完成视频场景、文本和隐语义之间的时间关联处理；基于上步的时间关联处理分别建立包含：影片级、场景级和关键帧级的从粗到细的多层次的索引结构，完成索引文件的建立；

接收单元，用于接收用户发送的检索请求；

引导单元，用于依据第一处理单元输出的用户检索请求的类别将用户引导至合适的视频内容索引文件生成单元得到的多层次的索引结构进行目标索引，所述多层次的索引结构包含：影片级索引结构、场景级索引结构、关键帧或I帧级索引结构；所述合适的索引结构为将用户请求的类型与具体的索引结构进行匹配；和

9.根据权利要求8所述的视频检索装置，其特征在于，所述视频内容索引文件生成单元进一步包含：

场景切分子单元，用于将整个视频文件切分为各个场景；