CN103593363B - 视频内容索引结构的建立方法、视频检索方法及装置 - Google Patents

视频内容索引结构的建立方法、视频检索方法及装置 Download PDF

Info

Publication number
CN103593363B
CN103593363B CN201210290808.9A CN201210290808A CN103593363B CN 103593363 B CN103593363 B CN 103593363B CN 201210290808 A CN201210290808 A CN 201210290808A CN 103593363 B CN103593363 B CN 103593363B
Authority
CN
China
Prior art keywords
video
level
frame
scene
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210290808.9A
Other languages
English (en)
Other versions
CN103593363A (zh
Inventor
王玲芳
李挺屹
王劲林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Intellix Technologies Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Intellix Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Intellix Technologies Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201210290808.9A priority Critical patent/CN103593363B/zh
Publication of CN103593363A publication Critical patent/CN103593363A/zh
Application granted granted Critical
Publication of CN103593363B publication Critical patent/CN103593363B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Abstract

本发明公开了一种视频内容索引结构的建立方法、视频检索方法及装置,所述视频内容索引结构的建立方法依据影视类视频内容的关联性建立各视频内容的索引文件,包含如下步骤:步骤101)依据各场景的起始时间和终止时间将整个视频文件划分为若干时间区间,再将视频相关文本信息或隐语义依据它们在所述视频文件出现的时刻分别归属到某个场景对应时间区间内,完成视频场景、视频相关文本和隐语义之间的时间关联处理;所述视频相关文本为从视频数据或包含语音数据或字幕数据的相关数据中导出带时间标记的文本信息组成的文本;步骤102)基于上步的时间关联处理分别建立包含:影片级、场景级和关键帧级的从粗到细的多层次的索引结构,完成索引文件的建立。

Description

视频内容索引结构的建立方法、视频检索方法及装置
技术领域
本发明涉及多媒体信息技术领域,特别涉及到影视类视频、记录类视频等带解说或字幕的媒体数据内容关联和索引建立方法,即本发明提供了一种视频内容索引结构的建立方法、视频检索方法及装置。
背景技术
在多媒体信息领域,针对视频数据,普遍采取人工标注、建立索引,才能进行后续的检索。这种方法具有精度较高的优点,但又有耗时长、费用高的缺陷,而且面对日益增多的海量视频数据,视频人工标注面临非常艰难的处境。
随着时代发展,人们发现,对于视频数据,一般都伴随有文本数据、话音数据,因此如何利用文本数据、话音数据来标注视频数据,就成为90年代以来研究人员的主攻方向。沿着这样的思路,第一阶段是粗粒度的标注,即使用文本(或对语音数据经语音识别后的文本),建立文本索引,在索引中有一个字段指向视频数据;第二阶段是使用文本数据与视频数据的共时性关系,即场景关联,做法是使用视频切分工具或辅以人工干预,将视频切分成多个场景,然后利用文本数据(如字幕)中的时间与各场景关联,将整体文本分成与各场景关联的文本段,并从各场景中抽取一个关键帧作为该场景的标志。对各场景关联的文本段建立索引,在索引中有两个字段:一个字段指向关键帧,一个字段指向场景视频数据,目前处于这一阶段。
另外一种研究思路是从视频数据本身出发实施的。第一种方法,类似于文本索引建立过程,该方法抽取视频词项,以视频词项建立索引,这种方法的缺陷是所谓的视频词项是人类不可读的,不具备显式涵义,仅适用于QBE(Query by Example)方法;第二种方法是语义学法,简单地说,是利用统计学方法,抽取视频数据的隐语义,和上面一种方法的缺陷一样,也不具备显式涵义。从视频数据本身出发的方法,实际的系统都要求较好的用户界面,要求用户提供范例,才能进行具体的检索。
目前缺少将基于文本的索引建立方法与基于视频数据的索引建立方法相结合的有效方法,从而解决基于文本索引建立方法粒度粗、基于视频数据索引建立方法不直观的缺陷,提供一种方便检索、粒度较细的索引结构及其建立方法。
发明内容
本发明的目的在于,为克服现有技术的上述问题,本发明提供了一种视频内容索引结构的建立方法、视频检索方法及装置。
为了实现上述目的,一方面本发明提供了一种视频内容索引文件的建立方法,该方法依据影视类视频内容的关联性建立各视频内容的索引文件,所述方法包含如下步骤:
步骤101)依据各场景的起始时间和终止时间将整个视频文件划分为若干时间区间,再将视频相关文本信息或隐语义依据它们在所述视频文件出现的时刻分别归属到某个场景对应时间区间内,完成视频场景、视频相关文本和隐语义之间的时间关联处理;所述视频相关文本为从视频数据或包含语音数据或字幕数据的相关数据中导出带时间标记的文本信息组成的文本;
步骤102)基于上步的时间关联处理分别建立包含:影片级、场景级和关键帧级的从粗到细的多层次的索引结构,完成索引文件的建立。
上述技术方案中,所述步骤101)之前还包含如下步骤:
用于将整个视频文件切分为各个场景的步骤;
用于生成视频相关文本的步骤,该步骤具体为:从视频数据或包含语音数据和字幕数据的相关数据中导出带时间标记的文本信息;
用于关键帧或I帧隐语义的生成步骤,该步骤为:利用视频包含的各图像的图像语义提取算法对图像数据进行计算,得到关键帧或I帧的隐语义;
其中,上述三个步骤之间无执行的先后次序。
上述技术方案中,依据镜头切换、图像锐变或字幕文本话题切换特征对视频数据进行场景分割。
上述技术方案中,所述影片级索引结构包含:影片级倒排文件索引库和影片级倒排隐语义索引;
所述场景级索引结构包含:视频场景倒排文本索引库和视频场景倒排隐语义索引库;
所述关键帧或I帧级索引结构包含:帧组级倒排隐语义索引库和帧级倒排隐语义索引库。
上述技术方案中,所述场景级索引结构的形成方法如下:
利用视频场景、视频相关文本和隐语义关联中得到的归属关系,形成符合如下条件的多个集合:SequenceNo,[Starttime、Endtime],[text],[keyframeLSI,occur-time];
利用所述text集合使用文本索引技术,建立视频场景倒排文本索引库;
利用所述的keyframeLSI集合建立视频场景倒排隐语义索引库。
上述技术方案中,所述影片级的索引结构形成方法如下:
利用与影片视频关联的文本,通过文本分词,形成影片视频的关键字,建立影片级倒排文本索引;其中,所述影片级视频关联的文本包含:影片介绍、剧本或字幕集合;
利用影片代表帧,生成该代表帧的隐语义,建立影片倒排隐语义索引,所述代表帧由编辑人员选择确定。
上述技术方案中,所述关键帧或I帧索引结构形成方法还包含如下步骤:
如果是帧组,依据时间区间,得到这段时间对应的文本集合txt-set,建立帧组级的倒排文本索引;从帧组中为该帧组选择一代表帧,生成代表帧的隐语义,建立帧组级倒排隐语义索引;
如果是单帧,则依据该帧发生时的时刻,得到含该时刻的文本句子,建立帧级的倒排文本索引;并生成该帧的隐语义,建立帧级倒排隐语义索引。
另一方面,本发明还提供一种基于上述构建的视频内容索引文件进行视频检索方法,所述检索方法包含:
用户输入视频检索请求信息;
依据用户输入的视频检索请求信息获取用户检索的类型,并依据用户检索的类型将用户引导到具体类别的索引结构中进行索引查找;其中,所述用户检索的类型包含:影片级检索请求、场景级检索请求或帧组或帧级检索请求;所述索引结构包含:影片级索引结构、场景级索引结构、关键帧或I帧级索引结构;
依据获取的视频索引到服务器或其他的终端用户的视频库查找用户所需的视频检索请求的具体内容并提供给用户。
最后,本发明还提供一种基于上述构建的的视频内容索引文件进行视频检索装置,其特征在于,所述视频检索装置包含:
视频内容索引文件生成单元,用于依据各场景的起始时间和终止时间将整个视频文件划分为若干时间区间,再将文本信息或隐语义依据它们在所述视频文件出现的时刻分别归属到某个场景对应时间区间内,完成视频场景、文本和隐语义之间的时间关联处理;基于上步的时间关联处理分别建立包含:影片级、场景级和关键帧级的从粗到细的多层次的索引结构,完成索引文件的建立;
接收单元,用于接收用户发送的检索请求;
第一处理单元,用于处理接收的用户的检索请求,并将该检索请求进行类别划分,所述类别包含:影片级检索请求、场景级检索请求或帧组或帧级检索请求;
引导单元,用于依据第一处理模块输出的用户检索请求的类别将用户引导至合适的视频内容索引文件生成单元得到的多层次的索引结构进行目标索引,所述多层次的索引结构包含:影片级索引结构、场景级索引结构、关键帧或I帧级索引结构;所述合适的索引结构为将用户请求的类型与具体的索引结构进行匹配;
视频文件定位发送单元,用于借助引导模块从视频库中定位用户所请求的视频文件,并将定位的视频文件发送至请求用户,完成视频文件检索。
上述技术方案中,所述视频内容索引文件生成单元进一步包含:
场景切分子单元,用于将整个视频文件切分为各个场景;
视频相关文本获取子单元,用于生成视频相关文本,具体为:从视频数据或包含语音数据和字幕数据的相关数据中导出带时间标记的文本信息;
隐语义生成子单元,用于关键帧或I帧隐语义的生成,具体为:利用视频包含的各图像的图像语义提取算法对图像数据进行计算,得到关键帧或I帧的隐语义;
关联子单元,用于依据获取的视频场景、视频相关文本和关键帧隐语义的共时性特征,将它们进行关联处理,即依据各场景的起始时间和终止时间将整个视频文件划分为若干时间区间,再将文本信息或隐语义依据它们在所述视频文件出现的时刻分别归属到某个场景对应时间区间内,完成视频场景、文本和隐语义之间的时间关联处理;和
层次化索引结构生成子单元,用于依据得到的关联处理结果,分别建立包含:影片级、场景级和关键帧级的从粗到细的多层次的索引结构,完成索引文件的建立。
与目前的方法相比,本发明具有下列优点:(1)可分级检索:影片级、场景级、帧级;(2)可文本检索;(3)可样例检索QBE。总之,本发明提供了一种利用视频相关文本、视频隐语义建立一种由粗到细的视频数据内容关联和索引建立方法,充分利用了视频数据中的文本/视频信息,为从粗到细粒度的视频内容检索提供了技术手段。
附图说明
图1本发明提供的视频内容关联和索引建立流程图;
图2-a本发明提供的影片级索引层次结构图;
图2-b是本发明提供的场景级索引层次结构图;
图2-c是本发明提供的帧组/帧级索引层次结构图;
图3本发明实施例的检索场景示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细的说明。
本发明提供的一种利用视频相关文本、视频隐语义建立一种由粗到细的视频数据内容关联和索引建立方法。该方法包括视频相关文本的生成方法、视频场景切分方法、关键帧/I帧隐语义生成方法、视频场景/文本/隐语义关联方法、层次化索引结构及构造方法,充分利用了视频数据中的文本/视频信息,为从粗到细粒度的检索提供了技术手段。
为达到上述发明目的,本发明的一种利用视频相关文本、视频隐语义建立一种由粗到细的视频数据内容关联和索引建立方法,包括:视频相关文本的生成方法、视频场景切分方法、关键帧/I帧隐语义生成方法、视频场景/文本/隐语义关联方法、层次化索引结构及构造方法。
其中视频相关文本的生成方法指从视频数据或相关数据(如语音数据、字幕数据)中导出带时间标记文本信息。该方法分几种情况:(1)仅有视频数据,字幕等内嵌在视频图像中。针对这种情况,可采取OCR,从视频中提取字幕数据,同时要带上时间信息是比较繁琐的操作,但也是可以解决的;(2)有视频数据和语音数据,遇到这种情况,则对语音数据使用语音识别软件,生成文本和相关时间信息;(3)视频数据和字幕文件,这种情况则比较简单,直接利用字幕文件就可解决问题。
其中视频场景切分方法指利用镜头切换、图像锐变、字幕文本话题切换等特征对视频数据进行场景分割的过程,这个过程未必是对实际文件的具体分割,只是逻辑上找到各场景的起点时间、终点时间即可。
其中关键帧/I帧隐语义生成方法指利用图像语义提取算法,对图像数据进行计算,得到关键帧/I帧隐语义。另外,可能需要针对范例查询图像的大小,对关键帧/I帧进行缩放处理,之后才能进行上面的过程。
其中视频场景/文本/隐语义关联方法指利用这三者的共时性特征,将它们进行关联,即依据场景的起始时间、终止时间划分成多个时间区间,将文本、隐语义依据时间顺序(看时间落在哪个时间区间)分别归属到各场景。
其中层次化索引结构及构造方法指视频数据的层次结构和构造方法,其中视频数据的层次结构分三个层次,包括影片级、场景级和关键帧/I帧级,由于场景级可能包含的I帧较多,可将I帧分组,比较简单的方法是固定间隔法,也可采用帧相似法对一个场景内的帧分组;其中层次结构构造方法指形成层次结构的方法,场景级处于从粗到细索引结构的中间位置,也最为关键,其形成方法如下:
(1)利用视频场景/文本/隐语义关联方法中得到的归属关系,形成符合如下条件的多个集合:SequenceNo,[Starttime、Endtime],[text],[keyframeLSI,occur-time];其中,SequenceNo是序列号,起始为1,每得到一个归属关系,序列号就增加1;Starttime是视频场景的开始时间;Endtime是视频场景的结束时间;text是[Starttime,Endtime]时间段之间存在的文本;keyframeLSI是关键帧的隐语义,依据图像语义生成算法生成;occur-time是关键帧的发生时间。
(2)利用(1)的text使用文本索引技术,建立视频场景倒排文本索引,其中text是字符串集合;
(3)利用(1)的keyframeLSI建立视频场景倒排隐语义索引,其中隐语义表现形式为二进制串。
其中影片级的视频索引形成方法如下:
(1)利用与影片视频关联的文本(可以是影片介绍、剧本或字幕集合),建立影片级倒排文本索引;
(2)利用影片代表帧(需要人工介入进行选择),生成该帧的隐语义,建立影片倒排隐语义索引;
其中关键帧/I帧级视频索引形成方法如下:
(1)如果是帧组,可依据时间区间,得到这段时间对应的文本集合txt-set,建立帧组级的倒排文本索引;利用帧组第一帧作为帧组代表帧(也可采用其他方法选择代表帧),生成代表帧的隐语义,建立帧组级倒排隐语义索引;
(2)如果是单帧,则依据该帧发生时的时间,得到含该时间的文本句子,建立帧级的倒排文本索引;生成该帧的隐语义,建立帧级倒排隐语义索引。
下面结合附图和具体实施例,对本发明所提供的一种利用视频相关文本、视频隐语义建立一种由粗到细的视频数据内容关联和索引建立方法作进一步阐述。
实施例
下面结合图1、图2-a、2-b和2-c说明利用视频相关文本、视频隐语义建立一种由粗到细的视频数据内容关联和索引建立方法。如图1所示,是视频内容关联和索引建立流程图。本发明提供的一个应用场景:假定有一部电影A(如驯龙高手),有视频文件Av以及相关字幕文件Ac。
(1)依据图1第一步“生成视频相关文本(含各文本发生时间)”,因为字幕文件Ac就含有文本和时间信息,所以这一步可直接得到;
(2)使用视频切分工具,对Av进行场景分割,假如得到n个场景,分别为Av1、Av2、…、Avn;还有每个场景的起始时间、终止时间,即[Ts-av1,Te-av1]、[Ts-av2,Te-av2]、…、[Ts-avn,Te-avn];关键帧Kav1、Kav2、…、Kavn;
(3)使用图像隐语义提取工具,得到关键帧/I帧的隐语义,因为关键帧是I帧的子集,所以生成隐语义时,仅生成I帧的隐语义即可,要得到关键帧的隐语义,根据时间位置关系,从I帧的隐语义中检索可得到;假定有m个I帧,则得到隐语义H1、H2、…、Hm,以及I帧的时间信息T-I1、T-I2、…、TIm;
(4)利用共时性特征,得到视频场景/文本/隐语义关联关系三元组,[Sno,txtSet,KH],其中Sno为场景序号、txtSet为场景关联的文本集合、KH为场景关键帧隐语义;利用共时性特征,得到各I帧对应的文本集合,得到帧/文本/隐语义关联关系三元组[Fno,F-txtSet,FH],其中Fno为帧序号、F-txtSet为帧关联的文本集合、FH为I帧隐语义;影片的文本/代表帧关联关系三元组从(1)中可显然得到,即[film-str,film-txtSet,RH],其中film-str为影片名字符串信息、film-txtSet为影片关联的文本集合、RH为代表帧隐语义。
(5)依据(4)中得到的各三元组,生成视频三级层次结构索引,得到的索引结构如图2-a、2-b和2-c所示。
下面简单地结合图3所述的检索场景图说明一下索引的使用方法,以场景级文本索引为例说明,其他情况类似。用户按关键字输入文本,采用常规的分词技术对输入文本分词,以各词为关键字搜索场景级文本倒排库,依据排序对得到的条目排序,并显示(在显示时,可显示对应场景的关键帧缩图等),由用户选择合适的条目进一步检索;如果用户通过图像输入,可指定样例图像,则可采用QBE方式,产生该样例图像的隐语义,以隐语义检索场景级关键帧隐语义倒排库,得到的结果可类似以文本方式排序并显示。
说明文档中的其他内容针对本专业领域内的普通技术人员,均可进行技术实现,这里不再赘述。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种视频内容索引文件的建立方法,该方法依据影视类视频内容的关联性建立各视频内容的索引文件,所述方法包含如下步骤:
步骤101)依据各场景的起始时间和终止时间将整个视频文件划分为若干时间区间,再将视频相关文本信息或隐语义依据它们在所述视频文件出现的时刻分别归属到某个场景对应时间区间内,完成视频场景、视频相关文本和隐语义之间的时间关联处理;所述视频相关文本为从视频数据或包含语音数据或字幕数据的相关数据中导出带时间标记的文本信息组成的文本;
步骤102)基于上步的时间关联处理分别建立包含:影片级、场景级和关键帧级的从粗到细的多层次的索引结构,完成索引文件的建立;
所述步骤101)之前还包含如下步骤:
步骤101-1)用于将整个视频文件切分为各个场景的步骤;
步骤101-2)用于生成视频相关文本的步骤,该步骤具体为:从视频数据或包含语音数据和字幕数据的相关数据中导出带时间标记的文本信息;
步骤101-3)用于关键帧或I帧隐语义的生成步骤,该步骤为:利用视频包含的各图像的图像语义提取算法对图像数据进行计算,得到关键帧或I帧的隐语义;
其中,步骤101-1)、步骤101-2)和步骤101-3)之间无执行的先后次序。
2.根据权利要求1所述的视频内容索引文件的建立方法,其特征在于,依据镜头切换、图像锐变或字幕文本话题切换特征对视频数据进行场景分割。
3.根据权利要求1所述的视频内容索引文件的建立方法,其特征在于,所述影片级索引结构包含:影片级倒排文件索引库和影片级倒排隐语义索引;
所述场景级索引结构包含:视频场景倒排文本索引库和视频场景倒排隐语义索引库;
所述关键帧或I帧级索引结构包含:帧组级倒排隐语义索引库和帧级倒排隐语义索引库。
4.根据权利要求3所述的视频内容索引文件的建立方法,其特征在于,所述场景级索引结构的形成方法如下:
利用视频场景、视频相关文本和隐语义关联中得到的归属关系,形成符合如下条件的多个集合:SequenceNo,[Starttime、Endtime],[text],[keyframeLSI,occur-time];
利用所述text集合使用文本索引技术,建立视频场景倒排文本索引库;
利用所述的keyframeLSI集合建立视频场景倒排隐语义索引库。
5.根据权利要求3所述的视频内容索引文件的建立方法,其特征在于,所述影片级的索引结构形成方法如下:
利用与影片视频关联的文本,通过文本分词,形成影片视频的关键字,建立影片级倒排文本索引;其中,所述与影片视频关联的文本包含:影片介绍、剧本或字幕集合;
利用影片代表帧,生成该代表帧的隐语义,建立影片倒排隐语义索引,所述代表帧由编辑人员选择确定。
6.根据权利要求3所述的视频内容索引文件的建立方法,其特征在于,所述关键帧或I帧索引结构形成方法还包含如下步骤:
如果是帧组,依据时间区间,得到这段时间对应的文本集合txt-set,建立帧组级的倒排文本索引;从帧组中为该帧组选择一代表帧,生成代表帧的隐语义,建立帧组级倒排隐语义索引;
如果是单帧,则依据该帧发生时的时刻,得到含该时刻的文本句子,建立帧级的倒排文本索引;并生成该帧的隐语义,建立帧级倒排隐语义索引。
7.一种视频检索方法,所述检索方法包含:
用户输入视频检索请求信息;
依据用户输入的视频检索请求信息获取用户检索的类型,并依据用户检索的类型将用户引导到具体类别的索引结构中进行索引查找;其中,所述用户检索的类型包含:影片级检索请求、场景级检索请求或帧组或帧级检索请求;所述索引结构包含:影片级索引结构、场景级索引结构、关键帧或I帧级索引结构;
依据获取的视频索引到服务器或其他的终端用户的视频库查找用户所需的视频检索请求的具体内容并提供给用户。
8.一种视频检索装置,其特征在于,所述视频检索装置包含:
视频内容索引文件生成单元,用于依据各场景的起始时间和终止时间将整个视频文件划分为若干时间区间,再将文本信息或隐语义依据它们在所述视频文件出现的时刻分别归属到某个场景对应时间区间内,完成视频场景、文本和隐语义之间的时间关联处理;基于上步的时间关联处理分别建立包含:影片级、场景级和关键帧级的从粗到细的多层次的索引结构,完成索引文件的建立;
接收单元,用于接收用户发送的检索请求;
第一处理单元,用于处理接收的用户的检索请求,并将该检索请求进行类别划分,所述类别包含:影片级检索请求、场景级检索请求或帧组或帧级检索请求;
引导单元,用于依据第一处理单元输出的用户检索请求的类别将用户引导至合适的视频内容索引文件生成单元得到的多层次的索引结构进行目标索引,所述多层次的索引结构包含:影片级索引结构、场景级索引结构、关键帧或I帧级索引结构;所述合适的索引结构为将用户请求的类型与具体的索引结构进行匹配;和
视频文件定位发送单元,用于借助引导模块从视频库中定位用户所请求的视频文件,并将定位的视频文件发送至请求用户,完成视频文件检索。
9.根据权利要求8所述的视频检索装置,其特征在于,所述视频内容索引文件生成单元进一步包含:
场景切分子单元,用于将整个视频文件切分为各个场景;
视频相关文本获取子单元,用于生成视频相关文本,具体为:从视频数据或包含语音数据和字幕数据的相关数据中导出带时间标记的文本信息;
隐语义生成子单元,用于关键帧或I帧隐语义的生成,具体为:利用视频包含的各图像的图像语义提取算法对图像数据进行计算,得到关键帧或I帧的隐语义;
关联子单元,用于依据获取的视频场景、视频相关文本和关键帧隐语义的共时性特征,将它们进行关联处理,即依据各场景的起始时间和终止时间将整个视频文件划分为若干时间区间,再将文本信息或隐语义依据它们在所述视频文件出现的时刻分别归属到某个场景对应时间区间内,完成视频场景、文本和隐语义之间的时间关联处理;和
层次化索引结构生成子单元,用于依据得到的关联处理结果,分别建立包含:影片级、场景级和关键帧级的从粗到细的多层次的索引结构,完成索引文件的建立。
CN201210290808.9A 2012-08-15 2012-08-15 视频内容索引结构的建立方法、视频检索方法及装置 Active CN103593363B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210290808.9A CN103593363B (zh) 2012-08-15 2012-08-15 视频内容索引结构的建立方法、视频检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210290808.9A CN103593363B (zh) 2012-08-15 2012-08-15 视频内容索引结构的建立方法、视频检索方法及装置

Publications (2)

Publication Number Publication Date
CN103593363A CN103593363A (zh) 2014-02-19
CN103593363B true CN103593363B (zh) 2016-12-21

Family

ID=50083512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210290808.9A Active CN103593363B (zh) 2012-08-15 2012-08-15 视频内容索引结构的建立方法、视频检索方法及装置

Country Status (1)

Country Link
CN (1) CN103593363B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795597A (zh) * 2018-07-17 2020-02-14 上海智臻智能网络科技股份有限公司 视频关键字确定、视频检索方法及装置、存储介质、终端

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870574B (zh) * 2014-03-18 2017-03-08 江苏物联网研究发展中心 基于h.264密文云视频存储的标签制作及索引方法
US9672280B2 (en) * 2014-04-10 2017-06-06 Google Inc. Methods, systems, and media for searching for video content
CN105183729A (zh) * 2014-05-30 2015-12-23 中国电信股份有限公司 音视频内容的检索方法和装置
CN104036023B (zh) * 2014-06-26 2017-05-10 福州大学 一种融合上下文的树形视频语义索引建立方法
CN104219536A (zh) * 2014-08-07 2014-12-17 无锡天脉聚源传媒科技有限公司 一种存储分片视频的方法及装置
CN104699816B (zh) * 2015-03-25 2017-12-12 成都华迈通信技术有限公司 一种数据处理方法及装置
CN104732991B (zh) * 2015-04-08 2017-08-25 成都索贝数码科技股份有限公司 一种快速整理、挑选和编辑综艺节目海量素材的系统和方法
CN106294454A (zh) * 2015-05-29 2017-01-04 中兴通讯股份有限公司 视频查找方法及装置
CN105187795B (zh) * 2015-09-14 2018-11-09 博康云信科技有限公司 一种基于视图库的视频标签定位方法及装置
CN105430434A (zh) * 2015-11-17 2016-03-23 北京奇虎科技有限公司 下载视频的方法与装置
CN105630897B (zh) * 2015-12-18 2019-12-24 武汉大学 一种内容感知的地理视频多层次关联方法
CN105787045B (zh) * 2016-02-26 2019-03-26 清华大学 一种用于可视媒体语义索引的精度增强方法
KR101769071B1 (ko) * 2016-05-10 2017-08-18 네이버 주식회사 비디오 태그 제작 및 활용을 위한 방법 및 시스템
CN106096050A (zh) * 2016-06-29 2016-11-09 乐视控股(北京)有限公司 一种视频内容搜索的方法和装置
CN106326382A (zh) * 2016-08-16 2017-01-11 广东中星电子有限公司 基于分层码流的视频数据存储和检索方法和装置
CN106570096B (zh) * 2016-10-31 2019-02-22 腾讯科技(深圳)有限公司 图片排序方法和装置
CN108227950B (zh) * 2016-12-21 2022-06-10 北京搜狗科技发展有限公司 一种输入方法和装置
CN107239571B (zh) * 2017-06-28 2021-04-09 浪潮金融信息技术有限公司 基于多维化数据空间技术的索引构建方法
CN107704609B (zh) * 2017-10-18 2021-01-08 浪潮金融信息技术有限公司 视频内容检索方法及装置、计算机可读存储介质、终端
CN110555136B (zh) * 2018-03-29 2022-07-08 阿里巴巴(中国)有限公司 一种视频标签的生成方法、装置及计算机存储介质
CN108833973B (zh) * 2018-06-28 2021-01-19 腾讯科技(深圳)有限公司 视频特征的提取方法、装置和计算机设备
CN109089133B (zh) 2018-08-07 2020-08-11 北京市商汤科技开发有限公司 视频处理方法及装置、电子设备和存储介质
CN109743617B (zh) * 2018-12-03 2020-11-24 清华大学 一种视频播放的跳转导航方法和设备
CN110287376B (zh) * 2019-06-11 2021-08-20 天津大学 一种基于剧本和字幕分析的抽取重要电影片段的方法
CN111639228B (zh) * 2020-05-29 2023-07-18 北京百度网讯科技有限公司 视频检索方法、装置、设备及存储介质
CN113254712A (zh) * 2021-05-12 2021-08-13 北京百度网讯科技有限公司 视频匹配方法、视频处理方法、装置、电子设备及介质
CN115186655A (zh) * 2022-07-06 2022-10-14 重庆软江图灵人工智能科技有限公司 基于深度学习的文字语义识别方法、系统、介质及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09247602A (ja) * 1996-03-07 1997-09-19 Kokusai Denshin Denwa Co Ltd <Kdd> 動画像検索装置
US5751280A (en) * 1995-12-11 1998-05-12 Silicon Graphics, Inc. System and method for media stream synchronization with a base atom index file and an auxiliary atom index file
CN1938714A (zh) * 2004-03-23 2007-03-28 英国电讯有限公司 用于对视频序列的场景进行语义分段的方法和系统
CN101021857A (zh) * 2006-10-20 2007-08-22 鲍东山 基于内容分析的视频搜索系统
CN101719144A (zh) * 2009-11-04 2010-06-02 中国科学院声学研究所 一种联合字幕和视频图像信息进行场景分割和索引的方法
CN102004920A (zh) * 2010-11-12 2011-04-06 浙江工商大学 一种监控视频分割及索引方法
CN102521253A (zh) * 2011-11-17 2012-06-27 西安交通大学 一种可视化的网络用户多媒体管理方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5751280A (en) * 1995-12-11 1998-05-12 Silicon Graphics, Inc. System and method for media stream synchronization with a base atom index file and an auxiliary atom index file
JPH09247602A (ja) * 1996-03-07 1997-09-19 Kokusai Denshin Denwa Co Ltd <Kdd> 動画像検索装置
CN1938714A (zh) * 2004-03-23 2007-03-28 英国电讯有限公司 用于对视频序列的场景进行语义分段的方法和系统
CN101021857A (zh) * 2006-10-20 2007-08-22 鲍东山 基于内容分析的视频搜索系统
CN101719144A (zh) * 2009-11-04 2010-06-02 中国科学院声学研究所 一种联合字幕和视频图像信息进行场景分割和索引的方法
CN102004920A (zh) * 2010-11-12 2011-04-06 浙江工商大学 一种监控视频分割及索引方法
CN102521253A (zh) * 2011-11-17 2012-06-27 西安交通大学 一种可视化的网络用户多媒体管理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795597A (zh) * 2018-07-17 2020-02-14 上海智臻智能网络科技股份有限公司 视频关键字确定、视频检索方法及装置、存储介质、终端

Also Published As

Publication number Publication date
CN103593363A (zh) 2014-02-19

Similar Documents

Publication Publication Date Title
CN103593363B (zh) 视频内容索引结构的建立方法、视频检索方法及装置
Qi et al. Integrating visual, audio and text analysis for news video
CN101616264B (zh) 新闻视频编目方法及系统
CN102342124B (zh) 用于提供与广播节目相关的信息的装置和方法
US7983915B2 (en) Audio content search engine
US11776267B2 (en) Intelligent cataloging method for all-media news based on multi-modal information fusion understanding
US20110093798A1 (en) Automated Content Detection, Analysis, Visual Synthesis and Repurposing
US20030065655A1 (en) Method and apparatus for detecting query-driven topical events using textual phrases on foils as indication of topic
US20060173916A1 (en) Method and system for automatically generating a personalized sequence of rich media
CN101719167B (zh) 一种可互动的影视搜索方法
CN111274442B (zh) 确定视频标签的方法、服务器及存储介质
CN110781328A (zh) 基于语音识别的视频生成方法、系统、装置和存储介质
CN116483973A (zh) 一种文本处理方法、装置以及相关设备
CN113312503A (zh) 一种新的教学类视频内容摘要和可视化浏览方法
CN104217008A (zh) 互联网人物视频交互式标注方法及系统
CN110019852A (zh) 多媒体资源搜索方法和装置
CN103984772A (zh) 文本检索字幕库生成方法和装置、视频检索方法和装置
CN102855317A (zh) 一种基于演示视频的多模式索引方法及系统
JP5296598B2 (ja) 音声情報抽出装置
CN114254158B (zh) 视频生成方法及其装置、神经网络的训练方法及其装置
CN113779381A (zh) 资源推荐方法、装置、电子设备和存储介质
CN116361510A (zh) 一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置
Berrani et al. Constraint satisfaction programming for video summarization
Toklu et al. Videoabstract: a hybrid approach to generate semantically meaningful video summaries
KR20060100646A (ko) 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant