CN102486800A

CN102486800A - 视频搜索方法、系统及建立视频数据库的方法

Info

Publication number: CN102486800A
Application number: CN2011100326411A
Authority: CN
Inventors: 凃日升; 高荣扬
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2010-12-01
Filing date: 2011-01-27
Publication date: 2012-06-06
Also published as: TWI443535B; TW201224799A

Abstract

本发明公开了一种视频搜索方法、系统及建立视频数据库的方法。所述视频搜索方法，包括接收一查询短片(Query Clip)的元数据(Meta-data)，其中元数据包括一索引标签与一语意样式。根据上述索引标签从至少一视频数据库中取得一或多个候选视频短片。根据所述语意样式逐一与每一候选视频短片的语意样式进行比对，而根据一比对结果将每一候选视频短片标示为可回传视频短片或不可回传视频短片。标示为可回传视频短片的所述候选视频短片则为符合查询短片的查询结果。更提出一种视频搜索系统及建立视频数据库的方法。

Description

视频搜索方法、系统及建立视频数据库的方法

技术领域

本发明涉及视频搜索领域，特别是涉及一种以视频内容作为搜索输入条件来进行视频搜索的搜索方法、系统、及用于此视频搜索方法的视频数据库建立方法。

背景技术

目前网络上的搜索技术，大多是以文字(Text)搜索为主的技术，例如Google、Yahoo、Youtube或是国内的其他小站等等搜索引擎，都是以文字搜索为主。虽然各搜索引擎都希望能突破文字的限制，例如在相同关键词下，可搜索繁体中文或是简体中文、甚至其它语言的内容，但毕竟还是受到文字关键词的限制。例如，若希望能搜索相关的多媒体数据，包括声音文件或是影像文件，常常因为没有足够的文字内容可作为搜索的依据，或是各国家采用不同的翻译名称，造成徒有关键词却无法找出正确或者更多相关的数据。

搜索引擎Google在2009年4月份推出以照片找照片的服务，是以照片内容(Content)找具有相关内容(Content)数据的服务。例如，请参照图1A，当在输入框120输入“apple”关键词110时，会出现跟“apple”有关的相关资料，但此时包括以苹果造型所有的影像，以及商标“

”的相关产品手机“iPhone”。此时，若再进一步点选时，就可以排除许多不适用数据。例如图1B，使用者选取与苹果造型相关的影像后，搜索引擎进一步显示与此类水果(苹果)相关的影像。而又例如图1C，使用者选取与商标“

”相关产品手机“iPhone”影像后，则显示与此产品相关的其它影像，更精确地找出使用者所要搜索的照片。但此技术很显然是用影像(Image)内容来搜索影像(Image)，但仅限于相关照片图档的搜索，对于多媒体文件，并没有任何方法可以搜索。

为突破此限制，在活动影像专业人员组织(Motion Picture Expert Group，以下简称MPEG)制定的技术协议MPEG-7中，提出一种具有对内容提供补充信息的标准，特别是针对多媒体数字内容。在此MPEG-7标准中，对于多媒体可以提供相关对应的内容描述(Multimedia Content Description)，而且可以独立于其它的MPEG标准，而此数字内容描述甚至可以附加在模拟的电影文件中。

对于每一个视听内容(Audio-visual Content)都可赋予对应的内容描述(Content Description)，此内容描述主要是提出此视听内容的相关特征值。而其文件编排的方式，则是例如：

AV+Descript+AV+Desript+AV+Desript+…

此“AV”即代表视听内容(Audio-visual Content)，而“Desript”则是代表对应的内容描述(Content Description)。

但这样的架构过于复杂，必须对于所有的多媒体文件进行重新编排，不适合既有的文件与架构。另外，虽然可以经由特征值，借由类似关键词的搜索，而找出相关的多媒体文件，但是，却无法跳脱以文字搜索造成不同语言之间的隔阂。

此外，随着网络与TV的结合日渐普及，在电视上要进行视频搜索将不可避免会碰到关键词输入的问题。一般人看电视手头上所握的都是一个遥控器，以遥控的大小与功能是无法取代键盘作为文字输入的装置，因此在网络TV上利用遥控器来控制视频搜索是未来此类应用的一个问题点所在。

发明内容

本发明的目的在于提供一种视频搜索方法、系统及建立视频数据库的方法。其能够建立一个以视频内容作为搜索条件的技术，达到以视频找视频的搜索结果。

为实现本发明的目的而提供一种视频搜索方法，包括接收一查询短片(Query Clip)的元数据(Meta-data)，其中元数据包括一第一索引标签与一第一语意样式。根据上述第一索引标签从至少一视频数据库中取得一或多个候选视频短片。根据所述第一语意样式逐一与每一候选视频短片的语意样式进行比对，而根据一比对结果将每一候选视频短片标示为可回传视频短片或不可回传视频短片。标示为可回传视频短片的所述候选视频短片则为符合查询短片的查询结果。

对该第一语意样式与每一该候选视频短片的语意样式进行比对的方式包括：

计算该第一语意样式与每一该候选视频短片的语意样式的语意长度；以及

与一临界值进行比较，若该语意长度小于该临界值，则将该候选视频短片标示为可回传视频短片，若该语意长度大于该临界值，则将该候选视频短片标示为不可回传视频短片。

该查询短片为使用者选择一时间长度的视频文件。

该查询短片为经由一使用者接口连结选择一时间长度的视频文件。

所接收的该查询短片的元数据，是在一使用者进行一文字查询后，取得一响应视频文件与其元数据后，根据该使用者选择一时间长度的部分该视频文件，作为该查询短片的元数据。

所述的视频搜索方法，更包括将该第一语意样式与每一该候选视频短片及与该候选视频短片两侧邻近的视频短片进行比对而得到该比对结果。

为实现本发明的目的还提供一种建立可根据查询短片(Query Clip)查询视频的视频数据库的方法。此视频数据库包括储存多个视频比特(bit)串流及该视频比特串流的元数据(Meta-data)。每一所述元数据的建立方法包括对视频比特串流以一分割侦测流程进行分割处理，产生多个片段。对所述片段进行索引的编排，而根据每一片段的内容赋予对应的一索引标签。根据每一所述片段的视频特征(Video Feature)建立片段的语意样式，其中元数据至少包括所述片段所对应的索引标签与语意样式。

对该视频比特串流以该分割侦测流程进行分割处理的流程包括根据场景变换点切割该视频比特串流。

该场景变换点的选择是根据HSV长条图转换所得结果判断是否为该场景变换点。

根据转换所得结果是根据两相邻帧之间的HSV长条图转换后，两者的距离比较后所得到的结果。

对该片段进行索引的编排，是采用每一该片段的动态向量方向赋予对应的该索引标签。

对该片段进行索引的编排，是采用每一该片段的长度赋予对应的该索引标签。

对该片段进行索引的编排，是采用每一该片段的HSV色彩空间的色调Hue的角度赋予对应的该索引标签。

对该片段进行索引的编排，是采用每一该片段的动态向量方向、该片段的长度、每一该片段的HSV色彩空间的色调Hue的角度三者的任意组合而赋予对应的该索引标签。

为实现本发明的目的还提供一种视频搜索系统，包括一搜索引擎与至少一视频数据库。此搜索引擎用以接收一查询短片(Query Clip)的元数据(Meta-data)，其中所述元数据包括一第一索引标签与一第一语意样式。此视频数据库包括多个视频短片，其中搜索引擎根据第一索引标签从一视频数据库中取得一或多个候选视频短片，并根据第一语意样式逐一与每一候选视频短片的语意样式进行比对，而根据一比对结果将每一候选视频短片标示为可回传视频短片或不可回传视频短片，其中标示为可回传视频短片的候选视频短片则为符合查询短片的查询结果。

该视频数据库储存多个视频比特串流及该视频比特串流的元数据，其中每一该元数据的建立包括对该视频比特串流以一分割侦测流程进行分割处理，产生多个片段；对该片段进行索引的编排，而根据每一该片段的内容赋予对应的一索引标签；以及根据每一该片段的视频特征建立该片段的语意样式，其中该元数据至少包括该片段所对应的该索引标签与该语意样式。

所述的视频搜索系统，更包括一使用端，其中该查询短片为该使用端选择一时间长度的视频文件。

所述的视频搜索系统，更包括一使用端，其中该查询短片为经由该使用端的一使用者界面连结选择一时间长度的视频文件。

该视频数据库配置于远程主机，其中该搜索引擎可与该远程主机建立一通连管道，用以存取该视频数据库。

所述的视频搜索系统，更包括将该第一语意样式与每一该候选视频短片及与该候选视频短片两侧邻近的视频短片进行比对而得到该比对结果。

以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。

附图说明

图1A～1C是现有的一种以文字名称查找影像的搜索方法示意图；

图2A与2B是说明本发明一实施范例中，选择一段视频进行搜索的流程示意图；

图3是说明本发明一实施范例中，建立视频数据库的建立步骤流程示意图；

图4是说明本发明一实施例中对于视频比特串流建立元数据的方法示意图；

图5A是说明HSV色彩空间示意图；

图5B是将HSV色彩空间经由HSV长条图(HSV Histogram)剖析法转换的分布图；

图5C是将视频文件HSV长条图(HSV Histogram)剖析法转换产生长条图流程示意图；

图6(a)～(c)是说明本发明一实施例中，将视频文件切成几个小片段后，对每一片段赋予索引标签(Index Tag)的不同选择示意图；

图7A～7D是说明本发明一实施例中，产生语意样式的示意图；

图8是取得类似视频短片的步骤流程示意图；

图9是说明本发明一实施例中，进行查询短片(Query Clip)与候选视频短片的比较方法一实施例示意图；

图10是说明本发明一实施例中，从候选视频短片中选择可回传给使用者的视频片段示意图。

其中，附图标记

110：关键词

120：输入框

210、230、232、234：影片

220：搜索引擎(Search Engine)

240、242、244：视频数据库

310：视频比特串流

350：储存系统

具体实施方式

本发明提出了一种新的视频搜索技术，突破目前以文字为主的搜索技术，建立一个以视频内容作为搜索条件的技术，达到以视频找视频的搜索结果。

在本发明实施范例其中之一，是选择其中一段视频文件作为检索信息(Query Message)，此选择方式不论是透过使用者选择任一时间长度的视频文件，或是经由使用者界面自动选取其中一段固定或特定期间的视频文件等等方式皆可运用在此实施例中。

上述的使用者选择方式，在一实施例中，可内建于控制影片播放的遥控装置中，例如电视或是DVD的播放器等等。或是内建于触控显示器或屏幕上的使用者界面，能让使用者方便且简单的方式停住一段时间的影片作为检索信息等，均属本发明的应用。

针对选择作为检索条件的视频文件，由于其名称或是影片格式，甚至画面大小与质量可能有所不同，但若为同一部影片，其剧情是相同的。所以，只要针对所选择的视频文件，建立检索索引(Search Index)，即可找出相同或是相似剧情的影片。例如对作为检索条件的视频文件以及欲进行检索的所有其它视频文件，可先经由格式转换而转换为具有相同格式的视频文件。

由于本实施例加入了时间轴(Time Domain)的特征，因此，可在所欲进行检索的所有其它视频文件中找出相同时间轴区段的对应视频文件，而后，经由运算转换为具有相同格式的视频文件。在一实施例中，所有欲进行检索的其它视频文件可以是存在局域网络的主机、搜索引擎的主机数据库、或是云端数据库等等。而此格式转换的运算，可在个人主机、在局域网络的系统服务器、搜索引擎的主机或是云端运算系统等进行皆可。

本发明所提出一种针对新的视频搜索的方法，在多个实施例其中之一，请参照图2A与图2B所示。图2A是说明在一视频影片中选择其中一段的视频文件作为检索信息(Query Message)，以进行所谓的内容查询(Content Search)。此选择方式不论是透过使用者选择任一时间长度的视频文件，或是经由使用者界面自动选取其中一段固定或特定期间的视频文件等等方式皆可运用在此实施例中。

如图2A为例，当使用者在观看影片名为“叶问”时，此影片210的相关特征为分辨率(Resolution)是352×288(像素)、帧速率(Frame-Rate)每秒15个帧(Frames per second)以及画面的质量(Quality)为低画质(Low)。在此影片中选择其中一段的视频文件作为检索的条件，并且将此检索信息(QueryMessage)传回搜索引擎(Search Engine)220，以进行所谓的内容查询(ContentSearch)。在根据本实施例所建立的检索索引(Search Index)中进行内容检索后，对于找到的影片文件，例如图示中的影片230，为不符合条件的影片，因此不会回传。

但是，例如对于影片232与234而言，则是符合内容检索的条件，因此，会将影片232与234回传给使用者。而检索得到的影片，例如图示中的影片230、232与234，可具有不同的影片特征。例如影片230分辨率是1024×768、帧速率每秒30个帧以及画面的质量为低画质。影片232分辨率是1920×1080、帧速率每秒15个帧以及画面的质量为高画质(High)，以及234分辨率是1920×1080、帧速率每秒30个帧以及画面的质量为高画质。上述得到的检索结果，与原来的影片并不需要相同的影片特征。

图2B是说明在根据一段视频文件作为检索信息，以进行内容查询的流程示意图。首先，在步骤①中，使用者以文字搜索的方式输入关键词，并选择某部影片来观看，也就是说，使用者先根据关键词(Key Words)进行检索，以便找到符合条件的影片。也就是，使用者一开始可以根据关键词，完成以文字作为基础的检索。而后，在步骤②，搜索引擎220则回传一个视频比特串流(Vi deoBitstream)与其元数据(底下称为Meta-Data)给使用者。在步骤③中，使用者对影片中某段剧情有兴趣，希望能观看它不同分辨率及/或不同画质的版本。使用者可选择视频文件的其中一部分作为检索的条件。而后，在步骤④中，可将选择的视频短片的Meta-Data数据传回给搜索引擎220。如步骤⑤，搜索引擎220根据选择的视频短片，对所有可得到的视频数据库进行检索，如图标的视频数据库240、242与244，而找出类似的视频文件。并且接着如步骤⑥，将找出类似的视频文件回传给使用者，让使用者选择。

对于视频数据库240、242与244而言，在一实施例中，可以是存在远程的主机中，例如局域网络的主机、搜索引擎的主机数据库、或是云端数据库等等。而搜索引擎220或是格式转换的运算，可在个人主机、在局域网络的系统服务器、搜索引擎的主机或是云端运算系统等进行皆可。

上述搜索引擎220根据选择的视频短片(Video Clip)，对所有可得到的视频数据库进行检索，而找出类似的视频文件。而针对视频短片进行视频数据库的检索，根据本发明多个实施例其中之一，需先对所储存的所有视频文件进行Meta-Data的建立流程。而后才能进行搜索并取得类似的视频文件。

也就是本发明多个实施例其中之一，类似影片搜索的方法，包括底下两大步骤，首先，为视频数据库的建立步骤，其次为取得(Retrieving)类似视频短片(Video Clip)的步骤。

上述视频数据库的建立步骤则是至少包括(1)对视频文件的分割(Segmentat ion)与建立索引(Indexing)：包括将一个视频文件分割为多个视频短片(Video Clip)，而后赋予每一个视频短片一个索引标签(Index Tag)；(2)语意样式(Semantic Pattern)的建立：借由视频特征(Video Feature)建立每个视频短片的语意样式。

上述取得(Retrieving)类似视频短片的步骤至少包括(1)取得候选视频短片(Candidate Clips)：根据所选择一段视频文件作为检索条件的检索短片(Query Clip)寻找具有相同或类似的索引标签(Index Tag)作为候选视频短片(Candidate Clips)；(2)语意样式(Semantic Pattern)的比对：计算检索短片(Query Clip)与所有候选视频短片的语意样式距离(Semantic Distance)，并与一临界值(Threshold)比较后，判断是否为类似视频短片。

在一实施例中，视频数据库的建立步骤请参照图3。视频数据库的建立流程300中，针对所有影片的原始视频比特串流310，除了将视频文件全部储存在储存系统350外，更加上对原始视频比特串流310执行视频比特串流剖析(Parsing)步骤320、建立Meta-data步骤330以及将所得到的对应Meta-data储存在储存系统350。

上述关于对视频比特串流的剖析(Parsing)步骤，请参照2010年7月21日所提出美国第12/804,477号，名称为“VIDEO SEARCH METHOD USING MOTIONVECTORS AND APPARATUS THEREOF”的申请案内容，或是2010年6月29日在中国提出名称为“使用动态向量的视频搜索方法及其装置”的第201010220461.1号专利申请案)。

上述关于视频比特串流的剖析(Parsing)步骤，在一实施范例中，包括对一输入检索视频文件与多个欲进行检索的视频文件的比特流进行剖析，而取出对应的多个移动向量。根据所述移动向量在时间轴上建立多个对应的移动向量地图。根据所述检索视频文件的移动向量地图与所述视频文件的移动向量地图，得到相关(Correlation)程度，藉以根据此相关程度得到视频搜寻的结果。在一实施范例中，提出一种视频搜寻装置，包括一串流剖析器、一3D移动向量地图产生器与一3D移动向量地图比较器。此串流剖析器用以对一个视频文件的比特流进行剖析(Parsing)，并且根据不同比例取出位元流中的移动向量(MV)数据。此3D移动向量地图产生器，用以根据所述移动向量建构具有时间轴数据的一3D移动向量地图(3D-MV Map)。而3D移动向量地图比较器用以根据所述3-D移动向量地图进行运算，根据运算结果而找出视频文件的相关(Correlation)程度，藉以根据相关程度得到视频搜寻的结果。在一实施范例中，提出一种视频播放装置，具有一主机与一控制器。此主机具有一种视频搜寻装置，此视频装置包括一串流剖析器、一3D移动向量地图产生器与一3D移动向量地图比较器。此控制器具有一功能控制装置，其中功能控制装置用以使用者选择主机播放的视频数据中的其中一段，作为视频搜寻装置的一检索视频文件。

对视频比特串流的剖析(Parsing)步骤若是采用动态向量(Motion Vector)法时，对所有视频文件，通常为已经过压缩的数据，对其比特串流(Bitstream)进行剖析(Parsing)，可以选择性的以一定比例(例如1∶2、1∶4、1∶N，N为帧的数目)取得对应帧的移动向量(MV)值，其目的是为了弹性调整时间轴的取样率。本实施例将所有视频文件(包括作为检索条件的视频文件)转换为相同格式的用意，在于所有视频文件内图框的移动向量。也就是说，对所有压缩的视频文件取出其移动向量，据以建立检索索引。

而对于不同分辨率的移动向量，在本实施例中，可以利用上调取样(Up-Sampling)或是下调取样(Down-Sampling)的方式进行改变。例如，一般视频文件是由很多依照时间轴顺序连续排列的帧(Frame)所组成，而每个帧是由很多个宏区块(macroblock，MB)编码而成，而每个宏区块MB为例如是16×16为单位，而对于每个宏区块MB具有的移动向量，有可能一个，也可能具有16个(一个MB可再切割成16块4×4的子方块)，因此不同格式的影片光一个MB中可能就有1～16个MV值在其中，对于后面的MV差值运算会造成无法对应运算。所以，为了统一分辨率，则必须将每个宏区块MB所具有的移动向量数量调整成一致，在一实施例中，若是要将n个移动向量调整成一个，可以采用例如平均法，将n个移动向量的值做一平均数的计算。

另外，若是要将仅有1个移动向量转为具有n个移动向量的作法，可以将1个移动向量转为n个相同值的移动向量。

另外，针对如何决定宏区块MB所具有的移动向量是一个转n个或是n个转一个的方式，可采用统计法完成。例如针对MPEG的视频编码格式，通常在架构上会定义画面群组(Group of Pictures，GOP)，例如在MPEG-4协议处理连续动态影像时，为达到比较好的压缩效果，会定义此画面群组(GOP)，可以获得影像数据内的随机存取动作，例如在MPEG-4协议是包括九张画面(一个I画面、两个向前预测的P画面与六个双向预测的B画面)。因此，若欲知道采用哪个移动向量数量比较适合，则在一例子中，可以画面群组(GOP)为基本单位，针对其宏区块MB的移动向量所属的区块大小(Block Size)所占的比率，以例如一临界值(Threshold)来决定采用哪个数量的移动向量进行建立检索索引。

对视频比特串流的剖析(Parsing)步骤在一实施例中，也可采用HSV长条图(HSV Histogram)剖析法。上述的HSV Histogram剖析法，底下将介绍其中一种实施范例加以说明。

请参照图4是说明本发明一实施例中对于视频比特串流建立Meta-data的方法。对于一个视频比特串流410进行分割(Segmentation)后，成为分割视频文件420。而此分割视频文件420如图所示，例如根据场景变换点(SceneChange Point)转换为5个不同的片段。而后，则进一步对这5个片段进行索引的编排，成为具有不同索引标签(Index Tag)的视频短片430。如图所示，这5个片段的索引例如a₇b₅c₁、a₁b₃c₂、a₂b₅c₁、a₄b₇c₂、以及a₃b₃c₂。而后，借由视频特征(Video Feature)建立每个视频短片的语意样式，如图所示，5个片段的索引a₇b₅c₁、a₁b₃c₂、a₂b₅c₁、a₄b₇c₂、以及a₃b₃c₂转换后的语意样式440分别为“0000”、“10”、“1-1-11”、“10001-101”、以及“001”。

底下将分别就视频数据库的Meta-Data建立步骤(1)分割(Segmentation)；(2)建立索引(Indexing)；以及(3)语意样式(SemanticPattern)的产生进行说明。

分割(Segmentation)

对视频文件进行分割，需采用一致的方式。在一实施例中，对视频文件的分割，采用所谓场景变换(Scene Change)的地方当作切割视频文件的点，这样让每个切割出来片段有较高的相似性。以上述场景变换的点所切割出来的每个小段视频文件，在此实施例中称为片段(Shot)。

而对于每个片段(Shot)的选择，在多个实施例其中之一，是采用HSV长条图(HSV Histogram)剖析法。也就是，根据每个帧(Frame)之间的HSV Histogram的差距当作判断是否要把目前这个帧当成片段边缘(Shot Boundary)的依据。

HSI色彩空间是从人的视觉系统出发，用色调(Hue)、饱和度(Saturation或Chroma)和亮度(Value、Intensity或Brightness)来描述色彩。HSV色彩空间可以用一个圆锥空间模型来描述，请参照图5A，H代表色调(Hue)、S代表饱和度(Saturation)、及V代表亮度(Value)。用这种描述色彩空间的圆锥模型相当复杂，但却是能把色调、亮度和饱和度的变化情形表现得很清楚。通常把色调和饱和度通称为色度，用来表示颜色的类别与深浅程度。由于人的视觉对亮度的敏感程度强于对颜色浓淡的敏感程度，为了便于色彩处理和识别，人的视觉系统经常采用HSV色彩空间，它比RGB色彩空间更符合人的视觉特性。

而关于HSV长条图(HSV Histogram)转换，请参照图5B，每个图档在经过Histogram转换后转为三个分布图，包括色调(Hue)分布图520、饱和度(Saturation)分布图522、及亮度(Value)分布图524。而如图示5C，为说明经由HSV Histogram转换示意图。根据所取得的HSV Histogram当成特征，判断是否要把目前这个帧当成片段边缘(Shot Boundary)的片段侦测演绎(ShotDetection Algorithm)方法。而依据此特征作为是否将这些帧当成片段边缘(Shot Boundary)的依据。

例如，如图5C所示，针对取样帧(Sampling Frames)，对每个帧进行HSV转换，例如对帧f_i进行转换后得到左侧的HSV分布图，而对帧f_i+1进行转换后得到右侧的HSV分布图，而后，计算相邻帧之间的距离(Distance，D)，如图所示D(f_i，f_i+1)。

上述的HSV Histogram转换与分割的可参考例如在IEEE ICIP 2002由Shamik Sural、Gang Qian与Sakti Pramanik所发表名称为“SEGMENTATION ANDHISTOGRAM GENERATION USING THE HSV COLOR SPACE FORIMAGE RETRIEVAL”的论文内容，或是由Te-Wei Chiang，Tienwei Tsai，Mann-Jung Hsiao在“Performance Analysis of Color Components in Histogram-Based ImageRetrieval”所提出的距离量测(Distance Measurement)的方法。

建立索引(Indexing)

当视频文件切成几个小片段之后，接着要对这些小片段标上索引标签(Index Tag)。对每个片段(Shot)加上索引的方法，有许多种不同的实施例，在部分实施例中，可参照每个片段的动态向量(Motion Vector，MV)、片段的长度、色彩空间的分布(例如色调Hue的角度)或其它的特征之一或其各种组合进行索引的编辑。

在一实施例中，请参照图6，是利用包括(a)动态向量(Motion Vector)的方向分布、(b)片段的长度、(c)色彩空间中的色调Hue的角度分布取得其对应的索引值。如图6(a)中的MV的方向分布可分为八个象限(a₁、a₂、a₃、a₄、a₅、a₆、a₇、a₈)，图6(b)则是针对片段的长度给予不同的索引值(b₁、b₂、b₃、b₄、…)，而图6(c)则是针对色调Hue的角度分布可分为三个象限(c₁、c₂、c₃)。

语意样式(Semantic Pattern)的产生

为了快速的进行视频串流的相似性比较，必须把一段有大量数据量的影片转化成具有意义的符号，减少需要比对的信息，而这串符号称为语意样式(Semantic Pattern)。在具体验证的实例中，请参照图7A，分别找出QCIF-QP26格式影片、QCIF-QP32格式影片与CIF-QP26格式影片的动态向量(MV)的差异(Difference)加总值810、812、814。此通用图像格式(Common Image Format，CIF)一般大小为352×288像素，而QCIF则称为四分之一通用图像格式(QuarterCommon Image Format，QCIF)，一般大小为176×144像素。从图示可以了解，两段内容相同的视频，虽然有不同的质量或是分辨率，但是所形成的动态向量(MV)差异(Difference)加总值仍会有高度的相似。

建立语意样式的方法，在多个实施例其中之一，可先从帧与帧间的动态向量(MV)做相减，再把相减完得到的向量取长度，把这些长度加总起来可以当成帧与帧间的关联，透过预定表达式的转换后，得到一个总合比目前的总合大Delta值，则得到“1”，小于Delta值则得到“-1”，其它情况则得到”0”，如图7B与7C所示。经过上述步骤可以把一段影片转换成一串由1、0、-1组成的语意样式。对于一个视频串流而言，经过上述的步骤后被分割为多个片段，而后，对每个片段产生特定的标签索引与语意样式。

如图7D中，视频串流710被分割为多个片段shot₀、shot₁、shot₂、…、shot_n720后，则具有不同的标签索引与语意样式730。如片段shot₀则是具有标签索引a₁b₁c₁与语意样式(1011-1-100)，如标号732所示。片段shot₁则是具有标签索引a₁b₃c₂与语意样式(-11000000)，如标号734所示。而此标签索引则例如图6(a)、(b)、(c)所示的标签索引值。

取得(Retrieving)类似视频短片

对于取得(Retrieving)类似视频短片的步骤至少包括(1)取得候选视频短片(Candidate Clips)：根据所选择一段视频文件作为检索条件的检索短片(Query Clip)寻找具有相同或类似的索引标签(Index Tag)作为候选视频短片(Candidate Clips)；(2)语意样式(Semantic Pattern)的比对：计算检索短片(Query Clip)与所有候选视频短片的语意样式距离(Semantic Distance)，并与一临界值(Threshold)比较后，判断是否为类似视频短片。

上述取得类似视频短片的步骤流程图，请参照图8，首先，如步骤S810，开始进行类似视频短片的搜索。而步骤S820，则是接收查询短片(Query Clip)的Meta-data。而后，如步骤S830，借由索引标签(Index Tag)从视频数据库中取得候选视频短片(假设具有X个短片)，也就是候选视频短片与查询短片具有相同的索引标签。

步骤S840，则计算借由语意样式查询第i个候选视频短片与查询短片之间的语意长度(Semantic Distance)，并接着步骤S850，判断候选视频短片与查询短片之间的语意长度D的值是否小于临界值，若否，则进行下一个候选视频短片i+1的比较。若是语意长度D的值小于临界值，则此第i个候选视频短片则属于可以回传给使用者的类似视频短片。

而步骤S870则是判断是否完成这些X个候选视频短片的比对，若i＜X，则继续步骤S840，下一个候选视频短片i+1的比较，若i＝X，则如步骤S880，停止此流程。

上述语意长度(Semantic Distance)的比较方法，在一实施例中可采用底下的式子运算：

其中，c_K为第i个候选视频短片的第K个语意样式，而其数值可能为1、-1或是0。而q_K则是查询短片(Query Clip)的第K个语意样式。而L是查询短片的长度值。

候选视频短片与查询短片具有相同或类似的索引标签

前述揭露内容中，对视频文件进行分割，采用场景变换(Scene Change)的地方当作切割视频文件的点，这样让每个切割出来片段有较高的相似性。而场景变换的点所切割出来的每个小段视频文件称为片段(Shot)。而对于每个片段(Shot)的选择，是根据每个帧之间的HSV Histogram的差距当作判断是否要把目前这个帧当成片段边缘(Shot Boundary)的依据。根据所取得的HSVHistogram当成特征，判断是否要把目前这个帧当成片段边缘(Shot Boundary)的片段侦测演绎(Shot Detection Algorithm)方法。对于此片段侦测的方法，可能因为视频文件的分辨率(Resolution)或是画质(Quality)差异，造成会有不同的结果，如图9所示，对于影片的质量QP＝20的视频与QP＝40的视频在时间轴上会有所差异，为避免此种误差，在进行查询短片(Query Clip)与候选视频短片的比较时，可以将查询短片的语意样式，与候选视频短片与其两侧邻近的视频短片进行比对。也就是，在时间轴上，将查询短片的语意样式从左侧的视频短片的语意样式，类似滑动比对的方式进行比较，而到右侧的邻近的视频短片，以避免产生误差。

如图10所示，查询短片QP＝26，语意样式为010-11-1-11-11-100011-1-10000000-1，而其中一个候选短片QP＝32，语意样式为……000-110-11-11-100011-1-10000000-1……，临界值为(3×查询长度)/10＝(3×25)/10，在此例中，查询长度为目前正在进行比对的查询短片(Query Clip)的长度。计算后，最短距离＝2，小于临界值，属类似的视频文件，所以会回传给使用者。而其中另一个候选短片QP＝32，语意样式为……10-1010000000001101-1-111-1-1-1-11……，计算后，最短距离＝19，大于临界值，则不属于类似的视频文件，不可回传或不会回传给使用者。

本发明的有益效果在于，提出了一种新的视频搜索技术，突破目前以文字为主的搜索技术，建立一个以视频内容作为搜索条件的技术，达到以视频找视频的搜索结果。

在本发明实施范例其中之一，是选择其中一段视频文件作为检索信息(Query Message)，此选择方式不论是透过使用者选择任一时间长度的视频文件，或是经由使用者界面自动选取其中一段固定或特定期间的视频文件等等方式皆可运用在此实施例中。针对选择作为检索条件的视频文件，由于其名称或是影片格式，甚至画面大小与质量可能有所不同，但若为同一部影片，其剧情是相同的。所以，只要针对所选择的视频文件，建立检索索引(Search Index)，即可找出相同或是相似剧情的影片。例如对作为检索条件的视频文件以及欲进行检索的所有其它视频文件，可先经由格式转换而转换为具有相同格式的视频文件。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种视频搜索方法，其特征在于，包括：

接收一查询短片的元数据，其中该元数据包括一第一索引标签与一第一语意样式；

根据该第一索引标签从至少一视频数据库中取得一或多个候选视频短片；以及

根据该第一语意样式逐一与每一该候选视频短片的语意样式进行比对，而根据一比对结果将每一该候选视频短片标示为可回传视频短片或不可回传视频短片，其中标示为该可回传视频短片的该候选视频短片则为符合该查询短片的查询结果。

2.根据权利要求1所述的视频搜索方法，其特征在于，对该第一语意样式与每一该候选视频短片的语意样式进行比对的方式包括：

3.根据权利要求1所述的视频搜索方法，其特征在于，该查询短片为使用者选择一时间长度的视频文件。

4.根据权利要求1所述的视频搜索方法，其特征在于，该查询短片为经由一使用者接口连结选择一时间长度的视频文件。

5.根据权利要求1所述的视频搜索方法，其特征在于，所接收的该查询短片的元数据，是在一使用者进行一文字查询后，取得一响应视频文件与其元数据后，根据该使用者选择一时间长度的部分该视频文件，作为该查询短片的元数据。

6.根据权利要求1所述的视频搜索方法，其特征在于，更包括将该第一语意样式与每一该候选视频短片及与该候选视频短片两侧邻近的视频短片进行比对而得到该比对结果。

7.一种视频搜索系统，其特征在于，包括：

一搜索引擎，用以接收一查询短片的元数据，其中该元数据包括一第一索引标签与一第一语意样式；以及

至少一视频数据库，包括多个视频短片，其中该搜索引擎根据该第一索引标签从至少一该视频数据库中取得一或多个候选视频短片，并根据该第一语意样式逐一与每一该候选视频短片的语意样式进行比对，而根据一比对结果将每一该候选视频短片标示为可回传视频短片或不可回传视频短片，其中标示为该可回传视频短片的该候选视频短片则为符合该查询短片的查询结果。

8.根据权利要求7所述的视频搜索系统，其特征在于，该视频数据库储存多个视频比特串流及该视频比特串流的元数据，其中每一该元数据的建立包括对该视频比特串流以一分割侦测流程进行分割处理，产生多个片段；对该片段进行索引的编排，而根据每一该片段的内容赋予对应的一索引标签；以及根据每一该片段的视频特征建立该片段的语意样式，其中该元数据至少包括该片段所对应的该索引标签与该语意样式。

9.根据权利要求8所述的视频搜索系统，其特征在于，对该视频比特串流以该分割侦测流程进行分割处理的流程包括根据场景变换点切割该视频比特串流。

10.根据权利要求9所述的视频搜索系统，其特征在于，该场景变换点的选择是根据HSV长条图转换所得结果判断是否为该场景变换点。

11.根据权利要求10所述的视频搜索系统，其特征在于，根据转换所得结果是根据两相邻帧之间的HSV长条图转换后，两者的距离比较后所得到的结果。

12.根据权利要求8所述的视频搜索系统，其特征在于，对该片段进行索引的编排，是采用每一该片段的动态向量方向赋予对应的该索引标签。

13.根据权利要求8所述的视频搜索系统，其特征在于，对该片段进行索引的编排，是采用每一该片段的长度赋予对应的该索引标签。

14.根据权利要求8所述的视频搜索系统，其特征在于，对该片段进行索引的编排，是采用每一该片段的HSV色彩空间的色调Hue的角度赋予对应的该索引标签。

15.根据权利要求8所述的视频搜索系统，其特征在于，对该片段进行索引的编排，是采用每一该片段的动态向量方向、该片段的长度、每一该片段的HSV色彩空间的色调Hue的角度三者的任意组合而赋予对应的该索引标签。

16.根据权利要求7所述的视频搜索系统，其特征在于，更包括一使用端，其中该查询短片为该使用端选择一时间长度的视频文件。

17.根据权利要求7所述的视频搜索系统，其特征在于，更包括一使用端，其中该查询短片为经由该使用端的一使用者界面连结选择一时间长度的视频文件。

18.根据权利要求7所述的视频搜索系统，其特征在于，对该第一语意样式与每一该候选视频短片的语意样式进行比对的方式包括：

19.根据权利要求7所述的视频搜索系统，其特征在于，所接收的该查询短片的元数据，是在一使用者进行一文字查询后，取得一响应视频文件与其元数据后，根据该使用者选择一时间长度的部分该视频文件，作为该查询短片的元数据。

20.根据权利要求7所述的视频搜索系统，其特征在于，该视频数据库配置于远程主机，其中该搜索引擎可与该远程主机建立一通连管道，用以存取该视频数据库。

21.根据权利要求7所述的视频搜索系统，其特征在于，更包括将该第一语意样式与每一该候选视频短片及与该候选视频短片两侧邻近的视频短片进行比对而得到该比对结果。

22.一种视频数据库的建立方法，其特征在于，包括：

在一数据库储存多个视频比特串流；以及

建立每一该视频比特串流的元数据，其中每一该元数据的建立方法包括：

对该视频比特串流以一分割侦测流程进行分割处理，产生多个片段；

对该片段进行索引的编排，而根据每一该片段的内容赋予对应的一索引标签；以及

根据每一该片段的视频特征建立该片段的语意样式，其中该元数据至少包括该片段所对应的该索引标签与该语意样式。

23.根据权利要求22所述的视频数据库的建立方法，其特征在于，对该视频比特串流以该分割侦测流程进行分割处理的流程包括根据场景变换点切割该视频比特串流。

24.根据权利要求23所述的视频数据库的建立方法，其特征在于，该场景变换点的选择是根据HSV长条图转换所得结果判断是否为该场景变换点。

25.根据权利要求24所述的视频数据库的建立方法，其特征在于，根据转换所得结果是根据两相邻帧之间的HSV长条图转换后，两者的距离比较后所得到的结果。

26.根据权利要求22所述的视频数据库的建立方法，其特征在于，对该片段进行索引的编排，是采用每一该片段的动态向量方向赋予对应的该索引标签。

27.根据权利要求22所述的视频数据库的建立方法，其特征在于，对该片段进行索引的编排，是采用每一该片段的长度赋予对应的该索引标签。

28.根据权利要求22所述的视频数据库的建立方法，其特征在于，对该片段进行索引的编排，是采用每一该片段的HSV色彩空间的色调Hue的角度赋予对应的该索引标签。

29.根据权利要求22所述的视频数据库的建立方法，其特征在于，对该片段进行索引的编排，是采用每一该片段的动态向量方向赋予对应的该索引标签。

30.根据权利要求22所述的视频数据库的建立方法，其特征在于，对该片段进行索引的编排，是采用每一该片段的动态向量方向、该片段的长度、每一该片段的HSV色彩空间的色调Hue的角度三者的任意组合而赋予对应的该索引标签。