CN104903892A

CN104903892A - 基于对象的影像检索系统及检索方法

Info

Publication number: CN104903892A
Application number: CN201380067598.XA
Authority: CN
Inventors: 金廷泰; 具暻模
Original assignee: Odd Concepts Inc
Current assignee: Odd Concepts Inc
Priority date: 2012-12-12
Filing date: 2013-12-11
Publication date: 2015-09-09
Anticipated expiration: 2033-12-11
Also published as: KR101289085B1; WO2014092446A1; US20150310012A1; CN104903892B

Abstract

本发明涉及一种基于对象的影像检索系统及检索方法，其能够有效地检索通过用户输入的信息与基于对象的信息的构成类似的注册图像或视频或与其有关的信息。根据本发明的基于对象的影像检索系统，将注册的图像或视频根据特征点及特征点的属性，基于对象进行分类或聚类，检索用户通过PC、平板电脑、移动电话及联网电视等用户终端设备上传图像、视频，或以声音、文本检索时简单地匹配的注册图像或注册视频，并向用户终端设备提供相应结果或关联信息。

Description

基于对象的影像检索系统及检索方法

技术领域

本发明涉及一种基于对象的影像检索系统及检索方法，其能够有效地检索通过用户输入的信息与基于对象的信息的构成类似的注册图像或视频或与其有关的信息。

背景技术

一般而言，网络给众多电脑用户提供有效而适宜的通信及信息检索工具。尤其，最近陆续开发了一种用户上传图像或视频时，比较提供与其对应的图像或视频的检索方法，从而，在网络上检索文本或影像信息方面获得了很大的进步。

但，上述的检索方法无法反应对于用户提出的图像或视频内多个对象的信息，并且，因在检索类似影像的过程中伴随的应用信息的不足或错误认知等而无法提供正确反应用户的最初意图的结果。

并且，为了在大容量的图像或视频DB内最小化信息损失并快速检索，而适用了很多信息的摘要方法，但，通常与DB的量正比地检索速度也变得缓慢，并且，为了在特定单位的存储器使用量内处理更多的图像信息，伴随与其正比的信息的损失。

为了克服上述情况，将由图像或视频构成的DB以色彩、模样、质感、图案等一维性要素分类时，使得使用繁琐或严重损害检索的正确度。

发明内容

发明要解决的问题

本发明要解决的问题在于提供一种基于对象的影像检索系统及检索方法，其将为了能够应对用户的各种搜索工具所包含的复合型信息而注册的各个图像或视频的对象信息反应于检索。

本发明的另一解决课题在于提供一种基于对象的影像检索系统及检索方法，其基于对象将注册的图像或视频聚类，从而，使得信息的损失最小化的状态下，在特定单位的存储器使用量内，迅速地处理更多的图像和视频信息。

本发明的又另一课题在于提供一种基于对象的影像检索系统及检索方法，作为单一的检索系统，不仅能够识别相同的对象，而且，应用对象的构成信息，检索与肉眼相似的基准的类似图像或视频或或与其有关的信息。

解决问题的方案

根据本发明的第1实施例的基于对象的影像检索系统，包括：第1注册影像管理模块202，存储并管理作为检索对象而注册的各种图像或视频；第1注册影像信息提取模块203，从注册的图像或视频提取特征点或特征点的视觉属性作为影像信息；类别生成模块209，根据通过第1注册影像信息提取模块203提取的影像信息的类似性，生成或分类为一个以上的类别；第1类别信息管理模块210，存储并管理有关通过类别生成模块209生成的类别的信息；第1检索内容信息提取模块211，从通过用户终端设备接收的图像或视频或声音或文本提取检索内容信息，以便进行检索；第1注册影像检索模块216，将通过第1检索内容信息提取模块211提取的检索内容信息与类别信息进行比较，检索相同或类似地匹配的类别或注册影像；第1检索结果显示模块219，将在第1注册影像检索模块216检索的类别的信息或注册影像的信息提供给用户终端设备，以作为检索结果，其中，第1检索内容信息提取模块211包括第1检索图像处理部212或第1检索视频处理部213，所述第1检索图像处理部212，提取从用户接收的检索图像中包含的影像信息；第1检索视频处理部213，分析检索视频，以视觉要素变换的地点为基准将前后的视频的区间分隔为镜头，并将各个镜头中代表的一个以上的帧选定为代表帧，并且，从选定的代表帧提取影像信息。

优选地，从第1注册影像信息提取模块203以影像信息提取的特征点为根据图像或视频中包括的轮廓线或棱角或极点(比周边亮度较暗或较亮的部分)而生成的信息，特征点的视觉属性为特征点周边的影像所具有的亮度信息或色彩信息或图案信息。

优选地，第1注册影像信息提取模块203，包括：第1注册图像影像信息提取部204，提取注册的图像中包含的特征点或特征点的视觉属性作为影像信息，并存储提取的影像信息；第1注册视频影像信息提取部205，由第1镜头分隔部206、第1代表帧选定部207、第1代表帧影像信息提取部208构成，所述第1镜头分隔部206分析注册的视频，以视觉要素变换的地点为基准，将前后的视频的区间分隔为镜头，所述第1代表帧选定部207将在各个镜头中代表的一个以上的帧选定为代表帧，所述第1代表帧影像信息提取部208从选定的代表帧提取特征点或特征点的视觉属性作为影像信息。

第1镜头分隔部206将视频内容的各个帧制作成HSV(色彩/色度/亮度)的频数图表，比较以往帧和目前帧的图表，如果超过既定的图表之间距离值，则判断为帧发生变化，确认为镜头。

优选地，类别生成模块209，如果作为影像信息的特征点或特征点的视觉属性与注册图像或注册视频内的影像信息相互类似，将其群集化，并生成或分类为一个以上的类别，并且，如果此时生成的类别具有与以往生成的类别类似的影像信息，分类为相同或类似的类别。

优选地，第1类别信息管理模块210的类别信息包括各个类别的影像信息、类目信息、说明类别的文本信息、专业化信息中的一个以上。

优选地，第1检索内容信息提取模块211，包括：第1检索声音处理部214，分析从用户终端设备提供的声音，将声音转换为文本；第1检索文本处理部215，分析从用户终端设备提供的检索文本或从第1检索声音处理部214转换的文本。

优选地，第1注册影像检索模块216，包括：第1影像检索部217，将从通过用户接收的检索图像或检索视频提取的影像信息与类别内的各个类别的影像信息进行比较，检索相同或类似地匹配的类别，检索包括检索的类别的一部分或全部注册图像或注册视频；第1文本检索部218，将通过用户接收的文本或从声音提取或转换的文本信息与类别内的文本信息进行比较，检索相同或类似地匹配的类别，并检索包括检索的类别的一部分或全部的注册图像或注册视频。

并且，根据本发明的第2实施例的基于对象的影像检索系统，包括：对象图像管理模块301，存储注册的包括一个以上的对象的对象图像，并从注册的对象图像提取影像信息一同存储；第2类别信息管理模块302，将通过对象图像管理模块301提取的对象图像的影像信息根据类似性生成或分类为一个以上的类别；第2注册影像管理模块303，存储作为检索对象的注册的各种图像或视频并进行管理；第2注册影像信息提取模块304，从注册的图像或视频提取特征点或特征点的视觉属性作为影像信息；注册影像分类模块310，将通过第2注册影像信息提取模块304提取的影像信息与类别的影像信息进行比较，将有关具有相同或类似的影像信息的类别的信息与注册的图像或视频一同存储；第2检索内容信息提取模块311，从通过用户终端设备接收的图像或视频或声音或文本提取用于检索的信息；第2注册影像检索模块316，将通过第2检索内容信息提取模块216提取的检索内容信息与类别的影像信息进行比较，检索相同或类似地匹配的类别，并检索包括检索的类别的全部或一部分的注册图像或注册视频；第2检索结果显示模块319，将从第2注册影像检索模块316检索的类别的信息或注册影像的信息提供给用户终端设备作为检索结果，

第2检索内容信息提取模块311包括第2检索图像处理部312、第2检索视频处理部313、第2检索声音处理部314、第2检索文本处理部315中的一个以上，所述第2检索图像处理部312提取从用户接收的检索图像中包含的影像信息，所述第2检索视频处理部313分析检索视频，以视觉要素变换的地点为基准将前后的视频的区间分隔为镜头，并将各个镜头中代表的一个以上的帧选定为代表帧，从选定的代表帧提取影像信息，所述第2检索声音处理部314分析从用户终端设备提供的声音，将声音转换为文本，所述第2检索文本处理部315分析从用户终端设备提供的检索文本或从第2检索声音处理部314转换的文本。

发明效果

根据本发明的基于对象的影像检索系统，利用从图像或视频提取的多个基于对象的信息，从而，能够有效地应对通过各种搜索工具输入的复杂信息。

并且，具有如下优点：基于对象将注册的图像或视频聚类，从而，使得信息的损失最小化的状态下，在特定单位的存储器使用量内，迅速地处理更多的图像和视频信息。

并且，具有如下优点：不仅能够识别相同的对象，而且，应用对象的构成信息，在单一系统中检索与肉眼相似的基准的类似图像或视频或或与其有关的信息，而能够提供符合用户意图的立体的检索方法。

附图说明

图1为根据本发明的第1实施例的基于对象的影像检索系统的框图；

图2为根据本发明的第1实施例的利用基于对象的影像检索系统的影像内容检索过程的流程图；

图3为根据本发明的第1实施例生成类别的示例图；

图4为利用根据本发明的第1实施例的基于对象的影像检索系统的声音或文本的检索过程的流程图；

图5为根据本发明的第2实施例的基于对象的影像检索系统的框图；

图6为根据本发明的第2实施例的利用基于对象的影像检索系统的影像内容检索过程的流程图。

具体实施方式

以下，参照附图详细说明本发明的基于对象的影像检索系统。

根据本发明的第1实施例的影像内容检索系统的基本概念是将注册的图像或视频根据特征点及特征点的属性，基于对象进行分类或聚类，检索用户通过PC、平板电脑、移动电话及联网电视等用户终端设备上传图像、视频，或以声音、文本检索时简单地匹配的注册图像或注册视频，并向用户终端设备提供相应结果或关联信息。

参照图1，详细说明影像内容检索系统，影像内容检索系统包括：第1注册影像管理模块202、第1注册影像信息提取模块203、类别生成模块209、第1类别信息管理模块210、第1检索内容信息提取模块211、第1注册影像检索模块216、第1检索结果显示模块219。

第1注册影像信息提取模块203从注册的图像或视频提取特征点或特征点的视觉属性作为影像信息。以影像信息提取的特征点为通过图像或视频中包含的轮廓线或棱角或极点(比周边亮度较暗或较亮的部分)而生成的信息，特征点的视觉属性是指特征点周边的影像具有的亮度信息或色彩信息或图案信息等。

此类第1注册影像信息提取模块203由从注册的图像提取影像信息的第1注册图像影像信息提取部204和从注册的视频提取影像信息的第1注册视频影像信息提取部205构成。

第1注册图像影像信息提取部204提取注册的图像中包含的一个以上的特征点或特征点的视觉属性作为影像信息，并将提取的影像信息与注册图像一同存储。通过上述的第1注册图像影像信息提取部204能够将注册的各个的图像所包含的影像信息全部提取。

第1注册视频影像信息提取部205，包括：第1镜头分隔部206，分析注册的视频，以视觉要素变换的地点为基准，将前后的视频区间分隔为镜头；第1代表帧选定部207，将各个镜头中代表的一个以上的帧选定为代表帧；第1代表帧影像信息提取部208，从选定的代表帧提取一个以上的特征点或特征点的视觉属性作为影像信息，并与注册视频一同存储。此时，优选地，第1镜头分隔部206将视频内容的各个帧制作成HSV(色彩/色度/亮度)的频数图表，比较以往帧和目前帧的图表，如果超过规定的图表之间的距离值，判断为帧发生变化，确认镜头,并且，确认的各个镜头赋予固有ID。此时，优选地，开始变化的帧以S(Start)表示，结束变化的帧以E(End)表示进行区分。并且，在第1代表帧选定部207选定的表帧构成镜头的帧几乎都相似，因此，选定前端、中间或后端的任何帧均可。通过上述的第1注册影像信息提取模块203不仅能够提取注册的图像的影像信息，而且也能够提取注册的视频中包含的影像信息。

类别生成模块209将通过第1注册影像信息提取模块203提取的注册图像或注册视频的特征点或有关特征点的视觉属性的影像信息相互比较，如果相同或类似时，将其群集化，并生成一个以上的类别，或与以往生成的类别相同时，与以往的类别一同分类。例如，类别可以分类为自然>>山、海、天空、大地>>天空>>蓝天、夜晚天空等。

第1类别信息管理模块210将通能过类别生成模块209生成的类别的类别信息存储在类别信息DB222并进行管理。此时，类别信息DB222中存储的类别信息包括各个类别的影像信息、类目信息、有关类别的说明的文本信息、专业化信息中的一个以上而构成。影像信息包括通过第1类别生成模块209生成的各个类别的特征点或特征点的视觉属性，类目信息是指根据各个类别之间的上下位概念、从属性、关联性等而区分的类别信息。例如，如图2所示，根据上下位概念的类目信息，从图像的影像信息中以蓝天(sky)、有人行横道的道路(street)、室内高层建筑物(building)、LG、Pepsi、人们(people)、车辆(car)等类别进行分类。并且，对于蓝天的类别以自然>天空>蓝天的类目根据上下位概念进行区分。并且，根据从属性的类目信息，包括按各个类别包括相应类别及包含与其和类似的类别的DB内的其他注册图像或注册视频的信息，根据关联性的类目信息包括按各个类别与相应类别类似的DB内的其他类别的信息。文本信息包括说明各个类别或表示的关键字或文本，此类信息由将注册的图像或视频的名字、版权所有人信息等一同存储的第1注册影像管理模块202或管理人提供。

第1检索内容信息提取模块211为了进行检索从通过用户终端设备接收的图像或视频或声音或文本提取有关检索内容的关联信息。用户终端设备包括PC、平板电脑、移动手机及联网电视等终端设备，检索影像接收从用户终端设备提供的播放或拍摄中的影像或存储的图像文件或影像。

第1检索内容信息提取模块211包括：第1检索图像处理部212、第1检索视频处理部213、第1检索声音处理部214、第1检索文本处理部215。

第1检索图像处理部212从通过用户接收的检索图像提取影像信息。从上述的第1检索图像处理部212提取的影像信息与从第1注册图像影像信息提取部204提取影像信息的方法相同地，包括有关在检索图像中包含的对象的轮廓线或棱角或极点(比周边亮度较暗或较亮的部分)的特征点信息和特征点周边的影像所具有的亮度信息或色彩信息或图案信息等视觉信息。通过上述的第1检索图像处理部212能够提取从用户所接收的检索图像中包含的影像信息。

第1检索视频处理部213对检索视频进行分析，以视觉要素变换的地点为基准将前后的视频的区间分隔为镜头，并将各个镜头中代表的帧选定为代表帧，并从选定的代表帧提取影像信息。从上述的第1检索视频处理部213中提取的影像信息通过与上述的第1注册视频影像信息提取部205的第1镜头分隔部206、第1代表帧选定部207、第1代表帧影像信息提取部208相同的过程，从检索视频提取对于代表帧的影像信息。由此，通过第1检索视频处理部213能够提取从用户接收的检索视频中包含的影像信息。

第1检索声音处理部214接收从用户终端设备提供的声音进行分析并将声音转换为文本。上述的第1检索声音处理部214利用声音识别机将声音转换为文本。例如，为"请找一下有人和车辆、大厦的城市影像，但排除在夜间拍摄的影像"的内容时，将其变换为文本。

第1检索文本处理部215分析从用户终端设备提供的检索文本或从第1检索声音处理部214变换的文本。

第1注册影像检索模块216将通过第1检索内容信息提取模块211提取的检索内容的信息与已分类的类别信息进行比较，并检索相同或类似地匹配的一个以上的类别，检索包括全部相应类别或包括一部分的注册图像或注册视频。第1注册影像检索模块216由检索影像信息的第1影像检索部217和比较文本的第1文本检索部218构成。

第1影像检索部217将从通过用户接收的检索图像或从检索视频提取的影像信息与类别内的各个类别影像信息进行比较，检索相同或类似地匹配的类别，或检索包括一部分检索的类别或全部包括的注册图像或注册视频。此时，从检索图像或检索视频的影像信息1次检索与各个影像信息对应的一个以上的类别，并2次检索包括检索的一个以上的类别的全部或一部分的注册图像或注册视频。

第1文本检索部218将通过用户接收的文本或从声音中提取或转换的文本信息与类别信息内的文本进行比较，检索相同或类似地匹配的类别，检索包括检索的类别的一部分或全部的注册图像或注册视频。此时，第1文本检索部2181次检索相同或类似的类别，并2次检索包括相应类别的全部或一部分的注册图像或注册视频。例如，第1文本检索部218分析的文本信息为”请找一下有人和车辆、大厦的城市影像，但排除在夜间拍摄的影像”时，将有关人和车辆、大厦的文本信息与已类别信息存储的文本进行比较，检索匹配的类别，并反映从类别的影像信息提取的色彩的文本信息，排除红色系列的类别。如上述地检索包括与通过选择和控制检索的类别相同类似的类别的全部或一部分的注册图像或注册视频。

第1检索结果显示模块219将从第1注册影像检索模块216检索的类别的信息或注册影像的信息作为检索结果提供至用户终端设备。

以下，参照图3的流程图，详细说明根据本发明的第1实施例的基于对象的影像检索系统的检索过程。

首先，通过第1注册影像信息提取模块203提取作为检索对象的注册图像的特征点或特征点的视觉属性作为影像信息(步骤S101)，并从注册视频提取各个代表帧的特征点或特征点的视觉属性作为影像信息(步骤S102)。此时，以影像信息提取的特征点为通过图像或视频中包含的轮廓线或棱角或极点(比周边亮度较暗或较亮的部分)而生成的信息，特征点的视觉属性是指特征点周边的影像所具有的亮度信息或色彩信息或图案信息等。并且，注册视频以视觉要素变换的地点为基准将前后的视频的区间分隔为镜头，并将在各个镜头代表的帧选定为代表帧，并且，从选定的代表帧提取特征点或特征点的视觉属性作为影像信息。通过上述过程从注册图像或代表帧提取有关特征点或特征点的视觉属性的影像信息。

并且，类别生成模块209根据提取的影像信息的相同性或类似群集化，生成一个以上的类别或分类，并以使得注册的图像或视频和注册的图像或视频内的各个类别信息相互容易传唤的形态一同联动或存储(步骤S103)。此时，具有与以往生成的类别相似的影像信息的新生成的类别分类为相同于往生成的类别或类似的类别。

并且，第1类别信息管理模块210将通过类别生成模块209生成的类别的类别信息存储在类别信息DB222(步骤S104)。类别信息包括各个类别影像信息、类目信息、文本信息、专业化信息中的一个以上，并且，通过将注册的图像或视频的名称、版权所有人信息等一同存储的第1注册影像管理模块202或由第1注册影像管理模块202提供的数据，通过网络接收2次检索的结果或管理者接收上述信息。从而，即使注册图像或注册视频中包括多个类别，通过一同存储类别信息，而能够简单地确认包含何种类别。

并且，从用户终端设备接收要检索的图像、检索视频等检索内容时(步骤S105)，第1检索内容信息提取模块211提取从用户接收的检索内容的影像信息。

即，从用户终端设备接收的检索图像或检索视频，在检索影像信息提取模块的第1检索图像处理部212从检索图像提取特征点或特征点的视觉属性作为影像信息(步骤S106),并在第1检索视频处理部213从检索视频提取代表帧中包含的特征点或特征点的视觉属性作为影像信息(步骤S107)。通过上述的过程，能够从检索图像及检索视频的特征点及特征点的视觉属性提取影像信息。

并且，第1注册影像检索模块216将从检索图像或检索视频提取的特征点或特征点的视觉属性等影像信息与类别的影像信息进行比较，检索相同或类似的类别(步骤S108)，并且，检索包括检索的类别的全部或一部分的注册图像或注册视频(步骤S109)。

并且，检索的类别信息或注册影像的信息被表格化，通过第1检索结果显示模块219向用户终端设备提供检索结果(步骤S110)。

并且，如图4所示，通过检索内容接收模块从用户终端设备接收要检索的声音及文本等检索内容时(步骤S202)，第1检索内容信息提取模块211的第1检索声音处理部214将接收的声音通过声音识别机等转换为文本(步骤S203)。

并且，第1注册影像检索模块216的第1文本检索部218将从声音转换的文本或从用户终端设备直接以文本提供接收的检索文本与类别信息的文本进行比较，检索具有相同或类似地匹配的文本的类别(步骤S204)，并检索包括检索的类别全部或一部分的注册图像或注册视频(步骤S205)。从而，从说明图像或视频的声音或文本检索有关的注册图像或注册视频。

并且，关于检索的类别信息或注册影像的信息被表格化，通过第1检索结果显示模块219向用户终端设备提供检索结果(步骤S206)。

根据本发明的第2实施例的影像内容检索系统的基本概念是，向影像内容检索系统输入包括一个以上的对象的对象图像，并由此提取影像信息，根据影像信息的类似性或相同性，生成或分类为一个以上的类别后，将生成的类别的影像信息与成为检索对象的注册图像或注册视频的影像信息进行匹配的状态下，当用户以图像、视频、声音或文本的检索内容邀请影像检索时，从检索内容提取检索内容信息，并检索与其匹配的类别信息后，检索与检索的结果类似或共享相同的一个以上的类别的注册图像或注册视频。

参照图6，说明根据本发明的第2实施例的影像内容检索系统，影像内容检索系统包括：对象图像管理模块301、第2类别信息管理模块302、第2注册影像管理模块303、第2注册影像信息提取模块304、第2检索内容信息提取模块311、第2注册影像检索模块316、第2检索结果显示模块319。

对象图像管理模块301接收注册的包括天空、人、大厦、街道等各种对象中的一个以上的对象图像，并存储在对象图像DB320，从注册的对象图像提取影像信息后，根据影像信息的相同性或类似性群集化，并生成或分类为一个以上的类别，一同存储在对象图像DB320。此时，对象图像的影像信息可根据图像中包括的有关对象的轮廓线或棱角或极点(比周边亮度较暗或较亮的部分)的特征点信息和特征点的视觉属性(特征点周边的影像所具有的亮度信息或色彩信息或图案信息等)提取。并根据提取的对象图像的影像信息的类似性群集化，生成或分类为一个以上的类别，并且，具有与以往生成的类别相似的影像信息的新生成的类别，可分类为相同或类似的类别。

第2类别信息管理模块302将通过对象图像管理模块301生成的类别的信息存储在对象图像DB320。此时，类别可分别赋予固有ID，类别信息包括各个类别的影像信息、类目信息、文本信息、专业化信息中的一个以上。

第2注册影像信息提取模块304与实施例1的第1注册影像信息提取模块203相同地，提取注册的图像或视频的特征点或特征点的视觉属性作为影像信息。第2注册影像信息提取模块304由从注册的图像提取影像信息的第2注册图像影像信息提取部305和从注册的视频提取影像信息的第2注册视频影像信息提取部306构成，并且，注册视频影像信息提取部306由第2镜头分隔部307、第2代表帧选定部308、第2代表帧影像信息提取部309构成。第2注册图像影像信息提取部305和第2注册视频影像信息提取部306与实施例1的第1注册图像影像信息提取部204和第1注册视频影像信息提取部205相同，因此，省略对其的说明。

注册影像分类模块310从通过第2注册影像信息提取模块304注册的图像或注册的视频提取各个影像信息时，将影像信息与存储在对象图像DB320的各个类别的影像信息进行比较，并存储具有相同或类似的影像信息的类别的信息。此时，注册影像分类模块310将与各个注册影像匹配的类别的ID信息一同存储并记录。

第2检索内容信息提取模块311与实施例1的第1检索内容信息提取模块211相同地，从通过用户终端设备接收的图像或视频或声音或文本提取检索内容的信息，以便进行搜索。第2检索内容信息提取模块311与第1检索内容信息提取模块211相同地，由第2检索图像处理部312、第2检索视频处理部313、第2检索声音处理部314、第2检索文本处理部315构成。

第2注册影像检索模块316将通过第2检索内容信息提取模块311提取的检索内容的影像信息与存储在对象图像DB320的类别的影像信息进行比较，检索相同或类似地匹配的一个以上的类别，并检索包括相应类别的全部或一部分的注册图像或注册视频。第2注册影像检索模块316由检索影像信息的第2影像检索部317和比较文本的第2文本检索部318构成。

第2影像检索部317将从通过用户接收的检索图像或检索视频提取的影像信息与类别的影像信息进行比较，检索相同或类似地匹配的类别，检索包括检索的类别的一部分或全部的注册图像或注册视频。此时，对与检索图像或检索视频的影像信息对应的一个以上的类别进行一次检索，并对包括相应类别全部或一部分的注册图像或注册视频进行2次检索。

第2文本检索部318将从通过用户接收的文本或声音提取或转换的文本信息与类别信息内的文本进行比较，检索相同或类似地匹配的类别，并检索包括检索的类别的一部分或全部的注册图像或注册视频。此时，第2文本检索部318对相同或类似的类别进行1次检索，并对注册图像或注册视频进行2次检索。

第2检索结果显示模块319向用户终端设备提供由第2注册影像检索模块316检索的类别的信息或注册影像的信息作为检索结果。

以下，参照图5的流程图，详细说明根据本发明的影像内容检索过程。

首先，对象图像管理模块301接收注册的包括天空、大厦、人、街道等各种对象中的一个以上的图像，并存储在对象图像DB320，提取注册的对象图像的影像信息之后，根据影像信息的相同性或类似性群集化，而生成或分类为一个以上的类别(步骤S301)。此时，对象图像根据图像中包含的有关对象的轮廓线或棱角或极点(比周边亮度较暗或较亮的部分)的特征点信息和特征点的视觉属性的类似性进行群集化，而生成或分类为类别。

并且，第2类别信息管理模块302将类别的影像信息和有关类别的信息一同存储于对象图像DB320(步骤S302)。此时，类别可分别赋予固有ID，有关类别的信息由说明类别的文本信息、类目信息、专业化信息中的一个以上构成。

并且，成为检索对象的注册图像或注册视频通过第2注册影像管理模块303接收注册并存储(步骤S303)，注册的注册图像或注册视频通过第2注册影像信息提取模块304从注册图像提取影像信息(步骤S304)，从注册视频提取各个代表帧的影像信息(步骤S305)。

并且，将通过第2注册影像管理模块303提取的注册图像或视频的影像信息与类别内的影像信息进行比较，确认相同或类似地匹配的类别(步骤S306)，并将有关匹配的类别的信息一同存储在注册影像中(步骤S307)。因此，即使在注册图像或注册视频中包含多个对象，如果将匹配的类别的ID一同存储，即能够简便地确认包含何种对象。

并且，接收从用户终端设备提供的要检索的图像、检索视频的检索内容时(步骤S308)，第2检索内容信息提取模块311提取由用户提供的检索内容的影像信息，以便检索。

即，从用户终端设备提供的检索图像提取特征点或特征点的视觉属性作为影像信息(步骤S309)，从检索视频提取代表帧中包含的特征点或特征点的视觉属性作为影像信息(步骤S310)。通过上述过程，能够从检索图像及检索视频提取影像信息。

并且，第2注册影像检索模块316将从通过用户终端设备输入的检索图像或检索视频提取的影像信息与类别的影像信息进行比较，检索匹配的类别(步骤S311)，并检索包括检索的类别的全部或一部分的注册图像或注册视频(步骤S312)。

有关检索的类别信息或注册影像的信息被表格化，通过第2检索结果显示模块319提供给用户终端设备作为检索结果(步骤S313)。

并且，检索内容为声音或文本时利用实施例2的基于对象的影像检索系统进行检索的过程与实施例1相同，因此，省略对其详细说明。

如上所述，本发明虽然通过限定的实施例和附图进行了说明，但，本发明并非限定于此，本发明的技术领域的普通技术人员在不脱离本发明的技术思想和权利要求的均等范围的前提下，可进行各种修改及变形。

Claims

1.一种基于对象的影像检索系统，其特征在于，

包括：

第1注册影像管理模块(202)，存储并管理作为检索对象而注册的各种图像或视频；

第1注册影像信息提取模块(203)，从注册的图像或视频提取特征点或特征点的视觉属性作为影像信息；

类别生成模块(209)，根据通过第1注册影像信息提取模块(203)提取的影像信息的类似性，生成或分类为一个以上的类别；

第1类别信息管理模块(210)，存储并管理有关通过类别生成模块(209)生成的类别的信息；

第1检索内容信息提取模块(211)，从通过用户终端设备接收的图像或视频或声音或文本提取检索内容信息，以便进行检索；

第1注册影像检索模块(216)，将通过第1检索内容信息提取模块(211)提取的检索内容信息与类别信息进行比较，检索相同或类似地匹配的类别或注册影像；

第1检索结果显示模块(219)，将在第1注册影像检索模块(216)检索的类别的信息或注册影像的信息提供给用户终端设备，以作为检索结果，

其中，第1检索内容信息提取模块(211)包括第1检索图像处理部(212)或第1检索视频处理部(213)，

所述第1检索图像处理部(212)，提取从用户接收的检索图像中包含的影像信息；

第1检索视频处理部(213)，分析检索视频，以视觉要素变换的地点为基准将前后的视频的区间分隔为镜头，并将各个镜头中代表的一个以上的帧选定为代表帧，并且，从选定的代表帧提取影像信息。

2.根据权利要求1所述的基于对象的影像检索系统，其特征在于，

第1注册影像管理模块(202)将成为检索对象的图像或视频存储为注册图像或注册视频，或实时使用网络检索。

3.根据权利要求1所述的基于对象的影像检索系统，其特征在于，

从第1注册影像信息提取模块(203)以影像信息提取的特征点为根据图像或视频中包括的轮廓线或棱角或极点(比周边亮度较暗或较亮的部分)而生成的信息，特征点的视觉属性为特征点周边的影像所具有的亮度信息或色彩信息或图案信息。

4.根据权利要求1所述的基于对象的影像检索系统，其特征在于，

第1注册影像信息提取模块(203)，包括：

第1注册图像影像信息提取部(204)，提取注册的图像中包含的特征点或特征点的视觉属性作为影像信息，并存储提取的影像信息；

第1注册视频影像信息提取部(205)，由第1镜头分隔部(206)、第1代表帧选定部(207)、第1代表帧影像信息提取部(208)构成，所述第1镜头分隔部(206)分析注册的视频，以视觉要素变换的地点为基准，将前后的视频的区间分隔为镜头，所述第1代表帧选定部(207)将在各个镜头中代表的一个以上的帧选定为代表帧，所述第1代表帧影像信息提取部(208)从选定的代表帧提取特征点或特征点的视觉属性作为影像信息。

5.根据权利要求4所述的基于对象的影像检索系统，其特征在于，

第1镜头分隔部(206)将视频内容的各个帧制作成HSV(色彩/色度/亮度)的频数图表，比较以往帧和目前帧的图表，如果超过既定的图表之间距离值，则判断为帧发生变化，确认为镜头，并且，确认的各个镜头赋予固有ID。

6.根据权利要求1所述的基于对象的影像检索系统，其特征在于，

类别生成模块(209)，如果作为影像信息的特征点或特征点的视觉属性与注册图像或注册视频内的影像信息相互类似，将其群集化，并生成或分类为一个以上的类别，并且，如果此时生成的类别具有与以往生成的类别类似的影像信息，分类为相同或类似的类别。

7.根据权利要求1所述的基于对象的影像检索系统，其特征在于，

第1类别信息管理模块(210)的类别信息包括各个类别的影像信息、类目信息、说明类别的文本信息、专业化信息中的一个以上。

8.根据权利要求1所述的基于对象的影像检索系统，其特征在于，

第1检索内容信息提取模块(211)，包括：

第1检索声音处理部(214)，分析从用户终端设备提供的声音，将声音转换为文本；

第1检索文本处理部(215)，分析从用户终端设备提供的检索文本或从第1检索声音处理部(214)转换的文本。

9.根据权利要求1所述的基于对象的影像检索系统，其特征在于，

第1注册影像检索模块(216)，包括：

第1影像检索部(217)，将从通过用户接收的检索图像或检索视频提取的影像信息与类别内的各个类别的影像信息进行比较，检索相同或类似地匹配的类别，检索包括检索的类别的一部分或全部注册图像或注册视频；

第1文本检索部(218)，将通过用户接收的文本或从声音提取或转换的文本信息与类别内的文本信息进行比较，检索相同或类似地匹配的类别，并检索包括检索的类别的一部分或全部的注册图像或注册视频。

10.一种基于对象的影像检索系统，其特征在于，

包括：

对象图像管理模块(301)，存储注册的包括一个以上的对象的对象图像，并从注册的对象图像提取影像信息一同存储；

第2类别信息管理模块(302)，将通过对象图像管理模块(301)提取的对象图像的影像信息根据类似性生成或分类为一个以上的类别；

第2注册影像管理模块(303)，存储作为检索对象的注册的各种图像或视频并进行管理；

第2注册影像信息提取模块(304)，从注册的图像或视频提取特征点或特征点的视觉属性作为影像信息；

注册影像分类模块(310)，将通过第2注册影像信息提取模块(304)提取的影像信息与类别的影像信息进行比较，将有关具有相同或类似的影像信息的类别的信息与注册的图像或视频一同存储；

第2检索内容信息提取模块(311)，从通过用户终端设备接收的图像或视频或声音或文本提取用于检索的信息；

第2注册影像检索模块(316)，将通过第2检索内容信息提取模块(216)提取的检索内容信息与类别的影像信息进行比较，检索相同或类似地匹配的类别，并检索包括检索的类别的全部或一部分的注册图像或注册视频；

第2检索结果显示模块(319)，将从第2注册影像检索模块(316)检索的类别的信息或注册影像的信息提供给用户终端设备作为检索结果，

第2检索内容信息提取模块(311)包括第2检索图像处理部(312)、第2检索视频处理部(313)、第2检索声音处理部(314)、第2检索文本处理部(315)中的一个以上，所述第2检索图像处理部(312)提取从用户接收的检索图像中包含的影像信息，所述第2检索视频处理部(313)分析检索视频，以视觉要素变换的地点为基准将前后的视频的区间分隔为镜头，并将各个镜头中代表的一个以上的帧选定为代表帧，从选定的代表帧提取影像信息，所述第2检索声音处理部(314)分析从用户终端设备提供的声音，将声音转换为文本，所述第2检索文本处理部(315)分析从用户终端设备提供的检索文本或从第2检索声音处理部(314)转换的文本。

11.根据权利要求10所述的基于对象的影像检索系统，其特征在于，

对象图像的影像信息根据对于轮廓线或棱角或极点(比周边亮度较暗或较亮的部分)的特征点信息和特征点的视觉属性而生成，并根据类似性将影像信息群集化而生成或分类为一个以上的类别。

12.根据权利要求10所述的基于对象的影像检索系统，其特征在于，

类别分别赋予固有ID，类别信息包括各个类别的影像信息、类目信息、说明类别的文本信息、专业化信息中的一个以上。

13.根据权利要求10所述的基于对象的影像检索系统，其特征在于，

第2注册影像信息提取模块(304)由从注册的图像提取影像信息的第2注册图像影像信息提取部(305)和从注册的视频提取影像信息的第2注册视频影像信息提取部(306)构成。

14.根据权利要求10所述的基于对象的影像检索系统，其特征在于，

第2注册影像检索模块(316)由检索影像信息的第2影像检索部(317)和比较文本的第2文本检索部(318)构成。

15.一种基于对象的影像检索方法，其特征在于，

包括如下步骤：

通过第1注册影像信息提取模块(203)提取作为检索对象的注册图像的特征点或特征点的视觉属性作为影像信息；

类别生成模块(209)根据提取的影像信息的相同性或类似性，将其群集化，生成或分类为一个以上的类别；

接收有关通过第1类别信息管理模块(210)生成的类别的信息，存储为类别信息；

第1检索内容信息提取模块(211)从用户终端设备接收要检索的图像、检索视频、声音或文本中选择的某一个检索内容时，提取接收的检索内容的影像信息；

第1注册影像检索模块(216)将从检索内容提取的影像信息与类别的影像信息进行比较，检索相同或类似的类别和包括检索的类别的全部或一部分的注册图像或注册视频;及

将有关检索的类别信息或注册影像的信息表格化，通过第1检索结果显示模块(219)提供给用户终端设备作为检索结果；及

如果检索内容为声音时，将接收的声音转换为文本，

并且，将从声音转换的文本或从用户终端设备直接以文本接收的检索文本与类别信息的文本进行比较，检索具有相同或类似地匹配的文本的类别。

16.根据权利要求15所述的基于对象的影像检索方法，其特征在于，

作为注册图像或检索图像的影像信息提取的特征点为根据图像或视频中包含的轮廓线或棱角或极点(比周边亮度较暗或较亮的部分)而生成的信息，特征点的视觉属性为特征点周边的影像所具有的亮度信息或色彩信息或图案信息。

17.根据权利要求15所述的基于对象的影像检索方法，其特征在于，

注册视频或检索视频以视觉要素变换的地点为基准将前后的视频的区间分隔为镜头，并将各个镜头中代表的帧选定为代表帧，从选定的代表帧提取特征点或特征点的视觉属性作为影像信息，通过上述的过程从注册图像或代表帧提取有关特征点或特征点的视觉属性的影像信息。

18.一种基于对象的影像检索方法，其特征在于，

包括如下步骤：

通过对象图像管理模块(301)接收并存储注册的包括各种对象的一个以上的图像，并提取注册的对象图像的影像信息之后，根据影像信息的相同性或类似性群集化，生成或分类为一个以上的类别；

接收有关通过第2类别信息管理模块(302)生成的类别的信息，存储为类别信息；

接收注册的作为检索对象的图像或视频时，通过第2注册影像信息提取模块(304)从注册的注册图像或注册视频提取影像信息；

将从第2注册影像管理模块(303)提取的注册的图像或视频的影像信息与类别内的影像信息进行比较，确认相同或类似地匹配的类别，将有关匹配的类别的信息与注册影像一同存储；

从用户终端设备接收要检索的图像、检索视频、声音或文本中选择的某一个检索内容时，第2检索内容信息提取模块(311)提取接收的检索内容的影像信息；

第2注册影像检索模块(316)将从检索内容提取的影像信息与类别的影像信息进行比较，检索相同或类似地匹配的类别和包括检索的类别的全部或一部分的注册图像或注册视频；

将有关检索的类别信息或注册影像的信息表格化，通过第2检索结果显示模块(319)提供给用户终端设备作为检索结果；及

检索内容为声音时，将接收的声音转换为文本，

19.根据权利要求18所述的基于对象的影像检索方法，其特征在于，

20.根据权利要求18所述的基于对象的影像检索方法，其特征在于，