KR20100104844A - Method for searching images - Google Patents
Method for searching images Download PDFInfo
- Publication number
- KR20100104844A KR20100104844A KR1020090023517A KR20090023517A KR20100104844A KR 20100104844 A KR20100104844 A KR 20100104844A KR 1020090023517 A KR1020090023517 A KR 1020090023517A KR 20090023517 A KR20090023517 A KR 20090023517A KR 20100104844 A KR20100104844 A KR 20100104844A
- Authority
- KR
- South Korea
- Prior art keywords
- image
- input query
- color
- feature
- identifier
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/91—Television signal processing therefor
- H04N5/93—Regeneration of the television signal or of selected parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5862—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/758—Involving statistics of pixels or of feature values, e.g. histogram matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
본 발명은 영상 검색에 관한 것으로, 특히 다양한 기하학적 변형을 포함하는 UCC(user created contents) 등의 디지털 콘텐츠에서 영상을 검색하기 위해 MGST(modified generalized symmetry transform) 특징, 각도분할(angular partition) 특징, 색상 특성(color feature)의 조합인 3차원 히스토그램(histogram) 구조의 3차원 영상 식별자를 생성하고, 3차원 영상 식별자간 정합(matching)을 통해 원하는 영상을 검색할 수 있도록 하는 영상 검색 방법에 관한 것이다. BACKGROUND OF THE
본 발명은 지식경제부 및 정보통신연구진흥원의 IT신성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2008-S-024-01, 과제명: Rich UCC 기술개발].The present invention is derived from the research conducted as part of the IT new growth engine technology development project of the Ministry of Knowledge Economy and the Ministry of Information and Telecommunications Research and Development (Task Management No .: 2008-S-024-01, Title: Rich UCC Technology Development).
최근 들어, 디지털 콘텐츠에 대한 수요가 증가하면서 비디오, 음악, 영상 등의 방대한 양의 멀티미디어 콘텐츠(multimedia contents)가 끊임없이 생성, 제작, 유통 및 서비스되고 있다. 그 중에서도 다양한 사용자가 독자적으로 창조 혹은 가 공, 편집하는 콘텐츠를 UCC 영상이라 하는데, 이러한 UCC 영상은 고성능, 휴대용 디지털 카메라의 보급과 대용량 저장장치나 휴대용 저장매체의 보급, 가격하락과 함께 폭발적으로 그 사용량이 증가하고 있다. In recent years, as the demand for digital contents increases, a vast amount of multimedia contents such as video, music, and images are continuously generated, produced, distributed, and serviced. Among them, UCC video is the content that various users create, process, or edit independently. Such UCC video is explosive due to the spread of high performance, portable digital camera, mass storage device and portable storage media, and price drop. Usage is increasing.
한편, 이러한 UCC 영상을 필요시 검색하는 기술을 UCC 영상 검색 기술이라 하며, 지금까지의 UCC 영상 검색 기술은, 데스크탑(desk top) PC 혹은 브라우저(browser)가 내장된 휴대 단말기를 이용하여 찾고자 하는 영상의 메타데이터(meta data)를 텍스트(text)로 입력하여 검색하는 것이 일반적이다. Meanwhile, a technique for searching for such UCC images is called a UCC image search technique. Until now, UCC image search techniques have been searched for using a desktop PC or a mobile terminal with a built-in browser. It is common to input metadata of text as text and search.
그러나, UCC 영상은 도 1에서 보여지는 바와 같이 인터넷이나 재생장치의 변화 혹은 사용자의 콘텐츠 가공이나 재편집, 합성 등에 의해서 영상의 크기, 내용, 형태나 품질 등 본래의 특성이 변할 경우가 있는데, 이 경우에는 메타데이터 또는 식별자 등과 같은 사전에 입력된 정보를 알고 있어도 새롭게 변형이 된 콘텐츠에 대한 별도의 메타데이터나 식별 정보가 없음으로 검색하기가 불가능한 문제점이 있었다. However, as shown in FIG. 1, the original characteristics of the UCC image may change in size, contents, shape, or quality due to changes in the Internet or playback apparatus, processing, re-editing, or compositing of the user's contents. In this case, even if the user inputs previously input information such as metadata or an identifier, there is a problem that it is impossible to search because there is no separate metadata or identification information on the newly modified content.
따라서, 본 발명은 메타데이터가 없을 경우나 기하학적으로 변형된 UCC 등의 디지털 콘텐츠의 경우 필요한 영상의 검색이 불가능한 것을 해결하기 위해 안출된 것으로, 메타데이터가 없을 경우 혹은 UCC 등과 같은 디지털 콘텐츠의 영상이 잘림, 이동, 크기 변환, 회전 등과 같이 기하학적 변형이 되었을 경우 원 영상을 검 색하기 위해 영상의 고유 특징정보인 3차원 영상 식별자를 생성하고, 3차원 영상 식별자간 정합시키는 영상 검색 방법을 제공하고자 한다. Accordingly, the present invention is devised to solve the case that it is impossible to search for a necessary image in the case of no metadata or geometrically deformed digital content such as UCC, and in the absence of metadata or image of digital content such as UCC In order to search the original image when geometric deformation such as cropping, shifting, size conversion, rotation, etc., a 3D image identifier that is unique feature information of the image is generated, and an image retrieval method for matching between 3D image identifiers is provided. .
상술한 본 발명은 영상 검색 방법으로서, 입력 질의영상을 리사이즈하는 단계와, 상기 리사이즈된 입력 질의영상에 대해 3차원 영상 식별자를 생성하는 단계와, 상기 3차원 영상 식별자를 이용하여 상기 입력 질의영상에 대한 영상 검색을 수행하는 단계를 포함한다.The above-described present invention is an image retrieval method comprising the steps of resizing an input query image, generating a three-dimensional image identifier for the resized input query image, and using the three-dimensional image identifier on the input query image. And performing an image search for the image.
또한, 본 발명의 상기 3차원 영상 식별자 생성단계는, 상기 입력 질의 영상의 MGST 특징을 추출하는 단계와, 상기 입력 질의 영상의 각도분할 특징을 추출하는 단계와, 상기 입력 질의 영상의 색상 특징을 추출하는 단계를 포함한다.The generating of the 3D image identifier of the present invention may include extracting an MGST feature of the input query image, extracting an angular segmentation feature of the input query image, and extracting a color feature of the input query image. It includes a step.
또한, 본 발명의 상기 MGST 특징 추출단계는, 상기 입력 질의 영상내 일정 영역에서 중심 화소를 기준으로 대칭인 화소쌍을 구분하는 단계와, 상기 각 화소쌍에 대한 각각의 대칭도를 누적하여 MGST 특징을 산출하는 단계를 포함한다.In the extracting of the MGST feature of the present invention, the method may include: dividing a pair of symmetrical pixel pairs based on a center pixel in a predetermined region of the input query image, and accumulating the symmetry of each pixel pair. Comprising the step of calculating.
또한, 본 발명의 상기 색상 특징 추출단계는, 상기 입력 질의 영상의 각 화소를 중심으로 3×3 영역의 평균 RGB 값을 구하는 단계와, 상기 평균 RGB값을 세분화하여 HSI 컬러 공간의 HUE 값으로 변환시키는 단계를 포함한다.The extracting of the color features of the present invention may include obtaining an average RGB value of a 3 × 3 area around each pixel of the input query image, and subdividing the average RGB value into HUE values of an HSI color space. It comprises the step of.
본 발명에서는 기하학적 변형을 포함한 다양하고 방대한 정지영상의 고속 검 색 및 방대한 양의 영상 데이터베이스, 혹은 인터넷상에서 유통되는 UCC 영상 가운데서 자기가 원하는 UCC를 고속, 효율적으로 검색할 수 있는 이점이 있다.According to the present invention, there is an advantage that a high-speed search of various and vast still images including geometric deformations and a huge amount of image databases, or UCC images distributed on the Internet, can search for a desired UCC at high speed and efficiency.
또한, 다양한 버전(version) 디지털 사진의 관리가 가능하여 인터넷이나 재생장치의 종류에 따라 영상의 크기, 형태나 품질 등과 같은 본래의 영상 특성이 변할 경우에도 변형된 영상의 공통특성인 식별자를 이용하여 동일한 사진그룹으로 관리 할 수 있는 이점이 있다.In addition, it is possible to manage various versions of digital photos, so that even if the original image characteristics such as the size, shape, and quality of the image change according to the type of Internet or playback device, the identifier, which is a common characteristic of the modified image, is used. There is an advantage that can be managed by the same group of pictures.
또한, 불법 영상콘텐츠 검색이 가능하여 원본 영상을 복제하여 임의로 가공, 편집, 합성하여 제작한 영상을 불법으로 유통하였을 때 이들을 원본의 불법 복제물로 판단, 검색할 수 있는 이점이 있다.In addition, it is possible to search for illegal video contents, and when there is illegal distribution of a video produced by copying, processing, editing and synthesizing the original video, there is an advantage that it can be determined and searched as an illegal copy of the original.
이하, 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다. 하기에서 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. Hereinafter, with reference to the accompanying drawings will be described in detail the operating principle of the present invention. In the following description of the present invention, if it is determined that a detailed description of a known function or configuration may unnecessarily obscure the subject matter of the present invention, the detailed description thereof will be omitted. The following terms are defined in consideration of the functions of the present invention, and may be changed according to the intentions or customs of the user, the operator, and the like. Therefore, the definition should be made based on the contents throughout the specification.
도 2는 본 발명의 실시 예에 따른 3차원 영상 식별자를 이용한 UCC 영상 검 색 동작 흐름을 도시한 것이다.2 illustrates a UCC image search operation flow using a 3D image identifier according to an embodiment of the present invention.
먼저, 영상 검색 대상이 되는 질의 영상이 입력되면(S200), 입력 질의 영상에 대해 3차원 영상 식별자 생성을 위한 첫 번째 단계로 리사이즈(resize)를 수행하게 된다(S202). 이때, 질의 영상은 예를 들어 컴퓨터내 하드 디스크(hard disk) 등의 저장장치에 저장된 수많은 영상이 대상이 될 수 있다.First, when a query image to be searched for an image is input (S200), a resize is performed as a first step for generating a 3D image identifier for the input query image (S202). In this case, the query image may be a large number of images stored in a storage device such as a hard disk in a computer.
즉, 입력 질의 영상에서 3차원 영상 식별자를 생성하기 위해서는 먼저 입력 질의 영상에 대해 리사이즈를 수행하게 되는데, 리사이즈 후의 영상 크기는 256×N이 된다. 이때, 입력 질의영상의 가로와 세로 중 짧은 쪽의 길이를 256으로 하고, 나머지는 입력 질의영상의 비율에 맞도록 확대, 또는 축소한다. That is, in order to generate a 3D image identifier from an input query image, first, a resizing is performed on the input query image, and the image size after the resizing is 256 × N. In this case, the length of the shorter side of the input query image is 256 and the rest is enlarged or reduced to fit the ratio of the input query image.
한편, 3차원 히스토그램에서 사용하는 특징(feature)은 컬러와 흑백 영상에서 각각 계산되는 값이기 때문에, 영상의 리사이즈 역시 컬러와 흑백에서 개별적으로 수행해야 한다. 먼저, 리사이즈된 흑백 영상을 만들기 위해서 입력 질의영상의 흑백 영상을 구성한다. 이를 위해서 RGB to YUV 변환을 이용하여 명도 성분을 추출한다. 아래의 [수학식 1]은 명도 성분(luminance)을 추출하기 위한 변환식이다. On the other hand, since the feature used in the 3D histogram is a value calculated for each color and the black and white image, the resizing of the image must be performed separately in the color and the black and white. First, a black and white image of an input query image is constructed to produce a resized black and white image. For this purpose, the brightness component is extracted using the RGB to YUV conversion.
이어, 구성된 흑백 영상을 3차회선보간법(bi-cubic interpolation)에 의해서 정해진 크기로 리사이즈한다. 다음으로, 리사이즈된 컬러 영상을 만들기 위해서 입력 영상을 3개 채널(Red, Green, Blue)로 구분하고, 각각의 채널에 3차회선보간법 을 적용하여 각각 정해진 크기로 리사이즈 한다. 그런 후, 리사이즈 된 각 채널 영상을 다시 정합하여 리사이즈된 컬러 영상을 만든다.Subsequently, the composed black and white image is resized to a predetermined size by bi-cubic interpolation. Next, to make a resized color image, the input image is divided into three channels (Red, Green, Blue), and each channel is resized to a predetermined size by applying a third-order line interpolation method. Then, each resized channel image is matched again to produce a resized color image.
위와 같이, 입력 질의 영상에 대한 리사이즈를 수행한 이후에는 리사이즈된 입력 질의 영상에서 영상 검색에 사용되는 3차원 영상 식별자 중 하나인 MGST(Modified Generalized Symmetry Transform) 특징을 추출하게 된다(S204).As described above, after resizing the input query image, the MGST (Modified Generalized Symmetry Transform) feature, which is one of three-dimensional image identifiers used for image retrieval, is extracted from the resized input query image (S204).
이하, MGST 특징을 추출하는 동작을 설명하면, MGST는 영역의 대칭 정도를 계산하는 변환이다. 대칭변환(symmetry transform)을 적용하기 위해서 도 3에서 도시된 바와 같이 한 화소를 기준으로 영역을 설정한다. Hereinafter, the operation of extracting the MGST feature will be described. MGST is a transformation for calculating the degree of symmetry of the region. In order to apply a symmetry transform, an area is set based on one pixel as shown in FIG. 3.
이어, 설정된 영역에서 중심 화소를 기준으로 대칭인 총 68개의 화소쌍을 구분하고, 각각의 화소쌍에 대해 아래의 [수학식 2]에서와 같이 대칭 변환을 적용한다. Subsequently, a total of 68 pixel pairs which are symmetric with respect to the center pixel in the set region are distinguished, and a symmetric transformation is applied to each pixel pair as shown in
는 각각 화소쌍의 두 화소를 나타내고, 화소쌍의 대칭 정도()는 거리 가중 함수()와 위상 가중 함수(), 그리고 두 화소의 체적()을 곱해서 계산된다. 거리 가중 함수()는 아래의 [수학식 3]에 의해 정의된다. Represents two pixels of each pixel pair, and the degree of symmetry of the pixel pair ( ) Is the distance weighting function ( ) And the phase weighting function ( ), And the volume of the two pixels ( Calculated by multiplying Distance weighting function ( ) Is defined by
는 대칭 변환이 일어나는 영역의 크기이다. 또한 위상 가중 함수()는 아래의 [수학식 4]에 의해 계산된다. Is the size of the region where symmetrical transformation takes place. Also, the phase weighting function ( ) Is calculated by
는 각각 에서의 윤곽선의 방향을 나타내고, 는 두 화소를 연결한 직선과 수평선이 이루는 각도를 나타낸다. 마지막으로 각 화소의 체적()은 아래의 [수학식 5]에 의해서 계산된다. Respectively Indicates the direction of the contour at Denotes the angle formed by a straight line connecting two pixels and a horizontal line. Finally, the volume of each pixel ( ) Is calculated by
은 체적을 계산하기 위한 영역의 크기이고, 는 중심 화소의 화소값이고, 은 중심으로부터 만큼 떨어진 위치의 화소들의 평균 화소값이다. 68개의 화소쌍에 대해서 각각 대칭도를 계산하고, 영역의 최종 대칭도는 68개의 화소쌍의 대칭도를 전부 누적한 값이 된다. 이렇게 계산된 대칭도 값은 도 4에서 도시된 바와 같이 양자화 함수에 의해서 7단계로 구분된다. Is the size of the area for calculating the volume, Is the pixel value of the center pixel, From the center It is the average pixel value of the pixels at positions apart. Symmetric degrees are calculated for the 68 pixel pairs, respectively, and the final symmetry of the region is a value obtained by accumulating all the symmetry degrees of the 68 pixel pairs. The calculated symmetry values are divided into seven levels by the quantization function as shown in FIG. 4.
이어, 위와 같이, 리사이즈된 입력 질의 영상에서 MGST 특징을 추출한 이후에는, 다시 리사이즈된 입력 질의 영상에서 영상 검색에 사용되는 3차원 영상 식별자 중 하나인 각도 분할 특징을 추출하게 된다(S206).Subsequently, after extracting the MGST feature from the resized input query image, the angular segmentation feature, which is one of three-dimensional image identifiers used for image search, is extracted from the resized input query image (S206).
이하, 각도 분할 특징을 추출하는 동작을 설명하면, 입력 질의 영상의 각 화소에 대해 반지름 12의 국부영역 안에서 특징을 계산한다. 즉, 도 5에서 도시된 바와 같이, 원을 반으로 분리하는 기준선을 18도씩 이동하면서 반원의 가중치를 준 평균 화소값을 구한다. 이때, 가중치는 중심으로부터의 거리에 따라 적용하는데, 18도씩 이동하면서 두 반원의 평균값에 대한 절대차(absolute difference)(HCD(j))를 아래의 [수학식 6]에서와 같이 계산한다. 계산된 10가지의 절대차에서 최대값과 최소값이 계산된 기준선의 예각을 구한다.Hereinafter, an operation of extracting an angle division feature will be performed to calculate a feature within a local area of radius 12 for each pixel of the input query image. That is, as shown in FIG. 5, the average pixel value given the weight of the semicircle is obtained by moving the reference line separating the circle in half by 18 degrees. In this case, the weight is applied according to the distance from the center, and the absolute difference (HCD (j)) with respect to the average value of the two semicircles is calculated as shown in [Equation 6] while moving by 18 degrees. Find the acute angles of the baseline from which the maximum and minimum values are calculated from the 10 calculated absolute differences.
여기서, 만약 최대 절대차와 최소 절대차의 차이가 10보다 작으면 이 국부영역은 각도 특성을 가지지 않는 평평한 영역으로 고려되고, 각도 특성 대신 평균 화소값의 특성을 갖는다. 이때, 평균 화소값은 8단계로 양자화되며, 각도 특성(AP(x,y))의 경우 18도씩 각도 분할된 영역에서 계산하므로 아래의 [수학식 7]에서와 같이 5단계의 값을 가질 수 있다. 이에 따라 각도분할 특성은 전체 13단계로 구성된다.Here, if the difference between the maximum absolute difference and the minimum absolute difference is less than 10, this local area is considered as a flat area having no angular characteristic, and has the characteristic of the average pixel value instead of the angular characteristic. In this case, the average pixel value is quantized in eight steps. In the case of the angular characteristic AP (x, y), the average pixel value is calculated in an angle-divided area by 18 degrees. have. Accordingly, the angular splitting characteristic consists of 13 steps in total.
이어, 위와 같이, 리사이즈된 입력 질의 영상에서 각도분할 특징을 추출한 이후에는, 다시 리사이즈된 입력 질의 영상에서 영상 검색에 사용되는 3차원 영상 식별자 중 하나인 색상 특징을 추출하게 된다(S208).Subsequently, after extracting the angular split feature from the resized input query image, the color feature, which is one of three-dimensional image identifiers used for image retrieval, is extracted from the resized input query image (S208).
이하, 각도 분할 특징을 추출하는 동작을 설명하면, 입력 질의 영상의 각 화소를 중심으로 3x3 영역의 평균 RGB를 구하고 세분화하여 HSI(hue saturation intensity) 컬러 공간의 Hue로 사상(mapping)시킨다. RGB를 Hue로 변환하는 룩업테이블(Lookup table)은 도 6에서와 같은 과정을 통해 만들어진다. Hereinafter, an operation of extracting an angle division feature will be performed. The average RGB of the 3x3 area is obtained and segmented around each pixel of the input query image and mapped into Hue of a hue saturation intensity (HSI) color space. A lookup table for converting RGB to Hue is created through the same process as in FIG. 6.
즉, RGB 큐브에서 각각의 RGB 채널을 반으로 나누면 도 6의 (a)에서와 같이, 8개의 큐브로 분할된다. 이어, 도 6의 (b)에서와 같이 분할된 큐브의 RGB를 두 배로 확장하고, 도 6의 (c)에서와 같이 Hue 정보로 값을 변환한다. 이와 같은 과정을 8개의 분할된 큐브에 대하여 수행하여 RGB에 대한 Hue의 룩업테이블을 완성시킨다.That is, dividing each RGB channel in half in an RGB cube is divided into eight cubes, as shown in FIG. Next, as shown in (b) of FIG. 6, the RGB of the divided cube is doubled, and the value is converted into Hue information as shown in (c) of FIG. This process is performed for eight partitioned cubes to complete Hue's lookup table for RGB.
이에 따라, 전체 360ㅀ의 값은 9단계로 양자화되고 Hue 정보가 없는 경우를 추가하여 색상 특성은 전체 10단계로 구성된다.Accordingly, the value of 360 Hz is quantized in nine steps, and the color characteristic is composed of ten steps in total without the case where there is no Hue information.
위와 같이, 입력 질의 영상에서 영상 검색에 사용되는 MGST 특징, 각도분할 특징, 색상 특징으로 구성되는 3차원 영상 식별자를 생성함에 따라, 각 화소마다 3개의 특징 값을 추출하여 도 7에서와 같은 3차원 영상 식별자를 이용하여 3차원 히스토그램을 구성할 수 있으며, 이를 이용하여 입력 질의 영상과 비교대상으로 설정되는 기준영상간 검색을 수행할 수 있게 된다. As described above, by generating a three-dimensional image identifier consisting of the MGST feature, the angle division feature, the color feature used in the image search from the input query image, three feature values are extracted for each pixel, the three-dimensional as shown in FIG. The 3D histogram may be configured using the image identifier, and the search may be performed between the input query image and the reference image set as a comparison target.
즉, 입력 질의 영상에 대한 3차원 영상 식별자를 생성한 경우, 입력 질의 영상과 기준영상간 3차원 영상 식별자를 이용하여 유사도를 비교한 후(S210), 3차원 영상 식별자간 정합을 통해 영상 검색을 수행하게 된다(S212).That is, when the 3D image identifier for the input query image is generated, the similarity is compared using the 3D image identifier between the input query image and the reference image (S210), and image searching is performed by matching between the 3D image identifiers. It is performed (S212).
먼저, 유사도 계산에 있어서는, 입력 질의 영상과 기준영상간 대표 색상에 의한 유사도를 계산하여 유사도의 차이가 일정 기준 이상으로 차이가 크게 나는 경우 두 영상은 다른 것으로 판단하여 이후 3차원 영상 식별자 정합은 수행하지 않게 된다.First, in the similarity calculation, if the difference in the similarity is greater than a predetermined standard by calculating the similarity based on the representative color between the input query image and the reference image, the two images are determined to be different and then the 3D image identifier matching is performed. You will not.
이때, 대표 색상의 유사도는 색상 특징 추출에서 추출된 색상 특징 중 5개의 대표 색상 값의 순서에 의해서 계산되며, 아래의 [수학식 8]에 의해서 대표 색상의 유사도(similarity)가 계산된다.In this case, the similarity of the representative colors is calculated by the order of five representative color values among the color features extracted from the color feature extraction, and the similarity (similarity) of the representative colors is calculated by Equation 8 below.
은 두 영상의 대표색상의 개수 중에서 작은 값이고, 는 각각 동일한 색상 값이 두 영상에서 몇 번째 대표 색상인지를 나타내는 순위 값이다. 이들 대표 색상의 유사도는 다음의 3차원 히스토그램를 이용하는 3차원 영상 식별자 정합 이전에 차이가 큰 값을 일차 제거하는 용도로 활용된다. Is the smaller of the representative colors of the two images, Is a rank value indicating the number of representative colors in each of the same color values. The similarity of these representative colors is used to first remove a large difference value before matching the 3D image identifier using the following 3D histogram.
다음으로, 3차원 영상 식별자의 정합에 있어서는, 유사도의 차이가 일정 기준 이하로 낮아 유사도 높다고 판단된 두 영상에 대해 수행하게 된다.Next, in the matching of the three-dimensional image identifier, the difference in the similarity is less than a predetermined criterion is performed on the two images determined to have high similarity.
즉, 입력 질의 영상에 대한 3차원 영상 식별자를 이용한 도 7에서와 같은 3차원 히스토그램과 기준영상에 대한 3차원 영상 식별자를 이용한 3차원 히스토그램간 각 화소별로 정합하여 차이값을 계산하고, 계산된 차이값에 의해 입력 질의 영상이 기준영상과 유사한 검색 대상 영상인지를 판단하여, 유사한 영상인 경우 검색 결과로 출력시키게 되는 것이다.That is, the difference value is calculated by matching each pixel between the 3D histogram as shown in FIG. 7 using the 3D image identifier for the input query image and the 3D histogram using the 3D image identifier for the reference image, and calculating the difference. It is determined whether the input query image is a search target image similar to the reference image based on the value, and if it is a similar image, it is output as a search result.
이때, 3차원 히스토그램의 정합은 아래의 [수학식 9]에 의해서 차이값(Dist(Q,R))이 계산된다.At this time, the matching of the three-dimensional histogram is calculated by the difference value Dist (Q, R) by Equation 9 below.
은 각각 두 영상(입력 질의영상, 기준영상)의 3차원 히스토그램을 1차원 으로 나열한 것이다. Are three-dimensional histograms of two images (input query image and reference image) in one dimension.
l, m, n 은 각각 대칭 특징(symmetry feature), 각도분할 특징(AP feature), 색상 특징(color feature)의 인덱스(index)이다. 따라서 l의 최대값은 7이고, m의 최대값은 13, n의 최대값은 10이 된다.1, m, and n are indexes of a symmetry feature, an AP feature, and a color feature, respectively. Therefore, the maximum value of l is 7, the maximum value of m is 13, and the maximum value of n is 10.
3차원 히스토그램 정합시의 차이값(distance) 계산에서는 대칭레벨(symmetry level) 별로 따로따로 차이(distance)를 계산하기 때문에, 대칭레벨 마다 d와 s를 구해서 d1, s1, d2, s2, … d7, s7을 구한다. In the three-dimensional histogram matching, the distance calculation is performed separately for each symmetry level, so d and s are calculated for each symmetry level, and d1, s1, d2, s2,... Find d7 and s7.
nd는 각각의 대칭 레벨별 차이이다. nd1 = d1/s1 으로 레벨별로 차이값의 합을 샘플의 합으로 나눈 값이다. 각각의 레벨별로 nd값을 구했으면, 최종적으로 둘 사이의 차이값은 7개 차이값의 평균인 nd1 + nd2 + nd3+…+nd7 / 7이 된다.nd is the difference for each level of symmetry. nd1 = d1 / s1, which is the sum of difference values for each level divided by the sum of samples. When nd values are obtained for each level, the difference between the two is finally the average of 7 difference values nd1 + nd2 + nd3 +... + nd7 / 7
상기한 바와 같이, 본 발명에서는 다양한 기하학적 변형을 포함하는 UCC 등의 디지털 콘텐츠에서 영상을 검색하기 위해 MGST 특징, 각도 분할 특징, 색상 특성 특징의 조합인 3차원 히스토그램 구조의 3차원 영상 식별자를 생성하고, 3차원 영상 식별자간 정합을 통해 영상을 검색할 수 있도록 함으로써, 기하학적 변형을 포함한 다양하고 방대한 정지영상의 고속 검색 및 방대한 양의 영상 데이터베이스, 혹은 인터넷상에서 유통되는 UCC 영상 가운데서 원하는 UCC를 고속, 효율적으로 검색할 수 있다.As described above, the present invention generates a three-dimensional image identifier of the three-dimensional histogram structure that is a combination of the MGST feature, angle segmentation feature, color feature feature to retrieve the image from digital content such as UCC including a variety of geometric deformation , By searching images through matching 3D image identifiers, it is possible to quickly and efficiently search for a wide range of still images including geometric deformations and a large amount of image databases or UCC images distributed on the Internet. You can search by.
한편 상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시될 수 있다. 따라서 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위에 의해 정하여 져야 한다.While the invention has been shown and described with reference to certain preferred embodiments thereof, it will be understood by those skilled in the art that various changes and modifications may be made without departing from the spirit and scope of the invention. Therefore, the scope of the invention should be defined by the claims rather than by the described embodiments.
도 1은 종래 영상의 다양한 기하학적 또는 복합적 변형 예시도,1 illustrates various geometric or complex variations of a conventional image;
도 2는 본 발명의 실시 예에 따른 3차원 영상 식별자를 이용한 영상 검색 동작 흐름도,2 is a flowchart of an image search operation using a 3D image identifier according to an embodiment of the present invention;
도 3은 본 발명의 실시 예에 따른 영상의 MGST 특징 구조도,3 is a structural diagram of an MGST feature of an image according to an embodiment of the present invention;
도 4는 본 발명의 실시 예에 따른 MGST 특징의 양자화 예시도,4 illustrates an example of quantization of an MGST feature according to an embodiment of the present invention;
도 5는 본 발명의 실시 예에 따른 영상의 각도분할 특징 구조도,5 is a structural diagram of an angle division feature of an image according to an embodiment of the present invention;
도 6은 본 발명의 실시 예에 따른 영상의 색상 특징 구조도,6 is a color feature structure diagram of an image according to an embodiment of the present invention;
도 7은 본 발명의 실시 예에 따른 3차원 영상 식별자의 3차원 히스토그램 구조도.7 is a three-dimensional histogram structure diagram of a three-dimensional image identifier according to an embodiment of the present invention.
Claims (15)
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090023517A KR101242659B1 (en) | 2009-03-19 | 2009-03-19 | Method for searching images |
US12/648,803 US8520980B2 (en) | 2009-03-19 | 2009-12-29 | Image searching method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090023517A KR101242659B1 (en) | 2009-03-19 | 2009-03-19 | Method for searching images |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100104844A true KR20100104844A (en) | 2010-09-29 |
KR101242659B1 KR101242659B1 (en) | 2013-03-19 |
Family
ID=42737666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090023517A KR101242659B1 (en) | 2009-03-19 | 2009-03-19 | Method for searching images |
Country Status (2)
Country | Link |
---|---|
US (1) | US8520980B2 (en) |
KR (1) | KR101242659B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013078404A1 (en) * | 2011-11-22 | 2013-05-30 | The Trustees Of Dartmouth College | Perceptual rating of digital image retouching |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110052059A1 (en) * | 2009-08-27 | 2011-03-03 | Canon Kabushiki Kaisha | Generating image histogram by parallel processing |
KR20160011916A (en) * | 2014-07-23 | 2016-02-02 | 삼성전자주식회사 | Method and apparatus of identifying user using face recognition |
US11477219B2 (en) * | 2018-02-20 | 2022-10-18 | Darktrace Holdings Limited | Endpoint agent and system |
US20210357730A1 (en) * | 2020-05-12 | 2021-11-18 | Alibaba Group Holding Limited | Multi-size convolutional layer background |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6486981B1 (en) * | 1993-07-27 | 2002-11-26 | Canon Kabushiki Kaisha | Color image processing method and apparatus thereof |
EP1355484B1 (en) * | 2002-04-17 | 2017-03-01 | Canon Kabushiki Kaisha | Image compression method and apparatus, and image coding method and apparatus |
US7466856B2 (en) * | 2002-09-26 | 2008-12-16 | Samsung Electronics Co., Ltd. | Image retrieval method and apparatus independent of illumination change |
US7194114B2 (en) * | 2002-10-07 | 2007-03-20 | Carnegie Mellon University | Object finder for two-dimensional images, and system for determining a set of sub-classifiers composing an object finder |
KR100477801B1 (en) | 2002-12-26 | 2005-03-22 | 한국전자통신연구원 | Apparatus and Method of 3-Dimensional Image Data Description and Apparatus and Method of 3-Dimensional Image Data search |
US7263220B2 (en) * | 2003-02-28 | 2007-08-28 | Eastman Kodak Company | Method for detecting color objects in digital images |
KR20040079637A (en) * | 2003-03-08 | 2004-09-16 | 삼성전자주식회사 | Method and apparatus for face recognition using 3D face descriptor |
US20060288006A1 (en) | 2003-10-23 | 2006-12-21 | Xerox Corporation | Methods and systems for attaching keywords to images based on database statistics |
KR100727034B1 (en) * | 2005-12-09 | 2007-06-12 | 한국전자통신연구원 | Method for representing and animating 2d humanoid character in 3d space |
KR100884066B1 (en) | 2007-03-30 | 2009-02-19 | 한국전자통신연구원 | System and method for comparing image based on singular value decomposition |
-
2009
- 2009-03-19 KR KR1020090023517A patent/KR101242659B1/en not_active IP Right Cessation
- 2009-12-29 US US12/648,803 patent/US8520980B2/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013078404A1 (en) * | 2011-11-22 | 2013-05-30 | The Trustees Of Dartmouth College | Perceptual rating of digital image retouching |
US9135690B2 (en) | 2011-11-22 | 2015-09-15 | The Trustees Of Dartmouth College | Perceptual rating of digital image retouching |
Also Published As
Publication number | Publication date |
---|---|
US8520980B2 (en) | 2013-08-27 |
KR101242659B1 (en) | 2013-03-19 |
US20100239163A1 (en) | 2010-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100501742C (en) | Image group representation method and device | |
Chary et al. | Feature extraction methods for color image similarity | |
US20170024384A1 (en) | System and method for analyzing and searching imagery | |
KR100708067B1 (en) | Digital video searching device and method thereof | |
US20140270498A1 (en) | Content based systems and methods for conducting spectrum color based image search | |
US11704357B2 (en) | Shape-based graphics search | |
KR101242659B1 (en) | Method for searching images | |
JP4374902B2 (en) | Similar image search device, similar image search method, and similar image search program | |
Tan et al. | Image retargeting for preserving robust local feature: Application to mobile visual search | |
KR20120121424A (en) | Apparatus and method for searching image | |
JP6387026B2 (en) | Book searching apparatus, method and program | |
JP2004021430A (en) | Image searching device, image searching method, and image searching program | |
Chen et al. | Automatic classification of photographs and graphics | |
KR20150089598A (en) | Apparatus and method for creating summary information, and computer readable medium having computer program recorded therefor | |
Yang et al. | Mobile image search with multimodal context-aware queries | |
KR100540748B1 (en) | Improved query method for content-based image retrieval and storage medium storing program for realizing the method | |
JP6387028B2 (en) | Search book display device, method and program | |
Pavithra et al. | Retrieval of homogeneous images using appropriate color space selection | |
US11823434B1 (en) | Techniques for adaptive frame-based clip matching and fingerprinting | |
Han et al. | Image retrieval using CBIR including light position analysis | |
Lai | A colour image retrieval scheme based on Z-scanning technique | |
Touil et al. | Design and implementation of an RGB to HMMD color conversion module on FPGA | |
JP6387027B2 (en) | Book searching apparatus, method and program | |
Kumari et al. | A Study and usage of Visual Features in Content Based Image Retrieval Systems. | |
JP2018532198A (en) | Method and device for detecting a copy in a stream of visual data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20160226 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20170224 Year of fee payment: 5 |
|
LAPS | Lapse due to unpaid annual fee |