KR101031083B1 - Top-down visual attention method of determining visual attention region in a still image - Google Patents

Top-down visual attention method of determining visual attention region in a still image Download PDF

Info

Publication number
KR101031083B1
KR101031083B1 KR1020090050311A KR20090050311A KR101031083B1 KR 101031083 B1 KR101031083 B1 KR 101031083B1 KR 1020090050311 A KR1020090050311 A KR 1020090050311A KR 20090050311 A KR20090050311 A KR 20090050311A KR 101031083 B1 KR101031083 B1 KR 101031083B1
Authority
KR
South Korea
Prior art keywords
visual
similarity
stimulus
map
target object
Prior art date
Application number
KR1020090050311A
Other languages
Korean (ko)
Other versions
KR20100131621A (en
Inventor
서일홍
이상훈
류광근
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020090050311A priority Critical patent/KR101031083B1/en
Publication of KR20100131621A publication Critical patent/KR20100131621A/en
Application granted granted Critical
Publication of KR101031083B1 publication Critical patent/KR101031083B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • G06T7/41Analysis of texture based on statistical description of texture
    • G06T7/44Analysis of texture based on statistical description of texture using image operators, e.g. filters, edge density metrics or local histograms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0008Connection or combination of a still picture apparatus with another apparatus
    • H04N2201/0065Converting image data to a format usable by the connected apparatus or vice versa
    • H04N2201/0068Converting from still picture data

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 시각 집중 방법에 관한 것으로, 더욱 상세하게는, 정지 영상 중 시각 집중 영역을 결정하는 하향식 시각 집중 방법에 관한 것으로서, 미리 결정된 시각 특징들(visual feature) 각각에 대한 상기 정지 영상의 피쳐 맵(feature map)과 자극성 맵(conspicuity map)을 결정하는 단계; 상기 자극성 맵으로부터 최대 자극 영역을 결정하는 단계; 상기 시각 특징들 각각에 대한 목표 물체 영상의 피쳐 맵을 결정하는 단계; 상기 목표 물체 영상의 피쳐 맵과 상기 최대 자극 영역의 피쳐 맵의 유사도를 평가하는 단계; 평가된 유사도에 기초하여 시각 특징들을 선택하는 단계; 및 선택된 시각 특징들의 자극성 맵을 조합하여 자극도 맵(saliency map)을 획득하는 단계를 포함하는 것을 특징으로 하는 시각 집중 방법이다.The present invention relates to a visual focusing method, and more particularly, to a top-down visual focusing method for determining a visual focus area of a still image, the feature map of the still image for each of the predetermined visual features determining a feature map and a conspicuity map; Determining a maximum stimulus region from the stimulus map; Determining a feature map of a target object image for each of the visual features; Evaluating the similarity between the feature map of the target object image and the feature map of the maximum stimulus region; Selecting visual features based on the evaluated similarity; And combining the stimulus maps of the selected visual features to obtain a saliency map.

본 발명은 목표 물체의 주요 시각 특징이 영상에서 식별되지 않을 때에도, 시각 집중이 성공적으로 수행될 확률이 매우 높다. 본 발명은 종래 하향식 VOCUS 알고리즘 대비 57% 정도의 성능 향상이 있는 것으로 실험을 통해 확인된 바 있다.In the present invention, even when the main visual features of the target object are not identified in the image, the probability of visual focusing being successfully performed is very high. The present invention has been confirmed through experiments that there is a performance improvement of about 57% compared to the conventional top-down VOCUS algorithm.

시각 집중, 하향식, top-down Focus, top-down, top-down

Description

정지 영상 중 시각 집중 영역을 결정하는 하향식 시각 집중 방법{TOP-DOWN VISUAL ATTENTION METHOD OF DETERMINING VISUAL ATTENTION REGION IN A STILL IMAGE}TOP-DOWN VISUAL ATTENTION METHOD OF DETERMINING VISUAL ATTENTION REGION IN A STILL IMAGE}

본 발명은 시각 집중 방법에 관한 것으로서, 더욱 상세하게는, 정지 영상 중 시각 집중 영역을 결정하는 시각 집중 방법에 관한 것이다. The present invention relates to a visual focusing method, and more particularly, to a visual focusing method for determining a visual focusing area of a still image.

그러므로, 본 발명은 이미지 센서가 장착된 지능형 로봇, 카메라, 영상 처리를 기반으로 하는 각종 방송 장비 등에서 광범위하게 활용 가능하며, 따라서 본 발명은 이미지 프로세싱 기술이 적용되는 다양한 기술 분야에 미친다고 할 수 있다.Therefore, the present invention can be widely used in intelligent robots, cameras, various broadcasting equipments based on image processing, etc., which are equipped with image sensors, and thus the present invention can be said to extend to various technical fields to which image processing technology is applied. .

시각 집중(visual attention) 모델은 시각 수용체로 도달되는 많은 물체들 중에서 필요한 정보만을 추출하여 원하는 작업을 수행하는 인간의 시각 시스템을 계산적으로 모델링한 것으로, 1985년 Koch와 Ullman에 의해서 최초로 제안되었다. The visual attention model is a computational model of the human visual system that performs the desired task by extracting only the necessary information from many objects that reach the visual receptor. It was first proposed by Koch and Ullman in 1985.

Koch와 Ullman에 의해 제안된 모델은 수 개의 특징들(features)을 병렬적으로 계산하고, 그것들의 두드러진 부분들(conspicuities)을 자극도 맵(saliency map)으로 통합하는 것으로, 이후 많은 연구자들에 의해 제안된 시각 집중 모델들의 근간이 되기도 하였다. 즉, 영상으로부터 feature map(이하, '피쳐 맵'이라 함) 및 conspicuity map(이하, '자극성 맵'이라 함)을 구하고, 이들로부터 saliency map(이하, '자극도 맵')을 결정하는 전반적인 틀은 최초 제안된 시각 집중 모델에서 크게 벗어나지 않고 있으며, 다만 더욱 강인하고, 적응적이며, 신뢰도가 높은 자극도 맵을 얻기 위한 다양한 방법들이 집중적으로 제안되어 왔다.The model proposed by Koch and Ullman computes several features in parallel and integrates their conspicuities into a saliency map, which many researchers have since studied. It was also the basis of the proposed visual focus model. That is, the overall framework for obtaining feature maps (hereinafter referred to as "feature maps") and conspicuity maps (hereinafter referred to as "stimulus maps") from images, and determining saliency maps (hereinafter referred to as "stimulus maps") from them Does not deviate significantly from the original proposed visual focus model, but various methods have been intensively proposed to obtain a stronger, adaptive, and reliable stimulus map.

그러나 대부분의 연구는 영상 자체의 자극적인 시각 정보에 집중하는 프로세스 즉, 소위 "bottom-up"(이하, '상향식'이라 함) 시각 집중 방법에 관한 것이었고, 영상 내에서 수개의 자극적인 영역들 중 하나에 정신적으로(mentally) 집중하는 소위 "top-down"(이하, '하향식'이라 함) 시각 집중 방법에 관한 연구는 상대적으로 미진하게 진행되어 왔다. However, most of the research has been directed to the process of focusing on the stimulating visual information of the image itself, the so-called "bottom-up" visual focusing method, and several stimulating regions within the image. The study of so-called "top-down" visual focusing methods that mentally concentrates on one of them has been relatively poorly conducted.

하향식 시각 집중 방법은 사람의 감정, 동기, 욕구, 감각 등이 시각 집중 영역을 결정하기 위한 중요한 원인이 되는 점을 고려한 것이나, 실제로 인간의 정신적인 활동을 모델링하는 것은 매우 복잡 다단한 것이므로, 목표하는 물체에 대한 정보를 이용하여 시각 집중을 수행하는 정도의 간단한 하향식 시각 집중 방법만이 제안된 바 있다.The top-down visual focus method takes into account that the emotions, motivations, desires, and sensations of a person are important factors in determining the visual focus area, but in fact, modeling human mental activity is very complicated and complex. Only a simple top-down visual focusing method has been proposed that performs visual focusing using information about objects.

대표적인 것이 2006년 S.Frintrop이 논문으로 발표한 시각 집중 알고리즘인 "Visual Object detection with a CompUtational attention System (VOCUS)"(이하, 'VOCUS 알고리즘'이라 함)이다. A typical example is the Visual Focus Detection Algorithm, "Visual Object Detection with a CompUtational Attention System (VOCUS)" (hereinafter referred to as the "VOCUS algorithm"), published by S.Frintrop in 2006.

VOCUS 알고리즘은 상향식/하향식 시각 집중 방법을 모두 포함하는 것으로서, 그 중 하향식 시각 집중 방법은 찾고자 하는 목표 물체의 최대 자극 영역을 결정한 후 가중치를 결정하고, 그 가중치를 영상의 자극성 맵에 적용하여 자극도 맵을 구함으로써 시각 집중을 수행하는 방식이다. The VOCUS algorithm includes both bottom-up and top-down visual focusing methods. Among the top-down visual focusing methods, the maximum stimulus region of the target object to be searched is determined and the weight is determined, and the weight is applied to the stimulus map of the image. This is a way of performing visual focus by obtaining a map.

그러나, VOCUS 알고리즘을 실제로 다양한 영상에 적용하여 시각 집중을 수행할 경우, 영상 내에서 목표 물체의 최대 자극 영역 또는 주요 시각 특징이 다른 물체에 가려지는 경우에는 적절한 자극도 맵을 얻을 수 없게 되고 결과적으로 집중에 실패할 확률이 높다는 점이 실험적으로 확인되었다.However, when the VOCUS algorithm is actually applied to various images to perform visual focus, when the maximum stimulus region or the main visual feature of the target object is hidden by other objects in the image, an appropriate stimulus map cannot be obtained. Experimental results show that there is a high probability of failure to concentrate.

즉, VOCUS 알고리즘은 영상에 담긴 특수한 조건들을 고려하지 않고, 오직 목표하는 물체의 주요 시각 특징에 높은 가중치를 부여하여 자극도 맵을 구하는 방식이기 때문에, 목표 물체의 주된 시각 특징으로 평가된 부분이 다른 물체에 가려지는 등의 이유로 영상 내에서 분별할 수 없는 특수한 상황에 대해서는 유효 적절한 자극도 맵을 얻을 수 없고, 결국 시각 집중에 실패할 수밖에 없었다.In other words, the VOCUS algorithm does not consider special conditions in the image, and obtains a stimulus map by giving a high weight to the main visual features of the target object. For certain situations that cannot be discerned in the image because of being obscured by an object, an effective and appropriate stimulus map could not be obtained, resulting in a failure to concentrate on vision.

본 발명은 전술한 종래 하향식 시각 집중 방법의 문제점에 따라 안출된 것으로, 목표 물체의 최대 자극 영역을 이용하지 않고 목표 물체를 가장 잘 찾을 수 있는 시각 특징을 주어진 영상으로부터 결정 및 선택함으로써, 목표 물체가 일부 가려진 경우에도 시각 집중이 성공적으로 수행할 수 있도록 하기 위한 것이다.The present invention has been made in accordance with the problems of the conventional top-down visual focusing method described above, and by determining and selecting from a given image a visual feature that can best find the target object without using the maximum stimulus region of the target object, This is to ensure that the visual focus can be successfully performed even in some hidden cases.

또한, 본 발명은 유사도를 더욱 정확히 평가하기 위하여, 종래 영상의 유사도를 평가하는데 주로 사용되어온 히스토그램 인터섹션 기법 대신 새로운 히스토그램 비교 방법을 제공하기 위한 것이다.In addition, the present invention is to provide a new histogram comparison method instead of the histogram intersection technique that has been mainly used to evaluate the similarity of the conventional image in order to evaluate the similarity more accurately.

상기 목적은 본 발명의 일 양태에 따른 정지 영상 중 시각 집중 영역을 결정하는 시각 집중 방법에 있어서, 미리 결정된 시각 특징들(visual feature) 각각에 대한 상기 정지 영상의 피쳐 맵(feature map)과 자극성 맵(conspicuity map)을 결정하는 단계; 상기 자극성 맵으로부터 최대 자극 영역을 결정하는 단계; 상기 시각 특징들 각각에 대한 목표 물체 영상의 피쳐 맵을 결정하는 단계; 상기 목표 물체 영상의 피쳐 맵과 상기 최대 자극 영역의 피쳐 맵의 유사도를 평가하는 단계; 평가된 유사도에 기초하여 시각 특징들을 선택하는 단계; 및 선택된 시각 특징들의 자극성 맵을 조합하여 자극도 맵(saliency map)을 획득하는 단계를 포함하는 것을 특징으로 하는 시각 집중 방법에 의해 달성될 수 있다.The above object is a visual focusing method for determining a visual focus region of a still image according to an aspect of the present invention, wherein the feature map and the stimulus map of the still image for each of the predetermined visual features determining a conspicuity map; Determining a maximum stimulus region from the stimulus map; Determining a feature map of a target object image for each of the visual features; Evaluating the similarity between the feature map of the target object image and the feature map of the maximum stimulus region; Selecting visual features based on the evaluated similarity; And combining the stimulus maps of the selected visual features to obtain a saliency map.

여기에서, 상기 최대 자극 영역은 상기 자극성 맵 중 최대값을 나타내는 위치를 중심으로 미리 결정된 임계치 이상의 값을 나타내는 위치들을 포함하는 영역으로 결정되는 것으로 할 수 있다.Here, the maximum stimulation region may be determined to be an area including positions representing values greater than or equal to a predetermined threshold with respect to a position representing the maximum value of the stimulus map.

또한, 상기 시각 집중 방법에서 상기 유사도 평가는 상기 목표 물체 영상 및 상기 최대 자극 영역의 피쳐 맵으로부터 추출한 히스토그램의 유사도에 따라 평가하는 것으로 할 수 있다. 여기에서, 상기 유사도 평가는, 상기 목표 물체 영상과 상기 최대 자극 영역 각각에 대해, 상기 추출한 히스토그램 중 좌우측 빈(bin)보다 더 큰 값을 갖는 빈을 피크 빈으로서 선택하는 단계; 최대값을 갖는 피크 빈을 기준으로 다른 피크 빈들의 크기와 거리의 비율을 산출하는 단계; 및 상기 목표 물체 영상과 상기 최대 자극 영역 각각에 대해 산출된 크기 및 거리의 비율이 나타내는 유사도를 구하는 단계를 포함하여 수행함으로써 유사도 평가의 정확성을 높일 수 있다.In the visual focusing method, the similarity evaluation may be performed based on the similarity of the histogram extracted from the feature map of the target object image and the maximum stimulus region. The similarity evaluation may include selecting, for each of the target object image and the maximum stimulus region, a bin having a larger value than the left and right bins among the extracted histograms as a peak bin; Calculating a ratio of the size and distance of other peak bins based on the peak bin having the maximum value; And calculating the similarity represented by the ratio of the size and distance calculated for each of the target object image and the maximum stimulation region, thereby increasing the accuracy of the similarity evaluation.

또한, 상기 본 발명의 시각 집중 방법 중 상기 평가된 유사도에 기초하여 시각 특징들을 선택하는 단계는, 상기 유사도가 높은 순서에 따라 미리 결정된 수의 시각 특징들을 선택하도록 하는 것이 바람직하다. Further, in the visual focusing method of the present invention, selecting the visual features based on the evaluated similarity, preferably selects a predetermined number of visual features according to the order of high similarity.

또한, 상기 본 발명의 시각 집중 방법 중 상기 평가된 유사도에 기초하여 시각 특징들을 선택하는 단계는, 미리 결정된 기준치보다 큰 값을 나타내는 유사도를 갖는 시각 특징들을 선택하는 것이 바람직하다.Further, in the visual focusing method of the present invention, selecting visual features based on the evaluated similarity, it is preferable to select visual features having a similarity value that is greater than a predetermined reference value.

본 발명은 목표 물체의 주요 시각 특징이 영상에서 식별되지 않을 때에도, 시각 집중이 성공적으로 수행될 확률이 매우 높다. 후술하는 바와 같이, 본 발명은 종래 하향식 시각 집중 알고리즘 대비 57% 정도의 성능 향상이 있는 것으로 실험을 통해 확인된 바 있다.In the present invention, even when the main visual features of the target object are not identified in the image, the probability of visual focusing being successfully performed is very high. As will be described later, the present invention has been confirmed through experiments that there is a performance improvement of about 57% compared to the conventional top-down visual focus algorithm.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 구체적으로 설명하도록 한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도1은 본 발명의 실시예에 따른 시각 집중 방법을 나타내는 순서도이다. 1 is a flowchart illustrating a visual focusing method according to an exemplary embodiment of the present invention.

도1을 참조하면, 본 발명의 실시예에 따른 시각 집중 방법은 목표 물체 영상과 정지 영상을 마련하는 것으로부터 시작한다(ST-1).Referring to Fig. 1, the visual focusing method according to an embodiment of the present invention starts from preparing a target object image and a still image (ST-1).

물체가 목표 물체로 선정되는 과정 내지 원인에 대하여 본 발명에서는 특별한 제한이 없다. 로봇이 물체를 찾아야 하는 과업을 수행하는 경우라면 사용자의 명령으로 목표 물체가 정해질 수도 있으나, 이와 같이 로봇이 사용자의 명령을 수행하는 과정에서 목표 물체가 정해지는 경우에 본 발명은 한정되지 않는다. There is no particular limitation in the present invention with respect to the process or cause of selecting the object as the target object. If the robot performs the task of finding the object, the target object may be determined by the user's command. However, the present invention is not limited to the case where the target object is determined while the robot executes the user's command.

여기에서 목표 물체는 인간의 정신적인 원인에서 결정될 수 있는데, 전술한 바와 같은 하향식 시각 집중 방법에서의 인간의 감정, 욕구, 동기, 기분 등으로부터 특정 물체가 목표로 정해질 수 있는 것이다. 그러므로, 본 발명의 목표 물체는 하향식 시각 집중 방법의 계산적 모델 또는 알고리즘을 통해 결정되는 하나 이상의 물체일 수 있는 것이다. Here, the target object may be determined from a human mental cause, and a specific object may be targeted from human emotions, desires, motivations, moods, and the like in the top-down visual focusing method as described above. Therefore, the target object of the present invention may be one or more objects determined through a computational model or algorithm of the top-down view concentration method.

목표 물체에 관련된 영상은 미리 저장되어 보관될 수 있으며, 또는 학습을 통해 갱신되는 것이 가능하다. 본 실시예에서는 목표 물체를 우유팩으로 선정하고, 도2와 같은 목표 물체 영상을 대상으로 본 발명의 시각 집중 방법이 수행되는 과정을 구체적으로 후술하도록 한다.Images related to the target object may be stored and stored in advance, or may be updated through learning. In the present embodiment, a process of selecting the target object as a milk pack and performing the visual focusing method of the present invention on the target object image as shown in FIG. 2 will be described in detail later.

한편, 정지 영상은 시각 집중을 수행하고자 하는 이미지이다. 정지 영상은 실시간으로 촬영한 로봇의 주변 영상일 수 있으며, 미리 저장되어 있는 이미지들 중에서 선택된 것일 수도 있다. 본 발명은 정지 영상의 생성 과정에 대해서는 특별한 제한이 없으며, 본 실시예에서는 도3에 도시된 영상에 대하여 시각 집중을 수행하는 과정을 설명하도록 한다.The still image is an image to be visually focused. The still image may be a surrounding image of the robot taken in real time, or may be selected from among pre-stored images. The present invention is not particularly limited in the process of generating a still image. In the present embodiment, a process of performing visual focus on the image shown in FIG. 3 will be described.

다시 도1을 참조하면, 본 발명의 시각 집중 방법은 다음 단계로서 정지 영상에 대한 피쳐 맵(feature map)과 자극성 맵(conspicuity map)을 결정한다(ST-2).Referring back to FIG. 1, the visual focusing method of the present invention determines a feature map and a conspicuity map for a still image as a next step (ST-2).

피쳐 맵을 결정하는 방법으로 가장 보편적인 것이 입력 영상을 선형 필터링하는 방법으로서, 일반적으로 색상(color), 밝기(intensity), 무늬(orientation) 등의 시각 특징(visual feature)을 기준으로 정지 영상을 선형 필터링하여 구한다. The most common method of determining a feature map is to linearly filter an input image. Generally, a still image is selected based on visual features such as color, intensity, and orientation. Obtained by linear filtering.

예컨대, 밝기(I)의 경우 다음과 같은 식으로 결정된다:For example, for brightness I, it is determined in the following way:

I = (r + g + b)/3  I = (r + g + b) / 3

적색, 녹색, 청색 각각에 대한 채널(R,G,B)은 다음의 식으로 결정한다:The channels (R, G, B) for each of red, green, and blue are determined by the following equation:

R= r-(g+b)/2, G= g-(r+b)/2, B= b-(r+g)/2R = r- (g + b) / 2, G = g- (r + b) / 2, B = b- (r + g) / 2

여기에서, r, g, b는 픽셀의 적색, 녹색, 청색 성분을 나타낸다. Here, r, g, and b represent red, green, and blue components of the pixel.

이와 같은 선형 필터링 방법은 1985년 최초 제안된 시각 집중 모델에 소개된 이후 지금까지도 유용하게 이용되고 있는 것이므로, 이에 대한 더욱 구체적인 설명은 설명의 간략화를 위해 생략하도록 한다.Since the linear filtering method has been introduced to the visual focus model first proposed in 1985 and is still usefully used, a more detailed description thereof will be omitted for simplicity.

도4는 본 발명의 실시예에 따라 도3의 정지 영상을 선형 필터링하여 획득한 피쳐 맵을 도시한 것이다. 4 illustrates a feature map obtained by linearly filtering the still image of FIG. 3 according to an exemplary embodiment of the present invention.

도4에 도시된 피쳐 맵은 밝기 2종(intensity on, intensity off), 무늬 4종(orientation 0°,45°,90°,135°), 색상 4종(적색, 녹색, 청색, 황색)의 도합 10종의 원시 시각 특징을 기준으로 구한 것이다.The feature map shown in Fig. 4 is composed of two kinds of brightness (intensity on, intensity off), four patterns (orientation 0 °, 45 °, 90 °, 135 °) and four colors (red, green, blue, yellow). Based on a total of 10 primitive visual features.

자극성 맵을 구하는 방법도 피쳐 맵의 경우와 같이 주지의 기술로서, 중심-주변 차이 기법(center-surround difference)이 가장 보편적으로 이용되고 있다. 이를 구현하기 위한 더욱 구체적인 수식에 대해서는 다양한 방법들이 제안된 바 있는데, 그 중 한 가지를 간략히 설명하면 다음과 같다.The method of obtaining the stimulus map is also a well-known technique as in the case of the feature map, and the center-surround difference is most commonly used. Various methods have been proposed for more specific formulas for implementing this, and one of them is briefly described as follows.

예컨대, 밝기의 경우, 다음의 수식에 의해 자극성 맵을 결정할 수 있다:For example, in the case of brightness, the stimulus map can be determined by the following equation:

I(c,s)=|I(c)-I(s)|I (c, s) = | I (c) -I (s) |

여기에서, c는 중심 위치를 나타내고, s는 c의 주변 위치를 나타낸다.Here, c represents the center position and s represents the peripheral position of c.

또한, 색상의 경우 이중 색-대립(color double-opponent) 관계를 반영하여 색상의 쌍을 지어 중심-주변 차이 기법을 적용하기도 한다. 예컨대, 중심 위치의 적색은 녹색에 의해서 억제되고 주변 위치에서는 그 반대로 작용하는데, 다음과 같은 수식으로 결정할 수 있다:In addition, in the case of color, a center-periphery difference technique is applied by pairing colors reflecting a color double-opponent relationship. For example, red at the central location is suppressed by green and vice versa at the peripheral location, which can be determined by the formula:

RG(c,s)=|(R(c)-G(c))-(G(s)-R(s))|RG (c, s) = | (R (c) -G (c))-(G (s) -R (s)) |

전술한 바와 같이, 피쳐 맵과 자극성 맵을 결정하는 방법에 대해서는 널리 주지되어 있고, 본 발명은 주지의 방법 중 특정 방법에 한정되지 않으므로 더욱 상세한 설명은 생략하기로 한다. 더욱 구체적인 정보는 1985년 Koch와 Ullman에 발표된 논문, 2006년 S.Frintrop이 발표한 논문(VOCUS), 1998년 Itti에 의해 발표된 논문(A Model of Saliency-Based Visual Attention for Rapid Scene Analysis)으로부터 얻을 수 있음을 밝힌다.As described above, a method of determining a feature map and a stimulus map is well known, and the present invention is not limited to a specific method among the well-known methods, and thus a detailed description thereof will be omitted. More specific information is available from a paper published in Koch and Ullman in 1985, a paper published by S.Frintrop in 2006 (VOCUS), and a paper published by Itti in 1998 (A Model of Saliency-Based Visual Attention for Rapid Scene Analysis). Reveal that it can be obtained.

도4에 도시된 피쳐 맵으로부터 도5와 같은 자극성 맵을 구할 수 있다:From the feature map shown in FIG. 4, the stimulus map as shown in FIG. 5 can be obtained:

각 시각 특징의 변화율이 큰 경우 자극성이 높은 것으로 평가되고, 시각 특징에 대한 자극성의 정도를 밝기로 표현함으로써 자극성 맵을 얻을 수 있다.When the rate of change of each visual feature is large, the stimulus is evaluated to be high, and the stimulus map can be obtained by expressing the degree of stimulus for the visual feature in brightness.

다시, 도1을 참조하면 다음 단계에서, 본 발명의 시각 집중 방법은 자극성 맵으로부터 최대 자극 영역을 결정하는 절차를 수행한다(ST-3).Referring back to FIG. 1, in the next step, the visual focusing method of the present invention performs a procedure for determining the maximum stimulation region from the stimulus map (ST-3).

본 실시예에서는 최대 자극 영역을 결정함에 있어, 자극성의 정도가 가장 큰 위치를 포함하고 일정한 기준치 이상을 나타내는 위치까지 최대 자극 영역으로 결정한다.In the present embodiment, in determining the maximum stimulation region, the maximum stimulation region is determined up to a position including the position where the degree of stimulation is greatest and indicating a predetermined reference value or more.

그러나, 최대 자극 영역을 결정하는 방법은 자극성의 정도를 기초로 여러 가지 기준을 두고 선택할 수 있다는 것을 이해할 수 있을 것이다. 예컨대, 최대 자극 위치를 기준으로 일정한 크기의 영역을 선정하거나, 일정한 크기의 영역에 대한 자극성의 평균값이 가장 큰 영역을 선정하는 방식 등이 적용될 수 있다.However, it will be appreciated that the method of determining the maximum stimulus area can be selected based on various criteria based on the degree of stimulus. For example, a method of selecting a region having a constant size based on the maximum position of the magnetic pole, or selecting a region having the largest average value of the magnetic poles with respect to the region having the predetermined size may be applied.

도6은 본 발명의 실시예에 따라 선정된 최대 자극 영역을 표시한 영상이다. 여기서 주목할 것은, 기준치 이상의 자극도를 나타내는 위치까지 영역으로 포함하게 되므로, 최대 자극 영역의 크기가 목표 물체 영상의 크기와 일치하지 않을 수 있다는 점이다. 이해를 돕기 위하여, 도3의 정지 영상으로부터 도6의 최대 자극 영역을 결정하는 지금까지의 과정을 일목요연하게 도7에 도시하였다.6 is an image showing a maximum stimulation region selected according to an embodiment of the present invention. Note that since the area is included as a region indicating a stimulus degree above the reference value, the size of the maximum stimulation region may not match the size of the target object image. For the sake of understanding, the process so far to determine the maximum stimulus region of FIG. 6 from the still image of FIG. 3 is clearly shown in FIG.

본 발명의 시각 집중 방법 중 다음 단계로 목표 물체 영상의 피쳐 맵을 결정한다(ST-4). 이에 따른 도2의 목표 물체 영상에 대한 피쳐 맵이 시각 특징별로 도8에 열거되어 있다.In the next step of the visual focusing method of the present invention, the feature map of the target object image is determined (ST-4). Accordingly, the feature map for the target object image of FIG. 2 is listed in FIG. 8 for each visual feature.

다음 단계에서, 목표 물체 영상의 피쳐 맵은 전 단계에서 결정된 최대 자극 영역의 피쳐 맵과 비교되고, 그 유사도에 대한 평가가 수행된다(ST-5).In the next step, the feature map of the target object image is compared with the feature map of the maximum stimulus region determined in the previous step, and evaluation of the similarity is performed (ST-5).

이미지들 사이의 유사도를 평가하는 방법으로 컬러 히스토그램을 추출한 후 컬러 히스토그램의 유사성을 평가하는 방법이 주로 이용되는데, 가장 보편적인 것이 히스토그램 인터섹션(histogram intersection) 기법이다. 본 발명은 히스토그램 인터섹션 기법을 색상 이외의 다른 시각 특징들에 적용하여 동일한 결론을 얻는 방법을 배제하지 않는다. 그러나, 히스토그램 인터섹션 방법이 갖는 단점을 보완하기 위해, 본 발명은 더 효과적인 특유의 유사도 평가 방법을 제안하며, 이에 대한 구체적인 설명은 뒤로 미루도록 한다.As a method of evaluating the similarity between images, a method of evaluating the similarity of a color histogram after extracting a color histogram is mainly used. The most common is a histogram intersection technique. The present invention does not exclude how to apply the histogram intersection technique to visual features other than color to obtain the same conclusions. However, in order to compensate for the drawbacks of the histogram intersection method, the present invention proposes a more effective method of assessing similarity, which will be described later.

도9는 본 발명의 실시예에 따른 목표 물체 영상의 피쳐 맵과 최대 자극 영역의 피쳐 맵이 그것들의 히스토그램을 기초로 상호 비교되고, 비교 결과로 얻어진 유사도의 크기에 따라 시각 특징들이 열거되는 과정을 알기 쉽게 표현한 개념도다.9 is a view illustrating a process in which feature maps of a target object image and feature maps of a maximum stimulus region are compared with each other based on their histograms, and visual features are listed according to the magnitude of similarity obtained as a result of the comparison according to an embodiment of the present invention. It is a conceptual diagram that is clearly expressed.

이와 같은 과정을 통해 구해진 유사도의 크기가 상호 비교되고, 유사도가 높은 시각 특징들을 소정 개수만큼 선정한다(ST-6). 예컨대, 도9에서 구한 유사도를 기초로 10종의 시각 특징들 유사도가 큰 5개의 시각 특징들을 나열하면, 도10에 도 시된 바와 같이, 'orientation 45', 'orientation 135', 'green', 'blue', 'red'를 선정할 수 있다.The magnitude of similarity obtained through the above process is compared with each other, and a predetermined number of visual features having high similarity are selected (ST-6). For example, based on the similarity obtained in FIG. 9, five visual features having a large similarity to 10 kinds of visual features are arranged. As shown in FIG. 10, 'orientation 45', 'orientation 135', 'green', ' blue ',' red 'can be selected.

다음, 본 발명의 시각 집중 방법은 선택된 시각 특징들의 자극성 맵들을 조합하여 최종적인 자극도 맵을 구성한다(ST-7). Next, the visual focusing method of the present invention combines the stimulus maps of the selected visual features to form a final stimulus map (ST-7).

도10은 유사도의 크기에 따라 선택된 5개 시각 특징들의 자극성 맵들을 조합하여 최종적인 자극도 맵을 구성하고, 이에 기초하여 집중을 수행하는 과정을 도시한 것이다. 도10을 참조하면, 유사도가 큰 것으로 선정된 5개의 시각 특징들 즉, 'orientation 45', 'orientation 135', 'green', 'blue', 'red'에 대응하는 자극성 맵들이 조합되어 자극도 맵을 구성하는 것을 볼 수 있다.FIG. 10 illustrates a process of constructing a final stimulus map by combining stimulus maps of five visual features selected according to the magnitude of similarity, and performing concentration based on the stimulus map. Referring to FIG. 10, five visual features selected as having high similarity, that is, stimulus maps corresponding to 'orientation 45', 'orientation 135', 'green', 'blue', and 'red' are combined. You can see that the map is constructed.

이와 같이 구해지는 본 발명의 자극도 맵은 정지 영상에 나타난 목표 물체의 시각적 특징들을 유사도로 평가한 후, 가장 유사하게 반영된 시각적 특징들의 자극성 맵을 조합하는 방식으로 구성되기 때문에, 정지 영상이 목표 물체 특유의 시각 특징들을 나타내지 못하는 상황에서도 시각 집중을 성공적으로 수행될 수 있도록 해 준다.Since the stimulus map of the present invention obtained as described above is composed by evaluating visual features of the target object shown in the still image with similarity, and combining the stimulus maps of the visual features most similarly reflected, the still image is the target object. It allows the visual focus to be successfully performed even in situations where the unique visual features are not exhibited.

마지막으로, 자극도 맵으로부터 시각 집중 영역을 결정한다(ST-8). Finally, the visual focus region is determined from the stimulus degree map (ST-8).

자극도 맵으로부터 시각 집중을 수행하는 방법은 최고의 자극 영역을 우선적으로 집중하는 방식으로 진행되는 것이 일반적이지만, 최우선으로 혹은 차순위로 집중하여야 할 영역을 결정하는 방법에 관한 많은 연구가 지속적으로 진행되어 다양한 기법들이 이미 알려져 있다. 본 발명은 자극도 맵을 구성하는 방법에 주된 특징이 있으므로, 자극도 맵에서 시각 집중을 수행하는 방법에 대한 더 자세한 설명 은 생략하도록 한다.The method of performing the visual focus from the stimulus map is generally performed by focusing the highest stimulus area first, but a lot of researches on how to determine the area to be focused first or next have been conducted. Techniques are already known. Since the present invention has a main feature in the method of constructing the stimulus map, a detailed description of the method of performing the visual focus on the stimulus map will be omitted.

도11a 및 도11b는 도2 및 도3의 목표 물체 영상과 정지 영상으로부터 하향식 VOCUS 알고리즘과 본 발명을 각각 적용하여 얻은 자극도 맵들에서 시각 집중을 수행할 때 시각 집중되는 영역의 순서를 보여준다.11A and 11B show the order of visually focused areas when performing visual focus on stimulus maps obtained by applying the top-down VOCUS algorithm and the present invention, respectively, from the target object images and still images of FIGS. 2 and 3.

VOCUS 알고리즘이 적용된 도11a에서는 시각 집중되는 첫 번째 영역이 'lipton'이라는 상품의 포장재 우측 하단이고, 우유팩은 3번째로 집중되는 것을 알 수 있다. 그러므로, 목표 물체를 첫 번째로 집중한 것을 성공이라고 할 때, VOCUS 알고리즘은 집중에 실패한 것이라고 할 수 있다.In FIG. 11A to which the VOCUS algorithm is applied, it can be seen that the first area that is visually focused is the right bottom of the packaging material of the product called 'lipton', and the milk carton is concentrated for the third time. Therefore, when the first focus of the target object is called success, the VOCUS algorithm can be said to fail in concentration.

이에 반해, 본 발명이 적용된 도11b에서는 시각 집중되는 첫 번째 영역이 우유팩이다. In contrast, in FIG. 11B to which the present invention is applied, the first area that is visually focused is a milk carton.

그러므로, 본 발명은 집중에 성공한 것으로 평가될 수 있으며, 이는 목표 물체 영상의 최대 자극 영역 혹은 주요 시각 특징이 가려진 경우에 본 발명이 하향식(top-down) VOCUS 알고리즘보다 더 우수한 결과를 나타낸다는 것을 보여주는 것이다. 이러한 차이는 목표 물체 영상의 시각 특징을 사전에 평가하고 가중치를 부여함으로써 주요한 시각 특징이 가려지는 경우 등에 있어 양호한 자극도 맵을 얻지 못하는 VOCUS 알고리즘과, 정지 영상에 나타난 목표 물체 영상의 시각 특징을 유사도로 평가한 후, 높은 유사도를 나타내는 시각 특징에 대한 자극성 맵을 조합함으로써 VOCUS 알고리즘이 나타내는 단점을 해결한 본 발명의 구성상의 차이에 비롯된다고 할 것이다. Therefore, the present invention can be evaluated to be successful in concentration, which shows that the present invention shows better results than the top-down VOCUS algorithm when the maximum stimulus area or key visual features of the target object image are obscured. will be. These differences are similar to those of the VOCUS algorithm that does not obtain a good stimulus map in the case where the main visual features are masked by evaluating and weighting the visual features of the target image in advance. After evaluating, the combination of the stimulus maps for the visual features exhibiting high similarity will be attributed to the configuration differences of the present invention which solved the disadvantages indicated by the VOCUS algorithm.

하향식 VOCUS 알고리즘과 본 발명의 하향식 시각집중방법의 효과를 더 비교 하기 위해, 도12a에 나열된 물체들 도12b와 같은 환경에서 임의로 나열한 후 각각을 목표 물체로 삼아 VOCUS 알고리즘과 본 발명의 시각 집중방법을 적용하는 실험을 반복적으로 수행하였다.In order to further compare the effects of the top-down VOCUS algorithm and the top-down visual focusing method of the present invention, the objects listed in FIG. 12A are randomly arranged in the environment as shown in FIG. The experiment to apply was performed repeatedly.

그리고, 성능 비교를 위해 각각의 알고리즘을 통해 얻은 자극도 맵(saliency map)에 기초하여 시각 집중을 수행하고, 목표 물체가 5개의 집중 영역 안에 포함되는 경우를 '성공'이라고 평가하여 실험 횟수 대비 성공률을 계산하였다.For performance comparison, visual focusing is performed based on a saliency map obtained through each algorithm, and the success rate is compared to the number of experiments by evaluating 'success' when the target object is included in five concentration areas. Was calculated.

다음의 표는 알고리즘별 대상 물체 각각에 대한 성공률을 나타낸 것이다.The following table shows the success rate for each target object by algorithm.

Figure 112009034390664-pat00001
Figure 112009034390664-pat00001

상기 표에서 본 발명의 성공률이 높은 것으로 나타났는데, 더욱 구체적으로는 본 발명이 하향식 VOCUS 알고리즘 대비 57% 높은 성공률을 갖는다는 것을 알 수 있다.In the above table, the success rate of the present invention was shown to be high. More specifically, it can be seen that the present invention has a success rate of 57% higher than that of the top-down VOCUS algorithm.

한편, 이러한 우수한 성공률이 나올 수 있었던 데에는 피쳐 맵의 유사도 분석시 일반적으로 사용되는 히스토그램 인터섹션 기법 대신 본 발명의 특유한 히스토그램 분석 기법을 이용한 것도 영향이 있었다. On the other hand, the excellent success rate was also affected by using the unique histogram analysis technique of the present invention instead of the histogram intersection technique that is commonly used in analyzing the similarity of the feature map.

이하에서는, 본 발명의 실시예에 따른 히스토그램에 기초한 피쳐 맵의 유사도를 판단 방법을 구체적으로 설명하도록 한다.Hereinafter, a method of determining similarity of feature maps based on a histogram according to an embodiment of the present invention will be described in detail.

도13a 및 도13b는 본 발명의 실시예에 따른 히스토그램 분석 방법을 설명하기 위한 히스토그램의 처리 과정을 나타내는 개념도다.13A and 13B are conceptual views illustrating a histogram processing process for explaining a histogram analysis method according to an exemplary embodiment of the present invention.

도13a에 도시된 바와 같이, 먼저 목표 물체 영상과 최대 자극 영역의 피쳐 맵으로부터 히스토그램을 추출한다. 이 히스토그램에 사용되는 빈(bin)의 사이즈는 임의로 선택될 수 있는데, 적절한 크기를 결정하기 위한 많은 방법이 이미 제안된 바 있으므로 당업자가 빈의 크기를 결정하는 것은 어렵지 않게 선택할 수 있을 것이다.As shown in FIG. 13A, first, a histogram is extracted from a feature map of a target object image and a maximum stimulus region. The size of the bin used in this histogram can be chosen arbitrarily. Since many methods have already been proposed for determining the appropriate size, it will be easy for those skilled in the art to select the size of the bin without difficulty.

목표 물체 영상과 최대 자극 영역의 피쳐 맵으로부터 추출된 히스토그램으로부터 이른바 피크빈(peak bin)을 선택하고, 나머지 빈은 삭제하여 피크빈만으로 이루어진 히스토그램을 얻는다. 피크빈은 연속하는 빈들 중에서 좌/우에 위치한 빈의 크기보다 큰 값을 갖는 빈으로 정의한다.From the histogram extracted from the target object image and the feature map of the maximum stimulus region, a so-called peak bin is selected, and the remaining bins are deleted to obtain a histogram composed of only peak bins. The peak bin is defined as a bin having a value larger than the size of the bin located at the left / right of successive bins.

다음으로, 목표 물체 영상과 최대 자극 영역의 피쳐 맵 각각에 대해, 히스토그램의 피크빈 중 가장 큰 값을 갖는 피크빈을 '최대 피크빈'으로서 선택한다. Next, for each of the target object image and the feature map of the maximum stimulus region, the peak bin having the largest value among the peak bins of the histogram is selected as the 'maximum peak bin'.

그리고, 도13b에 예시된 바와 같이, 목표 물체 영상과 최대 자극 영역의 피쳐 맵 각각에 대해 최대 피크빈(MB)을 기준으로 피크빈들(Bi) 각각의 크기의 비(POi,PMi)를 구하고, 최대 피크빈으로부터 이격된 거리(di)를 구하고, 그 결과들을 목표 물체 영상 및 최대 자극 영역의 피쳐 맵들 각각의 결과들을 비교하여 유사도를 수치화한다.And, as illustrated in FIG. 13B, for each of the feature map of the target object image and the maximum stimulus region, the ratio P Oi , P Mi of the size of each of the peak bins Bi is based on the maximum peak bin MB. , And obtain a distance d i spaced from the maximum peak bin, and compare the results with the results of each of the feature maps of the target object image and the maximum stimulus region to quantify the similarity.

예컨대, 최대 피크빈으로부터 우측으로 첫 번째 위치한 피크빈의 크기 비율 과 거리를 각각 P1, d1이라고 하고, 목표 물체 영상 및 최대 자극 영역의 피쳐 맵들에 대해 각각 O, M이라는 인덱스를 부여하여 표시하면, 유사도(Dm1,Dd1) 다음과 같은 수식으로 수치화하는 것이 가능하다:For example, the size ratio and distance of the first peak bin located to the right from the maximum peak bin are P 1 and d 1 , respectively, and the indexes O and M are respectively displayed for the target image and the feature maps of the maximum stimulus region. Similarity (D m1 , D d1 ) can be quantified by the following formula:

Figure 112009034390664-pat00002
Figure 112009034390664-pat00002

Figure 112009034390664-pat00003
Figure 112009034390664-pat00003

상기 식들을 최대 피크빈으로부터 i번째 위치한 피크빈에 대해 다음과 같이 일반화할 수 있다:The equations can be generalized as follows for the i-positioned peak bin from the maximum peak bin:

Figure 112009034390664-pat00004
Figure 112009034390664-pat00004

Figure 112009034390664-pat00005
Figure 112009034390664-pat00005

여기에서, MB는 최대 피크빈의 크기를 나타내며, Bi는 i번째 위치한 피크빈의 크기를 나타내고, di는 최대 피크빈으로부터 i번째 피크빈까지의 거리를 나타낸다. Here, MB denotes the size of the maximum peak bin, B i denotes the size of the i-th located peak bin, and d i denotes the distance from the maximum peak bin to the i-th peak bin.

각각의 피크빈에 대해 평가된 유사도는 모두 취합되어 전체 히스토그램의 유사도를 수치적으로 표현하게 된다. 취합하는 방법은 다양하게 선택가능한데, 예컨대 크기 및 거리에 대한 유사도 각각의 평균값을 구한 후 가중치를 부가하여 더하 거나, 일정 개수의 유사도 평가치를 단순 더하는 방법 등 다양한 방식으로 결정하는 것이 가능하다.The similarities evaluated for each peak bin are all collected to numerically represent the similarity of the entire histogram. The collection method can be variously selected. For example, the average value of the similarities for the size and distance can be obtained and added by weighting, or the method can be determined in various ways.

그러므로, 본 발명은 피크빈을 구한 후 최대 피크빈에 대한 상대적인 크기 및 거리의 유사도를 구함으로써 히스토그램의 유사도를 평가하는 방법에 주된 특징이 있는 것이며, 특정한 취합 방법에 구속되거나 한정되는 것이 아니다.Therefore, the present invention is the main feature of the method for evaluating the similarity of the histogram by obtaining the similarity of the relative size and distance to the maximum peak bin after obtaining the peak bin, and is not limited or limited to a specific aggregation method.

본 발명의 실시예에서는 크기 및 거리의 유사도를 구하고, 최대 피크빈 대비 이격 거리를 가중치로 적용하여 가중치 평균을 구하는 방식으로 히스토그램 유사도를 평가하였다.In the embodiment of the present invention, the histogram similarity was evaluated by calculating the similarity between the size and the distance, and calculating the weighted average by applying the distance from the maximum peak bin as the weight.

지금까지 본 발명의 실시예를 설명하였으나, 본 발명의 기술적 사상을 벗어나지 않은 범위에서 실시예들의 변형, 치환 등이 가능한 것을 당업자는 이해할 수 있을 것이다.Although the embodiments of the present invention have been described so far, those skilled in the art will understand that modifications, substitutions, and the like of the embodiments are possible without departing from the technical spirit of the present invention.

예컨대, 도1에 도시된 순서도에서 목표 물체 영상의 피쳐 맵을 구하는 단계는 도1에 도시된 순서에 반드시 수행되어야 하는 것은 아니다. 목표 물체 영상의 피쳐 맵을 구하는 단계와 그 이전 단계들이 어떠한 논리적인 관계가 없다는 사실로부터 당업자는 이점을 이해할 수 있을 것이다.For example, obtaining a feature map of the target object image in the flowchart shown in FIG. 1 does not necessarily have to be performed in the sequence shown in FIG. Those skilled in the art will appreciate the fact that the step of obtaining the feature map of the target object image and the previous steps have no logical relationship.

또한, 본 발명의 실시예에서 언급한 부분적인 방법 또는 알고리즘 중에는 본 발명의 기술적 사상을 형성하는데 필요충분조건에 해당하지 않거나, 다른 기타의 알고리즘에 의해 대체될 수 있는 것들이 대다수 포함되어 있다. 따라서, 본 발명의 실시예에 소개된 기법들 이외에도 언급되지 않은 많은 기법들이 이용될 수 있으며, 본 발명의 기술적 사상은 이들 기법들을 사용하는 경우를 모두 포함하는 것으로 이 해되어야 할 것이다.In addition, among the partial methods or algorithms mentioned in the embodiments of the present invention, many of them may not be sufficient requirements or may be replaced by other algorithms to form the technical idea of the present invention. Therefore, many techniques that are not mentioned in addition to the techniques introduced in the embodiments of the present invention can be used, and the technical concept of the present invention should be understood to include all cases of using these techniques.

그러므로, 본 발명의 실시예는 예시적인 것으로 이해되어야 하며, 본 발명의 기술적 사상을 한정하는 것으로 해석되어서는 안 될 것이다. 본 발명의 기술적 사상은 첨부된 특허청구범위의 기재에 의해 정해지며, 그 범위는 특허청구범위에 기재된 발명의 균등물에 미친다고 보아야 한다.Therefore, the embodiments of the present invention should be understood as illustrative and should not be construed as limiting the technical spirit of the present invention. The technical spirit of the present invention is defined by the description of the appended claims, and the scope should be regarded as the equivalents of the invention described in the claims.

도1은 본 발명의 실시예에 따른 하향식 시각 집중 방법을 나타내는 순서도; 1 is a flow chart illustrating a top-down visual focusing method according to an embodiment of the present invention;

도2는 본 발명의 실시예에 따라 목표 물체 영상으로 선택된 영상;2 is an image selected as a target object image according to an embodiment of the present invention;

도3은 본 발명의 실시예에 따라 시각 집중을 수행할 정지 영상;3 is a still image for performing visual focus according to an embodiment of the present invention;

도4는 본 발명의 실시예에 따라 도3의 정지 영상을 선형 필터링하여 획득한 피쳐 맵들을 시각 특징별로 열거한 도면;FIG. 4 is a view listing feature maps obtained by linear filtering the still image of FIG. 3 according to an embodiment of the present invention; FIG.

도5는 도4의 피쳐 맵들로부터 구한 자극성 맵들을 시각 특징별로 열거한 도면;FIG. 5 lists, by visual feature, the stimulus maps obtained from the feature maps of FIG. 4; FIG.

도6은 본 발명의 실시예에 따라 도5의 자극성 맵들로부터 선정된 최대 자극 영역을 시각 특징별로 열거한 도면;FIG. 6 lists, by visual feature, a maximum stimulus region selected from the stimulus maps of FIG. 5 in accordance with an embodiment of the present invention; FIG.

도7은 도3의 정지 영상으로부터 도6의 최대 자극 영역을 결정하는 과정을 일목요연하게 볼 수 있도록 한 도면;FIG. 7 is a diagram illustrating the process of determining the maximum stimulation region of FIG. 6 from the still image of FIG. 3; FIG.

도8은 본 발명의 실시예에 따른 도2에 도시된 목표 물체 영상의 피쳐 맵들을 시각 특징별로 열거한 도면;FIG. 8 is a view listing feature maps of the target object image shown in FIG. 2 by visual feature according to an embodiment of the present invention; FIG.

도9는 본 발명의 실시예에 따른 목표 물체 영상의 피쳐 맵과 최대 자극 영역의 피쳐 맵이 그것들의 히스토그램을 기초로 상호 비교되고, 비교 결과로 얻어진 유사도의 크기에 따라 시각 특징들이 열거되는 과정을 알기 쉽게 표현한 개념도;9 is a view illustrating a process in which feature maps of a target object image and feature maps of a maximum stimulus region are compared with each other based on their histograms, and visual features are listed according to the magnitude of similarity obtained as a result of the comparison according to an embodiment of the present invention. Easy-to-understand conceptual diagrams;

도10은 유사도의 크기에 따라 선택된 5개 시각 특징들의 자극성 맵들을 조합하여 최종적인 자극도 맵을 구성하고, 이에 기초하여 집중을 수행하는 과정을 도시한 개념도;FIG. 10 is a conceptual diagram illustrating a process of constructing a final stimulus map by combining stimulus maps of five visual features selected according to the magnitude of similarity, and performing concentration based thereon; FIG.

도11a 및 도11b는 도2 및 도3의 목표 물체 영상과 정지 영상으로부터 하향식 VOCUS 알고리즘과 본 발명을 각각 적용하여 얻은 자극도 맵들에서 시각 집중을 수행할 때 시각 집중되는 영역의 순서를 표시한 도면;11A and 11B are views showing the order of visually focused areas when visual focusing is performed on stimulus maps obtained by applying the top-down VOCUS algorithm and the present invention from the target object image and the still image of FIGS. 2 and 3, respectively. ;

도12a 및 도12b 각각은 VOCUS 알고리즘과 본 발명의 시각 집중방법의 성능을 비교하기 위한 실험에 이용된 물체들의 영상 및 환경을 보여준 도면; 및12A and 12B respectively show images and environments of objects used in an experiment for comparing the performance of the VOCUS algorithm and the visual focusing method of the present invention; And

도13a 및 도13b는 본 발명의 실시예에 따른 히스토그램 분석 방법을 설명하기 위한 히스토그램의 처리 과정을 나타내는 개념도이다.13A and 13B are conceptual views illustrating a histogram processing process for explaining a histogram analysis method according to an exemplary embodiment of the present invention.

Claims (6)

정지 영상 중 시각 집중 영역을 결정하는 시각 집중 방법에 있어서, In the visual focusing method for determining the visual focus area of the still image, 미리 결정된 시각 특징들(visual feature) 각각에 대한 상기 정지 영상의 피쳐 맵(feature map)과 자극성 맵(conspicuity map)을 결정하는 단계;Determining a feature map and a conspicuity map of the still image for each of predetermined visual features; 상기 자극성 맵으로부터 최대 자극 영역을 결정하는 단계;Determining a maximum stimulus region from the stimulus map; 상기 시각 특징들 각각에 대한 목표 물체 영상의 피쳐 맵을 결정하는 단계;Determining a feature map of a target object image for each of the visual features; 상기 목표 물체 영상의 피쳐 맵과 상기 최대 자극 영역의 피쳐 맵의 유사도를 평가하는 단계;Evaluating the similarity between the feature map of the target object image and the feature map of the maximum stimulus region; 평가된 유사도에 기초하여 시각 특징들을 선택하는 단계; 및Selecting visual features based on the evaluated similarity; And 선택된 시각 특징들의 자극성 맵을 조합하여 자극도 맵(saliency map)을 획득하는 단계를 포함하고, Combining the stimulus maps of the selected visual features to obtain a saliency map, 상기 유사도 평가는 상기 목표 물체 영상 및 상기 최대 자극 영역의 피쳐 맵으로부터 추출한 히스토그램의 유사도에 따라 평가하는 것을 특징으로 하는 시각 집중 방법.The similarity evaluation is evaluated according to the similarity of the histogram extracted from the feature map of the target object image and the maximum stimulation region. 제1항에 있어서,The method of claim 1, 상기 최대 자극 영역은 상기 자극성 맵 중 최대값을 나타내는 위치를 중심으로 미리 결정된 임계치 이상의 값을 나타내는 위치들을 포함하는 영역으로 결정되는 것을 특징으로 하는 시각 집중 방법.And the maximum stimulus region is determined as an area including positions representing values above a predetermined threshold with respect to the position representing the maximum value in the stimulus map. 삭제delete 제1항에 있어서,The method of claim 1, 상기 유사도 평가는, The similarity evaluation, 상기 목표 물체 영상과 상기 최대 자극 영역 각각에 대해, 상기 추출한 히스토그램 중 좌우측 빈(bin)보다 더 큰 값을 갖는 빈을 피크 빈으로서 선택하는 단계;Selecting, for each of the target object image and the maximum stimulus region, a bin having a larger value than the left and right bins of the extracted histograms as a peak bin; 최대값을 갖는 피크 빈을 기준으로 다른 피크 빈들의 크기와 거리의 비율을 산출하는 단계; 및Calculating a ratio of the size and distance of other peak bins based on the peak bin having the maximum value; And 상기 목표 물체 영상과 상기 최대 자극 영역 각각에 대해 산출된 크기 및 거리의 비율이 나타내는 유사도를 구하는 단계를 포함하여 수행되는 것을 특징으로 하는 시각 집중 방법.And calculating a similarity represented by the ratio of the size and distance calculated for each of the target object image and the maximum stimulation region. 제1항, 제2항 또는 제4항 중 어느 한 항에 있어서,The method according to any one of claims 1, 2 or 4, 상기 평가된 유사도에 기초하여 시각 특징들을 선택하는 단계는, 상기 유사도가 높은 순서에 따라 미리 결정된 수의 시각 특징들을 선택하는 단계인 것을 특징으로 하는 시각 집중 방법.And selecting the visual features based on the evaluated similarity is selecting a predetermined number of visual features according to the order of high similarity. 제1항, 제2항 또는 제4항 중 어느 한 항에 있어서,The method according to any one of claims 1, 2 or 4, 상기 평가된 유사도에 기초하여 시각 특징들을 선택하는 단계는, 미리 결정된 기준치보다 큰 값을 나타내는 유사도를 갖는 시각 특징들을 선택하는 것을 특징으로 하는 시각 집중 방법.Selecting visual features based on the evaluated similarity, selecting visual features having a similarity value that is greater than a predetermined reference value.
KR1020090050311A 2009-06-08 2009-06-08 Top-down visual attention method of determining visual attention region in a still image KR101031083B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090050311A KR101031083B1 (en) 2009-06-08 2009-06-08 Top-down visual attention method of determining visual attention region in a still image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090050311A KR101031083B1 (en) 2009-06-08 2009-06-08 Top-down visual attention method of determining visual attention region in a still image

Publications (2)

Publication Number Publication Date
KR20100131621A KR20100131621A (en) 2010-12-16
KR101031083B1 true KR101031083B1 (en) 2011-04-25

Family

ID=43507542

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090050311A KR101031083B1 (en) 2009-06-08 2009-06-08 Top-down visual attention method of determining visual attention region in a still image

Country Status (1)

Country Link
KR (1) KR101031083B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9311563B2 (en) 2013-11-01 2016-04-12 Samsung Electronics Co., Ltd. Method and apparatus for generating hierarchical saliency images detection with selective refinement

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
류광근, 이상훈, 서일홍, "이동로봇의 물체인식을 위한 질의 기반 시각 집중 알고리즘", 전자공학회 논문지 제44권 SC편 제1호, pp. 50-58, 2007년 1월.*
박상범 외 3명, "적응적인 Saliency Map 모델 구현", 한국정밀공학회지 제25권 제2호, pp. 131-139, 2008년 2월.

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9311563B2 (en) 2013-11-01 2016-04-12 Samsung Electronics Co., Ltd. Method and apparatus for generating hierarchical saliency images detection with selective refinement

Also Published As

Publication number Publication date
KR20100131621A (en) 2010-12-16

Similar Documents

Publication Publication Date Title
Premebida et al. Pedestrian detection combining RGB and dense LIDAR data
KR101932009B1 (en) Image processing apparatus and method for multiple object detection
US8891880B2 (en) Person clothing feature extraction device, person search device, and processing method thereof
CN108830199A (en) Identify method, apparatus, readable medium and the electronic equipment of traffic light signals
US9183431B2 (en) Apparatus and method for providing activity recognition based application service
CN111052126A (en) Pedestrian attribute identification and positioning method and convolutional neural network system
CN111597870B (en) Human body attribute identification method based on attention mechanism and multi-task learning
Yu et al. An object-based visual attention model for robotic applications
CN108805094A (en) Data enhancement methods based on artificial face
Orabona et al. A proto-object based visual attention model
US20190164293A1 (en) System and method for creating an image and/or automatically interpreting images
JP2002203242A (en) Plant recognition system
US20190147285A1 (en) Object detection device, object detection method and non-transitory computer readable medium
Dawod et al. ResNet interpretation methods applied to the classification of foliar diseases in sunflower
CN110298893A (en) A kind of pedestrian wears the generation method and device of color identification model clothes
CN110909565A (en) Image recognition and pedestrian re-recognition method and apparatus, electronic and storage device
CN110443179A (en) It leaves the post detection method, device and storage medium
KR101031083B1 (en) Top-down visual attention method of determining visual attention region in a still image
He et al. A novel saliency map extraction method based on improved Itti's model
Deza et al. Assessment of faster r-cnn in man-machine collaborative search
JP2011150626A (en) Method, device, and program for classifying image
CN109359543A (en) A kind of portrait search method and device based on Skeleton
Subasic et al. Expert system segmentation of face images
Nguyen et al. Vision-Based Global Localization of Points of Gaze in Sport Climbing
CN109559802A (en) Data display method and device

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140401

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee