JP4750758B2 - Attention area extraction method, attention area extraction device, computer program, and recording medium - Google Patents
Attention area extraction method, attention area extraction device, computer program, and recording medium Download PDFInfo
- Publication number
- JP4750758B2 JP4750758B2 JP2007162477A JP2007162477A JP4750758B2 JP 4750758 B2 JP4750758 B2 JP 4750758B2 JP 2007162477 A JP2007162477 A JP 2007162477A JP 2007162477 A JP2007162477 A JP 2007162477A JP 4750758 B2 JP4750758 B2 JP 4750758B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- attention
- basic
- attention level
- suppression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Image Analysis (AREA)
Description
本発明は、映像信号における注目領域を抽出する注目領域抽出方法、注目領域抽出装置、コンピュータプログラム、及び、記録媒体に関する。 The present invention relates to an attention area extraction method, an attention area extraction device, a computer program, and a recording medium that extract an attention area in a video signal.
ディジタルカメラの普及、記録媒体の大容量化、低価格化、大容量ネットワークの普及により、多様な画像・映像を蓄積して検索・利用する技術が必要となってきている。中でも、言葉では表現しにくい色・形状・構図・模様などの概念から、全体として類似した画像・映像を高速に引き出してくる技術は、ショッピングサイトや動画共有サイトなど、幅広い分野で開発が求められている。 With the spread of digital cameras, the increase in recording media capacity, the price reduction, and the proliferation of large-capacity networks, a technique for storing and retrieving and using various images / videos has become necessary. Above all, technology that quickly extracts similar images and videos from colors, shapes, compositions, and patterns that are difficult to express in words requires development in a wide range of fields such as shopping sites and video sharing sites. ing.
上記のような検索技術の実現において、ユーザの検索意図を反映させるために、画像・映像の中で人間が重要と感じる度合いを注目度として抽出し、この抽出した注目度に基づいて画像の類似性を判断する方法が有望である。前記注目度を算出する技術として非特許文献1及び非特許文献2に記載の方法が、また前記注目度に基づいて画像の類似性を判断する技術として特許文献1に記載の方法が知られている。
しかしながら、上記文献に記載の方法では、注目度が時間的に変動する側面についてはほとんど考慮されていない。本発明は、このような事情に鑑みてなされたものであり、その目的は、時間的変動を考慮した新たな注目度の算出方法を導入した注目領域抽出方法、注目領域抽出装置、コンピュータプログラム、及び、記録媒体を提供することにある。 However, in the method described in the above document, the aspect in which the degree of attention varies with time is hardly taken into consideration. The present invention has been made in view of such circumstances, and the purpose thereof is an attention area extraction method, an attention area extraction device, a computer program, and a new attention degree calculation method that takes into account temporal variations. And providing a recording medium.
すなわち、本発明においては、以下の2点により、注目度の時間的変動を考慮した注目度算出方法を実現する。 That is, in the present invention, the attention level calculation method considering the temporal variation of the attention level is realized by the following two points.
(1)注目度が最大となる領域の瞬時的な移動の導入。
人間の初期視覚において、できるだけ早く視野全体の情報を把握するために、注視点が高速に移動する「視覚探索」という現象が知られている(R.M. Klein: "Inhibition of return," Trends in Cognitive Sciences, Vol.4, No.4, pp.138-147, April 2000.;非特許文献3)。本発明ではこの「視覚探索」を注目度の算出に導入する。
(1) Introduction of instantaneous movement of an area where the degree of attention is maximum.
In the early human vision, in order to grasp the information of the entire visual field as quickly as possible, a phenomenon called “visual search” in which the gazing point moves at high speed is known (RM Klein: “Inhibition of return,” Trends in Cognitive Sciences , Vol.4, No.4, pp.138-147, April 2000 .; In the present invention, this “visual search” is introduced in the calculation of the degree of attention.
(2)変動の小さい視覚的刺激に対する注目度の抑制の導入。
人間の初期視覚において、できるだけ少ない注視点移動で視野全体の情報を把握するために、視覚的刺激が小さい領域に対する注目の度合いが時間経過と共に低下する「視覚適応」という現象が知られている(S. Martinez-Conde, S. L. Macknik and D. H. Hubel: "The role of fixational eye movements in visual perception," Nature Reviews, Vol.5, pp.229-240, March 2004.;非特許文献4)。本発明では、これの「視覚適応」を注目度の算出に導入する。
(2) Introduction of suppression of attention to visual stimuli with small fluctuations.
In early human vision, a phenomenon called “visual adaptation” is known in which the degree of attention to an area with a small visual stimulus decreases with time in order to grasp information of the entire visual field with as little gaze point movement as possible ( S. Martinez-Conde, SL Macknik and DH Hubel: “The role of fixational eye movements in visual perception,” Nature Reviews, Vol. 5, pp. 229-240, March 2004 .; In the present invention, this “visual adaptation” is introduced in the calculation of the degree of attention.
前記課題を解決するために、本発明は、対象となる入力映像から、その入力映像の中で顕著な特性を持つ時空間領域を表示した映像である注目度映像を抽出する注目領域抽出方法であって、入力映像を構成するあるフレームから、当該フレームの中で顕著な特性を持つ空間領域を表示した画像である基礎注目度画像を抽出する基礎注目度画像抽出過程と、前記基礎注目度画像抽出過程により前記入力映像の現在より1つ前のフレームから抽出された基礎注目度画像において、各画素の値である基礎注目度が最も大きい領域である最大基礎注目度領域を、前記基礎注目度画像抽出過程により前記入力映像の現在フレームから抽出された基礎注目度画像において抑制することにより、瞬時抑制後注目度画像を抽出する注目度瞬時抑制過程、または、前記入力映像の現在のフレーム以前のいくつかのフレームから算出された基礎注目度画像について、時間軸方向で顕著な値を持つ領域を抽出し、前記基礎注目度画像抽出過程により前記入力映像の当該フレームから抽出された基礎注目度画像、または、前記注目度瞬時抑制過程により前記入力映像の当該フレームから抽出された瞬時遷移注目度画像において、抽出した前記領域を強調するとともに他の領域を抑制することにより、漸進抑制後注目度画像を抽出する注目度漸進抑制過程の一方、または、両方の過程と、前記基礎注目度画像抽出過程と、注目度瞬時抑制過程または注目度漸進抑制過程の一方または両方の過程とを、前記入力映像の各フレームに対して順に繰り返して実行することにより、前記瞬時抑制後注目度画像または前記漸進抑制後注目度画像の時系列である漸進抑制後注目度映像を抽出し、これを注目度映像として出力する注目度映像出力過程とを有することを特徴とする注目領域抽出方法である。 In order to solve the above-mentioned problems, the present invention provides a region-of-interest extraction method for extracting a degree-of-interest video, which is a video displaying a spatio-temporal region having remarkable characteristics in the input video, from a target input video. A basic attention level image extraction process for extracting a basic attention level image, which is an image displaying a spatial region having a remarkable characteristic in the frame from a certain frame constituting the input video, and the basic attention level image In the basic attention level image extracted from the previous frame of the input video by the extraction process, the maximum basic attention level area that is the area where the basic attention level that is the value of each pixel is the largest is the basic attention level area. An attention level instantaneous suppression process of extracting an attention level image after instantaneous suppression by suppressing in a basic attention level image extracted from the current frame of the input video by an image extraction process, or An area having a remarkable value in the time axis direction is extracted from the basic attention image calculated from several frames before the current frame of the input video, and the input video of the input video is extracted by the basic attention image extraction process. In the basic attention level image extracted from the frame or the instantaneous transition attention level image extracted from the frame of the input video by the attention level instantaneous suppression process, the extracted region is emphasized and other regions are suppressed. Accordingly, one or both of the attention degree gradual suppression processes for extracting the attention degree image after gradual suppression, the basic attention degree image extraction process, one of the attention degree instantaneous suppression process or the attention degree gradual suppression process, or By repeating both steps in order for each frame of the input video, Proceed to extract the series progressive suppression after prominence image is a time of suppression after prominence image, a region of interest extraction method and having a degree of attention video output process of outputting this as attention image.
上記発明では、注目度瞬時抑制過程によって、注目度が最大となる領域の瞬時的な移動を導入し、「視覚探索」現象を信号処理により実現する。また、注目度漸進抑制過程によって、変動の小さい視覚的刺激に対する注目度の抑制を導入し、「視覚適応」現象を信号処理により実現する。 In the above invention, an instantaneous movement of a region where the degree of attention is maximized is introduced by the process of instantaneous attention degree suppression, and the “visual search” phenomenon is realized by signal processing. In addition, the attention degree gradual suppression process is used to introduce attention degree suppression for visual stimuli with small fluctuations, and the “visual adaptation” phenomenon is realized by signal processing.
また、本発明は、上述する注目領域抽出方法であって、前記基礎注目度画像抽出過程は、前記入力映像のあるフレームから、基礎特徴画像を複数種類抽出する基礎特徴画像抽出過程と、前記基礎特徴画像抽出過程により抽出された基礎特徴画像の各種類について、その多重解像度表現である多重解像度画像を抽出する多重解像度画像抽出過程と、前記多重解像度画像抽出過程により抽出された多重解像度画像の各種類について、解像度の異なる画像の間の差分である解像度差分画像を複数抽出する解像度差分画像抽出過程と、前記解像度差分画像抽出過程により抽出された解像度差分画像の各種類について、解像度の異なる解像度差分画像を統合することにより、顕著度画像を抽出する顕著度画像抽出過程と、前記顕著度画像抽出過程により抽出された顕著度画像について、複数種類の顕著度画像を統合することにより、基礎注目度画像を抽出する顕著度画像統合過程とからなり、前記注目度漸進抑制過程は、基礎注目度画像に代えて漸進抑制画像を用いて顕著度画像を抽出することを特徴とする。 Further, the present invention is the attention area extraction method described above, wherein the basic attention image extraction process includes a basic feature image extraction process for extracting a plurality of types of basic feature images from a frame of the input video, and the basic For each type of basic feature image extracted by the feature image extraction process, a multi-resolution image extraction process for extracting a multi-resolution image, which is a multi-resolution expression, and each of the multi-resolution images extracted by the multi-resolution image extraction process A resolution difference image extraction process for extracting a plurality of resolution difference images, which are differences between images having different resolutions, and a resolution difference having a different resolution for each type of resolution difference image extracted by the resolution difference image extraction process. By integrating the images, the saliency image extraction process for extracting the saliency image and the saliency image extraction process A saliency image integration process for extracting a basic attention level image by integrating a plurality of types of saliency images with respect to the issued saliency image, and the attention degree gradual suppression process is replaced with a basic attention level image. The saliency image is extracted using the progressive suppression image.
また、本発明は、上述する注目領域抽出方法であって、さらに、前記基礎注目度画像抽出過程により抽出された基礎注目度画像から前記最大基礎注目度領域を抽出し、複数種類の顕著度画像について前記最大基礎注目度領域に対応する領域の中の値を算出し、その値の大きさから、対応する顕著度画像の重みである顕著度画像統合比率を決定する顕著度画像統合比率算出過程とを有し、前記基礎注目度画像抽出過程は、前記入力映像の1つ前のフレームについて前記顕著度画像統合比率算出過程により算出された顕著度画像統合比率によって顕著度画像を重み付けして統合することにより、基礎注目度画像を抽出することを特徴とする。 Further, the present invention is the above-described attention area extraction method, further extracting the maximum basic attention degree area from the basic attention degree image extracted by the basic attention degree image extraction process, and a plurality of types of saliency images. A saliency image integration ratio calculating step of calculating a value in an area corresponding to the maximum basic attention degree area and determining a saliency image integration ratio that is a weight of the corresponding saliency image from the magnitude of the value In the basic attention level image extraction process, the saliency image is weighted and integrated by the saliency image integration ratio calculated by the saliency image integration ratio calculation process for the previous frame of the input video. Thus, the basic attention degree image is extracted.
また、本発明は、上述する注目領域抽出方法であって、前記顕著度画像統合比率算出過程は、前記入力映像の1つの前のフレームについて算出された前記顕著度画像統合比率を初期値とし、各顕著度画像について算出された前記最大基礎注目度領域の中の値を当該初期値に対しての差分値として新たな顕著度画像統合比率を更新することを特徴とする。 Further, the present invention is the attention area extraction method described above, wherein the saliency image integration ratio calculation step uses the saliency image integration ratio calculated for one previous frame of the input video as an initial value, A new saliency image integration ratio is updated using a value in the maximum basic attention level calculated for each saliency image as a difference value with respect to the initial value.
また、本発明は、上述する注目領域抽出方法であって、前記注目度瞬時抑制過程は、前記基礎注目度画像抽出過程により前記入力映像の現在より1つ前のフレームから抽出された基礎注目度画像から前記最大基礎注目度領域を抽出する最大基礎注目度領域検出過程と、前記最大基礎注目度領域検出過程により抽出された前記最大基礎注目度領域を遮蔽する画像である最大基礎注目度領域遮蔽画像を抽出する最大基礎注目度領域遮蔽画像抽出過程と、前記最大基礎注目度領域遮蔽画像抽出過程により抽出された最大基礎注目度領域遮蔽画像によって遮蔽されている領域について、その領域における遮蔽を低減する画像である注目度漸進回復画像を抽出する注目度漸進回復画像抽出過程と、前記最大基礎注目度領域遮蔽画像抽出過程により抽出された最大基礎注目度領域遮蔽画像、及び、前記注目度漸進回復画像抽出過程により抽出された注目度漸進回復画像を統合することにより注目度瞬時抑制画像を生成する注目度瞬時抑制画像生成過程と、前記注目度瞬時抑制画像生成過程により生成された注目度瞬時抑制画像、及び、基礎注目度画像抽出過程により抽出された前記入力映像の現在のフレームの基礎注目度画像を統合することにより瞬時抑制後注目度画像を生成する瞬時抑制後注目度画像生成過程とからなることを特徴とする。 Further, the present invention is the above-described attention area extracting method, wherein the attention degree instantaneous suppression process includes a basic attention degree extracted from the previous frame of the input video by the basic attention degree image extraction process. Maximum basic attention area detection process for extracting the maximum basic attention area from the image, and maximum basic attention area shielding that is an image for shielding the maximum basic attention area extracted by the maximum basic attention area detection process Reduction of occlusion in the area of the maximum basic attention area occlusion image extraction process for extracting an image and the area occluded by the maximum basic attention area occlusion image extracted by the maximum basic attention area occlusion image extraction process Extracted by the attention degree progressive recovery image extraction process of extracting the attention degree progressive recovery image that is the image to be captured and the maximum basic attention degree region occlusion image extraction process. The attention level instantaneous suppression image generation process for generating the attention level instantaneous suppression image by integrating the maximum basic attention level region occlusion image and the attention level progressive recovery image extracted by the attention level progressive recovery image extraction process, After instantaneous suppression by integrating the instantaneous attention suppressed image generated by the attention instantaneous suppression image generation process and the basic attention image of the current frame of the input video extracted by the basic attention image extraction process It is characterized by comprising an attention degree image generation process after instantaneous suppression for generating an attention degree image.
また、本発明は、上述する注目領域抽出方法であって、前記注目度漸進抑制過程は、前記基礎注目度画像抽出過程により抽出された基礎注目度画像を漸進的に遮蔽する画像である注目度漸進遮蔽画像を生成する注目度漸進遮蔽画像生成過程と、前記入力映像の現在のフレーム以前のいくつかのフレームから算出された基礎注目度画像もしくは顕著度画像について、時間軸方向で顕著な値を持つ領域を抽出し、その領域に対応する前記基礎注目度画像もしくは前記瞬時抑制後注目度画像における領域の基礎注目度の抑制を解除させる画像である注目度瞬時回復画像を生成する注目度瞬時回復画像生成過程と、前記注目度漸進遮蔽画像生成過程により生成された注目度漸進遮蔽画像、及び、前記注目度瞬時回復画像生成過程により生成された注目度瞬時回復画像を統合することにより注目度漸進抑制画像を生成する注目度漸進抑制画像生成過程と、前記基礎注目度画像抽出過程により抽出された基礎注目度画像、もしくは、前記注目度瞬時抑制過程により抽出された瞬時抑制後注目度画像と、前記注目度漸進抑制画像生成過程に生成された注目度漸進抑制画像とを統合することにより漸進抑制後注目度画像を生成する漸進抑制後注目度画像生成過程とからなることを特徴とする。 Further, the present invention is the attention area extraction method described above, wherein the attention degree gradual suppression process is an attention degree that is an image that gradually blocks the basic attention degree image extracted by the basic attention degree image extraction process. Attention level progressive occlusion image generation process for generating a progressive occlusion image, and a basic attention level image or saliency image calculated from several frames before the current frame of the input video, and a remarkable value in the time axis direction Attention instant recovery that extracts a region of interest and generates an attention degree instantaneous recovery image that is an image for releasing the suppression of the basic attention degree of the region in the basic attention degree image or the instantaneous attention degree attention image corresponding to the region Image generation process, attention degree progressive occlusion image generated by the attention degree progressive occlusion image generation process, and attention generated by the attention degree instantaneous recovery image generation process The attention degree gradual suppression image generation process for generating the attention degree gradual suppression image by integrating the instantaneous recovery images, the basic attention degree image extracted by the basic attention degree image extraction process, or the attention degree instantaneous suppression process Generating attention degree image after progressive suppression by integrating the extracted attention degree image after instantaneous suppression and the attention degree progressive suppression image generated in the attention degree progressive suppression image generation process. It consists of a process.
また、本発明は、対象となる入力映像から、その入力映像の中で顕著な特性を持つ時空間領域を表示した映像である注目度映像を抽出する注目領域抽出装置であって、入力映像を構成するあるフレームから、当該フレームの中で顕著な特性を持つ空間領域を表示した画像である基礎注目度画像を抽出する基礎注目度画像抽出部と、前記基礎注目度画像抽出部により前記入力映像の現在より1つ前のフレームから抽出された基礎注目度画像において、各画素の値である基礎注目度が最も大きい領域である最大基礎注目度領域を、前記基礎注目度画像抽出部により前記入力映像の現在フレームから抽出された基礎注目度画像において抑制することにより、瞬時抑制後注目度画像を抽出する注目度瞬時抑制部、または、前記入力映像の現在のフレーム以前のいくつかのフレームから算出された基礎注目度画像について、時間軸方向で顕著な値を持つ領域を抽出し、前記基礎注目度画像抽出部により前記入力映像の当該フレームから抽出された基礎注目度画像、または、前記注目度瞬時抑制部により前記入力映像の当該フレームから抽出された瞬時遷移注目度画像において、抽出した前記領域を強調するとともに他の領域を抑制することにより、漸進抑制後注目度画像を抽出する注目度漸進抑制部の一方、または、両方と、前記入力映像の各フレームに対して、注目度瞬時抑制部が抽出した前記瞬時抑制後注目度画像、または、前記注目度漸進抑制部が抽出した前記漸進抑制後注目度画像の時系列である漸進抑制後注目度映像を抽出し、これを注目度映像として出力する注目度映像出力部とを備えることを特徴とする注目領域抽出装置である。 The present invention is also a region-of-interest extraction apparatus that extracts a video of attention level, which is a video displaying a spatio-temporal region having remarkable characteristics in the input video, from the target input video, A basic attention level image extraction unit that extracts a basic attention level image that is an image displaying a spatial region having a remarkable characteristic in the frame from a certain frame that constitutes the frame, and the input video by the basic attention level image extraction unit In the basic attention level image extracted from the previous frame from the current frame, the maximum basic attention level area, which is the area having the highest basic attention level as the value of each pixel, is input by the basic attention level image extraction unit. An attention level instantaneous suppression unit that extracts an attention level image after instantaneous suppression by suppressing the basic attention level image extracted from the current frame of the video, or the current frame of the input video For the basic attention degree image calculated from several previous frames, a region having a remarkable value in the time axis direction is extracted, and the basic attention extracted from the frame of the input video by the basic attention degree image extraction unit In the instantaneous image or the instantaneous transition attention level image extracted from the frame of the input video by the attention level instantaneous suppression unit, the extracted region is emphasized and the other regions are suppressed, thereby attracting attention after progressive suppression. The attention degree gradual suppression unit that extracts the degree image, and the attention degree gradual suppression part extracted by the attention degree instantaneous suppression unit for each frame of the input video, or the attention degree gradual progression A degree-of-interest video output unit that extracts a degree-of-intermediate attention level image that is a time series of the degree-of-gradient attention level image extracted by the suppression unit, and outputs this as a degree-of-interest video; Is a region of interest extraction device, characterized in that it comprises.
また、本発明は、対象となる入力映像から、その入力映像の中で顕著な特性を持つ時空間領域を表示した映像である注目度映像を抽出する注目領域抽出装置として用いられるコンピュータに、入力映像を構成するあるフレームから、当該フレームの中で顕著な特性を持つ空間領域を表示した画像である基礎注目度画像を抽出する基礎注目度画像抽出過程と、前記基礎注目度画像抽出過程により前記入力映像の現在より1つ前のフレームから抽出された基礎注目度画像において、各画素の値である基礎注目度が最も大きい領域である最大基礎注目度領域を、前記基礎注目度画像抽出過程により前記入力映像の現在フレームから抽出された基礎注目度画像において抑制することにより、瞬時抑制後注目度画像を抽出する注目度瞬時抑制過程、または、前記入力映像の現在のフレーム以前のいくつかのフレームから算出された基礎注目度画像について、時間軸方向で顕著な値を持つ領域を抽出し、前記基礎注目度画像抽出過程により前記入力映像の当該フレームから抽出された基礎注目度画像、または、前記注目度瞬時抑制過程により前記入力映像の当該フレームから抽出された瞬時遷移注目度画像において、抽出した前記領域を強調するとともに他の領域を抑制することにより、漸進抑制後注目度画像を抽出する注目度漸進抑制過程の一方、または、両方の過程と、前記基礎注目度画像抽出過程と、注目度瞬時抑制過程または注目度漸進抑制過程の一方または両方の過程とを、前記入力映像の各フレームに対して順に繰り返して実行することにより、前記瞬時抑制後注目度画像または前記漸進抑制後注目度画像の時系列である漸進抑制後注目度映像を抽出し、これを注目度映像として出力する注目度映像出力過程とを実行させることを特徴とするコンピュータプログラムである。 The present invention also provides an input to a computer used as an attention area extraction device that extracts an attention degree video that is a video displaying a spatio-temporal area having remarkable characteristics in the input video from the target input video. A basic attention degree image extraction process for extracting a basic attention degree image, which is an image displaying a spatial region having a remarkable characteristic in the frame, from a certain frame constituting the video, and the basic attention degree image extraction process. In the basic attention degree image extracted from the frame immediately before the current input video, the maximum basic attention degree area, which is the area having the largest basic attention degree as the value of each pixel, is obtained by the basic attention degree image extraction process. Attention level instantaneous suppression process of extracting an attention level image after instantaneous suppression by suppressing the basic attention level image extracted from the current frame of the input video, or A region having a remarkable value in the time axis direction is extracted from the basic attention image calculated from several frames before the current frame of the input video, and the input video is extracted by the basic attention image extraction process. In the basic attention level image extracted from the frame or the instantaneous transition attention level image extracted from the frame of the input video by the attention level instantaneous suppression process, the extracted region is emphasized and other regions are suppressed. Thus, one or both of the attention degree gradual suppression process for extracting the attention degree image after the gradual suppression, the basic attention degree image extraction process, the attention degree instantaneous suppression process or the attention degree gradual suppression process. Alternatively, by repeating the both processes in order for each frame of the input video, Extract the series progressive suppression after prominence image is a time of gradual suppression after prominence image, a computer program, characterized in that to execute the attention image output step of outputting this as attention image.
また、本発明は、対象となる入力映像から、その入力映像の中で顕著な特性を持つ時空間領域を表示した映像である注目度映像を抽出する注目領域抽出装置として用いられるコンピュータに、入力映像を構成するあるフレームから、当該フレームの中で顕著な特性を持つ空間領域を表示した画像である基礎注目度画像を抽出する基礎注目度画像抽出過程と、前記基礎注目度画像抽出過程により前記入力映像の現在より1つ前のフレームから抽出された基礎注目度画像において、各画素の値である基礎注目度が最も大きい領域である最大基礎注目度領域を、前記基礎注目度画像抽出過程により前記入力映像の現在フレームから抽出された基礎注目度画像において抑制することにより、瞬時抑制後注目度画像を抽出する注目度瞬時抑制過程、または、前記入力映像の現在のフレーム以前のいくつかのフレームから算出された基礎注目度画像について、時間軸方向で顕著な値を持つ領域を抽出し、前記基礎注目度画像抽出過程により前記入力映像の当該フレームから抽出された基礎注目度画像、または、前記注目度瞬時抑制過程により前記入力映像の当該フレームから抽出された瞬時遷移注目度画像において、抽出した前記領域を強調するとともに他の領域を抑制することにより、漸進抑制後注目度画像を抽出する注目度漸進抑制過程の一方、または、両方の過程と、前記基礎注目度画像抽出過程と、注目度瞬時抑制過程または注目度漸進抑制過程の一方または両方の過程とを、前記入力映像の各フレームに対して順に繰り返して実行することにより、前記瞬時抑制後注目度画像または前記漸進抑制後注目度画像の時系列である漸進抑制後注目度映像を抽出し、これを注目度映像として出力する注目度映像出力過程とを実行させるコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体である。 The present invention also provides an input to a computer used as an attention area extraction device that extracts an attention degree video that is a video displaying a spatio-temporal area having remarkable characteristics in the input video from the target input video. A basic attention degree image extraction process for extracting a basic attention degree image, which is an image displaying a spatial region having a remarkable characteristic in the frame, from a certain frame constituting the video, and the basic attention degree image extraction process. In the basic attention degree image extracted from the frame immediately before the current input video, the maximum basic attention degree area, which is the area having the largest basic attention degree as the value of each pixel, is obtained by the basic attention degree image extraction process. Attention level instantaneous suppression process of extracting an attention level image after instantaneous suppression by suppressing the basic attention level image extracted from the current frame of the input video, or A region having a remarkable value in the time axis direction is extracted from the basic attention image calculated from several frames before the current frame of the input video, and the input video is extracted by the basic attention image extraction process. In the basic attention level image extracted from the frame or the instantaneous transition attention level image extracted from the frame of the input video by the attention level instantaneous suppression process, the extracted region is emphasized and other regions are suppressed. Thus, one or both of the attention degree gradual suppression process for extracting the attention degree image after the gradual suppression, the basic attention degree image extraction process, the attention degree instantaneous suppression process or the attention degree gradual suppression process. Alternatively, by repeating the both processes in order for each frame of the input video, A computer-readable recording medium that records a computer program that extracts a degree-of-interest attention level video that is a time series of the degree-of-advance attention degree image and outputs the attention degree video as a degree-of-interest video. is there.
本発明によれば、映像から注目領域を抽出する際に、注目度が最大となる領域の瞬時的な移動の導入、変動の小さい視覚的刺激に対する注目度の抑制を行うことにより、映像の注目度の時間的変更を考慮し、人間が重要と感じる部分に近い注目領域を抽出することが可能となる。 According to the present invention, when extracting a region of interest from an image, the attention of the image is obtained by introducing instantaneous movement of the region where the degree of attention is maximum and suppressing the degree of attention to a visual stimulus with small fluctuation. It is possible to extract a region of interest close to a portion that is felt important by humans in consideration of the temporal change of the degree.
以下、図面を用いて本発明の実施形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[第1の実施形態]
図1は、本発明の第1の実施形態による注目領域抽出装置の機能ブロック図である。
同図に示す注目領域抽出装置は、基礎注目度画像抽出部1と、注目度瞬時抑制部3と、注目度映像出力部5とにより構成され、注目度抽出の対象となる映像のデータである入力映像を入力し、入力画像の中で注目度の高い顕著な特性を持つ時空間領域を表示した映像である注目度映像を出力する。映像は、複数のフレームの画像からなる。
[First Embodiment]
FIG. 1 is a functional block diagram of a region of interest extraction apparatus according to the first embodiment of the present invention.
The attention area extracting apparatus shown in the figure is composed of a basic attention degree
基礎注目度画像抽出部1は、入力映像のあるフレームである入力画像を入力し、そのフレームの中で顕著な特性を持つ空間領域を表示した画像である基礎注目度画像を抽出し、その基礎注目度画像を出力する。
基礎注目度画像の抽出方法は特に限定されるものではないが、本実施形態においては、基礎注目度画像抽出部1が、基礎特徴画像抽出部11と、多重解像度画像抽出部12と、解像度差分画像抽出部13と、顕著度画像抽出部14と、顕著度画像統合部15とによって構成される場合の特徴抽出方法について述べる。
The basic attention level
The basic attention level image extraction method is not particularly limited, but in this embodiment, the basic attention level
基礎特徴画像抽出部11は、入力画像を入力し、複数の特徴抽出方法により入力画像からそれぞれ基礎特徴画像を抽出し、それら基礎特徴画像の集合を出力する。
基礎特徴画像の抽出方法は特に限定されるものではないが、本実施形態においては、基礎特徴画像抽出部11が、輝度特徴画像抽出部111と、色特徴画像抽出部112と、方向特徴画像抽出部113と、点滅特徴画像抽出部114と、運動特徴画像抽出部115とによって構成される場合の特徴抽出方法について述べる。
The basic feature
Although the basic feature image extraction method is not particularly limited, in this embodiment, the basic feature
輝度特徴画像抽出部111は、入力画像を入力し、入力画像の輝度成分を表現する輝度特徴画像を出力する。輝度特徴画像は、入力画像のRGB(Red,Green,Blue)成分の平均として、以下の(式1)のように求める。
The luminance feature
ここで、r(i),g(i),b(i)は、それぞれi番目の入力画像(=入力映像のi番目のフレーム)におけるR(赤色),G(緑色),B(青)の各成分であり、画素値はそれぞれ0から1の実数値で表されている。また、I(i)は、i番目の入力画像から計算される輝度特徴画像である。 Here, r (i), g (i), and b (i) are R (red), G (green), and B (blue) in the i-th input image (= i-th frame of the input video), respectively. The pixel values are represented by real values from 0 to 1, respectively. I (i) is a luminance feature image calculated from the i-th input image.
色特徴画像抽出部112は、入力画像を入力し、入力画像の色成分を表現する色特徴画像を出力する。色特徴画像抽出部112では、赤色・緑色・青色・黄色にそれぞれ対応する4種類の色特徴画像を抽出する。これらの色特徴画像はそれぞれ、以下の(式2)〜(式4)のように求める。ただし、maxは、括弧{}内の値のうちの最大値を示す。
The color feature
ここで、R(i),G(i),B(i),Y(i)は、それぞれ赤色・緑色・青色・黄色に対応する、i番目の入力画像から計算される色特徴画像である。また、R(i)(x,y)は、座標(x,y)における色特徴画像R(i)の画素値である。以降の説明において、必要な場合を除いて、下添字の(x,y)は省略するものとする。 Here, R (i), G (i), B (i), and Y (i) are color feature images calculated from the i-th input image corresponding to red, green, blue, and yellow, respectively. . R (i) (x, y) is a pixel value of the color feature image R (i) at the coordinates (x, y). In the following description, the subscript (x, y) is omitted unless necessary.
方向特徴画像抽出部113は、入力画像を入力し、入力画像の方向成分を表現する方向特徴画像を出力する。方向特徴画像は、輝度特徴画像抽出部111によって求めた前記輝度特徴画像I(i)にガボールフィルタを作用させることによって、以下の(式6)のように求められる。なお、ガボールフィルタとは、画像の局所的な濃淡情報を取り出すものである。
The direction feature
ここで、gφは回転角φを持つガボールフィルタ、*は畳み込み(関数を平行移動しながらもう一方の関数を重ね足し合わせる)を表現する演算子である。また、Oφ(i)はi番目の入力画像から計算される、回転角φに対応する方向特徴画像である。方向特徴画像は、nφ通りの回転角について抽出される。このとき回転角φは、π=180°を均等にnφ分割するように、以下の(式7)のように選択される。 Here, g φ is a Gabor filter having a rotation angle φ, and * is an operator that expresses convolution (the other function is superimposed and added while the function is translated). O φ (i) is a direction feature image corresponding to the rotation angle φ calculated from the i-th input image. Direction feature image is extracted for the rotation angle of the street n phi. At this time, the rotation angle φ is selected as shown in the following (Equation 7) so that π = 180 ° is divided into n φ evenly.
点滅特徴画像抽出部114は、入力画像を入力し、入力画像の点滅成分を表現する点滅特徴画像を出力する。点滅特徴画像は、輝度特徴画像抽出部111により、現在及びそれ以前のいくつかの入力画像から計算される前記輝度特徴画像I(i)を用い、以下の(式8)のように計算される。
The blinking feature
ここで、nFは点滅特徴画像を抽出する際に参照する輝度特徴画像の数(ただし現在の入力画像から抽出された輝度特徴画像は除く)、F(i)はi番目及びそれ以前の入力画像から計算される点滅特徴画像である。nF=1としたとき、F(i)=|I(i)−I(i−1)|となり、非特許文献2に記載の方法と一致する。
Here, n F flashing number of luminance feature image to be referred to when extracting feature image (where luminance feature image extracted from the current input image except), F (i) is the i-th and earlier input It is a blinking feature image calculated from the image. When n F = 1, F (i) = | I (i) −I (i−1) |, which is consistent with the method described in
運動特徴画像抽出部115は、入力画像を入力し、入力画像の運動成分を表現する運動特徴画像を出力する。運動特徴画像の抽出方法は特に限定されるものではないが、本実施形態においては、輝度特徴画像の各点におけるオプティカルフローを求めることによって抽出する。オプティカルフローの導出方法は特に限定されるものではないが、本実施形態においては、例えば、一般にLucas-Kanade法と呼ばれる画像勾配に基づく方法を用いて、以下の(式9)〜(式10)のように計算する。
The motion feature
ここで、A(x,y)は座標(x,y)の近傍領域、Mx(i),My(i)はそれぞれ運動の水平成分・垂直成分に対応する運動特徴画像である。 Here, A (x, y) is a neighborhood region of coordinates (x, y), and M x (i) and M y (i) are motion feature images corresponding to the horizontal and vertical components of motion, respectively.
上記の通り、基礎特徴画像抽出部11は、前記輝度特徴画像、前記色特徴画像、前記方向特徴画像、前記点滅特徴画像、及び前記運動特徴画像を、それぞれ基礎特徴画像とし、それら基礎特徴画像の集合を出力する。
As described above, the basic feature
多重解像度画像抽出部12は、前記基礎特徴画像の集合を入力し、各基礎特徴画像について、その多重解像度表現である多重解像度画像を抽出し、多重解像度画像の集合を出力する。
本実施形態においては、いずれの基礎特徴画像についても同様の処理を行うため、輝度特徴画像を例に処理の説明を行うものとする。輝度特徴画像についての多重解像度表現である輝度多重解像度画像は、輝度特徴画像にガウシアンフィルタを繰り返し作用させることによって以下の(式11)のように抽出される。ガウシアンフィルタとは、画像のノイズ除去するための平滑化フィルタのひとつであり、注目画素からの距離に基づく重み付けにガウス関数を用いる。
The multi-resolution
In the present embodiment, since the same processing is performed for any basic feature image, the processing will be described using a luminance feature image as an example. A luminance multi-resolution image that is a multi-resolution representation of the luminance feature image is extracted as shown in the following (Equation 11) by repeatedly applying a Gaussian filter to the luminance feature image. The Gaussian filter is one of smoothing filters for removing noise from an image, and uses a Gaussian function for weighting based on the distance from the target pixel.
ここで、Gσは分散σを持つガウシアンフィルタ、I(i;l)は輝度特徴画像I(i)から抽出した第lレベルの輝度多重解像度画像、nlは多重解像度画像のレベル数である。第0レベルの輝度多重解像度画像は輝度特徴画像そのもの、すなわちI(i;0)=I(i)とする。 Here, G σ is a Gaussian filter having variance σ, I (i; l) is the l-th level luminance multi-resolution image extracted from the luminance feature image I (i), and n l is the number of levels of the multi-resolution image. . The brightness multi-resolution image at the 0th level is the brightness feature image itself, that is, I (i; 0) = I (i).
他の基礎特徴画像についても同様にして多重解像度画像を抽出することができる。このとき、輝度多重解像度画像がnl枚抽出されるのに対して、色特徴画像R(i),G(i),B(i),Y(i)を用いた場合の色多重解像度画像R(i;l),G(i;l),B(i;l),Y(i;l)は合計4nl枚、方向特徴画像Oφ(i)を用いた場合の方向多重解像度画像Oφ(i;l)は合計nφnl枚、点滅特徴画像F(i)を用いた場合の点滅多重解像度画像F(i;l)はnl枚、運動特徴画像Mx(i),My(i)を用いた場合の運動多重解像度画像Mx(i;l),My(i;l)は合計2nl枚、それぞれ抽出される。 Multiresolution images can be extracted in the same manner for other basic feature images. At this time, n l luminance multi-resolution images are extracted, whereas color multi-resolution images when color feature images R (i), G (i), B (i), and Y (i) are used. R (i; l), G (i; l), B (i; l), Y (i; l) are 4n l in total, and a direction multi-resolution image when the direction feature image Oφ (i) is used. O φ (i; l) total n phi n l Like, blinking multiple resolution images F in the case of using a blinking feature image F (i) (i; l ) is n l Like, the movement feature image M x (i) , M y (i), the motion multi-resolution images M x (i; l) and M y (i; l) are extracted in total 2n 1 respectively.
上記の通り、多重解像度画像抽出部12は、前記輝度多重解像度画像、前記色多重解像度画像、前記方向多重解像度画像、前記点滅多重解像度画像、及び前記運動多重解像度画像をそれぞれ多重解像度画像とし、それら多重解像度画像の集合を出力する。
As described above, the multi-resolution
解像度差分画像抽出部13は、多重解像度画像抽出部12が出力した前記多重解像度画像の集合を入力し、多重解像度画像の各種類(輝度・色など)について、解像度レベルの異なる画像の間の差分画像である解像度差分画像を抽出し、解像度差分画像の集合を出力する。
本実施形態においては、以下の(式12)〜(式17)のようにして解像度差分画像を抽出する。
The resolution difference
In the present embodiment, the resolution difference image is extracted as in the following (Expression 12) to (Expression 17).
ここで、RSI(i;c,s)は第cレベルと第sレベルの輝度多重解像度画像から得られる輝度解像度差分画像であり、以降、(c,s)レベル輝度解像度差分画像と呼ぶことにする。同様に、RSRG(i;c,s)及びRSBY(i;c,s)はそれぞれ(c,s)レベルRG色解像度差分画像及び(c,s)レベルBY色解像度差分画像、RSO(i;φ;c,s)は回転角φの(c,s)レベル方向解像度差分画像、RSF(i;c,s)は(c,s)レベル点滅解像度差分画像、 Here, RS I (i; c, s) is a luminance resolution difference image obtained from the luminance multi-resolution images of the c-th level and the s-th level, and is hereinafter referred to as a (c, s) -level luminance resolution difference image. To. Similarly, RS RG (i; c, s) and RS BY (i; c, s) are respectively a (c, s) level RG color resolution difference image, a (c, s) level BY color resolution difference image, and RS O. (I; φ; c, s) is a (c, s) level direction resolution difference image of the rotation angle φ, RS F (i; c, s) is a (c, s) level blinking resolution difference image,
(以下、「RSMk(i;c,s)」と記載)はk方向の(c,s)レベル運動解像度差分画像である。また、Lc,Lsは輝度解像度差分画像を抽出する際に考慮する解像度レベルの集合であり、それぞれ中心解像度レベル集合、周辺解像度レベル集合と呼ぶ。
このとき、輝度解像度差分画像が|Lc・Ls|枚抽出されるのに対して、色解像度差分画像は4|Lc・Ls|枚、方向解像度差分画像はnφ|Lc・Ls|枚、点滅解像度差分画像は|Lc・Ls|枚、運動解像度差分画像は2|Lc・Ls|枚、それぞれ抽出される。
(Hereinafter referred to as “RS Mk (i; c, s)”) is a (c, s) level motion resolution difference image in the k direction. L c and L s are sets of resolution levels to be considered when extracting the luminance resolution difference image, and are referred to as a central resolution level set and a peripheral resolution level set, respectively.
At this time, | L c · L s | luminance resolution difference images are extracted, whereas 4 | L c · L s | color resolution difference images and n φ | L c · L s |, blinking resolution difference images are extracted as | L c · L s |, and motion resolution difference images are extracted as 2 | L c · L s |
上記の通り、解像度差分画像抽出部13は、前記輝度解像度差分画像、前記色解像度差分画像、前記方向解像度差分画像、前記点滅解像度差分画像、及び前記運動解像度差分画像をそれぞれ解像度差分画像とし、それら解像度差分画像の集合を出力する。
As described above, the resolution difference
顕著度画像抽出部14は、解像度差分画像抽出部13により出力された前記解像度差分画像の集合を入力し、解像度差分画像の各種類(輝度・色など)について解像度差分画像を統合した画像である顕著度画像を抽出し、それら顕著度画像の集合を出力する。
顕著度画像の抽出方法は特に限定されるものではないが、本実施形態においては、顕著度画像抽出部14が解像度差分画像正規化部141と、正規化解像度差分画像積算部142とによって構成される場合の顕著度画像抽出方法について述べる。
The saliency
The extraction method of the saliency image is not particularly limited, but in this embodiment, the saliency
解像度差分画像正規化部141は、解像度差分画像抽出部13により出力された前記解像度差分画像の集合を入力し、各解像度差分画像について正規化処理を施した画像である正規化解像度差分画像を抽出し、正規化解像度差分画像の集合を出力する。
本実施形態においては、いずれの解像度差分画像についても同様の処理を行うため、あるc∈Lc,s∈Lsを選んだときの(c,s)レベル輝度解像度差分画像RSI(i;c,s)を例に処理の説明を行うものとする。解像度差分画像に対する正規化処理は、以下の(式18)〜(式20)ようにして行われ、正規化解像度差分画像N(RSI(i;c,s))を得る。
The resolution difference
In the present embodiment, since the same processing is performed for any resolution difference image, (c, s) level luminance resolution difference image RS I (i;) when a certain c∈L c , s∈L s is selected. The processing will be described using c, s) as an example. The normalization process for the resolution difference image is performed as follows (Equation 18) to (Equation 20) to obtain a normalized resolution difference image N (RS I (i; c, s)).
ここで、m*(RSI(i;c,s))は、(c,s)レベル輝度解像度差分画像の中の最大画素値である。 Here, m * (RS I (i; c, s)) is the maximum pixel value in the (c, s) level luminance resolution difference image.
他のレベルの輝度解像度差分画像、及び他の種類の輝度解像度差分画像についても同様にして正規化処理を行うことができ、それぞれの正規化解像度差分画像、すなわち、正規化輝度解像度差分画像、正規化RG色解像度差分画像、正規化BY色解像度差分画像、正規化方向解像度差分画像、正規化方向解像度差分画像、正規化点滅解像度差分画像、正規化運動解像度差分画像を得る。 Normalization processing can be performed in the same manner for other levels of luminance resolution difference images and other types of luminance resolution difference images, and the respective normalized resolution difference images, that is, normalized luminance resolution difference images, normal A normalized RG color resolution difference image, a normalized BY color resolution difference image, a normalized direction resolution difference image, a normalized direction resolution difference image, a normalized blinking resolution difference image, and a normalized motion resolution difference image are obtained.
正規化解像度差分画像積算部142は、解像度差分画像正規化部141により得られた前記正規化解像度差分画像の集合を入力し、それら正規化解像度差分画像を各種類(輝度・色など)について積算することにより顕著度画像を抽出し、顕著度画像の集合を出力する。
本実施形態において、正規化解像度差分画像は、以下の(式21)〜(式25)のようにして積算される。
The normalized resolution difference
In the present embodiment, the normalized resolution difference image is integrated as in the following (Expression 21) to (Expression 25).
ここで、CMI(i)、CMC(i)、CMO(i)、CMF(i)、CMM(i)はそれぞれ輝度顕著度画像、色顕著度画像、方向顕著度画像、点滅顕著度画像、運動顕著度画像であり、正規化解像度差分画像N(RSI(i;c,s))、正規化RG色解像度差分画像N(RSRG(i;c,s))及び正規化BY色解像度差分画像N(RSBY(i;c,s))、正規化方向解像度差分画像N(RSO(i;φ;c,s))、正規化方向解像度差分画像N(RSF(i;c,s))、正規化点滅解像度差分画像N(RSF(i;c,s))、正規化運動解像度差分画像N(RSMk(i;c,s))を用いて同様に求められる。 Here, CM I (i), CM C (i), CM O (i), CM F (i), and CMM (i) are a luminance saliency image, a color saliency image, a direction saliency image, and blinking, respectively. A saliency image, a motion saliency image, a normalized resolution difference image N (RS I (i; c, s)), a normalized RG color resolution difference image N (RS RG (i; c, s)), and a normal BY color resolution difference image N (RS BY (i; c, s)), normalized direction resolution difference image N (RS O (i; φ; c, s)), normalized direction resolution difference image N (RS F (I; c, s)), normalized blink resolution difference image N (RS F (i; c, s)), normalized motion resolution difference image N (RS Mk (i; c, s)) Is required.
上記の通り、顕著度画像抽出部14は、前記輝度顕著度画像、前記色顕著度画像、前記方向顕著度画像、前記点滅顕著度画像、及び前記運動顕著度画像を、それぞれ顕著度画像とし、それら顕著度画像の集合を出力する。
As described above, the saliency
顕著度画像統合部15は、顕著度画像抽出部14により出力された前記顕著度画像の集合を入力し、顕著度画像を統合した画像である基礎注目度画像を抽出し、その基礎注目度画像を出力する。
基礎注目度画像の抽出方法は特に限定されるものではないが、本実施形態においては、顕著度画像統合部15が、顕著度画像正規化部151と、正規化顕著度画像積算部152とによって構成される場合の基礎注目度画像抽出方法について述べる。
The saliency
The extraction method of the basic attention level image is not particularly limited, but in the present embodiment, the saliency
顕著度画像正規化部151は、顕著度画像抽出部14により出力された顕著度画像の集合を入力し、各顕著度画像(輝度顕著度画像、色顕著度画像、方向顕著度画像、点滅顕著度画像、運動顕著度画像)それぞれについて正規化処理を施した画像である正規化顕著度画像を抽出し、正規化顕著度画像の集合を出力する。
顕著度画像に対する正規化処理は、前記解像度差分画像正規化部141による正規化処理と同様である。
The saliency
The normalization process for the saliency image is the same as the normalization process by the resolution difference
正規化顕著度画像積算部152は、顕著度画像正規化部151により出力された正規化顕著度画像の集合を入力し、それら正規化顕著度画像を積算することにより基礎注目度画像を抽出し、その基礎注目度画像を出力する。
本実施形態において、正規化顕著度画像N(CMj(i))(j=I,C,O,F,M)は、以下の(式26)のようにして積算される。ただし、〜jは、式中でjと区別するために用いているが、jと同様、〜j=I,C,O,F,Mである。
The normalized saliency
In this embodiment, the normalized saliency image N (CM j (i)) (j = I, C, O, F, M) is integrated as shown in the following (Equation 26). However, although ~ j is used in order to distinguish from j in a formula, it is ~ j = I, C, O, F, and M like j.
ここで、S(i)はi番目の入力画像から抽出される基礎注目度画像、wj(i)は後述の第3の実施形態の顕著度画像統合比率算出部2により抽出される顕著度画像CMj(i)に対応する顕著度画像統合比率であるが、本実施形態及び後述する第2の実施形態では、顕著度画像統合比率算出部2を用いないため、wj(i)=1/5∀(i,j)とする。(∀は任意を示す。)
Here, S (i) is the basic attention degree image extracted from the i-th input image, and w j (i) is the saliency extracted by the saliency image integration
上記の通り、基礎注目度画像抽出部1は、前記基礎注目度画像を抽出し、これを出力する。
As described above, the basic attention level
注目度瞬時抑制部3は、基礎注目度画像抽出部1により、現在及び1時点前の入力画像から算出された前記基礎注目度画像を入力し、1時点前の入力画像から算出された基礎注目度画像について、その基礎注目度画像の各画素の値である基礎注目度が最も大きい領域である最大基礎注目度領域を抑制することにより、瞬時抑制後注目度画像を抽出し、その瞬時抑制後注目度画像を出力する。
The attention level
瞬時抑制後注目度画像の抽出方法は特に限定されるものではないが、本実施形態においては、注目度瞬時抑制部3が、最大基礎注目度領域検出部31と、最大基礎注目度領域遮蔽画像抽出部32と、注目度漸進回復画像抽出部33と、注目度瞬時抑制画像生成部34と、瞬時抑制後注目度画像生成部35とによって構成される場合の瞬時抑制後注目度画像抽出方法について述べる。
The method of extracting the attention level image after instantaneous suppression is not particularly limited, but in the present embodiment, the instantaneous
最大基礎注目度領域検出部31は、1時点前の入力画像から算出された前記基礎注目度画像を入力し、入力された基礎注目度画像における前記最大基礎注目度領域を抽出し、この最大基礎注目度領域を出力する。
最大基礎注目度領域の抽出方法は特に限定されるものではないが、本実施形態においては、最大基礎注目度領域MSR(i−1)を、基礎注目度画像S(i−1)の画素値(基礎注目度)が最も大きい箇所(( ̄x),( ̄y))を中心とした半径εの円によって抽出する。すなわち、以下の(式27)のように表現される。ただし、argmaxは、直後の項を最大化する値を返す演算子である。例えば、(式27)においては、S(i−1)(x’,y’)を最大化する(x’,y’)を返す。
The maximum basic attention level
Although the extraction method of the maximum basic attention level region is not particularly limited, in the present embodiment, the maximum basic attention level region MSR (i−1) is used as the pixel value of the basic attention level image S (i−1). Extraction is performed by a circle having a radius ε centered on a point (( ̄x), ( ̄y)) having the largest (basic attention level). That is, it is expressed as (Equation 27) below. Here, argmax is an operator that returns a value that maximizes the immediately following term. For example, in (Expression 27), (x ′, y ′) that maximizes S (i−1) (x ′, y ′) is returned.
最大基礎注目度領域遮蔽画像抽出部32は、現在の入力画像から算出された前記基礎注目度画像、現在及びそれ以前の入力画像から算出された前記最大基礎注目度領域、及び1時点前における注目度瞬時抑制画像生成部34の出力である注目度瞬時抑制画像を入力し、最大基礎注目度領域を新たに遮蔽する画像である最大基礎注目度領域遮蔽画像を抽出し、この最大基礎注目度領域遮蔽画像を出力する。
最大基礎注目度領域遮蔽画像の抽出方法は特に限定されるものではないが、本実施形態においては、以下の方法によって抽出する。
The maximum basic attention level region occlusion
Although the extraction method of the maximum basic attention level region occlusion image is not particularly limited, in the present embodiment, extraction is performed by the following method.
1時点前の注目度瞬時抑制画像生成部34における処理により、注目度瞬時抑制画像ID(i−1)がすでに得られているものとする。
ここで、現在の入力画像がi番目の入力画像であるとする。このとき、1時点前の最大基礎注目度領域MSR(i−1)を新たに遮蔽するようにID(i−1)を更新することで、現在の最大基礎注目度領域遮蔽画像ID1(i)を以下の(式28)〜(式29)のように生成する。ただし、modは、除算の余りを示す。
It is assumed that the attention degree instantaneous suppression image ID (i-1) has already been obtained by the processing in the attention degree instantaneous suppression
Here, it is assumed that the current input image is the i-th input image. At this time, ID (i-1) is updated so as to newly shield the maximum basic attention level area MSR (i-1) one point before the current time point, so that the current maximum basic attention level area shielding image ID 1 (i ) Is generated as in the following (Expression 28) to (Expression 29). However, mod indicates the remainder of division.
ここで、μ(0<μ≦1)は、最大基礎注目度領域を遮蔽する度合を表現する係数であり、μ=1のときには、その領域における基礎注目度の大きさによらずその領域を完全に遮蔽する。また、ΔtI≧1は最大基礎注目度領域による遮蔽の間隔を制御する定数である。特に、ΔtI=1のときには、すべてのフレームにおいて最大基礎注目度領域による遮蔽を行う。 Here, μ (0 <μ ≦ 1) is a coefficient expressing the degree of shielding of the maximum basic attention level region. When μ = 1, the region is determined regardless of the size of the basic attention level in the region. Shield completely. Δt I ≧ 1 is a constant that controls the interval of shielding by the maximum basic attention degree region. In particular, when Δt I = 1, all frames are shielded by the maximum basic attention area.
別の実施形態として、1時点前の最大基礎注目度領域遮蔽画像ID1(i−1)によって遮蔽されている領域を、その領域の動きに追随して移動させることも可能である。k番目の入力画像から算出された最大基礎注目度領域MSR(k)の時点i(i≧k)での位置MSR(i;k)は、以下の(式30)〜(式32)のようにして算出される。 As another embodiment, it is also possible to move the area that is shielded by the maximum basic attention area shadow image ID 1 (i-1) one point before the time, following the movement of the area. The position MSR (i; k) at the time point i (i ≧ k) of the maximum basic attention level region MSR (k) calculated from the kth input image is expressed by the following (Expression 30) to (Expression 32). Is calculated as follows.
ただし、MSR(i;i)=MSR(i)とする。このとき、最大基礎注目度領域遮蔽画像ID1(i)は、以下の(式33)〜(式35)のようにして算出される。 However, MSR (i; i) = MSR (i). At this time, the maximum basic attention level region occlusion image ID 1 (i) is calculated as in the following (Expression 33) to (Expression 35).
上記(式33)の第1行は1時点前の最大基礎注目度領域を遮蔽する操作、第2行は既に遮蔽されている最大基礎注目度領域を前記運動特徴画像の画素値を利用して移動させる操作、第3行は第2行で移動する前の領域の遮蔽を解除する操作である。 The first row of the above (Equation 33) is an operation for blocking the maximum basic attention level region one point before, and the second row is a maximum basic attention level region that has already been blocked using the pixel value of the motion feature image. The moving operation, the third line, is an operation for releasing the shielding of the area before moving in the second line.
注目度漸進回復画像抽出部33は、最大基礎注目度領域遮蔽画像抽出部32の算出した前記最大基礎注目度領域遮蔽画像によって遮蔽されている領域における遮蔽を低減させる画像である注目度漸進回復画像を抽出し、この注目度漸進回復画像を出力する。
本実施形態において、注目度漸進回復画像ID2(i)は、全ての画素値がα(0≦α≦1)である画像とする。
The attention degree progressive recovery
In this embodiment, the attention degree progressive recovery image ID 2 (i) is an image in which all pixel values are α (0 ≦ α ≦ 1).
注目度瞬時抑制画像生成部34は、最大基礎注目度領域遮蔽画像抽出部32の算出した前記最大基礎注目度領域遮蔽画像及び注目度漸進回復画像抽出部33の出力した注目度漸進回復画像を入力し、これら画像を統合することにより注目度瞬時抑制画像を生成し、この注目度瞬時抑制画像を出力する。
本実施形態において、注目度瞬時抑制画像ID(i)は、以下の(式37)のようにして得られる。ただし、minは、括弧{}内の値のうちの最小値を示す。
The attention level instantaneous suppression
In the present embodiment, the attention degree instantaneous suppression image ID (i) is obtained as shown in (Expression 37) below. Here, min indicates the minimum value among the values in parentheses {}.
瞬時抑制後注目度画像生成部35は、前記注目度瞬時抑制画像及び前記基礎注目度画像を入力し、これら画像を統合することにより瞬時抑制後注目度画像を生成し、この瞬時抑制後注目度画像を出力する。
本実施形態において、瞬時抑制後注目度画像SI(i)は、以下の(式38)のようにして得られる。
The attention-suppressed attention level
In the present embodiment, the after-suppression attention level image S I (i) is obtained as shown in the following (formula 38).
ここで、ωI(i)≧0は注目度瞬時抑制画像ID(i)に対する重みを表現する係数である。 Here, ω I (i) ≧ 0 is a coefficient expressing the weight for the attention-degree instantaneous suppression image ID (i).
上記の通り、注目度瞬時抑制部3は、前記瞬時抑制後注目度画像を抽出し、これを出力する。
As described above, the attention level
注目度映像出力部5は、前記基礎注目度画像抽出部1〜注目度瞬時抑制部3を、各入力画像について順に繰り返して実行することにより抽出された前記瞬時抑制後注目度画像の時系列である瞬時抑制後注目度映像を抽出し、これを注目度映像として出力する。
The attention level
図2に、本実施形態の動作例を示す。
同図において、上段(a)は入力画像、中段の(b)は注目度瞬時抑制画像、下段の(c)は瞬時抑制後注目度画像であり、それぞれ左から時系列順に整列している。
FIG. 2 shows an operation example of the present embodiment.
In the figure, the upper stage (a) is an input image, the middle stage (b) is an attention level instantaneous suppression image, and the lower stage (c) is an instantaneous suppression attention level image, which are arranged in chronological order from the left.
[第2の実施形態]
図3は、本発明の第2の実施形態による注目領域抽出装置の機能ブロック図である。
本実施形態に示す注目領域抽出装置は、基礎注目度画像抽出部1と、注目度瞬時抑制部3と、注目度漸進抑制部4と、注目度映像出力部5とで構成され、注目度抽出の対象となる入力映像を入力し、入力画像の中で注目度の高い領域を表示した映像である注目度映像を出力する。なお、注目領域抽出装置を、注目度瞬時抑制部3を用いずに、基礎注目度画像抽出部1と、注目度漸進抑制部4と、注目度映像出力部5とで構成することも可能である。同図において、第1の実施形態と同様の構成は同じ符号を付し、説明を省略する。基礎注目度画像抽出部1、及び注目度瞬時抑制部3は、第1の実施形態と同様である。
[Second Embodiment]
FIG. 3 is a functional block diagram of the attention area extracting apparatus according to the second embodiment of the present invention.
The attention area extracting apparatus shown in the present embodiment includes a basic attention degree
注目度漸進抑制部4は、現在及びそれ以前の入力画像のうちいくつかから算出された前記顕著度画像、及び前記基礎注目度画像もしくは前記瞬時抑制後注目度画像を入力し、顕著度画像について時間軸方向で顕著な値を持つ領域を抽出し、その領域に対応する基礎注目度画像もしくは瞬時抑制後注目度画像における領域を強調し、そうではない領域を抑制することにより、漸進抑制後注目度画像を抽出し、その漸進抑制後注目度画像を出力する。
The attention degree
漸進抑制後注目度画像の抽出方法は特に限定されるものではないが、本実施形態においては、注目度漸進抑制部4が、注目度漸進遮蔽画像生成部41と、注目度瞬時回復画像生成部42と、注目度漸進抑制画像生成部43と、漸進抑制後注目度画像生成部44とによって構成される場合の漸進抑制後注目度画像抽出方法について述べる。
The method of extracting the attention degree image after progressive suppression is not particularly limited. In the present embodiment, the attention degree
注目度漸進遮蔽画像生成部41は、前記基礎注目度画像を漸進的に遮蔽する画像である注目度漸進遮蔽画像を生成し、この注目度漸進遮蔽画像を出力する。
注目度漸進遮蔽画像の生成方法は、特に限定されるものではないが、本実施形態においては、基礎注目度画像S(i)の全ての画素値を1時点ごとにβ(0<β≦1)ずつ減少させることで以下の(式39)のように注目度漸進遮蔽画像GD1(i)を生成する。
The attention degree progressive occlusion
The method of generating the attention degree progressive occlusion image is not particularly limited. In the present embodiment, all pixel values of the basic attention degree image S (i) are represented by β (0 <β ≦ 1) for each time point. ), The attention degree progressive occlusion image GD 1 (i) is generated as in (Equation 39) below.
注目度瞬時回復画像生成部42は、現在及びそれ以前の入力画像のうちいくつかの入力画像から算出された前記顕著度画像を入力し、それら顕著度画像について、時間軸方向で顕著な値を持つ領域を抽出し、その領域に対応する前記基礎注目度画像もしくは前記瞬時抑制後注目度画像における領域の基礎注目度の抑制を解除させる画像である注目度瞬時回復画像を生成し、この注目度瞬時回復画像を出力する。
注目度瞬時回復画像の生成方法は、特に限定されるものではないが、本実施形態においては、注目度瞬時回復画像生成部42が、時間顕著度画像生成部421と、時間顕著度画像二値化部422とによって構成される場合の注目度瞬時回復画像生成方法について述べる。
The attention level instantaneous recovery
The method of generating the attention level instantaneous recovery image is not particularly limited. In this embodiment, the attention level instantaneous recovery
時間顕著度画像生成部421は、現在及びそれ以前の入力画像のうちいくつかの入力画像から算出された前記顕著度画像を入力し、それら顕著度画像について、時間軸方向で顕著な値を持つ領域を示す画像である時間顕著度画像を生成し、この時間顕著度画像を出力する。
時間顕著度画像の生成方法は、特に限定されるものではないが、本実施形態においては、以下、2通りの方法について記述する。
The temporal saliency
The method for generating the temporal saliency image is not particularly limited, but in the present embodiment, the following two methods will be described.
第1の時間顕著度画像生成方法では、L. Itti and P. Baldi,"A principled approach to detecting surprising events in video," in Proc. Conference on Computer Vision and Pattern Recognition (CVPR), pp. 631-637, June 2005.(非特許文献5)に記載の方法に基づき、既定の確率モデルとの一致度を利用して時間顕著度画像を生成する。 In the first temporal saliency image generation method, L. Itti and P. Baldi, “A principled approach to detecting surprising events in video,” in Proc. Conference on Computer Vision and Pattern Recognition (CVPR), pp. 631-637 , June 2005. (Non-Patent Document 5), a temporal saliency image is generated using the degree of coincidence with a predetermined probability model.
以下の(式40)に示すガンマ分布の確率密度関数Pγ(λ:ρ1,ρ2)について、1時点前の入力画像を用いた本処理部における出力により、この確率密度関数のパラメータであるガンマ分布係数(ρ1,ρ2)=(ρ1(i−1),ρ2(i−1))が決定されているものとする。 With respect to the probability density function P γ (λ: ρ 1 , ρ 2 ) of the gamma distribution shown in the following (Equation 40), the output of this processing unit using the input image before one time point is used as a parameter of this probability density function. It is assumed that a certain gamma distribution coefficient (ρ 1 , ρ 2 ) = (ρ 1 (i−1), ρ 2 (i−1)) is determined.
ここで、Γ(・)はガンマ関数である。 Here, Γ (·) is a gamma function.
第1の時間顕著度画像生成方法の基本的な考え方は、各解像度差分画像の各画素に対応する形でそれぞれ上記のガンマ分布係数ρ1,ρ2が保持されており、各時点の解像度差分画像の画素値に応じてガンマ分布係数を更新しながら、時間顕著度画像を生成する枠組である。以下、簡単のため、ある(c,s)レベル輝度解像度差分画像RSI(i;c,s)を例として処理を説明する。 The basic idea of the first temporal saliency image generation method is that the above gamma distribution coefficients ρ 1 and ρ 2 are held in a form corresponding to each pixel of each resolution difference image, and the resolution difference at each time point. This is a framework for generating a temporal saliency image while updating the gamma distribution coefficient according to the pixel value of the image. Hereinafter, for the sake of simplicity, the processing will be described by taking a certain (c, s) level luminance resolution difference image RS I (i; c, s) as an example.
まず、輝度解像度差分画像RSI(i;c,s)の各画素(x,y)について、その画素におけるガンマ分布の入力λの推定値であるガンマ分布推定入力係数λI(i)(x,y)を、輝度解像度差分画像における(空間的・時間的双方の意味を含めた)注目画素周辺の画素値及び注目画素に対応するガンマ分布係数ρ1,I(i−1)(x,y),ρ2,I(i−1)(x,y)から導出する。次に、導出されたガンマ分布推定入力係数λI(i)(x,y)を用いてガンマ分布係数ρ1,I(i−1)(x,y),ρ2,I(i−1)(x,y)を以下の(式41)、(式42)ように更新する。 First, for each pixel (x, y) of the luminance resolution difference image RS I (i; c, s), a gamma distribution estimated input coefficient λ I (i) (x , Y) is a pixel value around the target pixel (including both spatial and temporal meanings ) in the luminance resolution difference image and a gamma distribution coefficient ρ 1, I (i−1) (x, y) , ρ 2, I (i-1) Derived from (x, y) . Next, using the derived gamma distribution estimation input coefficient λ I (i) (x, y) , the gamma distribution coefficients ρ 1, I (i−1) (x, y) , ρ 2, I (i−1) ) (X, y) is updated as in the following (Expression 41) and (Expression 42).
ここで、ζ(0<ζ<1)は係数更新における履歴の反映率を表現する係数である。上記の処理により導出されたガンマ分布係数から、輝度成分についての時間方向の顕著性を表す画像である(c,s)レベル輝度時間顕著度画像SPI(i;c,s)を以下のように導出する。 Here, ζ (0 <ζ <1) is a coefficient expressing the reflection rate of the history in coefficient update. From the gamma distribution coefficient derived by the above processing, the (c, s) level luminance time saliency image SP I (i; c, s), which is an image representing the saliency of the luminance component in the time direction, is as follows. To derive.
ここで、D(P‖P’)は確率密度関数PとP’との間のKullback-Liebler divergenceである。また、Ψ(x)はdigamma functionと呼ばれ、以下の(式45)で表される。 Here, D (P‖P ′) is a Kullback-Liebler divergence between the probability density functions P and P ′. Ψ (x) is called a digamma function and is expressed by the following (formula 45).
なお、表記の簡略化のため、輝度成分を表すI及び注目画素を示す(x,y)は省略している。 For simplification of description, I representing the luminance component and (x, y) representing the target pixel are omitted.
このようにして導出された輝度時間顕著度画像SPI(i)と、同様の処理によって導出された色時間顕著度画像SPC(i)・方向時間顕著度画像SPO(i)・点滅時間顕著度画像SPF(i)・運動時間顕著度画像SPM(i)を統合して、時間顕著度画像SP(i)を生成する。具体的には、以下の(式46)〜(式51)のようにして生成する。 The luminance time saliency image SP I (i) derived in this way, the color time saliency image SP C (i), the direction time saliency image SP O (i), and the blinking time derived by the same processing. The temporal saliency image SP (i) is generated by integrating the saliency image SP F (i) and the exercise time saliency image SP M (i). Specifically, it is generated as in the following (Expression 46) to (Expression 51).
これに対し、第2の時間顕著度画像生成方法では、解像度差分画像抽出部13と類似の方法に基づき、時間軸における重み付き差分処理を利用して時間顕著度画像を生成する。
まず、現在及びそれ以前nT時点前までの各種類(輝度・色など)の顕著度画像CMj(i−t)(0≦t≦nT)から、ガウス分布によって重み付けされた時間軸方向の差分処理によって、時間応答画像Tj(i)を(式52)のように算出する。
On the other hand, in the second time saliency image generation method, a time saliency image is generated using weighted difference processing on the time axis based on a method similar to the resolution difference
First, the time axis direction weighted by a Gaussian distribution from the saliency images CM j (it) (0 ≦ t ≦ n T ) of each type (brightness, color, etc.) up to the present time and before n T time points. The time response image T j (i) is calculated as shown in (Equation 52) by the difference processing.
ここで、ησ(t)は、平均0、分散σ2を持つガウス分布の確率密度関数である。上記時間応答画像を統合することで、時間顕著度画像SP(i)を(式53)のように算出する。 Here, η σ (t) is a probability density function of a Gaussian distribution having an average of 0 and a variance of σ 2 . By integrating the time response images, the time saliency image SP (i) is calculated as shown in (Formula 53).
時間顕著度画像二値化部422は、前記時間顕著度画像を入力し、時間顕著度画像を二値化することによって注目度瞬時回復画像を生成し、この注目度瞬時回復画像を出力する。
本実施形態において、時間顕著度画像SP(i)は以下のように二値化され、注目度瞬時回復画像GD2(i)が(式54)のように生成される。
The time saliency
In the present embodiment, the temporal saliency image SP (i) is binarized as follows, and the attention degree instantaneous recovery image GD 2 (i) is generated as shown in (Formula 54).
ここで、θは時間顕著度画像の二値化における閾値であり、予め決められる。 Here, θ is a threshold for binarization of the time saliency image, and is determined in advance.
上記の通り、注目度瞬時回復画像生成部42は、注目度瞬時回復画像GD2(i)を生成し、これを出力する。
As described above, the attention degree instantaneous recovery
注目度漸進抑制画像生成部43は、前記注目度漸進遮蔽画像及び前記注目度瞬時回復画像を入力し、これら画像を統合することにより注目度漸進抑制画像を生成し、この注目度漸進抑制画像を出力する。
本実施形態において、注目度漸進抑制画像GD(i)は、以下の(式55)のようにして得られる。
The attention degree gradual suppression
In the present embodiment, the attention degree progressive suppression image GD (i) is obtained as shown in the following (Expression 55).
漸進抑制後注目度画像生成部44は、前記注目度漸進抑制画像、及び前記基礎注目度画像または前記瞬時抑制後注目度画像を入力し、これら画像を統合することにより漸進抑制後注目度画像を生成し、この漸進抑制後注目度画像を出力する。
漸進抑制後注目度画像の生成方法は、特に限定されるものではないが、本実施形態においては、瞬時抑制後注目度画像SI(i)と注目度漸進抑制画像GD(i)とを統合して、漸進抑制後注目度画像SL(i)を(式56)〜(式57)のように生成する。
The attention level
The method of generating the attention degree image after progressive suppression is not particularly limited, but in the present embodiment, the attention degree attention image S I (i) after instantaneous suppression and the attention degree progressive suppression image GD (i) are integrated. Then, the attention degree image S L (i) after progressive suppression is generated as in (Expression 56) to (Expression 57).
ここで、ωG(i)≧0は注目度漸進抑制画像GD(i)に対する重みを表現する係数である。上記に示すように、注目度瞬時抑制部3の出力する瞬時抑制後注目度画像SI(i)を用いた式を、基礎注目度画像抽出部1の出力する基礎注目度画像S(i)を用いた式により算出することが可能である。ここで、ωI(i)=0のときには、注目度瞬時抑制部3を用いない場合と等価になる。
Here, ω G (i) ≧ 0 is a coefficient expressing the weight for the attention degree progressive suppression image GD (i). As shown above, the basic attention level image S (i) output from the basic attention level
上記の通り、注目度漸進抑制部4は、前記漸進抑制後注目度画像を抽出し、これを出力する。
As described above, the attention degree
注目度映像出力部5は、前記基礎注目度画像抽出部1〜注目度漸進抑制部4を、各入力画像に対して順に繰り返して実行することにより抽出された前記漸進抑制後注目度画像の時系列である漸進抑制後注目度映像を抽出し、これを注目度映像として出力する。
The attention level
図4は、本実施形態の動作例を示す。同図において、(a)は入力画像、(b)は注目度漸進抑制画像、(c)は漸進抑制後注目度画像であり、それぞれ左から時系列順に整列している。 FIG. 4 shows an operation example of this embodiment. In the figure, (a) is an input image, (b) is an attention degree progressive suppression image, and (c) is a progressive suppression attention degree image, which are arranged in chronological order from the left.
[第3の実施形態]
図5は、本発明の第3の実施形態による注目領域抽出装置の機能ブロック図である。
本実施形態に示す注目領域抽出装置は、基礎注目度画像抽出部1と、顕著度画像統合比率算出部2と、注目度瞬時抑制部3と、注目度漸進抑制部4と、注目度映像出力部5とで構成され、注目度抽出の対象となる入力映像を入力し、入力画像の中で注目度の高い領域を表示した映像である注目度映像を出力する。同図において、第1、第2の実施形態と同様の構成は同じ符号を付し、説明を省略する。基礎注目度画像抽出部1、注目度瞬時抑制部3、注目度漸進抑制部4、及び注目度映像出力部5は、第1もしくは第2の実施形態と同様である。
[Third Embodiment]
FIG. 5 is a functional block diagram of the attention area extracting apparatus according to the third embodiment of the present invention.
The attention area extraction apparatus shown in the present embodiment includes a basic attention level
顕著度画像統合比率算出部2は、それぞれ現在の入力画像から抽出された前記顕著度画像の集合及び前記基礎注目度画像を入力し、前記基礎注目度画像から最大基礎注目度領域を抽出する。そして、各顕著度画像について抽出した最大基礎注目度領域に対応する領域の中の値を算出し、その値の大きさから、対応する顕著度画像の重みである顕著度画像統合比率を決定し、その顕著度画像統合比率の集合を出力する。
The saliency image integration
顕著度画像統合比率の計算方法は、特に限定されるものではないが、本実施形態においては、V. Navalpakkam and L. Itti: "Optimal cue selection strategy," in Advances in Neural Information Processing Systems (NIPS), pp.987-994, December 2005.(非特許文献6)に記載の方法に基づき、最大基礎注目度領域における各顕著度画像の画素値を用いて顕著度画像統合比率を逐次更新していく。 The calculation method of the saliency image integration ratio is not particularly limited. In this embodiment, V. Navalpakkam and L. Itti: “Optimal cue selection strategy,” in Advances in Neural Information Processing Systems (NIPS). , pp.987-994, December 2005. (Non-Patent Document 6), the saliency image integration ratio is sequentially updated using the pixel value of each saliency image in the maximum basic attention level region. .
1時点前の入力画像を用いた本処理部における処理により、各顕著度画像CMj(i−1)(j=I,C,O,F,M)に対応する顕著度画像統合比率wj(i−1)が既に得られているものとする。まず、基礎注目度画像S(i)から最大基礎注目度領域MSR(i)を抽出する。抽出方法は、前述の最大基礎注目度領域検出部31における抽出方法と同様である。次に、各顕著度画像CMj(i)に対応する顕著度画像統合比率wj(i)を、以下のように決定する。
The saliency image integration ratio w j corresponding to each saliency image CM j (i−1) (j = I, C, O, F, M) is obtained by the processing in this processing unit using the input image one point before. It is assumed that (i-1) has already been obtained. First, the maximum basic attention level region MSR (i) is extracted from the basic attention level image S (i). The extraction method is the same as the extraction method in the maximum basic attention level
ここで、δは重み更新における履歴の反映比率を与える定数である。 Here, δ is a constant that gives the reflection ratio of the history in the weight update.
続いて、本発明の実施形態を用いた実験データを以下に示す。
入力映像として、大きさ640×480ピクセル、長さ8〜15秒の映像6種類を用意した。また、各実施形態に示した記号の実際の数値として、以下の値を用いた。
Subsequently, experimental data using the embodiment of the present invention is shown below.
As input images, six types of images having a size of 640 × 480 pixels and a length of 8 to 15 seconds were prepared. Moreover, the following values were used as actual numerical values of the symbols shown in each embodiment.
nφ=4, nF=3, σ=1.25, nl=8, Lc={2,3,4}, Ls={c+3,c+4}(c∈LC), nA=32×24=768, ε=25, μ=1.0, tI=10, α=1/tI=0.1, β=0.0025, tT=8, θ=0.25max(x,y)SP(i)(x,y), δ=0.1 n φ = 4, n F = 3, σ = 1.25, n l = 8, L c = {2, 3, 4}, L s = {c + 3, c + 4} (c∈L C ), n A = 32 × 24 = 768, ε = 25, μ = 1.0, t I = 10, α = 1 / t I = 0.1, β = 0.0025, t T = 8, θ = 0.25max (x , Y) SP (i) (x, y) , δ = 0.1
本発明の効果を確認するため、本発明の実施形態及び既知の方法によって得られる注目度映像がどの程度人間の視覚特性を模擬できているかを比較した。人間の視覚特性を表現する数量として、人間が実際に入力映像を見ている際の視線の位置を採用した。5名の被験者に入力映像を提示し、既存の視線測定装置を用いて各被験者の入力映像中の注視位置を逐次測定した。各被験者について、1種類の入力映像を2回提示した。これにより、各被験者・各入力映像について、注視位置の時系列を2本獲得した。この注視位置の時系列を、時刻の整合性を保ちながら入力映像の各フレーム(すなわち入力画像)に対応付けることで、各被験者・各入力画像について2通りの注視位置を獲得した。 In order to confirm the effect of the present invention, the degree of attention video obtained by the embodiment of the present invention and a known method was compared with how much human visual characteristics could be simulated. As the quantity that expresses human visual characteristics, the position of the line of sight when humans are actually watching the input video is adopted. The input video was presented to five subjects, and the gaze position in the input video of each subject was sequentially measured using an existing gaze measurement device. For each subject, one type of input video was presented twice. As a result, two time series of gaze positions were obtained for each subject and each input video. By associating the time series of the gaze position with each frame (that is, the input image) of the input video while maintaining time consistency, two gaze positions were obtained for each subject and each input image.
人間の視覚特性を模擬できているかどうかの評価尺度として、被験者の注視位置における注目度を採用した。本発明の方法もしくは既知の方法により入力映像から抽出した注目度映像について、入力画像IN(i;k)(k=1,2,…,6:映像の種類に対応)に対応する注目度映像のフレームである注目度画像SF(i;k)を考える。本発明の第1の実施形態においては瞬時抑制後注目度画像が注目度画像と等しい、すなわちSF(i;k)=SI(i;k)であり、本発明の第2の実施形態においては漸進抑制後注目度画像が注目度画像と等しい、すなわちSF(i;k)=SI(i;k)である。入力画像IN(n;k)における被験者n(n=1,2,…,5)の注視位置を(x(i;k,n),y(i;k,n))と表記するとき、被験者nを「教師」とする注目度画像SF(i;k)の評価値V(i;k,n)を以下の(式60)で定めた。 The degree of attention at the gaze position of the subject was adopted as an evaluation scale for whether or not human visual characteristics could be simulated. Attention level video corresponding to the input image IN (i; k) (k = 1, 2,..., 6: corresponding to the type of video) of the attention level video extracted from the input video by the method of the present invention or a known method. Consider the attention degree image S F (i; k) which is a frame of In the first embodiment of the present invention, the attention-suppressed attention level image is equal to the attention level image, that is, S F (i; k) = S I (i; k), and the second embodiment of the present invention. , The attention degree image after progressive suppression is equal to the attention degree image, that is, S F (i; k) = S I (i; k). When the gaze position of the subject n (n = 1, 2,..., 5) in the input image IN (n; k) is expressed as (x (i; k, n), y (i; k, n)), The evaluation value V (i; k, n) of the attention degree image S F (i; k) with the subject n as “teacher” was determined by the following (formula 60).
上記(式60)の右辺において、分母は、注目度画像を正規化するために付与されている。注目度映像{SF(i;k)}iの評価値V(k)は、(式61)に示すように、各注目度画像についての評価値を総計し、さらに被験者について平均を取ることで得る。nEは被験者の数(すなわち、本評価例においては「5」)である。 On the right side of (Equation 60), the denominator is given to normalize the attention level image. Attention level image {S F (i; k)} The evaluation value V (k) of i is the sum of the evaluation values for each attention level image, as shown in (Equation 61), and further takes the average for the subjects. Get in. n E is the number of subjects (that is, “5” in this evaluation example).
上記の評価値により、本発明の第1〜第3の実施形態による方法と既知の方法とを比較した。既知の方法として、非特許文献1に記載の方法、及び非特許文献2に記載の方法を用いた。図6は、非特許文献1に記載の方法、非特許文献2に記載の方法、第1の実施形態による方法(本発明の実施形態1)、第2の実施形態による方法(本発明の実施形態2)、第3の実施形態による方法(本発明の実施形態3)を用いた場合の入力映像(Video1〜6)ごとの評価値(図中ではNETR Value)を比較したグラフ、図7に各方法毎に全入力映像について平均を取った評価値を比較したグラフを示す。図7では、左から非特許文献1に記載の方法(Still image algorithm)、非特許文献2に記載の方法(Moving algorithm)、第1の実施形態による方法(Case 1)、第2の実施形態による方法(Case 2)、第3の実施形態による方法(Case 3)の平均評価値を示している。ここで、本発明の第1〜第3の実施形態による方法では、漸進抑制後注目度画像生成部44に注目した、3通りの設定について評価している。第1の設定(図中、本発明の第1の実施形態による方法)では、漸進抑制後注目度画像生成部44において(ωI(i),ωG(i))=(1,0)∀iとした。第2の設定(図中、本発明の第2の実施形態による方法)では、漸進抑制後注目度画像生成部44において(ωI(i),ωG(i))=(0,1)∀iとした。第3の設定(図中、本発明の第3の実施形態による方法)では、漸進抑制後注目度画像生成部44において(ωI(i),ωG(i))=(1,1)∀iとした。図7からわかるように、入力映像について平均したときに、本発明の第2の実施形態の設定が最も良い評価値を示した。また、図6からわかるように、本発明の第2の実施形態の設定は、いずれの入力映像についてもその他の方法を上回る評価値を示した。さらに、図6からわかるように、本発明の第1の及び第3の実施形態の設定は、いくつかの入力映像について既知の方法を上回る評価値を示した。
Based on the above evaluation values, the methods according to the first to third embodiments of the present invention were compared with known methods. As a known method, the method described in
なお、上述の注目領域抽出装置は、内部にコンピュータシステムを有している。そして、注目領域抽出装置の基礎注目度画像抽出部1、顕著度画像統合比率算出部2、注目度瞬時抑制部3、注目度漸進抑制部4、及び、注目度映像出力部5の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
Note that the attention area extraction apparatus described above has a computer system therein. The basic attention level
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.
1…基礎注目度画像抽出部
11…基礎特徴画像抽出部
111…輝度特徴画像抽出部
112…色特徴画像抽出部
113…方向特徴画像抽出部
114…点滅特徴画像抽出部
115…運動特徴画像抽出部
12…多重解像度画像抽出部
13…解像度差分画像抽出部
14…顕著度画像抽出部
141…解像度差分画像正規化部
142…正規化解像度差分画像積算部
15…顕著度画像統合部
2…顕著度画像統合比率算出部
3…注目度瞬時抑制部
31…最大基礎注目度領域検出部
32…最大基礎注目度領域遮蔽画像抽出部
33…注目度漸進回復画像抽出部
34…注目度瞬時抑制画像生成部
35…瞬時抑制後注目度画像生成部
4…注目度漸進抑制部
41…注目度漸進遮蔽画像生成部
42…注目度瞬時回復画像生成部
43…注目度漸進抑制画像生成部
44…漸進抑制後注目度画像生成部
5…注目度映像出力部
DESCRIPTION OF
Claims (9)
入力映像を構成するあるフレームから、当該フレームの中で顕著な特性を持つ空間領域を表示した画像である基礎注目度画像を抽出する基礎注目度画像抽出過程と、
前記基礎注目度画像抽出過程により前記入力映像の現在より1つ前のフレームから抽出された基礎注目度画像において、各画素の値である基礎注目度が最も大きい領域である最大基礎注目度領域を、前記基礎注目度画像抽出過程により前記入力映像の現在フレームから抽出された基礎注目度画像において抑制することにより、瞬時抑制後注目度画像を抽出する注目度瞬時抑制過程、
または、
前記入力映像の現在のフレーム以前のいくつかのフレームから算出された基礎注目度画像について、時間軸方向で顕著な値を持つ領域を抽出し、前記基礎注目度画像抽出過程により前記入力映像の当該フレームから抽出された基礎注目度画像、または、前記注目度瞬時抑制過程により前記入力映像の当該フレームから抽出された瞬時遷移注目度画像において、抽出した前記領域を強調するとともに他の領域を抑制することにより、漸進抑制後注目度画像を抽出する注目度漸進抑制過程
の一方、または、両方の過程と、
前記基礎注目度画像抽出過程と、注目度瞬時抑制過程または注目度漸進抑制過程の一方または両方の過程とを、前記入力映像の各フレームに対して順に繰り返して実行することにより、前記瞬時抑制後注目度画像または前記漸進抑制後注目度画像の時系列である漸進抑制後注目度映像を抽出し、これを注目度映像として出力する注目度映像出力過程と
を有することを特徴とする注目領域抽出方法。 A region-of-interest extraction method for extracting an attention level image, which is a video that displays a spatio-temporal region having remarkable characteristics in the input image, from a target input image,
A basic attention level image extraction process for extracting a basic attention level image, which is an image displaying a spatial region having a remarkable characteristic in the frame from a certain frame constituting the input video;
In the basic attention level image extracted from the previous frame of the input video by the basic attention level image extraction process, a maximum basic attention level area that is the area where the basic attention level that is the value of each pixel is the largest The attention degree instantaneous suppression process of extracting the attention degree image after instantaneous suppression by suppressing the basic attention degree image extracted from the current frame of the input video by the basic attention degree image extraction process;
Or
An area having a remarkable value in the time axis direction is extracted from the basic attention image calculated from several frames before the current frame of the input video, and the input video of the input video is extracted by the basic attention image extraction process. In the basic attention level image extracted from the frame or the instantaneous transition attention level image extracted from the frame of the input video by the attention level instantaneous suppression process, the extracted region is emphasized and other regions are suppressed. Thus, one or both of the attention degree gradual suppression processes for extracting the attention degree image after gradual suppression,
By repeatedly executing the basic attention level image extraction process and one or both of the attention level instantaneous suppression process and the attention level gradual suppression process sequentially for each frame of the input video, Attention area extraction characterized by comprising: an attention level image or a time series of attention level images after progressive suppression, which is a time series of the attention level image after progressive suppression, and an attention level video output process of outputting this as attention level video Method.
前記入力映像のあるフレームから、基礎特徴画像を複数種類抽出する基礎特徴画像抽出過程と、
前記基礎特徴画像抽出過程により抽出された基礎特徴画像の各種類について、その多重解像度表現である多重解像度画像を抽出する多重解像度画像抽出過程と、
前記多重解像度画像抽出過程により抽出された多重解像度画像の各種類について、解像度の異なる画像の間の差分である解像度差分画像を複数抽出する解像度差分画像抽出過程と、
前記解像度差分画像抽出過程により抽出された解像度差分画像の各種類について、解像度の異なる解像度差分画像を統合することにより、顕著度画像を抽出する顕著度画像抽出過程と、
前記顕著度画像抽出過程により抽出された顕著度画像について、複数種類の顕著度画像を統合することにより、基礎注目度画像を抽出する顕著度画像統合過程とからなり、
前記注目度漸進抑制過程は、基礎注目度画像に代えて漸進抑制画像を用いて顕著度画像を抽出する
ことを特徴とする請求項1に記載の注目領域抽出方法。 The basic attention degree image extraction process includes:
A basic feature image extraction process for extracting a plurality of types of basic feature images from a frame of the input video;
For each type of basic feature image extracted by the basic feature image extraction process, a multi-resolution image extraction process for extracting a multi-resolution image that is a multi-resolution expression;
A resolution difference image extraction step of extracting a plurality of resolution difference images, which are differences between images of different resolutions, for each type of the multi-resolution image extracted by the multi-resolution image extraction step;
For each type of resolution difference image extracted by the resolution difference image extraction process, a saliency image extraction process for extracting a saliency image by integrating resolution difference images with different resolutions;
The saliency image extracted by the saliency image extraction process consists of a saliency image integration process for extracting a basic attention image by integrating a plurality of types of saliency images,
The attention area extraction method according to claim 1, wherein the attention degree gradual suppression process extracts a saliency image using a gradual suppression image instead of the basic attention degree image.
前記基礎注目度画像抽出過程により抽出された基礎注目度画像から前記最大基礎注目度領域を抽出し、複数種類の顕著度画像について前記最大基礎注目度領域に対応する領域の中の値を算出し、その値の大きさから、対応する顕著度画像の重みである顕著度画像統合比率を決定する顕著度画像統合比率算出過程と
を有し、
前記基礎注目度画像抽出過程は、前記入力映像の1つ前のフレームについて前記顕著度画像統合比率算出過程により算出された顕著度画像統合比率によって顕著度画像を重み付けして統合することにより、基礎注目度画像を抽出する
ことを特徴とする請求項1または請求項2に記載の注目領域抽出方法。 further,
The maximum basic attention level region is extracted from the basic attention level image extracted by the basic attention level image extraction process, and a value in a region corresponding to the maximum basic attention level region is calculated for a plurality of types of saliency images. A saliency image integration ratio calculation process for determining a saliency image integration ratio that is a weight of the corresponding saliency image from the magnitude of the value, and
In the basic attention level image extraction process, the saliency image is weighted and integrated by the saliency image integration ratio calculated by the saliency image integration ratio calculation process for the previous frame of the input video, thereby integrating the basic attention level image. The attention area extraction method according to claim 1 or 2, wherein an attention degree image is extracted.
前記入力映像の1つの前のフレームについて算出された前記顕著度画像統合比率を初期値とし、各顕著度画像について算出された前記最大基礎注目度領域の中の値を当該初期値に対しての差分値として新たな顕著度画像統合比率を更新する
ことを特徴とする請求項3に記載の注目領域抽出方法。 The saliency image integration ratio calculation process includes:
The saliency image integration ratio calculated for one previous frame of the input video is set as an initial value, and the value in the maximum basic attention area calculated for each saliency image is calculated with respect to the initial value. The attention area extraction method according to claim 3, wherein a new saliency image integration ratio is updated as a difference value.
前記基礎注目度画像抽出過程により前記入力映像の現在より1つ前のフレームから抽出された基礎注目度画像から前記最大基礎注目度領域を抽出する最大基礎注目度領域検出過程と、
前記最大基礎注目度領域検出過程により抽出された前記最大基礎注目度領域を遮蔽する画像である最大基礎注目度領域遮蔽画像を抽出する最大基礎注目度領域遮蔽画像抽出過程と、
前記最大基礎注目度領域遮蔽画像抽出過程により抽出された最大基礎注目度領域遮蔽画像によって遮蔽されている領域について、その領域における遮蔽を低減する画像である注目度漸進回復画像を抽出する注目度漸進回復画像抽出過程と、
前記最大基礎注目度領域遮蔽画像抽出過程により抽出された最大基礎注目度領域遮蔽画像、及び、前記注目度漸進回復画像抽出過程により抽出された注目度漸進回復画像を統合することにより注目度瞬時抑制画像を生成する注目度瞬時抑制画像生成過程と、
前記注目度瞬時抑制画像生成過程により生成された注目度瞬時抑制画像、及び、基礎注目度画像抽出過程により抽出された前記入力映像の現在のフレームの基礎注目度画像を統合することにより瞬時抑制後注目度画像を生成する瞬時抑制後注目度画像生成過程とからなる
ことを特徴とする請求項1から請求項4のいずれかの項に記載の注目領域抽出方法。 The attention degree instantaneous suppression process is:
A maximum basic attention area detection process for extracting the maximum basic attention area from a basic attention image extracted from a previous frame of the input video by the basic attention image extraction process;
A maximum basic attention area occlusion image extraction process for extracting a maximum basic attention area occlusion image that is an image that occludes the maximum basic attention area extracted by the maximum basic attention area detection process;
Attention gradual extraction for extracting an attention degree progressive recovery image that is an image that reduces occluding in the maximum basic attention degree area occlusion image extracted by the maximum basic attention degree area occlusion image extraction process Recovery image extraction process,
Instantaneous attention level suppression by integrating the maximum basic attention level region occlusion image extracted by the maximum basic attention level region occlusion image extraction process and the attention level progressive recovery image extracted by the attention level progressive recovery image extraction process Attention level instantaneous suppression image generation process to generate an image,
After instantaneous suppression by integrating the instantaneous attention suppressed image generated by the attention instantaneous suppression image generation process and the basic attention image of the current frame of the input video extracted by the basic attention image extraction process The attention area extracting method according to any one of claims 1 to 4, further comprising: an attention degree image generation process after instantaneous suppression that generates an attention degree image.
前記基礎注目度画像抽出過程により抽出された基礎注目度画像を漸進的に遮蔽する画像である注目度漸進遮蔽画像を生成する注目度漸進遮蔽画像生成過程と、
前記入力映像の現在のフレーム以前のいくつかのフレームから算出された基礎注目度画像もしくは顕著度画像について、時間軸方向で顕著な値を持つ領域を抽出し、その領域に対応する前記基礎注目度画像もしくは前記瞬時抑制後注目度画像における領域の基礎注目度の抑制を解除させる画像である注目度瞬時回復画像を生成する注目度瞬時回復画像生成過程と、
前記注目度漸進遮蔽画像生成過程により生成された注目度漸進遮蔽画像、及び、前記注目度瞬時回復画像生成過程により生成された注目度瞬時回復画像を統合することにより注目度漸進抑制画像を生成する注目度漸進抑制画像生成過程と、
前記基礎注目度画像抽出過程により抽出された基礎注目度画像、もしくは、前記注目度瞬時抑制過程により抽出された瞬時抑制後注目度画像と、前記注目度漸進抑制画像生成過程に生成された注目度漸進抑制画像とを統合することにより漸進抑制後注目度画像を生成する漸進抑制後注目度画像生成過程とからなる
ことを特徴とする請求項1から請求項5のいずれかに記載の注目領域抽出方法。 The attention degree gradual suppression process is:
Attention degree progressive occlusion image generation process for generating an attention degree progressive occlusion image that is an image that gradually occludes the basic attention degree image extracted by the basic attention degree image extraction process;
For a basic attention level image or saliency image calculated from several frames before the current frame of the input video, an area having a remarkable value in the time axis direction is extracted, and the basic attention level corresponding to the area is extracted. Attention degree instantaneous recovery image generation process for generating an attention degree instantaneous recovery image that is an image or an image for canceling the suppression of the basic attention degree of the area in the attention degree image after instantaneous suppression;
The attention degree progressive occlusion image generated by the attention degree progressive occlusion image generation process and the attention degree instantaneous recovery image generated by the attention degree instantaneous recovery image generation process are integrated to generate an attention degree progressive suppression image. Attention level progressive suppression image generation process,
The basic attention degree image extracted by the basic attention degree image extraction process, or the instantaneous attention degree image extracted by the attention degree instantaneous suppression process, and the attention degree generated in the attention degree gradual suppression image generation process The attention area extraction according to any one of claims 1 to 5, comprising a step of generating a post-progression attention level image by integrating a progressive suppression image and integrating the progressive suppression image. Method.
入力映像を構成するあるフレームから、当該フレームの中で顕著な特性を持つ空間領域を表示した画像である基礎注目度画像を抽出する基礎注目度画像抽出部と、
前記基礎注目度画像抽出部により前記入力映像の現在より1つ前のフレームから抽出された基礎注目度画像において、各画素の値である基礎注目度が最も大きい領域である最大基礎注目度領域を、前記基礎注目度画像抽出部により前記入力映像の現在フレームから抽出された基礎注目度画像において抑制することにより、瞬時抑制後注目度画像を抽出する注目度瞬時抑制部、
または、
前記入力映像の現在のフレーム以前のいくつかのフレームから算出された基礎注目度画像について、時間軸方向で顕著な値を持つ領域を抽出し、前記基礎注目度画像抽出部により前記入力映像の当該フレームから抽出された基礎注目度画像、または、前記注目度瞬時抑制部により前記入力映像の当該フレームから抽出された瞬時遷移注目度画像において、抽出した前記領域を強調するとともに他の領域を抑制することにより、漸進抑制後注目度画像を抽出する注目度漸進抑制部
の一方、または、両方と、
前記入力映像の各フレームに対して、注目度瞬時抑制部が抽出した前記瞬時抑制後注目度画像、または、前記注目度漸進抑制部が抽出した前記漸進抑制後注目度画像の時系列である漸進抑制後注目度映像を抽出し、これを注目度映像として出力する注目度映像出力部と
を備えることを特徴とする注目領域抽出装置。 An attention area extraction device that extracts an attention degree image, which is an image displaying a spatio-temporal region having a remarkable characteristic in the input image, from a target input image,
A basic attention level image extraction unit that extracts a basic attention level image, which is an image displaying a spatial region having remarkable characteristics in the frame, from a certain frame constituting the input video;
In the basic attention level image extracted from the previous frame of the input video by the basic attention level image extraction unit, the maximum basic attention level area that is the area where the basic attention level that is the value of each pixel is the largest An attention level instantaneous suppression unit that extracts an attention level image after instantaneous suppression by suppressing the basic attention level image extracted from the current frame of the input video by the basic attention level image extraction unit,
Or
A region having a remarkable value in the time axis direction is extracted from the basic attention image calculated from several frames before the current frame of the input video, and the basic attention image extraction unit extracts the region of the input video. In the basic attention level image extracted from the frame or the instantaneous transition attention level image extracted from the frame of the input video by the attention level instantaneous suppression unit, the extracted region is emphasized and other regions are suppressed. Thus, one or both of the degree-of-interest gradual suppression units for extracting the degree-of-interest attention level image,
For each frame of the input video, the attention level image after instantaneous suppression extracted by the attention level instantaneous suppression unit or the time series of the attention level image after progressive suppression extracted by the attention level progressive suppression unit An attention area extracting apparatus comprising: an attention degree video output unit that extracts an attention degree video after suppression and outputs the attention degree video as the attention degree video.
入力映像を構成するあるフレームから、当該フレームの中で顕著な特性を持つ空間領域を表示した画像である基礎注目度画像を抽出する基礎注目度画像抽出過程と、
前記基礎注目度画像抽出過程により前記入力映像の現在より1つ前のフレームから抽出された基礎注目度画像において、各画素の値である基礎注目度が最も大きい領域である最大基礎注目度領域を、前記基礎注目度画像抽出過程により前記入力映像の現在フレームから抽出された基礎注目度画像において抑制することにより、瞬時抑制後注目度画像を抽出する注目度瞬時抑制過程、
または、
前記入力映像の現在のフレーム以前のいくつかのフレームから算出された基礎注目度画像について、時間軸方向で顕著な値を持つ領域を抽出し、前記基礎注目度画像抽出過程により前記入力映像の当該フレームから抽出された基礎注目度画像、または、前記注目度瞬時抑制過程により前記入力映像の当該フレームから抽出された瞬時遷移注目度画像において、抽出した前記領域を強調するとともに他の領域を抑制することにより、漸進抑制後注目度画像を抽出する注目度漸進抑制過程
の一方、または、両方の過程と、
前記基礎注目度画像抽出過程と、注目度瞬時抑制過程または注目度漸進抑制過程の一方または両方の過程とを、前記入力映像の各フレームに対して順に繰り返して実行することにより、前記瞬時抑制後注目度画像または前記漸進抑制後注目度画像の時系列である漸進抑制後注目度映像を抽出し、これを注目度映像として出力する注目度映像出力過程と
を実行させることを特徴とするコンピュータプログラム。 From a target input video, to a computer used as a region of interest extraction device that extracts a video of attention level, which is a video displaying a spatio-temporal region with remarkable characteristics in the input video,
A basic attention level image extraction process for extracting a basic attention level image, which is an image displaying a spatial region having a remarkable characteristic in the frame from a certain frame constituting the input video;
In the basic attention level image extracted from the previous frame of the input video by the basic attention level image extraction process, a maximum basic attention level area that is the area where the basic attention level that is the value of each pixel is the largest The attention degree instantaneous suppression process of extracting the attention degree image after instantaneous suppression by suppressing the basic attention degree image extracted from the current frame of the input video by the basic attention degree image extraction process;
Or
An area having a remarkable value in the time axis direction is extracted from the basic attention image calculated from several frames before the current frame of the input video, and the input video of the input video is extracted by the basic attention image extraction process. In the basic attention level image extracted from the frame or the instantaneous transition attention level image extracted from the frame of the input video by the attention level instantaneous suppression process, the extracted region is emphasized and other regions are suppressed. Thus, one or both of the attention degree gradual suppression processes for extracting the attention degree image after gradual suppression,
By repeatedly executing the basic attention level image extraction process and one or both of the attention level instantaneous suppression process and the attention level gradual suppression process sequentially for each frame of the input video, A computer program that extracts an attention level image or a time series of attention level images after progressive suppression that is a time series of the attention level image after progressive suppression and outputs the attention level image as an attention level image. .
入力映像を構成するあるフレームから、当該フレームの中で顕著な特性を持つ空間領域を表示した画像である基礎注目度画像を抽出する基礎注目度画像抽出過程と、
前記基礎注目度画像抽出過程により前記入力映像の現在より1つ前のフレームから抽出された基礎注目度画像において、各画素の値である基礎注目度が最も大きい領域である最大基礎注目度領域を、前記基礎注目度画像抽出過程により前記入力映像の現在フレームから抽出された基礎注目度画像において抑制することにより、瞬時抑制後注目度画像を抽出する注目度瞬時抑制過程、
または、
前記入力映像の現在のフレーム以前のいくつかのフレームから算出された基礎注目度画像について、時間軸方向で顕著な値を持つ領域を抽出し、前記基礎注目度画像抽出過程により前記入力映像の当該フレームから抽出された基礎注目度画像、または、前記注目度瞬時抑制過程により前記入力映像の当該フレームから抽出された瞬時遷移注目度画像において、抽出した前記領域を強調するとともに他の領域を抑制することにより、漸進抑制後注目度画像を抽出する注目度漸進抑制過程
の一方、または、両方の過程と、
前記基礎注目度画像抽出過程と、注目度瞬時抑制過程または注目度漸進抑制過程の一方または両方の過程とを、前記入力映像の各フレームに対して順に繰り返して実行することにより、前記瞬時抑制後注目度画像または前記漸進抑制後注目度画像の時系列である漸進抑制後注目度映像を抽出し、これを注目度映像として出力する注目度映像出力過程と
を実行させるコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体。 From a target input video, to a computer used as a region of interest extraction device that extracts a video of attention level, which is a video displaying a spatio-temporal region with remarkable characteristics in the input video,
A basic attention level image extraction process for extracting a basic attention level image, which is an image displaying a spatial region having a remarkable characteristic in the frame from a certain frame constituting the input video;
In the basic attention level image extracted from the previous frame of the input video by the basic attention level image extraction process, a maximum basic attention level area that is the area where the basic attention level that is the value of each pixel is the largest The attention degree instantaneous suppression process of extracting the attention degree image after instantaneous suppression by suppressing the basic attention degree image extracted from the current frame of the input video by the basic attention degree image extraction process;
Or
An area having a remarkable value in the time axis direction is extracted from the basic attention image calculated from several frames before the current frame of the input video, and the input video of the input video is extracted by the basic attention image extraction process. In the basic attention level image extracted from the frame or the instantaneous transition attention level image extracted from the frame of the input video by the attention level instantaneous suppression process, the extracted region is emphasized and other regions are suppressed. Thus, one or both of the attention degree gradual suppression processes for extracting the attention degree image after gradual suppression,
By repeatedly executing the basic attention level image extraction process and one or both of the attention level instantaneous suppression process and the attention level gradual suppression process sequentially for each frame of the input video, A computer-readable recording of a computer program for extracting an attention level image or a time series of attention level images after progressive suppression, which is a time series of the attention level image after progressive suppression, and outputting the attention level image as an attention level image Possible recording media.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007162477A JP4750758B2 (en) | 2007-06-20 | 2007-06-20 | Attention area extraction method, attention area extraction device, computer program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007162477A JP4750758B2 (en) | 2007-06-20 | 2007-06-20 | Attention area extraction method, attention area extraction device, computer program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009003615A JP2009003615A (en) | 2009-01-08 |
JP4750758B2 true JP4750758B2 (en) | 2011-08-17 |
Family
ID=40319955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007162477A Expired - Fee Related JP4750758B2 (en) | 2007-06-20 | 2007-06-20 | Attention area extraction method, attention area extraction device, computer program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4750758B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5235770B2 (en) * | 2009-04-27 | 2013-07-10 | 日本電信電話株式会社 | Striking area image generation method, saliency area image generation apparatus, program, and recording medium |
CN101950362B (en) * | 2010-09-14 | 2013-01-09 | 武汉大学 | Analytical system for attention of video signal |
JP6318451B2 (en) * | 2014-05-27 | 2018-05-09 | 日本電信電話株式会社 | Saliency image generating apparatus, method, and program |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2370438A (en) * | 2000-12-22 | 2002-06-26 | Hewlett Packard Co | Automated image cropping using selected compositional rules. |
US20020154833A1 (en) * | 2001-03-08 | 2002-10-24 | Christof Koch | Computation of intrinsic perceptual saliency in visual environments, and applications |
US20050047647A1 (en) * | 2003-06-10 | 2005-03-03 | Ueli Rutishauser | System and method for attentional selection |
JP4277081B2 (en) * | 2004-03-17 | 2009-06-10 | 株式会社デンソー | Driving assistance device |
GB2415562B (en) * | 2004-06-23 | 2007-11-21 | Hewlett Packard Development Co | Image processing |
US20070201749A1 (en) * | 2005-02-07 | 2007-08-30 | Masaki Yamauchi | Image Processing Device And Image Processing Method |
-
2007
- 2007-06-20 JP JP2007162477A patent/JP4750758B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009003615A (en) | 2009-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109076198B (en) | Video-based object tracking occlusion detection system, method and equipment | |
CN108351961B (en) | Biological recognition system and computer implemented method based on image | |
JP6798183B2 (en) | Image analyzer, image analysis method and program | |
CN111274928B (en) | Living body detection method and device, electronic equipment and storage medium | |
US20130335635A1 (en) | Video Analysis Based on Sparse Registration and Multiple Domain Tracking | |
WO2009113231A1 (en) | Image processing device and image processing method | |
CN105243395B (en) | A kind of human body image comparison method and device | |
JP4597391B2 (en) | Facial region detection apparatus and method, and computer-readable recording medium | |
Nguyen et al. | Static hand gesture recognition using artificial neural network | |
CN109982036A (en) | A kind of method, terminal and the storage medium of panoramic video data processing | |
CN113298047B (en) | 3D form and posture estimation method and device based on space-time correlation image | |
Urabe et al. | Cooking activities recognition in egocentric videos using combining 2DCNN and 3DCNN | |
KR20220015964A (en) | Methods and systems for restoration of lost image features for visual odometry applications | |
US10791321B2 (en) | Constructing a user's face model using particle filters | |
Rahul et al. | Siamese network for underwater multiple object tracking | |
JP4750758B2 (en) | Attention area extraction method, attention area extraction device, computer program, and recording medium | |
Ghanbari et al. | Contour-based video inpainting | |
CN109829415A (en) | Gender identification method, device, medium and equipment based on depth residual error network | |
Lahasan et al. | Recognizing faces prone to occlusions and common variations using optimal face subgraphs | |
JP5639033B2 (en) | Image processing method, image processing apparatus, and image processing program | |
Aparna | Swarm intelligence for automatic video image contrast adjustment | |
US20220157016A1 (en) | System and method for automatically reconstructing 3d model of an object using machine learning model | |
Mittal et al. | GOTCHA: Real-time video deepfake detection via challenge-response | |
JP2011150594A (en) | Image processor and image processing method, and program | |
JP2004157778A (en) | Nose position extraction method, program for operating it on computer, and nose position extraction device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090717 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110510 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110519 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140527 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |