JP6318451B2 - Saliency image generating apparatus, method, and program - Google Patents

Saliency image generating apparatus, method, and program Download PDF

Info

Publication number
JP6318451B2
JP6318451B2 JP2014265444A JP2014265444A JP6318451B2 JP 6318451 B2 JP6318451 B2 JP 6318451B2 JP 2014265444 A JP2014265444 A JP 2014265444A JP 2014265444 A JP2014265444 A JP 2014265444A JP 6318451 B2 JP6318451 B2 JP 6318451B2
Authority
JP
Japan
Prior art keywords
image
saliency
basic
time
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014265444A
Other languages
Japanese (ja)
Other versions
JP2016006478A (en
Inventor
昭悟 木村
昭悟 木村
柏野 邦夫
邦夫 柏野
次郎 中島
次郎 中島
晃宏 杉本
晃宏 杉本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Inter University Research Institute Corp Research Organization of Information and Systems
Original Assignee
Nippon Telegraph and Telephone Corp
Inter University Research Institute Corp Research Organization of Information and Systems
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Inter University Research Institute Corp Research Organization of Information and Systems filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014265444A priority Critical patent/JP6318451B2/en
Publication of JP2016006478A publication Critical patent/JP2016006478A/en
Application granted granted Critical
Publication of JP6318451B2 publication Critical patent/JP6318451B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、顕著度画像生成装置、方法、及びプログラムに係り、特に、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成する顕著度画像生成装置、方法、及びプログラムに関する。   The present invention relates to a saliency image generating apparatus, method, and program, and in particular, a saliency image generating apparatus, method, and program for generating a saliency image indicating saliency at each position of an input image of a frame at each time. About.

人間は、視覚的注意と呼ばれるメカニズムにより、網膜に写る映像の中から重要と思われる情報を瞬時に判断して、効率的に情報を獲得している。これら人間の知覚特性を計算機上に模擬するとことで、人間と同様に重要度に応じて情報を能動的に取捨選択する人工的な視覚システムの構築が期待される。   Humans efficiently acquire information by instantly judging information that is considered important from the image captured in the retina by a mechanism called visual attention. By simulating these human perceptual characteristics on a computer, it is expected to construct an artificial visual system that actively selects information according to the degree of importance, similar to humans.

視覚的注意を計算機上に模擬する方法として、視覚的顕著性に基づく方法が一般的である。この視覚的顕著性に基づく方法では、与えられた画像信号の各部分において、人間が注意を向ける度合いである視覚的顕著性を計算し、視覚的顕著性が所定値以上の大きい箇所を注視箇所として予測する方法である。   As a method of simulating visual attention on a computer, a method based on visual saliency is common. In this method based on visual saliency, in each part of a given image signal, the visual saliency, which is the degree to which human attention is directed, is calculated, and a portion where the visual saliency is greater than a predetermined value is observed. It is a method to predict as.

視覚的顕著性に基づく注視予測方法として、非特許文献1及び2に記載の方法が提案されている。これらの方法はいずれも、Bayesian surpriseと呼ばれる確率的顕著性モデルを採用している。このBayesian surpriseモデルでは、入力される画像信号の時系列に対して、今後発生する可能性の高い視覚刺激を画像空間中の各位置で逐次的に予測し、新しく入力された画像信号に起因する視覚刺激と予測とが一定値以上の大きく乖離した箇所に高い視覚的顕著性を割り当てるモデルである。   As gaze prediction methods based on visual saliency, methods described in Non-Patent Documents 1 and 2 have been proposed. Both of these methods employ a stochastic saliency model called Bayesian surprise. In this Bayesian surprise model, visual stimuli that are likely to occur in the future are predicted sequentially at each position in the image space with respect to the time series of input image signals, resulting from newly input image signals. This model assigns a high visual saliency to a location where the visual stimulus and the prediction are greatly deviated by a certain value or more.

L. Itti, P.F. Baldi “A principled approach to detecting surprising events in videos,” Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR2005), pp.631-637, 2005.L. Itti, P.F. Baldi “A principled approach to detecting surprising events in videos,” Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR2005), pp.631-637, 2005. L. Itti, P.F. Baldi “Bayesian surprise attracts human attention,” Vision Research, Vol.49, No.10, pp.1295-1306, 2009.L. Itti, P.F. Baldi “Bayesian surprise attracts human attention,” Vision Research, Vol.49, No.10, pp.1295-1306, 2009.

上記非特許文献1、2を含めた数多くの先行技術では、映像を構成する一部の信号、すなわち画像信号しか用いることができないという問題点があった。特に、映像を構成するもう一つの主要成分である音響信号は、注意を引く音がする方向に視線を向けやすい、音の変化と同期した動きをする対象に視線を向けやすい、などの例からもわかるように、人間の注視行動に大きな影響を与えるため、視覚的顕著性の算出に適切に組み込む必要がある。しかし、画像信号と音響信号の双方を利用し、双方の相互作用に着目した視覚的顕著性モデルに関する議論はほとんどなされていない。   Many of the prior arts including Non-Patent Documents 1 and 2 have a problem that only a part of signals constituting an image, that is, image signals can be used. In particular, the acoustic signal, which is another main component that composes the video, is easy to direct the line of sight in the direction of the sound that draws attention, and it is easy to direct the line of sight to the object that moves in synchronization with the change in sound. As can be seen, since it has a great influence on human gaze behavior, it must be appropriately incorporated into the calculation of visual saliency. However, there has been little discussion on a visual saliency model that uses both image signals and sound signals and focuses on the interaction between the two.

本発明は、上記の課題に鑑みてなされたもので、入力映像を構成する各時刻のフレームの入力画像及び入力映像を構成する音響信号を用いて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成することができる顕著度画像生成装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made in view of the above-described problems. The input image of each time frame constituting the input video and the acoustic signal constituting the input video are used at each position of the input image of the frame of each time. It is an object of the present invention to provide a saliency image generating apparatus, method, and program capable of generating a saliency image indicating saliency.

上記の目的を達成するために本発明に係る顕著度画像生成装置は、入力映像を構成する各時刻のフレームの入力画像について、複数の特徴種別の各々に対し、前記入力画像における顕著な特性を有する度合いを示す基礎顕著度画像を生成し、基礎顕著度画像の集合とする画像基礎顕著度画像抽出部と、前記入力映像を構成する音響信号について、各時刻における顕著な特性を有する度合いを示す音響顕著度信号を生成する音響顕著度信号算出部と、前記複数の特徴種別の各々に対し、各時刻及び各画素について、前記時刻のフレームについての前記基礎顕著度画像の集合に含まれる前記特徴種別に対する基礎顕著度画像の前記画素と、前記時刻における音響顕著度信号との相関を算出し、前記複数の特徴種別の各々に対する、各時刻及び各画素についての前記相関に基づいて、主要画像基礎顕著度成分を生成する画像基礎顕著度選択部と、各時刻のフレームについての前記基礎顕著度画像の集合と、前記主要画像基礎顕著度成分とに基づいて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成する画像顕著度画像算出部と、を含んで構成されている。   In order to achieve the above object, the saliency image generating apparatus according to the present invention provides a remarkable characteristic in the input image for each of a plurality of feature types with respect to the input image of each time frame constituting the input video. A basic saliency image extraction unit that generates a basic saliency image that indicates the degree of possession and sets the basic saliency image as a set, and an acoustic signal that constitutes the input video indicates the degree of remarkable characteristics at each time An acoustic saliency signal calculation unit that generates an acoustic saliency signal, and for each of the plurality of feature types, for each time and each pixel, the features included in the set of basic saliency images for the frame of the time The correlation between the pixel of the basic saliency image for the type and the acoustic saliency signal at the time is calculated, and each time and each image for each of the plurality of feature types is calculated. An image basic saliency selection unit that generates a main image basic saliency component based on the correlation, a set of the basic saliency images for each time frame, and the main image basic saliency component An image saliency image calculating unit that generates a saliency image indicating the saliency at each position of the input image of the frame at each time.

本発明に係る顕著度画像生成方法は、画像基礎顕著度画像抽出部が、入力映像を構成する各時刻のフレームの入力画像について、複数の特徴種別の各々に対し、前記入力画像における顕著な特性を有する度合いを示す基礎顕著度画像を生成し、基礎顕著度画像の集合とし、音響顕著度信号算出部が、前記入力映像を構成する音響信号について、各時刻における顕著な特性を有する度合いを示す音響顕著度信号を生成し、画像基礎顕著度選択部が、前記複数の特徴種別の各々に対し、各時刻及び各画素について、前記時刻のフレームについての前記基礎顕著度画像の集合に含まれる前記特徴種別に対する基礎顕著度画像の前記画素と、前記時刻における音響顕著度信号との相関を算出し、前記複数の特徴種別の各々に対する、各時刻及び各画素についての前記相関に基づいて、主要画像基礎顕著度成分を生成し、画像顕著度画像算出部が、各時刻のフレームについての前記基礎顕著度画像の集合と、前記主要画像基礎顕著度成分とに基づいて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成する。   In the saliency image generation method according to the present invention, the image basic saliency image extraction unit has a remarkable characteristic in the input image for each of a plurality of feature types with respect to the input image of each time frame constituting the input video. Generating a basic saliency image indicating the degree of having a saliency, a set of basic saliency images, and the acoustic saliency signal calculation unit indicating the degree of remarkable characteristics at each time with respect to the acoustic signals constituting the input video An acoustic saliency signal is generated, and an image basic saliency selection unit is included in the set of basic saliency images for the frame of the time for each time and each pixel for each of the plurality of feature types. The correlation between the pixel of the basic saliency image for the feature type and the acoustic saliency signal at the time is calculated, and each time and each pixel for each of the plurality of feature types Based on the correlation, a main image basic saliency component is generated, and an image saliency image calculating unit converts the set of basic saliency images and the main image basic saliency component for each time frame. Based on this, a saliency image indicating the saliency at each position of the input image of the frame at each time is generated.

本発明によれば、画像基礎顕著度画像抽出部が、入力映像を構成する各時刻のフレームの入力画像について、複数の特徴種別の各々に対し、前記入力画像における顕著な特性を有する度合いを示す基礎顕著度画像を生成し、基礎顕著度画像の集合とする。   According to the present invention, the image basic saliency image extraction unit indicates the degree of remarkable characteristics in the input image for each of a plurality of feature types with respect to the input image of each time frame constituting the input video. A basic saliency image is generated and set as a set of basic saliency images.

音響顕著度信号算出部が、前記入力映像を構成する音響信号について、各時刻における顕著な特性を有する度合いを示す音響顕著度信号を生成する。   The acoustic saliency signal calculation unit generates an acoustic saliency signal indicating the degree of remarkable characteristics at each time for the acoustic signals constituting the input video.

画像基礎顕著度選択部が、前記複数の特徴種別の各々に対し、各時刻及び各画素について、前記時刻のフレームについての前記基礎顕著度画像の集合に含まれる前記特徴種別に対する基礎顕著度画像の前記画素と、前記時刻における音響顕著度信号との相関を算出し、前記複数の特徴種別の各々に対する、各時刻及び各画素についての前記相関に基づいて、主要画像基礎顕著度成分を生成する。   An image basic saliency selection unit, for each of the plurality of feature types, for each time and each pixel, a basic saliency image for the feature type included in the set of basic saliency images for the frame of the time A correlation between the pixel and the acoustic saliency signal at the time is calculated, and a main image basic saliency component is generated based on the correlation at each time and each pixel for each of the plurality of feature types.

画像顕著度画像算出部が、各時刻のフレームについての前記基礎顕著度画像の集合と、前記主要画像基礎顕著度成分とに基づいて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成する。   The image saliency image calculation unit indicates the saliency at each position of the input image of the frame at each time based on the set of basic saliency images for the frame at each time and the main image basic saliency component. Generate a saliency image.

このように、入力映像を構成する各時刻のフレームの入力画像及び入力映像を構成する音響信号を用いて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成することができる。   As described above, the saliency image indicating the saliency at each position of the input image of the frame at each time is generated using the input image of the frame at each time constituting the input video and the acoustic signal constituting the input video. Can do.

本発明に係るプログラムは、コンピュータを、上記顕著度画像生成装置の各手段として機能させるためのプログラムである。   The program according to the present invention is a program for causing a computer to function as each unit of the saliency image generating apparatus.

以上説明したように、本発明の顕著度画像生成装置、方法、及びプログラムによれば、入力映像を構成する各時刻のフレームの入力画像及び入力映像を構成する音響信号を用いて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成することができる、という効果が得られる。   As described above, according to the saliency image generating apparatus, method, and program of the present invention, the input image of each time frame constituting the input video and the acoustic signal constituting the input video are used. The effect that the saliency image indicating the saliency at each position of the input image of the frame can be generated is obtained.

本発明の第1の実施の形態に係る顕著度画像生成装置の構成を示す概略図である。It is the schematic which shows the structure of the saliency image generation apparatus which concerns on the 1st Embodiment of this invention. 主として画像基礎顕著度画像算出部1の構成を示す図である。FIG. 2 is a diagram mainly illustrating a configuration of an image basic saliency image calculating unit 1. 主として音響顕著度信号算出部2の構成を示す図である。FIG. 3 is a diagram mainly illustrating a configuration of an acoustic saliency signal calculation unit 2. 画像基礎顕著度画像抽出部15及び音響顕著度信号抽出部22からのデータの流れを示す図である。It is a figure which shows the data flow from the image basic saliency image extraction part 15 and the acoustic saliency signal extraction part 22. FIG. 本発明の第1の実施の形態に係る顕著度画像生成処理プログラムを示すフローチャートである。It is a flowchart which shows the saliency image generation processing program which concerns on the 1st Embodiment of this invention. 図5のステップ1Sの画像基礎顕著度画像算出処理プログラムを示すフローチャートである。It is a flowchart which shows the image basic saliency image calculation processing program of step 1S of FIG. 図6のステップ11Sの画像基礎特徴量画像算出処理プログラムを示すフローチャートである。It is a flowchart which shows the image basic feature-value image calculation processing program of step 11S of FIG. 図5のステップ2Sの音響顕著度信号算出処理プログラムを示すフローチャートである。It is a flowchart which shows the acoustic saliency signal calculation processing program of step 2S of FIG. 本発明の第2の実施の形態に係る注視位置推定装置の構成を示す概略図である。It is the schematic which shows the structure of the gaze position estimation apparatus which concerns on the 2nd Embodiment of this invention. 本発明の第2の実施の形態に係る注視位置推定処理プログラムを示すフローチャートである。It is a flowchart which shows the gaze position estimation processing program which concerns on the 2nd Embodiment of this invention. 映像1Eに対する評価結果の概要を示す図である。It is a figure which shows the outline | summary of the evaluation result with respect to the image | video 1E. 映像1Eに対するフレームごとの評価結果を示す図である。It is a figure which shows the evaluation result for every flame | frame with respect to the image | video 1E. 映像2Eに対する評価結果の概要を示す図である。It is a figure which shows the outline | summary of the evaluation result with respect to the image | video 2E. 映像2Eに対するフレームごとの評価結果を示す図である。It is a figure which shows the evaluation result for every flame | frame with respect to the image | video 2E. 映像3Eに対する評価結果の概要を示す図である。It is a figure which shows the outline | summary of the evaluation result with respect to the image | video 3E. 映像3Eに対するフレームごとの評価結果を示す図である。It is a figure which shows the evaluation result for every flame | frame with respect to the image | video 3E.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

[概要]
本発明は上記の状況を鑑みてなされたものであり、以下の2点により上記の問題を解決する注視位置推定を実現するものである。
1.音響信号から算出される顕著性が大きな映像区間を検出し、その映像区間における主要な画像信号成分を選択する。これにより、顕著な音響信号と相関の強い画像信号成分を選択的に抽出することが可能となる。
2.画像信号から顕著性を算出する際に、1.で選択された画像信号成分を強調する。これにより、音響信号に起因する視覚的顕著性の算出を行うことが可能となる。
[Overview]
The present invention has been made in view of the above situation, and realizes gaze position estimation that solves the above problem by the following two points.
1. A video section having a high saliency calculated from the audio signal is detected, and main image signal components in the video section are selected. Thereby, it is possible to selectively extract an image signal component having a strong correlation with a remarkable acoustic signal.
2. When calculating the saliency from the image signal, the image signal component selected in 1. is emphasized. This makes it possible to calculate visual saliency due to the acoustic signal.

[第1の実施の形態] [First embodiment]

以下、本発明の第1の実施形態に係る顕著度画像生成装置について図面を参照して説明する。顕著度画像生成装置は、CPUと、RAMと、プログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図1には、第1の実施形態に係る顕著度画像生成装置の構成の概略が示されている。図1に示すように、第1の実施形態に係る顕著度画像生成装置は、入力部10と、画像基礎顕著度画像算出部1と、音響顕著度信号算出部2と、画像基礎顕著度選択部3と、画像顕著度画像算出部4と、顕著度映像算出部5とで構成されている。顕著度画像生成装置は、入力映像を入力し、入力映像のフレーム内の各位置における顕著度を表示した映像である顕著度映像を出力する。   Hereinafter, a saliency image generating apparatus according to a first embodiment of the present invention will be described with reference to the drawings. The saliency image generating apparatus is configured by a computer including a CPU, a RAM, and a ROM storing a program, and is functionally configured as follows. FIG. 1 shows an outline of the configuration of the saliency image generating apparatus according to the first embodiment. As shown in FIG. 1, the saliency image generating apparatus according to the first embodiment includes an input unit 10, an image basic saliency image calculating unit 1, an acoustic saliency signal calculating unit 2, and an image basic saliency selection. The unit 3, the image saliency image calculating unit 4, and the saliency video calculating unit 5 are configured. The saliency image generating apparatus inputs an input video and outputs a saliency video that is a video displaying the saliency at each position in a frame of the input video.

図2には、主として画像基礎顕著度画像算出部1の構成が示されている。図2に示すように、画像基礎顕著度画像算出部1は、入力部10により入力された、入力映像のあるフレームである入力画像の中で各画素について顕著な特性を持つ度合いを表示した画像である基礎顕著度画像をいくつか算出し、それら基礎顕著度画像の集合を出力する。   FIG. 2 mainly shows the configuration of the image basic saliency image calculating unit 1. As shown in FIG. 2, the image basic saliency image calculation unit 1 is an image that displays the degree of remarkable characteristics for each pixel in the input image that is a frame of the input video and is input by the input unit 10. Some basic saliency images are calculated, and a set of these basic saliency images is output.

基礎顕著度画像の算出方法は特に限定されるものではないが、本実施形態においては、非特許文献1及び2に示す方法を採用する。この方法に従った画像基礎顕著度画像算出部1は、図2に示すように、画像基礎特徴量画像抽出部11と、画像多重解像度画像抽出部12と、画像解像度差分画像抽出部13と、画像時間差分画像抽出部14と、画像基礎顕著度画像抽出部15とで構成される。   The calculation method of the basic saliency image is not particularly limited, but in this embodiment, the methods shown in Non-Patent Documents 1 and 2 are adopted. As shown in FIG. 2, the image basic saliency image calculating unit 1 according to this method includes an image basic feature image extracting unit 11, an image multi-resolution image extracting unit 12, an image resolution difference image extracting unit 13, The image time difference image extraction unit 14 and the image basic saliency image extraction unit 15 are configured.

画像基礎特徴量画像抽出部11は、入力画像から複数の特徴抽出方法を用いて入力画像の各画素の特徴的な成分を表現する画像基礎特徴画像を抽出し、特徴抽出方法毎の基礎特徴画像からなる集合を、画像多重解像度画像抽出部12に出力する。画像基礎特徴画像の抽出方法は特に限定されるものではないが、本実施形態においては、図2に示すように、輝度特徴画像抽出部111と、色特徴画像抽出部112と、方向特徴画像抽出部113と、点滅特徴画像抽出部114と、運動特徴画像抽出部115とによって構成される。詳細には後述するが、画像基礎特徴量画像抽出部11の特徴抽出方法は、特許文献3(特開2009-003615号)に記載の方法と関連する。   The image basic feature image extraction unit 11 extracts an image basic feature image that represents a characteristic component of each pixel of the input image using a plurality of feature extraction methods from the input image, and the basic feature image for each feature extraction method. Is output to the image multi-resolution image extraction unit 12. The image basic feature image extraction method is not particularly limited, but in the present embodiment, as shown in FIG. 2, a luminance feature image extraction unit 111, a color feature image extraction unit 112, and a direction feature image extraction are performed. Unit 113, blinking feature image extraction unit 114, and motion feature image extraction unit 115. As will be described in detail later, the feature extraction method of the image basic feature quantity image extraction unit 11 is related to the method described in Patent Document 3 (Japanese Patent Laid-Open No. 2009-003615).

図3には、主として音響顕著度信号算出部2の構成が示されている。音響顕著度信号算出部2は、入力部10から入力された、入力映像を構成する音響信号である入力音響信号の中で各時刻について顕著な特性を持つ度合いを表示した信号である音響顕著度信号を算出し、この音響顕著度信号を、画像基礎顕著度選択部3及び画像顕著度画像算出部4に出力する。音響顕著度信号の算出方法は特に限定されるものではないが、本実施形態では、Bayesian surpriseモデルを音響信号に適用した非特許文献5に記載の方法を採用する。この方法に従う音響顕著度信号算出部2は、図3に示すように、音響基礎特徴量抽出部21と、音響顕著度信号抽出部22とから構成される。   FIG. 3 mainly shows the configuration of the acoustic saliency signal calculation unit 2. The acoustic saliency signal calculating unit 2 is a signal that displays a degree of remarkable characteristics at each time among input acoustic signals that are input from the input unit 10 and are acoustic signals constituting the input video. A signal is calculated, and this acoustic saliency signal is output to the image basic saliency selection unit 3 and the image saliency image calculation unit 4. The calculation method of the acoustic saliency signal is not particularly limited, but in the present embodiment, the method described in Non-Patent Document 5 in which the Bayesian surprise model is applied to the acoustic signal is adopted. As shown in FIG. 3, the acoustic saliency signal calculation unit 2 according to this method includes an acoustic basic feature amount extraction unit 21 and an acoustic saliency signal extraction unit 22.

(非特許文献5)Scheuerte and Stiefelhagen "Wow! Bayesian surprise for salient acoustic event detection," Proc. IEEE International Conference on Acoustic, Speech and Signal Processing (ICASSP2013), pp.6402-6406, 2013. (Non-Patent Document 5) Scheuerte and Stiefelhagen "Wow! Bayesian surprise for salient acoustic event detection," Proc. IEEE International Conference on Acoustic, Speech and Signal Processing (ICASSP2013), pp.6402-6406, 2013.

図4には、画像基礎顕著度画像抽出部15及び音響顕著度信号抽出部22からのデータの流れが示されている。図4に示すように、画像基礎顕著度画像抽出部15及び音響顕著度信号抽出部22からのデータはそれぞれ、画像基礎顕著度選択部3及び画像顕著度画像算出部4に入力される。   FIG. 4 shows a data flow from the image basic saliency image extraction unit 15 and the acoustic saliency signal extraction unit 22. As shown in FIG. 4, data from the image basic saliency image extraction unit 15 and the acoustic saliency signal extraction unit 22 are input to the image basic saliency selection unit 3 and the image saliency image calculation unit 4, respectively.

次に、本発明の第1の実施形態に係る顕著度画像生成装置の作用を説明する。   Next, the operation of the saliency image generating apparatus according to the first embodiment of the present invention will be described.

図5には、本発明の第1の実施の形態に係る顕著度画像生成処理プログラムを示すフローチャートが示されている。顕著度画像生成処理プログラムがスタートすると、ステップ1Sで、画像基礎顕著度画像算出部1が、画像基礎顕著度画像算出処理を実行する。図6には、図5のステップ1Sの画像基礎顕著度画像算出処理プログラムを示すフローチャートが示されている。図6に示すように、ステップ11Sで、画像基礎特徴量画像抽出部11が、画像基礎特徴量画像抽出処理を実行する。図7には、図6のステップ11Sの画像基礎特徴量画像算出処理プログラムを示すフローチャートが示されている。   FIG. 5 shows a flowchart showing the saliency image generation processing program according to the first embodiment of the present invention. When the saliency image generation processing program is started, the image basic saliency image calculation unit 1 executes image basic saliency image calculation processing in step 1S. FIG. 6 is a flowchart showing the image basic saliency image calculation processing program in step 1S of FIG. As shown in FIG. 6, in step 11 </ b> S, the image basic feature value image extraction unit 11 executes image basic feature value image extraction processing. FIG. 7 is a flowchart showing the image basic feature amount image calculation processing program in step 11S of FIG.

図7に示すように、ステップ111Sで、輝度特徴画像抽出部111が、輝度特徴画像抽出処理を実行する。詳細には次の通りである。即ち、輝度特徴画像抽出部111は、入力部10から入力されたt番目の入力画像(=入力映像のt番目のフレーム)の輝度成分を表現する輝度特徴画像を出力する。輝度特徴画像抽出部111は、輝度特徴画像i(t)を、入力画像の赤(R)、緑(G)、及び青(B)の成分の平均として、以下のように求める。   As shown in FIG. 7, in step 111S, the luminance feature image extraction unit 111 executes a luminance feature image extraction process. Details are as follows. That is, the luminance feature image extraction unit 111 outputs a luminance feature image representing the luminance component of the t-th input image (= t-th frame of the input video) input from the input unit 10. The luminance feature image extraction unit 111 obtains the luminance feature image i (t) as an average of red (R), green (G), and blue (B) components of the input image as follows.

ただし、r(t)、g(t)、b(t)はそれぞれt番目の入力画像(=入力映像のt番目のフレーム)における赤(R)、緑(G)、青(B)の各成分画像であり、画素値はそれぞれ0以上1以下の実数値で表現されているものとする。別の実施形態として、以下のいずれかの式で輝度特徴画像の各画素値i(t)を抽出することもできる。 However, r (t), g (t), and b (t) are red (R), green (G), and blue (B) in the t-th input image (= t-th frame of the input video), respectively. It is a component image, and each pixel value is expressed by a real value of 0 or more and 1 or less. As another embodiment, each pixel value i (t) x of the luminance feature image can be extracted by any one of the following expressions.

ただし、r(t)は画素位置xにおける画像r(t)の画素値である。 Here, r (t) x is the pixel value of the image r (t) at the pixel position x.

図7のステップ112Sで、色特徴画像抽出部112が、色特徴画像抽出処理を実行する。詳細には次の通りである。   In step 112S of FIG. 7, the color feature image extraction unit 112 executes color feature image extraction processing. Details are as follows.

色特徴画像抽出部112は、入力部10から入力されたt番目の入力画像の各画素の色成分を表現する色特徴画像を出力する。即ち、色特徴画像抽出部112では、赤(R)、緑(G)、青(B)、及び黄(Y)にそれぞれ対応する色特徴画像R(t)、G(t)、B(t)、Y(t)を以下の画素値R(t)x、G(t)x、B(t)x、Y(t)xから抽出する。例えば、R(t)xは位置xにおける画像R(t)の画素値である。 The color feature image extraction unit 112 outputs a color feature image representing the color component of each pixel of the t-th input image input from the input unit 10. That is, in the color feature image extraction unit 112, color feature images R (t), G (t), and B (t corresponding to red (R), green (G), blue (B), and yellow (Y), respectively. ), Y (t) are extracted from the following pixel values R (t) x , G (t) x, B (t) x, Y (t) x . For example, R (t) x is a pixel value of the image R (t) at the position x.

図7のステップ113Sで、方向特徴画像抽出部113が、方向特徴画像抽出処理を実行する。詳細には次の通りである。   In step 113S of FIG. 7, the direction feature image extraction unit 113 executes the direction feature image extraction process. Details are as follows.

方向特徴画像抽出部113は、入力部10から入力されたt番目の入力画像の各画素の方向成分を表現する方向特徴画像を出力する。方向特徴画像Oφ(t)は、現在の入力画像から計算される輝度特徴画像i(t)に、回転角φを持つガボールフィルタgφを作用させることによって、以下のように求められる。 The direction feature image extraction unit 113 outputs a direction feature image representing the direction component of each pixel of the t-th input image input from the input unit 10. The direction feature image O φ (t) is obtained as follows by applying a Gabor filter g φ having a rotation angle φ to the luminance feature image i (t) calculated from the current input image.

ただし、*は畳み込みを表現する演算子である。方向特徴画像Oφ(t)は、nφ通りの回転角について抽出される。このとき、回転角φは例えばπ=180°を均等にnφ分割するように選択される。 However, * is an operator expressing convolution. The direction feature image O φ (t) is extracted for n φ rotation angles. At this time, the rotation angle φ is selected so that, for example, π = 180 ° is divided into n φ equally.

図7のステップ114Sで、点滅特徴画像抽出部114が、点滅特徴画像抽出処理を実行する。詳細には次の通りである。点滅特徴画像抽出部114は、入力部10から入力された入力画像の各画素の点滅成分を表現する点滅特徴画像を出力する。点滅特徴画像F(t)は、現在及びそれ以前のいくつかの入力画像から計算される輝度特徴画像i(t)、・・・、i(t-n)から、以下のように求められる。 In step 114S of FIG. 7, the blinking feature image extraction unit 114 executes a blinking feature image extraction process. Details are as follows. The blinking feature image extraction unit 114 outputs a blinking feature image representing the blinking component of each pixel of the input image input from the input unit 10. The blinking feature image F (t) is obtained as follows from the luminance feature images i (t),..., I (t−n F ) calculated from several current and previous input images. .

ただし、nFは点滅特徴画像を抽出する際に参照する過去の輝度特徴画像の数である。nF=1とすると、非特許文献4に記載の方法と一致する。 Here, n F is the number of past luminance feature images to be referred to when extracting the blinking feature image. When n F = 1, the method described in Non-Patent Document 4 is consistent.

(非特許文献4)Itti, Dhavale and Pighin "Realistic avatar eye and head animation using a neurobiological model of visual attention," Proc. SPIE International Symposium on Optical Science and Technology, pp.64-78, 2003. (Non-Patent Document 4) Itti, Dhavale and Pighin "Realistic avatar eye and head animation using a neurobiological model of visual attention," Proc. SPIE International Symposium on Optical Science and Technology, pp.64-78, 2003.

図7のステップ115Sで、運動特徴画像抽出部115が、運動特徴画像抽出処理を実行する。詳細には次の通りである。   In step 115S of FIG. 7, the motion feature image extraction unit 115 executes motion feature image extraction processing. Details are as follows.

運動特徴画像抽出部115は、入力部10から入力された入力画像の各画素の運動成分を表現する運動特徴画像を出力する。運動特徴画像の抽出方法は特に限定されるものではないが、本実施形態においては、現在及びその1時点(1フレーム前のフレームに対応する時刻)前の入力画像から計算される輝度特徴画像i(t)、i(t−1)の各点におけるオプティカルフローを求めることによって抽出する。オプティカルフローの抽出方法は特に限定されるものではないが、例えば一般にLucas-Kanade法と呼ばれる画像勾配に基づく方法を用いることができ、この方法により、それぞれ運動の水平成分・垂直成分に対応する運動特徴画像M(t)、My(t)を抽出する(詳細な抽出方法は特許文献3を参照)。 The motion feature image extraction unit 115 outputs a motion feature image representing a motion component of each pixel of the input image input from the input unit 10. The method for extracting the motion feature image is not particularly limited, but in the present embodiment, the luminance feature image i calculated from the input image at the present time and one time point before (the time corresponding to the frame one frame before). Extraction is performed by obtaining an optical flow at each point of (t) and i (t-1). The optical flow extraction method is not particularly limited. For example, a method based on an image gradient generally called the Lucas-Kanade method can be used, and the motion corresponding to the horizontal component and the vertical component of the motion can be used. feature image M x (t), extracts a M y (t) (see Patent Document 3 detailed extraction method).

別の例として、非特許文献4に記載の方法が挙げられる。すなわち、現在の入力画像から計算される方向特徴画像Oφ(t)を回転角φと垂直の方向に1画素分シフトさせた画像をSφ(t)としたとき、運動特徴画像Mφ(t)は,現在及びその1時点前の入力画像から計算される方向特徴画像Oφ(t)、Oφ(t−1)を用いて,以下のように算出される。 Another example is the method described in Non-Patent Document 4. That is, when an image obtained by shifting the direction feature image O φ (t) calculated from the current input image by one pixel in the direction perpendicular to the rotation angle φ is S φ (t), the motion feature image M φ (t t) is calculated as follows using the direction feature images O φ (t) and O φ (t−1) calculated from the input images at the present time and one time before.

ただし、演算子×は画素ごとの積を表すものとする。この実施形態では,運動特徴画像Mφ(t)がnφ通りの回転角の各々について抽出される。 However, the operator x represents a product for each pixel. In this embodiment, a motion feature image M φ (t) is extracted for each of n φ rotation angles.

図2に示すように、画像基礎特徴量画像抽出部11は、輝度特徴画像、色特徴画像、方向特徴画像、点滅特徴画像、運動特徴画像を、それぞれ画像基礎特徴画像とし、これら画像基礎特徴画像の集合を、画像多重解像度画像抽出部12に出力する。   As shown in FIG. 2, the image basic feature image extraction unit 11 sets a luminance feature image, a color feature image, a direction feature image, a blinking feature image, and a motion feature image as image basic feature images, and these image basic feature images. Are output to the image multi-resolution image extraction unit 12.

上記画像基礎特徴画像の集合を画像多重解像度画像抽出部12に出力すると、図7のステップ115Sの運動特徴画像抽出処理が終了する。ステップ115Sの運動特徴画像抽出処理が終了すると、処理は、図6のステップ12Sに進む。   When the set of image basic feature images is output to the image multi-resolution image extraction unit 12, the motion feature image extraction process in step 115S of FIG. 7 ends. When the motion feature image extraction process in step 115S ends, the process proceeds to step 12S in FIG.

なお、方向特徴画像抽出部113、点滅特徴画像抽出部114、及び運動特徴画像抽出部115は、輝度特徴画像抽出部111から輝度特徴画像が入力されるようにしているが、輝度特徴画像抽出部111から輝度特徴画像が入力されずに、方向特徴画像抽出部113、点滅特徴画像抽出部114、及び運動特徴画像抽出部115の各々が輝度特徴画像抽出部111の処理と同様の処理を実行して輝度特徴画像を得るようにしてもよい。   The direction feature image extraction unit 113, the blinking feature image extraction unit 114, and the motion feature image extraction unit 115 are configured to receive the luminance feature image from the luminance feature image extraction unit 111. Without the luminance feature image being input from 111, each of the direction feature image extraction unit 113, the blinking feature image extraction unit 114, and the motion feature image extraction unit 115 performs the same processing as the processing of the luminance feature image extraction unit 111. Thus, a luminance feature image may be obtained.

図6のステップ12Sで、画像多重解像度画像抽出部12が、画像多重解像度画像抽出処理を実行する。詳細には次の通りである。   In step 12S of FIG. 6, the image multi-resolution image extraction unit 12 executes image multi-resolution image extraction processing. Details are as follows.

画像多重解像度画像抽出部12は、上記のように入力された画像基礎特徴画像の集合の各画像基礎特徴画像について、その多重解像度表現である多重解像度画像を抽出し、この多重解像度画像の集合を出力する。   The image multi-resolution image extraction unit 12 extracts a multi-resolution image, which is a multi-resolution expression, for each image basic feature image of the set of image basic feature images input as described above. Output.

本実施形態において、いずれの基礎特徴画像についても同様の処理を行うため、以下、輝度特徴画像を例に取って、処理を説明し、他の特徴画像の説明を省略する。   In the present embodiment, since the same processing is performed for any basic feature image, the processing will be described below taking the luminance feature image as an example, and description of other feature images will be omitted.

輝度特徴画像についての多重解像度表現である輝度多重解像度画像は、輝度特徴画像にガウシアンフィルタを作用させながら縮小させる操作を、解像度レベル毎に繰り返し行うことで抽出される。   A luminance multi-resolution image, which is a multi-resolution representation of a luminance feature image, is extracted by repeatedly performing an operation for reducing the luminance feature image while applying a Gaussian filter to each luminance level.

ただし、Gσは分散σを持つガウシアンフィルタ、down()はダウンサンプリングを行う関数、i(t,l)は輝度特徴画像i(t)から抽出した第lレベルの輝度多重解像度画像、nlは多重解像度画像のレベル数である。第0レベルの輝度多重解像度画像は輝度特徴画像そのもの、すなわち、i(t,0)=i(t)とする。 Where G σ is a Gaussian filter having variance σ, down () is a function for downsampling, i (t, l) is the l-th level luminance multi-resolution image extracted from the luminance feature image i (t), n l Is the number of levels of the multi-resolution image. The brightness multi-resolution image at the 0th level is the brightness feature image itself, that is, i (t, 0) = i (t).

他の基礎特徴画像についても、同様の方法で多重解像度画像を抽出することができる。このとき、輝度多重解像度画像がnl枚抽出されるのに対して、色多重解像度画像R(t,l)、 G(t,l)、 B(t,l)、 Y(t,l)は合計4nl枚、方向多重解像度画像Oφ(t,l)は合計nφl枚、点滅多重解像度画像F(t,l)はnl枚、運動多重解像度画像Mx(t,l)、My(t,l)は合計2nl枚もしくはnφl枚、それぞれ抽出される。 For other basic feature images, a multi-resolution image can be extracted by the same method. At this time, n l luminance multi-resolution images are extracted, whereas color multi-resolution images R (t, l), G (t, l), B (t, l), Y (t, l) Is a total of 4n l images, direction multi-resolution images O φ (t, l) are total n φ n l images, blinking multi-resolution images F (t, l) are n l images, motion multi-resolution images M x (t, l ), M y (t, l ) is a total of 2n l Like or n phi n l sheets are extracted, respectively.

上記の通り、画像多重解像度画像抽出部12は、輝度多重解像度画像、色多重解像度画像、方向多重解像度画像、点滅多重解像度画像、運動多重解像度画像を、それぞれ多重解像度画像とし、これら多重解像度画像の集合を、画像解像度差分画像抽出部13に出力する(図2参照)。   As described above, the image multi-resolution image extraction unit 12 sets the luminance multi-resolution image, the color multi-resolution image, the direction multi-resolution image, the blinking multi-resolution image, and the motion multi-resolution image as multi-resolution images, respectively. The set is output to the image resolution difference image extraction unit 13 (see FIG. 2).

図6のステップ13Sで、画像解像度差分画像抽出部13が、画像解像度差分画像抽出処理を実行する。詳細には次の通りである。   In step 13S of FIG. 6, the image resolution difference image extraction unit 13 executes image resolution difference image extraction processing. Details are as follows.

画像解像度差分画像抽出部13は、上記のように入力された多重解像度画像の各種類(輝度・色など)について、解像度レベルの異なる画像の間の差分画像である解像度差分画像を抽出し、これら解像度差分画像の集合を出力する。   The image resolution difference image extraction unit 13 extracts a resolution difference image that is a difference image between images having different resolution levels for each type (luminance, color, etc.) of the multi-resolution image input as described above. A set of resolution difference images is output.

解像度差分画像の抽出方法は特に限定されるものではないが、本実施形態においては、以下のようにして各種類の解像度差分画像を抽出する。   The method of extracting the resolution difference image is not particularly limited, but in the present embodiment, each type of resolution difference image is extracted as follows.

ただし、up()はアップサンプリングを行う関数、Lc、Lsは解像度差分画像を抽出する際に考慮する解像度レベルの集合であり、それぞれ中心解像度レベル集合、周辺解像度レベル集合と呼ぶ。また、RSI(t;lc,ls)は第lレベルと第lレベルの輝度多重解像度画像の差分から得られる輝度解像度差分画像であり、以降、(lc,ls)レベル輝度解像度差分画像と呼ぶことにする。同様にして、RSRG(t;lc,ls)及びRSBY(t;lc,ls)を(lc,ls)レベル色解像度差分画像、RSOφ(t;lc,ls)を(lc,ls)レベル方向解像度差分画像、RSF(t;lc,ls)を(lc,ls)レベル点滅解像度差分画像、RSMk(t;lc,ls)を(lc,ls)レベル運動解像度差分画像と、それぞれ呼ぶ。 Here, up () is a function that performs upsampling, and L c and L s are sets of resolution levels to be considered when extracting a resolution difference image, and are called a central resolution level set and a peripheral resolution level set, respectively. Further, RS I (t; l c , l s ) is a luminance resolution difference image obtained from the difference between the luminance multi-resolution images of the l c level and the l s level, and thereafter the (l c , l s ) level. This is called a luminance resolution difference image. Similarly, RS RG (t; l c , l s) and RS BY (t; l c, l s) a (l c, l s) level color resolution difference image, RS Oφ (t; l c , l the s) (l c, l s ) level direction resolution difference image, RS F (t; l c , l s) a (l c, l s) level flashing resolution difference image, RS Mk (t; l c , l s) the (l c, and l s) level motion resolution difference image, termed respectively.

上記の通り、画像解像度差分画像抽出部13は、輝度解像度差分画像、色解像度差分画像、方向解像度差分画像、点滅解像度差分画像、及び運動解像度差分画像をそれぞれ解像度差分画像とし、これら解像度差分画像の集合を、画像時間差分画像抽出部14に出力する(図2参照)。   As described above, the image resolution difference image extraction unit 13 sets the luminance resolution difference image, the color resolution difference image, the direction resolution difference image, the blinking resolution difference image, and the motion resolution difference image as the resolution difference images, respectively. The set is output to the image time difference image extraction unit 14 (see FIG. 2).

図6のステップ14Sで、画像時間差分画像抽出部14が、画像時間差分画像抽出処理を実行する。詳細には次の通りである。   In step 14S of FIG. 6, the image time difference image extraction unit 14 executes image time difference image extraction processing. Details are as follows.

画像時間差分画像抽出部14は、入力された解像度差分画像の集合の各解像度差分画像について、当該解像度差分画像の時間的遷移を記録する時間差分画像を抽出し、これら時間差分画像の集合を出力する。   The image time difference image extraction unit 14 extracts, for each resolution difference image in the set of input resolution difference images, a time difference image that records a temporal transition of the resolution difference image, and outputs the set of time difference images. To do.

時間差分画像の抽出方法は特に限定されるものではないが、本実施形態においては、解像度差分画像の各画素値がポアソン分布に従うことを仮定した非特許文献1及び2の方法を用いる。   The extraction method of the time difference image is not particularly limited, but in the present embodiment, the methods of Non-Patent Documents 1 and 2 assuming that each pixel value of the resolution difference image follows a Poisson distribution are used.

本実施形態においては、いずれの解像度差分画像についても同様の処理を行うため、以下、輝度解像度差分画像を例に取って、処理を説明し、他の解像度差分画像に対する処理の説明を省略する。まず、輝度解像度差分画像RSI(t;lc,ls)の画素位置xの画素値λI(t,x)が以下のガンマ分布に従うと仮定する。 In the present embodiment, since the same processing is performed for any resolution difference image, the processing will be described below by taking the luminance resolution difference image as an example, and description of processing for other resolution difference images will be omitted. First, it is assumed that the pixel value λ I (t, x) at the pixel position x of the luminance resolution difference image RS I (t; l c , l s ) follows the following gamma distribution.

ただし、Γ()はガンマ関数、α、βはガンマ分布のパラメータである。また、解像度レベルを示すインデックスlc,lsは簡単のため省略する。本実施形態では、ガンマ分布のパラメータα、βを画像の各画素位置xで保持し、これを輝度時間差分画像の各画素αI(t,x)、βI(t,x)とする。このとき、輝度時間差分画像の画素位置xの画素値αI(t,x)、βI(t,x)は、1時刻前の分布 Where Γ () is a gamma function, and α and β are parameters of a gamma distribution. Also, the indexes l c and l s indicating the resolution level are omitted for simplicity. In the present embodiment, the parameters α and β of the gamma distribution are held at each pixel position x of the image, and are set as the pixels α I (t, x) and β I (t, x) of the luminance time difference image. At this time, the pixel values α I (t, x) and β I (t, x) at the pixel position x of the luminance time difference image are distributed one time before.

を事前分布、現在の輝度解像度差分画像の画素位置xの画素値λ(t,x)を観測としたときの事後分布 Is the prior distribution, and the posterior distribution when the pixel value λ I (t, x) at the pixel position x of the current luminance resolution difference image is observed

のパラメータとして得ることができ、ベイズ則から以下のように求められる。 And can be obtained as follows from the Bayes rule.

また、時間スケールを考慮した別の実施形態も可能である。この実施形態では、輝度時間差分画像の画素位置xの画素値を以下のようにして求める。   In addition, another embodiment considering a time scale is possible. In this embodiment, the pixel value at the pixel position x of the luminance time difference image is obtained as follows.

ただし、ξは忘却係数、ndは時間差分画像のレベル数である。他の(色・方向・点滅・運動)時間差分画像についても同様にして抽出できる。 Where ξ is a forgetting factor and n d is the number of levels of the time difference image. Other (color / direction / flashing / motion) time difference images can be extracted in the same manner.

上記の通り、画像時間差分画像抽出部14は、輝度時間差分画像、色時間差分画像、方向時間差分画像、点滅時間差分画像、及び運動時間差分画像をそれぞれ時間差分画像として、これら時間差分画像の集合を、画像基礎顕著度画像抽出部15に出力する(図2参照)。   As described above, the image time difference image extraction unit 14 uses the luminance time difference image, the color time difference image, the direction time difference image, the blinking time difference image, and the exercise time difference image as time difference images, respectively. The set is output to the image basic saliency image extraction unit 15 (see FIG. 2).

図6のステップ15Sで、画像基礎顕著度画像抽出部15が、画像基礎顕著度画像抽出処理を実行する。詳細には次の通りである。   In step 15S of FIG. 6, the image basic saliency image extraction unit 15 executes image basic saliency image extraction processing. Details are as follows.

画像基礎顕著度画像抽出部15は、上記のように入力された時間差分画像の集合の各時間差分画像について、当該時間差分画像の時間的・空間的特異性に基づいて基礎顕著度画像を抽出し、これら基礎顕著度画像の集合を出力する。   The image basic saliency image extraction unit 15 extracts a basic saliency image for each time difference image of the set of time difference images input as described above based on the temporal and spatial specificity of the time difference image. Then, a set of these basic saliency images is output.

基礎顕著度画像の抽出方法は特に限定されるものではないが、本実施形態においては、非特許文献1及び2に記載のBayesian surpriseモデルに従う。このBayesian surpriseモデルでは、事前分布(1時点前の事後分布)と事後分布のKullback-Leibler divergenceで基礎顕著度を算出する。具体的には、以下のように計算される。   The method for extracting the basic saliency image is not particularly limited, but in the present embodiment, the Bayesian surprise model described in Non-Patent Documents 1 and 2 is used. In this Bayesian surprise model, the basic saliency is calculated by the prior distribution (post-distribution one point before) and the Kullback-Leibler divergence of the posterior distribution. Specifically, it is calculated as follows.

本実施形態では、いずれの時間差分画像に対しても同様の処理を行うので、以降では輝度時間差分画像を例に記載する。本実施形態においては、同じ画素位置に着目して事前分布と事後分布のdivergenceを計算する時間方向の輝度基礎顕著度画像と、周辺の画素位置にも着目してdivergenceを計算する空間方向の輝度基礎顕著度画像とを、個別に計算して、後で統合する。まず、時間方向の輝度基礎顕著度画像の画素位置xの画素値を以下のように計算する。   In the present embodiment, since the same processing is performed for any time difference image, the luminance time difference image will be described as an example hereinafter. In the present embodiment, the luminance-basis saliency image in the time direction for calculating the divergence of the prior distribution and the posterior distribution by paying attention to the same pixel position, and the luminance in the spatial direction for calculating the divergence by paying attention also to surrounding pixel positions. The basic saliency images are calculated separately and integrated later. First, the pixel value at the pixel position x of the luminance basic saliency image in the time direction is calculated as follows.

ただし、Ψ(・)はディガンマ関数である。次に、空間方向の輝度基礎顕著度画像の画素位置xの画素値を以下のように算出する。   However, Ψ (·) is a digamma function. Next, the pixel value of the pixel position x of the luminance basic saliency image in the spatial direction is calculated as follows.

ただし、DoG()はDifference-of-Gaussian処理の関数である。最後に、次のように、時間方向の輝度基礎顕著度画像と空間方向の輝度基礎顕著度画像とを組み合わせて、最終的な輝度基礎顕著度画像を構成する。組み合わせる方法は特に限定されるものではないが、本実施形態においては、非特許文献1に記載の組合せをそのまま採用し、以下の式で計算する。   However, DoG () is a function of Difference-of-Gaussian processing. Finally, the final luminance basic saliency image is configured by combining the luminance basic saliency image in the time direction and the luminance basic saliency image in the spatial direction as follows. The combination method is not particularly limited, but in the present embodiment, the combination described in Non-Patent Document 1 is adopted as it is, and calculation is performed using the following formula.

他の(色・方向・点滅・運動)基礎顕著度画像についても同様にして抽出できる。
上記の通り、画像基礎顕著度画像抽出部15は、輝度基礎顕著度画像、色基礎顕著度画像、方向基礎顕著度画像、点滅基礎顕著度画像、及び運動基礎顕著度画像をそれぞれ基礎顕著度画像として、これら基礎顕著度画像の集合を、画像基礎顕著度選択部3及び画像顕著度画像算出部4に出力する(図2及び図4参照)。これにより、図6のステップ15Sの画像基礎顕著度画像抽出処理が終了する。
Other (color / direction / flashing / motion) basic saliency images can be extracted in the same manner.
As described above, the image basic saliency image extraction unit 15 converts the luminance basic saliency image, the color basic saliency image, the direction basic saliency image, the blinking basic saliency image, and the motion basic saliency image into the basic saliency image. Are output to the image basic saliency selection unit 3 and the image saliency image calculation unit 4 (see FIGS. 2 and 4). Thereby, the image basic saliency image extraction process in step 15S of FIG. 6 is completed.

ステップ15Sの画像基礎顕著度画像抽出処理が終了すると、処理は、図5のステップ2Sに進む。ステップ2Sで、音響顕著度信号算出部2は、音響顕著度信号算出処理を実行する。上記のように、音響顕著度信号算出部2は、入力映像を構成する音響信号である入力音響信号が顕著な特性を持つ度合いを各時刻で表示した信号である音響顕著度信号を算出し、この音響顕著度信号を出力する。本実施形態では、上記のように、音響顕著度信号の算出方法として、Bayesian surpriseモデルを音響信号に適用した非特許文献5に記載の方法を採用する。   When the image basic saliency image extraction process in step 15S ends, the process proceeds to step 2S in FIG. In step 2S, the acoustic saliency signal calculation unit 2 executes an acoustic saliency signal calculation process. As described above, the acoustic saliency signal calculation unit 2 calculates the acoustic saliency signal, which is a signal indicating the degree to which the input acoustic signal, which is the acoustic signal constituting the input video, has remarkable characteristics at each time, This acoustic saliency signal is output. In the present embodiment, as described above, the method described in Non-Patent Document 5 in which the Bayesian surprise model is applied to the acoustic signal is adopted as the acoustic saliency signal calculation method.

図8には、非特許文献5に記載の方法に従った、図5のステップ2Sの音響顕著度信号算出処理プログラムを示すフローチャートが示されている。   FIG. 8 is a flowchart showing the acoustic saliency signal calculation processing program in step 2S of FIG. 5 according to the method described in Non-Patent Document 5.

図8のステップ21Sで、音響基礎特徴量抽出部21が、音響基礎特徴量抽出処理を実行する。詳細には次の通りである。   In step 21 </ b> S of FIG. 8, the acoustic basic feature amount extraction unit 21 performs an acoustic basic feature amount extraction process. Details are as follows.

音響基礎特徴量抽出部21は、入力音響信号の特性を表現する特徴量である音響基礎特徴量を抽出し、この音響基礎特徴量を出力する。   The acoustic basic feature quantity extraction unit 21 extracts an acoustic basic feature quantity that is a characteristic quantity expressing the characteristics of the input acoustic signal, and outputs the acoustic basic feature quantity.

音響基礎特徴量の抽出方法は特に限定されるものではないが、本実施形態においては、音響信号から時間周波数特性を算出する方法を採用する。すなわち、時刻tを中心とする前後窓幅twの幅を持って切り出された音響信号a(t)から、時間周波数変換を利用して各周波数ωについてスペクトログラムF(t,ω)を抽出する。このとき、時間周波数変換として、短時間フーリエ変換 (STFT)、離散コサイン変換 (DCT)、短時間コサイン変換 (STCT) などを用いることができる。   The method of extracting the acoustic basic feature amount is not particularly limited, but in the present embodiment, a method of calculating the time frequency characteristic from the acoustic signal is adopted. That is, the spectrogram F (t, ω) is extracted for each frequency ω from the acoustic signal a (t) cut out with the width of the front and rear window width tw centered on the time t by using time-frequency conversion. At this time, short-time Fourier transform (STFT), discrete cosine transform (DCT), short-time cosine transform (STCT), or the like can be used as the time-frequency transform.

図8のステップ22Sで、音響顕著度信号抽出部22が、音響顕著度信号抽出処理を実行する。詳細には次の通りである。   In step 22S of FIG. 8, the acoustic saliency signal extraction unit 22 performs an acoustic saliency signal extraction process. Details are as follows.

音響顕著度信号抽出部22は、音響基礎特徴量を入力し、音響信号の中で各時刻について顕著な特性を持つ度合いを示した音響顕著度信号を抽出し、この音響顕著度信号を出力する。   The acoustic saliency signal extraction unit 22 receives the acoustic basic feature amount, extracts an acoustic saliency signal indicating the degree of remarkable characteristics at each time in the acoustic signal, and outputs the acoustic saliency signal. .

音響顕著度信号の抽出方法は特に限定されるものではないが、本実施形態においては、各時間周波数におけるスペクトログラムがガウス分布もしくはガンマ分布に従って生成されていると仮定したBayesian surpriseモデルを採用する。   The method for extracting the acoustic saliency signal is not particularly limited, but in this embodiment, a Bayesian surprise model is used that assumes that the spectrogram at each time frequency is generated according to a Gaussian distribution or a gamma distribution.

スペクトログラムがガウス分布に従って生成されると仮定した場合、時刻t、周波数ωにおけるスペクトログラムF(t,ω)の事前分布は、同周波数のスペクトログラムの履歴F(t−1,ω),・・・,F(t−N,ω)を用いて、以下のように表現される。   Assuming that the spectrogram is generated according to a Gaussian distribution, the prior distribution of the spectrogram F (t, ω) at time t and frequency ω is the spectrogram history F (t−1, ω),. It is expressed as follows using F (t−N, ω).

同様にして、同スペクトログラムの事後分布は、以下のように表現される。   Similarly, the posterior distribution of the spectrogram is expressed as follows.

このとき、時刻t、周波数ωの音響顕著度信号SA(t,ω)は、事前分布と事後分布のKullback-Leibler divergenceとして、以下のように算出される。 At this time, the acoustic saliency signal S A (t, ω) at time t and frequency ω is calculated as Kullback-Leibler divergence of the prior distribution and the posterior distribution as follows.

一方、スペクトログラムがガンマ分布に従って生成されると仮定した場合、時刻t、周波数ωにおけるスペクトログラムF(t,ω)の事前分布・事後分布は、それぞれ以下のように算出される。   On the other hand, assuming that the spectrogram is generated according to the gamma distribution, the prior distribution and posterior distribution of the spectrogram F (t, ω) at time t and frequency ω are calculated as follows.

このとき、時刻t、周波数ωの音響顕著度信号SA(t,ω)は、事前分布と事後分布のKullback-Leibler divergenceとして、以下のように算出される。 At this time, the acoustic saliency signal S A (t, ω) at time t and frequency ω is calculated as Kullback-Leibler divergence of the prior distribution and the posterior distribution as follows.

最後に、時刻tの音響顕著度信号SA(t)を、全周波数ωの音響顕著度信号S(t,ω)の平均として算出する。 Finally, the acoustic saliency signal S A (t) at time t is calculated as the average of the acoustic saliency signals S A (t, ω) at all frequencies ω.

上記の通り、音響顕著度信号抽出部22は、音響顕著度信号を算出し、音響顕著度信号を、画像基礎顕著度選択部3及び画像顕著度画像算出部4に出力する(図4参照)。これにより、図5のステップ22Sの音響顕著度信号抽出処理が終了する。   As described above, the acoustic saliency signal extraction unit 22 calculates the acoustic saliency signal, and outputs the acoustic saliency signal to the image basic saliency selection unit 3 and the image saliency image calculation unit 4 (see FIG. 4). . Thereby, the acoustic saliency signal extraction process in step 22S of FIG. 5 ends.

ステップ22Sの音響顕著度信号抽出処理が終了すると、図5のステップ2Sが終了する。なお、ステップ1Sの画像基礎顕著度画像算出処理とステップ2Sの音響顕著度信号算出処理の順番はこれに限定されず、ステップ2Sの処理の後にステップ1Sの処理が実行されてもよく、同時に実行されてもよい。   When the acoustic saliency signal extraction process in step 22S ends, step 2S in FIG. 5 ends. Note that the order of the image basic saliency image calculation process of step 1S and the acoustic saliency signal calculation process of step 2S is not limited to this, and the process of step 1S may be executed after the process of step 2S, or executed simultaneously. May be.

上記例(図5)では、ステップ2Sが終了すると、処理は、図5のステップ3Sに進む。ステップ3Sで、画像基礎顕著度選択部3が、画像基礎顕著度選択処理を実行する。詳細には次の通りである。   In the above example (FIG. 5), when step 2S ends, the process proceeds to step 3S in FIG. In step 3S, the image basic saliency selection unit 3 executes an image basic saliency selection process. Details are as follows.

画像基礎顕著度選択部3は、上記のように入力された画像基礎顕著度画像の集合及び音響顕著度信号に基づいて、音響顕著度が大きな時間区間における主要な画像基礎顕著度成分を選択もしくは強調し、これを主要画像基礎顕著度成分として出力する。   The image basic saliency selection unit 3 selects a main image basic saliency component in a time interval with a large acoustic saliency based on the set of image basic saliency images and the acoustic saliency signal input as described above. Emphasize and output this as a main image basic saliency component.

画像基礎顕著度成分の選択方法は特に限定されるものではないが、本実施形態においては、音響顕著度信号と画像基礎顕著度画像の画素値との単純な相関に基づく方法を採用する。   The method for selecting the image basic saliency component is not particularly limited, but in the present embodiment, a method based on a simple correlation between the acoustic saliency signal and the pixel value of the image basic saliency image is adopted.

以降、表記を簡略化するために、時刻tにおける基礎顕著度画像各々にインデックスを割り当て、インデックスjを用いて   Hereinafter, in order to simplify the notation, an index is assigned to each basic saliency image at time t, and the index j is used.

と表記する。すなわち、インデックスjによって、基礎顕著度画像の種別(輝度・色など)や時間スケールの違いをまとめて表現する。 Is written. That is, the index j is used to collectively represent differences in basic saliency image types (such as luminance and color) and time scales.

まず、各時刻tについて、画素位置xごとに、音響顕著度信号SA(t)と各画像基礎顕著度画像 First, at each time t, for each pixel position x, the acoustic saliency signal S A (t) and each image basic saliency image

との相関を、以下のように計算する。 Is calculated as follows.

ただし、 h(n,t)は幅Nw(t)を持つ時刻tの時間窓である。時間窓は、矩形窓、ハニング窓、ハミング窓など、任意の時間窓を利用できる。時間窓の幅は、全ての時刻tで共通の値を用いる方法、音響顕著度信号によって変動させる方法、などが考えられる。音響顕著度信号によって時間窓の幅を制御する方法として、以下のような方法が考えられる。音響顕著度信号が閾値θsを上回る連続時間区間をTS,i(i=1,2,)とすると、時刻tにおける窓幅Nw(t)は以下のように決定する。 Here, h (n, t) is a time window at time t having a width N w (t). As the time window, any time window such as a rectangular window, a Hanning window, and a Hamming window can be used. As the width of the time window, a method of using a common value at all times t, a method of changing by the acoustic saliency signal, and the like can be considered. As a method for controlling the width of the time window by the acoustic saliency signal, the following method can be considered. If the continuous time interval in which the acoustic saliency signal exceeds the threshold θ s is T S, i (i = 1, 2,), the window width N w (t) at time t is determined as follows.

ただし、wa1>0、wb1>0は予め定められた整数であり、wb2はNw(t)が奇数になるように1もしくは2に設定される。上記の定義により、音響顕著度信号SA(t)が閾値θsを上回る時刻tにおいてのみ時間窓が設定され、その幅は音響顕著度信号が閾値を上回る連続時間区間の長さに比例して長くなる。各時刻tにおいて、相関値 However, w a1 > 0 and w b1 > 0 are predetermined integers, and w b2 is set to 1 or 2 so that N w (t) becomes an odd number. According to the above definition, the time window is set only at time t when the acoustic saliency signal S A (t) exceeds the threshold θ s , and its width is proportional to the length of the continuous time interval in which the acoustic saliency signal exceeds the threshold. Become longer. Correlation value at each time t

の値が上位p%から上位p%の間の値を取る画素位置xについて当該相関値の平均値を計算し、その値を時刻tにおける相関 The average value of the correlation values is calculated for the pixel position x in which the value of the pixel takes a value between the upper p u % and the upper p l %, and the value is correlated with the correlation at time t


とする。

And

続いて、音響顕著度信号S(t)があらかじめ定められた閾値θを上回る各時刻T={ts,1,ts,2・・・}において、相関 Subsequently, at each time T S = {t s, 1 , t s, 2 ...} Where the acoustic saliency signal S A (t) exceeds a predetermined threshold θ S , the correlation

があらかじめ定められた閾値θを上回る画像基礎顕著度画像のインデックスjを取り出し、全時刻でインデックスごとに数え上げる。この数え上げの結果は、J次元の整数ベクトルH=(h1,h2,・・・,hJTとして表現できる。すなわち、このベクトルの要素hは、音響顕著度信号が閾値θsを上回った時刻において、インデックスjを持つ画像基礎顕著度画像が、音響顕著度信号との相関で閾値θを上回った回数を示す。 There removed index j of the image basis saliency image above a threshold theta c predetermined, enumerate each index in all the time. The counting result can be expressed as a J-dimensional integer vector H = (h 1 , h 2 ,..., H J ) T. Number i.e., element h j of the vector, at the time when the acoustic saliency signal exceeds the threshold value theta s, image basis saliency image with index j, which exceeds the threshold value theta c correlation with the acoustic saliency signal Indicates.

最後に、このベクトルの要素hjがあらかじめ定められた閾値θhよりも大きなインデックスを残し、このインデックスの集合Js={js,1, js,2,・・・}を主要画像基礎顕著度成分として、画像顕著度画像算出部4に出力する。 Finally, an index in which the vector element h j is larger than a predetermined threshold value θ h is left, and this set of indices J s = {j s, 1 , j s, 2 ,. The saliency component is output to the image saliency image calculation unit 4.

図5のステップ4Sで、画像顕著度画像算出部4が、画像顕著度画像算出処理を実行する。詳細には次の通りである。   In step 4S of FIG. 5, the image saliency image calculation unit 4 executes image saliency image calculation processing. Details are as follows.

画像顕著度画像算出部4は、上記のように入力された画像基礎顕著度画像の集合、主要画像基礎顕著度成分及び必要であれば音響顕著度信号に基づいて、入力画像の各位置における顕著度を表示した画像である顕著度画像を出力する。   The image saliency image calculation unit 4 performs saliency at each position of the input image based on the set of image basic saliency images input as described above, the main image basic saliency component, and, if necessary, the acoustic saliency signal. A saliency image that is an image indicating the degree is output.

顕著度画像の算出方法は特に限定されるものではないが、本実施形態においては、主要画像基礎顕著度成分として選択された画像基礎顕著度画像を選択的に用いて顕著度画像を構成する方法を採用する。すなわち、時刻tの顕著度画像S(t)は以下のように算出される。   The calculation method of the saliency image is not particularly limited, but in the present embodiment, a method of constructing the saliency image by selectively using the image basic saliency image selected as the main image basic saliency component Is adopted. That is, the saliency image S (t) at time t is calculated as follows.

ただし、θs2はあらかじめ定められた閾値、 Where θ s2 is a predetermined threshold,

は指示関数であり、括弧内の条件が満たされたときに1、それ以外の場合に0を返す関数である。すなわち、上式は、音響顕著度信号S(t)が閾値θs2を上回る時刻では主要画像基礎顕著度成分として選択された画像基礎顕著度画像のみを用いて顕著度画像を構成し、それ以外の時刻ではすべての画像基礎顕著度画像を用いて顕著度画像を構成することを示している。閾値θs2を0に設定すると、すべての時刻において主要画像基礎顕著度成分として選択された画像基礎顕著度画像のみを用いて顕著度画像を構成することと等価となる。 Is an indicator function, which returns 1 when the condition in parentheses is satisfied, and returns 0 otherwise. That is, the above equation constructs a saliency image using only the image basic saliency image selected as the main image basic saliency component at the time when the acoustic saliency signal S A (t) exceeds the threshold θ s2 , It is shown that a saliency image is constructed using all image basic saliency images at times other than. Setting the threshold θ s2 to 0 is equivalent to constructing the saliency image using only the image basic saliency image selected as the main image basic saliency component at all times.

また、別の実施形態として、以下のような方法を実行してもよい。
まず、準備として、基礎顕著度画像
Moreover, you may perform the following methods as another embodiment.
First, as a preparation, the basic saliency image

を、特徴種別を表現するインデックスf、空間スケールを表現するインデックスσ、及び時間スケールを表現するインデックスdを用いて、 Using an index f representing a feature type, an index σ representing a spatial scale, and an index d representing a time scale,

と書き直す。すなわち、 And rewrite. That is,

は、基礎顕著度画像
The basic saliency image

のインデックスjを、画像基礎特徴種別f、空間スケールσ、時間スケールdの3つに分解した表記である。また、空間スケールσのインデックス集合をΣ、時間スケールdのインデックス集合Dとし、主要画像基礎顕著度画像のインデックス集合Jsに含まれる空間スケールσのインデックス集合をΣs、時間スケールdのインデックス集合Dとする。
以上の記号を用いて、時刻tの顕著度画像S(t)は以下のように算出される。
The index j is divided into three parts: an image basic feature type f, a spatial scale σ, and a time scale d. Also, the index set of the spatial scale σ is Σ, the index set D of the time scale d, the index set of the spatial scale σ included in the index set J s of the main image basic saliency image is Σ s , and the index set of the time scale d Let DS be.
Using the above symbols, the saliency image S (t) at time t is calculated as follows.

図5のステップ5Sで、顕著度映像算出部5が、顕著度映像算出処理を実行する。即ち、顕著度映像算出部5は、各時刻で算出された顕著度画像を連結した時系列画像である顕著度映像を算出し、この顕著度映像を出力する。   In step 5S of FIG. 5, the saliency video calculation unit 5 executes the saliency video calculation process. That is, the saliency video calculating unit 5 calculates a saliency video that is a time-series image obtained by connecting the saliency images calculated at each time, and outputs the saliency video.

なお、顕著度映像算出部5は、顕著度映像に、各時系列に対応する時刻に対応するように入力音響信号を含ませるようにしてもよい。   Note that the saliency video calculation unit 5 may include the input acoustic signal in the saliency video so as to correspond to the time corresponding to each time series.

以上説明したように、第1の実施の形態に係る顕著度画像生成装置によれば、入力映像を構成する各時刻のフレームの入力画像及び入力映像を構成する音響信号を用いて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成することができる。   As described above, according to the saliency image generating device according to the first embodiment, the input image of each time frame constituting the input video and the acoustic signal constituting the input video are used to set the time of each time. A saliency image indicating the saliency at each position of the input image of the frame can be generated.

また、画像基礎顕著度画像抽出部15と音響顕著度信号算出部2とは、同一のBayesian surpriseモデル(確率モデル)を用いているので、画像基礎顕著度選択部3は、異なる物理量の相関が物理的に意味をなすようにすることができる。   Further, since the image basic saliency image extraction unit 15 and the acoustic saliency signal calculation unit 2 use the same Bayesian surprise model (probability model), the image basic saliency selection unit 3 has a correlation between different physical quantities. It can be physically meaningful.

なお、上記の実施の形態において、画像基礎顕著度選択部3が、後述する第3の実施の形態で説明する方法を用いて、主要画像基礎特徴量成分を生成してもよい。
また、画像顕著度画像算出部4が、後述する第3の実施の形態で説明する方法を用いて、顕著度画像を算出してもよい。
In the above embodiment, the image basic saliency selection unit 3 may generate the main image basic feature amount component by using a method described in a third embodiment to be described later.
Further, the image saliency image calculation unit 4 may calculate the saliency image using a method described in a third embodiment to be described later.

[第2の実施の形態]
次に、第2の実施の形態に係る注視位置推定装置について説明する。なお、第1の実施の形態と同様の構成となる部分には、同一符号を付して説明を省略する。
[Second Embodiment]
Next, a gaze position estimation apparatus according to the second embodiment will be described. In addition, the same code | symbol is attached | subjected to the part which becomes the same structure as 1st Embodiment, and description is abbreviate | omitted.

図9には、第2の実施の形態に係る注視位置推定装置の構成の概略が示されている。図9に示すように、本実施形態の注視位置推定装置は、第1の実施形態の顕著度画像生成装置における入力部10、画像基礎顕著度画像算出部1、音響顕著度信号算出部2、画像基礎顕著度選択部3、画像顕著度画像算出部4、及び顕著度映像算出部5と、注視位置推定部6とで構成される。本実施形態の注視位置推定装置は、入力部10により入力された、注視位置推定の対象となる入力映像のフレーム内の各位置における人間の注視位置を推定した結果である推定注視位置を出力する。   FIG. 9 shows an outline of the configuration of the gaze position estimation apparatus according to the second embodiment. As shown in FIG. 9, the gaze position estimation device of the present embodiment includes an input unit 10, an image basic saliency image calculation unit 1, an acoustic saliency signal calculation unit 2 in the saliency image generation device of the first embodiment, The image basic saliency selection unit 3, the image saliency image calculation unit 4, the saliency video calculation unit 5, and the gaze position estimation unit 6 are configured. The gaze position estimation apparatus according to the present embodiment outputs an estimated gaze position that is a result of estimating the gaze position of a human at each position in the frame of the input video that is the target of gaze position estimation, input by the input unit 10. .

次に、第2の実施形態の作用を説明する。第2の実施形態の作用は、第1の実施形態の作用と同様な部分があるので、異なる部分についてのみ説明する。   Next, the operation of the second embodiment will be described. Since the operation of the second embodiment has the same part as the operation of the first embodiment, only different parts will be described.

図10には、第2の実施の形態に係る注視位置推定処理プログラムを示すフローチャートが示されている。   FIG. 10 is a flowchart showing a gaze position estimation processing program according to the second embodiment.

図10に示されているように、ステップ5Sの顕著度映像算出処理が実行されると、ステップ6Sで、注視位置推定部6が、注視位置推定処理を実行する。詳細には次の通りである。   As shown in FIG. 10, when the saliency video calculation process in step 5S is executed, the gaze position estimation unit 6 executes the gaze position estimation process in step 6S. Details are as follows.

注視位置推定部6は、顕著度映像算出部5により入力された顕著度映像の各フレームである顕著度画像の各位置における人間の注視位置を推定した結果である推定注視位置を出力する。   The gaze position estimation unit 6 outputs an estimated gaze position that is a result of estimating a human gaze position at each position of the saliency image that is each frame of the saliency video input by the saliency video calculation unit 5.

注視位置の推定方法は特に限定されるものではないが、顕著度画像の画素値が最大となる位置を推定注視位置とする方法、特許文献6(特開2009-259035号公報)などに示される確率的モデルに基づいて注視位置を推定する方法を用いてもよい。   The method for estimating the gaze position is not particularly limited, but is described in a method in which the position where the pixel value of the saliency image is maximum is set as the estimated gaze position, Patent Document 6 (Japanese Patent Laid-Open No. 2009-259035), and the like. A method of estimating the gaze position based on the probabilistic model may be used.

以上説明したように、第2の実施の形態に係る注視位置推定装置によれば、入力映像を構成する各時刻のフレームの入力画像及び入力映像を構成する音響信号を用いて得られた顕著度画像から注視位置を推定することができる。   As described above, according to the gaze position estimation device according to the second embodiment, the saliency obtained by using the input image of the frame at each time constituting the input video and the acoustic signal constituting the input video. The gaze position can be estimated from the image.

[第3の実施の形態]  [Third embodiment]

次に、第3の実施の形態に係る注視位置推定装置について説明する。なお、第3の実施の形態に係る注視位置推定装置の構成は、第1の実施の形態と同様となるため、同一符号を付して説明を省略する。   Next, a gaze position estimation apparatus according to the third embodiment will be described. In addition, since the structure of the gaze position estimation apparatus which concerns on 3rd Embodiment becomes the same as that of 1st Embodiment, it attaches | subjects the same code | symbol and abbreviate | omits description.

第3の実施の形態に係る注視位置推定装置では、画像基礎顕著度選択部3は、上記のように入力された画像基礎顕著度画像の集合及び音響顕著度信号に基づいて、音響顕著度が大きな時間区間における主要な画像基礎顕著度成分を選択(上記画像信号成分を強調)し、これを主要画像基礎顕著度成分として出力する。   In the gaze position estimation device according to the third embodiment, the image basic saliency selection unit 3 has the acoustic saliency based on the set of image basic saliency images and the acoustic saliency signal input as described above. A main image basic saliency component in a large time interval is selected (the image signal component is emphasized), and this is output as a main image basic saliency component.

画像基礎顕著度成分の選択方法は特に限定されるものではないが、本実施形態においては、指数平滑法に基づく音響顕著度信号と画像基礎顕著度画像の画素値との相関係数を採用する。   The selection method of the image basic saliency component is not particularly limited, but in the present embodiment, a correlation coefficient between the acoustic saliency signal based on the exponential smoothing method and the pixel value of the image basic saliency image is adopted. .

本実施の形態では、指数平滑法と呼ばれる、現時点までに得られている時系列信号から未来の時系列信号を予測する手法を用いる。
指数平滑法では,2つの時系列信号が同時正規分布に従って生成されていると仮定して、時系列信号の予測を行う。2つの時系列信号を
In this embodiment, a technique called exponential smoothing is used to predict a future time-series signal from time-series signals obtained up to the present time.
In exponential smoothing, a time series signal is predicted on the assumption that two time series signals are generated according to a simultaneous normal distribution. Two time series signals

とすると、それぞれの平均値は Then each average value is

と計算され、同様に共分散は Similarly, the covariance is

と計算される。ただし、αはあらかじめ定められた定数もしくは時刻tに対して単調に減少する関数の出力とする。これらの統計量を用いることで,2つの時系列信号の相関係数 Is calculated. Here, α is a predetermined constant or an output of a function that monotonously decreases with respect to time t. By using these statistics, the correlation coefficient of two time series signals

及び相互情報量 And mutual information

が、以下のように計算される。 Is calculated as follows:

この指数平滑法を用いることで、各時刻t、画素xにおいて、音響顕著度信号S(t)と各画像基礎顕著度画像 By using this exponential smoothing method, at each time t and pixel x, the acoustic saliency signal S A (t) and each image basic saliency image

との相関係数 Correlation coefficient

と相互情報量 And mutual information

を計算できる。この相関係数の2乗もしくは相互情報量、もしくはそれを二値化したものが、各特徴種別(インデックスj)・各時刻t・各位置xの重要度 Can be calculated. The square of this correlation coefficient or mutual information, or the binarized value is the importance of each feature type (index j), each time t, and each position x

を表現していると考え、これを主要画像基礎特徴量成分として、出力する。 Is output as a main image basic feature amount component.

別の実施形態として、隣接する画素位置での重要度が互いに近い値を取るように、空間的なフィルタリング処理を加える方法が考えられる。   As another embodiment, a method of applying a spatial filtering process so that importance at adjacent pixel positions takes values close to each other can be considered.

まず、画像基礎顕著度画像   First, image basic saliency image

を二値化する。二値化の方法として、例えば、平均画素値を閾値とする方法などが考えられる。次に、二値化した画像基礎顕著度画像 Is binarized. As a binarization method, for example, a method using an average pixel value as a threshold value can be considered. Next, binarized image basic saliency image

を重要度画像 The importance image

に掛け合わせ、二値化した画像基礎顕著度画像が非零の画素位置でのみ非零となる重要度画像を得る。これにガウシアンフィルタなどの空間平滑化フィルタをかけ、その結果 To obtain an importance image in which the binarized image basic saliency image is non-zero only at non-zero pixel positions. This is subjected to a spatial smoothing filter such as a Gaussian filter.

を最終的な重要度として採用し、主要画像基礎特徴量成分として出力する。 Is used as the final importance and is output as the main image basic feature amount component.

さらに別の実施形態として、重要度画像   In yet another embodiment, the importance image

の画素値の平均と分散に応じて重要度を操作する方法も考えられる。この重要度画像に代えて、空間的なフィルタリング処理を加えた重要度画像 A method of manipulating the importance in accordance with the average and variance of the pixel values is also conceivable. Instead of this importance image, importance image with spatial filtering processing added

を用いても良い。重要度画像 May be used. Importance image

の画素の平均値を The average value of pixels

、標準偏差を The standard deviation

とすると、変換後の重要度画像の各画素値 Then, each pixel value of the importance image after conversion

は以下のように計算される。 Is calculated as follows:


画像顕著度画像算出部4は、入力された画像基礎顕著度画像の集合、主要画像基礎顕著度成分及び必要であれば音響顕著度信号に基づいて、入力画像の各位置における顕著度を表示した画像である顕著度画像を出力する。

The image saliency image calculation unit 4 displays the saliency at each position of the input image based on the set of the input image basic saliency images, the main image basic saliency component, and if necessary, the acoustic saliency signal. A saliency image that is an image is output.

顕著度画像の算出方法は特に限定されるものではないが、本実施形態においては、主要画像基礎顕著度成分として選択された画像基礎顕著度画像を選択的に用いて顕著度画像を構成する方法を採用する。本実施形態では、主要画像基礎特徴量成分が各画像基礎顕著度・各時刻・各画素位置の重要度として与えられており、時刻tの顕著度画像S(t)は以下のように算出される。   The calculation method of the saliency image is not particularly limited, but in the present embodiment, a method of constructing the saliency image by selectively using the image basic saliency image selected as the main image basic saliency component Is adopted. In this embodiment, the main image basic feature amount component is given as the importance of each image basic saliency, each time, and each pixel position, and the saliency image S (t) at time t is calculated as follows. The

ここで、βは予め定められた定数とする。上の式はすなわち、音響顕著度信号が0に近いときには第1項が、音響顕著度信号が大きいときには第2項が、それぞれ支配的となることから、音響顕著度信号の大小によって、画像基礎顕著度選択部3の結果を反映させるかどうかを制御することを意味する。β=0の場合には選択された主要画像基礎特徴量成分を用いずにすべての画像基礎特徴量成分を、β=∞の場合には選択された主要画像基礎特徴量成分のみを、それぞれ用いる、特殊ケースとなる。   Here, β is a predetermined constant. In other words, the first term is dominant when the acoustic saliency signal is close to 0, and the second term is dominant when the acoustic saliency signal is large. It means to control whether or not the result of the saliency selector 3 is reflected. When β = 0, all image basic feature components are used without using the selected main image basic feature component, and when β = 0, only the selected main image basic feature component is used. It becomes a special case.

なお、第3の実施の形態に係る注視位置推定装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。   In addition, about the other structure and effect | action of the gaze position estimation apparatus which concern on 3rd Embodiment, since it is the same as that of 1st Embodiment, description is abbreviate | omitted.

[実験結果]  [Experimental result]

次に、本発明の第1の実施形態の実験結果を説明する。本実験では、入力映像として、長さ3.5〜8.0秒の中の映像1E〜映像3Eの3種類を用意した。各映像の大きさは、映像1Eと映像2Eが1024×576ピクセル、映像3Eが1280×710ピクセルである。 第1の実施形態の効果を確認するため、第1の実施形態の方法及び既知の方法によって得られる顕著度映像がどの程度人間の視覚特性を模擬できているかを比較した。人間の視覚特性を表現する統計量として、人間が実際に入力映像を視聴している際の注視位置を採用した。15名の被験者に入力映像を提示し、既存の視線測定装置を用いて各被験者の入力映像中の注視位置を逐次測定した。各被験者に各入力映像をランダムな順序で1回ずつ提示した。これにより、各被験者・各入力映像について、注視位置の時系列を1本獲得した。この注視位置の時系列を、時刻の整合性を保ちながら入力映像の各フレーム(すなわち入力画像)に対応付けることで、各被験者・各入力画像について注視位置を獲得した。   Next, experimental results of the first embodiment of the present invention will be described. In this experiment, three types of images 1E to 3E within a length of 3.5 to 8.0 seconds were prepared as input images. The size of each video is 1024 × 576 pixels for video 1E and video 2E, and 1280 × 710 pixels for video 3E. In order to confirm the effect of the first embodiment, the degree of saliency video obtained by the method of the first embodiment and the known method is compared to how much human visual characteristics can be simulated. As a statistic that expresses human visual characteristics, we used the gaze position when humans were actually watching the input video. The input video was presented to 15 subjects, and the gaze position in the input video of each subject was sequentially measured using an existing gaze measurement device. Each subject was presented with each input video once in a random order. As a result, one time series of gaze positions was obtained for each subject and each input video. The gaze position was acquired for each subject and each input image by associating the time series of the gaze position with each frame (that is, the input image) of the input video while maintaining time consistency.

間の視覚特性の模擬に関する評価尺度として、normalized scan-path saliency(NSS)と呼ばれる評価尺度を採用した。これは、被験者の注視位置における顕著度の値を正規化して期待値を取ったものであり、この定義より、NSSは、被験者の注視位置における顕著度の値が大きいほど大きな値を取る尺度であることが理解される。このNSSは、以下のように算出される。第j番目の入力映像I(j=1,2,3)の時刻tの入力画像i(t)(t=1,2,・・・、T )について、評価対象とする顕著度画像S(t;I)={s(x,t; I)} とする。また、入力映像Iに対応する被験者n (n=1,2,・・・、N=15) の注視位置系列をV(I)={v(t;I)}とする。このとき、時刻tの顕著度画像S(t;I) の評価値NSS(t; I) は以下のように計算される。 As an evaluation measure for the simulation of the visual characteristics between human employing a rating scale called normalized scan-path saliency (NSS) . This is the expected value obtained by normalizing the saliency value at the gaze position of the subject. From this definition, NSS is a scale that takes a larger value as the saliency value at the gaze position of the subject is larger. It is understood that there is. This NSS is calculated as follows. The saliency to be evaluated for the input image i j (t) (t = 1, 2,..., T j ) at the time t of the j-th input video I j (j = 1, 2, 3). Let image S (t; I j ) = {s (x, t; I j )} x . Further, the gaze position series of the subject n (n = 1, 2,..., N = 15) corresponding to the input video I j is represented as V n (I j ) = {v n (t; I j )} t . To do. At this time, the evaluation value NSS (t; I j ) of the saliency image S (t; I j ) at time t is calculated as follows.

だし、s(t;Ij)及びσS(t;Ij)は、入力像Iから抽出した顕著度画像S(t;Ij)のピクセル値s(x,t;I) の平均及び分散を表す。 However, s (t; I j) and σ S (t; I j) is significantly level image S extracted from the input Film image I j; pixel value s (x in (t I j), t; I j ) Mean and variance.

顕著度映像S(I)={S(t;I)}tの評価値NSS(I)は、各時刻の顕著度画像S(t;I)についての評価値を平均することで得られる。 The evaluation value NSS (I j ) of the saliency video S (I j ) = {S (t; I j )} t is obtained by averaging the evaluation values for the saliency images S (t; I j ) at each time. It is obtained by.

NSSを評価尺度とした結果の概略を図11、図13、及び図15に、フレームごとの評価結果を図12、図14、及び図16に示す。   11, 13, and 15 schematically show the results of using NSS as an evaluation scale, and FIGS. 12, 14, and 16 show the evaluation results for each frame.

図11、図13、及び図15はそれぞれ、映像1E〜3Eに対する評価結果の概要を示す図であり、図12、図14、及び図16はそれぞれ、映像1E〜3Eに対するフレームごとの評価結果を示す図である。   11, FIG. 13, and FIG. 15 are diagrams each showing an overview of the evaluation results for the videos 1E to 3E. FIGS. 12, 14, and 16 show the evaluation results for each frame for the videos 1E to 3E. FIG.

図11、図13、及び図15に示すように、音響顕著度が閾値θs以上の時刻のみを評価した場合(上欄)と、すべての時刻を評価した場合(下欄)とのそれぞれにおいて、NSSの値は、非特許文献1に従う従来手法より、本提案手法(第1の実施形態)の方が大きい。上記のように、NSSは、被験者の注視位置における顕著度の値が大きいほど大きな値を取る尺度である。よって、図11、図13、及び図15に示す結果から、第1の本実施形態の方法が従来手法よりも良い評価結果を得ていることがわかる。 As shown in FIG. 11, FIG. 13, and FIG. 15, in each of the case where only the time when the acoustic saliency is equal to or greater than the threshold θ s is evaluated (upper column) and the case where all the times are evaluated (lower column). , NSS is larger in the proposed method (first embodiment) than in the conventional method according to Non-Patent Document 1. As described above, NSS is a scale that takes a larger value as the value of the saliency at the gaze position of the subject increases. Therefore, it can be seen from the results shown in FIG. 11, FIG. 13, and FIG. 15 that the method of the first embodiment obtains a better evaluation result than the conventional method.

また、図11、図13、及び図15に示すように、音響顕著度の閾値θsが、最適値(optimal)の場合と0の場合では、NSSの値は大きく異ならない。よって、音響顕著度の高いフレームにおける主要な画像特徴量を強調する第1の実施形態の方法は、音響顕著度が高いフレームだけに限って適用する必要はないことが見て取れる。 Further, FIG. 11, as shown in FIG. 13, and FIG. 15, the threshold theta s acoustic remarkable degree, in the case where the 0 optimal value (optimal), the value of NSS is not significantly different. Therefore, it can be seen that the method of the first embodiment for emphasizing main image feature amounts in frames with high acoustic saliency need not be applied only to frames with high acoustic saliency.

図12、図14、及び図16には、各フレーム(Frame;横軸)に対する、NSSの値(左縦軸)及び音響顕著度(surprise;右縦軸)が示されている。図12、図14、及び図16において、灰色に塗られたフレームは、音響顕著度が閾値以上の時刻に対応するフレームを示す。各フレームに対応する音響顕著度(Auditory surprise)は、実線で示されている。非特許文献1に従う従来手法のNSSの値(Conventional)は、点線で示されている。音響顕著度の閾値θsが最適値(optimal)の場合の本提案手法(第1の実施形態)のNSSの値(Surprise frame)は、二点鎖線で示されている。音響顕著度の閾値θsが0の場合の本提案手法(第1の実施形態)のNSSの値(All frame)は、一点鎖線で示されている。図12、図14、及び図16に示すように、音響顕著度が閾値以上の時刻に対応するフレームにおけるNSSの値ばかりではなく、音響顕著度が閾値未満の時刻に対応するフレームにおけるNSSの値の多くも一定値以上である。よって、図12、図14、及び図16に示す結果から、選択された画像特徴量を強調する本発明の方法は、音響顕著度が高いフレームだけではなく、音響顕著度が必ずしも高くないフレームの多くに対しても、効果が高いことが見て取れる。 In FIG. 12, FIG. 14, and FIG. 16, the NSS value (left vertical axis) and acoustic saliency (surprise; right vertical axis) for each frame (Frame; horizontal axis) are shown. In FIG. 12, FIG. 14, and FIG. 16, a frame painted in gray indicates a frame corresponding to a time when the acoustic saliency is equal to or greater than a threshold value. The acoustic surprise corresponding to each frame is indicated by a solid line. The NSS value (Conventional) of the conventional method according to Non-Patent Document 1 is indicated by a dotted line. The NSS value (Surprise frame) of the proposed method (first embodiment) when the acoustic saliency threshold value θ s is an optimum value (optimal) is indicated by a two-dot chain line. The NSS value (All frame) of the proposed method (first embodiment) when the acoustic saliency threshold θ s is 0 is indicated by a one-dot chain line. As shown in FIGS. 12, 14, and 16, not only the NSS value in the frame corresponding to the time when the acoustic saliency is greater than or equal to the threshold value, but also the NSS value in the frame corresponding to the time when the acoustic saliency is less than the threshold value. Many of them are above a certain value. Therefore, from the results shown in FIGS. 12, 14, and 16, the method of the present invention for enhancing the selected image feature amount is not only for frames with high acoustic saliency but also for frames with low acoustic saliency. For many, it can be seen that the effect is high.

[変形例]
顕著度画像生成装置及び注視位置推定装置の各々の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、顕著度画像生成装置及び注視位置推定装置の各々に係る上述した種々の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
[Modification]
A program for executing each process of the saliency image generating device and the gaze position estimating device is recorded on a computer-readable recording medium, and the program recorded on the recording medium is read into a computer system and executed. Accordingly, the above-described various processes relating to each of the saliency image generation apparatus and the gaze position estimation apparatus may be performed. Here, the “computer system” may include an OS and hardware such as peripheral devices. Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used. The “computer-readable recording medium” means a flexible disk, a magneto-optical disk, a ROM, a writable nonvolatile memory such as a flash memory, a portable medium such as a CD-ROM, a hard disk built in a computer system, etc. This is a storage device.

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。   Further, the “computer-readable recording medium” means a volatile memory (for example, DRAM (Dynamic DRAM) in a computer system that becomes a server or a client when a program is transmitted through a network such as the Internet or a communication line such as a telephone line. Random Access Memory)), etc., which hold programs for a certain period of time. The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。   The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.

10 入力部
1 画像基礎顕著度画像算出部
2 音響顕著度信号算出部
3 画像基礎顕著度選択部
4 画像顕著度画像算出部
5 顕著度映像算出部
11 画像基礎特徴量画像抽出部
12 画像多重解像度画像抽出部
13 画像解像度差分画像抽出部
14 画像時間差分画像抽出部
15 画像基礎顕著度画像抽出部
21 音響基礎特徴量抽出部
22 音響顕著度信号抽出部
111 輝度特徴画像抽出部
112 色特徴画像抽出部
113 方向特徴画像抽出部
114 点滅特徴画像抽出部
115 運動特徴画像抽出部
DESCRIPTION OF SYMBOLS 10 Input part 1 Image basic saliency image calculation part 2 Acoustic saliency signal calculation part 3 Image basic saliency selection part 4 Image saliency image calculation part 5 Saliency video calculation part 11 Image basic feature image extraction part 12 Image multi-resolution Image extraction unit 13 Image resolution difference image extraction unit 14 Image time difference image extraction unit 15 Image basic saliency image extraction unit 21 Acoustic basic feature amount extraction unit 22 Acoustic saliency signal extraction unit 111 Luminance feature image extraction unit 112 Color feature image extraction Unit 113 direction feature image extraction unit 114 blinking feature image extraction unit 115 motion feature image extraction unit

Claims (8)

入力映像を構成する各時刻のフレームの入力画像について、複数の特徴種別の各々に対し、前記入力画像における顕著な特性を有する度合いを示す基礎顕著度画像を生成し、基礎顕著度画像の集合とする画像基礎顕著度画像抽出部と、
前記入力映像を構成する音響信号について、各時刻における顕著な特性を有する度合いを示す音響顕著度信号を生成する音響顕著度信号算出部と、
前記複数の特徴種別の各々に対し、各時刻及び各画素について、前記時刻のフレームについての前記基礎顕著度画像の集合に含まれる前記特徴種別に対する基礎顕著度画像の前記画素と、前記時刻における音響顕著度信号との相関を算出し、前記複数の特徴種別の各々に対する、各時刻及び各画素についての前記相関に基づいて、主要画像基礎顕著度成分を生成する画像基礎顕著度選択部と、
各時刻のフレームについての前記基礎顕著度画像の集合と、前記主要画像基礎顕著度成分とに基づいて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成する画像顕著度画像算出部と、
を含む顕著度画像生成装置。
A basic saliency image indicating a degree of remarkable characteristics in the input image is generated for each of a plurality of feature types for an input image of each time frame constituting the input video, and a set of basic saliency images An image basic saliency image extracting unit,
An acoustic saliency signal calculation unit that generates an acoustic saliency signal indicating a degree of having a remarkable characteristic at each time for the acoustic signal constituting the input video;
For each of the plurality of feature types, for each time and each pixel, the pixel of the basic saliency image for the feature type included in the set of basic saliency images for the frame of the time, and the sound at the time An image basic saliency selection unit that calculates a correlation with a saliency signal and generates a main image basic saliency component based on the correlation for each time and each pixel for each of the plurality of feature types;
Image saliency that generates a saliency image indicating saliency at each position of the input image of each time frame based on the set of basic saliency images for each time frame and the main image basic saliency component. A degree image calculator,
A saliency image generating apparatus.
前記画像基礎顕著度選択部は、前記複数の特徴種別の各々に対し、各時刻及び各画素について、前記時刻のフレームについての前記基礎顕著度画像の集合に含まれる前記特徴種別に対する基礎顕著度画像の前記画素と、前記時刻における音響顕著度信号との相関を示す相関値を算出し、前記複数の特徴種別の各々に対し、前記相関値が閾値を上回る回数を算出し、前記回数が閾値よりも大きくなる前記特徴種別からなる主要画像基礎顕著度成分を生成する請求項1記載の顕著度画像生成装置。   The image basic saliency selection unit, for each of the plurality of feature types, for each time and each pixel, a basic saliency image for the feature type included in the set of basic saliency images for the frame of the time A correlation value indicating a correlation between the pixel and the acoustic saliency signal at the time is calculated, and for each of the plurality of feature types, the number of times the correlation value exceeds a threshold is calculated. The saliency image generating apparatus according to claim 1, wherein a main image basic saliency component including the characteristic type that increases is also generated. 前記画像基礎顕著度選択部は、前記複数の特徴種別の各々に対し、各時刻及び各画素について、前記時刻のフレームについての前記基礎顕著度画像の集合に含まれる前記特徴種別に対する基礎顕著度画像の前記画素と、前記時刻における音響顕著度信号との相関を示す統計量を算出し、前記複数の特徴種別の各々に対する、各時刻及び各画素についての前記統計量に基づいて、前記特徴種別の各々に対する、各時刻及び各画素についての重要度からなる主要画像基礎顕著度成分を生成する請求項1記載の顕著度画像生成装置。   The image basic saliency selection unit, for each of the plurality of feature types, for each time and each pixel, a basic saliency image for the feature type included in the set of basic saliency images for the frame of the time A statistic indicating a correlation between the pixel and the acoustic saliency signal at the time, and for each of the plurality of feature types, based on the statistic for each time and each pixel, The saliency image generating apparatus according to claim 1, wherein a main image basic saliency component including importance for each time and each pixel is generated for each. 前記画像基礎顕著度画像抽出部は、前記入力映像を構成する各時刻のフレームの入力画像について、前記複数の特徴種別の各々に対し、前記入力画像における各画素の前記特徴種別の特徴量を示す画像基礎特徴画像を生成して、画像基礎特徴画像の集合とし、
前記複数の特徴種別の各々に対し、画像基礎特徴画像の集合に含まれる前記特徴種別に対する前記画像基礎特徴画像について、空間的な顕著な特性を有する度合いを示す空間方向の基礎顕著度画像、及び時間的な顕著な特性を有する度合いを示す時間方向の基礎顕著度画像を生成し、前記生成した前記空間方向の基礎顕著度画像及び前記時間方向の基礎顕著度画像に基づいて、前記基礎顕著度画像を所定の時間間隔で生成し、前記基礎顕著度画像の集合とし、
前記音響顕著度信号算出部は、前記入力映像を構成する音響信号について、各時刻における音響基礎特徴量を抽出し、前記抽出された各時刻における音響基礎特徴量に基づいて、前記画像基礎顕著度画像抽出部で基礎顕著度画像を生成した時刻と同じ各時刻における前記音響顕著度信号を前記所定の時間間隔で生成する請求項1又は2記載の顕著度画像生成装置。
The image basic saliency image extraction unit indicates a feature amount of the feature type of each pixel in the input image with respect to each of the plurality of feature types for the input image of each time frame constituting the input video. An image basic feature image is generated as a set of image basic feature images.
For each of the plurality of feature types, a basic saliency image in a spatial direction indicating a degree of having a spatially remarkable characteristic with respect to the image basic feature image for the feature type included in the set of image basic feature images, and A basic saliency image in a time direction indicating a degree having a remarkable characteristic in time is generated, and the basic saliency is generated based on the generated basic saliency image in the spatial direction and the basic saliency image in the time direction. Images are generated at predetermined time intervals, and set as the set of basic saliency images;
The acoustic saliency signal calculation unit extracts an acoustic basic feature amount at each time for an acoustic signal constituting the input video, and based on the extracted acoustic basic feature amount at each time, the image basic saliency level 3. The saliency image generating apparatus according to claim 1, wherein the acoustic saliency signal at each same time as the time when the basic saliency image is generated by the image extraction unit is generated at the predetermined time interval.
前記画像基礎顕著度画像抽出部は、前記複数の特徴種別の各々に対し、画像基礎特徴画像の集合に含まれる前記特徴種別に対する前記画像基礎特徴画像について、空間的な顕著な特性を有する度合いを示す空間方向の基礎顕著度画像、及び時間的な顕著な特性を有する度合いを示す時間方向の基礎顕著度画像を生成し、前記生成した前記空間方向の基礎顕著度画像、前記時間方向の基礎顕著度画像、及び予め定められた確率モデルに基づいて、前記基礎顕著度画像を生成し、前記基礎顕著度画像の集合とし、
前記音響顕著度信号算出部は、前記入力映像を構成する音響信号について、各時刻における音響基礎特徴量を抽出し、前記抽出された各時刻における音響基礎特徴量、及び前記予め定められた確率モデルに基づいて、各時刻における前記音響顕著度信号を生成する請求項4記載の顕著度画像生成装置。
The image basic saliency image extracting unit has a degree of spatial remarkable characteristics with respect to each of the plurality of feature types with respect to the image basic feature image corresponding to the feature type included in the set of image basic feature images. Generating a spatial saliency image and a temporal saliency image indicating the degree of temporal characteristics, and generating the generated spatial saliency image and temporal saliency image. Generating the basic saliency image based on a degree image and a predetermined probability model, and as a set of the basic saliency images,
The acoustic saliency signal calculation unit extracts an acoustic basic feature amount at each time from the acoustic signal constituting the input video, and the extracted acoustic basic feature amount at each time, and the predetermined probability model The saliency image generation device according to claim 4, wherein the saliency signal at each time is generated based on the sig- nal.
前記確率モデルを、ガンマ分布とした請求項5記載の顕著度画像生成装置。   The saliency image generating apparatus according to claim 5, wherein the probability model is a gamma distribution. 画像基礎顕著度画像抽出部が、入力映像を構成する各時刻のフレームの入力画像について、複数の特徴種別の各々に対し、前記入力画像における顕著な特性を有する度合いを示す基礎顕著度画像を生成し、基礎顕著度画像の集合とし、
音響顕著度信号算出部が、前記入力映像を構成する音響信号について、各時刻における顕著な特性を有する度合いを示す音響顕著度信号を生成し、
画像基礎顕著度選択部が、前記複数の特徴種別の各々に対し、各時刻及び各画素について、前記時刻のフレームについての前記基礎顕著度画像の集合に含まれる前記特徴種別に対する基礎顕著度画像の前記画素と、前記時刻における音響顕著度信号との相関を算出し、前記複数の特徴種別の各々に対する、各時刻及び各画素についての前記相関に基づいて、主要画像基礎顕著度成分を生成し、
画像顕著度画像算出部が、各時刻のフレームについての前記基礎顕著度画像の集合と、前記主要画像基礎顕著度成分とに基づいて、各時刻のフレームの入力画像の各位置における顕著度を示す顕著度画像を生成する
顕著度画像生成方法。
The image basic saliency image extraction unit generates a basic saliency image indicating the degree of remarkable characteristics in the input image for each of a plurality of feature types for the input image of each time frame constituting the input video. And a set of basic saliency images,
The acoustic saliency signal calculating unit generates an acoustic saliency signal indicating the degree of remarkable characteristics at each time for the acoustic signals constituting the input video,
An image basic saliency selection unit, for each of the plurality of feature types, for each time and each pixel, a basic saliency image for the feature type included in the set of basic saliency images for the frame of the time Calculating a correlation between the pixel and the acoustic saliency signal at the time, and generating a main image basic saliency component based on the correlation for each time and each pixel for each of the plurality of feature types;
The image saliency image calculation unit indicates the saliency at each position of the input image of the frame at each time based on the set of basic saliency images for the frame at each time and the main image basic saliency component. A method for generating a saliency image.
コンピュータを、請求項1〜請求項6の何れか1項記載の顕著度画像生成装置の各部として機能させるためのプログラム。   The program for functioning a computer as each part of the saliency image generation apparatus of any one of Claims 1-6.
JP2014265444A 2014-05-27 2014-12-26 Saliency image generating apparatus, method, and program Active JP6318451B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014265444A JP6318451B2 (en) 2014-05-27 2014-12-26 Saliency image generating apparatus, method, and program

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014109094 2014-05-27
JP2014109094 2014-05-27
JP2014265444A JP6318451B2 (en) 2014-05-27 2014-12-26 Saliency image generating apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2016006478A JP2016006478A (en) 2016-01-14
JP6318451B2 true JP6318451B2 (en) 2018-05-09

Family

ID=55224951

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014265444A Active JP6318451B2 (en) 2014-05-27 2014-12-26 Saliency image generating apparatus, method, and program

Country Status (1)

Country Link
JP (1) JP6318451B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6795469B2 (en) * 2017-08-04 2020-12-02 Kddi株式会社 Gaze area estimator and program
CN109447136A (en) * 2018-10-15 2019-03-08 方玉明 A kind of conspicuousness detection method for 360 degree of images
WO2020121382A1 (en) * 2018-12-10 2020-06-18 オリンパス株式会社 Information processing device, information processing method, and program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4750758B2 (en) * 2007-06-20 2011-08-17 日本電信電話株式会社 Attention area extraction method, attention area extraction device, computer program, and recording medium

Also Published As

Publication number Publication date
JP2016006478A (en) 2016-01-14

Similar Documents

Publication Publication Date Title
KR102275452B1 (en) Method for tracking image in real time considering both color and shape at the same time and apparatus therefor
US11113842B2 (en) Method and apparatus with gaze estimation
JP2021521993A5 (en)
CN110073369B (en) Unsupervised learning technique for time difference model
US20170007137A1 (en) Method of estimating blood pressure based on image
CN110599421B (en) Model training method, video fuzzy frame conversion method, device and storage medium
JP6045396B2 (en) Image processing apparatus, image processing method, and image processing program
JP2013542046A5 (en)
US20160171341A1 (en) Apparatus and method for detecting object in image, and apparatus and method for computer-aided diagnosis
WO2020029874A1 (en) Object tracking method and device, electronic device and storage medium
JP5530399B2 (en) Image processing method, image processing apparatus, and image processing program
JP6318451B2 (en) Saliency image generating apparatus, method, and program
Kim et al. Deep objective assessment model based on spatio-temporal perception of 360-degree video for VR sickness prediction
JP5718494B1 (en) Impression estimation device, method thereof, and program
WO2017158999A1 (en) Degree-of-interest estimation device, degree-of-interest estimation method, program, and storage medium
JP2019028939A (en) Estimation method and estimation device
JP2012073935A (en) Movement evaluation device, similarity evaluation method, and movement evaluation and confirmation method
JP6713422B2 (en) Learning device, event detection device, learning method, event detection method, program
JP5025713B2 (en) Attribute identification device and attribute identification program
Nieto et al. How video object tracking is affected by in-capture distortions?
Dimas et al. MedGaze: Gaze Estimation on WCE Images Based on a CNN Autoencoder
JP4750758B2 (en) Attention area extraction method, attention area extraction device, computer program, and recording medium
JP2010092293A (en) Apparatus, method and program for detecting feature quantity of time-space image
CA3032978A1 (en) Saliency mapping of imagery during artificially intelligent image classification
JP5901353B2 (en) Image processing device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20170424

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180316

R150 Certificate of patent or registration of utility model

Ref document number: 6318451

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350