JP2023013821A - Image processing device, image reproducing device, and program - Google Patents
Image processing device, image reproducing device, and program Download PDFInfo
- Publication number
- JP2023013821A JP2023013821A JP2021118256A JP2021118256A JP2023013821A JP 2023013821 A JP2023013821 A JP 2023013821A JP 2021118256 A JP2021118256 A JP 2021118256A JP 2021118256 A JP2021118256 A JP 2021118256A JP 2023013821 A JP2023013821 A JP 2023013821A
- Authority
- JP
- Japan
- Prior art keywords
- image data
- information
- image
- unit
- saliency map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000284 extract Substances 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 52
- 230000008569 process Effects 0.000 claims description 40
- 238000010801 machine learning Methods 0.000 claims description 32
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 abstract description 10
- 238000011156 evaluation Methods 0.000 description 14
- 230000010365 information processing Effects 0.000 description 14
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Landscapes
- Image Processing (AREA)
- Television Signal Processing For Recording (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、画像処理装置、画像再生装置、及びプログラムに関する。 The present invention relates to an image processing device, an image reproducing device, and a program.
近年では、コンピュータを用いて種々の画像データ(静止画像であると動画像であるとを問わない)を視聴する機会が増大している。このような背景の下、種々の画像データのそれぞれから注目するべき領域を利用者に案内することが要望されている。このような要望は、画像全体の一部が表示される全天球画像などの広角の画像データや、動画像データにおいて顕著である。 2. Description of the Related Art In recent years, opportunities to view various image data (regardless of whether they are still images or moving images) using computers are increasing. Under such circumstances, it is desired to guide the user to the area to be noticed from each of various image data. Such a demand is conspicuous in wide-angle image data such as omnidirectional images in which a part of the entire image is displayed, and moving image data.
非特許文献1には、入力された画像データのなかで特徴的な部分を検出した、顕著性マップ(Saliency map)を生成する技術が開示されている。このような技術を利用すると、画像データから、注目するべき部分を見出すことは一応可能である。
Non-Patent
しかしながら、上記従来の顕著性マップを利用する場合には、次のような問題点があった。まず第1に、顕著性マップは画像データ内での顕著性の分布を示すものであるため、必ずしも視聴者にとって意味のある領域を抽出できない。また第2に、全天球画像などの広角の画像データについて顕著性マップを生成する場合、正距円筒画像などの矩形の画像に変換してから処理を行うこととなる。しかし、正距円筒画像に変換する際、有意な部分が左右あるいは上下に分割されてしまい、意図した顕著性マップが得られない場合があって、注目領域の検出は困難なものとなっていた。 However, when using the conventional saliency map, there are the following problems. First of all, since the saliency map shows the distribution of saliency in the image data, it cannot always extract regions that are meaningful to the viewer. Secondly, when generating a saliency map for wide-angle image data such as an omnidirectional image, processing is performed after conversion into a rectangular image such as an equirectangular image. However, when converting to an equirectangular image, the significant part is divided horizontally or vertically, and the intended saliency map may not be obtained, making it difficult to detect the region of interest. .
本発明は上記実情に鑑みて為されたもので、注目領域を検出でき、また、広角の画像データに対応した処理を行うことのできる画像処理装置、画像再生装置、及びプログラムを提供することを、その目的の一つとする。 SUMMARY OF THE INVENTION The present invention has been made in view of the above circumstances, and aims to provide an image processing apparatus, an image reproducing apparatus, and a program capable of detecting an attention area and performing processing corresponding to wide-angle image data. , as one of its purposes.
上記従来例の問題点を解決する本発明の一態様は、画像処理装置であって、処理の対象となる画像データを取得する取得手段と、前記取得した画像データから、所定の条件を満足する注目領域の候補となる候補領域を、複数抽出する候補領域抽出手段と、前記取得した画像データに基づいて、当該画像データに係る顕著性マップ情報を推定する顕著性マップ推定手段と、前記顕著性マップと、前記候補領域の情報とに基づいて、前記取得した画像データ内の注目領域を決定する決定手段と、を含むこととしたものである。 One aspect of the present invention that solves the problems of the conventional example is an image processing apparatus comprising an acquisition unit that acquires image data to be processed, and an image processing apparatus that satisfies a predetermined condition from the acquired image data. Candidate area extraction means for extracting a plurality of candidate areas that are candidates for the attention area; Saliency map estimation means for estimating saliency map information related to the acquired image data based on the acquired image data; determining means for determining a region of interest in the acquired image data based on the map and information of the candidate region.
この画像処理装置によると、注目領域を検出でき、また、広角の画像データに対応した処理を行うことができる。 According to this image processing apparatus, a region of interest can be detected, and processing corresponding to wide-angle image data can be performed.
本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係る画像処理装置1は、図1に例示するように、制御部11、記憶部12、操作部13、表示部14、及びインタフェース部15を含んで構成される。
An embodiment of the present invention will be described with reference to the drawings. An
ここで制御部11は、CPU等のプログラム制御デバイスであり、記憶部12に格納されたプログラムに従って動作する。本実施の形態では、この制御部11は、処理の対象となる画像データを取得し、当該取得した画像データから、所定の条件を満足する注目領域の候補となる候補領域を複数抽出する。またこの制御部11は、上記取得した画像データを入力として、当該画像データに係る顕著性マップ情報を推定するためのニューラルネットワークを機械学習する機械学習処理と、当該機械学習処理により、入力された画像データに対応する顕著性マップ情報を推定するよう機械学習した状態にあるニューラルネットワークを利用し、上記取得した画像データに係る顕著性マップ情報を推定する推定処理とを実行する。
Here, the
ここで顕著性マップ情報は、処理対象となった画像データと同じ形状の画像データであり、それぞれの画素の画素値(ここでは輝度とする)が、当該画素に対応する、処理対象の画像データの画素(または画素群)で表される画像部分の顕著性を表す値(スカラー値)となっているようなものである。 Here, the saliency map information is image data having the same shape as the image data to be processed, and the pixel value (here, luminance) of each pixel corresponds to the image data to be processed. is a value (scalar value) that represents the salience of the image portion represented by the pixel (or group of pixels) of .
そして制御部11は、当該推定処理により得られた顕著性マップと、候補領域の情報とに基づいて、取得した画像データ内の注目領域を決定する。制御部11は、この決定した注目領域の情報を、画像データに関連付けて記憶部12に格納する。これらの制御部11の動作については後に詳しく述べる。
Then, the
記憶部12は、メモリデバイスやディスクデバイスであり、制御部11によって実行されるプログラムを保持する。このプログラムは、コンピュータ可読、かつ非一時的な記録媒体に格納されて提供され、この記憶部12に格納されたものでよい。またこの記憶部12は、制御部11のワークメモリとしても動作する。
The
操作部13は、キーボードやマウス等であり、画像データの視聴者の操作を受けて、当該操作の内容を制御部11に出力する。表示部14は、ディスプレイ等であり、制御部11から入力される指示に従って情報を表示する。
The
インタフェース部15は、ネットワークインタフェースや、USB(Universal Serial Bus)等を含み、外部のコンピュータ機器から画像データ等の種々の情報を受け入れて、制御部11に出力する。またこのインタフェース部15は、制御部11から入力される指示に従って、情報を指示された出力先(コンピュータ機器やストレージデバイス等)へ出力する。
The
次に本実施の形態の制御部11の動作について説明する。この制御部11は、記憶部12に格納されたプログラムを実行することで図2に例示するように、機能的に、受入部21と、取得部22と、候補領域抽出部23と、顕著性マップ学習処理部24と、顕著性マップ推定部25と、領域決定部26と、出力部27とを含んで構成される。
Next, the operation of the
ここで受入部21は、機械学習処理または推定処理の対象となるデータを受け入れる。ここで機械学習処理の対象は、顕著性マップ推定部25であり、機械学習処理の対象となるデータは、画像データと、当該画像データを入力したときの正解となる顕著性マップの情報(以下、教師マップデータと呼ぶ)とが関連付けられたものである。また推定処理の対象となるデータは画像データである。なお、機械学習処理の対象となるデータに含まれる画像データが動画像データである場合、当該機械学習処理の対象となるデータには動画像データの各フレームに対応する教師マップデータが含まれているものとする。
Here, the
また、機械学習処理の対象となるデータや、推定処理の対象となるデータに含まれる画像データは、動画像データや、全天球画像の静止画像データ、全天球画像の動画像データなどのうち、いずれかの種類のデータであるものとする。 In addition, the image data included in the data targeted for machine learning processing and the data targeted for estimation processing can be video data, still image data of omnidirectional images, video data of omnidirectional images, etc. Among them, it shall be data of one kind.
取得部22は、受入部21が受け入れたデータから、処理対象となる画像データ等を少なくとも一つ取得する。この取得部22の処理は、受入部21が受け入れたデータの種類、及び処理の内容(機械学習処理であるか推定処理であるか)によって異なっていてよい。
The acquiring
[広角画像データの場合]
例えば受入部21が受け入れた画像データが全天球画像の静止画像データなど、天球の少なくとも半球を超える範囲に投影される広角画像データ(天球全体に投影される全天球画像を含む)であれば、この取得部22は、当該天球に投影された画像(なお全天球をカバーしない広角画像データの場合は当該広角画像データを仮想的な天球に投影する。この場合画像のない部分については予め定めた画素値に設定すればよい)について、次のような処理を行う。
[For wide-angle image data]
For example, if the image data received by the receiving
すなわち取得部22は、いずれの処理の場合も、図3に例示するような、広角画像データが投影されている仮想的な天球について、当該天球の中心を原点(XYZ軸の交わる点)として、例えばX軸の正の方向でYZ平面と、この天球とが交差する半円を中央子午線Cとし、予め定めた所定の標準緯線D(Z=zであるXY面に平行な面(ただしzは0≦z≦rの範囲で予め定めた値であり、ここでrは天球の半径とする。以下の例でも同じ)で天球を切ってできる円)と、上記中央子午線Cとをパラメータとしてこの天球に投影した広角画像データを、矩形状の正距円筒画像に変換する。取得部22は例えば推定処理を行う場合、この標準緯線や中央子午線のパラメータを、視聴者の操作に応じて決定してもよい。一例として取得部22は、視聴者の指定した視線方向が、変換後の正距円筒画像の中心となるよう、標準緯線や中央子午線のパラメータを設定して、正距円筒画像への変換を行う。
That is, in any process, the
また取得部22は、少なくとも機械学習処理を行うときには、上記仮想的な天球をZ軸(天球の中心から天頂方向)周りに一様乱数でランダムに決定した角度θ1,θ2,…で中央子午線の方向を回転し、各角度でX軸正の方向から回転した方向の子午線を中央子午線とし、これらの中央子午線のそれぞれと、予め定めた所定の標準緯線とをパラメータとして、当該広角画像データを矩形状の正距円筒画像に変換して、複数の正距円筒画像を得てもよい。
In addition, at least when performing machine learning processing, the
この処理は、広角画像データを投影した天球を回転させつつ、処理の対象となる画像データを複数個取得する処理に相当する。 This process corresponds to a process of acquiring a plurality of image data to be processed while rotating the celestial sphere on which the wide-angle image data is projected.
さらに取得部22は、少なくとも機械学習処理を行うときに行う処理として、上述のように回転をZ軸周り(水平方向の回転)に施すだけでなく、他の軸を回転軸としてそれぞれの座標軸周りに(なお、天球の中心を原点とするので、各座標軸はこの原点で交わるものとする)それぞれ、互いに異なる角度の組(φ1,ψ1,θ1),(φ2,ψ2,θ2),…で回転し、各角度の組で回転した後のX軸正の方向の子午線を中央子午線とし、また各角度の組で回転した後の所定の標準緯線とをパラメータとして、当該広角画像データを、矩形状の正距円筒画像に変換して、複数の(互いに異なる視線方向をそれぞれの中心とする)正距円筒画像を得てもよい。
Furthermore, the
取得部22は、少なくとも機械学習処理を行うときには、上記の方法によって得た複数の正距円筒画像を、処理対象の画像データとして出力する。また取得部22は、推定処理を行うときには、広角画像データに基づいて得た、矩形状の正距円筒画像を一つだけ出力することとしてよい。なお、ここで得られた正距円筒画像の各画素の座標と、広角画像データを投影した天球上の座標とは相互に変換可能となっている。
At least when performing machine learning processing, the
さらにこの取得部22は、機械学習処理を行うときには、受け入れた画像データに関連付けられた教師マップデータについても画像データと同様に、仮想的な天球の、関連付けられた画像データを投影した範囲と同じ範囲に投影する。
Furthermore, when performing machine learning processing, the
そして取得部22は、複数の正距円筒画像を得た際の、画像データを投影した天球の回転角θ1,θ2,…(または(φ1,ψ1,θ1),(φ2,ψ2,θ2),…)を用い、それぞれの角度で各座標軸周りに、教師マップデータを投影した天球を回転し、各角度(または各角度の組)で回転した後のX軸正の方向の子午線を中央子午線とし、所定の標準緯線(既に述べたように、Z=zであるXY面に平行な面(ただしzは0≦z≦rの範囲で予め定めた値であり、ここでrは天球の半径とする)で天球を切ってできる円であり、X軸周りにφ1,φ2,…、Y軸周りにψ1,ψ2,…とそれぞれさらに回転する場合は、また各角度の組で回転した後のZ=zで、それぞれの角度に対応する標準緯線を定めるものとする)とをパラメータとして、当該教師マップデータを、矩形状の正距円筒画像(以下、画像データの正距円筒画像と区別するため、教師画像と呼ぶ)に変換して、複数の教師画像を得る。
Then, the
これにより取得部22は、広角画像データに基づいて得た複数の(互いに異なる視線方向をそれぞれの中心とする)正距円筒画像のそれぞれに対応する、複数の教師画像を得る。
As a result, the acquiring
[動画像データの場合]
また、受入部21が受け入れたデータに含まれる画像データが動画像データである場合、取得部22は、機械学習処理を行う場合も、推定処理を行う場合も、いずれの場合でも、動画像データに基づいて、一連の静止画像データを生成する。この静止画像データは、例えば動画像データに含まれるキーフレームのデータ(例えばIフレーム)を抽出したものであってもよいし、動画像データを再生して得られる各フレームの静止画像データであってもよい。取得部22は、上記の方法によって得た複数の再生時点での静止画像データ(フレーム)を、処理対象の画像データとして出力する。
[For moving image data]
Further, when the image data included in the data received by the receiving
また取得部22は、機械学習処理を行う場合には、処理対象の画像データとした各再生時点でのフレームに対応する教師マップデータを、受入部21が受け入れたデータから抽出する。
Further, when performing machine learning processing, the acquiring
[動画の広角画像データの場合]
さらに、受入部21が受け入れたデータが全天球画像の静止画像データなど、天球の少なくとも半球を超える範囲に投影される広角画像データであって、かつ動画像データである場合は、取得部22は次のように処理を行ってもよい。
[For wide-angle video image data]
Furthermore, when the data received by the receiving
この例の取得部22は、機械学習処理を行う場合、予め天球の回転角度θ1,θ2,…(水平方向のみ回転する場合)、または(φ1,ψ1,θ1),(φ2,ψ2,θ2),…をそれぞれ一様乱数によりランダムに決定しておく。
When performing machine learning processing, the acquiring
そして取得部22は、動画像データに含まれる広角画像のキーフレームのデータ(例えばIフレーム)を抽出して静止画像の広角画像データを取得するか、あるいは、当該動画像データを再生して得られる複数の再生時点での各フレームの(静止画像の)広角画像データを取得する。
Then, the
そして推定処理を行うときには、取得部22は、得られた静止画像の広角画像データのそれぞれについて、仮想的な天球に投影し、当該広角画像データを投影した仮想的な天球の、所定の方向(例えば視聴者が設定した方向)が変換後の正距円筒画像の中心となるように中央子午線及び標準緯線のパラメータを設定し、天球に投影された広角画像データを、矩形状の正距円筒画像に変換して、各キーフレームに対応する正距円筒画像を得て、これらを出力する。なお、動画像データの再生中に推定処理を実行する場合は、取得部22は、キーフレームに基づく画像を生成する際に、そのときに視聴者が設定している方向(例えば視聴者の前方として指定された方向)が変換後の正距円筒画像の中心となるように中央子午線及び標準緯線のパラメータを設定して、天球に投影された広角画像データを、矩形状の正距円筒画像に変換し、当該変換した正距円筒画像を出力する。
Then, when performing the estimation process, the
また機械学習処理を行う場合、取得部22は、得られた静止画像の広角画像データのそれぞれについて、仮想的な天球に投影し、当該広角画像データを投影した仮想的な天球を、上記決定した回転角度で、対応する軸周りに回転する。取得部22は、各角度(または各角度の組)で回転した後のX軸正の方向の子午線を中央子午線とし、所定の標準緯線(既に述べたように、Z=zであるXY面に平行な面(ただしzは0≦z≦rの範囲で予め定めた値であり、ここでrは天球の半径とする)で天球を切ってできる円であり、X軸周りにφ1,φ2,…、Y軸周りにψ1,ψ2,…とそれぞれさらに回転する場合は、また各角度の組で回転した後のZ=zで、それぞれの角度に対応する標準緯線を定めるものとする)とこの中央子午線とをパラメータとして、天球に投影された広角画像データを、矩形状の正距円筒画像に変換して、複数の正距円筒画像を得る。この処理は、広角画像データを投影した天球を回転させつつ矩形の画像データに変換して、処理の対象となる画像データを複数個取得する処理に相当する。
When performing machine learning processing, the acquiring
取得部22は、上記の方法によって得た複数の再生時点での各フレームごとに複数の正距円筒画像を、処理対象の画像データとして出力する。この例でも得られた正距円筒画像の各画素の座標と、そのもととなった天球上の座標とは相互に変換可能となっている。
The acquiring
さらに取得部22は、機械学習処理を行うときには、受け入れた動画像データに関連付けられた教師マップデータについても、上記の動画像データと同様に、仮想的な天球の、関連付けられた動画像データを投影した範囲と同じ範囲に投影する。
Furthermore, when performing the machine learning process, the acquiring
そして取得部22は、フレームごとに複数の正距円筒画像を得た際の、各フレームの画像データを投影した天球の回転角θ1,θ2,…(または(φ1,ψ1,θ1),(φ2,ψ2,θ2),…)を用い、それぞれの角度で各座標軸周りに、当該フレームに対応する教師マップデータを投影した天球を回転し、各角度(または各角度の組)で回転した後のX軸正の方向の子午線を標準子午線とし、この標準子午線と、所定の標準緯線(既に述べたように、Z=zであるXY面に平行な面(ただしzは0≦z≦rの範囲で予め定めた値であり、ここでrは天球の半径とする)で天球を切ってできる円であり、X軸周りにφ1,φ2,…、Y軸周りにψ1,ψ2,…とそれぞれさらに回転する場合は、また各角度の組で回転した後のZ=zで、それぞれの角度に対応する標準緯線を定めるものとする)とをパラメータとして、当該フレームに対応する教師マップデータを、矩形状の正距円筒画像(教師画像)に変換して、フレームごとに、処理対象の画像データに対応する複数の教師画像を得る。
Then, the
これにより取得部22は、動画の広角画像データに基づいて得た複数のフレームごとに(互いに異なる視線方向をそれぞれの中心とする)複数の正距円筒画像のそれぞれに対応する、上記フレームごとに複数の教師画像を得る。
As a result, the
[受け入れた画像データが広角でない静止画像データである場合]
また受入部21が受け入れたデータが、比較的画角の小さい、広角でない静止画像データである場合は、取得部22は、当該受け入れたデータをそのまま処理対象の画像データとして出力する。
[When the received image data is non-wide-angle still image data]
If the data received by the receiving
この例では、取得部22は、機械学習処理を行うときには、受け入れた画像データに関連付けられた教師マップデータを出力する。
In this example, the acquiring
[処理対象の画像データを得た後の処理]
候補領域抽出部23は、画像処理装置1が推定処理を行う際に動作し、処理の対象となった画像データのそれぞれから、予め定めた条件を満足する候補領域Ik(k=1,2,…n)を複数抽出し、抽出した候補領域を表す情報を出力する。ここで抽出する候補領域Ikは、領域の重複を許して抽出するものとする。例えば候補領域Iiと、候補領域Ij(i≠j)とが重なり合っていてもよい。
[Process after obtaining image data to be processed]
The candidate
この候補領域抽出部23は、一例として、いわゆるセレクティブサーチ(Selective Search:J.R. Uijlings et al.,"Selective Search for object recognition”, International journal of computer vision, Vol.104, No.2, pp.154-171(2013))の方法を用いて複数の候補領域の抽出を行う。なお、候補領域を表す情報は、例えば、候補領域を矩形としてその左上頂点の、処理対象の画像データ上の座標(x,y)と、候補領域の高さ及び幅(h,w)とを含むものとすればよい。
As an example, the candidate
もっともこの方法は一例であり、候補領域抽出部23は別の処理によって候補領域を抽出してもよい。この別の処理の例については後に述べる。
However, this method is only an example, and the candidate
顕著性マップ学習処理部24は、学習処理時に動作し、取得部22が出力する画像データと、対応する教師マップデータとを用いて、例えばD.Martin, et al., “Panoramic convolutions for 360 single-image saliency prediction”, CVPR Workshop on Computer Vision for Augmented and Virtual Reality, 2020にある畳み込みネットワークなどのニューラルネットワークを機械学習する。そしてこの機械学習により、上記ニューラルネットワークを、画像データの入力を受けて、その顕著な領域を推定して出力するよう機械学習した状態とする。
The saliency map
この機械学習の方法は広く知られた方法を採用できるので、ここでの詳しい説明を省略するが、本実施の形態において特徴的なことの一つは、全天球画像等の広角画像データとそれに対応する教師マップデータとを、広角画像データや教師マップデータを投影した天球を回転させて中心方向を互いに異ならせた複数の正距円筒画像へ変換することで、学習データの豊富化を図ったことである。 A widely known method can be adopted for this machine learning method, so a detailed explanation is omitted here. By converting the corresponding teacher map data into a plurality of equirectangular images with different center directions by rotating the celestial sphere onto which the wide-angle image data and teacher map data are projected, enrichment of learning data is achieved. That's what it was.
顕著性マップ推定部25は、推定処理時に動作し、顕著性マップ学習処理部24により機械学習したニューラルネットワークに、取得部22が出力する、処理の対象となった各画像データを入力する。そして顕著性マップ推定部25は、当該ニューラルネットワークが出力する、各画像データに対応する顕著性マップ情報を推定する。
The saliency
領域決定部26は、推定処理時に動作し、顕著性マップ推定部25が推定した顕著性マップ情報と、候補領域抽出部23が生成した候補領域の情報とに基づいて、処理対象となった画像データ内の注目領域を決定する。一例としてこの領域決定部26は、候補領域同士の重なり合いの程度と、顕著性マップ情報から得られる、候補領域内の顕著性の情報とに基づいて候補領域の集合を評価しつつ、候補領域を削減するなどして集合を補正し、注目領域を決定する。
The
具体的に、顕著性マップ情報上で、候補領域Ikの内部に対応する顕著性を表す値の和をg(Ik)と表し、候補領域Iiと、Ijとの重複率(重なり合いの程度)をIoU(Ii,Ij)と表すとき、領域候補Ikの集合Sの評価値SIoUを次のように規定しておく。
領域決定部26は、領域候補抽出部23が抽出した候補領域の集合Rに含まれる候補領域Iiのそれぞれについて、当該候補領域Iiの内部に対応する顕著性を表す値の和g(Ii)を求めておく。
The
領域決定部26は、候補領域の集合Rから、予め定めた条件に従って所定の数nだけの候補領域I1,I2,…Inを抽出する。ここで条件は例えばg(Ii)の大きい順にn個の候補領域を抽出する条件などとする。領域決定部26は、抽出したn個の候補領域I1,I2,…Inの集合Sについて(1)式により、当該集合Sの評価値SIoU(S)を求める。
The
以下、領域決定部26は、集合Sに抽出されていない候補領域Ijを、候補領域の集合Rから順次取り出して次の処理を実行する。すなわち領域決定部26は、集合Sに含まれる候補領域I1,I2,…Inのいずれかに置き換えて集合S′を生成する。ここで集合Sに含まれる候補領域のうち、置き換えの対象となる候補領域は、例えば一様乱数によりランダムに決定すればよい。
Thereafter, the
領域決定部26は、当該置き換えにより得られた集合S′について、(1)により評価値SIoU(S′)を求める。そして領域決定部26は、集合Sの評価値SIoU(S)と、集合S′の評価値SIoU(S′)とを比較し、SIoU(S′)<SIoU(S)となっていれば、集合S′を集合Sに置き換えて、集合Sを更新する。また領域決定部26は、SIoU(S′)<SIoU(S)でなければ、集合Sをそのままとする。
The
領域決定部26は、候補領域の集合Rから次の候補領域Ijを取り出して、別の集合S′を生成し、上記処理を繰り返す。領域決定部26は集合Rに含まれる(当初の集合Sに含まれる候補領域以外の)候補領域のすべてについて上記の処理を実行した後、当該実行後の集合Sに含まれる候補領域が表すn個の領域を注目領域として当該n個の領域を特定する情報を出力する。
The
出力部27は、処理対象となった画像データまたはその元となったデータに関連付けて、領域決定部26が出力する領域を特定する情報を記録する。具体的にこの出力部27は、受入部21が受け入れたデータの種類に応じて次のように処理を行う。
The
[広角画像データの場合]
例えば受入部21が受け入れたデータが広角画像データであれば、この出力部27は、処理対象となった画像データごとに領域決定部26が出力する、領域を特定する情報を用いて次のように処理を行う。この例では、領域決定部26が出力する領域を特定する情報は、処理対象となった画像データ上の座標によって特定される。そこで出力部27は、領域決定部26が出力する領域を特定する情報を、広角画像データを投影する仮想的な天球上の領域の情報に変換する。この変換は天球面の画像を正距円筒画像に変換したときと逆の変換を行えばよい。
[For wide-angle image data]
For example, if the data received by the receiving
そして出力部27は、当該変換後の領域の情報を、受入部21が受け入れた広角画像データに関連付けて記録する。出力部27は、処理対象となった画像データのそれぞれについて上記の処理を実行し、当該広角画像データを上記仮想的な天球に投影したときの当該天球上での各注目領域の情報を記録する。
Then, the
[動画像データの場合]
また、受入部21が受け入れたデータが動画像データである場合、出力部27は、処理対象となった画像データごとに領域決定部26が出力する、領域を特定する情報と、各処理対象の画像データのフレーム番号(再生時の先頭フレームを「1」とした再生順を表す番号、再生時刻を表す情報となる)の情報とを関連付けた情報を生成する。そして出力部27は、当該生成した情報を、受入部21が受け入れた動画像データに関連付けて記録する。
[For moving image data]
Further, when the data received by the receiving
[動画の広角画像データの場合]
さらに、受入部21が受け入れたデータが全天球画像の静止画像データなど、天球の少なくとも半球を超える範囲に投影される広角画像データであって、かつ動画像データである場合は、この出力部27は、次のように処理を行う。
[For wide-angle video image data]
Furthermore, when the data received by the receiving
この例では出力部27は、処理対象となった画像データごとに領域決定部26が出力する、領域を特定する情報を、静止画の広角画像データの場合と同様に、仮想的な天球上の領域の情報に変換する。そして出力部27は、当該処理対象となった画像データのフレーム番号を表す情報と当該変換して得た仮想的な天球上の領域の情報とを関連付けた情報を生成する。出力部27は、ここで生成した情報を、受入部21が受け入れたデータに関連付けて記録する。
In this example, the
[広角でない静止画像データである場合]
また受入部21が受け入れたデータが、比較的画角の小さい、広角でない静止画像データである場合は、出力部27は、処理対象となった画像データに基づいて領域決定部26が出力する、領域を特定する情報をそのまま、受入部21が受け入れた静止画像のデータに関連付けて記録する。
[For non-wide-angle still image data]
If the data received by the receiving
[動作]
本実施の形態の画像処理装置1の動作例を、入力されるデータが広角画像の動画のデータである場合を例として以下、機械学習処理を行う際の動作と、推定処理時の動作とに分けて説明する。
[motion]
An example of the operation of the
[学習処理時]
画像処理装置1は、学習処理時には、機械学習処理の対象となるデータとして、画像データである広角画像データ(機械学習の際には動画である必要は必ずしもないが、以下ではこの画像データは広角画像の動画データであるものとする)と、この画像データを入力したときの正解となる顕著性マップの情報(以下、教師マップデータと呼ぶ)とを関連付けたデータの入力を受ける。
[During learning process]
During the learning process, the
画像処理装置1は、広角画像を投影する天球の回転角度を複数、一様乱数によりランダムに決定する。この天球の回転角度は図3に例示した各軸周りの角度を組として(φ1,ψ1,θ1),(φ2,ψ2,θ2),…といったように定めておくものとする。
The
画像処理装置1は、受け入れたデータのうち、動画像データに含まれるキーフレームのデータ(例えばIフレーム)を抽出し、静止画像の広角画像データを複数取得する。画像処理装置1は、取得した静止画像の広角画像データのそれぞれについて、仮想的な天球に投影した天球画像データを得る。
The
また画像処理装置1は、受け入れたデータのうち、動画像データから抽出した各キーフレームの静止画像の広角画像に対応する教師マップデータをそれぞれ取得する。画像処理装置1は、取得した教師マップデータのそれぞれについて、広角画像データと同様に、仮想的な天球に投影したデータを得る。
The
画像処理装置1は、画像データと、教師マップデータとを投影した仮想的な天球をそれぞれ、先に決定した各回転角度で、対応する軸周りに回転し、当該角度(または当該角度の組)で回転した後のX軸正の方向の子午線を中央子午線とし、、この中央子午線と所定の標準緯線(各角度または各角度の組で回転した後の天球を、Z=zであるXY面に平行な面(ただしzは0≦z≦rの範囲で予め定めた値であり、ここでrは天球の半径とする)で切ってできる円)とをパラメータとして、当該天球に投影された広角画像データや教師マップデータを、矩形状の正距円筒画像に変換する。なお、正距円筒画像の各画素の座標と、そのもととなった天球上の座標とは相互に変換可能となっているものとする。
The
画像処理装置1は、この正距円筒画像を得る処理を、先に決定した各回転角度について実行し、広角画像と対応する教師マップデータについて、それぞれ複数の正距円筒画像を得る。
The
画像処理装置1は、この処理を、キーフレームの広角画像及び対応する教師マップデータのそれぞれについて繰り返して実行する。これによりキーフレームごとの広角画像データを天球に投影し、当該天球に投影したキーフレームごとの広角画像データを、互いに異なるパラメータで変換して得た複数の正距円筒画像と、対応する教師マップデータの正距円筒画像とを得る。なお、ここでは各キーフレームを投影した天球を、同じ回転角度の集合を用いて回転させているが、キーフレームごとに互いに異なる回転角度の集合を用いて回転させることとしてもよい。
The
そして画像処理装置1は、ここで得た画像データと、対応する教師マップデータとの組を用いて、例えばD.Martin, et al., “Panoramic convolutions for 360 single-image saliency prediction”, CVPR Workshop on Computer Vision for Augmented and Virtual Reality, 2020にある畳み込みネットワークなどのニューラルネットワークを機械学習する。そしてこの機械学習により、上記ニューラルネットワークを、広角画像データの入力を受けて、その顕著な領域を推定した顕著性マップ情報を出力するよう機械学習した状態とする。
Then, the
この機械学習処理の後、画像処理装置1は、推定処理を実行可能となる。推定処理を行う際には、画像処理装置1は、広角画像の動画のデータとして、例えば全天球画像の動画像データを受け入れる。画像処理装置1は、当該受け入れたデータから、処理対象となる画像データを次のようにして取得する。
After this machine learning process, the
画像処理装置1は、図4に例示するように、動画像データに含まれる広角画像のキーフレームのデータ(例えばIフレーム)を抽出して、静止画像の広角画像データを取得し(S11)、得られた静止画像の広角画像データ(ここでは全天球画像としている)のそれぞれについて、仮想的な天球に投影する(S12)。
As illustrated in FIG. 4, the
画像処理装置1は、全天球画像を投影した仮想的な天球のX軸正の方向の子午線を中央子午線とし、この中央子午線と所定の標準緯線とをパラメータとして上記天球に投影された広角画像データを、矩形状の正距円筒画像に変換する(S13)。なお、正距円筒画像の各画素の座標と、そのもととなった天球上の座標とは相互に変換可能となっているものとする。
The
画像処理装置1は、ステップS13で得た正距円筒画像を、処理対象の画像データとして、処理S11で天球画像データとしたキーフレームを特定する情報(例えばフレーム番号など)とともに出力する(S14)。
The
画像処理装置1は、処理S11で抽出したキーフレームのデータのそれぞれについて、処理S13,S14の処理を繰り返して実行する。これによりキーフレームごとに生成した正距円筒画像を、処理対象の画像データとして得る。
The
また画像処理装置1は、図5に例示するように、処理の対象となった複数のフレームに対応する正距円筒画像のそれぞれを順次選択し(S21)、既に述べたセレクティブサーチの方法を用いて、選択した正距円筒画像から候補領域Ik(k=1,2,…n)を複数抽出する(S22)。また画像処理装置1は、当該選択した正距円筒画像に係る顕著性マップ情報を、機械学習済みのニューラルネットワーク等を用いて推定する(S23)。
Further, as illustrated in FIG. 5, the
そして画像処理装置1は、処理S22,S23で得られた候補領域の情報と顕著性マップとに基づいて、処理対象となった画像データのそれぞれから注目領域を決定する(S24)。
Then, the
この処理S24の処理では、画像処理装置1は、図6に例示するように、処理S22で抽出した候補領域の集合Rに含まれる候補領域Iiのそれぞれについて、当該候補領域Iiの内部に対応する、処理S23で求められた顕著性を表す値の和g(Ii)を求める(S241)。
In this process S24, the
また画像処理装置1は、候補領域の集合Rから、g(Ii)の大きい順に所定の数nだけの候補領域I1,I2,…Inを抽出する(S242)。画像処理装置1は、抽出したn個の候補領域I1,I2,…Inの集合Sについて(1)式:
次に画像処理装置1は、候補領域の集合Rに属する候補領域のうち、集合S(当初の集合S)に属していない候補領域Ijを順次選択して(S244)、当該選択した候補領域Ijを、集合Sに含まれる候補領域I1,I2,…Inのいずれかに置き換えて集合S′を生成する(S245)。ここで集合Sに含まれる候補領域のうち、置き換えの対象となる候補領域は、例えば一様乱数によりランダムに決定する。
Next, the
画像処理装置1は、当該置き換えにより得られた集合S′について、(1)式により評価値SIoU(S′)を求める。そして画像処理装置1は、現在の集合Sの評価値SIoU(S)と、処理S245で求めた集合S′の評価値SIoU(S′)とを比較して、集合S′の評価値SIoU(S′)がより小さいか否かを判断する(S246)。ここでSIoU(S′)<SIoU(S)となっていれば(S246:Yes)、集合S′を集合Sとして置き換えて、集合Sを更新する(S247)。また、処理S245で求めた集合S′の評価値SIoU(S′)を、新たに現在の集合Sの評価値SIoU(S)とする(S248:評価値の更新)。
The
一方、画像処理装置1は、処理S246において、SIoU(S′)<SIoU(S)でなければ(S246:No)、集合Sをそのままとする。
On the other hand, if SIoU(S')<SIoU(S) is not satisfied in step S246 (S246: No), the
画像処理装置1は、処理S244からS248までの処理を候補領域の集合Rに属する候補領域のうち、当初の集合Sに属していない候補領域Ijのそれぞれについて繰り返し実行し、すべての当該候補領域Ijについて実行した後で得られている集合Sに含まれる候補領域が表すn個の領域を注目領域として当該n個の領域を特定する情報を得る。
The
画像処理装置1は、図5の処理に戻り、処理対象となった画像データについて定めた注目領域の情報を記録する(S25)。このとき画像処理装置1は、当該処理対象となった画像データのもととなったキーフレームを特定する情報を、注目領域の情報に関連付けて記録しておく。
The
画像処理装置1は、処理S21からS25の処理を繰り返して実行し、すべての処理対象の画像データについての処理を終了すると、記録したキーフレームを特定する情報ごとに、当該情報に関連付けて記録した注目領域の情報を取り出す。情報処理装置1は、当該取り出した注目領域の情報を、キーフレームを天球に投影したときの天球上の座標の情報へ変換し、当該天球上の座標で表される注目領域の情報を、キーフレームを特定する情報(例えばキーフレームのフレーム番号などであり、キーフレームを再生する再生時刻に関わる情報となる)に関連付けて、注目領域データベースとして記憶部12に格納する(S26)。
The
そして画像処理装置1は、この注目領域データベースと、入力された全天球画像の動画像のデータとを関連付けて出力する(S27)。
Then, the
[再生処理]
画像のデータを再生する情報処理装置(パーソナルコンピュータ等であり、本発明の画像再生装置に相当する)は、このようにして画像処理装置1が生成した注目領域の情報(注目領域データベース)を用いて、次のような処理を行う。情報処理装置は、全天球画像の動画のデータに基づいて、逐次的に表示する一連の静止画像(フレーム)を再生する。
[Playback process]
An information processing apparatus (such as a personal computer, which corresponds to the image reproducing apparatus of the present invention) that reproduces image data uses the attention area information (attention area database) generated by the
ここで各フレームは全天球画像となっているので、情報処理装置は、各フレームの全天球画像を逐次的に仮想的な天球上に投影しつつ、当該天球の中心に配した仮想的なカメラから見た画像をレンダリングして表示する。この処理は、全天球画像を表示する処理として広く知られた方法を採用できるので、ここでの詳しい説明は省略する。 Here, since each frame is an omnidirectional image, the information processing device sequentially projects the omnidirectional image of each frame onto a virtual celestial sphere and creates a virtual image centered on the celestial sphere. Render and display the image seen from the camera. Since this process can employ a method widely known as a process for displaying an omnidirectional image, a detailed description thereof will be omitted here.
また情報処理装置は、各フレームの投影像をレンダリングする際に、注目領域データベースに、当該フレームのフレーム番号に関連付けられた注目領域の情報があれば、当該情報で表される天球上の領域を囲む枠の図形画像(図7(X))を、レンダリングしたフレームの画像に重ね合わせて描画して、表示する。図7では、道路走行中の車両から撮像した動画の天球画像データにおいて、左側に並ぶ建物のうち、一つの建物の入り口付近に注目領域(X)が設定された例を示している。 Further, when rendering the projected image of each frame, if the attention area database has information on the attention area associated with the frame number of the frame, the information processing apparatus renders the area on the celestial sphere represented by the information. The graphic image of the enclosing frame (FIG. 7(X)) is superimposed on the rendered image of the frame and displayed. FIG. 7 shows an example in which a region of interest (X) is set near the entrance of one of the buildings lined up on the left side in celestial image data of a moving image taken from a vehicle traveling on the road.
なお、広角画像データを表示する情報処理装置は、仮想的な天球の中心に配したカメラの視線方向など、画角を、視聴者の指示を受けて変更することとしてよい。これにより視聴者は天球上の種々の箇所を参照できるようになる。 Note that the information processing device that displays wide-angle image data may change the angle of view, such as the line-of-sight direction of a camera placed at the center of the virtual celestial sphere, in response to an instruction from the viewer. This allows the viewer to refer to different points on the celestial sphere.
上述の例では、キーフレームについてのみ、注目領域の情報が関連付けられているので、動画の再生を行う情報処理装置は、最後に再生したキーフレーム(再生時刻tiの時点で再生したフレームとする)に関連付けられていた注目領域の情報に基づいて、当該情報で表される天球上の領域を囲む枠の図形画像を、レンダリングした当該キーフレーム以降に再生する各フレーム(再生時刻ti+1,ti+2,…で再生される各フレーム)の画像に重ね合わせて描画してもよい。
In the above example, only the keyframes are associated with the attention area information. Based on the information on the attention area associated with the , each frame (playback
このようにすると、あるキーフレームKjが再生されてから次のキーフレームKj+1が再生されるまでの間は、キーフレームKjを特定する情報に関連付けられていた注目領域の情報に基づく表示が行われることとなる。 In this way, the display based on the information of the attention area associated with the information specifying the keyframe Kj is displayed from the time when a certain keyframe Kj is played until the time when the next keyframe Kj+1 is played. It will be done.
また、注目領域の情報の表示方法はこの例だけに限られない。広角画像データを表示する情報処理装置(本発明の画像再生装置に相当する)は、各キーフレームを特定する情報に関連付けられた注目領域の情報(各キーフレームの再生時点における注目領域の情報)を参照する。情報処理装置は、当該参照した情報で特定される注目領域のそれぞれについて、当該注目領域に係るフレームを再生するべき時点(ここではその注目領域に関連付けられた情報で特定されるキーフレームの再生時刻)tより前の、所定の方法で定めた時点t-Δt(ただしΔt>0)で再生されるべきフレーム(キーフレームには限られない)を再生する際に、上記参照した情報で特定される注目領域に関する情報を表示してもよい。この例では、注目領域となるべき画像が撮像されているキーフレームの表示より時刻Δtだけ前(あるいはフレーム番号が所定の数だけ前のフレームを再生する時点)に、当該注目領域の位置を表す枠の図形画像等が描画される。これにより、視聴者は注目領域が現れるより前に注目領域の位置を知ることができるようになる。 Also, the method of displaying the information of the attention area is not limited to this example. An information processing device for displaying wide-angle image data (corresponding to the image reproducing device of the present invention) receives attention area information associated with information specifying each key frame (attention area information at the time of reproduction of each key frame). See For each of the attention areas specified by the referenced information, the information processing apparatus determines the time at which the frame associated with the attention area should be reproduced (here, the reproduction time of the key frame specified by the information associated with the attention area). ), when reproducing a frame (not limited to a key frame) to be reproduced at a point in time t-Δt (where Δt>0) determined by a predetermined method before t, specified by the information referred to above. information about the region of interest may be displayed. In this example, the position of the attention area is indicated at time Δt before the display of the key frame in which the image to be the attention area is captured (or at the time of reproducing the frame whose frame number is a predetermined number before). A graphic image of the frame and the like are drawn. This allows the viewer to know the position of the attention area before the attention area appears.
なお、ここでは広角画像の動画像を再生する例を示したが、注目領域を表す情報が関連付けられた静止画像データを表示する場合、当該静止画像データを表示する情報処理装置は、静止画像データが表す静止画像を表示出力するとともに、関連付けられている注目領域の情報に従い、当該情報で表される領域を囲む枠の図形画像を、表示した画像に重ね合わせて描画すればよい。 Although an example of reproducing a moving image of a wide-angle image is shown here, when still image data associated with information representing an attention area is displayed, an information processing device that displays the still image data A still image represented by is displayed and output, and a graphic image of a frame surrounding the area represented by the information is superimposed and drawn on the displayed image according to the information of the associated attention area.
なお、広角画像の静止画像データを表示する場合は、情報処理装置は、当該広角画像を、仮想的な所定の天球に投影して、当該天球の中心に配した仮想的なカメラから見た画像をレンダリングして表示する。そして情報処理装置は、関連付けられた注目領域の情報で表される天球上の領域を囲む枠の図形画像を、レンダリングした画像に重ね合わせて描画して、表示する。この場合も情報処理装置は、仮想的な天球の中心に配したカメラの視線方向など、画角を、視聴者の指示を受けて変更することとしてよい。これにより視聴者は天球上の種々の箇所を参照できるようになる。 When displaying still image data of a wide-angle image, the information processing device projects the wide-angle image onto a predetermined virtual celestial sphere, and an image viewed from a virtual camera placed at the center of the celestial sphere. is rendered and displayed. Then, the information processing apparatus draws and displays a graphic image of a frame surrounding the area on the celestial sphere represented by the information of the associated attention area so as to be superimposed on the rendered image. In this case as well, the information processing apparatus may change the angle of view, such as the line-of-sight direction of the camera placed at the center of the virtual celestial sphere, in response to the viewer's instruction. This allows the viewer to refer to different points on the celestial sphere.
また広角画像でない動画像データの場合、既に説明したように、注目領域を表す情報は対応するフレーム番号の情報に関連付けて記録される。そこでこの画像のデータを再生する情報処理装置は、当該記録を読み出して、画像のデータに基づいて動画像データの再生を開始し、各フレームごとに、当該フレームのフレーム番号の情報に関連付けて記録されている注目領域を表す情報があれば、当該情報で表される注目領域を囲む枠の図形画像を、表示した画像(各フレームの画像)に重ね合わせて描画する。また、当該フレームのフレーム番号の情報に関連付けて記録されている注目領域を表す情報がなければ、現在重ね合わせて描画している注目領域を囲む枠の図形画像の描画を続けることとしてもよい。 In the case of moving image data that is not a wide-angle image, as already explained, the information representing the attention area is recorded in association with the information of the corresponding frame number. Therefore, an information processing apparatus that reproduces the image data reads the record, starts reproducing the moving image data based on the image data, and records each frame in association with the frame number information of the frame. If there is information representing a focused area, a graphic image of a frame surrounding the focused area represented by the information is superimposed on the displayed image (image of each frame) and drawn. Also, if there is no information representing the attention area recorded in association with the information of the frame number of the frame, drawing of the graphic image of the frame enclosing the attention area currently superimposed and drawn may be continued.
また動画像データの再生の際、必ずしも関連付けられた情報で特定されるすべての注目領域を視聴者に提示する必要はない。例えば情報処理装置は、1以上の整数P0と、2以上の整数Pとを定め、値がP0,P0+P,P0+2P,…であるフレーム番号に関連付けられた情報で特定される注目領域を囲む枠の図形画像を表示することとしてもよい。またフレーム番号fがP0+(k-1)P<f<P0+kP(ただしk=1,2,…)である間は、フレーム番号P0+(k-1)PまたはP0+kPに関連付けられた情報で特定される注目領域を囲む枠の図形画像を表示する。この例によると、P個のフレームが再生されるごとに一度、注目領域の情報が更新されることとなる。 Also, when reproducing moving image data, it is not always necessary to present the viewer with all the attention areas specified by the associated information. For example, the information processing apparatus defines an integer P0 of 1 or more and an integer P of 2 or more, and defines a frame surrounding a region of interest specified by information associated with frame numbers whose values are P0, P0+P, P0+2P, . A graphic image may be displayed. Also, while the frame number f is P0+(k-1)P<f<P0+kP (where k=1, 2, . . . ), it is specified by information associated with the frame number P0+(k-1)P or P0+kP display a graphical image of a frame surrounding the region of interest. According to this example, the information of the attention area is updated once every P frames are reproduced.
[再生中に注目領域を決定する例]
なお、画像データが動画像データまたは広角画像の動画像データである場合、これらの画像データの再生中(すなわち推定処理時)に注目領域を決定してもよい。この例において広角画像の動画像データを再生する際には、画像処理装置1は、図4の処理においてステップS11に代えて、再生のためにレンダリングしようとしている画像がキーフレームであるか否かを判断し、キーフレームでなければ当該フレームの画像を仮想的な天球上に投影し、当該天球の中心に配した仮想的なカメラから、視聴者が指定した方向を見た画像をレンダリングして表示する。
[Example of determining attention area during playback]
If the image data is moving image data or moving image data of a wide-angle image, the region of interest may be determined during reproduction of the image data (that is, during estimation processing). In this example, when reproducing moving image data of a wide-angle image, the
一方、キーフレームの広角画像を再生のためにレンダリングするときには、画像処理装置1は、ステップS12を実行し、次にステップS13の処理において次の処理を行う。この例では画像処理装置1は、当該キーフレームの広角画像を投影した仮想的な天球上の点のうち、再生中に利用者が指定した方向(例えば当該天球の中心に立つ視聴者の前方となるべき視線方向など)が変換後の正距円筒画像の中心となるように、当該広角画像データを、矩形状の正距円筒画像に変換する。そして画像処理装置1は、この正距円筒画像を用いて、注目領域を推定する処理を実行する。
On the other hand, when rendering the wide-angle image of the key frame for reproduction, the
[候補領域抽出の別の例]
本実施の形態のここまでの説明では、画像処理装置1は、候補領域を抽出する際に、セレクティブ・サーチを実行していたが、本実施の形態はこの例に限られない。
[Another example of candidate region extraction]
In the description of the present embodiment so far, the
例えば画像処理装置1は、予め、画像データを入力とし、当該画像データのうち、店舗の看板や店舗の入り口などの画像部分を検出してその範囲を表す情報を出力するよう機械学習した状態にあるニューラルネットワーク等を用いてもよい。このようなニューラルネットワークを用いる場合、処理対象となった画像を入力して、出力された画像部分の範囲を候補領域とする。この例では、店舗の看板や入り口などが注目領域として特定されることとなる。
For example, the
[注目領域の決定処理の変形例]
さらに画像処理装置1の制御部11は、機械学習処理時または推定処理時の少なくとも一方において、天球に投影された画像データを変換して得た正距円筒画像を処理対象とする場合には次のように処理を行ってもよい。例えば、制御部11は、推定処理時に領域決定部26としての処理を行う際、当初の候補領域の集合のうちから処理対象となった正距円筒座標の比較的高緯度の範囲(上辺または下辺から予め定めた範囲)との重複範囲が、その面積の所定割合以上を占める候補領域を除いてもよい。例えば、領域決定部26は、正距円筒画像の上辺及び下辺のそれぞれから、正距円筒画像の高さの5%の範囲を高緯度の範囲とし、各候補領域について、この範囲と重なり合う部分を特定する。そして領域決定部26は、当該特定した部分の面積が、当該候補領域の面積の所定の割合(例えば70%)以上となっている場合、当該候補領域を、候補領域の集合から取り除く。
[Modified Example of Attention Area Determination Processing]
Furthermore, in at least one of machine learning processing and estimation processing, the
領域決定部26は、こうして得た候補領域の集合を初期の集合Sとして、この集合Sに含まれる候補領域同士の重なり合いの程度と、顕著性マップから得られる、この集合Sに含まれる各候補領域内の顕著性の情報とに基づいて候補領域の集合を評価しつつ、候補領域を削減するなどして集合を補正し、注目領域を決定する。
The
この例によると、正距円筒画像への変換の際に変形の程度が比較的大きくなる高緯度部分の情報を排除することとなる。これより、比較的大きい変形によって誤って候補領域として検出されることが阻止される。 According to this example, the information of the high latitude portion where the degree of deformation is relatively large in the conversion to the equirectangular image is excluded. This prevents erroneous detection as candidate regions due to relatively large deformations.
[注目領域を関連付けるフレーム]
さらにここまでの説明では、動画像データ(広角画像であると否とを問わない)の再生の際に、ある注目領域の情報について、当該注目領域の情報が関連付けられたフレームが再生されるよりも前の時点で当該注目領域の範囲を表す図形画像を表示する例を示した。しかしながらこの結果を得るための処理は再生時点ではなく、注目領域の情報を生成する時点で行ってもよい。
[Frame associated with attention area]
Furthermore, in the description so far, when reproducing moving image data (regardless of whether it is a wide-angle image), for information on a certain attention area, the frame associated with the information on the attention area is reproduced. An example of displaying a graphic image representing the range of the attention area was shown at the previous point. However, the processing for obtaining this result may be performed at the time of generating the information of the attention area, not at the time of reproduction.
この例の画像処理装置1は、注目領域を決定した際に、当該注目領域を決定した際に処理対象となっているフレームの再生時刻(フレーム番号)より以前の所定の再生時刻のフレーム番号に、当該決定した注目領域の情報を関連付けて記録してもよい。
When the attention area is determined, the
例えば画像処理装置1は、フレーム番号Fのフレームを処理対象として注目領域を決定したときに、当該注目領域の情報を、フレーム番号min(F-ΔF,1)のフレーム番号に関連付けて記録する。ここでmin(a,b)はa,bのうち小さい値をとることを意味するものとする。またF,ΔFは、いずれも正の整数であるものとし、ΔFは予め定めておくものとする。
For example, when the
1 画像処理装置、11 制御部、12 記憶部、13 操作部、14 表示部、15 インタフェース部、21 受入部、22 取得部、23 候補領域抽出部、24 顕著性マップ学習処理部、25 顕著性マップ推定部、26 領域決定部、27 出力部。
1 image processing device, 11 control unit, 12 storage unit, 13 operation unit, 14 display unit, 15 interface unit, 21 reception unit, 22 acquisition unit, 23 candidate region extraction unit, 24 saliency map learning processing unit, 25 saliency map estimation unit, 26 area determination unit, 27 output unit.
Claims (7)
前記取得した画像データから、所定の条件を満足する注目領域の候補となる候補領域を、複数抽出する候補領域抽出手段と、
前記取得した画像データに基づいて、当該画像データに係る顕著性マップ情報を推定する顕著性マップ推定手段と、
前記顕著性マップと、前記候補領域の情報とに基づいて、前記取得した画像データ内の注目領域を決定する決定手段と、
を含む画像処理装置。 acquisition means for acquiring image data to be processed;
Candidate area extracting means for extracting a plurality of candidate areas serving as attention area candidates that satisfy a predetermined condition from the acquired image data;
saliency map estimation means for estimating saliency map information related to the acquired image data based on the acquired image data;
determining means for determining a region of interest in the acquired image data based on the saliency map and the information of the candidate region;
An image processing device including
前記決定手段は、
前記顕著性マップと、前記候補領域の重なり合いの情報とに基づいて注目領域を決定する画像処理装置。 The image processing device according to claim 1,
The determining means is
An image processing device that determines a region of interest based on the saliency map and information on overlap of the candidate regions.
前記顕著性マップ推定手段は、画像データの入力を受けて、当該画像データに係る顕著性マップ情報を推定して出力するよう機械学習した状態にあるニューラルネットワークを利用して前記推定を行い、
前記取得手段は、天球の少なくとも半球を超える範囲に投影される広角画像データの入力を受けて、当該広角画像データを投影した天球を、少なくとも一つの軸周りの角度であって、互いに異なる角度または角度の組で回転した後の前記天球に投影された広角画像データを、矩形の画像データに変換して、処理の対象となる画像データを複数個取得し、
当該複数個の処理の対象となる画像データを、前記顕著性マップ推定手段の機械学習処理に供する画像処理装置。 The image processing device according to claim 1 or 2,
The saliency map estimation means performs the estimation using a neural network that has undergone machine learning so as to receive input of image data and estimate and output saliency map information related to the image data,
The acquisition means receives an input of wide-angle image data projected to a range exceeding at least a hemisphere of the celestial sphere, and projects the wide-angle image data onto the celestial sphere at angles about at least one axis that are different from each other, or obtaining a plurality of pieces of image data to be processed by converting the wide-angle image data projected onto the celestial sphere after being rotated by a set of angles into rectangular image data;
An image processing apparatus for subjecting the image data to be subjected to the plurality of processes to machine learning processing of the saliency map estimation means.
前記取得手段は、動画像データの入力を受けて、当該動画像データから複数の再生時刻の時点での静止画像を抽出し、当該抽出した静止画像の画像データを取得する画像処理装置。 The image processing device according to any one of claims 1 to 3,
The acquisition means receives input of moving image data, extracts still images at a plurality of playback times from the moving image data, and acquires image data of the extracted still images.
前記決定手段は、注目領域を決定した際に、当該注目領域に係る画像データの再生時刻以前の所定の再生時刻の画像データに、前記決定した注目領域の情報を関連付けて記録する画像処理装置。 The image processing device according to claim 4,
The determining means, when determining the attention area, records information of the determined attention area in association with image data at a predetermined reproduction time before the reproduction time of the image data related to the attention area.
前記動画像データの再生時に、前記注目領域を特定する情報を参照し、当該情報で特定される注目領域に係る静止画像データを再生するべき時点tより前の所定の方法で定めた時点t-Δt(ただしΔt>0)で再生される静止画像データを再生する際に、前記情報で特定される注目領域に関する情報を表示する画像再生装置。 Moving image data representing still image data reproduced in chronological order, and including information specifying a predetermined attention area in the still image data reproduced at any point in time t (where t>0) means for accepting input of
When the moving image data is reproduced, the information specifying the attention area is referred to, and a time point t- determined by a predetermined method before the time point t at which the still image data related to the attention area specified by the information is to be reproduced. An image reproducing apparatus for displaying information about an attention area specified by the information when reproducing still image data reproduced at Δt (where Δt>0).
処理の対象となる画像データを取得する取得手段と、
前記取得した画像データから、所定の条件を満足する注目領域の候補となる候補領域を、複数抽出する候補領域抽出手段と、
前記取得した画像データに基づいて、当該画像データに係る顕著性マップ情報を推定する顕著性マップ推定手段と、
前記顕著性マップと、前記候補領域の情報とに基づいて、前記取得した画像データ内の注目領域を決定する決定手段と、
として機能させるプログラム。
the computer,
acquisition means for acquiring image data to be processed;
Candidate area extracting means for extracting a plurality of candidate areas serving as attention area candidates that satisfy a predetermined condition from the acquired image data;
saliency map estimation means for estimating saliency map information related to the acquired image data based on the acquired image data;
determining means for determining a region of interest in the acquired image data based on the saliency map and the information of the candidate region;
A program that acts as
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021118256A JP2023013821A (en) | 2021-07-16 | 2021-07-16 | Image processing device, image reproducing device, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021118256A JP2023013821A (en) | 2021-07-16 | 2021-07-16 | Image processing device, image reproducing device, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023013821A true JP2023013821A (en) | 2023-01-26 |
Family
ID=85128733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021118256A Pending JP2023013821A (en) | 2021-07-16 | 2021-07-16 | Image processing device, image reproducing device, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023013821A (en) |
-
2021
- 2021-07-16 JP JP2021118256A patent/JP2023013821A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ma et al. | Stage-wise salient object detection in 360 omnidirectional image via object-level semantical saliency ranking | |
CN108108748A (en) | A kind of information processing method and electronic equipment | |
WO2019238114A1 (en) | Three-dimensional dynamic model reconstruction method, apparatus and device, and storage medium | |
US20220351390A1 (en) | Method for generating motion capture data, electronic device and storage medium | |
US20200410688A1 (en) | Image Segmentation Method, Image Segmentation Apparatus, Image Segmentation Device | |
US11836887B2 (en) | Video generation method and apparatus, and readable medium and electronic device | |
WO2022105740A1 (en) | Video processing method and apparatus, readable medium, and electronic device | |
CN110060201B (en) | Hot spot interaction method for panoramic video | |
CN112001983B (en) | Method and device for generating occlusion image, computer equipment and storage medium | |
CN111273772A (en) | Augmented reality interaction method and device based on slam mapping method | |
US20240261677A1 (en) | Determination method, determination apparatus of calibration information and electronic device | |
US20230394833A1 (en) | Method, system and computer readable media for object detection coverage estimation | |
US20230237777A1 (en) | Information processing apparatus, learning apparatus, image recognition apparatus, information processing method, learning method, image recognition method, and non-transitory-computer-readable storage medium | |
WO2024041235A1 (en) | Image processing method and apparatus, device, storage medium and program product | |
CN111382647A (en) | Picture processing method, device, equipment and storage medium | |
WO2024099068A1 (en) | Image-based speed determination method and apparatus, and device and storage medium | |
WO2024022301A1 (en) | Visual angle path acquisition method and apparatus, and electronic device and medium | |
CN112714337A (en) | Video processing method and device, electronic equipment and storage medium | |
CN110298229B (en) | Video image processing method and device | |
CN111079624A (en) | Method, device, electronic equipment and medium for collecting sample information | |
JP2023013821A (en) | Image processing device, image reproducing device, and program | |
CN112085842A (en) | Depth value determination method and device, electronic equipment and storage medium | |
CN112991419B (en) | Parallax data generation method, parallax data generation device, computer equipment and storage medium | |
Shetty et al. | Design and implementation of video synopsis using online video inpainting | |
CN114626982A (en) | Scene reconstruction method and device, storage medium and computer equipment |