JP7239511B2

JP7239511B2 - 画像予測システム

Info

Publication number: JP7239511B2
Application number: JP2020030329A
Authority: JP
Inventors: 忠幸松村; 佳奈子江▲崎▼; 弘之水野; 潔人伊藤
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2023-03-14
Anticipated expiration: 2040-02-26
Also published as: US11790661B2; US20210264188A1; JP2021135650A

Description

本発明は、将来画像の予測する予測画像の生成技術に関する。

画像応用における深層学習技術の進歩に伴い、現在の観測画像から近い将来の画像シーケンス(動画)を予測する動画予測技術に関する研究開発が活発化している。

将来画像の予測技術は自動運転システムの高度化、安全化や、モデルベース深層強化学習における要素技術としての活用が期待されている。

例えば、非特許文献１は、画像を予め区切られたグリッド単位で処理する畳み込みニューラルネットワーク(Convolutional Neural Network)と、内部状態を持つニューラルネットワークの一種であるLSTM(Long-Short Term Memory)とを組合せ、予め決められたグリッドで区切られたピクセル集合毎の時系列変化を予測することで、将来の予測画像を生成する技術を開示している。

X. Shi et al.,"Convolutional LSTM network: A machine learning approach for precipitation nowxasting",In Proceedings of NIPS 2015.

非特許文献１が開示する技術では、入力画像を予め決められたグリッドで区切られたピクセル集合毎に、その時系列変化を予測する。そのため、入力画像中に存在する、車や人などのオブジェクト単位での変化の予測が出来ず、予測する時間が長くなるにつれて、生成される予測画像は、どのようなオブジェクトが存在するか識別困難な画像になる。このような技術を自動運転に適用することを考えた場合、予測画像中に人がいるかどうかや、対向車がいるかどうかといったオブジェクトの識別が困難であることは、安全性に問題があると考えられる。

本発明の目的は、オブジェクトの存在を認識できる予測画像を生成する技術を提供することにある。

本発明の一態様である、観測した画像から将来を予測する画像を生成する画像予測システムは、注視部と、ワーキングメモリ部と、制御部と、生成モデル部とを有する。

前記注視部は、観測画像中のオブジェクトが含まれる領域について、観測画像と予測画像とのピクセル毎の差分を生成し、前記オブジェクトが含まれる矩形領域を生成し、前記矩形領域を第１の注視領域候補として決定する場所ベース注視領域決定部と、前記第１の注視領域候補に関する情報を受信し、前記第１の注視領域候補の一つを所定の条件で第１の注視領域として選択する注視制御部と、前記第１の注視領域の情報を注視状態として格納する第１の記憶部と、を有する。

前記生成モデル部は、前記第１の注視領域の予測画像を生成し、前記ワーキングメモリ部は、前記観測画像と前記予測画像において、前記第１の注視領域の場所の差異が所定値以下の場合、前記第１の注視領域を第２の注視領域として、前記第２の注視領域の情報をメモリ状態として格納する第２の記憶部を有する。

前記生成モデル部は、前記第１の注視領域の予測画像を生成し、前記注視制御部に出力し、前記第２の注視領域の予測画像を生成し、前記ワーキングメモリ部に出力する。

前記制御部は、前記注視部からの前記第１の注視領域の予測画像と、前記ワーキングメモリ部からの前記第２の注視領域の予測画像を統合して、前記観測画像に対する予測画像を生成する。

本発明の一態様によれば、画像中の複数のオブジェクトの存在を認識することができる。

画像予測システムの機能構成例を示す図である。画像予測システムのハードウェアブロックを示す図である。生成モデル情報の構成例を示す図である。観測システムから入力される観測画像と予測画像の生成の例を示すである。観測システムから入力される観測画像と予測画像の生成の他の例を示す図である。場所ベース注視領域決定部の処理手順を示す図である。場所ベース注視領域決定部による注視領域の生成結果と注視領域候補情報の例を示す図である。注視状態の情報を示す図である。メモリ状態の情報を示す図である。注視状態の更新処理手順を示す図である。更新後の注視状態を説明する図である。注視領域の予測画像生成処理を説明する図である。オートエンコーダの構成例を示す図である。変分オートエンコーダの構成例を示す図である。 LSTMによる非画像エンコード部およびデコード部の構成例を示す図である。エンコード結果を相互に入力する非画像エンコード部およびデコード部の構成例を示す図である。注視領域に対する予測画像の生成を説明する図である。注視領域に対するマッチング処理と注視領域の更新手順を示す図である。注視領域の予測に対するマッチング処理の探索過程を示す図である。予測画像の生成手順の一例を示す図である。ワーキングメモリに格納される注視領域も含めて予測画像の生成を説明する図である。ワーキングメモリによる注意領域の予測画像生成に関するシステム構成要素を説明する図である。注視領域間の相互作用の考慮が必要な場合を説明する図である。注視領域間の相互作用を考慮する場合のシステム構成要素を説明する図である。注視領域間の相互作用を考慮する場合の非画像情報デコード部の構成を説明する図である。注視情報およびワーキングメモリ情報に基づく観測画像に対するグラフデータを示す図である。グラフデータを画像データに変換して画像データの差分を計算する例を示す図である。時空間画像データをの例を示す図である。時空間画像データに対する生成モデルの例を示す図である。 3次元畳み込みニューラルネットワークの例を示す図である。他の注視状態とメモリ状態の情報を示す図である。

以下、添付図面を参照して本発明の実施形態を説明する。本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではない。各図において共通の構成については同一の参照符号が付されている。

以下に開示される一実施形態の画像予測システムは、画像シーケンスを入力とし、一定期間の将来画像シーケンス（予測画像）を出力する。

図１Ａは、実施例１の画像予測システム１０を含むシステム１の全体機能構成を示す。システム１は、画像予測システム１０と、画像予測システム１０に接続される観測システム１５３と表示システム１５４とを有する。

画像予測システム１０は、生成モデル部１１０、ワーキングメモリ部１２０、注視部１３０、制御部１４０を有し、外部から注視制御構成１５１と生成モデル１５２が入力される。

ワーキングメモリ部１２０は、過去の画像に対して設定された注視領域（第２の注視領域と称する）を制御する。生成モデル部１１０は、ワーキングメモリ部１２０によって管理される第２の注視領域における、予測画像を生成する。注視領域は、画像中に含まれる人や車等の注目するオブジェクトを含む処理対象となる部分領域である。

注視部１３０は、観測システム１５３から取得される観測画像に基づき、観測画像中の注視領域（第１の注視領域と称する）を制御する。生成モデル部１１０は、第１の注視領域の将来の予測画像を生成する。注視部１３０は、ワーキングメモリ部１２０で第２の注視領域に設定していない領域について、第１の注視領域の制御を行う。例えば、画像中に新たに表れた人や車等の注目するオブジェクトを検出し、検出されたオブジェクトを含む領域の制御を行う。尚、実施例中、第１の注視領域と第２の注視領域とを区別することなく理解できる場合、単に注視領域として説明する場合がある。

生成モデル部１１０は、注視部１３０、およびワーキングメモリ部１２０が制御する注視領域の画像のエンコード、およびエンコード結果のデコードをし、注視領域の将来画像を生成する。

制御部１４０は、注視部１３０およびワーキングメモリ部１２０を制御し、それぞれが生成する注視領域の予測画像を統合して、一つの予測画像を生成する。

観測システム１５３は、観測対象から観測画像を取得する。例えば、建物内の監視カメラシステムや、屋外の定点観測カメラシステムや、車載カメラシステムである。

表示システム１５４は、ディスプレイ装置を含むサーバまたはPC、ネットワークを介して接続されるサーバやPCに接続されるディスプレイ装置や、ネットワークを介して接続さえるスマートフォンなどのモバイル装置である。

画像予測システム１０に入力される生成モデル１５２は、モデル情報や、モデルのパラメタ情報を含む。例えば、図２に示すように、生成モデルをニューラルネットワークにより構成する場合、層２１、層パラメタ２２がモデル情報に該当する。層２１は、ニューラルネットワークの各層の種別である、入力から順に２次元畳み込み層(Convolution2D)、２次元最大値プーリング層(MaxPooling2D)、２次元畳み込み層、線形層(Linear)を例として挙げることができる。重みパラメタ２３がモデルのパラメタ情報に該当する。

画像予測システム１０に入力される注視制御構成１５１は、注視部１３０が第１の注視領域の制御に使用する情報である。

図１Ｂは、画像予測システム１０のハードウェアブロック図を示す。画像予測システム１０は、一般的な計算機と同様、処理部であるＣＰＵ１６０、ＤＲＡＭ等のメモリ１６１、ＨＤＤ、ＳＳＤ等の不揮発性メモリからなる記憶装置１６２、ネットワーク５に接続され、外部の装置と通信するための通信インタフェース１６３を含む。画像予測システム１０は、処理の高速化を目的として、処理部としてＧＰＵ１６４を含むことも可能である。ＣＰＵ１６０、メモリ１６１、記憶装置１６２、通信インタフェース１６３、ＧＰＵ１６４はバス等の接続手段１６７で相互に接続されている。

メモリ１６１は、各種プログラムを格納し、各種プログラムを処理部であるＣＰＵ１６０が実行することで、生成モデル部１１０、注視部１３０、ワーキングメモリ部１２０、制御部１４０の各種機能等を実現する。

生成モデル部１１０を構成するプログラムには、モデル制御部１１１、画像エンコード部１１２、非画像エンコード部１１３、非画像デコード部１１４、画像デコード部１１５を構成するプログラムが含まれる。

注視部１３０を構成するプログラムには、注視制御部１３１、場所ベース注視領域決定部１３２、オブジェクトベース注視領域決定部１３３を構成するプログラムが含まれる。

ワーキングメモリ部１２０を構成するプログラムには、ワーキングメモリ制御部１２１を構成するプログラムが含まれる。

本実施の形態においては、生成モデル部１１０のモデル制御部１１１、画像エンコード部１１２、非画像エンコード部１１３、非画像デコード部１１４、画像デコード部１１５、注視部１３０の注視制御部１３１、場所ベース注視領域決定部１３２、オブジェクトベース注視領域決定部１３３、ワーキングメモリ部１２０のワーキングメモリ制御部等の各機能は、処理部であるＣＰＵ１６０、またはＧＰＵ１６４によって実行される。そのため、その動作主体は、ＣＰＵ１６０、またはＧＰＵ１６４であるが、説明を理解しやすくするため、各機能を動作主体として記載して説明することがある。

記憶装置１６２は、システム稼働中に取得可能な、生成モデル部１１０が保持する生成モデルの学習データを格納する。

メモリ状態１２２は、メモリ１６１の記憶領域（第２の記憶部）に格納され、生成モデル部１１０が予測画像を生成するため、過去の画像に対して設定された、第２注視領域に関する情報である。注視状態１３４は、メモリ１６１の記憶領域（第１の記憶部）に格納され、生成モデル部１１０が予測画像を生成するため、観測システム１５３から取得される画像情報に対して設定された観測画像中の第１の注視領域に関する情報である。なお、メモリ状態１２２、注視状態１３４の情報を記憶装置１６２に格納し、メモリ１６１に読み出して処理しても良い。メモリ状態１２２、注視状態１３４を記憶装置１６２に格納することで、システム再起動後に同一の注視領域について予測画像を生成することができる。

注視部１３０は、例えば、観測画像中に新たに映り込んだ人や車等のオブジェクトを含む注視領域を、第１の注視領域として注視部１３０により抽出する。生成モデル部１１０は、注視部１３０から第１の注視領域に関する情報に基づき、第１の注視領域の予測画像を生成する。

第１の注視領域の観測画像が、生成モデル部１１０で生成される予測画像と同じようになる場合（観測画像と予測画像の差が一定の範囲にある場合も含む）、注視領域の制御をワーキングメモリ部１２０に移行する。即ち、ワーキングメモリ部１２０は、注視部１３０により注視領域と設定された領域の内、変化の少なくなった領域を補足する。生成モデル部１１０は、ワーキングメモリ１２０により制御される第２の注視領域の予測画像を生成する。

図３は、観測システム１５３から入力される観測画像３０と、画像予測システム１０により生成された予測画像３１の一例を示した図である。予測画像３１は、注視部１３０によって制御される第１の注視領域の予測画像と、ワーキングメモリ部１２０によって制御される第２の注視領域の予測画像とを、制御部１４０により観測画像３０と同じ大きさ画像（キャンバス）に合成したものである。各予測画像の生成については、後述する。

図３のように、２台の車が、それぞれ左右に動いている画像を観測する。画像予測システム１０は、時刻ごとに観測画像３０を取得し、時刻ごとに１時刻先の観測の予測画像３１を生成することを繰返す。ｔ＝１の観測画像３０からｔ＝２における予測画像を予測し、ｔ＝２の観測画像３０からｔ＝３の予測画像を予測する。図３では、１時刻先の観測の予測画像３１を生成する場合に、観測画像３０は現在の時刻の画像のみを用いているが、現在を含む、過去に観測した複数の画像を用いることも可能である。

図４は、観測システム１５３から入力される観測画像３０と予測画像３１の他の例を示す図である。一定時刻の観測後に、継続して複数時刻先の予測を生成することも可能である。つまり、観測時刻ｔ＝１、ｔ＝２を観測後にｔ＝３、ｔ＝４の複数の予測画像を予測する。

注視部１３０には、例えば、図３及び図４で示したｔ＝２の観測画像と予測画像が入力される。ｔ＝１のような初期状態において、予測画像は１時刻前の観測画像をそのまま用いる、もしくは、予測画像３１は観測画像３０と同じサイズの、全てが黒または白の白紙の画像とする。

注視部１３０の場所ベース注視領域決定部１３２は、受信する観測画像３０と、予測画像３１に基づき、場所ベースで注視するべき領域の候補を求める。

図５は、注視部１３０の場所ベース注視領域決定部１３２の処理手順の一例を示す図である。
場所ベース注視領域決定部１３２は、観測画像３０と予測画像３１から注視領域候補１３１２（図６参照）を抽出する。注視領域候補１３１２とは、例えば、観測画像３０と予測画像３１の差分（ピクセル毎）が大きい領域である。より具体的には、観測画像中に新たに出現した人や車等のオブジェクトに関して将来画像を予測するための領域である。観測画像中に新たに出現した人や車のオブジェクトは、予測画像３１には含まれず、観測画像３０に含まれるため、両者のピクセルごとの差分が大きくなる。予測に反する動きのあった人や車等のオブジェクトについても同様である。

場所ベース注視領域決定部１３２は、まず、同一時刻（例えば、ｔ＝２）の観測画像３０と予測画像３１間のピクセル毎の差分画像を生成する（Ｓ５１）。

次に、観測画像に対する顕在性マップを生成する（Ｓ５２）。顕在性マップとは、観測画像に対して、モノが存在する領域や周囲との色が異なる領域など、人が視線を向けると考えられる領域と、そうではない領域の重み付けを表す画像情報である。顕在性マップは、コンピュータビジョンライブラリに実装された、予め設計された特徴量に基づきアルゴリズミックに生成することが可能である。また、特徴量をデータから学習により獲得する機械学習手法を用いて生成することも可能である。

次に、ステップＳ５１で生成した差分画像を、ステップＳ５２で生成した顕在性マップによりマスク処理を適用し、差分画像のうち、人が視線を向けると考えらえる領域（マスク画像）を抽出する（Ｓ５３）。

次に、顕在性マップによりマスク処理を適用したマスク画像に対して、矩形領域を生成する（Ｓ５４）。矩形領域は、コンピュータビジョンアルゴリズムにより抽出することが可能である。

最後に、画像の固定された１点を原点とし、生成した矩形領域群を、それぞれの位置、サイズをピクセル単位でまとめる。この矩形領域群から、矩形領域の面積が所定の閾値以下のものを除外して、注視領域候補を選択する（Ｓ５５）。除外する面積の閾値情報は、注視制御構成情報として外部から入力する。

例えば、図６に示すように、画像の最左上を原点(0,0)とし、矩形領域６０１と６０２の２つの領域が生成されると、それぞれの矩形領域の左上の座標の情報(x, y)を(10,60)(200,5)、および大きさ(w, h)を(40,40)(60,40)とする、第１の注視領域候補が選択される。この第１の注視領域候補に関する情報として、座標と大きさを注視領域候補１３１２として、注視制御部１３１に出力する。

一般的に、コンピュータビジョンアルゴリズムの適用においては、その処理結果をロバストにするために、入力画像や出力画像に対して圧縮・膨張処理を適用する。実施例１が開示する各処理においても、処理結果のロバスト化を目的に、適時、圧縮、膨張処理などの前処理、後処理を適用しても良い。

注視制御部１３１は、場所ベース注視領域決定部１３２からの注視領域候補１３１２と、注視状態１３４と、ワーキングメモリ部１２０から送信されるワーキングメモリ状態情報（以下、メモリ状態１２２）に基づき、観測画像３０に対する第１の注視状態１３４を更新する。注視制御部１３１に、メモリ状態を入力する理由は、ワーキングメモリ部１２０で、既に第２の注視領域として管理されている領域を、新たな注視領域として注視部１３０に処理させないためである。また、注視状態１３４は、例えば、注視部１３０の過去の注視領域と比較し、差分が大きい場合、注視部１３０により処理を継続し、差分が小さくなった場合、処理をワーキングメモリ部１２０に移行させるための判断基準として用いられる。

本実施例においては、第１の注視領域を１つとする場合の構成について説明するが、第１の注視領域が２つ以上の場合においても適用が可能である。第１の注視領域の数は、許容される計算時間を含むシステムの計算資源に基づいて決定する。

図７は、観測画像中の第１の注視領域に関する情報である注視状態１３４の一例を示す図である。
注視状態１３４は、注視しているか否かを示す情報である活性情報７３と、画像中の第１の注視領域の座標７１および大きさ７２の情報と、画像のイメージ情報である画像情報(画像７５)と、を有する。活性情報７３が、Ｔｒｕｅの場合は、当該領域が注視されている状態を示す。注視状態１３４は、第１の注視領域の座標７１と、大きさ７２と、活性情報７３、画像７５と、生成モデル内部状態７６とを対応させて管理する情報である。

初期状態において、注視状態１３４は、活性情報７３が非活性(False値)であり、座標７１、大きさ７２、画像７５の値は意味の無い値が保持されている。生成モデル内部状態７６は、観測画像から次の時刻の第１の注視領域を予測するための学習モデルの変数を示す。

図８は、メモリ状態の情報の一例を示す図である。図８は、３個のワーキングメモリを持つ場合の例である。メモリ状態１２２は、ユニークな識別子８０と、画像中の処理対象となる第２の注視領域の座標８１、および大きさ８２と活性情報８３と、画像イメージを示す画像情報（画像８４）と、を管理する。また、生成モデルがRNN(Recurrent Neural Network)やLSTM(Long-short Term Memory)などの内部状態を持つモデルから構成される場合、生成モデルの内部状態８５を示す情報を持つ。生成モデルの内部状態８５は、ワーキングメモリ部１２０で、過去の画像から次の時刻の第２の注視領域を予測するための学習モデルの変数を示す。

初期状態において、座標８１および大きさ情報８２、画像８４、生成モデルの内部状態８５には意味の無い値が保持されている。

図９は、注視制御部１３１が注視状態１３４の情報を更新する手順の一例を示す図である。
まず、注視制御部１３１は、場所ベース注視領域決定部１３２から注視領域候補１３１２が入力されると、注視領域候補１３１２の座標情報等を基に、注視状態１３４の活性情報７３を参照して、注視状態が活性かを判定する（Ｓ９１）。

注視状態１３４が活性である場合、既に注視部１３０には第１の注視領域が設定されているため、場所ベース注視領域決定部１３２から生成される注視領域候補１３１２の情報に依らず、第１の注視状態の更新はせずに更新処理を終了する。
注視状態１３４が活性でない場合、注視領域候補１３１２にエントリーがあるかを判定する（Ｓ９２）。

注視領域候補がある場合、注視領域候補１３１２の各注視領域の中から、一つを所定の条件で選択する（Ｓ９３）。例えば、面積が最大の領域を選択する。面積の計算は、各矩形領域の大きさ情報(h,w)から計算する。予め、面積を計算し、注視領域候補の情報に含ませることもできる。このステップは、一番大きい面積の矩形領域を選択することとしたが、注視したいオブジェクトを指定して、そのオブジェクトが含まれる領域を選択するようにすることもできる。

候補となる注視領域がない（ステップ９２がＹＥＳ）場合、第１の注視状態の更新はせずに更新処理を終了する。

次に、ステップＳ９３で選択した注視領域が、ワーキングメモリ部１２０内に保持される第２の注視領域の近傍であるかを判定する（Ｓ９４）。ワーキングメモリ部１２０に保持された第２の注視領域が複数ある場合には、それぞれ第２の注視領域について判断する。ステップ９４の近傍条件の確認は、ワーキングメモリ部１２０で、既に第２の注視領域として管理されている領域を、新たな第１の注視領域として注視部１３０に処理させないためである。

選択した注視領域候補がワーキングメモリ内に保持される第２の注視領域の近傍ではないと判定された場合、ステップＳ９３で選択した注視領域候補の座標および大きさを、第１の注視状態１３４の座標および大きさに書き込み、活性/非活性情報を活性情報(True値)に書き込み、生成モデル内部状態には生成モデルにより定められる初期値を書き込む。（Ｓ９６）。これにより、新たな領域を第１の注視領域とする更新が行われる。

もし、選択した領域がワーキングメモリ内に保持される第２の注視領域の近傍であると判定された場合、選択した矩形領域を注視領域候補から除外し（Ｓ９５）、ステップＳ９２に戻る。

選択した注視領域候補と、ワーキングメモリ内の第２の注視領域の近傍条件の判定は、各注視領域の座標および大きさの差分が予め設定された閾値以内であるかどうかに基づき判定される。座標、および大きさの差分の近傍判定に使用する閾値は、外部より入力される注視制御構成により与える。

この近傍判定は、矩形領域内の画像も含めて近傍判定を実行しても良い。また、生成モデル部の制御部（モデル制御部１１１）を介して、画像エンコード部１１２を用い、画像を特定のベクトルに変換した変換後のベクトルの差分を近傍判定の値として良い。

図６に示した画像において、注視状態の更新された例を図１０に示す。図１０では、矩形領域６０１は、既にワーキングメモリ部１２０により、第２の注視領域として管理され、将来画像が予測されている領域であり、矩形領域６０２が注視制御部１３１により新たな第１の注視領域として追加される場合を示している。

注視制御部１３１は、更新した注視状態により定まる第１の注視領域（図１０の領域６０２）に対して、その将来の予測画像を生成するため制御する。

以上の通り、注視制御部１３１は、注視領域候補からワーキングメモリ部１２０で処理されていない、第１の注視領域を生成モデル部１１０に出力し、生成モデル部１１０は、注視制御部１３１から第１の注視領域に関する情報を受領し、第１の注視領域に関する将来画像を予測する。

図１１は、生成モデル部１１０による第１の注視領域の予測画像の生成処理を示す図である。図１１は、処理に関連する部分を図１Ａより抜粋したものとなっている。

注視状態１３４は、画像と非画像の情報に分割される。非画像の情報は、処理対象となる第１の注視領域の座標および大きさである。深度情報を取得可能なシステムの場合には、非画像情報に深度情報も含むことも可能である。

注視制御部１３１は、注視状態１３４の画像情報（画像１１０１（図７の画像７５））を、生成モデル部１１０のモデル制御部１１１を介して、画像エンコード部１１２に入力する。画像エンコード部１１２は、画像を対応するベクトルに変換する。

画像を生成モデル部１１０により変換したベクトルを潜在ベクトルと呼び、実施例１では第１の注視領域の画像を潜在ベクトルに変換した結果を、注視領域画像潜在ベクトル（以下、画像潜在ベクトル１１０２）と呼ぶ。

生成モデル部１１０は、画像１１０１として、注視部１３０から第１の注視領域の観測画像が入力されると予想潜在ベクトルを生成し、画像潜在ベクトル１１０２として注視部１３０に出力する。また、モデル制御部１１１は、生成した画像潜在ベクトル１１０２を、画像デコード部１１５に入力し、画像潜在ベクトルに対応する画像を生成する。生成モデル１１０は、生成した画像を、第１の注視領域に対する注視領域予測画像（以下、予測画像１１０７）として、注視制御部１３１に出力する。

注視制御部１３１は、第１の注視領域の非画像情報（以下、非画像１１０３）を、モデル制御部１１１を介して非画像エンコード部１１３に入力し、注視領域非画像潜在ベクトル（以下、非画像潜在ベクトル）を生成する。モデル制御部１１１は、生成した非画像潜在ベクトルを、非画像デコード部１１４に入力し、注視領域の座標および大きさ情報と同じ次元のベクトルを生成する。モデル制御部１１１は、生成したベクトルを、第１の注視領域の予測位置を示す注視領域予測非画像（以下、予測非画像１１０５）として、注視制御部１３１に出力する。

予測画像１１０７は、現在の画像１１０１に対する、次時刻の予測される画像情報である。予測非画像１１０５は、現在の非画像１１０３に対する、次時刻の予測される非画像情報である。生成モデル内部状態１１０４は、生成モデルの内部状態を示す情報であり、図７の生成モデル内部状態７６に相当する。

生成モデル部１１０における画像エンコード部１１２、非画像エンコード部１１３、非画像デコード部１１４、画像デコード部１１５の具体的構成について述べる。

画像エンコード部１１２、画像デコード部１１５は、ニューラルネットワークによるオートエンコーダ(Auto-Encoder)、もしくは変分オートエンコーダ(Variational Auto-Encoder)のエンコード部、デコード部を利用する。非画像エンコード部１１３、非画像デコード部１１４は、ニューラルネットワークによる時系列モデルであるRNN(Recurrent Neural Network)やLSTM(Long-Short Term Memory)を利用する。

図１２は、オートエンコーダの構成例を示す図である。オートエンコーダは入力データを、一度入力データの次元よりも低次元のデータに変換し、変換したデータを再度入力次元のデータに変換する。出力データを入力データと同じデータになるようにニューラルネットワークを学習することで、入力データの潜在的に意味のある特徴次元（ｚ）に変換する。例えば、図１２の例では、入力画像として、縦、横それぞれ(28,28)の画像データを784次元ベクトルとしてニューラルネットワークに入力し、20次元まで圧縮する場合の例を示す。図１２のように、入力次元が固定長の場合には、注視領域の画像を入力する際には、画像処理により画像のサイズをニューラルネットワークの入力サイズに合うように画像処理を適用する。Fully-Convolutionalニューラルネットワークなどの入力画像サイズに依存しないニューラルネットワークを用いる場合には、この前処理は不要である。

図１３は、変分オートエンコーダの構成例を示す図である。変分オートエンコーダは、オートエンコーダと同様に、入力データを潜在的に意味のある特徴次元のデータに変換する。ただし、変分オートエンコーダは入力画像を直接潜在ベクトルに変換するのではなく、潜在ベクトルが生成される多次元正規分布の存在を仮定し、その多次元正規分布の平均ベクトル(μ)、分散ベクトル(Σ)に変換する。変分オートエンコーダのデコーダは、変換された多次元正規分布からのサンプリングされるベクトル（ｚ）を、オートエンコーダと同様に入力画像となる変換を学習する。

図１２のオートエンコーダ、図１３の変分オートエンコーダは、画像情報の処理に対して適用される。一般的なオートエンコーダ、および変分オートエンコーダでは、入力データと出力データは同一のデータを用いるが、本実施例では現在の時刻の画像を入力データとし、入力データに対応する将来の予測画像を生成することを目的に、オートエンコーダの出力データとして、入力データに対応する将来の観測画像を与える。

図１４Ａは、エンコーダ及びデコーダにLSTMを用いた場合の構成例を示す。入力ベクトルx[t]が時刻tごとにエンコーダに対応するLSTMに入力され、その隠れ層のベクトル(h)を入力とするデコーダに対応するLSTMが逐次y[t]を出力する場合を示している。LSTMのような時系列を考慮するモデルは、ニューラルネットワークの重みなどのモデルパラメタだけでなく、それまでの処理によって定まる内部状態を持ち、内部状態を入力とすることで、時系列の考慮が可能となる。LSTMの場合、内部状態は例えば隠れ層の出力値(h)、セル値(c)である。

図１４Ａのエンコーダ及びデコーダは、非画像情報の処理に適応される。図１４Ａで示した出力値(h)、セル値(c)が、図７で示した生成モデル内部状態７６に相当する。

図１２、図１３の画像情報の処理に対する生成モデルと、図１４Ａの非画像情報の処理に対する生成モデルはそれぞれ独立に構成しているが、図１４Ｂのように、それぞれのエンコード結果を相互に入力することで、互いに相関を持ったモデルを構成することも可能である。

この例では、図１３のような変分オートエンコーダに限定せず、図１４Ａのような次時刻の予測モデルも含めて生成モデルの用語を用いて説明する。

実施例１のシステムは、注視状態として生成モデルの内部状態を保持することで、適時適切な内部状態を入力として与える。生成モデルの内部状態は計算を実行する毎に更新される。そのため、次時刻以降にも適切に内部状態を入力可能とするために、モデル制御部１１１は、更新済み内部状態１１０６を注視制御部１３１に出力し、注視制御部１３１は取得した更新済み内部状態１１０６に基づき注視状態１３４を更新する。

入力x[t]に対応する出力y[t]を定め、LSTMを学習することで、入力ベクトルの時系列変化に対応する出力ベクトルの変化を予測するモデルの学習が可能となる。予測非画像１１０５は注視領域の位置だけでなく、大きさを含む構成も可能であり、この場合、実施例１のシステムは、注視領域の座標と大きさを入力とし、次時刻の注視領域の座標と大きさを出力とするようにエンコーダ、デコーダを学習することで、注視領域の次時刻の空間的位置と大きさを予測する。

実施例１のシステムは、システムが想定する対象画像や、その動きの情報を用いて、オートエンコーダまたは変分オートエンコーダ、およびLSTMとして、生成モデルの画像エンコード部、画像デコード部、非画像エンコード部、非画像情報デコード部を事前に学習しておき、学習結果であるニューラルネットワークのパラメタを、外部より入力する生成モデルとして与える構成が可能である。

また、システム稼働中に、対応する学習データを記憶装置１６２に保存し、内部にニューラルネットワークの学習機構を持つことで、システム稼働中に適時オンライン学習をすることで、ニューラルネットワークのパラメタを更新する構成も可能である。

図１５は、注視制御部１３１が行う、第１の注視領域に対する予測画像の生成の一例を示す図である。図１５のように、観測画像３０と同サイズのキャンバス１５０１上に、生成した予測非画像１１０５が定める領域１５０２に、予測画像１１０７を領域１５０２のサイズに変換した画像１５０３を合成することで、予測画像３１を生成する。

キャンバス１５０１は時刻ごとに白紙のキャンバスとする構成や、１時刻前の予測画像をキャンバスとする構成、観測画像をキャンバスとする構成が可能である。観測画像の注視領域が、予測非画像の矩形領域の大きさと異なる場合には、予測非画像の矩形領域の大きさに、事前にコンピュータビジョンアルゴリズムによって、リサイズした後に合成する。

また、キャンバスに現在の観測画像を用いる場合には、更新前の注視領域の非画像情報の示す部分領域の除去画像を生成し、生成した除去画像に対して予測画像を合成する。

以上の手続きにより、観測画像３０（例えば、図３の観測時間ｔ＝１）と、それに対応する予測画像３１（ｔ＝１）に従って決定される、観測画像中の第１の注視領域の予測画像（ｔ＝２）の生成が、注視部１３０によって可能となる。

次に、生成した予測画像３１（ｔ＝２）に対して、次の時刻に新たな観測画像３０（ｔ＝２）を取得した際に、観測画像３０（ｔ＝２）の第１の注視領域と予測画像３１（ｔ＝２）の第１の注視領域との予測誤差に基づき、注視を終了するか第１の注視領域を更新するかを決定する。この処理は、オブジェクトベース注視領域決定部１３３によって行われる。

オブジェクトベース注視領域決定部１３３は、先に述べた第１の注視領域に対応する領域を、新たな観測画像中から求める。単純には予測画像１１０７をテンプレートとし、新たな観測画像３０（ｔ＝２）に対してテンプレートマッチング処理を実行する。また、この問題を物体追跡(オブジェクトトラッキング)と考え、オブジェクトベース注視領域決定部１３３は、コンピュータビジョン分野のオブジェクトトラッキングアルゴリズムを用いて、第１の注視領域に対応する領域の探索アルゴリズムを構成することが出来る。画像の変化が小さく、予測画像の生成が高い精度で実行可能な場合には、このような探索方式を用いることが出来る。

一方、画像の変化が大きく、予測画像の精度が低い場合には、よりロバストなマッチングを目的に、新たな観測画像（ｔ＝２）と、画像潜在ベクトル１１０２と、予測非画像１１０５によるマッチング処理を実行する。

図１６は、注視部１３０による注視領域の予測に対するマッチング処理手順の一例を示した図である。この処理は、注視部１３０による注視処理を終了するか第１の注視領域を更新するかを決定する。図１６の処理を、注視領域の予測に対するマッチング処理の探索過程の例を示す図１７を用いながら説明する。

まず、予測非画像１１０５により特定される領域を、初期ウィンドウ(図１７、１７０２)として設定する（Ｓ１６１）。

設定したウィンドウ１７０２に対応する、観測画像３０から切り出した領域の画像情報を、生成モデル部１１０に出力する。生成モデル部１１０では、画像エンコード部１１２を用いて潜在ベクトル（ｚ）に変換する（Ｓ１６２）。注視制御部１３１は、変換された潜在ベクトル（ｚ）を生成モデル部１１０から受信する。このステップで、実際に観測された観測画像の潜在ベクトルを求める。

次に、変換した潜在ベクトル（ｚ）と、第１の注視領域の予測画像に関する情報である画像潜在ベクトル１１０２との差分を計算する（Ｓ１６３）。これにより、注視領域における人や車等のオブジェクトに関し、同時刻の観測画像と予測画像の差分を把握する。

計算される差分を、所定の閾値と比較する（Ｓ１６４）。差分が予め決められた閾値よりも小さい場合、観測画像中の第１の注視領域が、予測した第１の注視領域の近傍かを判断する（Ｓ１６５）。近傍の判定は、それぞれの領域の座標、および大きさの差分が予め決められた閾値よりも小さいかによって判定する。第１の注視領域が観測画像と予測画像で差異が所定値以下の場合、予測が十分な精度で実行できていると判断し、第１の注視領域をワーキングメモリ部に出力し、注視状態の活性情報をＦａｌｓｅに更新する（Ｓ１６８）。近傍であると判定した第１の注視領域に対する処理をワーキングメモリ部１２０に移し、注視部１３０では処理しないためである。つまり、第１の注視領域を、第２の注視領域としてワーキングメモリ部１２０に処理を移行する。ワーキングメモリ部は、第１の注視領域の情報を第２の注視領域として管理する。

近傍ではないと判定された場合、現在の第１の注視領域に対する予測が十分に出来ていないと判断し、注視処理を継続する。この場合、注視状態の矩形領域の情報である座標(x,y)および大きさ(w,h)を、探索ウィンドウの矩形領域の値として更新する（Ｓ１６７）。注視状態の活性情報は活性(True値)のままである。

ステップＳ１６４にて、差分が閾値以内でないと判定されると、探索ウィンドウを予め決められたウィンドウ更新則に従って更新する（Ｓ１６６）。例えば、図１７の探索ウィンドウを１７０２から１７０３に変更する。ウィンドウの更新則は、例えば、予め決められたピクセル値分だけ、探索ウィンドウの座標、大きさを逐次増減させる方法が考えられる。

実施例１は、観測画像３０の第１の注視領域と、予測画像３１の第１の注視領域を直接比較するのではなく、画像エンコード部１１２によって潜在ベクトルに変換した後に比較する。この方法によって、注視領域の細かな相違ではなく、注視領域全体の特徴点に基づく比較を行うことができる。ただし、画像の変化が小さいと予め分かっている場合には、潜在ベクトルへの変換処理を省略し、直接画像を比較する構成も当然可能である。

また、注視状態１３４のワーキングメモリ部１２０への保存は、注視制御部１３１が現在の注視状態を、ワーキングメモリ制御部１２１に送信し、ワーキングメモリ制御部１２１は受信した注視状態を、空いているワーキングメモリに格納し、活性情報を活性(True値)にする。

全てのワーキングメモリが既に使用されている場合、最も古くに格納したワーキングメモリ領域を消去して、新しい情報を書き込む。本機能の実現方法として、ワーキングメモリ制御部１２１はワーキングメモリ領域毎に、データが保存された時刻を管理するためのメモリ領域を持つ構成、格納したワーキングメモリIDをキューにより管理する構成が用いることができる。

初期状態では、全てのワーキングメモリは非活性情報である。その場合には、ワーキングメモリ部１２０は、予測画像３１の生成には影響を与えない。観測画像の第１の注視領域に対する予測が十分に出来ていると判定され、注視状態が解除される場合、それまでの注視状態がワーキングメモリ部１２０のメモリ状態１２２に保存され、活性情報が活性となる。メモリ状態１２２が活性である場合、メモリ状態１２２に保存される第２の注視領域に対して、注視部１３０と同様に予測画像を生成する。

図１８に、予測画像の生成手順の一例を示す。注視部１３０により、予測画像が生成され、第１の注視領域１８０１に対する予測の誤差が十分に小さくなったと判定されると、当該の領域がワーキングメモリ部１２０に保存される。注視部１３０は、別の新たな領域１８０２を第１の注視領域とする。

図１９に、予測画像３１の生成手順の一例を示す。図１９に示すように、観測画像３０と同じ大きさのキャンバス１９０５に、現在の第１の注視領域１９０３に車の画像１９０４を含む予測画像が生成される。それと同時に、ワーキングメモリ部１２０に格納されている第２の注視領域１９０１の予測画像１９０２が生成される。ワーキングメモリ部１２０に格納されている第２の注視領域の予測画像の生成は、注視部１３０の場合と同様に、生成モデルを用いる。

図２０は、図１Ａから抜粋した、ワーキングメモリ部１２０による第２の注視領域に対する予測画像の生成に関わる構成を示す。ワーキングメモリ制御部１２１は、ワーキングメモリに格納されている生成モデルの内部状態２００１（図８の生成モデル内部状態８５）と、注視領域の非画像情報２００２（図８の座標８１、大きさ８２）と、注視領域の画像２００５（図８の画像８４）を、モデル制御部１１１に送信する。モデル制御部１１１は非画像エンコード部１１３および、非画像デコード部１１４に、内部状態２００１と非画像情報２００２を入力し、注視領域の非画像情報の予測値を生成する。また、モデル制御部１１１は画像エンコード部１１２および、画像デコード部１１５に画像２００５を入力し、注視領域の予測画像２００６を生成する。

モデル制御部１１１は、生成した第２の注視領域の予測非画像２００３と更新済み生成モデル内部状態２００４と、予測画像２００６を、ワーキングメモリ制御部１２１に送信する。ワーキングメモリ制御部１２１は、予測非画像２００３、更新済み生成モデル内部状態２００４と、予測画像２００６に従って、対応するワーキングメモリの状態情報を更新するとともに、予測非画像２００３により定まる第２の注視領域に、予測画像２００６を合成する。

ここで、注視部１３０の予測画像の生成処理と、ワーキングメモリ部１２０の予測画像の生成処理の違いを述べる。注視部１３０の予測では、各時刻の観測情報と予測情報の差分を計算し、差分が大きい場合には、観測情報に基づき注視状態を更新したのに対し、ワーキングメモリ部１２０では観測と予測の差分の計算は実施ない。これは、計算量が大きいため、ワーキングメモリ部１２０に格納される第２の注視領域に対しては、逐次予測誤差の修正をしないためである。ワーキングメモリ部１２０に格納される第２の注視領域の予測は、システムが持つ生成モデル１１０の非画像エンコード部１１３と、非画像デコード部１１４により生成される予測非画像、および、画像エンコード部１１２と画像デコード部１１５により生成される予測画像を、次時刻の入力とする。

このため、予測する時間が長くなるにつれて、予測誤差が蓄積する可能性がある。計算処理の時間よりも、予測画像の精度を要求する場合には、ワーキングメモリ部１２０の第２の注視領域に対しても、注視部１３０の注視領域と同様に処理を実行し、逐次予測誤差の修正をする構成をとることも可能である。

以上の通り、実施例１によれば、観測画像中のオブジェクトを含む注視領域に絞って、予測画像を生成するため、予測画像中のオブジェクトを識別することができる。また、観測画像と予測画像とで差分が大きい注視領域については、注視部により予測画像を生成し、差分の小さい注視領域については、ワーキングメモリ部で予測画像を生成し、これら予測画像を制御部で合成して観測画像に対する予測画像を生成するので、予測処理を高速に行うことができる。

実施例１は、観測画像中の第１の注視領域と、ワーキングメモリの第２の注視領域は、その予測の生成において互いに独立である。各注視領域には、車や人などのオブジェクトが格納されることが期待されるため、例えば、第１の注視領域と、ワーキングメモリの第２の注視領域の予測が互いに独立であることは、各オブジェクト間に相互の依存関係が完全に無い場合を想定している。実施例２では、各注視領域が互いに相関を持つ場合について述べる。つまり、複数の第１の注視領域と複数の第２の注視領域からなる注視領域群のうち、少なくとも二つの注視領域が互いに相関を有する場合について説明する。

図２１に、各注視領域の予測が互いに相関を持つ例を示す。移動する車の前方に人がいる場合、車および人の移動が互いに影響し合うことが考えられる。例えば、車はその前方に人が存在する場合と存在しない場合では、その動きは異なることが考えられる。

図２２に、実施例２の予測の生成に関するシステムの構成例を示す。制御部１４０は、注視制御部１３１と、ワーキングメモリ制御部１２１を制御することで、予測画像および予測非画像を生成する。実施例２は、画像、非画像のそれぞれの予測において、画像および非画像情のエンコード処理は実施例１と同様の画像エンコード部１１２と非画像エンコード部１１３を用いることが出来る。一方、デコード処理においては、各オブジェクト間の相互作用を考慮するため、画像エンコード部１１２と非画像エンコード部１１３が生成する潜在ベクトルを集約演算部２２１５により集約し、画像デコード部１１５と非画像デコード部１１４に入力する。

制御部１４０は、注視制御部１３１に対し、第１の注視領域の画像情報２２０１と非画像情報２２０３と、生成モデルの内部状態２２０４を、モデル制御部１１１に対して出力するよう制御する。

モデル制御部１１１は実施例１の場合と同様に、入力される注視領域の画像情報２２０１と、非画像情報２２０３と、生成モデルの内部状態２２０４を画像エンコード部１１２と、非画像エンコード部１１３に入力し、それぞれ画像潜在ベクトル２２０２と、非画像潜在ベクトルを生成する。

また、制御部１４０は、ワーキングメモリ制御部１２１に対し、メモリ状態１２２の中で活性情報（図８の８３）が活性（Ｔｒｕｅ）であるメモリに対して、第２の注視領域の画像情報２２１２と、非画像情報２２０８と生成モデル内部状態２２０７を、モデル制御部１１１に対してそれぞれ出力するよう制御する。

モデル制御部１１１は実施例１の場合と同様に、入力される第２の注視領域の画像情報２２１２と、非画像情報２２０８と、生成モデルの内部状態２２０７を画像エンコード部１１２と、非画像エンコード部１１３に入力し、それぞれ画像潜在ベクトルと、非画像潜在ベクトルを生成する。

制御部１４０は、生成した第１の注視領域に対する画像および非画像情報のそれぞれのエンコード情報と、第２の注視領域に対する画像およびお非画像情報のそれぞれのエンコード情報を元に、それぞれの領域に対する予測画像および予測非画像を生成する。

それぞれの領域に対する予測画像および予測非画像の生成は、各領域毎に生成される。各領域毎の予測の生成は、図２３に示すように、生成対象の領域を自身として、その領域の画像潜在ベクトルを自画像潜在ベクトル２３０１、非画像潜在ベクトルを自非画像潜在ベクトル２３０２とし、非画像デコード部１１４、および画像デコード部１１５に入力する。

また、生成対象以外の領域を他として、それら複数の他の領域の画像潜在ベクトルを他画像潜在ベクトル２３０３、非画像潜在ベクトルを他非画像潜在ベクトル２３０４とし、他画像潜在ベクトル２３０３および他非画像潜在ベクトルを集約演算部２２１５に入力して他集約ベクトル２３０７を生成し、生成した他集約ベクトル２３０７を非画像デコード部１１４と画像デコード部１１５に入力する。

例えば、図２４の人２４０２が生成対象の領域とすると自身となり、自画像潜在ベクトル２３０１、自非画像潜在ベクトル２３０２として、非画像デコード部１１４、および画像デコード部１１５に入力される。

一方、人２４０３、車２４０４、信号２４０１が他として、他画像潜在ベクトル２３０３、他非画像潜在ベクトル２３０４とし、集約演算部２２１５に入力され、他集約ベクトル２３０７を生成し、非画像デコード部１１４と画像デコード部１１５に入力される。

非画像デコード部１１４は入力される自画像潜在ベクトル２３０１と、自非画像潜在ベクトル２３０２と、他集約ベクトル２３０７から予測非画像２３０５を生成する。同様に、画像デコード部１１５は入力される自画像潜在ベクトル２３０１と、自非画像潜在ベクトル２３０２と、他集約ベクトル２３０７から予測画像２３０６を生成する。

図２３のように、各領域毎に、その周囲の領域の影響を考慮して、予測情報を生成する方式は、各領域をノードとし、相互作用を考慮する領域間にエッジを持つグラフデータに対してニューラルネットワークを適用する方式であり、グラフニューラルネットワークと呼ばれる。

例えば、図２４のように信号２４０１と、２人の人（２４０２と２４０３）と、車２４０４の４つの領域が、それぞれ第１の注視領域、あるいは第２の注視領域に保存されている場合を考える。４つの領域がそれぞれ影響を与えると考える場合には、各領域をノードとし、全ノード間にエッジを持つ完全グラフを考える。

予測情報の生成は、信号２４０１、２人の人（２４０２と２４０３）と、車２４０４を、それぞれ予測の生成対象の領域として、各領域毎に図２３の処理を適用する。

予測の生成対象の領域が車２４０４の場合、車２４０４の画像潜在ベクトルおよび非画像潜在ベクトルが、それぞれ自画像潜在ベクトル２３０１および自非画像潜在ベクトル２３０２となり、車２４０４に対応するノードとグラフデータ上で接続される、信号２４０１と、２人の人（２４０２と２４０３）の画像ベクトルおよび非画像潜在ベクトルのそれぞれが、他画像潜在ベクトル２３０３および他非画像潜在ベクトル２３０４となる。同様に、予測の生成対象が２４０１の信号の場合には、自画像潜在ベクトル２３０１および自非画像潜在ベクトル２３０２は、信号２４０１の画像潜在ベクトルおよび非画像潜在ベクトルとなり、信号以外の車２４０４および２人の人（２４０２と２４０３）の画像潜在ベクトルおよび非画像潜在ベクトルが、それぞれ他画像潜在ベクトルおよび他非画像潜在ベクトルとなる。

生成対象の領域が第１の注視領域の場合、予測画像２３０６は図２２における予測画像２２１１であり、予測非画像２３０５は図２２における予測非画像２２０５である。同様に、生成対象の領域が第２の注視領域の場合、予測画像２３０６は図２２における予測画像２２１３であり、予測非画像２３０５は図２２における予測非画像２２０９である。

集約演算部２２１５は、入力される複数の領域の画像潜在ベクトル、非画像潜在ベクトルを単一のベクトルに集約する演算を実行する。具体的な集約演算としては、各ベクトル値を要素毎の合計値を計算する場合や、要素毎の平均値を計算する場合や、各ベクトルを連結（Concatenate）する場合などが考えられる。また、集約を画像潜在ベクトルと非画像潜在ベクトル毎に分けて集約する場合には、集約ベクトルは画像潜在ベクトルと非画像潜在ベクトルのそれぞれに対して生成される。集約ベクトルには生成対象の領域以外の、他の領域による相互作用の情報が集約されることを期待する。

生成されたそれぞれの予測画像および予測非画像情報に従って、各注視領域の予測画像を生成し、予測画像３１を生成する手順は実施例１と同様である。

生成モデルの学習において、目的関数（または損失関数とも呼ばれる）は、入力と出力の差分情報を用いる構成が可能である。予測モデルの場合には、予測と観測の差分情報を用いる。例えば、入力と出力が同一サイズの画像である場合、入力と出力の同じ位置のピクセル同士の差分を入力と出力の差分と定義することが可能である。

図２４に示すように、観測画像をグラフとして処理する場合、入力と出力の差分の計算において、グラフ情報としての差分の計算が必要となる。グラフニューラルネットワークにおいては、入力と出力のグラフの各ノードの対応関係(マッチング関係)を計算し、得られたマッチング結果に基づき差分を計算する方法などが利用される。しかし、グラフのマッチング処理は計算処理が大きい。

実施例２に関連する学習においては、グラフのマッチング処理の計算コストを抑えるため、図２５に示すように、生成モデルが処理するグラフ情報の基には、そのグラフが生成される画像情報が存在することを踏まえ、グラフ情報としての差分を計算せず、グラフ情報を画像情報２５０１および２５０２に変換し、変換された画像情報の差分を予測と観測の差分情報とする。グラフ情報から画像情報への変換は、グラフ情報から予測画像を生成する場合と同様に観測画像と同じサイズのキャンバスに、各ノードの非画像情報の示す位置と大きさに従って、各ノードの画像情報を合成することで構成する。ただし、キャンバス２５０３および２５０４は全てが黒、または白の白紙のキャンバスを用いる。

キャンバスとして、黒または、白の白紙のキャンバスを用いることで、グラフ内のノードに含まれる情報以外の領域に関する差分の影響を抑えることが可能となり、学習の適切な収束が期待出来る。

実施例２により、注視部１３０の注視領域とワーキングメモリ内に格納される複数の注視領域間の、相互作用を考慮した、各領域に対する予測非画像情報が生成可能となる。

実施例３は、非画像情報であるオブジェクトの座標の生成を、空間情報と時間情報を併せ持つ画像に対する、エンコード処理およびデコード処理によって生成する方法を説明する。

例えば図２６のように、高さＨ、幅Ｗ上の視野２６０３上を、文字「９」（２６０１）と、文字「３」（２６０２）が動いている場合を考える。観測時間をＴとする。実施例１および実施例２と同様の構成および方式により、文字「９」（２６０１）と文字「３」（２６０２）を、第１の注視領域もしくは第２の注視領域として注視した場合、注視の移動の軌跡を、高さＨ、幅Ｗ、奥行きＴの立方体２６０４上の軌跡として考えることが出来る。例えば、文字「９」（２６０１）と文字「３」（２６０２）の動きは、それぞれ、立方体上の軌跡２６０５と軌跡２６０６と考えることが出来る。同様に、高さＨと幅Ｗ上の移動を別々に考えると、高さと幅方向の動きはそれぞれ、高さＨ、幅Ｔのキャンバス２６０７上の軌跡２６０８および軌跡２６０９、または、高さＷ、幅Ｔのキャンバス２６１０上の軌跡２６１１および軌跡２６１２と考えることが出来る。

実施例３では、このような注視領域の移動情報により生成可能な、３次元上（２６０４）、または２次元上（２６０７または２６１０）の軌跡の情報を時空間画像と呼ぶ。時空間画像上の各点は、各時刻において、各注視領域の画像を、画像エンコード部１１２を用いて潜在ベクトルに変換した値を格納する。つまり、高さＨ、幅Ｗ、観測時間Ｔ、潜在ベクトルの次元をＤとすると、３次元の立方体の時空間画像は、大きさ（Ｈ、Ｗ、Ｔ、Ｄ）の４次元テンソルとして表現される。

実施例１に示した注視の制御に従って時空間画像を生成することを目的に、実施例３では第１の注視領域の注視状態１３４および第２の注視領域のメモリ状態１２２を、図２９に示すように，それぞれに時間情報２９０１と時間情報２９０２を追加し、時刻注視状態１３４ａ、時刻メモリ状態１２２ａとして管理する。

実施例３は、非画像情報であるオブジェクトの座標を、図２７のように、所与の期間Ｔ１の時空間画像２７０１を入力とし、非画像情報エンコード部１１３により、時空間画像２７０１を潜在ベクトル２７０３に変換し、変換された潜在ベクトル２７０３を、非画像情報デコード部１１４により、対応する将来の所与の期間Ｔ２の時空間画像２７０２を生成する。時空間画像２７０１の期間Ｔ１と時空間画像２７０２の期間Ｔ２は重複部分を持つことも可能である。時空間画像２７０１は、制御部１４０により、注視制御部１３１およびワーキングメモリ制御部１２１を介して生成され、生成モデル１１０のモデル制御部１１１に送信される。生成される時空間画像２７０２は、モデル制御部１１１から制御部１４０に送信される。

制御部１４０は生成した時空間画像２７０２に対して圧縮膨張処理、および閾値処理を適用してり時空間画像を成形する。閾値処理の閾値は注視制御構成１５１として外部から入力される。成形した時空間画像の、各時刻における、高さＨおよび幅Ｗの各点におけるデータは、各時刻における各点の画像潜在ベクトルの予測値となる。制御部１４０は、各点におけるデータを生成モデル１１０のモデル制御部１１１を介して、画像デコード部１１５に入力し、各点の画像潜在ベクトルを画像に変換し、時空間画像２７０２と同じ高さと幅のキャンバス上の各点に、各時刻における、各点の画像を合成する。

実施例３は、図２７の構成および方式を用いて、非画像情報の位置情報を生成する。非画像情報エンコード部１１３および非画像情報デコード部１１４は、時空間画像が２次元上の軌跡（図２６の２６０７または２６１０）の場合には、実施例１にて説明した画像エンコード部１１２および画像デコード部１１５と同様に、図１２のオートエンコーダ、または図１３の変分オートエンコーダにより構成することが出来る。図１２または図１３に示す２次元画像に対するオートエンコーダおよび変分オートエンコーダにおいては、一般的に、２次元構造を認識するために、２次元畳み込み演算と２次元のプーリング演算が適用される。

同様に、図２８に示すように、３次元構造を認識するためには、３次元テンソル２８０１に対して、３次元のカーネル２８０２として畳み込み演算およびプーリング演算を適用する３次元畳み込みニューラルネットワークを用いることが出来る。

実施例３により、非画像情報であるオブジェクトの座標の予測を、画像の予測と同様の方式で生成することが可能となる。

１：システム
１０：画像予測システム
１１０：生成モデル部
１１１：モデル制御部
１１２：画像エンコード部
１１３：非画像エンコード部
１１４：非画像デコード部
１１５：画像デコード部
１２０：ワーキングメモリ部
１２１：ワーキングメモリ制御部
１２２：メモリ状態
１３０：注視部
１３１：注視制御部
１３２：場所ベース注視領域決定部
１３３：オブジェクトベース注視領域決定部
１３４：注視状態
１４０：制御部。

Claims

観測した画像から将来を予測する画像を生成する画像予測システムにおいて、
前記画像予測システムは、
注視部と、
ワーキングメモリ部と、
制御部と、
生成モデル部とを有し、
前記注視部は、
観測画像中のオブジェクトが含まれる領域について、観測画像と予測画像とのピクセル毎の差分を生成し、前記オブジェクトが含まれる矩形領域を生成し、前記矩形領域を第１の注視領域候補として決定する場所ベース注視領域決定部と、
前記第１の注視領域候補に関する情報を受信し、前記第１の注視領域候補の一つを所定の条件で第１の注視領域として選択する注視制御部と、
前記第１の注視領域の情報を注視状態として格納する第１の記憶部と、を有し、
前記生成モデル部は、
前記第１の注視領域の予測画像を生成し、
前記ワーキングメモリ部は、
前記観測画像と前記予測画像において、前記第１の注視領域の場所の差異が所定値以下の場合、前記第１の注視領域を第２の注視領域として、前記第２の注視領域の情報をメモリ状態として格納する第２の記憶部を有し、
前記生成モデル部は、
前記第１の注視領域の予測画像を生成し、前記注視制御部に出力し、
前記第２の注視領域の予測画像を生成し、前記ワーキングメモリ部に出力し、
前記制御部は、
前記注視部からの前記第１の注視領域の予測画像と、前記ワーキングメモリ部からの前記第２の注視領域の予測画像を統合して、前記観測画像に対する予測画像を生成することを特徴とする画像予測システム。
請求項１に記載の画像予測システムにおいて、
前記注視制御部は、
前記観測画像と前記予測画像において、前記第１の注視領域の場所の差異を、前記観測画像と前記予測画像の画像情報の潜在ベクトルを比較して求めることを特徴とする画像予測システム。
請求項２に記載の画像予測システムにおいて、
前記注視制御部は、前記第１の注視領域候補から前記第１の注視領域の選択を、前記第１の注視領域候補の面積に基づいて行うことを特徴とする画像予測システム。
請求項２に記載の画像予測システムにおいて、
前記注視制御部は、前記第１の注視領域候補から前記第１の注視領域の選択を、前記第１の注視領域候補に含まれるオブジェクトに基づいて行うことを特徴とする画像予測システム。
請求項３に記載の画像予測システムにおいて、
前記第１の記憶部に格納される前記注視状態は、
前記第１の注視領域の座標と、大きさと、画像情報と、生成モデル内部状態とを対応させて管理する情報であることを特徴とする画像予測システム。
請求項５に記載の画像予測システムにおいて、
前記生成モデル部は、前記注視制御部から前記第１の注視領域の、前記生成モデル内部状態と、前記座標と、前記大きさからなる非画像情報及び前記画像情報とを入力し、前記注視制御部に対し、画像潜在ベクトルと前記第１の注視領域の予測位置を示す予測非画像と、前記第１の注視領域の予測画像とを出力することを特徴とする画像予測システム。
請求項６に記載の画像予測システムにおいて、
前記生成モデル部は、
前記注視部からの前記第１の注視領域の予測画像の予想潜在ベクトルと、
前記予測非画像で特定される観測画像における領域の潜在ベクトルと、を生成し、
前記注視部は、
前記生成モデル部からの前記予想潜在ベクトルと前記潜在ベクトルとを比較し、前記オブジェクトが観測画像中の前記第１の注視領域に入るように制御することを特徴とする画像予測システム。
請求項７に記載の画像予測システムにおいて、
前記注視部は、
前記生成モデル部からの前記予想潜在ベクトルと前記潜在ベクトルとを比較した結果、差分が所定値以下の場合、または、前記第１の注視領域における観測画像と予測画像で差異が所定値以下の場合に前記第１の注視領域を前記ワーキングメモリ部に出力し、
前記ワーキングメモリ部は、前記第１の注視領域の情報を前記第２の注視領域として管理することを特徴とする画像予測システム。
請求項５に記載の画像予測システムにおいて、
前記第２の記憶部に格納される前記メモリ状態は、
前記第２の注視領域の座標と、大きさと、画像情報と、生成モデル内部状態とを対応させて管理する情報であることを特徴とする画像予測システム。
請求項６に記載の画像予測システムにおいて、
前記生成モデル部は、
前記第１の記憶部に格納される前記第１の注視領域と、前記第２の記憶部に格納される前記第２の注視領域とを、潜在ベクトル情報に変換する画像エンコード部と、
前記潜在ベクトル情報を、それぞれの領域の将来の位置および大きさの予測情報を生成する非画像情報デコード部と、
前記潜在ベクトル情報を、それぞれの領域の将来の画像の予測情報を生成する画像情報デコード部とを更に有することを特徴とする画像予測システム。
請求項６に記載の画像予測システムにおいて、
前記制御部は、
前記第1の記憶部に格納される前記第１の注視領域及び前記第２の記憶部に格納される前記第２の注視領域の少なくとも二つの領域毎に、生成対象の領域と、非生成対象の領域とに分割し、
前記生成モデル部は、
前記生成対象の領域と、前記非生成対象の領域をそれぞれ潜在ベクトル情報に変換し、前記非生成対象の領域の前記潜在ベクトルの集約演算部と、
前記集約演算部により集約されるベクトル情報と、前記生成対象の領域の、前記潜在ベクトル情報を入力として、将来の位置および大きさの予測情報を生成する非画像情報デコード部と、
将来の画像の予測情報を生成する画像情報デコード部とを有することを特徴とする画像予測システム。
請求項６に記載の画像予測システムにおいて、
前記生成モデル部の学習は、
前記第１の注視領域に格納される注視領域の座標と、大きさと、画像情報と、
前記第２の注視領域に格納される注視領域の座標と、大きさと、画像情報と、
白紙の画像に従って生成される画像情報を用いて処理されることを特徴とする画像予測システム。
請求項６に記載の画像予測システムにおいて、
前記第１の記憶部に格納される前記注視状態は、
前記第１の注視領域の座標と、大きさと、画像情報と、生成モデル内部状態と、時刻情報を対応させて管理する情報であり、
前記第２の記憶部に格納される前記メモリ状態は、
前記第２の注視領域の座標と、大きさと、画像情報と、生成モデル内部状態と、時刻情報を対応させて管理する情報であることを特徴とする画像予測システム。
請求項１３に記載の画像予測システムにおいて、
前記制御部は、
前記第１の注視領域と時間情報を管理する時刻注視状態と、前記第２の注視領域と時間情報を管理する時刻メモリ状態の少なくとも一方から、前記第１の注視領域及び前記第２の注視領域の少なくとも一つの注視領域の座標の時系列変化を表す情報を生成し、
前記生成モデル部は、
前記生成される注視領域の座標の時系列変化を表す情報を潜在ベクトルに変換する非画像情報エンコード部と、
前記変換される潜在ベクトルを、将来の注視領域の座標の時系列変化を表す情報を生成する非画像情報デコード部とを有することを特徴とする画像予測システム。