JP7239511B2 - 画像予測システム - Google Patents

画像予測システム Download PDF

Info

Publication number
JP7239511B2
JP7239511B2 JP2020030329A JP2020030329A JP7239511B2 JP 7239511 B2 JP7239511 B2 JP 7239511B2 JP 2020030329 A JP2020030329 A JP 2020030329A JP 2020030329 A JP2020030329 A JP 2020030329A JP 7239511 B2 JP7239511 B2 JP 7239511B2
Authority
JP
Japan
Prior art keywords
image
gaze
information
unit
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020030329A
Other languages
English (en)
Other versions
JP2021135650A (ja
Inventor
忠幸 松村
佳奈子 江▲崎▼
弘之 水野
潔人 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020030329A priority Critical patent/JP7239511B2/ja
Priority to US17/126,441 priority patent/US11790661B2/en
Publication of JP2021135650A publication Critical patent/JP2021135650A/ja
Application granted granted Critical
Publication of JP7239511B2 publication Critical patent/JP7239511B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Description

本発明は、将来画像の予測する予測画像の生成技術に関する。
画像応用における深層学習技術の進歩に伴い、現在の観測画像から近い将来の画像シーケンス(動画)を予測する動画予測技術に関する研究開発が活発化している。
将来画像の予測技術は自動運転システムの高度化、安全化や、モデルベース深層強化学習における要素技術としての活用が期待されている。
例えば、非特許文献1は、画像を予め区切られたグリッド単位で処理する畳み込みニューラルネットワーク(Convolutional Neural Network)と、内部状態を持つニューラルネットワークの一種であるLSTM(Long-Short Term Memory)とを組合せ、予め決められたグリッドで区切られたピクセル集合毎の時系列変化を予測することで、将来の予測画像を生成する技術を開示している。
非特許文献1が開示する技術では、入力画像を予め決められたグリッドで区切られたピクセル集合毎に、その時系列変化を予測する。そのため、入力画像中に存在する、車や人などのオブジェクト単位での変化の予測が出来ず、予測する時間が長くなるにつれて、生成される予測画像は、どのようなオブジェクトが存在するか識別困難な画像になる。このような技術を自動運転に適用することを考えた場合、予測画像中に人がいるかどうかや、対向車がいるかどうかといったオブジェクトの識別が困難であることは、安全性に問題があると考えられる。
本発明の目的は、オブジェクトの存在を認識できる予測画像を生成する技術を提供することにある。
本発明の一態様である、観測した画像から将来を予測する画像を生成する画像予測システムは、注視部と、ワーキングメモリ部と、制御部と、生成モデル部とを有する。
前記注視部は、観測画像中のオブジェクトが含まれる領域について、観測画像と予測画像とのピクセル毎の差分を生成し、前記オブジェクトが含まれる矩形領域を生成し、前記矩形領域を第1の注視領域候補として決定する場所ベース注視領域決定部と、前記第1の注視領域候補に関する情報を受信し、前記第1の注視領域候補の一つを所定の条件で第1の注視領域として選択する注視制御部と、前記第1の注視領域の情報を注視状態として格納する第1の記憶部と、を有する。
前記生成モデル部は、前記第1の注視領域の予測画像を生成し、前記ワーキングメモリ部は、前記観測画像と前記予測画像において、前記第1の注視領域の場所の差異が所定値以下の場合、前記第1の注視領域を第2の注視領域として、前記第2の注視領域の情報をメモリ状態として格納する第2の記憶部を有する。
前記生成モデル部は、前記第1の注視領域の予測画像を生成し、前記注視制御部に出力し、前記第2の注視領域の予測画像を生成し、前記ワーキングメモリ部に出力する。
前記制御部は、前記注視部からの前記第1の注視領域の予測画像と、前記ワーキングメモリ部からの前記第2の注視領域の予測画像を統合して、前記観測画像に対する予測画像を生成する。
本発明の一態様によれば、画像中の複数のオブジェクトの存在を認識することができる。
画像予測システムの機能構成例を示す図である。 画像予測システムのハードウェアブロックを示す図である。 生成モデル情報の構成例を示す図である。 観測システムから入力される観測画像と予測画像の生成の例を示すである。 観測システムから入力される観測画像と予測画像の生成の他の例を示す図である。 場所ベース注視領域決定部の処理手順を示す図である。 場所ベース注視領域決定部による注視領域の生成結果と注視領域候補情報の例を示す図である。 注視状態の情報を示す図である。 メモリ状態の情報を示す図である。 注視状態の更新処理手順を示す図である。 更新後の注視状態を説明する図である。 注視領域の予測画像生成処理を説明する図である。 オートエンコーダの構成例を示す図である。 変分オートエンコーダの構成例を示す図である。 LSTMによる非画像エンコード部およびデコード部の構成例を示す図である。 エンコード結果を相互に入力する非画像エンコード部およびデコード部の構成例を示す図である。 注視領域に対する予測画像の生成を説明する図である。 注視領域に対するマッチング処理と注視領域の更新手順を示す図である。 注視領域の予測に対するマッチング処理の探索過程を示す図である。 予測画像の生成手順の一例を示す図である。 ワーキングメモリに格納される注視領域も含めて予測画像の生成を説明する図である。 ワーキングメモリによる注意領域の予測画像生成に関するシステム構成要素を説明する図である。 注視領域間の相互作用の考慮が必要な場合を説明する図である。 注視領域間の相互作用を考慮する場合のシステム構成要素を説明する図である。 注視領域間の相互作用を考慮する場合の非画像情報デコード部の構成を説明する図である。 注視情報およびワーキングメモリ情報に基づく観測画像に対するグラフデータを示す図である。 グラフデータを画像データに変換して画像データの差分を計算する例を示す図である。 時空間画像データをの例を示す図である。 時空間画像データに対する生成モデルの例を示す図である。 3次元畳み込みニューラルネットワークの例を示す図である。 他の注視状態とメモリ状態の情報を示す図である。
以下、添付図面を参照して本発明の実施形態を説明する。本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではない。各図において共通の構成については同一の参照符号が付されている。
以下に開示される一実施形態の画像予測システムは、画像シーケンスを入力とし、一定期間の将来画像シーケンス(予測画像)を出力する。
図1Aは、実施例1の画像予測システム10を含むシステム1の全体機能構成を示す。システム1は、画像予測システム10と、画像予測システム10に接続される観測システム153と表示システム154とを有する。
画像予測システム10は、生成モデル部110、ワーキングメモリ部120、注視部130、制御部140を有し、外部から注視制御構成151と生成モデル152が入力される。
ワーキングメモリ部120は、過去の画像に対して設定された注視領域(第2の注視領域と称する)を制御する。生成モデル部110は、ワーキングメモリ部120によって管理される第2の注視領域における、予測画像を生成する。注視領域は、画像中に含まれる人や車等の注目するオブジェクトを含む処理対象となる部分領域である。
注視部130は、観測システム153から取得される観測画像に基づき、観測画像中の注視領域(第1の注視領域と称する)を制御する。生成モデル部110は、第1の注視領域の将来の予測画像を生成する。注視部130は、ワーキングメモリ部120で第2の注視領域に設定していない領域について、第1の注視領域の制御を行う。例えば、画像中に新たに表れた人や車等の注目するオブジェクトを検出し、検出されたオブジェクトを含む領域の制御を行う。尚、実施例中、第1の注視領域と第2の注視領域とを区別することなく理解できる場合、単に注視領域として説明する場合がある。
生成モデル部110は、注視部130、およびワーキングメモリ部120が制御する注視領域の画像のエンコード、およびエンコード結果のデコードをし、注視領域の将来画像を生成する。
制御部140は、注視部130およびワーキングメモリ部120を制御し、それぞれが生成する注視領域の予測画像を統合して、一つの予測画像を生成する。
観測システム153は、観測対象から観測画像を取得する。例えば、建物内の監視カメラシステムや、屋外の定点観測カメラシステムや、車載カメラシステムである。
表示システム154は、ディスプレイ装置を含むサーバまたはPC、ネットワークを介して接続されるサーバやPCに接続されるディスプレイ装置や、ネットワークを介して接続さえるスマートフォンなどのモバイル装置である。
画像予測システム10に入力される生成モデル152は、モデル情報や、モデルのパラメタ情報を含む。例えば、図2に示すように、生成モデルをニューラルネットワークにより構成する場合、層21、層パラメタ22がモデル情報に該当する。層21は、ニューラルネットワークの各層の種別である、入力から順に2次元畳み込み層(Convolution2D)、2次元最大値プーリング層(MaxPooling2D)、2次元畳み込み層、線形層(Linear)を例として挙げることができる。重みパラメタ23がモデルのパラメタ情報に該当する。
画像予測システム10に入力される注視制御構成151は、注視部130が第1の注視領域の制御に使用する情報である。
図1Bは、画像予測システム10のハードウェアブロック図を示す。画像予測システム10は、一般的な計算機と同様、処理部であるCPU160、DRAM等のメモリ161、HDD、SSD等の不揮発性メモリからなる記憶装置162、ネットワーク5に接続され、外部の装置と通信するための通信インタフェース163を含む。画像予測システム10は、処理の高速化を目的として、処理部としてGPU164を含むことも可能である。CPU160、メモリ161、記憶装置162、通信インタフェース163、GPU164はバス等の接続手段167で相互に接続されている。
メモリ161は、各種プログラムを格納し、各種プログラムを処理部であるCPU160が実行することで、生成モデル部110、注視部130、ワーキングメモリ部120、制御部140の各種機能等を実現する。
生成モデル部110を構成するプログラムには、モデル制御部111、画像エンコード部112、非画像エンコード部113、非画像デコード部114、画像デコード部115を構成するプログラムが含まれる。
注視部130を構成するプログラムには、注視制御部131、場所ベース注視領域決定部132、オブジェクトベース注視領域決定部133を構成するプログラムが含まれる。
ワーキングメモリ部120を構成するプログラムには、ワーキングメモリ制御部121を構成するプログラムが含まれる。
本実施の形態においては、生成モデル部110のモデル制御部111、画像エンコード部112、非画像エンコード部113、非画像デコード部114、画像デコード部115、注視部130の注視制御部131、場所ベース注視領域決定部132、オブジェクトベース注視領域決定部133、ワーキングメモリ部120のワーキングメモリ制御部等の各機能は、処理部であるCPU160、またはGPU164によって実行される。そのため、その動作主体は、CPU160、またはGPU164であるが、説明を理解しやすくするため、各機能を動作主体として記載して説明することがある。
記憶装置162は、システム稼働中に取得可能な、生成モデル部110が保持する生成モデルの学習データを格納する。
メモリ状態122は、メモリ161の記憶領域(第2の記憶部)に格納され、生成モデル部110が予測画像を生成するため、過去の画像に対して設定された、第2注視領域に関する情報である。注視状態134は、メモリ161の記憶領域(第1の記憶部)に格納され、生成モデル部110が予測画像を生成するため、観測システム153から取得される画像情報に対して設定された観測画像中の第1の注視領域に関する情報である。なお、メモリ状態122、注視状態134の情報を記憶装置162に格納し、メモリ161に読み出して処理しても良い。メモリ状態122、注視状態134を記憶装置162に格納することで、システム再起動後に同一の注視領域について予測画像を生成することができる。
注視部130は、例えば、観測画像中に新たに映り込んだ人や車等のオブジェクトを含む注視領域を、第1の注視領域として注視部130により抽出する。生成モデル部110は、注視部130から第1の注視領域に関する情報に基づき、第1の注視領域の予測画像を生成する。
第1の注視領域の観測画像が、生成モデル部110で生成される予測画像と同じようになる場合(観測画像と予測画像の差が一定の範囲にある場合も含む)、注視領域の制御をワーキングメモリ部120に移行する。即ち、ワーキングメモリ部120は、注視部130により注視領域と設定された領域の内、変化の少なくなった領域を補足する。生成モデル部110は、ワーキングメモリ120により制御される第2の注視領域の予測画像を生成する。
図3は、観測システム153から入力される観測画像30と、画像予測システム10により生成された予測画像31の一例を示した図である。予測画像31は、注視部130によって制御される第1の注視領域の予測画像と、ワーキングメモリ部120によって制御される第2の注視領域の予測画像とを、制御部140により観測画像30と同じ大きさ画像(キャンバス)に合成したものである。各予測画像の生成については、後述する。
図3のように、2台の車が、それぞれ左右に動いている画像を観測する。画像予測システム10は、時刻ごとに観測画像30を取得し、時刻ごとに1時刻先の観測の予測画像31を生成することを繰返す。t=1の観測画像30からt=2における予測画像を予測し、t=2の観測画像30からt=3の予測画像を予測する。図3では、1時刻先の観測の予測画像31を生成する場合に、観測画像30は現在の時刻の画像のみを用いているが、現在を含む、過去に観測した複数の画像を用いることも可能である。
図4は、観測システム153から入力される観測画像30と予測画像31の他の例を示す図である。一定時刻の観測後に、継続して複数時刻先の予測を生成することも可能である。つまり、観測時刻t=1、t=2を観測後にt=3、t=4の複数の予測画像を予測する。
注視部130には、例えば、図3及び図4で示したt=2の観測画像と予測画像が入力される。t=1のような初期状態において、予測画像は1時刻前の観測画像をそのまま用いる、もしくは、予測画像31は観測画像30と同じサイズの、全てが黒または白の白紙の画像とする。
注視部130の場所ベース注視領域決定部132は、受信する観測画像30と、予測画像31に基づき、場所ベースで注視するべき領域の候補を求める。
図5は、注視部130の場所ベース注視領域決定部132の処理手順の一例を示す図である。
場所ベース注視領域決定部132は、観測画像30と予測画像31から注視領域候補1312(図6参照)を抽出する。注視領域候補1312とは、例えば、観測画像30と予測画像31の差分(ピクセル毎)が大きい領域である。より具体的には、観測画像中に新たに出現した人や車等のオブジェクトに関して将来画像を予測するための領域である。観測画像中に新たに出現した人や車のオブジェクトは、予測画像31には含まれず、観測画像30に含まれるため、両者のピクセルごとの差分が大きくなる。予測に反する動きのあった人や車等のオブジェクトについても同様である。
場所ベース注視領域決定部132は、まず、同一時刻(例えば、t=2)の観測画像30と予測画像31間のピクセル毎の差分画像を生成する(S51)。
次に、観測画像に対する顕在性マップを生成する(S52)。顕在性マップとは、観測画像に対して、モノが存在する領域や周囲との色が異なる領域など、人が視線を向けると考えられる領域と、そうではない領域の重み付けを表す画像情報である。顕在性マップは、コンピュータビジョンライブラリに実装された、予め設計された特徴量に基づきアルゴリズミックに生成することが可能である。また、特徴量をデータから学習により獲得する機械学習手法を用いて生成することも可能である。
次に、ステップS51で生成した差分画像を、ステップS52で生成した顕在性マップによりマスク処理を適用し、差分画像のうち、人が視線を向けると考えらえる領域(マスク画像)を抽出する(S53)。
次に、顕在性マップによりマスク処理を適用したマスク画像に対して、矩形領域を生成する(S54)。矩形領域は、コンピュータビジョンアルゴリズムにより抽出することが可能である。
最後に、画像の固定された1点を原点とし、生成した矩形領域群を、それぞれの位置、サイズをピクセル単位でまとめる。この矩形領域群から、矩形領域の面積が所定の閾値以下のものを除外して、注視領域候補を選択する(S55)。除外する面積の閾値情報は、注視制御構成情報として外部から入力する。
例えば、図6に示すように、画像の最左上を原点(0,0)とし、矩形領域601と602の2つの領域が生成されると、それぞれの矩形領域の左上の座標の情報(x, y)を(10,60)(200,5)、および大きさ(w, h)を(40,40)(60,40)とする、第1の注視領域候補が選択される。この第1の注視領域候補に関する情報として、座標と大きさを注視領域候補1312として、注視制御部131に出力する。
一般的に、コンピュータビジョンアルゴリズムの適用においては、その処理結果をロバストにするために、入力画像や出力画像に対して圧縮・膨張処理を適用する。実施例1が開示する各処理においても、処理結果のロバスト化を目的に、適時、圧縮、膨張処理などの前処理、後処理を適用しても良い。
注視制御部131は、場所ベース注視領域決定部132からの注視領域候補1312と、注視状態134と、ワーキングメモリ部120から送信されるワーキングメモリ状態情報(以下、メモリ状態122)に基づき、観測画像30に対する第1の注視状態134を更新する。注視制御部131に、メモリ状態を入力する理由は、ワーキングメモリ部120で、既に第2の注視領域として管理されている領域を、新たな注視領域として注視部130に処理させないためである。また、注視状態134は、例えば、注視部130の過去の注視領域と比較し、差分が大きい場合、注視部130により処理を継続し、差分が小さくなった場合、処理をワーキングメモリ部120に移行させるための判断基準として用いられる。
本実施例においては、第1の注視領域を1つとする場合の構成について説明するが、第1の注視領域が2つ以上の場合においても適用が可能である。第1の注視領域の数は、許容される計算時間を含むシステムの計算資源に基づいて決定する。
図7は、観測画像中の第1の注視領域に関する情報である注視状態134の一例を示す図である。
注視状態134は、注視しているか否かを示す情報である活性情報73と、画像中の第1の注視領域の座標71および大きさ72の情報と、画像のイメージ情報である画像情報(画像75)と、を有する。活性情報73が、Trueの場合は、当該領域が注視されている状態を示す。注視状態134は、第1の注視領域の座標71と、大きさ72と、活性情報73、画像75と、生成モデル内部状態76とを対応させて管理する情報である。
初期状態において、注視状態134は、活性情報73が非活性(False値)であり、座標71、大きさ72、画像75の値は意味の無い値が保持されている。生成モデル内部状態76は、観測画像から次の時刻の第1の注視領域を予測するための学習モデルの変数を示す。
図8は、メモリ状態の情報の一例を示す図である。図8は、3個のワーキングメモリを持つ場合の例である。メモリ状態122は、ユニークな識別子80と、画像中の処理対象となる第2の注視領域の座標81、および大きさ82と活性情報83と、画像イメージを示す画像情報(画像84)と、を管理する。また、生成モデルがRNN(Recurrent Neural Network)やLSTM(Long-short Term Memory)などの内部状態を持つモデルから構成される場合、生成モデルの内部状態85を示す情報を持つ。生成モデルの内部状態85は、ワーキングメモリ部120で、過去の画像から次の時刻の第2の注視領域を予測するための学習モデルの変数を示す。
初期状態において、座標81および大きさ情報82、画像84、生成モデルの内部状態85には意味の無い値が保持されている。
図9は、注視制御部131が注視状態134の情報を更新する手順の一例を示す図である。
まず、注視制御部131は、場所ベース注視領域決定部132から注視領域候補1312が入力されると、注視領域候補1312の座標情報等を基に、注視状態134の活性情報73を参照して、注視状態が活性かを判定する(S91)。
注視状態134が活性である場合、既に注視部130には第1の注視領域が設定されているため、場所ベース注視領域決定部132から生成される注視領域候補1312の情報に依らず、第1の注視状態の更新はせずに更新処理を終了する。
注視状態134が活性でない場合、注視領域候補1312にエントリーがあるかを判定する(S92)。
注視領域候補がある場合、注視領域候補1312の各注視領域の中から、一つを所定の条件で選択する(S93)。例えば、面積が最大の領域を選択する。面積の計算は、各矩形領域の大きさ情報(h,w)から計算する。予め、面積を計算し、注視領域候補の情報に含ませることもできる。このステップは、一番大きい面積の矩形領域を選択することとしたが、注視したいオブジェクトを指定して、そのオブジェクトが含まれる領域を選択するようにすることもできる。
候補となる注視領域がない(ステップ92がYES)場合、第1の注視状態の更新はせずに更新処理を終了する。
次に、ステップS93で選択した注視領域が、ワーキングメモリ部120内に保持される第2の注視領域の近傍であるかを判定する(S94)。ワーキングメモリ部120に保持された第2の注視領域が複数ある場合には、それぞれ第2の注視領域について判断する。ステップ94の近傍条件の確認は、ワーキングメモリ部120で、既に第2の注視領域として管理されている領域を、新たな第1の注視領域として注視部130に処理させないためである。
選択した注視領域候補がワーキングメモリ内に保持される第2の注視領域の近傍ではないと判定された場合、ステップS93で選択した注視領域候補の座標および大きさを、第1の注視状態134の座標および大きさに書き込み、活性/非活性情報を活性情報(True値)に書き込み、生成モデル内部状態には生成モデルにより定められる初期値を書き込む。(S96)。これにより、新たな領域を第1の注視領域とする更新が行われる。
もし、選択した領域がワーキングメモリ内に保持される第2の注視領域の近傍であると判定された場合、選択した矩形領域を注視領域候補から除外し(S95)、ステップS92に戻る。
選択した注視領域候補と、ワーキングメモリ内の第2の注視領域の近傍条件の判定は、各注視領域の座標および大きさの差分が予め設定された閾値以内であるかどうかに基づき判定される。座標、および大きさの差分の近傍判定に使用する閾値は、外部より入力される注視制御構成により与える。
この近傍判定は、矩形領域内の画像も含めて近傍判定を実行しても良い。また、生成モデル部の制御部(モデル制御部111)を介して、画像エンコード部112を用い、画像を特定のベクトルに変換した変換後のベクトルの差分を近傍判定の値として良い。
図6に示した画像において、注視状態の更新された例を図10に示す。図10では、矩形領域601は、既にワーキングメモリ部120により、第2の注視領域として管理され、将来画像が予測されている領域であり、矩形領域602が注視制御部131により新たな第1の注視領域として追加される場合を示している。
注視制御部131は、更新した注視状態により定まる第1の注視領域(図10の領域602)に対して、その将来の予測画像を生成するため制御する。
以上の通り、注視制御部131は、注視領域候補からワーキングメモリ部120で処理されていない、第1の注視領域を生成モデル部110に出力し、生成モデル部110は、注視制御部131から第1の注視領域に関する情報を受領し、第1の注視領域に関する将来画像を予測する。
図11は、生成モデル部110による第1の注視領域の予測画像の生成処理を示す図である。図11は、処理に関連する部分を図1Aより抜粋したものとなっている。
注視状態134は、画像と非画像の情報に分割される。非画像の情報は、処理対象となる第1の注視領域の座標および大きさである。深度情報を取得可能なシステムの場合には、非画像情報に深度情報も含むことも可能である。
注視制御部131は、注視状態134の画像情報(画像1101(図7の画像75))を、生成モデル部110のモデル制御部111を介して、画像エンコード部112に入力する。画像エンコード部112は、画像を対応するベクトルに変換する。
画像を生成モデル部110により変換したベクトルを潜在ベクトルと呼び、実施例1では第1の注視領域の画像を潜在ベクトルに変換した結果を、注視領域画像潜在ベクトル(以下、画像潜在ベクトル1102)と呼ぶ。
生成モデル部110は、画像1101として、注視部130から第1の注視領域の観測画像が入力されると予想潜在ベクトルを生成し、画像潜在ベクトル1102として注視部130に出力する。また、モデル制御部111は、生成した画像潜在ベクトル1102を、画像デコード部115に入力し、画像潜在ベクトルに対応する画像を生成する。生成モデル110は、生成した画像を、第1の注視領域に対する注視領域予測画像(以下、予測画像1107)として、注視制御部131に出力する。
注視制御部131は、第1の注視領域の非画像情報(以下、非画像1103)を、モデル制御部111を介して非画像エンコード部113に入力し、注視領域非画像潜在ベクトル(以下、非画像潜在ベクトル)を生成する。モデル制御部111は、生成した非画像潜在ベクトルを、非画像デコード部114に入力し、注視領域の座標および大きさ情報と同じ次元のベクトルを生成する。モデル制御部111は、生成したベクトルを、第1の注視領域の予測位置を示す注視領域予測非画像(以下、予測非画像1105)として、注視制御部131に出力する。
予測画像1107は、現在の画像1101に対する、次時刻の予測される画像情報である。予測非画像1105は、現在の非画像1103に対する、次時刻の予測される非画像情報である。生成モデル内部状態1104は、生成モデルの内部状態を示す情報であり、図7の生成モデル内部状態76に相当する。
生成モデル部110における画像エンコード部112、非画像エンコード部113、非画像デコード部114、画像デコード部115の具体的構成について述べる。
画像エンコード部112、画像デコード部115は、ニューラルネットワークによるオートエンコーダ(Auto-Encoder)、もしくは変分オートエンコーダ(Variational Auto-Encoder)のエンコード部、デコード部を利用する。非画像エンコード部113、非画像デコード部114は、ニューラルネットワークによる時系列モデルであるRNN(Recurrent Neural Network)やLSTM(Long-Short Term Memory)を利用する。
図12は、オートエンコーダの構成例を示す図である。オートエンコーダは入力データを、一度入力データの次元よりも低次元のデータに変換し、変換したデータを再度入力次元のデータに変換する。出力データを入力データと同じデータになるようにニューラルネットワークを学習することで、入力データの潜在的に意味のある特徴次元(z)に変換する。例えば、図12の例では、入力画像として、縦、横それぞれ(28,28)の画像データを784次元ベクトルとしてニューラルネットワークに入力し、20次元まで圧縮する場合の例を示す。図12のように、入力次元が固定長の場合には、注視領域の画像を入力する際には、画像処理により画像のサイズをニューラルネットワークの入力サイズに合うように画像処理を適用する。Fully-Convolutionalニューラルネットワークなどの入力画像サイズに依存しないニューラルネットワークを用いる場合には、この前処理は不要である。
図13は、変分オートエンコーダの構成例を示す図である。変分オートエンコーダは、オートエンコーダと同様に、入力データを潜在的に意味のある特徴次元のデータに変換する。ただし、変分オートエンコーダは入力画像を直接潜在ベクトルに変換するのではなく、潜在ベクトルが生成される多次元正規分布の存在を仮定し、その多次元正規分布の平均ベクトル(μ)、分散ベクトル(Σ)に変換する。変分オートエンコーダのデコーダは、変換された多次元正規分布からのサンプリングされるベクトル(z)を、オートエンコーダと同様に入力画像となる変換を学習する。
図12のオートエンコーダ、図13の変分オートエンコーダは、画像情報の処理に対して適用される。一般的なオートエンコーダ、および変分オートエンコーダでは、入力データと出力データは同一のデータを用いるが、本実施例では現在の時刻の画像を入力データとし、入力データに対応する将来の予測画像を生成することを目的に、オートエンコーダの出力データとして、入力データに対応する将来の観測画像を与える。
図14Aは、エンコーダ及びデコーダにLSTMを用いた場合の構成例を示す。入力ベクトルx[t]が時刻tごとにエンコーダに対応するLSTMに入力され、その隠れ層のベクトル(h)を入力とするデコーダに対応するLSTMが逐次y[t]を出力する場合を示している。LSTMのような時系列を考慮するモデルは、ニューラルネットワークの重みなどのモデルパラメタだけでなく、それまでの処理によって定まる内部状態を持ち、内部状態を入力とすることで、時系列の考慮が可能となる。LSTMの場合、内部状態は例えば隠れ層の出力値(h)、セル値(c)である。
図14Aのエンコーダ及びデコーダは、非画像情報の処理に適応される。図14Aで示した出力値(h)、セル値(c)が、図7で示した生成モデル内部状態76に相当する。
図12、図13の画像情報の処理に対する生成モデルと、図14Aの非画像情報の処理に対する生成モデルはそれぞれ独立に構成しているが、図14Bのように、それぞれのエンコード結果を相互に入力することで、互いに相関を持ったモデルを構成することも可能である。
この例では、図13のような変分オートエンコーダに限定せず、図14Aのような次時刻の予測モデルも含めて生成モデルの用語を用いて説明する。
実施例1のシステムは、注視状態として生成モデルの内部状態を保持することで、適時適切な内部状態を入力として与える。生成モデルの内部状態は計算を実行する毎に更新される。そのため、次時刻以降にも適切に内部状態を入力可能とするために、モデル制御部111は、更新済み内部状態1106を注視制御部131に出力し、注視制御部131は取得した更新済み内部状態1106に基づき注視状態134を更新する。
入力x[t]に対応する出力y[t]を定め、LSTMを学習することで、入力ベクトルの時系列変化に対応する出力ベクトルの変化を予測するモデルの学習が可能となる。予測非画像1105は注視領域の位置だけでなく、大きさを含む構成も可能であり、この場合、実施例1のシステムは、注視領域の座標と大きさを入力とし、次時刻の注視領域の座標と大きさを出力とするようにエンコーダ、デコーダを学習することで、注視領域の次時刻の空間的位置と大きさを予測する。
実施例1のシステムは、システムが想定する対象画像や、その動きの情報を用いて、オートエンコーダまたは変分オートエンコーダ、およびLSTMとして、生成モデルの画像エンコード部、画像デコード部、非画像エンコード部、非画像情報デコード部を事前に学習しておき、学習結果であるニューラルネットワークのパラメタを、外部より入力する生成モデルとして与える構成が可能である。
また、システム稼働中に、対応する学習データを記憶装置162に保存し、内部にニューラルネットワークの学習機構を持つことで、システム稼働中に適時オンライン学習をすることで、ニューラルネットワークのパラメタを更新する構成も可能である。
図15は、注視制御部131が行う、第1の注視領域に対する予測画像の生成の一例を示す図である。図15のように、観測画像30と同サイズのキャンバス1501上に、生成した予測非画像1105が定める領域1502に、予測画像1107を領域1502のサイズに変換した画像1503を合成することで、予測画像31を生成する。
キャンバス1501は時刻ごとに白紙のキャンバスとする構成や、1時刻前の予測画像をキャンバスとする構成、観測画像をキャンバスとする構成が可能である。観測画像の注視領域が、予測非画像の矩形領域の大きさと異なる場合には、予測非画像の矩形領域の大きさに、事前にコンピュータビジョンアルゴリズムによって、リサイズした後に合成する。
また、キャンバスに現在の観測画像を用いる場合には、更新前の注視領域の非画像情報の示す部分領域の除去画像を生成し、生成した除去画像に対して予測画像を合成する。
以上の手続きにより、観測画像30(例えば、図3の観測時間t=1)と、それに対応する予測画像31(t=1)に従って決定される、観測画像中の第1の注視領域の予測画像(t=2)の生成が、注視部130によって可能となる。
次に、生成した予測画像31(t=2)に対して、次の時刻に新たな観測画像30(t=2)を取得した際に、観測画像30(t=2)の第1の注視領域と予測画像31(t=2)の第1の注視領域との予測誤差に基づき、注視を終了するか第1の注視領域を更新するかを決定する。この処理は、オブジェクトベース注視領域決定部133によって行われる。
オブジェクトベース注視領域決定部133は、先に述べた第1の注視領域に対応する領域を、新たな観測画像中から求める。単純には予測画像1107をテンプレートとし、新たな観測画像30(t=2)に対してテンプレートマッチング処理を実行する。また、この問題を物体追跡(オブジェクトトラッキング)と考え、オブジェクトベース注視領域決定部133は、コンピュータビジョン分野のオブジェクトトラッキングアルゴリズムを用いて、第1の注視領域に対応する領域の探索アルゴリズムを構成することが出来る。画像の変化が小さく、予測画像の生成が高い精度で実行可能な場合には、このような探索方式を用いることが出来る。
一方、画像の変化が大きく、予測画像の精度が低い場合には、よりロバストなマッチングを目的に、新たな観測画像(t=2)と、画像潜在ベクトル1102と、予測非画像1105によるマッチング処理を実行する。
図16は、注視部130による注視領域の予測に対するマッチング処理手順の一例を示した図である。この処理は、注視部130による注視処理を終了するか第1の注視領域を更新するかを決定する。図16の処理を、注視領域の予測に対するマッチング処理の探索過程の例を示す図17を用いながら説明する。
まず、予測非画像1105により特定される領域を、初期ウィンドウ(図17、1702)として設定する(S161)。
設定したウィンドウ1702に対応する、観測画像30から切り出した領域の画像情報を、生成モデル部110に出力する。生成モデル部110では、画像エンコード部112を用いて潜在ベクトル(z)に変換する(S162)。注視制御部131は、変換された潜在ベクトル(z)を生成モデル部110から受信する。このステップで、実際に観測された観測画像の潜在ベクトルを求める。
次に、変換した潜在ベクトル(z)と、第1の注視領域の予測画像に関する情報である画像潜在ベクトル1102との差分を計算する(S163)。これにより、注視領域における人や車等のオブジェクトに関し、同時刻の観測画像と予測画像の差分を把握する。
計算される差分を、所定の閾値と比較する(S164)。差分が予め決められた閾値よりも小さい場合、観測画像中の第1の注視領域が、予測した第1の注視領域の近傍かを判断する(S165)。近傍の判定は、それぞれの領域の座標、および大きさの差分が予め決められた閾値よりも小さいかによって判定する。第1の注視領域が観測画像と予測画像で差異が所定値以下の場合、予測が十分な精度で実行できていると判断し、第1の注視領域をワーキングメモリ部に出力し、注視状態の活性情報をFalseに更新する(S168)。近傍であると判定した第1の注視領域に対する処理をワーキングメモリ部120に移し、注視部130では処理しないためである。つまり、第1の注視領域を、第2の注視領域としてワーキングメモリ部120に処理を移行する。ワーキングメモリ部は、第1の注視領域の情報を第2の注視領域として管理する。
近傍ではないと判定された場合、現在の第1の注視領域に対する予測が十分に出来ていないと判断し、注視処理を継続する。この場合、注視状態の矩形領域の情報である座標(x,y)および大きさ(w,h)を、探索ウィンドウの矩形領域の値として更新する(S167)。注視状態の活性情報は活性(True値)のままである。
ステップS164にて、差分が閾値以内でないと判定されると、探索ウィンドウを予め決められたウィンドウ更新則に従って更新する(S166)。例えば、図17の探索ウィンドウを1702から1703に変更する。ウィンドウの更新則は、例えば、予め決められたピクセル値分だけ、探索ウィンドウの座標、大きさを逐次増減させる方法が考えられる。
実施例1は、観測画像30の第1の注視領域と、予測画像31の第1の注視領域を直接比較するのではなく、画像エンコード部112によって潜在ベクトルに変換した後に比較する。この方法によって、注視領域の細かな相違ではなく、注視領域全体の特徴点に基づく比較を行うことができる。ただし、画像の変化が小さいと予め分かっている場合には、潜在ベクトルへの変換処理を省略し、直接画像を比較する構成も当然可能である。
また、注視状態134のワーキングメモリ部120への保存は、注視制御部131が現在の注視状態を、ワーキングメモリ制御部121に送信し、ワーキングメモリ制御部121は受信した注視状態を、空いているワーキングメモリに格納し、活性情報を活性(True値)にする。
全てのワーキングメモリが既に使用されている場合、最も古くに格納したワーキングメモリ領域を消去して、新しい情報を書き込む。本機能の実現方法として、ワーキングメモリ制御部121はワーキングメモリ領域毎に、データが保存された時刻を管理するためのメモリ領域を持つ構成、格納したワーキングメモリIDをキューにより管理する構成が用いることができる。
初期状態では、全てのワーキングメモリは非活性情報である。その場合には、ワーキングメモリ部120は、予測画像31の生成には影響を与えない。観測画像の第1の注視領域に対する予測が十分に出来ていると判定され、注視状態が解除される場合、それまでの注視状態がワーキングメモリ部120のメモリ状態122に保存され、活性情報が活性となる。メモリ状態122が活性である場合、メモリ状態122に保存される第2の注視領域に対して、注視部130と同様に予測画像を生成する。
図18に、予測画像の生成手順の一例を示す。注視部130により、予測画像が生成され、第1の注視領域1801に対する予測の誤差が十分に小さくなったと判定されると、当該の領域がワーキングメモリ部120に保存される。注視部130は、別の新たな領域1802を第1の注視領域とする。
図19に、予測画像31の生成手順の一例を示す。図19に示すように、観測画像30と同じ大きさのキャンバス1905に、現在の第1の注視領域1903に車の画像1904を含む予測画像が生成される。それと同時に、ワーキングメモリ部120に格納されている第2の注視領域1901の予測画像1902が生成される。ワーキングメモリ部120に格納されている第2の注視領域の予測画像の生成は、注視部130の場合と同様に、生成モデルを用いる。
図20は、図1Aから抜粋した、ワーキングメモリ部120による第2の注視領域に対する予測画像の生成に関わる構成を示す。ワーキングメモリ制御部121は、ワーキングメモリに格納されている生成モデルの内部状態2001(図8の生成モデル内部状態85)と、注視領域の非画像情報2002(図8の座標81、大きさ82)と、注視領域の画像2005(図8の画像84)を、モデル制御部111に送信する。モデル制御部111は非画像エンコード部113および、非画像デコード部114に、内部状態2001と非画像情報2002を入力し、注視領域の非画像情報の予測値を生成する。また、モデル制御部111は画像エンコード部112および、画像デコード部115に画像2005を入力し、注視領域の予測画像2006を生成する。
モデル制御部111は、生成した第2の注視領域の予測非画像2003と更新済み生成モデル内部状態2004と、予測画像2006を、ワーキングメモリ制御部121に送信する。ワーキングメモリ制御部121は、予測非画像2003、更新済み生成モデル内部状態2004と、予測画像2006に従って、対応するワーキングメモリの状態情報を更新するとともに、予測非画像2003により定まる第2の注視領域に、予測画像2006を合成する。
ここで、注視部130の予測画像の生成処理と、ワーキングメモリ部120の予測画像の生成処理の違いを述べる。注視部130の予測では、各時刻の観測情報と予測情報の差分を計算し、差分が大きい場合には、観測情報に基づき注視状態を更新したのに対し、ワーキングメモリ部120では観測と予測の差分の計算は実施ない。これは、計算量が大きいため、ワーキングメモリ部120に格納される第2の注視領域に対しては、逐次予測誤差の修正をしないためである。ワーキングメモリ部120に格納される第2の注視領域の予測は、システムが持つ生成モデル110の非画像エンコード部113と、非画像デコード部114により生成される予測非画像、および、画像エンコード部112と画像デコード部115により生成される予測画像を、次時刻の入力とする。
このため、予測する時間が長くなるにつれて、予測誤差が蓄積する可能性がある。計算処理の時間よりも、予測画像の精度を要求する場合には、ワーキングメモリ部120の第2の注視領域に対しても、注視部130の注視領域と同様に処理を実行し、逐次予測誤差の修正をする構成をとることも可能である。
以上の通り、実施例1によれば、観測画像中のオブジェクトを含む注視領域に絞って、予測画像を生成するため、予測画像中のオブジェクトを識別することができる。また、観測画像と予測画像とで差分が大きい注視領域については、注視部により予測画像を生成し、差分の小さい注視領域については、ワーキングメモリ部で予測画像を生成し、これら予測画像を制御部で合成して観測画像に対する予測画像を生成するので、予測処理を高速に行うことができる。
実施例1は、観測画像中の第1の注視領域と、ワーキングメモリの第2の注視領域は、その予測の生成において互いに独立である。各注視領域には、車や人などのオブジェクトが格納されることが期待されるため、例えば、第1の注視領域と、ワーキングメモリの第2の注視領域の予測が互いに独立であることは、各オブジェクト間に相互の依存関係が完全に無い場合を想定している。実施例2では、各注視領域が互いに相関を持つ場合について述べる。つまり、複数の第1の注視領域と複数の第2の注視領域からなる注視領域群のうち、少なくとも二つの注視領域が互いに相関を有する場合について説明する。
図21に、各注視領域の予測が互いに相関を持つ例を示す。移動する車の前方に人がいる場合、車および人の移動が互いに影響し合うことが考えられる。例えば、車はその前方に人が存在する場合と存在しない場合では、その動きは異なることが考えられる。
図22に、実施例2の予測の生成に関するシステムの構成例を示す。制御部140は、注視制御部131と、ワーキングメモリ制御部121を制御することで、予測画像および予測非画像を生成する。実施例2は、画像、非画像のそれぞれの予測において、画像および非画像情のエンコード処理は実施例1と同様の画像エンコード部112と非画像エンコード部113を用いることが出来る。一方、デコード処理においては、各オブジェクト間の相互作用を考慮するため、画像エンコード部112と非画像エンコード部113が生成する潜在ベクトルを集約演算部2215により集約し、画像デコード部115と非画像デコード部114に入力する。
制御部140は、注視制御部131に対し、第1の注視領域の画像情報2201と非画像情報2203と、生成モデルの内部状態2204を、モデル制御部111に対して出力するよう制御する。
モデル制御部111は実施例1の場合と同様に、入力される注視領域の画像情報2201と、非画像情報2203と、生成モデルの内部状態2204を画像エンコード部112と、非画像エンコード部113に入力し、それぞれ画像潜在ベクトル2202と、非画像潜在ベクトルを生成する。
また、制御部140は、ワーキングメモリ制御部121に対し、メモリ状態122の中で活性情報(図8の83)が活性(True)であるメモリに対して、第2の注視領域の画像情報2212と、非画像情報2208と生成モデル内部状態2207を、モデル制御部111に対してそれぞれ出力するよう制御する。
モデル制御部111は実施例1の場合と同様に、入力される第2の注視領域の画像情報2212と、非画像情報2208と、生成モデルの内部状態2207を画像エンコード部112と、非画像エンコード部113に入力し、それぞれ画像潜在ベクトルと、非画像潜在ベクトルを生成する。
制御部140は、生成した第1の注視領域に対する画像および非画像情報のそれぞれのエンコード情報と、第2の注視領域に対する画像およびお非画像情報のそれぞれのエンコード情報を元に、それぞれの領域に対する予測画像および予測非画像を生成する。
それぞれの領域に対する予測画像および予測非画像の生成は、各領域毎に生成される。各領域毎の予測の生成は、図23に示すように、生成対象の領域を自身として、その領域の画像潜在ベクトルを自画像潜在ベクトル2301、非画像潜在ベクトルを自非画像潜在ベクトル2302とし、非画像デコード部114、および画像デコード部115に入力する。
また、生成対象以外の領域を他として、それら複数の他の領域の画像潜在ベクトルを他画像潜在ベクトル2303、非画像潜在ベクトルを他非画像潜在ベクトル2304とし、他画像潜在ベクトル2303および他非画像潜在ベクトルを集約演算部2215に入力して他集約ベクトル2307を生成し、生成した他集約ベクトル2307を非画像デコード部114と画像デコード部115に入力する。
例えば、図24の人2402が生成対象の領域とすると自身となり、自画像潜在ベクトル2301、自非画像潜在ベクトル2302として、非画像デコード部114、および画像デコード部115に入力される。
一方、人2403、車2404、信号2401が他として、他画像潜在ベクトル2303、他非画像潜在ベクトル2304とし、集約演算部2215に入力され、他集約ベクトル2307を生成し、非画像デコード部114と画像デコード部115に入力される。
非画像デコード部114は入力される自画像潜在ベクトル2301と、自非画像潜在ベクトル2302と、他集約ベクトル2307から予測非画像2305を生成する。同様に、画像デコード部115は入力される自画像潜在ベクトル2301と、自非画像潜在ベクトル2302と、他集約ベクトル2307から予測画像2306を生成する。
図23のように、各領域毎に、その周囲の領域の影響を考慮して、予測情報を生成する方式は、各領域をノードとし、相互作用を考慮する領域間にエッジを持つグラフデータに対してニューラルネットワークを適用する方式であり、グラフニューラルネットワークと呼ばれる。
例えば、図24のように信号2401と、2人の人(2402と2403)と、車2404の4つの領域が、それぞれ第1の注視領域、あるいは第2の注視領域に保存されている場合を考える。4つの領域がそれぞれ影響を与えると考える場合には、各領域をノードとし、全ノード間にエッジを持つ完全グラフを考える。
予測情報の生成は、信号2401、2人の人(2402と2403)と、車2404を、それぞれ予測の生成対象の領域として、各領域毎に図23の処理を適用する。
予測の生成対象の領域が車2404の場合、車2404の画像潜在ベクトルおよび非画像潜在ベクトルが、それぞれ自画像潜在ベクトル2301および自非画像潜在ベクトル2302となり、車2404に対応するノードとグラフデータ上で接続される、信号2401と、2人の人(2402と2403)の画像ベクトルおよび非画像潜在ベクトルのそれぞれが、他画像潜在ベクトル2303および他非画像潜在ベクトル2304となる。同様に、予測の生成対象が2401の信号の場合には、自画像潜在ベクトル2301および自非画像潜在ベクトル2302は、信号2401の画像潜在ベクトルおよび非画像潜在ベクトルとなり、信号以外の車2404および2人の人(2402と2403)の画像潜在ベクトルおよび非画像潜在ベクトルが、それぞれ他画像潜在ベクトルおよび他非画像潜在ベクトルとなる。
生成対象の領域が第1の注視領域の場合、予測画像2306は図22における予測画像2211であり、予測非画像2305は図22における予測非画像2205である。同様に、生成対象の領域が第2の注視領域の場合、予測画像2306は図22における予測画像2213であり、予測非画像2305は図22における予測非画像2209である。
集約演算部2215は、入力される複数の領域の画像潜在ベクトル、非画像潜在ベクトルを単一のベクトルに集約する演算を実行する。具体的な集約演算としては、各ベクトル値を要素毎の合計値を計算する場合や、要素毎の平均値を計算する場合や、各ベクトルを連結(Concatenate)する場合などが考えられる。また、集約を画像潜在ベクトルと非画像潜在ベクトル毎に分けて集約する場合には、集約ベクトルは画像潜在ベクトルと非画像潜在ベクトルのそれぞれに対して生成される。集約ベクトルには生成対象の領域以外の、他の領域による相互作用の情報が集約されることを期待する。
生成されたそれぞれの予測画像および予測非画像情報に従って、各注視領域の予測画像を生成し、予測画像31を生成する手順は実施例1と同様である。
生成モデルの学習において、目的関数(または損失関数とも呼ばれる)は、入力と出力の差分情報を用いる構成が可能である。予測モデルの場合には、予測と観測の差分情報を用いる。例えば、入力と出力が同一サイズの画像である場合、入力と出力の同じ位置のピクセル同士の差分を入力と出力の差分と定義することが可能である。
図24に示すように、観測画像をグラフとして処理する場合、入力と出力の差分の計算において、グラフ情報としての差分の計算が必要となる。グラフニューラルネットワークにおいては、入力と出力のグラフの各ノードの対応関係(マッチング関係)を計算し、得られたマッチング結果に基づき差分を計算する方法などが利用される。しかし、グラフのマッチング処理は計算処理が大きい。
実施例2に関連する学習においては、グラフのマッチング処理の計算コストを抑えるため、図25に示すように、生成モデルが処理するグラフ情報の基には、そのグラフが生成される画像情報が存在することを踏まえ、グラフ情報としての差分を計算せず、グラフ情報を画像情報2501および2502に変換し、変換された画像情報の差分を予測と観測の差分情報とする。グラフ情報から画像情報への変換は、グラフ情報から予測画像を生成する場合と同様に観測画像と同じサイズのキャンバスに、各ノードの非画像情報の示す位置と大きさに従って、各ノードの画像情報を合成することで構成する。ただし、キャンバス2503および2504は全てが黒、または白の白紙のキャンバスを用いる。
キャンバスとして、黒または、白の白紙のキャンバスを用いることで、グラフ内のノードに含まれる情報以外の領域に関する差分の影響を抑えることが可能となり、学習の適切な収束が期待出来る。
実施例2により、注視部130の注視領域とワーキングメモリ内に格納される複数の注視領域間の、相互作用を考慮した、各領域に対する予測非画像情報が生成可能となる。
実施例3は、非画像情報であるオブジェクトの座標の生成を、空間情報と時間情報を併せ持つ画像に対する、エンコード処理およびデコード処理によって生成する方法を説明する。
例えば図26のように、高さH、幅W上の視野2603上を、文字「9」(2601)と、文字「3」(2602)が動いている場合を考える。観測時間をTとする。実施例1および実施例2と同様の構成および方式により、文字「9」(2601)と文字「3」(2602)を、第1の注視領域もしくは第2の注視領域として注視した場合、注視の移動の軌跡を、高さH、幅W、奥行きTの立方体2604上の軌跡として考えることが出来る。例えば、文字「9」(2601)と文字「3」(2602)の動きは、それぞれ、立方体上の軌跡2605と軌跡2606と考えることが出来る。同様に、高さHと幅W上の移動を別々に考えると、高さと幅方向の動きはそれぞれ、高さH、幅Tのキャンバス2607上の軌跡2608および軌跡2609、または、高さW、幅Tのキャンバス2610上の軌跡2611および軌跡2612と考えることが出来る。
実施例3では、このような注視領域の移動情報により生成可能な、3次元上(2604)、または2次元上(2607または2610)の軌跡の情報を時空間画像と呼ぶ。時空間画像上の各点は、各時刻において、各注視領域の画像を、画像エンコード部112を用いて潜在ベクトルに変換した値を格納する。つまり、高さH、幅W、観測時間T、潜在ベクトルの次元をDとすると、3次元の立方体の時空間画像は、大きさ(H、W、T、D)の4次元テンソルとして表現される。
実施例1に示した注視の制御に従って時空間画像を生成することを目的に、実施例3では第1の注視領域の注視状態134および第2の注視領域のメモリ状態122を、図29に示すように,それぞれに時間情報2901と時間情報2902を追加し、時刻注視状態134a、時刻メモリ状態122aとして管理する。
実施例3は、非画像情報であるオブジェクトの座標を、図27のように、所与の期間T1の時空間画像2701を入力とし、非画像情報エンコード部113により、時空間画像2701を潜在ベクトル2703に変換し、変換された潜在ベクトル2703を、非画像情報デコード部114により、対応する将来の所与の期間T2の時空間画像2702を生成する。時空間画像2701の期間T1と時空間画像2702の期間T2は重複部分を持つことも可能である。時空間画像2701は、制御部140により、注視制御部131およびワーキングメモリ制御部121を介して生成され、生成モデル110のモデル制御部111に送信される。生成される時空間画像2702は、モデル制御部111から制御部140に送信される。
制御部140は生成した時空間画像2702に対して圧縮膨張処理、および閾値処理を適用してり時空間画像を成形する。閾値処理の閾値は注視制御構成151として外部から入力される。成形した時空間画像の、各時刻における、高さHおよび幅Wの各点におけるデータは、各時刻における各点の画像潜在ベクトルの予測値となる。制御部140は、各点におけるデータを生成モデル110のモデル制御部111を介して、画像デコード部115に入力し、各点の画像潜在ベクトルを画像に変換し、時空間画像2702と同じ高さと幅のキャンバス上の各点に、各時刻における、各点の画像を合成する。
実施例3は、図27の構成および方式を用いて、非画像情報の位置情報を生成する。非画像情報エンコード部113および非画像情報デコード部114は、時空間画像が2次元上の軌跡(図26の2607または2610)の場合には、実施例1にて説明した画像エンコード部112および画像デコード部115と同様に、図12のオートエンコーダ、または図13の変分オートエンコーダにより構成することが出来る。図12または図13に示す2次元画像に対するオートエンコーダおよび変分オートエンコーダにおいては、一般的に、2次元構造を認識するために、2次元畳み込み演算と2次元のプーリング演算が適用される。
同様に、図28に示すように、3次元構造を認識するためには、3次元テンソル2801に対して、3次元のカーネル2802として畳み込み演算およびプーリング演算を適用する3次元畳み込みニューラルネットワークを用いることが出来る。
実施例3により、非画像情報であるオブジェクトの座標の予測を、画像の予測と同様の方式で生成することが可能となる。
1:システム
10:画像予測システム
110:生成モデル部
111:モデル制御部
112:画像エンコード部
113:非画像エンコード部
114:非画像デコード部
115:画像デコード部
120:ワーキングメモリ部
121:ワーキングメモリ制御部
122:メモリ状態
130:注視部
131:注視制御部
132:場所ベース注視領域決定部
133:オブジェクトベース注視領域決定部
134:注視状態
140:制御部。

Claims (14)

  1. 観測した画像から将来を予測する画像を生成する画像予測システムにおいて、
    前記画像予測システムは、
    注視部と、
    ワーキングメモリ部と、
    制御部と、
    生成モデル部とを有し、
    前記注視部は、
    観測画像中のオブジェクトが含まれる領域について、観測画像と予測画像とのピクセル毎の差分を生成し、前記オブジェクトが含まれる矩形領域を生成し、前記矩形領域を第1の注視領域候補として決定する場所ベース注視領域決定部と、
    前記第1の注視領域候補に関する情報を受信し、前記第1の注視領域候補の一つを所定の条件で第1の注視領域として選択する注視制御部と、
    前記第1の注視領域の情報を注視状態として格納する第1の記憶部と、を有し、
    前記生成モデル部は、
    前記第1の注視領域の予測画像を生成し、
    前記ワーキングメモリ部は、
    前記観測画像と前記予測画像において、前記第1の注視領域の場所の差異が所定値以下の場合、前記第1の注視領域を第2の注視領域として、前記第2の注視領域の情報をメモリ状態として格納する第2の記憶部を有し、
    前記生成モデル部は、
    前記第1の注視領域の予測画像を生成し、前記注視制御部に出力し、
    前記第2の注視領域の予測画像を生成し、前記ワーキングメモリ部に出力し、
    前記制御部は、
    前記注視部からの前記第1の注視領域の予測画像と、前記ワーキングメモリ部からの前記第2の注視領域の予測画像を統合して、前記観測画像に対する予測画像を生成することを特徴とする画像予測システム。
  2. 請求項1に記載の画像予測システムにおいて、
    前記注視制御部は、
    前記観測画像と前記予測画像において、前記第1の注視領域の場所の差異を、前記観測画像と前記予測画像の画像情報の潜在ベクトルを比較して求めることを特徴とする画像予測システム。
  3. 請求項2に記載の画像予測システムにおいて、
    前記注視制御部は、前記第1の注視領域候補から前記第1の注視領域の選択を、前記第1の注視領域候補の面積に基づいて行うことを特徴とする画像予測システム。
  4. 請求項2に記載の画像予測システムにおいて、
    前記注視制御部は、前記第1の注視領域候補から前記第1の注視領域の選択を、前記第1の注視領域候補に含まれるオブジェクトに基づいて行うことを特徴とする画像予測システム。
  5. 請求項3に記載の画像予測システムにおいて、
    前記第1の記憶部に格納される前記注視状態は、
    前記第1の注視領域の座標と、大きさと、画像情報と、生成モデル内部状態とを対応させて管理する情報であることを特徴とする画像予測システム。
  6. 請求項5に記載の画像予測システムにおいて、
    前記生成モデル部は、前記注視制御部から前記第1の注視領域の、前記生成モデル内部状態と、前記座標と、前記大きさからなる非画像情報及び前記画像情報とを入力し、前記注視制御部に対し、画像潜在ベクトルと前記第1の注視領域の予測位置を示す予測非画像と、前記第1の注視領域の予測画像とを出力することを特徴とする画像予測システム。
  7. 請求項6に記載の画像予測システムにおいて、
    前記生成モデル部は、
    前記注視部からの前記第1の注視領域の予測画像の予想潜在ベクトルと、
    前記予測非画像で特定される観測画像における領域の潜在ベクトルと、を生成し、
    前記注視部は、
    前記生成モデル部からの前記予想潜在ベクトルと前記潜在ベクトルとを比較し、前記オブジェクトが観測画像中の前記第1の注視領域に入るように制御することを特徴とする画像予測システム。
  8. 請求項7に記載の画像予測システムにおいて、
    前記注視部は、
    前記生成モデル部からの前記予想潜在ベクトルと前記潜在ベクトルとを比較した結果、差分が所定値以下の場合、または、前記第1の注視領域における観測画像と予測画像で差異が所定値以下の場合に前記第1の注視領域を前記ワーキングメモリ部に出力し、
    前記ワーキングメモリ部は、前記第1の注視領域の情報を前記第2の注視領域として管理することを特徴とする画像予測システム。
  9. 請求項5に記載の画像予測システムにおいて、
    前記第2の記憶部に格納される前記メモリ状態は、
    前記第2の注視領域の座標と、大きさと、画像情報と、生成モデル内部状態とを対応させて管理する情報であることを特徴とする画像予測システム。
  10. 請求項6に記載の画像予測システムにおいて、
    前記生成モデル部は、
    前記第1の記憶部に格納される前記第1の注視領域と、前記第2の記憶部に格納される前記第2の注視領域とを、潜在ベクトル情報に変換する画像エンコード部と、
    前記潜在ベクトル情報を、それぞれの領域の将来の位置および大きさの予測情報を生成する非画像情報デコード部と、
    前記潜在ベクトル情報を、それぞれの領域の将来の画像の予測情報を生成する画像情報デコード部とを更に有することを特徴とする画像予測システム。
  11. 請求項6に記載の画像予測システムにおいて、
    前記制御部は、
    前記第1の記憶部に格納される前記第1の注視領域及び前記第2の記憶部に格納される前記第2の注視領域の少なくとも二つの領域毎に、生成対象の領域と、非生成対象の領域とに分割し、
    前記生成モデル部は、
    前記生成対象の領域と、前記非生成対象の領域をそれぞれ潜在ベクトル情報に変換し、前記非生成対象の領域の前記潜在ベクトルの集約演算部と、
    前記集約演算部により集約されるベクトル情報と、前記生成対象の領域の、前記潜在ベクトル情報を入力として、将来の位置および大きさの予測情報を生成する非画像情報デコード部と、
    将来の画像の予測情報を生成する画像情報デコード部とを有することを特徴とする画像予測システム。
  12. 請求項6に記載の画像予測システムにおいて、
    前記生成モデル部の学習は、
    前記第1の注視領域に格納される注視領域の座標と、大きさと、画像情報と、
    前記第2の注視領域に格納される注視領域の座標と、大きさと、画像情報と、
    白紙の画像に従って生成される画像情報を用いて処理されることを特徴とする画像予測システム。
  13. 請求項6に記載の画像予測システムにおいて、
    前記第1の記憶部に格納される前記注視状態は、
    前記第1の注視領域の座標と、大きさと、画像情報と、生成モデル内部状態と、時刻情報を対応させて管理する情報であり、
    前記第2の記憶部に格納される前記メモリ状態は、
    前記第2の注視領域の座標と、大きさと、画像情報と、生成モデル内部状態と、時刻情報を対応させて管理する情報であることを特徴とする画像予測システム。
  14. 請求項13に記載の画像予測システムにおいて、
    前記制御部は、
    前記第1の注視領域と時間情報を管理する時刻注視状態と、前記第2の注視領域と時間情報を管理する時刻メモリ状態の少なくとも一方から、前記第1の注視領域及び前記第2の注視領域の少なくとも一つの注視領域の座標の時系列変化を表す情報を生成し、
    前記生成モデル部は、
    前記生成される注視領域の座標の時系列変化を表す情報を潜在ベクトルに変換する非画像情報エンコード部と、
    前記変換される潜在ベクトルを、将来の注視領域の座標の時系列変化を表す情報を生成する非画像情報デコード部とを有することを特徴とする画像予測システム。
JP2020030329A 2020-02-26 2020-02-26 画像予測システム Active JP7239511B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020030329A JP7239511B2 (ja) 2020-02-26 2020-02-26 画像予測システム
US17/126,441 US11790661B2 (en) 2020-02-26 2020-12-18 Image prediction system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020030329A JP7239511B2 (ja) 2020-02-26 2020-02-26 画像予測システム

Publications (2)

Publication Number Publication Date
JP2021135650A JP2021135650A (ja) 2021-09-13
JP7239511B2 true JP7239511B2 (ja) 2023-03-14

Family

ID=77366106

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020030329A Active JP7239511B2 (ja) 2020-02-26 2020-02-26 画像予測システム

Country Status (2)

Country Link
US (1) US11790661B2 (ja)
JP (1) JP7239511B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6843780B2 (ja) * 2018-01-18 2021-03-17 ヤフー株式会社 情報処理装置、学習済みモデル、情報処理方法、およびプログラム
US11909482B2 (en) * 2020-08-18 2024-02-20 Qualcomm Incorporated Federated learning for client-specific neural network parameter generation for wireless communication
CN113992885B (zh) * 2021-09-22 2023-03-21 联想(北京)有限公司 一种数据同步方法及装置
CN117616471A (zh) * 2021-10-13 2024-02-27 英特尔公司 样本自适应3d特征校准和关联代理

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322556A (ja) 1999-05-11 2000-11-24 Nippon Telegr & Teleph Corp <Ntt> 時系列画像予測方法及び装置及び時系列画像予測プログラムを格納した記憶媒体
WO2017130639A1 (ja) 2016-01-28 2017-08-03 株式会社リコー 画像処理装置、撮像装置、移動体機器制御システム、画像処理方法、及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8315449B2 (en) * 2008-06-24 2012-11-20 Medrad, Inc. Identification of regions of interest and extraction of time value curves in imaging procedures
US9465129B1 (en) * 2009-03-06 2016-10-11 See Scan, Inc. Image-based mapping locating system
US8872926B2 (en) * 2011-03-03 2014-10-28 Honeywell International Inc. Flashless motion invariant image acquisition system
US10754425B2 (en) * 2018-05-17 2020-08-25 Olympus Corporation Information processing apparatus, information processing method, and non-transitory computer readable recording medium
JP7171985B2 (ja) * 2018-12-10 2022-11-16 株式会社エビデント 情報処理装置、情報処理方法、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322556A (ja) 1999-05-11 2000-11-24 Nippon Telegr & Teleph Corp <Ntt> 時系列画像予測方法及び装置及び時系列画像予測プログラムを格納した記憶媒体
WO2017130639A1 (ja) 2016-01-28 2017-08-03 株式会社リコー 画像処理装置、撮像装置、移動体機器制御システム、画像処理方法、及びプログラム

Also Published As

Publication number Publication date
US11790661B2 (en) 2023-10-17
US20210264188A1 (en) 2021-08-26
JP2021135650A (ja) 2021-09-13

Similar Documents

Publication Publication Date Title
JP7239511B2 (ja) 画像予測システム
CN111915663B (zh) 图像深度预测神经网络
JP2022515591A (ja) ターゲットオブジェクトの3d検出方法、装置、媒体及び機器
US11810311B2 (en) Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching
US11157749B2 (en) Crowd state recognition device, learning method, and learning program
CN109241810B (zh) 虚拟角色图像的构建方法及装置、存储介质
JP2018022360A (ja) 画像解析装置、画像解析方法およびプログラム
KR20220081261A (ko) 객체 포즈 추정 방법 및 장치
CN111667535B (zh) 一种针对遮挡场景下的六自由度位姿估计方法
CN115298638A (zh) 用于基于手势控制设备的方法和系统
US20140294293A1 (en) Image processing circuit and image detection device
CN111709471B (zh) 对象检测模型的训练方法以及对象检测方法、装置
CN108537825B (zh) 一种基于迁移学习回归网络的目标跟踪方法
CN112686225A (zh) Yolo神经网络的训练方法、行人检测方法和相关设备
US11138812B1 (en) Image processing for updating a model of an environment
EP3992909A1 (en) Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching
CN114387462A (zh) 一种基于双目相机的动态环境感知方法
CN115349138A (zh) 图像处理系统和方法
CN114241360A (zh) 一种基于自适应推理的视频识别方法和装置
CN114600072A (zh) 用于基于手势控制设备的方法和系统
Molina-Cabello et al. Neural controller for PTZ cameras based on nonpanoramic foreground detection
CN115471863A (zh) 三维姿态的获取方法、模型训练方法和相关设备
CN116797713A (zh) 一种三维重建方法和终端设备
CN116228850A (zh) 物体姿态估计方法、装置、电子设备及可读存储介质
CN114640785A (zh) 站点模型更新方法及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230228

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230302

R150 Certificate of patent or registration of utility model

Ref document number: 7239511

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150