JP2021060937A - 視線推定装置 - Google Patents
視線推定装置 Download PDFInfo
- Publication number
- JP2021060937A JP2021060937A JP2019186289A JP2019186289A JP2021060937A JP 2021060937 A JP2021060937 A JP 2021060937A JP 2019186289 A JP2019186289 A JP 2019186289A JP 2019186289 A JP2019186289 A JP 2019186289A JP 2021060937 A JP2021060937 A JP 2021060937A
- Authority
- JP
- Japan
- Prior art keywords
- line
- image
- sight
- relationship
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Traffic Control Systems (AREA)
- Image Analysis (AREA)
Abstract
【課題】画像に写る被写体間の関係性を考慮して画像に対する人の視線を推定することができる視線推定装置を提供する。【解決手段】視線推定装置12のデータ取得部18は、画像を取得する。特徴計算部20は、データ取得部18により取得された画像の特徴量を計算する。物体検出部38は、画像に写る複数の被写体を検出する。関係性計算部40は、物体検出部38により検出された複数の被写体の間の関係性を表す関係性情報を計算する。視線推定部26は、画像の特徴量及び画像に写る複数の被写体の間の関係性を表す関係性情報から該画像に対する視線を推定するための学習済みモデルに対して、特徴計算部20により計算された特徴量と、関係性計算部40により計算された複数の被写体の間の関係性情報とを入力することにより、データ取得部18により取得された画像に対する視線を表す視線情報を推定する。【選択図】図1
Description
本発明は、視線推定装置に関する。
従来、人の視線を推定する技術が知られている(例えば、非特許文献1を参照)。また、画像等に写る被写体の間の関係性を出力する技術が知られている(例えば、非特許文献2を参照)。また、画像に写る被写体の認識を行う際に被写体の位置関係を考慮する技術が知られている(例えば、非特許文献3を参照)。
Kummerer , Wallis and Bethge , DeepGaze , "Reading fixations from deep features trained on object recognition" (arXiv2016)
Zhang, Kalantidis , Rohrbach , Paluri , Elgammal and Elhoseiny , Large scale visual relationship understanding (AAAI2018)
Few shot learning by exploiting object relation (ICLR open review)
視線推定は、画像又は動画のどの部分に人が注目しているかを推定するものである。視線推定は、画像又は動画のどの部分が人にとって重要であるかを推定している、とみなすこともできるため、例えば、自動運転に関連する技術への活用が期待される。
このため、視線推定の際に画像に写る被写体間の関係性を考慮することは、有用であると考えられる。しかし、上記非特許文献1に開示されている技術は、画像に写る被写体間の関係性が考慮されていない。また、上記非特許文献2に開示されている技術は、学習の際の教師データとして画像の状況を説明する説明文であるクエリが必要となる。また、上記非特許文献3に開示されている技術は、被写体の間の関係性を用いて被写体の認識を行うもので視線推定を行うものではない。
このため、上記非特許文献1〜3の技術では、画像に写る被写体間の関係性を考慮して画像に対する人の視線を推定することができない、という課題がある。
本発明は、上記事実を考慮し、画像に写る被写体間の関係性を考慮して画像に対する人の視線を推定することができる、視線推定装置を提供することを目的とする。
請求項1に記載の視線推定装置は、画像を取得する取得部と、前記取得部により取得された画像の特徴量を計算する特徴計算部と、前記取得部により取得された画像に写る複数の被写体を検出する物体検出部と、前記物体検出部により検出された複数の被写体の間の関係性を表す関係性情報を計算する関係性計算部と、画像の特徴量及び画像に写る複数の被写体の間の関係性を表す関係性情報から該画像に対する視線を推定するための学習済みモデルに対して、前記特徴計算部により計算された特徴量と、前記関係性計算部により計算された複数の被写体の間の前記関係性情報と、を入力することにより、前記取得部により取得された画像に対する視線を表す視線情報を推定する視線推定部と、を有する視線推定装置である。
視線推定装置の特徴計算部は、画像の特徴量を計算する。そして、物体検出部は、画像に写る複数の被写体を検出する。関係性計算部は、物体検出部により検出された複数の被写体の間の関係性を表す関係性情報を計算する。そして、視線推定部は、画像の特徴量及び画像に写る複数の被写体の間の関係性を表す関係性情報から該画像に対する視線を推定するための学習済みモデルに対して、特徴計算部により計算された特徴量と、関係性計算部により計算された複数の被写体の間の関係性情報とを入力することにより、画像に対する視線を表す視線情報を推定する。これにより、画像に写る被写体間の関係性を考慮して画像に対する人の視線を推定することができる。また、学習済みモデルを生成する際に複数の被写体の関係性が考慮されることにより、視線推定の精度が向上する。
なお、視線推定装置は、前記視線推定部により推定された前記視線情報を、目標視線として設定する目標視線設定部と、前記目標視線設定部により設定された前記目標視線を出力する出力部と、を更に有していてもよい。これにより、画像に写る複数の被写体の関係性を考慮して目標視線を設定することができる。例えば、運転中のドライバに対して、車両前方に存在する複数の被写体の関係性を考慮して目標視線を設定することができる。また、学習済みモデルを生成する際に複数の被写体の関係性が考慮されることにより、目標視線の設定精度が向上する。
また、前記関係性計算部は、前記取得部により取得された画像に写る複数の被写体の各々の間の位置関係を表すグラフであって、被写体をノードとし、被写体であるノード間の距離が重みとして表現されたグラフを生成し、複数の被写体の各々の間の位置関係を表すグラフであって、被写体をノードとし、被写体であるノード間の距離が重みとして表現されたグラフから複数の被写体の各々の間の位置関係を表す位置関係情報を出力するための予め学習されたグラフ畳み込みニューラルネットワークへ、前記取得部により取得された画像に写る複数の被写体に応じて生成された前記グラフを入力することにより、前記関係性情報を計算する、ようにしてもよい。これにより、画像に写る複数の被写体の間の位置関係を考慮して視線を推定することができる。
また、前記関係性計算部は、複数の被写体の各々の共起関係を表す情報として、被写体が存在している確率を表す確率マップを生成し、被写体が存在している確率を表す確率マップから共起関係を表す共起関係情報を出力するための予め学習されたニューラルネットワークへ、前記取得部により取得された画像に写る複数の被写体に応じて生成された前記確率マップを入力することにより、前記関係性情報を計算する、ようにしてもよい。これにより、画像に写る複数の被写体の間の共起関係を考慮して視線を推定することができる。
また、学習装置は、学習用の画像の特徴量と、当該学習用の画像に写る複数の被写体の間の関係性を表す情報と、当該学習用の画像に対する視線を表す情報とが対応付けられた学習用データに基づいて、画像の特徴量及び画像に写る複数の被写体の間の関係性を表す情報から該画像に対する視線を推定するための学習済みモデルを生成する学習部を有する学習装置である。学習装置により、画像に写る被写体間の関係性を考慮して画像に対する人の視線を推定するための学習済みモデルを得ることができる。
以上説明したように本発明によれば、画像に写る被写体間の関係性を考慮して画像に対する人の視線を推定することができる、という効果がある。
以下、図面を用いて本実施形態の視線推定システムについて説明する。
図1は、実施形態に係る視線推定システム10の構成の一例を示すブロック図である。視線推定システム10は、図1に示されるように、視線推定装置12と、学習装置14と、表示装置15とを備える。視線推定装置12と学習装置14とは所定の通信手段によって接続されている。
(視線推定装置12)
図1に示されるように、視線推定装置12は、学習済みモデル記憶部16と、データ取得部18と、特徴計算部20と、物体領域計算部22と、統合部24と、視線推定部26と、出力部30とを備えている。データ取得部18は、本発明の取得部の一例である。
学習済みモデル記憶部16には、画像から当該画像に向けられている人の視線を推定する際に用いる複数の学習済みニューラルネットワークが格納されている。例えば、視線推定用の学習済みニューラルネットワーク、複数の被写体の関係性を計算するための学習済みニューラルネットワーク、及び画像から特徴量の候補を計算するための学習済みニューラルネットワーク等が格納される。この複数の学習済みニューラルネットワークについては、各箇所において後述する。
データ取得部18は、視線を推定する対象の画像を取得する。
特徴計算部20は、データ取得部18により取得された画像の特徴量を計算する。特徴計算部20は、特徴候補計算部32と、特徴選択部34と、特徴出力部36とを備えている。
特徴候補計算部32は、データ取得部18により取得された画像の特徴量の候補を計算する。例えば、特徴候補計算部32は、既知の技術であるVGG又はResNet等の特徴量候補計算用の学習済みのニューラルネットワークへ、データ取得部18により取得された画像を入力して当該画像の特徴量の候補を計算する。この場合、特徴候補計算部32は、学習済みモデル記憶部16に格納されている、画像から画像の特徴量の候補を出力するための特徴量候補計算用学習済みニューラルネットワーク(例えば、上述のVGG又はResNet等)を読み出し、当該学習済みニューラルネットワークへ画像を入力する。なお、VGG及びResNetは、以下の参考文献に開示されている。
参考文献(VGGが開示されている文献):Simonyan and Zisserman, "Very deep convolutional networks for large scale image recognition", (ICLR2015)
参考文献(ResNetが開示されている文献):He, Zhang, Ren and Sun, "Deep residual learning for image recognition" , (arXiv2015)
参考文献(ResNetが開示されている文献):He, Zhang, Ren and Sun, "Deep residual learning for image recognition" , (arXiv2015)
なお、特徴候補計算部32は、特徴量候補計算用の学習済みのニューラルネットワークによって特徴量を計算する場合、特徴量候補計算用の学習済みのニューラルネットワークの最終的な出力のみでなく、ニューラルネットワークの中間層からの出力値を用いる。
特徴選択部34は、特徴候補計算部32により計算された特徴量の候補から、後述する視線推定において用いる対象の特徴量を選択する。特徴候補計算部32において特徴量候補計算用の学習済みのニューラルネットワークの中間層からの出力値も用いる場合、どの中間層の出力値を用いるかを選択する必要がある。このため、特徴選択部34は、特徴候補計算部32により計算された特徴量の候補から、視線推定において用いる対象の特徴量を選択する。なお、特徴選択部34は、特徴量の選択を行う際に、例えば、事前に予め設定された中間層からの出力値を、視線推定に用いる特徴量として選択する。または、特徴選択部34は、例えば、中間層からの出力値に応じて、選択する対象の中間層を変更するようにしてもよい。特徴選択部34によって得られる情報は、例えば、1次元ベクトル、2次元行列、又は3次元行列である。
特徴出力部36は、特徴選択部34によって選択された特徴量を、後述する各処理において処理可能な形式へ変換する。特徴選択部34により選択された特徴量は、そのままでは一般的には後続の処理を施すことができないことが多い。そのため、特徴出力部36は、特徴選択部34により選択された特徴量を、後続の処理が可能な形へと変換する。例えば、特徴出力部36は、特徴量の拡大させる必要がある場合は、特徴選択部34により選択された特徴量を所定の方法により補間して、後述する各処理において処理可能な形式へ変換する。
物体領域計算部22は、データ取得部18により取得された画像に写る複数の被写体を検出し、複数の被写体の間の関係性を計算する。物体領域計算部22は、物体検出部38と、関係性計算部40と、物体出力部42とを備えている。
物体検出部38は、データ取得部18により取得された画像に写る複数の被写体を検出する。例えば、物体検出部38は、被写体を検出する既知のアルゴリズムを用いて、画像に写る複数の被写体を検出する。物体検出部38は、被写体の検出のアルゴリズムとして、例えば、以下の参考文献に示されるSSD又はFasterCNNを用いる。例えば、物体検出部38は、画像のどのあたりに被写体が存在しているかを表すグレースケールの確率マップを結果として出力する。または、物体検出部38は、被写体が存在する範囲を矩形で背景と異なる色でくり抜いた画像を結果として出力する。
参考文献(SSDが開示されている文献):Liu, Anguelov , Erhan , Szegedy , Reed, Fu and Berg, SSD: Single Shot MultiBox Detector, (ECCV2016)
参考文献(Faster CNNが開示されている文献):Ren, He, Girshick and Sun , "Faster R CNN : Towards Real Time Object Detection with Region Proposal Networks", (arXiv2015)
参考文献(Faster CNNが開示されている文献):Ren, He, Girshick and Sun , "Faster R CNN : Towards Real Time Object Detection with Region Proposal Networks", (arXiv2015)
視線推定においては、画像に写る被写体間の関係性が重要と考えられる。例えば、自動車を運転している最中のドライバは、基本的に前方車両へ視線を向ける。しかし、図2に示されるように、前方に道路を渡ろうとしている人が存在している場合、ドライバは、前方車両よりも人に対して視線を向ける可能性がある。また、走路に信号が存在する場合は、ドライバは、前方車両と信号との両方に注意を向けると考えられ、信号と前方車両との中間地点へ視線を向ける可能性がある。
そこで、本実施形態では、画像に写る複数の被写体間の関係性を考慮して画像に対し向けられる人の視線を推定する。
なお、画像に写る被写体の間の関係性に関する技術としては、上記非特許文献2が知られている。上記非特許文献2に開示されている技術は、画像又は動画に写る被写体の関係性を推定する技術であるが、ニューラルネットワークを学習する際に教師データとして画像の状況を説明する説明文であるクエリが必要となる。例えば、机の上にリンゴが乗っている状況が写っている画像に対しては、「Apple on desk」といった{単語、前置詞又は動詞、単語}といった組合せを表す教師データが必要である。
また、視線推定の結果の解釈性も重要である。特に被写体間の関係性がどのように視線推定に影響を及ぼしたのかを遡れることは、視線推定モデルを実用化するにあたって欠かせない要素である。しかしながら、従来提案されてきた視線推定モデルはいずれも解釈性が低い。
なお、以下に示す参考文献には、被写体の間の関係性を取り込みつつ物体認識の精度向上を試みた技術が開示されている。しかし、この技術は、位置関係を抽出できる理由が不明確である上に計算の負荷が大きい。
参考文献:Few shot learning by exploiting object relation (ICLR open review 2019)
また、視線推定の多くの手法が、画像又は動画を入力、視線推定結果を出力とするような end to end な手法で行っているため、結果の解釈性を得ることは難しい。
そのため、本実施形態では、被写体の間の関係性を表す情報を明示的にニューラルネットワークに入力する。これにより、被写体の間の関係性をより強く結果に反映させることができる。
また、被写体の間の関係性の計算処理は、画像の特徴量の計算とは独立に計算できる。このため、全体の計算時間を増加させずに、被写体の間の関係性の計算を行うことが可能である。加えて、視線推定を行うためのニューラルネットワークへ明示的に入力された被写体の間の関係性を表す情報と、当該ニューラルネットワークから出力された視線推定結果とを見比べることができる。これにより、視線推定の解釈性を向上させることができる。また、後述するように、本実施形態では、学習に当たってクエリのような付加情報は要さない。
以下、具体的に説明する。
本実施形態の関係性計算部40は、物体検出部38により検出された複数の被写体の間の関係性を表す関係性情報を計算する。
具体的には、まず、関係性計算部40は、物体検出部38により検出された複数の被写体の各々の間の位置関係を表すグラフを生成する。このグラフは、例えば、被写体をノードとし、被写体であるノード間の距離が重みとして表現されたグラフである。図3に、本実施形態のグラフを説明するための図を示す。図3に示されるように、複数の被写体の各々として、人物1と車両2とが画像に写っている場合、人物1及び車両2がノードとして設定される。また、人物1と車両2との間の距離に応じた重みが、人物1と車両2との間の位置関係を表す情報として表現される。なお、複数の被写体の各々の間の位置関係を表すグラフは、例えば、複数の被写体の間の距離に応じた重みを要素として持つ2次元行列として表現される。
次に、関係性計算部40は、複数の被写体の各々の間の位置関係を表すグラフを、複数の被写体の各々の間の関係性情報を計算するための予め学習されたグラフ畳み込みニューラルネットワークへ入力することにより、複数の被写体の各々の間の関係性情報を計算する。予め学習された関係性情報計算用のグラフ畳み込みニューラルネットワークは、被写体であるノード間の距離Dが重みとして表現されたグラフから複数の被写体の各々の間の位置関係を表す位置関係情報を出力するためのモデルである。この場合、関係性計算部40は、生成したグラフを、関係性情報計算用のグラフ畳み込みニューラルネットワークに入力した際に得られる出力又は中間層からの出力値を、関係性情報として用いる。
なお、予め学習された関係性情報計算用のグラフ畳み込みニューラルネットワークは、学習済みモデル記憶部16に格納されているため、関係性計算部40は、学習済みモデル記憶部16から関係性情報計算用の学習済みのグラフ畳み込みニューラルネットワークを読み出し、当該グラフ畳み込みニューラルネットワークへ、複数の被写体の各々の間の位置関係を表すグラフを入力する。関係性計算部40によって得られる関係性情報は、例えば、1次元ベクトル、2次元行列、又は3次元行列である。
物体出力部42は、関係性計算部40によって得られた関係性情報を、後述する各処理において処理可能な形式へ変換する。例えば、物体出力部42は、関係性情報の拡大させる必要がある場合は、関係性計算部40により得られた関係性情報を所定の方法により補間して、後述する各処理において処理可能な形式へ変換する。
統合部24は、特徴出力部36から出力された変換済みの特徴量と、物体出力部42から出力された変換済みの関係性情報とを統合する。例えば、統合部24は、変換済みの特徴量である3次元行列と変換済みの関係性情報である3次元行列とをチャネル方向に足し合わせて、新たな3次元行列を生成する。
視線推定部26は、画像の特徴量及び画像に写る複数の被写体の間の関係性を表す関係性情報から該画像に対する視線を推定するための視線推定用の学習済みニューラルネットワークに対して、統合部24により統合された特徴量及び関係性情報を入力することにより、データ取得部18により取得された画像に対する視線を表す視線情報を推定する。
視線推定用の学習済みニューラルネットワークから出力される視線情報は、例えば、人がその部分に注目している確率が画素値として表現された画像が、視線情報として視線推定用の学習済みニューラルネットワークから出力される。なお、視線推定用の学習済みニューラルネットワークとしては、例えば、既知のニューラルネットワークであるdilated CNNのような大域的な情報を活用しやすいニューラルネットワークを用いることができる。これにより、物体領域計算部22で計算された特徴量を反映させることができる。
なお、視線推定用の学習済みニューラルネットワークは、画像の特徴量及び画像に写る複数の被写体の間の関係性を表す関係性情報から該画像に対する視線を推定するための学習済みモデルの一例である。
出力部30は、視線推定部26により推定された視線情報を出力する。
表示装置15には、出力部30から出力された視線情報が出力される。
(学習装置14)
学習装置14は、学習用データ記憶部44と、学習部46と、学習済みモデル記憶部16と、を備えている。
学習用データ記憶部44には、学習用の画像の特徴量と、当該学習用の画像に写る複数の被写体の間の関係性を表す情報と、当該学習用の画像に対する視線を表す情報とが対応付けられた複数の学習用データが格納されている。
例えば、学習用データ記憶部44には、図4に示されるように、画像とその画像に対する人の視線推定結果とが対応付けられて学習用データとして格納される。画像は、例えば、車両に搭載されたカメラによって撮像された画像である。また、視線推定結果は、画像に対する人の視線推定結果である。視線推定結果は、例えば、視線が向けられている部分の画素値が高く、視線が向けられていない部分の画素値が低いような画像データとして設定される。例えば、熟練のドライバの視線推定結果を含む学習用データを用いて視線推定用の学習済みニューラルネットワークを生成し、その視線推定用の学習済みニューラルネットワークへ画像を入力すると、熟練のドライバの視線を推定することができる。
学習部46は、学習用データ記憶部44に格納された複数の学習用データに基づいて、画像の特徴量及び画像に写る複数の被写体の間の関係性を表す情報から該画像に対する視線を推定するための視線推定用の学習済みニューラルネットワークを生成する。なお、学習部46は、学習用データ記憶部44に格納された複数の学習用データに基づいて、視線推定装置12において用いられる各ニューラルネットワークも学習させる。例えば、学習部46は、特徴候補計算部32において用いられる特徴量候補計算用のニューラルネットワーク、及び関係性計算部40において用いられる関係性情報計算用のグラフ畳み込みニューラルネットワークも、視線推定用のニューラルネットワークを学習させる際に併せて学習させる。
学習済みモデル記憶部48には、学習部46により生成された視線推定用の学習済みニューラルネットワークを含む各種のニューラルネットワークが格納される。
視線推定装置12及び学習装置14は、例えば、図5に示すようなコンピュータ50によって実現することができる。コンピュータ50はCPU51、一時記憶領域としてのメモリ52、及び不揮発性の記憶部53を備える。また、コンピュータ50は、入出力装置等(図示省略)が接続される入出力interface(I/F)54、及び記録媒体59に対するデータの読み込み及び書き込みを制御するread/write(R/W)部55を備える。また、コンピュータ50は、インターネット等のネットワークに接続されるネットワークI/F56を備える。CPU51、メモリ52、記憶部53、入出力I/F54、R/W部55、及びネットワークI/F56は、バス57を介して互いに接続される。
記憶部53は、Hard Disk Drive(HDD)、solid state drive(SSD)、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部53には、コンピュータ50を機能させるためのプログラムが記憶されている。CPU51は、プログラムを記憶部53から読み出してメモリ52に展開し、プログラムが有するプロセスを順次実行する。
次に、実施形態の視線推定システム10の作用について説明する。
学習装置14の学習用データ記憶部44に複数の学習用データが格納され、学習装置14が学習処理の指示信号を受け付けると、学習装置14は、図6に示される学習処理ルーチンを実行する。
ステップS100において、学習部46は、学習用データ記憶部44に格納された複数の学習用データを取得する。
ステップS102において、学習部46は、上記ステップS100で取得された複数の学習用データに基づいて、既知の学習アルゴリズムを用いて、視線推定用の学習モデルである視線推定用ニューラルネットワークを学習させ、視線推定用の学習済みニューラルネットワークを生成する。なお、学習部46は、他のニューラルネットワークも既知の学習アルゴリズムを用いて学習させる。
ステップS104において、学習部46は、上記ステップS102で生成されたが視線推定用の学習済みニューラルネットワークを含む各ニューラルネットワークを学習済みモデル記憶部16へ格納して、学習処理ルーチンを終了する。
学習装置14によって、各モデルの学習が終了すると、それらの各モデルが視線推定装置12の学習済みモデル記憶部16へ格納される。
そして、視線推定対象の画像が視線推定装置12へ入力されると、視線推定装置12は、図7に示す視線推定処理ルーチンを実行する。
ステップS200において、データ取得部18は、視線を推定する対象の画像を取得する。
ステップS202において、特徴候補計算部32は、学習済みモデル記憶部16に格納された特徴量候補計算用の学習済みのニューラルネットワークを用いて、上記ステップS200で取得された画像の特徴量の候補を計算する。
ステップS204において、特徴選択部34は、上記ステップS202で計算された特徴量の候補から、後述する視線推定において用いる対象の特徴量を選択する。
ステップS205において、特徴出力部36は、上記ステップS208で選択された特徴量を、後述する各処理において処理可能な形式へ変換する。そして、特徴出力部36は、変換済みの特徴量を出力する。
ステップS206において、物体検出部38は、上記ステップS100で取得された画像に写る複数の被写体を検出する。
ステップS208において、関係性計算部40は、上記ステップS200で検出された複数の被写体の各々の間の位置関係を表すグラフを生成する。そして、関係性計算部40は、生成したグラフを、学習済みモデル記憶部16に格納された関係性情報計算用の学習済みのグラフ畳み込みニューラルネットワークへ入力することにより、複数の被写体の各々の間の関係性情報を計算する。
ステップS209において、物体出力部42は、上記ステップS208で得られた関係性情報を、後述する各処理において処理可能な形式へ変換する。そして、物体出力部42は、変換済みの関係性情報を出力する。
ステップS210において、統合部24は、上記ステップS205で出力された変換済みの特徴量と、上記ステップS209で出力された変換済みの関係性情報とを統合する。
ステップS212において、視線推定部26は、学習済みモデル記憶部16に格納された視線推定用の学習済みニューラルネットワークに対して、上記ステップS210で統合された特徴量及び関係性情報を入力することにより、上記ステップS200で取得された画像に対する視線を表す視線情報を推定する。
ステップS214において、出力部30は、上記ステップS212で推定された視線情報を出力して、視線推定処理ルーチンを終了する。
以上説明したように、本実施形態に係る視線推定装置12は、複数の被写体の間の関係性を表す関係性情報を計算し、画像の特徴量及び画像に写る複数の被写体の間の関係性を表す関係性情報から該画像に対する視線を推定するための学習済みモデルとしての視線推定用の学習済みニューラルネットワークに対して、特徴計算部により計算された特徴量と、関係性計算部により計算された複数の被写体の間の関係性情報とを入力することにより、画像に対する視線を表す視線情報を推定する。これにより、画像に写る被写体間の関係性を考慮して画像に対する人の視線を推定することができる。
また、本実施形態に係る学習装置14は、学習用の画像の特徴量と、当該学習用の画像に写る複数の被写体の間の関係性を表す情報と、当該学習用の画像に対する視線を表す情報とが対応付けられた学習用データに基づいて、画像の特徴量及び画像に写る複数の被写体の間の関係性を表す情報から該画像に対する視線を推定するための学習済みモデルである視線推定用の学習済みニューラルネットワークを生成する。これにより、画像に写る被写体間の関係性を考慮して画像に対する人の視線を推定するための学習済みモデルを得ることができる。
なお、本実施形態に係る視線推定システムの利用方法としては、例えば、車両を運転するドライバに対する目標視線の設定が挙げられる。この場合には、視線推定装置12は、視線推定部26により推定された視線情報を、目標視線として設定する目標視線設定部(図示省略)を更に備え、出力部30は、目標視線設定部により設定された目標視線を出力する。
そして、この視線推定装置12は、車両が走行しているときに車両の前方を撮像する車外カメラによって撮像された画像を、視線推定用の学習済みニューラルネットワークへ入力し視線情報を推定する。次に、視線推定装置12は、推定された視線情報を目標視線として設定し、別途、ドライバカメラによって撮像されたドライバの現在視線を既存の手法により検出する。
そして、視線推定装置12では、目標視線と現在視線との間のずれが所定の閾値以上である場合に、ドライバに対して警報を鳴らす処理を実行する。これにより、運転中のドライバに対して、車両前方に存在する複数の被写体の関係性を考慮して目標視線を設定することができる。
なお、本実施形態の視線推定システム10は、例えば、熟練のドライバの視線推定結果を含む学習用データを用いると、熟練のドライバの視線推定結果が得られる視線推定用の学習済みニューラルネットワークが生成される。この視線推定用の学習済みニューラルネットワークを用いて目標視線を設定し、初心者のドライバに対して目標視線を提示することにより、初心者のドライバに対する訓練を行うことができる。
また、本実施形態によれば、視線推定結果の解釈性を高めることができる。具体的には、ある視線推定結果が得られたときの関係性情報を参照することにより、その視線推定結果が得られたときに複数の被写体の関係性がどのようであったかを確認することができ、視線推定結果の解釈性を高めることができる。更に、例えば、複数の被写体の関係性のうちのある被写体を削除して、再度、視線推定用の学習済みニューラルネットワークへ入力し、視線推定結果がどのように変化するのかを確認することにより、視線推定結果の解釈を得ることができる。
なお、上記の実施形態における各装置で行われる処理は、プログラムを実行することにより行われるソフトウエア処理として説明したが、ハードウエアで行う処理としてもよい。或いは、ソフトウエア及びハードウエアの双方を組み合わせた処理としてもよい。また、ROMに記憶されるプログラムは、各種記憶媒体に記憶して流通させるようにしてもよい。
さらに、本発明は、上記に限定されるものでなく、上記以外にも、その主旨を逸脱しない範囲内において種々変形して実施可能であることは勿論である。
例えば、上記実施形態の関係性計算部40は、物体検出部38により検出された複数の被写体の各々の間の位置関係を表すグラフを生成し、予め学習されたグラフ畳み込みニューラルネットワークへ当該グラフを入力することにより、複数の被写体の各々の間の関係性情報を計算する場合を例に説明したが、これに限定されるものではない。
例えば、関係性計算部40は、複数の被写体の各々の共起関係を表す情報として、被写体が存在している確率を表す確率マップを生成する。そして、関係性計算部40は、被写体が存在している確率を表す確率マップから共起関係を表す共起関係情報を出力するための予め学習されたニューラルネットワークへ、当該確率マップを入力することにより、関係性情報を計算するようにしてもよい。これにより、画像に写る複数の被写体の間の共起関係を考慮して視線を推定することができる。
例えば、図8に示されるように、被写体間の距離は考慮せずに、単に人物1と車両2とが共に存在している場合を考える。この場合には、関係性計算部40は、人物1と車両2とが存在していることを表す共起関係を表す情報として、人物1が存在している領域を表す確率マップと、車両2が存在している領域を表す確率マップとを生成し、それらを予め学習された関係性情報計算用の学習済みニューラルネットワークへ入力し、関係性情報を計算する。
また、例えば、上記のニューラルネットワーク等の各モデルとしては、どのようなモデルを採用してもよい。
10 視線推定システム
12 視線推定装置
14 学習装置
15 表示装置
16 学習済みモデル記憶部
18 データ取得部
20 特徴計算部
22 物体領域計算部
24 統合部
26 視線推定部
30 出力部
32 特徴候補計算部
34 特徴選択部
36 特徴出力部
38 物体検出部
40 関係性計算部
42 物体出力部
44 学習用データ記憶部
46 学習部
48 学習済みモデル記憶部
50 コンピュータ
12 視線推定装置
14 学習装置
15 表示装置
16 学習済みモデル記憶部
18 データ取得部
20 特徴計算部
22 物体領域計算部
24 統合部
26 視線推定部
30 出力部
32 特徴候補計算部
34 特徴選択部
36 特徴出力部
38 物体検出部
40 関係性計算部
42 物体出力部
44 学習用データ記憶部
46 学習部
48 学習済みモデル記憶部
50 コンピュータ
Claims (1)
- 画像を取得する取得部と、
前記取得部により取得された画像の特徴量を計算する特徴計算部と、
前記取得部により取得された画像に写る複数の被写体を検出する物体検出部と、
前記物体検出部により検出された複数の被写体の間の関係性を表す関係性情報を計算する関係性計算部と、
画像の特徴量及び画像に写る複数の被写体の間の関係性を表す関係性情報から該画像に対する視線を推定するための学習済みモデルに対して、前記特徴計算部により計算された特徴量と、前記関係性計算部により計算された複数の被写体の間の前記関係性情報と、を入力することにより、前記取得部により取得された画像に対する視線を表す視線情報を推定する視線推定部と、
を有する視線推定装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019186289A JP2021060937A (ja) | 2019-10-09 | 2019-10-09 | 視線推定装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019186289A JP2021060937A (ja) | 2019-10-09 | 2019-10-09 | 視線推定装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021060937A true JP2021060937A (ja) | 2021-04-15 |
Family
ID=75381414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019186289A Pending JP2021060937A (ja) | 2019-10-09 | 2019-10-09 | 視線推定装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021060937A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023243069A1 (ja) * | 2022-06-17 | 2023-12-21 | 三菱電機株式会社 | 脇見判定装置および脇見判定方法 |
-
2019
- 2019-10-09 JP JP2019186289A patent/JP2021060937A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023243069A1 (ja) * | 2022-06-17 | 2023-12-21 | 三菱電機株式会社 | 脇見判定装置および脇見判定方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kim et al. | Extracting vehicle trajectories using unmanned aerial vehicles in congested traffic conditions | |
JP2022526513A (ja) | ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム | |
US11403343B2 (en) | Retrieval of video and vehicle behavior for a driving scene described in search text | |
CN107851192B (zh) | 用于检测人脸部分及人脸的设备和方法 | |
KR102664916B1 (ko) | 익스플레이너블 셀프-포커스드 어텐션을 이용하여 행동 예측을 수행하는 방법 및 장치 | |
JP2017033197A (ja) | 変化領域検出装置、方法、及びプログラム | |
KR100988326B1 (ko) | 사용자 맞춤형 표정 인식 방법 및 장치 | |
US12067471B2 (en) | Searching an autonomous vehicle sensor data repository based on context embedding | |
KR102427884B1 (ko) | 객체 검출 모델 학습 장치 및 방법 | |
CN113095351A (zh) | 借助于初始标记的改善生成经标记的数据的方法 | |
JP2014219801A (ja) | 車両判別装置 | |
US20230196841A1 (en) | Behavior recognition artificial intelligence network system and method for efficient recognition of hand signals and gestures | |
KR20190095597A (ko) | 다른 초점 거리를 갖는 두 개의 카메라를 이용한 객체 검출 방법 및 그 장치 | |
CN116964588A (zh) | 一种目标检测方法、目标检测模型训练方法及装置 | |
JP2007280219A (ja) | 動きパターン認識装置、動きパターン認識方法及び動きパターン認識プログラム | |
Feng | Mask RCNN-based single shot multibox detector for gesture recognition in physical education | |
CN110909588A (zh) | 基于cnn的用于车道线检测的方法和装置 | |
JP2021060937A (ja) | 視線推定装置 | |
JP6713422B2 (ja) | 学習装置、イベント検出装置、学習方法、イベント検出方法、プログラム | |
CN116243803B (zh) | 一种基于vr技术的动作评估方法、系统、设备及可读存储介质 | |
KR102251704B1 (ko) | 관계형 질의를 이용한 객체 검출방법 및 그 장치 | |
CN115527083B (zh) | 图像标注方法、装置和电子设备 | |
KR101575100B1 (ko) | 사용자 그룹의 공간행동 센싱 및 의미분석 시스템 | |
Munz et al. | Probabilistic modeling of sensor properties in generic fusion systems for modern driver assistance systems | |
Fakharurazi et al. | Object Detection in Autonomous Vehicles |