JP2022020353A - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2022020353A
JP2022020353A JP2020123796A JP2020123796A JP2022020353A JP 2022020353 A JP2022020353 A JP 2022020353A JP 2020123796 A JP2020123796 A JP 2020123796A JP 2020123796 A JP2020123796 A JP 2020123796A JP 2022020353 A JP2022020353 A JP 2022020353A
Authority
JP
Japan
Prior art keywords
image
tracking target
feature amount
information processing
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020123796A
Other languages
English (en)
Inventor
修平 小川
Shuhei Ogawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2020123796A priority Critical patent/JP2022020353A/ja
Priority to CN202180060244.7A priority patent/CN116157831A/zh
Priority to PCT/JP2021/024898 priority patent/WO2022019076A1/ja
Priority to EP21847050.8A priority patent/EP4184431A1/en
Publication of JP2022020353A publication Critical patent/JP2022020353A/ja
Priority to US18/155,349 priority patent/US20230154016A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 特定の物体を追尾できる。【解決手段】 複数の時刻において撮像された画像から特定の物体を追尾する情報処理装置であって、入力された画像における所定の物体の位置を検出する学習済みモデルに基づいて、追尾対象の特徴量を保持する保持手段と、前記学習済みモデルに基づいて、複数の画像における物体の特徴量を取得する取得手段と、前記追尾対象の特徴量と、前記複数の画像から取得された前記物体の特徴量と、に基づいて、前記追尾対象と類似した候補物体を検出する検出手段と、前記複数の画像のうち第1の画像において検出された前記候補物体と、前記第1の画像と異なる時刻に撮像された第2の画像における前記候補物体と、の対応関係を特定する特定手段と、を有することを特徴とする。【選択図】 図2

Description

本発明は、画像内の特定の被写体を追尾するための技術に関する。
画像内の特定の被写体を追尾するための技術としては、輝度や色情報を利用するものやテンプレート対応付けなどが存在するが、近年、Deep Neural Network(以下DNNと省略)を利用した技術が、高精度な追尾技術として注目を集めている。例えば非特許文献1は、画像内の特定の被写体を追尾するための方法の1つである。追尾対象が映った画像と、探索範囲となる画像を、重みが同一のConvolutional Neural Network(以下CNNと省略)にそれぞれ入力する。そして、CNNから得られたそれぞれの特徴量同士の相互相関を計算することによって、探索範囲の画像中で追尾対象が存在する位置を特定する。
特開2013-219531号広報
しかしながら。非特許文献1は、画像内に追尾対象に類似した物体が存在した場合は、類似物体との相互相関値が高くなることにより、類似物体を誤って追尾対象として追尾するエラーが発生する可能性がある。また、特許文献1は、追尾対象と類似した物体が、追尾対象の近傍に存在した場合に、追尾対象と類似物体それぞれの位置を予測する。しかしながら、特許文献1に示される方法では、追尾対象の位置のみを予測に用いるため、予測される位置と離れた位置に追尾対象が存在する場合や、追尾対象と類似物体が近接している場合に、追尾対象を見失うことが発生する可能性がある。
本発明は、このような課題に鑑みなされたものであり、特定の物体を追尾することを目的とする。
上記課題を解決する本発明にかかる情報処理装置は、複数の時刻において撮像された画像から特定の物体を追尾する情報処理装置であって、入力された画像における所定の物体の位置を検出する学習済みモデルに基づいて、追尾対象の特徴量を保持する保持手段と、前記学習済みモデルに基づいて、複数の画像における物体の特徴量を取得する取得手段と、前記追尾対象の特徴量と、前記複数の画像から取得された前記物体の特徴量と、に基づいて、前記追尾対象と類似した候補物体を検出する検出手段と、前記複数の画像のうち第1の画像において検出された前記候補物体と、前記第1の画像と異なる時刻に撮像された第2の画像における前記候補物体と、の対応関係を特定する特定手段と、を有することを特徴とする。
本発明によれば、特定の物体を追尾できる。
情報処理装置のハードウェア構成例を示す図 情報処理装置の機能構成例を示すブロック図 情報処理装置が実行する処理手順を示すフローチャート 追尾対象決定部が実行する処理手順を示すフローチャート 物体検出部が実行する処理手順を示すフローチャート 情報処理装置が実行する処理手順を示すフローチャート 追尾部が実行する処理手順を示すフローチャート 追尾対象が遮蔽される例を示す図 画像における追尾対象の位置を検出する例を示す図 情報処理装置が実行する処理手順を示すフローチャート 遮蔽判定の例を示す図 複数の候補物体が検出された画像の一例を示す図 情報処理装置の機能構成例を示すブロック図 情報処理装置が実行する処理手順を示すフローチャート 取得されたテンプレート画像と探索範囲画像の一例を示す図 学習済みモデルによって出力されたマップの一例を示す図 学習モデルに用いる教師データの一例を示す図 情報処理装置の機能構成例を示すブロック図 情報処理装置の機能構成例を示すブロック図 情報処理装置が実行する処理手順を示すフローチャート
<実施形態1>
<学習済みのモデルを用いた実行フェーズの処理>
本発明の実施形態に係る情報処理装置を、図面を参照しながら説明する。なお、図面間で符号の同じものは同じ動作をするとして重ねての説明を省く。また、この実施の形態に掲載されている構成要素はあくまで例示であり、この発明の範囲をそれらのみに限定する趣旨のものではない。
本実施形態では、追尾対象と、追尾対象に類似した物体を同時に追尾することにより、追尾対象と類似する物体が多い状況や、追尾対象が他の物体によって遮蔽された状態が発生しても安定して追尾を継続する例を説明する。すなわち、類似した物体が存在している場合においてもそれぞれの物体を安定して追尾することを目的とする。
図1は、本実施形態における、複数の時刻において撮像された画像から特定の物体を追尾する情報処理装置1のハードウェア構成図である。CPU H101は、ROM H102に格納されている制御プログラムを実行することにより、本装置全体の制御を行う。RAM H103は、各構成要素からの各種データを一時記憶する。また、プログラムを展開し、CPU H101が実行可能な状態にする。
記憶部H104は、本実施形態の処理対象となるデータを格納するものであり、追尾対象となるデータを保存する。記憶部H104の媒体としては、HDD,フラッシュメモリ、各種光学メディアなどを用いることができる。入力部H105は、キーボード・タッチパネル、ダイヤル等で構成され、ユーザからの入力を受け付けるものであり、追尾対象を設定する際になどに用いられる。表示部H106は、液晶ディスプレイ等で構成され、被写体や追尾結果をユーザに対して表示する。また、本装置は通信部H107を介して、撮影装置等の他の装置と通信することができる。
図2は、情報処理装置1の機能構成例を示すブロック図である。情報処理装置1は、画像取得部201、追尾対象決定部202、保持部203、物体検出部204、追尾部205を有し、それぞれの構成部は記憶部206に接続されている。なお、記憶部206は外部装置にあってもよいし、情報処理装置1が有していてもよい。それぞれの機能構成部について簡単に説明する。画像取得部201は、撮像装置によって所定の物体を撮像した画像を取得する。所定の物体とは、例えば、人物や車両といった物体であって、ある程度個体に差があるような物体である。以下の実施形態では具体的な例として人物の追尾について説明する。追尾対象決定部202は、画像に含まれる物体のうち、追尾対象(注目物体)となる物体を決定する。保持部203は、初期の画像から追尾対象の候補となる物体の特徴量を保持する。物体検出部204は、複数の時刻で撮像された画像から物体の位置を検出する。追尾部205は、複数の時刻で撮像された画像から、追尾対象を特定し、追尾する。
図3は本実施形態の処理の流れを示したフローチャートである。以下の説明では、各工程(ステップ)について先頭にSを付けて表記することで、工程(ステップ)の表記を省略する。ただし、情報処理装置はこのフローチャートで説明するすべての工程を必ずしも行わなくても良い。CPU H101において実行される処理を、それぞれ機能ブロックとして示している。
S301では、画像取得部201が、所定の物体を撮像した画像(初期画像)を取得する。なお、画像取得部201は、情報処理装置に接続された撮像装置によって撮像された画像を取得してもよいし、記憶部H104に記憶された画像を取得してもよい。なお、S301からS303の処理では、初期画像を用いて、追尾対象となる注目物体を設定することを目的とする。
S302では、追尾対象決定部202が、S301で取得された画像から追尾対象(注目物体)となる物体を決定する。追尾対象は1つであっても、複数であってもよい。本実施形態では追尾対象をひとつ選ぶ例を説明する。ここでは、所定の物体の位置を検出する学習済みモデルを用いて画像から所定の物体を示す画像特徴の位置を取得し、注目物体を含む部分画像を決定する。学習済みモデルは、例えば、人物や車両といった所定の物体について予め画像特徴を学習したモデルを用いる。学習方法については後述する。画像から1つの物体が検出された場合はそれを追尾対象とする。画像から所定の物体が検出されなかった場合は、例えば、次のフレームの画像を入力してもよい。複数の物体が取得された場合は追尾対象の候補を出力し、予め指定された方法で追尾対象を決定する。ここでは、入力部H105により指定された指示に従って、取得された画像内の追尾対象(注目物体)を決定する。
追尾対象を決定する具体的な方法としては、表示部H105に表示された被写体をタッチすることにより追尾対象を決定する方法がある。なお、追尾対象は入力部H105により指定される以外にも、画像内の主被写体等を自動的に検出して決定してもよい。画像内主被写体を自動的に検出する方法としては、例えば、特許第6556033号が挙げられる。また、入力部H105による指定と画像内の物体検出結果の両方に基づいて決定してもよい。画像内から物体を検出する技術としては、“Liu,SSD:Single Shot Multibox Detector. In: ECCV2016”等が挙げられる。
画像内から追尾対象の候補を検出した結果を図12に示す。図12中の人物1303、人物1305、人物1307がそれぞれ追尾対象の候補である。枠1303、枠1305、枠1307が検出された候補の位置を示すBounding Box(以下BB)である。ユーザは、表示部106に示された候補BBのうち、いずれかをタッチすること、もしくはダイヤル等で選択することにより、追尾対象を決定することができる。このように追尾対象を決定する手段は様々あるが、本実施形態は、追尾対象を指定する手段を限定するものではない。
S303では、保持部203が、学習済みモデルに基づいて、決定された追尾対象を含む画像から追尾対象の特徴量を保持する。特徴量保持処理について、S303の詳細なフローチャートを図4に示す。保持部202は、画像取得部201により得られた画像と、追尾対象決定部202により得られた追尾対象の位置を示すBounding Box(以下BB)に基づいて、追尾対象を表現するテンプレート特徴量を生成し、保持する。
まず、S401において、保持部203は、追尾対象決定部202により決定された追尾対象の画像内における位置についての情報を取得する。ここで取得される追尾対象の位置についての情報を、以下Bounding Box(以下BB)と呼ぶ。なお、追尾対象の位置についての情報は、S302において、追尾対象が決定されたときに、ユーザによって追尾対象の中心位置を入力した情報や、学習モデルによって追尾対象の所定の位置(例えば重心)を検出した結果を用いる。
次に、S402において、保持部202は、画像における追尾対象の位置に基づいて、追尾対象を示す画像を所定の大きさに抽出したテンプレート画像を取得する。すなわち、S401により得られた領域の周辺を初期画像からテンプレート画像として切り出し、所定のサイズにリサイズする。所定のサイズは、学習済みモデルの入力画像の大きさに合わせてもよい。
その後、S403では、保持部202は、追尾対象を示すテンプレート画像を、入力された画像における所定の物体の位置を検出する学習済みモデルに入力することによって、追尾対象の特徴量を取得する。ここでは、S402においてリサイズされた画像をCNN(学習済みモデル)に入力する。CNNは追尾対象と非追尾対象を分別しやすい特徴量が得られるようあらかじめ学習されている。学習の方法は後述する。ここで、CNNは、畳み込み(Convolution)と、Rectified Linear Unit(以下ReLU)や、Max Poolingといった非線形変換から構成される。ここで説明するReLUや、Max Poolingは、あくまで一例を示すものである。ReLUのかわりに、Leaky ReLUや、Sigmoスコア関数等を用いてもよいし、Max PoolingのかわりにAverage Pooling等を用いてもよい。本実施形態はこれらを限定するものではない。その後S404において、保持部202は、S403で得られた追尾対象の特徴量を、追尾対象を示すテンプレート特徴量として保持する。以上の処理が追尾対象の設定フェーズの処理である。
次に、S304では、画像取得部201が、追尾処理を行うために、複数の時刻で撮像された画像を取得する。以降の処理においては、第1の画像で設定された追尾対象を、第1の画像と異なる時刻で撮像された第2の画像から検出する処理について説明する。また、第1の画像と第2の画像にはなるべく追尾対象が映るようにして撮像されたものとする。
S305においては、追尾対象の特徴量と、複数の画像から取得された物体の特徴量と、に基づいて、追尾対象と類似した候補物体を検出する。S305において、物体検出部204が実行する処理を説明するフローチャートを図5に示す。なお、S304以降の処理は、追尾対象を決定した画像より後に撮像された画像を対象にした処理であり、追尾対象を画像から検出する処理である。
まず、S501において、物体検出部204は、現在の画像(第2の画像)から、追尾対象を探索する領域を示す探索範囲画像(部分画像)を取得する。ここでは、前回の追尾対象または候補物体の検出位置に基づいて探索範囲画像を取得する。すなわち、第2の画像において、第1の画像(過去の画像)から検出した候補物体の近傍に対応する領域から、所定の大きさの部分画像を抽出する。物体の速度や画像の画角に応じて探索領域の大きさを変えてもよい。また、探索領域は探索画像全体としてもよいし、前回の追尾対象の位置周辺としてもよい。入力画像の全体ではなく一部の領域を探索範囲に設定することで、処理速度が向上し、追尾の対応付けの誤りを減らす効果がある。
その後、S502では、物体検出部204が、学習済みモデルに入力するための入力画像を探索範囲画像から抽出する。物体検出部204が、探索範囲画像から、探索範囲領域を切り出してリサイズする。探索範囲のサイズは、追尾対象のBBのサイズの定数倍などとして決定する。同じ大きさの画像から特徴量を得ることによってノイズの少ない特徴量を取得できる。決定された探索領域に基づいて、領域を切り出し、S402におけるリサイズの比率と同等となるようにリサイズする。
さらに、S503において、物体検出部204が、抽出した探索範囲画像を、入力された画像における所定の物体の位置を検出する学習済みモデル(CNN)に入力することによって、各探索範囲画像の特徴量を取得する。つまり、切り出された領域の画像をCNNに入力する。各探索範囲画像の特徴量は、各探索範囲画像に存在する物体の特徴量を示す。なお、S503におけるCNNは、S403におけるCNNと重みの一部または全部が同一であるとする。このCNNによって、例えば、ある探索範囲画像に人物を遮蔽する遮蔽物が含まれる場合は、遮蔽物を示す特徴量を取得できる。また、他の部分画像には人物は含まれず動物が含まれた場合は、その動物を示す特徴量が得られる。
さらに、S504では、物体検出部204が、追尾対象の特徴量と、S503で得られた現在の探索範囲画像に存在する物体の特徴量との相互相関を取得する。相互相関は、検出された物体同士の類似度を表す指標である。ここで、追尾対象と類似した物体(同じ種類の物体)を候補物体と呼ぶ。つまり、相互相関が所定の値より大きい物体が候補物体である。候補物体には追尾対象と非追尾対象のどちらか一方もしくは両方が含まれる。具体例としては、追尾対象が人物である場合、人物を示す特徴量がある探索範囲画像の相互相関は高くなる。
さらに、S505において、物体検出部204が、現在の画像における候補物体の位置を検出する。S503におけるCNNとS403におけるCNNの重みの一部または全部が同一であることにより、探索範囲内で候補物体が存在している確率が高い位置は相互相関の値が大きくなる。したがって、相互相関の値が閾値以上となる探索範囲画像から候補物体の位置を検出することが可能となる。すなわち、S504において得られた相互相関に基づいて、相互相関が所定の値より大きい位置を、候補物体の位置として検出する。相互相関が所定の値より小さい位置については、追尾対象が存在する可能性が低いとみなせる。ここではさらに、この候補物体の位置に基づいて、さらに候補物体を囲むようなBBを取得する。まず、BBの位置は相互相関で高い反応を示した探索範囲画像に基づいて決定する。
S305の処理結果の一例を図9に示す。マップ901は相互相関に基づいて得られたマップを示す。追尾対象は人物902であり、人物902の中心付近のセル904の相互相関値が高い値を示している。この相関値が閾値以上であれば、人物902はセル904に位置していると推定できる。一方、BBの幅・高さはCNNがあらかじめ推定できるように学習しておいてもよい(後述)。また、S302で得られる追尾対象のBBの幅・高さをそのまま用いてもよい。
S306では、追尾部205が、複数の画像のうち第1の画像において検出された候補物体と、第1の画像と異なる時刻に撮像された第2の画像における候補物体と、の対応関係を特定する。複数の時刻において検出された物体の対応関係を特定することによって、対応関係がある物体を追尾できる。また、追尾対象が検出された画像に基づいて追尾対象の特徴量と位置を更新していくことによって、より安定して追尾できる。追尾部205が実行する処理を説明するフローチャートを図7に示す。
まず、S701において、追尾部205があらかじめ記憶部206に蓄えられている過去の時刻で撮像された画像から検出された候補物体と、現在の時刻で撮像された画像から検出された候補物体との組み合わせ(対応関係の候補)を取得する。ここでは、過去の候補物体と、現在の候補物体のペアをすべての組み合わせが作れるように対応付ける。ここで、過去の画像から検出された候補物体には追尾対象/非追尾対象のラベルが割り振られている。なお、追尾対象が1つである場合は、過去の候補物体のうち追尾対象であると特定された物体について、現在の候補物体のそれぞれと対応付けしてもよい。
S702において、追尾部205が、取得された類似度が閾値以上である組み合わせ(対応関係)を特定する。過去の候補と現在の候補との類似度が高いことは、当該する過去の候補と当該する現在の候補同士が同一物体である可能性が高いことを示している。対応付けの方法にはいくつか存在する。例えば、類似度が高い候補同士から優先的に対応付けする方法や、ハンガリアンアルゴリズムを用いる方法等がある。ここでは対応付けの手法は限定しない。ここで、第1の画像における追尾対象以外の候補物体について、第2の画像における候補物体との類似度に基づいて、同一の物体を特定する。このように追尾対象の物体と類似するほかの物体についても追尾を行うことによって、追尾対象が他の物体と対応付けられることを抑制できる。そのため、安定して追尾を行うことが可能になる。このように適切に対応付けを行うことにより、過去の追尾対象と現在の追尾対象を同一物体であるとして認識できる。
例えば、過去の候補cと現在の候補cの類似度Lは下記のように計算される。ここで、BBは各候補BBの(中心座標値x、中心座標値y、幅、高さ)の4変数をまとめたベクトルであり、fは各候補の特徴を示したものである。特徴はCNNから得られた特徴マップの中から各候補が位置する特徴を抽出したものである。W、Wはそれぞれ経験的に得られる係数であり、W>0かつW>0である。すなわち、特徴量が近いほど類似度が高く、検出位置や検出領域の大きさが近いほど類似度が高くなる。
Figure 2022020353000002
次に、S703において、追尾部205が、対応付け結果に基づいて、追尾対象を特定する。S702で得られた対応付けの結果、過去の追尾対象と対応付けした現在の候補を追尾対象として特定することができる。追尾物体以外の候補物体は、追尾対象ではないことを示す情報を付与する。なお、過去の追尾対象の特徴量との類似度が所定の閾値より大きい現在の候補物体がない場合は、追尾対象が画角の外になった、あるいは他の物体に遮蔽された可能性がある。その場合は、追尾対象が特定されなかったことを通知してもよい。
最後に、S704において、記憶部206が、第2の画像における追尾対象の特徴量と、第2の画像における候補物体の特徴量と、を保持する。また、追尾対象が現在の画像から特定された場合は、追尾対象の特徴量を更新する。第1の画像における追尾対象の特徴量との類似度が所定の閾値より大きい候補物体が第2の画像から検出された場合、第2の画像から取得された特徴量を追尾対象の特徴量として保持する。追尾対象の特徴量との類似度が所定の閾値より大きい候補物体が第2の画像から検出されなかった場合、第1の画像から取得された特徴量を前記追尾対象の特徴量として保持する。なお、追尾対象が現在の画像から検出されない場合は、過去の画像における追尾対象の特徴量と位置を保持する。また、現在の候補物体に追尾対象/非追尾対象のラベルを付与した特徴量を記憶する。追尾対象およびその候補のBB(位置と大きさ)と特徴を更新する。追尾対象と類似した候補物体についてもその特徴量と判定結果を保持することで、より安定して追尾を行うことができる。
S307において、画像取得部201は、追尾処理を終了するか否かを判断する。追尾処理を続行する場合はS304に戻り、追尾処理を終了する場合は、終了に進む。終了判定には、例えば、ユーザの終了指示を取得した場合や、次のフレームの画像が取得できない場合に終了とする。次のフレームの画像が取得できる場合はS304に進む。以上が、追尾処理の実行ステップにおける処理である。次に、学習処理の説明をする。
<学習ステップ>
次に、画像における物体の位置を推定する学習済みモデル(具体的にはCNN)を学習するための方法を示す。なお、ここで用いる学習済みモデルは、物体の分類タスク(例えば、人物を検出し、動物は検出しない)はある程度学習済みであって、所定の物体について外見的特徴に基づいて個体を識別可能なように学習する例を考える。これによって、特定の物体の追尾を可能にする。
例えば、赤い服を着た人物Aと、黄色い服を着た人物Bがいたとする。単に人物を検出する学習済みモデルは、服の色というのは必ずしも必要な特徴ではないため、人物検出のタスクでは無視するように学習されていることがある。しかし、人物Aのみを検出(追尾)する場合に、人物Aと人物Bを分けるような特徴を学習する必要がある。この場合は服の色が重要な特徴になり、個人を識別するのに必要な特徴となることがある。本実施形態では、同じカテゴリの物体から、追尾対象物体の特徴量を他の同じカテゴリの物体と区別して認識できるように学習を行う。なお、学習時の情報処理装置2の機能構成例を図13に示す。情報処理装置2は、Ground Truth取得部1400、テンプレート画像取得部1401、探索範囲画像取得部1402、追尾対象推定部1403、損失計算部1404、パラメータ更新部1405、パラメータ記憶部1406、記憶部1407からなる。
記憶部1407には、複数の時刻で撮像された画像と、その画像のそれぞれに追尾対象の位置と大きさを示したGT情報と、を記憶する。ここでは、各画像に対して、ユーザが追尾対象の物体の中心位置(または領域を示すBB)を入力した情報をGT情報として記憶する。GT情報の生成方法はユーザによるGT付け以外の方法でもよい。例えば、他の学習済みモデルを用いて、追尾対象の物体の位置を検出した結果を用いてもよい。GT取得部1400、テンプレート画像取得部401、探索範囲画像取得部1402はそれぞれ記憶部1407に記憶された画像を取得する。
Ground Truth(以下GT)取得部1400は、GT情報を取得することによって、テンプレート画像における追尾対象の物体の正解位置と、探索範囲画像における追尾対象の正解位置とを取得する。テンプレート画像取得部1401において得られたテンプレート画像における追尾対象のBBと、探索範囲画像取得部1402において得られた探索範囲画像における追尾対象のBBを取得する。具体的には、図17のように、画像1704に対して、追尾対象物体となる物体1705には追尾対象物体であることを示す情報が付与されており、それ以外の領域については追尾対象物体ではないことを示す情報を付与されている。例えば、追尾対象物体1705の領域には1を、それ以外の領域には0という2値の実数でラベル付けされている。
テンプレート画像取得部1401は、追尾対象が存在する画像をテンプレート画像として取得する。なお、テンプレート画像には、同一のカテゴリの物体が複数含まれていてもよい。探索範囲画像取得部1402は、追尾対象を探索する対象となる画像を取得する。すなわち、追尾対象となる特定の物体の特徴量を取得できる画像である。例えば、テンプレート画像取得部1401は、一連のシーケンス映像の中から任意のフレームを選択し、探索派に画像取得部1402は、同シーケンス映像のうち、テンプレート画像取得部1401により選択されなかった別のフレームを選択する。
追尾対象推定部1403は、探索範囲画像における追尾対象の位置を推定する。テンプレート画像取得部1401により得られたテンプレート画像と、探索範囲画像取得部1402により得られた探索範囲画像と、に基づいて、探索範囲画像における追尾対象の位置を推定する。
損失計算部1404は、追尾対象推定部1403において得られた追尾結果と、GT取得部1404において得られた探索範囲画像における追尾対象の位置に基づいて、損失を計算する。教師データからの推定結果に近いほど損失が小さくなる。なお、GT取得部によって取得されたGT情報に基づいて、探索範囲画像における追尾対象の位置の正解を取得する。
パラメータ更新部1405は、損失計算部1404において得られた損失に基づいて、CNNのパラメータを更新する。ここでは、損失値が収束するようにパラメータを更新する。損失値の合計が収束した場合や、損失値が所定の値より小さくなった場合は、パラメータセットを更新し、学習を終了する。
パラメータ記憶部1406は、パラメータ更新部1405において更新されたCNNのパラメータを学習済みパラメータとして、記憶部206に記憶する。
図14を用いて、学習処理のフローチャートを説明する。まず、S1500では、GT取得部1400は、GT情報を取得する、GT情報に基づいて、テンプレート画像における追尾対象の物体の正解位置(追尾対象のBB)と、探索範囲画像における追尾対象の正解位置とを取得する。S1501では、テンプレート画像取得部1401が、テンプレート画像を取得する。例えば図15(a)のような画像を取得する。図15(a)の物体1601が追尾対象であり、部分画像1602はGT取得部1400において得られた追尾対象のBB,部分画像1603はテンプレートとして切り出す領域を示している。すなわち、ここでは、テンプレート画像取得部1401が、テンプレート画像として部分画像1603を取得する。
S1502では、テンプレート画像取得部1401が、テンプレート画像からテンプレートとなる領域を切り出して所定のサイズにリサイズする。切り出す領域のサイズは、追尾対象のBBに基づいて、BBのサイズの定数倍などとして決定する。
S1503では、追尾対象推定部1403が、S1502において生成されたテンプレート画像を学習モデル(CNN)に入力し、テンプレートのCNN特徴量を得る。
S1504では、探索範囲画像取得部1402が、探索範囲画像を取得する。探索範囲となる部分画像は、追尾対象物体の位置と大きさに基づいて、追尾対象が含まれるような部分画像として取得される。探索範囲となる画像の例を図15(b)に示す。図15(b)のうち、物体1604が追尾対象を、部分画像1605が追尾対象のBBを、部分画像1606が探索範囲領域を示している。探索範囲画像1606には、追尾対象となる物体と類似した物体が含まれる。
S1505では、探索範囲画像取得部1402が、探索範囲画像から、探索範囲領域を切り出してリサイズする。探索範囲のサイズは、追尾対象のBBのサイズの定数倍などと決定し、S1502において、テンプレートをリサイズした倍率に合わせてリサイズする(テンプレートリサイズ後の追尾対象のサイズと、探索範囲リサイズ後の追尾対象のサイズがおよそ同一となるようにリサイズする)。
S1506では、追尾対象推定部1403が、S1506において生成され探索範囲画像を学習モデル(CNN)に入力し、探索範囲のCNN特徴量を得る。
S1507では、追尾対象推定部1403が、探索範囲画像における追尾対象の位置を推定する。追尾対象推定部1403は、S1506において得られた追尾対象のCNN特徴と、S1506において得られた探索範囲のCNN特徴との類似度を示す相互相関を計算し、マップとして出力する。相互相関に基づいて、相互相関が閾値以上である位置を示すことによって追尾対象を推定する。推定結果を示したマップを図16(a)に示す。マップ1701が相互相関により得られたマップであり、領域1702および1703は相互相関値が高い箇所を示している。このように、相互相関をとることにより、追尾対象と類似した物体が存在する可能性が高い位置の相互相関値が高くなる。一方で、GT取得部1400により得られた正解となる追尾対象の位置は、図16(b)における1705である。つまり、1702は追尾対象の位置を示しているため、望ましい値を推定しているが、1703は追尾対象でないにも関わらず相互相関値が高くなっているため、望ましくない値を推定しているといえる。学習ステップにおいては、追尾対象の位置における相互相関値が高く、追尾対象以外の位置における相互相関値は低くなるように重みを更新することを目的とする。
S1508では、損失計算部1404が、推論された追尾対象の位置に関する損失と、追尾対象のサイズに関する損失を計算する。位置に関する損失は、追尾対象の位置の相互相関値が高い値を示すように学習を進めるための損失を計算する。Ground Truth(以下GT)取得部1400は、テンプレート画像取得部1401において得られたテンプレート画像における追尾対象のBBと、探索範囲画像取得部1402において得られた探索範囲画像における追尾対象のBBを取得する。
S1507の処理により得られたマップ1701をCinf、GTマップ1704をCgtとすると、損失関数は式(1-2)のように記述できる。式(1-2)は、マップCinとマップCgtの画素ごとの差分の2乗の平均であり、追尾対象を正しく推定できた場合は損失が小さくなり、非追尾対象を追尾対象であると推定した場合や、追尾対象を非追尾対象であると推定した場合は、損失が大きくなる。
Figure 2022020353000003
同様に、サイズに関する損失は、式(1-3)に従い計算する。
Figure 2022020353000004
LossとLossはそれぞれ推定された追尾対象の幅、高さに関する損失である。WgtおよびHgtは、追尾対象の位置に追尾対象の幅の値および高さの値がそれぞれ埋め込まれている。式(1-3)および式(1-4)により損失を計算することにより、Wn、Hinにおいても、追尾対象の位置に追尾対象の幅および高さが推論されるように学習が進む。すべての損失を統合すると、式(1-5)となる。
Loss=Loss+Loss+Loss 式(1-5)
ここでは、損失を、Mean Squared Error(以下MSE)の形で記述したが、損失はMSEに限らない。Smooth―L1などでもよい。損失の計算式を限定するものではない。また、位置に関する損失関数とサイズに関する損失関数は異なってもよい。
S1509では、パラメータ更新部1405(学習部)が、S1508において計算された損失に基づいて、CNNのパラメータが更新される。パラメータの更新は、Momentum SGDなどを用い、誤差逆伝播法(Back Propagation)に基づいて行われる。なお、1枚の画像に対する損失関数の出力について説明したが、実際の学習は、複数の様々な画像について推定したスコアについて、式(1―2)の損失値を計算する。複数の画像についての損失値が、何れも所定の閾値より小さくなるように学習モデルの層間の結合重み付け係数を更新する。
S1510では、パラメータ記憶部1406が、S1509により更新されたCNNのパラメータを記憶部206に保存する。推論ステップでは、S1510において記憶されたパラメータを用いて推論することにより、追尾対象を正しく追尾可能となる。
S1511では、パラメータ更新部1405が、学習を終了するかどうかを判定する。学習の終了判定は、式(1-2)で得られた損失の値が所定の閾値より小さくなった場合に終了と判定する。
<実施形態1の効果>
本実施形態は、追尾対象を追尾するとともに、追尾対象に類似した物体を同時に追尾することを特徴とする。追尾対象に類似した物体を同時に追尾することにより、類似対象の誤追尾が軽減されることを、図8を用いて説明する。801、802、803はそれぞれ時刻t=0、t=1、t=2において得られた画像を示している。画像内には人物804と人物805が映っており、このうち、追尾対象は人物804、類似物体は人物805である。
まず、追尾対象804のみを追尾する場合を考える。この場合、時刻t=0で正しく追尾されていた物体804は、時刻t=1において、物体810によって遮蔽される。遮蔽が発生すると、物体804の特徴量は遮蔽された分、物体らしさが損なわれた特徴量が検出される可能性が高い。物体810は物体らしさが高い特徴量が検出されるため、時刻t=1において追尾対象は物体810とみなされる可能性が高く、物体810を追尾対象として誤追尾しはじめる。
次に、追尾対象804だけでなく類似物体805も同時に追尾する場合を考える。時刻t=1における過去の追尾対象候補は、物体804と物体805の二つが存在する。一方t=1において新しく得られる追尾対象候補は、物体809には遮蔽があるため、物体808のみである。この時、過去の候補804および805それぞれと、物体808の類似度を比較すると、物体804と物体808の類似度よりも、物体805と物体808の類似度が高くなる。類似度が高くなるのは、各候補に紐づいたCNN特徴が物体同士を区別するように学習されていることや、BBの位置やサイズが緩やかに時間変化することに起因する。したがって、現在の候補808と紐づく過去の候補は804ではなく、805であることが分かる。ここで、最新の特徴量を、物体805に関しては物体808の特徴量に更新するが、t=1で検出されなかった物体804についてはt=0で得られた特徴量を保持する。次に、時刻t=2においても候補同士の類似度計算を行う。時刻t=2における過去の候補は、物体804と物体808である。一方t=2において新しく得られる候補は811と候補812の二つ存在する。このふたつの候補物体は遮蔽がないため望ましい特徴量を取得できる。類似度を計算すると、物体808と物体811、物体804と物体812の類似度がそれぞれ高くなり、808と812、806と811の類似度は低くなる。したがって、追尾対象である806は812と対応付けするため、追尾対象を正しく追尾できる。
<変形例1-1> オンラインMetric Learning
変形例1-1では、実施形態1における式(1-1)において、特徴量に対する重みWを時系列で得られた追尾対象および類似物体の特徴量を用いて逐次更新する。
例えば、
Figure 2022020353000005
ここで、ftargetは各時刻で得られた追尾対象の特徴量であり、fdistractоrは各時刻で得られた類似物体の特徴量である。
式(1-2)のようにして、追尾対象と類似物体の特徴を用いて重みを更新することにより、特徴次元のうち、追尾対象と類似物体をより区別しやすい特徴次元に対してより大きい重みを付与して類似度を計算することができる。したがって、追尾対象と類似物体の特徴が特徴空間上で近接していた場合にも追尾対象と類似物体を区別しやすくなる。
<変形例1-2> オフラインMetric Learning
変形例1-2では、実施形態1における式(1-1)において、特徴量同士の類似度を求める変換を、あらかじめMetric Learningにより計算する。特徴量を変換する関数をFとすると、式(1-1)は、式(1-7)のように表される。
Figure 2022020353000006
変換Fは、1層以上のNeuralNetworkを接続した構成であり、あらかじめ、triplet lоss等を用いて学習することができる。triplet lоssにより変換Fを学習することにより、過去と現在で同一物体であれば距離が近しく、異なる物体であれば距離が遠くなるような変換を学習することが可能となる。triplet lоssによる学習の方法は、“Wang,Learning Fine-grained Image Similarity with Deep Ranking,In:CVPR2014“が詳しい。
<実施形態2> 遮蔽判定
実施形態2では、実施形態1における図7のS306の追尾対象特定処理において、さらに遮蔽判定処理を行う。遮蔽判定を行うことによって、追尾対象が遮蔽された場合でも、他の類似物体に追尾をスイッチングすることを抑制する。実施形態1と差分がある処理について詳細に説明する。なお、ハードウェア構成は実施形態1と同様である。また、実施形態2における情報処理装置1’の機能構成例を図18に示す。実施形態1における図2と基本的には同様の構成で、新たに遮蔽判定を行う遮蔽判定部207が追加されている。同じ符号がついた機能構成は実施形態1と同様の処理を行うものとする。遮蔽判定部207は、画像から検出された候補物体の部分画像に基づいて、物体同士の遮蔽関係を判定する。追尾部205’は、さらに遮蔽判定部297の判定結果に基づいて、追尾対象を追尾する。
次に、本実施形態における情報処理装置1’が実行する処理について説明する。本実施形態のフローチャートは図3と図10(A)(B)に対応する。基本的な処理は実施形態1と同様であり、S306の処理のみが異なる。そのため、ここではS306の差異について以下で詳細に説明し、その他の処理の説明は省略する。なお、S305では、追尾対象の特徴量に基づいて、対象物体と類似した候補物体を検出する。このとき、追尾対象が他の物体によって遮蔽されている場合は、追尾対象を遮蔽している物体が追尾対象と類似した物体であれば候補物体として検出される。その場合、遮蔽判定処理によって追尾対象が遮蔽された類似物体の位置と対応付けられるが、遮蔽が解消したタイミングで元の追尾特徴を保持しているため再び追尾ができる。一方で、壁などの障害物によって追尾対象が遮蔽された場合は、S305では遮蔽された追尾対象は候補物体として検出されないことになる。その場合は、後段の遮蔽判定処理において、前回検出された遮蔽される直前の追尾対象と対応付けができる候補物体はないものと判断し、追尾対象の特徴量はS303で記憶する。その後、遮蔽が解消し再び検出可能になったタイミングで追尾を再開できる。
遮蔽判定処理を含む追尾対象特定処理S306を説明するフローチャートを図10(A)に示す。まず、S701において、追尾部205’があらかじめ記憶部206に蓄えられている過去の時刻の候補と、物体検出部204により得られた現在の時刻の候補同士の類似度を取得する。S701の処理は実施形態1のS701と同様に処理する。次に、S702において、追尾部205’が、過去の候補と現在の候補との類似度に基づいて対応付けを行う。このS702の処理についても実施形態1のS702の処理と同様である。
S1002では、遮蔽判定部207が、現在の処理対象の画像(第2の画像)における候補物体の位置に基づいて、候補物体が遮蔽されている遮蔽領域の有無を判定する。つまり、現在の画像について候補物体毎に遮蔽判定を行う。S1002の遮蔽判定処理について、図10(B)でさらに詳細に説明する。ここでは、特にS702において対応付け候補が見つからない候補(注目物体と呼ぶ)に対して遮蔽判定を行う。まず、S10021では、遮蔽判定部207が、S702において、過去に検出されたすべての候補物体について対応付けが成立したか否かを判定する。過去の画像(第1の画像)から検出されたすべての候補物体と、現在の画像から検出された候補物体との対応付けがすべて完了している場合は、S10025に進む。過去の画像から検出された候補物体のうち、現在の画像から検出された候補物体との類似度がいずれも閾値以下である過去の候補物体(注目物体)があれば、S10022に進む。つまり、S10022に進む場合は、遮蔽されている候補物体が存在する可能性がある。S10022において、遮蔽判定部207は、現在の候補物体(注目物体)について、当該候補BBと他候補BBとの重なり具合を示す情報を取得する。物体同士の重なり具合を示す指標として、ここではIntersection оf Union(以下、IoU)を計算する。具体的には、現在の画像から検出された候補物体の各部分画像(BB)について、物体Aの領域Aと物体Bの領域Bとすると、物体Aと物体BとのIoUは領域(A∩B)/(A∪B)と計算する。IoUは高いほど物体同士の重なり度合いが高いことを示している。IoUが閾値を超えた他候補を当該候補のオクルーダとして設定する。この時、当該候補物体Aの状態は「遮蔽」と判定される。次にS10024において、遮蔽判定部207、遮蔽と判定された候補の位置を、オクルーダの位置に基づいて更新する。例えば、式(2-1)のように更新すればよい。
=(1-α)p+αp 式(2-1)
ここで、pは当該候補の位置であり、pоはオクルーダの位置である。αは経験的に設定された値とする。
S703において、追尾部205は、遮蔽判定結果に基づいて、第1の画像の候補物体と第2の画像における候補物体との対応関係を特定する。すなわち、第2の画像における追尾対象物体の位置を特定する。S702において、前回追尾対象物体として特定された候補物体が現在の画像において特定されていた場合は、現在の画像における追尾対象の位置を特定する。S702において前回の追尾対象が現在の画像の候補物体から特定されなかった場合、S1002において遮蔽判定が行われる。現在の画像において追尾対象が遮蔽されていると判断された場合は、そのオクルーダを特定し、式(2-1)に基づいて追尾対象の位置を更新する。一方追尾対象の特徴量は更新しない。S704では、記憶部206が、追尾部205で特定された追尾対象の位置と特徴量を記憶する。以上の処理によって、遮蔽が発生した場合においても、追尾対象の特徴量を保持したまま追尾対象の位置を更新する場合があるので、遮蔽が解消した後に再び追尾できる。
<変形例2-1>
変形例2-1では、遮蔽判定をNeural Networkにより行う。Neural Networkにより遮蔽判定を行う例としては、“Zhou,Bi-box Regression fоr Pedestrian Detection and Occlusion,In:ECCV2018”があげられる。この例では、S1002において、追尾部205が、物体のBBを推定するとともに、物体領域のうち、非遮蔽領域(見えている領域)を同時に推定する。そして、物体領域のうち、遮蔽が発生している領域の割合があらかじめ定めた閾値を超えた場合に遮蔽と判断することが可能である。
<実施形態2の効果>
このような遮蔽判定およびオクルーダの位置による当該候補の位置更新によって当該候補の位置をオクルーダの位置に更新することによる効果を図11に示す。
図11において、各時刻t=0、1、2、3において得られた画像をそれぞれ画像1211、1212、1213、1214であるとする。また、追尾対象は1216である。時刻t=0において、追尾対象1216と類似物体1215の二つが存在し、二つとも追尾できている状態であるとする。時刻t=1においては、類似物体1217によって1216が隠れるため、時刻t=1における候補は類似物体1217のみとなる。このとき、1216と1217のIoUが閾値を超えて遮蔽であると判定すると、1216の位置は式(2-1)により1217の位置に合わせるように更新される。時刻t=2においても遮蔽が解消されていないため、1216の位置はオクルーダである1218の位置に合わせて更新される。時刻t=3では遮蔽が解消され、候補が1219、1220、1221の三つ存在する。このとき、正しい対応付け結果は、1218と1219、1216と1220である。しかし、もし遮蔽判定を行わず、1216の位置を1217および1218の位置に合わせて更新しない場合は、1216は時刻t=3における候補1221の周辺に存在することになる。したがって、1216は1220ではなく、新しく得られた候補1221と対応付けする可能性が高くなり、誤追尾の原因となる。一方、式(2-1)に従って、候補1216の位置を更新した場合は、1216の位置は1220の位置に近くなり、1216と1220を対応付けすることができる。したがって誤追尾を軽減することが可能となる。
<実施形態3> 単一物体追尾(オンライン学習による追尾手法との組み合わせ)
実施形態3では、オンライン学習による追尾手法に対して、複数候補を同時に追尾することにより類似した物体が存在している場合においてもそれぞれの物体を安定して追尾する。ハードウェア構成は実施形態1と同様である。また、本実施形態における情報処理装置3の機能構成例を図19に示す。実施形態1における図2と基本的には同様の構成で、新たにオンライン学習を行う学習部1902が追加されている。追尾部1901は、現在の画像を学習済みモデルに入力することによって、追尾対象の位置を特定する。学習部1902は、現在の画像で推定された追尾対象の位置に基づいて、物体の位置を推定する学習済みモデルの結合重み付けパラメータを更新する。ここで用いる学習済みモデルは、MDNet(“Nam,Learning Multi-Domain Convolutional Neural Networks fоr Visual Tracking,In:CVPR2016”)であるとする。MDNetでは、画像をCNN(学習済みモデル)に入力して物体を示す特徴量を得る。さらに、取得された特徴量をそれぞれFully Connection層(以下FC層)に入力して、入力された特徴量が追尾対象の特徴量か否かを判定する。学習は、FC層は追尾対象らしい物体ほど高い値を出力するようにオンラインで学習される。オンライン学習は、初期フレームおよびその後、数フレーム間隔でFC層を学習する。以下、実施形態1と同様の処理については説明を省略し、差分がある処理について詳細に説明する。
本実施形態における情報処理装置3が実行する処理を図20に示す。S301からS304の処理については実施形態1におけるS301からS304の処理と同様である。S304では、取得した画像から探索範囲を設定する。探索範囲画像は、過去の候補物体の位置やサイズに基づいて決定する。S305では、S304において得られた探索範囲画像を学習済みモデルに入力することによって、探索範囲画像から取得した各特徴量をFC層に入力し、得られた追尾対象らしさ(類似度)が閾値を超えた物体を、候補物体として取得する。学習済みモデルには上記で説明したMDNetを用いる。S2001では、追尾部1901が、候補物体の中から追尾対象の位置を特定する。S2002では、学習部1902が、追尾対象の判定結果に基づいて、学習済みモデルのパラメータを更新する。
このようなオンラン学習による追尾手法においても、実施形態1と同様に複数候補を同時に追尾することにより、誤追尾を軽減可能である。
<実施形態4> 複数物体追尾
実施形態4では、追尾対象物体が1つではなく、複数設定する場合について説明する。複数の類似物体を追尾する場合でも、過去に検出された候補物体を同時に追尾することによって、追尾対象を一度見失った場合でも安定して追尾できる。ハードウェア構成は実施形態1と同様である。本実施形態を実行する情報処理装置は、実施形態1の情報処理装置1と同様の機能構成を有するが、追尾対象決定部202と追尾部205の処理に差異がある。追尾対象決定部202は、複数の物体を追尾対象として決定する。実施形態1と同様の方法で追尾対象を決定する。ある画像に映っているすべての物体を追尾対象として取得してもよい。追尾部205は、複数の追尾対象について、検出された各物体を追尾する。具体的には、候補となる複数の物体のCNN特徴を保持し、時刻tと時刻t+1の候補物体の類似度も用いて対応付けを行う。
次に、本実施形態における情報処理装置1が実行する処理について説明する。本実施形態のフローチャートは図3に対応する。S301では、画像取得部201が、所定の物体を撮像した画像(初期画像)を取得する。S302では、追尾対象決定部202が、S301で取得された画像から追尾対象となる物体を複数決定する。S303では、保持部203が、学習済みモデルに基づいて、決定された追尾対象を含む画像から複数の追尾対象の特徴量を保持する。ここで、学習済みモデルには、Detect-Trackの手法を用いる。(“Feichtenhofer,Detect tо Track and Track tо Detect,In:ICCV 2017”。)Detect-Trackでは、連続した時系列のフレームごとにCNNを用いて物体検出を行う。次に、S304では、画像取得部201が、追尾処理を行うために、複数の時刻で撮像された画像を取得する。S305においては、物体検出部204が、学習済みモデルに基づいて、画像取得部201により得られた時間的に連続する画像から、候補物体の位置を検出する。まず、物体検出部204は、連続した時系列のフレームごとにCNN(学習済みモデル)を用いて候補物体を検出する。すなわち、時刻tにおけるCNN特徴と、時刻t+1におけるCNN特徴を取得する。次に、時刻tにおいて得られたCNN特徴と、時刻t+1において得られたCNN特徴同士の相互相関を計算することによって候補物体の位置を検出する。S306では、追尾部205が、複数の追尾対象を現在の画像(t+1)から特定する。ここでは、まず、追尾部205は、各物体に対してBBの変化分ΔBB(BB位置の変化とBBサイズの変化)を推定する。つまり、追尾部205は、BB(t+1)と、BB(t)+ΔBB(t)を比較することによりBBの変化分を推定する。ここで、BB位置の変化とBBサイズの変化が近しい物体同士が同一物体であると分かるため、各物体を対応付けすることができる。次に、追尾部205が、対応付けた時刻tと時刻t+1の候補物体のCNN特徴の距離を式(1-1)に基づいて計算し、類似度を算出する。類似度が所定の値より大きい対応関係があった場合、前の検出結果に対応づけて追尾する。なお、相対的に類似度が高い順に対応関係を確定させていってもよい。類似度が所定の値より大きい対応関係がなかった場合は、前の検出結果には対応付けずに、現在の検出結果(特徴量と位置)を保持する。
ここで、仮に時刻tにおいて検出された物体の数が2であり、時刻t+1において検出された物体の数が1であった場合、時刻tにおいて得られた2つの物体のうち、時刻t+1の物体と同一であるのは類似度の高い物体であると考えられる。類似度の高い物体同士を対応付けすることにより、誤追尾を軽減することができる。しかしながら、隠れ等が生じて、時刻tにおいて検出されていた物体が、時刻t+1において検出されなくなる場合が発生しうる。この時、追尾対象物体のほかに少なくとも1つ以上の候補物体が時刻t+1に存在していた場合は、位置が近い候補物体への誤追尾が始まる可能性がある。そこで、S306では、候補物体となる複数の物体のCNN特徴を保持し、類似度計算のときに保持された候補物体の特徴量との類似度を算出してもよい。追尾対象物体が遮蔽されていた場合は、対応関係を特定することができないが、遮蔽が解消した場合に、追尾を再開できる。
本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、データ通信用のネットワーク又は各種記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。また、そのプログラムをコンピュータが読み取り可能な記録媒体に記録して提供してもよい。
1 情報処理装置
201 画像取得部
202 追尾対象決定部
203 生成部
204 物体検出部
205 追尾部
206 記憶部

Claims (19)

  1. 複数の時刻において撮像された画像から特定の物体を追尾する情報処理装置であって、
    入力された画像における所定の物体の位置を検出する学習済みモデルに基づいて、追尾対象の特徴量を保持する保持手段と、
    前記学習済みモデルに基づいて、複数の画像における物体の特徴量を取得する取得手段と、
    前記追尾対象の特徴量と、前記複数の画像から取得された前記物体の特徴量と、に基づいて、前記追尾対象と類似した候補物体を検出する検出手段と、
    前記複数の画像のうち第1の画像において検出された前記候補物体と、前記第1の画像と異なる時刻に撮像された第2の画像における前記候補物体と、の対応関係を特定する特定手段と、
    を有することを特徴とする情報処理装置。
  2. 前記特定手段は、前記第1の画像において検出された前記候補物体と前記第2の画像において検出された前記候補物体と、の対応関係に基づいて、前記第2の画像における追尾対象を特定することを特徴とする請求項1に記載の情報処理装置。
  3. 前記保持手段は、前記第2の画像における前記追尾対象の特徴量と、前記第2の画像における候補物体の特徴量と、を保持することを特徴とする請求項2に記載の情報処理装置。
  4. 前記特定された対応関係に基づいて、前記保持手段によって保持された前記追尾対象の特徴量を更新する更新手段を更に有することを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。
  5. 前記更新手段は、前記保持手段によって保持される前記追尾対象の特徴量を、前記第1の画像における前記追尾対象の特徴量との類似度が所定の閾値より大きい前記候補物体が前記第2の画像から検出された場合、前記第2の画像から取得された特徴量を前記追尾対象の特徴量として更新し、
    前記追尾対象の特徴量との類似度が所定の閾値より大きい前記候補物体が前記第2の画像から検出されなかった場合、前記第1の画像から取得された特徴量を前記追尾対象の特徴量として更新することを特徴とする請求項4に記載の情報処理装置。
  6. 前記検出手段は、前記複数の画像における前記候補物体の位置を検出し、
    前記更新手段は、前記第1の画像における前記追尾対象の特徴量との類似度が所定の閾値より大きい前記候補物体が前記第2の画像から検出された場合、前記第2の画像における前記追尾対象の位置を更新し、前記追尾対象の特徴量との類似度が所定の閾値より大きい前記候補物体が前記第2の画像から検出されなかった場合、前記追尾対象の位置を更新しないことを特徴とする請求項4または5に記載の情報処理装置。
  7. 前記特定手段は、複数の画像における前記追尾対象以外の前記候補物体の対応関係を特定することを特徴とする請求項1乃至6のいずれか1項に記載の情報処理装置。
  8. 前記保持手段は、ユーザによって指定された物体の特徴量を前記追尾対象の特徴量として保持することを特徴とする請求項1乃至7のいずれか1項に記載の情報処理装置。
  9. 前記第1の画像は、前記第2の画像より前に撮像された画像であって、
    前記第1の画像から検出された前記候補物体の位置に基づいて、前記第2の画像から前記候補物体を検出するための部分画像を抽出する抽出手段をさらに有し、
    前記取得手段は、前記抽出手段によって抽出された前記第2の画像の部分画像に基づいて、前記第2の画像から前記物体の特徴量を取得することを特徴とする請求項1乃至8のいずれか1項に記載の情報処理装置。
  10. 前記抽出手段は、前記第2の画像において、前記第1の画像から検出した前記候補物体の近傍に対応する領域から、所定の大きさの部分画像を抽出することを特徴とする請求項9に記載の情報処理装置。
  11. 画像における前記追尾対象の位置を示す教師データに基づいて、前記学習済みモデルのパラメータを更新する学習手段をさらに有することを特徴とする請求項1乃至10の何れか1項に記載の情報処理装置。
  12. 前記画像における追尾対象の位置を示す教師データに基づいて、前記画像について前記追尾対象と類似した物体を推定した位置に対しての損失を取得する算出手段をさらに有し、
    前記学習手段は、前記算出手段によって取得された損失に基づいて、前記学習済みモデルのパラメータを更新することを特徴とする請求項11に記載の情報処理装置。
  13. 前記第1の画像は、前記第2の画像より前に撮像された画像であって、
    前記第2の画像における前記候補物体の位置に基づいて、前記候補物体が遮蔽されている遮蔽領域の有無を判定する判定手段をさらに有し、
    前記特定手段は、前記判定手段によって判定された結果に基づいて、前記第1の画像の前記候補物体と前記第2の画像における前記候補物体との対応関係を特定することを特徴とする請求項1乃至12のいずれか1項に記載の情報処理装置。
  14. 前記特定手段は、前記判定手段によって、前記第2の画像における前記追尾対象が遮蔽されていることを判定した場合、前記第2の画像における前記追尾対象を遮蔽している物体を追尾対象として特定することを特徴とする請求項1乃至13のいずれか1項に記載の情報処理装置。
  15. 前記判定手段は、前記第1の画像における前記候補物体のうち、前記第2の画像における前記候補物体との類似度が所定の閾値より小さい物体について、前記遮蔽領域の有無を判定することを特徴とする請求項13または14に記載の情報処理装置。
  16. 前記判定手段は、前記第1の画像における前記候補物体のうち、前記第2の画像における前記候補物体との類似度が所定の閾値より小さい注目物体について、前記第2の画像における前記候補物体の領域に基づいて該注目物体の領域との重なり具合を判定し、前記重なり具合が所定の閾値より大きい場合は、前記注目物体は遮蔽されていることを判定することを特徴とする請求項15に記載の情報処理装置。
  17. 前記判定手段は、前記注目物体が遮蔽されている場合、前記注目物体を遮蔽している前記候補物体をオクルーダとして判定し、
    前記特定手段は、前記注目物体の位置として前記オクルーダの位置を特定することを特徴とする請求項16に記載の情報処理装置。
  18. コンピュータを、請求項1乃至17のいずれか1項に記載の情報処理装置が有する各手段として機能させるためのプログラム。
  19. 複数の時刻において撮像された画像から特定の物体を追尾する情報処理方法であって、
    入力された画像における所定の物体の位置を検出する学習済みモデルに基づいて、追尾対象の特徴量を保持する保持工程と、
    前記学習済みモデルに基づいて、複数の画像における物体の特徴量を取得する取得工程と、
    前記追尾対象の特徴量と、前記複数の画像から取得された前記物体の特徴量と、に基づいて、前記追尾対象と類似した候補物体を検出する検出工程と、
    前記複数の画像のうち第1の画像において検出された前記候補物体と、前記第1の画像と異なる時刻に撮像された第2の画像における前記候補物体と、の対応関係を特定する特定工程と、
    を有することを特徴とする情報処理方法。
JP2020123796A 2020-07-20 2020-07-20 情報処理装置、情報処理方法及びプログラム Pending JP2022020353A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2020123796A JP2022020353A (ja) 2020-07-20 2020-07-20 情報処理装置、情報処理方法及びプログラム
CN202180060244.7A CN116157831A (zh) 2020-07-20 2021-07-01 信息处理设备、信息处理方法和程序
PCT/JP2021/024898 WO2022019076A1 (ja) 2020-07-20 2021-07-01 情報処理装置、情報処理方法及びプログラム
EP21847050.8A EP4184431A1 (en) 2020-07-20 2021-07-01 Information processing device, information processing method, and program
US18/155,349 US20230154016A1 (en) 2020-07-20 2023-01-17 Information processing apparatus, information processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020123796A JP2022020353A (ja) 2020-07-20 2020-07-20 情報処理装置、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2022020353A true JP2022020353A (ja) 2022-02-01

Family

ID=79729698

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020123796A Pending JP2022020353A (ja) 2020-07-20 2020-07-20 情報処理装置、情報処理方法及びプログラム

Country Status (5)

Country Link
US (1) US20230154016A1 (ja)
EP (1) EP4184431A1 (ja)
JP (1) JP2022020353A (ja)
CN (1) CN116157831A (ja)
WO (1) WO2022019076A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220180633A1 (en) * 2020-12-04 2022-06-09 Samsung Electronics Co., Ltd. Video object detection and tracking method and apparatus
CN117809121A (zh) * 2024-02-27 2024-04-02 阿里巴巴达摩院(杭州)科技有限公司 目标对象识别方法、对象识别模型训练方法、目标对象处理方法以及信息处理方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63144763A (ja) 1986-12-08 1988-06-16 Toko Inc スイツチング電源装置
JP2011059898A (ja) * 2009-09-08 2011-03-24 Fujifilm Corp 画像解析装置、画像解析方法およびプログラム
JP2013219531A (ja) 2012-04-09 2013-10-24 Olympus Imaging Corp 画像処理装置及び画像処理方法
JP6532317B2 (ja) * 2015-06-19 2019-06-19 キヤノン株式会社 物体追尾装置、物体追尾方法及びプログラム
JP2017041022A (ja) * 2015-08-18 2017-02-23 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
WO2017043258A1 (ja) * 2015-09-09 2017-03-16 シャープ株式会社 計算装置および計算装置の制御方法
JP2019096006A (ja) * 2017-11-21 2019-06-20 キヤノン株式会社 情報処理装置、情報処理方法
JP2020123796A (ja) 2019-01-30 2020-08-13 キヤノン株式会社 画像読取装置、画像読取装置の制御方法、及びプログラム

Also Published As

Publication number Publication date
CN116157831A (zh) 2023-05-23
US20230154016A1 (en) 2023-05-18
WO2022019076A1 (ja) 2022-01-27
EP4184431A1 (en) 2023-05-24

Similar Documents

Publication Publication Date Title
US10672131B2 (en) Control method, non-transitory computer-readable storage medium, and control apparatus
CN111627045B (zh) 单镜头下的多行人在线跟踪方法、装置、设备及存储介质
CN109670474B (zh) 一种基于视频的人体姿态估计方法、装置及设备
JP6972756B2 (ja) 制御プログラム、制御方法、及び情報処理装置
JP6631179B2 (ja) 前景画像分割方法及び装置、プログラム、並びに記録媒体
CN108027972B (zh) 用于对象跟踪的系统和方法
WO2021139484A1 (zh) 目标跟踪方法、装置、电子设备及存储介质
US9141196B2 (en) Robust and efficient learning object tracker
KR20180105876A (ko) 색상과 형태를 동시에 고려한 실시간 영상 추적 방법 및 이를 위한 장치
WO2022019076A1 (ja) 情報処理装置、情報処理方法及びプログラム
WO2019031083A1 (en) METHOD AND SYSTEM FOR ACTION DETECTION
WO2023082882A1 (zh) 一种基于姿态估计的行人摔倒动作识别方法及设备
JP6406251B2 (ja) 物体追跡装置、物体追跡方法および物体追跡プログラム
CN110986969B (zh) 地图融合方法及装置、设备、存储介质
US11948340B2 (en) Detecting objects in video frames using similarity detectors
JP7093427B2 (ja) オブジェクト追跡方法および装置、電子設備並びに記憶媒体
JP2019191981A (ja) 行動認識装置、モデル構築装置及びプログラム
EP2899706B1 (en) Method and system for analyzing human behavior in an intelligent surveillance system
US20230120093A1 (en) Object tracking device, object tracking method, and recording medium
CN111429485A (zh) 基于自适应正则化和高信度更新的跨模态滤波跟踪方法
US20220300774A1 (en) Methods, apparatuses, devices and storage media for detecting correlated objects involved in image
CN103065302B (zh) 一种基于离群数据挖掘的图像显著性检测方法
US20230131717A1 (en) Search processing device, search processing method, and computer program product
JP2011232845A (ja) 特徴点抽出装置および方法
JP6570905B2 (ja) グラフ表示装置、グラフ表示プログラム及びグラフ表示プログラムが記憶されたコンピュータ読取可能な記憶媒体

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20200909

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230614

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20231213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240312