JP6614611B2 - 画像間類似度を考慮して物体を追跡する装置、プログラム及び方法 - Google Patents

画像間類似度を考慮して物体を追跡する装置、プログラム及び方法 Download PDF

Info

Publication number
JP6614611B2
JP6614611B2 JP2016038030A JP2016038030A JP6614611B2 JP 6614611 B2 JP6614611 B2 JP 6614611B2 JP 2016038030 A JP2016038030 A JP 2016038030A JP 2016038030 A JP2016038030 A JP 2016038030A JP 6614611 B2 JP6614611 B2 JP 6614611B2
Authority
JP
Japan
Prior art keywords
image
similarity
tracking
candidate
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016038030A
Other languages
English (en)
Other versions
JP2017156886A (ja
Inventor
有希 永井
智史 上野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2016038030A priority Critical patent/JP6614611B2/ja
Publication of JP2017156886A publication Critical patent/JP2017156886A/ja
Application granted granted Critical
Publication of JP6614611B2 publication Critical patent/JP6614611B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、物体を撮影可能なカメラから取得される時系列画像群を解析して当該物体を追跡する物体追跡技術に関する。
監視やマーケティング等の目的をもって、カメラで撮影され生成された時系列の画像データを解析し、移動する物体の実空間での位置を追跡する技術が開発されている。追跡する物体としては、人物や乗り物等、撮影可能な様々なものが対象となる。この物体追跡技術では、対象を間違えることなく正確に追跡するために、今日まで種々の手法が考案されてきた。
例えば、特許文献1には、対象物体をリアルタイムで追跡することができ、画像フレーム内に新たな被追跡物体が出現しても、動画像による追跡をリアルタイムで続行可能にする技術が開示されている。この技術では、フレーム間で対応のつく被追跡物体の次フレームでの位置は、被追跡物体移動位置推定手段で推定され、一方、対応の付かない被追跡物体の位置は、現フレームの被追跡物体の明るさの分布と、先フレームの被追跡物体の明るさの分布とから推定される。
また、特許文献2には、追跡対象物体を複数のパーツとして捉え、MHT(Multiple Hypotheses Tracking,多重仮説追跡)アルゴリズムを利用して、複数のパーツ仮説をキープし、曖昧さを保ったままで追跡を行うべく、各パーツについて、複数のパーツ仮説の各々をノードとする軌跡木(部分仮説木)を時間的に成長させる技術が開示されている。
さらに、特許文献3には、時系列の画像データにおいて複数のフレームに含まれる複数の移動物体を検出し、同一の移動物体同士をフレーム間で対応付けることによって、移動物体の追跡を行う技術が開示されている。この技術では、現在の時刻の検出結果と次の時刻の検出結果とをつなげるパスを推定していくことで物体を追跡する。具体的には、両検出結果の対応がつく確率、対応がつかない確率、消滅する確率、検出できなかった物体が再び出現する確率を算出し、全時刻における組み合わせのパスとその確率とから、最適となるパスを決定している。
上述した特許文献2及び特許文献3に記載されたような技術は、基本的に、全時刻分のデータを全て使用するオフライン処理によって最適なパス、すなわち追跡結果を算出している。これに対し、全シーケンスを複数のサブシーケンスに分割し、サブシーケンスの組み合わせのみから最適パスを算出し、これらのサブシーケンスの結果をつなぐことによって全体の追跡結果を生成するミニバッチ処理を実施することによって、逐次的な追跡結果を生成することも可能となる。
さらに、最近では、深層学習(Deep Learning)を用いた物体追跡技術が注目されている。この深層学習によるアプローチでは、従来のように人為的に取り決められた特徴量を抽出することはせず、大規模なデータセットから多層ニューラルネットワークによる学習を行うことによって特徴量を自動的に抽出する。
例えば、非特許文献1では、大規模なデータセットを、画像のカテゴリを識別する多層ネットワークに予め学習させておき、この事前学習させた多層ネットワークの各層の反応から相関反応マップを生成・更新する技術が開示されている。この技術は、言い換えると、画像のカテゴリを識別する特徴量抽出器に対し事前に学習を行わせ、次いで、互いに異なる層から抽出された特徴量を用いて相関反応マップをオンライン学習させるものである。物体追跡のある時刻において、前時刻まで学習させた相関反応マップにおける反応が最も高かった画像領域を候補領域から選択することで、その時刻での物体位置が決定され、さらに、この選択された画像領域を用いて相関反応マップが更新される。
また、非特許文献2に記載された技術も、非特許文献1に記載の技術と同様、画像のカテゴリを識別する多層ネットワークに対し、大規模なデータセットを用いて事前に学習を行わせるものである。この技術では、fine-tuningと呼ばれる手法に従って、ドメイン(例えば個々のビデオシーケンス)毎に、多層ネットワークの最終層については異なるものを使用し、それ以外のネットワーク層部分は、全ドメインで共有のものを使用する。また、この最終層のみが毎回の実行時にオンラインで更新される。
特開平02−196382号公報 特開2014−191393号公報 特開2011−170711号公報
Chao Ma, Jia-Bin Huang, Xiaokang Yang, and Ming-Hsuan Yang,"Hierarchical Convolutional Features for Visual Tracking",International Conference on Computer Vision (ICCV), 2015年,3074〜3082頁 Hyeonseob Nam and Bohyung Han,"Learning Multi-Domain Convolutional Neural Networks for Visual Tracking",Cornell University Library,Subjects: Computer Vision and Pattern Recognition (cs.CV),Cite as: arXiv:1510.07945,2015年
しかしながら、以上に述べたような従来の物体追跡技術では、依然、正確な物体の追跡に失敗する事態の生じることが問題となっている。
例えば、特許文献1〜3に記載された技術では、人間によって設定された特徴量を用いて物体追跡を行う。しかしながら、このように人為的に取り決められた特徴量に依存して追跡を行うアプローチでは、実際の追跡時に発生する問題のうち対処可能である範囲がどうしても狭くなる。従って、膨大な問題が複雑に絡みあう現実の映像(時系列画像群)では、依然、正確に物体を追跡することは困難となっている。
一方、非特許文献1及び2に記載された技術のような、深層学習を用いた物体追跡技術では、正解データを包含する大規模データセットから、自動的に特徴量を抽出している。ここで、具体的には、画像に映っている対象のカテゴリ、例えばネコ、犬や、人間といった種別を分類する画像分類用の多層ネットワークに、大規模データセットを予め学習させておき、この多層ネットワークから自動的に特徴量を抽出している。
しかしながら、このような従来技術では、物体追跡時に対象物体の見かけがオンラインで学習されていくので、ドリフティングと呼ばれる現象の生じてしまうことが問題となる。ここで、ドリフティングとは、他の物体との交差等によって誤って別の物体の画像領域を正解領域であると判定し、その画像領域を正解として学習してしまう結果、誤った物体を追跡対象物体として追い続けてしまうという現象である。このドリフティングは、オンライン学習を行う物体追跡技術においてよく見られる問題となっている。
そこで、本発明は、より正確に対象物体を識別し、より確実にその位置を追うことができる装置、プログラム及び方法を提供することを目的とする。
本発明によれば、追跡対象の物体を撮影可能な1つ以上のカメラから取得される時系列の画像群を用いて当該物体を追跡可能な装置であって、
1つの時点の前の時点での画像に係る情報に基づいて、当該1つの時点での画像における複数の画像領域を、当該物体に係る複数の画像領域候補として抽出する候補領域抽出手段と、
当該物体に係る画像領域を学習した識別器を用い、抽出された各画像領域候補に対し、当該物体に係る画像領域であるか否かについての信頼度を決定する追跡対象識別手段と、
上記の識別器とは別の類似度算出器を用い、抽出された画像領域候補と、当該1つの時点以前の時点で正解とされた画像領域との類似度を決定する画像間類似度決定手段と、
抽出された複数の画像領域候補から、当該画像領域候補について決定された信頼度及び類似度に基づいて、当該1つの時点で正解とされる当該物体に係る画像領域を決定する画像領域決定手段と
を有する物体追跡装置が提供される。
また、本発明による物体追跡装置における画像間類似度決定手段は、類似度算出対象の画像領域候補を、畳み込み層(convolution layer)を含むニューラルネットワークに入力し、該ニューラルネットワークから抽出された当該画像領域候補に係る特徴量を類似度算出器に入力して当該類似度を決定することも好ましい。また、損失関数であるコントラスティブ・ロス(contrastive loss)を用いた処理手段を含む類似度算出器を用いて当該特徴量の比較を行い、当該類似度を決定することも好ましい。さらに、画像間類似度決定手段は、当該ニューラルネットワークと当該コントラスティブ・ロスを用いた処理手段とを含む類似度算出器に、所定の大規模画像データセットを予め学習させることも好ましい。
また、追跡対象識別手段は、信頼度決定対象の画像領域候補を、畳み込み層を含むニューラルネットワークに入力し、該ニューラルネットワークから抽出された当該画像領域候補に係る特徴量を識別器に入力して、当該信頼度を決定することも好ましい。
さらに、本発明による物体追跡装置における画像間類似度決定手段は、当該画像領域候補と、当該1つの時点以前の複数の時点のそれぞれで正解とされた複数の画像領域との間の複数の類似度を算出し、当該複数の類似度に基づいて当該類似度を決定することも好ましい。
また、本発明による物体追跡装置における追跡対象識別手段は、決定された類似度及び/又は信頼度が所定の条件を満たさない場合、決定した当該物体に係る画像領域によって学習を行わないことも好ましい。
本発明によれば、また、追跡対象の物体を撮影可能な1つ以上のカメラから取得される時系列の画像群を用いて当該物体を追跡可能な装置に搭載されたコンピュータを機能させるプログラムであって、
1つの時点の前の時点での画像に係る情報に基づいて、当該1つの時点での画像における複数の画像領域を、当該物体に係る複数の画像領域候補として抽出する候補領域抽出手段と、
当該物体に係る画像領域を学習した識別器を用い、抽出された各画像領域候補に対し、当該物体に係る画像領域であるか否かについての信頼度を決定する追跡対象識別手段と、
上記の識別器とは別の類似度算出器を用い、抽出された画像領域候補と、当該1つの時点以前の時点で正解とされた画像領域との類似度を決定する画像間類似度決定手段と、
抽出された複数の画像領域候補から、当該画像領域候補について決定された信頼度及び類似度に基づいて、当該1つの時点で正解とされる当該物体に係る画像領域を決定する画像領域決定手段と
としてコンピュータを機能させる物体追跡プログラムが提供される。
本発明によれば、さらに、追跡対象の物体を撮影可能な1つ以上のカメラから取得される時系列の画像群を用いて当該物体を追跡する方法であって、
1つの時点の前の時点での画像に係る情報に基づいて、当該1つの時点での画像における複数の画像領域を、当該物体に係る複数の画像領域候補として抽出するステップと、
当該物体に係る画像領域を学習した識別器を用い、抽出された各画像領域候補に対し、当該物体に係る画像領域であるか否かについての信頼度を決定するステップと、
上記の識別器とは別の類似度算出器を用い、抽出された画像領域候補と、当該1つの時点以前の時点で正解とされた画像領域との類似度を決定するステップと、
抽出された複数の画像領域候補から、当該画像領域候補について決定された信頼度及び類似度に基づいて、当該1つの時点で正解とされる当該物体に係る画像領域を決定するステップと
を有する物体追跡方法が提供される。
本発明の物体追跡装置、プログラム及び方法によれば、より正確に対象物体を識別し、より確実にその位置を追うことが可能となる。
本発明による物体追跡装置を含む物体追跡システムの一実施形態を示す模式図である。 本発明による物体追跡装置の一実施形態における処理の流れを概略的に示すフローチャートである。 本発明による物体追跡装置の一実施形態における機能構成を示す機能ブロック図である。 候補領域抽出部における画像領域候補の設定処理の一実施形態を説明するための模式図である。 類似度算出器で使用されるニューラルネットワークの事前学習を説明するための模式図である。 画像間類似度決定部における類似度決定処理の一実施形態を説明するための模式図である。 追跡対象識別部における追跡対象識別処理の一実施形態を説明するための模式図である。
以下、本発明の実施形態について、図面を用いて詳細に説明する。
[物体追跡システム]
図1は、本発明による物体追跡装置を含む物体追跡システムの一実施形態を示す模式図である。
図1に示した、本実施形態の物体追跡システムは、
(a)追跡対象の物体を撮影可能であり、撮影した画像の情報を、通信ネットワークを介して時系列で送信可能な1つ又は複数のカメラ2と、
(b)カメラ2から通信ネットワークを介して取得される時系列の画像群を用い、当該物体の位置情報を予測して当該物体を追跡可能な物体追跡装置1と
を備えている。
ここで、追跡対象となる物体には、人物、動物、乗り物や、その他移動可能な物理対象等、撮影可能であれば様々なものが該当する。また、撮影される場所も、特に限定されるものではなく、例えば、追跡対象となる人物として、観客、通勤者、買い物客、労働者、歩行者や、ランナー等が映り得る屋外、さらには会社、学校、家庭や、店舗の内部といった屋内とすることもできる。特に、追跡対象となる物体(人物)が複数又は多数であって、同行したり互いにすれ違ったり、さらには撮影範囲の内外に移動したりし得る環境であってもよい。
また、画像情報の伝送路である通信ネットワークは、例えばWi−Fi(登録商標)等の無線LAN(Local Area Network)とすることができる。または、LTE(Long Term Evolution)、WiMAX(Worldwide Interoperability for Microwave Access)又は3G(3rd Generation)等の無線系アクセスネットワークを介し、インターネットを経由してカメラ2と物体追跡装置1とを通信接続させるものであってもよい。
さらに、光ファイバ網若しくはADSL(Asymmetric Digital Subscriber Line)等の固定系アクセスネットワークを介しインターネットを経由して、又はプライベートネットワークを介してカメラ2と物体追跡装置1とが通信接続されてもよい。また、変更態様として、カメラ2と物体追跡装置1とは直接有線で接続されてもよい。さらに、複数のカメラ2から出力される画像情報を取りまとめて物体追跡装置1に送信可能な(図示していない)カメラ制御装置が設けられていてもよい。
同じく図1に示すように、物体追跡装置1は、
(A)1つの時点の前の時点での画像に係る情報に基づいて、この1つの時点での画像における1つ若しくは複数の「画像領域」を、追跡対象の物体に係る画像領域として識別される度合いで評価する、又はこの物体に係る画像領域候補として選択する追跡対象識別部114と、
(B)入力された「画像領域」と、この1つの時点以前の時点で正解とされた「画像領域」との「類似度」を決定する画像間類似度決定部113と、
(C)評価又は選択された「画像領域」から、少なくとも当該「画像領域」について決定された「類似度」に基づいて、この1つの時点で正解とされる追跡対象物体に係る「画像領域」を決定する画像領域決定部115と
を有している。
このように、物体追跡装置1は、追跡対象物体に係る「画像領域」を、過去に正解とされた画像(領域)に係る情報(類似度、画像間の距離)を考慮して決定している。従って、例えば追跡対象物体における刻々の見かけのみに依存して当該物体を識別する手法と比較すると、正解との実績のある過去の判断結果と照らし合わせた分だけ、対象をより確実に捉えることができる。また、それ故に、IDスイッチングを含むドリフティングのような誤った現象の発生を十分に抑制することも可能となる。このように、物体追跡装置1によれば、より正確に追跡対象物体を識別し、より確実にその位置を追うことができるのである。
ここで、図1に示すように、追跡対象物体に係る「画像領域」は、画像間類似度決定部113で決定された「類似度」のみならず、追跡対象識別部114で決定された「信頼度」にも基づいて決定されることも好ましい。この場合、追跡対象識別部114は、追跡対象物体に係る「画像領域」を学習し、ある画像領域が当該物体に係る画像領域であるか否かについての「信頼度」を決定し出力する。その結果、さらに正確な追跡対象物体の識別・追跡が可能となる。
ちなみに、具体的な「画像領域」決定手法として、上記(A)で評価又は選択された「画像領域」に、「類似度」と「信頼度」とを総合して算出されるスコアを付与し、付与されたスコアに基づいて、追跡対象物体に係る「画像領域」を決定してもよい。この場合、物体追跡装置1は、画像間類似度決定部113の有する(事前学習された)類似度算出器と、追跡対象識別部114の有するターゲット識別器とを利用して、未知の画像中に追跡対象物体が写っているとされる領域を推定していくことで物体追跡を実施している、と捉えることができる。
また、画像間類似度決定部113は、類似度算出対象の「画像領域」を、畳み込み層(convolution layer)を含むニューラルネットワークに入力し、このニューラルネットワークから抽出された「画像領域」に係る特徴量を比較して「類似度」を決定することも好ましい。また、この場合、後に詳細に説明するが、損失関数であるコントラスティブ・ロス(contrastive loss)を用いてこの特徴量の比較を行うことが好適である。このcontrastive lossを用いることによって、より精度の高い「類似度」を決定することができ、結果的に、より正確な追跡対象物体の識別・追跡を実施することが可能となる。
なお、装置1で取り扱われる時系列画像群は、本実施形態のようなカメラ撮影によって生成された画像データに限定されるものではない。追跡対象の実際の位置や見かけに関係するデータであれば、様々なものが該当する。例えば、デプスカメラによって生成される(対象の各画素の)デプス値情報を、画像データとして利用することも可能である。
ちなみに、本実施形態の物体追跡装置1では、追跡対象物体は、床又は地面での接地位置である物体位置に存在する3次元の物体モデルとして捉えられる。この物体モデルは、その物体の概形を表現した所定の標準的な形状を有し、モデル表面に位置する3次元空間内の点の集合となっている。 例えば、追跡対象物体が人物の場合、サイズの異なる円柱を縦に重ねた形状の表面に位置する点の集合を3次元物体モデルとすることもできる。
また、物体追跡装置1は、刻々と取得される画像内に張られた画像座標系u-vでの位置座標(u, v)を、実空間に張られた世界座標系Gx-Gy-Gzでの位置座標(gx, gy, gz)へ変換する座標変換操作を用いて、追跡対象物体の映った画像情報から、実空間での位置の変化分Δp等の位置情報を算出する。例えば、追跡対象物体の画像内における前時刻T−1での位置(u, v)が、現時刻Tでの位置(u', v')へ変化した場合、この物体は、実空間(観測対象空間)において前時刻T−1での位置(gx, gy, gz)から現時刻Tでの位置(gx', gy', gz')へ移動したことが推定され、実空間での位置の前時刻T−1からの変化分を取得することができる。
ここで、使用する時刻は、単位時間を1としてこの単位時間経過毎に設定される時刻であり、時刻Tの1つ前となる時刻はT−1となる。また、上記のような画像座標系から世界座標系への座標変換は、予めキャリブレーションにより各カメラ2についての設置位置及び撮影向きに係る外部パラメータを設定しておくことによって決定することが可能である。なお、複数のカメラ2のそれぞれから画像が取得される場合でも、これらの画像を統合して1つの画像空間を構築し、この画像空間に画像座標系を適用することができる。
このように、物体追跡装置1は、刻々と取得される画像情報(画像座標系u-vでの位置情報)に基づき、追跡対象物体の実空間での位置情報(世界座標系Gx-Gy-Gzでの位置情報)を推定することができるのである。
さらに、物体追跡装置1は、画像間類似度決定部113、追跡対象識別部114及び画像領域決定部115を含む物体追跡に係る機能構成部において、カメラ2から取得した時系列の各画像を用いて即座に、すなわちオンラインで学習することができる。その結果、追跡対象物体の位置を即座に把握して追跡を行うことが可能となるのである。さらに、刻々と学習する上記の機能構成部を用いて追跡を行うので、対象の見え方が変化したり、追跡対象物体の画像領域が他の物体の画像領域と重畳した状態となるオクルージョン(occlusion)が発生したりする場合でも、同一の物体であると認識することができ、例えば当該物体に固有のIDを付与し続けながら、適切な追跡を続行することが容易になる。
[装置機能概要、物体追跡方法]
図2は、本発明による物体追跡装置の一実施形態における処理の流れを概略的に示すフローチャートである。
図2によれば、本実施形態の物体追跡装置1は、カメラ2から解析対象の画像を取得した際、目的とする「追跡対象物体に係る画像領域」の候補となる複数の画像領域候補(画像パッチ)を、取得した画像における、前時刻に正解とされた「追跡対象物体に係る画像領域」の周囲から抽出する。
次いで、抽出した画像領域候補(画像パッチ)の各々について、上記の画像間類似度決定部113(図1)において「類似度」を算出し、一方、追跡対象識別部114(図1)において「信頼度」を算出する。その後、画像領域候補(画像パッチ)毎に算出された「類似度」及び「信頼度」から総合的に判断して、当該画像領域候補のスコアリング(スコア付け)を行う。
次いで、上記の画像領域決定部115(図1)において、付与されたスコアに基づいて、(最も高いスコアを有する)画像領域候補(画像パッチ)を、「追跡対象物体に係る画像領域」に決定するのである。
なお、ここで、画像から新規の物体を検出する場合、その検出に伴って取得される当該物体の画像領域の周囲をサンプリングし、初期のデータを与えることによって、当該物体に対応するターゲット識別器が追跡対象識別部114(図1)に生成される。このターゲット識別器については後に詳しく説明する。生成されたターゲット識別器は、その後、上記の決定された「追跡対象物体に係る画像領域」を正解としてオンラインで学習し、更新される。また、追跡対象である物体には、その後、当該物体固有のIDが継続して付与されることも好ましい。
物体追跡装置1は、以上に説明した処理のサイクルを、すなわち、画像領域抽出・選択処理とターゲット識別器の更新処理とを、図2に示すように繰り返し実施することによって、より正確に対象物体を識別し且つより確実にその位置を追うといった良好な物体追跡を実現するのである。また、1つ以上のカメラ2からの時系列画像群を用いて追跡と同時に検出処理も行っているので、物体における様々の状況に合わせて、的確且つ統合的な追跡を実施することも可能となる。
[装置構成、物体追跡方法]
図3は、本発明による物体追跡装置の一実施形態における機能構成を示す機能ブロック図である。
図3によれば、物体追跡装置1は、1つ又は複数のカメラ2と通信接続可能な通信インタフェース101と、画像蓄積部102と、ID(識別子)蓄積部103と、画像領域蓄積部104と、追跡物体情報記憶部105と、プロセッサ・メモリとを有する。ここで、プロセッサ・メモリは、物体追跡装置1のコンピュータを機能させるプログラムを実行することによって、物体追跡機能を実現させる。
さらに、プロセッサ・メモリは、機能構成部として、物体検出部111と、候補領域抽出部112と、画像間類似度決定部113と、追跡対象識別部114と、画像領域決定部115と、追跡物体管理部116と、通信制御部117とを有する。ここで、物体検出部111は、ID管理部111mを有することも好ましい。また、画像間類似度決定部113は、類似度算出器113rを有することも好ましい。さらに、追跡対象識別部114は、ターゲット識別器114tを有することも好ましい。なお、図3における物体追跡装置1の機能構成部間を矢印で接続して示した処理の流れは、本発明による物体追跡方法の一実施形態としても理解される。
同じく図3において、カメラ2は、例えば、CCDイメージセンサ、CMOSイメージセンサ等の固体撮像素子を備えた可視光、近赤外線又は赤外線対応の撮影デバイスである。なお、上述したように、カメラ2としてデプスカメラを用いることも可能である。また、カメラ2又は(図示していない)カメラ制御装置は、カメラ2で撮影された物体の画像を含む撮影画像データを生成し、当該データを時系列に又はバッチで物体追跡装置1に送信する機能を有する。また、カメラ2は、可動であって設置位置、撮影向きや高さを変更することができ、この変更のための制御信号を受信し処理する機能を有していることも好ましい。
通信インタフェース101は、カメラ2又はカメラ制御装置から時系列の画像群である撮影画像データを、通信ネットワークを介して受信する。通信インタフェース101を使用した送受信及び通信データ処理の制御は、通信制御部117によって行われ、取得された撮影画像データ(画像ファイル)は、画像蓄積部102に蓄積される。ここで、この撮影画像データは、カメラ2又はカメラ制御装置から時系列順に呼び出されて取得されたものであってもよく、リアルタイムに一定時間間隔でキャプチャされた画像を順次取得したものであってもよい。
物体検出部111は、所定の特徴量を用いて学習を行った検出用識別器によって、物体識別対象の画像における出現した又は追跡されていない物体を検出可能な機能部である。具体的には、画像蓄積部102に蓄積された画像において、追跡対象となる物体に対応する画像領域を検出する。ここで、人物を追跡対象とする場合、学習には人物検出に適した特徴量を用いる。物体検出のための特徴量としては、例えばHOG特徴量を使用することも好ましい。HOG特徴量は、画像の局所領域における輝度の勾配方向をヒストグラム化し、各度数を成分としたベクトル量である。HOG特徴量を用いた人物検出技術については、例えば、非特許文献であるDalal. N and Triggs. B,"Histograms of Oriented Gradients for Human Detection",Proceedings of IEEE Computer Vision and Pattern Recognition (CVPR),2005年,886〜893頁に記載されている。
また、物体検出部111は、ID管理部111mを有することも好ましい。ID管理部111mは、新規物体が検出された際、この新規物体(の画像領域)に係る情報を、ID(識別子)と紐づけてID蓄積部103へ登録する。
候補領域抽出部112は、この後、信頼度及び類似度によるスコアリングの対象となる画像領域候補を設定する。
図4は、候補領域抽出部112における画像領域候補の設定処理の一実施形態を説明するための模式図である。
図4(A)によれば、候補領域抽出部112は、時刻Tでの画像において、スライディングウィンドウ方式により、1つ前の時刻T−1での追跡対象物体の画像領域の位置周辺に、複数の画像領域候補を設定している。このように設定され切り出された画像領域候補の中から、時刻Tにおける正解とされる「追跡対象物体に係る画像領域」が決定される。
ちなみに、図4(B)に示すように、この正解とされる「追跡対象物体に係る画像領域」は、以下のように決定される。すなわち、切り出された複数の画像領域候補の各々に対し、
(a)画像間類似度決定部113において類似度を算出し、
(b)追跡対象識別部114において信頼度を算出し、
その後、画像領域決定部115において、当該画像領域候補に対し、算出された類似度及び信頼度から決定されるスコアを付与する。最後に、付与されたスコアを比較し、最もスコアの高い画像領域候補を選択して、これを正解とされる画像領域に決定する。
図3に戻って、画像間類似度決定部113は、入力された画像領域と、1つの時点以前の時点で正解とされた画像領域との類似度を決定する。具体的には、画像間類似度決定部113の類似度算出器113rにおいて、類似度算出対象の画像領域を、畳み込み層(convolution layer)を含む多層ニューラルネットワークであるNN-1に入力し、このNN-1から抽出された当該画像領域に係る特徴量を比較して類似度を決定する。
ここで、NN-1は、画像の特徴量を自動的に抽出する特徴量抽出器を構成する。すなわち、本実施形態では、手動で特徴量を設計するのではなく、深層学習を用いて正解データを有する大規模データから自動的に特徴量を抽出する。これにより、オクルージョン等の様々な問題が複雑に絡みあう映像(時系列画像群)にも適用可能な特徴量を適宜取得することが可能となる。
具体的に、画像間類似度決定部113は、類似度算出器113rに、所定の大規模画像データセットを予め学習させた上で(事前学習を行わせた上で)、事前学習フェーズにおいて学習した類似度算出器113rを用い、実行フェーズとして実際に画像領域候補の特徴量を自動生成する。
図5は、類似度算出器113rで使用されるニューラルネットワークの事前学習を説明するための模式図である。
図5によれば、画像間類似度決定処理の事前学習フェーズとして、最初に、画像の特徴量抽出器であるNN-1に事前学習させる。NN-1は、上述したように畳み込み層を含むニューラルネットワークである。ここで、畳み込み層は、動物の視覚野の単純細胞の働きを模しており、画像に対しカーネル(重み付け行列フィルタ)をスライドさせて特徴マップを生成する畳み込み処理を実行する層である。この畳み込み処理によって、画像の解像度を段階的に落としながら、エッジや勾配等の基本的特徴を抽出し、局所的な相関パターンの情報を得ることができる。
類似度算出器113rで使用されるNN-1としては、例えば5層の畳み込み層を用いたAlexNetを用いることができる。このAlexNetでは、各畳み込み層はプーリング層と対になっており、畳み込み処理とプーリング処理とが繰り返される。ここで、プーリング処理とは、動物の視覚野の複雑細胞の働きを模した処理であり、畳み込み層から出力される特徴マップ(一定領域内の畳み込みフィルタの反応)を最大値や平均値等でまとめ、調整パラメータを減らしつつ、局所的な平行移動不変性を確保する処理である。AlexNetについては、例えば、Krizhevsky, A., Sutskever, I., and Hinton, G. E.,"Imagenet classification with deep convolutional neural networks",Advances in Neural Information Processing Systems 25,2012年,1106〜1114頁に記載されている。
具体的に、NN-1は、大規模画像データセットを用いて画像分類を行うように学習を行う。次いで、画像領域を入力すると、NN-1内の複数の層のうち最終層をいくつか除いた層分による多層ネットワークとしての反応を、当該画像領域の特徴量として出力する。なお、このような大規模画像データセットによる学習は、後述するニューラルネットワークNN-2及びNN-3においても同様に行われる。
以上述べたように特徴量を自動抽出した後、画像間類似度決定部113は、損失関数としてコントラスティブ・ロス(contrastive loss)を用いて自動抽出された特徴量の比較を行い、類似度を決定する。次に、この類似度決定処理における事前学習フェーズと、実行フェーズとについて説明する。
図6は、画像間類似度決定部113における類似度決定処理の一実施形態を説明するための模式図である。
図6によれば、類似度算出器114r(図3)は、畳み込み層を含む多層ニューラルネットワークである(例えばAlexNetを用いた)NN-1及びNN-2のそれぞれの出力側に、ニューラルネットワークを追加し、さらに、両者からの出力を結合(比較)して類似度を出力するcontrastive lossを接続した構成を有する。
このうち、contrastive lossは、相対関係の学習に用いられる損失関数であり、ペアを入力として与えると、それらが同じものか別のものかを学習し、次いで判別するのに使用される。このcontrastive lossを利用することによって、特徴空間でのメトリック(metric)を学習し、比較する多次元ベクトルにおける類似度に効く要素部分をより確実に捉えることが可能となる。ちなみに、contrastive lossを用いて2つの入力の類似性を求めるネットワークは、Siamese networkと呼ばれている。contrastive loss については、例えば、S. Chopra, R. Hadsell, and Y. LeCun,"Learning a Similarity Metric Discriminatively, with Application to Face Verification",Proc. IEEE Conf. Computer Vision and Pattern Recognition,2005年,に記載されている。
また、追加されるニューラルネットワークは、結合層を含む多層ネットワークとすることができる。畳み込み層を含んでいなくともよい。この追加ネットワークを設けることによって、比較する画像における様々な変化に的確に対応し、類似の度合いの判定精度を高めることが可能となる。
ここで、最初に、類似度算出器114rの実行フェーズについて説明する。この実行フェーズにおいては、NN-1には、候補領域抽出部112(図3)から出力された画像領域候補が入力され、一方、NN-2には、過去の正解とされた(追跡対象物体に係る)画像領域が入力される。これにより、複数の画像領域候補の各々について、過去の正解画像領域との間の距離、すなわち類似度を算出することが可能となる。また、このように、類似度算出器114rは、入力として2つの画像を与えるとそれらが同一の物体に係る画像であるか否かを識別し、その同一の程度を判定する識別器と捉えることができる。
なお、過去の正解とされた画像領域は、1つであってもよいが複数抽出されることも好ましい。1つの画像領域候補に対して複数の正解との類似度を算出することによって、より精度の高いスコアを決定することができる。例えば、正解画像領域として、3、10及び/又は18フレーム前の画像領域を採用してもよい。このように、直前ではなく少し過去に遡って比較基準となる正解画像領域を選ぶことも好ましい。
また、1つの画像領域候補に対して算出された複数の類似度に基づき、例えばそれらの平均をとって、当該画像領域候補の類似度を決定することも好ましい。
次に、類似度算出器114rにおける事前学習フェーズについて説明する。画像間の類似度(距離)の学習には、図5で示したように予め学習を行ったNN-1及びNN-2(特徴量抽出器)の反応を入力として用いる。具体的には、大量の画像のペアをそれぞれNN-1及びNN-2に入力し、両者を結合するcontrastive lossを用いて、これらのNN-1及びNN-2の上に追加された追加ネットワーク(さらにはNN-1及びNN-2における追加ネットワークとの結合部分)に当該反応を学習させ、画像間の類似度を算出できるようにする。
以上、画像間類似度決定部113について詳細に説明したが、本発明に係る類似度の決定は、図6に示したようなcontrastive lossを利用した構成によるものに限定されるわけではない。例えば、類似度算出対象の画像領域候補のHOG特徴量と、過去の正解画像領域のHOG特徴量とを算出した上で、両者の線形距離を求めて当該距離を類似度とすることも可能である。その他、画像間の類似度を決定可能な手法であるならば種々のものを採用することができる。しかしながら、本願発明者等は、contrastive lossを用いた上記構成によって算出された類似度が、物体追跡の指標として使用するのに十分な高い精度を有していることを実験によって確認している。
図3に戻って、追跡対象識別部114は、1つの時点の前の時点での画像情報に基づいて、当該1つの時点での画像における1つ若しくは複数の画像領域を、具体的には候補領域抽出部112で生成された複数の画像領域候補を、当該物体に係る画像領域として識別される度合いをもって評価する。ここで、この識別される度合いでの評価方法として、追跡対象識別部114は、追跡対象物体に係る画像領域を事前に学習し、その上で、入力された画像領域(各画像領域候補)が、当該物体に係る画像領域であるか否かについての信頼度を決定し、当該画像領域に付与する。
なお、変更態様として、追跡対象識別部114が上記の信頼度生成・付与処理を実施せず、候補領域抽出部112で生成された複数の画像領域候補に対し、上述した類似度のみでスコアリングして、追跡対象物体に係る画像領域を決定することも可能である。この場合、候補領域抽出部112が、当該1つの時点での画像における1つ若しくは複数の画像領域を、追跡画像に係る画像領域候補として選択する追跡対象識別手段として機能することになる。
また、さらに異なる実施形態として、他の従来手法、例えばオプティカルフローを求めて移動物体の動きを把握するLK法(Lucas Kanade法)を用いて、追跡対象物体に係る画像領域を判定し、このように判定された画像領域に対し、画像間類似度決定部113で決定された類似度を用いて再判断を行って、最終的に正解画像領域を決定することも可能である。しかしながら、上述した本実施形態のように、類似度のみならず、上記の信頼度をも加味してスコアリングを行うことによって、より正確に対象物体を識別し、より確実にその位置を追うことができるのである。次に、この追跡対象識別部114における事前学習フェーズと、実行フェーズとについて説明する
図7は、追跡対象識別部114における追跡対象識別処理の一実施形態を説明するための模式図である。
図7(A)によれば、追跡対象識別部114は、畳み込み層を含む多層ニューラルネットワークである(例えばAlexNetを用いた)NN-3の出力側に、機械学習を実施可能なターゲット識別器113tを接続した構成を有する。
ここで、NN-3は、上述したNN-1と同様の構成を有し、(図5に示すような)同様の学習を行ったニューラルネットワークとすることができる。変更態様として、NN-3として(NN-3の代わりに)、類似度算出器114rのNN-1を併用することも可能である。いずれにしても、NN-3は、入力した画像について自動的に特徴量を生成する。
また、ターゲット識別器113tは、画像中のある領域を切り出した画像パッチに対して、その画像パッチに映っているものが追跡対象物体か否かの2値判定を行う識別器である。具体的には、特徴空間において識別境界面を生成・更新するような、例えばサポートベクタマシン(SVM)を備えていてもよい。
この追跡対象識別部114の事前学習フェーズにおいては、図5で示したように事前に学習し構築されたNN-3(特徴量抽出器)の反応が入力として用いられる。ターゲット識別器113tは、図7(B)に示すように、この反応を画像領域の特徴量として入力し、例えば、この特徴量相当の画像領域(画像パッチ)と正解画像領域との(共通画像部分に係る)オーバーラップ率OVRがθ以上(OVR≧θ)であれば正、そうでなければ(OVR<θであれば)負のラベルを画像領域に与えて、識別境界面(識別超平面)を学習(生成)する。
一方、追跡対象識別部114におけるオンライン学習を含む実行フェーズにおいては、最初に、NN-3が、候補領域抽出部112から出力された画像領域候補を入力する。これにより、NN-3において当該画像領域候補の特徴量が生成される。次いで、ターゲット識別器113tは、この生成された特徴量から、当該画像領域候補の信頼度を、特徴空間における識別境界面との符号付き距離として算出する。
すなわち、信頼度Rは、次式
(1) R=SIN×d
で算出される。上式において、SINは、特徴空間において当該特徴量が負のラベル側に存在していれば−1、正のラベル側に存在していれば1となる。また、dは、特徴空間内における当該特徴量と識別境界面との距離である。尚、このような識別器を用いた物体追跡については、例えば、S. Hare, A. Saffari and P. H. S. Torr,"Struck: Structured Output Tracking with Kernels",Publications of International Conference on Computer Vision (ICCV), 2011年,263〜270頁に記載されている。
図3に戻って、画像領域決定部115は、実行フェーズにおいて、評価又は選択された画像領域(画像パッチ)から、少なくとも当該画像パッチについて決定された類似度に基づいて、好ましくはこのような類似度と信頼度とに基づいて、1つの時点で正解とされる「追跡対象物体に係る画像領域」を決定する。
本実施形態では、画像領域決定部115は、時刻Tにおける画像領域候補の各々に対し、
(a)画像間類似度決定部113で当該画像領域候補に付与された類似度と、
(b)追跡対象識別部114で当該画像領域候補に付与された信頼度と
を総合してスコアを算出し、当該画像領域候補に付与する。
ここで、スコアは、類似度と信頼度との和としてもよく、それぞれに所定の重み付けをした上での平均値であってもよい。また、例えば信頼度(類似度)の高い順に所定数の画像領域候補を選び出し、それらの候補に対し類似度(信頼度)に対応したスコアを付与することも可能である。なお、類似度の算出の際に、比較基準となる過去の正解画像領域が複数存在する場合、その数だけの類似度が算出されることになるが、それらの類似度の例えば平均値をとって、スコアの算出に使用する類似度とすることも好ましい。このように複数の類似度を勘案してスコアを決定することは、スコア値の精度向上に寄与するものとなる。
ここで、上記(a)の類似度は、長期的な過去の物体の見かけに係る指標と捉えることもできる。また、上記(b)の信頼度は、短期的な直前時点での物体の見かけに係る指標と捉えることもできる。従って、両者に基づいて算出されたスコアは、長期的及び短期的な見かけを総合した指標となり、より正確な物体画像領域の推定に非常に適していることが理解される。
次いで、画像領域決定部115は、最も高いスコアの付与された画像領域候補を、時刻Tにおける正解の「追跡対象物体に係る画像領域」に決定する。この決定された正解の画像領域は、追跡物体管理部116及び画像領域蓄積部104に出力される。さらに、画像領域決定部115は、決定された正解画像領域を追跡対象識別部114に出力し、当該正解画像領域をもってターゲット識別器114tをオンライン学習(更新)させる。
このように、本実施形態の物体追跡装置1においては、事前に深層学習によって画像間の類似度を算出するように構成された多層ネットワークを用いて、過去の画像領域との類似性を算出し、この類似度を包含したスコアリングを行うことによって、画像領域決定部115における物体追跡のオンライン学習時に、誤った領域を正解とする判定を行うことを防止していることが理解される。
なお、このオンライン学習に際して、算出されたスコアが相当に低い場合、当該スコアの付与された画像領域候補についてはオクルージョンの発生している可能性が高いと判断される。従って、追跡処理におけるドリフティングの発生を防止するため、決定された類似度及び/又は信頼度が所定の条件を満たさない場合、例えば、決定されたスコアが所定の閾値αより低い場合には、このスコアに係る画像領域候補を用いてターゲット識別器114tの更新を行わないことも好ましい。
同じく図3において、画像領域蓄積部104は、刻々と入力した正解画像領域を時系列に整理して保存する。また、要求に応じて、類似度算出器113rのNN-2に、類似度の算出基準となる1つ又は複数の過去の正解画像領域を出力する。
追跡物体管理部116は、刻々と入力した正解画像領域に基づき、追跡対象物体について、時刻毎に(実空間に張られた)世界座標系Gx-Gy-Gzにおける位置(又はロストした事実)を対応付けた追跡履歴を含む情報を、追跡物体情報として生成し、管理する。生成された追跡物体情報は、生成・更新される毎に、又は適宜、追跡物体情報記憶部105に記憶されることも好ましい。また、通信制御部117及び通信インタフェース101を介し、外部の情報処理装置に送信されてもよい。
以上詳細に説明したように、本発明によれば、追跡対象物体に係る画像領域を、過去に正解とされた画像領域との類似度を考慮して決定している。このように、正解との実績のある過去の判断結果と照らし合わせるので、対象をより確実に捉えることができる。また、それ故に、オクルージョンが発生した場合でも追跡対象物体に例えば固有のIDを付与しつづけることができるので、IDスイッチングを含むドリフティングのような誤った現象の発生を十分に抑制することも可能となる。その結果、より正確に追跡対象物体を識別し、より確実にその位置を追うことができるのである。
また、本発明の構成及び方法は、例えば、人物が移動・滞留したり出入りする場を監視する監視システム、及び商店街や商業・サービス施設内での人物の入店、休憩、観戦・イベント参加や、移動の状況を調査するためのマーケティング調査システム等、様々な系に適用可能である。
以上に述べた本発明の種々の実施形態において、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 物体追跡装置
101 通信インタフェース
102 画像蓄積部
103 ID蓄積部
104 画像領域蓄積部
105 追跡物体情報記憶部
111 物体検出部
111m ID管理部
112 候補領域抽出部
113 画像間類似度決定部
113r 類似度算出器
114 追跡対象識別部
114t ターゲット識別器
115 画像領域決定部
116 追跡物体管理部
117 通信制御部
2 カメラ

Claims (9)

  1. 追跡対象の物体を撮影可能な1つ以上のカメラから取得される時系列の画像群を用いて当該物体を追跡可能な装置であって、
    1つの時点の前の時点での画像に係る情報に基づいて、当該1つの時点での画像における複数の画像領域を、当該物体に係る複数の画像領域候補として抽出する候補領域抽出手段と、
    当該物体に係る画像領域を学習した識別器を用い、抽出された各画像領域候補に対し、当該物体に係る画像領域であるか否かについての信頼度を決定する追跡対象識別手段と、
    前記識別器とは別の類似度算出器を用い、抽出された画像領域候補と、当該1つの時点以前の時点で正解とされた画像領域との類似度を決定する画像間類似度決定手段と、
    抽出された複数の画像領域候補から、当該画像領域候補について決定された信頼度及び類似度に基づいて、当該1つの時点で正解とされる当該物体に係る画像領域を決定する画像領域決定手段と
    を有することを特徴とする物体追跡装置。
  2. 前記画像間類似度決定手段は、類似度算出対象の画像領域候補を、畳み込み層(convolution layer)を含むニューラルネットワークに入力し、該ニューラルネットワークから抽出された当該画像領域候補に係る特徴量を前記類似度算出器に入力して当該類似度を決定することを特徴とする請求項1に記載の物体追跡装置。
  3. 前記追跡対象識別手段は、信頼度決定対象の画像領域候補を、畳み込み層を含むニューラルネットワークに入力し、該ニューラルネットワークから抽出された当該画像領域候補に係る特徴量を前記識別器に入力して、当該信頼度を決定することを特徴とする請求項1又は2に記載の物体追跡装置。
  4. 前記画像間類似度決定手段は、損失関数であるコントラスティブ・ロス(contrastive loss)を用いた処理手段を含む前記類似度算出器を用いて当該特徴量の比較を行い、当該類似度を決定することを特徴とする請求項に記載の物体追跡装置。
  5. 前記画像間類似度決定手段は、当該ニューラルネットワークと当該コントラスティブ・ロスを用いた処理手段とを含む前記類似度算出器に、所定の大規模画像データセットを予め学習させることを特徴とする請求項に記載の物体追跡装置。
  6. 前記画像間類似度決定手段は、当該画像領域候補と、当該1つの時点以前の複数の時点のそれぞれで正解とされた複数の画像領域との間の複数の類似度を算出し、当該複数の類似度に基づいて当該類似度を決定することを特徴とする請求項1からのいずれか1項に記載の物体追跡装置。
  7. 前記追跡対象識別手段は、決定された類似度及び/又は信頼度が所定の条件を満たさない場合、決定した当該物体に係る画像領域によって学習を行わないことを特徴とする請求項1から6のいずれか1項に記載の物体追跡装置。
  8. 追跡対象の物体を撮影可能な1つ以上のカメラから取得される時系列の画像群を用いて当該物体を追跡可能な装置に搭載されたコンピュータを機能させるプログラムであって、
    1つの時点の前の時点での画像に係る情報に基づいて、当該1つの時点での画像における複数の画像領域を、当該物体に係る複数の画像領域候補として抽出する候補領域抽出手段と、
    当該物体に係る画像領域を学習した識別器を用い、抽出された各画像領域候補に対し、当該物体に係る画像領域であるか否かについての信頼度を決定する追跡対象識別手段と、
    前記識別器とは別の類似度算出器を用い、抽出された画像領域候補と、当該1つの時点以前の時点で正解とされた画像領域との類似度を決定する画像間類似度決定手段と、
    抽出された複数の画像領域候補から、当該画像領域候補について決定された信頼度及び類似度に基づいて、当該1つの時点で正解とされる当該物体に係る画像領域を決定する画像領域決定手段と
    としてコンピュータを機能させることを特徴とする物体追跡プログラム。
  9. 追跡対象の物体を撮影可能な1つ以上のカメラから取得される時系列の画像群を用いて当該物体を追跡する方法であって、
    1つの時点の前の時点での画像に係る情報に基づいて、当該1つの時点での画像における複数の画像領域を、当該物体に係る複数の画像領域候補として抽出するステップと、
    当該物体に係る画像領域を学習した識別器を用い、抽出された各画像領域候補に対し、当該物体に係る画像領域であるか否かについての信頼度を決定するステップと、
    前記識別器とは別の類似度算出器を用い、抽出された画像領域候補と、当該1つの時点以前の時点で正解とされた画像領域との類似度を決定するステップと、
    抽出された複数の画像領域候補から、当該画像領域候補について決定された信頼度及び類似度に基づいて、当該1つの時点で正解とされる当該物体に係る画像領域を決定するステップと
    を有することを特徴とする物体追跡方法。
JP2016038030A 2016-02-29 2016-02-29 画像間類似度を考慮して物体を追跡する装置、プログラム及び方法 Active JP6614611B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016038030A JP6614611B2 (ja) 2016-02-29 2016-02-29 画像間類似度を考慮して物体を追跡する装置、プログラム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016038030A JP6614611B2 (ja) 2016-02-29 2016-02-29 画像間類似度を考慮して物体を追跡する装置、プログラム及び方法

Publications (2)

Publication Number Publication Date
JP2017156886A JP2017156886A (ja) 2017-09-07
JP6614611B2 true JP6614611B2 (ja) 2019-12-04

Family

ID=59810216

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016038030A Active JP6614611B2 (ja) 2016-02-29 2016-02-29 画像間類似度を考慮して物体を追跡する装置、プログラム及び方法

Country Status (1)

Country Link
JP (1) JP6614611B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022207091A1 (de) 2022-07-12 2024-01-18 Robert Bosch Gesellschaft mit beschränkter Haftung Objektklassifikation anhand von Messdaten aus mehreren Perspektiven unter Nutzung von Pseudo-Labels

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6952124B2 (ja) * 2017-10-05 2021-10-20 富士フイルム株式会社 医療画像処理装置
JP6958719B2 (ja) * 2018-03-05 2021-11-02 日本電気株式会社 画像解析装置、画像解析方法および画像解析プログラム
JP7163372B2 (ja) 2018-03-06 2022-10-31 北京市商▲湯▼科技▲開▼▲発▼有限公司 目標トラッキング方法及び装置、電子機器並びに記憶媒体
CN108460787B (zh) * 2018-03-06 2020-11-27 北京市商汤科技开发有限公司 目标跟踪方法和装置、电子设备、程序、存储介质
WO2019177181A1 (ko) 2018-03-12 2019-09-19 라인플러스(주) 뉴럴 네트워크를 이용하여 상황을 인지하는 증강 현실 제공 장치, 제공 방법 및 상기 방법을 실행하기 위하여 매체에 저장된 컴퓨터 프로그램
JP6937995B2 (ja) * 2018-04-05 2021-09-22 オムロン株式会社 物体認識処理装置及び方法、並びに、物体ピッキング装置及び方法
JP7154823B2 (ja) * 2018-05-28 2022-10-18 キヤノン株式会社 情報処理装置、ロボット制御装置、情報処理方法及びプログラム
CN109635657B (zh) * 2018-11-12 2023-01-06 平安科技(深圳)有限公司 目标跟踪方法、装置、设备及存储介质
KR20200067631A (ko) 2018-12-04 2020-06-12 삼성전자주식회사 영상 처리 장치 및 그 동작방법
CN109816689B (zh) * 2018-12-18 2022-07-19 昆明理工大学 一种多层卷积特征自适应融合的运动目标跟踪方法
CN109816701B (zh) * 2019-01-17 2021-07-27 北京市商汤科技开发有限公司 一种目标跟踪方法及装置、存储介质
KR102194499B1 (ko) * 2019-01-18 2020-12-23 주식회사 인텔리빅스 객체 이미지 인식 dcnn 기반 cctv 영상분석장치 및 그 장치의 구동방법
CN110059551A (zh) * 2019-03-12 2019-07-26 五邑大学 一种基于图像识别的饭菜自动结账系统
CN110660102B (zh) * 2019-06-17 2020-10-27 腾讯科技(深圳)有限公司 基于人工智能的说话人识别方法及装置、系统
JP7201554B2 (ja) * 2019-08-08 2023-01-10 Kddi株式会社 人物検知装置、方法およびプログラム
KR102300474B1 (ko) * 2019-08-09 2021-09-10 고려대학교 산학협력단 샴쌍둥이 네트워크를 이용한 식재료 페어링 예측 방법 및 서버
KR102305575B1 (ko) * 2019-09-03 2021-09-27 네이버 주식회사 이미지 간 유사도를 이용한 유사 영역 강조 방법 및 시스템
WO2021085057A1 (ja) * 2019-10-30 2021-05-06 富士フイルム株式会社 物体検出装置、物体検出方法およびプログラム
US20230120093A1 (en) * 2020-03-16 2023-04-20 Nec Corporation Object tracking device, object tracking method, and recording medium
CN111401267B (zh) * 2020-03-19 2023-06-13 山东大学 基于自学习局部特征表征的视频行人再识别方法及系统
CN111882580B (zh) * 2020-07-17 2023-10-24 元神科技(杭州)有限公司 一种视频多目标跟踪方法及系统
CN111899283B (zh) * 2020-07-30 2023-10-17 北京科技大学 一种视频目标跟踪方法
CN114166858B (zh) * 2022-02-11 2022-04-12 海门市芳华纺织有限公司 基于人工智能的纺织毛刷辊划伤皮革区域检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4628860B2 (ja) * 2005-05-10 2011-02-09 セコム株式会社 画像センサ
JP4947592B2 (ja) * 2007-07-26 2012-06-06 コイト電工株式会社 車両検出装置
JP5264457B2 (ja) * 2008-12-12 2013-08-14 セコム株式会社 物体検出装置
JP5488076B2 (ja) * 2010-03-15 2014-05-14 オムロン株式会社 対象物追跡装置、対象物追跡方法、および制御プログラム
JP6177068B2 (ja) * 2013-09-24 2017-08-09 株式会社ブレイン 店舗システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022207091A1 (de) 2022-07-12 2024-01-18 Robert Bosch Gesellschaft mit beschränkter Haftung Objektklassifikation anhand von Messdaten aus mehreren Perspektiven unter Nutzung von Pseudo-Labels
WO2024013158A1 (de) 2022-07-12 2024-01-18 Robert Bosch Gmbh Objektklassifikation anhand von messdaten aus mehreren perspektiven unter nutzung von pseudo-labels

Also Published As

Publication number Publication date
JP2017156886A (ja) 2017-09-07

Similar Documents

Publication Publication Date Title
JP6614611B2 (ja) 画像間類似度を考慮して物体を追跡する装置、プログラム及び方法
JP6598746B2 (ja) 他の物体の画像領域も考慮して物体を追跡する装置、プログラム及び方法
Mou et al. Vehicle instance segmentation from aerial image and video using a multitask learning residual fully convolutional network
CN106709449B (zh) 一种基于深度学习和强化学习的行人重识别方法及系统
JP6018674B2 (ja) 被写体再識別のためのシステム及び方法
Xiao et al. End-to-end deep learning for person search
CN108520226B (zh) 一种基于躯体分解和显著性检测的行人重识别方法
JP6618395B2 (ja) 行動価値によって調査対象の位置を予測する装置、プログラム及び方法
Sock et al. Multi-view 6D object pose estimation and camera motion planning using RGBD images
Wang et al. Tracklet association with online target-specific metric learning
CN110263697A (zh) 基于无监督学习的行人重识别方法、装置及介质
CN110070029B (zh) 一种步态识别方法及装置
CN112639873A (zh) 基于单对象姿态估计器的多个对象的姿态跟踪设备和方法
Bedagkar-Gala et al. Multiple person re-identification using part based spatio-temporal color appearance model
JP6654789B2 (ja) 変化点で複数候補を考慮して物体を追跡する装置、プログラム及び方法
JP2019109709A (ja) 画像処理装置、画像処理方法およびプログラム
JP6789876B2 (ja) 画素変更処理画像を用いて対象を追跡する装置、プログラム及び方法
CN110796074B (zh) 一种基于时空数据融合的行人再识别方法
CN106557728B (zh) 查询图像处理和图像检索方法和装置以及监视系统
JP2021533506A (ja) ビデオ異常検出のためのシステム及び方法並びに記憶媒体
CN113033523B (zh) 跌倒判断模型的构建方法及系统、跌倒判断方法及系统
JP2016206795A (ja) 実空間情報によって学習する識別器を用いて物体を追跡する装置、プログラム及び方法
WO2022156317A1 (zh) 视频帧处理方法及装置、电子设备和存储介质
Acharya et al. Real-time detection and tracking of pedestrians in CCTV images using a deep convolutional neural network
Bashar et al. Multiple object tracking in recent times: A literature review

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180306

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190326

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191030

R150 Certificate of patent or registration of utility model

Ref document number: 6614611

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150