JP7334058B2 - 幾何パラメータ推定装置、幾何パラメータ推定システム、幾何パラメータ推定方法及びコンピュータプログラム - Google Patents

幾何パラメータ推定装置、幾何パラメータ推定システム、幾何パラメータ推定方法及びコンピュータプログラム Download PDF

Info

Publication number
JP7334058B2
JP7334058B2 JP2019089304A JP2019089304A JP7334058B2 JP 7334058 B2 JP7334058 B2 JP 7334058B2 JP 2019089304 A JP2019089304 A JP 2019089304A JP 2019089304 A JP2019089304 A JP 2019089304A JP 7334058 B2 JP7334058 B2 JP 7334058B2
Authority
JP
Japan
Prior art keywords
learning
keypoint
information
frame
coordinate system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019089304A
Other languages
English (en)
Other versions
JP2020187385A (ja
Inventor
周平 田良島
啓仁 野村
和彦 太田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Communications Corp
Original Assignee
NTT Communications Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Communications Corp filed Critical NTT Communications Corp
Priority to JP2019089304A priority Critical patent/JP7334058B2/ja
Publication of JP2020187385A publication Critical patent/JP2020187385A/ja
Application granted granted Critical
Publication of JP7334058B2 publication Critical patent/JP7334058B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、幾何パラメータを推定する技術に関する。
従来、サッカー・ラグビー・バスケットボール・アイスホッケー等の集団スポーツ映像を解析してチームの戦術や各選手のパフォーマンスを分析することは戦術の立案や将来性の高い選手のリクルーティングにつながる。
また、視聴体験の観点においても、解析結果を映像と同時に視聴者に提示したり、あるいは映像に重畳表示したりすることで、視聴者の試合に対する理解を深め、視聴体験の質を向上させることが期待できる。スポーツ映像解析の産業応用の素地は広く、その価値は極めて高いと考えられる。
通常、スポーツ映像は、スポーツの競技フィールド側面に配置されたカメラによって選手に追従して撮影されることが多い。スポーツ映像から分析されうる代表的な統計値として、選手の活動量(例えば、試合中の選手の走行距離)や選手の移動軌跡が挙げられる。しかしながら、映像中の選手を検出・追跡するのみでは、上記の統計値を取得するには不十分である。上記の統計値を取得するには、映像を構成する複数の映像フレームの中にフィールドがどのように映っているかが明らかであり、映像フレームを上記の統計値が取得できるよう適切に変換できる必要がある。これは一般的に幾何パラメータを用いて画像変換によって実現される。ここで、幾何パラメータは、各フレームに写り込む競技空間を、真上から(正面から)見た状態に射影する数値列である。
多くの場合、競技空間は平面であるため、幾何パラメータは3×3の行列H∈R(3×3)で定義される。映像の各フレームの幾何パラメータを推定する最も単純な方法として、各フレームと正面化された競技空間との間で同一位置を捉えた対応点を人手で対応付け、その対応関係から幾何パラメータの推定を行う方法が挙げられる。競技空間が平面であれば、人手で4つの対応点を指定することで、非特許文献1に開示されているDLT(Direct Linear Transform)を用いて射影変換行列H∈R(3×3)を推定することができる。
推定された幾何パラメータを物体認識の結果と組み合わせて用いることで、競技空間を真正面から見た座標空間上での各物体の位置を画像フレーム毎に認識することが可能となる。その結果、選手の活動量(走行距離等)や移動軌跡といった統計量の推定、バイオレーション(競技空間外に物体が出た、特定の領域に一定時間以上とどまったなど)の自動判定、シュート位置の判定に基づく自動得点カウントといった様々な応用につながる。
しかしながら、非特許文献1に開示されている方法では、特に映像を取得するカメラが試合状況に応じて動く場合、全ての映像フレームに人手で対応点を与えるコストが高く、また高いリアルタイム性を求められるアプリケーションにも向かないという問題がある。
上記の問題は、非特許文献2に開示された方法を用いることで部分的に解決することができる。非特許文献2に開示された方法は、連続する各フレームからキーポイントを抽出し、抽出したキーポイントの対応付け結果からフレーム間の座標変換を行う幾何パラメータを推定する。しかし非特許文献2に開示された方法は、競技空間とは独立して動く人物やボールの動きに影響を受けやすい。さらに、十分なテクスチャのない競技空間では対応点が正確に求まらないことが多いため、幾何パラメータ推定の性能が低下してしまうという問題がある。
非特許文献2に開示された方法で抽出されるキーポイントは、あくまで画像中の輝度勾配に基づいて自動検出されるものであり、競技空間上で人間が直感的に知覚しやすいキーポイント(例えば競技空間上の線が交差する点)が検出されるとは限らない。そのため、所定の座標空間における競技空間上に定義された人間が直感的に知覚しやすい箇所をキーポイントとして入力画像フレームから検出するといった用途では使用することができない。すなわち、映像中の各フレームに写る競技空間の幾何パラメータを自動で推定することはできない。
非特許文献3には、各フレームからハフ変換により検出された競技空間中のラインやサークルを処理の中間出力として推定し、それらの対応付け結果から幾何パラメータを推定する方法が開示されている。非特許文献3に開示されている方法は、非特許文献2に開示されているキーポイント検出に基づく方法に比べて、動物体の影響を受けにくい。しかしながら、フレームからのライン・サークル検出性能に幾何パラメータ推定精度が大きく依存し、ライン・サークルが小さく又は細く写り込んでいる場合や、白飛び等でライン・サークルの境界が判然としない場合に幾何パラメータ推定精度が大きく低下してしまうという問題がある。非特許文献3に開示されている方法においても、キーポイント検出ベースの方法と同様に、所定の座標空間における競技空間上に定義された線やサークルと、入力されたフレームから検出されたラインやサークルとを対応づけることができないため、処理全体を自動化することはできない。非特許文献3で開示されている方法も部分的な自動化にとどまっており、映像中のいくつかフレームについては人手での対応点を事前に指定しなくてはならず、よってリアルタイムアプリケーションへの応用は難しい。
非特許文献4には、事前に学習した推論モデルを用いてフレーム中のラインを検出し、検出したラインから平行線の消失点を推定することで幾何パラメータを算出する方法が開示されている。非特許文献4では、事前に、教師データ中の競技空間中の各ライン(例えば、バスケットコートにおけるコートラインやペイントエリアライン、アイスホッケーにおけるブルーライン等)に異なるラベルを付与しておく。ラベルが付与された教師データを用いて推論モデルを学習することで、推論時に、入力されたフレーム中で検出されたラインがいずれの特定のラインであるかを判定することができる。これにより、映像中の各フレームに写る競技空間の幾何パラメータを自動で推定するができる。
また、様々な撮影条件で取得された映像フレームを教師データとして用いることで、非特許文献3に比べ、照明条件やスケール変化に対するライン検出の頑健性が向上する。しかしながら、上記を実現するためには、教師画像フレーム各々について、特定のライン毎のアノテーションを行う必要があり、このコストが無視できないほど高いという問題がある。また、教師データのフレームの中で、検出対象である各特定ラインに属するピクセルの割合と、それには属さないピクセルとの割合には大きく隔たりがある。一般的に、このような学習データ中のクラス間のインバランス性は、モデルの学習を困難にしてしまう。また、多くの学習データを準備する必要が生じたり、学習経過の中でパラメータを精緻に調整する必要が生じるという問題がある。
Richard Hartley, Andrew Zisserman, "Multiple View Geometry in Computer Vision", 2004. David G. Lowe,"Distinctive Image Features from Scale-Invariant Keypoints", in IJCV. 2004. Ankur Gupta, James J. Little, Robert J. Woodham, "Using Line and Ellipse Features for Rectification of Broadcast Hockey Video", Computer and Robot Vision (CRV), 2011 Canadian Conference on Namdar Homayounfar, Sanja Fidler, Raquel Urtasun, "Sports Field Localization via Deep Structured Models", Computer Vision and Pattern Recognition (CVPR), 2017, p.5212-5220
以上のように、映像のフレーム中の競技空間を認識する従来の方法は、幾何パラメータを推定するために必要な特徴を精度良く検出することができない。そのため、幾何パラメータの推定精度が低下してしまうという問題があった。
上記事情に鑑み、本発明は、幾何パラメータの推定精度を向上させることができる技術の提供を目的としている。
本発明の一態様は、フレームを入力として前記フレームに撮像されている第1の座標系の所定の空間における特徴点の位置を表すキーポイント位置情報を少なくとも出力するように学習されたキーポイント検出モデルにより得られた第1のキーポイント位置情報と、第2の座標系の前記所定の空間において予め定義された第2のキーポイント位置情報とを用いて、前記フレームに撮像されている前記第1の座標系の前記所定の空間を、前記第2の座標系の空間に変換するための幾何パラメータを推定する幾何パラメータ推定部、
を備える幾何パラメータ推定装置である。
本発明の一態様は、上記の幾何パラメータ推定装置であって、前記キーポイント検出モデルを学習するキーポイント検出モデル学習部をさらに備え、前記キーポイント検出モデル学習部は、前記第1の座標系の所定の空間が撮像された学習用フレームと、前記学習用フレームと関連付けられた学習用キーポイント位置情報と、前記学習用フレームにおける前記特徴点の出現の有無を表す学習用出現情報と、前記学習用フレームと関連付けられた情報であって、前記所定の空間を区分けするラベルが付与された学習用マスク情報と、前記学習用マスク情報に含まれる各ラベルの隣接関係を表した学習用領域隣接関係行列と、を入力として、入力された前記学習用フレームに基づいて前記キーポイント検出モデルが出力する前記第1のキーポイント位置情報、出現情報、マスク情報及び領域隣接関係行列それぞれについて、入力された前記学習用キーポイント位置情報、入力された前記学習用出現情報、入力された前記学習用マスク情報及び入力された前記学習用領域隣接関係行列との誤差の演算結果を同時に最小化するように前記キーポイント検出モデルを学習する。
本発明の一態様は、上記の幾何パラメータ推定装置であって、前記学習用フレームと、前記第2のキーポイント位置情報と、前記学習用フレームに撮像されている前記所定の空間上における特徴点の位置を表す第3のキーポイント位置情報と、前記第2の座標系の所定の空間における学習データ生成用マスク情報のいずれかを入力として、前記キーポイント検出モデルでの学習に用いる学習データを生成する学習データ生成部をさらに備える。
本発明の一態様は、上記の幾何パラメータ推定装置であって、前記学習データ生成部は、入力された前記第2のキーポイント位置情報及び前記第3のキーポイント位置情報に基づいて幾何パラメータを推定し、推定した前記幾何パラメータと、前記第2のキーポイント位置情報とを用いて、前記第3のキーポイント位置情報に含まれないキーポイントの位置を算出することによって前記学習用キーポイント位置情報を生成する。
本発明の一態様は、上記の幾何パラメータ推定装置であって、前記学習データ生成部は、入力された前記学習用フレームに撮像されている物体領域を推定することによって物体領域が示された物体領域マスク情報をさらに生成し、入力された前記第2のキーポイント位置情報及び前記第3のキーポイント位置情報に基づいて幾何パラメータを推定し、推定した前記幾何パラメータ、前記学習データ生成用マスク情報及び前記物体領域マスク情報を用いて、前記学習データ生成用マスク情報を、第1の座標系のマスク情報に変換し、変換後のマスク情報と前記物体領域マスク情報と組み合わせることによって、前記学習用マスク情報を生成する。
本発明の一態様は、上記の幾何パラメータ推定装置であって、前記キーポイント検出モデルは、前記フレームに撮像されている所定の空間の空間的構造を特徴化した特徴マップを抽出し、前記特徴マップを圧縮することによって前記特徴マップに含まれる特徴を表す特徴情報を抽出し、抽出した前記特徴マップと、前記特徴情報とに基づいて、前記フレームから前記特徴点を検出して、検出した前記特徴点の検出結果を前記第1のキーポイント位置情報として出力し、前記特徴情報に基づいて、前記フレームからにおける前記特徴点の出現の有無を推定し、推定した結果を前記出現情報として出力し、前記特徴マップと、前記特徴情報とに基づいて、前記フレームに撮像されている所定の空間を区分けするラベルを、区分けされた各領域に付与することによって生成したマスク情報を出力し、前記特徴情報に基づいて、前記マスク情報に含まれる各ラベルの隣接関係を推定し、推定結果を前記領域隣接関係行列として出力する。
本発明の一態様は、フレームを入力として前記フレームに撮像されている第1の座標系の所定の空間における特徴点の位置を表すキーポイント位置情報を少なくとも出力するように学習されたキーポイント検出モデルにより得られた第1のキーポイント位置情報と、第2の座標系の前記所定の空間において予め定義された第2のキーポイント位置情報とを用いて、前記フレームに撮像されている前記第1の座標系の前記所定の空間を、前記第2の座標系の空間に変換するための幾何パラメータを推定する幾何パラメータ推定部、を備える幾何パラメータ推定システムである。
本発明の一態様は、フレームを入力として前記フレームに撮像されている第1の座標系の所定の空間における特徴点の位置を表すキーポイント位置情報を少なくとも出力するように学習されたキーポイント検出モデルにより得られた第1のキーポイント位置情報と、第2の座標系の前記所定の空間において予め定義された第2のキーポイント位置情報とを用いて、前記フレームに撮像されている前記第1の座標系の前記所定の空間を、前記第2の座標系の空間に変換するための幾何パラメータを推定する幾何パラメータ推定ステップ、を有する幾何パラメータ推定方法である。
本発明の一態様は、フレームを入力として前記フレームに撮像されている第1の座標系の所定の空間における特徴点の位置を表すキーポイント位置情報を少なくとも出力するように学習されたキーポイント検出モデルにより得られた第1のキーポイント位置情報と、第2の座標系の前記所定の空間において予め定義された第2のキーポイント位置情報とを用いて、前記フレームに撮像されている前記第1の座標系の前記所定の空間を、前記第2の座標系の空間に変換するための幾何パラメータを推定する幾何パラメータ推定ステップ、をコンピュータに実行させるためのコンピュータプログラムである。
本発明により、幾何パラメータの推定精度を向上させることが可能となる。
第1の実施形態における幾何パラメータ推定装置の機能構成を表す概略ブロック図である。 第1の実施形態における事前設定キーポイント座標情報の一例を示す図である。 第1の実施形態における正面画像キーポイント座標情報の一例を示す図である。 第1の実施形態における正面フレームと正面領域マスクの一例を示す図である。 第1の実施形態におけるキーポイント出現情報の一例を示す図である。 第1の実施形態におけるキーポイント出現情報の別例を示す図である。 領域隣接関係行列を生成する元となる領域マスクの一例を示す図である。 図7に示す領域マスクにおける領域隣接関係行列の一例を示す図である。 領域隣接関係行列を生成する元となる領域マスクの別例を示す図である。 図9に示す領域マスクにおける領域隣接関係行列の一例を示す図である。 第1の実施形態における幾何パラメータ推定装置が行う補間キーポイント座標情報生成処理の流れを示すフローチャートである。 第1の実施形態における補間キーポイント座標情報生成処理により生成された補間キーポイント座標情報の一例を示す図である。 第1の実施形態における幾何パラメータ推定装置が行う領域マスク生成処理の流れを示すフローチャートである。 第1の実施形態における領域マスク生成処理により生成された領域マスクの一例を示す図である。 第1の実施形態におけるキーポイント検出モデルの内部処理を説明するための図である。 第一の方法により得られるキーポイントの検出結果を示す図である。 第二の方法により得られるキーポイントの検出結果を示す図である。 第1の実施形態における幾何パラメータ推定装置が行う幾何パラメータ推定処理の流れを示すフローチャートである。 第2の実施形態における幾何パラメータ推定システムのシステム構成を示す図である。
以下、本発明の一実施形態を、図面を参照しながら説明する。
(第1の実施形態)
図1は、第1の実施形態における幾何パラメータ推定装置10の機能構成を表す概略ブロック図である。
幾何パラメータ推定装置10は、所定の空間が撮像されたフレームに基づいて、入力したフレームの画像変換を行うために用いる幾何パラメータを推定する。ここで、所定の空間とは、バスケットボール、サッカー、ラグビー、アイスホッケー等のスポーツが行われる競技場(競技空間)である。フレームとは、映像を構成する1コマの画像である。以下の説明では、所定の空間がバスケットボールの競技場である場合を例に説明する。また、幾何パラメータ推定装置10に入力される画像は、フレームに限らず静止画であってもよい。
まず幾何パラメータ推定装置10が行う処理の流れについて説明する。幾何パラメータ推定装置10は、まず映像の各フレームを入力として、事前に定義されたキーポイントの座標位置(キーポイント位置情報)を各フレームから検出する。キーポイントは、所定の空間における特徴点を表す情報であり、例えば競技空間上の線の交点である。なお、キーポイントの座標位置は、競技空間の規格から適切にスケールされて算出することが望ましい。キーポイントは、競技空間上の線の交点でなくてもよく、例えば競技空間において特徴を表す位置をキーポイントとしてもよい。
次に、幾何パラメータ推定装置10は、フレーム内に第1の座標系で撮像されている所定の空間における特徴点の位置を表すキーポイント位置情報を少なくとも出力するように学習されたキーポイント検出モデルにより得られたキーポイントの座標位置(第1のキーポイント位置情報)と、第1の座標系と異なる第2の座標系におけるキーポイントの座標位置(第2のキーポイント位置情報)とに基づいて、入力したフレーム内の競技空間を、第2の座標系に変換する幾何パラメータを推定する。幾何パラメータ推定方法は、任意であり、例えば非特許文献1に開示されているDLTや、あるいは、参考文献1に開示されているRANSACが用いられてもよい。第2の座標系は、例えば競技空間を真上から(正面から)見た座標を表す。
(参考文献1:Martin A. Fischler, Robert C. Bolles, “Random Sample Consensus: A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography”, in Comm. ACM, 1981.)
次に、幾何パラメータ推定装置10の具体的な構成について説明する。
幾何パラメータ推定装置10は、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備え、幾何パラメータ推定プログラムを実行する。幾何パラメータ推定プログラムの実行によって、幾何パラメータ推定装置10は、記憶部11、学習データ生成部12、キーポイント検出モデル学習部13、幾何パラメータ推定部14を備える装置として機能する。なお、幾何パラメータ推定装置10の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)やGPU(Graphics Processing Unit)等のハードウェアを用いて実現されてもよい。また、幾何パラメータ推定プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、幾何パラメータ推定プログラムは、電気通信回線を介して送受信されてもよい。
記憶部11は、各種情報を記憶する。記憶部11は、学習データ15、キーポイント検出モデル16及びテスト画像17を記憶する。記憶部11は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。
学習データ15は、学習データ生成部12による学習データの生成及びキーポイント検出モデル16による学習に利用されるデータである。学習データ15は、例えば画像151、事前設定キーポイント座標情報152、正面画像キーポイント座標情報153、正面領域マスク154、補間キーポイント座標情報155、キーポイント出現情報156、領域マスク157及び領域隣接関係行列158である。
画像151は、所定の空間(例えば、バスケットボールの競技場)が撮像された複数のフレームである。画像151は、学習用フレームである。
事前設定キーポイント座標情報152(第3のキーポイント位置情報)は、フレームに撮像されている所定の空間におけるキーポイントの座標位置を示す情報である。座標位置は、例えばx座標及びy座標である。事前設定キーポイント座標情報152は、予め人手で作成される。例えば、事前設定キーポイント座標情報152は、フレーム毎に対応付けて作成される。事前設定キーポイント座標情報152の例を図2に示す。
図2は、事前設定キーポイント座標情報152の一例を示す図である。図2(A)は画像151としてのフレームを表し、図2(B)は事前設定キーポイント座標情報152を表す。
図2(A)に示すように、フレームには4個のキーポイント102、103、105及び107が定義されている。そして、図2(B)に示すように、定義されたキーポイント102、103、105及び107において座標位置が設定されている。本実施形態では、キーポイントの数を最大10とした場合を例に示しているが、キーポイントの数はこれに限らず適宜設定されてもよい。
図2(B)においてキーポイント102は、図2(A)に示すフレーム内における(x,y)=(312,267)に位置していることが示されている。図2(B)においてキーポイント103は、図2(A)に示すフレーム内における(x,y)=(1041,249)に位置していることが示されている。図2(B)においてキーポイント105は、図2(A)に示すフレーム内における(x,y)=(938,333)に位置していることが示されている。図2(B)においてキーポイント107は、図2(A)に示すフレーム内における(x,y)=(1003,418)に位置していることが示されている。ここで、図2(A)に示すフレーム内に撮像されていないキーポイント(例えば、キーポイント101、104、106、108~110)については人手で位置が設定できないため、ブランク(図2(B)では“-”)とされる。
このように、図2(B)に示すような座標位置の設定は人手で行われ、事前設定キーポイント座標情報152として記憶部11に記憶される。
図1に戻って説明を続ける。正面画像キーポイント座標情報153は、フレームに第2の座標系で撮像されている所定の空間におけるキーポイントの座標位置を示す情報である。正面画像キーポイント座標情報153は、予め人手で作成される。例えば、正面画像キーポイント座標情報153は、所定の空間における全てのキーポイントの座標情報が設定された情報である。正面画像キーポイント座標情報153の例を図2に示す。
図3は、正面画像キーポイント座標情報153の一例を示す図である。図3(A)は第2の座標系におけるフレームを表し、図3(B)は正面画像キーポイント座標情報153を表す。
図3(A)に示すように、第2の座標系(例えば、競技空間を、真上から(正面から)見た状態)におけるフレームには10個のキーポイント101~110が定義されている。そして、図3(B)に示すように、定義されたキーポイント101~110において座標位置が設定されている。
図1に戻って説明を続ける。正面領域マスク154(学習データ生成用マスク情報)は、第2の座標系に変換されたフレーム(以下「正面フレーム」という。)の領域マスクである。領域マスクとは、フレームに撮像されている所定の空間に対して領域を区分けするラベルが付与されたマスク画像である。より具体的には、領域マスクは、フレームに撮像されている競技場の空間を、所定の条件に従って分割して、分割後の各領域に対して同一の領域に同一のラベルが付与されたマスク画像である。正面領域マスク154の例を図4に示す。
図4は、正面フレームと正面領域マスク154の一例を示す図である。図4(A)は正面フレームの一例を示し、図4(B)は正面領域マスク154の一例を示す。図4(B)に示す例では、正面フレームに撮像されている競技場の空間が7分割されている。ここで、正面領域マスク154の生成方法について説明する。まず、対象競技空間を、競技空間の規格から容易に定義可能な部分領域に分割する。例えば、バスケットコートを規格化されたラインやサークルに基づいて7つの領域に分割する。なお、図4(B)の例では、対象競技空間を、7つの領域に分割した例を示しているが、例えばコート中央に存在するこが多いセンターサークルに含まれる部分領域を独立して定義したり、あるいは3ポイントライン内の領域を一つの部分領域でまとめるなどしてもよい。また、実際の映像フレームには競技空間には含まれない領域、例えばコート外の領域や同物体領域も含まれる可能性が高い。そのため、これらの領域に対応するラベルもあらかじめ定義しておくものとする。そして、同一の領域には同一色のラベル(例えば、ラベル201~207)が割り当てられる。このようにして正面領域マスク154が生成される。正面領域マスク154は、1枚あればよい。
図1に戻って説明を続ける。補間キーポイント座標情報155(学習用キーポイント位置情報)は、事前設定キーポイント座標情報152においてキーポイントの座標位置が補間されたされた後の情報である。図2(B)に示したように、事前設定キーポイント座標情報152には、必ずしも全てのキーポイントの座標情報が設定されてはいない。そこで、事前設定キーポイント座標情報152のうち座標位置が欠落しているキーポイントの座標位置を補間する必要がある。そして、欠落しているキーポイントの座標位置が補間された情報が補間キーポイント座標情報155である。補間キーポイント座標情報155は、学習データ生成部12によって生成される。
キーポイント出現情報156(学習用出現情報)は、フレーム内のキーポイントの有無を示した情報である。キーポイント出現情報156において、フレーム内にあるキーポイントが1で表され、フレーム内にないキーポイントが0で表される。すなわち、キーポイントとして事前に定義された場所がフレーム内に含まれる場合には、フレーム内にキーポイントがあると判定される。一方、キーポイントとして事前に定義された場所がフレーム内に含まれない場合には、フレーム内にキーポイントがないと判定される。この判定は、キーポイント毎に行われる。キーポイント出現情報156の一例を図5及び図6に示す。
図5は、キーポイント出現情報156の一例を示す図である。図5(A)はキーポイント出現情報156を生成する元となるフレームの一例を示す図であり、図5(B)は図5(A)に示すフレームにおけるキーポイント出現情報156の一例を示す図である。
図5(A)に示すように、フレーム内にはキーポイント102、103、105及び107が含まれるため、キーポイント出現情報156のキーポイント102、103、105及び107に対応する箇所には1が代入される。図5(A)に示すフレーム内にはキーポイント101、104、106及び108~110が含まれないため、キーポイント出現情報156のキーポイント101、104、106及び108~110に対応する箇所には0が代入される。このようにして、図5(B)に示すようなキーポイント出現情報156が生成される。
次に図6を用いてキーポイント出現情報156の別例について説明する。図6(A)はキーポイント出現情報156を生成する元となるフレームの一例を示す図であり、図6(B)は図6(A)に示すフレームにおけるキーポイント出現情報156の一例を示す図である。
図6(A)に示すように、フレーム内にはキーポイント101~107及び109が含まれるため、キーポイント出現情報156のキーポイント101~107及び109に対応する箇所には1が代入される。図6(A)に示すフレーム内にはキーポイント108及び110が含まれないため、キーポイント出現情報156のキーポイント108及び110に対応する箇所には0が代入される。このようにして、図6(B)に示すようなキーポイント出現情報156が生成される。キーポイント出現情報156は、学習データ生成部12によって生成される。
図1に戻って説明を続ける。領域マスク157(学習用マスク情報)は、画像151に撮像されている競技場の空間に対して領域を区分けするラベルが付与されたマスク画像である。より具体的には、領域マスク157は、画像151に撮像されている競技場の空間を、所定の条件に従って分割して、分割後の各領域に対して同一の領域に同一のラベルが付与されたマスク画像である。領域マスク157は、学習データ生成部12によって生成される。
領域隣接関係行列158(学習用領域隣接関係行列)は、領域マスク157に含まれる各ラベルの隣接関係が表された行列である。ここで、領域マスク157に含まれるラベルとは、領域マスク157の各画素に割り当てられたラベルを表す。領域隣接関係行列158において、隣接関係のあるラベルは1で表され、隣接関係のないラベルは0で表される。隣接関係の有無は、領域マスク157に含まれる各ラベル同士が隣り合っているか否かで判定される。例えば、領域マスク157に含まれていて、かつ、隣り合っているラベルは、隣接関係があると判定される。一方、領域マスク157に含まれているが、隣り合っていないラベルは、隣接関係がないと判定される。領域隣接関係行列158の例と、領域隣接関係行列158を生成する元となる領域マスク157の例を図7~図10に示す。
図7は、領域隣接関係行列158を生成する元となる領域マスク157の一例を示す図である。図8は、図7に示す領域マスク157における領域隣接関係行列158の一例を示す図である。図7には、事前に規定された分割ルールに基づいて領域分割され、分割された各領域に対して9つの異なるラベルが付与された領域マスク157を示している。図8に示すように、領域隣接関係行列158における各行及び各列は、分割された各領域に対応している。図7に示した領域マスク157には全てのラベル(例えば、9つのラベル)の領域が出現しているため、領域隣接関係行列158のうち対角成分は全て1となる。
また、ラベル208の領域とラベル215の領域とは領域マスク157内で隣接しているため、領域隣接関係行列158の1行目8列目の要素には1が代入される。一方、ラベル208の領域とラベル211の領域とは領域マスク157内で隣接していないため、領域隣接関係行列158の1行目4列目の要素には0が代入される。このような処理を各ラベルに対して行うことによって、図8のような領域隣接関係行列158が生成される。
次に図9及び図10を用いて領域隣接関係行列158の別例について説明する。図9は、領域隣接関係行列158を生成する元となる領域マスク157の別例を示す図である。図10は、図9に示す領域マスク157における領域隣接関係行列158の一例を示す図である。図9には、事前に規定された分割ルールに基づいて領域分割され、分割された各領域に対して6つの異なるラベルが付与された領域マスク157を示している。図10に示すように、領域隣接関係行列158における各行及び各列は、分割された各領域に対応している。図9に示した領域マスク157には6つのラベルの領域が出現しているため、領域隣接関係行列158のうち6つのラベル(図9では、ラベル208、209、210、211、215及び216)の対角成分は1となり、領域マスク157に表れていないラベル(図9では、ラベル212、213及び214)の対角成分は0となる。図7及び図8で説明したように、隣接関係があるラベルの行列には1が代入され、隣接関係がないラベルの行列には0が代入される。領域隣接関係行列158は、学習データ生成部12によって生成される。
キーポイント検出モデル16は、フレーム(例えば、画像151やテスト画像17)を入力として、入力されたフレームにおけるキーポイントの検出結果、キーポイント出現情報、領域マスク及び領域隣接関係行列を出力するモデルである。キーポイント検出モデル16は、キーポイント検出モデル学習部13による学習に応じて最適化される。
テスト画像17は、キーポイント検出モデル16のテストに利用されるフレームである。
学習データ生成部12は、記憶部11に記憶されている学習データ15を用いて、キーポイント検出モデル16の学習に利用される一部の学習データを生成する。具体的には、学習データ生成部12は、補間キーポイント座標情報155、キーポイント出現情報156、領域マスク157及び領域隣接関係行列158を生成する。
キーポイント検出モデル学習部13は、学習データ15を用いて、キーポイント検出モデル16を学習する。
幾何パラメータ推定部14は、キーポイント検出モデル16及びテスト画像17を用いて幾何パラメータを推定する。
図11は、第1の実施形態における幾何パラメータ推定装置10が行う補間キーポイント座標情報生成処理の流れを示すフローチャートである。
学習データ生成部12は、事前設定キーポイント座標情報152及び正面画像キーポイント座標情報153を入力する(ステップS101)。学習データ生成部12は、入力した事前設定キーポイント座標情報152及び正面画像キーポイント座標情報153に基づいて幾何パラメータを推定する(ステップS102)。その後、学習データ生成部12は、推定した幾何パラメータを用いて、補間キーポイント座標情報155を生成する(ステップS103)。具体的には、学習データ生成部12は、得られた幾何パラメータを、対象のフレームに出現していないキーポイントの所定の座標空間における位置に適用することで、対象のフレームに出現していないキーポイントの座標位置を算出する。学習データ生成部12は、生成した補間キーポイント座標情報155を記憶部11に記憶する。
図12は、補間キーポイント座標情報生成処理により生成された補間キーポイント座標情報155の一例を示す図である。
図12(A)は、対象のフレームに出現していないキーポイントの座標位置を示す図であり、図12(B)は補間キーポイント座標情報155の具体例を示す図である。図12(A)には、対象のフレームには出現していないが、正面画像キーポイント座標情報153には出現しているキーポイントが示されている。補間キーポイント座標情報155は、対象フレームと、正面フレームとの間の幾何パラメータに基づいて対象のフレームには出現していないキーポイントの座標位置を算出する。
図13は、第1の実施形態における幾何パラメータ推定装置10が行う領域マスク生成処理の流れを示すフローチャートである。
学習データ生成部12は、記憶部11に記憶されているフレームを入力する(ステップS201)。学習データ生成部12は、入力したフレームに公知の物体領域推定処理を適用して、物体領域が示されたマスク画像(以下「物体領域マスク」という。)を生成する(ステップS202)。物体領域マスク(物体領域マスク情報)は、前景領域である物体領域に1の値が割り当てられ、背景領域に0の値が割り当てられたマスク画像である。なお、物体領域推定方法は任意であり、例えば参考文献2に開示されている方法を用いればよい。
(参考文献2:Kaiming He, Georgia Gkioxari, Piotr Dollar, Ross Girshick, “Mask R-CNN”, ICCV, 2017.)
学習データ生成部12は、事前設定キーポイント座標情報152及び正面画像キーポイント座標情報153を入力する(ステップS203)。学習データ生成部12は、入力した事前設定キーポイント座標情報152及び正面画像キーポイント座標情報153に基づいて幾何パラメータを推定する(ステップS204)。学習データ生成部12は、生成した物体領域マスクと、正面領域マスク154と入力する(ステップS205)。学習データ生成部12は、入力した物体領域マスクと、正面領域マスク154と、ステップS204の処理で推定した幾何パラメータとを用いて領域マスク157を生成する(ステップS206)。具体的には、学習データ生成部12は、得られた幾何パラメータを第2の座標系における正面領域マスク154に適用し、得られた結果を、物体領域マスクに重畳することによって図14に示すような領域マスク157を生成する。より具体的には、学習データ生成部12は、幾何パラメータを用いて、正面領域マスク154を、入力したフレームに撮像されている所定の空間の座標系の領域マスクに変換し、変換後の領域マスクと物体領域マスクと組み合わせることによって、領域マスク157を生成する。
図14は、領域マスク生成処理により生成された領域マスク157の一例を示す図である。
図14に示すように、領域マスク生成処理に使用したフレームに対応する領域マスク157を自動で生成することができる。
図15は、キーポイント検出モデル16の内部処理を説明するための図である。キーポイント検出モデル16は、特徴マップ抽出部と、エンコード部と、キーポイント検出部と、キーポイント出現情報推定部と、領域マスク推定部と、領域隣接関係行列推定部とで構成される。
特徴マップ抽出部は、入力された画像(例えば、画像151又はテスト画像17)から特徴マップ250を抽出する。特徴マップ250は、フレームに撮像されている空間の空間構造を特徴化したマップである。特徴マップを抽出する方法は任意であり、例えば特徴マップ抽出部は、参考文献3に開示されている畳み込みニューラルネットワークを用いて特徴マップを抽出すればよい。
(参考文献3:Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, “Deep Residual Learning for Image Recognition”, in Proc. CVPR, 2015.)
エンコード部は、特徴マップ抽出部により得られた特徴マップ250を圧縮して埋め込みベクトルを抽出する。埋め込みベクトルとは、特徴マップ250のチャンネル方向の長さは変わらず、空間方向(x方向及びy方向)に特徴マップ250を圧縮して得られるベクトルである。エンコード部は、例えば参考文献4に開示されているSqueeze-and-Excitation Blockや、参考文献5に開示されているContext Encoding Moduleを用いて埋め込みベクトルを出力すればよい。
(参考文献4:Jie Hu, Li Shen, Samuel Albanie, Gang Sun, Enhua Wu, “Squeeze-and-Excitation Networks”, in Proc. CVPR, 2018.)
(参考文献5:Hang Zhang, Kristin Dana, Jianping Shi, Zhongyue Zhang, Xiaogang Wang, Ambrish Tyagi, Amit Agrawal, “Context Encoding for Semantic Segmentation”, CVPR, 2018.)
また、キーポイント検出部は、キーポイントの位置を出力する第二の方法として、図17に示すように、キーポイント数Nと同じチャンネル数を持つスコアマップとして出力してもよい。この場合、所定の閾値以上かつ各チャンネルの中で最もスコアの高い位置が、対応するキーポイントの位置に相当する。特徴マップと埋め込みベクトルを入力としてスコアマップを出力する方法は任意であり、例えば埋め込みベクトルと特徴マップの要素積をとって得られた出力に畳み込みニューラルネットワークを適用し、目的サイズのスコアマップを出力すればよい。図17は、第二の方法により得られるキーポイントの検出結果を示す図である。図17に示す例では、各チャンネル(c方向)がキーポイント個々に対応している。キーポイント検出部は、対応するキーポイントが存在する位置でスコアが高くなるようなスコアマップを出力すればよい。図16は、第一の方法により得られるキーポイントの検出結果を示す図である。
また、キーポイント検出部は、キーポイントの座標位置を出力する第二の方法として、図17に示すように、キーポイント数Nと同じチャンネル数を持つスコアマップと出力してもよい。この場合、所定の閾値以上かつ各チャンネルの中で最もスコアの高い位置が、対応するキーポイントの座標位置に相当する。特徴マップと埋め込みベクトルを入力としてスコアマップを出力する方法は任意であり、例えば埋め込みベクトルと特徴マップの要素積をとって得られた出力に畳み込みニューラルネットワークを適用し、目的サイズのスコアマップを出力すればよい。図17は、第二の方法により得られるキーポイントの検出結果を示す図である。図17に示す例では、各チャンネル(c方向)がキーポイント個々に対応している。キーポイント検出部は、対応するキーポイントが存在する位置でスコアが高くなるようなスコアマップを出力すればよい。
キーポイント出現情報推定部は、埋め込みベクトルに基づいて、フレームに撮像されているキーポイントを推定する。キーポイント出現情報の次元数はN(Nは1以上の整数)である。キーポイント出現ベクトルを出力する方法は任意であり、キーポイント出現情報推定部は、例えば埋め込みベクトルと特徴マップの要素積をとって得られた出力をベクトル化し、それに目的サイズのベクトルを出力するような多層パーセプトロンを適用すればよい。
領域マスク推定部は、特徴マップ250と埋め込みベクトルとに基づいて、フレームの各ピクセルに対して、事前に定義された分割ルールに従ったラベルのうちいずれかを割り当てる。領域マスクのチャンネル数はM(事前に定義した部分領域の数)である。特徴マップ250と埋め込みベクトルを入力としてスコアマップを出力する方法は任意であり、例えば埋め込みベクトルと特徴マップの要素積をとって得られた出力に畳み込みニューラルネットワークを適用し、目的サイズの領域マスクを出力すればよい。これにより、領域マスク推定部は、入力されたフレームに対応する領域マスクを生成する。
領域隣接関係行列推定部は、埋め込みベクトルに基づいて、ラベルの隣接関係を推定する。領域隣接関係行列推定部は、推定結果から領域隣接関係行列を生成し、生成した領域隣接関係行列を出力する。領域隣接関係行列は、ベクトルで表現することが可能であり、図8及び図10の例の場合、その次元数は45である。領域隣接関係行列推定部が特徴マップ250と埋め込みベクトルを入力として領域隣接関係行列を出力する方法は任意であり、例えば埋め込みベクトルと特徴マップの要素積をとって得られた出力をベクトル化し、それに目的サイズのベクトルを出力するような多層パーセプトロンを適用すればよい。これにより、領域隣接関係行列推定部は、領域隣接関係行列を生成する。
次に、キーポイント検出モデル16の学習について説明する。キーポイント検出モデル16の学習には、画像151が利用される。キーポイント検出モデル学習部13は、まずキーポイント検出モデル16から出力されるキーポイント検出結果と、キーポイント検出モデル16に入力された画像151から得られるキーポイント検出結果(例えば、補間キーポイント座標情報155)との誤差を算出する。また、キーポイント検出モデル学習部13は、キーポイント検出モデル16から出力されるキーポイント出現情報と、キーポイント検出モデル16に入力された画像151から得られるキーポイント出現情報156との誤差を算出する。
また、キーポイント検出モデル学習部13は、キーポイント検出モデル16から出力される領域マスクと、キーポイント検出モデル16に入力された画像151から得られる領域マスク157との誤差を算出する。また、キーポイント検出モデル学習部13は、キーポイント検出モデル16から出力される領域隣接関係行列と、キーポイント検出モデル16に入力された画像151から得られる領域隣接関係行列158との誤差を算出する。その後、キーポイント検出モデル学習部13は、算出した各誤差を同時に最小化するようにパラメータを学習する。
キーポイント検出結果の誤差については、キーポイント検出モデル学習部13は、キーポイント検出結果を図16のように算出した場合には、L2ノルムで算出すればよい。また、キーポイント検出モデル学習部13は、キーポイント検出結果を図17のように算出した場合には、スコアマップ中の各ピクセルのクロスエントロピーの和で算出すればよい。以下では、キーポイント検出結果の誤差をφ_keypointと定義する。
キーポイント出現情報の誤差については、キーポイント検出モデル学習部13は、ベクトル各要素のバイナリクロスエントロピーの和で算出すればよい。以下では、キーポイント出現情報の誤差をΨ_keypointと定義する。
領域マスクの誤差については、キーポイント検出モデル学習部13は、領域マスクの各ピクセルのクロスエントロピーの和で算出すればよい。以下では、領域マスクの誤差をφ_maskと定義する。
領域隣接関係行列の誤差については、キーポイント検出モデル学習部13は、行列各要素のバイナリクロスエントロピーの和で算出すればよい。以下では、領域隣接関係行列の誤差をΨ_maskと定義する。
キーポイント検出モデル学習部13は、モデルの学習を、a_1、a_2、a_3、a_4をそれぞれ任意の実数値として、以下の式(1)から算出される誤差値の重み和を最小化することで行う。
a_1×φ_keypoint+a_2×Ψ_keypoint+a_3×φ_mask+a_4×Ψ_mask・・・(1)
モデルを学習するアルゴリズムもまた任意であり、例えばmomentum-SGDやADAMを用いることができる。
図18は、第1の実施形態における幾何パラメータ推定装置10が行う幾何パラメータ推定処理の流れを示すフローチャートである。
幾何パラメータ推定部14は、テスト画像17を入力する(ステップS301)。幾何パラメータ推定部14は、入力したテスト画像17を、キーポイント検出モデル16に入力することによって、入力したテスト画像17に含まれるキーポイントの検出する(ステップS302)。そして、幾何パラメータ推定部14は、検出したキーポイントの座標位置と、第2の座標系におけるキーポイントの座標位置とに基づいて、入力したフレーム内の競技空間を、第2の座標系に変換する幾何パラメータを推定する(ステップS303)。
以上のように構成された幾何パラメータ推定装置10では、映像の各画像フレームを入力として、入力されたフレームからキーポイントを検出する。キーポイントは、フレームに撮像されている所定の空間の特徴を表す位置である。したがって、入力されたフレームから容易にキーポイントを検出することができる。幾何パラメータ推定装置10は、検出されたキーポイントの座標位置と、第2の座標系における予め検出されているキーポイントの座標位置とに基づいて幾何パラメータを算出する。これにより、従来のようにフレーム中のラインやサークルを推定するのに比べてより簡便に幾何パラメータを推定することができる。さらに、所定の空間の特徴となる位置を検出するため、ラインやサークルを推定するのに比べて精度良くキーポイントを検出することができる。したがって、精度よく検出されたキーポイントと、事前に検出されている精度の高いキーポイントとに基づいて、幾何パラメータが推定されるため、幾何パラメータの推定精度を向上させることが可能になる。
また、幾何パラメータ推定装置10は、キーポイントを検出するキーポイント検出モデル16を、キーポイント検出モデル16から出力されるキーポイント検出結果と、正解データとの誤差と、キーポイント検出モデル16から出力されるキーポイント出現情報と、正解データとの誤差と、キーポイント検出モデル16から出力される領域マスクと、正解データとの誤差と、キーポイント検出モデル16から出力される領域隣接関係行列と、正解データとの誤差とを同時に最小化するようにパラメータを学習する。これにより、学習を重ねるたびに、キーポイントの検出精度を向上させることができる。したがって、精度よく検出されたキーポイントと、事前に検出されている精度の高いキーポイントとに基づいて、幾何パラメータが推定されるため、幾何パラメータの推定精度を向上させることが可能になる。
また、幾何パラメータ推定装置10は、キーポイント検出モデル16の学習に用いる一部の学習データを自動で生成する。これにより、全ての学習データを簡便に生成することができる。また、学習データの構築コストも低い。また、幾何パラメータ推定装置10は、生成した学習データを用いて、キーポイント検出モデル16を学習することによって、キーポイント間の共起性、キーポイントと領域マスクとの位置関係性、領域マスク中の各領域の位置関係性を明示的に考慮することが可能となる。したがって、フレームに撮像されているキーポイントの検出が可能なキーポイント検出モデル16をより精度よく学習することができる。その結果、幾何パラメータの推定精度を向上させることができる。
<変形例>
幾何パラメータ推定装置10がクラウド上に設けられて、ネットワークを介して他の装置からの要求に応じて、キーポイント検出モデル16の学習及び幾何パラメータの推定を行うように構成されてもよい。
(第2の実施形態)
第2の実施形態では、幾何パラメータ推定装置10が備える一部又は全ての機能部が、クラウド上のサーバに実装され、クラウド上のサーバでモデルの学習を行う構成について説明する。
図19は、第2の実施形態における幾何パラメータ推定システム100のシステム構成を示す図である。幾何パラメータ推定システム100は、幾何パラメータ推定装置10a及びモデル学習装置300を備える。幾何パラメータ推定装置10a及びモデル学習装置300及びは、ネットワーク30を介して通信可能に接続される。ネットワーク30は、例えばインターネットである。
モデル学習装置300は、キーポイント検出モデル16の学習を行う。モデル学習装置300は、クラウド上のサーバとして構成される。
幾何パラメータ推定装置10aは、モデル学習装置300により学習されたキーポイント検出モデル16を用いて幾何パラメータを推定する。
次に、幾何パラメータ推定装置10a及びモデル学習装置300の具体的な機能構成について説明する。
まずモデル学習装置300の機能構成について説明する。モデル学習装置300は、バスで接続されたCPUやメモリや補助記憶装置などを備え、学習プログラムを実行する。学習プログラムの実行によって、モデル学習装置300は、記憶部11、学習データ生成部12、キーポイント検出モデル学習部13、通信部301を備える装置として機能する。なお、幾何パラメータ推定装置10aの各機能の全て又は一部は、ASICやPLDやFPGAやGPU等のハードウェアを用いて実現されてもよい。また、学習プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、学習プログラムは、電気通信回線を介して送受信されてもよい。
モデル学習装置300において、記憶部11、記憶部11、学習データ生成部12、キーポイント検出モデル学習部13は、第1の実施形態における同名の機能部と同様の処理を行うため説明を省略する。
通信部301は、幾何パラメータ推定装置10aに対してキーポイント検出モデル16を送信する。
次に、幾何パラメータ推定装置10aの機能構成について説明する。幾何パラメータ推定装置10aは、バスで接続されたCPUやメモリや補助記憶装置などを備え、幾何パラメータ推定プログラムを実行する。幾何パラメータ推定プログラムの実行によって、幾何パラメータ推定装置10aは、幾何パラメータ推定部14及び通信部401を備える装置として機能する。なお、幾何パラメータ推定装置10aの各機能の全て又は一部は、ASICやPLDやFPGAやGPU等のハードウェアを用いて実現されてもよい。また、幾何パラメータ推定プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、幾何パラメータ推定プログラムは、電気通信回線を介して送受信されてもよい。
通信部401は、モデル学習装置300から送信されたキーポイント検出モデル16を受信する。
幾何パラメータ推定部14は、第1の実施形態における同名の機能部と同様に幾何パラメータを推定する。
以上のように構成された幾何パラメータ推定システム100では、モデルの学習を行う装置(モデル学習装置300)と、幾何パラメータの推定を行う装置(幾何パラメータ推定装置10a)とを別の筐体としている。また、モデル学習装置300をクラウド上のサーバとして設けている。これにより、幾何パラメータを推定したいユーザは、クラウド上に設けられたモデル学習装置300にアクセスすることによって、容易に幾何パラメータを推定することができる。
<変形例>
モデル学習装置300が備える一部の機能部は、他の装置(例えば、幾何パラメータ推定装置10a)に実装されてもよい。
<第1の実施形態及び第2の実施形態に共通する変形例>
上記の各実施形態では、所定の空間を区分けするラベルが付与されたマスク画像(領域マスク)を用いる構成を示したが、区分けした空間毎の位置関係を示す情報を含むマスク情報が用いられてもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
10、10a…幾何パラメータ推定装置, 11…記憶部, 12…学習データ生成部, 13…キーポイント検出モデル学習部, 14…幾何パラメータ推定部, 300…モデル学習装置, 301…通信部, 401…通信部

Claims (10)

  1. フレームを入力として前記フレームに撮像されている第1の座標系の所定の空間における特徴点の位置を表すキーポイント位置情報を少なくとも出力するように学習されたキーポイント検出モデルにより得られた第1のキーポイント位置情報と、第2の座標系の前記所定の空間において予め定義された第2のキーポイント位置情報とを用いて、前記フレームに撮像されている前記第1の座標系の前記所定の空間を、前記第2の座標系の空間に変換するための幾何パラメータを推定する幾何パラメータ推定部と、
    前記キーポイント検出モデルを学習するキーポイント検出モデル学習部と、
    を備え、
    前記キーポイント検出モデル学習部は、前記第1の座標系の所定の空間が撮像された学習用フレームと、前記学習用フレームと関連付けられた学習用キーポイント位置情報と、前記学習用フレームにおける前記特徴点の出現の有無を表す学習用出現情報と、前記学習用フレームと関連付けられた情報であって、前記所定の空間を区分けするラベルが付与された学習用マスク情報と、前記学習用マスク情報に含まれる各ラベルの隣接関係を表した学習用領域隣接関係行列と、を入力として、入力された前記学習用フレームに基づいて前記キーポイント検出モデルが出力する前記第1のキーポイント位置情報、出現情報、マスク情報及び領域隣接関係行列それぞれについて、入力された前記学習用キーポイント位置情報、入力された前記学習用出現情報、入力された前記学習用マスク情報及び入力された前記学習用領域隣接関係行列との誤差の演算結果を同時に最小化するように前記キーポイント検出モデルを学習する幾何パラメータ推定装置。
  2. フレームを入力として前記フレームに撮像されている第1の座標系の所定の空間における特徴点の位置を表すキーポイント位置情報を少なくとも出力するように学習されたキーポイント検出モデルにより得られた第1のキーポイント位置情報と、第2の座標系の前記所定の空間において予め定義された第2のキーポイント位置情報とを用いて、前記フレームに撮像されている前記第1の座標系の前記所定の空間を、前記第2の座標系の空間に変換するための幾何パラメータを推定する幾何パラメータ推定部、
    を備え、
    前記第1の座標系の所定の空間が撮像された学習用フレームと、前記第2のキーポイント位置情報と、前記学習用フレームに撮像されている前記所定の空間上における特徴点の位置を表す第3のキーポイント位置情報と、前記第2の座標系の所定の空間における学習データ生成用マスク情報を入力として、前記キーポイント検出モデルでの学習に用いる学習データを生成する学習データ生成部をさらに備える幾何パラメータ推定装置。
  3. 前記学習データ生成部は、入力された前記第2のキーポイント位置情報及び前記第3のキーポイント位置情報に基づいて幾何パラメータを推定し、推定した前記幾何パラメータと、前記第2のキーポイント位置情報とを用いて、前記第3のキーポイント位置情報に含まれないキーポイントの位置を算出することによって前記学習用フレームと関連付けられた学習用キーポイント位置情報を生成する、請求項2に記載の幾何パラメータ推定装置。
  4. 前記学習データ生成部は、入力された前記学習用フレームに撮像されている物体領域を推定することによって物体領域が示された物体領域マスク情報をさらに生成し、入力された前記第2のキーポイント位置情報及び前記第3のキーポイント位置情報に基づいて幾何パラメータを推定し、推定した前記幾何パラメータ、前記学習データ生成用マスク情報及び前記物体領域マスク情報を用いて、前記学習データ生成用マスク情報を、第1の座標系のマスク情報に変換し、変換後のマスク情報と前記物体領域マスク情報と組み合わせることによって、前記所定の空間を区分けするラベルが付与された学習用マスク情報を生成する、請求項2又は3に記載の幾何パラメータ推定装置。
  5. 前記キーポイント検出モデルは、
    前記フレームに撮像されている所定の空間の空間的構造を特徴化した特徴マップを抽出し、
    前記特徴マップを圧縮することによって前記特徴マップに含まれる特徴を表す特徴情報を抽出し、
    抽出した前記特徴マップと、前記特徴情報とに基づいて、前記フレームから前記特徴点を検出して、検出した前記特徴点の検出結果を前記第1のキーポイント位置情報として出力し、
    前記特徴情報に基づいて、前記フレームからにおける前記特徴点の出現の有無を推定し、推定した結果を出現情報として出力し、
    前記特徴マップと、前記特徴情報とに基づいて、前記フレームに撮像されている所定の空間を区分けするラベルを、区分けされた各領域に付与することによって生成したマスク情報を出力し、
    前記特徴情報に基づいて、前記マスク情報に含まれる各ラベルの隣接関係を推定し、推定結果を領域隣接関係行列として出力する、請求項1から4のいずれか一項に記載の幾何パラメータ推定装置。
  6. フレームを入力として前記フレームに撮像されている第1の座標系の所定の空間における特徴点の位置を表すキーポイント位置情報を少なくとも出力するように学習されたキーポイント検出モデルにより得られた第1のキーポイント位置情報と、第2の座標系の前記所定の空間において予め定義された第2のキーポイント位置情報とを用いて、前記フレームに撮像されている前記第1の座標系の前記所定の空間を、前記第2の座標系の空間に変換するための幾何パラメータを推定する幾何パラメータ推定部と、
    前記キーポイント検出モデルを学習するキーポイント検出モデル学習部と、
    を備え、
    前記キーポイント検出モデル学習部は、前記第1の座標系の所定の空間が撮像された学習用フレームと、前記学習用フレームと関連付けられた学習用キーポイント位置情報と、前記学習用フレームにおける前記特徴点の出現の有無を表す学習用出現情報と、前記学習用フレームと関連付けられた情報であって、前記所定の空間を区分けするラベルが付与された学習用マスク情報と、前記学習用マスク情報に含まれる各ラベルの隣接関係を表した学習用領域隣接関係行列と、を入力として、入力された前記学習用フレームに基づいて前記キーポイント検出モデルが出力する前記第1のキーポイント位置情報、出現情報、マスク情報及び領域隣接関係行列それぞれについて、入力された前記学習用キーポイント位置情報、入力された前記学習用出現情報、入力された前記学習用マスク情報及び入力された前記学習用領域隣接関係行列との誤差の演算結果を同時に最小化するように前記キーポイント検出モデルを学習する幾何パラメータ推定システム。
  7. フレームを入力として前記フレームに撮像されている第1の座標系の所定の空間における特徴点の位置を表すキーポイント位置情報を少なくとも出力するように学習されたキーポイント検出モデルにより得られた第1のキーポイント位置情報と、第2の座標系の前記所定の空間において予め定義された第2のキーポイント位置情報とを用いて、前記フレームに撮像されている前記第1の座標系の前記所定の空間を、前記第2の座標系の空間に変換するための幾何パラメータを推定する幾何パラメータ推定部、
    を備え、
    前記第1の座標系の所定の空間が撮像された学習用フレームと、前記第2のキーポイント位置情報と、前記学習用フレームに撮像されている前記所定の空間上における特徴点の位置を表す第3のキーポイント位置情報と、前記第2の座標系の所定の空間における学習データ生成用マスク情報を入力として、前記キーポイント検出モデルでの学習に用いる学習データを生成する学習データ生成部をさらに備える幾何パラメータ推定システム。
  8. コンピュータが、
    フレームを入力として前記フレームに撮像されている第1の座標系の所定の空間における特徴点の位置を表すキーポイント位置情報を少なくとも出力するように学習されたキーポイント検出モデルにより得られた第1のキーポイント位置情報と、第2の座標系の前記所定の空間において予め定義された第2のキーポイント位置情報とを用いて、前記フレームに撮像されている前記第1の座標系の前記所定の空間を、前記第2の座標系の空間に変換するための幾何パラメータを推定する幾何パラメータ推定ステップと、
    前記キーポイント検出モデルを学習するキーポイント検出モデル学習ステップと、
    を有し、
    前記キーポイント検出モデル学習ステップにおいて、前記第1の座標系の所定の空間が撮像された学習用フレームと、前記学習用フレームと関連付けられた学習用キーポイント位置情報と、前記学習用フレームにおける前記特徴点の出現の有無を表す学習用出現情報と、前記学習用フレームと関連付けられた情報であって、前記所定の空間を区分けするラベルが付与された学習用マスク情報と、前記学習用マスク情報に含まれる各ラベルの隣接関係を表した学習用領域隣接関係行列と、を入力として、入力された前記学習用フレームに基づいて前記キーポイント検出モデルが出力する前記第1のキーポイント位置情報、出現情報、マスク情報及び領域隣接関係行列それぞれについて、入力された前記学習用キーポイント位置情報、入力された前記学習用出現情報、入力された前記学習用マスク情報及び入力された前記学習用領域隣接関係行列との誤差の演算結果を同時に最小化するように前記キーポイント検出モデルを学習する幾何パラメータ推定方法。
  9. コンピュータが、
    フレームを入力として前記フレームに撮像されている第1の座標系の所定の空間における特徴点の位置を表すキーポイント位置情報を少なくとも出力するように学習されたキーポイント検出モデルにより得られた第1のキーポイント位置情報と、第2の座標系の前記所定の空間において予め定義された第2のキーポイント位置情報とを用いて、前記フレームに撮像されている前記第1の座標系の前記所定の空間を、前記第2の座標系の空間に変換するための幾何パラメータを推定する幾何パラメータ推定ステップ、
    を有し、
    前記第1の座標系の所定の空間が撮像された学習用フレームと、前記第2のキーポイント位置情報と、前記学習用フレームに撮像されている前記所定の空間上における特徴点の位置を表す第3のキーポイント位置情報と、前記第2の座標系の所定の空間における学習データ生成用マスク情報を入力として、前記キーポイント検出モデルでの学習に用いる学習データを生成する学習データ生成部をさらに有する幾何パラメータ推定方法。
  10. 請求項1から5のいずれか一項に記載の幾何パラメータ推定装置として、コンピュータを機能させるためのコンピュータプログラム。
JP2019089304A 2019-05-09 2019-05-09 幾何パラメータ推定装置、幾何パラメータ推定システム、幾何パラメータ推定方法及びコンピュータプログラム Active JP7334058B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019089304A JP7334058B2 (ja) 2019-05-09 2019-05-09 幾何パラメータ推定装置、幾何パラメータ推定システム、幾何パラメータ推定方法及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019089304A JP7334058B2 (ja) 2019-05-09 2019-05-09 幾何パラメータ推定装置、幾何パラメータ推定システム、幾何パラメータ推定方法及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2020187385A JP2020187385A (ja) 2020-11-19
JP7334058B2 true JP7334058B2 (ja) 2023-08-28

Family

ID=73223209

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019089304A Active JP7334058B2 (ja) 2019-05-09 2019-05-09 幾何パラメータ推定装置、幾何パラメータ推定システム、幾何パラメータ推定方法及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP7334058B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560769B (zh) * 2020-12-25 2023-08-29 阿波罗智联(北京)科技有限公司 用于检测障碍物的方法、电子设备、路侧设备和云控平台
WO2022185473A1 (ja) * 2021-03-04 2022-09-09 日本電気株式会社 物体検知モデル生成装置、物体検知モデル生成方法、物体検知装置、物体検知方法、及び、記録媒体

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016099941A (ja) 2014-11-26 2016-05-30 日本放送協会 オブジェクト位置推定システム、及びそのプログラム
JP2018206285A (ja) 2017-06-09 2018-12-27 日本放送協会 オブジェクト追跡装置及びオブジェクト軌跡生成システム
JP2019057070A (ja) 2017-09-20 2019-04-11 キヤノン株式会社 画像処理装置、画像処理方法、およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016099941A (ja) 2014-11-26 2016-05-30 日本放送協会 オブジェクト位置推定システム、及びそのプログラム
JP2018206285A (ja) 2017-06-09 2018-12-27 日本放送協会 オブジェクト追跡装置及びオブジェクト軌跡生成システム
JP2019057070A (ja) 2017-09-20 2019-04-11 キヤノン株式会社 画像処理装置、画像処理方法、およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Daniel DeTone et al.,Toward Geometric Deep SLAM,[online],2017年,https://arxiv.org/abs/1707.07410

Also Published As

Publication number Publication date
JP2020187385A (ja) 2020-11-19

Similar Documents

Publication Publication Date Title
JP6525453B2 (ja) オブジェクト位置推定システム、及びそのプログラム
RU2498404C2 (ru) Способ и устройство для генерирования регистрационной записи события
US8805007B2 (en) Integrated background and foreground tracking
EP2034747A2 (en) Apparatus and method for rendering a 3D scene
CA2913432A1 (en) System and method for identifying, analyzing, and reporting on players in a game from video
Gerke et al. Soccer player recognition using spatial constellation features and jersey number recognition
CN104376575B (zh) 一种基于多摄像头监控的行人计数方法和装置
Ren et al. Multi-camera video surveillance for real-time analysis and reconstruction of soccer games
JP7334058B2 (ja) 幾何パラメータ推定装置、幾何パラメータ推定システム、幾何パラメータ推定方法及びコンピュータプログラム
Kotera et al. Intra-frame object tracking by deblatting
US8164633B2 (en) Calibration apparatus and method for imaging devices and computer program
Theiner et al. Tvcalib: Camera calibration for sports field registration in soccer
JP6583923B2 (ja) カメラのキャリブレーション装置、方法及びプログラム
JP7195892B2 (ja) 座標変換行列推定方法及びコンピュータプログラム
Skinner et al. Localisation for augmented reality at sport events
Chen et al. Player trajectory reconstruction for tactical analysis
Szenberg et al. Automatic camera calibration for image sequences of a football match
Parisot et al. Consensus-based trajectory estimation for ball detection in calibrated cameras systems
JP7253969B2 (ja) 幾何パラメータ推定装置、幾何パラメータ推定システム、幾何パラメータ推定方法及びコンピュータプログラム
Gomez-Nieto et al. Quality aware features for performance prediction and time reduction in video object tracking
Khokhar et al. Multi-agent event recognition by preservation of spatiotemporal relationships between probabilistic models
Chen et al. Player trajectory reconstruction from broadcast basketball video
Pandya et al. Homography based player identification in live sports
JP5419925B2 (ja) 通過物体数計測方法、通過物体数計測装置、及びプログラム
Peng et al. Multi-camera pedestrian detection with multi-view bayesian network model.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211223

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230725

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230816

R150 Certificate of patent or registration of utility model

Ref document number: 7334058

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150