JP7334058B2

JP7334058B2 - 幾何パラメータ推定装置、幾何パラメータ推定システム、幾何パラメータ推定方法及びコンピュータプログラム

Info

Publication number: JP7334058B2
Application number: JP2019089304A
Authority: JP
Inventors: 周平田良島; 啓仁野村; 和彦太田
Original assignee: NTT Communications Corp
Current assignee: NTT Communications Corp
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2023-08-28
Anticipated expiration: 2039-05-09
Also published as: JP2020187385A

Description

本発明は、幾何パラメータを推定する技術に関する。

従来、サッカー・ラグビー・バスケットボール・アイスホッケー等の集団スポーツ映像を解析してチームの戦術や各選手のパフォーマンスを分析することは戦術の立案や将来性の高い選手のリクルーティングにつながる。
また、視聴体験の観点においても、解析結果を映像と同時に視聴者に提示したり、あるいは映像に重畳表示したりすることで、視聴者の試合に対する理解を深め、視聴体験の質を向上させることが期待できる。スポーツ映像解析の産業応用の素地は広く、その価値は極めて高いと考えられる。

通常、スポーツ映像は、スポーツの競技フィールド側面に配置されたカメラによって選手に追従して撮影されることが多い。スポーツ映像から分析されうる代表的な統計値として、選手の活動量（例えば、試合中の選手の走行距離）や選手の移動軌跡が挙げられる。しかしながら、映像中の選手を検出・追跡するのみでは、上記の統計値を取得するには不十分である。上記の統計値を取得するには、映像を構成する複数の映像フレームの中にフィールドがどのように映っているかが明らかであり、映像フレームを上記の統計値が取得できるよう適切に変換できる必要がある。これは一般的に幾何パラメータを用いて画像変換によって実現される。ここで、幾何パラメータは、各フレームに写り込む競技空間を、真上から（正面から）見た状態に射影する数値列である。

多くの場合、競技空間は平面であるため、幾何パラメータは３×３の行列Ｈ∈Ｒ^{（３×３）}で定義される。映像の各フレームの幾何パラメータを推定する最も単純な方法として、各フレームと正面化された競技空間との間で同一位置を捉えた対応点を人手で対応付け、その対応関係から幾何パラメータの推定を行う方法が挙げられる。競技空間が平面であれば、人手で４つの対応点を指定することで、非特許文献１に開示されているＤＬＴ（Direct Linear Transform）を用いて射影変換行列Ｈ∈Ｒ^{（３×３）}を推定することができる。

推定された幾何パラメータを物体認識の結果と組み合わせて用いることで、競技空間を真正面から見た座標空間上での各物体の位置を画像フレーム毎に認識することが可能となる。その結果、選手の活動量(走行距離等)や移動軌跡といった統計量の推定、バイオレーション(競技空間外に物体が出た、特定の領域に一定時間以上とどまったなど)の自動判定、シュート位置の判定に基づく自動得点カウントといった様々な応用につながる。

しかしながら、非特許文献１に開示されている方法では、特に映像を取得するカメラが試合状況に応じて動く場合、全ての映像フレームに人手で対応点を与えるコストが高く、また高いリアルタイム性を求められるアプリケーションにも向かないという問題がある。

上記の問題は、非特許文献２に開示された方法を用いることで部分的に解決することができる。非特許文献２に開示された方法は、連続する各フレームからキーポイントを抽出し、抽出したキーポイントの対応付け結果からフレーム間の座標変換を行う幾何パラメータを推定する。しかし非特許文献２に開示された方法は、競技空間とは独立して動く人物やボールの動きに影響を受けやすい。さらに、十分なテクスチャのない競技空間では対応点が正確に求まらないことが多いため、幾何パラメータ推定の性能が低下してしまうという問題がある。

非特許文献２に開示された方法で抽出されるキーポイントは、あくまで画像中の輝度勾配に基づいて自動検出されるものであり、競技空間上で人間が直感的に知覚しやすいキーポイント（例えば競技空間上の線が交差する点）が検出されるとは限らない。そのため、所定の座標空間における競技空間上に定義された人間が直感的に知覚しやすい箇所をキーポイントとして入力画像フレームから検出するといった用途では使用することができない。すなわち、映像中の各フレームに写る競技空間の幾何パラメータを自動で推定することはできない。

非特許文献３には、各フレームからハフ変換により検出された競技空間中のラインやサークルを処理の中間出力として推定し、それらの対応付け結果から幾何パラメータを推定する方法が開示されている。非特許文献３に開示されている方法は、非特許文献２に開示されているキーポイント検出に基づく方法に比べて、動物体の影響を受けにくい。しかしながら、フレームからのライン・サークル検出性能に幾何パラメータ推定精度が大きく依存し、ライン・サークルが小さく又は細く写り込んでいる場合や、白飛び等でライン・サークルの境界が判然としない場合に幾何パラメータ推定精度が大きく低下してしまうという問題がある。非特許文献３に開示されている方法においても、キーポイント検出ベースの方法と同様に、所定の座標空間における競技空間上に定義された線やサークルと、入力されたフレームから検出されたラインやサークルとを対応づけることができないため、処理全体を自動化することはできない。非特許文献３で開示されている方法も部分的な自動化にとどまっており、映像中のいくつかフレームについては人手での対応点を事前に指定しなくてはならず、よってリアルタイムアプリケーションへの応用は難しい。

非特許文献４には、事前に学習した推論モデルを用いてフレーム中のラインを検出し、検出したラインから平行線の消失点を推定することで幾何パラメータを算出する方法が開示されている。非特許文献４では、事前に、教師データ中の競技空間中の各ライン（例えば、バスケットコートにおけるコートラインやペイントエリアライン、アイスホッケーにおけるブルーライン等）に異なるラベルを付与しておく。ラベルが付与された教師データを用いて推論モデルを学習することで、推論時に、入力されたフレーム中で検出されたラインがいずれの特定のラインであるかを判定することができる。これにより、映像中の各フレームに写る競技空間の幾何パラメータを自動で推定するができる。

また、様々な撮影条件で取得された映像フレームを教師データとして用いることで、非特許文献３に比べ、照明条件やスケール変化に対するライン検出の頑健性が向上する。しかしながら、上記を実現するためには、教師画像フレーム各々について、特定のライン毎のアノテーションを行う必要があり、このコストが無視できないほど高いという問題がある。また、教師データのフレームの中で、検出対象である各特定ラインに属するピクセルの割合と、それには属さないピクセルとの割合には大きく隔たりがある。一般的に、このような学習データ中のクラス間のインバランス性は、モデルの学習を困難にしてしまう。また、多くの学習データを準備する必要が生じたり、学習経過の中でパラメータを精緻に調整する必要が生じるという問題がある。

Richard Hartley, Andrew Zisserman, "Multiple View Geometry in Computer Vision", 2004. David G. Lowe,"Distinctive Image Features from Scale-Invariant Keypoints", in IJCV. 2004. Ankur Gupta, James J. Little, Robert J. Woodham, "Using Line and Ellipse Features for Rectification of Broadcast Hockey Video", Computer and Robot Vision (CRV), 2011 Canadian Conference on Namdar Homayounfar, Sanja Fidler, Raquel Urtasun, "Sports Field Localization via Deep Structured Models", Computer Vision and Pattern Recognition (CVPR), 2017, p.5212-5220

以上のように、映像のフレーム中の競技空間を認識する従来の方法は、幾何パラメータを推定するために必要な特徴を精度良く検出することができない。そのため、幾何パラメータの推定精度が低下してしまうという問題があった。
上記事情に鑑み、本発明は、幾何パラメータの推定精度を向上させることができる技術の提供を目的としている。

本発明の一態様は、フレームを入力として前記フレームに撮像されている第１の座標系の所定の空間における特徴点の位置を表すキーポイント位置情報を少なくとも出力するように学習されたキーポイント検出モデルにより得られた第１のキーポイント位置情報と、第２の座標系の前記所定の空間において予め定義された第２のキーポイント位置情報とを用いて、前記フレームに撮像されている前記第１の座標系の前記所定の空間を、前記第２の座標系の空間に変換するための幾何パラメータを推定する幾何パラメータ推定部、
を備える幾何パラメータ推定装置である。

本発明の一態様は、上記の幾何パラメータ推定装置であって、前記キーポイント検出モデルを学習するキーポイント検出モデル学習部をさらに備え、前記キーポイント検出モデル学習部は、前記第１の座標系の所定の空間が撮像された学習用フレームと、前記学習用フレームと関連付けられた学習用キーポイント位置情報と、前記学習用フレームにおける前記特徴点の出現の有無を表す学習用出現情報と、前記学習用フレームと関連付けられた情報であって、前記所定の空間を区分けするラベルが付与された学習用マスク情報と、前記学習用マスク情報に含まれる各ラベルの隣接関係を表した学習用領域隣接関係行列と、を入力として、入力された前記学習用フレームに基づいて前記キーポイント検出モデルが出力する前記第１のキーポイント位置情報、出現情報、マスク情報及び領域隣接関係行列それぞれについて、入力された前記学習用キーポイント位置情報、入力された前記学習用出現情報、入力された前記学習用マスク情報及び入力された前記学習用領域隣接関係行列との誤差の演算結果を同時に最小化するように前記キーポイント検出モデルを学習する。

本発明の一態様は、上記の幾何パラメータ推定装置であって、前記学習用フレームと、前記第２のキーポイント位置情報と、前記学習用フレームに撮像されている前記所定の空間上における特徴点の位置を表す第３のキーポイント位置情報と、前記第２の座標系の所定の空間における学習データ生成用マスク情報のいずれかを入力として、前記キーポイント検出モデルでの学習に用いる学習データを生成する学習データ生成部をさらに備える。

本発明の一態様は、上記の幾何パラメータ推定装置であって、前記学習データ生成部は、入力された前記第２のキーポイント位置情報及び前記第３のキーポイント位置情報に基づいて幾何パラメータを推定し、推定した前記幾何パラメータと、前記第２のキーポイント位置情報とを用いて、前記第３のキーポイント位置情報に含まれないキーポイントの位置を算出することによって前記学習用キーポイント位置情報を生成する。

本発明の一態様は、上記の幾何パラメータ推定装置であって、前記学習データ生成部は、入力された前記学習用フレームに撮像されている物体領域を推定することによって物体領域が示された物体領域マスク情報をさらに生成し、入力された前記第２のキーポイント位置情報及び前記第３のキーポイント位置情報に基づいて幾何パラメータを推定し、推定した前記幾何パラメータ、前記学習データ生成用マスク情報及び前記物体領域マスク情報を用いて、前記学習データ生成用マスク情報を、第１の座標系のマスク情報に変換し、変換後のマスク情報と前記物体領域マスク情報と組み合わせることによって、前記学習用マスク情報を生成する。

本発明の一態様は、上記の幾何パラメータ推定装置であって、前記キーポイント検出モデルは、前記フレームに撮像されている所定の空間の空間的構造を特徴化した特徴マップを抽出し、前記特徴マップを圧縮することによって前記特徴マップに含まれる特徴を表す特徴情報を抽出し、抽出した前記特徴マップと、前記特徴情報とに基づいて、前記フレームから前記特徴点を検出して、検出した前記特徴点の検出結果を前記第１のキーポイント位置情報として出力し、前記特徴情報に基づいて、前記フレームからにおける前記特徴点の出現の有無を推定し、推定した結果を前記出現情報として出力し、前記特徴マップと、前記特徴情報とに基づいて、前記フレームに撮像されている所定の空間を区分けするラベルを、区分けされた各領域に付与することによって生成したマスク情報を出力し、前記特徴情報に基づいて、前記マスク情報に含まれる各ラベルの隣接関係を推定し、推定結果を前記領域隣接関係行列として出力する。

本発明の一態様は、フレームを入力として前記フレームに撮像されている第１の座標系の所定の空間における特徴点の位置を表すキーポイント位置情報を少なくとも出力するように学習されたキーポイント検出モデルにより得られた第１のキーポイント位置情報と、第２の座標系の前記所定の空間において予め定義された第２のキーポイント位置情報とを用いて、前記フレームに撮像されている前記第１の座標系の前記所定の空間を、前記第２の座標系の空間に変換するための幾何パラメータを推定する幾何パラメータ推定部、を備える幾何パラメータ推定システムである。

本発明の一態様は、フレームを入力として前記フレームに撮像されている第１の座標系の所定の空間における特徴点の位置を表すキーポイント位置情報を少なくとも出力するように学習されたキーポイント検出モデルにより得られた第１のキーポイント位置情報と、第２の座標系の前記所定の空間において予め定義された第２のキーポイント位置情報とを用いて、前記フレームに撮像されている前記第１の座標系の前記所定の空間を、前記第２の座標系の空間に変換するための幾何パラメータを推定する幾何パラメータ推定ステップ、を有する幾何パラメータ推定方法である。

本発明の一態様は、フレームを入力として前記フレームに撮像されている第１の座標系の所定の空間における特徴点の位置を表すキーポイント位置情報を少なくとも出力するように学習されたキーポイント検出モデルにより得られた第１のキーポイント位置情報と、第２の座標系の前記所定の空間において予め定義された第２のキーポイント位置情報とを用いて、前記フレームに撮像されている前記第１の座標系の前記所定の空間を、前記第２の座標系の空間に変換するための幾何パラメータを推定する幾何パラメータ推定ステップ、をコンピュータに実行させるためのコンピュータプログラムである。

本発明により、幾何パラメータの推定精度を向上させることが可能となる。

第１の実施形態における幾何パラメータ推定装置の機能構成を表す概略ブロック図である。第１の実施形態における事前設定キーポイント座標情報の一例を示す図である。第１の実施形態における正面画像キーポイント座標情報の一例を示す図である。第１の実施形態における正面フレームと正面領域マスクの一例を示す図である。第１の実施形態におけるキーポイント出現情報の一例を示す図である。第１の実施形態におけるキーポイント出現情報の別例を示す図である。領域隣接関係行列を生成する元となる領域マスクの一例を示す図である。図７に示す領域マスクにおける領域隣接関係行列の一例を示す図である。領域隣接関係行列を生成する元となる領域マスクの別例を示す図である。図９に示す領域マスクにおける領域隣接関係行列の一例を示す図である。第１の実施形態における幾何パラメータ推定装置が行う補間キーポイント座標情報生成処理の流れを示すフローチャートである。第１の実施形態における補間キーポイント座標情報生成処理により生成された補間キーポイント座標情報の一例を示す図である。第１の実施形態における幾何パラメータ推定装置が行う領域マスク生成処理の流れを示すフローチャートである。第１の実施形態における領域マスク生成処理により生成された領域マスクの一例を示す図である。第１の実施形態におけるキーポイント検出モデルの内部処理を説明するための図である。第一の方法により得られるキーポイントの検出結果を示す図である。第二の方法により得られるキーポイントの検出結果を示す図である。第１の実施形態における幾何パラメータ推定装置が行う幾何パラメータ推定処理の流れを示すフローチャートである。第２の実施形態における幾何パラメータ推定システムのシステム構成を示す図である。

以下、本発明の一実施形態を、図面を参照しながら説明する。
（第１の実施形態）
図１は、第１の実施形態における幾何パラメータ推定装置１０の機能構成を表す概略ブロック図である。
幾何パラメータ推定装置１０は、所定の空間が撮像されたフレームに基づいて、入力したフレームの画像変換を行うために用いる幾何パラメータを推定する。ここで、所定の空間とは、バスケットボール、サッカー、ラグビー、アイスホッケー等のスポーツが行われる競技場（競技空間）である。フレームとは、映像を構成する１コマの画像である。以下の説明では、所定の空間がバスケットボールの競技場である場合を例に説明する。また、幾何パラメータ推定装置１０に入力される画像は、フレームに限らず静止画であってもよい。

まず幾何パラメータ推定装置１０が行う処理の流れについて説明する。幾何パラメータ推定装置１０は、まず映像の各フレームを入力として、事前に定義されたキーポイントの座標位置（キーポイント位置情報）を各フレームから検出する。キーポイントは、所定の空間における特徴点を表す情報であり、例えば競技空間上の線の交点である。なお、キーポイントの座標位置は、競技空間の規格から適切にスケールされて算出することが望ましい。キーポイントは、競技空間上の線の交点でなくてもよく、例えば競技空間において特徴を表す位置をキーポイントとしてもよい。

次に、幾何パラメータ推定装置１０は、フレーム内に第１の座標系で撮像されている所定の空間における特徴点の位置を表すキーポイント位置情報を少なくとも出力するように学習されたキーポイント検出モデルにより得られたキーポイントの座標位置（第１のキーポイント位置情報）と、第１の座標系と異なる第２の座標系におけるキーポイントの座標位置（第２のキーポイント位置情報）とに基づいて、入力したフレーム内の競技空間を、第２の座標系に変換する幾何パラメータを推定する。幾何パラメータ推定方法は、任意であり、例えば非特許文献１に開示されているＤＬＴや、あるいは、参考文献１に開示されているＲＡＮＳＡＣが用いられてもよい。第２の座標系は、例えば競技空間を真上から（正面から）見た座標を表す。
（参考文献１：Martin A. Fischler, Robert C. Bolles, “Random Sample Consensus: A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography”, in Comm. ACM, 1981.）

次に、幾何パラメータ推定装置１０の具体的な構成について説明する。
幾何パラメータ推定装置１０は、バスで接続されたＣＰＵ（Central Processing Unit）やメモリや補助記憶装置などを備え、幾何パラメータ推定プログラムを実行する。幾何パラメータ推定プログラムの実行によって、幾何パラメータ推定装置１０は、記憶部１１、学習データ生成部１２、キーポイント検出モデル学習部１３、幾何パラメータ推定部１４を備える装置として機能する。なお、幾何パラメータ推定装置１０の各機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）やＧＰＵ(Graphics Processing Unit)等のハードウェアを用いて実現されてもよい。また、幾何パラメータ推定プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、幾何パラメータ推定プログラムは、電気通信回線を介して送受信されてもよい。

記憶部１１は、各種情報を記憶する。記憶部１１は、学習データ１５、キーポイント検出モデル１６及びテスト画像１７を記憶する。記憶部１１は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。

学習データ１５は、学習データ生成部１２による学習データの生成及びキーポイント検出モデル１６による学習に利用されるデータである。学習データ１５は、例えば画像１５１、事前設定キーポイント座標情報１５２、正面画像キーポイント座標情報１５３、正面領域マスク１５４、補間キーポイント座標情報１５５、キーポイント出現情報１５６、領域マスク１５７及び領域隣接関係行列１５８である。

画像１５１は、所定の空間（例えば、バスケットボールの競技場）が撮像された複数のフレームである。画像１５１は、学習用フレームである。
事前設定キーポイント座標情報１５２（第３のキーポイント位置情報）は、フレームに撮像されている所定の空間におけるキーポイントの座標位置を示す情報である。座標位置は、例えばｘ座標及びｙ座標である。事前設定キーポイント座標情報１５２は、予め人手で作成される。例えば、事前設定キーポイント座標情報１５２は、フレーム毎に対応付けて作成される。事前設定キーポイント座標情報１５２の例を図２に示す。

図２は、事前設定キーポイント座標情報１５２の一例を示す図である。図２（Ａ）は画像１５１としてのフレームを表し、図２（Ｂ）は事前設定キーポイント座標情報１５２を表す。
図２（Ａ）に示すように、フレームには４個のキーポイント１０２、１０３、１０５及び１０７が定義されている。そして、図２（Ｂ）に示すように、定義されたキーポイント１０２、１０３、１０５及び１０７において座標位置が設定されている。本実施形態では、キーポイントの数を最大１０とした場合を例に示しているが、キーポイントの数はこれに限らず適宜設定されてもよい。

図２（Ｂ）においてキーポイント１０２は、図２（Ａ）に示すフレーム内における（ｘ，ｙ）＝（３１２，２６７）に位置していることが示されている。図２（Ｂ）においてキーポイント１０３は、図２（Ａ）に示すフレーム内における（ｘ，ｙ）＝（１０４１，２４９）に位置していることが示されている。図２（Ｂ）においてキーポイント１０５は、図２（Ａ）に示すフレーム内における（ｘ，ｙ）＝（９３８，３３３）に位置していることが示されている。図２（Ｂ）においてキーポイント１０７は、図２（Ａ）に示すフレーム内における（ｘ，ｙ）＝（１００３，４１８）に位置していることが示されている。ここで、図２（Ａ）に示すフレーム内に撮像されていないキーポイント（例えば、キーポイント１０１、１０４、１０６、１０８～１１０）については人手で位置が設定できないため、ブランク（図２（Ｂ）では“－”）とされる。
このように、図２（Ｂ）に示すような座標位置の設定は人手で行われ、事前設定キーポイント座標情報１５２として記憶部１１に記憶される。

図１に戻って説明を続ける。正面画像キーポイント座標情報１５３は、フレームに第２の座標系で撮像されている所定の空間におけるキーポイントの座標位置を示す情報である。正面画像キーポイント座標情報１５３は、予め人手で作成される。例えば、正面画像キーポイント座標情報１５３は、所定の空間における全てのキーポイントの座標情報が設定された情報である。正面画像キーポイント座標情報１５３の例を図２に示す。

図３は、正面画像キーポイント座標情報１５３の一例を示す図である。図３（Ａ）は第２の座標系におけるフレームを表し、図３（Ｂ）は正面画像キーポイント座標情報１５３を表す。
図３（Ａ）に示すように、第２の座標系（例えば、競技空間を、真上から（正面から）見た状態）におけるフレームには１０個のキーポイント１０１～１１０が定義されている。そして、図３（Ｂ）に示すように、定義されたキーポイント１０１～１１０において座標位置が設定されている。

図１に戻って説明を続ける。正面領域マスク１５４（学習データ生成用マスク情報）は、第２の座標系に変換されたフレーム（以下「正面フレーム」という。）の領域マスクである。領域マスクとは、フレームに撮像されている所定の空間に対して領域を区分けするラベルが付与されたマスク画像である。より具体的には、領域マスクは、フレームに撮像されている競技場の空間を、所定の条件に従って分割して、分割後の各領域に対して同一の領域に同一のラベルが付与されたマスク画像である。正面領域マスク１５４の例を図４に示す。

図４は、正面フレームと正面領域マスク１５４の一例を示す図である。図４（Ａ）は正面フレームの一例を示し、図４（Ｂ）は正面領域マスク１５４の一例を示す。図４（Ｂ）に示す例では、正面フレームに撮像されている競技場の空間が７分割されている。ここで、正面領域マスク１５４の生成方法について説明する。まず、対象競技空間を、競技空間の規格から容易に定義可能な部分領域に分割する。例えば、バスケットコートを規格化されたラインやサークルに基づいて７つの領域に分割する。なお、図４（Ｂ）の例では、対象競技空間を、７つの領域に分割した例を示しているが、例えばコート中央に存在するこが多いセンターサークルに含まれる部分領域を独立して定義したり、あるいは３ポイントライン内の領域を一つの部分領域でまとめるなどしてもよい。また、実際の映像フレームには競技空間には含まれない領域、例えばコート外の領域や同物体領域も含まれる可能性が高い。そのため、これらの領域に対応するラベルもあらかじめ定義しておくものとする。そして、同一の領域には同一色のラベル（例えば、ラベル２０１～２０７）が割り当てられる。このようにして正面領域マスク１５４が生成される。正面領域マスク１５４は、１枚あればよい。

図１に戻って説明を続ける。補間キーポイント座標情報１５５（学習用キーポイント位置情報）は、事前設定キーポイント座標情報１５２においてキーポイントの座標位置が補間されたされた後の情報である。図２（Ｂ）に示したように、事前設定キーポイント座標情報１５２には、必ずしも全てのキーポイントの座標情報が設定されてはいない。そこで、事前設定キーポイント座標情報１５２のうち座標位置が欠落しているキーポイントの座標位置を補間する必要がある。そして、欠落しているキーポイントの座標位置が補間された情報が補間キーポイント座標情報１５５である。補間キーポイント座標情報１５５は、学習データ生成部１２によって生成される。

キーポイント出現情報１５６（学習用出現情報）は、フレーム内のキーポイントの有無を示した情報である。キーポイント出現情報１５６において、フレーム内にあるキーポイントが１で表され、フレーム内にないキーポイントが０で表される。すなわち、キーポイントとして事前に定義された場所がフレーム内に含まれる場合には、フレーム内にキーポイントがあると判定される。一方、キーポイントとして事前に定義された場所がフレーム内に含まれない場合には、フレーム内にキーポイントがないと判定される。この判定は、キーポイント毎に行われる。キーポイント出現情報１５６の一例を図５及び図６に示す。

図５は、キーポイント出現情報１５６の一例を示す図である。図５（Ａ）はキーポイント出現情報１５６を生成する元となるフレームの一例を示す図であり、図５（Ｂ）は図５（Ａ）に示すフレームにおけるキーポイント出現情報１５６の一例を示す図である。
図５（Ａ）に示すように、フレーム内にはキーポイント１０２、１０３、１０５及び１０７が含まれるため、キーポイント出現情報１５６のキーポイント１０２、１０３、１０５及び１０７に対応する箇所には１が代入される。図５（Ａ）に示すフレーム内にはキーポイント１０１、１０４、１０６及び１０８～１１０が含まれないため、キーポイント出現情報１５６のキーポイント１０１、１０４、１０６及び１０８～１１０に対応する箇所には０が代入される。このようにして、図５（Ｂ）に示すようなキーポイント出現情報１５６が生成される。

次に図６を用いてキーポイント出現情報１５６の別例について説明する。図６（Ａ）はキーポイント出現情報１５６を生成する元となるフレームの一例を示す図であり、図６（Ｂ）は図６（Ａ）に示すフレームにおけるキーポイント出現情報１５６の一例を示す図である。
図６（Ａ）に示すように、フレーム内にはキーポイント１０１～１０７及び１０９が含まれるため、キーポイント出現情報１５６のキーポイント１０１～１０７及び１０９に対応する箇所には１が代入される。図６（Ａ）に示すフレーム内にはキーポイント１０８及び１１０が含まれないため、キーポイント出現情報１５６のキーポイント１０８及び１１０に対応する箇所には０が代入される。このようにして、図６（Ｂ）に示すようなキーポイント出現情報１５６が生成される。キーポイント出現情報１５６は、学習データ生成部１２によって生成される。

図１に戻って説明を続ける。領域マスク１５７（学習用マスク情報）は、画像１５１に撮像されている競技場の空間に対して領域を区分けするラベルが付与されたマスク画像である。より具体的には、領域マスク１５７は、画像１５１に撮像されている競技場の空間を、所定の条件に従って分割して、分割後の各領域に対して同一の領域に同一のラベルが付与されたマスク画像である。領域マスク１５７は、学習データ生成部１２によって生成される。

領域隣接関係行列１５８（学習用領域隣接関係行列）は、領域マスク１５７に含まれる各ラベルの隣接関係が表された行列である。ここで、領域マスク１５７に含まれるラベルとは、領域マスク１５７の各画素に割り当てられたラベルを表す。領域隣接関係行列１５８において、隣接関係のあるラベルは１で表され、隣接関係のないラベルは０で表される。隣接関係の有無は、領域マスク１５７に含まれる各ラベル同士が隣り合っているか否かで判定される。例えば、領域マスク１５７に含まれていて、かつ、隣り合っているラベルは、隣接関係があると判定される。一方、領域マスク１５７に含まれているが、隣り合っていないラベルは、隣接関係がないと判定される。領域隣接関係行列１５８の例と、領域隣接関係行列１５８を生成する元となる領域マスク１５７の例を図７～図１０に示す。

図７は、領域隣接関係行列１５８を生成する元となる領域マスク１５７の一例を示す図である。図８は、図７に示す領域マスク１５７における領域隣接関係行列１５８の一例を示す図である。図７には、事前に規定された分割ルールに基づいて領域分割され、分割された各領域に対して９つの異なるラベルが付与された領域マスク１５７を示している。図８に示すように、領域隣接関係行列１５８における各行及び各列は、分割された各領域に対応している。図７に示した領域マスク１５７には全てのラベル（例えば、９つのラベル）の領域が出現しているため、領域隣接関係行列１５８のうち対角成分は全て１となる。

また、ラベル２０８の領域とラベル２１５の領域とは領域マスク１５７内で隣接しているため、領域隣接関係行列１５８の１行目８列目の要素には１が代入される。一方、ラベル２０８の領域とラベル２１１の領域とは領域マスク１５７内で隣接していないため、領域隣接関係行列１５８の１行目４列目の要素には０が代入される。このような処理を各ラベルに対して行うことによって、図８のような領域隣接関係行列１５８が生成される。

次に図９及び図１０を用いて領域隣接関係行列１５８の別例について説明する。図９は、領域隣接関係行列１５８を生成する元となる領域マスク１５７の別例を示す図である。図１０は、図９に示す領域マスク１５７における領域隣接関係行列１５８の一例を示す図である。図９には、事前に規定された分割ルールに基づいて領域分割され、分割された各領域に対して６つの異なるラベルが付与された領域マスク１５７を示している。図１０に示すように、領域隣接関係行列１５８における各行及び各列は、分割された各領域に対応している。図９に示した領域マスク１５７には６つのラベルの領域が出現しているため、領域隣接関係行列１５８のうち６つのラベル（図９では、ラベル２０８、２０９、２１０、２１１、２１５及び２１６）の対角成分は１となり、領域マスク１５７に表れていないラベル（図９では、ラベル２１２、２１３及び２１４）の対角成分は０となる。図７及び図８で説明したように、隣接関係があるラベルの行列には１が代入され、隣接関係がないラベルの行列には０が代入される。領域隣接関係行列１５８は、学習データ生成部１２によって生成される。

キーポイント検出モデル１６は、フレーム（例えば、画像１５１やテスト画像１７）を入力として、入力されたフレームにおけるキーポイントの検出結果、キーポイント出現情報、領域マスク及び領域隣接関係行列を出力するモデルである。キーポイント検出モデル１６は、キーポイント検出モデル学習部１３による学習に応じて最適化される。

テスト画像１７は、キーポイント検出モデル１６のテストに利用されるフレームである。
学習データ生成部１２は、記憶部１１に記憶されている学習データ１５を用いて、キーポイント検出モデル１６の学習に利用される一部の学習データを生成する。具体的には、学習データ生成部１２は、補間キーポイント座標情報１５５、キーポイント出現情報１５６、領域マスク１５７及び領域隣接関係行列１５８を生成する。

キーポイント検出モデル学習部１３は、学習データ１５を用いて、キーポイント検出モデル１６を学習する。
幾何パラメータ推定部１４は、キーポイント検出モデル１６及びテスト画像１７を用いて幾何パラメータを推定する。

図１１は、第１の実施形態における幾何パラメータ推定装置１０が行う補間キーポイント座標情報生成処理の流れを示すフローチャートである。
学習データ生成部１２は、事前設定キーポイント座標情報１５２及び正面画像キーポイント座標情報１５３を入力する（ステップＳ１０１）。学習データ生成部１２は、入力した事前設定キーポイント座標情報１５２及び正面画像キーポイント座標情報１５３に基づいて幾何パラメータを推定する（ステップＳ１０２）。その後、学習データ生成部１２は、推定した幾何パラメータを用いて、補間キーポイント座標情報１５５を生成する（ステップＳ１０３）。具体的には、学習データ生成部１２は、得られた幾何パラメータを、対象のフレームに出現していないキーポイントの所定の座標空間における位置に適用することで、対象のフレームに出現していないキーポイントの座標位置を算出する。学習データ生成部１２は、生成した補間キーポイント座標情報１５５を記憶部１１に記憶する。

図１２は、補間キーポイント座標情報生成処理により生成された補間キーポイント座標情報１５５の一例を示す図である。
図１２（Ａ）は、対象のフレームに出現していないキーポイントの座標位置を示す図であり、図１２（Ｂ）は補間キーポイント座標情報１５５の具体例を示す図である。図１２（Ａ）には、対象のフレームには出現していないが、正面画像キーポイント座標情報１５３には出現しているキーポイントが示されている。補間キーポイント座標情報１５５は、対象フレームと、正面フレームとの間の幾何パラメータに基づいて対象のフレームには出現していないキーポイントの座標位置を算出する。

図１３は、第１の実施形態における幾何パラメータ推定装置１０が行う領域マスク生成処理の流れを示すフローチャートである。
学習データ生成部１２は、記憶部１１に記憶されているフレームを入力する（ステップＳ２０１）。学習データ生成部１２は、入力したフレームに公知の物体領域推定処理を適用して、物体領域が示されたマスク画像（以下「物体領域マスク」という。）を生成する（ステップＳ２０２）。物体領域マスク（物体領域マスク情報）は、前景領域である物体領域に１の値が割り当てられ、背景領域に０の値が割り当てられたマスク画像である。なお、物体領域推定方法は任意であり、例えば参考文献２に開示されている方法を用いればよい。
（参考文献２：Kaiming He, Georgia Gkioxari, Piotr Dollar, Ross Girshick, “Mask R-CNN”, ICCV, 2017.）

学習データ生成部１２は、事前設定キーポイント座標情報１５２及び正面画像キーポイント座標情報１５３を入力する（ステップＳ２０３）。学習データ生成部１２は、入力した事前設定キーポイント座標情報１５２及び正面画像キーポイント座標情報１５３に基づいて幾何パラメータを推定する（ステップＳ２０４）。学習データ生成部１２は、生成した物体領域マスクと、正面領域マスク１５４と入力する（ステップＳ２０５）。学習データ生成部１２は、入力した物体領域マスクと、正面領域マスク１５４と、ステップＳ２０４の処理で推定した幾何パラメータとを用いて領域マスク１５７を生成する（ステップＳ２０６）。具体的には、学習データ生成部１２は、得られた幾何パラメータを第２の座標系における正面領域マスク１５４に適用し、得られた結果を、物体領域マスクに重畳することによって図１４に示すような領域マスク１５７を生成する。より具体的には、学習データ生成部１２は、幾何パラメータを用いて、正面領域マスク１５４を、入力したフレームに撮像されている所定の空間の座標系の領域マスクに変換し、変換後の領域マスクと物体領域マスクと組み合わせることによって、領域マスク１５７を生成する。

図１４は、領域マスク生成処理により生成された領域マスク１５７の一例を示す図である。
図１４に示すように、領域マスク生成処理に使用したフレームに対応する領域マスク１５７を自動で生成することができる。

図１５は、キーポイント検出モデル１６の内部処理を説明するための図である。キーポイント検出モデル１６は、特徴マップ抽出部と、エンコード部と、キーポイント検出部と、キーポイント出現情報推定部と、領域マスク推定部と、領域隣接関係行列推定部とで構成される。
特徴マップ抽出部は、入力された画像（例えば、画像１５１又はテスト画像１７）から特徴マップ２５０を抽出する。特徴マップ２５０は、フレームに撮像されている空間の空間構造を特徴化したマップである。特徴マップを抽出する方法は任意であり、例えば特徴マップ抽出部は、参考文献３に開示されている畳み込みニューラルネットワークを用いて特徴マップを抽出すればよい。
（参考文献３：Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, “Deep Residual Learning for Image Recognition”, in Proc. CVPR, 2015.）

エンコード部は、特徴マップ抽出部により得られた特徴マップ２５０を圧縮して埋め込みベクトルを抽出する。埋め込みベクトルとは、特徴マップ２５０のチャンネル方向の長さは変わらず、空間方向（ｘ方向及びｙ方向）に特徴マップ２５０を圧縮して得られるベクトルである。エンコード部は、例えば参考文献４に開示されているSqueeze-and-Excitation Blockや、参考文献５に開示されているContext Encoding Moduleを用いて埋め込みベクトルを出力すればよい。
（参考文献４：Jie Hu, Li Shen, Samuel Albanie, Gang Sun, Enhua Wu, “Squeeze-and-Excitation Networks”, in Proc. CVPR, 2018.）
（参考文献５：Hang Zhang, Kristin Dana, Jianping Shi, Zhongyue Zhang, Xiaogang Wang, Ambrish Tyagi, Amit Agrawal, “Context Encoding for Semantic Segmentation”, CVPR, 2018.）

また、キーポイント検出部は、キーポイントの位置を出力する第二の方法として、図１７に示すように、キーポイント数Ｎと同じチャンネル数を持つスコアマップとして出力してもよい。この場合、所定の閾値以上かつ各チャンネルの中で最もスコアの高い位置が、対応するキーポイントの位置に相当する。特徴マップと埋め込みベクトルを入力としてスコアマップを出力する方法は任意であり、例えば埋め込みベクトルと特徴マップの要素積をとって得られた出力に畳み込みニューラルネットワークを適用し、目的サイズのスコアマップを出力すればよい。図１７は、第二の方法により得られるキーポイントの検出結果を示す図である。図１７に示す例では、各チャンネル(ｃ方向)がキーポイント個々に対応している。キーポイント検出部は、対応するキーポイントが存在する位置でスコアが高くなるようなスコアマップを出力すればよい。図１６は、第一の方法により得られるキーポイントの検出結果を示す図である。

また、キーポイント検出部は、キーポイントの座標位置を出力する第二の方法として、図１７に示すように、キーポイント数Ｎと同じチャンネル数を持つスコアマップと出力してもよい。この場合、所定の閾値以上かつ各チャンネルの中で最もスコアの高い位置が、対応するキーポイントの座標位置に相当する。特徴マップと埋め込みベクトルを入力としてスコアマップを出力する方法は任意であり、例えば埋め込みベクトルと特徴マップの要素積をとって得られた出力に畳み込みニューラルネットワークを適用し、目的サイズのスコアマップを出力すればよい。図１７は、第二の方法により得られるキーポイントの検出結果を示す図である。図１７に示す例では、各チャンネル(ｃ方向)がキーポイント個々に対応している。キーポイント検出部は、対応するキーポイントが存在する位置でスコアが高くなるようなスコアマップを出力すればよい。

キーポイント出現情報推定部は、埋め込みベクトルに基づいて、フレームに撮像されているキーポイントを推定する。キーポイント出現情報の次元数はＮ（Ｎは１以上の整数）である。キーポイント出現ベクトルを出力する方法は任意であり、キーポイント出現情報推定部は、例えば埋め込みベクトルと特徴マップの要素積をとって得られた出力をベクトル化し、それに目的サイズのベクトルを出力するような多層パーセプトロンを適用すればよい。

領域マスク推定部は、特徴マップ２５０と埋め込みベクトルとに基づいて、フレームの各ピクセルに対して、事前に定義された分割ルールに従ったラベルのうちいずれかを割り当てる。領域マスクのチャンネル数はＭ(事前に定義した部分領域の数)である。特徴マップ２５０と埋め込みベクトルを入力としてスコアマップを出力する方法は任意であり、例えば埋め込みベクトルと特徴マップの要素積をとって得られた出力に畳み込みニューラルネットワークを適用し、目的サイズの領域マスクを出力すればよい。これにより、領域マスク推定部は、入力されたフレームに対応する領域マスクを生成する。

領域隣接関係行列推定部は、埋め込みベクトルに基づいて、ラベルの隣接関係を推定する。領域隣接関係行列推定部は、推定結果から領域隣接関係行列を生成し、生成した領域隣接関係行列を出力する。領域隣接関係行列は、ベクトルで表現することが可能であり、図８及び図１０の例の場合、その次元数は４５である。領域隣接関係行列推定部が特徴マップ２５０と埋め込みベクトルを入力として領域隣接関係行列を出力する方法は任意であり、例えば埋め込みベクトルと特徴マップの要素積をとって得られた出力をベクトル化し、それに目的サイズのベクトルを出力するような多層パーセプトロンを適用すればよい。これにより、領域隣接関係行列推定部は、領域隣接関係行列を生成する。

次に、キーポイント検出モデル１６の学習について説明する。キーポイント検出モデル１６の学習には、画像１５１が利用される。キーポイント検出モデル学習部１３は、まずキーポイント検出モデル１６から出力されるキーポイント検出結果と、キーポイント検出モデル１６に入力された画像１５１から得られるキーポイント検出結果（例えば、補間キーポイント座標情報１５５）との誤差を算出する。また、キーポイント検出モデル学習部１３は、キーポイント検出モデル１６から出力されるキーポイント出現情報と、キーポイント検出モデル１６に入力された画像１５１から得られるキーポイント出現情報１５６との誤差を算出する。

また、キーポイント検出モデル学習部１３は、キーポイント検出モデル１６から出力される領域マスクと、キーポイント検出モデル１６に入力された画像１５１から得られる領域マスク１５７との誤差を算出する。また、キーポイント検出モデル学習部１３は、キーポイント検出モデル１６から出力される領域隣接関係行列と、キーポイント検出モデル１６に入力された画像１５１から得られる領域隣接関係行列１５８との誤差を算出する。その後、キーポイント検出モデル学習部１３は、算出した各誤差を同時に最小化するようにパラメータを学習する。

キーポイント検出結果の誤差については、キーポイント検出モデル学習部１３は、キーポイント検出結果を図１６のように算出した場合には、Ｌ２ノルムで算出すればよい。また、キーポイント検出モデル学習部１３は、キーポイント検出結果を図１７のように算出した場合には、スコアマップ中の各ピクセルのクロスエントロピーの和で算出すればよい。以下では、キーポイント検出結果の誤差をφ_keypointと定義する。

キーポイント出現情報の誤差については、キーポイント検出モデル学習部１３は、ベクトル各要素のバイナリクロスエントロピーの和で算出すればよい。以下では、キーポイント出現情報の誤差をΨ_keypointと定義する。
領域マスクの誤差については、キーポイント検出モデル学習部１３は、領域マスクの各ピクセルのクロスエントロピーの和で算出すればよい。以下では、領域マスクの誤差をφ_maskと定義する。
領域隣接関係行列の誤差については、キーポイント検出モデル学習部１３は、行列各要素のバイナリクロスエントロピーの和で算出すればよい。以下では、領域隣接関係行列の誤差をΨ_maskと定義する。

キーポイント検出モデル学習部１３は、モデルの学習を、ａ_１、ａ_２、ａ_３、ａ_４をそれぞれ任意の実数値として、以下の式（１）から算出される誤差値の重み和を最小化することで行う。

ａ_１×φ_keypoint＋ａ_２×Ψ_keypoint＋ａ_３×φ_mask＋ａ_４×Ψ_mask・・・（１）

モデルを学習するアルゴリズムもまた任意であり、例えばｍｏｍｅｎｔｕｍ－ＳＧＤやＡＤＡＭを用いることができる。

図１８は、第１の実施形態における幾何パラメータ推定装置１０が行う幾何パラメータ推定処理の流れを示すフローチャートである。
幾何パラメータ推定部１４は、テスト画像１７を入力する（ステップＳ３０１）。幾何パラメータ推定部１４は、入力したテスト画像１７を、キーポイント検出モデル１６に入力することによって、入力したテスト画像１７に含まれるキーポイントの検出する（ステップＳ３０２）。そして、幾何パラメータ推定部１４は、検出したキーポイントの座標位置と、第２の座標系におけるキーポイントの座標位置とに基づいて、入力したフレーム内の競技空間を、第２の座標系に変換する幾何パラメータを推定する（ステップＳ３０３）。

以上のように構成された幾何パラメータ推定装置１０では、映像の各画像フレームを入力として、入力されたフレームからキーポイントを検出する。キーポイントは、フレームに撮像されている所定の空間の特徴を表す位置である。したがって、入力されたフレームから容易にキーポイントを検出することができる。幾何パラメータ推定装置１０は、検出されたキーポイントの座標位置と、第２の座標系における予め検出されているキーポイントの座標位置とに基づいて幾何パラメータを算出する。これにより、従来のようにフレーム中のラインやサークルを推定するのに比べてより簡便に幾何パラメータを推定することができる。さらに、所定の空間の特徴となる位置を検出するため、ラインやサークルを推定するのに比べて精度良くキーポイントを検出することができる。したがって、精度よく検出されたキーポイントと、事前に検出されている精度の高いキーポイントとに基づいて、幾何パラメータが推定されるため、幾何パラメータの推定精度を向上させることが可能になる。

また、幾何パラメータ推定装置１０は、キーポイントを検出するキーポイント検出モデル１６を、キーポイント検出モデル１６から出力されるキーポイント検出結果と、正解データとの誤差と、キーポイント検出モデル１６から出力されるキーポイント出現情報と、正解データとの誤差と、キーポイント検出モデル１６から出力される領域マスクと、正解データとの誤差と、キーポイント検出モデル１６から出力される領域隣接関係行列と、正解データとの誤差とを同時に最小化するようにパラメータを学習する。これにより、学習を重ねるたびに、キーポイントの検出精度を向上させることができる。したがって、精度よく検出されたキーポイントと、事前に検出されている精度の高いキーポイントとに基づいて、幾何パラメータが推定されるため、幾何パラメータの推定精度を向上させることが可能になる。

また、幾何パラメータ推定装置１０は、キーポイント検出モデル１６の学習に用いる一部の学習データを自動で生成する。これにより、全ての学習データを簡便に生成することができる。また、学習データの構築コストも低い。また、幾何パラメータ推定装置１０は、生成した学習データを用いて、キーポイント検出モデル１６を学習することによって、キーポイント間の共起性、キーポイントと領域マスクとの位置関係性、領域マスク中の各領域の位置関係性を明示的に考慮することが可能となる。したがって、フレームに撮像されているキーポイントの検出が可能なキーポイント検出モデル１６をより精度よく学習することができる。その結果、幾何パラメータの推定精度を向上させることができる。

＜変形例＞
幾何パラメータ推定装置１０がクラウド上に設けられて、ネットワークを介して他の装置からの要求に応じて、キーポイント検出モデル１６の学習及び幾何パラメータの推定を行うように構成されてもよい。

（第２の実施形態）
第２の実施形態では、幾何パラメータ推定装置１０が備える一部又は全ての機能部が、クラウド上のサーバに実装され、クラウド上のサーバでモデルの学習を行う構成について説明する。
図１９は、第２の実施形態における幾何パラメータ推定システム１００のシステム構成を示す図である。幾何パラメータ推定システム１００は、幾何パラメータ推定装置１０ａ及びモデル学習装置３００を備える。幾何パラメータ推定装置１０ａ及びモデル学習装置３００及びは、ネットワーク３０を介して通信可能に接続される。ネットワーク３０は、例えばインターネットである。

モデル学習装置３００は、キーポイント検出モデル１６の学習を行う。モデル学習装置３００は、クラウド上のサーバとして構成される。
幾何パラメータ推定装置１０ａは、モデル学習装置３００により学習されたキーポイント検出モデル１６を用いて幾何パラメータを推定する。

次に、幾何パラメータ推定装置１０ａ及びモデル学習装置３００の具体的な機能構成について説明する。
まずモデル学習装置３００の機能構成について説明する。モデル学習装置３００は、バスで接続されたＣＰＵやメモリや補助記憶装置などを備え、学習プログラムを実行する。学習プログラムの実行によって、モデル学習装置３００は、記憶部１１、学習データ生成部１２、キーポイント検出モデル学習部１３、通信部３０１を備える装置として機能する。なお、幾何パラメータ推定装置１０ａの各機能の全て又は一部は、ＡＳＩＣやＰＬＤやＦＰＧＡやＧＰＵ等のハードウェアを用いて実現されてもよい。また、学習プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、学習プログラムは、電気通信回線を介して送受信されてもよい。

モデル学習装置３００において、記憶部１１、記憶部１１、学習データ生成部１２、キーポイント検出モデル学習部１３は、第１の実施形態における同名の機能部と同様の処理を行うため説明を省略する。
通信部３０１は、幾何パラメータ推定装置１０ａに対してキーポイント検出モデル１６を送信する。

次に、幾何パラメータ推定装置１０ａの機能構成について説明する。幾何パラメータ推定装置１０ａは、バスで接続されたＣＰＵやメモリや補助記憶装置などを備え、幾何パラメータ推定プログラムを実行する。幾何パラメータ推定プログラムの実行によって、幾何パラメータ推定装置１０ａは、幾何パラメータ推定部１４及び通信部４０１を備える装置として機能する。なお、幾何パラメータ推定装置１０ａの各機能の全て又は一部は、ＡＳＩＣやＰＬＤやＦＰＧＡやＧＰＵ等のハードウェアを用いて実現されてもよい。また、幾何パラメータ推定プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、幾何パラメータ推定プログラムは、電気通信回線を介して送受信されてもよい。

通信部４０１は、モデル学習装置３００から送信されたキーポイント検出モデル１６を受信する。
幾何パラメータ推定部１４は、第１の実施形態における同名の機能部と同様に幾何パラメータを推定する。

以上のように構成された幾何パラメータ推定システム１００では、モデルの学習を行う装置（モデル学習装置３００）と、幾何パラメータの推定を行う装置（幾何パラメータ推定装置１０ａ）とを別の筐体としている。また、モデル学習装置３００をクラウド上のサーバとして設けている。これにより、幾何パラメータを推定したいユーザは、クラウド上に設けられたモデル学習装置３００にアクセスすることによって、容易に幾何パラメータを推定することができる。

＜変形例＞
モデル学習装置３００が備える一部の機能部は、他の装置（例えば、幾何パラメータ推定装置１０ａ）に実装されてもよい。

＜第１の実施形態及び第２の実施形態に共通する変形例＞
上記の各実施形態では、所定の空間を区分けするラベルが付与されたマスク画像（領域マスク）を用いる構成を示したが、区分けした空間毎の位置関係を示す情報を含むマスク情報が用いられてもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１０、１０ａ…幾何パラメータ推定装置，１１…記憶部，１２…学習データ生成部，１３…キーポイント検出モデル学習部，１４…幾何パラメータ推定部，３００…モデル学習装置，３０１…通信部，４０１…通信部

Claims

フレームを入力として前記フレームに撮像されている第１の座標系の所定の空間における特徴点の位置を表すキーポイント位置情報を少なくとも出力するように学習されたキーポイント検出モデルにより得られた第１のキーポイント位置情報と、第２の座標系の前記所定の空間において予め定義された第２のキーポイント位置情報とを用いて、前記フレームに撮像されている前記第１の座標系の前記所定の空間を、前記第２の座標系の空間に変換するための幾何パラメータを推定する幾何パラメータ推定部と、
前記キーポイント検出モデルを学習するキーポイント検出モデル学習部と、
を備え、
前記キーポイント検出モデル学習部は、前記第１の座標系の所定の空間が撮像された学習用フレームと、前記学習用フレームと関連付けられた学習用キーポイント位置情報と、前記学習用フレームにおける前記特徴点の出現の有無を表す学習用出現情報と、前記学習用フレームと関連付けられた情報であって、前記所定の空間を区分けするラベルが付与された学習用マスク情報と、前記学習用マスク情報に含まれる各ラベルの隣接関係を表した学習用領域隣接関係行列と、を入力として、入力された前記学習用フレームに基づいて前記キーポイント検出モデルが出力する前記第１のキーポイント位置情報、出現情報、マスク情報及び領域隣接関係行列それぞれについて、入力された前記学習用キーポイント位置情報、入力された前記学習用出現情報、入力された前記学習用マスク情報及び入力された前記学習用領域隣接関係行列との誤差の演算結果を同時に最小化するように前記キーポイント検出モデルを学習する幾何パラメータ推定装置。
フレームを入力として前記フレームに撮像されている第１の座標系の所定の空間における特徴点の位置を表すキーポイント位置情報を少なくとも出力するように学習されたキーポイント検出モデルにより得られた第１のキーポイント位置情報と、第２の座標系の前記所定の空間において予め定義された第２のキーポイント位置情報とを用いて、前記フレームに撮像されている前記第１の座標系の前記所定の空間を、前記第２の座標系の空間に変換するための幾何パラメータを推定する幾何パラメータ推定部、
を備え、
前記第１の座標系の所定の空間が撮像された学習用フレームと、前記第２のキーポイント位置情報と、前記学習用フレームに撮像されている前記所定の空間上における特徴点の位置を表す第３のキーポイント位置情報と、前記第２の座標系の所定の空間における学習データ生成用マスク情報を入力として、前記キーポイント検出モデルでの学習に用いる学習データを生成する学習データ生成部をさらに備える幾何パラメータ推定装置。
前記学習データ生成部は、入力された前記第２のキーポイント位置情報及び前記第３のキーポイント位置情報に基づいて幾何パラメータを推定し、推定した前記幾何パラメータと、前記第２のキーポイント位置情報とを用いて、前記第３のキーポイント位置情報に含まれないキーポイントの位置を算出することによって前記学習用フレームと関連付けられた学習用キーポイント位置情報を生成する、請求項２に記載の幾何パラメータ推定装置。
前記学習データ生成部は、入力された前記学習用フレームに撮像されている物体領域を推定することによって物体領域が示された物体領域マスク情報をさらに生成し、入力された前記第２のキーポイント位置情報及び前記第３のキーポイント位置情報に基づいて幾何パラメータを推定し、推定した前記幾何パラメータ、前記学習データ生成用マスク情報及び前記物体領域マスク情報を用いて、前記学習データ生成用マスク情報を、第１の座標系のマスク情報に変換し、変換後のマスク情報と前記物体領域マスク情報と組み合わせることによって、前記所定の空間を区分けするラベルが付与された学習用マスク情報を生成する、請求項２又は３に記載の幾何パラメータ推定装置。
前記キーポイント検出モデルは、
前記フレームに撮像されている所定の空間の空間的構造を特徴化した特徴マップを抽出し、
前記特徴マップを圧縮することによって前記特徴マップに含まれる特徴を表す特徴情報を抽出し、
抽出した前記特徴マップと、前記特徴情報とに基づいて、前記フレームから前記特徴点を検出して、検出した前記特徴点の検出結果を前記第１のキーポイント位置情報として出力し、
前記特徴情報に基づいて、前記フレームからにおける前記特徴点の出現の有無を推定し、推定した結果を出現情報として出力し、
前記特徴マップと、前記特徴情報とに基づいて、前記フレームに撮像されている所定の空間を区分けするラベルを、区分けされた各領域に付与することによって生成したマスク情報を出力し、
前記特徴情報に基づいて、前記マスク情報に含まれる各ラベルの隣接関係を推定し、推定結果を領域隣接関係行列として出力する、請求項１から４のいずれか一項に記載の幾何パラメータ推定装置。
フレームを入力として前記フレームに撮像されている第１の座標系の所定の空間における特徴点の位置を表すキーポイント位置情報を少なくとも出力するように学習されたキーポイント検出モデルにより得られた第１のキーポイント位置情報と、第２の座標系の前記所定の空間において予め定義された第２のキーポイント位置情報とを用いて、前記フレームに撮像されている前記第１の座標系の前記所定の空間を、前記第２の座標系の空間に変換するための幾何パラメータを推定する幾何パラメータ推定部と、
前記キーポイント検出モデルを学習するキーポイント検出モデル学習部と、
を備え、
前記キーポイント検出モデル学習部は、前記第１の座標系の所定の空間が撮像された学習用フレームと、前記学習用フレームと関連付けられた学習用キーポイント位置情報と、前記学習用フレームにおける前記特徴点の出現の有無を表す学習用出現情報と、前記学習用フレームと関連付けられた情報であって、前記所定の空間を区分けするラベルが付与された学習用マスク情報と、前記学習用マスク情報に含まれる各ラベルの隣接関係を表した学習用領域隣接関係行列と、を入力として、入力された前記学習用フレームに基づいて前記キーポイント検出モデルが出力する前記第１のキーポイント位置情報、出現情報、マスク情報及び領域隣接関係行列それぞれについて、入力された前記学習用キーポイント位置情報、入力された前記学習用出現情報、入力された前記学習用マスク情報及び入力された前記学習用領域隣接関係行列との誤差の演算結果を同時に最小化するように前記キーポイント検出モデルを学習する幾何パラメータ推定システム。
フレームを入力として前記フレームに撮像されている第１の座標系の所定の空間における特徴点の位置を表すキーポイント位置情報を少なくとも出力するように学習されたキーポイント検出モデルにより得られた第１のキーポイント位置情報と、第２の座標系の前記所定の空間において予め定義された第２のキーポイント位置情報とを用いて、前記フレームに撮像されている前記第１の座標系の前記所定の空間を、前記第２の座標系の空間に変換するための幾何パラメータを推定する幾何パラメータ推定部、
を備え、
前記第１の座標系の所定の空間が撮像された学習用フレームと、前記第２のキーポイント位置情報と、前記学習用フレームに撮像されている前記所定の空間上における特徴点の位置を表す第３のキーポイント位置情報と、前記第２の座標系の所定の空間における学習データ生成用マスク情報を入力として、前記キーポイント検出モデルでの学習に用いる学習データを生成する学習データ生成部をさらに備える幾何パラメータ推定システム。
コンピュータが、
フレームを入力として前記フレームに撮像されている第１の座標系の所定の空間における特徴点の位置を表すキーポイント位置情報を少なくとも出力するように学習されたキーポイント検出モデルにより得られた第１のキーポイント位置情報と、第２の座標系の前記所定の空間において予め定義された第２のキーポイント位置情報とを用いて、前記フレームに撮像されている前記第１の座標系の前記所定の空間を、前記第２の座標系の空間に変換するための幾何パラメータを推定する幾何パラメータ推定ステップと、
前記キーポイント検出モデルを学習するキーポイント検出モデル学習ステップと、
を有し、
前記キーポイント検出モデル学習ステップにおいて、前記第１の座標系の所定の空間が撮像された学習用フレームと、前記学習用フレームと関連付けられた学習用キーポイント位置情報と、前記学習用フレームにおける前記特徴点の出現の有無を表す学習用出現情報と、前記学習用フレームと関連付けられた情報であって、前記所定の空間を区分けするラベルが付与された学習用マスク情報と、前記学習用マスク情報に含まれる各ラベルの隣接関係を表した学習用領域隣接関係行列と、を入力として、入力された前記学習用フレームに基づいて前記キーポイント検出モデルが出力する前記第１のキーポイント位置情報、出現情報、マスク情報及び領域隣接関係行列それぞれについて、入力された前記学習用キーポイント位置情報、入力された前記学習用出現情報、入力された前記学習用マスク情報及び入力された前記学習用領域隣接関係行列との誤差の演算結果を同時に最小化するように前記キーポイント検出モデルを学習する幾何パラメータ推定方法。
コンピュータが、
フレームを入力として前記フレームに撮像されている第１の座標系の所定の空間における特徴点の位置を表すキーポイント位置情報を少なくとも出力するように学習されたキーポイント検出モデルにより得られた第１のキーポイント位置情報と、第２の座標系の前記所定の空間において予め定義された第２のキーポイント位置情報とを用いて、前記フレームに撮像されている前記第１の座標系の前記所定の空間を、前記第２の座標系の空間に変換するための幾何パラメータを推定する幾何パラメータ推定ステップ、
を有し、
前記第１の座標系の所定の空間が撮像された学習用フレームと、前記第２のキーポイント位置情報と、前記学習用フレームに撮像されている前記所定の空間上における特徴点の位置を表す第３のキーポイント位置情報と、前記第２の座標系の所定の空間における学習データ生成用マスク情報を入力として、前記キーポイント検出モデルでの学習に用いる学習データを生成する学習データ生成部をさらに有する幾何パラメータ推定方法。
請求項１から５のいずれか一項に記載の幾何パラメータ推定装置として、コンピュータを機能させるためのコンピュータプログラム。