JP7479201B2

JP7479201B2 - クラス判定装置、クラス判定方法及びコンピュータプログラム

Info

Publication number: JP7479201B2
Application number: JP2020097106A
Authority: JP
Inventors: 周平田良島
Original assignee: NTT Communications Corp
Current assignee: NTT Communications Corp
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2024-05-08
Anticipated expiration: 2040-06-03
Also published as: JP2021189959A

Description

本発明は、物体の分類技術に関する。

従来、野球等の集団スポーツ映像を解析し、チームの戦術や各選手のパフォーマンスを分析することは、状況に適応した戦術の立案や将来性の高い選手のリクルーティングにつながる。視聴体験の観点においても、解析結果を映像と同時に視聴者に提示したり、あるいは映像に重畳表示したりすることで、視聴者の試合に対する理解を深め、視聴体験の質を向上させることが期待できる。スポーツ映像解析の産業応用の素地は広く、その価値は極めて高いと考えられる。

集団スポーツ映像解析の中でも、野球のような映像に写る人物のうち、所定のポジション(例えば、センター、セカンド、ショート等の野球の守備ポジション)につく選手を認識する技術（以下「人物検出分類技術」という。）は注目されている。人物検出分類は、公知の物体検出技術（例えば、非特許文献１参照）と、画像分類技術（例えば、非特許文献２参照）とを組み合わせ、物体検出によって得られた各人物領域を、画像分類によって所定のクラス(ここでは、各クラスがいずれかのポジションに相当)に割り当てることで実現される。この方法では、各クラスの全貌が一定上異なっていることを暗に仮定しているがポジション毎の全貌が似通っている場合、分類精度が総じて低いという問題がある。

全貌が似通っている対象を見分ける方法として、局所的に見えが異なる領域に着目するというアプローチが考えられる。野球等のスポーツ競技であれば、例えば各選手の顔や背番号は対象毎に異なるため、それらの情報とポジションの情報をあらかじめ紐付けた上で、非特許文献３に開示されている顔照合技術や、非特許文献４に開示されている背番号認識を組み合わせるといった方法が挙げられる。

Joseph Redmon, Ali Farhadi, "YOLOv3: An Incremental Improvement", April 2018 with 6,664 Reads, arXiv:1804.02767 Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, "Deep Residual Learning for Image Recognition", 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Florian Schroff, Dmitry Kalenichenko, James Philbin, "FaceNet: A Unified Embedding for Face Recognition and Clustering", in Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition 2015. Gen Li, Shikun Xu, Xiang Liu, Lei Li, Changhu Wang, "Jersey Number Recognition With Semi-Supervised Spatial Transformer Network", in CVPR Workshops, 2018.

しかしながら、上記のアプローチでは、局所的な領域が認識可能な程度高い解像度で映像に写り込んでいることを仮定しているが、この仮定が成立しないケースへの適用は難しい。例えば、ＦｕｌｌＨＤ（１９２０×１０８０ｐｉｘｅｌ）で野球の競技フィールド全体を捉えている場合、個々の選手全貌の解像度は縦横いずれも数十ピクセル程度しかない。そのため、顔や背番号といった領域は更に小さく、人間による目視でも判別は困難である。従来では、このような認識対象の解像度が低い場合に、分類精度が大きく低下してしまうという問題があった。

上記事情に鑑み、本発明は、撮影されている物体の解像度が低い場合であっても効率的に物体を分類することができる技術の提供を目的としている。

本発明の一態様は、入力されたフレームに撮影されている物体を検出する物体検出部と、前記物体検出部によって検出された前記物体の位置情報を入力として、前記物体が各クラスに属する割合を出力するように学習されたモデルを用いて、検出された前記物体の各クラスに属する割合を取得するクラス尤度取得部と、前記クラス尤度取得部によって取得された前記物体の各クラスに属する割合に応じて、検出された前記物体のクラスを判定するクラス判定部と、を備えるクラス判定装置である。

本発明の一態様は、上記のクラス判定装置であって、前記フレームに撮影されている空間を、他の座標系の空間に変換する座標変換部をさらに備え、前記クラス尤度取得部は、変換後の空間における前記物体の位置情報を前記モデルに入力することによって前記物体の各クラスに属する割合を取得する。

本発明の一態様は、上記のクラス判定装置であって、第１のフレームで検出された物体と、前記第１のフレームよりも後の時刻に得られた第２のフレームで検出された物体とを対応付けてトラッキングするトラッキング部をさらに備え、前記クラス尤度取得部は、前記トラッキング部によるトラッキング結果に基づいて、前記第２のフレームで検出された物体のうち前記第１のフレームに存在しなかった物体の各クラスに属する割合を取得する。

本発明の一態様は、上記のクラス判定装置であって、前記クラス判定部は、検出された前記物体及び前記クラスをノードとするグラフに基づいて前記物体のクラスを判定する。

本発明の一態様は、上記のクラス判定装置であって、前記クラス判定部は、前記フレームに撮影されている前記物体が検出された画像領域から抽出された、見えの特徴量の比較に基づく尺度を加味して前記物体のクラスを判定する。

本発明の一態様は、入力されたフレームに撮影されている物体を検出する物体検出ステップと、前記物体検出ステップによって検出された前記物体の位置情報を入力として、前記物体が各クラスに属する割合を出力するように学習されたモデルを用いて、検出された前記物体の各クラスに属する割合を取得するクラス尤度取得ステップと、前記クラス尤度取得ステップによって取得された前記物体の各クラスに属する割合に応じて、検出された前記物体のクラスを判定するクラス判定ステップと、有するクラス判定方法である。

本発明の一態様は、入力されたフレームに撮影されている物体を検出する物体検出ステップと、前記物体検出ステップによって検出された前記物体の位置情報を入力として、前記物体が各クラスに属する割合を出力するように学習されたモデルを用いて、検出された前記物体の各クラスに属する割合を取得するクラス尤度取得ステップと、前記クラス尤度取得ステップによって取得された前記物体の各クラスに属する割合に応じて、検出された前記物体のクラスを判定するクラス判定ステップと、をコンピュータに実行させるためのコンピュータプログラムである。

本発明により、撮影されている物体の解像度が低い場合であっても効率的に物体を分類することが可能となる。

第１の実施形態における学習装置の機能構成を表す概略ブロック図である。第１の実施形態におけるクラス判定装置の機能構成を表す概略ブロック図である。第１の実施形態におけるクラス判定装置が行う人物分類処理の流れを示すフローチャートである。第１の実施形態における座標変換部の処理を説明するための図である。第１の実施形態における座標変換部の処理を説明するための図である。第１の実施形態におけるクラス判定部の処理を説明するための図である。第２の実施形態におけるクラス判定装置の機能構成を表す概略ブロック図である。第２の実施形態におけるクラス判定装置が行う物体分類処理の流れを示すフローチャートである。各実施形態におけるクラス判定部が行う他の処理を説明する図である。各実施形態におけるクラス判定部が行う他の処理を説明する図である。

以下、本発明の一実施形態を、図面を参照しながら説明する。以下では、まず本発明の実施形態の概要について説明し、続いて本発明の各実施形態の詳細について説明する。

〔概要〕
本発明では、野球のようなポジションが固定されているスポーツが撮影された映像を用いて、映像を構成するフレームに写る人物を、対応するポジションに分類する。本発明では、まず一つの映像を構成する複数のフレームを、学習用フレームと推論用フレームとに分ける。フレームの分け方としては、映像の先頭（時刻ｔ）からｔ＋ｔ０の区間を学習用フレーム、残りのフレームを推論用フレームとしてもよいし、学習用フレームを映像全体からサンプリングしてもよい。学習用フレームと推論用フレームとは一部又は全てで重複していてもよい。なお、以下の説明において学習用フレームと推論用フレームとを区別しないで説明する場合には、画像フレームと記載する。

学習用フレームは、学習済みモデルの生成に利用されるフレームである。本発明における学習済みモデルは、画像フレームに写る人物の位置情報を入力として、対象となる人物がクラスに属する度合いを出力する。ここで、クラスは、競技において定められているポジションである。すなわち、本発明における学習済みモデルは、画像フレームに写る人物の位置情報を入力として、対象となる人物が各ポジションに属する度合いを出力する。
以上が学習用フレームを用いた学習処理の流れである。

次に、本発明では、学習処理により生成された学習済みモデルを用いた推論処理が行われる。具体的には、本発明では、推論処理として、学習済みモデルと、人物領域の空間的な位置情報とを用いた人物のクラス判定処理が行われる。クラス判定処理を行うクラス判定装置は、推論用フレームから人物を検出し、検出した人物に関する情報を空間的な位置情報に変換して学習済みモデルに入力する。クラス判定装置は、学習済みモデルから得られた結果に基づいて各人物のクラス判定を行う。
以上が推論用フレームを用いた推論処理の流れである。
以下、上記処理を実現するための具体的な構成について説明する。

（第１の実施形態）
図１は、第１の実施形態における学習装置１の機能構成を表す概略ブロック図である。
学習装置１は、バスで接続されたＣＰＵ（Central Processing Unit）やメモリや補助記憶装置などを備え、プログラムを実行する。学習装置１は、プログラムの実行によって学習モデル記憶部１１、学習データ入力部１２及び学習部１３を備える装置として機能する。なお、学習装置１の各機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）やＧＰＵ(Graphics Processing Unit)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。

学習モデル記憶部１１は、磁気記憶装置や半導体記憶装置などの記憶装置を用いて構成される。学習モデル記憶部１１は、機械学習の学習モデルを予め記憶している。ここで、学習モデルとは、入力データと出力データとの関係性を学習する際に使用する機械学習アルゴリズムを示す情報である。教師有り学習の学習アルゴリズムには、種々のアルゴリズムが用いられてもよい。例えば、学習アルゴリズムとして、ロジスティック回帰や多層パーセプトロン、ガウス混合モデルのいずれかが用いられてもよい。

学習データ入力部１２は、学習データを入力する機能を有する。学習データとしては、認識対象クラスの、正規化座標空間における空間的な位置に関する教師データが入力される。ここで空間的な位置とは、競技フィールドを真上から見た際の、各認識対象の二次元座標ｘ＝（ｘ,ｙ）を指す。正規化座標空間を定義する方法は任意であり、例えば競技フィールドを真上から見た際の二次元座標系として定義すればよい。

学習データ入力部１２は、学習データを記憶している外部装置（図示せず）と通信可能に接続され、その通信インタフェースを介して外部装置から学習データを入力する。また例えば、学習データ入力部１２は、予め学習データを記憶している記録媒体から学習データを読み出すことによって学習データを入力するように構成されてもよい。学習データ入力部１２は、このようにして入力した学習データを学習部１３に出力する。

学習部１３は、学習データ入力部１２から出力される出力される学習データを学習モデルに基づいて学習することにより学習済みモデルを生成する。具体的には、学習部１３は、入力された人物ｉの二次元座標ｘ_ｉ＝（ｘ_ｉ,ｙ_ｉ）を入力として、人物ｉがクラスｃに属する度合を出力する学習済みモデルを生成する。

図２は、第１の実施形態におけるクラス判定装置２の機能構成を表す概略ブロック図である。
クラス判定装置２は、記憶部２１及び制御部２２を備える。
記憶部２１は、学習済みモデル２１１を記憶する。記憶部２１は、磁気記憶装置や半導体記憶装置などの記憶装置を用いて構成される。学習済みモデル２１１は、学習装置１によって生成された学習済みモデルである。

制御部２２は、クラス判定装置２全体を制御する。クラス判定装置２は、ＣＰＵ等のプロセッサやメモリを用いて構成される。制御部２２は、プログラムを実行することによって、取得部２２１、物体検出部２２２、座標変換部２２３、クラス尤度取得部２２４及びクラス判定部２２５として機能する。

取得部２２１、物体検出部２２２、座標変換部２２３、クラス尤度取得部２２４及びクラス判定部２２５の機能部のうち一部または全部は、ＡＳＩＣやＰＬＤ、ＦＰＧＡやＧＰＵなどのハードウェアによって実現されてもよいし、ソフトウェアとハードウェアとの協働によって実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置などの非一時的な記憶媒体である。プログラムは、電気通信回線を介して送信されてもよい。

取得部２２１、物体検出部２２２、座標変換部２２３、クラス尤度取得部２２４及びクラス判定部２２５の機能の一部は、予めクラス判定装置２に搭載されている必要はなく、追加のアプリケーションプログラムがクラス判定装置２にインストールされることで実現されてもよい。

取得部２２１は、各種情報を取得する。例えば、取得部２２１は、推論用フレームを取得する。例えば、取得部２２１は、学習装置１から学習済みモデルを取得する。

物体検出部２２２は、入力された推論用フレームそれぞれから物体を検出する。物体は、例えば人物である。物体の検出には、公知の技術が用いられてもよい。例えば、物体の検出には、非特許文献１に示す技術や、下記の参考文献１に記載の技術が用いられてもよい。物体検出結果は、物体を過不足なく囲う矩形の情報（例えば、矩形左上の座標を（ｘ_１,ｙ_１）、右下の座標を（ｘ_２,ｙ_２）として、（ｘ_１,ｙ_１,ｘ_２,ｙ_２）∈Ｒ^４）として出力される。
（参考文献１： X. Zhou et al., “Objects as Points”, in arXiv arXiv:1904.07850, 2019. [令和2年6月2日検索]、インターネット＜URL:https://arxiv.org/abs/1904.07850＞)

座標変換部２２３は、物体検出部２２２によって検出された各人物の位置を正規化空間における位置へと変換する。座標変換を行う方法は任意である。例えば推論用フレームの座標系と、正規化空間における座標系とが射影変換行列で関係づけられている場合、座標変換部２２３は、推論用フレーム座標系における検出結果から算出された中央下の位置を射影変換行列に乗算することで、検出された各人物の位置を正規化空間における位置へと変換する。これにより、座標変換部２２３は、検出された各人物の正規化空間における位置情報を取得する。

クラス尤度取得部２２４は、座標変換部２２３で得られた位置情報を、学習済みモデルに入力して、各人物が各クラスに属する尤もらしさを表す尤度を取得する。これにより、各人物が各クラスに属する尤もらしさが、例えばＮ×Ｌ要素で出力される。ここで、Ｎは検出された人物の数を表し、Ｌは対象クラスの数を表す。対象とする競技が野球の場合、対象クラスは例えばピッチャー、キャッチャー、ファースト、セカンド、ショート、サード、レフト、センター、ライトの９つである。なお、野球の場合の対象クラスはこれらに限定される必要はない。例えば、野球の場合の対象クラスには、審判員（球審、塁審、外審等）、ランナー、ベースコーチ等が含まれてもよい。

クラス判定部２２５は、クラス尤度取得部２２４により得られた結果に基づいて、各推論用フレームから検出された各人物のクラスを判定する。

図３は、第１の実施形態におけるクラス判定装置２が行う人物分類処理の流れを示すフローチャートである。図３の処理開始時には、学習済みモデルが記憶部２１に記憶されているものとする。
取得部２２１は、推論用フレームを取得する（ステップＳ１０１）。例えば、取得部２２１は、１枚の推論用フレームを取得する。取得部２２１は、取得した推論用フレームを物体検出部２２２に出力する。物体検出部２２２は、推論用フレームから人物を検出する（ステップＳ１０２）。物体検出部２２２は、検出結果を座標変換部２２３に出力する。

座標変換部２２３は、物体検出部２２２によって検出された各人物の人物領域の位置を、正規化空間における位置へと変換する（ステップＳ１０３）。ここでは、推論用フレームの座標系と、正規化空間における座標系とが射影変換行列で関係づけられているとする。この場合、座標変換部２２３は、推論用フレーム座標系における検出結果から算出された中央下の位置（上記の人物検出結果を例にすると、（(ｘ_１＋ｘ_２)/２,ｙ_２)））を以下の式（１）における射影変換行列に乗算することで、検出された各人物の位置を正規化空間における位置へと変換する。

図４に示す推論用フレーム３０がクラス判定装置２に入力されたとする。そして、物体検出部２２２により推論用フレーム３０において人物が検出される。例えば、推論用フレーム３０から人物領域３１が取得される。座標変換部２２３は、人物領域３１の中央下の位置３２を上記の式（１）における射影変換行列に乗算することで、正規化座標系における位置を求める。人物領域３１の正規化座標系における位置を図５に示す。座標変換部２２３は、物体検出部２２２によって複数の人物が検出されている場合には、検出された全ての人物領域に正規化座標系における位置を求める。座標変換部２２３は、座標変換結果（例えば、図５における（ｘ´，ｙ´））をクラス尤度取得部２２４に出力する。

クラス尤度取得部２２４は、座標変換部２２３から出力された座標変換結果を、記憶部２１に記憶されている学習済みモデル２１１に入力することによって各人物のクラス尤度を取得する（ステップＳ１０４）。クラス尤度取得部２２４は、各人物のクラス尤度の取得結果をクラス判定部２２５に出力する。

クラス判定部２２５は、クラス尤度取得部２２４から出力された取得結果に基づいて、推論用フレームから検出された各人物のクラスを判定する（ステップＳ１０５）。クラス判定にあたっては、人物検出結果及びクラスをノードとするグラフに基づく最適化を行うものとする。グラフに基づく最適化を行う方法は任意である。例えば、クラス判定部２２５は、図６に示すようにクラス尤度取得部２２４で得られるＮ×Ｌの出力をＮ行Ｌ列の行列３４とみなし、それに公知の割当方法を適用して各クラスに属する人物を判定する。公知の割当方法としては、例えばハンガリアン法が挙げられる。

図６を用いて、クラス判定部２２５の具体的な処理について説明する。
図６の上図に示すように、４人の人物が検出されているものとする。各人物はそれぞれｐ１、ｐ２、ｐ３、ｐ４とする。図６の下図には、クラス尤度取得部２２４によるクラス尤度の取得結果及びクラス判定部２２５による判定結果が示されている。例えば、クラス尤度の取得結果として、各人物ｐ１～ｐ４の各クラスに対する尤度の取得結果が示されている。図６では、人物ｐ１が、クラス１に属する割合が０．５であり、クラス２に属する割合が０．２であり、クラス３に属する割合が０．１であるといったことが示されている。クラス判定部２２５による判定結果として、人物ｐ１がクラス１に属し、人物ｐ２がクラス２に属し、人物ｐ４がクラス３に属すると判定されていることが示されている。

その後、制御部２２は終了条件が満たされたか否かを判定する（ステップＳ１０６）。終了条件は、図３に示す処理を終了するための条件である。例えば、終了条件は、ユーザから終了の指示がなされること、入力された推論用フレームにおけるクラス判定が終了したことなどである。終了条件が満たされた場合（ステップＳ１０６－ＹＥＳ）、クラス判定装置２は図３の処理を終了する。
一方、終了条件が満たされていない場合（ステップＳ１０６－ＮＯ）、クラス判定装置２はステップＳ１０１以降の処理を繰り返し実行する。

以上のように構成された第１の実施形態における物体分類システムによれば、撮影されている物体の解像度が低い場合であっても効率的に物体を分類することができる。具体的には、クラス尤度取得部２２４は、各クラスの正規化空間における位置情報を教師データとする学習済みモデルを用いて各人物の各クラスに属する割合を取得する。そして、クラス判定部２２５において、クラス尤度取得部２２４における取得結果を用いて各人物のクラス判定に用いる。このように、クラス判定装置２は、検出結果の見えの情報ではなく、位置情報に基づきクラス分類を行う。したがって、野球のポジションのようなクラスと位置情報の間にたいおう性があるケースにおいて、個々の人物の解像度が低い場合であっても効率的に物体を分類することができる。

クラス判定装置２における座標変換部２２３が、推論用フレームから検出された人物を正規化空間へ写像した上で、正規化空間における位置情報をクラス尤度取得部２２４に出力する。これにより、競技フィールドに対する撮像系の姿勢の影響を受けずに各検出結果のクラス尤度を取得することができる。

（第２の実施形態）
第１の実施形態では、入力された各推論用フレーム全てにおいて、検出された全ての人物のクラス判定を行う。そのため、既にクラス判定された人物について複数回クラス判定を行うことになる。第２の実施形態では、各推論用フレームで検出された人物をフレーム間で対応付け、対応付けがなされていない人物のクラス判定を行う。

図７は、第２の実施形態におけるクラス判定装置２ａの機能構成を表す概略ブロック図である。
クラス判定装置２ａは、記憶部２１及び制御部２２ａを備える。
制御部２２ａは、クラス判定装置２ａ全体を制御する。クラス判定装置２ａは、ＣＰＵ等のプロセッサやメモリを用いて構成される。制御部２２ａは、プログラムを実行することによって、取得部２２１、物体検出部２２２、座標変換部２２３ａ、クラス尤度取得部２２４ａ、クラス判定部２２５ａ及びトラッキング部２２６として機能する。

クラス判定装置２ａは、座標変換部２２３、クラス尤度取得部２２４及びクラス判定部２２５にかえて座標変換部２２３ａ、クラス尤度取得部２２４ａ及びクラス判定部２２５ａを備える点と、トラッキング部２２６を新たに備える点でクラス判定装置２と構成が異なる。クラス判定装置２ａのその他の構成については、クラス判定装置２と同様である。以下、相違点について説明する。

トラッキング部２２６は、推論用フレームを保持し、各フレーム間で検出された人物をフレーム間でトラッキングする。例えば、トラッキング部２２６は、時刻ｔ＋１における推論用フレームが入力された場合、時刻ｔにおける推論用フレームで検出された人物と、時刻ｔ＋１における推論用フレームで検出された人物とを対応付けることによって、検出された人物をフレーム間でトラッキングする。トラッキング部２２６により対応付けられる人物は、時刻ｔにおける推論用フレームに存在し、かつ、時刻ｔ＋１における推論用フレームに存在している同一の人物である。同一の人物とは、時刻ｔにおける推論用フレームで検出される人物の特徴量と、時刻ｔ＋１における推論用フレームで検出される人物の特徴量とが閾値以上一致する人物である。トラッキング部２２６は、対応付けられた人物に関する情報（以下「対応付け情報」という。）を座標変換部２２３ａに出力する。対応付け情報は、人物領域の位置情報や人物の識別情報を含む。

トラッキング部２２６が行うトラッキングには任意の方法を用いることが可能である。例えば、トラッキング部２２６が行うトラッキングには、下記参考文献２に開示されている技術が用いられてもよい。
（参考文献２：L. Chen et al., “Real-time Multiple People Tracking with Deeply Learned Candidate Selection and Person Re-identification”, in ICME, 2018. [令和2年6月2日検索]、インターネット＜URL:https://arxiv.org/abs/1809.04427＞）

座標変換部２２３ａ、クラス尤度取得部２２４ａ及びクラス判定部２２５ａは、基本的には座標変換部２２３、クラス尤度取得部２２４及びクラス判定部２２５と同様の処理を行う。座標変換部２２３ａ、クラス尤度取得部２２４ａ及びクラス判定部２２５ａにおいて新しい動作としては、トラッキング部２２６によるトラッキング結果に基づいて、時刻ｔ＋１における推論用フレームで検出された人物のうち時刻ｔにおける推論用フレームに存在しなかった人物の検出結果に対して処理を行う点である。座標変換部２２３ａ、クラス尤度取得部２２４ａ及びクラス判定部２２５ａは、時刻ｔにおける推論用フレームに存在しなかった人物を、トラッキング部２２６から出力された対応付け情報に基づいて特定する。

図８は、第２の実施形態におけるクラス判定装置２ａが行う物体分類処理の流れを示すフローチャートである。図８において、図５と同様の処理は図５と同様の符号を付して説明を省略する。
ステップＳ１０６の処理において終了条件が満たされていない場合（ステップＳ１０６－ＮＯ）、取得部２２１は、推論用フレームを取得する（ステップＳ２０１）。ステップＳ２０１において取得部２２１は、他の時刻における推論用フレームを取得する。例えば、ステップＳ２０１において取得部２２１は、前に取得したフレームよりも後の時刻における推論用フレームを取得する。取得部２２１は、取得した推論用フレームを物体検出部２２２に出力する。物体検出部２２２は、推論用フレームから人物を検出する（ステップＳ２０２）。物体検出部２２２は、検出結果をトラッキング部２２６に出力する。

トラッキング部２２６は、物体検出部２２２から出力された検出結果と、１つ前に取得された推論用フレームの検出結果とを対応付けることによってフレーム間で人物をトラッキングする（ステップＳ２０３）。ここで、トラッキング部２２６は、トラッキングによりフレーム間で人物の対応付けができた場合には、その人物を表す人物領域の画像上で位置情報や人物の識別情報を含む対応付け情報を生成する。

トラッキング部２２６は、対応付け情報と、物体検出部２２２から出力された検出結果とを座標変換部２２３ａに出力する。座標変換部２２３ａは、物体検出部２２２によって検出された各人物の人物領域の位置を、正規化空間における位置へと変換する（ステップＳ２０４）。ここで、座標変換部２２３ａは、検出結果に含まれているが、対応付け情報に含まれていない人物の人物領域の位置を、正規化空間における位置へと変換する。対応付け情報に含まれていない人物ということは、新たに取得された推論用フレームで新たに写りこんだ人物である可能性が高い。すなわち、クラスが判定されていない人物である可能性が高い。一方、対応付け情報に含まれている人物は、１つ前の推論用フレームで既に写りこんでいた人物である。すなわち、既にクラスが判定されている人物である可能性が高い。そのような人物のクラス判定を省くことによって処理速度を速めることができる。座標変換部２２３ａは、座標変換結果をクラス尤度取得部２２４ａに出力する。

クラス尤度取得部２２４ａは、座標変換部２２３ａから出力された座標変換結果を、記憶部２１に記憶されている学習済みモデル２１１に入力することによって各人物のクラス尤度を取得する（ステップＳ２０５）。座標変換部２２３ａからは、対応付け情報に含まれていない人物における座標変換結果しか出力されていない。そこで、クラス尤度取得部２２４ａにおいても、クラスが判定されていない可能性が高い人物のクラス尤度を判定する。クラス尤度取得部２２４ａは、各人物のクラス尤度の取得結果をクラス判定部２２５ａに出力する。

クラス判定部２２５ａは、クラス尤度取得部２２４ａから出力された取得結果に基づいて、推論用フレームから検出された各人物のクラスを判定する（ステップＳ２０６）。その後、制御部２２は終了条件が満たされたか否かを判定する（ステップＳ２０７）。終了条件が満たされた場合（ステップＳ２０７－ＹＥＳ）、クラス判定装置２ａは図８の処理を終了する。
一方、終了条件が満たされていない場合（ステップＳ２０７－ＮＯ）、クラス判定装置２ａはステップＳ２０１以降の処理を繰り返し実行する。

以上のように構成された第２の実施形態における物体分類システムによれば、第１の実施形態と同様の効果を得ることができる。
第２の実施形態における物体分類システムでは、各推論用フレームで検出された人物をフレーム間で対応付けることで追跡し、前フレームにおける人物検出結果を伝搬させる。そして、第２の実施形態における物体分類システムでは、トラッキング部２２６でトラッキングできなかった人物の検出結果に対してのみ処理を行う。これにより、座標変換部２２３ａ以降の処理は、既にクラス判定された人物を除いた人物を対象とすることができる。そのため、処理速度を向上させることができる。

＜第１の実施形態及び第２の実施形態に共通する変形例＞
上記の各実施形態では、映像を構成するフレームに写る人物の分類を例に説明したが、人物以外の物体（例えば、人物以外の生物、構造物等）を分類するように構成されてもよい。
学習装置１とクラス判定装置２，２ａは、一体化されて構成されてもよい。このように構成される場合、クラス判定装置２は、学習処理と推論処理とをユーザの指示に応じて切り替えて実行する。

クラス判定部２２５，２２５ａは、上述した方法とは別の方法でクラスを判定するように構成されてもよい。具体的には、クラス判定部２２５，２２５ａは、人物検出結果と、見えの情報とに基づいてクラスを判定してもよい。見えの情報とは、画像フレーム内に撮像されている人物が検出された画像領域から抽出された、見えの特徴量を表す。見えの特徴量は、例えば画素値である。例えば、Ａチームの選手と、Ｂチームの選手とではユニフォームが異なる。そのため、Ａチームの選手が検出された画像領域から抽出される見えの特徴量と、Ｂチームの選手が検出された画像領域から抽出される見えの特徴量とを比較すると、見えの特徴量の類似度が閾値未満となる。一方で、同じチームの選手同士はユニフォームが同じである。そのため、Ａチームの各選手が検出された各画像領域から抽出される各見えの特徴量の類似度が閾値以上となる。そこで、クラス判定部２２５，２２５ａは、物体が検出された画像領域から抽出される見えの特徴量を比較して、見えの特徴量の類似度が閾値以上となる人物を同一チームと判断して同一チームの人物のクラスを判定してもよい。このように、クラス判定部２２５，２２５ａは、物体が検出された画像領域から抽出される見えの特徴量を比較して、比較に基づく尺度を加味してクラス判定を行ってもよい。具体的な処理について図９及び図１０を用いて説明する。

図９において、人物ｐ１～ｐ４は、図６と同様に、検出された人物である。図９及び図１０において、人物ｐ１、ｐ２及びｐ４は同じチームの選手（例えば、Ａチーム）であり、人物ｐ３だけ異なるチーム（例えば、Ｂチーム）である。クラス判定部２２５，２２５ａは、人物ｐ１～ｐ４をノード５１～５４とし、ノード間をエッジで接続する。ノードをエッジで接続する方法は任意である。例えば、クラス判定部２２５，２２５ａは、全てのノードを接続する全結合グラフを構築してもよいし、人物の位置情報に基づき近傍ｋノードにのみエッジを張るｋ近傍グラフを構築してもよい。クラス判定部２２５，２２５ａは、人物ｉ，ｊ間のエッジの重みを、人物領域間の見えの類似度に基づき算出する。例えば、クラス判定部２２５，２２５ａは、エッジで接続しているノード同士の見えの特徴量が類似しているほどエッジの値を高くし、エッジで接続しているノード同士の見えの特徴量が類似していないほどエッジの値を低くする。これにより、同じチームの選手同士を接続するエッジの値が高くなる。図９に示す例では、人物ｐ１に対応するノード５１と、人物ｐ４に対応するノード５４とは、見えの特徴量が類似する。そのため、ノード５１とノード５４とを接続するエッジの重みが０．５となっている。一方で、人物ｐ１に対応するノード５１と、人物ｐ３に対応するノード５３とは、見えの特徴量が類似しない。そのため、ノード５１とノード５３とを接続するエッジの重みが０．１となっている。

クラス判定部２２５，２２５ａは、このようにして構築したグラフと、判定したいクラスをノードとして構築したグラフとのマッチングを行うことによってクラスを判定する。図９では、判定したいクラスとして、クラスｃ１，ｃ２，ｃ３が示されている。そして、クラスｃ１に対応するノード５５、クラスｃ２に対応するノード５６、クラスｃ３に対応するノード５７をエッジで接続したグラフが示されている。クラス判定部２２５，２２５ａは、各検出結果をノードとするグラフをＧ＝（Ｖ,Ｅ,Ａ）、各クラスをノードとするグラフをＧ’＝（Ｖ’,Ｅ’,Ａ’）とする。Ｖ、Ｖ’はノード集合、Ｅ、Ｅ’はエッジ集合、Ａ、Ａ’は属性集合である。このとき、検出結果とクラスの対応付けは以下の式２を最大化するような解Ｍとして出力される。

式２におけるｇ（）について、ｉ＝ｊかつｉ‘＝ｊ’のとき、ｇ（）がクラス尤度取得部２２４で取得された人物検出結果ｉがクラスｉ‘に属する尤もらしさ、上記以外の条件のときは、ｉ、ｊ間およびｉ‘、ｊ’間各々にエッジが張られている場合に１、それ以外では０となる。上式を最大化するＭを計算する方法は任意のアルゴリズムを用いることが可能であり、例えば参考文献３に開示されている方法を用いればよい。
（参考文献３：T. Cour et al., “Balanced Graph Matching”, in NIPS, 2006.）
上記のように、クラス判定部２２５，２２５ａは、各人物のクラスを判定する。

以上のように構成されることによって、位置情報のみでクラス判定が困難な場合、例えば異なるチームの選出同士が近い場合、選手以外の人物（例えば、審判）が選手の近くにいる場合においても見えの情報を加味することでクラス判定の精度を向上させることが可能になる。
さらに、クラス判定装置２，２ａにおけるクラス判定部２２５，２２５ａが、人物検出結果及びクラスをノードとするグラフに基づいて、推論用フレームの人物検出結果のクラスを判定する。グラフベースの大域最適化によって、クラス判定部２２５，２２５の結果のみに基づいて得られる局所解よりも精度よくクラスを判定することができる。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１…学習装置，２…クラス判定装置，１１…学習モデル記憶部，１２…学習データ入力部，１３…学習部，２１…記憶部，２２…制御部，２２１…取得部，２２２…物体検出部，２２３，２２３ａ…座標変換部，２２４，２２４ａ…クラス尤度取得部，２２５，２２５ａ…クラス判定部，２２６…トラッキング部

Claims

入力されたフレームに撮影されている物体を検出する物体検出部と、
前記物体検出部によって検出された前記物体の位置情報を入力として、前記物体が各クラスに属する割合を出力するように学習されたモデルを用いて、検出された前記物体の各クラスに属する割合を取得するクラス尤度取得部と、
前記クラス尤度取得部によって取得された前記物体の各クラスに属する割合に応じて、検出された前記物体のクラスを判定するクラス判定部と、
を備え、
前記クラス判定部は、検出された前記物体及び前記クラスをノードとするグラフに基づいて前記物体のクラスを判定するクラス判定装置。
前記フレームに撮影されている空間を、他の座標系の空間に変換する座標変換部をさらに備え、
前記クラス尤度取得部は、変換後の空間における前記物体の位置情報を前記モデルに入力することによって前記物体の各クラスに属する割合を取得する、
請求項１に記載のクラス判定装置。
第１のフレームで検出された物体と、前記第１のフレームよりも後の時刻に得られた第２のフレームで検出された物体とを対応付けてトラッキングするトラッキング部をさらに備え、
前記クラス尤度取得部は、前記トラッキング部によるトラッキング結果に基づいて、前記第２のフレームで検出された物体のうち前記第１のフレームに存在しなかった物体の各クラスに属する割合を取得する、
請求項１又は２に記載のクラス判定装置。
前記クラス判定部は、前記フレームに撮影されている前記物体が検出された画像領域から抽出された、見えの特徴量の比較に基づく尺度を加味して前記物体のクラスを判定する、
請求項１から３のいずれか一項に記載のクラス判定装置。
入力されたフレームに撮影されている物体を検出する物体検出ステップと、
前記物体検出ステップによって検出された前記物体の位置情報を入力として、前記物体が各クラスに属する割合を出力するように学習されたモデルを用いて、検出された前記物体の各クラスに属する割合を取得するクラス尤度取得ステップと、
前記クラス尤度取得ステップによって取得された前記物体の各クラスに属する割合に応じて、検出された前記物体のクラスを判定するクラス判定ステップと、
有し、
前記クラス判定ステップにおいて、検出された前記物体及び前記クラスをノードとするグラフに基づいて前記物体のクラスを判定するクラス判定方法。
入力されたフレームに撮影されている物体を検出する物体検出ステップと、
前記物体検出ステップによって検出された前記物体の位置情報を入力として、前記物体が各クラスに属する割合を出力するように学習されたモデルを用いて、検出された前記物体の各クラスに属する割合を取得するクラス尤度取得ステップと、
前記クラス尤度取得ステップによって取得された前記物体の各クラスに属する割合に応じて、検出された前記物体のクラスを判定するクラス判定ステップと、
をコンピュータに実行させ、
前記クラス判定ステップにおいて、検出された前記物体及び前記クラスをノードとするグラフに基づいて前記物体のクラスを判定するためのコンピュータプログラム。