JP7107440B2

JP7107440B2 - 学習データ生成装置、学習データ生成方法、プログラム

Info

Publication number: JP7107440B2
Application number: JP2021528646A
Authority: JP
Inventors: 弾三上; 麻理子五十川; 浩子薮下; 良規草地
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2022-07-27
Anticipated expiration: 2039-06-24
Also published as: WO2020261316A1; US20220375203A1; JPWO2020261316A1

Description

本発明は、単一のカメラ映像に記録された回転運動をする球体の輪郭を推定する認識器を学習するための学習データを生成する学習データ生成装置、学習データ生成方法、プログラムに関する。

物体検出やセグメンテーションを実現するための従来手法として、非特許文献１が知られている。非特許文献１のMask R-CNNは、例えば映像に記憶された回転する球体（例えばスポーツに用いられるボールなど）の領域（輪郭）を抽出する機能を有する。

Kaiming He, Georgia Gkioxari, Piotr Dollar, and Ross Girshick, "Mask R-CNN", IEEE International Conference on Computer Vision (ICCV), 2017

しかしながら、高速に回転しながら移動する球体（例えばボール）はモーションブラーなどの影響で輪郭がはっきりせず、どこからどこまでが球体であるか不明となることがしばしばあり、一般的なツールを用いた物体領域のセグメンテーションでは精度が不十分な可能性がある。

そこで本発明では、単一のカメラ映像に記録された回転運動をする球体の輪郭を高精度に推定できる認識器を学習するための学習データを生成する学習データ生成装置を提供することを目的とする。

本発明の学習データ生成装置は、回転数推定部と、輪郭決定部と、学習データ出力部を含む。

回転数推定部は、回転する球体の運動が記録された学習用映像と、記録された球体の映像上の輪郭のサイズの初期値を入力とし、初期値を基準として輪郭のサイズの設定値を複数設定し、設定値のそれぞれについて、学習用映像に基づいて球体の回転数の推定値を求める。輪郭決定部は、学習用映像に対応して予め得られた球体の回転数の真値を入力とし、真値と最も近いものから順に選択した複数個の推定値それぞれに対応する複数個の設定値のうちの少なくとも何れかを輪郭の決定値として決定する。学習データ出力部は、学習用映像と、決定値を学習データとして出力する。

本発明の学習データ生成装置によれば、単一のカメラ映像に記録された回転運動をする球体の輪郭を高精度に推定できる認識器を学習するための学習データを生成することができる。

映像に記録された回転する球体の輪郭がはっきりしない例について示す図。輪郭のサイズと推定される回転数の関係を説明する模式図。輪郭のサイズと推定される回転数の関係を説明するグラフ。球体と背景およびその境界領域における輝度値の変化を例示するグラフ。実施例１の学習データ生成装置の構成を示すブロック図。実施例１の学習データ生成装置の動作を示すフローチャート。実施例１の学習データ生成装置の回転数推定部の構成を示すブロック図。実施例１の学習データ生成装置の回転数推定部の動作を示すフローチャート。実施例１の学習データ生成装置の回転数推定部の動作を説明する図。図１０(a)は、球体５の模様を分かりやすく簡易化した図。図１０(b)は、球体５がカメラ６に対して真っすぐに飛翔する様子を示した図。図１０(c)は、球体５がカメラ６に対して斜めに飛翔する様子を示した図。球体の位置が変化すると、照明環境に応じて、球体に異なる影ができることを示す図。球体のテクスチャの例を示す図。球体のテクスチャにより、尤度の分布の幅が異なることを示す図。複数フレームを用いた場合に、尤度の分布の幅が狭くなることを示す図。実施例１の学習装置の構成を示すブロック図。実施例１の学習装置の動作を示すフローチャート。実施例１の認識装置の構成を示すブロック図。実施例１の認識装置の動作を示すフローチャート。コンピュータの機能構成例を示す図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

なお、以下の説明に登場する「映像に記録された球体」とは、典型的には球技に用いられるボールであるが、これに限定されない。本発明は球技に用いられるボールに限らず、回転運動する任意の球体全般に使用できる。

映像に記録された回転球体の輪郭と回転数を推定する方法について以下に述べる。この方法では、同じ映像に対して、小さな輪郭を指定すると、より大きな回転数が推定され、大きな輪郭を指定すると、より小さな回転数が推定されるという特性がある。

この特性を図１と図２を用いて説明する。図１は撮影した映像（２フレーム分を重畳したもの）を示しており、中心部分にボールが存在しているが、その輪郭はぼやけており、どこまでが輪郭であるか正確に判断することが難しい。このボールは図面向かって右方向に回転しており、２フレームの間に、ボールの模様の所定の部分がＡの位置からＢの位置まで移動したものとする。

図２は、ボールを回転方向と垂直な方向からみた状態を示しており、例えばこのボールに対して輪郭ｒ_１を仮定した場合にＡからＢまでの移動がθ_１の回転量に相当するものとし、このボールに対してｒ_２＞ｒ_１を充たす輪郭ｒ_２を仮定した場合にＡからＢまでの移動がθ_２の回転量に相当するものとする。この場合、θ_２＜θ_１の関係となることが明らかである。

この関係を図３、図４に示す。図４は、図１の破線上の各座標における輝度を示すグラフであり、座標軸の左側がボールの領域、右側が背景の領域に対応する。座標軸の中央付近は、ボールの領域であるか背景の領域であるかが不明な境界領域である。上述した通り、境界領域の座標xを境界として設定すると、回転数Rxが得られ、座標y(>x)を境界として設定すると、回転数Ry(<Rx)が得られ、座標z(>y)を境界として設定すると、回転数Rz(<Ry)が得られる（図３）。

［学習データ生成装置１１］
以下、図５を参照して、実施例１の学習データ生成装置１１の構成を説明する。同図に示すように、本実施例の学習データ生成装置１１は、回転数取得部１１１と、輪郭初期値設定部１１２と、回転数推定部１１３と、輪郭決定部１１４と、学習データ出力部１１５と、学習データ記憶部１１６を含む。以下、図６を参照して各構成要件の動作を説明する。

＜回転数取得部１１１＞
回転数取得部１１１は、処理開始の制御信号を入力とし、学習用映像に記録された回転する球体（例えばボール）の回転数の真の値（真値）を取得し、輪郭決定部１１４に出力する（Ｓ１１１）。回転数の真値は、別センサなどから取得することができる。

＜輪郭初期値設定部１１２＞
輪郭初期値設定部１１２は、回転する球体の運動が記録された学習用映像を入力とし、学習用映像に基づいて、任意の方法（例えばMask R-CNN）により映像に記録された球体の輪郭のサイズを推定して推定結果を輪郭のサイズの初期値とし、学習用映像と初期値を回転数推定部１１３に出力する（Ｓ１１２）。例えば、球体の輪郭の推定は、例えば、画像をセグメンテーションして球体領域に該当する領域を取得した上で、当該領域に円フィッティングを行い、円の半径と中心を得るなどすればよい。球体領域は例えば前述のMask R-CNNの機能を利用して得ることができる。

＜回転数推定部１１３＞
回転数推定部１１３は、回転する球体の運動が記録された学習用映像と、記録された球体の映像上の輪郭のサイズの初期値（ステップＳ１１２で推定）を入力とし、初期値を基準として輪郭のサイズの設定値を複数設定し、設定値のそれぞれについて、学習用映像に基づいて球体の回転数の推定値を求める（Ｓ１１３）。例えば回転数推定部１１３は、ステップＳ１１２で推定した輪郭のサイズの初期値に基づき、そのサイズ（例えば半径）を一定割合で変化させて複数種類のサイズ（例えば半径）を設定し、設定した複数種類のサイズのそれぞれについて、回転数を推定する。回転数推定部１１３は、例えば、初期値の±L%を最大変化幅として、その間をN等分したサイズ、すなわちN+1通りのサイズを設定し、設定したサイズのそれぞれについて回転数を推定すればよい。なお、Lの値は学習用映像をセグメンテーションしたときの精度や球体の輪郭がどれだけぼやけているかなどによって定める値であり、20程度とするのが好適である。Lを20以上に設定しなければならないほど輪郭がぼやけている場合、学習用映像からボールの回転数が推定できない場合がある。Nは2以上の整数とし、最大変化幅をN等分した値が1未満（すなわち1ピクセル未満）とならないように設定する。

図７に回転数推定部１１３の詳細な構成を示す。同図に示すように回転数推定部１１３は、仮説生成部１１３１と、仮説検証部１１３２と、収束条件判断部１１３３を含む。以下、図８、図９を参照して回転数推定部１１３の回転数推定動作の詳細について述べる。

＜回転数推定動作の詳細＞
上述したように、回転数推定部１１３には、学習用映像と初期値が入力される。

回転数推定部１１３は、時刻tの学習用映像と、時刻t+t_cの学習用映像とを用いて、ある時刻の学習用映像中の球体を回転状態の仮説に基づいてt_c単位時間だけ回転させた球体の画像の尤度が高くなる回転状態の仮説を複数の回転状態の仮説の中から選択することで、球体の回転状態を推定する（ステップＳ１１３）。

言い換えれば、回転数推定部１１３は、ある時刻の学習用映像中の球体を回転状態の仮説に基づいてt_c単位時間だけ回転させた球体の画像とそのある時刻よりもt_c単位時間だけ後の時刻の学習用映像とが近い回転状態の仮説を複数の回転状態の仮説の中から選択することで、球体の回転状態を推定する。

t_cは、所定の１以上の整数である。例えば、t_c=1である。t_cは、球体の想定される回転の周期Tよりも小さくてもよい。単位時間の例として、１フレームでの経過時間を利用する。ただし、２フレームでの経過時間を単位時間とすることもできる。

例えば、回転数推定部１１３は、推定される回転状態が収束するまで、以下に説明するステップＳ１１３１、Ｓ１１３２、Ｓ１１３３の処理を繰り返す。

ステップＳ１１３１は、回転数推定部１１３の仮説生成部１１３１による、回転状態の仮説を複数生成する処理である。

ステップＳ１１３２は、回転数推定部１１３の仮説検証部１１３２による、仮説の評価を行う処理である。

ステップＳ１１３３は、回転数推定部１１３の収束条件判断部１１３３による、収束条件を満たすか否かを判断する処理である。

以下では、時刻tの学習用映像と、時刻t+t_cの学習用映像とを用いて回転状態を推定する例を挙げて、ステップＳ１１３１、Ｓ１１３２、Ｓ１１３３の処理を説明する。

まず、回転数推定部１１３の仮説生成部１１３１は、回転状態の仮説を複数生成する（ステップＳ１１３１）。例えば、仮説生成部１１３１は、事前に与えられた確率分布に基づいて複数の仮説を生成する。なお、初期状態においては、一般に事前情報が存在しないため、一様分布の確率分布に基づいて複数の仮説を生成する。

そして、仮説生成部１１３１は、時刻tの学習用映像中の球体を各回転状態の仮説に基づいてt_c単位時間だけ回転させた球体の画像を生成する。

例えば、球体が、野球のボールであり、学習用映像にはボールの半球分が見えているとする。この場合、図９に示すように、球であるボールの半径をRとして、ボールの中心を原点に取ったときに、任意の座標(x,y)に対応する奥行zは、z=(R²-x²-y²)^(1/2)となる。これにより、ボールの領域の各ピクセルについての三次元位置（x,y,z)を求めることができる。なお、単位として、球体の実際の大きさが既知であれば実際の長さの単位を用いても構わないし、ピクセル数を単位として用いてもよい。

仮説生成部１１３１は、三次元位置（x,y,z)を回転する。例えば、ロドリゲス回転公式を適用することで三次元位置（x,y,z)を回転することができる。ロドリゲス回転公式によれば、長さ１となる回転軸（n_x,n_y,n_z)を中心に右まわりにθ回転した時の回転の回転行列が、

で定義できる。

回転数推定部１１３の仮説検証部１１３２は、時刻tの学習用映像中の球体を各回転状態の仮説に基づいてt_c単位時間だけ回転させた球体の画像と、実際の時刻t+t_cの学習用映像とを比較することで、各仮説の尤もらしさを検証する。

より詳細には、仮説検証部１１３２は、実際の時刻t+t_cの学習用映像と、時刻tの学習用映像中の球体をある回転状態の仮説に基づいてt_c単位時間だけ回転させた球体の画像との間の類似度を計算して、これをある仮説の尤度とする（ステップＳ１１３２）。ここで、２個の画像の類似度とは、例えば２個の画像の中の対応するサンプルのユークリッド距離を所定の非増加関数に入力したときの出力値である。所定の非増加関数の例はf(x)=1/xである。仮説検証部１１３２は、この仮説の尤度の計算を、ステップＳ１１３１で生成された複数の仮説のそれぞれについて行う（ステップＳ１１３２）。

回転数推定部１１３の収束条件判断部１１３３は、計算された仮説の尤度が所定の収束条件を満たしているか判断する（ステップＳ１１３３）。所定の収束条件の例は、前回計算された仮説の尤度の最大値と、今回計算された仮説の尤度の最大値との差の大きさが、所定の閾値以下であるか否かである。

計算された仮説の尤度が所定の収束条件を満たしている場合には、収束条件判断部１１３３は、例えば、今回計算された仮説の尤度の最大値に対応する仮説を選択し、選択された仮説の回転状態を、球体の回転状態の推定結果として出力する。

計算された仮説の尤度が所定の収束条件を満たしていない場合には、仮説生成部１１３１は、ステップＳ１１３２で計算された尤度によって定まる仮説の確率分布に基づくランダムサンプリングにより、複数の仮説を新たに生成する（ステップＳ１１３１）。

言い換えれば、仮説生成部１１３１は、今回計算された尤度が大きい仮説ほど高い確率で決定されるように、今回生成された複数の仮説の中から仮説を決定し、決定された仮説の回転状態の値に乱数を加えた値の回転状態を新たな仮説とする処理を複数回繰り返すことで、複数の仮説を新たに生成する。

例えば、今回生成された仮説の数はN個であり、仮説をi(i=1,…,N)とする。i=1,…,Nとして、今回計算された仮説iの尤度をx_iとする。回転数推定部１１３は、今回計算された仮説iの尤度x_iの総和S=Σ_i=1 ^Nx_iを計算する。そして、回転数推定部１１３は、区間[0,S]の一様乱数xを発生させる。そして、回転数推定部１１３は、(x-Σ_i=1 ^I-1x_i)>0≧(x-Σ_i=1 ^Ix_i)の関係を満たす仮説Iを決定する。回転数推定部１１３は、仮説Iの回転状態の各値に対して乱数を加えた値の回転状態を新たな仮説とする。例えば、仮説Iの回転状態が回転軸(r_x(I),r_y(I),r_z(I))と回転数θ(I)で構成されており、乱数はガウスノイズn_x,n_y,n_z,n_θであるとする。この場合、新たな仮説の回転状態は、(r_x(I)+n_x,r_y(I)+n_y,r_z(I)+n_z,θ(I)+n_θ)となる。仮説生成部１１３１は、この処理を複数回（例えばM回）繰り返すことで、複数の仮説を新たに生成する。Mは例えば10程度の値とすればよい。この回数は、処理時間と精度のトレードオフの関係に基づいて決定するのが望ましい。一般に、回数が増えると精度が向上するが、処理時間も長くなる。最初の2～3回は精度向上に対する効果が大きいので強く推奨される。強い時間制約がない場合、M=10回程度が好ましいと考えられる。

その後、仮説検証部１１３２は、新たに生成された複数の仮説に基づいて、ステップＳ１１３２の処理を行う。

このようにして、回転数推定部１１３は、計算された仮説の尤度が所定の収束条件を満たすまで、ステップＳ１１３１、Ｓ１１３２、Ｓ１１３３の処理を繰り返し行う。

以上のように、回転数推定部１１３は、複数の回転状態の仮説のそれぞれについて、時刻tの学習用映像中の球体を回転状態の仮説に基づいてt_c単位時間だけ回転させた球体の画像の尤度を計算する処理と、計算された尤度に基づいて尤もらしい複数の回転状態の仮説を新たに生成する処理と、を繰り返し行うことで、球体の回転状態を推定する。

従来技術では、球体の回転状態を推定するためには、一周期分の映像が必要であった。これに対して、上記の詳細な動作によれば、時刻tの学習用映像と、時刻t+t_cの学習用映像とを用いて、球体の回転状態を推定することができる。ここで、t_cは、周期Tよりも小さくてもよい。このため、上記の詳細な動作によれば、一周期分の映像が得られていない場合であっても、球体の回転状態を推定することができる。

なお、球体の外見の変化の要因には、球体の姿勢の変化以外にも、位置の変化がある。例えば、図１０(c)のように球体がカメラに対して斜めに飛翔する等の場合には、球体の位置の変化は、球体の外見の変化の要因となっている。t_cが周期Tよりも小さい場合には、上記の詳細な動作によれば、従来技術よりも短い時間間隔の画像を用いて球体の回転状態を推定できるため、球体の位置の変化による外見の変化の影響を低減することができる。このため、図１０(c)のように球体がカメラに対して斜めに飛翔する等の場合にも、上記の詳細な動作により、従来技術よりも高い精度で、球体の回転状態を推定できる。

[変形例]
<変形例１>
回転数推定部１１３は、学習用映像を用いて、球体の特徴が強調された特徴強調学習用映像を生成してもよい。

例えば、回転数推定部１１３は、学習用映像に対してエッジ抽出を行うことで、特徴強調学習用映像を生成する。これにより、球体の特徴を強調することができる。

球体の例である野球のボールには、多くの場合、マークが付与され、縫い目が存在する。また、図１１(a)及び図１１(b)に例示するように、球体の位置が変化すると、照明環境に応じて、球体に異なる影ができることもある。

回転数推定部１１３が、例えばエッジ処理等の特徴を強調する処理を行うことにより、照明環境の影響をなるべく取り除き、球体の外見を明確にすることができる。具体的には、ボールのシーム（縫い目）が分かりやすくなる。

この場合、回転数推定部１１３は、学習用映像に代えて、特徴強調学習用映像を用いて、ステップＳ１１３１からステップＳ１１３３の処理、及び、後述する変形例２から変形例４の処理を行う。言い換えれば、回転数推定部１１３が回転状態を推定するために用いる学習用映像は、特徴強調学習用映像であってもよい。

回転数推定部１１３が球体の特徴を強調する処理を行うことにより、回転数推定処理の精度が高まるというメリットがある。

<変形例２>
回転数推定部１１３は、ステップＳ１１３２において、２個の画像の中の所定の領域のみを考慮して、仮説の尤度を計算してもよい。例えば、回転数推定部１１３は、学習用映像の、球体が表示されている領域に含まれる各ピクセルについて、当該ピクセルの位置における球体の法線方向を計算し、カメラに向かう方向のピクセルのみを利用する方法や、カメラの画像平面に対して奥行き方向の位置を利用して、所定の閾値よりもカメラ側に位置するピクセルのみを利用して、仮説の尤度を計算してもよい。

<変形例３>
上記の手法は、時刻t、時刻t+t_cの２フレーム分の学習用映像により実行可能な手法であった。

これに対して、尤度に基づく推定を複数フレーム分に跨って行ってもよい。言い換えれば、回転数推定部１１３は、時刻t₁,t₂,…,t_Kの学習用映像と、時刻t₁+t_c,t₂+t_c,…,t_K+t_cの学習用映像とを用いて、時刻t₁,t₂,…,t_Kの学習用映像中の球体を回転状態の仮説に基づいてt_c単位時間だけ回転させた球体の画像の尤度が高くなる回転状態の仮説を複数の回転状態の仮説の中から選択することで、球体の回転状態を推定してもよい。

なお、回転数の最大値が2800程度の野球のボールが960fpsで撮影された場合、経験的にk=10程度で回転状態の推定の精度が安定する。

球体に外見の特徴が少ない場合には、時刻t、時刻t+t_cの２フレーム分の学習用映像を考慮しただけでは、球体の回転状態を適切に推定ができない場合がある。これは、球体に外見の特徴が少ない場合には、球体の姿勢の変化による外見の変化も少なくなるためである。

例えば、球体のテクスチャが図１２(a)である場合、時刻tの画像と、時刻t+t_cの画像において、対応点（この例では、３点の対応点）を定めることは容易である。この場合、時刻tとt+t_cの間だけの回転を用いた尤度計算によって、図１３(a)のような尤度分布となることが期待される。図１３(a)の横軸は姿勢であり、縦軸は尤度である。このように、対応点の指定が容易なケースでは、尤度の分布の幅は狭い。

これに対して、例えば、球体のテクスチャが図１２(b)である場合で、球体が縦方向に回転（図１２(b)の左右方向（水平方向）を軸とする回転）を有する場合には、対応点を定めることは困難である。この場合、時刻tとt+t_cの間だけの回転を用いた尤度計算によって、図１３(b)のような尤度分布となることが期待される。図１３(a)の横軸は姿勢であり、縦軸は尤度である。このように、対応点の指定が困難なケースでは、尤度の分布の幅は広い。

図１２(b)及び図１３(b)の場合、学習用映像は画像中で垂直方向に延びるエッジ成分から構成されるため、回転量による尤度の変化が小さくなる。このため、１組のフレームを用いた場合には、精度低下の主な要因となる。

これに対して、複数組のフレームを用いることで、図１４のような分布になることが期待される。すなわち、ひとつひとつのフレームの組においては姿勢に対する尤度の分布の幅は広いが、複数組のフレームを考慮することで尤度の分布の幅は狭くなり、姿勢をより適切に推定することができると考えられる。

球体が、野球のボールのように縫い目など滑らかに変化するシームしか特徴がみられない物体である場合に、変形例３は有効である。

<変形例４>
回転数推定部１１３は、ステップＳ１１３２の繰り返し処理において、前回のステップＳ１１３２の処理で用いたt_cと、今回のステップＳ１１３２の処理で用いるt_cの値を変えてもよい。

例えば、回転数推定部１１３は、最初のN回のステップＳ１１３２の処理においてはt_c=1として処理を行い、その後のステップＳ３２の処理においてはt_c=2として処理を行ってもよい。

これにより、生成される仮説の回転状態の値の変化量が大きくなり、回転状態の推定を安定して行うことができる。

<変形例５>
上記の詳細な動作により推定される回転状態の回転軸は、カメラ座標系での回転軸であり、カメラを置く位置及び姿勢により変化してしまう。このため、球体が野球のボールである場合には、事前にカメラの位置及び姿勢の推定を行い較正を行うことで、野球場の座標系におけるボールの回転軸を求めてもよい。

球体が野球のボールである場合には、例えば以下のステップa)からf)の処理を行ってもよい。

a)カメラをもっともワイドに撮影する状態とする。

b)その状態でカメラの内部パラメータを推定する。カメラの内部パラメータとは、カメラのレンズの歪みなどを含み、参考特許文献１の手法などで求めることができる。

〔参考特許文献１〕Zhengyou Zhang, "A flexible new technique for camera calibration", IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(11):1330-1334, 2000.

なお、カメラの内部パラメータについては、参考非特許文献２に詳しい。

〔参考非特許文献２〕Ryo Komiyama、"カメラの内部パラメータ、外部パラメータ、歪み、復習用"、［online］、［平成31年03月14日検索］、インターネット〈URL：https://qiita.com/ryokomy/items/fee2105c3e9bfccde3a3〉

c)撮影位置から、ホーム、１～３塁ベース及びピッチャープレートが観察可能なように撮影する。

d)野球場において位置が既知であるホーム、１～３塁ベースを用いてPNP（perspective n-point problem）を解くことで、野球場の座標系におけるカメラの位置及び姿勢を求
める。なお、PNPについては、参考非特許文献３に詳しい。参考非特許文献３では、P3Pとして解を求めることを想定している。

〔参考非特許文献３〕"カメラの位置・姿勢推定２ PNP問題理論編"、［online］、［平成31年03月14日検索］、インターネット〈URL：http://daily-tech.hatenablog.com/entry/2018/01/21/185633〉

e)必要に応じてズームして、上記の詳細な動作によりボール画像を取得して、カメラ座標系におけるボールの回転軸を求める。

f)ステップe)で求まった回転軸とステップd)で求めたカメラの姿勢とから野球場の座標系におけるボールの回転軸が得られる。

以上、回転数推定部１１３の詳細な動作及び変形例について説明したが、具体的な構成は、これらの動作及び変形例に限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、本発明に含まれることはいうまでもない。

例えば、上記の変形例は、適宜組み合わせてもよい。

また、回転数推定部の構成部間のデータのやり取りは直接行われてもよいし、図示していない記憶部を介して行われてもよい。

＜輪郭決定部１１４＞
輪郭決定部１１４は、学習用映像に対応して予め得られた球体の回転数の真値を入力とし、真値と最も近い推定値に対応する設定値を輪郭の決定値として決定する（Ｓ１１４）。輪郭決定部１１４は、真値と最も近いものから順に選択した複数個の推定値それぞれに対応する複数個の設定値のうちの少なくとも何れかを輪郭の決定値として決定してもよい。なお、以下では一例として、真値と最も近い推定値に対応する設定値を輪郭の決定値として決定したものとして説明を進める。輪郭決定部１１４は、真値からの誤差の逆数を重みとした重みづけ平均などを行ってもよい。重みづけ平均はステップＳ１１３で設定したN+1通りの半径すべてに対して行ってもよいし、N+1通りの一部を選択し、選択した複数通りの半径に対して行ってもよい。

＜学習データ出力部１１５＞
学習データ出力部１１５は、学習用映像と、輪郭決定部１１４で設定された、学習用映像に対応して予め得られた球体の回転数の真値と最も近い推定値に対応する決定値とを入力とし、決定値を当該学習映像と対応付けて、学習データとして出力する（Ｓ１１５）。

＜学習データ記憶部１１６＞
学習データ記憶部１１６は、学習データを記憶する（Ｓ１１６）。

このように、本実施例の学習データ生成装置１１によれば、単一のカメラ映像に記録された回転運動をする球体の輪郭を高精度に推定できる認識器を学習するための学習データを生成することができる。

［学習装置１２］
以下、図１５を参照して学習データ生成装置１によって生成された学習データを使用する学習装置１２について説明する。同図に示すように、本実施例の学習装置１２は、学習データ取得部１２１と、認識器学習部１２２と、認識器記憶部１２３を含む。以下、図１６を参照して各構成要件の動作を説明する。

＜学習データ取得部１２１＞
学習データ取得部１２１は、学習データ生成装置１から学習データである学習映像と決定値の組（場合により、複数個の組）を取得し、認識器学習部１２２に出力する（Ｓ１２１）。

＜認識器学習部１２２＞
認識器学習部１２２は学習データである学習映像と決定値の組（場合により、複数個の組）を取得し、当該学習データに基づいて、映像中の球体の輪郭を推定する認識器を学習し、学習された認識器を認識器記憶部１２３に出力する（Ｓ１２２）。球体の輪郭を推定する認識器の学習方法の一例として、SVMを用いたセグメンテーションが挙げられる。この方法では、注目ピクセルpについてその近傍M×Mピクセルの情報を入力として、球体領域か否かの2値分類を行うための学習を行う。このとき、Mは球体領域の全てが含まれる、すなわち、球体領域と球体領域でない領域が必ず含まれるように設定すれば好適である。例えばMをステップＳ１１２で設定される初期値の1.5倍程度とすれば好適である。また近傍M×Mピクセルとして正方形の領域を指定したのはあくまで一例である。例えば、M≠Qとして注目ピクセルpについて、その近傍M×Qピクセルの情報を入力として、球体領域か否かの2値分類を行うための学習を行ってもよい。

＜認識器記憶部１２３＞
認識器記憶部１２３は、認識器を記憶する（Ｓ１２３）。

［認識装置１３］
以下、図１７を参照して学習装置１２によって学習された認識器を使用する認識装置１３について説明する。同図に示すように、本実施例の認識装置１３は、認識用映像取得部１３１と、認識部１３２と、認識結果記憶部１３３を含む。以下、図１８を参照して各構成要件の動作を説明する。

＜認識用映像取得部１３１＞
認識用映像取得部１３１は、記録された球体の輪郭が未知である認識用の映像（認識用映像）を取得し、認識部１３２に出力する（Ｓ１３１）。

＜認識部１３２＞
認識部１３２は、学習装置１２によって学習された認識器を取得し、当該認識器を用いて認識用映像から球体の輪郭を認識して認識結果を取得し、取得された認識結果を認識結果記憶部１３３に出力する（Ｓ１３２）。例えば球体がボールであるとき、認識部１３２は、学習装置１２によって学習された認識器を使用して輪郭を認識する。さらに、認識された輪郭に対して円フィッティングを行うことにより輪郭の中心座標と半径を取得し、認識結果としてもよい。球体がボールであり、輪郭を用いて行う処理がボールが真円であることを前提としている場合には、このように輪郭に対して円フィッティングを行うことにより得られる輪郭の中心座標と半径を認識結果とすることがのぞましいが、どのような認識結果がのぞましいかは、輪郭を用いて行う処理によって異なる。認識されたボール領域、または、輪郭の画像や、座標値等の情報そのものを認識結果として出力してもよいし、輪郭の中心座標と半径を取得して認識結果として出力してもよい。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ－ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

上述の各種の処理は、図１９に示すコンピュータの記録部１００２０に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部１００１０、入力部１００３０、出力部１００４０などに動作させることで実施できる。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ（Random Access Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ－ＲＯＭ（Electrically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

回転する球体の運動が記録された学習用映像と、記録された前記球体の映像上の輪郭のサイズの初期値を入力とし、前記初期値を基準として前記輪郭のサイズの設定値を複数設定し、前記設定値のそれぞれについて、前記学習用映像に基づいて前記球体の回転数の推定値を求める回転数推定部と、
前記学習用映像に対応して予め得られた前記球体の回転数の真値を入力とし、前記真値と最も近いものから順に選択した複数個の前記推定値それぞれに対応する複数個の前記設定値のうちの少なくとも何れかを前記輪郭の決定値として決定する輪郭決定部と、前記学習用映像と、前記決定値を学習データとして出力する学習データ出力部を含む
学習データ生成装置。
請求項１に記載の学習データ生成装置であって、
前記回転数推定部は、
t_cを所定の１以上の整数として、時刻tの前記学習用映像と、時刻t+t_cの前記学習用映像とを用いて、ある時刻の前記学習用映像中の球体を回転状態の仮説に基づいてt_c単位時間だけ回転させた球体の画像の尤度が高くなる回転状態の仮説を複数の回転状態の仮説の中から選択することで、前記球体の回転状態を推定する
学習データ生成装置。
請求項２に記載の学習データ生成装置であって、
前記回転数推定部は、
時刻t₁,t₂,…,t_Kの前記学習用映像と、時刻t₁+t_c,t₂+t_c,…,t_K+t_cの前記学習用映像とを用いて、時刻t₁,t₂,…,t_Kの前記学習用映像中の球体を回転状態の仮説に基づいてt_c単位時間だけ回転させた球体の画像の尤度が高くなる回転状態の仮説を複数の回転状態の仮説の中から選択することで、前記球体の回転状態を推定する
学習データ生成装置。
請求項２または３に記載の学習データ生成装置であって、
前記回転数推定部は、
複数の回転状態の仮説のそれぞれについて、前記時刻t又は前記時刻t₁,t₂,…,t_Kの前記学習用映像中の球体を回転状態の仮説に基づいてt_c単位時間だけ回転させた球体の画像の尤度を計算する処理と、計算された尤度に基づいて尤もらしい複数の回転状態の仮説を新たに生成する処理と、を繰り返し行う、
学習データ生成装置。
請求項４に記載の学習データ生成装置であって、
前記回転数推定部の、
計算された尤度に基づいて尤もらしい複数の回転状態の仮説を新たに生成する処理は、前記計算された尤度が大きい仮説ほど高い確率で決定されるように、前記複数の回転状態の仮説の中から仮説を決定し、前記決定された仮説の回転状態の値に乱数を加えた値の回転状態を新たな仮説とする処理を複数回繰り返すことで、複数の仮説を新たに生成する処理である、
学習データ生成装置。
回転する球体の運動が記録された学習用映像と、記録された前記球体の映像上の輪郭のサイズの初期値を入力とし、前記初期値を基準として前記輪郭のサイズの設定値を複数設定し、前記設定値のそれぞれについて、前記学習用映像に基づいて前記球体の回転数の推定値を求めるステップと、
前記学習用映像に対応して予め得られた前記球体の回転数の真値を入力とし、前記真値と最も近いものから順に選択した複数個の前記推定値それぞれに対応する複数個の前記設定値のうちの少なくとも何れかを前記輪郭の決定値として決定するステップと、
前記学習用映像と、前記決定値を学習データとして出力する学習データステップを含む
学習データ生成方法。
コンピュータを請求項１から５の何れかに記載の学習データ生成装置として機能させるプログラム。