JP7107440B2 - 学習データ生成装置、学習データ生成方法、プログラム - Google Patents

学習データ生成装置、学習データ生成方法、プログラム Download PDF

Info

Publication number
JP7107440B2
JP7107440B2 JP2021528646A JP2021528646A JP7107440B2 JP 7107440 B2 JP7107440 B2 JP 7107440B2 JP 2021528646 A JP2021528646 A JP 2021528646A JP 2021528646 A JP2021528646 A JP 2021528646A JP 7107440 B2 JP7107440 B2 JP 7107440B2
Authority
JP
Japan
Prior art keywords
sphere
learning
learning data
image
hypothesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021528646A
Other languages
English (en)
Other versions
JPWO2020261316A1 (ja
Inventor
弾 三上
麻理子 五十川
浩子 薮下
良規 草地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2020261316A1 publication Critical patent/JPWO2020261316A1/ja
Application granted granted Critical
Publication of JP7107440B2 publication Critical patent/JP7107440B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Description

本発明は、単一のカメラ映像に記録された回転運動をする球体の輪郭を推定する認識器を学習するための学習データを生成する学習データ生成装置、学習データ生成方法、プログラムに関する。
物体検出やセグメンテーションを実現するための従来手法として、非特許文献1が知られている。非特許文献1のMask R-CNNは、例えば映像に記憶された回転する球体(例えばスポーツに用いられるボールなど)の領域(輪郭)を抽出する機能を有する。
Kaiming He, Georgia Gkioxari, Piotr Dollar, and Ross Girshick, "Mask R-CNN", IEEE International Conference on Computer Vision (ICCV), 2017
しかしながら、高速に回転しながら移動する球体(例えばボール)はモーションブラーなどの影響で輪郭がはっきりせず、どこからどこまでが球体であるか不明となることがしばしばあり、一般的なツールを用いた物体領域のセグメンテーションでは精度が不十分な可能性がある。
そこで本発明では、単一のカメラ映像に記録された回転運動をする球体の輪郭を高精度に推定できる認識器を学習するための学習データを生成する学習データ生成装置を提供することを目的とする。
本発明の学習データ生成装置は、回転数推定部と、輪郭決定部と、学習データ出力部を含む。
回転数推定部は、回転する球体の運動が記録された学習用映像と、記録された球体の映像上の輪郭のサイズの初期値を入力とし、初期値を基準として輪郭のサイズの設定値を複数設定し、設定値のそれぞれについて、学習用映像に基づいて球体の回転数の推定値を求める。輪郭決定部は、学習用映像に対応して予め得られた球体の回転数の真値を入力とし、真値と最も近いものから順に選択した複数個の推定値それぞれに対応する複数個の設定値のうちの少なくとも何れかを輪郭の決定値として決定する。学習データ出力部は、学習用映像と、決定値を学習データとして出力する。
本発明の学習データ生成装置によれば、単一のカメラ映像に記録された回転運動をする球体の輪郭を高精度に推定できる認識器を学習するための学習データを生成することができる。
映像に記録された回転する球体の輪郭がはっきりしない例について示す図。 輪郭のサイズと推定される回転数の関係を説明する模式図。 輪郭のサイズと推定される回転数の関係を説明するグラフ。 球体と背景およびその境界領域における輝度値の変化を例示するグラフ。 実施例1の学習データ生成装置の構成を示すブロック図。 実施例1の学習データ生成装置の動作を示すフローチャート。 実施例1の学習データ生成装置の回転数推定部の構成を示すブロック図。 実施例1の学習データ生成装置の回転数推定部の動作を示すフローチャート。 実施例1の学習データ生成装置の回転数推定部の動作を説明する図。 図10(a)は、球体5の模様を分かりやすく簡易化した図。図10(b)は、球体5がカメラ6に対して真っすぐに飛翔する様子を示した図。図10(c)は、球体5がカメラ6に対して斜めに飛翔する様子を示した図。 球体の位置が変化すると、照明環境に応じて、球体に異なる影ができることを示す図。 球体のテクスチャの例を示す図。 球体のテクスチャにより、尤度の分布の幅が異なることを示す図。 複数フレームを用いた場合に、尤度の分布の幅が狭くなることを示す図。 実施例1の学習装置の構成を示すブロック図。 実施例1の学習装置の動作を示すフローチャート。 実施例1の認識装置の構成を示すブロック図。 実施例1の認識装置の動作を示すフローチャート。 コンピュータの機能構成例を示す図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
なお、以下の説明に登場する「映像に記録された球体」とは、典型的には球技に用いられるボールであるが、これに限定されない。本発明は球技に用いられるボールに限らず、回転運動する任意の球体全般に使用できる。
映像に記録された回転球体の輪郭と回転数を推定する方法について以下に述べる。この方法では、同じ映像に対して、小さな輪郭を指定すると、より大きな回転数が推定され、大きな輪郭を指定すると、より小さな回転数が推定されるという特性がある。
この特性を図1と図2を用いて説明する。図1は撮影した映像(2フレーム分を重畳したもの)を示しており、中心部分にボールが存在しているが、その輪郭はぼやけており、どこまでが輪郭であるか正確に判断することが難しい。このボールは図面向かって右方向に回転しており、2フレームの間に、ボールの模様の所定の部分がAの位置からBの位置まで移動したものとする。
図2は、ボールを回転方向と垂直な方向からみた状態を示しており、例えばこのボールに対して輪郭rを仮定した場合にAからBまでの移動がθの回転量に相当するものとし、このボールに対してr>rを充たす輪郭rを仮定した場合にAからBまでの移動がθの回転量に相当するものとする。この場合、θ<θの関係となることが明らかである。
この関係を図3、図4に示す。図4は、図1の破線上の各座標における輝度を示すグラフであり、座標軸の左側がボールの領域、右側が背景の領域に対応する。座標軸の中央付近は、ボールの領域であるか背景の領域であるかが不明な境界領域である。上述した通り、境界領域の座標xを境界として設定すると、回転数Rxが得られ、座標y(>x)を境界として設定すると、回転数Ry(<Rx)が得られ、座標z(>y)を境界として設定すると、回転数Rz(<Ry)が得られる(図3)。
[学習データ生成装置11]
以下、図5を参照して、実施例1の学習データ生成装置11の構成を説明する。同図に示すように、本実施例の学習データ生成装置11は、回転数取得部111と、輪郭初期値設定部112と、回転数推定部113と、輪郭決定部114と、学習データ出力部115と、学習データ記憶部116を含む。以下、図6を参照して各構成要件の動作を説明する。
<回転数取得部111>
回転数取得部111は、処理開始の制御信号を入力とし、学習用映像に記録された回転する球体(例えばボール)の回転数の真の値(真値)を取得し、輪郭決定部114に出力する(S111)。回転数の真値は、別センサなどから取得することができる。
<輪郭初期値設定部112>
輪郭初期値設定部112は、回転する球体の運動が記録された学習用映像を入力とし、学習用映像に基づいて、任意の方法(例えばMask R-CNN)により映像に記録された球体の輪郭のサイズを推定して推定結果を輪郭のサイズの初期値とし、学習用映像と初期値を回転数推定部113に出力する(S112)。例えば、球体の輪郭の推定は、例えば、画像をセグメンテーションして球体領域に該当する領域を取得した上で、当該領域に円フィッティングを行い、円の半径と中心を得るなどすればよい。球体領域は例えば前述のMask R-CNNの機能を利用して得ることができる。
<回転数推定部113>
回転数推定部113は、回転する球体の運動が記録された学習用映像と、記録された球体の映像上の輪郭のサイズの初期値(ステップS112で推定)を入力とし、初期値を基準として輪郭のサイズの設定値を複数設定し、設定値のそれぞれについて、学習用映像に基づいて球体の回転数の推定値を求める(S113)。例えば回転数推定部113は、ステップS112で推定した輪郭のサイズの初期値に基づき、そのサイズ(例えば半径)を一定割合で変化させて複数種類のサイズ(例えば半径)を設定し、設定した複数種類のサイズのそれぞれについて、回転数を推定する。回転数推定部113は、例えば、初期値の±L%を最大変化幅として、その間をN等分したサイズ、すなわちN+1通りのサイズを設定し、設定したサイズのそれぞれについて回転数を推定すればよい。なお、Lの値は学習用映像をセグメンテーションしたときの精度や球体の輪郭がどれだけぼやけているかなどによって定める値であり、20程度とするのが好適である。Lを20以上に設定しなければならないほど輪郭がぼやけている場合、学習用映像からボールの回転数が推定できない場合がある。Nは2以上の整数とし、最大変化幅をN等分した値が1未満(すなわち1ピクセル未満)とならないように設定する。
図7に回転数推定部113の詳細な構成を示す。同図に示すように回転数推定部113は、仮説生成部1131と、仮説検証部1132と、収束条件判断部1133を含む。以下、図8、図9を参照して回転数推定部113の回転数推定動作の詳細について述べる。
<回転数推定動作の詳細>
上述したように、回転数推定部113には、学習用映像と初期値が入力される。
回転数推定部113は、時刻tの学習用映像と、時刻t+tcの学習用映像とを用いて、ある時刻の学習用映像中の球体を回転状態の仮説に基づいてtc単位時間だけ回転させた球体の画像の尤度が高くなる回転状態の仮説を複数の回転状態の仮説の中から選択することで、球体の回転状態を推定する(ステップS113)。
言い換えれば、回転数推定部113は、ある時刻の学習用映像中の球体を回転状態の仮説に基づいてtc単位時間だけ回転させた球体の画像とそのある時刻よりもtc単位時間だけ後の時刻の学習用映像とが近い回転状態の仮説を複数の回転状態の仮説の中から選択することで、球体の回転状態を推定する。
tcは、所定の1以上の整数である。例えば、tc=1である。tcは、球体の想定される回転の周期Tよりも小さくてもよい。単位時間の例として、1フレームでの経過時間を利用する。ただし、2フレームでの経過時間を単位時間とすることもできる。
例えば、回転数推定部113は、推定される回転状態が収束するまで、以下に説明するステップS1131、S1132、S1133の処理を繰り返す。
ステップS1131は、回転数推定部113の仮説生成部1131による、回転状態の仮説を複数生成する処理である。
ステップS1132は、回転数推定部113の仮説検証部1132による、仮説の評価を行う処理である。
ステップS1133は、回転数推定部113の収束条件判断部1133による、収束条件を満たすか否かを判断する処理である。
以下では、時刻tの学習用映像と、時刻t+tcの学習用映像とを用いて回転状態を推定する例を挙げて、ステップS1131、S1132、S1133の処理を説明する。
まず、回転数推定部113の仮説生成部1131は、回転状態の仮説を複数生成する(ステップS1131)。例えば、仮説生成部1131は、事前に与えられた確率分布に基づいて複数の仮説を生成する。なお、初期状態においては、一般に事前情報が存在しないため、一様分布の確率分布に基づいて複数の仮説を生成する。
そして、仮説生成部1131は、時刻tの学習用映像中の球体を各回転状態の仮説に基づいてtc単位時間だけ回転させた球体の画像を生成する。
例えば、球体が、野球のボールであり、学習用映像にはボールの半球分が見えているとする。この場合、図9に示すように、球であるボールの半径をRとして、ボールの中心を原点に取ったときに、任意の座標(x,y)に対応する奥行zは、z=(R2-x2-y2)(1/2)となる。これにより、ボールの領域の各ピクセルについての三次元位置(x,y,z)を求めることができる。なお、単位として、球体の実際の大きさが既知であれば実際の長さの単位を用いても構わないし、ピクセル数を単位として用いてもよい。
仮説生成部1131は、三次元位置(x,y,z)を回転する。例えば、ロドリゲス回転公式を適用することで三次元位置(x,y,z)を回転することができる。ロドリゲス回転公式によれば、長さ1となる回転軸(nx,ny,nz)を中心に右まわりにθ回転した時の回転の回転行列が、
Figure 0007107440000001
で定義できる。
回転数推定部113の仮説検証部1132は、時刻tの学習用映像中の球体を各回転状態の仮説に基づいてtc単位時間だけ回転させた球体の画像と、実際の時刻t+tcの学習用映像とを比較することで、各仮説の尤もらしさを検証する。
より詳細には、仮説検証部1132は、実際の時刻t+tcの学習用映像と、時刻tの学習用映像中の球体をある回転状態の仮説に基づいてtc単位時間だけ回転させた球体の画像との間の類似度を計算して、これをある仮説の尤度とする(ステップS1132)。ここで、2個の画像の類似度とは、例えば2個の画像の中の対応するサンプルのユークリッド距離を所定の非増加関数に入力したときの出力値である。所定の非増加関数の例はf(x)=1/xである。仮説検証部1132は、この仮説の尤度の計算を、ステップS1131で生成された複数の仮説のそれぞれについて行う(ステップS1132)。
回転数推定部113の収束条件判断部1133は、計算された仮説の尤度が所定の収束条件を満たしているか判断する(ステップS1133)。所定の収束条件の例は、前回計算された仮説の尤度の最大値と、今回計算された仮説の尤度の最大値との差の大きさが、所定の閾値以下であるか否かである。
計算された仮説の尤度が所定の収束条件を満たしている場合には、収束条件判断部1133は、例えば、今回計算された仮説の尤度の最大値に対応する仮説を選択し、選択された仮説の回転状態を、球体の回転状態の推定結果として出力する。
計算された仮説の尤度が所定の収束条件を満たしていない場合には、仮説生成部1131は、ステップS1132で計算された尤度によって定まる仮説の確率分布に基づくランダムサンプリングにより、複数の仮説を新たに生成する(ステップS1131)。
言い換えれば、仮説生成部1131は、今回計算された尤度が大きい仮説ほど高い確率で決定されるように、今回生成された複数の仮説の中から仮説を決定し、決定された仮説の回転状態の値に乱数を加えた値の回転状態を新たな仮説とする処理を複数回繰り返すことで、複数の仮説を新たに生成する。
例えば、今回生成された仮説の数はN個であり、仮説をi(i=1,…,N)とする。i=1,…,Nとして、今回計算された仮説iの尤度をxiとする。回転数推定部113は、今回計算された仮説iの尤度xiの総和S=Σi=1 Nxiを計算する。そして、回転数推定部113は、区間[0,S]の一様乱数xを発生させる。そして、回転数推定部113は、(x-Σi=1 I-1xi)>0≧(x-Σi=1 Ixi)の関係を満たす仮説Iを決定する。回転数推定部113は、仮説Iの回転状態の各値に対して乱数を加えた値の回転状態を新たな仮説とする。例えば、仮説Iの回転状態が回転軸(rx(I),ry(I),rz(I))と回転数θ(I)で構成されており、乱数はガウスノイズnx,ny,nz,nθであるとする。この場合、新たな仮説の回転状態は、(rx(I)+nx,ry(I)+ny,rz(I)+nz,θ(I)+nθ)となる。仮説生成部1131は、この処理を複数回(例えばM回)繰り返すことで、複数の仮説を新たに生成する。Mは例えば10程度の値とすればよい。この回数は、処理時間と精度のトレードオフの関係に基づいて決定するのが望ましい。一般に、回数が増えると精度が向上するが、処理時間も長くなる。最初の2~3回は精度向上に対する効果が大きいので強く推奨される。強い時間制約がない場合、M=10回程度が好ましいと考えられる。
その後、仮説検証部1132は、新たに生成された複数の仮説に基づいて、ステップS1132の処理を行う。
このようにして、回転数推定部113は、計算された仮説の尤度が所定の収束条件を満たすまで、ステップS1131、S1132、S1133の処理を繰り返し行う。
以上のように、回転数推定部113は、複数の回転状態の仮説のそれぞれについて、時刻tの学習用映像中の球体を回転状態の仮説に基づいてtc単位時間だけ回転させた球体の画像の尤度を計算する処理と、計算された尤度に基づいて尤もらしい複数の回転状態の仮説を新たに生成する処理と、を繰り返し行うことで、球体の回転状態を推定する。
従来技術では、球体の回転状態を推定するためには、一周期分の映像が必要であった。これに対して、上記の詳細な動作によれば、時刻tの学習用映像と、時刻t+tcの学習用映像とを用いて、球体の回転状態を推定することができる。ここで、tcは、周期Tよりも小さくてもよい。このため、上記の詳細な動作によれば、一周期分の映像が得られていない場合であっても、球体の回転状態を推定することができる。
なお、球体の外見の変化の要因には、球体の姿勢の変化以外にも、位置の変化がある。例えば、図10(c)のように球体がカメラに対して斜めに飛翔する等の場合には、球体の位置の変化は、球体の外見の変化の要因となっている。tcが周期Tよりも小さい場合には、上記の詳細な動作によれば、従来技術よりも短い時間間隔の画像を用いて球体の回転状態を推定できるため、球体の位置の変化による外見の変化の影響を低減することができる。このため、図10(c)のように球体がカメラに対して斜めに飛翔する等の場合にも、上記の詳細な動作により、従来技術よりも高い精度で、球体の回転状態を推定できる。
[変形例]
<変形例1>
回転数推定部113は、学習用映像を用いて、球体の特徴が強調された特徴強調学習用映像を生成してもよい。
例えば、回転数推定部113は、学習用映像に対してエッジ抽出を行うことで、特徴強調学習用映像を生成する。これにより、球体の特徴を強調することができる。
球体の例である野球のボールには、多くの場合、マークが付与され、縫い目が存在する。また、図11(a)及び図11(b)に例示するように、球体の位置が変化すると、照明環境に応じて、球体に異なる影ができることもある。
回転数推定部113が、例えばエッジ処理等の特徴を強調する処理を行うことにより、照明環境の影響をなるべく取り除き、球体の外見を明確にすることができる。具体的には、ボールのシーム(縫い目)が分かりやすくなる。
この場合、回転数推定部113は、学習用映像に代えて、特徴強調学習用映像を用いて、ステップS1131からステップS1133の処理、及び、後述する変形例2から変形例4の処理を行う。言い換えれば、回転数推定部113が回転状態を推定するために用いる学習用映像は、特徴強調学習用映像であってもよい。
回転数推定部113が球体の特徴を強調する処理を行うことにより、回転数推定処理の精度が高まるというメリットがある。
<変形例2>
回転数推定部113は、ステップS1132において、2個の画像の中の所定の領域のみを考慮して、仮説の尤度を計算してもよい。例えば、回転数推定部113は、学習用映像の、球体が表示されている領域に含まれる各ピクセルについて、当該ピクセルの位置における球体の法線方向を計算し、カメラに向かう方向のピクセルのみを利用する方法や、カメラの画像平面に対して奥行き方向の位置を利用して、所定の閾値よりもカメラ側に位置するピクセルのみを利用して、仮説の尤度を計算してもよい。
<変形例3>
上記の手法は、時刻t、時刻t+tcの2フレーム分の学習用映像により実行可能な手法であった。
これに対して、尤度に基づく推定を複数フレーム分に跨って行ってもよい。言い換えれば、回転数推定部113は、時刻t1,t2,…,tKの学習用映像と、時刻t1+tc,t2+tc,…,tK+tcの学習用映像とを用いて、時刻t1,t2,…,tKの学習用映像中の球体を回転状態の仮説に基づいてtc単位時間だけ回転させた球体の画像の尤度が高くなる回転状態の仮説を複数の回転状態の仮説の中から選択することで、球体の回転状態を推定してもよい。
なお、回転数の最大値が2800程度の野球のボールが960fpsで撮影された場合、経験的にk=10程度で回転状態の推定の精度が安定する。
球体に外見の特徴が少ない場合には、時刻t、時刻t+tcの2フレーム分の学習用映像を考慮しただけでは、球体の回転状態を適切に推定ができない場合がある。これは、球体に外見の特徴が少ない場合には、球体の姿勢の変化による外見の変化も少なくなるためである。
例えば、球体のテクスチャが図12(a)である場合、時刻tの画像と、時刻t+tcの画像において、対応点(この例では、3点の対応点)を定めることは容易である。この場合、時刻tとt+tcの間だけの回転を用いた尤度計算によって、図13(a)のような尤度分布となることが期待される。図13(a)の横軸は姿勢であり、縦軸は尤度である。このように、対応点の指定が容易なケースでは、尤度の分布の幅は狭い。
これに対して、例えば、球体のテクスチャが図12(b)である場合で、球体が縦方向に回転(図12(b)の左右方向(水平方向)を軸とする回転)を有する場合には、対応点を定めることは困難である。この場合、時刻tとt+tcの間だけの回転を用いた尤度計算によって、図13(b)のような尤度分布となることが期待される。図13(a)の横軸は姿勢であり、縦軸は尤度である。このように、対応点の指定が困難なケースでは、尤度の分布の幅は広い。
図12(b)及び図13(b)の場合、学習用映像は画像中で垂直方向に延びるエッジ成分から構成されるため、回転量による尤度の変化が小さくなる。このため、1組のフレームを用いた場合には、精度低下の主な要因となる。
これに対して、複数組のフレームを用いることで、図14のような分布になることが期待される。すなわち、ひとつひとつのフレームの組においては姿勢に対する尤度の分布の幅は広いが、複数組のフレームを考慮することで尤度の分布の幅は狭くなり、姿勢をより適切に推定することができると考えられる。
球体が、野球のボールのように縫い目など滑らかに変化するシームしか特徴がみられない物体である場合に、変形例3は有効である。
<変形例4>
回転数推定部113は、ステップS1132の繰り返し処理において、前回のステップS1132の処理で用いたtcと、今回のステップS1132の処理で用いるtcの値を変えてもよい。
例えば、回転数推定部113は、最初のN回のステップS1132の処理においてはtc=1として処理を行い、その後のステップS32の処理においてはtc=2として処理を行ってもよい。
これにより、生成される仮説の回転状態の値の変化量が大きくなり、回転状態の推定を安定して行うことができる。
<変形例5>
上記の詳細な動作により推定される回転状態の回転軸は、カメラ座標系での回転軸であり、カメラを置く位置及び姿勢により変化してしまう。このため、球体が野球のボールである場合には、事前にカメラの位置及び姿勢の推定を行い較正を行うことで、野球場の座標系におけるボールの回転軸を求めてもよい。
球体が野球のボールである場合には、例えば以下のステップa)からf)の処理を行ってもよい。
a)カメラをもっともワイドに撮影する状態とする。
b)その状態でカメラの内部パラメータを推定する。カメラの内部パラメータとは、カメラのレンズの歪みなどを含み、参考特許文献1の手法などで求めることができる。
〔参考特許文献1〕Zhengyou Zhang, "A flexible new technique for camera calibration", IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(11):1330-1334, 2000.
なお、カメラの内部パラメータについては、参考非特許文献2に詳しい。
〔参考非特許文献2〕Ryo Komiyama、"カメラの内部パラメータ、外部パラメータ、歪み、復習用"、[online]、[平成31年03月14日検索]、インターネット〈URL:https://qiita.com/ryokomy/items/fee2105c3e9bfccde3a3〉
c)撮影位置から、ホーム、1~3塁ベース及びピッチャープレートが観察可能なように撮影する。
d)野球場において位置が既知であるホーム、1~3塁ベースを用いてPNP(perspective n-point problem)を解くことで、野球場の座標系におけるカメラの位置及び姿勢を求
める。なお、PNPについては、参考非特許文献3に詳しい。参考非特許文献3では、P3Pとして解を求めることを想定している。
〔参考非特許文献3〕"カメラの位置・姿勢推定2 PNP問題 理論編"、[online]、[平成31年03月14日検索]、インターネット〈URL:http://daily-tech.hatenablog.com/entry/2018/01/21/185633〉
e)必要に応じてズームして、上記の詳細な動作によりボール画像を取得して、カメラ座標系におけるボールの回転軸を求める。
f)ステップe)で求まった回転軸とステップd)で求めたカメラの姿勢とから野球場の座標系におけるボールの回転軸が得られる。
以上、回転数推定部113の詳細な動作及び変形例について説明したが、具体的な構成は、これらの動作及び変形例に限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、本発明に含まれることはいうまでもない。
例えば、上記の変形例は、適宜組み合わせてもよい。
また、回転数推定部の構成部間のデータのやり取りは直接行われてもよいし、図示していない記憶部を介して行われてもよい。
<輪郭決定部114>
輪郭決定部114は、学習用映像に対応して予め得られた球体の回転数の真値を入力とし、真値と最も近い推定値に対応する設定値を輪郭の決定値として決定する(S114)。輪郭決定部114は、真値と最も近いものから順に選択した複数個の推定値それぞれに対応する複数個の設定値のうちの少なくとも何れかを輪郭の決定値として決定してもよい。なお、以下では一例として、真値と最も近い推定値に対応する設定値を輪郭の決定値として決定したものとして説明を進める。輪郭決定部114は、真値からの誤差の逆数を重みとした重みづけ平均などを行ってもよい。重みづけ平均はステップS113で設定したN+1通りの半径すべてに対して行ってもよいし、N+1通りの一部を選択し、選択した複数通りの半径に対して行ってもよい。
<学習データ出力部115>
学習データ出力部115は、学習用映像と、輪郭決定部114で設定された、学習用映像に対応して予め得られた球体の回転数の真値と最も近い推定値に対応する決定値とを入力とし、決定値を当該学習映像と対応付けて、学習データとして出力する(S115)。
<学習データ記憶部116>
学習データ記憶部116は、学習データを記憶する(S116)。
このように、本実施例の学習データ生成装置11によれば、単一のカメラ映像に記録された回転運動をする球体の輪郭を高精度に推定できる認識器を学習するための学習データを生成することができる。
[学習装置12]
以下、図15を参照して学習データ生成装置1によって生成された学習データを使用する学習装置12について説明する。同図に示すように、本実施例の学習装置12は、学習データ取得部121と、認識器学習部122と、認識器記憶部123を含む。以下、図16を参照して各構成要件の動作を説明する。
<学習データ取得部121>
学習データ取得部121は、学習データ生成装置1から学習データである学習映像と決定値の組(場合により、複数個の組)を取得し、認識器学習部122に出力する(S121)。
<認識器学習部122>
認識器学習部122は学習データである学習映像と決定値の組(場合により、複数個の組)を取得し、当該学習データに基づいて、映像中の球体の輪郭を推定する認識器を学習し、学習された認識器を認識器記憶部123に出力する(S122)。球体の輪郭を推定する認識器の学習方法の一例として、SVMを用いたセグメンテーションが挙げられる。この方法では、注目ピクセルpについてその近傍M×Mピクセルの情報を入力として、球体領域か否かの2値分類を行うための学習を行う。このとき、Mは球体領域の全てが含まれる、すなわち、球体領域と球体領域でない領域が必ず含まれるように設定すれば好適である。例えばMをステップS112で設定される初期値の1.5倍程度とすれば好適である。また近傍M×Mピクセルとして正方形の領域を指定したのはあくまで一例である。例えば、M≠Qとして注目ピクセルpについて、その近傍M×Qピクセルの情報を入力として、球体領域か否かの2値分類を行うための学習を行ってもよい。
<認識器記憶部123>
認識器記憶部123は、認識器を記憶する(S123)。
[認識装置13]
以下、図17を参照して学習装置12によって学習された認識器を使用する認識装置13について説明する。同図に示すように、本実施例の認識装置13は、認識用映像取得部131と、認識部132と、認識結果記憶部133を含む。以下、図18を参照して各構成要件の動作を説明する。
<認識用映像取得部131>
認識用映像取得部131は、記録された球体の輪郭が未知である認識用の映像(認識用映像)を取得し、認識部132に出力する(S131)。
<認識部132>
認識部132は、学習装置12によって学習された認識器を取得し、当該認識器を用いて認識用映像から球体の輪郭を認識して認識結果を取得し、取得された認識結果を認識結果記憶部133に出力する(S132)。例えば球体がボールであるとき、認識部132は、学習装置12によって学習された認識器を使用して輪郭を認識する。さらに、認識された輪郭に対して円フィッティングを行うことにより輪郭の中心座標と半径を取得し、認識結果としてもよい。球体がボールであり、輪郭を用いて行う処理がボールが真円であることを前提としている場合には、このように輪郭に対して円フィッティングを行うことにより得られる輪郭の中心座標と半径を認識結果とすることがのぞましいが、どのような認識結果がのぞましいかは、輪郭を用いて行う処理によって異なる。認識されたボール領域、または、輪郭の画像や、座標値等の情報そのものを認識結果として出力してもよいし、輪郭の中心座標と半径を取得して認識結果として出力してもよい。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
上述の各種の処理は、図19に示すコンピュータの記録部10020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部10010、入力部10030、出力部10040などに動作させることで実施できる。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electrically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. 回転する球体の運動が記録された学習用映像と、記録された前記球体の映像上の輪郭のサイズの初期値を入力とし、前記初期値を基準として前記輪郭のサイズの設定値を複数設定し、前記設定値のそれぞれについて、前記学習用映像に基づいて前記球体の回転数の推定値を求める回転数推定部と、
    前記学習用映像に対応して予め得られた前記球体の回転数の真値を入力とし、前記真値と最も近いものから順に選択した複数個の前記推定値それぞれに対応する複数個の前記設定値のうちの少なくとも何れかを前記輪郭の決定値として決定する輪郭決定部と、 前記学習用映像と、前記決定値を学習データとして出力する学習データ出力部を含む
    学習データ生成装置。
  2. 請求項1に記載の学習データ生成装置であって、
    前記回転数推定部は、
    tcを所定の1以上の整数として、時刻tの前記学習用映像と、時刻t+tcの前記学習用映像とを用いて、ある時刻の前記学習用映像中の球体を回転状態の仮説に基づいてtc単位時間だけ回転させた球体の画像の尤度が高くなる回転状態の仮説を複数の回転状態の仮説の中から選択することで、前記球体の回転状態を推定する
    学習データ生成装置。
  3. 請求項2に記載の学習データ生成装置であって、
    前記回転数推定部は、
    時刻t1,t2,…,tKの前記学習用映像と、時刻t1+tc,t2+tc,…,tK+tcの前記学習用映像とを用いて、時刻t1,t2,…,tKの前記学習用映像中の球体を回転状態の仮説に基づいてtc単位時間だけ回転させた球体の画像の尤度が高くなる回転状態の仮説を複数の回転状態の仮説の中から選択することで、前記球体の回転状態を推定する
    学習データ生成装置。
  4. 請求項2または3に記載の学習データ生成装置であって、
    前記回転数推定部は、
    複数の回転状態の仮説のそれぞれについて、前記時刻t又は前記時刻t1,t2,…,tKの前記学習用映像中の球体を回転状態の仮説に基づいてtc単位時間だけ回転させた球体の画像の尤度を計算する処理と、計算された尤度に基づいて尤もらしい複数の回転状態の仮説を新たに生成する処理と、を繰り返し行う、
    学習データ生成装置。
  5. 請求項4に記載の学習データ生成装置であって、
    前記回転数推定部の、
    計算された尤度に基づいて尤もらしい複数の回転状態の仮説を新たに生成する処理は、前記計算された尤度が大きい仮説ほど高い確率で決定されるように、前記複数の回転状態の仮説の中から仮説を決定し、前記決定された仮説の回転状態の値に乱数を加えた値の回転状態を新たな仮説とする処理を複数回繰り返すことで、複数の仮説を新たに生成する処理である、
    学習データ生成装置。
  6. 回転する球体の運動が記録された学習用映像と、記録された前記球体の映像上の輪郭のサイズの初期値を入力とし、前記初期値を基準として前記輪郭のサイズの設定値を複数設定し、前記設定値のそれぞれについて、前記学習用映像に基づいて前記球体の回転数の推定値を求めるステップと、
    前記学習用映像に対応して予め得られた前記球体の回転数の真値を入力とし、前記真値と最も近いものから順に選択した複数個の前記推定値それぞれに対応する複数個の前記設定値のうちの少なくとも何れかを前記輪郭の決定値として決定するステップと、
    前記学習用映像と、前記決定値を学習データとして出力する学習データステップを含む
    学習データ生成方法。
  7. コンピュータを請求項1から5の何れかに記載の学習データ生成装置として機能させるプログラム。
JP2021528646A 2019-06-24 2019-06-24 学習データ生成装置、学習データ生成方法、プログラム Active JP7107440B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/024878 WO2020261316A1 (ja) 2019-06-24 2019-06-24 学習データ生成装置、学習データ生成方法、プログラム

Publications (2)

Publication Number Publication Date
JPWO2020261316A1 JPWO2020261316A1 (ja) 2020-12-30
JP7107440B2 true JP7107440B2 (ja) 2022-07-27

Family

ID=74061534

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021528646A Active JP7107440B2 (ja) 2019-06-24 2019-06-24 学習データ生成装置、学習データ生成方法、プログラム

Country Status (3)

Country Link
US (1) US20220375203A1 (ja)
JP (1) JP7107440B2 (ja)
WO (1) WO2020261316A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002333312A (ja) 2001-05-09 2002-11-22 Sumitomo Rubber Ind Ltd 球体の三次元姿勢測定方法および該方法を用いた球体の回転量と回転軸方向の測定方法
JP2005291824A (ja) 2004-03-31 2005-10-20 Yokohama National Univ 飛翔体の飛翔挙動測定装置および飛翔体の飛翔挙動測定方法
WO2016148247A1 (ja) 2015-03-18 2016-09-22 国立研究開発法人理化学研究所 球状体の回転の測定装置、測定方法、ならびに、プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002333312A (ja) 2001-05-09 2002-11-22 Sumitomo Rubber Ind Ltd 球体の三次元姿勢測定方法および該方法を用いた球体の回転量と回転軸方向の測定方法
JP2005291824A (ja) 2004-03-31 2005-10-20 Yokohama National Univ 飛翔体の飛翔挙動測定装置および飛翔体の飛翔挙動測定方法
WO2016148247A1 (ja) 2015-03-18 2016-09-22 国立研究開発法人理化学研究所 球状体の回転の測定装置、測定方法、ならびに、プログラム

Also Published As

Publication number Publication date
WO2020261316A1 (ja) 2020-12-30
US20220375203A1 (en) 2022-11-24
JPWO2020261316A1 (ja) 2020-12-30

Similar Documents

Publication Publication Date Title
Vasiljevic et al. Examining the impact of blur on recognition by convolutional networks
US11838606B2 (en) Methods and systems for large-scale determination of RGBD camera poses
EP3373248A1 (en) Method, control device, and system for tracking and photographing target
KR102137264B1 (ko) 카메라 포즈 추정 장치 및 방법
CN111860414B (zh) 一种基于多特征融合检测Deepfake视频方法
Yu et al. Efficient patch-wise non-uniform deblurring for a single image
TWI687689B (zh) 球狀體之旋轉之測定裝置、測定方法以及非暫時性資訊記錄媒體
WO2021027325A1 (zh) 视频相似度获取方法、装置、计算机设备及存储介质
WO2020189265A1 (ja) 回転状態推定装置、方法及びプログラム
JP6937438B2 (ja) 画像診断支援システムおよび画像診断支援方法
Kotera et al. Intra-frame object tracking by deblatting
WO2018133101A1 (zh) 图像前景检测装置及方法、电子设备
CN113643217B (zh) 视频去运动模糊方法、装置、终端设备及可读存储介质
JP7107440B2 (ja) 学習データ生成装置、学習データ生成方法、プログラム
JP2018028864A (ja) カメラのキャリブレーション装置、方法及びプログラム
CN111476056A (zh) 目标物体的识别方法、装置、终端设备及计算机存储介质
Carbajal et al. Single image non-uniform blur kernel estimation via adaptive basis decomposition.
Muthuswamy et al. Salient motion detection through state controllability
JP7197785B2 (ja) 映像処理装置、映像処理方法、及び映像処理プログラム
CN111259703B (zh) 人脸倾斜角度检测方法和装置
JP2010267029A (ja) 特定動作検出装置
JP5419925B2 (ja) 通過物体数計測方法、通過物体数計測装置、及びプログラム
JP2022508434A (ja) 回転仮説を決定することによって画像を処理する方法及びシステム
JP2017073138A (ja) 水状態検出装置、方法及び画像処理装置
JP7253969B2 (ja) 幾何パラメータ推定装置、幾何パラメータ推定システム、幾何パラメータ推定方法及びコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220627

R150 Certificate of patent or registration of utility model

Ref document number: 7107440

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150