JP2021051536A

JP2021051536A - オブジェクト検出装置、方法及びプログラム

Info

Publication number: JP2021051536A
Application number: JP2019173971A
Authority: JP
Inventors: 建鋒徐; Kenho Jo; 和之田坂; Kazuyuki Tasaka
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2021-04-01
Anticipated expiration: 2039-09-25
Also published as: JP7144384B2

Abstract

【課題】映像の時間軸での情報を利用することによって検出精度が向上されたオブジェクト検出装置を提供する。【解決手段】映像におけるフレーム画像に対してオブジェクト種別及び領域の検出処理を適用して第一検出結果を得る第一検出部3と、前記フレーム画像より、前記映像における動き画像を生成する動き抽出部2と、前記動き画像で動きがあると判定される領域を前記フレーム画像から切り出してオブジェクト種別及び領域の検出処理を適用することにより、前記フレーム画像に対するオブジェクト種別及び領域の第二検出結果を得る第二検出部4と、前記第一検出結果及び前記第二検出結果を統合することにより、前記フレーム画像に対するオブジェクト種別及び領域の検出結果を得る統合部5と、を備える。【選択図】図１

Description

本発明は、映像の時間軸での情報を利用することによって検出精度が向上されたオブジェクト検出装置、方法及びプログラムに関する。

深層学習を用いて映像内からオブジェクト（対象）を検出する従来手法として、SSD（Single Shot Multibox Detector、非特許文献１）、YOLOv3（You Only Look Once version 3、非特許文献２）、Mask R-CNN（Mask Regions with Convolutional Neural Network Features、非特許文献３）などがある。

Liu, Wei, et al. "SSD: Single Shot MultiBox Detector." arXiv preprint arXiv:1512.02325 (2015) Redmon, Joseph, et al. "You only look once: Unified, real-time object detection." arXiv preprint arXiv: 1506.02640 (2015) He, Kaiming, et al. "Mask r-cnn." Proceedings of the IEEE international conference on computer vision. 2017.

しかしながら、上記の従来技術のオブジェクト検出は、例えばサッカーフィールドを広域で撮影した映像内に小さなサイズで映っている、サッカーを行っている選手やボールといったようなオブジェクトに関して未検出あるいは誤検出となることがあり、検出精度が悪いという課題があった。検出精度が悪くなる原因としては、映像のフレーム画像において当該オブジェクトのサイズが小さいことの他にも、動いていることによるボケの発生があるが、従来技術ではこれらに対する対処がなされていなかった。

従来技術では映像の各時刻のフレーム画像を独立に、個別の静止画として扱うことでオブジェクト検出を行っており、映像の時間軸での情報は考慮されていなかった。

上記従来技術の課題に鑑み、本発明は、映像の時間軸での情報を利用することによって検出精度が向上されたオブジェクト検出装置、方法及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明はオブジェクト検出装置であって、映像におけるフレーム画像に対してオブジェクト種別及び領域の検出処理を適用して第一検出結果を得る第一検出部と、前記フレーム画像より、前記映像における動き画像を生成する動き抽出部と、前記動き画像で動きがあると判定される領域を前記フレーム画像から切り出してオブジェクト種別及び領域の検出処理を適用することにより、前記フレーム画像に対するオブジェクト種別及び領域の第二検出結果を得る第二検出部と、前記第一検出結果及び前記第二検出結果を統合することにより、前記フレーム画像に対するオブジェクト種別及び領域の検出結果を得る統合部と、を備えることを特徴とする。また、前記オブジェクト検出装置に対応する方法及びプログラムであることを特徴とする。

本発明によれば、動き画像を介して時間軸での情報を利用することによって検出精度を向上させることができる。

一実施形態に係るオブジェクト検出装置の機能ブロック図である。フレーム画像とこれよりマスク抽出部によって抽出されるマスク画像との例を示す図である。映像におけるある時刻のフレーム画像として図２のフレーム画像を対象として動き抽出部によって生成される動き画像の例を示す図である。一実施形態に係る第一検出部の機能ブロック図である。第一検出器において割り当てて利用するスライディングウィンドウの例を示す図である。修正部による検出結果の修正の例を説明するための図である。マージ部におけるマージ処理の例を示す図である。一実施形態に係る第二検出部の機能ブロック図である。図８に示される第二検出部による検出処理の際の作成部41の処理までの模式例を、３つの説明用のパネルに分けて示す図である。図９の５個のパーツ領域がフレーム画像より切り出したものであることを、フレーム画像と画素位置が対応している動き画像上において示す図である。ウィンドウ内に検出用画像を埋め込んだ模式例を示す図である。説明のための第一及び第二検出結果に関する変数表記を列挙した表である。図１２に示す変数表記の内容を模式的に示す図である。一般的なコンピュータにおけるハードウェア構成の例を示す図である。

図１は、一実施形態に係るオブジェクト検出装置の機能ブロック図である。オブジェクト検出装置10は、マスク抽出部1、動き抽出部2、第一検出部3、第二検出部4及び統合部5を備える。オブジェクト検出装置10は、その全体的な動作として、映像の各時刻t（t=1,2,…）のフレーム画像をマスク抽出部1、動き抽出部2、第一検出部3及び第二検出部4において入力として読み込み、統合部5より当該時刻tのフレーム画像におけるオブジェクトの検出結果を出力するものである。以下、この全体的な動作を実現する詳細として、オブジェクト検出装置10の各部1〜5の処理内容を説明する。

＜マスク抽出部1＞
マスク抽出部1は、入力されるフレーム画像を解析して、このフレーム画像の全体の領域のうち、オブジェクト検出装置10において検出されるべきオブジェクトが存在しうる所定の領域の情報を与えるマスク画像を抽出し、当該抽出したマスク画像を第一検出部3及び第二検出部4へと出力する。

図２は、フレーム画像P1とこれよりマスク抽出部1によって抽出されるマスク画像M1との例を示す図である。図２にてフレーム画像P1はサッカースタジアム内のサッカーフィールドにおいてサッカーの試合が行われている様子を撮影した画像であり、マスク画像M1はサッカーフィールドの領域を指定するための画像（すなわち、サッカーフィールドをマスクするための画像）として構成される場合が、例として示されている。（なお、以降の説明において適宜参照するその他の例も、図２の例を前提とする。）

オブジェクト検出装置10においては事前知識として、フレーム画像が例えばこのサッカーのようなスポーツ映像であり、検出されるべき対象が例えばサッカー選手及びボールである旨の情報が与えられているものとする。また、オブジェクト検出装置10においては事前知識として、このようなスポーツ映像においてサッカーのルールに即した所定サイズのサッカーフィールド内において、オブジェクトとしての選手及びボールが検出されるべきである旨の情報が与えられているものとする。（従って例えば、当該サッカーフィールドの外部にある観客席内の客などは検出されるオブジェクトではない旨の情報が与えられているものとする。）

マスク抽出部1では上記のようなフレーム画像において検出すべきオブジジェクトの存在しうる範囲に関する事前情報（管理者等が予め与えておく）を利用することで、フレーム画像よりマスク画像M1として、例えばサッカーフィールドの矩形状の領域のみを抽出することができる。マスク画像M1は２値画像として構成され、オブジェクトが存在しうる範囲は前景として例えば値「1」を、これ以外の領域はオブジェクトが存在しない背景として値「0」を与えたものとすることができる。（図２のマスク画像M1では前景を白色、背景を黒色としている。）

サッカーフィールドの場合であれば、境界となる白線（エッジ）及び白線同士の交点であるコーナーを検出して、図２に示されるような矩形領域としてマスク画像を抽出することができる。その他、マスク抽出部1では任意の既存手法を利用して、事前情報を用いてフレーム画像を解析することによりマスク画像を得ることができる。例えば、フレーム画像が撮影されるフィールド内に、拡張現実表示で用いられる正方マーカを配置しておき、当該マーカを検出したうえで当該マーカを基準とした所定の平面範囲を、マスク画像として求めるようにしてもよい。正方マーカに代えて、フィールド内におけるSIFT特徴量等の自然特徴量をその位置情報と共に記憶しておき、フレーム画像に対する特徴情報の検出からマスク画像を求めるようにしてもよい。

＜動き抽出部2＞
動き抽出部2は、映像の時刻t（対象としている現時刻t）のフレーム画像より、その前時刻（過去時刻）t-1のフレーム画像及び／又は後時刻（未来時刻）t+1のフレーム画像も参照することによって、動きを抽出して時刻tの動き画像（フレーム画像における動きの分布を反映した画像）を生成し、第一検出部3及び第二検出部4へと出力する。元のフレーム画像は所定の色チャネル、例えばRGBの３つのチャネルで構成されるものであるのに対し、動き抽出部2では動き画像を、１つのみのチャネル数を有する、２値画像として生成することができる。（なお、前述のマスク抽出部1で得るマスク画像もこの動き画像と同様に、１チャネルの２値画像として構成されるものである。）

動き抽出部2では具体的には、以下の第１手順及び第２手順により動き画像を生成してよい。フレーム画像は所定の色チャネルの例としてRGBの３つのチャネルで構成されるものである場合を例として説明し、時刻tのRチャネルの画像、Gチャネルの画像及びBチャネルの画像をそれぞれR(t)、G(t)及びB(t)とし、生成される１チャネルの動き画像をFB1(t)とする。フレーム画像がその他の色チャネルで構成される場合も同様に動き画像を生成することができる。

（第１手順）
時刻tのフレーム画像からグレースケール画像Y(t)を以下の式(1)により求めたうえで、このグレースケール画像Y(t)の時間軸上でのフレーム差分の画像としてF(t)を求める。フレーム差分に関しては、前進差分、後退差分又は中心差分のいずれかとして求めればよく、それぞれ以下の式(1A),(1B),(1C)のいずれかとして求めるようにすればよい。
Y(t)=0.299*R(t)+0.587*G(t)+0.114*B(t) …(1)
F(t)=Y(t+1)-Y(t) …(1A)
F(t)=Y(t)-Y(t-1) …(1B)
F(t)=(F1(t)+F2(t))/2=(Y(t+1)-Y(t-1))/2 …(1C)

（第２手順）
上記式(1A),(1B),(1C)のいずれかで求めたフレーム差分画像F(t)に対して２値化（バイナリ化）を施すことで動き画像FB(t)を求め、後段側の第一検出部3及び第二検出部4への出力とする。２値化に関しては、２値化する前のフレーム差分画像F(t)における各画素位置(u,v)において差分値として求めた画素値の絶対値が所定の閾値を超えるか否かにより判定し、超える場合は動きがあるものとして値を例えば1とし、超えない場合は動きがないものとして値を例えば0とすることで、２値化された動き画像FB(t)を得ることができる。

動き抽出部2では以上のようにして、フレーム間の差分を求めることで簡素に動き画像を生成することができる。

動き抽出部2による動き画像の生成の別の実施形態として、第１手順ではフレーム差分画像F(t)ではなくオプティカルフローの画像（各画素位置(u,v)にオプティカルフローのu方向成分及びv方向成分（２次元ベクトル）を紐づけた画像）を求め、第２手順ではこのオプティカルフローの画像における２次元ベクトルの絶対値が閾値を超えるか否かにより動きの有無を判定して２値化を行い、２値化された動き画像FB(t)を得るようにしてもよい。

図３は、映像におけるある時刻のフレーム画像として図２のフレーム画像P1を対象として動き抽出部2によって生成される動き画像B1の例を示す図である。図３の動き画像B1では、元のフレーム画像P1（図２）において動きのある選手及びボールの領域が値1（白色）として検出されていることを見て取ることができる。

＜第一検出部3＞
第一検出部3は、オブジェクト検出装置10への入力としてのフレーム画像に対してオブジェクト検出処理を適用し、このオブジェクト検出結果を第一検出結果として統合部5へと出力する。（なお、後述する第二検出部4におけるオブジェクト検出結果を第二検出部と呼び、第一検出部3における第一検出結果と区別する。）第一検出部3においてフレーム画像からオブジェクト検出を行うに際しては、マスク抽出部1から出力される当該フレーム画像から得られたマスク画像と動き抽出部2から出力される当該フレーム画像から得られた動き画像とを参照して利用する。

図４は、一実施形態に係る第一検出部3の機能ブロック図である。第一検出部3は第一検出器31、修正部32及びマージ部33を備え、この順番で処理を行うことによりフレーム画像から第一検出結果を得ることができる。以下、各部31,32,33の処理内容を順に説明する。

（第一検出器31）
第一検出器31は、フレーム画像に対して当該フレーム内を移動しながら検出処理を行う所定のスライディングウィンドウを割り当て、スライディングウィンドウごとに検出器による検出処理を適用することで得られる検出結果（各スライディングウィンドウの検出結果をフレーム画像の全体に渡って集めたもの）を修正部32へと出力する。

図５は、第一検出器31において割り当てて利用するスライディングウィンドウの例を示す図であり、フレーム画像P1が例えば横4096×縦2160の4K映像におけるものである場合、所定のスライディングウィンドウとして、横512×縦512の正方形のウィンドウを設定し、当該正方形をスライドさせる際の横及び縦のオーバーラップを64として（すなわち、スライド幅を横及び縦のいずれも512-64=448として）設定する例が示されている。

図５では、フレーム画像P1の全体に渡って割り当てられる全てのスライディングウィンドウのうち、フレーム画像P1の左上の頂点に位置するウィンドウWaと、Waの左隣りのウィンドウWbと、Waの下隣りのウィンドウWcと、が示されている。例えばウィンドウWaとその左隣りのウィンドウWbとの間には横64×縦512のオーバーラップ領域があり、ウィンドウWaとその下隣りのウィンドウWcとの間には横512×縦64のオーバーラップ領域がある。

第一検出器31では、図５にその一部の例が示されるようなスライディングウィンドウをフレーム画像の全体に渡って移動させ、各スライディングウィンドウにおいて検出結果を得る。当該移動させる際に、第一検出器31ではマスク抽出部1で得たマスク画像を参照し、当該マスク画像においてオブジェクトが存在しない領域として定義されている箇所に関しては、スライディングウィンドウによる検出処理を省略することができる。

なお、１つのスライディングウィンドウ内においてマスク画像によりオブジェクトが存在しない領域と、オブジェクトが存在しうる領域との両方が定義されている場合、当該スライディングウィンドウの全体のうち後者のオブジェクトが存在しうる領域のみを検出処理の対象とすればよい。

第一検出器31によりスライディングウィンドウを用いて検出処理を行う際の具体的な検出器は既存のものを利用してよく、例えば以下の非特許文献に開示されるM2Detを用いてもよいし、前掲の非特許文献１〜３に開示されるSSD、YOLOv3又はMask R-CNNを用いてもよい。
[非特許文献]Zhao, Qijie, et al. "M2det: A single-shot object detector based on multi-level feature pyramid network." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 33. 2019.

（修正部32）
修正部32は、第一検出器31から得られた検出結果を動き抽出部2から得られた動き画像と照合することによって修正し、当該修正された検出結果をマージ部33へと出力する。

ここで、第一検出器31から得られる検出結果の情報は、（フレーム画像の全体に渡って未検出であった場合を除いて）１つ以上の矩形としての検出領域（囲み領域、Bounding Box）と、当該検出領域におけるオブジェクト種別の尤度ベクトルとで構成される。尤度ベクトルに関しては、第一検出器31で用いる検出器（畳込みニューラルネットワークを利用する検出器）を予め学習した際に学習データにおいて与えておいた所定の１つ以上（N種類とする）のオブジェクト種別O₁,O₂,…,O_Nに関してそれぞれ尤度をベクトル要素として列挙したものL=(L₁,L₂,…,L_N)として得られる。例えば、2種類のオブジェクトとして選手とボールの検出を第一検出器31の検出器において学習した場合、ある検出領域に関して、選手の尤度が0.7であり、ボールの尤度が0.2であった場合、これらを順にベクトル要素として列挙した(0.7,0.2)が尤度ベクトルとして得られる。

修正部32では具体的に、次のように検出結果を修正する。すなわち、修正部32では、上記のような形式で与えられる第一検出器31での検出結果（オブジェクト種別の尤度とオブジェクトが占める領域の情報）の各々に対して、動き抽出部2から得られた動き画像と照合し、検出領域内において、２値画像である動き画像の前景領域（動きがあると判定されている領域）が占める面積（画素数）の割合が一定閾値以上（例えば半分以上）であるか否かを判定し、判定結果が肯定である（検出領域内において占める動き領域が一定割合以上である）場合、当該検出結果における尤度ベクトルの値を所定量だけ大きくするように修正し、逆に当該判定結果が否定である（検出領域内において占める動き領域が一定割合未満である）場合、当該検出結果における尤度ベクトルの値を所定量だけ小さくするように修正する。

図６は、修正部32による検出結果の修正の例を説明するための図である。図６では、第一検出器31での検出結果のうちの２つの検出結果における検出領域r11,r12が、図３の動き画像B1上におけるものとして示されている。（なお、第一検出器31での検出結果は、動き画像P1を求めたフレーム画像P1（図２）に対するものであるが、動き画像B1とフレーム画像P1とは画素位置(u,v)が対応しているので、図６では検出結果における検出領域を動き画像B1上において示している。）

図６の例において１つ目の検出領域r11に関しては、その内部に一定割合以上での動き領域が存在していると判定され、尤度ベクトルの値を所定量だけ大きくするように修正が行われる。例えば、この検出領域r11における尤度ベクトルが前述の例のように（選手の尤度、ボールの尤度）=(0.7,0.2)であったとすると、修正部32ではこれに一定量0.1を加算する修正を行い、修正された尤度ベクトルとして(0.7+0.1,0.2+0.1)=(0.8,0.3)を得る。また、２つ目の検出領域r12に関しては、その内部に動き領域が存在しないことにより、動き領域の存在が一定割合未満であると判定され、尤度ベクトルの値を所定量だけ小さくするように修正が行われる。例えば、この検出領域r12における尤度ベクトルが（選手の尤度、ボールの尤度）=(0.2,0.3)であったとすると、修正部32ではこれより一定量0.1を減算する修正を行い、修正された尤度ベクトルとして(0.2-0.1,0.3-0.1)=(0.1,0.2)を得る。

なお、修正部32における尤度ベクトルの要素値の修正は、上記の図６の例のように所定値の加算及び減算として行う他にも、任意の所定の計算式等を用いるようにしてよい。例えば尤度ベクトルの値が大きくなるよう修正する際は1より大きい所定値を乗ずるようにし、小さくなるよう修正する際は0以上1未満の所定値を乗ずるようにしてもよい。修正した結果が尤度値の所定範囲（例えば0以上1以下）を逸脱した場合、当該範囲の上限又は下限の値となるように補正する処理を行ってもよい。

（マージ部33）
マージ部33は、修正部32で得られた修正された検出結果（未検出の場合を除き、１つ以上の検出領域とそのオブジェクト種別の尤度とで構成される）のうち、所定条件に該当するものをマージ（併合）し、当該マージされた検出結果を第一検出部3で得られた最終的な検出結果（すなわち、第一検出結果）として、統合部5へと出力する。

なお、マージ部33によってマージされうる検出領域の類型の１つとして、第一検出器31で用いたスライディングウィンドウにおける重複箇所において検出された領域がある。（例えば、図５の例であれば、Wa及びWbの間とWa及びWcの間とWb及びWcの間とにそれぞれ重複箇所が、横×縦のサイズが64×512,512×64,64×64となる範囲として存在している。）

マージ部33では具体的に、検出結果（スライディングウィンドウ毎の検出結果を全て合わせたフレーム画像全体での検出結果）における１つ以上の検出領域のうち、領域が相互に重複する割合が一定値（例えば半分）以上であるような２つの検出領域がある場合、このような２つの検出領域をマージして新たな１つの検出領域を得る。当該新たな検出領域が占める領域の範囲は、マージされた２つの検出領域を包含する最小の矩形（囲み領域、Bounding Box）とすればよい。また、当該新たにマージされた検出領域に対応する尤度ベクトルは、例えば、マージされた２つの検出結果における２つの尤度ベクトルの平均値とすればよい。

ここで、２つの領域r10及びr20の重複割合overlap(r12,r20)は例えば以下の式(2)で0以上1以下の値として算出するようにすればよい。|X|は領域Xの面積（画素数）を表し、「r10∩r20」は領域r10,r20の共通部分（論理積）の領域であり、「r10∪r20」は領域r10,r20の論理和の領域である。２つの領域r10及びr20が完全重複（領域として同一）の場合、当該算出される重複割合の値は最大値1となり、２つの領域r10及びr20の間に重複箇所が全く存在しない場合、当該算出される重複割合の値は最小値の0となる。
overlap(r10,r20)=|r10∩r20|/|r10∪r20| …(2)

図７は、マージ部33におけるマージ処理の例を示す図であり、左側に示されるような２つの矩形状の検出領域r21,r22は、重複割合が一定値（例えば半分）以上であることから、マージされて右側にグレー地でその範囲が示されるような領域r23となる。

マージ部33では、以下の手順１、２，３で示されるフローを、手順１において重複割合が一定以上となる２つの検出領域が存在しなくなるまで繰り返すことで、それぞれの検出領域に関して１回以上のマージ処理を行うようにしてもよい。なお、当該フローを開始した直後の１回目の手順１において、「現在の検出結果（の全体）」には修正部32から得た検出結果を用いる。

（手順１）…現在の検出結果（の全体）を構成する１つ以上の検出領域のうち、重複が一定割合以上の２つの検出領域を探索し、手順２へ進む。当該探索ができない場合（重複が一定割合以上の２つの検出領域が存在しない場合）、当該フローを終了する。
（手順２）…手順１で探索された２つの検出領域をマージして、手順３へ進む。（この際、尤度ベクトルも当該２つの平均値としてマージした１つの尤度ベクトルを得る。）
（手順３）…手順２でのマージ処理を反映して現在の検出結果（の全体）を更新し、手順１に戻る。

上記の手順１〜３の繰り返しにより、例えば、領域raと領域rbとが一定割合以上重複することによってマージして領域rabを得たうえで、このマージされた領域rabと別の領域rcとが一定割合以上重複することによってマージし、領域rabcを得る、といったマージ処理がなされうる。（すなわち、領域rabcは３つの領域ra,rb,rcをマージしたものとなる。当該マージする元となる３つの領域ra,rb,rcのそれぞれも、修正部32で得た検出結果における２つ以上の領域がマージされたものであってもよい。）

＜第二検出部4＞
第二検出部4は、オブジェクト検出装置10への入力としてのフレーム画像に対してオブジェクト検出処理を適用し、このオブジェクト検出結果を第二検出結果として統合部5へと出力する。第二検出部4においてフレーム画像からオブジェクト検出を行うに際しては、マスク抽出部1から出力される当該フレーム画像から得られたマスク画像と動き抽出部2から出力される当該フレーム画像から得られた動き画像とを参照して利用する。

図８は、一実施形態に係る第二検出部4の機能ブロック図である。第二検出部4は作成部41及び第二検出器42を備え、この順番で処理を行うことによりフレーム画像から第二検出結果を得ることができる。図９は、図８に示される第二検出部4による検出処理の際の作成部41の処理までの模式例を、３つの説明用のパネルPL1,PL2,PL3に分けて示す図である。以下、図８の各機能部41,42の処理内容を順に説明するが、この説明の際には適宜、図９等の模式例を参照する。

（作成部41）
作成部41は、後段側の第二検出器42における検出処理の適用対象となる画像として、フレーム画像より１枚以上の検出用画像を作成し、当該作成された１枚以上の検出用画像を第二検出器42へと出力する。作成部41では検出用画像を作成する際に、マスク抽出部1で得られるマスク画像と動き抽出部2で得られる動き画像とを参照して利用する。作成部41では具体的に、以下の第１〜第３処理を順番に行うことにより、検出用画像を作成することができる。

（第１処理）フレーム画像より、動き画像において前景（動きがあると判定されている領域）に該当する領域を囲む矩形領域（Bounding Box）をそれぞれ、パーツ領域（部分領域）として切り出す。当該パーツ領域を切り出す範囲は、フレーム画像の全体のうち、マスク画像においてオブジェクトが存在しうると判定されている範囲のみに限定してよい。ここで、動き画像での前景領域を囲む矩形領域は、前景領域を包含する矩形領域のうち縦幅及び横幅が最小サイズのものとして求めるようにしてよい。

なお、動き画像は２値画像に過ぎないため、（すなわち、動き画像は各画素についての前景か背景かを２値で区別する情報以外を含まないため、）前景に該当するそれぞれの領域を識別するために、第１処理においては動き画像の前景画素に対して連結領域ラベリングを適用し、同一ラベルが付与されている前景画素群（連結成分となっている前景画素群）を、それぞれの個別の領域であるものと識別したうえで、当該個別の領域をそれぞれ囲む矩形領域を、フレーム画像よりパーツ領域として切り出して求めるようにすればよい。

図９のパネルPL1には第１処理で切り出されるパーツ領域の例として、図２のフレーム画像P1より、これに対応する図３の２値動き画像B1に連結領域ラベリングを行って個別領域を識別したうえで、個別領域を包含する最小矩形として切り出されたパーツ領域のうち一部の例として、５個のパーツ領域r1,r2,r3,r4,r5が示されている。パネルPL1に示される５個のパーツ領域r1,r2,r3,r4,r5は、フレーム画像P1の選手（及び審判）の領域を、動き画像に反映された動きの情報に基づいて切り出したものとなっていることを見て取ることができる。図１０は、図９の５個のパーツ領域r1,r2,r3,r4,r5がフレーム画像P1より切り出したものであることを、フレーム画像P1と画素位置(u,v)が対応している動き画像B1上において示す図である。

（第２処理）第１処理で得られたパーツ領域をそれぞれ、所定倍率で拡大することにより、拡大パーツ領域を得る。図９のパネルPL2には、パネルPL1に示される５個のパーツ領域r1,r2,r3,r4,r5に対して第２処理を適用した例として、これらをそれぞれ所定倍率（例として横・縦共に２倍）で拡大した拡大パーツ領域re1,re2,re3,re4,re5が示されている。

なお、第２処理において所定倍率で拡大する際には、画素の補間処理として、最も簡素な０次多項式による補間であるニアレストネイバー法を用いてもよいし、１次多項式による補間であるバイリニア法を用いてもよいし、２次多項式による補間であるキュービック法を用いてもよい。

（第３処理）第２処理で得られた拡大パーツ領域を、所定サイズの画像（画素値が全て一定値である無地の画像として、例えば白地の画像として用意しておく）内に、相互に重なることがないように順に配置することにより、１枚以上の検出用画像を作成する。この所定サイズは、得られている拡大パーツ領域の個数や個別のサイズに応じてルールベースで設定されるものであってもよい。

図９のパネルPL3には第３処理の例として、パネルPL2に示される５個の拡大パーツ領域re1,re2,re3,re4,re5を所定サイズの白地画像上に配置することで、すなわち、白地画像の画素値を当該配置する拡大パーツ領域re1,re2,re3,re4,re5の画素値に書き換えることで、１枚の検出用画像PE1が得られることが示されている。

第３処理に関しては、以下（１）〜（４）を実施するようにしてよい。

（１）第３処理において所定サイズの１枚の白地画像に、第２処理で得られた複数の拡大パーツ領域の全てを配置することができない場合には、２枚目の同サイズの白地画像もさらに用意して、１枚目の白地画像に配置できなかった１つ以上の拡大パーツ領域をこの２枚目の白地画像に対して同様に配置するようにすればよい。２枚でも足りない場合は３枚目も用意し、以下同様にして、第２処理で得られた複数の拡大パーツ領域が、相互に重複することなくM枚（M≧1）の所定サイズの白地画像のいずれかに配置されているようにして、当該M枚の画像を検出用画像として得ることができる。

（２）第３処理において、M枚（M≧1）の所定サイズの白地画像に第２処理で得られた複数の拡大パーツ領域を重複なく配置する際には、任意の既存の矩形敷き詰めアルゴリズムを用いて、密になるように（すなわち、枚数Mを抑制するように）配置してもよいし、白地画像を予め所定サイズのサブ矩形に区切っておき、１つのサブ矩形内には１つのみの拡大パーツ領域を配置するようにしてもよい。例えば白地画像がサイズ横256×縦256である場合に、横縦共に2等分したサイズ128×128のサブ矩形を定義しておき、１つのサブ矩形内には１つのみの拡大パーツ領域を配置するようにしてよい。１つのサブ矩形に収まらない拡大パーツ領域がある場合は、２つ以上のサブ矩形の範囲内に配置するようにしてよい。

（３）第３処理により、M枚（M≧1）の所定サイズの白地画像に第２処理で得られた複数の拡大パーツ領域を重複なく配置し終えた際には、このM枚の検出用画像の各々において、配置された拡大パーツ領域の情報と、各々の拡大パーツ領域が元のフレーム画像におけるいずれの領域に対応するものであるかの情報（「フレーム画像の領域と検出用画像の領域との対応情報」と呼ぶ）を、作成部41において取得しておく。

作成部41ではM枚の検出用画像に、この「フレーム画像の領域と検出用画像の領域との対応情報」も紐づけたうえで後段側の第二検出器42へと出力するものとする。

（４）第３処理において検出用画像を作成するための、拡大パーツ領域を配置する対象としての所定サイズの画像は白地ではなく、その他の一定色で構成されるものを用いてもよい。例えば、フレーム画像が図２に示す画像P1のようにサッカーフィールドを撮影したものであることが事前情報として既知である場合に、当該サッカーフィールドを模したものとして所定色（例えば緑色）で構成される一定色、一定サイズの画像を用いてもよい。また、当該サッカーフィールドを模したものとして所定テクスチャ（例えばサッカーフィールドの芝生を表現したテクスチャ等）で構成される一定サイズの画像を用いてもよい。

（第二検出器42）
第二検出器42では、作成部41で得たM枚（M≧1）の検出用画像に対して検出処理を適用し、得られた第二検出結果を第二検出部4からの最終的な出力として、統合部5へと出力する。

第二検出器42で検出処理を行う際の具体的な検出器は、第一検出器31で用いたのと同様の既存の予め学習されたもの（M2Det、SSD、YOLOv3又はMask R-CNN等）を用いればよい。従って、第二検出器42でも第一検出器31と同様に、所定サイズのウィンドウ毎に検出結果を得るようにするが、第一検出器31とは異なり、M枚の検出用画像を予め1枚以上のウィンドウ内に配置した各ウィンドウを対象として検出を行うことにより、ウィンドウをスライドさせる処理は行わない。

具体的に、第二検出器42では、所定サイズのウィンドウ内に、M枚の検出用画像を順に埋め込み、1番目のウィンドウでM枚全てを埋め込むことができない場合には2番目以降のウィンドウを追加で用意して、同様にして埋め込むようにする。図１１は、ウィンドウ内に検出用画像を埋め込んだ模式例を示す図であり、１つのウィンドウW内に2つの検出用画像PE1（図９に例示したもの）と別の検出用画像PE2とが埋め込まれている。（例えばウィンドウWのサイズは横512×縦512等であり、検出用画像PE1,PE2等のサイズは横120×縦120等（相互に異なっていてもよい）である。）ここで、M枚の検出用画像を1つ以上のウィンドウ内に埋め込む処理に関しては、作成部41での第３処理と同様にすればよい。すなわち、第３処理における「拡大パーツ領域」及び「検出用画像」をそれぞれ、「検出用画像」及び「ウィンドウ」に読み替えた同様の処理により、第二検出器42では検出対象となる、検出用画像が配置された１枚以上のウィンドウを用意することができる。

なお、第二検出器42で上記のように作成部41での第３処理と同様にして検出用画像が配置された１枚以上のウィンドウを用意する際は、第３処理で説明した（１）〜（４）の追加処理も同様に適用してよく、このうち特に（３）に関しては、「画像としてのウィンドウ領域における１つ以上の検出用画像の配置位置」の情報として取得しておく。

こうして、第二検出器42では１つ以上のウィンドウの各々から検出結果（オブジェクトの領域とオブジェクト種別の尤度）を得るが、このウィンドウの内部において検出されたオブジェクトの領域に関して、前述した「画像としてのウィンドウ領域における１つ以上の検出用画像の配置位置」の情報と、作成部41において取得されている「フレーム画像の領域と検出用画像の領域との対応情報」を用いて、元のフレーム画像における領域に変換したものを、第二検出結果として統合部5へと出力する。

ここで、あるウィンドウにおける検出結果に関して、「フレーム画像の領域と検出用画像の領域との対応情報」における「検出用画像の領域」と、当該ウィンドウ内に配置されている検出用画像から第二検出器42において実際に検出された領域とは一般に一致しない。（例えば、図１１のウィンドウW内に配置されている検出用画像PE1において１つの拡大パーツ領域re1（図９のパネルPL3を参照）の箇所にオブジェクト検出がなされたとしても、当該検出されたオブジェクトの領域が拡大パーツ領域re1に完全一致することは、偶然に一致する場合を除いてない。また、検出用画像の領域からオブジェクトが未検出となることもある。）

従って、あるウィンドウ内に配置された検出用画像から第二検出器42において実際に検出された領域が、上記「対応情報」における上記１つ以上の「検出用画像の領域」のいずれに対応するものであるかを、領域同士の重複が最大となるものとして判定したうえで、当該対応する「検出用画像の領域」に関して上記「対応情報」により対応している元のフレーム画像の領域を、第二検出結果におけるオブジェクト領域として採用すればよい。例えば、図１１のウィンドウW内に配置されている検出用画像PE1において１つの拡大パーツ領域re1（図９のパネルPL3を参照）の箇所に第二検出器42によってオブジェクト検出がなされたと、検出領域と領域re1との重複判定により判断されたのであれば、対応する拡大する前のパーツ領域r1が元のフレーム画像P1において占める領域（パーツ領域r1として第１処理において切り出した領域であり、フレーム画像P1に対応する動き画像B1上に図１０で示される領域r1）を、第二検出結果におけるオブジェクト領域として採用すればよい。ここで、領域同士の重複割合に関しては、マージ部33の説明において前述した式(2)のoverlap(r12,r20)と同様に評価すればよい。なお、上記の例において、第二検出器42による実際の検出領域が拡大パーツ領域re1の内部の一部分のみを占めるものとして構成される場合、（この検出領域の外周を占める拡大パーツ領域re1の部分は余分な部分である可能性があるため、）この検出領域に対応する拡大する前のパーツ領域r1の内部の一部分が元のフレーム画像P1において占める領域を、第二検出結果におけるオブジェクト領域として採用してもよい。

＜統合部5＞
統合部5では、第一検出部3で得た第一検出結果と、第二検出部4で得た第二検出結果と、を統合することによりオブジェクト検出装置10からの最終的な出力としてのフレーム画像に対するオブジェクトの検出結果を得る。

既に説明したように、第一検出部3で得た第一検出結果と、第二検出部4で得た第二検出結果と、は共にオブジェクト検出装置10への入力であるフレーム画像に対するオブジェクトの検出結果として、当該フレーム画像内でのオブジェクト検出領域と、当該領域におけるオブジェクトの種別の尤度ベクトルと、の情報で構成されるものであり、統合部5で得る統合された検出結果も同様の形式の情報（その内容は異なりうる）で構成されるものである。統合部5での第一及び第二検出結果の統合処理の説明のため、これら第一及び第二検出結果を図１２に列挙するような変数を用いて表記する。（すなわち、図１２は、説明のための第一及び第二検出結果に関する変数表記を列挙した表である。）

図１２にて、Class(k,1),Class(k,2)等の表記における添え字（識別用の文字変数）ペアでの前者の添え字k(k=1,2,…)は、検出された矩形領域（Bounding Box）のIDであり、後者の添え字1,2はそれぞれ第一検出結果及び第二検出結果を表すものである。図１３は、図１２に示す変数表記の内容を模式的に示す図である。図１３では、図１２に変数表記で示される検出矩形領域の左上座標PosUL(k,1),PosUL(k,2)及び右下座標PosDR(k,1),PosDR(k,2)並びにクラス尤度ベクトルClass(k,1),Class(k,2)を、フレーム画像P1に対する第一検出結果D1におけるk番目の検出領域R1(k)と、フレーム画像P1に対する第二検出結果D2におけるk番目の検出領域R2(k)と、に紐づける形で示している。クラス尤度ベクトルClass(k,1),Class(k,2)に関しては領域R1(k),R2(k)に付与された吹き出しの形で、当該検出領域に紐づく情報であることを示している。

以上の表記を前提に統合部5の処理を説明する。まず、統合部5では、第一検出結果における領域IDであるkと、第二検出結果における領域IDであるkと、の対応付けを行う。すなわち、第一検出結果における各検出領域と、第二検出結果における各検出領域と、の間で、同一であるものを判定する。説明のため、第二検出結果における領域IDをkに代えてk'として、第一検出結果の領域IDであるkとの対応付けが行われる前の状態を表すものとする。当該判定は、検出結果（領域の位置及びサイズ並びに領域のクラス尤度ベクトル）が類似していると判定されるか否かによって行えばよい。例えば、以下の式(3A),(3B),(3C)の閾値判定を全て満たす場合に、第一検出結果及び第二検出結果における領域（位置及びサイズ）とそのクラス尤度ベクトルが全て類似しているものとして、第一検出結果のIDのkと第二検出結果のIDのk'とが同一であることを判定してもよい。式(3A),(3B),(3C)においてTH1,TH2,TH3は判定用の所定閾値であり、|・|はその引数「・」に対するユークリッド距離を表す。
|PosUL(k,1)-PosUL(k',2)|<TH1 …(3A)
|PosDR(k,1)-PosDR(k',2)|<TH2 …(3B)
|Class(k,1)-Class(k',2)|<TH3 …(3C)

あるいは、領域の類似の判定は、上記の式(3A),(3B)に代えて又は加えて、前述の式(2)で算出される重複割合overlap(r10,r20)を第一検出結果の領域R1(k)及び第二結果の検出領域R2(k')の間で「overlap(R1(k),R2(k'))」として求めて、この重複割合が判定用の閾値以上であるか否かによって判定するようにしてもよい。

次いで、統合部5では、第一検出結果及び第二検出結果において同一であると判定された各領域（その共通IDをkとする）に対して、第一検出結果及び第二検出結果を重みづけ和として統合することにより、当該領域に関する最終的な検出結果を得る。具体的には例えば以下の式(4A),(4B),(4C)により、IDがkである領域に関する統合された位置及びサイズ（左上座標PosUL(k)及び右下座標PosDR(k)で表現される）とクラス尤度ベクトルClass(k)を得ることができる。

PosUL(k)=w1*PosUL(k,1)+w2*PosUL(k,2) …(4A)
PosDR(k)=w1*PosDR(k,1)+w2*PosDR(k,2) …(4B)
Class(k)=w1*Class(k,1)+w2*Class(k,2) …(4C)

式(4A),(4B),(4C)にてw1,w2は第一検出結果及び第二検出結果を統合するための所定の重みである。すなわち、統合部5では、第一検出結果及び第二検出結果を所定の重みづけ和として統合して、統合された検出結果を得ることができる。この重みは、以下を満たすように正規化されたものとして、所定のものを設定しておけばよい。
0<w1<1, 0<w2<1, w1+w2=1

重みw1,w2としては予め設定しておく固定値を用いる（例えば等しく、w1=w2=0.5とする）他にも、検出結果に応じた可変重みを用いるようにしてもよい。例えば、クラス尤度ベクトルClass(k,1),Class(k,2)における最大尤度に応じた比率の可変重みを用いるようにすることで、Class(k,1)の最大尤度を与えるのが「クラス=選手、尤度=0.8」であり、Class(k,2)の最大尤度を与えるのが「クラス=選手、尤度=0.6」であったとすると、この尤度の比の通りの重みとして、w1=0.6, w2=0.4等を設定するようにしてもよい。

また、式(4A),(4B),(4C)では領域に関する重みとクラス尤度ベクトルに関する重みとで共通の重みw1,w2を用いるようにしているが、領域に関しては領域用の重みwb1,wb2を用い、これとは別途に、クラス尤度ベクトルに関してはクラス尤度ベクトル用の重みwc1,wc2を用いるようにしてもよい。すなわち、式(4A),(4B),(4C)に代えて以下の式(4A'),(4B'),(4C')を用いてもよい。これら領域用の重みwb1,wb2及びクラス尤度ベクトル用の重みwc1,wc2についても重みw1,w2で説明したのと同様に、正規化された固定値又は可変値を用いるようにしてよい。
PosUL(k)=wb1*PosUL(k,1)+wb2*PosUL(k,2) …(4A')
PosDR(k)=wb1*PosDR(k,1)+wb2*PosDR(k,2) …(4B')
Class(k)=wc1*Class(k,1)+wc2*Class(k,2) …(4C')

統合部5で統合結果として出力する際、IDがkの領域に関するクラス尤度ベクトルClass(k)は、当該ベクトルとしてそのまま出力するようにしてもよいし、ベクトルの要素として列挙されている尤度が最大となる１つのクラスを、当該領域に関するオブジェクト種別の推定結果として出力するようにしてもよい。

以上、本発明の一実施形態によれば、映像の時間軸での情報を利用することによってオブジェクトの検出精度を向上させることができる。ここで、映像の時間軸での情報は動き抽出部2で得る動き画像を介して利用される。第一検出部3においては、動きのある領域に関して尤度を上げ、動きのない領域に関して尤度を下げる。第二検出部4においては、動きのある領域から元の映像における画素配置（テクスチャ）を切り出して、これを拡大することで元のフレーム画像に対する検出結果を得る。

以下、本発明の実施形態に関する変形例や追加例等に関する補足説明を行う。説明のため、以上説明してきた実施形態を第一実施形態と呼ぶ。

（１）第一実施形態では、第一検出部3及び第二検出部4の両方で動き画像を利用することにより、第一検索結果及び第二検出結果の両方を、映像の時間軸での情報が反映されたものとしていたが、この変形例として、第一検出部3において動き画像を利用することを省略してもよい。この場合、修正部32を省略し、第一検出器31で得た検出結果を修正することなくそのまま、マージ部33へ出力すればよい。

（２）第一実施形態での第二検出部4において、第２処理により拡大パーツ領域を得ているが、この拡大処理は省略するようにしてもよい。この場合、第２処理での拡大率が等倍であるものとして、第一実施形態と同様に実施することができる。

（３）第一実施形態ではマスク抽出部1が抽出するマスク画像を利用しているが、これを省略するようにしてもよい。この場合、マスク画像で定義されているフィールド領域がフレーム画像の全体を占めるものとみなして、第一実施形態と同様に実施することができる。

（４）図１４は、一般的なコンピュータ装置70におけるハードウェア構成の例を示す図である。オブジェクト検出装置10は、このような構成を有する１台以上のコンピュータ装置70として実現可能である。なお、２台以上のコンピュータ装置70でオブジェクト検出装置10を実現する場合、ネットワーク経由で処理に必要な情報の送受を行うようにしてよい。コンピュータ装置70は、所定命令を実行するCPU（中央演算装置）71、CPU71の実行命令の一部又は全部をCPU71に代わって又はCPU71と連携して実行する専用プロセッサ72（GPU（グラフィック処理装置）や深層学習用プロセッサなど）、CPU71及び専用プロセッサ72にワークエリアを提供する主記憶装置としてのRAM73、補助記憶装置としてのROM74、通信インタフェース75、ディスプレイ76、マウス、キーボード、タッチパネル等によりユーザ入力を受け付ける入力インタフェース77と、これらの間でデータを授受するためのバスBSと、を備える。

オブジェクト検出装置10の各部は、各部の機能に対応する所定のプログラムをROM74から読み込んで実行するCPU71及び／又は専用プロセッサ72によって実現することができる。ここで、表示関連の処理が行われる場合にはさらに、ディスプレイ76が連動して動作し、データ送受信に関する通信関連の処理が行われる場合にはさらに通信インタフェース75が連動して動作する。統合部5からの出力としての検出結果は、当初の入力であるフレーム画像に検出領域の情報を重畳させる等の形式により、ディスプレイ76で表示してもよい。

10…オブジェクト検出装置、1…マスク抽出部、2…動き抽出部、3…第一検出部、4…第二検出部、5…統合部、31…第一検出器、32…修正部、33…マージ部、41…作成部、42…第二検出器

Claims

映像におけるフレーム画像に対してオブジェクト種別及び領域の検出処理を適用して第一検出結果を得る第一検出部と、
前記フレーム画像より、前記映像における動き画像を生成する動き抽出部と、
前記動き画像で動きがあると判定される領域を前記フレーム画像から切り出してオブジェクト種別及び領域の検出処理を適用することにより、前記フレーム画像に対するオブジェクト種別及び領域の第二検出結果を得る第二検出部と、
前記第一検出結果及び前記第二検出結果を統合することにより、前記フレーム画像に対するオブジェクト種別及び領域の検出結果を得る統合部と、を備えることを特徴とするオブジェクト検出装置。
前記動き抽出部では、前記フレーム画像に対して前記映像における過去時刻及び／又は未来時刻のフレーム画像との間で差分を求めることにより、前記動き画像を生成することを特徴とする請求項１に記載のオブジェクト検出装置。
前記統合部では、前記第一検出結果における１つ以上の検出領域と、前記第二検出結果における１つ以上の検出領域と、の間で同一の検出結果に該当するものを判定したうえで、当該同一の検出結果に該当すると判定された領域に関して、前記第一検出結果及び前記第二検出結果を統合することを特徴とする請求項１または２に記載のオブジェクト検出装置。
前記統合部では、前記第一検出結果における１つ以上の検出領域のそれぞれにおけるオブジェクト種別及び領域と、前記第二検出結果における１つ以上の検出領域のそれぞれにおけるオブジェクト種別及び領域と、が互いに類似すると判定されるものを、前記同一の検出結果に該当するものとして判定することを特徴とする請求項３に記載のオブジェクト検出装置。
前記統合部では、前記第一検出結果及び前記第二検出結果を重みづけ和として統合することを特徴とする請求項１ないし４のいずれかに記載のオブジェクト検出装置。
前記第二検出部は、前記動き画像で動きがあると判定される領域を前記フレーム画像から切り出して所定サイズの画像内に配置し、当該配置した画像に対してオブジェクト種別及び領域の検出処理を適用することを特徴とする請求項１ないし５のいずれかに記載のオブジェクト検出装置。
前記第二検出部は、前記動き画像で動きがあると判定される領域を前記フレーム画像から切り出して拡大したうえで所定サイズの画像内に配置し、当該配置した画像に対してオブジェクト種別及び領域の検出処理を適用することを特徴とする請求項１ないし５のいずれかに記載のオブジェクト検出装置。
前記第二検出部にて前記配置するための所定サイズの画像は、前記フレーム画像に撮影されているフィールドを模したものとしての、一定色の無地画像又は所定テクスチャの画像であることを特徴とする請求項６または７に記載のオブジェクト検出装置。
前記第一検出部では、映像におけるフレーム画像に対してオブジェクト種別及び領域の検出処理を適用したうえで、当該検出処理の結果のうち、前記動き画像で動きがあると判定される領域に該当すると判定されるものにおけるオブジェクト種別の尤度を増加させ、当該判定されないものにおけるオブジェクト種別の尤度を減少させることによって、前記第一検出結果を得ることを特徴とする請求項１ないし８のいずれかに記載のオブジェクト検出装置。
前記第一検出部では、前記フレーム画像に対して、隣接ウィンドウ間で重複が存在するスライディングウィンドウを設定して当該スライディングウィンドウ毎にオブジェクト種別及び領域の検出処理を適用し、当該スライディングウィンドウの全てにおける当該検出結果のうち、領域の重複割合が大きいと閾値判定される検出結果を併合したうえで、前記第一検出結果を得ることを特徴とする請求項１ないし９のいずれかに記載のオブジェクト検出装置。
前記フレーム画像に撮影されているフィールド領域に関する事前知識を用いて、前記フレーム画像より当該フィールド領域を抽出したマスク画像を求めるマスク抽出部をさらに備え、
前記第第一検出部及び前記第二検出部では、前記マスク画像を参照することにより、前記フレーム画像の全体のうち、前記フィールド領域に該当する領域より前記第一検出結果及び前記第二検出結果を得ることを特徴とする請求項１ないし１０のいずれかに記載のオブジェクト検出装置。
映像におけるフレーム画像に対してオブジェクト種別及び領域の検出処理を適用して第一検出結果を得る第一検出段階と、
前記フレーム画像より、前記映像における動き画像を生成する動き抽出段階と、
前記動き画像で動きがあると判定される領域を前記フレーム画像から切り出してオブジェクト種別及び領域の検出処理を適用することにより、前記フレーム画像に対するオブジェクト種別及び領域の第二検出結果を得る第二検出段階と、
前記第一検出結果及び前記第二検出結果を統合することにより、前記フレーム画像に対するオブジェクト種別及び領域の検出結果を得る統合段階と、を備えることを特徴とするオブジェクト検出方法。
コンピュータを請求項１ないし１１のいずれかに記載のオブジェクト検出装置として機能させることを特徴とするプログラム。