JP2023140257A

JP2023140257A - 画像処理装置及びその制御方法及びプログラム及びシステム及び学習データ生成方法

Info

Publication number: JP2023140257A
Application number: JP2022141014A
Authority: JP
Inventors: 賢太刀川; Kenta Tachikawa; 輝小菅; Teru Kosuge
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-03-22
Filing date: 2022-09-05
Publication date: 2023-10-04

Abstract

【課題】映像中のオブジェクトを、そのサイズや静動を問わずに、高速に且つ高い精度で検出する。【解決手段】映像中の所定のオブジェクトを検出する画像処理装置は、映像を構成するフレームの画像から、予め設定されたサイズの縮小画像を生成する縮小部と、該縮小部で得た現フレームを表す現縮小画像、当該現縮小画像に対して所定時間前の第１の縮小画像、及び、第１の縮小画像に対して所定時間前の第２の縮小画像とに基づき、動き成分強調画像を生成する生成部と、該生成部で得た動き成分強調画像を用いて、オブジェクトの位置を判定する判定部とを有する。【選択図】図９

Description

本発明は、映像中の特定のオブジェクトの検出技術に関するものである。

近年、放送用のスポーツの試合動画を自動生成する方法の一つとして、試合が行われるコート全体を含む画角で撮影データを取得し、その一部が写る画角で切り出す方法がある。具体的には、バスケットボールの試合動画内で、プレイヤーとボールの位置を取得し、それらが含まれるように切り出す画角を決定する。特に、視聴者がバスケットボールの試合展開を把握できるようなコート半面程の広さの画角で切り出す際、画角内に必ずボールを含める必要がある。

プレイヤーやボールを認識する際、処理負荷を軽減してリアルタイムの画像処理を実現するために、撮影データに縮小処理を施してから認識処理を行うことが一般的である。しかし、コート全体を含む画角の撮影データに縮小処理を施した場合、そこに写るバスケットボールの描写は解像度が低くなり、ボールの模様や形状などの空間的な特徴が潰れてしまう。この時、縮小率を下げて認識処理を行うことで、空間的な特徴の潰れを抑制し、バスケットボールの認識が可能となることが見込まれるが、認識処理にかかる多くの時間が必要となり、リアルタイムでの処理に向かなくなってしまう。そこで、この空間的特徴を補う方法として、過去と現在の撮影データを参照し、映像中の動き成分を元に、認識処理を行うシステムが提案されている（例えば、特許文献１）。

特許文献１では、撮影データの現在のフレームと過去２フレームから、現フレーム中の動いているオブジェクトを認識する技術が開示されている。バスケットボールにおけるボールは静止することは稀であり、本技術によって映像中のボールを認識することが可能となる。

特開平５－３３９７２４号公報

しかしながら、特許文献１に開示された従来技術では、スポーツの試合中において静止したオブジェクトの検出はできない。具体的には、試合中であっても、バスケットボールのフリースローを行う場合、シューターや審判以外のプレイヤーは静止していることがあるので、それらのプレイヤーの認識ができない。従って、従来技術では、コート全体を含む撮影データから適切な範囲を切りだすためのプレイヤー情報が欠けてしまう課題が残る。

本発明は、上述した課題に鑑みてなされたものであり、映像中のオブジェクトを、そのサイズや静動を問わずに、高速に且つ高い精度で検出する技術を提供しようとするものである。

この課題を解決するため、例えば本発明の画像処理装置は以下の構成を備える。すなわち、
映像中の所定のオブジェクトを検出する画像処理装置であって、
前記映像を構成するフレームの画像から、予め設定されたサイズの縮小画像を生成する縮小手段と、
該縮小手段で得た現フレームを表す現縮小画像、当該現縮小画像に対して所定時間前の第１の縮小画像、及び、前記第１の縮小画像に対して所定時間前の第２の縮小画像とに基づき、動き成分強調画像を生成する生成手段と、
該生成手段で得た動き成分強調画像を用いて、オブジェクトの位置を判定する判定手段とを有する。

本発明によれば、映像中のオブジェクトを、そのサイズや静動を問わずに、高速に且つ高い精度で検出することができる。

第１実施形態の機械学習を説明する為のシステム図。第１実施形態における画像処理装置及び学習サーバのハードウェア構成を示す図。第１の実施形態のソフトウェア構成を説明するための図。第１、第２実施形態における、学習ネットワークを説明するための概念図。第１、第２実施形態のシステムにおける各装置間の送受信に関する動作を説明するための図。第１、第２実施形態における画像処理装置の処理手順を示すフローチャート。第１、第２実施形態におけるデータ収集サーバの処理手順を示すフローチャート。第１、第２実施形態における学習サーバの処理手順を示すフローチャート。第１実施形態におけるシステムの設置例の概略図。第１実施形態における俯瞰画像の例を示す図。第１実施形態における概略ブロック図。第１、第２実施形態における、物体検出部の処理を説明するための図。第１、第２実施形態における、本件の特徴となる動き強調処理に関する処理を示すフローチャート。第１、第２実施形態における、動き成分抽出部の動作を説明する図。第１、第２実施形態における、動き成分抽出部により現在のフレームにおける動き成分を抽出する動作を説明する図。第１、第２実施形態における、動き成分抽出部により動き成分が強調された現在フレームを生成する動作を説明する図。第２実施形態におけるシステムの概略図。第２実施形態におけるユーザ指定領域を説明する図。第２実施形態における概略ブロック図。第３実施形態における学習サーバの処理手順を示すフローチャート。

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［第１実施形態］
本発明に係る第１実施形態について説明する。本実施形態では、以下に説明する物体検出方法を用いて、バスケットのコート全体が写る画角での撮影映像から、試合の注目領域を自動で切り出すことで撮影映像を生成する場合を例として説明する。なお、本実施形態では、撮影対象をバスケットコート（バスケットの試合）とするのは、あくまで技術内容を具現化するための一例であって、撮影対象は特に問わない。

図１は、本第１実施形態に係る物体検出方法を実施する画像処理装置１０３を含むシステム１の構成図である。

図１において、システム１は、ローカルネットワーク１００、ネットワーク１０１、俯瞰カメラ１０２、画像処理装置１０３、クライアント端末１０４、学習サーバ１０５、およびデータ収集サーバ１０６を備える。

ローカルネットワーク１００は、画像処理装置１０３やクライアント端末１０４が接続するネットワークであり、画像処理装置１０３とクライアント端末１０４はローカルネットワーク１００を介して相互に通信することができる。

ネットワーク１０１は、ローカルネットワーク１００が接続されるネットワークであり、ローカルネットワーク１００に接続される機器は、ネットワーク１０１を介して相互に通信することができる。また、ローカルネットワーク１００に接続される機器は、ネットワーク１０１に接続されている学習サーバ１０５やデータ収集サーバ１０６とも相互に通信が可能である。

俯瞰カメラ１０２は、決められた範囲の撮影映像を取得し、取得した撮影映像を画像処理装置１０３へ出力する。なお、俯瞰カメラ１０２は、１秒当たり３０フレーム（３０FPS）で映像を取得するものとするが、フレームレートに特に制限はない。

画像処理装置１０３は、俯瞰カメラ１０２より入力された撮影映像より、映像中に写る所定のオブジェクトの検出を行う。ここで、検出とは、所定のオブジェクトの座標、およびそのオブジェクトの種類を特定する処理のことを指す。本実施形態では、バスケットボールにおけるバスケットボールとプレイヤーを所定のオブジェクトとして検出するものとする。

クライアント端末１０４は、機器間のデータの送受信を指示する装置である。学習サーバ１０５は、機械学習のデータを生成する装置である。データ収集サーバ１０６は、学習サーバ１０５で学習する為の教師データを蓄積する装置である。

図２は、システム１の構成メンバである、画像処理装置１０３、および、学習サーバ１０５のハードウェア構成を示している。図示では、簡単のため、システム１の一部のうち、画像処理装置１０３、学習サーバ１０５、およびネットワーク１０１のみ図示し、それ以外の構成については記載を省略している点に注意されたい。

図２に示すように、画像処理装置１０３は、ＣＰＵ２０２、ＲＯＭ２０３、ＲＡＭ２０４、ＨＤＤ２０５、ＮＩＣ（Network Interface Card)２０６、入力部２０７、表示部２０８、画像処理エンジン２０９、及び、インタフェース（Ｉ／Ｆ）２９０を備え、これらはシステムバス２０１を介して互いに接続されている。

ＣＰＵ２０２は、画像処理装置１０３全体の制御をつかさどる。ＣＰＵ２０２は後述する各ユニットを制御し、入力部２０７からの入力や、ＮＩＣ２０６から受信したデータに応じた動作を行う。ＲＯＭ２０３は、不揮発性のメモリであり、画像処理装置１０３を制御するプログラムや各種パラメータを保持する。画像処理装置１０３に電源が投入されると、ＣＰＵ２０２はＲＯＭ２０３からプログラムを読み込み、画像処理装置１０３の制御を開始する。ＲＯＭ２０３は、例えばフラッシュメモリなどからなる。

ＲＡＭ２０４は、書き換え可能なメモリであり、画像処理装置１０３を制御するプログラムが作業領域として利用する。ＲＡＭ２０４は、例えば半導体素子を利用した揮発性メモリ（ＤＲＡＭ）が用いられる。

ＨＤＤ２０５（保存部）は、画像データや、画像データを検索するためのデータベースを格納する。実施形態では、磁気記憶方式を利用したハードディスクドライブ（ＨＤＤ）としているが、半導体素子を利用したソリッドステートドライブ（ＳＳＤ）などの他の外部記憶装置をＨＤＤ２０５として利用しても良い。

ＮＩＣ２０６は、ネットワークインターフェースコントローラ（ＮＩＣ）であり、画像処理装置１０３がネットワーク１０１を介して他の装置と通信を行うために利用される。例えば、ＥＴＨＥＲＮＥＴ（登録商標）あるいはＩＥＥＥ８０２．３シリーズで規格化された通信方式に基づいたコントローラがＮＩＣ２０６として用いられる。

入力部２０７は、画像処理装置１０３のユーザ（オペレータ）が画像処理装置１０３を操作する際に利用される。例えば、キーボードが入力部２０７として用いられる。尚、本発明の画像処理装置１０３はネットワーク１０１上のサーバとして動作することを想定しているので、入力部２０７は画像処理装置１０３の起動時やメンテナンス時などの場合のみ利用される。

表示部２０８は、画像処理装置１０３の動作状態を表示するために利用される。例えば、ＬＣＤ（液晶ディスプレイ）が表示部２０８として用いられる。尚、本発明の画像処理装置１０３はネットワーク１０１上のサーバとして動作することを想定しているので、表示部２０８は省略される場合がある。

画像処理エンジン２０９は、ＲＡＭ２０４より読みだした画像データに対して、縮小処理や後述の動き強調処理などの画像処理を実施し、その結果を再度ＲＡＭ２０４に格納する。本実施形態では、種々の画像処理はＣＰＵ２０２を動作させて実施するものとするが、この限りではない。例えば、画像処理装置１０３で新たにＧＰＵを備え、そのＧＰＵ上で種々の演算処理を行ってもよい。

また、インタフェース２９０は、俯瞰カメラ１０２と画像処理装置１０３とを接続するために使用される。画像処理装置１０３は、このインタフェース２９０を介して、俯瞰カメラ１０２から、撮影映像データを受信することになる。なお、このインタフェース２９０は、俯瞰カメラ１０２と通信できるインタフェースであれば良く、特に種類は問わないが、典型的にはＵＳＢ（Universal Serial Bus）インタフェースである。なお、ネットワーク帯域が許せば、俯瞰カメラ１０２は、ネットワークカメラとしても良い。この場合、画像処理装置１０３は、ＮＩＣ２０６を介して、俯瞰カメラ１０２から撮影映像を受信することになる。

図２において、学習サーバ１０５は、ＣＰＵ２１２、ＲＯＭ２１３、ＲＡＭ２１４、ＨＤＤ２１５、ＮＩＣ２１６、入力部２１７、表示部２１８、およびＧＰＵ２１９を備え、これらはシステムバス２１１を介して互いに接続されている。

ＣＰＵ２１２は、学習サーバ１０５全体の制御をつかさどる。ＣＰＵ２１２は後述する各ユニットを制御し、入力部２１７からの入力や、ＮＩＣ２１６から受信したデータに応じた動作を行う。

ＲＯＭ２１３は、不揮発性のメモリであり、学習サーバ１０５を制御するプログラムを保持する。学習サーバ１０に電源が投入されると、ＣＰＵ２１２はＲＯＭ２１３からプログラムを読み込み、学習サーバ１０５の制御を開始する。ＲＯＭ２１３は、例えばフラッシュメモリなどからなる。

ＲＡＭ２１４は、書き換え可能なメモリであり、学習サーバ１０５を制御するプログラムが作業領域として利用する。ＲＡＭ２１４は、例えば半導体素子を利用した揮発性メモリ（ＤＲＡＭ）が用いられる。

ＨＤＤ２１５は、画像認識機能により画像データ中の所定のオブジェクトの位置とオブジェクトの種類を推定する学習ネットワーク（辞書データ）４０３（図４）を格納する。実施形態では、磁気記憶方式を利用したハードディスクドライブ（ＨＤＤ）としているが、半導体素子を利用したソリッドステートドライブ（ＳＳＤ）などの他の外部記憶装置をＨＤＤ２０５として利用しても良い。

ＮＩＣ２１６は、ネットワークインターフェースコントローラであり、学習サーバ１０５がネットワーク１０１を介して他の装置との通信を行うために利用される。例えば、Ｅｔｈｅｒｎｅｔ（登録商標）あるいはＩＥＥＥ８０２．３シリーズで規格化された通信方式に基づいたコントローラがＮＩＣ２１６として用いられる。

入力部２１７は、学習サーバ１０５のユーザ（オペレータ）が学習サーバ１０５を操作する際に利用される。例えば、キーボードが入力部２１７として用いられる。尚、学習サーバ１０５はネットワーク１０１上のサーバとして動作することを想定しているので、入力部２１７は学習サーバ１０５の起動時や、メンテナンス時などの場合のみ利用される。

表示部２１８は、学習サーバ１０５の動作状態を表示するために利用される。例えば、ＬＣＤ（液晶ディスプレイ）が表示部２１８として用いられる。尚、本発明の学習サーバ１０５はネットワーク１０１上のサーバとして動作することを想定しているので、表示部２１８は省略される場合がある。

ＧＰＵ２１９は、データの並列演算処理を行うに用いられるユニットである。ディープラーニングのような学習ネットワークを用いて複数回に渡り学習を行う場合や、推定において多数の積和演算を行う場合にＧＰＵ２１９で処理を行うことが有効である。ＧＰＵ２１９には、一般的には、ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔと呼ばれるＬＳＩが用いられるが、ＦＰＧＡと呼ばれる再構成可能な論理回路で同等の機能を実現してもよい。

図３は、システム１を構成する各装置上で動作するソフトウェア構成を示す図である。このソフトウェア構成は、図２を用いて説明したハードウェア資源、およびプログラムを利用することで実現される。なお、本ソフトウェア構成では、オペレーティングシステムなどの汎用的なソフトウェア構成については省略している。

俯瞰カメラ１０２のソフトウェアは、データ送信部３０１とＵＩ表示部３０２で構成される。データ送信部３０１は、俯瞰カメラ１０２が保持する画像データのうち、後述するＵＩ表示部３０２により選択された画像データをデータ受信部３２１へ送信するためのソフトウェア機能を有する。また、データ送信部３０１は、画像処理装置１０３からの指示に基づき、撮影データをデータ受信部３２１へ送信するためのソフトウェア機能を有する。ＵＩ表示部３０２は、俯瞰カメラ１０２が保持する画像データのうち任意の画像データをユーザ選択可能に表示するためのユーザインターフェースを提供するためのソフトウェア機能を有する。

画像処理装置１０３のソフトウェアは、データ受信部３２１、画像処理部３２２、推定部３２３、学習データ記憶部３２４で構成される。データ受信部３２１は、俯瞰カメラ１０２やクライアント端末１０４とのデータの送受信を行うためのソフトウェア機能を有する。例えば、データ受信部３２１は、俯瞰カメラ１０２からインタフェース２９０やＮＩＣ２０６を介して撮影映像（画像データ）を受信し、画像処理部３２２へ出力する。画像処理部３２２は、入力された画像データに対し、後述する縮小処理や動体検出処理などを適用し、推定部３２３へ前記画像処理後の撮影データを出力する。推定部３２３は、学習データ記憶部３２４によって、ＨＤＤ２０５に保持されている学習ネットワーク４０３を用いて、画像処理部３２２から入力された撮影データより、バスケットボールやプレイヤーの座標、および種類を検出するためのソフトウェア機能を有する。

クライアント端末１０４のソフトウェアは、ウェブブラウザ３１１で構成される。ウェブブラウザ３１１は、画像処理装置１０３のデータ受信部３２１から取得したデータをクライアント端末１０４のユーザに見えるように成形・表示するためのソフトウェア機能を有する。また、ウェブブラウザ３１１は、ユーザの操作（画像データの検索、表示など）を画像処理装置１０３のデータ受信部３２１に伝えたりするためのソフトウェア機能も有する。

学習サーバ１０５のソフトウェアは、データ記憶部３４２、学習用データ生成部３４３、学習部３４４で構成される。データ記憶部３４２は、後述するデータ収集／提供部３３２から受信した画像データや後述する学習用データ生成部３４３が生成した学習用画像データの蓄積と、蓄積した画像データの検索・管理を行うためのソフトウェア機能を有する。画像データの蓄積は、ＨＤＤ２１５内に格納することによって行われる。学習用データ生成部３４３は、データ記憶部３４２に格納されている画像データに後述する動き強調処理を適用した学習用画像データを生成する。生成された学習用画像データは、データ記憶部３４２によってＨＤＤ２１５に格納される。学習部３４４は、学習用画像データを元に、学習ネットワーク４０３の学習を行う。生成した学習ネットワーク４０３は、画像処理装置１０３の学習データ記憶部３２４に送信され、ＲＡＭ２０４に記録される。

図４は、学習ネットワーク４０３を用いた入出力の構造を示す概念図である。尚、学習ネットワーク４０３は、本実施形態だけでなく、後述の実施形態においても同一の構造を有するものと理解されたい。

学習サーバ１０５の学習は、図４に示すようにＮｅｕｒａｌＮｅｔｗｏｒｋで構成される学習ネットワーク４０３の入力に、教師データの俯瞰画像を入力、プレイヤーとバスケットボール座標を出力とし、実施する。尚、図４では、学習ネットワーク４０３が単一の学習ネットワークからなる場合を説明したが、画像データ４０１から推定したいメタデータに応じて、複数の学習ネットワークを用意してもよい。

図５は、図４の学習ネットワーク４０３を学習し、本実施形態で利用するまでのシステム１全体の動作を説明するための図である。

システム１を利用するユーザは、クライアント端末１０４を操作して学習サーバ１０５で学習するための教師データの送信指示をデータ記憶部３４２へ行う。

データ記憶部３４２は、クライアント端末１０４からの教師データの送信指示に基づき、データ収集／提供部３３２へ学習するための教師データを要求する。

データ収集サーバ１０５は、学習サーバからの教師データの送信指示により、教師データをデータ記憶部３４２より抽出する。そして、データ収集／提供部３３２がデータ記憶部３４２へ教師データを送信する。

学習サーバ１０５は、データ記憶部３４２が受信し、保持している教師データで予知学習を行い、学習データを生成する。そして、学習サーバ１０５は、生成した学習データを画像処理装置１０３へ送信し、学習データ記憶部３２４が保持する。以降、画像処理装置１０３は記憶した学習データを元に推論処理を行うことになる。

続いて図６Ａ乃至６Ｃを参照して、具体的な学習ネットワーク４０３の学習、および推論のフローについて説明する。

図６Ｂは、データ収集サーバ１０６の処理フローである。以下、同図を参照して、データ収集サーバ１０６のデータ収集／提供部３３２の処理を説明する。

Ｓ７２１にて、データ収集／提供部３３２は、学習サーバ１０５より要求があったか否かを判定する。要求があった場合、データ収集／提供部３３２は、Ｓ７２２にて、教師データの要求か否かを判定する。教師データ以外の要求の場合、データ収集／提供部３３２は、処理をＳ７２４に分岐し、受信要求の種類に応じた処理を行う。一方、教師データの要求であった場合、データ収集／提供部３３２は処理をＳ７２３に進める。本実施形態における教師データの要求には、バスケットコート全体が映る俯瞰画像と、その画像の中でのプレイヤーおよびバスケットボール座標の値が含まれる。Ｓ７２３にて、データ収集／提供部３３２は、要求された種類の教師データを、データ記憶部３３１より読み出し、学習サーバ１０５へ送信する。

学習サーバ１０５は、図４に示すようにＮｅｕｒａｌｎｅｔｗｏｒｋで構成される学習ネットワーク４０３の、教師データの俯瞰画像を入力とし、プレイヤーとバスケットボール座標を出力とする、学習データの生成を実施する。この時、ＧＰＵ２１９はデータをより多く並列処理することで効率的な演算を行うことができるので、学習サーバ１０５はディープラーニングのような学習モデルを用いて複数回に渡り学習を行う場合には、ＧＰＵ２１９で処理を行うことが有効である。

本実施形態では、学習サーバ１０５が行う学習処理は、ＣＰＵ２１２に加えてＧＰＵ２１９を用いる。学習モデルを含む学習プログラムを実行する場合に、学習サーバ１０５はＣＰＵ２１２とＧＰＵ２１９が協働して演算を行うことで学習を行う。なお、学習処理はＣＰＵ２１２またはＧＰＵ２１９のみにより演算が行われても良い。

図６Ｃは、学習サーバ１０５の処理フローである。以下、同図を査証して、学習サーバ１０５の処理を説明する。

まず、Ｓ７３０にて、学習サーバ１０５は、データ収集サーバ１０６に教師データを要求する。そして、Ｓ７３１にて、学習サーバ１０５は、教師データの受信を待つ。教師データを受信した場合、データ記憶部３４２がそのデータをＲＡＭ２１４に格納する。

次に、Ｓ７３２にて、学習用データ生成部３４３は、受信したデータに対し、後述の動き強調処理を施した動き強調画像を生成し、ＲＡＭ２１４に格納する。具体的な動き強調処理（Ｓ７０４）、並びに動き強調画像については、図１１から図１４を用いて後述する。

次に、Ｓ７３３にて、学習部３４４は、受信した教師データと、教師データに対応する学習設定値を学習モデルに入力する。ここで、学習モデルは、前述した学習ネットワーク４０３である。また、学習設定値は、本実施形態では学習ネットワーク４０３の入力信号に施すデータオーグメンテーションのパラメータ値とする。

Ｓ７３４にて、学習部３４４は、学習ネットワーク４０３により学習を実施する。学習サーバ１０５は、Ｓ７３５にて、全教師データにつての入力を終えたと判断した場合、本学習処理を終了する。

また、Ｓ７３４における学習部７３４による学習では、誤差検出部と、更新部と、を新たに備え、それらが実行してもよい。誤差検出部は、入力層に入力される入力データに応じてニューラルネットワークの出力層から出力される出力データと、教師データとの誤差を得る。誤差検出部は、損失関数を用いて、ニューラルネットワークからの出力データと教師データとの誤差を計算するようにしてもよい。

更新部は、誤差検出部で得られた誤差に基づいて、その誤差が小さくなるように、ニューラルネットワークのノード間の結合重み付け係数等を更新する。この更新部は、例えば、誤差逆伝播法を用いて、結合重み付け係数等を更新する。誤差逆伝播法は、上記の誤差が小さくなるように、各ニューラルネットワークのノード間の結合重み付け係数等を調整する手法である。

画像処理装置１０３は、ＨＤＤ２０５とＲＯＭ２０３に格納された学習サーバ生成の学習データから機械学習の推論処理を行う。

具体的には、ＣＰＵ２０２に画像処理部３２２で処理された画像縮小信号が入力され、学習データとプログラムにより，ＣＰＵ２０２にて推論処理を行う。推論処理は、学習モデルと同じくＮｅｕｒａｌｎｅｔｗｏｒｋで構成される。

図６Ａに示すフローチャートは、画像処理装置１０３の処理フローを示している。以下、同図を参照して、画像処理装置１０３の処理を説明する。

まず、Ｓ７０１にて。学習データ記憶部３２４は、学習サーバ１０５から学習済みの学習データを受信し、ＲＡＭ２０４に格納する。以降、推論処理を行う際は、ＲＡＭ２０４に学習データが格納されているかを参照し、格納されている場合にはＳ７０２の処理に移行する。

Ｓ７０２にて、推定部３２３は、画像縮小信号１５１（俯瞰カメラ１０２で撮影されたフレームの縮小画像）が入力されたか否かを判定する。推定部３２３は、画像縮小信号１５１の入力があったと判定した場合は、処理をＳ７０３に進める。

Ｓ７０３にて、画像処理装置１０３は、ユーザが推論処理の開始を指示したか否かを判定し、推論処理の開始指示があったと判定した場合は処理をＳ７０４に進める。Ｓ７０４にて、画像処理装置１０３は、入力された画像縮小信号に対して動き強調処理を行う。そして、Ｓ７０５にて、推定部３２３は、ＲＡＭ２０４に格納された学習データに前述の動き強調処理が施された動き強調画像を入力することで、推論処理を行う。そして、Ｓ７０６にて、推定部３２３は、プレイヤーとボールの座標位置を出力として取得し、記憶する。例えば、ＨＤＤ２０５に、推定結果を格納する。具体的な動き強調処理（Ｓ７０５）、並びに、動き強調画像については、図１１から図１４を用いて後述する。

図７は、本システム１の実際の導入例を示す概略図である。

俯瞰カメラ１０２は、プレイヤー２０とボール３０から構成されるバスケットコート１０が撮影画角１０８にすべて含まれる光学特性を持つものとする。また、俯瞰カメラ１０２が撮像する画像信号１０９の解像度は、水平３８４０画素×垂直２１６０画素とする。

俯瞰カメラ１０２は、撮像しえ得た画像を、俯瞰画像信号１０９として画像処理装置１０３へ供給する。画像の出力は、実施形態では、ＵＳＢインタフェースを介して画像処理部１０３に供給されるが、例えば、俯瞰カメラ１０２が有する出力端子ＨＤＭＩ（High-Definition Multimedia Interface）（登録商標）や、ＳＤＩ（Serial Digital Interface）から出力しても良い。また、俯瞰画像信号１０９は、俯瞰カメラ内の記録メディアに撮影、記録された画像をエクスポートした画像でもよい。

画像処理装置１０３は、俯瞰カメラ１０２から受信した俯瞰画像信号１０９に対し物体検出処理を適用し、俯瞰画像信号１０９内におけるプレイヤー、およびバスケットボールの座標と種類を取得する。そして、画像処理装置１０３は、取得した座標値を元に後述の撮影画像信号２６１を生成する。

図８は、俯瞰カメラ１０２が取得する俯瞰画像信号１０９の模式図を示している。前述の通り、俯瞰画像信号１０９には、撮影画角内にバスケットコート１０が欠けることなく写り、また、バスケットコート１０におけるプレイヤー２０、およびボール３０の動きが分かる映像となる。

図９は、画像処理装置１０３における画像処理部３２２と推定部３２３の具体的な処理を説明する図である。なお、推定部３２３は、図９では、俯瞰画像信号１０９における選手、およびボールを検出する物体検出部２４０として示している。

まず、画像縮小部２１０は、俯瞰カメラ１０２からの俯瞰画像信号１０９を入力し、縮小処理を行い、画像縮小信号１５１を出力する。実施形態では、俯瞰画像信号１０９の画像解像度は、水平３８４０画素、垂直２１６０画素であるが、物体検出部２４０に前記解像度を入力すると、解像度が大きいため、物体検出部２４０の処理負荷が大きくなってしまう。実施形態の画像縮小部２１０は、俯瞰画像信号１０９の解像度である水平３８４０画素、垂直２１６０画素を、水平４００画素、垂直４００画素の画像に縮小変換し、画像縮小信号１５１として出力する。なお、縮小後の画像解像度は、上記に限らず、物体検出部２４０の処理能力によって決定する、もしくは、ユーザがその縮小率を設定しても良い。

動き成分抽出部２２０は、現在フレーム、及び、過去に入力した計３フレームの画像縮小信号１５１を演算することで、現在のフレームにおける動き成分を抽出す、抽出した動き成分を、動き成分画像信号２２１として、動き成分演算部２３０へ出力する。

動き成分演算部２３０は、動き成分画像信号２２１と現在のフレームにおける画像縮小信号１５１を演算することで、動き成分が強調された動き成分強調画像信号２３１を取得し、物体検出部２４０へ出力する。

物体検出部２４０は、動き成分強調画像信号２３１に対して推論処理を行い、プレイヤー２０、およびボール３０の座標と種類を認識する。推論処理による検出結果は、図１０に示すように矩形座標値の形式で表される。プレイヤーの座標値は、図１０に示すように複数検出され、物体検出部２４０から複数プレイヤー座標１５２として出力する。

図１０に示すボールの座標値は、物体検出部２４０からボール座標１５３として出力する。ここで、プレイヤーとボールの座標値は、外接矩形（もしくは外接矩形を予め設定した値だけ四方に拡大した矩形）の左上、左下、右上、右下の座標位置とする。

物体検出部２４０は、複数のプレイヤー座標１５２、およびボール座標１５３をまとめてオブジェクト座標２４１として、撮影画角決定部２５０に供給する。

撮影画角決定部２５０は、オブジェクト座標２４１に含まれる複数プレイヤー座標１５２、およびボール座標１５３を元に撮影画角を決定するパラメータを算出する。撮影画角決定部２５０は、複数プレイヤー座標１５２、およびボール座標１５３の全てを包含する画角サイズの中で、ｘ座標の最小値（トリミングの左端）と最大値（トリミングの右端）の差分とその重心を計算し、撮影パラメータ２５１としてトリミング部２６０へ送信する。前述の差分値は画角の水平幅、前述の重心は画角の中心とそれぞれみなすことによって、それを元に決められた撮影画像信号２６１には、プレイヤー２０、およびボール３０をすべて含む撮影画角を実現することが可能である。

トリミング部２６０は、撮影パラメータ２５１に含まれる前述の画角の水平幅、および画角の中心を元に、縮小していない俯瞰画像信号１０９から切り出し映像を生成し、撮影画像信号２６１として出力する。

ここで、本実施形態の特徴的な処理となる、動き成分抽出部２２０、および、動き成分演算部２３０の具体的な処理内容について、図１１のフローチャートを参照して説明する。図１１のフローチャートは、画像処理装置１０３が、画像縮小信号１５１を用いて動き成分強調画像信号２３１を生成し、物体検出部２４０へ出力するまでの処理について示している。

Ｓ３０１およびＳ３０２にて、動き成分抽出部２２０が、ＲＡＭ２０４より、複数の時間の撮影フレームを取得し、それらの撮影フレームのフレーム演算処理により、画素値の変化を抽出する。図１２（ａ）乃至（ｃ）は、動き成分抽出部２２０のフレーム演算処理の結果を図示したものであり、簡単のため画像縮小信号１５１の一部で以降の処理の説明を行う。図１２（ａ）はある時間での画像縮小信号１５１、図１２（ｂ）はある時間よりも数フレーム前の俯瞰画像信号１０９をそれぞれ示している。図１２（ａ）と図１２（ｂ）には数フレームの時間差があるため、バスケットコート１０の位置は変わらないが、プレイヤー２０、およびボール３０の位置は変化する。この図１２（ａ）と図１２（ｂ）のフレーム間差分を計算し、その絶対値を算出することで、図１２（ｃ）に示すような、撮影映像中のプレイヤー２０ｃやボール３０ｃのような画像縮小信号１５１中の動き成分のみを取得することが可能である。なお、本実施形態では１０フレームの時間間隔を空けて取得した縮小画像信号に対してフレーム間差分処理を行うものとするが、この限りではなく、差分処理を適用する所定時間が空いていれば良い。

続いて図１３（ａ）乃至（ｄ）を参照して、Ｓ３０１からＳ３０４までの動き成分抽出部２２０による現フレームにおける動き成分画像信号２２１の生成方法を説明する。図１２（ａ）乃至（ｃ）と同様、簡単のため画像縮小信号１５１の一部で以降の処理の説明を行う。

Ｓ３０１にて、動き成分抽出部２２０は、図１３（ａ）に示すフレーム差分画像信号１５１ｄを、現在フレームの縮小画像と１０フレーム過去の縮小画像の差分を算出することで得る。動き成分抽出部２２０が、フレーム差分画像信号１５１ｄを取得した後、処理はＳ３０２へ移行する。

Ｓ３０２にて、動き成分抽出部２２０は、図１３（ｂ）に示すフレーム差分画像信号１５１ｅを、１０フレーム過去の縮小画像と２０フレーム過去の縮小画像の差分を算出することで得る。

Ｓ３０３にて、動き成分抽出部２２０は、フレーム差分画像信号１５１ｄとフレーム差分画像信号１５１ｅの論理積を計算することで、１０フレーム過去のフレームにおける動き成分を表す、フレーム差分画像信号１５１ｆを取得する（図１３（ｃ））。動き成分抽出部２２０がフレーム差分画像信号１５１ｆを取得した後、処理はＳ３０４へ移行する。

Ｓ３０４にて、動き成分抽出部２２０は、フレーム差分信号１５１ｄよりフレーム差分信号１５１ｆを減算することで、現在のフレームにおける動き成分のみを表すフレーム差分画像信号１５１ｇを取得する（図１３（ｄ））。動き成分抽出部２２０は、このフレーム差分画像信号１５１ｇを動き成分画像信号２２１として、動き成分演算部２３０に出力した後、Ｓ３０５へ処理を移行する。

続いて、Ｓ３０５にて、動き成分演算部２３０は、現在フレームの画像縮小信号１５１とフレーム差分信号１５１ｇを加算することで動き成分強調画像信号２３１を生成し、物体検出部２４０へ出力する。

図１４（ａ）乃至（ｃ）を参照し、動き成分演算部２３０の具体的な処理内容について説明する。

動き成分演算部２３０では先ず、図１４（ａ）に示す現在フレームの画像縮小信号１５１と図１４（ｂ）に示す現在フレームにおける動き成分を示す動き成分画像信号２２１を画素ごとに値を加算することによって、図１４（ｃ）に示す動き成分が強調された動き成分強調画像信号２３１を取得する。動き成分演算部２３０は、動き成分強調画像信号２３１を物体検出部２４０に出力する。この時、物体検出部２４０は、動き成分抽出部２２０、および動き成分演算部２３０の前述の処理を同様施した画像で学習をさせた学習ネットワーク４０３を用いて推論処理を行うことで、動き成分を加味した推論処理が可能となる。

なお、本実施形態では動き成分演算部２３０では現在フレームの画像縮小信号１５１ａと現在フレームにおける動き成分強調画像信号２３１を画素ごとに値を加算する例で説明を行ったが、この限りではない。例えば、現在フレームの画像縮小信号１５１ａと現在フレームにおける動き成分強調画像信号２３１を画素ごとに値を乗算することや、動き成分強調画像信号２３１の値がある閾値を超えた画素のみ前述の演算を行う、等も考えられる。つまり、動き成分抽出部２２０が抽出した動き成分強調画像信号２３１に基づいて、現フレームにおける動き領域の強調ができる形態であれば、本技術は適用可能である。

以上、図７の構成に関する本発明の第一実施形態の詳細について説明した。

しかし、本発明はこれだけに限定されず、バスケットボールとは違う他のスポーツに適用しても良い。例えば、サッカーに適応した場合、ボールが小さく映ることを考慮し、俯瞰カメラを複数用意し、前述の一連の処理を行った後の検出結果を結合してもよい。
また、本発明はこれだけに限定されず、物体検出部２４０において、プレイヤーとボールの検出が途中で外れてしまった場合、外れる直前の座標値を使用しても良い。

プレイヤー同士が重複する場合や、ボールがプレイヤーの後ろに隠れてしまった場合、検出が外れてしまう場合があるためである。

このように、コート全体の撮影画像から動き成分を強調した映像を生成し、それを元に物体検出を行うことで精度を向上することが可能となる。

なお、本実施形態ではトリミング部２６０が物体検出の結果に基づいて、俯瞰画像信号１０９からプレイヤー２０やボール３０が含まれる撮影画角で切り出す例を説明したが、撮影画像信号２６１を取得する方法はこの限りではない。例えば、新たにＰＴＺカメラを用意して、トリミング部２６０の代わりに制御値算出部を新たに用意し、プレイヤー２０やボール３０の検出結果に応じてＰＴＺ（パン、チルト、ズームが可変）カメラの制御を行うことで、光学的に撮影画像信号を取得してもよい。この方法の場合、トリミングによる解像度低下を防ぎながら、撮影画像信号２６１を生成することが可能である。

［第２実施形態］
第２実施形態では、ユーザがバスケットボールに関するオブジェクトの検出対象領域を指定することで、オブジェクトの検出精度をより向上させる方法について説明する。

図１５は、第２実施形態のシステム１が実際に導入される際の概略図である。基本的な各説明内容は第１実施形態と同様であるため、本第２実施形態では差分となる制御ＰＣ１０７について説明する。

制御ＰＣ１０７は、画像処理装置１０３と接続され、画像処理装置１０３経由で俯瞰カメラ１０２の撮影画像を取得し、ユーザはその撮影画像における物体検出部２４０の検出対象領域を選択する。制御ＰＣ１０７は、選択された検出対象領域をユーザ指定領域４０として、画像処理装置１０３へ送信する。なお、制御ＰＣ１０７は、クライアント端末１０４で代替させても良い。

図１６は俯瞰カメラ１０２が撮影した俯瞰画像信号１０９と、制御ＰＣ１０７のユーザが設定したユーザ指定領域４０の位置関係を図示したものである。ユーザは、制御ＰＣ１０７が有するポインティングデバイス等を操作してユーザ指定領域４０を設定するものとする。ユーザ指定領域４０は、図１６に示す通り、バスケットコート１０、プレイヤー２０、およびボール３０が含まれるような形で指定されることが望ましい。これにより、後述の物体検出部２４０による物体検出処理時、観客席のような実試合に関するオブジェクトの存在しえない領域での物体の誤検出を防ぐことが可能である。また、同情報により、後述の色抽出部２８０は、プレイヤー２０およびボール３０が存在する領域の色成分を取得することが可能である。

図１７は、画像処理装置１０３が有する画像処理部３２２の具体的な処理を説明する図である。本第２実施形態では、第１実施形態と同様の部分についての説明を省略し、本第２実施形態に係る説明のみを行う。

まず、制御ＰＣ１０７を介してユーザが俯瞰カメラ１０２の俯瞰画像信号１０９上でユーザ指定領域を指定すると、その指定された領域がユーザ指定領域２６９として、検出領域入力部２７０に入力される。検出領域入力部２７０は、入力したユーザ指定領域２６９を検出対象領域２７１として、色抽出部２８０及び物体検出部２４０へ出力する。

本第２の本実施形態では、検出対象領域２７１は矩形で選択されるものとし、矩形選択領域の左上の頂点の座標と右下の頂点の座標を俯瞰画像信号１０９と同じ解像度で表現するものとする。なお、検出対象領域２７１は、他にも、台形や他の多角形、自由形状などで出力をしてもよい。また、本第２実施形態では、制御ＰＣ１０７を介してユーザが検出対象領域を選択するものとして説明を行ったが、制御ＰＣ１０７が俯瞰カメラ１０２の俯瞰画像信号１０９より自動で選択をしてもよい。例えば、俯瞰画像信号１０９に対してエッジ処理を適用することでスポーツ競技のフィールド（コート）を示す線を検出し、それを含むような検出対象領域を制御ＰＣ１０７が決定する、等が考えられる。

続いて、色抽出部２８０は、画像縮小信号１５１における検出対象領域２７１で指定された領域内に該当する画素の色成分を抽出色成分情報２８１として生成し、動き成分演算部２３０へ出力する。本実施形態では、前述の色成分とはＲＧＢの３成分で表現された画像縮小信号１５１の検出対象領域２７１に該当する領域のＲＧＢ成分それぞれのヒストグラムであるものとする。なお、色成分の算出は別の方法でもよく、ＲＧＢ成分をＨＳＶ空間のように別の色空間に変換したのちに各成分のヒストグラムを取得してもよく、また検出対象領域２７１の該当領域内のＲＧＢ成分の各平均値など、検出対象領域２７１の該当領域内の色成分の特徴を表現できればよい。

続いて、動き成分演算部２３０は、画像縮小信号１５１と動き成分画像信号２２１、抽出色成分情報２８１を元に動き成分強調画像信号２３１を生成し、物体検出部２４０へ出力する。この時、動き成分演算部２３０は、抽出色成分情報２８１を元に、画像縮小信号１５１に対して演算する色成分を決定する。本実施形態では、動き成分演算部２３０は３つの色成分のヒストグラムの最頻値をそれぞれ求め、その値が最も低い色成分に対して演算処理を適用することで、動き成分強調画像信号２３１を生成し、物体検出部２４０へ出力する。ここでの演算処理は、第１実施形態と同様、加算による動き強調処理とするが、この限りではない。例えば、動き成分演算部２３０は動き成分画像信号２２１のすべての画素値を最小値１、最大値２にスケーリングし、その値を画像縮小信号１５１に画素ごとに乗算をしてもよく、画像縮小信号１５１における動き成分が強調できる形であれば演算内容は問わない。

以上の処理により、動き成分演算部２３０は、画素値の飽和を抑えつつ、また、動きのある領域と動きのない領域で所定の色成分の画素値のコントラストを増大させた動き成分強調画像信号２３１を生成することが可能となる。

そして、物体検出部２４０は、動き成分強調画像信号２３１に対して推論処理を行い、プレイヤー２０、およびボール３０の座標と種類を認識する。推論処理による検出結果は、図１０に示すように矩形座標値となる。プレイヤーの座標値は、図１０に示すように複数検出され、物体検出部２４０から複数プレイヤー座標１５２として出力する。なお、物体検出部２４０は検出領域入力部２７０より入力された検出対象領域２７１に該当する領域外にプレイヤー２０が検出された場合、その検出結果を削除したものをオブジェクト座標２４１として撮影画角決定部２５０に出力する。これにより、オブジェクト座標２４１には観客席などに発生してしまう可能性のあるプレイヤーの誤検出を低減することが可能である。

なお、図１７に示される他のブロックの処理内容については、第１実施形態に同じであるため、説明を割愛する。

以上のように、コート全体の撮影画像から動き成分を強調した映像を生成し、それを元に物体検出を行う際、プレイヤーやボールが動くコート領域をあらかじめ検出領域として取得することで、検出精度を向上することが可能となる。

なお、本実施形態では、制御ＰＣ１０７を介して、俯瞰画像信号１０９中のコート領域を指定し、その色成分情報を取得するものとして説明を行ったが、物体検出部２４０で検出を行いたいオブジェクトを一つ以上選択するような形とすることも可能である。例えば、俯瞰画像信号１０９中のバスケットボールの描写がある領域を選択した場合、その後の処理で色抽出部２８０は俯瞰画像信号１０９中のバスケットボールの色成分情報を取得することが可能である。そして、動き成分演算部２３０は、前述のバスケットボールの色成分情報と近い色成分情報を持つ画素値にのみ、動き成分の強調処理を行うことで、バスケットボールにのみ動き強調処理を適用した動き成分強調画像信号２３１を取得することが可能となる。この動き成分強調画像信号２３１を用いて物体検出部２４０は、俯瞰画像信号１０９中のバスケットボールの検出をより高精度に行うことが可能となる。

なお、上述した各処理部のうち、物体検出部２４０については、機械学習された学習済みモデルを用いて処理を実行したが、ルックアップテーブル（ＬＵＴ）等のルールベースの処理を行ってもよい。その場合には、例えば、入力データと出力データとの関係をあらかじめＬＵＴとして作成する。そして、この作成したＬＵＴを画像処理装置１０３のメモリに格納しておくとよい。物体検出部２４０の処理を行う場合には、この格納されたＬＵＴを参照して、出力データを取得することができる。つまりＬＵＴは、前記処理部と同等の処理をするためのプログラムとして、ＣＰＵあるいはＧＰＵなどと協働で動作することにより、前記処理部の処理を行う。

［第３実施形態］
第３実施形態では、学習サーバ１０５が教師データに施すデータオーグメンテーションの一部を、動き強調処理より前の工程で実施することで、少ない教師データでもオブジェクトの検出精度をより向上させる方法について説明する。

図１８は、第３実施形態における学習サーバ１０５の処理フローである。基本的な各説明内容は第１実施形態と同様であるため、本第３実施形態では差分となる学習サーバ１０５について説明する。

まず、Ｓ７３０にて、学習サーバ１０５は、データ収集サーバ１０６に教師データを要求する。そして、Ｓ７３１にて、学習サーバ１０５は、教師データの受信を待つ。教師データを受信した場合、学習サーバ１０５は、データ記憶部３４２を制御して、そのデータをＲＡＭ２１４に格納した後、処理をＳ７３６に移行する。

次に、Ｓ７３６にて、学習サーバ１０５は学習用データ生成部３４３を制御し、受信したデータに対し、色調変更処理を施した色調変更画像を生成させ、ＲＡＭ２１４に格納する。ここで、色調変更処理は、色相、彩度、明度のうち、少なくとも１つを変更する処理であればよい。また、ＲＧＢやＹＵＶといった表色系で表される色成分のうち少なくとも１つを変更する処理であってもよい。これらの変更手段としては、ゲイン処理、オフセット処理、ガンマ処理、ＬＵＴ（ＬｏｏｋＵｐＴａｂｌｅ）を用いた変換処理のいずれでもよい。学習用データ生成部３４３が色調変更画像をＲＡＭ２１４に格納した後、学習サーバ１０５は処理をＳ７３２に移行する。

次に、Ｓ７３２にて、学習サーバ１０５は学習用データ生成部３４３を制御し、受信したデータに対し、前述の動き強調処理を施した動き強調画像を生成させ、ＲＡＭ２１４に格納させる。学習用データ生成部３４３が動き強調処理に用いる所定の時間間隔をもって連続する複数の撮影フレームは、Ｓ７３６で同一の色調変更処理が実行されているものとする。学習用データ生成部３４３が、動き強調画像をＲＡＭ２１４に格納した後、学習サーバ１０５は処理をＳ７３７に移行する。

次に、Ｓ７３７にて、学習サーバ１０５は、学習部３４４を制御し、受信したデータを学習モデルに入力させる。ここで、学習モデルは、前述した学習ネットワーク４０３である。学習部３４４が、教師データを学習モデルに入力した後、学習サーバ１０５は処理をＳ７３８に移行する。

次に、Ｓ７３８にて、学習サーバ１０５は、学習部３４４を制御し、学習ネットワーク４０３により学習を実施させる。学習部３４４が、学習ネットワーク４０３の学習を実施した後、学習サーバ１０５は処理をＳ７３５に移行する。

最後に、Ｓ７３５にて、学習サーバ１０５は、全教師データについての入力を終えたか否かを判定し、終えたと判断した場合は本学習処理を終了する。

なお、Ｓ７３６にて、学習用データ生成部３４３は、受信したデータに対し、色調変更処理を実行しているが、受信したデータに施す処理はこの限りではない。例えば、ランダムな位置の画素値を変更するノイズ付加処理を用いてもよい。また、ノイズを除去するデノイズ処理を用いてもよい。また、アンシャープマスク方式等によるシャープネス強調処理を用いてもよい。また、ローパスフィルタ方式等による平滑化処理を用いてもよい。また、領域置換処理を用いてもよい。ここで、領域置換とは、対象のフレームに対し、所定の条件に合致する部分領域を別の画像に変更する処理である。例えば、ある画像における特定の画素値の領域や前フレームから変化のない領域を別の画像に置換する処理としてもよい。あるいは、対象の画像について被写体と背景画像を分離し、背景画像の領域を他の画像に変更する処理としてもよい。また、色調変更処理を、上記複数処理の組み合わせに置き換えてもよい。

また、Ｓ７３７にて、学習部３４４は、第１実施形態と同様に教師データに対応する学習設定値を学習モデルに入力してもよく、Ｓ７３８にて、学習部３４４は、受信したデータに対し、学習設定値に準じたデータオーグメンテーションの処理を実行してもよい。ここで、学習設定値に準じたデータオーグメンテーションの処理は、前述した色調変更処理、ノイズ付加、デノイズ処理、シャープネス、平滑化、領域置換とは異なる処理を実行するとよく、例えば、形状変形処理が挙げられる。ここで、形状変形処理は、反転、トリミング、回転、平行移動、拡大縮小、せん断、射影変換のうち、少なくとも１つを実行する処理である。

以上のように、教師データに施すデータオーグメンテーションの一部を動き強調処理より前の工程で実施することで、動き強調処理の結果を書き換えずに教師データを拡張できるため、検出精度を向上することが可能となる。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

本明細書の開示は、以下の物体追跡装置、方法及びプログラムを含む。
（項目１）
映像中の所定のオブジェクトを検出する画像処理装置であって、
前記映像を構成するフレームの画像から、予め設定されたサイズの縮小画像を生成する縮小手段と、
該縮小手段で得た現フレームを表す現縮小画像、当該現縮小画像に対して所定時間前の第１の縮小画像、及び、前記第１の縮小画像に対して所定時間前の第２の縮小画像とに基づき、動き成分強調画像を生成する生成手段と、
該生成手段で得た動き成分強調画像を用いて、オブジェクトの位置を判定する判定手段と
を有することを特徴とする画像処理装置。
（項目２）
前記映像は、スポーツ競技のフィールドを俯瞰する映像であることを特徴とする項目１に記載の画像処理装置。
（項目３）
前記映像を構成するフレームから、前記判定手段で判定したオブジェクトそれぞれの位置を包含する領域を抽出するトリミング手段を更に有することを特徴とする項目１又は２に記載の画像処理装置。
（項目４）
前記判定手段は、動き成分強調画像と当該動き成分強調画における各オブジェクトの位置を示す情報で構成される教師データに基づいて作成した学習データを用いて、前記生成手段で生成した前記動き成分強調画像におけるオブジェクトの位置を判定する
ことを特徴とする項目１乃至３のいずれか１つに記載の画像処理装置。
（項目５）
前記生成手段は、
前記現縮小画像と前記第１の縮小画像の差分を示す第１の差分画像を生成し、
前記第１の縮小画像と前記第２の縮小画像との差分から第２の差分画像を生成し、
前記第１の差分画像と前記第２の差分画像とを論理積で得た第３の差分画像を生成し、
前記第１の差分画像から前記第３の差分画像を減じることで動き成分画像を生成し、
前記現縮小画像に前記動き成分画像を加算することで前記動き成分強調画像を生成する
ことを特徴とする項目１乃至４のいずれか１項に記載の画像処理装置。
（項目６）
前記映像におけるオブジェクトを検出する領域を入力する領域入力手段と、
該領域入力手段で入力された領域内における前記オブジェクトの色を抽出する抽出手段とを更に有し、
前記生成手段は、前記抽出手段で抽出した色を更に利用して、前記動き成分強調画像を生成することを特徴とする項目５に記載の画像処理装置。
（項目７）
映像中の所定のオブジェクトを検出する画像処理装置の制御方法であって、
前記映像を構成するフレームの画像から、予め設定されたサイズの縮小画像を生成する縮小工程と、
該縮小工程で得た現フレームを表す現縮小画像、当該現縮小画像に対して所定時間前の第１の縮小画像、及び、前記第１の縮小画像に対して所定時間前の第２の縮小画像とに基づき、動き成分強調画像を生成する生成工程と、
該生成工程で得た動き成分強調画像を用いて、オブジェクトの位置を判定する判定工程と
を有することを特徴とする画像処理装置の制御方法。
（項目８）
コンピュータが読み込み実行することで、前記コンピュータに、項目１乃至７のいずれか１つに記載の装置が有する各手段として機能させるためのプログラム。
（項目９）
スポーツ競技のフィールドを俯瞰する映像を撮影するカメラと、該カメラで得た映像から出力の対象の領域を取り出す画像処理を行う画像処理装置とを有するシステムであって、
前記画像処理装置は、
前記カメラから受信した映像を構成するフレームの画像から、予め設定されたサイズの縮小画像を生成する縮小手段と、
該縮小手段で得た現フレームを表す現縮小画像、当該現縮小画像に対して所定時間前の第１の縮小画像、及び、前記第１の縮小画像に対して所定時間前の第２の縮小画像とに基づき、動き成分強調画像を生成する生成手段と、
該生成手段で得た動き成分強調画像を用いて、オブジェクトの位置を判定する判定手段と、
該判定手段で判定したオブジェクトの位置から、前記映像から切り出す領域を決定し、トリミングを行うトリミング手段とを有する
ことを特徴とするシステム。
（項目１０）
教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
前記教師データを構成するフレーム画像の色調を変更し、色調変更画像を生成する変更工程と、
該変更工程で得た現フレームを表す現変更画像、当該現変更画像に対して所定時間前の第１のフレーム画像、及び、前記第１のフレーム画像に対して所定時間前の第２のフレーム画像に基づき、動き成分強調画像を生成する生成工程を有し、
該変更工程は、該生成工程より前の工程で実施されることを特徴とする学習データ生成方法。
（項目１１）
教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
前記教師データを構成するフレーム画像にノイズを付加し、ノイズ付加画像を生成する付加工程と、
該付加工程で得た現フレームを表す現付加画像、当該現付加画像に対して所定時間前の第１のフレーム画像、及び、前記第１のフレーム画像に対して所定時間前の第２のフレーム画像に基づき、動き成分強調画像を生成する生成工程を有し、
該付加工程は、該生成工程より前の工程で実施されることを特徴とする学習データ生成方法。
（項目１２）
教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
前記教師データを構成するフレーム画像のノイズを除去し、ノイズ除去画像を生成する除去工程と、
該除去工程で得た現フレームを表す現除去画像、当該現除去画像に対して所定時間前の第１のフレーム画像、及び、前記第１のフレーム画像に対して所定時間前の第２のフレーム画像に基づき、動き成分強調画像を生成する生成工程とを有し、
該除去工程は、該生成工程より前の工程で実施されることを特徴とする学習データ生成方法。
（項目１３）
教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
前記教師データを構成するフレーム画像にシャープネス処理を実行し、シャープネス画像を生成する拡張工程と、
該拡張工程で得た現フレームを表す現拡張画像、当該現拡張画像に対して所定時間前の第１のフレーム画像、及び、前記第１のフレーム画像に対して所定時間前の第２のフレーム画像に基づき、動き成分強調画像を生成する生成工程を有し、
該拡張工程は、該生成工程より前の工程で実施されることを特徴とする学習データ生成方法。
（項目１４）
教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
前記教師データを構成するフレーム画像に平滑化処理を実行し、平滑化画像を生成する拡張工程と、
該拡張工程で得た現フレームを表す現拡張画像、当該現拡張画像に対して所定時間前の第１のフレーム画像、及び、前記第１のフレーム画像に対して所定時間前の第２のフレーム画像に基づき、動き成分強調画像を生成する生成工程を有し、
該拡張工程は、該生成工程より前の工程で実施されることを特徴とする学習データ生成方法。
（項目１５）
教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
前記教師データを構成するフレーム画像の一部領域を前記フレーム画像と異なる画像で置換し、領域置換画像を生成する置換工程と、
該置換工程で得た現フレームを表す現置換画像、当該現置換画像に対して所定時間前の第１のフレーム画像、及び、前記第１のフレーム画像に対して所定時間前の第２のフレーム画像に基づき、動き成分強調画像を生成する生成工程を有し、
該置換工程は、該生成工程より前の工程で実施されることを特徴とする学習データ生成方法。
（項目１６）
教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
前記教師データを構成するフレーム画像で得た現フレームを表す現フレーム画像、当該現フレーム画像に対して所定時間前の第１のフレーム画像、及び、前記第１のフレーム画像に対して所定時間前の第２のフレーム画像に基づき、動き成分強調画像を生成する生成工程と、
当該動き成分強調画像の形状を変形し、形状変形画像を生成する変形工程を有し、
該変形工程は、該生成工程より後の工程で実施されることを特徴とする学習データ生成方法。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

２１０…画像縮小部、２２０…動き成分抽出部、２３０…動き成分演算部、２４０…物体検出部、２５０…撮影画角決定部、２６０…トリミング部、２７０…検出領域入力部、２８０…色抽出部

Claims

映像中の所定のオブジェクトを検出する画像処理装置であって、
前記映像を構成するフレームの画像から、予め設定されたサイズの縮小画像を生成する縮小手段と、
該縮小手段で得た現フレームを表す現縮小画像、当該現縮小画像に対して所定時間前の第１の縮小画像、及び、前記第１の縮小画像に対して所定時間前の第２の縮小画像とに基づき、動き成分強調画像を生成する生成手段と、
該生成手段で得た動き成分強調画像を用いて、オブジェクトの位置を判定する判定手段と
を有することを特徴とする画像処理装置。
前記映像は、スポーツ競技のフィールドを俯瞰する映像であることを特徴とする請求項１に記載の画像処理装置。
前記映像を構成するフレームから、前記判定手段で判定したオブジェクトそれぞれの位置を包含する領域を抽出するトリミング手段を更に有することを特徴とする請求項１に記載の画像処理装置。
前記判定手段は、動き成分強調画像と当該動き成分強調画における各オブジェクトの位置を示す情報で構成される教師データに基づいて作成した学習データを用いて、前記生成手段で生成した前記動き成分強調画像におけるオブジェクトの位置を判定する
ことを特徴とする請求項１に記載の画像処理装置。
前記生成手段は、
前記現縮小画像と前記第１の縮小画像の差分を示す第１の差分画像を生成し、
前記第１の縮小画像と前記第２の縮小画像との差分から第２の差分画像を生成し、
前記第１の差分画像と前記第２の差分画像とを論理積で得た第３の差分画像を生成し、
前記第１の差分画像から前記第３の差分画像を減じることで動き成分画像を生成し、
前記現縮小画像に前記動き成分画像を加算することで前記動き成分強調画像を生成する
ことを特徴とする請求項１乃至４のいずれか１項に記載の画像処理装置。
前記映像におけるオブジェクトを検出する領域を入力する領域入力手段と、
該領域入力手段で入力された領域内における前記オブジェクトの色を抽出する抽出手段とを更に有し、
前記生成手段は、前記抽出手段で抽出した色を更に利用して、前記動き成分強調画像を生成することを特徴とする請求項５に記載の画像処理装置。
映像中の所定のオブジェクトを検出する画像処理装置の制御方法であって、
前記映像を構成するフレームの画像から、予め設定されたサイズの縮小画像を生成する縮小工程と、
該縮小工程で得た現フレームを表す現縮小画像、当該現縮小画像に対して所定時間前の第１の縮小画像、及び、前記第１の縮小画像に対して所定時間前の第２の縮小画像とに基づき、動き成分強調画像を生成する生成工程と、
該生成工程で得た動き成分強調画像を用いて、オブジェクトの位置を判定する判定工程と
を有することを特徴とする画像処理装置の制御方法。
コンピュータが読み込み実行することで、前記コンピュータに、請求項７に記載の方法が有する各工程を実行させるためのプログラム。
スポーツ競技のフィールドを俯瞰する映像を撮影するカメラと、該カメラで得た映像から出力の対象の領域を取り出す画像処理を行う画像処理装置とを有するシステムであって、
前記画像処理装置は、
前記カメラから受信した映像を構成するフレームの画像から、予め設定されたサイズの縮小画像を生成する縮小手段と、
該縮小手段で得た現フレームを表す現縮小画像、当該現縮小画像に対して所定時間前の第１の縮小画像、及び、前記第１の縮小画像に対して所定時間前の第２の縮小画像とに基づき、動き成分強調画像を生成する生成手段と、
該生成手段で得た動き成分強調画像を用いて、オブジェクトの位置を判定する判定手段と、
該判定手段で判定したオブジェクトの位置から、前記映像から切り出す領域を決定し、トリミングを行うトリミング手段とを有する
ことを特徴とするシステム。
教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
前記教師データを構成するフレーム画像の色調を変更し、色調変更画像を生成する変更工程と、
該変更工程で得た現フレームを表す現変更画像、当該現変更画像に対して所定時間前の第１のフレーム画像、及び、前記第１のフレーム画像に対して所定時間前の第２のフレーム画像に基づき、動き成分強調画像を生成する生成工程を有し、
該変更工程は、該生成工程より前の工程で実施されることを特徴とする学習データ生成方法。
教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
前記教師データを構成するフレーム画像にノイズを付加し、ノイズ付加画像を生成する付加工程と、
該付加工程で得た現フレームを表す現付加画像、当該現付加画像に対して所定時間前の第１のフレーム画像、及び、前記第１のフレーム画像に対して所定時間前の第２のフレーム画像に基づき、動き成分強調画像を生成する生成工程を有し、
該付加工程は、該生成工程より前の工程で実施されることを特徴とする学習データ生成方法。
教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
前記教師データを構成するフレーム画像のノイズを除去し、ノイズ除去画像を生成する除去工程と、
該除去工程で得た現フレームを表す現除去画像、当該現除去画像に対して所定時間前の第１のフレーム画像、及び、前記第１のフレーム画像に対して所定時間前の第２のフレーム画像に基づき、動き成分強調画像を生成する生成工程とを有し、
該除去工程は、該生成工程より前の工程で実施されることを特徴とする学習データ生成方法。
教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
前記教師データを構成するフレーム画像にシャープネス処理を実行し、シャープネス画像を生成する拡張工程と、
該拡張工程で得た現フレームを表す現拡張画像、当該現拡張画像に対して所定時間前の第１のフレーム画像、及び、前記第１のフレーム画像に対して所定時間前の第２のフレーム画像に基づき、動き成分強調画像を生成する生成工程を有し、
該拡張工程は、該生成工程より前の工程で実施されることを特徴とする学習データ生成方法。
教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
前記教師データを構成するフレーム画像に平滑化処理を実行し、平滑化画像を生成する拡張工程と、
該拡張工程で得た現フレームを表す現拡張画像、当該現拡張画像に対して所定時間前の第１のフレーム画像、及び、前記第１のフレーム画像に対して所定時間前の第２のフレーム画像に基づき、動き成分強調画像を生成する生成工程を有し、
該拡張工程は、該生成工程より前の工程で実施されることを特徴とする学習データ生成方法。
教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
前記教師データを構成するフレーム画像の一部領域を前記フレーム画像と異なる画像で置換し、領域置換画像を生成する置換工程と、
該置換工程で得た現フレームを表す現置換画像、当該現置換画像に対して所定時間前の第１のフレーム画像、及び、前記第１のフレーム画像に対して所定時間前の第２のフレーム画像に基づき、動き成分強調画像を生成する生成工程を有し、
該置換工程は、該生成工程より前の工程で実施されることを特徴とする学習データ生成方法。
教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
前記教師データを構成するフレーム画像で得た現フレームを表す現フレーム画像、当該現フレーム画像に対して所定時間前の第１のフレーム画像、及び、前記第１のフレーム画像に対して所定時間前の第２のフレーム画像に基づき、動き成分強調画像を生成する生成工程と、
当該動き成分強調画像の形状を変形し、形状変形画像を生成する変形工程を有し、
該変形工程は、該生成工程より後の工程で実施されることを特徴とする学習データ生成方法。