JP2023140257A - 画像処理装置及びその制御方法及びプログラム及びシステム及び学習データ生成方法 - Google Patents

画像処理装置及びその制御方法及びプログラム及びシステム及び学習データ生成方法 Download PDF

Info

Publication number
JP2023140257A
JP2023140257A JP2022141014A JP2022141014A JP2023140257A JP 2023140257 A JP2023140257 A JP 2023140257A JP 2022141014 A JP2022141014 A JP 2022141014A JP 2022141014 A JP2022141014 A JP 2022141014A JP 2023140257 A JP2023140257 A JP 2023140257A
Authority
JP
Japan
Prior art keywords
image
frame
generating
motion component
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022141014A
Other languages
English (en)
Inventor
賢太 刀川
Kenta Tachikawa
輝 小菅
Teru Kosuge
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to PCT/JP2022/048566 priority Critical patent/WO2023181580A1/ja
Publication of JP2023140257A publication Critical patent/JP2023140257A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

【課題】映像中のオブジェクトを、そのサイズや静動を問わずに、高速に且つ高い精度で検出する。【解決手段】 映像中の所定のオブジェクトを検出する画像処理装置は、映像を構成するフレームの画像から、予め設定されたサイズの縮小画像を生成する縮小部と、該縮小部で得た現フレームを表す現縮小画像、当該現縮小画像に対して所定時間前の第1の縮小画像、及び、第1の縮小画像に対して所定時間前の第2の縮小画像とに基づき、動き成分強調画像を生成する生成部と、該生成部で得た動き成分強調画像を用いて、オブジェクトの位置を判定する判定部とを有する。【選択図】 図9

Description

本発明は、映像中の特定のオブジェクトの検出技術に関するものである。
近年、放送用のスポーツの試合動画を自動生成する方法の一つとして、試合が行われるコート全体を含む画角で撮影データを取得し、その一部が写る画角で切り出す方法がある。具体的には、バスケットボールの試合動画内で、プレイヤーとボールの位置を取得し、それらが含まれるように切り出す画角を決定する。特に、視聴者がバスケットボールの試合展開を把握できるようなコート半面程の広さの画角で切り出す際、画角内に必ずボールを含める必要がある。
プレイヤーやボールを認識する際、処理負荷を軽減してリアルタイムの画像処理を実現するために、撮影データに縮小処理を施してから認識処理を行うことが一般的である。しかし、コート全体を含む画角の撮影データに縮小処理を施した場合、そこに写るバスケットボールの描写は解像度が低くなり、ボールの模様や形状などの空間的な特徴が潰れてしまう。この時、縮小率を下げて認識処理を行うことで、空間的な特徴の潰れを抑制し、バスケットボールの認識が可能となることが見込まれるが、認識処理にかかる多くの時間が必要となり、リアルタイムでの処理に向かなくなってしまう。そこで、この空間的特徴を補う方法として、過去と現在の撮影データを参照し、映像中の動き成分を元に、認識処理を行うシステムが提案されている(例えば、特許文献1)。
特許文献1では、撮影データの現在のフレームと過去2フレームから、現フレーム中の動いているオブジェクトを認識する技術が開示されている。バスケットボールにおけるボールは静止することは稀であり、本技術によって映像中のボールを認識することが可能となる。
特開平5-339724号公報
しかしながら、特許文献1に開示された従来技術では、スポーツの試合中において静止したオブジェクトの検出はできない。具体的には、試合中であっても、バスケットボールのフリースローを行う場合、シューターや審判以外のプレイヤーは静止していることがあるので、それらのプレイヤーの認識ができない。従って、従来技術では、コート全体を含む撮影データから適切な範囲を切りだすためのプレイヤー情報が欠けてしまう課題が残る。
本発明は、上述した課題に鑑みてなされたものであり、映像中のオブジェクトを、そのサイズや静動を問わずに、高速に且つ高い精度で検出する技術を提供しようとするものである。
この課題を解決するため、例えば本発明の画像処理装置は以下の構成を備える。すなわち、
映像中の所定のオブジェクトを検出する画像処理装置であって、
前記映像を構成するフレームの画像から、予め設定されたサイズの縮小画像を生成する縮小手段と、
該縮小手段で得た現フレームを表す現縮小画像、当該現縮小画像に対して所定時間前の第1の縮小画像、及び、前記第1の縮小画像に対して所定時間前の第2の縮小画像とに基づき、動き成分強調画像を生成する生成手段と、
該生成手段で得た動き成分強調画像を用いて、オブジェクトの位置を判定する判定手段とを有する。
本発明によれば、映像中のオブジェクトを、そのサイズや静動を問わずに、高速に且つ高い精度で検出することができる。
第1実施形態の機械学習を説明する為のシステム図。 第1実施形態における画像処理装置及び学習サーバのハードウェア構成を示す図。 第1の実施形態のソフトウェア構成を説明するための図。 第1、第2実施形態における、学習ネットワークを説明するための概念図。 第1、第2実施形態のシステムにおける各装置間の送受信に関する動作を説明するための図。 第1、第2実施形態における画像処理装置の処理手順を示すフローチャート。 第1、第2実施形態におけるデータ収集サーバの処理手順を示すフローチャート。 第1、第2実施形態における学習サーバの処理手順を示すフローチャート。 第1実施形態におけるシステムの設置例の概略図。 第1実施形態における俯瞰画像の例を示す図。 第1実施形態における概略ブロック図。 第1、第2実施形態における、物体検出部の処理を説明するための図。 第1、第2実施形態における、本件の特徴となる動き強調処理に関する処理を示すフローチャート。 第1、第2実施形態における、動き成分抽出部の動作を説明する図。 第1、第2実施形態における、動き成分抽出部により現在のフレームにおける動き成分を抽出する動作を説明する図。 第1、第2実施形態における、動き成分抽出部により動き成分が強調された現在フレームを生成する動作を説明する図。 第2実施形態におけるシステムの概略図。 第2実施形態におけるユーザ指定領域を説明する図。 第2実施形態における概略ブロック図。 第3実施形態における学習サーバの処理手順を示すフローチャート。
以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
[第1実施形態]
本発明に係る第1実施形態について説明する。本実施形態では、以下に説明する物体検出方法を用いて、バスケットのコート全体が写る画角での撮影映像から、試合の注目領域を自動で切り出すことで撮影映像を生成する場合を例として説明する。なお、本実施形態では、撮影対象をバスケットコート(バスケットの試合)とするのは、あくまで技術内容を具現化するための一例であって、撮影対象は特に問わない。
図1は、本第1実施形態に係る物体検出方法を実施する画像処理装置103を含むシステム1の構成図である。
図1において、システム1は、ローカルネットワーク100、ネットワーク101、俯瞰カメラ102、画像処理装置103、クライアント端末104、学習サーバ105、およびデータ収集サーバ106を備える。
ローカルネットワーク100は、画像処理装置103やクライアント端末104が接続するネットワークであり、画像処理装置103とクライアント端末104はローカルネットワーク100を介して相互に通信することができる。
ネットワーク101は、ローカルネットワーク100が接続されるネットワークであり、ローカルネットワーク100に接続される機器は、ネットワーク101を介して相互に通信することができる。また、ローカルネットワーク100に接続される機器は、ネットワーク101に接続されている学習サーバ105やデータ収集サーバ106とも相互に通信が可能である。
俯瞰カメラ102は、決められた範囲の撮影映像を取得し、取得した撮影映像を画像処理装置103へ出力する。なお、俯瞰カメラ102は、1秒当たり30フレーム(30FPS)で映像を取得するものとするが、フレームレートに特に制限はない。
画像処理装置103は、俯瞰カメラ102より入力された撮影映像より、映像中に写る所定のオブジェクトの検出を行う。ここで、検出とは、所定のオブジェクトの座標、およびそのオブジェクトの種類を特定する処理のことを指す。本実施形態では、バスケットボールにおけるバスケットボールとプレイヤーを所定のオブジェクトとして検出するものとする。
クライアント端末104は、機器間のデータの送受信を指示する装置である。学習サーバ105は、機械学習のデータを生成する装置である。データ収集サーバ106は、学習サーバ105で学習する為の教師データを蓄積する装置である。
図2は、システム1の構成メンバである、画像処理装置103、および、学習サーバ105のハードウェア構成を示している。図示では、簡単のため、システム1の一部のうち、画像処理装置103、学習サーバ105、およびネットワーク101のみ図示し、それ以外の構成については記載を省略している点に注意されたい。
図2に示すように、画像処理装置103は、CPU202、ROM203、RAM204、HDD205、NIC(Network Interface Card)206、入力部207、表示部208、画像処理エンジン209、及び、インタフェース(I/F)290を備え、これらはシステムバス201を介して互いに接続されている。
CPU202は、画像処理装置103全体の制御をつかさどる。CPU202は後述する各ユニットを制御し、入力部207からの入力や、NIC206から受信したデータに応じた動作を行う。ROM203は、不揮発性のメモリであり、画像処理装置103を制御するプログラムや各種パラメータを保持する。画像処理装置103に電源が投入されると、CPU202はROM203からプログラムを読み込み、画像処理装置103の制御を開始する。ROM203は、例えばフラッシュメモリなどからなる。
RAM204は、書き換え可能なメモリであり、画像処理装置103を制御するプログラムが作業領域として利用する。RAM204は、例えば半導体素子を利用した揮発性メモリ(DRAM)が用いられる。
HDD205(保存部)は、画像データや、画像データを検索するためのデータベースを格納する。実施形態では、磁気記憶方式を利用したハードディスクドライブ(HDD)としているが、半導体素子を利用したソリッドステートドライブ(SSD)などの他の外部記憶装置をHDD205として利用しても良い。
NIC206は、ネットワークインターフェースコントローラ(NIC)であり、画像処理装置103がネットワーク101を介して他の装置と通信を行うために利用される。例えば、ETHERNET(登録商標)あるいはIEEE802.3シリーズで規格化された通信方式に基づいたコントローラがNIC206として用いられる。
入力部207は、画像処理装置103のユーザ(オペレータ)が画像処理装置103を操作する際に利用される。例えば、キーボードが入力部207として用いられる。尚、本発明の画像処理装置103はネットワーク101上のサーバとして動作することを想定しているので、入力部207は画像処理装置103の起動時やメンテナンス時などの場合のみ利用される。
表示部208は、画像処理装置103の動作状態を表示するために利用される。例えば、LCD(液晶ディスプレイ)が表示部208として用いられる。尚、本発明の画像処理装置103はネットワーク101上のサーバとして動作することを想定しているので、表示部208は省略される場合がある。
画像処理エンジン209は、RAM204より読みだした画像データに対して、縮小処理や後述の動き強調処理などの画像処理を実施し、その結果を再度RAM204に格納する。本実施形態では、種々の画像処理はCPU202を動作させて実施するものとするが、この限りではない。例えば、画像処理装置103で新たにGPUを備え、そのGPU上で種々の演算処理を行ってもよい。
また、インタフェース290は、俯瞰カメラ102と画像処理装置103とを接続するために使用される。画像処理装置103は、このインタフェース290を介して、俯瞰カメラ102から、撮影映像データを受信することになる。なお、このインタフェース290は、俯瞰カメラ102と通信できるインタフェースであれば良く、特に種類は問わないが、典型的にはUSB(Universal Serial Bus)インタフェースである。なお、ネットワーク帯域が許せば、俯瞰カメラ102は、ネットワークカメラとしても良い。この場合、画像処理装置103は、NIC206を介して、俯瞰カメラ102から撮影映像を受信することになる。
図2において、学習サーバ105は、CPU212、ROM213、RAM214、HDD215、NIC216、入力部217、表示部218、およびGPU219を備え、これらはシステムバス211を介して互いに接続されている。
CPU212は、学習サーバ105全体の制御をつかさどる。CPU212は後述する各ユニットを制御し、入力部217からの入力や、NIC216から受信したデータに応じた動作を行う。
ROM213は、不揮発性のメモリであり、学習サーバ105を制御するプログラムを保持する。学習サーバ10に電源が投入されると、CPU212はROM213からプログラムを読み込み、学習サーバ105の制御を開始する。ROM213は、例えばフラッシュメモリなどからなる。
RAM214は、書き換え可能なメモリであり、学習サーバ105を制御するプログラムが作業領域として利用する。RAM214は、例えば半導体素子を利用した揮発性メモリ(DRAM)が用いられる。
HDD215は、画像認識機能により画像データ中の所定のオブジェクトの位置とオブジェクトの種類を推定する学習ネットワーク(辞書データ)403(図4)を格納する。実施形態では、磁気記憶方式を利用したハードディスクドライブ(HDD)としているが、半導体素子を利用したソリッドステートドライブ(SSD)などの他の外部記憶装置をHDD205として利用しても良い。
NIC216は、ネットワークインターフェースコントローラであり、学習サーバ105がネットワーク101を介して他の装置との通信を行うために利用される。例えば、Ethernet(登録商標)あるいはIEEE802.3シリーズで規格化された通信方式に基づいたコントローラがNIC216として用いられる。
入力部217は、学習サーバ105のユーザ(オペレータ)が学習サーバ105を操作する際に利用される。例えば、キーボードが入力部217として用いられる。尚、学習サーバ105はネットワーク101上のサーバとして動作することを想定しているので、入力部217は学習サーバ105の起動時や、メンテナンス時などの場合のみ利用される。
表示部218は、学習サーバ105の動作状態を表示するために利用される。例えば、LCD(液晶ディスプレイ)が表示部218として用いられる。尚、本発明の学習サーバ105はネットワーク101上のサーバとして動作することを想定しているので、表示部218は省略される場合がある。
GPU219は、データの並列演算処理を行うに用いられるユニットである。ディープラーニングのような学習ネットワークを用いて複数回に渡り学習を行う場合や、推定において多数の積和演算を行う場合にGPU219で処理を行うことが有効である。GPU219には、一般的には、Graphics Processing Unitと呼ばれるLSIが用いられるが、FPGAと呼ばれる再構成可能な論理回路で同等の機能を実現してもよい。
図3は、システム1を構成する各装置上で動作するソフトウェア構成を示す図である。このソフトウェア構成は、図2を用いて説明したハードウェア資源、およびプログラムを利用することで実現される。なお、本ソフトウェア構成では、オペレーティングシステムなどの汎用的なソフトウェア構成については省略している。
俯瞰カメラ102のソフトウェアは、データ送信部301とUI表示部302で構成される。データ送信部301は、俯瞰カメラ102が保持する画像データのうち、後述するUI表示部302により選択された画像データをデータ受信部321へ送信するためのソフトウェア機能を有する。また、データ送信部301は、画像処理装置103からの指示に基づき、撮影データをデータ受信部321へ送信するためのソフトウェア機能を有する。UI表示部302は、俯瞰カメラ102が保持する画像データのうち任意の画像データをユーザ選択可能に表示するためのユーザインターフェースを提供するためのソフトウェア機能を有する。
画像処理装置103のソフトウェアは、データ受信部321、画像処理部322、推定部323、学習データ記憶部324で構成される。データ受信部321は、俯瞰カメラ102やクライアント端末104とのデータの送受信を行うためのソフトウェア機能を有する。例えば、データ受信部321は、俯瞰カメラ102からインタフェース290やNIC206を介して撮影映像(画像データ)を受信し、画像処理部322へ出力する。画像処理部322は、入力された画像データに対し、後述する縮小処理や動体検出処理などを適用し、推定部323へ前記画像処理後の撮影データを出力する。推定部323は、学習データ記憶部324によって、HDD205に保持されている学習ネットワーク403を用いて、画像処理部322から入力された撮影データより、バスケットボールやプレイヤーの座標、および種類を検出するためのソフトウェア機能を有する。
クライアント端末104のソフトウェアは、ウェブブラウザ311で構成される。ウェブブラウザ311は、画像処理装置103のデータ受信部321から取得したデータをクライアント端末104のユーザに見えるように成形・表示するためのソフトウェア機能を有する。また、ウェブブラウザ311は、ユーザの操作(画像データの検索、表示など)を画像処理装置103のデータ受信部321に伝えたりするためのソフトウェア機能も有する。
学習サーバ105のソフトウェアは、データ記憶部342、学習用データ生成部343、学習部344で構成される。データ記憶部342は、後述するデータ収集/提供部332から受信した画像データや後述する学習用データ生成部343が生成した学習用画像データの蓄積と、蓄積した画像データの検索・管理を行うためのソフトウェア機能を有する。画像データの蓄積は、HDD215内に格納することによって行われる。学習用データ生成部343は、データ記憶部342に格納されている画像データに後述する動き強調処理を適用した学習用画像データを生成する。生成された学習用画像データは、データ記憶部342によってHDD215に格納される。学習部344は、学習用画像データを元に、学習ネットワーク403の学習を行う。生成した学習ネットワーク403は、画像処理装置103の学習データ記憶部324に送信され、RAM204に記録される。
図4は、学習ネットワーク403を用いた入出力の構造を示す概念図である。尚、学習ネットワーク403は、本実施形態だけでなく、後述の実施形態においても同一の構造を有するものと理解されたい。
学習サーバ105の学習は、図4に示すようにNeural Networkで構成される学習ネットワーク403の入力に、教師データの俯瞰画像を入力、プレイヤーとバスケットボール座標を出力とし、実施する。尚、図4では、学習ネットワーク403が単一の学習ネットワークからなる場合を説明したが、画像データ401から推定したいメタデータに応じて、複数の学習ネットワークを用意してもよい。
図5は、図4の学習ネットワーク403を学習し、本実施形態で利用するまでのシステム1全体の動作を説明するための図である。
システム1を利用するユーザは、クライアント端末104を操作して学習サーバ105で学習するための教師データの送信指示をデータ記憶部342へ行う。
データ記憶部342は、クライアント端末104からの教師データの送信指示に基づき、データ収集/提供部332へ学習するための教師データを要求する。
データ収集サーバ105は、学習サーバからの教師データの送信指示により、教師データをデータ記憶部342より抽出する。そして、データ収集/提供部332がデータ記憶部342へ教師データを送信する。
学習サーバ105は、データ記憶部342が受信し、保持している教師データで予知学習を行い、学習データを生成する。そして、学習サーバ105は、生成した学習データを画像処理装置103へ送信し、学習データ記憶部324が保持する。以降、画像処理装置103は記憶した学習データを元に推論処理を行うことになる。
続いて図6A乃至6Cを参照して、具体的な学習ネットワーク403の学習、および推論のフローについて説明する。
図6Bは、データ収集サーバ106の処理フローである。以下、同図を参照して、データ収集サーバ106のデータ収集/提供部332の処理を説明する。
S721にて、データ収集/提供部332は、学習サーバ105より要求があったか否かを判定する。要求があった場合、データ収集/提供部332は、S722にて、教師データの要求か否かを判定する。教師データ以外の要求の場合、データ収集/提供部332は、処理をS724に分岐し、受信要求の種類に応じた処理を行う。一方、教師データの要求であった場合、データ収集/提供部332は処理をS723に進める。本実施形態における教師データの要求には、バスケットコート全体が映る俯瞰画像と、その画像の中でのプレイヤーおよびバスケットボール座標の値が含まれる。S723にて、データ収集/提供部332は、要求された種類の教師データを、データ記憶部331より読み出し、学習サーバ105へ送信する。
学習サーバ105は、図4に示すようにNeural networkで構成される学習ネットワーク403の、教師データの俯瞰画像を入力とし、プレイヤーとバスケットボール座標を出力とする、学習データの生成を実施する。この時、GPU219はデータをより多く並列処理することで効率的な演算を行うことができるので、学習サーバ105はディープラーニングのような学習モデルを用いて複数回に渡り学習を行う場合には、GPU219で処理を行うことが有効である。
本実施形態では、学習サーバ105が行う学習処理は、CPU212に加えてGPU219を用いる。学習モデルを含む学習プログラムを実行する場合に、学習サーバ105はCPU212とGPU219が協働して演算を行うことで学習を行う。なお、学習処理はCPU212またはGPU219のみにより演算が行われても良い。
図6Cは、学習サーバ105の処理フローである。以下、同図を査証して、学習サーバ105の処理を説明する。
まず、S730にて、学習サーバ105は、データ収集サーバ106に教師データを要求する。そして、S731にて、学習サーバ105は、教師データの受信を待つ。教師データを受信した場合、データ記憶部342がそのデータをRAM214に格納する。
次に、S732にて、学習用データ生成部343は、受信したデータに対し、後述の動き強調処理を施した動き強調画像を生成し、RAM214に格納する。具体的な動き強調処理(S704)、並びに動き強調画像については、図11から図14を用いて後述する。
次に、S733にて、学習部344は、受信した教師データと、教師データに対応する学習設定値を学習モデルに入力する。ここで、学習モデルは、前述した学習ネットワーク403である。また、学習設定値は、本実施形態では学習ネットワーク403の入力信号に施すデータオーグメンテーションのパラメータ値とする。
S734にて、学習部344は、学習ネットワーク403により学習を実施する。学習サーバ105は、S735にて、全教師データにつての入力を終えたと判断した場合、本学習処理を終了する。
また、S734における学習部734による学習では、誤差検出部と、更新部と、を新たに備え、それらが実行してもよい。誤差検出部は、入力層に入力される入力データに応じてニューラルネットワークの出力層から出力される出力データと、教師データとの誤差を得る。誤差検出部は、損失関数を用いて、ニューラルネットワークからの出力データと教師データとの誤差を計算するようにしてもよい。
更新部は、誤差検出部で得られた誤差に基づいて、その誤差が小さくなるように、ニューラルネットワークのノード間の結合重み付け係数等を更新する。この更新部は、例えば、誤差逆伝播法を用いて、結合重み付け係数等を更新する。誤差逆伝播法は、上記の誤差が小さくなるように、各ニューラルネットワークのノード間の結合重み付け係数等を調整する手法である。
画像処理装置103は、HDD205とROM203に格納された学習サーバ生成の学習データから機械学習の推論処理を行う。
具体的には、CPU202に画像処理部322で処理された画像縮小信号が入力され、学習データとプログラムにより,CPU202にて推論処理を行う。推論処理は、学習モデルと同じくNeural networkで構成される。
図6Aに示すフローチャートは、画像処理装置103の処理フローを示している。以下、同図を参照して、画像処理装置103の処理を説明する。
まず、S701にて。学習データ記憶部324は、学習サーバ105から学習済みの学習データを受信し、RAM204に格納する。以降、推論処理を行う際は、RAM204に学習データが格納されているかを参照し、格納されている場合にはS702の処理に移行する。
S702にて、推定部323は、画像縮小信号151(俯瞰カメラ102で撮影されたフレームの縮小画像)が入力されたか否かを判定する。推定部323は、画像縮小信号151の入力があったと判定した場合は、処理をS703に進める。
S703にて、画像処理装置103は、ユーザが推論処理の開始を指示したか否かを判定し、推論処理の開始指示があったと判定した場合は処理をS704に進める。S704にて、画像処理装置103は、入力された画像縮小信号に対して動き強調処理を行う。そして、S705にて、推定部323は、RAM204に格納された学習データに前述の動き強調処理が施された動き強調画像を入力することで、推論処理を行う。そして、S706にて、推定部323は、プレイヤーとボールの座標位置を出力として取得し、記憶する。例えば、HDD205に、推定結果を格納する。具体的な動き強調処理(S705)、並びに、動き強調画像については、図11から図14を用いて後述する。
図7は、本システム1の実際の導入例を示す概略図である。
俯瞰カメラ102は、プレイヤー20とボール30から構成されるバスケットコート10が撮影画角108にすべて含まれる光学特性を持つものとする。また、俯瞰カメラ102が撮像する画像信号109の解像度は、水平3840画素×垂直2160画素とする。
俯瞰カメラ102は、撮像しえ得た画像を、俯瞰画像信号109として画像処理装置103へ供給する。画像の出力は、実施形態では、USBインタフェースを介して画像処理部103に供給されるが、例えば、俯瞰カメラ102が有する出力端子HDMI(High-Definition Multimedia Interface)(登録商標)や、SDI(Serial Digital Interface)から出力しても良い。また、俯瞰画像信号109は、俯瞰カメラ内の記録メディアに撮影、記録された画像をエクスポートした画像でもよい。
画像処理装置103は、俯瞰カメラ102から受信した俯瞰画像信号109に対し物体検出処理を適用し、俯瞰画像信号109内におけるプレイヤー、およびバスケットボールの座標と種類を取得する。そして、画像処理装置103は、取得した座標値を元に後述の撮影画像信号261を生成する。
図8は、俯瞰カメラ102が取得する俯瞰画像信号109の模式図を示している。前述の通り、俯瞰画像信号109には、撮影画角内にバスケットコート10が欠けることなく写り、また、バスケットコート10におけるプレイヤー20、およびボール30の動きが分かる映像となる。
図9は、画像処理装置103における画像処理部322と推定部323の具体的な処理を説明する図である。なお、推定部323は、図9では、俯瞰画像信号109における選手、およびボールを検出する物体検出部240として示している。
まず、画像縮小部210は、俯瞰カメラ102からの俯瞰画像信号109を入力し、縮小処理を行い、画像縮小信号151を出力する。実施形態では、俯瞰画像信号109の画像解像度は、水平3840画素、垂直2160画素であるが、物体検出部240に前記解像度を入力すると、解像度が大きいため、物体検出部240の処理負荷が大きくなってしまう。実施形態の画像縮小部210は、俯瞰画像信号109の解像度である水平3840画素、垂直2160画素を、水平400画素、垂直400画素の画像に縮小変換し、画像縮小信号151として出力する。なお、縮小後の画像解像度は、上記に限らず、物体検出部240の処理能力によって決定する、もしくは、ユーザがその縮小率を設定しても良い。
動き成分抽出部220は、現在フレーム、及び、過去に入力した計3フレームの画像縮小信号151を演算することで、現在のフレームにおける動き成分を抽出す、抽出した動き成分を、動き成分画像信号221として、動き成分演算部230へ出力する。
動き成分演算部230は、動き成分画像信号221と現在のフレームにおける画像縮小信号151を演算することで、動き成分が強調された動き成分強調画像信号231を取得し、物体検出部240へ出力する。
物体検出部240は、動き成分強調画像信号231に対して推論処理を行い、プレイヤー20、およびボール30の座標と種類を認識する。推論処理による検出結果は、図10に示すように矩形座標値の形式で表される。プレイヤーの座標値は、図10に示すように複数検出され、物体検出部240から複数プレイヤー座標152として出力する。
図10に示すボールの座標値は、物体検出部240からボール座標153として出力する。ここで、プレイヤーとボールの座標値は、外接矩形(もしくは外接矩形を予め設定した値だけ四方に拡大した矩形)の左上、左下、右上、右下の座標位置とする。
物体検出部240は、複数のプレイヤー座標152、およびボール座標153をまとめてオブジェクト座標241として、撮影画角決定部250に供給する。
撮影画角決定部250は、オブジェクト座標241に含まれる複数プレイヤー座標152、およびボール座標153を元に撮影画角を決定するパラメータを算出する。撮影画角決定部250は、複数プレイヤー座標152、およびボール座標153の全てを包含する画角サイズの中で、x座標の最小値(トリミングの左端)と最大値(トリミングの右端)の差分とその重心を計算し、撮影パラメータ251としてトリミング部260へ送信する。前述の差分値は画角の水平幅、前述の重心は画角の中心とそれぞれみなすことによって、それを元に決められた撮影画像信号261には、プレイヤー20、およびボール30をすべて含む撮影画角を実現することが可能である。
トリミング部260は、撮影パラメータ251に含まれる前述の画角の水平幅、および画角の中心を元に、縮小していない俯瞰画像信号109から切り出し映像を生成し、撮影画像信号261として出力する。
ここで、本実施形態の特徴的な処理となる、動き成分抽出部220、および、動き成分演算部230の具体的な処理内容について、図11のフローチャートを参照して説明する。図11のフローチャートは、画像処理装置103が、画像縮小信号151を用いて動き成分強調画像信号231を生成し、物体検出部240へ出力するまでの処理について示している。
S301およびS302にて、動き成分抽出部220が、RAM204より、複数の時間の撮影フレームを取得し、それらの撮影フレームのフレーム演算処理により、画素値の変化を抽出する。図12(a)乃至(c)は、動き成分抽出部220のフレーム演算処理の結果を図示したものであり、簡単のため画像縮小信号151の一部で以降の処理の説明を行う。図12(a)はある時間での画像縮小信号151、図12(b)はある時間よりも数フレーム前の俯瞰画像信号109をそれぞれ示している。図12(a)と図12(b)には数フレームの時間差があるため、バスケットコート10の位置は変わらないが、プレイヤー20、およびボール30の位置は変化する。この図12(a)と図12(b)のフレーム間差分を計算し、その絶対値を算出することで、図12(c)に示すような、撮影映像中のプレイヤー20cやボール30cのような画像縮小信号151中の動き成分のみを取得することが可能である。なお、本実施形態では10フレームの時間間隔を空けて取得した縮小画像信号に対してフレーム間差分処理を行うものとするが、この限りではなく、差分処理を適用する所定時間が空いていれば良い。
続いて図13(a)乃至(d)を参照して、S301からS304までの動き成分抽出部220による現フレームにおける動き成分画像信号221の生成方法を説明する。図12(a)乃至(c)と同様、簡単のため画像縮小信号151の一部で以降の処理の説明を行う。
S301にて、動き成分抽出部220は、図13(a)に示すフレーム差分画像信号151dを、現在フレームの縮小画像と10フレーム過去の縮小画像の差分を算出することで得る。動き成分抽出部220が、フレーム差分画像信号151dを取得した後、処理はS302へ移行する。
S302にて、動き成分抽出部220は、図13(b)に示すフレーム差分画像信号151eを、10フレーム過去の縮小画像と20フレーム過去の縮小画像の差分を算出することで得る。
S303にて、動き成分抽出部220は、フレーム差分画像信号151dとフレーム差分画像信号151eの論理積を計算することで、10フレーム過去のフレームにおける動き成分を表す、フレーム差分画像信号151fを取得する(図13(c))。動き成分抽出部220がフレーム差分画像信号151fを取得した後、処理はS304へ移行する。
S304にて、動き成分抽出部220は、フレーム差分信号151dよりフレーム差分信号151fを減算することで、現在のフレームにおける動き成分のみを表すフレーム差分画像信号151gを取得する(図13(d))。動き成分抽出部220は、このフレーム差分画像信号151gを動き成分画像信号221として、動き成分演算部230に出力した後、S305へ処理を移行する。
続いて、S305にて、動き成分演算部230は、現在フレームの画像縮小信号151とフレーム差分信号151gを加算することで動き成分強調画像信号231を生成し、物体検出部240へ出力する。
図14(a)乃至(c)を参照し、動き成分演算部230の具体的な処理内容について説明する。
動き成分演算部230では先ず、図14(a)に示す現在フレームの画像縮小信号151と図14(b)に示す現在フレームにおける動き成分を示す動き成分画像信号221を画素ごとに値を加算することによって、図14(c)に示す動き成分が強調された動き成分強調画像信号231を取得する。動き成分演算部230は、動き成分強調画像信号231を物体検出部240に出力する。この時、物体検出部240は、動き成分抽出部220、および動き成分演算部230の前述の処理を同様施した画像で学習をさせた学習ネットワーク403を用いて推論処理を行うことで、動き成分を加味した推論処理が可能となる。
なお、本実施形態では動き成分演算部230では現在フレームの画像縮小信号151aと現在フレームにおける動き成分強調画像信号231を画素ごとに値を加算する例で説明を行ったが、この限りではない。例えば、現在フレームの画像縮小信号151aと現在フレームにおける動き成分強調画像信号231を画素ごとに値を乗算することや、動き成分強調画像信号231の値がある閾値を超えた画素のみ前述の演算を行う、等も考えられる。つまり、動き成分抽出部220が抽出した動き成分強調画像信号231に基づいて、現フレームにおける動き領域の強調ができる形態であれば、本技術は適用可能である。
以上、図7の構成に関する本発明の第一実施形態の詳細について説明した。
しかし、本発明はこれだけに限定されず、バスケットボールとは違う他のスポーツに適用しても良い。例えば、サッカーに適応した場合、ボールが小さく映ることを考慮し、俯瞰カメラを複数用意し、前述の一連の処理を行った後の検出結果を結合してもよい。
ま た、本発明はこれだけに限定されず、物体検出部240において、プレイヤーとボールの検出が途中で外れてしまった場合、外れる直前の座標値を使用しても良い。
プレイヤー同士が重複する場合や、ボールがプレイヤーの後ろに隠れてしまった場合、検出が外れてしまう場合があるためである。
このように、コート全体の撮影画像から動き成分を強調した映像を生成し、それを元に物体検出を行うことで精度を向上することが可能となる。
なお、本実施形態ではトリミング部260が物体検出の結果に基づいて、俯瞰画像信号109からプレイヤー20やボール30が含まれる撮影画角で切り出す例を説明したが、撮影画像信号261を取得する方法はこの限りではない。例えば、新たにPTZカメラを用意して、トリミング部260の代わりに制御値算出部を新たに用意し、プレイヤー20やボール30の検出結果に応じてPTZ(パン、チルト、ズームが可変)カメラの制御を行うことで、光学的に撮影画像信号を取得してもよい。この方法の場合、トリミングによる解像度低下を防ぎながら、撮影画像信号261を生成することが可能である。
[第2実施形態]
第2実施形態では、ユーザがバスケットボールに関するオブジェクトの検出対象領域を指定することで、オブジェクトの検出精度をより向上させる方法について説明する。
図15は、第2実施形態のシステム1が実際に導入される際の概略図である。基本的な各説明内容は第1実施形態と同様であるため、本第2実施形態では差分となる制御PC107について説明する。
制御PC107は、画像処理装置103と接続され、画像処理装置103経由で俯瞰カメラ102の撮影画像を取得し、ユーザはその撮影画像における物体検出部240の検出対象領域を選択する。制御PC107は、選択された検出対象領域をユーザ指定領域40として、画像処理装置103へ送信する。なお、制御PC107は、クライアント端末104で代替させても良い。
図16は俯瞰カメラ102が撮影した俯瞰画像信号109と、制御PC107のユーザが設定したユーザ指定領域40の位置関係を図示したものである。ユーザは、制御PC107が有するポインティングデバイス等を操作してユーザ指定領域40を設定するものとする。ユーザ指定領域40は、図16に示す通り、バスケットコート10、プレイヤー20、およびボール30が含まれるような形で指定されることが望ましい。これにより、後述の物体検出部240による物体検出処理時、観客席のような実試合に関するオブジェクトの存在しえない領域での物体の誤検出を防ぐことが可能である。また、同情報により、後述の色抽出部280は、プレイヤー20およびボール30が存在する領域の色成分を取得することが可能である。
図17は、画像処理装置103が有する画像処理部322の具体的な処理を説明する図である。本第2実施形態では、第1実施形態と同様の部分についての説明を省略し、本第2実施形態に係る説明のみを行う。
まず、制御PC107を介してユーザが俯瞰カメラ102の俯瞰画像信号109上でユーザ指定領域を指定すると、その指定された領域がユーザ指定領域269として、検出領域入力部270に入力される。検出領域入力部270は、入力したユーザ指定領域269を検出対象領域271として、色抽出部280及び物体検出部240へ出力する。
本第2の本実施形態では、検出対象領域271は矩形で選択されるものとし、矩形選択領域の左上の頂点の座標と右下の頂点の座標を俯瞰画像信号109と同じ解像度で表現するものとする。なお、検出対象領域271は、他にも、台形や他の多角形、自由形状などで出力をしてもよい。また、本第2実施形態では、制御PC107を介してユーザが検出対象領域を選択するものとして説明を行ったが、制御PC107が俯瞰カメラ102の俯瞰画像信号109より自動で選択をしてもよい。例えば、俯瞰画像信号109に対してエッジ処理を適用することでスポーツ競技のフィールド(コート)を示す線を検出し、それを含むような検出対象領域を制御PC107が決定する、等が考えられる。
続いて、色抽出部280は、画像縮小信号151における検出対象領域271で指定された領域内に該当する画素の色成分を抽出色成分情報281として生成し、動き成分演算部230へ出力する。本実施形態では、前述の色成分とはRGBの3成分で表現された画像縮小信号151の検出対象領域271に該当する領域のRGB成分それぞれのヒストグラムであるものとする。なお、色成分の算出は別の方法でもよく、RGB成分をHSV空間のように別の色空間に変換したのちに各成分のヒストグラムを取得してもよく、また検出対象領域271の該当領域内のRGB成分の各平均値など、検出対象領域271の該当領域内の色成分の特徴を表現できればよい。
続いて、動き成分演算部230は、画像縮小信号151と動き成分画像信号221、抽出色成分情報281を元に動き成分強調画像信号231を生成し、物体検出部240へ出力する。この時、動き成分演算部230は、抽出色成分情報281を元に、画像縮小信号151に対して演算する色成分を決定する。本実施形態では、動き成分演算部230は3つの色成分のヒストグラムの最頻値をそれぞれ求め、その値が最も低い色成分に対して演算処理を適用することで、動き成分強調画像信号231を生成し、物体検出部240へ出力する。ここでの演算処理は、第1実施形態と同様、加算による動き強調処理とするが、この限りではない。例えば、動き成分演算部230は動き成分画像信号221のすべての画素値を最小値1、最大値2にスケーリングし、その値を画像縮小信号151に画素ごとに乗算をしてもよく、画像縮小信号151における動き成分が強調できる形であれば演算内容は問わない。
以上の処理により、動き成分演算部230は、画素値の飽和を抑えつつ、また、動きのある領域と動きのない領域で所定の色成分の画素値のコントラストを増大させた動き成分強調画像信号231を生成することが可能となる。
そして、物体検出部240は、動き成分強調画像信号231に対して推論処理を行い、プレイヤー20、およびボール30の座標と種類を認識する。推論処理による検出結果は、図10に示すように矩形座標値となる。プレイヤーの座標値は、図10に示すように複数検出され、物体検出部240から複数プレイヤー座標152として出力する。なお、物体検出部240は検出領域入力部270より入力された検出対象領域271に該当する領域外にプレイヤー20が検出された場合、その検出結果を削除したものをオブジェクト座標241として撮影画角決定部250に出力する。これにより、オブジェクト座標241には観客席などに発生してしまう可能性のあるプレイヤーの誤検出を低減することが可能である。
なお、図17に示される他のブロックの処理内容については、第1実施形態に同じであるため、説明を割愛する。
以上のように、コート全体の撮影画像から動き成分を強調した映像を生成し、それを元に物体検出を行う際、プレイヤーやボールが動くコート領域をあらかじめ検出領域として取得することで、検出精度を向上することが可能となる。
なお、本実施形態では、制御PC107を介して、俯瞰画像信号109中のコート領域を指定し、その色成分情報を取得するものとして説明を行ったが、物体検出部240で検出を行いたいオブジェクトを一つ以上選択するような形とすることも可能である。例えば、俯瞰画像信号109中のバスケットボールの描写がある領域を選択した場合、その後の処理で色抽出部280は俯瞰画像信号109中のバスケットボールの色成分情報を取得することが可能である。そして、動き成分演算部230は、前述のバスケットボールの色成分情報と近い色成分情報を持つ画素値にのみ、動き成分の強調処理を行うことで、バスケットボールにのみ動き強調処理を適用した動き成分強調画像信号231を取得することが可能となる。この動き成分強調画像信号231を用いて物体検出部240は、俯瞰画像信号109中のバスケットボールの検出をより高精度に行うことが可能となる。
なお、上述した各処理部のうち、物体検出部240については、機械学習された学習済みモデルを用いて処理を実行したが、ルックアップテーブル(LUT)等のルールベースの処理を行ってもよい。その場合には、例えば、入力データと出力データとの関係をあらかじめLUTとして作成する。そして、この作成したLUTを画像処理装置103のメモリに格納しておくとよい。物体検出部240の処理を行う場合には、この格納されたLUTを参照して、出力データを取得することができる。つまりLUTは、前記処理部と同等の処理をするためのプログラムとして、CPUあるいはGPUなどと協働で動作することにより、前記処理部の処理を行う。
[第3実施形態]
第3実施形態では、学習サーバ105が教師データに施すデータオーグメンテーションの一部を、動き強調処理より前の工程で実施することで、少ない教師データでもオブジェクトの検出精度をより向上させる方法について説明する。
図18は、第3実施形態における学習サーバ105の処理フローである。基本的な各説明内容は第1実施形態と同様であるため、本第3実施形態では差分となる学習サーバ105について説明する。
まず、S730にて、学習サーバ105は、データ収集サーバ106に教師データを要求する。そして、S731にて、学習サーバ105は、教師データの受信を待つ。教師データを受信した場合、学習サーバ105は、データ記憶部342を制御して、そのデータをRAM214に格納した後、処理をS736に移行する。
次に、S736にて、学習サーバ105は学習用データ生成部343を制御し、受信したデータに対し、色調変更処理を施した色調変更画像を生成させ、RAM214に格納する。ここで、色調変更処理は、色相、彩度、明度のうち、少なくとも1つを変更する処理であればよい。また、RGBやYUVといった表色系で表される色成分のうち少なくとも1つを変更する処理であってもよい。これらの変更手段としては、ゲイン処理、オフセット処理、ガンマ処理、LUT(Look Up Table)を用いた変換処理のいずれでもよい。学習用データ生成部343が色調変更画像をRAM214に格納した後、学習サーバ105は処理をS732に移行する。
次に、S732にて、学習サーバ105は学習用データ生成部343を制御し、受信したデータに対し、前述の動き強調処理を施した動き強調画像を生成させ、RAM214に格納させる。学習用データ生成部343が動き強調処理に用いる所定の時間間隔をもって連続する複数の撮影フレームは、S736で同一の色調変更処理が実行されているものとする。学習用データ生成部343が、動き強調画像をRAM214に格納した後、学習サーバ105は処理をS737に移行する。
次に、S737にて、学習サーバ105は、学習部344を制御し、受信したデータを学習モデルに入力させる。ここで、学習モデルは、前述した学習ネットワーク403である。学習部344が、教師データを学習モデルに入力した後、学習サーバ105は処理をS738に移行する。
次に、S738にて、学習サーバ105は、学習部344を制御し、学習ネットワーク403により学習を実施させる。学習部344が、学習ネットワーク403の学習を実施した後、学習サーバ105は処理をS735に移行する。
最後に、S735にて、学習サーバ105は、全教師データについての入力を終えたか否かを判定し、終えたと判断した場合は本学習処理を終了する。
なお、S736にて、学習用データ生成部343は、受信したデータに対し、色調変更処理を実行しているが、受信したデータに施す処理はこの限りではない。例えば、ランダムな位置の画素値を変更するノイズ付加処理を用いてもよい。また、ノイズを除去するデノイズ処理を用いてもよい。また、アンシャープマスク方式等によるシャープネス強調処理を用いてもよい。また、ローパスフィルタ方式等による平滑化処理を用いてもよい。また、領域置換処理を用いてもよい。ここで、領域置換とは、対象のフレームに対し、所定の条件に合致する部分領域を別の画像に変更する処理である。例えば、ある画像における特定の画素値の領域や前フレームから変化のない領域を別の画像に置換する処理としてもよい。あるいは、対象の画像について被写体と背景画像を分離し、背景画像の領域を他の画像に変更する処理としてもよい。また、色調変更処理を、上記複数処理の組み合わせに置き換えてもよい。
また、S737にて、学習部344は、第1実施形態と同様に教師データに対応する学習設定値を学習モデルに入力してもよく、S738にて、学習部344は、受信したデータに対し、学習設定値に準じたデータオーグメンテーションの処理を実行してもよい。ここで、学習設定値に準じたデータオーグメンテーションの処理は、前述した色調変更処理、ノイズ付加、デノイズ処理、シャープネス、平滑化、領域置換とは異なる処理を実行するとよく、例えば、形状変形処理が挙げられる。ここで、形状変形処理は、反転、トリミング、回転、平行移動、拡大縮小、せん断、射影変換のうち、少なくとも1つを実行する処理である。
以上のように、教師データに施すデータオーグメンテーションの一部を動き強調処理より前の工程で実施することで、動き強調処理の結果を書き換えずに教師データを拡張できるため、検出精度を向上することが可能となる。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本明細書の開示は、以下の物体追跡装置、方法及びプログラムを含む。
(項目1)
映像中の所定のオブジェクトを検出する画像処理装置であって、
前記映像を構成するフレームの画像から、予め設定されたサイズの縮小画像を生成する縮小手段と、
該縮小手段で得た現フレームを表す現縮小画像、当該現縮小画像に対して所定時間前の第1の縮小画像、及び、前記第1の縮小画像に対して所定時間前の第2の縮小画像とに基づき、動き成分強調画像を生成する生成手段と、
該生成手段で得た動き成分強調画像を用いて、オブジェクトの位置を判定する判定手段と
を有することを特徴とする画像処理装置。
(項目2)
前記映像は、スポーツ競技のフィールドを俯瞰する映像であることを特徴とする項目1に記載の画像処理装置。
(項目3)
前記映像を構成するフレームから、前記判定手段で判定したオブジェクトそれぞれの位置を包含する領域を抽出するトリミング手段を更に有することを特徴とする項目1又は2に記載の画像処理装置。
(項目4)
前記判定手段は、動き成分強調画像と当該動き成分強調画における各オブジェクトの位置を示す情報で構成される教師データに基づいて作成した学習データを用いて、前記生成手段で生成した前記動き成分強調画像におけるオブジェクトの位置を判定する
ことを特徴とする項目1乃至3のいずれか1つに記載の画像処理装置。
(項目5)
前記生成手段は、
前記現縮小画像と前記第1の縮小画像の差分を示す第1の差分画像を生成し、
前記第1の縮小画像と前記第2の縮小画像との差分から第2の差分画像を生成し、
前記第1の差分画像と前記第2の差分画像とを論理積で得た第3の差分画像を生成し、
前記第1の差分画像から前記第3の差分画像を減じることで動き成分画像を生成し、
前記現縮小画像に前記動き成分画像を加算することで前記動き成分強調画像を生成する
ことを特徴とする項目1乃至4のいずれか1項に記載の画像処理装置。
(項目6)
前記映像におけるオブジェクトを検出する領域を入力する領域入力手段と、
該領域入力手段で入力された領域内における前記オブジェクトの色を抽出する抽出手段とを更に有し、
前記生成手段は、前記抽出手段で抽出した色を更に利用して、前記動き成分強調画像を生成することを特徴とする項目5に記載の画像処理装置。
(項目7)
映像中の所定のオブジェクトを検出する画像処理装置の制御方法であって、
前記映像を構成するフレームの画像から、予め設定されたサイズの縮小画像を生成する縮小工程と、
該縮小工程で得た現フレームを表す現縮小画像、当該現縮小画像に対して所定時間前の第1の縮小画像、及び、前記第1の縮小画像に対して所定時間前の第2の縮小画像とに基づき、動き成分強調画像を生成する生成工程と、
該生成工程で得た動き成分強調画像を用いて、オブジェクトの位置を判定する判定工程と
を有することを特徴とする画像処理装置の制御方法。
(項目8)
コンピュータが読み込み実行することで、前記コンピュータに、項目1乃至7のいずれか1つに記載の装置が有する各手段として機能させるためのプログラム。
(項目9)
スポーツ競技のフィールドを俯瞰する映像を撮影するカメラと、該カメラで得た映像から出力の対象の領域を取り出す画像処理を行う画像処理装置とを有するシステムであって、
前記画像処理装置は、
前記カメラから受信した映像を構成するフレームの画像から、予め設定されたサイズの縮小画像を生成する縮小手段と、
該縮小手段で得た現フレームを表す現縮小画像、当該現縮小画像に対して所定時間前の第1の縮小画像、及び、前記第1の縮小画像に対して所定時間前の第2の縮小画像とに基づき、動き成分強調画像を生成する生成手段と、
該生成手段で得た動き成分強調画像を用いて、オブジェクトの位置を判定する判定手段と、
該判定手段で判定したオブジェクトの位置から、前記映像から切り出す領域を決定し、トリミングを行うトリミング手段とを有する
ことを特徴とするシステム。
(項目10)
教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
前記教師データを構成するフレーム画像の色調を変更し、色調変更画像を生成する変更工程と、
該変更工程で得た現フレームを表す現変更画像、当該現変更画像に対して所定時間前の第1のフレーム画像、及び、前記第1のフレーム画像に対して所定時間前の第2のフレーム画像に基づき、動き成分強調画像を生成する生成工程を有し、
該変更工程は、該生成工程より前の工程で実施されることを特徴とする学習データ生成方法。
(項目11)
教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
前記教師データを構成するフレーム画像にノイズを付加し、ノイズ付加画像を生成する付加工程と、
該付加工程で得た現フレームを表す現付加画像、当該現付加画像に対して所定時間前の第1のフレーム画像、及び、前記第1のフレーム画像に対して所定時間前の第2のフレーム画像に基づき、動き成分強調画像を生成する生成工程を有し、
該付加工程は、該生成工程より前の工程で実施されることを特徴とする学習データ生成方法。
(項目12)
教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
前記教師データを構成するフレーム画像のノイズを除去し、ノイズ除去画像を生成する除去工程と、
該除去工程で得た現フレームを表す現除去画像、当該現除去画像に対して所定時間前の第1のフレーム画像、及び、前記第1のフレーム画像に対して所定時間前の第2のフレーム画像に基づき、動き成分強調画像を生成する生成工程とを有し、
該除去工程は、該生成工程より前の工程で実施されることを特徴とする学習データ生成方法。
(項目13)
教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
前記教師データを構成するフレーム画像にシャープネス処理を実行し、シャープネス画像を生成する拡張工程と、
該拡張工程で得た現フレームを表す現拡張画像、当該現拡張画像に対して所定時間前の第1のフレーム画像、及び、前記第1のフレーム画像に対して所定時間前の第2のフレーム画像に基づき、動き成分強調画像を生成する生成工程を有し、
該拡張工程は、該生成工程より前の工程で実施されることを特徴とする学習データ生成方法。
(項目14)
教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
前記教師データを構成するフレーム画像に平滑化処理を実行し、平滑化画像を生成する拡張工程と、
該拡張工程で得た現フレームを表す現拡張画像、当該現拡張画像に対して所定時間前の第1のフレーム画像、及び、前記第1のフレーム画像に対して所定時間前の第2のフレーム画像に基づき、動き成分強調画像を生成する生成工程を有し、
該拡張工程は、該生成工程より前の工程で実施されることを特徴とする学習データ生成方法。
(項目15)
教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
前記教師データを構成するフレーム画像の一部領域を前記フレーム画像と異なる画像で置換し、領域置換画像を生成する置換工程と、
該置換工程で得た現フレームを表す現置換画像、当該現置換画像に対して所定時間前の第1のフレーム画像、及び、前記第1のフレーム画像に対して所定時間前の第2のフレーム画像に基づき、動き成分強調画像を生成する生成工程を有し、
該置換工程は、該生成工程より前の工程で実施されることを特徴とする学習データ生成方法。
(項目16)
教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
前記教師データを構成するフレーム画像で得た現フレームを表す現フレーム画像、当該現フレーム画像に対して所定時間前の第1のフレーム画像、及び、前記第1のフレーム画像に対して所定時間前の第2のフレーム画像に基づき、動き成分強調画像を生成する生成工程と、
当該動き成分強調画像の形状を変形し、形状変形画像を生成する変形工程を有し、
該変形工程は、該生成工程より後の工程で実施されることを特徴とする学習データ生成方法。
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
210…画像縮小部、220…動き成分抽出部、230…動き成分演算部、240…物体検出部、250…撮影画角決定部、260…トリミング部、270…検出領域入力部、280…色抽出部

Claims (16)

  1. 映像中の所定のオブジェクトを検出する画像処理装置であって、
    前記映像を構成するフレームの画像から、予め設定されたサイズの縮小画像を生成する縮小手段と、
    該縮小手段で得た現フレームを表す現縮小画像、当該現縮小画像に対して所定時間前の第1の縮小画像、及び、前記第1の縮小画像に対して所定時間前の第2の縮小画像とに基づき、動き成分強調画像を生成する生成手段と、
    該生成手段で得た動き成分強調画像を用いて、オブジェクトの位置を判定する判定手段と
    を有することを特徴とする画像処理装置。
  2. 前記映像は、スポーツ競技のフィールドを俯瞰する映像であることを特徴とする請求項1に記載の画像処理装置。
  3. 前記映像を構成するフレームから、前記判定手段で判定したオブジェクトそれぞれの位置を包含する領域を抽出するトリミング手段を更に有することを特徴とする請求項1に記載の画像処理装置。
  4. 前記判定手段は、動き成分強調画像と当該動き成分強調画における各オブジェクトの位置を示す情報で構成される教師データに基づいて作成した学習データを用いて、前記生成手段で生成した前記動き成分強調画像におけるオブジェクトの位置を判定する
    ことを特徴とする請求項1に記載の画像処理装置。
  5. 前記生成手段は、
    前記現縮小画像と前記第1の縮小画像の差分を示す第1の差分画像を生成し、
    前記第1の縮小画像と前記第2の縮小画像との差分から第2の差分画像を生成し、
    前記第1の差分画像と前記第2の差分画像とを論理積で得た第3の差分画像を生成し、
    前記第1の差分画像から前記第3の差分画像を減じることで動き成分画像を生成し、
    前記現縮小画像に前記動き成分画像を加算することで前記動き成分強調画像を生成する
    ことを特徴とする請求項1乃至4のいずれか1項に記載の画像処理装置。
  6. 前記映像におけるオブジェクトを検出する領域を入力する領域入力手段と、
    該領域入力手段で入力された領域内における前記オブジェクトの色を抽出する抽出手段とを更に有し、
    前記生成手段は、前記抽出手段で抽出した色を更に利用して、前記動き成分強調画像を生成することを特徴とする請求項5に記載の画像処理装置。
  7. 映像中の所定のオブジェクトを検出する画像処理装置の制御方法であって、
    前記映像を構成するフレームの画像から、予め設定されたサイズの縮小画像を生成する縮小工程と、
    該縮小工程で得た現フレームを表す現縮小画像、当該現縮小画像に対して所定時間前の第1の縮小画像、及び、前記第1の縮小画像に対して所定時間前の第2の縮小画像とに基づき、動き成分強調画像を生成する生成工程と、
    該生成工程で得た動き成分強調画像を用いて、オブジェクトの位置を判定する判定工程と
    を有することを特徴とする画像処理装置の制御方法。
  8. コンピュータが読み込み実行することで、前記コンピュータに、請求項7に記載の方法が有する各工程を実行させるためのプログラム。
  9. スポーツ競技のフィールドを俯瞰する映像を撮影するカメラと、該カメラで得た映像から出力の対象の領域を取り出す画像処理を行う画像処理装置とを有するシステムであって、
    前記画像処理装置は、
    前記カメラから受信した映像を構成するフレームの画像から、予め設定されたサイズの縮小画像を生成する縮小手段と、
    該縮小手段で得た現フレームを表す現縮小画像、当該現縮小画像に対して所定時間前の第1の縮小画像、及び、前記第1の縮小画像に対して所定時間前の第2の縮小画像とに基づき、動き成分強調画像を生成する生成手段と、
    該生成手段で得た動き成分強調画像を用いて、オブジェクトの位置を判定する判定手段と、
    該判定手段で判定したオブジェクトの位置から、前記映像から切り出す領域を決定し、トリミングを行うトリミング手段とを有する
    ことを特徴とするシステム。
  10. 教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
    前記教師データを構成するフレーム画像の色調を変更し、色調変更画像を生成する変更工程と、
    該変更工程で得た現フレームを表す現変更画像、当該現変更画像に対して所定時間前の第1のフレーム画像、及び、前記第1のフレーム画像に対して所定時間前の第2のフレーム画像に基づき、動き成分強調画像を生成する生成工程を有し、
    該変更工程は、該生成工程より前の工程で実施されることを特徴とする学習データ生成方法。
  11. 教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
    前記教師データを構成するフレーム画像にノイズを付加し、ノイズ付加画像を生成する付加工程と、
    該付加工程で得た現フレームを表す現付加画像、当該現付加画像に対して所定時間前の第1のフレーム画像、及び、前記第1のフレーム画像に対して所定時間前の第2のフレーム画像に基づき、動き成分強調画像を生成する生成工程を有し、
    該付加工程は、該生成工程より前の工程で実施されることを特徴とする学習データ生成方法。
  12. 教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
    前記教師データを構成するフレーム画像のノイズを除去し、ノイズ除去画像を生成する除去工程と、
    該除去工程で得た現フレームを表す現除去画像、当該現除去画像に対して所定時間前の第1のフレーム画像、及び、前記第1のフレーム画像に対して所定時間前の第2のフレーム画像に基づき、動き成分強調画像を生成する生成工程とを有し、
    該除去工程は、該生成工程より前の工程で実施されることを特徴とする学習データ生成方法。
  13. 教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
    前記教師データを構成するフレーム画像にシャープネス処理を実行し、シャープネス画像を生成する拡張工程と、
    該拡張工程で得た現フレームを表す現拡張画像、当該現拡張画像に対して所定時間前の第1のフレーム画像、及び、前記第1のフレーム画像に対して所定時間前の第2のフレーム画像に基づき、動き成分強調画像を生成する生成工程を有し、
    該拡張工程は、該生成工程より前の工程で実施されることを特徴とする学習データ生成方法。
  14. 教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
    前記教師データを構成するフレーム画像に平滑化処理を実行し、平滑化画像を生成する拡張工程と、
    該拡張工程で得た現フレームを表す現拡張画像、当該現拡張画像に対して所定時間前の第1のフレーム画像、及び、前記第1のフレーム画像に対して所定時間前の第2のフレーム画像に基づき、動き成分強調画像を生成する生成工程を有し、
    該拡張工程は、該生成工程より前の工程で実施されることを特徴とする学習データ生成方法。
  15. 教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
    前記教師データを構成するフレーム画像の一部領域を前記フレーム画像と異なる画像で置換し、領域置換画像を生成する置換工程と、
    該置換工程で得た現フレームを表す現置換画像、当該現置換画像に対して所定時間前の第1のフレーム画像、及び、前記第1のフレーム画像に対して所定時間前の第2のフレーム画像に基づき、動き成分強調画像を生成する生成工程を有し、
    該置換工程は、該生成工程より前の工程で実施されることを特徴とする学習データ生成方法。
  16. 教師データに基づいて学習モデルに入力する学習データを生成する学習データ生成方法であって、
    前記教師データを構成するフレーム画像で得た現フレームを表す現フレーム画像、当該現フレーム画像に対して所定時間前の第1のフレーム画像、及び、前記第1のフレーム画像に対して所定時間前の第2のフレーム画像に基づき、動き成分強調画像を生成する生成工程と、
    当該動き成分強調画像の形状を変形し、形状変形画像を生成する変形工程を有し、
    該変形工程は、該生成工程より後の工程で実施されることを特徴とする学習データ生成方法。
JP2022141014A 2022-03-22 2022-09-05 画像処理装置及びその制御方法及びプログラム及びシステム及び学習データ生成方法 Pending JP2023140257A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/048566 WO2023181580A1 (ja) 2022-03-22 2022-12-28 画像処理装置及びその制御方法及びプログラム及びシステム及び学習データ生成方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022046036 2022-03-22
JP2022046036 2022-03-22

Publications (1)

Publication Number Publication Date
JP2023140257A true JP2023140257A (ja) 2023-10-04

Family

ID=88204972

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022141014A Pending JP2023140257A (ja) 2022-03-22 2022-09-05 画像処理装置及びその制御方法及びプログラム及びシステム及び学習データ生成方法

Country Status (1)

Country Link
JP (1) JP2023140257A (ja)

Similar Documents

Publication Publication Date Title
GB2607749A (en) Fine-grained visual recognition in mobile augmented reality
EP3021575B1 (en) Image processing device and image processing method
JP5213486B2 (ja) 対象物追跡装置および対象物追跡方法
KR101468351B1 (ko) 대상물 추적 장치, 대상물 추적 방법 및 제어 프로그램
US11184558B1 (en) System for automatic video reframing
CN112308095A (zh) 图片预处理及模型训练方法、装置、服务器及存储介质
US9767568B2 (en) Image processor, image processing method, and computer program
US20110235905A1 (en) Image processing apparatus and method, and program
JP2009522591A (ja) 関心領域を追跡することによってビデオカメラの自動焦点を制御するための方法および装置
US20190370977A1 (en) Moving object detection apparatus, moving object detection method and program
JPWO2009113231A1 (ja) 画像処理装置および画像処理方法
CN110647836B (zh) 一种鲁棒的基于深度学习的单目标跟踪方法
CN111723713B (zh) 一种基于光流法的视频关键帧提取方法及系统
JP4496992B2 (ja) 動物体アップフレーム検出方法及びプログラム及びプログラムを格納した記憶媒体及び動物体アップショット検出方法及び動物体アップフレームあるいはショット検出方法及びプログラム及びプログラムを格納した記憶媒体
US11503272B2 (en) Information processing apparatus, information processing method and storage medium
CN114037938B (zh) 一种基于NFL-Net的低照度目标检测方法
US20200143582A1 (en) Image processing apparatus, image processing method, and storage medium
JP2021071794A (ja) 主被写体判定装置、撮像装置、主被写体判定方法、及びプログラム
JP6819785B2 (ja) 位置推定装置、位置推定方法及びプログラム
US11127141B2 (en) Image processing apparatus, image processing method, and a non-transitory computer readable storage medium
CN114419102B (zh) 一种基于帧差时序运动信息的多目标跟踪检测方法
JP2020119250A (ja) オブジェクト抽出方法および装置
CN107169997B (zh) 面向夜间环境下的背景减除方法
WO2023181580A1 (ja) 画像処理装置及びその制御方法及びプログラム及びシステム及び学習データ生成方法
US11361448B2 (en) Image processing apparatus, method of controlling image processing apparatus, and storage medium