JP2023180468A

JP2023180468A - 画像処理装置及び方法、撮影システム、プログラム、記憶媒体

Info

Publication number: JP2023180468A
Application number: JP2022093818A
Authority: JP
Inventors: 賢太刀川; Kenta Tachikawa
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2023-12-21

Abstract

【課題】広い画角の画像から、その画角に対して相対的に小さいオブジェクトを検出する場合の誤検出を低減する。
【解決手段】撮影映像を取得する第１の取得手段と、撮影映像から第１の被写体であると推定される少なくとも１つの第２の被写体を検出し、それぞれの第２の被写体の位置と、それぞれの第２の被写体が第１の被写体である信頼度とを取得する第２の取得手段と、過去の第１の被写体の位置と現在のそれぞれの第２の被写体の位置との距離を取得する第３の取得手段と、撮影映像の画角内に映る実世界の広さを取得する第４の取得手段と、距離と信頼度と実世界の広さとに基づいて、それぞれの第２の被写体から最も第１の被写体であると推定される第３の被写体を、第１の被写体として決定する決定手段とを備える。
【選択図】図９

Description

本発明は、画像データから特定の物体の位置を検出し、それに基づいて映像を生成するための画像処理装置に関するものである。

近年、スポーツの試合の放送用動画を自動生成する方法の一つとして、試合が行われるコート全体を含む画角で撮影データを取得し、その一部が写る画角で切り出す方法がある。具体的には、バスケットボールの試合動画内で、プレイヤーとボールの位置を取得し、それらが含まれるように切り出す画角を決定する。特に、視聴者がバスケットボールの試合展開を把握できるようなコート半面程の広さの画角で切り出す際、画角内に必ずボールを含める必要がある。

プレイヤーやボールを認識する際、処理負荷を軽減して処理時間を短縮し、リアルタイムの画像処理を実現するために、撮影データに縮小処理を施してから認識処理を行うことが一般的である。しかし、コート全体を含む画角の撮影データに縮小処理を施した場合、そこに写るボールの画像は解像度が低くなり、ボールの模様や形状などの空間的な特徴が消えてしまう。その結果、例えば撮影データ中のボールを検出しようとした際、ボール以外の小さく丸く映る物体像がボールとして誤検出されてしまい、その後決定される切り出し画角が本来必要なボールの画像を含まない画角となってしまう場合がある。

そこで、この誤検出を抑制する方法として、特許文献１には、ある決まったオブジェクトの過去の検出結果と現在の一つ以上の検出結果の距離を参照し、その二つが同一であるかの判定を行う装置が開示されている。

特許文献１では、ある決まったオブジェクトの過去の検出結果と現在の一つ以上の検出結果の空間的な距離を算出して、予め決められた同一性確率算出関数へ入力し、各オブジェクトが同一オブジェクトであるかを判定している。

国際公開第２００８／０７８７３６号

しかしながら、特許文献１に開示された従来技術では、過去のボール検出位置と、現在の真のボールの検出位置に誤検出が発生した場合、誤検出結果を現在のバスケットボールとして選択してしまう可能性がある。コート全体を含む撮影データから適切な範囲を切りだすためには、バスケットボールの情報が必要となる。そのバスケットボールの情報が、欠けてしまう課題が従来技術にはあった。

本発明は上述した課題に鑑みてなされたものであり、その目的は、広い画角の画像から、その画角に対して相対的に小さいオブジェクトを検出する場合の誤検出を低減することである。

本発明に係わる画像処理装置は、撮影映像を取得する第１の取得手段と、前記撮影映像から第１の被写体であると推定される少なくとも１つの第２の被写体を検出し、それぞれの前記第２の被写体の位置と、それぞれの前記第２の被写体が前記第１の被写体である信頼度とを取得する第２の取得手段と、過去の前記第１の被写体の位置と現在のそれぞれの前記第２の被写体の位置との距離を取得する第３の取得手段と、前記撮影映像の画角内に映る実世界の広さを取得する第４の取得手段と、前記距離と前記信頼度と前記実世界の広さとに基づいて、それぞれの前記第２の被写体から最も前記第１の被写体であると推定される第３の被写体を、前記第１の被写体として決定する決定手段と、を備えることを特徴とする。

本発明によれば、広い画角の画像から、その画角に対して相対的に小さいオブジェクトを検出する場合の誤検出を低減することが可能となる。

本発明の一実施形態の画像処理システムの構成を示す図。画像処理装置及び学習サーバのハードウェア構成を説明するための図。図１のシステムのソフトウェア構成を説明するための図。学習ネットワークを説明するための概念図。クライアント端末と画像処理装置、学習サーバ、データ収集サーバ間のデータ送受信に関する動作を説明するための図。クライアント端末から画像処理装置への画像データのアップロード処理を示すフローチャート。一実施形態の画像処理システムの概略図。俯瞰画像信号を示す図。画像処理装置のソフトウェア構成を示す図。物体検出部の処理を説明する図。物体検出部が出力するオブジェクト信頼度を補正する補正関数を生成する処理のフローチャート。俯瞰画像信号中のユーザ指定領域と俯瞰画像撮像範囲を説明する図。物体検出部が出力するオブジェクト信頼度を補正する補正関数を説明する図。物体検出部が出力するオブジェクト座標を説明する図。検出結果補正部が補正オブジェクト座標を生成する処理のフローチャート。物体検出部が出力する補正オブジェクト座標を説明する図。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

本発明の一実施形態では、コート全体が写る画角での撮影映像から、スポーツの試合の注目領域を自動で切り出すことで配信映像を生成する場合を例に挙げて説明する。

図１は、本発明の一実施形態に係わる画像処理装置を含む画像処理システム（撮影システム）１の構成を示す図である。

図１において、画像処理システム１は、ローカルネットワーク１００、ネットワーク１０１、俯瞰カメラ１０２、画像処理装置１０３、クライアント端末１０４、学習サーバ１０５、およびデータ収集サーバ１０６を備える。

ローカルネットワーク１００は、画像処理装置１０３やクライアント端末１０４が接続されるネットワークであり、画像処理装置１０３とクライアント端末１０４はローカルネットワーク１００を介して相互に通信することができる。

ネットワーク１０１は、ローカルネットワーク１００が接続されるネットワークであり、ローカルネットワーク１００に接続される機器は、ネットワーク１０１を介して相互に通信することができる。また、ローカルネットワーク１００に接続される機器は、ネットワーク１０１に接続されている学習サーバ１０５やデータ収集サーバ１０６とも相互に通信が可能である。俯瞰カメラ１０２は、決められた範囲の撮影映像を取得し、画像処理装置１０３へ出力する。

画像処理装置１０３は、俯瞰カメラ１０２から入力された撮影映像から、映像中に写る所定のオブジェクト（被写体）の検出を行う。ここで、検出とは、所定のオブジェクトの座標とオブジェクトの種類、その結果の信頼度を特定する処理のことを指す。本実施形態では、バスケットボールの試合におけるバスケットボールとプレイヤーを所定のオブジェクトとして検出するものとする。

クライアント端末１０４は、機器間のデータの送受信を指示する。学習サーバ１０５は、機械学習のデータを生成する。データ収集サーバ１０６は、学習サーバ１０５で学習するための教師データを蓄積する。

図２は、画像処理システム１の一部を構成する、画像処理装置１０３、および学習サーバ１０５のハードウェア構成を説明するための図である。図２においては、画像処理システム１の一部のうち、画像処理装置１０３、学習サーバ１０５、およびネットワーク１０１のみを図示し、それ以外の構成については記載を省略している。

図２に示すように、画像処理装置１０３は、ＣＰＵ２０２、ＲＯＭ２０３、ＲＡＭ２０４、ＨＤＤ２０５、ＮＩＣ２０６、入力部２０７、表示部２０８、および画像処理エンジン２０９を備え、これらはシステムバス２０１を介して互いに接続されている。

ＣＰＵ２０２は、画像処理装置１０３全体の制御を司る。ＣＰＵ２０２は後述する各ユニットを制御し、入力部２０７からの入力や、ＮＩＣ２０６から受信したデータに応じた動作を行う。

ＲＯＭ２０３は、不揮発性のメモリであり、画像処理装置１０３を制御するプログラムを保持する。画像処理装置１０３に電源が投入されると、ＣＰＵ２０２はＲＯＭ２０３からプログラムを読み込み、画像処理装置１０３の制御を開始する。ＲＯＭ２０３は、例えばフラッシュメモリなどからなる。

ＲＡＭ２０４は、書き換え可能なメモリであり、画像処理装置１０３を制御するプログラムの作業領域として利用される。ＲＡＭ２０４には、例えば半導体素子を利用した揮発性メモリ（ＤＲＡＭ）が用いられる。

ＨＤＤ２０５（保存部）は、画像データや、画像データを検索するためのデータベースを格納する。例えば、磁気記憶方式を利用したハードディスクドライブ（ＨＤＤ）や、半導体素子を利用したソリッドステートドライブ（ＳＳＤ）などがＨＤＤ２０５として利用される。

ＮＩＣ２０６は、ネットワークインターフェースコントローラ（ＮＩＣ）であり、画像処理装置１０３がネットワーク１０１を介して他の装置と通信を行うために利用される。例えば、ＥＴＨＥＲＮＥＴ（登録商標）あるいはＩＥＥＥ８０２．３シリーズで規格化された通信方式に基づいたコントローラがＮＩＣ２０６として用いられる。

入力部２０７は、画像処理装置１０３のユーザ（オペレータ）が画像処理装置１０３を操作する際に利用される。例えば、キーボードが入力部２０７として用いられる。なお、本実施形態の画像処理装置１０３はネットワーク１０１上のサーバとして動作することを想定しているので、入力部２０７は画像処理装置１０３の起動時やメンテナンス時などの場合のみ利用される。

表示部２０８は、画像処理装置１０３の動作状態を表示するために利用される。例えば、ＬＣＤ（液晶ディスプレイ）が表示部２０８として用いられる。なお、本実施形態の画像処理装置１０３はネットワーク１０１上のサーバとして動作することを想定しているので、表示部２０８は省略される場合もある。

画像処理エンジン２０９は、ＲＡＭ２０４から読み出した画像データに対して、縮小処理を施し、その結果を再度、ＲＡＭ２０４に格納する。本実施形態では、種々の画像処理はＣＰＵ２０２を動作させて実施するものとするが、これに限定されるものではない。例えば、画像処理装置１０３にＧＰＵを設け、そのＧＰＵ上で種々の演算処理を行ってもよい。

図２において、学習サーバ１０５はＣＰＵ２１２、ＲＯＭ２１３、ＲＡＭ２１４、ＨＤＤ２１５、ＮＩＣ２１６、入力部２１７、表示部２１８、およびＧＰＵ２１９を備え、これらはシステムバス２１１を介して互いに接続されている。

ＣＰＵ２１２は、学習サーバ１０５全体の制御を司る。ＣＰＵ２１２は後述する各ユニットを制御し、入力部２１７からの入力や、ＮＩＣ２１６から受信したデータに応じた動作を行う。

ＲＯＭ２１３は、不揮発性のメモリであり、学習サーバ１０５を制御するプログラムを保持する。学習サーバ１０５に電源が投入されると、ＣＰＵ２１２はＲＯＭ２１３からプログラムを読み込み、学習サーバ１０５の制御を開始する。ＲＯＭ２１３は、例えばフラッシュメモリなどからなる。

ＲＡＭ２１４は、書き換え可能なメモリであり、学習サーバ１０５を制御するプログラムの作業領域として利用される。ＲＡＭ２１４には、例えば半導体素子を利用した揮発性メモリ（ＤＲＡＭ）が用いられる。

ＨＤＤ２１５は、画像認識機能により画像データ中の所定のオブジェクトの位置とオブジェクトの種類を推定する学習ネットワーク（辞書データ）４０３（図４参照）を格納する。例えば、磁気記憶方式を利用したハードディスクドライブ（ＨＤＤ）や、半導体素子を利用したソリッドステートドライブ（ＳＳＤ）などがＨＤＤ２０５として利用される。

ＮＩＣ２１６は、ネットワークインターフェースコントローラであり、学習サーバ１０５がネットワーク１０１を介して他の装置との通信を行うために利用される。例えば、Ｅｔｈｅｒｎｅｔ（登録商標）あるいはＩＥＥＥ８０２．３シリーズで規格化された通信方式に基づいたコントローラがＮＩＣ２１６として用いられる。

入力部２１７は、学習サーバ１０５のユーザ（オペレータ）が学習サーバ１０５を操作する際に利用される。例えば、キーボードが入力部２１７として用いられる。なお、学習サーバ１０５はネットワーク１０１上のサーバとして動作することを想定しているので、入力部２１７は学習サーバ１０５の起動時や、メンテナンス時などの場合のみ利用される。

表示部２１８は、学習サーバ１０５の動作状態を表示するために利用される。例えば、ＬＣＤ（液晶ディスプレイ）が表示部２１８として用いられる。なお、本実施形態の学習サーバ１０５はネットワーク１０１上のサーバとして動作することを想定しているので、表示部２１８は省略される場合もある。

ＧＰＵ２１９は、データの並列演算処理を行うために用いられるユニットである。ディープラーニングのような学習ネットワークを用いて複数回に渡り学習を行う場合や、推定において多数の積和演算を行う場合にＧＰＵ２１９で処理を行うことが有効である。ＧＰＵ２１９には一般的には、ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔと呼ばれるＬＳＩが用いられるが、ＦＰＧＡと呼ばれる再構成可能な論理回路で同等の機能を実現してもよい。

図３は、画像処理システム１のソフトウェア構成を示す図である。このソフトウェア構成は、図２を用いて説明したハードウェア資源、およびプログラムを利用することで実現される。なお、本ソフトウェア構成では、オペレーティングシステムなどの汎用的なソフトウェア構成は省略している。

俯瞰カメラ１０２のソフトウェアは、データ送信部３０１とＵＩ表示部３０２とを有する。データ送信部３０１は、俯瞰カメラ１０２が保持する画像データのうち、後述するＵＩ表示部３０２により選択された画像データを画像処理装置１０３のデータ受信部３２１へ送信するためのソフトウェア機能を有する。また、画像処理装置１０３からの指示に基づき、撮影データをデータ受信部３２１へ送信するためのソフトウェア機能を有する。

ＵＩ表示部３０２は、俯瞰カメラ１０２が保持する画像データのうち任意の画像データをユーザが選択可能に表示するためのユーザインターフェースを提供するためのソフトウェア機能を有する。

画像処理装置１０３のソフトウェアは、データ受信部３２１、画像処理部３２２、推定部３２３、学習データ記憶部３２４を有する。

データ受信部３２１は、俯瞰カメラ１０２やクライアント端末１０４とのデータの送受信を行うためのソフトウェア機能を有する。例えば、俯瞰カメラ１０２からＮＩＣ２０６を介して画像データを受信し、画像処理部３２２へ出力する。

画像処理部３２２は、入力された画像データに対し、縮小処理を施し、推定部３２３へ処理後の撮影データを出力する。

推定部３２３は、学習データ記憶部３２４によって、ＨＤＤ２０５に保持されている学習ネットワーク４０３（図４参照）を用いて、画像処理部３２２から入力された撮影データから、バスケットボールやプレイヤーの座標、種類、その結果の信頼度を算出するためのソフトウェア機能を有する。

クライアント端末１０４のソフトウェアは、ウェブブラウザ３１１を有する。ウェブブラウザ３１１は、画像処理装置１０３のデータ受信部３２１から取得したデータをクライアント端末１０４のユーザに見えるように成形し、表示するためのソフトウェア機能を有する。また、ウェブブラウザ３１１は、ユーザの操作（画像データの検索、表示など）を画像処理装置１０３のデータ受信部３２１に伝えたりするためのソフトウェア機能も有する。

学習サーバ１０５のソフトウェアは、データ記憶部３４２、学習用データ生成部３４３、学習部３４４を有する。

データ記憶部３４２は、後述するデータ収集サーバ１０６のデータ収集／提供部３３２から受信した画像データや後述する学習用データ生成部３４３が生成した学習用画像データの蓄積と、蓄積した画像データの検索／管理を行うためのソフトウェア機能を有する。画像データの蓄積は、ＨＤＤ２１５内に格納することによって行われる。

学習用データ生成部３４３は、データ記憶部３４２に格納されている画像データに縮小処理を適用した学習用画像データを生成する。生成された学習用画像データは、データ記憶部３４２によってＨＤＤ２１５に格納される。

学習部３４４は、学習用画像データに基づいて、学習ネットワーク４０３（図４参照）の学習を行う。生成した学習ネットワーク４０３は、画像処理装置１０３の学習データ記憶部３２４に送信され、ＲＡＭ２０４に記録される。

図４は、学習ネットワーク４０３を用いた入出力の構造を示す概念図である。なお、学習ネットワーク４０３は、本実施形態だけでなく、後述の実施形態においても同一の構造を有する。

学習サーバ１０５の学習は、図４に示すようにＮｅｕｒａｌＮｅｔｗｏｒｋで構成される学習ネットワーク４０３に対して、教師データの俯瞰画像を入力、プレイヤーとバスケットボールの座標を出力として、実施される。なお、図４では、学習ネットワーク４０３が単一の学習ネットワークからなる場合について説明したが、画像データ４０１から推定したいメタデータに応じて、複数の学習ネットワークを用意してもよい。

図５は、図４の学習ネットワーク４０３の学習を行い、本実施形態で利用するまでの画像処理システム１全体の動作を説明するための図である。全体動作は、以下のＩ～VIIの順番で行われる。
（Ｉ）画像処理システム１を利用するユーザは、クライアント端末１０４を操作して学習サーバ１０５で学習するための教師データの送信指示をデータ記憶部３４２に対して行う。
（II）データ記憶部３４２は、クライアント端末１０４からの教師データの送信指示に基づき、データ収集サーバ１０６のデータ収集／提供部３３２に対して、学習するための教師データを要求する。
（III）データ収集サーバ１０６は、学習サーバ１０５からの教師データの送信指示により、教師データをデータ記憶部３３１から抽出する。
（IV）データ収集サーバ１０６は、データ収集／提供部３３２から学習サーバ１０５のデータ記憶部３４２へ教師データを送信する。
（Ｖ）学習サーバ１０５は、データ記憶部３４２が受信し、保持している教師データで予知学習を行い、学習データを生成する。
（VI）学習サーバ１０５は、生成した学習データを画像処理装置１０３へ送信し、学習データ記憶部３２４は、その学習データを保持する。
（VII）以降、画像処理装置１０３は記憶した学習データに基づいて推論処理を行う。

続いて図６を用いて、具体的な学習ネットワーク４０３の学習、および推論の動作について説明する。

図６（ａ）は、データ収集サーバ１０６の処理動作を示すフローチャートである。

まず、ステップＳ６２１では、データ収集サーバ１０６のＣＰＵにより実現されるデータ収集／提供部３３２は、学習サーバ１０５から教師データの要求とその種類を受信したか否かを判断する。データ収集サーバ１０６のＣＰＵは、教師データの要求とその種類を受信した場合は処理をステップＳ６２２に進め、そうでなければ、そのまま待機する。

ステップＳ６２２では、データ収集サーバ１０６のＣＰＵは、要求された教師データの種類を判断する。本実施形態では、教師データの種類はバスケットコート全体が映る俯瞰画像とその画像の中でのプレイヤーの座標、およびバスケットボールの座標の値である。

ステップＳ６２３では、データ収集サーバ１０６のＣＰＵにより実現されるデータ収集／提供部３３２は、教師データの種類に合わせてデータ記憶部３３１から教師データを読み出し、学習サーバ１０５へ送信する。

学習サーバ１０５は、図４に示すようにＮｅｕｒａｌｎｅｔｗｏｒｋで構成される学習ネットワーク４０３の入力として教師データの俯瞰画像を用い、出力としてプレイヤーとバスケットボールの座標を用いて、学習データの生成を実施する。ここで、ＧＰＵ２１９はデータをより多く並列処理することで効率的な演算を行うことができる。そのため、学習サーバ１０５は、ディープラーニングのような学習モデルを用いて複数回に渡り学習を行う場合には、ＧＰＵ２１９で処理を行うことが有効である。

本実施形態では、学習サーバ１０５が行う学習処理は、ＣＰＵ２１２に加えてＧＰＵ２１９を用いて行われる。学習モデルを含む学習プログラムを実行する場合に、学習サーバ１０５では、ＣＰＵ２１２とＧＰＵ２１９が協働して演算を行うことで学習を行う。なお、学習処理はＣＰＵ２１２またはＧＰＵ２１９のみで演算することにより行われてもよい。

図６（ｂ）は、学習サーバ１０５の処理動作を示すフローチャートである。

まず、ステップＳ６３０では、学習サーバ１０５のＣＰＵ２１２は、データ収集サーバ１０６に教師データを要求する。

ステップＳ６３１では、学習サーバ１０５のＣＰＵ２１２は、データ収集サーバ１０６から教師データを受信したか否かを判断する。教師データを受信した場合は、受信したデータをＣＰＵ２１２により実現されるデータ記憶部３４２がＲＡＭ２１４に格納する。その後、ＣＰＵ２１２は、ステップＳ６３２に処理を進める。また、教師データを受信していなければ、そのまま待機する。

ステップＳ６３２では、ＣＰＵ２１２とＧＰＵ２１９の少なくとも一方で実現される学習部３４４は、受信した教師データと、教師データに対応する学習設定値を学習モデルに入力する。ここで、学習モデルは前述した学習ネットワーク４０３である。また、学習設定値は、本実施形態では学習ネットワーク４０３の入力信号に施すデータオーグメンテーションのパラメータ値とする。

ステップＳ６３３では、ＣＰＵ２１２とＧＰＵ２１９の少なくとも一方が、学習ネットワーク４０３を用いて学習を実施する。

ステップＳ６３４では、ＣＰＵ２１２は、全ての教師データを学習モデルに入力し終わったか否かを判定する。ＣＰＵ２１２は、教師データを全て入力し終わった場合には、学習を終了し、そうでなければ、ステップＳ６３２に処理を戻し、ステップＳ６３２～Ｓ６３４を繰り返す。

なお、ステップＳ６３３での学習は、誤差検出部と更新部とを新たに設け、それらを用いて実行してもよい。誤差検出部は、入力層に入力される入力データに応じてニューラルネットワークの出力層から出力される出力データと、教師データとの誤差を検出する。誤差検出部は、損失関数を用いて、ニューラルネットワークからの出力データと教師データとの誤差を計算するようにしてもよい。更新部は、誤差検出部で得られた誤差に基づいて、その誤差が小さくなるように、ニューラルネットワークのノード間の結合重み付け係数等を更新する。この更新部は、例えば、誤差逆伝播法を用いて、結合重み付け係数等を更新する。誤差逆伝播法は、上記の誤差が小さくなるように、各ニューラルネットワークのノード間の結合重み付け係数等を調整する手法である。

画像処理装置１０３は、ＨＤＤ２０５とＲＯＭ２０３に格納された学習サーバ１０５により生成された学習データに基づいて機械学習の推論処理を行う。

具体的には、ＣＰＵ２０２に画像処理部３２２で処理された映像縮小信号が入力され、学習データとプログラムを用いて、ＣＰＵ２０２が推論処理を行う。推論処理は、学習モデルと同じくＮｅｕｒａｌｎｅｔｗｏｒｋを用いて行われる。

図６（ｃ）は、画像処理装置１０３の処理動作を示すフローチャートである。

まず、ステップＳ６０１では、画像処理装置１０３のＣＰＵ２０２により実現される学習データ記憶部３２４は、学習データを学習サーバ１０５から受信したか否かを判断する。ＣＰＵ２０２は、学習データを受信した場合は、ＲＡＭ２０４に格納する。

以降、ＣＰＵ２０２は、推論処理を行う際は、ＲＡＭ２０４に学習データが格納されているか否かを参照し、格納されている場合にはステップＳ６０２に処理を進める。なお、ステップＳ６０１で学習データを受信していない場合は、そのまま待機する。

ステップＳ６０２では、画像処理装置１０３のＣＰＵ２０２により実現される推定部３２３は、映像縮小信号９１１（図９参照）が入力されたか否かを判定する。ＣＰＵ２０２は、映像縮小信号９１１の入力があった場合はステップＳ６０３へ処理を進め、そうでなければ、そのまま待機する。

ステップＳ６０３では、ＣＰＵ２０２は、ユーザが推論処理の開始を指示したか否かを判定する。ＣＰＵ２０２は、推論処理の開始指示があった場合はステップＳ６０４に処理を進め、そうでなければそのまま待機する。

ステップＳ６０４では、ＣＰＵ２０２により実現される推定部３２３は、ＲＡＭ２０４に格納された学習データに、動き強調処理が施された動き強調画像を入力することで、推論処理を行う。

ステップＳ６０５では、ＣＰＵ２０２により実現される推定部３２３は、プレイヤーとボールの座標位置を出力として取得し、ＨＤＤ２０５へ格納する。

図７は、画像処理システム１の実際の使用方法を説明するための概略図である。

俯瞰カメラ１０２は、プレイヤー７２０とボール７３０が存在するバスケットコート７１０が撮影画角７０８に全て含まれる光学特性を持つものとする。また、撮影した俯瞰画像信号７０９の解像度は、水平３８４０画素、垂直２１６０画素とする。

撮影された画像は、俯瞰カメラ１０２から俯瞰画像信号７０９として画像処理装置１０３へ出力される。俯瞰画像信号７０９は、俯瞰カメラ１０２の出力端子ＨＤＭＩ（登録商標）（Ｈｉｇｈ－ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）や、ＳＤＩ（ＳｅｒｉａｌＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）から出力される。また、俯瞰画像信号７０９は、俯瞰カメラ１０２内の記録メディアに一旦記録された画像でもよい。

画像処理装置１０３は、俯瞰カメラ１０２から受信した俯瞰画像信号７０９に対し物体検出処理を適用し、俯瞰画像信号７０９内におけるプレイヤー、およびバスケットボールの座標と種類、それらの信頼度を取得する。そして、画像処理装置１０３は、取得した座標値に基づいて、後述の撮影画像信号９８１を生成する。

図８は、俯瞰カメラ１０２が取得する俯瞰画像信号７０９の模式図を示している。

前述した通り、俯瞰画像信号７０９には、撮影画角内にバスケットコート７１０が欠けることなく写り、また、バスケットコート７１０におけるプレイヤー７２０、およびボール７３０の動きが分かる映像となっている。

図９は、画像処理部３２２と推定部３２３の具体的な処理を説明する図である。なお、図９に示される各ブロックは、画像処理装置１０３のＣＰＵ２０２がプログラムを実行することにより実現される。また、推定部３２３は、図９では俯瞰画像信号７０９におけるプレイヤー、およびボールを検出する物体検出部９５０として記載されている。

まず、俯瞰カメラ１０２からの俯瞰画像信号７０９は画像縮小部９１０に入力され、画像縮小部９１０は映像縮小信号９１１を物体検出部９５０へ出力する。俯瞰画像信号７０９の解像度は、水平３８４０画素、垂直２１６０画素であるが、物体検出部９５０にその解像度を入力すると、データ量が多く、物体検出部９５０の処理負荷が大きくなってしまう。そこで、画像縮小部９１０は、俯瞰画像信号７０９の解像度、水平３８４０画素、垂直２１６０画素を、水平４００画素、垂直４００画素の画像に縮小変換し、映像縮小信号９１１として出力する。

なお、縮小後の画像の解像度は上記に限定されるものではなく、物体検出部９５０の処理能力によって、決定することが望ましい。

競技特性決定部９２０は、ユーザがクライアント端末１０４を介して入力した競技種別９１９に基づいて実コート幅９２１を生成し、補正関数決定部９４０へ出力する。

撮影範囲取得部９３０は、クライアント端末１０４を介してユーザが俯瞰画像信号７０９上で指定したユーザ指定領域９２９に基づいて、俯瞰画像信号７０９上に映る撮像範囲情報９３１を算出し、補正関数決定部９４０へ出力する。

補正関数決定部９４０は、実コート幅９２１、および撮像範囲情報９３１に基づいて、物体検出部９５０が出力するオブジェクト座標９５１、およびオブジェクト信頼度９５２からなる検出結果のうち、後述するボールに関するオブジェクト信頼度を補正するための関数を生成する。補正関数決定部９４０は、補正関数情報９４１を検出結果補正部９６０へ出力する。

物体検出部９５０は、映像縮小信号９１１に対して推論処理を行い、プレイヤー７２０、およびボール７３０の座標と種類、その結果の信頼度を算出する。推論処理による検出結果の座標は、図１０に示すように矩形座標値となる。プレイヤーの座標値は、図１０に示すように複数検出されることもあり、その場合は物体検出部９５０から複数のプレイヤー座標１０５２がまとめて検出結果補正部９６０へ出力される。また、プレイヤーの信頼度は、各プレイヤー座標に一対一に対応する形で数値が取得され、物体検出部９５０からプレイヤー信頼度１０５４として、検出結果補正部９６０へ出力される。

図１０に示すボールの座標値は、物体検出部９５０からボール座標１０５３として出力される。プレイヤー座標１０５２と同様、ボールの信頼度についてもプレイヤー信頼度１０５４と同様、ボール検出結果と一対一に対応する形で数値が取得され、物体検出部９５０からボール信頼度１０５５として検出結果補正部９６０へ出力される。ここで、プレイヤーとボールの座標値は、矩形座標値の左上、左下、右上、右下の値である。また、プレイヤー７２０、およびボール７３０の検出結果の信頼度は０から１の間で表される値であり、１に近い程検出結果を信頼することができる。

本実施形態では、物体検出部９５０は、プレイヤー座標１０５２、およびボール座標１０５３をまとめてオブジェクト座標９５１として出力する。また、プレイヤー信頼度１０５４、およびボール信頼度１０５５をまとめてオブジェクト信頼度９５２として出力する。

検出結果補正部９６０は、オブジェクト座標９５１、およびオブジェクト信頼度９５２における、特にボール座標１０５３とボール信頼度１０５５の補正を行う。物体検出部９５０は図８に示すような俯瞰画像信号７０９から比較的小さく映るバスケットボールを検出する際、小さく丸い特徴のオブジェクトをボール座標１０５３として複数取得してしまう可能性がある。そこで、検出結果補正部９６０は、ＲＡＭ２０４から前回の補正オブジェクト座標９６１を参照し、オブジェクト座標９５１、およびオブジェクト信頼度９５２を補正する。これにより、現在のフレームにおける補正オブジェクト座標９６１を生成し、撮影画角決定部９７０に送信する。

撮影画角決定部９７０は、補正オブジェクト座標９６１に含まれるプレイヤー座標１０５２、およびボール座標１０５３に基づいて撮影画角を決定する撮影パラメータを算出する。撮影画角決定部９７０は、プレイヤー座標１０５２、およびボール座標１０５３の中で、ｘ座標が最小となるものと最大となるものの差分とその重心を計算し、それらを撮影パラメータ９７１としてトリミング部９８０へ送信する。上記の差分値は画角の横幅、上記の重心は画角の中心とそれぞれみなすことによって、それに基づいて決められた撮影画像信号９８１は、プレイヤー７２０、およびボール７３０を全て含む撮影画角を実現することが可能となる。

トリミング部９８０は、撮影パラメータ９７１に含まれる画角の横幅、および画角の中心に基づいて、俯瞰画像信号７０９から切り出し映像を生成し、撮影画像信号９８１として出力する。

ここで、撮影画角決定部９７０の具体的な処理内容について、図１１を用いて説明する。図１１は、ユーザがクライアント端末１０４を介して入力したユーザ指定領域９２９、および競技種別９１９に基づいて、検出結果補正部９６０が参照する補正関数情報９４１を生成するまでの処理動作を示すフローチャートである。

ステップＳ１１０１では、画像処理装置１０３のＣＰＵ２０２により実現される競技特性決定部９２０は、ユーザがクライアント端末１０４を介して入力した競技種別に基づいて、実コート幅９２１を取得する。本実施形態では、競技特性決定部９２０は複数のスポーツ競技名とコート長辺の幅を辞書の形で対応付けてＲＡＭ２０４に記憶しているものとする。そして、ユーザが指定した競技種別９１９に対応する実コート幅９２１を取得するものとする。また、本実施形態では、ユーザはクライアント端末１０４を介して競技種別としてバスケットボールを選択したものとし、それにより競技特性決定部９２０は２８ｍを実コート幅９２１として、補正関数決定部９４０へ出力するものとする。競技特性決定部９２０が実コート幅９２１を補正関数決定部９４０へ出力した後、ＣＰＵ２０２は、ステップＳ１１０２へ処理を進める。

ステップＳ１１０２では、ＣＰＵ２０２により実現される撮影範囲取得部９３０は、ユーザがクライアント端末１０４を介して俯瞰画像信号７０９上で指定したユーザ指定領域９２９に基づいて、撮像範囲情報９３１を算出する。撮像範囲情報９３１とは、俯瞰画像信号７０９が競技コートに対してどれだけ広い画角であるかを表す値であり、その算出方法について、図１２を用いて具体的に説明する。

図１２は、俯瞰カメラ１０２が撮影した俯瞰画像信号７０９とユーザ指定領域９２９の位置関係を示した図である。本実施形態では、ユーザ指定領域９２９は、図１２に示す通り、バスケットコート７１０、プレイヤー７２０、およびボール７３０が含まれるような形で指定されるものとする。

まず、撮影範囲取得部９３０は、ユーザ指定領域９２９の水平方向の左端と右端の画素位置を取得する。図１２では、ユーザ指定領域９２９の左端を３３ｐｉｘｅｌ、右端を３８００ｐｉｘｅｌであるとし、撮影範囲取得部９３０はこれら二つの値を取得する。そして、撮影範囲取得部９３０は、取得した値の差分を計算することにより、俯瞰画像信号７０９内に映る競技コート領域の水平解像度を算出する。図１２に示す例では、３７６７ｐｉｘｅｌが俯瞰画像信号７０９における競技コートの水平解像度となる。撮影範囲取得部９３０は、俯瞰画像信号７０９の水平解像度の値を競技コート領域の水平解像度で除することで撮像範囲情報９３１を算出する。本実施形態では、３８４０／３７６７＝１．０１９４（小数第５桁で四捨五入）を撮像範囲情報９３１として撮影範囲取得部９３０が算出し、補正関数決定部９４０へ出力する。撮影範囲取得部９３０が撮像範囲情報９３１を補正関数決定部９４０へ出力した後、ＣＰＵ２０２は、ステップＳ１１０３へ処理を進める。

ステップＳ１１０３では、ＣＰＵ２０２により実現される補正関数決定部９４０は、実コート幅９２１、および撮像範囲情報９３１に基づいて補正関数情報９４１を生成する。補正関数決定部９４０はまず、俯瞰画像信号７０９が水平方向にどれだけの実世界の範囲を映しているかを表す俯瞰画像撮像範囲１２１１を実コート幅９２１、および撮像範囲情報９３１から算出する。俯瞰画像撮像範囲１２１１は、実コート幅９２１に撮像範囲情報９３１を乗ずることで算出することができ、具体的には、２８ｍ×１．０１９４＝２８．５４３２ｍと算出することができる。続いて、補正関数決定部９４０は、俯瞰画像撮像範囲１２１１を用いて、図１３に示すような補正関数情報９４１ａを生成する。まず、補正関数決定部９４０は、以下の式１を用いて、σを算出する。

σ＝定数Ａ／俯瞰画像撮像範囲１２１１（式１）
続いて、補正関数決定部９４０は、式１によって算出されたσを用いた以下の式２を補正関数として決定し、検出結果補正部９６０へ出力する。

ｆ（ｄｉｓｔ）＝ｅｘｐ（－(ｄｉｓｔ²)／(２×σ²)）² （式２）
式２において、補正関数に入力されるｄｉｓｔとは、後述するオブジェクトの検出結果同士の画像上での距離を表しており、単位はｐｉｘｅｌである。なお、（式１）中に記載のある定数Ａとは、実験的に求められる値でよく、ユーザが最終的な撮影画像信号９８１を確認しながら調整することで値を決定することができる。

図１３は、補正関数決定部９４０が生成する補正関数を説明するための図である。補正関数へはオブジェクトの検出結果同士の画像上での距離が入力され、本実施形態では以降の検出結果補正部９６０の処理でボール座標１０５３とボール信頼度１０５５が補正される。そのため、横軸は前回のボール検出座標と現在の各ボール検出座標の距離を表す。また、縦軸は補正関数により出力されるスコア補正ゲインを表している。後述の検出結果補正部９６０は、前回のボール検出座標と現在の各ボール検出座標の差分に基づいて補正関数を参照し、出力されたスコア補正ゲインをそれぞれのボール信頼度１５５に乗ずることでボール信頼度１５５の補正を行う（補正信頼度）。例えば、バスケットボールにおけるボールの動きは連続的であるため、急激に前回のボール検出座標から離れた位置にボールが検出されることは考えにくい。そのため、補正関数の形状は、前回のボール検出位置と現在のボール検出位置の差分が大きい程、信頼度を低下させるためにスコア補正ゲインが小さく算出されるような関数形状である必要がある。ただし、補正関数の式は式１、および式２に示す通りでなくともよく、同様の形状となればよい。

本実施形態ではバスケットボールを例とし、補正関数決定部９４０は補正関数情報９４１ａを生成し、検出結果補正部９６０へ出力する。

なお、補正関数情報９４１ｂは、バスケットボールよりも競技コートが広い競技が選択された場合の補正関数を示している。補正関数情報９４１ｂは、補正関数情報９４１ａよりも補正の程度が急峻なものとなる。これは、競技コートが広くなった場合、連続的なボール座標１０５３の変位はより小さくなり、前回のボール検出座標を中心とした、より狭い範囲に現在のボールが検出されるはずだからである。よって、バスケットボールに比べ、前回のボール検出位置から少し離れた位置に検出されたボール検出結果は誤検出である可能性が高いため、スコア補正ゲインを小さくし、前回のボール検出位置から離れた位置のボール誤検出を抑制することが可能となる。

図１４は、検出結果補正部９６０へ入力されるオブジェクト座標９５１、およびオブジェクト信頼度９５２を示している。なお、説明を分かり易くするため、映像縮小信号９１１の一部を用いて説明を行うものとし、また、ボール座標１０５３、およびボール信頼度１０５５のみ補正を行うものとして以降説明を行う。ボール座標１０５３を表すそれぞれの枠の上部に記載されている数値がボール信頼度１０５５である。また、過去のボール座標１４５６は、前回の検出結果補正部９６０が出力した補正オブジェクト座標９６１におけるボール座標１０５３を表しており、本実施形態ではボール座標１０５３の重心位置をポイントとして示している。

映像縮小信号９１１は、画角内の競技コート全体が入るように撮影を行った画像であり、そのため物体検出部９５０は小さく丸いオブジェクトをボールと誤検出してしまう可能性が高い。例えば、図１４に示す通り、正しく検出されたボールとその他の誤検出された選手の頭や手など、複数のボール座標が物体検出部９５０から検出結果補正部９６０に出力される可能性がある。そこで、検出結果補正部９６０は、前回のボール検出位置に基づいて、現在の複数のボール検出結果から最も真のボールらしい検出結果を選択する処理を行う。

図１５は、過去ボール座標１４５６に基づいて、検出結果補正部９６０が現在のフレームにおけるボール座標１０５３を補正する処理を示すフローチャートである。

ステップＳ１５０１では、画像処理装置１０３のＣＰＵ２０２によって実現される検出結果補正部９６０は、まず過去ボール座標１４５６をＲＡＭ２０４から取得し、現在のフレームのボール座標１０５３の内の一つとの距離を算出する。ここで、本実施形態で算出する距離は二つの座標間のユークリッド距離であるものとする。続いて、補正関数決定部９４０から取得した補正関数情報９４１に前述の距離を入力することで、スコア補正ゲインを取得する。最後に、対応するボール信頼度１０５５にスコア補正ゲインを乗算することで、補正ボール信頼度１０６５を得る。

ステップＳ１５０２では、検出結果補正部９６０は、現在のフレームにおいて検出した全てのボールに対してステップＳ１５０１の処理が行われたか否かの判定を行う。ＣＰＵ２０２は、全てのボールに対してステップＳ１５０１の処理が行われていた場合、処理をステップＳ１５０３へ進め、そうでなければ、ステップＳ１５０１に処理を戻す。

ステップＳ１５０３では、検出結果補正部９６０は、補正ボール信頼度１０６５の中から最大スコアとなる補正ボール信頼度１０６５とそれに対応するボール座標１０５３を取得する。

ステップＳ１５０４では、ＣＰＵ２０２は、検出結果補正部９６０が取得した補正ボール信頼度１０６５が所定の閾値ｔｈ１より大きいか否かを判定する。ＣＰＵ２０２は、検出結果補正部９６０が取得した補正ボール信頼度１０６５が所定の閾値ｔｈ１より大きい場合、ステップＳ１５０５へ処理を進め、所定の閾値ｔｈ１以下である場合、ステップＳ１５０６へ処理を進める。

ステップＳ１５０５では、検出結果補正部９６０は、最大スコアとなった補正ボール信頼度１０６５に対応するボール座標１０５３を真のボール座標１０６３として採択する。そして、真のボール座標１０６３とプレイヤー座標１０５２とを、補正オブジェクト座標９６１として撮影画角決定部９７０へ出力する。検出結果補正部９６０が補正オブジェクト座標９６１を撮影画角決定部９７０へ出力した後、検出結果補正部９６０による検出結果の補正処理は完了となる。

ステップＳ１５０６では、検出結果補正部９６０は、過去ボール座標１４５６と最も近いプレイヤー座標の距離を算出し、所定の閾値ｔｈ２との大小関係を比較する。ＣＰＵ２０２は、この距離が所定の閾値ｔｈ２より小さい場合、ステップＳ１５０７へ処理を進め、所定の閾値ｔｈ２以上である場合、ステップＳ１５０８へ処理を進める。

ステップＳ１５０７では、検出結果補正部９６０は、プレイヤー７２０がボール７３０を保持しているために俯瞰画像信号７０９上で隠れているものとみなす。具体的には、検出結果補正部９６０は、過去ボール座標１４５６と最も近いプレイヤー座標を、真のボール検出結果として採択し、真のボール座標１０６３とプレイヤー座標１１０５２とを、補正オブジェクト座標９６１として、撮影画角決定部９７０へ出力する。検出結果補正部９６０が補正オブジェクト座標９６１を撮影画角決定部９７０へ出力した後、検出結果補正部９６０による検出結果の補正処理は完了となる。

なお、本実施形態では、ステップＳ１５０６における所定の閾値ｔｈ２は、物体検出部９５０が出力するオブジェクト座標９５１の内、プレイヤー座標１０５２の水平方向距離と同じものとする。その結果、検出結果補正部９６０はプレイヤー７２０の裏にボール７３０が隠れてしまうか否かの判断をステップＳ１５０６で再現することができる。それによって、ステップＳ１５０７で決定する真のボール座標１０６３は、プレイヤー７２０のドリブルのようなボール保持状態を適切に表現する座標となる。ただし、所定の閾値ｔｈ２の決め方はこれに限定されるものではなく、例えば物体検出部９５０のオブジェクト座標９５１に含まれるプレイヤー座標１０５２を複数取得し、それらの水平解像度の平均値として決定してもよい。

ステップＳ１５０８では、検出結果補正部９６０は、現在フレームで物体検出部９５０が検出した結果の中に真のボールは存在しなかった、つまりボール無検出として処理を行う。具体的には、オブジェクト座標９５１のうち、ボール座標１０５３を取り除いたものを補正オブジェクト座標９６１として撮影画角決定部９７０へ出力する。検出結果補正部９６０が補正オブジェクト座標９６１を撮影画角決定部９７０へ出力した後、検出結果補正部９６０による検出結果の補正処理は完了となる。なお、検出結果補正部９６０は過去のボール座標１４５６を真のボール座標１０６３とし、真のボール座標１０６３とプレイヤー座標１０５２とを、補正オブジェクト座標９６１として撮影画角決定部９７０へ出力してもよい。

図１６は、ボールに関する補正オブジェクト座標９６１を示した図である。説明を分かり易くするため、補正オブジェクト座標９６１に含まれるプレイヤー座標１０５２は省略し、真のボール座標１０６３のみを示している。撮影画角決定部９７０は、補正オブジェクト座標９６１に基づいて、俯瞰画像信号７０９からプレイヤー７２０、およびボール７３０の写る画角サイズや画角中心といった撮影パラメータ９７１を決定することが可能となる。この時、検出結果補正部９６０が前述のボール検出結果補正処理を行うことで、トリミング部９８０は、俯瞰画像信号７０９における競技で使用される真のボール、もしくはボールを保持する選手を含む撮影画像信号９８１を生成することが可能となる。

以上、図７の構成に関する本発明の実施形態の詳細について説明した。しかし、本発明はこれだけに限定されず、バスケットボールとは違う他のスポーツに適用してもよい。例えば、サッカーに適用した場合、ボールが小さく映ることを考慮し、俯瞰カメラを複数用意して、前述の一連の処理を行った後の検出結果を結合してもよい。この場合、物体検出部９５０が出力する各俯瞰カメラ毎のオブジェクト座標９５１、およびオブジェクト信頼度９５２を結合する必要がある。具体的には、物体検出部９５０は、コート７１０全体におけるオブジェクト座標９５１、およびオブジェクト信頼度９５２として、検出結果を結合し、検出結果補正部９６０へ出力する。

以上説明したように、本実施形態では、過去のオブジェクトの検出位置と現在の複数のオブジェクトの検出位置の距離に基づいて、検出結果の信頼度を補正し、追尾対象となるオブジェクトを選択する。これによって、誤検出したオブジェクトを検出結果から適切に除去することが可能となる。

なお、本実施形態では、トリミング部９８０が物体検出の結果に基づいて、俯瞰画像信号７０９からプレイヤー７２０やボール７３０が含まれる撮影画角を切り出す例について説明した。しかし、撮影画像信号９８１を取得する方法はこれに限定されるものではない。例えば、新たにＰＴＺカメラ（パン・チルト・ズームカメラ）を用意するとともに、トリミング部９８０の代わりに制御値算出部を用意し、プレイヤー７２０やボール７３０の検出結果に応じてＰＴＺカメラの制御を行うことで、光学的に撮影画像信号を取得してもよい。この方法の場合、トリミングによる解像度低下を防ぎながら、撮影画像信号９８１を生成することが可能となる。

（その他の実施形態）
なお、上述した各処理部のうち、物体検出部９５０については、機械学習された学習済みモデルを用いて処理を実行したが、ルックアップテーブル（ＬＵＴ）等のルールベースの処理を行ってもよい。その場合には、例えば、入力データと出力データとの関係をあらかじめＬＵＴとして作成する。そして、この作成したＬＵＴを画像処理装置１０３のメモリに格納しておくとよい。物体検出部９５０の処理を行う場合には、この格納されたＬＵＴを参照して、出力データを取得することができる。つまりＬＵＴは、上述の各処理部と同等の処理をするためのプログラムとして、ＣＰＵあるいはＧＰＵなどと協働で動作することにより、上述の各処理部の動作を行う。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワークまたは記憶媒体を介してシステムまたは装置に供給し、そのシステムまたは装置のコンピュータがプログラムを読出し実行する処理でも実現可能である。コンピュータは、１または複数のプロセッサーまたは回路を有し、コンピュータ実行可能命令を読み出し実行するために、分離した複数のコンピュータまたは分離した複数のプロセッサーまたは回路のネットワークを含みうる。

プロセッサーまたは回路は、中央演算処理装置（ＣＰＵ）、マイクロプロセッシングユニット（ＭＰＵ）、グラフィクスプロセッシングユニット（ＧＰＵ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートウェイ（ＦＰＧＡ）を含みうる。また、プロセッサーまたは回路は、デジタルシグナルプロセッサ（ＤＳＰ）、データフロープロセッサ（ＤＦＰ）、またはニューラルプロセッシングユニット（ＮＰＵ）を含みうる。

本明細書の開示は、以下の画像処理装置、方法およびプログラムを含む。

（項目１）
撮影映像を取得する第１の取得手段と、
前記撮影映像から第１の被写体であると推定される少なくとも１つの第２の被写体を検出し、それぞれの前記第２の被写体の位置と、それぞれの前記第２の被写体が前記第１の被写体である信頼度とを取得する第２の取得手段と、
過去の前記第１の被写体の位置と現在のそれぞれの前記第２の被写体の位置との距離を取得する第３の取得手段と、
前記撮影映像の画角内に映る実世界の広さを取得する第４の取得手段と、
前記距離と前記信頼度と前記実世界の広さとに基づいて、それぞれの前記第２の被写体から最も前記第１の被写体であると推定される第３の被写体を、前記第１の被写体として決定する決定手段と、
を備えることを特徴とする画像処理装置。

（項目２
前記決定手段により決定された前記第３の被写体の位置に基づいて、前記撮影映像から前記第３の被写体が映る領域を切り出す切り出し手段をさらに備えることを特徴とする項目１に記載の画像処理装置。

（項目３）
前記切り出し手段により前記撮影映像から切り出される映像は、配信映像であることを特徴とする項目２に記載の画像処理装置。

（項目４）
前記第２の取得手段は、前記第１の被写体とは異なる第４の被写体であると推定される第５の被写体を検出し、前記第５の被写体の位置と、前記第５の被写体が前記第４の被写体である信頼度とをさらに取得することを特徴とする項目１乃至３のいずれか１項目に記載の画像処理装置。

（項目５）
前記撮影映像は競技の映像であり、前記第１の被写体はボールであり、前記第４の被写体はプレイヤーであることを特徴とする項目４に記載の画像処理装置。

（項目６）
前記距離に基づいて前記第２の被写体が前記第１の被写体である信頼度を補正するための補正関数を取得する第５の取得手段をさらに備え、前記決定手段は、前記補正関数を用いて補正した補正信頼度に基づいて、前記第３の被写体を決定することを特徴とする項目１乃至５のいずれか１項目に記載の画像処理装置。

（項目７）
前記補正関数は、前記距離が大きいほど前記補正信頼度が低くなるように、前記信頼度を補正することを特徴とする項目６に記載の画像処理装置。

（項目８）
前記補正関数は、前記画角に写る実世界の広さが大きいほど、前記距離の大きさに応じて前記補正信頼度を低く補正する程度を大きくすることを特徴とする項目７に記載の画像処理装置。

（項目９）
前記撮影映像は競技の映像であり、該競技の特性を取得する第６の取得手段をさらに備え、前記第４の取得手段は、前記競技の特性に基づいて、前記実世界の広さを取得することを特徴とする項目１乃至８のいずれか１項目に記載の画像処理装置。

（項目１０）
前記第６の取得手段は、ユーザの選択に基づいて前記競技の特性を取得することを特徴とする項目９に記載の画像処理装置。

（項目１１）
前記決定手段は、前記第１の被写体であると推定される前記第２の被写体が検出されなかった場合に、過去の前記第１の被写体の位置に最も近い前記第４の被写体の位置を前記第１の被写体の位置として決定することを特徴とする項目４または５に記載の画像処理装置。

（項目１２）
前記撮影映像を撮影する撮像装置と、
項目１乃至１１のいずれか１項目に記載の画像処理装置とを備えることを特徴とする撮影システム。

（項目１３）
前記撮影映像を撮影する第１の撮像装置と、
パン、チルト、ズームが可能な第２の撮像装置と、
項目１乃至１１のいずれか１項目に記載の画像処理装置とを備えることを特徴とする撮影システム。

（項目１４）
撮影映像を取得する第１の取得工程と、
前記撮影映像から第１の被写体であると推定される少なくとも１つの第２の被写体を検出し、それぞれの前記第２の被写体の位置と、それぞれの前記第２の被写体が前記第１の被写体である信頼度とを取得する第２の取得工程と、
過去の前記第１の被写体の位置と現在のそれぞれの前記第２の被写体の位置との距離を取得する第３の取得工程と、
前記撮影映像の画角内に映る実世界の広さを取得する第４の取得工程と、
前記距離と前記信頼度と前記実世界の広さとに基づいて、それぞれの前記第２の被写体から最も前記第１の被写体であると推定される第３の被写体を、前記第１の被写体として決定する決定工程と、
を有することを特徴とする画像処理方法。

（項目１５）
コンピュータを、項目１乃至１１のいずれか１項目に記載の画像処理装置の各手段として機能させるためのプログラム。

（項目１６）
コンピュータを、項目１乃至１１のいずれか１項目に記載の画像処理装置の各手段として機能させるためのプログラムを記憶したコンピュータが読み取り可能な記憶媒体。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

９１０：画像縮小部、９２０：競技特性決定部、９３０：撮影範囲取得部、９４０：補正関数決定部、９５０：物体検出部、９６０：検出結果補正部、９７０：撮影画角決定部、９８０：トリミング部

Claims

撮影映像を取得する第１の取得手段と、
前記撮影映像から第１の被写体であると推定される少なくとも１つの第２の被写体を検出し、それぞれの前記第２の被写体の位置と、それぞれの前記第２の被写体が前記第１の被写体である信頼度とを取得する第２の取得手段と、
過去の前記第１の被写体の位置と現在のそれぞれの前記第２の被写体の位置との距離を取得する第３の取得手段と、
前記撮影映像の画角内に映る実世界の広さを取得する第４の取得手段と、
前記距離と前記信頼度と前記実世界の広さとに基づいて、それぞれの前記第２の被写体から最も前記第１の被写体であると推定される第３の被写体を、前記第１の被写体として決定する決定手段と、
を備えることを特徴とする画像処理装置。
前記決定手段により決定された前記第３の被写体の位置に基づいて、前記撮影映像から前記第３の被写体が映る領域を切り出す切り出し手段をさらに備えることを特徴とする請求項１に記載の画像処理装置。
前記切り出し手段により前記撮影映像から切り出される映像は、配信映像であることを特徴とする請求項２に記載の画像処理装置。
前記第２の取得手段は、前記第１の被写体とは異なる第４の被写体であると推定される第５の被写体を検出し、前記第５の被写体の位置と、前記第５の被写体が前記第４の被写体である信頼度とをさらに取得することを特徴とする請求項１に記載の画像処理装置。
前記撮影映像は競技の映像であり、前記第１の被写体はボールであり、前記第４の被写体はプレイヤーであることを特徴とする請求項４に記載の画像処理装置。
前記距離に基づいて前記第２の被写体が前記第１の被写体である信頼度を補正するための補正関数を取得する第５の取得手段をさらに備え、前記決定手段は、前記補正関数を用いて補正した補正信頼度に基づいて、前記第３の被写体を決定することを特徴とする請求項１に記載の画像処理装置。
前記補正関数は、前記距離が大きいほど前記補正信頼度が低くなるように、前記信頼度を補正することを特徴とする請求項６に記載の画像処理装置。
前記補正関数は、前記画角に写る実世界の広さが大きいほど、前記距離の大きさに応じて前記補正信頼度を低く補正する程度を大きくすることを特徴とする請求項７に記載の画像処理装置。
前記撮影映像は競技の映像であり、該競技の特性を取得する第６の取得手段をさらに備え、前記第４の取得手段は、前記競技の特性に基づいて、前記実世界の広さを取得することを特徴とする請求項１に記載の画像処理装置。
前記第６の取得手段は、ユーザの選択に基づいて前記競技の特性を取得することを特徴とする請求項９に記載の画像処理装置。
前記決定手段は、前記第１の被写体であると推定される前記第２の被写体が検出されなかった場合に、過去の前記第１の被写体の位置に最も近い前記第４の被写体の位置を前記第１の被写体の位置として決定することを特徴とする請求項４に記載の画像処理装置。
前記撮影映像を撮影する撮像装置と、
請求項１乃至１１のいずれか１項に記載の画像処理装置とを備えることを特徴とする撮影システム。
前記撮影映像を撮影する第１の撮像装置と、
パン、チルト、ズームが可能な第２の撮像装置と、
請求項１乃至１１のいずれか１項に記載の画像処理装置とを備えることを特徴とする撮影システム。
撮影映像を取得する第１の取得工程と、
前記撮影映像から第１の被写体であると推定される少なくとも１つの第２の被写体を検出し、それぞれの前記第２の被写体の位置と、それぞれの前記第２の被写体が前記第１の被写体である信頼度とを取得する第２の取得工程と、
過去の前記第１の被写体の位置と現在のそれぞれの前記第２の被写体の位置との距離を取得する第３の取得工程と、
前記撮影映像の画角内に映る実世界の広さを取得する第４の取得工程と、
前記距離と前記信頼度と前記実世界の広さとに基づいて、それぞれの前記第２の被写体から最も前記第１の被写体であると推定される第３の被写体を、前記第１の被写体として決定する決定工程と、
を有することを特徴とする画像処理方法。
コンピュータを、請求項１乃至１１のいずれか１項に記載の画像処理装置の各手段として機能させるためのプログラム。
コンピュータを、請求項１乃至１１のいずれか１項に記載の画像処理装置の各手段として機能させるためのプログラムを記憶したコンピュータが読み取り可能な記憶媒体。