JP2023110780A

JP2023110780A - 画像処理装置、画像処理方法、及びプログラム

Info

Publication number: JP2023110780A
Application number: JP2022012430A
Authority: JP
Inventors: 恵子米沢; Keiko Yonezawa
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2023-08-09
Also published as: KR20230116678A; EP4220556A1; US20230274522A1; CN116524015A

Abstract

【課題】動画像に含まれる複数の画像における切出領域から切出画像を生成していく場合において、より適切な切出領域を決定できるようにすることを目的としている。【解決手段】処理対象の動画像を取得する取得手段と、動画像に含まれる画像から物体を検出する検出手段と、動画像に含まれる画像に対する検出手段の検出結果に基づき、当該画像における注目領域の位置を決定する決定手段と、動画像について決定手段により決定された注目領域の位置の移動に対応する軌跡と、切出領域のための基準位置とに基づき、切出領域の位置の移動に対応する軌跡である切出軌跡を導出する導出手段と、動画像に含まれる複数の画像の各々において切出軌跡に基づき特定される切出領域から、当該複数の画像の各々から切出画像を生成する生成手段と、を有する。【選択図】図４

Description

本発明は、画像処理技術に関する。

画像における切り出しの対象となる部分領域である切出領域を当該画像から切り出して切出画像を生成する技術がある。このとき画像中の切出領域の位置（またはサイズ）を逐次的に変化させることで、仮想的に撮像装置の撮像範囲を変更しているようにすることができる。このような切出領域の位置（またはサイズ）を変化させる処理をデジタルＰＴＺと呼ぶ。またデジタルＰＴＺにおいて、画像から検出された一又は複数の物体（人物など）の位置情報から当該画像における切出領域を決定して、当該画像から当該切出領域を切り出して切出画像を生成する技術がある。このとき、当該一又は複数の物体の位置の変動によって、動画像を構成する画像の各々で切出領域の位置が細かく変動してしまい、結果的に一連の切出画像からなる動画像（切出動画像）がユーザにとって見にくい違和感のある画となってしまうことがある。そこで特許文献１では、画像中の人物の位置に基づく線形回帰分析により求めた回帰直線に沿って切出領域の位置を移動させる旨の記載が開示されている。

特開２００５－２２３４８７号公報

しかしながら特許文献１では、切出領域の位置が画像中の人物の位置のみに依存し、画像に含まれる人物の挙動によっては、本来ユーザーが意図しない画像中の領域まで切出領域として決定されてしまうことがある。

そこで、本発明では、動画像に含まれる複数の画像における切出領域から切出画像を生成していく場合において、より適切な切出領域を決定できるようにすることを目的としている。

上記課題を解決するために、本発明の画像処理装置は以下の構成を備える。すなわち、処理対象の動画像を取得する取得手段と、前記動画像に含まれる画像から物体を検出する検出手段と、前記動画像に含まれる画像に対する前記検出手段の検出結果に基づき、当該画像における注目領域の位置を決定する決定手段と、前記動画像について前記決定手段により決定された注目領域の位置の移動に対応する軌跡と、切出領域のための基準位置とに基づき、切出領域の位置の移動に対応する軌跡である切出軌跡を導出する導出手段と、前記動画像に含まれる複数の画像の各々において前記切出軌跡に基づき特定される切出領域から、当該複数の画像の各々から切出画像を生成する生成手段と、を有する。

本発明により、動画像に含まれる複数の画像における切出領域から切出画像を生成していく場合において、より適切な切出領域を決定できる。

システム構成の一例を示す図である。画像処理装置１００の機能ブロックおよびハードウェア構成の一例を示す図である。注目領域の決定を説明するための図である。切出動画像を生成する処理の流れを説明するための図である。基準位置を説明するための図である。切出軌跡を説明するための図である。切出領域を特定する処理を説明するための図である。切出動画像を生成する処理を説明するための図である。

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

また以下の各実施形態では、スポーツシーンの撮像を例に取り説明するが、これに限らず、種々のイベントやコンサート、講義シーンの撮像に適用することも可能である。また、以下の各実施形態では、ネットワークに接続して他の装置と通信可能な撮像装置（ネットワークカメラ）として機能する画像処理装置について説明する。しかしこれに限らず、ネットワークに接続できない撮像装置として機能する画像処理装置に適用することも可能である。また、以下の各実施形態では、画像処理装置が撮像機能を有しているものとして説明するが、画像処理装置が撮像機能を有することに限らず、撮像機能を画像処理装置とは別の装置で実現させ、画像処理装置は撮像された画像を該別の装置から取得する構成としてもよい。さらに、こうして取得する画像は、複数の撮像装置により撮像された画像同士をスティッチング処理などにより合成したものであってもよい。

（実施形態１）
本実施形態における画像処理装置は、スポーツシーンを撮像して得られた動画像を取得し、動画像に含まれる選手やボールを検出した結果を用いて、動画像に含まれる各画像における切出領域から、切出画像を生成する。なお、ここではユースケースの一例としてバスケットシーンを用いて説明する。バスケットの試合では、一般に、左右どちらかのコートに選手が集中して存在してパス回しなどをしながら攻撃しているケースと、攻守が切り替わり選手がコート内を移動するケースとを繰り返しながら展開される。このようなケースにおいても、本実施形態によれば、選手の細かい動きの影響による切出領域の位置の細かい変動を抑制しつつ、攻守が切り替わる際には遅れずに選手やボールに追随する、試合展開に即した切出領域の位置の移動を実現することが可能になる。

ここで図１は、本実施形態におけるシステムの概略構成を示す。本実施形態におけるシステムは、撮像装置としても機能する画像処理装置１００と、クライアント装置２００とを含む。そして、画像処理装置１００とクライアント装置２００は、ネットワーク３００を介して相互に通信可能な状態に接続されている。本実施形態では、画像処理装置１００がネットワークに接続して他の装置と通信可能である装置（ネットワークカメラ等）を想定する。しかしながらネットワークに接続可能であることは必須ではなく、ＨＤＭＩ（登録商標）やＳＤＩのケーブルで直接的に画像処理装置１００とクライアント装置２００が接続された状態の構成であってもよい。または、過去に撮影し保存されている画像を取得して解析し、切り出し映像を作成する構成も可能である。

クライアント装置２００は、ユーザーによる操作に基づいて、画像処理装置１００に対して、映像（画像）ストリームの配信を要求する配信要求コマンドや、各種パラメータを設定するための設定コマンドを送信する。画像処理装置１００は、配信要求コマンドに応じて、映像ストリームをクライアント装置２００に配信し、設定コマンドに応じて、種々のパラメータを記憶する。画像処理装置１００の構成については後述する。クライアント装置２００は、パーソナルコンピュータやタブレット端末、スマートフォンなどのコンピュータに、所定のプログラムをインストールすることで実現することが可能である。

続いて、図２を参照して、画像処理装置１００について更に詳細に説明する。図２（Ａ）は、画像処理装置１００の機能ブロックの一例を示し、図２（Ｂ）は、画像処理装置１００のハードウェア構成の一例を示す。図２（Ａ）において、画像処理装置１００は、機能構成として、画像取得部２１１、検出部２１２、ＲＯＩ決定部２１３、設定部２１４、特徴点特定部２１５、軌跡導出部２１６、生成部２１７、出力部２１８を含んで構成される。なお、図２（Ａ）に示す各機能は、例えば、次のようにして実現される。すなわち、図２（Ｂ）を参照して後述する画像処理装置１００のＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）に格納されたコンピュータプログラムを撮像装置１００のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）が実行することで実現される。

画像取得部２１１は、後述する撮像部２２１が撮像した動画像を取得したり、外部装置（不図示）から動画像を取得したりする。

検出部２１２は、画像取得部２１１が取得した動画像を構成する複数の画像に対して、物体を検出する物体検出処理を実行する。本実施形態における検出部２１２は、検出対象の物体として、例えば、画像に含まれる選手やボールなどの検出対象の物体とする。検出部２１２は、例えば、機械学習による手法で、検出対象とする物体の特徴を学習した識別器を生成しておき、画像に対して当該識別器を用いて当該検出対象とする物体を検出する方法を用いてもよい。検出部２１２は、画像取得部２１１より取得した画像と、その画像にから検出された物体に関する情報（当該物体の位置情報やサイズ情報）を、記憶部２２２に保存する。

ＲＯＩ決定部２１３は、検出部２１２により検出された物体の位置情報に基づき、画像内の注目領域（ＲＯＩ）を算出する。なお、ＲＯＩは、ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔを意味する。ＲＯＩ算出部２１３は、画像におけるＲＯＩの中心位置の情報を取得して、記憶部２２２に保存する。

設定部２１４は、切出領域のための基準位置を設定する。基準位置の設定に関する詳細な説明については後述する。設定部２１４により設定された領域の情報は、記憶部２２２に保存される。

特徴点特定部２１５は、ＲＯＩ決定部２１３で取得したＲＯＩの中心位置の情報と、設定部２１４で取得した領域に基づき、特徴点を抽出する。抽出した特徴点は、記憶部２２２に保存する。

軌跡導出部２１６は、特徴点特定部２１５で取得された特徴点に基づき、切出領域の位置の移動を表す軌跡（切出軌跡）を導出する。軌跡導出部２１６により導出された切出軌跡の情報は記憶部２２２に保存する。

生成部２１７は、軌跡導出部２１６で導出された切出軌跡に基づき、記憶部２２２に保持された動画像に含まれる複数の画像の各々に対して切り出し処理を行い、一連の切出画像を生成する。また生成部２１７は、動画像を構成する画像の各々に対する切り出し処理により生成された一連の切出画像からなる動画像（以下、切出動画像）を生成する。

出力部２１８は、後述するＩ／Ｆ２２４を用いて、生成部２１７により生成された切出動画像を外部装置に出力する。

次に、画像処理装置１００のハードウェア構成例について、図２（Ｂ）を用いて説明する。図２（Ｂ）において、画像処理装置１００は、ハードウェア構成として、撮像部２２１、記憶部２２２、制御部２２３、Ｉ／Ｆ２２４、アクセラレータ部２２５を含んで構成される。

撮像部２２１は、レンズを通して結像した光を撮像素子において受光して、その受光した光を電荷に変換して、動画像を取得する。撮像素子には、例えば、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）イメージセンサを用いることができる。また、撮像素子にはＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）イメージセンサを用いてもよい。なお撮影部２２１は、本実施例ではハードウェア構成に含まれている場合を例に説明しているが、ハードウェア構成として必須のものではなく、過去に撮影されて保存されている動画像を、ネットワーク３００を通じて取得してもよい。

記憶部２２２は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）の両方、もしくは、いずれか一方により構成され、画像処理装置１００の各種動作／機能を行うためのプログラムを記憶する。また、記憶部２２２は、Ｉ／Ｆ２２４を介してクライアント装置２００等の外部装置から取得したデータ（コマンドや画像データ）や各種パラメータなどを記憶することができる。例えば記憶部２２２は、撮像部２２１が撮像した動画像を構成する画像の各々について、当該画像を撮像したときのパン・チルト・ズームの値や、当該画像を撮像したときのホワイトバランスや露出などカメラ設定に関連する情報を記憶する。また、記憶部２２２は、撮像される動画像のフレームレートや当該動画像のサイズ（解像度）を含む、動画像に関するパラメータも記憶し得る。

また、記憶部２２２は、制御部２２３が各種の処理を実行する際に用いるワークエリアを提供し得る。さらに、記憶部２２２は、フレームメモリやバッファメモリとして機能することも可能である。なお、記憶部２２２として、ＲＯＭ、ＲＡＭ等のメモリの他に、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、磁気テープ、不揮発性のメモリカード、ＤＶＤなどの記憶媒体を用いてもよい。

制御部２２３は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、または、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）により構成され、記憶部２２２に記憶されたプログラムを実行することにより画像処理装置１００全体を制御する。なお、制御部２２３は、記憶部２２２に記憶されたプログラムとＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）との協働により画像処理装置１００全体を制御するようにしてもよい。なお、制御部２２３は、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）等のプロセッサやＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などにより構成されてもよい。

Ｉ／Ｆ２２４は、ネットワーク３００を介してクライアント装置２００と通信するために、有線信号または無線信号の送受信を行う。

アクセラレータ部２２５は、ＣＰＵ、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＦＰＧＡ（ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）などや記憶部をもち、主にＤｅｅｐＬｅａｒｎｉｎｇによる高性能処理を行うために、カメラに付加される処理部である。

続いて図３および図４を参照して、本実施形態における画像処理装置１００の処理について説明する。なお本実施形態では、物体検出処理等の解析処理を画像処理装置１００で行う場合について示しているが、解析処理に関しては、外部よりＵＳＢなどで付加したアクセラレータ部で行ってもよいし、ＧＰＵやＦＰＧＡをもつ専用装置で実行させてもよい。

本実施形態では、図３に示すようなスポーツ競技を対象としたユースケースを想定する。図３では、バスケットを行う複数の選手３１０とバスケット・コート全体３２０を含むように、画像処理装置１００が撮像した画像３０を示す。さらに、画像３０に含まれる選手やボールの検出結果に基づき後述する処理により決定される切出領域３３０を示している。

動画像を構成する各画像３０に対して選手やボールの物体検出処理を実行し、その結果に基づき切出領域を決定する場合、時間的に前後するフレームの画像間では当該切出領域の位置は変化することがある。それは、試合展開に応じて選手が移動することによる変化のみではなく、誤検出や検出もれによる誤差にもとづくもの、ドリブルやパス回しなどによるものなど、本来その動きに応じてカメラを動かすべきではない変化を反映するものもある。本実施形態の画像処理装置１００は、そのような切り出される対象となる切出領域の位置のゆらぎを抑制するために、次のような処理を実行する。すなわち、動画像を構成する画像ごとに決定した注目領域の中心位置の移動に対応する軌跡に基づき、特徴点を特定する。その後、特定した特徴点をなめらかにつなぐ軌跡を切出軌跡として導出し、当該切出軌跡に従って切出領域を推移させることで、表示される映像としてなめらかな切出動画像を生成する。

図４は、本実施形態における画像処理装置１００のフローチャートである。図４に示すフローチャートは、例えば画像処理装置１００のＲＯＭに格納されたコンピュータプログラムを画像処理装置１００のＣＰＵが実行して実現される図２に示す画像処理装置１００の機能ブロックにより実行される。なお本実施形態では、予め録画された動画像（記録部２２２に保存された動画像）を処理対象として、以下の処理が実行されるものとする。なお本実施形態では、一例として、画像上のパン方向（水平方向）に切出領域の位置を変更する場合について説明する。

Ｓ４１０において、画像取得部２１１は、画像に係る設定を取得する。例えば画像取得部２１１は、記憶部２２２から、画像に関するパラメータを取得する。画像に関するパラメータには、画像処理装置（撮像装置）１００の撮像方向の情報、フレームレート、画像のサイズ（解像度）の情報などがある。本実施形態では、一例として、画像に関するパラメータとして、画像のサイズは１９２０×１０８０画素、フレームレートは３０ｆｐｓの情報が取得されるものとする。

次にＳ４２０において、設定部２１４は、基準位置の設定を行う。本実施形態の場合、バスケットの左右のゴールの位置とコート中心の位置を基準位置として設定する。図５は、設定された基準位置を示す図である。図５に示すように、左側のコートに対応する基準位置５１０、コート中央に対応する基準位置５２０、および右側のコートに対応する基準位置５３０が設定されている。ここで、画像に設定された基準位置５１０～５３０のうち、パン方向（画像の水平方向）において、一方の端に位置する基準位置５１０と、他方の端に位置する基準位置５３０を、範囲基準位置と呼ぶ。詳細については後述するが、範囲基準位置である基準位置５１０から基準位置５３０までのパン方向（画像の水平方向）における範囲にて、切出領域の中心位置が位置することが可能となる。なお基準位置の設定は、ユーザーによってマニュアルで行うことも可能だし、ゴールリングなど対象とするスポーツに特徴的なランドマークを検出することで、自動的に設定することも可能である。また図５の基準位置５２０のように、中心は個別に設定するのではなく、基準位置５１０および基準位置５３０を設定したのちにその中心線として基準位置５２０を導出するようにしてもよい。

なお、ユースケースによって基準位置の設定を変えてもよく、バスケットのように対面式のスポーツでは、例えば、図５に示すように、中心と両側に基準位置を設定する。また同様の例としては、バレーボールやテニスなどが考えられる。それに対して同じ対面式でも、サッカーやラグビーのようにグランドが広くなると、より細かく基準位置を設定してもよい。

Ｓ４３０において、画像取得部２１１は、処理対象の動画像を構成する各画像を取得する。なお、当該処理対象の動画像は、事前に録画された動画であり、例えば、記憶部２２２から取得したり、他の外部装置から取得することものとする。また取得される画像は、図３に示す画像３０のようなスポーツの試合全体を見渡せる俯瞰画像であり、ここから切出画像が生成されることになる。俯瞰画像は、図３のバスケットの例で示すように、広角カメラでコート全体を撮影する場合や、魚眼カメラで撮影した映像を変換して作成するもの、複数カメラからの映像を合成したものなどが考えられる。サッカーやラグビーなど広いコートで行われるスポーツの場合には、一台の広角カメラでは画角内に試合全体を含めることが難しいために、魚眼カメラや、複数台のカメラの合成映像が用いられる場合が多い。

Ｓ４４０において、検出部２１２は、Ｓ４３０で取得した処理対象の動画像に含まれる各画像に対して物体検出処理を行い、ターゲットとなる物体を検出する。ここでは図３で示したバスケットのシーンを想定し、検出ターゲットは選手とボールとする。物体検出処理の方法としては、機械学習、特にＤｅｅｐＬｅａｒｎｉｎｇをベースとした手法が、精度も高くリアルタイム処理に対応可能な高速化を達成している手法として知られている。具体的には、ＹＯＬＯ（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ）やＳＳＤ（ＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉｂｏｘＤｅｔｅｃｔｏｒ）などがあげられるが、ここではＳＳＤを用いた場合について示す。ＳＳＤは複数物体が写っている画像からそれぞれの物体を検出する方法の一つである。ＳＳＤを用いて選手やボールを検出する識別器を構築するために、複数の画像から人物やボールが写っている画像を集めて学習用データとして準備する。具体的には、画像中の人物やボールの領域を抽出し、その中心位置の座標と大きさを記載したファイルを作成する。このようにして準備した学習データを学習し、人体やボールを検出する識別器を構築する。構築した識別器を用いて画像から人物やボールなどの物体を検出し、検出した当該物体の領域の位置を示す位置情報と当該領域のサイズを示すサイズ情報を取得する。検出された物体の領域の位置情報は、画像の左上を原点とする座標として、検出された物体の領域の中心位置のＸＹ座標で示される。また検出された物体の領域のサイズ情報は、当該領域の幅および高さのピクセル数で示される。

Ｓ４５０において、ＲＯＩ決定部２１３は、Ｓ４４０で検出された物体の検出結果に基づき、注目領域（ＲＯＩ）の中心位置を決定する。ここで注目領域の決め方には、ユースケースに応じた複数の方法が考えられる。例えば、ＲＯＩ決定部２１３は、画像から検出された一又は複数の選手とボールの各々の位置の重心位置をＲＯＩの中心位置として決定する。このとき、当該重心位置を算出するにあたって、加重平均を用いて、選手またはボールのいずれかの重みづけを大きくしてもよい。例えば、ＲＯＩ決定部２１３は、一又は複数の選手とボールの位置の重心位置を算出する際に、ボールにより多くの重みを付けた加重平均を行ってもよい。またその重みは、試合展開に応じて変化させることも可能である。具体的には、バスケットのフリースローやサッカーのゴールキックなど、よりボール位置が重要になるシーンでは重心位置の算出におけるボールの位置に付与される重みをより大きくするなどが考えられる。また、選手のチームによって重みを変えることが考えられる。どちらかのチームのスポンサーとして、片方のチームの選手を中心に切り出し映像を作成したい場合や、それぞれのチームの選手に重みをつけた２パターンの切出動画像を生成して、ユーザーが選択することも考えられる。さらに、特定の選手に重みをつけたり、特定のプレーに重みを付けたりすることなども可能である。

このように、注目領域の決定方法は様々でありユーザーにより決定方法が選択されるようにしてもよい。また複数の決定方法を用いて、当該複数の決定方法の各々により複数のパターンの切出画像が生成されるようにしてもよい。また本実施形態では、ＲＯＩ決定部２１３は、注目領域のサイズ（拡大率、切り出し映像のズーム倍率に相当する）を所定のサイズ（例えばハーフコートが収まるサイズ）に決定するものとするが、これに限らない。

Ｓ４６０において、制御部２２３は、注目領域を決定するべき画像データがあるか否かを判断する。注目領域を決定すべき画像がまだあれば（Ｓ４６０でＹｅｓ）、処理はＳ４３０に戻り、次の画像に対する処理を継続する。注目領域を決定すべき画像がなければ（Ｓ４６０でＮｏ）、処理はＳ４７０に進む。

Ｓ４７０において、特徴点特定部２１５は、Ｓ４５０で取得した画像ごとの注目領域の中心位置と、Ｓ４２０で設定された基準位置とから、切出領域のための特徴点を抽出する。

図６に特徴点抽出の模式図を示す。図６（Ａ）では、処理対象の動画像を構成する画像ごとのパン方向の注目領域の中心位置の移動の軌跡６１０を示している。横軸が処理対象の動画像を構成する画像のフレーム数を表し、０から１００００フレームまであるものとする。また図３で説明したように、切り出し処理の対象となる画像３０は１９２０ｘ１０８０（ピクセル。以下ｐｘと記載）のサイズであり、デジタルＰＴＺの切出領域の中心位置のパン方向に移動し得る範囲は、画像３０の横幅に対応する０～１９２０（ｐｘ）の範囲となる。なおここでの図６（Ａ）に示される注目領域の中心位置の遷移は、Ｓ４４０で取得したフレームごとの注目領域の中心位置のプロットに対して、平滑化処理を行ったグラフである。

ここで、図６（Ａ）で示す注目領域の中心位置の移動の軌跡６１０に対し、基準位置５１０～５３０に対応するラインが重畳されたものを図６（Ｂ）に示す。ここで、画像３０における左側ゴールに対応する範囲基準位置である基準位置５１０は、パン方向におけるパン位置６００（ｐｘ）に対応している。よって、図６（Ｂ）では、パン位置６００（ｐｘ）に基準位置５１０のラインが重畳されている。また、画像３０におけるコート中心に対応する基準位置５２０は、パン方向におけるパン位置９７５（ｐｘ）に対応している。よって、図６（Ｂ）では、パン位置９７５（ｐｘ）に基準位置５２０のラインが重畳されている。また、画像３０における右側ゴールに対応する範囲基準位置である基準位置５３０は、パン方向におけるパン位置１３５０（ｐｘ）に対応している。よって、図６（Ｂ）では、パン位置１３５０（ｐｘ）に基準位置５３０のラインが重畳されている。

また図６（Ｂ）では、更に特徴点の特定の様子を示す。本実施形態における特徴点特定部２１５は、各フレームの画像における注目領域の中心位置の軌跡６１０と、基準位置５１０～５３０各々との交点を特徴点として抽出する。また、特徴点特定部２１５は、軌跡６１０の開始位置（フレーム数０のときの位置）および軌跡６１０の終了位置（フレーム数１００００のときの位置）それぞれに追加の特徴点（追加特徴点）を追加する。

次にＳ４８０において、軌跡導出部２１６は、Ｓ４７０で特定された各特徴点を通るような軌跡を切出領域の中心位置の軌跡（切出軌跡）として導出する。このようにして算出される切出軌跡が図６（Ｃ）に示す切出軌跡６２０である。なお、図６（Ｃ）に示すように、切出領域の中心位置が取りえる範囲は、範囲基準位置である基準位置５１０から基準位置５３０までの範囲となる。

なお、切出軌跡を導出するにあたって、各フレームの画像における注目領域の中心位置の軌跡６１０と、基準位置５１０～５３０各々との交点である特徴点を用いたが、これに限らず、更に追加の特徴点（追加特徴点）を用いてもよい。ここで、追加特徴点を追加する方法について説明する。この場合、特徴点特定部２１５は、軌跡６１０と、基準位置５１０～５３０各々との交点である特徴点のうち、隣り合う２つの特徴点を結んだ直線と、当該２つの特徴点間の軌跡６１０との乖離度を算出する。なお、特徴点特定部２１５は、当該２つの特徴点を結んだ直線の各位置と、当該２つの特徴点間の軌跡６１０の各位置について、パン位置（ｐｘ）の差分値を導出し、導出した各位置における差分値のうちの最大値を乖離度として算出する。そして、特徴点特定部２１５は、２つの特徴点を結んだ直線と当該２つの特徴点間の軌跡６１０とについて算出した乖離度および閾値を比較し、閾値よりも乖離度が大きい場合に、当該２つの特徴点の間に追加特徴点を加える。ここで図６（Ｄ）を参照して、注目領域の中心位置の軌跡６１０と基準位置５１０～５３０のいずれかの交点である特徴点のうち、隣り合う特徴点６３０と特徴点６４０とから追加特徴点を導出する場合について説明する。特徴点特定部２１５は、特徴点６３０と特徴点６４０とを結ぶ直線の各位置と、特徴点６３０と特徴点６４０の間の軌跡６１０の対応する各位置におけるパン位置（ｐｘ）の差分値を算出する。特徴点特定部２１５は、特徴点６３０と特徴点６４０とを結ぶ直線の各位置について算出されたパン位置（ｐｘ）の差分値のうちの最大値を乖離度として算出する。そして、特徴点特定部２１５は、算出した乖離度と閾値とを比較する。この場合、算出された乖離度は閾値より大きいものとし、特徴点特定部２１５は、追加特徴点６５０を追加する。このとき、特徴点６３０と特徴点６４０とを結ぶ直線の各位置と、特徴点６３０と特徴点６４０の間の軌跡６１０の対応する各位置におけるパン位置（ｐｘ）の差分値のうち、もっとも差分値が大きいときの（最大値のときの）軌跡６１０上の位置に追加特徴点６５０が追加される。また同様の方法で、追加された別の追加特徴点６６０も図６（Ｄ）で示される。追加特徴点が追加されたのち、軌跡導出部２１６は、抽出された各特徴点（追加特徴点も含む）を通るような軌跡を切り出し領域の中心位置の軌跡（切出軌跡）として導出する。このようにして導出された切出軌跡が図６（Ｅ）に示す切出軌跡６７０である。

なお、追加特徴点が追加され得るパン位置（ｐｘ）の範囲は、範囲基準位置である基準位置５１０から基準位置５３０までの範囲に限定される。言い換えれば、追加特徴点が追加され得るパン位置（ｐｘ）の範囲は、画像３０のパン方向（水平方向）における左端の基準位置５１０から、パン方向（水平方向）における右端の基準位置５３０の範囲に限定される。図６（Ｂ）の例の場合、パン位置６００（ｐｘ）からパン位置１３５０（ｐｘ）までの範囲でのみ、追加特徴点が追加されるようになる。つまり、基準線５３０のパン位置（ｐｘ）を超えるパン位置の範囲、および基準線５１０のパン位置を下回るパン位置（ｐｘ）の範囲には、追加特徴点の追加を行わないようにする。これより、切出領域の中心位置は、あくまで、範囲基準位置５１０から基準線５３０の範囲に限定されることになる。このような限定をすることで、図５に示す左右のコート内でどちらかのチームが攻撃を続けている場合には、デジタルＰＴＺにおけるカメラワーク（言い換えれば切り出し領域の位置）を固定することができる。

図４の説明に戻り、Ｓ４８０にて、軌跡導出部２１６は、Ｓ４７０で取得した図６（Ｄ）に示す各特徴点を滑らかに連結して、切出軌跡を導出する。このようにして導出された切出軌跡が、図６（Ｅ）に示す切出軌跡６７０である。このとき、上述のように、切出領域の中心位置がとりえる範囲は、範囲基準位置である基準位置５１０から基準位置５３０までに限定される。

なお、図６（Ｂ）に示す各特徴点から図６（Ｃ）に示す切出軌跡６２０を算出し、図６（Ｄ）に示す各特徴点から図６（Ｅ）に示す切出軌跡６７０を導出したが、ここで切出軌跡を導出する方法について更に具体的に説明する。各特徴点を連結して切出軌跡を導出する方法は様々なものが考えられるが、滑らかで連続性が高い方法が求められている。例えば、軌跡導出部２１６は、区分的３次エルミート補完法を用いて、各特徴点から切出軌跡を導出する。区分的３次エルミート補完法とは、定義域を小領域に分割し、領域ごとに３次までの多項式で近似する方法であり、計算量やメモリを増やすことなく滑らかに接続された内挿を行うことを可能にする。そのため、この手法を用いると、例えば、軌跡６１０から上下に外れるオーバーシュートを抑制することができ、滑らかに連結させることができる。また軌跡６１０から上下に外れる切出軌跡が生成されないため、例えば図３において、コートのパン方向における端まで切出領域が位置してしまうようなケースを抑制することができる。言い換えればユーザーの意図しないような領域（例えばコートから外れるような端の領域）に切出領域が位置してしまうことを抑制できる。

Ｓ４９０において、生成部２１７は、処理対象の動画像に含まれる各フレームの画像の各々から、Ｓ４８０で取得した切出軌跡に基づき特定される切出領域の部分を切り出して切出画像を生成する。そして、生成部２１７は、当該各フレームの画像の各々から得られる一連の切出画像を切出動画像とする。なお画像から切出画像を生成するためには、当該画像における切出領域（図５で示した切出領域３３０など）の４頂点を算出する必要がある。本実施形態では、画像３０を撮像した撮像装置と同じ位置に設置されたカメラが、切出軌跡によって示される切出領域の中心位置（例えばパン位置６００（ｐｘ））に向けて撮影した場合の撮像領域となるような、切出領域を特定する。

ここで図７を参照して、処理対象の動画像に含まれる各フレームの画像から切出領域の４頂点を算出する方法について説明する。図７（Ａ）は、撮像装置により撮像された処理対象の動画像を構成する画像（画像３０）と、当該撮像装置の位置Ｏを原点とした球面座標の関係を示す。なお、本実施形態では、動画像を撮像する撮像装置の位置および撮像範囲は固定であるものとし、図７（Ａ）に示す球面座標と、動画像の構成する各画像の位置関係は変わらないものとする。また図７（Ａ）に示すように、動画像を構成する画像の中心位置はＲで示され、当該画像の水平方向がｘ軸、当該画像の垂直方向がｚ軸で表される。また図７（Ｂ）は球面座標（ｒ、θ、φ）の定義を示している。

生成部２１７は、処理対象の動画像を構成する画像のうちの現在の処理対象の画像について、当該処理対象の画像が処理対象の動画像を構成する各画像のうちの何フレーム目かを特定する。ここで例えば処理対象の画像が４０００フレーム目であると特定する。生成部２１７は、導出した切出軌跡に基づき、４０００フレーム目における切出領域の中心位置を特定する。図６（Ｅ）に示す切出軌跡６７０の例の場合、生成部２１７は、処理対象の画像について、切出領域の中心位置は１３５０（ｐｘ）であると特定する。そして、生成部２１７は、図７（Ａ）に示す画像における特定した切出領域の中心位置を、画像変換により球面座標上の点Ｕ（θｃ，φｃ）に変換する。このときの点Ｕは図７（Ｃ）に示される。そうして点Ｕを中心として、生成部２１７は、切出領域のサイズに対応する水平画角を２Δθ、垂直画角を２Δφとして、以下のように４頂点（Ｆ１、Ｆ２、Ｆ３、Ｆ４）の球面座標上の位置を取得する。

そして、生成部２１７は、球面座標上の切出領域の４頂点の位置の各々を、再度図７（Ａ）に示す処理対象の画像上の座標に変換したものを、切出領域の４頂点として取得する。このような処理によって特定される切出領域の一例が、図３に示す切出領域３３０である。そして生成部２１７は、処理対象の画像上で特定された切出領域を切り出し、切り出した後の画像に対し射影変換等の歪み補正の処理を施すことで切出画像を生成する。処理対象の動画像の各フレームの画像に対し、上述の処理が実行され、各画像から切出画像が生成される。

そして、Ｓ４９０において生成される一連の切出画像からなる切出動画像は、出力部２１８により、他の外部装置に送信される。

なお上述の説明において、画像におけるパン方向（画像水平方向）上で切出領域の中心位置を変化させる場合について説明したが、これに限らず、画像におけるチルト方向（画像垂直方向）上で切出領域を変化させてもよい。この場合、画像処理装置１００は、処理対象の動画像に含まれる複数の画像の各々についてチルト方向における注目領域の位置の軌跡を導出する。そして、画像処理装置１００は、図６を参照して説明したように、予め設定した基準位置と、チルト方向における注目領域の位置の軌跡とから、特徴点を特定し、各特徴点をつないだ切出軌跡を導出する。その後、画像処理装置１００は、当該切出軌跡を用いて、処理対象の動画像から一連の切出画像を生成する。

以上説明したように、本実施形態における画像処理装置１００は、動画像に含まれる複数の画像について注目領域の位置を決定し、当該注目領域の位置の移動の軌跡と、基準位置とに基づき、特徴点を特定する。そして、画像処理装置１００は、特定した特徴点に基づき、切出軌跡を導出し、動画像に含まれる複数の画像各々において当該切出軌跡に従って特定される切出領域から、切出画像を生成する。また画像処理装置１００は、動画像に含まれる複数の画像の各々から得られた一連の切出画像からなる切出動画像を取得する。以上のようにすることで、例えば選手の細かい動きやドリブルなどがあっても画としてぶれない切出動画像を生成しつつ、攻守が切り替わる際には遅れずに選手やボールに追随する切出動画像を生成することができる。また、基準位置により切出領域がとりえる位置の範囲に制限を課すことで、ユーザーの意図しない領域まで切出領域として決定されてしまうことを抑制することができる。

（実施形態２）
次に、実施形態２について説明する。なお、実施形態１と同様な部分については、説明を省略する。実施形態１では、比較的長い時間の動画像に対して最適な切出軌跡を導出して切出動画像を生成する方法について説明した。本実施形態では、Ｓ４７０やＳ４８０で示した切出軌跡を導出する処理を或る時間ごとに区切って実行する場合について説明する。

以下図８のフローを参照して、本実施形態における画像処理装置１００の処理について説明する。図８に示すフローチャートは、例えば画像処理装置１００のＲＯＭに格納されたコンピュータプログラムを画像処理装置１００のＣＰＵが実行して実現される図２に示す画像処理装置１００の機能ブロックにより実行される。なお、Ｓ８２０、Ｓ８６０、Ｓ８８０、Ｓ８９５以外の処理は、第１実施形態において説明した図４の処理と同様のため、説明を省略する。

Ｓ８２０において、設定部２１４は、切出動画像を生成するための解析の対象となる画像フレーム数の範囲に対応する対象区間（何秒分の映像を解析するか）の設定を行う。対象区間は、長くなればなるほど、より全体の流れが考慮された滑らかなデジタルＰＴＺにおけるカメラワークを求めることができるが、その分だけ、切出動画像の生成が遅くなり、ユーザーが映像を見られるまでに時間を要する。例えばバスケットには、２４秒ルール（オフェンスの際には、２４秒以内にシュートを打たなければからない）や１４秒ルール（オフェンスがリバウンドを取った時に、１４秒以内に次のシュートを打たなければならない）がある。これらは試合にスピード感を持たせるためのルールだが、これらのルールを踏まえると、片方のコートに１分以上滞在する可能性は低くなる。これよりここでは、対象区間を１分、３０ｆｐｓの場合には１８００フレーム分とする。ここで、対象区間を、状況に応じて変更することも可能である。以下では、対象区間も一定の場合について説明するが、試合の展開がスピーディな場合に、対象区間を小さくすることが考えられる。

Ｓ８６０において、制御部２２３は、注目領域を決定するべき画像のフレームがまだあるか否かを判断する。Ｓ８２０で設定した対象区間により、１８００フレーム分の注目領域の決定が完了していなければ（Ｓ８６０でＹｅｓ）、処理はＳ４３０に戻り、次の画像フレームに対する処理を継続する。１８００フレーム分の注目領域の決定が完了していれば（Ｓ８６０でＮｏ）、処理はＳ４７０に進む。

Ｓ８８０において、軌跡導出部２１６は、Ｓ４７０で取得した現在の処理対象の対象区間における動画像から特定された特徴点を用いて切出軌跡を導出する。なおこれに限らず、軌跡導出部２１６は、現在の処理対象の対象区間の１つ前の対象区間における動画像で特定された特徴点も用いて、現在の処理対象の対象区間における動画像について切出軌跡を導出してもよい。具体的には、軌跡導出部２１６は、現在の対象区間に対応する１８００フレーム分の注目領域の軌跡に対して特定した特徴点と、１つ前の対象区間の終了付近（例えば終了時のフレームから５０フレーム前までのフレーム）における特徴点と、から切出軌跡を導出するようにしてもよい。このように前の対象区間の動画像における特徴点を追加することで、対象区間同士の境界でも切出領域の位置の連続性を保った切出動画像を生成することができる。

Ｓ８９５において、制御部２２３は、切出画像を生成するべきデータがあるか否かを判断する。未処理のフレームの画像からなる動画像がまだあり、次の対象区間の切り出し処理が必要であれば（Ｓ８９５でＹｅｓ）、処理はＳ８２０に戻り、次の対象区間の設定を行う。未処理のフレームの画像からなる動画像なく、次の対象区間の処理が必要なければ（Ｓ８９５でＮｏ）、図８に示す処理は終了する。

以上説明したように、本実施形態における画像処理装置１００では、取得される動画像から対象区間で区切って随時切出動画像を生成していくことで、リアルタイムに近い状態で切出動画像を生成することができる。

（その他の実施形態）
また、本発明は、上述の実施形態の１以上の機能を実現するプログラムを１つ以上のプロセッサが読出して実行する処理でも実現可能である。プログラムは、ネットワーク又は記憶媒体を介して、プロセッサを有するシステム又は装置に供給するようにしてもよい。また、本発明は、上述の実施形態の１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

また、本発明は以上説明した各実施形態に限定されることはなく、本発明の要旨を逸脱しない範囲において種々変更が可能である。例えば、各実施形態を組み合わせたものも本明細書の開示内容に含まれる。

１０画像処理システム
１００画像処理装置
２００クライアント装置
３００ネットワーク

Claims

処理対象の動画像を取得する取得手段と、
前記動画像に含まれる画像から物体を検出する検出手段と、
前記動画像に含まれる画像に対する前記検出手段の検出結果に基づき、当該画像における注目領域の位置を決定する決定手段と、
前記動画像について前記決定手段により決定された注目領域の位置の移動に対応する軌跡と、切出領域のための基準位置とに基づき、切出領域の位置の移動に対応する軌跡である切出軌跡を導出する導出手段と、
前記動画像に含まれる複数の画像の各々において前記切出軌跡に基づき特定される切出領域から、当該複数の画像の各々から切出画像を生成する生成手段と、
を有することを特徴とする画像処理装置。
前記動画像について前記決定手段により決定された前記注目領域の位置の移動に対応する軌跡と、前記基準位置とに基づき、前記切出軌跡の導出に用いる特徴点を特定する特定手段を更に有し、
前記導出手段は、前記特定手段により特定された特徴点に基づき、前記切出軌跡を導出することを特徴とする請求項１に記載の画像処理装置。
前記特定手段は、前記注目領域の移動に対応する軌跡と、前記基準位置との交点に基づき、前記特徴点を特定することを特徴とする請求項２に記載の画像処理装置。
前記特定手段は、前記注目領域の移動に対応する軌跡と、前記基準位置との交点に基づき特定した特徴点を用いて、追加の特徴点を特定し、
前記導出手段は、前記特徴点および前記追加の特徴点に基づき、前記切出軌跡を導出することを特徴とする請求項３に記載の画像処理装置。
前記導出手段は、３次エルミート補完法を用いて、前記切出軌跡を導出することを特徴とする請求項１乃至４のいずれか１項に記載の画像処理装置。
前記基準位置は、ユーザーの操作に基づき設定されることを特徴とする請求項１乃至４のいずれか１項に記載の画像処理装置。
前記基準位置は、前記検出手段により画像から検出された特定の物体の位置に基づき設定されることを特徴とする請求項１乃至４のいずれか１項に記載の画像処理装置。
前記取得手段により取得される前記動画像は、予め録画された動画像であることを特徴とする請求項１乃至７のいずれか１項に記載の画像処理装置。
処理対象の動画像を取得する取得工程と、
前記動画像に含まれる画像から物体を検出する検出工程と、
前記動画像に含まれる画像に対する前記検出工程の検出結果に基づき、当該画像における注目領域の位置を決定する決定工程と、
前記動画像について前記決定工程において決定された注目領域の位置の移動に対応する軌跡と、切出領域のための基準位置とに基づき、切出領域の位置の移動に対応する軌跡である切出軌跡を導出する導出工程と、
前記動画像に含まれる複数の画像の各々において前記切出軌跡に基づき特定される切出領域から、当該複数の画像の各々から切出画像を生成する生成工程と、
を有することを特徴とする画像処理方法。
コンピュータを、請求項１乃至８のいずれか１項に記載の画像処理装置として機能させるためのコンピュータプログラム。