JP2023165323A

JP2023165323A - 画像処理装置及びその制御方法及びプログラム

Info

Publication number: JP2023165323A
Application number: JP2022076220A
Authority: JP
Inventors: 賢黒田; Masaru Kuroda
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-05-02
Filing date: 2022-05-02
Publication date: 2023-11-15

Abstract

【課題】競技フィールドを俯瞰する画像を処理対象とした場合、自然で違和感の無い部分画像を切り出す。【解決手段】入力画像における部分画像を切り出す画像処理装置は、入力画像に含まれるオブジェクトの位置と属性を検出する検出部と、該検出部で検出した属性に基づき、切り出す際に参照するオブジェクトを選択する選択部と、該選択部で選択されたオブジェクトの位置の分布に基づいて、入力画像における切り出す領域を判定する判定部と、入力画像における、判定部で判定された領域の部分画像を切り出し、出力する出力部とを有する。【選択図】図３

Description

本発明は、画像処理装置及びその制御方法及びプログラム、特に映像内の特定の領域の切り出し技術に関するものである。

近年、スポーツにおいて試合動画を自動生成することが行われている。例えば、被写体の動きに合わせて撮像装置を制御することは難易度が高いため、試合が行われる競技フィールド全体を含む画角で撮影した画像を取得し、必要な部分を切り出す方法がある。しかし、取得した画像から単純に矩形として切り出す場合では、撮像装置を被写体方向に向けて撮影した画角とは異なってしまう。そこで、あたかも撮像装置を向けたような画角となるような変形を、切り出した領域画像に対して施すことが行われている。試合のシーンに応じて取得した画像のどこを切り出すべきなのかを都度判断する必要があるため、取得した画像において何が何処にあるかを判定することで、画角の決定を行うシステムが提案されている。

特許文献１は、競技場を複数の区域に分割し、選手の位置を判断し、最も多くの選手を包含する区域を判断することで放送すべき領域を決定している。この特許文献１は、更にゲームシナリオを加味し、撮像装置のパン、チルト、ズームを調節している。特許文献２は、特定対象の位置情報を追跡し、その位置情報によってズーム倍率を変更することで、特定対象が画角に収まるように制御している。

特表２０１７－５３１９７９号公報特開２０２０－７７９５２号公報

しかしながら、特許文献１では、競技フィールド内には選手しかいない場合には適用されるが、審判や他の役割を持つ人物が混在する場合における領域の判断には課題が残る。特許文献２では、特定対象を含めるために画角を広げる方向への調整は可能であるが、競技フィールド内で画角を狭める方向への調整は出来ないという課題がある。

本発明は上記の問題を鑑み、特に競技フィールドを俯瞰する画像を対象とした場合に、自然で違和感の無い部分画像を切り出す技術を提供しようとするものである。

この課題を解決するため、例えば本発明の画像処理装置は以下の構成を備える。すなわち、
入力画像における部分画像を切り出す画像処理装置であって、
前記入力画像に含まれるオブジェクトの位置と属性を検出する検出手段と、
該検出手段で検出した属性に基づき、切り出す際に参照するオブジェクトを選択する選択手段と、
該選択手段で選択されたオブジェクトの位置の分布に基づいて、前記入力画像における切り出す領域を判定する判定手段と、
前記入力画像における、前記判定手段で判定された領域の部分画像を切り出し、出力する出力手段とを有する。

本発明によれば、特に競技フィールドを俯瞰する画像を処理対象とした場合、自然で違和感の無い部分画像を切り出すことが可能になる。

システム全体の一例を示す図。システムの一部を構成する、画像処理装置のハードウェア構成を示す図。システムのソフトウェア構成を示す図。学習モデルの概念図。学習モデルを利用した本発明を適用できるシステムの動きを示す図。実施形態における学習処理を示すフローチャート。第１の実施形態における映像切り出し処理を示すフローチャート。第１の実施形態における、撮像装置によって得られた画像の例を示す図。第１の実施形態における、推論によって得られた結果を重畳した模式図。（ａ）は第１の実施形態における切り出し領域を重畳した図、（ｂ）は切り出し後の変換を施した画像の例を示す図。第１の実施形態における変換処理を説明するための図。第２の実施形態における推論結果と切り出し領域を重畳した図。第２の実施形態における切り出し処理を示すフローチャート。第２の実施形態における競技ステータスに係る処理を示すフローチャート。第３の実施形態における画角計算時の重み付与に関するフローチャート。

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。なお、以下では、理解を容易にするため、スポーツを例に取り説明するが、イベントやコンサート、講義シーンの撮像に適用することも可能である。また、各実施形態では、撮像装置と画像処理装置が別筐体として説明するが、一つの装置に統合した構成としてもよい。

［第１の実施形態］
図１は、第１の実施形態に係る切り出し処理を実施する画像処理装置１０３を含むシステムの構成の一例を示す図である。図１において、システムは、ＬＡＮ（Local Area Network）上で形成されたネットワーク１０１、撮像装置１０２、画像処理装置１０３、クライアント端末１０４を備える。クライアント端末１０４は、ＰＣ、タブレット等に代表される情報処理装置である。また、図示では、クライアント端末１０４が１つの例を示しているが、その数に特に制限はない。

ネットワーク１０１は、撮像装置１０２、画像処理装置１０３、クライアント端末１０４が接続するネットワークであり、各種の通信プロトコルによって相互に通信することができる。また、ネットワーク１０１は、有線、無線の種類は問わない。

撮像装置１０２は、決められた範囲（実施形態では、競技場全体を俯瞰する範囲）を撮影し、取得した画像を画像処理装置１０３へ出力する。本実施形態における撮像装置１０２は、ネットワークインタフェースを有するものとして説明しているが、撮像装置１０２から画像処理装置１０３へ映像転送は、ＳＤＩ（Serial Digital Interface）やＨＤＭＩ（High-Definition Multimedia Interface）といった映像伝送ケーブルを介して行っても構わない。

画像処理装置１０３は、撮像装置１０２が撮像した画像を受信し、その受信画像中における人物の位置と人物の属性を、学習モデルを利用して推論する。そして、画像処理装置１０３は、その推論結果に基づき、画像中の切り出し領域の決定と、決定した切り出し領域で切り出された部分画像の変換処理を行う。この変換で得られた画像は内部に蓄積し、クライアント端末１０４からの要求に応じて出力（送信）する。

クライアント端末１０４は、撮像装置１０２や画像処理装置１０３における入出力の確認や設定を、Ｗｅｂブラウザを用いて実施することができる。本実施形態のクライアント端１０４は、ＨＴＴＰプロトコルを用いて、Ｗｅｂブラウザを介して画像処理装置１０３から画像を取得するものとして説明するが、他の通信プロトコルを用いてもよい。なお、実施形態における画像とは、静止画および動画における各フレームのいずれかを示すものであり、本発明に置いては両方に適用されうる。

図２は、主に、システムの一部を構成する画像処理装置１０３のハードウェア構成図である。実施形態における画像処理装置１０３は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０３、ＮＩＣ（Network Interface Card)２０４、入力部２０５、表示部２０６、ＧＰＵ２０７、外部記憶装置２０９，及び、上記の構成要素を互いに通信可能に接続する内部バス２０８を有する。

ＣＰＵ２０１は、画像処理装置１０３の各構成要素を制御することで、装置全体の制御を司る。ＲＯＭ２０２は、不揮発性のメモリであり、ＣＰＵ２０１の処理手順を記述した制御プログラムを記憶するためのものである。また、図４に示す学習モデルや制御プログラムが動作時に参照するデータ等を格納する。ＲＡＭ２０３は、ワークメモリとして一時的に制御プログラムやデータを格納するものである。

ＮＩＣ２０４は、外部機器とネットワーク１０１を介して通信を行うためのものである。本実施形態のＮＩＣ２０４は、操作のためのウェブアプリケーションをクライアント端末１０４へ送信すること、クライアント端末１０４からのユーザの指示を受信すること、撮像装置１０２からの画像の送受信などに用いられる。

入力部２０５は、ユーザからの指示を受け付け、ＣＰＵ２０１に対して指示信号を送信するものである。入力部２０５の具体例としては、マウス、キーボード、タッチパネルなどである。表示部２０６は、画像データの表示を行う。例えば液晶パネルや有機ＥＬパネルである。入力部２０５，表示部２０６により、ユーザと画像処理装置１０３との間のインタフェース（ユーザインタフェース）を構成することになる。

ＧＰＵ（Graphics Processing Unit）２０７は、データの並列演算処理を行うに用いられるユニットである。ディープラーニングのような学習モデルを用いて複数回に渡り学習を行う場合には、ＧＰＵ２０７で処理を行うことが有効である。学習処理に利用するのは一般的にはＧＰＵが有効であるが、ＦＰＧＡ（Field -Programmable Gate Array）といった再構成可能な論理回路で同等の機能を実現してもよい。

外部記憶装置２０９は、ハードディスク等の書き込み可能な記憶装置であり、実施形態では、撮像装置１０２から受信した画像や切り出し後の画像などの記憶するために利用される。また、撮像装置１０２の設置位置、及び、撮像する視線方向、撮像画角に関する情報も、この外部記憶装置２０９に予め格納されている。

図３は、実施形態におけるシステムを構成する撮像装置１０２，画像処理装置１０３，及び、クライアント端末１０４それぞれにおけるソフトウェア構成を示す図である。このソフトウェア構成は、図２を用いて説明したハードウェア資源、およびプログラムを利用することで実現される。なお、本ソフトウェア構成では、オペレーティングシステムなどの汎用的なソフトウェア構成は省略している。

撮像装置１０２のソフトウェアは、通信部３２１、撮像部３２２、ＵＩ表示部３２３からなる。通信部３２１は、撮像装置１０２が保持する撮像データのうち、後述するＵＩ表示部３２３により選択されたデータ、または、あらかじめ設定を施すことで撮像部３２２から受け取ったデータを逐次画像処理装置の通信部３３１へ送信するように組み込むことができるソフトウェア機能を有する。撮像部３２２は、撮像装置１０２が有する不図示の画像センサやレンズといった光学素子、集音マイクといった録画に関するハードウェアを制御するためのソフトウェア機能を有する。ＵＩ表示部３２３は、撮像装置１０２が保持する画像データのうち、任意の画像データをユーザ選択可能に表示するためのユーザインターフェースを提供するためのソフトウェア機能を有する。

画像処理装置１０３のソフトウェアは、通信部３３１、画像処理部３３２、データ記憶部３３３、学習部３３４、及び、推論部３３５から構成される。各処理部のソフトウェアは、図２に示したハードウェア構成において、画像処理装置１０３のＣＰＵ２０１がＲＯＭ２０２に格納されたプログラムを読み出し、ＲＡＭ２０３へ展開したのちに順次実行することで実現するものであり、ＣＰＵ２０１はＮＩＣ２０４や入力部２０５を介して受け取った命令に基づいて動作を切り替えるものである。

通信部３３１は、撮像装置１０２やクライアント端末１０４とデータの送受信を行うための機能を有する。例えば、ＣＰＵ２０１がＮＩＣ２０４を介して撮像装置１０２から画像データの受信、クライアント端末１０４へウェブアプリケーションを送信、ユーザによる命令を受信し、並びに、その命令に応じた情報の送信等である。

画像処理部３３２は、ＣＰＵ２０１がＲＯＭ２０２やＲＡＭ２０３から読み出した画像データに対して、後述する推論部３３５の出力を用いて、ユーザへ提示する画像の生成を行う機能を有する。処理後のデータは外部記憶装置２０９やＲＡＭ２０３に格納され、クライアント端末１０４からの要求に応じで通信部３３１へ渡される。

データ記憶部３３３は、外部記憶装置２０９への学習データの蓄積と、蓄積したデータの操作を行うための機能を有する。データ記憶部３３３は、ＣＰＵ２０１の制御の下、通信部３３１を介して受け取った命令などに基づき、外部記憶装置２０９はＲＡＭ２０３に格納したデータを操作する。

ここで、学習モデルについて図４（ａ），（ｂ）を参照して説明する。機械学習の具体的なアルゴリズムとしては、最近傍法、ナイーブベイズ法、決定木、サポートベクターマシンなどが挙げられる。また、ニューラルネットワークを利用して、学習するための特徴量、結合重み付け係数を自ら生成する深層学習（ディープラーニング）も挙げられる。適宜、上記アルゴリズムのうち利用できるものを用いて本実施形態に適用することができる。本実施形態では、ニューラルネットワークで構成されるモデルとして説明する。

実施形態の学習モデル４０３は、学習時には同図（ｂ）に示した学習データ４０４を用いて学習し、推論時には入力データ４０１として撮像装置１０３からの画像、出力データ４０２として画像内の人物の位置と人物の属性を出力する。本実施形態において、人物の位置を表す情報は、その画像中における人物が存在する領域の外接矩形の左上隅の水平座標ｘ及び垂直座標ｙ、その外接矩形の幅ｗ、高さｈが含まれるが、位置やサイズを示す情報であればこれらに限らない。また、ここでは対象物の外接矩形として説明したが、外接矩形を予め設定された比率で変倍した領域としても良いし、矩形に限らず、それよりも多い多角形としても良い。また、人物の属性は選手と審判の２種であるが、適用するスポーツやイベントに応じて適宜変更してもよい。学習と推論の具体的な処理については後述する。

学習部３３４は、学習データを元に、学習モデル４０３の学習を行う機能を有する。ＣＰＵ２０１がデータ記憶部３３３より受け取ったデータによって学習モデル４０３を生成し、外部記憶装置２０９やＲＡＭ２０３に格納する。学習部３３４は、誤差検出部と、更新部と、を備えてもよい。誤差検出部は、入力層に入力される入力データに応じてニューラルネットワークの出力層から出力される出力データと、教師データとの誤差を得る。誤差検出部は、損失関数を用いて、ニューラルネットワークからの出力データと教師データとの誤差を計算するようにしてもよい。更新部は、誤差検出部で得られた誤差に基づいて、その誤差が小さくなるように、ニューラルネットワークのノード間の結合重み付け係数等を更新する。この更新部は、例えば、誤差逆伝播法を用いて、結合重み付け係数等を更新する。誤差逆伝播法は、上記の誤差が小さくなるように、各ニューラルネットワークのノード間の結合重み付け係数等を調整する手法である。

推論部３３５は、学習モデル４０３を用いて、推論結果を出力する機能を有する。具体的には、ＣＰＵ２０１が外部記憶装置２０９やＲＡＭ２０３から読み出した画像データまたは通信部３３１を介して受信した画像データおよび指示に基づいて、学習モデル４０３を用いた推論を行い、出力を外部記憶装置２０９やＲＡＭ２０３に格納する。

本実施形態では、学習部３３４による処理にはＣＰＵ２０１に加えてＧＰＵ２０７を用いる。具体的には、学習モデルを含む学習プログラムを実行する場合に、ＣＰＵ２０１とＧＰＵ２０７が協働して演算を行うことで学習を行う。なお、学習部３３４の処理は、ＣＰＵ２０１またはＧＰＵ２０７のみにより演算が行われても良い。また、推論部３３５も学習部３３４と同様にＧＰＵ２０７を用いても良い。ＧＰＵ２０７の利用は後述する図６や図７の制御フローの説明についても適用される。

クライアント端末１０４のソフトウェアは、ウェブブラウザ３４１からなる。
ウェブブラウザ３４１は、画像処理装置１０３の通信部３３１から取得したデータをユーザに提示するように成形、表示するための機能を有する。具体的には、通信部３３１よりウェブアプリケーションを受信し、ウェブブラウザ３４１上で展開する。ユーザがウェブブラウザ３４１上で操作することにより、ウェブアプリケーションを介して通信部３３１への命令やデータ入力を行うことができる。

図５は、図４で示した学習モデルの構造を利用した、本実施形態が適用するシステムの動作説明図である。撮像装置１０２の通信部３２１は、撮像部３２２による撮像で得た画像データを画像処理装置１０３に送信する。画像処理装置１０３の通信部３３１は、この画像データを入力画像データとして受信する。そして、画像処理装置１０３の推論部３３５は、入力画像データを学習モデル４０３に入力することで、その推論の結果を出力させる。画像処理部３３２は、推論の結果に基づき、受信した画像における切り出し領域の位置とサイズを決定（もしくは判定）して、決定した位置とサイズに従って受信画像から切り出しを行い、切り出し画像を生成する。そして、画像処理装置１０３の通信部３３１は、クライアント端末１０４からユーザの指示若しくは要求に応じて、一連の処理の情報や切り出し画像をクライアント端末１０４のウェブブラウザ３４１上に向けて送信する。クライアント端末１０４のユーザは、ウェブブラウザ３４１によってクライアント端末１０４の表示部（図示せず）に表示された画像を確認する。

次に、図６のフローチャートを参照し、実施形態における画像処理装置１０３の学習部３３４による学習の詳細な流れを説明する。

説明に先立ち、クライアント端末１０４には、過去に撮像装置１０２が撮像した画像を保持しているものとする。そして、クライアント端末１０４のユーザは、その画像をクライアント端末１０４の表示部に表示させた上で、画像内の人物を矩形枠で囲む操作、及び、人物の属性（選手、審判）の選択操作を行うことで、その際の表示画像、及び、その表示画像と矩形枠（位置とサイズ）及び属性との関連付けた学習データを作成済みであるとする。この作成済みの学習データは、クライアント端末１０４の不図示の記憶装置に保持されているものとする。

さて、図６のフローは、クライアント端末１０４上で展開されているウェブアプリケーションにて、画像処理装置１０３が提供するウェブページを表示し、その表示中のページ中の学習の実行の指示を入力する。そして、クライアント端末１０４のユーザは、ウェブアプリケーションにて、学習データを、画像処理装置１０３にアプロードする操作を行うことになる。

画像処理装置１０３のＣＰＵ２０１は、ＮＩＣ２０４を介し、クライアント端末１０４のユーザの指示入力を学習の実行を指示命令として受信することをトリガにして、図６に示す処理が起床（開始）される。フロー終了後は再び待機状態となり、ユーザからの命令を待つ状態となる。

Ｓ６０１において、ＣＰＵ２０１は、図４の学習データ４０４に示した情報を、通信部３３１を介してクライアント端末１０４から受信し、データ記憶部３３３により例えば外部記憶装置２０９に格納する。ＣＰＵ２０１は、受信した学習データにおいて欠損が認められた場合、再び学習データが送られてくるまで待つ。ＣＰＵ２０１は、学習データを格納できた場合、Ｓ６０２へ遷移する。なお、ユーザにより、既に外部記憶装置２０９に格納済みの学習データを指定された場合、ＣＰＵ２０１は学習データの受信有無にかかわらずＳ６０２へ遷移する。

Ｓ６０２において、ＣＰＵ２０１は、データ記憶部３３３が読み出した学習データを学習部３３４へ渡す。この結果、学習部３３４は、渡された学習データを学習モデル４０３へ入力する。学習データ４０４に示した通り、一つの学習データは、入力データとして画像、教師データとして人物の位置、人物の属性を持った組であり、学習データＩＤに示す通り一つずつ学習モデル４０３への入力が行われる。ＣＰＵ２０１は、入力し終えるとＳ６０３へ遷移する。

Ｓ６０３において、ＣＰＵ２０１は、学習部３３４による学習を行う。ＣＰＵ２０１は、出力結果が得られた後、Ｓ６０４へ遷移する。前述した通り、本ステップで学習部３３４による学習にはＧＰＵ２０７を用いてもよい。

Ｓ６０４において、ＣＰＵ２０１は、学習データを全て入力し終えたか確認し、終えていれば学習モデル４０３をＲＯＭ２０２やＲＡＭ２０３へ格納して本制御フローを終了する。

次に、図７（ａ）に示した制御フローを参照して、推論フェーズにおける推論の詳細な流れを説明する。本制御フローは、図６に示した制御フローと同様に、画像処理装置１０３のＣＰＵ２０１が、ＮＩＣ２０４を介して、クライアント端末１０４のウェブブラウザ３４１の実行を指示する命令を受信することで起床される。ＣＰＵ２０１は、フロー終了後は再び待機状態となり、ユーザからの命令を待つ状態となる。本実施形態において、推論は、切り出し処理の前処理として行われるため、ユーザからの命令は切り出し処理の開始と同等である。Ｓ７０４の切り出し処理の詳細は図７（ｂ）に示した制御フローを用いて説明する。すなわち、実施形態における推論とは、図７（ａ）におけるＳ７０１からＳ７０３に示す処理を指す。

Ｓ７０１において、画像処理装置１０３のＣＰＵ２０１は、撮像装置１０２から画像データを受信するのを待つ。ＣＰＵ２０１は、画像データの受信を確認すると、受信した画像データをＲＡＭ２０３へ格納し、処理をＳ７０２へ遷移する。

Ｓ７０２において、ＣＰＵ２０１は、Ｓ７０１にて格納した画像データを、推論部３３５の学習モデルへ入力する。ＣＰＵ２０１は、入力し終えたなら処理をＳ７０３へ遷移する。

Ｓ７０３において、ＣＰＵ２０１は、推論部３３５による推論を行わせ、その出力結果をＲＡＭ２０３へ格納する。ここで出力結果とは、学習データ４０４で示した通り、人物の位置と人物の属性を示す組である。

そして、Ｓ７０４にて、ＣＰＵ２０１は画像処理部３３２として、受信画像内に映っている各人物の位置と人物の属性に基づいて、受信画像からの切り出し処理を実行する。

このＳ７０７の切り出し処理の詳細を示すのが図７（ｂ）である。以下、同図（ｂ）、並びに、図８乃至図１１を参照して、本実施形態の特徴的な処理を説明する。

図８は、撮像装置１０２によって得られた画像データ８０１を示している。図示の通り、撮像装置１０２は、競技フィールド８０４全体を包含する俯瞰画像を撮像し、その撮像で得た画像を画像データ８０１として画像処理装置１０３に送信する。画像データ８０１には、競技フィールド８０４にて複数の選手８０２と審判８０３が写っている。画像処理装置１０３のＣＰＵ２０１は、画像データ８０１を入力画像とし、図７（ａ）に示した制御フローのＳ７０１からＳ７０３によって推論することにより、画像データ８０１における出力結果として人物の位置と人物の属性を得ることができる。ここで、ユーザへの出力結果の提示方法として、受信した画像を表示部２０６に表示する際、推論で得た人物を矩形枠で囲むような付加処理を施してもよい。すなわち、図９に示したように矩形９０１のようなマークを重畳することである。また、選手と審判の区別のため、審判については矩形９０２のように異なるマークとしてもよい。付加処理については、前述のＳ７０３にて出力結果を得た時点でＣＰＵ２０１が画像処理部３３２により生成し、外部記憶装置２０９やＲＡＭ２０３に格納しておくことで、ユーザからの要求に応じて提示してもよい。

Ｓ７０４、すなわち、Ｓ７１１において、画像処理装置１０３のＣＰＵ２０１は、Ｓ７０３にて格納した出力結果をＲＡＭ２０３より読み出す。そして、ＣＰＵ２０１は処理をＳ７１２へ遷移する。

Ｓ７１２において、ＣＰＵ２０１は、切り出し処理のために、推論処理の出力結果の確認を行う。すなわち、ＣＰＵ２０１は、人物の位置と人物の属性を一組読み出してＳ７１３に遷移し、全て読み出したか否かを判定する。ＣＰＵ２０１は、全て読み出したと判定した場合は、処理をＳ７１５へ遷移する。ＣＰＵ２０１は、読み出していない出力結果があると判定した場合は処理をＳ７１３に遷移する。

Ｓ７１３において、ＣＰＵ２０１は、Ｓ７１１にて読み出した人物の属性が、選手か審判か判定する。ＣＰＵ２０１は、人物の属性が選手を示していると判定した場合はＳ７１４へ遷移し、審判を示していると判定した場合はＳ７１２に処理を戻す。

Ｓ７１４において、ＣＰＵ２０１は、読み出した人物の位置情報を、切り出しのための画角計算対象とするため、ＲＡＭ２０３上に予め用意されたリストへ格納（追加）する。この格納処理後、ＣＰＵ２０１は処理をＳ７１２へ戻す。

Ｓ７１５に処理が遷移した場合、受信した画像に映っている人物のうち、審判を除いた選手（の位置情報）が選択され、ＲＡＭ２０３のリストに格納されていることになる。そこで、画像処理装置１０３のＣＰＵ２０１は、Ｓ７１４にて、ＲＡＭ２０３にて格納したリストの読み出し、切り出し領域における中心位置の計算を行う。ここで言う、切り出し領域とは、図１０（ａ）の枠線１００１に示したような、競技フィールド上で注目すべき箇所である。

ここで、切り出しに関する変換処理について図１１（ａ）乃至（ｃ）を参照して説明する。図１１（ａ）は撮像装置１０２で撮影した、或る位置の基準画像と、撮像装置の位置Ｏを原点とした球面座標の関係を示している。基準画像の中心をＲとして、中心から上方をｚ座標軸の正の方向、右をｘ座標軸の正の方向として、基準画像上の画素位置を示すと、位置Ｏから見た球面上に１対１にマップすることができる。具体的には、基準画像上の点Ｑ（ｘ，ｙ，ｚ）と位置Ｏを原点とした半径ｒの球面上の座標Ｐ（ｘｐ，ｙｐ，ｚｐ）は、以下の関係で示される。球面座標（ｒ、θ、φ）は、図１１（ｂ）で示したように定義している。

点Ｑを球面座標で表した場合：

点Ｐを球面座標で表した場合：

次に、図１１（ｃ）を参照して、切り出し領域に関する変換を説明する。基準画像上で求めた切り出し領域の中心座標を求め、式（１）、式（２）より球面座標上の点Ｕ（θｃ，φｃ）に変換する。点Ｕを中心として、切り出したい大きさの水平画角を２Δθ、垂直画角を２Δφとして、４頂点（Ｆ１、Ｆ２、Ｆ３、Ｆ４）を球面上に取得する。

球面上で取得した切り出し領域の４頂点を、再度（式（１））を用いて基準画像上の座標に変換したものを、切り出し領域の４頂点として取得する。なお、上記のθ、φは、クライアント端末のユーザは、ウェブブラウザのＵＩに用意されたボタン等をユーザが操作することで、適宜変更できるようにしても良い。

Ｓ７１５の説明に戻る。Ｓ７１５にて、画像処理装置１０３のＣＰＵ２０１は、ＲＡＭ２０３にて格納したリストにおける選手位置の分布に基づき、切り出し領域の中心位置を求める。具体的には、ＣＰＵ２０１は、リストに示された選手の位置から重心位置を求め、その重心位置を切り出し領域の中心とする。本実施形態における重心の計算は、各選手の重みを等価とし、位置情報のみが計算に寄与する構成を取る（審判の位置は除外する）。ここで、切り出し領域の中心を求める方法には、複数の方法が考えられる。本提案の内容の一例であり、本提案の内容を制限するものではない。中心位置を求めた後、Ｓ７１６へ遷移する。

Ｓ７１６において、ＣＰＵ２０１は、図１１を用いて説明した変換処理に基づき、切り出し領域の４頂点を取得し、切り出し、および、変換を行う。処理後の画像をＲＡＭ２０３に格納し、本制御フローを終了する。切り出した画像を、矩形領域にマッピングする射影変換を用いれば良い。

なお、クライアント端末１０４においてユーザが不図示のＵＩを操作した場合、ＣＰＵ２０１は処理後の画像を、通信部３３１を介して送信することができる。この結果、クライアント端末のユーザは、撮影された画像データ８０１に対して処理後の画像データ１００２を得ることができる。

本実施形態により、審判が画角計算に含まれていないことで、画角内に選手が集まった領域を切り出すことが可能となる。スポーツやイベントに応じて、選手と審判以外の属性を追加し、判定に用いてもよい。

以上説明したように実施形態によれば、競技フィールド内に選手や審判など複数の役割を持つ人物が混在する際に、全体を俯瞰した画像から、カメラマンが撮影したかのような画角の部分画像を切り出すことが可能になる。

［第２の実施形態］
上記第１の実施形態では、推論によって得られた属性によって画角計算に用いるか否かを判定したが、変形することで競技シーンに応じた効果を得ることができる。本第２の実施形態では、第１の実施形態と同様の構成と制御がなされているものとし、図７（ｂ）に示した制御フローに対する差分について説明する。なお、本第２の実施形態の場合、撮像装置１０２には、マイクロホン（無指向性とする）が内蔵され、撮影映像と共に、マイクロホンで集音した音響データも出力するものとして説明する。

図１３に示した制御フローにおいて、Ｓ１３０１からＳ１３０４およびＳ１３０６は、図７（ｂ）のＳ７１１からＳ７１４およびＳ７１６と同等のため説明を省略する。また、本第２の実施形態では、図１２の画像データ１２０１を撮像装置１０２から受信したとして説明する。

Ｓ１３０７において、画像処理装置１０３のＣＰＵ２０１は、推論の出力結果である人物の位置情報が、競技フィールド１２０３に収まっているか判定する。そして、ＣＰＵ２０１は、推論の出力結果である処理対象の人物の位置情報が、競技フィールド１２０３に収まっていると判定した場合はＳ１３０８に遷移し、収まっていない（競技フィールド外）である場合は処理をＳ１３０２に戻す。

なお、競技フィールド１２０３の境界情報は、ＣＰＵ２０１が画像データ１２０１を取得した時点で画像処理部３３２を用いて検出させても良い。或いは、クライアント端末１０４のユーザが、学習データをアプロードする際に、そのユーザが競技フィールドの境界位置を、操作部を操作して設定し、その設定した情報（競技フィールドの境界）も併せてアップロードしても良い。或いは、クライアント端末１０４のユーザが、クライアント端末１０４上におけるウェブアプリケーションで表示された映像に対し、ＵＩを用いて指定しても良いし、または入力部２０５を用いて管理者が指定することでＲＡＭ２０３に格納しておいてもよい。

さて、Ｓ１３０７にて、ＣＰＵ２０１が、対象となる人物の位置が競技フィールド外に位置していると判定した場合はＳ７１２に戻るので（Ｓ７１４の処理を行わないので）、その対象となる人物が選手であろうと審判であろうと、その人物の位置は切り出し位置を決定するためのリストには含まれない。

一方、Ｓ１３０８に処理が遷移した場合、ＣＰＵ２０１は、現在の競技ステータスを示す情報をＲＡＭ２０３から読み出し、判定する。ここで競技ステータスとは、競技が進行しているか中断しているかを示す情報であり、図１４に示した制御フローが、予め設定された時間間隔で起床されていることで更新される。ＣＰＵ２０１は、競技ステータスが中断中であると判定した場合は、処理をＳ１３０４に遷移する。つまり、試合が中断している場合は、競技フィールド内の人物は選手、審判を問わず、その人物の位置がリストに含まれる。

一方、Ｓ１３０８にて、ＣＰＵ２０１は、競技ステータスがプレイ中であると判定した場合は、処理をＳ１３０３に遷移する。このＳ１３０３にて、ＣＰＵ２０１は、対象の人物が選手であるか否かを判定し、選手である場合は処理をＳ１３０４に遷移し、審判であると判定した場合は処理をＳ１３０２に戻す。

上記の結果、競技ステータスがプレイ中である場合は、Ｓ１３０４で作成されるリストには選手のみの位置が格納されることになる。そして、競技ステータスが中断中である場合は、選手だけでなく、審判の位置もリストに登録されることになる。

ここで、画像処理装置１０３のＣＰＵ２０１が実行する、競技ステータス判定処理を図１４のフローチャートを参照して説明する。この処理は、先に説明したように、適当な時間間隔で起床されるものである。

Ｓ１４０１において、画像処理装置１０３のＣＰＵ２０１は、撮像装置１０２から音声データが送られているのを待つ。ＣＰＵ２０１は、音声データの受信を確認すると、それをＲＡＭ２０３へ格納して、処理をＳ１４０２へ遷移する。

Ｓ１４０２において、ＣＰＵ２０１は、ＲＡＭ２０３から、競技ステータス（前回決定した競技ステータス）を読み出し、それが進行中を示しているか否か確認する。ＣＰＵ２０１は、読み出した競技ステータスが進行中を示していると判定した場合は処理をＳ１４０３へ、中断中を示していると判定した場合は処理をＳ１４０５へ遷移する。

Ｓ１４０３において、ＣＰＵ２０１は、読み出した競技ステータスとＲＡＭ２０３に格納されている音声データと照合して中断音（中断を示すホイッスル音）であるか否か判定する。ＲＡＭ２０２に格納する音声データは事前に登録されていてもよく、通信部３３１によって別の情報処理装置に問い合わせる構成を取ってもよい。ＣＰＵ２０１は、中断音であり判定した場合は、処理をＳ１４０４へ遷移し、そうでなければＳ１４０１へ遷移する。

Ｓ１４０４において、ＣＰＵ２０１は、Ｓ１４０２にて読み出した競技ステータスを“中断中”に書き換え、ＲＡＭ２０３へ格納（更新）し、本制御フローを終了する。

Ｓ１４０５において、ＣＰＵ２０１は、読み出した競技ステータスとＲＡＭ２０３に格納されている音声データと照合して、開始音（開始を示すホイッスル音）であるか否か判定する。照合する音声データはＳ１４０３と同様の構成でよい。ＣＰＵ２０１は、開始音であると判定した場合はＳ１４０６に処理を遷移し、そうでないと判定した場合はＳ１４０１に処理を戻す。

Ｓ１４０６において、ＣＰＵ２０１は、Ｓ１４０２にて読み出した競技ステータスを“進行中”に書き換え、ＲＡＭ２０３へ格納（更新）し、本制御フローを終了する。

図１３の制御フローに戻って説明を続ける。画像内に映っている全人物についての判定処理を終えると、ＣＰＵ２０１は処理をＳ１３０２からＳ１３０５に遷移することになる。

このＳ１３０５にて、ＣＰＵ２０１は、重心の計算を行う際に、第１の実施形態と異なり、属性ごとに重みを付与する構成をとる。すなわち、第１の実施形態では、各選手が同等の重みを持つものとして重心を計算したが、本第２の実施形態では、例えば図１２において審判の属性を持つ人物１２０２の重みをより大きくした。選手の総数よりも十分に大きい値を持たせることで、ほぼ審判を中心とした画角とすることができる（もちろん、試合が中断中の場合である）。それにより、切り出し領域１２０６のような審判中心の切り出しとなり、図１３の制御フローによって、競技中断時には審判に注目した切り出し領域を得ることが出来るようになる。本第２の実施形態は競技の進行と中断という２状態を例にとったが、スポーツやイベントに応じて、重みの付与率を適宜変更してもよい。

［第３の実施形態］
第１の実施形態、第２の実施形態では、推論によって得られた属性によって画角計算に用いるか否かを判定したが、一律画角計算には用いつつも、重みを変更することで同様の効果を得る場合を第３の実施形態として説明する。

図１５は、本第３の実施形態における制御処理のフローチャートである。第２の実施形態と同様の構成と制御がなされているものとし、図１３に示した制御フローからの差分について説明する。

図１５に示した制御フローにおいて、Ｓ１５０１からＳ１５０４、およびＳ１５０６は、図１３の制御フローにおけるＳ１３０１、Ｓ１３０２、Ｓ１３０７、Ｓ１３０４、Ｓ１３０６と同等のため説明を省略する。すなわち、競技フィールド内と判定された人物の位置は、その人物の属性とは無関係に、切り出し位置を決定するリストに追加されることになる。

本第３の実施形態の特徴的な処理部分は、Ｓ１５０５の処理に集約される。第１の実施形態と同様の構成を実現する場合、Ｓ１５０５において、画像処理装置１０３のＣＰＵ２０１は、審判の属性をもつオブジェクトの位置の重みを常に０とする。それにより実質的に画角計算に用いらない効果が得られる。一方、第２の実施形態と同様の構成を実現する場合には、Ｓ１５０５において、画像処理装置１０３のＣＰＵ２０１は、図１４で示した競技ステータスの情報をＲＡＭ２０３から読み出し、試合が進行中であれば審判の重みを“０”（ゼロ）、中断中であれば審判の重みを選手の総数の応じた重みに設定する。それにより、審判の属性を持つオブジェクトに対して、競技ステータスに応じた同様の効果が得られる。他の実施例と同様に、スポーツやイベントに応じて、重みの付与率を適宜変更してもよい。

以上、第１乃至第３の実施形態を説明した。上述した各処理部のうち、推論部３３５については、機械学習された学習済みモデルを用いて処理を実行したが、ルックアップテーブル（ＬＵＴ）等のルールベースの処理を行ってもよい。その場合には、例えば、入力データと出力データとの関係をあらかじめＬＵＴとして作成する。そして、この作成したＬＵＴを画像処理装置１０３のメモリに格納しておくとよい。推論部３３５の処理を行う場合には、この格納されたＬＵＴを参照して、出力データを取得することができる。つまりＬＵＴは、前記処理部と同等の処理をするためのプログラムとして、ＣＰＵあるいはＧＰＵなどと協働で動作することにより、前記処理部の処理を行う。本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワークまたは記憶媒体を介してシステムまたは装置に供給し、そのシステムまたは装置のコンピュータがプログラムを読出し実行する処理でも実現可能である。コンピュータは、１または複数のプロセッサーまたは回路を有し、コンピュータ実行可能命令を読み出し実行するために、分離した複数のコンピュータまたは分離した複数のプロセッサーまたは回路のネットワークを含みうる。

プロセッサーまたは回路は、中央演算処理装置（ＣＰＵ）、マイクロプロセッシングユニット（ＭＰＵ）、グラフィクスプロセッシングユニット（ＧＰＵ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートウェイ（ＦＰＧＡ）を含みうる。また、プロセッサーまたは回路は、デジタルシグナルプロセッサ（ＤＳＰ）、データフロープロセッサ（ＤＦＰ）、またはニューラルプロセッシングユニット（ＮＰＵ）を含みうる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

本明細書の開示は、以下の画像処理装置、方法及びプログラムを含む。
（項目１）
入力画像における部分画像を切り出す画像処理装置であって、
前記入力画像に含まれるオブジェクトの位置と属性を検出する検出手段と、
該検出手段で検出した属性に基づき、切り出す際に参照するオブジェクトを選択する選択手段と、
該選択手段で選択されたオブジェクトの位置の分布に基づいて、前記入力画像における切り出す領域を判定する判定手段と、
前記入力画像における、前記判定手段で判定された領域の部分画像を切り出し、出力する出力手段と
を有することを特徴とする画像処理装置。
（項目２）
前記入力画像は、競技フィールドを俯瞰する俯瞰画像であって、
前記検出手段は、人物の位置と、当該人物が選手、審判のいずれの属性を持つかを検出する
ことを特徴とする項目１に記載の画像処理装置。
（項目３）
前記選択手段は、選手の属性を持つオブジェクトを選択し、
前記判定手段は、前記選択手段で選択した各オブジェクトの位置の重心位置を中心とする、予め設定された画角の領域を、前記切り出す領域として判定する
ことを特徴とする項目２に記載の画像処理装置。
（項目４）
更に競技がプレイ中、中断中のいずれの状態にあるのかを判定する競技ステータス判定手段を有し、
前記選択手段は、
前記競技ステータス判定手段による判定がプレイ中であることを示している場合は、選手の属性を持つオブジェクトを選択し、
前記競技ステータス判定手段による判定が中断中であることを示している場合は、選手、審判の属性を持つオブジェクトを選択し、
前記判定手段は、前記選択手段で選択した各オブジェクトの位置の重心位置を中心とする、予め設定された画角の領域を、前記切り出す領域として判定する
ことを特徴とする項目２に記載の画像処理装置。
（項目５）
前記選択手段は、競技フィールド外の人物を選択しないことを特徴とする項目３又は４に記載の画像処理装置。
（項目６）
更に競技がプレイ中、中断中のいずれの状態にあるのかを判定する競技ステータス判定手段を有し、
前記選択手段は、競技フィールド内に位置しているオブジェクトを選択し、競技フィールド外のオブジェクトを選択せず、
前記判定手段は、前記選択手段で選択されたオブジェクトの属性に基づく重みづけ重心位置を求めることで、前記切り出す領域として判定し、
前記判定手段は、
前記競技ステータス判定手段の判定の結果がプレイ中であることを示している場合は、審判の属性を持つ位置の重みはゼロとし、
前記競技ステータス判定手段の判定の結果が中断中であることを示している場合は、審判の属性を持つ位置の重みを、選手の総数が示す重みよりも大きい値に設定して
前記重心位置を求めることで前記切り出す領域として判定する
ことを特徴とする項目２に記載の画像処理装置。
（項目７）
入力画像中の部分画像を切り出す画像処理装置の制御方法であって、
前記入力画像に含まれるオブジェクトの位置と属性を検出する検出工程と、
該検出工程で検出した属性に基づき、切り出す際に参照するオブジェクトを選択する選択工程と、
該選択工程で選択されたオブジェクトの位置の分布に基づいて、前記入力画像における切り出す領域を判定する判定工程と、
前記入力画像における、前記判定工程で判定された領域の部分画像を切り出し、出力する出力工程と
を有することを特徴とする画像処理装置の制御方法。
（項目８）
コンピュータが読み込み実行することで、前記コンピュータに、項目１乃至項目６のいずれか１つの記載の装置が有する各手段として機能させるためのプログラム。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１０１…ネットワーク、１０２…撮像装置、１０３…画像処理装置、１０４…クライアント端末

Claims

入力画像における部分画像を切り出す画像処理装置であって、
前記入力画像に含まれるオブジェクトの位置と属性を検出する検出手段と、
該検出手段で検出した属性に基づき、切り出す際に参照するオブジェクトを選択する選択手段と、
該選択手段で選択されたオブジェクトの位置の分布に基づいて、前記入力画像における切り出す領域を判定する判定手段と、
前記入力画像における、前記判定手段で判定された領域の部分画像を切り出し、出力する出力手段と
を有することを特徴とする画像処理装置。
前記入力画像は、競技フィールドを俯瞰する俯瞰画像であって、
前記検出手段は、人物の位置と、当該人物が選手、審判のいずれの属性を持つかを検出する
ことを特徴とする請求項１に記載の画像処理装置。
前記選択手段は、選手の属性を持つオブジェクトを選択し、
前記判定手段は、前記選択手段で選択した各オブジェクトの位置の重心位置を中心とする、予め設定された画角の領域を、前記切り出す領域として判定する
ことを特徴とする請求項２に記載の画像処理装置。
更に競技がプレイ中、中断中のいずれの状態にあるのかを判定する競技ステータス判定手段を有し、
前記選択手段は、
前記競技ステータス判定手段による判定がプレイ中であることを示している場合は、選手の属性を持つオブジェクトを選択し、
前記競技ステータス判定手段による判定が中断中であることを示している場合は、選手、審判の属性を持つオブジェクトを選択し、
前記判定手段は、前記選択手段で選択した各オブジェクトの位置の重心位置を中心とする、予め設定された画角の領域を、前記切り出す領域として判定する
ことを特徴とする請求項２に記載の画像処理装置。
前記選択手段は、競技フィールド外の人物を選択しないことを特徴とする請求項４に記載の画像処理装置。
更に競技がプレイ中、中断中のいずれの状態にあるのかを判定する競技ステータス判定手段を有し、
前記選択手段は、競技フィールド内に位置しているオブジェクトを選択し、競技フィールド外のオブジェクトを選択せず、
前記判定手段は、前記選択手段で選択されたオブジェクトの属性に基づく重みづけ重心位置を求めることで、前記切り出す領域として判定し、
前記判定手段は、
前記競技ステータス判定手段の判定の結果がプレイ中であることを示している場合は、審判の属性を持つ位置の重みはゼロとし、
前記競技ステータス判定手段の判定の結果が中断中であることを示している場合は、審判の属性を持つ位置の重みを、選手の総数が示す重みよりも大きい値に設定して
前記重心位置を求めることで前記切り出す領域として判定する
ことを特徴とする請求項２に記載の画像処理装置。
入力画像中の部分画像を切り出す画像処理装置の制御方法であって、
前記入力画像に含まれるオブジェクトの位置と属性を検出する検出工程と、
該検出工程で検出した属性に基づき、切り出す際に参照するオブジェクトを選択する選択工程と、
該選択工程で選択されたオブジェクトの位置の分布に基づいて、前記入力画像における切り出す領域を判定する判定工程と、
前記入力画像における、前記判定工程で判定された領域の部分画像を切り出し、出力する出力工程と
を有することを特徴とする画像処理装置の制御方法。
コンピュータが読み込み実行することで、前記コンピュータに、請求項７に記載の方法の各工程を実行させるためのプログラム。