JP2023170173A

JP2023170173A - 情報処理装置、制御方法ならびにプログラム

Info

Publication number: JP2023170173A
Application number: JP2022081721A
Authority: JP
Inventors: 良田中; Makoto Tanaka
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2023-12-01

Abstract

【課題】適切な学習モデルを用いて被写体を追尾する撮影を可能にする情報処理装置を提供する。【解決手段】本開示に係る情報処理装置は、パン及びチルトの少なくとも一方を含む撮像手段の向きを制御しながら撮影された動画を受信する受信手段と、動画を構成する画像内の被写体を学習モデルを用いて推定する推定手段と、推定手段で推定された被写体の画像内の位置に基づいて、動画を構成する画像に被写体が含まれるように撮像手段の向きを制御するための制御情報を出力する制御手段と、動画を構成する画像に被写体が含まれるように操作者が撮像手段の向きを手動で制御したときの撮像手段の動作に関する情報を取得する取得手段と、を有し、推定手段は、撮像手段の向きを手動で制御したときの撮像手段の動作に関する情報に応じた、特性の異なる学習モデルを用いて、画像に含まれる被写体を推定する。【選択図】図９

Description

本発明は、情報処理装置、制御方法ならびにプログラムに関する。

従来、ユーザが操作器からカメラを遠隔操作することで所望の映像を取得する、遠隔撮影システムが知られている。このようなシステムでは、空港の屋上に設置された雲台装置を放送局から遠隔操作することで、航空機の映像を撮影することができる。このような雲台装置に画像認識技術を搭載して映像内の被写体を推定し、被写体の動きに合わせて自動的にカメラのパン、チルト、ズームを動作させることで、ユーザが操作器を操作しなくても、動きのある被写体を追尾して撮影することができる。

また、機械学習により学習させた学習モデルを用いる画像認識技術が知られている。特許文献１では、学習モデルを使用して被写体を探索する際に被写体探索を行う間隔を変化させる技術を提案している。

特開２０２０－９２３５４号公報

ところで、速度の速い被写体を撮影する場合には、学習モデルの実行時間（例えば画像に対する推定処理を開始してから終了するまでの時間）が短くなければならないが、一般に、学習モデルの実行時間と推定の精度はトレードオフの関係となることが多い。このため、学習モデルを用いて被写体を追尾するためには、適切な特性の学習モデルを動作させる必要がある。

本発明は、上記課題に鑑みてなされ、その目的は、適切な学習モデルを用いて被写体を追尾する撮影を可能にする技術を実現することである。

この課題を解決するため、例えば本発明の情報処理装置は以下の構成を備える。すなわち、パン及びチルトの少なくとも一方を含む撮像手段の向きを制御しながら撮影された動画を受信する受信手段と、前記動画を構成する画像内の被写体を学習モデルを用いて推定する推定手段と、前記推定手段で推定された前記被写体の画像内の位置に基づいて、前記動画を構成する画像に前記被写体が含まれるように前記撮像手段の向きを制御するための制御情報を出力する制御手段と、前記動画を構成する画像に前記被写体が含まれるように操作者が前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を取得する取得手段と、を有し、前記推定手段は、前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報に応じた、特性の異なる学習モデルを用いて、前記画像に含まれる前記被写体を推定する、ことを特徴とする。

本発明によれば、適切な学習モデルを用いて被写体を追尾する撮影が可能になる。

本発明に係る自動追尾システムの構成を示す図本実施形態に係る自動追尾システムのハードウェア構成を示すブロック図本実施形態に係る自動追尾システムのソフトウェア構成を示すブロック図本実施形態に係る自動追尾システムの情報処理装置で表示されるユーザインタフェース（ＵＩ）の例を示す図本実施形態に係る学習モデル及び入出力データを説明する図本実施形態に係る学習段階の処理を含む情報処理装置の一連の動作を示すフローチャート本実施形態に係る学習データの一例を示す図本実施形態に係る自動追尾システム全体としての動作を説明する図本実施形態における、学習モデル選択処理の動作を示すフローチャート本実施形態における異なる学習モデルを用いる例を説明する図本実施形態における推論段階の処理を含む情報処理装置の一連の動作を示すフローチャート

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

＜撮影システムの構成＞
図１は、本発明を適用できるシステムを示す図であり、情報処理装置１００、雲台装置２００、操作装置３００、ネットワーク４００で構成される。情報処理装置１００は、例えば、機械学習モデル（単に学習モデルともいう）を用いた画像認識技術を実行可能なパーソナルコンピュータである。しかし、情報処理装置１００はパーソナルコンピュータに限らず、学習モデルを用いた画像認識技術を実行可能な他の任意の機器であってよい。また、雲台装置２００及び操作装置３００はそれぞれ専用の装置である場合を例に説明するが、雲台装置２００及び操作装置３００のそれぞれの一部がパーソナルコンピュータやタブレット端末などの電子機器で構成されてもよい。

ユーザが操作装置３００を操作すると、操作に応じた命令が、ネットワーク４００を介して情報処理装置１００に送信され、更に情報処理装置から雲台装置２００を制御する制御情報が雲台装置２００に送信される。雲台装置２００が制御情報の内容に応じてカメラによる撮影を制御することにより、ユーザは雲台装置２００を遠隔操作することが可能になる。雲台装置２００で撮影された映像は、情報処理装置１００に送信され、情報処理装置１００は、自動追尾撮影に必要な各種演算および記録を行う。ネットワーク４００は、公衆電話回線、移動体通信網或いはインターネット等の通信回線である。例えば、雲台装置２００および情報処理装置１００は、空港や鉄塔、テレビ局屋上といったスポットに設置され、操作装置３００はテレビ局内等に設置される。本実施形態では、例えば、情報処理装置１００および雲台装置２００が空港に設置され、自動追尾撮影の対象物が航空機である場合を例に説明する。

図２は、図１のシステムを構成する各装置のハードウェア構成の一例を示している。情報処理装置１００は、ＲＡＭ１０１、ＧＰＵ１０２、ＣＰＵ１０３、入力部１０４、記憶部１０５、シリアル通信部１０６、ネットワーク通信部１０７、ＵＩ部１０８を含む。雲台装置２００は、カメラ２０１、駆動部２０２、シリアル通信部２０３、ＣＰＵ２０４、記憶部２０５を含む。操作装置３００は、ネットワーク通信部３０１、操作部３０２、記憶部３０３、ＣＰＵ３０４、表示部３０５を含む。

情報処理装置１００の構成について説明する。ＲＡＭ１０１は、例えば揮発性のメモリである。ＣＰＵ１０３は、１つ以上のプロセッサを含み、例えば記憶部１０５に格納されるプログラムに従い、ＲＡＭ１０１をワークメモリとして用いて、情報処理装置１００の各部を制御する。ＧＰＵ１０２は、１つ以上のプロセッサを含み、データをより多く並列処理することで効率的な演算を行うことができる。このため、ディープニューラルネットワーク（ＤＮＮ）等の学習モデルを用いて複数回に渡り学習を行う場合、ＧＰＵ１０２による演算は有効である。

入力部１０４は、映像信号を情報処理装置１００に入力するためのインタフェースであり、例えばＵＳＢ等の各種通信インタフェースである。記憶部１０５は、例えば不揮発性のメモリであり、画像データやその他のデータ、ＣＰＵ１０３が動作するための各種プログラム等が、それぞれ所定の領域に格納されている。シリアル通信部１０６は、ＣＰＵ１０３の制御に基づき、雲台装置２００と通信するためのインタフェースである。ネットワーク通信部１０７は、ＣＰＵ１０３の制御に基づき、ネットワーク４００を介して操作装置３００と通信するための通信インタフェースである。ＵＩ部１０８は、情報処理装置１００を操作するユーザからの操作入力を受け付け、ユーザへ情報処理装置１００の情報を表示するためのユーザインタフェースである。ＵＩ部１０８は、キーボードやマウス、ディスプレイ、タッチパネルを含んでよい。

次に、雲台装置２００のハードウェア構成について説明する。カメラ２０１は、撮像センサを含み、雲台装置２００が設置された周囲を撮影し、目標被写体を撮影した画像を順次出力する（すなわち動画を出力する）。カメラ２０１は撮影倍率を変更可能な光学ズームレンズを含み、ＣＰＵ２０４からカメラ２０１にズーム制御命令を送信することで、撮像映像の倍率を変更することができる。さらに、カメラ２０１は撮像された画像の一部を局所的に拡大させるデジタルズーム機能も有する。デジタルズームは、光学ズームでは倍率が足りない場合、すなわち、より撮影映像を拡大したい場合に実行される。また、カメラ２０１は、情報処理装置１００の入力部１０４と例えば有線で接続され、撮影した画像信号を情報処理装置１００へ出力する。

駆動部２０２は、雲台装置２００のカメラ２０１をパン、チルト方向に旋回させるためのアクチュエータ、その駆動回路、及び周辺回路を含む。雲台装置２００は、目標被写体に対し、パン、チルト方向に旋回することで、目標被写体を追尾する動画を撮影することができる。なお、以下の説明では、パン、チルトに関する説明は特に言及しない限り、パン及びチルトの少なくとも一方を指すものとする。

シリアル通信部２０３は、情報処理装置１００のシリアル通信部１０６と接続され、ＣＰＵ２０４の制御に基づき、情報処理装置１００と通信するためのインタフェースである。ＣＰＵ２０４は、１つ以上のプロセッサを含み、例えば記憶部２０５に格納されるプログラムに従い、雲台装置２００の各部を制御する。記憶部２０５は、不揮発性のメモリであり、雲台装置２００の設定データやその他のデータ、ＣＰＵ２０４が動作するための各種プログラム等が、それぞれ所定の領域に格納されている。

更に、操作装置３００のハードウェア構成について説明する。ネットワーク通信部３０１は、ＣＰＵ３０４の制御に基づき、ネットワーク４００を介して情報処理装置１００と通信するための通信インタフェースである。操作部３０２は、ジョイスティック、操作レバーや各種スイッチであり、操作者は、これを操作することで、雲台装置２００のパンやチルトの旋回制御やズーム制御、ゲインなどの調整を行う。記憶部３０３は、例えば不揮発性のメモリであり、操作装置３００の設定データやその他のデータ、ＣＰＵ３０４が動作するための各種プログラム等が、それぞれ所定の領域に格納されている。ＣＰＵ３０４は、１つ以上のプロセッサを含み、例えば記憶部３０３に格納されるプログラムに従い、操作装置３００の各部を制御する。表示部３０５はＬＥＤを含み、雲台装置２００のステータスや警告等をユーザに通知する。表示部３０５はタッチパネルを含んでもよい。

次に、図３を参照して、自動追尾システムのソフトウェア構成について説明する。

まず、情報処理装置１００のソフトウェア構成について説明する。情報処理装置１００は、学習部１５０、データ記憶部１５１、学習モデル設定部１５２、モード管理部１５３、設定表示部１５４、画像処理部１５５、推定部１５６、推定結果処理部１５７、雲台制御部１５８を含む。これらの各部は、情報処理装置１００のＣＰＵ１０３或いはＧＰＵ１０２がプログラムを実行することにより実現され得る。

学習部１５０は、後述する推定部１５６で学習モデルによる推論段階の処理を行う前に、学習モデルを学習させる学習段階の処理を実行する。学習段階の処理の詳細については後述する。データ記憶部１５１は、自動追尾して撮影した画像の記録処理や、学習データの記録処理、操作指令値の記録処理を行う。学習モデル設定部１５２は、雲台制御部１５８が出力する雲台のパン、チルト、ズームの制御情報に基づいて、推定部１５６で使用する学習モデルを選択する。学習モデルは、処理時間や推定精度などの特性の異なる複数の学習モデルを含む。推定に用いる学習モデルの具体例や、学習モデルの選択処理の詳細については後述する。

モード管理部１５３は、情報処理装置１００の動作モードを管理する。動作モードは、学習モード、自動撮影モード、手動撮影モードの３モードを含む。各動作モードの詳細な内容については後述する。

設定表示部１５４は、情報処理装置１００を操作するユーザからの操作入力を受け付け、入力に応じた設定をＧＵＩでＵＩ部１０８に表示する。図４は、設定表示部１５４によって表示する設定のＧＵＩの一例を示している。このＧＵＩでは、動作モードが自動撮影モードである場合には、使用している学習モデルが精度優先であるか、周期優先であるか、それらをバランスしたものであるかを選択可能に表示する。また、設定表示部１５４は、現在設定されている学習モデルで実現される処理時間（検出周期）や検出精度を表示する。

画像処理部１５５は、雲台装置２００から動画を受信して、受信した動画の処理を行う。動画の処理は、例えば、画像のリサイズや、輝度調整を含む。推定部１５６は、画像処理部１５５の出力した動画を入力データとして、学習部１５０での処理によって学習済みとなった学習モデルを用いて推論段階の処理を行う。

推定結果処理部１５７は、推定部１５６の出力に対し、各種ノイズ処理、平均化処理を実施し、追尾対象である目標被写体の画像内の位置（被写体現在位置）を出力する。雲台装置２００で撮影する映像には、追尾対象以外のノイズ（航空機以外の航空機や、背景の一部や雲など航空機と見間違えるもの）が存在する。推定結果処理部１５７は、これらのノイズを処理し、信頼度の高い被写体現在位置を出力する役割を果たす。

雲台制御部１５８は、前述した動作モードに応じて、雲台装置２００を制御する制御情報を生成する。雲台制御部１５８は、現在の動作モードが自動撮影モードである場合には、被写体の現在位置と、追尾目標位置（被写体を追尾する際に被写体を撮影すべき所定の画像内の位置）をもとに、自動で雲台装置２００を制御する制御情報を生成し、出力する。その結果、被写体を所望の画角内に位置させた自動追尾撮影を行うことができる。なお、以下の説明では、動作モードが自動撮影モードである場合に、（例えば学習モデルで推定された被写体の画像内の位置に基づいて）雲台装置２００を制御し、追尾撮影を行うことを自動撮影と称する。

動作モードが手動撮影モードである場合には、操作者が操作装置３００を操作して（すなわち手動で）雲台装置２００を制御することが可能である。また、操作装置３００から受信され、雲台制御部１５８を介して出力される雲台のパン、チルト、ズームの操作指令は、データ記憶部１５１で雲台装置の動作に関する情報として記録される。なお、以下の説明では、動作モードが手動撮影モードである場合に、雲台装置２００のパンやチルト等を手動で制御して追尾撮影することを手動撮影と称する。

なお、学習部１５０による処理にはＣＰＵ１０３に加えてＧＰＵ１０２を用いてよい。例えば、学習モデルを用いた学習段階の処理を実行する場合に、ＣＰＵ１０３とＧＰＵ１０２が協働して演算を行う。なお、学習部１５０の処理はＣＰＵ１０３またはＧＰＵ１０２のみにより演算が行われても良い。また、推定部１５６も学習部１５０と同様にＧＰＵ１０２を用いても良い。

次に、雲台装置２００のソフトウェア構成について説明する。雲台装置２００は、パンチルト制御部２５０、カメラ制御部２５１、設定管理部２５２、通信部２５３を含む。パンチルト制御部２５０は、通信部２５３で受信した制御情報に基づいて、パン及びチルトの少なくとも一方を駆動するための信号を駆動部２０２へ出力する。カメラ制御部２５１は、通信部２５３で受信した制御情報に基づいて、カメラを制御するための信号を、カメラ２０１へ出力する。設定管理部２５２は、操作装置３００の設定を管理する。具体的な設定項目として、パン、チルトの最高速や、駆動可能範囲などが挙げられる。通信部２５３は、情報処理装置１００とあらかじめ定めた通信ルール（プロトコル）に則って、操作指令や制御情報、ステータス情報のやり取りを行う。

更に、操作装置３００のソフトウェア構成について説明する。操作装置３００は、通信部３５０、表示部３５１を含む。通信部３５０は、雲台通信部１５９と予め定めた通信ルール（プロトコル）に従って、操作指令やステータス情報のやり取りを行う。

なお、上述のソフトウェア構成における機能ブロックの１つ以上は、ＡＳＩＣやプログラマブルロジックアレイ（ＰＬＡ）などのハードウェアによって実現されてもよい。また、ソフトウェアとハードウェアの組み合わせによって実現されてもよい。

次に、図５を参照して、本実施形態における学習モデルの入出力の構造について説明する。入力データ５００は、雲台装置２００で撮影された後、情報処理装置１００の画像処理部１５５で処理された画像データである。なお、雲台装置２００は動画を撮影するため、実際には、画像処理部１５５から動画像を構成する各フレームの画像が順次出力される。

出力データ５０１は、例えば、入力データ５００内に存在するオブジェクトのタグ、座標、尤度の情報を含む。タグは、学習時に入力した学習用データに含まれるタグの中から選択される。学習用データの詳細については後述する。座標は、座標１と座標２の２点の情報を含む。例えば、これらの座標は、図５の画像５０２に示すように、推定したオブジェクトの外接枠の左上（座標１）と、右下（座標２）の位置を示す。この２点の座標から、オブジェクトのサイズや中心点座標が演算される。尤度は０～１の値であり、値が高いほど出力したタグに対する推定の信頼度が高いことを示す。

学習モデル５０３は、例えばニューラルネットワークによって構成される学習モデルを含む。ニューラルネットワークの内部パラメータは、学習部１５０による学習段階の処理によって生成され或いは求められる（最適化される）。なお、学習部１５０は、誤差検出部と、更新部を備えてもよい。誤差検出部は、入力層に入力される入力データに応じてニューラルネットワークの出力層から出力される出力データと、教師データとの誤差を得る。誤差検出部は、損失関数を用いて、ニューラルネットワークからの出力データと教師データとの誤差を計算するようにしてもよい。更新部は、誤差検出部で得られた誤差に基づいて、その誤差が小さくなるように、ニューラルネットワークのノード間の結合重み付け係数等を更新する。この更新部は、例えば、誤差逆伝播法を用いて、結合重み付け係数等を更新する。誤差逆伝播法は、上記の誤差が小さくなるように、各ニューラルネットワークのノード間の結合重み付け係数等を調整する手法である。

＜情報処理装置における一連の動作＞
次に、図６を参照して、学習段階の処理を含む情報処理装置１００の一連の動作を説明する。なお、ＣＰＵ１０３又はＧＰＵ１０２が記憶部１０５に格納されたプログラムを実行することにより、学習部１５０又はモード管理部１５３などの動作を実現する。

モード管理部１５３は、まずステップＳ６００で現在の動作モードが学習モードか否かを判定する。モード管理部１５３は、情報処理装置１００の動作モードが学習モードである場合はステップＳ６０１に進み、そうでない場合は、ステップＳ６０７に進む。

ステップＳ６０１では、学習部１５０は、複数の学習モデルのうち学習させる学習モデルを受け付ける。複数の学習モデルは、画像内の被写体を推定する手法や推論前の前段処理、後段処理、及びニューラルネットワークの構造の少なくともいずれかの違いから、それぞれ処理負荷が異なる。このため、複数の学習モデルは、画像内の被写体を推定する周期と精度の異なる学習モデルで構成される。画像内の被写体を推定する周期は、学習モデルが画像を入力してから、被写体の推定を完了する（検出結果を出力する）までの時間である。また、画像内の被写体を推定する精度（すなわち被写体検出の精度）は、前述の座標１と座標２と実際の被写体の座標との一致の度合いである。画像内の被写体を推定する精度が高い学習モデルは、不鮮明な画像や小さい被写体の画像が入力される場合であっても前述の尤度が高い。すなわち、被写体を推定する精度が高い学習モデルは、画像内の被写体の大きさが所定の大きさよりも小さい場合であっても当該被写体を推定可能である。

画像内の被写体を推定する手法に違いがある複数の学習モデルの具体例として、ＹＯＬＯとＲ－ＣＮＮのような学習モデルがある。ＹＯＬＯは入力画像を複数の領域に分割し、分割した領域で分類を行う。これにより、位置推定のための処理を削減し、推定する周期を短くすることが可能である。それに対してＲ－ＣＮＮでは、被写体の位置推定の後に分類を行う。これにより高い推論性能と位置検出が可能である。

ＹＯＬＯとＲ－ＣＮＮを比較すると、ＹＯＬＯは、被写体を推定する周期がＲ－ＣＮＮより短いが、精度はＲ－ＣＮＮより低い。一方、Ｒ－ＣＮＮは被写体を推定する周期はＹＯＬＯより長いが、精度はＹＯＬＯより高いことが知られている。

前段処理や後段処理の違いがある複数の学習モデルの具体例として、ＳＳＤ３００とＳＳＤ５１２がある。一般的に学習モデルで推論処理を行う際に、推論の前段処理で入力画像の圧縮を行う。その際にＳＳＤ３００では入力画像を縦横３００ピクセルに圧縮して、学習モデルに入力する。一方、ＳＳＤ５１２では入力画像を縦横５１２ピクセルに圧縮して、学習モデルに入力する。これによりＳＳＤ３００は、ＳＳＤ５１２より画像内の被写体を推定する周期は短いが、ＳＳＤ５１２より精度が低い。一方、ＳＳＤ５１２はＳＳＤ３００より画像内の被写体を推定する周期は長いが、ＳＳＤ３００より精度が高いことが知られている。

ニューラルネットワークの構造の違いがある複数の学習モデルの具体例として、上述のＹＯＬＯとＴｉｎｙ－ＹＯＬＯのような学習モデルがある。Ｔｉｎｙ－ＹＯＬＯはＹＯＬＯと推論の前段処理及び後段処理が同じであるが、ニューラルネットワークの構造がＹＯＬＯより簡略化されており、それによりＹＯＬＯより被写体を推定する周期を短くすることができる。

なお、以下の説明では、Ｔｉｎｙ－ＹＯＬＯとＹＯＬＯ、Ｒ－ＣＮＮを使用する場合を例に説明する。ＹＯＬＯは、相対的に精度は低いが、より短い周期で被写体推定を実行可能な学習モデル（学習モデル１）の一例である。ＹＯＬＯは、精度、周期ともに中程度で被写体推定を実行可能な学習モデル（学習モデル２）の一例である。Ｒ－ＣＮＮは、相対的に周期は長いが、より精度の高い被写体推定を実行可能な学習モデル（学習モデル３）の一例である。また、上述の例では、ＹＯＬＯやＲ－ＣＮＮ、ＳＳＤ３００、ＳＳＤ５１２、Ｔｉｎｙ－ＹＯＬＯを画像内の被写体を推定するための学習モデルの例として説明をしたが、これに限らず、精度と周期の関係を満たす他の学習モデルを使用して良い。

ステップＳ６０２では、学習部１５０は、学習用データを受け付ける。図７は、学習段階における、学習用データの一例を示している。学習用データでは、画像（入力データ）と画像中に含まれる目的被写体のタグ（教師データ）とが紐づけられている。なお、入力データである画像に含まれる目的被写体（オブジェクト）はひとつであることが好ましく、画像サイズは、複数の学習用データ間で同一であることが好ましい。本実施形態の例では、空港で航空機の自動追尾撮影を行うため、入力データとして航空機が被写体として含まれる画像を学習データとして、学習モデルを学習させる。また、目的被写体の画像は、予め雲台装置２００を用いて撮影・記録すればよい。学習用データのうちの教師データは、前述した目的被写体を含んだ画像から、目的被写体が何であるかを人が目視で判断して、設定する。

再び図６に戻り、ステップＳ６０３では、学習部１５０は、受け付けた学習用データが決められたルールに則ったもの（例えば、図７に示す学習用データの形式である）か否かを判定する。学習部１５０は、ルール通りであると判定した場合は、ステップＳ６０４に進み、そうでない場合はステップＳ６０２に戻る。ステップＳ６０４では、学習部１５０は、受け付けたデータ学習用データを学習モデルに入力し、ステップＳ６０５において学習モデルの学習を行う。なお、学習モデルの学習は、図５を参照して説明したように実行される。

ステップＳ６０６では、学習部１５０は、学習用データを全て学習したか否かを判定し、全て学習した場合は処理を終了し、そうでなければステップＳ６０２に戻る。以上の処理によって、学習モデル４０３の内部パラメータが決定され、推定部１５６により推定処理が実行される際の基となる学習モデルが生成される。

ステップＳ６０７では、モード管理部１５３は、現在の動作モードが手動撮影モードか否かを判定し、動作モードが手動撮影モードであると判定した場合は、ステップＳ６０８に進み、そうでなければ、ステップＳ６１１に進む。

ステップＳ６０８では、雲台制御部１５８は、操作装置３００から操作指令を受信して、その後、ステップＳ６０９では、受信した操作指令（操作指令を、雲台装置の動作に関する情報ともいう）を情報処理装置１００のデータ記憶部１５１に記録する。続いて、ステップＳ６１０では、雲台制御部１５８は、記録した操作指令を雲台装置２００へ送信し、本処理を終了する。ステップＳ６１１では、ステップＳ６０９で記録した指令に基づいて、後述する自動撮影処理を実行する。

更に、図８を参照して、図５で示した学習モデルを利用した自動追尾システムの動作例について説明する。まず、（８－１）において、操作装置３００が情報処理装置１００に自動撮影開始命令を送信する。この自動撮影開始命令は、ユーザが、手動撮影時に自動撮影に切り替えるために、操作装置３００の所定の操作部３０２を操作することで送信される。

次に（８－２）において、情報処理装置１００は、自動撮影開始命令を受信して自動撮影に切り替わる前の、手動撮影の際のパン、チルトの速度（雲台装置の動作に関する情報）に基づいて、適切な周期と精度で被写体の推定が可能な学習モデルを選択する。（８－３）において、情報処理装置１００は、選択した学習モデルを用いて、撮影された画像に含まれる被写体の推定処理を行う。さらに、（８－４）において、情報処理装置１００は、推定結果処理部１５７、雲台制御部１５８によって、雲台のパン、チルトを制御するための制御量を演算し、制御情報を生成する。情報処理装置１００は、（８－５）において、演算した制御量が一定以上を超えると、演算した制御量に対して適切な周期と精度で被写体の推定が可能な学習モデルを再選択し、更に（８－６）において、生成した制御情報を雲台装置２００へ送信する。

雲台装置２００は、（８－７）において、情報処理装置１００から受信した制御情報に従って、パン、チルトを制御して撮影を行う。更に、（８－８）において、雲台装置２００は、撮影した動画信号を情報処理装置１００へ送信する。

このように、撮影方法を手動撮影から自動撮影に切り替え、自動撮影に切り替えた後は（８－３）～（８－８）の処理を実行することで、手動撮影から自動撮影に切り替えた際であっても、適切な学習モデルを用いた目標被写体の自動追尾撮影が可能となる。

＜学習モデル選択処理の動作＞
次に、図９を参照して、上述の（８－１）と（８－２）における手動撮影から自動撮影に切り替える際の学習モデル選択処理の動作について説明する。なお、本処理は、情報処理装置１００のＣＰＵ１０３（或いはＧＰＵ１０２）が記憶部１０５に格納されたプログラムを実行することにより、例えば学習モデル設定部１５２を機能させて実現される。

ステップＳ９００では、学習モデル設定部１５２は、手動撮影時に記録した雲台装置２００のパン（或いはチルト）の加速度が一定時間の間に変化したかを判定する。このとき、一定時間とは複数フレームを取得する時間とする。学習モデル設定部１５２は、加速度に変化があると判定した場合にはステップＳ９０１に処理を進め、変化がないと判定した場合にはステップＳ９０８に処理を進める。

ステップＳ９０８では、学習モデル設定部１５２は、参照速度を、自動撮影に切り替える際のパン（或いはチルト）の速度として設定する。参照速度とは、適切な周期と精度で被写体の推定が可能な学習モデルを選択のために参照される、パン（或いはチルト）の速度である。加速度の変化を判定基準とすることで、自動撮影に切り替える直前に、操作者が当該切り替えのために一時的に雲台装置を操作しない（そして停止指令が送信される）ことで、誤ったパン（或いはチルト）の速度が参照される場合を考慮している。加速度の変化がない場合には、手動での安定した追尾ができていると判定することができるため、自動撮影モードに切り替える前の手動撮影モードでのパン（或いはチルト）の速度を、被写体の追尾に求められる速度として設定することができる。

ステップＳ９０１では、学習モデル設定部１５２は、記録した雲台装置のパン（或いはチルト）の加速度が一定時間の間に複数回変化したかを判定する。学習モデル設定部１５２は、加速度が複数回変化したと判定した場合は、処理をステップＳ９０２に進め、加速度が複数回変化しなかったと判定した場合には、処理をステップＳ９０５に進める。

ステップＳ９０２では、学習モデル設定部１５２は、参照速度を一定時間の速度の平均値に設定する。ステップＳ９０５では、学習モデル設定部１５２は、加速度が変化する前（例えば加速度が変化した時点を含む現時点から一定期間より）前の時点の速度を参照速度に設定する。加速度が複数回変化することを判定基準とすることで、手動撮影から自動撮影に切り替える直前に操作者が不慣れな操作のために被写体を画角に捉えられず、加減速を繰り返す場合を考慮している。そのため、学習モデル設定部１５２は、予め定めた一定時間のパン（或いはチルト）の速度の平均値を参照速度として設定する。

ステップＳ９０３では、学習モデル設定部１５２は、パン（或いはチルト）の参照速度が、所定の最高値以上であるかを判定する。学習モデル設定部１５２は、当該参照速度が所定の最高値以上（所定の閾値以上）であると判定した場合は、処理をステップＳ９０４に進め、そうでない場合には、ステップＳ９０６に処理を進める。

ステップＳ９０６では、学習モデル設定部１５２は、パン（或いはチルト）の参照速度が所定の最低値以下であるかを判定する。学習モデル設定部１５２は、当該参照速度が所定の最低値以下（所定の第２閾値以下）であると判定した場合には、処理をステップＳ９０７に進め、そうでない場合には、処理をステップＳ９０９に進める。

ステップＳ９０４では、学習モデル設定部１５２は、学習モデル１を推定処理で使用する学習モデルとして設定する。また、ステップＳ９０７では、学習モデル設定部１５２は、学習モデル３を推定処理で使用する学習モデルとして設定する。ステップＳ９０９では、学習モデル２を推定処理で使用する学習モデルとして設定する。学習モデル設定部１５２は、学習モデルの設定を完了すると本処理を終了する。

図１０を参照して、学習モデルの変更について説明する。図１０（ａ）～（ｃ）は、着陸している航空機を追尾する場合を例に、追尾状況とパン（或いはチルト）の速度、学習モデルが切り替えられるいくつかの段階を示している。図１０の例では、航空機の着陸の段階に応じて、追尾に求められるパン（或いはチルト）の速度や、必要な被写体推定の周期や精度が異なる。初期設定では、航空機の着陸を追尾するときはズームをテレ側にし、パン（或いはチルト）を航空機の航路が画角内に入るように設定して静止させる。このとき、被写体を推定する周期は長いが、被写体を推定する精度が高い学習モデル（学習モデル２）を設定する。

図１０（ａ）は、航空機が滑走路に着陸するために空港に近づいている段階を示している。この場合、航空機は空港屋上の雲台から離れており、ズームをテレ側に移動した状態であっても航空機は雲台のカメラの画角内では小さい。このため、小さい被写体を推定可能な精度の高い学習モデルが求められるが、精度の高い学習モデルでは被写体を推定する周期が長い（すなわち推定に時間がかかる）。しかし、上述のように航空機は雲台のカメラの画角内では小さいため、画角内での航空機の相対移動速度は小さい。従って、被写体の追尾に求められるパン（或いはチルト）の速度は低い。この段階では、被写体を推定する周期が長いとしても、航空機の相対移動速度は小さいために、追尾への影響は小さい。そのため、航空機が滑走路に着陸するために空港に近づいている段階では精度の高い学習モデル２を使用することで、被写体を推定する周期と精度の最適化が可能である。

図１０（ｂ）は、航空機が着地し、滑走路を走る段階を示している。この場合、航空機が空港屋上の雲台に近く、ズームをワイド側に移動した状態でも画角内での航空機の相対速度が大きい。このため、追尾に必要なパン（或いはチルト）の速度は大きい。航空機の相対移動速度が大きい場合、推定の遅れが追尾に与える影響が大きい。このため、被写体を推定する周期が短い学習モデルが求められる。被写体を推定する周期の短い学習モデルでは被写体を推定する精度が低くなり、画像が不鮮明な場合の被写体や小さい被写体の推定精度が低下する。しかし、前述のように航空機は雲台装置のカメラの画角内では大きいため、相対的に被写体を推定する精度の低い学習モデルを用いる場合であっても航空機を検出することができる。従って、航空機が着地し、滑走路を走る段階では、被写体を推定する周期の短い学習モデル（学習モデル１）を使用することで、被写体を推定する周期と精度の最適化が可能である。

図１０（ｃ）は、航空機が着陸し、滑走路から空港のターミナルへ移動する段階を示している。この場合、物理的に航空機の速度が低く、追尾に求められるパン（或いはチルト）の速度は低い。また、ズームをワイド側に移動した状態でも航空機は雲台のカメラの画角内では大きい。この段階では、被写体の推定結果に推定の遅れが含まれたとしても、航空機の速度が小さいために、追尾への影響は小さい。そのため、被写体を推定する精度の高い学習モデル（学習モデル２）を使用することができる。

このように、航空機の着陸の段階に応じて、追尾に求められるパン（或いはチルト）の速度や被写体推定の周期や精度が異なる。本実施形態では、画角内の航空機の大きさや速度を参照するのではなく、パン（或いはチルト）の速度を参照する。これは、画角内の航空機の速度が相対値であるのに対し、パン（或いはチルト）の速度は絶対値であるために、学習モデルの切り替えの判定が容易になる。雲台装置２００が航空機を追尾する場合、画角から算出できる航空機の速度は相対速度であり、正確な航空機の速度の算出は困難である。一般に、対象被写体との背景分離を行うことで背景から被写体の速度を算出することが可能である。しかし、航空機を撮影する場合、背景分離が困難な青空などが背景である場合が多い。それに対して、パン（或いはチルト）の速度は絶対値であり、操作装置３００から取得可能であることから、学習モデルの切り替えの判定を容易に行うことができる。すなわち、操作者が操作装置３００で雲台装置２００を動かす手動撮影から自動撮影に切り替える際に、誤った参照速度を使用することなく、追尾に求められるパン（或いはチルト）の速度を参照して自動撮影に最適な学習モデルを設定することができる。なお、上述の一定時間は可変であり、ユースケースごとに変更されても良い。

更に、図１１を参照して、自動撮影に切り替えた後の図８の（８－３）から（８－８）に関する推定処理の詳細な動作について説明する。なお、本処理は、情報処理装置１００のＣＰＵ１０３（或いはＧＰＵ１０２）が記憶部１０５に格納されたプログラムを実行することにより、図３に示した情報処理装置１００の各部を機能させて実現される。

ステップＳ１１００では、学習モデル設定部１５２は、雲台装置２００に送信したパン、チルトの速度を雲台制御部１５８から取得する。続いて、ステップＳ１１０１では、学習モデル設定部１５２は、パン（或いはチルト）の速度が所定の最高値以上であるかを判定する。学習モデル設定部１５２は、パン（或いはチルト）の速度が所定の最高値以上であるかを判定し、速度が所定の最高値以上である場合、処理をステップＳ１１０２に進め、そうでない場合には処理をステップＳ１１０８に進める。

ステップＳ１１０２では、学習モデル設定部１５２は、学習モデル１を推定処理で使用する学習モデルとして設定する。ステップＳ１１０８では、学習モデル設定部１５２は、パン（或いはチルト）の速度が所定最低値以下かどうか判定する。学習モデル設定部１５２は、パン（或いはチルト）の速度が所定の最低値以下であると判定した場合にはステップＳ１１０９に処理を進め、そうでない場合には処理をステップＳ１１１２に進める。

ステップＳ１１０９では、学習モデル設定部１５２は、学習モデル３を推定処理で使用する学習モデルとして設定する。ステップＳ１１１２では、学習モデル設定部１５２は、学習モデル２を推定処理で使用する学習モデルとして設定する。切り替えられる学習モデルは、情報処理装置１００に保持している複数の学習モデルの中から選択される。

ステップＳ１１０３では、雲台装置２００から受信した画像に対し、画像処理部１５５はサイズの変更（リサイズ）を行う。入力画像のサイズを小さくすることで、推定部１５６の処理時間を削減する。続いて、ステップＳ１１０４では、画像処理部１５５は、サイズを変更した画像データを学習モデルに入力する。

ステップＳ１１０５では、推定部１５６は、設定された学習モデルを用いて推定処理を行う。ステップＳ１１０６では、推定結果処理部１５７は、画像に推定対象が含まれるかを判定する。本実施形態では、推定対象は航空機であり、推定結果処理部１５７は、画像に推定対象が含まれると判定した場合、処理をステップＳ１１０７に進め、そうでない場合には処理をステップＳ１１１０に進める。

ステップＳ１１１０では、雲台制御部１５８は、雲台装置２００に停止指令を送信する。ステップＳ１０１１では、モード管理部１５３は、現在のモードを手動撮影モードに設定し、本処理を終了する。このように、推定部１５６により、推定対象が出力されなかった場合、情報処理装置１００は、追尾対象が撮影可能範囲から消失したと判断して、自動撮影を終了する。

ステップＳ１１０７では、雲台制御部１５８は、推定結果の座標と、追尾目標位置の差分を基にパン、チルトの制御情報を生成するとともに、推定結果のサイズと追尾目標サイズを基にズームの制御情報を生成して、両信号を雲台装置２００に送信する。なお、追尾目標位置と、追尾目標サイズとは、予め情報処理装置１００の記憶部１０５に登録しておけばよい。例えば、それぞれ、画面内の中心座標と、画面の３０％のサイズを設定するようにしてよいが、これに限らない。また、追尾目標位置と追尾目標サイズは、操作装置３００から情報処理装置１００に設定できる構成としても良い。

以上説明したように本実施形態では、学習モデルで推定された被写体の画像内の位置に基づいて、撮影画像に被写体が含まれるように雲台装置のカメラの向きを制御するための制御情報を生成し、雲台装置に出力するようにした。このとき、画像に被写体が含まれるように操作者が雲台装置のパン、チルトを手動で制御したときの操作指令（雲台装置の動作に関する情報）を取得する。そして、推定部１５６が、雲台装置のパン、チルトを手動で制御したときの操作指令（雲台装置の動作に関する情報）に応じた、特性の異なる学習モデルを用いて、画像に含まれる被写体を推定するようにした。

このようにすることで、雲台装置２００は制御情報によって旋回、変倍制御され、制御中に撮影される動画が情報処理装置１００に入力されることで、推定と雲台の制御が繰り返されて自動追尾撮影を実現することができる。このとき、適切な学習モデルを用いて被写体を追尾する撮影が可能になる。

なお、本実施形態では、操作装置３００が情報処理装置１００と接続され、操作装置３００の操作指令が操作装置３００から情報処理装置１００へ送信される場合を例に説明した。しかし、上述の自動追尾システムは、操作装置３００が雲台装置２００に操作指令を送信し、雲台装置２００が受信した操作指令を情報処理装置１００へ転送するようにしてもよい。この場合、情報処理装置１００は、雲台装置２００を手動で制御したときの雲台装置の動作に関する情報（操作指令）を、雲台装置２００から取得してもよい。

また、上記実施形態では、情報処理装置１００は、自動撮影開始命令により手動撮影から自動撮影に切り替わった際に、自動撮影に切り替わる前の手動操作による操作指令に応じて、学習モデルを選択し、被写体の推定を行うようにした。しかし、情報処理装置１００は、手動撮影から自動撮影に切り替えた後の、例えば短い期間に継続する操作指令の情報を用いて学習モデルを選択してもよい。例えば、上述のように、情報処理装置１００は、手動撮影から自動撮影への切り替えを、被写体の大きさや速度などの情報に基づいて自動的に行ってもよい。この場合、自動撮影に切り替わった直後の期間では、操作者の操作が継続する場合が考えられる。このような場合、情報処理装置１００は、自動撮影に切り替わる前の操作指令に加えて、又はこれに代えて、自動撮影に切り替わった後の所定の時間の間に取得される操作指令を用いて、適切な学習モデルを選択するようにしてもよい。この場合、自動撮影に切り替わった直後では、切り替え前の操作指令に応じて選択された学習モデル（或いは予め定めた学習モデル）を用いて自動撮影を開始し、切り替わった後の操作指令を用いて更に適した学習モデルを選択してもよい。このとき、図９を参照して説明した一定時間内のパン（或いはチルト）に関する判定は、自動撮影に切り替わった後の一定時間、或いは、自動撮影に切り替わった時点を含む前後の一定時間に適用されてもよい。

また、本実施形態では、航空機が追尾対象であるオブジェクトである場合を例に説明したが、これに限らず、他のオブジェクトを追尾対象として自動追尾撮影を行っても良い。また、本実施形態では、航空機が着陸するシーンを自動追尾撮影する場合を例に説明したが、これに限らず、航空機が離陸するシーンを自動追尾撮影しても良い。更に、手動撮影から自動撮影に切り替える条件は、ユーザの操作装置３００からの操作に限らず、被写体の大きさや速度などの情報であってもよい。

また、本実施形態では、参照速度が、一定時間の速度の平均値であるか、加速度変化前の速度であるか、自動撮影に切り替えた際の速度であるかのいずれかに設定される場合を例に説明した。しかし、一定時間の速度の最大値、最小値、又は最頻値が参照速度として用いられてもよい。更に、本実施形態では、学習モデル１、学習モデル２、学習モデル３を用いる場合を例に説明したが、使用する学習モデルは３つに限定されず、他の数の複数の学習モデルを使用してもよい。また、本実施形態では、雲台装置のパン（或いはチルト）の速度を参照して、学習モデルの切り替えを行う場合を例に説明した。これに限らず、ズームの速度を参照して、学習モデルの切り替えを行ってもよい。更に、本実施形態では、情報処理装置１００と雲台装置２００間をシリアル通信と有線の映像信号線で接続したが、これに限らず公衆電話回線や、インターネット等の通信回線で接続しても良い。

なお、上述した各処理部のうち、推定部１５６については、機械学習された学習モデルを用いて処理を実行したが、ルックアップテーブル（ＬＵＴ）等のルールベースの処理を行ってもよい。その場合には、例えば、入力データと出力データとの関係をあらかじめＬＵＴとして作成する。そして、この作成したＬＵＴを情報処理装置１００の記憶部１０５に格納しておくとよい。推定部１５６の処理を行う場合には、この格納されたＬＵＴを参照して、出力データを取得することができる。

上述のプロセッサまたは回路は、デジタルシグナルプロセッサ（ＤＳＰ）、データフロープロセッサ（ＤＦＰ）、またはニューラルプロセッシングユニット（ＮＰＵ）を含んでもよい。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

本明細書の開示は、以下の情報処理装置、情報処理装置の制御方法、及びプログラムを含む。

（項目１）
パン及びチルトの少なくとも一方を含む撮像手段の向きを制御しながら撮影された動画を受信する受信手段と、
前記動画を構成する画像内の被写体を学習モデルを用いて推定する推定手段と、
前記推定手段で推定された前記被写体の画像内の位置に基づいて、前記動画を構成する画像に前記被写体が含まれるように前記撮像手段の向きを制御するための制御情報を出力する制御手段と、
前記動画を構成する画像に前記被写体が含まれるように操作者が前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を取得する取得手段と、を有し、
前記推定手段は、前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報に応じた、特性の異なる学習モデルを用いて、前記画像に含まれる前記被写体を推定する、ことを特徴とする情報処理装置。

（項目２）
前記推定手段は、前記撮像手段の向きを手動で制御する手動撮影から、前記推定手段で推定された前記被写体の画像内の位置に基づいて前記撮像手段の向きを制御する自動撮影に切り替わる前の前記撮像手段の動作に関する情報に応じて、前記特性の異なる学習モデルを用いる、ことを特徴とする項目１に記載の情報処理装置。

（項目３）
前記推定手段は、前記手動撮影から前記自動撮影に切り替わる前の所定の時間の間における前記撮像手段の動作に関する情報に応じて、前記特性の異なる学習モデルを用いる、ことを特徴とする項目２に記載の情報処理装置。

（項目４）
前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を記憶する記憶手段を更に有し、
前記取得手段は、前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を、前記記憶手段から取得する、ことを特徴とする項目１から３のいずれか１項に記載の情報処理装置。

（項目５）
前記取得手段は、前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を、前記操作者が操作する操作装置又は、前記撮像手段を含む装置から取得する、ことを特徴とする項目１から３のいずれか１項に記載の情報処理装置。

（項目６）
前記撮像手段の動作に関する情報は、前記撮像手段の向きが変化する速度に関する情報を含む、項目１から５のいずれか１項に記載の情報処理装置。

（項目７）
前記特性は、学習モデルが前記画像を入力してから被写体の推定を完了するまでの時間と、前記学習モデルで被写体を推定する精度とを含む、ことを特徴とする項目１から５のいずれか１項に記載の情報処理装置。

（項目８）
前記特性の異なる学習モデルは、第１学習モデルと第２学習モデルとを含み、前記第１学習モデルは、前記第２学習モデルよりも前記被写体を推定する精度が高く、且つ、前記第２学習モデルよりも前記推定を完了するまでの時間が長い、ことを特徴とする項目７に記載の情報処理装置。

（項目９）
前記撮像手段の動作に関する情報は、前記撮像手段の向きが変化する速度に関する情報を含み、
前記推定手段は、前記撮像手段の向きが変化する速度が所定の閾値以上である場合に、前記第１学習モデルよりも前記推定を完了するまでの時間が短い前記第２学習モデルを使用し、当該速度が前記所定の閾値より小さい場合、前記第２学習モデルよりも前記被写体を推定する精度が高い前記第１学習モデルを使用する、ことを特徴とする項目８に記載の情報処理装置。

（項目１０）
前記撮像手段の向きが変化する速度は、前記操作者が前記撮像手段の向きを制御する手動撮影から、前記推定手段で推定された前記被写体の画像内の位置に基づいて前記撮像手段の向きを制御する自動撮影に切り替わる前の所定の時間の間における、前記撮像手段の向きが変化する速度の平均値である、ことを特徴とする項目９に記載の情報処理装置。

（項目１１）
前記撮像手段の向きが変化する速度は、前記操作者が前記撮像手段の向きを制御する手動撮影から、前記推定手段で推定された前記被写体の画像内の位置に基づいて前記制御手段が前記撮像手段の向きを制御する自動撮影に切り替わる前の所定の時間の間における、前記撮像手段の向きが変化する速度の最大値又は最小値である、ことを特徴とする項目９に記載の情報処理装置。

（項目１２）
前記被写体を推定する精度が高い前記第１学習モデルは、画像内の前記被写体の大きさが所定の大きさよりも小さい場合であっても当該被写体を推定可能である、ことを特徴とする項目８から１１のいずれか１項に記載の情報処理装置。

（項目１３）
前記撮像手段は、更にズームの制御が可能であり、
前記推定手段は、前記画像を撮影する際の前記撮像手段のズームの動作の速度に応じた、前記特性の異なる学習モデルを用いて、前記画像に含まれる被写体を推定する、ことを特徴とする項目１から１２のいずれか１項に記載の情報処理装置。

（項目１４）
前記制御手段は、更に、推定された前記被写体の画像内の大きさを用いて、前記動画を構成する画像内の前記被写体の大きさを所定の大きさに近づけるように前記撮像手段のズームを制御するための前記制御情報を出力する、ことを特徴とする項目１３に記載の情報処理装置。

（項目１５）
前記制御手段は、推定された前記被写体の画像内の位置と、被写体を追尾する際に被写体を撮影すべき予め定めた画像内の位置との差分に基づいて、前記制御情報を出力する、ことを特徴とする項目１から１４のいずれか１項に記載の情報処理装置。

（項目１６）
前記学習モデルはニューラルネットワークのモデルであることを特徴とする項目１から１５のいずれか１項に記載の情報処理装置。

（項目１７）
パン及びチルトの少なくとも一方を含む撮像手段の向きを制御しながら撮影された動画を受信する受信工程と、
前記動画を構成する画像内の被写体を学習モデルを用いて推定する推定工程と、
前記推定工程で推定された前記被写体の画像内の位置に基づいて、前記動画を構成する画像に前記被写体が含まれるように前記撮像手段の向きを制御するための制御情報を出力する制御工程と、
前記動画を構成する画像に前記被写体が含まれるように操作者が前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を取得する取得工程と、を有し、
前記推定工程では、前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報に応じた、特性の異なる学習モデルを用いて、前記画像に含まれる前記被写体を推定する、ことを特徴とする情報処理装置の制御方法。

（項目１８）
コンピュータを、項目１から１６のいずれか１項に記載の情報処理装置の各手段として機能させるためのプログラム。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために項目を添付する。

１００…情報処理装置、２００…雲台装置、３００…操作装置、１５１…データ記憶部、１５２…学習モデル設定部、１５６…推定部、１５８…雲台制御部

Claims

パン及びチルトの少なくとも一方を含む撮像手段の向きを制御しながら撮影された動画を受信する受信手段と、
前記動画を構成する画像内の被写体を学習モデルを用いて推定する推定手段と、
前記推定手段で推定された前記被写体の画像内の位置に基づいて、前記動画を構成する画像に前記被写体が含まれるように前記撮像手段の向きを制御するための制御情報を出力する制御手段と、
前記動画を構成する画像に前記被写体が含まれるように操作者が前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を取得する取得手段と、を有し、
前記推定手段は、前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報に応じた、特性の異なる学習モデルを用いて、前記画像に含まれる前記被写体を推定する、ことを特徴とする情報処理装置。
前記推定手段は、前記撮像手段の向きを手動で制御する手動撮影から、前記推定手段で推定された前記被写体の画像内の位置に基づいて前記撮像手段の向きを制御する自動撮影に切り替わる前の前記撮像手段の動作に関する情報に応じて、前記特性の異なる学習モデルを用いる、ことを特徴とする請求項１に記載の情報処理装置。
前記推定手段は、前記手動撮影から前記自動撮影に切り替わる前の所定の時間の間における前記撮像手段の動作に関する情報に応じて、前記特性の異なる学習モデルを用いる、ことを特徴とする請求項２に記載の情報処理装置。
前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を記憶する記憶手段を更に有し、
前記取得手段は、前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を、前記記憶手段から取得する、ことを特徴とする請求項１に記載の情報処理装置。
前記取得手段は、前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を、前記操作者が操作する操作装置又は、前記撮像手段を含む装置から取得する、ことを特徴とする請求項１に記載の情報処理装置。
前記撮像手段の動作に関する情報は、前記撮像手段の向きが変化する速度に関する情報を含む、請求項１に記載の情報処理装置。
前記特性は、学習モデルが前記画像を入力してから被写体の推定を完了するまでの時間と、前記学習モデルで被写体を推定する精度とを含む、ことを特徴とする請求項１に記載の情報処理装置。
前記特性の異なる学習モデルは、第１学習モデルと第２学習モデルとを含み、前記第１学習モデルは、前記第２学習モデルよりも前記被写体を推定する精度が高く、且つ、前記第２学習モデルよりも前記推定を完了するまでの時間が長い、ことを特徴とする請求項７に記載の情報処理装置。
前記撮像手段の動作に関する情報は、前記撮像手段の向きが変化する速度に関する情報を含み、
前記推定手段は、前記撮像手段の向きが変化する速度が所定の閾値以上である場合に、前記第１学習モデルよりも前記推定を完了するまでの時間が短い前記第２学習モデルを使用し、当該速度が前記所定の閾値より小さい場合、前記第２学習モデルよりも前記被写体を推定する精度が高い前記第１学習モデルを使用する、ことを特徴とする請求項８に記載の情報処理装置。
前記撮像手段の向きが変化する速度は、前記操作者が前記撮像手段の向きを制御する手動撮影から、前記推定手段で推定された前記被写体の画像内の位置に基づいて前記撮像手段の向きを制御する自動撮影に切り替わる前の所定の時間の間における、前記撮像手段の向きが変化する速度の平均値である、ことを特徴とする請求項９に記載の情報処理装置。
前記撮像手段の向きが変化する速度は、前記操作者が前記撮像手段の向きを制御する手動撮影から、前記推定手段で推定された前記被写体の画像内の位置に基づいて前記制御手段が前記撮像手段の向きを制御する自動撮影に切り替わる前の所定の時間の間における、前記撮像手段の向きが変化する速度の最大値又は最小値である、ことを特徴とする請求項９に記載の情報処理装置。
前記被写体を推定する精度が高い前記第１学習モデルは、画像内の前記被写体の大きさが所定の大きさよりも小さい場合であっても当該被写体を推定可能である、ことを特徴とする請求項８に記載の情報処理装置。
前記撮像手段は、更にズームの制御が可能であり、
前記推定手段は、前記画像を撮影する際の前記撮像手段のズームの動作の速度に応じた、前記特性の異なる学習モデルを用いて、前記画像に含まれる被写体を推定する、ことを特徴とする請求項１に記載の情報処理装置。
前記制御手段は、更に、推定された前記被写体の画像内の大きさを用いて、前記動画を構成する画像内の前記被写体の大きさを所定の大きさに近づけるように前記撮像手段のズームを制御するための前記制御情報を出力する、ことを特徴とする請求項１３に記載の情報処理装置。
前記制御手段は、推定された前記被写体の画像内の位置と、被写体を追尾する際に被写体を撮影すべき予め定めた画像内の位置との差分に基づいて、前記制御情報を出力する、ことを特徴とする請求項１に記載の情報処理装置。
前記学習モデルはニューラルネットワークのモデルであることを特徴とする請求項１に記載の情報処理装置。
パン及びチルトの少なくとも一方を含む撮像手段の向きを制御しながら撮影された動画を受信する受信工程と、
前記動画を構成する画像内の被写体を学習モデルを用いて推定する推定工程と、
前記推定工程で推定された前記被写体の画像内の位置に基づいて、前記動画を構成する画像に前記被写体が含まれるように前記撮像手段の向きを制御するための制御情報を出力する制御工程と、
前記動画を構成する画像に前記被写体が含まれるように操作者が前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を取得する取得工程と、を有し、
前記推定工程では、前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報に応じた、特性の異なる学習モデルを用いて、前記画像に含まれる前記被写体を推定する、ことを特徴とする情報処理装置の制御方法。
コンピュータを、請求項１から１６のいずれか１項に記載の情報処理装置の各手段として機能させるためのプログラム。