JP2023170173A - 情報処理装置、制御方法ならびにプログラム - Google Patents
情報処理装置、制御方法ならびにプログラム Download PDFInfo
- Publication number
- JP2023170173A JP2023170173A JP2022081721A JP2022081721A JP2023170173A JP 2023170173 A JP2023170173 A JP 2023170173A JP 2022081721 A JP2022081721 A JP 2022081721A JP 2022081721 A JP2022081721 A JP 2022081721A JP 2023170173 A JP2023170173 A JP 2023170173A
- Authority
- JP
- Japan
- Prior art keywords
- learning model
- subject
- imaging means
- image
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims description 52
- 238000003384 imaging method Methods 0.000 claims abstract description 97
- 238000012545 processing Methods 0.000 claims description 54
- 238000004091 panning Methods 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 8
- 238000013459 approach Methods 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 40
- 238000004891 communication Methods 0.000 description 24
- 230000001133 acceleration Effects 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000007726 management method Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 7
- 238000013500 data storage Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
Images
Landscapes
- Closed-Circuit Television Systems (AREA)
- Studio Devices (AREA)
- Image Analysis (AREA)
Abstract
【課題】適切な学習モデルを用いて被写体を追尾する撮影を可能にする情報処理装置を提供する。【解決手段】本開示に係る情報処理装置は、パン及びチルトの少なくとも一方を含む撮像手段の向きを制御しながら撮影された動画を受信する受信手段と、動画を構成する画像内の被写体を学習モデルを用いて推定する推定手段と、推定手段で推定された被写体の画像内の位置に基づいて、動画を構成する画像に被写体が含まれるように撮像手段の向きを制御するための制御情報を出力する制御手段と、動画を構成する画像に被写体が含まれるように操作者が撮像手段の向きを手動で制御したときの撮像手段の動作に関する情報を取得する取得手段と、を有し、推定手段は、撮像手段の向きを手動で制御したときの撮像手段の動作に関する情報に応じた、特性の異なる学習モデルを用いて、画像に含まれる被写体を推定する。【選択図】図9
Description
本発明は、情報処理装置、制御方法ならびにプログラムに関する。
従来、ユーザが操作器からカメラを遠隔操作することで所望の映像を取得する、遠隔撮影システムが知られている。このようなシステムでは、空港の屋上に設置された雲台装置を放送局から遠隔操作することで、航空機の映像を撮影することができる。このような雲台装置に画像認識技術を搭載して映像内の被写体を推定し、被写体の動きに合わせて自動的にカメラのパン、チルト、ズームを動作させることで、ユーザが操作器を操作しなくても、動きのある被写体を追尾して撮影することができる。
また、機械学習により学習させた学習モデルを用いる画像認識技術が知られている。特許文献1では、学習モデルを使用して被写体を探索する際に被写体探索を行う間隔を変化させる技術を提案している。
ところで、速度の速い被写体を撮影する場合には、学習モデルの実行時間(例えば画像に対する推定処理を開始してから終了するまでの時間)が短くなければならないが、一般に、学習モデルの実行時間と推定の精度はトレードオフの関係となることが多い。このため、学習モデルを用いて被写体を追尾するためには、適切な特性の学習モデルを動作させる必要がある。
本発明は、上記課題に鑑みてなされ、その目的は、適切な学習モデルを用いて被写体を追尾する撮影を可能にする技術を実現することである。
この課題を解決するため、例えば本発明の情報処理装置は以下の構成を備える。すなわち、パン及びチルトの少なくとも一方を含む撮像手段の向きを制御しながら撮影された動画を受信する受信手段と、前記動画を構成する画像内の被写体を学習モデルを用いて推定する推定手段と、前記推定手段で推定された前記被写体の画像内の位置に基づいて、前記動画を構成する画像に前記被写体が含まれるように前記撮像手段の向きを制御するための制御情報を出力する制御手段と、前記動画を構成する画像に前記被写体が含まれるように操作者が前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を取得する取得手段と、を有し、前記推定手段は、前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報に応じた、特性の異なる学習モデルを用いて、前記画像に含まれる前記被写体を推定する、ことを特徴とする。
本発明によれば、適切な学習モデルを用いて被写体を追尾する撮影が可能になる。
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
<撮影システムの構成>
図1は、本発明を適用できるシステムを示す図であり、情報処理装置100、雲台装置200、操作装置300、ネットワーク400で構成される。情報処理装置100は、例えば、機械学習モデル(単に学習モデルともいう)を用いた画像認識技術を実行可能なパーソナルコンピュータである。しかし、情報処理装置100はパーソナルコンピュータに限らず、学習モデルを用いた画像認識技術を実行可能な他の任意の機器であってよい。また、雲台装置200及び操作装置300はそれぞれ専用の装置である場合を例に説明するが、雲台装置200及び操作装置300のそれぞれの一部がパーソナルコンピュータやタブレット端末などの電子機器で構成されてもよい。
図1は、本発明を適用できるシステムを示す図であり、情報処理装置100、雲台装置200、操作装置300、ネットワーク400で構成される。情報処理装置100は、例えば、機械学習モデル(単に学習モデルともいう)を用いた画像認識技術を実行可能なパーソナルコンピュータである。しかし、情報処理装置100はパーソナルコンピュータに限らず、学習モデルを用いた画像認識技術を実行可能な他の任意の機器であってよい。また、雲台装置200及び操作装置300はそれぞれ専用の装置である場合を例に説明するが、雲台装置200及び操作装置300のそれぞれの一部がパーソナルコンピュータやタブレット端末などの電子機器で構成されてもよい。
ユーザが操作装置300を操作すると、操作に応じた命令が、ネットワーク400を介して情報処理装置100に送信され、更に情報処理装置から雲台装置200を制御する制御情報が雲台装置200に送信される。雲台装置200が制御情報の内容に応じてカメラによる撮影を制御することにより、ユーザは雲台装置200を遠隔操作することが可能になる。雲台装置200で撮影された映像は、情報処理装置100に送信され、情報処理装置100は、自動追尾撮影に必要な各種演算および記録を行う。ネットワーク400は、公衆電話回線、移動体通信網或いはインターネット等の通信回線である。例えば、雲台装置200および情報処理装置100は、空港や鉄塔、テレビ局屋上といったスポットに設置され、操作装置300はテレビ局内等に設置される。本実施形態では、例えば、情報処理装置100および雲台装置200が空港に設置され、自動追尾撮影の対象物が航空機である場合を例に説明する。
図2は、図1のシステムを構成する各装置のハードウェア構成の一例を示している。情報処理装置100は、RAM101、GPU102、CPU103、入力部104、記憶部105、シリアル通信部106、ネットワーク通信部107、UI部108を含む。雲台装置200は、カメラ201、駆動部202、シリアル通信部203、CPU204、記憶部205を含む。操作装置300は、ネットワーク通信部301、操作部302、記憶部303、CPU304、表示部305を含む。
情報処理装置100の構成について説明する。RAM101は、例えば揮発性のメモリである。CPU103は、1つ以上のプロセッサを含み、例えば記憶部105に格納されるプログラムに従い、RAM101をワークメモリとして用いて、情報処理装置100の各部を制御する。GPU102は、1つ以上のプロセッサを含み、データをより多く並列処理することで効率的な演算を行うことができる。このため、ディープニューラルネットワーク(DNN)等の学習モデルを用いて複数回に渡り学習を行う場合、GPU102による演算は有効である。
入力部104は、映像信号を情報処理装置100に入力するためのインタフェースであり、例えばUSB等の各種通信インタフェースである。記憶部105は、例えば不揮発性のメモリであり、画像データやその他のデータ、CPU103が動作するための各種プログラム等が、それぞれ所定の領域に格納されている。シリアル通信部106は、CPU103の制御に基づき、雲台装置200と通信するためのインタフェースである。ネットワーク通信部107は、CPU103の制御に基づき、ネットワーク400を介して操作装置300と通信するための通信インタフェースである。UI部108は、情報処理装置100を操作するユーザからの操作入力を受け付け、ユーザへ情報処理装置100の情報を表示するためのユーザインタフェースである。UI部108は、キーボードやマウス、ディスプレイ、タッチパネルを含んでよい。
次に、雲台装置200のハードウェア構成について説明する。カメラ201は、撮像センサを含み、雲台装置200が設置された周囲を撮影し、目標被写体を撮影した画像を順次出力する(すなわち動画を出力する)。カメラ201は撮影倍率を変更可能な光学ズームレンズを含み、CPU204からカメラ201にズーム制御命令を送信することで、撮像映像の倍率を変更することができる。さらに、カメラ201は撮像された画像の一部を局所的に拡大させるデジタルズーム機能も有する。デジタルズームは、光学ズームでは倍率が足りない場合、すなわち、より撮影映像を拡大したい場合に実行される。また、カメラ201は、情報処理装置100の入力部104と例えば有線で接続され、撮影した画像信号を情報処理装置100へ出力する。
駆動部202は、雲台装置200のカメラ201をパン、チルト方向に旋回させるためのアクチュエータ、その駆動回路、及び周辺回路を含む。雲台装置200は、目標被写体に対し、パン、チルト方向に旋回することで、目標被写体を追尾する動画を撮影することができる。なお、以下の説明では、パン、チルトに関する説明は特に言及しない限り、パン及びチルトの少なくとも一方を指すものとする。
シリアル通信部203は、情報処理装置100のシリアル通信部106と接続され、CPU204の制御に基づき、情報処理装置100と通信するためのインタフェースである。CPU204は、1つ以上のプロセッサを含み、例えば記憶部205に格納されるプログラムに従い、雲台装置200の各部を制御する。記憶部205は、不揮発性のメモリであり、雲台装置200の設定データやその他のデータ、CPU204が動作するための各種プログラム等が、それぞれ所定の領域に格納されている。
更に、操作装置300のハードウェア構成について説明する。ネットワーク通信部301は、CPU304の制御に基づき、ネットワーク400を介して情報処理装置100と通信するための通信インタフェースである。操作部302は、ジョイスティック、操作レバーや各種スイッチであり、操作者は、これを操作することで、雲台装置200のパンやチルトの旋回制御やズーム制御、ゲインなどの調整を行う。記憶部303は、例えば不揮発性のメモリであり、操作装置300の設定データやその他のデータ、CPU304が動作するための各種プログラム等が、それぞれ所定の領域に格納されている。CPU304は、1つ以上のプロセッサを含み、例えば記憶部303に格納されるプログラムに従い、操作装置300の各部を制御する。表示部305はLEDを含み、雲台装置200のステータスや警告等をユーザに通知する。表示部305はタッチパネルを含んでもよい。
次に、図3を参照して、自動追尾システムのソフトウェア構成について説明する。
まず、情報処理装置100のソフトウェア構成について説明する。情報処理装置100は、学習部150、データ記憶部151、学習モデル設定部152、モード管理部153、設定表示部154、画像処理部155、推定部156、推定結果処理部157、雲台制御部158を含む。これらの各部は、情報処理装置100のCPU103或いはGPU102がプログラムを実行することにより実現され得る。
学習部150は、後述する推定部156で学習モデルによる推論段階の処理を行う前に、学習モデルを学習させる学習段階の処理を実行する。学習段階の処理の詳細については後述する。データ記憶部151は、自動追尾して撮影した画像の記録処理や、学習データの記録処理、操作指令値の記録処理を行う。学習モデル設定部152は、雲台制御部158が出力する雲台のパン、チルト、ズームの制御情報に基づいて、推定部156で使用する学習モデルを選択する。学習モデルは、処理時間や推定精度などの特性の異なる複数の学習モデルを含む。推定に用いる学習モデルの具体例や、学習モデルの選択処理の詳細については後述する。
モード管理部153は、情報処理装置100の動作モードを管理する。動作モードは、学習モード、自動撮影モード、手動撮影モードの3モードを含む。各動作モードの詳細な内容については後述する。
設定表示部154は、情報処理装置100を操作するユーザからの操作入力を受け付け、入力に応じた設定をGUIでUI部108に表示する。図4は、設定表示部154によって表示する設定のGUIの一例を示している。このGUIでは、動作モードが自動撮影モードである場合には、使用している学習モデルが精度優先であるか、周期優先であるか、それらをバランスしたものであるかを選択可能に表示する。また、設定表示部154は、現在設定されている学習モデルで実現される処理時間(検出周期)や検出精度を表示する。
画像処理部155は、雲台装置200から動画を受信して、受信した動画の処理を行う。動画の処理は、例えば、画像のリサイズや、輝度調整を含む。推定部156は、画像処理部155の出力した動画を入力データとして、学習部150での処理によって学習済みとなった学習モデルを用いて推論段階の処理を行う。
推定結果処理部157は、推定部156の出力に対し、各種ノイズ処理、平均化処理を実施し、追尾対象である目標被写体の画像内の位置(被写体現在位置)を出力する。雲台装置200で撮影する映像には、追尾対象以外のノイズ(航空機以外の航空機や、背景の一部や雲など航空機と見間違えるもの)が存在する。推定結果処理部157は、これらのノイズを処理し、信頼度の高い被写体現在位置を出力する役割を果たす。
雲台制御部158は、前述した動作モードに応じて、雲台装置200を制御する制御情報を生成する。雲台制御部158は、現在の動作モードが自動撮影モードである場合には、被写体の現在位置と、追尾目標位置(被写体を追尾する際に被写体を撮影すべき所定の画像内の位置)をもとに、自動で雲台装置200を制御する制御情報を生成し、出力する。その結果、被写体を所望の画角内に位置させた自動追尾撮影を行うことができる。なお、以下の説明では、動作モードが自動撮影モードである場合に、(例えば学習モデルで推定された被写体の画像内の位置に基づいて)雲台装置200を制御し、追尾撮影を行うことを自動撮影と称する。
動作モードが手動撮影モードである場合には、操作者が操作装置300を操作して(すなわち手動で)雲台装置200を制御することが可能である。また、操作装置300から受信され、雲台制御部158を介して出力される雲台のパン、チルト、ズームの操作指令は、データ記憶部151で雲台装置の動作に関する情報として記録される。なお、以下の説明では、動作モードが手動撮影モードである場合に、雲台装置200のパンやチルト等を手動で制御して追尾撮影することを手動撮影と称する。
なお、学習部150による処理にはCPU103に加えてGPU102を用いてよい。例えば、学習モデルを用いた学習段階の処理を実行する場合に、CPU103とGPU102が協働して演算を行う。なお、学習部150の処理はCPU103またはGPU102のみにより演算が行われても良い。また、推定部156も学習部150と同様にGPU102を用いても良い。
次に、雲台装置200のソフトウェア構成について説明する。雲台装置200は、パンチルト制御部250、カメラ制御部251、設定管理部252、通信部253を含む。パンチルト制御部250は、通信部253で受信した制御情報に基づいて、パン及びチルトの少なくとも一方を駆動するための信号を駆動部202へ出力する。カメラ制御部251は、通信部253で受信した制御情報に基づいて、カメラを制御するための信号を、カメラ201へ出力する。設定管理部252は、操作装置300の設定を管理する。具体的な設定項目として、パン、チルトの最高速や、駆動可能範囲などが挙げられる。通信部253は、情報処理装置100とあらかじめ定めた通信ルール(プロトコル)に則って、操作指令や制御情報、ステータス情報のやり取りを行う。
更に、操作装置300のソフトウェア構成について説明する。操作装置300は、通信部350、表示部351を含む。通信部350は、雲台通信部159と予め定めた通信ルール(プロトコル)に従って、操作指令やステータス情報のやり取りを行う。
なお、上述のソフトウェア構成における機能ブロックの1つ以上は、ASICやプログラマブルロジックアレイ(PLA)などのハードウェアによって実現されてもよい。また、ソフトウェアとハードウェアの組み合わせによって実現されてもよい。
次に、図5を参照して、本実施形態における学習モデルの入出力の構造について説明する。入力データ500は、雲台装置200で撮影された後、情報処理装置100の画像処理部155で処理された画像データである。なお、雲台装置200は動画を撮影するため、実際には、画像処理部155から動画像を構成する各フレームの画像が順次出力される。
出力データ501は、例えば、入力データ500内に存在するオブジェクトのタグ、座標、尤度の情報を含む。タグは、学習時に入力した学習用データに含まれるタグの中から選択される。学習用データの詳細については後述する。座標は、座標1と座標2の2点の情報を含む。例えば、これらの座標は、図5の画像502に示すように、推定したオブジェクトの外接枠の左上(座標1)と、右下(座標2)の位置を示す。この2点の座標から、オブジェクトのサイズや中心点座標が演算される。尤度は0~1の値であり、値が高いほど出力したタグに対する推定の信頼度が高いことを示す。
学習モデル503は、例えばニューラルネットワークによって構成される学習モデルを含む。ニューラルネットワークの内部パラメータは、学習部150による学習段階の処理によって生成され或いは求められる(最適化される)。なお、学習部150は、誤差検出部と、更新部を備えてもよい。誤差検出部は、入力層に入力される入力データに応じてニューラルネットワークの出力層から出力される出力データと、教師データとの誤差を得る。誤差検出部は、損失関数を用いて、ニューラルネットワークからの出力データと教師データとの誤差を計算するようにしてもよい。更新部は、誤差検出部で得られた誤差に基づいて、その誤差が小さくなるように、ニューラルネットワークのノード間の結合重み付け係数等を更新する。この更新部は、例えば、誤差逆伝播法を用いて、結合重み付け係数等を更新する。誤差逆伝播法は、上記の誤差が小さくなるように、各ニューラルネットワークのノード間の結合重み付け係数等を調整する手法である。
<情報処理装置における一連の動作>
次に、図6を参照して、学習段階の処理を含む情報処理装置100の一連の動作を説明する。なお、CPU103又はGPU102が記憶部105に格納されたプログラムを実行することにより、学習部150又はモード管理部153などの動作を実現する。
次に、図6を参照して、学習段階の処理を含む情報処理装置100の一連の動作を説明する。なお、CPU103又はGPU102が記憶部105に格納されたプログラムを実行することにより、学習部150又はモード管理部153などの動作を実現する。
モード管理部153は、まずステップS600で現在の動作モードが学習モードか否かを判定する。モード管理部153は、情報処理装置100の動作モードが学習モードである場合はステップS601に進み、そうでない場合は、ステップS607に進む。
ステップS601では、学習部150は、複数の学習モデルのうち学習させる学習モデルを受け付ける。複数の学習モデルは、画像内の被写体を推定する手法や推論前の前段処理、後段処理、及びニューラルネットワークの構造の少なくともいずれかの違いから、それぞれ処理負荷が異なる。このため、複数の学習モデルは、画像内の被写体を推定する周期と精度の異なる学習モデルで構成される。画像内の被写体を推定する周期は、学習モデルが画像を入力してから、被写体の推定を完了する(検出結果を出力する)までの時間である。また、画像内の被写体を推定する精度(すなわち被写体検出の精度)は、前述の座標1と座標2と実際の被写体の座標との一致の度合いである。画像内の被写体を推定する精度が高い学習モデルは、不鮮明な画像や小さい被写体の画像が入力される場合であっても前述の尤度が高い。すなわち、被写体を推定する精度が高い学習モデルは、画像内の被写体の大きさが所定の大きさよりも小さい場合であっても当該被写体を推定可能である。
画像内の被写体を推定する手法に違いがある複数の学習モデルの具体例として、YOLOとR-CNNのような学習モデルがある。YOLOは入力画像を複数の領域に分割し、分割した領域で分類を行う。これにより、位置推定のための処理を削減し、推定する周期を短くすることが可能である。それに対してR-CNNでは、被写体の位置推定の後に分類を行う。これにより高い推論性能と位置検出が可能である。
YOLOとR-CNNを比較すると、YOLOは、被写体を推定する周期がR-CNNより短いが、精度はR-CNNより低い。一方、R-CNNは被写体を推定する周期はYOLOより長いが、精度はYOLOより高いことが知られている。
前段処理や後段処理の違いがある複数の学習モデルの具体例として、SSD300とSSD512がある。一般的に学習モデルで推論処理を行う際に、推論の前段処理で入力画像の圧縮を行う。その際にSSD300では入力画像を縦横300ピクセルに圧縮して、学習モデルに入力する。一方、SSD512では入力画像を縦横512ピクセルに圧縮して、学習モデルに入力する。これによりSSD300は、SSD512より画像内の被写体を推定する周期は短いが、SSD512より精度が低い。一方、SSD512はSSD300より画像内の被写体を推定する周期は長いが、SSD300より精度が高いことが知られている。
ニューラルネットワークの構造の違いがある複数の学習モデルの具体例として、上述のYOLOとTiny-YOLOのような学習モデルがある。Tiny-YOLOはYOLOと推論の前段処理及び後段処理が同じであるが、ニューラルネットワークの構造がYOLOより簡略化されており、それによりYOLOより被写体を推定する周期を短くすることができる。
なお、以下の説明では、Tiny-YOLOとYOLO、R-CNNを使用する場合を例に説明する。YOLOは、相対的に精度は低いが、より短い周期で被写体推定を実行可能な学習モデル(学習モデル1)の一例である。YOLOは、精度、周期ともに中程度で被写体推定を実行可能な学習モデル(学習モデル2)の一例である。R-CNNは、相対的に周期は長いが、より精度の高い被写体推定を実行可能な学習モデル(学習モデル3)の一例である。また、上述の例では、YOLOやR-CNN、SSD300、SSD512、Tiny-YOLOを画像内の被写体を推定するための学習モデルの例として説明をしたが、これに限らず、精度と周期の関係を満たす他の学習モデルを使用して良い。
ステップS602では、学習部150は、学習用データを受け付ける。図7は、学習段階における、学習用データの一例を示している。学習用データでは、画像(入力データ)と画像中に含まれる目的被写体のタグ(教師データ)とが紐づけられている。なお、入力データである画像に含まれる目的被写体(オブジェクト)はひとつであることが好ましく、画像サイズは、複数の学習用データ間で同一であることが好ましい。本実施形態の例では、空港で航空機の自動追尾撮影を行うため、入力データとして航空機が被写体として含まれる画像を学習データとして、学習モデルを学習させる。また、目的被写体の画像は、予め雲台装置200を用いて撮影・記録すればよい。学習用データのうちの教師データは、前述した目的被写体を含んだ画像から、目的被写体が何であるかを人が目視で判断して、設定する。
再び図6に戻り、ステップS603では、学習部150は、受け付けた学習用データが決められたルールに則ったもの(例えば、図7に示す学習用データの形式である)か否かを判定する。学習部150は、ルール通りであると判定した場合は、ステップS604に進み、そうでない場合はステップS602に戻る。ステップS604では、学習部150は、受け付けたデータ学習用データを学習モデルに入力し、ステップS605において学習モデルの学習を行う。なお、学習モデルの学習は、図5を参照して説明したように実行される。
ステップS606では、学習部150は、学習用データを全て学習したか否かを判定し、全て学習した場合は処理を終了し、そうでなければステップS602に戻る。以上の処理によって、学習モデル403の内部パラメータが決定され、推定部156により推定処理が実行される際の基となる学習モデルが生成される。
ステップS607では、モード管理部153は、現在の動作モードが手動撮影モードか否かを判定し、動作モードが手動撮影モードであると判定した場合は、ステップS608に進み、そうでなければ、ステップS611に進む。
ステップS608では、雲台制御部158は、操作装置300から操作指令を受信して、その後、ステップS609では、受信した操作指令(操作指令を、雲台装置の動作に関する情報ともいう)を情報処理装置100のデータ記憶部151に記録する。続いて、ステップS610では、雲台制御部158は、記録した操作指令を雲台装置200へ送信し、本処理を終了する。ステップS611では、ステップS609で記録した指令に基づいて、後述する自動撮影処理を実行する。
更に、図8を参照して、図5で示した学習モデルを利用した自動追尾システムの動作例について説明する。まず、(8-1)において、操作装置300が情報処理装置100に自動撮影開始命令を送信する。この自動撮影開始命令は、ユーザが、手動撮影時に自動撮影に切り替えるために、操作装置300の所定の操作部302を操作することで送信される。
次に(8-2)において、情報処理装置100は、自動撮影開始命令を受信して自動撮影に切り替わる前の、手動撮影の際のパン、チルトの速度(雲台装置の動作に関する情報)に基づいて、適切な周期と精度で被写体の推定が可能な学習モデルを選択する。(8-3)において、情報処理装置100は、選択した学習モデルを用いて、撮影された画像に含まれる被写体の推定処理を行う。さらに、(8-4)において、情報処理装置100は、推定結果処理部157、雲台制御部158によって、雲台のパン、チルトを制御するための制御量を演算し、制御情報を生成する。情報処理装置100は、(8-5)において、演算した制御量が一定以上を超えると、演算した制御量に対して適切な周期と精度で被写体の推定が可能な学習モデルを再選択し、更に(8-6)において、生成した制御情報を雲台装置200へ送信する。
雲台装置200は、(8-7)において、情報処理装置100から受信した制御情報に従って、パン、チルトを制御して撮影を行う。更に、(8-8)において、雲台装置200は、撮影した動画信号を情報処理装置100へ送信する。
このように、撮影方法を手動撮影から自動撮影に切り替え、自動撮影に切り替えた後は(8-3)~(8-8)の処理を実行することで、手動撮影から自動撮影に切り替えた際であっても、適切な学習モデルを用いた目標被写体の自動追尾撮影が可能となる。
<学習モデル選択処理の動作>
次に、図9を参照して、上述の(8-1)と(8-2)における手動撮影から自動撮影に切り替える際の学習モデル選択処理の動作について説明する。なお、本処理は、情報処理装置100のCPU103(或いはGPU102)が記憶部105に格納されたプログラムを実行することにより、例えば学習モデル設定部152を機能させて実現される。
次に、図9を参照して、上述の(8-1)と(8-2)における手動撮影から自動撮影に切り替える際の学習モデル選択処理の動作について説明する。なお、本処理は、情報処理装置100のCPU103(或いはGPU102)が記憶部105に格納されたプログラムを実行することにより、例えば学習モデル設定部152を機能させて実現される。
ステップS900では、学習モデル設定部152は、手動撮影時に記録した雲台装置200のパン(或いはチルト)の加速度が一定時間の間に変化したかを判定する。このとき、一定時間とは複数フレームを取得する時間とする。学習モデル設定部152は、加速度に変化があると判定した場合にはステップS901に処理を進め、変化がないと判定した場合にはステップS908に処理を進める。
ステップS908では、学習モデル設定部152は、参照速度を、自動撮影に切り替える際のパン(或いはチルト)の速度として設定する。参照速度とは、適切な周期と精度で被写体の推定が可能な学習モデルを選択のために参照される、パン(或いはチルト)の速度である。加速度の変化を判定基準とすることで、自動撮影に切り替える直前に、操作者が当該切り替えのために一時的に雲台装置を操作しない(そして停止指令が送信される)ことで、誤ったパン(或いはチルト)の速度が参照される場合を考慮している。加速度の変化がない場合には、手動での安定した追尾ができていると判定することができるため、自動撮影モードに切り替える前の手動撮影モードでのパン(或いはチルト)の速度を、被写体の追尾に求められる速度として設定することができる。
ステップS901では、学習モデル設定部152は、記録した雲台装置のパン(或いはチルト)の加速度が一定時間の間に複数回変化したかを判定する。学習モデル設定部152は、加速度が複数回変化したと判定した場合は、処理をステップS902に進め、加速度が複数回変化しなかったと判定した場合には、処理をステップS905に進める。
ステップS902では、学習モデル設定部152は、参照速度を一定時間の速度の平均値に設定する。ステップS905では、学習モデル設定部152は、加速度が変化する前(例えば加速度が変化した時点を含む現時点から一定期間より)前の時点の速度を参照速度に設定する。加速度が複数回変化することを判定基準とすることで、手動撮影から自動撮影に切り替える直前に操作者が不慣れな操作のために被写体を画角に捉えられず、加減速を繰り返す場合を考慮している。そのため、学習モデル設定部152は、予め定めた一定時間のパン(或いはチルト)の速度の平均値を参照速度として設定する。
ステップS903では、学習モデル設定部152は、パン(或いはチルト)の参照速度が、所定の最高値以上であるかを判定する。学習モデル設定部152は、当該参照速度が所定の最高値以上(所定の閾値以上)であると判定した場合は、処理をステップS904に進め、そうでない場合には、ステップS906に処理を進める。
ステップS906では、学習モデル設定部152は、パン(或いはチルト)の参照速度が所定の最低値以下であるかを判定する。学習モデル設定部152は、当該参照速度が所定の最低値以下(所定の第2閾値以下)であると判定した場合には、処理をステップS907に進め、そうでない場合には、処理をステップS909に進める。
ステップS904では、学習モデル設定部152は、学習モデル1を推定処理で使用する学習モデルとして設定する。また、ステップS907では、学習モデル設定部152は、学習モデル3を推定処理で使用する学習モデルとして設定する。ステップS909では、学習モデル2を推定処理で使用する学習モデルとして設定する。学習モデル設定部152は、学習モデルの設定を完了すると本処理を終了する。
図10を参照して、学習モデルの変更について説明する。図10(a)~(c)は、着陸している航空機を追尾する場合を例に、追尾状況とパン(或いはチルト)の速度、学習モデルが切り替えられるいくつかの段階を示している。図10の例では、航空機の着陸の段階に応じて、追尾に求められるパン(或いはチルト)の速度や、必要な被写体推定の周期や精度が異なる。初期設定では、航空機の着陸を追尾するときはズームをテレ側にし、パン(或いはチルト)を航空機の航路が画角内に入るように設定して静止させる。このとき、被写体を推定する周期は長いが、被写体を推定する精度が高い学習モデル(学習モデル2)を設定する。
図10(a)は、航空機が滑走路に着陸するために空港に近づいている段階を示している。この場合、航空機は空港屋上の雲台から離れており、ズームをテレ側に移動した状態であっても航空機は雲台のカメラの画角内では小さい。このため、小さい被写体を推定可能な精度の高い学習モデルが求められるが、精度の高い学習モデルでは被写体を推定する周期が長い(すなわち推定に時間がかかる)。しかし、上述のように航空機は雲台のカメラの画角内では小さいため、画角内での航空機の相対移動速度は小さい。従って、被写体の追尾に求められるパン(或いはチルト)の速度は低い。この段階では、被写体を推定する周期が長いとしても、航空機の相対移動速度は小さいために、追尾への影響は小さい。そのため、航空機が滑走路に着陸するために空港に近づいている段階では精度の高い学習モデル2を使用することで、被写体を推定する周期と精度の最適化が可能である。
図10(b)は、航空機が着地し、滑走路を走る段階を示している。この場合、航空機が空港屋上の雲台に近く、ズームをワイド側に移動した状態でも画角内での航空機の相対速度が大きい。このため、追尾に必要なパン(或いはチルト)の速度は大きい。航空機の相対移動速度が大きい場合、推定の遅れが追尾に与える影響が大きい。このため、被写体を推定する周期が短い学習モデルが求められる。被写体を推定する周期の短い学習モデルでは被写体を推定する精度が低くなり、画像が不鮮明な場合の被写体や小さい被写体の推定精度が低下する。しかし、前述のように航空機は雲台装置のカメラの画角内では大きいため、相対的に被写体を推定する精度の低い学習モデルを用いる場合であっても航空機を検出することができる。従って、航空機が着地し、滑走路を走る段階では、被写体を推定する周期の短い学習モデル(学習モデル1)を使用することで、被写体を推定する周期と精度の最適化が可能である。
図10(c)は、航空機が着陸し、滑走路から空港のターミナルへ移動する段階を示している。この場合、物理的に航空機の速度が低く、追尾に求められるパン(或いはチルト)の速度は低い。また、ズームをワイド側に移動した状態でも航空機は雲台のカメラの画角内では大きい。この段階では、被写体の推定結果に推定の遅れが含まれたとしても、航空機の速度が小さいために、追尾への影響は小さい。そのため、被写体を推定する精度の高い学習モデル(学習モデル2)を使用することができる。
このように、航空機の着陸の段階に応じて、追尾に求められるパン(或いはチルト)の速度や被写体推定の周期や精度が異なる。本実施形態では、画角内の航空機の大きさや速度を参照するのではなく、パン(或いはチルト)の速度を参照する。これは、画角内の航空機の速度が相対値であるのに対し、パン(或いはチルト)の速度は絶対値であるために、学習モデルの切り替えの判定が容易になる。雲台装置200が航空機を追尾する場合、画角から算出できる航空機の速度は相対速度であり、正確な航空機の速度の算出は困難である。一般に、対象被写体との背景分離を行うことで背景から被写体の速度を算出することが可能である。しかし、航空機を撮影する場合、背景分離が困難な青空などが背景である場合が多い。それに対して、パン(或いはチルト)の速度は絶対値であり、操作装置300から取得可能であることから、学習モデルの切り替えの判定を容易に行うことができる。すなわち、操作者が操作装置300で雲台装置200を動かす手動撮影から自動撮影に切り替える際に、誤った参照速度を使用することなく、追尾に求められるパン(或いはチルト)の速度を参照して自動撮影に最適な学習モデルを設定することができる。なお、上述の一定時間は可変であり、ユースケースごとに変更されても良い。
更に、図11を参照して、自動撮影に切り替えた後の図8の(8-3)から(8-8)に関する推定処理の詳細な動作について説明する。なお、本処理は、情報処理装置100のCPU103(或いはGPU102)が記憶部105に格納されたプログラムを実行することにより、図3に示した情報処理装置100の各部を機能させて実現される。
ステップS1100では、学習モデル設定部152は、雲台装置200に送信したパン、チルトの速度を雲台制御部158から取得する。続いて、ステップS1101では、学習モデル設定部152は、パン(或いはチルト)の速度が所定の最高値以上であるかを判定する。学習モデル設定部152は、パン(或いはチルト)の速度が所定の最高値以上であるかを判定し、速度が所定の最高値以上である場合、処理をステップS1102に進め、そうでない場合には処理をステップS1108に進める。
ステップS1102では、学習モデル設定部152は、学習モデル1を推定処理で使用する学習モデルとして設定する。ステップS1108では、学習モデル設定部152は、パン(或いはチルト)の速度が所定最低値以下かどうか判定する。学習モデル設定部152は、パン(或いはチルト)の速度が所定の最低値以下であると判定した場合にはステップS1109に処理を進め、そうでない場合には処理をステップS1112に進める。
ステップS1109では、学習モデル設定部152は、学習モデル3を推定処理で使用する学習モデルとして設定する。ステップS1112では、学習モデル設定部152は、学習モデル2を推定処理で使用する学習モデルとして設定する。切り替えられる学習モデルは、情報処理装置100に保持している複数の学習モデルの中から選択される。
ステップS1103では、雲台装置200から受信した画像に対し、画像処理部155はサイズの変更(リサイズ)を行う。入力画像のサイズを小さくすることで、推定部156の処理時間を削減する。続いて、ステップS1104では、画像処理部155は、サイズを変更した画像データを学習モデルに入力する。
ステップS1105では、推定部156は、設定された学習モデルを用いて推定処理を行う。ステップS1106では、推定結果処理部157は、画像に推定対象が含まれるかを判定する。本実施形態では、推定対象は航空機であり、推定結果処理部157は、画像に推定対象が含まれると判定した場合、処理をステップS1107に進め、そうでない場合には処理をステップS1110に進める。
ステップS1110では、雲台制御部158は、雲台装置200に停止指令を送信する。ステップS1011では、モード管理部153は、現在のモードを手動撮影モードに設定し、本処理を終了する。このように、推定部156により、推定対象が出力されなかった場合、情報処理装置100は、追尾対象が撮影可能範囲から消失したと判断して、自動撮影を終了する。
ステップS1107では、雲台制御部158は、推定結果の座標と、追尾目標位置の差分を基にパン、チルトの制御情報を生成するとともに、推定結果のサイズと追尾目標サイズを基にズームの制御情報を生成して、両信号を雲台装置200に送信する。なお、追尾目標位置と、追尾目標サイズとは、予め情報処理装置100の記憶部105に登録しておけばよい。例えば、それぞれ、画面内の中心座標と、画面の30%のサイズを設定するようにしてよいが、これに限らない。また、追尾目標位置と追尾目標サイズは、操作装置300から情報処理装置100に設定できる構成としても良い。
以上説明したように本実施形態では、学習モデルで推定された被写体の画像内の位置に基づいて、撮影画像に被写体が含まれるように雲台装置のカメラの向きを制御するための制御情報を生成し、雲台装置に出力するようにした。このとき、画像に被写体が含まれるように操作者が雲台装置のパン、チルトを手動で制御したときの操作指令(雲台装置の動作に関する情報)を取得する。そして、推定部156が、雲台装置のパン、チルトを手動で制御したときの操作指令(雲台装置の動作に関する情報)に応じた、特性の異なる学習モデルを用いて、画像に含まれる被写体を推定するようにした。
このようにすることで、雲台装置200は制御情報によって旋回、変倍制御され、制御中に撮影される動画が情報処理装置100に入力されることで、推定と雲台の制御が繰り返されて自動追尾撮影を実現することができる。このとき、適切な学習モデルを用いて被写体を追尾する撮影が可能になる。
なお、本実施形態では、操作装置300が情報処理装置100と接続され、操作装置300の操作指令が操作装置300から情報処理装置100へ送信される場合を例に説明した。しかし、上述の自動追尾システムは、操作装置300が雲台装置200に操作指令を送信し、雲台装置200が受信した操作指令を情報処理装置100へ転送するようにしてもよい。この場合、情報処理装置100は、雲台装置200を手動で制御したときの雲台装置の動作に関する情報(操作指令)を、雲台装置200から取得してもよい。
また、上記実施形態では、情報処理装置100は、自動撮影開始命令により手動撮影から自動撮影に切り替わった際に、自動撮影に切り替わる前の手動操作による操作指令に応じて、学習モデルを選択し、被写体の推定を行うようにした。しかし、情報処理装置100は、手動撮影から自動撮影に切り替えた後の、例えば短い期間に継続する操作指令の情報を用いて学習モデルを選択してもよい。例えば、上述のように、情報処理装置100は、手動撮影から自動撮影への切り替えを、被写体の大きさや速度などの情報に基づいて自動的に行ってもよい。この場合、自動撮影に切り替わった直後の期間では、操作者の操作が継続する場合が考えられる。このような場合、情報処理装置100は、自動撮影に切り替わる前の操作指令に加えて、又はこれに代えて、自動撮影に切り替わった後の所定の時間の間に取得される操作指令を用いて、適切な学習モデルを選択するようにしてもよい。この場合、自動撮影に切り替わった直後では、切り替え前の操作指令に応じて選択された学習モデル(或いは予め定めた学習モデル)を用いて自動撮影を開始し、切り替わった後の操作指令を用いて更に適した学習モデルを選択してもよい。このとき、図9を参照して説明した一定時間内のパン(或いはチルト)に関する判定は、自動撮影に切り替わった後の一定時間、或いは、自動撮影に切り替わった時点を含む前後の一定時間に適用されてもよい。
また、本実施形態では、航空機が追尾対象であるオブジェクトである場合を例に説明したが、これに限らず、他のオブジェクトを追尾対象として自動追尾撮影を行っても良い。また、本実施形態では、航空機が着陸するシーンを自動追尾撮影する場合を例に説明したが、これに限らず、航空機が離陸するシーンを自動追尾撮影しても良い。更に、手動撮影から自動撮影に切り替える条件は、ユーザの操作装置300からの操作に限らず、被写体の大きさや速度などの情報であってもよい。
また、本実施形態では、参照速度が、一定時間の速度の平均値であるか、加速度変化前の速度であるか、自動撮影に切り替えた際の速度であるかのいずれかに設定される場合を例に説明した。しかし、一定時間の速度の最大値、最小値、又は最頻値が参照速度として用いられてもよい。更に、本実施形態では、学習モデル1、学習モデル2、学習モデル3を用いる場合を例に説明したが、使用する学習モデルは3つに限定されず、他の数の複数の学習モデルを使用してもよい。また、本実施形態では、雲台装置のパン(或いはチルト)の速度を参照して、学習モデルの切り替えを行う場合を例に説明した。これに限らず、ズームの速度を参照して、学習モデルの切り替えを行ってもよい。更に、本実施形態では、情報処理装置100と雲台装置200間をシリアル通信と有線の映像信号線で接続したが、これに限らず公衆電話回線や、インターネット等の通信回線で接続しても良い。
なお、上述した各処理部のうち、推定部156については、機械学習された学習モデルを用いて処理を実行したが、ルックアップテーブル(LUT)等のルールベースの処理を行ってもよい。その場合には、例えば、入力データと出力データとの関係をあらかじめLUTとして作成する。そして、この作成したLUTを情報処理装置100の記憶部105に格納しておくとよい。推定部156の処理を行う場合には、この格納されたLUTを参照して、出力データを取得することができる。
上述のプロセッサまたは回路は、デジタルシグナルプロセッサ(DSP)、データフロープロセッサ(DFP)、またはニューラルプロセッシングユニット(NPU)を含んでもよい。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本明細書の開示は、以下の情報処理装置、情報処理装置の制御方法、及びプログラムを含む。
(項目1)
パン及びチルトの少なくとも一方を含む撮像手段の向きを制御しながら撮影された動画を受信する受信手段と、
前記動画を構成する画像内の被写体を学習モデルを用いて推定する推定手段と、
前記推定手段で推定された前記被写体の画像内の位置に基づいて、前記動画を構成する画像に前記被写体が含まれるように前記撮像手段の向きを制御するための制御情報を出力する制御手段と、
前記動画を構成する画像に前記被写体が含まれるように操作者が前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を取得する取得手段と、を有し、
前記推定手段は、前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報に応じた、特性の異なる学習モデルを用いて、前記画像に含まれる前記被写体を推定する、ことを特徴とする情報処理装置。
パン及びチルトの少なくとも一方を含む撮像手段の向きを制御しながら撮影された動画を受信する受信手段と、
前記動画を構成する画像内の被写体を学習モデルを用いて推定する推定手段と、
前記推定手段で推定された前記被写体の画像内の位置に基づいて、前記動画を構成する画像に前記被写体が含まれるように前記撮像手段の向きを制御するための制御情報を出力する制御手段と、
前記動画を構成する画像に前記被写体が含まれるように操作者が前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を取得する取得手段と、を有し、
前記推定手段は、前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報に応じた、特性の異なる学習モデルを用いて、前記画像に含まれる前記被写体を推定する、ことを特徴とする情報処理装置。
(項目2)
前記推定手段は、前記撮像手段の向きを手動で制御する手動撮影から、前記推定手段で推定された前記被写体の画像内の位置に基づいて前記撮像手段の向きを制御する自動撮影に切り替わる前の前記撮像手段の動作に関する情報に応じて、前記特性の異なる学習モデルを用いる、ことを特徴とする項目1に記載の情報処理装置。
前記推定手段は、前記撮像手段の向きを手動で制御する手動撮影から、前記推定手段で推定された前記被写体の画像内の位置に基づいて前記撮像手段の向きを制御する自動撮影に切り替わる前の前記撮像手段の動作に関する情報に応じて、前記特性の異なる学習モデルを用いる、ことを特徴とする項目1に記載の情報処理装置。
(項目3)
前記推定手段は、前記手動撮影から前記自動撮影に切り替わる前の所定の時間の間における前記撮像手段の動作に関する情報に応じて、前記特性の異なる学習モデルを用いる、ことを特徴とする項目2に記載の情報処理装置。
前記推定手段は、前記手動撮影から前記自動撮影に切り替わる前の所定の時間の間における前記撮像手段の動作に関する情報に応じて、前記特性の異なる学習モデルを用いる、ことを特徴とする項目2に記載の情報処理装置。
(項目4)
前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を記憶する記憶手段を更に有し、
前記取得手段は、前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を、前記記憶手段から取得する、ことを特徴とする項目1から3のいずれか1項に記載の情報処理装置。
前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を記憶する記憶手段を更に有し、
前記取得手段は、前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を、前記記憶手段から取得する、ことを特徴とする項目1から3のいずれか1項に記載の情報処理装置。
(項目5)
前記取得手段は、前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を、前記操作者が操作する操作装置又は、前記撮像手段を含む装置から取得する、ことを特徴とする項目1から3のいずれか1項に記載の情報処理装置。
前記取得手段は、前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を、前記操作者が操作する操作装置又は、前記撮像手段を含む装置から取得する、ことを特徴とする項目1から3のいずれか1項に記載の情報処理装置。
(項目6)
前記撮像手段の動作に関する情報は、前記撮像手段の向きが変化する速度に関する情報を含む、項目1から5のいずれか1項に記載の情報処理装置。
前記撮像手段の動作に関する情報は、前記撮像手段の向きが変化する速度に関する情報を含む、項目1から5のいずれか1項に記載の情報処理装置。
(項目7)
前記特性は、学習モデルが前記画像を入力してから被写体の推定を完了するまでの時間と、前記学習モデルで被写体を推定する精度とを含む、ことを特徴とする項目1から5のいずれか1項に記載の情報処理装置。
前記特性は、学習モデルが前記画像を入力してから被写体の推定を完了するまでの時間と、前記学習モデルで被写体を推定する精度とを含む、ことを特徴とする項目1から5のいずれか1項に記載の情報処理装置。
(項目8)
前記特性の異なる学習モデルは、第1学習モデルと第2学習モデルとを含み、前記第1学習モデルは、前記第2学習モデルよりも前記被写体を推定する精度が高く、且つ、前記第2学習モデルよりも前記推定を完了するまでの時間が長い、ことを特徴とする項目7に記載の情報処理装置。
前記特性の異なる学習モデルは、第1学習モデルと第2学習モデルとを含み、前記第1学習モデルは、前記第2学習モデルよりも前記被写体を推定する精度が高く、且つ、前記第2学習モデルよりも前記推定を完了するまでの時間が長い、ことを特徴とする項目7に記載の情報処理装置。
(項目9)
前記撮像手段の動作に関する情報は、前記撮像手段の向きが変化する速度に関する情報を含み、
前記推定手段は、前記撮像手段の向きが変化する速度が所定の閾値以上である場合に、前記第1学習モデルよりも前記推定を完了するまでの時間が短い前記第2学習モデルを使用し、当該速度が前記所定の閾値より小さい場合、前記第2学習モデルよりも前記被写体を推定する精度が高い前記第1学習モデルを使用する、ことを特徴とする項目8に記載の情報処理装置。
前記撮像手段の動作に関する情報は、前記撮像手段の向きが変化する速度に関する情報を含み、
前記推定手段は、前記撮像手段の向きが変化する速度が所定の閾値以上である場合に、前記第1学習モデルよりも前記推定を完了するまでの時間が短い前記第2学習モデルを使用し、当該速度が前記所定の閾値より小さい場合、前記第2学習モデルよりも前記被写体を推定する精度が高い前記第1学習モデルを使用する、ことを特徴とする項目8に記載の情報処理装置。
(項目10)
前記撮像手段の向きが変化する速度は、前記操作者が前記撮像手段の向きを制御する手動撮影から、前記推定手段で推定された前記被写体の画像内の位置に基づいて前記撮像手段の向きを制御する自動撮影に切り替わる前の所定の時間の間における、前記撮像手段の向きが変化する速度の平均値である、ことを特徴とする項目9に記載の情報処理装置。
前記撮像手段の向きが変化する速度は、前記操作者が前記撮像手段の向きを制御する手動撮影から、前記推定手段で推定された前記被写体の画像内の位置に基づいて前記撮像手段の向きを制御する自動撮影に切り替わる前の所定の時間の間における、前記撮像手段の向きが変化する速度の平均値である、ことを特徴とする項目9に記載の情報処理装置。
(項目11)
前記撮像手段の向きが変化する速度は、前記操作者が前記撮像手段の向きを制御する手動撮影から、前記推定手段で推定された前記被写体の画像内の位置に基づいて前記制御手段が前記撮像手段の向きを制御する自動撮影に切り替わる前の所定の時間の間における、前記撮像手段の向きが変化する速度の最大値又は最小値である、ことを特徴とする項目9に記載の情報処理装置。
前記撮像手段の向きが変化する速度は、前記操作者が前記撮像手段の向きを制御する手動撮影から、前記推定手段で推定された前記被写体の画像内の位置に基づいて前記制御手段が前記撮像手段の向きを制御する自動撮影に切り替わる前の所定の時間の間における、前記撮像手段の向きが変化する速度の最大値又は最小値である、ことを特徴とする項目9に記載の情報処理装置。
(項目12)
前記被写体を推定する精度が高い前記第1学習モデルは、画像内の前記被写体の大きさが所定の大きさよりも小さい場合であっても当該被写体を推定可能である、ことを特徴とする項目8から11のいずれか1項に記載の情報処理装置。
前記被写体を推定する精度が高い前記第1学習モデルは、画像内の前記被写体の大きさが所定の大きさよりも小さい場合であっても当該被写体を推定可能である、ことを特徴とする項目8から11のいずれか1項に記載の情報処理装置。
(項目13)
前記撮像手段は、更にズームの制御が可能であり、
前記推定手段は、前記画像を撮影する際の前記撮像手段のズームの動作の速度に応じた、前記特性の異なる学習モデルを用いて、前記画像に含まれる被写体を推定する、ことを特徴とする項目1から12のいずれか1項に記載の情報処理装置。
前記撮像手段は、更にズームの制御が可能であり、
前記推定手段は、前記画像を撮影する際の前記撮像手段のズームの動作の速度に応じた、前記特性の異なる学習モデルを用いて、前記画像に含まれる被写体を推定する、ことを特徴とする項目1から12のいずれか1項に記載の情報処理装置。
(項目14)
前記制御手段は、更に、推定された前記被写体の画像内の大きさを用いて、前記動画を構成する画像内の前記被写体の大きさを所定の大きさに近づけるように前記撮像手段のズームを制御するための前記制御情報を出力する、ことを特徴とする項目13に記載の情報処理装置。
前記制御手段は、更に、推定された前記被写体の画像内の大きさを用いて、前記動画を構成する画像内の前記被写体の大きさを所定の大きさに近づけるように前記撮像手段のズームを制御するための前記制御情報を出力する、ことを特徴とする項目13に記載の情報処理装置。
(項目15)
前記制御手段は、推定された前記被写体の画像内の位置と、被写体を追尾する際に被写体を撮影すべき予め定めた画像内の位置との差分に基づいて、前記制御情報を出力する、ことを特徴とする項目1から14のいずれか1項に記載の情報処理装置。
前記制御手段は、推定された前記被写体の画像内の位置と、被写体を追尾する際に被写体を撮影すべき予め定めた画像内の位置との差分に基づいて、前記制御情報を出力する、ことを特徴とする項目1から14のいずれか1項に記載の情報処理装置。
(項目16)
前記学習モデルはニューラルネットワークのモデルであることを特徴とする項目1から15のいずれか1項に記載の情報処理装置。
前記学習モデルはニューラルネットワークのモデルであることを特徴とする項目1から15のいずれか1項に記載の情報処理装置。
(項目17)
パン及びチルトの少なくとも一方を含む撮像手段の向きを制御しながら撮影された動画を受信する受信工程と、
前記動画を構成する画像内の被写体を学習モデルを用いて推定する推定工程と、
前記推定工程で推定された前記被写体の画像内の位置に基づいて、前記動画を構成する画像に前記被写体が含まれるように前記撮像手段の向きを制御するための制御情報を出力する制御工程と、
前記動画を構成する画像に前記被写体が含まれるように操作者が前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を取得する取得工程と、を有し、
前記推定工程では、前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報に応じた、特性の異なる学習モデルを用いて、前記画像に含まれる前記被写体を推定する、ことを特徴とする情報処理装置の制御方法。
パン及びチルトの少なくとも一方を含む撮像手段の向きを制御しながら撮影された動画を受信する受信工程と、
前記動画を構成する画像内の被写体を学習モデルを用いて推定する推定工程と、
前記推定工程で推定された前記被写体の画像内の位置に基づいて、前記動画を構成する画像に前記被写体が含まれるように前記撮像手段の向きを制御するための制御情報を出力する制御工程と、
前記動画を構成する画像に前記被写体が含まれるように操作者が前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を取得する取得工程と、を有し、
前記推定工程では、前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報に応じた、特性の異なる学習モデルを用いて、前記画像に含まれる前記被写体を推定する、ことを特徴とする情報処理装置の制御方法。
(項目18)
コンピュータを、項目1から16のいずれか1項に記載の情報処理装置の各手段として機能させるためのプログラム。
コンピュータを、項目1から16のいずれか1項に記載の情報処理装置の各手段として機能させるためのプログラム。
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために項目を添付する。
100…情報処理装置、200…雲台装置、300…操作装置、151…データ記憶部、152…学習モデル設定部、156…推定部、158…雲台制御部
Claims (18)
- パン及びチルトの少なくとも一方を含む撮像手段の向きを制御しながら撮影された動画を受信する受信手段と、
前記動画を構成する画像内の被写体を学習モデルを用いて推定する推定手段と、
前記推定手段で推定された前記被写体の画像内の位置に基づいて、前記動画を構成する画像に前記被写体が含まれるように前記撮像手段の向きを制御するための制御情報を出力する制御手段と、
前記動画を構成する画像に前記被写体が含まれるように操作者が前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を取得する取得手段と、を有し、
前記推定手段は、前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報に応じた、特性の異なる学習モデルを用いて、前記画像に含まれる前記被写体を推定する、ことを特徴とする情報処理装置。 - 前記推定手段は、前記撮像手段の向きを手動で制御する手動撮影から、前記推定手段で推定された前記被写体の画像内の位置に基づいて前記撮像手段の向きを制御する自動撮影に切り替わる前の前記撮像手段の動作に関する情報に応じて、前記特性の異なる学習モデルを用いる、ことを特徴とする請求項1に記載の情報処理装置。
- 前記推定手段は、前記手動撮影から前記自動撮影に切り替わる前の所定の時間の間における前記撮像手段の動作に関する情報に応じて、前記特性の異なる学習モデルを用いる、ことを特徴とする請求項2に記載の情報処理装置。
- 前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を記憶する記憶手段を更に有し、
前記取得手段は、前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を、前記記憶手段から取得する、ことを特徴とする請求項1に記載の情報処理装置。 - 前記取得手段は、前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を、前記操作者が操作する操作装置又は、前記撮像手段を含む装置から取得する、ことを特徴とする請求項1に記載の情報処理装置。
- 前記撮像手段の動作に関する情報は、前記撮像手段の向きが変化する速度に関する情報を含む、請求項1に記載の情報処理装置。
- 前記特性は、学習モデルが前記画像を入力してから被写体の推定を完了するまでの時間と、前記学習モデルで被写体を推定する精度とを含む、ことを特徴とする請求項1に記載の情報処理装置。
- 前記特性の異なる学習モデルは、第1学習モデルと第2学習モデルとを含み、前記第1学習モデルは、前記第2学習モデルよりも前記被写体を推定する精度が高く、且つ、前記第2学習モデルよりも前記推定を完了するまでの時間が長い、ことを特徴とする請求項7に記載の情報処理装置。
- 前記撮像手段の動作に関する情報は、前記撮像手段の向きが変化する速度に関する情報を含み、
前記推定手段は、前記撮像手段の向きが変化する速度が所定の閾値以上である場合に、前記第1学習モデルよりも前記推定を完了するまでの時間が短い前記第2学習モデルを使用し、当該速度が前記所定の閾値より小さい場合、前記第2学習モデルよりも前記被写体を推定する精度が高い前記第1学習モデルを使用する、ことを特徴とする請求項8に記載の情報処理装置。 - 前記撮像手段の向きが変化する速度は、前記操作者が前記撮像手段の向きを制御する手動撮影から、前記推定手段で推定された前記被写体の画像内の位置に基づいて前記撮像手段の向きを制御する自動撮影に切り替わる前の所定の時間の間における、前記撮像手段の向きが変化する速度の平均値である、ことを特徴とする請求項9に記載の情報処理装置。
- 前記撮像手段の向きが変化する速度は、前記操作者が前記撮像手段の向きを制御する手動撮影から、前記推定手段で推定された前記被写体の画像内の位置に基づいて前記制御手段が前記撮像手段の向きを制御する自動撮影に切り替わる前の所定の時間の間における、前記撮像手段の向きが変化する速度の最大値又は最小値である、ことを特徴とする請求項9に記載の情報処理装置。
- 前記被写体を推定する精度が高い前記第1学習モデルは、画像内の前記被写体の大きさが所定の大きさよりも小さい場合であっても当該被写体を推定可能である、ことを特徴とする請求項8に記載の情報処理装置。
- 前記撮像手段は、更にズームの制御が可能であり、
前記推定手段は、前記画像を撮影する際の前記撮像手段のズームの動作の速度に応じた、前記特性の異なる学習モデルを用いて、前記画像に含まれる被写体を推定する、ことを特徴とする請求項1に記載の情報処理装置。 - 前記制御手段は、更に、推定された前記被写体の画像内の大きさを用いて、前記動画を構成する画像内の前記被写体の大きさを所定の大きさに近づけるように前記撮像手段のズームを制御するための前記制御情報を出力する、ことを特徴とする請求項13に記載の情報処理装置。
- 前記制御手段は、推定された前記被写体の画像内の位置と、被写体を追尾する際に被写体を撮影すべき予め定めた画像内の位置との差分に基づいて、前記制御情報を出力する、ことを特徴とする請求項1に記載の情報処理装置。
- 前記学習モデルはニューラルネットワークのモデルであることを特徴とする請求項1に記載の情報処理装置。
- パン及びチルトの少なくとも一方を含む撮像手段の向きを制御しながら撮影された動画を受信する受信工程と、
前記動画を構成する画像内の被写体を学習モデルを用いて推定する推定工程と、
前記推定工程で推定された前記被写体の画像内の位置に基づいて、前記動画を構成する画像に前記被写体が含まれるように前記撮像手段の向きを制御するための制御情報を出力する制御工程と、
前記動画を構成する画像に前記被写体が含まれるように操作者が前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報を取得する取得工程と、を有し、
前記推定工程では、前記撮像手段の向きを手動で制御したときの前記撮像手段の動作に関する情報に応じた、特性の異なる学習モデルを用いて、前記画像に含まれる前記被写体を推定する、ことを特徴とする情報処理装置の制御方法。 - コンピュータを、請求項1から16のいずれか1項に記載の情報処理装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022081721A JP2023170173A (ja) | 2022-05-18 | 2022-05-18 | 情報処理装置、制御方法ならびにプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022081721A JP2023170173A (ja) | 2022-05-18 | 2022-05-18 | 情報処理装置、制御方法ならびにプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023170173A true JP2023170173A (ja) | 2023-12-01 |
Family
ID=88928098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022081721A Pending JP2023170173A (ja) | 2022-05-18 | 2022-05-18 | 情報処理装置、制御方法ならびにプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023170173A (ja) |
-
2022
- 2022-05-18 JP JP2022081721A patent/JP2023170173A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11277553B2 (en) | Switchover control techniques for dual-sensor camera system | |
CN107832836B (zh) | 无模型深度增强学习探索方法及装置 | |
JP4498104B2 (ja) | 監視装置、その制御方法、およびプログラム | |
JP2019053732A (ja) | シーン内に存在する不要なオブジェクトの除去に基づくシーンの画像の動的生成 | |
KR101739318B1 (ko) | 표시 제어장치, 촬상 시스템, 표시 제어방법, 및 기록 매체 | |
CN110290299B (zh) | 成像方法、装置、存储介质及电子设备 | |
EP3629570A2 (en) | Image capturing apparatus and image recording method | |
US6563528B2 (en) | Video conference system | |
CN104243796A (zh) | 摄影装置、摄影方法、模板创建装置和模板创建方法 | |
CN112738397A (zh) | 拍摄方法、装置、电子设备及可读存储介质 | |
KR102104497B1 (ko) | 영상을 표시하는 방법 및 이를 위한 장치 | |
CN106922181B (zh) | 方向感知自动聚焦 | |
WO2021168804A1 (zh) | 图像处理方法、图像处理装置和图像处理系统 | |
JP2012257173A (ja) | 追尾装置、追尾方法及びプログラム | |
JP2023170173A (ja) | 情報処理装置、制御方法ならびにプログラム | |
CN115022549B (zh) | 拍摄构图方法、装置、计算机设备和存储介质 | |
CN115379195A (zh) | 视频生成方法、装置、电子设备和可读存储介质 | |
JP2022175854A (ja) | 情報処理装置およびその制御方法ならびにプログラム | |
WO2020015754A1 (zh) | 图像采集方法及图像采集设备 | |
CN113873160B (zh) | 图像处理方法、装置、电子设备和计算机存储介质 | |
US20230345107A1 (en) | Imaging apparatus, information processing apparatus, information processing method, and program | |
US20240163544A1 (en) | Information processing apparatus, information processing method, and storage medium | |
CN112927176B (zh) | 图像合成方法、装置、电子设备和计算机可读存储介质 | |
JP2023172294A (ja) | 情報処理装置、その制御方法ならびにプログラム | |
JP7236869B2 (ja) | 撮像装置、撮像方法及び撮像プログラム |