JP7472795B2

JP7472795B2 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP7472795B2
Application number: JP2020556668A
Authority: JP
Inventors: 啓文日比; 裕之森崎
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-11-13
Filing date: 2019-09-24
Publication date: 2024-04-23
Anticipated expiration: 2039-09-24
Also published as: WO2020100438A1; US20210281745A1; JPWO2020100438A1; CN112997214A; CN112997214B

Description

本開示は、情報処理装置、情報処理方法及びプログラムに関する。

画像に対する評価を行う各種の技術が提案されている。例えば、下記特許文献１には、画像の構図を自動的に評価する装置が記載されている。特許文献１に記載の技術では、学習型の対象物認識アルゴリズムを用いて生成した学習ファイルを使用して、画像の構図を評価するようにしている。

特開２００６－１９１５２４号公報

特許文献１に記載の技術では、目的に対して最適な画像とそうでない画像とを使用した学習ファイルを構築しているので、学習処理のコスト（以下、学習コストと適宜、称する）がかかってしまうという問題がある。

本開示は、学習コストが低くなるようにした情報処理装置、情報処理方法及びプログラムを提供することを目的の一つとする。

本開示は、例えば、
所定の入力に応じて取得された画像データの少なくとも一部の範囲の画像データが抽出され、抽出された少なくとも一部の範囲の画像データに基づいて学習を行う学習部と、
画像データに対する所定の処理を行い、所定の処理の結果に基づいて、画像データを再構成した学習対象画像データを生成する学習対象画像データ生成部と、を有し、
所定の入力は、撮影開始を指示する入力であり、
学習部は、所定の入力に応じて学習を開始し、
学習部は、学習対象画像データに基づいて学習を行う
情報処理装置である。

本開示は、例えば、
所定の入力に応じて取得された画像データの少なくとも一部の範囲の画像データが抽出され、学習部が、抽出された少なくとも一部の範囲の画像データに基づいて学習を行い、
学習対象画像データ生成部が、画像データに対する所定の処理を行い、所定の処理の結果に基づいて、画像データを再構成した学習対象画像データを生成し、
所定の入力は、撮影開始を指示する入力であり、
学習部は、所定の入力に応じて学習を開始し、
学習部は、学習対象画像データに基づいて学習を行う
情報処理方法である。

本開示は、例えば、
所定の入力に応じて取得された画像データの少なくとも一部の範囲の画像データが抽出され、学習部が、抽出された少なくとも一部の範囲の画像データに基づいて学習を行い、
学習対象画像データ生成部が、画像データに対する所定の処理を行い、所定の処理の結果に基づいて、画像データを再構成した学習対象画像データを生成し、
所定の入力は、撮影開始を指示する入力であり、
学習部は、所定の入力に応じて学習を開始し、
学習部は、学習対象画像データに基づいて学習を行う
情報処理方法をコンピュータに実行させるプログラムである。

図１は、実施の形態にかかる情報処理システムの構成例を示すブロック図である。図２は、実施の形態にかかる撮像装置の構成例を示すブロック図である。図３は、実施の形態にかかるカメラコントロールユニットの構成例を示すブロック図である。図４は、実施の形態にかかる自動撮影コントローラの構成例を示すブロック図である。図５は、実施の形態にかかる情報処理システムの動作例を説明するための図である。図６は、実施の形態にかかる自動撮影コントローラの動作例を説明するための図である。図７は、実施の形態にかかる自動撮影コントローラの動作例を説明するためのフローチャートである。図８は、画像の切り出し位置を設定可能なＵＩの一例を示す図である。図９は、画角を学習する際に使用されるＵＩの一例を示す図である。図１０は、実施の形態にかかる学習部により行われる画角を学習する処理の流れを説明する際に参照されるフローチャートである。図１１は、実施の形態にかかる学習部により行われる画角を学習する処理の流れを説明する際に参照されるフローチャートである。図１２は、生成された学習モデル等が表示されるＵＩの一例を示す図である。図１３は、第１の変形例を説明するための図である。図１４は、第２の変形例を説明するための図である。図１５は、第２の変形例で行われる処理の流れを示すフローチャートである。図１６は、手術室システムの全体構成を概略的に示す図である。図１７は、集中操作パネルにおける操作画面の表示例を示す図である。図１８は、手術室システムが適用された手術の様子の一例を示す図である。図１９は、図１８に示すカメラヘッド及びＣＣＵの機能構成の一例を示すブロック図である。

以下、本開示の実施の形態等について図面を参照しながら説明する。なお、説明は以下の順序で行う。
＜実施の形態＞
＜変形例＞
＜応用例＞
以下に説明する実施の形態等は本開示の好適な具体例であり、本開示の内容がこれらの実施の形態等に限定されるものではない。

＜実施の形態＞
［情報処理システムの構成例］
図１は、実施の形態にかかる情報処理システム（情報処理システム１００）の構成例を示す図である。情報処理システム１００は、例えば、撮像装置１、カメラコントロールユニット２及び自動撮影コントローラ３を含む構成を有している。なお、カメラコントロールユニットは、ベースバンドプロセッサ等とも称される場合がある。

撮像装置１、カメラコントロールユニット２及び自動撮影コントローラ３は、互いに有線又は無線により接続されており、互いにコマンドや画像データ等のデータの送受信が可能とされている。例えば、自動撮影コントローラ３による制御により、撮像装置１に対する自動撮影（より具体的な例としては、スタジオ撮影）が行われる。有線による接続としては、光電気複合ケーブルを用いた接続や光ファイバーケーブルを用いた接続を例示することができる。無線としては、ＬＡＮ（Local Area Network）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ－Ｆｉ（登録商標）、またはＷＵＳＢ（Wireless USB）等が挙げられる。なお、撮像装置１で撮影される画像（撮影画像）は、動画像であっても良いし、静止画像であっても良い。撮像装置１により高解像度の画像（例えば、４Ｋや８Ｋと称される画像）が取得される。

［情報処理システムを構成する各装置の構成例］
（撮像装置の構成例）
次に、情報処理システム１００を構成する各装置の構成例について説明する。始めに、撮像装置１の構成例について説明する。図２は、撮像装置１の構成例を示すブロック図である。撮像装置１は、撮像部１１、Ａ／Ｄ変換部１２及びＩ／Ｆ（Interface）１３を有している。

撮像部１１は、レンズ等の撮像光学系（これらのレンズを駆動するための機構を含む）及びイメージセンサを含む構成である。イメージセンサは、ＣＣＤ（Charge Coupled Device）、ＣＭＯＳ（Complementary Metal Oxide Semiconductor）などである。イメージセンサは、撮像光学系を介して入射する被写体光を光電変換して電荷量に変換し、画像を生成する。

Ａ／Ｄ変換部１２は、撮像部１１におけるイメージセンサの出力をデジタル信号に変換して出力する。Ａ／Ｄ変換部１２は、例えば、１ライン分の画素信号を同時にデジタル信号に変換する。なお、撮像装置１が、Ａ／Ｄ変換部１２の出力を一時的に保持するメモリを有していても良い。

Ｉ／Ｆ１３は、撮像装置１と外部装置との間のインタフェースをとる。Ｉ／Ｆ１３を介して、撮像装置１からカメラコントロールユニット２や自動撮影コントローラ３に対して、撮影画像が出力される。

（カメラコントロールユニットの構成例）
図３は、カメラコントロールユニット２の構成例を示すブロック図である。カメラコントロールユニット２は、例えば、入力部２１、カメラ信号処理部２２、記憶部２３及び出力部２４を有している。

入力部２１は、外部の装置からコマンドや各種のデータが入力されるインタフェースである。

カメラ信号処理部２２は、ホワイトバランス調整処理や色補正処理、ガンマ補正処理、Ｙ／Ｃ変換処理、ＡＥ（Auto Exposure）処理等の公知のカメラ信号処理を行う。また、カメラ信号処理部２２は、自動撮影コントローラ３による制御に応じて、画像の切り出し処理を行い、所定の画角の画像を生成する。

記憶部２３は、カメラ信号処理部２２によりカメラ信号処理がなされた画像データ等を記憶する。記憶部２３としては、ＨＤＤ（Hard Disk Drive）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、光磁気記憶デバイス等が挙げられる。

出力部２４は、カメラ信号処理部２２によりカメラ信号処理がなされた画像データ等を出力するインタフェースである。なお、出力部２４は、外部の装置と通信を行う通信部であっても良い。

（自動撮影コントローラの構成例）
図４は、情報処理装置の一例である自動撮影コントローラ３の構成例を示すブロック図である。自動撮影コントローラ３は、パーソナルコンピュータ、タブレット型のコンピュータ、スマートフォン等により構成される。自動撮影コントローラ３は、例えば、入力部３１、顔認識処理部３２、処理部３３、閾値判定処理部３４、出力部３５及び操作入力部３６を有している。処理部３３は、学習部３３Ａ及び画角判定処理部３３Ｂを有している。本実施の形態では、処理部３３及び閾値判定処理部３４が特許請求の範囲における判定部に対応し、操作入力部３６が特許請求の範囲における入力部に対応している。

本実施の形態にかかる自動撮影コントローラ３は、コントロールフェーズに対応する処理及び学習フェーズに対応する処理を行う。コントロールフェーズは、学習部３３Ａにより生成された学習モデルを用いて評価を行い、評価の結果、適切であると判定された結果（例えば、適切な画角）でオンエア時の画像を生成するフェーズである。オンエアとは、現在、放送する又はこれから放送する予定の画像を取得するための撮影を意味する。学習フェーズは、学習部３３Ａにより学習が行われるフェーズである。学習フェーズは、学習の開始を指示する入力があった際に移行するフェーズである。

コントロールフェーズ及び学習フェーズのそれぞれに係る処理は、同時に並行して行われる場合もあれば、異なるタイミングで行われる場合もある。コントロールフェーズ及び学習フェーズのそれぞれに係る処理が、同時に行われる場合としては、以下のパターンが想定される。
例えば、オンエア時に学習フェーズに移行するモードに切り替えるトリガが与えられると、その間の画像に基づいて教師データがつくられ学習される。学習結果は、学習終了後に同一のオンエア時のコントロールフェーズにおける処理に反映される。
コントロールフェーズ及び学習フェーズのそれぞれに係る処理が異なるタイミングで行われる場合としては、以下のパターンが想定される。
例えば、一回のオンエア時に収集される教師データを記憶部（例えば、自動撮影コントローラ３が有する記憶部）などに蓄積（場合によっては複数回のオンエア分）した上で学習し、この学習結果は、次回以降のオンエアにおけるコントロールフェーズにおいて利用される。
コントロールフェーズ及び学習フェーズにかかる処理が終了するタイミング（終了させるトリガ）は、同時でも良いし、異なっていても良い。
以上を踏まえ、自動撮影コントローラ３の構成例等について説明する。

入力部３１は、外部の装置からコマンドや各種のデータが入力されるインタフェースである。

顔認識処理部３２は、所定の入力（例えば、撮影の開始を指示する入力）に応じて入力部３１を介して入力される画像データに対して公知の顔認識処理を行うことにより、特徴の一例である顔領域を検出する。そして、顔領域を記号化した特徴画像を生成する。ここで、記号化とは、特徴箇所とその他の箇所を区別することを意味する。顔認識処理部３２は、例えば、検出した顔領域と顔領域以外の領域とを異なるレベルで２値化した特徴画像を生成する。生成された特徴画像は、コントロールフェーズにおける処理に用いられる。また、生成された特徴画像は、学習フェーズにおける処理にも用いられる。

上述したように、処理部３３は、学習部３３Ａ及び画角判定処理部３３Ｂを有している。学習部３３Ａ及び画角判定処理部３３Ｂは、例えば、オートエンコーダを使用したアルゴリズムに基づいて動作する。オートエンコーダとは、出力が入力をできるだけ再現できるように、換言すれば、入力と出力との差分が０になるようにネットワークパラメータを最適化することで、効率よくデータの次元圧縮を行えるようなニューラルネットワークを学習する仕組みである。

学習部３３Ａは、生成された特徴画像を取得し、所定の入力（例えば、学習の開始点を指示する入力）に応じて取得した特徴画像の画像データの少なくとも一部の範囲のデータを抽出し、抽出した少なくとも一部の範囲の画像データに基づいて学習を行う。具体的には、学習部３３Ａは、ユーザが所望する画像である正解画像、具体的には撮影中に入力部３１を介して取得される正解画像（本実施の形態では画角が適切な画像）に基づいて生成される特徴画像の画像データに基づいて、学習の開始を指示する入力に応じて学習を行う。更に具体的には、学習部３３Ａは、正解画像に対応する画像データが顔認識処理部３２により再構成された特徴画像（本実施の形態では、顔領域とその他の領域とが２値化された特徴画像）を学習対象画像データ（教師データ）として用いて、学習の開始を指示する入力に応じて学習する。なお、所定の入力としては、学習の開始点を指示する入力に加え、学習の終了点を指示する入力を含めても良い。この場合、学習部３３Ａは、学習の開始点から学習の終了点までの範囲の画像データを抽出し、抽出した画像データに基づいて学習を行う。また、学習の開始点とは学習部３３Ａが学習を開始するタイミングを指示するものでもよいし、学習部３３Ａが学習に用いる教師データの取得を開始するタイミングを指示するものでもよい。同様に、学習の終了点とは学習部３３Ａが学習を終了するタイミングを指示するものでもよいし、学習部３３Ａが学習に用いる教師データの取得を終了するタイミングを指示するものでもよい。
なお、本実施の形態における学習とは、２値化された特徴画像をインプットとして、評価値をアウトプットするためのモデル（ニューラルネットワーク）を生成することを意味する。

画角判定処理部３３Ｂは、学習部３３Ａによる学習結果を使用して、顔認識処理部３２により生成された特徴画像を使用して、入力部３１を介して得られた画像データの画角に対する評価値を演算する。画角判定処理部３３Ｂは、演算した評価値を閾値判定処理部３４に出力する。

閾値判定処理部３４は、画角判定処理部３３Ｂから出力された評価値と所定の閾値とを比較し、比較結果に基づいて、入力部３１を介して取得される画像データにおける画角が適切であるか否かを判定する。例えば、閾値判定処理部３４は、比較の結果、評価値が閾値より小さい場合には、入力部３１を介して取得される画像データにおける画角が適切であると判定する。また、閾値判定処理部３４は、比較の結果、評価値が閾値より大きい場合には、入力部３１を介して取得される画像データにおける画角が不適切であると判定する。閾値判定処理部３４は、画角が不適切と判定した場合には、適切な画角とするために、画像切り出し位置を指定した切り出し位置指示コマンドを出力する。なお、画角判定処理部３３Ｂ及び閾値判定処理部３４における処理は、コントロールフェーズで行われる。

出力部３５は、自動撮影コントローラ３で生成されたデータやコマンドを出力するインタフェースである。なお、出力部３５は、外部の装置（例えば、サーバ装置）と通信を行う通信部であっても良い。出力部３５を介して、例えば、上述した切り出し位置指示コマンドがカメラコントロールユニット２に対して出力される。

操作入力部３６は、操作入力を受け付ける構成を総称したＵＩ(User Interface)である。操作入力部３６は、例えば、表示部や、ボタン、タッチパネル等の操作部を有している。

［情報処理システムの動作例］
（情報処理システム全体の動作例）
次に、実施の形態にかかる情報処理システム１００の動作例について説明する。以下の説明は、コントロールフェーズにおける情報処理システム１００の動作例である。図５は、情報処理システム１００で行われる動作例を説明するための図である。撮像装置１が撮像動作することにより画像が取得される。撮像装置１が画像の取得を開始するトリガは、撮像装置１に対する所定の入力でも良いし、自動撮影コントローラ３からの送信されるコマンドであっても良い。図５に示すように、例えば、２人の人物が写る２ショットの画像ＩＭ１が撮像装置１により取得される。撮像装置１により取得された画像が、カメラコントロールユニット２及び自動撮影コントローラ３のそれぞれに供給される。

自動撮影コントローラ３は、画像ＩＭ１の画角が適切であるか否かを判断する。画像ＩＭ１の画角が適切である場合は、画像ＩＭ１がカメラコントロールユニット２に記憶されたり、カメラコントロールユニット２から他の機器に出力される。画像ＩＭ１の画角が適切でない場合は、自動撮影コントローラ３から切り出し位置指示コマンドがカメラコントロールユニット２に出力される。切り出し位置指示コマンドを受信したカメラコントロールユニット２は、切り出し位置指示コマンドに応じた位置で画像を切り出す。図５に示すように、切り出し位置指示コマンドに応じて切り出される画像の画角は、全体画角（図５に示す画像ＩＭ２）や１人の人物が写る１ショットの画像（図５に示す画像ＩＭ３）等があり得る。

（自動撮影コントローラの動作例）
次に、図６を参照して、コントロールフェーズにおける自動撮影コントローラの動作例について説明する。上述したように、撮像装置１により例えば、画像ＩＭ１が取得される。画像ＩＭ１が自動撮影コントローラ３に入力される。自動撮影コントローラ３の顔認識処理部３２は、画像ＩＭ１に対して顔認識処理３２０を行う。顔認識処理３２０としては、公知の顔認識処理を適用することができる。顔認識処理３２０により、図６の参照符号ＡＡを付した箇所で模式的に示すように、画像ＩＭ１における人物の顔領域である顔領域ＦＡ１及び顔領域ＦＡ２が検出される。

そして、顔認識処理部３２は、特徴の一例である顔領域ＦＡ１及び顔領域ＦＡ２を記号化した特徴画像を生成する。例えば、図６の参照符号ＢＢを付した箇所で模式的に示すように、顔領域ＦＡ１及び顔領域ＦＡ２とそれ以外の領域とを区別した２値化画像ＩＭ１Ａを生成する。顔領域ＦＡ１及び顔領域ＦＡ２は、例えば、白のレベルで規定され、顔領域でない領域（ハッチングが付された領域）は、黒のレベルで規定される。２値化画像ＩＭ１Ａの画像切り出し位置ＰＯ１が処理部３３の画角判定処理部３３Ｂに入力される。なお、画像切り出し位置ＰＯ１は、例えば、検出された顔領域（本例では、顔領域ＦＡ１及び顔領域ＦＡ２）に対して所定の範囲を切り出す位置として予め設定されている範囲である。

画角判定処理部３３Ｂは、画像切り出し位置ＰＯ１に基づいて、画像ＩＭ１の画角に対する評価値を演算する。画像ＩＭ１の画角に対する評価値は、学習済みの学習モデルを用いて演算される。上述したように、本実施の形態では、オートエンコーダにより評価値を算出する。オートエンコーダを使用した方法では、正常データ間における関係性やパターンを利用して、データを可能な限り損失無く圧縮して再構成するモデルを用いる。このモデルを用いて正常データ、即ち、画角が適切な画像データを処理した場合、データ損失が少ない、換言すれば、圧縮前の元データと再構成後のデータとの差分が小さくなる。本実施の形態では、この差分が評価値に対応している。つまり、画像の画角が適切である程、評価値が小さくなる。一方、異常データ、即ち、画角が不適切な画像データを処理した場合、データ損失が大きくなる、換言すれば、圧縮前の元データと再構成後のデータとの差分である評価値が大きくなる。画角判定処理部３３Ｂは、求めた評価値を閾値判定処理部３４に出力する。図６に示す例では、評価値の一例として「０．０１５」が示されている。

閾値判定処理部３４は、画角判定処理部３３Ｂから供給された評価値を所定の閾値と比較する閾値判定処理３４０を行う。比較の結果、評価値が閾値より大きい場合は、画像ＩＭ１の画角が不適切であると判定し、適切な画角となる画像切り出し位置を示す切り出し位置指示コマンドを、出力部３５を介して出力する、切り出し位置指示コマンド出力処理３５０を行う。切り出し位置指示コマンドがカメラコントロールユニット２に供給される。そして、カメラコントロールユニット２のカメラ信号処理部２２が、切り出し位置指示コマンドで示される位置で画像を切り出す処理を画像ＩＭ１に対して実行する。なお、比較の結果、評価値が閾値より小さい場合は、切り出し位置指示コマンドは出力されない。

図７は、コントロールフェーズにおいて自動撮影コントローラ３により行われる処理の流れを示すフローチャートである。処理が開始されると、ステップＳＴ１１では、撮像装置１を介して取得された画像に対して顔認識処理部３２による顔認識処理が行われる。そして、処理がステップＳＴ１２に進む。

ステップＳＴ１２では、顔認識処理部３２により画像変換処理が行われ、かかる処理により２値化画像等の特徴画像が生成される。特徴画像における画像切り出し位置が画角判定処理部３３Ｂに供給される。そして、処理がステップＳＴ１３に進む。

ステップＳＴ１３では、画角判定処理部３３Ｂにより評価値が求められ、閾値判定処理部３４による閾値判定処理が行われる。そして、処理がステップＳＴ１４に進む。

ステップＳＴ１４では、閾値判定処理の結果、画角が適切であるか否かが判断される。画角が適切である場合には、処理が終了する。画角が適切でない場合には、処理がステップＳＴ１５に進む。

ステップＳＴ１５では、閾値判定処理部３４が切り出し位置指示コマンドを、出力部３５を介してカメラコントロールユニット２に出力する。そして、処理が終了する。

なお、適切な画角は、ショット毎に異なる。従って、画角判定処理部３３Ｂ及び閾値判定処理部３４による、適切な画角であるか否かの判定がショット毎に行われても良い。具体的には、ショット毎に画角を判定するように複数の画角判定処理部３３Ｂ及び閾値判定処理部３４を設け、ユーザが撮影したい１ショットの画角や２ショットの画角に対応して、適切な画角であるか否かの判定が行われても良い。

［画像の切り出し位置の設定］
次に、切り出し位置指示コマンドによって指定される画像切り出し位置、即ち、画角を調整し、調整した結果を設定する例について説明する。図８は、画像の切り出し位置を設定可能なＵＩ（ＵＩ４０）の一例を示す図である。ＵＩ４０は表示部４１を含み、当該表示部４１には２人の人物と、２人の人物の顔領域（顔領域ＦＡ４、ＦＡ５）が表示されている。また、表示部４１には、顔領域ＦＡ４，ＦＡ５に対する画像切り出し位置ＰＯ４が示されている。

また、表示部４１の右側には、線状のライン上に表示された１個の丸印を含むズーム調整部４２が表示されている。丸印を一方の端部に動かすことにより表示部４１の表示画像がズームインし、丸印を他方の端部に動かすことにより表示部４１の表示画像がズームアウトする。ズーム調整部４２の下側には、十字キーを含む位置調整部４３が表示されている。位置調整部４３の十字キーが適宜、操作されることにより、画像切り出し位置ＰＯ４の位置を調整することができる。

なお、図８では、２ショットの画角を調整するＵＩが示されているが、１ショット等の画角を、ＵＩ４０を使用して調整することも可能である。ユーザは、ＵＩ４０におけるズーム調整部４２や位置調整部４３を、操作入力部３６を使用して適宜、操作することにより、各ショットに対応した左空け、右空け、ズームなどの画角調整が可能である。なお、ＵＩ４０を使用してなされた画角の調整結果は保存することができ、プリセットとして後から呼び出すことが可能とされても良い。

［画角の学習について］
次に、自動撮影コントローラ３の学習部３３Ａにより行われる画角の学習、即ち、学習フェーズにおける処理について説明する。学習部３３Ａは、例えば、シーンと、撮影条件及び編集条件の少なくとも一方との対応関係を、シーン毎に学習する。ここで、シーンとは構図を含む。構図とは、撮影中の画面全体の構成であり、具体的には、画角に対する人物の位置関係が挙げられ、より具体的には、１ショット、２ショット、１ショットの左空け、１ショットの右空け等が挙げられる。かかるシーンは、後述するように、ユーザによって指定可能とされる。撮影条件とは、撮影中に調整され得る条件であり、具体例としては、画面の明るさ（アイリス・ゲイン）、ズーム等が挙げられる。編集条件とは、撮影中又は録画確認中に調整され得る条件であり、具体例としては、切り出し画角や、明るさ（ゲイン）、画質が挙げられる。本実施の形態では、編集条件の一つである画角を学習する例について説明する。

学習部３３Ａは、所定の入力に応じて取得されるデータ（本実施の形態では、画像データ）に基づいて、学習の開始を指示する入力に応じて学習を行う。例えば、撮像装置１を使用してスタジオ撮影を行う例を考える。この場合、オンエア時（撮影中）は放送等に用いられるため出演者に対する画角も適切なものになっている可能性が高い。一方、オンエアではない場合、撮像装置１により画像が取得されている場合でも撮像装置１は動かされず、出演者の表情もリラックスしたままで動きもまちまちになる可能性が高い。即ち、例えば、オンエア時に取得される画像の画角は適切である可能性が高いのに対して、オンエアではない場合に取得される画像の画角は適切でない可能性が高い。

そこで、学習部３３Ａは、前者を正解画像として学習する。不正解画像を使用せず正解画像だけを使用して学習することにより、学習部３３Ａが学習する際の学習コストを低減することができる。また、画像データに対して正解、不正解のタグ付けをする必要がなくなり、また、不正解画像を取得する必要もなくなる。

また、本実施の形態では、学習部３３Ａは、顔認識処理部３２により生成された特徴画像（例えば、２値化画像）を学習対象画像データとして使用し、学習する。顔領域等の特徴を記号化した画像を使用することにより、学習コストを低くすることができる。本実施の形態では、顔認識処理部３２により生成された特徴画像が学習対象画像データとして使用されることから、顔認識処理部３２が学習対象画像データ生成部として機能する。勿論、顔認識処理部３２以外で学習対象画像データ生成部に対応する機能ブロックを設けても良い。以下、学習部３３Ａが行う学習について、詳細に説明する。

（画角を学習する際に使用されるＵＩの一例）
図９は、自動撮影コントローラ３において、画角を学習する際に使用されるＵＩ（ＵＩ５０）の一例を示す図である。ＵＩ５０は、例えば１ショットの画角を学習部３３Ａに学習させる際のＵＩである。学習対象のシーンは、例えば、操作入力部３６を使用した操作により適宜、変更することができる。ＵＩ５０は、例えば、表示部５１と、当該表示部５１に表示される学習画角選択部５２を含む。学習画角選択部５２は、学習に使用する学習対象画像データ（本実施の形態では、特徴画像）の範囲を指定可能とするＵＩであり、本実施の形態では「全体」、「現在の切り出し位置」の２つが選択可能とされている。学習画角選択部５２の「全体」が選択されると、特徴画像全体が学習に使用される。学習画角選択部５２の「現在の切り出し位置」が選択されると、所定の位置で切り出された特徴画像が学習に使用される。ここでの画像切り出し位置は、例えば、図８を使用して設定された切り出し位置である。

ＵＩ５０は、例えば、表示部５１に表示される撮影開始ボタン５３Ａ及び学習ボタン５３Ｂを更に含む。撮影開始ボタン５３Ａは、例えば、赤色の丸印のボタン（レコードボタン）であり、撮影開始を指示するためのものである。学習ボタン５３Ｂは、例えば、矩形状のボタンであり、学習開始を指示するためのものである。撮影開始ボタン５３Ａを押下する入力がなされると、撮像装置１による撮影が開始され、撮影により取得された画像データに基づいて特徴画像が生成される。学習ボタン５３Ｂを押下すると、生成された特徴画像を使用した学習部３３Ａによる学習が行われる。なお、撮影開始ボタン５３Ａは、撮影開始とリンクしたものである必要は無く、任意のタイミングで操作されるものであっても良い。

（画角を学習する処理の流れ）
次に、図１０及び図１１のフローチャートを参照して、学習フェーズにおいて学習部３３Ａにより行われる処理の流れについて説明する。図１０は、撮影開始ボタン５３Ａが押下され、撮影開始が指示された際に行われる処理の流れを示すフローチャートである。処理が開始されると、撮像装置１を介して取得された画像が入力部３１を介して自動撮影コントローラ３に供給される。ステップＳＴ２２では、顔認識処理部３２による顔認識処理により顔領域が検出される。そして、処理がステップＳＴ２２に進む。

ステップＳＴ２２では、顔認識処理部３２がＵＩ５０における学習画角選択部５２の設定を確認する。学習画角選択部５２の設定が「全体」である場合には、処理がステップＳＴ２３に進む。ステップＳＴ２３において、顔認識処理部３２は、図１０の参照符号ＣＣを付した箇所で模式的に示すように、画像全体の２値化画像を生成する画像変換処理を行う。そして、処理がステップＳＴ２５に進み、生成された画像全体の２値化画像（静止画）が記憶（保存）される。画像全体の２値化画像は、自動撮影コントローラ３内で記憶されても良いし、出力部３５を介して外部装置に対して送信され、当該外部装置に記憶されても良い。

ステップＳＴ２２の判定処理で、学習画角選択部５２の設定が「現在の切り出し位置」である場合には、処理がステップＳＴ２４に進む。ステップＳＴ２４において、顔認識処理部３２は、図１０の参照符号ＤＤを付した箇所で模式的に示すように、所定の切り出し位置で切り出された画像の２値化画像を生成する画像変換処理を行う。そして、処理がステップＳＴ２５に進み、生成された切り出し画像の２値化画像（静止画）が記憶（保存）される。切り出し画像の２値化画像は、画像全体の２値化画像と同様に、自動撮影コントローラ３内で記憶されても良いし、出力部３５を介して外部装置に対して送信され、当該外部装置に記憶されても良い。

図１１は、学習ボタン５３Ｂが押下され、学習開始が指示された際、即ち、学習フェーズに移行した際に行われる処理の流れを示すフローチャートである。処理が開始されると、ステップＳＴ３１では、撮影開始ボタン５３Ａを押下した際に生成された特徴画像、具体的には、ステップＳＴ２３やステップＳＴ２４で生成され、ステップＳＴ２５で記憶された特徴画像を学習対象画像データとして学習部３３Ａが学習を開始する。そして、処理がステップＳＴ３２に進む。

本実施の形態では、学習部３３Ａは、オートエンコーダによる学習を行う。ステップＳＴ３２では、学習部３３Ａが、学習のために準備された学習対象画像データの圧縮および再構成処理を行い、学習対象画像データに適合するモデル（学習モデル）を生成する。学習部３３Ａによる学習が完了すると、生成された学習モデルが記憶部（例えば、自動撮影コントローラ３が有する記憶部）に記憶（保存）される。生成された学習モデルは、出力部３５を介して外部装置に出力され、当該外部装置に学習モデルが記憶されても良い。そして、処理がステップＳＴ３３に進む。

ステップＳＴ３３では、学習部３３Ａによって生成された学習モデルがＵＩ上に表示される。例えば、生成された学習モデルが自動撮影コントローラ３のＵＩ上に表示される。図１２は、学習モデルが表示されるＵＩ（ＵＩ６０）の一例を示す図である。ＵＩ６０は、表示部６１を含む。表示部６１の中央付近には、学習の結果得られた学習モデル（本実施の形態では画角）６２が表示される。

生成された学習モデルをプリセットとして記憶する際に、ＵＩ６０を使用して、学習モデルのプリセット名等を設定することができる。例えば、ＵＩ６０には、項目６３として「プリセット名」があり、項目６４として「ショットタイプ」が含まれている。図示の例では、「プリセット名」として「センター」、「ショットタイプ」として「１ショット」が設定されている。

学習の結果生成される学習モデルは、閾値判定処理部３４の閾値判定処理で使用される。そこで、本実施の形態では、ＵＩ６０に項目６５として「ルーズ判定の閾値」を含み、画角が適切であるか否かを判定する際の閾値を設定できるようにしている。閾値を設定できることで、例えば、カメラマンがどこまでの画角のずれを許容するかを設定できるようになる。図示の例では、「ルーズ判定の閾値」として「０．４１」が設定されている。更に、学習モデルに対応する画角をズーム調整部６６や十字キーからなる位置調整部６７を使用して調整することができる。各種の設定がなされた学習モデルは、例えば、「新規保存」と表示されているボタン６８を押下する操作により記憶される。なお、過去に同様のシーンの学習モデルが生成されている場合には、新たに生成された学習モデルが過去に生成された学習モデルに上書き保存されるようにしても良い。

図１２に示す例では、既に得られている２個の学習モデルが表示されている。１個目の学習モデルは、１ショットの左空けの画角に対応する学習モデルであり、ルーズ判定の閾値として０．４１が設定されている学習モデルである。２個目の学習モデルは、２ショットのセンターの画角に対応する学習モデルであり、ルーズ判定の閾値として０．１７が設定されている学習モデルである。このように、学習モデルがシーン毎に記憶される。

なお、上述した例において、例えば、撮影開始ボタン５３Ａを再度押下することにより、撮影が停止されるようにしても良い。また、学習ボタン５３Ｂを再度押下することにより学習フェーズにかかる処理が終了するようにしても良い。また、撮影開始ボタン５３Ａが再度押下されることで撮影と学習が同時に終了するようにしても良い。このように、撮影開始のトリガ、学習開始のトリガ、撮影終了のトリガ及び学習終了のトリガがそれぞれ独立した操作であっても良い。この場合に、撮影開始ボタン５３Ａが一度押され、撮影開始後の撮影中に学習ボタン５３Ｂが押下されても良く、オンエア時の所定タイミング（オンエア開始時やオンエアの途中等）で学習フェーズにかかる処理が行われるようにしても良い。

また、上述した例では、撮影開始ボタン５３Ａ及び学習ボタン５３Ｂのように２個のボタンに分けているが、１個のボタンであっても良く、当該１個のボタンが、撮影開始のトリガと学習開始のトリガとを兼ねていても良い。即ち、撮影開始のトリガ及び学習開始のトリガが共通の操作であっても良い。具体的には、１個のボタンが押下されることにより、撮影開始が指示され、撮影により得られた画像（本実施の形態における特徴画像）に基づいて、撮影と並行した学習部３３Ａによる学習が行われるようにしても良い。撮影により得られた画像の画角が適切であるか否かを判断する処理が行われても良い。換言すれば、コントロールフェーズにおける処理と学習フェーズにおける処理とが並行して行われても良い。なお、この場合、上述した１個のボタンを押下することにより撮影が停止すると共に、学習フェーズにかかる処理が終了するようにしても良い。即ち、撮影終了のトリガ及び学習終了のトリガが共通の操作であっても良い。

また、上述した例のように、撮影開始ボタン５３Ａ及び学習ボタン５３Ｂのように２個のボタンが設けられる例、即ち、撮影開始のトリガ及び学習開始のトリガが独立した操作で行われる場合に、撮影と学習フェーズにおける処理を１回の操作で終了させる１個のボタンが設けられても良い。即ち、撮影開始のトリガ及び学習開始のトリガが別の操作であり、撮影終了のトリガ及び学習終了のトリガが共通した操作であっても良い。

例えば、撮影や学習フェーズにおける処理の終了は、ボタンを再度、押下する操作以外をトリガとしてなされても良い。例えば、撮影(オンエア)が終わったタイミングで撮影及び学習フェーズにおける処理が同時に終わるようにしても良い。例えば、撮影中であることを示すタリー信号の入力がなくなった際に、自動的に学習フェーズにおける処理を終わらせるようにしても良い。また、学習フェーズにおける処理の開始も、タリー信号の入力をトリガとして行われても良い。

以上、本開示の実施の形態について説明した。
実施の形態によれば、例えばユーザが教師データを取得したい任意のタイミングで学習開始のトリガ（学習フェーズに移行するトリガ）を入力することができる。また、この学習開始のトリガに応じて取得される少なくとも一部の正解画像のみに基づいて学習を行うようにしているので、学習コストを低減することができる。また、スタジオ撮影等の場合には、不正解画像は、通常では撮影されない。しかしながら、実施の形態では、学習の際に不正解画像を使用しないので、不正解画像を取得する必要がなくなる。
また、実施の形態では、学習の結果、得られる学習モデルを使用して、画角が適切であるかを判定し、不適切な画角の場合は画像切り出し位置が自動で補正される。従って、カメラマンが撮像装置を操作して適切な画角の画像を取得する必要がなくなり、人手で行われていた撮影における一連の操作を自動化することができる。

＜変形例＞
以上、本開示の実施の形態について具体的に説明したが、本開示の内容は上述した実施の形態に限定されるものではなく、本開示の技術的思想に基づく各種の変形が可能である。以下、変形例について説明する。

［第１の変形例］
図１３は、第１の変形例を説明するための図である。第１の変形例では、撮像装置１がＰＴＺカメラ１Ａであり、カメラコントロールユニット２がＰＴＺ制御装置２Ａである点が実施の形態と異なる。ＰＴＺカメラ１Ａとは、パン(Pan:Panoramac viewの略)及びチルト(Tilt)の制御とズーム(Zoom)の制御が遠隔操作により可能とされるカメラである。パンは、カメラの画角を水平方向に移動(横方法に首振り)させる制御であり、チルトは、カメラの画角を垂直方法に移動(縦方向に首振り)させる制御であり、ズームは、画角を拡大及び縮小して表示させる制御である。ＰＴＺ制御装置２Ａは、自動撮影コントローラ３から供給されるＰＴＺ位置の指示コマンドに応じてＰＴＺカメラ１Ａを制御する。

第１の変形例で行われる処理について説明する。ＰＴＺカメラ１Ａで取得された画像が自動撮影コントローラ３に供給される。自動撮影コントローラ３は、実施の形態で説明したように、学習によって得られた学習モデルを使用して、供給された画像の画角が適切であるか否かを判定する。画像の画角が適切でない場合は、適切な画角となるＰＴＺ位置を示すコマンドをＰＴＺ制御装置２Ａに対して出力する。ＰＴＺ制御装置２Ａは、自動撮影コントローラ３から供給されるＰＴＺ位置の指示コマンドに応じて、ＰＴＺカメラ１Ａを適宜、駆動する。

例えば、図１３に示すように、画像ＩＭ１０に、女性ＨＵ１が適切な画角で写っている例を考える。女性ＨＵ１が席を立つ等、上方向に移動したとする。女性ＨＵ１の移動により、画角が適切な画角からずれるため、自動撮影コントローラ３では、適切な画角となるＰＴＺ位置の指示コマンドが生成される。ＰＴＺ位置の指示コマンドに応じてＰＴＺ制御装置２Ａが、例えば、ＰＴＺカメラ１Ａをチルト方向に駆動する。かかる制御により、適切な画角の画像が得られる。このように、適切な画角の画像を得るために、画像切り出し位置ではなくＰＴＺ位置の指示（パン、チルト及びズームの少なくとも１つに関する指示）が自動撮影コントローラ３から出力されるようにしても良い。

［第２の変形例］
図１４は、第２の変形例を説明するための図である。第２の変形例にかかる情報処理システム（情報処理システム１００Ａ）は、撮像装置１、カメラコントロールユニット２及び自動撮影コントローラ３の他に、スイッチャー５及び自動スイッチングコントローラ６を有する。撮像装置１、カメラコントロールユニット２及び自動撮影コントローラ３の動作は、上述した実施の形態で説明した動作と同様である。自動撮影コントローラ３は、シーン毎に画角が適切であるか否かを判定し、その結果に応じて、切り出し位置指示コマンドを適宜、カメラコントロールユニット２に出力する。カメラコントロールユニット２からは、シーン毎に適切な画角である画像が出力される。カメラコントロールユニット２からの複数の出力がスイッチャー５に供給される。スイッチャー５は、自動スイッチングコントローラ６の制御に応じて、カメラコントロールユニット２から供給される複数の画像から所定の画像を選択して出力する。例えば、スイッチャー５は、自動スイッチングコントローラ６から供給される切替コマンドに応じて、カメラコントロールユニット２から供給される複数の画像から所定の画像を選択して出力する。

自動スイッチングコントローラ６が画像を切り替える切替コマンドを出力する条件としては、以下に例示する条件が挙げられる。
例えば、１ショットや２ショット等のシーンをランダムに所定時間毎（例えば、１０秒毎）に切り替えるように、自動スイッチングコントローラ６が切替コマンドを出力する。
放送内容に応じて、自動スイッチングコントローラ６が切替コマンドを出力する。例えば、出演者がトークするモードでは、全体画角の画像を選択する切替コマンドが出力され、選択された画像（例えば、図１４に示す画像ＩＭ２０）がスイッチャー５から出力される。また、例えば、ＶＴＲが放送されるときは、所定の位置で切り出された画像を選択する切替コマンドが出力され、選択された画像が図１４に示す画像ＩＭ２１のように、ＰｉｎＰ（Picture In Picture）で使用される。放送内容がＶＴＲに切り替わるタイミングは、適宜な方法により自動スイッチングコントローラ６に入力される。なお、ＰｉｎＰモードのときは、人物が異なる１ショットの画像を連続的に切り替えるようにしても良い。また、出演者を放送するモードのときは、引きの画像（全体の画像）と１ショットの画像が連続しないように画像を切り替えるようにしても良い。
また、自動撮影コントローラ３で演算される評価値が最も低い画像、即ち、エラーが小さく画角がより適切である画像が選択されるように、自動スイッチングコントローラ６が切替コマンドを出力しても良い。
また、公知の方法により話者認識を行い、話者を含むショットの画像に切り替わるように、自動スイッチングコントローラ６が切替コマンドを出力しても良い。
なお、図１４では、カメラコントロールユニット２から２個の画像データが出力されているが、より多くの画像データが出力されても良い。

図１５は、第２の変形例において、自動撮影コントローラ３で行われる処理の流れを示すフローチャートである。ステップＳＴ４１では、顔認識処理部３２による顔認識処理が行われる。そして、処理がステップＳＴ４２に進む。

ステップＳＴ４２では、顔認識処理部３２による画像変換処理が行われ、２値化画像等の特徴画像が生成される。そして、処理がステップＳＴ４３に進む。

ステップＳＴ４３では、画角判定処理部３３Ｂ及び閾値判定処理部３４による処理により、画像の画角が適切であるか否かの判定が行われる。ステップＳＴ４１～ステップＳＴ４３の処理は、実施の形態で説明した処理と同一の処理である。そして、処理がステップＳＴ４４に進む。

ステップＳＴ４４では、自動スイッチングコントローラ６により所定の画角の画像を選択する画角選択処理が行われる。どのような条件で如何なる画角の画像を選択するかについては、上述した通りである。そして、処理がステップＳＴ４５に進む。

ステップＳＴ４５では、ステップＳＴ４４の処理で決定された画角の画像を選択するための切替コマンドを自動スイッチングコントローラ６が生成し、生成した切替コマンドをスイッチャー５に出力する。スイッチャー５は、切替コマンドにより指示された画角の画像を選択する。

［その他の変形例］
その他の変形例について説明する。自動撮影コントローラ３で行われる機械学習はオートエンコーダに限定されることなく、他の方法であっても良い。

コントロールフェーズにおける処理と学習フェーズにおける処理とが並行して行われる場合に、コントロールフェーズにおける処理で画角が不適切であると判定された画像は、学習フェーズにおける教師データとして用いないようにしても良く、廃棄しても良い。また、画角の適切さを判定するための閾値を変更しても良い。閾値は、より厳しく評価するために低く変更されても良く、より緩く評価するために高く変更されるようにしても良い。閾値の変更は、ＵＩ画面においてなされても良いし、閾値の変更を当該ＵＩ画面でアラートして報知されるようにしても良い。

画像に含まれる特徴は、顔領域に限定されるものではない。例えば、画像に含まれる人物の姿勢であっても良い。この場合は、顔認識処理部は、姿勢を検出する姿勢検出処理を行う姿勢検出部に置き換わる。姿勢検出処理としては、公知の方法を適用することができるが、例えば、画像内の特徴点を検出し、検出した特徴点に基づいて姿勢を検出する方法を適用することができる。特徴点としては、ＣＮＮ(Convolutional Neural Network)に基づく特徴点、ＨＯＧ(Histograms of Oriented Gradients)特徴点、ＳＩＦＴ（Scale Invariant Feature Transform）に基づく特徴点を挙げることができる。そして、特徴点の箇所を、例えば、方向成分を含む所定の画素レベルとし、特徴点以外の箇所と区別された特徴画像が生成されるようにしても良い。

所定の入力（実施の形態における撮影開始ボタン５３Ａ及び学習ボタン５３Ｂ）は、画面のタッチやクリックに限定されるものではなく、物理的なボタン等に対する操作でも良いし、音声入力やジェスチャによる入力であっても良い。また、人為的な入力ではなく、装置で行われる自動のものであっても良い。

実施の形態では、撮像装置１により取得された画像データがカメラコントロールユニット２及び自動撮影コントローラ３のそれぞれに供給される例について説明したが、これに限定されるものではない。例えば、撮像装置１により取得された画像データがカメラコントロールユニット２に供給され、カメラコントロールユニット２により所定の信号処理が施された画像データが自動撮影コントローラ３に供給されるようにしても良い。

所定の入力に応じて取得されるデータは、画像データではなく音声データであっても良い。例えば、スマートスピーカ等のエージェントが、所定の入力がなされた後に取得される音声データに基づいて学習を行うようにしても良い。なお、エージェントの機能の一部を学習部３３Ａが担っても良い。

情報処理装置は、画像の編集装置であってもよい。この場合、所定の入力（例えば、編集の開始を指示する入力）に応じて取得される画像データに基づいて、学習の開始を指示する入力に応じて学習を行う。このとき、所定の入力は、編集ボタンを押下することによる入力（トリガ）とすることができるし、また学習開始を指示する入力は、学習ボタンを押下することによる入力（トリガ）とすることができる。
編集開始のトリガ、学習開始のトリガ、編集終了のトリガ及び学習終了のトリガはそれぞれ独立であっても良く、例えば、編集開始ボタンを押下する入力がなされると、処理部による編集処理が開始され、編集により取得された画像データに基づいて特徴画像が生成される。学習ボタンを押下すると、生成された特徴画像を使用した学習部による学習が行われる。また、編集開始ボタンについても、再度押下することにより、編集が停止されるようにしても良い。また、編集開始のトリガ、学習開始のトリガ、編集終了のトリガ及び学習終了のトリガは共通であっても良い。例えば、編集ボタンと学習ボタンが１個のボタンで設けられていても良く、１個のボタンを押下することにより編集が終了すると共に、学習フェーズにかかる処理が終了するようにしても良い。
また、上述のようなユーザの操作による学習開始のトリガ以外に、例えば、編集装置の立ち上げ（編集アプリの立ち上げ）指示や、編集装置に対する編集データ（動画データ）の取り込み指示が編集開始のトリガとなってもよい。

実施の形態や変形例にかかる情報処理システムの構成は、適宜、変更可能である。例えば、撮像装置１は、当該撮像装置１と、カメラコントロールユニット２や自動撮影コントローラ３の少なくとも一方の構成とが一体的にされた装置であっても良い。また、カメラコントロールユニット２と自動撮影コントローラ３とが、一体化された装置で構成されても良い。また、自動撮影コントローラ３が、教師データ（実施の形態では２値化画像）を記憶する記憶部を有していても良い。また、自動撮影コントローラ３が、カメラコントロールユニット２と自動撮影コントローラ３とに記憶される教師データを共有するように、教師データをカメラコントロールユニット２に出力するようにしても良い。

本開示は、装置、方法、プログラム、システム等により実現することもできる。例えば、上述した実施の形態で説明した機能を行うプログラムをダウンロード可能とし、実施の形態で説明した機能を有しない装置が当該プログラムをダウンロードしてインストールすることにより、当該装置において実施の形態で説明した制御を行うことが可能となる。本開示は、このようなプログラムを配布するサーバにより実現することも可能である。また、実施の形態、変形例で説明した事項は、適宜組み合わせることが可能である。

なお、本開示中に例示された効果により本開示の内容が限定して解釈されるものではない。

本開示は、以下の構成も採ることができる。
（１）
データを取得し、所定の入力に応じて前記データの少なくとも一部の範囲のデータを抽出し、前記少なくとも一部の範囲のデータに基づいて学習を行う学習部を有する情報処理装置。
（２）
前記データは、撮影中に取得された画像に対応する画像データに基づくデータである
（１）に記載の情報処理装置。
（３）
前記所定の入力は、学習の開始点を示す入力である
（１）又は（２）に記載の情報処理装置。
（４）
前記所定の入力は、さらに学習の終了点を示す入力である
（３）に記載の情報処理装置。
（５）
前記学習部は、前記学習の開始点から前記学習の終了点までの範囲のデータを抽出する
（４）に記載の情報処理装置。
（６）
前記画像データに対する所定の処理を行い、前記所定の処理の結果に基づいて、前記画像データを再構成した学習対象画像データを生成する学習対象画像データ生成部を有し、
前記学習部は、前記学習対象画像データに基づいて学習を行う
（２）から（５）までの何れかに記載の情報処理装置。
（７）
前記学習対象画像データは、前記所定の処理によって検出された特徴を記号化した画像データである
（６）に記載の情報処理装置。
（８）
前記所定の処理は顔認識処理であり、前記学習対象画像データは、前記顔認識処理で得られた顔領域とその他の領域とを区別した画像データである
（６）に記載の情報処理装置。
（９）
前記所定の処理は姿勢検出処理であり、前記学習対象画像データは、前記姿勢検出処理で得られた特徴点の領域とその他の領域とを区別した画像データである
（６）に記載の情報処理装置。
（１０）
前記学習の結果に基づく学習モデルが表示される
（１）から（９）までの何れかに記載の情報処理装置。
（１１）
前記学習部は、シーンと、撮影条件及び編集条件の少なくとも一方との対応関係を、シーン毎に学習する
（１）から（１０）までの何れかに記載の情報処理装置。
（１２）
前記シーンは、ユーザにより指定されたシーンである
（１１）に記載の情報処理装置。
（１３）
前記シーンは、画角に対する人物の位置関係である
（１１）に記載の情報処理装置。
（１４）
前記撮影条件は、撮影中に調整され得る条件である
（１１）に記載の情報処理装置。
（１５）
前記編集条件は、撮影中又は録画確認中に調整され得る条件である
（１１）に記載の情報処理装置。
（１６）
前記学習部による学習の結果が前記シーン毎に記憶される
（１１）に記載の情報処理装置。
（１７）
前記情報処理装置と通信可能なサーバ装置に前記学習の結果が記憶される
（１６）に記載の情報処理装置。
（１８）
前記学習の結果を使用した判定を行う判定部を有する
（１６）に記載の情報処理装置。
（１９）
前記所定の入力を受け付ける入力部と、
前記画像データを取得する撮像部と
を有する
（２）から（１９）までの何れかに記載の情報処理装置。
（２０）
データを取得し、所定の入力に応じて前記データの少なくとも一部の範囲のデータを抽出し、学習部が、前記少なくとも一部の範囲のデータに基づいて学習を行う情報処理方法。
（２１）
データを取得し、所定の入力に応じて前記データの少なくとも一部の範囲のデータを抽出し、学習部が、前記少なくとも一部の範囲のデータに基づいて学習を行う情報処理方法をコンピュータに実行させるプログラム。

＜応用例＞
本開示に係る技術は、様々な製品へ応用することができる。例えば、本開示に係る技術は、手術室システムに適用されてもよい。

図１６は、本開示に係る技術が適用され得る手術室システム５１００の全体構成を概略的に示す図である。図１６を参照すると、手術室システム５１００は、手術室内に設置される装置群が視聴覚コントローラ（AV Controller）５１０７及び手術室制御装置５１０９を介して互いに連携可能に接続されることにより構成される。

手術室には、様々な装置が設置され得る。図１６では、一例として、内視鏡下手術のための各種の装置群５１０１と、手術室の天井に設けられ術者の手元を撮像するシーリングカメラ５１８７と、手術室の天井に設けられ手術室全体の様子を撮像する術場カメラ５１８９と、複数の表示装置５１０３Ａ～５１０３Ｄと、レコーダ５１０５と、患者ベッド５１８３と、照明５１９１と、を図示している。

ここで、これらの装置のうち、装置群５１０１は、後述する内視鏡手術システム５１１３に属するものであり、内視鏡や当該内視鏡によって撮像された画像を表示する表示装置等からなる。内視鏡手術システム５１１３に属する各装置は医療用機器とも呼称される。一方、表示装置５１０３Ａ～５１０３Ｄ、レコーダ５１０５、患者ベッド５１８３及び照明５１９１は、内視鏡手術システム５１１３とは別個に、例えば手術室に備え付けられている装置である。これらの内視鏡手術システム５１１３に属さない各装置は非医療用機器とも呼称される。視聴覚コントローラ５１０７及び／又は手術室制御装置５１０９は、これら医療機器及び非医療機器の動作を互いに連携して制御する。

視聴覚コントローラ５１０７は、医療機器及び非医療機器における画像表示に関する処理を、統括的に制御する。具体的には、手術室システム５１００が備える装置のうち、装置群５１０１、シーリングカメラ５１８７及び術場カメラ５１８９は、手術中に表示すべき情報（以下、表示情報ともいう）を発信する機能を有する装置（以下、発信元の装置とも呼称する）であり得る。また、表示装置５１０３Ａ～５１０３Ｄは、表示情報が出力される装置（以下、出力先の装置とも呼称する）であり得る。また、レコーダ５１０５は、発信元の装置及び出力先の装置の双方に該当する装置であり得る。視聴覚コントローラ５１０７は、発信元の装置及び出力先の装置の動作を制御し、発信元の装置から表示情報を取得するとともに、当該表示情報を出力先の装置に送信し、表示又は記録させる機能を有する。なお、表示情報とは、手術中に撮像された各種の画像や、手術に関する各種の情報（例えば、患者の身体情報や、過去の検査結果、術式についての情報等）等である。

具体的には、視聴覚コントローラ５１０７には、装置群５１０１から、表示情報として、内視鏡によって撮像された患者の体腔内の術部の画像についての情報が送信され得る。また、シーリングカメラ５１８７から、表示情報として、当該シーリングカメラ５１８７によって撮像された術者の手元の画像についての情報が送信され得る。また、術場カメラ５１８９から、表示情報として、当該術場カメラ５１８９によって撮像された手術室全体の様子を示す画像についての情報が送信され得る。なお、手術室システム５１００に撮像機能を有する他の装置が存在する場合には、視聴覚コントローラ５１０７は、表示情報として、当該他の装置からも当該他の装置によって撮像された画像についての情報を取得してもよい。

あるいは、例えば、レコーダ５１０５には、過去に撮像されたこれらの画像についての情報が視聴覚コントローラ５１０７によって記録されている。視聴覚コントローラ５１０７は、表示情報として、レコーダ５１０５から当該過去に撮像された画像についての情報を取得することができる。なお、レコーダ５１０５には、手術に関する各種の情報も事前に記録されていてもよい。

視聴覚コントローラ５１０７は、出力先の装置である表示装置５１０３Ａ～５１０３Ｄの少なくともいずれかに、取得した表示情報（すなわち、手術中に撮影された画像や、手術に関する各種の情報）を表示させる。図示する例では、表示装置５１０３Ａは手術室の天井から吊り下げられて設置される表示装置であり、表示装置５１０３Ｂは手術室の壁面に設置される表示装置であり、表示装置５１０３Ｃは手術室内の机上に設置される表示装置であり、表示装置５１０３Ｄは表示機能を有するモバイル機器（例えば、タブレットＰＣ（Personal Computer））である。

また、図１６では図示を省略しているが、手術室システム５１００には、手術室の外部の装置が含まれてもよい。手術室の外部の装置は、例えば、病院内外に構築されたネットワークに接続されるサーバや、医療スタッフが用いるＰＣ、病院の会議室に設置されるプロジェクタ等であり得る。このような外部装置が病院外にある場合には、視聴覚コントローラ５１０７は、遠隔医療のために、テレビ会議システム等を介して、他の病院の表示装置に表示情報を表示させることもできる。

手術室制御装置５１０９は、非医療機器における画像表示に関する処理以外の処理を、統括的に制御する。例えば、手術室制御装置５１０９は、患者ベッド５１８３、シーリングカメラ５１８７、術場カメラ５１８９及び照明５１９１の駆動を制御する。

手術室システム５１００には、集中操作パネル５１１１が設けられており、ユーザは、当該集中操作パネル５１１１を介して、視聴覚コントローラ５１０７に対して画像表示についての指示を与えたり、手術室制御装置５１０９に対して非医療機器の動作についての指示を与えることができる。集中操作パネル５１１１は、表示装置の表示面上にタッチパネルが設けられて構成される。

図１７は、集中操作パネル５１１１における操作画面の表示例を示す図である。図１７では、一例として、手術室システム５１００に、出力先の装置として、２つの表示装置が設けられている場合に対応する操作画面を示している。図１７を参照すると、操作画面５１９３には、発信元選択領域５１９５と、プレビュー領域５１９７と、コントロール領域５２０１と、が設けられる。

発信元選択領域５１９５には、手術室システム５１００に備えられる発信元装置と、当該発信元装置が有する表示情報を表すサムネイル画面と、が紐付けられて表示される。ユーザは、表示装置に表示させたい表示情報を、発信元選択領域５１９５に表示されているいずれかの発信元装置から選択することができる。

プレビュー領域５１９７には、出力先の装置である２つの表示装置（Monitor1、Monitor2）に表示される画面のプレビューが表示される。図示する例では、１つの表示装置において４つの画像がＰｉｎＰ表示されている。当該４つの画像は、発信元選択領域５１９５において選択された発信元装置から発信された表示情報に対応するものである。４つの画像のうち、１つはメイン画像として比較的大きく表示され、残りの３つはサブ画像として比較的小さく表示される。ユーザは、４つの画像が表示された領域を適宜選択することにより、メイン画像とサブ画像を入れ替えることができる。また、４つの画像が表示される領域の下部には、ステータス表示領域５１９９が設けられており、当該領域に手術に関するステータス（例えば、手術の経過時間や、患者の身体情報等）が適宜表示され得る。

コントロール領域５２０１には、発信元の装置に対して操作を行うためのＧＵＩ（Graphical User Interface）部品が表示される発信元操作領域５２０３と、出力先の装置に対して操作を行うためのＧＵＩ部品が表示される出力先操作領域５２０５と、が設けられる。図示する例では、発信元操作領域５２０３には、撮像機能を有する発信元の装置におけるカメラに対して各種の操作（パン、チルト及びズーム）を行うためのＧＵＩ部品が設けられている。ユーザは、これらのＧＵＩ部品を適宜選択することにより、発信元の装置におけるカメラの動作を操作することができる。なお、図示は省略しているが、発信元選択領域５１９５において選択されている発信元の装置がレコーダである場合（すなわち、プレビュー領域５１９７において、レコーダに過去に記録された画像が表示されている場合）には、発信元操作領域５２０３には、当該画像の再生、再生停止、巻き戻し、早送り等の操作を行うためのＧＵＩ部品が設けられ得る。

また、出力先操作領域５２０５には、出力先の装置である表示装置における表示に対する各種の操作（スワップ、フリップ、色調整、コントラスト調整、２Ｄ表示と３Ｄ表示の切り替え）を行うためのＧＵＩ部品が設けられている。ユーザは、これらのＧＵＩ部品を適宜選択することにより、表示装置における表示を操作することができる。

なお、集中操作パネル５１１１に表示される操作画面は図示する例に限定されず、ユーザは、集中操作パネル５１１１を介して、手術室システム５１００に備えられる、視聴覚コントローラ５１０７及び手術室制御装置５１０９によって制御され得る各装置に対する操作入力が可能であってよい。

図１８は、以上説明した手術室システムが適用された手術の様子の一例を示す図である。シーリングカメラ５１８７及び術場カメラ５１８９は、手術室の天井に設けられ、患者ベッド５１８３上の患者５１８５の患部に対して処置を行う術者（医者）５１８１の手元及び手術室全体の様子を撮影可能である。シーリングカメラ５１８７及び術場カメラ５１８９には、倍率調整機能、焦点距離調整機能、撮影方向調整機能等が設けられ得る。照明５１９１は、手術室の天井に設けられ、少なくとも術者５１８１の手元を照射する。照明５１９１は、その照射光量、照射光の波長（色）及び光の照射方向等を適宜調整可能であってよい。

内視鏡手術システム５１１３、患者ベッド５１８３、シーリングカメラ５１８７、術場カメラ５１８９及び照明５１９１は、図１６に示すように、視聴覚コントローラ５１０７及び手術室制御装置５１０９（図１８では図示せず）を介して互いに連携可能に接続されている。手術室内には、集中操作パネル５１１１が設けられており、上述したように、ユーザは、当該集中操作パネル５１１１を介して、手術室内に存在するこれらの装置を適宜操作することが可能である。

以下、内視鏡手術システム５１１３の構成について詳細に説明する。図示するように、内視鏡手術システム５１１３は、内視鏡５１１５と、その他の術具５１３１と、内視鏡５１１５を支持する支持アーム装置５１４１と、内視鏡下手術のための各種の装置が搭載されたカート５１５１と、から構成される。

内視鏡手術では、腹壁を切って開腹する代わりに、トロッカ５１３９ａ～５１３９ｄと呼ばれる筒状の開孔器具が腹壁に複数穿刺される。そして、トロッカ５１３９ａ～５１３９ｄから、内視鏡５１１５の鏡筒５１１７や、その他の術具５１３１が患者５１８５の体腔内に挿入される。図示する例では、その他の術具５１３１として、気腹チューブ５１３３、エネルギー処置具５１３５及び鉗子５１３７が、患者５１８５の体腔内に挿入されている。また、エネルギー処置具５１３５は、高周波電流や超音波振動により、組織の切開及び剥離、又は血管の封止等を行う処置具である。ただし、図示する術具５１３１はあくまで一例であり、術具５１３１としては、例えば攝子、レトラクタ等、一般的に内視鏡下手術において用いられる各種の術具が用いられてよい。

内視鏡５１１５によって撮影された患者５１８５の体腔内の術部の画像が、表示装置５１５５に表示される。術者５１８１は、表示装置５１５５に表示された術部の画像をリアルタイムで見ながら、エネルギー処置具５１３５や鉗子５１３７を用いて、例えば患部を切除する等の処置を行う。なお、図示は省略しているが、気腹チューブ５１３３、エネルギー処置具５１３５及び鉗子５１３７は、手術中に、術者５１８１又は助手等によって支持される。

（支持アーム装置）
支持アーム装置５１４１は、ベース部５１４３から延伸するアーム部５１４５を備える。図示する例では、アーム部５１４５は、関節部５１４７ａ、５１４７ｂ、５１４７ｃ、及びリンク５１４９ａ、５１４９ｂから構成されており、アーム制御装置５１５９からの制御により駆動される。アーム部５１４５によって内視鏡５１１５が支持され、その位置及び姿勢が制御される。これにより、内視鏡５１１５の安定的な位置の固定が実現され得る。

（内視鏡）
内視鏡５１１５は、先端から所定の長さの領域が患者５１８５の体腔内に挿入される鏡筒５１１７と、鏡筒５１１７の基端に接続されるカメラヘッド５１１９と、から構成される。図示する例では、硬性の鏡筒５１１７を有するいわゆる硬性鏡として構成される内視鏡５１１５を図示しているが、内視鏡５１１５は、軟性の鏡筒５１１７を有するいわゆる軟性鏡として構成されてもよい。

鏡筒５１１７の先端には、対物レンズが嵌め込まれた開口部が設けられている。内視鏡５１１５には光源装置５１５７が接続されており、当該光源装置５１５７によって生成された光が、鏡筒５１１７の内部に延設されるライトガイドによって当該鏡筒の先端まで導光され、対物レンズを介して患者５１８５の体腔内の観察対象に向かって照射される。なお、内視鏡５１１５は、直視鏡であってもよいし、斜視鏡又は側視鏡であってもよい。

カメラヘッド５１１９の内部には光学系及び撮像素子が設けられており、観察対象からの反射光（観察光）は当該光学系によって当該撮像素子に集光される。当該撮像素子によって観察光が光電変換され、観察光に対応する電気信号、すなわち観察像に対応する画像信号が生成される。当該画像信号は、ＲＡＷデータとしてカメラコントロールユニット（ＣＣＵ：Camera Control Unit）５１５３に送信される。なお、カメラヘッド５１１９には、その光学系を適宜駆動させることにより、倍率及び焦点距離を調整する機能が搭載される。

なお、例えば立体視（３Ｄ表示）等に対応するために、カメラヘッド５１１９には撮像素子が複数設けられてもよい。この場合、鏡筒５１１７の内部には、当該複数の撮像素子のそれぞれに観察光を導光するために、リレー光学系が複数系統設けられる。

（カートに搭載される各種の装置）
ＣＣＵ５１５３は、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等によって構成され、内視鏡５１１５及び表示装置５１５５の動作を統括的に制御する。具体的には、ＣＣＵ５１５３は、カメラヘッド５１１９から受け取った画像信号に対して、例えば現像処理（デモザイク処理）等の、当該画像信号に基づく画像を表示するための各種の画像処理を施す。ＣＣＵ５１５３は、当該画像処理を施した画像信号を表示装置５１５５に提供する。また、ＣＣＵ５１５３には、図１６に示す視聴覚コントローラ５１０７が接続される。ＣＣＵ５１５３は、画像処理を施した画像信号を視聴覚コントローラ５１０７にも提供する。また、ＣＣＵ５１５３は、カメラヘッド５１１９に対して制御信号を送信し、その駆動を制御する。当該制御信号には、倍率や焦点距離等、撮像条件に関する情報が含まれ得る。当該撮像条件に関する情報は、入力装置５１６１を介して入力されてもよいし、上述した集中操作パネル５１１１を介して入力されてもよい。

表示装置５１５５は、ＣＣＵ５１５３からの制御により、当該ＣＣＵ５１５３によって画像処理が施された画像信号に基づく画像を表示する。内視鏡５１１５が例えば４Ｋ（水平画素数３８４０×垂直画素数２１６０）又は８Ｋ（水平画素数７６８０×垂直画素数４３２０）等の高解像度の撮影に対応したものである場合、及び／又は３Ｄ表示に対応したものである場合には、表示装置５１５５としては、それぞれに対応して、高解像度の表示が可能なもの、及び／又は３Ｄ表示可能なものが用いられ得る。４Ｋ又は８Ｋ等の高解像度の撮影に対応したものである場合、表示装置５１５５として５５インチ以上のサイズのものを用いることで一層の没入感が得られる。また、用途に応じて、解像度、サイズが異なる複数の表示装置５１５５が設けられてもよい。

光源装置５１５７は、例えばＬＥＤ（light emitting diode）等の光源から構成され、術部を撮影する際の照射光を内視鏡５１１５に供給する。

アーム制御装置５１５９は、例えばＣＰＵ等のプロセッサによって構成され、所定のプログラムに従って動作することにより、所定の制御方式に従って支持アーム装置５１４１のアーム部５１４５の駆動を制御する。

入力装置５１６１は、内視鏡手術システム５１１３に対する入力インタフェースである。ユーザは、入力装置５１６１を介して、内視鏡手術システム５１１３に対して各種の情報の入力や指示入力を行うことができる。例えば、ユーザは、入力装置５１６１を介して、患者の身体情報や、手術の術式についての情報等、手術に関する各種の情報を入力する。また、例えば、ユーザは、入力装置５１６１を介して、アーム部５１４５を駆動させる旨の指示や、内視鏡５１１５による撮像条件（照射光の種類、倍率及び焦点距離等）を変更する旨の指示、エネルギー処置具５１３５を駆動させる旨の指示等を入力する。

入力装置５１６１の種類は限定されず、入力装置５１６１は各種の公知の入力装置であってよい。入力装置５１６１としては、例えば、マウス、キーボード、タッチパネル、スイッチ、フットスイッチ５１７１及び／又はレバー等が適用され得る。入力装置５１６１としてタッチパネルが用いられる場合には、当該タッチパネルは表示装置５１５５の表示面上に設けられてもよい。

あるいは、入力装置５１６１は、例えばメガネ型のウェアラブルデバイスやＨＭＤ（Head Mounted Display）等の、ユーザによって装着されるデバイスであり、これらのデバイスによって検出されるユーザのジェスチャや視線に応じて各種の入力が行われる。また、入力装置５１６１は、ユーザの動きを検出可能なカメラを含み、当該カメラによって撮像された映像から検出されるユーザのジェスチャや視線に応じて各種の入力が行われる。更に、入力装置５１６１は、ユーザの声を収音可能なマイクロフォンを含み、当該マイクロフォンを介して音声によって各種の入力が行われる。このように、入力装置５１６１が非接触で各種の情報を入力可能に構成されることにより、特に清潔域に属するユーザ（例えば術者５１８１）が、不潔域に属する機器を非接触で操作することが可能となる。また、ユーザは、所持している術具から手を離すことなく機器を操作することが可能となるため、ユーザの利便性が向上する。

処置具制御装置５１６３は、組織の焼灼、切開又は血管の封止等のためのエネルギー処置具５１３５の駆動を制御する。気腹装置５１６５は、内視鏡５１１５による視野の確保及び術者の作業空間の確保の目的で、患者５１８５の体腔を膨らめるために、気腹チューブ５１３３を介して当該体腔内にガスを送り込む。レコーダ５１６７は、手術に関する各種の情報を記録可能な装置である。プリンタ５１６９は、手術に関する各種の情報を、テキスト、画像又はグラフ等各種の形式で印刷可能な装置である。

以下、内視鏡手術システム５１１３において特に特徴的な構成について、更に詳細に説明する。

（支持アーム装置）
支持アーム装置５１４１は、基台であるベース部５１４３と、ベース部５１４３から延伸するアーム部５１４５と、を備える。図示する例では、アーム部５１４５は、複数の関節部５１４７ａ、５１４７ｂ、５１４７ｃと、関節部５１４７ｂによって連結される複数のリンク５１４９ａ、５１４９ｂと、から構成されているが、図１８では、簡単のため、アーム部５１４５の構成を簡略化して図示している。実際には、アーム部５１４５が所望の自由度を有するように、関節部５１４７ａ～５１４７ｃ及びリンク５１４９ａ、５１４９ｂの形状、数及び配置、並びに関節部５１４７ａ～５１４７ｃの回転軸の方向等が適宜設定され得る。例えば、アーム部５１４５は、好適に、６自由度以上の自由度を有するように構成され得る。これにより、アーム部５１４５の可動範囲内において内視鏡５１１５を自由に移動させることが可能になるため、所望の方向から内視鏡５１１５の鏡筒５１１７を患者５１８５の体腔内に挿入することが可能になる。

関節部５１４７ａ～５１４７ｃにはアクチュエータが設けられており、関節部５１４７ａ～５１４７ｃは当該アクチュエータの駆動により所定の回転軸まわりに回転可能に構成されている。当該アクチュエータの駆動がアーム制御装置５１５９によって制御されることにより、各関節部５１４７ａ～５１４７ｃの回転角度が制御され、アーム部５１４５の駆動が制御される。これにより、内視鏡５１１５の位置及び姿勢の制御が実現され得る。この際、アーム制御装置５１５９は、力制御又は位置制御等、各種の公知の制御方式によってアーム部５１４５の駆動を制御することができる。

例えば、術者５１８１が、入力装置５１６１（フットスイッチ５１７１を含む）を介して適宜操作入力を行うことにより、当該操作入力に応じてアーム制御装置５１５９によってアーム部５１４５の駆動が適宜制御され、内視鏡５１１５の位置及び姿勢が制御されてよい。当該制御により、アーム部５１４５の先端の内視鏡５１１５を任意の位置から任意の位置まで移動させた後、その移動後の位置で固定的に支持することができる。なお、アーム部５１４５は、いわゆるマスタースレイブ方式で操作されてもよい。この場合、アーム部５１４５は、手術室から離れた場所に設置される入力装置５１６１を介してユーザによって遠隔操作され得る。

また、力制御が適用される場合には、アーム制御装置５１５９は、ユーザからの外力を受け、その外力にならってスムーズにアーム部５１４５が移動するように、各関節部５１４７ａ～５１４７ｃのアクチュエータを駆動させる、いわゆるパワーアシスト制御を行ってもよい。これにより、ユーザが直接アーム部５１４５に触れながらアーム部５１４５を移動させる際に、比較的軽い力で当該アーム部５１４５を移動させることができる。従って、より直感的に、より簡易な操作で内視鏡５１１５を移動させることが可能となり、ユーザの利便性を向上させることができる。

ここで、一般的に、内視鏡下手術では、スコピストと呼ばれる医師によって内視鏡５１１５が支持されていた。これに対して、支持アーム装置５１４１を用いることにより、人手によらずに内視鏡５１１５の位置をより確実に固定することが可能になるため、術部の画像を安定的に得ることができ、手術を円滑に行うことが可能になる。

なお、アーム制御装置５１５９は必ずしもカート５１５１に設けられなくてもよい。また、アーム制御装置５１５９は必ずしも１つの装置でなくてもよい。例えば、アーム制御装置５１５９は、支持アーム装置５１４１のアーム部５１４５の各関節部５１４７ａ～５１４７ｃにそれぞれ設けられてもよく、複数のアーム制御装置５１５９が互いに協働することにより、アーム部５１４５の駆動制御が実現されてもよい。

（光源装置）
光源装置５１５７は、内視鏡５１１５に術部を撮影する際の照射光を供給する。光源装置５１５７は、例えばＬＥＤ、レーザ光源又はこれらの組み合わせによって構成される白色光源から構成される。このとき、ＲＧＢレーザ光源の組み合わせにより白色光源が構成される場合には、各色（各波長）の出力強度及び出力タイミングを高精度に制御することができるため、光源装置５１５７において撮像画像のホワイトバランスの調整を行うことができる。また、この場合には、ＲＧＢレーザ光源それぞれからのレーザ光を時分割で観察対象に照射し、その照射タイミングに同期してカメラヘッド５１１９の撮像素子の駆動を制御することにより、ＲＧＢそれぞれに対応した画像を時分割で撮像することも可能である。当該方法によれば、当該撮像素子にカラーフィルタを設けなくても、カラー画像を得ることができる。

また、光源装置５１５７は、出力する光の強度を所定の時間ごとに変更するようにその駆動が制御されてもよい。その光の強度の変更のタイミングに同期してカメラヘッド５１１９の撮像素子の駆動を制御して時分割で画像を取得し、その画像を合成することにより、いわゆる黒つぶれ及び白とびのない高ダイナミックレンジの画像を生成することができる。

また、光源装置５１５７は、特殊光観察に対応した所定の波長帯域の光を供給可能に構成されてもよい。特殊光観察では、例えば、体組織における光の吸収の波長依存性を利用して、通常の観察時における照射光（すなわち、白色光）に比べて狭帯域の光を照射することにより、粘膜表層の血管等の所定の組織を高コントラストで撮影する、いわゆる狭帯域光観察（Narrow Band Imaging）が行われる。あるいは、特殊光観察では、励起光を照射することにより発生する蛍光により画像を得る蛍光観察が行われてもよい。蛍光観察では、体組織に励起光を照射し当該体組織からの蛍光を観察するもの（自家蛍光観察）、又はインドシアニングリーン（ICG）等の試薬を体組織に局注するとともに当該体組織にその試薬の蛍光波長に対応した励起光を照射し蛍光像を得るもの等が行われ得る。光源装置５１５７は、このような特殊光観察に対応した狭帯域光及び／又は励起光を供給可能に構成され得る。

（カメラヘッド及びＣＣＵ）
図１９を参照して、内視鏡５１１５のカメラヘッド５１１９及びＣＣＵ５１５３の機能についてより詳細に説明する。図１９は、図１８に示すカメラヘッド５１１９及びＣＣＵ５１５３の機能構成の一例を示すブロック図である。

図１９を参照すると、カメラヘッド５１１９は、その機能として、レンズユニット５１２１と、撮像部５１２３と、駆動部５１２５と、通信部５１２７と、カメラヘッド制御部５１２９と、を有する。また、ＣＣＵ５１５３は、その機能として、通信部５１７３と、画像処理部５１７５と、制御部５１７７と、を有する。カメラヘッド５１１９とＣＣＵ５１５３とは、伝送ケーブル５１７９によって双方向に通信可能に接続されている。

まず、カメラヘッド５１１９の機能構成について説明する。レンズユニット５１２１は、鏡筒５１１７との接続部に設けられる光学系である。鏡筒５１１７の先端から取り込まれた観察光は、カメラヘッド５１１９まで導光され、当該レンズユニット５１２１に入射する。レンズユニット５１２１は、ズームレンズ及びフォーカスレンズを含む複数のレンズが組み合わされて構成される。レンズユニット５１２１は、撮像部５１２３の撮像素子の受光面上に観察光を集光するように、その光学特性が調整されている。また、ズームレンズ及びフォーカスレンズは、撮像画像の倍率及び焦点の調整のため、その光軸上の位置が移動可能に構成される。

撮像部５１２３は撮像素子によって構成され、レンズユニット５１２１の後段に配置される。レンズユニット５１２１を通過した観察光は、当該撮像素子の受光面に集光され、光電変換によって、観察像に対応した画像信号が生成される。撮像部５１２３によって生成された画像信号は、通信部５１２７に提供される。

撮像部５１２３を構成する撮像素子としては、例えばＣＭＯＳ（Complementary Metal Oxide Semiconductor）タイプのイメージセンサであり、Ｂａｙｅｒ配列を有するカラー撮影可能なものが用いられる。なお、当該撮像素子としては、例えば４Ｋ以上の高解像度の画像の撮影に対応可能なものが用いられてもよい。術部の画像が高解像度で得られることにより、術者５１８１は、当該術部の様子をより詳細に把握することができ、手術をより円滑に進行することが可能となる。

また、撮像部５１２３を構成する撮像素子は、３Ｄ表示に対応する右目用及び左目用の画像信号をそれぞれ取得するための１対の撮像素子を有するように構成される。３Ｄ表示が行われることにより、術者５１８１は術部における生体組織の奥行きをより正確に把握することが可能になる。なお、撮像部５１２３が多板式で構成される場合には、各撮像素子に対応して、レンズユニット５１２１も複数系統設けられる。

また、撮像部５１２３は、必ずしもカメラヘッド５１１９に設けられなくてもよい。例えば、撮像部５１２３は、鏡筒５１１７の内部に、対物レンズの直後に設けられてもよい。

駆動部５１２５は、アクチュエータによって構成され、カメラヘッド制御部５１２９からの制御により、レンズユニット５１２１のズームレンズ及びフォーカスレンズを光軸に沿って所定の距離だけ移動させる。これにより、撮像部５１２３による撮像画像の倍率及び焦点が適宜調整され得る。

通信部５１２７は、ＣＣＵ５１５３との間で各種の情報を送受信するための通信装置によって構成される。通信部５１２７は、撮像部５１２３から得た画像信号をＲＡＷデータとして伝送ケーブル５１７９を介してＣＣＵ５１５３に送信する。この際、術部の撮像画像を低レイテンシで表示するために、当該画像信号は光通信によって送信されることが好ましい。手術の際には、術者５１８１が撮像画像によって患部の状態を観察しながら手術を行うため、より安全で確実な手術のためには、術部の動画像が可能な限りリアルタイムに表示されることが求められるからである。光通信が行われる場合には、通信部５１２７には、電気信号を光信号に変換する光電変換モジュールが設けられる。画像信号は当該光電変換モジュールによって光信号に変換された後、伝送ケーブル５１７９を介してＣＣＵ５１５３に送信される。

また、通信部５１２７は、ＣＣＵ５１５３から、カメラヘッド５１１９の駆動を制御するための制御信号を受信する。当該制御信号には、例えば、撮像画像のフレームレートを指定する旨の情報、撮像時の露出値を指定する旨の情報、並びに／又は撮像画像の倍率及び焦点を指定する旨の情報等、撮像条件に関する情報が含まれる。通信部５１２７は、受信した制御信号をカメラヘッド制御部５１２９に提供する。なお、ＣＣＵ５１５３からの制御信号も、光通信によって伝送されてもよい。この場合、通信部５１２７には、光信号を電気信号に変換する光電変換モジュールが設けられ、制御信号は当該光電変換モジュールによって電気信号に変換された後、カメラヘッド制御部５１２９に提供される。

なお、上記のフレームレートや露出値、倍率、焦点等の撮像条件は、取得された画像信号に基づいてＣＣＵ５１５３の制御部５１７７によって自動的に設定される。つまり、いわゆるＡＥ（Auto Exposure）機能、ＡＦ（Auto Focus）機能及びＡＷＢ（Auto White Balance）機能が内視鏡５１１５に搭載される。

カメラヘッド制御部５１２９は、通信部５１２７を介して受信したＣＣＵ５１５３からの制御信号に基づいて、カメラヘッド５１１９の駆動を制御する。例えば、カメラヘッド制御部５１２９は、撮像画像のフレームレートを指定する旨の情報及び／又は撮像時の露光を指定する旨の情報に基づいて、撮像部５１２３の撮像素子の駆動を制御する。また、例えば、カメラヘッド制御部５１２９は、撮像画像の倍率及び焦点を指定する旨の情報に基づいて、駆動部５１２５を介してレンズユニット５１２１のズームレンズ及びフォーカスレンズを適宜移動させる。カメラヘッド制御部５１２９は、更に、鏡筒５１１７やカメラヘッド５１１９を識別するための情報を記憶する機能を備えてもよい。

なお、レンズユニット５１２１や撮像部５１２３等の構成を、気密性及び防水性が高い密閉構造内に配置することで、カメラヘッド５１１９について、オートクレーブ滅菌処理に対する耐性を持たせることができる。

次に、ＣＣＵ５１５３の機能構成について説明する。通信部５１７３は、カメラヘッド５１１９との間で各種の情報を送受信するための通信装置によって構成される。通信部５１７３は、カメラヘッド５１１９から、伝送ケーブル５１７９を介して送信される画像信号を受信する。この際、上記のように、当該画像信号は好適に光通信によって送信され得る。この場合、光通信に対応して、通信部５１７３には、光信号を電気信号に変換する光電変換モジュールが設けられる。通信部５１７３は、電気信号に変換した画像信号を画像処理部５１７５に提供する。

また、通信部５１７３は、カメラヘッド５１１９に対して、カメラヘッド５１１９の駆動を制御するための制御信号を送信する。当該制御信号も光通信によって送信されてよい。

画像処理部５１７５は、カメラヘッド５１１９から送信されたＲＡＷデータである画像信号に対して各種の画像処理を施す。当該画像処理としては、例えば現像処理、高画質化処理（帯域強調処理、超解像処理、ＮＲ（Noise reduction）処理及び／又は手ブレ補正処理等）、並びに／又は拡大処理（電子ズーム処理）等、各種の公知の信号処理が含まれる。また、画像処理部５１７５は、ＡＥ、ＡＦ及びＡＷＢを行うための、画像信号に対する検波処理を行う。

画像処理部５１７５は、ＣＰＵやＧＰＵ等のプロセッサによって構成され、当該プロセッサが所定のプログラムに従って動作することにより、上述した画像処理や検波処理が行われ得る。なお、画像処理部５１７５が複数のＧＰＵによって構成される場合には、画像処理部５１７５は、画像信号に係る情報を適宜分割し、これら複数のＧＰＵによって並列的に画像処理を行う。

制御部５１７７は、内視鏡５１１５による術部の撮像、及びその撮像画像の表示に関する各種の制御を行う。例えば、制御部５１７７は、カメラヘッド５１１９の駆動を制御するための制御信号を生成する。この際、撮像条件がユーザによって入力されている場合には、制御部５１７７は、当該ユーザによる入力に基づいて制御信号を生成する。あるいは、内視鏡５１１５にＡＥ機能、ＡＦ機能及びＡＷＢ機能が搭載されている場合には、制御部５１７７は、画像処理部５１７５による検波処理の結果に応じて、最適な露出値、焦点距離及びホワイトバランスを適宜算出し、制御信号を生成する。

また、制御部５１７７は、画像処理部５１７５によって画像処理が施された画像信号に基づいて、術部の画像を表示装置５１５５に表示させる。この際、制御部５１７７は、各種の画像認識技術を用いて術部画像内における各種の物体を認識する。例えば、制御部５１７７は、術部画像に含まれる物体のエッジの形状や色等を検出することにより、鉗子等の術具、特定の生体部位、出血、エネルギー処置具５１３５使用時のミスト等を認識することができる。制御部５１７７は、表示装置５１５５に術部の画像を表示させる際に、その認識結果を用いて、各種の手術支援情報を当該術部の画像に重畳表示させる。手術支援情報が重畳表示され、術者５１８１に提示されることにより、より安全かつ確実に手術を進めることが可能になる。

カメラヘッド５１１９及びＣＣＵ５１５３を接続する伝送ケーブル５１７９は、電気信号の通信に対応した電気信号ケーブル、光通信に対応した光ファイバ、又はこれらの複合ケーブルである。

ここで、図示する例では、伝送ケーブル５１７９を用いて有線で通信が行われていたが、カメラヘッド５１１９とＣＣＵ５１５３との間の通信は無線で行われてもよい。両者の間の通信が無線で行われる場合には、伝送ケーブル５１７９を手術室内に敷設する必要がなくなるため、手術室内における医療スタッフの移動が当該伝送ケーブル５１７９によって妨げられる事態が解消され得る。

以上、本開示に係る技術が適用され得る手術室システム５１００の一例について説明した。なお、ここでは、一例として手術室システム５１００が適用される医療用システムが内視鏡手術システム５１１３である場合について説明したが、手術室システム５１００の構成はかかる例に限定されない。例えば、手術室システム５１００は、内視鏡手術システム５１１３に代えて、検査用軟性内視鏡システムや顕微鏡手術システムに適用されてもよい。

本開示に係る技術は、以上説明した構成のうち、画像処理部５１７５等に好適に適用され得る。上述した手術システムに本開示に係る技術を適用することにより、例えば、録画した手術映像の編集で、適切な画角で画像を切り出すことが可能となる。また、術中の撮影時に鉗子等の重要な道具が常に見えるように画角等の撮影状況を学習することができ、学習の結果を利用して術中の撮影を自動化することが可能となる。

１・・・撮像装置、２・・・カメラコントロールユニット、３・・・自動撮影コントローラ、１１・・・撮像部、２２・・・カメラ信号処理部、３２・・・顔認識処理部、３３・・・処理部、３３Ａ・・・学習部、３３Ｂ・・・画角判定処理部、３４・・・閾値判定処理部、３６・・・操作入力部、５３Ａ，５３Ｂ・・・学習ボタン、１００，１００Ａ・・・情報処理システム

Claims

所定の入力に応じて取得された画像データの少なくとも一部の範囲の画像データが抽出され、抽出された前記少なくとも一部の範囲の画像データに基づいて学習を行う学習部と、
前記画像データに対する所定の処理を行い、前記所定の処理の結果に基づいて、前記画像データを再構成した学習対象画像データを生成する学習対象画像データ生成部と、を有し、
前記所定の入力は、撮影開始を指示する入力であり、
前記学習部は、前記所定の入力に応じて学習を開始し、
前記学習部は、前記学習対象画像データに基づいて学習を行う
情報処理装置。
前記学習対象画像データは、前記所定の処理によって検出された特徴を記号化した画像データである
請求項１に記載の情報処理装置。
前記所定の処理は顔認識処理であり、前記学習対象画像データは、前記顔認識処理で得られた顔領域とその他の領域とを区別した画像データである
請求項１に記載の情報処理装置。
前記所定の処理は姿勢検出処理であり、前記学習対象画像データは、前記姿勢検出処理で得られた特徴点の領域とその他の領域とを区別した画像データである
請求項１に記載の情報処理装置。
前記学習の結果に基づく学習モデルに対応する情報が表示される
請求項１に記載の情報処理装置。
前記学習部は、シーンと、撮影条件及び編集条件の少なくとも一方との対応関係を、シーン毎に学習する
請求項１に記載の情報処理装置。
前記シーンは、ユーザにより指定されたシーンである
請求項６に記載の情報処理装置。
前記シーンは、画角に対応した撮影範囲における人物の位置に対応したシーンである
請求項６に記載の情報処理装置。
前記撮影条件は、撮影中に調整され得る条件である
請求項６に記載の情報処理装置。
前記編集条件は、撮影中又は録画確認中に調整され得る条件である
請求項６に記載の情報処理装置。
前記学習部による学習の結果が前記シーン毎に記憶される
請求項６に記載の情報処理装置。
前記情報処理装置と通信可能なサーバ装置に前記学習の結果が記憶される
請求項１１に記載の情報処理装置。
前記学習の結果を使用した判定を行う判定部を有する
請求項１１に記載の情報処理装置。
前記所定の入力を受け付ける入力部と、
前記画像データを取得する撮像部と
を有する
請求項１に記載の情報処理装置。
所定の入力に応じて取得された画像データの少なくとも一部の範囲の画像データが抽出され、学習部が、抽出された前記少なくとも一部の範囲の画像データに基づいて学習を行い、
学習対象画像データ生成部が、前記画像データに対する所定の処理を行い、前記所定の処理の結果に基づいて、前記画像データを再構成した学習対象画像データを生成し、
前記所定の入力は、撮影開始を指示する入力であり、
前記学習部は、前記所定の入力に応じて学習を開始し、
前記学習部は、前記学習対象画像データに基づいて学習を行う
情報処理方法。
所定の入力に応じて取得された画像データの少なくとも一部の範囲の画像データが抽出され、学習部が、抽出された前記少なくとも一部の範囲の画像データに基づいて学習を行い、
学習対象画像データ生成部が、前記画像データに対する所定の処理を行い、前記所定の処理の結果に基づいて、前記画像データを再構成した学習対象画像データを生成し、
前記所定の入力は、撮影開始を指示する入力であり、
前記学習部は、前記所定の入力に応じて学習を開始し、
前記学習部は、前記学習対象画像データに基づいて学習を行う
情報処理方法をコンピュータに実行させるプログラム。