JP2020174345A

JP2020174345A - 画像を取り込むシステムおよびカメラ機器

Info

Publication number: JP2020174345A
Application number: JP2020041939A
Authority: JP
Inventors: ジョンウィリアムズナイジェル; John Williams Nigel; カッペロファビオ; Cappello Fabio; グプタラジーブ; Gupta Rajeev; ヤコブスブリューゲルマンズマーク; Jacobus Breugelmans Mark
Original assignee: Sony Interactive Entertainment LLC
Current assignee: Sony Interactive Entertainment LLC
Priority date: 2019-03-19
Filing date: 2020-03-11
Publication date: 2020-10-22
Also published as: CN111726518A; GB2584986B; EP3713217B1; US11785328B2; EP3713217A3; GB201903715D0; EP3713217A2; GB2584986A; US20200304707A1

Abstract

【課題】シーン内の被写体に対するカメラの姿勢を調整する画像を取り込むシステムおよびカメラ機器を提供する。【解決手段】システム２００は、シーンの画像を取り込むように動作可能なカメラ２０１と、シーンの画像内の注目物体を識別するように構成された識別ユニット２０２と、カメラ２０１に対するシーン内の注目物体の姿勢を取得するように構成された姿勢プロセッサ２０４と、取得した注目物体の姿勢およびカメラ２０１によって取り込まれた画像の少なくとも一方に基づいて、カメラ２０１によって取り込まれた画像に関連付けられたシーンの品質を判定するように動作可能なシーン解析部２０５とを備える。コントローラ２０７は、現在の姿勢で取り込まれた画像のシーンの品質が閾値未満であるという判定に基づいて、カメラ２０１の姿勢を調整するように構成される。【選択図】図２

Description

本開示は、画像を取り込むシステムおよびカメラ機器に関する。

最近では、写真撮影やビデオ撮影が非常に利用しやすくなっている。市販の携帯カメラ機器の急増により、この状況が少なくとも部分的に加速している。これらの携帯機器は、スマートフォン機器、装着型カメラ、プロ用カメラ、カメラを組み込んだドローンなどとは形態が異なる。

カメラ機器の解像度は向上し続けているが、このようなカメラによって取り込まれる画像の品質は、操作者の技能に大きく依存している。例えば、構図、被写体のオクルージョン、照明、被写界深度などの特性は、通常は操作者がシーン内の被写体に対してカメラを構成する方法に依存する。複雑な地形や複数の動的な被写体を含むシーンの場合、最良の画像を得るためにカメラを位置決めするのは必ずしも容易ではない。

Ｇｏｏｇｌｅ（登録商標）Ｃｌｉｐカメラなどの一部のカメラ機器は、シーン内で発生する注目イベントを自動的に検出して、それらイベントの画像を取り込むように訓練されている。これは確かに有用であるが、この方法で取り込まれた画像の品質は、いまだに、操作者がカメラを向ける場所で主に機能する。さらに、これらの機器は静止している傾向があるため、動的なシーンの範囲に何かしらの制限がある。

注目物体を追跡するカメラ機器は、当技術分野で知られている。例えば、いわゆる「フォローミー機能付き」ドローンは、（例えば、ユーザに関連付けられたＧＰＳ信号またはコンピュータビジョンを使用した）ユーザ位置の検出に基づいて、ユーザを追尾することを可能にする。しかし、通常、これらのドローンはユーザに対する所定の相対位置を維持し、検出された被写体の任意のオクルージョン、または取り込まれた画像の審美的品質の低下には反応しない。

ビデオゲームの中には、ゲーム内環境などの仮想シーンの画像を取り込む仮想カメラを提供するものがある。この仮想カメラの姿勢は通常、プレイヤが制御しているため、取込画像の品質は、仮想カメラに対するプレイヤの制御に依存する。いくつかのゲームでは、例えば上述のドローンの仮想版のように、アバターの身体上のある場所から一定の距離を維持するために、予め構成されたスクリプトパスを使用してカメラの姿勢を制御してもよい。

しかし、一般に、この方法で仮想カメラを配置しても、取り込まれる仮想シーンの最適な画像が常に得られるとは限らない。

本発明は、これらの問題に対処するか、または少なくとも軽減しようとするものである。

本明細書に開示される第１の態様によれば、請求項１に記載のシステムが提供される。

本明細書に開示される第２の態様によれば、請求項１５に記載の機器が提供される。

本開示の理解に役立つように、かつ、実施形態を実施する方法を示すために、添付の図面を一例として参照する。

２つの被写体と、被写体に対して姿勢が異なるカメラとで構成されるシーンの一例を示す図である。シーンの画像を取り込むシステムの一例を概略的に示す図である。

画像を取り込むシステムおよびカメラ機器が開示されている。以下の説明では、本発明の実施形態を完全に理解することができるように、いくつかの具体的詳細が提示されている。しかし、これらの具体的詳細を使用して本発明を実施する必要がないことは、当業者には明らかであろう。逆に、当業者に知られている具体的詳細は、理解しやすいように必要に応じて省略されている。

カメラ操作者は、様々な理由でシーンの画像を取り込みたいと望む場合がある。いくつかの例では、シーンは実際の物理的環境に対応してもよく、ユーザは、当該環境の静止画像もしくはビデオ画像を取り込みたいと望む場合がある。通常、これは、シーン内の１人以上の被写体の画像を取り込むことが目的である。被写体は、例えばシーン内の人物、カメラ操作者自身（例えば自撮りの場合）、シーン内の特定の物体などに対応してもよい。

いくつかの例では、シーンは、ビデオゲームの一部とされる仮想環境などの仮想シーンであってもよく、ユーザは、仮想カメラを使用してゲーム内イベントの静止画像もしくはビデオ画像を取り込みたいと望む場合がある。例えば、プレイヤは、ビデオゲーム内で自身のアバターの画像を取り込みたいと望む場合がある。

図１は、２人の被写体１０２および１０４を含むシーン１００の一例を示している。図１では、被写体は人物に対応しているが、注目する物に対応していてもよい。シーンは、別の物体、この場合は樹木１０６をさらに含む。カメラは、シーン内の被写体に対する第１の位置および方向（つまり姿勢）１０８Ａに示されている。この姿勢でカメラによって取り込まれた画像は、第１の画像１１０Ａとして示される。カメラはまた、シーン内の被写体に対する第２の姿勢１０８Ｂで示されており、その姿勢で取り込まれた対応画像は、第２の画像１１０Ｂとして示されている。シーンは、前述したように、実際の物理的環境または仮想環境に対応してもよい。

図１からわかるように、第１の姿勢１０８Ａでの取込画像は、第２の被写体が樹木によって部分的に遮蔽され、取込画像において被写体の顔がいずれも前方を向いていないため、ほとんどの状況において準最適であると見なされる。カメラの位置を自動的に調整して、少なくとも１人の被写体がシーン内の任意の他の物体によって遮蔽されていない（または、少なくとも許容量だけ遮蔽されていない）シーンの画像を取得できることが望ましい。さらに、この画像が、例えば三分割法などの既知の芸術的原理に準拠した、審美的に美しい構図で取り込むことができることが望ましい。このような画像を取得するシステムを、図２との関連で説明する。

図２は、カメラ２０１の位置を自動的に調整して、シーン内の被写体の画像を取得するシステム２００の一例を概略的に示している。

システム２００は、シーンの画像を取り込むように動作可能なカメラ２０１を備える。カメラ２０１は、例えば、画像センサと、センサに光を合焦する１つ以上のレンズを備える実カメラ２０１に対応してもよい。代替的に、カメラ２０１は仮想カメラ２０１に対応してもよく、この仮想カメラ２０１は、例えばビデオゲームにおいて提供され、プレイヤが仮想シーンの画像を取り込むことを可能にする。

システム２００はまた、カメラ２０１によって取り込まれた画像を受信し、かつシーン内の注目物体を識別するように構成された識別ユニット２０２を備える。識別ユニット２０２は、この識別を実行するためにコンピュータビジョンまたは機械学習技術を使用してもよい。

識別ユニット２０２はまた、取込画像が対応するシーンのタイプを識別するように構成されてもよい。いくつかの例では、この識別を、訓練された機械学習モデル（本明細書ではシーンタイプモデル２０３と呼ぶ）を使用して実行してもよい。シーンタイプモデル２０３は、異なるタイプのシーンを表す高度な特徴を学習するように訓練されてもよい。この訓練は、それぞれのシーン識別子がラベル付けされた（すなわち、教師あり学習）異なるシーンの画像、またはコンテンツの類似性に基づいて異なるシーンのタイプにグループ化された（すなわち、教師なし学習を使用した）ラベル付けされていない画像を使用して達成されてもよい。教師なし学習の場合、開発者は、そのグループ内の画像が代表するシーンのタイプを示す識別子を異なるグループに手動でラベル付けしてもよい。教師あり学習の場合、画像には、例えばシーンのタイプを示すメタデータが事前にラベル付けされてもよい。

高度な特徴は、例えばシーンのタイプに対応するものとして学習された画像の構図、色、強度変化（またはそれらの特徴の表現）に対応してもよい。例えば、いくつかの実施形態では、画像は、ＤｅｎｓｅＮｅｔ、ＲｅｓＮｅｔ、ＭｏｂｉｌｅＮｅｔなどの特徴表現生成部に入力されてもよく、機械学習モデルは、ＤｅｎｓｅＮｅｔ、ＲｅｓＮｅｔ、ＭｏｂｉｌｅＮｅｔなどによって生成された特徴表現に対応する、（シーンのタイプを表す）識別子を学習するように訓練されてもよい。

いくつかの例では、シーン識別子は、訓練に使用される画像にタグ付けされたメタデータに対応してもよい。例えば、Ｉｎｓｔａｇｒａｍ（商標）、Ｆｌｉｃｋｒ（商標）などのウェブサイトでは、ユーザが画像に識別子（例えばハッシュタグ、ジオタグ）をタグ付けして、それらの画像の内容を示すことができるため、シーンタイプモデルが異なるタグに対応する高度な画像特徴を学習することができるように、これらのタグをシーンタイプモデルの訓練に使用することができる。ビデオ映像の場合、例えばＹｏｕＴｕｂｅ（商標）、Ｔｗｉｔｃｈ（商標）などのウェブサイトでは、ユーザがビデオにタグを付けることができるため、これらのサイトのビデオクリップおよび対応するタグを用いてシーンタイプモデルを訓練してもよい。このようにして、シーンタイプモデルは、（特定のタイプのビデオクリップの学習済みの高度な特徴との類似性に基づいて）特定のビデオクリップに関連付けられた識別子を学習することができる。

異なるシーンの高度な特徴が学習されると、訓練されたシーンタイプモデル２０３は、それら任意のシーンのタイプが存在する場合に、現在の画像が最も対応する可能性が高いものを識別してもよい。一般に、取込画像の品質はシーンのタイプに依存するため、カメラ２０１が取り込んでいるシーンのタイプを最初に識別することが有用である。例えば、カメラ２０１の操作者が、例えばシーン内の役者をとらえようとしている場合に、少なくとも１人の役者の顔がシーン内で視認できると、シーンの品質が向上する可能性がある。

シーンタイプモデル２０３が訓練される画像は、カメラ２０１の使用方法、および、カメラ２０１の操作者が、自動的に識別されることを望む可能性のあるシーンのタイプに依存してもよいことが理解されるであろう。例えば、カメラ２０１がシーン内の役者を撮影するために使用される場合、シーンタイプモデル２０３は、映画に関連するフィルム映像、または撮影されるコンテンツに関連する映画のジャンルを用いて訓練されてもよい。カメラ２０１が、スポーツ活動などの多くの動作を含む動的シーンを取り込むために使用される場合、シーンタイプモデル２０３は、このような活動の画像を用いて訓練されてもよい。最終的に、シーンタイプモデル２０３が訓練される程度および性質は、カメラ２０１の使用目的に依存してもよい。

システム２００は、カメラ２０１に対するシーン内の注目物体の姿勢を取得するように構成された姿勢プロセッサ２０４をさらに備える。本明細書では、「物体の姿勢」という用語は、カメラ２０１に対するシーン内の物体の位置および／または方向を説明するために使用される。姿勢プロセッサ２０４は、カメラ２０１に対する物体の姿勢を特定することができるデータを受信するかまたは取り込むように構成されてもよい。例えば、姿勢プロセッサ２０４は、画像を取り込んだカメラに対する画像内の物体の姿勢を示す姿勢データでマークアップされた画像を受信するように構成されてもよい。代替的または追加的に、姿勢プロセッサ２０４は、カメラによって取り込まれた画像を処理することによって、シーン内の物体の姿勢を特定するように構成されてもよい。すなわち、姿勢データは抽象化された画像データに対応してもよい。一般に、姿勢プロセッサ２０４は、カメラに対する注目物体の方向、およびカメラに対する注目物体の距離の少なくとも一方を示す姿勢データを取得するように構成される。

いくつかの例では、注目物体は人物に対応してもよく、人物の３Ｄ姿勢は、人物が保持しているかまたは装着している電子機器から受信したデータ（例えばＧＰＳおよび／またはジャイロスコープのデータ）に基づいて概算することができる。例えば、ラグビーなどのスポーツの試合では、プレイヤは競技場での位置（および場合によっては方向）を追跡するセンサを装着している場合があり、このデータは、姿勢プロセッサへの入力として提供されてもよい。カメラの姿勢が把握された（すなわち追跡された）場合、カメラに対するプレイヤの姿勢を特定することができる。代替的に、カメラに対するプレイヤの姿勢は、既知の較正技術を使用して特定することができ、例えば、カメラの組込み関数が把握され、かつ３Ｄシーン内のプレイヤの姿勢が把握された場合、被写体に対するカメラの位置および方向を特定することができる。

いくつかの例では、シーン内の被写体の姿勢は、例えばセンサを使用して追跡されない。このような例では、シーン内の被写体の姿勢は、例えばカメラに対するシーン内の被写体の位置および／または方向を検出するための顔追跡および／または骨格追跡を使用して特定されてもよい。カメラに対する被写体の位置および／または方向はまた、カメラから所定の距離および方向に存在する既知の、例えば標準的な物体（例えば人間）の大きさおよび形状に関する情報を使用して特定されてもよい。これは、例えばカメラが固定されており、かつ、スポーツの試合におけるプレイヤなどの被写体がカメラから比較的離れている場合（例えば、いわゆる「スパイダーカム」によって取り込まれたビデオ）に適用可能であってもよい。

複数のカメラが存在する場合、被写体に対するカメラの位置および方向は特徴追跡を使用して特定されてもよい。例えば、複数のカメラによって取り込まれた画像において共通の特徴が検出された場合、被写体に対するカメラの姿勢を特定することができる。

注目物体が仮想シーン（例えば、ビデオゲーム）内の仮想物体に対応する例では、姿勢プロセッサ２０４は、仮想シーン内の仮想物体の姿勢を示す姿勢データを単に受信するように構成されてもよい。

カメラ２０１に対する３Ｄシーン内の被写体の位置および／または方向を特定するために、任意の適切な方法を使用してもよいことが理解されるであろう。

図２に戻って、システム２００はまた、カメラによって取り込まれた画像に関連付けられたシーンの品質を判定するように動作可能なシーン解析部２０５を備える。シーン解析部２０５は、（上述のように取得された）カメラに対するシーン内の注目物体の姿勢を示す姿勢データ、特定の姿勢のカメラによって取り込まれた画像、および抽象化された画像データ（例えば、ローパスフィルタ処理画像、低解像度画像および／またはモノクロ画像など）のうちの１つ以上に基づいてシーンの品質を判定するように構成される。シーン解析部に対するこれらの入力の形式は、必要に応じて個別のもの（つまり独立したもの）とするか、または組み合わされたものでもよい。

シーン解析部２０５は、カメラの現在の姿勢から取り込まれた被写体の画像が、その画像を見る人からは審美的に美しく見える可能性を示す、対応するシーンの品質（すなわち、値もしくはパラメータ）に、これらの入力のいずれか１つをマッピングするように訓練された機械学習モデルを含んでもよい。本明細書で説明する実施形態では、このモデルをシーン品質モデル２０６と呼ぶ。

シーン品質モデル２０６は、姿勢データおよび／または画像データおよび／または抽象化された画像データ、およびそのデータに関連付けられたシーンの品質を用いて訓練されてもよい。以下で説明するように、そのデータに関連付けられたシーンの品質は、姿勢データ、画像データおよび／または抽象化された（つまり、専門的に取り込まれたか、または人気のある）画像データのソースから推測してもよい。

いくつかの例では、シーン品質モデル２０６は、下記のうちの少なくとも１つに基づいて、取込画像に関連付けられたシーンの品質を判定するように訓練される。
・カメラに対する被写体の方向（例えば、被写体の顔が視認可能になる方向）
・被写体からカメラまでの距離（例えば、被写体の顔が解像可能になる距離）
・取込画像内の被写体のオクルージョン（例えば、被写体が遮蔽されている割合、その中でも、被写体の顔などの重要領域が遮蔽されている割合）
・被写体の画像内の位置／占有率（美学の場合、例えば、三分割法または分野特有の規則）

シーン品質モデル２０６は、関連付けられたシーンの品質が把握されている複数の訓練画像について取得された、この情報のうちの少なくともいくつかを用いて訓練されてもよい。このようにして、シーン品質モデル２０６は、被写体の方向、距離、オクルージョン、位置／占有率、および関連付けられたシーン品質のうちの１つ以上との関連性を学習するように訓練される。

場合によっては、訓練画像内に複数の被写体が存在する可能性があるため、これらの被写体の各々の方向、距離、オクルージョンおよび／または画像占有率とともに、それら被写体を特徴とする訓練画像に関連付けられたシーンの品質を用いて、シーン品質モデルを訓練してもよいことが理解されるであろう。

被写体のオクルージョンは、例えば骨格および顔の追跡を実行し、かつ、被写体が対応するものとして把握されている基準の顔もしくは骨格に対して、取込画像内で検出された顔もしくは骨格が覆い隠されている割合を判定することによって特定されてもよい。被写体の顔は重要領域として識別され、この重要領域が閾値量以上に遮蔽される場合、取込画像に関連付けられたオクルージョンが高いと判定されてもよい。複数の訓練画像に関連付けられたオクルージョン、およびそれらの画像に関連付けられたシーンの品質を使用して、シーン品質モデル２０６を訓練してもよい。

いくつかの例では、被写体が前方を向いていないことが望ましい場合があるため、シーン品質モデルは、識別されたシーンのタイプ、およびそのシーンのタイプについて取り込まれた画像に関連付けられたオクルージョンの両方を用いて訓練されてもよいことが理解されるであろう。特定のオクルージョンに関連付けられた特定の画像のシーンの品質は、オクルージョンが特定された画像に関連付けられたソースもしくは人気度から推測することができる。例えば、専門的に取り込まれた画像から取得されたオクルージョン情報は、高品質のシーンに関連付けられているとして自動的にラベル付けされてもよい。このようにして、シーン品質モデル２０６を、画像内の被写体に関連付けられたオクルージョンと、その画像に関連付けられたシーンの品質との関連性を学習するように訓練することができる。

取込画像内の被写体の位置／占有率は、カメラによって取込画像を処理することによって特定されてもよい。例えば、取込画像内の注目物体が（例えば、識別ユニットを介して）識別され、取込画像内の他の物体／特徴に対するその注目物体の位置が特定されてもよい。簡単な例では、これは、注目物体が水平軸線に沿って約１／３または２／３の位置にあるかどうかを判定することを含んでもよい。

理解されるように、シーン内の被写体の「望ましい」位置は、通常は取り込まれるシーンのタイプに依存するため、シーン品質モデルは、（例えば識別子としての）シーンのタイプ、およびそのシーンのタイプの画像内の被写体の位置の両方を用いて訓練されてもよい。いくつかの例では、識別ユニットは、画像内の被写体の相対位置／占有率を識別するように構成されてもよく、この情報は、画像内の被写体の相対位置／占有率が取得された画像に関連付けられたシーンの品質とともに、シーン品質モデルへの入力として提供されてもよい。この場合もやはり、画像内の被写体の位置／占有率に関連付けられたシーンの品質は、被写体の位置／占有率が専門的に取り込まれたコンテンツおよび／または人気のあるコンテンツから取得された場合に高いと識別されてもよい。このようにして、特定のシーンのタイプについて、画像内の被写体の位置／占有率と、関連付けられたシーンの品質との関連性を学習するように、シーン品質モデル２０６を訓練することができる。

いくつかの例では、シーン品質モデルは、ライブイベントの記録中に取り込まれた姿勢データを用いて訓練されてもよい。例えば、スポーツの試合など（サッカー、バスケットボール、ラグビー、アイスホッケーなど）の放送イベント中に、競技場でのプレイヤの位置が追跡されてもよく、カメラの姿勢もまた追跡されてもよい（または、例えば、会場の既知の形状およびプレイヤの既知の位置に基づいて取得されてもよい）。この姿勢データは、シーン品質モデルに入力されてもよく、専門的な方法で取り込まれたコンテンツに対応するので、高品質のシーンに対応するものとしてラベル付けされてもよい。このようにして、シーン品質モデルは、プレイヤに対するカメラの姿勢について、高品質のシーンに対応する姿勢を学習することができる。

いくつかの例では、ビデオゲーム映像から取得した姿勢データをシーン品質モデルの訓練に使用してもよい。このような例では、仮想物体（例えば、プレイヤのアバター）に対する仮想カメラの姿勢を正確に把握することができ、この姿勢データを、シーン品質モデルの訓練に使用してもよい。この姿勢データに関連付けられたシーンの品質は、例えば人気のあるコンテンツ作成者によって取り込まれたビデオ映像に対応するか、またはそのビデオ映像に関連付けられた人気度が高い（例えば、多数のオンライン「閲覧」または「いいね」）場合に高いと識別されてもよい。このデータを用いてシーン品質モデル２０６を訓練することによって、シーン品質モデル２０６は、仮想物体に対する仮想カメラの姿勢について、結果的に高品質のシーンを有する画像を取り込む可能性が高い姿勢を学習することができる。この場合もやはり、シーン品質モデルを、仮想カメラの姿勢データに関連付けられたシーンのタイプを用いて訓練して、（被写体に対する）仮想カメラの姿勢とシーンの品質との関連性をシーンのタイプごと（つまり、ゲームのジャンルごと）に学習するようにする必要がある。

いくつかの例では、シーン品質モデル２０６は、異なるシーン内の異なる注目物体の訓練画像を用いてさらに訓練されてもよい。すなわち、例えばそれらの画像から抽出された姿勢、オクルージョンおよび構図情報とは対照的に、画像はシーン品質モデルへの入力として提供されてもよい。このようにして、シーン品質モデルは、高品質のシーンの画像に対応する画像特徴（例えば、照明、オクルージョン、構図など）を暗黙的に学習するように訓練されてもよい。上述の通り、例えば、訓練画像が専門的に取り込まれたコンテンツ、または人気があるとして知られているコンテンツに対応する場合、高品質のシーンは訓練画像のソースから推測することができる。例えば、Ｉｎｓｔａｇｒａｍ（商標）、Ｆｌｉｃｋｒ（商標）、５００ｐｘ（商標）、ＹｏｕＴｕｂｅ（商標）などから取り込まれた画像に多数の「いいね」や「ビュー」が関連付けられている場合、その画像はシーンの品質が高いと知られている場合がある。訓練画像は、訓練画像のソース、関連付けられた人気度（例えば、閾値を超える「いいね」または「閲覧」）および作成者のうちの少なくとも１つに基づいて、高品質のシーンであるとしてラベル付けされてもよい。

シーン品質モデル２０６を訓練するために使用される訓練画像の品質には、ばらつきがあり得ることが理解されるであろう。例えば、放送されるスポーツ映像は、例えばＹｏｕＴｕｂｅ（商標）から取り込まれた映像より品質が優れている。これを補償するために、訓練画像は、例えばＣｙｃｌｅＧＡＮなどの外部システムを使用して標準形式に変換されてもよい。

このデータを用いてシーン品質モデルを訓練することにより、シーン品質モデルは、特定のシーンのタイプについて、高品質のシーンの画像に共通する高度な画像特徴（色、構図、照明など）を学習することができる。訓練が完了すると、シーン品質モデルは、特定のシーンのタイプについて、現在の取込画像が高品質のシーンであるかどうかを決定することができる。

システム２００は、シーン解析部２０５から入力を受信し、それに応答してカメラ２０１の姿勢を調整するように構成されたコントローラ２０７をさらに備える。この入力は、現在の画像に関連付けられたシーンの品質が閾値未満であるかどうかの指標を提供する。

カメラ２０１が実カメラ２０１である実施形態では、コントローラ２０７は、カメラ２０１が組み込まれているかまたは取り付けられている機器のモータなどの運動手段２０９が受信する信号を生成するように構成されてもよい。運動手段２０９は、カメラ２０１の並進および回転の少なくとも一方を制御するように動作可能である。いくつかの例では、カメラ２０１は、車輪および／またはプロペラを含む機器（例えば、ドローン）に組み込まれてもよく、コントローラ２０７は、車輪および／またはプロペラ（およびそれらに関連付けられた任意の操縦手段）に加わる動力を制御するように構成されてもよい。カメラ２０１が仮想カメラ２０１である実施形態では、コントローラ２０７は、仮想カメラ２０１が移動する仮想シーン内の新たな姿勢を単に特定してもよい。

代替的に、カメラが手持ちカメラである場合、コントローラがモータを制御することによってカメラの姿勢を調整する代わりに、コントローラは、カメラの案内インタフェースを制御することによってカメラの姿勢を調整してもよい。この案内インタフェースとしては、例えば、カメラの背面の画面（および／またはファインダ内）において所望の移動方向を指し、任意には、ユーザがカメラを理想的な位置に移動させるにつれて減少する数字もしくは線など、示された方向の所望の距離を示す矢印図形などが挙げられる。

いくつかの例では、コントローラ２０７は、結果的にシーンの品質が高い注目物体の画像を取り込む可能性がより高いカメラ２０１の姿勢を特定するように訓練された機械学習モデル（本明細書では姿勢モデル２０８と呼ぶ）を含む。姿勢モデル２０８は、深層強化学習を使用して訓練されたエージェントを含んでもよい。例えば、エージェントは、シーン内を無作為に移動するかまたは確率的に移動して、シーン内の被写体のシーンの全体的な品質が最高となる姿勢を学習することによって訓練されてもよい。つまり、報酬関数は、経時的なシーンの平均品質に対応してもよい。前述したように、取込画像のシーンの品質は、シーン品質モデル２０６を使用して判定されてもよい。

好ましい例では、エージェントは、仮想被写体を含む仮想シーン内を移動することによって訓練される（これは、被写体の周りのカメラの移動が容易になるため好ましい）。仮想シーンは、例えばゲームエンジンによって提供されてもよく、実カメラが配置される実際のシーンに対応してもよい。仮想シーン内の被写体に対する仮想カメラの各姿勢について、その姿勢に関連付けられたシーンの品質は、訓練されたシーン品質モデル２０６を使用して判定されてもよく、エージェントは、結果的に関連付けられたシーンの品質が高い画像を取り込む可能性が高い新たな姿勢を学習するように訓練されてもよい。いくつかの例では、仮想シーンは複数の仮想被写体を含んでもよく、シーン品質モデルは、カメラに対するそれら被写体の姿勢に基づいてシーンの品質を判定するように構成されてもよい。

一例では、姿勢モデル２０８に対する入力は、仮想カメラの位置および／または方向、仮想被写体の位置および／または方向、およびシーン品質モデル２０６の出力を含んでもよい。姿勢モデルは、シーンの平均品質を最大限に高める仮想被写体に対する仮想カメラの姿勢を（深層強化学習を介して）学習するよう、これらの入力を用いて訓練されてもよい。

エージェントは、複数の異なるシーン内を移動して、それらシーン内の異なる注目物体の画像を取り込むことによって訓練されてもよい。エージェントが十分な数の異なるシーンのタイプおよび異なる被写体について訓練されると、姿勢モデル２０８を使用してカメラ２０１の位置を調整してもよい。後に説明するように、姿勢モデルはまた、結果的に品質のより高いシーンの画像が取り込まれる１つ以上のカメラパラメータを学習するように訓練されてもよい。

いくつかの例では、注目物体（すなわち被写体）は人間のキャラクタを含んでもよい。このような例では、シーン品質モデル２０６は、人間のキャラクタに関連する姿勢および／または画像のデータを用いて訓練されてもよい。これらの例では、姿勢モデルを訓練して、人間の被写体の顔があまり遮蔽されない（例えば、前方を向く）ようにカメラの姿勢を調整してもよい。

理解されるように、人間の被写体の場合、識別ユニット２０２は、（例えば、画像分割、顔認識などを使用して）シーン内の人間の被写体を検出し、検出結果をシーン品質モデル２０６に対する入力として提供するように構成されてもよく、これにより、シーン解析部２０５は、適切に訓練されたモデル（すなわち、対応するシーン内の人間の被写体の画像を用いて訓練されたモデル）を採用して、取込画像のシーンの品質を判定することができる。

一般に、複数の人間のキャラクタを含むシーンの場合、１人以上の主要キャラクタと１人以上の副次的キャラクタが存在する。カメラ２０１の操作者がシーン内の役者を撮影している場合、主要キャラクタは、話しているかまたは所定の動作を行っているキャラクタに対応してもよい。通常、カメラ２０１は主要キャラクタに合焦することが望ましいため、シーンの取込画像は、脇役よりも主役を多く含まなくてはならない。また、通常は、主役の顔が遮蔽されないことが望ましい。

したがって、いくつかの例では、シーン品質モデル２０６は、複数のキャラクタに関連する姿勢および／または画像のデータを用いて訓練されてもよく、画像内の１人以上のキャラクタが主要キャラクタとして識別される。取込画像内で視認できる（および／または閾値量未満が遮蔽された）主要キャラクタに対応する画像データおよび／または姿勢データは、シーン品質モデル２０６が訓練されて、主要キャラクタを特徴とする画像が、主要キャラクタを視認できない画像よりも高品質であることを学習するように、高品質のシーンであるとしてラベル付けされてもよい。したがって、コントローラ２０７は、主要キャラクタの顔が遮蔽されていないか、または少なくともカメラ２０１の操作者が取り込もうとしているシーンのタイプに適した態様で現れるシーンの画像をもたらす可能性がより高いカメラ２０１の姿勢を特定するように訓練されてもよい。

いくつかの例では、ユーザは、どのキャラクタが主要キャラクタかを示す入力を提供してもよく、（十分に訓練された）シーン品質モデル２０６は、この識別に基づいてシーンの品質を判定してもよい。この識別は、例えばカメラ２０１によって取り込まれたビデオが表示されているタッチスクリーンを使用して実行されてもよく、ユーザは、シーン内の主要キャラクタに対応するタッチスクリーンの領域を選択してもよい。より一般的には、識別ユニット２０２は、シーン内の１人以上の主要キャラクタを示す入力を受信するように動作可能であってもよい。

いくつかの例では、シーン内の主要キャラクタの検出は自動的に実行されてもよい。例えば、システム２００は、キャラクタの音声を検出する１つ以上のマイクロホンを備えてもよく、キャラクタは、そのキャラクタの音声の検出に基づいて、シーン内の主要キャラクタとして識別されてもよい。代替的または追加的に、シーン内の異なるキャラクタが話すように設定される時間は、例えば台本に基づいて事前に把握されている場合があり、この情報を識別ユニット２０２に提供して、シーンを撮影する間にカメラが合焦すべき異なるキャラクタを識別してもよい。一般に、システムは、少なくとも１人のキャラクタが話しているか、または話し始めようとしていることを示す音声データを受信するように動作可能な音声ユニット（図示せず）を備えてもよく、この情報が識別ユニット２０２に提供された後、どのキャラクタが主要キャラクタに対応するかが決定されてもよい。

場合によっては、カメラ２０１を用いて取り込もうとする複数の主要キャラクタまたは少なくとも２人のキャラクタが存在することがある。このような例では、少なくとも２人のキャラクタは、（上述の手段のいずれかを介して）取込画像に含めるために識別され、シーン品質モデル２０６は、シーン内の複数のキャラクタの識別に基づいて、取込画像に関連付けられたシーンの品質を判定するように構成されてもよい。この場合もやはり、シーン品質モデル２０６は、複数の主要キャラクタに関係する姿勢データおよび／または画像データを用いて訓練されてもよく、主要キャラクタの顔を視認できる画像について、シーンの品質はさらに高くてもよい。このようにして、コントローラ２０７は、結果的に複数の主要キャラクタの顔のオクルージョンを最小限にするカメラ２０１の姿勢を特定するように構成されてもよい。

いくつかの例では、カメラ２０１の操作者は、他の注目物体（つまり、人物以外）を取込画像に含めたいと望む場合がある。このような例では、識別ユニット２０２は、取込画像に含めるために、１つ以上の注目物体を示す入力を受信するように構成されてもよい。この入力がシーン品質モデル２０６に提供された後、識別された物体、カメラ２０１に対するそれら物体の姿勢、および／またはシーンの取込画像に基づいて、取込画像のシーンの品質が判定されてもよい。

物体は、取込画像に含めるためにユーザ入力によって識別されてもよい。例えば、カメラ２０１によって取り込まれたビデオ画像が画面に表示されてもよく、ユーザは、取込画像に含めたい注目物体に対応する画面の領域を選択してもよい。物体の識別は、シーン内の異なる物体を識別するために機械学習またはコンピュータビジョン技術を使用されてもよく、操作者が取込画像に含める優先度が高い識別された物体を手動で入力するという点で、ある程度自動的に行われてもよい。

いくつかの例では、操作者は、取込画像内の特定の注目物体の数もしくは量を最大にしたいと望む場合がある。例えばホラー映画では、樹木に囲まれたキャラクタを見せて恐怖を呼び起こすのが一般的である。したがって、カメラ２０１の操作者は、取込画像内の樹木の数を最大にすることを示す入力を提供してもよい。これは、例えば「樹木」を表示画像内の注目物体として選択すること、および、取込画像内の樹木の数を最大にするさらなる入力を提供することを含んでもよい。これらの入力がシーン品質モデル２０６に提供された後、取込画像内の識別された注目物体の数、任意の識別されたキャラクタ、取込画像、および／またはカメラ２０１に対する任意の識別されたキャラクタの姿勢に基づいて、取込画像のシーンの品質が判定されてもよい。理解されるように、一般に、識別されたキャラクタを視認できる画像のシーンの品質はより高くなるため、取り込まれた画像内の、例えば樹木の数を最大にしようとする場合に、カメラ２０１が可能な限り遠く離れた位置へ移動しないようにすることができる。

一部のコンテンツでは、カメラ２０１の位置を、（必ずしも人間のキャラクタに関連付けられているわけではない）シーン内の音源の位置に基づいて調整することが望ましい場合がある。したがっていくつかの例では、システム２００は、シーン内の音源を検出する２つ以上のマイクロホンを備えてもよい。識別ユニット２０２は、マイクロホンによって検出された音声信号を受信し、それに応答して、検出された音声信号が対応する既知の音源を識別するように構成されてもよい。これは、例えば機械学習を使用することによって、または、単に音声信号のスペクトル特性を複数の既知の音源のスペクトル特性と比較することによって達成されてもよい。姿勢プロセッサ２０４は、２つ以上のマイクロホンによって検出された音声信号に基づいて、マイクロホンに対する音源の３Ｄ姿勢を特定するように構成されてもよい。好ましい例では、２つ以上のマイクロホンはカメラ２０１を含む機器に関連付けられているため、カメラ２０１に対する音源の姿勢は、マイクロホンによって検出された音声信号から推測することができる。

シーン品質モデル２０６は、識別された音源（すなわちタイプ）の指標およびカメラに対する音源の３Ｄ姿勢を受信し、それに応答して、取込画像に関連付けられたシーンの品質を判定するように構成されてもよい。これは、識別ユニット２０２によって注目物体として識別された人間のキャラクタなどの、任意の他の注目物体に追加することができる。理解されるように、このような例では、シーン品質モデル２０６は、シーン内の異なるタイプの音源を示すデータと、シーン内の被写体を取り込むために使用されるカメラ２０１に対する音源の位置および方向の少なくとも一方を示す姿勢データとを用いてさらに訓練される。

このようにして、シーン品質モデル２０６は、撮像被写体に関連付けられた姿勢データおよび／または画像データ、およびカメラ２０１に対する音源の姿勢に基づいて、取込画像に関連付けられたシーンの品質をさらに判定することができる。

一例では、シーン品質モデル２０６は、キャラクタが爆発から逃げているビデオのフレームを用いて訓練されてもよく、シーン品質モデル２０６は、（例えば、カメラに対する役者の姿勢、取込画像、爆発の場所に基づいて、）このような状況を撮影する場合に採用されるべきカメラ２０１の姿勢を学習してもよい。

いくつかの例では、シーンは仮想シーンであってもよいため、音源のタイプおよびシーン内での音源の相対位置を正確に把握することができる。さらに、異なる音源が音声を生成するタイミングもまた把握することができる。したがって、音声のタイプ、相対位置、および任意にはタイミング情報をシーン品質モデル２０６に入力してもよい。そこで、シーン品質モデル２０６は、例えば取込画像、例えばプレイヤのアバターおよび任意の音源のシーン内での位置に基づいて、仮想シーンの現在の取込画像に関連付けられたシーンの品質を判定してもよい。この場合もやはり、このような例では、シーン品質モデル２０６は、訓練画像（例えば、ビデオフレーム）および／または例えばプレイヤのアバターの３Ｄ姿勢、およびシーン内の任意の音源の相対位置を用いて訓練されてもよい。理解されるように、いくつかのビデオゲームでは、複数の音源が存在する可能性があるため、識別ユニット２０２は、プレイヤの体験に最も影響する音源（例えば、最大音源および／または最至近音源）を検出するように動作可能であってもよい。

いくつかの例では、シーン品質モデル２０６は、被写体の画像を取り込むために使用された１つ以上のカメラパラメータを示す固有のカメラデータを用いてさらに訓練されてもよい。固有のデータは、例えば訓練画像の取込みに使用されるカメラの焦点距離、絞り値、シャッタ速度、任意の特殊モード（ＨＤＲなど）を含んでもよい。例えば、実カメラによって取り込まれた実際のシーンの画像がシーン品質モデルの訓練に使用される場合、固有のカメラデータは、取込画像を用いてメタデータとして符号化されてもよい。このようにして、シーン品質モデル２０６を訓練して、カメラに対する被写体の相対的な姿勢と、（任意には、取込画像データの）１つ以上のカメラパラメータと、対応するシーンとの関連性を判定することができる。

（内部パラメータが考慮される）これらの例では、コントローラ２０７は、現在の画像のシーンの品質が閾値未満であるという判定に基づいて、カメラ２０１の１つ以上の内部パラメータを調整するようにさらに構成されてもよい。例えば、コントローラ２０７は、判定されたシーンの品質に基づいてカメラ２０１の焦点距離（すなわちズーム）、絞り値、シャッタ速度などを調整するように構成されてもよい。これらのパラメータの調整は、シーン品質モデル２０６によって出力された、判定されたシーンの品質に基づいて決定されてもよい。

前述したように、コントローラ２０７は、カメラ２０１の姿勢の調整を決定するように訓練された姿勢モデル２０８を含んでもよい。１つ以上のカメラパラメータも調整される例では、姿勢モデルをさらに訓練して、シーンの品質を最大限に高めるための１つ以上のカメラパラメータを決定してもよい。これは、例えば深層強化学習を使用して、仮想シーン内の被写体の複数の画像を取り込み、かつ（特定の位置について）最高品質のシーンを有する取込画像をもたらすカメラパラメータの組合せを学習するようにエージェントを訓練することを含んでもよい。この訓練の間に取り込まれた画像のシーンの品質は、訓練されたシーン品質モデル２０６を使用して（すなわち、シーンの品質が高いと把握された、対応するシーン内の対応する被写体の画像とどの程度密接に対応するかを判定することによって）判定されてもよい。

追加的または代替的な例では、コントローラは、例えば、カメラの移動先での姿勢に基づいて被写界深度を調整するように構成されてもよい。例えば、カメラが被写体から閾値距離未満の位置に移動した場合、コントローラは、背景をぼかしながら画像の被写体に合焦する必要があると決定してもよい。逆に、画像内の被写体について、姿勢が調整されたカメラからの距離が閾値を超えていると判定された場合、コントローラは、例えばカメラの絞り値を制御して、全てまたは大部分のシーンに合焦するように構成されてもよい。

上記の例を、システム内の別個のユニットとして説明したが、これらの１つ以上が同じ機器に含まれ、機器自体がカメラ機器を構成してもよいことが理解されるであろう。カメラ機器は、制御可能な位置および方向を有する物理的機器に対応してもよい。例えばカメラ機器は、動力式の車輪もしくはプロペラを有するカメラ機器（例えば、ドローン）に対応してもよい。全ての構成要素が同一の物理的機器に組み込まれている例では、例えば１つ以上のサーバ（例えば、クラウド）を使用して様々な機械学習モデルが訓練され、訓練された機械学習モデルは、物理カメラ機器の関連モジュールにエクスポートされてもよい。

したがって、いくつかの実施形態では、実カメラ機器が、シーンの画像を取り込むように動作可能なセンサと、（例えば、取込画像内の注目物体を識別するように動作可能な）識別ユニット、（例えば、カメラに対するシーン内の注目物体の姿勢を取得するように動作可能）な姿勢プロセッサ、（例えば、カメラによって取り込まれた画像に関連付けられたシーンの品質を検出するように構成され、取込画像に関連付けられたシーンの品質を判定するように訓練された機械学習モデルを含む）シーン解析部、および、（例えば、現在の画像のシーンの品質が閾値未満であるという判定に基づいて、カメラ機器の姿勢を制御するように動作可能な）コントローラから選択された１つ以上の構成要素とを含むシステムが提供される。

本明細書で説明する機械学習モデルは、例えば、訓練された畳み込みニューラルネットワーク（ＣＮＮ）もしくは再帰型ニューラルネットワーク（ＲＮＮ）などの訓練されたニューラルネットワーク、多層パーセプトロン（ＭＬＰ）、または制限付きボルツマンマシンのうちの少なくとも１つを含んでもよいことが理解されるであろう。最終的に、任意の適切な機械学習システムを使用することができる。

いくつかの例では、シーンの品質を判定するためにカメラが画像を取り込む必要はないことがさらに理解されるであろう。例えば、いくつかの例では、シーンの品質は、カメラに対する被写体の姿勢のみに基づいて判定されてもよく、（例えば、被写体およびカメラの位置が放送イベント中に追跡されている場合、）任意の画像の取込みを実際には必要としない。

本明細書で説明する方法は、ソフトウェア命令によって、または専用ハードウェアを含めるかこれに置き換えることによって、適切に適合された従来のハードウェア上で実行してもよいことがさらに理解されるであろう。したがって、従来の同等の機器の既存の部品に対して必要な適合は、フロッピーディスク、光ディスク、ハードディスク、ＰＲＯＭ、ＲＡＭ、フラッシュメモリ、または、これらもしくはその他の記憶媒体の任意の組合せなどの非一時的な機械可読媒体に格納されたプロセッサが実行可能な命令を含むコンピュータプログラム製品の形で実施されるか、または、ＡＳＩＣ（特定用途向け集積回路）もしくはＦＰＧＡ（フィールドプログラマブルゲートアレイ）、または従来の同等の機器の適合に使用するのに適した他の構成可能な回路としてハードウェアにおいて実現されてもよい。これとは別に、このようなコンピュータプログラムは、イーサネット、無線ネットワーク、インターネット、またはこれらもしくは他のネットワークの任意の組合せなどのネットワーク上のデータ信号を介して送信されてもよい。

Claims

システムであって、
シーンの画像を取り込むように動作可能なカメラと、
前記シーンの画像内の注目物体を識別するように構成された識別ユニットと、
前記カメラに対する前記シーン内の前記注目物体の姿勢を取得するように構成された姿勢プロセッサと、
取得した前記注目物体の姿勢および前記カメラによって取り込まれた画像の少なくとも一方に基づいて、それぞれの姿勢で前記カメラによって取り込まれた画像に関連付けられたシーンの品質を判定するように動作可能なシーン解析部であって、
前記シーン解析部が、それぞれの姿勢で前記カメラによって取り込まれた前記画像に関連付けられた前記シーンの品質を判定するように訓練された第１の機械学習モデルを含む、シーン解析部と、
現在の姿勢で取り込まれた画像の前記シーンの品質が閾値未満であるという判定に基づいて、前記カメラの姿勢を調整するように構成されたコントローラと
を備える、システム。
前記第１の機械学習モデルが、訓練画像および／または注目物体の訓練画像を取り込んだ前記カメラに対する前記シーン内の前記注目物体の姿勢を示す姿勢データを用いて訓練され、前記姿勢データおよび／または前記訓練画像には、それぞれのシーンの品質がラベル付けされる、請求項１に記載のシステム。
前記姿勢データおよび／または前記訓練画像が、前記姿勢データおよび／または訓練画像のソースおよび前記姿勢データおよび／または訓練画像に関連付けられたユーザフィードバックの少なくとも一方に基づいて、高品質のシーンを有するとしてラベル付けされる、請求項２に記載のシステム。
前記コントローラが、現在の姿勢で取り込まれた画像の前記シーンの品質が閾値未満であるという判定に基づいて、前記カメラの１つ以上の内部パラメータを調整するように構成され、
前記第１の機械学習モデルが、前記姿勢データおよび／または前記訓練画像が取得された前記カメラの１つ以上の内部パラメータを示す固有データを用いてさらに訓練される、請求項２または３に記載のシステム。
前記コントローラが、結果的により高品質のシーンを有する注目物体の画像を取り込む可能性が高い前記カメラの姿勢を特定するように訓練された、第２の機械学習モデルを含む、請求項１〜４のいずれか一項に記載のシステム。
前記第２の機械学習モデルが、深層強化学習を使用して訓練されたエージェントを含み、前記エージェントが、前記カメラによって取り込まれた画像の前記シーンの品質を最大限に高める姿勢を学習するように訓練され、前記エージェントが、複数の異なる仮想シーン内を移動し、かつ前記仮想シーン内の注目物体の仮想画像を取り込むことによって訓練される、請求項５に記載のシステム。
前記第２の機械学習モデルが、前記仮想画像を前記第１の訓練された機械学習モデルに入力することによって、前記仮想画像に関連付けられたシーンの品質を判定するように構成される、請求項６に記載のシステム。
前記識別ユニットが、前記カメラによって取り込まれた前記画像が対応するシーンのタイプを識別するように構成され、
前記シーン解析部が、前記識別されたシーンのタイプに基づいて、それぞれの姿勢で前記カメラによって取り込まれた前記画像に関連付けられたシーンの品質を判定するようにさらに構成される、請求項１〜７のいずれか一項に記載のシステム。
前記識別ユニットが、前記カメラによって取り込まれた前記画像が対応するシーンのタイプを識別するように訓練された第３の機械学習モデルを含み、前記第３の機械学習モデルが、異なるタイプのシーンの画像および対応するシーン識別子を用いて訓練される、請求項８に記載のシステム。
前記注目物体がシーン内にキャラクタを含み、シーン品質モデルが、姿勢データおよび／またはシーン内のキャラクタの訓練画像を用いて訓練される、請求項１〜９のいずれか一項に記載のシステム。
前記注目物体が複数のキャラクタを含み、前記システムが、
前記取込画像に含まれる１人以上のキャラクタを示す入力をユーザから受信するように動作可能な入力ユニットを備え、
前記シーン解析部が、取り込まれた前記画像および／または前記カメラによって取り込まれた前記画像に含まれるキャラクタの３Ｄ姿勢に基づいて、シーンの品質を判定するように構成される、請求項１０に記載のシステム。
少なくとも１人のキャラクタが話しているか、または話し始めようとしていることを示す音声データを受信するように動作可能な音声ユニットを備え、
前記識別ユニットが、前記音声データに基づいて前記少なくとも１人のキャラクタを主要キャラクタとして識別するように構成され、
前記シーン解析部が、前記カメラおよび／または前記カメラによって取り込まれた前記画像に対する前記シーン内の前記少なくとも１人の主要キャラクタの姿勢に基づいて、前記シーンの品質を検出するように構成される、請求項１１に記載のシステム。
前記識別ユニットが、前記シーン内の音源を識別するように構成され、前記姿勢プロセッサが、前記カメラに対する前記音源の姿勢を特定するように構成され、
前記シーン解析部が、前記カメラに対する前記音源の検出された姿勢に基づいて、取り込まれた前記画像に関連付けられたシーンの品質を判定するようにさらに構成される、請求項１〜１２のいずれか一項に記載のシステム。
前記カメラが実カメラであり、前記システムが、前記カメラの前記位置および／または前記方向を制御する運動手段を含み、
コントローラから入力を受信するように構成される前記運動手段が、車輪およびプロペラの少なくとも一方を備える、請求項１〜１３のいずれか一項に記載のシステム。
カメラ機器が、
シーンの画像を取り込むように動作可能なセンサと、
ｉ．識別ユニット、
ｉｉ．姿勢プロセッサ、
ｉｉｉ．シーン解析部、および
ｉｖ．コントローラ
から選択された１つ以上の構成要素と
を含む、請求項１に記載のシステム。