JP2020174345A - 画像を取り込むシステムおよびカメラ機器 - Google Patents

画像を取り込むシステムおよびカメラ機器 Download PDF

Info

Publication number
JP2020174345A
JP2020174345A JP2020041939A JP2020041939A JP2020174345A JP 2020174345 A JP2020174345 A JP 2020174345A JP 2020041939 A JP2020041939 A JP 2020041939A JP 2020041939 A JP2020041939 A JP 2020041939A JP 2020174345 A JP2020174345 A JP 2020174345A
Authority
JP
Japan
Prior art keywords
scene
camera
image
quality
posture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020041939A
Other languages
English (en)
Inventor
ジョン ウィリアムズ ナイジェル
John Williams Nigel
ジョン ウィリアムズ ナイジェル
カッペロ ファビオ
Cappello Fabio
カッペロ ファビオ
グプタ ラジーブ
Gupta Rajeev
グプタ ラジーブ
ヤコブス ブリューゲルマンズ マーク
Jacobus Breugelmans Mark
ヤコブス ブリューゲルマンズ マーク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment LLC
Original Assignee
Sony Interactive Entertainment LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment LLC filed Critical Sony Interactive Entertainment LLC
Publication of JP2020174345A publication Critical patent/JP2020174345A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/64Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64UUNMANNED AERIAL VEHICLES [UAV]; EQUIPMENT THEREFOR
    • B64U2101/00UAVs specially adapted for particular uses or applications
    • B64U2101/30UAVs specially adapted for particular uses or applications for imaging, photography or videography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/21Indexing scheme for image data processing or generation, in general involving computational photography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras

Abstract

【課題】シーン内の被写体に対するカメラの姿勢を調整する画像を取り込むシステムおよびカメラ機器を提供する。【解決手段】システム200は、シーンの画像を取り込むように動作可能なカメラ201と、シーンの画像内の注目物体を識別するように構成された識別ユニット202と、カメラ201に対するシーン内の注目物体の姿勢を取得するように構成された姿勢プロセッサ204と、取得した注目物体の姿勢およびカメラ201によって取り込まれた画像の少なくとも一方に基づいて、カメラ201によって取り込まれた画像に関連付けられたシーンの品質を判定するように動作可能なシーン解析部205とを備える。コントローラ207は、現在の姿勢で取り込まれた画像のシーンの品質が閾値未満であるという判定に基づいて、カメラ201の姿勢を調整するように構成される。【選択図】図2

Description

本開示は、画像を取り込むシステムおよびカメラ機器に関する。
最近では、写真撮影やビデオ撮影が非常に利用しやすくなっている。市販の携帯カメラ機器の急増により、この状況が少なくとも部分的に加速している。これらの携帯機器は、スマートフォン機器、装着型カメラ、プロ用カメラ、カメラを組み込んだドローンなどとは形態が異なる。
カメラ機器の解像度は向上し続けているが、このようなカメラによって取り込まれる画像の品質は、操作者の技能に大きく依存している。例えば、構図、被写体のオクルージョン、照明、被写界深度などの特性は、通常は操作者がシーン内の被写体に対してカメラを構成する方法に依存する。複雑な地形や複数の動的な被写体を含むシーンの場合、最良の画像を得るためにカメラを位置決めするのは必ずしも容易ではない。
Google(登録商標)Clipカメラなどの一部のカメラ機器は、シーン内で発生する注目イベントを自動的に検出して、それらイベントの画像を取り込むように訓練されている。これは確かに有用であるが、この方法で取り込まれた画像の品質は、いまだに、操作者がカメラを向ける場所で主に機能する。さらに、これらの機器は静止している傾向があるため、動的なシーンの範囲に何かしらの制限がある。
注目物体を追跡するカメラ機器は、当技術分野で知られている。例えば、いわゆる「フォローミー機能付き」ドローンは、(例えば、ユーザに関連付けられたGPS信号またはコンピュータビジョンを使用した)ユーザ位置の検出に基づいて、ユーザを追尾することを可能にする。しかし、通常、これらのドローンはユーザに対する所定の相対位置を維持し、検出された被写体の任意のオクルージョン、または取り込まれた画像の審美的品質の低下には反応しない。
ビデオゲームの中には、ゲーム内環境などの仮想シーンの画像を取り込む仮想カメラを提供するものがある。この仮想カメラの姿勢は通常、プレイヤが制御しているため、取込画像の品質は、仮想カメラに対するプレイヤの制御に依存する。いくつかのゲームでは、例えば上述のドローンの仮想版のように、アバターの身体上のある場所から一定の距離を維持するために、予め構成されたスクリプトパスを使用してカメラの姿勢を制御してもよい。
しかし、一般に、この方法で仮想カメラを配置しても、取り込まれる仮想シーンの最適な画像が常に得られるとは限らない。
本発明は、これらの問題に対処するか、または少なくとも軽減しようとするものである。
本明細書に開示される第1の態様によれば、請求項1に記載のシステムが提供される。
本明細書に開示される第2の態様によれば、請求項15に記載の機器が提供される。
本開示の理解に役立つように、かつ、実施形態を実施する方法を示すために、添付の図面を一例として参照する。
2つの被写体と、被写体に対して姿勢が異なるカメラとで構成されるシーンの一例を示す図である。 シーンの画像を取り込むシステムの一例を概略的に示す図である。
画像を取り込むシステムおよびカメラ機器が開示されている。以下の説明では、本発明の実施形態を完全に理解することができるように、いくつかの具体的詳細が提示されている。しかし、これらの具体的詳細を使用して本発明を実施する必要がないことは、当業者には明らかであろう。逆に、当業者に知られている具体的詳細は、理解しやすいように必要に応じて省略されている。
カメラ操作者は、様々な理由でシーンの画像を取り込みたいと望む場合がある。いくつかの例では、シーンは実際の物理的環境に対応してもよく、ユーザは、当該環境の静止画像もしくはビデオ画像を取り込みたいと望む場合がある。通常、これは、シーン内の1人以上の被写体の画像を取り込むことが目的である。被写体は、例えばシーン内の人物、カメラ操作者自身(例えば自撮りの場合)、シーン内の特定の物体などに対応してもよい。
いくつかの例では、シーンは、ビデオゲームの一部とされる仮想環境などの仮想シーンであってもよく、ユーザは、仮想カメラを使用してゲーム内イベントの静止画像もしくはビデオ画像を取り込みたいと望む場合がある。例えば、プレイヤは、ビデオゲーム内で自身のアバターの画像を取り込みたいと望む場合がある。
図1は、2人の被写体102および104を含むシーン100の一例を示している。図1では、被写体は人物に対応しているが、注目する物に対応していてもよい。シーンは、別の物体、この場合は樹木106をさらに含む。カメラは、シーン内の被写体に対する第1の位置および方向(つまり姿勢)108Aに示されている。この姿勢でカメラによって取り込まれた画像は、第1の画像110Aとして示される。カメラはまた、シーン内の被写体に対する第2の姿勢108Bで示されており、その姿勢で取り込まれた対応画像は、第2の画像110Bとして示されている。シーンは、前述したように、実際の物理的環境または仮想環境に対応してもよい。
図1からわかるように、第1の姿勢108Aでの取込画像は、第2の被写体が樹木によって部分的に遮蔽され、取込画像において被写体の顔がいずれも前方を向いていないため、ほとんどの状況において準最適であると見なされる。カメラの位置を自動的に調整して、少なくとも1人の被写体がシーン内の任意の他の物体によって遮蔽されていない(または、少なくとも許容量だけ遮蔽されていない)シーンの画像を取得できることが望ましい。さらに、この画像が、例えば三分割法などの既知の芸術的原理に準拠した、審美的に美しい構図で取り込むことができることが望ましい。このような画像を取得するシステムを、図2との関連で説明する。
図2は、カメラ201の位置を自動的に調整して、シーン内の被写体の画像を取得するシステム200の一例を概略的に示している。
システム200は、シーンの画像を取り込むように動作可能なカメラ201を備える。カメラ201は、例えば、画像センサと、センサに光を合焦する1つ以上のレンズを備える実カメラ201に対応してもよい。代替的に、カメラ201は仮想カメラ201に対応してもよく、この仮想カメラ201は、例えばビデオゲームにおいて提供され、プレイヤが仮想シーンの画像を取り込むことを可能にする。
システム200はまた、カメラ201によって取り込まれた画像を受信し、かつシーン内の注目物体を識別するように構成された識別ユニット202を備える。識別ユニット202は、この識別を実行するためにコンピュータビジョンまたは機械学習技術を使用してもよい。
識別ユニット202はまた、取込画像が対応するシーンのタイプを識別するように構成されてもよい。いくつかの例では、この識別を、訓練された機械学習モデル(本明細書ではシーンタイプモデル203と呼ぶ)を使用して実行してもよい。シーンタイプモデル203は、異なるタイプのシーンを表す高度な特徴を学習するように訓練されてもよい。この訓練は、それぞれのシーン識別子がラベル付けされた(すなわち、教師あり学習)異なるシーンの画像、またはコンテンツの類似性に基づいて異なるシーンのタイプにグループ化された(すなわち、教師なし学習を使用した)ラベル付けされていない画像を使用して達成されてもよい。教師なし学習の場合、開発者は、そのグループ内の画像が代表するシーンのタイプを示す識別子を異なるグループに手動でラベル付けしてもよい。教師あり学習の場合、画像には、例えばシーンのタイプを示すメタデータが事前にラベル付けされてもよい。
高度な特徴は、例えばシーンのタイプに対応するものとして学習された画像の構図、色、強度変化(またはそれらの特徴の表現)に対応してもよい。例えば、いくつかの実施形態では、画像は、DenseNet、ResNet、MobileNetなどの特徴表現生成部に入力されてもよく、機械学習モデルは、DenseNet、ResNet、MobileNetなどによって生成された特徴表現に対応する、(シーンのタイプを表す)識別子を学習するように訓練されてもよい。
いくつかの例では、シーン識別子は、訓練に使用される画像にタグ付けされたメタデータに対応してもよい。例えば、Instagram(商標)、Flickr(商標)などのウェブサイトでは、ユーザが画像に識別子(例えばハッシュタグ、ジオタグ)をタグ付けして、それらの画像の内容を示すことができるため、シーンタイプモデルが異なるタグに対応する高度な画像特徴を学習することができるように、これらのタグをシーンタイプモデルの訓練に使用することができる。ビデオ映像の場合、例えばYouTube(商標)、Twitch(商標)などのウェブサイトでは、ユーザがビデオにタグを付けることができるため、これらのサイトのビデオクリップおよび対応するタグを用いてシーンタイプモデルを訓練してもよい。このようにして、シーンタイプモデルは、(特定のタイプのビデオクリップの学習済みの高度な特徴との類似性に基づいて)特定のビデオクリップに関連付けられた識別子を学習することができる。
異なるシーンの高度な特徴が学習されると、訓練されたシーンタイプモデル203は、それら任意のシーンのタイプが存在する場合に、現在の画像が最も対応する可能性が高いものを識別してもよい。一般に、取込画像の品質はシーンのタイプに依存するため、カメラ201が取り込んでいるシーンのタイプを最初に識別することが有用である。例えば、カメラ201の操作者が、例えばシーン内の役者をとらえようとしている場合に、少なくとも1人の役者の顔がシーン内で視認できると、シーンの品質が向上する可能性がある。
シーンタイプモデル203が訓練される画像は、カメラ201の使用方法、および、カメラ201の操作者が、自動的に識別されることを望む可能性のあるシーンのタイプに依存してもよいことが理解されるであろう。例えば、カメラ201がシーン内の役者を撮影するために使用される場合、シーンタイプモデル203は、映画に関連するフィルム映像、または撮影されるコンテンツに関連する映画のジャンルを用いて訓練されてもよい。カメラ201が、スポーツ活動などの多くの動作を含む動的シーンを取り込むために使用される場合、シーンタイプモデル203は、このような活動の画像を用いて訓練されてもよい。最終的に、シーンタイプモデル203が訓練される程度および性質は、カメラ201の使用目的に依存してもよい。
システム200は、カメラ201に対するシーン内の注目物体の姿勢を取得するように構成された姿勢プロセッサ204をさらに備える。本明細書では、「物体の姿勢」という用語は、カメラ201に対するシーン内の物体の位置および/または方向を説明するために使用される。姿勢プロセッサ204は、カメラ201に対する物体の姿勢を特定することができるデータを受信するかまたは取り込むように構成されてもよい。例えば、姿勢プロセッサ204は、画像を取り込んだカメラに対する画像内の物体の姿勢を示す姿勢データでマークアップされた画像を受信するように構成されてもよい。代替的または追加的に、姿勢プロセッサ204は、カメラによって取り込まれた画像を処理することによって、シーン内の物体の姿勢を特定するように構成されてもよい。すなわち、姿勢データは抽象化された画像データに対応してもよい。一般に、姿勢プロセッサ204は、カメラに対する注目物体の方向、およびカメラに対する注目物体の距離の少なくとも一方を示す姿勢データを取得するように構成される。
いくつかの例では、注目物体は人物に対応してもよく、人物の3D姿勢は、人物が保持しているかまたは装着している電子機器から受信したデータ(例えばGPSおよび/またはジャイロスコープのデータ)に基づいて概算することができる。例えば、ラグビーなどのスポーツの試合では、プレイヤは競技場での位置(および場合によっては方向)を追跡するセンサを装着している場合があり、このデータは、姿勢プロセッサへの入力として提供されてもよい。カメラの姿勢が把握された(すなわち追跡された)場合、カメラに対するプレイヤの姿勢を特定することができる。代替的に、カメラに対するプレイヤの姿勢は、既知の較正技術を使用して特定することができ、例えば、カメラの組込み関数が把握され、かつ3Dシーン内のプレイヤの姿勢が把握された場合、被写体に対するカメラの位置および方向を特定することができる。
いくつかの例では、シーン内の被写体の姿勢は、例えばセンサを使用して追跡されない。このような例では、シーン内の被写体の姿勢は、例えばカメラに対するシーン内の被写体の位置および/または方向を検出するための顔追跡および/または骨格追跡を使用して特定されてもよい。カメラに対する被写体の位置および/または方向はまた、カメラから所定の距離および方向に存在する既知の、例えば標準的な物体(例えば人間)の大きさおよび形状に関する情報を使用して特定されてもよい。これは、例えばカメラが固定されており、かつ、スポーツの試合におけるプレイヤなどの被写体がカメラから比較的離れている場合(例えば、いわゆる「スパイダーカム」によって取り込まれたビデオ)に適用可能であってもよい。
複数のカメラが存在する場合、被写体に対するカメラの位置および方向は特徴追跡を使用して特定されてもよい。例えば、複数のカメラによって取り込まれた画像において共通の特徴が検出された場合、被写体に対するカメラの姿勢を特定することができる。
注目物体が仮想シーン(例えば、ビデオゲーム)内の仮想物体に対応する例では、姿勢プロセッサ204は、仮想シーン内の仮想物体の姿勢を示す姿勢データを単に受信するように構成されてもよい。
カメラ201に対する3Dシーン内の被写体の位置および/または方向を特定するために、任意の適切な方法を使用してもよいことが理解されるであろう。
図2に戻って、システム200はまた、カメラによって取り込まれた画像に関連付けられたシーンの品質を判定するように動作可能なシーン解析部205を備える。シーン解析部205は、(上述のように取得された)カメラに対するシーン内の注目物体の姿勢を示す姿勢データ、特定の姿勢のカメラによって取り込まれた画像、および抽象化された画像データ(例えば、ローパスフィルタ処理画像、低解像度画像および/またはモノクロ画像など)のうちの1つ以上に基づいてシーンの品質を判定するように構成される。シーン解析部に対するこれらの入力の形式は、必要に応じて個別のもの(つまり独立したもの)とするか、または組み合わされたものでもよい。
シーン解析部205は、カメラの現在の姿勢から取り込まれた被写体の画像が、その画像を見る人からは審美的に美しく見える可能性を示す、対応するシーンの品質(すなわち、値もしくはパラメータ)に、これらの入力のいずれか1つをマッピングするように訓練された機械学習モデルを含んでもよい。本明細書で説明する実施形態では、このモデルをシーン品質モデル206と呼ぶ。
シーン品質モデル206は、姿勢データおよび/または画像データおよび/または抽象化された画像データ、およびそのデータに関連付けられたシーンの品質を用いて訓練されてもよい。以下で説明するように、そのデータに関連付けられたシーンの品質は、姿勢データ、画像データおよび/または抽象化された(つまり、専門的に取り込まれたか、または人気のある)画像データのソースから推測してもよい。
いくつかの例では、シーン品質モデル206は、下記のうちの少なくとも1つに基づいて、取込画像に関連付けられたシーンの品質を判定するように訓練される。
・カメラに対する被写体の方向(例えば、被写体の顔が視認可能になる方向)
・被写体からカメラまでの距離(例えば、被写体の顔が解像可能になる距離)
・取込画像内の被写体のオクルージョン(例えば、被写体が遮蔽されている割合、その中でも、被写体の顔などの重要領域が遮蔽されている割合)
・被写体の画像内の位置/占有率(美学の場合、例えば、三分割法または分野特有の規則)
シーン品質モデル206は、関連付けられたシーンの品質が把握されている複数の訓練画像について取得された、この情報のうちの少なくともいくつかを用いて訓練されてもよい。このようにして、シーン品質モデル206は、被写体の方向、距離、オクルージョン、位置/占有率、および関連付けられたシーン品質のうちの1つ以上との関連性を学習するように訓練される。
場合によっては、訓練画像内に複数の被写体が存在する可能性があるため、これらの被写体の各々の方向、距離、オクルージョンおよび/または画像占有率とともに、それら被写体を特徴とする訓練画像に関連付けられたシーンの品質を用いて、シーン品質モデルを訓練してもよいことが理解されるであろう。
被写体のオクルージョンは、例えば骨格および顔の追跡を実行し、かつ、被写体が対応するものとして把握されている基準の顔もしくは骨格に対して、取込画像内で検出された顔もしくは骨格が覆い隠されている割合を判定することによって特定されてもよい。被写体の顔は重要領域として識別され、この重要領域が閾値量以上に遮蔽される場合、取込画像に関連付けられたオクルージョンが高いと判定されてもよい。複数の訓練画像に関連付けられたオクルージョン、およびそれらの画像に関連付けられたシーンの品質を使用して、シーン品質モデル206を訓練してもよい。
いくつかの例では、被写体が前方を向いていないことが望ましい場合があるため、シーン品質モデルは、識別されたシーンのタイプ、およびそのシーンのタイプについて取り込まれた画像に関連付けられたオクルージョンの両方を用いて訓練されてもよいことが理解されるであろう。特定のオクルージョンに関連付けられた特定の画像のシーンの品質は、オクルージョンが特定された画像に関連付けられたソースもしくは人気度から推測することができる。例えば、専門的に取り込まれた画像から取得されたオクルージョン情報は、高品質のシーンに関連付けられているとして自動的にラベル付けされてもよい。このようにして、シーン品質モデル206を、画像内の被写体に関連付けられたオクルージョンと、その画像に関連付けられたシーンの品質との関連性を学習するように訓練することができる。
取込画像内の被写体の位置/占有率は、カメラによって取込画像を処理することによって特定されてもよい。例えば、取込画像内の注目物体が(例えば、識別ユニットを介して)識別され、取込画像内の他の物体/特徴に対するその注目物体の位置が特定されてもよい。簡単な例では、これは、注目物体が水平軸線に沿って約1/3または2/3の位置にあるかどうかを判定することを含んでもよい。
理解されるように、シーン内の被写体の「望ましい」位置は、通常は取り込まれるシーンのタイプに依存するため、シーン品質モデルは、(例えば識別子としての)シーンのタイプ、およびそのシーンのタイプの画像内の被写体の位置の両方を用いて訓練されてもよい。いくつかの例では、識別ユニットは、画像内の被写体の相対位置/占有率を識別するように構成されてもよく、この情報は、画像内の被写体の相対位置/占有率が取得された画像に関連付けられたシーンの品質とともに、シーン品質モデルへの入力として提供されてもよい。この場合もやはり、画像内の被写体の位置/占有率に関連付けられたシーンの品質は、被写体の位置/占有率が専門的に取り込まれたコンテンツおよび/または人気のあるコンテンツから取得された場合に高いと識別されてもよい。このようにして、特定のシーンのタイプについて、画像内の被写体の位置/占有率と、関連付けられたシーンの品質との関連性を学習するように、シーン品質モデル206を訓練することができる。
いくつかの例では、シーン品質モデルは、ライブイベントの記録中に取り込まれた姿勢データを用いて訓練されてもよい。例えば、スポーツの試合など(サッカー、バスケットボール、ラグビー、アイスホッケーなど)の放送イベント中に、競技場でのプレイヤの位置が追跡されてもよく、カメラの姿勢もまた追跡されてもよい(または、例えば、会場の既知の形状およびプレイヤの既知の位置に基づいて取得されてもよい)。この姿勢データは、シーン品質モデルに入力されてもよく、専門的な方法で取り込まれたコンテンツに対応するので、高品質のシーンに対応するものとしてラベル付けされてもよい。このようにして、シーン品質モデルは、プレイヤに対するカメラの姿勢について、高品質のシーンに対応する姿勢を学習することができる。
いくつかの例では、ビデオゲーム映像から取得した姿勢データをシーン品質モデルの訓練に使用してもよい。このような例では、仮想物体(例えば、プレイヤのアバター)に対する仮想カメラの姿勢を正確に把握することができ、この姿勢データを、シーン品質モデルの訓練に使用してもよい。この姿勢データに関連付けられたシーンの品質は、例えば人気のあるコンテンツ作成者によって取り込まれたビデオ映像に対応するか、またはそのビデオ映像に関連付けられた人気度が高い(例えば、多数のオンライン「閲覧」または「いいね」)場合に高いと識別されてもよい。このデータを用いてシーン品質モデル206を訓練することによって、シーン品質モデル206は、仮想物体に対する仮想カメラの姿勢について、結果的に高品質のシーンを有する画像を取り込む可能性が高い姿勢を学習することができる。この場合もやはり、シーン品質モデルを、仮想カメラの姿勢データに関連付けられたシーンのタイプを用いて訓練して、(被写体に対する)仮想カメラの姿勢とシーンの品質との関連性をシーンのタイプごと(つまり、ゲームのジャンルごと)に学習するようにする必要がある。
いくつかの例では、シーン品質モデル206は、異なるシーン内の異なる注目物体の訓練画像を用いてさらに訓練されてもよい。すなわち、例えばそれらの画像から抽出された姿勢、オクルージョンおよび構図情報とは対照的に、画像はシーン品質モデルへの入力として提供されてもよい。このようにして、シーン品質モデルは、高品質のシーンの画像に対応する画像特徴(例えば、照明、オクルージョン、構図など)を暗黙的に学習するように訓練されてもよい。上述の通り、例えば、訓練画像が専門的に取り込まれたコンテンツ、または人気があるとして知られているコンテンツに対応する場合、高品質のシーンは訓練画像のソースから推測することができる。例えば、Instagram(商標)、Flickr(商標)、500px(商標)、YouTube(商標)などから取り込まれた画像に多数の「いいね」や「ビュー」が関連付けられている場合、その画像はシーンの品質が高いと知られている場合がある。訓練画像は、訓練画像のソース、関連付けられた人気度(例えば、閾値を超える「いいね」または「閲覧」)および作成者のうちの少なくとも1つに基づいて、高品質のシーンであるとしてラベル付けされてもよい。
シーン品質モデル206を訓練するために使用される訓練画像の品質には、ばらつきがあり得ることが理解されるであろう。例えば、放送されるスポーツ映像は、例えばYouTube(商標)から取り込まれた映像より品質が優れている。これを補償するために、訓練画像は、例えばCycleGANなどの外部システムを使用して標準形式に変換されてもよい。
このデータを用いてシーン品質モデルを訓練することにより、シーン品質モデルは、特定のシーンのタイプについて、高品質のシーンの画像に共通する高度な画像特徴(色、構図、照明など)を学習することができる。訓練が完了すると、シーン品質モデルは、特定のシーンのタイプについて、現在の取込画像が高品質のシーンであるかどうかを決定することができる。
システム200は、シーン解析部205から入力を受信し、それに応答してカメラ201の姿勢を調整するように構成されたコントローラ207をさらに備える。この入力は、現在の画像に関連付けられたシーンの品質が閾値未満であるかどうかの指標を提供する。
カメラ201が実カメラ201である実施形態では、コントローラ207は、カメラ201が組み込まれているかまたは取り付けられている機器のモータなどの運動手段209が受信する信号を生成するように構成されてもよい。運動手段209は、カメラ201の並進および回転の少なくとも一方を制御するように動作可能である。いくつかの例では、カメラ201は、車輪および/またはプロペラを含む機器(例えば、ドローン)に組み込まれてもよく、コントローラ207は、車輪および/またはプロペラ(およびそれらに関連付けられた任意の操縦手段)に加わる動力を制御するように構成されてもよい。カメラ201が仮想カメラ201である実施形態では、コントローラ207は、仮想カメラ201が移動する仮想シーン内の新たな姿勢を単に特定してもよい。
代替的に、カメラが手持ちカメラである場合、コントローラがモータを制御することによってカメラの姿勢を調整する代わりに、コントローラは、カメラの案内インタフェースを制御することによってカメラの姿勢を調整してもよい。この案内インタフェースとしては、例えば、カメラの背面の画面(および/またはファインダ内)において所望の移動方向を指し、任意には、ユーザがカメラを理想的な位置に移動させるにつれて減少する数字もしくは線など、示された方向の所望の距離を示す矢印図形などが挙げられる。
いくつかの例では、コントローラ207は、結果的にシーンの品質が高い注目物体の画像を取り込む可能性がより高いカメラ201の姿勢を特定するように訓練された機械学習モデル(本明細書では姿勢モデル208と呼ぶ)を含む。姿勢モデル208は、深層強化学習を使用して訓練されたエージェントを含んでもよい。例えば、エージェントは、シーン内を無作為に移動するかまたは確率的に移動して、シーン内の被写体のシーンの全体的な品質が最高となる姿勢を学習することによって訓練されてもよい。つまり、報酬関数は、経時的なシーンの平均品質に対応してもよい。前述したように、取込画像のシーンの品質は、シーン品質モデル206を使用して判定されてもよい。
好ましい例では、エージェントは、仮想被写体を含む仮想シーン内を移動することによって訓練される(これは、被写体の周りのカメラの移動が容易になるため好ましい)。仮想シーンは、例えばゲームエンジンによって提供されてもよく、実カメラが配置される実際のシーンに対応してもよい。仮想シーン内の被写体に対する仮想カメラの各姿勢について、その姿勢に関連付けられたシーンの品質は、訓練されたシーン品質モデル206を使用して判定されてもよく、エージェントは、結果的に関連付けられたシーンの品質が高い画像を取り込む可能性が高い新たな姿勢を学習するように訓練されてもよい。いくつかの例では、仮想シーンは複数の仮想被写体を含んでもよく、シーン品質モデルは、カメラに対するそれら被写体の姿勢に基づいてシーンの品質を判定するように構成されてもよい。
一例では、姿勢モデル208に対する入力は、仮想カメラの位置および/または方向、仮想被写体の位置および/または方向、およびシーン品質モデル206の出力を含んでもよい。姿勢モデルは、シーンの平均品質を最大限に高める仮想被写体に対する仮想カメラの姿勢を(深層強化学習を介して)学習するよう、これらの入力を用いて訓練されてもよい。
エージェントは、複数の異なるシーン内を移動して、それらシーン内の異なる注目物体の画像を取り込むことによって訓練されてもよい。エージェントが十分な数の異なるシーンのタイプおよび異なる被写体について訓練されると、姿勢モデル208を使用してカメラ201の位置を調整してもよい。後に説明するように、姿勢モデルはまた、結果的に品質のより高いシーンの画像が取り込まれる1つ以上のカメラパラメータを学習するように訓練されてもよい。
いくつかの例では、注目物体(すなわち被写体)は人間のキャラクタを含んでもよい。このような例では、シーン品質モデル206は、人間のキャラクタに関連する姿勢および/または画像のデータを用いて訓練されてもよい。これらの例では、姿勢モデルを訓練して、人間の被写体の顔があまり遮蔽されない(例えば、前方を向く)ようにカメラの姿勢を調整してもよい。
理解されるように、人間の被写体の場合、識別ユニット202は、(例えば、画像分割、顔認識などを使用して)シーン内の人間の被写体を検出し、検出結果をシーン品質モデル206に対する入力として提供するように構成されてもよく、これにより、シーン解析部205は、適切に訓練されたモデル(すなわち、対応するシーン内の人間の被写体の画像を用いて訓練されたモデル)を採用して、取込画像のシーンの品質を判定することができる。
一般に、複数の人間のキャラクタを含むシーンの場合、1人以上の主要キャラクタと1人以上の副次的キャラクタが存在する。カメラ201の操作者がシーン内の役者を撮影している場合、主要キャラクタは、話しているかまたは所定の動作を行っているキャラクタに対応してもよい。通常、カメラ201は主要キャラクタに合焦することが望ましいため、シーンの取込画像は、脇役よりも主役を多く含まなくてはならない。また、通常は、主役の顔が遮蔽されないことが望ましい。
したがって、いくつかの例では、シーン品質モデル206は、複数のキャラクタに関連する姿勢および/または画像のデータを用いて訓練されてもよく、画像内の1人以上のキャラクタが主要キャラクタとして識別される。取込画像内で視認できる(および/または閾値量未満が遮蔽された)主要キャラクタに対応する画像データおよび/または姿勢データは、シーン品質モデル206が訓練されて、主要キャラクタを特徴とする画像が、主要キャラクタを視認できない画像よりも高品質であることを学習するように、高品質のシーンであるとしてラベル付けされてもよい。したがって、コントローラ207は、主要キャラクタの顔が遮蔽されていないか、または少なくともカメラ201の操作者が取り込もうとしているシーンのタイプに適した態様で現れるシーンの画像をもたらす可能性がより高いカメラ201の姿勢を特定するように訓練されてもよい。
いくつかの例では、ユーザは、どのキャラクタが主要キャラクタかを示す入力を提供してもよく、(十分に訓練された)シーン品質モデル206は、この識別に基づいてシーンの品質を判定してもよい。この識別は、例えばカメラ201によって取り込まれたビデオが表示されているタッチスクリーンを使用して実行されてもよく、ユーザは、シーン内の主要キャラクタに対応するタッチスクリーンの領域を選択してもよい。より一般的には、識別ユニット202は、シーン内の1人以上の主要キャラクタを示す入力を受信するように動作可能であってもよい。
いくつかの例では、シーン内の主要キャラクタの検出は自動的に実行されてもよい。例えば、システム200は、キャラクタの音声を検出する1つ以上のマイクロホンを備えてもよく、キャラクタは、そのキャラクタの音声の検出に基づいて、シーン内の主要キャラクタとして識別されてもよい。代替的または追加的に、シーン内の異なるキャラクタが話すように設定される時間は、例えば台本に基づいて事前に把握されている場合があり、この情報を識別ユニット202に提供して、シーンを撮影する間にカメラが合焦すべき異なるキャラクタを識別してもよい。一般に、システムは、少なくとも1人のキャラクタが話しているか、または話し始めようとしていることを示す音声データを受信するように動作可能な音声ユニット(図示せず)を備えてもよく、この情報が識別ユニット202に提供された後、どのキャラクタが主要キャラクタに対応するかが決定されてもよい。
場合によっては、カメラ201を用いて取り込もうとする複数の主要キャラクタまたは少なくとも2人のキャラクタが存在することがある。このような例では、少なくとも2人のキャラクタは、(上述の手段のいずれかを介して)取込画像に含めるために識別され、シーン品質モデル206は、シーン内の複数のキャラクタの識別に基づいて、取込画像に関連付けられたシーンの品質を判定するように構成されてもよい。この場合もやはり、シーン品質モデル206は、複数の主要キャラクタに関係する姿勢データおよび/または画像データを用いて訓練されてもよく、主要キャラクタの顔を視認できる画像について、シーンの品質はさらに高くてもよい。このようにして、コントローラ207は、結果的に複数の主要キャラクタの顔のオクルージョンを最小限にするカメラ201の姿勢を特定するように構成されてもよい。
いくつかの例では、カメラ201の操作者は、他の注目物体(つまり、人物以外)を取込画像に含めたいと望む場合がある。このような例では、識別ユニット202は、取込画像に含めるために、1つ以上の注目物体を示す入力を受信するように構成されてもよい。この入力がシーン品質モデル206に提供された後、識別された物体、カメラ201に対するそれら物体の姿勢、および/またはシーンの取込画像に基づいて、取込画像のシーンの品質が判定されてもよい。
物体は、取込画像に含めるためにユーザ入力によって識別されてもよい。例えば、カメラ201によって取り込まれたビデオ画像が画面に表示されてもよく、ユーザは、取込画像に含めたい注目物体に対応する画面の領域を選択してもよい。物体の識別は、シーン内の異なる物体を識別するために機械学習またはコンピュータビジョン技術を使用されてもよく、操作者が取込画像に含める優先度が高い識別された物体を手動で入力するという点で、ある程度自動的に行われてもよい。
いくつかの例では、操作者は、取込画像内の特定の注目物体の数もしくは量を最大にしたいと望む場合がある。例えばホラー映画では、樹木に囲まれたキャラクタを見せて恐怖を呼び起こすのが一般的である。したがって、カメラ201の操作者は、取込画像内の樹木の数を最大にすることを示す入力を提供してもよい。これは、例えば「樹木」を表示画像内の注目物体として選択すること、および、取込画像内の樹木の数を最大にするさらなる入力を提供することを含んでもよい。これらの入力がシーン品質モデル206に提供された後、取込画像内の識別された注目物体の数、任意の識別されたキャラクタ、取込画像、および/またはカメラ201に対する任意の識別されたキャラクタの姿勢に基づいて、取込画像のシーンの品質が判定されてもよい。理解されるように、一般に、識別されたキャラクタを視認できる画像のシーンの品質はより高くなるため、取り込まれた画像内の、例えば樹木の数を最大にしようとする場合に、カメラ201が可能な限り遠く離れた位置へ移動しないようにすることができる。
一部のコンテンツでは、カメラ201の位置を、(必ずしも人間のキャラクタに関連付けられているわけではない)シーン内の音源の位置に基づいて調整することが望ましい場合がある。したがっていくつかの例では、システム200は、シーン内の音源を検出する2つ以上のマイクロホンを備えてもよい。識別ユニット202は、マイクロホンによって検出された音声信号を受信し、それに応答して、検出された音声信号が対応する既知の音源を識別するように構成されてもよい。これは、例えば機械学習を使用することによって、または、単に音声信号のスペクトル特性を複数の既知の音源のスペクトル特性と比較することによって達成されてもよい。姿勢プロセッサ204は、2つ以上のマイクロホンによって検出された音声信号に基づいて、マイクロホンに対する音源の3D姿勢を特定するように構成されてもよい。好ましい例では、2つ以上のマイクロホンはカメラ201を含む機器に関連付けられているため、カメラ201に対する音源の姿勢は、マイクロホンによって検出された音声信号から推測することができる。
シーン品質モデル206は、識別された音源(すなわちタイプ)の指標およびカメラに対する音源の3D姿勢を受信し、それに応答して、取込画像に関連付けられたシーンの品質を判定するように構成されてもよい。これは、識別ユニット202によって注目物体として識別された人間のキャラクタなどの、任意の他の注目物体に追加することができる。理解されるように、このような例では、シーン品質モデル206は、シーン内の異なるタイプの音源を示すデータと、シーン内の被写体を取り込むために使用されるカメラ201に対する音源の位置および方向の少なくとも一方を示す姿勢データとを用いてさらに訓練される。
このようにして、シーン品質モデル206は、撮像被写体に関連付けられた姿勢データおよび/または画像データ、およびカメラ201に対する音源の姿勢に基づいて、取込画像に関連付けられたシーンの品質をさらに判定することができる。
一例では、シーン品質モデル206は、キャラクタが爆発から逃げているビデオのフレームを用いて訓練されてもよく、シーン品質モデル206は、(例えば、カメラに対する役者の姿勢、取込画像、爆発の場所に基づいて、)このような状況を撮影する場合に採用されるべきカメラ201の姿勢を学習してもよい。
いくつかの例では、シーンは仮想シーンであってもよいため、音源のタイプおよびシーン内での音源の相対位置を正確に把握することができる。さらに、異なる音源が音声を生成するタイミングもまた把握することができる。したがって、音声のタイプ、相対位置、および任意にはタイミング情報をシーン品質モデル206に入力してもよい。そこで、シーン品質モデル206は、例えば取込画像、例えばプレイヤのアバターおよび任意の音源のシーン内での位置に基づいて、仮想シーンの現在の取込画像に関連付けられたシーンの品質を判定してもよい。この場合もやはり、このような例では、シーン品質モデル206は、訓練画像(例えば、ビデオフレーム)および/または例えばプレイヤのアバターの3D姿勢、およびシーン内の任意の音源の相対位置を用いて訓練されてもよい。理解されるように、いくつかのビデオゲームでは、複数の音源が存在する可能性があるため、識別ユニット202は、プレイヤの体験に最も影響する音源(例えば、最大音源および/または最至近音源)を検出するように動作可能であってもよい。
いくつかの例では、シーン品質モデル206は、被写体の画像を取り込むために使用された1つ以上のカメラパラメータを示す固有のカメラデータを用いてさらに訓練されてもよい。固有のデータは、例えば訓練画像の取込みに使用されるカメラの焦点距離、絞り値、シャッタ速度、任意の特殊モード(HDRなど)を含んでもよい。例えば、実カメラによって取り込まれた実際のシーンの画像がシーン品質モデルの訓練に使用される場合、固有のカメラデータは、取込画像を用いてメタデータとして符号化されてもよい。このようにして、シーン品質モデル206を訓練して、カメラに対する被写体の相対的な姿勢と、(任意には、取込画像データの)1つ以上のカメラパラメータと、対応するシーンとの関連性を判定することができる。
(内部パラメータが考慮される)これらの例では、コントローラ207は、現在の画像のシーンの品質が閾値未満であるという判定に基づいて、カメラ201の1つ以上の内部パラメータを調整するようにさらに構成されてもよい。例えば、コントローラ207は、判定されたシーンの品質に基づいてカメラ201の焦点距離(すなわちズーム)、絞り値、シャッタ速度などを調整するように構成されてもよい。これらのパラメータの調整は、シーン品質モデル206によって出力された、判定されたシーンの品質に基づいて決定されてもよい。
前述したように、コントローラ207は、カメラ201の姿勢の調整を決定するように訓練された姿勢モデル208を含んでもよい。1つ以上のカメラパラメータも調整される例では、姿勢モデルをさらに訓練して、シーンの品質を最大限に高めるための1つ以上のカメラパラメータを決定してもよい。これは、例えば深層強化学習を使用して、仮想シーン内の被写体の複数の画像を取り込み、かつ(特定の位置について)最高品質のシーンを有する取込画像をもたらすカメラパラメータの組合せを学習するようにエージェントを訓練することを含んでもよい。この訓練の間に取り込まれた画像のシーンの品質は、訓練されたシーン品質モデル206を使用して(すなわち、シーンの品質が高いと把握された、対応するシーン内の対応する被写体の画像とどの程度密接に対応するかを判定することによって)判定されてもよい。
追加的または代替的な例では、コントローラは、例えば、カメラの移動先での姿勢に基づいて被写界深度を調整するように構成されてもよい。例えば、カメラが被写体から閾値距離未満の位置に移動した場合、コントローラは、背景をぼかしながら画像の被写体に合焦する必要があると決定してもよい。逆に、画像内の被写体について、姿勢が調整されたカメラからの距離が閾値を超えていると判定された場合、コントローラは、例えばカメラの絞り値を制御して、全てまたは大部分のシーンに合焦するように構成されてもよい。
上記の例を、システム内の別個のユニットとして説明したが、これらの1つ以上が同じ機器に含まれ、機器自体がカメラ機器を構成してもよいことが理解されるであろう。カメラ機器は、制御可能な位置および方向を有する物理的機器に対応してもよい。例えばカメラ機器は、動力式の車輪もしくはプロペラを有するカメラ機器(例えば、ドローン)に対応してもよい。全ての構成要素が同一の物理的機器に組み込まれている例では、例えば1つ以上のサーバ(例えば、クラウド)を使用して様々な機械学習モデルが訓練され、訓練された機械学習モデルは、物理カメラ機器の関連モジュールにエクスポートされてもよい。
したがって、いくつかの実施形態では、実カメラ機器が、シーンの画像を取り込むように動作可能なセンサと、(例えば、取込画像内の注目物体を識別するように動作可能な)識別ユニット、(例えば、カメラに対するシーン内の注目物体の姿勢を取得するように動作可能)な姿勢プロセッサ、(例えば、カメラによって取り込まれた画像に関連付けられたシーンの品質を検出するように構成され、取込画像に関連付けられたシーンの品質を判定するように訓練された機械学習モデルを含む)シーン解析部、および、(例えば、現在の画像のシーンの品質が閾値未満であるという判定に基づいて、カメラ機器の姿勢を制御するように動作可能な)コントローラから選択された1つ以上の構成要素とを含むシステムが提供される。
本明細書で説明する機械学習モデルは、例えば、訓練された畳み込みニューラルネットワーク(CNN)もしくは再帰型ニューラルネットワーク(RNN)などの訓練されたニューラルネットワーク、多層パーセプトロン(MLP)、または制限付きボルツマンマシンのうちの少なくとも1つを含んでもよいことが理解されるであろう。最終的に、任意の適切な機械学習システムを使用することができる。
いくつかの例では、シーンの品質を判定するためにカメラが画像を取り込む必要はないことがさらに理解されるであろう。例えば、いくつかの例では、シーンの品質は、カメラに対する被写体の姿勢のみに基づいて判定されてもよく、(例えば、被写体およびカメラの位置が放送イベント中に追跡されている場合、)任意の画像の取込みを実際には必要としない。
本明細書で説明する方法は、ソフトウェア命令によって、または専用ハードウェアを含めるかこれに置き換えることによって、適切に適合された従来のハードウェア上で実行してもよいことがさらに理解されるであろう。したがって、従来の同等の機器の既存の部品に対して必要な適合は、フロッピーディスク、光ディスク、ハードディスク、PROM、RAM、フラッシュメモリ、または、これらもしくはその他の記憶媒体の任意の組合せなどの非一時的な機械可読媒体に格納されたプロセッサが実行可能な命令を含むコンピュータプログラム製品の形で実施されるか、または、ASIC(特定用途向け集積回路)もしくはFPGA(フィールドプログラマブルゲートアレイ)、または従来の同等の機器の適合に使用するのに適した他の構成可能な回路としてハードウェアにおいて実現されてもよい。これとは別に、このようなコンピュータプログラムは、イーサネット、無線ネットワーク、インターネット、またはこれらもしくは他のネットワークの任意の組合せなどのネットワーク上のデータ信号を介して送信されてもよい。

Claims (15)

  1. システムであって、
    シーンの画像を取り込むように動作可能なカメラと、
    前記シーンの画像内の注目物体を識別するように構成された識別ユニットと、
    前記カメラに対する前記シーン内の前記注目物体の姿勢を取得するように構成された姿勢プロセッサと、
    取得した前記注目物体の姿勢および前記カメラによって取り込まれた画像の少なくとも一方に基づいて、それぞれの姿勢で前記カメラによって取り込まれた画像に関連付けられたシーンの品質を判定するように動作可能なシーン解析部であって、
    前記シーン解析部が、それぞれの姿勢で前記カメラによって取り込まれた前記画像に関連付けられた前記シーンの品質を判定するように訓練された第1の機械学習モデルを含む、シーン解析部と、
    現在の姿勢で取り込まれた画像の前記シーンの品質が閾値未満であるという判定に基づいて、前記カメラの姿勢を調整するように構成されたコントローラと
    を備える、システム。
  2. 前記第1の機械学習モデルが、訓練画像および/または注目物体の訓練画像を取り込んだ前記カメラに対する前記シーン内の前記注目物体の姿勢を示す姿勢データを用いて訓練され、前記姿勢データおよび/または前記訓練画像には、それぞれのシーンの品質がラベル付けされる、請求項1に記載のシステム。
  3. 前記姿勢データおよび/または前記訓練画像が、前記姿勢データおよび/または訓練画像のソースおよび前記姿勢データおよび/または訓練画像に関連付けられたユーザフィードバックの少なくとも一方に基づいて、高品質のシーンを有するとしてラベル付けされる、請求項2に記載のシステム。
  4. 前記コントローラが、現在の姿勢で取り込まれた画像の前記シーンの品質が閾値未満であるという判定に基づいて、前記カメラの1つ以上の内部パラメータを調整するように構成され、
    前記第1の機械学習モデルが、前記姿勢データおよび/または前記訓練画像が取得された前記カメラの1つ以上の内部パラメータを示す固有データを用いてさらに訓練される、請求項2または3に記載のシステム。
  5. 前記コントローラが、結果的により高品質のシーンを有する注目物体の画像を取り込む可能性が高い前記カメラの姿勢を特定するように訓練された、第2の機械学習モデルを含む、請求項1〜4のいずれか一項に記載のシステム。
  6. 前記第2の機械学習モデルが、深層強化学習を使用して訓練されたエージェントを含み、前記エージェントが、前記カメラによって取り込まれた画像の前記シーンの品質を最大限に高める姿勢を学習するように訓練され、前記エージェントが、複数の異なる仮想シーン内を移動し、かつ前記仮想シーン内の注目物体の仮想画像を取り込むことによって訓練される、請求項5に記載のシステム。
  7. 前記第2の機械学習モデルが、前記仮想画像を前記第1の訓練された機械学習モデルに入力することによって、前記仮想画像に関連付けられたシーンの品質を判定するように構成される、請求項6に記載のシステム。
  8. 前記識別ユニットが、前記カメラによって取り込まれた前記画像が対応するシーンのタイプを識別するように構成され、
    前記シーン解析部が、前記識別されたシーンのタイプに基づいて、それぞれの姿勢で前記カメラによって取り込まれた前記画像に関連付けられたシーンの品質を判定するようにさらに構成される、請求項1〜7のいずれか一項に記載のシステム。
  9. 前記識別ユニットが、前記カメラによって取り込まれた前記画像が対応するシーンのタイプを識別するように訓練された第3の機械学習モデルを含み、前記第3の機械学習モデルが、異なるタイプのシーンの画像および対応するシーン識別子を用いて訓練される、請求項8に記載のシステム。
  10. 前記注目物体がシーン内にキャラクタを含み、シーン品質モデルが、姿勢データおよび/またはシーン内のキャラクタの訓練画像を用いて訓練される、請求項1〜9のいずれか一項に記載のシステム。
  11. 前記注目物体が複数のキャラクタを含み、前記システムが、
    前記取込画像に含まれる1人以上のキャラクタを示す入力をユーザから受信するように動作可能な入力ユニットを備え、
    前記シーン解析部が、取り込まれた前記画像および/または前記カメラによって取り込まれた前記画像に含まれるキャラクタの3D姿勢に基づいて、シーンの品質を判定するように構成される、請求項10に記載のシステム。
  12. 少なくとも1人のキャラクタが話しているか、または話し始めようとしていることを示す音声データを受信するように動作可能な音声ユニットを備え、
    前記識別ユニットが、前記音声データに基づいて前記少なくとも1人のキャラクタを主要キャラクタとして識別するように構成され、
    前記シーン解析部が、前記カメラおよび/または前記カメラによって取り込まれた前記画像に対する前記シーン内の前記少なくとも1人の主要キャラクタの姿勢に基づいて、前記シーンの品質を検出するように構成される、請求項11に記載のシステム。
  13. 前記識別ユニットが、前記シーン内の音源を識別するように構成され、前記姿勢プロセッサが、前記カメラに対する前記音源の姿勢を特定するように構成され、
    前記シーン解析部が、前記カメラに対する前記音源の検出された姿勢に基づいて、取り込まれた前記画像に関連付けられたシーンの品質を判定するようにさらに構成される、請求項1〜12のいずれか一項に記載のシステム。
  14. 前記カメラが実カメラであり、前記システムが、前記カメラの前記位置および/または前記方向を制御する運動手段を含み、
    コントローラから入力を受信するように構成される前記運動手段が、車輪およびプロペラの少なくとも一方を備える、請求項1〜13のいずれか一項に記載のシステム。
  15. カメラ機器が、
    シーンの画像を取り込むように動作可能なセンサと、
    i.識別ユニット、
    ii.姿勢プロセッサ、
    iii.シーン解析部、および
    iv.コントローラ
    から選択された1つ以上の構成要素と
    を含む、請求項1に記載のシステム。
JP2020041939A 2019-03-19 2020-03-11 画像を取り込むシステムおよびカメラ機器 Pending JP2020174345A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB1903715.9 2019-03-19
GB1903715.9A GB2584986B (en) 2019-03-19 2019-03-19 System and camera device for capturing images

Publications (1)

Publication Number Publication Date
JP2020174345A true JP2020174345A (ja) 2020-10-22

Family

ID=66381023

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020041939A Pending JP2020174345A (ja) 2019-03-19 2020-03-11 画像を取り込むシステムおよびカメラ機器

Country Status (5)

Country Link
US (1) US11785328B2 (ja)
EP (1) EP3713217B1 (ja)
JP (1) JP2020174345A (ja)
CN (1) CN111726518A (ja)
GB (1) GB2584986B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2584986B (en) 2019-03-19 2023-07-26 Sony Interactive Entertainment Inc System and camera device for capturing images
WO2020212470A1 (en) * 2019-04-17 2020-10-22 Koninklijke Philips N.V. Medical imaging systems and methods with auto-correction of image quality-based on the log analysis of medical devices
EP3772720B1 (en) * 2019-08-08 2021-09-29 Siemens Healthcare GmbH Method and system for image analysis
US11877052B2 (en) * 2020-12-08 2024-01-16 Cortica Ltd. Filming an event by an autonomous robotic system
US11879984B2 (en) * 2021-05-21 2024-01-23 Booz Allen Hamilton Inc. Systems and methods for determining a position of a sensor device relative to an object
US11386580B1 (en) * 2021-08-13 2022-07-12 Goodsize Inc. System apparatus and method for guiding user to comply with application-specific requirements
CN114627134B (zh) * 2022-05-18 2022-08-09 深圳元象信息科技有限公司 场景图像生成方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10334158B2 (en) * 2014-11-03 2019-06-25 Robert John Gove Autonomous media capturing
US10379534B2 (en) * 2016-01-28 2019-08-13 Qualcomm Incorporated Drone flight control
US10616482B2 (en) * 2017-03-10 2020-04-07 Gopro, Inc. Image quality assessment
CN109144092A (zh) * 2017-06-16 2019-01-04 昊翔电能运动科技(昆山)有限公司 无人机飞行辅助方法、装置及无人机
US10762605B2 (en) * 2017-08-04 2020-09-01 Outward, Inc. Machine learning based image processing techniques
CN107749952B (zh) * 2017-11-09 2020-04-10 睿魔智能科技(东莞)有限公司 一种基于深度学习的智能无人摄影方法和系统
KR102438201B1 (ko) * 2017-12-01 2022-08-30 삼성전자주식회사 사진 촬영과 관련된 추천 정보를 제공하는 방법 및 시스템
GB2584986B (en) 2019-03-19 2023-07-26 Sony Interactive Entertainment Inc System and camera device for capturing images

Also Published As

Publication number Publication date
CN111726518A (zh) 2020-09-29
GB2584986B (en) 2023-07-26
EP3713217B1 (en) 2023-12-06
US11785328B2 (en) 2023-10-10
EP3713217A3 (en) 2020-10-07
GB201903715D0 (en) 2019-05-01
EP3713217A2 (en) 2020-09-23
GB2584986A (en) 2020-12-30
US20200304707A1 (en) 2020-09-24

Similar Documents

Publication Publication Date Title
JP2020174345A (ja) 画像を取り込むシステムおよびカメラ機器
US11509817B2 (en) Autonomous media capturing
US10721439B1 (en) Systems and methods for directing content generation using a first-person point-of-view device
US11122258B2 (en) Method and apparatus for generating and displaying 360-degree video based on eye tracking and physiological measurements
US10083363B2 (en) System and method for customizing content for a user
US10262461B2 (en) Information processing method and apparatus, and program for executing the information processing method on computer
US11553126B2 (en) Systems and methods to control camera operations
US20180373413A1 (en) Information processing method and apparatus, and program for executing the information processing method on computer
US9460340B2 (en) Self-initiated change of appearance for subjects in video and images
US10453248B2 (en) Method of providing virtual space and system for executing the same
JP6574937B2 (ja) 通信システム、制御方法、および記憶媒体
CN109069933A (zh) 在vr环境中的观众视角
CN109069932A (zh) 观看与虚拟现实(vr)用户互动性相关联的vr环境
TWI610247B (zh) 在玩遊戲期間標識、擷取、呈現和處理照片的方法以及用於該方法的電腦可讀取儲存媒體
CN107533356A (zh) 头像控制系统
WO2021139728A1 (zh) 全景视频处理方法、装置、设备及存储介质
JP2018113616A (ja) 情報処理装置、情報処理方法、およびプログラム
US20190005731A1 (en) Program executed on computer for providing virtual space, information processing apparatus, and method of providing virtual space
US20180160054A1 (en) System and method for automatically generating split screen for a video of a dynamic scene
KR102239134B1 (ko) 드론에 부착된 vr 카메라를 이용하여 촬영한 운동 경기 영상을 제공하는 방송 시스템
CN110771175A (zh) 视频播放速度的控制方法、装置及运动相机
US20180124374A1 (en) System and Method for Reducing System Requirements for a Virtual Reality 360 Display
WO2014179749A1 (en) Interactive real-time video editor and recorder
US10902681B2 (en) Method and system for displaying a virtual object

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240312