JP7395855B2

JP7395855B2 - ３６０度ビデオへのデジタルストリームの自動検出及び挿入のためのシステム、方法及びプログラム

Info

Publication number: JP7395855B2
Application number: JP2019116240A
Authority: JP
Inventors: ユリアスチアヒヤデ; ジーキンバードナルド; リュウチョン; ドゥヌローラン
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2018-07-10
Filing date: 2019-06-24
Publication date: 2023-12-12
Anticipated expiration: 2039-06-24
Also published as: US11272125B2; JP2020010327A; US10873709B2; CN110708502A; US20200021750A1; US20210112209A1; CN110708502B

Description

開示された実施形態は、一般に拡張ビデオシステム、方法及びプログラムに関し、より詳細には、３６０度ビデオへのデジタルストリームの自動検出及び挿入のためのシステム、方法及びプログラムに関する。

没入型ビデオ又は球形ビデオとも呼ばれる３６０度ビデオは、全方位カメラ又は異なる方向を向いた複数のカメラの集まりを使用して取得した、あらゆる方向のビューが同時に記録されるビデオ録画である。従来の平面表示装置上で３６０度ビデオを再生する間、視聴者はパノラマのように視聴方向の制御を提供されてもよい。３６０度ビデオはまた、円筒形又は球形の一部に配置された表示装置又はプロジェクタでも再生できる。上述した３６０度ビデオは、視聴できるものに対する完全な制御を遠隔視聴者に提供できるため、会議またはトレードショー、美術館、及びアート展覧会などの他のグループの集まりに、遠隔から参加することを著しく改善することができる。

しかしながら、このテクノロジの欠点の１つは、３６０度ビデオでは、画面に投影されたプレゼンテーションスライドまたはホワイトボードなど、高密度の情報が含まれている一部の領域を適切に画像化できないことである。多くの場合、グレア及び関心領域への距離により、視聴者が表示された情報を読むことが不可能になる。

したがって、従来の３６０度ビデオ技術の上記及び他の欠点を考慮して、高解像度デジタルビデオストリームを自動的に検出して３６０度ビデオに挿入して、ユーザが読めるようにする新規かつ改良されたシステム及び方法が必要である。

Baudisch Patrick, Nathaniel Good, and Paul Stewart, "Focus plus context screens: combining display technology with visualization techniques", Proceedings of the 14th annual ACM symposium on User interface software and technology. ACM, 2001 Liu Qiong, et al. "FLYSPEC; A multi-user video camera system with hybrid human and automatic control.", Proceedings of the tenth ACM international conference on Multimedia. ACM, 2002 Foote, Jonathan, et al. "Reach-through-the-screen: A mew metaphor for remote collaboration.", Pacific-Rim Conference on Multimedia. Springer, Berlin, Heidelberg, 2004 Erol, Berna, Jonathan J. Hull, and Dar-Shyang Lee, Linking multimedia presentations with their symbolic source documents; algorithm and applications,", Proceeding of the eleventh ACM international conference on Multimedia. ACM, 2003 He Kaiming, et al, "Mask r-cnn.", Computer Vision (ICCV), 2017 IEEE international Conference on. IEEE, 2017

本開示の技術は、３６０度ビデオ内に媒体を挿入するシステム、方法およびプログラムを提供する。

本明細書に記載の実施形態の一態様によれば、環境の３６０度ビデオを取得するための少なくとも１つのカメラと、取得された３６０度ビデオ内の少なくとも１つのインセット候補（ｉｎｓｅｔｃａｎｄｉｄａｔｅ）を識別し、識別された少なくとも１つのインセット候補に媒体を挿入するための処理ユニットとを備えるシステムが提供される。

１つ又は複数の実施形態では、インセット候補は３６０度ビデオ内の領域である。

１つ又は複数の実施形態では、３６０度ビデオ内の領域は表面である。

１つ又は複数の実施形態では、３６０度ビデオ内の領域は表示画面である。

１つ又は複数の実施形態では、３６０度ビデオ内の領域はホワイトボードである。

１つ又は複数の実施形態では、媒体は画像である。

１つ又は複数の実施形態では、媒体はビデオストリームである。

１つ又は複数の実施形態では、媒体の解像度は３６０度ビデオの解像度よりも高い。

１つ又は複数の実施形態では、インセット候補は、インセット候補の検出されたオクルージョンに基づいて切り取られる。

１つ又は複数の実施形態において、インセット候補はマスクを用いて切り取られる。

１つ又は複数の実施形態では、インセット候補は、３６０度ビデオのコンテンツを使用して識別される。

１つ又は複数の実施形態では、インセット候補は、インセット候補の位置に対する少なくとも１つのカメラの位置に基づいて識別される。

１つ又は複数の実施形態では、識別された少なくとも１つのインセット候補に挿入される媒体は、識別された少なくとも１つのインセット候補の近傍に位置する３６０度ビデオ内の人物の顔認識に基づいて選択される。

１つ又は複数の実施形態では、インセット候補は、３６０度ビデオ内の物体認識を用いて識別される。

１つ又は複数の実施形態では、インセット候補はさらに、ユーザの入力に基づいて識別される。

１つ又は複数の実施形態では、識別された少なくとも１つのインセット候補に挿入される媒体は、３６０度ビデオ内の識別された少なくとも１つのインセット候補の位置に基づいて選択される。

本明細書に記載の実施形態の別の態様によれば、環境の３６０度ビデオを取得するための少なくとも１つのカメラを使用することと、取得された３６０度ビデオ内の少なくとも１つのインセット候補を識別し、識別された少なくとも１つのインセット候補に媒体を挿入するための処理ユニットを使用することとを含む方法が提供される。

本明細書に記載の実施形態のさらに別の態様によれば、環境の３６０度ビデオを取得するための少なくとも１つのカメラを使用することと、取得された３６０度ビデオ内の少なくとも１つのインセット候補を識別し、識別された少なくとも１つのインセット候補に媒体を挿入するための処理ユニットを使用することとを含む方法を実施する一組の命令を具体化するコンピュータプログラムが提供される。

本発明に関連するさらなる態様は、以下の説明に一部が記載され、一部はその説明から明らかになるか、又は本発明の実施によって習得され得る。本発明の態様は、以下の詳細な説明及び添付の特許請求の範囲で特に指摘される様々な要素及び態様の要素及び組み合わせによって実現及び達成され得る。

上記及び下記の説明は、例示的及び説明的なものに過ぎず、特許請求の範囲に記載の発明又はその応用をいかなる形でも限定するものではないことを理解されたい。

添付の図面は、本明細書に組み込まれ、本明細書の一部を構成し、本発明の実施形態を例示し、説明と共に、本発明の技術の原理を説明し示す役割を果たす。

３６０度ビデオの例示的な設定を示す図である。本明細書に記載の３６０度ビデオへのデジタルストリームの自動検出及び挿入のためのシステムの実施形態の例示的な動作シーケンスを示す図である。カメラから直接見えない３６０度ビデオ内の特定の例示的領域（ラップトップのＬＣＤ画面など）を示す図である。本明細書に記載の技術を実施するために使用することができるコンピュータシステム４００の例示的な実施形態を示す図である。

以下の詳細な説明では、同一の機能要素が同様の番号で示されている添付図面を参照する。前述の添付図面は、本発明の原理に従った特定の実施形態及び実施態様を示すものであって、限定としてではなく、例示として示す。これらの実施態様は、当業者が本発明を実施することができるように十分に詳細に記載されており、他の実施態様を利用してもよく、本発明の範囲及び趣旨から逸脱することなく様々な要素の構造変化及び／又は代用が行われてもよいことを理解されたい。したがって、以下の詳細な説明は、限定された意味で解釈されるべきではない。さらに、説明した本発明の様々な実施形態は、汎用コンピュータ上で実行されるソフトウェアの形で、特殊なハードウェアの形で、又はソフトウェアとハードウェアの組み合わせの形で実施することができる。

本明細書に記載の実施形態の一態様によれば、３６０ビデオへのデジタルストリームの自動検出及び挿入のためのシステム及び方法が提供される。このようなユーザの関心領域の様々な例には、限定するものではないが、様々な電子表示装置上に表示される又は電子ペーパ（電子インク）に書かれるコンテンツ、電子プロジェクタを使用して様々な表面に投影されるコンテンツ、３６０度ビデオ内に現れる紙文書のコンテンツ及び／又は３６０度ビデオの内側のホワイトボード（黒板）に書かれたコンテンツが含まれる。当業者には理解されるように、ユーザの関心のあるこれらの領域のうちのますます多くが、コンピュータが表示装置を駆動していることを意味する「デジタルボーン（ｄｉｇｉｔａｌｂｏｒｎ）」である。ホワイトボード、紙文書、美術館の絵画など、コンテンツによっては、参加者（又は管理人）が地域の写真を撮影したものもあり、どこかに再びデジタル形式で保存され、ダウンロードできる。

１つ又は複数の実施形態では、ユーザにとって関心のあるコンテンツを有するこれらのデジタルストリームが取得され、次いで生の３６０度ビデオフィードから生成された３６０度ビュー上に挿入され、ユーザにそれらをネイティブの高解像度で見る能力を与える。この記述は３６０度の視野の画像に焦点を当てているが、本明細書に記載の方法は、全３６０度未満のパノラマの視野を有する他のビューに適用することができることに留意されたい。

１つ又は複数の実施形態では、これを達成するために、記載のシステムは、各デジタルストリームを３６０度ビデオ上のどこに挿入すべきかを半自動的に決定する。現実的なインセットを提供するために、システムの実施形態は、３６０度カメラと関心領域との間を移動する可能性がある人々などのオブジェクトのマスクを防ぐために、デジタルストリームをさらにマスクする（例えばプレゼンターは投影コンテンツの前を移動する）。

様々な実施形態は、領域を見つけてインセットを配置する場所を決定するために２つの方法、すなわち画像に基づくものと、幾何学に基づくものとを使用する。画像に基づく方法を使用すると、カメラ又は領域の実際の配置に関する情報は必要なく、それらは、単純に３６０度カメラからの画像内の位置によって決定及び操作される。あるいは、幾何学に基づく方法は、画像内のそれらの対応する位置を決定するために、世界内の領域の位置と共にカメラの姿勢を使用する。画像に基づく方法はより簡単で、常設の３６０度カメラ及び会議室内の電子（ＬＣＤ、ＬＥＤ、プラズマ）表示装置など、カメラと関心領域が固定されている状況に適することができる。

別の代替の実施形態では、カメラが移動する、領域が移動する、又は他のカメラもしくはセンサなどの補助ツールが関心領域又は遮蔽体の位置を決定するために使用される場合、幾何学に基づく方法が必要とされ得る。会議室のシナリオに特に向けられている前述の画像に基づく方法が最初に説明され、次に幾何学に基づく方法についての議論が提供される。

１つ又は複数の実施形態では、図１に示されるように、第１のステップは、３６０度ビデオフィードから、候補面及び物体（「関心領域」と総称される）の組を抽出する。これらは３つの表面１０１、１０２及び１０３と、５つの顔１０４、１０５、１０６、１０７及び１０８と、顔の１つに関連付けられた１つのラップトップ１０９とを含む。様々な実施形態において、前述の自動検出は、顔及び人物の検出ならびに検出された点滅画面を使用して、ビデオ内のそれらの対応する位置を決定することができる。

図２は、本明細書に記載の３６０度ビデオへのデジタルストリームの自動検出及び挿入のためのシステムの実施形態の例示的な動作シーケンス２００を示す。まず、ステップ２０１で、１つ又は複数のカメラを使用して３６０度ビデオが作成される。ステップ２０２で、３６０度ビデオ内の領域が検出される。

ステップ２０３で、候補領域が識別される。様々な実施形態では、ステップ２０３で、ユーザ（エンドユーザ又は「部屋管理人」）が前述の関心領域の位置を手動で調整できるようにすることができる。ほとんどの部屋では、プロジェクタ画面又はホワイトボードが広範囲に移動されることはほぼあり得ないため、上記の表面をさらに調整する必要はないことに留意されたい。ステップ２０５で、システムの実施形態は次に、システムに利用可能にされた一組のデジタルストリームを集める。デジタルストリームは、演壇コンピュータ（ｐｏｄｉｕｍｃｏｍｐｕｔｅｒ）から実行されるＶＮＣビデオストリーム（ビデオ＋オーディオ、ＨＴＭＬ５ソリューション）、ホワイトボードを画像化しているモバイル装置からの画像又はライブビデオ、会議の間に共有されている画面のＷｅｂＲＴＣ（ウェブ・リアルタイム・コミュニケーション）ストリーム、ならびに、会議の参加者名又は当技術分野で周知のフォーマットの他の任意のビデオストリームを含むが、これらに限定されない。

様々な実施形態において、ステップ２０４に示すように、画像マッチングを使用して、システムはデジタルストリームを以前に識別された関心領域に関連付け、その結果、ストリーム／領域対２０６が得られる。この場合も、アプリケーションのエンドユーザ又はシステム管理者は、自動的に生成されたデフォルトのマッピングを変更できる。例えば、図１では、ホワイトボードのデジタル画像をマッピングすべきホワイトボードを区別するのが難しい場合がある。

関心領域の位置を見つけ、デジタルストリームにマッピングされると、デジタルストリームは、３６０度ビデオフィードの３Ｄレンダリング上に追加される。しかしながら、部屋の人々が時々関心領域を遮る可能性があるので（例えば、投影されたコンテンツの前で移動するプレゼンター）、システムの実施形態は、ステップ２０７を参照し、最終レンダリングに挿入する前にデジタルストリームのマスクを計算するオクルージョン検出器を含む。様々な実施形態において、マスキングは以下の方法で行われてもよい。

１．修正された関心領域とその関連ストリームを直接比較し、大きな差がある領域をマスクする（例えば図１、ホワイトボード）。

２．デジタルストリームの前の遮蔽形状を検出するために、Ｈｅ，Ｋａｉｍｉｎｇらの「Ｍａｓｋｒ－ｃｎｎ」ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＩＣＣＶ）、２０１７ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ、ＩＥＥＥ、２０１７年」に記載されているＭａｓｋＲ－ＣＮＮ方法を使用する。この方法を図３に示す。図３において、ラップトップとして検出された関心領域にラップトップのストリームがレンダリングされるが、会議中にユーザがラップトップの前に移動する場合、ラップトップが消える可能性がある。１つ又は複数の代替実施形態では、前述のＭａｓｋＲ－ＣＮＮ方法に代えて、他の方法を使用することができる。例えば立っている人がいるか否かを判断することができる任意の物体検出器、姿勢情報を取得するために使用できる任意の人間の姿勢推定器、又はＧｏｏｇｌｅから入手可能なＤｅｅｐＬａｂなどの他の任意のセマンティックセグメンテーションネットワークを含むが、これらに限定されるものではない。最後に、ステップ２０８で、最終インセットレンダリングが実行される。

参加者による会議中にＷｅｂＲＴＣ上で共有されるラップトップ画面など、一部の領域はカメラから見えない場合があり、図３に示すように、３６０カメラはラップトップ要素３０１の背面のみを見て、画像差分を用いてマスクを計算することを不可能にすることに留意されたい。代わりに、一実施形態では、記載されたシステムは、人が特定の領域の前に立っていることを検出するために、人物検出器及び切り出し（例えば、ＭａｓｋＲ－ＣＮＮ）に依存する。

１つ又は複数の実施形態では、顔検出器がまた顔認識を有する場合、システムは、認識された顔に最も近いラップトップを介して３６０度ビデオ上に共有画面を挿入することができる。顔を容易に認識できない場合、一実施形態では、例えば３６０度ビデオフィードにおいて自分の顔をクリックすることにより、参加者は自分自身を手動で領域に割り当てることができる。

拡張ビデオのための幾何学に基づく方法をここで詳細に説明する。インセットを配置すべき領域を決定するもう１つの方法は、３６０度カメラ及び関心領域のワールドポジション（ｗｏｒｌｄｐｏｓｉｔｉｏｎ）及び配置を決定することである。次に、長方形の頂点など、領域を定義する世界座標を画像座標に投影できる。これは、シーン内のカメラ又は物体が移動している状況、又はマスキングのための情報を提供するために他の位置情報源が使用されている場合に必要になることがある。例えば、骨格追跡装置を備えた、当技術分野において周知であり広く市販されているＫｉｎｅｃｔシステムは、発表者が表示装置の前に立っているか否かを判定することができる。Ｋｉｎｅｃｔが３６０度カメラのすぐ近くに配置されている場合は、画像に基づく方法で十分であるが、Ｋｉｎｅｃｔｓが他の場所にある場合は、追跡されたプレゼンターのワールドポジション（ｗｏｒｌｄｐｏｓｉｔｉｏｎ）は、オクルージョンがあるか判断するために、３６０度画像座標に投影されなければならない。これはまた、ラップトップなどの装置の位置を決定するために構造化コード化光などの幾つかの追跡技術を使用する場合、使用することができる。

カメラが移動している場合、カメラ位置は、当技術分野で周知の載置されたＱＲコード（登録商標）上、又は登録画像上のランドマーク点などの、世界における基準点の位置を識別することによって決定され得る。これはリアルタイムで行うことができる。美術館の仮想記録ツアーのなどの幾つかの用途では、カメラ姿勢は、リアルタイムでは実行されない、当技術分野で周知のＯｐｅｎＳＦＭで提供されるような動き方法からの構造によって決定され得る。
コンピュータシステムの例示的な実施形態

図４は、本明細書に記載の技術を実現するために使用することができるコンピュータシステム４００の例示的な実施形態を示す。１つ又は複数の実施形態では、コンピュータ４００は、当業者には周知のモバイルコンピューティング装置のフォームファクタ内で実現することができる。代替の実施形態では、コンピュータ４００はラップトップ又はノートパソコンに基づいて実現されてもよい。さらに別の実施形態では、コンピュータ４００は特殊なコンピューティングシステムとすることができる。

コンピュータ４００は、コンピュータ４００の様々なハードウェア構成要素間で情報を通信するためのデータバス４０４又は他の相互接続又は通信機構と、情報を処理し、その他の計算及び制御タスクを実行するためにデータバス４０４に結合された中央処理装置（ＣＰＵ又は単にプロセッサ）４０１とを含み得る。コンピュータ４００はまた、様々な情報ならびプロセッサ４０１によって実行される命令を格納するためにデータバス４０４に結合されたランダムアクセスメモリ（ＲＡＭ）又は他の動的記憶装置などのメモリ４１２を含む。メモリ４１２はまた、磁気ディスク、光ディスク、固体フラッシュメモリ装置、又は他の不揮発性固体記憶装置などの永続的記憶装置を含み得る。

１つ又は複数の実施形態では、メモリ４１２は、プロセッサ４０１による命令の実行中に、一時的な変数又は他の中間情報を格納するためにも使用され得る。任意選択で、コンピュータ４００は、読み出し専用メモリ（ＲＯＭ又はＥＰＲＯＭ）４０２、又はコンピュータ４００の動作に必要なファームウェア、基本入出力システム（ＢＩＯＳ）、ならびにコンピュータ４００の様々な構成パラメータなどの、プロセッサ４０１の静的情報及び命令を格納するためにデータバス４０４に結合された他の静的記憶装置をさらに含み得る。

１つ又は複数の実施形態では、コンピュータ４００は、３６０度ビデオを生成するために２つ以上のカメラ４０９及び４１０をさらに組み込んでもよい。さらに、コンピュータ４００は、取り込まれた３６０度ビデオに関連する音声を拾うための複数のマイクロフォン４１１を組み込んでもよい。

１つ又は複数の実施形態では、コンピュータ４００は、データバス４０４に結合されたネットワークインタフェース４０５などの通信インタフェースをさらに含んでもよい。ネットワークインタフェース４０５は、ＷＩＦＩインタフェース４０７及びセルラネットワーク（ＧＳＭ（登録商標）又はＣＤＭＡ）アダプタ４０８のうちの少なくとも１つを使用して、コンピュータ４００とインターネット４２４との間の接続を確立するように構成され得る。ネットワークインタフェース４０５は、コンピュータ４００とインターネット４２４との間に双方向データ通信を提供するように構成されてもよい。ＷＩＦＩインタフェース４０７は、８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ、及び／又は８０２．１１ｎプロトコル、ならびに当業者には周知のブルートゥース（登録商標）プロトコルに従って動作することができる。例示的な実装形態では、ＷＩＦＩインタフェース４０７及びセルラネットワーク（ＧＳＭ（登録商標）又はＣＤＭＡ）アダプタ４０８は、様々な種類の情報を表すデジタルデータストリームを搬送する電気信号又は電磁信号を送受信する。

１つ又は複数の実施形態では、インターネット４２４は典型的に、１つ又は複数のサブネットワークを介して他のネットワークリソースへデータ通信を提供する。したがって、コンピュータ４００は、遠隔媒体サーバ、ウェブサーバ、他のコンテンツサーバ、ならびに他のネットワークデータ記憶リソースなど、インターネット４２４上の任意の場所にある様々なネットワークリソースにアクセスすることができる。１つ又は複数の実施形態では、コンピュータ４００は、ネットワークインタフェース４０５によって、インターネット４２４を含む様々なネットワークを介して、メッセージ、媒体、及びアプリケーションプログラムコードを含む他のデータを送受信するように構成される。インターネットの例では、コンピュータ４００がネットワーククライアントとして機能する場合、コンピュータ４００で実行されるアプリケーションプログラムのためのコード又はデータを要求することができる。同様に、様々なデータやコンピュータコードを他のネットワークリソースに送信することができる。

１つ又は複数の実施形態では、本明細書に記載の機能は、メモリ４１２に含まれる１つ又は複数の命令の１つ又は複数のシーケンスを実行するプロセッサ４０１に応答してコンピュータ４００によって実施される。そのような命令は、他のコンピュータ可読媒体からメモリ４１２に読み込まれてもよい。メモリ４１２に含まれる命令シーケンスの実行は、本明細書に記載されている様々なプロセスステップをプロセッサ４０１に実行させる。代替の実施形態では、本発明の実施形態を実施するために、ソフトウェア命令の代わりに又はソフトウェア命令と組み合わせて、ハードワイヤード回路を使用することができる。したがって、本発明の実施形態は、ハードウェア回路とソフトウェアとの特定の組み合わせに限定されない。

本明細書で使用される「コンピュータ可読媒体」という用語は、実行のためにプロセッサ４０１に命令を提供することに関与する任意の媒体を指す。コンピュータ可読媒体は機械可読媒体のほんの一例であり、本明細書で説明される方法及び／又は技術のいずれかを実施するための命令を搬送することができる。そのような媒体は多くの形態であり得、不揮発性媒体及び揮発性媒体を含むがこれらに限定されるものではない。

一般的な形態の非一時的コンピュータ可読媒体は、例えば、フロッピーディスク（登録商標）、フレキシブルディスク、ハードディスク、磁気テープ、又は他の任意の磁気媒体、ＣＤ－ＲＯＭ、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する他の任意の物理的媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、フラッシュＥＰＲＯＭ、フラッシュドライブ、メモリカード、他の任意のメモリチップ又はカートリッジ、あるいはコンピュータが読み取ることができる他の任意の媒体を含む。様々な形態のコンピュータ可読媒体は、実行のために１つ又は複数の命令の１つ又は複数のシーケンスをプロセッサ４０１に搬送することに関係することができる。例えば、命令は最初に遠隔コンピュータから磁気ディスク上に運ばれてもよい。あるいは、遠隔コンピュータは命令をその動的メモリにロードし、インターネット４２４を介して命令を送信することができる。具体的には、コンピュータ命令は、当技術分野で周知の様々なネットワークデータ通信プロトコルを使用して、インターネット４２４を介して前述の遠隔コンピュータからコンピュータ４００のメモリ４１２にダウンロードすることができる。

１つ又は複数の実施形態では、コンピュータ４００のメモリ４１２は、以下のソフトウェアプログラム、アプリケーション、及び／又はモジュールのうちのいずれかを格納することができる。

１．オペレーティングシステム（ＯＳ）４１３は、基本的なシステムサービスを実施し、コンピュータ４００の様々なハードウェア構成要素を管理するためのモバイルオペレーティングシステムであり得る。オペレーティングシステム４１３の例示的な実施形態は、当業者には周知であり、現在知られている、又は今後開発される任意のモバイルオペレーティングシステムを含み得る。ネットワークインタフェース４０５を使用してネットワーク通信を可能にするためのネットワーク通信モジュール４１４をさらに提供することができる。

２．ソフトウェアモジュール４１５は、例えば、コンピュータ４００のプロセッサ４０１によって実行される一組のソフトウェアモジュールを含むことができ、これは、コンピュータ４００に、カメラ４０９及び４１０を使用して３６０度ビデオを記録するなどの所定の機能を実行させ（モジュール４１６）、またデジタルストリームの３６０度ビデオへの自動検出及び挿入を実行させる（モジュール４１７）。

３．データ記憶装置４１８は、例えば、様々なパラメータ及びしきい値４１９を格納するために使用され得る。

最後に、本明細書で説明されるプロセス及び技術は、本質的に特定の装置に関連しておらず、成分の任意の適切な組み合わせによって実施され得ることを理解されたい。さらに、本明細書に記載の教示に従って、様々なタイプの汎用装置を使用することができる。また、本明細書に記載の方法を実行するための特殊化された装置を構築することが有利であってもよい。本発明を特定の実施例に関連して説明してきたが、これらはあらゆる点で限定的ではなく例示的であることが意図されている。当業者は、ハードウェア、ソフトウェア、及びファームウェアの多くの異なる組み合わせが本発明を実施するのに適していることを理解するであろう。例えば、本明細書で説明されたソフトウェアは、アセンブラ、Ｃ／Ｃ＋＋、Ｏｂｊｅｃｔｉｖｅ－Ｃ、パール、シェル、ＰＨＰ、ジャバ、ならびに現在知られている又は今後開発されるプログラミング言語又はスクリプト言語などの多種多様なプログラミング言語又はスクリプト言語で実施され得る。

さらに、本明細書の考察及び本明細書に開示された本発明の実施から当業者には本発明の他の実施態様が明らかであろう。記載された実施形態の様々な態様及び／又は構成要素は、デジタルストリームの３６０度ビデオへの自動検出及び挿入のためのシステム及び方法において、単独で又は任意の組み合わせで使用され得る。本明細書及び実施例は、例示的なものとして考えられることが意図され、本発明の真の範囲及び趣旨は、添付の特許請求の範囲によって示される。

Claims

ａ．環境のビデオを取得するための少なくとも１つのカメラと、
ｂ．前記取得されたビデオ内の少なくとも１つのインセット候補を識別し、前記識別された少なくとも１つのインセット候補に媒体を挿入するための処理ユニットと
を備え、
前記ビデオは３６０度ビデオであり、
前記インセット候補は、前記インセット候補の位置に対する前記少なくとも１つのカメラの位置に基づいて識別される、システム。
ａ．環境のビデオを取得するための少なくとも１つのカメラと、
ｂ．前記取得されたビデオ内の少なくとも１つのインセット候補を識別し、前記識別された少なくとも１つのインセット候補に媒体を挿入するための処理ユニットと
を備え、
前記識別された少なくとも１つのインセット候補に挿入される前記媒体は、前記識別された少なくとも１つのインセット候補の近傍に位置するビデオ内の人物の顔認識に基づいて選択される、システム。
ａ．環境のビデオを取得するための少なくとも１つのカメラと、
ｂ．前記取得されたビデオ内の少なくとも１つのインセット候補を識別し、前記識別された少なくとも１つのインセット候補に媒体を挿入するための処理ユニットと
を備え、
前記ビデオは３６０度ビデオであり、
前記インセット候補は、前記ビデオ内の物体認識を用いて識別される、システム。
ａ．環境のビデオを取得するための少なくとも１つのカメラと、
ｂ．前記取得されたビデオ内の少なくとも１つのインセット候補を識別し、前記識別された少なくとも１つのインセット候補に媒体を挿入するための処理ユニットと
を備え、
前記ビデオは３６０度ビデオであり、
前記インセット候補は、ユーザの入力に基づいてさらに識別される、システム。
前記インセット候補は、前記ビデオ内の領域である、請求項１から４のいずれか１項に記載のシステム。
前記ビデオ内の前記領域は表面である、請求項５に記載のシステム。
前記ビデオ内の前記領域は表示画面である、請求項５に記載のシステム。
前記ビデオ内の前記領域はホワイトボードである、請求項５に記載のシステム。
前記媒体は画像である、請求項１から８のいずれか１項に記載のシステム。
前記媒体はビデオストリームである、請求項１から８のいずれか１項に記載のシステム。
前記媒体の解像度は、前記ビデオの解像度よりも高い、請求項１から１０のいずれか１項に記載のシステム。
前記インセット候補は、前記ビデオのコンテンツを使用して識別される、請求項１から１１のいずれか１項に記載のシステム。
前記識別された少なくとも１つのインセット候補に挿入される前記媒体は、前記ビデオ内の前記識別された少なくとも１つのインセット候補の位置に基づいて選択される、請求項１から１２のいずれか１項に記載のシステム。
ａ．環境のビデオを取得するための少なくとも１つのカメラを使用することと、
ｂ．前記取得されたビデオ内の少なくとも１つのインセット候補を識別し、前記識別された少なくとも１つのインセット候補に媒体を挿入するための処理ユニットを使用することと
を含み、
前記ビデオは３６０度ビデオであり、
前記インセット候補は、前記インセット候補の位置に対する前記少なくとも１つのカメラの位置に基づいて識別される、方法。
ａ．環境のビデオを取得するための少なくとも１つのカメラを使用することと、
ｂ．前記取得されたビデオ内の少なくとも１つのインセット候補を識別し、前記識別された少なくとも１つのインセット候補に媒体を挿入するための処理ユニットを使用することと
を含み、
前記識別された少なくとも１つのインセット候補に挿入される前記媒体は、前記識別された少なくとも１つのインセット候補の近傍に位置するビデオ内の人物の顔認識に基づいて選択される、方法。
ａ．環境のビデオを取得するための少なくとも１つのカメラを使用することと、
ｂ．前記取得されたビデオ内の少なくとも１つのインセット候補を識別し、前記識別された少なくとも１つのインセット候補に媒体を挿入するための処理ユニットを使用することと
を含み、
前記ビデオは３６０度ビデオであり、
前記インセット候補は、前記ビデオ内の物体認識を用いて識別される、方法。
ａ．環境のビデオを取得するための少なくとも１つのカメラを使用することと、
ｂ．前記取得されたビデオ内の少なくとも１つのインセット候補を識別し、前記識別された少なくとも１つのインセット候補に媒体を挿入するための処理ユニットを使用することと
を含み、
前記ビデオは３６０度ビデオであり、
前記インセット候補は、ユーザの入力に基づいてさらに識別される、方法。
前記インセット候補は、前記ビデオ内の領域である、請求項１４から１７のいずれか１項に記載の方法。
前記ビデオ内の前記領域は表面である、請求項１８に記載の方法。
コンピュータプログラムであって、
ａ．環境のビデオを取得するための少なくとも１つのカメラを使用することと、
ｂ．前記取得されたビデオ内の少なくとも１つのインセット候補を識別し、前記識別された少なくとも１つのインセット候補に媒体を挿入するための処理ユニットを使用することと
を含み、
前記ビデオは３６０度ビデオであり、
前記インセット候補は、前記インセット候補の位置に対する前記少なくとも１つのカメラの位置に基づいて識別される方法をコンピュータに実行させるプログラム。
コンピュータプログラムであって、
ａ．環境のビデオを取得するための少なくとも１つのカメラを使用することと、
ｂ．前記取得されたビデオ内の少なくとも１つのインセット候補を識別し、前記識別された少なくとも１つのインセット候補に媒体を挿入するための処理ユニットを使用することと
を含み、
前記識別された少なくとも１つのインセット候補に挿入される前記媒体は、前記識別された少なくとも１つのインセット候補の近傍に位置するビデオ内の人物の顔認識に基づいて選択される方法をコンピュータに実行させるプログラム。
コンピュータプログラムであって、
ａ．環境のビデオを取得するための少なくとも１つのカメラを使用することと、
ｂ．前記取得されたビデオ内の少なくとも１つのインセット候補を識別し、前記識別された少なくとも１つのインセット候補に媒体を挿入するための処理ユニットを使用することと
を含み、
前記ビデオは３６０度ビデオであり、
前記インセット候補は、前記ビデオ内の物体認識を用いて識別される方法をコンピュータに実行させるプログラム。
コンピュータプログラムであって、
ａ．環境のビデオを取得するための少なくとも１つのカメラを使用することと、
ｂ．前記取得されたビデオ内の少なくとも１つのインセット候補を識別し、前記識別された少なくとも１つのインセット候補に媒体を挿入するための処理ユニットを使用することと
を含み、
前記ビデオは３６０度ビデオであり、
前記インセット候補は、ユーザの入力に基づいてさらに識別される方法をコンピュータに実行させるプログラム。
前記ビデオは３６０度ビデオである、請求項２に記載のシステム。
前記ビデオは３６０度ビデオである、請求項１５に記載の方法。
前記ビデオは３６０度ビデオである、請求項２１に記載のプログラム。