JP2022510193A

JP2022510193A - 映像を処理する方法、映像を再生する方法及びその装置

Info

Publication number: JP2022510193A
Application number: JP2021530053A
Authority: JP
Inventors: スンファチョン; ジョンジンイ; サンウイ; ギェヒョンキム; ソンギュハン; ジュヨンイ; ヨンヒキム
Original assignee: カイインコーポレイテッド
Priority date: 2018-11-28
Filing date: 2019-09-18
Publication date: 2022-01-26
Also published as: KR102127846B1; US20210337264A1; WO2020111474A1; KR20200063779A

Abstract

一実施形態に係る映像を処理する方法は、複数のフレームを含む第１映像を受信し、複数のフレームに含まれた少なくとも１つの領域の重要度を指示する重要度情報を取得し、重要度情報に基づいて第１映像の少なくとも１つの領域のためのグリッドの軸を決定し、グリッドの軸に基づいて第１映像を符号化し、第２映像を生成し、第２映像及びグリッドの軸に関する情報を出力する。

Description

以下の実施形態は、映像を処理する方法、映像を再生する方法及びその装置に関する。

ストリーミング（ｓｔｒｅａｍｉｎｇ）を提供するためにユーザ視点に基盤する方法とコンテンツに基盤する方法を使用することができる。ユーザ視点に基盤する方法は、ユーザが見ている領域、言い換えれば、ユーザの視点に対応する領域のみをハイクオリティーで符号化してストリーミングする方法である。ユーザ視点に基盤する方法として、ユーザが視点を急に変える場合、画質変化のレイトンシ（Ｌａｔｅｎｃｙ）が生じ得る。また、ユーザ視点に基盤する方法として、１つのコンテンツを視点ごとに相違にマルチ符号化を行う場合、映像の容量及び算出過負荷が生じ得る。

コンテンツに基盤する方法は、イメージの重要度に基づいて映像の各グリッド（ｇｒｉｄ）の広さを最適化してストリーミングする方法である。コンテンツに基盤する方法では、イメージの重要度を算出し、各グリッドの広さを最適化するために多い時間が費やされることがある。

一実施形態によれば、映像を処理する方法は、複数のフレームを含む第１映像を受信するステップと、前記複数のフレームに含まれた少なくとも１つの領域の重要度を指示する重要度情報を取得するステップと、前記重要度情報に基づいて、前記第１映像の少なくとも１つの領域のためのグリッドの軸を決定するステップと、前記グリッドの軸に基づいて前記第１映像を符号化し、第２映像を生成するステップと、前記第２映像及び前記グリッドの軸に関する情報を出力するステップとを含む。

前記グリッドの軸を決定するステップは、前記重要度情報に基づいて、前記少なくとも１つの領域の解像度が保持され、前記少なくとも１つの領域を除いた残りの領域の解像度がダウンサンプリングされるように、前記グリッドの軸を決定するステップを含むことができる。

前記グリッドの軸を決定するステップは、予め設定された映像のターゲット容量に基づいて、前記第１映像の複数のフレームに含まれた少なくとも１つの領域のためのグリッドの個数、及びグリッドのターゲット解像度のうち少なくとも１つを設定することで前記グリッドの軸を決定するステップを含むことができる。

前記グリッドの軸を決定するステップは、前記第１映像のソース解像度を、前記グリッドのターゲット解像度に対応する第１領域の第１解像度で決定することにより前記グリッドの軸を決定するステップと、前記第１領域を除いた残りの第２領域の解像度が、前記第１解像度よりも低い第２解像度でダウンサンプリングされるように前記グリッドの軸を決定するステップと、前記第１領域に隣接する第３領域の解像度が、前記第１解像度から前記第２解像度まで徐々に変化される第３解像度でダウンサンプリングされるように前記グリッドの軸を決定するステップのうち少なくとも１つを含むことができる。

前記第２解像度は、前記予め設定された映像のターゲット容量に基づいて決定されることができる。

前記グリッドの軸を決定するステップは、前記グリッドに含まれたコラムの大きさ及びローの大きさを決定するステップを含むことができる。

前記コラムの大きさ及びローの大きさを決定するステップは、前記重要度情報によって指示される重要度が、予め設定された基準に比べて高い領域であるほど、該当する領域のためのコラムの大きさ及びローの大きさのうち少なくとも１つを増加させるステップを含むことができる。

前記第２映像を生成するステップは、前記グリッドの軸に基づいて前記第１映像を複数の領域に区分するステップと、前記複数の領域の大きさに応じて、前記第１映像の情報をサンプリングするステップとを含むことができる。

前記出力するステップは、前記グリッドの軸に関する情報を視覚的に符号化するステップと、前記視覚的に符号化された情報と前記第２映像とを結合して出力するステップとを含むことができる。

前記重要度情報を取得するステップは、前記第１映像をモニタリングする製造者端末から、前記第１映像の各フレームの少なくとも１つの領域に対応して設定された前記重要度情報を受信するステップと、予め学習された神経網によって前記第１映像の各フレームの少なくとも１つの領域に対応してリアルタイムで決定された重要度情報を受信するステップのうち少なくとも１つを含むことができる。

前記第１映像は、３６０度の仮想現実ライブストリーミングコンテンツを含むことができる。

前記映像を処理する方法は、前記第２映像及び前記グリッドの軸に関する情報をクラウドストレージ（Ｃｌｏｕｄｓｔｏｒａｇｅ）に格納するステップをさらに含むことができる。

一側面によると、映像を生成する方法は、複数の解像度を含む複数の領域を有する映像を取得するステップと、前記複数の領域を区分するグリッドの軸に関する情報を取得するステップと、前記グリッドの軸に関する情報に基づいて前記映像を再生するステップとをさらに含む。

前記グリッドの軸に関する情報は、前記グリッドに含まれたコラムの大きさ及びローの大きさを含むことができる。

前記映像を復号化する方法は、前記映像から、前記映像の少なくとも１つの領域に対応する前記グリッドの軸に関する情報を抽出するステップを含むことができる。

前記映像を再生するステップは、前記映像及び前記グリッドの軸に関する情報に基づいて、前記複数の領域をレンダリングするステップを含むことができる。

前記映像を再生するステップは、前記レンダリングされた複数の領域のうち、再生カメラの現在時点に対応する少なくとも一部の領域を再生するステップをさらに含むことができる。

一側面によると、映像処理装置は、複数のフレームを含む第１映像を受信する通信インターフェースと、前記複数のフレームに含まれた少なくとも１つの領域の重要度を指示する重要度情報を取得し、前記重要度情報に基づいて前記第１映像の少なくとも１つの領域のためのグリッドの軸を決定し、前記グリッドの軸に基づいて前記第１映像を符号化して第２映像を生成するプロセッサとを含み、前記通信インターフェースは、前記第２映像及び前記グリッドの軸に関する情報を出力する。

一側面によると、映像再生装置は、複数の解像度を含む複数の領域を有する映像を取得する通信インターフェースと、前記複数の領域を区分するグリッドの軸に関する情報を取得し、前記グリッドの軸に関する情報に基づいて前記映像を再生するプロセッサとを含む。

一実施形態に係る映像を処理する方法を説明するための図である。一実施形態に係る映像を処理する方法を示したフローチャートである。一実施形態によって重要度情報を取得する方法を説明するための図である。一実施形態によって第２映像を生成する方法を説明するための図である。一実施形態に係る映像を再生する方法を説明するための図である。一実施形態に係る映像を再生する方法を示したフローチャートである。一実施形態に係る映像処理システムの構成を説明するための図である。一実施形態に係る映像処理装置又は映像再生装置のブロック図である。

本明細書で開示する特定の構造的又は機能的な説明は単に実施形態を説明するための目的として例示したものであり、実施形態は様々な異なる形態で実施され、本発明は本明細書で説明した実施形態に限定されるものではない。

第１又は第２などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は１つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第１構成要素は第２構成要素と命名することができ、同様に第２構成要素は第１構成要素にも命名することができる。

いずれかの構成要素が他の構成要素に「連結」されているか「接続」されていると言及されたときには、その他の構成要素に直接的に連結されているか又は接続されているが、中間に他の構成要素が存在し得るものと理解されなければならない。

一方、ある構成要素が他の構成要素に「直接連結されている」か「直接接続されている」と言及されるときには、中間に他の構成要素が存在しないものと理解されなければならない。構成要素間の関係を説明する表現、例えば、「～間に」と「すぐの間に」、又は「に隣接する」と「～に直接隣接する」なども同様に解釈されなければならない。

単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

異なるように定義さがれない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

図１は、一実施形態に係る映像を処理する方法を説明するための図である。図１を参照すると、一実施形態に係る映像を処理する装置（以下、「映像処理装置」）１３０は、例えば、モニタリングサーバ１１０又は製造者端末１２０から重要度情報１０３を取得してもよい。ここで、重要度情報は、オリジナル映像１０１の複数のフレームに含まれた領域の重要度を指示する情報であってもよい。重要度情報１０３は、オリジナル映像１０１の各フレームの少なくとも１つの領域に対応して設定されてもよい。重要度情報は、マスキング（ｍａｓｋｉｎｇ）あるいはヒートマップ（ｈｅａｔｍａｐ）などの様々形態に表現されてもよい。重要度情報１０３は、例えば、オリジナル映像１０１の複数のフレームに含まれた少なくとも１つの領域の重要度の他にも、複数のフレームのうち少なくとも１つ領域を含むフレームの再生時点、少なくとも１つの領域に含まれた頂点（ｖｅｒｔｉｃｅｓ）の個数、少なくとも１つの領域に対応するマスク（ｍａｓｋ）の番号などをさらに含んでもよい。

重要度情報１０３は、例えば、オリジナル映像１０１をモニタリングするモニタリングサーバ１１０を介して設定されてもよく、製造者端末１２０によって設定されてもよい。製造者は、例えば、次の図３に示すように、製造者端末１２０に提供されるモニタリングアプリケーションを介してオリジナル映像１０１に対する重要度情報１０３を設定してもよい。又は、モニタリングサーバ１１０は、予め学習された神経網によってオリジナル映像１０１に対して自動で重要度情報１０３を設定してもよい。オリジナル映像１０１がライブ映像である場合、モニタリングサーバ１１０は、重要度情報１０３をリアルタイムに生成することができる。神経網は、例えば、多い視聴者が観覧した視聴者の視点を基準にして、オリジナル映像１０１で重要度の高い領域、言い換えれば、重要領域を認識するように予め学習された神経網であってもよい。又は、神経網は、例えば、オリジナル映像１０１に含まれた観客を除いた公演者、公演舞台などのように、重要度の高い領域を認識するように予め学習された神経網であってもよい。神経網は、例えば、畳み込みレイヤ（ＣｏｎｖｏｌｕｔｉｏｎＬａｙｅｒ）を含む深層神経網（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）であってもよい。

オリジナル映像１０１は、様々なストリーミングプロトコル（ｓｔｒｅａｍｉｎｇｐｒｏｔｏｃｏｌ）を介して送出された３６０度のコンテンツ映像であってもよい。ストリーミングプロトコルは、オーディオ、ビデオ、及びその他のデータなどをインターネットを介してストリーミングするために使用されるプロトコルであり、例えば、リアルタイムメッセージングプロトコル（ＲｅａｌＴｉｍｅＭｅｓｓａｇｉｎｇＰｒｏｔｏｃｏｌ；ＲＴＭＰ）やＨＬＳなどを含んでもよい。オリジナル映像１０１は、例えば、幅（ｗ）×高さ（ｈ）の大きさを有する映像であってもよい。ここで、幅（ｗ）は、全体コラム（ｃｏｌｕｍｎ）が幅方向にて占めている大きさであり、高さ（ｈ）は、全体ロー（ｒｏｗ）が高さ方向にて占めている大きさである。以下、説明の便宜のために、オリジナル映像１０１は「第１映像」と呼ぶ。

映像処理装置１３０は、通信インターフェース１３１を介してオリジナル映像１０１及び重要度情報１０３を受信する。映像処理装置１３０は、重要度情報１０３に基づいてオリジナル映像１０１の少なくとも１つの領域の大きさを決定する。映像処理装置１３０は、グリッド１４０に該当する重要領域の解像度が保持され、重要領域を除いた残りの領域の解像度は、ダウンサンプリング（ｄｏｗｎ－ｓａｍｐｌｉｎｇ）されるようにグリッドの軸を決定することができる。

映像処理装置１３０は、例えば、重要度情報１０３に基づいてオリジナル映像１０１の少なくとも１つの領域のためのグリッド（ｇｒｉｄ）の軸を決定することで、少なくとも１つの領域の大きさを最適化することができる。最適化の過程において、映像処理装置は、各フレームにグリッド１４０を生成してもよい。映像処理装置１３０は、例えば、予め設定された映像のターゲット容量に基づいて、グリッド１４０の各行と各列の単位で、少なくとも１つの領域の重要度に応じる最適の広さ値を算出することができる。

映像処理装置１３０は、グリッドの軸に関する情報に基づいてオリジナル映像１０１を符号化することで、ライブストリーミングサービスのための映像１０５を生成することができる。ここで、グリッドの軸に関する情報は、グリッド１４０に含まれたコラムの大きさ及びローの大きさに対する情報を含んでもよい。映像１０５は、例えば、幅（ｗ’）×高さ（ｈ’）の大きさを有する映像であってもよい。以下、説明の便宜のために、ストリーミングサービスのための映像１０５は「第２映像」と呼ぶ。ストリーミングサービスは、リアルタイム（ｌｉｖｅ）放送のためのストリーミングサービスとＶＯＤ再生のためのストリーミングサービスを含んでもよい。以下、説明の便宜のためのライブストリーミングサービスを仮定する。

映像処理装置１３０は、映像１０５及びグリッドの軸に関する情報を出力する。ここで、グリッドの軸に関する情報は、カラー符号化（ｃｏｌｏｒｅｎｃｏｄｉｎｇ）され、映像１０５に含まれてもよい。映像処理装置１３０は、例えば、ライブストリーミングサービスを提供するサービスサーバ（図７に示すサービスサーバ７１０を参照）であってもよい。

一実施形態に係る映像処理装置１３０は、前述したグリッドの軸に関する情報を介して各グリッドの広さを決定するために費やされる時間を減らす一方、重要領域の解像度は保持するものの、重要領域を除いた残りの領域の解像度は低下させることで映像コンテンツの全体容量を減らし、コンテンツに基盤したストリーミングサービスをリアルタイムに提供することができる。

図２は、一実施形態に係る映像を処理する方法を示したフローチャートである。図２を参照すると、一実施形態に係る映像を処理する装置（以下、「映像処理装置」）は、複数のフレームを含む第１映像を受信する（２１０）。第１映像は、例えば、ライブストリームプロトコルを介して送出された３６０度の映像であってもよい。

映像処理装置は、複数のフレームに含まれた少なくとも１つの領域の重要度を指示する重要度情報を取得する（２２０）。ここで、少なくとも１つの領域の重要度は、例えば、第１映像内の複数のフレームのそれぞれに対応する領域のピクセルのイメージ勾配（ｉｍａｇｅｇｒａｄｉｅｎｔ）、各領域におけるエッジ検出の有無、各領域に含まれている頂点（又は、特徴点）の個数、及び各領域におけるオブジェクト（例えば、ヒト、動物、自動車など）の検出の有無などに基づいて決定されることができる。

例えば、第１映像内の少なくとも１つの領域のピクセルのイメージ勾配が予め決定された基準よりも大きいか同一である場合、少なくとも１つの領域の重要度は高く決定されてもよい。又は、第１映像内の少なくとも１つの領域のピクセルのイメージ勾配が予め決定された基準よりも小さい場合、少なくとも１つの領域の重要度は低く決定されてもよい。

例えば、第１映像内の少なくとも１つの領域がエッジに該当する場合、少なくとも１つの領域の重要度は高く決定されてもよい。第１領域内の少なくとも１つの領域がエッジに該当しない場合、少なくとも１つの領域の重要度は低く決定されてもよい。又は、例えば、第１映像内の少なくとも１つの領域がオブジェクト（例えば、ヒト、モノなど）に該当する場合、少なくとも１つの領域の重要度は高く決定されてもよい。少なくとも１つの領域の重要度は、例えば、０から１、又は０から１０の間の値を有してもよい。

映像処理装置は、例えば、第１映像をモニタリングする製造者端末から、第１映像の各フレームの少なくとも１つの領域に対応して設定された重要度情報を受信してもよい。又は、映像処理装置は、予め学習された神経網によって第１映像の各フレームの少なくとも１つの領域に対応し、リアルタイムで決定された重要度情報を受信してもよい。映像処理装置が製造者端末から重要度情報を取得する方法について、次の図３を参照して具体的に説明する。

映像処理装置は、重要度情報に基づいて第１映像の少なくとも１つの領域のためのグリッドの軸を決定する（２３０）。映像処理装置は、重要度情報に基づいて、少なくとも１つの領域の解像度が保持され、少なくとも１つの領域を除いた残りの領域の解像度がダウンサンプリングされるように、グリッドの軸を決定することができる。映像処理装置は、グリッドに含まれたコラムの大きさ及びローの大きさを決定する。映像処理装置は、例えば、重要度情報により指示される重要度が予め設定された基準に比べて高い領域であるほど、該当する領域のためのコラムの大きさ及びローの大きさのうち少なくとも１つを増加させてもよい。又は、映像処理装置は、例えば、重要度情報により指示される重要度が予め設定された基準に比べて低い領域であるほど、該当する領域のためのコラムの大きさ及びローの大きさのうち少なくとも１つを低減させてもよい。

映像処理装置は、例えば、予め設定された映像のターゲット容量に基づいて、第１映像の複数のフレームに含まれた少なくとも１つの領域のためのグリッドの個数及びグリッドのターゲット解像度のうち少なくとも１つを設定することで、グリッドの軸を決定することができる。例えば、映像のターゲット容量が７２０Ｍｂｙｔｅであると仮定する。映像処理装置は、重要領域のためのグリッドの個数、当該グリッドのターゲット解像度、及び当該グリッドを除いた残りの領域の解像度に応じる映像の全て容量が、ターゲット容量である７２０Ｍｂｙｔｅを超過しないようにグリッドの軸を決定することができる。

ステップ２３０において、映像処理装置は、第１映像のソース解像度、言い換えれば、オリジナル映像の解像度をグリッドに対応する第１領域の第１解像度に決定することで、グリッドの軸を決定する。又は、映像処理装置は、第１領域を除いた残りの第２領域の解像度が第１解像度よりも低い第２解像度でダウンサンプリングされるようにグリッドの軸を決定してもよい。ここで、第２解像度は、予め設定された映像のターゲット容量に基づいて決定されることができる。例えば、予め設定された映像のターゲット容量で第１領域による容量を除いた残りの容量に基づいて、第２解像度が決定されてもよい。

その他にも、映像処理装置は、第１領域に隣接する第３領域の解像度が第１解像度から第２解像度まで徐々に変化される第３解像度でダウンサンプリングされるようにグリッドの軸を決定してもよい。

映像処理装置は、グリッドの軸に基づいて第１映像を符号化し、第２映像を生成する（２４０）。映像処理装置は、グリッドの軸に基づいて第１映像を複数の領域に区分する。映像処理装置は、複数の領域の大きさに応じて第１映像の情報をサンプリングして第２映像を生成する。映像処理装置は、予め設定されたコーデック（ｃｏｄｅｃ）で第１映像を符号化して第２映像を生成する。映像処理装置が第２映像を生成する方法については、次の図４を参照して具体的に説明する。

映像処理装置は、第２映像及びグリッドの軸に関する情報を出力する（２５０）。映像処理装置は、グリッドの軸に関する情報を視覚的に符号化する。映像処理装置は、視覚的に符号化された情報と第２映像とを結合して出力する。映像処理装置は、例えば、グリッドの軸に関する情報を第２映像にカラー符号化して出力してもよい。実施形態により、グリッドの軸に関する情報を符号化する方式及び出力（あるいは送信）する方式は様々に変形されてもよい。

映像処理装置は、第２映像及びグリッドの軸に関する情報を、例えば、クラウドストレージ（Ｃｌｏｕｄｓｔｏｒａｇｅ）に格納してもよい。

図３は、一実施形態によって重要度情報を取得する方法を説明するための図である。図３を参照すると、重要度情報を設定するためにモニタリングアプリケーションを介して製造者端末に提供される画面３００が示されている。

画面３００には、オリジナル映像（例えば、オリジナルビデオストリーム）３１０が提供される。製造者は、オリジナルビデオストリームを生中継しながら重要領域にマスクを指定することで、少なくとも１つの領域の重要度を指示する重要度情報を映像処理装置に提供することができる。製造者は、例えば、オリジナル映像３１０に対するマウスクリック（ｍｏｕｓｅｃｌｉｃｋ）及び／又はドラッグ（ｄｒａｇｇｉｎｇ）などの動作により、少なくとも１つの領域に対してマスクを設定してもよい。製造者に提供されるモニタリングアプリケーションは、ユーザインターフェース３４０を介してオリジナル映像３１０に対するリアルタイムモニタリング、重要度マスト生成、及び編集機能などを提供することができる。

オリジナル映像３１０には、例えば、球状モデル（Ｓｐｈｅｒｅ－ｓｈａｐｅｄｍｏｄｅｌ）の表面を複数の多角形に分割するメッシュ（ｍｅｓｈ）の頂点３１５が共に表示されてもよい。ここで、分割された複数の多角形の面積は同一であってもよい。

製造者は、例えば、ユーザインターフェース３４０を介してオリジナル映像３１０に２つのマスク３２０、３３０を指定してもよい。また、製造者は、ユーザインターフェース３４０を介して２つのマスク３２０、３３０に対応する領域それぞれの重要度、２つのマスク３２０、３３０を含むフレームの再生時点、２つのマスク３２０、３３０に対応する領域それぞれに含まれている頂点の個数、及び／又は少なくとも１つの領域に対応するマスクの番号などを設定してもよい。前述した領域それぞれの重要度、領域を含むフレームの再生時点、領域それぞれに含まれている頂点の個数、及び／又は領域それぞれに対応するマスクの番号などは、重要度情報として映像処理装置に提供されることができる。

図４は、一実施形態によって第２映像を生成する方法を説明するための図である。図４（ａ）を参照すると、一実施形態に係る映像処理装置が第１映像４１０の重要領域４１５のために決定したグリッドの軸に基づいて生成された第２映像４３０を示している。

映像処理装置は、各映像フレームにグリッドを生成する。映像処理装置は、例えば、予め設定された第２映像４３０のターゲット容量に基づいて、グリッドの各行と各列の単位で当該領域の重要度に応じる広さ値を算出することができる。映像処理装置は、グリッドに該当する重要領域４１５の解像度が保持され、重要領域４１５を除いた残りの領域の解像度は、ダウンサンプリングされるようにグリッドの軸を決定してもよい。

より具体的に、映像処理装置は、重要度情報に基づいて、第１映像４１０の重要領域（例えば、第１領域４１５）の第１解像度が他の領域の第２解像度よりも高くなるよう、グリッドに含まれたコラムの大きさ及びローの大きさを決定することができる。

例えば、映像処理装置は、重要度情報に基づいて第１映像４１０の重要領域（例えば、第１領域４１５）の第１解像度が第１映像のソース解像度と等しく保持され、第１領域４１５を除いた残りの領域（例えば、第２領域）の第２解像度がダウンサンプリングされるよう、グリッドに含まれたコラムの大きさ及びローの大きさを決定してもよい。

これにより、第２映像４３０で第１映像４１０の第１領域４１５に対応する領域の解像度は、第１映像のソース解像度と同じ第１解像度で保持される一方、第２映像４３０から第１領域４１５を除いた残りの領域（例えば、第２領域）に対応する領域の解像度は、第１解像度よりも低い第２解像度で設定される。

映像処理装置は、前述したごとし重要領域４１５のために決定したグリッドの軸に基づいて、第１映像４１０をリアルタイムワーピング（ｗａｒｐｉｎｇ）して第２映像４３０を生成する。

図４（ｂ）を参照すると、一実施形態に係る映像処理装置が、第１映像４１０の重要領域４１５のために決定したグリッドの軸に基づいて生成された第２映像４５０を示している。

映像処理装置は、重要度情報に基づいて第１映像４１０の重要領域（例えば、第１領域４１５）の第１解像度が第１映像４１０のソース解像度と同一に保持され、第１領域４１５に接する第３領域の解像度が、第１解像度から第２解像度まで徐々に変化される第３解像度でダウンサンプリングされるよう、グリッドに含まれているコラムの大きさ及びローの大きさを決定することができる。ここで、第３領域は、前述した第２領域のうち第１領域４１５に隣接する一部の領域であってもよい。

これにより、第２映像４３０で第１映像４１０の第１領域４１５に対応する領域の解像度は、第１映像のソース解像度と同じ第１解像度で保持される一方、第２映像４３０で第１領域４１５に隣接する第３領域の解像度は、第１映像４１０の第１領域４１５に対応する領域から遠いほどスムーズに低くなる。

映像処理装置は、各フレームでグリッドの軸に関する情報に基づいて、グリッドをコラム又はローの方向に動きとして迅速かつ効率よくワーピングを行うことができる。これによって、映像処理装置は、例えば、ワーピング時に各頂点ごとに幅（ｗ）と高さ（ｈ）を算出するために費やされる最適化された時間をＯ（ｗ×ｈ）からＯ（ｗ＋ｈ）に減少させることができる。

図５は、一実施形態に係る映像を再生する方法を説明するための図である。図５を参照すると、一実施形態に係る映像を再生する装置（以下、「映像再生装置」）は、リアルタイムライブストリーミングサービスのための映像５０１及び映像５０１に対応するグリッドの軸に関する情報５０３を受信する。一実施形態によれば、グリッドの軸に関する情報５０３は、カラー符号化されて映像５０１に挿入されてもよい。

映像再生装置は、テクスチャマッピング（ｔｅｘｔｕｒｅｍａｐｐｉｎｇ）を介して３Ｄ映像を復元する（５０５）。映像再生装置は、グリッドの軸に関する情報５０３に基づいて映像５０１をテクスチャマッピングすることで、３Ｄ映像を復元することができる。３Ｄ映像は、例えば、３６０度の仮想現実ストリーミングコンテンツであってもよい。

映像再生装置は、再生カメラ５１０を介して復元した３Ｄ映像を再生する（５０７）。映像再生装置は、例えば、シェイダー（ｓｈａｄｅｒ）を介して３Ｄ映像を再生する。映像再生装置は、再生カメラ５１０の現在時点に対応する映像が再生されるように３Ｄ映像をレンダリングしてもよい。例えば、３Ｄ映像が３６０度の円形映像である場合、映像再生装置は、円形映像の各頂点が球状の表面を均一に分割する複数の多角形を含んでいるビューイングスフィア（ｖｉｅｗｉｎｇｓｐｈｅｒｅ）で、どの点の情報を読み出すべきであるかを把握して３Ｄ映像を再生することができる。

図６は、一実施形態に係る映像を再生する方法を示したフローチャートである。図６を参照すると、一実施形態に係る映像再生装置は、複数の解像度を含む複数の領域を有する映像を取得する（６１０）。ここで、映像は、例えば、少なくとも１つの領域に対応するグリッドの軸に関する情報が様々な色相を介して視覚的に符号化された情報を含んでもよい。

映像再生装置は、複数の領域を区分するグリッドの軸に関する情報を取得する（６２０）。例えば、映像再生装置は、映像に視覚的に符号化されたグリッドの軸に関する情報を抽出する。グリッドの軸に関する情報は、例えば、グリッドに含まれたコラムの大きさ及びローの大きさを含んでもよい。

映像再生装置は、グリッドの軸に関する情報に基づいて映像を再生する（６３０）。一実施形態によれば、映像再生装置は、グリッドの軸に関する情報に基づいて、複数の領域をレンダリングする。例えば、映像再生装置は、グリッドの軸に関する情報に基づいて３６０度の映像を均一に分割する領域のテクスチャを決定してもよい。映像再生装置は、球状の表面を均一に分割する複数の多角形を含むビューイングスフィアにテクスチャマッピングする。ここで、重要な領域の場合、符号化された映像に相対的にさらに多いピクセルを含んでいるため、相対的に高い解像度でテクスチャマッピングされることができる。重要ではない領域の場合、符号化された映像に相対的にさらに少ないピクセルを含んでいるため、相対的に低い解像度でテクスチャマッピングされることができる。一実施形態によれば、３６０度の映像を再生するとき、映像再生装置は、ビューイングスフィアで現在時点に対応する領域の映像を再生することができる。

図７は、一実施形態に係る映像処理システムの構成を説明するための図である。図７を参照すると、一実施形態に係るクラウド基盤コンテンツ適応型３６０ＶＲライブストリーミングシステム（以下、「ライブストリーミングシステム」）７００の構成ブロック図が示されている。

一実施形態に係るライブストリーミングシステム７００は、ライブストリーミングサービスを提供するサービスサーバ７１０を含んでいる。例えば、映像製造者が３６０度映像をライブストリームプロトコルを介して送り出せば、サービスサーバ７１０は、クラウドを介してコンテンツ内重要な領域の解像度を最大に格納するダウンスケーリングとストリーミングサービスをリアルタイムに行うことができる。サービスサーバ７１０は、必要の際に仮想サーバ（又は、仮想マシン）を駆動することができ、希望する位仮想サーバの個数を増やして多チャンネルライブストリーミングサービスを提供してもよい。

サービスサーバ７１０は、ライブストリーム収集サーバ７１１、リマストリング及び符号化サーバ（Ｒｅｍａｓｔｅｒｉｎｇ＆ＥｎｃｏｄｉｎｇＳｅｒｖｅｒ）７１３、ネットワークドライブ（ＮｅｔｗｏｒｋＤｒｉｖｅ）７１５、ストリーミングサーバ（ＳｔｒｅａｍｉｎｇＳｅｒｖｅｒ）７１７を含む。

ライブストリーム収集サーバ７１１は、例えば、ライブストリームプロトコルを介して送出された放送（例えば、ソースビデオ）７０１を収集する。ライブストリーム収集サーバ７１１は、映像処理のためにソースビデオ７０１をリマストリング及び符号化サーバ７１３に送信する。

ここで、製造者端末は、ライブストリームプロトコルを介して送出されたソースビデオ７０１を予めモニタリングし、映像フレームの少なくとも１つの領域（例えば、重要領域）の重要度を指示する重要度情報をリマストリング及び符号化サーバ７１３に送信する。実施形態によって、ライブストリーム収集サーバ７１１は、ライブモニタリングのためにソースビデオ７０１を製造者端末に送信してもよい。

サービスサーバ７１０は、重要度情報に基づいて、重要領域のオリジナル解像度を保持するダウンスケーリングを介して、低いネットワークの環境でも、ハイクオリティーの映像ストリーミングサービスを提供することができる。より具体的に、リマストリング及び符号化サーバ７１３は、ソースビデオ７０１と重要度情報を用いてソースビデオ７０１を符号化することができる。リマストリング及び符号化サーバ７１３は、製造者がライブモニタリングを介して設定したソースビデオ７０１の各フレームの重要領域に対して、オリジナル解像度を最大に保持し、重要領域を除いた残りの領域は、ダウンサンプリングしてライブストリーミングサービスのための映像の容量を低減することができる。

リマストリング及び符号化サーバ７１３における符号化の結果物は、解像度適応型ストリーミングのために互いに異なる解像度（例えば、１０８０ｐ、７２０ｐ、４８０ｐなど）に符号化され、ネットワークドライブ７１５に格納されてもよい。ここで、ネットワークドライブ７１５は、例えば、ＬＡＮなどのネットワークに接続された他のコンピュータのハードディスクなどを自分の端末に接続されているドライブインのように扱って使用するネットワーク上のドライブであってもよい。

ネットワークドライブ７１５に格納されている符号化の結果物は、ライブストリーミングサービスのためにストリーミングサーバ７１７に提供されることができる。

ストリーミングサーバ７１７は、符号化の結果物に対する自動スケーリング（ＡｕｔｏＳｃａｌｉｎｇ）を実行する。ストリーミングサーバ７１７は、負荷分散（ｌｏａｄｂａｌａｎｃｉｎｇ）のための複数の仮想マシン（ＶｉｒｔｕａｌＭａｃｈｉｎｅｓ）を含んでもよい。ストリーミングサーバ７１７は、例えば、映像を観覧する視聴者の数に応じて仮想マシンの個数を調整することができる。各仮想マシンは、ＨＴＴＰＲｅｑｕｅｓｔを処理するサーバの役割を果たす。

ストリーミングサーバ７１７を介して分配された映像は、コンテンツ送信ネットワーク（ＣｏｎｔｅｎｔＤｅｌｉｖｅｒｙＮｅｔｗｏｒｋ；ＣＤＮ）７４０を介してユーザ端末７５０に伝達されることで、ユーザにライブストリーミングサービスを提供するために用いられることができる。

サービスサーバ７１０は、符号化の結果物（新しい映像）をクラウドストレージ７３０に格納する。サービスサーバ７１０は、ＶＯＤサービスのためにクラウドストレージ７３０に格納された新しい映像をＨＴＴＰサーバ（図示せず）に接続することで、ユーザにＶＯＤ（ＶｉｄｅｏＯｎＤｅｍａｎｄ）サービスを提供することができる。クラウドストレージ７３０に格納されている新しい映像は、コンテンツ送信ネットワーク（ＣＤＮ）７４０を介してユーザ端末７５０に伝達されることで、ユーザにＶＯＤサービスを提供するために用いられることができる。

図８は、一実施形態に係る映像を処理する装置、又は映像を再生する装置のブロック図である。図８を参照すると、一実施形態に係る装置８００は、通信インターフェース８１０及びプロセッサ８３０を含む。装置８００は、メモリ８５０及びディスプレー装置８７０をさらに含んでもよい。通信インターフェース８１０、プロセッサ８３０、メモリ８５０、及びディスプレー装置８７０は、通信バス８０５を介して互いに通信することができる。

通信インターフェース８１０は、複数のフレームを含む第１映像を受信する。第１映像は、例えば、装置８００に含まれたカメラ又は画像センサなどのような撮影装置（図示せず）を介してキャプチャー又は撮影されたものであってもよく、装置８００の外部で撮影された映像であってもよい。また、第１映像は、例えば、ライブストリームプロトコルを介して送出された３６０度のコンテンツ映像であってもよい。通信インターフェース８１０は、第２映像及びグリッドの軸に関する情報を出力する。又は、通信インターフェース８１０は、複数の解像度を含む複数の領域を有する映像を取得する。

プロセッサ８３０は、複数のフレームに含まれた少なくとも１つの領域の重要度を指示する重要度情報を取得する。プロセッサ８３０は、重要度情報に基づいて第１映像の少なくとも１つの領域のためのグリッドの軸を決定する。プロセッサ８３０は、グリッドの軸に基づいて第１映像を符号化し、第２映像を生成する。

メモリ８５０は、プロセッサ８３０によって生成された第２映像及び／又はプロセッサ８３０により決定されたグリッドの軸に関する情報を格納する。

又はプロセッサ８３０は、複数の領域を区分するグリッドの軸に関する情報を抽出する。プロセッサ８３０は、グリッドの軸に関する情報に基づいて映像を再生する。プロセッサ８３０は、映像を、例えば、ディスプレー８７０を用いて再生してもよい。

また、プロセッサ８３０は、図１～図７を参照して前述した少なくとも１つの方法又は少なくとも１つの方法に対応するアルゴリズムを行うことができる。プロセッサ８３０は、目的とする動作（ｄｅｓｉｒｅｄｏｐｅｒａｔｉｏｎｓ）を実行させるための物理的な構造を有する回路を有するハードウェアによって実現されたデータ処理装置であってもよい。例えば、目的とする動作は、プログラムに含まれたコード（ｃｏｄｅ）又は命令（ｉｎｓｔｒｕｃｔｉｏｎｓ）を含んでもよい。例えば、ハードウェアによって実現されたデータ処理装置は、マイクロプロセッサー（ｍｉｃｒｏｐｒｏｃｅｓｓｏｒ）、中央処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、プロセッサコア（ｐｒｏｃｅｓｓｏｒｃｏｒｅ）、マルチ－コアプロセッサ（ｍｕｌｔｉ－ｃｏｒｅｐｒｏｃｅｓｓｏｒ）、マルチプロセッサ（ｍｕｌｔｉｐｒｏｃｅｓｓｏｒ）、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）を含んでもよい。

プロセッサ８３０は、プログラムを実行し、装置８００を制御する。プロセッサ８３０によって実行されるプログラムコードはメモリ８５０に格納されてもよい。

メモリ８５０は、前述したプロセッサ８３０の処理過程で生成される様々な情報を格納する。その他にも、メモリ８５０は、各種のデータとプログラムなどを格納してもよい。メモリ８５０は、揮発性メモリ又は不揮発性メモリを含んでもよい。メモリ８５０は、ハードディスクなどのような大容量の格納媒体を備えて各種のデータを格納することができる。

以上述した実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は１つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含むことが把握する。例えば、処理装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含む。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気－光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び／又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。したがって、他の具現、他の実施形態及び特許請求の範囲と均等なものも後述する請求範囲の範囲に属する。

Claims

複数のフレームを含む第１映像を受信するステップと、
前記複数のフレームに含まれた少なくとも１つの領域の重要度を指示する重要度情報を取得するステップと、
前記重要度情報に基づいて、前記第１映像の少なくとも１つの領域のためのグリッドの軸を決定するステップと、
前記グリッドの軸に基づいて前記第１映像を符号化し、第２映像を生成するステップと、
前記第２映像及び前記グリッドの軸に関する情報を出力するステップと、
を含む、映像を処理する方法。
前記グリッドの軸を決定するステップは、前記重要度情報に基づいて、前記少なくとも１つの領域の解像度が保持され、前記少なくとも１つの領域を除いた残りの領域の解像度がダウンサンプリングされるように、前記グリッドの軸を決定するステップを含む、請求項１に記載の映像を処理する方法。
前記グリッドの軸を決定するステップは、予め設定された映像のターゲット容量に基づいて、前記第１映像の複数のフレームに含まれた少なくとも１つの領域のためのグリッドの個数、及びグリッドのターゲット解像度のうち少なくとも１つを設定することで前記グリッドの軸を決定するステップを含む、請求項１に記載の映像を処理する方法。
前記グリッドの軸を決定するステップは、
前記第１映像のソース解像度を、前記グリッドのターゲット解像度に対応する第１領域の第１解像度で決定することにより前記グリッドの軸を決定するステップと、
前記第１領域を除いた残りの第２領域の解像度が、前記第１解像度よりも低い第２解像度でダウンサンプリングされるように前記グリッドの軸を決定するステップと、
前記第１領域に隣接する第３領域の解像度が、前記第１解像度から前記第２解像度まで徐々に変化される第３解像度でダウンサンプリングされるように前記グリッドの軸を決定するステップと、
のうち少なくとも１つを含む、請求項３に記載映像を処理する方法。
前記第２解像度は、前記予め設定された映像のターゲット容量に基づいて決定される、請求項４に記載映像を処理する方法。
前記グリッドの軸を決定するステップは、前記グリッドに含まれたコラムの大きさ及びローの大きさを決定するステップを含む、請求項１に記載映像を処理する方法。
前記コラムの大きさ及びローの大きさを決定するステップは、前記重要度情報によって指示される重要度が、予め設定された基準に比べて高い領域であるほど、該当する領域のためのコラムの大きさ及びローの大きさのうち少なくとも１つを増加させるステップを含む、請求項６に記載映像を処理する方法。
前記第２映像を生成するステップは、前記グリッドの軸に基づいて前記第１映像を複数の領域に区分するステップと、
前記複数の領域の大きさに応じて、前記第１映像の情報をサンプリングするステップと、
を含む、請求項１に記載の映像を処理する方法。
前記出力するステップは、
前記グリッドの軸に関する情報を視覚的に符号化するステップと、
前記視覚的に符号化された情報と前記第２映像とを結合して出力するステップと、
を含む、請求項１に記載の映像を処理する方法。
前記重要度情報を取得するステップは、
前記第１映像をモニタリングする製造者端末から、前記第１映像の各フレームの少なくとも１つの領域に対応して設定された前記重要度情報を受信するステップと、
予め学習された神経網によって前記第１映像の各フレームの少なくとも１つの領域に対応してリアルタイムで決定された重要度情報を受信するステップと、
のうち少なくとも１つを含む、請求項１に記載の映像を処理する方法。
前記第１映像は、３６０度の仮想現実ライブストリーミングコンテンツを含む、請求項１に記載の映像を処理する方法。
前記第２映像及び前記グリッドの軸に関する情報をクラウドストレージに格納するステップをさらに含む、請求項１に記載の映像を処理する方法。
複数の解像度を含む複数の領域を有する映像を取得するステップと、
前記複数の領域を区分するグリッドの軸に関する情報を取得するステップと、
前記グリッドの軸に関する情報に基づいて前記映像を再生するステップと、
を含む、映像を再生する方法。
前記グリッドの軸に関する情報は、前記グリッドに含まれたコラムの大きさ及びローの大きさを含む、請求項１３に記載の映像を再生する方法。
前記映像から、前記映像の少なくとも１つの領域に対応する前記グリッドの軸に関する情報を抽出するステップを含む、請求項１３に記載の映像を再生する方法。
前記映像を再生するステップは、前記映像及び前記グリッドの軸に関する情報に基づいて、前記複数の領域をレンダリングするステップを含む、請求項１３に記載の映像を再生する方法。
前記映像を再生するステップは、前記レンダリングされた複数の領域のうち、再生カメラの現在時点に対応する少なくとも一部の領域を再生するステップをさらに含む、請求項１６に記載の映像を再生する方法。
請求項１を実行させるためのプログラムが記録されたコンピュータで読み出し可能な記録媒体。
複数のフレームを含む第１映像を受信する通信インターフェースと、
前記複数のフレームに含まれた少なくとも１つの領域の重要度を指示する重要度情報を取得し、前記重要度情報に基づいて前記第１映像の少なくとも１つの領域のためのグリッドの軸を決定し、前記グリッドの軸に基づいて前記第１映像を符号化して第２映像を生成するプロセッサと、
を含み、
前記通信インターフェースは、前記第２映像及び前記グリッドの軸に関する情報を出力する、映像を処理する装置。