JP2022121382A

JP2022121382A - 連写映像基盤の映像復元方法及び装置

Info

Publication number: JP2022121382A
Application number: JP2022000881A
Authority: JP
Inventors: 在碩崔; Jaeseok Choi; 納▲ひょぷ▼ 姜; Nahyup Kang; 炯旭李; Hyoungwook Lee; 炳仁兪; Byungin Yoo
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2021-02-08
Filing date: 2022-01-06
Publication date: 2022-08-19
Also published as: EP4040378A1; US20220253642A1; KR20220114209A; US12086212B2; CN114913078A

Abstract

【課題】連写映像基盤の映像復元方法及び装置を提供すること。【解決手段】連写映像ベースの映像復元方法及び装置が開示される。一実施形態によると、映像の復元方法は、連写映像セットの個別映像に基づいてアンカー映像を決定するステップと、アンカー映像セットに基づいて連写映像セットに基づいて特徴抽出ネットワークを実行するステップと、特徴抽出ネットワークの出力に対応する特徴マップに基づいて復元映像を生成するステップとを含む。【選択図】図１

Description

以下の実施形態は、連写映像基盤の映像復元方法及び装置に関する。

映像復元は、劣化状態の映像を向上した画質の映像に復元する技術である。映像復元のために、ディープラーニング基盤のニューラルネットワークを用いることができる。ニューラルネットワークは、ディープラーニングに基づいて訓練された後、非線形関係にある入力データ及び出力データを互いにマッピングすることで、目的に合わせた推論（ｉｎｆｅｒｅｎｃｅ）を実行することができる。このようなマッピングを生成するように訓練された能力は、神経網の学習能力に類似している。しかも、映像復元のような特化した目的のために訓練された神経網は、例えば、訓練データに含まれていない入力パターンに対しても比較的正確な出力を生成する汎化能力を有し得る。

本発明の目的は、連写映像基盤の映像復元方法及び装置を提供することにある。

一実施形態によれば、映像復元方法は、連写映像セットの個別映像に基づいてアンカー映像を決定するステップと、前記アンカー映像のアンカー情報を用いて前記連写映像セットに基づいて特徴抽出ネットワークを実行するステップと、前記特徴抽出ネットワークの出力に対応する特徴マップに基づいて復元映像を生成するステップとを含む。

一実施形態によれば、映像復元装置は、プロセッサと、前記プロセッサで実行可能な命令語を含むメモリとを含み、前記命令語が前記プロセッサで実行されると、前記プロセッサは、連写映像セットの個別映像に基づいてアンカー映像を決定し、前記アンカー映像のアンカー情報を用いて前記連写映像セットに基づいて特徴抽出ネットワークを実行し、前記特徴抽出ネットワークの出力に対応する特徴マップに基づいて復元映像を生成する。

一実施形態によれば、電子装置は、連写映像セットを生成するカメラと、前記連写映像セットの個別映像に基づいてアンカー映像を決定し、前記アンカー映像のアンカー情報を用いて前記連写映像セットに基づいて特徴抽出ネットワークを実行し、前記特徴抽出ネットワークの出力に対応する特徴マップに基づいて復元映像を生成するプロセッサとを含む。

本発明によると、連写映像基盤の映像復元方法及び装置を提供することができる。

一実施形態に係る映像復元装置の動作を概略的に示す。様々な実施形態に係るアンカー映像を選択する動作を示す。様々な実施形態に係るアンカー映像を選択する動作を示す。様々な実施形態に係るアンカー映像を選択する動作を示す。一実施形態に係るアンカー情報を用いて復元映像を生成する動作を示す。一実施形態に係るニューラルネットワークモデルに関連する構成及び動作を示す。一実施形態に係る入力映像の入力過程でアンカー情報を利用する動作を示す。一実施形態に係る出力特徴マップの出力過程でアンカー情報を利用する動作を示す。一実施形態に係るグローバルな特徴の抽出過程でアンカー情報を利用する動作を示す。図９に示す動作の例示を示す。一実施形態に係るローカル特徴の抽出過程でアンカー情報を利用する動作を示す。一実施形態に係る映像リセット動作を示すフローチャートである。一実施形態に係る映像復元装置の構成を示すブロック図である。一実施形態に係る電子装置の構成を示すブロック図である。

本明細書で開示する特定の構造的又は機能的な説明は単に実施形態を説明するための目的として例示したものであり、実施形態は様々な異なる形態で実施され、本発明は本明細書で説明した実施形態に限定されるものではなく、本発明の範囲は、実施形態で説明した技術的な思想に含まれている変更、均等物、または代替物を含む。

第１又は第２などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は１つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第１構成要素は第２構成要素と命名することができ、同様に第２構成要素は第１構成要素にも命名することができる。

いずれかの構成要素が他の構成要素に「連結」されているか「接続」されていると言及されたときには、その他の構成要素に直接的に連結されているか又は接続されているが、中間に他の構成要素が存在し得るものと理解されなければならない。

単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

異なるように定義さがれない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

以下、添付する図面を参照しながら実施形態を詳細に説明する。添付図面を参照して説明するにおいて、図面符号に関係なく同一の構成要素には同一の参照符号を付与し、これに対する重複する説明は省略することにする。

図１は、一実施形態に係る映像復元装置の動作を概略的に示す。図１を参照すると、映像復元装置（ｉｍａｇｅｒｅｓｔｏｒａｔｉｏｎａｐｐａｒａｔｕｓ）１００は、連写映像セット（ｂｕｒｓｔｉｍａｇｅｓｓｅｔ）１０１を受信し、連写映像セット１０１に基づいて復元映像１０２を生成し、復元映像１０２を出力する。連写映像セット１０１は、カメラ（図示せず）によって生成されてもよい。連写映像セット１０１は、連続的に撮影された複数の映像を含んでもよい。例えば、連写映像セット１０１は、ビデオ撮影機能を介して生成されたビデオ映像、又は連写撮影機能を介して生成された連続的なスチール映像であってもよい。連写映像セット１０１の複数映像の各映像は、個別映像と称されてもよい。ビデオの場合、各映像フレームが個別映像に該当し、連写撮影映像の場合、各スチール映像が個別映像に該当する。

カメラを用いて対象オブジェクトを撮影し、連写映像セット１０１を生成すると仮定すれば、カメラ及び／又は対象オブジェクトの動き、及び／又は周辺光の変化（例えば、照度、色など）などにより連写映像セット１０１の各個別映像は互いに異なる特性を有してもよい。連写映像セット１０１が低照度環境のように劣悪な環境で撮影され、及び／又は各個別映像が劣化された画質を有する場合、各個別映像の様々な特性を適切に組み合わせることによって、向上した画質を有する復元映像１０２を導出することができる。従って、低い画質の個別映像に対する復元作業を通じて高画質の復元映像１０２を導出することができる。

カメラ及び／又は対象オブジェクトの動きに応じて各個別映像でオブジェクトの位置が変わるため、各個別映像の中心線を整列させ、各個別映像のオブジェクトをマッチングさせる先行作業（又は前処理）が要求される。中心線は、各個別映像に表示される実際の線ではなく、個別映像を整列する基準として使用される仮想線である。このような先行作業が行われない場合には、ブラー（ｂｌｕｒ）現像がひどく現れる一方、このような先行作業を行うためには、算出量及び算出時間が大きく増加してしまう可能性がある。中心線の整列作業は反復的な処理を必要とするため、個別映像の数が多くなるほど、このような算出量及び算出時間の増加はより増加する。

映像復元装置１００は、連写映像セット１０１の個別映像に基づいてアンカー映像（ａｎｃｈｏｒｉｍａｇｅ）を決定し、アンカー映像のアンカー情報を用いてニューラルネットワークモデルを実行して復元映像１０２を生成することができる。例えば、アンカー情報を用いて復元映像１０２を生成する動作は、映像復元過程において、アンカー情報を繰り返し利用（例えば、強調）してアンカー情報を中心に復元映像１０２を生成する動作を含んでもよい。このような映像復元装置１００の映像リセット動作は、中心線に代替してアンカー映像のアンカー情報を基準として提供するため、中心線の整列作業なくても向上した画質の復元映像１０２を導き出すことができる。中心線の整列作業が不要であるため、映像復元のための算出量及び算出時間が減少し、個別映像の数により算出量及び算出時間が大きく増加する傾向も解消されることができる。

映像復元装置１００は、連写映像セット１０１の個別映像のうちアンカー映像を選択したり、又は個別映像の映像情報を用いてアンカー映像を生成してもよい。例えば、映像復元装置１００は、品質基盤の選択、時間区間基盤の選択、又は、任意の選択に基づいて個別映像のうちアンカー映像を選択してもよい。これとは異なり、映像復元装置１００は、映像品質などの基準に基づいて個別映像に加重値を付与し、該当加重値を個別映像に適用してアンカー映像を生成してもよい。

映像復元装置１００は、連写映像セット１０１に基づいてニューラルネットワークモデルを実行して復元映像１０２を生成する。例えば、ニューラルネットワークモデルは、連写映像セット１０１の個別映像から特徴を抽出する特徴抽出ネットワーク及び抽出された特徴を復元映像５４０に変換する映像復元ネットワークを含んでもよい。特徴抽出ネットワーク及び映像復元ネットワークそれぞれの少なくとも一部は、複数のレイヤを含むディープニューラルネットワーク（ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ、ＤＮＮ）に該当する。ここで、複数のレイヤは入力層（ｉｎｐｕｔｌａｙｅｒ）、少なくとも１つの隠れ層（ｈｉｄｄｅｎｌａｙｅｒ）、及び出力層（ｏｕｔｐｕｔｌａｙｅｒ）を含んでもよい。

ディープニューラルネットワークは、全結合ネットワーク（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｎｅｔｗｏｒｋ、ＦＣＮ）、畳み込みニューラルネットワーク（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ、ＣＮＮ）、及びリカレントニューラルネットワーク（ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ、ＲＮＮ）のうち少なくとも１つを含んでもよい。例えば、ニューラルネットワーク内の複数のレイヤのうち少なくとも一部はＣＮＮであり、他の一部はＦＣＮである。この場合、ＣＮＮは畳み込みレイヤと称されてもよく、ＦＣＮは全結合ネットワークと称されてもよい。

ＣＮＮの場合、各レイヤに入力されるデータは入力特徴マップと称され、各レイヤから出力されるデータは、出力特徴マップ（ｏｕｔｐｕｔｆｅａｔｕｒｅｍａｐ）と称される。入力特徴マップ及び出力特徴マップは、活性化データ（ａｃｔｉｖａｔｉｏｎｄａｔａ）と称されてもよい。畳み込みレイヤが入力層に該当する場合、入力層の入力特徴マップは入力映像である。

ニューラルネットワークは、ディープラーニングに基づいてトレーニングされた後、非線形関係にある入力データ及び出力データを互いにマッピングすることで、トレーニング目的に適する推論を実行することができる。ディープラーニングは、ビッグデータセットを利用して映像又は音声認識のような問題を解決するための機械学習方式である。ディープラーニングは、準備されたトレーニングデータを用いてニューラルネットワークをトレーニングし、エネルギーが最小化される地点を求める最適化問題過程として理解される。

ディープラーニングの教師あり（ｓｕｐｅｒｖｉｓｅｄ）又は教師なし（ｕｎｓｕｐｅｒｖｉｓｅｄ）学習を介してニューラルネットワークの構造、又はモデルに対応するウェイトが求められ、このようなウェイトを介して入力データ及び出力データを互いにマッピングすることができる。ニューラルネットワークの幅及び深さが十分に大きければ、任意の関数を実現する能力を有することができる。ニューラルネットワークが適切なトレーニング過程を介して十分に多い量のトレーニングデータを学習すれば、最適な性能を達成することができる。

以下で、ニューラルネットワークは「予め」トレーニングされたものと表現するが、ここで、「予め」という用語はニューラルネットワークが「開始」される前を示す。ニューラルネットワークが「開始」されたということは、ニューラルネットワークが推論のための準備ができたことを意味する。例えば、ニューラルネットワークが「開始」されたということは、ニューラルネットワークがメモリにロードされたこと、又は、ニューラルネットワークがメモリにロードされた後、ニューラルネットワークに推論のための入力データが入力されたことを含んでもよい。

映像復元装置１００は、アンカー映像のアンカー情報を用いてニューラルネットワークモデルを実行することができる。例えば、映像復元装置１００は、入力映像をニューラルネットワークモデルに入力する動作、ニューラルネットワークモデルを用いて入力映像で特徴を抽出する動作、抽出された特徴を出力する動作のうち少なくとも１つを行うことにおいてアンカー情報を強調することができる。例えば、アンカー情報は、アンカー映像の映像情報及び／又はアンカー映像から抽出された特徴情報を含んでもよい。このようなアンカー情報は、映像復元のための幾何学的基準を提供する。従って、中心線の整列がなくても、対応位置の映像情報が互いに組み合せわせることができ、これによりブラーの発生が抑制されて映像品質を向上することができる。

図２～図４は、様々な実施形態に係るアンカー映像を選択する動作を示す。図２を参照すると、映像復元装置は、連写映像セット２１０の複数の個別映像２１１～２１６のうちアンカー映像２２０を選択してもよい。例えば、映像復元装置は、映像品質を基準としてアンカー映像２２０を選択してもよい。具体的に、映像復元装置は、ノイズ（ｎｏｉｓｅ）、ブラー（ｂｌｕｒ）、ＳＮＲ（ｓｉｇｎａｌ－ｔｏ－ｎｏｉｓｅｒａｔｉｏ）、及び尖鋭度（ｓｈａｒｐｎｅｓｓ）のうち少なくとも１つに基づいて個別映像２１１～２１６それぞれの品質を決定し、品質が最も優れる映像をアンカー映像２２０として選択してもよい。映像復元装置は、このような品質を算出するためのディープラーニングネットワーク及び／又は算出モジュールを用いることができる。

異なる例として、映像復元装置は、映像順序を基準にしてアンカー映像２２０を選択してもよい。具体的に、個別映像２１１～２１６は、一連の順に撮影されてもよく、映像復元装置はこのうち最初の個別映像２１１をアンカー映像２２０として選択してもよい。他の例として、映像復元装置は、個別映像２１１～２１６のうち任意の映像をアンカー映像２２０として選択してもよい。アンカー映像２２０は、映像復元のための基準を提供するため、アンカー映像２２０の品質が高くなくても、個別映像２１１～２１６の映像情報を介して映像品質が向上されるためである。

図３を参照すると、映像復元装置は、決定された時間区間の個別映像のうちアンカー映像３２０を選択することができる。例えば、第１時間区間３３１は、撮影の開始時点から一定の時間をカバーし、映像復元装置は、第１時間区間３３１でアンカー映像３２０を選択してもよい。これとは異なり、複数の時間区間が使用されてもよい。例えば、第２時間区間３３２及び第３時間区間３３３は、互いに異なる撮影時間をカバーし、映像復元装置は、第２時間区間３３２及び第３時間区間３３３からアンカー映像３２０を選択してもよい。

図４を参照すると、映像復元装置は、連写映像セット４１０に対する加重値セット４２０を決定し、連写映像セット４１０の個別映像４１１～４１６に加重値Ｗ_４１～Ｗ_４６を適用してアンカー映像４３０を生成することができる。例えば、映像復元装置は、個別映像４１１～４１６の映像品質に基づいて加重値Ｗ_４１～Ｗ_４６を決定し、加重値Ｗ_４１～Ｗ_４６により個別映像４１１～４１６の映像情報を反映してアンカー映像４３０を生成することができる。ここで、加重値が高い映像であるほど、アンカー映像４３０に多くの映像情報を提供することができる。

図５は、一実施形態に係るアンカー情報を用いて復元映像を生成する動作を示す。図５を参照すると、映像復元装置は、連写映像セット５２０の個別映像５２１～５２４に基づいてアンカー映像を決定し、アンカー情報５３０を強調してニューラルネットワークモデル５１０を実行して復元映像５４０を生成することができる。連写映像セット５２０は個別映像５２１～５２４を含んでもよく、映像復元装置は、様々な基準により個別映像５２１～５２４に基づいてアンカー映像を決定することができる。図５は、個別映像５２１がアンカー映像に選択された例示を示す。以下、個別映像５２１～５２４が４個である例示について説明するが、個別映像５２１～５２４は４個より多いか、又は４個よりも少なくてもよい。

映像復元装置は、個別映像５２１～５２４をニューラルネットワークモデル５１０に順次入力し、アンカー情報５３０を強調してニューラルネットワークモデル５１０を実行する。例えば、映像復元装置は、個別映像５２１～５２４をニューラルネットワークモデル５１０に入力する動作、ニューラルネットワークモデル５１０を用いて個別映像５２１～５２４から特徴を抽出する動作、抽出された特徴を出力する動作のうち少なくとも１つを行うことにおいて、アンカー情報５３０を強調することができる。アンカー情報５３０は、アンカー映像の映像情報及び／又はアンカー映像から抽出された特徴情報を含んでもよい。

ニューラルネットワークモデル５１０は、特徴抽出ネットワーク５１１及び映像復元ネットワーク５１２を含むことができる。特徴抽出ネットワーク５１１は、個別映像５２１～５２４の入力により個別映像５２１～５２４から特徴を抽出する。例えば、特徴抽出ネットワーク５１１は、個別映像５２１～５２４からローカル特徴を抽出し、ローカル特徴からグローバル特徴を抽出してもよい。映像復元ネットワーク５１２は、抽出された特徴を復元映像５４０に変換する。特徴抽出ネットワーク５１１は、映像情報を特徴情報に変換するエンコーダに該当し、映像復元ネットワーク５１２は、特徴情報を映像情報に変換するデコーダに該当する。

図６は、一実施形態に係るニューラルネットワークモデルに関する構成及び動作を示す。図６を参照すると、特徴抽出ネットワーク６１０は、ローカル特徴抽出器６１１及びグローバル特徴抽出器６１２を含むことができる。ローカル特徴抽出器６１１は、連写映像セット６２０の各個別映像からローカル特徴を抽出し、グローバル特徴抽出器６１２は、ローカル特徴からグローバル特徴を抽出する。映像復元ネットワーク６４０は、グローバル特徴を復元映像６５０に変換する。特徴抽出ネットワーク６１０及び映像復元ネットワーク６４０は、ニューラルネットワークを含んでもよく、抽出動作及び変換動作を行うように予めトレーニングされてもよい。

映像復元装置は、アンカー情報６３０を繰り返し利用及び／又は強調して特徴抽出ネットワーク６１０を実行することができる。例えば、映像復元装置は、個別映像を特徴抽出ネットワーク６１０に入力する動作、特徴抽出ネットワーク６１０を用いて個別映像から特徴を抽出する動作、抽出された特徴を出力する動作のうち少なくとも１つを行うことにおいて、アンカー情報６３０を強調することができる。以下、アンカー情報６３０の利用に関する動作をより具体的に説明する。

図７は、一実施形態に係る入力映像の入力過程でアンカー情報を利用する動作を示す。図７を参照すると、映像復元装置は、個別映像７２１～７２４を特徴抽出ネットワークに入力する過程でアンカー映像のアンカー情報を利用することができる。ここで、特徴抽出ネットワークは、ローカル特徴抽出器に該当する。図７は、個別映像７２１をアンカー映像であると仮定し、映像復元装置は、個別映像７２１の映像情報をアンカー情報として個別映像７２１～７２４と融合することができる。

例えば、融合は、連結（ｃｏｎｃａｔｅｎａｔｉｏｎ）及び／又は加算（ａｄｄｉｔｉｏｎ）を含んでもよい。連結は、各エレメントを結び付けることであり、加算は、各エレメントを合計したものである。従って、連結は、ディメンション（ｄｉｍｅｎｓｉｏｎ）に影響を与える一方、加算は、ディメンションに影響を与えない。連結は、チャネル方向に行われてもよい。例えば、個別映像７２１～７２４のそれぞれが、Ｗ×Ｈ×Ｃのディメンションを有する場合、連結結果は、Ｗ×Ｈ×２Ｃのディメンションを有する可能性がある一方、加算結果は、Ｗ×Ｈ×Ｃのディメンションを有する。

映像復元装置は、融合結果を入力映像として特徴抽出ネットワークに入力することができ、そのため、ローカル特徴抽出動作７１１～７１４を行うことができる。例えば、映像復元装置は、個別映像７２１とアンカー映像情報の融合結果を特徴抽出ネットワークに入力してローカル特徴抽出動作７１１を行い、その結果、ローカル特徴マップ７３１を取得することができる。同様に、残りの個別映像７２２～７２４とアンカー映像情報の融合結果を特徴抽出ネットワークに順次入力してローカル特徴抽出動作７１２～７１４を行い、その結果、ローカル特徴マップ７３４を取得することができる。

図８は、一実施形態に係る出力特徴マップの出力過程でアンカー情報を利用する動作を示す。図８を参照すると、映像復元装置は、グローバル特徴抽出動作８４０を介してローカル特徴マップ８３１～８３４からグローバル特徴マップ８５０を抽出し、グローバル特徴マップ８５０を出力する過程で、アンカー映像のアンカー情報を利用することができる。映像復元装置は、特徴抽出ネットワークを用いてグローバル特徴抽出動作８４０を行ってもよい。ここで、特徴抽出ネットワークは、グローバル特徴抽出器に該当する。図８は、ローカル特徴マップ８３１がアンカー映像から抽出されたものと仮定し、映像復元装置は、ローカル特徴マップ８３１の特徴情報をアンカー情報としてグローバル特徴マップ８５０と融合することができる。ここで、融合は連結及び／又は加算を含んでもよい。融合結果は、特徴抽出ネットワークの出力特徴マップに該当し、映像復元装置は、映像復元ネットワークを用いて出力特徴マップを復元映像に変換することができる。

図９は、一実施形態に係るグローバル特徴の抽出過程でアンカー情報を利用する動作を示す。図９を参照すると、映像復元装置は、グローバル特徴抽出動作９４０を介してローカル特徴マップ９３１～９３４からグローバル特徴マップ９５０を抽出し、この過程でアンカー映像のアンカー情報をガイド情報として利用してもよい。図９は、ローカル特徴マップ９３１がアンカー映像から抽出されたものと仮定し、映像復元装置は、ローカル特徴マップ９３１の特徴情報をアンカー情報、さらに、ガイド情報として利用してもよい。例えば、ローカル特徴マップ９３１は、アンカーローカル特徴、ローカル特徴マップ９３２～９３４は、周辺ローカル特徴とすれば、映像復元装置は、周辺ローカル特徴よりもアンカーローカル特徴に高い加重値を付与してグローバル特徴抽出動作９４０を行うことができる。そのため、周辺ローカル特徴に比べてアンカーローカル特徴の情報がグローバル特徴マップ９５０により多くの影響を与えることができる。

図１０は、図９に示す動作の例示を示す。図９に示すように、アンカー情報をガイド情報として利用するために様々な加重値付与方式を用いてもよい。図１０は、加重値付与動作１０４０及び加重融合１０６０の動作によりアンカー情報を強調する方式である。このような方式は、映像復元のための幾何学的な基準に該当するアンカー情報を強調するため、マックスプーリング（ｍａｘｐｏｏｌｉｎｇ）、平均プーリング（ａｖｅｒａｇｅｐｏｏｌｉｎｇ）のようなプーリング動作を行っており、ローカル特徴からグローバル特徴を抽出する方式に比べて、対応する映像情報を組み合わせるために、より一層効果的である。図１０を参照すると、映像復元装置は、ローカル特徴マップ１０３１～１０３４のそれぞれに互いに異なる加重値を付与してもよい。映像復元装置は、加重値セット１０５０を考慮してローカル特徴マップ１０３１～１０３４を互いに融合し、このような加重融合動作１０６０の結果としてグローバル特徴マップ１０７０を生成することができる。例えば、映像復元装置は、ソフトマックス（Ｓｏｆｔｍａｘ）を介してローカル特徴マップ１０３４～１０３４に加重値Ｗ_１０１～Ｗ_１０４を付与し、加重値Ｗ_１０１～Ｗ_１０４を考慮してローカル特徴マップ１０３４～１０３４を加算してグローバル特徴マップ１０７０を生成することができる。

アンカー映像からローカル特徴マップ１０３１が抽出され、他の個別映像からローカル特徴マップ１０３２～１０３４が抽出されたと仮定する。この場合、映像復元装置は、ローカル特徴マップ１０３２～１０３４の加重値Ｗ_１０２～Ｗ_１０４に比べてローカル特徴マップ１０３１の加重値Ｗ_１０１をさらに高く設定してもよい。そのため、ローカル特徴マップ１０３１の特徴情報を介してアンカー情報が強調されてもよい。これとは異なり、映像復元装置は、ローカル特徴マップ１０３１とローカル特徴マップ１０３２～１０３４それぞれ間の類似度を決定し、ローカル特徴マップ１０３１だけでなく、ローカル特徴マップ１０３１に類似の異なる特徴マップにも高い加重値を付与してもよい。具体的に、ローカル特徴マップ１０３２は、ローカル特徴マップ１０３１と類似度が高く、ローカル特徴マップ１０３３，１０３４は、ローカル特徴マップ１０３１と類似度が低かったとすると、映像復元装置は、ローカル特徴マップ１０３３，１０３４の加重値Ｗ_１０３、Ｗ_１０４に比べて、ローカル特徴マップ１０３１，１０３２の加重値Ｗ_１０１、Ｗ_１０２をさらに高く設定してもよい。そのため、ローカル特徴マップ１０３１，１０３２の特徴情報を介してアンカー情報を強調することができる。

図１１は、一実施形態に係るローカル特徴の抽出過程でアンカー情報を利用する動作を示す。図１１を参照すると、映像復元装置は、ローカル特徴抽出動作１１１０～１１４０を介して連写映像セット１０５０の個別映像１１５１～１１５４からローカル特徴マップ１１３１～１１３４を抽出してもよい。映像復元装置は、ローカル特徴マップ１１３１～１１３４の抽出過程でアンカー情報を強調することができる。例えば、映像復元装置は、個別映像１１５１をアンカー映像として選択し、個別映像１１５１に基づいてアンカー情報１１０１を生成する。アンカー情報１１０１は、個別映像１１５１の映像情報及び／又は特徴情報を含んでもよい。

特徴抽出ネットワーク（例えば、ローカル特徴抽出器）は、複数のレイヤを含んでもよく、複数のレイヤはそれぞれ数個のレイヤを含むレイヤグループに分類されてもよい。例えば、各レイヤグループは、畳み込みレイヤ及び／又はプーリングレイヤを含んでもよい。映像復元装置は、アンカー情報を特徴抽出ネットワークの複数のレイヤグループごとに用いてローカル特徴を抽出してもよい。映像復元装置は、各レイヤグループによってローカル特徴を抽出し、抽出されたローカル特徴にアンカー情報１１０１を融合する。映像復元装置は、このような過程を全てのレイヤグループに繰り返してローカル特徴マップ１１３１～１０３４を生成することができる。

具体的に、映像復元装置は、第１レイヤグループを用いた特徴抽出動作１１１１を介して個別映像１１５１から１次ローカル特徴を抽出し、１次ローカル特徴にアンカー情報１１０１を融合して１次ローカル特徴を変形してもよい。映像復元装置は、第２レイヤグループを用いた特徴抽出動作１１１２を介して変形された１次ローカル特徴から２次ローカル特徴を抽出し、２次ローカル特徴にアンカー情報１１０１を融合して２次ローカル特徴を変形してもよい。また、映像復元装置は、第３レイヤグループを用いた特徴抽出動作１１１３を介して変形された２次ローカル特徴から３次ローカル特徴を抽出し、３次ローカル特徴にアンカー情報１１０１を融合して３次ローカル特徴を変形してもよい。最後のレイヤグループを用いた特徴抽出動作１１１５が完了すると、その結果として、ローカル特徴マップ１１３１が生成される。残りの個別映像１１５２～１１５４に関する残りのローカル特徴抽出動作１１２０～１１４０は、個別映像１１５１に関するローカル特徴動作１１１０に同様に対応しており、その結果、ローカル特徴マップ１１３２～１０３４を生成することができる。

ここで、映像復元装置は、各レイヤグループの出力に同じアンカー情報１１０１を融合したり、又は各レイヤグループに特化したアンカー情報１１０１を融合したりしてもよい。まず、共通のアンカー情報１１０１を通した融合について説明する。共通のアンカー情報１１０１は、アンカー映像の映像情報及び／又は特徴情報であってもよい。ここで、特徴情報を取得するために、アンカー映像から特徴を抽出する動作が先行して実行されてもよい。例えば、この先行した動作は、ローカル特徴抽出動作１１１０～１１４０のために使用される特徴抽出ネットワーク（例えば、図５に示す特徴抽出ネットワーク５１１、図６に示すローカル特徴抽出器６１１）を用いたり、又は別に備えられた特徴抽出ネットワークを用いたりして実行されてもよい。このように共通の映像情報及び／又は特徴情報が備えられると、ローカル特徴抽出動作１１１０～１１０４０による各レイヤグループの出力、言い換えれば、ローカル特徴に融合されることができる。

次に、特化したアンカー情報１１０１を通した融合について説明する。特化したアンカー情報１１０１は、共通のアンカー情報１１０１とは異なり、各レイヤグループに合うように加工された情報であってもよい。特化したアンカー情報１１０１は、各レイヤグループによって抽出されたアンカー映像の段階的ローカル特徴を含んでもよい。例えば、第１レイヤグループ～第３レイヤグループによってアンカー映像の第１ローカル特徴～第３ローカル特徴が抽出された場合、第１ローカル特徴～第３ローカル特徴が第１レイヤグループ～第３レイヤグループに特化したアンカー情報１１０１として用いられる。そのため、特徴抽出動作１１１１，１１２１を介して抽出されたローカル特徴それぞれに第１ローカル特徴が融合し、特徴抽出動作１１１２，１１２２を介して抽出されたローカル特徴それぞれに第２ローカル特徴が融合し、特徴抽出動作１１１３，１１２３を介して抽出されたローカル特徴それぞれに第３ローカル特徴が融合したものとすることができる。

図１２は、一実施形態に係る映像リセット動作を示すフローチャートである。図１２を参照すると、ステップＳ１２１０において、映像復元装置は、連写映像セットの個別映像に基づいてアンカー映像を決定する。映像復元装置は、個別映像の品質に基づいて個別映像のうちアンカー映像を選択してもよい。また、映像復元装置は、個別映像のうち任意の映像をアンカー映像として選択してもよい。

ステップＳ１２２０において、映像復元装置は、アンカー映像のアンカー情報を用いて連写映像セットに基づいて特徴抽出ネットワークを実行する。映像復元装置は、特徴抽出ネットワークの第１レイヤグループを用いて個別映像のうち第１個別映像から１次ローカル特徴を抽出し、１次ローカル特徴にアンカー情報を融合して１次ローカル特徴を変形し、特徴抽出ネットワークの第２レイヤグループを用いて、変形された１次ローカル特徴から２次ローカル特徴を抽出してもよい。また、映像復元装置は、２次ローカル特徴にアンカー情報を融合して２次ローカル特徴を変形し、特徴抽出ネットワークの第３レイヤグループを用いて変形された２次ローカル特徴から３次ローカル特徴を抽出し、３次ローカル特徴に基づいてグローバル特徴を決定してもよい。

映像復元装置は、アンカー映像からアンカーローカル特徴を抽出し、個別映像のうちアンカー映像以外の他の映像からローカル特徴を抽出し、アンカーローカル特徴を用いてアンカーローカル特徴及び他の映像のローカル特徴からグローバル特徴を抽出することができる。ここで、映像復元装置は、他の映像のローカル特徴よりアンカーローカル特徴に高い加重値を付与し、アンカーローカル特徴及び他の映像のローカル特徴からグローバル特徴を抽出することができる。

映像復元装置は、アンカー映像からアンカーローカル特徴を抽出し、個別映像のうちアンカー映像以外の他の映像からローカル特徴を抽出し、アンカーローカル特徴及び他の映像のローカル特徴からグローバル特徴を抽出し、グローバル特徴にアンカーローカル特徴を融合することができる。また、映像復元装置は、個別映像それぞれにアンカー情報を融合してニューラルネットワークモデルの入力映像を生成することができる。

ステップＳ１２３０において、映像復元装置は、特徴抽出ネットワークの出力に対応する特徴マップに基づいて復元映像を生成する。ここで、映像復元装置は、特徴マップに基づいて映像復元ネットワークを実行してもよい。その他に、映像復元方法には、図１～図１１の説明が適用され得る。

図１３は、一実施形態に係る映像復元装置の構成を示すブロック図である。図１３を参照すると、映像復元装置１３００は、プロセッサ１３１０及びメモリ１３２０を含む。メモリ１３２０は、プロセッサ１３１０に接続され、プロセッサ１３１０によって実行可能な命令語、プロセッサ１３１０が演算するデータ又はプロセッサ１３１０によって処理されたデータを格納する。メモリ１３２０は、非一時的なコンピュータで読み出し可能な記録媒体、例えば、高速ランダムアクセスメモリ及び／又は非揮発性コンピュータで読み出し可能な格納媒体（例えば、１つ以上のディスク格納装置、フラッシュメモリ装置、又は、その他の不揮発性固体メモリ装置）を含んでもよい。

プロセッサ１３１０は、図１～図１２を参照して説明された動作を行うための命令語を実行する。例えば、プロセッサ１３１０は、連写映像セットの個別映像に基づいてアンカー映像を決定し、アンカー映像のアンカー情報を用いて連写映像セットに基づいて特徴抽出ネットワークを実行し、特徴抽出ネットワークの出力に対応する特徴マップに基づいて復元映像を生成する。その他に、映像復元装置１３００の詳細については図１～図１２の説明が適用され得る。

図１４は、一実施形態に係る電子装置の構成を示すブロック図である。図１４を参照すると、電子装置１４００は、プロセッサ１４１０、メモリ１４２０、カメラ１４３０、格納装置１４４０、入力装置１４５０、出力装置１４６０及びネットワークインターフェース１４７０を含んでもよく、これらは通信バス１４８０を介して通信することができる。例えば、電子装置１４００は、移動電話、スマートフォン、ＰＤＡ、ネットブック、タブレットコンピュータ、ラップトップコンピュータなどのようなモバイル装置、スマートウォッチ、スマートバンド、スマートメガネなどのようなウェアラブルデバイス、デスクトップ、サーバなどのようなコンピューティング装置、テレビ、スマートテレビ、冷蔵庫などのような家電製品、ドアラックなどのようなセキュリティー装置、自律走行車両、スマート車両などのような車両の少なくとも一部として実現されることができる。電子装置１４００は、図１に示す映像復元装置１００及び／又は図１３に示す映像復元装置１３００を構造的及び／又は機能的に含むことができる。

プロセッサ１４１０は、電子装置１４００内で実行するための機能及び命令語を実行する。例えば、プロセッサ１４１０は、メモリ１４２０又は格納装置１４４０に格納された命令語を処理する。プロセッサ１４１０は、図１～図１３を参照して説明された１つ以上の動作を行ってもよい。メモリ１４２０は、コンピュータで読み出し可能な格納媒体又はコンピュータで読み出し可能な格納装置を含んでもよい。メモリ１４２０は、プロセッサ１４１０によって実行するための命令語を格納し、電子装置１４００によりソフトウェア及び／又はアプリケーションが実行される間に関連情報を格納する。

カメラ１４３０は、写真及び／又はビデオを撮影する。カメラ１４３０は、写真を連続的に撮影したり、ビデオを撮影して連写映像セットを生成したりしてもよい。連写映像セットが連続的な写真である場合、連写映像セットの各個別映像は各写真に該当し、連写映像セットがビデオである場合、連写映像セットの各個別映像はビデオの各映像フレームに該当する。格納装置１４４０は、コンピュータで読み出し可能な格納媒体又はコンピュータで読み出し可能な格納装置を含む。格納装置１４４０は、メモリ１４２０よりもさらに多い量の情報を格納し、情報を長期間格納することができる。例えば、格納装置１４４０は、磁気ハードディスク、光ディスク、フラッシュメモリ、フロッピーディスク又はが技術分野で知られた他の形態の不揮発性メモリを含んでもよい。

入力装置１４５０は、キーボード及びマウスを通した伝統的な入力方式、及びタッチ入力、音声入力、及びイメージ入力のような新しい入力方式を介してユーザから入力を受信することができる。例えば、入力装置１４５０は、キーボード、マウス、タッチスクリーン、マイクロホン、又は、ユーザから入力を検出し、検出された入力を電子装置１４００に伝達できる任意の他の装置を含んでもよい。出力装置１４６０は、視覚的、聴覚的又は触覚的なチャネルを介してユーザに電子装置１４００の出力を提供することができる。出力装置１４６０は、例えば、ディスプレイ、タッチスクリーン、スピーカ、振動発生装置、又はユーザに出力を提供できる任意の他の装置を含んでもよい。ネットワークインターフェース１４７０は、有線又は無線ネットワークを介して外部装置と通信することができる。

以上で説明した実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム（ＯＳ）及び前記オペレーティングシステム上で行われる１つ以上のソフトウェアアプリケーションを行うことができる。また、処理装置は、ソフトウェアの実行に応答てデータをアクセス、格納、操作、処理及び生成することもできる。理解の利便のために、処理装置は、１つが使用されるものと説明される場合もあるが、当該技術分野において通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び又は複数のタイプの処理要素を含んでいることが分かる。例えば、処理装置は、複数のプロセッサ又は一のプロセッサ及び一つのコントローラを含んでもよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、意図された通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令したりすることができる。ソフトウェア及び／又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。

本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気－光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。

上記で説明したハードウェア装置は、本発明に示す動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び／又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。

したがって、本発明の範囲は、開示された実施形態に限定されるものではなく、特許請求の範囲及び特許請求の範囲と均等なものなどによって定められる。

Claims

連写映像セットの個別映像に基づいてアンカー映像を決定するステップと、
前記アンカー映像のアンカー情報を用いて前記連写映像セットに基づいて特徴抽出ネットワークを実行するステップと、
前記特徴抽出ネットワークの出力に対応する特徴マップに基づいて復元映像を生成するステップと、
を含む映像復元方法。
前記アンカー映像を決定するステップは、品質基盤の選択、時間区間基盤の選択、又は、任意の選択に基づいて前記個別映像のうち前記アンカー映像を選択するステップを含む、請求項１に記載映像復元方法。
前記アンカー映像を決定するステップは、前記個別映像に加重値を適用して前記アンカー映像を生成するステップを含む、請求項１に記載映像復元方法。
前記アンカー情報は、前記アンカー映像の映像情報及び前記アンカー映像の特徴情報のうち少なくとも１つを含む、請求項１～請求項３の何れか１項に記載映像復元方法。
前記個別映像それぞれに前記アンカー情報を融合して前記特徴抽出ネットワークの入力映像を生成するステップをさらに含む、請求項１～請求項４の何れか１項に記載映像復元方法。
前記特徴抽出ネットワークを実行するステップは、
前記アンカー映像からアンカーローカル特徴を抽出するステップと、
前記個別映像のうち前記アンカー映像以外の他の映像からローカル特徴を抽出するステップと、
前記アンカーローカル特徴及び前記他の映像のローカル特徴からグローバル特徴を抽出するステップと、
前記グローバル特徴に前記アンカーローカル特徴を融合するステップと、
を含む、請求項１～請求項５の何れか１項に記載映像復元方法。
前記特徴抽出ネットワークを実行するステップは、
前記アンカー映像からアンカーローカル特徴を抽出するステップと、
前記個別映像のうち前記アンカー映像以外の他の映像からローカル特徴を抽出するステップと、
前記アンカーローカル特徴を用いて、前記アンカーローカル特徴及び前記他の映像のローカル特徴からグローバル特徴を抽出するステップと、
を含む、請求項１～請求項５の何れか１項に記載映像復元方法。
前記グローバル特徴を抽出するステップは、前記他の映像のローカル特徴よりも前記アンカーローカル特徴に高い加重値を付与し、前記アンカーローカル特徴及び前記他の映像のローカル特徴から前記グローバル特徴を抽出するステップを含む、請求項７に記載映像復元方法。
前記特徴抽出ネットワークを実行するステップは、前記アンカー情報を前記特徴抽出ネットワークの複数のレイヤグループごとに用いてローカル特徴を抽出するステップを含む、請求項１～請求項５の何れか１項に記載映像復元方法。
前記ローカル特徴を抽出するステップは、
前記複数のレイヤグループの第１レイヤグループを用いて、前記個別映像のうち第１個別映像から１次ローカル特徴を抽出するステップと、
前記１次ローカル特徴に前記アンカー情報を融合して前記１次ローカル特徴を変形するステップと、
前記複数のレイヤグループの第２レイヤグループを用いて、前記変形された１次ローカル特徴から２次ローカル特徴を抽出するステップと、
前記２次ローカル特徴に基づいてグローバル特徴を決定するステップと、
を含む、請求項９に記載映像復元方法。
前記復元映像を生成するステップは、前記特徴マップに基づいて映像復元ネットワークを実行するステップを含む、請求項１～請求項１０の何れか１項に記載映像復元方法。
ハードウェアと結合して請求項１～請求項１１の何れか１項に記載の方法を実行させるためにコンピュータで読み出し可能な記録媒体に格納されたコンピュータプログラム。
プロセッサと、
前記プロセッサで実行可能な命令語を含むメモリと、
を含み、
前記命令語が前記プロセッサで実行されると、前記プロセッサは、
連写映像セットの個別映像に基づいてアンカー映像を決定し、
前記アンカー映像のアンカー情報を用いて前記連写映像セットに基づいて特徴抽出ネットワークを実行し、
前記特徴抽出ネットワークの出力に対応する特徴マップに基づいて復元映像を生成する、映像復元装置。
前記プロセッサは、品質基盤の選択、時間区間基盤の選択、又は、任意の選択に基づいて前記個別映像のうち前記アンカー映像を選択し、
前記個別映像に加重値を適用して前記アンカー映像を生成する、請求項１３に記載の映像復元装置。
前記プロセッサは、
前記アンカー映像からアンカーローカル特徴を抽出し、
前記個別映像のうち前記アンカー映像以外の他の映像からローカル特徴を抽出し、
前記アンカーローカル特徴を用いて前記アンカーローカル特徴及び前記他の映像のローカル特徴からグローバル特徴を抽出する、請求項１３又は請求項１４に記載の映像復元装置。
前記プロセッサは、前記アンカー情報を前記特徴抽出ネットワークの複数のレイヤグループごとに用いてローカル特徴を抽出する、請求項１３～請求項１５の何れか１項に記載の映像復元装置。
連写映像セットを生成するカメラと、
前記連写映像セットの個別映像に基づいてアンカー映像を決定し、
前記アンカー映像のアンカー情報を用いて前記連写映像セットに基づいて特徴抽出ネットワークを実行し、
前記特徴抽出ネットワークの出力に対応する特徴マップに基づいて復元映像を生成するプロセッサと、
を含む電子装置。
前記プロセッサは、品質基盤の選択、時間区間基盤の選択、又は、任意の選択に基づいて前記個別映像のうち前記アンカー映像を選択し、
前記個別映像に加重値を適用して前記アンカー映像を生成する、請求項１７に記載の電子装置。
前記プロセッサは、
前記アンカー映像からアンカーローカル特徴を抽出し、
前記個別映像のうち前記アンカー映像以外の他の映像からローカル特徴を抽出し、
前記アンカーローカル特徴を用いて前記アンカーローカル特徴及び前記他の映像のローカル特徴からグローバル特徴を抽出する、請求項１７又は請求項１８に記載の電子装置。
前記プロセッサは、前記アンカー情報を前記特徴抽出ネットワークの複数のレイヤグループごとに用いてローカル特徴を抽出する、請求項１７～請求項１９の何れか１項に記載の電子装置。