JP7392227B2 - 映像フレーム補間のための特徴ピラミッドワーピング - Google Patents

映像フレーム補間のための特徴ピラミッドワーピング Download PDF

Info

Publication number
JP7392227B2
JP7392227B2 JP2021564227A JP2021564227A JP7392227B2 JP 7392227 B2 JP7392227 B2 JP 7392227B2 JP 2021564227 A JP2021564227 A JP 2021564227A JP 2021564227 A JP2021564227 A JP 2021564227A JP 7392227 B2 JP7392227 B2 JP 7392227B2
Authority
JP
Japan
Prior art keywords
input frame
feature pyramid
frame
input
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021564227A
Other languages
English (en)
Other versions
JP2022517444A (ja
Inventor
フェン リュウ,
サイモン ニクラウス,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Portland State University
Original Assignee
Portland State University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Portland State University filed Critical Portland State University
Publication of JP2022517444A publication Critical patent/JP2022517444A/ja
Application granted granted Critical
Publication of JP7392227B2 publication Critical patent/JP7392227B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0135Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes
    • H04N7/014Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes involving the use of motion vectors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection
    • H04N5/145Movement estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0127Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level by changing the field or frame frequency of the incoming video signal, e.g. frame rate converter
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Television Systems (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

関連出願
[1]本願は、2019年1月15日に出願された米国特許仮出願第62/792,693号の優先権を主張するものであり、そのすべての内容を本明細書に援用する。
分野
[2]本開示は一般的に、信号処理及びコンピュータビジョンの分野に関し、特に、特徴ピラミッドワーピングによる映像フレーム補間に関する。
背景
[3]本明細書で提供する背景説明は、本開示の背景を大略提示することを目的とする。本明細書において別段の指示がない限り、本項に記載の内容は、本願の特許請求の範囲の先行技術ではなく、また、本項に含むことで先行技術と認められるものではない。
[4]映像フレーム補間は、多くの実用的応用を伴うコンピュータビジョンにおける古典的問題である。例えば近年、人間の脳波パワースペクトルの解析によって実証されている通り、映像フレーム補間の使用によって、映像のフレームレートを変換してモニタのリフレッシュレートと一致させることにより、映像鑑賞の体験を改善可能である([R26]、[R27])。映像フレーム補間は、色伝搬等の通常であれば労働集約的な映像編集タスクにも対応可能である([R31])。各フレームを修正する代わりに、数個の主要なフレームのみを修正し、補間を用いてこれらの修正をその他のフレームに伝搬させることも可能である。また、フレーム補間は、映像のフレーム間圧縮にも対応可能である([R47])。これらの用途では、時間領域の映像フレーム補間を採用するが、これは、所与の視点間の補間によって、空間におけるビューの合成にも同様に適用可能である([R09])。通常はオプティカルフローの形態である入力フレーム間の高品質の高密度対応が補間には不可欠である。
[5]ただし、オプティカルフロー推定自体は、困難な課題であり、オクルージョン、広範な動き、及びテクスチャの欠如等の困難に直面している([R06]、[R19])。これらの課題に対処するため、多くの既存技術では、様々な特徴を抽出して、対応を確立する([R01]、[R04]、[R05]、[R15]、[R46])。最近では、[R16]及び[R44]ほかが、オプティカルフロー推定用の特徴ピラミッド抽出器をトレーニングすること提案して、従来技術の新たな結果を実現している。ただし、映像の増強にオプティカルフローを使用するには、対象タスクに対するオプティカルフローの微調節が重要であることを[R49]が示している。
[6]オプティカルフロー推定は、映像フレーム補間の不可欠な部分である。深層学習ではないオプティカルフロー法に関する調査が[R02]及び[R43]に見られる。[R07]は、畳み込みニューラルネットワークであれば、オプティカルフロー推定に関する従来の変分的手法に張り合えることを示している。[R17]では、このような複数のネットワークを積み重ねて、大小の変位を適当に扱っている。[R39]では、空間ピラミッドを利用して、古典的なオプティカルフローの原理を深層学習と組み合わせる。最近では、オプティカルフロー予測をさらに改善するより高度な空間ピラミッド技術を[R16]及び[R44]が提案している。
[7]映像フレーム補間の実行には、市販のオプティカルフローを直接使用可能である。[R02]は、アウトサイドイン手法を用いて任意の孔を埋めるとともにオクルージョンマスクを考慮しつつ、入力フレームをワープさせることにより、オプティカルフロー推定の補助的な誤差基準としてフレーム補間を採用することを提案している。[R13]は、マルコフ確率場法を用いて選択された候補フローから中間フレームを合成する前の前方及び後方フローに応じたオクルージョンを論証している。[R20]では、両方向のオプティカルフローを一体的に予測し、その後これらの予測の線形結合によって補間結果を合成する。同様に、[R34]では、二方向フローに従って入力フレームをワープさせる一方、コンテキスト情報を利用する合成ネットワークを用いてこれらを結合する。このようにオプティカルフローを使用することによって、任意の時間的位置でのフレーム補間が可能となる。
[8]市販の方法を直接用いてオプティカルフローの結果を出力するほか、いくつかの方法では、映像フレーム補間のタスクに対してオプティカルフロー推定をカスタマイズする。[R38]では、オプティカルフロー形成を修正して対称とすることにより、両方向でのオプティカルフローの推定を回避する。[R30]では、畳み込みニューラルネットワークを用いてボクセルフローを推定するとともに、選択マスクを組み込んでビュー合成を実行する。[R49]は、オプティカルフロー形成を修正するものではないが、フレーム補間等の特定の映像処理タスクに対してオプティカルフローを最適化するタスク指向フローを提案している。
[9]オプティカルフローを使用する代わりに、[R32]、[R33]では、周波数領域における位相シフトとして動きを表す。この手法は、モーションブラー及び輝度変化を含む困難なシナリオにおいて良好に機能するものの、位相アンビギュイティのため、扱い得る動き範囲は制限される。[R35]、[R36]では、適応畳み込みによって、動き推定及びビュー合成を単一のステップとして組み合わせる。これは、小さな変位の場合は堅牢な形成となるが、カーネルサイズが制限されていることから、大きな変位を扱うことはできない。
[10]映像フレーム補間は、新規ビューの補間に関連し、2つの所与のビュー間の視点から新たな画像がレンダリングされる。フレーム補間の場合と同様に、ビュー補間にも深層学習が適用されている。例えば、[R09]では、プレーンスイープボリュームをニューラルネットワークに組み込んで、広い基準値により分離されたビュー間を補間する。[R51]においては、外観フローの推定によりピクセルをワープ及び混合して新規ビューを合成するように、ニューラルネットワークがトレーニングされる。[R22]においては、ニューラルネットワークの使用によって、視差推定及び混合を別個にモデル化するとともに、ニューラルネットワークの一体的なトレーニングによって、一組のわずかな入力ビューから新たなビューを合成する。
[11]添付の図面と併せた以下の詳細な説明によって、実施形態が容易に理解されるであろう。この説明を容易にするため、同様の参照番号によって同様の構造的要素を指定する。添付の図面の各図においては、実施形態を一例として示しているに過ぎず、何ら限定を目的としたものではない。
図1は、映像フレーム補間のための例示的な映像フレームを示した図である。 図1Tは、2つの異なるオプティカルフロー法(FlowNet2([R17])及びPWC-Net([R44]))に関する基準値比較を示した表である。 図2は、種々実施形態に係る、フレーム補間ニューラルネットワークの例示的なアーキテクチャを示した図である。 図2Tは、従来の様々な映像フレーム補間法及び複数の公開データセットに対するFPW実施形態の定量的比較を示した表である。 図3は、種々実施形態に係る、特徴ピラミッド抽出器の例示的なアーキテクチャを示した図である。 図3Tは、オプティカルフローのMiddleburyベンチマーク([R02])の関連する補間カテゴリに関する定量的ランキングを示した表である。 図4は、種々実施形態に係る、特徴合成ネットワークの例示的なアーキテクチャを示した図である。 図5は、[R08]に係る、異なるタスク固有特徴ピラミッドから抽出された例示的な特徴を示した図である。 図6は、高フレームレートSintelデータセット([R19])に関する特徴ピラミッドワーピング実施形態のマルチフレーム補間能力の評価を示した図である。 図7Aは、従来の複数の映像補間技術と、特徴ピラミッドワーピング実施形態の比較を含む、3つの困難な映像補間例の補間結果を示した図である。 図7Bは、従来の複数の映像補間技術と、特徴ピラミッドワーピング実施形態を比較した、4つの困難な例の付加的な補間結果を示した図である。 図8は、2つの困難な映像補間シナリオに関する特徴ピラミッドワーピング実施形態のマルチフレーム補間能力の実証を示した図である。
図9は、種々実施形態に係る、本開示の種々態様を実現するのに適した例示的なコンピュータシステムを示した図である。 図10は、装置による命令の実行に応答して本開示の選択態様を当該装置に実現させる命令(又は、命令を生成するデータ)を格納する際の使用に適し得る例示的な非一時的コンピュータ可読記憶媒体を示した図である。
詳細な説明
[14]本明細書に記載の実施形態は、映像フレーム補間のための動き推定、特に、映像フレーム補間用に最適化された特徴ピラミッドを用いたフレーム補間のための機械学習の提供に関する。フレーム補間の目標として、動き推定及び動き補償がある。動き推定には、2つの画像間の状態の推定及び/又はある2D画像から別の2D画像への(通例、一連の映像フレーム中の隣り合うフレームからの)変換を表す動きベクトルの決定を含む。動きベクトルは、画像の全体又は一部(例えば、ピクセルの矩形若しくは任意形状のブロック、又はピクセルごと)に関していてもよい。動きベクトルは、並進運動モデル又はその他何らかの種類のモデルにより表されるようになっていてもよい。動き補償には、映像中の物体の動き及び/又はカメラの動きを考慮することにより、過去のフレーム並びに/又は1つ若しくは複数の未来のフレームを所与として、映像中のフレームの予測を含む。実施形態では、動き推定のための画像表現としての特徴ピラミッドの能力を踏まえ、これらをフレーム補間用の深層ニューラルネットワークへとシームレスに組み込む。本開示は、強力な画像表現として特徴ピラミッドを利用する映像フレーム補間の実施形態を提供するとともに、フレーム補間のタスクに対してこれらを最適化する。
[15]種々実施形態において、特徴ピラミッドは、2つの入力フレームそれぞれに対して抽出される。これらの特徴ピラミッドは、オプティカルフローにより推定されたフレーム間動きに従って、入力フレームとともに対象時間位置へとワープする。オプティカルフローは、観測者とシーンとの間の相対的な動きによる視覚シーン中の物体、表面、及び縁部の見掛けの動きのパターン、並びに/又は、画像若しくは映像中の輝度パターンの移動の見掛けの速度の分布である。実施形態において、オプティカルフローの成分は、映像フレーム補間のタスクに対して微調節される。そして、フレーム合成ネットワークの使用により、これらプリワープした特徴ピラミッド及び入力フレームからの補間結果を予測する。特徴ピラミッド抽出器及びフレーム合成ネットワークの一体的なトレーニングにより、これらは、フレーム補間のタスクに対して最適化される。他の実施形態についても説明及び/又は請求を行う。
[16]種々実施形態においては、特徴ピラミッド抽出器として深層ニューラルネットワークが利用されるとともに、2つの入力フレームそれぞれに対して特徴ピラミッドが生成される。そして、特徴ピラミッドは、映像フレーム補間に対して微調節された市販のオプティカルフローのメカニズムにより推定された動きに従って、中間フレームの対象時間位置へとプリワープする。これらの特徴によりガイドされた中間フレームの補間には、フレーム合成ネットワークが採用される。特徴抽出器及びフレーム合成ネットワークの一体的なトレーニングにより、これらは、映像フレーム補間に対して最適化される。他の実施形態についても説明及び/又は請求を行う。
[17]本明細書の実施形態では、困難なシナリオにおいて映像フレームを補間可能である。本明細書に記載の実施形態の能力は、強力な画像表現としての特徴ピラミッドの使用と、高品質の画像合成に必要な細部を重視可能とする特徴ピラミッドのプリワーピングとの組み合わせに由来する。実験により示される通り、フレーム補間用の特徴ピラミッドは、動き推定用の特徴ピラミッドとは異なるパターンを示す。さらに、特徴ピラミッド抽出器ネットワーク及びフレーム合成ネットワークの一体的なトレーニングによって、映像フレーム補間用の両ネットワークがさらに最適化される。最後に、本実施形態の実行は、特定のオプティカルフロー法と密接な関係にあるわけではない。本開示は、拡張的な定量的且つ定性的評価も提供し、本明細書に記載の種々実施形態に係る特徴ピラミッドの利用によって、従来の手法よりも堅牢で高品質の映像フレーム補間が可能になることを実証する。本明細書の実施形態は、フレーム補間に関して説明するが、ビュー補間及びマルチフレーム補間にも使用可能である。
[18]ここで図面を参照して、図1は、本明細書に記載の実施形態の特徴ピラミッドワーピング(FPW)技術を使用する一例を含む、様々なフレーム補間方法を用いた映像フレーム補間の困難な一例を示している。図1が示すフラミンゴの脚の画像は、その繊細な形状と大きな動きから、重要な課題をもたらしている。図1は、オーバーレイ入力フレーム、タスク指向フロー(ToFlow)([R49])、分離可能畳み込み(SepConv)-L([R36])、コンテキスト認識合成(CtxSyn)-L([R34])、及びFPW-Lと称する本明細書に記載の実施形態に係るフラミンゴの脚を示している。図1から分かる通り、フラミンゴの脚の移動の推定及び/又は補償は難しく、既存のフレーム補間方法を使用すると、アーチファクト又は重複が生じる。既存のフレーム補間方法と比較して、FPWでは、フレーム補間用の特徴ピラミッドを利用及び最適化するとともに、この困難な例に対して、高品質のフレーム補間結果を実現する。
[19]図1に示すように、FPWは、困難なシナリオにおいて映像フレームを補間可能である。FPWの能力は、強力な画像表現としての特徴ピラミッドの使用と、高品質の画像合成に必要な細部を重視可能とする特徴ピラミッドのプリワーピングとの組み合わせに由来する。以下により詳しく論じる通り、フレーム補間用の特徴ピラミッドは、動き推定用の特徴ピラミッドとは異なるパターンを示す。さらに、特徴ピラミッド抽出器ネットワーク及びフレーム合成ネットワークの一体的なトレーニングによって、映像フレーム補間用の両ネットワークがさらに最適化される。最後に、本明細書の実施形態の実行は、特定のオプティカルフロー実施態様と密接な関係にあるわけではない。FPWは、Optical Flow with Convolutional Networks(FlowNet)([R07])、FlowNet 2.0(FlowNet2)([R17])、又はPyramid,Warping,and Cost volume neural network(PWC-Net)([R44])のいずれを使用するかに関わらず、高品質の補間結果を生成する。特に、以下に論じる定量的且つ定性的評価は、特徴ピラミッドを利用するFPWによって、従来の技術よりも堅牢で高品質の映像フレーム補間が可能になることを実証する。
I.映像フレーム補間の実施形態
[20]2つの入力フレームI及びIを所与として、映像フレーム補間では、中間フレームIを生成しようとする。ここで、t∈(0,1)は、2つの入力フレーム間の所望の時間位置を規定する。実施形態においては、高品質の映像フレーム補間のため、特徴ピラミッドがフレーム合成ニューラルネットワークと一体化される。
I.A.特徴ピラミッドワーピング
[21]図2は、種々実施形態に係る、例示的なフレーム補間ニューラルネットワーク(FINN)アーキテクチャ200を示している。FINNアーキテクチャ200(又は、単に「FINN200」)は、高品質の映像フレーム補間用の画像表現として特徴ピラミッドを組み込んだ深層ニューラルネットワークである。図2に示すように、FINNアーキテクチャ200は、特徴ピラミッド抽出器(FPE)300、前方ワーピングエンジン(FWE)205、フレーム合成ニューラルネットワーク(FSN)400、及びオプティカルフロー推定器(OFE)215を具備する。図2には、2つのOFE215、2つのFPE300、2つのFWE205、及び1つのFSN400を示すが、他の実施形態において、FINN200は、1つのOFE215、1つのFPE300、1つのFWE205、及び1つのFSN400だけを具備していてもよいし、図示よりも多くのOFE215、FPE300、FWE205、及びFSN400を具備していてもよい。
[22]OFE215は、2つの入力フレームI及びIの両方向のフレーム間動き並びに/又は2つの入力フレームI及びI間の二方向オプティカルフローを推定する。実施形態において、OFE215は、(例えば、入力フレームIから入力フレームIまでの)前方オプティカルフロー216と、(例えば、入力フレームIから入力フレームIまでの)後方オプティカルフロー216とを推定する。オプティカルフローは、あるフレームから別のフレームまでピクセルが移動する様子を示す。例えば、オプティカルフローは、あるフレームから次のフレームまで特定のピクセルが移動した様子(例えば、(1つ又は複数の)方向)を示し得る。図2の例においては、フレームIからフレームIまで前方に移動する車両を示すが、この車両は、フレームIからフレームIまで後方に移動する。前方フロー216は、フレームIからフレームIまでの車両のフローを推定し、後方フロー216は、フレームIからフレームIまでの車両のフローを推定する。
[23]OFE215は、フレーム補間用の動き推定を実行するソフトウェアエンジン、モジュール、オブジェクト、又は他の同様の論理ユニットである。他の実施態様において、OFE215は、フレーム補間用の動き推定を実行する適当なビットストリーム、論理ブロック等が設定されたハードウェア要素であってもよい。種々実施形態において、動き推定は、オプティカルフローによって明示的に実行されるが、他の実施形態においては、適応畳み込みによって暗示的に実行されるようになっていてもよい。オプティカルフロー推定では、正確なピクセルごとの位置を使用するとともに、2つの入力画像間の対応を見つけるが、これには、画像の特徴表現の学習のみならず、2つの画像中の異なる位置での整合の学習を伴う。言い換えると、オプティカルフローは、画像間でピクセルが移動する様子を表すが、これには、2つの画像(又は、映像フレーム)間のピクセル対応を示すデータ構造を含んでいてもよい。例えば、FlowNetは、畳み込みニューラルネットワーク(CNN)アーキテクチャを使用して、オプティカルフローの概念をデータから直接学習する。実施形態において、FPWは、オプティカルフローを用いた明示的な動き推定に基づく。これらの実施形態においては、オプティカルフロー形成が変化しないため、FPWがオプティカルフロー推定の継続的進化を利用することが可能となる。いくつかの実施形態において、FPWは、2つの従来技術のオプティカルフロー法に等しく良好に研究(FlowNet2([R17])及びPWC-Net([R44]))を利用するようにしてもよい。
[24](1つ又は複数の)FPE300は、入力画像(例えば、入力フレームI及びI)から特徴を抽出する。特に、(1つ又は複数の)FPE300は、2つの入力フレームI及びIの特徴ピラミッド表現を抽出し、FWE205は、OFE215が出力した(1つ又は複数の)推定オプティカルフローに従って、入力フレームI及びIとともに特徴ピラミッドを対象時間位置tへとプリワープさせる。FPE300は、例えば特徴空間に対する主成分分析の実行によって、特徴ピラミッドの視覚化を生成する。特徴ピラミッドは、とりわけ、異なる解像度における入力フレームI又はIの様々な表現を含み、特徴ピラミッドの各レベルには、異なる解像度のうちの1つにおける入力フレームを含む。図2の例において、ある特徴ピラミッドは、3つの異なる解像度における入力フレームIの3つのレベル305A、305B、及び305Cを含み、別の特徴ピラミッドは、3つの異なる解像度における入力フレームIの3つのレベル305A、305B、及び305Cを含む。
[25]各特徴ピラミッドの各レベルには、一組の特徴を含む。種々実施形態において、各組の特徴における少なくとも一部の特徴は、入力フレームの色空間(又は、色モデル)に基づく。色空間/モデルは、例えばRGB(赤、緑、青)、CMYK(シアン、マゼンタ、黄、キー)、HSL(色相、彩度、明度)及び/若しくはHSV(色相、彩度、色値)、YUV(輝度、青彩度/投影、赤彩度/投影)、LAB若しくはCIELAB、並びに/又はその他類似のものであってもよい。FINN200が動作する色空間は、FINN200が特定の色空間に対してトレーニングされている限り柔軟である。この追加又は代替としては、ピクセル輝度値が特徴集合のうちの(1つ又は複数の)特徴であってもよい。種々実施形態において、抽出対象の特徴は、FPE300によって学習される。また、いくつかの実施形態において、FPE300は、各ピラミッドレベルである数の特徴を学習することにより、好適な逆伝搬技術を用いて入力画像からの抽出を行う。FPE300は、抽出対象の特徴を学習した後、複数の解像度(例えば、各ピラミッドレベルの各解像度)においてこれらの特徴をワープさせる。いくつかの実施形態において、抽出対象の特定の特徴は、良好なフレームを可能な限り補間及び維持する作業が可能となるように、FSN400によって決定される。FPE300のアーキテクチャを図3に示す。
[26]ここで図3を参照して、入力画像301を所与として、FPE300は、3つのレベル305A、305B、及び305Cで特徴ピラミッド305を返す。種々実施形態において、FPE300は、フィードフォワードNN(FNN)、畳み込みNN(CNN)、及び/又はその他何らかのNN等、多層ニューラルネットワーク(NN)であってもよい。NN中の層には、入力変数(例えば、入力特徴)のデータを受け取る入力層と、入力を処理する1つ又は複数の隠れ層と、NNの決定又は評価を出力する出力層とを含む。例示的な一実施態様において、入力変数は、関連する可変データを含む1つ又は複数のベクトルとして設定され、出力決定又は評価についても、1つ又は複数のベクトルを含む。NN中の異なる層間の複数の接続パターンが用いられるようになっていてもよい。また、各層は、それぞれが1つ又は複数の入力を受け取るとともに出力(又は、「活性化(activation, アクチベーション)」)を生成する1つ又は複数のニューロン(又は、「ノード」)を含んでいてもよい。入力値に適用される関数は、重みのベクトル及びバイアスにより決定される(これらのバイアス及び重みの反復的調整によるNN進化中の学習)。重みのベクトル及びバイアスは、「フィルタ」と称し、特定の特徴を表す。各ノードの出力は、入力がモデルの予測に関連するかに基づいて出力を活性化すべきか否かを判定する活性化関数を通過する。用語「活性化関数(activation function)」は、一組の入力を所与としてノードの出力を規定する当該ノードの関数を表し、出力はその後、元の問題に対する所望の解決手段が見つかるまで、次のノード以降の入力として使用される。
[27]種々実施形態において、FPE300の1つ又は複数の隠れ層には、乗算又は他のドット積で畳み込まれる一連の畳み込み層を含み、(1つ又は複数の)活性化関数は、正規化線形ユニット(「ReLU」又は「正規化線形関数」)であってもよいし、パラメトリックReLU(「PReLU」)であってもよい。ReLUは、関数f(x)=max(0,x)を演算する活性化関数であり、ReLUの活性化は、x<0の場合にゼロ、x>0の場合に傾き1の線形である(例えば、活性化は、ゼロを閾値とする)。PReLUは、関数

を演算する活性化関数である。ここで、yは、i番目のチャネル上の非線形活性化関数fの入力であり、aは、a=0である場合にPReLUがReLUとなり、aが比較的小さな数(例えば、a=0.01)である場合にPReLUがリーキーReLUとなるように、負の傾きを制御する係数(「リークパラメータ」)である。このように、PReLUは、他のニューラルネットワークパラメータと併せて学習されたパラメータへのリークの係数を構成する。言い換えると、PReLUは、リークパラメータaの学習によって、負の入力に対する適正な正の傾きを見つけることにより、逆伝搬誤差信号を遮断するゼロ導関数に起因する負のニューロンの死(すなわち、常にゼロに等しいニューロン)を防止する。
[28]図3の例においては、FPE300が表により表され、FPEの動作は、表の最上部で開始となって、表の最下部に達するまで続く。表の各行は、NN中の層を表す。FPE300は、第1の解像度で入力画像(フレーム)301(例えば、入力フレームI及び/又はI)を受け取る入力層308を含み、各隠れ層は、2D畳み込み層(Conv2d)310及び対応する活性化関数(PreLU)315を含む(これらを「畳み込み層310」等と称する場合もある)。本例において、FPE300は、ストライド畳み込み310(ストライド畳み込み(Conv2d)310A~310Fを含む)を用いてダウンサンプリングを実行するとともに、a=0.25で初期化された活性化関数としてPReLU315(PReLU315A~315Fを含む)を利用する([R12])。他の実施形態においては、他の活性化関数が用いられるようになっていてもよい。
[29]第1の畳み込み層310Aは、入力層308で受信された入力画像301から、一組の入力特徴(Fin)のうちの特徴の第1の組(F)を選択(抽出)するが、表ではこれを「特徴」列により示す。MLの背景において、特徴は、観測対象の現象の個々の測定可能な性質又は特性である。特徴は通例、数字、文字列、変数、グラフ等を用いて表されるが、一組の特徴を「特徴ベクトル」と称する場合がある。各畳み込み層310は、2つの入力(例えば、入力画像の画像行列並びにフィルタ若しくはカーネル(「カーネル」列に示す))を取得するようにしてもよく、また、入力中の検出した特徴の存在をまとめた特徴マップを出力として生成するようにしてもよい。各層310から抽出された特徴は、次の層310に供給されて、連続した一組の特徴(例えば、図3の例における特徴集合F、F、及びFを含む)を生成する。
[30]種々実施形態において、一組の入力特徴(Fin)は、入力画像301の色空間に基づく(例えば、RGB色空間の場合の赤、緑、及び青(ここで、Finは、3つの特徴を含む))。追加又は代替として、一組の入力特徴(Fin)は、画像301中の1つ又は複数のピクセルの輝度値を含んでいてもよい。追加又は代替として、一組の入力特徴(Fin)は、各ピクセルのエリアにおけるピクセル値及び/又は他の情報を記述する記述子をピクセルごとに含んでいてもよい。また、一組の入力特徴(Fin)は、逆伝搬等により学習されるようになっていてもよい。いくつかの実施形態においては、各層310において96個の特徴が抽出されるようになっていてもよい(例えば、特徴集合F、F、及びFがそれぞれ、96個の特徴を有していてもよい)。他の実施形態においては、最高解像度の場合に32個の特徴が抽出されるようになっていてもよく(例えば、F=32)、中間解像度の場合に64個の特徴が抽出されるようになっていてもよく(例えば、F=64)、最低解像度の場合に96個の特徴が抽出されるようになっていてもよい(例えば、F=96)。実施形態において、FPE300は、各層において任意数の特徴を抽出するように構成されていてもよい。抽出特徴数を増やすとフレーム補間の品質が向上し得る一方、補間結果を計算するための時間及びリソース消費も増大し得る点において、品質対時間及びリソース消費の観点でのトレードオフが存在し得ることに留意するものとする。同様に、抽出特徴数を減らすと(例えば、処理時間及びリソース消費の観点での)システム性能が向上し得る一方、補間結果の品質が低下することにもなり得る。
[31]各層は、入力画像301の低解像度表現を生成する。例えば、画像305Aは、入力画像301よりも解像度が低く、画像305Bは、画像305Aよりも解像度が低く、画像305Cは、画像305Bよりも解像度が低い。解像度は、ストライド畳み込み310の使用により低下する。ストライドは、入力行列上のピクセルシフト数である。ストライドが1の場合は一度に1ピクセルだけフィルタが移動し、ストライドが2の場合は一度に2ピクセルだけフィルタが移動する。図3の「ストライド」列に示すように、2つの層が2×2のストライドであり、他の層は1×1のストライドである。実施形態において、ストライドが畳み込みに対して2×2の場合、出力サイズは、入力サイズの半分である。いくつかの実施形態においては、次元縮退に1×1のストライドが用いられるようになっていてもよい。図3の例においては、各レベルの解像度が半分になっている。また、出力ボリューム空間サイズの制御に(図3の「パディング」列に示すような)パディングが用いられるようになっていてもよい。図3は、6つの畳み込み層310及び6つの活性化関数315を伴う3つの解像度レベルを示しているが、他の実施形態においては、任意数のレベル及び/又は層が用いられるようになっていてもよい。ただし、層又はレベルの数の増減は、上述と類似の性能/品質トレードオフを伴い得ることに留意するものとする。
[32]図2を再び参照して、FWE205は、OFE215が出力した推定オプティカルフローに従って、入力フレームI及びIとともに特徴ピラミッド(例えば、図3の特徴ピラミッド305であって、特徴ピラミッドレベル305A、305B、及び305Cを含む)を対象時間位置tへとワープ(プリワープ)させる。本明細書において、用語「ワープ(warp)」又は「ワーピング(warping)」は、ある画像(又は、映像フレーム)においてオプティカルフローが指示する位置へのピクセルの移動を表す。図2の例において、FWE205は、OFE215からの前方オプティカルフローを用いて、入力フレームIを入力フレームIに向かってワープさせる(例えば、時間的に前方へと車両を移動させる)とともに、OFE215からの後方オプティカルフローを用いて、入力フレームIを入力フレームIに向かってワープさせる(例えば、時間的に後方へと車両を移動させる)。このように入力フレームI及びIをワープさせることにより、入力フレームI及びI間の所望の時間位置(t)へと入力フレームI及びI中のピクセルをシフト可能となる。
[33]また、抽出された特徴ピラミッド305は、(1つ又は複数の)推定オプティカルフローに従って、入力フレームI及びIとともに対象時間位置t∈(0,1)へとワープする。実施形態において、FWE205は、tによりスケーリングされた前方オプティカルフローに従って第1のフレームIの特徴ピラミッド305をワープ(プリワープ)させるとともに、1-tによりスケーリングされた後方オプティカルフローに従って第2のフレームIの特徴ピラミッドをワープ(プリワープ)させる。ピラミッドの個々のレベルをワープさせるため、FWE205は、最大解像度のオプティカルフローを再サイズ規定及び再スケーリングする。いくつかの実施形態において、FWE205は、空間変換ネットワークが導入するような後方ワーピング([R18])を使用する代わりに、[R34]に記載の方式等の前方ワーピングを実行する。これにより、FWE205は、以下に論じる評価において実証される通り、任意の時間位置tにおいてフレームを効果的に補間することが可能となる。ただし、前方ワーピングは、2つのソースピクセルが同じ対象にマッピングされる曖昧さを有するが、これは、光学的整合性検査により解消される([R02])。さらに、実施形態において、FWE205は、FlowNet2([R17])の設計原理に従い、オプティカルフロー推定の品質の補助測定として光学的整合性を利用する。これにより、後述する後続のFSN400は、ワープした(プリワープした)特徴ピラミッドからの情報を組み合わせる場合に、この品質尺度を導入することができる。プリワープした特徴ピラミッド305並びに入力フレームI及びIは、FSN400への供給によって、最終的な補間結果を生成する。FSN400は、プリワープした入力フレーム及び特徴ピラミッドを入力として取得し、補間結果を生成するように構成されている。FSN400の例示的なアーキテクチャを図4に示す。
[34]図4は、種々実施形態に係る、FSN400の例示的なアーキテクチャを示している。FSN400は、2つの入力フレームI及びIのワープした特徴ピラミッドによりガイドされたフレーム補間結果410を生成する。本例において、FSN400は、この目的の残余畳み込み-逆畳み込みグリッドネットワーク(GridNet)([R10])アーキテクチャ等のグリッドネットワークを、[R34]に論じる改良を施して採用することにより、チェッカー盤アーチファクトを防止する([R37])。このようなGridNetの一例は、2018年2月27日に出願された同時係属の米国特許仮出願第62,635,675号「CONTEXT-AWARE SYNTHESIS FOR VIDEO FRAME INTERPOLATION」に図示及び記載されている。他の実施形態においては、U-net等の他種のグリッドが用いられるようになっていてもよい。一般的に、GridNetアーキテクチャによれば、ニューラルネットワーク内の情報が複数の経路を取れることにより、複数のスケールで特徴表現を最も良く組み合わせる方法を学習することが可能となる。特に、FSN400は、ワープした2つの特徴ピラミッドをチャネルに関してレベルごとに連結して、1つ若しくは複数の行並びに1つ若しくは複数の列を備えたGridNetに供給する。これにより、このアーキテクチャは、ワープした特徴ピラミッドからのマルチスケール情報を組み合わせて、補間結果410を合成することができる。
[35]図4の例において、FSN400は、3つの行及び6つの列を備えた2次元グリッドに構造化されたGridNetであり、情報/データは、特徴マップXi,jを接続する演算層において処理される。一般的に、特徴マップは、データベクトルを特徴空間にマッピングする関数である。各層は、フィルタ(又は、「カーネル」)の適用によって、情報/データの入力及び対応する特徴マップXi,jの出力を行う。各層において要素に関する行列の乗算が実行され、結果が合計されるとともに、その合計が特徴マップXi,jに代入される。グリッド中の各特徴マップXi,jは、行i及び列jにより指定される。ここで、iは、行の総数であり、jは、列の総数である。明瞭化のため、図4においては、すべての特徴マップXi,jにラベリングしているわけではない。水平接続(すなわち、GridNetの行)は、「ストリーム」と称する。ストリームは、完全畳み込みであり、特徴マップのサイズを一定に保つ。また、ストリームは、残余である。これは、ストリームがそれぞれの入力との差異を予測することを意味する。垂直演算層も畳み込みであるが、これらは、特徴マップのサイズを変化させる。グリッド中の位置に応じて、空間サイズは、サブサンプリング又はアップサンプリングによってそれぞれ、縮小又は拡大される。
[36]GridNetの行には、横サンプリングを実行する残余層を含む(図4においては、「L」で示す)。各残余層は、入力マップ解像度も特徴マップ数も変化させない。言い換えると、各行の層は、特徴解像度が一定に保たれるストリームを構成する。3つのストリームはそれぞれ、情報を異なるスケールで処理する。各列は、ストリームを接続することにより、ダウンサンプリング及びアップサンプリング層を用いて情報を交換する。GridNetの最初の3つの列(例えば、j=0、1、又は2)は、ダウンサンプリング(図4においては、「D」で示す)を実行する畳み込み層を含み、これにより解像度が低下するとともに、特徴マップの数が2倍になる。GridNetの最後の3つの列(例えば、j=3、4、又は5)は、アップサンプリング(図4においては、「U」で示す)を実行する逆畳み込み層を含み、これにより解像度が上昇するとともに、特徴マップの数が2分の1になる。各ブロック中のシャープ又はハッシュ(「#」)記号は、当該ブロックの出力チャネルの数を示す。
[37]図4の例においては、プリワープしたフレーム及びプリワープした第1レベルの特徴405Aが1行目の32出力チャネル残余ブロックに供給され、プリワープした第2レベルの特徴405Bが2行目の64出力チャネル残余ブロックに供給され、プリワープした第3レベルの特徴405Cが3行目の128出力チャネル残余ブロックに供給される。プリワープした特徴は、1行目の3出力チャネル残余ブロックから出力される。これらの点間では、プリワープしたフレームが複数の経路において流れ得る。いくつかの実施形態において、FSN400は、パラメトリック正規化線形ユニット(PReLU)の導入によってトレーニングを改善するとともに、双線形アップサンプリングの使用によってチェッカー盤アーチファクトを回避する。例えば、FSN400の行及び列はそれぞれ、1つ又は複数のPReLU層が間に配設された1つ又は複数の畳み込み層を含んでいてもよい。
[38]種々実施形態において、FINN200は、完全に微分可能なパイプラインであってもよい。図2の例においては、OFE215が予備トレーニングされ、FPE300及びFSN400がトレーニングされるが、FINN200のパイプラインは、この構成に限定されない。代替として、完全に微分可能であることから、映像フレーム補間のタスクに対してOFE215は微調節可能である。これは、[R49]の知見により対応されるが、この中では、特定のタスクに対して一般の動き推定器が次善となり得ることが論じられている。
[39]種々実施形態によれば、FINN200が完全に微分可能であることから、(例えば、FWE205による)特徴ワーピング動作及び/又は(例えば、FSN400による)フレーム補間動作に対する勾配を計算して、逆伝搬に使用可能である。逆伝搬は、NNによるMLモデルのパラメータの決定及び/又は変更を可能にする深層学習技術である。これにより、FPE300(例えば、図3参照)は、入力画像301から抽出される特徴の数及び種類に関してトレーニング可能である。また、これによりFSN400は、特徴ピラミッドを合成して出力画像を生成するのに有用な特徴に関してトレーニング可能となり得る。
[40]FINN200のサブシステム205、215、300、及び400は、ソフトウェアコンポーネント(例えば、ソフトウェアエンジン、ソフトウェアエージェント、人工知能(AI)エージェント、モジュール、オブジェクト、又は類似の論理ユニット)、個々のハードウェア要素、又はこれらの組み合わせとして実装されていてもよい。ソフトウェアベースの例示的な一実施態様において、FINN200のサブシステムは、好適なプログラミング言語、開発ツール/環境等を用いて開発されるようになっていてもよく、これらは、1つ又は複数のコンピュータシステムの1つ又は複数のプロセッサにより実行される(例えば、図9のプロセッサ回路902参照)。本例において、FINN200のサブシステム205、210、215、及び300は、単一のプロセッサ又は個々の処理デバイスにより実行されるようになっていてもよい。ハードウェアベースの例示的な一実施態様において、FINN200の各サブシステム205、210、215、及び300は、(1つ又は複数の)各AI加速コプロセッサ、AI GPU、テンソル処理ユニット(TPU)、又はそれぞれの機能を実行するように適当な論理ブロック、(1つ又は複数の)ビットストリーム等が設定されたハードウェアアクセラレータ(例えば、FPGA、ASIC、DSP、SoC等)において実装されている。
I.B.機械学習モデルのトレーニング
[41]機械学習(ML)では、1つ又は複数の特定のタスクに対する性能を漸進的に改善するアルゴリズムを使用する。一般的に、MLアルゴリズムは、何らかのタスク及び/又は何らかの性能尺度に関する経験(例えば、「トレーニングデータ」又は「トレーニングデータセット」)により学習するコンピュータプログラムである。MLモデルは、1つ又は複数のトレーニングデータセットによりMLアルゴリズムがトレーニングされた後に生成される任意のオブジェクト又はデータ構造である。トレーニングの後、MLモデルは、新たなデータセットに関する予測に用いられるようになっていてもよい。用語「MLアルゴリズム(ML algorithm)」は、用語「MLモデル(ML model)」と異なる概念を表すが、これらの用語は、本開示の目的のために区別なく用いられるようになっていてもよい。
[42]種々実施形態において、FPE300及びFSN400は、Adam([R24])を用いることにより、α=0.001、β=0.9、及びβ=0.999で50エポックにわたって一体的にトレーニングされる。OFE215を後で微調節する場合は、α=0.0001で、さらに50エポックにわたってトレーニングが継続される。これら2つのトレーニングプロセスそれぞれについて、バッチごとに8つのサンプルが用いられる。
[43]トレーニングを目的として、色損失関数及び知覚損失関数を含む2つの損失関数が考えられる。したがって、モデルの2つの異なる形式がトレーニングされる。色損失に関してトレーニングされたモデルが標準的なベンチマークにて十分に機能する一方、知覚損失に関してトレーニングされたモデルは、様々な場合においてより多くの詳細を維持する。色損失の場合は、ラプラシアンピラミッド表現間の差異に基づく損失が利用されるようになっていてもよく、式1により表される([R03]、[R34])。
[44]式1において、Lは、Iのラプラシアンピラミッドのi番目のレベルを表す。知覚損失に関しては、深層の画像特徴間の差異に基づく損失が採用され、式2により表される([R20]、[R21]、[R28]、[R29]、[R36]、[R34]、[R40])。
[45]式2において、φは、一般の画像分類ネットワークによる特徴活性化を表す。いくつかの実施形態においては、VGG-19([R41])のrelu4_4層の活性化が用いられるようになっていてもよい。
[46]ネットワーク(例えば、FINN200)のトレーニングには、任意好適なトレーニングデータセットが用いられるようになっていてもよい。実験を目的として、ネットワーク(例えば、FINN200)は、Xueほか([R49])の公開されているVimeo-90kデータセットを用いてトレーニングされている。これは、再現性を促進するとともに、近年、フレーム補間法を再実装する際の手助けとなるが、トレーニングデータの消失に起因する困難が言われている([R23])。Vimeo-90kデータセットのトレーニング部は、それぞれが448×256ピクセルの解像度で一連の3つの連続フレームを備えた51,313個のフレーム三つ組から成る。したがって、本明細書に記載の評価には、t=0.5におけるモデルのトレーニングの監視しか含まず、異なるtでのフレーム補間に際して、本明細書に記載の手法の汎化能力を阻害する可能性がある。ただし、以下に記載の評価は、t=0.5でトレーニングされた本実施形態のモデルが依然として、任意の時間位置におけるフレームの補間に成功し得ることを示す。
[47]また、トレーニング中に、オンラインデータ拡張が実行されるようになっていてもよい。例えば、Vimeo-90kデータセットの元のフレーム三つ組に対するトレーニングの代わりに、256×256ピクセルのランダムクロップに対して実験モデルがトレーニングされている。これにより、空間的な動きの組み立てにおける任意の潜在的な事前処理をトレーニングデータセット内で軽減することが可能となる。さらに、トレーニングには、クロップされた三つ組の水平及び垂直両方向のランダムなフリップを含み、同様に、時間的順序のランダムな逆転を含む。
[48]例示的な一実施態様において、FINN200のパイプラインは、Torchライブラリ及び科学演算フレームワークに基づくPythonプログラミング言語用のオープンソースの機械学習ライブラリであるPyTorchを用いて開発されていてもよい。また、前方ワーピングを効率的に実行するには、エヌヴィディア(Nvidia)(登録商標)のクーダ(CUDA)(登録商標)ツールキットを用いて開発されたカスタムのコンピュータ統合デバイスアーキテクチャ(CUDA:Compute Unified Device Architecture)が利用されるようになっていてもよい。このセットアップによって、エヌヴィディア(登録商標)のタイタン X(Titan X)(登録商標)上での動作によりPWC-Net([R44])を用いてオプティカルフローを推定する場合に、720pフレームを0.405秒で、1080pフレームを0.913秒で合成することが可能となる。また、FPE300及びFSN400は、比較的サイズが小さく、格納時に合計で17メガバイトにしかならない。
II.実験
[49]現在利用可能な技術に対して、本明細書に記載のFPW実施形態を公開されているデータセットに関して定量的且つ定性的に評価及び比較した。
[50]方法:基準実施態様を利用可能な従来の複数の映像フレーム補間法に対して、FPW実施形態を比較した。第1の従来方法は、オプティカルフローに基づく代表的な方法として、動きの詳細を保存する(MDP)-Flow2([R48])を含み、Bakerほか([R02])のフレーム合成アルゴリズムとの組み合わせによって、補間されたフレームを生成する。第2の従来方法は、そのタスク固有のオプティカルフロー形式により、ToFlow([R49])アルゴリズムを含む。第3の従来方法は、動き補償を暗示的に実行するSepConv([R36])を含む。また、従来の方法としては、Voxel Flow([R30])、Super SloMo([R16])、及びCtxSyn([R34])が挙げられる。
[51]データセット:公開されているフレーム補間用の一般的なデータセットに対して、定量的評価を実行した。これには、3,782例に及ぶVimeo-90k([R49])データセットのほか、UCF101([R42])から379例を抽出したLiuほか([R30])からのデータセットを含む。また、その結果は、Middleburyオプティカルフローベンチマークの補間部分と比較した。マルチフレーム映像補間を評価するため、Slow Flowの著書([R19])から高フレームレートのSintelデータセットを取得した。
[52]基準:すべての定量的比較に対して、ピーク信号対雑音比(PSNR)及び構造的類似性(SSIM)([R45])を使用した。また、知覚的類似性を測定するための学習知覚画像パッチ類似性(LPIPS:Learned Perceptual Image Patch Similarity)([R50])基準を導入した。特に、この基準のバージョン0.1を実験に利用して、AlexNet([R25])上で線形校正した。PSNR及びSSIMに関しては、高い値ほど良好な結果を示すが、LPIPS基準では、低い値ほど良好な結果を示す。混乱を回避するため、以下に記載の表においては矢印を使用することにより、この違いを示す。
II.A.特徴ピラミッドワーピングの実施形態の解析
[53]FPW実施形態の解析では、FPW実施形態を市販のオプティカルフロー法と比較するが、これは、このオプティカルフロー法を標準的なフレーム合成アルゴリズムと組み合わせてフレームを補間する基準値の比較を含む([R02])。また、この解析では、利用するオプティカルフロー法の性能にFPW実施形態が大きく依存するか、又は、FPW実施形態が十分に一般的であるかを解析する。また、FINN200のパイプラインが完全に微分可能であることから、この解析では、フレーム補間のタスクに対して、OFE215の微調節の効果を解析する。さらに、この解析では、FPE300が注目するパターンを解析するとともに、これらのパターンが、動き推定に用いられる特徴ピラミッドと異なるかを解析する。さらに、この解析では、2つの異なる損失関数を考慮して、FPWモデルをトレーニングする。簡略化のため、Lの使用の効果を後述する実験には、LLAPのみを使用した。
[54]図1Tは、2つの異なるオプティカルフロー法(FlowNet2([R17])及びPWC-Net([R44]))に関する基準値比較を示した表1を含む。基準値比較では、従来技術の2つのオプティカルフロー法すなわちFlowNet2([R17])及びPWC-Net([R44])を考慮する。これらの方法はそれぞれ、基準値としてBakerほか([R02])により提供された古典的なフレーム合成アルゴリズムと組み合わされており、それぞれを「FlowNet2-Classic」及び「PWC-Net-Classic」と示す。これらのオプティカルフローネットワークはいずれも、FlyingChairsデータセット([R07])上でトレーニングされる。FPW実施形態の2つの形式(一方がFlowNet2、他方がPWC-Netによる(PWC-Netの代替=Lite FlowNet、SpyNet、MDP-Flow2))をさらに評価するが、それぞれを「FlowNet2-FPW」及び「PWC-Net-FPW」と示す。表1に示すように、FPW実施形態は、基準値補間アルゴリズムによって大幅に改善され、またFPW実施形態で使用するオプティカルフローアルゴリズムに関わらず、一貫して大幅に改善される。FlowNet2及びPWC-NetがFINN200の補間パイプライン内で同様に十分機能するとともに、PWC-Netのパラメータが少数であることから、後続の実験においてもこれらの形式を使用する。
[55]前述の通り、FINN200のパイプラインが完全に微分可能であることから、このオプティカルフロー法は、映像フレーム補間のタスクに対して微調節されるようになっていてもよい。図1Tの表1に示すように、オプティカルフローネットワーク(PWC-Net)を微調節することによって、FPW実施形態(PWC-Net-ft-FPW)の性能がさらに向上することが可能である。このため、後続の実験においては、FPW実施形態のこの形式を使用する。また、PWC-Netの微調節により、FPW実施形態は、[R02]の補間アルゴリズムによる結果も改善することに留意するものとする。
[56]図5は、[R08]に係る、異なるタスク固有特徴ピラミッドから抽出された特徴の視覚化を示している。前述の通り、FPE300は、FSN400と一体的にトレーニングされるため、フレーム補間用のタスク固有の特徴を収集することが可能となる。フレーム補間用の特徴ピラミッドと動き推定用の特徴ピラミッドとの違いを調べるため、[R08]のフィルタ視覚化技術を採用した。特に、入力画像を変更することによって、FPE300の最終層の活性化を最大化した。同様に、PWC-Net([R44])の同等層の活性化を最大化し、これらをFPW実施形態と比較した。図5は、一組の代表的な特徴活性化を示している。FPW実施形態の特徴ピラミッドが局所パターンに注目している一方、PWC-Netの特徴ピラミッドは、大きなパターンを示している。これは、入力フレーム間の動きに従った特徴ピラミッドのワーピングによるFPW実施形態中の明示的な動き補償が原因と考えられる。これにより、FPE300は、高品質の補間結果を合成するのに重要な細部にさらに注目可能となる。
II.B.定量的評価
[57]図2Tは、従来の様々な映像フレーム補間法及び複数の公開データセットに対するFPW実施形態の定量的比較を示した表2を含む。表2に示すように、LLAP損失でトレーニングしたFPW実施形態は、PSNR及びSSIMに関して、従来のその他すべての方法よりも一貫して優れていたが、L損失でトレーニングしたFPW実施形態は、LPIPSに関して最も良く機能した。これは、Lのような知覚損失が知覚的により良い結果となる一方、LLAPのような他の損失は、SSIM及びPSNR等の数値の基準に対して有利に働く点において、映像フレーム補間に両種の損失を採用した過去の研究([R34]、[R36])のレポートと整合する。
[58]また、LLAP損失でトレーニングしたFPW実施形態による補間結果を、同じくフレーム補間を評価する関連のMiddleburyオプティカルフローベンチマーク([R02])と比較した。このベンチマークでは、二乗平均平方根補間誤差(IE)及びその勾配正規化対応誤差(NE)を基準として使用する。図3Tは、オプティカルフローのMiddleburyベンチマーク([R02])の関連する補間カテゴリに関する定量的ランキングを示した表3を含む。表3に示すように、FPW実施形態は、従来の2番目に良い方法と比較した場合に、平均で1.02dBだけ、従来の補間方法よりも大幅に優れている。実験に際して、FPW実施形態は、ベンチマークで報告された158個のすべての方法の中で1番となった。
[59]図6は、高フレームレートSintelデータセット([R19])に関するFPW実施形態のマルチフレーム補間能力の評価であるグラフ600を示している。FPW実施形態は、ワーピングによって動きを明示的に補償することから、入力フレームの特徴ピラミッドを任意の時間位置にワープさせることができる。したがって、FPW実施形態は、2つの所与のフレーム間で複数のフレームをシームレスに補間可能である。この性質を定量的に評価するため、Slow Flowの著書([R19])からSintelベンチマークの高フレームレート形式を取得し、13個すべてのシーン上でフレーム0~32からフレーム1~31を補間した。その後、マルチフレーム補間には必然的に対応しないSepConv([R36])に対して、FPW実施形態を比較した。このため、SepConvに対して再帰補間方式を採用することにより、複数の中間フレームを予測した。図6のグラフ600に示すように、FPW実施形態は、t=0.5においてのみ監視されているにも関わらず、任意のtにおける高品質の補間結果を予測することができる。2つの損失関数に関して、ここで再び、LLAP損失でトレーニングしたFPWモデルは、PSNRに関してより良く機能する一方、L損失でトレーニングした本モデルは、LPIPSに関してより良く機能することが分かる。
II.C.定性的評価
[60]図7Aは、3つの異なる例の補間結果を示しており、FPW実施形態を複数の従来方法と比較したものである。図7Bは、4つの異なる例の別の補間結果を示しており、FPW実施形態を複数の従来方法と比較したものである。スペースの制限により、比較したすべての補間方法の結果を示しているわけではない。さらに、異なる損失を用いてトレーニングしたモデルによる方法について、知覚品質に注目した当該モデルの結果を示している。ホッケースティックの例及びテニスラケットの例は、それぞれの細長構造及び大きな動きに起因する課題をもたらしている。複数のスケールにわたってこの情報を保持可能な特徴ピラミッドの統合により、FPW実施形態では、従来の技術よりも良好にこれらのシナリオを扱う。フットボール選手の例における左側のフットボール選手の脚は、大きな動き、オクルージョン、及び輝度の変化を伴う。ここで再び、FPW実施形態では、従来の技術よりも堅牢に、この困難な場合を扱う。
[61]図8は、様々なFPW実施形態に係る、2つの異なる映像補間シナリオに関するマルチフレーム補間能力を示している。また、図8は、FPW実施形態の2つのマルチフレーム補間結果を示している。このシナリオにおけるFPW実施形態の定量的な有効性については実証済みであるが、ここに提供する例は、FPW実施形態のマルチフレーム補間結果が時間的に整合することを示している。
[62]前述の通り、映像フレーム補間は、新規ビューの時間的な合成に限定されない。代替として、映像フレーム補間は、空間中の新規ビュー補間([R09])にも採用可能であり、ステレオ及び明視野画像における新規ビューの合成を含む([R22])。このように、映像フレーム補間用のFPW実施形態は、オートステレオスコピック及び明視野コンテンツ制作等の用途に対する新規ビュー補間の実行に成功し得る。
III.概要
[63]本明細書に記載のFPW実施形態は、従来のフレーム補間技術と比較して、高品質の映像フレーム補間を提供する。FPW実施形態は、ニューラルネットワークを使用して、2つの入力フレームの特徴ピラミッドを抽出するとともに、推定オプティカルフローを用いて、入力フレームとともに特徴ピラミッドを対象時間位置へとプリワープさせる。プリワープしたピラミッド及び入力フレームは、フレーム合成ネットワークに供給され、補間結果が生成される。特徴ピラミッドの画像表現としての使用及び特徴ピラミッドのプリワープを組み合わせることにより、FPW実施形態は、高品質の画像合成に必要な細部に注目し得る。特徴ピラミッド抽出器ネットワーク及びフレーム合成ネットワークの一体的なトレーニングによって、フレーム補間のタスク用の両ネットワークがさらに最適化される。実験において示す通り、FPW実施形態は、困難なシナリオの場合のフレーム補間に成功するとともに、映像フレーム補間技術の改善を実現する。映像フレーム補間技術の改善は、拡張現実、光学式文字認識、画像及び/若しくは映像検索、自律若しくはコンピュータ支援車両運用、顔認識、ジェスチャ認識、手書き文字認識、ロボティクス及び/若しくはロボティックナビゲーション、リモートセンシング、並びに/又はその他類似のもの等、コンピュータビジョンアプリケーションを利用するコンピュータデバイス及びシステムの機能の改良につながる。本明細書に記載のFPW実施形態は、従来の映像補間技術に対する改良であることから、コンピュータデバイス/システム自体の機能の改良でもある。FPW実施形態は、従来の映像補間技術よりも効率的な演算リソースの使用によって、より良い結果をもたらすためである。コンピュータシステム/デバイス自体の機能の改良は、映像補間を実行する際の演算及びメモリリソースの少なくとも一方の保護に基づく。
[64]FPW実施形態は、t=0.5における例のみを使用した監視モデルを含むが、前述の評価は、FPW実施形態によって任意の時間位置におけるフレームを高品質に補間可能であることを示している。また、FPW実施形態は、複数の中間フレームに関してトレーニングした場合、さらに良い結果を生成し得る。
[65]FPW実施形態は、映像フレーム補間に関する過去の研究を踏まえ、色損失及び知覚損失を採用することにより、FPW補間ニューラルネットワークをトレーニングする(例えば、図2及び図4のFSN400)。本明細書に記載の実験は、これらのネットワークが高品質の補間結果を生成し得ることを示している。さらに、本明細書に記載のFPW実施形態は、敵対的トレーニング、画像生成におけるサイクル一貫性、及び/又は監視トレーニングのその他類似の先進技術を含むように拡張可能である。
IV.例示的なシステム及び実施態様
[66]図9は、種々実施形態に係る、コンピュータシステム900(「プラットフォーム900」)、「デバイス900」、「電化製品900」等とも称する)の一例を示している。システム900は、本明細書に記載のコンピュータデバイスのいずれかとしての使用に適していてもよい。システム900の構成要素は、個々のコンピュータシステムとして実装されていてもよいし、大型のシステムの筐体内に別途組み込まれた構成要素として実装されていてもよい。システム900の構成要素は、適当なロジック、ソフトウェア、ハードウェア、又はこれらの組み合わせがコンピュータシステム900において適応された状態で、集積回路(IC)又は他の離散電子デバイスとして実装されていてもよい。追加又は代替として、システム900の構成要素の一部は、好適なシステムオンチップ(SoC)、システムインパッケージ(SiP)、マルチチップパッケージ(MCP)等として組み合わされ、実装されていてもよい。
[67]システム900は、リモートシステム955へのコンテンツ及び/若しくはサービスの提供並びに/又はリモートシステム955からのコンテンツ及び/若しくはサービスへのアクセスが可能な物理的ハードウェアデバイス及びソフトウェアコンポーネントを具備していてもよい。システム900及び/又はリモートシステム955は、相互のコンテンツ/サービスのアクセス及び/又は提供に使用できる任意好適なコンピュータシステム等のデータ処理装置として実装可能である。例として、システム900及び/又はリモートシステム955としては、デスクトップコンピュータ、ワークステーション、ラップトップコンピュータ、セルラー方式移動電話(例えば、「スマートフォン」)、タブレットコンピュータ、携帯型メディアプレーヤ、ウェアラブルコンピュータデバイス、サーバコンピュータシステム、(例えば、クラウドベースの環境における)演算リソースの集合体、又はネットワーク950等のネットワークと直接若しくは間接的にインターフェース可能なその他何らかのコンピュータデバイスが挙げられる。システム900は、リモートシステム955との通信により、例えば伝送制御プロトコル(TCP)/インターネットプロトコル(IP)上のハイパーテキスト転送プロトコル(HTTP)、或いは、ファイル転送プロトコル(FTP)、セッション記述プロトコル(SDP)を伴うセッション開始プロトコル(SIP)、リアルタイム転送プロトコル(RTP)若しくはリアルタイムストリーミングプロトコル(RTSP)、セキュアシェル(SSH)、拡張可能メッセージングプレゼンスプロトコル(XMPP)、ウェブソケット、並びに/又は本明細書に記載のようなその他何らかの通信プロトコルを用いて、コンテンツ/サービスの取得/サーブを行い、その逆もまた同様である。
[68]本明細書において、用語「コンテンツ(content)」は、特定の視聴者又はエンドユーザに伝達される視覚情報又は可聴情報を表し、特定の主題又はテーマに関する情報を含んでいてもよいし、これを伝達するものであってもよい。コンテンツ又はコンテンツ項目は、異なるコンテンツタイプ(例えば、テキスト、画像、音声、映像等)であること、並びに/又は、異なるフォーマット(例えば、マイクロソフト(Microsoft)(登録商標)のワード(Word)(登録商標)文書、ポータブルドキュメントフォーマット(PDF)文書、HTML文書等のテキストファイル、MPEG-4オーディオファイル並びにWebMオーディオ及び/若しくはビデオファイル等のオーディオファイル)を有することが可能である。本明細書において、用語「サービス(service)」は、システム900等の要求側の代わりに実行される特定の機能又は一組の機能を表す。例として、サービスには、指定情報の読み出し又は一組の動作の実行を含んでいてもよいし、これらを伴っていてもよい。コンテンツ/サービスにアクセスするため、システム900は、プロセッサ、メモリデバイス、通信インターフェース等の構成要素を具備する。ただし、用語「コンテンツ(content)」及び「サービス(service)」は、異なる概念を表すものの、本開示の全体を通して区別なく用いられるようになっていてもよい。
[69]ここでシステム900を参照して、このシステム900は、プログラムコードの実行、一連の算術演算若しくは論理演算の逐次的且つ自動的な実行、並びに/又はデジタルデータの記録、格納、及び/若しくは転送を行うように構成されたプロセッサ回路902を具備する。プロセッサ回路902は、1つ若しくは複数のプロセッサコア並びに1つ若しくは複数のキャッシュメモリ、低ドロップアウト電圧レギュレータ(LDO)、割り込みコントローラ、シリアル周辺機器インターフェース(SPI)等のシリアルインターフェース、インターインテグレーテッド回路(IC)又はユニバーサルプログラマブルシリアルインターフェース回路、リアルタイムクロック(RTC)、インターバルタイマー及びウォッチドッグタイマー等のタイマーカウンタ、汎用入出力(I/O)、メモリカードコントローラ、相互接続(IX)コントローラ及び/又はインターフェース、ユニバーサルシリアルバス(USB)インターフェース、MIPI(Mobile Industry Processor Interface)インターフェース、JTAG(Joint Test Access Group)テストアクセスポート等の回路を含むが、これらに限定されない。プロセッサ回路902は、オンチップメモリ回路又はキャッシュメモリ回路を含んでいてもよく、これは、DRAM、SRAM、EPROM、EEPROM、フラッシュメモリ、固体メモリ、及び/又は本明細書に記載のようなその他任意の種類のメモリデバイス技術等、任意好適な揮発性及び/又は不揮発性メモリを含んでいてもよい。プロセッサ回路902の個々のプロセッサ(又は、個々のプロセッサコア)は、メモリ/ストレージと結合されていてもよいし、メモリ/ストレージを含んでいてもよく、メモリ/ストレージに格納された命令を実行して、様々なアプリケーション又はオペレーティングシステムのシステム900上での動作を可能にするように構成されていてもよい。これらの実施形態において、プロセッサ回路902のプロセッサ(又は、コア)は、アプリケーションソフトウェア(例えば、ロジック/モジュール980)を動作させることにより、特定のサービスをシステム900のユーザに提供するように構成されている。いくつかの実施形態において、プロセッサ回路902は、本明細書の種々実施形態に従って動作する専用プロセッサ/コントローラを含んでいてもよい。
[70]種々実施態様において、プロセッサ回路902の(1つ又は複数の)プロセッサは、例えば1つ若しくは複数のプロセッサコア(CPU)、グラフィックス処理ユニット(GPU)、縮小命令セットコンピュータ(RISC)プロセッサ、Acorn RISCマシン(ARM)プロセッサ、複数命令セットコンピュータ(CISC)プロセッサ、デジタル信号プロセッサ(DSP)、プログラマブル論理デバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、SoC及び/若しくはプログラマブルSoC、マイクロプロセッサ若しくはコントローラ、又はこれらの任意好適な組み合わせを含んでいてもよい。例として、プロセッサ回路902は、(1つ又は複数の)インテル(Intel)(登録商標)コア(Core)(商標)ベースプロセッサ、(1つ又は複数の)MCUクラスプロセッサ、(1つ又は複数の)ジーオン(Xeon)(登録商標)プロセッサ、(1つ又は複数の)ライゼン(Ryzen)(登録商標)又はエピック(Epyc)(登録商標)プロセッサ、アクセラレーテッド処理ユニット(APU)、MxGPU等の(1つ又は複数の)Advanced Micro Devices(AMD)ゼン(Zen)(登録商標)コアアーキテクチャプロセッサ、アップル(Apple)(登録商標)社の(1つ又は複数の)A、S、W、及びTシリーズプロセッサ、クアルコム(Qualcomm)(登録商標)テクノロジーズ社の(1つ又は複数の)スナップドラゴン(Snapdragon)(商標)又はセントリック(Centriq)(商標)プロセッサ、テキサスインスツルメンツ(Texas Instruments)(登録商標)社の(1つ又は複数の)オープンマルチメディアアプリケーションプラットフォーム(OMAP:Open Multimedia Applications Platform)(商標)プロセッサ、オープンパワー(OpenPOWER)(登録商標)財団及び/又はIBM(登録商標)が提供する(1つ又は複数の)Power Architectureプロセッサ、MIPS Technologies,Inc.が提供する(1つ又は複数の)MIPS Warrior M-class、Warrior I-class、及びWarrior P-classプロセッサ、ARM Holdings,Ltd.からライセンス供与されている(1つ又は複数の)ARM Cortex-A、Cortex-R、及びCortex-Mファミリプロセッサ、カビウム(Cavium)(商標)社が提供するサンダーX2(ThunderX2)(登録商標)、エヌヴィディア(登録商標)が提供するジーイーフォース(GeForce)(登録商標)、テグラ(Tegra)(登録商標)、タイタンX(Titan X)(登録商標)、テスラ(Tesla)(登録商標)、シールド(Shield)(登録商標)、及び/又は他の類似のGPU等を含んでいてもよい。本開示の他の場所において、プロセッサ回路902の他の例を記載する可能性もある。
[71]いくつかの実施態様において、プロセッサ回路902の(1つ又は複数の)プロセッサは、デジタルストリーミングデータを実時間処理するように具体的に設計されたマイクロプロセッサベースの(1つ又は複数の)SoC、(1つ又は複数の)FPGA、或いは(1つ又は複数の)DSPを含む1つ又は複数のメディアプロセッサであってもよいし、これらを含んでいてもよく、AVC(Advanced Video Coding)(H.264及びMPEG-4としても知られる)デジタルデータ、HEVC(High Efficiency Video Coding)(H.265及びMPEG-H part2としても知られる)デジタルデータ、及び/又はその他類似のものを圧縮/解凍(又は、符号化及び復号化)する符号器/復号器回路を含んでいてもよい。
[72]いくつかの実施態様において、プロセッサ回路902は、1つ又は複数のハードウェアアクセラレータを具備していてもよい。ハードウェアアクセラレータは、マイクロプロセッサ、設定可能なハードウェア(例えば、FPGA、プログラマブルASIC、プログラマブルSoC、DSP等)、又は汎用プロセッサコアを使用する場合よりも効率的となり得る1つ又は複数の特定のタスク又はワークロード(例えば、FINN200のサブシステムの特定のタスク又はワークロード)を実行するように調整されたその他何らかの好適な専用処理デバイスであってもよい。いくつかの実施形態において、特定のタスク又はワークロードは、プロセッサ回路902の1つ又は複数のプロセッサからアンロードされるようになっていてもよい。これらの実施態様において、プロセッサ回路902の回路は、本明細書に記載の種々実施形態の手順、方法、機能等、様々な機能を実行するようにプログラム可能な他の相互接続リソースを含む論理ブロック又は論理ファブリックを備えていてもよい。また、プロセッサ回路902は、論理ブロック、論理ファブリック、データ等をLUT等に格納するのに用いられるメモリセル(例えば、EPROM、EEPROM、フラッシュメモリ、スタティックメモリ(例えば、SRAM、アンチヒューズ等))を具備していてもよい。
[73]いくつかの実施態様において、プロセッサ回路902は、図2に関して上述したFINN200のサブシステムの動作等、機械学習機能に対して具体的に調整されたハードウェア要素を含んでいてもよい。これらの実施態様において、プロセッサ回路902は、適当な重み付け及びトレーニングコードがロードされた場合に多くの異なる種類のAI命令セットを実行可能なAIエンジンチップであってもよいし、このようなAIエンジンチップを具備していてもよい。追加又は代替として、プロセッサ回路902は、(1つ又は複数の)AIアクセラレータであってもよいし、(1つ又は複数の)AIアクセラレータを具備していてもよく、これは、FINN200のサブシステムのうちの1つ又は複数等、AI用途のハードウェア加速用に設計された前述のハードウェアアクセラレータのうちの1つ又は複数であってもよい。例として、これら(1つ又は複数の)プロセッサ又はアクセラレータは、人工知能(AI)GPU、グーグル(Google)(登録商標)社により開発されたテンソル処理ユニット(TPU)、アルファICs(AlphaICs)(登録商標)が提供するリアルAIプロセッサ(RAP)(商標)、インテル(登録商標)社が提供するナバーナ(Nervana)(商標)ニューラルネットワークプロセッサ(NNS)、インテル(登録商標)モビディウス(Movidius)(商標)ミリアド(Myriad)(商標)Xビジョン処理ユニット(VPU)、エヌヴィディア(登録商標)PX(商標)ベースのGPU、ジェネラルビジョン(General Vision)(登録商標)が提供するNM500チップ、テスラ(Tesla)(登録商標)社が提供するHardware 3、アダプティーバ(Adapteva)(登録商標)が提供するエピファニ(Epiphany)(商標)ベースのプロセッサ等のクラスタであってもよい。いくつかの実施形態において、プロセッサ回路902及び/又はハードウェアアクセラレータ回路は、クアルコム(登録商標)が提供するHexagon 685 DSP、イマジネーションテクノロジーズ(登録商標)社が提供するPowerVR 2NXニューラルネットアクセラレータ(NNA)、アップル(登録商標)A11若しくはA12バイオニックSoC内のニューラルエンジンコア、ファーウェイ(Huawei)(登録商標)が提供するHiSilicon Kirin 970内のニューラル処理ユニット(NPU)、及び/又はその他類似のもの等、(1つ又は複数の)AI加速コプロセッサとして実装されていてもよい。
[74]いくつかの実施態様において、プロセッサ回路902の(1つ又は複数の)プロセッサは、FINN200の対応するサブシステムを動作させるように具体的に設計された
1つ又は複数のカスタム設計シリコンコアであってもよいし、このような1つ又は複数のカスタム設計シリコンコアを具備していてもよい。これらのコアは、ハードウェア記述言語論理(例えば、レジスタ転送論理、verilog、超高速集積回路ハードウェア記述言語(VHDL)等)、電子コンポーネント及び接続並びに/又はプロセス固有の超大規模集積(VLSI)レイアウトのゲートレベル記述を含むネットリストコア、並びに/又はトランジスタレイアウトフォーマットにおけるアナログ若しくはデジタル論理を含む合成可能コアとして設計されていてもよい。これらの実施態様においては、(1つ又は複数の)カスタム設計シリコンコア上でFINN200のサブシステムのうちの1つ又は複数が少なくとも部分的に動作するようになっていてもよい。これらの「ハードウェア化」サブシステムは、大型のチップセットに組み込まれていてもよいが、汎用プロセッサコアを使用する場合よりも効率的と考えられる。
[75]システムメモリ回路904は、格納された命令982をプロセッサ回路902が連続的に読み出して実行する主記憶を与えるように構成された任意数のメモリデバイスを具備している。いくつかの実施形態において、メモリ回路904は、プロセッサ回路902と関連付けられたオンダイのメモリ又はレジスタである。例として、メモリ回路904は、ランダムアクセスメモリ(RAM)、ダイナミックRAM(DRAM)、同期DRAM(SDRAM)等の揮発性メモリを含んでいてもよい。また、メモリ回路904は、高速電気的消去可能メモリ(一般的には「フラッシュメモリ」と称する)、相変化RAM(PRAM)、磁気抵抗ランダムアクセスメモリ(MRAM)等の抵抗変化型メモリ等の不揮発性メモリ(NVM)を含んでいてもよい。また、メモリ回路904は、永続記憶装置(任意の種類の一時的及び/又は永続的ストレージが考えられる)を含んでいてもよく、不揮発性メモリ、光学的、磁気的、及び/又は固体大容量ストレージ等が挙げられるが、これらに限定されない。
[76]記憶回路908は、データ、アプリケーション、オペレーティングシステム(OS)等の情報の永続的記憶を与えるように構成されている。例として、記憶回路908は、ハードディスクドライブ(HDD)、マイクロHDD、固体ディスクドライブ(SSDD)、フラッシュメモリカード(例えば、SDカード、microSDカード、xDピクチャカード等)、USBフラッシュドライブ、プロセッサ回路902と関連付けられたオンダイのメモリ若しくはレジスタ、抵抗変化型メモリ、相変化メモリ、ホログラフィックメモリ、又は化学メモリ等として実装されていてもよい。
[77]記憶回路908は、本明細書に記載の技術を実現するソフトウェア、ファームウェア、マイクロコード、又はハードウェアレベル命令の形態の演算論理980(又は、「モジュール980」)を格納するように構成されていてもよい。演算論理980は、システム900の様々な構成要素(例えば、ドライバ、ライブラリ、アプリケーションプログラミングインターフェース(API)等)、システム900のOS、1つ若しくは複数のアプリケーションの動作用、並びに/又は本明細書に記載の実施形態の実行用のプログラミング命令又はプログラミング命令を生成するデータの一時的コピー及び/又は永続的コピーを格納するように採用されていてもよい。演算論理980は、後でプロセッサ回路902がアクセスして実行することにより、本明細書に記載の機能を実行する命令982又は命令982を生成するデータとしてメモリ回路904に格納又はロードされるようになっていてもよい。プロセッサ回路902は、相互接続(IX)906を介して、メモリ回路904及び/又は記憶回路908にアクセスする。命令982は、例えば上掲の動作及び機能の(1つ又は複数の)フローチャート及び(1つ又は複数の)ブロック図に関して説明した通り、特定の動作シーケンス又は動作フローを実行するようにプロセッサ回路902に指示する。プロセッサ回路902が対応するアセンブラ命令又はプロセッサ回路902が実行する命令984若しくは命令984を生成するデータへとコンパイルされ得る高級言語によって、様々な要素が実現されるようになっていてもよい。プログラミング命令の永続的コピーは、例えば配布媒体(図示せず)、(例えば、配信サーバ(図示せず)からの)通信インターフェース、又は無線(OTA)によって、工場又は現場にある記憶回路908の永続的記憶装置に投入されるようになっていてもよい。
[78]システム900のオペレーティングシステム(OS)は、汎用OSであってもよいし、コンピュータシステム900に対して具体的に記述及び調整されたOSであってもよい。例えば、システム900がサーバシステム又はデスクトップ若しくはラップトップシステム900である場合、OSは、例えばUnix(登録商標)又はRed Hat Enterpriseが提供するLinux(登録商標)等のUnix様OS、マイクロソフト(登録商標)社が提供するウィンドウズ10(Windows 10)(登録商標)、アップル(登録商標)社が提供するmacOS等であってもよい。システム900がモバイル機器である別の例において、OSは、グーグル(登録商標)社が提供するアンドロイド(Android)(登録商標)、アップル(登録商標)社が提供するiOS(登録商標)、マイクロソフト(登録商標)社が提供するウィンドウズ10モバイル(Windows 10 Mobile)(登録商標)、KaiOS Technologies Inc.が提供するKaiOS等のモバイルOSであってもよい。
[79]OSは、コンピュータのハードウェア及びソフトウェアリソースを管理するとともに、様々なアプリケーション(例えば、アプリケーション110)の共通サービスを提供する。OSは、システム900に対して埋め込み、取り付け、或いは通信結合された特定のデバイスを制御するように動作する1つ又は複数のドライバ又はAPIを含んでいてもよい。ドライバとしては、システム900内に存在し得る様々なI/Oデバイス又はシステム900に接続され得る様々なI/Oデバイスに対する相互作用又は制御をシステム900の他の構成要素が行えるようにする個々のドライバが挙げられる。例えば、ドライバとしては、表示装置へのアクセスの制御及び許可を行うディスプレイドライバ、システム900のタッチスクリーンインターフェースへのアクセスの制御及び許可を行うタッチスクリーンドライバ、センサ回路921のセンサ測定値の取得並びにセンサ回路921へのアクセスの制御及び許可を行うセンサドライバ、アクチュエータ922のアクチュエータ位置の取得並びに/又はアクチュエータ922へのアクセスの制御及び許可を行うアクチュエータドライバ、埋め込み画像取り込みデバイスへのアクセスの制御及び許可を行うカメラドライバ、1つ又は複数のオーディオデバイスへのアクセスの制御及び許可を行うオーディオドライバが挙げられる。また、OSは、上述のFINN200の様々なサブシステム等、システム900が動作させる他のアプリケーションからデータを取得して使用する1つ又は複数のアプリケーションのプログラムコード及び/又はソフトウェアコンポーネントを提供する1つ又は複数のライブラリ、ドライバ、API、ファームウェア、ミドルウェア、ソフトウェアグルー等を含んでいてもよい。
[80]システム900の構成要素は、相互接続(IX)906を介して相互に通信する。IX906は、業界標準アーキテクチャ(ISA)、拡張ISA(EISA)、インターインテグレーテッド回路(IC)、シリアル周辺機器インターフェース(SPI)、ポイントツーポイントインターフェース、電力管理バス(PMBus)、ペリフェラルコンポーネントインターコネクト(PCI)、PCIエクスプレス(PCIe)、インテル(登録商標)Ultra Path Interface(UPI)、インテル(登録商標)Accelerator Link(IAL)、Common Application Programming Interface(CAPI)、インテル(登録商標)QuickPath Interconnect (QPI)、インテル(登録商標)Omni-Path Architecture (OPA) IX、ラピッドIO(RapidIO)(商標)システム相互接続、イーサネット(登録商標)、Cache Coherent Interconnect for Accelerators(CCIA)、Gen-Z Consortium IXs、Open Coherent Accelerator Processor Interface(OpenCAPI)等の任意数のIX技術、及び/又は他の任意数のIX技術を含んでいてもよい。IX906は、例えばSoCベースのシステムにおいて用いられる専用バスであってもよい。
[81]通信回路909は、1つ若しくは複数のネットワーク(例えば、ネットワーク950)上並びに/又は他のデバイスとの通信に用いられるハードウェア要素又はハードウェア要素の集合体である。通信回路909は、モデム910及び送受信機回路(「TRx」)812を具備する。モデム910は、様々なプロトコル及び無線制御機能を実行する1つ又は複数の処理デバイス(例えば、ベースバンドプロセッサ)を具備する。モデム910は、システム900のアプリケーション回路とのインターフェース(例えば、プロセッサ回路902とCRM860との組み合わせ)によって、ベースバンド信号を生成して処理するとともに、TRx912の動作を制御する。モデム910は、1つ又は複数の無線通信プロトコルに従って、TRx912を介した1つ又は複数の無線ネットワークとの通信を可能にする様々な無線制御機能を処理するようにしてもよい。モデム910は、TRx912の受信信号経路から受信したベースバンド信号を処理するとともに、送信信号経路を介してTRx912に供給されるベースバンド信号を生成する1つ若しくは複数のシングルコア若しくはマルチコアプロセッサ(例えば、1つ若しくは複数のベースバンドプロセッサ)又は制御論理等の回路を含んでいてもよいが、これらに限定されない。種々実施形態において、モデム910は、リアルタイムOS(RTOS)の実装により、モデム910のリソースの管理、タスクのスケジューリング等を行うようにしてもよい。
[82]また、通信回路909は、TRx912を具備することにより、非固体媒体を通じて、変調電磁放射を用いた無線ネットワークとの通信を可能にする。TRx912は、モデム910に供給されるデジタルベースバンド信号へとアナログRF信号(例えば、既存又は受信変調波形)を変換する回路を備えた受信信号経路を含む。また、TRx912は、モデム910により供給されたデジタルベースバンド信号を、1つ又は複数のアンテナ素子(図示せず)を含むアンテナアレイを介して増幅及び送信されるアナログRF信号(例えば、変調波形)へと変換するように構成された回路を備えた送信信号経路を含む。アンテナアレイは、1つ又は複数のプリント配線板の表面に作製された複数のマイクロストリップアンテナ又は印刷アンテナであってもよい。アンテナアレイは、多様な形状の金属箔パッチ(例えば、パッチアンテナ)として形成されていてもよく、また、金属伝送線等を用いてTRx912と結合されていてもよい。
[83]TRx912は、Global System for Mobile Communications(GSM(登録商標))無線通信技術、General Packet Radio Service(GPRS)無線通信技術、Enhanced Data Rates for GSM Evolution(EDGE)無線通信技術、及び/又はThird Generation Partnership Project(3GPP)無線通信技術(例えば、Universal Mobile Telecommunications System(UMTS)、Freedom of Multimedia Access(FOMA)、3GPP Long Term Evolution(LTE)、3GPP Long Term Evolution Advanced(LTE Advanced)、Code Division Multiple Access 2000(CDM2000)、Cellular Digital Packet Data(CDPD)、Mobitex、Third Generation(3G)、Circuit Switched Data(CSD)、High-Speed Circuit-Switched Data(HSCSD)、Universal Mobile Telecommunications System(Third Generation)(UMTS(3G))、Wideband Code Division Multiple Access(Universal Mobile Telecommunications System)(W-CDMA(UMTS))、High Speed Packet Access(HSPA)、High-Speed Downlink Packet Access(HSDPA)、High-Speed Uplink Packet Access(HSUPA)、High Speed Packet Access Plus(HSPA+)、Universal Mobile Telecommunications System-Time-Division Duplex(UMTS-TDD)、Time Division-Code Division Multiple Access(TD-CDMA)、Time Division-Synchronous Code Division Multiple Access(TD-CDMA)、3rd Generation Partnership Project Release 8(Pre-4th Generation)(3GPP Rel.8(Pre-4G))、3GPP Rel.9(3rd Generation Partnership Project Release 9)、3GPP Rel.10(3rd Generation Partnership Project Release 10)、3GPP Rel.11(3rd Generation Partnership Project Release 11)、3GPP Rel.12(3rd Generation Partnership Project Release 12)、3GPP Rel.8(3rd Generation Partnership Project Release 8)、3GPP Rel.14(3rd Generation Partnership Project Release 14)、3GPP Rel.15(3rd Generation Partnership Project Release 15)、3GPP Rel.16(3rd Generation Partnership Project Release 16)、3GPP Rel.17(3rd Generation Partnership Project Release 17)及びそれ以降のリリース(Rel.18、Rel.19等)、3GPP 5G、3GPP LTE Extra、LTE-Advanced Pro、LTE Licensed-Assisted Access (LAA)、MuLTEfire、UMTS Terrestrial Radio Access(UTRA)、Evolved UMTS Terrestrial Radio Access(E-UTRA)、Long Term Evolution Advanced(4th Generation)(LTE Advanced(4G))、cdmaOne(2G)、Code Division Multiple Access 2000(Third generation)(CDM2000(3G))、Evolution-Data Optimized or Evolution-Data Only(EV-DO)、Advanced Mobile Phone System (1st Generation)(AMPS(1G))、Total Access Communication System/Extended Total Access Communication System(TACS/ETACS)、Digital AMPS(2nd Generation)(D-AMPS(2G))、Push-to-talk(PTT)、Mobile Telephone System(MTS)、Improved Mobile Telephone System(IMTS)、Advanced Mobile Telephone System(AMTS)、OLT(Norwegian for Offentlig Landmobil Telefoni,Public Land Mobile Telephony)、MTD(Swedish abbreviation for Mobiltelefonisystem D、又はMobile telephony system D)、Public Automated Land Mobile(Autotel/PALM)、ARP(Finnish for Autoradiopuhelin、「自動車電話」)、NMT(Nordic Mobile Telephony)、NTT(日本電信電話)の高容量形式(Hicap)、Cellular Digital Packet Data(CDPD)、Mobitex、DataTAC、Integrated Digital Enhanced Network(iDEN)、Personal Digital Cellular(PDC)、Circuit Switched Data(CSD)、簡易型携帯電話(PHS)、Wideband Integrated Digital Enhanced Network(WiDEN)、iBurst、Unlicensed Mobile Access(UMA)(3GPP Generic Access Network又はGAN規格とも称する)、Bluetooth(登録商標)、Bluetooth Low Energy(BLE)、IEEE802.15.4ベースのプロトコル(例えば、IPv6 over Low Power Wireless Personal Area Networks(6LoWPAN)、WirelessHART、MiWi、Thread、I600.11a等)、WiFi-direct、ANT/ANT+、ZigBee(登録商標)、Z-Wave、3GPPデバイスツーデバイス(D2D)又はProximity Services(ProSe)、Universal Plug and Play(UPnP)、Low-Power Wide-Area-Network(LPWAN)、LoRaWAN(商標)(Long Range Wide Area Network)、Sigfox、Wireless Gigabit Alliance(WiGig)規格、一般的なミリ波規格(WiGig、IEEE802.11ad、IEEE802.11ay等の10~300GHz以上で動作する無線システム)、300GHz及びTHz帯より上で動作する技術、(3GPP/LTEベース又はIEEE802.11p等の)Vehicle-to-Vehicle(V2V)、Vehicle-to-X(V2X)、Vehicle-to-Infrastructure(V2I)、及びInfrastructure-to-Vehicle(I2V)通信技術、3GPPセルラーV2X、高度道路交通システム等のDSRC(Dedicated Short Range Communications)通信システム、European ITS-G5システム(すなわち、European flavor of IEEE802.11pベースDSRC(ITS-G5A(すなわち、5,875GHz~5,905GHzの周波数範囲における安全関連用途のITS専用欧州ITS周波数帯におけるITS-G5の動作)、ITS-G5B(すなわち、5,855GHz~5,875GHzの周波数範囲におけるITS非安全用途専用欧州ITS周波数帯における動作)、ITS-G5C(すなわち、5,470GHz~5,725GHzの周波数範囲におけるITS用途の動作)))等の無線通信技術及び/若しくは規格のうちのいずれか1つ若しくは複数に適合する1つ若しくは複数の無線機を含むこと、並びに/又は、これらいずれか1つ若しくは複数に従って動作することが可能である。上掲の規格のほか、任意数の衛星アップリンク技術がTRx912に用いられるようになっていてもよく、例えば、数ある中でもとりわけ、ITU(国際電気通信連合)又はETSI(欧州電気通信標準化機構)が発行する規格(いずれも存在するが未策定)に準拠した無線機が挙げられる。
[84]ネットワークインターフェース回路/コントローラ(NIC)916は、標準的なネットワークインターフェースプロトコルを用いてネットワーク950又は他のデバイスへの有線通信を提供するものであってもよい。標準的なネットワークインターフェースプロトコルとしては、イーサネット、GRE Tunnelsを介したイーサネット、Multiprotocol Label Switching(MPLS)を介したイーサネット、USBを介したイーサネットが挙げられるほか、数ある中でもとりわけ、Controller Area Network(CAN)、Local Interconnect Network(LIN)、DeviceNet、ControlNet、Data Highway+、PROFIBUS、又はPROFINET等の他種のネットワークプロトコルに基づいていてもよい。物理的接続(電気的(例えば、「銅線相互接続」)であってもよいし、光学的であってもよい)を用いることにより、NIC916を介して、システム900へのネットワーク接続/システム900からのネットワーク接続が提供されていてもよい。また、物理的接続には、好適な入力コネクタ(例えば、ポート、レセプタクル、ソケット等)及び出力コネクタ(例えば、プラグ、ピン等)を含む。NIC916は、前述のネットワークインターフェースプロトコルのうちの1つ又は複数を用いて通信する1つ又は複数の専用プロセッサ及び/又はFPGAを具備していてもよい。いくつかの実施態様において、NIC916は、同じプロトコル又は異なるプロトコルを用いて他のネットワークへの接続を提供する複数のコントローラを具備していてもよい。例えば、システム900は、イーサネットを介してクラウドへの通信を提供する第1のNIC916と、別の種類のネットワークを介して他のデバイスへの通信を提供する第2のNIC916とを具備していてもよい。いくつかの実施態様において、NIC916は、システム900をルーティングデバイス又はスイッチングデバイスに接続する高速シリアルインターフェース(HSSI)NICであってもよい。
[85]ネットワーク950は、コンピュータ、様々なコンピュータ間(例えば、システム900とリモートシステム955との間)のネットワーク接続、及び各ネットワーク接続を介したコンピュータ間の通信を可能にするソフトウェアルーチンを含む。この点、ネットワーク950は、1つ又は複数のプロセッサ、通信システム(例えば、ネットワークインターフェースコントローラ、1つ又は複数のアンテナに接続された1つ又は複数の送信機/受信機等)、及びコンピュータ可読媒体を含む。このようなネットワーク要素の例としては、無線アクセスポイント(WAP)、ホーム/ビジネスサーバ(無線周波数(RF)通信回路の有無によらず)、ルータ、スイッチ、ハブ、無線ビーコン、基地局、ピコセル若しくはスモールセル基地局、並びに/又はその他任意の類似ネットワークデバイスが挙げられる。ネットワーク950への接続は、以下に論じる様々な通信プロトコルを用いた有線又は無線接続経由であってもよい。本明細書において、有線又は無線通信プロトコルは、データをパケット化/脱パケット化する命令、信号を変調/復調する命令、プロトコルスタックを実装する命令等、他のデバイスと通信するために通信デバイス/システムが実装する一組の標準化規則又は命令を表し得る。図示のデバイス間の通信セッションには、2つ以上のネットワークが関わっていてもよい。ネットワーク950への接続では、例えば無線(又は、セルラー)電話ネットワークにおけるコンピュータネットワーキング又は同等物のOSIモデルの7つのレイヤを可能にするソフトウェアルーチンをコンピュータが実行することが必要となり得る。
[86]ネットワーク950は、インターネット、1つ若しくは複数のセルラーネットワーク、専用及び/若しくは企業ネットワークを含むローカルエリアネットワーク(LAN)若しくはワイドエリアネットワーク(WAN)、伝送制御プロトコル(TCP)/インターネットプロトコル(IP)ベースのネットワーク、又はこれらの組み合わせを表し得る。このような実施形態において、ネットワーク950は、1つ又は複数の基地局又はアクセスポイント、デジタルデータ又は電話をルーティングする1つ又は複数のサーバ(例えば、コアネットワーク又はバックボーンネットワーク)等、ネットワーク関連サービスの提供に必要な機器及び他の要素を所有又は制御するネットワーク事業者と関連付けられていてもよい。インターネットの代替又は追加として、イントラネット、エクストラネット、仮想プライベートネットワーク(VPN)、企業ネットワーク、非TCP/IPベースのネットワーク、任意のLAN又はWAN等、他のネットワークも使用可能である。
[87]外部インターフェース918(「I/Oインターフェース回路」とも称する)は、システム900を外部のデバイス又はサブシステムと接続又は結合するように構成されている。外部インターフェース918は、システム900を外部のコンポーネント/デバイスと結合する任意好適なインターフェースコントローラ及びコネクタを含んでいてもよい。一例として、外部インターフェース918は、システム900と外部(周辺)のコンポーネント/デバイスとの接続に用いられる外部拡張バス(例えば、ユニバーサルシリアルバス(USB)、FireWire(登録商標)、Thunderbolt等)であってもよい。外部のデバイスには、とりわけ、センサ回路921、アクチュエータ922、及び測位回路945を含むが、図9に示さない他のデバイス又はサブシステムを含むことも可能である。
[88]センサ回路921は、その環境のイベント又は変化を検出するとともに、検出したイベントに関する情報(センサデータ)をその他何らかのデバイス、モジュール、サブシステム等に送ることを目的としたデバイス、モジュール、又はサブシステムを含んでいてもよい。このようなセンサ921の例としては、とりわけ、加速度計、ジャイロスコープ、及び/又は磁力計を含む慣性測定ユニット(IMU)、3軸加速度計、3軸ジャイロスコープ、及び/又は磁力計を含むマイクロ電気機械システム(MEMS)又はナノ電気機械システム(NEMS)、レベルセンサ、流量センサ、温度センサ(例えば、サーミスタ)、圧力センサ、気圧センサ、重力計、高度計、画像取り込みデバイス(例えば、カメラ)、光検出及び測距(LiDAR)センサ、近接センサ(例えば、赤外線放出検出器等)、深度センサ、環境光センサ、超音波送受信機、マイク等が挙げられる。
[89]外部インターフェース918は、システム900のアクチュエータ922への接続、システム900の状態、位置、及び/若しくは配向の変更、又は機構若しくはシステムの移動若しくは制御を行う。アクチュエータ922は、機構又はシステムの移動又は制御を行う電気的及び/又は機械的デバイスを備え、エネルギー(例えば、電流又は移動する空気及び/若しくは液体)を何らかの種類の運動に変換する。アクチュエータ922は、圧電バイモルフ、ソリッドステートアクチュエータ、ソリッドステートリレー(SSR)、形状記憶合金ベースのアクチュエータ、電気活性高分子ベースのアクチュエータ、リレードライバ集積回路(IC)、及び/又はその他類似のもの等、1つ又は複数の電子(又は、電気化学)デバイスを含んでいてもよい。アクチュエータ922は、空気圧アクチュエータ、油圧アクチュエータ、電気機械式リレー(EMR)を含む電気機械式スイッチ、モータ(例えば、DCモータ、ステッピングモータ、サーボ機構等)、ホイール、スラスタ、プロペラ、爪、クランプ、フック、可聴音発生器、及び/又は類似の電気機械式コンポーネント等の1つ又は複数の電気機械式デバイスを含んでいてもよい。システム900は、1つ若しくは複数の取り込みイベント及び/若しくは命令又はサービスプロバイダ及び/若しくは様々なクライアントシステムから受信した制御信号に基づいて、1つ又は複数のアクチュエータ922を動作させるように構成されていてもよい。実施形態において、システム900は、命令を様々なアクチュエータ922(又は、1つ又は複数のアクチュエータ922を制御するコントローラ)に送信して、本明細書に記載の通り、電気ネットワークを再設定するようにしてもよい。
[90]測位回路945は、全地球的航法衛星システム(GNSS)の測位ネットワークにより送信/ブロードキャストされた信号を受信して復号化する回路を含む。航法衛星配置(又は、GNSS)の例としては、米国のGlobal Positioning System(GPS)、ロシアのGlobal Navigation System(GLONASS)、欧州連合のGalileo system、中国のBeiDou Navigation Satellite System、局所航法システム若しくはGNSS拡張システム(例えば、Navigation with Indian Constellation(NAVIC)、日本のQuasi-Zenith Satellite System(QZSS)、フランスのDoppler Orbitography and Radio-positioning Integrated by Satellite(DORIS)等)、又はその他類似のものが挙げられる。測位回路945は、航法衛星配置ノード等の測位ネットワークの構成要素と通信する様々なハードウェア要素(例えば、OTA通信を容易化するスイッチ、フィルタ、増幅器、アンテナ素子等のハードウェアデバイスを含む)を備える。いくつかの実施形態において、測位回路945は、マスタータイミングクロックを用いることでGNSSの支援なしに位置追跡/推定を実行するMicro-Technology for Positioning,Navigation,and Timing(Micro-PNT)ICを含んでいてもよい。また、測位回路945は、測位ネットワークのノード及び構成要素と通信する通信回路909の一部であってもよいし、通信回路909と相互作用するようになっていてもよい。また、測位回路945は、位置データ及び/又は時間データをアプリケーション回路に提供するようにしてもよく、アプリケーション回路は、このデータを用いて、様々なインフラ(例えば、無線基地局)と動作を同期させることにより、進路変更ごとのナビゲーション等を行うようにしてもよい。
[91]入出力(I/O)デバイス956は、システム900内に存在していてもよいし、システム900に接続されていてもよい。I/Oデバイス956は、ユーザのシステム900との相互作用を可能にするように設計された1つ若しくは複数のユーザインターフェース並びに/又は周辺構成要素のシステム900との相互作用を可能にするように設計された周辺構成要素インターフェースを含む入力装置回路及び出力装置回路を具備する。入力装置回路は、とりわけ1つ若しくは複数の物理的若しくは仮想的ボタン(例えば、リセットボタン)、物理的キーボード、キーパッド、マウス、タッチパッド、タッチスクリーン、マイク、スキャナ、ヘッドセット、並びに/又はその他類似のもの等、入力を受け付ける任意の物理的又は仮想的手段を含む。出力装置回路は、センサ測定値、(1つ又は複数の)アクチュエータ位置、又は他の類似情報等の情報の表示又は伝達に用いられる。出力装置回路の1つ又は複数のユーザインターフェース構成要素にデータ及び/又はグラフィックスが表示されるようになっていてもよい。出力装置回路は、システム900の動作によって文字、グラフィックス、マルチメディアオブジェクト等の出力が生成された状態で、とりわけ1つ若しくは複数の単純な視覚的出力/インジケータ(例えば、二元ステータスインジケータ(例えば、発光ダイオード(LED))及び複数文字の視覚的出力、又は表示装置若しくはタッチスクリーン(例えば、液晶ディスプレイ(LCD)、LEDディスプレイ、量子ドットディスプレイ、プロジェクタ)等のより複雑な出力等、任意数の音声若しくは視覚表示並びに/又はその組み合わせを含んでいてもよい。また、出力装置回路は、スピーカ等の発音デバイス、(1つ又は複数の)プリンタ、及び/又はその他類似のものを含んでいてもよい。いくつかの実施形態においては、センサ回路921が入力装置回路(例えば、画像取り込みデバイス、モーションキャプチャデバイス等)として用いられるようになっていてもよく、また、1つ又は複数のアクチュエータ922が出力装置回路(例えば、触覚フィードバックを与えるアクチュエータ等)として用いられるようになっていてもよい。別の例においては、アンテナ素子及び処理デバイスと結合された近距離無線通信(NFC)コントローラを備えたNFC回路が備えられることにより、電子タグの読み取り及び/又は別のNFC対応デバイスとの接続を行うようになっていてもよい。周辺構成要素インターフェースとしては、不揮発性メモリポート、ユニバーサルシリアルバス(USB)ポート、オーディオジャック、電源インターフェース等が挙げられるが、これらに限定されない。
[92]システム900への給電のため、システム900にバッテリ924が結合されていてもよいが、これは、システム900がモバイル又はラップトップ式のクライアントシステムである場合等、システム900が固定位置にない実施形態において使用されるようになっていてもよい。バッテリ924は、リチウムイオンバッテリ、鉛酸バッテリ、若しくは空気亜鉛バッテリ、空気アルミニウムバッテリ、空気リチウムバッテリ等の空気金属バッテリ、リチウムポリマーバッテリ、並びに/又はその他類似のものであってもよい。システムがサーバコンピュータシステムとして実装されている場合等、システム900が固定位置に設置されている実施形態において、システム900は、配電網に結合された電源を有していてもよい。これらの実施形態において、システム900は、ネットワークケーブルから引き込んだ電力により、単一のケーブルを用いてシステム900への電力供給及びデータ接続の両者を提供する電力分岐回路を具備していてもよい。
[93]バッテリ924の充電状態(SoCh)を追跡するとともにシステム900の充電を制御する電力管理集積回路(PMIC)926がシステム900に備えられていてもよい。PMIC926は、バッテリ924の他のパラメータをモニタリングして、バッテリ924の劣化状態(SoH)及び機能状態(SoF)等、障害予測の提供に用いられるようになっていてもよい。PMIC926は、電圧レギュレータ、サージ保護装置、電力アラーム検出回路を具備していてもよい。電力アラーム検出回路は、電圧低下(低電圧)及びサージ(過電圧)状態のうちの1つ又は複数を検出するようにしてもよい。PMIC926は、バッテリ924に関する情報をIX906経由でプロセッサ回路902に伝達するようにしてもよい。また、PMIC926は、バッテリ924の電圧又はバッテリ924からの電流をプロセッサ回路902が直接モニタリングできるようにするアナログ-デジタル変換器(ADC)を具備していてもよい。バッテリパラメータは、伝送頻度、メッシュネットワーク動作、検知頻度等、システム900が実行し得る動作の決定に用いられるようになっていてもよい。
[94]電力ブロック928又は配電網に結合された他の電源がPMIC926と結合されて、バッテリ924を充電するようになっていてもよい。いくつかの例において、電力ブロック928は、無線受電機との置き換えにより、例えばシステム900中のループアンテナを通じて、電力を無線で得るようにしてもよい。これらの実施態様においては、無線バッテリ充電回路がPMIC926に備えられていてもよい。選定される特定の充電回路は、バッテリ924のサイズ及び必要な電流によって決まる。
[95]システム900は、図9に示す構成要素の如何なる組み合わせを含んでいてもよいが、図示の構成要素の一部が省略されていてもよいし、付加的な構成要素が存在していてもよいし、他の実施態様においては、図示の構成要素の異なる配置も可能である。システム900がサーバコンピュータシステム又はその一部である一例においては、バッテリ924、通信回路909、センサ921、アクチュエータ922、及び/若しくはPOS945、並びに場合によってはI/Oデバイス956の一部若しくは全部が省略されていてもよい。
[96]さらに、本開示の実施形態は、コンピュータ可用プログラムコード(又は、コンピュータプログラムを生成するデータ)が埋め込まれた任意の有形又は非一時的表現媒体に埋め込まれたコンピュータプログラム製品又はコンピュータプログラムを生成するデータの形態であってもよい。図10は、装置(図1~図9に関して説明したデバイス/コンポーネント/システムのいずれか等)による命令の実行に応答して本開示の選択態様を当該装置に実現させる命令(又は、命令を生成するデータ)を格納する際の使用に適し得る例示的な非一時的コンピュータ可読記憶媒体(NTCRSM)を示している。図示のように、NTCRSM1002は、ある数のプログラミング命令1004(又は、プログラミング命令を生成するデータ)を含んでいてもよい。プログラミング命令1004は、その実行に応答して、オペレーティングシステム機能、1つ若しくは複数のアプリケーション、並びに/又は本開示の態様と関連付けられた様々なプログラミング動作(図1~図8と関連付けられた様々なプログラミング動作を含む)をデバイス(例えば、図1~図9に関して説明したデバイス/コンポーネント/システムのいずれか)が実行できるように構成されていてもよい。種々実施形態において、プログラミング命令1004は、図9に関して上述した演算論理980、命令982及び984のいずれかに対応していてもよい。
[97]代替実施形態において、プログラミング命令1004(又は、プログラミング命令1004を生成するデータ)は、複数のNTCRSM1002上に配設されていてもよい。代替実施形態において、プログラミング命令1004(又は、プログラミング命令1004を生成するデータ)は、信号等のコンピュータ可読一時的記憶媒体上に配設されていてもよい。機械可読媒体により具現化されたプログラミング命令1004は、ある数の伝送プロトコル(例えば、HTTP等)のいずれか1つを利用するネットワークインターフェース機器(例えば、図9の通信回路909及び/又はNIC916)を介して、伝送媒体を用いた通信ネットワーク上で送信又は受信されるようになっていてもよい。
[98]1つ又は複数のコンピュータ可用又はコンピュータ可読媒体の任意の組み合わせがNTCRSM1002として利用されるようになっていてもよいし、NTCRSM1002の代替として利用されるようになっていてもよい。コンピュータ可用又はコンピュータ可読媒体は、例えば1つ又は複数の電子、磁気、光学、電磁、赤外線、又は半導体システム、装置、デバイス、又は伝搬媒体であってもよいが、これらに限定されない。例えば、NTCRSM1002は、図9に関して上述した記憶回路908及び/又はメモリ回路904に対して記載のデバイスにより具現化されていてもよい。コンピュータ可読媒体のより具体的な例(非網羅的一覧)としては、1つ若しくは複数のワイヤを有する電気接続、携帯型コンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去プログラム可能リードオンリーメモリ(EPROM、フラッシュメモリ等)、光ファイバ、携帯型コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置及び/若しくは光ディスク、インターネット若しくはイントラネットに対応するような伝送媒体、磁気記憶装置、又は任意数の他のハードウェアデバイスが挙げられる。本開示の背景において、コンピュータ可用又はコンピュータ可読媒体は、命令実行システム、装置、又はデバイスによる使用又はこれらに関連する使用のためにプログラム(又は、プログラムを生成するデータ)を包含、格納、伝達、伝搬、又は移送可能な如何なる媒体であってもよい。コンピュータ可用媒体は、コンピュータ可用プログラムコード(例えば、プログラミング命令1004を含む)又はプログラムコードを生成するデータが埋め込まれた伝搬データ信号をベースバンドに含んでいてもよいし、搬送波の一部として含んでいてもよい。コンピュータ可用プログラムコード又はプログラムを生成するデータは、任意適当な媒体を用いて伝送されるようになっていてもよく、無線、有線、光ファイバケーブル、RF等が挙げられるが、これらに限定されない。
[99]種々実施形態において、本明細書に記載のプログラムコード(又は、プログラムコードを生成するデータ)は、圧縮化フォーマット、暗号化フォーマット、断片化フォーマット、パッケージ化フォーマット等のうちの1つ又は複数にて格納されていてもよい。本明細書に記載のようなプログラムコード(例えば、プログラミング命令1004)又はプログラムコードを生成するデータは、コンピュータデバイス及び/又は他のマシンによる直接的な読み込み及び/又は実行を可能にするため、インストール、修正、適応、更新、結合、補完、設定、復号、復元、解凍、配布、再割り当て等のうちの1つ又は複数を要し得る。例えば、プログラムコード又はプログラムコードを生成するデータは、別個のコンピュータデバイス上で個々に圧縮、暗号化、及び格納された複数の部分に格納されていてもよく、これらの部分は、復号、復元、及び結合に際して、本明細書に記載のようなプログラムコード又はプログラムコードを生成するデータを実現する一組の実行可能命令を構成する。別の例において、プログラムコード又はプログラムコードを生成するデータは、コンピュータによる読み込みの一方、特定のコンピュータデバイス又は他のデバイス上での命令の実行のために、ライブラリ(例えば、ダイナミックリンクライブラリ)、ソフトウェア開発キット(SDK)、アプリケーションプログラミングインターフェース(API)等の追加を要し得る状態で格納されていてもよい。別の例において、プログラムコード又はプログラムコードを生成するデータは、全体又は一部が実行/使用可能となる前に、設定(例えば、設定の格納、データの入力、ネットワークアドレスの記録等)を要する場合がある。本例において、プログラムコード(又は、プログラムコードを生成するデータ)は、第1の場所と異なる第2の場所に設定命令が配置された状態で、第1の場所において解凍、適正な実行のための設定、及び格納がなされるようになっていてもよい。設定命令は、格納又は実行の場所での同一の場所に配置されない動作、トリガ、又は命令によって開始でき、命令は開示された技術を可能にする。したがって、開示のプログラムコード又はプログラムコードを生成するデータは、格納或いは静止又は移動に際しての機械可読命令並びに/又は(1つ若しくは複数の)プログラムの特定のフォーマット又は状態に関わらず、このような機械可読命令並びに/又は(1つ若しくは複数の)プログラム若しくはデータを含むことにより、このような機械可読命令並びに/又はプログラムを生成することが意図される。
[100]本開示の動作を実行するコンピュータプログラムコード(例えば、プログラミング命令1004、演算論理980、命令982、及び/又は命令984を含む)は、1つ又は複数のプログラミング言語の任意の組み合わせにより記述されていてもよく、Python、PyTorch、Ruby、Scala、Smalltalk、Java(登録商標)、C++、C#等のオブジェクト指向プログラミング言語、「C」プログラミング言語、Go(又は、「Golang」)プログラミング言語等の手続型プログラミング言語、JavaScript(登録商標)、Server-Side JavaScript(SSJS)、PHP、Pearl、Python、PyTorch、Ruby若しくはRuby on Rails、Lua、Torch/Lua with Just-In Time compiler(LuaJIT)、Accelerated Mobile Pages Script(AMPscript)、VBScript、及び/若しくはその他類似のもの等のスクリプト言語、HTML、XML、wiki markup若しくはWikitext、Wireless Markup Language(WML)等のマークアップ言語、Java Script Object Notion(JSON)、Apache(登録商標)MessagePack(商標)等のデータ交換フォーマット/定義、Cascading Stylesheets(CSS)、拡張スタイルシート言語(XSL)等のスタイルシート言語、Apache(登録商標)Thrift、Abstract Syntax Notation One(ASN.1)、グーグル(登録商標)Protocol Buffers(protobuf)等のインターフェース定義言語(IDL)、或いは本明細書に記載のような専用プログラミング言語及び/若しくは開発ツール、又はその他任意の言語若しくはツール等、その他何らかの好適なプログラミング言語が挙げられる。また、本開示の動作を実行するコンピュータプログラムコードは、本明細書に記載のプログラミング言語の任意の組み合わせにて記述されていてもよい。プログラムコードは、システム900上で全部が実行されるようになっていてもよいし、独立型ソフトウェアパッケージとしてシステム900上で一部が実行されるようになっていてもよいし、システム900上で一部が実行され、リモートコンピュータ(例えば、リモートシステム955)上で一部が実行されるようになっていてもよいし、リモートコンピュータ(例えば、リモートシステム955)上で全部が実行されるようになっていてもよい。後者のシナリオにおいて、リモートコンピュータは、任意の種類のネットワーク(例えば、ネットワーク950)を通じてシステム900に接続されていてもよい。
V.実施例
[101]実施例A01は、メモリ回路と結合されたプロセッサ回路を備えたコンピュータシステムであって、メモリ回路が、フレーム補間ニューラルネットワーク(FINN)のプログラムコードを格納するように構成され、プロセッサ回路が、FINNを動作させることにより、映像フレーム補間用の特徴ピラミッドワーピングを実行するように構成された、コンピュータシステムを含む。
[102]実施例A02は、FINNが、オプティカルフロー推定器(OFE)、特徴ピラミッド抽出器(FPE)、前方ワーピングエンジン(FWE)、及びフレーム合成ニューラルネットワーク(FSN)を備えた、実施例A01及び/又は本明細書の他のいくつかの実施例に記載のコンピュータシステムを含む。
[103]実施例A03は、OFEが、映像フレーム補間用のオプティカルフローによって動き推定を明示的に実行するように構成された、実施例A02及び/又は本明細書の他のいくつかの実施例に記載のコンピュータシステムを含む。
[104]実施例A04は、動き推定を明示的に実行するため、OFEが、2つの入力フレーム間の対応を決定するように構成された、実施例A03及び/又は本明細書の他のいくつかの実施例に記載のコンピュータシステムを含む。
[105]実施例A05は、OFEが、Optical Flow with Convolutional Neural Network 2.0(FlowNet2)及び/又はPyramid,Warping,and Cost volume Neural network(PWC-Net)である、実施例A02~A04及び/又は本明細書の他のいくつかの実施例に記載のコンピュータシステムを含む。
[106]実施例A06は、FPEが、少なくとも2つの入力フレームの1つ又は複数の特徴ピラミッドを抽出するように構成された、実施例A02~A05及び/又は本明細書の他のいくつかの実施例に記載のコンピュータシステムを含む。
[107]実施例A07は、FPEが、特徴空間に対する主成分分析の実行によって、1つ又は複数の特徴ピラミッドの視覚化を生成するように構成された、実施例A06及び/又は本明細書の他のいくつかの実施例に記載のコンピュータシステムを含む。
[108]実施例A08は、FPEが、1つ又は複数の特徴ピラミッドそれぞれとして、少なくとも2つの入力フレームそれぞれに基づいて複数のピラミッドレベルを生成するように構成された、実施例A06、A07及び/又は本明細書の他のいくつかの実施例に記載のコンピュータシステムを含む。
[109]実施例A09は、複数のピラミッドレベルを生成するため、FPEが、複数のストライド畳み込みを用いてダウンサンプリングを実行するように構成され、複数のストライド畳み込みの個々のストライド畳み込みが、複数のピラミッドレベルの個々のピラミッドレベルに対応する、実施例A08及び/又は本明細書の他のいくつかの実施例に記載のコンピュータシステムを含む。
[110]実施例A10は、複数のピラミッドレベルを生成するため、FPEが、複数のストライド畳み込みそれぞれに対する活性化関数として、パラメトリック正規化線形ユニット(PReLU)を使用するように構成された、実施例A08、A09及び/又は本明細書の他のいくつかの実施例に記載のコンピュータシステムを含む。
[111]実施例A11は、FWEが、OFEが出力した推定オプティカルフローに従って、少なくとも2つの入力フレームとともに1つ又は複数の特徴ピラミッドを対象時間位置へとプリワープさせるように構成された、実施例A06~A10及び/又は本明細書の他のいくつかの実施例に記載のコンピュータシステムを含む。
[112]実施例A12は、少なくとも2つの入力フレームとともに1つ又は複数の特徴ピラミッドをプリワープさせるため、FWEが、対象時間位置(t)によりスケーリングされた前方フローに従って少なくとも2つの入力フレームの第1のフレームの特徴ピラミッドをプリワープさせるとともに、1-tによりスケーリングされた後方フローに従って少なくとも2つの入力フレームの第2のフレームの特徴ピラミッドをプリワープさせるように構成された、実施例A11及び/又は本明細書の他のいくつかの実施例に記載のコンピュータシステムを含む。
[113]実施例A13は、FWEが、推定オプティカルフローに従って、少なくとも2つの入力フレームとともに1つ又は複数の特徴ピラミッドを対象時間位置へとワープさせるように構成された、実施例A11、A12及び/又は本明細書の他のいくつかの実施例に記載のコンピュータシステムを含む。
[114]実施例A14は、FWEが、オプティカルフローの再サイズ規定及び再スケーリングによって、複数のピラミッドレベルの個々のピラミッドレベルをワープさせるように構成された、実施例A13及び/又は本明細書の他のいくつかの実施例に記載のコンピュータシステムを含む。
[115]実施例A15は、FSNが、プリワープした入力フレーム及び特徴ピラミッドに基づいて補間結果を生成するように構成された、実施例A12~A14及び/又は本明細書の他のいくつかの実施例に記載のコンピュータシステムを含む。
[116]実施例A16は、FSNが、ワープした特徴ピラミッドの各ピラミッドレベルをチャネルに関して連結するとともに、複数の列を含むグリッドネットワークに連結したピラミッドレベルを入力するように構成され、複数の列のうちの1つ又は複数の列が、ダウンサンプリングを実行し、複数の列のうちの1つ又は複数の他の列が、アップサンプリングを実行する、実施例A15及び/又は本明細書の他のいくつかの実施例に記載のコンピュータシステムを含む。
[117]実施例A17は、プロセッサ回路が、OFE、FPE、FWE、及びFSNのうちの1つ又は複数のプログラムコードを動作させるように構成された少なくとも1つのニューラル処理ユニット(NPU)を含む複数の処理コアを備えた、実施例A01~A16及び/又は本明細書の他のいくつかの実施例に記載のコンピュータシステムを含む。
[118]実施例A18は、少なくとも1つのNPUを含まない複数の処理コアのうちの1つ又は複数の他の処理コアが、少なくとも1つのNPUにより動作していないOFE、FPE、FWE、及びFSNのうちの1つ又は複数のプログラムコードを動作させるように構成された、実施例A17及び/又は本明細書の他のいくつかの実施例に記載のコンピュータシステムを含む。
[119]実施例A19は、少なくとも1つのNPU及び複数の処理コアのうちの他の処理コアが、並列又は順次動作するように構成された、実施例A17、A18及び/又は本明細書の他のいくつかの実施例に記載のコンピュータシステムを含む。
[120]実施例A20は、少なくとも1つのNPUの動作を最適化するため、トレーニングデータ又はトレーニングデータセットが採用された、実施例A17~A19及び/又は本明細書の他のいくつかの実施例に記載のコンピュータシステムを含む。
[121]実施例A21は、プロセッサ回路が、OFE、FPE、FWE、及びFSNのうちの対応する1つを動作させるように構成された1つ又は複数のハードウェアアクセラレータを含む複数のハードウェアアクセラレータを備えた、実施例A01~A16及び/又は本明細書の他のいくつかの実施例に記載のコンピュータシステムを含む。
[122]実施例A22は、プロセッサ回路が、複数のハードウェアアクセラレータと通信可能に結合されたホストプラットフォームの複数の処理コアをさらに備え、これら複数の処理コアが、1つ若しくは複数のハードウェアアクセラレータによるFINNの動作の初期化並びに/又は1つ若しくは複数のハードウェアアクセラレータに対する1つ若しくは複数のタスクのアンロードを行うように構成された、実施例A21及び/又は本明細書の他のいくつかの実施例に記載のコンピュータシステムを含む。
[123]実施例A23は、複数の処理コア及び複数のハードウェアアクセラレータが、並列又は順次動作するように構成された、実施例A21、A22及び/又は本明細書の他のいくつかの実施例に記載のコンピュータシステムを含む。
[124]実施例A24は、複数のハードウェアアクセラレータそれぞれの動作を最適化するため、トレーニングデータ又はトレーニングデータセットが採用された、実施例A21~A23及び/又は本明細書の他のいくつかの実施例に記載のコンピュータシステムを含む。
[125]実施例A25は、複数のハードウェアアクセラレータが、1つ又は複数のデジタル信号プロセッサ(DSP)、プログラマブル論理デバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、及び/又はプログラマブルシステムオンチップ(SoC)を含む、実施例A21~A24及び/又は本明細書の他のいくつかの実施例に記載のコンピュータシステムを含む。
[126]実施例B01は、映像フレーム補間用の特徴ピラミッドワーピングを実行するフレーム補間ニューラルネットワーク(FINN)であって、映像フレーム補間用のオプティカルフローにより少なくとも2つの入力フレームに対して動き推定を明示的に実行するオプティカルフロー推定(OFE)手段と、少なくとも2つの入力フレームの1つ又は複数の特徴ピラミッドを抽出する特徴ピラミッド抽出(FPE)手段と、OFE手段が出力した推定オプティカルフローに従って、少なくとも2つの入力フレームとともに1つ又は複数の特徴ピラミッドを対象時間位置へとプリワープさせる前方ワーピング(FW)手段と、プリワープした入力フレーム及び特徴ピラミッドに基づいて補間結果を生成するフレーム合成ニューラルネットワーク(FSN)手段とを備えた、FINNを含む。
[127]実施例B02は、動き推定を明示的に実行するため、OFE手段が、少なくとも2つの入力フレーム間の対応を決定するものである、実施例B01及び/又は本明細書の他のいくつかの実施例に記載のFINNを含む。
[128]実施例B03は、FPE手段が、特徴空間に対する主成分分析の実行によって、1つ又は複数の特徴ピラミッドの視覚化を生成するものである、実施例B01、B02及び/又は本明細書の他のいくつかの実施例に記載のFINNを含む。
[129]実施例B04は、FPE手段が、1つ又は複数の特徴ピラミッドそれぞれとして、少なくとも2つの入力フレームそれぞれに基づいて複数のピラミッドレベルを生成するものである、実施例B01~B03及び/又は本明細書の他のいくつかの実施例に記載のFINNを含む。
[130]実施例B05は、複数のピラミッドレベルを生成するため、FPE手段が、複数のストライド畳み込みを用いてダウンサンプリングを実行するものであり、複数のストライド畳み込みの個々のストライド畳み込みが、複数のピラミッドレベルの個々のピラミッドレベルに対応する、実施例B04及び/又は本明細書の他のいくつかの実施例に記載のFINNを含む。
[131]実施例B06は、複数のピラミッドレベルを生成するため、FPE手段が、複数のストライド畳み込みそれぞれに対する活性化関数として、パラメトリック正規化線形ユニット(PReLU)を使用するものである、実施例B05及び/又は本明細書の他のいくつかの実施例に記載のFINNを含む。
[132]実施例B07は、少なくとも2つの入力フレームとともに1つ又は複数の特徴ピラミッドをプリワープさせるため、FW手段が、対象時間位置(t)によりスケーリングされた前方フローに従って少なくとも2つの入力フレームの第1のフレームの特徴ピラミッドをプリワープさせるとともに、1-tによりスケーリングされた後方フローに従って少なくとも2つの入力フレームの第2のフレームの特徴ピラミッドをプリワープさせるものである、実施例B01~B06及び/又は本明細書の他のいくつかの実施例に記載のFINNを含む。
[133]実施例B08は、FW手段が、推定オプティカルフローに従って、少なくとも2つの入力フレームとともに1つ又は複数の特徴ピラミッドを対象時間位置へとワープさせるものである、実施例B07及び/又は本明細書の他のいくつかの実施例に記載のFINNを含む。
[134]実施例B09は、FW手段が、オプティカルフローの再サイズ規定及び再スケーリングによって、複数の特徴ピラミッドの個々のピラミッドレベルをワープさせるものである、実施例B08及び/又は本明細書の他のいくつかの実施例に記載のFINNを含む。
[135]実施例B10は、FSN手段が、ワープした特徴ピラミッドの各ピラミッドレベルをチャネルに関して連結するとともに、複数の列を含むグリッドネットワークに連結したピラミッドレベルを入力するものであり、複数の列のうちの1つ又は複数の列が、ダウンサンプリングを実行し、複数の列のうちの1つ又は複数の他の列が、アップサンプリングを実行する、実施例B01~B09及び/又は本明細書の他のいくつかの実施例、及び/又は本明細書の他のいくつかの実施例に記載のFINNを含む。
[136]実施例D01は、複数の処理コアを備えた集積回路(IC)であって、複数の処理コアのうちの少なくとも1つが、映像フレーム補間用の特徴ピラミッドワーピングを実行するフレーム補間ニューラルネットワーク(FINN)を動作させるように構成されたニューラル処理ユニット(NPU)を含む、集積回路(IC)を含む。
[137]実施例D02は、FINNが、オプティカルフロー推定器(OFE)、特徴ピラミッド抽出器(FPE)、前方ワーピングエンジン(FWE)、及びフレーム合成ニューラルネットワーク(FSN)を備え、NPUが、OFE、FPE、FWE、及びFSNのうちの1つ又は複数のプログラムコードを動作させるように構成された、実施例D01及び/又は本明細書の他のいくつかの実施例に記載のICを含む。実施例D03は、OFEが、映像フレーム補間用のオプティカルフローによって動き推定を明示的に実行するように構成された、実施例D02及び/又は本明細書の他のいくつかの実施例に記載のICを含む。実施例D04は、動き推定を明示的に実行するため、OFEが、2つの入力フレーム間の対応を決定するように構成された、実施例D03及び/又は本明細書の他のいくつかの実施例に記載のICを含む。実施例D05は、OFEが、Optical Flow with Convolutional Neural Network 2.0(FlowNet2)及び/又はPyramid,Warping,and Cost volume Neural network(PWC-Net)である、実施例D02~D04及び/又は本明細書の他のいくつかの実施例に記載のICを含む。実施例D06は、FPEが、少なくとも2つの入力フレームの1つ又は複数の特徴ピラミッドを抽出するように構成された、実施例D02~D05及び/又は本明細書の他のいくつかの実施例に記載のICを含む。実施例D07は、FPEが、特徴空間に対する主成分分析の実行によって、1つ又は複数の特徴ピラミッドの視覚化を生成するように構成された、実施例D06及び/又は本明細書の他のいくつかの実施例に記載のICを含む。実施例D08は、FPEが、1つ又は複数の特徴ピラミッドそれぞれとして、少なくとも2つの入力フレームのそれぞれの入力フレームに基づいて複数のピラミッドレベルを生成するように構成された、実施例D06、D07及び/又は本明細書の他のいくつかの実施例に記載のICを含む。実施例D09は、複数のピラミッドレベルを生成するため、FPEが、複数のストライド畳み込みを用いてダウンサンプリングを実行するように構成され、複数のストライド畳み込みの個々のストライド畳み込みが、複数のピラミッドレベルの個々のピラミッドレベルに対応する、実施例D08及び/又は本明細書の他のいくつかの実施例に記載のICを含む。実施例D10は、複数のピラミッドレベルを生成するため、FPEが、複数のストライド畳み込みそれぞれに対する活性化関数として、パラメトリック正規化線形ユニット(PReLU)を使用するように構成された、実施例D08、D09及び/又は本明細書の他のいくつかの実施例に記載のICを含む。実施例D11は、FWEが、OFEが出力した推定オプティカルフローに従って、少なくとも2つの入力フレームとともに1つ又は複数の特徴ピラミッドを対象時間位置へとプリワープさせるように構成された、実施例D06~D10及び/又は本明細書の他のいくつかの実施例に記載のICを含む。
[138]実施例D12は、少なくとも2つの入力フレームとともに1つ又は複数の特徴ピラミッドをプリワープさせるため、FWEが、対象時間位置(t)によりスケーリングされた前方フローに従って少なくとも2つの入力フレームの第1のフレームの特徴ピラミッドをプリワープさせるとともに、1-tによりスケーリングされた後方フローに従って少なくとも2つの入力フレームの第2のフレームの特徴ピラミッドをプリワープさせるように構成された、実施例D11及び/又は本明細書の他のいくつかの実施例に記載のICを含む。
[139]実施例D13は、FWEが、推定オプティカルフローに従って、少なくとも2つの入力フレームとともに1つ又は複数の特徴ピラミッドを対象時間位置へとワープさせるように構成された、実施例D11、D12及び/又は本明細書の他のいくつかの実施例に記載のICを含む。実施例D14は、FWEが、オプティカルフローの再サイズ規定及び再スケーリングによって、複数の特徴ピラミッドの個々のピラミッドレベルをワープさせるように構成された、実施例D13及び/又は本明細書の他のいくつかの実施例に記載のICを含む。実施例D15は、FSNが、プリワープした入力フレーム及び特徴ピラミッドに基づいて補間結果を生成するように構成された、実施例D12~D14及び/又は本明細書の他のいくつかの実施例に記載のICを含む。実施例D16は、FSNが、ワープした特徴ピラミッドの各ピラミッドレベルをチャネルに関して連結するとともに、複数の列を含むグリッドネットワークに連結したピラミッドレベルを入力するように構成され、複数の列のうちの1つ又は複数の列が、ダウンサンプリングを実行し、複数の列のうちの1つ又は複数の他の列が、アップサンプリングを実行する、実施例D15及び/又は本明細書の他のいくつかの実施例に記載のICを含む。実施例D17は、少なくとも1つのNPUを含まない複数の処理コアのうちの1つ又は複数の他の処理コアが、少なくとも1つのNPUにより動作していないOFE、FPE、FWE、及びFSNのうちの1つ又は複数のプログラムコードを動作させるように構成された、実施例D01~D16及び/又は本明細書の他のいくつかの実施例に記載のICを含む。
[140]実施例D18は、少なくとも1つのNPU及び複数の処理コアのうちの他の処理コアが、並列又は順次動作するように構成された、実施例D01~D17及び/又は本明細書の他のいくつかの実施例に記載のICを含む。
[141]実施例D19は、少なくとも1つのNPUの動作を最適化するため、トレーニングデータ又はトレーニングデータセットが採用された、実施例D01~D18及び/又は本明細書の他のいくつかの実施例に記載のICを含む。
[142]実施例D20は、FINNのプログラムコードを格納するように構成されたメモリ回路をさらに備えたシステムオンチップ(SoC)である、実施例D01~D019及び/又は本明細書の他のいくつかの実施例に記載のICを含む。
[143]実施例E01は、フレーム補間ニューラルネットワーク(FINN)を動作させることにより映像フレーム補間用の特徴ピラミッドワーピングを実行するように構成された半導体デバイスを含む。
[144]実施例E02は、FINNが、オプティカルフロー推定器(OFE)、特徴ピラミッド抽出器(FPE)、前方ワーピングエンジン(FWE)、及びフレーム合成ニューラルネットワーク(FSN)を備えた、実施例E01及び/又は本明細書の他のいくつかの実施例に記載の半導体デバイスを含む。
[145]実施例E03は、OFEを動作させることにより、映像フレーム補間用のオプティカルフローによって動き推定を明示的に実行するように構成された、実施例E02及び/又は本明細書の他のいくつかの実施例に記載の半導体デバイスを含む。
[146]実施例E04は、動き推定を明示的に実行するため、OFEを動作させることにより、2つの入力フレーム間の対応を決定するように構成された、実施例E03及び/又は本明細書の他のいくつかの実施例に記載の半導体デバイスを含む。
[147]実施例E05は、OFEが、Optical Flow with Convolutional Neural Network 2.0(FlowNet2)及び/又はPyramid,Warping,and Cost volume Neural network(PWC-Net)である、実施例E02~E04及び/又は本明細書の他のいくつかの実施例に記載の半導体デバイスを含む。
[148]実施例E06は、FPEを動作させることにより、少なくとも2つの入力フレームの1つ又は複数の特徴ピラミッドを抽出するように構成された、実施例E02~E05及び/又は本明細書の他のいくつかの実施例に記載の半導体デバイスを含む。
[149]実施例E07は、FPEを動作させることにより、特徴空間に対する主成分分析の実行によって、1つ又は複数の特徴ピラミッドの視覚化を生成するように構成された、実施例E06及び/又は本明細書の他のいくつかの実施例に記載の半導体デバイスを含む。
[150]実施例E08は、FPEを動作させることにより、1つ又は複数の特徴ピラミッドそれぞれとして、少なくとも2つの入力フレームのそれぞれの入力フレームに基づいて複数のピラミッドレベルを生成するように構成された、実施例E06、E07及び/又は本明細書の他のいくつかの実施例に記載の半導体デバイスを含む。
[151]実施例E09は、複数のピラミッドレベルを生成するため、FPEを動作させることにより、複数のストライド畳み込みを用いてダウンサンプリングを実行するように構成され、複数のストライド畳み込みの個々のストライド畳み込みが、複数のピラミッドレベルの個々のピラミッドレベルに対応する、実施例E08及び/又は本明細書の他のいくつかの実施例、及び/又は本明細書の他のいくつかの実施例に記載の半導体デバイスを含む。
[152]実施例E10は、複数のピラミッドレベルを生成するため、FPEを動作させることにより、複数のストライド畳み込みそれぞれに対する活性化関数として、パラメトリック正規化線形ユニット(PReLU)を使用するように構成された、実施例E08、E09及び/又は本明細書の他のいくつかの実施例に記載の半導体デバイスを含む。
[153]実施例E11は、FWEを動作させることにより、OFEが出力した推定オプティカルフローに従って、少なくとも2つの入力フレームとともに1つ又は複数の特徴ピラミッドを対象時間位置へとプリワープさせるように構成された、実施例E06~E10及び/又は本明細書の他のいくつかの実施例に記載の半導体デバイスを含む。
[154]実施例E12は、少なくとも2つの入力フレームとともに1つ又は複数の特徴ピラミッドをプリワープさせるため、FWEを動作させることにより、対象時間位置(t)によりスケーリングされた前方フローに従って少なくとも2つの入力フレームの第1のフレームの特徴ピラミッドをプリワープさせるとともに、1-tによりスケーリングされた後方フローに従って少なくとも2つの入力フレームの第2のフレームの特徴ピラミッドをプリワープさせるように構成された、実施例E11及び/又は本明細書の他のいくつかの実施例に記載の半導体デバイスを含む。
[155]実施例E13は、FWEを動作させることにより、推定オプティカルフローに従って、少なくとも2つの入力フレームとともに1つ又は複数の特徴ピラミッドを対象時間位置へとワープさせるように構成された、実施例E11、E12及び/又は本明細書の他のいくつかの実施例に記載の半導体デバイスを含む。
[156]実施例E14は、FWEを動作させることにより、オプティカルフローの再サイズ規定及び再スケーリングによって、複数のピラミッドレベルの個々のピラミッドレベルをワープさせるように構成された、実施例E13及び/又は本明細書の他のいくつかの実施例に記載の半導体デバイスを含む。
[157]実施例E15は、FSNを動作させることにより、プリワープした入力フレーム及び特徴ピラミッドに基づいて補間結果を生成するように構成された、実施例E12~E14及び/又は本明細書の他のいくつかの実施例に記載の半導体デバイスを含む。
[158]実施例E16は、FSNを動作させることにより、ワープした特徴ピラミッドの各ピラミッドレベルをチャネルに関して連結するとともに、複数の列を含むグリッドネットワークに連結したピラミッドレベルを入力するように構成され、複数の列のうちの1つ又は複数の列が、ダウンサンプリングを実行し、複数の列のうちの1つ又は複数の他の列が、アップサンプリングを実行する、実施例E15及び/又は本明細書の他のいくつかの実施例に記載の半導体デバイスを含む。
[159]実施例E17は、半導体デバイスの動作を最適化するため、トレーニングデータ又はトレーニングデータセットが採用された、実施例E01~E16及び/又は本明細書の他のいくつかの実施例に記載のコンピュータシステムを含む。
[160]実施例E18は、1つ又は複数のハードウェアアクセラレータを備えた、実施例E01~E17及び/又は本明細書の他のいくつかの実施例に記載の半導体デバイスを含む。
[161]実施例E19は、1つ又は複数のハードウェアアクセラレータが、1つ又は複数のデジタル信号プロセッサ(DSP)、プログラマブル論理デバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、及び/又はプログラマブルシステムオンチップ(SoC)を含む、実施例E18及び/又は本明細書の他のいくつかの実施例に記載のコンピュータシステムを含む。
[162]実施例E20は、1つ又は複数のカスタム設計の人工知能シリコンプロセッサコアを備えた、実施例E01~E17及び/又は本明細書の他のいくつかの実施例に記載の半導体デバイスを含む。
[163]実施例F01は、フレーム補間ニューラルネットワーク(FINN)を動作させるように構成された集積回路(IC)パッケージであって、映像の第1の入力フレームから始まって第2の入力フレームで終わる期間において第2の入力フレームを生成するように第1の入力フレーム中のピクセルが変更される様子を示す前方オプティカルフローと、第1の入力フレームから始まって第2の入力フレームで終わる期間において第1の入力フレームを生成するように第2の入力フレーム中のピクセルが変更される様子を示す後方オプティカルフローと、を第1の入力フレーム及び第2の入力フレームから推定するように構成されたオプティカルフロー推定(OFE)回路と、複数の解像度のそれぞれの解像度において第1の入力フレームから抽出された特徴の第1の組を含む第1の特徴ピラミッドを第1の入力フレームから抽出するとともに、複数の解像度のそれぞれの解像度において第2の入力フレームから抽出された特徴の第2の組を含む第2の特徴ピラミッドを第2の入力フレームから抽出するように構成された特徴ピラミッド抽出(FPE)回路と、第1及び第2の特徴ピラミッドを第1及び第2の入力フレームにそれぞれ適用することにより、前方及び後方オプティカルフローに基づいて、第1及び第2の入力フレーム間の時間位置で出力フレームを生成するように構成されたフレーム合成ニューラルネットワーク(FSN)回路と、を備えた、ICパッケージを含む。
[164]実施例F02は、FPE回路が、同じ設定を第1及び第2の入力フレームに適用して、第1及び第2の特徴ピラミッドをそれぞれ抽出するようにさらに構成された、実施例F01並びに/又は本明細書の1つ若しくは複数の他の実施例に記載のICパッケージを含む。
[165]実施例F03は、特徴の第1の組における少なくとも一部の特徴及び特徴の第2の組における少なくとも一部の特徴が、第1及び第2の入力フレームの色空間に基づく、実施例F01、F02並びに/又は本明細書の1つ若しくは複数の他の実施例に記載のICパッケージを含む。
[166]実施例F04は、出力フレームが、第1及び第2の入力フレームからそれぞれシフトされた第1及び第2の入力フレームのピクセルを含むことにより、第1の入力フレームから対象時間位置までと、対象時間位置から第2の入力フレームまでに起こる動きを複製する、実施例F01~F03並びに/又は本明細書の1つ若しくは複数の他の実施例に記載のICパッケージを含む。
[167]実施例F05は、FPE回路が、第1及び第2の入力フレームから抽出された特徴に基づいて、複数の解像度それぞれにおいて第1及び第2の入力フレームを生成するようにさらに構成された、実施例F01~F04並びに/又は本明細書の1つ若しくは複数の他の実施例に記載のICパッケージを含む。
[168]実施例F06は、第1及び第2の特徴ピラミッドを抽出するため、FPE回路が、各解像度において、第1及び第2の入力フレームからある数の入力特徴を読み出すことと、第1及び第2の入力フレームそれぞれについて、ある数の入力特徴からある数の出力特徴を生成することと、を行うようにさらに構成された、実施例F01~F05並びに/又は本明細書の1つ若しくは複数の他の実施例に記載のICパッケージを含む。
[169]実施例F07は、FPE回路が、活性化関数回路とインターリーブされ、各解像度での第1及び第2の入力フレームの一方又は両方の畳み込みによって、複数の解像度のそれぞれの解像度で第1及び第2の入力フレームから特徴の組を抽出するように構成された畳み込み回路を備えた、実施例F06並びに/又は本明細書の1つ若しくは複数の他の実施例に記載のICパッケージを含む。
[170]実施例F08は、前方オプティカルフローを用いて、第1の特徴ピラミッドを第2の特徴ピラミッドに向かってワープさせることと、後方オプティカルフローを用いて、第2の特徴ピラミッドを第1の特徴ピラミッドに向かってワープさせることと、を行うように構成された前方ワーピング(FW)回路をさらに備えた、実施例F01~F07並びに/又は本明細書の1つ若しくは複数の他の実施例に記載のICパッケージを含む。
[171]実施例F09は、出力フレームを生成するため、FSN回路が、ワープした特徴ピラミッド並びに第1及び第2の入力フレームのワープ形式から補間結果を予測するように構成された、実施例F08並びに/又は本明細書の1つ若しくは複数の他の実施例に記載のICパッケージを含む。
[172]実施例F10は、FPE回路が、予測された補間結果を用いて、第1及び第2の特徴ピラミッドの特徴と異なる特徴の一組を含む新たな特徴ピラミッドを各入力フレームから抽出するようにさらに構成された、実施例F09並びに/又は本明細書の1つ若しくは複数の他の実施例に記載のICパッケージを含む。
[173]実施例F11は、FSN回路が、処理ブロックのグリッドを備え、処理ブロックのグリッド中の各行が、解像度の組のうちの1つの解像度に対応する、実施例F09、F10並びに/又は本明細書の1つ若しくは複数の他の実施例に記載のICパッケージを含む。
[174]実施例F12は、各行中の第1の処理ブロックが、第1及び第2の特徴ピラミッドにおける対応する解像度において、ワープした一組の特徴を受け取るように構成された、実施例F11並びに/又は本明細書の1つ若しくは複数の他の実施例に記載のICパッケージを含む。
[175]実施例F13は、抽出された第1及び第2の特徴ピラミッドが、第1及び第2の入力フレームの色空間に基づく、実施例F01~F12並びに/又は本明細書の1つ若しくは複数の他の実施例に記載のICパッケージを含む。
[176]実施例F14は、FPE回路が、2番目に低い解像度における第1及び第2の入力フレームから抽出された特徴に基づいて、又は2番目に高い解像度における第1及び第2の入力フレームから抽出された特徴に基づいて、複数の解像度それぞれにおいて第1及び第2の入力フレームを生成するようにさらに構成された、実施例F01~F13並びに/又は本明細書の1つ若しくは複数の他の実施例に記載のICパッケージを含む。
[177]実施例F15は、第1及び第2の特徴ピラミッドを抽出するため、FPE回路が、各解像度において、第1及び第2の入力フレームからある数の入力特徴を読み出すことと、ある数の入力特徴からある数の出力特徴を生成することと、を行うようにさらに構成された、実施例F01~F14並びに/又は本明細書の1つ若しくは複数の他の実施例に記載のICパッケージを含む。
[178]実施例F16は、第1及び第2の特徴ピラミッドを抽出するため、FPE回路が、入力フレームからある数の入力特徴(その色等)を読み出すことと、複数の解像度において、ある数の入力特徴からある数の出力特徴を生成することと、を行うようにさらに構成された、実施例F01~F15並びに/又は本明細書の1つ若しくは複数の他の実施例に記載のICパッケージを含む。
[179]実施例F17は、OFE回路、FPE回路、FSN回路、及びFW回路が、相互接続技術によって相互に結合されるとともに、システムインパッケージ(SiP)若しくはマルチチップパッケージ(MCP)の各ダイ、汎用プロセッサの各実行ユニット若しくはプロセッサコア、又は各デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、プログラマブル論理デバイス(PLD)、システムオンチップ(SoC)、グラフィックス処理ユニット(GPU)、SiP、MCP、若しくはDSP、FPGA、ASIC、PLD、SoC、GPU、SiP、及びMCPの任意の組み合わせ、として実装された、実施例F01~F16並びに/又は本明細書の1つ若しくは複数の他の実施例に記載のICパッケージを含む。
[180]実施例G01は、フレーム補間ニューラルネットワーク(FINN)の命令を含む1つ又は複数のコンピュータ可読媒体(CRM)であって、1つ又は複数のプロセッサによる命令の実行が、映像の第1の入力フレーム及び第2の入力フレームを取得することと、第1の入力フレームから始まって第2の入力フレームで終わる期間において第2の入力フレームを生成するように第1の入力フレーム中のピクセルが変更される様子を示す前方オプティカルフローと、第1の入力フレームから始まって第2の入力フレームで終わる期間において第1の入力フレームを生成するように第2の入力フレーム中のピクセルが変更される様子を示す後方オプティカルフローと、を第1及び第2の入力フレームから推定することと、複数の解像度のそれぞれの解像度において第1の入力フレームから抽出された特徴の第1の組を含む第1の特徴ピラミッドを第1の入力フレームから抽出するとともに、複数の解像度のそれぞれの解像度において第2の入力フレームから抽出された特徴の第2の組を含む第2の特徴ピラミッドを第2の入力フレームから抽出することと、前方オプティカルフローを用いて、第1の特徴ピラミッドを第2の特徴ピラミッドに向かってワープさせることと、後方オプティカルフローを用いて、第2の特徴ピラミッドを第1の特徴ピラミッドに向かってワープさせることと、ワープした第1及び第2の特徴ピラミッドに基づいて、第1及び第2の入力フレーム間の時間位置で出力フレームを生成することと、を1つ又は複数のプロセッサに行わせる、CRMを含む。
[181]実施例G02は、第1及び特徴の第2の組がそれぞれ、第1及び第2の入力フレームの色空間に基づく、実施例G01並びに/又は本明細書の1つ若しくは複数の他の実施例に記載のCRMを含む。
[182]実施例G03は、命令の実行が、各解像度において、第1及び第2の入力フレームからある数の入力特徴を読み出すことと、各解像度において、ある数の入力特徴からある数の出力特徴を生成することであり、各解像度における出力特徴が、入力特徴の異なるオクターブを表すとともに、数が変化する、ことと、を1つ又は複数のプロセッサにさらに行わせる、実施例G01、G02並びに/又は本明細書の1つ若しくは複数の他の実施例に記載のCRMを含む。
[183]実施例G04は、FINNが、複数の活性化関数とインターリーブされた複数の畳み込み関数を含み、命令の実行が、畳み込み関数を演算して、各解像度において第1及び第2の入力フレームを畳み込むことと、活性化関数を演算して、畳み込まれた第1及び第2の入力フレームから個々の特徴を抽出することと、を1つ又は複数のプロセッサに行わせる、実施例G03並びに/又は本明細書の1つ若しくは複数の他の実施例に記載のCRMを含む。
[184]実施例G05は、出力フレームを生成するため、命令の実行が、ワープした特徴ピラミッド並びに第1及び第2の入力フレームのワープ形式から補間結果を予測することを1つ又は複数のプロセッサに行わせる、実施例G01~G04並びに/又は本明細書の1つ若しくは複数の他の実施例に記載のCRMを含む。
[185]実施例G06は、FINNが、処理ブロックのグリッドを備えたフレーム合成ニューラルネットワークを含み、処理ブロックのグリッド中の各行が、複数の解像度のうちの1つの解像度に対応し、命令の実行が、ワープした第1及び第2の特徴ピラミッドを連結し、連結した特徴ピラミッドが各解像度において第1及び第2の入力フレームから抽出された特徴を含むことと、各解像度において第1及び第2の入力フレームから抽出された特徴を各行の各入力処理ブロックに入力することと、を1つ又は複数のプロセッサに行わせる、実施例G01~G05並びに/又は本明細書の1つ若しくは複数の他の実施例に記載のCRMを含む。
[186]実施例H01は、オプティカルフロー推定器(OFE)、特徴ピラミッド抽出器(FPE)、前方ワーピングエンジン(FWE)、及びフレーム合成ニューラルネットワーク(FSN)を備えたフレーム補間ニューラルネットワーク(FINN)のプログラムコードを格納するように構成されたメモリ回路と結合されたプロセッサ回路を備え、プロセッサ回路が、OFEを動作させることにより、補間対象の映像の第1の入力フレームから始まって第2の入力フレームで終わる期間において第2の入力フレームを生成するように第1の入力フレーム中のピクセルが変更される様子を示す前方オプティカルフローと、第1の入力フレームから始まって第2の入力フレームで終わる期間において第1の入力フレームを生成するように第2の入力フレーム中のピクセルが変更される様子を示す後方オプティカルフローと、を第1及び第2の入力フレームから推定するように構成され、プロセッサ回路が、FPEを動作させることにより、複数の解像度のそれぞれの解像度において第1の入力フレームから抽出された特徴の第1の組を含む第1の特徴ピラミッドを第1の入力フレームから抽出するとともに、複数の解像度のそれぞれの解像度において第2の入力フレームから抽出された特徴の第2の組を含む第2の特徴ピラミッドを第2の入力フレームから抽出するように構成され、プロセッサ回路が、FWEを動作させることにより、前方オプティカルフローを用いて、第1の特徴ピラミッドを第2の特徴ピラミッドに向かってワープさせるとともに、後方オプティカルフローを用いて、第2の特徴ピラミッドを第1の特徴ピラミッドに向かってワープさせるように構成され、プロセッサ回路が、FSNを動作させることにより、ワープした第1及び第2の特徴ピラミッドに基づいて、第1及び第2の入力フレーム間の所望の時間位置で出力フレームを生成するように構成されており、出力フレームが、第1及び第2の入力フレームからそれぞれシフトされた第1及び第2の入力フレームのピクセルを含むことにより、第1の入力フレームから対象時間位置までと、対象時間位置から第2の入力フレームまでに起こる動きを複製する、コンピュータシステムを含む。
[187]実施例H02は、プロセッサ回路が、FPEを動作させることにより、各解像度において、第1及び第2の入力フレームの一方又は両方からある数の入力特徴を読み出すことと、各解像度において、ある数の入力特徴からある数の出力特徴を生成することであり、各解像度における出力特徴が、入力特徴の異なるオクターブを表すとともに、数が変化する、ことと、を行うようにさらに構成された、実施例H01並びに/又は本明細書の1つ若しくは複数の他の実施例に記載のコンピュータシステムを含む。
[188]実施例H03は、FPEが、複数の活性化関数とインターリーブされた複数の畳み込み関数を含み、プロセッサ回路が、FPEを動作させることにより、畳み込み関数を演算して、各解像度において第1及び第2の入力フレームを畳み込むことと、活性化関数を演算して、畳み込まれた第1及び第2の入力フレームから個々の特徴を抽出することと、を行うようにさらに構成された、実施例H01、H02並びに/又は本明細書の1つ若しくは複数の他の実施例に記載のコンピュータシステムを含む。
[189]実施例H04は、出力フレームを生成するため、プロセッサ回路が、FSNを動作させることにより、ワープした特徴ピラミッド並びに第1及び第2の入力フレームのワープ形式から補間結果を予測するようにさらに構成された、実施例H01~H03並びに/又は本明細書の1つ若しくは複数の他の実施例に記載のコンピュータシステムを含む。
[190]実施例H05は、FSNが、処理ブロックのグリッドを備え、処理ブロックのグリッド中の各行が、解像度の組のうちの1つの解像度に対応する、実施例H04並びに/又は本明細書の1つ若しくは複数の他の実施例に記載のコンピュータシステムを含む。
[191]実施例H06は、システムインパッケージ(SiP)、マルチチップパッケージ(MCP)、システムオンチップ(SoC)、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、プログラマブル論理デバイス(PLD)、中央演算処理装置(CPU)、グラフィックス処理ユニット(GPU)であるか、又は、相互に接続されたSiP、MCP、SoC、DSP、FPGA、ASIC、PLD、CPU、GPUのうちの2つ以上を含む、実施例H01~H05並びに/又は本明細書の1つ若しくは複数の他の実施例に記載のコンピュータシステムを含む。
[192]実施例X01は、映像補間を実行する命令を含む1つ又は複数のCRMであって、コンピュータシステムの1つ又は複数のプロセッサによる命令の実行が、第1の解像度における映像の第1の入力フレーム及び第2の入力フレームを取得することと、第1の入力フレームから始まって第2の入力フレームで終わる期間において第2の入力フレームを生成するように第1の入力フレーム中のピクセルが変化する様子を示す第1の入力フレームから第2の入力フレームへの前方オプティカルフローを推定することと、第1の入力フレームから始まって第2の入力フレームで終わる期間において第1の入力フレームを生成するように第2の入力フレーム中のピクセルが変化する様子を示す第2の入力フレームから第1の入力フレームへの後方オプティカルフローを推定することと、前方オプティカルフローを用いて、第1の入力フレームを第2の入力フレームに向かってワープさせることと、後方オプティカルフローを用いて、第2の入力フレームを第1の入力フレームに向かってワープさせることと、第1の解像度と異なる複数の解像度において、第1及び第2の入力フレームから特徴の組を抽出することと、をコンピュータシステムに行わせる、CRMを含む。実施例X01は、先行実施例のうちの1つ若しくは複数並びに/又は本明細書の他の実施形態と組み合わされるようになっていてもよい。
[193]実施例Z01は、実施例A01~X01のいずれかに記載若しくは関連する方法又は本明細書に記載のその他任意の方法若しくはプロセスの1つ又は複数の要素を実行する手段を備えた装置を含んでいてもよい。実施例Z02は、電子デバイスの1つ又は複数のプロセッサによる命令の実行に際して、実施例A01~X01のいずれかに記載若しくは関連する方法又は本明細書に記載のその他任意の方法若しくはプロセスの1つ又は複数の要素を電子デバイスに実行させる命令を含む1つ又は複数の非一時的コンピュータ可読媒体を含んでいてもよい。実施例Z03は、実施例A01~X01のいずれかに記載若しくは関連する方法又は本明細書に記載のその他任意の方法若しくはプロセスの1つ又は複数の要素を実行するロジック、モジュール、又は回路を備えた装置を含んでいてもよい。実施例Z04は、実施例A01~X01のいずれか又はその一部若しくは部分に記載又は関連するような方法、技術、又はプロセスを含んでいてもよい。実施例Z05は、1つ又は複数のプロセッサと、1つ又は複数のプロセッサにより実行された場合に、実施例A01~X01のいずれか又はその一部に記載又は関連するような方法、技術、又はプロセスを1つ又は複数のプロセッサに実行させる命令を含む1つ又は複数のコンピュータ可読媒体と、を備えた装置を含んでいてもよい。実施例Z06は、実施例A01~X01のいずれか又はその一部若しくは部分に記載又は関連するような信号を含んでいてもよい。実施例Z07は、実施例A01~X01のいずれか又はその一部若しくは部分に記載又は関連、或いは本開示に記載するようなデータグラム、パケット、フレーム、セグメント、プロトコルデータユニット(PDU)、又はメッセージを含んでいてもよい。実施例Z08は、実施例A01~X01のいずれか又はその一部若しくは部分に記載又は関連、或いは本開示に記載するようなデータが符号化された信号を含んでいてもよい。実施例Z09は、実施例A01~X01のいずれか又はその一部若しくは部分に記載又は関連、或いは本開示に記載するようなデータグラム、パケット、フレーム、セグメント、プロトコルデータユニット(PDU)、又はメッセージが符号化された信号を含んでいてもよい。実施例Z10は、コンピュータ可読命令を搬送する電磁信号であって、1つ又は複数のプロセッサによるコンピュータ可読命令の実行が、実施例A01~X01のいずれか又はその一部に記載又は関連するような方法、技術、又はプロセスを1つ又は複数のプロセッサに実行させる、電磁信号を含んでいてもよい。実施例Z11は、命令を含むコンピュータプログラムであって、処理要素によるプログラムの実行が、実施例A01~X01のいずれか又はその一部に記載又は関連するような方法、技術、又はプロセスを処理要素に実行させる、コンピュータプログラムを含んでいてもよい。実施例Z12は、本明細書に図示及び記載するような無線ネットワークにおける信号を含んでいてもよい。実施例Z13は、本明細書に図示及び記載するような無線ネットワークにおける通信の方法を含んでいてもよい。実施例Z14は、本明細書に図示及び記載するような無線通信を提供するシステムを含んでいてもよい。実施例Z15は、本明細書に図示及び記載するような無線通信を提供するデバイスを含んでいてもよい。
[194]以上の詳細な説明においては、本明細書の一部を構成する添付の図面を参照したが、図面全体を通して、同じ部分には同じ番号を付すとともに、実現可能な実施形態を一例として示している。本開示の範囲から逸脱することなく、他の実施形態の利用並びに構造若しくは論理の変更が可能であることが了解される。したがって、詳細な説明は、限定的な意味で捉えられるべきものではなく、実施形態の範囲は、添付の特許請求の範囲及びその同等物により規定される。
[195]特許請求の範囲に係る主題の理解に最も役立つように、様々な動作を複数の離散動作又は順次動作として記述可能である。ただし、記述の順序は、これらの動作が必然的に順序依存的であることを暗示するようには解釈されないものとする。特に、これらの動作は、提示の順序で実施されなくてもよい。記述の動作は、上記実施形態と異なる順序で実行されるようになっていてもよい。別の実施形態においては、様々な追加動作の実行及び/又は記述した動作の省略も可能である。
[196]本開示を目的として、表現「A及び/又はB(A and/or B)」は、「A」、「B」、又は「A及びB」を意味する。本開示を目的として、表現「A、B、及び/又はC(A,B,and/or C)」は、「A」、「B」、「C」、「A及びB」、「A及びC」、「B及びC」、又は「A、B、及びC」を意味する。本開示では「a」若しくは「第1(a first)」要素又はその同等物を列挙しているが、このような開示は、1つ又は複数のこのような要素を含み、2つ以上のこのような要素を必要も除外もするものではない。さらに、識別要素の序数(例えば、第1、第2、又は第3)は、要素の識別のために使用しており、別段の具体的な記述のない限り、このような要素の必要数又は限定数を示唆も暗示もしておらず、また、このような要素の特定の位置も順序も示唆していない。
[197]上記説明では、表現「一実施形態において(in an embodiment)」又は「実施形態において(in embodiments)」を使用する場合もあるが、それぞれ、同じ実施形態又は異なる実施形態のうちの1つ又は複数を表し得る。さらに、用語「備える(comprising)」、「含む(including)」、「有する(having)」等は、本開示の実施形態に関する使用においては同義である。本開示では「a」若しくは「第1(a first)」要素又はその同等物を列挙しているが、このような開示は、1つ又は複数のこのような要素を含み、2つ以上のこのような要素を必要も除外もするものではない。さらに、識別要素の序数(例えば、第1、第2、又は第3)は、要素の識別のために使用しており、別段の具体的な記述のない限り、このような要素の必要数又は限定数を示唆も暗示もしておらず、また、このような要素の特定の位置も順序も示唆していない。
[198]本明細書においては、用語「結合(coupled)」、「通信結合(communicatively coupled)」をそれぞれの派生語とともに使用している。用語「結合(coupled)」は、2つ以上の要素が相互に直接、物理的若しくは電気的に接触すること、2つ以上の要素が互いに間接的に接触する一方、依然として互いに協働若しくは相互作用すること、並びに/又は互いに結合されている対象要素間に1つ若しくは複数の他の要素が結合若しくは接続されることを意味し得る。用語「直接結合(directly coupled)」は、2つ以上の要素が相互に直接接触することを意味し得る。用語「通信結合(communicatively coupled)」は、有線等の相互接続、無線通信チャネル若しくはリンク、並びに/又はその他類似のものを含む通信手段によって、2つ以上の要素が相互に接触可能なことを意味し得る。
[199]本明細書において、用語「回路(circuitry)」は、電子デバイスにおいて特定の機能を実行するように構成された回路又は複数の回路から成るシステムを表す。回路又は回路から成るシステムは、上記機能を提供するように構成された論理回路、プロセッサ(共有、専用、又はグループ)、及び/又はメモリ(共有、専用、又はグループ)等、1つ又は複数のハードウェアコンポーネントの一部であってもよいし、1つ又は複数のハードウェアコンポーネントを含んでいてもよい。また、用語「回路(circuitry)」は、プログラムコードの機能の実行に用いられる1つ又は複数のハードウェア要素と当該プログラムコードとの組み合わせを表し得る。いくつかの種類の回路が1つ又は複数のソフトウェア又はファームウェアプログラムを実行して、上記機能の少なくとも一部を提供するようにしてもよい。このようなハードウェア要素とプログラムコードとの組み合わせは、特定種類の回路と称する場合もある。本明細書において、用語「モジュール(module)」は、コンピュータシステムにおいて基本機能を提供するように構成された配線板、SoC、システムインパッケージ(SiP)等の上にパッケージングされた1つ又は複数の独立した電子回路を表し得る。用語「モジュール(module)」は、1つ又は複数のソフトウェア又はファームウェアプログラムを実行するFPD、ASIC、プロセッサ(共有、専用、若しくはグループ)、及び/若しくはメモリ(共有、専用、若しくはグループ)、組み合わせ論理回路、並びに/又は上記機能を提供する他の好適なコンポーネントを表していてもよいし、これらの一部であってもよいし、これらを含んでいてもよい。
[200]本明細書において、用語「例示する(instantiate)」、「例示(instantiation)」等は、例の作成を表し、「例(instance)」は、例えばプログラムコードの実行時に発生し得るオブジェクトの具体的生起を表し得る。本明細書において、「データベースオブジェクト(database object)」、「データ構造(data structure)」等は、オブジェクト、属性値ペア(AVP)、キー値ペア(KVP)、タプル等の形態の情報の任意の表現を表すとともに、変数、データ構造、関数、メソッド、クラス、データベースレコード、データベースフィールド、データベースエンティティ、データとデータベースエンティティとの関連性(「関係」とも称する)等を含み得る。本明細書において、用語「リソース(resource)」は、コンピュータデバイス、機械装置、メモリ空間、プロセッサ/CPUの時間、プロセッサ/CPUの使用、プロセッサ及びアクセラレータの負荷、ハードウェアの時間及び使用、電力、入出力動作、ポート若しくはネットワークソケット、チャネル/リンク割り当て、スループット、メモリの使用、ストレージ、ネットワーク、データベース及びアプリケーション、ワークロードユニット、ウェブページ、ウェブアプリケーション、並びに/又はその他類似のもの等、物理的若しくは仮想的なデバイス、コンピュータ環境内の物理的若しくは仮想的な構成要素、並びに/又は特定のデバイス内の物理的若しくは仮想的な構成要素を表す。用語「ネットワークリソース(network resource)」は、リモートエンティティがホスティングし、ネットワークを介してアクセス可能なリソースを表し得る。用語「文書(document)」は、データの記録に用いられるコンピュータファイル又はリソースを表すとともに、文書処理、表計算、スライドプレゼンテーション、マルチメディア項目等の様々なファイルタイプ又はフォーマットを含み得る。
[201]本明細書において、用語「デバイス(device)」は、近傍の別の物理的エンティティへの埋め込み又は取り付けがなされ、当該物理的エンティティに対するデジタル情報の伝達が可能な物理的エンティティを表し得る。本明細書において、用語「要素(element)」は、所与の抽象度では分割できず、明確に規定された境界を有するユニット表し得る。要素は、如何なる種類のエンティティであってもよい。本明細書において、用語「コントローラ(controller)」は、状態の変更又は移動によって物理的エンティティに影響を及ぼし得る要素又はエンティティを表し得る。本明細書において、用語「エンティティ(entity)」は、(1)アーキテクチャ若しくはデバイスの個別の構成要素又は(2)ペイロードとして伝達される情報を表し得る。
[202]本明細書において、用語「コンピュータシステム(computer system)」は、任意の種類の相互接続電子デバイス、コンピュータデバイス、又はこれらの構成要素を表す。また、用語「コンピュータシステム(computer system)」及び/又は「システム(system)」は、相互の通信結合或いは1つ又は複数の機能を実現するための構造化がなされたコンピュータの様々な構成要素を表し得る。さらに、用語「コンピュータシステム(computer system)」及び/又は「システム(system)」は、相互に通信結合され、演算及び/又はネットワークリソースを共有するように構成された複数のコンピュータデバイス及び/又は複数のコンピュータシステムを表し得る。また、用語「コンピュータシステム(computer system)」は、コンピュータデバイス、コンピュータ装置、コンピュータプラットフォーム、クライアントデバイス、クライアント、モバイル、モバイルデバイス、ユーザ機器(UE)、端末、受信機、サーバ等と同義と考えられ、以下ではこれらの名称で参照する場合もある。また、一連の算術演算若しくは論理演算の逐次的且つ自動的な実行が可能で、データを機械可読媒体に記録/格納するように備えられ、通信ネットワーク中の1つ又は複数の他のデバイスに対してデータを送受信する任意の物理的ハードウェアデバイスを表し得る。用語「コンピュータシステム(computer system)」は、携帯電話若しくはスマートフォン、タブレットパソコン、ウェアラブルコンピュータデバイス、自律センサ、ラップトップコンピュータ、デスクトップパソコン、ビデオゲームコンソール、デジタルメディアプレーヤ、手持ち式メッセージングデバイス、個人用データ補助装置、電子ブックリーダ、拡張現実デバイス、(1つ又は複数の)サーバコンピュータデバイス(例えば、独立型、ラック搭載、ブレード等)、並びに/又はその他任意の類似電子デバイス等、任意の種類の電子デバイスを含み得る。
[203]本明細書において、用語「サーバ(server)」は、処理ハードウェア並びに/又は(1つ若しくは複数の)プロセス空間、メモリデバイス又はデータベース等の関連する記憶媒体、並びに場合により、当技術分野において知られている(1つ若しくは複数の)好適な用途を含むコンピュータデバイス又はシステムを表す。本明細書において、用語「サーバシステム(server system)」及び「サーバ(server)」は、区別なく用いられるようになっていてもよく、物理的及び/又は仮想的なリソースプールへのアクセスを提供する。本明細書に記載の様々なサーバは、(1つ又は複数の)ラックコンピューティングアーキテクチャ構成要素、(1つ又は複数の)タワーコンピューティングアーキテクチャ構成要素、(1つ又は複数の)ブレードコンピューティングアーキテクチャ構成要素、及び/又はその他類似のものを備えたコンピュータデバイスを含む。サーバは、1つ又は複数のデータセンタに配置可能なサーバのクラスタ、サーバファーム、クラウドコンピューティングサービス、又は他のサーバ群若しくはプールを表し得る。また、サーバは、1つ又は複数のデータ記憶装置(図示せず)に接続されていてもよいし、或いは、それらと関連付けられていてもよい。さらに、サーバは、個々のサーバコンピュータデバイスの一般管理及び動作のための実行可能プログラム命令を提供するオペレーティングシステム(OS)を具備していてもよく、また、当該サーバのプロセッサにより実行された場合に、当該サーバがそれぞれの目的とする機能を実行できるようにする命令を格納したコンピュータ可読媒体を具備していてもよい。サーバのOS及び一般機能に対する好適な実施態様が把握又は商用化されており、当業者であれば容易に実装可能である。
[204]本明細書においては、説明を目的として、特定の実施形態を図示及び記述したが、本開示の範囲から逸脱することなく、同じ目的を達成するように計算された多種多様な代替及び/又は同等の実施形態又は実施態様によって、図示及び記述した実施形態を置き換えることができる。本願は、本明細書に記載の実施形態の如何なる改良又は変形をも網羅することが意図される。したがって、本明細書に記載の実施形態は、特許請求の範囲によってのみ限定されることが明白に意図される。
VI.参考文献
[R01] C. Bailer, B. Taetz, and D. Stricker.Flow Fields: Dense correspondence fields for highly accurate large displacementoptical flow estimation. In IEEE International Conference on Computer Vision,pages 4015-4023, 2015. 1.
[R02] S. Baker, D. Scharstein, J. P. Lewis,S. Roth, M. J. Black, and R. Szeliski. A database and evaluation methodologyfor optical flow. International Journal of Computer Vision, 92(1):1-31, 2011.2, 3, 4, 5, 6.
[R03] P. Bojanowski, A. Joulin, D. Lopez-Paz,and A. Szlam. Optimizing the latent space of generative networks. arXiv/1707.05776,2017. 4.
[R04] T. Brox, C. Bregler, and J.Malik.Large displacement optical flow. In IEEE Conference on Computer Vision andPattern Recognition, pages 41-48, 2009. 1.
[R05] T. Brox and J. Malik. Largedisplacement optical flow: Descriptor matching in variational motionestimation. IEEE Transactions on Pattern Analysis and Machine Intelligence,33(3):500-513, 2011. 1.
[R06] D. J. Butler, J. Wulff, G. B.Stanley, and M. J. Black. A naturalistic open source movie for optical flowevaluation. In European Conference on Computer Vision, pages 611-625, 2012. 1,7.
[R07] A. Dosovitskiy, P. Fischer, E. Ilg,P. Hausser, C. Hazirbas, V. Golkov, P. van der Smagt, D. Cremers, and T. Brox.FlowNet: Learning optical flow with convolutional networks. In IEEEInternational Conference on Computer Vision, pages 2758-2766, 2015. 2, 5.
[R08] D. Erhan, Y. Bengio, A. Courville,and P. Vincent. Visualizing higher-layer features of a deep network. 2009. 5,6.
[R09] J. Flynn, I. Neulander, J. Philbin,and N. Snavely. Deep-Stereo: Learning to predict new views from the world'simagery. In IEEE Conference on Computer Vision and Pattern Recognition, pages5515-5524, 2016.
[R10] Fourure et al., Residual Conv-DeconvGrid Network for Semantic Segmentation, arXiv:1707.07958v2 (26 Jul 2017), BritishMachine Vision Conference (4 Sep 2017).
[R11] I. J. Goodfellow, J. Pouget-Abadie,M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. C. Courville, and Y. Bengio. Generativeadversarial nets. In Advances in Neural Information Processing Systems, pages2672-2680, 2014.
[R12] K. He, X. Zhang, S. Ren, and J. Sun.Delving deep into rectifiers: Surpassing human-level performance on ImageNetclassification. In IEEE International Conference on Computer Vision, pages 1026-1034,2015.
[R13] E. Herbst, S. Seitz, and S. Baker.Occlusion reasoning for temporal interpolation using optical flow. Technicalreport, August 2009.
[R14] B. K. P. Horn and B. G. Schunck.Determining optical flow. Artificial Intelligence, 17(1-3):185-203, 1981.
[R15] Y. Hu, R. Song, and Y. Li. Efficientcoarse-to-fine patch match for large displacement optical flow. In IEEEConference on Computer Vision and Pattern Recognition, pages 5704-5712, 2016.1.
[R16] T.-W. Hui, X. Tang, and C. ChangeLoy. LiteFlowNet: A lightweight convolutional neural network for optical flowestimation In IEEE Conference on Computer Vision and Pattern Recognition, June2018.
[R17] E. Ilg, N. Mayer, T. Saikia, M.Keuper, A. Dosovitskiy, and T. Brox. Flownet 2.0: Evolution of optical flowestimation with deep networks. In IEEE Conference on Computer Vision andPattern Recognition, pages 1647-1655, 2017.
[R18] M. Jaderberg, K. Simonyan, A.Zisserman, and K. Kavukcuoglu. Spatial transformer networks. In Advances inNeural Information Processing Systems, pages 2017-2025, 2015.
[R19] J. Janai, F. Guney, J.Wulff, M. J.Black, and A. Geiger. Slow flow: Exploiting high-speed cameras for accurate anddiverse optical flow reference data. In IEEE Conference on Computer Vision andPattern Recognition, July 2017.
[R20] H. Jiang, D. Sun, V. Jampani, M.-H.Yang, E. Learned-Miller, and J. Kautz. Super SloMo: High quality estimation ofmultiple intermediate frames for video interpolation. In IEEE Conference onComputer Vision and Pattern Recognition, June 2018.
[R21] J. Johnson, A. Alahi, and L. Fei-Fei.Perceptual losses for real-time style transfer and super-resolution. In EuropeanConference on Computer Vision, pages 694-711, 2016.
[R22] N. K. Kalantari, T. Wang, and R.Ramamoorthi. Learningbased view synthesis for light field cameras. ACM Trans.Graph., 35(6):193:1-193:10.
[R23] M. Kartasev, C. Rapisarda, and D.Fay. Implementing adaptive separable convolution for video frame interpolation.arXiv/1809.07759.
[R24] D. P. Kingma and J. Ba. Adam: Amethod for stochastic optimization. arXiv:1412.6980, 2014.
[R25] A. Krizhevsky, I. Sutskever, and G.E. Hinton. ImageNet classification with deep convolutional neural networks. In Advancesin Neural Information Processing Systems, pages 1106-1114, 2012.
[R26] Y. Kuroki, T. Nishi, S. Kobayashi, H.Oyaizu, and S. Yoshimura. A psychophysical study of improvements inmotion-image quality by using high frame rates. Journal of the Society forInformation Display, 15(1):61-68, 2007.
[R27] Y. Kuroki, H. Takahashi, M. Kusakabe,and K.-i. Yamakoshi. Effects of motion image stimuli with normal and high framerates on eeg power spectra: comparison with continuous motion image stimuli. Journalof the Society for Information Display, 22(4):191-198, 2014.
[R28] W. Lai, J. Huang, O. Wang, E.Shechtman, E. Yumer, and M. Yang. Learning blind video temporal consistency. InEuropean Conference on Computer Vision, pages 179-195, 2018.
[R29] Ledig et al., Photo-realistic singleimage super-resolution using a generative adversarial network, arXiv/1609.04802,version 1 (15 Sep 2016), version 5 (25 May 2017).
[R30] Liu et al., Video Frame SynthesisUsing Deep Voxel Flow, IEEE International Conference on Computer Vision (ICCV),pp. 4463-4471 (Oct 2017).
[R31] Meyer et al., Deep video colorpropagation, British Machine Vision Conference 2018, page 128 (4 Sep 2018).
[R32] Meyer et al., Phasenet for VideoFrame Interpolation, IEEE Conference on Computer Vision and Pattern Recognition,(June 2018).
[R33] Meyer et al., Phase-based FrameInterpolation for Video, IEEE Conference on Computer Vision and PatternRecognition, pages 1410-1418, 2015.
[R34] Niklaus et al., Context-AwareSynthesis for Video Frame Interpolation, IEEE Conference on Computer Vision andPattern Recognition (June 2018).
[R35] S. Niklaus, L. Mai, and F. Liu. Videoframe interpolation via adaptive convolution. In IEEE Conference on ComputerVision and Pattern Recognition, July 2017.
[R36] S. Niklaus, L. Mai, and F. Liu. Videoframe interpolation via adaptive separable convolution. In IEEE InternationalConference on Computer Vision, Oct 2017.
[R37] A. Odena, V. Dumoulin, and C. Olah.Deconvolution and checkerboard artifacts. Distill, 2016.http://distill.pub/2016/deconv-checkerboard.
[R38] L. L. Raket, L. Roholm, A. Bruhn, andJ. Weickert. Motion compensated frame interpolation with a symmetric opticalflow constraint. In Advances in Visual Computing, volume 7431, pages 447-457,2012.
[R39] A. Ranjan and M. J. Black. Opticalflow estimation using a spatial pyramid network. In IEEE Conference on ComputerVision and Pattern Recognition, pages 2720-2729, 2017.
[R40] M. S.M. Sajjadi, B. Scholkopf, and M.Hirsch. EnhanceNet: Single image super-resolution through automated texturesynthesis. arXiv/1612.07919, 2016.
[R41] K. Simonyan and A. Zisserman. Verydeep convolutional networks for large-scale image recognition. arXiv/1409.1556,2014.
[R42] K. Soomro, A. R. Zamir, and M. Shah.UCF101: A dataset of 101 human actions classes from videos in the wild. arXiv/1212.0402,2012.
[R43] D. Sun, S. Roth, and M. J. Black. Aquantitative analysis of current practices in optical flow estimation and theprinciples behind them. International Journal of Computer Vision, 106(2):115-137,2014.
[R44] D. Sun, X. Yang, M.-Y. Liu, and J.Kautz. PWC-Net: CNNs for optical flow using pyramid, warping, and cost volume.In IEEE Conference on Computer Vision and Pattern Recognition, June 2018.
[R45] Z. Wang, A. C. Bovik, H. R. Sheikh,and E. P. Simoncelli. Image quality assessment: from error visibility tostructural similarity. IEEE Transactions on Image Processing, 13(4):600-612,2004.
[R46] P. Weinzaepfel, J. Revaud, Z.Harchaoui, and C. Schmid. DeepFlow: Large displacement optical flow with deepmatching. In IEEE International Conference on Computer Vision, pages 1385-1392,2013.
[R47] C. Wu, N. Singhal, and P. Krahenbuhl.Video compression through image interpolation. In European Conference onComputer Vision, pages 425-440, 2018.
[R48] L. Xu, J. Jia, and Y. Matsushita.Motion detail preserving optical flow estimation. IEEE Transactions on PatternAnalysis and Machine Intelligence, 34(9):1744-1757, 2012.
[R49] T. Xue, B. Chen, J. Wu, D. Wei, andW. T. Freeman. Video enhancement with task-oriented flow. arXiv/1711.09078,2017.
[R50] R. Zhang, P. Isola, A. A. Efros, E.Shechtman, and O. Wang. The unreasonable effectiveness of deep features as aperceptual metric. In IEEE Conference on Computer Vision and PatternRecognition, June 2018.
[R51] T. Zhou, S. Tulsiani, W. Sun,J.Malik, and A. A. Efros. View synthesis by appearance flow. In EuropeanConference on Computer Vision, pages 286-301, 2016.
[R52] J. Zhu, T. Park, P. Isola, and A. A.Efros. Unpaired image-to-image translation using cycle-consistent adversarialnetworks. In IEEE International Conference on Computer Vision, pages 2242-2251,2017.

Claims (25)

  1. フレーム補間ニューラルネットワーク(FINN)を動作させるように構成された集積回路(IC)パッケージであって、
    映像の第1の入力フレーム及び第2の入力フレームから前方オプティカルフロー及び後方オプティカルフローを推定するように構成されたオプティカルフロー推定(OFE)回路であり、
    前記前方オプティカルフローが、前記第1の入力フレームから始まって前記第2の入力フレームで終わる期間において前記第2の入力フレームを生成するように前記第1の入力フレーム中のピクセルが変更される様子を示し、
    前記後方オプティカルフローが、前記第1の入力フレームから始まって前記第2の入力フレームで終わる期間において前記第1の入力フレームを生成するように前記第2の入力フレーム中のピクセルが変更される様子を示す、
    オプティカルフロー推定(OFE)回路と、
    前記第1の入力フレームから第1の特徴ピラミッドを抽出するとともに、前記第2の入力フレームから第2の特徴ピラミッドを抽出するように構成された特徴ピラミッド抽出(FPE)回路であり、
    前記第1の特徴ピラミッドが、複数の解像度のそれぞれの解像度において前記第1の入力フレームから抽出された特徴の第1の組を含み、
    前記第2の特徴ピラミッドが、前記複数の解像度のそれぞれの解像度において前記第2の入力フレームから抽出された特徴の第2の組を含む、特徴ピラミッド抽出(FPE)回路と、
    前記第1の特徴ピラミッド及び前記第2の特徴ピラミッドを前記第1の入力フレーム及び前記第2の入力フレームにそれぞれ適用することにより、前記前方オプティカルフロー及び前記後方オプティカルフローに基づいて、前記第1の入力フレームと前記第2の入力フレームとの間の時間位置で出力フレームを生成するように構成されたフレーム合成ニューラルネットワーク(FSN)回路と、
    を備えた、ICパッケージ。
  2. 前記FPE回路が、同じ設定を前記第1の入力フレーム及び前記第2の入力フレームに適用して、前記第1の特徴ピラミッド及び前記第2の特徴ピラミッドをそれぞれ抽出するようにさらに構成された、請求項1に記載のICパッケージ。
  3. 前記特徴の第1の組における少なくとも一部の特徴及び前記特徴の第2の組における少なくとも一部の特徴が、前記第1の入力フレーム及び前記第2の入力フレームの色空間に基づく、請求項1に記載のICパッケージ。
  4. 前記出力フレームが、前記第1の入力フレーム及び前記第2の入力フレームからそれぞれシフトされた前記第1の入力フレーム及び前記第2の入力フレームのピクセルを含むことにより、前記第1の入力フレームから前記対象時間位置までと、前記対象時間位置から前記第2の入力フレームまでに起こる動きを複製する、請求項1に記載のICパッケージ。
  5. 前記FPE回路が、前記第1の入力フレーム及び前記第2の入力フレームから抽出された特徴に基づいて、前記複数の解像度それぞれにおいて前記第1の入力フレーム及び前記第2の入力フレームを生成するようにさらに構成された、請求項1に記載のICパッケージ。
  6. 前記第1の特徴ピラミッド及び前記第2の特徴ピラミッドを抽出するため、前記FPE回路が、
    各解像度において、前記第1の入力フレーム及び前記第2の入力フレームからある数の入力特徴を読み出すことと、
    前記第1の入力フレーム及び前記第2の入力フレームそれぞれについて、前記ある数の入力特徴からある数の出力特徴を生成することと、
    を行うようにさらに構成された、請求項1に記載のICパッケージ。
  7. 前記FPE回路が、活性化関数回路とインターリーブされ、各解像度での前記第1の入力フレーム及び前記第2の入力フレームの一方又は両方の畳み込みによって、前記複数の解像度のそれぞれの解像度で前記第1の入力フレーム及び前記第2の入力フレームから前記特徴の組を抽出するように構成された畳み込み回路を備えた、請求項6に記載のICパッケージ。
  8. 前記前方オプティカルフローを用いて、前記第1の特徴ピラミッドを前記第2の特徴ピラミッドに向かってワープさせることと、
    前記後方オプティカルフローを用いて、前記第2の特徴ピラミッドを前記第1の特徴ピラミッドに向かってワープさせることと、
    を行うように構成された前方ワーピング(FW)回路をさらに備えた、請求項1に記載のICパッケージ。
  9. 前記出力フレームを生成するため、前記FSN回路が、前記ワープした特徴ピラミッド並びに前記第1の入力フレーム及び前記第2の入力フレームのワープ形式から補間結果を予測するように構成された、請求項8に記載のICパッケージ。
  10. 前記FPE回路が、前記予測された補間結果を用いて、前記第1の特徴ピラミッド及び前記第2の特徴ピラミッドの前記特徴と異なる特徴の一組を含む新たな特徴ピラミッドを各入力フレームから抽出するようにさらに構成された、請求項9に記載のICパッケージ。
  11. 前記FSN回路が、処理ブロックのグリッドを備え、前記処理ブロックのグリッド中の各行が、前記解像度の組のうちの1つの解像度に対応する、請求項9に記載のICパッケージ。
  12. 各行中の第1の処理ブロックが、前記第1の特徴ピラミッド及び前記第2の特徴ピラミッドにおける対応する解像度において、ワープした一組の特徴を受け取るように構成された、請求項11に記載のICパッケージ。
  13. 前記OFE回路、前記FPE回路、前記FSN回路、及び前記FW回路が、相互接続技術によって相互に結合されるとともに、
    システムインパッケージ(SiP)若しくはマルチチップパッケージ(MCP)の各ダイ、
    汎用プロセッサの各実行ユニット若しくはプロセッサコア、又は
    各デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、プログラマブル論理デバイス(PLD)、システムオンチップ(SoC)、グラフィックス処理ユニット(GPU)、SiP、MCP、若しくはDSP、FPGA、ASIC、PLD、SoC、GPU、SiP、及びMCPの任意の組み合わせ、
    として実装された、請求項1~11のいずれか一項に記載のICパッケージ。
  14. フレーム補間ニューラルネットワーク(FINN)の命令を含む1つ又は複数の非一時的コンピュータ可読媒体(NTCRM)であって、1つ又は複数のプロセッサによる前記命令の実行が、
    映像の第1の入力フレーム及び第2の入力フレームを取得することと、
    前記第1の入力フレーム及び前記第2の入力フレームから前方オプティカルフローと後方オプティカルフローとを推定することであり、
    前記前方オプティカルフローは、前記第1の入力フレームから始まって前記第2の入力フレームで終わる期間において前記第2の入力フレームを生成するように前記第1の入力フレーム中のピクセルが変更される様子を示し、
    前記後方オプティカルフローは、前記第1の入力フレームから始まって前記第2の入力フレームで終わる期間において前記第1の入力フレームを生成するように前記第2の入力フレーム中のピクセルが変更される様子を示す、推定することと、
    前記第1の入力フレームから第1の特徴ピラミッドを抽出するとともに、前記第2の入力フレームから第2の特徴ピラミッドを抽出することであり、
    前記第1の特徴ピラミッドは、複数の解像度のそれぞれの解像度において前記第1の入力フレームから抽出された特徴の第1の組を含み、
    前記第2の特徴ピラミッドは、前記複数の解像度のそれぞれの解像度において前記第2の入力フレームから抽出された特徴の第2の組を含む、抽出することと、
    前記前方オプティカルフローを用いて、前記第1の特徴ピラミッドを前記第2の特徴ピラミッドに向かってワープさせることと、
    前記後方オプティカルフローを用いて、前記第2の特徴ピラミッドを前記第1の特徴ピラミッドに向かってワープさせることと、
    前記ワープした第1の特徴ピラミッド及び第2の特徴ピラミッドに基づいて、前記第1の入力フレームと前記第2の入力フレームとの間の時間位置で出力フレームを生成することと、
    を前記1つ又は複数のプロセッサに行わせる、1つ又は複数のNTCRM。
  15. 前記特徴の第1の組及び前記特徴の第2の組が、前記第1の入力フレーム及び前記第2の入力フレームそれぞれの色空間に基づく、請求項14に記載の1つ又は複数のNTCRM。
  16. 前記命令の実行が、
    各解像度において、前記第1の入力フレーム及び前記第2の入力フレームからある数の入力特徴を読み出すことと、
    各解像度において、前記ある数の入力特徴からある数の出力特徴を生成することであり、各解像度における前記出力特徴は、前記入力特徴の異なるオクターブを表すとともに、数が変化する、ことと、
    を前記1つ又は複数のプロセッサにさらに行わせる、請求項14に記載の1つ又は複数のNTCRM。
  17. 前記FINNが、複数の活性化関数とインターリーブされた複数の畳み込み関数を含み、前記命令の実行が、
    前記畳み込み関数を演算して、各解像度において前記第1の入力フレーム及び前記第2の入力フレームを畳み込むことと、
    前記活性化関数を演算して、畳み込まれた前記第1の入力フレーム及び第2の入力フレームから個々の特徴を抽出することと、
    を前記1つ又は複数のプロセッサに行わせる、請求項16に記載の1つ又は複数のNTCRM。
  18. 前記出力フレームを生成するため、前記命令の実行が、前記ワープした特徴ピラミッド並びに前記第1の入力フレーム及び前記第2の入力フレームのワープ形式から補間結果を予測することを前記1つ又は複数のプロセッサに行わせる、請求項14に記載の1つ又は複数のNTCRM。
  19. 前記FINNが、処理ブロックのグリッドを備えたフレーム合成ニューラルネットワークを含み、前記処理ブロックのグリッド中の各行が、前記複数の解像度のうちの1つの解像度に対応し、前記命令の実行が、
    各解像度において前記第1の入力フレーム及び前記第2の入力フレームから抽出された特徴を含むように、前記ワープした第1の特徴ピラミッド及び第2の特徴ピラミッドを連結することと、
    各解像度において前記第1の入力フレーム及び前記第2の入力フレームから抽出された前記特徴を各行の各入力処理ブロックに入力することと、
    を前記1つ又は複数のプロセッサに行わせる、請求項14~18のいずれか一項に記載の1つ又は複数のNTCRM。
  20. オプティカルフロー推定器(OFE)、特徴ピラミッド抽出器(FPE)、前方ワーピングエンジン(FWE)、及びフレーム合成ニューラルネットワーク(FSN)を備えたフレーム補間ニューラルネットワーク(FINN)のプログラムコードを格納するように構成されたメモリ回路と結合されたプロセッサ回路を備え、
    前記プロセッサ回路が、前記OFEを動作させることにより、補間対象の映像の第1の入力フレーム及び第2の入力フレームから前方オプティカルフローと後方オプティカルフローとを推定するように構成され、
    前記前方オプティカルフローは、前記第1の入力フレームから始まって前記第2の入力フレームで終わる期間において前記第2の入力フレームを生成するように前記第1の入力フレーム中のピクセルが変更される様子を示し、
    前記後方オプティカルフローは、前記第1の入力フレームから始まって前記第2の入力フレームで終わる期間において前記第1の入力フレームを生成するように前記第2の入力フレーム中のピクセルが変更される様子を示し、

    前記プロセッサ回路が、前記FPEを動作させることにより、前記第1の入力フレームから第1の特徴ピラミッドを抽出するとともに、前記第2の入力フレームから第2の特徴ピラミッドを抽出するように構成され、
    前記第1の特徴ピラミッドは、複数の解像度のそれぞれの解像度において前記第1の入力フレームから抽出された特徴の第1の組を含み、
    前記第2の特徴ピラミッドは、前記複数の解像度のそれぞれの解像度において前記第2の入力フレームから抽出された特徴の第2の組を含み、

    前記プロセッサ回路が、前記FWEを動作させることにより、前記前方オプティカルフローを用いて、前記第1の特徴ピラミッドを前記第2の特徴ピラミッドに向かってワープさせるとともに、前記後方オプティカルフローを用いて、前記第2の特徴ピラミッドを前記第1の特徴ピラミッドに向かってワープさせるように構成され、
    前記プロセッサ回路が、前記FSNを動作させることにより、前記ワープした第1の特徴ピラミッド及び第2の特徴ピラミッドに基づいて、前記第1の入力フレームと前記第2の入力フレームとの間の所望の時間位置で出力フレームを生成するように構成されており、
    前記出力フレームが、前記第1の入力フレーム及び前記第2の入力フレームからそれぞれシフトされた前記第1の入力フレーム及び前記第2の入力フレームのピクセルを含むことにより、前記第1の入力フレームから前記対象時間位置までと、前記対象時間位置から前記第2の入力フレームまでに起こる動きを複製する、コンピュータシステム。
  21. 前記プロセッサ回路が、前記FPEを動作させることにより、
    各解像度において、前記第1の入力フレーム及び前記第2の入力フレームの一方又は両方からある数の入力特徴を読み出すことと、
    各解像度において、前記ある数の入力特徴からある数の出力特徴を生成することであり、各解像度における前記出力特徴が、前記入力特徴の異なるオクターブを表すとともに、数が変化する、ことと、
    を行うようにさらに構成された、請求項20に記載のコンピュータシステム。
  22. 前記FPEが、複数の活性化関数とインターリーブされた複数の畳み込み関数を含み、前記プロセッサ回路が、前記FPEを動作させることにより、
    前記畳み込み関数を演算して、各解像度において前記第1の入力フレーム及び前記第2の入力フレームを畳み込むことと、
    前記活性化関数を演算して、畳み込まれた前記第1の入力フレーム及び第2の入力フレームから個々の特徴を抽出することと、
    を行うようにさらに構成された、請求項21に記載のコンピュータシステム。
  23. 前記出力フレームを生成するため、前記プロセッサ回路が、前記FSNを動作させることにより、前記ワープした特徴ピラミッド並びに前記第1の入力フレーム及び前記第2の入力フレームのワープ形式から補間結果を予測するようにさらに構成された、請求項20~22のいずれか一項に記載のコンピュータシステム。
  24. 前記FSNが、処理ブロックのグリッドを備え、前記処理ブロックのグリッド中の各行が、前記解像度の組のうちの1つに対応する、請求項23に記載のコンピュータシステム。
  25. 前記コンピュータシステムが、システムインパッケージ(SiP)、マルチチップパッケージ(MCP)、システムオンチップ(SoC)、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、プログラマブル論理デバイス(PLD)、中央演算処理装置(CPU)、グラフィックス処理ユニット(GPU)であるか、又は、
    前記コンピュータシステムが、相互に接続されたSiP、MCP、SoC、DSP、FPGA、ASIC、PLD、CPU、GPUのうちの2つ以上を含む、請求項24に記載のコンピュータシステム。
JP2021564227A 2019-01-15 2020-01-14 映像フレーム補間のための特徴ピラミッドワーピング Active JP7392227B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962792693P 2019-01-15 2019-01-15
US62/792,693 2019-01-15
PCT/US2020/013545 WO2020150264A1 (en) 2019-01-15 2020-01-14 Feature pyramid warping for video frame interpolation

Publications (2)

Publication Number Publication Date
JP2022517444A JP2022517444A (ja) 2022-03-08
JP7392227B2 true JP7392227B2 (ja) 2023-12-06

Family

ID=71613575

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021564227A Active JP7392227B2 (ja) 2019-01-15 2020-01-14 映像フレーム補間のための特徴ピラミッドワーピング

Country Status (4)

Country Link
US (1) US20220092795A1 (ja)
JP (1) JP7392227B2 (ja)
KR (1) KR102646695B1 (ja)
WO (1) WO2020150264A1 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109816611B (zh) * 2019-01-31 2021-02-12 北京市商汤科技开发有限公司 视频修复方法及装置、电子设备和存储介质
US11176682B2 (en) * 2019-11-27 2021-11-16 Nvidia Corporation Enhanced optical flow estimation using a varied scan order
US11698878B1 (en) * 2020-04-12 2023-07-11 Peraton Labs Inc. Highspeed shared-memory optical network interfaces and topology
CN113727141B (zh) * 2020-05-20 2023-05-12 富士通株式会社 视频帧的插值装置以及方法
CN111709890B (zh) * 2020-06-12 2023-11-24 北京小米松果电子有限公司 一种图像增强模型的训练方法、装置及存储介质
CN112184779A (zh) * 2020-09-17 2021-01-05 无锡安科迪智能技术有限公司 插帧图像处理方法及装置
US11647212B2 (en) * 2020-09-30 2023-05-09 Qualcomm Incorporated Activation function design in neural network-based filtering process for video coding
US11734837B2 (en) * 2020-09-30 2023-08-22 Shanghai United Imaging Intelligence Co., Ltd. Systems and methods for motion estimation
WO2022096101A1 (en) * 2020-11-05 2022-05-12 Huawei Technologies Co., Ltd. Device and method for video interpolation
CN112533026A (zh) * 2020-11-27 2021-03-19 西安蓝极医疗电子科技有限公司 基于卷积神经网络的视频插帧方法
CN112584077B (zh) * 2020-12-11 2023-02-21 北京百度网讯科技有限公司 视频的插帧方法、装置及电子设备
CN112584076B (zh) * 2020-12-11 2022-12-06 北京百度网讯科技有限公司 视频的插帧方法、装置及电子设备
CN112633123B (zh) * 2020-12-18 2024-06-04 国网浙江省电力有限公司电力科学研究院 一种基于深度学习的异源遥感影像变化检测方法及装置
KR20220094003A (ko) * 2020-12-28 2022-07-05 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
CN112929689B (zh) * 2021-02-24 2023-04-07 北京百度网讯科技有限公司 视频插帧方法、装置、设备以及存储介质
CN113014936B (zh) * 2021-02-24 2022-12-13 北京百度网讯科技有限公司 视频插帧方法、装置、设备以及存储介质
CN113066103B (zh) * 2021-03-18 2023-02-21 鹏城实验室 一种相机帧间运动确定方法
US20220301127A1 (en) * 2021-03-18 2022-09-22 Applied Materials, Inc. Image processing pipeline for optimizing images in machine learning and other applications
WO2022205685A1 (zh) * 2021-03-29 2022-10-06 泉州装备制造研究所 一种基于轻量化网络的交通标志识别方法
EP4318376A4 (en) * 2021-05-24 2024-05-22 Samsung Electronics Co., Ltd. AI-BASED FRAME INTERPOLATION METHOD AND DEVICE
US12003885B2 (en) * 2021-06-14 2024-06-04 Microsoft Technology Licensing, Llc Video frame interpolation via feature pyramid flows
CN113538527B (zh) * 2021-07-08 2023-09-26 上海工程技术大学 一种高效轻量级光流估计方法、存储介质及装置
WO2023092388A1 (zh) * 2021-11-25 2023-06-01 Oppo广东移动通信有限公司 解码方法、编码方法、解码器、编码器和编解码系统
CN114202463B (zh) * 2021-12-15 2024-02-23 陕西师范大学 面向云端融合的视频超分辨率方法及系统
US20230245328A1 (en) * 2022-02-02 2023-08-03 Samsung Electronics Co., Ltd. Multi-frame optical flow network with lossless pyramid micro-architecture
CN114581493A (zh) * 2022-03-04 2022-06-03 三星电子(中国)研发中心 双向光流估计方法和装置
CN115032508B (zh) * 2022-08-12 2022-11-01 国网山东省电力公司电力科学研究院 一种基于目标识别的分布式输电线路故障诊断方法及系统
CN116033183A (zh) * 2022-12-21 2023-04-28 上海哔哩哔哩科技有限公司 视频插帧方法及装置
CN116778346B (zh) * 2023-08-23 2023-12-08 蓝茵建筑数据科技(上海)有限公司 一种基于改进自注意力机制的管线识别方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101375315B (zh) * 2006-01-27 2015-03-18 图象公司 数字重制2d和3d运动画面以呈现提高的视觉质量的方法和系统
CN104160422A (zh) * 2012-03-05 2014-11-19 汤姆逊许可公司 执行超分辨率的方法和装置
KR101747220B1 (ko) * 2012-08-30 2017-06-15 한화테크윈 주식회사 이미지 피라미드의 적응적 이미지 처리 장치 및 방법
KR102018046B1 (ko) * 2014-02-24 2019-09-04 한국전자통신연구원 이미지 특징 추출 장치 및 방법
KR101932009B1 (ko) * 2017-12-29 2018-12-24 (주)제이엘케이인스펙션 다중 객체 검출을 위한 영상 처리 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Simon Niklaus 他,Context-aware Synthesis for Video Frame Interpolation,2018 IEEE Conference on Computer Vision and Pattern Recognition ,IEEE,2018年06月,p1701-1710

Also Published As

Publication number Publication date
WO2020150264A1 (en) 2020-07-23
KR102646695B1 (ko) 2024-03-12
US20220092795A1 (en) 2022-03-24
KR20210105442A (ko) 2021-08-26
JP2022517444A (ja) 2022-03-08

Similar Documents

Publication Publication Date Title
JP7392227B2 (ja) 映像フレーム補間のための特徴ピラミッドワーピング
US11475536B2 (en) Context-aware synthesis for video frame interpolation
KR102474168B1 (ko) 적응형 컨볼루션 및 적응형 분리형 컨볼루션을 통한 프레임 인터폴레이션
AU2019451948B2 (en) Real-time video ultra resolution
US10937169B2 (en) Motion-assisted image segmentation and object detection
US20220222776A1 (en) Multi-Stage Multi-Reference Bootstrapping for Video Super-Resolution
US9430817B2 (en) Blind image deblurring with cascade architecture
US10991150B2 (en) View generation from a single image using fully convolutional neural networks
US20200074642A1 (en) Motion assisted image segmentation
WO2018035805A1 (en) Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation
US11871127B2 (en) High-speed video from camera arrays
CN113014936B (zh) 视频插帧方法、装置、设备以及存储介质
CN111768377B (zh) 图像色彩评估方法、装置、电子设备及存储介质
US10650488B2 (en) Apparatus, method, and computer program code for producing composite image
CN107004292A (zh) 使用高速缓存的纹理空间模糊的运动模糊
US11151698B2 (en) Image processing apparatus and method for suppressing overlap blur and individual blur from projection images using an inverted filter
US11995532B2 (en) Systems and devices for configuring neural network circuitry
US20240177409A1 (en) Image processing method and apparatus, electronic device, and readable storage medium
JP6155349B2 (ja) デコンボリューション画像において色収差を減じる方法、装置及びコンピュータプログラム製品
Sharma et al. Space-time super-resolution using deep learning based framework
Wu et al. HALO: a reconfigurable image enhancement and multisensor fusion system
Ikebe et al. HDR tone mapping: System implementations and benchmarking
Wang et al. A component-driven distributed framework for real-time video dehazing
Popovic et al. Computational Imaging Applications
Saponara et al. Guest editorial: special issue on algorithms and architectures for real-time image and video enhancement

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221111

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231016

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231024

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231027

R150 Certificate of patent or registration of utility model

Ref document number: 7392227

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150