JP7231708B2 - サンプリングされた色情報に基づいて画像シーケンスを生成および伝送するシステムおよび方法 - Google Patents
サンプリングされた色情報に基づいて画像シーケンスを生成および伝送するシステムおよび方法 Download PDFInfo
- Publication number
- JP7231708B2 JP7231708B2 JP2021507467A JP2021507467A JP7231708B2 JP 7231708 B2 JP7231708 B2 JP 7231708B2 JP 2021507467 A JP2021507467 A JP 2021507467A JP 2021507467 A JP2021507467 A JP 2021507467A JP 7231708 B2 JP7231708 B2 JP 7231708B2
- Authority
- JP
- Japan
- Prior art keywords
- machine learning
- learning model
- frames
- sample data
- pixel information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 37
- 238000010801 machine learning Methods 0.000 claims description 110
- 238000012549 training Methods 0.000 claims description 41
- 238000003860 storage Methods 0.000 claims description 39
- 238000009877 rendering Methods 0.000 claims description 33
- 239000003086 colorant Substances 0.000 claims description 10
- 230000000717 retained effect Effects 0.000 claims description 7
- 230000006855 networking Effects 0.000 description 39
- 230000015654 memory Effects 0.000 description 33
- 230000000875 corresponding effect Effects 0.000 description 30
- 230000002123 temporal effect Effects 0.000 description 28
- 238000004891 communication Methods 0.000 description 22
- 230000004438 eyesight Effects 0.000 description 22
- 230000004913 activation Effects 0.000 description 17
- 238000005070 sampling Methods 0.000 description 16
- 230000000007 visual effect Effects 0.000 description 15
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 230000005540 biological transmission Effects 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 230000004304 visual acuity Effects 0.000 description 9
- 230000009471 action Effects 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 239000008186 active pharmaceutical agent Substances 0.000 description 5
- 230000003190 augmentative effect Effects 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 5
- 241000282326 Felis catus Species 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000013475 authorization Methods 0.000 description 3
- 238000005266 casting Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000001627 detrimental effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000005043 peripheral vision Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000001454 recorded image Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/20—Processor architectures; Processor configuration, e.g. pipelining
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/06—Ray-tracing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/60—Image enhancement or restoration using machine learning, e.g. neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/001—Model-based coding, e.g. wire frame
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/111—Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
- H04N13/117—Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20172—Image enhancement details
- G06T2207/20182—Noise reduction or smoothing in the temporal domain; Spatio-temporal filtering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computer Graphics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Processing Or Creating Images (AREA)
- Studio Devices (AREA)
Description
1つまたは複数のフレームのシーケンスにそれぞれ関連し、関連するフレームの不完全なピクセル情報をそれぞれ含む、1つまたは複数のサンプルデータセットにアクセスすることと、
第1の機械学習モデルを使用して、1つまたは複数のサンプルデータセットに基づいて、完全なピクセル情報をそれぞれ有する1つまたは複数のフレームを生成することであって、第1の機械学習モデルが、1つまたは複数の生成されたフレームに関連する時空間表現を保持するように構成される、1つまたは複数のフレームを生成することと、
1つまたは複数のフレームのシーケンスに続く次のフレームの不完全なピクセル情報を含む次のサンプルデータセットにアクセスすることと、
第1の機械学習モデルを使用して、次のサンプルデータセットに基づいて、次のサンプルデータセットの不完全なピクセル情報、および次のサンプルデータセットに基づいて生成された追加のピクセル情報を含む完全なピクセル情報と、第1の機械学習モデルによって保持された時空間表現とを有する、次のフレームを生成することと、を含み得る。
複数の訓練サンプルデータセットを複数の訓練フレームからそれぞれ生成することと、
第1の機械学習モデルを使用して、複数の訓練サンプルデータセットそれぞれに基づいて、複数の再構築フレームを生成することと、
第2の機械学習モデルを使用して、複数の再構築フレームが第1の機械学習モデルによって生成される確率を決定することと、
第2の機械学習モデルによって決定された確率それぞれの正当性に基づいて、第1の機械学習モデルを更新することと、によって訓練され得る。
最初のエンコーダの出力は最後のデコーダの入力であるように構成され、
最後のエンコーダの出力は最初のデコーダの入力であるように構成される。
物理ベースコンピュータグラフィックスレンダリングモジュールを使用して、1つまたは複数のサンプルデータセットを生成することを含み得る。
サンプルデータセットに関連するフレーム内の1つまたは複数の関心領域を決定することと、
1つまたは複数の関心領域を使用して、不完全なピクセル情報を生成することと、を含み得、
1つまたは複数の関心領域に対応する不完全なピクセル情報のうち1つまたは複数の部分は、不完全なピクセル情報の他の部分よりも密なピクセルサンプルを含む。
アイトラッキングデバイスによって得られるアイトラッキングデータに基づいて、ユーザの視線方向を決定することを含み得、
1つまたは複数の関心領域の決定は、ユーザの決定された視線方向に基づく。
サンプルデータセットに関連する不完全なピクセル情報に対応するピクセル色を有する画像と、
ピクセル色のロケーションを示すバイナリマスクと、を含み得る。
1つまたは複数のフレームのシーケンスにそれぞれ関連し、関連するフレームの不完全なピクセル情報をそれぞれ含む、1つまたは複数のサンプルデータセットにアクセスすることと、
第1の機械学習モデルを使用して、1つまたは複数のサンプルデータセットに基づいて、完全なピクセル情報をそれぞれ有する1つまたは複数のフレームを生成することであって、第1の機械学習モデルは1つまたは複数の生成されたフレームに関連する時空間表現を保持するように構成される、1つまたは複数のフレームを生成することと、
1つまたは複数のフレームのシーケンスに続く次のフレームの不完全なピクセル情報を含む次のサンプルデータセットにアクセスすることと、
第1の機械学習モデルを使用して、次のサンプルデータセットに基づいて、次のサンプルデータセットの不完全なピクセル情報、および次のサンプルデータセットに基づいて生成された追加のピクセル情報を含む完全なピクセル情報と、第1の機械学習モデルによって保持された時空間表現とを有する、次のフレームを生成することと
を行うように動作可能である。
複数の訓練サンプルデータセットを複数の訓練フレームからそれぞれ生成することと、
第1の機械学習モデルを使用して、複数の訓練サンプルデータセットそれぞれに基づいて、複数の再構築フレームを生成することと、
第2の機械学習モデルを使用して、複数の再構築フレームが第1の機械学習モデルによって生成される確率を決定することと、
第2の機械学習モデルによって決定された確率それぞれの正当性に基づいて、第1の機械学習モデルを更新することと、を含むプロセスによって訓練され得る。
最初のエンコーダの出力は最後のデコーダの入力であるように構成され、
最後のエンコーダの出力は最初のデコーダの入力であるように構成される。
物理ベースコンピュータグラフィックスレンダリングモジュールを使用して、1つまたは複数のサンプルデータセットを生成するように動作可能であり得る。
1つまたは複数のフレームのシーケンスにそれぞれ関連し、関連するフレームの不完全なピクセル情報をそれぞれ含む、1つまたは複数のサンプルデータセットにアクセスすることと、
第1の機械学習モデルを使用して、1つまたは複数のサンプルデータセットに基づいて、完全なピクセル情報をそれぞれ有する1つまたは複数のフレームを生成することであって、第1の機械学習モデルは1つまたは複数の生成されたフレームに関連する時空間表現を保持するように構成される、1つまたは複数のフレームを生成することと、
1つまたは複数のフレームのシーケンスに続く次のフレームの不完全なピクセル情報を含む次のサンプルデータセットにアクセスすることと、
第1の機械学習モデルを使用して、次のサンプルデータセットに基づいて、次のサンプルデータセットの不完全なピクセル情報、および次のサンプルデータセットに基づいて生成された追加のピクセル情報を含む完全なピクセル情報と、第1の機械学習モデルによって保持された時空間表現とを有する、次のフレームを生成することと
を行わせるように動作可能である。
複数の訓練サンプルデータセットを複数の訓練フレームからそれぞれ生成することと、
第1の機械学習モデルを使用して、複数の訓練サンプルデータセットそれぞれに基づいて、複数の再構築フレームを生成することと、
第2の機械学習モデルを使用して、複数の再構築フレームが第1の機械学習モデルによって生成される確率を決定することと、
第2の機械学習モデルによって決定された確率それぞれの正当性に基づいて、第1の機械学習モデルを更新することと、を含むプロセスによって訓練され得る。
最初のエンコーダの出力は最後のデコーダの入力であるように構成され、
最後のエンコーダの出力は最初のデコーダの入力であるように構成される。
物理ベースコンピュータグラフィックスレンダリングモジュールを使用して、1つまたは複数のサンプルデータセットを生成することを行わせるように動作可能である。
式中、
Ifは、フレームfにおける元のフレームを表し、
I’fは、フレームfにおけるサンプルデータセットまたは破損したフレームを表し、
θは、ニューラルネットワークの訓練可能なネットワークパラメータを表し、
Φlは、VGGネットワークレイヤlを表し、
gは、生成器ネットワークを表し、
λlは、個々のVGGレイヤの重みを表し、
λlは、時間的規則化の重みを表す。
Claims (14)
- コンピューティングシステムによって、
1つまたは複数のフレームのシーケンスにそれぞれ関連し、関連するフレームの不完全なピクセル情報をそれぞれ含む、1つまたは複数のサンプルデータセットにアクセスすることと、
第1の機械学習モデルを使用して、前記1つまたは複数のサンプルデータセットに基づいて、完全なピクセル情報をそれぞれ有する前記1つまたは複数のフレームを生成することであって、前記第1の機械学習モデルが、生成された前記1つまたは複数のフレームに関連する時空間ピクセル量を保持するように構成される、前記1つまたは複数のフレームを生成することと、
前記1つまたは複数のフレームのシーケンスに続く次のフレームの不完全なピクセル情報を含む次のサンプルデータセットにアクセスすることと、
前記第1の機械学習モデルを使用して、前記次のサンプルデータセットに基づいて、完全なピクセル情報を有する前記次のフレームを生成することであって、前記完全なピクセル情報が、前記次のサンプルデータセットの前記不完全なピクセル情報、および追加のピクセル情報を含み、前記追加のピクセル情報が、前記次のサンプルデータセットと、前記第1の機械学習モデルによって保持された前記時空間ピクセル量とに基づいて生成される、前記次のフレームを生成することと、を含む、方法。 - 前記第1の機械学習モデルが、
複数の訓練サンプルデータセットを複数の訓練フレームからそれぞれ生成することと、
前記第1の機械学習モデルを使用して、前記複数の訓練サンプルデータセットに基づいて、複数の再構築フレームをそれぞれ生成することと、
第2の機械学習モデルを使用して、前記複数の再構築フレームが前記第1の機械学習モデルによって生成される確率を決定することと、
前記第2の機械学習モデルによって決定された前記確率のそれぞれの正確性に基づいて、前記第1の機械学習モデルを更新することと、によって訓練され、
随意に、前記第1の機械学習モデルの前記更新が、前記複数の再構築フレームと前記複数の訓練フレームとの比較にさらに基づく、請求項1に記載の方法。 - 前記第1の機械学習モデルが、直列接続された複数のエンコーダおよび複数のデコーダを含み、前記複数のエンコーダが最初のエンコーダおよび最後のエンコーダを含み、前記複数のデコーダが最初のデコーダおよび最後のデコーダを含み、
前記最初のエンコーダの出力が前記最後のデコーダの入力であるように構成され、
前記最後のエンコーダの出力が前記最初のデコーダの入力であるように構成され、
随意に、前記複数のデコーダが再帰型デコーダである、請求項1または2に記載の方法。 - 物理ベースコンピュータグラフィックスレンダリングモジュールを使用して、前記1つまたは複数のサンプルデータセットを生成することをさらに含む、請求項1から3のいずれか一項に記載の方法。
- 前記1つまたは複数のサンプルデータセットのうち少なくとも1つの前記生成が、
前記サンプルデータセットに関連するフレーム内の1つまたは複数の関心領域を決定することと、
前記1つまたは複数の関心領域を使用して、前記不完全なピクセル情報を生成することと、を含み、
前記1つまたは複数の関心領域に対応する前記不完全なピクセル情報の1つまたは複数の部分が、前記不完全なピクセル情報の他の部分よりも密なピクセルサンプルを含み、
随意に、前記方法が、アイトラッキングデバイスによって得られるアイトラッキングデータに基づいて、ユーザの視線方向を決定することをさらに含み、
前記1つまたは複数の関心領域の前記決定が、決定された前記ユーザの視線方向に基づく、請求項4に記載の方法。 - 前記1つまたは複数のサンプルデータセットがそれぞれ、
前記サンプルデータセットに関連する前記不完全なピクセル情報に対応するピクセル色を有する画像と、
前記ピクセル色のロケーションを示すバイナリマスクと、を含む、請求項1から4のいずれか一項に記載の方法。 - ソフトウェアを具現する1つまたは複数のコンピュータ可読非一時的記憶媒体であって、前記ソフトウェアは、実行されたとき、
1つまたは複数のフレームのシーケンスにそれぞれ関連し、関連するフレームの不完全なピクセル情報をそれぞれ含む、1つまたは複数のサンプルデータセットにアクセスすることと、
第1の機械学習モデルを使用して、前記1つまたは複数のサンプルデータセットに基づいて、完全なピクセル情報をそれぞれ有する前記1つまたは複数のフレームを生成することであって、前記第1の機械学習モデルが、生成された前記1つまたは複数のフレームに関連する時空間ピクセル量を保持するように構成される、前記1つまたは複数のフレームを生成することと、
前記1つまたは複数のフレームのシーケンスに続く次のフレームの不完全なピクセル情報を含む次のサンプルデータセットにアクセスすることと、
前記第1の機械学習モデルを使用して、前記次のサンプルデータセットに基づいて、完全なピクセル情報を有する前記次のフレームを生成することであって、前記完全なピクセル情報が、前記次のサンプルデータセットの前記不完全なピクセル情報、および追加のピクセル情報を含み、前記追加のピクセル情報が、前記次のサンプルデータセットと、前記第1の機械学習モデルによって保持された前記時空間ピクセル量とに基づいて生成される、前記次のフレームを生成することと
を行うように動作可能である、1つまたは複数のコンピュータ可読非一時的記憶媒体。 - 前記第1の機械学習モデルが、
複数の訓練サンプルデータセットを複数の訓練フレームからそれぞれ生成することと、
前記第1の機械学習モデルを使用して、前記複数の訓練サンプルデータセットに基づいて、複数の再構築フレームをそれぞれ生成することと、
第2の機械学習モデルを使用して、前記複数の再構築フレームが前記第1の機械学習モデルによって生成される確率を決定することと、
前記第2の機械学習モデルによって決定された前記確率のそれぞれの正確性に基づいて、前記第1の機械学習モデルを更新することと、を含むプロセスによって訓練され、
随意に、前記第1の機械学習モデルの前記更新が、前記複数の再構築フレームと前記複数の訓練フレームとの比較にさらに基づく、請求項7に記載の媒体。 - 前記第1の機械学習モデルが、直列接続された複数のエンコーダおよび複数のデコーダを含み、前記複数のエンコーダが最初のエンコーダおよび最後のエンコーダを含み、前記複数のデコーダが最初のデコーダおよび最後のデコーダを含み、
前記最初のエンコーダの出力が前記最後のデコーダの入力であるように構成され、
前記最後のエンコーダの出力が前記最初のデコーダの入力であるように構成され、
随意に、前記複数のデコーダが再帰型デコーダである、請求項7または8に記載の媒体。 - 前記ソフトウェアは、実行されたとき、
物理ベースコンピュータグラフィックスレンダリングモジュールを使用して、前記1つまたは複数のサンプルデータセットを生成するようにさらに動作可能である、請求項7から9のいずれか一項に記載の媒体。 - 1つまたは複数のプロセッサと、前記プロセッサのうち1つまたは複数に結合され、命令を含む、1つまたは複数のコンピュータ可読非一時的記憶媒体とを備える、システムであって、前記命令は、前記プロセッサのうち1つまたは複数によって実行されたとき、前記システムに、
1つまたは複数のフレームのシーケンスにそれぞれ関連し、関連するフレームの不完全なピクセル情報をそれぞれ含む、1つまたは複数のサンプルデータセットにアクセスすることと、
第1の機械学習モデルを使用して、前記1つまたは複数のサンプルデータセットに基づいて、完全なピクセル情報をそれぞれ有する前記1つまたは複数のフレームを生成することであって、前記第1の機械学習モデルが、生成された前記1つまたは複数のフレームに関連する時空間ピクセル量を保持するように構成される、前記1つまたは複数のフレームを生成することと、
前記1つまたは複数のフレームのシーケンスに続く次のフレームの不完全なピクセル情報を含む次のサンプルデータセットにアクセスすることと、
前記第1の機械学習モデルを使用して、前記次のサンプルデータセットに基づいて、完全なピクセル情報を有する前記次のフレームを生成することであって、前記完全なピクセル情報が、前記次のサンプルデータセットの前記不完全なピクセル情報、および追加のピクセル情報を含み、前記追加のピクセル情報が、前記次のサンプルデータセットと、前記第1の機械学習モデルによって保持された前記時空間ピクセル量とに基づいて生成される、前記次のフレームを生成することと
を行わせるように動作可能である、システム。 - 前記第1の機械学習モデルが、
複数の訓練サンプルデータセットを複数の訓練フレームからそれぞれ生成することと、
前記第1の機械学習モデルを使用して、前記複数の訓練サンプルデータセットに基づいて、複数の再構築フレームをそれぞれ生成することと、
第2の機械学習モデルを使用して、前記複数の再構築フレームが前記第1の機械学習モデルによって生成される確率を決定することと、
前記第2の機械学習モデルによって決定された前記確率のそれぞれの正確性に基づいて、前記第1の機械学習モデルを更新することと、を含むプロセスによって訓練され、
随意に、前記第1の機械学習モデルの前記更新が、前記複数の再構築フレームと前記複数の訓練フレームとの比較にさらに基づく、請求項11に記載のシステム。 - 前記第1の機械学習モデルが、直列接続された複数のエンコーダおよび複数のデコーダを含み、前記複数のエンコーダが最初のエンコーダおよび最後のエンコーダを含み、前記複数のデコーダが最初のデコーダおよび最後のデコーダを含み、
前記最初のエンコーダの出力が前記最後のデコーダの入力であるように構成され、
前記最後のエンコーダの出力が前記最初のデコーダの入力であるように構成される、請求項11または12に記載のシステム。 - 前記1つまたは複数のコンピュータ可読非一時的記憶媒体が、命令をさらに含み、前記命令は、前記プロセッサのうち1つまたは複数によって実行されたとき、前記システムに、
物理ベースコンピュータグラフィックスレンダリングモジュールを使用して、前記1つまたは複数のサンプルデータセットを生成することを行わせるように動作可能である、請求項11から13のいずれか一項に記載のシステム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862736991P | 2018-09-26 | 2018-09-26 | |
US62/736,991 | 2018-09-26 | ||
US16/191,776 | 2018-11-15 | ||
US16/191,776 US10846888B2 (en) | 2018-09-26 | 2018-11-15 | Systems and methods for generating and transmitting image sequences based on sampled color information |
PCT/US2018/061942 WO2020068140A1 (en) | 2018-09-26 | 2018-11-20 | Systems and methods for generating and transmitting image sequences based on sampled color information |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022511256A JP2022511256A (ja) | 2022-01-31 |
JP7231708B2 true JP7231708B2 (ja) | 2023-03-01 |
Family
ID=69884541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021507467A Active JP7231708B2 (ja) | 2018-09-26 | 2018-11-20 | サンプリングされた色情報に基づいて画像シーケンスを生成および伝送するシステムおよび方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10846888B2 (ja) |
EP (1) | EP3857470A4 (ja) |
JP (1) | JP7231708B2 (ja) |
KR (1) | KR20210049947A (ja) |
CN (1) | CN112789631A (ja) |
WO (1) | WO2020068140A1 (ja) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018176000A1 (en) | 2017-03-23 | 2018-09-27 | DeepScale, Inc. | Data synthesis for autonomous control systems |
US11893393B2 (en) | 2017-07-24 | 2024-02-06 | Tesla, Inc. | Computational array microprocessor system with hardware arbiter managing memory requests |
US10671349B2 (en) | 2017-07-24 | 2020-06-02 | Tesla, Inc. | Accelerated mathematical engine |
US11157441B2 (en) | 2017-07-24 | 2021-10-26 | Tesla, Inc. | Computational array microprocessor system using non-consecutive data formatting |
US11409692B2 (en) | 2017-07-24 | 2022-08-09 | Tesla, Inc. | Vector computational unit |
US11561791B2 (en) | 2018-02-01 | 2023-01-24 | Tesla, Inc. | Vector computational unit receiving data elements in parallel from a last row of a computational array |
US11215999B2 (en) | 2018-06-20 | 2022-01-04 | Tesla, Inc. | Data pipeline and deep learning system for autonomous driving |
US11361457B2 (en) | 2018-07-20 | 2022-06-14 | Tesla, Inc. | Annotation cross-labeling for autonomous control systems |
US11636333B2 (en) | 2018-07-26 | 2023-04-25 | Tesla, Inc. | Optimizing neural network structures for embedded systems |
US11562231B2 (en) | 2018-09-03 | 2023-01-24 | Tesla, Inc. | Neural networks for embedded devices |
AU2019357615B2 (en) | 2018-10-11 | 2023-09-14 | Tesla, Inc. | Systems and methods for training machine models with augmented data |
US11196678B2 (en) | 2018-10-25 | 2021-12-07 | Tesla, Inc. | QOS manager for system on a chip communications |
US11538143B2 (en) * | 2018-10-26 | 2022-12-27 | Nec Corporation | Fully convolutional transformer based generative adversarial networks |
WO2020098360A1 (en) * | 2018-11-15 | 2020-05-22 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method, system, and computer-readable medium for processing images using cross-stage skip connections |
US11816585B2 (en) | 2018-12-03 | 2023-11-14 | Tesla, Inc. | Machine learning models operating at different frequencies for autonomous vehicles |
US11537811B2 (en) | 2018-12-04 | 2022-12-27 | Tesla, Inc. | Enhanced object detection for autonomous vehicles based on field view |
US11610117B2 (en) | 2018-12-27 | 2023-03-21 | Tesla, Inc. | System and method for adapting a neural network model on a hardware platform |
US10997461B2 (en) | 2019-02-01 | 2021-05-04 | Tesla, Inc. | Generating ground truth for machine learning from time series elements |
US11150664B2 (en) | 2019-02-01 | 2021-10-19 | Tesla, Inc. | Predicting three-dimensional features for autonomous driving |
US11567514B2 (en) | 2019-02-11 | 2023-01-31 | Tesla, Inc. | Autonomous and user controlled vehicle summon to a target |
US10956755B2 (en) | 2019-02-19 | 2021-03-23 | Tesla, Inc. | Estimating object properties using visual image data |
US10885343B1 (en) * | 2019-08-30 | 2021-01-05 | Amazon Technologies, Inc. | Repairing missing frames in recorded video with machine learning |
CN110474815B (zh) * | 2019-09-23 | 2021-08-13 | 北京达佳互联信息技术有限公司 | 带宽预测方法、装置、电子设备及存储介质 |
US11321737B2 (en) * | 2019-12-13 | 2022-05-03 | Ebay Inc. | Techniques of prefetching operation cost based digital content and digital content with emphasis |
CN111553202B (zh) * | 2020-04-08 | 2023-05-16 | 浙江大华技术股份有限公司 | 进行活体检测的神经网络的训练方法、检测方法及装置 |
US11645761B2 (en) * | 2020-08-14 | 2023-05-09 | Meta Platforms Technologies, Llc | Adaptive sampling of images |
CN112565763A (zh) * | 2020-11-30 | 2021-03-26 | 北京达佳互联信息技术有限公司 | 异常图像样本生成方法及装置、图像检测方法及装置 |
US11776273B1 (en) * | 2020-11-30 | 2023-10-03 | Amazon Technologies, Inc. | Ensemble of machine learning models for automatic scene change detection |
US20220188645A1 (en) * | 2020-12-16 | 2022-06-16 | Oracle International Corporation | Using generative adversarial networks to construct realistic counterfactual explanations for machine learning models |
US12067777B2 (en) * | 2021-03-17 | 2024-08-20 | Qualcomm Incorporated | Efficient video processing via dynamic knowledge propagation |
US20220319157A1 (en) * | 2021-04-06 | 2022-10-06 | Nec Laboratories America, Inc. | Temporal augmentation for training video reasoning system |
US11748988B1 (en) | 2021-04-21 | 2023-09-05 | Amazon Technologies, Inc. | Shot contras five self-supervised learning of a plurality of machine learning models for video analysis applications |
KR20220146900A (ko) * | 2021-04-26 | 2022-11-02 | 삼성전자주식회사 | 휘도 데이터를 이용하여 심도 정보를 생성하는 처리 회로를 포함하는 전자 장치, 및 심도 정보 생성 방법 |
WO2024155967A1 (en) * | 2023-01-21 | 2024-07-25 | Meta Platforms Technologies, Llc | Gaze-based super-resolution for extended reality devices |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003078760A (ja) | 2001-08-30 | 2003-03-14 | Fuji Xerox Co Ltd | 画像処理装置及び画像処理方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6721446B1 (en) | 1999-04-26 | 2004-04-13 | Adobe Systems Incorporated | Identifying intrinsic pixel colors in a region of uncertain pixels |
US9626798B2 (en) * | 2011-12-05 | 2017-04-18 | At&T Intellectual Property I, L.P. | System and method to digitally replace objects in images or video |
GB2519348B (en) | 2013-10-18 | 2021-04-14 | Vision Semantics Ltd | Visual data mining |
CA2953394C (en) * | 2014-06-24 | 2021-11-09 | Sportlogiq Inc. | System and method for visual event description and event analysis |
US10582211B2 (en) | 2016-06-30 | 2020-03-03 | Facebook, Inc. | Neural network to optimize video stabilization parameters |
US10242288B2 (en) | 2016-11-08 | 2019-03-26 | Sony Corporation | Method and system for video processing |
US10430685B2 (en) | 2016-11-16 | 2019-10-01 | Facebook, Inc. | Deep multi-scale video prediction |
US10284789B2 (en) * | 2017-09-15 | 2019-05-07 | Sony Corporation | Dynamic generation of image of a scene based on removal of undesired object present in the scene |
-
2018
- 2018-11-15 US US16/191,776 patent/US10846888B2/en active Active
- 2018-11-20 WO PCT/US2018/061942 patent/WO2020068140A1/en unknown
- 2018-11-20 JP JP2021507467A patent/JP7231708B2/ja active Active
- 2018-11-20 EP EP18934608.3A patent/EP3857470A4/en not_active Withdrawn
- 2018-11-20 KR KR1020217012117A patent/KR20210049947A/ko not_active Application Discontinuation
- 2018-11-20 CN CN201880098118.9A patent/CN112789631A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003078760A (ja) | 2001-08-30 | 2003-03-14 | Fuji Xerox Co Ltd | 画像処理装置及び画像処理方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2022511256A (ja) | 2022-01-31 |
WO2020068140A1 (en) | 2020-04-02 |
CN112789631A (zh) | 2021-05-11 |
EP3857470A1 (en) | 2021-08-04 |
US10846888B2 (en) | 2020-11-24 |
KR20210049947A (ko) | 2021-05-06 |
EP3857470A4 (en) | 2021-11-24 |
US20200098139A1 (en) | 2020-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7231708B2 (ja) | サンプリングされた色情報に基づいて画像シーケンスを生成および伝送するシステムおよび方法 | |
US11037531B2 (en) | Neural reconstruction of sequential frames | |
US20220292781A1 (en) | Generative scene networks | |
CN116348919A (zh) | 用于面部的摄像头重投影 | |
WO2022182441A1 (en) | Latency-resilient cloud rendering | |
US12026921B2 (en) | Systems and method for low bandwidth video-chat compression | |
US20230245375A1 (en) | Cloud Rendering of Texture Map | |
Debattista | Application‐Specific Tone Mapping Via Genetic Programming | |
US20220139026A1 (en) | Latency-Resilient Cloud Rendering | |
US11645761B2 (en) | Adaptive sampling of images | |
US11481877B2 (en) | Enhancing the resolution of a video stream | |
US20230343050A1 (en) | Systems and Methods for Providing User Experiences on AR/VR Systems | |
US20240078745A1 (en) | Generation of a virtual viewpoint image of a person from a single captured image | |
US20230196627A1 (en) | Anti-aliasing by encoding primitive edge representations | |
US11818474B1 (en) | Sparse RGB cameras for image capture | |
US20240062425A1 (en) | Automatic Colorization of Grayscale Stereo Images | |
CN116210220A (zh) | 经有效运动补偿的时空采样 | |
Liu et al. | A Simulation System for Scene Synthesis in Virtual Reality | |
KR20230069108A (ko) | 팔꿈치 관절 포즈를 예측하기 위한 시스템 및 방법 | |
EP3977349A1 (en) | Methods and systems for encoding images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210825 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220921 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230216 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7231708 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |