JP7504120B2 - 高分解能なリアルタイムでのアーティスティックスタイル転送パイプライン - Google Patents
高分解能なリアルタイムでのアーティスティックスタイル転送パイプライン Download PDFInfo
- Publication number
- JP7504120B2 JP7504120B2 JP2021556587A JP2021556587A JP7504120B2 JP 7504120 B2 JP7504120 B2 JP 7504120B2 JP 2021556587 A JP2021556587 A JP 2021556587A JP 2021556587 A JP2021556587 A JP 2021556587A JP 7504120 B2 JP7504120 B2 JP 7504120B2
- Authority
- JP
- Japan
- Prior art keywords
- channels
- image
- computing device
- separable convolution
- separable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012546 transfer Methods 0.000 title description 72
- 238000000034 method Methods 0.000 claims description 55
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 47
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012805 post-processing Methods 0.000 claims description 7
- 235000008694 Humulus lupulus Nutrition 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 13
- 230000003287 optical effect Effects 0.000 description 10
- 230000000007 visual effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 5
- 230000006641 stabilisation Effects 0.000 description 5
- 238000011105 stabilization Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008602 contraction Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010422 painting Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012517 data analytics Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009429 electrical wiring Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000012092 media component Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000010421 pencil drawing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
- Processing Or Creating Images (AREA)
Description
スタイル転送とは、ある1枚の画像の内容と別の画像のスタイルとを組合わせて新たな画像を作成するプロセスである。現在のスタイル転送システムの中には、入力画像と基準スタイル画像とに基づいてスタイル化された静止画像を作成するものもあり得る。しかしながら、そのようなシステムがアニメーションまたはフルモーション映像上でフレームごとに用いられる場合、得られる結果は概して審美的に見て美しいものではなく、生成するのに長い時間を要する。すなわち、1つのフレームに現われる色、テクスチャ、ブラシストロークなどの特徴が次のフレームで消失してしまい、結果として、ちらつきのある不快な映像となる可能性がある。現在のシステムおよび技術は、ビデオゲームで用いられるようなレートで、または、高分解能でのフルモーション映像のリアルタイムスタイル転送のためのレートで、スタイル転送を実行することができない。
開示される主題の一実現例に従うと、コンピューティングデバイスにおいて少なくとも1つの画像および基準画像を受信するステップを含む方法が提供され得る。当該方法は、当該コンピューティングデバイスにおいて、当該受信した少なくとも1つの画像に対して分離可能な畳み込みを含む複数のダウンスケーリング動作を実行するステップを含み得る。当該複数のダウンスケーリング動作を実行するステップは、カーネルを用いて第1の分離可能な畳み込みを実行して、チャネルの第1のセットを、当該チャネルの第1のセットよりも数が多いチャネルの第2のセットに変換するステップと、当該カーネルを用いて第2の分離可能な畳み込みを実行して、当該第1の分離可能な畳み込みの当該チャネルの第2のセットを、当該チャネルの第2のセットよりも数の多いチャネルの第3のセットに変換するステップとを含む。当該方法は、当該コンピューティングデバイスにおいて複数の残差ブロックを形成するステップを含み得る。各々の残差ブロックは、当該カーネルの2つの分離可能な畳み込みおよび2つのインスタンス正規化を含む。当該方法は、当該コンピューティングデバイスにおいて、当該複数の残差ブロックに対して複数のアップスケーリング動作を実行するステップを含み得る。当該複数のアップスケーリング動作を実行するステップは、当該チャネルの第3のセットに対して第3の分離可能な畳み込みを実行して、当該チャネルの第3のセットを当該チャネルの第2のセットに変換することによって、第1のアップスケーリング動作を実行するステップと、当該チャネルの第2のセットに対して第4の分離可能な畳み込みを実行して、当該チャネルの第2のセットを当該チャネルの第1のセットに変換することによって、第2のアップスケーリング動作を実行するステップとを含む。当該方法は、当該コンピューティングデバイスに通信可能に結合されたディスプレイデバイスにおいて、少なくとも当該実行された複数のアップスケーリング動作および当該基準画像に基いて、スタイル化された画像を表示するステップを含み得る。
開示される主題の実現例は、高画像分解能を有する映像のリアルタイム(たとえば、100ms以下のレンダリング時間、毎秒45~60フレームの映像など)スタイル変換を提供する。たとえば、開示される主題は映像の画像のスタイル転送を提供し得る。この場合、映像の各フレームは、ディスプレイスクリーンにわたって水平に表示される1920画素と、ディスプレイスクリーンに垂直に表示される1080画素とを有する分解能を有し得る。ここで、画像は段々にスキャンされる(すなわち、インターレース無しの1080p分解能)。開示される主題の実現例は、映像および/またはビデオゲームのためのスタイルを提供し得る。この場合、各映像フレームは、ゲームプレーヤからの入力で手作業で生成され得る。開示される主題のいくつかの実現例は、3次元(three dimensional:3D)画像として表示されるべき映像の画像および/またはビデオゲームの画像のスタイル転送を提供し得る。開示される主題の実現例は、数分または数時間の長い処理時間を必要とする既存のスタイル転送システムを改善させるとともに、典型的には、低分解能画像を生成する。
当該コンピューティングデバイスにおいて、当該受信した少なくとも1つの画像に対して分離可能な畳み込みを含む複数のダウンスケーリング動作を実行するステップとを含む方法であって、当該複数のダウンスケーリング動作を実行するステップは、
カーネルを用いて第1の分離可能な畳み込みを実行して、チャネルの第1のセットを、当該チャネルの第1のセットよりも数が多いチャネルの第2のセットに変換するステップと、
当該カーネルを用いて第2の分離可能な畳み込みを実行して、当該第1の分離可能な畳み込みの当該チャネルの第2のセットを、当該チャネルの第2のセットよりも数の多いチャネルの第3のセットに変換するステップとを含み、当該方法はさらに、
当該コンピューティングデバイスにおいて複数の残差ブロックを形成するステップを含み、各々の残差ブロックは、当該カーネルの2つの分離可能な畳み込みおよび2つのインスタンス正規化を含み、当該方法はさらに、
当該コンピューティングデバイスにおいて、当該複数の残差ブロックに対して複数のアップスケーリング動作を実行するステップを含み、当該複数のアップスケーリング動作を実行するステップは、
当該チャネルの第3のセットに対して第3の分離可能な畳み込みを実行して、当該チャネルの第3のセットを当該チャネルの第2のセットに変換することによって、第1のアップスケーリング動作を実行するステップと、
当該チャネルの第2のセットに対して第4の分離可能な畳み込みを実行して、当該チャネルの第2のセットを当該チャネルの第1のセットに変換することによって、第2のアップスケーリング動作を実行するステップとを含み、当該方法はさらに、
当該コンピューティングデバイスに通信可能に結合されたディスプレイデバイスにおいて、少なくとも当該実行された複数のアップスケーリング動作および当該基準画像に基いて、スタイル化された画像を表示するステップを含む、方法。
当該コンピューティングデバイスにおいて、3のチャネルを有する当該チャネルの第1のセットを、32のチャネルを有する当該チャネルの第2のセットに変換するステップを含む、上記実現例のいずれか1つに記載の方法。
当該コンピューティングデバイスにおいて、32のチャネルを有する当該チャネルの第2のセットを、64のチャネルを有する当該チャネルの第3のセットに変換するステップを含む、実現例5に記載の方法。
当該コンピューティングデバイスにおいて、当該チャネルの第3のセットの64のチャネルを当該チャネルの第2のセットの32のチャネルに変換することによって当該第3の分離可能な畳み込みを実行するステップを含む、上記実現例のいずれか1つに記載の方法。
当該コンピューティングデバイスにおいて、当該チャネルの第2のセットの当該32のチャネルを当該チャネルの第1のセットの3のチャネルに変換することによって当該第4の分離可能な畳み込みを実行するステップを含む、実現例9に記載の方法。
少なくとも1つの画像および基準画像を受信し、
当該受信した少なくとも1つの画像に対して分離可能な畳み込みを含む複数のダウンスケーリング動作を実行し、当該複数のダウンスケーリング動作を実行することは、
カーネルを用いて第1の分離可能な畳み込みを実行して、チャネルの第1のセットを、当該チャネルの第1のセットよりも数が多いチャネルの第2のセットに変換することと、
当該カーネルを用いて第2の分離可能な畳み込みを実行して、当該第1の分離可能な畳み込みの当該チャネルの第2のセットを、当該チャネルの第2のセットよりも数の多いチャネルの第3のセットに変換することとを含み、当該コンピューティングデバイスはさらに、
複数の残差ブロックを形成し、各々の残差ブロックは、当該カーネルの2つの分離可能な畳み込みおよび2つのインスタンス正規化を含み、当該コンピューティングデバイスはさらに、
当該複数の残差ブロックに対して複数のアップスケーリング動作を実行し、当該複数のアップスケーリング動作を実行することは、
当該チャネルの第3のセットに対して第3の分離可能な畳み込みを実行して、当該チャネルの第3のセットを当該チャネルの第2のセットに変換することによって、第1のアップスケーリング動作を実行することと、
当該チャネルの第2のセットに対して第4の分離可能な畳み込みを実行して、当該チャネルの第2のセットを当該チャネルの第1のセットに変換することによって、第2のアップスケーリング動作を実行することとを含み、当該システムはさらに、
当該コンピューティングデバイスに通信可能に結合されたディスプレイデバイスを含み、当該ディスプレイデバイスは、少なくとも当該実行された複数のアップスケーリング動作および当該基準画像に基いて、スタイル化された画像を表示する、システム。
少なくとも1つの画像および基準画像を受信するための手段と、
当該受信した少なくとも1つの画像に対して分離可能な畳み込みを含む複数のダウンスケーリング動作を実行するための手段とを含み、当該複数のダウンスケーリング動作を実行するための手段は、
カーネルを用いて第1の分離可能な畳み込みを実行して、チャネルの第1のセットを、当該チャネルの第1のセットよりも数が多いチャネルの第2のセットに変換するための手段と、
当該カーネルを用いて第2の分離可能な畳み込みを実行して、当該第1の分離可能な畳み込みの当該チャネルの第2のセットを、当該チャネルの第2のセットよりも数の多いチャネルの第3のセットに変換するための手段とを含み、当該画像をスタイル化するための手段はさらに、
複数の残差ブロックを形成するための手段を含み、各々の残差ブロックは、当該カーネルの2つの分離可能な畳み込みおよび2つのインスタンス正規化を含み、当該画像をスタイル化するための手段はさらに、
当該複数の残差ブロックに対して複数のアップスケーリング動作を実行するための手段を含み、当該複数のアップスケーリング動作を実行するための手段は、
当該チャネルの第3のセットに対して第3の分離可能な畳み込みを実行して、当該チャネルの第3のセットを当該チャネルの第2のセットに変換することによって、第1のアップスケーリング動作を実行するための手段と、
当該チャネルの第2のセットに対して第4の分離可能な畳み込みを実行して、当該チャネルの第2のセットを当該チャネルの第1のセットに変換することによって、第2のアップスケーリング動作を実行するための手段とを含み、当該画像をスタイル化するための手段はさらに、
少なくとも当該実行された複数のアップスケーリング動作および当該基準画像に基いて、スタイル化された画像を表示するための手段を含む、手段。
3のチャネルを有する当該チャネルの第1のセットを、32のチャネルを有する当該チャネルの第2のセットに変換するための手段を含む、上記実現例のいずれか1つに記載の手段。
32のチャネルを有する当該チャネルの第2のセットを、64のチャネルを有する当該チャネルの第3のセットに変換するための手段を含む、実現例27に記載の手段。
当該チャネルの第3のセットの64のチャネルを当該チャネルの第2のセットの32のチャネルに変換することによって当該第3の分離可能な畳み込みを実行するための手段を含む、上記実現例のいずれか1つに記載の手段。
当該チャネルの第2のセットの当該32のチャネルを当該チャネルの第1のセットの3のチャネルに変換することによって当該第4の分離可能な畳み込みを実行するための手段を含む、実現例31に記載の手段。
Claims (23)
- 方法であって、
ニューラルネットワークを実現するコンピューティングデバイスにおいて、少なくとも1つの画像および基準画像を受信するステップと、
前記コンピューティングデバイスにおいて、前記受信した少なくとも1つの画像に対して分離可能な畳み込みを含む複数のダウンスケーリング動作を実行するステップとを含み、前記複数のダウンスケーリング動作は、
カーネルを用いて第1の分離可能な畳み込みを実行して、チャネルの第1のセットを、前記チャネルの第1のセットよりも数が多いチャネルの第2のセットに変換することと、
前記カーネルを用いて第2の分離可能な畳み込みを実行して、前記第1の分離可能な畳み込みの前記チャネルの第2のセットを、前記チャネルの第2のセットよりも数の多いチャネルの第3のセットに変換することとを含み、前記方法はさらに、
前記コンピューティングデバイスにおいて、前記複数のダウンスケーリング動作の後に、複数の残差ブロックを形成するステップを含み、各々の残差ブロックは、前記カーネルの2つの分離可能な畳み込みおよび2つのインスタンス正規化を含み、前記ニューラルネットワークの各層は、次の層にフィードし、2ホップ離れた層に直接フィードし、前記方法はさらに、
前記コンピューティングデバイスにおいて、前記複数の残差ブロックに対して複数のアップスケーリング動作を実行するステップを含み、前記複数のアップスケーリング動作を実行するステップは、
前記チャネルの第3のセットに対して第3の分離可能な畳み込みを実行して、前記チャネルの第3のセットを前記チャネルの第2のセットに変換することによって、第1のアップスケーリング動作を実行するステップと、
前記チャネルの第2のセットに対して第4の分離可能な畳み込みを実行して、前記チャネルの第2のセットを前記チャネルの第1のセットに変換することによって、第2のアップスケーリング動作を実行するステップとを含み、前記方法はさらに、
前記コンピューティングデバイスに通信可能に結合されたディスプレイデバイスにおいて、少なくとも前記実行された複数のアップスケーリング動作および前記基準画像に基いて、スタイル化された画像を表示するステップを含む、方法。 - 前記コンピューティングデバイスにおいて、前記第1の分離可能な畳み込みを実行する前の重みのベクトルおよびバイアスに基づいたフィルタを、前記受信した少なくとも1つの画像の入力値に適用するステップをさらに含む、請求項1に記載の方法。
- 前記コンピューティングデバイスにおいて、前記重みおよび前記バイアスのうち少なくとも1つを後処理シェーダに出力するステップを含む、請求項2に記載の方法。
- 前記第1の分離可能な畳み込みおよび前記第2の分離可能な畳み込みのカーネルは、3×3のサイズを有し、ストライドが2であり、前記ストライドは、前記カーネルがシフトされる量である、請求項1~3のいずれかに記載の方法。
- 前記第1の分離可能な畳み込みは、
前記コンピューティングデバイスにおいて、3のチャネルを有する前記チャネルの第1のセットを、32のチャネルを有する前記チャネルの第2のセットに変換するステップを含む、請求項1~4のいずれかに記載の方法。 - 前記第2の分離可能な畳み込みは、
前記コンピューティングデバイスにおいて、32のチャネルを有する前記チャネルの第2のセットを、64のチャネルを有する前記チャネルの第3のセットに変換するステップを含む、請求項5に記載の方法。 - 前記形成された残差ブロックは、15の残差ブロックを含み、各々の残差ブロックは、3×3カーネルの2つの分離可能な畳み込みおよび2つのインスタンス正規化を含む、請求項1~6のいずれかに記載の方法。
- 前記第1のアップスケーリング動作および前記第2のアップスケーリング動作は、3×3のサイズおよび2のストライドを有するカーネルを用いて実行され、前記ストライドは、前記カーネルがシフトされる量である、請求項1~7のいずれかに記載の方法。
- 前記第1のアップスケーリング動作は、
前記コンピューティングデバイスにおいて、前記チャネルの第3のセットの64のチャネルを前記チャネルの第2のセットの32のチャネルに変換することによって前記第3の分離可能な畳み込みを実行するステップを含む、請求項1~8のいずれかに記載の方法。 - 前記第2のアップスケーリング動作は、
前記コンピューティングデバイスにおいて、前記チャネルの第2のセットの前記32のチャネルを前記チャネルの第1のセットの3のチャネルに変換することによって前記第4の分離可能な畳み込みを実行するステップを含む、請求項9に記載の方法。 - 前記コンピューティングデバイスにおいて、前記受信した少なくとも1つの画像に画像ノイズを追加するステップをさらに含む、請求項1~10のいずれかに記載の方法。
- ニューラルネットワークを実装するシステムであって、
少なくともプロセッサおよびメモリを含むコンピューティングデバイスを備え、前記コンピューティングデバイスは、
少なくとも1つの画像および基準画像を受信し、
前記受信した少なくとも1つの画像に対して分離可能な畳み込みを含む複数のダウンスケーリング動作を実行し、前記複数のダウンスケーリング動作を実行することは、
カーネルを用いて第1の分離可能な畳み込みを実行して、チャネルの第1のセットを、前記チャネルの第1のセットよりも数が多いチャネルの第2のセットに変換することと、
前記カーネルを用いて第2の分離可能な畳み込みを実行して、前記第1の分離可能な畳み込みの前記チャネルの第2のセットを、前記チャネルの第2のセットよりも数の多いチャネルの第3のセットに変換することとを含み、前記コンピューティングデバイスはさらに、
前記複数のダウンスケーリング動作の後に複数の残差ブロックを形成し、各々の残差ブロックは、前記カーネルの2つの分離可能な畳み込みおよび2つのインスタンス正規化を含み、前記ニューラルネットワークの各層は、次の層にフィードし、2ホップ離れた層に直接フィードし、前記コンピューティングデバイスはさらに、
前記複数の残差ブロックに対して複数のアップスケーリング動作を実行し、前記複数のアップスケーリング動作を実行することは、
前記チャネルの第3のセットに対して第3の分離可能な畳み込みを実行して、前記チャネルの第3のセットを前記チャネルの第2のセットに変換することによって、第1のアップスケーリング動作を実行することと、
前記チャネルの第2のセットに対して第4の分離可能な畳み込みを実行して、前記チャネルの第2のセットを前記チャネルの第1のセットに変換することによって、第2のアップスケーリング動作を実行することとを含み、前記システムはさらに、
前記コンピューティングデバイスに通信可能に結合されて、少なくとも前記実行された複数のアップスケーリング動作および前記基準画像に基いて、スタイル化された画像を表示するためのディスプレイデバイスをさらに備える、システム。 - 前記コンピューティングデバイスは、前記第1の分離可能な畳み込みを実行する前の重みのベクトルおよびバイアスに基づいたフィルタを、前記受信した少なくとも1つの画像の入力値に適用する、請求項12に記載のシステム。
- 前記コンピューティングデバイスは、前記重みおよび前記バイアスのうち少なくとも1つを後処理シェーダに出力する、請求項13に記載のシステム。
- 前記第1の分離可能な畳み込みおよび前記第2の分離可能な畳み込みのカーネルは、3×3のサイズを有し、ストライドが2であり、前記ストライドは、前記カーネルがシフトされる量である、請求項12~14のいずれかに記載のシステム。
- 前記コンピューティングデバイスは、前記第1の分離可能な畳み込みのために、3のチャネルを有する前記チャネルの第1のセットを、32のチャネルを有する前記チャネルの第2のセットに変換する、請求項12~15のいずれかに記載のシステム。
- 前記コンピューティングデバイスは、前記第2の分離可能な畳み込みのために、32のチャネルを有する前記チャネルの第2のセットを、64のチャネルを有する前記チャネルの第3のセットに変換する、請求項16に記載のシステム。
- 前記形成された残差ブロックは15の残差ブロックを含み、各々の残差ブロックは、3×3カーネルの2つの分離可能な畳み込みおよび2つのインスタンス正規化を含む、請求項12~17のいずれかに記載のシステム。
- 前記第1のアップスケーリング動作および前記第2のアップスケーリング動作は、3×3のサイズおよび2のストライドを有するカーネルを用いて前記コンピューティングデバイスによって実行され、前記ストライドは、前記カーネルがシフトされる量である、請求項12~18のいずれかに記載のシステム。
- 前記コンピューティングデバイスは、前記第1のアップスケーリング動作のために、前記チャネルの第3のセットの64のチャネルを前記チャネルの第2のセットの32のチャネルに変換することによって前記第3の分離可能な畳み込みを実行する、請求項12~19のいずれかに記載のシステム。
- 前記コンピューティングデバイスは、前記第2のアップスケーリング動作のために、前記チャネルの第2のセットの32のチャネルを前記チャネルの第1のセットの3のチャネルに変換することによって前記第4の分離可能な畳み込みを実行する、請求項20に記載のシステム。
- 前記コンピューティングデバイスは、前記受信した少なくとも1つの画像に画像ノイズを追加する、請求項12~21のいずれかに記載のシステム。
- プロセッサによって実行されると前記プロセッサに請求項1~11のいずれかに記載の方法を実行させる命令を含む、コンピュータプログラム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962819717P | 2019-03-18 | 2019-03-18 | |
US62/819,717 | 2019-03-18 | ||
US201962947262P | 2019-12-12 | 2019-12-12 | |
US62/947,262 | 2019-12-12 | ||
PCT/US2020/022302 WO2020190624A1 (en) | 2019-03-18 | 2020-03-12 | High resolution real-time artistic style transfer pipeline |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022525552A JP2022525552A (ja) | 2022-05-17 |
JP7504120B2 true JP7504120B2 (ja) | 2024-06-21 |
Family
ID=70110428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021556587A Active JP7504120B2 (ja) | 2019-03-18 | 2020-03-12 | 高分解能なリアルタイムでのアーティスティックスタイル転送パイプライン |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220172322A1 (ja) |
EP (1) | EP3942530A1 (ja) |
JP (1) | JP7504120B2 (ja) |
WO (1) | WO2020190624A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220335250A1 (en) * | 2021-04-19 | 2022-10-20 | Kwai Inc. | Methods and apparatuses for fine-grained style-based generative neural networks |
US20230066897A1 (en) * | 2021-09-01 | 2023-03-02 | Electronic Arts Inc. | Generating Visual Assets for Video Games |
US11803950B2 (en) * | 2021-09-16 | 2023-10-31 | Adobe Inc. | Universal style transfer using multi-scale feature transform and user controls |
US11989916B2 (en) * | 2021-10-11 | 2024-05-21 | Kyocera Document Solutions Inc. | Retro-to-modern grayscale image translation for preprocessing and data preparation of colorization |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107767343A (zh) | 2017-11-09 | 2018-03-06 | 京东方科技集团股份有限公司 | 图像处理方法、处理装置和处理设备 |
US20180137406A1 (en) | 2016-11-15 | 2018-05-17 | Google Inc. | Efficient Convolutional Neural Networks and Techniques to Reduce Associated Computational Costs |
JP2018132855A (ja) | 2017-02-14 | 2018-08-23 | 国立大学法人電気通信大学 | 画像スタイル変換装置、画像スタイル変換方法および画像スタイル変換プログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11024009B2 (en) * | 2016-09-15 | 2021-06-01 | Twitter, Inc. | Super resolution using a generative adversarial network |
US10339443B1 (en) * | 2017-02-24 | 2019-07-02 | Gopro, Inc. | Systems and methods for processing convolutional neural network operations using textures |
CN107730474B (zh) * | 2017-11-09 | 2022-02-22 | 京东方科技集团股份有限公司 | 图像处理方法、处理装置和处理设备 |
US11222415B2 (en) * | 2018-04-26 | 2022-01-11 | The Regents Of The University Of California | Systems and methods for deep learning microscopy |
-
2020
- 2020-03-12 US US17/436,298 patent/US20220172322A1/en active Pending
- 2020-03-12 WO PCT/US2020/022302 patent/WO2020190624A1/en unknown
- 2020-03-12 JP JP2021556587A patent/JP7504120B2/ja active Active
- 2020-03-12 EP EP20716356.9A patent/EP3942530A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180137406A1 (en) | 2016-11-15 | 2018-05-17 | Google Inc. | Efficient Convolutional Neural Networks and Techniques to Reduce Associated Computational Costs |
JP2018132855A (ja) | 2017-02-14 | 2018-08-23 | 国立大学法人電気通信大学 | 画像スタイル変換装置、画像スタイル変換方法および画像スタイル変換プログラム |
CN107767343A (zh) | 2017-11-09 | 2018-03-06 | 京东方科技集团股份有限公司 | 图像处理方法、处理装置和处理设备 |
Non-Patent Citations (2)
Title |
---|
Mkhuseli Ngxande et al.,"DepthwiseGANs: Fast Training Generative Adversarial Networks for Realistic Image Synthesis",2019 Southern African Universities Power Engineering Conference/Robotics and Mechatronics/Pattern Recognition Association of South Africa (SAUPEC/RobMech/PRASA),2019年01月30日,pp.111-116 |
Ram Krishna Pandey et al.,"Computationally Efficient Approaches for Image Style Transfer",2018 15th IEEE India Council International Conference (INDICON),2018年12月18日 |
Also Published As
Publication number | Publication date |
---|---|
JP2022525552A (ja) | 2022-05-17 |
WO2020190624A1 (en) | 2020-09-24 |
EP3942530A1 (en) | 2022-01-26 |
US20220172322A1 (en) | 2022-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7504120B2 (ja) | 高分解能なリアルタイムでのアーティスティックスタイル転送パイプライン | |
US11113794B2 (en) | Systems and methods for generating defocus blur effects | |
US11055828B2 (en) | Video inpainting with deep internal learning | |
CN110084874B (zh) | 对于三维模型的图像风格迁移 | |
JP6874168B2 (ja) | 画像スタイル変換方法および装置、機器、ならびに記憶媒体 | |
CN109255769A (zh) | 图像增强网络的训练方法和训练模型、及图像增强方法 | |
JP7026222B2 (ja) | 画像生成ネットワークの訓練および画像処理方法、装置、電子機器、ならびに媒体 | |
CN110717868B (zh) | 视频高动态范围反色调映射模型构建、映射方法及装置 | |
CN109584179A (zh) | 一种卷积神经网络模型生成方法及图像质量优化方法 | |
CN111986075B (zh) | 一种目标边缘清晰化的风格迁移方法 | |
WO2007062209A2 (en) | Methods and apparatus for determining high quality sampling data from low quality sampling data | |
CN107454284A (zh) | 一种视频去噪方法及计算设备 | |
CN111835983A (zh) | 一种基于生成对抗网络的多曝光图高动态范围成像方法及系统 | |
CN109345487B (zh) | 一种图像增强方法及计算设备 | |
CN117651965A (zh) | 使用神经网络的高清图像操作方法和系统 | |
CN115738255A (zh) | 抗锯齿渲染方法及装置、电子设备、存储介质 | |
CN113592982B (zh) | 身份迁移模型构建方法、装置、电子设备及可读存储介质 | |
RU2764144C1 (ru) | Быстрый двухслойный нейросетевой синтез реалистичных изображений нейронного аватара по одному снимку | |
CN109727211A (zh) | 一种图像去噪方法、装置、计算设备及介质 | |
WO2016039301A1 (ja) | 画像処理装置および画像処理方法 | |
CN116402721A (zh) | 基于对比感知损失的水下图像增强方法 | |
CN112541972A (zh) | 一种视点图像处理方法及相关设备 | |
CN111861877A (zh) | 视频超分变率的方法和装置 | |
Kosugi et al. | Crowd-powered photo enhancement featuring an active learning based local filter | |
WO2022248042A1 (en) | Neural radiance field rig for human 3d shape and appearance modelling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211203 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211203 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230124 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230421 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230919 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20231218 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240514 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240611 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7504120 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |