JP7504120B2

JP7504120B2 - 高分解能なリアルタイムでのアーティスティックスタイル転送パイプライン

Info

Publication number: JP7504120B2
Application number: JP2021556587A
Authority: JP
Inventors: プリンス，アダム; ホフマン－ジョン，エリン; ポプリン，ライアン; ウー，リチャード; トーア，アンディープ
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-03-18
Filing date: 2020-03-12
Publication date: 2024-06-21
Anticipated expiration: 2040-03-12
Also published as: JP2022525552A; WO2020190624A1; EP3942530A1; US20220172322A1

Description

背景
スタイル転送とは、ある１枚の画像の内容と別の画像のスタイルとを組合わせて新たな画像を作成するプロセスである。現在のスタイル転送システムの中には、入力画像と基準スタイル画像とに基づいてスタイル化された静止画像を作成するものもあり得る。しかしながら、そのようなシステムがアニメーションまたはフルモーション映像上でフレームごとに用いられる場合、得られる結果は概して審美的に見て美しいものではなく、生成するのに長い時間を要する。すなわち、１つのフレームに現われる色、テクスチャ、ブラシストロークなどの特徴が次のフレームで消失してしまい、結果として、ちらつきのある不快な映像となる可能性がある。現在のシステムおよび技術は、ビデオゲームで用いられるようなレートで、または、高分解能でのフルモーション映像のリアルタイムスタイル転送のためのレートで、スタイル転送を実行することができない。

概要
開示される主題の一実現例に従うと、コンピューティングデバイスにおいて少なくとも１つの画像および基準画像を受信するステップを含む方法が提供され得る。当該方法は、当該コンピューティングデバイスにおいて、当該受信した少なくとも１つの画像に対して分離可能な畳み込みを含む複数のダウンスケーリング動作を実行するステップを含み得る。当該複数のダウンスケーリング動作を実行するステップは、カーネルを用いて第１の分離可能な畳み込みを実行して、チャネルの第１のセットを、当該チャネルの第１のセットよりも数が多いチャネルの第２のセットに変換するステップと、当該カーネルを用いて第２の分離可能な畳み込みを実行して、当該第１の分離可能な畳み込みの当該チャネルの第２のセットを、当該チャネルの第２のセットよりも数の多いチャネルの第３のセットに変換するステップとを含む。当該方法は、当該コンピューティングデバイスにおいて複数の残差ブロックを形成するステップを含み得る。各々の残差ブロックは、当該カーネルの２つの分離可能な畳み込みおよび２つのインスタンス正規化を含む。当該方法は、当該コンピューティングデバイスにおいて、当該複数の残差ブロックに対して複数のアップスケーリング動作を実行するステップを含み得る。当該複数のアップスケーリング動作を実行するステップは、当該チャネルの第３のセットに対して第３の分離可能な畳み込みを実行して、当該チャネルの第３のセットを当該チャネルの第２のセットに変換することによって、第１のアップスケーリング動作を実行するステップと、当該チャネルの第２のセットに対して第４の分離可能な畳み込みを実行して、当該チャネルの第２のセットを当該チャネルの第１のセットに変換することによって、第２のアップスケーリング動作を実行するステップとを含む。当該方法は、当該コンピューティングデバイスに通信可能に結合されたディスプレイデバイスにおいて、少なくとも当該実行された複数のアップスケーリング動作および当該基準画像に基いて、スタイル化された画像を表示するステップを含み得る。

開示される主題の一実現例に従うと、少なくともプロセッサおよびメモリを含むコンピューティングデバイスを備えたシステムが提供され得る。当該コンピューティングデバイスは、少なくとも１つの画像および基準画像を受信し、当該受信した少なくとも１つの画像に対して分離可能な畳み込みを含む複数のダウンスケーリング動作を実行する。当該コンピューティングデバイスによって実行される当該複数のダウンスケーリング動作は、カーネルを用いて第１の分離可能な畳み込みを実行して、チャネルの第１のセットを、当該チャネルの第１のセットよりも数が多いチャネルの第２のセットに変換することと、当該カーネルを用いて第２の分離可能な畳み込みを実行して、当該第１の分離可能な畳み込みの当該チャネルの第２のセットを、当該チャネルの第２のセットよりも数の多いチャネルの第３のセットに変換することとを含む。当該コンピューティングデバイスは、複数の残差ブロックを形成し得る。各々の残差ブロックは、当該カーネルの２つの分離可能な畳み込みおよび２つのインスタンス正規化を含む。当該コンピューティングデバイスは、当該複数の残差ブロックに対して複数のアップスケーリング動作を実行し得る。当該コンピューティングデバイスによって実行される当該複数のアップスケーリング動作は、当該チャネルの第３のセットに対して第３の分離可能な畳み込みを実行して、当該チャネルの第３のセットを当該チャネルの第２のセットに変換することによって、第１のアップスケーリング動作を実行することと、当該チャネルの第２のセットに対して第４の分離可能な畳み込みを実行して、当該チャネルの第２のセットを当該チャネルの第１のセットに変換することによって、第２のアップスケーリング動作を実行することとを含み得る。当該システムは、当該コンピューティングデバイスに通信可能に結合されたディスプレイデバイスを含み得る。当該ディスプレイデバイスは、少なくとも当該実行された複数のアップスケーリング動作および当該基準画像に基いて、スタイル化された画像を表示する。

開示される主題の一実現例に従うと、少なくとも１つの画像および基準画像を受信することを含む、画像をスタイル化するための手段が提供され得る。当該手段は、受信した少なくとも１つの画像に対して分離可能な畳み込みを含む複数のダウンスケーリング動作を実行し得る。当該複数のダウンスケーリング動作は、カーネルを用いて第１の分離可能な畳み込みを実行して、チャネルの第１のセットを、当該チャネルの第１のセットよりも数が多いチャネルの第２のセットに変換することと、当該カーネルを用いて第２の分離可能な畳み込みを実行して、第１の分離可能な畳み込みのチャネルの第２のセットを、当該チャネルの第２のセットよりも数が多いチャネルの第３のセットに変換することとを含む。当該手段は、複数の残差ブロックを形成し得る。各々の残差ブロックは、当該カーネルの２つの分離可能な畳み込みと２つのインスタンス正規化とを含む。当該手段は、複数の残差ブロックに対して複数のアップスケーリング動作を実行し得る。当該複数のアップスケーリング動作は、チャネルの第３のセットに対して第３の分離可能な畳み込みを実行して当該チャネルの第３のセットをチャネルの第２のセットに変換することによって、第１のアップスケーリング動作を実行することを含む。当該手段はまた、チャネルの第２のセットに対して第４の分離可能な畳み込みを実行して当該チャネルの第２のセットをチャネルの第１のセットに変換することによって、第２のアップスケーリング動作を実行し得る。当該手段は、少なくとも当該実行された複数のアップスケーリング動作と当該基準画像とに基づいて、スタイル化された画像を表示し得る。

開示される主題の追加の特徴、利点、および実施形態は、以下の詳細な説明、添付の図面、および添付の特許請求の範囲に記載され得るかまたはそれらを検討することによって明らかになり得る。さらに、上述の概要および以下の詳細な説明はともに例示的なものであり、添付の特許請求の範囲を限定することなくさらなる説明を提供することを意図していることを理解されたい。

添付の図面は、開示される主題のさらなる理解をもたらすために含まれるものであって、本明細書に援用されるとともにその一部を構成している。添付の図面はまた、開示される主題の実施形態を例示するとともに、詳細な説明と合わせて、開示される主題の実施形態の原理を説明する役割を果たすものである。開示される主題およびそれが実施され得るさまざまな方法を根本的に理解するために必要となり得る構造的詳細をより詳細に示す試みはなされていない。
開示される主題の一実現例に従ったスタイル転送モデルを示す図である。開示される主題の一実現例に従った、図１Ａに示されるスタイル変換モデルの縮小変換モデルを示す図である。開示される主題の一実現例に従った、基準画像に基づいてソース映像からの画像をスタイル化する例示的な方法を示す図である。開示される主題の一実現例に従った、基準画像に基づいてソース映像からの画像をスタイル化する例示的な方法を示す図である。開示される主題の一実現例に従った、基準画像に基づいてソース映像からの画像をスタイル化する例示的な方法を示す図である。開示される主題の一実現例に従った、スタイル転送を実行するためのソース映像からの画像を示す図である。開示される主題の一実現例に従った、図３Ａのソース映像場面に対してスタイル転送を実行するために用いられる基準画像を示す図である。開示される主題の一実現例に従った、図３Ｂの基準画像に基づく、図３Ａのソース映像場面のスタイル転送合成画像を示す図である。開示される主題の一実現例に従った、３つのニューラルネットワークを用いるスタイル転送モデルを示す図である。開示される主題の一実現例に従った、図４Ａのスタイル転送モデルの損失ネットワークアーキテクチャを示す図である。開示される主題の一実現例に従った、スタイル転送における重み付け調整の画像例を示す図である。開示される主題の一実現例に従った、スタイル転送における重み付け調整の画像例を示す図である。開示される主題の一実現例に従った、スタイル転送における重み付け調整の画像例を示す図である。開示される主題の一実現例に従った、スタイル転送における重み付け調整の画像例を示す図である。開示される主題の一実現例に従った、スタイル転送における重み付け調整の画像例を示す図である。開示される主題の一実現例に従った、スタイル転送における重み付け調整の画像例を示す図である。開示される主題の一実現例に従った、スタイル転送における重み付け調整の画像例を示す図である。開示される主題の一実現例に従った、スタイル転送における重み付け調整の画像例を示す図である。開示される主題の一実現例に従った、スタイル転送における重み付け調整の画像例を示す図である。開示される主題の一実現例に従った、スタイル転送における重み付け調整の画像例を示す図である。開示される主題の一実現例に従った、スタイル転送における重み付け調整の画像例を示す図である。開示される主題の一実現例に従った、スタイル転送における重み付け調整の画像例を示す図である。開示される主題の一実現例に従った、スタイル転送における重み付け調整の画像例を示す図である。開示される主題の一実現例に従ったコンピューティングデバイスを示す図である。開示される主題の一実現例に従った例示的なネットワークおよびシステム構成を示す図である。

詳細な説明
開示される主題の実現例は、高画像分解能を有する映像のリアルタイム（たとえば、１００ｍｓ以下のレンダリング時間、毎秒４５～６０フレームの映像など）スタイル変換を提供する。たとえば、開示される主題は映像の画像のスタイル転送を提供し得る。この場合、映像の各フレームは、ディスプレイスクリーンにわたって水平に表示される１９２０画素と、ディスプレイスクリーンに垂直に表示される１０８０画素とを有する分解能を有し得る。ここで、画像は段々にスキャンされる（すなわち、インターレース無しの１０８０ｐ分解能）。開示される主題の実現例は、映像および／またはビデオゲームのためのスタイルを提供し得る。この場合、各映像フレームは、ゲームプレーヤからの入力で手作業で生成され得る。開示される主題のいくつかの実現例は、３次元（three dimensional：３Ｄ）画像として表示されるべき映像の画像および／またはビデオゲームの画像のスタイル転送を提供し得る。開示される主題の実現例は、数分または数時間の長い処理時間を必要とする既存のスタイル転送システムを改善させるとともに、典型的には、低分解能画像を生成する。

開示される主題の実現例は、分離可能な畳み込みを含み得る複数のダウンスケーリング動作を用いてスタイル転送を提供し得る。開示される主題のスタイル転送は、ダウンスケーリング動作に基づいて残差ブロックを形成し得る。残差ブロックの各々は、２つの分離可能な畳み込みおよび２つのインスタンス正規化を含む。開示される主題のスタイル転送は、分離可能な畳み込みを含み得るアップスケーリング動作を含み得る。

いくつかの現在のシステムは、ディープニューラルネットワークを用いて、２つの画像を組合わせることによって審美的に訴求力のあるアーティスティックな効果をもたらすアーティスティックスタイル転送を提供する。他の現在のシステムは、画像上にアーティスティックスタイルの構成可能なブレンドを生成する多層化されたシステムを提供する。しかしながら、開示される主題の実現例とは異なり、これらのニューラルネットワークおよび多層化システムはスタイル転送を提供するものの、ビデオゲームにおけるような対話型リアルタイム環境における動画目的のために画像を迅速に生成することはできない。

他の現在のシステムは、ニューラルネットワークで動画像を作成する際のノイズを低減させる。このようなシステムでは、各フレームは、それ自体を取り囲むフレームを認識せず、当該システムは、ノイズとして視聴者に届くわずかな「むら」を生じさせる。開示される主題の実現例とは異なり、このような現在のシステムはリアルタイムのスタイル変換を提供するものではない。

開示される主題の実現例は、カーネルサイズを縮小するとともにダウンスケーリング動作およびアップスケーリング動作の数を減らすことによって、かつ、分離可能な畳み込みにおいて用いられる残差ブロックの数を増やすことによって、従来の層化システムの複雑さを低減して画像のランタイムスタイル転送を増大し得る。

開示される主題のスタイル転送システムは、ゲーム環境の映像および／またはビデオゲーム場面に対してトレーニングされ得る畳み込みニューラルネットワークを含み得る。映像および／またはビデオゲーム場面はソース映像であり得る。このトレーニングは、スタイル転送システムが映像および／またはビデオゲーム環境におけるオブジェクトを認識することを可能にし得る。

図１Ａはスタイル変換モデル１００を示す。スタイル変換モデル１００はスタイル転送システム（たとえば、図６に示されるコンピューティングデバイス６２０、ならびに／または、図７に示されるデバイス１０、リモートサービス１１、ユーザインターフェイス１３および／もしくは処理ユニット１４）上で実現され得るとともに、図２Ａ～図２Ｃに示されて以下において説明される方法２００に関連付けて用いられ得る。スタイルターゲットは、転送されるべきアーティスティックスタイルを有する基準画像（１０１）（たとえば、図３Ｂに示される画像３１０を参照）であり得る。コンテンツターゲットは、基準画像（１０１）に基づいてスタイルが変換され得る入力画像（１０２）（たとえば、図３Ａに示される画像３００を参照）であり得る。モデル１００のさまざまな中間層の出力などを用いて、少なくとも２つのタイプの損失、すなわち、スタイル損失（１１１）およびコンテンツ損失（１１３）、を計算し得る。これらの損失は、結果として得られるスタイル化された画像が（スタイルの点で）基準画像にどれだけ近づけるべきかと、スタイル化された画像が入力画像にコンテンツの点でどれだけ近づけるべきかとに関連し得る。以下で説明するいくつかの実現例では、変動損失（１１５）および／または安定性損失（１１７）がモデル１００によって判定され得る。モデル１００の中間層は、基準画像（１０１）および／または入力画像（１０２）と、スタイル損失（１１１）、コンテンツ損失（１１３）、変動損失（１１５）および／または安定性損失（１１７）との間の層および／または動作であり得る。

図１Ｂおよび図２Ａ～図２Ｃに関連付けて以下で説明するように、スタイル転送システムの縮小変換（１０８）を用いて、コンテンツ損失を計算し（すなわち、１１２においてコンテンツ損失を計算し、１１３においてコンテンツ損失を出力し）得る。コンテンツ損失（１１２、１１３）を計算するために、スタイル転送システムは、入力画像（１０２）およびスタイル化された画像（１０９）を用いて、複数画像の少なくとも１つの層（たとえば、早期層１０６および／または後期層１０７）における各々の対応する値の差を二乗し、それら結果を全てこれらの層ごとに合計してもよい。いくつかの実現例では、表現の各々には、それらの差異を発見して二乗する前に、値アルファ（すなわち、コンテンツ重み）が掛けられてもよい。いくつかの実現例では、差を二乗した後に、値の各々にコンテンツ重み（アルファ値）が掛けられてもよい。計算されたコンテンツ損失が出力され得る（すなわち、コンテンツ損失１１３）。

スタイル転送システムは、（１１０）でスタイル損失を計算し、（１１１）でスタイル損失を出力し得る。基準画像（１０１）およびスタイル化された画像（１０９）の未処理の出力をさまざまな層で比較する代わりに、出力のグラム行列が比較されてもよい。グラム行列は、行列にグラム行列自体の転置を掛けることによって得られてもよい。スタイル転送システムは、スタイル化された画像（１０９）と基準画像（１０２）との中間表現のグラム行列間のユークリッド距離を判定して、それら画像のスタイルがどれくらい類似しているかを発見し得る。１つ以上の層（たとえば、早期層１０６および／または後期層１０７）について各層ごとに計算されたグラム行列の値の各対応する対同士の間のユークリッド距離が判定され得る。これらの値に値ベータ（すなわち、スタイル重み）を掛け得る。計算されたスタイル損失が出力され得る（すなわち、スタイル損失１１１）。

スタイル損失（１１１）および／またはコンテンツ損失（１１３）を計算する際に、ビジュアルジオメトリグループ（Visual Geometry Group：ＶＧＧ）畳み込みニューラルネットワーク（たとえばＶＧＧ１０５）、および／または、他の任意の適切な畳み込みニューラルネットワークが用いられてもよい。ＶＧＧは、画像コンテンツ（たとえば、入力画像（１０２））と（たとえば、基準画像（１０１）からの）スタイルとの間のバランスを判定するために、および／または、転送される特徴のスケールを判定するために、用いられてもよい。ＶＧＧと、スタイル損失（１１１）および／またはコンテンツ損失（１１３）の計算とが、以下において図４Ａに関連付けてさらに説明され得る。

いくつかの実現例では、スタイル転送システムは、変動損失（１１５）および／または安定性損失（１１７）を判定し得る。変動損失（１１５）は、スタイル化された画像におけるノイズ画像の量を減らすために用いられてもよい。すなわち、隣接する画素の値を可能な限り似たものにすることで変動損失が計算され得る（１１４）。安定性損失（１１７）は、入力画像の１つ以上の画素と前のフレームの画素との間の画素に関する差を判定し、その差を二乗することによって算出され得る（１１６）。安定性損失（１１７）を最小限にするためにスタイル転送システムがトレーニングされ得る。安定性損失（１１７）を判定する際に、スタイル転送システムは、（たとえば、入力画像が映像および／またはビデオゲームからのものであり、前のフレームが映像および／またはビデオゲームにおける入力画像に先行するフレームである場合）入力画像（１０２）と前のフレームとの間の差異を判定することによってオプティカルフローを算出し得る（１０３）。スタイル転送システムは、入力画像の１つ以上の部分間の動きを予測および／または推定し得る。オプティカルフロー（１０３）は、入力画像（１０２）および前のフレームを用いて画素のオプティカルフローを推定する（１０３）予めトレーニングされたニューラルネットワークによって算出され得る。オプティカルフローを算出する際に、ニューラルネットワークは、入力画像と前のフレームとの間の相関性を見出し得る。ニューラルネットワークは、画像特徴表現を判定し得るとともに、入力画像および前のフレームにおける別々の位置でこれら画像特徴表現を整合させ得る。いくつかの実現例では、スタイル転送システムは、オプティカルフローを算出する（１０３）際に前のフレームと入力画像（１０２）とを比較するとき、邪魔になる画素を無視してもよい。

スタイル転送システムは、安定性損失（１１７）を判定する際に、ゆがめられたコンテンツ損失（１０４）を判定する。ゆがめられたコンテンツ損失（１０４）は、前のフレームと入力画像（１０２）との間の差に基づく画像の歪みおよび／またはぼやけに基づいて入力画像（１０２）からのコンテンツの損失を判定し得る。スタイル転送システムは、安定性損失を計算する（１１６）際に、図１Ｂおよび図２Ａ～図２Ｃに関連付けて以下において説明する縮小変換を用いてもよい。

図１Ｂは、図１Ａに示すスタイル変換モデル１００の一部として、および／または図２Ａ～図２Ｃに関連付けて説明される方法２００として用いられる縮小変換モデル１０８の詳細版を示す。入力画像１０８０ｐ、入力画像５４０ｐ、入力画像２７０ｐなどは、入力された画像（１２０）についての画像分解能であり得る。図１Ｂに示される畳み込み演算は、図２Ａ～図２Ｃに関連付けて上で説明され得る。図１Ｂに示されるバッチ正規化１２２は、活性化関数を調整および／またはスケーリングすることによって入力画像を正規化するために用いられてもよい。正規化線形ユニット（Rectified Linear Unit：Leaky ReLU）活性化１２４は、ユニットがアクティブでないときに、予め規定された小さい正の勾配を設けるために用いられ得る。バッチ正規化１２２がバッチ位置および空間位置にわたってすべての画像を正規化し得る場合、インスタンス正規化１２６は、独立して、すなわち空間位置にわたって各バッチを正規化し得る。バイアス加算１２８は、加算されるべき重みの追加のセットであり得る。シグモイド活性化１３０は、特徴的な「Ｓ」字形曲線を有する関数であり得るとともに、出力として特定の範囲を有し得る。

図２Ａ～図２Ｃは、開示される主題の実現例に従った、基準画像に基づいてソース映像からの画像をスタイル化する例示的な方法１００を示す。いくつかの実現例では、（図１Ａおよび図１Ｂに示される）縮小変換モデル１０８は方法１００を実行し得る。動作１００において、コンピューティングデバイスは、少なくとも１つの画像および基準画像を受信し得る。コンピューティングデバイスは、図６に示されるコンピューティングデバイス２０、ならびに／または、図７に示されるとともに以下において説明されるデバイス１０、リモートサービス１１、ユーザインターフェイス１３および／もしくは処理ユニット１４であり得る。少なくとも１つの画像は、映像および／またはビデオゲームからの画像および／またはフレームであり得る。

開示される主題の実現例では、基準画像（すなわち、静止画像）は、映像を用いてトレーニングされたスタイル転送システム（たとえば、図６に示されるコンピューティングデバイス６２０、ならびに／または、図７に示されるデバイス１０、リモートサービス１１、ユーザインターフェイス１３および／もしくは処理ユニット１４）に提供され得る。基準画像は、絵画、写真、鉛筆画等であってもよい。たとえば、図３Ａは、開示される主題の実現例に従った、ソース映像場面（すなわち、受信した少なくとも１つの画像）からの画像３００を示し、図３Ｂは、開示される主題の実現例に従った、画像３００を含む、図３Ａのソース映像場面に対してスタイル転送を実行するために用いられる基準画像３１０を示す。全体を通して説明されるように、図３Ｃに示される画像３２０は、図３Ｂの画像３１０を基準画像として用いることによって、図２Ａ～図２Ｃに関連付けて説明される画像３００に対して動作を実行した結果、得られてもよい。

動作２２０において、コンピューティングデバイスは、受信した少なくとも１つの画像に対して分離可能な畳み込みを含む複数のダウンスケーリング動作を実行し得る。動作２２０の個々のダウンスケーリング動作の例が、図２Ｂおよび図１Ｂ（たとえば、１０８０ｐ画像を５４０ｐ画像にダウンスケーリング、５４０ｐ画像を２７０ｐ画像にダウンスケーリングなど）に示されている。動作２２２において、コンピューティングデバイスは、カーネルを用いて第１の分離可能な畳み込みを実行して、チャネルの第１のセットをチャネルの第２のセットに変換し得る。チャネルの第２のセットの数は、チャネルの第１のセットよりも多くてもよい。いくつかの実現例では、コンピューティングデバイスは、３のチャネルを有するチャネルの第１のセットを、３２のチャネルを有するチャネルの第２のセットに変換してもよい。

動作２２４において、コンピューティングデバイスは、カーネルを用いて第２の分離可能な畳み込みを実行して、第１の分離可能な畳み込みのチャネルの第２のセットをチャネルの第３のセットに変換し得る。チャネルの第３のセットの数は、チャネルの第２のセットよりも多くてもよい。いくつかの実現例では、チャネルの第２のセットは、６４のチャネルを有するチャネルの第３のセットに変換され得る３２のチャネルを有し得る。

いくつかの実現例では、コンピューティングデバイスは、動作２２２で第１の分離可能な畳み込みを実行する前の重みのベクトルおよびバイアスに基づいたフィルタを、受信した少なくとも１つの画像の入力値に適用し得る。すなわち、フィルタは、複数のダウンスケーリング動作２２０を実行する前にコンピューティングデバイスによって適用され得る。

一例では、開示される主題のスタイル転送システムは、図２Ａ～図２Ｃに示されるとともに上述された以下の動作を用いて、受信した少なくとも１つの画像（たとえば、図３Ａの画像３００に示されるような、映像またはゲーム映像の１つ以上のフレームを含み得るソース場面）と、（たとえば、図３Ｂの画像３１０に示されるような）基準画像のアーティスティックスタイルとを組合わせてもよい。

この例では、２つのダウンスケーリング動作は、畳み込みニューラルネットワーク（たとえば、図６に示されるコンピューティングデバイス２０、および／または、図７に示されるデバイス１０、リモートサービス１１、処理ユニット１４、および／またはデータベース１５）によって実行されて、少なくとも１つの受信画像（すなわち、入力画像）のダウンスケーリングをもたらし得る。ネットワークの畳み込み層は、（たとえば、動作２２２で）入力に畳み込み演算を適用し得るとともに、その結果を次の層に渡し得る。畳み込み（たとえば、動作２２０における、受信した少なくとも１つの画像に対する分離可能な畳み込みを含む複数のダウンスケーリング動作）は、視覚刺激に対する個々のニューロンの反応をエミュレートし得る。

ニューラルネットワーク内の各ニューロンは、前の層の受信フィールドから受取った入力値にフィルタを適用することによって出力値を計算し得る。ニューロンは、ニューラルネットワークにおける基本単位であり得る。ニューロンは、１つ以上の入力を受信し得るとともに、それらを合計して出力を生成し得る。各入力は別々に重み付けされてもよく、合計は関数（すなわち、フィルタ）に通されてもよい。

上述したように、入力値に適用されるフィルタは、重みのベクトルおよびバイアスによって指定され得る。畳み込みニューラルネットワークにおける学習および／またはトレーニングは、バイアスおよび重みを漸進的に調整することによって実行され得る。重みのベクトルおよびフィルタのバイアスは、入力の１つ以上の特徴を表わし得る。畳み込みニューラルネットワークは、同一のフィルタを共有する複数のニューロンを有し得る。これにより、用いられるメモリ（たとえば、図６に示されるコンピューティングデバイス２０によって用いられるメモリ２７、ならびに／または図７に示されるデバイス１０、リモートサービス１１、処理ユニット１４および／もしくはデータベース１５によって用いられるメモリ）を縮小させ得る。なぜなら、単一のバイアスおよび重みの単一のベクトルが、それ自体のバイアスおよび重みのベクトルをそれぞれが有する各フィールドではなく、そのフィルタを共有するフィールドにわたって用いられる可能性があるからである。

この例では、（たとえば、図２Ｂにおいて動作２２２および２２４として示されるような）２つのダウンスケーリング動作は、２のストライドを有する３×３カーネル（すなわち、３×３入力ボリューム）のための分離可能な畳み込みを含み得る。ストライドは、カーネルがシフトされる量であり得る。すなわち、ストライド値は、入力ボリューム（たとえば、３×３入力ボリューム、またはカーネル）を中心としてフィルタがどのように畳み込みを行なうかを制御し得る。複数の動作２２は、３のチャネル（たとえば、赤色チャネル、緑色チャネル、および青色チャネル）から始まり得るとともに、チャネルの数を２つのダウンスケーリング動作２２２、２２４にわたって３２のチャネル（すなわち、チャネルの数が３から３２に変化する深さ３２）と６４のチャネル（すなわち、チャネルの数が３２から６４に変化する深さ６４）とに増加させ得る。すなわち、動作２２２において、３×３カーネルを用いた分離可能な畳み込みは、３のチャネルを、ストライドが２である３２のチャネルに変換し得る。動作２２４において、３×３カーネルを用いた分離可能な畳み込みは、３２のチャネルを、ストライドが２である６４のチャネルに変換し得る。

図２Ａに示す動作２３０において、コンピューティングデバイスは、複数の残差ブロックを形成し得る。各々の残差ブロックは、カーネルの２つの分離可能な畳み込みおよび２つのインスタンス正規化を含む。従来のニューラルネットワークでは、各層は次の層にフィードする。開示される主題の実現例などにおける残差ブロックを有するネットワークでは、各層は、次の層にフィードし得るとともに、約２～３ホップ離れた層に直接フィードし得る。いくつかの実現例では、形成された残差ブロックは１５の残差ブロックを含み得る。１５の残差ブロックの各々は、３×３カーネルの２つの分離可能な畳み込みと、２つのインスタンス正規化とを含み得る。すなわち、１５の残差ブロックは、（図２Ｂの動作２２２、２２４に示されるように）２つのダウンスケーリング動作の後に形成され得る。この場合、各々の残差ブロックは、３×３カーネルの２つの分離可能な畳み込みおよび２つのインスタンス正規化を含む。従来のニューラルネットワークでは、各層は次の層にフィードする。開示される主題の実現例におけるような残差ブロックを有するネットワークでは、各層は、次の層にフィードし得るとともに、２ホップ離れた層に直接フィードし得る（すなわち、２つおきの残差接続）。６４のチャネルがあり得るとともに、この３×３カーネルに対してストライドは１であり得る。言い換えれば、３×３カーネル（すなわち、合計３０の分離可能な畳み込みに対して各々が１５個のブロックを有する２つのインスタンス）であり、６４のチャネルがあり、ストライドが１であり、２のインスタンス正規化（すなわち、２つおきの残差接続）がある場合には、３０の分離可能な畳み込みが存在し得る。

図２Ａに示す動作２４０において、コンピューティングデバイスは、複数の残差ブロックに対して複数のアップスケーリング動作を実行し得る。図２Ｃに示されるように、コンピューティングデバイスは、動作２４２において、チャネルの第３のセットに対して第３の分離可能な畳み込みを実行して、これらチャネルの第３のセットをチャネルの第２のセットに変換することによって、第１のアップスケーリング動作を実行し得る。コンピューティングデバイスは、動作２４４で、チャネルの第２のセットに対して第４の分離可能な畳み込みを実行して、これらチャネルの第２のセットをチャネルの第１のセットに変換することによって、第２のアップスケーリング動作を実行し得る。

たとえば、（たとえば、図２Ａに示す動作２３０で）残差ブロックを形成した後、（たとえば、図２Ｃの動作２４２、２４４に示されるような）２つのアップスケーリング動作が実行されてもよい。いくつかの実現例では、第１のアップスケーリング動作（たとえば、図２Ｃの動作２４２）は、３×３カーネルで分離可能な畳み込みを転置し得るとともに、６４のチャネルは、ストライドが２である３２のチャネルに変換され得る。第２のアップスケーリング動作（たとえば、図２Ｃの動作２４４）は、３×３カーネルで分離可能な畳み込みを転置し得るとともに、３２のチャネルは、ストライドが２である３のチャネルに変換され得る。第１のアップスケーリング動作（たとえば、動作２４２）および第２のアップスケーリング動作（たとえば、動作２４４）は、３×３のサイズおよび２のストライドを有するカーネルを用いて実行され得る。

図２Ａに示す動作２５０において、コンピューティングデバイスに通信可能に結合されたディスプレイデバイス（たとえば、図６に示すディスプレイ２２）は、少なくとも実行された複数のアップスケーリング動作および基準画像に基づいて、スタイル化された画像を表示し得る。方法１００は、（たとえば、図３Ｂの画像３１０に示されるような）基準画像のアーティスティックスタイルで（たとえば、図３Ｃの画像３２０に示されるような）映像を生成し得る。オプティカルフロー推定のための安定化方法を開示される主題の実現例において用いることで、生成された映像のノイズを低減してもよい。

開示される主題の実現例は、３つのニューラルネットワークを用いる、図４Ａに示されるスタイル転送モデル４００を提供し得る。全体を通して３つのニューラルネットワークが説明されているが、１つ以上のニューラルネットワークが用いられてもよい。第１のニューラルネットワークは、基準画像を入力として受取って、そのデータ表現を出力するスタイル予測ネットワークであり得る。第２のニューラルネットワークは、データ表現と共に入力画像（すなわち、変換されるべき画像）を取込んで、スタイル化された画像を出力する変換器ネットワークであり得る。第３のニューラルネットワークは、基準画像、入力画像、およびスタイル化された画像を用いて、これら３つの画像間のコンテンツおよびスタイルの類似性を判定する損失ネットワークであり得る。いくつかの実現例では、損失ネットワークは、画像間の類似性を判定するために、３つ未満または３つよりも多くの画像を用いてもよい。

たとえば、図４Ａは、スタイル転送ネットワークＴ（４０４）に適用される入力画像ｃ（４０２）と、スタイル予測ネットワークＰ（４０８）に適用される基準画像ｓ（４０６）とを示す。スタイル予測ネットワークＰ（４０８）の出力（４１０）は、スタイル転送ネットワークＴ（４０４）に適用されて、スタイル化された画像Ｔ（４１２）を生成し得る。入力画像ｃ（４０２）、基準画像ｓ（４０６）、およびスタイル化された画像Ｔ（４１２）は、損失ネットワーク（４１４）（たとえば、ビジュアルジオメトリグループ（ＶＧＧ－１６）畳み込みニューラルネットワーク）への入力であってもよい。損失ネットワーク（４１４）は、入力画像ｃ（４０２）、基準画像ｓ（４０６）、およびスタイル化された画像Ｔ（４１２）に基づいてスタイル損失（３１６）および／またはコンテンツ損失（３１８）を判定し得る。

損失ネットワーク（たとえば、図４Ａに示すＶＧＧ損失ネットワーク３１４）は、（たとえば、入力画像ｃ（３０２）からの）画像コンテンツと（たとえば、基準画像ｓ（３０６）からの）スタイルとの間のバランス、および／または、転送される特徴のスケールを判定するように変換器ネットワークをガイドし得る。損失を算出するために、各画像（たとえば、入力画像ｃ（３０２）、基準画像ｓ（３０６）およびスタイル化された画像Ｔ（３１２））は、予めトレーニングされた画像分類ネットワーク（たとえば、ＶＧＧ損失ネットワーク３１４）に提供されてもよい。損失ネットワークアーキテクチャ（４２０）を図４Ｂに示す。

コンテンツ損失（たとえば、図４Ａに示すようなコンテンツ損失４１８）に関して、各層上の入力画像（たとえば、図４Ａに示す入力画像ｃ（４０２））およびスタイル化された画像（たとえば、基準画像ｓ（４０６））の表現を比較して、これらがどれだけ厳密に合致しているかを判定し得る。（たとえば、図４Ａに示されるような）スタイル損失は、基準画像とスタイル化された画像との間の相関性を比較することによって判定され得る。

層の連続セットの各々において、損失ネットワーク（４１４）は、予め定められた小さなパターンの低レベルの局所的表現から画像の特徴および／または特性全体の定義に至るまでの、予め定められた領域にわたる情報を集約し得る。

最終的な損失は、コンテンツ損失およびスタイル損失のうちの１つ以上の成分にわたる加重和であり得る。重み付けは、図５Ａ～図５Ｍに示されるとともに以下において説明される例において調整され得るとともに、重み付けは、例示的なビデオゲームフレームスタイル化の文脈において、各層が何に寄与するかを示し得る。この例では、ラベル（たとえば、ｃｏｎｖ１、ｃｏｎｖ２、ｃｏｎｖ３、および／またはｃｏｎｖ４）は、図１Ａおよび図１Ｂの畳み込み層の各セットにおける第１の層に対応し得る。すなわち、畳み込み数が多いほど表現のレベルがより高くなる。

図５Ａは、上述のニューラルネットワークをトレーニングするのに採用された入力画像５００を示しており、この画像では、混雑した空の特徴と平地特徴と詳細な建物とのバランスが取られている。図５Ｂは、この例についての基準画像５０２を示す。

この例では、画像に対する調整前の基本設定は以下のとおりである。

図５Ｃは、上述のパラメータでトレーニングされた入力画像５００であり得る画像５０４を示す。

この例では、図５Ｄ～図５Ｈは、ｃｏｎｖ１（図５Ｄ）、ｃｏｎｖ２（図５Ｅ）、ｃｏｎｖ３（図５Ｆ）、およびｃｏｎｖ４（図５Ｇ）のそれぞれの層からのスタイル損失でトレーニングされ得る。図５Ｈは、これらの層の全て（すなわち、ｃｏｎｖ１層、ｃｏｎｖ２層、ｃｏｎｖ３層、およびｃｏｎｖ４層の組合わせ）を含み得る。図５Ｄ～図５Ｈでは、重みは、１ｅ^－３から１ｅ^－２に変更されてもよく、コンテンツパラメータは、上記に示したデフォルトパラメータから変更されないままでもよい。

図５Ｄ（ｃｏｎｖｌ）に示す画像５０６は勾配を含み得る。この場合、画像のうちそれほど詳細ではない部分は繰り返しのパターンアーチファクトによって埋められている。図５Ｅ（ｃｏｎｖ２）に示す画像５０８は、斜めおよび／または水平のアーチファクトを含み得るとともに、（図５Ｂに示す）基準画像中の月の中間サイズの特徴を含み得る。図５Ｆ（ｃｏｎｖ３）に示される画像５１０は、基準画像（図５Ｂの画像５０２）の特徴的なブラシストロークを含み得るとともに、画素パターンアーチファクトを有するように表わされない可能性もある。図５Ｇ（ｃｏｎｖ４）に示される画像５１２では、ｃｏｎｖ４損失の相対値は比較的低いので、モデルは、トレーニングされると入力画像（たとえば、図５Ａに示す画像５００）を再構築する。図５Ｈに示す画像５１４は、デフォルトと本質的に同じパラメータでトレーニングされたモデルを含むが、すべてのスタイル重みには１０が掛けられている。図５Ｈの画像５１４は、図５Ａの入力画像５００に詳述されない領域に、より太いスタイルパターンを有し得る。この合成画像（図５Ｈの画像５１４）およびｃｏｎｖ３（図５Ｆの画像５１０）には、図５Ｂに示す基準画像５０２からのいくつかの星が存在している。

図５Ｉ～図５Ｍは、ｃｏｎｖ１（図５Ｉの画像５１６）、ｃｏｎｖ２（図５Ｊの画像５１８）、ｃｏｎｖ３（図５Ｋの画像５２０）、およびｃｏｎｖ４（図５Ｌの画像５２２）からのコンテンツ損失でトレーニングされた画像を示す。図５Ｍは、これらの層の全て（すなわち、ｃｏｎｖ１層、ｃｏｎｖ２層、ｃｏｎｖ３層、およびｃｏｎｖ４層の組合わせ）を含む画像５２４を示す。スタイルパラメータは、デフォルト（すなわち、上述の基本設定）から変更されていなくてよく、入力画像重みは、ｃｏｎｖ４（図５Ｌの画像５２２）を除くすべての畳み込みに関して１であってもよく、これは、その相対値が低いせいで１ｅ^２に設定され得る。

図５Ｉのｃｏｎｖ１画像（画像５１６）はスタイルｃｏｎｖ３画像（図５Ｆの画像５２０）と同様に表現され得るとともに、図５Ｊのｃｏｎｖ２画像（画像５１８）は比較的クリーンな地面部分を有するように表現され得る。図５Ｋのｃｏｎｖ３画像（画像５２０）は、ｃｏｎｖ２バージョン（図５Ｋの画像５１８）と視覚的に同様であり得るが、ブラシストロークがわずかにより強く、はるかに乱雑な地面を含んでいる。図５Ｌのｃｏｎｖ４画像（画像５２２）は、実際のオブジェクトの詳細を保持し得るとともに、画像の主要な詳細に影響を及ぼさなかった区域においてスタイルについてのコンテンツを犠牲にする可能性があった。図５Ｍの画像５２４は、ｃｏｎｖ１画像、ｃｏｎｖ２画像、ｃｏｎｖ３画像、およびｃｏｎｖ４画像を含み得るとともに、よりマイルドなスタイル転送を呈し得る。これは、全体的なコンテンツ損失がより高く重み付けされるからであり得る。

上述の例では、図５Ｆに示される画像５１０および図５Ｉに示される画像５１６のスタイル化は、図５Ｂに示される基準画像５０２のブラシストロークを引き出すように見える。図５Ｆに示される画像５１０のスタイル化は、図５Ｂに示される基準画像５０２のように、より「流動的（flow）」である一方で、図５Ｉに示される画像５１６は、図５Ａに示される入力画像５００のように見える可能性があるものの、特に空において、図５Ｂに示される基準画像５０２のブラシストロークとより一層合致する。より低レベル（たとえば、ｃｏｎｖ１（図５Ｄに示す画像５０６、図５Ｅに画像５０８として示すｃｏｎｖ２画像）からのスタイル損失により、図５Ｈに示す合成画像（画像５１４）のスタイル化に存在し得るｃｏｎｖ３画像（図５Ｆに示す画像５１０）と図５Ｉに示すｃｏｎｖ１画像（画像５１６）とにおけるブラシストロークに余分のテクスチャが追加され得る。

図５Ａ～図５Ｍに示す上述の例では、損失重みは、互いに対してスケーリングされ得るようには調整されなかった。すなわち、損失はｃｏｎｖ２＞ｃｏｎｖ３＞ｃｏｎｖ１となるようなものであり、これらの損失はｃｏｎｖ４よりも大きかった。しかしながら、図５Ｄ～図５Ｇおよび図５Ｉ～図５Ｌに示される畳み込みの大部分は、複数の画像の結果が質的に異なって見えるように、十分に異なっている可能性もある。

上述の例の結果に基づいて、テクスチャがどのように現われるかを確認するために、モデルは、さまざまな層損失のさまざまな組合わせで、および／または、入力画像サイズと基準画像サイズとのさまざまな比で、トレーニングされてもよい。いくつかの実現例では、結果として得られる画像において基準画像のスタイルがより優勢になるように設定が調整されるのに応じて、画像は、たとえばビデオゲームの動きシーケンスにおいてより多くのちらつきを含む可能性がある。いくつかの実現例では、モデルは、１つ以上の安定化方法（たとえば、オプティカルフロー、ノイズなど）とともにトレーニングされてもよい。

開示される主題のスタイル転送システムの畳み込みニューラルネットワークは、プロセッサ（たとえば、グラフィック処理ユニット（graphical processing unit：ＧＰＵ））が畳み込みを効率的に処理し得るように、現在のシステムよりも少ないチャネルおよび畳み込みを用い得る。現在のシステムは、たとえば、より大きな９×９カーネルおよび３×３カーネルの両方で畳み込みを実行し得るとともに、チャネルの数がより大きくなるようにスケーリング動作を実行し得る。たとえば、いくつかの現在のシステムは、３のチャネルから３２のチャネルへ、３２のチャネルから６４のチャネルへ、および６４のチャネルから１２８のチャネルへのスケーリング動作を実行してもよい。このようなシステムが有する残差ブロックはより少なくなる可能性があるが、各ブロックが有するチャネルの数はより多くなる可能性があり、これにより、計算の数が増える可能性がある。現在のシステムは、本開示の主題の実現例と比較して、ダウンスケーリングの段階およびアップスケーリングの段階が多くなっている。すなわち、チャネルの数、スケーリング動作の数、および畳み込みの数を減らすことにより、開示される主題の実現例は、高分解能（たとえば、１０８０ｐ）でリアルタイムで映像のスタイル変換を提供し得る。

連続フレームにわたる安定性を高めるために、開示される主題の畳み込みニューラルネットワークは、画素の予測されたオプティカルフローに基づいた損失関数における安定化項を用い得る。これは計算集約的になり得るが、この計算は、畳み込みニューラルネットワークをトレーニングする際にいくつかの実現例でのみ実行され得るものであって、映像場面および基準画像を用いて画像を生成する際には実行されなくてもよい。すなわち、畳み込みニューラルネットワークがトレーニングされると、損失関数を計算する必要がなくなり得るので、開示される主題の実現例は、計算の複雑さを低く抑えてスタイル転送を実行し得る。畳み込みニューラルネットワークは、一度に１つのフレームに対して演算を実行するにも関わらず、特徴の安定性を強化するように学習し得る。安定化項は、開示される主題の畳み込みニューラルネットワークに、進行中であって現在のフレームの後に続くフレームを「認識」させ得る。すなわち、安定化項は、フレーム間に急激な視覚的変化が起こり得ないように、連続するフレーム（たとえば、過去のフレーム、現在のフレーム、および次のフレーム）間のスタイル転送を滑らかにし得る。

畳み込みニューラルネットワークは、たとえば、ビデオゲーム環境などの環境から１分または２分の映像を用いてトレーニングされてもよい。いくつかの実現例では、２分よりも長い（たとえば、１０分、２０分、３０分、１時間などの）映像を用いて畳み込みニューラルネットワークをトレーニングしてもよい。たとえば、複数の異なる視覚環境を有するビデオゲームでは、畳み込みニューラルネットワークは、異なる環境の各々ごとに約２分の映像でトレーニングされ得る。入力映像でトレーニングされる畳み込みニューラルネットワークは重みのセットを生成する。

任意の（たとえば、ゲームのソースコードへのアクセスを必要としない）ビデオゲームにスタイル転送を適用するために、開示される主題の実現例は、生成された重みのセットを後処理シェーダに提供し得る。いくつかの実現例では、重みのセットは、Ｖｕｌｋａｎ（商標）後処理シェーダのためのものであり得る。トレーニングされたモデルからの重みはシェーダにエクスポートされ得るとともに、シェーダによって適用され得る。いくつかの実現例では、重みは実行時に変更されてもよい。重み付きのシェーダは小さくてもよく（たとえば、約５１２ＫＢ）、映像ストリームおよび／またはゲームストリームに加えて、リアルタイムで実行されてもよい。すなわち、シェーダは、映像層上で高いフレームレート（たとえば、毎秒４５～６０フレーム以上）で実行され得る。

シェーダは、クラウドベースのゲーミングプラットフォームによって、サーバベースのゲーミングプラットフォームによって、または、ビデオゲーム環境の映像ストリームを実行時に基準静止画像のアーティスティックスタイルに変換するために用いられ得る任意の適切なコンピュータベースのゲーミングプラットフォームによって、提供される映像ストリーム上で実行され得る。いくつかの実現例では、畳み込みニューラルネットワークは連続的に実行されてもよく、シェーダは異なる場所に格納されてもよく、さまざまなレンダリングシステムが用いられてもよく、および／または、シェーダが（映像層上で実行されるのではなく）ゲームエンジン自体に一体化されてもよい。

開示される主題の実現例では、スタイルの大きさは、拡大または縮小するようにカスタマイズ可能であり得る。すなわち、結果として得られる映像に対する基準静止画像の影響の量を変化させ得る。画像に存在するノイズの量を変更してもよく、これにより、畳み込みニューラルネットワークがスタイル変換を実行する方法を変更してもよい。いくつかの実現例では、モデルをトレーニングするために用いられる映像の量を増やしてもよく、および／または、モデルをトレーニングするために用いられるノイズテクスチャの量を変更してもよい。

開示される主題の実現例によって提供されるアーティスティックスタイル転送をリアルタイムで実行することにより、ゲームプレイ中の視覚スタイルのリアルタイムなシフト、個々にカスタマイズされたアーティスティックスタイル（たとえば擬人化など）、ユーザ作成コンテンツにより生成されたスタイル（たとえば、図面をゲームに変更）、および、ビデオゲームアートスタイルの高速反復、を含むビデオゲームインタラクションを増やすことが可能となり得る。従来のシステムでは、例示された二次元画像を完全に現実化されたゲーム環境に変換するには、典型的には、カスタムテクスチャペインティング、モデリング、マテリアルクラフティング、ライティング、およびチューニングが必要となる。開示される主題の実現例によって提供されるリアルタイムのアーティスティックスタイル転送は、ゲームコンセプトから対話型ゲーム環境のテストに進むまでの時間を短縮することを可能にし得る。開示される主題の実現例は、ビデオゲームに適用されると、ゲーム中のプレーヤのキャラクタの気分に基づいてスタイル変更をもたらし得るとともに、および／または、ゲームの世界または領域のさまざまな部分に対してさまざまなスタイル化を提供し得る。

開示される主題の実現例は、ビデオゲームに複数のアートスタイルを提供するように、アートスタイルをリアルタイムでシフトさせることを規定し得る。開示される主題の実現例は、特定のゲームに適したアートスタイルを迅速かつ効率的に見出すために、複数のアートスタイルをテストすることを規定し得る。

本開示の主題の実施形態は、さまざまなコンポーネントおよびネットワークアーキテクチャにおいて実現例され、それらとともに用いられ得る。図６は、本開示の主題の実施形態を実現するのに適した例示的なコンピューティングデバイス２０である。デバイス２０は、たとえば、デスクトップコンピュータもしくはラップトップコンピュータ、または、スマートフォン、タブレットなどのモバイルコンピューティングデバイスであり得る。デバイス２０は、ユーザデバイス、スタイル転送デバイス、畳み込みニューラルネットワークデバイス、シェーダデバイスなどであり得る。デバイス２０はバス２１を含み得る。バス２１はコンピュータ２０の主要コンポーネントを相互接続する。コンピュータ２０の主要コンポーネントは、たとえば、中央プロセッサ２４、ランダムアクセスメモリ（Random Access Memory：ＲＡＭ）、読取り専用メモリ（Read Only Memory：ＲＯＭ）、フラッシュＲＡＭなどのメモリ２７、ディスプレイスクリーンなどのユーザディスプレイ２２、キーボード、マウス、タッチスクリーンなどの１つ以上のコントローラおよび関連するユーザ入力デバイスを含み得るユーザ入力インターフェイス２６、ハードドライブ、フラッシュストレージなどの固定ストレージ２３、光ディスク、フラッシュドライブなどを制御するとともにこれらを収容するように動作するリムーバブル媒体コンポーネント２５、ならびに、適切なネットワーク接続を介して１つ以上のリモートデバイスと通信するように動作可能であるネットワークインターフェイス２９を含み得る。

バス２１は、中央プロセッサ２４と、ＲＡＭ、ＲＯＭ、および上述の他のメモリを含み得る１つ以上のメモリコンポーネントとの間のデータ通信を可能にする。典型的には、ＲＡＭは、オペレーティングシステムおよびアプリケーションプログラムがロードされる主メモリである。ＲＯＭまたはフラッシュメモリコンポーネントは、特に、周辺コンポーネントとのインタラクションなどの基本的なハードウェア動作を制御する基本入出力システム（Basic Input-Output system：ＢＩＯＳ）を含み得る。コンピュータ２０に常駐するアプリケーションは、一般に、ハードディスクドライブ（たとえば、固定ストレージ２３）、光学ドライブ、フロッピー（登録商標）ディスク、または他の記憶媒体などのコンピュータ可読媒体上に格納されるとともにコンピュータ可読媒体を介してアクセスされる。

固定ストレージ２３は、コンピュータ２０と一体型であってもよく、または、別個のものであって他のインターフェイスを介してアクセスされてもよい。ネットワークインターフェイス２９は、有線接続または無線接続を介してリモートサーバに直接接続されてもよい。ネットワークインターフェイス２９は、デジタルセルラ電話、ＷｉＦｉ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、近距離場等を含む、当業者によって容易に理解されるであろう任意の適切な技法およびプロトコルを用いて、このような接続を提供し得る。たとえば、ネットワークインターフェイス２９は、以下でさらに詳細に説明されるように、コンピュータが１つ以上のローカルネットワーク、ワイドエリアネットワーク、または他の通信ネットワークを介して他のコンピュータと通信することを可能にし得る。

多くの他のデバイスまたはコンポーネント（図示せず）が、同様の態様（たとえば、文書スキャナ、デジタルカメラなど）で接続されてもよい。逆に、本開示を実施するために、図６に示されるコンポーネントの全てが存在する必要はない。コンポーネントは、図示される方法とは異なる方法で相互接続され得る。図６に示すようなコンピュータの動作は、当技術分野では容易に公知であり、本願では詳細には説明しない。本開示を実現するためのコードは、メモリ２７、固定ストレージ２３、リムーバブル媒体２５のうちの１つ以上などのコンピュータ可読記憶媒体、または遠隔格納場所に格納され得る。

図７は、開示される主題の実現例に従った例示的な構成を示す。リモートサービスまたはサービスプロバイダ１１などの１つ以上のデバイスまたはシステム１０、１１、ローカルコンピュータ、スマートフォン、タブレットコンピューティングデバイスなどのユーザデバイス１０などは、１つ以上のネットワーク７を介して他のデバイスにも接続し得る。サービスプロバイダ１１は、スタイル転送システム、畳み込みニューラルネットワークシステム、および／またはシェーダシステムであってもよい。ネットワークは、ローカルネットワーク、ワイドエリアネットワーク、インターネット、または他の任意の好適な通信ネットワーク（複数も可）であってもよく、有線ネットワークおよび／または無線ネットワークを含む任意の適切なプラットフォーム上で実現され得る。デバイス１０、１１は、たとえばスタイル転送システム、畳み込みニューラルネットワークシステム、および／またはシェーダシステムを含み得る、処理ユニット１４、データベース１５、およびユーザインターフェイスシステム１３などの１つ以上のリモートコンピュータシステムと通信し得る。場合によっては、デバイス１０、１１は、データベース１５、処理ユニット１４などの１つ以上の他のシステムへのアクセスを可能にし得るユーザインターフェイスシステム１３と通信してもよい。たとえば、ユーザインターフェイス１３は、１つ以上の他のコンピュータシステムからデータを供給するユーザアクセス可能なウェブページであってもよい。ユーザインターフェイス１３は、人が読取り可能なウェブページがユーザデバイス１０上のウェブブラウザクライアントに提供される場合、コンピュータが読取り可能なＡＰＩまたは他のインターフェイスがリモートサービスクライアント１１に提供される場合などに、異なるクライアントに異なるインターフェイスを提供し得る。

ユーザインターフェイス１３、データベース１５、および／もしくは処理ユニット１４は、一体型システムの一部であってもよく、または、プライベートネットワーク、インターネットもしくは他の任意の適切なネットワークを介して通信する複数のコンピュータシステムを含んでもよい。１つ以上の処理ユニット１４は、たとえば、クラウドベースのコンピューティングシステム、検索エンジン、コンテンツ配信システムなどの分散システムの一部であってよく、データベース１５および／またはユーザインターフェイス１３を含み得るかまたはそれらと通信し得る。いくつかの構成では、分析システム５は、格納されたデータまたは取得されたデータが処理ユニット１４、データベース１５および／またはユーザインターフェイス１３に配信される前に分析システム５によって前処理される場合などに、バックエンド処理を提供し得る。たとえば、機械学習システム５は、さまざまな予測モデル、データ分析などを１つ以上の他のシステム１３、１４、１５に提供してもよい。

より一般的には、本開示の主題のさまざまな実施形態は、コンピュータで実施されるプロセスおよびこれらのプロセスを実施するための装置を含んでもよく、またはコンピュータで実施されるプロセスおよびこれらのプロセスを実施するための装置として具現化されてもよい。また、実施形態は、フロッピー（登録商標）ディスク、ＣＤ－ＲＯＭ、ハードドライブ、ユニバーサルシリアルバス（universal serial bus：ＵＳＢ）ドライブ、または他の任意の機械可読記憶媒体などの非一時的な媒体および／または有形媒体において具体化される命令を含むコンピュータプログラムコードを有するコンピュータプログラム製品の形態で具現化されてもよく、このため、コンピュータプログラムコードがコンピュータにロードされてコンピュータによって実行されると、当該コンピュータは、本開示の主題の実施形態を実施するための装置となる。また、実施形態は、記憶媒体に格納されていようとも、コンピュータにロードされていようとも、および／またはコンピュータによって実行されていようとも、何らかの伝送媒体、例えば、電気配線または電気ケーブル、光ファイバ、または電磁波を介して伝送されていようとも、コンピュータプログラムコードの形態で具現化され得る。このため、コンピュータプログラムコードがコンピュータにロードされてコンピュータによって実行されると、当該コンピュータは、本開示の主題の実施形態を実施するための装置となる。汎用マイクロプロセッサ上で実装されると、コンピュータプログラムコードセグメントは、特定の論理回路を作成するようにマイクロプロセッサを構成する。

いくつかの構成では、コンピュータ可読記憶媒体に格納されたコンピュータ可読命令のセットは、汎用プロセッサによって実現され得るものであって、汎用プロセッサまたは汎用プロセッサを含むデバイスを、命令を実現または実施するように構成された専用のデバイスに変換し得る。実施形態は、ハードウェアおよび／またはファームウェアで本開示の主題の実施形態に係る技術の全体または一部を具体化する汎用マイクロプロセッサおよび／または特定用途向け集積回路（Application Specific Integrated Circuit：ＡＳＩＣ）などのプロセッサを含み得るハードウェアを用いて実現されてもよい。プロセッサは、メモリ、たとえば、ＲＡＭ、ＲＯＭ、フラッシュメモリ、ハードディスク、または電子情報を格納することができる他の任意のデバイスなどに結合されてもよい。メモリは、開示される主題の実施形態に係る技術を実行するために、プロセッサによって実行されるように適合された命令を格納してもよい。

説明を目的として、特定の実施形態を参照して上記の説明を行なった。しかしながら、上記の例示的な説明は、網羅的であることを意図しておらず、または本開示の主題の実施形態を開示した厳密な形態に限定することを意図していない。上記の教示を参照することで多くの修正および変形が可能である。実施形態は、開示される主題の実施形態の原理およびその実用的な用途を説明するために選択および説明されてきた。これにより、当業者は、これらの実施形態と、意図された特定の用途に適し得るさまざまな修正を含むさまざまな実施形態とを利用することが可能となる。

本明細書中に開示される実現例は、以下に記載するようなシステム、デバイス、配置、技術および構成を含み得る。

１．コンピューティングデバイスにおいて、少なくとも１つの画像および基準画像を受信するステップと、
当該コンピューティングデバイスにおいて、当該受信した少なくとも１つの画像に対して分離可能な畳み込みを含む複数のダウンスケーリング動作を実行するステップとを含む方法であって、当該複数のダウンスケーリング動作を実行するステップは、
カーネルを用いて第１の分離可能な畳み込みを実行して、チャネルの第１のセットを、当該チャネルの第１のセットよりも数が多いチャネルの第２のセットに変換するステップと、
当該カーネルを用いて第２の分離可能な畳み込みを実行して、当該第１の分離可能な畳み込みの当該チャネルの第２のセットを、当該チャネルの第２のセットよりも数の多いチャネルの第３のセットに変換するステップとを含み、当該方法はさらに、
当該コンピューティングデバイスにおいて複数の残差ブロックを形成するステップを含み、各々の残差ブロックは、当該カーネルの２つの分離可能な畳み込みおよび２つのインスタンス正規化を含み、当該方法はさらに、
当該コンピューティングデバイスにおいて、当該複数の残差ブロックに対して複数のアップスケーリング動作を実行するステップを含み、当該複数のアップスケーリング動作を実行するステップは、
当該チャネルの第３のセットに対して第３の分離可能な畳み込みを実行して、当該チャネルの第３のセットを当該チャネルの第２のセットに変換することによって、第１のアップスケーリング動作を実行するステップと、
当該チャネルの第２のセットに対して第４の分離可能な畳み込みを実行して、当該チャネルの第２のセットを当該チャネルの第１のセットに変換することによって、第２のアップスケーリング動作を実行するステップとを含み、当該方法はさらに、
当該コンピューティングデバイスに通信可能に結合されたディスプレイデバイスにおいて、少なくとも当該実行された複数のアップスケーリング動作および当該基準画像に基いて、スタイル化された画像を表示するステップを含む、方法。

２．当該コンピューティングデバイスにおいて、当該第１の分離可能な畳み込みを実行する前の重みのベクトルおよびバイアスに基づいたフィルタを、受信した少なくとも１つの画像の入力値に適用するステップをさらに含む、実現例１に記載の方法。

３．当該コンピューティングデバイスにおいて、当該重みおよび当該バイアスのうち少なくとも１つを後処理シェーダに出力する、実現例２に記載の方法。

４．当該第１の分離可能な畳み込みおよび当該第２の分離可能な畳み込みのカーネルは、３×３のサイズを有し、ストライドが２であり、当該ストライドは、当該カーネルがシフトされる量である、上記実現例のいずれか１つに記載の方法。

５．当該第１の分離可能な畳み込みは、
当該コンピューティングデバイスにおいて、３のチャネルを有する当該チャネルの第１のセットを、３２のチャネルを有する当該チャネルの第２のセットに変換するステップを含む、上記実現例のいずれか１つに記載の方法。

６．当該第２の分離可能な畳み込みは、
当該コンピューティングデバイスにおいて、３２のチャネルを有する当該チャネルの第２のセットを、６４のチャネルを有する当該チャネルの第３のセットに変換するステップを含む、実現例５に記載の方法。

７．当該形成された残差ブロックは、１５の残差ブロックを含み、各々の残差ブロックは、３×３カーネルの２つの分離可能な畳み込みおよび２つのインスタンス正規化を含む、上記実現例のいずれか１つに記載の方法。

８．当該第１のアップスケーリング動作および当該第２のアップスケーリング動作は、３×３のサイズおよび２のストライドを有するカーネルを用いて実行され、当該ストライドは、当該カーネルがシフトされる量である、上記実現例のいずれか１つに記載の方法。

９．当該第１のアップスケーリング動作は、
当該コンピューティングデバイスにおいて、当該チャネルの第３のセットの６４のチャネルを当該チャネルの第２のセットの３２のチャネルに変換することによって当該第３の分離可能な畳み込みを実行するステップを含む、上記実現例のいずれか１つに記載の方法。

１０．当該第２のアップスケーリング動作は、
当該コンピューティングデバイスにおいて、当該チャネルの第２のセットの当該３２のチャネルを当該チャネルの第１のセットの３のチャネルに変換することによって当該第４の分離可能な畳み込みを実行するステップを含む、実現例９に記載の方法。

１１．当該コンピューティングデバイスにおいて、当該受信した少なくとも１つの画像に画像ノイズを追加するステップをさらに含む、上記実現例のいずれか１つに記載の方法。

１２．少なくともプロセッサおよびメモリを含むコンピューティングデバイスを備えたシステムであって、当該コンピューティングデバイスは、
少なくとも１つの画像および基準画像を受信し、
当該受信した少なくとも１つの画像に対して分離可能な畳み込みを含む複数のダウンスケーリング動作を実行し、当該複数のダウンスケーリング動作を実行することは、
カーネルを用いて第１の分離可能な畳み込みを実行して、チャネルの第１のセットを、当該チャネルの第１のセットよりも数が多いチャネルの第２のセットに変換することと、
当該カーネルを用いて第２の分離可能な畳み込みを実行して、当該第１の分離可能な畳み込みの当該チャネルの第２のセットを、当該チャネルの第２のセットよりも数の多いチャネルの第３のセットに変換することとを含み、当該コンピューティングデバイスはさらに、
複数の残差ブロックを形成し、各々の残差ブロックは、当該カーネルの２つの分離可能な畳み込みおよび２つのインスタンス正規化を含み、当該コンピューティングデバイスはさらに、
当該複数の残差ブロックに対して複数のアップスケーリング動作を実行し、当該複数のアップスケーリング動作を実行することは、
当該チャネルの第３のセットに対して第３の分離可能な畳み込みを実行して、当該チャネルの第３のセットを当該チャネルの第２のセットに変換することによって、第１のアップスケーリング動作を実行することと、
当該チャネルの第２のセットに対して第４の分離可能な畳み込みを実行して、当該チャネルの第２のセットを当該チャネルの第１のセットに変換することによって、第２のアップスケーリング動作を実行することとを含み、当該システムはさらに、
当該コンピューティングデバイスに通信可能に結合されたディスプレイデバイスを含み、当該ディスプレイデバイスは、少なくとも当該実行された複数のアップスケーリング動作および当該基準画像に基いて、スタイル化された画像を表示する、システム。

１３．当該コンピューティングデバイスは、当該第１の分離可能な畳み込みを実行する前の重みのベクトルおよびバイアスに基づいたフィルタを、当該受信した少なくとも１つの画像の入力値に適用する、実現例１２に記載のシステム。

１４．当該コンピューティングデバイスは、当該重みおよび当該バイアスのうち少なくとも１つを後処理シェーダに出力する、実現例１３に記載のシステム。

１５．当該第１の分離可能な畳み込みおよび当該第２の分離可能な畳み込みのカーネルは、３×３のサイズを有し、ストライドが２であり、当該ストライドは、当該カーネルがシフトされる量である、上記実現例のいずれか１つに記載のシステム。

１６．当該コンピューティングデバイスは、当該第１の分離可能な畳み込みのために、３のチャネルを有する当該チャネルの第１のセットを、３２のチャネルを有する当該チャネルの第２のセットに変換する、上記実現例のいずれか１つに記載のシステム。

１７．当該コンピューティングデバイスは、当該第２の分離可能な畳み込みのために、３２のチャネルを有する当該チャネルの第２のセットを、６４のチャネルを有する当該チャネルの第３のセットに変換する、実現例１６に記載のシステム。

１８．形成された残差ブロックは１５の残差ブロックを含み、各々の残差ブロックは、３×３カーネルの２つの分離可能な畳み込みおよび２つのインスタンス正規化を含む、上記実現例のいずれか１つに記載のシステム。

１９．当該第１のアップスケーリング動作および当該第２のアップスケーリング動作は、３×３のサイズおよび２のストライドを有するカーネルを用いて当該コンピューティングデバイスによって実行され、当該ストライドは、当該カーネルがシフトされる量である、上記実現例のいずれか１つに記載のシステム。

２０．当該コンピューティングデバイスは、当該第１のアップスケーリング動作のために、当該チャネルの第３のセットの６４のチャネルを当該チャネルの第２のセットの３２のチャネルに変換することによって当該第３の分離可能な畳み込みを実行する、上記実現例のいずれか１つに記載のシステム。

２１．当該コンピューティングデバイスは、当該第２のアップスケーリング動作のために、当該チャネルの第２のセットの３２のチャネルを当該チャネルの第１のセットの３のチャネルに変換することによって当該第４の分離可能な畳み込みを実行する、実現例２０に記載のシステム。

２２．当該コンピューティングデバイスは、当該受信した少なくとも１つの画像に画像ノイズを追加する、上記実現例のいずれか１つに記載のシステム。

２３．画像をスタイル化するための手段であって、
少なくとも１つの画像および基準画像を受信するための手段と、
当該受信した少なくとも１つの画像に対して分離可能な畳み込みを含む複数のダウンスケーリング動作を実行するための手段とを含み、当該複数のダウンスケーリング動作を実行するための手段は、
カーネルを用いて第１の分離可能な畳み込みを実行して、チャネルの第１のセットを、当該チャネルの第１のセットよりも数が多いチャネルの第２のセットに変換するための手段と、
当該カーネルを用いて第２の分離可能な畳み込みを実行して、当該第１の分離可能な畳み込みの当該チャネルの第２のセットを、当該チャネルの第２のセットよりも数の多いチャネルの第３のセットに変換するための手段とを含み、当該画像をスタイル化するための手段はさらに、
複数の残差ブロックを形成するための手段を含み、各々の残差ブロックは、当該カーネルの２つの分離可能な畳み込みおよび２つのインスタンス正規化を含み、当該画像をスタイル化するための手段はさらに、
当該複数の残差ブロックに対して複数のアップスケーリング動作を実行するための手段を含み、当該複数のアップスケーリング動作を実行するための手段は、
当該チャネルの第３のセットに対して第３の分離可能な畳み込みを実行して、当該チャネルの第３のセットを当該チャネルの第２のセットに変換することによって、第１のアップスケーリング動作を実行するための手段と、
当該チャネルの第２のセットに対して第４の分離可能な畳み込みを実行して、当該チャネルの第２のセットを当該チャネルの第１のセットに変換することによって、第２のアップスケーリング動作を実行するための手段とを含み、当該画像をスタイル化するための手段はさらに、
少なくとも当該実行された複数のアップスケーリング動作および当該基準画像に基いて、スタイル化された画像を表示するための手段を含む、手段。

２４．当該第１の分離可能な畳み込みを実行する前の重みのベクトルおよびバイアスに基づいたフィルタを、受信した少なくとも１つの画像の入力値に適用するための手段をさらに含む、実現例２１に記載の手段。

２５．当該重みおよび当該バイアスのうち少なくとも１つを後処理シェーダに出力するための手段をさらに含む、実現例２４に記載の方法。

２６．当該第１の分離可能な畳み込みおよび当該第２の分離可能な畳み込みのカーネルは、３×３のサイズを有し、ストライドが２であり、当該ストライドは、当該カーネルがシフトされる量である、上記実現例のいずれか１つに記載の手段。

２７．当該第１の分離可能な畳み込みを実行するための手段は、
３のチャネルを有する当該チャネルの第１のセットを、３２のチャネルを有する当該チャネルの第２のセットに変換するための手段を含む、上記実現例のいずれか１つに記載の手段。

２８．当該第２の分離可能な畳み込みを実行するための手段は、
３２のチャネルを有する当該チャネルの第２のセットを、６４のチャネルを有する当該チャネルの第３のセットに変換するための手段を含む、実現例２７に記載の手段。

２９．当該形成された残差ブロックは、１５の残差ブロックを含み、各々の残差ブロックは、３×３カーネルの２つの分離可能な畳み込みおよび２つのインスタンス正規化を含む、上記実現例のいずれか１つに記載の手段。

３０．当該第１のアップスケーリング動作および当該第２のアップスケーリング動作は、３×３のサイズおよび２のストライドを有するカーネルを用いて実行され、当該ストライドは、当該カーネルがシフトされる量である、上記実現例のいずれか１つに記載の手段。

３１．当該第１のアップスケーリング動作を実行するための手段は、
当該チャネルの第３のセットの６４のチャネルを当該チャネルの第２のセットの３２のチャネルに変換することによって当該第３の分離可能な畳み込みを実行するための手段を含む、上記実現例のいずれか１つに記載の手段。

３２．当該第２のアップスケーリング動作を実行するための手段は、
当該チャネルの第２のセットの当該３２のチャネルを当該チャネルの第１のセットの３のチャネルに変換することによって当該第４の分離可能な畳み込みを実行するための手段を含む、実現例３１に記載の手段。

３３．当該受信した少なくとも１つの画像に画像ノイズを追加するための手段をさらに含む、上記実現例のいずれか１つに記載の手段。

Claims

方法であって、
ニューラルネットワークを実現するコンピューティングデバイスにおいて、少なくとも１つの画像および基準画像を受信するステップと、
前記コンピューティングデバイスにおいて、前記受信した少なくとも１つの画像に対して分離可能な畳み込みを含む複数のダウンスケーリング動作を実行するステップとを含み、前記複数のダウンスケーリング動作は、
カーネルを用いて第１の分離可能な畳み込みを実行して、チャネルの第１のセットを、前記チャネルの第１のセットよりも数が多いチャネルの第２のセットに変換することと、
前記カーネルを用いて第２の分離可能な畳み込みを実行して、前記第１の分離可能な畳み込みの前記チャネルの第２のセットを、前記チャネルの第２のセットよりも数の多いチャネルの第３のセットに変換することとを含み、前記方法はさらに、
前記コンピューティングデバイスにおいて、前記複数のダウンスケーリング動作の後に、複数の残差ブロックを形成するステップを含み、各々の残差ブロックは、前記カーネルの２つの分離可能な畳み込みおよび２つのインスタンス正規化を含み、前記ニューラルネットワークの各層は、次の層にフィードし、２ホップ離れた層に直接フィードし、前記方法はさらに、
前記コンピューティングデバイスにおいて、前記複数の残差ブロックに対して複数のアップスケーリング動作を実行するステップを含み、前記複数のアップスケーリング動作を実行するステップは、
前記チャネルの第３のセットに対して第３の分離可能な畳み込みを実行して、前記チャネルの第３のセットを前記チャネルの第２のセットに変換することによって、第１のアップスケーリング動作を実行するステップと、
前記チャネルの第２のセットに対して第４の分離可能な畳み込みを実行して、前記チャネルの第２のセットを前記チャネルの第１のセットに変換することによって、第２のアップスケーリング動作を実行するステップとを含み、前記方法はさらに、
前記コンピューティングデバイスに通信可能に結合されたディスプレイデバイスにおいて、少なくとも前記実行された複数のアップスケーリング動作および前記基準画像に基いて、スタイル化された画像を表示するステップを含む、方法。
前記コンピューティングデバイスにおいて、前記第１の分離可能な畳み込みを実行する前の重みのベクトルおよびバイアスに基づいたフィルタを、前記受信した少なくとも１つの画像の入力値に適用するステップをさらに含む、請求項１に記載の方法。
前記コンピューティングデバイスにおいて、前記重みおよび前記バイアスのうち少なくとも１つを後処理シェーダに出力するステップを含む、請求項２に記載の方法。
前記第１の分離可能な畳み込みおよび前記第２の分離可能な畳み込みのカーネルは、３×３のサイズを有し、ストライドが２であり、前記ストライドは、前記カーネルがシフトされる量である、請求項１～３のいずれかに記載の方法。
前記第１の分離可能な畳み込みは、
前記コンピューティングデバイスにおいて、３のチャネルを有する前記チャネルの第１のセットを、３２のチャネルを有する前記チャネルの第２のセットに変換するステップを含む、請求項１～４のいずれかに記載の方法。
前記第２の分離可能な畳み込みは、
前記コンピューティングデバイスにおいて、３２のチャネルを有する前記チャネルの第２のセットを、６４のチャネルを有する前記チャネルの第３のセットに変換するステップを含む、請求項５に記載の方法。
前記形成された残差ブロックは、１５の残差ブロックを含み、各々の残差ブロックは、３×３カーネルの２つの分離可能な畳み込みおよび２つのインスタンス正規化を含む、請求項１～６のいずれかに記載の方法。
前記第１のアップスケーリング動作および前記第２のアップスケーリング動作は、３×３のサイズおよび２のストライドを有するカーネルを用いて実行され、前記ストライドは、前記カーネルがシフトされる量である、請求項１～７のいずれかに記載の方法。
前記第１のアップスケーリング動作は、
前記コンピューティングデバイスにおいて、前記チャネルの第３のセットの６４のチャネルを前記チャネルの第２のセットの３２のチャネルに変換することによって前記第３の分離可能な畳み込みを実行するステップを含む、請求項１～８のいずれかに記載の方法。
前記第２のアップスケーリング動作は、
前記コンピューティングデバイスにおいて、前記チャネルの第２のセットの前記３２のチャネルを前記チャネルの第１のセットの３のチャネルに変換することによって前記第４の分離可能な畳み込みを実行するステップを含む、請求項９に記載の方法。
前記コンピューティングデバイスにおいて、前記受信した少なくとも１つの画像に画像ノイズを追加するステップをさらに含む、請求項１～１０のいずれかに記載の方法。
ニューラルネットワークを実装するシステムであって、
少なくともプロセッサおよびメモリを含むコンピューティングデバイスを備え、前記コンピューティングデバイスは、
少なくとも１つの画像および基準画像を受信し、
前記受信した少なくとも１つの画像に対して分離可能な畳み込みを含む複数のダウンスケーリング動作を実行し、前記複数のダウンスケーリング動作を実行することは、
カーネルを用いて第１の分離可能な畳み込みを実行して、チャネルの第１のセットを、前記チャネルの第１のセットよりも数が多いチャネルの第２のセットに変換することと、
前記カーネルを用いて第２の分離可能な畳み込みを実行して、前記第１の分離可能な畳み込みの前記チャネルの第２のセットを、前記チャネルの第２のセットよりも数の多いチャネルの第３のセットに変換することとを含み、前記コンピューティングデバイスはさらに、
前記複数のダウンスケーリング動作の後に複数の残差ブロックを形成し、各々の残差ブロックは、前記カーネルの２つの分離可能な畳み込みおよび２つのインスタンス正規化を含み、前記ニューラルネットワークの各層は、次の層にフィードし、２ホップ離れた層に直接フィードし、前記コンピューティングデバイスはさらに、
前記複数の残差ブロックに対して複数のアップスケーリング動作を実行し、前記複数のアップスケーリング動作を実行することは、
前記チャネルの第３のセットに対して第３の分離可能な畳み込みを実行して、前記チャネルの第３のセットを前記チャネルの第２のセットに変換することによって、第１のアップスケーリング動作を実行することと、
前記チャネルの第２のセットに対して第４の分離可能な畳み込みを実行して、前記チャネルの第２のセットを前記チャネルの第１のセットに変換することによって、第２のアップスケーリング動作を実行することとを含み、前記システムはさらに、
前記コンピューティングデバイスに通信可能に結合されて、少なくとも前記実行された複数のアップスケーリング動作および前記基準画像に基いて、スタイル化された画像を表示するためのディスプレイデバイスをさらに備える、システム。
前記コンピューティングデバイスは、前記第１の分離可能な畳み込みを実行する前の重みのベクトルおよびバイアスに基づいたフィルタを、前記受信した少なくとも１つの画像の入力値に適用する、請求項１２に記載のシステム。
前記コンピューティングデバイスは、前記重みおよび前記バイアスのうち少なくとも１つを後処理シェーダに出力する、請求項１３に記載のシステム。
前記第１の分離可能な畳み込みおよび前記第２の分離可能な畳み込みのカーネルは、３×３のサイズを有し、ストライドが２であり、前記ストライドは、前記カーネルがシフトされる量である、請求項１２～１４のいずれかに記載のシステム。
前記コンピューティングデバイスは、前記第１の分離可能な畳み込みのために、３のチャネルを有する前記チャネルの第１のセットを、３２のチャネルを有する前記チャネルの第２のセットに変換する、請求項１２～１５のいずれかに記載のシステム。
前記コンピューティングデバイスは、前記第２の分離可能な畳み込みのために、３２のチャネルを有する前記チャネルの第２のセットを、６４のチャネルを有する前記チャネルの第３のセットに変換する、請求項１６に記載のシステム。
前記形成された残差ブロックは１５の残差ブロックを含み、各々の残差ブロックは、３×３カーネルの２つの分離可能な畳み込みおよび２つのインスタンス正規化を含む、請求項１２～１７のいずれかに記載のシステム。
前記第１のアップスケーリング動作および前記第２のアップスケーリング動作は、３×３のサイズおよび２のストライドを有するカーネルを用いて前記コンピューティングデバイスによって実行され、前記ストライドは、前記カーネルがシフトされる量である、請求項１２～１８のいずれかに記載のシステム。
前記コンピューティングデバイスは、前記第１のアップスケーリング動作のために、前記チャネルの第３のセットの６４のチャネルを前記チャネルの第２のセットの３２のチャネルに変換することによって前記第３の分離可能な畳み込みを実行する、請求項１２～１９のいずれかに記載のシステム。
前記コンピューティングデバイスは、前記第２のアップスケーリング動作のために、前記チャネルの第２のセットの３２のチャネルを前記チャネルの第１のセットの３のチャネルに変換することによって前記第４の分離可能な畳み込みを実行する、請求項２０に記載のシステム。
前記コンピューティングデバイスは、前記受信した少なくとも１つの画像に画像ノイズを追加する、請求項１２～２１のいずれかに記載のシステム。
プロセッサによって実行されると前記プロセッサに請求項１～１１のいずれかに記載の方法を実行させる命令を含む、コンピュータプログラム。