JP2021077365A - 畳み込みニューラルネットワークスタイル転送を使用したグラフィックデザインの作成の自動化 - Google Patents

畳み込みニューラルネットワークスタイル転送を使用したグラフィックデザインの作成の自動化 Download PDF

Info

Publication number
JP2021077365A
JP2021077365A JP2020179358A JP2020179358A JP2021077365A JP 2021077365 A JP2021077365 A JP 2021077365A JP 2020179358 A JP2020179358 A JP 2020179358A JP 2020179358 A JP2020179358 A JP 2020179358A JP 2021077365 A JP2021077365 A JP 2021077365A
Authority
JP
Japan
Prior art keywords
image
neural network
convolutional neural
style
feature layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020179358A
Other languages
English (en)
Other versions
JP2021077365A5 (ja
JP7488436B2 (ja
Inventor
カライバニ・ラメア・クベンドラン
Ramea Kubendran Kalaivani
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Palo Alto Research Center Inc
Original Assignee
Palo Alto Research Center Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Palo Alto Research Center Inc filed Critical Palo Alto Research Center Inc
Publication of JP2021077365A publication Critical patent/JP2021077365A/ja
Publication of JP2021077365A5 publication Critical patent/JP2021077365A5/ja
Application granted granted Critical
Publication of JP7488436B2 publication Critical patent/JP7488436B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【課題】グラフィックデザイン製品のための自動デザイン生成方法およびシステムを提供する。【解決手段】方法は、畳み込みニューラルネットワークにシルエット画像を入力してコンテンツ特徴層を生成するステップ800と、畳み込みニューラルネットワークにスタイル画像を入力して、パターン特徴層を生成するステップ801と、畳み込みニューラルネットワークに参照画像を入力して基準特徴層を決定し、複数の反復のそれぞれについて、畳み込みニューラルネットワークの組み合わせ損失を最小化して、シルエット画像の範囲内のスタイル画像の抽象化を含む出力画像を取得するステップ802、を含む。【選択図】図8

Description

本開示は、アクセシビリティ制約を利用するサブトラクティブ製造のための自動デザイン生成に関する。一実施形態では、畳み込みニューラルネットワークにシルエット画像が入力されてコンテンツ特徴層が生成される。畳み込みニューラルネットワークにスタイル画像が入力されてパターン特徴層が生成される。畳み込みニューラルネットワークに参照画像が入力されて基準特徴層が決定される。複数の反復のそれぞれに関して、シルエット画像の領域内のスタイル画像の抽象化を含む出力画像を得るために、畳み込みニューラルネットワークの組み合わせ損失が最小化される。組み合わせ損失は、コンテンツ特徴層と対応する基準特徴層のうちの1つとの間のコンテンツ損失と、パターン特徴層と対応する基準特徴層のセットとの間のスタイル損失とを含む。出力画像はグラフィックデザイン製品で利用される。
別の実施形態では、シルエット画像及びスタイル画像が畳み込みニューラルネットワークに入力されて、コンテンツ特徴層及びパターン特徴層をそれぞれ生成する。コンテンツ特徴層及びパターン特徴層が畳み込みニューラルネットワーク内で組み合わされて、シルエット画像の領域内のスタイル画像の抽象化を含む出力画像が得られる。この組み合わせは、コンテンツ特徴層と対応する基準特徴層との間のコンテンツ損失を最小化し、パターン特徴層と、対応する1組の他の基準特徴層との間のスタイル損失を最小化することに基づく。出力画像はグラフィックデザイン製品で利用される。
様々な実施形態のこれら及び他の特徴及び態様は、以下の詳細な説明及び添付の図面を考慮して理解され得る。
以下の説明は、以下の図を参照するが、同じ参照番号は、複数の図において類似の/同じ構成要素を識別するために使用され得る。図面は必ずしも縮尺どおりではない。
例示的な実施形態によるデザイン生成の結果を示す画像のセットである。 例示的な実施形態によるシステムのブロック図である。 例示的な実施形態によるシルエット変換モジュールの例示的な入力及び出力を示す図である。 例示的な実施形態による、手順生成モジュールを介して生成された出力パターンを示す図である。 例示的な実施形態による、異なるRGB値に基づくランダム化モジュールの出力を示す画像のセットである。 一実施形態例による、出力をランダム化するために異なる画像処理操作を使用する効果を示す画像のセットである。 一実施形態例によるラスタ−ベクトル変換の一例を示す図である。 例示的な実施形態による方法のフローチャートである。 例示的な実施形態による装置のブロック図である。 例示的な実施形態による、神経スタイルの伝達がどのように実行され得るかを示すブロック図である。 例示的な実施形態による、神経スタイルの伝達がどのように実行され得るかを示すブロック図である。 例示的な実施形態による、神経スタイルの伝達がどのように実行され得るかを示すブロック図である。
本開示は、自動グラフィックデザイン作成に関する。統合された手順生成アルゴリズム及びニューラルスタイル転送アルゴリズムを使用して複数の固有のグラフィックデザインパターンを生成するシステムが記載される。システムは、2種類の入力、すなわちコンテンツ画像及びスタイル画像を取り込み、ユーザが選択した属性を利用して、審美的に心地良いデザインパターンを生成する。現在、この種のグラフィックデザイン生成は、Adobe Photoshop(登録商標)又はAdobe Illustrator(登録商標)などの独自のソフトウェアを使用して手作業で作成され、各作品は、作成するために数時間〜数日を要することがある。本明細書に記載されるこのシステムは、秒以内のスケールで類似の作品を生成することができる。このシステムのプロトタイプが既に実装されている。
個人用デザインは、製品及びロゴの魅力を向上させるために、企業にますます好まれている。このことは、典型的にはグラフィックアーティストによって手動で行われる固有のパターンを生成することを要する。このプロセスはかなりの労力及び時間を要し、品質の良い出力を大規模に生成することは困難である。生産速度を増加させるために商業的に存在する数々の回避策として、既存の設計をパターンのランダムな場所で異なる形状に切断することが挙げられる。これは、ユーザにとって固有の出力を生成することができるが、この品質は、「未完成の外観」につながる可能性があるため、審美的に魅力的でない可能性がある。図1では、画像のセットは、パターン入力100、及びシルエットに適用されたこの単純な「カットアウト」102技術を採用する例を示す。
本明細書で提案されるシステムは、固有のパターンを大規模に生成するだけでなく、ニューラルスタイル転送アルゴリズムの態様を利用することにより、所与の形状に適合して整列する審美的に好ましい作品を作り出すために、現在の生成技術を改善する。この例は、図1の画像104によって見ることができる。システムはまた、いくつかのユーザ規定のパラメータを有するため、容易に具現化され得る。
システムは、グラフィックデザインパターンの生成を容易にするいくつかのモジュールを含む。図2において、ブロック図は、例示的な実施形態による装置200を示す。システム200は、コンテンツ画像202及びスタイル画像204、の2つの入力画像を取得する。コンテンツ画像202は、シルエット及び/又は、例えば、画像−シルエット変換器210を介してシルエットが抽出され得る写真であってもよい。スタイル画像204は、パターン、写真、又は何らかの望ましいスタイル特性を有する任意の他の画像であってもよい。入力画像がシルエット及びパターンの代わりに写真(例えば、写真画像)である場合、任意選択の画像−シルエット210モジュール及び手順生成212モジュールを選択することができる。これらは、入力画像202、204を処理して出力画像206、208を生成するニューラルスタイル転送プロセッサ2056に入力される。
システム200は、形状/外形内に固有のパターンを適合させるように動作可能であり、したがって、ニューラルスタイル転送プロセッサ205は、コンテンツ入力画像202に基づくシルエット214を入力として取り込む。ユーザは、コンテンツ画像としてシルエットを直接提供することができるが、システムもまた、コンテンツとして写真を提供するための選択肢をユーザに提供する。この場合、画像は、まず、モジュール210を介して「白黒」モードに変換される。「近黒色」範囲内の閾値(例えば、100未満の色値がデフォルト閾値として使用される)を選択するために等高線法が使用され、そしてそれらのために純黒色が割り当てられ、残りの範囲のために純白色が割り当てられる。デフォルト閾値は、一般に、ほとんどの画像に対して機能するが、ユーザが特定の画像に対してより高い閾値又はより低い閾値を必要とする場合に調整することができる。例示的な実施形態によるシルエットモジュール210によって提供される画像の例を図3に示す。
典型的には、ユーザは、新しいグラフィックデザインを生成するためのベースとして使用するためのパターンをシステムに提供する。ユーザがパターン入力を有さない場合には、手順生成モジュール212(図2参照)を使用することができる。ここで、ユーザは、入力として任意の写真を提供し、手順生成モジュールを選択して固有のパターンを生成することができる。コンピュータグラフィックに手順生成技術が使用されてテクスチャが生成される。様々な実施形態において、「Creating Symmetry:The Artful Mathematics of Wallpaper Patterns」、2015、Princeton University Press by F.A.Farrisに記載されているように、特定の対称性生成技術が使用され得る。このアプローチでは、所与の画像内で特定の画素のセットをランダムに選択して対称的に繰り返し、壁紙様デザインを生成する。
一実施形態では、六角形対称の生成アルゴリズムが使用される。この対称デザインは、ニューラルプロセッサ205に入るときに「パターン」入力として作用する。図4では、画像は、以下により詳細に記載されるように、独自のグラフィックデザイン406を生成するために更に使用される、見た目の単純な絵画400に基づいて、手順生成モジュール212を介して生成された芸術的な出力パターン402を示す。
再び図2を参照すると、ニューラルスタイル転送プロセッサは、Gaty等による「Image Style Transfer Using Convolutional Neural Networks」、Computer Vision and Pattern Recognition、2016(以下、Gaty等)に記載されているアプローチに基づく。最初に、コンテンツ画像及びスタイル画像は、深層畳み込みニューラルネットワークを通過して、シルエット214及びパターン222の両方のための特徴層218、224を得る。この目的に使用することができるニューラルネットワークの一例は、「Very Deep Convolutional Networks for Large−Scale Image Recognition」、International Conference on Learning Algorithms、2015、by Simoyan et al.)に記載されているように、VGGNetと称される。VGGNetネットワークは、19フィルタ層(16の畳み込み層及び3つの完全に接続された層)及び5つのプール層のスタックを使用する。アルゴリズムを初期化するために、予め訓練されたニューラルネットワークモデルからの重みが使用される。
図10〜図12では、ブロック図は、例示的な実施形態に従って、ニューラルスタイル転送がどのように実行され得るかを示す。1つの画像から他への「スタイル転送」を実行するために、逐次的な畳み込み層を有するニューラルネットワーク1000は、典型的には、予め訓練された重みで初期化される。一般に、重みは、写真画像(例えば、ImageNet写真)で訓練されたニューラルネットワークから得られる。次いで、コンテンツ特徴及びスタイル特徴は、2つ以上の畳み込み層、続いてプーリング機能、及び活性化機能を含む、5つの畳み込み層ブロック(第1〜5層)を有するニューラルネットワーク1000を介して実行される。図10に見られるように、ニューラルネットワーク1000にパターン画像1002が入力され、各層の1つの対応する副層(P1〜P4)が、スタイルを表すように記憶される。他の実施形態では、各層からの2つ以上の副層が記憶されてもよい。図11に見られるように、コンテンツ表現の単一の副層(C5)が記憶される。
図12に見られるように、参照画像1200(例えば、ホワイトノイズ画像、スタイル画像又はコンテンツ画像のうちの1つ)が、ニューラルネットワーク1000を通過し、複数の副層の上のスタイル損失1204が、記憶されたスタイル副層P1〜P5と、参照画像を処理した結果として生じるニューラルネットワーク1000の対応する層との間の比較(例えば、平均二乗差を決定することと、を含む)に基づいて演算される。同様に、コンテンツ損失1206は、記憶されたコンテンツ層と、ニューラルネットワークの対応する層とを比較することによって、参照画像を処理する結果を比較することによって見出される。スタイル損失とコンテンツ損失との組み合わせは、全損失1208として使用され、全損失の微分δは、エラーバック伝搬を使用して見出すことができる。微分δは、そのスタイル及びコンテンツ特徴がスタイル及びコンテンツ画像と一致するまで参照画像1200を反復的に更新し、それによって出力画像1202を形成するために使用される。
スタイル画像として芸術的な塗装が使用され、写真画像がコンテンツとして使用されるアルゴリズムとは異なり、図示されるシステムは、コンテンツ画像としてシルエットを使用し、スタイル画像として高密度の再現性パターンを使用する。図示されるシステムはまた、組み合わせ画像が調製される方法でも異なる。例えば、最上位の畳み込み特徴層(例えば、第5の畳み込み層)は、コンテンツに使用され、いくつかの選択された低位の畳み込み特徴層(芸術的な品質を損なうことなくプロセスをスピードアップするために試行錯誤によって決定される)がスタイルに使用される。Gramマトリックス(Gatysを参照)と呼ばれる損失関数は、元のコンテンツ及びスタイルの画像に対してスタイル損失及びコンテンツ損失を測定するように定義される。この統合された損失(例えば、スタイル損失とコンテンツ損失との重み付けされた組み合わせ)は、組み合わされた損失の勾配を使用することによって、全ての反復で最小化される。組み合わされた損失の許容値は、ニューラルネットワークを通した反復を最小限に抑えるように設定されてもよい。
このシステムでは、ユーザが好む解像度及び計算速度に応じて選択することができる、2つの異なるアルゴリズム変動がユーザに提示され得る。これらの変動は、特徴層の選択及び損失最小化のための反復の数に基づく。1つの選択肢は、パターンのための下位レベルの特徴層(第1〜4層)の全ての副層と、コンテンツのための最上位特徴層と、を含む。これは、全ての5つの畳み込み層が利用されるアルゴリズム(例えば、Gatys)とはわずかに異なる。これは、シルエットの境界に、より低いレベルの「パターン」を収容するために行われる。これらの組み合わせ損失は、10回の反復で最小化される。デザイン生成のための近似時間は、NVIDIA 1080x GPUを使用する場合、約45秒である。
別の選択肢は、最適化されたスタイルの転送である。この代替案は、ユーザがデザイン生成の迅速な転換を必要とするときに選択される。特徴層は、各畳み込み層からの1つの副層(第1〜4層)を含み、アルゴリズムは、3回の反復で最適化される。最適化されたスタイルの転送を使用したデザイン生成の近似時間は、NVIDIA 1080x GPUを使用する場合、約15秒である。
再び図2を参照すると、任意選択のランダム化モジュール220が、生成されたグラフィックデザインにおいて様々な生成に使用される。これは、ユーザが、同じコンテンツ画像及びスタイル画像から複数のグラフィックデザインパターンを生成することを望むときに使用することができる。このモジュール220が選択されると、2つの方法でランダム化が生じる。1つの方法では、シルエット色は、RGBスケールでランダムに選択される。シルエットスタイルの転送には暗色が良好に働くため、各RGBスケールの色範囲は、スペクトルの暗い端部上で選択される。異なる色選択は、図5に示すように、同じ入力パターンについて完全に異なる組の適合されたデザインを生成する。
画像処理動作、例えば、水平フリップ、垂直フリップ、転置などの幾何学的変換は、ニューラルスタイル転送プロセッサ205に入る前に入力パターン画像上に適用することができる。他の幾何学的変換には、伸張、歪曲/剪断、丸め、回転などが挙げられ得る。これにより、図6に示されるような出力に変化が生じる。ランダム化モジュールは、シルエット色及び画像処理操作のランダムな選択の両方を同時に行うため、各時間ごとにアルゴリズムによって生成される出力が一意的に生成される。
再び図2を参照すると、反転シルエットモジュール216は、後処理のためのマスクを製造するために使用される。画像からシルエットモジュールに生成されるか、又はユーザによって直接与えられるシルエット入力214は、このモジュール228で反転される。この手法は、黒色画素を白色に、及びその逆に置き換えることを伴う。結果として生じる反転されたシルエットは、生成された画像226をきれいにするためにマスク転送モジュール228に使用される。
マスク転送モジュール228は、最終生成画像上で使用されて、清浄な出力を生成する。上述したように、ニューラルスタイル転送アプローチは、シルエット画像214上で使用される。このアプローチは、シルエット214の縁部の内側でパターンを整列させるために非常に良好に機能するが、アルゴリズムはまた、シルエット214の周囲でパターンを転送する。これらのパターンは、シルエットの周囲の白い背景により、即して現れ、画像全体の美観を損なう可能性がある。したがって、反転されたシルエット出力(モジュール226から取得された)を使用したマスク転送が、生成された画像に適用される。ここで、反転したシルエット画像は、出力のどのパターンが画素レベルで通過し得るかを識別するフィルタとして使用される。例えば、画素比較によって画素を使用すると、出力画像内のパターンは、対応する画素が反転したシルエット画像内の純白色の色である場合にのみ選択される。そうでなければ、純白色が画素に割り当てられる。これにより、白い背景を有するグラフィックデザイン出力が得られる。ユーザはまた、必要に応じて、マスク転送モジュール内の異なる色背景を選択することもできる。
任意選択のラスタベクトル変換モジュール230は、いくつかのグラフィックデザイン用途に有用であり得る。ニューラルスタイル転送アルゴリズムが画素レベルで動作し、したがって、出力はラスタファイルとして生成される。これは、デジタル分布のために良好に機能することができるが、生成されたグラフィックデザインが大型のバナー又は冊子に印刷される場合、アルゴリズムによって生成される解像度は十分ではない場合がある。そのような場合、ラスタベクトル変換モジュール230はラスタ画像をベクトルフォーマットに変換する。この選択肢が選択されると、生成された出力は、2つのプロセス、すなわち色の量子化及びトレーシングを同時に経る。
色量子化プロセスは、画像内に存在する色の数を特定の値に定量化する。デフォルトでは、システムは25色を使用し、これは、所望の出力に応じて色の数を増加又は減少させるようにユーザによって修正することができる。「imagemagick」などのソフトウェアを、色量子化に使用することができる。次に、「poace」と呼ばれるパイトンパッケージを使用して、画像を追跡することができる。これは、ラスタ内の識別可能なエッジを追跡し、それを平滑なラインを有するベクトル画像に変換するために使用される。最終出力は、色量子化及び追跡から生成された積層画像からなり、スケール変更可能なベクトル画像を生成する。図7の画像は、ラスタ出力に対するラスタの解像度の増加を示し、ここでは、より良好に画定され、滑らかな縁部を有し、印刷に理想的である。
図8は、例示的な実施形態による方法のフローチャートである。この方法は、800のシルエット画像を深層畳み込みニューラルネットワークに入力して、コンテンツ特徴層を生成することを含む。スタイル画像は、パターン特徴層を生成するために、深層畳み込みニューラルネットワークに入力801を入力する。深畳み込みニューラルネットワークからのコンテンツ特徴層及びパターン特徴層を組み合わせて802、出力画像を得る。出力画像は、シルエット画像の領域内のスタイル画像の抽象化を含む。出力画像は、グラフィックデザイン製品において利用される803。例えば、出力画像は、印刷された出版物、製品上の装飾的デザイン、電子刊行物(例えば、ウェブサイト、ドキュメントファイル)、3次元造形などに使用されてもよい。
上述の方法及びプロセスは、技術分野において既知のように、コンピュータハードウェア、例えば、ワークステーション、サーバ上に実装することができる。図9では、ブロック図は、例示的な実施形態による方法を実施するために使用され得る装置900を示す。装置900は、中央処理ユニット、コプロセッサ、デジタル信号プロセッサなどの1つ以上のプロセッサ902を含む。プロセッサ902は、1つ以上の入力/出力バス908を介してランダムアクセスメモリ904及び永続的ストレージ906の両方を含み得るメモリに結合される。他の汎用又は専用ハードウェアは、グラフィック処理ユニット(GPU)911及びネットワークインタフェース912などのバス908に結合されてもよい。以下に説明する装置900の機能は、例えば、クライアント−サーバ構成、クラスタ化コンピューティング、クラウドコンピューティングなどを介して、複数のデバイスを介して実装されてもよいことに留意されたい。
ネットワークインタフェース912は、有線又は無線媒体を使用してグラフィックデザイン生成システム916を有するネットワーク914を介した通信を容易にする。グラフィックデザイン生成システム916は、物理的媒体(例えば、印刷輪郭、三次元オブジェクト)及び電子メディア(例えば、ラスタ及び/又はベクトルファイル)を生成してもよい。メディアを生成することに加えて、グラフィックデザイン生成システム916は、システム916の一部であるマシンによって使用されるデータを調製するプリプロセッサ、フォーマッタ、ユーザインタフェースなどを含んでもよい。データはまた、例えば、ポータブルデータ記憶ドライブ、ポイントツーポイント通信などを介して、非ネットワーク輸送を使用してグラフィックデザイン生成システム916に転送されてもよい。
装置900は、装飾的グラフィックを自動的に生成することを容易にするソフトウェア920を含む。ソフトウェア920は、ユーザレベルプログラムとハードウェアとの間の通信を容易にするオペレーティングシステム922及びドライバ924を含む。ソフトウェア920はまた、(例えば、テキスト又は視覚検索アルゴリズムを使用して)スタイル画像の選択、及びスタイル画像の準備(例えば、手続き生成、ランダム化など)を容易にするスタイルプリプロセッサ926を含んでもよい。コンテンツプリプロセッサ分析モジュール928は、コンテンツ画像の選択を促進し(例えば、テキスト又は視覚検索アルゴリズムを使用して)、コンテンツ画像の作成(例えば、グレースケール又はカラー画像をシルエット画像に変換する)。ニューラルネットワーク930(例えば、深層畳み込みニューラルネットワーク)は、シルエット画像を使用してコンテンツ特徴層を生成し、スタイル画像を使用してパターン特徴層を生成する。コンテンツ特徴層及びパターン特徴層は、メモリ904及び若しくは永続的ストレージ906に記憶され得る。
組み合わせモジュール932は、参照画像をニューラルネットワークに入力し、記憶されたスタイル及びコンテンツ層と参照画像の層表現を比較する。損失関数は、この比較に基づいて計算され、バック伝搬を介してニューラルネットワーク930を適応させて、参照画像におけるスタイル及びコンテンツ損失を低減するために使用される。これは、停止基準が満たされるまで(例えば、ユーザが選択した、スピード又は品質を強調するためのユーザ選択設定)まで繰り返され、この時点で、参照画像は、シルエット画像の範囲内のスタイル画像の抽象化を表す。
後処理モジュール934は、組み合わせ画像に対して追加の動作を実行することができる。例えば、後処理モジュール934は、シルエットを反転させて、組み合わせ縁部をマスクし、それによって鋭利な境界を提供することができる。後処理モジュール934はまた、ベクトルグラフィックスフォーマットに(ラスタ画像である)組み合わせ画像をカバーしてもよい。システムは、いくつかのユーザ選択可能オプションを提供することができるため、ユーザインタフェースハードウェア936は、例えば、グラフィカルユーザインタフェース、コマンドライン命令、構成ファイルなどを介して、ソフトウェア920にユーザ入力を提供することを容易にすることができる。
要約すると、上記のシステムは、時間及び手動の労力を節約するだけでなく、一定の縮尺で複数の独特の審美的に美しい作品を作り出すこともできるグラフィックデザインを生成する方法を提供する。このアーキテクチャは、例えば、塗装のように見える画像を生成するために、タイル転送アプローチを使用することができるが、ここではシルエット及びマスク転写を使用してグラフィックデザインを生成するために使用される。処置生成アルゴリズムは、ディープニューラルネットの転送の文脈で使用される。これにより、ユーザは、単純な写真から一意の作品を生成することができる。異なるアルゴリズムの変形により、ユーザは、例えば、秒以内にグラフィックデザインパターンを生成すること、又はスタイル及びコンテンツ損失を低減するためにより多くの反復を使用するより高品質の生成スキームを選択することを可能にする。ランダム化モジュールを使用して、出力画像内に様々なものを生成することができる。
上記の様々な実施形態は、特定の結果を提供するために相互作用する回路、ファームウェア、及び/又はソフトウェアモジュールを使用して実装され得る。当業者は、技術分野において一般的に公知である知識を使用して、モジュール式レベル又は全体でのいずれかで、こうして記載された機能を容易に実装することができる。例えば、本明細書に例解されるフローチャート及び制御図は、プロセッサにより実行されるためのコンピュータ可読命令/コードを作成するために使用されてもよい。こうした命令は、非一時的コンピュータ可読媒体上に格納され、技術分野において公知であるように実行するためにプロセッサに転送されてもよい。上記の構造及び手順は、上述の機能を提供するために使用され得る実施形態の代表的な例に過ぎない。
特段の指示がない限り、本明細書及び特許請求の範囲で使用される特徴サイズ、量及び物理的特性を表す全ての数は、全ての場合において、「約」という用語によって修飾されるものとして理解されるべきである。したがって、それと異なる指示がない限り、前述の明細書及び添付の特許請求の範囲に記載される数値パラメータは、本明細書に開示される教示を利用して当業者が得ようとする所望の特性に応じて変化し得る近似値である。端点による数値範囲の使用は、その範囲内の全ての数(例えば、1〜5は、1、1.5、2、2.75、3、3.80、4及び5を含む)及びその範囲内の任意の範囲を含む。
例示的な実施形態の前述の説明は、説明及び説明の目的のために提示されている。これらは、網羅的であること、又は本明細書に記載される実施形態を開示される形態に限定することを意図するものではない。上記の教示に照らして、多くの修正及び変形が可能である。開示される実施形態の任意の又は全ての特徴は、個別に又は任意の組み合わせで適用することができ、限定することを意図するものではなく、単に例示的であることを意図するものではない。本発明の範囲は、この発明を実施するための形態に限定されるものではなく、むしろ本明細書に添付の特許請求の範囲によって決定されることが意図される。

Claims (20)

  1. 方法であって、
    畳み込みニューラルネットワークにシルエット画像を入力してコンテンツ特徴層を生成することと、
    前記畳み込みニューラルネットワークにスタイル画像を入力して、パターン特徴層を生成することと、
    前記畳み込みニューラルネットワークに参照画像を入力して基準特徴層を決定し、複数の反復のそれぞれについて、前記畳み込みニューラルネットワークの組み合わせ損失を最小化して、前記シルエット画像の範囲内の前記スタイル画像の抽象化を含む出力画像を取得することであって、前記組み合わせ損失が、
    前記コンテンツ特徴層と、対応する前記基準特徴層のうちの1つとの間のコンテンツ損失と、
    前記パターン特徴層と、対応する前記基準特徴層の組との間のスタイル損失と、
    を含む、ことと、
    前記出力画像をグラフィックデザイン製品に利用することと、を含む、方法。
  2. 前記コンテンツ特徴層が、前記畳み込みニューラルネットワークの最上位層から取得される、請求項1に記載の方法。
  3. 前記パターン特徴層が、前記畳み込みニューラルネットワークの最下位層から取得される、請求項1に記載の方法。
  4. 手順生成モジュールを通じて前記スタイル画像を前処理して、前記畳み込みニューラルネットワークに入力される1つ又はそれ以上のパターンを生成することを更に含む、請求項1に記載の方法。
  5. 前記シルエットの色をランダムに変化させることと、
    前記スタイル画像にランダムな幾何学的変換を適用することと、
    のうちの1つ又はそれ以上を実行することにより、前記スタイル画像の前記抽象化を複数の異なる出力画像に変更することを更に含む、請求項1に記載の方法。
  6. 前記パターン特徴層のための前記畳み込みニューラルネットワークの下位層に含まれる全ての副層を利用して、5回を超える反復を実行する第1の選択肢と、前記パターン特徴層のための前記畳み込みニューラルネットワークの各下位層のうち1つの副層のみを利用し、5回未満の反復を実行する第2の選択肢と、の2つの異なるスタイル選択肢の間でユーザ選択を受信することを更に含む、請求項1に記載の方法。
  7. 入力コンテンツ画像の閾値色値に基づいて、前記入力コンテンツ画像を前記シルエット画像に変換することを更に含む、請求項1に記載の方法。
  8. 前記シルエット画像の反転で前記出力画像をマスキングすることを更に含む、請求項1に記載の方法。
  9. 前記出力画像をラスタ画像からベクトル画像に変換することを更に含む、請求項1に記載の方法。
  10. 前記畳み込みニューラルネットワークが、予め訓練されたニューラルネットワークモデルからの重みで初期化される、請求項1に記載の方法。
  11. システムであって、
    プロセッサとメモリとを備える装置であって、前記プロセッサが、
    畳み込みニューラルネットワークを通じてシルエット画像を処理してコンテンツ特徴層を生成し、前記コンテンツ特徴層をメモリ内に記憶する工程と、
    前記畳み込みニューラルネットワークを通じてスタイル画像を処理してパターン特徴層を生成し、前記パターン特徴層を前記メモリに記憶する工程と、
    前記畳み込みニューラルネットワークを通じて参照画像を処理して基準特徴層を決定する工程と、
    複数の反復のそれぞれに関して、前記畳み込みニューラルネットワークの組み合わせ損失を最小化して、前記シルエット画像の範囲内の前記スタイル画像の抽象化を含む出力画像を取得する工程であって、前記組み合わせ損失は、前記コンテンツ特徴層と対応する前記基準特徴層の1つとの間のコンテンツ損失と、前記パターン特徴層と対応する前記基準特徴層の組との間のスタイル損失と、を含む、工程と、
    を行うための命令を通じて動作可能である、装置と、
    前記出力画像を利用してグラフィックデザイン製品を製造するグラフィックデザイン生成システムと、を備えたシステム。
  12. 前記コンテンツ特徴層が、前記畳み込みニューラルネットワークの最上位層から取得され、前記パターン特徴層が、前記畳み込みニューラルネットワークの最下位層から取得される、請求項11に記載のシステム。
  13. 前記プロセッサが、前記畳み込みニューラルネットワークに入力される1つ又は2つ以上のパターンを生成するために、手順生成モジュールを通じて前記スタイル画像を前処理するように更に動作可能である、請求項11に記載のシステム。
  14. 前記プロセッサが、
    前記シルエットの色をランダムに変化させることと、
    前記スタイル画像にランダムな幾何学的変換を適用することと、
    のうちの1つ又はそれ以上を実行することにより、前記スタイル画像の前記抽象化を複数の異なる出力画像に変更することを更に含む、請求項11に記載の方法。
  15. 前記プロセッサが、前記パターン特徴層のための前記畳み込みニューラルネットワークの下位層に含まれる全ての副層を利用して、5回を超える反復を実行する第1の選択肢と、前記パターン特徴層のための前記畳み込みニューラルネットワークの各下位層のうち1つの副層のみを利用し、5回未満の反復を実行する第2の選択肢と、の2つの異なるスタイル選択肢の間のユーザ選択を受信するように更に動作可能である、請求項11に記載のシステム。
  16. 前記プロセッサが、入力コンテンツ画像の閾値色値に基づいて、前記入力コンテンツ画像を前記シルエット画像に変換するように更に動作可能である、請求項11に記載のシステム。
  17. 前記畳み込みニューラルネットワークが、予め訓練されたニューラルネットワークモデルからの重みで初期化される、請求項11に記載のシステム。
  18. 方法であって、
    シルエット画像及びスタイル画像を畳み込みニューラルネットワークに入力して、コンテンツ特徴層及びパターン特徴層をそれぞれ生成することと、
    前記コンテンツ特徴層及び前記パターン特徴層を前記深層畳み込みニューラルネットワークから組み合わせて出力画像を取得することであって、前記組み合わせは、前記コンテンツ特徴層と、対応する基準特徴層との間のコンテンツ損失を最小化し、パターン特徴層と、対応する1組の他の基準特徴層との間のスタイル損失を最小化することに基づくものであり、前記出力画像は、前記シルエット画像の範囲内の前記スタイル画像の抽象化を含む、ことと、
    前記出力画像をグラフィックデザイン製品に利用することと、を含む、方法。
  19. 前記コンテンツ特徴層が、前記畳み込みニューラルネットワークの最上位層から取得される、請求項18に記載の方法。
  20. 前記パターン特徴層が、前記畳み込みニューラルネットワークの最下位層から取得される、請求項18に記載の方法。
JP2020179358A 2019-11-12 2020-10-27 畳み込みニューラルネットワークスタイル転送を使用したグラフィックデザインの作成の自動化 Active JP7488436B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/681,198 US11145042B2 (en) 2019-11-12 2019-11-12 Using convolutional neural network style transfer to automate graphic design creation
US16/681,198 2019-11-12

Publications (3)

Publication Number Publication Date
JP2021077365A true JP2021077365A (ja) 2021-05-20
JP2021077365A5 JP2021077365A5 (ja) 2023-11-07
JP7488436B2 JP7488436B2 (ja) 2024-05-22

Family

ID=73039940

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020179358A Active JP7488436B2 (ja) 2019-11-12 2020-10-27 畳み込みニューラルネットワークスタイル転送を使用したグラフィックデザインの作成の自動化

Country Status (3)

Country Link
US (1) US11145042B2 (ja)
EP (1) EP3822917B1 (ja)
JP (1) JP7488436B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10963748B1 (en) * 2018-08-31 2021-03-30 Snap Inc. Generative neural network distillation
US11080834B2 (en) * 2019-12-26 2021-08-03 Ping An Technology (Shenzhen) Co., Ltd. Image processing method and electronic device
CN112766079B (zh) * 2020-12-31 2023-05-26 北京航空航天大学 一种基于内容风格分离的无监督图像到图像翻译方法
US20220237838A1 (en) * 2021-01-27 2022-07-28 Nvidia Corporation Image synthesis using one or more neural networks
US20230018995A1 (en) * 2021-06-11 2023-01-19 Zoho Corporation Private Limited Neural style transfer based slider puzzle captcha
WO2023224664A1 (en) * 2022-05-17 2023-11-23 Google Llc Fusing optically zoomed images into one digitally zoomed image

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6556691B1 (en) * 1997-02-10 2003-04-29 Lindmark Development Corporation System for measuring curved surfaces
US20040037475A1 (en) * 2002-08-26 2004-02-26 Avinash Gopal B. Method and apparatus for processing annotated screen capture images by automated selection of image regions
US8638993B2 (en) * 2010-04-05 2014-01-28 Flashfoto, Inc. Segmenting human hairs and faces
US9922432B1 (en) 2016-09-02 2018-03-20 Artomatix Ltd. Systems and methods for providing convolutional neural network based image synthesis using stable and controllable parametric models, a multiscale synthesis framework and novel network architectures
AU2017324069B2 (en) * 2016-09-06 2019-12-19 Elekta, Inc. Neural network for generating synthetic medical images
EP3526770B1 (en) * 2016-10-21 2020-04-15 Google LLC Stylizing input images
US10565757B2 (en) * 2017-06-09 2020-02-18 Adobe Inc. Multimodal style-transfer network for applying style features from multi-resolution style exemplars to input images
US10832387B2 (en) * 2017-07-19 2020-11-10 Petuum Inc. Real-time intelligent image manipulation system
CN109993716B (zh) * 2017-12-29 2023-04-14 微软技术许可有限责任公司 图像融合变换
US10872399B2 (en) * 2018-02-02 2020-12-22 Nvidia Corporation Photorealistic image stylization using a neural network model
US11244484B2 (en) * 2018-04-23 2022-02-08 Accenture Global Solutions Limited AI-driven design platform
JP7008845B2 (ja) * 2018-05-02 2022-01-25 コーニンクレッカ フィリップス エヌ ヴェ 新生児のシミュレーション画像の生成
US11435460B2 (en) * 2018-05-07 2022-09-06 Fujifilm Sonosite, Inc. Ultrasound imaging system with style transfer image enhancement
US10650495B2 (en) * 2018-06-04 2020-05-12 Adobe Inc. High resolution style transfer
US10657676B1 (en) * 2018-06-28 2020-05-19 Snap Inc. Encoding and decoding a stylized custom graphic
CN110660037B (zh) * 2018-06-29 2023-02-10 京东方科技集团股份有限公司 图像间脸部交换的方法、装置、系统和计算机程序产品
KR102640234B1 (ko) * 2018-09-28 2024-02-23 삼성전자주식회사 디스플레이 장치의 제어 방법 및 그에 따른 디스플레이 장치
US10891969B2 (en) * 2018-10-19 2021-01-12 Microsoft Technology Licensing, Llc Transforming audio content into images
KR102708715B1 (ko) * 2018-11-16 2024-09-24 삼성전자주식회사 영상 처리 장치 및 그 동작방법
US10929392B1 (en) * 2018-11-16 2021-02-23 Amazon Technologies, Inc. Artificial intelligence system for automated generation of realistic question and answer pairs
US11354791B2 (en) * 2018-12-19 2022-06-07 General Electric Company Methods and system for transforming medical images into different styled images with deep neural networks
CN109636886B (zh) * 2018-12-19 2020-05-12 网易(杭州)网络有限公司 图像的处理方法、装置、存储介质和电子装置
US10839493B2 (en) * 2019-01-11 2020-11-17 Adobe Inc. Transferring image style to content of a digital image
US10769830B2 (en) * 2019-01-28 2020-09-08 Adobe Inc. Transferring vector style properties to a vector artwork
US10769764B2 (en) * 2019-02-08 2020-09-08 Adobe Inc. Hierarchical scale matching and patch estimation for image style transfer with arbitrary resolution
US10818050B2 (en) * 2019-02-08 2020-10-27 Adobe Inc. Vector graphic font character generation techniques
US11836612B2 (en) * 2019-06-18 2023-12-05 Sap Se Maintaining master data using hierarchical classification
US11681911B2 (en) * 2019-10-15 2023-06-20 Naver Corporation Method and system for training neural sequence-to-sequence models by incorporating global features
US11170270B2 (en) * 2019-10-17 2021-11-09 International Business Machines Corporation Automatic generation of content using multimedia
US11343412B2 (en) * 2019-10-22 2022-05-24 Intel Corporation User detection and user attention detection using multi-zone depth sensing

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GANTUGS ATARSAIKHAN,外2名: "Constrained Neural Style Transfer for Decorated Logo Generation", [ONLINE], JPN6023048087, 14 July 2018 (2018-07-14), ISSN: 0005203892 *

Also Published As

Publication number Publication date
JP7488436B2 (ja) 2024-05-22
US11145042B2 (en) 2021-10-12
EP3822917B1 (en) 2023-05-10
EP3822917A1 (en) 2021-05-19
US20210142454A1 (en) 2021-05-13

Similar Documents

Publication Publication Date Title
JP2021077365A (ja) 畳み込みニューラルネットワークスタイル転送を使用したグラフィックデザインの作成の自動化
US11532173B2 (en) Transformation of hand-drawn sketches to digital images
CN108875935B (zh) 基于生成对抗网络的自然图像目标材质视觉特征映射方法
CN110378985B (zh) 一种基于gan的动漫绘画辅助创作方法
US10922860B2 (en) Line drawing generation
CN108352083B (zh) 用于拉伸成3d对象的2d图像处理
US9449253B2 (en) Learning painting styles for painterly rendering
JP2020533660A (ja) 画像スタイル変換方法および装置、機器、ならびに記憶媒体
JP2006114024A (ja) 漫画キャラクター生成のシステム及び方法
US20230044644A1 (en) Large-scale generation of photorealistic 3d models
CN110390638A (zh) 一种高分辨率三维体素模型重建方法
CN105374007A (zh) 融合骨架笔画和纹理特征的铅笔画生成方法和装置
CN112258387A (zh) 一种基于人脸照片生成漫画人像的图像转换系统及方法
CN1447955A (zh) 根据面部图像的形态信息生成合成面部图像的装置和方法
CN106652037B (zh) 一种人脸贴图处理方法及装置
WO2021052103A1 (zh) 图像生成的方法、装置以及计算机
CN105574814A (zh) 一种肖像剪纸特效的生成方法
KR101112142B1 (ko) 참조 이미지를 이용한 카툰 렌더링 장치 및 방법
Zhao et al. Research on the application of computer image processing technology in painting creation
He Application of local color simulation method of landscape painting based on deep learning generative adversarial networks
Yang et al. Binary image carving for 3D printing
CN111080512B (zh) 动漫图像生成方法、装置、电子设备及存储介质
Li et al. ARF-Plus: Controlling Perceptual Factors in Artistic Radiance Fields for 3D Scene Stylization
Chang et al. Artistic painting style transformation using a patch-based sampling method
Ekren et al. Logo Generation Using Deep Generative Adversarial Networks: A Comparison That Uses 1000 or Less Training Epochs

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20201110

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20210225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231027

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231027

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20231027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240408

R150 Certificate of patent or registration of utility model

Ref document number: 7488436

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150