JP2023550930A - 画像/ビデオ編集アプリケーションにおけるニューラルネットワークベースの画像カラー化 - Google Patents
画像/ビデオ編集アプリケーションにおけるニューラルネットワークベースの画像カラー化 Download PDFInfo
- Publication number
- JP2023550930A JP2023550930A JP2023530267A JP2023530267A JP2023550930A JP 2023550930 A JP2023550930 A JP 2023550930A JP 2023530267 A JP2023530267 A JP 2023530267A JP 2023530267 A JP2023530267 A JP 2023530267A JP 2023550930 A JP2023550930 A JP 2023550930A
- Authority
- JP
- Japan
- Prior art keywords
- image
- colorization
- neural network
- node
- roi
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 87
- 230000000694 effects Effects 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000012546 transfer Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 abstract description 13
- 238000004891 communication Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000007620 mathematical function Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04842—Selection of displayed objects or displayed text elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04845—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
- Image Generation (AREA)
Abstract
ニューラルネットワークベースの画像カラー化のためのコンピュータシステム及び方法を提供する。コンピュータシステムは、入力画像の関心領域に色彩効果を選択的に適用することによって基準色画像を取得し、画像/ビデオ編集アプリケーションのグラフィカルユーザインターフェイス上に第1のノードグラフを表示するようにディスプレイ装置を制御する。第1のノードグラフは、第1の画像フィードのグレースケール画像内の少なくとも第1のオブジェクトのカラー化のための第1のワークフローを表すカラー化ノードを含む。コンピュータシステムは、ユーザ入力に基づいて基準カラー画像を選択し、基準カラー画像及び第1の画像フィードをニューラルネットワークベースのカラー化モデルへの入力として供給することによってカラー化ノードに関連する第1のワークフローを実行する。コンピュータシステムは、入力に対するニューラルネットワークベースのカラー化モデルの出力として、カラー化画像を含む第2の画像フィードを受け取る。【選択図】 図1
Description
〔関連出願との相互参照/引用による組み入れ〕
なし
なし
本開示の様々な実施形態は、画像/ビデオのカラー化に関する。具体的には、本開示の様々な実施形態は、画像/ビデオ編集アプリケーションにおけるニューラルネットワークベースの画像カラー化のための方法及びシステムに関する。
画像/ビデオ編集アプリケーションの進歩は、グレースケール画像/ビデオ内の1又は2以上の領域に色を追加する画像カラー化技術の発展をもたらした。従来のロトスコープ(rotoscoping)ベースの方法では、ビデオの画像フレーム内の関心領域の周囲にユーザが手動で点を配置する必要があった。ビデオ内の一連のフレーム全体をカラー化するには、ビデオのフレーム毎に上記プロセスを手動で繰り返す必要がある。これには時間が掛かり、ユーザにとって面倒となり得る。
当業者には、説明したシステムと、本出願の残り部分において図面を参照しながら示す本開示のいくつかの態様とを比較することにより、従来の慣習的な手法の限界及び不利点が明らかになるであろう。
実質的に少なくとも1つの図に関連して図示及び/又は説明し、特許請求の範囲にさらに完全に示すような、画像/ビデオ編集アプリケーションにおけるニューラルネットワークベースの画像カラー化のためのコンピュータシステム及び方法を提供する。
全体を通じて同じ要素を同じ参照符号によって示す添付図面を参照しながら本開示の以下の詳細な説明を検討することにより、本開示のこれらの及びその他の特徴及び利点を理解することができる。
開示する画像/ビデオ編集アプリケーションにおけるニューラルネットワークベースの画像カラー化のためのコンピュータシステム及び方法では、後述する実装を見出すことができる。本開示の例示的な態様は、基準カラー画像を使用して画像フィードの1又は2以上のグレースケール画像内の少なくとも1つのオブジェクトをカラー化するためのニューラルネットワークベースの画像カラー化モデルを使用するワークフローを実装するコンピュータシステムを提供する。具体的には、ニューラルネットワークベースのカラー化モデルは、基準カラー画像内の関心領域上の色彩効果を画像フィードの各グレースケール画像内のオブジェクトに転写する。このような画像フィードは、単一の画像とすることも、或いは複数の画像を含むビデオとすることもできる。
ユーザは、画像/ビデオ編集アプリケーション上で、画像/ビデオ編集アプリケーションのロトスコープツールを使用して基準カラー画像を取得することができる。例えば、ユーザは、ロトスコープを採用して画像のマスク領域の色を変更して基準色画像を取得することができる。このアプリケーションは、ノードグラフを構築するためのノードベースのインターフェイスを提供する。例えば、ユーザは、グレースケール画像の画像フィードを単純にソースノードとしてカラー化ノードに追加し、その出力を結果ノードにリンクさせることができる。カラー化ノードは、実行時にニューラルネットワークベースのカラー化モデルを呼び出して基準カラー画像内の関心領域から画像フィードの(単複の)グレースケール画像内の(単複の)オブジェクトに色彩効果を適用する(OpenFX(OFX)プラグインなどの)ソフトウェアプラグインに対応することができる。基準カラー画像、又は基準カラー画像のファイルパスを、カラー化ノードへの入力として受け渡すことができる。
従来のロトスコープベースの方法では、ビデオの画像フレーム内の関心領域の周囲にユーザが手動で点を設定する必要があった。ビデオ内の一連のフレーム全体をカラー化するには、ビデオのフレーム毎に上記プロセスを繰り返す必要がある。これには時間が掛かり、面倒となり得る。対照的に、本開示では、ターゲットグレースケールビデオの全てのフレーム内のいずれかの関心領域をユーザがマークする必要がない。ユーザは、画像/ビデオ編集アプリケーションのノードベースのインターフェイス上のカラー化ノードへの入力として、基準カラー画像及びターゲット画像又は((単複の)グレースケール画像を含む)ビデオを単純に選択すればよい。カラー化ノードは、実行時にニューラルネットワークベースのカラー化モデルを呼び出して基準カラー画像内のROIからターゲット画像/ビデオのフレーム内の(単複の)オブジェクトに色彩効果を転写できるワークフローを表すことができる。
図1は、本開示の実施形態による、画像/ビデオ編集アプリケーションにおけるニューラルネットワークベースの画像カラー化のための例示的なネットワーク環境を示すブロック図である。図1にはネットワーク環境100を示す。ネットワーク環境100は、コンピュータシステム102と、コンピュータシステム102に通信可能に結合されたディスプレイ装置104とを含むことができる。さらに、コンピュータシステム102にインストールできる、或いはコンピュータシステム102上のウェブアプリケーション又はウェブブラウザなどのウェブクライアントを介してアクセスできる、画像/ビデオ編集アプリケーション106も示す。
ネットワーク環境100は、ニューラルネットワークベースのカラー化モデル108を実装できるサーバ110をさらに含むことができる。サーバ110は、通信ネットワーク112を介してコンピュータシステム102に通信可能に結合することができる。図1では、コンピュータシステム102及びディスプレイ装置104を2つの独立した装置として示しているが、いくつかの実施形態では、本開示の範囲から逸脱することなく、ディスプレイ装置104の機能全体をコンピュータシステム102に組み込むこともできる。
コンピュータシステム102は、(グレースケール画像114などの)1又は2以上のグレースケール画像を含む第1の画像フィード内の1又は2以上のオブジェクトをカラー化するための第1のワークフローを実行するように構成できる好適なロジック、回路、コード及び/又はインターフェイスを含むことができる。第1のワークフローは、画像/ビデオ編集アプリケーション106上で第1のワークフローを実行するためのプログラム命令を含むソフトウェアプラグインに関連することができる。コンピュータシステム102の例としては、以下に限定するわけではないが、画像/ビデオ編集機、サーバ、コンピュータワークステーション、メインフレームマシン、ゲーム装置、スマートフォン、携帯電話機、ラップトップ、タブレット、拡張現実(XR)ヘッドセット、及び/又は画像/ビデオ編集機能を有する他のいずれかの消費者電子(CE)装置を挙げることができる。
ディスプレイ装置104は、画像/ビデオ編集アプリケーション106のグラフィカルユーザインターフェイス(GUI)116を表示するように構成できる好適なロジック、回路及び/又はインターフェイスを含むことができる。1つの実施形態では、ディスプレイ装置104を、ユーザがディスプレイ装置104を介してユーザ入力を提供できるようにするタッチ対応装置とすることができる。ディスプレイ装置104は、以下に限定するわけではないが、液晶ディスプレイ(LCD)ディスプレイ、発光ダイオード(LED)ディスプレイ、プラズマディスプレイ、又は有機LED(OLED)ディスプレイ技術のうちの少なくとも1つなどの複数の既知の技術、又はその他のディスプレイ技術を通じて実現できるディスプレイユニットを含むことができる。
画像/ビデオ編集アプリケーション106は、1又は2以上のグレースケール画像を含む画像フィードを編集するように構成できる好適なロジック、コード及び/又はインターフェイスを含むことができる。例えば、編集は、ロトスコープ法を使用して入力画像に色彩効果を適用して(基準カラー画像118などの)基準カラー画像を取得することを含むことができる。別の編集は、ニューラルネットワークベースのカラー化モデル108を実装できるソフトウェアプラグインを使用して、基準カラー画像から画像フィードの(グレースケール画像114などの)グレースケール画像内のオブジェクトに色彩効果を転写することを含むことができる。画像/ビデオ編集アプリケーション106は、ノードグラフアーキテクチャに基づいて実装することができる。ノードグラフアーキテクチャでは、ユーザが、(基準色画像118などの)基準色画像に基づく画像フィードのカラー化などのいずれかの編集タスクのワークフローを表すノードグラフを構築することができる。画像/ビデオ編集アプリケーション106の例としては、以下に限定するわけではないが、ノードベースのデジタル合成及び視覚効果アプリケーション、画像エディタ、デジタル効果アプリケーション、モーショングラフィック編集アプリケーション、合成アプリケーション、非線形編集(NLE)アプリケーション、ラスターグラフィックスエディタ、又はこれらの組み合わせを挙げることができる。
ニューラルネットワークベースのカラー化モデル108は、画像フィードの単一の画像フレーム内又は一連の画像フレーム内のオブジェクトをカラー化する画像カラー化タスクに基づいて訓練できる画像カラー化モデルとすることができる。ニューラルネットワークベースのカラー化モデル108は、例えば(単複の)活性化関数、重みの数、コスト関数、正則化関数、入力サイズ、及び層の数などのハイパーパラメータによって定めることができる。
ニューラルネットワークベースのカラー化モデル108は、計算ネットワーク、又は(ノードとも呼ばれる)人工ニューロンのシステムと呼ぶことができる。ニューラルネットワークベースのカラー化モデル108のノードは、ニューラルネットワークベースのカラー化モデル108のニューラルネットワークトポロジーで定められるような複数の層状に配置することができる。ニューラルネットワークベースのカラー化モデル108の複数の層は、入力層、1又は2以上の隠れ層、及び出力層を含むことができる。複数の層の各層は、1又は2以上のノード(又は、例えば円で表される人工ニューロン)を含むことができる。入力層における全てのノードの出力は、(単複の)隠れ層の少なくとも1つのノードに結合することができる。同様に、各隠れ層の入力は、ニューラルネットワークベースのカラー化モデル108の他の層における少なくとも1つのノードの出力に結合することができる。各隠れ層の出力は、ニューラルネットワークベースのカラー化モデル108の他の層における少なくとも1つのノードの入力に結合することができる。最終層の(単複の)ノードは、少なくとも1つの隠れ層から入力を受け取って結果を出力することができる。層の数及び各層におけるノードの数は、ニューラルネットワークベースのカラー化モデル108のハイパーパラメータから決定することができる。このようなハイパーパラメータは、画像の訓練データセットに基づくニューラルネットワークベースのカラー化モデル108の訓練前又は訓練中に設定することができる。
ニューラルネットワークベースのカラー化モデル108の各ノードは、ネットワークの訓練中に調整できるパラメータセットを有する数学関数(例えば、シグモイド関数又は正規化線形ユニット(rectified linear unit))に対応することができる。パラメータセットは、例えば重みパラメータ及び正則化パラメータなどを含むことができる。各ノードは、ニューラルネットワークベースのカラー化モデル108の他の(単複の)層(例えば、前の(単複の)層)のノードからの1又は2以上の入力に基づいて、数学関数を使用して出力を計算することができる。ニューラルネットワークベースのカラー化モデル108のノードの全部又は一部は、同じ又は異なる数学関数に対応することができる。
ニューラルネットワークベースカラー化モデル108の訓練では、(訓練データセットからの)所与の入力に対する最終層の出力がニューラルネットワークベースカラー化モデル108の損失関数に基づく正しい結果に一致するかどうかに基づいてニューラルネットワークベースカラー化モデル108の各ノードの1又は2以上のパラメータを更新することができる。上記プロセスは、損失関数の最小値が達成されて訓練エラーが最小化されるまで同じ又は異なる入力について繰り返すことができる。当業では、勾配降下法、確率的勾配降下法、バッチ勾配降下法、勾配ブースト法及びメタヒューリスティック法などの複数の訓練法が知られている。
ある実施形態では、ニューラルネットワークベースのカラー化モデル108が、例えばコンピュータシステム102又はサーバ110上で実行可能なアプリケーションのソフトウェアコンポーネントとして実装できる電子データを含むことができる。ニューラルネットワークベースのカラー化モデル108は、コンピュータシステム102又はサーバ110などの処理装置による実行のためにライブラリ、外部スクリプト又はその他のロジック/命令に依拠することができる。ニューラルネットワークベースのカラー化モデル108は、入力グレースケール画像内のオブジェクトをカラー化するための1又は2以上の動作をコンピュータシステム102又はサーバ110などのコンピュータ装置が実行できるようにするコンピュータ実行可能コード又はルーチンを含むことができる。これに加えて又はこれに代えて、ニューラルネットワークベースのカラー化モデル108は、プロセッサ、(例えば、1又は2以上の動作の実行又はその制御を行う)マイクロプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)又は特定用途向け集積回路(ASIC)を含むハードウェアを使用して実装することもできる。例えば、コンピュータシステム102には、画像カラー化タスクのためのニューラルネットワークベースのカラー化モデル108の計算を加速させる推論アクセラレータチップを含めることができる。いくつかの実施形態では、ニューラルネットワークベースのカラー化モデル108を、ハードウェア及びソフトウェアの両方の組み合わせを使用して実装することができる。
ニューラルネットワークベースのカラー化モデル108の例としては、以下に限定するわけではないが、オートエンコーダ、畳み込みニューラルネットワーク(CNN)、Regions with CNN(R-CNN)、Fast R-CNN、Faster R-CNN、You Only Look Once(YOLO)ネットワーク、残差ニューラルネットワーク(Res-Net)、特徴ピラミッドネットワーク(FPN)、網膜ネット、及び/又はこれらの組み合わせを挙げることができる。
サーバ110は、(基準カラー画像118などの)基準カラー画像を使用して(単複の)グレースケール画像のカラー化のためのニューラルネットワークベースカラー化モデル108を実装するように構成できる好適なロジック、回路及びインターフェイス、及び/又はコードを含むことができる。サーバ110はクラウドサーバとすることができ、ウェブアプリケーション、クラウドアプリケーション、HTTPリクエスト、リポジトリ動作及びファイル転送などを通じて動作を実行することができる。サーバ110の他の実装例としては、以下に限定するわけではないが、ウェブサーバ、ファイル転送プロトコル(FTP)サーバ、アプリケーションサーバ、又はメインフレームサーバを挙げることができる。
少なくとも1つの実施形態では、当業者に周知の複数の技術を使用することによって、サーバ110を複数の分散型クラウドベースリソースとして実装することができる。当業者であれば、本開示の範囲を2つの別個のエンティティとしてのサーバ110及びコンピュータシステム102の実装に限定しないこともできると理解するであろう。いくつかの実施形態では、本開示の範囲から逸脱することなく、サーバ110の機能を全体的に又は少なくとも部分的にコンピュータシステム102に組み込むこともできる。
通信ネットワーク112は、コンピュータシステム102がサーバ110及び簡略化のために本開示から省略する他の装置と通信できるようにする通信媒体を含むことができる。通信ネットワーク112は、有線接続又は無線接続の一方とすることができる。通信ネットワーク112の例としては、以下に限定するわけではないが、インターネット、クラウドネットワーク、ワイヤレスフィデリティ(Wi-Fi)ネットワーク、パーソナルエリアネットワーク(PAN)、ローカルエリアネットワーク(LAN)、又はメトロポリタンエリアネットワーク(MAN)を挙げることができる。ネットワーク環境100内の様々な装置は、様々な有線及び無線通信プロトコルに従って通信ネットワーク112に接続するように構成することができる。このような有線及び無線通信プロトコルの例としては、以下に限定するわけではないが、伝送制御プロトコル及びインターネットプロトコル(TCP/IP)、ユーザデータグラムプロトコル(UDP)、ハイパーテキスト転送プロトコル(HTTP)、ファイル転送プロトコル(FTP)、ZigBee、EDGE、IEEE802.11、ライトフィデリティ(Li-Fi)、802.16、IEEE 802.11s、IEEE 802.11g、マルチホップ通信、無線アクセスポイント(AP)、装置間通信、セルラー通信プロトコル及びBluetooth(BT)通信プロトコルのうちの少なくとも1つを挙げることができる。
動作中、コンピュータシステム102は、画像/ビデオ編集アプリケーション106のGUI116を表示するようにディスプレイ装置104を制御することができる。GUI116は、画像カラー化タスク又はロトスコープタスクなどの画像処理タスクのワークフローを作成するためのノードベースのインターフェイスを含むことができる。例えば、ユーザは、ノードベースのインターフェイス上に一連の画像処理動作をノードとして単純に配置すればよい。その後、ワークフローを取得するために、このようなノードをノードベースのインターフェイス上で互いに接続することによってこのような画像動作を互いにリンクさせることができる。これらの各動作は、共にノードグラフを生成することができる。
初めに、コンピュータシステム102は、入力画像の(関心領域(ROI)120などの)ROIに色彩効果を選択的に適用することによって(基準色画像118などの)基準色画像を取得することができる。コンピュータシステム102は、GUI116を介したユーザ入力に基づいて入力画像のROIを決定することができる。例えば、GUI116は、入力画像を表示できるプレビューウィンドウを含むことができる。ユーザ入力は、入力画像内のROIの周囲に複数の点を追加して、ROIを入力画像内の残りの要素から分離できるマスクを作成することを含むことができる。ユーザ入力は、GUI116のノードベースのインターフェイスの第1のノードとして現れることができる。コンピュータシステム102は、基準カラー画像を取得するために、入力画像のROIに色彩効果を適用するように構成することができる。色彩効果は、GUI116のノードベースのインターフェイスの第2のノードとして現れることができる。いくつかの事例では、色彩効果の適用前又は適用後に、ROIに画像フィルタセットを適用することができる。このようなフィルタは、第1のノード又は第2のノードに接続された(単複の)ノードとして現れることができる。このような全てのノードは、実行時にROIを選択し、選択されたROIに画像フィルタセット及び色彩効果を適用して(ROI120などの)基準色画像を取得できるワークフロー全体を表すことができるノードグラフを形成することができる。基準カラー画像の詳細については、例えば図4にさらに示す。
ユーザは、いずれかの時点で画像/ビデオ編集アプリケーション106上でプロジェクトを作成することができる。コンピュータシステム102は、GUI116のノードベースのインターフェイスを介して、第1のノードグラフを構築するためのユーザ入力を受け取ることができる。コンピュータシステム102は、画像/ビデオ編集アプリケーション106のGUI116上に第1のノードグラフを表示するようにディスプレイ装置104を制御することができる。第1のノードグラフは、第1の画像フィードの(グレースケール画像114などの)1又は2以上のグレースケール画像内の少なくとも第1のオブジェクトをカラー化する第1のワークフローを表すことができるカラー化ノードを含むことができる。第1の画像フィードは、単一の画像、又はビデオの一連の画像フレームを含むことができる。第1のノードグラフに関連する詳細については、例えば図3に示す。
コンピュータシステム102は、画像/ビデオ編集アプリケーション106を介して、(基準カラー画像118などの)基準カラー画像の選択を含むことができる第1のユーザ入力を受け取ることができる。その後、コンピュータシステム102は、第1のユーザ入力に基づいて基準カラー画像を選択し、カラー化ノードに関連する第1のワークフローを実行することができる。第1のワークフローが開始されると、コンピュータシステム102は、選択された基準カラー画像及び第1の画像フィードをニューラルネットワークベースのカラー化モデル108に入力として供給することができる。コンピュータシステム102は、入力に対するニューラルネットワークベースのカラー化モデル108の出力として第2の画像フィードを受け取ることができる。第2の画像フィードは、(カラー化画像122などの)1又は2以上のカラー化画像を含むことができる。このような各カラー化画像は、(ROI120などの)ROI上の色彩効果に基づいてカラー化された(サッカー選手124のTシャツなどの)少なくとも第1のオブジェクトを含むことができる。
図2は、本開示の実施形態による、画像/ビデオ編集アプリケーションにおけるニューラルネットワークベースの画像カラー化のための例示的なコンピュータシステムを示すブロック図である。図2の説明は図1の要素に関連して行う。図2にはコンピュータシステム102のブロック図200を示す。コンピュータシステム102は、回路202、メモリ204、入力/出力(I/O)装置206、及びネットワークインターフェイス208を含むことができる。回路202は、メモリ204、I/O装置206及びネットワークインターフェイス208に通信可能に結合することができる。いくつかの実施形態では、I/O装置206が(図1のディスプレイ装置104などの)ディスプレイ装置を含むことができる。
回路202は、コンピュータシステム102が実行すべき異なる動作に関連するプログラム命令を実行するように構成できる好適なロジック、回路及び/又はインターフェイスを含むことができる。回路202は、1又は2以上の特殊処理ユニットの機能をまとめて実行する統合プロセッサ又はプロセッサ群として実装できる1又は2以上の特殊処理ユニットを含むことができる。回路202は、当業で周知の複数のプロセッサ技術に基づいて実装することができる。回路202の実装例は、X86ベースのプロセッサ、グラフィックプロセッシングユニット(GPU)、縮小命令セットコンピューティング(RISC)プロセッサ、特定用途向け集積回路(ASIC)プロセッサ、複合命令セットコンピューティング(CISC)プロセッサ、マイクロコントローラ、中央処理装置(CPU)、及び/又はその他の計算回路とすることができる。
メモリ204は、回路202が実行すべきプログラム命令を記憶するように構成できる好適なロジック、回路及び/又はインターフェイスを含むことができる。少なくとも1つの実施形態では、メモリ204を、(基準カラー画像118などの)基準カラー画像及び(グレースケール画像114などの)第1の画像フィードを記憶するように構成することができる。メモリ204は、入力画像の(ROI120などの)ROI上で使用される一連の色彩効果を記憶するようにさらに構成することができる。メモリ204の実装例としては、以下に限定するわけではないが、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、電気的に消去可能なプログラマブルリードオンリメモリ(EEPROM)、ハードディスクドライブ(HDD)、固体ドライブ(SSD)、CPUキャッシュ、及び/又はセキュアデジタル(SD)カードを挙げることができる。
I/O装置206は、入力を受け取り、受け取った入力に基づいて出力を提供するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。I/O装置206は、回路202と通信するように構成できる様々な入力及び出力装置を含むことができる。例えば、コンピュータシステム102は、I/O装置206を介して、基準カラー画像、入力画像からのROIを選択して入力画像の選択されたROIに色彩効果を適用するためのユーザ入力を受け取ることができる。I/O装置206の例としては、以下に限定するわけではないが、タッチ画面、キーボード、マウス、ジョイスティック、ディスプレイ装置(例えば、ディスプレイ装置210)、マイク、又はスピーカを挙げることができる。
ネットワークインターフェイス208は、回路202が通信ネットワーク112を介してサーバ110、ディスプレイ装置104及び/又は他の通信装置と通信することを容易にするように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。ネットワークインターフェイス208は、通信ネットワーク112を介したコンピュータシステム102の無線通信をサポートする様々な既知の技術を使用して実装することができる。ネットワークインターフェイス208は、例えばアンテナ、無線周波数(RF)トランシーバ、1又は2以上の増幅器、チューナ、1又は2以上の発振器、デジタルシグナルプロセッサ、コーダ-デコーダ(CODEC)チップセット、加入者IDモジュール(SIM)カード、及びローカルバッファ回路などを含むことができる。
ネットワークインターフェイス208は、インターネット、イントラネット、無線ネットワーク、セルラー電話ネットワーク、無線ローカルエリアネットワーク(LAN)又はメトロポリタンエリアネットワーク(MAN)などのネットワークと無線通信を介して通信するように構成することができる。無線通信は、グローバルシステムフォーモバイルコミュニケーション(GSM)、拡張データGSM環境(EDGE)、広帯域符号分割多元接続(W-CDMA)、ロングタームエボリューション(LTE)、符号分割多元接続(CDMA)、時分割多元接続(TDMA)、Bluetooth、(IEEE802.11a、IEEE 802.11b、IEEE 802.11g又はIEEE 802.11nなどの)ワイヤレスフィデリティ(WiFi)、ボイスオーバーインターネットプロトコル(VoIP)、ライトフィデリティ(Li-Fi)、又はワールドワイド・インターオペラビリティ・フォー・マイクロウェーブ・アクセス(Wi-MAX)などの複数の通信規格、プロトコル及び技術のうちの1つ又は2つ以上を使用するように構成することができる。
図1で説明したようなコンピュータシステム102によって実行される機能又は動作は回路202によって実行することができる。回路202によって実行される動作については、例えば図3及び図4において詳細に説明する。
図3は、本開示の実施形態による、画像/ビデオ編集アプリケーション上でニューラルネットワークベースのカラー化プラグインを使用してグレースケール画像フィードをカラー化する例示的な動作を示す図である。図3の説明は図1及び図2の要素に関連して行う。図3には、本明細書で説明する302~308の例示的な動作を示すブロック図300を示す。ブロック図300に示す例示的な動作は302から開始することができ、図1又は図2のコンピュータシステム102などのいずれかのコンピュータシステム、装置又はデバイスによって実行することができる。
302において、第1の画像フィードを取得することができる。回路202は、データソースから第1の画像フィードを取得することができる。データソースは、例えばコンピュータシステム102のオンボード画像センサ、コンピュータシステム102上の永続ストレージ、画像取り込み装置、クラウドサーバ、又はこれらの組み合わせとすることができる。第1の画像フィードは、それぞれが(サッカー選手302Bなどの)少なくとも第1のオブジェクトを含むことができる(グレースケール画像302Aなどの)1又は2以上のグレースケール画像を含むことができる。第1の画像フィードは、静的前景又は背景を含む静的シーンを表すことも、或いは1又は2以上の移動オブジェクトを含む動的シーンを表すこともできる。
304において、第1の画像フィードのカラー化のための第1のノードグラフ304Aを構築する入力を受け取ることができる。例えば、入力は、画像/ビデオ編集アプリケーション106上でプロジェクトを作成するオプションの選択を含むユーザ入力とすることができる。GUI116が、作成されたプロジェクトのプロジェクトウィンドウを表示すると、ユーザ入力は、画像/ビデオ編集アプリケーション106のGUI116上でアクセス可能なツールバーを介したカラー化ノード304B、ソースノード304C及び結果ノード304Dなどのノードの選択を含むことができる。
306において、構築された第1のノードグラフ304Aを表示することができる。回路202は、画像/ビデオ編集アプリケーション106のGUI116上に構築された第1のノードグラフ304Aを表示するようにディスプレイ装置104を制御することができる。例えば、GUI116は、ソースノード304Cと結果ノード304Dとの間にカラー化ノード304Bを含むように更新できるノードベースのインターフェイス306Aを含むことができる。結果ノード304Dは、カラー化ノード304Bの出力にリンクすることができ、ソースノード304Cは、(例えば、グレースケール画像302Aを含む)第1の画像フィード及び基準カラー画像306Bにリンクすることができる。回路202は、第1のユーザ入力に基づいて基準カラー画像306Bを選択することができる。
第1のノードグラフ304Aは、第1の画像フィードの1又は2以上のグレースケール画像内の(サッカー選手302Bなどの)第1のオブジェクトのカラー化のための第1のワークフローを表す(又は第1のワークフローにリンクする)ことができるカラー化ノード304Bを含むことができる。ある実施形態では、カラー化ノードが、第1のワークフローを実行するためのプログラム命令を含むことができるソフトウェアプラグインに対応することができる。ユーザは、GUI116のノードベースのインターフェイス内でソフトウェアプラグインを選択してカラー化ノードとして追加することができる。
ある実施形態では、回路202が、画像/ビデオ編集アプリケーション106のGUI116上にカラー化ノードの設定を表示するようにディスプレイ装置を制御することができる。例えば、この設定は、カラー化ノード304Bと共に表示されるオプションのユーザ選択に基づいて表示することができる。設定は、一連のニューラルネットワークベースのカラー化モデルに対応する一連のオプションを含むことができる。回路202は、一連のオプションのうちの第1のオプションの選択を含むことができるユーザ入力を受け取ることができる。回路202は、受け取ったユーザ入力に基づいて、一連のニューラルネットワークベースのカラー化モデルの中からニューラルネットワークベースのカラー化モデル108を選択することができる。
308において、第1のワークフローを実行することができる。回路202は、いずれかの時点でカラー化ノード304Bに関連する第1のワークフローを実行することができる。回路202は、実行時に、選択された基準カラー画像306B及び(グレースケール画像302Aなどの)第1の画像フィードを、選択されたニューラルネットワークベースのカラー化モデル108への入力として供給することができる。その後、回路202は、選択されたニューラルネットワークベースのカラー化モデル108の出力として第2の画像フィードを受け取ることができる。例えば、第2の画像フィードは、(カラー化画像308Aなどの)1又は2以上のカラー化画像を含むことができる。1又は2以上のカラー化画像の各々は、基準カラー画像306B内のROI306C上の色彩効果に基づいてカラー化された(サッカー選手302Bなどの)少なくとも第1のオブジェクトを含むことができる。
ある実施形態では、ニューラルネットワークベースカラー化モデル108が、基準カラー画像306BのROI306Cから第1の画像フィードの1又は2以上のグレースケール画像の各々における(サッカー選手302Bなどの)少なくとも第1のオブジェクトに色彩効果を転写して(カラー化画像308Aなどの1又は2以上のカラー化画像を含む)第2の画像フィードを出力することができる。例えば、図示のように、サッカー選手のシャツ上の黒色(すなわち、ROI306C)を第1の画像フィードのグレースケール画像302A内のサッカー選手302Bが着用しているシャツに転写することができる。ある実施形態では、回路202が、画像/ビデオ編集アプリケーション106のGUI116に第2の画像フィードを表示するようにディスプレイ装置104を制御することができる。
フローチャート500の1又は2以上のブロックに関連する例示的な動作については離散ブロックで示しているが、これらは例示的な動作の実装に応じてさらなるブロックに分割し、より少ないブロックに結合し、又は削除することもできる。
図4は、本開示の実施形態による、図3の例示的な動作において使用される基準カラー画像を取得する例示的な動作を示す図である。図4の説明は、図1、図2及び図3の要素に関連して行う。図4には、本明細書で説明する402~410の例示的な動作を示すブロック図400を示す。ブロック図400に示す例示的な動作は402から開始することができ、図1又は図2のコンピュータシステム102などのいずれかのコンピュータシステム、装置又はデバイスによって実行することができる。
402において、画像/ビデオ編集アプリケーション106のGUI116上に入力画像402Aをロードすることができる。入力画像402Aは、例えばサッカー選手402Bなどの少なくとも1つの関心オブジェクトを含むカラー画像とすることができる。
404において、入力画像402AのROI404Aを選択することができる。このような選択は、GUI116を介したユーザ入力に基づくことができる。例えば、セグメンテーションの開始点として使用すべき入力画像をGUI116上にロードし、画像/ビデオ編集アプリケーション106のセグメンテーションツールを使用してROI404Aを選択することができる。例えば、図示のように、サッカー選手402Bのシャツの縁部の周囲に点を配置することによってシャツの周囲のROIを選択することができる。ROI404Aの選択は、GUI116のノードベースのインターフェイス内にノードとして表示することができる。
406において、選択されたROI404Aのために第1の画像フィルタセットを選択することができる。例えば、このようなフィルタは、色相シフト演算(hue shift operation)、アルファブレンディング演算子(alpha blending operator)又はアルファ合成(alpha compositing operator)演算子などを含むことができる。このようなフィルタは、画像/ビデオ編集アプリケーション106のGUI116上に表示されるメニューを介して選択することができる。少なくとも1つの実施形態では、このようなフィルタが、選択されたROI404Aの1又は2以上の色チャンネル内の色値の修正に基づいて、ROI404Aに適用すべき色彩効果を指定することができる。
408において、基準カラー画像306Bを取得するための第2のワークフローを生成することができる。402~406の動作は、第2のノードグラフ408Aが表すことができる第2のワークフローを生成するために実行することができる。ある実施形態では、回路202が、画像/ビデオ編集アプリケーション106のGUI116上に第2のノードグラフ408Aを表示するようにディスプレイ装置104を制御することができる。第2のノードグラフ408Aは、入力画像402Aから基準色画像306Bを取得するための第2のワークフローを表すことができる。入力画像402A及び402~406の全ての動作を第2のノードグラフ408Aにノードとして含め、これらを互いに接続して第2のノードグラフ408Aを形成することができる。
410において、第2のワークフロー、すなわち第2のノードグラフ408Aに関連するノードベースのワークフローを実行することができる。回路202は、実行時に入力画像402AからROI404Aを選択することができる。例えば、ROI404Aの選択に関連するノードは、ユーザがデジタルロトスコープツールなどのセグメンテーションツールを使用して入力画像402AのROI404Aの周囲に描いたマスクをロードすることができる。ロトスコープツールの詳細な実装は当業者に周知であると考えられ、従ってロトスコープツール408の詳細な説明は簡潔にするために本開示から省略している。選択が行われた後に、回路202は、選択されたROI404A上に選択された第1の画像フィルタセットを適用し、第1の画像フィルタセットの適用に基づいて、入力画像402Aの選択されたROI404Aに色彩効果を適用して基準カラー画像306Bを取得することができる。限定ではなく一例として、色彩効果の適用は、入力画像402A内の選択されたROI404Aの彩度、明度、コントラスト、特定の色チャンネルの色値、ガンマ又は階調変化のうちの少なくとも1つを修正することができる。
例えば、図示のように、第2のノードグラフ408Aは、(「マージ1」によって表す)第1のマージノードに接続できる入力画像402Aをソースノードとして含むことができる。第1のマージノードは、(「ROI」によって表す)ROIノードにさらに接続することができる。第1のマージノードは、ROI404Aの周囲の選択と入力画像402Aとを組み合わせることによってマスクを生成することができる。マスクは、ROI404Aを除く他の全ての領域を入力画像402Aから除去することができる。(第1のマージノードの出力である)ROI404Aに(緑色などの)色チャンネルを修正するフィルタなどの画像フィルタを適用して、修正済みROIを取得することができる。入力画像402A及び修正済みROIを、入力画像402A上に修正済みROIをオーバーレイ表示できる(「マージ2」によって表す)第2のマージノードへの入力として受け渡して、基準色画像306Bを出力することができる。
例えば、図示のように、基準カラー画像306Bは、サッカー選手のシャツ(すなわち、選択されたROI404A)上の黒色を含む。この黒色を、入力画像402AのROI404Aに色彩効果として適用することができる。画像/ビデオ編集アプリケーション106は、エンドユーザがロトスコープワークフローを使用して基準カラー画像306Bの制御及び修正を行えるようにすることができる。基準カラー画像306Bは、例えば図3で説明したように後でグレースケール画像の画像フィードをカラー化するために使用できるように、コンピュータシステム102上に保存することができる。
ブロック図400の1又は2以上のブロックに関連する例示的な動作については離散ブロックで示しているが、これらは例示的な動作の実装に応じてさらなるブロックに分割し、より少ないブロックに結合し、又は削除することもできる。
図5は、本開示の実施形態による、画像/ビデオ編集アプリケーションにおけるニューラルネットワークベースの画像カラー化のための例示的な方法を示すフローチャートである。図5の説明は、図1、図2、図3及び図4の要素に関連して行う。図5にはフローチャート500を示す。フローチャート500に示す方法は、コンピュータシステム102又は回路202などのいずれかのコンピュータシステムによって実行することができる。方法は502から開始して504に進むことができる。
504において、(基準カラー画像118などの)基準カラー画像を取得することができる。1又は2以上の実施形態では、回路202を、(入力画像402Aなどの)入力画像の(ROI120などの)ROIに色彩効果を選択的に適用することによって基準色画像を取得するように構成することができる。基準色画像に関する詳細については、例えば図4で説明している。
506において、(ディスプレイ装置104などの)ディスプレイ装置を、(第1のノードグラフ304Aなどの)第1のノードグラフを表示するように制御することができる。1又は2以上の実施形態では、回路202を、画像/ビデオ編集アプリケーション106のGUI116上に第1のノードグラフを表示するようにディスプレイ装置104を制御するよう構成することができる。第1のノードグラフは、第1の画像フィードの(グレースケール画像302Aなどの)1又は2以上のグレースケール画像内の(サッカー選手302Bなどの)少なくとも第1のオブジェクトのカラー化のための第1のワークフローを表す(カラー化ノード304Bなどの)カラー化ノードを含むことができる。
508において、取得された基準カラー画像を選択することができる。1又は2以上の実施形態では、回路202を、取得された基準カラー画像を第1のユーザ入力に基づいて選択するように構成することができる。基準カラー画像の選択の詳細については、例えば図3で説明している。
510において、第1のワークフローを実行することができる。1又は2以上の実施形態では、回路202を、(カラー化ノード304Bなどの)カラー化ノードに関連する第1のワークフローを実行するように構成することができる。第1のワークフローの実行の詳細については、例えば図3において説明している。
512において、選択された基準カラー画像及び第1の画像フィードを、ニューラルネットワークベースのカラー化モデル108への入力として供給することができる。1又は2以上の実施形態では、回路202を、例えば図3で説明したように、選択された基準色画像及び第1の画像フィードをニューラルネットワークベースのカラー化モデル108への入力として供給するように構成することができる。
514において、第2の画像フィードを受け取ることができる。1又は2以上の実施形態では、回路202を、(ROI306Cなどの)ROI上の色彩効果に基づいてカラー化された少なくとも第1のオブジェクトをそれぞれが含むことができる(カラー化画像308Aなどの)1又は2以上のカラー化画像を含む第2の画像フィードをニューラルネットワークベースのカラー化モデル108の出力として受け取るように構成することができる。制御は終了に進むことができる。
フローチャート500については、502、504、506、508、510、512及び514などの離散的動作として説明したが、本開示はこのように限定されるものではない。従って、いくつかの実施形態では、開示する実施形態の本質を損なうことなく、このような離散的動作を特定の実装に応じてさらなる動作にさらに分割し、より少ない動作に組み合わせ、又は削除することができる。
本開示の様々な実施形態は、機械及び/又はコンピュータが(コンピュータシステム102などの)コンピュータシステムを動作させるために実行可能な命令を記憶した非一時的コンピュータ可読媒体及び/又は記憶媒体を提供することができる。これらの命令は、(入力画像402Aなどの)入力画像の(関心領域(ROI)120などの)ROIに色彩効果を選択的に適用することに基づいて(基準色画像118などの)基準色画像を取得することを含む動作を機械及び/又はコンピュータに実行させることができる。動作は、(画像/ビデオ編集アプリケーション106などの)画像/ビデオ編集アプリケーションの(グラフィカルユーザインターフェイス(GUI)116などの)GUI上に(第1のノードグラフ304Aなどの)第1のノードグラフを表示するように(ディスプレイ装置104などの)ディスプレイ装置を制御することをさらに含むことができる。第1のノードグラフは、第1の画像フィードの(グレースケール画像302Aなどの)1又は2以上のグレースケール画像内の少なくとも(サッカー選手302BのTシャツなどの)第1のオブジェクトのカラー化のための第1のワークフローを表す(カラー化ノード304Bなどの)カラー化ノードを含むことができる。動作は、取得された基準カラー画像を第1のユーザ入力に基づいて選択し、カラー化ノードに関連する第1のワークフローを実行することをさらに含むことができる。実行は、選択された基準カラー画像及び第1の画像フィードを(ニューラルネットワークベースのカラー化モデル108などの)ニューラルネットワークベースのカラー化モデルに入力として供給し、入力に対するニューラルネットワークベースのカラー化モデル108の出力として、ROI上の色彩効果に基づいてカラー化された少なくとも第1のオブジェクトをそれぞれが含む(カラー化画像308Aなどの)1又は2以上のカラー化画像を含む第2の画像フィードを受け取ることを含む。
本開示の例示的な態様は、(回路202などの)回路を含む(図1のコンピュータシステム102などの)コンピュータシステムを提供することができる。回路202は、(入力画像402Aなどの)入力画像の(関心領域(ROI)120などの)ROIに色彩効果を選択的に適用することに基づいて(基準色画像118などの)基準色画像を取得するように構成することができる。回路202は、(画像/ビデオ編集アプリケーション106などの)画像/ビデオ編集アプリケーションの(グラフィカルユーザインターフェイス(GUI)116などの)GUI上に(第1のノードグラフ304Aなどの)第1のノードグラフを表示するように(ディスプレイ装置104などの)ディスプレイ装置を制御するよう構成することができる。第1のノードグラフは、第1の画像フィードの1又は2以上のグレースケール画像内の少なくとも(サッカー選手302BのTシャツなどの)第1のオブジェクトのカラー化のための第1のワークフローを表す(カラー化ノード304Bなどの)カラー化ノードを含むことができる。回路202は、第1のユーザ入力に基づいて取得された基準カラー画像を選択し、選択された基準カラー画像及び第1の画像フィードを入力としてニューラルネットワークベースカラー化モデル(ニューラルネットワークベースカラー化モデル108など)に供給し、入力に対するニューラルネットワークベースカラー化モデル108の出力として(カラー化画像308Aなどの)1又は2以上のカラー化画像を含む第2の画像フィードを受け取ることによって、カラー化ノードに関連する第1のワークフローを実行するように構成することができる。1又は2以上のカラー化画像の各々は、基準カラー画像のROI上の色彩効果に基づいてカラー化された少なくとも第1のオブジェクトを含むことができる。
ある実施形態によれば、回路202は、画像/ビデオ編集アプリケーションのGUI上に(第2のノードグラフ408Aなどの)第2のノードグラフを表示するようにディスプレイ装置を制御するようにさらに構成される。第2のノードグラフは、入力画像から基準色画像を取得する第2のワークフローを表すことができる。
ある実施形態によれば、回路202は、入力画像からROIを選択し、選択されたROIに第1の画像フィルタセットを適用し、第1の画像フィルタセットの適用に基づいて入力画像の選択されたROIに色彩効果を適用して基準色画像を取得することによって、第2のワークフローを実行するようにさらに構成される。
ある実施形態によれば、カラー化ノードは、第1のワークフローを実行するためのプログラム命令を含むソフトウェアプラグインに対応する。ある実施形態によれば、回路202は、画像/ビデオ編集アプリケーションのGUI上にカラー化ノードの設定を表示するようにディスプレイ装置104を制御するようさらに構成される。設定は、一連のニューラルネットワークベースのカラー化モデルに対応する一連のオプションを含むことができる。回路202は、一連のオプションのうちの第1のオプションの選択を含む第2のユーザ入力を受け取るようにさらに構成することができる。回路202は、第2のユーザ入力に基づいて、一連のニューラルネットワークベースのカラー化モデルの中からニューラルネットワークベースのカラー化モデルを選択するようにさらに構成することができる。
ある実施形態によれば、ニューラルネットワークベースのカラー化モデルは、第1の画像フィードの1又は2以上のグレースケール画像の各々における(サッカー選手302BのTシャツなどの)少なくとも第1のオブジェクトに基準カラー画像のROI上の色彩効果を転写して(カラー化画像308Aなどの)1又は2以上のカラー化画像を含む第2の画像フィードを出力する。
ある実施形態によれば、回路202は、画像/ビデオ編集アプリケーションのGUI上に第2の画像フィードを表示するようにディスプレイ装置104を制御するようさらに構成することができる。
本開示は、ハードウェアで実現することも、又はハードウェアとソフトウェアとの組み合わせで実現することもできる。本開示は、少なくとも1つのコンピュータシステム内で集中方式で実現することも、又は異なる要素を複数の相互接続されたコンピュータシステムにわたって分散できる分散方式で実現することもできる。本明細書で説明した方法を実行するように適合されたコンピュータシステム又はその他の装置が適することができる。ハードウェアとソフトウェアとの組み合わせは、ロードされて実行された時に本明細書で説明した方法を実行するようにコンピュータシステムを制御することができるコンピュータプログラムを含む汎用コンピュータシステムとすることができる。本開示は、他の機能も実行する集積回路の一部を含むハードウェアで実現することができる。
本開示は、本明細書で説明した方法の実装を可能にする全ての特徴を含み、コンピュータシステムにロードされた時にこれらの方法を実行できるコンピュータプログラム製品に組み込むこともできる。本文脈におけるコンピュータプログラムとは、情報処理能力を有するシステムに特定の機能を直接的に、或いはa)別の言語、コード又は表記法への変換、b)異なる内容形態での複製、のいずれか又は両方を行った後に実行させるように意図された命令セットの、あらゆる言語、コード又は表記法におけるあらゆる表現を意味する。
いくつかの実施形態を参照しながら本開示を説明したが、当業者であれば、本開示の範囲から逸脱することなく様々な変更を行うことができ、同等物を代用することもできると理解するであろう。また、本開示の範囲から逸脱することなく、特定の状況又は内容を本開示の教示に適合させるように多くの修正を行うこともできる。従って、本開示は、開示した特定の実施形態に限定されるものではなく、添付の特許請求の範囲内に収まる全ての実施形態を含むように意図される。
102 コンピュータシステム
104 ディスプレイ装置
106 画像/ビデオ編集アプリケーション
108 ニューラルネットワークベースのカラー化モデル
110 サーバ
112 通信ネットワーク
114 グラフィカルユーザインターフェイス(GUI)
114 グレースケール画像
118 基準カラー画像
120 関心領域(ROI)
122 カラー化画像
124 サッカー選手
502 開始
504 入力画像の関心領域(ROI)に色彩効果を選択的に適用することによって基準色画像を取得
506 第1の画像フィードの1又は2以上のグレースケール画像内の少なくとも第1のオブジェクトのカラー化のための第1のワークフローを表すカラー化ノードを含む第1のノードグラフを画像/ビデオ編集アプリケーションのユーザインターフェイス(GUI)上に表示するようにディスプレイ装置104を制御
508 取得された基準カラー画像を第1のユーザ入力に基づいて選択
510 カラー化ノードに関連する第1のワークフローを実行
512 基準色画像及び第1の画像フィードをニューラルネットワークベースのカラー化モデルへの入力として供給
514 ROI上の色彩効果に基づいてカラー化された少なくとも第1のオブジェクトをそれぞれが含むことができる1又は2以上のカラー化画像を含む第2の画像フィードをニューラルネットワークベースのカラー化モデルの出力として受信
104 ディスプレイ装置
106 画像/ビデオ編集アプリケーション
108 ニューラルネットワークベースのカラー化モデル
110 サーバ
112 通信ネットワーク
114 グラフィカルユーザインターフェイス(GUI)
114 グレースケール画像
118 基準カラー画像
120 関心領域(ROI)
122 カラー化画像
124 サッカー選手
502 開始
504 入力画像の関心領域(ROI)に色彩効果を選択的に適用することによって基準色画像を取得
506 第1の画像フィードの1又は2以上のグレースケール画像内の少なくとも第1のオブジェクトのカラー化のための第1のワークフローを表すカラー化ノードを含む第1のノードグラフを画像/ビデオ編集アプリケーションのユーザインターフェイス(GUI)上に表示するようにディスプレイ装置104を制御
508 取得された基準カラー画像を第1のユーザ入力に基づいて選択
510 カラー化ノードに関連する第1のワークフローを実行
512 基準色画像及び第1の画像フィードをニューラルネットワークベースのカラー化モデルへの入力として供給
514 ROI上の色彩効果に基づいてカラー化された少なくとも第1のオブジェクトをそれぞれが含むことができる1又は2以上のカラー化画像を含む第2の画像フィードをニューラルネットワークベースのカラー化モデルの出力として受信
Claims (20)
- コンピュータシステムにおいて、
入力画像の関心領域(ROI)に選択的に色彩効果を適用することによって基準色画像を取得することと、
第1の画像フィードの1又は2以上のグレースケール画像における少なくとも第1のオブジェクトをカラー化するための第1のワークフローを表すカラー化ノードを含む第1のノードグラフを画像/ビデオ編集アプリケーションのグラフィカルユーザインターフェイス(GUI)上に表示するようにディスプレイ装置を制御することと、
前記取得された基準カラー画像を第1のユーザ入力に基づいて選択することと、
前記カラー化ノードに関連する前記第1のワークフローを実行することと、
を含み、前記実行することは、
前記選択された基準カラー画像及び前記第1の画像フィードをニューラルネットワークベースのカラー化モデルへの入力として供給することと、
前記入力に対する前記ニューラルネットワークベースのカラー化モデルの出力として、前記ROI上の色彩効果に基づいてカラー化された少なくとも前記第1のオブジェクトをそれぞれが含む1又は2以上のカラー化画像を含む第2の画像フィードを受け取ることと、
を含む、
ことを特徴とする方法。 - 前記画像/ビデオ編集アプリケーションの前記GUI上に、前記入力画像から前記基準カラー画像を取得するための第2のワークフローを表す第2のノードグラフを表示するように前記ディスプレイ装置を制御することをさらに含む、
請求項1に記載の方法。 - 前記第2のワークフローを実行することをさらに含み、前記実行することは、
前記入力画像から前記ROIを選択することと、
前記選択されたROIに第1の画像フィルタセットを適用することと、
前記第1の画像フィルタセットの前記適用に基づいて、前記入力画像の前記選択されたROIに前記色彩効果を適用して前記基準色画像を取得することと、
を含む、請求項2に記載の方法。 - 前記カラー化ノードは、前記第1のワークフローを実行するためのプログラム命令を含むソフトウェアプラグインに対応する、
請求項1に記載の方法。 - 一連のニューラルネットワークベースのカラー化モデルに対応する一連のオプションを含む前記カラー化ノードの設定を前記画像/ビデオ編集アプリケーションのGUI上に表示するように前記ディスプレイ装置を制御することと、
前記一連のオプションのうちの第1のオプションの選択を含む第2のユーザ入力を受け取ることと、
前記第2のユーザ入力に基づいて、前記一連のニューラルネットワークベースのカラー化モデルの中から前記ニューラルネットワークベースのカラー化モデルを選択することと、
をさらに含む、請求項1に記載の方法。 - 前記ニューラルネットワークベースのカラー化モデルは、前記基準カラー画像の前記ROI上の前記色彩効果を前記第1の画像フィードの前記1又は2以上のグレースケール画像の各々における少なくとも前記第1のオブジェクトに転写して、前記1又は2以上のカラー化画像を含む前記第2の画像フィードを出力する、
請求項1に記載の方法。 - 前記画像/ビデオ編集アプリケーションの前記GUI上に前記第2の画像フィードを表示するように前記ディスプレイ装置を制御することをさらに含む、
請求項1に記載の方法。 - コンピュータシステムであって、
入力画像の関心領域(ROI)に選択的に色彩効果を適用することに基づいて基準色画像を取得し、
第1の画像フィードの1又は2以上のグレースケール画像における少なくとも第1のオブジェクトをカラー化するための第1のワークフローを表すカラー化ノードを含む第1のノードグラフを画像/ビデオ編集アプリケーションのグラフィカルユーザインターフェイス(GUI)上に表示するようにディスプレイ装置を制御し、
前記取得された基準カラー画像を第1のユーザ入力に基づいて選択する、とともに、
前記選択された基準カラー画像及び前記第1の画像フィードをニューラルネットワークベースのカラー化モデルへの入力として供給し、
前記入力に対する前記ニューラルネットワークベースのカラー化モデルの出力として、前記ROI上の色彩効果に基づいてカラー化された少なくとも前記第1のオブジェクトをそれぞれが含む1又は2以上のカラー化画像を含む第2の画像フィードを受け取る、
ことによって前記カラー化ノードに関連する前記第1のワークフローを実行する、
ように構成された回路を備える、ことを特徴とするシステム。 - 前記回路は、前記画像/ビデオ編集アプリケーションの前記GUI上に、前記入力画像から前記基準カラー画像を取得するための第2のワークフローを表す第2のノードグラフを表示するように前記ディスプレイ装置を制御するようさらに構成される、
請求項8に記載のコンピュータシステム。 - 前記回路は、
前記入力画像から前記ROIを選択し、
前記選択されたROIに第1の画像フィルタセットを適用し、
前記第1の画像フィルタセットの前記適用に基づいて、前記入力画像の前記選択されたROIに前記色彩効果を適用して前記基準色画像を取得する、
ことによって前記第2のワークフローを実行するようにさらに構成される、
請求項9に記載のコンピュータシステム。 - 前記カラー化ノードは、前記第1のワークフローを実行するためのプログラム命令を含むソフトウェアプラグインに対応する、
請求項8に記載のコンピュータシステム。 - 前記回路は、
一連のニューラルネットワークベースのカラー化モデルに対応する一連のオプションを含む前記カラー化ノードの設定を前記画像/ビデオ編集アプリケーションのGUI上に表示するように前記ディスプレイ装置を制御し、
前記一連のオプションのうちの第1のオプションの選択を含む第2のユーザ入力を受け取り、
前記第2のユーザ入力に基づいて、前記一連のニューラルネットワークベースのカラー化モデルの中から前記ニューラルネットワークベースのカラー化モデルを選択する、
ようにさらに構成される、請求項8に記載のコンピュータシステム。 - 前記ニューラルネットワークベースのカラー化モデルは、前記基準カラー画像の前記ROI上の前記色彩効果を前記第1の画像フィードの前記1又は2以上のグレースケール画像の各々における少なくとも前記第1のオブジェクトに転写して、前記1又は2以上のカラー化画像を含む前記第2の画像フィードを出力する、
請求項8に記載のコンピュータシステム。 - 前記回路は、前記画像/ビデオ編集アプリケーションの前記GUI上に前記第2の画像フィードを表示するように前記ディスプレイ装置を制御するようさらに構成される、
請求項8に記載のコンピュータシステム。 - コンピュータ実行可能命令を記憶した非一時的コンピュータ可読媒体であって、前記コンピュータ実行可能命令は、コンピュータシステムによって実行された時に、
入力画像の関心領域(ROI)に選択的に色彩効果を適用することによって基準色画像を取得することと、
第1の画像フィードの1又は2以上のグレースケール画像における少なくとも第1のオブジェクトをカラー化するための第1のワークフローを表すカラー化ノードを含む第1のノードグラフを画像/ビデオ編集アプリケーションのグラフィカルユーザインターフェイス(GUI)上に表示するようにディスプレイ装置を制御することと、
前記取得された基準カラー画像を第1のユーザ入力に基づいて選択することと、
前記カラー化ノードに関連する前記第1のワークフローを実行することと、
を含む動作を前記システムに実行させ、前記実行することは、
前記選択された基準カラー画像及び前記第1の画像フィードをニューラルネットワークベースのカラー化モデルへの入力として供給することと、
前記入力に対する前記ニューラルネットワークベースのカラー化モデルの出力として、前記ROI上の色彩効果に基づいてカラー化された少なくとも前記第1のオブジェクトをそれぞれが含む1又は2以上のカラー化画像を含む第2の画像フィードを受け取ることと、
を含む、
ことを特徴とする非一時的コンピュータ可読媒体。 - 前記動作は、前記画像/ビデオ編集アプリケーションの前記GUI上に、前記入力画像から前記基準カラー画像を取得するための第2のワークフローを表す第2のノードグラフを表示するように前記ディスプレイ装置を制御することをさらに含む、
請求項15に記載の非一時的コンピュータ可読媒体。 - 前記動作は、前記第2のワークフローを実行することをさらに含み、前記実行することは、
前記入力画像から前記ROIを選択することと、
前記選択されたROIに第1の画像フィルタセットを適用することと、
前記第1の画像フィルタセットの前記適用に基づいて、前記入力画像の前記選択されたROIに前記色彩効果を適用して前記基準色画像を取得することと、
を含む、請求項16に記載の非一時的コンピュータ可読媒体。 - 前記カラー化ノードは、前記第1のワークフローを実行するためのプログラム命令を含むソフトウェアプラグインに対応する、
請求項15に記載の非一時的コンピュータ可読媒体。 - 前記動作は、
一連のニューラルネットワークベースのカラー化モデルに対応する一連のオプションを含む前記カラー化ノードの設定を前記画像/ビデオ編集アプリケーションのGUI上に表示するように前記ディスプレイ装置を制御することと、
前記一連のオプションのうちの第1のオプションの選択を含む第2のユーザ入力を受け取ることと、
前記第2のユーザ入力に基づいて、前記一連のニューラルネットワークベースのカラー化モデルの中から前記ニューラルネットワークベースのカラー化モデルを選択することと、
をさらに含む、請求項15に記載の非一時的コンピュータ可読媒体。 - 前記ニューラルネットワークベースのカラー化モデルは、前記基準カラー画像の前記ROI上の前記色彩効果を前記第1の画像フィードの前記1又は2以上のグレースケール画像の各々における少なくとも前記第1のオブジェクトに転写して、前記1又は2以上のカラー化画像を含む前記第2の画像フィードを出力する、
請求項15に記載の非一時的コンピュータ可読媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/952,348 | 2020-11-19 | ||
US16/952,348 US11335048B1 (en) | 2020-11-19 | 2020-11-19 | Neural network-based image colorization on image/video editing applications |
PCT/IB2021/060716 WO2022107046A1 (en) | 2020-11-19 | 2021-11-18 | Neural network-based image colorization on image/video editing applications |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023550930A true JP2023550930A (ja) | 2023-12-06 |
Family
ID=78819570
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023530267A Pending JP2023550930A (ja) | 2020-11-19 | 2021-11-18 | 画像/ビデオ編集アプリケーションにおけるニューラルネットワークベースの画像カラー化 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11335048B1 (ja) |
EP (1) | EP4229599A1 (ja) |
JP (1) | JP2023550930A (ja) |
CN (1) | CN115428026A (ja) |
WO (1) | WO2022107046A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11687785B2 (en) * | 2018-12-05 | 2023-06-27 | Jean-Patrice Glafkidès | Modification of neural network topology |
US20230410425A1 (en) * | 2022-05-26 | 2023-12-21 | Soul Vision Creations Private Limited | Real-time rendering of image content generated using implicit rendering |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL98622A (en) * | 1991-06-25 | 1996-10-31 | Scitex Corp Ltd | Method and device for using neural networks in figure work |
JP3115508B2 (ja) * | 1995-06-21 | 2000-12-11 | シャープ株式会社 | カラー画像処理装置 |
US8913074B2 (en) * | 2004-05-05 | 2014-12-16 | Yissum Research Development Company Of The Hebrew University Of Jerusalem | Colorization method and apparatus |
US7920739B2 (en) * | 2006-12-13 | 2011-04-05 | Adobe Systems Incorporated | Automatically selected adjusters |
TWI331317B (en) * | 2006-12-22 | 2010-10-01 | Ind Tech Res Inst | Method and system for image editing |
US20090096807A1 (en) * | 2007-08-27 | 2009-04-16 | Silverstein Jonathan C | Systems and methods for image colorization |
WO2011081226A1 (ko) * | 2009-12-29 | 2011-07-07 | 포항공과대학교 산학협력단 | 컬러 이미지를 그레이스케일 이미지로 변환하는 방법 및 이를 수행하는 프로그램이 기록된 기록매체 |
US20130044123A1 (en) * | 2011-08-16 | 2013-02-21 | Microsoft Corporation | User-specified image colorization for application user interface |
US8971617B2 (en) * | 2012-03-06 | 2015-03-03 | Apple Inc. | Method and interface for converting images to grayscale |
US8724894B1 (en) * | 2012-12-03 | 2014-05-13 | Rockwell Collins, Inc. | Colorization of digital imagery |
US20150109323A1 (en) * | 2013-10-18 | 2015-04-23 | Apple Inc. | Interactive black and white image editing |
US9323996B2 (en) * | 2014-06-01 | 2016-04-26 | Apple Inc. | Controlling multiple photographic adjustments with a single control |
EP3038059A1 (en) | 2014-12-22 | 2016-06-29 | Thomson Licensing | Methods and systems for color processing of digital images |
EP3086552A1 (en) * | 2015-04-20 | 2016-10-26 | Thomson Licensing | Method and apparatus for image colorization |
US9589210B1 (en) * | 2015-08-26 | 2017-03-07 | Digitalglobe, Inc. | Broad area geospatial object detection using autogenerated deep learning models |
US9767565B2 (en) * | 2015-08-26 | 2017-09-19 | Digitalglobe, Inc. | Synthesizing training data for broad area geospatial object detection |
US9773196B2 (en) * | 2016-01-25 | 2017-09-26 | Adobe Systems Incorporated | Utilizing deep learning for automatic digital image segmentation and stylization |
US10892050B2 (en) * | 2018-04-13 | 2021-01-12 | International Business Machines Corporation | Deep image classification of medical images |
US10762669B2 (en) * | 2018-05-16 | 2020-09-01 | Adobe Inc. | Colorization of vector images |
US11335093B2 (en) * | 2018-06-13 | 2022-05-17 | Google Llc | Visual tracking by colorization |
CN110648375B (zh) | 2018-06-26 | 2023-07-07 | 微软技术许可有限责任公司 | 基于参考信息的图像彩色化 |
CN113112505B (zh) * | 2018-10-15 | 2022-04-29 | 华为技术有限公司 | 一种图像处理方法、装置与设备 |
US11048935B2 (en) * | 2019-01-28 | 2021-06-29 | Adobe Inc. | Generating shift-invariant neural network outputs |
US11010872B2 (en) * | 2019-04-29 | 2021-05-18 | Intel Corporation | Method and apparatus for person super resolution from low resolution image |
US11222242B2 (en) * | 2019-08-23 | 2022-01-11 | International Business Machines Corporation | Contrastive explanations for images with monotonic attribute functions |
US10764471B1 (en) * | 2019-09-27 | 2020-09-01 | Konica Minolta Business Solutions U.S.A., Inc. | Customized grayscale conversion in color form processing for text recognition in OCR |
KR20210042588A (ko) * | 2019-10-10 | 2021-04-20 | 엘지전자 주식회사 | 영상을 압축 또는 복원하기 위한 방법 및 장치 |
KR20210054907A (ko) * | 2019-11-06 | 2021-05-14 | 엘지전자 주식회사 | 이미지 보정방법 및 보정장치 |
CN110874828B (zh) * | 2020-01-20 | 2020-04-21 | 上海尽星生物科技有限责任公司 | 神经网络模型及基于神经网络模型的超声波束形成方法 |
US10997752B1 (en) * | 2020-03-09 | 2021-05-04 | Adobe Inc. | Utilizing a colorization neural network to generate colorized images based on interactive color edges |
US11523029B2 (en) * | 2020-04-08 | 2022-12-06 | Faro Technologies, Inc. | Artificial intelligence scan colorization |
US11410347B2 (en) * | 2020-04-13 | 2022-08-09 | Sony Group Corporation | Node-based image colorization on image/video editing applications |
EP3896967A1 (en) * | 2020-04-17 | 2021-10-20 | Leica Microsystems CMS GmbH | Digital imaging device and method for generating a digital color image |
US11367165B2 (en) * | 2020-05-19 | 2022-06-21 | Facebook Technologies, Llc. | Neural super-sampling for real-time rendering |
-
2020
- 2020-11-19 US US16/952,348 patent/US11335048B1/en active Active
-
2021
- 2021-11-18 CN CN202180030086.0A patent/CN115428026A/zh active Pending
- 2021-11-18 WO PCT/IB2021/060716 patent/WO2022107046A1/en active Application Filing
- 2021-11-18 JP JP2023530267A patent/JP2023550930A/ja active Pending
- 2021-11-18 EP EP21816154.5A patent/EP4229599A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US11335048B1 (en) | 2022-05-17 |
WO2022107046A1 (en) | 2022-05-27 |
US20220156993A1 (en) | 2022-05-19 |
EP4229599A1 (en) | 2023-08-23 |
CN115428026A (zh) | 2022-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10534998B2 (en) | Video deblurring using neural networks | |
JP2023550930A (ja) | 画像/ビデオ編集アプリケーションにおけるニューラルネットワークベースの画像カラー化 | |
US20230081630A1 (en) | System and method for computing operations based on a first and second user input | |
JP6355746B2 (ja) | デバイスのための画像編集技法 | |
JP2022525845A (ja) | 一連のカラー画像フレームにおける複数のニューラルネットワークベースのオブジェクトセグメンテーション | |
CN108924420B (zh) | 图像拍摄方法、装置、介质、电子设备及模型训练方法 | |
US11410347B2 (en) | Node-based image colorization on image/video editing applications | |
US8406566B1 (en) | Methods and apparatus for soft edge masking | |
CN111369644A (zh) | 人脸图像的试妆处理方法、装置、计算机设备和存储介质 | |
US11521299B2 (en) | Retouching digital images utilizing separate deep-learning neural networks | |
US20220222872A1 (en) | Personalized Machine Learning System to Edit Images Based on a Provided Style | |
CN104809694A (zh) | 一种数字图像处理方法和装置 | |
JPWO2018203374A1 (ja) | 線画自動着色プログラム、線画自動着色装置及びグラフィカルユーザインターフェース用プログラム | |
US20180349000A1 (en) | Automated pixel shifting within a digital image | |
CN111462158A (zh) | 一种图像处理方法、装置及智能设备、存储介质 | |
US20220197488A1 (en) | Automated Pixel Shifting Within a Digital Image | |
Petro et al. | Selective contrast adjustment by Poisson equation | |
Zhao et al. | Learning tone curves for local image enhancement | |
US20220406091A1 (en) | Landmark detection using deep neural network with multi-frequency self-attention | |
JP6155349B2 (ja) | デコンボリューション画像において色収差を減じる方法、装置及びコンピュータプログラム製品 | |
JP2023550926A (ja) | ニューラルネットワークモデルベースの深度推定 | |
JP2018190394A (ja) | 監視ビデオにおけるデータの拡張方法及び装置 | |
CN114554089B (zh) | 视频处理方法、装置、设备、存储介质 | |
JP2024519504A (ja) | ディープニューラルネットワーク(dnn)モデル及び画像特徴検出モデルに基づく逆画像検索 | |
CN117455796A (zh) | 一种图像去噪方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230518 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240425 |