JP2022504292A - 画像処理方法、装置、デバイスおよびコンピュータプログラム - Google Patents

画像処理方法、装置、デバイスおよびコンピュータプログラム Download PDF

Info

Publication number
JP2022504292A
JP2022504292A JP2021518654A JP2021518654A JP2022504292A JP 2022504292 A JP2022504292 A JP 2022504292A JP 2021518654 A JP2021518654 A JP 2021518654A JP 2021518654 A JP2021518654 A JP 2021518654A JP 2022504292 A JP2022504292 A JP 2022504292A
Authority
JP
Japan
Prior art keywords
image
feature
feature set
target
image processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021518654A
Other languages
English (en)
Other versions
JP7266828B2 (ja
Inventor
毅 王
▲シン▼ 陶
佳亞 賈
ユウィン・タイ
小勇 沈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2022504292A publication Critical patent/JP2022504292A/ja
Application granted granted Critical
Publication of JP7266828B2 publication Critical patent/JP7266828B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

Figure 2022504292000001
本願は、画像処理のための方法、デバイス、装置および記憶媒体を開示している。前記方法は、コンピューティングデバイスによって実行され、ターゲット画像を予測するための入力画像を受信するステップ(S702)と、前記入力画像のコンテキスト特徴を決定するステップ(S704)と、ターゲット画像のサイズと、前記入力画像の前記ターゲット画像における位置とに基づいて、前記コンテキスト特徴により第1特徴セットと第2特徴セットを決定するステップ(S706)と、前記第1特徴セットの第1特徴統計量に基づいて第2特徴セットを調整し、調整後の第2特徴セットを得るステップ(S708)と、前記調整後の第2特徴セットと、前記第1特徴セットとに基づいて、前記ターゲット画像を生成するステップ(S710)と、を含む。

Description

[関連出願への相互参照]
本願は、2019年3月6日に中国特許庁へ出願された、出願番号が201910168409.7であり、出願名称が「画像処理方法、装置、デバイスおよび記憶媒体」である中国特許出願の優先権を主張し、その全ての内容が参照することにより本願に組み込まれる。
[技術分野]
本願は、画像処理の分野に関し、具体的に、画像処理方法、デバイス、装置および記憶媒体に関する。
人工知能(AI:Artificial Intelligence)は、デジタルコンピュータまたはデジタルコンピュータによって制御されるマシンを使用して、人間の知能をシミュレート、延伸および拡張し、環境を感知し、知識を獲得して、知識を利用することで最適な結果を得るために使用される理論、方法、技術およびアプリケーションシステムである。言い換えれば、人工知能は、コンピュータ科学の総合的な技術であり、知能の本質を理解することを企んで、人間の知能と似ている方式で応答することができる新しい知能マシンを作り出す。つまり、人工知能とは、様々な知能マシンの設計原理および実現方法を研究して、マシンに感知、推理および意思決定の機能を持たせことである。
人工知能技術は、総合的な学科であり、幅広い分野に関わっており、ハードウェアレベルの技術もあるし、ソフトウェアレベルの技術もある。人工知能の基礎技術には、一般的に、センサ、専用の人工知能チップ、クラウドコンピューティング、分散型ストレージ、ビッグデータ処理技術、オペレーティング/インタラクションシステム、機電一体化などのような技術が含まれている。人工知能ソフトウェア技術には、主に、コンピュータビジョン技術、音声処理技術、自然言語処理技術、および機械学習/深度学習などのいくつかの分野が含まれている。
コンピュータビジョン(CV:Computer Vision)技術は、如何にマシンに「観察させる」かを研究する科学であり、さらに言えば、人間の目の代わりに、カメラとコンピュータを使用して、ターゲットに対して識別したり、追跡したり、測定したりするマシンビジョン技術を指し、さらに、グラフィック処理を行うことにより、人間の目が観察するようにより適することができる画像、または機械に伝送して検出されることができる画像としてコンピュータに処理させる。科学の一つ学科として、コンピュータビジョンは、関連する理論および技術を研究して、画像または多次元データから情報を取得することができる人工知能システムを構築することを試みる。コンピュータビジョン技術には、一般的に、画像処理、画像識別、画像意味理解、画像検索、OCR、ビデオ処理、ビデオ意味理解、ビデオコンテンツ/行為識別、三次元オブジェクト再構築、3D技術、仮想現実、強化現実、同期位置決め、地図構築などの技術が含まれており、さらに、よく見られる顔識別、指紋識別などの生体特徴識別技術がふくまれている。
画像修復は、画像指定領域を合理的な画素で充填する画像編集技術であり、例えば、所定の画像に基づいて画像の境界以外の視覚コンテンツに対して合理的に予測することができ、すなわち、局所画像情報に基づいて完全な画像コンテンツを生成する。しかしながら、局所画像に基づいて画像修復を行う従来の方法では、既知の局所画像と、局所画像に基づいて行われた予測の結果との間の制約関係が考慮されていないため、結果として得られた修復画像は、意味情報的、およびテクスチャ的に、既知の局所画像との一致性が比較的悪い。したがって、局所画像情報に基づいて、意味情報がより完全になり、テクスチャの一致性がより高くになる画像を生成することができるように、改善された画像修復方法を提供することが期待されている。
本願は、画像処理のための方法、デバイス、装置および記憶媒体を提供することを目的とする。本願によって提供される方法を使用すると、局所画像情報に基づいて、局所画像の境界以外の領域へ意味拡張を行って、真実の意味価値と、一致性がある構造と、真実に近いテクスチャとを有する画像修復効果を獲得することができる。
本願の第1態様によれば、コンピューティングデバイスによって実行される画像処理方法が提供され、この方法は、ターゲット画像を予測するための入力画像を受信するステップと、前記入力画像のコンテキスト特徴を決定するステップと、ターゲット画像のサイズと、前記入力画像の前記ターゲット画像における位置とに基づいて、前記コンテキスト特徴により第1特徴セットと第2特徴セットを決定するステップと、前記第1特徴セットの第1特徴統計量に基づいて第2特徴セットを調整し、調整後の第2特徴セットを得るステップと、前記調整後の第2特徴セットと、前記第1特徴セットとに基づいて、前記ターゲット画像を生成するステップと、を含む。
本願の第2態様によれば、画像処理装置が提供され、この装置は、入力画像を受信するように構成される受信ユニットと、前記入力画像のコンテキスト特徴を決定するように構成されるコンテキスト特徴決定ユニットと、ターゲット画像のサイズと、前記入力画像の前記ターゲット画像における位置とに基づいて、前記コンテキスト特徴により第1特徴セットと第2特徴セットを決定するように構成される特徴セット決定ユニットと、前記第1特徴セットの第1特徴統計量に基づいて第2特徴セットを調整し、調整後の第2特徴セットを得るように構成される調整ユニットと、前記調整後の第2特徴セットと、前記第1特徴セットとに基づいて、前記ターゲット画像を生成するように構成されるターゲット画像生成ユニットと、を含む。
本願の第3態様によれば、画像処理のためのコンピューティングデバイスが提供され、前記コンピューティングデバイスは、メモリと、プロセッサとを含み、ここで、前記メモリに命令が記憶されており、前記プロセッサによって前記命令が実行される場合、前記プロセッサに前記の方法を実行させる。
本願の第4態様によれば、命令が記憶されているコンピュータ読み取り可能な記憶媒体が提供され、前記命令がプロセッサによって実行される場合、前記プロセッサに前記の方法を実行させる。
本願によって提供される画像処理方法、デバイス、装置および記憶媒体を使用すると、局所の画像情報を完全な画像情報に修復することができる。既知領域を表すための特徴セットの統計量情報によって、未知領域を表すための特徴セットにおける要素値を調整することにより、既知領域の統計量を未知領域に付与することができ、これにより、本願によって提供される方法で生成された予測画像におけるコンテンツは、予測画像に最も近い既知画像の情報による単一方向性制約を超えるものになり、また、既知領域と未知領域との間の色/テクスチャの一致性を向上させる。また、局所画像に対してコンテキスト特徴を直接的に抽出することにより、画像修復プロセスで不要な先験的情報を導入することが回避されることができ、入力された局所画像の情報に完全に基づいてコンテキスト特徴を決定することができ、これによって、入力された局所画像と構造的、意味的、テクスチャ的にさらに一致する修復画像を生成することができる。
次に、本願の実施形態の技術的解決手段をより明確に説明するために、以下に、実施形態の説明において必要とされる図面を簡単に紹介する。明らかに、以下の説明における図面は、本願のいくつかの実施形態に過ぎず、当業者にとって、創造的な労働がなされていないという前提で、これらの図面に基づいて他の図面を得ることもできる。以下の図面は、意図的に実際のサイズに合わせて比例して拡大縮小し描かれておらず、そのポイントは、本願の主旨を示すことにある。
局所画像に基づいて画像処理を行ういくつかの例を示す図である。 局所画像に基づいて画像処理を行ういくつかの例を示す図である。 本願の実施形態による画像処理システムの例示的なシーンを示す図である。 本願の実施形態による画像処理方法の適用の例示的なグラフィカルユーザインタフェースを示す図である。 本願の実施形態による画像処理方法の適用の例示的なグラフィカルユーザインタフェースを示す図である。 本願の実施形態による画像処理方法の適用の例示的なグラフィカルユーザインタフェースを示す図である。 本願の実施形態による画像処理方法の適用の例示的なグラフィカルユーザインタフェースを示す図である。 本願の実施形態による画像処理装置を示す模式図である。 本願の実施形態による入力画像の例を示す図である。 本願の実施形態による入力画像の例を示す図である。 本願の実施形態による特徴拡張ネットワークの例示的な構造を示す図である。 本願による、深層ニューラルネットワークによって出力された画像の敵対的損失を決定する一例を示す図である。 本願の実施形態による画像処理方法を示す概略的なフローチャートである。 本願の実施形態による画像処理の例示的なフローを示す図である。 本願によって提供される画像処理方法の効果を示す図である。 本願によって提供される画像処理方法の効果を示す図である。 本願によって提供される画像処理方法の効果を示す図である。 本願によって提供される画像処理方法の効果を示す図である。 本願によって提供される画像処理方法の効果を示す図である。 本願によって提供される画像処理方法の効果を示す図である。 本願によって提供される画像処理方法の効果を示す図である。 本願によって提供される画像処理方法の効果を示す図である。 本願によって提供される画像処理方法の効果を示す図である。 本願の実施形態によるコンピューティングデバイスのアーキテクチャを示す図である。
本願の実施形態の目的、技術的解決手段および利点をより明確にするために、以下に、本願の実施形態の図面を参照しながら、本願の実施形態の技術的解決手段を明確かつ完全に説明する。明らかに、説明される実施形態は、本願の一部の実施形態に過ぎず、全ての実施形態ではない。説明される本願の実施形態に基づいて、当業者が創造的な労働を必要としない前提で取得した他の全ての実施形態は、いずれも本願の保護範囲に属している。
特に定義されない限り、本願で使用される技術用語または科学用語は、本願が属する分野で当業者が理解している通常の意味を有するものである。本願で使用される「第1」、「第2」および類似する用語は、いずれの順番、数量または重要性を示すものではなく、異なる構造要素を区別するために使用されるものに過ぎない。同様に、「含む」または「備える」および類似する用語は、当該用語の前に現れた要素または部品が当該用語の後ろに挙げられた要素または部品、および同等なものをカバーし、他の要素または部品が除外されない、ということを意味する。「接続」、「連結」および類似する用語は、物理的または機械的な接続に限定されず、直接的なものであるか間接的なものであるかに関らず、電気的な接続または信号接続を含むようにしてもよい。
図1Aおよび図1Bは、局所画像に基づいて画像処理を行ういくつかの例を示す。図に示すように、画像修復アルゴリズムを使用すると、局所の顔、身体などの情報に基づいて、人間または動物の画像を修復することで、完全な修復画像を得ることができる。ここで、完全な修復画像の中の一部は、既知の局所画像であり、残りの部分は、局所画像から予測して得られた予測画像である。
予測画像が局所画像に基づいて生成されたものであるため、予測画像が一意に決定されたものではない、ということが理解できる。予測画像の意味情報が真実であり、かつ、テクスチャ情報が局所画像に類似している限り、画像修復の効果が良好であると見なすことができる。
例えば、図1Aに示すように、局所の人間の顔または動物の顔の画像に対して修復を行うことにより、完全な人間の顔または動物の顔の画像を生成することができる。
別の例として、図1Bの3つの例にとって、完全な動物または人物の身体は、局所の身体情報によって修復して得られる。図1Bから分かるように、修復して得られた鳥類の情報は、頭部、嘴部、尾部などのような、オリジナルの局所画像に含まれていない意味情報を含み、また、画像修復によって生成された鳥類の身体部分または背景部分のテクスチャ情報は、局所画像における相応的なテクスチャ情報と非常に高い一致性を有する。
同様に、図1Bにおける人物身体の修復の例について、局所画像が人物の頭部および肩部の情報のみを含むが、本願によって提供される画像処理アルゴリズムを利用して、テクスチャが局所情報と一致した、完全な人体身体の画像を生成できる。
当業者であれば、画像修復にとって、完全な画像を生成するための局所画像のコンテンツ情報を限定する必要がない、ということが理解することができる。局所画像は、明確な意味情報を有してもよく、テクスチャ画像であってもよい。当業者は、画像修復アルゴリズムが異なる意味の画像修復に適するように、実際の状況に応じて画像修復アルゴリズムのパラメータを調整することができる。
図2Aは、本願による画像処理システムの例示的なシーン図を示す。図2Aに示すように、当該画像処理システム100は、1つ以上のユーザ端末110と、1つ以上のネットワーク120と、1つ以上のサーバデバイス130と、1つ以上のデータベース140とを含むようにしてもよい。
いくつかの実施形態では、ユーザ端末110は、コンピュータ110-1、携帯電話120-1などを含むが、これらに限定されない。ユーザ端末は、ノートパソコン、タブレットコンピュータ、スマートホームデバイス、ウェアラブルデバイスなどを含むがこれらに限定されない任意の他のタイプの電子デバイスであってもよい、ということを理解できる。本願によって提供されるユーザ端末は、画像修復のために使用されるオリジナルの局所画像情報を入力画像として受信することができる。いくつかの実施形態では、ユーザ端末は、入力画像を受信し、ユーザ端末の処理ユニットを使用して入力画像に対して画像修復を行うことができる。例えば、ユーザ端末は、内蔵のメモリに記憶されているアルゴリズムおよびデータを使用して、入力画像に対して画像修復アルゴリズムを実行することができる。いくつかの実装形態では、ユーザ端末は、内蔵のアプリケーションプログラムを使用して、画像修復を実行することができる。他のいくつかの実装形態では、ユーザ端末は、外部データベースに記憶されている画像修復プログラムを呼び出して、画像修復を実行することができる。
いくつかの実施形態では、ユーザ端末は、入力画像を受信し、ネットワーク120を介して入力画像をサーバデバイス130に送信して、サーバデバイス130によって画像処理、言い換えれば、画像修復が実行されることができる。いくつかの実装形態では、サーバデバイス130は、内蔵のアプリケーションプログラムを使用して画像修復を実行することができる。別のいくつかの実装形態では、サーバデバイス130は、外部データベースに記憶されている画像修復プログラムを呼び出して、画像修復を実行することができる。
ネットワーク120は、単一のネットワークであってもよく、複数の異なるネットワークの組み合わせであってもよい。例えば、ネットワーク120は、ローカルエリアネットワーク、ワイドエリアネットワーク、パブリックネットワーク、プライベートネットワークのうちの1つまたは複数の組み合わせを含むが、これらに限定されない。
サーバデバイス130は、単独のサーバデバイスであってもよく、サーバデバイスのグループであってもよいし、グループ内の各サーバデバイスは、有線または無線のネットワークを介して接続されてもよい。サーバデバイスのグループは、集中型のものであってもよく、例えば、データセンターである。サーバデバイス130は、ローカルのものであってもよく、リモートのものであってもよい。
データベース140とは、一般的に、記憶機能を備えるデバイス全般を指す。データベース140は、主に、ユーザ端末から受信されたデータと、サーバデバイス130の動作中に使用、生成または出力される各種データとを記憶するために使用される。データベース140は、ローカルのものであってもよく、リモートのものであってもよい。データベース140は、様々なメモリであってもよく、例えば、ランダムアクセスメモリ(RAM:Random Access Memory)、リードオンリーメモリ(ROM:Read Only Memory)などであってもよい。前記の記憶デバイスは、いくつかの例を列挙したものに過ぎず、当該システムが使用できる記憶デバイスは、これらに限定されない。
データベース140は、ネットワーク120と互いに接続または通信することができ、または直接的にサーバデバイス130またはその一部と互いに接続または通信することができ、あるいはこの2つの形式を組み合わせたものであってもよい。
図2Aによって提供される画像処理システムを使用する場合、ユーザ端末によって修復対象となる入力画像を受信することができる。例えば、ユーザは、ユーザ端末に取り付けられた撮影装置によって画像を撮影し入力画像としてもよい。また例えば、ユーザは、ネットワークを介して画像をダウンロードし入力画像としてもよく、または、ユーザデバイスの記憶ユニットから入力画像を読み取ってもよい。決定された入力画像を使用することで、ユーザ端末自身の処理ユニットを用いて画像修復を実行してもよく、またはユーザ端末がネットワーク120を介して修復対象となる入力画像をサーバデバイスに伝送した後、サーバデバイスによって画像修復を実行してもよい。以下に、画像処理方法のフローを詳細に説明し、本願では、画像処理は、画像修復を含むことができるが、これに限定されない。
図2B~図2Eは、本願の実施形態による画像処理方法の適用の例示的なグラフィカルユーザインタフェースを示す。
前述したように、ユーザ端末を使用して本願によって提供される画像修復方法を実行することができる。図2Bに示すように、ユーザは、ユーザ端末に埋め込まれたプログラムを使用して、修復のために使用される局所画像を選択することができる。例えば、ユーザは、図2Bにおける「画像導入」の「+」字状の記号をクリックして、修復対象となる入力画像を入力することができる。例えば、ユーザは、ローカルの記憶ユニットから、修復対象となる入力画像を選択するようにしてもよく、またはユーザ端末の画像収集デバイスを使用して修復対象となる入力画像を収集するようにしてもよい。図2Cは、ユーザが修復対象となる入力画像を入力した後の例示的なグラフィカルユーザインタフェースの効果を示す。
いくつかの実施形態では、ユーザは、ターゲット画像のサイズ、即ち、修復された画像のサイズを入力することもできる。図2Dに示すように、ユーザは、「上」、「下」、「左」、「右」の4つのパラメータを入力することでターゲット画像のサイズを決定するようにしてもよい。ここで、上記の4つのパラメータは、それぞれ、入力画像の上エッジとターゲット画像の上エッジとの間の距離、入力画像の下エッジとターゲット画像の下エッジとの間の距離、入力画像の左エッジとターゲット画像の左エッジとの間の距離、入力画像の右エッジとターゲット画像の右エッジとの間の距離を表す。
前述したように、ユーザ端末自体を使用して画像修復プロセスを実行するようにしてもよく、ネットワークを介して入力画像をサーバデバイスに送信して、サーバデバイスによって画像修復プロセスを実行するようにしてもよい。図2Eは、本願の実施形態の方法によって得られたターゲット画像の効果を示す図である。図2Eに示す画像は、図2Cに示す局所画像に基づいて生成されたものであり、それが、局所画像と一致するテクスチャ情報およびより完全な意味情報を備える。
当業者は、図2B~図2Eが、本願によって提供される画像修復方法を実現するための例示的なグラフィカルユーザインタフェースのみを示すに過ぎないが、実際に、当業者がユーザの要求に応じて局所画像から修復することを任意の方式で実現することができ、本願が、これについて限定しない、ということを理解することができる。
図3は、本願による画像処理装置を示す模式図である。図3に示す画像修復装置は、図2Aに示すユーザ端末またはサーバデバイスとして実現されてもよい。
画像修復装置300は、受信ユニット310と、コンテキスト特徴決定ユニット320と、コンテキスト予測ユニット330とを含むようにしてもよい。ここで、コンテキスト予測ユニット330は、コンテキスト特徴決定ユニットによって決定されたコンテキスト特徴に基づいて予測を実行することにより、ターゲット画像を生成するように構成される。図3に示すように、コンテキスト予測ユニットは、特徴セット決定ユニット331と、調整ユニット332と、ターゲット画像生成ユニット333とをさらに含むようにしてもよい。図3に明確に示されていないが、当業者は、本願の原理に合致した場合、図3に示す特徴セット決定ユニット331、調整ユニット332およびターゲット画像生成ユニット333が、単独なユニットとして設定されてもよく、集積モジュールとして設定されてもよい、ということを理解することができる。
受信ユニット310は、入力画像を受信するように構成されてもよい。図4Aおよび図4Bは、入力画像の2つの例を示す。ここで、示されている画像には、街並みの風景が含まれている。図4Bに示す画像には、テクスチャ画像が含まれている。図4Aおよび図4Bが入力画像の2つの可能な例を示すに過ぎないが、実際の運用プロセスにおいて、入力画像には、任意のタイプの画像情報がふくまれてもいが、本願がこれについて限定しない、ということが理解されたい。
引き続き図3を参照すると、コンテキスト特徴決定ユニット320は、前記入力画像のコンテキスト特徴を決定するように構成されてもよい。いくつかの実施形態では、コンテキスト特徴決定ユニットは、深層ニューラルネットワークであってもよく、本願では、コンテキスト特徴決定ユニットは、特徴拡張ネットワークとも呼ばれ、畳み込み層とプーリング層によって構成され、前記入力画像に畳み込み処理を行って、入力画像のコンテキスト特徴を決定するために使用されることができる。例えば、特徴拡張ネットワークには、畳み込み層とプーリング層によって構成される符号化ユニットと、拡張畳み込み層によって形成された拡張ユニットと、畳み込み層とプーリング層によって構成され符号化ユニットに対応する復号ユニットとが含まれ、ここで、拡張畳み込みとは、その拡張率が1より大きい畳み込みを指す。特徴拡張ネットワークを使用して入力画像を処理することにより、入力画像のコンテキスト特徴を決定することができる。
いくつかの実施形態では、入力画像を直接的に特徴拡張ネットワークに入力して、特徴拡張ネットワークの出力を入力画像のコンテキスト特徴とすることができる。特徴拡張ネットワークによって入力画像を直接的に処理する場合、特徴拡張ネットワークによって出力されたコンテキスト特徴が、入力画像自体の情報に完全に基づいて生成されたものであり、いかなる無意味な先験的情報も含まれていないということと見なすことができる。
いくつかの実施形態では、特徴拡張ネットワークの入力には、ターゲット画像のサイズ情報が含まれてもよい。いくつかの例では、修復となるターゲット画像のサイズと、入力画像のターゲット画像における位置とに基づいて、入力画像を調整し、そして、調整後の入力画像を特徴拡張ネットワークに入力して、特徴拡張ネットワークの出力を入力画像のコンテキスト特徴とすることができる。例えば、入力画像のサイズが64×64画素であって、ターゲット画像のサイズが128×128画素であれば、かつ、入力画像がターゲット画像の中心位置に位置することが既知された場合、画素を追加する方式によって入力画像のサイズを128×128に調整することができる。ここで、調整後の入力画像の中心位置の画素は、オリジナルの入力画像の対応する画素の値であり、残りの追加された画素値は、ランダムな値であってもよく、予め定義された値であってもよいし、例えば、0、1または他の任意の可能な数値であってもよい。
いくつかの実施形態では、入力画像の画素値を線形マッピングの方式によって-1~1の間に調整することにより、深層ニューラルネットワークの計算負荷を低減することができる。
特徴セット決定ユニット331は、ターゲット画像のサイズと、前記入力画像の前記ターゲット画像における位置とに基づいて、前記コンテキスト特徴により第1特徴セットと第2特徴セットを決定するように構成されてもよい。ここで、第1特徴セットは、コンテキスト特徴のうち、ターゲット画像における入力画像の位置に対応する要素によって形成された集合に対応することができ、第2特徴セットは、コンテキスト特徴のうち、ターゲット画像における予測画像の位置に対応する要素によって形成された集合に対応することができる。
いくつかの実施形態では、特徴セット決定ユニット331は、深層ニューラルネットワークとして実現されることができる。例えば、深層ニューラルネットワークを使用して前記コンテキスト特徴を処理することにより、完全なターゲット画像を表すための特徴セットを得て、ターゲット画像のサイズと、入力画像のサイズと、前記入力画像の前記ターゲット画像における位置とに基づいて、処理されたコンテキスト特徴において、第1特徴セットおよび第2特徴セットを決定することができる。例えば、特徴セット決定ユニットには、畳み込み層によって形成された符号化ユニットおよび/または拡張畳み込みユニットが含まれてもよい。
一実現方式では、コンテキスト特徴がコンテキスト特徴決定ユニットを使用して入力画像を直接的に処理して決定されたものである場合、前記ターゲット画像のサイズと、前記入力画像の前記ターゲット画像における位置とに基づいて、前記予測画像の領域を指示する位置特徴を決定して、前記位置特徴と、前記コンテキスト特徴とを組み合わせることにより、組み合わせたコンテキスト特徴を得ることができる。この場合、特徴セット決定ユニット331は、例えば深層ニューラルネットワークを使用して、組み合わせたコンテキスト特徴を処理し、さらに、ターゲット画像のサイズと、前記入力画像の前記ターゲット画像における位置とに基づいて特徴セット決定ユニットを使用して、組み合わせたコンテキスト特徴を処理(例えば、符号化)することにより、第1特徴セットおよび第2特徴セットを決定することができる。
調整ユニット332は、前記第1特徴セットの第1特徴統計量に基づいて、第2特徴セットを調整するように構成されてもよい。前述したように、第1特徴セットには、ターゲット画像における入力画像の位置に対応する要素が含まれ、第2特徴セットには、ターゲット画像における入力画像以外の予測画像の位置に対応する要素が含まれる。したがって、第1特徴セットの要素は、ターゲット画像における既知領域の入力画像の特徴を表すために使用されてもよく、第2特徴セットの要素は、ターゲット画像における未知領域の予測画像の特徴を表すために使用されてもよい。本願の原理により、第1特徴セットの第1特徴統計量を決定して、第1特徴統計量に基づいて第2特徴セットにおける各要素の値を調整することにより、既知領域の特徴の統計的特性を未知領域の特徴に付与することができ、これによって、最終に生成された予測画像のコンテンツは、予測画像に最も近い既知画像の情報による単一方向性制約を超えるものになり、また、既知領域と未知領域との間の色/テクスチャの一致性を向上させる。
いくつかの実施形態では、第1特徴統計量は、第1特徴セットにおけるすべての要素の統計量であってもよい。ここで、第1特徴セットにおける要素の平均値、標準偏差、分散のうちの少なくとも1つを第1特徴統計量としてもよい。本願の原理を超えない前提で、当業者が第1特徴統計量を決定する方法を任意に選択することができる、ということを理解することができる。例えば、第1特徴セットのサンプル平均値、サンプル分散、サンプルレンジ(sample range)などの統計量を第1特徴統計量としてもよい。
いくつかの実施形態では、前記調整ユニット332は、さらに、前記第2特徴セットにおける各要素の値を変更することにより、変更された第2特徴セットの第2特徴統計量が前記第1特徴統計量と同じになるように構成され、ここで、前記第2特徴統計量は、前記第2特徴セットにおける要素の統計量である。例えば、第1特徴統計量が第1特徴セットにおける要素の平均値おと標準偏差である場合、下式により第2特徴セットにおける各要素の値を調整して、調整後の第2特徴セットを得ることができ、これにより、調整後の第2特徴セットにおける要素の平均値および標準偏差が第1特徴統計量と同じようにすることができる。

Figure 2022504292000002
ここで、xは、第2特徴セットを表し、xは、第1特徴セットを表す。μ(x)は、第1特徴セットにおける各要素の平均値を表し、σ(x)は、第1特徴セットにおける各要素の標準偏差を表し、μ(x)は、第2特徴セットにおける各要素の平均値を表し、σ(x)は、第2特徴セットにおける各要素の標準偏差を表す。AdaIN(x,x)は、第1特徴セットxの特徴統計量に基づいて、第2特徴セットxにおける各要素の値を調整することにより、調整後の第2特徴セットの特徴統計量が第1特徴セットの特徴統計量と同じになるようにする。
さらに、前記調整ユニット332は、さらに、前記変更後の第2特徴セットにおける各要素に対して、当該要素の値を変更前の第2特徴セットにおける当該要素の値と変更後の第2特徴セットにおける当該要素の値との重み付け平均値にさらに変更するように構成される。ここで、本願は、変更前の要素値および変更後の要素値の重みを限定しない。具体的に、変更前の第2特徴セットにおける要素の重みをρとして予め定義することができ、そうすると、変更後の第2特徴セットにおける要素の重みは1-ρになり、ここで、ρは、0以上かつ1以下の任意の数値であってもよい。一例では、ρは、0.5であってもよい。
前記調整ユニットを使用することで、調整後の第2特徴セットと、第1特徴セットとによって形成された調整後のターゲット特徴は、次のように表すことができ、即ち、

Figure 2022504292000003
ここで、

Figure 2022504292000004
は、入力画像に対応する既知領域を表し、

Figure 2022504292000005
は、予測画像に対応する未知画像領域を表し、fは、組み合わせた位置特徴とコンテキスト特徴を処理して決定されたターゲット特徴を表し、ρは、予め定義されたパラメータであり、その値が0~1の間にある。Mは、f(X)のサイズが一致するマスク行列であり、Mでは、0を使用して既知領域を示してもよく、1を使用して予測領域を示してもよい。μは、計算平均値を表し、σは、標準偏差を表す。
ターゲット画像生成ユニット333は、さらなる変更後の第2特徴セットと、前記第1特徴セットとに基づいて前記ターゲット画像を生成するように構成されてもよく、ここで、前記ターゲット画像が、前記入力画像と予測画像とによって構成される。前述したように、第1特徴セットには、ターゲット画像における入力画像の位置に対応する要素が含まれ、第2特徴セットには、ターゲット画像で入力画像以外の予測画像の位置に対応する要素が含まれる。したがって、第1特徴セットと、調整後の第2特徴セットとを組み合わせることにより、完全なターゲット画像のために使用される特徴セットを決定することができる。いくつかの実施形態では、ターゲット画像生成ユニット333は、畳み込み層とプーリング層とによって形成された深層ニューラルネットワークとして実現されてもよく、例えば、畳み込み層によって実現された復号ユニットである。深層ニューラルネットワークを使用して、調整後の第2特徴セットと、第1特徴セットとによって形成されたターゲット特徴を処理することにより、予測画像を含むターゲット画像を出力することができる。
本願によって提供される画像修復装置を使用すると、既知領域を表すための特徴セットの統計量情報により、未知領域を表すための特徴セットの要素値を調整することにより、既知領域の統計量を未知領域に付与することができ、これによって、本願によって提供される方法で生成された予測画像におけるコンテンツは、予測画像に最も近い既知画像の情報による単一方向性制約を超えるものになり、また、既知領域と未知領域との間の色/テクスチャの一致性を向上させる。
また、局所画像に対してコンテキスト特徴を直接的に抽出することにより、画像修復プロセスで不要な先験的情報を導入することが回避されることができ、入力された局所画像の情報に完全に基づいてコンテキスト特徴を決定することができ、これによって、入力された局所画像と構造的、意味的、テクスチャ的により一致する修復画像を生成することができる。
図5は、本願の実施形態による特徴拡張ネットワークの例示的な構造を示す。図5に示すように、特徴拡張ネットワーク500は、符号化ユニット501と、拡張ユニット502と、復号ユニット503とを含むようにしてもよい。ここで、拡張ユニット502は、符号化ユニット501と復号ユニット503との間に接続される。
本願によって提供される実施形態では、符号化ユニット501は、少なくとも1つの畳み込み層と、少なくとも1つのプーリング層とを含むようにしてもよく、特徴拡張ネットワークの入力に対して符号化を行うように構成される。いくつかの実施形態では、符号化ユニットによって出力された特徴マップのサイズは、特徴拡張ネットワークの入力する画像のサイズより小さく、かつ、符号化ユニットによって出力された特徴マップのチャネル数は、特徴拡張ネットワークの入力する画像のチャネル数より大きい。
拡張ユニット502は、特徴マップにおけるコンテキスト情報をさらに取得するために使用される。例えば、拡張ユニット502は、拡張畳み込み層によって形成されたネットワーク構造として実現されてもよい。拡張畳み込み層とは、その拡張率が1より大きい畳み込み層を指す。拡張ユニット502は、符号化ユニット501によって出力された特徴マップに対して、さらなる処理を行うことにより、その中のコンテキスト情報を抽出するように構成されてもよい。いくつかの実施形態では、拡張ユニット502を使用することで、符号化ユニット501によって出力された特徴マップを処理する場合、当該特徴マップの解像度を変更しないようにする。これは、拡張畳み込みを使用すると、特徴マップの解像度が変わらないままである場合、より大きな感受性視野により特徴マップにおける情報を取得できるためである。当業者が実際のニーズに応じて、特徴マップ情報を取得することができる他のニューラルネットワークの構造で拡張畳み込み層を置き換えることができる、ということを理解することができる。本願では、拡張ユニットの具体的な形態が限定されない。
復号ユニット503は、少なくとも1つの畳み込み層と、少なくとも1つのプーリング層とを含むようにしてもよく、拡張ユニット502の出力を復号するように構成される。いくつかの実施形態では、復号ユニットによって出力された特徴マップのサイズは、修復対象となるターゲット画像の解像度と同じである。復号ユニット503は、バイリニアアップサンプリングにより、特徴マップの解像度の増加を実現することができる。当業者は、他のアップサンプリング方法を使用して特徴マップの解像度の増加を実現できる、ということを理解することができる。
いくつかの実施形態では、復号ユニットは、特徴再ランキング層を含むようにしてもよい。特徴再ランキング層は、処理対象となる特徴マップの解像度を変更するために使用される。一例では、復号ユニットの最後の層の入力がh×w×(r×r×c’)の特徴マップである。特徴再ランキング層は、所定のマッピング関係に基づいて、サイズがh×w×(r×r×c’)である特徴マップをサイズがrh×rw×c’である特徴マップに再ランキングするように構成されてもよい。一例では、特徴再ランキング層が復号ユニット503の最後の層である場合、ここで、h×wが、特徴拡張ネットワークの入力画像のサイズを表し、rh×rwが、修復対象となるターゲット画像のサイズを表し、このような再ランキング処理sは、次のように定義されることができ、即ち、

Figure 2022504292000006
ここで、Fは、特徴再ランキング層の入力の特徴マップを表し、r、rおよびc’は、予め定義されたパラメータ値であり、i、j、kは、インデックスパラメータである。floorは、切り捨て処理を表し、modは、余数を求める処理を表す。つまり、floor(i/r)によって得られたのは、iをrで割って得られた結果の整数部分の値であり、floor(j/r)によって得られたのは、jをrで割って得られた結果の整数部分の値である。mod(i,r)によって得られたのは、iをrで割って得られた余数であり、mod(j,r)によって得られたのは、jをrで割ってえられた余数である。
再ランキング処理sにより、符号化ユニットの中間層によって出力された特徴マップの要素を再ランキングして、ターゲット画像のサイズと同じである特徴マップを生成することができる。
いくつかの実施形態では、復号ユニット503は、特徴再ランキング層に対して畳み込みを行うために使用される畳み込み層をさらに含むようにしてもよく、これにより、再ランキング後の特徴マップにおけるコンテキスト特徴をより良く取得することができる。
サイズがrh×rw×c’である出力にとっては、アップサンプリングを使用して解像度を増加させる場合、アップサンプリング前の畳み込み層のチャネル数は、c’であり、アップサンプリングの代わりに特徴再ランキング層を使用する場合、特徴再ランキング層の前の畳み込み層のチャネル数がr×r×c’に設定されるべきである。したがって、畳み込みカーネルのサイズが変わらない場合、特徴再ランキング層を使用すると、前の畳み込み層のパラメータ数を増すことができ、これにより、特徴拡張ネットワークの表現能力がより強化されることができる。
図3に示すコンテキスト特徴決定ユニットおよびコンテキスト予測ユニットは、深層ニューラルネットワークとして実現される場合、当該深層ニューラルネットワークは、下記のステップによってトレーニングされることができ、即ち、
トレーニングサンプルセットから1つのサンプル画像Yを決定し、ここで、トレーニングサンプルセットには、人間の顔、鳥類、テクスチャ、街並みの風景などの画像コンテンツが含まれてもよい。サンプル画像においてランダムに1つのエッジm=(top,left,bottom,right)を充填することにより局所画像を深層ニューラルネットワークの入力として決定することができる。ここでは、ターゲット画像および局所画像がいずれも矩形であると仮定し、ここで、topは、局所画像の上エッジとターゲット画像の上エッジとの間の距離を表し、leftは、局所画像の左エッジとターゲット画像の左エッジとの間の距離を表し、bottomは、局所画像の下エッジとターゲット画像の下エッジとの間の距離を表し、rightは、局所画像の右エッジとターゲット画像の右エッジとの間の距離を表す。そして、前記深層ニューラルネットワークを使用して前記局所画像を処理し、当該局所画像に基づくターゲット画像を出力することができる。
前記深層ニューラルネットワークの値を調整することにより、前記ターゲット画像とサンプル画像との間の損失が最小になり、ここで、前記損失には、
前記サンプル画像と前記ターゲット画像との間の画素差異、
前記サンプル画像と前記ターゲット画像との間のテクスチャの差異、
前記サンプル画像と前記ターゲット画像との間の敵対的損失(Adversarial Loss)、
のうちの少なくとも1つが含まれている。
ここで、本願では、前記サンプル画像と前記ターゲット画像との間の画素差異は、再構成損失関数とも呼ばれ、相対的信頼性方式を採用して再構成損失関数を決定することができ、ここで、既知領域を中心とし、未知領域において画素が既知領域に近いほど、その重みが大きくなり、画素が既知領域から遠いほど、その重みが小さくなる。これは、画像修復プロセスで、未知領域における画像コンテンツが既知領域に近いほど、既知領域の画像から受ける影響が大きくなる、ということを考慮したためである。したがって、再構成損失関数を決定する場合、上記の方法により、出力されたターゲット画像において画素が既知領域に近いほど、真実の画像との差異が小さくなる。
いくつかの実施形態では、再構成損失関数は、下記のように表すことができ、即ち、

Figure 2022504292000007
ここで、Yは、真実のサンプル画像の行列を表し、Gは、深層ニューラルネットワークの出力を表し、Xは、局所画像を表し、mは、エッジのサイズを表し、θは、深層ニューラルネットワークのパラメータを表し、Mは、重み行列を表し、

Figure 2022504292000008
は、行列における対応する要素を乗算する処理である。記号||A||1は、行列Aの1-ノルムを表す。
ここで、重み行列Mは、下記のように表すことができ、即ち、

Figure 2022504292000009
ここで、

Figure 2022504292000010
ここで、gは、ガウスフィルタであり、

Figure 2022504292000011
かつ、

Figure 2022504292000012
である。

Figure 2022504292000013
をk回繰り返して、

Figure 2022504292000014
を生成し、ここで、kは、インデックスパラメータであり、iは、現在の処理中のシリアル番号を示し、kは、予め定義された正の整数であり、εは、予め定義された正の定数であり、例えば、εは、10の-4乗であってもよい。εを設定することにより、Mを決定する際に行われた除算処理で所定範囲を超える数値を得るということが回避される。
前記サンプル画像と前記ターゲット画像との間のテクスチャ差異は、隠れ多様性マルコフランダム場正規項関数で表すことができ、当該関数が層ニューラルネットワークのパラメータを調整することにより最適化され、深層ニューラルネットワークによって出力された画像G(X,m)およびオリジナルの画像Yの特徴分布を近づかせることにより、鮮明なテクスチャを作成することができる。これによって、深層ニューラルネットワークによって出力された画像G(X,m)とオリジナルの画像Yとの間のテクスチャ差異ができるだけ小さくなる。
具体的に、

Figure 2022504292000015
は、未知領域の予測画像を表し、Yは、でサンプル画像を表し、

Figure 2022504292000016
およびYは、予め定義された画像特徴抽出ネットワークにおけるL層目の特徴マップから抽出された特徴を表す。予め定義された画像特徴抽出ネットワークは、VGG19ネットワークであってもよく、他の任意の既知の画像特徴抽出ネットワークであってもよい。L層は、VGG19ネットワークのconv3_2および/またはconv4_2層であってもよく、他の任意の層であってもよい。

Figure 2022504292000017
およびYから、予め定義されたサイズを有する画像ブロックvおよびsをそれぞれ抽出し、それらの類似度は、下記のように定義され、即ち、

Figure 2022504292000018
ここで、μ(v,s)は、両者のコサイン類似度を計算するものである。r∈ρ(Y)は、s以外の、Yに属する全ての画像ブロックを表す。hおよびεは、予め定義された2つの正の定数である。最終的に、

Figure 2022504292000019
およびYの隠れ多様性マルコフランダム場損失は、下記のとおりであり、即ち、

Figure 2022504292000020
ここで、

Figure 2022504292000021
ここで、

Figure 2022504292000022
は、

Figure 2022504292000023
により正規化して算出されてもよく、Zは、予め定義された定数である。Lは、予め定義された画像特徴抽出ネットワークの層数を表す。
テクスチャまたはスタイルの復元に焦点を当てたスタイル損失およびその変形の他の損失と比較して、当該損失関数は、その相対的に最も類似する画像ブロックを参照することにより局所画像の細部を強化する。
前記サンプル画像と前記ターゲット画像の敵対的損失は、予め定義された敵対的ネットワークによって出力された結果から決定されることができる。
図6は、本願による深層ニューラルネットワークによって出力された画像の敵対的損失を決定するための一例を示す。
図6に示すように、本願の実施形態により、2つの予め定義された敵対的ネットワークを用いて敵対的損失を生成し、ここでコンテキスト敵対的ネットワークDcontextの役割は、本願において深層ニューラルネットワークによって生成された画像における未知領域の部分を識別することであり、グローバル敵対的ネットワークDglobalの役割は、深層ニューラルネットワークによって生成された画像の全体を識識することである。
ここで、サンプル画像のサイズと、局所画像のサイズとに基づいて、コンテキスト敵対的ネットワークDcontextによって出力された特徴マップにおける、既知領域および未知領域のそれぞれに対応する部分を決定することができる。コンテキスト敵対的ネットワークDcontextによって、特徴マップにおける未知領域内の各画素の真実性を判断し、対応する、真実性を表す真実値を出力することができる。未知領域内の全ての画素の真実値を平均化することにより、未知領域の第1真実値を決定することができる。
グローバル敵対的ネットワークDglobalは、入力画像のグローバル真実性を判断し、画像全体の真実性を表すための第2真実値を出力することができる。
ここで、敵対的損失は、下記のように定義されることができ、即ち、

Figure 2022504292000024
ここで、n∈{context,global}であり、nの値がcontextである場合、Lは、未知領域の敵対的損失を表し、nの値がglobalである場合、Lは、全体画像の敵対的損失を表す。

Figure 2022504292000025
である。ここで、tは、予め定義された定数である。Gは、トレーニングされた深層ニューラルネットワークを表し、θは、ネットワークパラメータを表し、Yは、サンプル画像を表す。

Figure 2022504292000026
は、

Figure 2022504292000027
に対して、

Figure 2022504292000028
に基づいて導関数を求める処理である。λgpは、正則項係数である。

Figure 2022504292000029
は、Xの分布、

Figure 2022504292000030
は、

Figure 2022504292000031
の分布である。

Figure 2022504292000032
は、Pに属する全ての要素Xの期待を表し、

Figure 2022504292000033
は、

Figure 2022504292000034
に属する全ての要素

Figure 2022504292000035
の期待を表す。記号||A||2は、行列Aの2-ノルムを表す。
最終的に、敵対的損失の合計は、未知領域の敵対的損失と画像全体の敵対的損失との重み付け平均値として表すことができ、例えば、敵対的損失の合計は、下記のように表すことができ、即ち、

Figure 2022504292000036
上記の方式によって、前記サンプル画像と前記ターゲット画像との間の画素差異L、前記サンプル画像と前記ターゲット画像との間のテクスチャ差異Lmrf、および前記サンプル画像と前記ターゲット画像との間の敵対的損失Ladvを決定することができる。したがって、トレーニングされる深層ニューラルネットワークの総損失関数は、下記のように表すことができ、即ち、
L=λ+λmrfmrf+λadvadv
ここで、λ、λmrf、λadvは、予め定義された係数である。一例では、λを5、λを0.1、λadvを0.01に設定することができる。前記パラメータの例は、本願の範囲を限定せず、当業者は、実際の状況に応じて総損失関数における3つのサブ損失関数のそれぞれの重みを調整することができる。
図7は、本願の実施形態による画像処理方法の概略的なフローチャートを示し、当該方法は、図9に示すコンピューティングデバイスによって実行されることができる。
ステップS702で、ターゲット画像を予測するための入力画像を受信することができ、ここで、前記入力画像は、前記ターゲット画像の局所画像であり、入力画像には、任意のタイプの画像情報が含むようにしてもよい。
ステップS704で、前記入力画像のコンテキスト特徴を決定することができる。いくつかの実施形態では、深層ニューラルネットワークを使用して入力画像を処理し、入力画像のコンテキスト特徴を決定するようにしてもよい。
いくつかの実施形態では、入力画像を直接的に処理して、入力画像のコンテキスト特徴を決定するようにしてもよい。入力画像を直接的に処理する場合、このように決定されたコンテキスト特徴が入力画像自体の情報に完全に基づいて生成されたものであり、いかなる無意味な先験的情報も含まれていないということと見なすことができる。
いくつかの実施形態では、ターゲット画像のサイズと、入力画像のターゲット画像における位置とに基づいて入力画像を調整し、そして、調整後の入力画像を処理して入力画像のコンテキスト特徴を得ることができる。例えば、入力画像のサイズが64×64画素であり、ターゲット画像のサイズが128×128画素である場合、かつ、入力画像がターゲット画像の中心位置にあることが知られている場合、画素を追加する方式によって入力画像のサイズを128×128に調整することができる。ここで、調整後の入力画像の中心位置の画素は、オリジナルの入力画像における、対応する画素の値であり、残りの追加された画素の値は、ランダムな値であってもよく、予め定義された値であってもよいし、例えば、0、1または他の任意の可能な数値である。
いくつかの実施形態では、線形マッピングの方式によって入力画像の画素値を-1~1の間に調整することで、計算負荷を低減させることができる。
いくつかの実施形態では、入力画像を符号化することができ、符号化して得られた特徴マップのサイズは、入力画像のサイズより小さくてもよく、また、符号化して得られた特徴マップのチャネル数は、入力画像のチャネル数より大きくてもよい。
いくつかの実施形態では、拡張畳み込みによって符号化後の入力画像をさらに処理することができる。拡張畳み込みは、特徴マップの解像度が変わらないままである場合、より大きな感受性視野により特徴マップにおける情報を取得することができる。
いくつかの実施形態では、拡張畳み込みによって得られた入力画像の特徴マップを復号することができ、いくつかの実施形態では、復号された特徴マップのサイズは、修復対象となるターゲット画像の解像度と同じである。バイリニアアップサンプリングにより特徴マップの解像度の増加を実現することができる。当業者は、他のアップサンプリング手段で特徴マップの解像度の増加を実現することもできる、ということを理解することができる。
いくつかの実施形態では、前記の特徴再ランキング処理により特徴マップの解像度を変更することができ、これによって、ネットワークにおける畳み込み層のパラメータ数を増加させることができ、特徴拡張ネットワークの表現能力をより強くなることができる。ここでは繰り返し説明しない。
ステップS706で、ターゲット画像のサイズと、前記入力画像の前記ターゲット画像における位置とに基づいて、前記コンテキスト特徴により第1特徴セットと第2特徴セットを決定することができる。ここで、第1特徴セットは、コンテキスト特徴のうち、ターゲット画像における入力画像の位置に対応する要素によって形成された集合に対応することができ、第2特徴セットは、コンテキスト特徴のうち、ターゲット画像における予測画像の位置に対応する要素によって形成された集合に対応することができる。
いくつかの実施形態では、深層ニューラルネットワークを使用して前記コンテキスト特徴を処理(例えば、符号化)することで、完全なターゲット画像を表すための特徴セットを取得して、ターゲット画像のサイズと、前記入力画像の前記ターゲット画像における位置とに基づいて、処理されたコンテキスト特徴において、第1特徴セットおよび第2特徴セットを決定することができる。
一実装形態では、コンテキスト特徴が、コンテキスト特徴決定ユニットを使用して入力画像を直接的に処理して決定されたものである場合、前記ターゲット画像のサイズと、前記入力画像の前記ターゲット画像における位置とに基づいて、前記予測画像の領域を指示する位置特徴を決定して、前記ターゲット画像のサイズ特徴と、前記コンテキスト特徴とを組み合わせて、組み合わせたコンテキスト特徴を取得することができる。この場合、例えば深層ニューラルネットワークを使用して、組み合わせたコンテキスト特徴を処理することができ、さらに、ターゲット画像のサイズと、前記入力画像の前記ターゲット画像における位置とに基づいて、組み合わせたコンテキスト特徴によって第1特徴セットおよび第2特徴セットを決定することができる。
ステップS708で、前記第1特徴セットの第1特徴統計量に基づいて、第2特徴セットを調整することができる。前述したように、第1特徴セットには、ターゲット画像における入力画像の位置に対応する要素が含まれ、第2特徴セットには、ターゲット画像における入力画像以外の予測画像の位置に対応する要素が含まれる。したがって、第1特徴セットの要素は、ターゲット画像における既知領域の入力画像の特徴を表すために使用されることができ、第2特徴セットの要素は、ターゲット画像における未知領域の予測画像の特徴を表すために使用されることができる。本願の原理により、第1特徴セットの第1特徴統計量を決定して、第1特徴統計量に基づいて第2特徴セットの各要素の値を調整することにより、既知領域の特徴の統計的特性を未知領域の特徴に付与することができ、これにより、最終に生成された予測画像のコンテンツが、予測画像に最も近い既知画像の情報による単一方向性制約を超えるものになり、既知領域と未知領域との間の色/テクスチャの一致性を向上させる。
いくつかの実施形態では、第1特徴統計量は、第1特徴セットにおけるすべての要素の統計量であってもよい。ここで、第1特徴セットにおける要素の平均値、標準偏差、分散のうちの少なくとも1つを第1特徴統計量としてもよい。本願の原理を超えない前提で、当業者が第1特徴統計量を決定する方法を任意に選択することができる、ということを理解することができる。例えば、第1特徴セットのサンプル平均値、サンプル分散、サンプルレンジなどの統計量を第1特徴統計量としてもよい。
いくつかの実施形態では、前記第2特徴セットにおける各要素の値を変更することにより、変更後の第2特徴セットの第2特徴統計量は前記第1特徴統計量と同じようになり、ここで、前記第2特徴統計量は、前記第2特徴セットにおける要素の統計量である。例えば、第1特徴統計量が第1特徴セットにおける要素の平均値および標準偏差である場合、下式により第2特徴セットにおける各要素の値を調整して、調整後の第2特徴セットを得ることができ、これによって、調整後の第2特徴セットにおける要素の平均値および標準偏差は、第1特徴統計量と同じになるようにする。

Figure 2022504292000037
ここで、xは、第2特徴セットを表し、xは、第1特徴セットを表す。μ(x)は、第1特徴セットにおける各要素の平均値を表し、σ(x)は、第1特徴セットにおける各要素の標準偏差を表し、μ(x)は、第2特徴セットにおける各要素の平均値を表し、σ(x)は、第2特徴セットにおける各要素の標準偏差を表す。AdaIN(x,x)は、第1特徴セットxの特徴統計量に基づいて、第2特徴セットxにおける各要素の値を調整することにより、調整後の第2特徴セットの特徴統計量が第1特徴セットの特徴統計量と同じになるようにする。
さらに、前記変更後の第2特徴セットにおける各要素に対して、当該要素の値を変更前の第2特徴セットにおける当該要素の値と、変更後の第2特徴セットにおける当該要素の値との重み付け平均値にさらに変更することもでき、ここで、本願は、変更前の要素値および変更後の要素値の重みを限定しない。具体的に、変更前の第2特徴セットにおける要素の重みをρとして予め定義することができると、調整後の第2特徴セットにおける要素の重みは、1-ρになり、ここで、ρは、0以上かつ1以下の任意の数値であってもよい。一例では、ρは0.5であってもよい
前記の調整ステップによって、調整後の第2特徴セットと第1特徴セットとによって形成された調整後のターゲット特徴は、下記のように表すことができ、即ち、

Figure 2022504292000038
ここで、

Figure 2022504292000039
は、入力画像に対応する既知領域を表し、

Figure 2022504292000040
は、予測画像に対応する未知画像領域を表し、fは、組み合わせた位置特徴とコンテキスト特徴を処理して決定されたターゲット特徴を表し、ρは、予め定義されたパラメータであり、その値が0~1の間にある。Mは、f(X)のサイズが一致するマスク行列であり、Mでは、0を使用して既知領域を示してもよく、1を使用して予測領域を示してもよい。μは、計算平均値を表し、σは、標準偏差を表す。
ステップS710で、調整後の第2特徴セットに基づいて前記ターゲット画像を生成することができ、ここで、前記ターゲット画像は、前記入力画像と予測画像とによって構成されたものである。いくつかの実施形態では、さらなる変更後の第2特徴セットと、第1特徴セットとによって形成された調整後のターゲット特徴を復号することにより、前記ターゲット画像を生成することができる。
前述したように、第1特徴セットには、ターゲット画像における入力画像の位置に対応する要素が含まれ、第2特徴セットには、ターゲット画像における入力画像以外の予測画像の位置に対応する要素が含まれる。したがって、第1特徴セットと、調整後の第2特徴セットとを組み合わせることにより、完全なターゲット画像のために使用する特徴セットを決定することができる。いくつかの実施形態では、畳み込み層とプーリング層とによって形成された深層ニューラルネットワークを使用して、調整後の第2特徴セットと、第1特徴セットとによって形成されたターゲット特徴を処理することができ、これによって、予測画像を含むターゲット画像が出力されることができる。
本願によって提供される画像修復方法を使用すると、既知領域を表すための特徴セットの統計量情報により、未知領域を表すための特徴セットの要素値を調整することにより、既知領域の統計量を未知領域に付与することができ、これにより、本願によって提供される方法で生成された予測画像におけるコンテンツは、予測画像に最も近い既知画像の情報による単一方向性制約を超えるものになり、既知領域と未知領域との間の色/テクスチャの一致性を向上させる。
また、局所画像に対してコンテキスト特徴を直接的に抽出することにより、画像修復プロセスで不要な先験的情報を導入することが回避されることができ、入力された局所画像の情報に完全に基づいてコンテキスト特徴を決定することができ、これによって、入力された局所画像と構造的、意味的、テクスチャ的により一致する修復画像を生成することができる。
いくつかの実施形態では、図7に示す画像修復方法は、深層ニューラルネットワークによって実現されてもよい。下記のステップにより当該深層ニューラルネットワークをトレーニングすることができ、即ち、
トレーニングサンプルセットから1つのサンプル画像Yを決定し、ここで、トレーニングサンプルセットには、人間の顔、鳥類、テクスチャ、街並みの風景などの画像コンテンツを含まれてもよい。サンプル画像においてランダムに1つのエッジm=(top,left,bottom,right)を充填することにより局所画像を深層ニューラルネットワークの入力として決定することができる。ここでは、ターゲット画像および局所画像がいずれも矩形であると仮定し、ここで、topは、局所画像の上エッジとターゲット画像の上エッジとの間の距離を表し、leftは、局所画像の左エッジとターゲット画像の左エッジとの間の距離を表し、bottomは、局所画像の下エッジとターゲット画像の下エッジとの間の距離を表し、rightは、局所画像の右エッジとターゲット画像の右エッジとの間の距離を表す。
そして、前記深層ニューラルネットワークを使用して前記局所画像を処理し、当該局所画像に基づくターゲット画像を出力することができる。
前記深層ニューラルネットワークの値を調整することにより、前記ターゲット画像とサンプル画像との間の損失が最小になり、ここで、前記損失には、
前記サンプル画像と前記ターゲット画像との間の画素差異、
前記サンプル画像と前記ターゲット画像との間のテクスチャ差異、
前記サンプル画像と前記ターゲット画像との間の敵対的損失、
のうちの少なくとも1つが含まれている。
図8Aは、本願の実施形態による画像処理の例示的なフローを示す。
図8Aに示すように、画像修復装置は、コンテキスト特徴決定ユニットと、コンテキスト予測ユニットとを含む。ここで、コンテキスト特徴決定ユニットおよびコンテキスト予測ユニットは、図3、図5に示すコンテキスト特徴決定ユニットおよびコンテキスト予測ユニットとして実現されてもよい。局所画像をコンテキスト特徴決定ユニットに入力することにより、局所画像のコンテキスト特徴を決定することができ、ここで、当該コンテキスト特徴のサイズは、生成されるターゲット画像のサイズと同じであってもよい。そして、局所画像のコンテキスト特徴と、ターゲット画像のサイズ情報とを組み合わせることにより、ターゲット画像を予測するための特徴マップを決定することができる。
例えば、局所画像とターゲット画像の間で充填する必要があるエッジ領域のサイズに応じて、マスクMを生成することができ、ここで、Mは、ターゲット画像のサイズと同じであり、チャネル数は、1である。Mでは、既知の局所領域が0としてマークされてもよく、充填するエッジ領域が1としてマークされてもよい。2つの異なる領域を区別することができる限り、当業者が他の方式を使用して、Mで既知領域および未知領域をマークすることができる、ということを理解することができる。
そして、Mとコンテキスト特徴決定ユニットによって出力されたコンテキスト特徴とを接続して、即ち、チャネル数の方向でMとコンテキスト特徴とを直接的に組み合わせて、組み合わせた後の特徴をコンテキスト予測ユニットに入力することができる。
コンテキスト予測ユニットを使用して、組み合わせた特徴を処理することにより、ターゲット画像を得ることができる。
図8Bから図8Jは、本願によって提供される画像処理方法の効果のいくつかの例を示す。図8Bおよび図8Cは、動物の顔の局所を使用して完全な動物画像を生成する場合の効果を示す。図8Dは、本願によって提供される画像修復方法によるテクスチャ画像への修復効果を示す。図面から分かるように、従来技術に比べて、本願の方法によって得られた修復画像のテクスチャ画像は、入力画像のテクスチャ画像との一致性がより高くなる。図8E~図8Gは、本願によって提供される画像修復方法による人物および動物画像への修復効果を示す。図面から分かるように、従来技術に比べて、本願の方法によって得られた修復画像における人物情報または動物情報は、より本物のように見えられ、自然法則に違反する画像効果がない。図8H~図8Jは、本願によって提供される画像修復方法による風景への修復効果を示す。図面から分かるように、従来技術に比べて、本願の方法によって得られた修復画像における風景情報のコンテンツは、より豊かで、テクスチャ効果もより優れている。
また、本願の実施形態による方法または装置は、図9に示すコンピューティングデバイスのアーキテクチャによって実現されてもよい。図9は、当該コンピューティングデバイスのアーキテクチャを示す。図9に示すように、コンピューティングデバイス900は、バス910と、1つ以上のCPU 920と、リードオンリーメモリ(ROM)930と、ランダムアクセスメモリ(RAM)940と、ネットワークに接続された通信ポート950と、入力/出力コンポーネント960と、ハードディスク970などと、を含んでもよい。当該コンピューティングデバイス900は、図2Aに示す端末デバイス110に取り付けられてもよく、またはサーバデバイス130に取り付けられてもよい。コンピューティングデバイス900における記憶デバイス、例えば、ROM 930またはハードディスク970は、本願によって提供される画像処理方法に係る処理および/または通信に使用される各種データまたはファイルと、CPUによって実行されるプログラム命令とを記憶することができる。コンピューティングデバイス900は、ユーザインタフェース980をさらに含んでもよい。当然、図9に示すアーキテクチャは、例示的なものに過ぎず、異なるデバイスが実現される場合、実際のニーズに応じて、図9に示すコンピューティングデバイスにおける1つまたは複数のコンポーネントを省略することができる。
本願の実施形態は、コンピュータ読み取り可能な記憶媒体として実現されてもよい。本願の実施形態によるコンピュータ読み取り可能な記憶媒体にコンピュータ読み取り可能な命令が記憶されている。前記コンピュータ読み取り可能な命令がプロセッサによって実行される時、前記図面を参照しながら説明された、本願の実施形態による方法を実行することができる。前記コンピュータ読み取り可能な記憶媒体は、揮発性メモリおよび/または不揮発性メモリを含むが、これらに限定されない。前記揮発性メモリは、例えば、ランダムアクセスメモリ(RAM)および/またはキャッシュ(cache)などを含むようにしてもよい。前記不揮発性メモリは、例えば、リードオンリーメモリ(ROM)、ハードディスク、フラッシュメモリなどを含むようにしてもよい。
当業者は、本願で開示された内容が様々な変形や改善を有する、ということを理解することができる。例えば、前記の様々なデバイスまたはコンポーネントは、ハードウェアによって実現されてもよく、ソフトウェア、ファームウェア、またはこの三者のうちの一部または全部の組み合わせによって実現されてもよい。
また、本願および特許請求の範囲に示されるように、例外的な状況を文脈で明示的に提示しない限り、「一」、「1つ」および/または「当該」などの用語は、単数を意味するものではなく、複数の意味を含んでもよい。一般的に「含む」および「備える」などの用語は、明確にマークされたステップおよび要素を含むことのみを提示するが、これらのステップおよび要素は、排他的な羅列を構成しなくて、方法またはデバイスには、他のステップまたは要素が含まれてもよい。
また、本願は、本願の実施形態によるシステムにおけるいくつかのあるユニットへのさまざまな参照を行うが、任意の数の異なるユニットは、クライアントおよび/またはサーバデバイス上で使用され、実行されてもよい。前記ユニットは、単なる例示であり、前記システムまたは方法の異なる態様では、異なるユニットが用いられてもよい。
また、本願では、フローチャートを使用して、本願の実施形態によるシステムが実行する処理を説明している。その前または後の処理は必ずしも順番に従って実行されるとは限らない、ということが理解されるべきである。逆に、さまざまなステップは、逆の順序で処理するか、または同時に処理することができる。また、これらのプロセスに他の処理を追加したり、これらのプロセスから1つのステップまたは複数のステップの処理を削除したりすることもできる。
特に定義されていない限り、ここで使用されるすべての用語(技術用語および科学用語を含む)は、当業者と共通に理解される意味と同じ意味を有する。一般的な辞書で定義される用語は、ここで明示的に定義されない限り、それらの関連技術の文脈における意味と一致する意味と解釈されるべきであり、理想化または極度の形式化の意味を使用して解釈されるべきではない、ということも理解されたい。
上記は、本願についての説明であり、それに対する制限と見なされるべきではない。本願のいくつかの例示的な実施形態を説明したが、当業者は、本願の新規的な教示および利点から逸脱しない前提で、例示的な実施形態に対して様々な変更を行うことができる、ということを理解することができる。したがって、これらのすべての変更は、特許請求の範囲によって限定される本願の範囲に含まれる、ということを意図している。上述は、本願についての説明であり、開示された特定の実施形態に限定されると見なされるべきではなく、また、開示された実施形態および他の実施形態に対する変更は、特許請求の範囲に含まれる、ということを意図している。本願は、特許請求の範囲および同等なものによって限定される。
12 ネットワーク
14 データベース
310 受信ユニット
320 コンテキスト特徴決定ユニット
330 コンテキスト予測ユニット
331 特徴セット決定ユニット
332 調整ユニット
333 ターゲット画像生成ユニット
501 第1符号化ユニット
502 第1拡張ユニット
503 第1復号ユニット
920 プロセッサ
950 通信ポート
960 入力/出力
970 ハードディスク

Claims (16)

  1. コンピューティングデバイスによって実行される画像処理方法であって、
    ターゲット画像を予測するための入力画像を受信するステップと、
    前記入力画像のコンテキスト特徴を決定するステップと、
    前記ターゲット画像のサイズと、前記入力画像の前記ターゲット画像における位置とに基づいて、前記コンテキスト特徴により第1特徴セットと第2特徴セットを決定するステップと、
    前記第1特徴セットの第1特徴統計量に基づいて第2特徴セットを調整し、調整後の第2特徴セットを得るステップと、
    前記調整後の第2特徴セットと、前記第1特徴セットとに基づいて、前記ターゲット画像を生成するステップと、
    を含むことを特徴とする画像処理方法。
  2. 前記ターゲット画像は、前記入力画像と、予測画像とによって構成され、
    前記ターゲット画像のサイズと、前記入力画像の前記ターゲット画像における位置とに基づいて、コンテキスト特徴において第1特徴セットと第2特徴セットを決定するステップは、
    前記ターゲット画像のサイズと、前記入力画像の前記ターゲット画像における位置とに基づいて、前記予測画像の領域を指示する位置特徴を決定するステップと、
    前記位置特徴と、前記コンテキスト特徴とを組み合わせて、組み合わせた前記位置特徴と前記コンテキスト特徴を符号化することで、ターゲット特徴を得るステップと、
    前記入力画像の前記ターゲット画像における位置に基づいて、前記ターゲット特徴のうち、前記入力画像の位置に対応する要素の集合を第1特徴セットとして決定し、前記ターゲット特徴のうち、前記ターゲット画像における予測画像の位置に対応する要素の集合を第2特徴セットとして決定するステップと、を含む、
    ことを特徴とする請求項1に記載の画像処理方法。
  3. 前記第1特徴統計量は、前記第1特徴セットにおける要素の統計量である、
    ことを特徴とする請求項2に記載の画像処理方法。
  4. 前記第1特徴セットの第1特徴統計量に基づいて第2特徴セットを調整する前記ステップは、
    前記第2特徴セットにおける各要素の値を変更することにより、変更後の第2特徴セットの第2特徴統計量が前記第1特徴統計量と同じになるようにするステップであって、前記第2特徴統計量が前記第2特徴セットにおける要素の統計量であるステップ、を含む、
    ことを特徴とする請求項2に記載の画像処理方法。
  5. 前記第1特徴セットの第1特徴統計量に基づいて第2特徴セットを調整する前記ステップは、
    前記変更後の第2特徴セットにおける各要素に対して、当該要素の値を変更前の第2特徴セットにおける当該要素の値と、変更後の第2特徴セットにおける当該要素の値との重み付け平均値にさらに変更するステップ、をさらに含む、
    ことを特徴とする請求項4に記載の画像処理方法。
  6. 前記調整後の第2特徴セットと、前記第1特徴セットとに基づいて、前記ターゲット画像を生成するステップは、
    さらなる変更後の第2特徴セットと、第1特徴セットとによって形成された調整後のターゲット特徴を復号することにより、前記ターゲット画像を生成するステップ、を含む、
    ことを特徴とする請求項5に記載の画像処理方法。
  7. 前記画像処理方法は、深層ニューラルネットワークによって実現され、前記深層ニューラルネットワークは、
    トレーニングサンプルセットから1つのサンプル画像を決定して、サンプル画像においてランダムに局所画像を深層ニューラルネットワークの入力として決定するステップと、
    前記深層ニューラルネットワークを使用して前記局所画像を処理し、当該局所画像に基づくターゲット画像を出力するステップと、
    前記深層ニューラルネットワークの値を調整することにより、前記ターゲット画像とサンプル画像との間の損失が最小になるステップであって、前記損失には、前記サンプル画像と前記ターゲット画像との間の画素差異が含まれるステップと、によってトレーニングされる、
    ことを特徴とする請求項1~6のいずれか1項に記載の画像処理方法。
  8. 前記損失には、前記サンプル画像と前記ターゲット画像との間のテクスチャ差異がさらに含まれる、
    ことを特徴とする請求項7に記載の画像処理方法。
  9. 前記損失には、前記サンプル画像と前記ターゲット画像との間の敵対的損失がさらに含まれる、
    ことを特徴とする請求項7に記載の画像処理方法。
  10. 画像処理装置であって、
    入力画像を受信するように構成される受信ユニットと、
    前記入力画像のコンテキスト特徴を決定するように構成されるコンテキスト特徴決定ユニットと、
    ターゲット画像のサイズと、前記入力画像の前記ターゲット画像における位置とに基づいて、前記コンテキスト特徴により第1特徴セットと第2特徴セットを決定するように構成される特徴セット決定ユニットと、
    前記第1特徴セットの第1特徴統計量に基づいて第2特徴セットを調整し、調整後の第2特徴セットを得るように構成される調整ユニットと、
    前記調整後の第2特徴セットと、前記第1特徴セットとに基づいて、前記ターゲット画像を生成するように構成されるターゲット画像生成ユニットと、
    を含む画像処理装置。
  11. 前記ターゲット画像は、前記入力画像と、予測画像とによって構成され、ここで、
    前記特徴セット決定ユニットは、さらに、
    前記ターゲット画像のサイズと、前記入力画像の前記ターゲット画像における位置とに基づいて、前記予測画像の領域を指示する位置特徴を決定し、
    前記位置特徴と、前記コンテキスト特徴とを組み合わせて、組み合わせた前記位置特徴と前記コンテキスト特徴を符号化してターゲット特徴を得、
    前記入力画像の前記ターゲット画像における位置に基づいて、前記ターゲット特徴のうち、前記入力画像の位置に対応する要素の集合を第1特徴セットとして決定し、前記ターゲット特徴のうち、前記ターゲット画像における予測画像の位置に対応する要素の集合を第2特徴セットとして決定する、ように構成される、
    ことを特徴とする請求項10に記載の画像処理装置。
  12. 前記第1特徴統計量は、前記第1特徴セットにおける要素の統計量である、
    ことを特徴とする請求項11に記載の画像処理装置。
  13. 前記調整ユニットは、前記第2特徴セットにおける各要素の値を変更することにより、変更後の第2特徴セットの第2特徴統計量が前記第1特徴統計量と同じになるように構成され、ここで、前記第2特徴統計量は、前記第2特徴セットにおける要素の統計量である、
    ことを特徴とする請求項11に記載の画像処理装置。
  14. 前記調整ユニットは、さらに、
    前記変更後の第2特徴セットにおける各要素に対して、当該要素の値を変更前の第2特徴セットにおける当該要素の値と、変更後の第2特徴セットにおける当該要素の値との重み付け平均値にさらに変更する、ように構成される、
    ことを特徴とする請求項13に記載の画像処理装置。
  15. 画像処理デバイスであって、
    メモリと、プロセッサとを含み、ここで、前記メモリに命令が記憶されており、前記プロセッサによって前記命令が実行される場合、前記プロセッサに請求項1~9のいずれか1項に記載の画像処理方法を実行させる、
    ことを特徴とする画像処理デバイス。
  16. 命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、
    前記命令がプロセッサによって実行される場合、前記プロセッサに請求項1~9のいずれか1項に記載の画像処理方法を実行させる、
    ことを特徴とするコンピュータ読み取り可能な記憶媒体。
JP2021518654A 2019-03-06 2020-02-13 画像処理方法、装置、デバイスおよびコンピュータプログラム Active JP7266828B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910168409.7A CN109816615B (zh) 2019-03-06 2019-03-06 图像修复方法、装置、设备以及存储介质
CN201910168409.7 2019-03-06
PCT/CN2020/074990 WO2020177513A1 (zh) 2019-03-06 2020-02-13 图像处理方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
JP2022504292A true JP2022504292A (ja) 2022-01-13
JP7266828B2 JP7266828B2 (ja) 2023-05-01

Family

ID=66608242

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021518654A Active JP7266828B2 (ja) 2019-03-06 2020-02-13 画像処理方法、装置、デバイスおよびコンピュータプログラム

Country Status (6)

Country Link
US (1) US11983850B2 (ja)
EP (1) EP3937124A4 (ja)
JP (1) JP7266828B2 (ja)
KR (1) KR102477794B1 (ja)
CN (1) CN109816615B (ja)
WO (1) WO2020177513A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6725733B2 (ja) 2018-07-31 2020-07-22 ソニーセミコンダクタソリューションズ株式会社 固体撮像装置および電子機器
WO2020027233A1 (ja) 2018-07-31 2020-02-06 ソニーセミコンダクタソリューションズ株式会社 撮像装置及び車両制御システム
CN110569864A (zh) * 2018-09-04 2019-12-13 阿里巴巴集团控股有限公司 基于gan网络的车损图像生成方法和装置
CN109816615B (zh) * 2019-03-06 2022-12-16 腾讯科技(深圳)有限公司 图像修复方法、装置、设备以及存储介质
CN110211205B (zh) * 2019-06-14 2022-12-13 腾讯科技(深圳)有限公司 图像处理方法、装置、设备和存储介质
CN110390679B (zh) * 2019-07-03 2022-04-26 上海联影智能医疗科技有限公司 图像处理方法、计算机设备和可读存储介质
CN111242874B (zh) * 2020-02-11 2023-08-29 北京百度网讯科技有限公司 图像修复的方法、装置、电子设备和存储介质
US11562518B2 (en) 2020-06-05 2023-01-24 Google Llc Image manipulation by text instruction
CN112818146B (zh) * 2021-01-26 2022-12-02 山西三友和智慧信息技术股份有限公司 一种基于产品图像风格的推荐方法
US11900519B2 (en) * 2021-11-17 2024-02-13 Adobe Inc. Disentangling latent representations for image reenactment
WO2023225808A1 (en) * 2022-05-23 2023-11-30 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Learned image compress ion and decompression using long and short attention module
CN116109798B (zh) * 2023-04-04 2023-06-09 腾讯科技(深圳)有限公司 图像数据处理方法、装置、设备及介质
CN116664454B (zh) * 2023-08-01 2023-11-03 中国海洋大学 一种基于多尺度颜色迁移参数预测的水下图像增强方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8325822B2 (en) * 2006-01-20 2012-12-04 Qualcomm Incorporated Method and apparatus for determining an encoding method based on a distortion value related to error concealment
US7755645B2 (en) * 2007-03-29 2010-07-13 Microsoft Corporation Object-based image inpainting
US8285070B2 (en) * 2008-04-07 2012-10-09 The Trustees Of Tufts College Methods and apparatus for image restoration
CN103049886B (zh) * 2011-10-12 2015-10-28 方正国际软件(北京)有限公司 一种图像纹理修复方法及系统
US9042649B2 (en) * 2013-09-24 2015-05-26 Konica Minolta Laboratory U.S.A., Inc. Color document image segmentation and binarization using automatic inpainting
CN103778603B (zh) * 2014-01-08 2016-08-17 天津大学 显微ct中闪烁体缺陷引起的图像伪影的修复方法
KR102455843B1 (ko) * 2016-03-21 2022-10-19 한국전자통신연구원 영상 재구성 장치 및 방법
CN107092874A (zh) * 2017-04-10 2017-08-25 山东大学 基于心电和指纹融合特征的身份识别方法、装置及系统
CN107993210A (zh) * 2017-11-30 2018-05-04 北京小米移动软件有限公司 图像修复方法、装置及计算机可读存储介质
CN109377448B (zh) * 2018-05-20 2021-05-07 北京工业大学 一种基于生成对抗网络的人脸图像修复方法
CN109191402B (zh) * 2018-09-03 2020-11-03 武汉大学 基于对抗生成神经网络的图像修复方法和系统
CN109816615B (zh) * 2019-03-06 2022-12-16 腾讯科技(深圳)有限公司 图像修复方法、装置、设备以及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Arbitrary Style Transfer in Real-Time with Adaptive Instance Normalization", 2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), JPN6022019574, 2017, ISSN: 0004893778 *
"Deep Portrait Image Completion and Extrapolation", ARXIV, JPN7022002285, 2018, ISSN: 0004893777 *

Also Published As

Publication number Publication date
EP3937124A1 (en) 2022-01-12
EP3937124A4 (en) 2022-04-27
KR102477794B1 (ko) 2022-12-14
WO2020177513A1 (zh) 2020-09-10
JP7266828B2 (ja) 2023-05-01
KR20210074360A (ko) 2021-06-21
US11983850B2 (en) 2024-05-14
CN109816615A (zh) 2019-05-28
CN109816615B (zh) 2022-12-16
US20210334942A1 (en) 2021-10-28

Similar Documents

Publication Publication Date Title
JP2022504292A (ja) 画像処理方法、装置、デバイスおよびコンピュータプログラム
JP7373554B2 (ja) クロスドメイン画像変換
JP2022502751A (ja) 顔キーポイント検出方法、装置、コンピュータ機器及びコンピュータプログラム
CN111062871A (zh) 一种图像处理方法、装置、计算机设备及可读存储介质
CN111652974B (zh) 三维人脸模型的构建方法、装置、设备及存储介质
CN110415184B (zh) 一种基于正交元空间的多模态图像增强方法
CN112801215A (zh) 图像处理模型搜索、图像处理方法、装置和存储介质
WO2022166604A1 (zh) 图像处理方法、装置、计算机设备、存储介质和程序产品
WO2023020358A1 (zh) 面部图像处理方法、面部图像处理模型的训练方法、装置、设备、存储介质及程序产品
CN108492301A (zh) 一种场景分割方法、终端及存储介质
KR20210076853A (ko) 시차 추정 시스템, 방법, 전자 장치 및 컴퓨터 판독 가능한 저장 매체
CN114298997B (zh) 一种伪造图片检测方法、装置及存储介质
Hu et al. RGB-D image multi-target detection method based on 3D DSF R-CNN
JP2021039758A (ja) 画像間の類似度を利用した類似領域強調方法およびシステム
CN116825363B (zh) 基于融合深度学习网络的早期肺腺癌病理类型预测系统
CN115953330B (zh) 虚拟场景图像的纹理优化方法、装置、设备和存储介质
Han Texture Image Compression Algorithm Based on Self‐Organizing Neural Network
CN110866866A (zh) 图像仿色处理方法、装置、电子设备及存储介质
CN116091831A (zh) 一种为目标模型进行场景适配的方法和系统
Zhu et al. An innovative saliency detection framework with an example of image montage
CN112860936B (zh) 一种基于稀疏图相似度迁移的视觉行人重识别方法
CN106469437B (zh) 图像处理方法和图像处理装置
CN113822291A (zh) 一种图像处理方法、装置、设备及存储介质
JP7500768B2 (ja) 顔画像処理方法、顔画像処理モデルの訓練方法、装置、機器、及びコンピュータプログラム
CN117274761B (zh) 图像生成方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210402

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210402

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220823

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230206

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20230206

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230216

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20230220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230320

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230411

R150 Certificate of patent or registration of utility model

Ref document number: 7266828

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150