JP7094412B2 - 画像充填方法、装置、設備、記憶媒体、及びプログラム - Google Patents

画像充填方法、装置、設備、記憶媒体、及びプログラム Download PDF

Info

Publication number
JP7094412B2
JP7094412B2 JP2021051058A JP2021051058A JP7094412B2 JP 7094412 B2 JP7094412 B2 JP 7094412B2 JP 2021051058 A JP2021051058 A JP 2021051058A JP 2021051058 A JP2021051058 A JP 2021051058A JP 7094412 B2 JP7094412 B2 JP 7094412B2
Authority
JP
Japan
Prior art keywords
layer
image
upsampling
loss function
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021051058A
Other languages
English (en)
Other versions
JP2021103567A (ja
Inventor
リー,チャオ
ヘ,ドンリャン
リー,フ
サン,ハオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021103567A publication Critical patent/JP2021103567A/ja
Application granted granted Critical
Publication of JP7094412B2 publication Critical patent/JP7094412B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/40Filling a planar surface by adding surface attributes, e.g. colour or texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Description

本開示は、人工知能、ディープラーニング、コンピュータビジョン、画像充填技術の分野に関し、具体的に、画像充填方法、装置、設備、記憶媒体、及びプログラムに関する。
画像充填技術は、画像編集や、画像修復、画像内の特定のオブジェクトの除去等、幅広い応用シーンがある。既存の画像充填技術の多くは、ブロックマッチングやテクスチャマッチングの方法に基づき、通常の畳み込みニューラルネットワーク処理を使用しており、リアルな充填効果が十分でなく、テクスチャが不自然で、人工的な欠陥が顕著であり、効率が悪い等の問題がある。
本開示は、画像充填方法、装置、設備、記憶媒体、及びプログラムを提供する。
本開示の1つの態様は、画像充填方法を提供し、当該方法は、欠落領域を含む、充填すべき画像の特徴に対して多層符号化処理を行い、階層ごとにサイズが縮小される多層符号化特徴層を生成することと、多層符号化特徴層に対して、同じサイズの復号化特徴層と符号化特徴層との連結操作を含む、階層ごとの復号化処理を行い、多層復号化特徴層と、欠落領域が存在しない第1の画像とを得ることと、第1の画像に対して、同じサイズのアップサンプリング特徴層と復号化特徴層との連結操作を含むアップサンプリング処理を行い、多層アップサンプリング特徴層と、アップサンプリング処理によってチューニングされた第2の画像とを得ることと、を含む。
本開示の他の態様は、画像充填装置を提供し、当該装置は、欠落領域を含む、充填すべき画像の特徴に対して多層符号化処理を行い、階層ごとにサイズが縮小される多層符号化特徴層を生成することに用いられる符号化モジュールと、前記多層符号化特徴層に対して、同じサイズの復号化特徴層と符号化特徴層との連結操作を含む、階層ごとの復号化処理を行い、多層復号化特徴層と、欠落領域が存在しない第1の画像とを得ることに用いられる復元モジュールと、第1の画像に対して、同じサイズのアップサンプリング特徴層と復号化特徴層との連結操作を含むアップサンプリング処理を行い、多層アップサンプリング特徴層と、アップサンプリング処理によってチューニングされた第2の画像とを得ることに用いられるチューニングモジュールと、を備える。
本開示の他の態様は、電子設備をさらに提供し、当該電子設備は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信接続されるメモリと、を備え、メモリには、少なくとも1つのプロセッサにより実行可能な命令が記憶されており、命令は、少なくとも1つのプロセッサにより実行される場合、本開示の実施形態の任意の故障予測方法を実行させることを特徴とする。
本開示の他の態様は、コンピュータ命令を記憶した非一過性のコンピュータ可読記憶媒体をさらに提供し、当該コンピュータ命令を記憶した非一過性のコンピュータ可読記憶媒体は、本開示の実施形態の任意の画像充填方法をコンピュータに実行させる。
本開示によれば、充填すべき画像の多層符号化及びその後の復号化処理において、画像中の物体、シーン、テクスチャ等の情報を利用して欠落領域を充填した後、充填された画像に対して全体的にチューニングすることができ、チューニング過程においてアップサンプリング特徴と復号化特徴層の特徴とを総合しているため、実際の応用において良好な充填効果を得ることができる。
ここに記載された内容は、本開示の実施形態のキーポイント又は重要な特徴を記述することを意図せず、また、本開示の範囲を制限することにも用いられないことを理解すべきである。本開示の他の特徴については、下記の明細書を通して説明を促す。
添付図面は、本開示をより良く理解するためのものであり、本開示を限定するものではない。
本開示の一実施形態による画像充填方法のフローチャートである。 本開示の一実施形態による画像充填装置の構成ブロック図である。 本開示の他の実施形態による画像充填装置の構成ブロック図である。 本開示の一実施形態による充填すべき画像の概略図である。 本開示の一実施形態による画像充填方法の論理プロセス図である。 図4の実施形態における画像充填処理後得られる画像の模式図である。 本開示の実施形態による柔軟な分散型トレーニング方法を実現するための電子設備のブロック図である。
以下では、本開示の例示的な実施形態を、理解を容易にするために本開示の実施形態の様々な詳細を含む添付の図面に関連して説明するが、これらは単に例示的なものであると考えるべきである。したがって、当業者は、本開示の範囲及び精神を逸脱することなく、本明細書に記載された実施形態に様々な変更及び修正を加えることができることを認識すべきである。同様に、以下の説明では、周知の機能及び構成については、明確化及び簡明化のために説明を省略する。
図1は、本開示の一実施形態による画像充填方法のフローチャートであり、以下のステップを含む。
S101では、欠落領域を含む、充填すべき画像の特徴に対して多層符号化処理を行い、階層ごとにサイズが縮小される多層符号化特徴層を生成する。
S102では、多層符号化特徴層に対して、同じサイズの復号化特徴層と符号化特徴層との連結操作を含む、階層ごとの復号化処理を行い、多層復号化特徴層と、欠落領域が存在しない第1の画像とを得る。
S103では、同一サイズのアップサンプリング特徴層と復号化特徴層との連結操作を含むアップサンプリング処理を第1の画像に対して行い、複数層のアップサンプリング特徴層と、アップサンプリング処理によってチューニングされた第2の画像とを得る。
本実施形態では、充填すべき画像は欠落が存在する画像であり、例えば画像中の削除したい対象物が除去されている画像であるため、本実施の形態の充填すべき画像は完全な画像ではなく、画像中の欠落した部分領域が充填すべき領域である。
本実施形態によれば、充填すべき画像に対しては、ニューラルネットワークモデルを用いて直接充填処理を行うのではなく、まず欠落が存在している画像に対して多層符号化処理を行い、充填すべき画像の多層符号化特徴層を得ることができ、ここで、特徴層は、L層を含んでもよく、Lは、具体的状況に応じて設定することができ(例えば、7層)、各階層は、直前の特徴層に基づいて継続的に符号化を行い、多層符号化特徴層のサイズは、階層ごとに縮小し、多層特徴層には、充填すべき画像の特徴が含まれ、充填すべき画像が欠落領域を含むため、多層特徴層には、欠落領域情報を持つ特徴情報が含まれる。
ここで、充填すべき画像における欠落領域は、1つであってもよく、複数であってもよい。以下では欠落領域の数を1つとして説明するが、複数の場合も同様である。
本実施形態によれば、引き続き得られた多層符号化特徴層を復元し、具体的に、階層ごとに復号化処理を行い、対応する多層復号化特徴層及び第1の画像を得ることができ、ここで、充填すべき画像の多層符号化及び階層ごとの復号化処理をすることで、元の画像における欠落領域は符号化及び復号化処理中において既に充填され、したがって、得られる第1の画像は完全な画像であり、欠落領域は存在しない。その後、この第1の画像に対してチューニングを行い、すなわち、充填効果を最適化する必要がある。
具体的に、本実施形態では、第1の画像に対してアップサンプリング処理することにより、多層アップサンプリング特徴層と、アップサンプリング処理によってチューニングされた第2の画像とが得られるが、ここで、アップサンプリング処理を行う際には、同じサイズのアップサンプリング特徴層と復号化特徴層とを連結する必要があり、復号化特徴層は、前述の階層ごとの復号化処理時に得られた復号化特徴層であることに注意する必要がある。
例えば、アップサンプリング処理は、階層ごとの長さと幅を、それぞれ上位層の長さと幅のk倍(kは整数、例えば2倍、3倍)に変換する処理であり、また、縦横変換と同時にチャネル次元上の特徴変換もあり、さらに、本実施形態では、同じサイズのアップサンプリング特徴層と復号化特徴層とを連結する必要があるため、本実施形態のチューニング処理は、第1の画像を入力とし、第1の画像に対してアップサンプリングして得られたアップサンプリング層f1と、f1と同じサイズの復号化特徴層とを連結し、連結された特徴層を次のアップサンプリングの入力として、このように複数回(例えば7回)のアップサンプリング処理を行い、第2の画像を得る。第2の画像は、本実施形態の充填処理後に得られた画像である。このようなチューニング処理により、符号化及び復号化処理によって得られる第1の画像の充填効果をある程度最適化することができる。
本実施形態では、充填すべき画像には物体、シーン、テクスチャ等の情報が含まれているので、充填すべき画像の多層符号化及びその後の復号化処理において、画像中の物体、シーン、テクスチャ等の情報を利用して欠落領域を充填した後、充填された画像に対して全体的にチューニングすることができ、チューニング過程においてアップサンプリング特徴と復号化特徴層の特徴とを総合しているため、実際の応用において良好な充填効果を得ることができる。
さらに、本実施形態では、上記のチューニングした結果に対して二次チューニングを行うこともできる。具体的に、第2の画像に対して多層アップサンプリング処理を行い、多層アップサンプリング特徴層と、アップサンプリング処理によってチューニングされた第3の画像とを得、ここで、アップサンプリング処理は、同じサイズの現在のアップサンプリング処理におけるアップサンプリング特徴層と前回のアップサンプリング処理におけるアップサンプリング特徴層とを連結することを含む。
すなわち、類似するアップサンプリング処理は、前述した第2の画像に対して再度行われてもよく、ここで、同じサイズの現在のアップサンプリング処理(2回目のチューニング時)におけるアップサンプリング特徴層と前回のアップサンプリング処理(1回目のチューニング時)のアップサンプリング特徴層とを連結する必要があり、第2の画像の充填効果を更に最適化することができ、得られる第3の画像の充填効果を更に良好にすることができる。
符号化処理に関しては、一実施形態では、充填すべき画像の特徴に対して多層符号化処理を行い、多層符号化特徴層を生成することは、以下の処理を含むことができる。
充填すべき画像に対して、ダウンサンプリング処理を行い、多層ダウンサンプリング特徴層を得、ここで、階層ごとのダウンサンプリング特徴層の長さ及び幅を、上位層のダウンサンプリング特徴層の長さ及び幅の1/kに変換する。
相応的に、復号化処理に関しては、多層符号化特徴層に対して、階層ごとの復号化処理を行い、多層復号化特徴層と、第1の画像とを得ることは、以下の処理を含むことができる。
多層符号化特徴層に対して、アップサンプリング処理を行い、多層アップサンプリング特徴層を得、ここで、階層ごとのアップサンプリング特徴層の長さ及び幅を、上位層のアップサンプリング特徴層の長さ及び幅のk倍に変換するる。
本実施形態によれば、画像のアップサンプリング処理及びダウンサンプリング処理を合理的に設計することにより、欠落した画像に対して充填することができ、且つ、良好な充填効果で実現することができる。
本実施形態では、異なる特徴層に対する連結操作は、具体的に、同じサイズの2つの特徴層のマトリックスに対してチャネル次元で連結が行われる。この連結処理により、2つの特徴層の特徴を融合させることができ、全体的な充填効果を強化することができる。
例えば、本実施形態では、代替的に、アップサンプリング特徴層と復号化特徴層のそれぞれの対応するマトリックスの縦横の次元は同じで、画像チャンネル数は異なっており、例えば、アップサンプリング特徴層は3次元マトリックス[w,h,c1]として表され、復号化特徴層は3次元マトリックス[w,h,c2]として表され、w及びhはそれぞれ縦及び横であり、c1はアップサンプリング特徴層のチャンネル数であり、c2は復号化特徴層のチャンネル数である。特徴変換操作により、アップサンプリング特徴層の行列[w,h,c1]と、復号化特徴層の行列[w,h,c2]と、をチャネル次元で連結することができ、3次元マトリックス[w,h,c1+c2]を得ることができ、この連結処理により両者の特徴を融合させることができ、全体的な充填効果を強化することができる。本実施形態では、充填すべき画像の特徴に対して多層符号化処理を行う前に、対象画像中の対象領域を除去して充填すべき画像を得、充填すべき画像中の欠落領域を充填すべき領域とする。
上述した方法の実施形態に対応して、1つの実施形態は、図2を参照して、画像充填装置100をさらに提供し、画像充填装置100は、欠落領域を含む、充填すべき画像の特徴に対して多層符号化処理を行い、階層ごとにサイズが縮小される多層符号化特徴層を生成することに用いられる符号化モジュール101と、前記多層符号化特徴層に対して、同じサイズの復号化特徴層と符号化特徴層との連結操作を含む、階層ごとの復号化処理を行い、多層復号化特徴層と、欠落領域が存在しない第1の画像とを得ることに用いられる復元モジュール102と、第1の画像に対して、同じサイズのアップサンプリング特徴層と復号化特徴層との連結操作を含むアップサンプリング処理を行い、多層アップサンプリング特徴層と、アップサンプリング処理によってチューニングされた第2の画像とを得ることに用いられるチューニングモジュール103と、を備える。
図3に示すように、一実施形態では、画像充填装置100は、第2の画像に対して、同一サイズの現在のアップサンプリング処理におけるアップサンプリング特徴層と前回のアップサンプリング処理におけるアップサンプリング特徴層との連結操作を含む多層アップサンプリング処理を行い、多層アップサンプリング特徴層と、アップサンプリング処理によってチューニングされた第3の画像とを得ることに用いられる二次チューニングモジュール104、をさら備える。
1つの実施形態では、符号化モジュール101は、充填すべき画像に対して、階層ごとのダウンサンプリング特徴層の長さ及び幅を、上位層のダウンサンプリング特徴層の長さ及び幅の1/kに変換するダウンサンプリング処理を行い、多層ダウンサンプリング特徴層を得ることに用いられるダウンサンプリング処理サブモジュールを備える、
復元モジュール102は、多層符号化特徴層に対して、階層ごとのアップサンプリング特徴層の長さ及び幅を、上位層のアップサンプリング特徴層の長さ及び幅のk倍に変換するアップサンプリング処理を行い、多層アップサンプリング特徴層を得ることに用いられるアップサンプリング処理サブモジュールを備える、
ここで、kは正の整数である。
1つの実施形態では、復元モジュール102又はチューニングモジュール103における連結操作は、同じサイズの2つの特徴層のマトリックスをチャネル次元で連結することを含む。
1つの実施形態では、画像充填装置100は、対象画像中の対象領域を除去して、充填すべき画像を得、前記充填すべき画像中の欠落領域を充填すべき領域とすることに用いられる、プリ処理モジュール105をさらに備える。
本実施形態の画像充填装置100の各モジュールの機能は、前述した方法の実施形態に記載されたものに対応しており、すなわち、画像充填装置100の各モジュールは、前述した画像充填方法の各ステップを実現するために使用されてもよく、同様の有益な技術的効果を得ることができる。
1つの実施形態では、符号化モジュール101、復元モジュール102、及びチューニングモジュールは103、それぞれ、欠落が存在する充填すべき画像と、対応する完全画像と、を含むトレーニングデータを用いてニューラルネットワークをトレーニングすることによって生成され、復元モジュール102は第1の損失関数に対応し、チューニングモジュール103は第2の損失関数及び第3の損失関数に対応し、二次チューニングモジュール104は第1の損失関数、第2の損失関数、第3の損失関数及び第4の損失関数に対応し、各モジュールは、トレーニング完了後に画像充填装置に構築され、ここで、第1の損失関数はピクセルレベル再構成損失関数であり、第2の損失関数は知覚損失関数であり、第3の損失関数はスタイル損失関数であり、前記第4の損失関数は総劣化損失関数である。
本明細書の実施形態では、トレーニングデータを利用して、ニューラルネットワーク(例えば、畳み込みニューラルネットワーク、循環ニューラルネットワーク、又は他のタイプのニューラルネットワーク等)をそれぞれトレーニングし、充填すべき画像の特徴に対して多層符号化処理可能なニューラルネットワークモデル(符号化モジュール101)、多層符号化特徴層を階層ごとに復号化処理可能なニューラルネットワークモデル(復元モジュール102)、及び第1の画像をチューニング処理可能なニューラルネットワークモデル(チューニングモジュール103)をそれぞれ得ることができる。
トレーニングが完了した後、各ニューラルネットワークモデル又はモジュールを論理的に接続して画像充填装置100を得ることができる。使用の時には,この画像充填装置に充填すべき画像を入力し,各モジュールによる処理を経て,充填された画像を出力することができる。
以下に、本明細書の実施形態によって採用される様々な損失関数について説明する。
本明細書の一実施形態では、第1の損失関数は、次のようなピクセルレベル再構成損失関数を採用する。
Figure 0007094412000001
第2の損失関数は、次のようなセマンティックレベル知覚損失関数を採用する。
Figure 0007094412000002
第3の損失関数は、次のような高度なスタイル化損失関数を採用する。
Figure 0007094412000003
第4の損失関数は、次のような総劣化損失関数を採用する。
Figure 0007094412000004
トレーニングの時、まず復元ネットワークをトレーニングすることができ、ピクセルレベル再構成損失関数を採用し、トレーニングが完了後、第1のチューニングネットワークを加え、セマンティックレベル知覚損失関数と高度なスタイル化損失関数を採用し、トレーニングが完了後、第2のチューニングネットワークを加え、ピクセルレベル再構成損失関数、セマンティックレベル知覚損失関数、高度なスタイル化損失関数及び総劣化損失関数を採用する。トレーニングが完了後、モデル全体を形成し、充填された画像を出力することができる。
本実施形態によれば、上記の4つの損失関数及びトレーニングにおける使用方法を特別に設計することにより、最終モデルの充填効果を最大限に最適化することができ、充填効果をより生き生きと、現実的で、自然なものにすることができる。
図4を参照して、本開示の一実施形態の充填すべき画像が概略的に示されており、説明を容易にするために、除去したい物体、すなわち海辺の砂浜にある一対のリクライニングチェアが、図4において色塗りされて示されている。
本実施形態の画像充填方法では、選択可能に、プリ処理モジュールは、対象画像を前処理し、対象画像内の対象領域を除去して、充填すべき画像を得ることができ、充填すべき画像内の欠落領域が充填すべき領域である。
図4の実施形態では、対象のオリジナル画像はリクライニングチェアを含むビーチ画像であり、リクライニングチェアは、エッジ・セグメンテーションやセマンティック・セグメンテーションのような既知の画像分割技術によって原画像からカットアウトされ、埋められるべき領域であるリクライニングチェア領域が欠落したビーチ画像を得ることができる。
図5は、本開示の実施形態による画像充填方法の論理プロセス図を概略的に示し、図5を参照して、まず、符号化モジュールが充填すべき画像の特徴を多層符号化処理し、多層符号化特徴層を生成し、多層符号化特徴層のサイズが層ごとに縮小される、代替的に、ダウンサンプリング符号化によって達成されてもよく、前述したように、各層の長さ及び幅は上の層の1/k(kは正の整数、例えば1/2、1/3等)になり、長さ及び幅の変換と同時にチャネル次元の特徴変換も行われる。
その後、復元モジュールは、多層符号化特徴層に対して復号化処理を階層ごとに行い、多層復号化特徴層と、欠落領域が存在しない第1の画像とを得、階層ごとの復号化処理は、同じサイズの復号化特徴層と符号化特徴層との連結操作を含む、代替的に、復元処理は、符号化処理の逆の処理として理解することができ、すなわちアップサンプリングプロセスであり、各層の長さ及び幅が、例えば上の層の2倍の長さ及び幅になる変換と共に、チャネル次元の特徴変換もあり、各層の処理対象は、1)復号化モジュールにおける前の層の出力であるf1、及び2)符号化モジュールにおけるf1と同じ長さ及び幅を持つ層の特徴f2を含み、その後、f1及びf2をチャネル次元で連結することにより、各符号化特徴層を階層ごとに復号化する。
ここで、塗り潰すビーチ画像には、欠落領域以外のシーン、オブジェクト、テクスチャ等の情報が含まれているため、例えば、海、砂浜、木、木の映り込み等であれば、上述の符号化及び復元処理中において、欠落領域の周囲のすべてのシーン情報を保有ことができ、これに基づいて得られた完全な画像は、海、砂浜、木、木の映り込み等の少なくとも1つを補完して、完全な画像を初歩的に得ることができる。その後、多段のチューニングモジュールを介して画像をチューニングすることができ、図9はチューニング後の画像を模式的に示しており、図6のリクライニングチェアの対応領域の充填は砂浜と木の映り込みの特徴を融合しており、充填効果はリアルで自然であることが分かる。
本開示の実施形態では、本開示は、電子設備及び可読記憶媒体も提供する。図7に示すように、本開示の実施形態による画像充填方法による電子設備のブロック図である。電子設備は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表すことが意図される。電子設備はまた、パーソナルデジタルプロセッシング、携帯電話、スマートフォン、ウェアラブル設備、及び他の同様のコンピューティング設備等、様々な形態のモバイル設備を表し得る。本明細書に示される構成要素、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び/又は請求される本開示の実施を限定することを意図していない。
図7に示すように、この電子設備は、1つ以上のプロセッサ1001と、メモリ1002と、高速インターフェイス及び低速インターフェイスを含む構成要素を接続するためのインターフェイスとを含む。各構成要素は、異なるバスで接続され、共通のマザーボード上に実装されてもよいし、必要に応じて実装されてもよい。プロセッサは、命令を含む電子設備内で実行される命令を処理してもよく、この命令は、メモリに記憶された命令、又はインターフェイスに結合されたディスプレイ設備等の外部入出力設備上にGUI(Graphical User Interface)グラフィック情報を表示する命令を含む。他の実施形態では、複数のプロセッサ及び/又は複数のバスが、必要に応じて複数のメモリ及び複数のメモリと共に使用され得る。また、複数の電子設備を接続し、各設備が必要な動作の一部(例えば、サーバーアレイ、ブレードサーバのセット、マルチプロセッサシステム等)を提供するようにしてもよい。図7では、1つのプロセッサ1001を例にとる。
メモリ1002は、本開示に提供される非一時的コンピュータ可読記憶媒体である。ここで、このメモリは、少なくとも1つのプロセッサによって実行可能な命令を記憶し、少なくとも1つのプロセッサに、本開示で提供される車載環境のノイズ低減方法を実行させる。本開示の非一時的コンピュータ可読記憶媒体は、本開示で提供される画像充填方法をコンピュータに実行させるためのコンピュータ命令を記憶する。
メモリ1002は、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能プログラム、及びモジュール、例えば、本開示の実施形態における画像充填方法に対応するプログラム命令/モジュールを格納するために使用可能な非一時的コンピュータ可読記憶媒体として機能する。プロセッサ1001は、メモリ1002に格納された非一時的ソフトウェアプログラム、命令、及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記方法の実施形態における画像充填方法を実現する。
メモリ1002は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域、及び、充填方法に応じて電子設備の使用により作成されたデータ等を記憶するデータ記憶領域を有する。また、メモリ1002は、高速ランダムアクセスメモリを含んでもよく、少なくとも1つのディスク記憶設備、フラッシュメモリ設備、又は他の非一時的固体記憶設備等の非一時的メモリを含んでもよい。一部の実施形態において、メモリ1002は、プロセッサ1001から遠隔に配置されたメモリを任意選択で含み、このメモリは、車載環境のノイズ低減方法の電子設備にネットワークを介して接続されてもよい。上記ネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びそれらの組み合わせが挙げられるが、これらに限定されない。
画像充填方法の電子設備は、入力装置1003及び出力装置1004をさらに含むことができる。プロセッサ1001、メモリ1002、入力装置1003、及び出力装置1004は、バス又は他の方式を介して接続されてもよく、又は、図7では例としてバスを介して接続されている。
入力装置1003は、数字又は文字情報の入力を受けることができ、また、画像充填方法の電子設備の設定及び機能制御に関するキー信号入力を生成し、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ以上のマウスボタン、トラックボール、ジョイスティック等の入力装置である。出力装置1004は、ディスプレイ設備、補助照明設備(例えば、LED)、触覚フィードバック設備(例えば、振動モータ)等を含み得る。ディスプレイ設備は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、ディスプレイ設備はタッチスクリーンであってもよい。
本明細書に記載のシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組合せで実装され得る。これらの様々な実施形態は、専用又は汎用のプログラマブルプロセッサであり得る少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈され得る1つ又は複数のコンピュータプログラム内で実施されること、ならびに、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置にデータ及び命令を送信することを含み得る。
プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとしても知られるこれらの計算プログラムは、プログラム可能なプロセッサの機械命令を含み、高度な手続き型及び/もしくはオブジェクト指向プログラミング言語、ならびに/又はアセンブリ/機械言語で実装され得る。本明細書で使用される場合、用語「機械可読媒体」及び「コンピュータ可読媒体」は、機械命令を機械可読信号として受信する機械可読媒体を含む、機械命令及び/又はデータをプログラマブルプロセッサ(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック設備(PLD))に提供するための任意のコンピュータプログラム製品、設備、及び/又は設備を指す。「機械可読信号」という用語は、機械命令及び/又はデータをプログラム可能なプロセッサに提供するために使用される任意の信号を指す。
ユーザーとのインタラクションを提供するために、本明細書に記載されるシステム及び方法は、ユーザーに情報を表示するための表示設備(たとえば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザーがコンピュータに入力を提供し得るキーボード及びポインティング設備(たとえば、マウス又はトラックボール)とを有するコンピュータ上で実装され得る。他の種類の装置も、ユーザーとのインタラクションを提供するために使用され、例えば、ユーザーに提供されるフィードバックは、任意の形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であり、ユーザーからの入力は、音声入力、又は触覚入力を含む、任意の形態で受信され得る。
本明細書で説明されるシステム及び技術は、バックグランド構成要素(例えば、データサーバとして)を含むコンピューティングシステム、又はミドルウェア構成要素(例えば、アプリケーションサーバ)を含むコンピューティングシステム、又はフロントエンド構成要素(例えば、ユーザーが本明細書で説明されるシステム及び技術の実装とインタラクションすることができるグラフィカルユーザーインターフェイス又はウェブブラウザを有するユーザーコンピュータ)、又はそのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムにおいて実装され得る。システムの構成要素は、デジタルデータ通信(例えば、通信ネットワーク)の任意の形態又は媒体を介して互いに接続され得る。通信ネットワークの例には、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及びインターネットが含まれる。
コンピュータシステムは、クライアント及びサーバを含み得る。クライアント及びサーバは、一般に、互いから離れており、通常、通信ネットワークを介してインタラクションする。クライアントとサーバの関係は、それぞれのコンピュータ上で動作し、互いにクライアント-サーバ関係を有するコンピュータプログラムによって生成される。クラウドサーバーは、クラウドコンピューティングサーバーやクラウドホストとも呼ばれ、従来の物理的なホストとVPSサービス(「Virtual Private Server」、又は単に「VPS」)において存在している、管理の難しさと弱いビジネスのスケーラビリティの欠陥を解決するためのクラウドコンピューティングサービスシステムのホスティング製品である。
上記に示された様々な形態のフローを用いて、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載された各ステップは、並列的に実行されてもよいし、順番に実行されてもよいし、異なる順番で実行されてもよいが、本開示に開示された技術的手段から期待される結果が得られる限り、ここでの記載は限定されない。
上記の詳細な説明は、特許請求の範囲における発明を限定するものではない。本開示の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。本開示の思想及び原理の範囲内で行われる任意の修正、均等物及び改良物は、本開示の保護範囲に含まれるべきである。

Claims (15)

  1. 欠落領域を含む充填すべき画像の特徴に対して多層符号化処理を行い、階層ごとにサイズが縮小される多層符号化特徴層を生成することと、
    前記多層符号化特徴層に対して、同じサイズの復号化特徴層と符号化特徴層との連結操作を含む階層ごとの復号化処理を行い、多層復号化特徴層と、欠落領域が存在しない第1の画像とを得ることと、
    第1の画像に対して、同じサイズのアップサンプリング特徴層と復号化特徴層との連結操作を含むアップサンプリング処理を行い、多層アップサンプリング特徴層と、アップサンプリング処理によってチューニングされた第2の画像とを得ることと、を含む
    ことを特徴とする画像充填方法。
  2. 前記第2の画像に対して、同一サイズの現在のアップサンプリング処理におけるアップサンプリング特徴層と前回のアップサンプリング処理におけるアップサンプリング特徴層との連結操作を含む多層アップサンプリング処理を行い、多層アップサンプリング特徴層と、アップサンプリング処理によってチューニングされた第3の画像とを得ること、をさらに含む
    ことを特徴とする請求項1に記載の画像充填方法。
  3. 前記充填すべき画像の特徴に対して多層符号化処理を行い、多層符号化特徴層を生成することは、
    前記充填すべき画像に対して、階層ごとのダウンサンプリング特徴層の長さ及び幅を、上位層のダウンサンプリング特徴層の長さ及び幅の1/kに変換するダウンサンプリング処理を行い、多層ダウンサンプリング特徴層を得ることを含み、
    前記多層符号化特徴層に対して、前記階層ごとの復号化処理を行い、多層復号化特徴層と、第1の画像とを得ることは、
    前記多層符号化特徴層に対して、階層ごとのアップサンプリング特徴層の長さ及び幅を、上位層のアップサンプリング特徴層の長さ及び幅のk倍に変換するアップサンプリング処理を行い、多層アップサンプリング特徴層を得ることを含み、
    ここで、kは、正の整数である
    ことを特徴とする請求項1に記載の画像充填方法。
  4. 前記連結操作は、同じサイズの2つの特徴層のマトリックスをチャネル次元で連結することを含む、
    ことを特徴とする請求項1に記載の画像充填方法。
  5. 前記充填すべき画像の特徴に対して多層符号化処理を行う前に、
    対象画像中の対象領域を除去して、充填すべき画像を得ることをさらに含み、
    前記充填すべき画像中の欠落領域は、充填すべき領域とされる、
    ことを特徴とする請求項1に記載の画像充填方法。
  6. 前記多層符号化処理、前記階層ごとの復号化処理、及び前記アップサンプリング処理は、それぞれ符号化モジュール、復元モジュール、及びチューニングモジュールによって実行され、
    前記符号化モジュール、前記復元モジュール、及び前記チューニングモジュールは、それぞれ、欠落が存在する充填すべき画像と、対応する完全画像と、を含むトレーニングデータを用いてニューラルネットワークをトレーニングすることによって生成され、
    前記復元モジュールは、第1の損失関数に対応し、
    前記チューニングモジュールは、第2の損失関数及び第3の損失関数に対応し、
    二次チューニングモジュールは、第1の損失関数、第2の損失関数、第3の損失関数及び第4の損失関数に対応し、
    各モジュールは、トレーニング完了後に画像充填装置に構築され、
    前記第1の損失関数はピクセルレベル再構成損失関数であり、前記第2の損失関数は知覚損失関数であり、前記第3の損失関数はスタイル損失関数であり、前記第4の損失関数は総劣化損失関数である
    ことを特徴とする請求項1~5のいずれか一項に記載の画像充填方法。
  7. 欠落領域を含む充填すべき画像の特徴に対して多層符号化処理を行い、階層ごとにサイズが縮小される多層符号化特徴層を生成することに用いられる符号化モジュールと、
    前記多層符号化特徴層に対して、同じサイズの復号化特徴層と符号化特徴層との連結操作を含む階層ごとの復号化処理を行い、多層復号化特徴層と、欠落領域が存在しない第1の画像とを得ることに用いられる復元モジュールと、
    第1の画像に対して、同じサイズのアップサンプリング特徴層と復号化特徴層との連結操作を含むアップサンプリング処理を行い、多層アップサンプリング特徴層と、アップサンプリング処理によってチューニングされた第2の画像とを得ることに用いられるチューニングモジュールと、を備える
    ことを特徴とする画像充填装置。
  8. 前記第2の画像に対して、同一サイズの現在のアップサンプリング処理におけるアップサンプリング特徴層と前回のアップサンプリング処理におけるアップサンプリング特徴層との連結操作を含む多層アップサンプリング処理を行い、多層アップサンプリング特徴層と、アップサンプリング処理によってチューニングされた第3の画像とを得ることに用いられる二次チューニングモジュール、をさらに含む
    ことを特徴とする請求項7に記載の画像充填装置。
  9. 前記符号化モジュールは、
    前記充填すべき画像に対して、階層ごとのダウンサンプリング特徴層の長さ及び幅を、上位層のダウンサンプリング特徴層の長さ及び幅の1/kに変換するダウンサンプリング処理を行い、多層ダウンサンプリング特徴層を得ることに用いられるダウンサンプリング処理サブモジュールを含み、
    前記復元モジュールは、
    前記多層符号化特徴層に対して、階層ごとのアップサンプリング特徴層の長さ及び幅を、上位層のアップサンプリング特徴層の長さ及び幅のk倍に変換するアップサンプリング処理を行い、多層アップサンプリング特徴層を得ることに用いられるアップサンプリング処理サブモジュールを含み、
    ここで、kは正の整数である
    ことを特徴とする請求項7に記載の画像充填装置。
  10. 前記復元モジュール又は前記チューニングモジュールにおける前記連結操作は、同じサイズの2つの特徴層のマトリックスをチャネル次元で連結することを含む
    ことを特徴とする請求項7に記載の画像充填装置。
  11. 対象画像中の対象領域を除去して、充填すべき画像を得、前記充填すべき画像中の欠落領域を充填すべき領域とすることに用いられる、プリ処理モジュールをさらに含む
    ことを特徴とする請求項7に記載の画像充填装置。
  12. 前記符号化モジュール、前記復元モジュール、及び前記チューニングモジュールは、それぞれ、欠落が存在する充填すべき画像と、対応する完全画像と、を含むトレーニングデータを用いてニューラルネットワークをトレーニングすることによって生成され、
    前記復元モジュールは、第1の損失関数に対応し、
    前記チューニングモジュールは、第2の損失関数及び第3の損失関数に対応し、
    二次チューニングモジュールは、第1の損失関数、第2の損失関数、第3の損失関数及び第4の損失関数に対応し、
    各モジュールは、トレーニング完了後に前記画像充填装置に構築され、
    前記第1の損失関数はピクセルレベル再構成損失関数であり、前記第2の損失関数は知覚損失関数であり、前記第3の損失関数はスタイル損失関数であり、前記第4の損失関数は総劣化損失関数である
    ことを特徴とする請求項7~11に記載の画像充填装置。
  13. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されるメモリと、を備え、
    前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、
    前記命令は、前記少なくとも1つのプロセッサにより実行される場合、請求項1~6のいずれか一項に記載の画像充填方法を実行させることを特徴とする電子設備。
  14. 請求項1~6のいずれか一項に記載の画像充填方法をコンピュータに実行させるためのコンピュータ命令を記憶した非一過性のコンピュータ可読記憶媒体。
  15. コンピュータにおいてプロセッサにより実行されると、請求項1~6のいずれか一項に記載の画像充填方法を実現することを特徴とするプログラム。
JP2021051058A 2020-06-30 2021-03-25 画像充填方法、装置、設備、記憶媒体、及びプログラム Active JP7094412B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010610906.0 2020-06-30
CN202010610906.0A CN111768466B (zh) 2020-06-30 2020-06-30 图像填充方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
JP2021103567A JP2021103567A (ja) 2021-07-15
JP7094412B2 true JP7094412B2 (ja) 2022-07-01

Family

ID=72724713

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021051058A Active JP7094412B2 (ja) 2020-06-30 2021-03-25 画像充填方法、装置、設備、記憶媒体、及びプログラム

Country Status (5)

Country Link
US (1) US11983849B2 (ja)
EP (1) EP3862966A3 (ja)
JP (1) JP7094412B2 (ja)
KR (1) KR20210040873A (ja)
CN (1) CN111768466B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381147B (zh) * 2020-11-16 2024-04-26 虎博网络技术(上海)有限公司 动态图片相似度模型建立、相似度计算方法和装置
CN112862909A (zh) * 2021-02-05 2021-05-28 北京百度网讯科技有限公司 一种数据处理方法、装置、设备以及存储介质
CN117939167A (zh) * 2022-10-14 2024-04-26 维沃移动通信有限公司 特征图处理方法、装置及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004193957A (ja) 2002-12-11 2004-07-08 Konica Minolta Holdings Inc 画像処理装置、画像処理方法、画像処理プログラムおよび画像記録装置
WO2020066233A1 (ja) 2018-09-28 2020-04-02 富士フイルム株式会社 学習装置、学習装置の作動プログラム及び作動方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102215805B1 (ko) 2018-01-30 2021-02-17 연세대학교 원주산학협력단 딥러닝 기술을 통한 흉부 물질 분리 영상 획득 방법 및 시스템
US10755147B2 (en) * 2018-07-03 2020-08-25 General Electric Company Classification and localization based on annotation information
CN110648293B (zh) * 2019-09-19 2022-06-24 北京百度网讯科技有限公司 图像修复方法、装置及电子设备
CN111210443B (zh) 2020-01-03 2022-09-13 吉林大学 基于嵌入平衡的可变形卷积混合任务级联语义分割方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004193957A (ja) 2002-12-11 2004-07-08 Konica Minolta Holdings Inc 画像処理装置、画像処理方法、画像処理プログラムおよび画像記録装置
WO2020066233A1 (ja) 2018-09-28 2020-04-02 富士フイルム株式会社 学習装置、学習装置の作動プログラム及び作動方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Feiyu Chen, 外4名,"Eigan: Enhanced Inpainting Generative Adversarial Network",2020 IEEE International Conference on Multimedia and Expo (ICME),米国,IEEE,2020年06月09日
加藤尚輝, 外1名,"未知クラスに対する属性情報を用いた画像修復",電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2020年02月20日,第119巻, 第422号,p.189-194
吉田智樹, 外4名,"直接的知覚損失関数と間接的知覚損失関数を用いた画像超解像の検証",研究報告コンピュータビジョンとイメージメディア(CVIM),日本,情報処理学会,2019年05月23日,第2019-CVIM-217巻, 第29号,p.1-8

Also Published As

Publication number Publication date
US11983849B2 (en) 2024-05-14
EP3862966A3 (en) 2021-09-08
KR20210040873A (ko) 2021-04-14
CN111768466B (zh) 2024-01-12
CN111768466A (zh) 2020-10-13
US20210201448A1 (en) 2021-07-01
JP2021103567A (ja) 2021-07-15
EP3862966A2 (en) 2021-08-11

Similar Documents

Publication Publication Date Title
JP7094412B2 (ja) 画像充填方法、装置、設備、記憶媒体、及びプログラム
CN109949222B (zh) 基于语义图的图像超分辨率重建方法
CN112950471A (zh) 视频超分处理方法、装置、超分辨率重建模型、介质
CN110648294B (zh) 图像修复方法、装置及电子设备
CN110648293B (zh) 图像修复方法、装置及电子设备
JP2021166066A (ja) ビデオにおけるキーロゴの認識方法、装置、設備、記憶媒体、及びプログラム
CN111242874B (zh) 图像修复的方法、装置、电子设备和存储介质
CN115115918B (zh) 一种基于多知识融合的视觉学习方法
CN110838089B (zh) 一种基于OctBlock密集块的快速图像去噪方法
US20220103782A1 (en) Method for video frame interpolation, and electronic device
CN111768467B (zh) 图像填充方法、装置、设备及存储介质
CN118015159A (zh) 角色视频生成方法、装置、电子设备及存储介质
JP2022511871A (ja) 符号化された映像ストリームを映像点群符号化を使用して復号するための方法、装置、媒体、およびプログラム
JP2023105812A (ja) ビデオ変換方法、装置、電子機器および記憶媒体
US20230186608A1 (en) Method, device, and computer program product for video processing
CN111784799B (zh) 图像填充方法、装置、设备及存储介质
CN115690238A (zh) 图像生成及模型训练方法、装置、设备和存储介质
CN111738913A (zh) 视频填充方法、装置、设备及存储介质
CN115018734A (zh) 视频修复方法和视频修复模型的训练方法、装置
CN113362409A (zh) 图像上色及其模型训练方法、装置、电子设备、存储介质
CN111680623A (zh) 姿态转换方法及装置、电子设备、存储介质
US20230334713A1 (en) On coding of boundary uv2xyz index for mesh compression
Ghafari et al. Deep Learning-based Point Cloud Geometry Coding with Attention Models
CN118536546A (zh) 去噪模型的构建方法及装置、电子设备和存储介质
JP2024540423A (ja) メッシュ圧縮のための境界uv2xyzインデックスのコーディングの改善

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210325

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220615

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220621

R150 Certificate of patent or registration of utility model

Ref document number: 7094412

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150