JP7161107B2 - 生成装置及びコンピュータプログラム - Google Patents

生成装置及びコンピュータプログラム Download PDF

Info

Publication number
JP7161107B2
JP7161107B2 JP2019027405A JP2019027405A JP7161107B2 JP 7161107 B2 JP7161107 B2 JP 7161107B2 JP 2019027405 A JP2019027405 A JP 2019027405A JP 2019027405 A JP2019027405 A JP 2019027405A JP 7161107 B2 JP7161107 B2 JP 7161107B2
Authority
JP
Japan
Prior art keywords
image
interpolation
identification
frames
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019027405A
Other languages
English (en)
Other versions
JP2020136884A (ja
Inventor
翔太 折橋
忍 工藤
隆一 谷田
淳 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2019027405A priority Critical patent/JP7161107B2/ja
Priority to US17/431,678 priority patent/US20220122297A1/en
Priority to PCT/JP2020/003955 priority patent/WO2020170785A1/ja
Publication of JP2020136884A publication Critical patent/JP2020136884A/ja
Application granted granted Critical
Publication of JP7161107B2 publication Critical patent/JP7161107B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/164Feedback from the receiver or from the transmission channel
    • H04N19/166Feedback from the receiver or from the transmission channel concerning the amount of transmission errors, e.g. bit error rate [BER]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Television Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本発明は、生成装置及びコンピュータプログラムに関する。
画像内の一部が欠損した画像から、欠損が生じている領域(以下、「欠損領域」という。)を推定して、欠損領域を補間する画像補間技術が知られている。画像補間技術は、本来の目的である画像の補間だけでなく、画像の非可逆圧縮符号化において符号化を行う装置で画像を欠損させて、復号を行う装置で欠損領域を補間することで、送信すべき画像に要する符号量を削減する等の応用も可能である。
また、深層学習を用いて欠損を含む静止画像を補間する技術として、敵対的生成ネットワーク(GAN:Generative Adversarial Networks)の枠組みを用いた方法が提案されている(例えば、非特許文献1参照)。非特許文献1における技術では、欠損領域を有する画像と、欠損領域を示すマスクとの入力に応じて、欠損領域が補間された画像(以下、「補間画像」という。)を出力する補間ネットワークと、入力された画像が、補間画像又は欠損領域を有していない画像(以下、「非欠損画像」という。)のいずれの画像であるかを識別する識別ネットワークとの敵対的学習により、欠損領域を補間するネットワークを学習することができる。
非特許文献1における補間ネットワーク及び識別ネットワークの構成を図9に示す。図9に示す欠損画像は、欠損領域を1、欠損が生じていない領域(以下、「非欠損領域」という。)を0で表現する欠損領域マスクM^(^はMの上、以下同様)と、非欠損画像xとに基づいて生成される。図9に示す例では、画像の中央部分が欠損した欠損画像が生成されたとする。欠損画像は、欠損領域マスクM^と、非欠損画像xとの要素積で以下の式(1)のように表すことができる。なお、以下の説明においても同様に、欠損画像は、式(1)のように表すことができるものとして説明する。
Figure 0007161107000001
補間ネットワークGは、上記の式(1)のように表される欠損画像を入力として、補間画像を出力する。補間画像は、以下の式(2)のように表すことができる。なお、以下の説明においても同様に、補間画像は、式(2)のように表すことができるものとして説明する。
Figure 0007161107000002
識別ネットワークDは、画像xを入力として、画像xが補間画像である確率D(x)を出力する。このとき、敵対的生成ネットワークの学習の枠組みに基づき、以下の目的関数Vの最適化のため、補間ネットワークGと識別ネットワークDのパラメータは以下の式(3)に基づいて交互に更新される。
Figure 0007161107000003
ここで、式(3)におけるXは教師データの画像群の分布を表し、L(x,M^)は以下の式(4)のように、画像xと補間画像の画素の二乗誤差である。
Figure 0007161107000004
また、式3に示すαは、補間ネットワークGの学習において、画素の二乗誤差と、識別ネットワークDから伝播した誤差との重みを表すパラメータである。
次に、非特許文献1の技術を、複数枚の静止画像を、動画像を構成する各フレームとして時間方向に連続させた動画像に適用し、欠損画像を含む動画像を補間する技術を考える。簡易な方法として、動画像を構成する各フレームに対して、非特許文献1に示す技術を独立に適用することで動画像を補間する方法がある。しかしながら、この方法では、各フレームを独立した静止画像として欠損領域の補間を行うため、動画像として時間方向の連続性を持つ出力を得ることができない。
そこで、図10のように、欠損画像を含む動画像を補間ネットワークGに、各フレームをチャネル方向に結合することで3次元データとして入力し、空間方向、時間方向いずれも整合性の取れた補間結果を出力させる方法が考えられる。このとき、識別ネットワークDは静止画像の場合と同様に、入力された動画像が補間された動画像であるか欠損画像を含まない動画像であるかを識別するものとし、補間ネットワークGと識別ネットワークDのパラメータを交互に更新することで、動画像の補間を実現するネットワークを構築する。
D. Pathak, P. Krahenbuhl, J. Donahue, T. Darrell, A.A. Efros, "Context Encoders: Feature Learning by Inpainting", Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Graphics (cs.GR); Machine Learning (cs.LG), pp.2536-2544, 2016.
上記の方法は、各フレーム内で空間方向の整合性を取りながら、時間方向の整合性を取れる画像を出力しなければならないため、補間ネットワークGによる生成は静止画像に比べて難易度が高まる。一方で、識別ネットワークDは、動画像単位で、入力された動画像が補間された動画像であるか欠損画像を含まない動画像であるかを識別するため、入力の情報量が豊富であり識別の難易度は1枚の静止画像の識別に比べて低くなる。敵対的生成ネットワークの枠組みで上記の補間ネットワークGを学習する場合、識別ネットワークDの学習が補間ネットワークGの学習に先行して進みやすいことから、学習を成功に導くための学習スケジュールやネットワークのパラメータに関する調整が難しい。
また、あるフレームの欠損領域と同一位置の領域が別フレームから参照可能な場合、補間ネットワークGは参照可能な別フレームの重み付き平均を出力することで、特に時間方向での整合性を取りやすい。これにより、補間ネットワークGは時間方向での平均による画像の出力を獲得しやすくなる。しかしながら、出力画像にはボケが生じてしまい画像内のテクスチャが消失して出力画像の品質が低下してしまうという問題があった。
上記事情に鑑み、本発明は、動画像の補間を敵対的生成ネットワークの枠組みに適用した場合において、出力画像の品質を向上させることができる技術の提供を目的としている。
本発明の一態様は、複数のフレームで構成される動画像から、前記動画像を構成する一又は複数のフレーム内の一部領域が補間された補間フレームを生成する補間部と、入力された複数のフレームが、一部領域が補間された補間フレームであるか否かを識別する識別部と、前記識別部が出力する識別結果に基づいて、前記補間部のパラメータと、前記識別部のパラメータとを交互に更新する更新部と、を備え、前記識別部は、入力された前記複数のフレームを時間的に識別する時間方向識別部と、入力された前記複数のフレームを空間的に識別する空間方向識別部と、前記時間方向識別部と、前記空間方向識別部との識別結果を統合する統合部とで構成される、生成装置である。
本発明の一態様は、上記の生成装置であって、前記時間方向識別部は、入力された前記複数のフレームの補間領域のみが抽出されたフレームの時系列データを用いて、入力された複数のフレームが補間フレームである確率を識別結果として出力し、前記空間方向識別部は、入力された各時刻の入力されたフレームを用いて、入力された複数のフレームが補間フレームである確率を識別結果として出力する。
本発明の一態様は、上記の生成装置であって、入力された前記複数のフレームに、フレーム内の一部又は全ての領域が補間されていない参照フレームが含まれる場合、前記時間方向識別部は、前記参照フレームと、前記補間フレームとを用いて、入力された複数のフレームが補間フレームである確率を識別結果として出力し、前記空間方向識別部は、入力された各時刻の前記複数のフレームのうち補間フレームを用いて、入力された複数のフレームが補間フレームである確率を識別結果として出力する。
本発明の一態様は、上記の生成装置であって、前記参照フレームは、第1の参照フレーム及び第2の参照フレームの2枚であり、入力された前記複数のフレームは、少なくとも前記第1の参照フレーム、前記補間フレーム、第2の参照フレームの時系列順になっている。
本発明の一態様は、上記の生成装置であって、前記識別部は、前記空間方向識別部と前記時間方向識別部が識別を行った結果の正答率に基づいて、前記空間方向識別部と前記時間方向識別部との重み付けに用いるパラメータを更新する。
本発明の一態様は、上記の生成装置によって学習された補間部を備え、前記補間部は、動画像が入力されると、前記動画像を構成する一又は複数のフレーム内の一部領域が補間された補間フレームを生成する。
本発明の一態様は、複数のフレームで構成される動画像から、前記動画像を構成する一又は複数のフレーム内の一部領域が補間された補間フレームを生成する補間ステップと、入力された複数のフレームが、一部領域が補間された補間フレームであるか否かを識別する識別ステップと、前記識別ステップにおいて出力される識別結果に基づいて、前記補間ステップで用いるパラメータと、前記識別ステップで用いるパラメータとを交互に更新する更新ステップと、をコンピュータに実行させ、前記識別ステップにおいて、入力された前記複数のフレームを時間的に識別し、入力された前記複数のフレームを空間的に識別し、前記識別ステップにおける識別結果を統合する、コンピュータプログラムである。
本発明により、動画像の補間を敵対的生成ネットワークの枠組みに適用した場合において、出力画像の品質を向上させることが可能となる。
第1の実施形態における画像生成装置の機能構成を表す概略ブロック図である。 第1の実施形態における画像生成装置が行う学習処理の流れを示すフローチャートである。 第1の実施形態における画像生成装置が行う欠損画像補間処理、画像分割処理及び識別処理の具体例を示す図である。 第2の実施形態における画像生成装置の機能構成を表す概略ブロック図である。 第2の実施形態における画像生成装置が行う学習処理の流れを示すフローチャートである。 第2の実施形態における画像生成装置が行う欠損画像補間処理、画像分割処理及び識別処理の具体例を示す図である。 第3の実施形態における画像生成装置の機能構成を表す概略ブロック図である。 第3の実施形態における画像生成装置が行う学習処理の流れを示すフローチャートである。 従来技術における補間ネットワーク及び識別ネットワークの構成を示す図である。 従来技術における補間ネットワーク及び識別ネットワークの構成を示す図である。
以下、本発明の一実施形態を、図面を参照しながら説明する。
以下の説明では、畳み込みニューラルネットワークによる生成、識別の敵対的学習を前提とするが、本発明の学習対象は畳み込みニューラルネットワークに限られるものではない。すなわち、敵対的生成ネットワークで学習可能な画像の補間生成を行う任意の生成モデルおよび画像の識別問題を扱う任意の識別モデルに対して適用することができる。なお、本件発明について説明に用いている画像という言葉はフレームと置き換えてもよい。
(第1の実施形態)
図1は、第1の実施形態における画像生成装置100の機能構成を表す概略ブロック図である。
画像生成装置100は、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備え、学習プログラムを実行する。学習プログラムの実行によって、画像生成装置100は、欠損領域マスク生成部11、欠損画像生成部12、欠損画像補間部13、補間画像識別部14及び更新部15を備える装置として機能する。なお、画像生成装置100の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。また、学習プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、学習プログラムは、電気通信回線を介して送受信されてもよい。
欠損領域マスク生成部11は、欠損領域マスクを生成する。具体的には、欠損領域マスク生成部11は、動画像を構成する非欠損画像それぞれに異なる欠損領域マスクを生成してもよいし、共通の欠損領域マスクを生成してもよい。
欠損画像生成部12は、非欠損画像と、欠損領域マスク生成部11によって生成された欠損領域マスクとに基づいて欠損画像を生成する。具体的には、欠損画像生成部12は、動画像を構成する全ての非欠損画像と、欠損領域マスク生成部11によって生成された欠損領域マスクとに基づいて複数の欠損画像を生成する。
欠損画像補間部13は、補間ネットワークG、すなわちGANにおける生成器により構成され、欠損画像における欠損領域を補間することによって補間画像を生成する。補間ネットワークGは、例えば非特許文献1に示す技術で用いられるような畳み込みニューラルネットワークで実現される。具体的には、欠損画像補間部13は、欠損領域マスク生成部11によって生成された欠損領域マスクと、欠損画像生成部12によって生成された複数の欠損画像とに基づいて、欠損画像における欠損領域を補間することによって複数の補間画像を生成する。
補間画像識別部14は、画像分割部141、識別部142及び識別結果統合部143で構成される。画像分割部141は、複数の補間画像を入力とし、入力された補間画像それぞれを補間領域の時系列画像と、各時刻の補間画像とに分割する。ここで、補間領域の時系列画像とは、各補間画像の補間領域のみが抽出された静止画像をチャネル方向に結合したデータである。
識別部142は、時間方向識別ネットワークDと、空間方向識別ネットワークDS0~DSN(0~NはSの下付きであり、Nは1以上の整数)により構成される。時間方向識別ネットワークDは、補間領域の時系列画像を入力し、入力された画像が補間画像である確率を出力する。空間方向識別ネットワークDS0~DSNは、特定時刻の補間画像を入力とし、入力された画像が補間画像である確率を出力する。例えば、空間方向識別ネットワークDS0は、時刻0の補間画像を入力とし、入力された画像が補間画像である確率を出力する。時間方向識別ネットワークDと空間方向識別ネットワークDS0~DSNは、例えば非特許文献1に示す技術で用いられるような畳み込みニューラルネットワークで実現すればよい。
識別結果統合部143は、識別部142から出力された各確率を入力として、補間画像識別部14へ入力された画像が補間画像である確率を出力する。
図2は、第1の実施形態における画像生成装置100が行う学習処理の流れを示すフローチャートである。
欠損領域マスク生成部11は、欠損領域マスクM^を生成する(ステップS101)。具体的には、欠損領域マスク生成部11は、画面中央の領域やランダムに導出した領域等を欠損領域として、欠損領域を1、非欠損領域を0で表現する欠損領域マスクM^を生成する。欠損領域マスク生成部11は、生成した欠損領域マスクM^を欠損画像生成部12及び欠損画像補間部13に出力する。
欠損画像生成部12は、外部から動画像を構成する複数の非欠損画像xと、欠損領域マスク生成部11によって生成された欠損領域マスクM^とを入力する。欠損画像生成部12は、入力した複数の非欠損画像xと、欠損領域マスク生成部11によって生成された欠損領域マスクM^とに基づいて複数の欠損画像を生成する(ステップS102)。具体的には、欠損画像生成部12は、非欠損画像xにおいて欠損領域マスクM^により求められる領域を欠損させることによって欠損画像を生成する出力する。欠損領域マスクM^を上記の2値マスク画像として表現する場合、欠損画像は上式(1)のように、非欠損画像xと欠損領域マスクM^との要素積で表すことができる。
欠損画像生成部12は、生成した複数の欠損画像を欠損画像補間部13に出力する。欠損画像生成部12によって生成される複数の欠損画像は、図3に示すように、時系列順に並んでいる。図3に示すnは、補間画像のフレーム番号を表し、n=0,1,…,N-1である。図3は、第1の実施形態における画像生成装置100が行う欠損画像補間処理、画像分割処理及び識別処理の具体例を示す図である。
欠損画像補間部13は、欠損領域マスクM^と、複数の欠損画像とを入力し、入力した欠損領域マスクM^と、複数の欠損画像とに基づいて、欠損画像における欠損領域を補間することによって複数の補間画像を生成する(ステップS103)。欠損画像補間部13は、生成した複数の補間画像を画像分割部141に出力する。画像分割部141は、欠損画像補間部13から出力された複数の補間画像を用いて画像分割処理を行う(ステップS104)。具体的には、画像分割部141は、複数の補間画像を識別部142が有する識別ネットワークの入力単位に分割する。そして、画像分割部141は、複数の補間画像を入力として、補間領域の時系列画像、各時刻の補間画像を各識別ネットワークに出力する。
例えば、画像分割部141は、図3に示すように、補間領域の時系列画像を時間方向識別ネットワークDに出力し、時刻0の補間画像を空間方向識別ネットワークDS0に出力し、時刻1の補間画像を空間方向識別ネットワークDS1に出力し、時刻N-1の補間画像を空間方向識別ネットワークDSN-1に出力する。
ここで、補間画像を式(5)で表すとき、補間領域の時系列画像は式(6)で表すものとする。なお、各補間画像で補間領域が異なる場合は、各補間画像の補間領域の共通部分または和集合等を用いることができる。また、補間画像を式(5)で表すとき、時刻nの補間画像を式(7)で表すものとする。
Figure 0007161107000005
Figure 0007161107000006
Figure 0007161107000007
識別部142は、入力された補間領域の時系列画像及び各時刻の補間画像を用いて、各識別ネットワークへ入力された画像が補間画像である確率を出力する(ステップS105)。具体的には、識別部142が有する時間方向識別ネットワークDは、補間領域の時系列画像を入力として、入力された画像が補間画像である確率を識別結果統合部143に出力する。なお、時間方向識別ネットワークDにより得られる画像が補間画像である確率を以下の式(8)で表すものとする。識別部142が有する空間方向識別ネットワークDS0~DSNはそれぞれ、時刻nの画像を入力として、入力された画像が補間画像である確率を時刻毎に識別結果統合部143に出力する。なお、空間方向識別ネットワークDS0~DSNにより得られる画像が補間画像である確率を以下の式(9)で表すものとする。なお、空間方向識別ネットワークDS0~DSNは、時刻nに応じて別のパラメータを持つネットワークとしても、共通のパラメータを持つネットワークとしても良い。
Figure 0007161107000008
Figure 0007161107000009
識別結果統合部143は、識別部142から出力された各確率を入力として、以下の式(10)を用いて統合して得られた値を、補間画像識別部14への入力画像に対する最終的な確率として出力する(ステップS106)。
Figure 0007161107000010
なお、式(10)におけるW及びWsnは、事前に決定された重み付けのパラメータ(以下、「重みパラメータ」という。)である。
更新部15は、識別ネットワークDに識別されにくく、かつ欠損画像に対応する非欠損画像から画素値が大きく離れない補間画像を得るように、補間ネットワークGのパラメータを更新する(ステップS107)。
更新部15は、識別ネットワークDが補間画像と非欠損画像を識別するように、識別ネットワークDのパラメータを更新する(ステップS108)。
なお、これらの更新処理は、例えば非特許文献1と同様に、生成ネットワーク更新処理を補間画像とそれに対応する非欠損画像の画素の二乗誤差および識別ネットワークとの敵対的学習により伝播される誤差、識別ネットワーク更新処理を識別ネットワークの出力する値と正解値との相互情報量に基づき行うとすると、下記のように目的関数Vの最適化として以下の式(11)のように定式化される。更新部15は、目的関数Vの最適化のため、補間ネットワークGと識別ネットワークDのパラメータを以下の式(11)に基づいて交互に更新する。
Figure 0007161107000011
ここで、Xは教師データの画像群の分布を表し、L(x,M^)は上式(4)の通り、画像xと補間画像の画素の二乗誤差である。また、αは補間ネットワークの学習において画素の二乗誤差と識別ネットワークから伝播した誤差の重みを表すパラメータである。なお、各パラメータの更新においては、識別ネットワークの正答率により更新対象とするネットワークを学習の反復毎に変更する、識別ネットワークの中間層の二乗誤差の最小化を生成ネットワークの目的関数に含める等、任意の敵対的生成ネットワーク、およびニューラルネットワークの学習に関する従来技術を適用することができる。
その後、画像生成装置100は、学習終了条件を満たすか否かを判定する(ステップS109)。学習の終了は、予め定義した反復回数分だけ実行されたことであってもよいし、誤差関数の推移により判定してもよい。学習終了条件を満たされた場合(ステップS109-YES)、画像生成装置100は図2の処理を終了する。
一方、学習終了条件を満たされていない場合(ステップS109-NO)、画像生成装置100はステップS101以降の処理を繰り返し実行する。これにより、画像生成装置100は、補間ネットワークGの学習を行う。
ここで、上記の学習処理によって学習された補間ネットワークGを用いて、動画像を入力すると補間された動画像を出力する補間画像生成装置について説明する。補間画像生成装置は、画像入力部と、欠損画像補間部とを備える。画像入力部は、外部から欠損画像を含む動画像を入力する。欠損画像補間部は、画像生成装置100における欠損画像補間部13と同様の構成であり、画像入力部を介して動画像を入力する。欠損画像補間部は、入力された動画像を補間することによって、補間された動画像を出力する。なお、補間画像生成装置は、単体の装置として構成されてもよいし、画像生成装置100内に設けられてもよい。
以上のように構成された画像生成装置100は、識別ネットワークを時間方向のみから識別するネットワークと空間方向のみから識別するネットワークに分割することで、識別ネットワークの学習を意図的に難化させ、補間ネットワークGとの敵対的学習を行いやすくすることができる。特に、従来技術では、参照可能な領域の重み付き平均を出力するとして補間ネットワークGが学習されやすく、フレーム単位でのテクスチャが消失しやすいという課題があったのに対し、本発明のように空間方向識別ネットワークDS0~DSNを導入することにより、空間方向に整合性が取れる補間画像を出力する学習となるよう補間ネットワークGのパラメータを取得できる。その結果、テクスチャの消失を防止することができ、補間ネットワークGの補間精度を向上させることができる。そのため、動画像の補間を敵対的生成ネットワークの枠組みに適用した場合において、出力画像の品質の精度を向上させることが可能になる。
<変形例>
補間画像識別部14における空間方向識別ネットワークDS0~DSNは、時刻毎に別のネットワークとして示されているが、共通のネットワークを用いて入力から出力を各時刻で導出してもよい。
(第2の実施形態)
第2の実施形態は、第1の実施形態と欠損画像補間処理、画像分割処理および識別結果統合処理が異なる。第1の実施形態では、図3に示されるように動画像を構成する全ての画像に欠損領域が存在することを前提としていた。しかしながら、動画像を構成する画像内の全ての領域が非欠損領域の画像(以下、「参照画像」という。)が存在する場合も想定される。そこで、第2の実施形態では、動画像を構成する画像に参照画像が含まれる場合の学習方法について説明する。
図4は、第2の実施形態における画像生成装置100aの機能構成を表す概略ブロック図である。
画像生成装置100aは、バスで接続されたCPUやメモリや補助記憶装置などを備え、学習プログラムを実行する。学習プログラムの実行によって、画像生成装置100aは、欠損領域マスク生成部11、欠損画像生成部12、欠損画像補間部13a、補間画像識別部14a、更新部15及び画像判別部16を備える装置として機能する。なお、画像生成装置100aの各機能の全て又は一部は、ASICやPLDやFPGA等のハードウェアを用いて実現されてもよい。また、学習プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、学習プログラムは、電気通信回線を介して送受信されてもよい。
画像生成装置100aは、欠損画像補間部13及び補間画像識別部14に代えて欠損画像補間部13a及び補間画像識別部14aを備える点、画像判別部16を新たに備える点で画像生成装置100と構成が異なる。画像生成装置100aは、他の構成については画像生成装置100と同様である。そのため、画像生成装置100a全体の説明は省略し、欠損画像補間部13a、補間画像識別部14a及び画像判別部16について説明する。
画像判別部16は、非欠損画像及び参照画像情報を入力し、入力した参照画像情報に基づいて、動画像を構成する非欠損画像のうちいずれの非欠損画像を参照画像とするのかを判別する。参照画像情報は、参照画像とする非欠損画像を特定するための情報であり、例えば動画像を構成する非欠損画像のうち何番目の非欠損画像を参照画像とするのかを示す情報である。
欠損画像補間部13aは、補間ネットワークG、すなわちGANにおける生成器により構成され、欠損画像における欠損領域を補間することによって補間画像を生成する。具体的には、欠損画像補間部13aは、欠損領域マスク生成部11によって生成された欠損領域マスクと、欠損画像生成部12によって生成された複数の欠損画像と、参照画像とに基づいて、欠損画像における欠損領域を補間することによって複数の補間画像を生成する。
補間画像識別部14aは、画像分割部141a、識別部142a及び識別結果統合部143で構成される。画像分割部141aは、複数の補間画像及び参照画像を入力とし、入力された補間画像それぞれを補間領域の時系列画像と、各時刻の補間画像とに分割し、参照画像を補間領域の時系列画像にのみ分割する。このように、画像分割部141aは、参照画像については、時間方向識別ネットワークDにのみ参照画像を入力する。第2の実施形態における補間領域の時系列画像は、各補間画像及び参照画像から補間領域のみが抽出された静止画像をチャネル方向に結合したデータである。参照画像には補間領域は存在しないが、他の補間画像における補間領域が参照画像から抽出されて補間領域の時系列画像として用いられる。
識別部142aは、時間方向識別ネットワークDと、空間方向識別ネットワークDS0~DSNにより構成される。時間方向識別ネットワークDは、補間領域の時系列画像及び参照画像の時系列画像を入力し、入力された画像が補間画像である確率を出力する。空間方向識別ネットワークDS0~DSNは第1の実施形態における同名の機能部と同様の処理を行う。
図5は、第2の実施形態における画像生成装置100aが行う学習処理の流れを示すフローチャートである。図2と同様の処理については図5において図2と同様の符号を付して説明を省略する。
画像判別部16は、非欠損画像及び参照画像情報を入力し、入力した参照画像情報に基づいて、動画像を構成する非欠損画像のうちいずれの非欠損画像を参照画像とするのかを判別する(ステップS201)。ここでは、一例として、動画像を構成する非欠損画像のうち、時系列順で最古(最も過去)の非欠損画像と最新(最も未来)の非欠損画像が参照画像とする情報が参照画像情報に含まれていたとする。この場合、画像判別部16は、時系列順で最も過去の非欠損画像と最も未来の非欠損画像を参照画像として、欠損画像補間部13aに出力する。また、画像判別部16は、参照画像情報に含まれていなかった非欠損画像については欠損画像生成部12に出力する。これにより、欠損画像生成部12に出力された非欠損画像は、欠損画像として欠損画像補間部13aに入力される。ここで、一例として、動画像を構成する非欠損画像のうち、時系列順で最古の非欠損画像と最新の非欠損画像を用いた理由は、図6のような内挿の補間ネットワークGの構成で補間を有利に行いやすいためである。すなわち、補間する対象の画像を参照画像で時系列的に挟むためである。例えば、参照画像1→参照画像2→補間対象画像という時系列であれば、未来若しくは過去を予測した補間ということになってしまうため、時系列的に挟み込むことで補間精度の向上を図っている。
欠損画像補間部13aに入力される画像は、図6に示すように、非欠損画像と欠損画像とが混在している。図6は、第2の実施形態における画像生成装置が行う欠損画像補間処理、画像分割処理及び識別処理の具体例を示す図である。欠損画像補間部13aは、欠損領域マスクM^と、複数の欠損画像と、参照画像とを入力し、入力した欠損領域マスクM^と、複数の欠損画像と、参照画像とに基づいて、過去と未来の参照画像から中間時刻の欠損画像の欠損領域を生成する補間ネットワークを構築し、補間ネットワークを再帰的に適用することで欠損画像補間処理を実現する(ステップS202)。このとき、各補間ネットワークのパラメータは共通のものを用いても、異なるものを用いても良い。欠損画像補間部13aは、生成した複数の補間画像を及び参照画像を画像分割部141aに出力する。
画像分割部141aは、欠損画像補間部13aから出力された複数の補間画像及び参照画像を用いて画像分割処理を行う(ステップS203)。具体的には、画像分割部141aは、複数の補間画像を識別部142aが有する識別ネットワークの入力単位に分割する。そして、画像分割部141aは、複数の補間画像及び参照画像を入力として、補間領域の時系列画像、各時刻の補間画像を各識別ネットワークに出力する。第2の実施形態では、時間方向識別ネットワークDで出力される補間領域の時系列画像に、参照画像で補間領域に対応する領域も含めるものとする。また、空間方向識別ネットワークDS0~DSNに入力される各時刻の画像は参照画像を含まない、すなわちn=1,2,…,N-2である。
例えば、画像分割部141aは、図6に示すように、補間領域の時系列画像を時間方向識別ネットワークDに出力し、時刻1の補間画像を空間方向識別ネットワークDS1に出力し、時刻2の補間画像を空間方向識別ネットワークDS2に出力し、時刻N-2の補間画像を空間方向識別ネットワークDSN-2に出力する。図6に示すように、時間方向識別ネットワークDにのみ、参照画像の一部の画像が出力される。すなわち、時間方向識別ネットワークDは、参照画像及び補間画像における補間領域の時系列画像を用いて、入力された画像が補間画像である確率を識別結果統合部143に出力する。
識別結果統合部143は、識別部142aから出力された各確率を入力として、以下の式(12)を用いて統合して得られた値を、補間画像識別部14aへの入力画像に対する最終的な確率として出力する(ステップS204)。
Figure 0007161107000012
その後、学習終了条件を満たされるまで学習がなされることによって、画像生成装置100aは、補間ネットワークGの学習を行う。次に、上記の学習処理によって学習された補間ネットワークGを用いて、動画像を入力すると補間された動画像を出力する補間画像生成装置について説明する。補間画像生成装置は、画像入力部と、欠損画像補間部とを備える。画像入力部は、外部から欠損画像を含む動画像を入力する。欠損画像補間部は、画像生成装置100における欠損画像補間部13aと同様の構成であり、画像入力部を介して動画像を入力する。欠損画像補間部は、入力された動画像を補間することによって、補間された動画像を出力する。なお、補間画像生成装置は、単体の装置として構成されてもよいし、画像生成装置100a内に設けられてもよい。
以上のように構成された画像生成装置100aは、非欠損画像を参照画像として学習に用いる構成とし、非欠損画像を学習に用いる場合には時間方向識別ネットワークDにのみ参照画像を入力している。従来技術の拡張では、参照画像が存在する場合、参照画像の重み付き和を補間ネットワークが出力することで空間方向のテクスチャの消失が生じやすくなるのに対して、本発明では参照画像が時間方向の整合性の識別にしか適用されないため、テクスチャの消失が発生しにくくなる。したがって、補間ネットワークGの補間精度を向上させることができる。そのため、動画像の補間を敵対的生成ネットワークの枠組みに適用した場合において、出力画像の品質の精度を向上させることが可能になる。
<変形例>
上記では過去の1フレームと未来の1フレームを参照画像として用いる構成を示したが、参照画像の与え方はこれに限るものではない。すなわち、例えば過去の複数枚の非欠損画像が参照画像であってもよいし、動画像を構成する画像のうち中間時刻の非欠損画像が参照画像であってもよい。
(第3の実施形態)
第3の実施形態では、画像生成装置100が、補間ネットワーク更新処理及び識別ネットワーク更新処理における重みパラメータを変更する。
図7は、第3の実施形態における画像生成装置100bの機能構成を表す概略ブロック図である。
画像生成装置100bは、バスで接続されたCPUやメモリや補助記憶装置などを備え、学習プログラムを実行する。学習プログラムの実行によって、画像生成装置100bは、欠損領域マスク生成部11、欠損画像生成部12、欠損画像補間部13、補間画像識別部14b、更新部15及び重みパラメータ決定部17を備える装置として機能する。なお、画像生成装置100bの各機能の全て又は一部は、ASICやPLDやFPGA等のハードウェアを用いて実現されてもよい。また、学習プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、学習プログラムは、電気通信回線を介して送受信されてもよい。
画像生成装置100bは、補間画像識別部14に代えて補間画像識別部14bを備える点、重みパラメータ決定部17を新たに備える点で画像生成装置100と構成が異なる。画像生成装置100bは、他の構成については画像生成装置100と同様である。そのため、画像生成装置100b全体の説明は省略し、補間画像識別部14b及び重みパラメータ決定部17について説明する。
重みパラメータ決定部17は、各識別ネットワークへ入力された画像が補間画像である確率を入力とし、学習時に用いられる重みパラメータを決定する。具体的には、重みパラメータ決定部17は、識別部142によって得られた各識別ネットワーク(時間方向識別ネットワークD及び空間方向識別ネットワークDS0~DSN)へ入力された画像が補間画像である確率を用いて各識別ネットワークの正答率を算出し、算出した各識別ネットワークの正答率に基づいて学習時に用いられる重みパラメータを決定する。
補間画像識別部14bは、画像分割部141、識別部142及び識別結果統合部143bで構成される。識別結果統合部143bは、識別部142から出力された各確率を入力として、補間画像識別部14bへ入力された画像が補間画像である確率を出力する。この際、補間画像識別部14bは、補間画像識別部14bへ入力された画像が補間画像である確率を算出する。ここで、重みパラメータは、重みパラメータ決定部17によって得られた重みパラメータを用いてもよい。なお、正答率が低い識別ネットワークDが重くなる重みをつける場合、識別ネットワークDの識別が不利になるため、統合の際は重みを逆転させるか、固定値を用いる必要がある。
図8は、第3の実施形態における画像生成装置100bが行う学習処理の流れを示すフローチャートである。図2と同様の処理については図8において図2と同様の符号を付して説明を省略する。
重みパラメータ決定部17は、領域別識別処理の結果得られた各ネットワークへの入力が補間画像である確率を用いて、各識別ネットワークの正答率を算出する。正答率の導出には、過去の学習の反復で導出された正答率を踏まえても良い。導出された正答率に基づき、補間ネットワーク更新処理、識別ネットワーク更新処理のいずれかまたは両方で適用する重みパラメータを決定する(ステップS301)。例えば、重みパラメータ決定部17は、補間ネットワークGの学習を促進する場合には正答率が高い識別ネットワークに対応する重みパラメータの値が相対的に大きくなるように重みパラメータを決定し、識別ネットワークの学習を促進する場合には正答率が低い識別ネットワークに対応する重みパラメータの値を相対的に大きくなるように重みパラメータを決定する。このように、重みパラメータ決定部17は、学習を促進させる対象によって、重みパラメータを決定する対象が異なる。
更新部15は、識別ネットワークDに識別されにくく、かつ欠損画像に対応する非欠損画像から画素値が大きく離れない補間画像を得るように、補間ネットワークGのパラメータを更新する(ステップS302)。例えば、更新部15は、補間ネットワークの学習を促進する場合は、正答率が高い識別ネットワークに対応する重みパラメータの値を相対的に大きくして、補間ネットワーク更新処理を実施する。具体的には、図3のような第1の実施形態を想定する場合、時間方向識別ネットワークD及び空間方向識別ネットワークDS0~DSNの正答率がそれぞれa及びaSNで表されるとき、更新部15は以下の式(13)として補間ネットワーク更新処理を実施する。
Figure 0007161107000013
更新部15は、識別ネットワークDが補間画像と非欠損画像を識別するように、識別ネットワークDのパラメータを更新する(ステップS303)。例えば、更新部15は、識別ネットワークの学習を促進する場合は、正答率が低い識別ネットワークに対応する重みパラメータの値を相対的に大きくして、識別ネットワーク更新処理を実施する。具体的には、図3のような第1の実施形態を想定する場合、時間方向識別ネットワークD及び空間方向識別ネットワークDS0~DSNの正答率がそれぞれa及びaSNで表されるとき、更新部15は以下の式(14)として補間ネットワーク更新処理を実施する。なお、本処理の適用対象とするネットワークは、例えば各ネットワークの誤差関数の値に基づいて決定すれば良い。
Figure 0007161107000014
以上のように構成された画像生成装置100bは、分割された各識別ネットワークの教師データに対する正答率を考慮することにより、補間ネットワークが苦手としている領域、若しくは識別ネットワークが得意としている領域を抽出することができる。この情報を用いて、補間ネットワーク更新処理、若しくは識別ネットワーク更新処理における更新時の重みパラメータを制御することにより、補間ネットワーク若しくは識別ネットワークの学習を意図的に有利に進めることが可能となる。その結果、制御方法により学習を安定化させることができる。
以下、各実施形態に共通する変形例について説明する。
上記の各実施形態では、学習に用いる画像として欠損画像を例に説明したが、学習に用いる画像は欠損画像に限られない。例えば、学習に用いる画像は、アップコンバートされた画像であってもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
11…欠損領域マスク生成部, 12…欠損画像生成部, 13、13a…欠損画像補間部, 14、14a、14b…補間画像識別部, 15…更新部, 16…画像判別部, 17…重みパラメータ決定部,100、100a、100b…画像生成装置, 141、141a…画像分割部, 142、142a…識別部, 143、143b…識別結果統合部

Claims (7)

  1. 複数のフレームで構成される動画像から、前記動画像を構成する一又は複数のフレーム内の一部領域が補間された補間フレームを生成する補間部と、
    入力された複数のフレームが、一部領域が補間された補間フレームであるか否かを識別する識別部と、
    前記識別部が出力する識別結果に基づいて、前記補間部のパラメータと、前記識別部のパラメータとを交互に更新する更新部と、
    を備え、
    前記識別部は、
    入力された前記複数のフレームを時間的に識別する時間方向識別部と、
    入力された前記複数のフレームを空間的に識別する空間方向識別部と、
    前記時間方向識別部と、前記空間方向識別部との識別結果を統合する統合部とで構成される、生成装置。
  2. 前記時間方向識別部は、入力された前記複数のフレームの補間領域のみが抽出されたフレームの時系列データを用いて、入力された複数のフレームが補間フレームである確率を識別結果として出力し、
    前記空間方向識別部は、入力された各時刻の入力されたフレームを用いて、入力された複数のフレームが補間フレームである確率を識別結果として出力する、請求項1に記載の生成装置。
  3. 入力された前記複数のフレームに、フレーム内の一部又は全ての領域が補間されていない参照フレームが含まれる場合、
    前記時間方向識別部は、前記参照フレームと、前記補間フレームとを用いて、入力された複数のフレームが補間フレームである確率を識別結果として出力し、
    前記空間方向識別部は、入力された各時刻の前記複数のフレームのうち補間フレームを用いて、入力された複数のフレームが補間フレームである確率を識別結果として出力する、請求項1に記載の生成装置。
  4. 前記参照フレームは、第1の参照フレーム及び第2の参照フレームの2枚であり、
    入力された前記複数のフレームは、少なくとも前記第1の参照フレーム、前記補間フレーム、第2の参照フレームの時系列順になっている、請求項3に記載の生成装置。
  5. 前記識別部は、前記空間方向識別部と前記時間方向識別部が識別を行った結果の正答率に基づいて、前記空間方向識別部と前記時間方向識別部との重み付けに用いるパラメータを更新する、請求項1から4のいずれか一項に記載の生成装置。
  6. 請求項1から請求項5のいずれか一項に記載の生成装置によって学習された補間部を備え、
    前記補間部は、動画像が入力されると、前記動画像を構成する一又は複数のフレーム内の一部領域が補間された補間フレームを生成する生成装置。
  7. 複数のフレームで構成される動画像から、前記動画像を構成する一又は複数のフレーム内の一部領域が補間された補間フレームを生成する補間ステップと、
    入力された複数のフレームが、一部領域が補間された補間フレームであるか否かを識別する識別ステップと、
    前記識別ステップにおいて出力される識別結果に基づいて、前記補間ステップで用いるパラメータと、前記識別ステップで用いるパラメータとを交互に更新する更新ステップと、
    をコンピュータに実行させ、
    前記識別ステップにおいて、
    入力された前記複数のフレームを時間的に識別し、
    入力された前記複数のフレームを空間的に識別し、
    前記識別ステップにおける識別結果を統合する、コンピュータプログラム。
JP2019027405A 2019-02-19 2019-02-19 生成装置及びコンピュータプログラム Active JP7161107B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019027405A JP7161107B2 (ja) 2019-02-19 2019-02-19 生成装置及びコンピュータプログラム
US17/431,678 US20220122297A1 (en) 2019-02-19 2020-02-03 Generation apparatus and computer program
PCT/JP2020/003955 WO2020170785A1 (ja) 2019-02-19 2020-02-03 生成装置及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019027405A JP7161107B2 (ja) 2019-02-19 2019-02-19 生成装置及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2020136884A JP2020136884A (ja) 2020-08-31
JP7161107B2 true JP7161107B2 (ja) 2022-10-26

Family

ID=72143932

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019027405A Active JP7161107B2 (ja) 2019-02-19 2019-02-19 生成装置及びコンピュータプログラム

Country Status (3)

Country Link
US (1) US20220122297A1 (ja)
JP (1) JP7161107B2 (ja)
WO (1) WO2020170785A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220092407A1 (en) * 2020-09-23 2022-03-24 International Business Machines Corporation Transfer learning with machine learning systems
US12019747B2 (en) * 2020-10-13 2024-06-25 International Business Machines Corporation Adversarial interpolation backdoor detection
US12010335B2 (en) 2021-04-08 2024-06-11 Disney Enterprises, Inc. Microdosing for low bitrate video compression
US20220329876A1 (en) * 2021-04-08 2022-10-13 Disney Enterprises, Inc. Machine Learning Model-Based Video Compression

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
IIZUKA, Satoshi et al.,Globally and Locally Consistent Image Completion,ACM Transactions on Graphics,Vol.36, No.4,2017年07月
折橋翔太 他3名,敵対的生成ネットワークを用いた画像補間に基づく画像符号化方式,電子情報通信学会技術研究報告,2018年06月22日,Vol.118, No.113,pp.33-38
松田侑也 他1名,画像インペインティングのための条件付き生成NNの基礎検討,PCSJ/IMPS2016,2016年11月16日,P-1-04,pp.26-27

Also Published As

Publication number Publication date
US20220122297A1 (en) 2022-04-21
WO2020170785A1 (ja) 2020-08-27
JP2020136884A (ja) 2020-08-31

Similar Documents

Publication Publication Date Title
JP7161107B2 (ja) 生成装置及びコンピュータプログラム
US11430138B2 (en) Systems and methods for multi-frame video frame interpolation
CN110324664B (zh) 一种基于神经网络的视频补帧方法及其模型的训练方法
CN111652899B (zh) 一种时空部件图的视频目标分割方法
JP2978406B2 (ja) 局所異常の排除による動きベクトルフィールド生成装置およびその方法
JPH08205194A (ja) 動き補償フレーム間予測装置
CN109191498B (zh) 基于动态记忆和运动感知的目标检测方法及系统
CN109740563B (zh) 一种面向视频监控的运动目标检测方法
CN110909595A (zh) 面部动作识别模型训练方法、面部动作识别方法
JPH08275180A (ja) 輪郭符号化装置
US20110091074A1 (en) Moving object detection method and moving object detection apparatus
CN107646112B (zh) 使用机器学习对眼睛图像进行校正的方法以及机器学习的方法
JP2009509418A (ja) 時間予測のための分類フィルタリング
JP6832252B2 (ja) 超解像装置およびプログラム
JP2798120B2 (ja) 動き補償フレーム間予測方法及び動き補償フレーム間予測装置
JP2020014042A (ja) 画質評価装置、学習装置及びプログラム
US20100039517A1 (en) Film cadence detection
JP4563982B2 (ja) 動き推定方法,装置,そのプログラムおよびその記録媒体
KR100778116B1 (ko) 움직임벡터 보정장치 및 보정방법
CN110738699A (zh) 一种无监督绝对尺度计算方法及系统
CN110830848B (zh) 图像插值方法、装置、计算机设备和存储介质
KR102057395B1 (ko) 기계학습 기반 비디오 보외법을 이용한 영상 생성 방법
JPH0983961A (ja) クラス予測係数の学習方法並びにクラス分類適応処理を用いた信号変換装置および方法
Xiong et al. Tanner graph based image interpolation
JP2007251690A (ja) 画像処理装置および方法、学習装置および方法、並びにプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220913

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220926

R150 Certificate of patent or registration of utility model

Ref document number: 7161107

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150