JP2021515347A - ニューラルネットワークモデルのトレーニング、タイムラプス撮影ビデオの生成方法及び装置 - Google Patents
ニューラルネットワークモデルのトレーニング、タイムラプス撮影ビデオの生成方法及び装置 Download PDFInfo
- Publication number
- JP2021515347A JP2021515347A JP2020568019A JP2020568019A JP2021515347A JP 2021515347 A JP2021515347 A JP 2021515347A JP 2020568019 A JP2020568019 A JP 2020568019A JP 2020568019 A JP2020568019 A JP 2020568019A JP 2021515347 A JP2021515347 A JP 2021515347A
- Authority
- JP
- Japan
- Prior art keywords
- video
- training
- time
- lapse
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2193—Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
- G06T15/20—Perspective computation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Image Analysis (AREA)
- Studio Devices (AREA)
Abstract
Description
サーバーに適用されるニューラルネットワークモデルのトレーニング方法であって、
トレーニングサンプルを取得するステップであって、前記トレーニングサンプルに、トレーニングビデオ及びそれに対応する画像セットが含まれ、前記画像セットに、第1の所定フレーム数の前記トレーニングビデオにおける最初のフレーム画像又は最後のフレーム画像が含まれるステップと、
前記トレーニングサンプルに基づきトレーニングすることにより、トレーニング終了条件を満たすニューラルネットワークモデルを取得するステップであって、前記ニューラルネットワークモデルに、タイムラプス撮影ビデオに対してコンテンツモデリングを行うためのベーシックネットワークと、タイムラプス撮影ビデオのモーション状態に対してモデリングを行うための最適化ネットワークとが含まれるステップと、
を含み、
前記ベーシックネットワークは、第1の所定フレーム数の同じ画像が含まれる画像セットを入力とし、ベーシックタイムラプス撮影ビデオを出力とする第1の敵対的生成ネットワークであり、
前記最適化ネットワークは、前記ベーシックネットワークの出力を入力とし、最適化されたタイムラプス撮影ビデオを出力とする第2の敵対的生成ネットワークである。
指定画像を取得するステップと、
前記指定画像に基づき、第1の所定フレーム数の前記指定画像が含まれる画像セットを生成するステップと、
前記画像セットに基づき、予めトレーニングされたニューラルネットワークモデルにより前記画像セットに対してコンテンツモデリングとモーション状態モデリングを行うことで、前記ニューラルネットワークモデルによって出力されるタイムラプス撮影ビデオを取得するステップと、
を含み、
前記ニューラルネットワークモデルは、本出願に記載されたニューラルネットワークモデルのトレーニング方法でトレーニングすることで取得される。
トレーニングサンプルを取得するための取得モジュールであって、前記トレーニングサンプルトに、トレーニングビデオ及びそれに対応する画像セットが含まれ、前記画像セットに、第1の所定フレーム数の前記トレーニングビデオにおける最初のフレーム画像又は最後のフレーム画像が含まれる取得モジュールと、
前記トレーニングサンプルに基づきトレーニングすることにより、トレーニング終了条件を満たすニューラルネットワークモデルを取得するためのトレーニングモジュールであって、前記ニューラルネットワークモデルに、タイムラプス撮影ビデオに対してコンテンツモデリングを行うためのベーシックネットワークと、タイムラプス撮影ビデオのモーション状態に対してモデリングを行うための最適化ネットワークとが含まれるトレーニングモジュールと、
を含み、
前記ベーシックネットワークは、第1の所定フレーム数の同じ画像が含まれる画像セットを入力とし、ベーシックタイムラプス撮影ビデオを出力とする第1の敵対的生成ネットワークであり、前記最適化ネットワークは、前記ベーシックネットワークの出力を入力とし、最適化されたタイムラプス撮影ビデオを出力とする第2の敵対的生成ネットワークである。
指定画像を取得するための取得モジュールと、
前記指定画像に基づき、第1の所定フレーム数の前記指定画像が含まれる画像セットを生成するための第1の生成モジュールと、
前記画像セットに基づき、予めトレーニングされたニューラルネットワークモデルにより前記画像セットに対してコンテンツモデリングとモーション状態モデリングを行うことで、前記ニューラルネットワークモデルによって出力されるタイムラプス撮影ビデオを取得するための第2の生成モジュールと、
を含み、
前記ニューラルネットワークモデルは、本出願に記載されたニューラルネットワークモデルのトレーニング方法でトレーニングすることで取得される。
前記端末と前記サーバーとは、ネットワークを介して相互作用し、
前記サーバーは、前記端末に送信される指定画像を受信し、前記指定画像に基づき、第1の所定フレーム数の前記指定画像が含まれる画像セットを生成し、前記画像セットに基づき、予めトレーニングされたニューラルネットワークモデルにより前記画像セットに対してコンテンツモデリングとモーション状態モデリングを行うことで、前記ニューラルネットワークモデルによって出力されるタイムラプス撮影ビデオを取得し、前記タイムラプス撮影ビデオを前記端末に送信するために使用され、
前記ニューラルネットワークモデルは、本出願に記載されたニューラルネットワークモデルのトレーニング方法でトレーニングすることで取得される。
前記メモリはコンピュータプログラムを記憶するために使用され、
前記プロセッサは、前記メモリ内のコンピュータプログラムを呼び出して実行して、本出願に記載されたニューラルネットワークモデルのトレーニング方法を実現するか、又は本出願に記載されたタイムラプス撮影ビデオの生成方法を実現するために使用される。
当該方法が端末によって実現される場合に、指定画像を取得する実現方法が2つあり、1つの実現方法は、アルバムから写真を指定画像として選択することであり、具体的に、端末は、選択コマンドに応答して、アルバムにおける選択された写真を指定画像として取得することであり、1つの実現方法は、指定画像として画像をリアルタイムで撮影することであり、具体的に、端末は、撮影コマンドに応答して、撮影された写真を指定画像として取得することである。当該方法がサーバーによって実現される場合に、サーバーは、端末から送信されたタイムラプス撮影生成要求を受信し、当該タイムラプス撮影生成要求に指定画像が含まれ、サーバーは、前記タイムラプス撮影生成要求から前記指定画像を取得することができる。
本実施例は、画像セットを生成する2つの方法を提供する。1つの実現方法は、前記指定画像の数が第1の所定フレーム数に達するまで前記指定画像をコピーし、次に、第1の所定フレーム数の前記指定画像に基づき画像セットを生成することであり、別の実現方法は、データソースから指定画像を繰り返して取得することであり、例えば、前記指定画像の数が第1の所定フレーム数に達するまで、指定画像である同じ画像を複数回取得し、次に、第1の所定フレーム数の前記指定画像に基づき画像セットを生成する。
前記トレーニングサンプルはトレーニングビデオ、及びそれに対応する画像セットを含み、前記画像セットは第1の所定フレーム数の前記トレーニングビデオにおける最初のフレーム画像又は最後のフレーム画像を含む。なお、ニューラルネットワークモデルをトレーニングする場合に、通常、バッチトレーニングサンプルが使用され、バッチトレーニングサンプルの画像セットに含まれる画像は全てトレーニングビデオにおける最初のフレーム画像であるか、又は、全てトレーニングビデオにおける最後のフレーム画像である。
トレーニングサンプルに、トレーニングビデオ及びトレーニングビデオに対応する画像セットが含まれ、ベーシックネットワークは、画像セットを入力とし、コンテンツモデリングを行うことでベーシックタイムラプス撮影ビデオを出力し、それは、生成されたベーシックタイムラプス撮影ビデオがトレーニングビデオに近づくことを目的とし、このようにして、生成されたビデオとトレーニングビデオとの類似度に基づいて第1の敵対的生成ネットワークのパラメータを調整でき、パラメータを継続的に調整することで、第1の敵対的生成ネットワークを最適化し、トレーニング終了条件を満たすと、当該第1の生成ネットワークを、ベーシックネットワークとして取得する。
ベーシックネットワークは、第1の所定フレーム数の同じ画像が含まれる画像セットを入力とし、ベーシックタイムラプス撮影ビデオを出力とし、トレーニングビデオに対応する画像セットをベーシックネットワークに入力することで、ベーシックネットワークによって出力されるベーシックタイムラプス撮影ビデオを取得できる。
この実施例では、ベーシックネットワークは、第1の生成器と第1の判別器とを含み、第1の生成器は、ベーシックタイムラプス撮影ビデオを生成するために使用され、第1の判別器は、ベーシックタイムラプス撮影ビデオが真実のビデオであるかどうかを判別するために使用され、第1の判別器の判別結果が真実のビデオである場合に、第1の生成器が生成するベーシックタイムラプス撮影ビデオは高いリアリティを有し、且つ比較的自然であることを示す。
具体的に、前記第1の敵対的生成ネットワークの損失によって、各層の勾配を算出し、さらに、前記第1の生成器及び前記第1の判別器のパラメータ(例えば、重み、オフセット量など)を更新する。第1の生成器及び第1の判別器のパラメータを継続的に更新することで、第1の敵対的生成ネットワークのトレーニングを実現し、例えば、第1の敵対的生成ネットワークの損失が収束しているか、又はプリセット値よりも小さい場合などのトレーニング終了条件が満たされた場合、第1の敵対的生成ネットワークを、ベーシックネットワークとして決定することができる。
最適化ネットワークは、第2の生成器と第2の判別器とを含み、その中、第2の生成器は、ベーシックタイムラプス撮影ビデオに基づきモーション情報モデリングを行うことで、最適化されたタイムラプス撮影ビデオを取得するために使用され、第2の判別器は、ベーシックタイムラプス撮影ビデオが真実のビデオであるかどうかを判断するために使用され、第2の判別器の判別結果が真実のビデオであると、第2の生成器によって生成されたベーシックタイムラプス撮影ビデオが高いリアリティを有し、且つ比較的自然であることを示す。
第1の判別器と同様に、第2の判別器は、最適化されたタイムラプス撮影ビデオとトレーニングビデオとに基づき、第2の生成器によって生成される最適化されたタイムラプス撮影ビデオのリアリティを判別することにより、判別の結果を取得することができ、最適化されたタイムラプス撮影ビデオとトレーニングビデオとの類似性が事前設定されたレベルに達した場合、最適化されたタイムラプス撮影ビデオが真実のビデオであると判別し、即ち、当該最適化されたタイムラプス撮影ビデオは高いリアリティを有する。
ベーシックネットワークと同様に、最適化ネットワークは、パラメータを調整して第2の敵対的生成ネットワークの損失を減少することでモデルトレーニングを実現することである。前記損失は少なくともランキング損失を含み、前記ランキング損失は、前記最適化されたタイムラプス撮影ビデオ、前記ベーシックタイムラプス撮影ビデオ及び前記トレーニングビデオのそれぞれに対応するモーション特徴に基づき決定される。
指定画像を取得するための取得モジュール1010と、
前記指定画像に基づき、第1の所定フレーム数の前記指定画像が含まれる画像セットを生成するための第1の生成モジュール1020と、
前記画像セットに基づき、予めトレーニングされたニューラルネットワークモデルにより前記画像セットに対してコンテンツモデリングとモーション状態モデリングを行うことで、前記ニューラルネットワークモデルによって出力されるタイムラプス撮影ビデオを取得するための第2の生成モジュール1030と、
を含み、
前記ニューラルネットワークモデルは、上記のニューラルネットワークモデルのトレーニング方法でトレーニングすることで取得される。
選択コマンドに応答して、アルバムにおける選択された写真を、指定画像として取得するか、又は、
撮影コマンドに応答して、撮影された写真を、指定画像として取得するために使用される。
端末装置から送信されたタイムラプス撮影生成要求を受信し、前記タイムラプス撮影生成要求に指定画像が含まれ、
前記タイムラプス撮影生成要求から前記指定画像を取得するために使用される。
トレーニングサンプルを取得するための取得モジュール1110であって、前記トレーニングサンプルトに、トレーニングビデオ及びそれに対応する画像セットが含まれ、前記画像セットに、第1の所定フレーム数の前記トレーニングビデオにおける最初のフレーム画像、又は最後のフレーム画像が含まれる取得モジュール1110と、
前記トレーニングサンプルに基づきトレーニングすることにより、トレーニング終了条件を満たすニューラルネットワークモデルを取得するためのトレーニングモジュール1120であって、前記ニューラルネットワークモデルに、タイムラプス撮影ビデオに対してコンテンツモデリングを行うためのベーシックネットワークと、タイムラプス撮影ビデオのモーション状態に対してモデリングを行うための最適化ネットワークとが含まれるトレーニングモジュール1120と、
を含み、
前記ベーシックネットワークは、第1の所定フレーム数の同じ画像が含まれる画像セットを入力とし、ベーシックタイムラプス撮影ビデオを出力とする第1の敵対的生成ネットワークであり、前記最適化ネットワークは、前記ベーシックネットワークの出力を入力とし、最適化されたタイムラプス撮影ビデオを出力とする第2の敵対的生成ネットワークである。
前記トレーニングサンプルに基づきトレーニングすることにより、トレーニング終了条件を満たす第1の敵対的生成ネットワークを、ベーシックネットワークとして取得するための第1のトレーニングサブモジュール1121と、
前記トレーニングビデオに対応する画像セットに基づき、ベーシックネットワークにより、前記ベーシックネットワークによって出力されるベーシックタイムラプス撮影ビデオを取得するための取得サブモジュール1122と、
前記ベーシックタイムラプス撮影ビデオと前記トレーニングビデオとに基づきトレーニングすることにより、トレーニング終了条件を満たす第2の敵対的生成ネットワークを、最適化ネットワークとして取得する第2のトレーニングサブモジュール1123と、を含む。
前記ベーシックタイムラプス撮影ビデオに基づき、前記第2の敵対的生成ネットワークにおける第2の生成器により、最適化されたタイムラプス撮影ビデオを取得し、
前記最適化されたタイムラプス撮影ビデオに基づき、前記第2の敵対的生成ネットワークにおける第2の判別器により、判別結果を取得し、
前記最適化されたタイムラプス撮影ビデオ、前記ベーシックタイムラプス撮影ビデオ、前記トレーニングビデオ、及び前記判別結果に基づき、第2の敵対的生成ネットワークの損失を生成し、前記損失に少なくともランキング損失が含まれ、前記ランキング損失が、前記最適化されたタイムラプス撮影ビデオ、前記ベーシックタイムラプス撮影ビデオ、及び前記トレーニングビデオのそれぞれに対応するモーション特徴に基づき決定され、
トレーニング終了条件を満たす第2の敵対的生成ネットワークが最適化ネットワークとして取得されるまで、前記敵対的生成ネットワークの損失に基づき、前記第2の敵対的生成ネットワークのネットワークパラメータを最適化する、ために使用される。
前記第2の敵対的生成ネットワークにおける第2の判別器により、前記最適化されたタイムラプス撮影ビデオの特徴、前記ベーシックタイムラプス撮影ビデオ及び前記トレーニングビデオのそれぞれの特徴をそれぞれ抽出し、前記特徴に基づき、前記最適化されたタイムラプス撮影ビデオ、前記ベーシックタイムラプス撮影ビデオ、及び前記トレーニングビデオのそれぞれに対応するグラムgram行列をそれぞれ算出し、前記gram行列は、ビデオフレーム間のモーション状態を表すために使用され、
前記最適化されたタイムラプス撮影ビデオ、前記ベーシックタイムラプス撮影ビデオ、及び前記トレーニングビデオのそれぞれに対応するグラムgram行列に基づき、前記ランキング損失を決定し、
前記第2の敵対的生成ネットワークのコンテンツ損失、敵対損失、及び前記ランキング損失に基づき、前記第2の敵対的生成ネットワークの損失を決定する。
トレーニングビデオを取得し、
前記トレーニングビデオから、最初のフレーム画像又は最後のフレーム画像を抽出し、
前記最初のフレーム画像又は最後のフレーム画像をコピーして、前記トレーニングビデオに対応する画像セットを生成し、
前記トレーニングビデオ、及びそれに対応する画像セットを、トレーニングサンプルとする、ために使用される。
その中、プロセッサ1、通信インターフェース2、メモリ3は、通信バス4を介して相互に通信し、
プロセッサ1は、前記メモリに記憶されているプログラムを呼び出して実行するために使用され、
メモリ3は、プログラムを記憶するために使用される。
前記プログラムはプログラムコードを含んでもよく、前記プログラムコードはコンピュータ操作コマンドを含み、本出願の実施例では、プログラムは、タイムラプス撮影ビデオを生成するためのニューラルネットワークモデルのトレーニング方法に対応するプログラム、及び前記タイムラプス撮影ビデオの生成方法に対応するプログラムの2つのプログラム、又は、その中のいずれかのプログラムを含んでもよい。
指定画像を取得し、
前記指定画像に基づき、第1の所定フレーム数の前記指定画像が含まれる画像セットを生成し、
前記画像セットに基づき、予めトレーニングされたニューラルネットワークモデルにより、前記画像セットに対してコンテンツモデリングとモーション状態モデリングを行うことで、前記ニューラルネットワークモデルによって出力されるタイムラプス撮影ビデオを取得するために使用されることができ、その中、前記ニューラルネットワークモデルは、上記のニューラルネットワークモデルのトレーニング方法でトレーニングすることで取得される。
第1の方法は、ユーザーがローカル端末で作成することであり、ローカル端末で実行される操作は、以下のことを含む。
ユーザーによって提供される指定画像を取得し、当該指定画像はユーザーが現場で撮影した空の画像であってもよいし、ユーザーが選択した既存の空の画像であってもよく、前記指定画像をコピーして、第1の所定フレーム数の前記指定画像が含まれる画像セットを生成し、前記画像セットを、タイムラプス撮影ビデオを生成するためのニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルによりコンテンツモデリングとモーション状態モデリングを行うことで、指定画像のコンテンツを再構築し、最適化されたタイムラプス撮影ビデオを出力する。
ローカル端末は、指定画像をリモートサーバーに送信し、当該指定画像は、ユーザーが現場で撮影した空の画像であってもよいし、ユーザーが選択した既存の空のピクチャであってもよい。
リモートサーバーは、前記指定画像をコピーして、第1の所定フレーム数の前記指定画像が含まれる画像セットを生成し、前記画像セットを、タイムラプス撮影ビデオを生成するためのニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルによりコンテンツモデリングとモーション状態モデリングを行って、画像のコンテンツを再構築し、最適化されたタイムラプス撮影ビデオを出力する。
Claims (14)
- サーバーが実行するニューラルネットワークモデルのトレーニング方法であって、
トレーニングサンプルを取得するステップであって、前記トレーニングサンプルにトレーニングビデオ及び前記トレーニングビデオに対応する画像セットが含まれ、前記画像セットに、第1の所定フレーム数の前記トレーニングビデオにおける最初のフレームの画像又は最後のフレームの画像が含まれるステップと、
前記トレーニングサンプルに基づきトレーニングすることにより、トレーニング終了条件を満たすニューラルネットワークモデルを取得するステップであって、前記ニューラルネットワークモデルに、タイムラプス撮影ビデオに対してコンテンツモデリングを行うためのベーシックネットワークと、タイムラプス撮影ビデオのモーション状態に対してモデリングを行うための最適化ネットワークとが含まれるステップと、
を含み、
前記ベーシックネットワークは、第1の所定フレーム数の同じ画像が含まれる画像セットを入力とし、ベーシックタイムラプス撮影ビデオを出力とする第1の敵対的生成ネットワークであり、前記最適化ネットワークは、前記ベーシックネットワークの出力を入力とし、最適化されたタイムラプス撮影ビデオを出力とする第2の敵対的生成ネットワークである、方法。 - 前記トレーニングサンプルに基づきトレーニングすることにより、トレーニング終了条件を満たすニューラルネットワークモデルを取得する前記ステップは、
前記トレーニングサンプルに基づきトレーニングすることにより、トレーニング終了条件を満たす第1の敵対的生成ネットワークを、ベーシックネットワークとして取得するステップと、
前記トレーニングビデオに対応する画像セットに基づき、ベーシックネットワークにより、前記ベーシックネットワークによって出力されるベーシックタイムラプス撮影ビデオを取得するステップと、
前記ベーシックタイムラプス撮影ビデオと前記トレーニングビデオとに基づき、トレーニングすることにより、トレーニング終了条件を満たす第2の敵対的生成ネットワークを、最適化ネットワークとして取得するステップと、
を含む請求項1に記載の方法。 - 前記ベーシックタイムラプス撮影ビデオと前記トレーニングビデオとに基づき、トレーニングすることにより、トレーニング終了条件を満たす第2の敵対的生成ネットワークを、最適化ネットワークとして取得する前記ステップは、
前記ベーシックタイムラプス撮影ビデオに基づき、前記第2の敵対的生成ネットワークにおける第2の生成器により、最適化されたタイムラプス撮影ビデオを取得するステップと、
前記最適化されたタイムラプス撮影ビデオに基づき、前記第2の敵対的生成ネットワークにおける第2の判別器により、判別結果を取得するステップと、
前記最適化されたタイムラプス撮影ビデオ、前記ベーシックタイムラプス撮影ビデオ、前記トレーニングビデオ、及び前記判別結果に基づき、前記第2の敵対的生成ネットワークの損失を生成するステップであって、前記損失に少なくともランキング損失が含まれ、前記ランキング損失が、前記最適化されたタイムラプス撮影ビデオ、前記ベーシックタイムラプス撮影ビデオ、及び前記トレーニングビデオのそれぞれに対応するモーション特徴に基づき決定されるステップと、
トレーニング終了条件を満たす第2の敵対的生成ネットワークが最適化ネットワークとして取得されるまで、前記第2の敵対的生成ネットワークの損失に基づき、前記第2の敵対的生成ネットワークのネットワークパラメータを最適化するステップと、
を含む請求項2に記載の方法。 - 以下の方法で、前記第2の敵対的生成ネットワークの損失を決定し、
前記第2の敵対的生成ネットワークにおける第2の判別器により、前記最適化されたタイムラプス撮影ビデオの特徴、前記ベーシックタイムラプス撮影ビデオ及び前記トレーニングビデオのそれぞれの特徴をそれぞれ抽出し、前記特徴に基づき、前記最適化されたタイムラプス撮影ビデオ、前記ベーシックタイムラプス撮影ビデオ、及び前記トレーニングビデオのそれぞれに対応するグラムgram行列をそれぞれ算出し、前記gram行列は、ビデオフレーム間のモーション状態を表すために用いられ、
前記最適化されたタイムラプス撮影ビデオ、前記ベーシックタイムラプス撮影ビデオ、及び前記トレーニングビデオのそれぞれに対応するグラムgram行列に基づき、ランキング損失を決定し、
前記第2の敵対的生成ネットワークのコンテンツ損失、敵対損失、及び前記ランキング損失に基づき、前記第2の敵対的生成ネットワークの損失を決定する請求項1に記載の方法。 - トレーニングサンプルを取得する前記ステップは、
トレーニングビデオを取得するステップと、
前記トレーニングビデオから、最初のフレームの画像又は最後のフレームの画像を抽出するステップと、
前記最初のフレームの画像又は最後のフレームの画像をコピーして、前記トレーニングビデオに対応する画像セットを生成するステップと、
前記トレーニングビデオ、及び前記トレーニングビデオに対応する画像セットを、トレーニングサンプルとして使用するステップと、
を含む、請求項1に記載の方法。 - 電子機器が実行するタイムラプス撮影ビデオの生成方法であって、
指定画像を取得するステップと、
前記指定画像に基づき、第1の所定フレーム数の前記指定画像を含む画像セットを生成するステップと、
前記画像セットに基づき、予めトレーニングされたニューラルネットワークモデルにより前記画像セットに対してコンテンツモデリングとモーション状態モデリングを行うことで、前記ニューラルネットワークモデルによって出力されるタイムラプス撮影ビデオを取得するステップと、
を含み、
前記ニューラルネットワークモデルは、請求項1から5のいずれか一項に記載の方法でトレーニングすることで取得される、方法。 - 前記電子機器は端末装置であり、前記端末装置に前記ニューラルネットワークモデルが配置されており、指定画像を取得する前記ステップは、
選択コマンドに応答して、アルバムにおける選択された写真を、指定画像として取得するステップ、又は、
撮影コマンドに応答して、撮影された写真を、指定画像として取得するステップ、
を含む、請求項6に記載の方法。 - 前記電子機器はサーバーであり、指定画像を取得する前記ステップは、
端末装置から送信されたタイムラプス撮影生成要求を受信するステップであって、前記タイムラプス撮影生成要求に指定画像が含まれるステップと、
前記タイムラプス撮影生成要求から前記指定画像を取得するステップと、
を含む、請求項6に記載の方法。 - ニューラルネットワークモデルのトレーニング装置であって、
トレーニングサンプルを取得するための取得モジュールであって、前記トレーニングサンプルにはトレーニングビデオ、及び前記トレーニングビデオに対応する画像セットが含まれ、前記画像セットに、第1の所定フレーム数の前記トレーニングビデオにおける最初のフレームの画像又は最後のフレームの画像が含まれる取得モジュールと、
前記トレーニングサンプルに基づきトレーニングすることにより、トレーニング終了条件を満たすニューラルネットワークモデルを取得するためのトレーニングモジュールであって、前記ニューラルネットワークモデルに、タイムラプス撮影ビデオに対してコンテンツモデリングを行うためのベーシックネットワークと、タイムラプス撮影ビデオのモーション状態に対してモデリングを行うための最適化ネットワークとが含まれるトレーニングモジュールと、
を含み、
前記ベーシックネットワークは、第1の所定フレーム数の同じ画像が含まれる画像セットを入力とし、ベーシックタイムラプス撮影ビデオを出力とする第1の敵対的生成ネットワークであり、前記最適化ネットワークは、前記ベーシックネットワークの出力を入力とし、最適化されたタイムラプス撮影ビデオを出力とする第2の敵対的生成ネットワークである、装置。 - タイムラプス撮影ビデオの生成装置であって、
指定画像を取得するための取得モジュールと、
前記指定画像に基づき、第1の所定フレーム数の前記指定画像が含まれる画像セットを生成するための第1の生成モジュールと、
前記画像セットに基づき、予めトレーニングされたニューラルネットワークモデルにより前記画像セットに対してコンテンツモデリングとモーション状態モデリングを行うことで、前記ニューラルネットワークモデルによって出力されるタイムラプス撮影ビデオを取得するための第2の生成モジュールと、
を含み、
前記ニューラルネットワークモデルは、請求項1から5のいずれか一項に記載の方法でトレーニングすることで取得される、装置。 - 端末とサーバーとを含む、タイムラプス撮影ビデオの生成システムであって、
前記端末と前記サーバーとは、ネットワークを介して相互作用し、
前記サーバーは、前記端末から送信された指定画像を受信し、前記指定画像に基づき、第1の所定フレーム数の前記指定画像が含まれる画像セットを生成し、前記画像セットに基づき、予めトレーニングされたニューラルネットワークモデルにより前記画像セットに対してコンテンツモデリングとモーション状態モデリングを行うことで、前記ニューラルネットワークモデルによって出力されるタイムラプス撮影ビデオを取得し、前記タイムラプス撮影ビデオを前記端末に送信するために使用され、
前記ニューラルネットワークモデルは、請求項1から5のいずれか一項に記載の方法でトレーニングすることで取得される、システム。 - メモリとプロセッサとを含む電子機器であって、
前記メモリはコンピュータプログラムを記憶するために使用され、
前記プロセッサは、前記メモリ内のコンピュータプログラムを呼び出して実行して、請求項1から5のいずれか一項に記載のニューラルネットワークモデルのトレーニング方法を実現するか、又は、請求項6から8のいずれか一項に記載のタイムラプス撮影ビデオの生成方法を実現するために使用される、電子機器。 - コンピュータプログラムが記憶されている記憶媒体であって、
前記コンピュータプログラムは、プロセッサによって実行される場合に、請求項1から5のいずれか一項に記載のニューラルネットワークモデルのトレーニング方法を実現するか、又は、請求項6から8のいずれか一項に記載のタイムラプス撮影ビデオの生成方法を実現するために使用される、記憶媒体。 - コマンドを含むコンピュータプログラムであって、
コンピュータで実行される場合に、請求項1から5のいずれか一項に記載のニューラルネットワークモデルのトレーニング方法、又は、請求項6から8のいずれか一項に記載のタイムラプス撮影ビデオの生成方法を前記コンピュータに実行させるコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810253848.3 | 2018-03-26 | ||
CN201810253848.3A CN110363293A (zh) | 2018-03-26 | 2018-03-26 | 神经网络模型的训练、延时摄影视频的生成方法及设备 |
PCT/CN2019/076724 WO2019184654A1 (zh) | 2018-03-26 | 2019-03-01 | 神经网络模型的训练、延时摄影视频的生成方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021515347A true JP2021515347A (ja) | 2021-06-17 |
JP7026262B2 JP7026262B2 (ja) | 2022-02-25 |
Family
ID=68060891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020568019A Active JP7026262B2 (ja) | 2018-03-26 | 2019-03-01 | ニューラルネットワークモデルのトレーニング、タイムラプス撮影ビデオの生成方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (2) | US11429817B2 (ja) |
EP (1) | EP3779891A4 (ja) |
JP (1) | JP7026262B2 (ja) |
CN (2) | CN110555527A (ja) |
WO (1) | WO2019184654A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555527A (zh) * | 2018-03-26 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 延时摄影视频的生成方法及设备 |
US11854245B2 (en) * | 2018-04-27 | 2023-12-26 | Carnegie Mellon University | Generative adversarial networks having ranking loss |
TWI732370B (zh) * | 2019-12-04 | 2021-07-01 | 財團法人工業技術研究院 | 神經網路模型的訓練裝置和訓練方法 |
CN111178401B (zh) * | 2019-12-16 | 2023-09-12 | 上海航天控制技术研究所 | 一种基于多层对抗网络的空间目标分类方法 |
US20220122305A1 (en) | 2020-10-16 | 2022-04-21 | Adobe Inc. | Identity-preserving techniques for generative adversarial network projection |
CN114615421B (zh) * | 2020-12-07 | 2023-06-30 | 华为技术有限公司 | 图像处理方法及电子设备 |
CN113792853B (zh) * | 2021-09-09 | 2023-09-05 | 北京百度网讯科技有限公司 | 字符生成模型的训练方法、字符生成方法、装置和设备 |
CN113747072B (zh) * | 2021-09-13 | 2023-12-12 | 维沃移动通信有限公司 | 拍摄处理方法和电子设备 |
US11689601B1 (en) * | 2022-06-17 | 2023-06-27 | International Business Machines Corporation | Stream quality enhancement |
CN117291252B (zh) * | 2023-11-27 | 2024-02-20 | 浙江华创视讯科技有限公司 | 稳定视频生成模型训练方法、生成方法、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015142327A (ja) * | 2014-01-30 | 2015-08-03 | カシオ計算機株式会社 | 画像処理装置、画像処理方法、及びプログラム |
US20170180589A1 (en) * | 2015-12-22 | 2017-06-22 | Samsung Electronics Co., Ltd. | Apparatus and method for generating time lapse image |
JP2018006828A (ja) * | 2016-06-27 | 2018-01-11 | キヤノン株式会社 | 撮像装置、その制御方法とプログラム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7289127B1 (en) * | 2005-04-25 | 2007-10-30 | Apple, Inc. | Multi-conic gradient generation |
CN102737369A (zh) * | 2011-03-31 | 2012-10-17 | 卡西欧计算机株式会社 | 图像处理装置及图像处理方法 |
US9762846B2 (en) * | 2015-05-08 | 2017-09-12 | Microsoft Technology Licensing, Llc | Real-time hyper-lapse video creation via frame selection |
US11144761B2 (en) * | 2016-04-04 | 2021-10-12 | Xerox Corporation | Deep data association for online multi-class multi-object tracking |
US10805338B2 (en) * | 2016-10-06 | 2020-10-13 | Cisco Technology, Inc. | Analyzing encrypted traffic behavior using contextual traffic data |
CN106779073B (zh) * | 2016-12-27 | 2019-05-31 | 西安石油大学 | 基于深度神经网络的媒体信息分类方法及装置 |
CN107730458A (zh) * | 2017-09-05 | 2018-02-23 | 北京飞搜科技有限公司 | 一种基于生成式对抗网络的模糊人脸重建方法及系统 |
CN107679465B (zh) * | 2017-09-20 | 2019-11-15 | 上海交通大学 | 一种基于生成网络的行人重识别数据生成和扩充方法 |
CN110555527A (zh) * | 2018-03-26 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 延时摄影视频的生成方法及设备 |
-
2018
- 2018-03-26 CN CN201910853402.9A patent/CN110555527A/zh active Pending
- 2018-03-26 CN CN201810253848.3A patent/CN110363293A/zh active Pending
-
2019
- 2019-03-01 JP JP2020568019A patent/JP7026262B2/ja active Active
- 2019-03-01 EP EP19778365.7A patent/EP3779891A4/en active Pending
- 2019-03-01 WO PCT/CN2019/076724 patent/WO2019184654A1/zh unknown
-
2020
- 2020-06-04 US US16/892,587 patent/US11429817B2/en active Active
-
2022
- 2022-07-14 US US17/864,730 patent/US12001959B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015142327A (ja) * | 2014-01-30 | 2015-08-03 | カシオ計算機株式会社 | 画像処理装置、画像処理方法、及びプログラム |
US20170180589A1 (en) * | 2015-12-22 | 2017-06-22 | Samsung Electronics Co., Ltd. | Apparatus and method for generating time lapse image |
JP2018006828A (ja) * | 2016-06-27 | 2018-01-11 | キヤノン株式会社 | 撮像装置、その制御方法とプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20200293833A1 (en) | 2020-09-17 |
US12001959B2 (en) | 2024-06-04 |
US20220366193A1 (en) | 2022-11-17 |
WO2019184654A1 (zh) | 2019-10-03 |
EP3779891A1 (en) | 2021-02-17 |
US11429817B2 (en) | 2022-08-30 |
CN110555527A (zh) | 2019-12-10 |
JP7026262B2 (ja) | 2022-02-25 |
EP3779891A4 (en) | 2021-12-22 |
CN110363293A (zh) | 2019-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7026262B2 (ja) | ニューラルネットワークモデルのトレーニング、タイムラプス撮影ビデオの生成方法及び装置 | |
US11544831B2 (en) | Utilizing an image exposure transformation neural network to generate a long-exposure image from a single short-exposure image | |
RU2564832C2 (ru) | Способ стабилизации видеоизображения для многофункциональных платформ | |
US20220222776A1 (en) | Multi-Stage Multi-Reference Bootstrapping for Video Super-Resolution | |
US11741581B2 (en) | Training method for image processing model, image processing method, network device, and storage medium | |
GB2567920A (en) | Deep salient content neural networks for efficient digital object segmentation | |
CN113066017B (zh) | 一种图像增强方法、模型训练方法及设备 | |
KR20210018850A (ko) | 비디오 수복 방법 및 장치, 전자 기기 및 기억 매체 | |
KR20210074360A (ko) | 이미지 처리 방법, 디바이스 및 장치, 그리고 저장 매체 | |
CN110248098A (zh) | 图像处理方法、装置、存储介质及电子设备 | |
CN105578061A (zh) | 一种拍照防抖的方法、装置及移动终端 | |
CN112906721B (zh) | 图像处理方法、装置、设备及计算机可读存储介质 | |
WO2023151511A1 (zh) | 模型训练方法、图像去摩尔纹方法、装置及电子设备 | |
Yang et al. | Personalized exposure control using adaptive metering and reinforcement learning | |
EP3048563A1 (en) | Method and system for incremental manifold learning | |
KR102493492B1 (ko) | 초해상도 모델의 메타 러닝을 통한 빠른 적응 방법 및 장치 | |
CN116547694A (zh) | 用于对模糊图像去模糊的方法和系统 | |
JP2023553706A (ja) | 撮影モード決定方法、装置、電子機器、及び記憶媒体 | |
WO2023045627A1 (zh) | 图像超分方法、装置、设备及存储介质 | |
EP4040378A1 (en) | Burst image-based image restoration method and apparatus | |
CN112508801A (zh) | 图像处理方法及计算设备 | |
KR20200143815A (ko) | 인공지능 카메라 시스템, 인공지능 카메라 시스템에서의 영상 변환 방법, 및 컴퓨터 판독 가능 매체 | |
CN115641256B (zh) | 风格迁移模型的训练方法、视频风格迁移的方法以及装置 | |
JP7200030B2 (ja) | 学習装置、撮像装置、学習システム、ai情報提供装置、学習方法及び学習プログラム | |
Yang et al. | Spatial-temporal recurrent residual networks for video super-resolution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200826 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220105 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7026262 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |