JP2021515347A

JP2021515347A - ニューラルネットワークモデルのトレーニング、タイムラプス撮影ビデオの生成方法及び装置

Info

Publication number: JP2021515347A
Application number: JP2020568019A
Authority: JP
Inventors: ルゥオ，ウェンハン; マ，リン; リィウ，ウェイ
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2018-03-26
Filing date: 2019-03-01
Publication date: 2021-06-17
Anticipated expiration: 2039-03-01
Also published as: US20200293833A1; US12001959B2; US20220366193A1; WO2019184654A1; EP3779891A1; US11429817B2; CN110555527A; JP7026262B2; EP3779891A4; CN110363293A

Abstract

ニューラルネットワークモデルのトレーニング、タイムラプス撮影ビデオの生成方法及び装置である。前記タイムラプス撮影ビデオの生成方法は、指定画像を取得するステップと、指定画像に基づき、第１の所定フレーム数の指定画像が含まれる画像セットを生成するステップと、前記画像セットに基づき、予めトレーニングされたニューラルネットワークモデルにより画像セットに対してコンテンツモデリングとモーション状態モデリングを行うことで、ニューラルネットワークモデルによって出力されるタイムラプス撮影ビデオを取得するステップと、を含み、前記ニューラルネットワークモデルに、タイムラプス撮影ビデオに対してコンテンツモデリングを行うためのベーシックネットワークと、タイムラプス撮影ビデオのモーション状態に対してモデリングを行うための最適化ネットワークとが含まれ、前記ニューラルネットワークモデルは、トレーニングサンプルを取得して、トレーニングビデオ及びそれに対応する画像セットを含むトレーニングサンプルに基づきトレーニングすることで得られるものである。多段階の敵対的生成ネットワークによりタイムラプス撮影ビデオを継続的に最適化し、コンテンツのモデリング及びモーション状態のモデリングにより合理的な予測を保証して、タイムラプス撮影ビデオが粗いものから細かいものまで段階的に生成されることを実現する。

Description

本出願は、２０１８年０３月２６日に中国専利局に提出された、出願番号が２０１８１０２５３８４８.３であって、発明の名称が「ニューラルネットワークモデルのトレーニング、タイムラプス撮影ビデオの生成方法及び装置」である中国特許出願の優先権を主張するものであり、その全ての内容を本出願に参照により援用する。

本出願は、人工知能技術の分野に関し、特に、ニューラルネットワークモデルのトレーニング方法、タイムラプス撮影ビデオの生成方法及び対応する装置、システム、デバイス、記憶媒体、ならびに、コンピュータプログラムに関する。

タイムラプス撮影は、時間圧縮された撮影(Ｔｉｍｅ-ｌａｐｓｅｐｈｏｔｏｇｒａｐｈｙ)や時間圧縮された録画とも呼ばれ、時間を圧縮する撮影技術である。一連の写真を撮影し、後の段階では、写真をつなぎ合わせて、数分、数時間、さらに、数日又は数年のプロセスを短い時間に圧縮してビデオの形で再生することである。現在、タイムラプス撮影ビデオの生成方法はまだ学術研究段階にあり、主にニューラルネットワークモデルで実現され、しかし、この方法で生成されたビデオは、コンテンツがぼやけており、リアリティが低く、ユーザーのニーズを満たすことが難しいため、広く利用されていない。

これに鑑み、本出願の実施例は、ニューラルネットワークモデルのトレーニング方法、タイムラプス撮影ビデオの生成方法を提供し、それにより、高いリアリティを備えた鮮明で滑らかなタイムラプス撮影ビデオを生成して、ユーザーのニーズを満たすことができ、広い適用の見通しがある。本出願は、対応する装置、システム、デバイス、記憶媒体、及びコンピュータプログラムをさらに提供する。

上記の目的を実現するために、本出願の実施例は、以下の技術案を提供する。
サーバーに適用されるニューラルネットワークモデルのトレーニング方法であって、
トレーニングサンプルを取得するステップであって、前記トレーニングサンプルに、トレーニングビデオ及びそれに対応する画像セットが含まれ、前記画像セットに、第１の所定フレーム数の前記トレーニングビデオにおける最初のフレーム画像又は最後のフレーム画像が含まれるステップと、
前記トレーニングサンプルに基づきトレーニングすることにより、トレーニング終了条件を満たすニューラルネットワークモデルを取得するステップであって、前記ニューラルネットワークモデルに、タイムラプス撮影ビデオに対してコンテンツモデリングを行うためのベーシックネットワークと、タイムラプス撮影ビデオのモーション状態に対してモデリングを行うための最適化ネットワークとが含まれるステップと、
を含み、
前記ベーシックネットワークは、第１の所定フレーム数の同じ画像が含まれる画像セットを入力とし、ベーシックタイムラプス撮影ビデオを出力とする第１の敵対的生成ネットワークであり、
前記最適化ネットワークは、前記ベーシックネットワークの出力を入力とし、最適化されたタイムラプス撮影ビデオを出力とする第２の敵対的生成ネットワークである。

電子機器に適用されるタイムラプス撮影ビデオの生成方法であって、
指定画像を取得するステップと、
前記指定画像に基づき、第１の所定フレーム数の前記指定画像が含まれる画像セットを生成するステップと、
前記画像セットに基づき、予めトレーニングされたニューラルネットワークモデルにより前記画像セットに対してコンテンツモデリングとモーション状態モデリングを行うことで、前記ニューラルネットワークモデルによって出力されるタイムラプス撮影ビデオを取得するステップと、
を含み、
前記ニューラルネットワークモデルは、本出願に記載されたニューラルネットワークモデルのトレーニング方法でトレーニングすることで取得される。

ニューラルネットワークモデルのトレーニング装置であって、
トレーニングサンプルを取得するための取得モジュールであって、前記トレーニングサンプルトに、トレーニングビデオ及びそれに対応する画像セットが含まれ、前記画像セットに、第１の所定フレーム数の前記トレーニングビデオにおける最初のフレーム画像又は最後のフレーム画像が含まれる取得モジュールと、
前記トレーニングサンプルに基づきトレーニングすることにより、トレーニング終了条件を満たすニューラルネットワークモデルを取得するためのトレーニングモジュールであって、前記ニューラルネットワークモデルに、タイムラプス撮影ビデオに対してコンテンツモデリングを行うためのベーシックネットワークと、タイムラプス撮影ビデオのモーション状態に対してモデリングを行うための最適化ネットワークとが含まれるトレーニングモジュールと、
を含み、
前記ベーシックネットワークは、第１の所定フレーム数の同じ画像が含まれる画像セットを入力とし、ベーシックタイムラプス撮影ビデオを出力とする第１の敵対的生成ネットワークであり、前記最適化ネットワークは、前記ベーシックネットワークの出力を入力とし、最適化されたタイムラプス撮影ビデオを出力とする第２の敵対的生成ネットワークである。

タイムラプス撮影ビデオの生成装置であって、
指定画像を取得するための取得モジュールと、
前記指定画像に基づき、第１の所定フレーム数の前記指定画像が含まれる画像セットを生成するための第１の生成モジュールと、
前記画像セットに基づき、予めトレーニングされたニューラルネットワークモデルにより前記画像セットに対してコンテンツモデリングとモーション状態モデリングを行うことで、前記ニューラルネットワークモデルによって出力されるタイムラプス撮影ビデオを取得するための第２の生成モジュールと、
を含み、
前記ニューラルネットワークモデルは、本出願に記載されたニューラルネットワークモデルのトレーニング方法でトレーニングすることで取得される。

端末とサーバーとを含む、タイムラプス撮影ビデオの生成システムであって、
前記端末と前記サーバーとは、ネットワークを介して相互作用し、
前記サーバーは、前記端末に送信される指定画像を受信し、前記指定画像に基づき、第１の所定フレーム数の前記指定画像が含まれる画像セットを生成し、前記画像セットに基づき、予めトレーニングされたニューラルネットワークモデルにより前記画像セットに対してコンテンツモデリングとモーション状態モデリングを行うことで、前記ニューラルネットワークモデルによって出力されるタイムラプス撮影ビデオを取得し、前記タイムラプス撮影ビデオを前記端末に送信するために使用され、
前記ニューラルネットワークモデルは、本出願に記載されたニューラルネットワークモデルのトレーニング方法でトレーニングすることで取得される。

メモリとプロセッサとを含む電子機器であって、
前記メモリはコンピュータプログラムを記憶するために使用され、
前記プロセッサは、前記メモリ内のコンピュータプログラムを呼び出して実行して、本出願に記載されたニューラルネットワークモデルのトレーニング方法を実現するか、又は本出願に記載されたタイムラプス撮影ビデオの生成方法を実現するために使用される。

コンピュータプログラムが記憶されている記憶媒体であって、前記コンピュータプログラムは、プロセッサによって実行される場合に、上記のようなタイムラプス撮影ビデオを生成するためのニューラルネットワークモデルのトレーニング方法の各ステップ、及び／又は、上記のようなタイムラプス撮影ビデオの生成方法の各ステップを実現する。

コマンドを含むコンピュータプログラムであって、コンピュータで実行される場合に、本出願に記載されたニューラルネットワークモデルのトレーニング方法、又は、本出願に記載されたタイムラプス撮影ビデオの生成方法を前記コンピュータに実行させる。

上記の技術案から分かるように、従来技術と比べて、本出願は、デュアルネットワーク構造のモデルに基づいてタイムラプス撮影ビデオを生成する方法を提供し、その中、デュアルネットワーク構造に、具体的に、タイムラプス撮影ビデオに対してコンテンツモデリングを行うためのベーシックネットワークと、タイムラプス撮影ビデオのモーション状態に対してモデリングを行うための最適化ネットワークとが含まれ、ベーシックネットワークは、第１の所定フレーム数の指定フレーム画像が含まれるビデオを入力とし、ベーシックタイムラプス撮影ビデオを出力とする第１の敵対的生成ネットワークであり、最適化ネットワークは、前記ベーシックネットワークの出力を入力とし、タイムラプス撮影ビデオのモーション状態に対してモデリングを行うために使用され、最適化されたタイムラプス撮影ビデオを出力とする第２の敵対的生成ネットワークであり、複数のトレーニングビデオを取得した後に、トレーニングビデオに基づきトレーニングビデオに対応する画像セットを生成し、当該画像セットは第１の所定フレーム数の前記トレーニングビデオにおける最初のフレーム画像又は最後のフレーム画像を含み、当該トレーニングビデオ及びそれに対応する画像セットによって、ベーシックネットワーク及び最適化ネットワークからなるニューラルネットワークモデルをトレーニングし、トレーニング終了条件を満たしたら、当該ビデオをタイムラプス撮影ビデオの生成に使用することができる。

具体的に、指定画像を取得し、当該指定画像に基づき、第１の所定フレーム数の指定画像が含まれる指定画像セットを生成し、そして、予めトレーニングされたニューラルネットワークモデルにより前記指定画像セットに対してコンテンツモデリングとモーション状態モデリングを行って、前記ニューラルネットワークモデルによって出力されるタイムラプス撮影ビデオを取得する。当該方法は、多段階の敵対的生成ネットワークによりタイムラプス撮影ビデオを継続的に最適化し、コンテンツのモデリング及びモーション状態のモデリングにより未来フレーム又は履歴フレームの合理的な予測を保証して、タイムラプス撮影ビデオが粗いものから細かいものまで段階的に生成されることを実現する。当該方法は、コンテンツのリアリティと、モーション情報の合理性とを保持しているため、生成されるタイムラプス撮影ビデオは高いリアリティを有し、且つ、比較的自然である。一方で、当該方法で使用されるモデルはカスケードデュアルネットワーク構造であり、実現と簡素化が容易であり、クラウド又はオフラインのシナリオに適用できる。

本出願の実施例又は従来技術における技術案をより明確に説明するために、以下は、実施例又は従来技術の記述で使用する必要がある図面を簡単に説明し、明らかに、以下の記述の添付図面は本出願の実施例にすぎず、当業者にとって、創造的な努力なしに提供されたこれらの図面から他の図面を得ることができる。
本出願の実施例で提供されるタイムラプス撮影ビデオの生成方法のフローチャートである。本出願の実施例で提供されるニューラルネットワークモデルのトレーニング方法のフローチャートである。本出願の実施例で提供される他のニューラルネットワークモデルのトレーニング方法のフローチャートである。本出願の実施例で提供されるベーシックネットワークのトレーニング方法のフローチャートである。本出願の実施例で提供されるベーシックネットワークの構成図である。本出願の実施例で提供される最適化ネットワークのトレーニング方法のフローチャートである。本出願の実施例で提供される最適化ネットワークの構成図である。本出願の実施例で提供されるタイムラプス撮影ビデオの生成システムの構成図である。本出願の実施例で提供されるタイムラプス撮影ビデオの生成方法のシグナリングフローチャートである。本出願の実施例で提供されるタイムラプス撮影ビデオの生成装置の構成図である。本出願の実施例で提供されるニューラルネットワークモデルのトレーニング装置の構成図である。本出願の実施例で提供される他のニューラルネットワークモデルのトレーニング装置の構成図である。本出願の実施例で提供される電子機器のハードウェア構成図である。

以下に、本出願の実施例における図面と合わせて、本出願の実施例における技術案を明確且つ完全に説明し、明らかに、説明される実施例は、全ての実施例ではなく、本出願の一部の実施例にすぎない。本出願における実施例に基づいて、創造的な努力なしに当業者によって得られる他の全ての実施例は、本出願の保護範囲に属する。

本出願の上記の目的、特徴及び利点をより明らかに且つより理解し易くするために、本出願は、図面及び具体的な実施形態と合わせて以下でさらに詳しく説明される。

本出願の実施例は、電子機器に適用可能なタイムラプス撮影ビデオの生成方法を提供し、当該電子機器は、ローカルに位置する端末であってもよいし、クラウドのサーバーであってもよいし、端末及びサーバーで構成されるタイムラプス撮影ビデオの生成システムであってもよい。図１を参照し、図１は、本出願の実施例で提供されるタイムラプス撮影ビデオの生成方法のフローチャートである。図１に示すように、当該方法は、以下のことを含む。

ステップＳ１１において、指定画像を取得する。
当該方法が端末によって実現される場合に、指定画像を取得する実現方法が２つあり、１つの実現方法は、アルバムから写真を指定画像として選択することであり、具体的に、端末は、選択コマンドに応答して、アルバムにおける選択された写真を指定画像として取得することであり、１つの実現方法は、指定画像として画像をリアルタイムで撮影することであり、具体的に、端末は、撮影コマンドに応答して、撮影された写真を指定画像として取得することである。当該方法がサーバーによって実現される場合に、サーバーは、端末から送信されたタイムラプス撮影生成要求を受信し、当該タイムラプス撮影生成要求に指定画像が含まれ、サーバーは、前記タイムラプス撮影生成要求から前記指定画像を取得することができる。

ステップＳ１２において、前記指定画像に基づき、第１の所定フレーム数の前記指定画像が含まれる画像セットを生成する。
本実施例は、画像セットを生成する２つの方法を提供する。１つの実現方法は、前記指定画像の数が第１の所定フレーム数に達するまで前記指定画像をコピーし、次に、第１の所定フレーム数の前記指定画像に基づき画像セットを生成することであり、別の実現方法は、データソースから指定画像を繰り返して取得することであり、例えば、前記指定画像の数が第１の所定フレーム数に達するまで、指定画像である同じ画像を複数回取得し、次に、第１の所定フレーム数の前記指定画像に基づき画像セットを生成する。

任意選択で、前記第１の所定フレーム数は３２であってもよく、つまり、前記画像セットに３２枚の前記指定画像が含まれ、なお、本出願では、前記第１の所定フレーム数の具体的な数値について、限定されず、実際のニーズに応じて調整してもよく、第１の所定フレーム数の具体的な数値の変更は、本出願の保護範囲から逸脱しない。

ステップＳ１３において、前記画像セットに基づき、予めトレーニングされたニューラルネットワークモデルにより前記画像セットに対してコンテンツモデリングとモーション状態モデリングを行うことで、前記ニューラルネットワークモデルによって出力されるタイムラプス撮影ビデオを取得する。

前記ニューラルネットワークモデルは、ベーシックネットワークと最適化ネットワークを含む。ベーシックネットワークは、タイムラプス撮影ビデオに対してコンテンツモデリングを行うためのものであり、第１の所定フレーム数の指定画像が含まれる画像セットを入力とし、ベーシックタイムラプス撮影ビデオを出力とする敵対的生成ネットワークであり、記述の便宜上、第１の敵対的生成ネットワークと表記される。最適化ネットワークは、タイムラプス撮影ビデオのモーション状態に対してモデリングを行うためのものであり、前記ベーシックネットワークの出力を入力とし、最適化されたタイムラプス撮影ビデオを出力とする敵対的生成ネットワークであり、記述の便宜上、第２の敵対的生成ネットワークと表記される。

いわゆる敵対的生成ネットワークとは、２人用のゼロサムゲームの理論に基づいて実現されるネットワークである。当該ネットワークに、生成モデル(生成器とも呼ばれる)と、判別モデル(判別器とも呼ばれる)とが含まれ、生成モデルは、サンプルデータの分布をキャプチャし、特定の分布(例えば、均一分布や、ガウス分布など)に従うノイズを使用して、実際のトレーニングデータと類似するサンプルデータを生成し、判別モデルは、サンプルデータが実際のトレーニングデータ(生成されたデータではない)に由来する確率を推定するために使用されるバイナリ分類器であり、サンプルが実際のトレーニングデータに由来すると、大きな確率を出力し、さもなければ、小さな確率を出力する。なお、生成モデルは、実際のトレーニングデータと同じサンプルデータを生成して、判別モデルが区別できないようにすることを目的とし、判別モデルは、生成モデルによって生成されたサンプルデータを検出することを目的とする。

本実施例では、電子機器にニューラルネットワークモデルが配置されており、指定画像セットをニューラルネットワークモデルに入力し、当該ニューラルネットワークモデルのベーシックネットワークは、タイムラプス撮影ビデオに対してコンテンツモデリングを行ってベーシックタイムラプス撮影ビデオを生成し、次に、ベーシックネットワークによって出力されるベーシックタイムラプス撮影ビデオを最適化ネットワークに入力し、最適化ネットワークは、タイムラプス撮影ビデオのモーション状態に対してモデリングを行って、最適化されたタイムラプス撮影ビデオを出力し、当該最適化されたタイムラプス撮影ビデオは、最終的に出力されたタイムラプス撮影ビデオである。

なお、本実施例で提供されるタイムラプス撮影ビデオの生成方法で生成されるビデオは未来を表すビデオであってもよいし、過去を表すビデオであってもよく、主に使用するニューラルネットワークモデルにより決定され、モデルは未来フレームを予測して、順方向予測を実現すると、未来を表すビデオを生成し、モデルは履歴フレームを予測して、逆方向予測を実現すると、過去を表すビデオを生成する。

以下、理解の便宜上、簡単な例で説明する。ユーザーは、花の開花過程を表すタイムラプス撮影ビデオを生成したい場合に、花がつぼみである際の写真を指定画像として、当該指定画像をコピーして第１の所定フレーム数の指定画像を取得することで、画像セットを生成し、次に、画像セットを、未来フレームを予測できるニューラルネットワークモデルに入力してもよく、当該ニューラルネットワークモデルは、花がつぼみから満開まで徐々に咲くタイムラプスビデオを出力できる。

いくつかの可能な実施態様では、ユーザーは、花の開花過程を表すタイムラプス撮影ビデオを生成したい場合に、花が満開する際の写真を指定画像として、当該指定画像をコピーして第１の所定フレーム数の指定画像を取得することで、画像セットを生成し、次に、画像セットを、履歴フレームを予測できるニューラルネットワークモデルに入力してもよく、当該ニューラルネットワークモデルは、花が満開する前の履歴フレームを予測できるので、花がつぼみから満開まで徐々に咲くタイムラプスビデオを出力できる。

なお、ニューラルネットワークモデルのトレーニングプロセスについては、後述するので、ここで詳細に説明しない。

本出願の実施例はタイムラプス撮影ビデオの生成方法を提供し、当該方法は、予めトレーニングされたニューラルネットワークモデルを利用して、第１の所定フレーム数の指定画像が含まれる画像セットに対してコンテンツモデリング及びモーション状態モデリングを行うことで、タイムラプス撮影ビデオを生成することであり、当該方法は、多段階の敵対的生成ネットワークによりタイムラプス撮影ビデオを継続的に最適化し、コンテンツのモデリング及びモーション状態のモデリングにより未来のフレーム又は履歴フレームの合理的な予測を保証して、タイムラプス撮影ビデオが粗いものから細かいものまで段階的に生成されることを実現する。当該方法は、コンテンツのリアリティと、モーション情報の合理性とを保持しているため、生成されるタイムラプス撮影ビデオは高いリアリティを有し、且つ、比較的自然である。一方で、当該方法で使用されるモデルはカスケードデュアルネットワーク構造であるので、実現と簡素化が容易であり、クラウド又はオフラインのシナリオに適用できる。

具体的に、本出願の上記の実施例では、前記ステップＳ１３では、既に予めトレーニングされた、タイムラプス撮影ビデオを生成するためのニューラルネットワークモデルが使用され、当該タイムラプス撮影ビデオを生成するためのニューラルネットワークモデルは、事前にトレーニングされる必要があることは理解でき、以下、当該タイムラプス撮影ビデオを生成するためのニューラルネットワークモデルのトレーニングプロセスを説明する。

図２を参照して、図２は、本出願の実施例で提供されるニューラルネットワークモデルのトレーニング方法のフローチャートである。図２に示すように、当該方法は、以下のことを含む。

ステップＳ２１において、トレーニングサンプルを取得する。
前記トレーニングサンプルはトレーニングビデオ、及びそれに対応する画像セットを含み、前記画像セットは第１の所定フレーム数の前記トレーニングビデオにおける最初のフレーム画像又は最後のフレーム画像を含む。なお、ニューラルネットワークモデルをトレーニングする場合に、通常、バッチトレーニングサンプルが使用され、バッチトレーニングサンプルの画像セットに含まれる画像は全てトレーニングビデオにおける最初のフレーム画像であるか、又は、全てトレーニングビデオにおける最後のフレーム画像である。

その中、トレーニングビデオはタイムラプス撮影ビデオである。具体的に、予め取得した各タイムラプス撮影ビデオを前処理し、複数の適格なトレーニングビデオを生成し、複数の当該適格な独立し且つ重ならないトレーニングビデオを取得する。

任意選択で、キーワードを設定することで、大量のタイムラプス撮影ビデオを予めインターネット上でクロールすることができ、これらのクロールされたタイムラプス撮影ビデオは一般に比較的大きく、これらの大きなビデオを小さなビデオクリップに分割してもよく、このプロセスでは、例えば、画像が静止している、画像の黒い境界線が非常に大きい、画像が非常に暗い、又は画面にクイックズームイン／ズームアウトなどの操作がある小さなビデオクリップなどの不適切なトレーニングデータを削除する。これらの不適切なビデオクリップを削除した後に、残りのビデオクリップは、第１の所定フレーム数ごとに１つのトレーニングビデオを作成する形で、適格な、独立し且つ重ならないトレーニングビデオを得ることができる。例えば、１つのビデオクリップに１２８フレームが含まれ、第１の所定フレーム数が３２の場合に、当該ビデオクリップは、３２フレームごとに４つのトレーニングビデオを生成できる。なお、各トレーニングビデオに第１の所定フレーム数の画像が含まれ、前記第１の所定フレーム数は３２にすることができ、その大きさがトレーニングに比較的適している。もちろん、前記第１の所定フレーム数は、実際のニーズに応じて設置でき、本出願では、その具体的な数値は限定されず、その具体的な数値の変化は本出願の保護範囲から逸脱しない。

本実施例では、以下の方法でトレーニングサンプルを取得することができ、具体的に、まず、トレーニングビデオを取得し、次に、前記トレーニングビデオから最初のフレーム画像又は最後のフレーム画像を抽出して、前記トレーニングビデオに対応する画像セットを生成し、前記トレーニングビデオ、及びそれに対応する画像セットを、トレーニングサンプルとする。なお、前記トレーニングビデオから最初のフレーム画像又は最後のフレーム画像を抽出した後に、２つの方法でトレーニングビデオに対応する画像セットを生成することができる。１つの方法は、画像の数が第１の所定フレーム数に達するまで、抽出された画像をコピーし、上記の第１の所定フレーム数の画像に基づき画像セットを生成することである。別の方法は、複数回の抽出により、第１の所定フレーム数の最初のフレーム画像、又は第１の所定フレーム数の最後のフレーム画像を取得して、画像セットを生成することである。

ステップＳ２２において、前記トレーニングサンプルに基づきトレーニングすることで、トレーニング終了条件を満たすニューラルネットワークモデルを取得する。

前記ニューラルネットワークモデルは、タイムラプス撮影ビデオに対してコンテンツモデリングを行うためのベーシックネットワークと、タイムラプス撮影ビデオのモーション状態に対してモデリングを行うための最適化ネットワークとを含み、前記ベーシックネットワークは、第１の所定フレーム数の同じ画像が含まれる画像セットを入力とし、ベーシックタイムラプス撮影ビデオを出力とする第１の敵対的生成ネットワークであり、前記最適化ネットワークは、前記ベーシックネットワークの出力を入力とし、最適化されたタイムラプス撮影ビデオを出力とする第２の敵対的生成ネットワークである。

本実施例では、ベーシックネットワークと最適化ネットワークの両方は敵対的生成ネットワークであり、ベーシックネットワークは、第１の所定フレーム数の同じ画像が含まれる画像セットに基づいて、コンテンツモデリングを行うことにより、ベーシックタイムラプス撮影ビデオを生成することができ、これに基づいて、さらに、最適化ネットワークによりベーシックタイムラプス撮影ビデオに対してモーション状態モデリングを行ってもよく、それにより、継続的な最適化を実行して、より真実的で自然な、最適化されたタイムラプス撮影ビデオを生成する。

以下、前記ステップＳ２２にて前記トレーニングサンプルに基づきトレーニングすることにより、トレーニング終了条件を満たすニューラルネットワークモデルを取得するプロセスについて、詳細に説明する。図３を参照し、図３は本出願の実施例で提供される他のニューラルネットワークモデルのトレーニング方法のフローチャートである。図３に示すように、当該方法は、以下のことを含む。

ステップＳ３１において、前記トレーニングサンプルに基づきトレーニングすることにより、トレーニング終了条件を満たす第１の敵対的生成ネットワークを、ベーシックネットワークとして取得する。
トレーニングサンプルに、トレーニングビデオ及びトレーニングビデオに対応する画像セットが含まれ、ベーシックネットワークは、画像セットを入力とし、コンテンツモデリングを行うことでベーシックタイムラプス撮影ビデオを出力し、それは、生成されたベーシックタイムラプス撮影ビデオがトレーニングビデオに近づくことを目的とし、このようにして、生成されたビデオとトレーニングビデオとの類似度に基づいて第１の敵対的生成ネットワークのパラメータを調整でき、パラメータを継続的に調整することで、第１の敵対的生成ネットワークを最適化し、トレーニング終了条件を満たすと、当該第１の生成ネットワークを、ベーシックネットワークとして取得する。

なお、トレーニング終了条件は、実際のニーズに応じて設置でき、例えば、第１の敵対的生成ネットワークの損失関数が収束状態にある場合や、第１の敵対的生成ネットワークの損失関数がプリセット値よりも小さい場合がある。ベーシックネットワークのトレーニングプロセスついては、以下で詳細に説明し、ここで繰り返して説明しない。

ステップＳ３２において、前記トレーニングビデオに対応する画像セットに基づき、ベーシックネットワークを介して、前記ベーシックネットワークによって出力されるベーシックタイムラプス撮影ビデオを取得する。
ベーシックネットワークは、第１の所定フレーム数の同じ画像が含まれる画像セットを入力とし、ベーシックタイムラプス撮影ビデオを出力とし、トレーニングビデオに対応する画像セットをベーシックネットワークに入力することで、ベーシックネットワークによって出力されるベーシックタイムラプス撮影ビデオを取得できる。

ステップＳ３３において、前記ベーシックタイムラプス撮影ビデオと前記トレーニングビデオとに基づきトレーニングすることにより、トレーニング終了条件を満たす第２の敵対的生成ネットワークを、最適化ネットワークとして取得する。

最適化ネットワークは、ベーシックタイムラプス撮影ビデオをさらに最適化するために使用され、敵対的生成ネットワークのトレーニングにより取得できる。具体的な実現では、ベーシックタイムラプス撮影ビデオ及びトレーニングビデオをトレーニングサンプルとして、ベーシックタイムラプス撮影ビデオを入力とし、最適化されたタイムラプス撮影ビデオを出力とし、生成された最適化されたタイムラプス撮影ビデオがトレーニングビデオに近づくことを目的としてもよく、このようにして、生成された最適化されたタイムラプス撮影ビデオとトレーニングビデオとの類似度に基づいて第２の敵対的生成ネットワークのパラメータを調整でき、パラメータを継続的に調整することで、第２の敵対的生成ネットワークを最適化し、トレーニング終了条件を満たすと、当該第２の生成ネットワークを最適化ネットワークとする。

なお、トレーニング終了条件は、実際のニーズに応じて設置でき、例えば、第２の敵対的生成ネットワークの損失関数が収束状態にある場合や、第２の敵対的生成ネットワークの損失関数がプリセット値よりも小さい場合がある。ベーシックネットワークのトレーニングプロセスついては、以下で詳細に説明し、ここで繰り返して説明しない。ベーシックネットワークと最適化ネットワークとがトレーニングされた後に、ベーシックネットワークと最適化ネットワークとをカスケードして、タイムラプス撮影ビデオを生成するニューラルネットワークモデルとなる。

以下、前記ステップＳ３１におけるベーシックネットワークのトレーニングプロセスについて詳細に説明する。図４を参照して、図４は、本出願の実施例で提供されるベーシックネットワークのトレーニング方法のフローチャートである。図４に示すように、当該方法は、以下のことを含む。

ステップＳ４１において、前記画像セットを第１の生成器に入力することで、前記第１の生成ネットワークによって出力されるベーシックタイムラプス撮影ビデオを取得する。
この実施例では、ベーシックネットワークは、第１の生成器と第１の判別器とを含み、第１の生成器は、ベーシックタイムラプス撮影ビデオを生成するために使用され、第１の判別器は、ベーシックタイムラプス撮影ビデオが真実のビデオであるかどうかを判別するために使用され、第１の判別器の判別結果が真実のビデオである場合に、第１の生成器が生成するベーシックタイムラプス撮影ビデオは高いリアリティを有し、且つ比較的自然であることを示す。

第１の生成器は、エンコーダとデコーダで構成されてもよい。具体的な実現では、エンコーダは、指定数の畳み込み層を含んでもよく、デコーダは指定数の逆畳み込み層を含んでもよく、このように、エンコーダは全体として対称構造になる。なお、指定数は、実際のニーズに応じて設置でき、一例として、６であってもよい。各畳み込み層と、それと対称となる逆畳み込み層とはジャンパーで接続され、このようにして、エンコーダの特徴を良く利用することができる。ベーシックネットワークの第１の生成器を通じて、入力される元の画像と同じ解像度のビデオフレームを出力して取得する。

第１の判別器は、第１の生成器が生成したビデオ(即ち、予測ビデオ)と、上記のトレーニングビデオ(即ち、真実のビデオ)とをそれぞれ判別して、第１の生成器が真実のビデオにより近いビデオを生成することを保証するようにするために使用され、当該判別器は、出力層が１つのバイナリ分類の層であることを除いて、他の部分は第１の生成器におけるエンコーダと同じ構造を有する。なお、第１の判別器における畳み込み層の数は、実際のニーズに応じて調整することができ、本出願では、これを限定しない。

図５を参照して、図５は、本出願の実施例で提供されるベーシックネットワークの構成図である。図５に示すように、当該ベーシックネットワークは、第１の生成器５１と、第１の判別器５２とを含み、ｘは、最初のフレーム画像又は最後のフレーム画像を示し、Ｘは、最初のフレーム画像で形成される画像セット又は最後のフレーム画像で形成される画像セットを示し、Ｙは、トレーニングビデオを示し、Ｙ１は、第１の生成器によって出力されるベーシックタイムラプス撮影ビデオを示す。

ステップＳ４２において、前記ベーシックタイムラプス撮影ビデオと、前記画像セットに対応するトレーニングビデオとを、前記第１の判別器に入力し、第１の敵対的生成ネットワークの損失関数によって第１の敵対的生成ネットワークの損失を算出する。

本実施例では、生成器が高いリアリティを有するビデオを生成することを保証するために、１つの判別器、即ち、第１の判別器を採用して、生成器によって生成されるビデオと真実のビデオとをそれぞれ判別する。第１の判別器は、第１の生成器におけるエンコーダと同様の構造を有し、主な違いは、その出力層がバイナリ分類層であることであり、第１の生成器によって出力されるベーシックタイムラプス撮影ビデオと、トレーニングビデオとを、第１の判別器に入力し、第１の判別器は、ベーシックタイムラプス撮影ビデオと、トレーニングビデオとに基づき第１の敵対的生成ネットワークの損失を算出する。

この実施例は、ネットワークパラメータを調整して第１の敵対的生成ネットワークの損失を低減することにより、ベーシックネットワークのトレーニングを実現することである。なお、第１の敵対的生成ネットワークの損失は、少なくとも敵対損失を含み、当該敵対損失は、次の式に基づいて算出されることができる。

式（１）で、Ｌ_ａｄｖは敵対損失を示し、Ｅは期待値を示し、Ｄ_１は第１の生成器に対応する関数を示し、Ｇ_１は第１の判別器に対応する関数を示し、Ｘは画像セットに対応する４次元行列を示し、Ｙは(前記画像セットに対応する)トレーニングビデオに対応する４次元行列を示し、その中、前記４次元行列の４つの次元はそれぞれ、画像の長さ、幅、チャネル数(画像のチャネル数を指し、画像がＲＧＢカラーモードであると、チャネル数は３である)、及び画像のフレーム数である。

式（１）で、

は、第１の生成器の敵対損失を算出する場合に、第１の判別器の関数Ｄ_１が定数(即ち、固定値)をとり、第１の生成器の関数Ｇ_１が最大値をとり、第１の判別器の敵対損失を算出する場合に、第１の生成器の関数Ｇ_１が定数(即ち、固定値)をとり、第１の判別器に対応する関数Ｄ_１が最大値をとることを示す。

また、第１の生成器によって生成されるビデオのコンテンツが十分に真実であることを保証するために、Ｌ１ノルムに基づくコンテンツ損失関数も次のように設置される。

式（２）で、Ｌ_ｃｏｎ（Ｇ_１）はコンテンツ損失を示し、Ｇ_１は第１の判別器に対応する関数を示し、Ｘは画像セットに対応する４次元行列を示し、Ｙは(前記画像セットに対応する)トレーニングビデオに対応する４次元行列を示し、|| ||_ｌはＬ１ノルムを求めることを示す。

つまり、第１の敵対的生成ネットワークの損失は、敵対損失とＬ１ノルムに基づくコンテンツ損失との合計であってもよい。

ステップＳ４３において、前記第１の敵対的生成ネットワークの損失に基づいて、前記第１の生成器及び前記第１の判別器のパラメータをそれぞれ更新する。
具体的に、前記第１の敵対的生成ネットワークの損失によって、各層の勾配を算出し、さらに、前記第１の生成器及び前記第１の判別器のパラメータ(例えば、重み、オフセット量など)を更新する。第１の生成器及び第１の判別器のパラメータを継続的に更新することで、第１の敵対的生成ネットワークのトレーニングを実現し、例えば、第１の敵対的生成ネットワークの損失が収束しているか、又はプリセット値よりも小さい場合などのトレーニング終了条件が満たされた場合、第１の敵対的生成ネットワークを、ベーシックネットワークとして決定することができる。

以下、前記ステップＳ３３における最適化ネットワークのトレーニングプロセスについて詳細に説明する。図６を参照して、図６は、本出願の実施例で提供される最適化ネットワークのトレーニング方法のフローチャートである。図６に示すように、当該方法は、以下のことを含む。

ステップＳ６１において、前記ベーシックタイムラプス撮影ビデオに基づき、前記第２の敵対的生成ネットワークにおける第２の生成器により、最適化されたタイムラプス撮影ビデオを取得する。
最適化ネットワークは、第２の生成器と第２の判別器とを含み、その中、第２の生成器は、ベーシックタイムラプス撮影ビデオに基づきモーション情報モデリングを行うことで、最適化されたタイムラプス撮影ビデオを取得するために使用され、第２の判別器は、ベーシックタイムラプス撮影ビデオが真実のビデオであるかどうかを判断するために使用され、第２の判別器の判別結果が真実のビデオであると、第２の生成器によって生成されたベーシックタイムラプス撮影ビデオが高いリアリティを有し、且つ比較的自然であることを示す。

ベーシックネットワークと同様に、最適化ネットワークにおける第２の生成器はエンコーダとデコーダとを含み、エンコーダは、Ｍ個の畳み込み層から構成され、デコーダはＭ個の逆畳み込み層から構成され、エンコーダは全体として対称構造になってもよい。その中、Ｍは正の整数である。また、畳み込み層と、それと対称となる逆畳み込み層とを選択的に指定してジャンパーで接続することができ、このようにして、エンコーダの特徴を良く利用することができ、具体的に、どの(又は、どちらの)畳み込み層と、それと対称となる逆畳み込み層を指定してジャンパーで接続するかについて、一定量の実験を行った後、実験結果に従って最良のものを選択して決定してもよく、本出願では、それを限定しない。

なお、畳み込み層の数と逆畳み込み層の数(即ち、Ｍ)、及び各層のパラメータ配置は、実際のニーズに応じて調整することができ、例えば、Ｍは６に等しくなってもよく、本出願では、入力画像と出力画像の解像度とが一致している限り、これを限定しない。つまり、最適化ネットワークの第２の生成器において、畳み込み層と逆畳み込み層の数の増減は、本出願の保護範囲から逸脱しない。比較すると、最適化ネットワークの第２の生成ネットワークは、ベーシックネットワークの第１の生成ネットワークと同様の構造を有する(いくつかのジャンパー接続が削除されることを除いて、残りの構造は同じである)ことが分かる。

最適化ネットワークの第２の判別器は、ベーシックネットワークの第１の判別器と同じ構造を有するので、ここで繰り返して説明しない。

図７を参照し、図７は、本出願の実施例で提供される最適化ネットワークの構成図である。図７に示すように、当該最適化ネットワークは、第２の生成器７１と第２の判別器７２とを含み、Ｙ１'は前記トレーニング後のベーシックネットワークによって出力されるベーシックタイムラプス撮影ビデオを示し、Ｙはトレーニングビデオを示し、Ｙ２は第２の生成器によって出力される最適化されたタイムラプス撮影ビデオを示す。

ステップＳ６２において、前記最適化されたタイムラプス撮影ビデオに基づき、前記第２の敵対的生成ネットワークにおける第２の判別器により、判別結果を取得する。
第１の判別器と同様に、第２の判別器は、最適化されたタイムラプス撮影ビデオとトレーニングビデオとに基づき、第２の生成器によって生成される最適化されたタイムラプス撮影ビデオのリアリティを判別することにより、判別の結果を取得することができ、最適化されたタイムラプス撮影ビデオとトレーニングビデオとの類似性が事前設定されたレベルに達した場合、最適化されたタイムラプス撮影ビデオが真実のビデオであると判別し、即ち、当該最適化されたタイムラプス撮影ビデオは高いリアリティを有する。

ステップＳ６３において、前記最適化されたタイムラプス撮影ビデオ、前記ベーシックタイムラプス撮影ビデオ、前記トレーニングビデオ、及び前記判別結果に基づき、第２の敵対的生成ネットワークの損失を生成する。
ベーシックネットワークと同様に、最適化ネットワークは、パラメータを調整して第２の敵対的生成ネットワークの損失を減少することでモデルトレーニングを実現することである。前記損失は少なくともランキング損失を含み、前記ランキング損失は、前記最適化されたタイムラプス撮影ビデオ、前記ベーシックタイムラプス撮影ビデオ及び前記トレーニングビデオのそれぞれに対応するモーション特徴に基づき決定される。

任意選択で、前記第２の敵対的生成ネットワークの損失は、前記第２の敵対的生成ネットワークのコンテンツ損失、敵対損失、及び前記ランキング損失に基づき決定されてもよく、これに基づいて、いくつかの可能な実現方法において、前記最適化ネットワークの損失関数は、プリセット定数とランキング損失関数との積、敵対損失関数、及びＬ１ノルムに基づくコンテンツ損失関数との合計であり得る。

なお、前記最適化ネットワークの損失関数の表現式は次のようになる。

式（４）で、Ｌ_{ｓｔａｇｅ１}は最適化ネットワークの損失を示し、Ｌ_ａｄｖは敵対損失を示し、Ｌ_ｃｏｎ[即ち、Ｌ_ｃｏｎ（Ｇ_２）]はコンテンツ損失を示し、λはプリセット定数を示し、Ｌ_ｒａｎｋは（合計の）ランキング損失を示し、前記敵対損失関数、Ｌ１ノルムに基づくコンテンツ損失関数について、上記で説明されたが、ここで再度説明しない。以下、ランキング損失関数に焦点を当てている。

いくつかの可能な実施態様では、前記第２の敵対的生成ネットワークにおける第２の判別器により、前記最適化されたタイムラプス撮影ビデオの特徴、前記ベーシックタイムラプス撮影ビデオ及び前記トレーニングビデオのそれぞれの特徴をそれぞれ抽出し、前記特徴に基づき、前記最適化されたタイムラプス撮影ビデオ、前記ベーシックタイムラプス撮影ビデオ及び前記トレーニングビデオのそれぞれに対応するグラムｇｒａｍ行列をそれぞれ算出し、当該ｇｒａｍ行列は、ビデオフレーム間のモーション状態を表すために使用され、そして、前記最適化されたタイムラプス撮影ビデオ、前記ベーシックタイムラプス撮影ビデオ及び前記トレーニングビデオのそれぞれに対応するグラムｇｒａｍ行列に基づき、前記ランキング損失を決定できる。なお、前記ランキング損失関数は、次のようになる。

式（４）で、Ｌ_ｒａｎｋ（Ｙ_１，Ｙ，Ｙ_２）は（合計の）ランキング損失を示し、Ｌ_ｒａｎｋ（Ｙ_１，Ｙ，Ｙ_２；ｌ）は単一層(即ち、単一の特徴層)のランキング損失関数を示し、ｌは第２の判別器における特徴層のシーケンス番号を示し、Ｙ_１はベーシックタイムラプス撮影ビデオに対応する４次元行列を示し、Ｙは(前記画像セットに対応する)トレーニングビデオに対応する４次元行列を示し、Ｙ_２は最適化されたタイムラプス撮影ビデオに対応する４次元行列を示し、Σ_ｌは合計を求めることを示す。任意選択で、ｌ(即ち、どの特徴層が具体的に選択されるか)は、一定量の実験を行った後に、実験結果に基づき最良のものを選択することによって決定されてもよい。

任意選択で、単一層のランキング損失関数の表現式は、次のようになる。

式（５）で、ｇ（Ｙ；ｌ）はｌ層から抽出されたｇｒａｍ(グラム)行列を示す。

ステップＳ６４において、トレーニング終了条件を満たす第２の敵対的生成ネットワークが最適化ネットワークとして取得されるまで、前記敵対的生成ネットワークの損失に基づき、前記第２の敵対的生成ネットワークのネットワークパラメータを最適化する。

具体的に、前記最適化ネットワークの損失によって、各層の勾配を算出し、さらに、前記第２の生成器及び前記第２の判別器のパラメータ(例えば、重み、オフセット量など)を更新する。第２の生成器及び第２の判別器のパラメータを継続的に更新することで、第２の敵対的生成ネットワークのトレーニングを実現し、例えば、第２の敵対的生成ネットワークの損失が収束しているか、又はプリセット値よりも小さい場合などの、トレーニング終了条件が満たされた場合に、第２の敵対的生成ネットワークを最適化ネットワークとして決定することができる。

上記の各実施例において、第１の生成器と第１の判別器は交互にトレーニングされ、第１の生成器をトレーニングする際に、第１の判別器は固定され、第１の判別器をトレーニングする際に、第１の生成器は固定され、同様に、第２の生成器と第２の判別器は交互にトレーニングされ、第２の生成器をトレーニングする際に、第２の判別器は固定され、このようにランキング損失を最小化させて、第２の生成器によって出力される最適化されたタイムラプス撮影ビデオが真実のビデオにより近く(即ち、第２の生成器によって生成されるビデオが真実のビデオとより似ている)、且つ、第２の生成器に入力されるビデオ（つまり、収束しているようにトレーニングされた基本ネットワークによって出力されるビデオ）からはるかに離れる（つまり、差別化を増やす）ことを保証する。第２の判別器をトレーニングする際に、第２の生成器が固定され、ランキング損失を最大化させて、第２の生成器によって出力される最適化されたタイムラプス撮影ビデオと真実のビデオとの違いを拡大する。これは、その後、最適化ネットワークをさらにトレーニングすることに役立つ。

本実施形態によるトレーニングを通じて得られた最適化ネットワークは、収束しているようにトレーニングされた基本ネットワークによって出力されるビデオをさらに最適化することができ、これは、主に、モーション情報を最適化できることに反映される。

以上、本出願の実施例で提供されるタイムラプス撮影ビデオの生成方法、ニューラルネットワークモデルのトレーニング方法の具体的な実現方法であり、それに対応して、本出願では、さらに、タイムラプス撮影ビデオの生成システムを提供する。図８を参照し、図８は、本出願の実施例で提供されるタイムラプス撮影ビデオの生成システムの構成図である。図８に示すように、当該システムは、端末８１とサーバー８２とを含み、前記端末８１と前記サーバー８２とは、ネットワークを介して相互作用する。

前記サーバー８２は、前記端末から送信された指定画像を受信し、前記指定画像に基づき、第１の所定フレーム数の前記指定画像が含まれる画像セットを生成し、前記画像セットに基づき、予めトレーニングされたニューラルネットワークモデルにより前記画像セットに対してコンテンツモデリングとモーション状態モデリングを行うことで、前記ニューラルネットワークモデルによって出力されるタイムラプス撮影ビデオを取得し、前記タイムラプス撮影ビデオを前記端末に送信するために使用され、前記ニューラルネットワークモデルは、上記のニューラルネットワークモデルのトレーニング方法でトレーニングすることで取得される。

前記サーバー８２の動作はまた、上記のタイムラプス撮影ビデオを生成するためのニューラルネットワークモデルのトレーニングプロセスの各ステップをさらに含み得ることが理解できる。

任意選択で、前記端末８１は、スマートフォンなどのモバイルスマートデバイス８１１や、パソコンなどのローカルコンピュータデバイス８１２であってもよい。

本出願の実施例で提供される技術案によれば、ユーザーは、ローカル端末で１枚の指定画像をアップロードするだけでよく、リモートサーバーは、この指定画像に基づいて、タイムラプス撮影ビデオを生成するためのニューラルネットワークモデルにより、予測されたタイムラプス撮影ビデオを出力し、ローカル端末に送信することができ、これにより、ユーザーが１つのタイムラプス撮影ビデオを容易に作成できると便利であり、ユーザーエクスペリエンスを効果的に向上させることができる。

同時に、当該技術案は、ローカル端末が前記のタイムラプス撮影ビデオを生成するためのニューラルネットワークモデルを実行する必要がないので、ローカル端末の実行リソースを占有することなく１つのタイムラプス撮影ビデオを作成でき、これにより、ローカル端末の実行リソースを効果的に節約することができる。

本出願の実施例で提供されるタイムラプス撮影ビデオの生成システムに対応して、本出願では、タイムラプス撮影ビデオの生成方法のシグナリング流れを説明する。図９を参照し、図９は、本出願の実施例で提供されるタイムラプス撮影ビデオの生成方法のシグナリングフローチャートであり、図９に示すように、当該シグナリング流れは、以下のことを含む。

ステップＳ９１において、ローカル端末は、指定画像をリモートサーバーに送信する。

ステップＳ９２において、リモートサーバーは、前記指定画像をコピーして、第１の所定フレーム数の前記指定画像が含まれる画像セットを生成する。

ステップＳ９３において、リモートサーバーは、前記画像セットを、タイムラプス撮影ビデオを生成するためのニューラルネットワークモデルに入力する。

ステップＳ９４において、前記ニューラルネットワークモデルにより、画像セットにおける指定画像のコンテンツを再構築し、タイムラプス撮影ビデオを出力する。

その中、指定画像が最初のフレーム画像である場合に、その後の複数のフレーム画像に対してコンテンツモデリングを行って、画像におけるコンテンツを再構築してもよく、指定画像が最後のフレーム画像である場合に、その前の複数のフレーム画像に対してコンテンツモデリングを行って、画像におけるコンテンツを再構築してもよく、これにより、タイムラプス撮影ビデオを生成する。ステップＳ９５において、リモートサーバーは、前記出力されたタイムラプス撮影ビデオをローカル端末に送信する。

当該方法は、多段階の敵対的生成ネットワークによりタイムラプス撮影ビデオを継続的に最適化し、コンテンツのモデリング及びモーション状態のモデリングにより、未来フレーム又は履歴フレームの合理的な予測を保証することで、タイムラプス撮影ビデオが粗いものから細かいものまで段階的に生成されることを実現する。当該方法は、コンテンツのリアリティとモーション情報の合理性とを保持しているため、生成されるタイムラプス撮影ビデオが高いリアリティを有し、且つ比較的自然である。

同時に、当該技術案は、ローカル端末が前記のタイムラプス撮影ビデオを生成するためのニューラルネットワークモデルを実行する必要がないので、ローカル端末の実行リソースを占有することなく１つのタイムラプス撮影ビデオを作成することができ、これにより、ローカル端末の実行リソースを効果的に節約することができる。

また、なお、前記のタイムラプス撮影ビデオを生成するためのニューラルネットワークモデルのトレーニングプロセスに必要なシステムリソースは比較的大きいため、好ましくは、リモートサーバー側で前記のタイムラプス撮影ビデオを生成するためのニューラルネットワークモデルのトレーニングプロセスを実行する。

本出願で提供される技術案をより完全に説明するために、本出願の実施例で提供されるタイムラプス撮影ビデオの生成方法に対応して、本出願では、タイムラプス撮影ビデオの生成装置を開示する。

図１０を参照して、図１０は、本出願の実施例で提供されるタイムラプス撮影ビデオの生成装置の構成図である。当該装置は、ローカル端末、又は、タイムラプス撮影ビデオの生成システムにおけるリモートサーバー側に適用でき、図１０に示すように、当該装置１０００は、
指定画像を取得するための取得モジュール１０１０と、
前記指定画像に基づき、第１の所定フレーム数の前記指定画像が含まれる画像セットを生成するための第１の生成モジュール１０２０と、
前記画像セットに基づき、予めトレーニングされたニューラルネットワークモデルにより前記画像セットに対してコンテンツモデリングとモーション状態モデリングを行うことで、前記ニューラルネットワークモデルによって出力されるタイムラプス撮影ビデオを取得するための第２の生成モジュール１０３０と、
を含み、
前記ニューラルネットワークモデルは、上記のニューラルネットワークモデルのトレーニング方法でトレーニングすることで取得される。

任意選択で、前記電子機器は端末装置であり、前記端末装置に前記ニューラルネットワークモデルが配置されており、前記取得モジュール１０１０は、具体的に、
選択コマンドに応答して、アルバムにおける選択された写真を、指定画像として取得するか、又は、
撮影コマンドに応答して、撮影された写真を、指定画像として取得するために使用される。

任意選択で、前記電子機器はサーバーであり、前記取得モジュール１０１０は、具体的に、
端末装置から送信されたタイムラプス撮影生成要求を受信し、前記タイムラプス撮影生成要求に指定画像が含まれ、
前記タイムラプス撮影生成要求から前記指定画像を取得するために使用される。

本出願の実施例で提供されるタイムラプス撮影ビデオの生成装置は、まず、指定画像を取得し、当該指定画像に基づき、第１の所定フレーム数の指定画像が含まれる指定画像セットを生成し、次に、予めトレーニングされたニューラルネットワークモデルにより、前記指定画像セットに対してコンテンツモデリングとモーション状態モデリングを行うことで、前記ニューラルネットワークモデルによって出力されるタイムラプス撮影ビデオを取得する。当該装置は、多段階の敵対的生成ネットワークによりタイムラプス撮影ビデオを継続的に最適化し、コンテンツのモデリング及びモーション状態のモデリングにより未来フレーム又は履歴フレームの合理的な予測を保証して、タイムラプス撮影ビデオが粗いものから細かいものまで段階的に生成されることを実現する。当該装置は、コンテンツのリアリティとモーション情報の合理性とを保持しているため、生成されるタイムラプス撮影ビデオは高いリアリティを有し、且つ比較的自然である。一方で、当該装置で使用されるモデルはカスケードデュアルネットワーク構造であるので、実現と簡素化が容易であり、クラウド又はオフラインのシナリオに適用できる。

任意選択で、図１１を参照して、図１１は、本出願の実施例で提供されるニューラルネットワークモデルのトレーニング装置の構成図である。図１１に示すように、当該装置１１００は、
トレーニングサンプルを取得するための取得モジュール１１１０であって、前記トレーニングサンプルトに、トレーニングビデオ及びそれに対応する画像セットが含まれ、前記画像セットに、第１の所定フレーム数の前記トレーニングビデオにおける最初のフレーム画像、又は最後のフレーム画像が含まれる取得モジュール１１１０と、
前記トレーニングサンプルに基づきトレーニングすることにより、トレーニング終了条件を満たすニューラルネットワークモデルを取得するためのトレーニングモジュール１１２０であって、前記ニューラルネットワークモデルに、タイムラプス撮影ビデオに対してコンテンツモデリングを行うためのベーシックネットワークと、タイムラプス撮影ビデオのモーション状態に対してモデリングを行うための最適化ネットワークとが含まれるトレーニングモジュール１１２０と、
を含み、
前記ベーシックネットワークは、第１の所定フレーム数の同じ画像が含まれる画像セットを入力とし、ベーシックタイムラプス撮影ビデオを出力とする第１の敵対的生成ネットワークであり、前記最適化ネットワークは、前記ベーシックネットワークの出力を入力とし、最適化されたタイムラプス撮影ビデオを出力とする第２の敵対的生成ネットワークである。

任意選択で、図１２を参照して、図１２は、本出願の実施例で提供される他のニューラルネットワークモデルのトレーニング装置の構成図である。図１２に示すように、当該装置１１００は、図１１及びそれに対応する実施例で記載された前記の各モジュールを含むことに加えて、前記トレーニングモジュール１１２０は、具体的に、
前記トレーニングサンプルに基づきトレーニングすることにより、トレーニング終了条件を満たす第１の敵対的生成ネットワークを、ベーシックネットワークとして取得するための第１のトレーニングサブモジュール１１２１と、
前記トレーニングビデオに対応する画像セットに基づき、ベーシックネットワークにより、前記ベーシックネットワークによって出力されるベーシックタイムラプス撮影ビデオを取得するための取得サブモジュール１１２２と、
前記ベーシックタイムラプス撮影ビデオと前記トレーニングビデオとに基づきトレーニングすることにより、トレーニング終了条件を満たす第２の敵対的生成ネットワークを、最適化ネットワークとして取得する第２のトレーニングサブモジュール１１２３と、を含む。

任意選択で、前記第２のトレーニングサブモジュール１１２３は、具体的に、
前記ベーシックタイムラプス撮影ビデオに基づき、前記第２の敵対的生成ネットワークにおける第２の生成器により、最適化されたタイムラプス撮影ビデオを取得し、
前記最適化されたタイムラプス撮影ビデオに基づき、前記第２の敵対的生成ネットワークにおける第２の判別器により、判別結果を取得し、
前記最適化されたタイムラプス撮影ビデオ、前記ベーシックタイムラプス撮影ビデオ、前記トレーニングビデオ、及び前記判別結果に基づき、第２の敵対的生成ネットワークの損失を生成し、前記損失に少なくともランキング損失が含まれ、前記ランキング損失が、前記最適化されたタイムラプス撮影ビデオ、前記ベーシックタイムラプス撮影ビデオ、及び前記トレーニングビデオのそれぞれに対応するモーション特徴に基づき決定され、
トレーニング終了条件を満たす第２の敵対的生成ネットワークが最適化ネットワークとして取得されるまで、前記敵対的生成ネットワークの損失に基づき、前記第２の敵対的生成ネットワークのネットワークパラメータを最適化する、ために使用される。

任意選択で、前記装置は、以下の方法で前記第２の敵対的生成ネットワークの損失を決定するための決定モジュールをさらに含み、
前記第２の敵対的生成ネットワークにおける第２の判別器により、前記最適化されたタイムラプス撮影ビデオの特徴、前記ベーシックタイムラプス撮影ビデオ及び前記トレーニングビデオのそれぞれの特徴をそれぞれ抽出し、前記特徴に基づき、前記最適化されたタイムラプス撮影ビデオ、前記ベーシックタイムラプス撮影ビデオ、及び前記トレーニングビデオのそれぞれに対応するグラムｇｒａｍ行列をそれぞれ算出し、前記ｇｒａｍ行列は、ビデオフレーム間のモーション状態を表すために使用され、
前記最適化されたタイムラプス撮影ビデオ、前記ベーシックタイムラプス撮影ビデオ、及び前記トレーニングビデオのそれぞれに対応するグラムｇｒａｍ行列に基づき、前記ランキング損失を決定し、
前記第２の敵対的生成ネットワークのコンテンツ損失、敵対損失、及び前記ランキング損失に基づき、前記第２の敵対的生成ネットワークの損失を決定する。

任意選択で、前記取得モジュール１１１０は、具体的に、
トレーニングビデオを取得し、
前記トレーニングビデオから、最初のフレーム画像又は最後のフレーム画像を抽出し、
前記最初のフレーム画像又は最後のフレーム画像をコピーして、前記トレーニングビデオに対応する画像セットを生成し、
前記トレーニングビデオ、及びそれに対応する画像セットを、トレーニングサンプルとする、ために使用される。

以上から分かるように、本出願は、デュアルネットワーク構造に基づくニューラルネットワークモデル生成方法を提供し、その中、デュアルネットワーク構造は、具体的に、タイムラプス撮影ビデオに対してコンテンツモデリングを行うためのベーシックネットワークと、タイムラプス撮影ビデオのモーション状態に対してモデリングを行うための最適化ネットワークとを含み、その中、ベーシックネットワークは、第１の所定フレーム数の指定フレーム画像が含まれるビデオを入力とし、ベーシックタイムラプス撮影ビデオを出力とする第１の敵対的生成ネットワークであり、最適化ネットワークは、前記ベーシックネットワークの出力を入力とし、タイムラプス撮影ビデオのモーション状態に対してモデリングを行うために使用され、最適化されたタイムラプス撮影ビデオを出力とする第２の敵対的生成ネットワークであり、複数のトレーニングビデオを取得した後に、トレーニングビデオに基づきトレーニングビデオに対応する画像セットを生成し、当該画像セットは第１の所定フレーム数の前記トレーニングビデオにおける最初のフレーム画像又は最後のフレーム画像を含み、当該トレーニングビデオ、及びそれに対応する画像セットによって、ベーシックネットワーク及び最適化ネットワークで構成されるニューラルネットワークモデルをトレーニングし、トレーニング終了条件を満たした場合、当該ビデオをタイムラプス撮影ビデオの生成に使用できる。この装置がトレーニングするニューラルネットワークモデルは、多段階の敵対的生成ネットワークによりタイムラプス撮影ビデオを継続的に最適化し、コンテンツのモデリング及びモーション状態のモデリングにより、未来フレーム又は履歴フレームの合理的な予測を保証して、タイムラプス撮影ビデオが粗いものから細かいものまで段階的に生成されることを実現する。当該方法は、コンテンツのリアリティと、モーション情報の合理性とを保持しているため、生成されるタイムラプス撮影ビデオは高いリアリティを有し、且つ比較的自然である。一方で、この装置がトレーニングするニューラルネットワークモデルはカスケードデュアルネットワーク構造であるので、実現と簡素化が容易であり、クラウド又はオフラインのシナリオに適用できる。

本出願で提供される技術案をより完全に説明するために、本出願の実施例で提供されるタイムラプス撮影ビデオの生成方法に対応して、本出願では、電子機器を開示し、当該電子機器は、ローカル端末(例えば、ローカルコンピュータ、モバイル端末など)や、リモートサーバーなどであってもよい。

図１３を参照し、図１３は、本出願の実施例で提供される電子機器のハードウェア構成図である。図１３に示すように、当該電子機器は、プロセッサ１、通信インターフェース２、メモリ３、及び通信バス４を含む。
その中、プロセッサ１、通信インターフェース２、メモリ３は、通信バス４を介して相互に通信し、
プロセッサ１は、前記メモリに記憶されているプログラムを呼び出して実行するために使用され、
メモリ３は、プログラムを記憶するために使用される。
前記プログラムはプログラムコードを含んでもよく、前記プログラムコードはコンピュータ操作コマンドを含み、本出願の実施例では、プログラムは、タイムラプス撮影ビデオを生成するためのニューラルネットワークモデルのトレーニング方法に対応するプログラム、及び前記タイムラプス撮影ビデオの生成方法に対応するプログラムの２つのプログラム、又は、その中のいずれかのプログラムを含んでもよい。

プロセッサ１は、中央処理装置ＣＰＵ、又は、特定用途向け集積回路ＡＳＩＣ(ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ)、又は、本出願の実施例を実施するように配置される１つ又は複数の集積回路であり得る。

メモリ３は、高速ＲＡＭメモリを含むことができ、不揮発性メモリ(ｎｏｎ-ｖｏｌａｔｉｌｅｍｅｍｏｒｙ)、例えば、少なくとも１つの磁気ディスクメモリを含むこともできる。

なお、前記プログラムは、具体的に、
指定画像を取得し、
前記指定画像に基づき、第１の所定フレーム数の前記指定画像が含まれる画像セットを生成し、
前記画像セットに基づき、予めトレーニングされたニューラルネットワークモデルにより、前記画像セットに対してコンテンツモデリングとモーション状態モデリングを行うことで、前記ニューラルネットワークモデルによって出力されるタイムラプス撮影ビデオを取得するために使用されることができ、その中、前記ニューラルネットワークモデルは、上記のニューラルネットワークモデルのトレーニング方法でトレーニングすることで取得される。

任意選択で、前記プログラムは、さらに、本出願の実施例で提供されるタイムラプス撮影ビデオの生成方法のいずれかの実現方法のステップを実現するために使用されてもよい。

また、本出願の実施例は、記憶媒体をさらに提供し、当該記憶媒体に、コンピュータプログラムが記憶され、前記コンピュータプログラムはプロセッサによって実行される場合に、上記の実施例における前記ニューラルネットワークモデルのトレーニング方法の各ステップ、及び／又は、前記タイムラプス撮影ビデオの生成方法の各ステップを実行するために使用される。

以下、本出願の実際の適用シナリオについて簡単に説明する。例えば、ユーザーは、空の変化を実際のシナリオとする１つのタイムラプス撮影ビデオを作成したい場合、本出願で提供される技術案を適用すると、ユーザーは次の２つの方法で作成することができる。
第１の方法は、ユーザーがローカル端末で作成することであり、ローカル端末で実行される操作は、以下のことを含む。
ユーザーによって提供される指定画像を取得し、当該指定画像はユーザーが現場で撮影した空の画像であってもよいし、ユーザーが選択した既存の空の画像であってもよく、前記指定画像をコピーして、第１の所定フレーム数の前記指定画像が含まれる画像セットを生成し、前記画像セットを、タイムラプス撮影ビデオを生成するためのニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルによりコンテンツモデリングとモーション状態モデリングを行うことで、指定画像のコンテンツを再構築し、最適化されたタイムラプス撮影ビデオを出力する。

この方法では、ローカル端末にタイムラプス撮影ビデオを生成するためのニューラルネットワークモデルが予め設置され、つまり、ローカル端末は、独立してタイムラプス撮影ビデオを生成することができる。

第２の方法は、ユーザーがローカル端末を操作して、リモートサーバーを介してタイムラプス撮影ビデオを取得することであり、その具体的なフローは以下通りである。
ローカル端末は、指定画像をリモートサーバーに送信し、当該指定画像は、ユーザーが現場で撮影した空の画像であってもよいし、ユーザーが選択した既存の空のピクチャであってもよい。
リモートサーバーは、前記指定画像をコピーして、第１の所定フレーム数の前記指定画像が含まれる画像セットを生成し、前記画像セットを、タイムラプス撮影ビデオを生成するためのニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルによりコンテンツモデリングとモーション状態モデリングを行って、画像のコンテンツを再構築し、最適化されたタイムラプス撮影ビデオを出力する。

この方法では、ユーザーは、ローカル端末を介して空の画像をリモートサーバーに送信するだけでよく、リモートサーバーにタイムラプス撮影ビデオを生成するためのニューラルネットワークモデルが予め設置され、リモートサーバーは、空の画像から予測されたタイムラプス撮影ビデオを生成し、その後、ユーザーのローカル端末に送信する。

上記の技術案によれば、従来技術と比べて、本出願は、ニューラルネットワークモデルのトレーニング、タイムラプス撮影ビデオの生成方法及び装置を提供する。本出願で提供される技術案は、デュアルネットワーク構造のニューラルネットワークモデルに基づいてタイムラプス撮影ビデオを生成することであり、デュアルネットワーク構造は、具体的に、タイムラプス撮影ビデオに対してコンテンツモデリングを行うためのベーシックネットワークと、タイムラプス撮影ビデオのモーション状態に対してモデリングを行うための最適化ネットワークを含み、ベーシックネットワークは、第１の所定フレーム数の指定フレーム画像が含まれるビデオを入力とし、ベーシックタイムラプス撮影ビデオを出力とする第１の敵対的生成ネットワークであり、最適化ネットワークは、前記ベーシックネットワークの出力を入力とし、タイムラプス撮影ビデオのモーション状態に対してモデリングを行うために使用され、最適化されたタイムラプス撮影ビデオを出力とする第２の敵対的生成ネットワークであり、複数のトレーニングビデオを取得した後、トレーニングビデオに基づきトレーニングビデオに対応する画像セットを生成し、当該画像セットは、第１の所定フレーム数の前記トレーニングビデオにおける最初のフレーム画像又は最後のフレーム画像を含み、当該トレーニングビデオ及びそれに対応する画像セットによって、ベーシックネットワークと最適化ネットワークで構成されるニューラルネットワークモデルをトレーニングし、トレーニング終了条件を満たした場合に、当該ビデオをタイムラプス撮影ビデオの生成に使用できる。

タイムラプス撮影ビデオを生成する際に、まず、指定画像を取得し、当該指定画像に基づき第１の所定フレーム数の指定画像が含まれる指定画像セットを生成し、次に、予めトレーニングされたニューラルネットワークモデルにより前記指定画像セットに対してコンテンツモデリング、及びモーション状態モデリングを行うことで、前記ニューラルネットワークモデルによって出力されるタイムラプス撮影ビデオを取得する。

当該技術案は、多段階の敵対的生成ネットワークによりタイムラプス撮影ビデオを継続的に最適化し、コンテンツのモデリング及びモーション状態のモデリングにより、未来フレームの合理的な予測を保証して、タイムラプス撮影ビデオが粗いものから細かいものまで段階的に生成されることを実現する。コンテンツのリアリティと、モーション情報の合理性とを保持しているため、生成されるタイムラプス撮影ビデオは高いリアリティを有し、且つ比較的自然である。一方で、使用されるモデルはカスケードデュアルネットワーク構造であるので、実現と簡素化が容易であり、クラウド又はオフラインのシナリオに適用できる。

最後に、本明細書において、例えば、「第１」や「第２」などの関係用語は、あるエンティティ又は操作を別のエンティティ又は操作と区分するためにのみ使用され、これらのエンティティ又は操作同士に任意のこのような実際の関係又は順序が存在することを必ずしも要求又は示唆するものではないことに注意されたい。また、「包含」、「含む」という用語又はその他の変更は、非排他的な包含をカバーすることを意図している。これにより、一連の要素を含むプロセス、方法、物品又はスマートデバイスは、それらの要素だけでなく、明確に記載されていない他の要素、又はこのプロセス、方法、物品又はスマートデバイスに固有の要素も含む。これ以上の制限がない場合、「１つの．．．を含む」という文で限定された要素は、その要素を含むプロセス、方法、物品又はスマートデバイスにその他の同じ要素も存在することを除外しない。

本明細書における各実施例は漸進的に記載されており、各実施例は他の実施例との相違点について主に説明し、各実施例間の同じ又は類似の部分は互いに参照され得る。実施例に開示された装置、システム、スマートデバイス及び記憶媒体について、実施例に開示された方法に対応するので、説明は比較的単純であり、関連部分は方法のセクションの説明を参照することができる。

当業者はさらに以下のことを理解することができ、本明細書に開示されている実施例に関連して説明されている各例示的なユニット及びアルゴリズムのステップは、電子ハードウェア、コンピュータソフトウェア、又はそれらの組み合わせによって実現することができ、ハードウェアとソフトウェアの互換性を明確に説明するために、各例示的な構成要素及びステップは、上記の説明では機能の観点から一般的に説明されている。これらの機能がハードウェアで実行されるかそれともソフトウェアで実行されるかは、技術案の特定の適用及びソリューションの設計上の制約に依存する。当業者であれば、特定の用途ごとに、説明した機能を実現するために異なる方法を使用することができるが、そのような実現は本発明の範囲を超えると見なされるべきではない。

本明細書に開示されている実施例に関連して説明されている方法又はアルゴリズムのステップは、ハードウェア、プロセッサによって実行されるソフトウェアモジュール、又はそれらの組み合わせで直接実施することができる。ソフトウェアモジュールは、ランダムアクセスメモリ（ＲＡＭ）、メモリ、読み出し専用メモリ（ＲＯＭ）、電気的にプログラム可能なＲＯＭ、電気的に消去可能なプログラム可能なＲＯＭ、レジスタ、又は当該技術分野で知られている既知の任意の他の形態の記憶媒体に配置することができる。

開示された実施例の上記の説明は、当業者が本出願を実現又は使用することを可能にする。これらの実施例に対する様々な修正は当業者に明らかであり、本明細書で定義された一般的な原理は本出願の精神又は範囲から逸脱することなく他の実施例において実現することができる。したがって、本出願は本明細書に示されたこれらの実施例に限定されず、本明細書に開示されている原理及び新規の特徴と一致している最も広い範囲に適合されなければならない。

Claims

サーバーが実行するニューラルネットワークモデルのトレーニング方法であって、
トレーニングサンプルを取得するステップであって、前記トレーニングサンプルにトレーニングビデオ及び前記トレーニングビデオに対応する画像セットが含まれ、前記画像セットに、第１の所定フレーム数の前記トレーニングビデオにおける最初のフレームの画像又は最後のフレームの画像が含まれるステップと、
前記トレーニングサンプルに基づきトレーニングすることにより、トレーニング終了条件を満たすニューラルネットワークモデルを取得するステップであって、前記ニューラルネットワークモデルに、タイムラプス撮影ビデオに対してコンテンツモデリングを行うためのベーシックネットワークと、タイムラプス撮影ビデオのモーション状態に対してモデリングを行うための最適化ネットワークとが含まれるステップと、
を含み、
前記ベーシックネットワークは、第１の所定フレーム数の同じ画像が含まれる画像セットを入力とし、ベーシックタイムラプス撮影ビデオを出力とする第１の敵対的生成ネットワークであり、前記最適化ネットワークは、前記ベーシックネットワークの出力を入力とし、最適化されたタイムラプス撮影ビデオを出力とする第２の敵対的生成ネットワークである、方法。
前記トレーニングサンプルに基づきトレーニングすることにより、トレーニング終了条件を満たすニューラルネットワークモデルを取得する前記ステップは、
前記トレーニングサンプルに基づきトレーニングすることにより、トレーニング終了条件を満たす第１の敵対的生成ネットワークを、ベーシックネットワークとして取得するステップと、
前記トレーニングビデオに対応する画像セットに基づき、ベーシックネットワークにより、前記ベーシックネットワークによって出力されるベーシックタイムラプス撮影ビデオを取得するステップと、
前記ベーシックタイムラプス撮影ビデオと前記トレーニングビデオとに基づき、トレーニングすることにより、トレーニング終了条件を満たす第２の敵対的生成ネットワークを、最適化ネットワークとして取得するステップと、
を含む請求項１に記載の方法。
前記ベーシックタイムラプス撮影ビデオと前記トレーニングビデオとに基づき、トレーニングすることにより、トレーニング終了条件を満たす第２の敵対的生成ネットワークを、最適化ネットワークとして取得する前記ステップは、
前記ベーシックタイムラプス撮影ビデオに基づき、前記第２の敵対的生成ネットワークにおける第２の生成器により、最適化されたタイムラプス撮影ビデオを取得するステップと、
前記最適化されたタイムラプス撮影ビデオに基づき、前記第２の敵対的生成ネットワークにおける第２の判別器により、判別結果を取得するステップと、
前記最適化されたタイムラプス撮影ビデオ、前記ベーシックタイムラプス撮影ビデオ、前記トレーニングビデオ、及び前記判別結果に基づき、前記第２の敵対的生成ネットワークの損失を生成するステップであって、前記損失に少なくともランキング損失が含まれ、前記ランキング損失が、前記最適化されたタイムラプス撮影ビデオ、前記ベーシックタイムラプス撮影ビデオ、及び前記トレーニングビデオのそれぞれに対応するモーション特徴に基づき決定されるステップと、
トレーニング終了条件を満たす第２の敵対的生成ネットワークが最適化ネットワークとして取得されるまで、前記第２の敵対的生成ネットワークの損失に基づき、前記第２の敵対的生成ネットワークのネットワークパラメータを最適化するステップと、
を含む請求項２に記載の方法。
以下の方法で、前記第２の敵対的生成ネットワークの損失を決定し、
前記第２の敵対的生成ネットワークにおける第２の判別器により、前記最適化されたタイムラプス撮影ビデオの特徴、前記ベーシックタイムラプス撮影ビデオ及び前記トレーニングビデオのそれぞれの特徴をそれぞれ抽出し、前記特徴に基づき、前記最適化されたタイムラプス撮影ビデオ、前記ベーシックタイムラプス撮影ビデオ、及び前記トレーニングビデオのそれぞれに対応するグラムｇｒａｍ行列をそれぞれ算出し、前記ｇｒａｍ行列は、ビデオフレーム間のモーション状態を表すために用いられ、
前記最適化されたタイムラプス撮影ビデオ、前記ベーシックタイムラプス撮影ビデオ、及び前記トレーニングビデオのそれぞれに対応するグラムｇｒａｍ行列に基づき、ランキング損失を決定し、
前記第２の敵対的生成ネットワークのコンテンツ損失、敵対損失、及び前記ランキング損失に基づき、前記第２の敵対的生成ネットワークの損失を決定する請求項１に記載の方法。
トレーニングサンプルを取得する前記ステップは、
トレーニングビデオを取得するステップと、
前記トレーニングビデオから、最初のフレームの画像又は最後のフレームの画像を抽出するステップと、
前記最初のフレームの画像又は最後のフレームの画像をコピーして、前記トレーニングビデオに対応する画像セットを生成するステップと、
前記トレーニングビデオ、及び前記トレーニングビデオに対応する画像セットを、トレーニングサンプルとして使用するステップと、
を含む、請求項１に記載の方法。
電子機器が実行するタイムラプス撮影ビデオの生成方法であって、
指定画像を取得するステップと、
前記指定画像に基づき、第１の所定フレーム数の前記指定画像を含む画像セットを生成するステップと、
前記画像セットに基づき、予めトレーニングされたニューラルネットワークモデルにより前記画像セットに対してコンテンツモデリングとモーション状態モデリングを行うことで、前記ニューラルネットワークモデルによって出力されるタイムラプス撮影ビデオを取得するステップと、
を含み、
前記ニューラルネットワークモデルは、請求項１から５のいずれか一項に記載の方法でトレーニングすることで取得される、方法。
前記電子機器は端末装置であり、前記端末装置に前記ニューラルネットワークモデルが配置されており、指定画像を取得する前記ステップは、
選択コマンドに応答して、アルバムにおける選択された写真を、指定画像として取得するステップ、又は、
撮影コマンドに応答して、撮影された写真を、指定画像として取得するステップ、
を含む、請求項６に記載の方法。
前記電子機器はサーバーであり、指定画像を取得する前記ステップは、
端末装置から送信されたタイムラプス撮影生成要求を受信するステップであって、前記タイムラプス撮影生成要求に指定画像が含まれるステップと、
前記タイムラプス撮影生成要求から前記指定画像を取得するステップと、
を含む、請求項６に記載の方法。
ニューラルネットワークモデルのトレーニング装置であって、
トレーニングサンプルを取得するための取得モジュールであって、前記トレーニングサンプルにはトレーニングビデオ、及び前記トレーニングビデオに対応する画像セットが含まれ、前記画像セットに、第１の所定フレーム数の前記トレーニングビデオにおける最初のフレームの画像又は最後のフレームの画像が含まれる取得モジュールと、
前記トレーニングサンプルに基づきトレーニングすることにより、トレーニング終了条件を満たすニューラルネットワークモデルを取得するためのトレーニングモジュールであって、前記ニューラルネットワークモデルに、タイムラプス撮影ビデオに対してコンテンツモデリングを行うためのベーシックネットワークと、タイムラプス撮影ビデオのモーション状態に対してモデリングを行うための最適化ネットワークとが含まれるトレーニングモジュールと、
を含み、
前記ベーシックネットワークは、第１の所定フレーム数の同じ画像が含まれる画像セットを入力とし、ベーシックタイムラプス撮影ビデオを出力とする第１の敵対的生成ネットワークであり、前記最適化ネットワークは、前記ベーシックネットワークの出力を入力とし、最適化されたタイムラプス撮影ビデオを出力とする第２の敵対的生成ネットワークである、装置。
タイムラプス撮影ビデオの生成装置であって、
指定画像を取得するための取得モジュールと、
前記指定画像に基づき、第１の所定フレーム数の前記指定画像が含まれる画像セットを生成するための第１の生成モジュールと、
前記画像セットに基づき、予めトレーニングされたニューラルネットワークモデルにより前記画像セットに対してコンテンツモデリングとモーション状態モデリングを行うことで、前記ニューラルネットワークモデルによって出力されるタイムラプス撮影ビデオを取得するための第２の生成モジュールと、
を含み、
前記ニューラルネットワークモデルは、請求項１から５のいずれか一項に記載の方法でトレーニングすることで取得される、装置。
端末とサーバーとを含む、タイムラプス撮影ビデオの生成システムであって、
前記端末と前記サーバーとは、ネットワークを介して相互作用し、
前記サーバーは、前記端末から送信された指定画像を受信し、前記指定画像に基づき、第１の所定フレーム数の前記指定画像が含まれる画像セットを生成し、前記画像セットに基づき、予めトレーニングされたニューラルネットワークモデルにより前記画像セットに対してコンテンツモデリングとモーション状態モデリングを行うことで、前記ニューラルネットワークモデルによって出力されるタイムラプス撮影ビデオを取得し、前記タイムラプス撮影ビデオを前記端末に送信するために使用され、
前記ニューラルネットワークモデルは、請求項１から５のいずれか一項に記載の方法でトレーニングすることで取得される、システム。
メモリとプロセッサとを含む電子機器であって、
前記メモリはコンピュータプログラムを記憶するために使用され、
前記プロセッサは、前記メモリ内のコンピュータプログラムを呼び出して実行して、請求項１から５のいずれか一項に記載のニューラルネットワークモデルのトレーニング方法を実現するか、又は、請求項６から８のいずれか一項に記載のタイムラプス撮影ビデオの生成方法を実現するために使用される、電子機器。
コンピュータプログラムが記憶されている記憶媒体であって、
前記コンピュータプログラムは、プロセッサによって実行される場合に、請求項１から５のいずれか一項に記載のニューラルネットワークモデルのトレーニング方法を実現するか、又は、請求項６から８のいずれか一項に記載のタイムラプス撮影ビデオの生成方法を実現するために使用される、記憶媒体。
コマンドを含むコンピュータプログラムであって、
コンピュータで実行される場合に、請求項１から５のいずれか一項に記載のニューラルネットワークモデルのトレーニング方法、又は、請求項６から８のいずれか一項に記載のタイムラプス撮影ビデオの生成方法を前記コンピュータに実行させるコンピュータプログラム。