JP7794530B2

JP7794530B2 - ビデオ生成方法及び機器

Info

Publication number: JP7794530B2
Application number: JP2024538088A
Authority: JP
Inventors: シ，イチュン; ヤン，シャオ; シェン，シャオホイ
Original assignee: Lemon Inc Cayman Island
Current assignee: Lemon Inc Cayman Island
Priority date: 2021-12-24
Filing date: 2022-12-22
Publication date: 2026-01-06
Anticipated expiration: 2042-12-22
Also published as: EP4435724A2; US20250054271A1; WO2023121571A3; WO2023121571A2; JP2025500976A; EP4435724A4; CN114255169A

Description

本出願は、２０２１年１２月２４日に中国特許庁に提出され、出願番号が２０２１１１６０９４４１．８であり、発明名称が「ビデオ生成方法及び機器」である中国特許出願の優先権を主張し、その全内容が引用によって本明細書に組み込まれる。

本開示の実施例はコンピュータ技術分野に関し、特にビデオ生成方法及び機器に関する。

従来のコンピュータ視覚技術、深層学習技術において、２つの画像に基づいて２つの画像の間が漸進的に変化するビデオを生成することができ、例えば、深層学習モデルに、２つの顔画像を入力し、２つの顔画像の間が漸進的に変化するビデオを生成し、該ビデオ中のビデオフレームが１つの顔画像から別の顔画像に漸進的に変化する。該技術は、例えば特殊効果の生成に用いられ、ビデオの面白さを向上させることができる。

ビデオ生成の過程において、２つの画像に基づいてビデオ中の複数のビデオフレームを生成し、該２つの画像の間に漸進的に変化するビデオを得る必要がある。しかしながら、現在、２つの画像に基づいて生成された複数のビデオフレームの品質、特にビデオの中間フレームの画像品質を向上させる必要がある。

本開示の実施例は、少ない数の画像に基づいてビデオを生成する際にビデオの中間フレームの画像品質を向上させる必要があるという問題を解決するために、ビデオ生成方法及び機器を提供する。

第１の態様によれば、本開示の実施例はビデオ生成方法を提供し、
第１の画像において、第１の画像特徴を抽出するステップと、
前記第１の画像特徴及び第２の画像の画像特徴である第２の画像特徴に基づき、非線形補間によって複数の中間画像特徴を得るステップと、
前記第１の画像特徴、前記第２の画像特徴及び前記複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、前記第１の画像から前記第２の画像に漸進的に変化する過程を示すためのターゲットビデオを生成するステップとを含む。

第２の態様によれば、本開示の実施例はモデル決定方法を提供し、
複数のトレーニング画像及び画像生成モデルによって、前記画像生成モデルの特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークをトレーニングするステップを含み、
前記ニューラルネットワークの一回のトレーニング過程は、
第１のトレーニング画像の画像特徴及び第２のトレーニング画像の画像特徴に基づき、ターゲット画像特徴を生成するステップと、
前記特徴空間に基づき、前記ターゲット画像特徴を初期調整するステップと、
前記ニューラルネットワークによって前記初期調整に対応するターゲット偏差を学習し、且つ前記ターゲット偏差に基づき、初期調整されたターゲット画像特徴を再び調整するステップと、
前記ターゲット偏差、再び調整されたターゲット画像特徴、前記第１のトレーニング画像及び前記第２のトレーニング画像に基づき、前記ニューラルネットワークのモデルパラメータを調整するステップとを含む。

第３の態様によれば、本開示の実施例はビデオ生成機器を提供し、
第１の画像において、第１の画像特徴を抽出するための抽出ユニットと、
前記第１の画像特徴及び第２の画像の画像特徴である第２の画像特徴に基づき、非線形補間によって複数の中間画像特徴を得るための補間ユニットと、
前記第１の画像特徴、前記第２の画像特徴及び前記複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、前記第１の画像から前記第２の画像に漸進的に変化する過程を示すためのターゲットビデオを生成するためのビデオ生成ユニットとを備える。

第４の態様によれば、本開示の実施例はモデル決定機器を提供し、
複数のトレーニング画像及び画像生成モデルによって、前記画像生成モデルの特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークをトレーニングするためのトレーニングユニットを備え、
前記ニューラルネットワークの一回のトレーニング過程は、
第１のトレーニング画像の画像特徴及び第２のトレーニング画像の画像特徴に基づき、ターゲット画像特徴を生成するステップと、
前記特徴空間に基づき、前記ターゲット画像特徴を初期調整するステップと、
前記ニューラルネットワークによって前記初期調整に対応するターゲット偏差を学習し、且つ前記ターゲット偏差に基づき、初期調整されたターゲット画像特徴を再び調整するステップと、
前記ターゲット偏差、再び調整されたターゲット画像特徴、前記第１のトレーニング画像及び前記第２のトレーニング画像に基づき、前記ニューラルネットワークのモデルパラメータを調整するステップとを含む。

第５の態様によれば、本開示の実施例は、少なくとも１つのプロセッサとメモリとを備える電子機器を提供し、
前記メモリは、コンピュータ実行命令を記憶し、
前記少なくとも１つのプロセッサは、前記メモリに記憶されたコンピュータ実行命令を実行することで、前記少なくとも１つのプロセッサに第１の態様又は第１の態様の様々な可能な設計に記載のビデオ生成方法を実行させ、又は、前記少なくとも１つのプロセッサに第２の態様又は第２の態様の様々な可能な設計に記載のモデル決定方法を実行させる。

第６の態様によれば、本開示の実施例はコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体にコンピュータ実行命令が記憶され、プロセッサが前記コンピュータ実行命令を実行する時、第１の態様又は第１の態様の様々な可能な設計に記載のビデオ生成方法を実現し、又は、第２の態様又は第２の態様の様々な可能な設計に記載のモデル決定方法を実現する。

第７の態様によれば、本開示の１つ又は複数の実施例に基づき、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品はコンピュータ実行命令を含み、プロセッサが前記コンピュータ実行命令を実行する時、第１の態様又は第１の態様の様々な可能な設計に記載のビデオ生成方法を実現し、又は、第２の態様又は第２の態様の様々な可能な設計に記載のモデル決定方法を実現する。

第８の態様によれば、本開示の１つ又は複数の実施例に基づき、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサに実行される時、第１の態様又は第１の態様の様々な可能な設計に記載のビデオ生成方法を実現し、又は、第２の態様又は第２の態様の様々な可能な設計に記載のモデル決定方法を実現する。

本実施例が提供するビデオ生成方法及び機器は、第１の画像の第１の画像特徴及び第２の画像の第２の画像特徴に基づき、非線形補間によって複数の中間画像特徴を得て、第１の画像特徴、第２の画像特徴及び複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、第１の画像から第２の画像に漸進的に変化する過程を示すためのターゲットビデオを生成する。それにより、非線形補間により、中間画像特徴の品質を向上させ、ターゲットビデオの中間フレームと第１の画像、第２の画像との類似度を確保することに基づき、ターゲットビデオの中間フレームの画像品質を向上させ、さらにターゲットビデオのビデオ品質を向上させる。

本開示の実施例又は従来技術の技術的解決手段をより明確に説明するために、以下、実施例又は従来技術の記載に使用する必要がある図面を簡単に紹介し、明らかなように、下記説明における図面は、本開示の一部の実施例であり、当業者にとって、創造的な労働を必要としない前提において、これらの図面に基づいて他の図面を得ることができる。

図１は本開示の実施例が適用する応用シーンの模式図である。図２は本開示の実施例が提供するビデオ生成方法のプロセス模式図１である。図３ａは本開示の実施例が提供するビデオ生成方法のプロセス模式図２である。図３ｂは本開示の実施例が提供する順に画像生成モデルの特徴空間及びニューラルネットワークに基づいて第３の画像特徴を調整するプロセス模式図である。図４は本開示の実施例が提供する特徴空間及びニューラルネットワークに基づく非線形補間のフレームワークの例を示す図である。図５は本開示の実施例が提供するモデル決定方法のプロセス模式図である。図６は本開示の実施例が提供するニューラルネットワークのトレーニングフレームワークの模式図である。図７は本開示の実施例が提供するビデオ生成機器の構造ブロック図である。図８は本開示の実施例が提供するモデル決定機器の構造ブロック図である。図９は本開示の実施例が提供する電子機器のハードウェア構造の模式図である。

本開示の実施例の目的、技術的解決手段、及びメリットをより明確にするために、以下、本開示の実施例の図面を参照しながら本開示の実施例の技術的解決手段について明確でかつ完全に説明する。明らかなように、説明された実施例は本開示の一部の実施例であり、全ての実施例ではない。本開示の実施例に基づいて、当業者が創造的な労働を必要としない前提において得ることができるその他の実施例は、いずれも本開示の保護範囲に属するものとなる。

２つの入力画像の間が漸進的に変化するビデオを生成する場合、一般的には、２種の入力画像の画像特徴に対して線形補間を行い、中間画像特徴を得て、中間画像特徴を利用してビデオの中間フレームを生成する。該方式によってビデオフレームの連続性、類似性を確保することができるが、線形補間後の中間画像特徴が実際のビデオ中のビデオ画面の画像特徴の分布規則（又は変化規則）に合致しないことが多いため、中間フレームの画像品質が悪くなり、美観性、真実性が不十分になる。

上記問題を解決するために、本開示の実施例はビデオ生成方法及び機器を提供し、第１の画像の第１の画像特徴及び第２の画像の第２の画像特徴に基づき、非線形補間によって、複数の中間画像特徴を得て、第１の画像特徴、第２の画像特徴及び複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、ターゲットビデオを生成する。ターゲットビデオは、第１の画像から第２の画像に漸進的に変化する過程を示すために使用される。実際のビデオ画面の変化過程が非線形変化であり、従って、線形補間方式に比べて、本開示の実施例は非線形補間を用い、中間画像特徴の品質を向上させ、ターゲットビデオの中間フレームの品質を向上させ、これにより、ターゲットビデオのビデオ画面が非線形変化になり、真実性、美観性がより高い。中間画像特徴の品質を向上させることは、中間画像特徴の真実性を向上させることと、中間画像と第１の画像及び第２の画像との類似度を向上させることとを含む。ターゲットビデオの中間フレームの品質を向上させることは、中間フレームの美観性及び真実性を向上させることと、中間フレームと第１の画像及び第２の画像との類似度を向上させることとを含む。

図１を参照すると、図１は本開示の実施例が適用する応用シーンの模式図である。

図１に示すように、該応用シーンにおいて、関する機器はビデオ生成機器１０１を含み、ビデオ生成機器１０１が端末又はサーバであってもよく、図１はビデオ生成機器１０１がサーバであることを例とする。ビデオ生成機器１０１において、２つの画像を処理し、２つの画像の間の漸進変化効果を示すためのビデオを生成することができる。

１つの実施例では、該応用シーンに係る機器は画像収集機器１０２をさらに含み、画像収集機器１０２も端末又はサーバであってもよく、例えば、端末がユーザーにより入力された画像を収集し、又は端末がカメラによって現在のシーンでの画像を収集し、又は、サーバがネットワークに公開され且つ公衆の使用を許可する画像をネットワークから収集する。図１は画像収集機器１０２が端末であることを例とする。画像収集機器１０２は収集された画像をビデオ生成機器１０１に送信し、ビデオ生成機器１０１によって、収集された画像から別の画像（画像収集機器１０２又は他の機器からのものである）に漸進的に変化することを示すためのビデオ、又は別の画像から収集された画像に漸進的に変化することを示すためのビデオを生成する。

ビデオ生成機器１０１と画像収集機器１０２とは同じ機器であってもよく、又は、異なる機器であってもよい。

ビデオ生成機器１０１と画像収集機器１０２とは同じ機器である場合、例えば、ユーザーが携帯電話で自分撮りを行い、自分撮りアバターを得て、且つ携帯電話から別の画像を選択し、携帯電話がユーザーの自分撮りアバター及びユーザーにより選択された画像に基づいてビデオを生成し、該ビデオのビデオ内容が、ユーザーの自分撮りアバターからユーザーにより選択された画像に漸進的に変化する過程である。

ビデオ生成機器１０１と画像収集機器１０２とは異なる機器である場合、例えば、ユーザーが携帯電話で自分撮りを行い、自分撮りアバターを得て、且つ携帯電話から別の画像を選択し、携帯電話が自分撮り画像及びユーザーにより選択された画像をサーバに送信し、サーバがビデオを生成し且つ該ビデオを携帯電話に戻し、該ビデオのビデオ内容が、ユーザーの自分撮りアバターからユーザーにより選択された画像に漸進的に変化する過程である。

端末は、パーソナルデジタルアシスタント（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ、ＰＤＡ）機器、携帯機器（例えば、スマートフォン、タブレットコンピュータ）、コンピューティング機器（例えば、パーソナルコンピュータ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ、ＰＣ））、車載機器、ウェアラブル機器（例えば、スマートウォッチ、スマートブレスレット）、及びスマートホーム機器（例えば、スマートディスプレイ機器）等であってもよい。サーバは、分散型サーバ、集中型サーバ、クラウドサーバ等であってもよい。

以下、本開示の複数の実施例を提供する。本開示の複数の実施例の実行本体は電子機器であってもよく、電子機器は端末又はサーバであってもよい。

図２を参照すると、図２は本開示の実施例が提供するビデオ生成方法のプロセス模式図１である。図２に示すように、該ビデオ生成方法は、ステップ２０１～ステップ２０３を含む。

Ｓ２０１、第１の画像において、第１の画像特徴を抽出する。

第１の画像がユーザーにより入力された画像、他の機器からの画像、又は現在の実行機器により撮影された画像であってもよい。例えば、現在の実行機器が端末である場合、端末はユーザーにより入力された第１の画像を取得し、又は端末のカメラにより撮影された第１の画像を取得することができる。また、例えば、現在の実行機器がサーバである場合、サーバは端末により送信されたユーザーにより入力された第１の画像を受信することができる。

第１の画像特徴は第１の画像の画像特徴である。

本実施例では、エンコーダで第１の画像を符号化し、第１の画像特徴を得て、この時、第１の画像特徴とは、具体的に、第１の画像を符号化した後に得た画像特徴を指す。

Ｓ２０２、第１の画像特徴及び第２の画像の画像特徴である第２の画像特徴に基づき、非線形補間によって複数の中間画像特徴を得る。

第２の画像と第１の画像とは異なる画像である。

第２の画像特徴とは、具体的に、第２の画像を符号化した後に得た画像特徴を指す。

１つの例では、複数の画像及び複数の画像を符号化した後に得た画像特徴を予め記憶することができる。記憶された複数の画像の画像特徴から、第２の画像特徴を取得する。１つの方式では、ユーザーが予め記憶された複数の画像から第２の画像を指定し、該複数の画像の画像特徴から、第２の画像の画像特徴、すなわち、第２の画像特徴を取得することができ、別の方式では、複数の画像の画像特徴から第２の画像特徴を予め設定した順序（例えば画像記憶順序）又はランダムに取得することができる。

例えば、ユーザーが第１の画像を入力する操作に応答し、端末にユーザーに選択される複数の画像を表示し、ユーザーが複数の画像から第２の画像を選択し、且つ第１の画像から第２の画像に漸進的に変化するビデオを生成する要求を端末に入力し、端末が該要求に応答し、予め記憶された複数の画像の画像特徴から第２の画像の画像特徴、すなわち、第２の画像特徴を取得する。

別の例では、ユーザーにより入力された、他の機器により送信され又は現在の実行機器により撮影された第２の画像を取得し、第２の画像を符号化し、第２の画像特徴を得ることができる。

本実施例では、第２の画像特徴を取得した後、第１の画像特徴及び第２の画像特徴を非線形補間過程における２つの既知量として、予め設定した非線形補間方法を用い、非線形補間を行い、補間関数を得て、すなわち、補間曲線を得る。補間曲線において、第１の画像特徴に対応する点と第２の画像特徴に対応する点との間にサンプリングし、複数の中間画像特徴を得る。中間画像特徴がビデオの中間フレームを生成することに用いられる。

１つの実施例では、補間曲線において等間隔的にサンプリングすることにより、補間により得られた隣接する中間画像特徴の間の変化程度を近くし、その後に生成されたビデオの品質を向上させる。

Ｓ２０３、第１の画像特徴、第２の画像特徴及び複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、第１の画像から第２の画像に漸進的に変化する過程を示すためのターゲットビデオを生成する。

画像生成モデルが画像生成又は画像再構成のためのニューラルネットワークであってもよく、その入力データが符号化後の画像特徴であり、その出力データが再構成画像である。ネットワークに公開されたトレーニング済みの画像生成モデルを用いてもよく、トレーニングデータ（複数のトレーニング画像を含む）によってニューラルネットワークをトレーニングし、画像生成モデルを得てもよく、該モデルのトレーニング過程について制限されない。

本実施例では、複数の中間画像特徴が得られた後、第１の画像特徴、第２の画像特徴及び複数の中間画像特徴をそれぞれ画像生成モデルに入力し、第１の画像特徴に対応する再構成画像、第２の画像特徴に対応する再構成画像及び各中間画像特徴にそれぞれ対応する再構成画像を得ることができる。第１の画像特徴、第２の画像特徴及び中間画像特徴の補間曲線における分布順序に従って、該複数の再構成画像を順序付けて組み合わせ、ターゲットビデオを得ることができる。ターゲットビデオにおいて、第１のフレームの画像が第１の画像特徴に対応する再構成画像であり、最後のフレームの画像が第２の画像特徴に対応する再構成画像であり、中間フレームが中間画像特徴に対応する再構成画像である。

本開示の実施例では、第１の画像を符号化して得た第１の画像特徴及び第２の画像を符号化して得た第２の画像特徴に基づき、非線形補間を行い、複数の中間画像特徴を得て、第１の画像特徴、第２の画像特徴及び複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、画像生成モデルに基づいて再構成画像を出力する。

従って、２つの画像を符号化して得た画像特徴に基づいて非線形補間を行う方式で、補間により得られた中間画像特徴の真実性及び中間画像特徴と２つの最初の画像の画像特徴との類似度を向上させ、さらにビデオの中間フレームの真実性、美観性を向上させ、中間フレームと、第１のフレームの画像及び最後のフレームの画像との類似度を向上させ、ビデオ品質を向上させる。

画像生成モデルについて、以下のいくつかの選択可能な実施例を有する。

いくつかの実施例では、画像生成モデルは敵対的生成ネットワーク（ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓ、ＧＡＮ）であり、それにより、ＧＡＮの画像生成の面での長所を利用し、画像生成モデルの画像再構成の品質を向上させ、ターゲットビデオの画像フレームの品質を向上させる。

いくつかの実施例では、画像生成モデルは敵対的スタイル生成ネットワーク（ｓｔｙｌｅ－ｂａｓｅｄａｒｃｈｉｔｅｃｔｕｒｅｆｏｒＧＡＮｓ、ＳｔｙｌｅＧＡＮ）モデル又はＳｔｙｌｅＧＡＮ２モデルである。それにより、ＳｔｙｌｅＧＡＮモデル又はＳｔｙｌｅＧＡＮ２モデルの画像生成の面での長所を利用し、画像生成モデルの画像再構成の品質を向上させ、ターゲットビデオの画像フレームの品質を向上させる。

非線形補間過程について、いくつかの実施例では、画像生成モデルの特徴空間、ニューラルネットワークを用いて非線形補間を補助することができる。後続、実施例により該補助過程を説明する。

図３ａを参照すると、図３ａは本開示の実施例が提供するビデオ生成方法のプロセス模式図２である。図３ａに示すように、該ビデオ生成方法は、ステップＳ３０１～ステップＳ３０５を含む。

Ｓ３０１、第１の画像において、第１の画像特徴を抽出する。

Ｓ３０１の実現原理及び技術的効果は上記実施例を参照することができ、ここでは説明しない。

Ｓ３０２、第１の画像特徴及び第２の画像の画像特徴である第２の画像特徴に基づき、第３の画像特徴を生成する。

第２の画像特徴の取得過程は上記実施例を参照することができ、ここでは説明しない。

１つの例では、第１の画像特徴と第２の画像特徴の平均値を決定し、該平均値がすなわち第３の画像特徴である。具体的には、第１の画像特徴と第２の画像特徴の対応する位置の特徴値を加算した後に平均し、第１の画像特徴と第２の画像特徴の平均値を得ることができる。

別の例では、第１の画像特徴と第２の画像特徴を加重合計し、第３の画像特徴を得る。第１の画像特徴、第２の画像特徴にそれぞれ対応する加重を予め設定することができる。

Ｓ３０３、順に画像生成モデルの特徴空間と、特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークとに基づき、第３の画像特徴を調整する。

画像生成モデルの特徴空間は画像生成モデルの入力空間として理解することができ、該入力空間における特徴サンプルが所定の確率分布に合致する。

１つの実施例では、画像生成モデルが敵対的生成ネットワークである場合、画像生成モデルの特徴空間は画像生成モデルに対応する潜在空間（ｌａｔｅｎｔｓｐａｃｅ）であり、エンコーダによって第１の画像、第２の画像を符号化して得た画像特徴が潜在コード（ｌａｔｅｎｔｃｏｄｅ）であり、すなわち、第１の画像特徴が第１の潜在コードと呼ぶことができ、第２の画像特徴が第２の潜在コードと呼ぶことができる。

本実施例では、第３の画像特徴が得られた後、まず画像生成モデルの特徴空間における特徴サンプルに基づき、第３の画像特徴を調整することができ、これにより、第３の画像特徴を特徴空間における特徴サンプルにより接近させることで、第３の画像特徴に基づいて画像を再構成して得た再構成画像の画像品質を向上させ、すなわち、中間フレームの画像品質を向上させる。

本実施例では、特徴空間に基づいて第３の画像特徴を調整することに所定の偏差が存在する可能性があり、それにより、第３の画像特徴と第１の画像特徴、第２の画像特徴との類似度が低下することを考慮し、従って、該問題を解決するために、特徴空間に基づいて第３の画像特徴を調整した後、ニューラルネットワークモデルによって、第３の画像特徴を再び調整することにより、第３の画像特徴と第１の画像特徴、第２の画像特徴との類似度を向上させる。

ニューラルネットワークをトレーニングすることにより、ニューラルネットワークが特徴空間に基づいて画像特徴を調整する偏差を学習することができる必要があり、具体的なトレーニング過程は後続の実施例を参照する。

１つの実施例では、ニューラルネットワークはフルリンクニューラルネットワークである。それにより、ニューラルネットワークの学習タスクが単一化し、入力データ及び出力データがいずれも画像特徴である場合、ネットワークパラメータの多いフルリンクニューラルネットワークによって、第３の画像特徴を調整する正確性を向上させる。

１つの可能な実現方式では、図３ｂを参照すると、図３ｂは本開示の実施例が提供する順に画像生成モデルの特徴空間及びニューラルネットワークに基づいて第３の画像特徴を調整する（すなわち、Ｓ３０３）プロセス模式図である。図３ｂに示すように、順に画像生成モデルの特徴空間及びニューラルネットワークに基づいて第３の画像特徴を調整する過程（すなわち、Ｓ３０３の１つの可能な実現方式）は、ステップＳ３０３１～ステップＳ３０３４を含む。

Ｓ３０３１、特徴空間における平均画像特徴を取得する。Ｓ３０３２、平均画像特徴に基づき、第３の画像特徴を初期調整する。Ｓ３０３３、第１の画像特徴及び第２の画像特徴をニューラルネットワークに入力し、初期調整の偏差を反映するニューラルネットワークの出力データを得る。Ｓ３０３４、出力データに基づき、初期調整された第３の画像特徴を再び調整する。

ニューラルネットワークの出力データは、特徴空間の平均画像特徴に基づいて第３の画像特徴を初期調整した後に生じた特徴偏差を反映する。

本実施例では、特徴空間が合致する確率分布に基づき、特徴空間における平均画像特徴を決定することができる。特徴空間が合致する確率分布は、例えば、ガウス分布である。平均画像特徴を決定した後、平均画像特徴を利用し、第３の画像特徴を初期調整することにより、第３の画像特徴を該平均画像特徴に類似させ、第３の画像特徴の品質を向上させる。さらに第１の画像特徴及び第２の画像特徴をニューラルネットワークに入力し、ニューラルネットワークの出力データを得て、ニューラルネットワークの出力データも画像特徴である。ニューラルネットワークの出力データに基づき、初期調整された第３の画像特徴を再び調整することにより、第３の画像特徴を第１の画像特徴及び第２の画像特徴に類似させ、第３の画像特徴と第１の画像特徴、第２の画像特徴との類似度を向上させる。

１つの実施例では、平均画像特徴に基づき、第３の画像特徴を初期調整することは、第３の画像特徴及び平均画像特徴の平均値を決定し、初期調整された第３の画像特徴が該平均値であることを決定することを含む。それにより、第３の画像特徴と平均画像特徴の平均値を求める方式で、第３の画像特徴に対する特徴トリミング（すなわち、初期調整）を実現する。

１つの実施例では、出力データに基づき、初期調整された第３の画像特徴を再び調整することは、出力データと初期調整された第３の画像特徴を加算し、再び調整された第３の画像特徴を得ることを含む。それにより、初期調整された第３の画像特徴に、ニューラルネットワークにより学習された初期調整過程による特徴偏差を加算する方式で、第３の画像特徴と第１の画像特徴、第２の画像特徴との類似度を向上させる。

Ｓ３０４、第１の画像特徴、第２の画像特徴及び調整後の第３の画像特徴に基づき、非線形補間を行い、複数の中間画像特徴を得る。

本実施例では、第１の画像特徴、第２の画像特徴及び最終的に調整された第３の画像特徴を得た後、第１の画像特徴、第２の画像特徴及び第３の画像特徴を３つの既知量として、非線形補間方式によって、補間曲線を得て、補間曲線においてサンプリングして複数の中間画像特徴を得る。それにより、第１の画像特徴及び第２の画像特徴以外に、非線形補間過程において品質が高く且つ第１の画像特徴及び第２の画像特徴との類似度が比較的高い第３の画像特徴がさらに利用されるため、非線形補間の正確性が効果的に向上し、中間画像特徴の品質も向上する。

１つの可能な実現方式では、非線形補間方式は三次スプライン補間（ｃｕｂｉｃｓｐｌｉｎｅｉｎｔｅｒｐｏｌａｔｉｏｎ）を用いる。この時、Ｓ３０４は、第１の画像特徴、第２の画像特徴及び第３の画像特徴に基づき、三次スプライン補間によって補間曲線を得るステップと、補間曲線においてサンプリングし、複数の中間画像特徴を得るステップと、を含む。それにより、三次スプライン補間を利用し、非線形補間の正確性を向上させ、中間画像特徴の品質を向上させる。

具体的には、第３の画像特徴を第１の画像特徴、第２の画像特徴とともに三次スプライン補間に入力し、補間関数を得て、すなわち、補間曲線を得ることができる。さらに、補間曲線においてサンプリングし、複数の中間画像特徴を得る。

Ｓ３０５、第１の画像特徴、第２の画像特徴及び複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、第１の画像から第２の画像に漸進的に変化する過程を示すためのターゲットビデオを生成する。

Ｓ３０５の実現原理及び技術的効果は上記実施例を参照することができ、ここでは説明しない。

本開示の実施例では、第１の画像を符号化して得た第１の画像特徴及び第２の画像を符号化して得た第２の画像特徴に基づき、特徴空間及びニューラルネットワークに基づく非線形補間を用い、複数の中間画像特徴を得て、非線形補間の正確性を効果的に向上させ、さらに中間画像特徴の品質を向上させ、ビデオの中間フレームの画像品質を向上させ、さらにビデオ品質を向上させる。

例示的に、図４を参照すると、図４は本開示の実施例が提供する特徴空間及びニューラルネットワークに基づく非線形補間のフレームワークの例を示す図である。図４に示すように、まず潜在コード１（この場合、第１の画像特徴に相当）及び潜在コード２（この場合、第２の画像特徴に相当）の平均値（この場合、第３の画像特徴に相当）を決定し、特徴空間に基づいて該平均値をトリミングし、トリミングされた平均値（この場合、初期調整した第３の画像特徴に相当）を得て、次に、潜在コード１及び潜在コード２をニューラルネットワークに入力し、ニューラルネットワークにより出力された特徴偏差を得て、そして、トリミングされた平均値に該特徴偏差を加算する（この場合、再び調整した第３の画像特徴を得ることに相当）。このように、最終的に潜在コード１、潜在コード２及び該平均値をスプライン補間に用い、複数の補間結果（すなわち、複数の中間画像特徴）を得る。

なお、上記実施例は特徴空間及びニューラルネットワークと組み合わせて画像特徴を調整する方法を提供しており、実際の応用において、単独に特徴空間に基づいて画像特徴を調整してもよく、すなわち、特徴空間の調整による特徴偏差を無視する。

いくつかの実施例では、非線形補間の効果を向上させるために、ニューラルネットワークを予めトレーニングすることにより、ニューラルネットワークが画像生成モデルの特徴空間に基づいて画像特徴を調整する偏差を学習することができる。以下、ニューラルネットワークトレーニングの実施例を提供する。

なお、ニューラルネットワークのトレーニング過程及び上記実施例のビデオ生成過程は、同じ機器に実行されてもよく、異なる機器に実行されてもよい。

図５を参照すると、図５は本開示の実施例が提供するモデル決定方法のプロセス模式図である。図５に示すように、該モデル決定方法は、ステップＳ５０１を含む。

Ｓ５０１、複数のトレーニング画像及び画像生成モデルに基づき、画像生成モデルの特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークをトレーニングする。

ニューラルネットワークの一回のトレーニング過程において、Ｓ５０１は、ステップＳ５０１１～ステップＳ５０１４を含む。

Ｓ５０１１、第１のトレーニング画像の画像特徴及び第２のトレーニング画像の画像特徴に基づき、ターゲット画像特徴を生成する。

本実施例では、毎回のトレーニング過程において、複数のトレーニング画像から２つのトレーニング画像を取得することができ、区別の便宜上、２つのトレーニング画像をそれぞれ第１のトレーニング画像及び第２のトレーニング画像と呼ぶ。エンコーダによって２つのトレーニング画像を符号化し、第１のトレーニング画像の画像特徴及び第２のトレーニング画像の画像特徴を得ることができる。第１のトレーニング画像の画像特徴及び第２のトレーニング画像の画像特徴に対して特徴融合処理を行い、ターゲット画像特徴を得る。

１つの例では、第１のトレーニング画像の画像特徴及び第２のトレーニング画像の画像特徴に対して特徴融合処理を行い、ターゲット画像特徴を得ることは、第１のトレーニング画像の画像特徴と第２のトレーニング画像の画像特徴の平均値を決定するステップであって、該平均値がすなわちターゲット画像特徴である、ステップを含む。具体的には、第１のトレーニング画像の画像特徴と第２のトレーニング画像の画像特徴上の対応する位置の固有値を加算した後に平均し、該平均値を得ることができる。

別の例では、第１のトレーニング画像の画像特徴及び第２のトレーニング画像の画像特徴を加重合計し、ターゲット画像特徴を得る。第１のトレーニング画像の画像特徴、第２のトレーニング画像の画像特徴にそれぞれ対応する加重を予め設定することができる。

Ｓ５０１２、特徴空間に基づき、ターゲット画像特徴を初期調整する。

本実施例では、特徴空間が合致する確率分布に基づき、特徴空間における平均画像特徴を決定することができる。該平均画像特徴を利用し、ターゲット画像特徴を初期調整することにより、ターゲット画像特徴を該平均画像特徴に類似させ、ターゲット画像特徴の品質を向上させる。

１つの実施例では、平均画像特徴に基づき、ターゲット画像特徴を初期調整することは、ターゲット画像特徴と平均画像特徴の平均値を決定し、初期調整されたターゲット画像特徴が該平均値であることを決定することを含む。それにより、ターゲット画像特徴と平均画像特徴の平均値を求める方式で、ターゲット画像特徴の特徴トリミング（すなわち、初期調整）を実現する。

Ｓ５０１３、ニューラルネットワークによって初期調整に対応するターゲット偏差を学習し、且つターゲット偏差に基づき、初期調整されたターゲット画像特徴を再び調整する。

本実施例では、第１のトレーニング画像の画像特徴及び第２のトレーニング画像の画像特徴をニューラルネットワークに入力し、ニューラルネットワークの出力データを得て、すなわち、初期調整に対応するターゲット偏差を学習して得る。ニューラルネットワークにより学習して得られた初期調整に対応するターゲット偏差に基づき、初期調整したターゲット画像特徴を再び調整することにより、ターゲット画像特徴を第１のトレーニング画像の画像特徴及び第２のトレーニング画像の画像特徴に類似させ、すなわち、ターゲット画像特徴と第１のトレーニング画像の画像特徴、第２のトレーニング画像の画像特徴との類似度を向上させる。

１つの実施例では、ターゲット偏差に基づき、初期調整されたターゲット画像特徴を再び調整することは、ターゲット偏差と初期調整されたターゲット画像特徴を加算し、再び調整されたターゲット画像特徴を得ることを含む。それにより、初期調整されたターゲット画像特徴に、ニューラルネットワークにより学習された初期調整過程に生じた特徴偏差を加算する方式で、ターゲット画像特徴と第１のトレーニング画像の画像特徴、第２のトレーニング画像の画像特徴との類似度を向上させる。

Ｓ５０１４、ターゲット偏差、再び調整されたターゲット画像特徴、第１のトレーニング画像及び第２のトレーニング画像に基づき、ニューラルネットワークのモデルパラメータを調整する。

本実施例では、ターゲット偏差、再び調整したターゲット画像特徴、第１のトレーニング画像及び第２のトレーニング画像に基づき、ニューラルネットワークのトレーニング誤差を決定し、該トレーニング誤差に基づき、ニューラルネットワークのモデルパラメータを調整することができる。例えば、再び調整したターゲット画像特徴と第１のトレーニング画像の画像特徴との間の差異、及び／又は、再び調整したターゲット画像特徴と第２のトレーニング画像の画像特徴との間の差異に基づき、トレーニング誤差を決定する。

１つの例では、ニューラルネットワークは規則性制約及び類似度制約のトレーニングによって得られ、規則性制約は、ニューラルネットワークに基づいて調整された画像特徴と特徴空間に基づいて調整された画像特徴（すなわち、初期調整したターゲット画像特徴）との間の差異を最小化することに用いられ、類似度制約は、ニューラルネットワークに基づいて調整された画像特徴（すなわち、再び調整したターゲット画像特徴）と第１のトレーニング画像の画像特徴、第２のトレーニング画像の画像特徴との間の差異を最小化することに用いられる。

この時、Ｓ５０１４は、規則性制約及び類似度制約によって、ニューラルネットワークのターゲット最適化関数を決定するステップと、ターゲット最適化関数、ターゲット偏差、再び調整されたターゲット画像特徴、第１のトレーニング画像及び第２のトレーニング画像に基づき、前記ニューラルネットワークのモデルパラメータを調整するステップと、を含む。

具体的には、規則性制約及び類似度制約に基づき、ニューラルネットワークのターゲット最適化関数を予め決定することができる。ニューラルネットワークのトレーニング過程において、ターゲット偏差、第１のトレーニング画像及び第２のトレーニング画像に基づき、ターゲット最適化関数の関数値、すなわち、ニューラルネットワークのトレーニング誤差を決定する。該トレーニング誤差に基づき、ニューラルネットワークのモデルパラメータを最適化する。最適化アルゴリズムは、例えば、勾配降下アルゴリズムである。

具体的には、上記実施例に言及されている画像特徴がいずれも符号化後の画像特徴である。したがって、モデルトレーニングの正確性を向上させるために、再び調整したターゲット画像特徴を得た後、ターゲット画像特徴をそれぞれ画像生成モデルに入力し、中間再構成画像（すなわち、ターゲット画像特徴に対応する再構成画像）を得て、そして、特徴抽出ネットワークによって、第１のトレーニング画像、第２のトレーニング画像及び中間再構成画像に対して特徴抽出をそれぞれ行い、第１のトレーニング画像の画像特徴、第２のトレーニング画像の画像特徴、中間再構成画像の画像特徴を得ることができる。例えば、第１のトレーニング画像、第２のトレーニング画像、中間再構成画像がいずれも顔画像である場合、顔特徴抽出ネットワークを用い、これらの画像に対して特徴抽出を行うことができる。次に、中間再構成画像の画像特徴と第１のトレーニング画像の画像特徴（特徴抽出ネットワークにより抽出された特徴）との差異、中間再構成画像の画像特徴と第２のトレーニング画像の画像特徴（特徴抽出ネットワークにより抽出された特徴）との差異を決定し、該２種の差異及びニューラルネットワークの出力データに基づき、トレーニング誤差を決定する。

１つの例では、ニューラルネットワークのターゲット最適化関数は以下のように示すことができ、
ｘ_１、ｘ_２がそれぞれ第１のトレーニング画像、第２のトレーニング画像を示し、ｗ_１が第１のトレーニング画像を符号化した後に得られた画像特徴を示し、ｗ_２が第２のトレーニング画像を符号化した後に得られた画像特徴を示し、ｗ_３がターゲット画像特徴を示し、ｆ（）がニューラルネットワークを示し、Ｇ（）が画像生成モデルを示し、Ф（）が特徴抽出ネットワークを示し、λが予め設定したパラメータである。
が類似度制約であり、
が規則性制約である。

このように、上記ステップを繰り返して実行し、ニューラルネットワークを複数回調整する。

例示的に、図６を参照すると、図６は本開示の実施例が提供するニューラルネットワークのトレーニングフレームワークの模式図である。図６に示すように、トレーニング過程は、まず潜在コード１（入力画像１を符号化した後に得られた画像特徴）と潜在コード２（入力画像２を符号化した後に得られた画像特徴）の平均値を決定するステップと、画像生成モデルの特徴空間に基づき、該平均値に対して特徴トリミングを行い（すなわち、初期調整する）、トリミングされた平均値を得るステップと、そして、潜在コード１及び潜在コード２をニューラルネットワークに入力し、ニューラルネットワークにより出力された特徴偏差に基づき、規則性制約という部分のトレーニング誤差を決定することができるステップと、トリミングされた平均値にニューラルネットワークにより出力された特徴偏差を加算し、該平均値を画像生成モデルに入力し、再構成画像を得るステップと、最終的に、特徴抽出ネットワークによって該再構成画像と入力画像１との特徴差異、該再構成画像と入力画像２との特徴差異を決定し、該２種の特徴差異に基づき、類似度制約という部分のトレーニング誤差を決定するステップと、を含む。このように、規則性制約という部分のトレーニング誤差及び類似度制約という部分のトレーニング誤差に基づき、ニューラルネットワークのモデルパラメータを調整する。

上記実施例におけるビデオ生成方法に対応し、図７は本開示の実施例が提供するビデオ生成機器の構造ブロック図である。説明の便宜上、本開示の実施例に関連する部分のみを示す。図７を参照すると、ビデオ生成機器は、抽出ユニット７０１と補間ユニット７０２とを備える。

抽出ユニット７０１は、第１の画像において、第１の画像特徴を抽出することに用いられる。

補間ユニット７０２は、第１の画像特徴及び第２の画像の画像特徴である第２の画像特徴に基づき、非線形補間によって複数の中間画像特徴を得ることに用いられる。

ビデオ生成ユニット７０３は、第１の画像特徴、第２の画像特徴及び複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、第１の画像から第２の画像に漸進的に変化する過程を示すためのターゲットビデオを生成することに用いられる。

いくつかの実施例では、補間ユニット７０２はさらに、第１の画像特徴及び第２の画像特徴に基づき、第３の画像特徴を生成することと、順に画像生成モデルの特徴空間と、特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークとに基づき、第３の画像特徴を調整することと、第１の画像特徴、第２の画像特徴及び調整後の第３の画像特徴に基づき、非線形補間を行い、複数の中間画像特徴を得ることと、に用いられる。

いくつかの実施例では、補間ユニット７０２はさらに、特徴空間における平均画像特徴を取得することと、平均画像特徴に基づき、第３の画像特徴を初期調整することと、第１の画像特徴及び第２の画像特徴をニューラルネットワークに入力し、初期調整の偏差を反映するニューラルネットワークの出力データを得ることと、出力データに基づき、初期調整した第３の画像特徴を再び調整することと、に用いられる。

いくつかの実施例では、補間ユニット７０２はさらに、第３の画像特徴と平均画像特徴の平均値を決定することと、初期調整した第３の画像特徴が平均値であることを決定することと、に用いられる。

いくつかの実施例では、ニューラルネットワークは規則性制約及び類似度制約のトレーニングによって得られ、規則性制約は、ニューラルネットワークに基づいて調整した画像特徴と特徴空間に基づいて調整した画像特徴との間の差異を最小化することに用いられ、類似度制約は、ニューラルネットワークに基づいて調整した画像特徴と第１のトレーニング画像の画像特徴、第２のトレーニング画像の画像特徴との間の差異を最小化することに用いられる。

いくつかの実施例では、補間ユニット７０２はさらに、第１の画像特徴、第２の画像特徴及び第３の画像特徴に基づき、三次スプライン補間によって補間曲線を得ることと、補間曲線においてサンプリングし、複数の中間画像特徴を得ることと、に用いられる。

いくつかの実施例では、画像生成モデルはＳｔｙｌｅＧＡＮモデル又はＳｔｙｌｅＧＡＮ２モデルである。

本実施例が提供するビデオ生成機器は、ビデオ生成方法に関連する上記実施例の技術的解決手段を実行することに用いることができ、その実現原理及び技術的効果が類似するため、本実施例では、ここで説明しない。

上記実施例におけるモデル決定方法に対応し、図８は本開示の実施例が提供するモデル決定機器の構造ブロック図である。説明の便宜上、本開示の実施例に関連する部分のみを示す。図８を参照すると、モデル決定機器は、トレーニングユニット８０１を備える。

トレーニングユニット８０１は、複数のトレーニング画像及び画像生成モデルに基づき、画像生成モデルの特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークをトレーニングすることに用いられる。

ニューラルネットワークの一回のトレーニング過程は、第１のトレーニング画像の画像特徴及び第２のトレーニング画像の画像特徴に基づき、ターゲット画像特徴を生成するステップと、特徴空間に基づき、ターゲット画像特徴を初期調整するステップと、ニューラルネットワークによって初期調整に対応するターゲット偏差を学習し、且つターゲット偏差に基づき、初期調整したターゲット画像特徴を再び調整するステップと、ターゲット偏差、再び調整したターゲット画像特徴、第１のトレーニング画像及び第２のトレーニング画像に基づき、ニューラルネットワークのモデルパラメータを調整するステップと、を含む。

いくつかの実施例では、トレーニングユニット８０１はさらに、規則性制約及び類似度制約によって、ニューラルネットワークのターゲット最適化関数を決定することと、ターゲット最適化関数、ターゲット偏差、再び調整されたターゲット画像特徴、第１のトレーニング画像及び第２のトレーニング画像に基づき、ニューラルネットワークのモデルパラメータを調整することと、に用いられ、規則性制約は、再び調整されたターゲット画像特徴と初期調整したターゲット画像特徴との間の差異を最小化することに用いられ、類似度制約は、再び調整されたターゲット画像特徴と第１のトレーニング画像の画像特徴、第２のトレーニング画像の画像特徴との間の差異を最小化することに用いられる。

本実施例が提供するモデル決定機器は、モデル決定方法に関連する上記実施例の技術的解決手段を実行することに用いることができ、その実現原理及び技術的効果が類似するため、本実施例では、ここで説明しない。

図９を参照すると、本開示の実施例を実現することに適される電子機器９００の構造模式図を示し、該電子機器９００は端末機器又はサーバであってもよい。端末機器は、例えば、携帯電話、ラップトップ、デジタル放送受信機、パーソナルデジタルアシスタント（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ、ＰＤＡ）、タブレットコンピュータ（ｐｏｒｔａｂｌｅａｎｄｒｏｉｄｄｅｖｉｃｅ、ＰＡＤ）、ポータブルマルチメディアプレーヤー（ｐｏｒｔａｂｌｅｍｅｄｉａｐｌａｙｅｒ、ＰＭＰ）、車載端末（例えば、車載ナビゲーション端末）等の移動端末、及び、例えば、デジタルＴＶ、デスクトップコンピュータ等の固定端末を含むが、これらに限定されない。図９に示される電子機器は単に１つの例であり、本開示の実施例の機能及び使用範囲を制限すべきではない。

図９に示すように、電子機器９００は、処理装置（例えば、中央プロセッサ、グラフィックプロセッサ等）９０１を含むことができ、リードオンリーメモリ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ、ＲＯＭ）９０２に記憶されたプログラム又は記憶装置９０８からランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ、ＲＡＭ）９０３にロードされたプログラムに基づいて様々な適当な動作及び処理を実行することができる。ＲＡＭ９０３において、電子機器９００の操作に必要な様々なプログラム及びデータがさらに記憶される。処理装置９０１、ＲＯＭ９０２及びＲＡＭ９０３がバス９０４を介して互いに接続されている。入力／出力（ｉｎｐｕｔ／ｏｕｔｐｕｔ、Ｉ／Ｏ）インタフェース９０５もバス９０４に接続される。

通常、以下の装置はＩ／Ｏインタフェース９０５に接続することができる。例えば、タッチパネル、タッチパッド、キーボード、マウス、カメラ、マイクロホン、加速度計、ジャイロスコープ等を含む入力装置９０６、例えば、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤ）、スピーカ、発振器等を含む出力装置９０７、例えば、テープ、ハードディスク等を含む記憶装置９０８、及び通信装置９０９。通信装置９０９は、電子機器９００が他の機器と無線又は有線の通信を行ってデータを交換することを許可することができる。図９は様々な装置を有する電子機器９００を示しているが、示されたすべての装置を実施又は備える必要がないことが理解されるべきである。代替的に、より多く又はより少ない装置を実施又は備えることができる。

特に、本開示の実施例によれば、フローチャートを参照して説明した上記過程はコンピュータソフトウェアプログラムとして実現することができる。例えば、本開示の実施例はコンピュータプログラム製品を含み、それがコンピュータ読み取り可能な媒体にロードされたコンピュータプログラムを含み、該コンピュータプログラムがフローチャートに示された方法を実行するためのプログラムコードを含む。このような実施例では、該コンピュータプログラムが通信装置９０９によってネットワークからダウンロードしてインストールされてもよく、又は記憶装置９０８からインストールされてもよく、又はＲＯＭ９０２からインストールされてもよい。該コンピュータプログラムが処理装置９０１に実行される時、本開示の実施例の方法に限定された上記機能を実行する。

なお、本開示の上記コンピュータ読み取り可能な媒体はコンピュータ読み取り可能な信号媒体又はコンピュータ読み取り可能な記憶媒体又は上記両者の任意の組み合わせであってもよい。コンピュータ読み取り可能な記憶媒体が、電気、磁気、光、電磁、赤外線、又は半導体のシステム、装置又はデバイス、又は任意の以上の組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能な記憶媒体のより具体的な例とは、１つ又は複数の導線を有する電気的接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能及びプログラマブルリードオンリーメモリ（ｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ、ＥＰＲＯＭ）、光ファイバー、ポータブルコンパクト磁気ディスクリードオンリーメモリ（ｃｏｍｐａｃｔｄｉｓｃｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ、ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、又はそれらの任意の適切な組み合わせを含むが、これらに限定されない。本開示では、コンピュータ読み取り可能な記憶媒体は、プログラムを含む又は記憶する任意の有形媒体であってもよく、該プログラムは命令実行システム、装置又はデバイスによって使用する、又はそれらと組み合わせて使用することができる。本開示では、コンピュータ読み取り可能な信号媒体は、ベースバンドにおいて又は搬送波の一部として伝播されるデータ信号を含んでもよく、それにコンピュータ読み取り可能なプログラムコードがロードされている。このように伝播されるデータ信号が複数種の形式を用いることができ、電磁信号、光信号又はそれらの任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ読み取り可能な信号媒体はさらに、コンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であってもよく、該コンピュータ読み取り可能な信号媒体は、命令実行システム、装置又はデバイスによって使用され又はそれらと組み合わせて使用されるためのプログラムを送信、伝播又は伝送することができる。コンピュータ読み取り可能な媒体に含まれるプログラムコードは、任意の適当な媒体で伝送することができ、ワイヤー、ケーブル、無線周波数（ｒａｄｉｏｆｒｅｑｕｅｎｃｙ、ＲＦ）等、又はそれらの任意の適切な組み合わせを含むが、これらに限定されない。

上記コンピュータ読み取り可能な媒体は上記電子機器に含まれてもよく、該電子機器に組み立てられていない、単独に存在してもよい。

上記コンピュータ読み取り可能な媒体に１つ又は複数のプログラムがロードされ、上記１つ又は複数のプログラムが該電子機器に実行される時、該電子機器に上記実施例に示される方法を実行させる。

１種又は複数種のプログラム設計言語又はその組み合わせで、本開示の操作を実行するためのコンピュータプログラムコードを作成することができ、上記プログラム設計言語は、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋など、オブジェクト指向のプログラム設計言語、「Ｃ」言語又は類似するプログラム設計言語など、一般的な手続き型プログラム設計言語を含む。プログラムコードがユーザーコンピュータに完全に実行されてもよく、ユーザーコンピュータに部分的に実行されてもよく、独立した１つのパッケージソフトウェアとして実行されてもよく、一部がユーザーコンピュータに実行されて他部が遠隔コンピュータに実行されてもよく、又は遠隔コンピュータ又はサーバに完全に実行されてもよい。遠隔コンピュータに関する場合、遠隔コンピュータは、ローカルエリアネットワーク（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ、ＬＡＮ）又は広域エリアネットワーク（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ、ＷＡＮ）を含む任意の種類のネットワークを介してユーザーコンピュータに接続されてもよく、又は、外部コンピュータに接続されてもよい（例えば、インターネットサービスプロバイダーを利用してインターネットを介して接続される）。

図面におけるフローチャート及びブロック図は、本公開の様々な実施例のシステム、方法及びコンピュータプログラム製品並びにコンピュータプログラムの実現可能なアーキテクチャ、機能及び操作を図示する。この点において、フローチャート又はブロック図内の各ブロックは１つのモジュール、プログラムセグメント、又はコードの一部を表すことができ、該モジュール、プログラムセグメント、又はコードの一部は規定されたロジック機能を実現するための１つ又は複数の実行可能命令を含む。なお、いくつかの代替実現において、ブロック内にマークされた機能は、図面にマークされた順序と異なる順序で実行されてもよい。例えば、連続的に示された２つのブロックは実際に実質的に並行して実行される場合もあり、逆の順序で実行される場合もあり、これは関連する機能に応じて決定される。なお、ブロック図及び／又はフローチャート内の各ブロック、及びブロック図及び／又はフローチャート内のブロックの組み合わせは、規定された機能又は操作を実行するための、ハードウェアに基づく専用のシステムによって実現されてもよく、又は専用ハードウェアとコンピュータ命令の組み合わせによって実現されてもよい。

本開示の実施例に係るユニットはソフトウェアの方式で実現されてもよく、ハードウェアの方式で実現されてもよい。ユニットの名称は、ある場合、該ユニット自体への限定を構成せず、例えば、取得ユニットはさらに「ターゲット音声取得ユニット」として説明されてもよい。

本明細書において説明された上記機能は１つ又は複数のハードウェアロジック部材によって少なくとも部分的に実行することができる。例えば、制限せずに、使用可能なハードウェアロジック部材のタイプの例には、フィールドプログラマブルゲートアレイ（ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ、ＦＰＧＡ）、専用集積回路（ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ、ＡＳＩＣ）、専用標準製品（ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｓｔａｎｄａｒｄｐａｒｔｓ、ＡＳＳＰ）、システムオンチップ（ｓｙｓｔｅｍｏｎｃｈｉｐ、ＳＯＣ）、複雑なプログラマブルロジック機器（ｃｏｍｐｌｅｘｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅ、ＣＰＬＤ）等を含む。

本開示の文脈において、機器読み取り可能な媒体は有形媒体であってもよく、命令実行システム、装置又は機器によって使用され、又は、命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含むか、又は記憶することができる。機器読み取り可能な媒体が機器読み取り可能な信号媒体又は機器読み取り可能な記憶媒体であってもよい。機器読み取り可能な媒体は、電気、磁気、光学、電磁、赤外線、又は半導体システム、装置又は機器、又は上記内容の任意の適切な組み合わせを含むが、これらに限定されない。機器読み取り可能な記憶媒体のより具体的な例は、１つ又は複数の導線に基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能及びプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶機器、磁気記憶機器、又は上記内容の任意の適切な組み合わせを含む。

第１の態様によれば、本開示の１つ又は複数の実施例に基づき、ビデオ生成方法を提供し、第１の画像において、第１の画像特徴を抽出するステップと、前記第１の画像特徴及び第２の画像の画像特徴である第２の画像特徴に基づき、非線形補間によって複数の中間画像特徴を得るステップと、前記第１の画像特徴、前記第２の画像特徴及び前記複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、前記第１の画像から前記第２の画像に漸進的に変化する過程を示すためのターゲットビデオを生成するステップと、を含む。

本開示の１つ又は複数の実施例に基づき、前記第１の画像特徴及び第２の画像特徴に基づき、非線形補間によって、複数の中間画像特徴を得る前記ステップは、前記第１の画像特徴及び前記第２の画像特徴に基づき、第３の画像特徴を生成するステップと、順に前記画像生成モデルの特徴空間と、前記特徴空間に基づいて画像特徴調整を行う偏差を学習するためのニューラルネットワークとに基づき、前記第３の画像特徴を調整するステップと、前記第１の画像特徴、前記第２の画像特徴及び調整された第３の画像特徴に基づき、非線形補間を行い、前記複数の中間画像特徴を得るステップと、を含む。

本開示の１つ又は複数の実施例に基づき、順に前記画像生成モデルの特徴空間と、前記特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークとに基づき、前記第３の画像特徴を調整する前記ステップは、前記特徴空間における平均画像特徴を取得するステップと、前記平均画像特徴に基づき、前記第３の画像特徴を初期調整するステップと、前記第１の画像特徴及び前記第２の画像特徴を、前記ニューラルネットワークに入力し、前記初期調整の偏差を反映する前記ニューラルネットワークの出力データを得るステップと、前記出力データに基づき、初期調整された第３の画像特徴を再び調整するステップと、を含む。

本開示の１つ又は複数の実施例に基づき、前記平均画像特徴に基づき、前記第３の画像特徴を初期調整する前記ステップは、前記第３の画像特徴と前記平均画像特徴の平均値を決定するステップと、前記初期調整された第３の画像特徴が前記平均値であることを決定するステップと、を含む。

本開示の１つ又は複数の実施例に基づき、前記ニューラルネットワークは規則性制約及び類似度制約のトレーニングによって得られ、前記規則性制約は、前記ニューラルネットワークに基づいて調整された画像特徴と前記特徴空間に基づいて調整された画像特徴との間の差異を最小化することに用いられ、前記類似度制約は、前記ニューラルネットワークに基づいて調整された画像特徴と第１のトレーニング画像の画像特徴、第２のトレーニング画像の画像特徴との間の差異を最小化することに用いられる。

本開示の１つ又は複数の実施例に基づき、前記第１の画像特徴、前記第２の画像特徴及び前記第３の画像特徴に基づき、非線形補間を行い、前記複数の中間画像特徴を得る前記ステップは、前記第１の画像特徴、前記第２の画像特徴及び前記第３の画像特徴に基づき、三次スプライン補間によって補間曲線を得るステップと、前記補間曲線においてサンプリングし、前記複数の中間画像特徴を得るステップと、を含む。

本開示の１つ又は複数の実施例に基づき、前記画像生成モデルはＳｔｙｌｅＧＡＮモデル又はＳｔｙｌｅＧＡＮ２モデルである。

第２の態様によれば、本開示の１つ又は複数の実施例に基づき、モデル決定方法を提供し、複数のトレーニング画像及び画像生成モデルに基づき、前記画像生成モデルの特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークをトレーニングするステップを含む。前記ニューラルネットワークの一回のトレーニング過程は、第１のトレーニング画像の画像特徴及び第２のトレーニング画像の画像特徴に基づき、ターゲット画像特徴を生成するステップと、前記特徴空間に基づき、前記ターゲット画像特徴を初期調整するステップと、前記ニューラルネットワークによって前記初期調整に対応するターゲット偏差を学習し、且つ前記ターゲット偏差に基づき、初期調整されたターゲット画像特徴を再び調整するステップと、前記ターゲット偏差、再び調整されたターゲット画像特徴、前記第１のトレーニング画像及び前記第２のトレーニング画像に基づき、前記ニューラルネットワークのモデルパラメータを調整するステップと、を含む。

本開示の１つ又は複数の実施例に基づき、前記ターゲット偏差、再び調整されたターゲット画像特徴、前記第１のトレーニング画像及び前記第２のトレーニング画像に基づき、前記ニューラルネットワークのモデルパラメータを調整する前記ステップは、規則性制約及び類似度制約によって、前記ニューラルネットワークのターゲット最適化関数を決定するステップと、前記ターゲット最適化関数、前記ターゲット偏差、前記再び調整されたターゲット画像特徴、前記第１のトレーニング画像及び前記第２のトレーニング画像に基づき、前記ニューラルネットワークのモデルパラメータを調整するステップと、を含み、前記規則性制約は、前記再び調整されたターゲット画像特徴と前記初期調整されたターゲット画像特徴との間の差異を最小化することに用いられ、前記類似度制約は、前記再び調整されたターゲット画像特徴と前記第１のトレーニング画像の画像特徴、前記第２のトレーニング画像の画像特徴との間の差異を最小化することに用いられる。

第３の態様によれば、本開示の１つ又は複数の実施例に基づき、ビデオ生成機器を提供し、第１の画像において、第１の画像特徴を抽出するための抽出ユニットと、前記第１の画像特徴及び第２の画像の画像特徴である第２の画像特徴に基づき、非線形補間によって複数の中間画像特徴を得るための補間ユニットと、前記第１の画像特徴、前記第２の画像特徴及び前記複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、前記第１の画像から前記第２の画像に漸進的に変化する過程を示すためのターゲットビデオを生成するためのビデオ生成ユニットとを備える。

第４の態様によれば、本開示の１つ又は複数の実施例に基づき、モデル決定機器を提供し、複数のトレーニング画像及び画像生成モデルに基づき、前記画像生成モデルの特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークをトレーニングするためのトレーニングユニットを備える。前記ニューラルネットワークの一回のトレーニング過程において、トレーニングモジュールは、第１のトレーニング画像の画像特徴及び第２のトレーニング画像の画像特徴に基づき、ターゲット画像特徴を生成することと、前記特徴空間に基づき、前記ターゲット画像特徴を初期調整することと、前記ニューラルネットワークによって前記初期調整に対応するターゲット偏差を学習し、且つ前記ターゲット偏差に基づき、初期調整されたターゲット画像特徴を再び調整することと、前記ターゲット偏差、再び調整されたターゲット画像特徴、前記第１のトレーニング画像及び前記第２のトレーニング画像に基づき、前記ニューラルネットワークのモデルパラメータを調整することと、に用いられる。

第５の態様によれば、本開示の１つ又は複数の実施例に基づき、電子機器を提供し、少なくとも１つのプロセッサとメモリとを備え、
前記メモリはコンピュータ実行命令を記憶し、
前記少なくとも１つのプロセッサは前記メモリに記憶されているコンピュータ実行命令を実行することにより、前記少なくとも１つのプロセッサに第１の態様又は第１の態様の様々な可能な設計に記載のビデオ生成方法を実行させ、又は、前記少なくとも１つのプロセッサに第２の態様又は第２の態様の様々な可能な設計に記載のモデル決定方法を実行させる。

第６の態様によれば、本開示の１つ又は複数の実施例に基づき、コンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体にコンピュータ実行命令が記憶され、プロセッサが前記コンピュータ実行命令を実行する場合、第１の態様又は第１の態様の様々な可能な設計に記載のビデオ生成方法を実現し、又は、第２の態様又は第２の態様の様々な可能な設計に記載のモデル決定方法を実現する。

第７の態様によれば、本開示の１つ又は複数の実施例に基づき、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品はコンピュータ実行命令を含み、プロセッサが前記コンピュータ実行命令を実行する場合、第１の態様又は第１の態様の様々な可能な設計に記載のビデオ生成方法を実現し、又は、第２の態様又は第２の態様の様々な可能な設計に記載のモデル決定方法を実現する。

以上の説明は本開示の好ましい実施例及び用いられた技術原理に対する説明に過ぎない。当業者であれば、本開示に係る開示範囲は、上記技術的特徴の特定の組み合わせにより構成された技術的解決手段に限定されず、また、上記開示の構想から逸脱しない場合、上記技術的特徴又はその等価特徴を任意に組み合わせて形成された他の技術的解決手段を含むべきであることを理解すべきである。例えば、上記特徴が本開示に開示されている（これらに限定されない）、類似する機能を有する技術的特徴と相互に置換して形成された技術的解決手段である。

また、特定の手順で各操作について説明されていたが、これらの操作が示された特定の手順又は順序で実行されるように要求すると理解されるべきではない。所定の場合では、マルチタスク及び並列処理が有利になる可能性がある。同様に、上記説明には複数の具体的な実現詳細が含まれているが、これらは本開示の範囲に対する制限として解釈されるべきではない。単独した実施例の文脈に説明されたある特徴は、単一の実施例に組み合わせて実現することもできる。逆に、単一の実施例の文脈に説明された様々な特徴は、複数の実施例において単独で又は任意の適切なサブ組み合わせの方式で実現することもできる。

本主題は、構造特徴及び／又は方法の論理動作に固有の言語を用いて説明されているが、添付の特許請求の範囲に限定された主題が必ずしも上記の特定の特徴又は動作に限定されないことを理解すべきである。逆に、上記の特定の特徴及び動作が特許請求の範囲を実現する例示的な形式に過ぎない。

Claims

ビデオ生成方法であって、
第１の画像において、第１の画像特徴を抽出するステップと、
前記第１の画像特徴及び第２の画像の画像特徴である第２の画像特徴に基づき、非線形補間によって複数の中間画像特徴を得るステップであって、前記第１の画像特徴は、前記第１の画像を符号化した後に得た画像特徴であり、前記第２の画像特徴は、前記第２の画像を符号化した後に得た画像特徴であるステップと、
前記第１の画像特徴、前記第２の画像特徴及び前記複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、前記第１の画像から前記第２の画像に漸進的に変化する過程を示すためのターゲットビデオを生成するステップとを含み、
前記第１の画像特徴及び第２の画像特徴に基づき、非線形補間によって複数の中間画像特徴を得る前記ステップは、
前記第１の画像特徴及び前記第２の画像特徴に基づき、特徴融合処理を行い、第３の画像特徴を生成するステップと、
順に前記画像生成モデルの特徴空間と、前記特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークとに基づき、前記第３の画像特徴を調整するステップであって、前記画像生成モデルの特徴空間は、前記第３の画像特徴を１回目に調整するための特徴サンプルを含み、それにより、１回目に調整された第３の画像特徴を前記特徴サンプルに接近させ、前記ニューラルネットワークは前記１回目に調整された第３の画像特徴を２回目に調整して、調整された第３の画像特徴を得るステップと、
前記第１の画像特徴、前記第２の画像特徴及び調整された第３の画像特徴に基づき、非線形補間を行い、前記複数の中間画像特徴を得るステップとを含む、ビデオ生成方法。
順に前記画像生成モデルの特徴空間と、前記特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークとに基づき、前記第３の画像特徴を調整する前記ステップは、
前記特徴空間における平均画像特徴を取得するステップと、
前記平均画像特徴に基づき、前記第３の画像特徴を初期調整するステップと、
前記第１の画像特徴及び前記第２の画像特徴を、前記ニューラルネットワークに入力し、前記初期調整された偏差を反映する前記ニューラルネットワークの出力データを得るステップと、
前記出力データに基づき、初期調整された第３の画像特徴を再び調整するステップとを含む、請求項１に記載のビデオ生成方法。
前記平均画像特徴に基づき、前記第３の画像特徴を初期調整する前記ステップは、
前記第３の画像特徴及び前記平均画像特徴の平均値を決定するステップと、
前記初期調整された第３の画像特徴が前記平均値であることを決定するステップとを含む、請求項２に記載のビデオ生成方法。
前記ニューラルネットワークは規則性制約及び類似度制約のトレーニングによって得られ、前記規則性制約は、前記ニューラルネットワークに基づいて調整された画像特徴と前記特徴空間に基づいて調整された画像特徴との間の差異を最小化することに用いられ、前記類似度制約は、前記ニューラルネットワークに基づいて調整された画像特徴と第１のトレーニング画像の画像特徴、第２のトレーニング画像の画像特徴との間の差異を最小化することに用いられる、請求項１～３のいずれか一項に記載のビデオ生成方法。
前記第１の画像特徴、前記第２の画像特徴及び調整された第３の画像特徴に基づき、非線形補間を行い、前記複数の中間画像特徴を得る前記ステップは、
前記第１の画像特徴、前記第２の画像特徴及び前記第３の画像特徴に基づき、三次スプライン補間によって補間曲線を得るステップと、
前記補間曲線においてサンプリングし、前記複数の中間画像特徴を得るステップとを含む、請求項１～３のいずれか一項に記載のビデオ生成方法。
前記画像生成モデルはＳｔｙｌｅＧＡＮモデル又はＳｔｙｌｅＧＡＮ２モデルである、請求項１～３のいずれか一項に記載のビデオ生成方法。
請求項１に記載のビデオ生成方法であって、
複数のトレーニング画像及び前記画像生成モデルに基づき、前記ニューラルネットワークをトレーニングするステップを更に含み、
前記ニューラルネットワークの一回のトレーニング過程は、
第１のトレーニング画像の画像特徴及び第２のトレーニング画像の画像特徴に基づき、ターゲット画像特徴を生成するステップと、
前記画像生成モデルの特徴空間に基づき、前記ターゲット画像特徴を１回目に調整するステップと、
前記ニューラルネットワークによって前記１回目の調整に対応するターゲット偏差を学習し、且つ前記ターゲット偏差に基づき、１回目に調整されたターゲット画像特徴を２回目に調整するステップと、
前記ターゲット偏差、２回目に調整されたターゲット画像特徴、前記第１のトレーニング画像及び前記第２のトレーニング画像に基づき、前記ニューラルネットワークのモデルパラメータを調整するステップとを含む、ビデオ生成方法。
前記ターゲット偏差、２回目に調整されたターゲット画像特徴、前記第１のトレーニング画像及び前記第２のトレーニング画像に基づき、前記ニューラルネットワークのモデルパラメータを調整する前記ステップは、
規則性制約及び類似度制約によって、前記ニューラルネットワークのターゲット最適化関数を決定するステップと、
前記ターゲット最適化関数、前記ターゲット偏差、前記２回目に調整されたターゲット画像特徴、前記第１のトレーニング画像及び前記第２のトレーニング画像に基づき、前記ニューラルネットワークのモデルパラメータを調整するステップとを含み、
前記規則性制約は、前記２回目に調整されたターゲット画像特徴と前記１回目に調整されたターゲット画像特徴との間の差異を最小化することに用いられ、前記類似度制約は、前記２回目に調整されたターゲット画像特徴と前記第１のトレーニング画像の画像特徴、前記第２のトレーニング画像の画像特徴との間の差異を最小化することに用いられることを特徴とする、請求項７に記載のビデオ生成方法。
ビデオ生成機器であって、
第１の画像において、第１の画像特徴を抽出するための抽出ユニットと、
前記第１の画像特徴及び第２の画像の画像特徴である第２の画像特徴に基づき、非線形補間によって複数の中間画像特徴を得る補間ユニットであって、前記第１の画像特徴は、前記第１の画像を符号化した後に得た画像特徴であり、前記第２の画像特徴は、前記第２の画像を符号化した後に得た画像特徴である補間ユニットと、
前記第１の画像特徴、前記第２の画像特徴及び前記複数の中間画像特徴に基づき、画像生成モデルによって画像を再構成し、前記第１の画像から前記第２の画像に漸進的に変化する過程を示すためのターゲットビデオを生成するためのビデオ生成ユニットとを備え、
前記抽出ユニットは、さらに
前記第１の画像特徴及び前記第２の画像特徴に基づき、特徴融合処理を行い、第３の画像特徴を生成することと、
順に前記画像生成モデルの特徴空間と、前記特徴空間に基づいて画像特徴を調整する偏差を学習するためのニューラルネットワークとに基づき、前記第３の画像特徴を調整することであって、前記画像生成モデルの特徴空間は、前記第３の画像特徴を１回目に調整するための特徴サンプルを含み、それにより、１回目に調整された第３の画像特徴を前記特徴サンプルに接近させ、前記ニューラルネットワークは前記１回目に調整された第３の画像特徴を２回目に調整して、調整された第３の画像特徴を得ることと、
前記第１の画像特徴、前記第２の画像特徴及び調整された第３の画像特徴に基づき、非線形補間を行い、前記複数の中間画像特徴を得ることとに用いられる、ビデオ生成機器。
少なくとも１つのプロセッサとメモリとを備える電子機器であって、
前記メモリは、コンピュータ実行命令を記憶し、
前記少なくとも１つのプロセッサは、前記メモリに記憶されたコンピュータ実行命令を実行することで、前記少なくとも１つのプロセッサに請求項１～３又は７～８のいずれか一項に記載のビデオ生成方法を実行させる、電子機器。
コンピュータ実行命令が記憶され、プロセッサが前記コンピュータ実行命令を実行すると、請求項１～３又は７～８のいずれか一項に記載のビデオ生成方法を実現する、コンピュータ読み取り可能な記憶媒体。
プロセッサに実行されると、請求項１～３又は７～８のいずれか一項に記載のビデオ生成方法を実現する、コンピュータプログラム。