JP2021170313A

JP2021170313A - ビデオを生成する方法および装置

Info

Publication number: JP2021170313A
Application number: JP2020202078A
Authority: JP
Inventors: 劉云峰; Yunfeng Liu; 王超; Chao Wang; 李遠杭; Yuanhang Li; ▲ユン▼挺; Ting Yun; 陳国慶; Guoqing Chen
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2020-04-02
Filing date: 2020-12-04
Publication date: 2021-10-28
Anticipated expiration: 2040-12-04
Also published as: EP3889912A1; US11670015B2; KR20210040882A; CN111476871A; US20210312671A1; EP3889912B1; KR102488530B1; JP7225188B2; CN111476871B

Abstract

【課題】アニメビデオ及び単一の真の人間の顔の初期顔画像に基づいて真の人間の顔に対応するアニメ風ビデオを自動的に生成する方法及び装置を提供する。【解決手段】方法は、受信したアニメビデオからターゲットアニメキャラクターのアニメ顔画像シーケンスを取得し、アニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成するステップと、アニメ顔輪郭画像シーケンスおよび受信した真の人間の顔の初期顔画像に基づいて、真の人間の顔に対する顔画像シーケンスを生成するステップと、顔画像シーケンスに基づいて真の人間の顔に対するアニメ風顔画像シーケンスを生成するステップと、アニメビデオ内のターゲットアニメキャラクターの顔画像をアニメ顔画像シーケンス内のアニメ顔画像に置き換えて、真の人間の顔に対応するアニメ風ビデオを生成するステップと、を含む。【選択図】図２

Description

本開示の実施例は、コンピュータ技術の分野、特にビデオを生成する方法および装置に関する。

コンピュータ画像処理技術の進歩に伴い、画像内およびビデオにおける顔を交換する技術は、ますます急速に発展している。アニメは、芸術形態として、簡単かつ誇張的な方法を使用して生活又は時事を説明する図画である。アニメは、大衆、特に若者に深く愛されている。個性化されたアニメビデオの生成とは、ユーザの真実の人間の顔の特徴に基づいてオリジナルのアニメビデオの顔を変換し、ユーザの顔特徴を備えた個性化されたアニメビデオを生成することをいう。しかしながら、アニメキャラクターの画像、ビデオの制作には時間がかかるだけでなく、高度な専門的なスキルも必要となるため、一般ユーザが個性化されたアニメビデオを制作するのにコストが高すぎる。

本開示の実施例は、ビデオを生成する方法および装置を提供する。

第一様態では、本開示の実施例は、ビデオを生成する方法を提供し、この方法は、受信したアニメビデオからターゲットアニメキャラクターのアニメ顔画像シーケンスを取得し、上記アニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成するステップと、上記アニメ顔輪郭画像シーケンスおよび受信した真の人間の顔の初期顔画像に基づいて、顔表情が上記アニメ顔画像シーケンスにおける顔表情にマッチする、上記真の人間の顔の顔画像シーケンスを生成するステップと、上記顔画像シーケンスに基づいて上記真の人間の顔に対するアニメ風顔画像シーケンスを生成するステップと、上記アニメビデオにおける上記ターゲットアニメキャラクターの顔画像を上記アニメ顔画像シーケンスにおけるアニメ顔画像に置き換え、上記真の人間の顔に対応するアニメ風ビデオを生成するステップと、を含む。

いくつかの実施例では、前述した上記アニメ顔輪郭画像シーケンスおよび受信した真の人間の顔の初期顔画像に基づいて、上記真の人間の顔の顔画像シーケンスを生成するステップは、現在のアニメ顔輪郭画像および上記初期顔画像の顔特徴情報に基づいて第一顔画像を生成するステップと、上記第一顔画像に基づいて上記真の人間の顔に対する顔画像を決定するステップとを含む顔画像生成ステップを上記アニメ顔輪郭画像シーケンスにおけるアニメ顔輪郭画像に対して順次実行するステップと、決定した顔画像を使用して、上記真の人間の顔の顔画像シーケンスを生成するステップと、を含む。

いくつかの実施例では、前述した上記第一顔画像に基づいて上記真の人間の顔の顔画像を決定するステップは、現在最後に決定した少なくとも２つの顔画像に基づいてオプティカルフロー図を生成するステップと、現在最後に決定した顔画像および上記オプティカルフロー図に基づいて第二顔画像を生成するステップと、上記第一顔画像および上記第二顔画像に基づいて、上記真の人間の顔の顔画像を生成するステップと、を含む。

いくつかの実施例では、前述した上記アニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成するステップは、上記アニメ顔画像シーケンスにおけるアニメ顔画像に対して当該アニメ顔画像の顔キーポイントの検出を行い、検出された顔キーポイントに基づいてアニメ顔輪郭画像を生成するステップを含む。

いくつかの実施例では、前述した上記顔画像シーケンスに基づいて上記真の人間の顔のアニメ風顔画像シーケンスを生成するステップは、上記顔画像シーケンスにおける顔画像を、予め確立されたアニメ画像生成モデルに入力し、上記真の人間の顔のアニメ風顔画像シーケンスを生成するステップを含み、前記アニメ画像生成モデルはアニメ顔画像を真の人間の顔の顔画像に基づいて生成するために用いられる。

第二様態では、本開示の実施例は、ビデオを生成する装置を提供し、この装置は、受信したアニメビデオからターゲットアニメキャラクターのアニメ顔画像シーケンスを取得し、上記アニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成するように構成された取得ユニットと、上記アニメ顔輪郭画像シーケンスおよび受信した真の人間の顔の初期顔画像に基づいて、顔表情が上記アニメ顔画像シーケンスにおける顔表情とマッチする、上記真の人間の顔の顔画像シーケンスを生成するように構成された第一生成ユニットと、上記顔画像シーケンスに基づいて上記真の人間の顔のアニメ風顔画像シーケンスを生成するように構成された第二生成ユニットと、上記アニメビデオにおける上記ターゲットアニメキャラクターの顔画像を上記アニメ顔画像シーケンスにおけるアニメ顔画像に置き換えて、上記真の人間の顔に対応するアニメ風ビデオを生成するように構成された置き換えユニットと、を含む。

いくつかの実施例では、上記第一生成ユニットは、現在のアニメ顔輪郭画像および上記初期顔画像の顔特徴情報に基づいて第一顔画像を生成するように構成された画像生成モジュールと、上記第一顔画像に基づいて上記真の人間の顔の顔画像を決定するように構成された決定モジュールとを含む、所定の顔画像生成ステップを上記アニメ顔輪郭画像シーケンスにおけるアニメ顔輪郭画像に対して順次実行するように構成された実行サブユニットと、決定された顔画像を使用して、上記真の人間の顔の顔画像シーケンスを生成するように構成されたシーケンス生成サブユニットと、を含む。

いくつかの実施例では、上記決定モジュールは、現在最後に決定した少なくとも２つの顔画像に基づいてオプティカルフロー図を生成するステップと、現在最後に決定した顔画像および上記オプティカルフロー図に基づいて第二顔画像を生成するステップと、上記第一顔画像および上記第二顔画像に基づいて、上記真の人間の顔の顔画像を生成するステップと、を実行するようにさらに構成される。

いくつかの実施例では、上記取得ユニットは、上記アニメ顔画像シーケンスにおけるアニメ顔画像に対して当該アニメ顔画像の顔キーポイントの検出を行い、検出された顔キーポイントに基づいてアニメ顔輪郭画像を生成するようにさらに構成される。

いくつかの実施例では、上記第二生成ユニットは、アニメ顔画像を真の人間の顔の顔画像に基づいて生成するために使用される予め確立されたアニメ画像生成モデルに、上記顔画像シーケンスにおける顔画像を入力し、上記真の人間の顔のアニメ風顔画像シーケンスを生成するようにさらに構成される。

第三態様では、本開示の実施例は、デバイスを提供し、このデバイスは、１つまたは複数のプロセッサと、１つまたは複数のプログラムを記憶した記憶装置と、を含み、上記１つまたは複数のプログラムが上記１つまたは複数のプロセッサによって実行されると、上記１つまたは複数のプロセッサが第一態様の任意の実施形態に記載の方法を実行するようにする。

第四態様では、本開示の実施例は、コンピュータプログラムを格納したコンピュータ可読媒体であって、このプログラムがプロセッサによって実行されると、第一態様の任意の実施形態に記載の方法を実行する、コンピュータ可読媒体を提供する。

第五態様では、本開示の実施例は、コンピュータプログラムであって、プロセッサによって実行されると、第一態様の任意の実施形態に記載の方法を実行する、コンピュータプログラムを提供する。

本開示の実施例に係るビデオを生成する方法および装置は、まず、受信したアニメビデオからターゲットアニメキャラクターのアニメ顔画像シーケンスを取得し、取得したアニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成する。次に、アニメ顔輪郭画像シーケンスおよび受信した真の人間の顔の初期顔画像に基づいて、真の人間の顔に対する顔画像シーケンスを生成する。さらに、顔画像シーケンスに基づいて真の人間の顔に対するアニメ風顔画像シーケンスを生成する。最後に、アニメビデオにおけるターゲットアニメキャラクターの顔画像をアニメ顔画像シーケンスにおけるアニメ顔画像に置き換え、真の人間の顔に対応するアニメ風ビデオを生成する。アニメビデオおよび単一の真の人間の顔の初期顔画像に基づいて真の人間の顔に対応するアニメ風ビデオを自動的に生成することを実現することにより、真の人間の顔に対応するアニメ風ビデオの生成効率を向上させることができ、ビデオ生成ステップが簡素化された。

本開示の他の特徴、目的および利点は、以下の図面による非限定的な実施例の詳細な説明を参照することにより、さらに明らかになる。
本開示の一実施例が適用され得る例示的なシステムアーキテクチャ図である。本開示に係るビデオを生成する方法の一実施例のフローチャートである。本開示に係るビデオを生成する方法の適用シナリオの概略図である。本開示に係るビデオを生成する方法の別の実施例のフローチャートである。本開示に係るビデオを生成する装置の一実施例の構造概略図である。本開示の実施例を実施するのに適する電子デバイスのコンピュータシステムの構造概略図である。

以下、図面および実施例を参照して本開示をさらに詳細に説明する。本明細書に記載された特定の実施例は、関連発明の解釈に用いられるものにすぎず、本発明を限定するものではないことを理解すべきである。また、説明の便宜上、図面には関連発明に関連する部分のみが示されている。

なお、本開示の実施例および実施例における特徴は、矛盾が生じない限り、互いに組み合わせることができる。以下、図面および実施例を参照して本開示を詳細に説明する。

図１は、本開示の実施例が適用され得るビデオを生成する方法またはビデオを生成する装置の例示的なシステムアーキテクチャ１００を示している。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３、ネットワーク１０４、およびサーバ１０５を含むことができる。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間の通信リンクを提供するための媒介として機能している。ネットワーク１０４は、例えば有線、無線通信リンク、または光ファイバケーブルなどの様々な接続形態を含むことができる。

ユーザは、端末装置１０１、１０２、１０３を用いてネットワーク１０４を介してサーバ１０５とやりとりし、メッセージなどを送受信することができる。端末装置１０１、１０２、１０３には、例えば、画像処理アプリケーション、ビデオ処理アプリケーション、ウェブブラウザアプリケーション、ショッピングアプリケーション、検索アプリケーション、インスタントメッセージツール、メールボックスクライアント、ソーシャルプラットフォームソフトウェアなどのような様々な通信クライアントアプリケーションがインストールされ得る。

端末装置１０１、１０２、１０３は、ハードウェアであってもよく、ソフトウェアであってもよい。端末装置１０１、１０２、１０３がハードウェアである場合は、スマートフォン、タブレットコンピュータ、ＭＰ４（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＶ、ムービング・ピクチャー・エキスパート・グループ・オーディオ・レイヤー４）プレーヤー、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない、画像処理機能を備えた様々な電子デバイスであってもよい。端末装置１０１、１０２、１０３がソフトウェアである場合は、上記に挙げた電子デバイスにインストールされ得る。複数のソフトウェアまたはソフトウェアモジュール（例えば、分散サービスを提供するためのもの）として実装されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは具体的な限定はしない。

サーバ１０５は、例えば、端末装置１０１、１０２、１０３によって再生されるビデオのサポートを提供するバックグラウンドサーバなどのような様々なサービスを提供するサーバであってもよい。バックグラウンドサーバは、受信したアニメビデオ及び顔画像などのデータに対して分析処理などを行い、処理結果（例えば、生成されたビデオ）を端末装置にフィードバックすることができる。

なお、サーバ１０５は、ハードウェアであってもよく、ソフトウェアであってもよい。サーバ１０５がハードウェアである場合は、複数のサーバからなる分散サーバクラスタとして実装されてもよく、単一のサーバとして実装されてもよい。サーバがソフトウェアである場合は、複数のソフトウェアまたはソフトウェアモジュール（例えば、分散サービスを提供するためのもの）として実装されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは具体的な限定はしない。

図１の端末装置、ネットワーク、およびサーバの数は、単なる例示であることが理解されるべきである。実際の必要に応じて、端末装置、ネットワーク、およびサーバの数が任意に設定され得る。

なお、本開示の実施例に係るビデオを生成する方法は、端末装置１０１、１０２、１０３によって実施されてもよく、サーバ１０５によって実行されてもよい。対応して、ビデオを生成するための装置は、端末装置１０１、１０２、１０３内に設置されてもよく、サーバ１０５内に設置されてもよい。

さらに図２を参照すると、図２は、本開示に係るビデオを生成する方法の一実施例のプロセス２００を示している。ビデオを生成する方法は、以下のステップを含む。

ステップ２０１、受信したアニメビデオからターゲットアニメキャラクターのアニメ顔画像シーケンスを取得し、アニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成する。

本実施例では、ビデオを生成するための方法の実行主体（例えば、図１に示す端末装置１０１、１０２、１０３またはサーバ１０５）は、まず、アニメビデオを受信することができる。ここで、アニメとは、アニメーションとマンガの集まりであることを意味する。例えば、実行主体が端末装置である場合、実行主体はユーザから送信されたアニメビデオを直接的に受信することができる。実行主体がサーバである場合、実行主体は有線接続または無線接続を介して、ユーザが使用する端末装置からアニメビデオを受信することができる。次に、実行主体は、受信したアニメビデオからターゲットアニメキャラクターのアニメ顔画像シーケンスを取得することができる。ここで、ターゲットアニメキャラクターは、ユーザが予め選択したアニメキャラクターであってもよい。例えば、ユーザは、アニメキャラクターをクリックするか、またはアニメキャラクターをフレーミングすることにより、ターゲットアニメキャラクターを選択することができる。このように、実行主体は、ユーザの操作（例えば、クリック操作、フレーミング操作など）に応じて、アニメビデオからターゲットアニメキャラクターを決定することができる。次に、実行主体は、アニメビデオからターゲットアニメキャラクターの顔画像のスクリーンショットを取り、アニメ顔画像シーケンスを構成することができる。具体的には、実行主体は、上記アニメビデオにおける顔をフレームごとに検出し、ターゲットアニメキャラクターの顔画像が検出される場合は、ターゲットアニメキャラクターの顔画像のスクリーンショットを取ることができる。最後に、実行主体は、アニメ顔画像シーケンスにおける各アニメ顔画像に対して顔輪郭の検出および抽出を実行することにより、アニメ顔輪郭画像シーケンスを取得することができる。例示として、アニメ顔輪郭画像はターゲットアニメキャラクターの顔の五官の情報を含むことができる。

本実施例のいくつかのオプション的な実施形態では、上記ステップ２０１におけるアニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成するステップは、具体的には、アニメ顔画像シーケンスにおけるアニメ顔画像に対して当該アニメ顔画像の顔キーポイントの検出を行い、検出された顔キーポイントに基づいてアニメ顔輪郭画像を生成するようにしてもよい。

本実施形態では、実行主体は、上記アニメ顔画像シーケンスにおけるフレームごとのアニメ顔画像に対して当該アニメ顔画像の顔キーポイントの検出を行うことにより、当該アニメ顔画像の顔キーポイントを検出することができる。次に、実行主体は同一器官を示す顔キーポイントをつなぐことにより、当該アニメ顔画像に対応するアニメ顔輪郭画像を取得することができる。

ステップ２０２、アニメ顔輪郭画像シーケンスおよび受信した真の人間の顔の初期顔画像に基づいて、真の人間の顔に対する顔画像シーケンスを生成する。

本実施例において、実行主体は、真の人間の顔の顔画像を初期顔画像として受信することができる。ここで、真の人間の顔の顔画像とは、アニメ顔画像ではなく、実世界の人間の顔画像を意味することができる。次に、実行主体は、ステップ２０１で得られたアニメ顔輪郭画像シーケンスおよび初期顔画像に基づいて、真の人間の顔に対する顔画像シーケンスを生成することができる。ここで、上記顔画像シーケンスにおける顔表情は、アニメ顔画像シーケンスにおける顔表情とマッチさせることができる（例えば、類似、同一など）。例えば、上記アニメ顔輪郭画像シーケンスにおけるそれぞれのアニメ顔輪郭画像に対して、実行主体は当該アニメ顔輪郭画像における顔の五官の情報に基づいて、初期顔画像における顔の五官を調整し、顔表情が当該アニメ顔輪郭画像とマッチする上記真の人間の顔の顔画像を取得することができる。

ステップ２０３、顔画像シーケンスに基づいて真の人間の顔に対するアニメ風顔画像シーケンスを生成する。

本実施例では、実行主体は、様々な方法を採用して、ステップ２０２で生成された顔画像シーケンスにおけるそれぞれの顔画像をアニメ顔画像に変換することにより、真の人間の顔に対するアニメ風顔画像シーケンスを取得することができる。例示として、顔画像の色、コントラストなどを調整することにより、顔画像をアニメ風顔画像に変換することができる。

本実施例のいくつかのオプション的な実施形態において、上記ステップ２０３は、具体的に、顔画像シーケンスにおける顔画像を予め確立されたアニメ画像生成モデルに入力して、真の人間の顔に対するアニメ風顔画像シーケンスを生成するようにしてもよい。

本実施形態では、実行主体は、ステップ２０２で生成された顔画像シーケンスにおける各顔画像を予め確立されたアニメ画像生成モデルに入力して、上記真の人間の顔のアニメ風顔画像シーケンスを生成することができる。ここで、上記アニメ画像生成モデルは、アニメ風顔画像を真の人間の顔の顔画像に基づいて生成するために使用され得る。

例示として、上記アニメ画像生成モデルは、機械学習アルゴリズムに基づいてトレーニングして得られたモデルであってもよい。例えば、上記アニメ画像生成モデルは、畳み込みニューラルネットワーク、ディープニューラルネットワークなどであってもよい。上記アニメ画像生成モデルはまた、敵対的生成ネットワーク（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ、ＧＡＮｓ）に含まれた生成モデルであってもよい。敵対的生成ネットワークは、ゲーム理論における２人用ゼロサムゲーム（ｔｗｏ−ｐｌａｙｅｒｇａｍｅ）からヒントを得たものであり、ＧＡＮモデルにおける２つのゲームパーティは、それぞれ生成モデル（ｇｅｎｅｒａｔｉｖｅｍｏｄｅｌ）および識別モデル（ｄｉｓｃｒｉｍｉｎａｔｉｖｅｍｏｄｅｌ）によって構成される。生成モデルは、サンプルデータの分布を捕捉し、実のトレーニングデータに類似するサンプルを生成し、実のサンプルに似るほどよいことが追求する効果である。識別モデルは、サンプルが実のトレーニングデータ（生成モデルの生成データではない）からのものである確率を識別するバイナリ分類器であり、一般的な識別モデルは、線形回帰モデル、線形判別分析、サポートベクターマシン（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ、ＳＶＭ）、ニューラルネットワークなどを含むが、これらに限定されない。ここで、生成モデルおよび識別モデルは、同時にトレーニングされ得る。例えば、識別モデルを固定して生成モデルのパラメータを調整するか、または生成モデルを固定して識別モデルのパラメータを調整することができる。本実施例では、生成モデルは、継続的な学習を通じて、ますます本物に近いアニメ風顔画像を生成するのに対し、識別モデルは、継続的な学習を通じて、生成されたアニメ風顔画像と実際のアニメ顔画像とを区別する能力が高くなる。生成モデルと識別モデルとの対抗により、最終的に、生成モデルによって生成されたアニメ顔画像は、真のアニメ顔画像に近いため、識別モデルを「騙す」ことに成功する。このような敵対的生成ネットワークスは、生成されたアニメ顔画像の真実性を向上させるために使用され得る。

ステップ２０４、アニメビデオにおけるターゲットアニメキャラクターの顔画像をアニメ顔画像シーケンスにおけるアニメ顔画像に置き換え、真の人間の顔に対応するアニメ風ビデオを生成する。

本実施例では、実行主体は、上記アニメビデオにおけるターゲットアニメキャラクターの顔画像をステップ２０３で生成されたアニメ顔画像シーケンスにおけるアニメ顔画像に置き換え、真の人間の顔に対応するアニメ風ビデオを生成することができる。ここで、真の人間の顔に対するアニメ風顔画像シーケンスがターゲットアニメキャラクターに対応するアニメ顔画像シーケンスに基づいて生成されたため、真の人間の顔に対するアニメ風顔画像シーケンスにおけるアニメ顔画像は、ステップ２０１で得られたアニメ顔画像シーケンスにおけるアニメ顔画像とは１対１で対応する。従って、アニメ顔画像シーケンスにおけるアニメ顔画像は、アニメビデオにおけるターゲットアニメキャラクターの顔画像を置き換えるために使用され得る。

さらに図３を参照すると、図３は、本実施例に係るビデオを生成する方法の応用場面の概略図である。図３の応用場面において、端末装置３０１は、まず、受信したアニメビデオからターゲットアニメキャラクターのアニメ顔画像シーケンスを取得し、取得したアニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成する。次に、アニメ顔輪郭画像シーケンスおよび受信した真の人間の顔の初期顔画像に基づいて、真の人間の顔に対する顔画像シーケンスを生成する。次に、顔画像シーケンスに基づいて真の人間の顔に対するアニメ風顔画像シーケンスを生成する。最後に、アニメビデオにおけるターゲットアニメキャラクターの顔画像をアニメ顔画像シーケンスにおけるアニメ顔画像に置き換え、真の人間の顔に対応するアニメ風ビデオを生成する。

本開示の上記実施例に係る方法は、アニメビデオおよび単一の真の人間の顔の初期顔画像に基づいて真の人間の顔に対応するアニメ風ビデオを自動的に生成することができるので、真の人間の顔に対応するアニメ風ビデオの生成効率を向上させることができ、ビデオ生成ステップが簡素化される。

さらに図４を参照すると、図４は、ビデオを生成する方法の別の実施例のプロセス４００を示している。ビデオを生成する方法のプロセス４００は、以下のステップを含む。

ステップ４０１、受信したアニメビデオからターゲットアニメキャラクターのアニメ顔画像シーケンスを取得し、アニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成する。

本実施例では、ステップ４０１は、図２に示す実施例のステップ２０１と同様であるため、ここではその説明を省略する。

ステップ４０２、アニメ顔輪郭画像シーケンスにおけるアニメ顔輪郭画像に対して以下の顔画像生成ステップ４０２１〜４０２２を順次実行する。

本実施例において、実行主体は、アニメ顔輪郭画像シーケンスにおけるアニメ顔輪郭画像の位置に基づいて、アニメ顔輪郭画像シーケンスにおけるアニメ顔輪郭画像を順次処理し、現在処理されているアニメ顔輪郭画像を現在のアニメ顔輪郭画像として決定することができる。ここで、実行主体は、以下の顔画像生成ステップ４０２１〜４０２２を実行することができる。

ステップ４０２１、現在のアニメ顔輪郭画像と初期顔画像の顔特徴情報に基づいて第一顔画像を生成する。

本実施例において、実行主体は、現在のアニメ顔輪郭画像と初期顔画像の顔特徴情報に基づいて第一顔画像を生成することができる。例示として、実行主体の内部に第一顔画像生成モデルを予め設定してもよい。該第一顔画像生成モデルは、アニメ顔輪郭画像および特徴情報と生成された顔画像との対応関係を特定するために使用され得る。ここで、第一顔画像生成モデルは、機械学習アルゴリズムに基づいてトレーニングして得られるモデルであってもよい。例えば、第一顔画像生成モデルは、畳み込みニューラルネットワーク、ディープニューラルネットワークなどであってもよい。例示として、第一顔画像生成モデルは、以下の手順に従ってトレーニングすることにより得たものであってもよい。まず、アニメ顔輪郭画像サンプルと、特徴情報サンプルと、生成された顔画像のサンプルとを含む第一サンプルセットを取得する。ここで、生成された顔画像のサンプルにおける顔表情は、アニメ顔輪郭画像サンプルに対応する顔表情とマッチし、かつ特徴情報サンプルを抽出する際に使用される顔画像における顔が生成された顔画像のサンプルにおける顔と同一人物の顔である。次に、第一サンプルセットにおけるアニメ顔輪郭画像サンプルおよび特徴情報サンプルを入力とし、入力されたアニメ顔輪郭画像サンプルおよび特徴情報サンプルに対応する生成された顔画像のサンプルを所望の出力とし、トレーニングすることにより第一顔画像生成モデルを取得する。

このように、実行主体は、現在のアニメ顔輪郭画像と初期顔画像の顔特徴情報に基づいて第一顔画像を生成することができる。例えば、実行主体は、現在のアニメ顔輪郭画像と初期顔画像の顔特徴情報を上記第一顔画像生成モデルに入力し、第一顔画像生成モデルによって出力された生成された顔画像を第一顔画像とすることができる。

ステップ４０２２、第一顔画像に基づいて真の人間の顔に対する顔画像を決定する。

本実施例において、実行主体は、ステップ４０２１で生成された第一顔画像に基づいて、真の人間の顔に対する顔画像を決定することができる。例示として、実行主体は、第一顔画像を真の人間の顔に対する顔画像として決定することができる。別の例示として、実行主体は、アニメ顔輪郭画像シーケンスにおける最初の所定枚数（例えば、最初の２枚）のアニメ顔輪郭画像に基づいて生成された所定数の第一顔画像を、直接真の人間の顔に対する最初の所定数の顔画像とすることができる。アニメ顔輪郭画像シーケンスにおける、最初の所定数以外のアニメ顔輪郭画像に基づいて生成された第一顔画像については、他の方法により真の人間の顔に対する顔画像を決定してもよい。

本実施例のいくつかのオプション的な実施形態では、上記ステップ４０２２は、具体的に以下の手順に従って実行され得る。

まず、現在最後に決定した少なくとも２つの顔画像に基づいてオプティカルフロー図を生成する。

本実施形態では、アニメ顔輪郭画像シーケンスにおける最初の２つ以外のアニメ顔輪郭画像に基づいて生成された第一顔画像について、実行主体は、現在最後に決定した少なくとも２つの顔画像に基づいてオプティカルフロー図を生成することができる。ここで、現在最後に決定した少なくとも２つの顔画像とは、現時点までに上記顔画像生成ステップに基づいて最後に決定した少なくとも２つの顔画像とすることができる。

例示として、実行主体は、現在最後に決定した少なくとも２枚の顔画像を予め確立されたオプティカルフロー推定モデルに入力し、オプティカルフロー図を取得することができる。ここで、上記オプティカルフロー推定モデルは、少なくとも２枚の画像に基づいてオプティカルフロー図を生成するために使用され得る。オプティカルフローは、画像の変化を表現し、ターゲットの移動情報が含まれている。例示として、オプティカルフロー推定モデルは、畳み込みニューラルネットワーク、ディープニューラルネットワークなど、機械学習アルゴリズムに基づいてトレーニングして得られるモデルであってもよい。例えば、オプティカルフロー推定モデルはさらに、畳み込みニューラルネットワークを介してオプティカルフローを予測するためのＦｌｏｗＮｅｔであってもよい。例えば、上記オプティカルフロー推定モデルは、以下の方法でトレーニングすることにより得られる。まず、トレーニングサンプルセットを取得し、前記トレーニングサンプルは少なくとも２つのトレーニング用顔画像に対応するトレーニング用オプティカルフロー図を含んでもよく、前記少なくとも２つのトレーニング用顔画像は同一ビデオの連続フレームから取得した同一人間の顔の顔画像であってもよく、トレーニング用顔画像オプティカルフロー図には、顔の動き情報が含まれている。次に、トレーニングサンプルセットにおけるトレーニングサンプルのうちの少なくとも２枚のトレーニング用顔画像を入力とし、入力された少なくとも２枚のトレーニング用顔画像に対応するトレーニング用オプティカルフロー図を所望の出力とし、トレーニングによりオプティカルフロー推定モデルを取得する。

次に、現在最後に決定した顔画像およびオプティカルフロー図に基づいて第二顔画像を生成する。

本実施形態において、実行主体は、現在最後に決定した顔画像およびオプティカルフロー図に基づいて第二顔画像を生成することができる。ここで、現在最後に決定した顔画像とは、現時点までに上記顔画像生成ステップで決定した最後の一枚の顔画像とすることができる。

例示として、実行主体は、現在最後に決定した顔画像、および上記ステップで得たオプティカルフロー図を予め確立された第二顔画像生成モデルに入力し、第二顔画像を生成することができる。ここで、上記第二顔画像生成モデルは、顔画像およびオプティカルフロー図と顔画像との対応関係を特定するために使用され得る。即ち、第二顔画像生成モデルは、顔画像およびオプティカルフロー図に基づいて次の顔画像を生成することができる。例示として、上記第二顔画像生成モデルは、畳み込みニューラルネットワーク、ディープニューラルネットワークなど、機械学習アルゴリズムに基づいてトレーニングして得られたモデルであってもよい。例えば、上記第二顔画像生成モデルは、以下の方法でトレーニングすることにより得られる。第二サンプルセットを取得し、前記サンプルは第二サンプル顔画像と、第二サンプル顔画像の次の顔画像の動き情報を含むオプティカルフロー図サンプルと、次の顔画像とを含む。次に、第二サンプルセットにおける第二サンプル顔画像およびサンプルオプティカルフロー図を入力とし、入力した第二サンプル顔画像およびサンプルオプティカルフロー図に対応する次の顔画像を所望の出力とし、トレーニングすることにより、第二顔画像生成モデルを取得する。

最後に、第一顔画像および第二顔画像に基づいて、真の人間の顔に対する顔画像を生成する。

本実施形態では、実行主体は、第一顔画像および第二顔画像に基づいて、真の人間の顔に対する顔画像を生成することができる。例示として、実行主体は、第一顔画像と第二顔画像との加重融合を実行し、真の人間の顔に対する顔画像を取得することができる。本実施形態では、顔画像の生成プロセスにおいてオプティカルフロー図を使用するため、即ち、隣接する顔画像の間の動き情報が保持されるため、生成された顔画像の間のつながりがよりよくすることができるので、顔の五官の動きの大幅のぶれが発生しにくい。

ステップ４０３、決定した顔画像を使用して、真の人間の顔に対する顔画像シーケンスを生成する。

本実施例では、実行主体は、上記顔画像生成ステップに従って、アニメ顔輪郭画像シーケンスにおける各アニメ顔輪郭画像を順次処理して、複数の顔画像を決定することができる。決定した複数の顔画像の数は、アニメ顔輪郭画像シーケンスに含まれる画像の数と同じである。実行主体は、決定した複数の顔画像の決定順序に従って、真の人間の顔に対する顔画像シーケンスを生成することができる。

ステップ４０４、顔画像シーケンスに基づいて真の人間の顔に対するアニメ風顔画像シーケンスを生成する。

本実施例では、ステップ４０４は、図２に示す実施例のステップ２０３と同様であるため、ここではその説明を省略する。

ステップ４０５、アニメビデオにおけるターゲットアニメキャラクターの顔画像をアニメ顔画像シーケンスにおけるアニメ顔画像に置き換え、真の人間の顔に対応するアニメ風ビデオを生成する。

本実施例では、ステップ４０５は、図２に示す実施例のステップ２０４と同様であるため、ここではその説明を省略する。

図４からわかるように、図２に対応する実施例と比べて、本実施例におけるビデオを生成する方法のプロセス４００は、現在のアニメ顔輪郭画像と初期顔画像の顔特徴情報に基づいて真の人間の顔の顔画像を生成するステップを強調している。従って、本実施例に記載の解決手段によって生成された顔画像は、アニメ顔輪郭画像と初期顔画像の顔特徴情報を総合的に考慮したため、生成された顔画像がアニメ顔輪郭画像に対応する人間の顔表情とマッチさせることができたと同時に、初期顔画像に対応する顔の顔特徴が保持されている。

さらに図５を参照すると、上記各図に示された方法の実施形態として、本開示は、図２に示す方法の実施例に対応するビデオを生成する装置の一実施例を提供する。この装置は具体的に様々な電子デバイスに適用できる。

図５に示すように、本実施例におけるビデオを生成する装置５００は、取得ユニット５０１と、第一生成ユニット５０２と、第二生成ユニット５０３と、置き換えユニット５０４とを含む。取得ユニット５０１は、受信したアニメビデオからターゲットアニメキャラクターのアニメ顔画像シーケンスを取得し、上記アニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成するように構成される。第一生成ユニット５０２は、上記アニメ顔輪郭画像シーケンスおよび受信した真の人間の顔の初期顔画像に基づいて、顔表情が上記アニメ顔画像シーケンスにおける顔表情とマッチする上記真の人間の顔の顔画像シーケンスを生成するように構成される。第二生成ユニット５０３は、上記顔画像シーケンスに基づいて上記真の人間の顔に対するアニメ風顔画像シーケンスを生成するように構成される。置き換えユニット５０４は、上記アニメビデオにおける上記ターゲットアニメキャラクターの顔画像を上記アニメ顔画像シーケンスにおけるアニメ顔画像に置き換えて、上記真の人間の顔に対応するアニメ風ビデオを生成するように構成される。

本実施例では、ビデオを生成するための装置５００の取得ユニット５０１、第一生成ユニット５０２、第二生成ユニット５０３、および置き換えユニット５０４の具体的な処理及びその技術的効果は、それぞれ図２に対応する実施例のステップ２０１、ステップ２０２、ステップ２０３、およびステップ２０４の関連説明を参照することができるため、ここではその説明を省略する。

本実施例のいくつかのオプション的な実施形態では、上記第一生成ユニット５０２は、所定の顔画像生成ステップを上記アニメ顔輪郭画像シーケンスにおけるアニメ顔輪郭画像に対して順次実行するように構成された実行サブユニット（図示せず）を含み、上述実行サブユニットは、現在のアニメ顔輪郭画像および上記初期顔画像の顔特徴情報に基づいて第一顔画像を生成するように構成された画像生成モジュール（図示せず）と、上記第一顔画像を用いて上記真の人間の顔に対する顔画像を決定するように構成された決定モジュール（図示せず）と、決定した顔画像を使用して、上記真の人間の顔の顔画像シーケンスを生成するように構成されたシーケンス生成サブユニット（図示せず）と、を含む。

本実施例のいくつかのオプション的な実施形態では、上記決定モジュールは、現在最後に決定した少なくとも２枚の顔画像に基づいてオプティカルフロー図を生成するステップと、現在最後に決定した顔画像および上記オプティカルフロー図に基づいて第二顔画像を生成するステップと、上記第一顔画像および上記第二顔画像に基づいて、上記真の人間の顔に対する顔画像を生成するステップと、を実行するようにさらに構成される。

本実施例のいくつかのオプション的な実施形態では、上記取得ユニット５０１は、上記アニメ顔画像シーケンスにおけるアニメ顔画像に対して当該アニメ顔画像の顔キーポイントの検出を行い、検出された顔キーポイントに基づいてアニメ顔輪郭画像を生成するようにさらに構成される。

本実施例のいくつかのオプション的な実施形態では、上記第二生成ユニットは、上記顔画像シーケンスにおける顔画像を、予め確立されたアニメ画像生成モデルに入力し、上記真の人間の顔に対するアニメ顔画像シーケンスを生成するようにさらに構成され、前記アニメ画像生成モデルは真の人間の顔の顔画像に基づいてアニメ風顔画像の生成に用いられる。

さらに図６を参照すると、図６は、本開示の実施例を実施するのに適した電子デバイス（例えば、図１のサーバまたは端末装置）６００の構造概略図を示している。図６に示す電子デバイスは単なる例示であり、本開示の実施例の機能および使用範囲にいかなる制限も課すべきものではない。

図６に示すように、電子デバイス６００は、リードオンリメモリ（ＲＯＭ）６０２に記憶されたプログラム、または記憶装置６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたプログラムに従って各種の適切な動作および処理を行うことができる、処理装置（例えば、中央処理装置、グラフィックプロセッサなど）６０１を含むことができる。ＲＡＭ６０３には、電子デバイス６００の動作に必要な各種のプログラムおよびデータも記憶されている。処理装置６０１、ＲＯＭ６０２、およびＲＡＭ６０３は、バス６０４を介して相互に接続されている。入力／出力（Ｉ／Ｏ）インターフェース６０５もバス６０４に接続されている。

一般に、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイク、加速度計、ジャイロスコープなどを含む入力装置６０６、液晶ディスプレイ（ＬＣＤ）、スピーカ、バイブレータなどを含む出力装置６０７、磁気テープ、ハードディスクなどを含む記憶装置６０８、および通信装置６０９は、Ｉ／Ｏインターフェース６０５に接続され得る。通信装置６０９は、電子デバイス６００がデータを交換するために他のデバイスと無線または有線で通信することを可能にすることができる。図６には様々な装置を備えた電子デバイス６００が示されているが、示されているすべての装置を実装または具備する必要はないことを理解されたい。より多くのまたはより少ない装置は、代替的に実装または具備されてもよい。図６に示す各ブロックは、１つの装置を表すことができるか、または必要に応じて複数の装置を表すことができる。

特に、本開示の実施例によれば、フローチャートを参照して上述したプロセスは、コンピュータソフトウェアプログラムとして実装されてもよい。例えば、本開示の実施例は、コンピュータ可読媒体上で担持されるコンピュータプログラムを含むコンピュータプログラム製品を含み、このコンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施例では、このコンピュータプログラムは、通信装置６０９を介してネットワークからダウンロードされてインストールされてもよく、記憶装置６０８からインストールされてもよく、ＲＯＭ６０２からインストールされてもよい。このコンピュータプログラムが処理装置６０１によって実行されるとき、本開示の実施例の方法において限定された上記機能が実行される。

なお、本開示の実施例に記載のコンピュータ可読媒体は、コンピュータ可読信号媒体、コンピュータ可読記憶媒体、または上記両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置、または機器であってもよく、これらの任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、１本または複数本の導線を備えた電気コネクタ、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブル・コンパクト・ディスク・リードオンリメモリ（ＣＤ−ＲＯＭ）、光学メモリ、磁気メモリ、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。本開示の実施例では、コンピュータ可読記憶媒体は、コマンド実行システム、装置、またはデバイスによって使用され得るか、またはそれらと組み合わせて使用され得るプログラムを含むかまたは記憶する任意の有形媒体であってもよい。本開示の実施例では、コンピュータ可読信号媒体は、ベースバンド内で伝搬されるか、またはコンピュータ可読プログラムコードを担持するキャリアの一部として伝搬されるデータ信号を含むことができる。そのように伝搬されるデータ信号には、電磁信号、光信号、またはこれらの任意の適切な組み合わせを含むがこれらに限定されない、様々な形態を採用することができる。コンピュータ可読信号媒体は、コマンド実行システム、装置、またはデバイスによって使用されるか、またはそれらと組み合わせて使用されるプログラムを送信、伝搬、または伝送することができる、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。コンピュータ可読媒体に含まれるプログラムコードは、電線、光ファイバケーブル、ＲＦ（無線周波数）など、またはこれらの任意の適切な組み合わせを含むがこれらに限定されない、任意の適切な媒体によって送信することができる。

上記コンピュータ可読媒体は、上記電子デバイスに含まれるものであってもよく、この電子デバイスに組み込まれることなく、単独で存在するものであってもよい。上記コンピュータ可読媒体には１つまたは複数のプログラムが担持されており、上記１つまたは複数のプログラムがこの電子デバイスによって実行されるとき、この電子デバイスは、受信したアニメビデオからターゲットアニメキャラクターのアニメ顔画像シーケンスを取得し、上記アニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成するステップと、上記アニメ顔輪郭画像シーケンスおよび受信した真の人間の顔の初期顔画像に基づいて、顔表情が上記アニメ顔画像シーケンスにおける顔表情とマッチする、上記真の人間の顔の顔画像シーケンスを生成するステップと、上記顔画像シーケンスに基づいて上記真の人間の顔のアニメ風顔画像シーケンスを生成するステップと、上記アニメビデオにおける上記ターゲットアニメキャラクターの顔画像を上記アニメ顔画像シーケンスにおけるアニメ顔画像に置き換えて、上記真の人間の顔に対応するアニメ風ビデオを生成するステップと、を実行する。

本開示の実施例の動作を実行するためのコンピュータプログラムコードは、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語と、「Ｃ」言語または同様のプログラミング言語などの従来の手続き型プログラミング言語とを含む１つまたは複数のプログラミング言語、またはそれらの組み合わせで書かれてもよい。プログラムコードは、完全にユーザコンピュータ上で実行され得るか、または部分的にユーザコンピュータ上で実行され得るか、または独立したソフトウェアパッケージとして、部分的にユーザコンピュータ上で、部分的にリモートコンピュータ上で実行され得るか、または完全にリモートコンピュータまたはサーバ上で実行され得る。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介して、ユーザのコンピュータに接続され得るか、または外部コンピュータに接続され得る（例えば、インターネットサービスプロバイダを利用してインターネットを介して接続される）。

図中のフローチャートおよびブロック図は、本開示の様々な実施例に係るシステム、方法、およびコンピュータプログラム製品の実装可能なアーキテクチャ、機能、および動作を示している。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実施するための１つまたは複数の実行可能なコマンドを含む、モジュール、プログラムセグメントまたはコードの一部を表すことができる。また、いくつかのオプション的な実施形態では、ブロックに示された機能は、図面に示された順序と異なって発生し得る。例えば、連続して示される２つのブロックは、実際には実質的に並行して実行されてもよく、関連機能に応じて、逆の順序で実行されてもよい。また、ブロック図および／またはフローチャートの各ブロック、およびブロック図および／またはフローチャートのブロックの組み合わせは、指定された機能または動作を実行するための専用ハードウェアに基づくシステムによって実装されてもよく、専用ハードウェアとコンピュータ指令との組み合わせによって実装されてもよい。

本開示の実施例に記載のユニットは、ソフトウェアによって実装されてもよく、ハードウェアによって実装されてもよい。上記ユニットは、取得ユニット、第一生成ユニット、第二生成ユニット、および置き換えユニットを含むプロセッサとして説明され得るプロセッサに配置されてもよい。ここで、これらのユニットの名称は、特定の場合にこのユニット自体を限定するものではなく、例えば、第一生成ユニットは、「上記アニメ顔輪郭画像シーケンスおよび受信した真の人間の顔の初期顔画像に基づいて、上記真の人間の顔の顔画像シーケンスを生成するユニット」として説明することもできる。

以上の説明は、本発明の好ましい実施例、および使用された技術的原理の説明にすぎない。本開示の実施例に係る本発明の範囲は、上記技術的特徴の特定の組み合わせからなる技術的解決手段に限定されることはなく、本発明の技術的思想から逸脱しない限り上記技術的特徴またはその均等の特徴の任意の組み合わせによって形成された他の技術的解決手段に含まれることは、当業者が理解すべきである。例えば、上記他の技術的解決手段は、上記特徴と、本開示の実施例において開示された（これらに限定されない）同様の機能を有する技術的特徴とを置き換えることによって形成される技術的解決手段であってもよい。

Claims

受信したアニメビデオからターゲットアニメキャラクターのアニメ顔画像シーケンスを取得し、前記アニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成するステップと、
前記アニメ顔輪郭画像シーケンスおよび受信した真の人間の顔の初期顔画像に基づいて、顔表情が前記アニメ顔画像シーケンスにおける顔表情とマッチする前記真の人間の顔の顔画像シーケンスを生成するステップと、
前記顔画像シーケンスに基づいて前記真の人間の顔のアニメ風顔画像シーケンスを生成するステップと、
前記アニメビデオにおける前記ターゲットアニメキャラクターの顔画像を前記アニメ顔画像シーケンスにおけるアニメ顔画像に置き換え、前記真の人間の顔に対応するアニメ風ビデオを生成するステップと、を含む、
ビデオを生成する方法。
前述した前記アニメ顔輪郭画像シーケンスおよび受信した真の人間の顔の初期顔画像に基づいて、前記真の人間の顔の顔画像シーケンスを生成するステップは、
現在のアニメ顔輪郭画像および前記初期顔画像の顔特徴情報に基づいて第一顔画像を生成するステップと、前記第一顔画像に基づいて前記真の人間の顔の顔画像を決定するステップとを含む顔画像生成ステップを前記アニメ顔輪郭画像シーケンスにおけるアニメ顔輪郭画像に対して順次実行するステップと、
決定した顔画像を使用して、前記真の人間の顔の顔画像シーケンスを生成するステップと、を含む、
請求項１に記載の方法。
前述した前記第一顔画像に基づいて前記真の人間の顔の顔画像を決定するステップは、
現在最後に決定した少なくとも２つの顔画像に基づいてオプティカルフロー図を生成するステップと、
現在最後に決定した顔画像および前記オプティカルフロー図に基づいて第二顔画像を生成するステップと、
前記第一顔画像および前記第二顔画像に基づいて、前記真の人間の顔の顔画像を生成するステップと、を含む、
請求項２に記載の方法。
前述した前記アニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成するステップは、
前記アニメ顔画像シーケンスにおけるアニメ顔画像に対して前記アニメ顔画像の顔キーポイントの検出を行い、検出された顔キーポイントに基づいてアニメ顔輪郭画像を生成するステップを含む、
請求項１に記載の方法。
前述した前記顔画像シーケンスに基づいて前記真の人間の顔のアニメ風顔画像シーケンスを生成するステップは、
前記顔画像シーケンスにおける顔画像を、予め確立されたアニメ画像生成モデルに、入力し、前記真の人間の顔のアニメ風顔画像シーケンスを生成するステップを含み、前記アニメ画像生成モデルはアニメ顔画像を真の人間の顔の顔画像に基づいて生成するために用いられる
請求項１に記載の方法。
受信したアニメビデオからターゲットアニメキャラクターのアニメ顔画像シーケンスを取得し、前記アニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成するように構成された取得ユニットと、
前記アニメ顔輪郭画像シーケンスおよび受信した真の人間の顔の初期顔画像に基づいて、顔表情が前記アニメ顔画像シーケンス内の顔表情とマッチする前記真の人間の顔の顔画像シーケンスを生成するように構成された第一生成ユニットと、
前記顔画像シーケンスに基づいて前記真の人間の顔のアニメ風顔画像シーケンスを生成するように構成された第二生成ユニットと、
前記アニメビデオにおける前記ターゲットアニメキャラクターの顔画像を前記アニメ顔画像シーケンスにおけるアニメ顔画像に置き換え、前記真の人間の顔に対応するアニメ風ビデオを生成するように構成された置き換えユニットと、を含む、
ビデオを生成する装置。
前記第一生成ユニットは、
現在のアニメ顔輪郭画像および前記初期顔画像の顔特徴情報に基づいて第一顔画像を生成するように構成された画像生成モジュールと、前記第一顔画像に基づいて前記真の人間の顔の顔画像を決定するように構成された決定モジュールとを含む、所定の顔画像生成ステップを前記アニメ顔輪郭画像シーケンスにおけるアニメ顔輪郭画像に対して順次実行するように構成された実行サブユニットと、
決定した顔画像を使用して、前記真の人間の顔の顔画像シーケンスを生成するように構成されたシーケンス生成サブユニットと、を含む、
請求項６に記載の装置。
前記決定モジュールは、
現在最後に決定した少なくとも２つの顔画像に基づいてオプティカルフロー図を生成するステップと、
現在最後に決定した顔画像および前記オプティカルフロー図に基づいて第二顔画像を生成するステップと、
前記第一顔画像および前記第二顔画像に基づいて、前記真の人間の顔の顔画像を生成するステップと、を実行するようにさらに構成される、
請求項７に記載の装置。
前記取得ユニットは、
前記アニメ顔画像シーケンスにおけるアニメ顔画像に対して、前記アニメ顔画像の顔キーポイントの検出を行い、検出された顔キーポイントに基づいてアニメ顔輪郭画像を生成するようにさらに構成される、
請求項６に記載の装置。
前記第二生成ユニットは、
前記顔画像シーケンス内の顔画像を、予め確立されたアニメ画像生成モデルに入力し、前記真の人間の顔のアニメ風顔画像シーケンスを生成するようにさらに構成され、前記アニメ画像生成モデルはアニメ顔画像を真の人間の顔の顔画像に基づいて生成するために用いられる、
請求項６に記載の装置。
１つまたは複数のプロセッサと、
１つまたは複数のプログラムを記憶した記憶装置と、を含み、
前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサが請求項１−５のいずれか一項に記載の方法を実行するようにする
デバイス。
コンピュータプログラムを記憶したコンピュータ可読媒体であって、前記プログラムがプロセッサによって実行されると、請求項１−５のいずれか一項に記載の方法を実行するコンピュータ可読媒体。
コンピュータプログラムであって、
プロセッサによって実行されると、請求項１−５のいずれか一項に記載の方法を実行するコンピュータプログラム。