JP2021170313A - ビデオを生成する方法および装置 - Google Patents

ビデオを生成する方法および装置 Download PDF

Info

Publication number
JP2021170313A
JP2021170313A JP2020202078A JP2020202078A JP2021170313A JP 2021170313 A JP2021170313 A JP 2021170313A JP 2020202078 A JP2020202078 A JP 2020202078A JP 2020202078 A JP2020202078 A JP 2020202078A JP 2021170313 A JP2021170313 A JP 2021170313A
Authority
JP
Japan
Prior art keywords
face
face image
image
animated
image sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020202078A
Other languages
English (en)
Other versions
JP7225188B2 (ja
Inventor
劉云峰
Yunfeng Liu
王超
Chao Wang
李遠杭
Yuanhang Li
▲ユン▼挺
Ting Yun
陳国慶
Guoqing Chen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2021170313A publication Critical patent/JP2021170313A/ja
Application granted granted Critical
Publication of JP7225188B2 publication Critical patent/JP7225188B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Geometry (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

【課題】アニメビデオ及び単一の真の人間の顔の初期顔画像に基づいて真の人間の顔に対応するアニメ風ビデオを自動的に生成する方法及び装置を提供する。【解決手段】方法は、受信したアニメビデオからターゲットアニメキャラクターのアニメ顔画像シーケンスを取得し、アニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成するステップと、アニメ顔輪郭画像シーケンスおよび受信した真の人間の顔の初期顔画像に基づいて、真の人間の顔に対する顔画像シーケンスを生成するステップと、顔画像シーケンスに基づいて真の人間の顔に対するアニメ風顔画像シーケンスを生成するステップと、アニメビデオ内のターゲットアニメキャラクターの顔画像をアニメ顔画像シーケンス内のアニメ顔画像に置き換えて、真の人間の顔に対応するアニメ風ビデオを生成するステップと、を含む。【選択図】図2

Description

本開示の実施例は、コンピュータ技術の分野、特にビデオを生成する方法および装置に関する。
コンピュータ画像処理技術の進歩に伴い、画像内およびビデオにおける顔を交換する技術は、ますます急速に発展している。アニメは、芸術形態として、簡単かつ誇張的な方法を使用して生活又は時事を説明する図画である。アニメは、大衆、特に若者に深く愛されている。個性化されたアニメビデオの生成とは、ユーザの真実の人間の顔の特徴に基づいてオリジナルのアニメビデオの顔を変換し、ユーザの顔特徴を備えた個性化されたアニメビデオを生成することをいう。しかしながら、アニメキャラクターの画像、ビデオの制作には時間がかかるだけでなく、高度な専門的なスキルも必要となるため、一般ユーザが個性化されたアニメビデオを制作するのにコストが高すぎる。
本開示の実施例は、ビデオを生成する方法および装置を提供する。
第一様態では、本開示の実施例は、ビデオを生成する方法を提供し、この方法は、受信したアニメビデオからターゲットアニメキャラクターのアニメ顔画像シーケンスを取得し、上記アニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成するステップと、上記アニメ顔輪郭画像シーケンスおよび受信した真の人間の顔の初期顔画像に基づいて、顔表情が上記アニメ顔画像シーケンスにおける顔表情にマッチする、上記真の人間の顔の顔画像シーケンスを生成するステップと、上記顔画像シーケンスに基づいて上記真の人間の顔に対するアニメ風顔画像シーケンスを生成するステップと、上記アニメビデオにおける上記ターゲットアニメキャラクターの顔画像を上記アニメ顔画像シーケンスにおけるアニメ顔画像に置き換え、上記真の人間の顔に対応するアニメ風ビデオを生成するステップと、を含む。
いくつかの実施例では、前述した上記アニメ顔輪郭画像シーケンスおよび受信した真の人間の顔の初期顔画像に基づいて、上記真の人間の顔の顔画像シーケンスを生成するステップは、現在のアニメ顔輪郭画像および上記初期顔画像の顔特徴情報に基づいて第一顔画像を生成するステップと、上記第一顔画像に基づいて上記真の人間の顔に対する顔画像を決定するステップとを含む顔画像生成ステップを上記アニメ顔輪郭画像シーケンスにおけるアニメ顔輪郭画像に対して順次実行するステップと、決定した顔画像を使用して、上記真の人間の顔の顔画像シーケンスを生成するステップと、を含む。
いくつかの実施例では、前述した上記第一顔画像に基づいて上記真の人間の顔の顔画像を決定するステップは、現在最後に決定した少なくとも2つの顔画像に基づいてオプティカルフロー図を生成するステップと、現在最後に決定した顔画像および上記オプティカルフロー図に基づいて第二顔画像を生成するステップと、上記第一顔画像および上記第二顔画像に基づいて、上記真の人間の顔の顔画像を生成するステップと、を含む。
いくつかの実施例では、前述した上記アニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成するステップは、上記アニメ顔画像シーケンスにおけるアニメ顔画像に対して当該アニメ顔画像の顔キーポイントの検出を行い、検出された顔キーポイントに基づいてアニメ顔輪郭画像を生成するステップを含む。
いくつかの実施例では、前述した上記顔画像シーケンスに基づいて上記真の人間の顔のアニメ風顔画像シーケンスを生成するステップは、上記顔画像シーケンスにおける顔画像を、予め確立されたアニメ画像生成モデルに入力し、上記真の人間の顔のアニメ風顔画像シーケンスを生成するステップを含み、前記アニメ画像生成モデルはアニメ顔画像を真の人間の顔の顔画像に基づいて生成するために用いられる。
第二様態では、本開示の実施例は、ビデオを生成する装置を提供し、この装置は、受信したアニメビデオからターゲットアニメキャラクターのアニメ顔画像シーケンスを取得し、上記アニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成するように構成された取得ユニットと、上記アニメ顔輪郭画像シーケンスおよび受信した真の人間の顔の初期顔画像に基づいて、顔表情が上記アニメ顔画像シーケンスにおける顔表情とマッチする、上記真の人間の顔の顔画像シーケンスを生成するように構成された第一生成ユニットと、上記顔画像シーケンスに基づいて上記真の人間の顔のアニメ風顔画像シーケンスを生成するように構成された第二生成ユニットと、上記アニメビデオにおける上記ターゲットアニメキャラクターの顔画像を上記アニメ顔画像シーケンスにおけるアニメ顔画像に置き換えて、上記真の人間の顔に対応するアニメ風ビデオを生成するように構成された置き換えユニットと、を含む。
いくつかの実施例では、上記第一生成ユニットは、現在のアニメ顔輪郭画像および上記初期顔画像の顔特徴情報に基づいて第一顔画像を生成するように構成された画像生成モジュールと、上記第一顔画像に基づいて上記真の人間の顔の顔画像を決定するように構成された決定モジュールとを含む、所定の顔画像生成ステップを上記アニメ顔輪郭画像シーケンスにおけるアニメ顔輪郭画像に対して順次実行するように構成された実行サブユニットと、決定された顔画像を使用して、上記真の人間の顔の顔画像シーケンスを生成するように構成されたシーケンス生成サブユニットと、を含む。
いくつかの実施例では、上記決定モジュールは、現在最後に決定した少なくとも2つの顔画像に基づいてオプティカルフロー図を生成するステップと、現在最後に決定した顔画像および上記オプティカルフロー図に基づいて第二顔画像を生成するステップと、上記第一顔画像および上記第二顔画像に基づいて、上記真の人間の顔の顔画像を生成するステップと、を実行するようにさらに構成される。
いくつかの実施例では、上記取得ユニットは、上記アニメ顔画像シーケンスにおけるアニメ顔画像に対して当該アニメ顔画像の顔キーポイントの検出を行い、検出された顔キーポイントに基づいてアニメ顔輪郭画像を生成するようにさらに構成される。
いくつかの実施例では、上記第二生成ユニットは、アニメ顔画像を真の人間の顔の顔画像に基づいて生成するために使用される予め確立されたアニメ画像生成モデルに、上記顔画像シーケンスにおける顔画像を入力し、上記真の人間の顔のアニメ風顔画像シーケンスを生成するようにさらに構成される。
第三態様では、本開示の実施例は、デバイスを提供し、このデバイスは、1つまたは複数のプロセッサと、1つまたは複数のプログラムを記憶した記憶装置と、を含み、上記1つまたは複数のプログラムが上記1つまたは複数のプロセッサによって実行されると、上記1つまたは複数のプロセッサが第一態様の任意の実施形態に記載の方法を実行するようにする。
第四態様では、本開示の実施例は、コンピュータプログラムを格納したコンピュータ可読媒体であって、このプログラムがプロセッサによって実行されると、第一態様の任意の実施形態に記載の方法を実行する、コンピュータ可読媒体を提供する。
第五態様では、本開示の実施例は、コンピュータプログラムであって、プロセッサによって実行されると、第一態様の任意の実施形態に記載の方法を実行する、コンピュータプログラムを提供する。
本開示の実施例に係るビデオを生成する方法および装置は、まず、受信したアニメビデオからターゲットアニメキャラクターのアニメ顔画像シーケンスを取得し、取得したアニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成する。次に、アニメ顔輪郭画像シーケンスおよび受信した真の人間の顔の初期顔画像に基づいて、真の人間の顔に対する顔画像シーケンスを生成する。さらに、顔画像シーケンスに基づいて真の人間の顔に対するアニメ風顔画像シーケンスを生成する。最後に、アニメビデオにおけるターゲットアニメキャラクターの顔画像をアニメ顔画像シーケンスにおけるアニメ顔画像に置き換え、真の人間の顔に対応するアニメ風ビデオを生成する。アニメビデオおよび単一の真の人間の顔の初期顔画像に基づいて真の人間の顔に対応するアニメ風ビデオを自動的に生成することを実現することにより、真の人間の顔に対応するアニメ風ビデオの生成効率を向上させることができ、ビデオ生成ステップが簡素化された。
本開示の他の特徴、目的および利点は、以下の図面による非限定的な実施例の詳細な説明を参照することにより、さらに明らかになる。
本開示の一実施例が適用され得る例示的なシステムアーキテクチャ図である。 本開示に係るビデオを生成する方法の一実施例のフローチャートである。 本開示に係るビデオを生成する方法の適用シナリオの概略図である。 本開示に係るビデオを生成する方法の別の実施例のフローチャートである。 本開示に係るビデオを生成する装置の一実施例の構造概略図である。 本開示の実施例を実施するのに適する電子デバイスのコンピュータシステムの構造概略図である。
以下、図面および実施例を参照して本開示をさらに詳細に説明する。本明細書に記載された特定の実施例は、関連発明の解釈に用いられるものにすぎず、本発明を限定するものではないことを理解すべきである。また、説明の便宜上、図面には関連発明に関連する部分のみが示されている。
なお、本開示の実施例および実施例における特徴は、矛盾が生じない限り、互いに組み合わせることができる。以下、図面および実施例を参照して本開示を詳細に説明する。
図1は、本開示の実施例が適用され得るビデオを生成する方法またはビデオを生成する装置の例示的なシステムアーキテクチャ100を示している。
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、およびサーバ105を含むことができる。ネットワーク104は、端末装置101、102、103とサーバ105との間の通信リンクを提供するための媒介として機能している。ネットワーク104は、例えば有線、無線通信リンク、または光ファイバケーブルなどの様々な接続形態を含むことができる。
ユーザは、端末装置101、102、103を用いてネットワーク104を介してサーバ105とやりとりし、メッセージなどを送受信することができる。端末装置101、102、103には、例えば、画像処理アプリケーション、ビデオ処理アプリケーション、ウェブブラウザアプリケーション、ショッピングアプリケーション、検索アプリケーション、インスタントメッセージツール、メールボックスクライアント、ソーシャルプラットフォームソフトウェアなどのような様々な通信クライアントアプリケーションがインストールされ得る。
端末装置101、102、103は、ハードウェアであってもよく、ソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合は、スマートフォン、タブレットコンピュータ、MP4(Moving Picture Experts Group Audio Layer IV、ムービング・ピクチャー・エキスパート・グループ・オーディオ・レイヤー4)プレーヤー、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない、画像処理機能を備えた様々な電子デバイスであってもよい。端末装置101、102、103がソフトウェアである場合は、上記に挙げた電子デバイスにインストールされ得る。複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実装されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは具体的な限定はしない。
サーバ105は、例えば、端末装置101、102、103によって再生されるビデオのサポートを提供するバックグラウンドサーバなどのような様々なサービスを提供するサーバであってもよい。バックグラウンドサーバは、受信したアニメビデオ及び顔画像などのデータに対して分析処理などを行い、処理結果(例えば、生成されたビデオ)を端末装置にフィードバックすることができる。
なお、サーバ105は、ハードウェアであってもよく、ソフトウェアであってもよい。サーバ105がハードウェアである場合は、複数のサーバからなる分散サーバクラスタとして実装されてもよく、単一のサーバとして実装されてもよい。サーバがソフトウェアである場合は、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実装されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは具体的な限定はしない。
図1の端末装置、ネットワーク、およびサーバの数は、単なる例示であることが理解されるべきである。実際の必要に応じて、端末装置、ネットワーク、およびサーバの数が任意に設定され得る。
なお、本開示の実施例に係るビデオを生成する方法は、端末装置101、102、103によって実施されてもよく、サーバ105によって実行されてもよい。対応して、ビデオを生成するための装置は、端末装置101、102、103内に設置されてもよく、サーバ105内に設置されてもよい。
さらに図2を参照すると、図2は、本開示に係るビデオを生成する方法の一実施例のプロセス200を示している。ビデオを生成する方法は、以下のステップを含む。
ステップ201、受信したアニメビデオからターゲットアニメキャラクターのアニメ顔画像シーケンスを取得し、アニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成する。
本実施例では、ビデオを生成するための方法の実行主体(例えば、図1に示す端末装置101、102、103またはサーバ105)は、まず、アニメビデオを受信することができる。ここで、アニメとは、アニメーションとマンガの集まりであることを意味する。例えば、実行主体が端末装置である場合、実行主体はユーザから送信されたアニメビデオを直接的に受信することができる。実行主体がサーバである場合、実行主体は有線接続または無線接続を介して、ユーザが使用する端末装置からアニメビデオを受信することができる。次に、実行主体は、受信したアニメビデオからターゲットアニメキャラクターのアニメ顔画像シーケンスを取得することができる。ここで、ターゲットアニメキャラクターは、ユーザが予め選択したアニメキャラクターであってもよい。例えば、ユーザは、アニメキャラクターをクリックするか、またはアニメキャラクターをフレーミングすることにより、ターゲットアニメキャラクターを選択することができる。このように、実行主体は、ユーザの操作(例えば、クリック操作、フレーミング操作など)に応じて、アニメビデオからターゲットアニメキャラクターを決定することができる。次に、実行主体は、アニメビデオからターゲットアニメキャラクターの顔画像のスクリーンショットを取り、アニメ顔画像シーケンスを構成することができる。具体的には、実行主体は、上記アニメビデオにおける顔をフレームごとに検出し、ターゲットアニメキャラクターの顔画像が検出される場合は、ターゲットアニメキャラクターの顔画像のスクリーンショットを取ることができる。最後に、実行主体は、アニメ顔画像シーケンスにおける各アニメ顔画像に対して顔輪郭の検出および抽出を実行することにより、アニメ顔輪郭画像シーケンスを取得することができる。例示として、アニメ顔輪郭画像はターゲットアニメキャラクターの顔の五官の情報を含むことができる。
本実施例のいくつかのオプション的な実施形態では、上記ステップ201におけるアニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成するステップは、具体的には、アニメ顔画像シーケンスにおけるアニメ顔画像に対して当該アニメ顔画像の顔キーポイントの検出を行い、検出された顔キーポイントに基づいてアニメ顔輪郭画像を生成するようにしてもよい。
本実施形態では、実行主体は、上記アニメ顔画像シーケンスにおけるフレームごとのアニメ顔画像に対して当該アニメ顔画像の顔キーポイントの検出を行うことにより、当該アニメ顔画像の顔キーポイントを検出することができる。次に、実行主体は同一器官を示す顔キーポイントをつなぐことにより、当該アニメ顔画像に対応するアニメ顔輪郭画像を取得することができる。
ステップ202、アニメ顔輪郭画像シーケンスおよび受信した真の人間の顔の初期顔画像に基づいて、真の人間の顔に対する顔画像シーケンスを生成する。
本実施例において、実行主体は、真の人間の顔の顔画像を初期顔画像として受信することができる。ここで、真の人間の顔の顔画像とは、アニメ顔画像ではなく、実世界の人間の顔画像を意味することができる。次に、実行主体は、ステップ201で得られたアニメ顔輪郭画像シーケンスおよび初期顔画像に基づいて、真の人間の顔に対する顔画像シーケンスを生成することができる。ここで、上記顔画像シーケンスにおける顔表情は、アニメ顔画像シーケンスにおける顔表情とマッチさせることができる(例えば、類似、同一など)。例えば、上記アニメ顔輪郭画像シーケンスにおけるそれぞれのアニメ顔輪郭画像に対して、実行主体は当該アニメ顔輪郭画像における顔の五官の情報に基づいて、初期顔画像における顔の五官を調整し、顔表情が当該アニメ顔輪郭画像とマッチする上記真の人間の顔の顔画像を取得することができる。
ステップ203、顔画像シーケンスに基づいて真の人間の顔に対するアニメ風顔画像シーケンスを生成する。
本実施例では、実行主体は、様々な方法を採用して、ステップ202で生成された顔画像シーケンスにおけるそれぞれの顔画像をアニメ顔画像に変換することにより、真の人間の顔に対するアニメ風顔画像シーケンスを取得することができる。例示として、顔画像の色、コントラストなどを調整することにより、顔画像をアニメ風顔画像に変換することができる。
本実施例のいくつかのオプション的な実施形態において、上記ステップ203は、具体的に、顔画像シーケンスにおける顔画像を予め確立されたアニメ画像生成モデルに入力して、真の人間の顔に対するアニメ風顔画像シーケンスを生成するようにしてもよい。
本実施形態では、実行主体は、ステップ202で生成された顔画像シーケンスにおける各顔画像を予め確立されたアニメ画像生成モデルに入力して、上記真の人間の顔のアニメ風顔画像シーケンスを生成することができる。ここで、上記アニメ画像生成モデルは、アニメ風顔画像を真の人間の顔の顔画像に基づいて生成するために使用され得る。
例示として、上記アニメ画像生成モデルは、機械学習アルゴリズムに基づいてトレーニングして得られたモデルであってもよい。例えば、上記アニメ画像生成モデルは、畳み込みニューラルネットワーク、ディープニューラルネットワークなどであってもよい。上記アニメ画像生成モデルはまた、敵対的生成ネットワーク(Generative Adversarial Networks、GANs)に含まれた生成モデルであってもよい。敵対的生成ネットワークは、ゲーム理論における2人用ゼロサムゲーム(two−player game)からヒントを得たものであり、GANモデルにおける2つのゲームパーティは、それぞれ生成モデル(generative model)および識別モデル(discriminative model)によって構成される。生成モデルは、サンプルデータの分布を捕捉し、実のトレーニングデータに類似するサンプルを生成し、実のサンプルに似るほどよいことが追求する効果である。識別モデルは、サンプルが実のトレーニングデータ(生成モデルの生成データではない)からのものである確率を識別するバイナリ分類器であり、一般的な識別モデルは、線形回帰モデル、線形判別分析、サポートベクターマシン(Support Vector Machine、SVM)、ニューラルネットワークなどを含むが、これらに限定されない。ここで、生成モデルおよび識別モデルは、同時にトレーニングされ得る。例えば、識別モデルを固定して生成モデルのパラメータを調整するか、または生成モデルを固定して識別モデルのパラメータを調整することができる。本実施例では、生成モデルは、継続的な学習を通じて、ますます本物に近いアニメ風顔画像を生成するのに対し、識別モデルは、継続的な学習を通じて、生成されたアニメ風顔画像と実際のアニメ顔画像とを区別する能力が高くなる。生成モデルと識別モデルとの対抗により、最終的に、生成モデルによって生成されたアニメ顔画像は、真のアニメ顔画像に近いため、識別モデルを「騙す」ことに成功する。このような敵対的生成ネットワークスは、生成されたアニメ顔画像の真実性を向上させるために使用され得る。
ステップ204、アニメビデオにおけるターゲットアニメキャラクターの顔画像をアニメ顔画像シーケンスにおけるアニメ顔画像に置き換え、真の人間の顔に対応するアニメ風ビデオを生成する。
本実施例では、実行主体は、上記アニメビデオにおけるターゲットアニメキャラクターの顔画像をステップ203で生成されたアニメ顔画像シーケンスにおけるアニメ顔画像に置き換え、真の人間の顔に対応するアニメ風ビデオを生成することができる。ここで、真の人間の顔に対するアニメ風顔画像シーケンスがターゲットアニメキャラクターに対応するアニメ顔画像シーケンスに基づいて生成されたため、真の人間の顔に対するアニメ風顔画像シーケンスにおけるアニメ顔画像は、ステップ201で得られたアニメ顔画像シーケンスにおけるアニメ顔画像とは1対1で対応する。従って、アニメ顔画像シーケンスにおけるアニメ顔画像は、アニメビデオにおけるターゲットアニメキャラクターの顔画像を置き換えるために使用され得る。
さらに図3を参照すると、図3は、本実施例に係るビデオを生成する方法の応用場面の概略図である。図3の応用場面において、端末装置301は、まず、受信したアニメビデオからターゲットアニメキャラクターのアニメ顔画像シーケンスを取得し、取得したアニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成する。次に、アニメ顔輪郭画像シーケンスおよび受信した真の人間の顔の初期顔画像に基づいて、真の人間の顔に対する顔画像シーケンスを生成する。次に、顔画像シーケンスに基づいて真の人間の顔に対するアニメ風顔画像シーケンスを生成する。最後に、アニメビデオにおけるターゲットアニメキャラクターの顔画像をアニメ顔画像シーケンスにおけるアニメ顔画像に置き換え、真の人間の顔に対応するアニメ風ビデオを生成する。
本開示の上記実施例に係る方法は、アニメビデオおよび単一の真の人間の顔の初期顔画像に基づいて真の人間の顔に対応するアニメ風ビデオを自動的に生成することができるので、真の人間の顔に対応するアニメ風ビデオの生成効率を向上させることができ、ビデオ生成ステップが簡素化される。
さらに図4を参照すると、図4は、ビデオを生成する方法の別の実施例のプロセス400を示している。ビデオを生成する方法のプロセス400は、以下のステップを含む。
ステップ401、受信したアニメビデオからターゲットアニメキャラクターのアニメ顔画像シーケンスを取得し、アニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成する。
本実施例では、ステップ401は、図2に示す実施例のステップ201と同様であるため、ここではその説明を省略する。
ステップ402、アニメ顔輪郭画像シーケンスにおけるアニメ顔輪郭画像に対して以下の顔画像生成ステップ4021〜4022を順次実行する。
本実施例において、実行主体は、アニメ顔輪郭画像シーケンスにおけるアニメ顔輪郭画像の位置に基づいて、アニメ顔輪郭画像シーケンスにおけるアニメ顔輪郭画像を順次処理し、現在処理されているアニメ顔輪郭画像を現在のアニメ顔輪郭画像として決定することができる。ここで、実行主体は、以下の顔画像生成ステップ4021〜4022を実行することができる。
ステップ4021、現在のアニメ顔輪郭画像と初期顔画像の顔特徴情報に基づいて第一顔画像を生成する。
本実施例において、実行主体は、現在のアニメ顔輪郭画像と初期顔画像の顔特徴情報に基づいて第一顔画像を生成することができる。例示として、実行主体の内部に第一顔画像生成モデルを予め設定してもよい。該第一顔画像生成モデルは、アニメ顔輪郭画像および特徴情報と生成された顔画像との対応関係を特定するために使用され得る。ここで、第一顔画像生成モデルは、機械学習アルゴリズムに基づいてトレーニングして得られるモデルであってもよい。例えば、第一顔画像生成モデルは、畳み込みニューラルネットワーク、ディープニューラルネットワークなどであってもよい。例示として、第一顔画像生成モデルは、以下の手順に従ってトレーニングすることにより得たものであってもよい。まず、アニメ顔輪郭画像サンプルと、特徴情報サンプルと、生成された顔画像のサンプルとを含む第一サンプルセットを取得する。ここで、生成された顔画像のサンプルにおける顔表情は、アニメ顔輪郭画像サンプルに対応する顔表情とマッチし、かつ特徴情報サンプルを抽出する際に使用される顔画像における顔が生成された顔画像のサンプルにおける顔と同一人物の顔である。次に、第一サンプルセットにおけるアニメ顔輪郭画像サンプルおよび特徴情報サンプルを入力とし、入力されたアニメ顔輪郭画像サンプルおよび特徴情報サンプルに対応する生成された顔画像のサンプルを所望の出力とし、トレーニングすることにより第一顔画像生成モデルを取得する。
このように、実行主体は、現在のアニメ顔輪郭画像と初期顔画像の顔特徴情報に基づいて第一顔画像を生成することができる。例えば、実行主体は、現在のアニメ顔輪郭画像と初期顔画像の顔特徴情報を上記第一顔画像生成モデルに入力し、第一顔画像生成モデルによって出力された生成された顔画像を第一顔画像とすることができる。
ステップ4022、第一顔画像に基づいて真の人間の顔に対する顔画像を決定する。
本実施例において、実行主体は、ステップ4021で生成された第一顔画像に基づいて、真の人間の顔に対する顔画像を決定することができる。例示として、実行主体は、第一顔画像を真の人間の顔に対する顔画像として決定することができる。別の例示として、実行主体は、アニメ顔輪郭画像シーケンスにおける最初の所定枚数(例えば、最初の2枚)のアニメ顔輪郭画像に基づいて生成された所定数の第一顔画像を、直接真の人間の顔に対する最初の所定数の顔画像とすることができる。アニメ顔輪郭画像シーケンスにおける、最初の所定数以外のアニメ顔輪郭画像に基づいて生成された第一顔画像については、他の方法により真の人間の顔に対する顔画像を決定してもよい。
本実施例のいくつかのオプション的な実施形態では、上記ステップ4022は、具体的に以下の手順に従って実行され得る。
まず、現在最後に決定した少なくとも2つの顔画像に基づいてオプティカルフロー図を生成する。
本実施形態では、アニメ顔輪郭画像シーケンスにおける最初の2つ以外のアニメ顔輪郭画像に基づいて生成された第一顔画像について、実行主体は、現在最後に決定した少なくとも2つの顔画像に基づいてオプティカルフロー図を生成することができる。ここで、現在最後に決定した少なくとも2つの顔画像とは、現時点までに上記顔画像生成ステップに基づいて最後に決定した少なくとも2つの顔画像とすることができる。
例示として、実行主体は、現在最後に決定した少なくとも2枚の顔画像を予め確立されたオプティカルフロー推定モデルに入力し、オプティカルフロー図を取得することができる。ここで、上記オプティカルフロー推定モデルは、少なくとも2枚の画像に基づいてオプティカルフロー図を生成するために使用され得る。オプティカルフローは、画像の変化を表現し、ターゲットの移動情報が含まれている。例示として、オプティカルフロー推定モデルは、畳み込みニューラルネットワーク、ディープニューラルネットワークなど、機械学習アルゴリズムに基づいてトレーニングして得られるモデルであってもよい。例えば、オプティカルフロー推定モデルはさらに、畳み込みニューラルネットワークを介してオプティカルフローを予測するためのFlowNetであってもよい。例えば、上記オプティカルフロー推定モデルは、以下の方法でトレーニングすることにより得られる。まず、トレーニングサンプルセットを取得し、前記トレーニングサンプルは少なくとも2つのトレーニング用顔画像に対応するトレーニング用オプティカルフロー図を含んでもよく、前記少なくとも2つのトレーニング用顔画像は同一ビデオの連続フレームから取得した同一人間の顔の顔画像であってもよく、トレーニング用顔画像オプティカルフロー図には、顔の動き情報が含まれている。次に、トレーニングサンプルセットにおけるトレーニングサンプルのうちの少なくとも2枚のトレーニング用顔画像を入力とし、入力された少なくとも2枚のトレーニング用顔画像に対応するトレーニング用オプティカルフロー図を所望の出力とし、トレーニングによりオプティカルフロー推定モデルを取得する。
次に、現在最後に決定した顔画像およびオプティカルフロー図に基づいて第二顔画像を生成する。
本実施形態において、実行主体は、現在最後に決定した顔画像およびオプティカルフロー図に基づいて第二顔画像を生成することができる。ここで、現在最後に決定した顔画像とは、現時点までに上記顔画像生成ステップで決定した最後の一枚の顔画像とすることができる。
例示として、実行主体は、現在最後に決定した顔画像、および上記ステップで得たオプティカルフロー図を予め確立された第二顔画像生成モデルに入力し、第二顔画像を生成することができる。ここで、上記第二顔画像生成モデルは、顔画像およびオプティカルフロー図と顔画像との対応関係を特定するために使用され得る。即ち、第二顔画像生成モデルは、顔画像およびオプティカルフロー図に基づいて次の顔画像を生成することができる。例示として、上記第二顔画像生成モデルは、畳み込みニューラルネットワーク、ディープニューラルネットワークなど、機械学習アルゴリズムに基づいてトレーニングして得られたモデルであってもよい。例えば、上記第二顔画像生成モデルは、以下の方法でトレーニングすることにより得られる。第二サンプルセットを取得し、前記サンプルは第二サンプル顔画像と、第二サンプル顔画像の次の顔画像の動き情報を含むオプティカルフロー図サンプルと、次の顔画像とを含む。次に、第二サンプルセットにおける第二サンプル顔画像およびサンプルオプティカルフロー図を入力とし、入力した第二サンプル顔画像およびサンプルオプティカルフロー図に対応する次の顔画像を所望の出力とし、トレーニングすることにより、第二顔画像生成モデルを取得する。
最後に、第一顔画像および第二顔画像に基づいて、真の人間の顔に対する顔画像を生成する。
本実施形態では、実行主体は、第一顔画像および第二顔画像に基づいて、真の人間の顔に対する顔画像を生成することができる。例示として、実行主体は、第一顔画像と第二顔画像との加重融合を実行し、真の人間の顔に対する顔画像を取得することができる。本実施形態では、顔画像の生成プロセスにおいてオプティカルフロー図を使用するため、即ち、隣接する顔画像の間の動き情報が保持されるため、生成された顔画像の間のつながりがよりよくすることができるので、顔の五官の動きの大幅のぶれが発生しにくい。
ステップ403、決定した顔画像を使用して、真の人間の顔に対する顔画像シーケンスを生成する。
本実施例では、実行主体は、上記顔画像生成ステップに従って、アニメ顔輪郭画像シーケンスにおける各アニメ顔輪郭画像を順次処理して、複数の顔画像を決定することができる。決定した複数の顔画像の数は、アニメ顔輪郭画像シーケンスに含まれる画像の数と同じである。実行主体は、決定した複数の顔画像の決定順序に従って、真の人間の顔に対する顔画像シーケンスを生成することができる。
ステップ404、顔画像シーケンスに基づいて真の人間の顔に対するアニメ風顔画像シーケンスを生成する。
本実施例では、ステップ404は、図2に示す実施例のステップ203と同様であるため、ここではその説明を省略する。
ステップ405、アニメビデオにおけるターゲットアニメキャラクターの顔画像をアニメ顔画像シーケンスにおけるアニメ顔画像に置き換え、真の人間の顔に対応するアニメ風ビデオを生成する。
本実施例では、ステップ405は、図2に示す実施例のステップ204と同様であるため、ここではその説明を省略する。
図4からわかるように、図2に対応する実施例と比べて、本実施例におけるビデオを生成する方法のプロセス400は、現在のアニメ顔輪郭画像と初期顔画像の顔特徴情報に基づいて真の人間の顔の顔画像を生成するステップを強調している。従って、本実施例に記載の解決手段によって生成された顔画像は、アニメ顔輪郭画像と初期顔画像の顔特徴情報を総合的に考慮したため、生成された顔画像がアニメ顔輪郭画像に対応する人間の顔表情とマッチさせることができたと同時に、初期顔画像に対応する顔の顔特徴が保持されている。
さらに図5を参照すると、上記各図に示された方法の実施形態として、本開示は、図2に示す方法の実施例に対応するビデオを生成する装置の一実施例を提供する。この装置は具体的に様々な電子デバイスに適用できる。
図5に示すように、本実施例におけるビデオを生成する装置500は、取得ユニット501と、第一生成ユニット502と、第二生成ユニット503と、置き換えユニット504とを含む。取得ユニット501は、受信したアニメビデオからターゲットアニメキャラクターのアニメ顔画像シーケンスを取得し、上記アニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成するように構成される。第一生成ユニット502は、上記アニメ顔輪郭画像シーケンスおよび受信した真の人間の顔の初期顔画像に基づいて、顔表情が上記アニメ顔画像シーケンスにおける顔表情とマッチする上記真の人間の顔の顔画像シーケンスを生成するように構成される。第二生成ユニット503は、上記顔画像シーケンスに基づいて上記真の人間の顔に対するアニメ風顔画像シーケンスを生成するように構成される。置き換えユニット504は、上記アニメビデオにおける上記ターゲットアニメキャラクターの顔画像を上記アニメ顔画像シーケンスにおけるアニメ顔画像に置き換えて、上記真の人間の顔に対応するアニメ風ビデオを生成するように構成される。
本実施例では、ビデオを生成するための装置500の取得ユニット501、第一生成ユニット502、第二生成ユニット503、および置き換えユニット504の具体的な処理及びその技術的効果は、それぞれ図2に対応する実施例のステップ201、ステップ202、ステップ203、およびステップ204の関連説明を参照することができるため、ここではその説明を省略する。
本実施例のいくつかのオプション的な実施形態では、上記第一生成ユニット502は、所定の顔画像生成ステップを上記アニメ顔輪郭画像シーケンスにおけるアニメ顔輪郭画像に対して順次実行するように構成された実行サブユニット(図示せず)を含み、上述実行サブユニットは、現在のアニメ顔輪郭画像および上記初期顔画像の顔特徴情報に基づいて第一顔画像を生成するように構成された画像生成モジュール(図示せず)と、上記第一顔画像を用いて上記真の人間の顔に対する顔画像を決定するように構成された決定モジュール(図示せず)と、決定した顔画像を使用して、上記真の人間の顔の顔画像シーケンスを生成するように構成されたシーケンス生成サブユニット(図示せず)と、を含む。
本実施例のいくつかのオプション的な実施形態では、上記決定モジュールは、現在最後に決定した少なくとも2枚の顔画像に基づいてオプティカルフロー図を生成するステップと、現在最後に決定した顔画像および上記オプティカルフロー図に基づいて第二顔画像を生成するステップと、上記第一顔画像および上記第二顔画像に基づいて、上記真の人間の顔に対する顔画像を生成するステップと、を実行するようにさらに構成される。
本実施例のいくつかのオプション的な実施形態では、上記取得ユニット501は、上記アニメ顔画像シーケンスにおけるアニメ顔画像に対して当該アニメ顔画像の顔キーポイントの検出を行い、検出された顔キーポイントに基づいてアニメ顔輪郭画像を生成するようにさらに構成される。
本実施例のいくつかのオプション的な実施形態では、上記第二生成ユニットは、上記顔画像シーケンスにおける顔画像を、予め確立されたアニメ画像生成モデルに入力し、上記真の人間の顔に対するアニメ顔画像シーケンスを生成するようにさらに構成され、前記アニメ画像生成モデルは真の人間の顔の顔画像に基づいてアニメ風顔画像の生成に用いられる。
さらに図6を参照すると、図6は、本開示の実施例を実施するのに適した電子デバイス(例えば、図1のサーバまたは端末装置)600の構造概略図を示している。図6に示す電子デバイスは単なる例示であり、本開示の実施例の機能および使用範囲にいかなる制限も課すべきものではない。
図6に示すように、電子デバイス600は、リードオンリメモリ(ROM)602に記憶されたプログラム、または記憶装置608からランダムアクセスメモリ(RAM)603にロードされたプログラムに従って各種の適切な動作および処理を行うことができる、処理装置(例えば、中央処理装置、グラフィックプロセッサなど)601を含むことができる。RAM603には、電子デバイス600の動作に必要な各種のプログラムおよびデータも記憶されている。処理装置601、ROM602、およびRAM603は、バス604を介して相互に接続されている。入力/出力(I/O)インターフェース605もバス604に接続されている。
一般に、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイク、加速度計、ジャイロスコープなどを含む入力装置606、液晶ディスプレイ(LCD)、スピーカ、バイブレータなどを含む出力装置607、磁気テープ、ハードディスクなどを含む記憶装置608、および通信装置609は、I/Oインターフェース605に接続され得る。通信装置609は、電子デバイス600がデータを交換するために他のデバイスと無線または有線で通信することを可能にすることができる。図6には様々な装置を備えた電子デバイス600が示されているが、示されているすべての装置を実装または具備する必要はないことを理解されたい。より多くのまたはより少ない装置は、代替的に実装または具備されてもよい。図6に示す各ブロックは、1つの装置を表すことができるか、または必要に応じて複数の装置を表すことができる。
特に、本開示の実施例によれば、フローチャートを参照して上述したプロセスは、コンピュータソフトウェアプログラムとして実装されてもよい。例えば、本開示の実施例は、コンピュータ可読媒体上で担持されるコンピュータプログラムを含むコンピュータプログラム製品を含み、このコンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施例では、このコンピュータプログラムは、通信装置609を介してネットワークからダウンロードされてインストールされてもよく、記憶装置608からインストールされてもよく、ROM602からインストールされてもよい。このコンピュータプログラムが処理装置601によって実行されるとき、本開示の実施例の方法において限定された上記機能が実行される。
なお、本開示の実施例に記載のコンピュータ可読媒体は、コンピュータ可読信号媒体、コンピュータ可読記憶媒体、または上記両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置、または機器であってもよく、これらの任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、1本または複数本の導線を備えた電気コネクタ、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能なプログラマブルリードオンリメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブル・コンパクト・ディスク・リードオンリメモリ(CD−ROM)、光学メモリ、磁気メモリ、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。本開示の実施例では、コンピュータ可読記憶媒体は、コマンド実行システム、装置、またはデバイスによって使用され得るか、またはそれらと組み合わせて使用され得るプログラムを含むかまたは記憶する任意の有形媒体であってもよい。本開示の実施例では、コンピュータ可読信号媒体は、ベースバンド内で伝搬されるか、またはコンピュータ可読プログラムコードを担持するキャリアの一部として伝搬されるデータ信号を含むことができる。そのように伝搬されるデータ信号には、電磁信号、光信号、またはこれらの任意の適切な組み合わせを含むがこれらに限定されない、様々な形態を採用することができる。コンピュータ可読信号媒体は、コマンド実行システム、装置、またはデバイスによって使用されるか、またはそれらと組み合わせて使用されるプログラムを送信、伝搬、または伝送することができる、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。コンピュータ可読媒体に含まれるプログラムコードは、電線、光ファイバケーブル、RF(無線周波数)など、またはこれらの任意の適切な組み合わせを含むがこれらに限定されない、任意の適切な媒体によって送信することができる。
上記コンピュータ可読媒体は、上記電子デバイスに含まれるものであってもよく、この電子デバイスに組み込まれることなく、単独で存在するものであってもよい。上記コンピュータ可読媒体には1つまたは複数のプログラムが担持されており、上記1つまたは複数のプログラムがこの電子デバイスによって実行されるとき、この電子デバイスは、受信したアニメビデオからターゲットアニメキャラクターのアニメ顔画像シーケンスを取得し、上記アニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成するステップと、上記アニメ顔輪郭画像シーケンスおよび受信した真の人間の顔の初期顔画像に基づいて、顔表情が上記アニメ顔画像シーケンスにおける顔表情とマッチする、上記真の人間の顔の顔画像シーケンスを生成するステップと、上記顔画像シーケンスに基づいて上記真の人間の顔のアニメ風顔画像シーケンスを生成するステップと、上記アニメビデオにおける上記ターゲットアニメキャラクターの顔画像を上記アニメ顔画像シーケンスにおけるアニメ顔画像に置き換えて、上記真の人間の顔に対応するアニメ風ビデオを生成するステップと、を実行する。
本開示の実施例の動作を実行するためのコンピュータプログラムコードは、Java、Smalltalk、C++などのオブジェクト指向プログラミング言語と、「C」言語または同様のプログラミング言語などの従来の手続き型プログラミング言語とを含む1つまたは複数のプログラミング言語、またはそれらの組み合わせで書かれてもよい。プログラムコードは、完全にユーザコンピュータ上で実行され得るか、または部分的にユーザコンピュータ上で実行され得るか、または独立したソフトウェアパッケージとして、部分的にユーザコンピュータ上で、部分的にリモートコンピュータ上で実行され得るか、または完全にリモートコンピュータまたはサーバ上で実行され得る。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介して、ユーザのコンピュータに接続され得るか、または外部コンピュータに接続され得る(例えば、インターネットサービスプロバイダを利用してインターネットを介して接続される)。
図中のフローチャートおよびブロック図は、本開示の様々な実施例に係るシステム、方法、およびコンピュータプログラム製品の実装可能なアーキテクチャ、機能、および動作を示している。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実施するための1つまたは複数の実行可能なコマンドを含む、モジュール、プログラムセグメントまたはコードの一部を表すことができる。また、いくつかのオプション的な実施形態では、ブロックに示された機能は、図面に示された順序と異なって発生し得る。例えば、連続して示される2つのブロックは、実際には実質的に並行して実行されてもよく、関連機能に応じて、逆の順序で実行されてもよい。また、ブロック図および/またはフローチャートの各ブロック、およびブロック図および/またはフローチャートのブロックの組み合わせは、指定された機能または動作を実行するための専用ハードウェアに基づくシステムによって実装されてもよく、専用ハードウェアとコンピュータ指令との組み合わせによって実装されてもよい。
本開示の実施例に記載のユニットは、ソフトウェアによって実装されてもよく、ハードウェアによって実装されてもよい。上記ユニットは、取得ユニット、第一生成ユニット、第二生成ユニット、および置き換えユニットを含むプロセッサとして説明され得るプロセッサに配置されてもよい。ここで、これらのユニットの名称は、特定の場合にこのユニット自体を限定するものではなく、例えば、第一生成ユニットは、「上記アニメ顔輪郭画像シーケンスおよび受信した真の人間の顔の初期顔画像に基づいて、上記真の人間の顔の顔画像シーケンスを生成するユニット」として説明することもできる。
以上の説明は、本発明の好ましい実施例、および使用された技術的原理の説明にすぎない。本開示の実施例に係る本発明の範囲は、上記技術的特徴の特定の組み合わせからなる技術的解決手段に限定されることはなく、本発明の技術的思想から逸脱しない限り上記技術的特徴またはその均等の特徴の任意の組み合わせによって形成された他の技術的解決手段に含まれることは、当業者が理解すべきである。例えば、上記他の技術的解決手段は、上記特徴と、本開示の実施例において開示された(これらに限定されない)同様の機能を有する技術的特徴とを置き換えることによって形成される技術的解決手段であってもよい。

Claims (13)

  1. 受信したアニメビデオからターゲットアニメキャラクターのアニメ顔画像シーケンスを取得し、前記アニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成するステップと、
    前記アニメ顔輪郭画像シーケンスおよび受信した真の人間の顔の初期顔画像に基づいて、顔表情が前記アニメ顔画像シーケンスにおける顔表情とマッチする前記真の人間の顔の顔画像シーケンスを生成するステップと、
    前記顔画像シーケンスに基づいて前記真の人間の顔のアニメ風顔画像シーケンスを生成するステップと、
    前記アニメビデオにおける前記ターゲットアニメキャラクターの顔画像を前記アニメ顔画像シーケンスにおけるアニメ顔画像に置き換え、前記真の人間の顔に対応するアニメ風ビデオを生成するステップと、を含む、
    ビデオを生成する方法。
  2. 前述した前記アニメ顔輪郭画像シーケンスおよび受信した真の人間の顔の初期顔画像に基づいて、前記真の人間の顔の顔画像シーケンスを生成するステップは、
    現在のアニメ顔輪郭画像および前記初期顔画像の顔特徴情報に基づいて第一顔画像を生成するステップと、前記第一顔画像に基づいて前記真の人間の顔の顔画像を決定するステップとを含む顔画像生成ステップを前記アニメ顔輪郭画像シーケンスにおけるアニメ顔輪郭画像に対して順次実行するステップと、
    決定した顔画像を使用して、前記真の人間の顔の顔画像シーケンスを生成するステップと、を含む、
    請求項1に記載の方法。
  3. 前述した前記第一顔画像に基づいて前記真の人間の顔の顔画像を決定するステップは、
    現在最後に決定した少なくとも2つの顔画像に基づいてオプティカルフロー図を生成するステップと、
    現在最後に決定した顔画像および前記オプティカルフロー図に基づいて第二顔画像を生成するステップと、
    前記第一顔画像および前記第二顔画像に基づいて、前記真の人間の顔の顔画像を生成するステップと、を含む、
    請求項2に記載の方法。
  4. 前述した前記アニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成するステップは、
    前記アニメ顔画像シーケンスにおけるアニメ顔画像に対して前記アニメ顔画像の顔キーポイントの検出を行い、検出された顔キーポイントに基づいてアニメ顔輪郭画像を生成するステップを含む、
    請求項1に記載の方法。
  5. 前述した前記顔画像シーケンスに基づいて前記真の人間の顔のアニメ風顔画像シーケンスを生成するステップは、
    前記顔画像シーケンスにおける顔画像を、予め確立されたアニメ画像生成モデルに、入力し、前記真の人間の顔のアニメ風顔画像シーケンスを生成するステップを含み、前記アニメ画像生成モデルはアニメ顔画像を真の人間の顔の顔画像に基づいて生成するために用いられる
    請求項1に記載の方法。
  6. 受信したアニメビデオからターゲットアニメキャラクターのアニメ顔画像シーケンスを取得し、前記アニメ顔画像シーケンスに基づいてアニメ顔輪郭画像シーケンスを生成するように構成された取得ユニットと、
    前記アニメ顔輪郭画像シーケンスおよび受信した真の人間の顔の初期顔画像に基づいて、顔表情が前記アニメ顔画像シーケンス内の顔表情とマッチする前記真の人間の顔の顔画像シーケンスを生成するように構成された第一生成ユニットと、
    前記顔画像シーケンスに基づいて前記真の人間の顔のアニメ風顔画像シーケンスを生成するように構成された第二生成ユニットと、
    前記アニメビデオにおける前記ターゲットアニメキャラクターの顔画像を前記アニメ顔画像シーケンスにおけるアニメ顔画像に置き換え、前記真の人間の顔に対応するアニメ風ビデオを生成するように構成された置き換えユニットと、を含む、
    ビデオを生成する装置。
  7. 前記第一生成ユニットは、
    現在のアニメ顔輪郭画像および前記初期顔画像の顔特徴情報に基づいて第一顔画像を生成するように構成された画像生成モジュールと、前記第一顔画像に基づいて前記真の人間の顔の顔画像を決定するように構成された決定モジュールとを含む、所定の顔画像生成ステップを前記アニメ顔輪郭画像シーケンスにおけるアニメ顔輪郭画像に対して順次実行するように構成された実行サブユニットと、
    決定した顔画像を使用して、前記真の人間の顔の顔画像シーケンスを生成するように構成されたシーケンス生成サブユニットと、を含む、
    請求項6に記載の装置。
  8. 前記決定モジュールは、
    現在最後に決定した少なくとも2つの顔画像に基づいてオプティカルフロー図を生成するステップと、
    現在最後に決定した顔画像および前記オプティカルフロー図に基づいて第二顔画像を生成するステップと、
    前記第一顔画像および前記第二顔画像に基づいて、前記真の人間の顔の顔画像を生成するステップと、を実行するようにさらに構成される、
    請求項7に記載の装置。
  9. 前記取得ユニットは、
    前記アニメ顔画像シーケンスにおけるアニメ顔画像に対して、前記アニメ顔画像の顔キーポイントの検出を行い、検出された顔キーポイントに基づいてアニメ顔輪郭画像を生成するようにさらに構成される、
    請求項6に記載の装置。
  10. 前記第二生成ユニットは、
    前記顔画像シーケンス内の顔画像を、予め確立されたアニメ画像生成モデルに入力し、前記真の人間の顔のアニメ風顔画像シーケンスを生成するようにさらに構成され、前記アニメ画像生成モデルはアニメ顔画像を真の人間の顔の顔画像に基づいて生成するために用いられる、
    請求項6に記載の装置。
  11. 1つまたは複数のプロセッサと、
    1つまたは複数のプログラムを記憶した記憶装置と、を含み、
    前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサが請求項1−5のいずれか一項に記載の方法を実行するようにする
    デバイス。
  12. コンピュータプログラムを記憶したコンピュータ可読媒体であって、前記プログラムがプロセッサによって実行されると、請求項1−5のいずれか一項に記載の方法を実行するコンピュータ可読媒体。
  13. コンピュータプログラムであって、
    プロセッサによって実行されると、請求項1−5のいずれか一項に記載の方法を実行するコンピュータプログラム。
JP2020202078A 2020-04-02 2020-12-04 ビデオを生成する方法および装置 Active JP7225188B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010256117.1A CN111476871B (zh) 2020-04-02 2020-04-02 用于生成视频的方法和装置
CN202010256117.1 2020-04-02

Publications (2)

Publication Number Publication Date
JP2021170313A true JP2021170313A (ja) 2021-10-28
JP7225188B2 JP7225188B2 (ja) 2023-02-20

Family

ID=71750435

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020202078A Active JP7225188B2 (ja) 2020-04-02 2020-12-04 ビデオを生成する方法および装置

Country Status (5)

Country Link
US (1) US11670015B2 (ja)
EP (1) EP3889912B1 (ja)
JP (1) JP7225188B2 (ja)
KR (1) KR102488530B1 (ja)
CN (1) CN111476871B (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11704851B2 (en) * 2020-05-27 2023-07-18 Snap Inc. Personalized videos using selfies and stock videos
CN112752147A (zh) * 2020-09-04 2021-05-04 腾讯科技(深圳)有限公司 视频处理方法、装置和存储介质
CN112101320A (zh) * 2020-11-18 2020-12-18 北京世纪好未来教育科技有限公司 模型训练方法、图像生成方法、装置、设备及存储介质
CN113222810A (zh) * 2021-05-21 2021-08-06 北京大米科技有限公司 图像处理方法和图像处理装置
CN113379877B (zh) * 2021-06-08 2023-07-28 北京百度网讯科技有限公司 人脸视频生成方法、装置、电子设备及存储介质
KR102582445B1 (ko) 2021-07-20 2023-09-25 임욱빈 인터랙티브 자연어 처리 기반의 동영상 생성 방법
CN114039958A (zh) * 2021-11-08 2022-02-11 湖南快乐阳光互动娱乐传媒有限公司 一种多媒体处理方法及装置
CN114283060A (zh) * 2021-12-20 2022-04-05 北京字节跳动网络技术有限公司 视频生成方法、装置、设备及存储介质
KR102586637B1 (ko) 2021-12-28 2023-10-06 연세대학교 산학협력단 광학 흐름을 이용한 합성 동영상 생성 방법
KR20230143066A (ko) * 2022-04-04 2023-10-11 삼성전자주식회사 디스플레이 장치 및 그 동작 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002008057A (ja) * 2000-05-08 2002-01-11 Moria Technology:Kk アニメーション映像合成装置及びその方法
US20070008322A1 (en) * 2005-07-11 2007-01-11 Ludwigsen David M System and method for creating animated video with personalized elements

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7165029B2 (en) * 2002-05-09 2007-01-16 Intel Corporation Coupled hidden Markov model for audiovisual speech recognition
US20030212552A1 (en) * 2002-05-09 2003-11-13 Liang Lu Hong Face recognition procedure useful for audiovisual speech recognition
SG152952A1 (en) * 2007-12-05 2009-06-29 Gemini Info Pte Ltd Method for automatically producing video cartoon with superimposed faces from cartoon template
US8831379B2 (en) * 2008-04-04 2014-09-09 Microsoft Corporation Cartoon personalization
CN105139438B (zh) * 2014-09-19 2018-01-12 电子科技大学 视频人脸卡通动画生成方法
WO2017137947A1 (en) * 2016-02-10 2017-08-17 Vats Nitin Producing realistic talking face with expression using images text and voice
WO2018018076A1 (en) * 2016-07-25 2018-02-01 BGR Technologies Pty Limited Creating videos with facial expressions
US11003898B2 (en) * 2016-07-25 2021-05-11 BGR Technologies Pty Limited Creating videos with facial expressions
CN106251396B (zh) * 2016-07-29 2021-08-13 迈吉客科技(北京)有限公司 三维模型的实时控制方法和系统
KR102359558B1 (ko) * 2017-03-28 2022-02-09 삼성전자주식회사 얼굴 인증 방법 및 장치
CN109952594B (zh) * 2017-10-18 2022-01-07 腾讯科技(深圳)有限公司 图像处理方法、装置、终端及存储介质
US10733699B2 (en) * 2017-10-24 2020-08-04 Deep North, Inc. Face replacement and alignment
CN109993716B (zh) 2017-12-29 2023-04-14 微软技术许可有限责任公司 图像融合变换
CN108717719A (zh) * 2018-05-23 2018-10-30 腾讯科技(深圳)有限公司 卡通人脸图像的生成方法、装置及计算机存储介质
CN109584151B (zh) * 2018-11-30 2022-12-13 腾讯科技(深圳)有限公司 人脸美化方法、装置、终端及存储介质
US10789453B2 (en) * 2019-01-18 2020-09-29 Snap Inc. Face reenactment
CN109788312B (zh) * 2019-01-28 2022-10-21 北京易捷胜科技有限公司 一种视频中人物的替换方法
CN110136229B (zh) * 2019-05-27 2023-07-14 广州亮风台信息科技有限公司 一种用于实时虚拟换脸的方法与设备
CN110232722B (zh) * 2019-06-13 2023-08-04 腾讯科技(深圳)有限公司 一种图像处理方法及装置
CN110245638A (zh) * 2019-06-20 2019-09-17 北京百度网讯科技有限公司 视频生成方法和装置
US10803646B1 (en) * 2019-08-19 2020-10-13 Neon Evolution Inc. Methods and systems for image and voice processing
CN110503703B (zh) * 2019-08-27 2023-10-13 北京百度网讯科技有限公司 用于生成图像的方法和装置
US11477366B2 (en) * 2020-03-31 2022-10-18 Snap Inc. Selfie setup and stock videos creation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002008057A (ja) * 2000-05-08 2002-01-11 Moria Technology:Kk アニメーション映像合成装置及びその方法
US20070008322A1 (en) * 2005-07-11 2007-01-11 Ludwigsen David M System and method for creating animated video with personalized elements

Also Published As

Publication number Publication date
EP3889912A1 (en) 2021-10-06
US11670015B2 (en) 2023-06-06
KR20210040882A (ko) 2021-04-14
CN111476871A (zh) 2020-07-31
US20210312671A1 (en) 2021-10-07
EP3889912B1 (en) 2023-06-21
KR102488530B1 (ko) 2023-01-13
JP7225188B2 (ja) 2023-02-20
CN111476871B (zh) 2023-10-03

Similar Documents

Publication Publication Date Title
JP7225188B2 (ja) ビデオを生成する方法および装置
US11158102B2 (en) Method and apparatus for processing information
US11062494B2 (en) Electronic messaging utilizing animatable 3D models
US11151765B2 (en) Method and apparatus for generating information
US11978245B2 (en) Method and apparatus for generating image
JP7084457B2 (ja) 画像の生成方法、生成装置、電子機器、コンピュータ可読媒体およびコンピュータプログラム
CN110827378B (zh) 虚拟形象的生成方法、装置、终端及存储介质
JP2021192222A (ja) 動画インタラクティブ方法と装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム
CN110085244B (zh) 直播互动方法、装置、电子设备及可读存储介质
CN107609506B (zh) 用于生成图像的方法和装置
US10755463B1 (en) Audio-based face tracking and lip syncing for natural facial animation and lip movement
CN109993150B (zh) 用于识别年龄的方法和装置
CN109981787B (zh) 用于展示信息的方法和装置
KR20210001859A (ko) 3차원 가상 인물 입모양 변화 제어 방법 및 장치
WO2020211573A1 (zh) 用于处理图像的方法和装置
CN110472558B (zh) 图像处理方法和装置
CN109934191A (zh) 信息处理方法和装置
WO2023138498A1 (zh) 生成风格化图像的方法、装置、电子设备及存储介质
EP4222961A1 (en) Method, system and computer-readable storage medium for image animation
CN114419300A (zh) 风格化图像生成方法、装置、电子设备及存储介质
CN114581980A (zh) 用于生成说话人像视频和训练人脸渲染模型的方法、装置
CN112364144A (zh) 交互方法、装置、设备和计算机可读介质
CN110008926B (zh) 用于识别年龄的方法和装置
CN110097004B (zh) 面部表情识别方法和装置
US11741650B2 (en) Advanced electronic messaging utilizing animatable 3D models

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220922

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230131

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230208

R150 Certificate of patent or registration of utility model

Ref document number: 7225188

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150