JP2024513640A - 仮想対象のアクション処理方法およびその装置、コンピュータプログラム - Google Patents

仮想対象のアクション処理方法およびその装置、コンピュータプログラム Download PDF

Info

Publication number
JP2024513640A
JP2024513640A JP2023549586A JP2023549586A JP2024513640A JP 2024513640 A JP2024513640 A JP 2024513640A JP 2023549586 A JP2023549586 A JP 2023549586A JP 2023549586 A JP2023549586 A JP 2023549586A JP 2024513640 A JP2024513640 A JP 2024513640A
Authority
JP
Japan
Prior art keywords
action
state image
video frame
frame sequence
predetermined state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023549586A
Other languages
English (en)
Inventor
ティアン,カイ
チェン,ウェイ
ス,シュエフェン
Original Assignee
北京捜狗科技▲発▼展有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京捜狗科技▲発▼展有限公司 filed Critical 北京捜狗科技▲発▼展有限公司
Publication of JP2024513640A publication Critical patent/JP2024513640A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/54Extraction of image or video features relating to texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Processing Or Creating Images (AREA)
  • Studio Circuits (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

仮想対象のアクション処理方法およびその装置、記憶媒体を提供し、前記方法は、具体的には、アクション命令を受信するステップであって、当該アクション命令は、アクション識別子と時間関連情報とを含み得るステップ(101)と、上記のアクション識別子に対応するアクションビデオフレームシーケンスを決定するステップ(102)と、ターゲット時間における仮想対象の所定状態画像に基づいて、上記のアクションビデオフレームシーケンスから、上記の所定状態画像に対応するアクション状態画像を決定するステップであって、上記のターゲット時間は、上記の時間関連情報に基づいて決定されることができる、ステップ(103)と、上記の所定状態画像および上記のアクション状態画像に基づいて、接続ビデオフレームシーケンスを生成するステップであって、上記の接続ビデオフレームシーケンスは、上記の所定状態画像と上記のアクションビデオフレームシーケンスを接続するために使用される、ステップ(104)と、上記の接続ビデオフレームシーケンスと上記のアクションビデオフレームシーケンスを繋ぎ合わせて、アクションビデオを取得するステップ(105)と、を含む。本願実施例は、仮想対象のアクション処理の効率を向上させることができる。

Description

[関連出願への相互参照]
本願は、2021年07月07日に提出された、出願番号が202110770548.4であり、発明の名称が「仮想対象のアクション処理方法およびその装置、記憶媒体」である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照により本願に援用される。
本願は、通信技術分野に関し、特に、仮想対象のアクション処理方法およびその装置、コンピュータプログラムに関するものである。
通信技術の発展に伴い、仮想対象は、放送現場、教育現場、医療現場、接客現場などの現場で幅広く活用できるようになった。放送現場を例にとると、仮想対象は、ニュース放送やゲーム解説を実行するメディアワーカーに取って代わることができる。
実際の適用において、仮想対象は通常、何らかのアクションを実行する必要がある。現在、関連技術における仮想対象のアクション処理プロセスによれば、通常、まず、ユーザが時系列で人体のキーポイント情報を提供し、そして、上記のキーポイント情報を敵対的生成ネットワーク(GAN:Generative Adversarial Networks)に入力して、アクションビデオ内のアクションビデオフレームを生成し、次に、時系列に従って、アクションビデオ内のアクションビデオフレームを繋ぎ合わせて、対応するアクションビデオを取得する。
関連技術におけるアクションビデオの生成には、かなり時間がかかり、アクション処理の効率が低下する。
本願実施例は、仮想対象のアクション処理の効率を向上させることができる、仮想対象のアクション処理方法およびその装置、記憶媒体を提案する。
本願は、コンピュータ機器が実行する、仮想対象のアクション処理方法を提供し、前記方法は、
アクション命令を受信するステップであって、前記アクション命令は、アクション識別子と時間関連情報とを含む、ステップと、
前記アクション識別子に対応するアクションビデオフレームシーケンスを決定するステップと、
ターゲット時間における仮想対象の所定状態画像に基づいて、前記アクションビデオフレームシーケンスから、前記所定状態画像に対応するアクション状態画像を決定するステップであって、前記ターゲット時間は、前記時間関連情報に基づいて決定される、ステップと、
前記所定状態画像および前記アクション状態画像に基づいて、接続ビデオフレームシーケンスを生成するステップであって、前記接続ビデオフレームシーケンスは、前記所定状態画像と前記アクションビデオフレームシーケンスを接続するために使用される、ステップと、
前記接続ビデオフレームシーケンスと前記アクションビデオフレームシーケンスを繋ぎ合わせて、アクションビデオを取得するステップと、を含む。
別の態様では、本願は、仮想対象のアクション処理装置を提供し、前記装置は、
アクション命令を受信するように構成される命令受信モジュールであって、前記アクション命令は、アクション識別子と時間関連情報とを含む、命令受信モジュールと、
前記アクション識別子に対応するアクションビデオフレームシーケンスを決定するように構成される、アクションビデオフレームシーケンス決定モジュールと、
ターゲット時間における仮想対象の所定状態画像に基づいて、前記アクションビデオフレームシーケンスから、前記所定状態画像に対応するアクション状態画像を決定するように構成される画像ペア決定モジュールであって、前記ターゲット時間は、前記時間関連情報に基づいて決定される、画像ペア決定モジュールと、
前記所定状態画像および前記アクション状態画像に基づいて、接続ビデオフレームシーケンスを生成するように構成される生成モジュールであって、前記接続ビデオフレームシーケンスは、前記所定状態画像と前記アクションビデオフレームシーケンスを接続するために使用される、生成モジュールと、
前記接続ビデオフレームシーケンスと前記アクションビデオフレームシーケンスを繋ぎ合わせて、アクションビデオを取得するように構成される、繋ぎ合わせモジュールと、を備える。
別の態様では、本願は、仮想対象のアクション処理のための装置(またはコンピュータ機器)を提供し、前記装置は、メモリと、前記メモリに記憶された1つまたは複数のプログラムと、を備え、前記プログラムは、1つまたは複数のプロセッサに前述の方法を実行させる。
別の態様では、本願は、命令(またはプログラム)が記憶されたコンピュータ可読記憶媒体を開示し、前記命令(またはプログラム)は、1つまたは複数のプロセッサに前述の方法を実行させる。
別の態様では、本願は、プログラムを含むコンピュータプログラム製品を提供し、前記プログラムは、コンピュータ可読記憶媒体に記憶されており、プロセッサは、前記コンピュータ可読記憶媒体から前記プログラムを読み取って実行することによって、前述の方法を実現する。
本願実施例は、次の利点を含む。
本願実施例によれば、ターゲット時間における仮想対象の所定状態画像、およびアクション識別子に対応するアクションビデオフレームシーケンスを決定するとき、互いにマッチングする所定状態画像とアクション状態画像に対応する画像ペアを決定し、当該画像ペアに基づいて接続ビデオフレームシーケンスを生成し、当該接続ビデオフレームシーケンスは、当該所定状態画像と当該アクションビデオフレームシーケンスを接続するためのもの、および当該所定状態画像と当該アクションビデオフレームシーケンスとの間の過渡的なものとして機能し、これにより、所定状態とアクション状態との間の連続性を向上させることができる。さらに、当該接続ビデオフレームシーケンスと当該アクションビデオフレームシーケンスを繋ぎ合わせることにより、対応するアクションビデオを取得することができる。
本願実施例の技術的解決策を適用することにより、ユーザは、アクション識別子と時間関連情報を入力するだけで、対応するアクション命令をトリガすることができる。アクション識別子と時間関連情報の入力により、ユーザの時間コストと操作難易度を軽減することができ、仮想対象のアクション処理の効率を向上させることができる。
さらに、本願実施例では、所定状態画像およびアクションビデオフレームシーケンスを決定するとき、接続の役割を果たし且つ過渡的なものとして機能する接続ビデオフレームシーケンスを生成する。当該アクションビデオフレームシーケンスは、事前に收集され、事前に保存されたアクションビデオから導出できるため、生成されるビデオの範囲は、具体的には、接続ビデオフレームシーケンスであり、したがって、本願実施例は、ビデオの生成にかかる時間を短縮することができ、仮想対象のアクション処理の効率をさらに向上させることができる。
本願実施例による、仮想対象のアクション処理方法のステップのフローチャートである。 本願実施例による、アクションビデオの前処理の例示的なフローチャートである。 本願実施例による、所定状態画像とアクション状態画像とを照合する例示的なフローチャートである。 本願実施例による、接続ビデオフレームシーケンスを生成する例示的なフローチャートである。 本願実施例による、仮想対象のアクション処理装置の構造のブロック図である。 本願実施例による、仮想対象のアクション処理のための装置の構造のブロック図である。 本願のいくつかの実施例におけるサーバ側の構造のブロック図である。
本願の上記の目的、特徴および利点をより明確かつ理解し易くするために、以下では、図面と具体的な実施形態を参照して、本願についてより詳細に説明する。
本願実施例において、仮想対象は、対象モデリング、アクションキャプチャなどの技術を用いて得られる、現実の対象に近い鮮やかで自然な対象であり、音声識別や自然言語理解などの人工知能技術を用いて、仮想対象に、認識、理解、または表現などの能力を持たせることができる。仮想対象は、具体的には、仮想人物、仮想動物、三次元アニメキャラクターなどを含む。
例えば、放送現場において、仮想対象は、ニュース放送やゲーム解説を実行するメディアワーカーに取って代わることができる。特定の実現において、仮想対象は、テキストを表現することができるが、本願実施例は、テキストおよび仮想対象に対応するビデオを生成することができる。当該ビデオは、具体的には、テキストに対応する音声シーケンスと、音声シーケンスに対応するビデオフレームシーケンスとを含み得る。
仮想対象に対応する状態に従って、音声シーケンスに対応するビデオフレームシーケンスを、所定状態画像またはアクション状態画像に分割することができる。
ここで、所定状態画像は、アクションが実行されていないときの仮想対象の所定状態に対応することができる。特定の実現において、所定の時間長の所定状態画像シーケンスを予め設定し、所定状態画像シーケンスは、アクションが実行されてないときに循環的に再生されることができる。例えば、アクションが実行されていないときの仮想アンカーの所定状態は、腕を下ろした状態、唇を閉じた状態、目が無表情である状態などを含む。
アクション状態画像は、アクションを実行するときの仮想対象のアクション状態に対応することができる。例えば、挨拶アクションを行うときの仮想アンカーの所定状態は、腕を左右に振る状態、唇を所定の角度で開く状態、目が笑顔を浮かべる状態などを含む。
関連技術において、アクションビデオを生成するプロセスでは、ユーザが人体のキーポイント情報を提供する必要があるため、ユーザの時間コストや操作難易度が増大するだけでなく、アクション処理の効率も低下する。さらに、関連技術において、アクションビデオに含まれるアクションビデオフレームはすべて敵対的生成ネットワークによって生成されるため、アクションビデオの生成にも多くの時間がかかり、アクション処理の効率が低くなる。
仮想対象のアクション処理の効率を如何に向上させるかという技術的課題に対して、本願実施例は、仮想対象のアクション処理の解決策を提供し、当該技術案は、具体的には、アクション命令を受信するステップであって、当該アクション命令は具体的に、アクション識別子と時間関連情報とを含むステップと、当該アクション識別子に対応するアクションビデオフレームシーケンスを決定するステップと、ターゲット時間における仮想対象の所定状態画像に基づいて、当該アクションビデオフレームシーケンスから、所定状態画像に対応するアクション状態画像を決定するステップであって、当該ターゲット時間は、当該時間関連情報に基づいて決定されることができる、ステップと、当該所定状態画像および当該アクション状態画像に基づいて、接続ビデオフレームシーケンスを生成するステップであって、当該接続ビデオフレームシーケンスは、当該所定状態画像と当該アクションビデオフレームシーケンスを接続するために使用される、ステップと、当該接続ビデオフレームシーケンスと当該アクションビデオフレームシーケンスを繋ぎ合わせて、アクションビデオを取得するステップと、を含む。
本願実施例において、ユーザは、アクション識別子と時間関連情報をアクション命令に含める。ここで、アクション識別子は、対応するアクションビデオフレームシーケンスを決定するために使用される。当該アクションビデオフレームシーケンスは、事前に收集され、事前に保存されたアクションビデオから導出されることができる。時間関連情報は、所定状態画像に対応するターゲット時間を決定するために使用される。
本願実施例は、ターゲット時間における仮想対象の所定状態画像、およびアクション識別子に対応するアクションビデオフレームシーケンスを決定するとき、互いにマッチングする所定状態画像とアクション状態画像に対応する画像ペアを決定し、当該画像ペアに基づいて接続ビデオフレームシーケンスを生成し、当該接続ビデオフレームシーケンスは、当該所定状態画像と当該アクションビデオフレームシーケンスを接続するためのもの、および当該所定状態画像と当該アクションビデオフレームシーケンスとの間の過渡的なものとして機能し、これにより、所定状態とアクション状態との間の連続性を向上させることができる。さらに、当該接続ビデオフレームシーケンスと当該アクションビデオフレームシーケンスを繋ぎ合わせることにより、対応するアクションビデオを取得することができる。
本願実施例の技術的解決策を適用することにより、ユーザは、アクション識別子と時間関連情報を入力するだけで、対応するアクション命令をトリガすることができる。アクション識別子と時間関連情報の入力により、ユーザの時間コストと操作難易度を軽減することができ、仮想対象のアクション処理の効率を向上させることができる。
さらに、本願実施例では、所定状態画像およびアクションビデオフレームシーケンスを決定するとき、接続の役割を果たし且つ過渡的なものとして機能する接続ビデオフレームシーケンスを生成する。当該アクションビデオフレームシーケンスは、事前に收集され、事前に保存されたアクションビデオから導出できるため、生成されるビデオの範囲は、具体的には、接続ビデオフレームシーケンスであり、したがって、本願実施例は、ビデオの生成にかかる時間を短縮することができ、仮想対象のアクション処理の効率をさらに向上させることができる。
例えば、ユーザがテキスト内容Aでアクション識別子Xを選択した場合、アクション命令Iには、アクション識別子Xと時間関連情報(テキスト内容Aの位置)が含まれると考えることができる。アクション命令Iの処理プロセスは、ビデオ検索などの方式を用いて、アクション識別子Cに対応するアクションビデオフレームシーケンスを検索するステップと、テキスト内容Aの位置に基づいて、ターゲット時間、およびターゲット時間における仮想対象の所定状態画像を決定するステップと、当該アクションビデオフレームシーケンスから、当該所定状態画像に対応するアクション状態画像を決定するステップと、当該所定状態画像および当該アクション状態画像に基づいて、接続ビデオフレームシーケンスを生成するステップと、当該接続ビデオフレームシーケンスと当該アクションビデオフレームシーケンスを繋ぎ合わせるステップと、を含み得る。本願実施例で得られる繋ぎ合わせビデオフレームシーケンスは、テキスト内容Aに対応する音声シーケンスに対応することができ、例えば、繋ぎ合わせビデオフレームシーケンスと、テキスト内容Aに対応する音声シーケンスとを時間軸上で位置合わせして、両者の同期再生を実現することができる。
実際の適用において、音声合成(TTS:Text To Speech)技術を用いて、テキストを音声シーケンスに変換することができる。音声シーケンスは、波形の形式で表現できる。理解できるように、音声合成パラメータに従って、要件を満たす音声シーケンスを取得することができる。
任意選択的に、音声合成パラメータは、音色パラメータ、ピッチパラメータおよびラウドネスパラメータのうちの少なくとも1つを含み得る。
ここで、音色パラメータは、波形における異なる音の周波数の特有の特性を指すことができ、通常、異なる発音体は異なる音色に対応するため、音色パラメータに基づいて、ターゲット発音体の音色にマッチングする音声シーケンスを取得することができ、ターゲット発音体は、ユーザによって指定することができ、例えば、ターゲット発音体は、指定されたメディアワーカーなどであってもよい。実際の適用において、ターゲット発音体の所定の長さのオーディオに基づいて、ターゲット発音体の音色パラメータを取得することができる。
ピッチパラメータは、声のトーンを表すことができ、周波数を単位とする。ラウドネスパラメータは、音の強さまたは音量とも呼ばれ、音の大きさを指すことができ、デシベル(dB)を単位とする。
本願実施例による仮想対象のアクション処理方法は、クライアントとサーバ側を含むアプリケーション環境に適用することができ、クライアントとサーバ側は、有線または無線ネットワークに配置されており、当該有線または無線ネットワークによって、クライアントとサーバ側はデータを交換する。
任意選択的に、クライアントは、端末機器上で実行されることができ、上記の端末機器は、具体的には、スマートフォン、タブレットコンピュータ、電子書籍リーダー、動画エキスパートグループオーディオレイヤ3(MP3:Moving Picture Experts Group Audio Layer III)プレーヤ、動画エキスパートグループオーディオレイヤ4(MP4:Moving Picture Experts Group Audio Layer IV)プレーヤ、ラップトップコンピュータ、車載コンピュータ、デスクトップコンピュータ、セットトップボックス、スマートテレビ、ウェアラブル機器などを含むが、これらに限定されない。
クライアントとは、サーバ側に対応し、ユーザにローカルサービスを提供するプログラムを指す。本願実施例におけるクライアントは、アクション命令を受信し、当該アクション命令に対応する繋ぎ合わせビデオフレームシーケンスを提供することができる。当該繋ぎ合わせビデオフレームシーケンスは、クライアントまたはサーバ側によって生成されることができ、本願実施例は、繋ぎ合わせビデオフレームシーケンスの具体的な生成主体に対して限定しない。
本願の1つの実施例において、クライアントは、ユーザのテキスト、およびアクション命令を受信し、テキスト、ターゲット発音体情報およびアクション命令をサーバ側にアップロードして、サーバ側に、テキスト、ターゲット発音体およびアクション命令に対応するターゲットビデオを生成させることができ、さらに、クライアントは、当該ターゲットビデオをユーザに出力することができる。当該ターゲットビデオは、前述の繋ぎ合わせビデオフレームシーケンスを含み得る。
サーバ側は、サーバとも呼ばれ、1つのサーバであってもよいし、複数のサーバによって構成されたサーバクラスタであってもよいし、クラウドコンピューティングサービスであってもよい。サーバ側は、クライアントにバックグラウンドサービスを提供するために使用される。
図1は、本願実施例による仮想対象のアクション処理方法のステップのフローチャートを示し、前記方法は、具体的には、次のステップを含み得る。
ステップ101において、アクション命令を受信し、当該アクション命令は、アクション識別子と時間関連情報とを含み得る。
ステップ102において、上記のアクション識別子に対応するアクションビデオフレームシーケンスを決定する。
ステップ103において、ターゲット時間における仮想対象の所定状態画像に基づいて、上記のアクションビデオフレームシーケンスから、上記の所定状態画像に対応するアクション状態画像を決定し、上記のターゲット時間は、上記の時間関連情報に基づいて決定される。
ステップ104において、上記の所定状態画像および上記のアクション状態画像に基づいて、接続ビデオフレームシーケンスを生成し、上記の接続ビデオフレームシーケンスは、上記の所定状態画像と前記アクションビデオフレームシーケンスを接続するために使用される。
ステップ105において、上記の接続ビデオフレームシーケンスと上記のアクションビデオフレームシーケンスを繋ぎ合わせて、アクションビデオを取得する。
図1に示す実施例の少なくとも1つのステップは、サーバ側で実行されることができ、もちろん、本願実施例は、各ステップの具体的な実行主体に対して限定しない。
ステップ101において、クライアントは、ユーザによって入力されたアクション命令を受信し、サーバ側に当該アクション命令を送信することができる。
実際の適用において、クライアントは、ユーザがアクション命令を入力するためのユーザインタフェース(UI:User Interface)を提供することができる。例えば、ユーザインタフェースは、テキスト内容を含み得、ユーザがあるテキスト内容Aを選択し、アクション識別子Xを選択した場合、アクション命令Iには、アクション識別子Xと時間関連情報(テキスト内容Aの位置)が含まれると考えることができる。アクション命令Iは、仮想対象がテキスト内容Aを表現するプロセスにおいて、アクション識別子Xに対応するアクションを実行することを表すことができる。例えば、テキスト内容Aは、「初めまして」であり、アクション識別子Xは、「挨拶」などである。
アクション識別子は、アクションを識別するために使用されることができる。例えば、アクション識別子は、アクションの名称などであってもよい。アクション識別子の例としては、挨拶、お辞儀、笑顔、物を見せる、署名などを含み得る。
時間関連情報は、ビデオにおけるアクションの時間に関連することができる。任意選択的に、当該時間関連情報は、アクション識別子に対応するテキスト情報を含む。例えば、アクションに対応するテキスト内容を指定することができ、テキスト内容の位置を時間関連情報として使用することができる。
もちろん、テキスト内容の位置は、時間関連情報の一例に過ぎず、実際には、当業者は、実際の応用要件に応じて、他の時間関連情報を採用することができる。例えば、時間関連情報は、ビデオにおけるアクションの時間情報などであってもよく、当該時間情報は、特定の期間内に特定のアクションを実行することを表すことができる。当該時間情報は、開始時間情報、終了時間情報などを含み得る。
ステップ102において、アクション識別子に基づいて、アクションビデオを事前に收集し、收集されたアクションビデオおよび対応するアクション識別子をアクションビデオライブラリに格納することができる。アクションビデオの收集方式は、ウェブクローリング、ビデオオペレータとの協力、録画などを含み得るが、これらに限定されない。例えば、仮想対象とアクション識別子に対応するアクションビデオを録画することができる。
実際の適用において、ビデオ検索などの方式を用いて、アクション識別子に対応するアクションビデオフレームシーケンスを検索することができる。具体的には、アクション識別子に基づいて、アクションビデオライブラリで検索して、アクション識別子に対応するアクションビデオフレームシーケンスを取得することができる。
ステップ103において、ターゲット時間は、アクションの前であってもよい。さらに、ターゲット時間は、アクションに隣接していてもよい。上記のターゲット時間は、上記の時間関連情報に基づいて決定されてもよい。上記の時間関連情報がテキスト内容の位置であると仮定すると、テキスト内容の位置に基づいて、アクションの開始時間情報Tを決定し、開始時間情報Tに隣接し且つ開始時間情報Tの前の時間情報T(i-1)をターゲット時間として決定することができる。もちろん、時間情報T(i-2)をターゲット時間として決定することもできる。本願実施例は、ターゲット時間がアクションに隣接するか否かに対して限定しない。
特定の実現において、ターゲット時間に基づいて、所定状態画像シーケンスにおける時間情報と照合して、ターゲット時間における仮想対象の所定状態画像を取得することができる。理解できるように、本願実施例は、ターゲット時間における仮想対象の所定状態画像の具体的な決定方式に対して限定しない。
ターゲット時間における仮想対象の所定状態画像、およびアクション識別子に対応するアクションビデオフレームシーケンスを決定するとき、互いにマッチングする所定状態画像とアクション状態画像に対応する画像ペアを決定することができる。アクションビデオフレームシーケンスは通常、複数のアクション状態画像を含み、本願実施例では、複数のアクション状態画像から、所定状態画像にマッチングする1つのアクション状態画像を決定することができる。
1つの実施形態によれば、所定状態画像と、アクションビデオフレームシーケンス内の各アクション状態画像との間の類似度値を決定し、最大の類似度値を有するアクション状態画像を、所定状態画像に対応するアクション状態画像として使用することができる。
実際の適用において、所定状態画像と、前記アクションビデオフレームシーケンス内のアクション状態画像に対応する第1画像特徴と第2画像特徴をそれぞれ抽出し、第1画像特徴および第2画像特徴に基づいて、上記の類似度値を決定することができる。
上記の第1画像特徴と第2画像特徴のカテゴリは、色特徴、テクスチャ特徴、形状特徴、空間関係特徴および視覚特徴のうちの少なくとも1つを含み得る。
ここで、視覚特徴は、仮想対象に対応する所定部位の特徴であってもよい。仮想対象に対応する所定部位の特徴に基づいて、所定状態画像にマッチングするアクション状態画像を決定することで、所定部位における所定状態画像とアクション状態画像とのマッチングを実現することができる。
実際の適用において、所定部位は、アクションに関連する部位であってもよい。例えば、所定部位は、具体的には、顔、首、肢体などを含み得る。ここで、顔は、唇、鼻、目などを含み得る。肢体はさらに、腕部位などの四肢を含み得る。
1つの実施形態において、視覚特徴の決定方式は、所定状態画像またはアクション状態画像から、仮想対象に対応する領域画像を決定するステップと、当該領域画像から所定部位の視覚特徴を抽出して、所定状態画像またはアクション状態画像に対応する視覚特徴として使用するステップとを含み得る。つまり、所定状態画像から、仮想対象に対応する領域画像を決定し、当該領域画像から所定部位の視覚特徴を抽出して、所定状態画像に対応する視覚特徴として使用する。または、アクション状態画像から、仮想対象に対応する領域画像を決定し、当該領域画像から所定部位の視覚特徴を抽出して、アクション状態画像に対応する視覚特徴として使用する。
実際の適用において、まず、切り抜き技術を用いて、所定状態画像またはアクション状態画像から、仮想対象に対応する領域画像を抽出することができる。例えば、領域画像は、顔領域画像と肢体領域画像を含む。そして、顔領域画像と肢体領域画像から所定部位の視覚特徴をそれぞれ抽出することができる。任意選択的に、顔処理モジュールを用いて、顔領域画像から、唇、鼻、目などの所定部位の視覚特徴を抽出することができる。または、肢体処理モジュールを用いて、体領域画像から、四肢などの所定部位の視覚特徴を抽出することができる。
ここで、顔処理モジュールおよび肢体処理モジュールは、ニューラルネットワークを用いて実現することができる。ニューラルネットワークの例としては、畳み込みニューラルネットワーク、または深層残差ネットワークなどを含み得る。畳み込みニューラルネットワークは、畳み込みカーネルを利用して視覚特徴を抽出し、逆伝播段階では、設定されたターゲットに基づいて、畳み込みカーネルのパラメータを更新することができるため、畳み込みカーネルによる特徴抽出の精度とロバスト性を向上させることができる。深層残差ネットワークの1つの特徴は、最適化が容易であり、かなりの深度を増加することで精度を向上させることができることであり、その内部残差ブロックは、スキップ接続を使用しており、ニューラルネットワークの深度の増加によって引き起こされる勾配消失の問題を緩和する。理解できるように、本願実施例は、顔処理モジュールおよび肢体処理モジュールに対応する特定のニューラルネットワークに対して限定しない。
本願実施例では、当該領域画像から抽出される所定部位の視覚特徴は、第1視覚特徴とも呼ばれ、第1視覚特徴は、スパース性(sparsity)を有してもよい。
視覚特徴の密度を改善するために、本願の1つの代替実施例において、第1視覚特徴(即ち、上記の領域画像から抽出された所定部位の視覚特徴)に基づいて、所定部位の画像に対して三次元再構成を実行して、所定部位の高密度視覚特徴を取得することができる。当該高密度視覚特徴は、第2視覚特徴とも呼ばれる。実際の適用において、第1視覚特徴は、複数の所定部位に対応し、複数の所定部位の一部または全てに対して三次元再構成を実行することができる。例えば、腕部位に対して三次元再構成を実行してもよい。第1視覚特徴と比較して、三次元再構成に基づいて得られた第2視覚特徴は、より多い高密度情報を含むため、より高い密度を有することができる。
視覚特徴を用いて画像ペアを決定する場合、アクションビデオフレームシーケンスから対応するアクション状態画像を決定することは、具体的には、所定状態画像に対応する視覚特徴を、前記アクションビデオフレームシーケンス内のアクション状態画像に対応する視覚特徴と照合して、所定状態画像に対応するアクション状態画像を取得することを含み得る。具体的には、視覚特徴間の照合値を決定し、照合値が最大のアクション状態画像を、所定状態画像に対応するアクション状態画像として使用することができる。
特定の実現において、複数のタイプの視覚特徴を融合して、融合視覚特徴を取得することができる。さらに、所定状態画像に対応する融合視覚特徴を、アクションビデオフレームシーケンス内の各アクション状態画像に対応する融合視覚特徴と照合して、所定状態画像に対応するアクション状態画像を取得することができる。
視覚特徴の融合方式としては、接続、または接続+再結合などを含み得る。ここで、接続という方式では、複数の所定部位の視覚特徴を一緒に接続することができる。接続+再結合という方式では、接続された視覚特徴を再配列して組み合わせて、新たな融合視覚特徴を取得することができる。
特定の実現において、視覚特徴の融合は、融合モジュールによって実現することができる。損失関数の制約により、融合モジュールのパラメータを継続的に更新することにより、より要件を満たす融合視覚特徴を取得することができる。理解できるように、本願実施例は、視覚特徴の具体的な融合方式に対して限定しない。
ステップ104において、当該画像ペアに基づいて接続ビデオフレームシーケンスを生成し、当該接続ビデオフレームシーケンスは、当該所定状態画像と当該アクションビデオフレームシーケンスを接続するためのもの、および当該所定状態画像と当該アクションビデオフレームシーケンスとの間の過渡的なものとして機能し、これにより、所定状態とアクション状態との間の連続性を向上させることができる。
本願実施例は、接続ビデオフレームシーケンスを生成する次の技術的解決策を提供することができる。
技術的解決策1において、上記の接続ビデオフレームシーケンスを生成することは、具体的には、所定状態画像とアクション状態画像の位置姿勢情報を位置合わせして、位置合わせされた所定状態画像とアクション状態画像を取得することと、上記の位置合わせされた所定状態画像およびアクション状態画像に基づいて、接続ビデオフレームシーケンスを生成することと、を含み得る。
位置姿勢情報は、仮想対象の位置情報または姿勢情報を表すことができる。画像ペア内の2つの画像に対して位置姿勢情報の位置合わせを実行することで、当該2つの画像の仮想対象間のマッチング度合いを向上させることができ、その上、所定状態画像とアクションビデオフレームシーケンスとの間の連続性を向上させることができる。
技術的解決策2において、上記の接続ビデオフレームシーケンスを生成することは、具体的には、所定状態画像およびアクション状態画像に対応するオプティカルフロー特徴をそれぞれ決定することと、当該オプティカルフロー特徴に基づいて、接続ビデオフレームシーケンスを生成することと、を含み得る。
オプティカルフロー(optical flow)は、動き画像間の変化を示すために使用されることができ、時間とともに変化する画像におけるパターンの動き速度を表すことができる。仮想対象が動くと、画像における対応する点の輝度パターンも動くため、オプティカルフローは、画像間の変化を示すために使用でき、オプティカルフローは、仮想対象の動き情報を含むため、仮想対象の動きを決定するために使用されることができる。
本願実施例において、所定状態画像に対応する第1オプティカルフロー特徴は、仮想対象の初期状態の動き情報を含んでもよく、アクション状態画像に対応する第2オプティカルフロー特徴は、終了状態の動き情報を含んでもよい。したがって、接続ビデオフレームシーケンスの生成プロセスにおいて、第1オプティカルフロー特徴および第2オプティカルフロー特徴に基づいて、中間状態の動き情報を決定することができ、これにより、接続ビデオフレームシーケンス内の接続ビデオフレームを取得することができる。
したがって、本願実施例では、所定状態画像とアクション状態画像にそれぞれ対応するオプティカルフロー特徴に基づいて、接続ビデオフレームシーケンスを生成することで、接続ビデオフレームシーケンスと所定状態画像との間の連続性、および接続ビデオフレームシーケンスとアクション状態画像との間の連続性を向上させることができ、さらに、所定状態画像とアクションビデオフレームシーケンスとの間の連続性と安定性を高めることができる。
特定の実現において、接続ビデオフレームの数Nに基づいて、接続ビデオフレームに対応する中間状態の動き情報を決定することができる。Nは、0より大きい自然数であってもよい。Nの数値に基づいて、所定状態画像に対応する動き情報とアクション状態画像に対応する動き情報との間の差値を取得し、当該差値を対応する接続ビデオフレームに割り当てることができ、これにより、接続ビデオフレームの動き情報を決定することができる。
1つの実施形態において、畳み込みニューラルネットワークまたは深層ニューラルネットワークなどのオプティカルフロー処理モジュールを用いて、所定状態画像とアクション状態画像との間のターゲットオプティカルフロー特徴を決定することができ、当該ターゲットオプティカルフロー特徴は、所定状態画像に対応する動き情報とアクション状態画像に対応する動き情報との間の差値を表すことができる。例えば、所定状態画像とアクション状態画像にそれぞれ対応する視覚特徴をオプティカルフロー処理モジュールに入力して、オプティカルフロー処理モジュールによって出力されるターゲットオプティカルフロー特徴を取得することができる。
別の実施形態において、時間関連情報に基づいて、アクションに対応する音声時間長を決定し、アクションに対応する音声時間長、およびアクションビデオフレームシーケンスのビデオ時間長に基づいて、接続ビデオフレームシーケンスの接続時間長を決定することができ、さらに、当該接続時間長に基づいて、接続ビデオフレームの数Nを決定することができる。例えば、当該接続時間長および接続ビデオフレームの単位時間長に基づいて、接続ビデオフレームの数Nを決定することができる。
実際の適用において、視覚特徴に基づいて、時間の順方向に従って、所定状態画像とアクション状態画像との間の正方向オプティカルフロー特徴を取得し、視覚特徴に基づいて、時間の逆方向に従って、所定状態画像とアクション状態画像との間の逆方向オプティカルフロー特徴を取得することができ、さらに、正方向オプティカルフロー特徴および逆方向オプティカルフロー特徴に基づいて、ターゲットオプティカルフロー特徴を取得し、当該ターゲットオプティカルフロー特徴は、正方向オプティカルフロー特徴と逆方向オプティカルフロー特徴との融合であってもよく、さらに、ターゲットオプティカルフロー特徴に基づいて、接続ビデオフレームシーケンスを生成する。正方向オプティカルフロー特徴と逆方向オプティカルフロー特徴は、双方向の動き情報を含むため、動き情報の精度を向上させることができ、その上、所定状態画像とアクションビデオフレームシーケンスとの間の連続性と安定性をさらに向上させることができる。
特定の実現において、複数の接続ビデオフレームにそれぞれ対応する特徴ベクトルを敵対的生成ネットワークに入力することができる。当該特徴ベクトルは、オプティカルフロー特徴を含んでもよい。オプティカルフロー特徴は、中間状態における仮想対象の動き情報を反映することができる。異なる接続ビデオフレームは、異なるオプティカルフロー特徴に対応することができ、これにより、異なる接続ビデオフレームが異なる動き情報を表すようにすることができる。
理解できるように、当該特徴ベクトルはさらに、所定状態画像とアクション状態画像に対応する視覚特徴の融合結果などの他の特徴を含んでもよい。
技術的解決策3において、上記の接続ビデオフレームシーケンスを生成することは、具体的には、所定状態画像とアクション状態画像にそれぞれ対応するオプティカルフロー特徴、テクスチャ特徴および/または深度特徴を決定することと、オプティカルフロー特徴、テクスチャ特徴および/または深度特徴に基づいて、接続ビデオフレームシーケンスを生成することと、を含み得る。
技術的解決策3は、技術的解決策2の上で、テクスチャ特徴および/または深度特徴を追加する。言い換えれば、接続ビデオフレームシーケンスを生成するための特徴は、具体的には、オプティカルフロー特徴およびテクスチャ特徴、またはオプティカルフロー特徴および深度特徴、またはオプティカルフロー特徴、テクスチャ特徴および深度特徴を含む。
ここで、テクスチャ特徴は、髪や指などの所定部位のテクスチャ詳細を反映することができ、テクスチャ特徴を接続ビデオフレームシーケンスの生成に適用することで、接続ビデオフレームシーケンスの迫真性を向上させることができる。
深度特徴は、深層ニューラルネットワークによって抽出されることができる。浅いニューラルネットワークと比較して、深層ニューラルネットワークは、より優れた学習能力と汎化能力を有するため、接続ビデオフレームシーケンスを生成するロバスト性を向上させることができる。
なお、前述の視覚特徴(第1視覚特徴または第2視覚特徴)に基づいて、特徴抽出を実行して、オプティカルフロー特徴、テクスチャ特徴および深度特徴などの生成特徴のいずれかまたはそれらの任意の組み合わせを取得することができる。
なお、第2視覚特徴に基づいて特徴抽出を実行し、第2視覚特徴には、所定部位のより多い高密度情報が含まれるため、この場合に生成される接続ビデオフレームシーケンスも、所定部位のより多い高密度情報を含むことができ、これにより、接続ビデオフレームシーケンス内の所定部位の迫真性を向上させることができる。例えば、第2視覚特徴には、腕部位のより多い高密度情報が含まれ、その場合、接続ビデオフレームシーケンス内の腕部位の迫真性を向上させることができる。
オプティカルフロー特徴、テクスチャ特徴および深度特徴のうちの複数のタイプの生成特徴を採用する場合、画像ペアの複数のタイプの生成特徴を融合し、得られた融合特徴に基づいて、接続ビデオフレームシーケンスを生成することができる。複数のタイプの生成特徴の融合方式は、視覚特徴の融合方式と類似するため、ここでは繰り返して説明せず、視覚特徴の融合方式を参照すればよい。
実際の適用において、少なくとも1つの生成特徴を敵対的生成ネットワークに入力して、接続ビデオフレームを生成し、次に、複数の接続ビデオフレームを時系列で繋ぎ合わせて、対応する接続ビデオフレームシーケンスを取得することができる。
本願実施例における生成されるビデオの範囲は、具体的には、接続ビデオフレームシーケンスであり、接続ビデオフレームシーケンスは、接続のためのもの、および過渡的なものとして機能し、特定のアクション実行效果は、アクションビデオフレームシーケンスによって表現されるため、本願実施例の接続ビデオフレームシーケンスは、通常、比較的短い時間長に対応し、したがって、本願実施例は、ビデオを生成する時間長を短縮することができ、仮想対象のアクション処理の効率をさらに向上させることができる。
技術的解決策4において、上記の所定状態画像および上記のアクション状態画像に基づいて、グローバル接続ビデオフレームシーケンスを生成できるだけでなく、局所の接続ビデオフレームシーケンスを生成することもでき、局所の接続ビデオフレームシーケンスは、部位接続ビデオフレームシーケンスとも呼ばれ、部位接続ビデオフレームシーケンスは、所定部位の高密度情報を含むことができ、したがって、部位接続ビデオフレームシーケンスを対応する接続ビデオフレームシーケンスに追加することにより、接続ビデオフレームシーケンス内の所定部位の迫真性を向上させることができる。
部位接続ビデオフレームシーケンスの生成プロセスは、具体的には、所定状態画像から部位の所定状態画像を抽出し、三次元再構成に基づいて、当該部位の所定状態画像に対応する第3視覚特徴を決定することと、アクション状態画像から部位アクション状態画像を抽出し、三次元再構成に基づいて、当該部位アクション状態画像に対応する第4視覚特徴を決定することと、第3視覚特徴および第4視覚特徴に基づいて、部位接続ビデオフレームシーケンスを生成することと、を含む。
部位の所定状態画像または部位アクション状態画像はいずれも、所定部位に対応する。例えば、所定部位が腕部位である場合、腕部位に対応する部位の所定状態画像または部位アクション状態画像をそれぞれ抽出することができる。
第3視覚特徴または第4視覚特徴は、三次元再構成技術に基づいて得られるため、所定部位のより多い高密度情報を含み得る。
部位接続ビデオフレームシーケンスの生成プロセスは、接続ビデオフレームシーケンスの生成プロセスと類似し、具体的には、技術的解決策1~3のいずれか1つまたはそれらの組み合わせを参照することができる。
例えば、部位接続ビデオフレームシーケンスの生成プロセスは、まず、部位の所定状態画像と部位アクション状態画像に対して位置情報の位置合わせを実行し、次に、第3視覚特徴に基づいて特徴抽出を実行して、オプティカルフロー特徴、テクスチャ特徴および深度特徴などの第3生成特徴のいずれか1つまたはそれらの組み合わせを取得し、そして、第4視覚特徴に基づいて特徴抽出を実行して、オプティカルフロー特徴、テクスチャ特徴および深度特徴などの第4生成特徴のいずれかまたは組み合わせを取得し、第3生成特徴および第4生成特徴に基づいて、部位接続ビデオフレームシーケンスを生成することを含むことができる。
部位接続ビデオフレームシーケンスを、対応する接続ビデオフレームシーケンスに追加する対応する追加方式は、部位接続ビデオフレームを対応する接続ビデオフレームに添付することを含むことができる。理解できるように、本願実施例は、具体的な追加方式に対して限定しない。
以上では、技術的解決策1~4により、接続ビデオフレームシーケンスを生成するプロセスについて詳細に説明したが、理解できるように、当業者は、実際の応用要件に応じて、技術的解決策1~4のいずれか1つまたはそれらの組み合わせを採用することができ、本願実施例は、接続ビデオフレームシーケンスを生成する具体的なのプロセスを限定しない。
ステップ105において、時系列に従って、上記の接続ビデオフレームシーケンスと上記のアクションビデオフレームシーケンスを繋ぎ合わせることができ、得られた繋ぎ合わせビデオフレームシーケンスは、テキスト内容に対応する音声シーケンスに対応することができる。例えば、繋ぎ合わせビデオフレームシーケンスと、テキスト内容に対応する音声シーケンスとを時間軸上で位置合わせして、両者の同期再生を実現することができる。
まとめると、本願実施例の仮想対象のアクション処理方法では、ターゲット時間における仮想対象の所定状態画像、およびアクション識別子に対応するアクションビデオフレームシーケンスを決定するとき、互いにマッチングする所定状態画像とアクション状態画像に対応する画像ペアを決定し、当該画像ペアに基づいて接続ビデオフレームシーケンスを生成し、当該接続ビデオフレームシーケンスは、当該所定状態画像と当該アクションビデオフレームシーケンスを接続するためのもの、および当該所定状態画像と当該アクションビデオフレームシーケンスとの間の過渡的なものとして機能し、これにより、所定状態とアクション状態との間の連続性を向上させることができる。さらに、当該接続ビデオフレームシーケンスと当該アクションビデオフレームシーケンスを繋ぎ合わせることにより、対応するアクションビデオを取得することができる。
本願実施例の技術的解決策を適用することにより、ユーザは、アクション識別子と時間関連情報を入力するだけで、対応するアクション命令をトリガすることができる。アクション識別子と時間関連情報の入力により、ユーザの時間コストと操作難易度を軽減することができ、仮想対象のアクション処理の効率を向上させることができる。
さらに、本願実施例では、所定状態画像およびアクションビデオフレームシーケンスを決定するとき、接続の役割を果たし且つ過渡的なものとして機能する接続ビデオフレームシーケンスを生成する。当該アクションビデオフレームシーケンスは、事前に收集され、事前に保存されたアクションビデオから導出できるため、生成されるビデオの範囲は、具体的には、接続ビデオフレームシーケンスであり、したがって、本願実施例は、ビデオの生成にかかる時間を短縮することができ、仮想対象のアクション処理の効率をさらに向上させることができる。
本願の別の実施例による仮想対象のアクション処理方法は、具体的には、前処理段階、照合段階および生成段階を含み得る。
1)前処理段階
前処理段階は、アクションビデオ内のアクション状態画像に対して前処理を実行して、対応するアクション状態視覚特徴を取得するために使用される。
特定の実現において、アクション識別子に基づいて、アクションビデオを事前に收集し、收集されたアクションビデオおよび対応するアクション識別子をアクションビデオライブラリに格納することができる。
図2は、本願実施例のアクションビデオに対して前処理を実行する例示的なフローチャートを示す。図2において、アクションビデオから、アクション状態画像1、アクション状態画像2……アクション状態画像MなどのM個のアクション状態画像を抽出し、M個のアクション状態画像を対応する前処理システムにそれぞれ入力し、当該前処理システムによって対応するアクション状態視覚特徴を出力することができ、図2では、アクション状態視覚特徴1、アクション状態視覚特徴2……アクション状態視覚特徴Mと表される。
前処理システムは、具体的には、切り抜きモジュール、顔処理モジュールおよび肢体処理モジュールを備える。
ここで、切り抜きモジュールは、切り抜き技術を用いて、アクション状態画像から仮想対象に対応する領域画像を抽出するように構成される。例えば、領域画像は、顔領域画像と肢体領域画像とを含む。
顔処理モジュールは、顔領域画像から唇、鼻、目などの所定部位のアクション状態視覚特徴を抽出するように構成される。
肢体処理モジュールは、肢体領域画像から四肢などの所定部位のアクション状態視覚特徴を抽出するように構成される。
顔処理モジュールまたは肢体処理モジュールはさらに、抽出された所定部位のアクション状態視覚特徴に基づいて、所定部位の画像に対して三次元再構成を実行して、所定部位の密なアクション状態視覚特徴を取得することができる。
2)照合段階
照合段階は、所定状態画像とアクション状態画像とを照合して、対応する画像ペアを取得するために使用される。
図3は、本願実施例による、所定状態画像とアクション状態画像とを照合する例示的なフローチャートを示す。
図3において、第1融合モジュールを用いて、単一のアクション状態画像に対応する複数のタイプのアクション状態視覚特徴を融合して、第1融合視覚特徴を取得し、単一のアクション状態画像に対応する第1融合視覚特徴を検索ライブラリに格納することができる。
アクション命令を受信した場合、当該アクション命令内のアクション識別子に対応するアクションビデオフレームシーケンスを決定することができる。例えば、アクション識別子に基づいて、アクションビデオライブラリで検索して、ターゲットアクションビデオ識別子を取得し、ターゲットアクションビデオ識別子に対応する複数のアクション状態画像を、アクションビデオフレームシーケンスとして使用することができる。
実際の適用において、当該アクション命令内の時間関連情報に基づいて、ターゲット時間における仮想対象の所定状態画像を決定することもできる。さらに、所定状態画像に対応する所定状態視覚特徴を決定することができる。所定状態視覚特徴の決定プロセスは、アクション状態視覚特徴の決定プロセスと類似するため、ここでは繰り返して説明せず、アクション状態視覚特徴の決定プロセスを参照すればよい。例えば、所定状態視覚特徴の決定プロセスは、具体的には、所定状態画像を対応する前処理システムに入力し、当該前処理システムによって対応する所定状態視覚特徴を出力することを含み得る。
図3において、第2融合モジュールを用いて、所定状態画像に対応する複数のタイプの所定状態視覚特徴を融合して、第2融合視覚特徴を取得することができる。
図3において、所定状態画像に対応する第1融合視覚特徴に基づいて、検索ライブラリで検索して、所定状態画像にマッチングするアクション状態画像を取得することができる。具体的には、第1融合視覚特徴を、ターゲットアクションビデオ識別子に対応する複数のアクション状態画像の第2融合視覚特徴と照合し、照合値が最大のアクション状態画像を、所定状態画像に対応するアクション状態画像として使用することができる。所定状態画像と、所定状態画像に対応するアクション状態画像を、画像ペアとすることができる。
3)生成段階
生成段階は、画像ペアに基づいて、接続ビデオフレームシーケンスを生成するために使用される。
図4は、本願実施例による、接続ビデオフレームシーケンスを生成する例示的なフローチャートを示す。
図4において、画像ペアに対して位置姿勢情報の位置合わせを実行して、位置合わせされた第1入力画像と第2入力画像を取得することができる。
第1入力画像と第2入力画像は、処理システムにそれぞれ入力される。処理システムは、前述の視覚特徴(所定状態視覚特徴およびアクション状態視覚特徴)に基づいて、特徴抽出を実行して、オプティカルフロー特徴、テクスチャ特徴および深度特徴などの生成特徴を取得するように構成されることができる。
処理システムは、具体的には、オプティカルフロー処理モジュール、テクスチャ処理モジュールおよび深度処理モジュールを備えることができる。
オプティカルフロー処理モジュールは、視覚特徴に基づいて、所定状態画像とアクション状態画像との間のオプティカルフロー特徴を取得するように構成される。具体的には、視覚特徴に基づいて、時間の順方向に従って、所定状態画像とアクション状態画像との間の正方向オプティカルフロー特徴を取得し、視覚特徴に基づいて、時間の逆方向に従って、所定状態画像とアクション状態画像との間の逆方向オプティカルフロー特徴を取得することができる。
テクスチャ処理モジュールは、視覚特徴に基づいて、所定状態画像およびアクション状態画像に対応するテクスチャ特徴をそれぞれ取得するように構成され、当該テクスチャ特徴は、髪や指などの所定部位のテクスチャの詳細を反映することができる。
深度処理モジュールは、視覚特徴に基づいて、所定状態画像およびアクション状態画像に対応する深度特徴をそれぞれ取得するように構成される。深層ニューラルネットワークは、より優れた学習能力と汎化能力を有するため、接続ビデオフレームシーケンスを生成するロバスト性を向上させることができる。
さらに、処理システムによって出力されたオプティカルフロー特徴、テクスチャ特徴および深度特徴などの複数のタイプの生成特徴を、第3融合モジュールに入力し、第3融合モジュールによって、複数のタイプの生成特徴を融合して、対応する融合特徴を取得することができる。第3融合モジュールの入力はさらに、第1入力画像と第2入力画像とを含んでもよく、第1入力画像と第2入力画像は、第3融合モジュールに対する監視の役割を果たすことができる。
本願実施例の第1融合モジュール、第2融合モジュールまたは第3融合モジュールは、融合モジュールの具体例であり得る。特定の実現において、融合モジュールは、ニューラルネットワークであってもよく、理解できるように、本願実施例は、融合モジュールの具体的な構造を限定しない。
さらに、第3融合モジュールによって出力される融合特徴は、敵対的生成ネットワークに入力されることができ、敵対的生成ネットワークは、融合特徴に基づいて、対応する接続ビデオフレームを生成することができる。
融合特徴は、所定状態画像とアクション状態画像との融合情報を含み得る。任意選択的に、当該融合特徴は、複数の接続ビデオフレームにそれぞれ対応する特徴ベクトルを含み得る。当該特徴ベクトルは、オプティカルフロー特徴、テクスチャ特徴および深度特徴を含んでもよい。オプティカルフロー特徴は、中間状態における仮想対象の動き情報を反映することができる。異なる接続ビデオフレームは、異なるオプティカルフロー特徴に対応し、これにより、異なる接続ビデオフレームが異なる動き情報を表すようにすることができる。当該特徴ベクトル内のテクスチャ特徴は、所定状態画像およびアクション状態画像に対応するテクスチャ特徴の融合であってもよい。当該特徴ベクトル内の深度特徴は、所定状態画像およびアクション状態画像に対応する深度特徴の融合であってもよい。
理解できるように、当該特徴ベクトルはさらに、所定状態画像とアクション状態画像に対応する視覚特徴の融合結果などの他の特徴を含んでもよい。
特定の実現において、時系列に従って、敵対的生成ネットワークによって出力された複数の接続ビデオフレームを繋ぎ合わせて、対応する接続ビデオフレームシーケンスを取得することができる。さらに、前記接続ビデオフレームシーケンスと前記アクションビデオフレームシーケンスを繋ぎ合わせることもでき、得られた繋ぎ合わせビデオフレームシーケンスは、テキスト内容に対応する音声シーケンスに対応することができる。例えば、繋ぎ合わせビデオフレームシーケンスと、テキスト内容に対応する音声シーケンスとを時間軸上で位置合わせして、両者の同期再生を実現することができる。
なお、説明の便宜上、上記の方法の実施例は、一連の動作の組み合わせとして表現されているが、当業者であれば、本願実施例のいくつかのステップが他の順序でまたは同時に実行できるため、本願実施例は、記載された動作順序に限定されないことを理解すべきである。さらに、当業者であれば、本明細書に記載の実施例はすべて好ましい実施例であり、実施例における動作は、本願実施例によって必ずしも必要とされるわけではないことを理解すべきである。
図5は、本願実施例による仮想対象のアクション処理装置の構造のブロック図を示し、当該装置は、具体的には、
アクション命令を受信するように構成される命令受信モジュール501であって、前記アクション命令は、アクション識別子と時間関連情報とを含む、命令受信モジュール501と、
前記アクション識別子に対応するアクションビデオフレームシーケンスを決定するように構成される、アクションビデオフレームシーケンス決定モジュール502と、
ターゲット時間における仮想対象の所定状態画像に基づいて、前記アクションビデオフレームシーケンスから、前記所定状態画像に対応するアクション状態画像を決定するように構成される画像ペア決定モジュール503であって、前記ターゲット時間は、前記時間関連情報に基づいて決定される、画像ペア決定モジュール503と、
前記所定状態画像および前記アクション状態画像に基づいて、接続ビデオフレームシーケンスを生成するように構成される生成モジュール504であって、前記接続ビデオフレームシーケンスは、前記所定状態画像と前記アクションビデオフレームシーケンスを接続するために使用される、生成モジュール504と、
前記接続ビデオフレームシーケンスと前記アクションビデオフレームシーケンスを繋ぎ合わせて、アクションビデオを取得するように構成される、繋ぎ合わせモジュール505と、を備えることができる。
任意選択的に、生成モジュール504は、
前記所定状態画像および前記アクション状態画像にそれぞれ対応するオプティカルフロー特徴を決定するように構成される、第1特徴決定モジュールと、
前記オプティカルフロー特徴に基づいて、接続ビデオフレームシーケンスを生成するように構成される、第1生成モジュールと、を備えることができる。
任意選択的に、生成モジュール504は、
前記所定状態画像および前記アクション状態画像にそれぞれ対応するオプティカルフロー特徴、テクスチャ特徴および/または深度特徴を決定するように構成される、第2特徴決定モジュールと、
前記オプティカルフロー特徴、テクスチャ特徴および/または深度特徴に基づいて、接続ビデオフレームシーケンスを生成するように構成される、第2生成モジュールと、を備えることができる。
任意選択的に、画像ペア決定モジュール503は、
所定状態画像に対応する視覚特徴を、前記アクションビデオフレームシーケンス内のアクション状態画像に対応する視覚特徴と照合して、前記所定状態画像に対応するアクション状態画像を取得するように構成される、照合モジュールを備えることができる。
任意選択的に、上記の装置はさらに、
所定状態画像またはアクション状態画像から、前記仮想対象に対応する領域画像を決定するように構成される、領域画像決定モジュールと、
前記領域画像から所定部位の視覚特徴を抽出して、前記所定状態画像または前記アクション状態画像に対応する視覚特徴として使用するように構成される、抽出モジュールと、を備えることができる。
任意選択的に、上記の装置はさらに、
抽出された所定部位の視覚特徴に基づいて、所定部位の画像に対して三次元再構成を実行することにより、所定部位の高密度視覚特徴を取得するように構成される、三次元再構成モジュールを備えることができ、ここで、前記所定部位の高密度視覚特徴は、前記所定状態画像または前記アクション状態画像に対応する視覚特徴として使用される。
任意選択的に、生成モジュール504は、
前記所定状態画像と前記アクション状態画像の位置姿勢情報を位置合わせして、位置合わせされた所定状態画像とアクション状態画像を取得するように構成される、位置合わせモジュールと、
位置合わせされた所定状態画像とアクション状態画像に基づいて、接続ビデオフレームシーケンスを生成するように構成される、第3生成モジュールと、を備えることができる。
任意選択的に、上記の装置はさらに、
前記所定状態画像から、部位の所定状態画像を抽出し、三次元再構成に基づいて、前記部位の所定状態画像に対応する第3視覚特徴を決定するように構成される、第3視覚特徴決定モジュールと、
前記アクション状態画像から、部位アクション状態画像を抽出し、三次元再構成に基づいて、前記部位アクション状態画像に対応する第4視覚特徴を決定するように構成される、第4視覚特徴決定モジュールと、
前記第3視覚特徴および前記第4視覚特徴に基づいて、部位接続ビデオフレームシーケンスを生成するように構成される、第4生成モジュールと、
部位接続ビデオフレームシーケンスを対応する接続ビデオフレームシーケンスに追加するように構成される、追加モジュールと、を備えることができる。
任意選択的に、上記の時間関連情報は、アクション識別子に対応するテキスト情報を含み得る。
装置の実施例は、方法の実施例とほとんど類似するため、比較的簡単に説明しており、関連する部分は、方法の実施例の対応する部分の説明を参照するとよい。
本明細書における各実施例はすべて、漸進的な方式で説明されており、各実施例は、他の実施例との相違点に焦点を当てて説明されており、各実施例間の同じまたは類似の部分は、互いに参照するとよい。
上記の実施例の装置に関して、その各モジュールが動作を実行する具体的な方法は、上記の方法に関する実施例で既に詳細に説明されており、ここでは詳細に説明しない。
図6は、1つの例示的な実施例による、仮想対象のアクション処理の装置の構造のブロック図である。当該装置は、コンピュータ機器と呼ばれることもできる。例えば、装置900は、携帯電話、コンピュータ、デジタル放送端末、メッセージングデバイス、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末などの端末機器であってもよいし、サーバであってもよい。
図6を参照すると、装置900は、処理コンポーネント902、メモリ904、電力コンポーネント906、マルチメディアコンポーネント908、オーディオコンポーネント910、入力/出力(I/O)インターフェース912、センサコンポーネント914、および通信コンポーネント916のうちの1つまたは複数のコンポーネットを含み得る。
処理コンポーネント902は、一般的に、表示、電話の呼び出し、データ通信、カメラ操作および記録操作に関連する操作など、装置900の全般的な操作を制御する。処理コンポーネント902は、命令を実行して上記の方法のステップのすべてまたは一部を完了するための1つまたは複数のプロセッサ920を含み得る。加えて、処理コンポーネント902は、処理コンポーネント902と他のコンポーネントとの間の相互作用を容易にするための、1つまたは複数のモジュールを備えることができる。例えば、処理コンポーネント902は、マルチメディアコンポーネント908と、処理コンポーネント902との間の相互作用を容易にするための、マルチメディアモジュールを備えることができる。
メモリ904は、装置900での操作をサポートするための、様々なタイプのデータを格納するように構成される。これらのデータの例には、装置900で動作する、任意のアプリケーションまたは方法の命令、連絡先データ、電話帳データ、メッセージ、写真、ビデオ等が含まれる。メモリ904は、スタティックランダムアクセスメモリ(SRAM)、電気的に消去可能なプログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなど、あらゆるタイプの揮発性または不揮発性記憶装置、またはそれらの組み合わせで実装することができる。
電力コンポーネント906は、装置900の各コンポーネントに電力を提供する。電力コンポーネント906は、電力管理システム、1つまたは複数の電源、および装置900の電力の生成、管理および割り当てに関する他のコンポーネントを含むことができる。
マルチメディアコンポーネント908は、装置900とユーザとの間の出力インターフェースを提供するスクリーンを備える。いくつかの実施例において、スクリーンは、液晶ディスプレイ(LCD)およびタッチパネル(TP)を含み得る。スクリーンがタッチパネルを含む場合、スクリーンは、ユーザからの入力信号を受信するためのタッチスクリーンとして実現されることができる。タッチパネルは、タッチ、スワイプおよびタッチパネルにおけるジェスチャを検知するための1つまたは複数のタッチセンサを含む。前記タッチセンサは、タッチまたはスワイプ動作の境界を感知するだけでなく、前記タッチまたはスワイプ動作に関する持続時間および圧力も検知することができる。いくつかの実施例において、マルチメディアコンポーネント908は、1つのフロントカメラおよび/またはリアカメラを備える。装置900が、撮影モードまたはビデオモードなどの動作モードにあるとき、フロントカメラおよび/またはリアカメラは、外部のマルチメディアデータを受信することができる。各フロントカメラおよびリアカメラは、固定光学レンズシステムであり、または焦点距離および光学ズーム機能を有することであり得る。
オーディオコンポーネント910は、オーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント910は、1つのマイクロフォン(MIC)を含み、装置900が通話モード、録音モードおよび音声認識モードなどの動作モードにあるとき、マイクロフォンは、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、さらにメモリ904に記憶されることができ、または通信コンポーネント916を介して、送信されることができる。いくつかの実施例において、オーディオコンポーネント910はさらに、オーディオ信号を出力するためのスピーカを備える。
I/Oインターフェース912は、処理コンポーネント902と周辺インターフェースモジュールとの間のインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームページボタン、音量ボタン、スタートアップボタン、ロックボタンを含み得るが、これらに限定されない。
センサコンポーネント914は、装置900に各態様の状態評価を提供するための1つまたは複数のセンサを備える。例えば、センサコンポーネント914は、装置900のオン/オフ状態と、装置900のディスプレイやキーパッドなどのコンポーネントの相対位置を検出することができ、センサコンポーネント914はさらに、装置900または装置900のコンポーネントの位置変化、ユーザと装置900との接触の有無、装置900の方位角または加速度/減速度、および装置900の温度変化も検出することができる。センサコンポーネット914は、物理的接触なしに近くの物体の存在を検知するように構成される近接センサを備えることができる。センサコンポーネント914はさらに、撮像用途で使用されるCMOSまたはCCD画像センサなどの光学センサを備えることもできる。いくつかの実施例において、当該センサコンポーネント914はさらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを含み得る。
通信コンポーネント916は、装置900と他の装置の間の有線または無線通信を容易にするように構成される。装置900は、WiFi、2Gまたは3G、またはそれらの組み合わせなどの通信規格に基づく無線ネットワークにアクセスすることができる。一例示的な実施例において、通信コンポーネント916は、放送チャンネルを介して、外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的な実施例において、前記通信コンポーネント916は、さらに、短距離通信を促進するために、近距離通信(NFC)モジュールを備える。例えば、NFCモジュールは、無線周波数認識(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術および他の技術に基づいて実現されることができる。
例示的な実施例において、装置900は、上記の方法を実行するために、1つまたは複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子素子によって実現されることができる。
例示的な実施例において、命令を含むメモリ904など、命令を含む非一時的なコンピュータ可読記憶媒体をさらに提供し、前記命令は、装置900のプロセッサ920に上記の方法を実行させることができる。例えば、前記非一時的なコンピュータ可読記憶媒体は、ROM、ランダムアクセスメモリ(RAM)、CD-ROM、磁気テープ、フロッピーディスク、および光学データ記憶装置などであり得る。
図7は、本願のいくつかの実施例におけるサーバ側の構造のブロック図である。当該サーバ側1900は、構成または性能の違いにより比較的に大きな差異があり得、1つまたは複数の中央処理装置(CPU:central processing units)1922(例えば、1つまたは複数のプロセッサ)およびメモリ1932、1つまたは複数のアプリケーション1942またはデータ1944が記憶された記憶媒体1930(例えば、1つまたは複数の大容量記憶装置)を備えることができる。ここで、メモリ1932および記憶媒体1930は、一時的または永久的な記憶装置であり得る。記憶媒体1930に記憶されたプログラムは、1つまたは複数のモジュール(未図示)を含み得、各モジュールは、サーバ側での一連の命令動作を含み得る。さらに、中央処理装置1922は、記憶媒体1930と通信し、サーバ側1900で記憶媒体1930内の一連の命令動作を実行するように構成されることができる。
サーバ側1900は、1つまたは複数の電源1926、1つまたは複数の有線または無線ネットワークインターフェース1950、1つまたは複数の入力/出力インターフェース1958、1つまたは複数のキーボード1956、および/または、1つまたは複数のオペレーティングシステム1941(例えば、Windows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMなど)をさらに含んでもよい。
非一時的なコンピュータ可読記憶媒体を提供し、前記記憶媒体における命令が装置(機器またはサーバ側)のプロセッサによって実行されるとき、装置に、仮想対象のアクション処理方法を実行させ、前記方法は、アクション命令を受信するステップであって、前記アクション命令は、アクション識別子と時間関連情報とを含む、ステップと、前記アクション識別子に対応するアクションビデオフレームシーケンスを決定するステップと、ターゲット時間における仮想対象の所定状態画像に基づいて、前記アクションビデオフレームシーケンスから、前記所定状態画像に対応するアクション状態画像を決定するステップであって、前記ターゲット時間は、前記時間関連情報に基づいて決定される、ステップと、前記所定状態画像および前記アクション状態画像に基づいて、接続ビデオフレームシーケンスを生成するステップであって、前記接続ビデオフレームシーケンスは、前記所定状態画像と前記アクションビデオフレームシーケンスを接続するために使用される、ステップと、前記接続ビデオフレームシーケンスと前記アクションビデオフレームシーケンスを繋ぎ合わせて、アクションビデオを取得するステップと、を含む。
当業者は、本明細書を検討し、本明細書に開示された発明を実施した後、本願の他の実施形態を容易に想到し得るであろう。本願は、本願のあらゆる変形、応用または適応的変更を網羅することを意図しており、これらの変形、応用または適応的変更は、本願の一般原理に準拠し、本願で開示されていない当技術分野における公知常識または従来の技術手段を含む。本明細書および実施例は、単なる例示的なものであり、本願の真の範囲および趣旨は、添付の特許請求の範囲で指摘される。
本願は、上記で説明し且つ図面に示された正確な構造に限定されるものではなく本出願の範囲から逸脱することなく、様々な修正および変更を行うことができることを理解されたい。本願の範囲は、添付の特許請求の範囲に従うべきである。
上記の説明は、本願の好ましい実施例に過ぎず、本願を限定することを意図するものではなく、本願の趣旨および原則内で行われるあらゆる修正、同等置換、改善などは、すべて本願の保護範囲に含まれるべきである。
以上では、本願による仮想対象のアクション処理方法、仮想対象のアクション処理装置、および仮想対象のアクション処理のための装置について詳細に説明しており、本明細書では、具体的な例を挙げて本願の原理および実施形態について説明したが、上記した実施例の説明は、単に本願の方法およびその本旨を理解を支援するためのものである。また、当業者にとっては、本願の趣旨に基づいて、具体的な実施形態および適用範囲に変更が生じるであろう。まとめると、本明細書の内容は、本願に対する限定として理解されるべきではない。

Claims (12)

  1. コンピュータ機器が実行する、仮想対象のアクション処理方法であって、
    アクション命令を受信するステップであって、前記アクション命令は、アクション識別子と時間関連情報とを含む、ステップと、
    前記アクション識別子に対応するアクションビデオフレームシーケンスを決定するステップと、
    ターゲット時間における仮想対象の所定状態画像に基づいて、前記アクションビデオフレームシーケンスから、前記所定状態画像に対応するアクション状態画像を決定するステップであって、前記ターゲット時間は、前記時間関連情報に基づいて決定される、ステップと、
    前記所定状態画像および前記アクション状態画像に基づいて、接続ビデオフレームシーケンスを生成するステップであって、前記接続ビデオフレームシーケンスは、前記所定状態画像と前記アクションビデオフレームシーケンスを接続するために使用される、ステップと、
    前記接続ビデオフレームシーケンスと前記アクションビデオフレームシーケンスを繋ぎ合わせて、アクションビデオを取得するステップと、
    を含む、仮想対象のアクション処理方法。
  2. 前記所定状態画像および前記アクション状態画像に基づいて、接続ビデオフレームシーケンスを生成するステップは、
    前記所定状態画像および前記アクション状態画像にそれぞれ対応するオプティカルフロー特徴を決定するステップと、
    前記オプティカルフロー特徴に基づいて、前記接続ビデオフレームシーケンスを生成するステップと、
    を含む、請求項1に記載の仮想対象のアクション処理方法。
  3. 前記所定状態画像および前記アクション状態画像に基づいて、接続ビデオフレームシーケンスを生成するステップは、
    前記所定状態画像および前記アクション状態画像にそれぞれ対応するオプティカルフロー特徴、テクスチャ特徴および/または深度特徴を決定するステップと、
    前記オプティカルフロー特徴、前記テクスチャ特徴および/または前記深度特徴に基づいて、前記接続ビデオフレームシーケンスを生成するステップと、
    を含む、請求項1に記載の仮想対象のアクション処理方法。
  4. ターゲット時間における仮想対象の所定状態画像に基づいて、前記アクションビデオフレームシーケンスから、前記所定状態画像に対応するアクション状態画像を決定するステップは、
    前記所定状態画像に対応する視覚特徴を、前記アクションビデオフレームシーケンス内の各アクション状態画像に対応する視覚特徴と照合して、前記所定状態画像に対応するアクション状態画像を取得するステップ
    を含む、請求項1に記載の仮想対象のアクション処理方法。
  5. 前記仮想対象のアクション処理方法は、
    前記所定状態画像または前記アクション状態画像から、前記仮想対象に対応する領域画像を決定するステップと、
    前記領域画像から所定部位の視覚特徴を抽出して、前記所定状態画像または前記アクション状態画像に対応する視覚特徴として使用するステップと、
    をさらに含む、請求項4に記載の仮想対象のアクション処理方法。
  6. 前記仮想対象のアクション処理方法は、
    抽出された前記所定部位の視覚特徴に基づいて、前記所定部位の画像に対して三次元再構成を実行することにより、前記所定部位の高密度視覚特徴を取得するステップをさらに含み、
    前記所定部位の高密度視覚特徴は、前記所定状態画像または前記アクション状態画像に対応する視覚特徴として使用される、
    請求項5に記載の仮想対象のアクション処理方法。
  7. 前記所定状態画像および前記アクション状態画像に基づいて、接続ビデオフレームシーケンスを生成するステップは、
    前記所定状態画像と前記アクション状態画像の位置姿勢情報を位置合わせして、位置合わせされた所定状態画像とアクション状態画像を取得するステップと、
    前記位置合わせされた所定状態画像とアクション状態画像に基づいて、前記接続ビデオフレームシーケンスを生成するステップと、
    を含む、請求項1に記載の仮想対象のアクション処理方法。
  8. 前記仮想対象のアクション処理方法は、
    前記所定状態画像から、部位の所定状態画像を抽出し、三次元再構成に基づいて、前記部位の所定状態画像に対応する第3視覚特徴を決定するステップと、
    前記アクション状態画像から、部位アクション状態画像を抽出し、三次元再構成に基づいて、前記部位アクション状態画像に対応する第4視覚特徴を決定するステップと、
    前記第3視覚特徴および前記第4視覚特徴に基づいて、部位接続ビデオフレームシーケンスを生成するステップと、
    前記部位接続ビデオフレームシーケンスを前記接続ビデオフレームシーケンスに追加するステップと、
    をさらに含む、請求項1に記載の仮想対象のアクション処理方法。
  9. 前記時間関連情報は、前記アクション識別子に対応するテキスト情報を含む、
    請求項1ないし8のいずれか一項に記載の仮想対象のアクション処理方法。
  10. 仮想対象のアクション処理装置であって、
    アクション命令を受信するように構成される命令受信モジュールであって、前記アクション命令は、アクション識別子と時間関連情報とを含む、命令受信モジュールと、
    前記アクション識別子に対応するアクションビデオフレームシーケンスを決定するように構成される、アクションビデオフレームシーケンス決定モジュールと、
    ターゲット時間における仮想対象の所定状態画像に基づいて、前記アクションビデオフレームシーケンスから、前記所定状態画像に対応するアクション状態画像を決定するように構成される画像ペア決定モジュールであって、前記ターゲット時間は、前記時間関連情報に基づいて決定される、画像ペア決定モジュールと、
    前記所定状態画像および前記アクション状態画像に基づいて、接続ビデオフレームシーケンスを生成するように構成される生成モジュールであって、前記接続ビデオフレームシーケンスは、前記所定状態画像と前記アクションビデオフレームシーケンスを接続するために使用される、生成モジュールと、
    前記接続ビデオフレームシーケンスと前記アクションビデオフレームシーケンスを繋ぎ合わせて、アクションビデオを取得するように構成される、繋ぎ合わせモジュールと、
    を備える、前記仮想対象のアクション処理装置。
  11. プログラムが記憶されたメモリと、前記プログラムを実行することによって請求項1ないし8のいずれか一項に記載の仮想対象のアクション処理方法を実現するように構成されるプロセッサと、を備える、コンピュータ機器。
  12. コンピュータに、請求項1ないし8のいずれか一項に記載の仮想対象のアクション処理方法を実行させるためのプログラム。
JP2023549586A 2021-07-07 2022-06-22 仮想対象のアクション処理方法およびその装置、コンピュータプログラム Pending JP2024513640A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110770548.4A CN113642394B (zh) 2021-07-07 2021-07-07 一种虚拟对象的动作处理方法、装置和介质
CN202110770548.4 2021-07-07
PCT/CN2022/100369 WO2023279960A1 (zh) 2021-07-07 2022-06-22 虚拟对象的动作处理方法、装置和存储介质

Publications (1)

Publication Number Publication Date
JP2024513640A true JP2024513640A (ja) 2024-03-27

Family

ID=78416891

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023549586A Pending JP2024513640A (ja) 2021-07-07 2022-06-22 仮想対象のアクション処理方法およびその装置、コンピュータプログラム

Country Status (5)

Country Link
US (1) US20230368461A1 (ja)
EP (1) EP4300431A1 (ja)
JP (1) JP2024513640A (ja)
CN (1) CN113642394B (ja)
WO (1) WO2023279960A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642394B (zh) * 2021-07-07 2024-06-11 北京搜狗科技发展有限公司 一种虚拟对象的动作处理方法、装置和介质
CN113822972B (zh) * 2021-11-19 2022-05-27 阿里巴巴达摩院(杭州)科技有限公司 基于视频的处理方法、设备和可读介质
CN116708919A (zh) * 2022-06-30 2023-09-05 北京生数科技有限公司 合成虚拟形象的视频处理方法、相关装置及存储介质
CN116980654B (zh) * 2023-09-22 2024-01-19 北京小糖科技有限责任公司 基于视频教学的交互方法、装置、设备及存储介质

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120180084A1 (en) * 2011-01-12 2012-07-12 Futurewei Technologies, Inc. Method and Apparatus for Video Insertion
JP2013058059A (ja) * 2011-09-08 2013-03-28 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
CN104038705B (zh) * 2014-05-30 2018-08-24 无锡天脉聚源传媒科技有限公司 视频制作方法和装置
KR20160016068A (ko) * 2014-08-01 2016-02-15 삼성전자주식회사 이미지 생성 방법 및 그 전자 장치
CN107529091B (zh) * 2017-09-08 2020-08-04 广州华多网络科技有限公司 视频剪辑方法及装置
CN108304762B (zh) * 2017-11-30 2021-11-05 腾讯科技(深圳)有限公司 一种人体姿态匹配方法及其设备、存储介质、终端
CN108320021A (zh) * 2018-01-23 2018-07-24 深圳狗尾草智能科技有限公司 机器人动作与表情确定方法、展示合成方法、装置
CN108665492B (zh) * 2018-03-27 2020-09-18 北京光年无限科技有限公司 一种基于虚拟人的舞蹈教学数据处理方法及系统
CN109637518B (zh) * 2018-11-07 2022-05-24 北京搜狗科技发展有限公司 虚拟主播实现方法及装置
CN109872297A (zh) * 2019-03-15 2019-06-11 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN110148406B (zh) * 2019-04-12 2022-03-04 北京搜狗科技发展有限公司 一种数据处理方法和装置、一种用于数据处理的装置
CN110378247B (zh) * 2019-06-26 2023-09-26 腾讯科技(深圳)有限公司 虚拟对象识别方法和装置、存储介质及电子装置
CN110347867B (zh) * 2019-07-16 2022-04-19 北京百度网讯科技有限公司 用于生成嘴唇动作视频的方法和装置
CN111369687B (zh) * 2020-03-04 2021-03-30 腾讯科技(深圳)有限公司 合成虚拟对象的动作序列的方法及设备
US10911775B1 (en) * 2020-03-11 2021-02-02 Fuji Xerox Co., Ltd. System and method for vision-based joint action and pose motion forecasting
CN111508064B (zh) * 2020-04-14 2022-06-17 北京世纪好未来教育科技有限公司 基于音素驱动的表情合成方法、装置和计算机存储介质
CN112040327A (zh) * 2020-08-19 2020-12-04 深圳创维-Rgb电子有限公司 电视游戏的人机交互方法、系统、电视机及存储介质
CN112101196B (zh) * 2020-09-14 2023-08-11 北京百度网讯科技有限公司 数据的处理方法、装置、设备以及存储介质
CN112233210B (zh) * 2020-09-14 2024-06-07 北京百度网讯科技有限公司 生成虚拟人物视频的方法、装置、设备和计算机存储介质
CN113642394B (zh) * 2021-07-07 2024-06-11 北京搜狗科技发展有限公司 一种虚拟对象的动作处理方法、装置和介质

Also Published As

Publication number Publication date
US20230368461A1 (en) 2023-11-16
CN113642394A (zh) 2021-11-12
EP4300431A1 (en) 2024-01-03
WO2023279960A1 (zh) 2023-01-12
CN113642394B (zh) 2024-06-11

Similar Documents

Publication Publication Date Title
CN109819313B (zh) 视频处理方法、装置及存储介质
CN110662083B (zh) 数据处理方法、装置、电子设备及存储介质
WO2022001593A1 (zh) 视频生成方法、装置、存储介质及计算机设备
US20210383154A1 (en) Image processing method and apparatus, electronic device and storage medium
JP2024513640A (ja) 仮想対象のアクション処理方法およびその装置、コンピュータプログラム
CN107172497B (zh) 直播方法、装置及系统
EP3195601B1 (en) Method of providing visual sound image and electronic device implementing the same
CN112822542A (zh) 视频合成方法、装置、计算机设备和存储介质
CN106791535B (zh) 视频录制方法及装置
EP3726471A1 (en) Augmented reality method and device
CN109474843A (zh) 语音操控终端的方法、客户端、服务器
CN111954063B (zh) 视频直播间的内容显示控制方法及装置
US10812430B2 (en) Method and system for creating a mercemoji
CN113691833B (zh) 虚拟主播换脸方法、装置、电子设备及存储介质
CN109033423A (zh) 同传字幕显示方法及装置、智能会议方法、装置及系统
CN114880062B (zh) 聊天表情展示方法、设备、电子设备及存储介质
TW202226049A (zh) 關鍵點檢測方法、電子設備和儲存媒體
CN112613447A (zh) 关键点检测方法及装置、电子设备和存储介质
WO2023241377A1 (zh) 视频数据的处理方法、装置、设备、系统及存储介质
WO2023173659A1 (zh) 人脸匹配方法及装置、电子设备、存储介质、计算机程序产品及计算机程序
CN116016817A (zh) 视频剪辑方法、装置、电子设备及存储介质
CN112837668A (zh) 一种语音处理方法、装置和用于处理语音的装置
KR102673676B1 (ko) 메시징 시스템 내의 비디오에 광고들을 삽입함
KR102509106B1 (ko) 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치
US12019669B2 (en) Method, apparatus, device, readable storage medium and product for media content processing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230828