JP7273901B2 - ビデオシーケンス編成方法、装置、電子設備、記憶媒体、及びプログラム - Google Patents

ビデオシーケンス編成方法、装置、電子設備、記憶媒体、及びプログラム Download PDF

Info

Publication number
JP7273901B2
JP7273901B2 JP2021115562A JP2021115562A JP7273901B2 JP 7273901 B2 JP7273901 B2 JP 7273901B2 JP 2021115562 A JP2021115562 A JP 2021115562A JP 2021115562 A JP2021115562 A JP 2021115562A JP 7273901 B2 JP7273901 B2 JP 7273901B2
Authority
JP
Japan
Prior art keywords
sequence
video
frame
master
jump
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021115562A
Other languages
English (en)
Other versions
JP2021177647A (ja
Inventor
チャオ ヤーフェイ
チャン シーチャン
クオ ツーユアン
チェン チャオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021177647A publication Critical patent/JP2021177647A/ja
Application granted granted Critical
Publication of JP7273901B2 publication Critical patent/JP7273901B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/002Programmed access in sequence to a plurality of record carriers or indexed parts, e.g. tracks, thereof, e.g. for editing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/005Reproducing at a different information rate from the information rate of recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/005Reproducing at a different information rate from the information rate of recording
    • G11B27/007Reproducing at a different information rate from the information rate of recording reproducing continuously a part of the information, i.e. repeating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Description

本開示は、情報処理の分野に関し、特にディープラーニング、仮想現実、クラウドコンピューティング、ビデオ編成処理などの分野に関する。
コンピュータ技術の発展に伴い、人工知能、ディープラーニング、仮想現実、クラウドコンピューティングなどの技術は大きくユーザーの生活に応用され、ライブ配信、ショートビデオ、オンライントレーニングなどの様々な応用シーンにおいて、ユーザーとのインタラクションの役割を果たしている。これらのシーンにおいて、仮想のキャラクタ(2D又は3D)を用いて実際のキャラクタ代わりにしたり、該仮想のキャラクタを実際のキャラクタと合わせて、共にビデオ録画したりすることができる。
携帯設備や携帯端末などの電子設備は、従来よりもさらにスマート化し、チップの解析能力はさらに強く、特にビデオ情報の解析、画面のレンダリングなどは従来のものよりもより速く、より鮮明となっていることで、ユーザーのビデオ情報に対するニーズは日増しに高まり、ビデオ録画が多様化するか否かは、ユーザーのインタラクティブ体験に直接影響し、ビデオ録画の多様化は、ビデオコンテンツを豊富にすることもできる。しかし、関連技術において、ビデオの多様化をどのように高めるかについては、有効な解決策が存在していない。
本開示は、ビデオシーケンス編成方法、装置、電子設備、及び記憶媒体を提供する。
本開示の1つの態様は、ビデオシーケンス編成方法を提供し、該方法は、
人体の第1姿勢を記述するためのマスタシーケンスと、人体の複数の第2姿勢を記述するためのスレーブシーケンスとを含む第1ビデオシーケンスを取得することと、
前記第1ビデオシーケンスから前記マスタシーケンス及び前記スレーブシーケンスを抽出することと、
前記第1ビデオシーケンスにおいて、逆方向フレーム、ジャンプフレーム及び遷移フレームのうちの少なくとも1つを含む整列標識フレームが存在すると検出した場合、前記整列標識フレームに基づいて、前記マスタシーケンス及び前記スレーブシーケンスにおけるビデオフレームをランダムに混合配列するランダム混合配列処理し、ランダム混合配列処理により得られた整列組み合わせを第2ビデオシーケンスとすることと、を含む。
本開示の他の態様は、ビデオシーケンス編成装置を提供し、該装置は、
人体の第1姿勢を記述するためのマスタシーケンスと、人体の複数の第2姿勢を記述するためのスレーブシーケンスとを含む第1ビデオシーケンスを取得するためのビデオ取得モジュールと、
前記第1ビデオシーケンスから前記マスタシーケンス及び前記スレーブシーケンスを抽出するためのビデオ抽出モジュールと、
前記第1ビデオシーケンスにおいて、逆方向フレーム、ジャンプフレーム及び遷移フレームのうちの少なくとも1つを含む整列標識フレームが存在すると検出した場合、前記整列標識フレームに基づいて、前記マスタシーケンス及び前記スレーブシーケンスにおけるビデオフレームをランダム混合配列処理し、ランダム混合配列処理により得られた整列組み合わせを第2ビデオシーケンスとするためのビデオ編成モジュールと、を備える。
本開示の他の態様は、電子設備をさらに提供し、当該電子設備は、
少なくとも1つのプロセッサと、
少なくとも1つのプロセッサに通信接続されるメモリと、を備え、
メモリには、少なくとも1つのプロセッサにより実行可能な命令が記憶されており、
命令は、少なくとも1つのプロセッサにより実行される場合、本開示の実施形態の任意のビデオシーケンス編成方法を実行させることを特徴とする。
本開示の他の態様は、コンピュータ命令を記憶した非一過性のコンピュータ可読記憶媒体をさらに提供し、当該コンピュータ命令を記憶した非一過性のコンピュータ可読記憶媒体は、本開示の実施形態の任意のビデオシーケンス編成方法をコンピュータに実行させる。
本開示の他の態様は、プログラムを提供し、該プログラムは、
コンピュータにおいて、プロセッサにより実行される場合、本開示の実施形態の任意のビデオシーケンス編成方法を実現する。
本開示において、人体の第1姿勢を記述するためのマスタシーケンスと、人体の複数の第2姿勢を記述するためのスレーブシーケンスとを含む第1ビデオシーケンスを取得する。前記第1ビデオシーケンスから前記マスタシーケンス及び前記スレーブシーケンスを抽出し、前記第1ビデオシーケンスにおいて、逆方向フレーム、ジャンプフレーム及び遷移フレームのうちの少なくとも1つを含む整列標識フレームが存在すると検出した場合、前記整列標識フレームに基づいて、前記マスタシーケンス及び前記スレーブシーケンスにおけるビデオフレームをランダム混合配列処理し、ランダム混合配列処理により得られた整列組み合わせを第2ビデオシーケンスとする。本開示を用いることにより、ビデオ編成の多様化を向上することができる。
ここに記載された内容は、本開示の実施形態のキーポイント又は重要な特徴を記述することを意図せず、また、本開示の範囲を制限することにも用いられないことを理解すべきである。本開示の他の特徴については、下記の明細書を通して説明を促す。
添付図面は、本方案をより良く理解するためのものであり、本開示を限定するものではない。
関連技術における仮想のキャラクタの生成に用いられる原版ビデオシーケンスの単方向再生の概略図である。 関連技術における仮想のキャラクタの生成に用いられる原版ビデオシーケンスの双方向ループ再生の概略図である。 本開示の実施形態のマスタシーケンスの概略図である。 本開示の実施形態のスレーブシーケンスの概略図である。 本開示の実施形態によるビデオシーケンス編成方法のフロー概略図である。 本開示の実施形態による2Dデジタルの人体のビデオ画面を生成する概略図である。 本開示の実施形態による原版ビデオシーケンスの編成再生の概略図である。 本開示の実施形態による2つの原版ビデオマスタシーケンスの編成再生の概略図である。 本開示の実施形態による3つの原版ビデオマスタシーケンスの編成再生の概略図である。 本開示の実施形態による1マスタ1スレーブシーケンス間の編成再生の概略図である。 本開示の実施形態による1マスタ多スレーブシーケンス間の編成再生の概略図である。 本開示の実施形態による遷移フレームを生成する概略図である。 本開示の実施形態によるビデオシーケンス編成装置の構成構造概略図である 本開示の実施形態によるビデオシーケンス編成方法を実現するための電子設備のブロック図である。
以下、図面を組み合わせて本開示の例示的な実施形態を説明し、理解を容易にするためにその中には本開示の実施形態の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施形態に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
本明細書における用語「及び/又は」は、単に関連オブジェクトを記述する関連関係であり、表示には3つの関係が存在でき、例えば、A及び/又はBは、Aが単独で存在する、AとBとが同時に存在する、Bが単独で存在するという3つの状況を表すことができる。本明細書における用語「少なくとも1つ」は、複数のうちの任意の1つ又は複数のうちの少なくとも2つの任意の組み合わせを表し、例えば、A、B、Cのうちの少なくとも1つを含むは、A、B、及びCからなる集合から選択された任意の1つ又は複数の要素を含むことを表すことができる。本明細書における用語「第1」、「第2」は、複数の類似の技術用語を指して区別することを表し、順序を限定する、又は2つのみと限定する意図ではなく、例えば、第1特徴と第2特徴とは、2つのタイプ/2つの特徴があることを指し、第1特徴は1つ又は複数であり、第2特徴も1つ又は複数であることができる。
さらに、本明細書をよりよく説明するために、以下の具体的な実施形態において多くの具体的な詳細が示される。当業者は、特定の詳細がなくとも、本開示を同様に実施することができることを理解すべきである。いくつかの例において、当業者の熟知している方法、手段、要素、及び回路は、本開示の主旨を明確にするため、詳細に説明しない。
ライブ配信、ショートビデオ、オンライントレーニングなどの様々な応用シーンにおいて、仮想のキャラクタ(2D又は3D)を実際のキャラクタ代わりにする、又は該仮想のキャラクタを実際のキャラクタと合わせて、共にビデオ録画するシーンを例とすると、ディープラーニングなどの技術を用いて該仮想のキャラクタを生成することができ、例えば、ディープラーニングモデルに音声を入力することで、該仮想のキャラクタの顔部位を生成でき、かつ仮想のキャラクタの顔部位の動作(口型動作、表情動作などを含む)と該音声とがリズム及び語義の内容などにおいて一致することで、仮想のキャラクタが該音声内容を話すビデオ画面を得られる。該ビデオ画面において、顔以外の身体部分の動作は、あらかじめ録画された原版ビデオから得られる。
図1は、関連技術における仮想のキャラクタの生成に用いられる原版ビデオシーケンスの単方向再生の概略図であり、図1に示すように、原版ビデオシーケンスにおける複数のビデオフレームは、単方向再生状態、即ち順方向再生であり、録画により該原版ビデオを得る。図2は、関連技術における仮想のキャラクタの生成に用いられる原版ビデオシーケンスの双方向ループ再生の概略図であり、図2に示すように、原版ビデオシーケンスにおける複数のビデオフレームは、順方向再生であってもよく、図2において、三角形により標識されたフレーム「N0」に基づいて逆方向再生されてもよく、双方向ループ再生を実現することで、録画により該原版ビデオを得る。ここで、図1~図2はそれぞれ、ビデオの0、1、2、3、4、5秒目のビデオ画面を示す。
該原版ビデオの長さ及び内容は、録画終了後に変更することが困難であり、上述の仮想のキャラクタを生成するプロセスに該原版ビデオを応用し、得られる仮想のキャラクタのビデオ画面の長さは制限されており、内容は単一である。
本開示により、整列標識フレーム(逆方向フレーム、ジャンプフレーム及び遷移フレームのうちの少なくとも1つの標識フレーム)に基づいて、初期ビデオフレーム(マスタシーケンス及び/又はスレーブシーケンスにより構成されたビデオフレーム)において抽出されたビデオフレームをランダム混合配列処理し、ランダム混合配列処理により得られた整列組み合わせを新たなビデオシーケンスとし、ランダム混合配列処理のプロセスにおいて、ユーザーのニーズに基づいて該新たなビデオシーケンスの長さを調整することができ、長さは制限をうけない。該新たなビデオシーケンスの内容は、更なるランダム性を備え、多様化を示す。
本開示に係る技術用語は、以下のように説明される。
1)マスタ動作シーケンス(マスタシーケンスと簡略に称する)は、仮想のキャラクタのアイドル状態における動作ビデオシーケンスである。図3は、本開示の実施形態のマスタシーケンスの概略図であり、図3に示すように、マスタ動作シーケンス全体において、仮想のキャラクタは基本的に1つの姿勢を保ち、わずかな動作しか伴わない。
2)スレーブ動作シーケンス(スレーブシーケンスと簡略に称する)は、マスタシーケンスとマッチングするシーケンスである。図4は、本開示の実施形態のスレーブシーケンスの概略図であり、図4に示すように、該スレーブシーケンスにおいて、仮想のキャラクタはマスタ動作シーケンスにおける姿勢から始まり、大きな動作(例えば、手を振る、左右に手を伸ばすなど)を行い、その後手を元の位置に戻し、マスタシーケンスの姿勢に戻る。
3)逆方向フレームは、図2に示すように、三角形により標識されたフレーム「N0」であり、逆方向フレームとして逆方向再生を行うことができる。該フレームにおいて順方向再生を行うこともでき、ここで、該フレームは逆方向フレームとして逆方向再生の機能を備えることを示していることを理解すべきである。
4)ジャンプフレームは、マスタシーケンスの任意の1フレームであってもよく、また、スレーブシーケンスの開始フレーム(第1フレーム)と終了フレーム(最後のフレーム)であってもよく、ジャンプフレームは、異なる動作シーケンス間のジャンプ再生を実現するために用いられる。
5)遷移フレームは、2つの異なるシーケンスのジャンプフレーム間で、補間アルゴリズム又はニューラルネットワークモデルにより生成された補間フレームである。
本開示の実施形態に基づいて、ビデオシーケンス編成方法を提供し、図5は、本開示の実施形態によるビデオシーケンス編成方法のフロー概略図であり、該方法は、ビデオシーケンス編成装置に応用することができる。例えば、該装置は、端末、サーバ、又は他の処理装置に配置される場合、ビデオフレームの抽出、ビデオフレームのランダム混合配列などを実行することができる。ここで、端末は、ユーザデバイス(UE、User Equipment)、携帯デバイス、携帯電話、コードレス電話、パーソナルデジタルアシスタント(PDA、Personal Digital Assistant)、ハンドヘルドデバイス、コンピューティングデバイス、車載デバイス、ウェアラブルデバイスなどであってもよい。いくつかの可能な実施形態において、該方法はさらに、プロセッサがメモリに記憶されたコンピュータ可読命令をコールすることにより実現されてもよい。図5に示されるように、以下のステップS101、S102、S103を含む。
S101において、人体の第1姿勢を記述するためのマスタシーケンスと、人体の複数の第2姿勢を記述するためのスレーブシーケンスとを含む第1ビデオシーケンスを取得する。
S102において、前記第1ビデオシーケンスから前記マスタシーケンス及び前記スレーブシーケンスを抽出する。
S103において、前記第1ビデオシーケンスにおいて、逆方向フレーム、ジャンプフレーム及び遷移フレームのうちの少なくとも1つを含む整列標識フレームが存在すると検出した場合、前記整列標識フレームに基づいて、前記マスタシーケンス及び前記スレーブシーケンスにおけるビデオフレームをランダム混合配列処理し、ランダム混合配列処理により得られた整列組み合わせを第2ビデオシーケンスとする。
S101~S103に基づく例において、第1ビデオシーケンスを構成するマスタ動作シーケンス(マスタシーケンスと簡略に称する)及び受動シーケンス(スレーブシーケンスと簡略に称する)に対して、ランダム混合配列処理を加えることができるため、整列標識フレーム(逆方向フレーム、ジャンプフレーム、及び遷移フレームなど)に基づき、該マスタシーケンス及び該スレーブシーケンスにおけるビデオフレームをランダム混合配列処理することができる、即ち、前記ビデオフレームの再生順序の切り替え、又は複数のシーケンス間の切り替え(例えば、少なくとも2つのマスタシーケンス間の切り替え、少なくとも2つのマスタシーケンスとスレーブシーケンス間の切り替えなど)であり、ランダム混合配列処理により得られた整列組み合わせを第2ビデオシーケンスとする。該第2ビデオシーケンスの長さ、ビデオフレームの編成は、任意の短時間の第1ビデオシーケンスに基づき生成されることができるため、この例を用いて、任意の時間の長さ、任意の再生順序の複数のビデオシーケンスの整列組み合わせを得ることができ、即ち、第2ビデオシーケンスは、第1ビデオシーケンスの固定の長さに限定されず、例えば、再生時間が30分間である第1ビデオシーケンスは、ニーズに応じて60分間又はそれより長い再生時間の第2ビデオシーケンスを生成することができる。第2ビデオシーケンスは、第1ビデオシーケンスの順方向再生又は逆方向再生順序に制限されず、さらに第1ビデオシーケンスの各シーケンス(マスタシーケンス及びスレーブシーケンス)、又はあるシーケンスのビデオフレーム間でジャンプ又は遷移を行うことができ、ニーズに応じて、更なるビデオフレームがランダム混合配列された第2ビデオシーケンスを生成することができ、ビデオフレームの編成のランダム性を増やす。
本開示により、人体の第1姿勢を記述するためのマスタシーケンスと、人体の複数の第2姿勢を記述するためのスレーブシーケンスとを含む第1ビデオシーケンスを取得することができる。前記第1ビデオシーケンスから前記マスタシーケンス及び前記スレーブシーケンスを抽出し、前記第1ビデオシーケンスにおいて、整列標識フレームが存在すると検出した場合、前記整列標識フレームに基づいて、前記マスタシーケンス及び前記スレーブシーケンスにおけるビデオフレームをランダム混合配列処理することができる。例えば、逆方向フレームに基づいてビデオフレームの逆方向再生を行う、ジャンプフレームに基づいて1つのシーケンスから別の異なるシーケンスへ切り替える、ジャンプフレームに基づいて他の異なるシーケンスへの切り替えをトリガする、さらに遷移フレームに基づいてシーケンスにおける具体的なフレームにさらに切り替えることができるため、ランダム混合配列処理により得られたこれらの任意の整列組み合わせを第2ビデオシーケンスとし、ビデオフレームのランダム性を増やし、ビデオ編成の多様化を向上することができ、かつビデオの長さは、ユーザーのニーズに応じて編成することができ、長さは制限されない。
本開示は、ライブ配信、ショートビデオ、オンライントレーニングなどのシーンにおいて、仮想のキャラクタ(2D又は3D)を用いて実際のキャラクタの代わりにする又はシミュレートするシーンに限定せず、限られた数のビデオシーケンスをより豊富で多様なビデオシーケンスに組み合わせる様々な応用シーンに適応することができる。
図6は、本開示の実施形態による2Dデジタルの人体のビデオ画面を生成する概略図であり、本開示のランダム混合配列により得られた第2ビデオシーケンスを、仮想のキャラクタ(2Dデジタルの人体など)により生成したシーンに応用し、入力された音声に基づいて2Dデジタルの人体の顔部位を得ることができ、該第2ビデオシーケンスを原版ビデオとし、2Dデジタルの人体の顔部位を該原版ビデオにおける顔部位を除く他の部分動作と総合し、該2Dデジタル人体を含むビデオ画像を得ることにより、2Dデジタルの人体のリアリティを高め、より自然で実際の人間に近づく。具体的には以下を含む。
一、ディープラーニング技術を通して、音声(例えば、音声合成技術TTSにより生成する)をニューラルネットワークモデル(例えば、顔生成モデル)に入力することで、2D顔(顔部位を含む)を生成し、該2D顔は、内容(例えば、リズム、意味等)において入力した音声と一致する顔画像(口型及び表情を含む)である。
ここで、2Dデジタルの人体のイメージは、自ら定義して設計(即ち仮想のキャラクタ)してもよく、実際の人物Aからでもよく、該人物Aに対して、音声内容を話すビデオ画面を生成し、画面における人物Aの、本人が実際に話しているのではない、発言の画面をコントロールすることができ、音声(リズム、語義の内容)と顔の動作(口型動作、表情動作を含む)との一致性をはかることができる。
入力された音声が人物Aの実際の音声からではない場合、音声収集方法は、1)音声合成技術(TTS)により生成された、人物Aの発言に近い音声、2)別の人物Bの音声、3)TTSにより生成された別の音声(必ずしも実際の人物に対応するものではなく、アニメーションの吹き替えなどであってもよい)を含むことができる。
二、該2D顔と身体の他の部分とをマッチングするプロセスにおいて、既存の原版ビデオから抽出することができる。原版ビデオの場合、上述の第2ビデオシーケンス(即ち、第1ビデオシーケンスが上述のビデオ編成を経て得た第2ビデオシーケンスであり、それを該原版ビデオとする。)を読み取り、該第2ビデオシーケンスに基づいて該原版ビデオを得、該原版ビデオの各フレームに対して復号し、複数の原版フレームを得、各原版フレームに対して処理を行った後に2つの情報を出力することができる。
ここで、1つ目の情報は、切り取られた顔部位(即ち、該顔生成モデルを入力して得た2D顔)である。2つ目の情報は、各原版フレームの顔部位に対してマスク処理を行った後、得られたマスクカバー原版フレームである。最終的に、生成された該2D顔を、該マスクカバー原版フレームとアライメント、融合した後、出力ビデオフレームへとつなぎ合わせることで、直接再生表示を行う、又は圧縮符号化した後、直接ネットワーク上にアップロードし再生を行う。ニーズに応じて生成される第2ビデオシーケンスがビデオフレームの長さの無制限及び編成のランダム性を増やしたため、該第2ビデオシーケンスに基づいて得られた該原版ビデオは、長さ及びビデオ編成においてさらにランダムであり、生成した2Dデジタル人体はさらに自然となり、実際の人間に近づくことができ、2Dデジタル人体の柔軟性、動作の豊富度及び制御性も大幅に向上する。
上述の2Dデジタルの人体は、
1)ニュース報道、オーディオ読み上げ、ビデオライブ配信のための仮想キャスター、
2)カスタマーサービスに用いられるデジタルアシスタント、
3)教育トレーニングに用いられる仮想教師などを含むがこれらに限定されない様々な応用シナリオに適用することができる。
上述の2Dデジタルの人体の訓練が完了し、オンラインにデプロイした後、上述の応用シーンに応用され、顔の動作は顔生成モデルを通して音声信号から生成されるため、顔以外の身体部分の動作は予め録画された原版ビデオから得られる。デジタル人体表示の全てのプロセスにおいて、原版ビデオからフレームごとに抽出し、該フレームを基に入力音声に対応する2D顔を生成するため、原版ビデオ編成の優劣が2Dデジタルの人体全体のイメージ、動作のリアリティ、多様化を決定する。
原版ビデオの長さ及び内容は、一般的に訓練素材を録画すると同時に録画され、訓練完了後に変更することは困難である。長時間表示を必要とするデジタル人体に対して、長時間の連続再生可能な原版ビデオが必要だが、具体的な応用において、どのくらいの時間の原版ビデオであれば十分であるかを判断することは困難である。同時に、連続原版ビデオにおける動作も、幅の比較的小さい身体動作である場合のみ、音声内容と動作画面とに大きな違和感が生じる(例えば、製品を紹介するときに「手を振ってさよならをする」動作を行う)ことを避けることができる。ビデオ録画後の再生時にビデオ内の動作のタイミングの一致性を保証するため、フレーム間の前後順序を乱さず、時間順序に従って順方向再生又は逆方向再生しなければならないため、2Dデジタルの人体の原版フレームの読み取り順序(又は再生順序と称する)は、図1に示すような単方向の順序再生又は図2に示すような双方向ループ再生のいずれを用いても自然ではなく、モードが単一である。
ここで、単方向順序再生は、原版フレーム自体が録画されたときの時間軸方向に基づいて、第1フレームから最後のフレームまで再生し、終了する。このため、長時間の表示を行う場合は、長時間の原版ビデオを録画する必要があり、例えば、30分再生する場合、30分の原版ビデオを予め録画する必要があり、録画した原版ビデオの長さが30分未満であれば、30分の再生表示を完了することはできない。しかし本開示では、第1ビデオシーケンスに対して上述のビデオ編成を経て第2ビデオシーケンスを得、該第2ビデオフレームを該原版ビデオとし、整列標識フレーム(逆方向フレーム、ジャンプフレーム及び遷移フレーム等)に基づいてランダム混合配列を行うことができるため、短時間の連続する原版ビデオを利用して任意の時間の長さの原版ビデオを生成することができるため、時間の長さの制限を受けない。
双方向ループ再生は、原版フレームの第1フレームから最後のフレーム(N0フレーム)まで順方向再生を行った後、逆方向再生を行う(三角形は、最後のフレームが逆方向フレームであることを示す)。順方向及び逆方向から構成される双方向ループ再生は、任意の時間の長さの原版フレームを生成することができる。ただし、生成された2Dデジタルの人体の「単調で、非現実的」な感想を深める「ループ反復」的な再生モードにユーザーが気づかないようにするため、原版フレームの時間の長さも十分に長くする必要がある。このため、このような「ループ再生」の感覚がある編成再生モードを打破し、「ランダムで自然」な感覚をもたらす必要がある。しかし本開示において、ランダム混合配列を通して任意の時間の長さの原版ビデオを生成するだけでなく、ランダム信号を利用して特定の時刻にて対応する比較的大きな動作幅のビデオ画面をトリガするため、2つ又は複数の連続しない原版ビデオ(マスタシーケンス及び/又はスレーブシーケンス)間で切り替え編成を行う。
1つの実施形態において、前記逆方向フレームに基づいて、前記第1ビデオシーケンスにおける前記ビデオフレームの再生順序を調整すること、をさらに含み、ここで、前記逆方向フレームは、前記第1ビデオシーケンスにおける開始フレーム(例えば、第1フレーム)を除いた他のビデオフレームを含む。本実施形態により、逆方向フレームに基づいて再生順序を調整でき、該逆方向フレームに基づいて新たな順序の組み合わせを得ることで、短時間で連続する第1ビデオシーケンスを利用して任意の時間の長さの第2ビデオシーケンスを生成することを実現する。
1つの実施形態において、前記ジャンプフレーム及び/又は遷移フレームに基づいて、前記第1ビデオシーケンスにおける前記ビデオフレームを接続することをさらに含み、ここで、前記第1ビデオシーケンスが前記マスタシーケンスを含む場合、前記ジャンプフレームは前記マスタシーケンスにおける任意のビデオフレームであり、前記第1ビデオシーケンスが前記スレーブシーケンスを含む場合、前記ジャンプフレームは前記スレーブシーケンスの開始フレーム(例えば、第1フレーム)及び終了フレーム(例えば、最後のフレーム)である。前記第1ビデオシーケンスに異なるマスタシーケンス及び/又は異なるスレーブシーケンスが含まれる場合、前記遷移フレームは、前記異なるマスタシーケンス及び/又は前記異なるスレーブシーケンス間で切り替えられる少なくとも1つの前記ジャンプフレームに基づいて得られた補間フレームである。本実施形態により、マスタシーケンス及びスレーブシーケンスにおけるジャンプフレームに基づいて、異なるシーケンス(マスタシーケンスと他のマスタシーケンス間の切り替え、マスタシーケンスとスレーブシーケンス間の切り替え、スレーブシーケンスと他のスレーブシーケンス間の切り替えなど)間の正確な切り替えを行い、さらにジャンプフレームを遷移フレームと総合し、具体的なフレームに切り替えるより正確な切り替え効果を得ることができる。
1つの実施形態において、前記第1ビデオシーケンスにおいて、整列標識フレームが存在すると検出した場合、前記整列標識フレームに基づいて、前記マスタシーケンス及び前記スレーブシーケンスにおけるビデオフレームをランダム混合配列処理し、ランダム混合配列処理により得られた整列組み合わせを第2ビデオシーケンスとすることは、前記第1ビデオシーケンスにおける前記ビデオフレームを順方向再生することと、前記整列標識フレームは前記逆方向フレームであると検出した場合、第1ランダム信号に基づいて、前記ビデオフレームの逆方向再生を行うことと、前記ビデオフレームの順方向再生及び逆方向再生に基づいて得られた整列組み合わせを前記第2ビデオシーケンスとすることと、を含む。
1つの例において、該第1ビデオシーケンスとするマスタシーケンス及び/又はスレーブシーケンスを取得することができる。ここで、マスタシーケンスにおいて、開始フレーム(例えば、第1フレーム)を除いた他のビデオフレームは、いずれも逆方向フレームとすることができる。スレーブシーケンスにおいて、開始フレーム(例えば、第1フレーム)を除いた他のビデオフレームも、いずれも逆方向フレームとすることができる。
本実施形態は、2Dデジタルの人体生成シーンに応用することができ、ビデオシーケンス編成を行うプロセスにおいて、第1フレームから開始して順方向の順序で該第1ビデオシーケンス(例えば、マスタシーケンス及び/又はスレーブシーケンスから構成されるビデオシーケンス)を再生することができ、該第1ビデオシーケンスの中間のあるフレームまで再生した場合、第1ランダム信号が受信された場合、第1ランダム信号(順方向再生又は逆方向再生をトリガする)を受信したとき、該第1ランダム信号に呼応し、第1ランダム信号が順方向再生をトリガする場合、引き続き該中間フレームから順方向再生をトリガする。第1ランダム信号が逆方向再生をトリガするために用いられる場合、第1ビデオシーケンスにおいて存在する整列標識フレームは逆方向フレームであり、該逆方向フレームまで再生された後に逆方向再生を実行する、又は、該中間フレームは逆方向フレームであり、該中間フレームから逆方向再生を実行する。前記ビデオフレームの順方向再生及び逆方向再生に基づいて得られた整列組み合わせを上述の第2ビデオシーケンスとする。
この例を用いると、上述の逆方向フレームに基づくランダム方策を導入することにより、比較的短い第1ビデオシーケンスを利用して、任意の時間の長さの再生シーケンスを生成することができ、同時に、シーケンス順序の組み合わせのランダム性をある程度高める。2Dデジタルの人体生成シーンを例にすると、第1ビデオシーケンスは即ち原版ビデオであり、原版ビデオの顔部位にマスクを追加することでカバーし、マスクカバー原版フレームを得、生成したターゲット顔(音声をニューラルネットワークモデルに入力することで得られた2D顔画像であり、該2D顔画像が含む口型及び表情は、入力した音声とリズム、意味等の内容においてマッチングする)と、該マスクカバーの原版フレームとをアライメント、融合した後、出力ビデオフレームへとつなぎ合わせることで、直接再生を行う、又はネットワークにアップロードして再生を行うことができる。原版ビデオの長さ及びビデオ編成がよりランダムとなるため、生成された2Dデジタルの人体はより自然となる。
1つの実施形態において、前記第1ビデオシーケンスにおいて、整列標識フレームが存在すると検出した場合、前記整列標識フレームに基づいて、前記マスタシーケンス及び前記スレーブシーケンスにおけるビデオフレームをランダム混合配列処理し、ランダム混合配列処理により得られた整列組み合わせを第2ビデオシーケンスとすることは、前記第1ビデオシーケンスにおける第1マスタシーケンスを取得することと、前記第1マスタシーケンスの前記整列標識フレームは前記ジャンプフレームであると検出した場合、第2ランダム信号に基づいて、前記第1マスタシーケンスにおけるビデオフレームのジャンプ再生を行い、かつ前記第1マスタシーケンスを除いた他のマスタシーケンスに切り替えることと、前記第1マスタシーケンス及び前記他のマスタシーケンスに基づいて得られた整列組み合わせを、前記第2ビデオシーケンスとすることと、を含む。
1つの例において、マスタシーケンスとマスタシーケンス間の切り替えは、第1ビデオシーケンスにおける第1マスタシーケンスをまず読み取ることができ、第1マスタシーケンスのあるジャンプフレームが読み込まれたとき、第2ランダム信号(該他のマスタシーケンスへのジャンプ再生をトリガする)を受信し、第2ランダム信号に呼応し、第2ランダム信号が他のマスタシーケンスへのジャンプ再生をトリガするために用いられる場合、該他のマスタシーケンス(該他のマスタシーケンスは、1つ又は複数であってもよい)にジャンプし、該ジャンプフレームに基づいて新しいシーケンス順序の組み合わせを得るまでループして反復する。
1つの実施形態において、2つのマスタシーケンスである場合、前記他のマスタシーケンスが1つの第2マスタシーケンスである場合、前記第2マスタシーケンスの前記整列標識フレームが前記ジャンプフレームであると検出した場合、第3ランダム信号に基づいて、前記第2マスタシーケンスにおけるビデオフレームのジャンプ再生を行い、かつ前記第1マスタシーケンスに切り替えることをさらに含む。本実施形態により、ジャンプフレームに基づいて2つのマスタシーケンス間で切り替えを実行し、より多くのシーケンスの順序の組み合わせを得ることができ、正確な切り替えを実現することができる。
1つの実施形態において、複数のマスタシーケンスである場合、他のマスタシーケンスが、第2マスタシーケンス、第3のシーケンス、…第iシーケンスのような複数のマスタシーケンスである場合、前記第2マスタシーケンスの前記整列標識フレームが前記ジャンプフレームであると検出した場合、第4ランダム信号に基づいて、前記第2マスタシーケンスにおけるビデオフレームのジャンプ再生を行い、かつ前記第2マスタシーケンス、前記第3シーケンス、・・・前記第iシーケンスにおいて対応するシーケンスに切り替えることと、前記第2マスタシーケンス、前記第3シーケンス、・・・前記第iシーケンスにおいてジャンプ再生を行うこと、又は、前記第2マスタシーケンス、前記第3シーケンス、・・・前記第iシーケンスにおいてジャンプ再生を行った後、前記第1マスタシーケンスに切り替えることと、をさらに含み、iは3より大きい正の整数である。本実施形態により、ジャンプフレームに基づいて複数のマスタシーケンス間の切り替えを実行し、より多くのシーケンスの順序の組み合わせを得ることができ、正確な切り替えを実現することができる。
1つの実施形態において、前記第1ビデオシーケンスにおいて、整列標識フレームが存在すると検出した場合、前記整列標識フレームに基づいて、前記マスタシーケンス及び前記スレーブシーケンスにおけるビデオフレームをランダム混合配列処理し、ランダム混合配列処理により得られた整列組み合わせを第2ビデオシーケンスとすることは、前記第1ビデオシーケンスにおける第1マスタシーケンス及び第1スレーブシーケンスを取得することと、前記第1マスタシーケンスの前記整列標識フレームが前記ジャンプフレームであると検出した場合、第5ランダム信号に基づいて、前記第1マスタシーケンスにおけるビデオフレームのジャンプ再生を行い、かつ前記第1スレーブシーケンスに切り替えることと、第1スレーブシーケンスの終了フレームが再生されるまで、前記第1スレーブシーケンスにおけるビデオフレームを順方向再生することと、前記終了フレームをジャンプフレームとし、かつ前記第1マスタシーケンスに切り替えること、又は前記終了フレームをジャンプフレームとし、前記整列標識フレームが前記遷移フレームであることと総合して、前記ジャンプフレームに基づいて、ジャンプ再生をトリガした後、前記遷移フレームに基づいて、前記第1マスタシーケンスにおける指における指定フレームに切り替えることと、を含む。
1つの例において、第1ビデオシーケンスにおける第1マスタシーケンスをまず読み取り、第1マスタシーケンスのあるジャンプフレームが読み取られたとき、第5ランダム信号(スレーブシーケンスへのジャンプ再生をトリガする)を受信することができ、該第5ランダム信号に呼応し、第5ランダム信号がスレーブシーケンスへのジャンプ再生をトリガするために用いられる場合、1つ又は複数のスレーブシーケンスにジャンプする。該ジャンプフレームに基づいて新たなシーケンスの順序の組み合わせを得るまで、ループし反復する。ここで、スレーブシーケンスにおいて、第1フレームと最後のフレームのみをジャンプフレームとすることができ、スレーブシーケンスの再生は順方向再生であることができ、中断され得ない。
上述の例は、マスタシーケンスからスレーブシーケンスへの切り替えであり、スレーブシーケンスからマスタシーケンスへの切り替えであってもよいため、ここでは繰り返し言及しない。
1つの実施形態において、マスタシーケンスとスレーブシーケンス間の切り替えで、前記第1マスタシーケンスは、1つ又は複数であり、第1スレーブシーケンスは、1つ又は複数である。前記第1マスタシーケンス及び第1スレーブシーケンス間の、異なるシーケンスの1マスタ1スレーブ編成再生モード、異なるシーケンスの1マスタ多スレーブ編成再生モード及び異なるシーケンスの多マスタ多スレーブ編成再生モードの少なくとも1つのモードに基づいて前記ジャンプ再生を行うことができる。本実施形態により、複数の編成再生モード(「1マスタ1スレーブ」、「1マスタ多スレーブ」及び「多マスタ多スレーブ」)及びジャンプフレームを用いて異なるシーケンス間の切り替えを行い、より多くのシーケンスの順序の組み合わせを得ることができ、正確な切り替えを実現することができる。
応用例
本開示の実施形態を応用した処理フローは、以下の内容を含む。
一、短時間の連続した原版ビデオを利用して任意の時間の長さの原版ビデオを生成する
図7は、本開示の実施形態による原版ビデオシーケンスの編成再生の概略図であり、図7に示すように、編成再生は、図2に示すような双方向ループ再生において行うことができ、逆方向フレームをさらに増やし、第1フレームを除いたすべてのフレームを逆方向フレームとすることができ、2Dデジタルの人体生成プロセスにおいて、図7に示すような編成再生モード(即ち、各フレームが必要に応じて、又はランダムに順方向再生か逆方向再生かを決定することができる)に基づいて、第1フレームから順序再生し、中間のあるフレーム、例えば第10フレームまで再生されたとき、続いて順方向再生を行うか逆方向再生を行うかをランダムに判定することができる。このようなランダム方策を導入することにより、比較的短い原版ビデオを利用して任意の時間の長さの再生シーケンスを生成することができ、同時に、シーケンスの順序の組み合わせのランダム性をある程度高めることができる。
二、2つ又は複数の連続しない原版ビデオ間で切り替え編成を行う
1、2つのマスタシーケンス間の編成再生
図8は、本開示の実施形態による2つの原版ビデオマスタシーケンスの編成再生の概略図であり、図8に示すように、原版シーケンス再生時のランダム性を豊かにするため、2つのマスタシーケンスを用いることができ、各マスタシーケンスは図7に示すような編成再生モード(各フレームは必要に応じて又はランダムに順方向再生か逆方向再生かを決定することができる)をサポートし、さらに、2つのマスタシーケンス間は、ジャンプフレームと遷移フレームとにより相互間の切り替えを実現することができる。各マスタシーケンスの各フレームは、いずれもジャンプフレームとすることができ、実際の応用のニーズに基づいて、数フレームごと(図8では3フレームごと)に1つのジャンプフレームを設定することができ、又は、ジャンプフレーム間の間隔を自ら定義することができる。
上述の2つのマスタシーケンス間の編成再生は、以下を含む。
1)2Dデジタルの人体を生成するとき、マスタシーケンス#1をまず読み取り、読み取り順序は図7に示す編成再生を参照し、あるジャンプフレームを読み取ると、ランダムトリガ又は外部信号トリガを通して、マスタシーケンス#2にジャンプするか否かを決定することができる
2)マスタシーケンス#2にジャンプした後も、編成再生を用いて読み取りを行い、ランダムトリガ又は外部信号トリガによりマスタシーケンス#1にジャンプするか否かを決定する。
3)このようにループし反復することにより、2つのマスタシーケンスを利用してより豊かな再生順序を生成することができる。
2、複数のマスタシーケンス間の編成再生
図9は、本開示の実施形態による3つの原版ビデオマスタシーケンスの編成再生の概略図であり、図9に示すように、上述の図8に示される2つのマスタシーケンス間の編成再生を基に、少なくともより多くのマスタシーケンスを増やすことができ、3つ(図9に示すように)又はそれ以上のマスタシーケンス間の編成再生とする。
複数のマスタシーケンス間の編成再生は、以下を含む。
1)2Dデジタルの人体を生成するとき、マスタシーケンス#1をまず読み取り、読み取り順序は図7に示す編成再生を参照し、あるジャンプフレームを読み取ると、ランダムトリガ又は外部信号トリガを通して、マスタシーケンス#2又はマスタシーケンス#3又は他のマスタシーケンスにジャンプするか否かを決定することができる。
2)マスタシーケンス#2にジャンプすると仮定すると、マスタシーケンス#2に対しても編成再生を用いて読み取り、その後ランダムトリガ又は外部信号トリガによりマスタシーケンス#1又はマスタシーケンス#3又は他のマスタシーケンスにジャンプするか否かを決定する。
3)このようにループし反復し、複数のマスタシーケンスを利用してより豊かな再生順序を生成することができる。
マスタシーケンス2とマスタシーケンス3の間にも上述と同様のジャンプ再生が存在する(例えば、図9に示すように)、簡潔にするため、図9ではマスタシーケンス2とマスタシーケンス3の間のジャンプ再生は図示されていないことを留意すべきである。
3、「1マスタ1スレーブ」シーケンス間の編成再生
マスタシーケンスの各フレームはいずれもジャンプフレームとすることができるが、スレーブシーケンスは第1フレームと最後のフレームのみ、ジャンプフレームとすることができ、より良い切り替えのために、スレーブシーケンスの再生は順方向再生のみであり、中断されないように設定することができる。
図10は、本開示の実施形態による1マスタ1スレーブシーケンス間の編成再生の概略図であり、図10に示すように、「1マスタ1スレーブ」の2つのシーケンス間の編成再生は、以下を含む。
1)2Dデジタル人体を生成するとき、マスタシーケンスをまず読み取り、読み取り順序は図7に示す編成再生を参照し、あるジャンプフレームを読み取ると、ランダムトリガ又は外部信号トリガを通してスレーブシーケンスにジャンプするか否かを決定することができる。
2)スレーブシーケンスにジャンプしたと仮定すると、最後のフレームを再生するまで。スレーブシーケンスに対して順方向順序再生を用いて読み取り、遷移フレームに基づいてマスタシーケンスのあるジャンプフレームに切り替える。
3)マスタシーケンスに戻った後、ステップ1)を実行することで、ループ反復し、「1マスタ1スレーブ」の2つのシーケンスを利用してより豊かな再生順序を生成することができる。
4、「1マスタ多スレーブ」シーケンス間の編成再生
図11は、本本開示の実施形態による1マスタ多スレーブシーケンス間の編成再生の概略図であり、図11に示すように、図10に示される「1マスタ1スレーブ」の編成再生を基に、より多くのスレーブシーケンスを増やし、「1マスタ多スレーブ」シーケンス間の編成再生を完了することができる。「1マスタ多スレーブ」の2つのシーケンス間の編成再生は、以下を含む。
1)2Dデジタルの人体を生成するとき、マスタシーケンスをまず読み取り、読み取り順序は図7に示す編成再生を参照し、あるジャンプフレームを読み取ると、ランダムトリガ又は外部信号トリガを通して、スレーブシーケンス#1、スレーブシーケンス#2、又は他のスレーブシーケンスにジャンプするか否かを決定することができる。
2)スレーブシーケンス#1にジャンプしたと仮定すると、最後のフレームを再生するまで、スレーブシーケンスに対して順方向順序再生を用いて読み取り、遷移フレームに基づいてマスタシーケンスのあるジャンプフレームに切り替える。
3)マスタシーケンスに戻った後、さらに第1)ステップを実行することで、ループ反復し、「1マスタ多スレーブ」方式を利用してマスタシーケンスからより大きな幅の動作へのジャンプ再生を実現し、動作の編成コントロールを実現することができる。
マスタシーケンスと2つのスレーブシーケンスの間は、ジャンプフレームと遷移フレームを通して連結して再生することができ、2つのスレーブシーケンス間はジャンプ再生を行うことはできないことに留意すべきである。
5、「多マスタ多スレーブ」シーケンス間の編成再生
図11に示す「1マスタ多スレーブ」シーケンス再生に、マスタシーケンス#2、マスタシーケンス#3などを増やし、「多マスタ多スレーブ」シーケンス間の編成再生を構成することができ、マスタシーケンスとマスタシーケンスの間の切り替え(図8を参照)、マスタシーケンスとスレーブシーケンスの間の切り替え(図10を参照)は、いずれもジャンプフレームと遷移フレームを通して連結して再生することができ、より豊かな再生順序及び動作編成コントロールを実現することができる。全体的なジャンプ関係は複雑であり、ここでは概略図を示さない。
三、2つの連続しないビデオ間のジャンプにより、2つの連続しないビデオ間のジャンプに必要な遷移フレームを生成する。
図12は、本開示の実施形態による遷移フレームを生成する概略図であり、図12に示すように、ディープラーニングアルゴリズムにより得られた訓練後モデル(オプティカルフロー補間モデル)に基づいて該遷移フレーム生成することができることは、以下を含む。
1)原版データ又はより多くのビデオデータを利用してダウンサンプリング抽出フレームを通して訓練データ及び目標オプティカルフローデータを作成することにより、オプティカルフロー補間モデルを訓練する。
2)異なる動作シーケンスからの2つのジャンプフレームを訓練されたオプティカルフロー補間モデルに入力し、補間オプティカルフローシーケンスを生成する。
3)2つのジャンプフレームと生成した補間オプティカルフローシーケンスとを共に画像合成モジュールに入力し、最終的に補間画像シーケンス(即ち、該2つのジャンプフレーム間の遷移フレーム)を生成する。
本開示の実施形態によれば、ビデオシーケンス編成装置を提供し、図13は、本開示の実施形態によるビデオシーケンス編成装置の構成構造概略図であり、図13に示すように、人体の第1姿勢を記述するためのマスタシーケンスと、人体の複数の第2姿勢を記述するためのスレーブシーケンスとを含む第1ビデオシーケンスを取得するためのビデオ取得モジュール41と、前記第1ビデオシーケンスから前記マスタシーケンス及び前記スレーブシーケンスを抽出するためのビデオ抽出モジュール42と、前記第1ビデオシーケンスにおいて、逆方向フレーム、ジャンプフレーム及び遷移フレームのうちの少なくとも1つを含む整列標識フレームが存在すると検出した場合、前記整列標識フレームに基づいて、前記マスタシーケンス及び前記スレーブシーケンスにおけるビデオフレームをランダム混合配列処理し、ランダム混合配列処理により得られた整列組み合わせを第2ビデオシーケンスとするためのビデオ編成モジュール43と、を備える。
1つの実施形態において、前記逆方向フレームに基づいて、前記第1ビデオシーケンスにおける前記ビデオフレームの再生順序を調整するための再生順序調整モジュールをさらに備え、ここで、前記逆方向フレームは、前記第1ビデオシーケンスにおける開始フレームを除いた他のビデオフレームを含む。
1つの実施形態において、前記ジャンプフレーム及び/又は遷移フレームに基づいて、前記第1ビデオシーケンスにおける前記ビデオフレームを接続するためのビデオフレーム接続モジュールをさらに備える。ここで、前記第1ビデオシーケンスが前記マスタシーケンスを含む場合、前記ジャンプフレームは前記マスタシーケンスにおける任意のビデオフレームである。前記第1ビデオシーケンスが前記スレーブシーケンスを含む場合、前記ジャンプフレームは前記スレーブシーケンスの開始フレーム及び終了フレームである。前記第1ビデオシーケンスに異なるマスタシーケンス及び/又は異なるスレーブシーケンスが含まれる場合、前記遷移フレームは、前記異なるマスタシーケンス及び/又は前記異なるスレーブシーケンス間で切り替えられる少なくとも1つの前記ジャンプフレームに基づいて得られた補間フレームである。
1つの実施形態において、前記ビデオ編成モジュールは、前記第1ビデオシーケンスにおける前記ビデオフレームを順方向再生することと、前記整列標識フレームが前記逆方向フレームであると検出した場合、第1ランダム信号に基づいて、前記ビデオフレームの逆方向再生を行うことと、前記ビデオフレームの順方向再生及び逆方向再生に基づいて得られた整列組み合わせを前記第2ビデオシーケンスとすることと、に用いられる。
1つの実施形態において、前記ビデオ編成モジュールは、前記第1ビデオシーケンスにおける第1マスタシーケンスを取得することと、前記第1マスタシーケンスの前記整列標識フレームが前記ジャンプフレームであると検出した場合、第2ランダム信号に基づいて、前記第1マスタシーケンスにおけるビデオフレームのジャンプ再生を行い、かつ前記第1マスタシーケンスを除いた他のマスタシーケンスに切り替えることと、前記第1マスタシーケンス及び前記他のマスタシーケンスに基づいて得られた整列組み合わせを、前記第2ビデオシーケンスとすることとに用いられる。
1つの実施形態において、前記ビデオ編成モジュールは、前記他のマスタシーケンスが第2マスタシーケンスである場合、前記第2マスタシーケンスの前記整列標識フレームが前記ジャンプフレームであると検出した場合、第3ランダム信号に基づいて、前記第2マスタシーケンスにおけるビデオフレームのジャンプ再生を行い、かつ前記第1マスタシーケンスに切り替えることにさらに用いられる。
1つの実施形態において、前記ビデオ編成モジュールは、前記他のマスタシーケンスが第2マスタシーケンス、第3シーケンス、・・・及び第iシーケンスである場合、前記第2マスタシーケンスの前記整列標識フレームが前記ジャンプフレームであると検出した場合、第4ランダム信号に基づいて、前記第2マスタシーケンスにおけるビデオフレームのジャンプ再生を行い、かつ前記第2マスタシーケンス、前記第3シーケンス、・・・前記第iシーケンスにおいて対応するシーケンスに切り替えることと、前記第2マスタシーケンス、前記第3シーケンス、・・・前記第iシーケンスにおいてジャンプ再生を行うこと、又は、前記第2マスタシーケンス、前記第3シーケンス、・・・前記第iシーケンスにおいてジャンプ再生を行った後、前記第1マスタシーケンスに切り替えることと、にさらに用いられる。ここで、iは3より大きい正の整数である。
1つの実施形態において、前記ビデオ編成モジュールは、前記第1ビデオシーケンスにおける第1マスタシーケンス及び第1スレーブシーケンスを取得することと、前記第1マスタシーケンスの前記整列標識フレームが前記ジャンプフレームであると検出した場合、第5ランダム信号に基づいて、前記第1マスタシーケンスにおけるビデオフレームのジャンプ再生を行い、かつ前記第1スレーブシーケンスに切り替えることと、第1スレーブシーケンスの終了フレームが再生されるまで、前記第1スレーブシーケンスにおけるビデオフレームを順方向再生することと、前記終了フレームをジャンプフレームとし、かつ前記第1マスタシーケンスに切り替えること、又は前記終了フレームをジャンプフレームとし、前記整列標識フレームが前記遷移フレームであることと総合して、前記ジャンプフレームに基づいて、ジャンプ再生をトリガした後、前記遷移フレームに基づいて、前記第1マスタシーケンスにおける指における指定フレームに切り替えることと、に用いられる。
1つの実施形態において、前記第1マスタシーケンスは、1つ又は複数であり、第1スレーブシーケンスは、1つ又は複数である。前記ビデオ編成モジュールは、前記第1マスタシーケンス及び第1スレーブシーケンス間の、異なるシーケンスの1マスタ1スレーブ編成再生モード、異なるシーケンスの1マスタ多スレーブ編成再生モード及び異なるシーケンスの多マスタ多スレーブ編成再生モードの少なくとも1つのモードに基づいて、前記ジャンプ再生を行うことにさらに用いられる。
本開示の実施形態に係る装置における各モジュールの機能は、上述の方法において対応する記述を参照することができ、ここでは繰り返し言及しない。
本開示の実施形態によれば、本開示の実施形態は、電子設備、可読記憶媒体及びプログラムをさらに提供する。
図14は、本開示の実施例によるビデオシーケンス編成方法を実現するための電子設備のブロック図である。電子設備は、各形式のデジタルコンピュータを指し、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及びその他の適合するコンピュータが挙げられる。電子設備は、各形式の移動装置をさらに指し、例えば、パーソナルデジタルアシスタント、セルラー電話、スマートフォン、ウェアラブルデバイス、及びその他の類似のコンピュータ装置が挙げられる。本開示に記載されているコンポーネント、それらの接続関係、及び機能は例示的なものに過ぎず、本開示に記載・特定されているものの実現を限定するわけではない。
図14に示すように、設備800は、リードオンリーメモリ(ROM)802に記憶されたコンピュータプログラム命令、又は記憶ユニット808からランダムアクセスメモリ(RAM)803にローディングされたコンピュータプログラム命令に基づいて、各種の適切な動作と処理を実行できる計算ユニット801を含む。RAM803には、設備800の動作に必要な各種のプログラム及びデータをさらに記憶することができる。計算ユニット801と、ROM802と、RAM803とは、バス804を介して互いに接続されている。入力/出力(I/O)インタフェース805もバス804に接続されている。
設備800における複数のコンポーネントは、I/Oインタフェース805に接続されており、その複数のコンポーネントは、キーボードやマウスなどの入力ユニット806と、種々なディスプレイやスピーカなどの出力ユニット807と、磁気ディスクや光学ディスクなどの記憶ユニット808と、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット809と、を備える。通信ユニット809は、設備800がインターネットのようなコンピュータネット及び/又は種々なキャリアネットワークを介して他の設備と情報/データを交換することを許可する。
計算ユニット801は、処理及び計算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット801のいくつかの例としては、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを備えるが、これらに限定されない。計算ユニット801は、上述で説明された各方法及び処理、例えば融合順序付けモデルの訓練方法、検索の順序付け方法を実行する。例えば、いくつかの実施例では、融合順序付けモデルの訓練方法又は検索の順序付け方法を、記憶ユニット808のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウエアプログラムとして実現することができる。一部の実施例では、コンピュータプログラムの一部又は全ては、ROM802及び/又は通信ユニット809を介して、設備800にロード及び/又はインストールすることができる。コンピュータプログラムがRAM803にロードされて計算ユニット801によって実行される場合に、前述したビデオシーケンス編成方法の一つ又は複数のステップを実行することができる。追加可能に、他の実施例では、計算ユニット801は、他の任意の適当な方式(例えば、ファームウェア)によりビデオシーケンス編成方法を実行するように構成することができる。
ここで記載されているシステム又は技術の各種の実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータのハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせによって実現することができる。これらの各実施形態は、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにて実行及び/又は解釈される1つ又は複数のコンピュータプログラムにより実行することを含み得、該プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力デバイス、及び少なくとも1つの出力デバイスからデータ及び命令を受け取り、データ及び命令を該ストレージシステム、該少なくとも1つの入力デバイス、及び該少なくとも1つの出力デバイスに転送することができる専用又は汎用のプログラマブルプロセッサであってもよい。
本開示の方法を実行するためのプログラムコードは、一つ又は複数のプログラミング言語の任意の組み合わせで作成することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラミングデータ処理装置のプロセッサ又はコントローラに提供されることにより、プログラムコードがプロセッサ又はコントローラによって実行される場合に、フローチャート及び/又はブロック図に規定された機能/動作を実行することができる。プログラムコードは、完全にマシンで実行されてもよいし、部分的にマシンで実行されてもよいし、独立したソフトパッケージとして部分的にマシンで実行されるとともに部分的にリモートマシンで実行されてもよし、又は完全にリモートマシン又はサーバで実行されてもよい。
本開示の説明において、機械読み取り可能な媒体は、有形な媒体であってもよく、命令実行システム、装置又は設備によって、又は命令実行システム、装置又は設備と合わせて使用されるプログラムを含み、又は記憶する。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置、又は設備、又は前述した内容の任意の適切な組み合わせを含むことができるがこれらに限定されない。機械読み取り可能な記憶媒体のさらなる具体例として、1つ又は複数の配線による電気的接続、ポータブルコンピュータディスクカートリッジ、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は前述した内容の任意の組み合わせを含む。
ユーザーとのインタラクションを提供するために、コンピュータでここに記載されているシステム及び技術を実施することができ、当該コンピュータは、ユーザーに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニターなど)、ユーザーが入力をコンピュータに提供するためのキーボード及びポインティングデバイス(例えば、マウス又はトラックボールなど)を備えるができる。ユーザーとのインタラクションを提供するために、他の種類の装置を使用することもでき、例えば、ユーザーに提供するフィードバックは、いかなる形式のセンサーフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックなど)であってもよく、また、いかなる形式(例えば、音響入力、音声入力、触覚入力など)によって、ユーザーからの入力を受付取るができる。
ここに記載されているシステムと技術を、バックグラウンド部品に含まれる計算システム(例えば、データサーバとして)、又はミドルウェア部品を含む計算システム(例えば、アプリケーションサーバ)、又はフロント部品を含む計算システム(例えば、GUI又はネットワークブラウザを有するユーザコンピュータが挙げられ、ユーザーがGUI又は当該ネットワークブラウザによって、ここに記載されているシステムと技術の実施形態とインタラクションすることができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロント部品のいかなる組合した計算システムで実施することができる。如何なる形式又はメディアのデジタルデータ通信(例えば、通信ネットワーク)を介して、システムの部品を互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを含む。
コンピュータシステムは、クライアントとサーバを含み得る。通常、クライアントとサーバは、互いに離れており、通信ネットワークを介してインタラクションを行うことが一般的である。対応するコンピュータで動作することで、クライアント-サーバの関係を有するコンピュータプログラムによってクライアントとサーバの関係を生み出す。
上記の様々な態様のフローを使用して、ステップを新たに順序付け、追加、又は削除することが可能であることを理解すべきである。例えば、本開示で記載された各ステップは、並列に実行しても良いし、順次に実行しても良いし、異なる順序で実行しても良い。本開示で開示された技術案が所望する結果を実現することができる限り、本開示ではこれに限定されない。
上記具体的な実施形態は、本開示の保護範囲に対する限定を構成するものではない。当業者は、設計事項やその他の要因によって、様々な修正、組み合わせ、サブ組み合わせ、及び代替が可能であることを理解するべきである。本開示の要旨及び原理原則内における変更、均等な置換及び改善等は、いずれも本開示の保護範囲に含まれるべきである。

Claims (21)

  1. 人体の第1姿勢を記述するためのマスタシーケンスと、人体の複数の第2姿勢を記述するためのスレーブシーケンスとを含む第1ビデオシーケンスを取得することと、
    前記第1ビデオシーケンスから前記マスタシーケンス及び前記スレーブシーケンスを抽出することと、
    前記第1ビデオシーケンスにおいて、逆方向フレーム、ジャンプフレーム及び遷移フレームのうちの少なくとも1つを含む整列標識フレームが存在すると検出した場合、前記整列標識フレームに基づいて、前記マスタシーケンス及び前記スレーブシーケンスにおけるビデオフレームをランダム混合配列処理し、ランダム混合配列処理により得られた整列組み合わせを第2ビデオシーケンスとすることと、を含み、
    前記逆方向フレームは、逆方向再生の機能を備えるフレームであり、前記ジャンプフレームは、異なる動作シーケンス間のジャンプ再生を実現するために用いられるフレームであり、前記遷移フレームは、2つの異なるシーケンスのジャンプフレーム間で、補間アルゴリズム又はニューラルネットワークモデルにより生成された補間フレームである
    ことを特徴とするビデオシーケンス編成方法。
  2. 前記逆方向フレームに基づいて、前記第1ビデオシーケンスにおける前記ビデオフレームの再生順序を調整すること、をさらに含み、
    前記逆方向フレームは、前記第1ビデオシーケンスにおける開始フレームを除いた他のビデオフレームを含む、
    ことを特徴とする請求項1に記載のビデオシーケンス編成方法。
  3. 前記ジャンプフレーム及び/又は遷移フレームに基づいて、前記第1ビデオシーケンスにおける前記ビデオフレームを接続すること、をさらに含み、
    前記第1ビデオシーケンスが前記マスタシーケンスを含む場合、前記ジャンプフレームは前記マスタシーケンスにおける任意のビデオフレームであり、
    前記第1ビデオシーケンスが前記スレーブシーケンスを含む場合、前記ジャンプフレームは前記スレーブシーケンスの開始フレーム及び終了フレームであり、
    前記第1ビデオシーケンスに異なるマスタシーケンス及び/又は異なるスレーブシーケンスが含まれる場合、前記遷移フレームは、前記異なるマスタシーケンス及び/又は前記異なるスレーブシーケンス間で切り替えられる少なくとも1つの前記ジャンプフレームに基づいて得られた補間フレームである、
    ことを特徴とする請求項1に記載のビデオシーケンス編成方法。
  4. 前記第1ビデオシーケンスにおいて、整列標識フレームが存在すると検出した場合、前記整列標識フレームに基づいて、前記マスタシーケンス及び前記スレーブシーケンスにおけるビデオフレームをランダム混合配列処理し、ランダム混合配列処理により得られた整列組み合わせを第2ビデオシーケンスとすることは、
    前記第1ビデオシーケンスにおける前記ビデオフレームを順方向再生することと、
    前記整列標識フレームが前記逆方向フレームであると検出した場合、第1ランダム信号に基づいて、前記ビデオフレームの逆方向再生を行うことと、
    前記ビデオフレームの順方向再生及び逆方向再生に基づいて得られた整列組み合わせを前記第2ビデオシーケンスとすることと、を含む、
    ことを特徴とする請求項1~3のいずれか1項に記載のビデオシーケンス編成方法。
  5. 前記第1ビデオシーケンスにおいて、整列標識フレームが存在すると検出した場合、前記整列標識フレームに基づいて、前記マスタシーケンス及び前記スレーブシーケンスにおけるビデオフレームをランダム混合配列処理し、ランダム混合配列処理により得られた整列組み合わせを第2ビデオシーケンスとすることは、
    前記第1ビデオシーケンスにおける第1マスタシーケンスを取得することと、
    前記第1マスタシーケンスの前記整列標識フレームが前記ジャンプフレームであると検出した場合、第2ランダム信号に基づいて、前記第1マスタシーケンスにおけるビデオフレームのジャンプ再生を行い、かつ前記第1マスタシーケンスを除いた他のマスタシーケンスに切り替えることと、
    前記第1マスタシーケンス及び前記他のマスタシーケンスに基づいて得られた整列組み合わせを、前記第2ビデオシーケンスとすることと、を含む、
    ことを特徴とする請求項1~3のいずれか1項に記載のビデオシーケンス編成方法。
  6. 前記他のマスタシーケンスが第2マスタシーケンスである場合、
    前記第2マスタシーケンスの前記整列標識フレームが前記ジャンプフレームであると検出した場合、第3ランダム信号に基づいて、前記第2マスタシーケンスにおけるビデオフレームのジャンプ再生を行い、かつ前記第1マスタシーケンスに切り替えること、を含む、
    ことを特徴とする請求項5に記載のビデオシーケンス編成方法。
  7. 前記他のマスタシーケンスが第2マスタシーケンス、第3シーケンス、・・・及び第iシーケンスである場合、
    前記第2マスタシーケンスの前記整列標識フレームが前記ジャンプフレームであると検出した場合、第4ランダム信号に基づいて、前記第2マスタシーケンスにおけるビデオフレームのジャンプ再生を行い、かつ前記第2マスタシーケンス、前記第3シーケンス、・・・前記第iシーケンスにおいて対応するシーケンスに切り替えることと、
    前記第2マスタシーケンス、前記第3シーケンス、・・・前記第iシーケンスにおいてジャンプ再生を行うこと、又は、前記第2マスタシーケンス、前記第3シーケンス、・・・前記第iシーケンスにおいてジャンプ再生を行った後、前記第1マスタシーケンスに切り替えることと、を含み、
    ここで、iは3より大きい正の整数である、
    ことを特徴とする請求項5に記載のビデオシーケンス編成方法。
  8. 前記第1ビデオシーケンスにおいて、整列標識フレームが存在すると検出した場合、前記整列標識フレームに基づいて、前記マスタシーケンス及び前記スレーブシーケンスにおけるビデオフレームをランダム混合配列処理し、ランダム混合配列処理により得られた整列組み合わせを第2ビデオシーケンスとすることは、
    前記第1ビデオシーケンスにおける第1マスタシーケンス及び第1スレーブシーケンスを取得することと、
    前記第1マスタシーケンスの前記整列標識フレームが前記ジャンプフレームであると検出した場合、第5ランダム信号に基づいて、前記第1マスタシーケンスにおけるビデオフレームのジャンプ再生を行い、かつ前記第1スレーブシーケンスに切り替えることと、
    第1スレーブシーケンスの終了フレームが再生されるまで、前記第1スレーブシーケンスにおけるビデオフレームを順方向再生することと、
    前記終了フレームをジャンプフレームとし、かつ前記第1マスタシーケンスに切り替えること、又は、前記終了フレームをジャンプフレームとし、前記整列標識フレームが前記遷移フレームであることと総合して、前記ジャンプフレームに基づいて、ジャンプ再生をトリガした後、前記遷移フレームに基づいて、前記第1マスタシーケンスにおける指定フレームに切り替えることと、を含む
    ことを特徴とする請求項1~3のいずれか1項に記載のビデオシーケンス編成方法。
  9. 前記第1マスタシーケンスは、1つ又は複数であり、第1スレーブシーケンスは、1つ又は複数であり、
    前記第1マスタシーケンス及び第1スレーブシーケンス間の、異なるシーケンスの1マスタ1スレーブ編成再生モード、異なるシーケンスの1マスタ多スレーブ編成再生モード及び異なるシーケンスの多マスタ多スレーブ編成再生モードの少なくとも1つのモードに基づいて、前記ジャンプ再生を行う、
    ことを特徴とする請求項8に記載のビデオシーケンス編成方法。
  10. 人体の第1姿勢を記述するためのマスタシーケンスと、人体の複数の第2姿勢を記述するためのスレーブシーケンスとを含む第1ビデオシーケンスを取得するビデオ取得モジュールと、
    前記第1ビデオシーケンスから前記マスタシーケンス及び前記スレーブシーケンスを抽出するビデオ抽出モジュールと、
    前記第1ビデオシーケンスにおいて、逆方向フレーム、ジャンプフレーム及び遷移フレームのうちの少なくとも1つを含む整列標識フレームが存在すると検出した場合、前記整列標識フレームに基づいて、前記マスタシーケンス及び前記スレーブシーケンスにおけるビデオフレームをランダム混合配列処理し、ランダム混合配列処理により得られた整列組み合わせを第2ビデオシーケンスとするビデオ編成モジュールと、を備え
    前記逆方向フレームは、逆方向再生の機能を備えるフレームであり、前記ジャンプフレームは、異なる動作シーケンス間のジャンプ再生を実現するために用いられるフレームであり、前記遷移フレームは、2つの異なるシーケンスのジャンプフレーム間で、補間アルゴリズム又はニューラルネットワークモデルにより生成された補間フレームである
    ことを特徴とするビデオシーケンス編成装置。
  11. 前記逆方向フレームに基づいて、前記第1ビデオシーケンスにおける前記ビデオフレームの再生順序を調整する再生順序調整モジュール、をさらに備え、
    前記逆方向フレームは、前記第1ビデオシーケンスにおける開始フレームを除いた他のビデオフレームを含む、
    ことを特徴とする請求項10に記載のビデオシーケンス編成装置
  12. 前記ジャンプフレーム及び/又は遷移フレームに基づいて、前記第1ビデオシーケンスにおける前記ビデオフレームを接続するビデオフレーム接続モジュール、をさらに備え、
    前記第1ビデオシーケンスが前記マスタシーケンスを含む場合、前記ジャンプフレームは前記マスタシーケンスにおける任意のビデオフレームであり、
    前記第1ビデオシーケンスが前記スレーブシーケンスを含む場合、前記ジャンプフレームは前記スレーブシーケンスの開始フレーム及び終了フレームであり、
    前記第1ビデオシーケンスに異なるマスタシーケンス及び/又は異なるスレーブシーケンスが含まれる場合、前記遷移フレームは、前記異なるマスタシーケンス及び/又は前記異なるスレーブシーケンス間で切り替えられる少なくとも1つの前記ジャンプフレームに基づいて得られた補間フレームである、
    ことを特徴とする請求項10に記載のビデオシーケンス編成装置
  13. 前記ビデオ編成モジュールは、
    前記第1ビデオシーケンスにおける前記ビデオフレームを順方向再生することと、
    前記整列標識フレームが前記逆方向フレームであると検出した場合、第1ランダム信号に基づいて、前記ビデオフレームの逆方向再生を行うことと、
    前記ビデオフレームの順方向再生及び逆方向再生に基づいて得られた整列組み合わせを前記第2ビデオシーケンスとすることと、に用いられる、
    ことを特徴とする請求項10~12のいずれか1項に記載のビデオシーケンス編成装置。
  14. 前記ビデオ編成モジュールは、
    前記第1ビデオシーケンスにおける第1マスタシーケンスを取得することと、
    前記第1マスタシーケンスの前記整列標識フレームが前記ジャンプフレームであると検出した場合、第2ランダム信号に基づいて、前記第1マスタシーケンスにおけるビデオフレームのジャンプ再生を行い、かつ前記第1マスタシーケンスを除いた他のマスタシーケンスに切り替えることと、
    前記第1マスタシーケンス及び前記他のマスタシーケンスに基づいて得られた整列組み合わせを、前記第2ビデオシーケンスとすることと、に用いられる、
    ことを特徴とする請求項10~12のいずれか1項に記載のビデオシーケンス編成装置。
  15. 前記ビデオ編成モジュールは、
    前記他のマスタシーケンスが第2マスタシーケンスである場合、
    前記第2マスタシーケンスの前記整列標識フレームが前記ジャンプフレームであると検出した場合、第3ランダム信号に基づいて、前記第2マスタシーケンスにおけるビデオフレームのジャンプ再生を行い、かつ前記第1マスタシーケンスに切り替えること、にさらに用いられる、
    ことを特徴とする請求項14に記載のビデオシーケンス編成装置。
  16. 前記ビデオ編成モジュールは、
    前記他のマスタシーケンスが第2マスタシーケンス、第3シーケンス、・・・及び第iシーケンスである場合、
    前記第2マスタシーケンスの前記整列標識フレームが前記ジャンプフレームであると検出した場合、第4ランダム信号に基づいて、前記第2マスタシーケンスにおけるビデオフレームのジャンプ再生を行い、かつ前記第2マスタシーケンス、前記第3シーケンス、・・・前記第iシーケンスにおいて対応するシーケンスに切り替えることと、
    前記第2マスタシーケンス、前記第3シーケンス、・・・前記第iシーケンスにおいてジャンプ再生を行うこと、又は、前記第2マスタシーケンス、前記第3シーケンス、・・・前記第iシーケンスにおいてジャンプ再生を行った後、前記第1マスタシーケンスに切り替えることと、にさらに用いられ、
    ここで、iは3より大きい正の整数である、
    ことを特徴とする請求項14に記載のビデオシーケンス編成装置。
  17. 前記ビデオ編成モジュールは、
    前記第1ビデオシーケンスにおける第1マスタシーケンス及び第1スレーブシーケンスを取得することと、
    前記第1マスタシーケンスの前記整列標識フレームが前記ジャンプフレームであると検出した場合、第5ランダム信号に基づいて、前記第1マスタシーケンスにおけるビデオフレームのジャンプ再生を行い、かつ前記第1スレーブシーケンスに切り替えることと、
    第1スレーブシーケンスの終了フレームが再生されるまで、前記第1スレーブシーケンスにおけるビデオフレームを順方向再生することと、
    前記終了フレームをジャンプフレームとし、かつ前記第1マスタシーケンスに切り替えること、又は、前記終了フレームをジャンプフレームとし、前記整列標識フレームが前記遷移フレームであることと総合して、前記ジャンプフレームに基づいて、ジャンプ再生をトリガした後、前記遷移フレームに基づいて、前記第1マスタシーケンスにおける指定フレームに切り替えることと、にさらに用いられる、
    ことを特徴とする請求項10~12のいずれか1項に記載のビデオシーケンス編成装置。
  18. 前記第1マスタシーケンスは、1つ又は複数であり、第1スレーブシーケンスは、1つ又は複数であり、
    前記ビデオ編成モジュールは、
    前記第1マスタシーケンス及び第1スレーブシーケンス間の、異なるシーケンスの1マスタ1スレーブ編成再生モード、異なるシーケンスの1マスタ多スレーブ編成再生モード及び異なるシーケンスの多マスタ多スレーブ編成再生モードの少なくとも1つのモードに基づいて、前記ジャンプ再生を行うこと、にさらに用いられる、
    ことを特徴とする請求項17に記載のビデオシーケンス編成装置。
  19. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されるメモリと、を備え、
    前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、
    前記命令は、前記少なくとも1つのプロセッサにより実行される場合、請求項1~9のいずれか1項に記載のビデオシーケンス編成方法を実行させることを特徴とする電子設備。
  20. コンピュータに請求項1~9いずれか1項に記載のビデオシーケンス編成方法を実行させる命令が記憶されている非一時的なコンピュータ可読記憶媒体。
  21. コンピュータにおいて、プロセッサにより実行される場合、請求項1~9のいずれか1項にビデオシーケンス編成方法を実現することを特徴とするプログラム。

JP2021115562A 2020-12-22 2021-07-13 ビデオシーケンス編成方法、装置、電子設備、記憶媒体、及びプログラム Active JP7273901B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011529093.9 2020-12-22
CN202011529093.9A CN112528936B (zh) 2020-12-22 2020-12-22 视频序列编排方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
JP2021177647A JP2021177647A (ja) 2021-11-11
JP7273901B2 true JP7273901B2 (ja) 2023-05-15

Family

ID=75002417

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021115562A Active JP7273901B2 (ja) 2020-12-22 2021-07-13 ビデオシーケンス編成方法、装置、電子設備、記憶媒体、及びプログラム

Country Status (4)

Country Link
US (1) US11521653B2 (ja)
EP (1) EP4016529A1 (ja)
JP (1) JP7273901B2 (ja)
CN (1) CN112528936B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023090419A1 (ja) * 2021-11-19 2023-05-25 凸版印刷株式会社 コンテンツ生成装置、コンテンツ生成方法、及びプログラム
CN116708919A (zh) * 2022-06-30 2023-09-05 北京生数科技有限公司 合成虚拟形象的视频处理方法、相关装置及存储介质
CN115050083B (zh) * 2022-08-15 2022-10-25 南京硅基智能科技有限公司 矫正口型模型、模型的训练及其应用方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002208260A (ja) 2000-12-28 2002-07-26 Alpine Electronics Inc 記録媒体再生装置
CN112102449A (zh) 2020-09-14 2020-12-18 北京百度网讯科技有限公司 虚拟人物的生成方法、展示方法及装置、设备和介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100302480B1 (ko) 1995-08-21 2001-11-22 마츠시타 덴끼 산교 가부시키가이샤 영상내용의신선함을오래유지할수있는멀티미디어광디스크및그재생장치와재생방법
US8811801B2 (en) * 2010-03-25 2014-08-19 Disney Enterprises, Inc. Continuous freeze-frame video effect system and method
US20130294526A1 (en) * 2012-05-01 2013-11-07 Kevin Thornberry Smooth reverse video playback on low-cost current generation set-top box hardware
US20180342095A1 (en) 2017-03-16 2018-11-29 Motional LLC System and method for generating virtual characters
CN111091529A (zh) * 2018-10-24 2020-05-01 株式会社理光 一种人数统计方法及人数统计系统
CN110245638A (zh) 2019-06-20 2019-09-17 北京百度网讯科技有限公司 视频生成方法和装置
US11503227B2 (en) * 2019-09-18 2022-11-15 Very 360 Vr Llc Systems and methods of transitioning between video clips in interactive videos
CN110719524B (zh) * 2019-10-16 2022-02-01 腾讯科技(深圳)有限公司 一种视频播放方法、装置、智能播放设备和存储介质
CN111970559B (zh) * 2020-07-09 2022-07-22 北京百度网讯科技有限公司 视频获取方法、装置、电子设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002208260A (ja) 2000-12-28 2002-07-26 Alpine Electronics Inc 記録媒体再生装置
CN112102449A (zh) 2020-09-14 2020-12-18 北京百度网讯科技有限公司 虚拟人物的生成方法、展示方法及装置、设备和介质

Also Published As

Publication number Publication date
CN112528936B (zh) 2024-02-06
US20220093133A1 (en) 2022-03-24
JP2021177647A (ja) 2021-11-11
EP4016529A1 (en) 2022-06-22
CN112528936A (zh) 2021-03-19
US11521653B2 (en) 2022-12-06

Similar Documents

Publication Publication Date Title
JP7273901B2 (ja) ビデオシーケンス編成方法、装置、電子設備、記憶媒体、及びプログラム
US11158102B2 (en) Method and apparatus for processing information
TWI778477B (zh) 互動方法、裝置、電子設備以及儲存媒體
KR102503413B1 (ko) 애니메이션 인터랙션 방법, 장치, 기기 및 저장 매체
US10372790B2 (en) System, method and apparatus for generating hand gesture animation determined on dialogue length and emotion
JP7479750B2 (ja) 仮想ビデオライブ放送処理方法及び装置、電子機器
US11653072B2 (en) Method and system for generating interactive media content
CN107577661B (zh) 一种针对虚拟机器人的交互输出方法以及系统
JP2022530726A (ja) インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体
JP2022531057A (ja) インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体
JP7227395B2 (ja) インタラクティブ対象の駆動方法、装置、デバイス、及び記憶媒体
US20130332859A1 (en) Method and user interface for creating an animated communication
JP2022530935A (ja) インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体
US20180143741A1 (en) Intelligent graphical feature generation for user content
KR101831802B1 (ko) 적어도 하나의 시퀀스에 대한 가상현실 컨텐츠 제작방법 및 장치
Corradini et al. Animating an interactive conversational character for an educational game system
CN113704390A (zh) 虚拟对象的交互方法、装置、计算机可读介质及电子设备
Nuñez et al. An initial discussion of timing considerations raised during development of a magician-robot interaction
US20180276185A1 (en) System, apparatus and method for formatting a manuscript automatically
JP2022531056A (ja) インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体
Zidianakis et al. A cross-platform, remotely-controlled mobile avatar simulation framework for AmI environments
CN113282791B (zh) 视频生成方法和装置
WO2022175814A1 (en) Systems and methods for generating content through an interactive script and 3d virtual characters
CN113282791A (zh) 视频生成方法和装置
SISSLER Enhancing Non-player Characters in Unity 3D using GPT-3.5

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210713

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230428

R150 Certificate of patent or registration of utility model

Ref document number: 7273901

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150