JP2022530935A - インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体 - Google Patents

インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体 Download PDF

Info

Publication number
JP2022530935A
JP2022530935A JP2021549562A JP2021549562A JP2022530935A JP 2022530935 A JP2022530935 A JP 2022530935A JP 2021549562 A JP2021549562 A JP 2021549562A JP 2021549562 A JP2021549562 A JP 2021549562A JP 2022530935 A JP2022530935 A JP 2022530935A
Authority
JP
Japan
Prior art keywords
phoneme
sequence
interactive object
feature code
interactive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021549562A
Other languages
English (en)
Inventor
文岩 ▲呉▼
潜溢 ▲呉▼
晨 ▲錢▼
晨 白
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of JP2022530935A publication Critical patent/JP2022530935A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体を開示し、前記方法は、テキストデータに対応する音素シーケンスを取得することと、前記音素シーケンスにマッチングするインタラクティブ対象の少なくとも1つの局部領域の制御パラメータ値を取得することと、取得した前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することと、を含む。【選択図】図2

Description

本発明は、コンピュータ技術分野に関し、具体的には、インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体に関する。
<関連出願の相互引用>
本発明は、出願番号が2020102458024であり、出願日が2020年3月31日である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が援用により本願に組み入れられる。
人間とコンピュータの相互作用は、主に、キーストローク、タッチ、および音声によって入力し、表示スクリーンに画像、テキスト、または仮想キャラクターを表示して応答する。現在、仮想キャラクターは主に音声アシスタントに基づいて改善されている。
本発明の実施例は、インタラクティブ対象の駆動の技術的解決策を提供する。
本発明の1態様によると、インタラクティブ対象の駆動方法を提供し、前記方法は、テキストデータに対応する音素シーケンスを取得することと、前記音素シーケンスにマッチングするインタラクティブ対象の少なくとも1つの局部領域の制御パラメータ値を取得することと、取得した前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することと、を含む。
本発明によって提供される任意の実施形態に結合して、前記方法は、前記テキストデータに基づいて前記インタラクティブ対象を展示する表示デバイスがテキストを展示するように制御すること、および/または、前記テキストデータに対応する音素シーケンスに基づいて前記表示デバイスが音声を出力するように制御することを、さらに含む。
本発明によって提供される任意の実施形態に結合して、前記インタラクティブ対象の局部領域の制御パラメータは、前記局部領域の姿態制御ベクトルを含み、前記音素シーケンスにマッチングするインタラクティブ対象の少なくとも1つの局部領域の制御パラメータ値を取得することは、前記音素シーケンスに対して特徴エンコーディングを実行して、前記音素シーケンスに対応する第1コードシーケンスを得ることと、前記第1コードシーケンスに基づいて少なくとも1つの音素に対応する特徴コードを取得することと、前記特徴コードに対応する前記インタラクティブ対象の少なくとも1つの局部領域の姿態制御ベクトルを取得することと、を含む。
本発明によって提供される任意の実施形態に結合して、前記音素シーケンスに対して特徴エンコーディングを実行して、前記音素シーケンスに対応する第1コードシーケンスを得ることは、前記音素シーケンスに含まれている複数種類の音素の中の各々の音素に対して、前記音素に対応するサブコードシーケンスを生成することと、前記複数種類の音素にそれぞれ対応するサブコードシーケンスに基づいて、前記音素シーケンスに対応する第1コードシーケンスを得ることと、を含む。
本発明によって提供される任意の実施形態に結合して、前記音素シーケンスに含まれている複数種類の音素の中の各々の音素に対して、前記音素に対応するサブコードシーケンスを生成することは、各時点に前記音素が対応されているか否かを検出することと、前記音素が対応されている時点のコード値を第1数値として設定し、前記音素が対応されていない時点のコード値を第2数値として設定することによって、前記音素に対応する前記サブコードシーケンスを得ることと、を含む。
本発明によって提供される任意の実施形態に結合して、前記方法は、前記複数種類の音素の中の各々の音素に対応する前記サブコードシーケンスに対して、ガウスフィルターを利用して前記音素の時間における連続値に対してガウス畳み込み操作を実行することをさらに含む。
本発明によって提供される任意の実施形態に結合して、取得した前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することは、前記第2コードシーケンスに対応する姿態制御ベクトルのシーケンスを取得することと、前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象の姿態を制御することと、を含む。
本発明によって提供される任意の実施形態に結合して、前記方法は、前記音素シーケンス中の前記音素間の時間間隔が所定の閾値よりも大きい場合、前記局部領域の所定の制御パラメータ値に基づいて、前記インタラクティブ対象の姿態を制御することをさらに含む。
本発明によって提供される任意の実施形態に結合して、前記特徴コードに対応する前記インタラクティブ対象の少なくとも1つの局部領域の姿態制御ベクトルを取得することは、前記特徴コードを事前に訓練されたリカレントニューラルネットワークに入力して、前記特徴コードに対応する前記インタラクティブ対象の少なくとも1つの局部領域の前記姿態制御ベクトルを得ることを含む。
本発明によって提供される任意の実施形態に結合して、前記リカレントニューラルネットワークは、特徴コードサンプルを利用して訓練して得られたものであり、前記方法は、キャラクターが発した音声のビデオセグメントを取得し、前記ビデオセグメントに基づいて前記キャラクターが含まれた複数の第1画像フレームを取得することと、前記ビデオセグメント中から該当する音声セグメントを抽出し、前記音声セグメントに基づいてサンプル音素シーケンスを取得し、前記サンプル音素シーケンスに対して特徴エンコーディングを実行することと、前記第1画像フレームに対応する少なくとも1つの音素の特徴コードを取得することと、前記第1画像フレームを前記インタラクティブ対象が含まれた第2画像フレームに変換し、前記第2画像フレームに対応する少なくとも1つの局部領域の姿態制御ベクトル値を取得することと、前記姿態制御ベクトル値に基づいて、前記第1画像フレームに対応する前記特徴コードをレーベリングして、前記特徴コードサンプルを得ることと、をさらに含む。
本発明によって提供される任意の実施形態に結合して、前記方法は、前記特徴コードサンプルに基づいて初期リカレントニューラルネットワークを訓練し、ネットワーク損失の変化が収束条件を満たす後に、前記リカレントニューラルネットワークを訓練して得ることをさらに含み、ここで、前記ネットワーク損失は、前記リカレントニューラルネットワークが予測して得た前記少なくとも1つの局部領域の前記姿態制御ベクトル値と、レーベリングした前記姿態制御ベクトル値と、の間の差異を含む。
本発明の1態様によると、インタラクティブ対象の駆動装置を提供し、前記装置は、テキストデータに対応する音素シーケンスを取得するための第1取得ユニットと、前記音素シーケンスにマッチングするインタラクティブ対象の少なくとも1つの局部領域の制御パラメータ値を取得するための第2取得ユニットと、取得した前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御するための駆動ユニットと、を備える。
本発明の1態様によると、電子デバイスを提供し、前記デバイスは、メモリとプロセッサとを備え、前記メモリは、プロセッサ上で運行可能なコンピュータ命令を記憶し、前記プロセッサは、前記コンピュータ命令が実行されるときに、本発明によって提供される任意の実施形態に記載のインタラクティブ対象の駆動方法が実現される。
本発明の1態様によると、コンピュータプログラムが記憶されているコンピュータ可読記録媒体を提供し、前記コンピュータプログラムがプロセッサによって実行されるときに、本発明によって提供される任意の実施形態に記載のインタラクティブ対象の駆動方法が実現される。
本発明の1つまたは複数の実施例のインタラクティブ対象の駆動方法、装置、デバイス、及びコンピュータ可読記録媒体によると、テキストデータに対応する音素シーケンスを取得し、前記音素シーケンスにマッチングするインタラクティブ対象の少なくとも1つの局部領域の制御パラメータ値を取得して、前記インタラクティブ対象の姿態を制御することによって、インタラクティブ対象が、テキストデータに対応する音素にマッチングされる、顔姿態と肢体姿態を含む姿態を、行うようにすることができ、目標対象にインタラクティブ対象がテキスト内容を話している感覚を与え、目標対象のインタラクティブ対象とのインタラクティブ体験を改善した。
以下、本明細書の1つまたは複数の実施例または先行技術での技術的解決策をより明確に説明するために、実施例または先行技術の説明に使用する必要のある図面を簡単に紹介する。明らかに、以下に説明する図面は、本明細書の1つまたは複数の実施例に記載のいくつかの実施例に過ぎず、当業者は創造的な作業なしにこれら図面に基づいて他の図面を得ることができる。
本発明の少なくとも1つの実施例によって提供されるインタラクティブ対象の駆動方法における表示デバイスの模式図である。 本発明の少なくとも1つの実施例によって提供されるインタラクティブ対象の駆動方法のフローチャートである。 本発明の少なくとも1つの実施例によって提供される音素シーケンスに対して特徴エンコーディングを実行する過程の模式図である。 本発明の少なくとも1つの実施例によって提供されるインタラクティブ対象の駆動装置の構成の模式図である。 本発明の少なくとも1つの実施例によって提供される電子デバイスの構成の模式図である。
以下、例示的な実施例を詳細に説明し、その例を図面に示す。以下の説明が図面を言及している場合、特に明記しない限り、異なる図面における同一の数字は、同一または類似な要素を示す。以下の例示的な実施例で叙述される実施形態は、本発明と一致するすべての実施形態を代表しない。逆に、それらは、添付された特許請求の範囲に記載された、本発明のいくつかの態様と一致する装置及び方法の例に過ぎない。
本明細書における「および/または」という用語は、ただ関連対象の関連関係を説明するものであり、3つの関係が存在できることを示し、たとえば、Aおよび/またはBは、Aが単独に存在すること、AとBが同時に存在すること、および、Bが単独に存在することのような3つの関係が存在する。また、本明細書における「少なくとも1種」という用語は、複数種類の中の任意の1種または複数種類の中の少なくとも2種の任意の組み合わせを示し、たとえば、A、B、Cの中の少なくとも1種を含むことは、A、B、および、Cから構成されたセットから選択した任意の1つまたは複数の要素を含むことを示す。
本発明の少なくとも1つの実施例は、インタラクティブ対象の駆動方法を提供し、前記駆動方法は、端末デバイスまたはサーバなどの電子デバイスによって実行され得る。前記端末デバイスは、携帯電話、タブレットパソコン、ゲーム機、デスクトップパソコン、広告機、オールインワン機、車載端末などの、固定端末または移動端末であり得る。前記サーバは、ローカルサーバまたはクラウドサーバなどを含む。前記方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出す方法によって実現されることができる。
本発明の実施例において、インタラクティブ対象は、目標対象とインタラクティブを実行できる任意の仮想イメージであり得る。1実施例において、インタラクティブ対象は、仮想キャラクターであり得、さらに、仮想動物、仮想物品、漫画イメージなどの、インタラクティブ機能を実現できる他の仮想イメージであり得る。インタラクティブ対象の表示形式は、2Dまたは3Dであるが、本発明はこれに対して限定しない。前記目標対象は、ユーザ、ロボット、またはその他のスマートデバイスであり得る。前記インタラクティブ対象の前記目標対象とのインタラクティブ方法は、能動的インタラクティブ方法または受動的インタラクティブ方法であり得る。1例において、目標対象により、ジェスチャまたは肢体動作を行うことによって要求を発して、能動的インタラクティブ方法によってインタラクティブ対象をトリガしてインタラクティブを行うことができる。もう1例において、インタラクティブ対象により、能動的に挨拶して、目標対象が動作などを行うようにプロンプトする方法によって、目標対象が受動的方法によってインタラクティブ対象とインタラクティブを行うようにすることができる。
前記インタラクティブ対象は、端末デバイスを利用して展示することができ、前記端末デバイスは、テレビ、表示機能を有するオールインワン器、プロジェクター、仮想現実(Virtual Reality、VR)デバイス、拡張現実(Augmented Reality、AR)デバイスなどであり得、本発明は端末デバイスの具体的な形態に対して限定しない。
図1は、本発明の少なくとも1つの実施例によって提供される表示デバイスを示す。図1に示すように、当該表示デバイスは、透明表示スクリーンを有し、透明表示スクリーンに立体画像を表示することによって、立体効果を有する仮想シーンおよびインタラクティブ対象を現わすことができる。たとえば、図1の透明表示スクリーンに表示されたインタラクティブ対象は、仮想漫画人物を含む。いくつかの実施例において、本発明に記載の端末デバイスは、上記の透明表示スクリーンを有する表示デバイスであってもよく、表示デバイスに、メモリとプロセッサと配置されており、メモリは、プロセッサ上で運行可能なコンピュータ命令を記憶し、前記プロセッサは、前記コンピュータ命令が実行されるときに、本発明によって提供されるインタラクティブ対象の駆動方法を実現することによって、透明表示スクリーンに表示されたインタラクティブ対象を駆動して目標対象と交流または応答を行うようにすることができる。
いくつかの実施例において、インタラクティブ対象が音声を出力するように駆動するための音声駆動データに応答して、インタラクティブ対象は、目標対象に対して指定された音声を発することができる。端末デバイスは、端末デバイスの周辺の目標対象の動作、表情、身分、好みなどに基づいて、音声駆動データを生成することによって、駆動インタラクティブ対象が指定された音声を発して応答するように駆動することで、目標対象に対して擬人化サービスを提供することができる。音声駆動データは、その他の方法によって生成されてもよく、たとえば、サーバによって生成して端末デバイスに送信してもよいことを説明する必要がある。
インタラクティブ対象が目標対象とインタラクティブを行う過程において、当該音声駆動データに基づいてインタラクティブ対象が指定された音声を発するように駆動するときに、前記インタラクティブ対象が当該指定された音声と同期化された顔部の動作を行うように駆動することができなく、インタラクティブ対象が音声を発するときに鈍く不自然になり、目標対象のインタラクティブ対象とのインタラクティブ体験に影響を与える可能性がある。これに鑑みて、本発明の少なくとも1つの実施例は、インタラクティブ対象駆動方法を提出して、目標対象のインタラクティブ対象とのインタラクティブの体験を向上させる。
図2は、本発明の少なくとも1つの実施例のインタラクティブ対象の駆動方法を示すフローチャートであり、図2に示すように、前記方法は、ステップ201~ステップ203を含む。
ステップ201において、テキストデータに対応する音素シーケンスを取得する。
前記テキストデータは、前記インタラクティブ対象を駆動するための駆動データであり得る。当該駆動データは、サーバまたは端末デバイスによりインタラクティブ対象とインタラクティブを実行する目標対象の動作、表情、身分、好みなどに基づいて生成した駆動データであってもよいし、端末デバイスにより内部メモリから呼び出した音声駆動データであってもよい。本発明は、当該音声駆動データの取得方法に対して限定しない。
本発明の実施例において、テキストに含まれている形態素に基づいて、前記形態素に対応する音素を得て、テキストに対応する音素シーケンスを得ることができる。ここで、音素は、音声の自然な属性に基づいて分割された最小の音声単位であり、実在の人物の1つの発音動作が1つの音素を形成することができる。
1実施例において、前記テキストが中国語テキストであることに応答して、中国語テキストをピンインに変換し、ピンインを利用して音素シーケンスを生成し、各々の音素のタイムスタンプを生成することができる。
ステップ202において、前記音素シーケンスにマッチングする、インタラクティブ対象の少なくとも1つの局部領域の制御パラメータ値を、取得する。
前記局部領域は、インタラクティブ対象の全体(顔および/または体を含む)を分割して得られたものである。顔の1つまたは複数の局部領域の制御は、インタラクティブ対象の一連の顔表情または動作に対応され得る。たとえば、目部領域の制御は、インタラクティブ対象の開目、閉目、ウィンク、視角変換などの顔動作に対応され得る。また、たとえば、口部領域の制御は、インタラクティブ対象の閉口、異なる程度の開口などの顔動作に対応され得る。体のその中の1つまたは複数の局部領域の制御は、インタラクティブ対象の一連の肢体動作に対応され得る。たとえば、足部領域の制御は、インタラクティブ対象歩行、ジャンプ、蹴りなどの動作に対応され得る。
前記インタラクティブ対象の局部領域の制御パラメータは、前記局部領域の姿態制御ベクトルを含む。各々の局部領域の姿態制御ベクトルは、前記インタラクティブ対象の前記局部領域の動作を駆動するために使用される。異なる姿態制御ベクトル値は、異なる動作または動作振幅に対応される。たとえば、口部領域の姿態制御ベクトルの場合、その1組の姿態制御ベクトル値は、前記インタラクティブ対象が口部をわずかに開くようにすることができ、もう1組の姿態制御ベクトル値は、前記インタラクティブ対象が口部を大きく開くようにすることができる。異なる姿態制御ベクトル値で前記インタラクティブ対象を駆動することによって、該当する局部領域が異なる動作または異なる振幅の動作を行うようにすることができる。
局部領域は、制御する必要があるインタラクティブ対象の動作に基づいて選択することができ、たとえば、前記インタラクティブ対象顔と肢体が同時に動作を行う制御する必要がある場合には、全ての局部領域の姿態制御ベクトル値を取得することができ、前記インタラクティブ対象の表情を制御する必要がある場合には、前記顔に対応する局部領域の姿態制御ベクトル値を取得することができる。
本発明の実施例において、前記音素シーケンスに対して特徴エンコーディングを実行して、特徴コードに対応する制御パラメータ値を確定することによって、前記音素シーケンスに対応する制御パラメータ値を確定することができる。異なるエンコーディング方法は、前記音素シーケンスの異なる特徴を表現することができる。本発明は、具体的なエンコーディング方法に対して限定しない。
本発明の実施例において、前記テキストデータに対応する音素シーケンスの特徴コードとインタラクティブ対象の制御パラメータ値との対応関係を事前に構築することができる。したがって、テキストデータに基づいて対応する制御パラメータ値を得ることができる。前記テキストデータの音素シーケンスの特徴コードにマッチングする制御パラメータ値を取得する具体的な方法は、後で詳細に説明する。
ステップ203において、取得した前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御する。
前記制御パラメータ値、たとえば姿態制御ベクトル値は、前記テキストデータに含まれている音素シーケンスにマッチングされる。たとえば、前記テキストデータに基づいて前記インタラクティブ対象を展示する表示デバイスがテキストを展示するように制御し、および/または、前記テキストデータに対応する音素シーケンスに基づいて前記表示デバイスが音声を出力するように制御する場合、インタラクティブ対象が行った姿態と、出力した音声および/または展示したテキストとが、同期化され、したがって、目標対象に前記インタラクティブ対象が話しているような感覚を与える。
本発明の実施例において、テキストデータに対応する音素シーケンスを取得し、前記音素シーケンスにマッチングするインタラクティブ対象の少なくとも1つの局部領域の制御パラメータ値を取得して、前記インタラクティブ対象の姿態を制御することによって、インタラクティブ対象が、テキストデータに対応する音素にマッチングされる、顔姿態と肢体姿態を含む姿態を、行うようにすることができ、目標対象にインタラクティブ対象がテキスト内容を話している感覚を与え、目標対象のインタラクティブ体験を改善した。
いくつかの実施例において、前記方法は、サーバに適用され、当該サーバは、ローカルサーバまたはクラウドサーバなどを含む。前記サーバは、テキストデータを処理して、前記インタラクティブ対象の制御パラメータ値を生成し、前記制御パラメータ値に基づいて3次元レンダリングエンジンを利用してレンダリングして、前記インタラクティブ対象の動画を得る。前記サーバは、前記動画を端末に送信して展示することによって、目標対象と交流または応答を実行することができ、さらに、前記動画をクラウドに送信することによって、端末がクラウドから前記動画を取得して目標対象と交流または応答を実行することができる。サーバが前記インタラクティブ対象の制御パラメータ値を生成した後に、さらに、前記制御パラメータ値を端末に送信することによって、端末が、レンダリングの実行、動画の生成、展示の実行などの過程を完了するようにする。
いくつかの実施例において、前記方法は、端末に適用され、前記端末は、テキストデータを処理して、前記インタラクティブ対象の制御パラメータ値を生成し、前記制御パラメータ値に基づいて3次元レンダリングエンジンを利用してレンダリングして、前記インタラクティブ対象の動画を得る、前記端末は、前記動画を展示することによって目標対象と交流または応答を実行することができる。
いくつかの実施例において、前記テキストデータに基づいて前記インタラクティブ対象を展示する表示デバイスがテキストを展示するように制御し、および/または、前記テキストデータに対応する音素シーケンスに基づいて前記表示デバイスが音声を出力するように制御することができる。
本発明の実施例において、前記制御パラメータ値と前記テキストデータの音素シーケンスとがマッチングされるため、前記テキストデータに基づいて出力した音声および/またはテキストと、前記制御パラメータ値に基づいて制御したインタラクティブ対象の姿態とが、同期化される場合、インタラクティブ対象が行った姿態と、出力した音声および/または展示したテキストとが、同期化され、目標対象に前記インタラクティブ対象と話している感覚を与える。
いくつかの実施例において、前記インタラクティブ対象の少なくとも1つの局部領域の制御パラメータは、姿態制御ベクトルを含み、前記姿態制御ベクトルは、以下の方法によって得ることができる。
まず、前記音素シーケンスに対して特徴エンコーディングを実行して、前記音素シーケンスに対応するコードシーケンスを得る。後続に言及するコードシーケンスと区分するために、前記テキストデータの音素シーケンスに対応するコードシーケンスを第1コードシーケンスと呼ぶ。前記音素シーケンスに対して特徴エンコーディングを実行して、第1コードシーケンスを得る。
前記音素シーケンスに含まれている複数種類の音素に対して、各々の音素に対応するサブコードシーケンスを生成する。
1例において、各時点に第1音素が対応されているか否かを検出し、前記第1音素は、前記複数種類の音素の中の任意の1つである。前記第1音素が対応されている時点のコード値を第1数値として設定し、前記第1音素が対応されていない時点のコード値を第2数値として設定することによって、各々の時点のコード値に対して値を割り当てた後に、第1音素に対応するコードシーケンスを得ることができる。たとえば、前記第1音素が対応されている時点のコード値を1に設定し、前記第1音素が対応されていない時点のコード値を0に設定することができる。つまり、前記音素シーケンスに含まれている複数種類の音素の中の各々の音素に対して、各時点に当該音素が対応されているか否かを検出し、前記音素が対応されている時点のコード値を第1数値として設定し、前記音素が対応されていない時点のコード値を第2数値として設定し、各々の時点のコード値に対して値を割り当てた後に、当該音素に対応するコードシーケンスを得ることができる。当業者は、上述したコード値の設定は例に過ぎず、さらに、コード値を他の値に設定してもよく、本発明はこれに対して限定しないことを理解すべきである。
前記複数種類の音素にそれぞれ対応するサブコードシーケンスに基づいて、前記音素シーケンスに対応する第1コードシーケンスを得る。
1例において、第1音素に対応するサブコードシーケンスに対して、ガウスフィルターを利用して前記第1音素の時間における連続値に対してガウス畳み込み操作を実行することによって、特徴コードに対応するマトリックスに対してフィルタリングを実行し、各音素が変換されるときの口部領域の遷移的な動作をスムーズにする。
図3は、本発明の少なくとも1つの実施例によって提供されるインタラクティブ対象の駆動方法を示す模式図である。図3に示すように、音素シーケンス310は、音素j、i、j、ie4(簡素化のために、一部の音素のみを示す)を含み、各々の音素j、i、ie4に対してそれぞれ対応するサブコードシーケンス321、322、323を得る。各々のサブコードシーケンスにおいて、前記音素が対応されている時点に対応するコード値を第1数値として設定し(たとえば1に設定する)、前記音素が対応されていない時点に対応するコード値を第2数値として設定する(たとえば0に設定する)。サブコードシーケンス321の例をとると、音素シーケンス310において音素jがいる時点で、サブコードシーケンス321の値が第1数値である1であり、音素jがない時点で、サブコードシーケンス321の値が第2数値である0である。すべてのサブコードシーケンスによって完全な第1コードシーケンス320が構成される。
続いて、前記第1コードシーケンスに基づいて少なくとも1つの音素に対応する特徴コードを取得。
音素j、i、ie4にそれぞれ対応するサブコードシーケンス321、322、323のコード値、および、当該3つのサブコードシーケンス中に対応する音素の時間長さに基づいて、つまり、サブコードシーケンス321におけるjの時間長さ、サブコードシーケンス322におけるi1の時間長さ、および、サブコードシーケンス323におけるie4の時間長さに基づいて、サブコードシーケンス321、322、323の特徴情報を得ることができる。
1例において、ガウスフィルターを利用してそれぞれサブコードシーケンス321、322、323中の音素j、i、ie4の時間における連続値を利用して、ガウス畳み込み操作を実行して、特徴コードをスムーズにして、スムーズにした後の第1コードシーケンス330を得ることができる。つまり、ガウスフィルターを利用して音素の時間における連続値ガウスに対して畳み込み操作を実行することによって、各々のコードシーケンス中のコード値が第2数値から第1数値または第1数値から第2数値への変化の段階がスムーズになるようにする。たとえば、コードシーケンスの値は、0と1に加えて、中間状態の値であってもよく、たとえば0.2、0.3などであり得る。これら中間状態の値に基づいて取得した姿態制御ベクトルは、インタラクティブ人物の動作の遷移および表情の変化をよりスムーズで自然になるようにして、目標対象のインタラクティブ体験を改善した。
いくつかの実施例において、前記第1コードシーケンス上でウィンドウスライディングを実行する方法によって、少なくとも1つの音素に対応する特徴コードを取得することができる。ここで、前記第1コードシーケンスは、ガウス畳み込み操作を通じた後のコードシーケンスであり得る。
所定の長さの時間ウィンドウおよび所定のステップサイズで、前記コードシーケンスに対してウィンドウスライディングを実行し、前記時間ウィンドウ内の特徴コードを対応する少なくとも1つの音素の特徴コードとして設定し、ウィンドウスライディングが完了した後に、得られた複数の特徴コードに基づいて第2コードシーケンスを得ることができる。各音素の時間長さが異なり、また、各音素の持続時間と時間ウィンドウの長さの比率も異なるため、時間ウィンドウ内の特徴コードに対応する音素数は時間ウィンドウの位置に基づいて1、2またはそれいじょうになる可能性がある。図3に示すように、第1コードシーケンス320またはスムーズした後の第1コードシーケンス330上で、所定の長さの時間ウィンドウをスライディングして、特徴コード1、特徴コード2、および、特徴コード3をそれぞれ得ることができ、以下同様である。第1コードシーケンスをトラバースした後、特徴コード1、特徴コード2、特徴コード3、…、特徴コードMを得ることによって、第2コードシーケンス340を得る。ここで、Mは正の整数であり、その数値は、第1コードシーケンスの長さ、時間ウィンドウの長さ、および、時間ウィンドウをスライディングするステップサイズに応じて決定される。
最後に、前記特徴コードに対応する前記インタラクティブ対象の少なくとも1つの局部領域の姿態制御ベクトルを取得する。
特徴コード1、特徴コード2、特徴コード3、…、特徴コードMに基づいて、該当する姿態制御ベクトル1、姿態制御ベクトル2、姿態制御ベクトル3、…、姿態制御ベクトルMをそれぞれ得ることができ、したがって、姿態制御ベクトルのシーケンス350を得る。
姿態制御ベクトルのシーケンス350と第2コードシーケンス340とは、時間的に整列される。前記第2コードシーケンス中の各々の特徴コードが音素シーケンス中の少なくとも1つの音素に基づいて得たものであるため、姿態制御ベクトルのシーケンス350中の各々の制御ベクトルも同様に音素シーケンス中の少なくとも1つの音素に基づいて得たものである。テキストデータに対応する音素シーケンスを再生する同時に、前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象が動作を行うように駆動すると、駆動インタラクティブ対象がテキスト内容に対応する音声を発するようにする同時に、音声に同期化された動作を行うようにすることができ、目標対象に前記インタラクティブ対象と話している感覚を与える、目標対象のインタラクティブ体験を改善した。
1番目の時間ウィンドウの所定のタイミングから特徴コードを出力し始めると仮定すると、前記所定のタイミングの前の姿態制御ベクトル値をデフォルト値に設定することができ、つまり、音素シーケンスを最初に再生するときに、前記インタラクティブ対象がデフォルトの動作を行うようにし、前記所定のタイミングの後で第1コードシーケンスに基づいて得られた姿態制御ベクトルのシーケンスを利用して前記インタラクティブ対象が動作を行うように駆動し始める。図3を例にとると、t0のタイミングで特徴コード1を出力し始め、t0のタイミングの前に対応するのはデフォルトの姿態制御ベクトルである。
前記時間ウィンドウの長さは、前記特徴コードに含まれている情報の量に関連している。時間ウィンドウに含まれている情報の量がより大きい場合、前記リカレントニューラルネットワーク処理を通じてより均一な結果を出力することになる。時間ウィンドウの長さが大き過ぎると、インタラクティブ対象が話すときの表情が一部の文字に対応できなくなる。時間ウィンドウの長さが小さ過ぎると、インタラクティブ対象が話すときの表情が硬く見えるようになる。したがって、時間ウィンドウの時間長さは、テキストデータに対応する音素が持続する最小時間によって確定することによって、前記インタラクティブ対象を駆動して行った動作が音声とより強い関連性を有するようにする。
時間ウィンドウをスライディングするステップサイズは、姿態制御ベクトルを取得する時間間隔(頻度)に関連しており、つまり、駆動インタラクティブ対象が動作を行う頻度に関連している。実際のインタラクティブのシーンに応じて、前記時間ウィンドウの長さおよびステップサイズを設定することによって、インタラクティブ対象が行う表情および動作と音声との関連性がより強くて、また、より鮮やで自然になるようにする。
いくつかの実施例において、前記音素シーケンス中の音素間の時間間隔が所定の閾値よりも大きい場合、前記局部領域の所定の姿態制御ベクトルに基づいて、前記インタラクティブ対象が動作を行うように駆動する。つまり、インタラクティブ人物の発話の停頓がより長いと、前記インタラクティブ対象が所定の動作を行うように駆動する。たとえば、出力する音声の停頓がより長いときに、インタラクティブ対象が微笑の表情を行うか、または体を少し振るようにすることによって、停頓がより長いときにインタラクティブ対象が表情なしで直立していることを回避し、インタラクティブ対象が発話する過程がより自然でスムーズになるようにし、目標対象のインタラクティブ対象とのインタラクティブエクスペリエンスを改善した。
いくつかの実施例において、前記特徴コードを事前に訓練されたリカレントニューラルネットワークに入力することによって、前記リカレントニューラルネットワークが前記第1コードシーケンスに基づいて前記特徴コードに対応する前記インタラクティブ対象の少なくとも1つの局部領域の姿態制御ベクトルを出力するようにすることができる。前記リカレントニューラルネットワークは、時間リカレントニューラルネットワークであり、入力した特徴コードの履歴情報を学習することができ、前記特徴コードシーケンスに基づいて前記少なくとも1つの局部領域の姿態制御ベクトルを出力する。ここで、前記特徴コードシーケンスは、第1コードシーケンスおよび第2コードシーケンスを含む。前記リカレントニューラルネットワークは、たとえば長短期記憶ネットワーク(Long Short-Term Memory、LSTM)であり得る。
本発明の実施例において、事前に訓練されたリカレントニューラルネットワークを利用して前記特徴コードに対応する前記インタラクティブ対象の少なくとも1つの局部領域の姿態制御ベクトルを取得し、特徴コードの履歴特徴情報と現在特徴情報とを融合することによって、履歴姿態制御ベクトルが現在姿態制御ベクトルの変化に対して影響を与えるようにし、インタラクティブ人物の表情変化および肢体動作がよりスムーズで自然になるようにする。
いくつかの実施例において、以下の方法によって、前記リカレントニューラルネットワークを訓練することができる。
まず、特徴コードサンプルを取得し、ここで、前記特徴コードサンプルには実在の値がレーベリングされており、前記実在の値は、前記インタラクティブ対象の少なくとも1つの局部領域の姿態制御ベクトル値である。
特徴コードサンプルを得た後に、前記特徴コードサンプルに基づいて初期リカレントニューラルネットワークを訓練し、ネットワーク損失の変化が収束条件を満たす後に、前記リカレントニューラルネットワークを訓練して得、ここで、前記ネットワーク損失は、前記リカレントニューラルネットワークが予測して得た前記少なくとも1つの局部領域の姿態制御ベクトル値と前記実在の値との間の差異を含む。
いくつかの実施例において、以下の方法によって、特徴コードサンプルを取得することができる。
まず、キャラクターが発した音声のビデオセグメントを取得し、前記ビデオセグメントに基づいて前記キャラクターが含まれた複数の第1画像フレームを取得する。たとえば、実在の人物が話しているビデオセグメントを取得することができる。
続いて、前記ビデオセグメント中から該当する音声セグメントを抽出し、前記音声セグメントに基づいてサンプル音素シーケンスを取得し、前記サンプル音素シーケンスに対して特徴エンコーディングを実行する。ここで、前記サンプル音素シーケンスに対してエンコーディングを実行する方法は、上述したテキストデータに対応する音素シーケンスのエンコーディング方法と同様である。
前記サンプル音素シーケンスに対して特徴エンコーディングを実行して得られたサンプルコードシーケンスに基づいて、前記第1画像フレームに対応する少なくとも1つの音素の特徴コードを取得する。ここで、前記少なくとも1つの音素は、前記第1画像フレームの出現時間の所定の範囲内の音素であり得る。
次に、前記第1画像フレームを前記インタラクティブ対象が含まれた第2画像フレームに変換し、前記第2画像フレームに対応する少なくとも1つの局部領域の姿態制御ベクトル値を取得する。ここで、当該姿態制御ベクトル値は、すべての局部領域の姿態制御ベクトル値を含んでもよいし、その中の一部の局部領域の姿態制御ベクトル値を含んでもよい。
前記第1画像フレームが実在の人物が含まれた画像フレームである例をとると、当該実在の人物の画像フレームを、インタラクティブ対象が示すイメージを含む第2画像フレームに変換することができ、ここで、前記実在の人物の各々の局部領域の姿態制御ベクトルと前記インタラクティブ対象の各々の局部領域の姿態制御ベクトルとが対応されるため、第2画像フレーム内のインタラクティブ対象の各々の局部領域の姿態制御ベクトルを取得することができる。
最後に、前記姿態制御ベクトル値に基づいて、上述の得られた前記第1画像フレームに対応する少なくとも1つの音素の特徴コードをレーベリングして、特徴コードサンプルを得る。
本発明の実施例において、キャラクターのビデオセグメントを対応する複数の第1画像フレームと音声セグメントに分割し、また、実在の人物が含まれた第1画像フレームをインタラクティブ対象が含まれた第2画像フレームに変換して、音素の特徴コードに対応する姿態制御ベクトルを取得することによって、特徴コードと姿態制御ベクトルとの対応性がより良くなるようにし、高品質の特徴コードサンプルを得て、インタラクティブ対象の動作が対応するキャラクターの実在の動作により近づける。
図4は、本発明の少なくとも1つの実施例に係るインタラクティブ対象の駆動装置の構成を示す模式図であり、図4に示すように、当該装置は、テキストデータに対応する音素シーケンスを取得するための第1取得ユニット401と、前記音素シーケンスにマッチングするインタラクティブ対象の少なくとも1つの局部領域の制御パラメータ値を取得するための第2取得ユニット402と、取得した前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御するための駆動ユニット403と、を備え得る。
いくつかの実施例において、前記装置は、前記テキストデータに基づいて前記インタラクティブ対象を展示する表示デバイスがテキストを展示するように制御し、および/または、前記テキストデータに対応する音素シーケンスに基づいて前記表示デバイスが音声を出力するように制御するための出力ユニットを、さらに備える。
いくつかの実施例において、前記第2取得ユニットは、具体的に、前記音素シーケンスに対して特徴エンコーディングを実行して、前記音素シーケンスに対応する第1コードシーケンスを得、前記第1コードシーケンスに基づいて少なくとも1つの音素に対応する特徴コードを取得し、前記特徴コードに対応する前記インタラクティブ対象の少なくとも1つの局部領域の姿態制御ベクトルを取得する。
いくつかの実施例において、前記音素シーケンスに対して特徴エンコーディングを実行して、前記音素シーケンスに対応する第1コードシーケンスを得るときに、前記第2取得ユニットは、具体的に、前記音素シーケンスに含まれている複数種類の音素に対して、各々の音素に対応するサブコードシーケンスを生成し、前記複数種類の音素にそれぞれ対応するサブコードシーケンスに基づいて、前記音素シーケンスに対応する第1コードシーケンスを得る。
いくつかの実施例において、前記音素シーケンスに含まれている複数種類の音素に対して、各々の音素に対応するサブコードシーケンスを生成するときに、前記第2取得ユニットは、具体的に、各時点に第1音素が対応されているか否かを検出し、前記第1音素は、前記複数種類の音素の中の任意の1つである。前記第1音素が対応されている時点のコード値を第1数値として設定し、前記第1音素が対応されていない時点のコード値を第2数値として設定することによって、前記第1音素に対応するサブコードシーケンスを得る。
いくつかの実施例において、前記装置は、前記複数種類の音素の中の各々の音素に対応する前記サブコードシーケンスに対して、ガウスフィルターを利用して前記音素の時間における連続値に対してガウス畳み込み操作を実行するためのフィルタリングユニットをさらに備える。1実施例において、第1音素に対応するサブコードシーケンスに対して、ガウスフィルターを利用して前記第1音素の時間における連続値に対してガウス畳み込み操作を実行し、ここで、前記第1音素は、前記複数種類の音素の中の任意の1つである。
いくつかの実施例において、前記第1コードシーケンスに基づいて少なくとも1つの音素に対応する特徴コードを取得するときに、前記第2取得ユニットは、具体的に、所定の長さの時間ウィンドウおよび所定のステップサイズで、前記コードシーケンスに対してウィンドウスライディングを実行し、前記時間ウィンドウ内の特徴コードを対応する少なくとも1つの音素の特徴コードとして設定し、ウィンドウスライディングを実行して得られた複数の特徴コードに基づいて、第2コードシーケンスを得る。
いくつかの実施例において、前記駆動ユニットは、具体的に、前記第2コードシーケンスに対応する姿態制御ベクトルのシーケンスを取得し、前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象の姿態を制御する。
いくつかの実施例において、前記装置は、前記音素シーケンス中の音素間の時間間隔が所定の閾値よりも大きい場合、前記局部領域の所定の制御パラメータ値に基づいて、前記インタラクティブ対象の姿態を制御するための停頓駆動ユニットをさらに備える。
いくつかの実施例において、前記特徴コードに対応する前記インタラクティブ対象の少なくとも1つの局部領域の姿態制御ベクトルを取得するときに、前記第2取得ユニットは、具体的に、前記特徴コードを事前に訓練されたリカレントニューラルネットワークに入力して、前記特徴コードに対応する前記インタラクティブ対象の少なくとも1つの局部領域の姿態制御ベクトルを得る。
いくつかの実施例において、前記ニューラルネットワークは、音素シーケンスサンプルを利用して訓練して得られたものであり、前記装置は、キャラクターが発した音声のビデオセグメントを取得し、前記ビデオセグメントに基づいて前記キャラクターが含まれた複数の第1画像フレームを取得し、前記ビデオセグメント中から該当する音声セグメントを抽出し、前記音声セグメントに基づいてサンプル音素シーケンスを取得し、前記サンプル音素シーケンスに対して特徴エンコーディングを実行し、前記第1画像フレームに対応する少なくとも1つの音素の特徴コードを取得し、前記第1画像フレームを前記インタラクティブ対象が含まれた第2画像フレームに変換し、前記第2画像フレームに対応する少なくとも1つの局部領域の姿態制御ベクトル値を取得し、前記姿態制御ベクトル値に基づいて、前記第1画像フレームに対応する特徴コードをレーベリングして、特徴コードサンプルを得るためのサンプル取得ユニットをさらに備える。
いくつかの実施例において、前記装置は、前記特徴コードサンプルに基づいて初期リカレントニューラルネットワークを訓練し、ネットワーク損失の変化が収束条件を満たす後に、前記リカレントニューラルネットワークを訓練して得るための訓練ユニットをさらに備え、ここで、前記ネットワーク損失は、前記リカレントニューラルネットワークが予測して得た前記少なくとも1つの局部領域の姿態制御ベクトル値とレーベリングした姿態制御ベクトル値との間の差異を含む。
本明細書の少なくとも1つの実施例は、電子デバイスをさらに提供し、図5に示すように、前記デバイスは、メモリとプロセッサとを備え、メモリは、プロセッサ上で運行可能なコンピュータ命令を記憶し、プロセッサは、前記コンピュータ命令が実行されるときに、本発明の任意の実施例に記載のインタラクティブ対象の駆動方法を実現する。
本明細書の少なくとも1つの実施例は、コンピュータプログラムが記憶されているコンピュータ可読記録媒体をさらに提供し、前記プログラムがプロセッサによって実行されるときに、本発明の任意の実施例に記載のインタラクティブ対象の駆動方法を実現する。
当業者は、本発明の1つまたは複数の実施例は、方法、システム、または、コンピュータプログラム製品として提供することができることを了解すべきである。したがって、本発明の1つまたは複数の実施例は、完全なハードウェアの実施例、完全なソフトウェアの実施例、または、ソフトウェアとハードウェアを組み合わせた実施例の形式を使用することができる。また、本発明の1つまたは複数の実施例は、コンピュータ利用可能なプログラムコードを含む1つまたは複数のコンピュータ利用可能な記録媒体(ディスクメモリ、CD-ROM、光学メモリなどを含むが、これらに限定されない)上で実施されるコンピュータプログラム製品の形式を使用することができる。
本発明における各実施例は、いずれも、漸進的な方法を使用して叙述され、各実施例同士の間の同一または類似な一部は互いに参照することができ、各々の実施例では他の実施例との異なるところに焦点を合わせて説明した。特に、データ処理デバイスの実施例の場合、基本的に方法の実施例と類似であるため、比較的に的に簡単に叙述したが、関連するところは方法の実施例の一部の説明を参照すればよい。
上記で本発明の特定の実施例を叙述した。他の実施例は、添付する「特許請求の範囲」の範囲内にいる。いくつかの場合、特許請求の範囲に記載の行為またはステップは、実施例と異なる順序に従って実行されることができ、このときにも依然として期待する結果が実現されることができる。また、図面で描かれた過程は、期待する結果するために、必ずとしても、示された特定の順序または連続的な順序を必要としない。いくつかの実施形態において、マルチタスク処理および並列処理も可能であるか、または、有益であり得る。
本発明における主題および機能操作の実施例は、デジタル電子回路、有形コンピュータソフトウェアまたはファームウェア、本発明に開示される構成およびその構造的同等物を含むコンピュータハードウェア、または、それらの1つまたは複数の組み合わせで、実現されることができる。本発明における主題の実施例は、1つまたは複数のコンピュータプログラムとして実現されることができ、すなわち、有形の非一時的プログラムキャリア上に符号化されて、データ処理装置によって実行されるか、または、データ処理装置の操作を制御するための、コンピュータプログラム命令中の1つまたは複数のモジュールとして実現されることができる。代替的または追加的に、プログラム命令は、手動で生成する伝播信号上に符号化されることができ、例えば、機械が生成する電気信号、光信号、または、電磁信号に符号化されることができる。当該信号は、情報を符号化して適切な受信機装置に伝送して、データ処理装置によって実行されるようにするために、生成される。コンピュータ記録媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムにまたはシリアルアクセスメモリデバイス、または、それらの1つまたは複数の組み合わせであり得る。
本発明における処理と論理フローは、1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラム可能なコンピュータによって実行されることができ、入力データに基づいて操作を実行して出力を生成することによって該当する機能を実行する。前記処理と論理フローは、さらに、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(専用集積回路)などの専用論理回路によって実行されることができ、また、装置も専用論理回路として実現されることができる。
コンピュータプログラムの実行に適したコンピュータは、例えば、汎用、および/または、専用マイクロプロセッサ、または、いかなる他の種類の中央処理ユニットを含む。一般的に、中央処理ユニットは、読み取り専用メモリ、および/または、ランダムアクセスメモリから、命令とデータを受信することになる。コンピュータの基本コンポーネントは、命令を実施または実行するための中央処理ユニット、および、命令とデータを記憶するための1つまたは複数のメモリデバイスを含む。一般的に、コンピュータは、磁気ディスク、磁気光学ディスク、または、光学ディスクなどの、データを記憶するための1つまたは複数の大容量記憶デバイスをさらに含むか、または、操作可能に当該大容量記憶デバイスと結合されてデータを受信するかまたはデータを伝送するか、または、その両方を兼有する。しかしながら、コンピュータは、必ずとして、このようなデバイスを有するわけではない。なお、コンピュータは、もう1デバイスに埋め込まれることができ、例えば、携帯電話、パーソナルデジタルアシスタント(PDA)、モバイルオーディオまたはビデオおプレーヤー、ゲームコンソール、グローバルポジショニングシステム(GPS)レジーバー、または、汎用シリアルバス(USB)フラッシュドライブなどのポータブル記憶デバイスに埋め込まれることができ、これらデバイスはいくつかの例に過ぎない。
コンピュータプログラム命令とデータの記憶に適したコンピュータ可読媒体は、すべての形式の不揮発性メモリ、媒介、および、メモリデバイスを含み、例えば、半導体メモリデバイス(例えば、EPROM、EEPROM、および、フラッシュデバイス)、磁気ディスク(例えば、内部ハードディスクまたは移動可能ディスク)、磁気光学ディスク、および、CD ROM、および、DVD-ROMディスクを含む。プロセッサとメモリは、専用論理回路によって補完されるかまたは専用論理回路に組み込まれることができる。
本発明は、多くの具体的な実施の細部を含むが、これらを本発明の範囲または保護しようとする範囲を限定するものとして解釈すべきではなく、主に本発明のいくつかの実施例の特徴を叙述するために使用される。本発明の複数の実施例中の特定の特徴は、単一の実施例に組み合わせて実施されることもできる。他方、単一の実施例中の各種の特徴は、複数の実施例で別々に実施されるかまたはいかなる適切なサブ組み合わせで実施されることもできる。なお、特徴が上記のように特定の組み合わせで役割を果たし、また最初からこのように保護すると主張したが、保護すると主張した組み合わせからの1つまたは複数の特徴は、場合によって当該組み合わせから除外されることができ、また保護すると主張した組み合わせはサブ組み合わせまたはサブ組み合わせの変形に向けることができる。
類似的に、図面で特定の順序に従って操作を描いたが、これはこれら操作を示した特定の順序にしたがって実行するかまたは順次に実行するように要求するか、または、例示したすべての操作が実行されることによって期待する結果が実現されると要求することであると理解すべきではない。場合によっては、マルチタスクおよび並列処理が有利である可能性がある。なお、上記の実施例中の各種のシステムモジュールとコンポーネントの分離は、すべての実施例でいずれもこのように分離されなければならないと理解すべきではないし、また、叙述したプログラムコンポーネントとシステムは、一般的に、一緒に単一のソフトウェア製品に統合されるか、または、複数のソフトウェア製品にパッケージされることができることを理解すべきである。
したがって、主題の特定の実施例がすでに叙述された。他の実施例は、添付する「特許請求の範囲」の範囲内にある。場合によっては、特許請求の範囲に記載されている動作は、異なる順序によって実行されても、依然として期待する結果が実現されることができる。なお、図面で描かれた処理は、期待する結果を実現するために、必ずとして、示めされた特定の順序または順次を必要としない。一部の実現において、マルチタスクおよび並列処理が有益である可能性がある。
上記は、本発明のいくつかの実施例に過ぎず、本発明を限定するために使用されるものではない。本発明の精神と原則の範囲内で行われたいかなる修正、同等の置換、改良などは、いずれも本発明の1つまたは複数の実施例の範囲に含まれるべきである。

Claims (20)

  1. インタラクティブ対象の駆動方法であって、
    テキストデータに対応する音素シーケンスを取得することと、
    前記音素シーケンスにマッチングするインタラクティブ対象の少なくとも1つの局部領域の制御パラメータ値を取得することと、
    取得した前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することと、を含む
    ことを特徴とするインタラクティブ対象の駆動方法。
  2. 前記テキストデータに基づいて前記インタラクティブ対象を展示する表示デバイスがテキストを展示するように制御すること、および/または、前記テキストデータに対応する音素シーケンスに基づいて前記表示デバイスが音声を出力するように制御することを、さらに含む
    ことを特徴とする請求項1に記載のインタラクティブ対象の駆動方法。
  3. 前記インタラクティブ対象の局部領域の制御パラメータは、前記局部領域の姿態制御ベクトルを含み、
    前記音素シーケンスにマッチングするインタラクティブ対象の少なくとも1つの局部領域の制御パラメータ値を取得することは、
    前記音素シーケンスに対して特徴エンコーディングを実行して、前記音素シーケンスに対応する第1コードシーケンスを得ることと、
    前記第1コードシーケンスに基づいて少なくとも1つの音素に対応する特徴コードを取得することと、
    前記特徴コードに対応する前記インタラクティブ対象の少なくとも1つの局部領域の姿態制御ベクトルを取得することと、を含む
    ことを特徴とする請求項1または2に記載のインタラクティブ対象の駆動方法。
  4. 前記音素シーケンスに対して特徴エンコーディングを実行して、前記音素シーケンスに対応する第1コードシーケンスを得ることは、
    前記音素シーケンスに含まれている複数種類の音素の中の各々の音素に対して、前記音素に対応するサブコードシーケンスを生成することと、
    前記複数種類の音素にそれぞれ対応するサブコードシーケンスに基づいて、前記音素シーケンスに対応する第1コードシーケンスを得ることと、を含む
    ことを特徴とする請求項3に記載のインタラクティブ対象の駆動方法。
  5. 前記音素シーケンスに含まれている複数種類の音素の中の各々の音素に対して、前記音素に対応するサブコードシーケンスを生成することは、
    各時点に前記音素が対応されているか否かを検出することと、
    前記音素が対応されている時点のコード値を第1数値として設定し、前記音素が対応されていない時点のコード値を第2数値として設定することによって、前記音素に対応する前記サブコードシーケンスを得ることと、を含む
    ことを特徴とする請求項4に記載のインタラクティブ対象の駆動方法。
  6. 前記複数種類の音素の中の各々の音素に対応する前記サブコードシーケンスに対して、ガウスフィルターを利用して前記音素の時間における連続値に対してガウス畳み込み操作を実行することをさらに含む
    ことを特徴とする請求項5に記載のインタラクティブ対象の駆動方法。
  7. 前記第1コードシーケンスに基づいて少なくとも1つの音素に対応する特徴コードを取得することは、
    所定の長さの時間ウィンドウおよび所定のステップサイズで、前記第1コードシーケンスに対してウィンドウスライディングを実行し、前記時間ウィンドウ内の特徴コードを対応する前記少なくとも1つの音素の特徴コードとして設定し、前記ウィンドウスライディングを実行して得られた複数の前記特徴コードに基づいて、第2コードシーケンスを得ることを含み、
    取得した前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することは、
    前記第2コードシーケンスに対応する姿態制御ベクトルのシーケンスを取得することと、
    前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象の姿態を制御することと、を含む
    ことを特徴とする請求項3から6のいずれか1項に記載のインタラクティブ対象の駆動方法。
  8. 前記音素シーケンス中の前記音素間の時間間隔が所定の閾値よりも大きい場合、前記局部領域の所定の制御パラメータ値に基づいて、前記インタラクティブ対象の姿態を制御することをさらに含む
    ことを特徴とする請求項1から7のいずれか1項に記載のインタラクティブ対象の駆動方法。
  9. 前記特徴コードに対応する前記インタラクティブ対象の少なくとも1つの局部領域の姿態制御ベクトルを取得することは、
    前記特徴コードを事前に訓練されたリカレントニューラルネットワークに入力して、前記特徴コードに対応する前記インタラクティブ対象の少なくとも1つの局部領域の前記姿態制御ベクトルを得ることを含む
    ことを特徴とする請求項3に記載のインタラクティブ対象の駆動方法。
  10. 前記リカレントニューラルネットワークは、特徴コードサンプルを利用して訓練して得られたものであり、
    前記インタラクティブ対象の駆動方法は、
    キャラクターが発した音声のビデオセグメントを取得し、前記ビデオセグメントに基づいて前記キャラクターが含まれた複数の第1画像フレームを取得することと、
    前記ビデオセグメント中から該当する音声セグメントを抽出し、前記音声セグメントに基づいてサンプル音素シーケンスを取得し、前記サンプル音素シーケンスに対して特徴エンコーディングを実行することと、
    前記第1画像フレームに対応する少なくとも1つの音素の特徴コードを取得することと、
    前記第1画像フレームを前記インタラクティブ対象が含まれた第2画像フレームに変換し、前記第2画像フレームに対応する少なくとも1つの局部領域の姿態制御ベクトル値を取得することと、
    前記姿態制御ベクトル値に基づいて、前記第1画像フレームに対応する前記特徴コードをレーベリングして、前記特徴コードサンプルを得ることと、をさらに含む
    ことを特徴とする請求項9に記載のインタラクティブ対象の駆動方法。
  11. 前記特徴コードサンプルに基づいて初期リカレントニューラルネットワークを訓練し、ネットワーク損失の変化が収束条件を満たす後に、前記リカレントニューラルネットワークを訓練して得ることをさらに含み、
    ここで、前記ネットワーク損失は、前記リカレントニューラルネットワークが予測して得た前記少なくとも1つの局部領域の前記姿態制御ベクトル値と、レーベリングした前記姿態制御ベクトル値と、の間の差異を含む
    ことを特徴とする請求項10に記載のインタラクティブ対象の駆動方法。
  12. インタラクティブ対象の駆動装置であって、
    テキストデータに対応する音素シーケンスを取得するための第1取得ユニットと、
    前記音素シーケンスにマッチングするインタラクティブ対象の少なくとも1つの局部領域の制御パラメータ値を取得するための第2取得ユニットと、
    取得した前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御するための駆動ユニットと、を備える
    ことを特徴とするインタラクティブ対象の駆動装置。
  13. 前記テキストデータに基づいて前記インタラクティブ対象を展示する表示デバイスがテキストを展示するように制御し、および/または、前記テキストデータに対応する音素シーケンスに基づいて前記表示デバイスが音声を出力するように制御するための出力ユニットを、さらに備える
    ことを特徴とする請求項12に記載のインタラクティブ対象の駆動装置。
  14. 前記第2取得ユニットは、
    前記音素シーケンスに対して特徴コードを実行して、前記音素シーケンスに対応する第1コードシーケンスを得、
    前記第1コードシーケンスに基づいて少なくとも1つの音素に対応する特徴コードを取得し、
    前記特徴コードに対応する前記インタラクティブ対象の少なくとも1つの局部領域の姿態制御ベクトルを取得し、
    ここで、前記音素シーケンスに対して特徴コードを実行して、前記音素シーケンスに対応する第1コードシーケンスを得ることは、
    前記音素シーケンスに含まれている複数種類の音素の中の各々の音素に対して、前記音素に対応するサブコードシーケンスを生成することと、
    前記複数種類の音素にそれぞれ対応するサブコードシーケンスに基づいて、前記音素シーケンスに対応する第1コードシーケンスを得ることと、を含む
    ことを特徴とする請求項12または13に記載のインタラクティブ対象の駆動装置。
  15. 前記第1コードシーケンスに基づいて少なくとも1つの音素に対応する特徴コードを取得するときに、
    前記第2取得ユニットは、
    所定の長さの時間ウィンドウおよび所定のステップサイズで、前記コードシーケンスに対してウィンドウスライディングを実行し、前記時間ウィンドウ内の特徴コードを対応する前記少なくとも1つの音素の特徴コードとして設定し、前記ウィンドウスライディングを実行して得られた複数の特徴コードに基づいて、第2コードシーケンスを得、
    前記駆動ユニットは、
    前記第2コードシーケンスに対応する姿態制御ベクトルのシーケンスを取得し、
    前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象の姿態を制御する
    ことを特徴とする請求項14に記載のインタラクティブ対象の駆動装置。
  16. 前記音素シーケンス中の前記音素間の時間間隔が所定の閾値よりも大きい場合、前記局部領域の所定の制御パラメータ値に基づいて、前記インタラクティブ対象の姿態を制御するための停頓駆動ユニットをさらに備える
    ことを特徴とする請求項12から15のいずれか1項に記載のインタラクティブ対象の駆動装置。
  17. 前記特徴コードに対応する前記インタラクティブ対象の少なくとも1つの局部領域の姿態制御ベクトルを取得するときに、
    前記第2取得ユニットは、前記特徴コードを事前に訓練されたリカレントニューラルネットワークに入力して、前記特徴コードに対応する前記インタラクティブ対象の少なくとも1つの局部領域の前記姿態制御ベクトルを得る
    ことを特徴とする請求項14に記載のインタラクティブ対象の駆動装置。
  18. サンプル取得ユニットをさらに備え、
    当該サンプル取得ユニットは、
    キャラクターが発した音声のビデオセグメントを取得し、前記ビデオセグメントに基づいて前記キャラクターが含まれた複数の第1画像フレームを取得し、
    前記ビデオセグメント中から該当する音声セグメントを抽出し、前記音声セグメントに基づいてサンプル音素シーケンスを取得し、前記サンプル音素シーケンスに対して特徴コードを実行し、
    前記第1画像フレームに対応する少なくとも1つの音素の特徴コードを取得し、
    前記第1画像フレームを前記インタラクティブ対象が含まれた第2画像フレームに変換し、前記第2画像フレームに対応する少なくとも1つの局部領域の姿態制御ベクトル値を取得し、
    前記姿態制御ベクトル値に基づいて、前記第1画像フレームに対応する前記特徴コードをレーベリングして、前記特徴コードサンプルを得る
    前記インタラクティブ対象の駆動装置は、前記特徴コードサンプルに基づいて初期リカレントニューラルネットワークを訓練し、ネットワーク損失の変化が収束条件を満たす後に、前記リカレントニューラルネットワークを訓練して得るための訓練ユニットをさらに備え、
    ここで、前記ネットワーク損失は、前記リカレントニューラルネットワークが予測して得た前記少なくとも1つの局部領域の前記姿態制御ベクトル値と、レーベリングした前記姿態制御ベクトル値と、の間の差異を含む
    ことを特徴とする請求項17に記載のインタラクティブ対象の駆動装置。
  19. 電子デバイスであって、
    メモリとプロセッサとを備え、
    前記メモリは、プロセッサ上で運行可能なコンピュータ命令を記憶し、
    前記プロセッサは、前記コンピュータ命令が実行されるときに、請求項1から11のいずれか1項に記載の方法を実行する
    ことを特徴とする電子デバイス。
  20. コンピュータプログラムが記憶されているコンピュータ可読記録媒体であって、
    前記コンピュータプログラムがプロセッサによって実行されるときに、請求項1から11中のいずれか1項に記載の方法が実現される
    ことを特徴とするコンピュータ可読記録媒体。
JP2021549562A 2020-03-31 2020-11-18 インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体 Pending JP2022530935A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010245802.4A CN111460785B (zh) 2020-03-31 2020-03-31 交互对象的驱动方法、装置、设备以及存储介质
CN202010245802.4 2020-03-31
PCT/CN2020/129793 WO2021196644A1 (zh) 2020-03-31 2020-11-18 交互对象的驱动方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
JP2022530935A true JP2022530935A (ja) 2022-07-05

Family

ID=71683475

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021549562A Pending JP2022530935A (ja) 2020-03-31 2020-11-18 インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体

Country Status (6)

Country Link
JP (1) JP2022530935A (ja)
KR (1) KR20210124307A (ja)
CN (1) CN111460785B (ja)
SG (1) SG11202111909QA (ja)
TW (1) TW202138992A (ja)
WO (1) WO2021196644A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460785B (zh) * 2020-03-31 2023-02-28 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN111459450A (zh) * 2020-03-31 2020-07-28 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN115409920A (zh) * 2022-08-30 2022-11-29 重庆爱车天下科技有限公司 一种虚拟对象唇形驱动系统
KR102601159B1 (ko) * 2022-09-30 2023-11-13 주식회사 아리아스튜디오 버추얼 휴먼 인터렉션 생성 장치 및 그에 대한 방법
CN115662388A (zh) * 2022-10-27 2023-01-31 维沃移动通信有限公司 虚拟形象面部驱动方法、装置、电子设备及介质
CN116524896A (zh) * 2023-04-24 2023-08-01 北京邮电大学 一种基于发音生理建模的发音反演方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058908A (ja) * 2001-08-10 2003-02-28 Minolta Co Ltd 顔画像制御方法および装置、コンピュータプログラム、および記録媒体
JP2015038725A (ja) * 2013-07-18 2015-02-26 国立大学法人北陸先端科学技術大学院大学 発話アニメーション生成装置、方法、及びプログラム
JP2015148932A (ja) * 2014-02-06 2015-08-20 Psソリューションズ株式会社 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609969B (zh) * 2012-02-17 2013-08-07 上海交通大学 基于汉语文本驱动的人脸语音同步动画的处理方法
JP2015166890A (ja) * 2014-03-03 2015-09-24 ソニー株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
CN106056989B (zh) * 2016-06-23 2018-10-16 广东小天才科技有限公司 一种语言学习方法及装置、终端设备
CN107704169B (zh) * 2017-09-26 2020-11-17 北京光年无限科技有限公司 虚拟人的状态管理方法和系统
CN107891626A (zh) * 2017-11-07 2018-04-10 嘉善中奥复合材料有限公司 电玉粉压片成型系统
CN110876024B (zh) * 2018-08-31 2021-02-12 百度在线网络技术(北京)有限公司 确定虚拟形象唇部动作的方法和装置
CN109377540B (zh) * 2018-09-30 2023-12-19 网易(杭州)网络有限公司 面部动画的合成方法、装置、存储介质、处理器及终端
CN110136698B (zh) * 2019-04-11 2021-09-24 北京百度网讯科技有限公司 用于确定嘴型的方法、装置、设备和存储介质
CN110176284A (zh) * 2019-05-21 2019-08-27 杭州师范大学 一种基于虚拟现实的言语失用症康复训练方法
CN111145322B (zh) * 2019-12-26 2024-01-19 上海浦东发展银行股份有限公司 用于驱动虚拟形象的方法、设备和计算机可读存储介质
CN111460785B (zh) * 2020-03-31 2023-02-28 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN111459452B (zh) * 2020-03-31 2023-07-18 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN111459454B (zh) * 2020-03-31 2021-08-20 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN111459450A (zh) * 2020-03-31 2020-07-28 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058908A (ja) * 2001-08-10 2003-02-28 Minolta Co Ltd 顔画像制御方法および装置、コンピュータプログラム、および記録媒体
JP2015038725A (ja) * 2013-07-18 2015-02-26 国立大学法人北陸先端科学技術大学院大学 発話アニメーション生成装置、方法、及びプログラム
JP2015148932A (ja) * 2014-02-06 2015-08-20 Psソリューションズ株式会社 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
櫻井 隆平: "RNNを用いた音声特徴のみからの表情付きトーキングヘッド自動生成", 第22回 画像センシングシンポジウム SSII2016 [USB] THE 22ND SYMPOSIUM ON SENSING VI, JPN6022041201, 11 July 2016 (2016-07-11), JP, ISSN: 0005047103 *

Also Published As

Publication number Publication date
SG11202111909QA (en) 2021-11-29
TW202138992A (zh) 2021-10-16
WO2021196644A1 (zh) 2021-10-07
CN111460785B (zh) 2023-02-28
CN111460785A (zh) 2020-07-28
KR20210124307A (ko) 2021-10-14

Similar Documents

Publication Publication Date Title
JP2022531057A (ja) インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体
JP2022530935A (ja) インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体
WO2021169431A1 (zh) 交互方法、装置、电子设备以及存储介质
JP2022531072A (ja) インタラクティブ対象の駆動方法、装置、デバイス、及び記憶媒体
WO2021196646A1 (zh) 交互对象的驱动方法、装置、设备以及存储介质
US20230082830A1 (en) Method and apparatus for driving digital human, and electronic device
CN112528936B (zh) 视频序列编排方法、装置、电子设备及存储介质
CN112673400A (zh) 化身动画
WO2022252890A1 (zh) 交互对象驱动和音素处理方法、装置、设备以及存储介质
KR20230075998A (ko) 텍스트 기반 아바타 생성 방법 및 시스템
JP2022531056A (ja) インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体
CN115376487A (zh) 数字人的控制方法、模型训练方法和装置
KR100965622B1 (ko) 감성형 캐릭터 및 애니메이션 생성 방법 및 장치
Gjaci Comunicazione Non Verbale Culturalmente Competente Basata Su Generative Adversarial Networks
JP2023026448A (ja) コミュニケーション支援プログラム、コミュニケーション支援方法、コミュニケーション支援システム、端末装置及び非言語表現プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210823

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210823

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220930

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230426