JP2022530935A

JP2022530935A - インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体

Info

Publication number: JP2022530935A
Application number: JP2021549562A
Authority: JP
Inventors: 文岩 ▲呉▼; 潜溢 ▲呉▼; 晨 ▲錢▼; 晨白
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-03-31
Filing date: 2020-11-18
Publication date: 2022-07-05
Also published as: SG11202111909QA; TW202138992A; WO2021196644A1; CN111460785B; CN111460785A; KR20210124307A

Abstract

インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体を開示し、前記方法は、テキストデータに対応する音素シーケンスを取得することと、前記音素シーケンスにマッチングするインタラクティブ対象の少なくとも１つの局部領域の制御パラメータ値を取得することと、取得した前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することと、を含む。【選択図】図２

Description

本発明は、コンピュータ技術分野に関し、具体的には、インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体に関する。
＜関連出願の相互引用＞
本発明は、出願番号が２０２０１０２４５８０２４であり、出願日が２０２０年３月３１日である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が援用により本願に組み入れられる。

人間とコンピュータの相互作用は、主に、キーストローク、タッチ、および音声によって入力し、表示スクリーンに画像、テキスト、または仮想キャラクターを表示して応答する。現在、仮想キャラクターは主に音声アシスタントに基づいて改善されている。

本発明の実施例は、インタラクティブ対象の駆動の技術的解決策を提供する。

本発明の１態様によると、インタラクティブ対象の駆動方法を提供し、前記方法は、テキストデータに対応する音素シーケンスを取得することと、前記音素シーケンスにマッチングするインタラクティブ対象の少なくとも１つの局部領域の制御パラメータ値を取得することと、取得した前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することと、を含む。

本発明によって提供される任意の実施形態に結合して、前記方法は、前記テキストデータに基づいて前記インタラクティブ対象を展示する表示デバイスがテキストを展示するように制御すること、および／または、前記テキストデータに対応する音素シーケンスに基づいて前記表示デバイスが音声を出力するように制御することを、さらに含む。

本発明によって提供される任意の実施形態に結合して、前記インタラクティブ対象の局部領域の制御パラメータは、前記局部領域の姿態制御ベクトルを含み、前記音素シーケンスにマッチングするインタラクティブ対象の少なくとも１つの局部領域の制御パラメータ値を取得することは、前記音素シーケンスに対して特徴エンコーディングを実行して、前記音素シーケンスに対応する第１コードシーケンスを得ることと、前記第１コードシーケンスに基づいて少なくとも１つの音素に対応する特徴コードを取得することと、前記特徴コードに対応する前記インタラクティブ対象の少なくとも１つの局部領域の姿態制御ベクトルを取得することと、を含む。

本発明によって提供される任意の実施形態に結合して、前記音素シーケンスに対して特徴エンコーディングを実行して、前記音素シーケンスに対応する第１コードシーケンスを得ることは、前記音素シーケンスに含まれている複数種類の音素の中の各々の音素に対して、前記音素に対応するサブコードシーケンスを生成することと、前記複数種類の音素にそれぞれ対応するサブコードシーケンスに基づいて、前記音素シーケンスに対応する第１コードシーケンスを得ることと、を含む。

本発明によって提供される任意の実施形態に結合して、前記音素シーケンスに含まれている複数種類の音素の中の各々の音素に対して、前記音素に対応するサブコードシーケンスを生成することは、各時点に前記音素が対応されているか否かを検出することと、前記音素が対応されている時点のコード値を第１数値として設定し、前記音素が対応されていない時点のコード値を第２数値として設定することによって、前記音素に対応する前記サブコードシーケンスを得ることと、を含む。

本発明によって提供される任意の実施形態に結合して、前記方法は、前記複数種類の音素の中の各々の音素に対応する前記サブコードシーケンスに対して、ガウスフィルターを利用して前記音素の時間における連続値に対してガウス畳み込み操作を実行することをさらに含む。

本発明によって提供される任意の実施形態に結合して、取得した前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することは、前記第２コードシーケンスに対応する姿態制御ベクトルのシーケンスを取得することと、前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象の姿態を制御することと、を含む。

本発明によって提供される任意の実施形態に結合して、前記方法は、前記音素シーケンス中の前記音素間の時間間隔が所定の閾値よりも大きい場合、前記局部領域の所定の制御パラメータ値に基づいて、前記インタラクティブ対象の姿態を制御することをさらに含む。

本発明によって提供される任意の実施形態に結合して、前記特徴コードに対応する前記インタラクティブ対象の少なくとも１つの局部領域の姿態制御ベクトルを取得することは、前記特徴コードを事前に訓練されたリカレントニューラルネットワークに入力して、前記特徴コードに対応する前記インタラクティブ対象の少なくとも１つの局部領域の前記姿態制御ベクトルを得ることを含む。

本発明によって提供される任意の実施形態に結合して、前記リカレントニューラルネットワークは、特徴コードサンプルを利用して訓練して得られたものであり、前記方法は、キャラクターが発した音声のビデオセグメントを取得し、前記ビデオセグメントに基づいて前記キャラクターが含まれた複数の第１画像フレームを取得することと、前記ビデオセグメント中から該当する音声セグメントを抽出し、前記音声セグメントに基づいてサンプル音素シーケンスを取得し、前記サンプル音素シーケンスに対して特徴エンコーディングを実行することと、前記第１画像フレームに対応する少なくとも１つの音素の特徴コードを取得することと、前記第１画像フレームを前記インタラクティブ対象が含まれた第２画像フレームに変換し、前記第２画像フレームに対応する少なくとも１つの局部領域の姿態制御ベクトル値を取得することと、前記姿態制御ベクトル値に基づいて、前記第１画像フレームに対応する前記特徴コードをレーベリングして、前記特徴コードサンプルを得ることと、をさらに含む。

本発明によって提供される任意の実施形態に結合して、前記方法は、前記特徴コードサンプルに基づいて初期リカレントニューラルネットワークを訓練し、ネットワーク損失の変化が収束条件を満たす後に、前記リカレントニューラルネットワークを訓練して得ることをさらに含み、ここで、前記ネットワーク損失は、前記リカレントニューラルネットワークが予測して得た前記少なくとも１つの局部領域の前記姿態制御ベクトル値と、レーベリングした前記姿態制御ベクトル値と、の間の差異を含む。

本発明の１態様によると、インタラクティブ対象の駆動装置を提供し、前記装置は、テキストデータに対応する音素シーケンスを取得するための第１取得ユニットと、前記音素シーケンスにマッチングするインタラクティブ対象の少なくとも１つの局部領域の制御パラメータ値を取得するための第２取得ユニットと、取得した前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御するための駆動ユニットと、を備える。

本発明の１態様によると、電子デバイスを提供し、前記デバイスは、メモリとプロセッサとを備え、前記メモリは、プロセッサ上で運行可能なコンピュータ命令を記憶し、前記プロセッサは、前記コンピュータ命令が実行されるときに、本発明によって提供される任意の実施形態に記載のインタラクティブ対象の駆動方法が実現される。

本発明の１態様によると、コンピュータプログラムが記憶されているコンピュータ可読記録媒体を提供し、前記コンピュータプログラムがプロセッサによって実行されるときに、本発明によって提供される任意の実施形態に記載のインタラクティブ対象の駆動方法が実現される。

本発明の１つまたは複数の実施例のインタラクティブ対象の駆動方法、装置、デバイス、及びコンピュータ可読記録媒体によると、テキストデータに対応する音素シーケンスを取得し、前記音素シーケンスにマッチングするインタラクティブ対象の少なくとも１つの局部領域の制御パラメータ値を取得して、前記インタラクティブ対象の姿態を制御することによって、インタラクティブ対象が、テキストデータに対応する音素にマッチングされる、顔姿態と肢体姿態を含む姿態を、行うようにすることができ、目標対象にインタラクティブ対象がテキスト内容を話している感覚を与え、目標対象のインタラクティブ対象とのインタラクティブ体験を改善した。

以下、本明細書の１つまたは複数の実施例または先行技術での技術的解決策をより明確に説明するために、実施例または先行技術の説明に使用する必要のある図面を簡単に紹介する。明らかに、以下に説明する図面は、本明細書の１つまたは複数の実施例に記載のいくつかの実施例に過ぎず、当業者は創造的な作業なしにこれら図面に基づいて他の図面を得ることができる。
本発明の少なくとも１つの実施例によって提供されるインタラクティブ対象の駆動方法における表示デバイスの模式図である。本発明の少なくとも１つの実施例によって提供されるインタラクティブ対象の駆動方法のフローチャートである。本発明の少なくとも１つの実施例によって提供される音素シーケンスに対して特徴エンコーディングを実行する過程の模式図である。本発明の少なくとも１つの実施例によって提供されるインタラクティブ対象の駆動装置の構成の模式図である。本発明の少なくとも１つの実施例によって提供される電子デバイスの構成の模式図である。

以下、例示的な実施例を詳細に説明し、その例を図面に示す。以下の説明が図面を言及している場合、特に明記しない限り、異なる図面における同一の数字は、同一または類似な要素を示す。以下の例示的な実施例で叙述される実施形態は、本発明と一致するすべての実施形態を代表しない。逆に、それらは、添付された特許請求の範囲に記載された、本発明のいくつかの態様と一致する装置及び方法の例に過ぎない。

本明細書における「および／または」という用語は、ただ関連対象の関連関係を説明するものであり、３つの関係が存在できることを示し、たとえば、Ａおよび／またはＢは、Ａが単独に存在すること、ＡとＢが同時に存在すること、および、Ｂが単独に存在することのような３つの関係が存在する。また、本明細書における「少なくとも１種」という用語は、複数種類の中の任意の１種または複数種類の中の少なくとも２種の任意の組み合わせを示し、たとえば、Ａ、Ｂ、Ｃの中の少なくとも１種を含むことは、Ａ、Ｂ、および、Ｃから構成されたセットから選択した任意の１つまたは複数の要素を含むことを示す。

本発明の少なくとも１つの実施例は、インタラクティブ対象の駆動方法を提供し、前記駆動方法は、端末デバイスまたはサーバなどの電子デバイスによって実行され得る。前記端末デバイスは、携帯電話、タブレットパソコン、ゲーム機、デスクトップパソコン、広告機、オールインワン機、車載端末などの、固定端末または移動端末であり得る。前記サーバは、ローカルサーバまたはクラウドサーバなどを含む。前記方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出す方法によって実現されることができる。

本発明の実施例において、インタラクティブ対象は、目標対象とインタラクティブを実行できる任意の仮想イメージであり得る。１実施例において、インタラクティブ対象は、仮想キャラクターであり得、さらに、仮想動物、仮想物品、漫画イメージなどの、インタラクティブ機能を実現できる他の仮想イメージであり得る。インタラクティブ対象の表示形式は、２Ｄまたは３Ｄであるが、本発明はこれに対して限定しない。前記目標対象は、ユーザ、ロボット、またはその他のスマートデバイスであり得る。前記インタラクティブ対象の前記目標対象とのインタラクティブ方法は、能動的インタラクティブ方法または受動的インタラクティブ方法であり得る。１例において、目標対象により、ジェスチャまたは肢体動作を行うことによって要求を発して、能動的インタラクティブ方法によってインタラクティブ対象をトリガしてインタラクティブを行うことができる。もう１例において、インタラクティブ対象により、能動的に挨拶して、目標対象が動作などを行うようにプロンプトする方法によって、目標対象が受動的方法によってインタラクティブ対象とインタラクティブを行うようにすることができる。

前記インタラクティブ対象は、端末デバイスを利用して展示することができ、前記端末デバイスは、テレビ、表示機能を有するオールインワン器、プロジェクター、仮想現実（ＶｉｒｔｕａｌＲｅａｌｉｔｙ、ＶＲ）デバイス、拡張現実（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ、ＡＲ）デバイスなどであり得、本発明は端末デバイスの具体的な形態に対して限定しない。

図１は、本発明の少なくとも１つの実施例によって提供される表示デバイスを示す。図１に示すように、当該表示デバイスは、透明表示スクリーンを有し、透明表示スクリーンに立体画像を表示することによって、立体効果を有する仮想シーンおよびインタラクティブ対象を現わすことができる。たとえば、図１の透明表示スクリーンに表示されたインタラクティブ対象は、仮想漫画人物を含む。いくつかの実施例において、本発明に記載の端末デバイスは、上記の透明表示スクリーンを有する表示デバイスであってもよく、表示デバイスに、メモリとプロセッサと配置されており、メモリは、プロセッサ上で運行可能なコンピュータ命令を記憶し、前記プロセッサは、前記コンピュータ命令が実行されるときに、本発明によって提供されるインタラクティブ対象の駆動方法を実現することによって、透明表示スクリーンに表示されたインタラクティブ対象を駆動して目標対象と交流または応答を行うようにすることができる。

いくつかの実施例において、インタラクティブ対象が音声を出力するように駆動するための音声駆動データに応答して、インタラクティブ対象は、目標対象に対して指定された音声を発することができる。端末デバイスは、端末デバイスの周辺の目標対象の動作、表情、身分、好みなどに基づいて、音声駆動データを生成することによって、駆動インタラクティブ対象が指定された音声を発して応答するように駆動することで、目標対象に対して擬人化サービスを提供することができる。音声駆動データは、その他の方法によって生成されてもよく、たとえば、サーバによって生成して端末デバイスに送信してもよいことを説明する必要がある。

インタラクティブ対象が目標対象とインタラクティブを行う過程において、当該音声駆動データに基づいてインタラクティブ対象が指定された音声を発するように駆動するときに、前記インタラクティブ対象が当該指定された音声と同期化された顔部の動作を行うように駆動することができなく、インタラクティブ対象が音声を発するときに鈍く不自然になり、目標対象のインタラクティブ対象とのインタラクティブ体験に影響を与える可能性がある。これに鑑みて、本発明の少なくとも１つの実施例は、インタラクティブ対象駆動方法を提出して、目標対象のインタラクティブ対象とのインタラクティブの体験を向上させる。

図２は、本発明の少なくとも１つの実施例のインタラクティブ対象の駆動方法を示すフローチャートであり、図２に示すように、前記方法は、ステップ２０１～ステップ２０３を含む。

ステップ２０１において、テキストデータに対応する音素シーケンスを取得する。

前記テキストデータは、前記インタラクティブ対象を駆動するための駆動データであり得る。当該駆動データは、サーバまたは端末デバイスによりインタラクティブ対象とインタラクティブを実行する目標対象の動作、表情、身分、好みなどに基づいて生成した駆動データであってもよいし、端末デバイスにより内部メモリから呼び出した音声駆動データであってもよい。本発明は、当該音声駆動データの取得方法に対して限定しない。

本発明の実施例において、テキストに含まれている形態素に基づいて、前記形態素に対応する音素を得て、テキストに対応する音素シーケンスを得ることができる。ここで、音素は、音声の自然な属性に基づいて分割された最小の音声単位であり、実在の人物の１つの発音動作が１つの音素を形成することができる。

１実施例において、前記テキストが中国語テキストであることに応答して、中国語テキストをピンインに変換し、ピンインを利用して音素シーケンスを生成し、各々の音素のタイムスタンプを生成することができる。

ステップ２０２において、前記音素シーケンスにマッチングする、インタラクティブ対象の少なくとも１つの局部領域の制御パラメータ値を、取得する。

前記局部領域は、インタラクティブ対象の全体（顔および／または体を含む）を分割して得られたものである。顔の１つまたは複数の局部領域の制御は、インタラクティブ対象の一連の顔表情または動作に対応され得る。たとえば、目部領域の制御は、インタラクティブ対象の開目、閉目、ウィンク、視角変換などの顔動作に対応され得る。また、たとえば、口部領域の制御は、インタラクティブ対象の閉口、異なる程度の開口などの顔動作に対応され得る。体のその中の１つまたは複数の局部領域の制御は、インタラクティブ対象の一連の肢体動作に対応され得る。たとえば、足部領域の制御は、インタラクティブ対象歩行、ジャンプ、蹴りなどの動作に対応され得る。

前記インタラクティブ対象の局部領域の制御パラメータは、前記局部領域の姿態制御ベクトルを含む。各々の局部領域の姿態制御ベクトルは、前記インタラクティブ対象の前記局部領域の動作を駆動するために使用される。異なる姿態制御ベクトル値は、異なる動作または動作振幅に対応される。たとえば、口部領域の姿態制御ベクトルの場合、その１組の姿態制御ベクトル値は、前記インタラクティブ対象が口部をわずかに開くようにすることができ、もう１組の姿態制御ベクトル値は、前記インタラクティブ対象が口部を大きく開くようにすることができる。異なる姿態制御ベクトル値で前記インタラクティブ対象を駆動することによって、該当する局部領域が異なる動作または異なる振幅の動作を行うようにすることができる。

局部領域は、制御する必要があるインタラクティブ対象の動作に基づいて選択することができ、たとえば、前記インタラクティブ対象顔と肢体が同時に動作を行う制御する必要がある場合には、全ての局部領域の姿態制御ベクトル値を取得することができ、前記インタラクティブ対象の表情を制御する必要がある場合には、前記顔に対応する局部領域の姿態制御ベクトル値を取得することができる。

本発明の実施例において、前記音素シーケンスに対して特徴エンコーディングを実行して、特徴コードに対応する制御パラメータ値を確定することによって、前記音素シーケンスに対応する制御パラメータ値を確定することができる。異なるエンコーディング方法は、前記音素シーケンスの異なる特徴を表現することができる。本発明は、具体的なエンコーディング方法に対して限定しない。

本発明の実施例において、前記テキストデータに対応する音素シーケンスの特徴コードとインタラクティブ対象の制御パラメータ値との対応関係を事前に構築することができる。したがって、テキストデータに基づいて対応する制御パラメータ値を得ることができる。前記テキストデータの音素シーケンスの特徴コードにマッチングする制御パラメータ値を取得する具体的な方法は、後で詳細に説明する。

ステップ２０３において、取得した前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御する。

前記制御パラメータ値、たとえば姿態制御ベクトル値は、前記テキストデータに含まれている音素シーケンスにマッチングされる。たとえば、前記テキストデータに基づいて前記インタラクティブ対象を展示する表示デバイスがテキストを展示するように制御し、および／または、前記テキストデータに対応する音素シーケンスに基づいて前記表示デバイスが音声を出力するように制御する場合、インタラクティブ対象が行った姿態と、出力した音声および／または展示したテキストとが、同期化され、したがって、目標対象に前記インタラクティブ対象が話しているような感覚を与える。

本発明の実施例において、テキストデータに対応する音素シーケンスを取得し、前記音素シーケンスにマッチングするインタラクティブ対象の少なくとも１つの局部領域の制御パラメータ値を取得して、前記インタラクティブ対象の姿態を制御することによって、インタラクティブ対象が、テキストデータに対応する音素にマッチングされる、顔姿態と肢体姿態を含む姿態を、行うようにすることができ、目標対象にインタラクティブ対象がテキスト内容を話している感覚を与え、目標対象のインタラクティブ体験を改善した。

いくつかの実施例において、前記方法は、サーバに適用され、当該サーバは、ローカルサーバまたはクラウドサーバなどを含む。前記サーバは、テキストデータを処理して、前記インタラクティブ対象の制御パラメータ値を生成し、前記制御パラメータ値に基づいて３次元レンダリングエンジンを利用してレンダリングして、前記インタラクティブ対象の動画を得る。前記サーバは、前記動画を端末に送信して展示することによって、目標対象と交流または応答を実行することができ、さらに、前記動画をクラウドに送信することによって、端末がクラウドから前記動画を取得して目標対象と交流または応答を実行することができる。サーバが前記インタラクティブ対象の制御パラメータ値を生成した後に、さらに、前記制御パラメータ値を端末に送信することによって、端末が、レンダリングの実行、動画の生成、展示の実行などの過程を完了するようにする。

いくつかの実施例において、前記方法は、端末に適用され、前記端末は、テキストデータを処理して、前記インタラクティブ対象の制御パラメータ値を生成し、前記制御パラメータ値に基づいて３次元レンダリングエンジンを利用してレンダリングして、前記インタラクティブ対象の動画を得る、前記端末は、前記動画を展示することによって目標対象と交流または応答を実行することができる。

いくつかの実施例において、前記テキストデータに基づいて前記インタラクティブ対象を展示する表示デバイスがテキストを展示するように制御し、および／または、前記テキストデータに対応する音素シーケンスに基づいて前記表示デバイスが音声を出力するように制御することができる。

本発明の実施例において、前記制御パラメータ値と前記テキストデータの音素シーケンスとがマッチングされるため、前記テキストデータに基づいて出力した音声および／またはテキストと、前記制御パラメータ値に基づいて制御したインタラクティブ対象の姿態とが、同期化される場合、インタラクティブ対象が行った姿態と、出力した音声および／または展示したテキストとが、同期化され、目標対象に前記インタラクティブ対象と話している感覚を与える。

いくつかの実施例において、前記インタラクティブ対象の少なくとも１つの局部領域の制御パラメータは、姿態制御ベクトルを含み、前記姿態制御ベクトルは、以下の方法によって得ることができる。

まず、前記音素シーケンスに対して特徴エンコーディングを実行して、前記音素シーケンスに対応するコードシーケンスを得る。後続に言及するコードシーケンスと区分するために、前記テキストデータの音素シーケンスに対応するコードシーケンスを第１コードシーケンスと呼ぶ。前記音素シーケンスに対して特徴エンコーディングを実行して、第１コードシーケンスを得る。

前記音素シーケンスに含まれている複数種類の音素に対して、各々の音素に対応するサブコードシーケンスを生成する。

１例において、各時点に第１音素が対応されているか否かを検出し、前記第１音素は、前記複数種類の音素の中の任意の１つである。前記第１音素が対応されている時点のコード値を第１数値として設定し、前記第１音素が対応されていない時点のコード値を第２数値として設定することによって、各々の時点のコード値に対して値を割り当てた後に、第１音素に対応するコードシーケンスを得ることができる。たとえば、前記第１音素が対応されている時点のコード値を１に設定し、前記第１音素が対応されていない時点のコード値を０に設定することができる。つまり、前記音素シーケンスに含まれている複数種類の音素の中の各々の音素に対して、各時点に当該音素が対応されているか否かを検出し、前記音素が対応されている時点のコード値を第１数値として設定し、前記音素が対応されていない時点のコード値を第２数値として設定し、各々の時点のコード値に対して値を割り当てた後に、当該音素に対応するコードシーケンスを得ることができる。当業者は、上述したコード値の設定は例に過ぎず、さらに、コード値を他の値に設定してもよく、本発明はこれに対して限定しないことを理解すべきである。

前記複数種類の音素にそれぞれ対応するサブコードシーケンスに基づいて、前記音素シーケンスに対応する第１コードシーケンスを得る。

１例において、第１音素に対応するサブコードシーケンスに対して、ガウスフィルターを利用して前記第１音素の時間における連続値に対してガウス畳み込み操作を実行することによって、特徴コードに対応するマトリックスに対してフィルタリングを実行し、各音素が変換されるときの口部領域の遷移的な動作をスムーズにする。

図３は、本発明の少なくとも１つの実施例によって提供されるインタラクティブ対象の駆動方法を示す模式図である。図３に示すように、音素シーケンス３１０は、音素ｊ、ｉ、ｊ、ｉｅ４（簡素化のために、一部の音素のみを示す）を含み、各々の音素ｊ、ｉ、ｉｅ４に対してそれぞれ対応するサブコードシーケンス３２１、３２２、３２３を得る。各々のサブコードシーケンスにおいて、前記音素が対応されている時点に対応するコード値を第１数値として設定し（たとえば１に設定する）、前記音素が対応されていない時点に対応するコード値を第２数値として設定する（たとえば０に設定する）。サブコードシーケンス３２１の例をとると、音素シーケンス３１０において音素ｊがいる時点で、サブコードシーケンス３２１の値が第１数値である１であり、音素ｊがない時点で、サブコードシーケンス３２１の値が第２数値である０である。すべてのサブコードシーケンスによって完全な第１コードシーケンス３２０が構成される。

続いて、前記第１コードシーケンスに基づいて少なくとも１つの音素に対応する特徴コードを取得。

音素ｊ、ｉ、ｉｅ４にそれぞれ対応するサブコードシーケンス３２１、３２２、３２３のコード値、および、当該３つのサブコードシーケンス中に対応する音素の時間長さに基づいて、つまり、サブコードシーケンス３２１におけるｊの時間長さ、サブコードシーケンス３２２におけるｉ１の時間長さ、および、サブコードシーケンス３２３におけるｉｅ４の時間長さに基づいて、サブコードシーケンス３２１、３２２、３２３の特徴情報を得ることができる。

１例において、ガウスフィルターを利用してそれぞれサブコードシーケンス３２１、３２２、３２３中の音素ｊ、ｉ、ｉｅ４の時間における連続値を利用して、ガウス畳み込み操作を実行して、特徴コードをスムーズにして、スムーズにした後の第１コードシーケンス３３０を得ることができる。つまり、ガウスフィルターを利用して音素の時間における連続値ガウスに対して畳み込み操作を実行することによって、各々のコードシーケンス中のコード値が第２数値から第１数値または第１数値から第２数値への変化の段階がスムーズになるようにする。たとえば、コードシーケンスの値は、０と１に加えて、中間状態の値であってもよく、たとえば０．２、０．３などであり得る。これら中間状態の値に基づいて取得した姿態制御ベクトルは、インタラクティブ人物の動作の遷移および表情の変化をよりスムーズで自然になるようにして、目標対象のインタラクティブ体験を改善した。

いくつかの実施例において、前記第１コードシーケンス上でウィンドウスライディングを実行する方法によって、少なくとも１つの音素に対応する特徴コードを取得することができる。ここで、前記第１コードシーケンスは、ガウス畳み込み操作を通じた後のコードシーケンスであり得る。

所定の長さの時間ウィンドウおよび所定のステップサイズで、前記コードシーケンスに対してウィンドウスライディングを実行し、前記時間ウィンドウ内の特徴コードを対応する少なくとも１つの音素の特徴コードとして設定し、ウィンドウスライディングが完了した後に、得られた複数の特徴コードに基づいて第２コードシーケンスを得ることができる。各音素の時間長さが異なり、また、各音素の持続時間と時間ウィンドウの長さの比率も異なるため、時間ウィンドウ内の特徴コードに対応する音素数は時間ウィンドウの位置に基づいて１、２またはそれいじょうになる可能性がある。図３に示すように、第１コードシーケンス３２０またはスムーズした後の第１コードシーケンス３３０上で、所定の長さの時間ウィンドウをスライディングして、特徴コード１、特徴コード２、および、特徴コード３をそれぞれ得ることができ、以下同様である。第１コードシーケンスをトラバースした後、特徴コード１、特徴コード２、特徴コード３、…、特徴コードＭを得ることによって、第２コードシーケンス３４０を得る。ここで、Ｍは正の整数であり、その数値は、第１コードシーケンスの長さ、時間ウィンドウの長さ、および、時間ウィンドウをスライディングするステップサイズに応じて決定される。

最後に、前記特徴コードに対応する前記インタラクティブ対象の少なくとも１つの局部領域の姿態制御ベクトルを取得する。

特徴コード１、特徴コード２、特徴コード３、…、特徴コードＭに基づいて、該当する姿態制御ベクトル１、姿態制御ベクトル２、姿態制御ベクトル３、…、姿態制御ベクトルＭをそれぞれ得ることができ、したがって、姿態制御ベクトルのシーケンス３５０を得る。

姿態制御ベクトルのシーケンス３５０と第２コードシーケンス３４０とは、時間的に整列される。前記第２コードシーケンス中の各々の特徴コードが音素シーケンス中の少なくとも１つの音素に基づいて得たものであるため、姿態制御ベクトルのシーケンス３５０中の各々の制御ベクトルも同様に音素シーケンス中の少なくとも１つの音素に基づいて得たものである。テキストデータに対応する音素シーケンスを再生する同時に、前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象が動作を行うように駆動すると、駆動インタラクティブ対象がテキスト内容に対応する音声を発するようにする同時に、音声に同期化された動作を行うようにすることができ、目標対象に前記インタラクティブ対象と話している感覚を与える、目標対象のインタラクティブ体験を改善した。

１番目の時間ウィンドウの所定のタイミングから特徴コードを出力し始めると仮定すると、前記所定のタイミングの前の姿態制御ベクトル値をデフォルト値に設定することができ、つまり、音素シーケンスを最初に再生するときに、前記インタラクティブ対象がデフォルトの動作を行うようにし、前記所定のタイミングの後で第１コードシーケンスに基づいて得られた姿態制御ベクトルのシーケンスを利用して前記インタラクティブ対象が動作を行うように駆動し始める。図３を例にとると、ｔ０のタイミングで特徴コード１を出力し始め、ｔ０のタイミングの前に対応するのはデフォルトの姿態制御ベクトルである。

前記時間ウィンドウの長さは、前記特徴コードに含まれている情報の量に関連している。時間ウィンドウに含まれている情報の量がより大きい場合、前記リカレントニューラルネットワーク処理を通じてより均一な結果を出力することになる。時間ウィンドウの長さが大き過ぎると、インタラクティブ対象が話すときの表情が一部の文字に対応できなくなる。時間ウィンドウの長さが小さ過ぎると、インタラクティブ対象が話すときの表情が硬く見えるようになる。したがって、時間ウィンドウの時間長さは、テキストデータに対応する音素が持続する最小時間によって確定することによって、前記インタラクティブ対象を駆動して行った動作が音声とより強い関連性を有するようにする。

時間ウィンドウをスライディングするステップサイズは、姿態制御ベクトルを取得する時間間隔（頻度）に関連しており、つまり、駆動インタラクティブ対象が動作を行う頻度に関連している。実際のインタラクティブのシーンに応じて、前記時間ウィンドウの長さおよびステップサイズを設定することによって、インタラクティブ対象が行う表情および動作と音声との関連性がより強くて、また、より鮮やで自然になるようにする。

いくつかの実施例において、前記音素シーケンス中の音素間の時間間隔が所定の閾値よりも大きい場合、前記局部領域の所定の姿態制御ベクトルに基づいて、前記インタラクティブ対象が動作を行うように駆動する。つまり、インタラクティブ人物の発話の停頓がより長いと、前記インタラクティブ対象が所定の動作を行うように駆動する。たとえば、出力する音声の停頓がより長いときに、インタラクティブ対象が微笑の表情を行うか、または体を少し振るようにすることによって、停頓がより長いときにインタラクティブ対象が表情なしで直立していることを回避し、インタラクティブ対象が発話する過程がより自然でスムーズになるようにし、目標対象のインタラクティブ対象とのインタラクティブエクスペリエンスを改善した。

いくつかの実施例において、前記特徴コードを事前に訓練されたリカレントニューラルネットワークに入力することによって、前記リカレントニューラルネットワークが前記第１コードシーケンスに基づいて前記特徴コードに対応する前記インタラクティブ対象の少なくとも１つの局部領域の姿態制御ベクトルを出力するようにすることができる。前記リカレントニューラルネットワークは、時間リカレントニューラルネットワークであり、入力した特徴コードの履歴情報を学習することができ、前記特徴コードシーケンスに基づいて前記少なくとも１つの局部領域の姿態制御ベクトルを出力する。ここで、前記特徴コードシーケンスは、第１コードシーケンスおよび第２コードシーケンスを含む。前記リカレントニューラルネットワークは、たとえば長短期記憶ネットワーク（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ、ＬＳＴＭ）であり得る。

本発明の実施例において、事前に訓練されたリカレントニューラルネットワークを利用して前記特徴コードに対応する前記インタラクティブ対象の少なくとも１つの局部領域の姿態制御ベクトルを取得し、特徴コードの履歴特徴情報と現在特徴情報とを融合することによって、履歴姿態制御ベクトルが現在姿態制御ベクトルの変化に対して影響を与えるようにし、インタラクティブ人物の表情変化および肢体動作がよりスムーズで自然になるようにする。

いくつかの実施例において、以下の方法によって、前記リカレントニューラルネットワークを訓練することができる。

まず、特徴コードサンプルを取得し、ここで、前記特徴コードサンプルには実在の値がレーベリングされており、前記実在の値は、前記インタラクティブ対象の少なくとも１つの局部領域の姿態制御ベクトル値である。

特徴コードサンプルを得た後に、前記特徴コードサンプルに基づいて初期リカレントニューラルネットワークを訓練し、ネットワーク損失の変化が収束条件を満たす後に、前記リカレントニューラルネットワークを訓練して得、ここで、前記ネットワーク損失は、前記リカレントニューラルネットワークが予測して得た前記少なくとも１つの局部領域の姿態制御ベクトル値と前記実在の値との間の差異を含む。

いくつかの実施例において、以下の方法によって、特徴コードサンプルを取得することができる。

まず、キャラクターが発した音声のビデオセグメントを取得し、前記ビデオセグメントに基づいて前記キャラクターが含まれた複数の第１画像フレームを取得する。たとえば、実在の人物が話しているビデオセグメントを取得することができる。

続いて、前記ビデオセグメント中から該当する音声セグメントを抽出し、前記音声セグメントに基づいてサンプル音素シーケンスを取得し、前記サンプル音素シーケンスに対して特徴エンコーディングを実行する。ここで、前記サンプル音素シーケンスに対してエンコーディングを実行する方法は、上述したテキストデータに対応する音素シーケンスのエンコーディング方法と同様である。

前記サンプル音素シーケンスに対して特徴エンコーディングを実行して得られたサンプルコードシーケンスに基づいて、前記第１画像フレームに対応する少なくとも１つの音素の特徴コードを取得する。ここで、前記少なくとも１つの音素は、前記第１画像フレームの出現時間の所定の範囲内の音素であり得る。

次に、前記第１画像フレームを前記インタラクティブ対象が含まれた第２画像フレームに変換し、前記第２画像フレームに対応する少なくとも１つの局部領域の姿態制御ベクトル値を取得する。ここで、当該姿態制御ベクトル値は、すべての局部領域の姿態制御ベクトル値を含んでもよいし、その中の一部の局部領域の姿態制御ベクトル値を含んでもよい。

前記第１画像フレームが実在の人物が含まれた画像フレームである例をとると、当該実在の人物の画像フレームを、インタラクティブ対象が示すイメージを含む第２画像フレームに変換することができ、ここで、前記実在の人物の各々の局部領域の姿態制御ベクトルと前記インタラクティブ対象の各々の局部領域の姿態制御ベクトルとが対応されるため、第２画像フレーム内のインタラクティブ対象の各々の局部領域の姿態制御ベクトルを取得することができる。

最後に、前記姿態制御ベクトル値に基づいて、上述の得られた前記第１画像フレームに対応する少なくとも１つの音素の特徴コードをレーベリングして、特徴コードサンプルを得る。

本発明の実施例において、キャラクターのビデオセグメントを対応する複数の第１画像フレームと音声セグメントに分割し、また、実在の人物が含まれた第１画像フレームをインタラクティブ対象が含まれた第２画像フレームに変換して、音素の特徴コードに対応する姿態制御ベクトルを取得することによって、特徴コードと姿態制御ベクトルとの対応性がより良くなるようにし、高品質の特徴コードサンプルを得て、インタラクティブ対象の動作が対応するキャラクターの実在の動作により近づける。

図４は、本発明の少なくとも１つの実施例に係るインタラクティブ対象の駆動装置の構成を示す模式図であり、図４に示すように、当該装置は、テキストデータに対応する音素シーケンスを取得するための第１取得ユニット４０１と、前記音素シーケンスにマッチングするインタラクティブ対象の少なくとも１つの局部領域の制御パラメータ値を取得するための第２取得ユニット４０２と、取得した前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御するための駆動ユニット４０３と、を備え得る。

いくつかの実施例において、前記装置は、前記テキストデータに基づいて前記インタラクティブ対象を展示する表示デバイスがテキストを展示するように制御し、および／または、前記テキストデータに対応する音素シーケンスに基づいて前記表示デバイスが音声を出力するように制御するための出力ユニットを、さらに備える。

いくつかの実施例において、前記第２取得ユニットは、具体的に、前記音素シーケンスに対して特徴エンコーディングを実行して、前記音素シーケンスに対応する第１コードシーケンスを得、前記第１コードシーケンスに基づいて少なくとも１つの音素に対応する特徴コードを取得し、前記特徴コードに対応する前記インタラクティブ対象の少なくとも１つの局部領域の姿態制御ベクトルを取得する。

いくつかの実施例において、前記音素シーケンスに対して特徴エンコーディングを実行して、前記音素シーケンスに対応する第１コードシーケンスを得るときに、前記第２取得ユニットは、具体的に、前記音素シーケンスに含まれている複数種類の音素に対して、各々の音素に対応するサブコードシーケンスを生成し、前記複数種類の音素にそれぞれ対応するサブコードシーケンスに基づいて、前記音素シーケンスに対応する第１コードシーケンスを得る。

いくつかの実施例において、前記音素シーケンスに含まれている複数種類の音素に対して、各々の音素に対応するサブコードシーケンスを生成するときに、前記第２取得ユニットは、具体的に、各時点に第１音素が対応されているか否かを検出し、前記第１音素は、前記複数種類の音素の中の任意の１つである。前記第１音素が対応されている時点のコード値を第１数値として設定し、前記第１音素が対応されていない時点のコード値を第２数値として設定することによって、前記第１音素に対応するサブコードシーケンスを得る。

いくつかの実施例において、前記装置は、前記複数種類の音素の中の各々の音素に対応する前記サブコードシーケンスに対して、ガウスフィルターを利用して前記音素の時間における連続値に対してガウス畳み込み操作を実行するためのフィルタリングユニットをさらに備える。１実施例において、第１音素に対応するサブコードシーケンスに対して、ガウスフィルターを利用して前記第１音素の時間における連続値に対してガウス畳み込み操作を実行し、ここで、前記第１音素は、前記複数種類の音素の中の任意の１つである。

いくつかの実施例において、前記第１コードシーケンスに基づいて少なくとも１つの音素に対応する特徴コードを取得するときに、前記第２取得ユニットは、具体的に、所定の長さの時間ウィンドウおよび所定のステップサイズで、前記コードシーケンスに対してウィンドウスライディングを実行し、前記時間ウィンドウ内の特徴コードを対応する少なくとも１つの音素の特徴コードとして設定し、ウィンドウスライディングを実行して得られた複数の特徴コードに基づいて、第２コードシーケンスを得る。

いくつかの実施例において、前記駆動ユニットは、具体的に、前記第２コードシーケンスに対応する姿態制御ベクトルのシーケンスを取得し、前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象の姿態を制御する。

いくつかの実施例において、前記装置は、前記音素シーケンス中の音素間の時間間隔が所定の閾値よりも大きい場合、前記局部領域の所定の制御パラメータ値に基づいて、前記インタラクティブ対象の姿態を制御するための停頓駆動ユニットをさらに備える。

いくつかの実施例において、前記特徴コードに対応する前記インタラクティブ対象の少なくとも１つの局部領域の姿態制御ベクトルを取得するときに、前記第２取得ユニットは、具体的に、前記特徴コードを事前に訓練されたリカレントニューラルネットワークに入力して、前記特徴コードに対応する前記インタラクティブ対象の少なくとも１つの局部領域の姿態制御ベクトルを得る。

いくつかの実施例において、前記ニューラルネットワークは、音素シーケンスサンプルを利用して訓練して得られたものであり、前記装置は、キャラクターが発した音声のビデオセグメントを取得し、前記ビデオセグメントに基づいて前記キャラクターが含まれた複数の第１画像フレームを取得し、前記ビデオセグメント中から該当する音声セグメントを抽出し、前記音声セグメントに基づいてサンプル音素シーケンスを取得し、前記サンプル音素シーケンスに対して特徴エンコーディングを実行し、前記第１画像フレームに対応する少なくとも１つの音素の特徴コードを取得し、前記第１画像フレームを前記インタラクティブ対象が含まれた第２画像フレームに変換し、前記第２画像フレームに対応する少なくとも１つの局部領域の姿態制御ベクトル値を取得し、前記姿態制御ベクトル値に基づいて、前記第１画像フレームに対応する特徴コードをレーベリングして、特徴コードサンプルを得るためのサンプル取得ユニットをさらに備える。

いくつかの実施例において、前記装置は、前記特徴コードサンプルに基づいて初期リカレントニューラルネットワークを訓練し、ネットワーク損失の変化が収束条件を満たす後に、前記リカレントニューラルネットワークを訓練して得るための訓練ユニットをさらに備え、ここで、前記ネットワーク損失は、前記リカレントニューラルネットワークが予測して得た前記少なくとも１つの局部領域の姿態制御ベクトル値とレーベリングした姿態制御ベクトル値との間の差異を含む。

本明細書の少なくとも１つの実施例は、電子デバイスをさらに提供し、図５に示すように、前記デバイスは、メモリとプロセッサとを備え、メモリは、プロセッサ上で運行可能なコンピュータ命令を記憶し、プロセッサは、前記コンピュータ命令が実行されるときに、本発明の任意の実施例に記載のインタラクティブ対象の駆動方法を実現する。

本明細書の少なくとも１つの実施例は、コンピュータプログラムが記憶されているコンピュータ可読記録媒体をさらに提供し、前記プログラムがプロセッサによって実行されるときに、本発明の任意の実施例に記載のインタラクティブ対象の駆動方法を実現する。

当業者は、本発明の１つまたは複数の実施例は、方法、システム、または、コンピュータプログラム製品として提供することができることを了解すべきである。したがって、本発明の１つまたは複数の実施例は、完全なハードウェアの実施例、完全なソフトウェアの実施例、または、ソフトウェアとハードウェアを組み合わせた実施例の形式を使用することができる。また、本発明の１つまたは複数の実施例は、コンピュータ利用可能なプログラムコードを含む１つまたは複数のコンピュータ利用可能な記録媒体（ディスクメモリ、ＣＤ－ＲＯＭ、光学メモリなどを含むが、これらに限定されない）上で実施されるコンピュータプログラム製品の形式を使用することができる。

本発明における各実施例は、いずれも、漸進的な方法を使用して叙述され、各実施例同士の間の同一または類似な一部は互いに参照することができ、各々の実施例では他の実施例との異なるところに焦点を合わせて説明した。特に、データ処理デバイスの実施例の場合、基本的に方法の実施例と類似であるため、比較的に的に簡単に叙述したが、関連するところは方法の実施例の一部の説明を参照すればよい。

上記で本発明の特定の実施例を叙述した。他の実施例は、添付する「特許請求の範囲」の範囲内にいる。いくつかの場合、特許請求の範囲に記載の行為またはステップは、実施例と異なる順序に従って実行されることができ、このときにも依然として期待する結果が実現されることができる。また、図面で描かれた過程は、期待する結果するために、必ずとしても、示された特定の順序または連続的な順序を必要としない。いくつかの実施形態において、マルチタスク処理および並列処理も可能であるか、または、有益であり得る。

本発明における主題および機能操作の実施例は、デジタル電子回路、有形コンピュータソフトウェアまたはファームウェア、本発明に開示される構成およびその構造的同等物を含むコンピュータハードウェア、または、それらの１つまたは複数の組み合わせで、実現されることができる。本発明における主題の実施例は、１つまたは複数のコンピュータプログラムとして実現されることができ、すなわち、有形の非一時的プログラムキャリア上に符号化されて、データ処理装置によって実行されるか、または、データ処理装置の操作を制御するための、コンピュータプログラム命令中の１つまたは複数のモジュールとして実現されることができる。代替的または追加的に、プログラム命令は、手動で生成する伝播信号上に符号化されることができ、例えば、機械が生成する電気信号、光信号、または、電磁信号に符号化されることができる。当該信号は、情報を符号化して適切な受信機装置に伝送して、データ処理装置によって実行されるようにするために、生成される。コンピュータ記録媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムにまたはシリアルアクセスメモリデバイス、または、それらの１つまたは複数の組み合わせであり得る。

本発明における処理と論理フローは、１つまたは複数のコンピュータプログラムを実行する１つまたは複数のプログラム可能なコンピュータによって実行されることができ、入力データに基づいて操作を実行して出力を生成することによって該当する機能を実行する。前記処理と論理フローは、さらに、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（専用集積回路）などの専用論理回路によって実行されることができ、また、装置も専用論理回路として実現されることができる。

コンピュータプログラムの実行に適したコンピュータは、例えば、汎用、および／または、専用マイクロプロセッサ、または、いかなる他の種類の中央処理ユニットを含む。一般的に、中央処理ユニットは、読み取り専用メモリ、および／または、ランダムアクセスメモリから、命令とデータを受信することになる。コンピュータの基本コンポーネントは、命令を実施または実行するための中央処理ユニット、および、命令とデータを記憶するための１つまたは複数のメモリデバイスを含む。一般的に、コンピュータは、磁気ディスク、磁気光学ディスク、または、光学ディスクなどの、データを記憶するための１つまたは複数の大容量記憶デバイスをさらに含むか、または、操作可能に当該大容量記憶デバイスと結合されてデータを受信するかまたはデータを伝送するか、または、その両方を兼有する。しかしながら、コンピュータは、必ずとして、このようなデバイスを有するわけではない。なお、コンピュータは、もう１デバイスに埋め込まれることができ、例えば、携帯電話、パーソナルデジタルアシスタント（ＰＤＡ）、モバイルオーディオまたはビデオおプレーヤー、ゲームコンソール、グローバルポジショニングシステム（ＧＰＳ）レジーバー、または、汎用シリアルバス（ＵＳＢ）フラッシュドライブなどのポータブル記憶デバイスに埋め込まれることができ、これらデバイスはいくつかの例に過ぎない。

コンピュータプログラム命令とデータの記憶に適したコンピュータ可読媒体は、すべての形式の不揮発性メモリ、媒介、および、メモリデバイスを含み、例えば、半導体メモリデバイス（例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、および、フラッシュデバイス）、磁気ディスク（例えば、内部ハードディスクまたは移動可能ディスク）、磁気光学ディスク、および、ＣＤＲＯＭ、および、ＤＶＤ－ＲＯＭディスクを含む。プロセッサとメモリは、専用論理回路によって補完されるかまたは専用論理回路に組み込まれることができる。

本発明は、多くの具体的な実施の細部を含むが、これらを本発明の範囲または保護しようとする範囲を限定するものとして解釈すべきではなく、主に本発明のいくつかの実施例の特徴を叙述するために使用される。本発明の複数の実施例中の特定の特徴は、単一の実施例に組み合わせて実施されることもできる。他方、単一の実施例中の各種の特徴は、複数の実施例で別々に実施されるかまたはいかなる適切なサブ組み合わせで実施されることもできる。なお、特徴が上記のように特定の組み合わせで役割を果たし、また最初からこのように保護すると主張したが、保護すると主張した組み合わせからの１つまたは複数の特徴は、場合によって当該組み合わせから除外されることができ、また保護すると主張した組み合わせはサブ組み合わせまたはサブ組み合わせの変形に向けることができる。

類似的に、図面で特定の順序に従って操作を描いたが、これはこれら操作を示した特定の順序にしたがって実行するかまたは順次に実行するように要求するか、または、例示したすべての操作が実行されることによって期待する結果が実現されると要求することであると理解すべきではない。場合によっては、マルチタスクおよび並列処理が有利である可能性がある。なお、上記の実施例中の各種のシステムモジュールとコンポーネントの分離は、すべての実施例でいずれもこのように分離されなければならないと理解すべきではないし、また、叙述したプログラムコンポーネントとシステムは、一般的に、一緒に単一のソフトウェア製品に統合されるか、または、複数のソフトウェア製品にパッケージされることができることを理解すべきである。

したがって、主題の特定の実施例がすでに叙述された。他の実施例は、添付する「特許請求の範囲」の範囲内にある。場合によっては、特許請求の範囲に記載されている動作は、異なる順序によって実行されても、依然として期待する結果が実現されることができる。なお、図面で描かれた処理は、期待する結果を実現するために、必ずとして、示めされた特定の順序または順次を必要としない。一部の実現において、マルチタスクおよび並列処理が有益である可能性がある。

上記は、本発明のいくつかの実施例に過ぎず、本発明を限定するために使用されるものではない。本発明の精神と原則の範囲内で行われたいかなる修正、同等の置換、改良などは、いずれも本発明の１つまたは複数の実施例の範囲に含まれるべきである。

Claims

インタラクティブ対象の駆動方法であって、
テキストデータに対応する音素シーケンスを取得することと、
前記音素シーケンスにマッチングするインタラクティブ対象の少なくとも１つの局部領域の制御パラメータ値を取得することと、
取得した前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することと、を含む
ことを特徴とするインタラクティブ対象の駆動方法。
前記テキストデータに基づいて前記インタラクティブ対象を展示する表示デバイスがテキストを展示するように制御すること、および／または、前記テキストデータに対応する音素シーケンスに基づいて前記表示デバイスが音声を出力するように制御することを、さらに含む
ことを特徴とする請求項１に記載のインタラクティブ対象の駆動方法。
前記インタラクティブ対象の局部領域の制御パラメータは、前記局部領域の姿態制御ベクトルを含み、
前記音素シーケンスにマッチングするインタラクティブ対象の少なくとも１つの局部領域の制御パラメータ値を取得することは、
前記音素シーケンスに対して特徴エンコーディングを実行して、前記音素シーケンスに対応する第１コードシーケンスを得ることと、
前記第１コードシーケンスに基づいて少なくとも１つの音素に対応する特徴コードを取得することと、
前記特徴コードに対応する前記インタラクティブ対象の少なくとも１つの局部領域の姿態制御ベクトルを取得することと、を含む
ことを特徴とする請求項１または２に記載のインタラクティブ対象の駆動方法。
前記音素シーケンスに対して特徴エンコーディングを実行して、前記音素シーケンスに対応する第１コードシーケンスを得ることは、
前記音素シーケンスに含まれている複数種類の音素の中の各々の音素に対して、前記音素に対応するサブコードシーケンスを生成することと、
前記複数種類の音素にそれぞれ対応するサブコードシーケンスに基づいて、前記音素シーケンスに対応する第１コードシーケンスを得ることと、を含む
ことを特徴とする請求項３に記載のインタラクティブ対象の駆動方法。
前記音素シーケンスに含まれている複数種類の音素の中の各々の音素に対して、前記音素に対応するサブコードシーケンスを生成することは、
各時点に前記音素が対応されているか否かを検出することと、
前記音素が対応されている時点のコード値を第１数値として設定し、前記音素が対応されていない時点のコード値を第２数値として設定することによって、前記音素に対応する前記サブコードシーケンスを得ることと、を含む
ことを特徴とする請求項４に記載のインタラクティブ対象の駆動方法。
前記複数種類の音素の中の各々の音素に対応する前記サブコードシーケンスに対して、ガウスフィルターを利用して前記音素の時間における連続値に対してガウス畳み込み操作を実行することをさらに含む
ことを特徴とする請求項５に記載のインタラクティブ対象の駆動方法。
前記第１コードシーケンスに基づいて少なくとも１つの音素に対応する特徴コードを取得することは、
所定の長さの時間ウィンドウおよび所定のステップサイズで、前記第１コードシーケンスに対してウィンドウスライディングを実行し、前記時間ウィンドウ内の特徴コードを対応する前記少なくとも１つの音素の特徴コードとして設定し、前記ウィンドウスライディングを実行して得られた複数の前記特徴コードに基づいて、第２コードシーケンスを得ることを含み、
取得した前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することは、
前記第２コードシーケンスに対応する姿態制御ベクトルのシーケンスを取得することと、
前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象の姿態を制御することと、を含む
ことを特徴とする請求項３から６のいずれか１項に記載のインタラクティブ対象の駆動方法。
前記音素シーケンス中の前記音素間の時間間隔が所定の閾値よりも大きい場合、前記局部領域の所定の制御パラメータ値に基づいて、前記インタラクティブ対象の姿態を制御することをさらに含む
ことを特徴とする請求項１から７のいずれか１項に記載のインタラクティブ対象の駆動方法。
前記特徴コードに対応する前記インタラクティブ対象の少なくとも１つの局部領域の姿態制御ベクトルを取得することは、
前記特徴コードを事前に訓練されたリカレントニューラルネットワークに入力して、前記特徴コードに対応する前記インタラクティブ対象の少なくとも１つの局部領域の前記姿態制御ベクトルを得ることを含む
ことを特徴とする請求項３に記載のインタラクティブ対象の駆動方法。
前記リカレントニューラルネットワークは、特徴コードサンプルを利用して訓練して得られたものであり、
前記インタラクティブ対象の駆動方法は、
キャラクターが発した音声のビデオセグメントを取得し、前記ビデオセグメントに基づいて前記キャラクターが含まれた複数の第１画像フレームを取得することと、
前記ビデオセグメント中から該当する音声セグメントを抽出し、前記音声セグメントに基づいてサンプル音素シーケンスを取得し、前記サンプル音素シーケンスに対して特徴エンコーディングを実行することと、
前記第１画像フレームに対応する少なくとも１つの音素の特徴コードを取得することと、
前記第１画像フレームを前記インタラクティブ対象が含まれた第２画像フレームに変換し、前記第２画像フレームに対応する少なくとも１つの局部領域の姿態制御ベクトル値を取得することと、
前記姿態制御ベクトル値に基づいて、前記第１画像フレームに対応する前記特徴コードをレーベリングして、前記特徴コードサンプルを得ることと、をさらに含む
ことを特徴とする請求項９に記載のインタラクティブ対象の駆動方法。
前記特徴コードサンプルに基づいて初期リカレントニューラルネットワークを訓練し、ネットワーク損失の変化が収束条件を満たす後に、前記リカレントニューラルネットワークを訓練して得ることをさらに含み、
ここで、前記ネットワーク損失は、前記リカレントニューラルネットワークが予測して得た前記少なくとも１つの局部領域の前記姿態制御ベクトル値と、レーベリングした前記姿態制御ベクトル値と、の間の差異を含む
ことを特徴とする請求項１０に記載のインタラクティブ対象の駆動方法。
インタラクティブ対象の駆動装置であって、
テキストデータに対応する音素シーケンスを取得するための第１取得ユニットと、
前記音素シーケンスにマッチングするインタラクティブ対象の少なくとも１つの局部領域の制御パラメータ値を取得するための第２取得ユニットと、
取得した前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御するための駆動ユニットと、を備える
ことを特徴とするインタラクティブ対象の駆動装置。
前記テキストデータに基づいて前記インタラクティブ対象を展示する表示デバイスがテキストを展示するように制御し、および／または、前記テキストデータに対応する音素シーケンスに基づいて前記表示デバイスが音声を出力するように制御するための出力ユニットを、さらに備える
ことを特徴とする請求項１２に記載のインタラクティブ対象の駆動装置。
前記第２取得ユニットは、
前記音素シーケンスに対して特徴コードを実行して、前記音素シーケンスに対応する第１コードシーケンスを得、
前記第１コードシーケンスに基づいて少なくとも１つの音素に対応する特徴コードを取得し、
前記特徴コードに対応する前記インタラクティブ対象の少なくとも１つの局部領域の姿態制御ベクトルを取得し、
ここで、前記音素シーケンスに対して特徴コードを実行して、前記音素シーケンスに対応する第１コードシーケンスを得ることは、
前記音素シーケンスに含まれている複数種類の音素の中の各々の音素に対して、前記音素に対応するサブコードシーケンスを生成することと、
前記複数種類の音素にそれぞれ対応するサブコードシーケンスに基づいて、前記音素シーケンスに対応する第１コードシーケンスを得ることと、を含む
ことを特徴とする請求項１２または１３に記載のインタラクティブ対象の駆動装置。
前記第１コードシーケンスに基づいて少なくとも１つの音素に対応する特徴コードを取得するときに、
前記第２取得ユニットは、
所定の長さの時間ウィンドウおよび所定のステップサイズで、前記コードシーケンスに対してウィンドウスライディングを実行し、前記時間ウィンドウ内の特徴コードを対応する前記少なくとも１つの音素の特徴コードとして設定し、前記ウィンドウスライディングを実行して得られた複数の特徴コードに基づいて、第２コードシーケンスを得、
前記駆動ユニットは、
前記第２コードシーケンスに対応する姿態制御ベクトルのシーケンスを取得し、
前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象の姿態を制御する
ことを特徴とする請求項１４に記載のインタラクティブ対象の駆動装置。
前記音素シーケンス中の前記音素間の時間間隔が所定の閾値よりも大きい場合、前記局部領域の所定の制御パラメータ値に基づいて、前記インタラクティブ対象の姿態を制御するための停頓駆動ユニットをさらに備える
ことを特徴とする請求項１２から１５のいずれか１項に記載のインタラクティブ対象の駆動装置。
前記特徴コードに対応する前記インタラクティブ対象の少なくとも１つの局部領域の姿態制御ベクトルを取得するときに、
前記第２取得ユニットは、前記特徴コードを事前に訓練されたリカレントニューラルネットワークに入力して、前記特徴コードに対応する前記インタラクティブ対象の少なくとも１つの局部領域の前記姿態制御ベクトルを得る
ことを特徴とする請求項１４に記載のインタラクティブ対象の駆動装置。
サンプル取得ユニットをさらに備え、
当該サンプル取得ユニットは、
キャラクターが発した音声のビデオセグメントを取得し、前記ビデオセグメントに基づいて前記キャラクターが含まれた複数の第１画像フレームを取得し、
前記ビデオセグメント中から該当する音声セグメントを抽出し、前記音声セグメントに基づいてサンプル音素シーケンスを取得し、前記サンプル音素シーケンスに対して特徴コードを実行し、
前記第１画像フレームに対応する少なくとも１つの音素の特徴コードを取得し、
前記第１画像フレームを前記インタラクティブ対象が含まれた第２画像フレームに変換し、前記第２画像フレームに対応する少なくとも１つの局部領域の姿態制御ベクトル値を取得し、
前記姿態制御ベクトル値に基づいて、前記第１画像フレームに対応する前記特徴コードをレーベリングして、前記特徴コードサンプルを得る
前記インタラクティブ対象の駆動装置は、前記特徴コードサンプルに基づいて初期リカレントニューラルネットワークを訓練し、ネットワーク損失の変化が収束条件を満たす後に、前記リカレントニューラルネットワークを訓練して得るための訓練ユニットをさらに備え、
ここで、前記ネットワーク損失は、前記リカレントニューラルネットワークが予測して得た前記少なくとも１つの局部領域の前記姿態制御ベクトル値と、レーベリングした前記姿態制御ベクトル値と、の間の差異を含む
ことを特徴とする請求項１７に記載のインタラクティブ対象の駆動装置。
電子デバイスであって、
メモリとプロセッサとを備え、
前記メモリは、プロセッサ上で運行可能なコンピュータ命令を記憶し、
前記プロセッサは、前記コンピュータ命令が実行されるときに、請求項１から１１のいずれか１項に記載の方法を実行する
ことを特徴とする電子デバイス。
コンピュータプログラムが記憶されているコンピュータ可読記録媒体であって、
前記コンピュータプログラムがプロセッサによって実行されるときに、請求項１から１１中のいずれか１項に記載の方法が実現される
ことを特徴とするコンピュータ可読記録媒体。