JP2022524944A

JP2022524944A - インタラクション方法、装置、電子機器及び記憶媒体

Info

Publication number: JP2022524944A
Application number: JP2021549324A
Authority: JP
Inventors: 子隆 ▲張▼; 林 ▲孫▼; 露路
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-02-27
Filing date: 2020-11-19
Publication date: 2022-05-11
Also published as: SG11202109192QA; WO2021169431A1; TWI778477B; CN111541908A; TW202132967A; KR20210110620A

Abstract

本発明は、インタラクション方法、装置、電子機器及び記憶媒体を提供する。前記方法は、クライアントからの第１メッセージを受信することと、前記第１メッセージに含まれる指示内容に基づいて、前記指示内容にマッチングしている駆動データを取得することと、前記駆動データを用いて、前記インタラクションオブジェクトの応答動画を再生するように前記クライアントの表示インターフェースを制御することと、を含む。【選択図】図１

Description

本発明は、コンピュータ分野に関し、具体的にインタラクション方法、装置、電子機器及び記憶媒体に関する。

インターネットの急速な発展に伴い、ライブ配信は重要な情報伝播手段となっています。視聴者によってインターネットライブ配信を視聴する期間が異なり、人間の配信者によるライブ配信は、さまざまな視聴者のニーズを満たすために中断なく２４時間行うことができない。デジタルヒューマンによるライブ配信は、この課題を解決できるが、デジタルヒューマンの配信者と視聴者との間のインタラクション技術を研究開発する必要がある。

本発明の一態様では、クライアントからの第１メッセージを受信することと、前記第１メッセージに含まれる指示内容に基づいて、前記指示内容にマッチングしている駆動データを取得することと、前記駆動データを用いて、前記インタラクションオブジェクトの応答動画を再生するように、前記クライアントの表示インターフェースを制御することを含むインタラクション方法を提供する。

本発明のいずれか１つの実施形態に係って、前記第１メッセージに含まれる指示内容に基づいて、前記指示内容にマッチングしている駆動データを取得することには、前記指示内容に対し、応答テキストを含む応答内容を取得することと、前記応答テキストに含まれる少なくとも１つの目標テキストに基づいて、前記目標テキストにマッチングしているインタラクションオブジェクトの設定動作の制御パラメータを取得することと、が含まれる。

本発明のいずれか１つの実施形態に係って、前記第１メッセージに含まれる指示内容に基づいて、前記指示内容にマッチングしている駆動データを取得することには、前記指示内容に対し、音素シーケンスを含む応答内容を取得することと、前記音素シーケンスにマッチングしている前記インタラクションオブジェクトの制御パラメータを取得することが含まれる。

本発明のいずれか１つの実施形態に係って、前記インタラクションオブジェクトの制御パラメータには、少なくとも１つの局所領域の姿勢制御ベクトルが含まれ、前記音素シーケンスにマッチングしている前記インタラクションオブジェクトの制御パラメータを取得することには、前記音素シーケンスに対して特徴コードを行い、前記音素シーケンスに対応する第１コードシーケンスを取得することと、前記第１コードシーケンスに基づいて、少なくとも１つの音素に対応する特徴コードを取得することと、前記特徴コードに対応する前記インタラクションオブジェクトの少なくとも１つの局所領域の姿勢制御ベクトルを取得すること、が含まれる。

本発明のいずれか１つの実施形態に係って、前記方法には、さらに、前記応答内容を含む指示情報を前記クライアントに送信して、前記クライアントに前記指示情報に基づいて前記応答内容をディスプレイさせることが含まれる。

本発明のいずれか１つの実施形態に係って、前記駆動データを用いて、前記インタラクションオブジェクトの応答動画を再生するように、前記クライアントの表示インターフェースを制御することには、前記インタラクションオブジェクトの駆動データを前記クライアントに送信して、前記クライアントに駆動データに基づいて応答動画を生成させ、前記表示インターフェースに前記応答動画を再生するように前記クライアントを制御することと、あるいは、前記駆動データに基づいて、前記インタラクションオブジェクトの仮想モデルパラメータを調整し、調整された仮想モデルパラメータに基づいて、レンダリングエンジンを用いて前記インタラクションオブジェクトの応答動画を生成し、前記応答動画を前記クライアントへ送信することと、が含まれる。

本発明の一態様は、クライアントからのユーザ入力操作に応答して、指示内容を含む第１メッセージをサーバーへ送信することと、前記サーバーによって前記第１メッセージに対して応答された第２メッセージに基づいて、前記クライアントの表示インターフェースに前記インタラクションオブジェクトの応答動画を再生することと、を含むインタラクション方法を提供する、

本発明のいずれか１つの実施形態に係って、前記指示内容にはテキスト内容が含まれ、前記方法には、さらに、前記クライアントに、前記テキスト内容をディスプレイすること、及び／又は、前記テキスト内容に対応する音声ファイルを再生することが含まれる。

本発明のいずれか１つの実施形態に係って、前記クライアントに前記テキスト内容をディスプレイすることには、前記テキスト内容の弾幕情報を生成することと、前記弾幕情報を前記クライアントの表示インターフェースにディスプレイすることが含まれる。

本発明のいずれか１つの実施形態に係って、前記第２メッセージには前記指示内容に対する応答テキストが含まれ、前記方法には、さらに、前記応答テキストを前記クライアントの表示インターフェースにディスプレイすることと、及び／又は、前記応答テキストに対応する音声ファイルを特定して再生することが含まれる。

本発明のいずれか１つの実施形態に係って、前記第２メッセージには前記インタラクションオブジェクトの駆動データが含まれ、前記サーバーによって前記第１メッセージに対して応答された第２メッセージに基づいて、前記クライアントの表示インターフェースに前記インタラクションオブジェクトの応答動画を再生することには、前記駆動データに基づいて、前記インタラクションオブジェクトの仮想モデルパラメータを調整することと、調整された仮想モデルパラメータに基づいて、レンダリングエンジンを用いて前記インタラクションオブジェクトの応答動画を生成し、前記クライアントの表示インターフェースにディスプレイすることが含まれる。前記駆動データには、前記応答テキストに対応する音素シーケンスにマッチングしている前記インタラクションオブジェクト用の制御パラメータ、及び／又は、前記応答テキストに含まれる少なくとも１つの目標テキストにマッチングしている前記インタラクションオブジェクト用の設定動作の制御パラメータが含まれる。

本発明のいずれか１つの実施形態に係って、前記第２メッセージには、前記指示内容に対する前記インタラクションオブジェクトの応答動画が含まれる。

本発明のいずれか１つの実施形態に係って、前記ユーザ入力操作には、ユーザが、前記表示インターフェースに表示される肢体操作画面に従って対応する人体姿勢を行うことが含まれ、クライアントからのユーザ入力操作に応答して、前記人体姿勢を含むユーザ行動画像を取得し、前記ユーザ行動画像における人体姿勢情報を識別し、前記人体姿勢情報に基づいて、前記表示インターフェースにディスプレイされるインタラクションオブジェクトに応答させる。

本発明のいずれか１つの実施形態に係って、前記人体姿勢情報に基づいて、前記表示インターフェースにディスプレイされるインタラクションオブジェクトに応答させることには、前記人体姿勢情報と前記肢体操作画面における人体姿勢とのマッチング度を特定することと、前記マッチング度に基づいて、応答するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトを駆動することが含まれる。

本発明のいずれか１つの実施形態に係って、前記の前記マッチング度に基づいて、応答するように前記インタラクションオブジェクトを駆動することには、前記マッチング度が設定条件を満たした場合、姿勢合格の肢体動作の表示及び／又は音声提示を含む第１応答を実施するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトに指示し、次の肢体操作画面を表示し、前記マッチング度が設定条件を満たさない場合、姿勢不合格の肢体動作の表示及び／又は音声提示を含む第２応答を実施するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトに指示し、現在の肢体操作画面を表示し続けることが含まれる。

本発明の一態様は、クライアントからの第１メッセージを受信するための受信ユニットと、前記第１メッセージに含まれる指示内容に基づいて、前記指示内容にマッチングしている駆動データを取得するための取得ユニットと、前記駆動データを用いて、表示インターフェースに前記インタラクションオブジェクトの応答動画を再生するように前記クライアントを制御するための駆動ユニットを有するインタラクション装置を提供する。

本発明のいずれか１つの実施形態に係って、前記取得ユニットは、具体的に、前記指示内容に対し、応答テキストを含む応答内容を取得し、前記応答テキストに含まれる少なくとも１つの目標テキストに基づいて、前記目標テキストにマッチングしているインタラクションオブジェクトの設定動作の制御パラメータを取得するために用いられる。

本発明のいずれか１つの実施形態に係って、前記取得ユニットは、前記指示内容に対し、音素シーケンスを含む応答内容を取得し、前記音素シーケンスにマッチングしている前記インタラクションオブジェクトの制御パラメータを取得する。

本発明のいずれか１つの実施形態に係って、前記インタラクションオブジェクトの制御パラメータには少なくとも１つの局所領域の姿勢制御ベクトルが含まれ、前記取得ユニットは、前記音素シーケンスにマッチングしているインタラクションオブジェクトの第２制御パラメータを取得する際に、前記音素シーケンスに対して特徴コードを行い、前記音素シーケンスに対応する第１コードシーケンスを取得し、前記第１コードシーケンスに基づいて、少なくとも１つの音素に対応する特徴コードを取得し、前記特徴コードに対応する前記インタラクションオブジェクトの少なくとも１つの局所領域の姿勢制御ベクトルを取得するために用いられる。

本発明のいずれか１つの実施形態に係って、前記装置は、さらに、前記指示内容に対する前記応答内容を含む指示情報を前記クライアントへ送信してクライアントが前記指示内容に基づいて前記応答内容をディスプレイするために用いられる送信ユニットを有する。

本発明のいずれか１つの実施形態に係って、前記駆動ユニットは、前記インタラクションオブジェクトの駆動データを前記クライアントに送信して、前記クライアントに駆動データに基づいて応答動画を生成させ、前記表示インターフェースに前記応答動画を再生するように前記クライアントを制御し、あるいは、前記駆動データに基づいて、前記インタラクションオブジェクトの２次元または３次元の仮想モデルパラメータを調整し、調整された２次元または３次元の仮想モデルパラメータに基づいて、レンダリングエンジンを用いて前記インタラクションオブジェクトの応答動画を生成し、且つ、前記応答動画を前記クライアントへ送信する。

本発明の一態様は、クライアントからのユーザ入力操作に応答して、指示内容を含む第１メッセージをサーバーへ送信するための送信ユニットと、前記サーバーによって前記第１メッセージに対して応答された第２メッセージに基づいて、前記クライアントの表示インターフェースに前記インタラクションオブジェクトの応答動画を再生するための再生ユニットとを有するインタラクション装置を提供する。

本発明のいずれか１つの実施形態に係って、前記指示内容にはテキスト内容が含まれ、前記装置は、さらに、前記クライアントの表示インターフェースに前記テキスト内容をディスプレイし、及び／又は、前記テキスト内容に対応する音声ファイルを特定して再生するための第１ディスプレイユニットを有する。

本発明のいずれか１つの実施形態に係って、前記第１ディスプレイユニットは、前記クライアントに前記テキスト内容をディスプレイする際に、具体的に、前記テキスト内容の弾幕情報を生成し、前記弾幕情報を前記クライアントの表示インターフェースにディスプレイするために用いられる。

本発明のいずれか１つの実施形態に係って、前記第２メッセージには前記指示内容に対する応答テキストが含まれ、前記装置は、さらに、前記応答テキストを前記クライアントの表示インターフェースにディスプレイし、及び／又は、前記応答テキストに対応する音声ファイルを特定して再生するための第２ディスプレイユニットを有する。

本発明のいずれか１つの実施形態に係って、前記第２メッセージには前記インタラクションオブジェクトの駆動データが含まれ、前記再生ユニットは、前記駆動データに基づいて、前記インタラクションオブジェクトの仮想モデルパラメータを調整し、調整された仮想モデルパラメータに基づいて、レンダリングエンジンを用いて前記インタラクションオブジェクトの応答動画を生成し、且つ、前記クライアントの表示インターフェースにディスプレイする。前記駆動データには、前記指示内容に対する応答テキストに対応する音素シーケンスにマッチングしている前記インタラクションオブジェクト用の制御パラメータ、及び／又は、前記応答テキストに含まれる少なくとも１つの目標テキストにマッチングしている前記インタラクションオブジェクトの設定動作の制御パラメータが含まれる。

本発明のいずれか１つの実施形態に係って、前記ユーザ入力操作には、ユーザが、前記表示インターフェースに表示される肢体操作画面に従って対応する人体姿勢を行うことが含まれ、前記送信ユニットは、さらに、前記人体姿勢を含むユーザ行動画像を取得し、前記ユーザ行動画像における人体姿勢情報を識別し、前記人体姿勢情報に基づいて、前記表示インターフェースにディスプレイされるインタラクションオブジェクトに応答させるために用いられる。

本発明のいずれか１つの実施形態に係って、前記送信ユニットは、具体的に、前記人体姿勢情報と前記肢体操作画面における人体姿勢とのマッチング度を特定し、前記マッチング度に基づいて、応答するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトを駆動するために用いられる。

本発明のいずれか１つの実施形態に係って、前記送信ユニットは、具体的に、前記マッチング度が設定条件を満たした場合、姿勢合格の肢体動作の表示及び／又は音声提示を含む第１応答を実施するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトに指示し、次の肢体操作画面を表示し、前記マッチング度が設定条件を満たさない場合、姿勢不合格の肢体動作の表示及び／又は音声提示を含む第２応答を実施するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトに指示し、現在の肢体操作画面を表示し続けるために用いられる。

本発明の一態様は、メモリー、プロセッサを有する電子機器を提供する。前記メモリーには、プロセッサに実施可能のコンピュータ指令が記憶される。プロセッサは、前記コンピュータ指令が実施される時に、本発明のいずれか１つの実施形態に供されるインタラクション方法を実施させるために用いられる。

本発明の一態様は、コンピュータプログラムを記憶するコンピュータ読み取り可能な記憶媒体を提供する。前記コンピュータプログラムは、プロセッサによって実施される時に、本発明のいずれか１つの実施形態に供されるインタラクション方法が実施される。

以下、本発明の１つまたは複数の実施形態をより明確に説明するために、実施形態に必要な添付の図を簡単に紹介する。明らかに、以下の説明における図は、本明細書に記載している１つまたは複数の実施例の一部に過ぎず、当業者は、創造的な労力なしに、これらの図に基づいて他の図を得ることができる。
本発明の少なくとも１つの実施例によるインタラクション方法を示すフローチャートである。本発明の少なくとも１つの実施例で提案されるインタラクション方法をライブ配信過程に応用する模式図である。本発明の少なくとも１つの実施例で提案される姿勢制御ベクトルを取得する方法フローチャートである。本発明の少なくとも１つの実施例による他のインタラクション方法のフローチャートである。本発明の少なくとも１つの実施例によるインタラクション装置の構造模式図である。本発明の少なくとも１つの実施例による他のインタラクション装置の構造模式図である。本発明の少なくとも１つの実施例による電子機器の構造模式図である。本発明の少なくとも１つの実施例による他の電子機器の構造模式図である。

ここで、例示的な実施例を詳細に説明する。その例示は、図面に示される。以下の記述は、図面に係る際、別途示さない限り、異なる図面における同じ符号が同じ又は類似する要素を示す。以下の例示的な実施例に記述される実施形態が本発明と一致する全ての実施形態を代表するわけではない。逆に、それらは、単に添付する特許請求の範囲に詳細に記述されるような、本発明の幾つかの態様に一致する装置及び方法の例である。

本明細書中の「および／または」という用語は、ただ、関連オブジェクトの関連関係を叙述し、例えば、Ａおよび／またはＢは、Ａが単独的に存在すること、ＡとＢが同時に存在すること、および、Ｂが単独的に存在することのような、３種の関係が存在することができることを意味する。また、本明細書中の「少なくとも１種」という用語は、複数種の中の任意の１種、または、複数種の中の少なくとも２種の任意の組み合わせを意味し、例えば、Ａ、Ｂ、Ｃの中の少なくとも１種を含むことは、Ａ、Ｂ、および、Ｃから構成されたセットの中から選択した任意１つまたは複数の要素を意味する。

デジタルヒューマンを配信者として、任意の期間でもライブ配信を行うことができ、且つ、２４時間無停止のライブ配信を実現でき、ライブ配信を視聴する時間に対するさまざまな視聴者の異なるニーズを満たす。デジタルヒューマンは、ライブ配信中のユーザのインタラクションオブジェクトとして、ユーザからの質問に対してどのようにタイムリーなフィードバックを行うこと、及び、どのようにユーザと自然的で生き生きしたインタラクションを行うことは、解決すべき緊急の問題である。

これを考慮して、本発明は、ネットワークライブ配信などの仮想のインタラクションオブジェクトとインタラクティブする任意のシーンに応用できるインタラクション技術案を提供する。

本発明の実施例で提出されるインタラクション方法は、端末機器またはサーバーに適用可能であり、端末機器は、例えば、携帯電話、タブレットなどのような、クライアントがインストールされた電子機器であってもよい。本発明は、端末機器の形態を限定するものではない。クライアントは、例えば、ライブ動画配信のクライアント、体感型インタラクションクライアントなどを含むライブ配信のクライアントである。サーバーは、インタラクションオブジェクトの処理機能を提供できる任意のサーバーであってもよい。

インタラクションオブジェクトは、ユーザとインタラクションできる任意のインタラクションオブジェクトであってもよく、仮想キャラクターや、仮想動物、仮想物品、漫画キャラクターなどのような、インタラクション機能を実現できる仮想画像であってもよい。インタラクションオブジェクトは、２次元の仮想モデルに基づいて構築されてもよく、３次元の仮想モデルに基づいて構築されてもよく、インタラクションオブジェクトは、例えば、２次元または３次元の仮想モデルに対してレンダリングして得られる。前記ユーザは、人間やロボットや他の知能機器であってもよい。前記インタラクションオブジェクトと前記ユーザとの間のインタラクションは、能動的なインタラクションであってもよく、受動的なインタラクションであってもよい。

例示的に、ライブ動画配信のシーンにおいて、クライアントの表示インターフェースにインタラクションオブジェクトの動画をディスプレイ可能であり、ユーザは、端末機器のクライアントで、例えば、テキストの入力や音声の入力や動作トリガーやキートリガーなどの入力操作を実施して、インタラクションオブジェクトとのインタラクションを実現する。

図１は、本発明の少なくとも１つの実施例によるインタラクション方法のフローチャートである。当該インタラクション方法は、サーバー側に適用できる。図１に示すように、前記方法は、ステップ１０１～ステップ１０３を含む。

ステップ１０１では、クライアントからの第１メッセージを受信する。

例示的に、前記第１メッセージに含まれる指示内容は、前記ユーザが、クライアントで、入力操作を実施して入力された情報を含んでもよく、ユーザ入力操作には、テキストの入力操作や音声の入力操作や動作トリガー操作やキートリガー操作などが含まれる。入力された情報は、クライアントからサーバーに送信されてもよく、または、クライアントが入力された情報をサーバーへ送信される際に、当該入力された情報は、前記クライアントに直接ディスプレイされてもよい。前記第１メッセージに付加される指示内容の形式は、テキストや音声や画像（例えば、表情画像、動作画像）、ビデオなどが含まれるが、これらに限定されない。前記第１メッセージの具体的な形式は、応用シーンに関連する。例えば、ライブ動画配信のシーンにおいて、前記クライアントは、ライブ動画配信を視聴する機能を持つクライアントであってもよく、前記第１メッセージは、クライアントがユーザによる表示インターフェースに入力したテキスト内容を収集した後、送信されてもよい。第１メッセージに付加される指示内容は、例えば、入力されたテキスト内容であり、且つ、該当指示内容は弾幕の形式で表示インターフェースにディスプレイされてもよい。また、例えば、体感インタラクションシーンにおいて、前記第１メッセージは、前記クライアントがユーザ行動画像を収集した後、送信されてもよい。第１メッセージに付加される指示内容は、例えば、収集されたユーザ行動画像である。もちろん、具体的な実施において、本発明は、第１メッセージの送信メカニズム及び第１メッセージに付加される指示内容の形式に限定されない。

ステップ１０２では、前記第１メッセージに含まれる指示内容に基づいて、前記指示内容にマッチングしている駆動データを取得する。

例示的に、前記駆動データは、音声駆動データ、表情駆動データ、動作駆動データのうち１つまたは複数を含む。１つの実施形態では、前記駆動データは、サーバーまたは他の関連の業務サーバーに予め記憶されてもよい。クライアントからの第１メッセージを受信した後、前記指示内容に基づいて、前記サーバーまたは他の関連の業務サーバーの中で検索を行い、前記指示内容にマッチングしている駆動データを取得する。他の実施形態では、前記駆動データは、前記指示内容に基づいて生成されたものであってもよく、例えば、前記指示内容を予め訓練された深層学習モデルに入力して、当該指示内容に対応する駆動データを予測して得る。

ステップ１０３では、前記駆動データを用いて、前記インタラクションオブジェクトの応答動画を再生するように、前記クライアントの表示インターフェースを制御する。

本発明の実施例では、前記インタラクションオブジェクトは、例えば、２次元または３次元の仮想モデルのような仮想モデルに対してレンダリングして得られたものである。前記仮想モデルは、カスタム生成されたものであってもよく、キャラクタークターの画像またはビデオに対して変換を行って得られたものあってもよい。本発明の実施例は、仮想モデルの生成手段に限定されない。

前記応答動画は、前記駆動データに基づいて生成されてもよい。クライアントの表示インターフェース、例えば、ライブ動画配信インターフェースを制御することにより、前記インタラクションオブジェクトの応答動画を再生して、クライアントからの第１メッセージに対する前記インタラクションオブジェクトの応答をディスプレイすることができる。当該応答には、言語の出力、および／またはアクションや表情をするなどが含まれる。

本発明の実施形態では、サーバーは、クライアントからの第１メッセージを受信し、前記第１メッセージに含まれる指示内容に基づいてマッチングしている駆動データを取得し、前記駆動データを用いて、クライアントの表示インターフェースに前記インタラクションオブジェクトの応答動画を再生するようにクライアントを制御して、インタラクションオブジェクトの応答をディスプレイする。このように、インタラクションオブジェクトは、ユーザの指示内容に対してタイムリーにフィードバックし、ユーザとのタイムリーなインタラクションが実現できる。

図２は、本発明の少なくとも１つの実施例に提案されるインタラクション方法をライブ配信過程に応用する例示的な説明である。図２に示すように、前記インタラクションオブジェクトは、医師イメージの３次元の仮想キャラクターである。クライアントの表示インターフェースに、前記３次元の仮想キャラクターを配信者としてライブ配信する過程をディスプレイ可能である。クライアントのユーザは、表示インターフェースに指示内容の入力を実施して、指示内容に付加される第１メッセージを送信することが可能である。それに応じて、サーバーは、クライアントからの第１メッセージを受信した後、例えば、「手洗い方法」のような指示内容を識別し、更に当該指示内容に基づいてマッチングしている駆動データを取得することができ、前記駆動データに基づいて、当該３次元の仮想キャラクターによる「手洗い方法」の指示内容に対する応答をディスプレイするように、前記クライアントを制御することができる。例えば、当該３次元の仮想キャラクターが「手洗い方法」に対応する音声を出力して出力された音声にマッチングしている動作及び／又は表情をするように制御する。

幾つかの実施例において、前記指示内容には、テキスト内容が含まれる。以下の態様で、指示内容に対する応答内容を取得する。自然言語処理（ＮａｔｕｔｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ、ＮＬＰ）アルゴリズムに基づいて、前記テキスト内容によって表される言語意図を識別し、前記言語意図にマッチングしている応答内容を取得する。

幾つかの実施例において、例えば、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＣＮＮ）、循環ニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）、長期短期記憶ネットワーク（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙｎｅｔｗｏｒｋ、ＬＴＳＭ）などのような、予め訓練されたＮＬＰ用のニューラルネットワークモデルを用いて、前記テキスト内容を処理することができる。前記第１メッセージに含まれるテキスト内容を前記ニューラルネットワークモデルに入力し、テキスト内容によって表される言語意図を分類して、前記テキスト内容によって表される言語意図の種類を特定する。

第１メッセージに含まれるテキスト内容には複数の意味が含まれている可能性があるため、ＮＬＰアルゴリズムを用いて、ユーザの実際の意図を識別できるので、前記ユーザが本当に取得したい内容を直接フィードバックすることができ、インタラクション体験が向上できる。

幾つかの実施例において、前記言語意図に基づいて、前記言語意図にマッチングする前記言語意図に適合する応答内容を予め設定されたデータベースから検索して、更に、サーバーは、前記応答内容に基づいて、前記インタラクションオブジェクトに前記応答内容を表させる駆動データを生成する。前記データベースは、サーバーに配置されてもよく、クラウドに配置されてもよく、本発明において限定されない。

言語意図を識別した場合に、サーバーは、前記テキスト内容から、前記言語意図に関するパラメータ、即ち、エンティティを抽出する。例えば、体系的な単語のセグメンテーション、情報抽出などの態様によりエンティティを特定してもよい。前記言語意図の種類に対応するデータでは、エンティティによって、前記言語意図に適合する応答テキストをさらに特定する。当業者は、前記方法が例示に過ぎず、他の態様によって前記言語意図にマッチングしている応答テキストを取得することができることを理解すべきであり、本発明において限定されない。

幾つかの実施例において、サーバーは、前記応答内容に基づいて音声駆動データを生成する。前記音声駆動データは、例えば、前記応答内容に含まれる応答テキストに対応する音素シーケンスを含む。前記音素シーケンスに対応する音声を生成し、前記音声を出力するように前記クライアントを制御することにより、前記インタラクションオブジェクトに、前記応答テキストによって表される内容を表す音声を出力させることができる。

幾つかの実施例において、サーバーは、前記応答内容に基づいて動作駆動データを生成し、前記インタラクションオブジェクトに、前記応答内容を表す動作を実施させる。

例示的に、応答内容に応答テキストが含まれる場合、以下の態様で前記応答内容に基づいて動作駆動データを生成することができる。前記応答テキストに含まれる少なくとも１つの目標テキストに基づいて、前記目標テキストにマッチングしているインタラクションオブジェクトの設定動作の制御パラメータを取得する。

前記目標テキストは、設定されたキー文字、キーワード、キーセンテンスなどであってもよい。キーワードの「手洗い」を例として、前記応答テキストに「手洗い」が含まれる場合、応答テキストに目標テキストが含まれていると特定することができる。目標テキストごとに、マッチングしている設定動作を予め設定してもよく、各設定動作は、１組の制御パラメータシーケンスで実現可能である。例えば、複数の骨格点の位移は、１組の制御パラメータを形成し、複数の組の制御パラメータから形成された制御パラメータシーケンスを用いて、前記インタラクションオブジェクトのモデルパラメータを調整して、インタラクションオブジェクトに前記設定動作を実施させることができる。

本発明の実施例において、インタラクションオブジェクトによる動作で第１メッセージに応答することにより、ユーザは、第１メッセージに対する、直感的で生き生きした応答を取得し、ユーザのインタラクション体験が向上する。

幾つかの実施例において、前記目標テキストに対応する音声情報を特定し、前記音声情報の出力の時間情報を取得し、前記時間情報に基づいて前記目標テキストに対応する設定動作の実施時間を特定し、前記実施時間に基づいて、前記目標テキストに対応する制御パラメータを用いて、前記設定動作を実施するように前記インタラクションオブジェクトを制御する。

前記応答テキストに対応する音素シーケンスに基づいて音声を出力するように前記クライアントを制御する場合、前記目標テキストに対応する音声の出力の時間情報を特定することができ、前記時間情報は、例えば、前記目標テキストに対応する音声の出力の開始時間、出力の終了時間、出力の持続時間である。前記時間情報に基づいて前記目標テキストに対応する設定動作の実施時間を特定し、前記実施時間内、または、実施時間の一定範囲内で、前記目標テキストに対応する制御パラメータを用いて、前記設定動作を実施するように前記インタラクションオブジェクトを制御することができる。

本発明の実施例において、目標テキストごとに、対応する音声を出力する持続時間と、対応する制御パラメータに基づいて動作を制御する持続時間とは、一致または近いため、インタラクションオブジェクトが目標テキストに対応する音声を出力した時間と動作の実施時間とはマッチングできる。このように、インタラクションオブジェクトの音声と動作が同期・協調し、ユーザは、ライブ配信中に前記インタラクションオブジェクトが応答するような感覚を生み出し、ライブ配信中にユーザと配信者とのインタラクション体験が向上する。

幾つかの実施例において、前記応答テキストに基づいて姿勢駆動データを生成して、前記クライアントに、応答テキストに対応する音声にマッチングしている前記インタラクションオブジェクトの姿勢をディスプレイさせることができ、例えば、相応の表情や動作をする。

例示的に、応答内容には、さらに、音素シーケンスが含まれてもよく、または、応答内容には応答テキストが含まれる場合、応答テキストに対応する音素シーケンスを抽出してもよく、音素シーケンスを含む応答内容を取得した後、前記音素シーケンスにマッチングしている前記インタラクションオブジェクト用の制御パラメータを取得することができる。前記インタラクションオブジェクトの制御パラメータには、少なくとも１つの局所領域の姿勢制御ベクトルが含まれ、前記音素シーケンスにマッチングしているインタラクションオブジェクト用の制御パラメータを取得することには、前記音素シーケンスに対して特徴コードを行い、前記音素シーケンスに対応する第１コードシーケンスを取得することと、前記第１コードシーケンスに基づいて、少なくとも１つの音素に対応する特徴コードを取得することと、前記特徴コードに対応する前記インタラクションオブジェクトの少なくとも１つの局所領域の姿勢制御ベクトルを取得することと、が含まれる。

幾つかの実施例において、前記応答テキストに対応する音声を再生しながら前記音声にマッチングしている前記インタラクションオブジェクトの姿勢の応答動画をディスプレイするようにクライアントを制御することで、インタラクションオブジェクトの応答がより擬人化され、より生き生きとし、自然になり、ユーザのインタラクション体験が向上する。

前記インタラクションオブジェクトの制御パラメータには少なくとも１つの局所領域の姿勢制御ベクトルが含まれる実施例では、以下の態様で姿勢制御ベクトルを取得することができる。

まず、前記応答テキストに対応する音素シーケンスに対して特徴コードを行い、前記音素シーケンスに対応するコードシーケンスを取得する。ここで、後記のコードシーケンスと区別するために、前記テキストデータの音素シーケンスに対応するコードシーケンスを第１コードシーケンスと記載する。

前記音素シーケンスに含まれる複数種の音素ごとに、各音素に対応するサブコードシーケンスを生成する。

例示的に、各時点で対応する第１音素があるかどうかを検出し、前記第１音素は、複数種の前記音素の中のいずれか１つであり、前記第１音素がある時点でのコード値を第１値として設定し、前記第１音素がない時点でのコード値を第２値として設定し、各時点のコード値を付与した後、第１音素に対応するサブコードシーケンスを取得することができる。例えば、前記第１音素がある時点でのコード値を「１」に設定し、前記第１音素がない時点でのコード値を「０」に設定してもよい。前記コード値の設定は例示に過ぎず、コード値を他の値に設定してもよいが、本発明において限定されないということは、当業者は理解すべきである。

その後、前記複数種の音素のそれぞれに対応するサブコードシーケンスに基づいて、前記音素シーケンスに対応する第１コードシーケンスを取得する。

例示的に、第１音素に対応するサブコードシーケンスについて、ガウスフィルタを用いて、前記第１音素の時間的連続値に対してガウス畳み込み操作を実施することにより、特徴コードに対応するマトリックスをフィルタリングして、各音素を変換する際に、口の領域の過渡動作を平滑化する。

図３は、本発明の少なくとも１つの実施例に提案される姿勢制御ベクトルを取得する方法フローチャートである。図３に示すように、音素シーケンス３１０には音素ｊ、ｉ１、ｊ、ｉｅ４（簡単にするために、部分音素のみを示す）が含まれ、音素ｊ、ｉ１、ｉｅ４それぞれに対して、前記各音素にそれぞれ対応するサブコードシーケンス３２１、３２２、３２３を取得する。各サブコードシーケンスにおいて、前記音素がある時間（図３では、時間単位は秒（ｓ））に対応するコード値は、第１値（例えば、「１」）であり、前記音素がない時間（図３では、時間単位は秒（ｓ））に対応するコード値は、第２値（例えば、「０」）である。サブコードシーケンス３２１を例として、音素シーケンス３１０における音素ｊがある時間で、サブコードシーケンス３２１の値は第１値であり、音素ｊがない時間で、サブコードシーケンス３２１の値は第２値である。全てのサブコードシーケンスは、第１コードシーケンス３２０を構成する。

次に、前記第１コードシーケンスに基づいて、少なくとも１つの音素に対応する特徴コードを取得する。

音素ｊ、ｉ１、ｉｅ４にそれぞれ対応するサブコードシーケンス３２１、３２２、３２３のコード値、及び当該三つのサブコードシーケンスにおける対応する音素の持続時間、即ち、サブコードシーケンス３２１におけるｊの持続時間、サブコードシーケンス３２２におけるｉ１の持続時間、サブコードシーケンス３２３におけるｉｅ４の持続時間に基づいて、サブコードシーケンス３２１、３２２、３２３の特徴情報を取得することができる。

例示的に、ガウスフィルタを用いて、サブコードシーケンス３２１、３２２、３２３における音素ｊ、ｉ１、ｉｅ４の時間的連続値に対してそれぞれガウス畳み込み操作を実施することで、特徴コードを平滑化して、平滑化された第１コードシーケンス３３０を取得することができる。即ち、ガウスフィルタを用いて音素の０～１の時間的連続値に対してガウス畳み込み操作を実施することにより、各コードシーケンスにおけるコード値は、第２値から第１値へ、または、第１値から第２値への変化が平滑化される。例えば、コードシーケンスの値は、０と１以外に、中間状態の値、例えば０．２、０．３などを表し、これらの中間状態の値に基づいて姿勢制御ベクトルを取得して、インタラクションキャラクターの動作の過渡、表情の変化をより滑らかで自然になり、目標オブジェクトとのインタラクション体験が向上する。

幾つかの実施例において、前記第１コードシーケンスに対して、スライディングウィンドウを実施して少なくとも１つの音素に対応する特徴コードを取得することができる。前記第１コードシーケンスは、ガウス畳み込み操作で実施されたコードシーケンスであることができる。

設定長さの時間ウィンドウと設定ステップサイズで、前記コードシーケンスに対してスライディングウィンドウを実施して、前記時間ウィンドウにおける特徴コードを、対応する少なくとも１つの音素の特徴コードとして、スライディングウィンドウが完了した後、取得された複数の特徴コードに基づいて、第２コードシーケンスを取得することができる。図３に示すように、第１コードシーケンス３２０または平滑化された第１コードシーケンス３３０に設定長さの時間ウィンドウをスライディングして、特徴コード１、特徴コード２、特徴コード３をそれぞれ取得し、このように、第１コードシーケンスをトラバースして、特徴コード１、２、３、…、Ｍを取得し、第２コードシーケンス３４０を取得する。Ｍは正整数であり、その値は、第１コードシーケンスの長さ、時間ウィンドウの長さ及び時間ウィンドウのスライディングステップサイズに基づいて特定されるものである。

特徴コード１、２、３、…、Ｍに基づいて、相応の姿勢制御ベクトル１、２、３、…、Ｍをそれぞれ取得して、姿勢制御ベクトルのシーケンス３５０を取得することができる。

姿勢制御ベクトルのシーケンス３５０と第２コードシーケンス３４０は、時間的に整列される。前記第２コードシーケンスにおける各特徴コードは音素シーケンスにおける少なくとも１つの音素に基づいて取得されたため、同様に、姿勢制御ベクトルのシーケンス３５０における各制御ベクトルは、音素シーケンスにおける少なくとも１つの音素に基づいて取得された。テキストデータに対応する音素シーケンスを再生するとともに、前記姿勢制御ベクトルのシーケンスに基づいて、前記インタラクションオブジェクトがアクションをするように駆動し、即ち、インタラクションオブジェクトがテキスト内容に対応する音声を出力するとともに音声と同期したアクションをするように駆動することは、実現できる。このように、目標オブジェクトに、前記インタラクションオブジェクトが話しているような感覚を与え、目標オブジェクトのインタラクション体験が向上することができる。

１番目の時間ウィンドウの設定時刻から特徴コードの出力を開始すると仮定する場合、前記設定時刻の前の姿勢制御ベクトルをデフォルト値に設定し、即ち、音素シーケンスの再生開始の直後、前記インタラクションオブジェクトにデフォルトの動作を実施させ、前記設定時刻の後、第１コードシーケンスに基づいて取得された姿勢制御ベクトルのシーケンスを用いて、前記インタラクションオブジェクトがアクションをするように駆動する。図３を例として、ｔ０時刻から特徴コード１を出力し、ｔ０時刻の前に対応するものは、デフォルト姿勢制御ベクトルである。

幾つかの実施例において、前記音素シーケンスにおける音素の間の時間インターバルが設定閾値を超えた場合、前記局所領域の設定姿勢制御ベクトルに基づいて、前記インタラクションオブジェクトがアクションをするように駆動する。即ち、インタラクション人物の話が長時間ポーズする場合、インタラクションオブジェクトが設定のアクションをするように駆動する。例えば、出力音声は長時間ポーズする場合、長時間ポーズでインタラクション人物が無表情に立っていることを避けるために、インタラクション人物に笑顔の表情をさせ、または、体を少し揺らせて、これによってインタラクションオブジェクトの話し過程は自然にスムーズになり、目標オブジェクトのインタラクション体験が向上する。

幾つかの実施例において、前記応答テキストに含まれる少なくとも１つの目標テキストに対し、前記少なくとも１つの目標テキストにマッチングしているインタラクションオブジェクト用の設定動作の制御パラメータを取得して、前記インタラクションオブジェクトが前記設定動作をするように駆動する。前記少なくとも１つの目標テキスト以外の応答内容に対し、前記応答内容に対応する音素に基づいて前記インタラクションオブジェクトの制御パラメータを取得することができ、前記インタラクションオブジェクトが前記応答内容の発音にマッチングしている姿勢、例えば、表情と動作をするように駆動する。

図２に示すライブ配信過程を例として、受信された第１メッセージに「手洗い方法」のテキスト内容が含まれる場合に、ＮＬＰアルゴリズムを用いて、ユーザの言語意図は、「手洗い方法を尋ねる」ことであると識別することができる。予め設定されたデータベースを検索して、手洗い方法を答える内容を取得することができ、且つ、当該内容を応答テキストとする。前記応答テキストに基づいて動作駆動データ、音声駆動データ、姿勢駆動データを生成し、前記インタラクションオブジェクトに、「手洗い方法」の問題を音声で回答させ、同時に、発音にマッチングしている表情、動作をするとともに、手洗い方法を肢体動作でデモンストレーションする。

幾つかの実施例において、前記クライアントが前記指示情報に基づいて前記応答テキストをディスプレイするように、前記応答テキストを含む指示情報を前記クライアントへ送信してもよい。

例えば、「手洗い方法」の問題を応答する応答テキストに対して、前記応答テキストを含む指示情報をクライアントに送信することにより、テキストの形式で前記指示メッセージを前記クライアントにディスプレイするため、ユーザは、インタラクションオブジェクトから伝達される情報をより正確に受信することができる。

幾つかの実施例において、前記インタラクションオブジェクトに対応する仮想モデルは（仮想モデルは、２次元の仮想モデルであってもよく、３次元の仮想モデルであってもよい）、クライアントに記憶されてもよい。この場合、前記インタラクションオブジェクトの駆動データを前記クライアントに送信することで、前記クライアントに駆動データに基づいて応答動画を生成させ、前記応答動画を再生するように前記クライアントを制御することができる。例えば、前記駆動データに含まれる制御パラメータに基づいてインタラクションオブジェクトの仮想モデルパラメータを調整するように前記クライアントを制御し、調整された仮想モデルパラメータに基づいて、レンダリングエンジンを用いて前記インタラクションオブジェクトの応答動画を生成して、前記第１メッセージに応答するように前記応答動画を再生することができる。仮想モデルは２次の仮想モデルである場合、仮想モデルパラメータは２次元の仮想モデルパラメータであり、仮想モデルは３次元の仮想モデルである場合、仮想モデルパラメータは３次元の仮想モデルパラメータである。また、例えば、サーバーは、駆動データに基づいて、インタラクションオブジェクトの応答態様を制御するための制御指令を特定し、前記制御指令をクライアントへ送信し、前記クライアントに、前記制御指令に基づいて、応答としてのインタラクションオブジェクトの画面をディスプレイさせる。

インタラクションオブジェクトの仮想モデルのデータ量が少なく、クライアントの性能の占有率が低下である場合に、前記駆動データを前記クライアントに送信して、前記クライアントに、前記駆動データに基づいて応答動画を生成させ、それによって応答としてのインタラクションオブジェクトの画面を便利かつ柔軟にディスプレイできる。

幾つかの実施例において、前記インタラクションオブジェクトに対応する仮想モデルは、サーバーまたはクラウドに記憶される。この場合、前記駆動データに基づいて、前記インタラクションオブジェクトの仮想モデルパラメータを調整し、調整された仮想モデルパラメータに基づいて、レンダリングエンジンを用いて前記インタラクションオブジェクトの応答動画を生成し、前記応答動画を前記クライアントへ送信し、ここで、前記応答動画には、前記インタラクションオブジェクトの動作又は表情がディスプレイされる。前記応答動画をクライアントに送信することにより、前記インタラクションオブジェクトの応答を実施し、クライアントのレンダリングによって引き起こされるラグを避け、且つ、クライアントに高品質の応答動画をディスプレイし、ユーザのインタラクション体験が向上することができる。

図４は、本発明の少なくとも１つの実施例による他のインタラクション方法のフローチャートである。当該インタラクション方法は、クライアントに適用可能である。前記方法は、ステップ４０１～４０２を含む。

ステップ４０１では、クライアントからのユーザ入力操作に応答して、指示内容を含む第１メッセージをサーバーへ送信する。

例示的に、ユーザ入力操作には、テキスト入力操作、音声入力操作、動作トリガー操作、キートリガー操作などが含まれ、前記ユーザ入力操作に応答して、第１メッセージをサーバーへ送信する。第１メッセージに含まれる指示内容は、テキスト、音声、画像（例えば、表情画像、動作画像）、ビデオなどのうちの１つまたは複数を含むが、それらに限定されない。例えば、ライブ動画配信のシーンにおいて、前記クライアントは、ライブ動画配信を視聴する機能を持つクライアントであってもよく、前記第１メッセージは、クライアントがユーザによる表示インターフェースに入力したテキスト内容を収集した後、送信されてもよい。第１メッセージに付加される指示内容は、例えば、入力されたテキスト内容であり、且つ、該当指示内容は弾幕の形式で表示インターフェースにディスプレイされてもよい。また、例えば、体感インタラクションシーンにおいて、前記第１メッセージは、前記クライアントがユーザ行動画像を収集した後、送信されてもよい。第１メッセージに付加される指示内容は、例えば、収集されたユーザ行動画像である。もちろん、具体的な実施において、本発明は、第１メッセージの送信メカニズム及び第１メッセージに付加される指示内容の形式に限定されない。

ステップ４０２では、前記サーバーによって前記第１メッセージに対して応答された第２メッセージに基づいて、前記クライアントの表示インターフェースに前記インタラクションオブジェクトの応答動画を再生する。

前記第２メッセージは、前記サーバーが前記第１メッセージに含まれる指示内容に応答して生成したものであり、前記クライアントに前記指示内容に応答するインタラクションオブジェクトをディスプレイさせるためのものである。

本発明の実施例において、前記インタラクションオブジェクトは、例えば、２次元または３次元の仮想モデルのような仮想モデルに対してレンダリングして得られたものである。前記仮想モデルは、カスタム生成されたものであってもよく、キャラクタークターの画像またはビデオに対して変換を行って得られたものあってもよい。本発明の実施例は、仮想モデルの生成手段に限定されない。

本発明の実施形態において、ユーザ入力操作に基づいて指示内容を含む第１メッセージをサーバーへ送信し、前記サーバーによって前記第１メッセージに応答された第２メッセージに基づいて、クライアントに前記指示内容に対するインタラクションオブジェクトの応答をディスプレイし、インタラクションオブジェクトは、ユーザの指示内容に対してタイムリーにフィードバックし、ユーザとのタイムリーなインタラクションが実現できる。

幾つかの実施例において、前記指示内容にはテキスト内容が含まれる。前記方法は、さらに、前記クライアントの表示インターフェースに、前記テキスト内容をディスプレイすること、及び／又は、前記テキスト内容に対応する音声ファイルを特定して再生することが含まれる。即ち、クライアントにユーザによって入力されたテキスト内容をディスプレイし、また、クライアントに前記テキスト内容に対応する音声ファイルを再生し、前記テキスト内容に対応する音声を出力できる。

幾つかの実施例において、前記クライアントに前記テキスト内容をディスプレイすることには、前記テキスト内容の弾幕情報を生成することと、前記弾幕情報を前記クライアントの表示インターフェースにディスプレイすることとが含まれる。

ライブ動画配信のシーンにおいて、ユーザによって入力されたテキスト内容に対して、対応する弾幕情報を生成し、クライアントの表示インターフェースに前記弾幕情報をディスプレイすることができる。図２を例として、ユーザがクライアントのライブ配信インタラクションインターフェースに「手洗い方法」を入力した場合、表示インターフェースは、当該テキスト内容に対応する弾幕情報「手洗い方法」をディスプレイすることができる。

幾つかの実施例において、前記第２メッセージには前記指示内容に対する応答テキストが含まれ、前記方法は、さらに、前記応答テキストを前記クライアントの表示インターフェースにディスプレイすることと、及び／又は、前記応答テキストに対応する音声ファイルを特定して再生することとが含まれる。

前記指示内容の応答テキストは、前記テキスト内容によって表される言語意図を識別し、予め設定されたデータベースから前記言語意図にマッチングしている応答テキストを検索して取得することができ、具体的な方法は、上記実施例の記載を参照してよく、ここで繰り返し説明しない。

ライブ動画配信のシーンを例として、同様に、弾幕情報の形式で、ユーザの弾幕情報に対する応答テキストを表示インターフェースにディスプレイし、且つ表示インターフェースに前記応答テキストに対応する音声ファイルを再生し、即ち、前記応答テキストに対応する音声を出力して、ユーザの弾幕情報に対し正確かつ直感的に応答することができ、ユーザのインタラクション体験が向上する。

幾つかの実施例において、前記第２メッセージには、前記応答テキストに対応する音素シーケンスにマッチングしている前記インタラクションオブジェクトの制御パラメータ、及び／又は、前記応答テキストに含まれる少なくとも１つの目標テキストにマッチングしている前記インタラクションオブジェクトの設定動作の制御パラメータが含まれる。前記サーバーによって前記第１メッセージに対して応答された第２メッセージに基づいて、前記クライアントの表示インターフェースに前記インタラクションオブジェクトの応答動画を再生することには、前記駆動データに基づいて、前記インタラクションオブジェクトの仮想モデルパラメータを調整することと、調整された仮想モデルパラメータに基づいて、レンダリングエンジンを用いて前記インタラクションオブジェクトの応答動画を生成し、前記クライアントの表示インターフェースにディスプレイすることとが含まれる。前記応答テキストに対応する音素シーケンスにマッチングしている前記インタラクションオブジェクトの制御パラメータを生成する方法、及び、前記応答テキストに含まれる少なくとも１つの目標テキストにマッチングしている前記インタラクションオブジェクトの設定動作の制御パラメータを生成する方法は、上記の実施例の記載を参照してよく、ここで繰り返し説明しない。

インタラクションオブジェクトの仮想モデルのデータ量が少なく、クライアントの性能の占有率が低下である場合に、前記クライアントは、前記駆動データを取得し、前記駆動データに基づいて応答動画を生成して、応答としてのインタラクションオブジェクトの画面を便利かつ柔軟にディスプレイできる。

幾つかの実施例において、前記第２メッセージには、さらに前記指示内容に対する前記インタラクションオブジェクトの応答動画が含まれ、前記サーバーによって前記第１メッセージに対して応答された第２メッセージに基づいて、前記クライアントの表示インターフェースに前記インタラクションオブジェクトの応答動画を再生することには、前記クライアントの表示インターフェースに前記応答動画をディスプレイすることが含まれる。

幾つかの実施例において、前記インタラクションオブジェクトに対応する仮想モデルは、サーバーまたはクラウドに記憶される。この場合、サーバーまたはクラウドで、応答動画を生成することができる。応答動画を生成する態様は、上記の実施例を参照してよく、ここで繰り返し説明しない。

前記応答動画をクライアントに送信して、前記インタラクションオブジェクトの応答を実施することにより、前記インタラクションオブジェクトの応答を実施し、クライアントのレンダリングによって引き起こされるラグを避け、且つ、クライアントに高品質の応答動画をディスプレイし、ユーザのインタラクション体験が向上することができる。

幾つかの実施例において、前記ユーザ入力操作には、ユーザが、前記表示インターフェースに表示される肢体操作画面に従って対応する人体姿勢を行うことが含まれる。この場合、クライアントからのユーザ入力操作に応答して、前記方法には、さらに、前記人体姿勢を含むユーザ行動画像を取得することと、前記ユーザ行動画像における人体姿勢情報を識別することと、前記人体姿勢情報に基づいて、前記表示インターフェースにディスプレイされるインタラクションオブジェクトに応答させることとが含まれる。

幾つかの実施例において、前記人体姿勢情報に基づいて、前記表示インターフェースにディスプレイされるインタラクションオブジェクトに応答させることには、前記人体姿勢情報と前記肢体操作画面における人体姿勢とのマッチング度を特定することと、前記マッチング度に基づいて、応答するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトを駆動することとが含まれる。

一実施例では、前記の前記マッチング度に基づいて、応答するように前記インタラクションオブジェクトを駆動することには、前記マッチング度が設定条件を満たした場合、姿勢合格の肢体動作の表示及び／又は音声提示を含む第１応答を実施するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトに指示し、次の肢体操作画面を表示し、前記マッチング度が設定条件を満たさない場合、姿勢不合格の肢体動作の表示及び／又は音声提示を含む第２応答を実施するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトに指示し、現在の肢体操作画面を表示し続ける。

例示的に、以下は、ライブ動画配信プラットフォームシーンに応用される本発明の一部の実施例である。

幾つかの実施例において、クライアントから受信された第１メッセージは、ライブ配信プラットフォームから転送されたユーザの弾幕テキストである。

幾つかの実施例において、ＮＬＰアルゴリズムを用いて弾幕の意図を分析することにより、対応する回答を取得し、その後、インタラクションオブジェクトによって前記回答の内容がディスプレイされる。さらに、インタラクションオブジェクトによって前記回答の内容に対応する動作がディスプレイされてもよい。

幾つかの実施例において、クライアントのＮＬＰ機能を直接統合して、前記第１メッセージに含まれる指示内容に対してＮＬＰを行い、前記指示内容の言語意図とマッチングしている、前記言語意図に適合する応答テキストを取得し、出力される前記応答テキストに対応する文字をインタラクションオブジェクトに直接提供して再生させる。

幾つかの実施例において、インタラクションオブジェクトは、ユーザの発話内容を模倣することができる。例えば、クライアントでユーザによって入力された音声に対して、前記音声をテキストに変換し、音声に基づいて前記ユーザの音声特徴を取得し、前記音声特徴に基づいてテキストに対応する音声を出力することにより、インタラクションオブジェクトがユーザの発話内容を模倣することが実現できる。

幾つかの実施例において、インタラクションオブジェクトは、さらに、ＮＬＰから返される内容に基づいてページディスプレイを行い、事前に設計されたディスプレイすべき内容、及びインタラクション態様に従ってＵＩ内容をディスプレイしてもよいため、応答内容のディスプレイをより目立ち、ユーザの注意を引くことができる。

上記実施例では、ライブ配信でリアルタイムにインタラクションし、実施可能であり、ライブ配信中に、ユーザは、リアルタイムにインタラクションオブジェクトとインタラクションして、フィードバックを取得することができる。また、中断なくライブ配信ができ、さらに、自動的にビデオ内容を生成できる、これらは、新しいライブ配信方式である。

例示的に、インタラクションオブジェクトは、３次元のデジタルヒューマンとしてディスプレイできる。デジタルヒューマンは、人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）のシミュレーション動画生成機能とＮＬＰの理解機能を組み合わせて、人間のように音声と姿勢でユーザと交流する。デジタルヒューマンは、回答内容に基づいて相応の口の形、表情、目つき及び全身動作を生成し、最終、音声とビデオが同期された高品質の音声及びビデオ内容を出力し、完全なデジタルヒューマン画像を自然的にユーザへディスプレイする。

幾つかの実施例において、様々な知識分野の内容サービスライブラリに迅速に接続でき、より多くの産業に効率的に応用できるし、様々なシーンの要求に応じて、超写実やカートゥーンなどの多様なスタイルのデジタルヒューマン姿を提供することもできるし、顔認識やジェスチャー認識などのＡＩ技術でユーザと知能インタラクションできる。例えば、超写実スタイルのデジタルヒューマンは、銀行、ビジネスホール、サービスホール用のスマートフロントデスクとして応用し、顧客とのリアルで効果的なタッチを行い、サービス品質と顧客満足度を向上させることができる。

幾つかの実施例において、カートゥーンスタイルのデジタルヒューマは、オフライン売り場におけるスマートガイドや、スマートコーチや、仮想教師など趣味的なインタラクション向けのシーンに適用することで、顧客の動線誘導、興味の刺激、教育効果の強化という目的を達成することができる。

本発明の少なくとも１つの実施例は、さらに、サーバーに応用するインタラクション装置を提供する。図５に示すように、前記装置５０は、クライアントからの第１メッセージを受信するための受信ユニット５０１と、前記第１メッセージに含まれる指示内容に基づいて、前記指示内容にマッチングしている駆動データを取得するための取得ユニット５０２と、前記駆動データを用いて、表示インターフェースに前記インタラクションオブジェクトの応答動画を再生するように前記クライアントを制御するための駆動ユニット５０３を有する。

幾つかの実施例において、取得ユニット５０２は、前記指示内容に対し、応答テキストを含む応答内容を取得し、前記応答テキストに含まれる少なくとも１つの目標テキストに基づいて、前記目標テキストにマッチングしているインタラクションオブジェクトの設定動作の制御パラメータを取得する。

幾つかの実施例において、取得ユニット５０２は、前記指示内容に対し、音素シーケンスを含む応答内容を取得し、前記音素シーケンスにマッチングしている前記インタラクションオブジェクトの制御パラメータを取得する。

前記インタラクションオブジェクトの制御パラメータには少なくとも１つの局所領域の姿勢制御ベクトルが含まれ、前記取得ユニット５０２は、前記音素シーケンスにマッチングしているインタラクションオブジェクトの第２制御パラメータを取得する際に、前記音素シーケンスに対して特徴コードを行い、前記音素シーケンスに対応する第１コードシーケンスを取得し、前記第１コードシーケンスに基づいて、少なくとも１つの音素に対応する特徴コードを取得し、前記特徴コードに対応する前記インタラクションオブジェクトの少なくとも１つの局所領域の姿勢制御ベクトルを取得するために用いられる。

幾つかの実施例において、前記装置は、さらに、前記指示内容に対する前記応答内容を含む指示情報を前記クライアントへ送信してクライアントが前記指示内容に基づいて前記応答内容をディスプレイするために用いられる送信ユニットを有する。

幾つかの実施例において、駆動ユニット５０３は、前記インタラクションオブジェクトの駆動データを前記クライアントに送信して、前記クライアントに駆動データに基づいて応答動画を生成させ、前記表示インターフェースに前記応答動画を再生するように前記クライアントを制御し、あるいは、前記駆動データに基づいて、前記インタラクションオブジェクトの２次元または３次元の仮想モデルパラメータを調整し、調整された２次元または３次元の仮想モデルパラメータに基づいて、レンダリングエンジンを用いて前記インタラクションオブジェクトの応答動画を生成し、且つ、前記応答動画を前記クライアントへ送信する。

本発明の少なくとも１つの実施例は、さらに、クライアントに応用する他のインタラクション装置を提供する。図６に示すように、前記装置６０は、クライアントからのユーザ入力操作に応答して、指示内容を含む第１メッセージをサーバーへ送信するための送信ユニット６０１と、前記サーバーによって前記第１メッセージに対して応答された第２メッセージに基づいて、前記クライアントの表示インターフェースに前記インタラクションオブジェクトの応答動画を再生するための再生ユニット６０２を有する。前記インタラクションオブジェクトは、例えば、２次元または３次元の仮想モデルのような仮想モデルに基づいてレンダリングされたものである。

幾つかの実施例において、前記指示内容にはテキスト内容が含まれる。前記装置は、さらに、前記クライアントの表示インターフェースに前記テキスト内容をディスプレイし、及び／又は、前記テキスト内容に対応する音声ファイルを特定して再生するための第１ディスプレイユニットを有する。

幾つかの実施例において、前記第１ディスプレイユニットは、前記クライアントに前記テキスト内容をディスプレイする際に、具体的に、前記テキスト内容の弾幕情報を生成し、前記弾幕情報を前記クライアントの表示インターフェースにディスプレイするために用いられる。

幾つかの実施例において、前記第２メッセージには前記指示内容に対する応答テキストが含まれ、前記装置は、さらに、前記応答テキストを前記クライアントの表示インターフェースにディスプレイし、及び／又は、前記応答テキストに対応する音声ファイルを特定して再生するための第２ディスプレイユニットを有する。

幾つかの実施例において、前記第２メッセージには前記インタラクションオブジェクトの駆動データが含まれる。前記再生ユニット６０２は、前記駆動データに基づいて、前記インタラクションオブジェクトの仮想モデルパラメータを調整し、調整された仮想モデルパラメータに基づいて、レンダリングエンジンを用いて前記インタラクションオブジェクトの応答動画を生成し、且つ、前記クライアントの表示インターフェースにディスプレイする。前記駆動データには、前記指示内容に対する応答テキストに対応する音素シーケンスにマッチングしている前記インタラクションオブジェクト用の制御パラメータ、及び／又は、前記応答テキストに含まれる少なくとも１つの目標テキストにマッチングしている前記インタラクションオブジェクトの設定動作の制御パラメータが含まれる。

幾つかの実施例において、前記第２メッセージには、前記指示内容に対する前記インタラクションオブジェクトの応答動画が含まれる。

幾つかの実施例において、前記ユーザ入力操作には、ユーザが、前記表示インターフェースに表示される肢体操作画面に従って対応する人体姿勢を行うことが含まれる。送信ユニット６０１は、さらに、前記人体姿勢を含むユーザ行動画像を取得し、前記ユーザ行動画像における人体姿勢情報を識別し、前記人体姿勢情報に基づいて、前記表示インターフェースにディスプレイされるインタラクションオブジェクトに応答させる。

幾つかの実施例において、送信ユニット６０１は、具体的に、前記人体姿勢情報と前記肢体操作画面における人体姿勢とのマッチング度を特定し、前記マッチング度に基づいて、応答するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトを駆動するために用いられる。

幾つかの実施例において、送信ユニット６０１は、具体的に、前記マッチング度が設定条件を満たした場合、姿勢合格の肢体動作の表示及び／又は音声提示を含む第１応答を実施するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトに指示し、次の肢体操作画面を表示し、前記マッチング度が設定条件を満たさない場合、姿勢不合格の肢体動作の表示及び／又は音声提示を含む第２応答を実施するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトに指示し、現在の肢体操作画面を表示し続ける。

本発明の少なくとも１つの実施例は、さらに、電子機器を提供する。図７に示すように、電子機器７０は、メモリー７０１、プロセッサ７０２を有する。前記メモリー７０１は、プロセッサ７０２の実施可能のコンピュータ指令を記憶するために用いられる。前記プロセッサ７０２は、前記コンピュータ指令が実施される時に、本発明のサーバー実施例に記載の前記インタラクション方法が実現される。

本明細書の少なくとも１つの実施例は、さらに、コンピュータプログラムを記憶するコンピュータ可読記憶媒体を提出する。前記プログラムは、プロセッサ７０２よって実施される時に、本発明のサーバー実施例に記載の前記インタラクション方法が実現される。

本発明の少なくとも１つの実施例は、さらに、電子機器を提供する。図８に示すように、電子機器８０は、メモリー８０１、プロセッサ８０２を有する。前記メモリー８０１は、プロセッサ８０２によって実施されるコンピュータ指令を記憶する。前記プロセッサ８０２は、前記コンピュータ指令が実施される時に、本発明のクライアント実施例に記載の前記インタラクション方法が実現される。

本明細書の少なくとも１つの実施例は、さらに、コンピュータプログラムを記憶するコンピュータ可読記憶媒体を提出する。前記プログラムは、プロセッサ８０２によって実施される時に、本発明のクライアント実施例に記載の前記インタラクション方法が実現される。

当業者であれば理解できるように、本明細書の１つ又は複数の実施例は、方法、システム又はコンピュータプログラム製品として提供され得る。したがって、本明細書の１つ又は複数の実施例は、１００％ハードウェアの実施例、１００％ソフトウェアの実施例、又はソフトウェアとハードウェアとを組み合わせた態様の実施例の形式を採用してもよい。また、本明細書の１つ又は複数の実施例は、１つ又は複数の、コンピュータ利用可能なプログラムコードを含むコンピュータ利用可能な記憶媒体（磁気ディスクメモリー、ＣＤ－ＲＯＭ、光学メモリー等を含むが、それらに限定されない）で実施されるコンピュータプログラム製品の形式を採用してもよい。

本明細書における各実施例は、何れも漸進の方式で記述され、各実施例は、他の実施例との相違点を重点的に説明し、各実施例同士の同じ又は類似する部分が互いに参照すればよい。特に電子機器の実施例は、方法実施例に基本的に類似するため、記述が相対的に簡単であり、関連部分は実施例の部分の説明を参照すればよい。

以上は、本明細書の特定の実施例について記述した。他の実施例は、添付する特許請求の範囲のスコープ内に含まれる。幾つかの場合において、特許請求の範囲に記載の挙動又はステップは、実施例における順番と異なる順番で実施可能であり、且つ依然として所望の結果を得ることができる。また、図面に描かれた手順は、示された特定の順番又は連続順番でないと所望の結果を得られないことを要求するとは限らない。幾つかの実施形態において、マルチタスク処理及び並行処理も、実施可能であり、又は有利なものである。

本明細書に記述されたテーマ及び機能操作の実施例は、デジタル電子回路、有形的に体現されたコンピュータソフトウェア若しくはファームウェア、本明細書に開示された構造及びその構造的均等物を含むコンピュータハードウェア、又はそれらのうちの１つ又は複数の組み合わせにおいて実現され得る。本明細書に記述されたテーマの実施例は、１つ又は複数のコンピュータプログラム、即ち、有形の非一時的なプログラムキャリア上にコーディングされることでデータ処理装置によって実施され又はデータ処理装置の操作が制御されるコンピュータプログラム指令における１つ又は複数のモジュールとして実現され得る。代替的に又は追加的に、プログラム指令は、人工で生成された伝送信号、例えば機器で生成された電気、光又は電磁的信号にコーディングされてもよい。当該信号は、生成されることで情報を符号化して適切な受信機装置へ伝送されてデータ処理装置に実施させる。コンピュータ記憶媒体は、機器読み取り可能な記憶機器、機器読み取り可能な記憶基板、ランダム若しくはシリアルアクセスメモリー機器、又はそれらのうちの１つ又は複数の組み合わせであってもよい。

本明細書に記述された処理及び論理フローは、１つ又は複数のコンピュータプログラムを実施する１つ又は複数のプログラマブルコンピュータによって実施されて、入力データに応じて操作を行って出力を生成して対応する機能を実施させてもよい。前記処理及び論理フローは、専用論理回路、例えばＦＰＧＡ（フィールドプログラマブルゲートアレイ）又はＡＳＩＣ（特定用途向け集積回路）によって実施されてもよく、装置８０も専用論理回路として実現されてもよい。

コンピュータプログラムの実施に適するコンピュータは、例えば、汎用及び／又は専用マイクロプロセッサ、又は如何なる他のタイプの中央処理装置を含む。通常、中央処理装置は、読み出し専用メモリー及び／又はランダムアクセスメモリーから指令及びデータを受信する。コンピュータの基本ユニットは、指令を実施や実施するための中央処理装置と、指令及びデータを記憶するための１つ又は複数のメモリー機器とを備える。通常、コンピュータは、更に、データを記憶するための１つ又は複数の大容量記憶機器、例えば、磁気ディスク、光磁気ディスク又は光ディスク等を含み、又は、コンピュータは、この大容量記憶機器に操作可能にカップリングされてそれからデータを受信したりそれへデータを伝送したりし、又は、２種の状況を兼ね備える。しかし、コンピュータは、このような機器を必ず有するとは限らない。また、コンピュータは、別の機器、例えば、携帯電話、パーソナルデジタルアシスタント（ＰＤＡ）、モバイルオーディオ又はビデオプレーヤ、ゲームコンソール、全地球測位システム（ＧＰＳ）受信機、又は、例えばユニバーサルシリアルバス（ＵＳＢ）フラッシュメモリードライバの携帯型記憶機器に組み込まれてもよい。以上は、単に幾つかの例である。

コンピュータプログラム指令及びデータを記憶するのに適するコンピュータ可読媒体は、あらゆる形態の不揮発性メモリー、メディアとメモリー機器を含み、例えば、半導体メモリー機器（例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭとフラッシュメモリー機器）、磁気ディスク（例えば、内部ハードディスク又はリムーバブルディスク）、光磁気ディスク及びＣＤＲＯＭとＤＶＤ－ＲＯＭディスクを含む。プロセッサとメモリーは、専用論理回路によって補充され又は専用論理回路に統合されてもよい。

本明細書が大量の具体的な実施詳細を含むが、これらの詳細は、如何なる開示範囲又は保護請求される範囲を制限するとは解釈されるべきではなく、主に特定の開示された具体的な実施例の特徴を記述するために用いられる。本明細書の複数の実施例に記述された幾つかの特徴は、単一の実施例において組み合わせて実施されてもよい。その一方、単一の実施例に記述された各種の特徴は、複数の実施例に分けて実施され、又は、如何なる適切なサブ組み合わせとして実施されてもよい。また、特徴が上記のように幾つかの組み合わせにおいて役割を果たし、ひいてはこのように保護するように最初は要求されてもよいが、保護請求される組み合わせからの１つ又は複数の特徴は、幾つかの場合において当該組み合わせから除去されてもよく、更に、保護請求される組み合わせは、サブ組み合わせ又はサブ組み合わせの変形を指してもよい。

類似的に、図面に特定の順番で操作が描かれたが、これらの操作が示された特定の順番で実施され又は順に実施され又は全ての例示の操作が実施されて所望の結果を得ることを要求するとして理解されるべきではない。幾つかの場合に、マルチタスク及び並行処理は、有利である可能性がある。また、上記実施例における各種のシステムモジュールとユニットの分離は、全ての実施例においてこのような分離を必要とすると理解されるべきではない。更に、理解できるように、記述されるプログラムユニット及びシステムは、通常、単一のソフトウェア製品に統合されてもよく、又は複数のソフトウェア製品としてカプセル化されてもよい。

このように、テーマの特定実施例が記述された。他の実施例は、添付する特許請求の範囲のスコープ内に含まれる。幾つかの場合において、特許請求の範囲に記載の動作は、異なる順番で実施可能であり、且つ依然として所望の結果を得ることができる。また、図面に描かれた処理が必ずしも示された特定の順番又は連続順番で所望の結果を得るとは限らない。幾つかの実施形態において、マルチタスク処理及び並行処理は、有利である可能性がある。

上述したのは、本明細書の１つ又は複数の実施例の好適な実施例に過ぎず、本明細書の１つ又は複数の実施例を制限するためのものではない。本明細書の１つ又は複数の実施例の精神及び原則内でなされた如何なる変更、均等物による置換、改良等も、本明細書の１つ又は複数の実施例の保護範囲内に含まれるべきである。

Claims

クライアントからの第１メッセージを受信することと、
前記第１メッセージに含まれる指示内容に基づいて、前記指示内容にマッチングしている駆動データを取得することと、
前記駆動データを用いて、前記インタラクションオブジェクトの応答動画を再生するように、前記クライアントの表示インターフェースを制御することと、を含む
ことを特徴とするインタラクション方法。
前記第１メッセージに含まれる指示内容に基づいて、前記指示内容にマッチングしている駆動データを取得することには、
前記指示内容に対し、応答テキストを含む応答内容を取得することと、
前記応答テキストに含まれる少なくとも１つの目標テキストに基づいて、前記目標テキストにマッチングしているインタラクションオブジェクトの設定動作の制御パラメータを取得することと、が含まれる
ことを特徴とする請求項１に記載のインタラクション方法。
前記第１メッセージに含まれる指示内容に基づいて、前記指示内容にマッチングしている駆動データを取得することには、
前記指示内容に対し、音素シーケンスを含む応答内容を取得することと、
前記音素シーケンスにマッチングしている前記インタラクションオブジェクトの制御パラメータを取得することと、が含まれる
ことを特徴とする請求項１または２に記載のインタラクション方法。
前記インタラクションオブジェクトの制御パラメータには少なくとも１つの局所領域の姿勢制御ベクトルが含まれ、
前記音素シーケンスにマッチングしている前記インタラクションオブジェクトの制御パラメータを取得することには、
前記音素シーケンスに対して特徴コードを行い、前記音素シーケンスに対応する第１コードシーケンスを取得することと、
前記第１コードシーケンスに基づいて、少なくとも１つの音素に対応する特徴コードを取得することと、
前記特徴コードに対応する前記インタラクションオブジェクトの少なくとも１つの局所領域の姿勢制御ベクトルを取得することと、が含まれる
ことを特徴とする請求項３に記載のインタラクション方法。
前記インタラクション方法は、さらに、
前記応答内容を含む指示情報を前記クライアントに送信して、前記クライアントに前記指示情報に基づいて前記応答内容をディスプレイさせることを含む
ことを特徴とする請求項１から４のいずれか一項に記載のインタラクション方法。
前記駆動データを用いて、前記インタラクションオブジェクトの応答動画を再生するように、前記クライアントの表示インターフェースを制御することには、
前記インタラクションオブジェクトの駆動データを前記クライアントに送信して、前記クライアントに駆動データに基づいて応答動画を生成させ、前記表示インターフェースに前記応答動画を再生するように前記クライアントを制御することと、
あるいは、前記駆動データに基づいて、前記インタラクションオブジェクトの仮想モデルパラメータを調整し、調整された仮想モデルパラメータに基づいて、レンダリングエンジンを用いて前記インタラクションオブジェクトの応答動画を生成し、前記応答動画を前記クライアントへ送信することと、が含まれる
ことを特徴とする請求項１から５のいずれか一項に記載のインタラクション方法。
クライアントからのユーザ入力操作に応答して、指示内容を含む第１メッセージをサーバーへ送信することと、
前記サーバーによって前記第１メッセージに対して応答された第２メッセージに基づいて、前記クライアントの表示インターフェースに前記インタラクションオブジェクトの応答動画を再生することと、を含む
ことを特徴とするインタラクション方法。
前記指示内容にはテキスト内容が含まれ、
前記インタラクション方法は、さらに、前記クライアントに、前記テキスト内容をディスプレイすること、及び／又は、前記テキスト内容に対応する音声ファイルを再生すること、を含む
ことを特徴とする請求項７に記載のインタラクション方法。
前記クライアントに前記テキスト内容をディスプレイすることには、前記テキスト内容の弾幕情報を生成することと、前記クライアントの表示インターフェースに前記弾幕情報をディスプレイすることと、が含まれる
ことを特徴とする請求項８に記載のインタラクション方法。
前記第２メッセージには前記指示内容に対する応答テキストが含まれ、
前記インタラクション方法は、さらに、
前記応答テキストを前記クライアントの表示インターフェースにディスプレイすること、及び／又は、
前記応答テキストに対応する音声ファイルを特定して再生すること、を含む
ことを特徴とする請求項７から９のいずれか一項に記載のインタラクション方法。
前記第２メッセージには前記インタラクションオブジェクトの駆動データが含まれ、
前記サーバーによって前記第１メッセージに対して応答された第２メッセージに基づいて、前記クライアントの表示インターフェースに前記インタラクションオブジェクトの応答動画を再生することには、
前記駆動データに基づいて、前記インタラクションオブジェクトの仮想モデルパラメータを調整することと、
調整された仮想モデルパラメータに基づいて、レンダリングエンジンを用いて前記インタラクションオブジェクトの応答動画を生成し、前記クライアントの表示インターフェースにディスプレイすることと、
前記駆動データには、前記応答テキストに対応する音素シーケンスにマッチングしている前記インタラクションオブジェクト用の制御パラメータ、及び／又は、前記応答テキストに含まれる少なくとも１つの目標テキストにマッチングしている前記インタラクションオブジェクト用の設定動作の制御パラメータが含まれる
ことを特徴とする請求項８から１０のいずれか一項に記載のインタラクション方法。
前記第２メッセージには、前記指示内容に対する前記インタラクションオブジェクトの応答動画が含まれる
ことを特徴とする請求項８から１１のいずれか一項に記載のインタラクション方法。
前記ユーザ入力操作には、ユーザが、前記表示インターフェースに表示される肢体操作画面に従って対応する人体姿勢を行うことが含まれ、
クライアントからのユーザ入力操作に応答して、前記インタラクション方法は、さらに、
前記人体姿勢を含むユーザ行動画像を取得することと、
前記ユーザ行動画像における人体姿勢情報を識別することと、
前記人体姿勢情報に基づいて、前記表示インターフェースにディスプレイされるインタラクションオブジェクトに応答させることと、を含む
ことを特徴とする請求項７の記載のインタラクション方法。
前記人体姿勢情報に基づいて、前記表示インターフェースにディスプレイされるインタラクションオブジェクトに応答させることには、
前記人体姿勢情報と前記肢体操作画面における人体姿勢とのマッチング度を特定することと、
前記マッチング度に基づいて、応答するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトを駆動することと、が含まれる
ことを特徴とする請求項１３に記載のインタラクション方法。
前記マッチング度に基づいて、応答するように前記インタラクションオブジェクトを駆動することには、
前記マッチング度が設定条件を満たした場合、姿勢合格の肢体動作の表示及び／又は音声提示を含む第１応答を実施するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトに指示し、次の肢体操作画面を表示することと、
前記マッチング度が設定条件を満たさない場合、姿勢不合格の肢体動作の表示及び／又は音声提示を含む第２応答を実施するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトに指示し、現在の肢体操作画面を表示し続けることが含まれる
ことを特徴とする請求項１４に記載のインタラクション方法。
クライアントからの第１メッセージを受信するための受信ユニットと、
前記第１メッセージに含まれる指示内容に基づいて、前記指示内容にマッチングしている駆動データを取得するための取得ユニットと、
前記駆動データを用いて、表示インターフェースに前記インタラクションオブジェクトの応答動画を再生するように前記クライアントを制御するための駆動ユニット
を有することを特徴とするインタラクション装置。
クライアントからのユーザ入力操作に応答して、指示内容を含む第１メッセージをサーバーへ送信するための送信ユニットと、
前記サーバーによって前記第１メッセージに対して応答された第２メッセージに基づいて、前記クライアントの表示インターフェースに前記インタラクションオブジェクトの応答動画を再生するための再生ユニット
を有することを特徴とするインタラクション装置。
メモリー、プロセッサを有する電子機器であって、
前記メモリーは、前記プロセッサによって実行されるコンピュータ指令を格納し、前記プロセッサは、前記コンピュータ指令を実行すると、請求項１から６いずれか一項に記載の方法を実施し、あるいは、前記プロセッサは、前記コンピュータ指令を実行すると、請求項７から１５いずれか一項に記載記の方法を実施する。
ことを特徴とする電子機器。
コンピュータプログラムを記憶するコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータプログラムはプロセッサによって実行されると、請求項１から６いずれか一項に記載の方法が実施され、あるいは、前記コンピュータプログラムはプロセッサによって実行されると、請求項７から１５いずれか一項に記載の方法が実施される
ことを特徴とするコンピュータ読み取り可能な記憶媒体。