JP2022524944A - インタラクション方法、装置、電子機器及び記憶媒体 - Google Patents

インタラクション方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP2022524944A
JP2022524944A JP2021549324A JP2021549324A JP2022524944A JP 2022524944 A JP2022524944 A JP 2022524944A JP 2021549324 A JP2021549324 A JP 2021549324A JP 2021549324 A JP2021549324 A JP 2021549324A JP 2022524944 A JP2022524944 A JP 2022524944A
Authority
JP
Japan
Prior art keywords
response
client
interaction
interaction object
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021549324A
Other languages
English (en)
Inventor
子隆 ▲張▼
林 ▲孫▼
露 路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of JP2022524944A publication Critical patent/JP2022524944A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video

Abstract

本発明は、インタラクション方法、装置、電子機器及び記憶媒体を提供する。前記方法は、クライアントからの第1メッセージを受信することと、前記第1メッセージに含まれる指示内容に基づいて、前記指示内容にマッチングしている駆動データを取得することと、前記駆動データを用いて、前記インタラクションオブジェクトの応答動画を再生するように前記クライアントの表示インターフェースを制御することと、を含む。【選択図】図1

Description

本発明は、コンピュータ分野に関し、具体的にインタラクション方法、装置、電子機器及び記憶媒体に関する。
インターネットの急速な発展に伴い、ライブ配信は重要な情報伝播手段となっています。視聴者によってインターネットライブ配信を視聴する期間が異なり、人間の配信者によるライブ配信は、さまざまな視聴者のニーズを満たすために中断なく24時間行うことができない。デジタルヒューマンによるライブ配信は、この課題を解決できるが、デジタルヒューマンの配信者と視聴者との間のインタラクション技術を研究開発する必要がある。
本発明の一態様では、クライアントからの第1メッセージを受信することと、前記第1メッセージに含まれる指示内容に基づいて、前記指示内容にマッチングしている駆動データを取得することと、前記駆動データを用いて、前記インタラクションオブジェクトの応答動画を再生するように、前記クライアントの表示インターフェースを制御することを含むインタラクション方法を提供する。
本発明のいずれか1つの実施形態に係って、前記第1メッセージに含まれる指示内容に基づいて、前記指示内容にマッチングしている駆動データを取得することには、前記指示内容に対し、応答テキストを含む応答内容を取得することと、前記応答テキストに含まれる少なくとも1つの目標テキストに基づいて、前記目標テキストにマッチングしているインタラクションオブジェクトの設定動作の制御パラメータを取得することと、が含まれる。
本発明のいずれか1つの実施形態に係って、前記第1メッセージに含まれる指示内容に基づいて、前記指示内容にマッチングしている駆動データを取得することには、前記指示内容に対し、音素シーケンスを含む応答内容を取得することと、前記音素シーケンスにマッチングしている前記インタラクションオブジェクトの制御パラメータを取得することが含まれる。
本発明のいずれか1つの実施形態に係って、前記インタラクションオブジェクトの制御パラメータには、少なくとも1つの局所領域の姿勢制御ベクトルが含まれ、前記音素シーケンスにマッチングしている前記インタラクションオブジェクトの制御パラメータを取得することには、前記音素シーケンスに対して特徴コードを行い、前記音素シーケンスに対応する第1コードシーケンスを取得することと、前記第1コードシーケンスに基づいて、少なくとも1つの音素に対応する特徴コードを取得することと、前記特徴コードに対応する前記インタラクションオブジェクトの少なくとも1つの局所領域の姿勢制御ベクトルを取得すること、が含まれる。
本発明のいずれか1つの実施形態に係って、前記方法には、さらに、前記応答内容を含む指示情報を前記クライアントに送信して、前記クライアントに前記指示情報に基づいて前記応答内容をディスプレイさせることが含まれる。
本発明のいずれか1つの実施形態に係って、前記駆動データを用いて、前記インタラクションオブジェクトの応答動画を再生するように、前記クライアントの表示インターフェースを制御することには、前記インタラクションオブジェクトの駆動データを前記クライアントに送信して、前記クライアントに駆動データに基づいて応答動画を生成させ、前記表示インターフェースに前記応答動画を再生するように前記クライアントを制御することと、あるいは、前記駆動データに基づいて、前記インタラクションオブジェクトの仮想モデルパラメータを調整し、調整された仮想モデルパラメータに基づいて、レンダリングエンジンを用いて前記インタラクションオブジェクトの応答動画を生成し、前記応答動画を前記クライアントへ送信することと、が含まれる。
本発明の一態様は、クライアントからのユーザ入力操作に応答して、指示内容を含む第1メッセージをサーバーへ送信することと、前記サーバーによって前記第1メッセージに対して応答された第2メッセージに基づいて、前記クライアントの表示インターフェースに前記インタラクションオブジェクトの応答動画を再生することと、を含むインタラクション方法を提供する、
本発明のいずれか1つの実施形態に係って、前記指示内容にはテキスト内容が含まれ、前記方法には、さらに、前記クライアントに、前記テキスト内容をディスプレイすること、及び/又は、前記テキスト内容に対応する音声ファイルを再生することが含まれる。
本発明のいずれか1つの実施形態に係って、前記クライアントに前記テキスト内容をディスプレイすることには、前記テキスト内容の弾幕情報を生成することと、前記弾幕情報を前記クライアントの表示インターフェースにディスプレイすることが含まれる。
本発明のいずれか1つの実施形態に係って、前記第2メッセージには前記指示内容に対する応答テキストが含まれ、前記方法には、さらに、前記応答テキストを前記クライアントの表示インターフェースにディスプレイすることと、及び/又は、前記応答テキストに対応する音声ファイルを特定して再生することが含まれる。
本発明のいずれか1つの実施形態に係って、前記第2メッセージには前記インタラクションオブジェクトの駆動データが含まれ、前記サーバーによって前記第1メッセージに対して応答された第2メッセージに基づいて、前記クライアントの表示インターフェースに前記インタラクションオブジェクトの応答動画を再生することには、前記駆動データに基づいて、前記インタラクションオブジェクトの仮想モデルパラメータを調整することと、調整された仮想モデルパラメータに基づいて、レンダリングエンジンを用いて前記インタラクションオブジェクトの応答動画を生成し、前記クライアントの表示インターフェースにディスプレイすることが含まれる。前記駆動データには、前記応答テキストに対応する音素シーケンスにマッチングしている前記インタラクションオブジェクト用の制御パラメータ、及び/又は、前記応答テキストに含まれる少なくとも1つの目標テキストにマッチングしている前記インタラクションオブジェクト用の設定動作の制御パラメータが含まれる。
本発明のいずれか1つの実施形態に係って、前記第2メッセージには、前記指示内容に対する前記インタラクションオブジェクトの応答動画が含まれる。
本発明のいずれか1つの実施形態に係って、前記ユーザ入力操作には、ユーザが、前記表示インターフェースに表示される肢体操作画面に従って対応する人体姿勢を行うことが含まれ、クライアントからのユーザ入力操作に応答して、前記人体姿勢を含むユーザ行動画像を取得し、前記ユーザ行動画像における人体姿勢情報を識別し、前記人体姿勢情報に基づいて、前記表示インターフェースにディスプレイされるインタラクションオブジェクトに応答させる。
本発明のいずれか1つの実施形態に係って、前記人体姿勢情報に基づいて、前記表示インターフェースにディスプレイされるインタラクションオブジェクトに応答させることには、前記人体姿勢情報と前記肢体操作画面における人体姿勢とのマッチング度を特定することと、前記マッチング度に基づいて、応答するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトを駆動することが含まれる。
本発明のいずれか1つの実施形態に係って、前記の前記マッチング度に基づいて、応答するように前記インタラクションオブジェクトを駆動することには、前記マッチング度が設定条件を満たした場合、姿勢合格の肢体動作の表示及び/又は音声提示を含む第1応答を実施するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトに指示し、次の肢体操作画面を表示し、前記マッチング度が設定条件を満たさない場合、姿勢不合格の肢体動作の表示及び/又は音声提示を含む第2応答を実施するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトに指示し、現在の肢体操作画面を表示し続けることが含まれる。
本発明の一態様は、クライアントからの第1メッセージを受信するための受信ユニットと、前記第1メッセージに含まれる指示内容に基づいて、前記指示内容にマッチングしている駆動データを取得するための取得ユニットと、前記駆動データを用いて、表示インターフェースに前記インタラクションオブジェクトの応答動画を再生するように前記クライアントを制御するための駆動ユニットを有するインタラクション装置を提供する。
本発明のいずれか1つの実施形態に係って、前記取得ユニットは、具体的に、前記指示内容に対し、応答テキストを含む応答内容を取得し、前記応答テキストに含まれる少なくとも1つの目標テキストに基づいて、前記目標テキストにマッチングしているインタラクションオブジェクトの設定動作の制御パラメータを取得するために用いられる。
本発明のいずれか1つの実施形態に係って、前記取得ユニットは、前記指示内容に対し、音素シーケンスを含む応答内容を取得し、前記音素シーケンスにマッチングしている前記インタラクションオブジェクトの制御パラメータを取得する。
本発明のいずれか1つの実施形態に係って、前記インタラクションオブジェクトの制御パラメータには少なくとも1つの局所領域の姿勢制御ベクトルが含まれ、前記取得ユニットは、前記音素シーケンスにマッチングしているインタラクションオブジェクトの第2制御パラメータを取得する際に、前記音素シーケンスに対して特徴コードを行い、前記音素シーケンスに対応する第1コードシーケンスを取得し、前記第1コードシーケンスに基づいて、少なくとも1つの音素に対応する特徴コードを取得し、前記特徴コードに対応する前記インタラクションオブジェクトの少なくとも1つの局所領域の姿勢制御ベクトルを取得するために用いられる。
本発明のいずれか1つの実施形態に係って、前記装置は、さらに、前記指示内容に対する前記応答内容を含む指示情報を前記クライアントへ送信してクライアントが前記指示内容に基づいて前記応答内容をディスプレイするために用いられる送信ユニットを有する。
本発明のいずれか1つの実施形態に係って、前記駆動ユニットは、前記インタラクションオブジェクトの駆動データを前記クライアントに送信して、前記クライアントに駆動データに基づいて応答動画を生成させ、前記表示インターフェースに前記応答動画を再生するように前記クライアントを制御し、あるいは、前記駆動データに基づいて、前記インタラクションオブジェクトの2次元または3次元の仮想モデルパラメータを調整し、調整された2次元または3次元の仮想モデルパラメータに基づいて、レンダリングエンジンを用いて前記インタラクションオブジェクトの応答動画を生成し、且つ、前記応答動画を前記クライアントへ送信する。
本発明の一態様は、クライアントからのユーザ入力操作に応答して、指示内容を含む第1メッセージをサーバーへ送信するための送信ユニットと、前記サーバーによって前記第1メッセージに対して応答された第2メッセージに基づいて、前記クライアントの表示インターフェースに前記インタラクションオブジェクトの応答動画を再生するための再生ユニットとを有するインタラクション装置を提供する。
本発明のいずれか1つの実施形態に係って、前記指示内容にはテキスト内容が含まれ、前記装置は、さらに、前記クライアントの表示インターフェースに前記テキスト内容をディスプレイし、及び/又は、前記テキスト内容に対応する音声ファイルを特定して再生するための第1ディスプレイユニットを有する。
本発明のいずれか1つの実施形態に係って、前記第1ディスプレイユニットは、前記クライアントに前記テキスト内容をディスプレイする際に、具体的に、前記テキスト内容の弾幕情報を生成し、前記弾幕情報を前記クライアントの表示インターフェースにディスプレイするために用いられる。
本発明のいずれか1つの実施形態に係って、前記第2メッセージには前記指示内容に対する応答テキストが含まれ、前記装置は、さらに、前記応答テキストを前記クライアントの表示インターフェースにディスプレイし、及び/又は、前記応答テキストに対応する音声ファイルを特定して再生するための第2ディスプレイユニットを有する。
本発明のいずれか1つの実施形態に係って、前記第2メッセージには前記インタラクションオブジェクトの駆動データが含まれ、前記再生ユニットは、前記駆動データに基づいて、前記インタラクションオブジェクトの仮想モデルパラメータを調整し、調整された仮想モデルパラメータに基づいて、レンダリングエンジンを用いて前記インタラクションオブジェクトの応答動画を生成し、且つ、前記クライアントの表示インターフェースにディスプレイする。前記駆動データには、前記指示内容に対する応答テキストに対応する音素シーケンスにマッチングしている前記インタラクションオブジェクト用の制御パラメータ、及び/又は、前記応答テキストに含まれる少なくとも1つの目標テキストにマッチングしている前記インタラクションオブジェクトの設定動作の制御パラメータが含まれる。
本発明のいずれか1つの実施形態に係って、前記第2メッセージには、前記指示内容に対する前記インタラクションオブジェクトの応答動画が含まれる。
本発明のいずれか1つの実施形態に係って、前記ユーザ入力操作には、ユーザが、前記表示インターフェースに表示される肢体操作画面に従って対応する人体姿勢を行うことが含まれ、前記送信ユニットは、さらに、前記人体姿勢を含むユーザ行動画像を取得し、前記ユーザ行動画像における人体姿勢情報を識別し、前記人体姿勢情報に基づいて、前記表示インターフェースにディスプレイされるインタラクションオブジェクトに応答させるために用いられる。
本発明のいずれか1つの実施形態に係って、前記送信ユニットは、具体的に、前記人体姿勢情報と前記肢体操作画面における人体姿勢とのマッチング度を特定し、前記マッチング度に基づいて、応答するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトを駆動するために用いられる。
本発明のいずれか1つの実施形態に係って、前記送信ユニットは、具体的に、前記マッチング度が設定条件を満たした場合、姿勢合格の肢体動作の表示及び/又は音声提示を含む第1応答を実施するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトに指示し、次の肢体操作画面を表示し、前記マッチング度が設定条件を満たさない場合、姿勢不合格の肢体動作の表示及び/又は音声提示を含む第2応答を実施するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトに指示し、現在の肢体操作画面を表示し続けるために用いられる。
本発明の一態様は、メモリー、プロセッサを有する電子機器を提供する。前記メモリーには、プロセッサに実施可能のコンピュータ指令が記憶される。プロセッサは、前記コンピュータ指令が実施される時に、本発明のいずれか1つの実施形態に供されるインタラクション方法を実施させるために用いられる。
本発明の一態様は、コンピュータプログラムを記憶するコンピュータ読み取り可能な記憶媒体を提供する。前記コンピュータプログラムは、プロセッサによって実施される時に、本発明のいずれか1つの実施形態に供されるインタラクション方法が実施される。
以下、本発明の1つまたは複数の実施形態をより明確に説明するために、実施形態に必要な添付の図を簡単に紹介する。明らかに、以下の説明における図は、本明細書に記載している1つまたは複数の実施例の一部に過ぎず、当業者は、創造的な労力なしに、これらの図に基づいて他の図を得ることができる。
本発明の少なくとも1つの実施例によるインタラクション方法を示すフローチャートである。 本発明の少なくとも1つの実施例で提案されるインタラクション方法をライブ配信過程に応用する模式図である。 本発明の少なくとも1つの実施例で提案される姿勢制御ベクトルを取得する方法フローチャートである。 本発明の少なくとも1つの実施例による他のインタラクション方法のフローチャートである。 本発明の少なくとも1つの実施例によるインタラクション装置の構造模式図である。 本発明の少なくとも1つの実施例による他のインタラクション装置の構造模式図である。 本発明の少なくとも1つの実施例による電子機器の構造模式図である。 本発明の少なくとも1つの実施例による他の電子機器の構造模式図である。
ここで、例示的な実施例を詳細に説明する。その例示は、図面に示される。以下の記述は、図面に係る際、別途示さない限り、異なる図面における同じ符号が同じ又は類似する要素を示す。以下の例示的な実施例に記述される実施形態が本発明と一致する全ての実施形態を代表するわけではない。逆に、それらは、単に添付する特許請求の範囲に詳細に記述されるような、本発明の幾つかの態様に一致する装置及び方法の例である。
本明細書中の「および/または」という用語は、ただ、関連オブジェクトの関連関係を叙述し、例えば、Aおよび/またはBは、Aが単独的に存在すること、AとBが同時に存在すること、および、Bが単独的に存在することのような、3種の関係が存在することができることを意味する。また、本明細書中の「少なくとも1種」という用語は、複数種の中の任意の1種、または、複数種の中の少なくとも2種の任意の組み合わせを意味し、例えば、A、B、Cの中の少なくとも1種を含むことは、A、B、および、Cから構成されたセットの中から選択した任意1つまたは複数の要素を意味する。
デジタルヒューマンを配信者として、任意の期間でもライブ配信を行うことができ、且つ、24時間無停止のライブ配信を実現でき、ライブ配信を視聴する時間に対するさまざまな視聴者の異なるニーズを満たす。デジタルヒューマンは、ライブ配信中のユーザのインタラクションオブジェクトとして、ユーザからの質問に対してどのようにタイムリーなフィードバックを行うこと、及び、どのようにユーザと自然的で生き生きしたインタラクションを行うことは、解決すべき緊急の問題である。
これを考慮して、本発明は、ネットワークライブ配信などの仮想のインタラクションオブジェクトとインタラクティブする任意のシーンに応用できるインタラクション技術案を提供する。
本発明の実施例で提出されるインタラクション方法は、端末機器またはサーバーに適用可能であり、端末機器は、例えば、携帯電話、タブレットなどのような、クライアントがインストールされた電子機器であってもよい。本発明は、端末機器の形態を限定するものではない。クライアントは、例えば、ライブ動画配信のクライアント、体感型インタラクションクライアントなどを含むライブ配信のクライアントである。サーバーは、インタラクションオブジェクトの処理機能を提供できる任意のサーバーであってもよい。
インタラクションオブジェクトは、ユーザとインタラクションできる任意のインタラクションオブジェクトであってもよく、仮想キャラクターや、仮想動物、仮想物品、漫画キャラクターなどのような、インタラクション機能を実現できる仮想画像であってもよい。インタラクションオブジェクトは、2次元の仮想モデルに基づいて構築されてもよく、3次元の仮想モデルに基づいて構築されてもよく、インタラクションオブジェクトは、例えば、2次元または3次元の仮想モデルに対してレンダリングして得られる。前記ユーザは、人間やロボットや他の知能機器であってもよい。前記インタラクションオブジェクトと前記ユーザとの間のインタラクションは、能動的なインタラクションであってもよく、受動的なインタラクションであってもよい。
例示的に、ライブ動画配信のシーンにおいて、クライアントの表示インターフェースにインタラクションオブジェクトの動画をディスプレイ可能であり、ユーザは、端末機器のクライアントで、例えば、テキストの入力や音声の入力や動作トリガーやキートリガーなどの入力操作を実施して、インタラクションオブジェクトとのインタラクションを実現する。
図1は、本発明の少なくとも1つの実施例によるインタラクション方法のフローチャートである。当該インタラクション方法は、サーバー側に適用できる。図1に示すように、前記方法は、ステップ101~ステップ103を含む。
ステップ101では、クライアントからの第1メッセージを受信する。
例示的に、前記第1メッセージに含まれる指示内容は、前記ユーザが、クライアントで、入力操作を実施して入力された情報を含んでもよく、ユーザ入力操作には、テキストの入力操作や音声の入力操作や動作トリガー操作やキートリガー操作などが含まれる。入力された情報は、クライアントからサーバーに送信されてもよく、または、クライアントが入力された情報をサーバーへ送信される際に、当該入力された情報は、前記クライアントに直接ディスプレイされてもよい。前記第1メッセージに付加される指示内容の形式は、テキストや音声や画像(例えば、表情画像、動作画像)、ビデオなどが含まれるが、これらに限定されない。前記第1メッセージの具体的な形式は、応用シーンに関連する。例えば、ライブ動画配信のシーンにおいて、前記クライアントは、ライブ動画配信を視聴する機能を持つクライアントであってもよく、前記第1メッセージは、クライアントがユーザによる表示インターフェースに入力したテキスト内容を収集した後、送信されてもよい。第1メッセージに付加される指示内容は、例えば、入力されたテキスト内容であり、且つ、該当指示内容は弾幕の形式で表示インターフェースにディスプレイされてもよい。また、例えば、体感インタラクションシーンにおいて、前記第1メッセージは、前記クライアントがユーザ行動画像を収集した後、送信されてもよい。第1メッセージに付加される指示内容は、例えば、収集されたユーザ行動画像である。もちろん、具体的な実施において、本発明は、第1メッセージの送信メカニズム及び第1メッセージに付加される指示内容の形式に限定されない。
ステップ102では、前記第1メッセージに含まれる指示内容に基づいて、前記指示内容にマッチングしている駆動データを取得する。
例示的に、前記駆動データは、音声駆動データ、表情駆動データ、動作駆動データのうち1つまたは複数を含む。1つの実施形態では、前記駆動データは、サーバーまたは他の関連の業務サーバーに予め記憶されてもよい。クライアントからの第1メッセージを受信した後、前記指示内容に基づいて、前記サーバーまたは他の関連の業務サーバーの中で検索を行い、前記指示内容にマッチングしている駆動データを取得する。他の実施形態では、前記駆動データは、前記指示内容に基づいて生成されたものであってもよく、例えば、前記指示内容を予め訓練された深層学習モデルに入力して、当該指示内容に対応する駆動データを予測して得る。
ステップ103では、前記駆動データを用いて、前記インタラクションオブジェクトの応答動画を再生するように、前記クライアントの表示インターフェースを制御する。
本発明の実施例では、前記インタラクションオブジェクトは、例えば、2次元または3次元の仮想モデルのような仮想モデルに対してレンダリングして得られたものである。前記仮想モデルは、カスタム生成されたものであってもよく、キャラクタークターの画像またはビデオに対して変換を行って得られたものあってもよい。本発明の実施例は、仮想モデルの生成手段に限定されない。
前記応答動画は、前記駆動データに基づいて生成されてもよい。クライアントの表示インターフェース、例えば、ライブ動画配信インターフェースを制御することにより、前記インタラクションオブジェクトの応答動画を再生して、クライアントからの第1メッセージに対する前記インタラクションオブジェクトの応答をディスプレイすることができる。当該応答には、言語の出力、および/またはアクションや表情をするなどが含まれる。
本発明の実施形態では、サーバーは、クライアントからの第1メッセージを受信し、前記第1メッセージに含まれる指示内容に基づいてマッチングしている駆動データを取得し、前記駆動データを用いて、クライアントの表示インターフェースに前記インタラクションオブジェクトの応答動画を再生するようにクライアントを制御して、インタラクションオブジェクトの応答をディスプレイする。このように、インタラクションオブジェクトは、ユーザの指示内容に対してタイムリーにフィードバックし、ユーザとのタイムリーなインタラクションが実現できる。
図2は、本発明の少なくとも1つの実施例に提案されるインタラクション方法をライブ配信過程に応用する例示的な説明である。図2に示すように、前記インタラクションオブジェクトは、医師イメージの3次元の仮想キャラクターである。クライアントの表示インターフェースに、前記3次元の仮想キャラクターを配信者としてライブ配信する過程をディスプレイ可能である。クライアントのユーザは、表示インターフェースに指示内容の入力を実施して、指示内容に付加される第1メッセージを送信することが可能である。それに応じて、サーバーは、クライアントからの第1メッセージを受信した後、例えば、「手洗い方法」のような指示内容を識別し、更に当該指示内容に基づいてマッチングしている駆動データを取得することができ、前記駆動データに基づいて、当該3次元の仮想キャラクターによる「手洗い方法」の指示内容に対する応答をディスプレイするように、前記クライアントを制御することができる。例えば、当該3次元の仮想キャラクターが「手洗い方法」に対応する音声を出力して出力された音声にマッチングしている動作及び/又は表情をするように制御する。
幾つかの実施例において、前記指示内容には、テキスト内容が含まれる。以下の態様で、指示内容に対する応答内容を取得する。自然言語処理(Natutral Language Processing、NLP)アルゴリズムに基づいて、前記テキスト内容によって表される言語意図を識別し、前記言語意図にマッチングしている応答内容を取得する。
幾つかの実施例において、例えば、畳み込みニューラルネットワーク(Convolutional Neural Networks、CNN)、循環ニューラルネットワーク(Recurrent Neural Network、RNN)、長期短期記憶ネットワーク(Long Short Term Memory network、LTSM)などのような、予め訓練されたNLP用のニューラルネットワークモデルを用いて、前記テキスト内容を処理することができる。前記第1メッセージに含まれるテキスト内容を前記ニューラルネットワークモデルに入力し、テキスト内容によって表される言語意図を分類して、前記テキスト内容によって表される言語意図の種類を特定する。
第1メッセージに含まれるテキスト内容には複数の意味が含まれている可能性があるため、NLPアルゴリズムを用いて、ユーザの実際の意図を識別できるので、前記ユーザが本当に取得したい内容を直接フィードバックすることができ、インタラクション体験が向上できる。
幾つかの実施例において、前記言語意図に基づいて、前記言語意図にマッチングする前記言語意図に適合する応答内容を予め設定されたデータベースから検索して、更に、サーバーは、前記応答内容に基づいて、前記インタラクションオブジェクトに前記応答内容を表させる駆動データを生成する。前記データベースは、サーバーに配置されてもよく、クラウドに配置されてもよく、本発明において限定されない。
言語意図を識別した場合に、サーバーは、前記テキスト内容から、前記言語意図に関するパラメータ、即ち、エンティティを抽出する。例えば、体系的な単語のセグメンテーション、情報抽出などの態様によりエンティティを特定してもよい。前記言語意図の種類に対応するデータでは、エンティティによって、前記言語意図に適合する応答テキストをさらに特定する。当業者は、前記方法が例示に過ぎず、他の態様によって前記言語意図にマッチングしている応答テキストを取得することができることを理解すべきであり、本発明において限定されない。
幾つかの実施例において、サーバーは、前記応答内容に基づいて音声駆動データを生成する。前記音声駆動データは、例えば、前記応答内容に含まれる応答テキストに対応する音素シーケンスを含む。前記音素シーケンスに対応する音声を生成し、前記音声を出力するように前記クライアントを制御することにより、前記インタラクションオブジェクトに、前記応答テキストによって表される内容を表す音声を出力させることができる。
幾つかの実施例において、サーバーは、前記応答内容に基づいて動作駆動データを生成し、前記インタラクションオブジェクトに、前記応答内容を表す動作を実施させる。
例示的に、応答内容に応答テキストが含まれる場合、以下の態様で前記応答内容に基づいて動作駆動データを生成することができる。前記応答テキストに含まれる少なくとも1つの目標テキストに基づいて、前記目標テキストにマッチングしているインタラクションオブジェクトの設定動作の制御パラメータを取得する。
前記目標テキストは、設定されたキー文字、キーワード、キーセンテンスなどであってもよい。キーワードの「手洗い」を例として、前記応答テキストに「手洗い」が含まれる場合、応答テキストに目標テキストが含まれていると特定することができる。目標テキストごとに、マッチングしている設定動作を予め設定してもよく、各設定動作は、1組の制御パラメータシーケンスで実現可能である。例えば、複数の骨格点の位移は、1組の制御パラメータを形成し、複数の組の制御パラメータから形成された制御パラメータシーケンスを用いて、前記インタラクションオブジェクトのモデルパラメータを調整して、インタラクションオブジェクトに前記設定動作を実施させることができる。
本発明の実施例において、インタラクションオブジェクトによる動作で第1メッセージに応答することにより、ユーザは、第1メッセージに対する、直感的で生き生きした応答を取得し、ユーザのインタラクション体験が向上する。
幾つかの実施例において、前記目標テキストに対応する音声情報を特定し、前記音声情報の出力の時間情報を取得し、前記時間情報に基づいて前記目標テキストに対応する設定動作の実施時間を特定し、前記実施時間に基づいて、前記目標テキストに対応する制御パラメータを用いて、前記設定動作を実施するように前記インタラクションオブジェクトを制御する。
前記応答テキストに対応する音素シーケンスに基づいて音声を出力するように前記クライアントを制御する場合、前記目標テキストに対応する音声の出力の時間情報を特定することができ、前記時間情報は、例えば、前記目標テキストに対応する音声の出力の開始時間、出力の終了時間、出力の持続時間である。前記時間情報に基づいて前記目標テキストに対応する設定動作の実施時間を特定し、前記実施時間内、または、実施時間の一定範囲内で、前記目標テキストに対応する制御パラメータを用いて、前記設定動作を実施するように前記インタラクションオブジェクトを制御することができる。
本発明の実施例において、目標テキストごとに、対応する音声を出力する持続時間と、対応する制御パラメータに基づいて動作を制御する持続時間とは、一致または近いため、インタラクションオブジェクトが目標テキストに対応する音声を出力した時間と動作の実施時間とはマッチングできる。このように、インタラクションオブジェクトの音声と動作が同期・協調し、ユーザは、ライブ配信中に前記インタラクションオブジェクトが応答するような感覚を生み出し、ライブ配信中にユーザと配信者とのインタラクション体験が向上する。
幾つかの実施例において、前記応答テキストに基づいて姿勢駆動データを生成して、前記クライアントに、応答テキストに対応する音声にマッチングしている前記インタラクションオブジェクトの姿勢をディスプレイさせることができ、例えば、相応の表情や動作をする。
例示的に、応答内容には、さらに、音素シーケンスが含まれてもよく、または、応答内容には応答テキストが含まれる場合、応答テキストに対応する音素シーケンスを抽出してもよく、音素シーケンスを含む応答内容を取得した後、前記音素シーケンスにマッチングしている前記インタラクションオブジェクト用の制御パラメータを取得することができる。前記インタラクションオブジェクトの制御パラメータには、少なくとも1つの局所領域の姿勢制御ベクトルが含まれ、前記音素シーケンスにマッチングしているインタラクションオブジェクト用の制御パラメータを取得することには、前記音素シーケンスに対して特徴コードを行い、前記音素シーケンスに対応する第1コードシーケンスを取得することと、前記第1コードシーケンスに基づいて、少なくとも1つの音素に対応する特徴コードを取得することと、前記特徴コードに対応する前記インタラクションオブジェクトの少なくとも1つの局所領域の姿勢制御ベクトルを取得することと、が含まれる。
幾つかの実施例において、前記応答テキストに対応する音声を再生しながら前記音声にマッチングしている前記インタラクションオブジェクトの姿勢の応答動画をディスプレイするようにクライアントを制御することで、インタラクションオブジェクトの応答がより擬人化され、より生き生きとし、自然になり、ユーザのインタラクション体験が向上する。
前記インタラクションオブジェクトの制御パラメータには少なくとも1つの局所領域の姿勢制御ベクトルが含まれる実施例では、以下の態様で姿勢制御ベクトルを取得することができる。
まず、前記応答テキストに対応する音素シーケンスに対して特徴コードを行い、前記音素シーケンスに対応するコードシーケンスを取得する。ここで、後記のコードシーケンスと区別するために、前記テキストデータの音素シーケンスに対応するコードシーケンスを第1コードシーケンスと記載する。
前記音素シーケンスに含まれる複数種の音素ごとに、各音素に対応するサブコードシーケンスを生成する。
例示的に、各時点で対応する第1音素があるかどうかを検出し、前記第1音素は、複数種の前記音素の中のいずれか1つであり、前記第1音素がある時点でのコード値を第1値として設定し、前記第1音素がない時点でのコード値を第2値として設定し、各時点のコード値を付与した後、第1音素に対応するサブコードシーケンスを取得することができる。例えば、前記第1音素がある時点でのコード値を「1」に設定し、前記第1音素がない時点でのコード値を「0」に設定してもよい。前記コード値の設定は例示に過ぎず、コード値を他の値に設定してもよいが、本発明において限定されないということは、当業者は理解すべきである。
その後、前記複数種の音素のそれぞれに対応するサブコードシーケンスに基づいて、前記音素シーケンスに対応する第1コードシーケンスを取得する。
例示的に、第1音素に対応するサブコードシーケンスについて、ガウスフィルタを用いて、前記第1音素の時間的連続値に対してガウス畳み込み操作を実施することにより、特徴コードに対応するマトリックスをフィルタリングして、各音素を変換する際に、口の領域の過渡動作を平滑化する。
図3は、本発明の少なくとも1つの実施例に提案される姿勢制御ベクトルを取得する方法フローチャートである。図3に示すように、音素シーケンス310には音素j、i1、j、ie4(簡単にするために、部分音素のみを示す)が含まれ、音素j、i1、ie4それぞれに対して、前記各音素にそれぞれ対応するサブコードシーケンス321、322、323を取得する。各サブコードシーケンスにおいて、前記音素がある時間(図3では、時間単位は秒(s))に対応するコード値は、第1値(例えば、「1」)であり、前記音素がない時間(図3では、時間単位は秒(s))に対応するコード値は、第2値(例えば、「0」)である。サブコードシーケンス321を例として、音素シーケンス310における音素jがある時間で、サブコードシーケンス321の値は第1値であり、音素jがない時間で、サブコードシーケンス321の値は第2値である。全てのサブコードシーケンスは、第1コードシーケンス320を構成する。
次に、前記第1コードシーケンスに基づいて、少なくとも1つの音素に対応する特徴コードを取得する。
音素j、i1、ie4にそれぞれ対応するサブコードシーケンス321、322、323のコード値、及び当該三つのサブコードシーケンスにおける対応する音素の持続時間、即ち、サブコードシーケンス321におけるjの持続時間、サブコードシーケンス322におけるi1の持続時間、サブコードシーケンス323におけるie4の持続時間に基づいて、サブコードシーケンス321、322、323の特徴情報を取得することができる。
例示的に、ガウスフィルタを用いて、サブコードシーケンス321、322、323における音素j、i1、ie4の時間的連続値に対してそれぞれガウス畳み込み操作を実施することで、特徴コードを平滑化して、平滑化された第1コードシーケンス330を取得することができる。即ち、ガウスフィルタを用いて音素の0~1の時間的連続値に対してガウス畳み込み操作を実施することにより、各コードシーケンスにおけるコード値は、第2値から第1値へ、または、第1値から第2値への変化が平滑化される。例えば、コードシーケンスの値は、0と1以外に、中間状態の値、例えば0.2、0.3などを表し、これらの中間状態の値に基づいて姿勢制御ベクトルを取得して、インタラクションキャラクターの動作の過渡、表情の変化をより滑らかで自然になり、目標オブジェクトとのインタラクション体験が向上する。
幾つかの実施例において、前記第1コードシーケンスに対して、スライディングウィンドウを実施して少なくとも1つの音素に対応する特徴コードを取得することができる。前記第1コードシーケンスは、ガウス畳み込み操作で実施されたコードシーケンスであることができる。
設定長さの時間ウィンドウと設定ステップサイズで、前記コードシーケンスに対してスライディングウィンドウを実施して、前記時間ウィンドウにおける特徴コードを、対応する少なくとも1つの音素の特徴コードとして、スライディングウィンドウが完了した後、取得された複数の特徴コードに基づいて、第2コードシーケンスを取得することができる。図3に示すように、第1コードシーケンス320または平滑化された第1コードシーケンス330に設定長さの時間ウィンドウをスライディングして、特徴コード1、特徴コード2、特徴コード3をそれぞれ取得し、このように、第1コードシーケンスをトラバースして、特徴コード1、2、3、…、Mを取得し、第2コードシーケンス340を取得する。Mは正整数であり、その値は、第1コードシーケンスの長さ、時間ウィンドウの長さ及び時間ウィンドウのスライディングステップサイズに基づいて特定されるものである。
特徴コード1、2、3、…、Mに基づいて、相応の姿勢制御ベクトル1、2、3、…、Mをそれぞれ取得して、姿勢制御ベクトルのシーケンス350を取得することができる。
姿勢制御ベクトルのシーケンス350と第2コードシーケンス340は、時間的に整列される。前記第2コードシーケンスにおける各特徴コードは音素シーケンスにおける少なくとも1つの音素に基づいて取得されたため、同様に、姿勢制御ベクトルのシーケンス350における各制御ベクトルは、音素シーケンスにおける少なくとも1つの音素に基づいて取得された。テキストデータに対応する音素シーケンスを再生するとともに、前記姿勢制御ベクトルのシーケンスに基づいて、前記インタラクションオブジェクトがアクションをするように駆動し、即ち、インタラクションオブジェクトがテキスト内容に対応する音声を出力するとともに音声と同期したアクションをするように駆動することは、実現できる。このように、目標オブジェクトに、前記インタラクションオブジェクトが話しているような感覚を与え、目標オブジェクトのインタラクション体験が向上することができる。
1番目の時間ウィンドウの設定時刻から特徴コードの出力を開始すると仮定する場合、前記設定時刻の前の姿勢制御ベクトルをデフォルト値に設定し、即ち、音素シーケンスの再生開始の直後、前記インタラクションオブジェクトにデフォルトの動作を実施させ、前記設定時刻の後、第1コードシーケンスに基づいて取得された姿勢制御ベクトルのシーケンスを用いて、前記インタラクションオブジェクトがアクションをするように駆動する。図3を例として、t0時刻から特徴コード1を出力し、t0時刻の前に対応するものは、デフォルト姿勢制御ベクトルである。
幾つかの実施例において、前記音素シーケンスにおける音素の間の時間インターバルが設定閾値を超えた場合、前記局所領域の設定姿勢制御ベクトルに基づいて、前記インタラクションオブジェクトがアクションをするように駆動する。即ち、インタラクション人物の話が長時間ポーズする場合、インタラクションオブジェクトが設定のアクションをするように駆動する。例えば、出力音声は長時間ポーズする場合、長時間ポーズでインタラクション人物が無表情に立っていることを避けるために、インタラクション人物に笑顔の表情をさせ、または、体を少し揺らせて、これによってインタラクションオブジェクトの話し過程は自然にスムーズになり、目標オブジェクトのインタラクション体験が向上する。
幾つかの実施例において、前記応答テキストに含まれる少なくとも1つの目標テキストに対し、前記少なくとも1つの目標テキストにマッチングしているインタラクションオブジェクト用の設定動作の制御パラメータを取得して、前記インタラクションオブジェクトが前記設定動作をするように駆動する。前記少なくとも1つの目標テキスト以外の応答内容に対し、前記応答内容に対応する音素に基づいて前記インタラクションオブジェクトの制御パラメータを取得することができ、前記インタラクションオブジェクトが前記応答内容の発音にマッチングしている姿勢、例えば、表情と動作をするように駆動する。
図2に示すライブ配信過程を例として、受信された第1メッセージに「手洗い方法」のテキスト内容が含まれる場合に、NLPアルゴリズムを用いて、ユーザの言語意図は、「手洗い方法を尋ねる」ことであると識別することができる。予め設定されたデータベースを検索して、手洗い方法を答える内容を取得することができ、且つ、当該内容を応答テキストとする。前記応答テキストに基づいて動作駆動データ、音声駆動データ、姿勢駆動データを生成し、前記インタラクションオブジェクトに、「手洗い方法」の問題を音声で回答させ、同時に、発音にマッチングしている表情、動作をするとともに、手洗い方法を肢体動作でデモンストレーションする。
幾つかの実施例において、前記クライアントが前記指示情報に基づいて前記応答テキストをディスプレイするように、前記応答テキストを含む指示情報を前記クライアントへ送信してもよい。
例えば、「手洗い方法」の問題を応答する応答テキストに対して、前記応答テキストを含む指示情報をクライアントに送信することにより、テキストの形式で前記指示メッセージを前記クライアントにディスプレイするため、ユーザは、インタラクションオブジェクトから伝達される情報をより正確に受信することができる。
幾つかの実施例において、前記インタラクションオブジェクトに対応する仮想モデルは(仮想モデルは、2次元の仮想モデルであってもよく、3次元の仮想モデルであってもよい)、クライアントに記憶されてもよい。この場合、前記インタラクションオブジェクトの駆動データを前記クライアントに送信することで、前記クライアントに駆動データに基づいて応答動画を生成させ、前記応答動画を再生するように前記クライアントを制御することができる。例えば、前記駆動データに含まれる制御パラメータに基づいてインタラクションオブジェクトの仮想モデルパラメータを調整するように前記クライアントを制御し、調整された仮想モデルパラメータに基づいて、レンダリングエンジンを用いて前記インタラクションオブジェクトの応答動画を生成して、前記第1メッセージに応答するように前記応答動画を再生することができる。仮想モデルは2次の仮想モデルである場合、仮想モデルパラメータは2次元の仮想モデルパラメータであり、仮想モデルは3次元の仮想モデルである場合、仮想モデルパラメータは3次元の仮想モデルパラメータである。また、例えば、サーバーは、駆動データに基づいて、インタラクションオブジェクトの応答態様を制御するための制御指令を特定し、前記制御指令をクライアントへ送信し、前記クライアントに、前記制御指令に基づいて、応答としてのインタラクションオブジェクトの画面をディスプレイさせる。
インタラクションオブジェクトの仮想モデルのデータ量が少なく、クライアントの性能の占有率が低下である場合に、前記駆動データを前記クライアントに送信して、前記クライアントに、前記駆動データに基づいて応答動画を生成させ、それによって応答としてのインタラクションオブジェクトの画面を便利かつ柔軟にディスプレイできる。
幾つかの実施例において、前記インタラクションオブジェクトに対応する仮想モデルは、サーバーまたはクラウドに記憶される。この場合、前記駆動データに基づいて、前記インタラクションオブジェクトの仮想モデルパラメータを調整し、調整された仮想モデルパラメータに基づいて、レンダリングエンジンを用いて前記インタラクションオブジェクトの応答動画を生成し、前記応答動画を前記クライアントへ送信し、ここで、前記応答動画には、前記インタラクションオブジェクトの動作又は表情がディスプレイされる。前記応答動画をクライアントに送信することにより、前記インタラクションオブジェクトの応答を実施し、クライアントのレンダリングによって引き起こされるラグを避け、且つ、クライアントに高品質の応答動画をディスプレイし、ユーザのインタラクション体験が向上することができる。
図4は、本発明の少なくとも1つの実施例による他のインタラクション方法のフローチャートである。当該インタラクション方法は、クライアントに適用可能である。前記方法は、ステップ401~402を含む。
ステップ401では、クライアントからのユーザ入力操作に応答して、指示内容を含む第1メッセージをサーバーへ送信する。
例示的に、ユーザ入力操作には、テキスト入力操作、音声入力操作、動作トリガー操作、キートリガー操作などが含まれ、前記ユーザ入力操作に応答して、第1メッセージをサーバーへ送信する。第1メッセージに含まれる指示内容は、テキスト、音声、画像(例えば、表情画像、動作画像)、ビデオなどのうちの1つまたは複数を含むが、それらに限定されない。例えば、ライブ動画配信のシーンにおいて、前記クライアントは、ライブ動画配信を視聴する機能を持つクライアントであってもよく、前記第1メッセージは、クライアントがユーザによる表示インターフェースに入力したテキスト内容を収集した後、送信されてもよい。第1メッセージに付加される指示内容は、例えば、入力されたテキスト内容であり、且つ、該当指示内容は弾幕の形式で表示インターフェースにディスプレイされてもよい。また、例えば、体感インタラクションシーンにおいて、前記第1メッセージは、前記クライアントがユーザ行動画像を収集した後、送信されてもよい。第1メッセージに付加される指示内容は、例えば、収集されたユーザ行動画像である。もちろん、具体的な実施において、本発明は、第1メッセージの送信メカニズム及び第1メッセージに付加される指示内容の形式に限定されない。
ステップ402では、前記サーバーによって前記第1メッセージに対して応答された第2メッセージに基づいて、前記クライアントの表示インターフェースに前記インタラクションオブジェクトの応答動画を再生する。
前記第2メッセージは、前記サーバーが前記第1メッセージに含まれる指示内容に応答して生成したものであり、前記クライアントに前記指示内容に応答するインタラクションオブジェクトをディスプレイさせるためのものである。
本発明の実施例において、前記インタラクションオブジェクトは、例えば、2次元または3次元の仮想モデルのような仮想モデルに対してレンダリングして得られたものである。前記仮想モデルは、カスタム生成されたものであってもよく、キャラクタークターの画像またはビデオに対して変換を行って得られたものあってもよい。本発明の実施例は、仮想モデルの生成手段に限定されない。
本発明の実施形態において、ユーザ入力操作に基づいて指示内容を含む第1メッセージをサーバーへ送信し、前記サーバーによって前記第1メッセージに応答された第2メッセージに基づいて、クライアントに前記指示内容に対するインタラクションオブジェクトの応答をディスプレイし、インタラクションオブジェクトは、ユーザの指示内容に対してタイムリーにフィードバックし、ユーザとのタイムリーなインタラクションが実現できる。
幾つかの実施例において、前記指示内容にはテキスト内容が含まれる。前記方法は、さらに、前記クライアントの表示インターフェースに、前記テキスト内容をディスプレイすること、及び/又は、前記テキスト内容に対応する音声ファイルを特定して再生することが含まれる。即ち、クライアントにユーザによって入力されたテキスト内容をディスプレイし、また、クライアントに前記テキスト内容に対応する音声ファイルを再生し、前記テキスト内容に対応する音声を出力できる。
幾つかの実施例において、前記クライアントに前記テキスト内容をディスプレイすることには、前記テキスト内容の弾幕情報を生成することと、前記弾幕情報を前記クライアントの表示インターフェースにディスプレイすることとが含まれる。
ライブ動画配信のシーンにおいて、ユーザによって入力されたテキスト内容に対して、対応する弾幕情報を生成し、クライアントの表示インターフェースに前記弾幕情報をディスプレイすることができる。図2を例として、ユーザがクライアントのライブ配信インタラクションインターフェースに「手洗い方法」を入力した場合、表示インターフェースは、当該テキスト内容に対応する弾幕情報「手洗い方法」をディスプレイすることができる。
幾つかの実施例において、前記第2メッセージには前記指示内容に対する応答テキストが含まれ、前記方法は、さらに、前記応答テキストを前記クライアントの表示インターフェースにディスプレイすることと、及び/又は、前記応答テキストに対応する音声ファイルを特定して再生することとが含まれる。
前記指示内容の応答テキストは、前記テキスト内容によって表される言語意図を識別し、予め設定されたデータベースから前記言語意図にマッチングしている応答テキストを検索して取得することができ、具体的な方法は、上記実施例の記載を参照してよく、ここで繰り返し説明しない。
ライブ動画配信のシーンを例として、同様に、弾幕情報の形式で、ユーザの弾幕情報に対する応答テキストを表示インターフェースにディスプレイし、且つ表示インターフェースに前記応答テキストに対応する音声ファイルを再生し、即ち、前記応答テキストに対応する音声を出力して、ユーザの弾幕情報に対し正確かつ直感的に応答することができ、ユーザのインタラクション体験が向上する。
幾つかの実施例において、前記第2メッセージには、前記応答テキストに対応する音素シーケンスにマッチングしている前記インタラクションオブジェクトの制御パラメータ、及び/又は、前記応答テキストに含まれる少なくとも1つの目標テキストにマッチングしている前記インタラクションオブジェクトの設定動作の制御パラメータが含まれる。前記サーバーによって前記第1メッセージに対して応答された第2メッセージに基づいて、前記クライアントの表示インターフェースに前記インタラクションオブジェクトの応答動画を再生することには、前記駆動データに基づいて、前記インタラクションオブジェクトの仮想モデルパラメータを調整することと、調整された仮想モデルパラメータに基づいて、レンダリングエンジンを用いて前記インタラクションオブジェクトの応答動画を生成し、前記クライアントの表示インターフェースにディスプレイすることとが含まれる。前記応答テキストに対応する音素シーケンスにマッチングしている前記インタラクションオブジェクトの制御パラメータを生成する方法、及び、前記応答テキストに含まれる少なくとも1つの目標テキストにマッチングしている前記インタラクションオブジェクトの設定動作の制御パラメータを生成する方法は、上記の実施例の記載を参照してよく、ここで繰り返し説明しない。
インタラクションオブジェクトの仮想モデルのデータ量が少なく、クライアントの性能の占有率が低下である場合に、前記クライアントは、前記駆動データを取得し、前記駆動データに基づいて応答動画を生成して、応答としてのインタラクションオブジェクトの画面を便利かつ柔軟にディスプレイできる。
幾つかの実施例において、前記第2メッセージには、さらに前記指示内容に対する前記インタラクションオブジェクトの応答動画が含まれ、前記サーバーによって前記第1メッセージに対して応答された第2メッセージに基づいて、前記クライアントの表示インターフェースに前記インタラクションオブジェクトの応答動画を再生することには、前記クライアントの表示インターフェースに前記応答動画をディスプレイすることが含まれる。
幾つかの実施例において、前記インタラクションオブジェクトに対応する仮想モデルは、サーバーまたはクラウドに記憶される。この場合、サーバーまたはクラウドで、応答動画を生成することができる。応答動画を生成する態様は、上記の実施例を参照してよく、ここで繰り返し説明しない。
前記応答動画をクライアントに送信して、前記インタラクションオブジェクトの応答を実施することにより、前記インタラクションオブジェクトの応答を実施し、クライアントのレンダリングによって引き起こされるラグを避け、且つ、クライアントに高品質の応答動画をディスプレイし、ユーザのインタラクション体験が向上することができる。
幾つかの実施例において、前記ユーザ入力操作には、ユーザが、前記表示インターフェースに表示される肢体操作画面に従って対応する人体姿勢を行うことが含まれる。この場合、クライアントからのユーザ入力操作に応答して、前記方法には、さらに、前記人体姿勢を含むユーザ行動画像を取得することと、前記ユーザ行動画像における人体姿勢情報を識別することと、前記人体姿勢情報に基づいて、前記表示インターフェースにディスプレイされるインタラクションオブジェクトに応答させることとが含まれる。
幾つかの実施例において、前記人体姿勢情報に基づいて、前記表示インターフェースにディスプレイされるインタラクションオブジェクトに応答させることには、前記人体姿勢情報と前記肢体操作画面における人体姿勢とのマッチング度を特定することと、前記マッチング度に基づいて、応答するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトを駆動することとが含まれる。
一実施例では、前記の前記マッチング度に基づいて、応答するように前記インタラクションオブジェクトを駆動することには、前記マッチング度が設定条件を満たした場合、姿勢合格の肢体動作の表示及び/又は音声提示を含む第1応答を実施するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトに指示し、次の肢体操作画面を表示し、前記マッチング度が設定条件を満たさない場合、姿勢不合格の肢体動作の表示及び/又は音声提示を含む第2応答を実施するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトに指示し、現在の肢体操作画面を表示し続ける。
例示的に、以下は、ライブ動画配信プラットフォームシーンに応用される本発明の一部の実施例である。
幾つかの実施例において、クライアントから受信された第1メッセージは、ライブ配信プラットフォームから転送されたユーザの弾幕テキストである。
幾つかの実施例において、NLPアルゴリズムを用いて弾幕の意図を分析することにより、対応する回答を取得し、その後、インタラクションオブジェクトによって前記回答の内容がディスプレイされる。さらに、インタラクションオブジェクトによって前記回答の内容に対応する動作がディスプレイされてもよい。
幾つかの実施例において、クライアントのNLP機能を直接統合して、前記第1メッセージに含まれる指示内容に対してNLPを行い、前記指示内容の言語意図とマッチングしている、前記言語意図に適合する応答テキストを取得し、出力される前記応答テキストに対応する文字をインタラクションオブジェクトに直接提供して再生させる。
幾つかの実施例において、インタラクションオブジェクトは、ユーザの発話内容を模倣することができる。例えば、クライアントでユーザによって入力された音声に対して、前記音声をテキストに変換し、音声に基づいて前記ユーザの音声特徴を取得し、前記音声特徴に基づいてテキストに対応する音声を出力することにより、インタラクションオブジェクトがユーザの発話内容を模倣することが実現できる。
幾つかの実施例において、インタラクションオブジェクトは、さらに、NLPから返される内容に基づいてページディスプレイを行い、事前に設計されたディスプレイすべき内容、及びインタラクション態様に従ってUI内容をディスプレイしてもよいため、応答内容のディスプレイをより目立ち、ユーザの注意を引くことができる。
上記実施例では、ライブ配信でリアルタイムにインタラクションし、実施可能であり、ライブ配信中に、ユーザは、リアルタイムにインタラクションオブジェクトとインタラクションして、フィードバックを取得することができる。また、中断なくライブ配信ができ、さらに、自動的にビデオ内容を生成できる、これらは、新しいライブ配信方式である。
例示的に、インタラクションオブジェクトは、3次元のデジタルヒューマンとしてディスプレイできる。デジタルヒューマンは、人工知能(Artificial Intelligence、AI)のシミュレーション動画生成機能とNLPの理解機能を組み合わせて、人間のように音声と姿勢でユーザと交流する。デジタルヒューマンは、回答内容に基づいて相応の口の形、表情、目つき及び全身動作を生成し、最終、音声とビデオが同期された高品質の音声及びビデオ内容を出力し、完全なデジタルヒューマン画像を自然的にユーザへディスプレイする。
幾つかの実施例において、様々な知識分野の内容サービスライブラリに迅速に接続でき、より多くの産業に効率的に応用できるし、様々なシーンの要求に応じて、超写実やカートゥーンなどの多様なスタイルのデジタルヒューマン姿を提供することもできるし、顔認識やジェスチャー認識などのAI技術でユーザと知能インタラクションできる。例えば、超写実スタイルのデジタルヒューマンは、銀行、ビジネスホール、サービスホール用のスマートフロントデスクとして応用し、顧客とのリアルで効果的なタッチを行い、サービス品質と顧客満足度を向上させることができる。
幾つかの実施例において、カートゥーンスタイルのデジタルヒューマは、オフライン売り場におけるスマートガイドや、スマートコーチや、仮想教師など趣味的なインタラクション向けのシーンに適用することで、顧客の動線誘導、興味の刺激、教育効果の強化という目的を達成することができる。
本発明の少なくとも1つの実施例は、さらに、サーバーに応用するインタラクション装置を提供する。図5に示すように、前記装置50は、クライアントからの第1メッセージを受信するための受信ユニット501と、前記第1メッセージに含まれる指示内容に基づいて、前記指示内容にマッチングしている駆動データを取得するための取得ユニット502と、前記駆動データを用いて、表示インターフェースに前記インタラクションオブジェクトの応答動画を再生するように前記クライアントを制御するための駆動ユニット503を有する。
幾つかの実施例において、取得ユニット502は、前記指示内容に対し、応答テキストを含む応答内容を取得し、前記応答テキストに含まれる少なくとも1つの目標テキストに基づいて、前記目標テキストにマッチングしているインタラクションオブジェクトの設定動作の制御パラメータを取得する。
幾つかの実施例において、取得ユニット502は、前記指示内容に対し、音素シーケンスを含む応答内容を取得し、前記音素シーケンスにマッチングしている前記インタラクションオブジェクトの制御パラメータを取得する。
前記インタラクションオブジェクトの制御パラメータには少なくとも1つの局所領域の姿勢制御ベクトルが含まれ、前記取得ユニット502は、前記音素シーケンスにマッチングしているインタラクションオブジェクトの第2制御パラメータを取得する際に、前記音素シーケンスに対して特徴コードを行い、前記音素シーケンスに対応する第1コードシーケンスを取得し、前記第1コードシーケンスに基づいて、少なくとも1つの音素に対応する特徴コードを取得し、前記特徴コードに対応する前記インタラクションオブジェクトの少なくとも1つの局所領域の姿勢制御ベクトルを取得するために用いられる。
幾つかの実施例において、前記装置は、さらに、前記指示内容に対する前記応答内容を含む指示情報を前記クライアントへ送信してクライアントが前記指示内容に基づいて前記応答内容をディスプレイするために用いられる送信ユニットを有する。
幾つかの実施例において、駆動ユニット503は、前記インタラクションオブジェクトの駆動データを前記クライアントに送信して、前記クライアントに駆動データに基づいて応答動画を生成させ、前記表示インターフェースに前記応答動画を再生するように前記クライアントを制御し、あるいは、前記駆動データに基づいて、前記インタラクションオブジェクトの2次元または3次元の仮想モデルパラメータを調整し、調整された2次元または3次元の仮想モデルパラメータに基づいて、レンダリングエンジンを用いて前記インタラクションオブジェクトの応答動画を生成し、且つ、前記応答動画を前記クライアントへ送信する。
本発明の少なくとも1つの実施例は、さらに、クライアントに応用する他のインタラクション装置を提供する。図6に示すように、前記装置60は、クライアントからのユーザ入力操作に応答して、指示内容を含む第1メッセージをサーバーへ送信するための送信ユニット601と、前記サーバーによって前記第1メッセージに対して応答された第2メッセージに基づいて、前記クライアントの表示インターフェースに前記インタラクションオブジェクトの応答動画を再生するための再生ユニット602を有する。前記インタラクションオブジェクトは、例えば、2次元または3次元の仮想モデルのような仮想モデルに基づいてレンダリングされたものである。
幾つかの実施例において、前記指示内容にはテキスト内容が含まれる。前記装置は、さらに、前記クライアントの表示インターフェースに前記テキスト内容をディスプレイし、及び/又は、前記テキスト内容に対応する音声ファイルを特定して再生するための第1ディスプレイユニットを有する。
幾つかの実施例において、前記第1ディスプレイユニットは、前記クライアントに前記テキスト内容をディスプレイする際に、具体的に、前記テキスト内容の弾幕情報を生成し、前記弾幕情報を前記クライアントの表示インターフェースにディスプレイするために用いられる。
幾つかの実施例において、前記第2メッセージには前記指示内容に対する応答テキストが含まれ、前記装置は、さらに、前記応答テキストを前記クライアントの表示インターフェースにディスプレイし、及び/又は、前記応答テキストに対応する音声ファイルを特定して再生するための第2ディスプレイユニットを有する。
幾つかの実施例において、前記第2メッセージには前記インタラクションオブジェクトの駆動データが含まれる。前記再生ユニット602は、前記駆動データに基づいて、前記インタラクションオブジェクトの仮想モデルパラメータを調整し、調整された仮想モデルパラメータに基づいて、レンダリングエンジンを用いて前記インタラクションオブジェクトの応答動画を生成し、且つ、前記クライアントの表示インターフェースにディスプレイする。前記駆動データには、前記指示内容に対する応答テキストに対応する音素シーケンスにマッチングしている前記インタラクションオブジェクト用の制御パラメータ、及び/又は、前記応答テキストに含まれる少なくとも1つの目標テキストにマッチングしている前記インタラクションオブジェクトの設定動作の制御パラメータが含まれる。
幾つかの実施例において、前記第2メッセージには、前記指示内容に対する前記インタラクションオブジェクトの応答動画が含まれる。
幾つかの実施例において、前記ユーザ入力操作には、ユーザが、前記表示インターフェースに表示される肢体操作画面に従って対応する人体姿勢を行うことが含まれる。送信ユニット601は、さらに、前記人体姿勢を含むユーザ行動画像を取得し、前記ユーザ行動画像における人体姿勢情報を識別し、前記人体姿勢情報に基づいて、前記表示インターフェースにディスプレイされるインタラクションオブジェクトに応答させる。
幾つかの実施例において、送信ユニット601は、具体的に、前記人体姿勢情報と前記肢体操作画面における人体姿勢とのマッチング度を特定し、前記マッチング度に基づいて、応答するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトを駆動するために用いられる。
幾つかの実施例において、送信ユニット601は、具体的に、前記マッチング度が設定条件を満たした場合、姿勢合格の肢体動作の表示及び/又は音声提示を含む第1応答を実施するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトに指示し、次の肢体操作画面を表示し、前記マッチング度が設定条件を満たさない場合、姿勢不合格の肢体動作の表示及び/又は音声提示を含む第2応答を実施するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトに指示し、現在の肢体操作画面を表示し続ける。
本発明の少なくとも1つの実施例は、さらに、電子機器を提供する。図7に示すように、電子機器70は、メモリー701、プロセッサ702を有する。前記メモリー701は、プロセッサ702の実施可能のコンピュータ指令を記憶するために用いられる。前記プロセッサ702は、前記コンピュータ指令が実施される時に、本発明のサーバー実施例に記載の前記インタラクション方法が実現される。
本明細書の少なくとも1つの実施例は、さらに、コンピュータプログラムを記憶するコンピュータ可読記憶媒体を提出する。前記プログラムは、プロセッサ702よって実施される時に、本発明のサーバー実施例に記載の前記インタラクション方法が実現される。
本発明の少なくとも1つの実施例は、さらに、電子機器を提供する。図8に示すように、電子機器80は、メモリー801、プロセッサ802を有する。前記メモリー801は、プロセッサ802によって実施されるコンピュータ指令を記憶する。前記プロセッサ802は、前記コンピュータ指令が実施される時に、本発明のクライアント実施例に記載の前記インタラクション方法が実現される。
本明細書の少なくとも1つの実施例は、さらに、コンピュータプログラムを記憶するコンピュータ可読記憶媒体を提出する。前記プログラムは、プロセッサ802によって実施される時に、本発明のクライアント実施例に記載の前記インタラクション方法が実現される。
当業者であれば理解できるように、本明細書の1つ又は複数の実施例は、方法、システム又はコンピュータプログラム製品として提供され得る。したがって、本明細書の1つ又は複数の実施例は、100%ハードウェアの実施例、100%ソフトウェアの実施例、又はソフトウェアとハードウェアとを組み合わせた態様の実施例の形式を採用してもよい。また、本明細書の1つ又は複数の実施例は、1つ又は複数の、コンピュータ利用可能なプログラムコードを含むコンピュータ利用可能な記憶媒体(磁気ディスクメモリー、CD-ROM、光学メモリー等を含むが、それらに限定されない)で実施されるコンピュータプログラム製品の形式を採用してもよい。
本明細書における各実施例は、何れも漸進の方式で記述され、各実施例は、他の実施例との相違点を重点的に説明し、各実施例同士の同じ又は類似する部分が互いに参照すればよい。特に電子機器の実施例は、方法実施例に基本的に類似するため、記述が相対的に簡単であり、関連部分は実施例の部分の説明を参照すればよい。
以上は、本明細書の特定の実施例について記述した。他の実施例は、添付する特許請求の範囲のスコープ内に含まれる。幾つかの場合において、特許請求の範囲に記載の挙動又はステップは、実施例における順番と異なる順番で実施可能であり、且つ依然として所望の結果を得ることができる。また、図面に描かれた手順は、示された特定の順番又は連続順番でないと所望の結果を得られないことを要求するとは限らない。幾つかの実施形態において、マルチタスク処理及び並行処理も、実施可能であり、又は有利なものである。
本明細書に記述されたテーマ及び機能操作の実施例は、デジタル電子回路、有形的に体現されたコンピュータソフトウェア若しくはファームウェア、本明細書に開示された構造及びその構造的均等物を含むコンピュータハードウェア、又はそれらのうちの1つ又は複数の組み合わせにおいて実現され得る。本明細書に記述されたテーマの実施例は、1つ又は複数のコンピュータプログラム、即ち、有形の非一時的なプログラムキャリア上にコーディングされることでデータ処理装置によって実施され又はデータ処理装置の操作が制御されるコンピュータプログラム指令における1つ又は複数のモジュールとして実現され得る。代替的に又は追加的に、プログラム指令は、人工で生成された伝送信号、例えば機器で生成された電気、光又は電磁的信号にコーディングされてもよい。当該信号は、生成されることで情報を符号化して適切な受信機装置へ伝送されてデータ処理装置に実施させる。コンピュータ記憶媒体は、機器読み取り可能な記憶機器、機器読み取り可能な記憶基板、ランダム若しくはシリアルアクセスメモリー機器、又はそれらのうちの1つ又は複数の組み合わせであってもよい。
本明細書に記述された処理及び論理フローは、1つ又は複数のコンピュータプログラムを実施する1つ又は複数のプログラマブルコンピュータによって実施されて、入力データに応じて操作を行って出力を生成して対応する機能を実施させてもよい。前記処理及び論理フローは、専用論理回路、例えばFPGA(フィールドプログラマブルゲートアレイ)又はASIC(特定用途向け集積回路)によって実施されてもよく、装置80も専用論理回路として実現されてもよい。
コンピュータプログラムの実施に適するコンピュータは、例えば、汎用及び/又は専用マイクロプロセッサ、又は如何なる他のタイプの中央処理装置を含む。通常、中央処理装置は、読み出し専用メモリー及び/又はランダムアクセスメモリーから指令及びデータを受信する。コンピュータの基本ユニットは、指令を実施や実施するための中央処理装置と、指令及びデータを記憶するための1つ又は複数のメモリー機器とを備える。通常、コンピュータは、更に、データを記憶するための1つ又は複数の大容量記憶機器、例えば、磁気ディスク、光磁気ディスク又は光ディスク等を含み、又は、コンピュータは、この大容量記憶機器に操作可能にカップリングされてそれからデータを受信したりそれへデータを伝送したりし、又は、2種の状況を兼ね備える。しかし、コンピュータは、このような機器を必ず有するとは限らない。また、コンピュータは、別の機器、例えば、携帯電話、パーソナルデジタルアシスタント(PDA)、モバイルオーディオ又はビデオプレーヤ、ゲームコンソール、全地球測位システム(GPS)受信機、又は、例えばユニバーサルシリアルバス(USB)フラッシュメモリードライバの携帯型記憶機器に組み込まれてもよい。以上は、単に幾つかの例である。
コンピュータプログラム指令及びデータを記憶するのに適するコンピュータ可読媒体は、あらゆる形態の不揮発性メモリー、メディアとメモリー機器を含み、例えば、半導体メモリー機器(例えば、EPROM、EEPROMとフラッシュメモリー機器)、磁気ディスク(例えば、内部ハードディスク又はリムーバブルディスク)、光磁気ディスク及びCD ROMとDVD-ROMディスクを含む。プロセッサとメモリーは、専用論理回路によって補充され又は専用論理回路に統合されてもよい。
本明細書が大量の具体的な実施詳細を含むが、これらの詳細は、如何なる開示範囲又は保護請求される範囲を制限するとは解釈されるべきではなく、主に特定の開示された具体的な実施例の特徴を記述するために用いられる。本明細書の複数の実施例に記述された幾つかの特徴は、単一の実施例において組み合わせて実施されてもよい。その一方、単一の実施例に記述された各種の特徴は、複数の実施例に分けて実施され、又は、如何なる適切なサブ組み合わせとして実施されてもよい。また、特徴が上記のように幾つかの組み合わせにおいて役割を果たし、ひいてはこのように保護するように最初は要求されてもよいが、保護請求される組み合わせからの1つ又は複数の特徴は、幾つかの場合において当該組み合わせから除去されてもよく、更に、保護請求される組み合わせは、サブ組み合わせ又はサブ組み合わせの変形を指してもよい。
類似的に、図面に特定の順番で操作が描かれたが、これらの操作が示された特定の順番で実施され又は順に実施され又は全ての例示の操作が実施されて所望の結果を得ることを要求するとして理解されるべきではない。幾つかの場合に、マルチタスク及び並行処理は、有利である可能性がある。また、上記実施例における各種のシステムモジュールとユニットの分離は、全ての実施例においてこのような分離を必要とすると理解されるべきではない。更に、理解できるように、記述されるプログラムユニット及びシステムは、通常、単一のソフトウェア製品に統合されてもよく、又は複数のソフトウェア製品としてカプセル化されてもよい。
このように、テーマの特定実施例が記述された。他の実施例は、添付する特許請求の範囲のスコープ内に含まれる。幾つかの場合において、特許請求の範囲に記載の動作は、異なる順番で実施可能であり、且つ依然として所望の結果を得ることができる。また、図面に描かれた処理が必ずしも示された特定の順番又は連続順番で所望の結果を得るとは限らない。幾つかの実施形態において、マルチタスク処理及び並行処理は、有利である可能性がある。
上述したのは、本明細書の1つ又は複数の実施例の好適な実施例に過ぎず、本明細書の1つ又は複数の実施例を制限するためのものではない。本明細書の1つ又は複数の実施例の精神及び原則内でなされた如何なる変更、均等物による置換、改良等も、本明細書の1つ又は複数の実施例の保護範囲内に含まれるべきである。

Claims (19)

  1. クライアントからの第1メッセージを受信することと、
    前記第1メッセージに含まれる指示内容に基づいて、前記指示内容にマッチングしている駆動データを取得することと、
    前記駆動データを用いて、前記インタラクションオブジェクトの応答動画を再生するように、前記クライアントの表示インターフェースを制御することと、を含む
    ことを特徴とするインタラクション方法。
  2. 前記第1メッセージに含まれる指示内容に基づいて、前記指示内容にマッチングしている駆動データを取得することには、
    前記指示内容に対し、応答テキストを含む応答内容を取得することと、
    前記応答テキストに含まれる少なくとも1つの目標テキストに基づいて、前記目標テキストにマッチングしているインタラクションオブジェクトの設定動作の制御パラメータを取得することと、が含まれる
    ことを特徴とする請求項1に記載のインタラクション方法。
  3. 前記第1メッセージに含まれる指示内容に基づいて、前記指示内容にマッチングしている駆動データを取得することには、
    前記指示内容に対し、音素シーケンスを含む応答内容を取得することと、
    前記音素シーケンスにマッチングしている前記インタラクションオブジェクトの制御パラメータを取得することと、が含まれる
    ことを特徴とする請求項1または2に記載のインタラクション方法。
  4. 前記インタラクションオブジェクトの制御パラメータには少なくとも1つの局所領域の姿勢制御ベクトルが含まれ、
    前記音素シーケンスにマッチングしている前記インタラクションオブジェクトの制御パラメータを取得することには、
    前記音素シーケンスに対して特徴コードを行い、前記音素シーケンスに対応する第1コードシーケンスを取得することと、
    前記第1コードシーケンスに基づいて、少なくとも1つの音素に対応する特徴コードを取得することと、
    前記特徴コードに対応する前記インタラクションオブジェクトの少なくとも1つの局所領域の姿勢制御ベクトルを取得することと、が含まれる
    ことを特徴とする請求項3に記載のインタラクション方法。
  5. 前記インタラクション方法は、さらに、
    前記応答内容を含む指示情報を前記クライアントに送信して、前記クライアントに前記指示情報に基づいて前記応答内容をディスプレイさせることを含む
    ことを特徴とする請求項1から4のいずれか一項に記載のインタラクション方法。
  6. 前記駆動データを用いて、前記インタラクションオブジェクトの応答動画を再生するように、前記クライアントの表示インターフェースを制御することには、
    前記インタラクションオブジェクトの駆動データを前記クライアントに送信して、前記クライアントに駆動データに基づいて応答動画を生成させ、前記表示インターフェースに前記応答動画を再生するように前記クライアントを制御することと、
    あるいは、前記駆動データに基づいて、前記インタラクションオブジェクトの仮想モデルパラメータを調整し、調整された仮想モデルパラメータに基づいて、レンダリングエンジンを用いて前記インタラクションオブジェクトの応答動画を生成し、前記応答動画を前記クライアントへ送信することと、が含まれる
    ことを特徴とする請求項1から5のいずれか一項に記載のインタラクション方法。
  7. クライアントからのユーザ入力操作に応答して、指示内容を含む第1メッセージをサーバーへ送信することと、
    前記サーバーによって前記第1メッセージに対して応答された第2メッセージに基づいて、前記クライアントの表示インターフェースに前記インタラクションオブジェクトの応答動画を再生することと、を含む
    ことを特徴とするインタラクション方法。
  8. 前記指示内容にはテキスト内容が含まれ、
    前記インタラクション方法は、さらに、前記クライアントに、前記テキスト内容をディスプレイすること、及び/又は、前記テキスト内容に対応する音声ファイルを再生すること、を含む
    ことを特徴とする請求項7に記載のインタラクション方法。
  9. 前記クライアントに前記テキスト内容をディスプレイすることには、前記テキスト内容の弾幕情報を生成することと、前記クライアントの表示インターフェースに前記弾幕情報をディスプレイすることと、が含まれる
    ことを特徴とする請求項8に記載のインタラクション方法。
  10. 前記第2メッセージには前記指示内容に対する応答テキストが含まれ、
    前記インタラクション方法は、さらに、
    前記応答テキストを前記クライアントの表示インターフェースにディスプレイすること、及び/又は、
    前記応答テキストに対応する音声ファイルを特定して再生すること、を含む
    ことを特徴とする請求項7から9のいずれか一項に記載のインタラクション方法。
  11. 前記第2メッセージには前記インタラクションオブジェクトの駆動データが含まれ、
    前記サーバーによって前記第1メッセージに対して応答された第2メッセージに基づいて、前記クライアントの表示インターフェースに前記インタラクションオブジェクトの応答動画を再生することには、
    前記駆動データに基づいて、前記インタラクションオブジェクトの仮想モデルパラメータを調整することと、
    調整された仮想モデルパラメータに基づいて、レンダリングエンジンを用いて前記インタラクションオブジェクトの応答動画を生成し、前記クライアントの表示インターフェースにディスプレイすることと、
    前記駆動データには、前記応答テキストに対応する音素シーケンスにマッチングしている前記インタラクションオブジェクト用の制御パラメータ、及び/又は、前記応答テキストに含まれる少なくとも1つの目標テキストにマッチングしている前記インタラクションオブジェクト用の設定動作の制御パラメータが含まれる
    ことを特徴とする請求項8から10のいずれか一項に記載のインタラクション方法。
  12. 前記第2メッセージには、前記指示内容に対する前記インタラクションオブジェクトの応答動画が含まれる
    ことを特徴とする請求項8から11のいずれか一項に記載のインタラクション方法。
  13. 前記ユーザ入力操作には、ユーザが、前記表示インターフェースに表示される肢体操作画面に従って対応する人体姿勢を行うことが含まれ、
    クライアントからのユーザ入力操作に応答して、前記インタラクション方法は、さらに、
    前記人体姿勢を含むユーザ行動画像を取得することと、
    前記ユーザ行動画像における人体姿勢情報を識別することと、
    前記人体姿勢情報に基づいて、前記表示インターフェースにディスプレイされるインタラクションオブジェクトに応答させることと、を含む
    ことを特徴とする請求項7の記載のインタラクション方法。
  14. 前記人体姿勢情報に基づいて、前記表示インターフェースにディスプレイされるインタラクションオブジェクトに応答させることには、
    前記人体姿勢情報と前記肢体操作画面における人体姿勢とのマッチング度を特定することと、
    前記マッチング度に基づいて、応答するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトを駆動することと、が含まれる
    ことを特徴とする請求項13に記載のインタラクション方法。
  15. 前記マッチング度に基づいて、応答するように前記インタラクションオブジェクトを駆動することには、
    前記マッチング度が設定条件を満たした場合、姿勢合格の肢体動作の表示及び/又は音声提示を含む第1応答を実施するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトに指示し、次の肢体操作画面を表示することと、
    前記マッチング度が設定条件を満たさない場合、姿勢不合格の肢体動作の表示及び/又は音声提示を含む第2応答を実施するように前記表示インターフェースにディスプレイされるインタラクションオブジェクトに指示し、現在の肢体操作画面を表示し続けることが含まれる
    ことを特徴とする請求項14に記載のインタラクション方法。
  16. クライアントからの第1メッセージを受信するための受信ユニットと、
    前記第1メッセージに含まれる指示内容に基づいて、前記指示内容にマッチングしている駆動データを取得するための取得ユニットと、
    前記駆動データを用いて、表示インターフェースに前記インタラクションオブジェクトの応答動画を再生するように前記クライアントを制御するための駆動ユニット
    を有することを特徴とするインタラクション装置。
  17. クライアントからのユーザ入力操作に応答して、指示内容を含む第1メッセージをサーバーへ送信するための送信ユニットと、
    前記サーバーによって前記第1メッセージに対して応答された第2メッセージに基づいて、前記クライアントの表示インターフェースに前記インタラクションオブジェクトの応答動画を再生するための再生ユニット
    を有することを特徴とするインタラクション装置。
  18. メモリー、プロセッサを有する電子機器であって、
    前記メモリーは、前記プロセッサによって実行されるコンピュータ指令を格納し、前記プロセッサは、前記コンピュータ指令を実行すると、請求項1から6いずれか一項に記載の方法を実施し、あるいは、前記プロセッサは、前記コンピュータ指令を実行すると、請求項7から15いずれか一項に記載記の方法を実施する。
    ことを特徴とする電子機器。
  19. コンピュータプログラムを記憶するコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータプログラムはプロセッサによって実行されると、請求項1から6いずれか一項に記載の方法が実施され、あるいは、前記コンピュータプログラムはプロセッサによって実行されると、請求項7から15いずれか一項に記載の方法が実施される
    ことを特徴とするコンピュータ読み取り可能な記憶媒体。
JP2021549324A 2020-02-27 2020-11-19 インタラクション方法、装置、電子機器及び記憶媒体 Pending JP2022524944A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
CN202010125701 2020-02-27
CN202010125701.3 2020-02-27
CN202010362562.6 2020-04-30
CN202010362562.6A CN111541908A (zh) 2020-02-27 2020-04-30 交互方法、装置、设备以及存储介质
PCT/CN2020/130184 WO2021169431A1 (zh) 2020-02-27 2020-11-19 交互方法、装置、电子设备以及存储介质

Publications (1)

Publication Number Publication Date
JP2022524944A true JP2022524944A (ja) 2022-05-11

Family

ID=71980272

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021549324A Pending JP2022524944A (ja) 2020-02-27 2020-11-19 インタラクション方法、装置、電子機器及び記憶媒体

Country Status (6)

Country Link
JP (1) JP2022524944A (ja)
KR (1) KR20210110620A (ja)
CN (1) CN111541908A (ja)
SG (1) SG11202109192QA (ja)
TW (1) TWI778477B (ja)
WO (1) WO2021169431A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111541908A (zh) * 2020-02-27 2020-08-14 北京市商汤科技开发有限公司 交互方法、装置、设备以及存储介质
CN111459450A (zh) * 2020-03-31 2020-07-28 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN111970539B (zh) * 2020-08-19 2021-04-16 深圳天使无忧科技开发有限公司 基于深度学习和云计算服务的数据编码方法及大数据平台
CN112633110B (zh) * 2020-12-16 2024-02-13 中国联合网络通信集团有限公司 数据处理方法和装置
CN113766253A (zh) * 2021-01-04 2021-12-07 北京沃东天骏信息技术有限公司 基于虚拟主播的直播方法、装置、设备及存储介质
CN113810729B (zh) * 2021-09-16 2024-02-02 中国平安人寿保险股份有限公司 直播氛围特效匹配方法、装置、设备及介质
US20230127495A1 (en) * 2021-10-22 2023-04-27 Lemon Inc. System and method for animated emoji recording and playback
CN114241132B (zh) * 2021-12-16 2023-07-21 北京字跳网络技术有限公司 场景内容展示控制方法、装置、计算机设备及存储介质
CN114363685A (zh) * 2021-12-20 2022-04-15 咪咕文化科技有限公司 视频互动方法、装置、计算设备及计算机存储介质
CN114302241A (zh) * 2021-12-30 2022-04-08 阿里巴巴(中国)有限公司 一种虚拟直播业务推送方法及装置
CN114401438B (zh) * 2021-12-31 2022-12-09 魔珐(上海)信息科技有限公司 虚拟数字人的视频生成方法及装置、存储介质、终端
CN115086693A (zh) * 2022-05-07 2022-09-20 北京达佳互联信息技术有限公司 虚拟对象交互方法、装置、电子设备和存储介质
CN117813579A (zh) * 2022-07-29 2024-04-02 京东方科技集团股份有限公司 模型控制方法、装置、设备、系统以及计算机存储介质
CN116168134B (zh) * 2022-12-28 2024-01-02 北京百度网讯科技有限公司 数字人的控制方法、装置、电子设备以及存储介质
CN116527956B (zh) * 2023-07-03 2023-08-22 世优(北京)科技有限公司 基于目标事件触发的虚拟对象直播方法、装置及系统
CN116668796B (zh) * 2023-07-03 2024-01-23 佛山市炫新智能科技有限公司 一种互动式仿真人直播信息管理系统
CN116824010B (zh) * 2023-07-04 2024-03-26 安徽建筑大学 一种反馈式多端动画设计在线交互方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330958A (ja) * 2005-05-25 2006-12-07 Oki Electric Ind Co Ltd 画像合成装置、ならびにその装置を用いた通信端末および画像コミュニケーションシステム、ならびにそのシステムにおけるチャットサーバ
JP2016038601A (ja) * 2014-08-05 2016-03-22 日本放送協会 Cgキャラクタ対話装置及びcgキャラクタ対話プログラム
CN107329990A (zh) * 2017-06-06 2017-11-07 北京光年无限科技有限公司 一种用于虚拟机器人的情绪输出方法以及对话交互系统
US20190095775A1 (en) * 2017-09-25 2019-03-28 Ventana 3D, Llc Artificial intelligence (ai) character system capable of natural verbal and visual interactions with a human
US20190197126A1 (en) * 2017-12-21 2019-06-27 Disney Enterprises, Inc. Systems and methods to facilitate bi-directional artificial intelligence communications
CN110298906A (zh) * 2019-06-28 2019-10-01 北京百度网讯科技有限公司 用于生成信息的方法和装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104637482B (zh) * 2015-01-19 2015-12-09 孔繁泽 一种语音识别方法、装置、系统以及语言交换系统
CN104866101B (zh) * 2015-05-27 2018-04-27 世优(北京)科技有限公司 虚拟对象的实时互动控制方法及装置
CN105094315B (zh) * 2015-06-25 2018-03-06 百度在线网络技术(北京)有限公司 基于人工智能的人机智能聊天的方法和装置
SG11201809397TA (en) * 2016-04-26 2018-11-29 Taechyon Robotics Corp Multiple interactive personalities robot
EP3465478A1 (en) * 2016-06-02 2019-04-10 Kodak Alaris Inc. Method for providing one or more customized media centric products
CN106056989B (zh) * 2016-06-23 2018-10-16 广东小天才科技有限公司 一种语言学习方法及装置、终端设备
CN106878820B (zh) * 2016-12-09 2020-10-16 北京小米移动软件有限公司 直播互动方法及装置
CN109388297B (zh) * 2017-08-10 2021-10-22 腾讯科技(深圳)有限公司 表情展示方法、装置、计算机可读存储介质及终端
CN107784355A (zh) * 2017-10-26 2018-03-09 北京光年无限科技有限公司 虚拟人多模态交互数据处理方法和系统
CN108810561A (zh) * 2018-06-21 2018-11-13 珠海金山网络游戏科技有限公司 一种基于人工智能的三维偶像直播方法及装置
CN113286186B (zh) * 2018-10-11 2023-07-18 广州虎牙信息科技有限公司 直播中的形象展示方法、装置和存储介质
CN109491564A (zh) * 2018-10-18 2019-03-19 深圳前海达闼云端智能科技有限公司 虚拟机器人的互动方法,装置,存储介质及电子设备
CN110634483B (zh) * 2019-09-03 2021-06-18 北京达佳互联信息技术有限公司 人机交互方法、装置、电子设备及存储介质
CN111541908A (zh) * 2020-02-27 2020-08-14 北京市商汤科技开发有限公司 交互方法、装置、设备以及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330958A (ja) * 2005-05-25 2006-12-07 Oki Electric Ind Co Ltd 画像合成装置、ならびにその装置を用いた通信端末および画像コミュニケーションシステム、ならびにそのシステムにおけるチャットサーバ
JP2016038601A (ja) * 2014-08-05 2016-03-22 日本放送協会 Cgキャラクタ対話装置及びcgキャラクタ対話プログラム
CN107329990A (zh) * 2017-06-06 2017-11-07 北京光年无限科技有限公司 一种用于虚拟机器人的情绪输出方法以及对话交互系统
US20190095775A1 (en) * 2017-09-25 2019-03-28 Ventana 3D, Llc Artificial intelligence (ai) character system capable of natural verbal and visual interactions with a human
US20190197126A1 (en) * 2017-12-21 2019-06-27 Disney Enterprises, Inc. Systems and methods to facilitate bi-directional artificial intelligence communications
CN110298906A (zh) * 2019-06-28 2019-10-01 北京百度网讯科技有限公司 用于生成信息的方法和装置

Also Published As

Publication number Publication date
SG11202109192QA (en) 2021-10-28
WO2021169431A1 (zh) 2021-09-02
TWI778477B (zh) 2022-09-21
CN111541908A (zh) 2020-08-14
TW202132967A (zh) 2021-09-01
KR20210110620A (ko) 2021-09-08

Similar Documents

Publication Publication Date Title
JP2022524944A (ja) インタラクション方法、装置、電子機器及び記憶媒体
JP6902683B2 (ja) 仮想ロボットのインタラクション方法、装置、記憶媒体及び電子機器
US6526395B1 (en) Application of personality models and interaction with synthetic characters in a computing system
US20190193273A1 (en) Robots for interactive comedy and companionship
TWI766499B (zh) 互動物件的驅動方法、裝置、設備以及儲存媒體
CN111801730A (zh) 用于人工智能驱动的自动伴侣的系统和方法
US9796095B1 (en) System and method for controlling intelligent animated characters
CN113554737A (zh) 目标对象的动作驱动方法、装置、设备及存储介质
CN111459452B (zh) 交互对象的驱动方法、装置、设备以及存储介质
CN111459454B (zh) 交互对象的驱动方法、装置、设备以及存储介质
WO2019161207A1 (en) System and method for conversational agent via adaptive caching of dialogue tree
WO2019161241A1 (en) System and method for identifying a point of interest based on intersecting visual trajectories
CN112204565A (zh) 用于基于视觉背景无关语法模型推断场景的系统和方法
WO2019161226A1 (en) System and method for prediction based preemptive generation of dialogue content
CN114357135A (zh) 交互方法、交互装置、电子设备以及存储介质
CN114125529A (zh) 一种生成和演示视频的方法、设备及存储介质
Corradini et al. Animating an interactive conversational character for an educational game system
Čereković et al. Multimodal behavior realization for embodied conversational agents
CN113314104A (zh) 交互对象驱动和音素处理方法、装置、设备以及存储介质
CN114303151A (zh) 经由使用组合神经网络的场景建模进行自适应对话的系统和方法
Neff Hand gesture synthesis for conversational characters
CN117036555A (zh) 数字人的生成方法、装置和数字人的生成系统
Vilhjalmsson et al. Social performance framework
Bilvi et al. Communicative and statistical eye gaze predictions
CN112632262A (zh) 一种对话方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210820

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221027

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230523