JP2022515307A

JP2022515307A - インタラクティブオブジェクト駆動方法、装置、電子デバイス及び記憶媒体

Info

Publication number: JP2022515307A
Application number: JP2021521785A
Authority: JP
Inventors: 子隆 ▲張▼; 青 ▲欒▼; 林 ▲孫▼
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-11-28
Filing date: 2020-07-24
Publication date: 2022-02-18
Anticipated expiration: 2040-07-24
Also published as: CN110989900B; KR20210068474A; CN110989900A; US11769499B2; SG11202102635TA; WO2021103609A1; JP7267411B2; TW202121161A; US20210201908A1; TWI777229B

Abstract

本発明は、インタラクティブオブジェクト駆動方法、装置、電子デバイス及び記憶媒体を提供する。前記方法は、前記表示デバイスの周辺のオーディオ信号を取得することと、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第１駆動データを取得することと、第１駆動データが出力されたことに応じて、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングすることと、前記オーディオ信号中の目標オブジェクトの音声存在状態に応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにすることと、を含む。【選択図】図２

Description

＜関連出願の相互引用＞
本発明は、２０１９年１１月２８日に提出された、出願番号が２０１９１１１９５２８０５である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が援用により本願に組み入れられる。
本発明は、コンピュータビジョン技術分野に関し、具体的にインタラクティブオブジェクト駆動方法、装置、電子デバイス及び記憶媒体に関する。

ほとんどの人間とコンピュータのインタラクティブの方式は、ボタンのクリック、タッチ、音声を利用して入力を行い、ディスプレイスクリーンに画像やテキストを表示することで応答を行う。現在、仮想人物の多くは、音声アシスタントを基礎として改良されたものであり、デバイスを介して入力された音声を出力するだけであり、ユーザと仮想人物との間の会話に遅延が出ており、且つ仮想人物がユーザの話しぶりに応じて回答することができないため、インタラクティブが不自然になってしまった。

本発明の一態様は、インタラクティブオブジェクト駆動方法を提供する。前記方法は、表示デバイスの周辺のオーディオ信号を取得することと、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第１駆動データを取得することと、前記第１駆動データが出力されたことに応じて、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングすることと、前記オーディオ信号中の前記目標オブジェクトの音声の存在状態に応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにすることと、を含む。

本発明に係る何れか１つの実施形態を参照すると、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第１駆動データを取得することは、前記オーディオ信号から目標情報が検出されたことに応じて、前記目標情報にマッピングする第１指定動作を確定することと、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第１指定動作を実行するようにするための第１駆動データを取得することと、を含む。

本発明に係る何れか１つの実施形態を参照すると、前記第１駆動データは、第１オーディオ駆動データ及び／または第１動作駆動データを含み、前記第１オーディオ駆動データは、前記第１指定動作を実行するときに発生する音声のデータであり、前記第１駆動データが出力されたことに応じて、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングすることは、前記第１動作駆動データが出力されたことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第１指定動作を実行するようにし、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングすること、または、前記第１オーディオ駆動データに基づいて音声が出力されたことに応じて、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングすることを含む。

本発明に係る何れか１つの実施形態を参照すると、前記オーディオ信号中の目標オブジェクトの音声存在状態に応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにすることは、第１所定時間内で目標オブジェクトの音声が検出されたことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第１指定動作を循環的に実行するようにすることを含む。

本発明に係る何れか１つの実施形態を参照すると、前記オーディオ信号中の目標オブジェクトの音声存在状態に応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにすることは、第１所定時間内で目標オブジェクトの音声が検出されなかったことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第１指定動作の実行を終了した後で初期姿勢に回復するようにすることを含む。

本発明に係る何れか１つの実施形態を参照すると、前記方法は、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第１指定動作の実行を終了した後で初期姿勢に回復するようにした後、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第２駆動データを取得することと、前記第２駆動データに基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにすることと、を更に含み、前記第２駆動データは、第２オーディオ駆動データ及び／または第２動作駆動データを含む。

本発明に係る何れか１つの実施形態を参照すると、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第２駆動データを取得することは、前記オーディオ信号をサーバへ送信することによって、当該サーバが、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第２駆動データを生成するようにすることと、前記サーバによって送信される第２駆動データを受信することと、を含む。

本発明に係る何れか１つの実施形態を参照すると、前記方法は、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第１指定動作の実行を終了した後で初期姿勢に回復するようにした後、前記サーバによって送信される第２駆動データが第２所定時間内で受信されなかったことに応じて、予め設定された第３駆動データを呼び出して前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにすることを更に含み、前記第３駆動データは、第３オーディオ駆動データ及び／または第３動作駆動データを含む。

本発明に係る何れか１つの実施形態を参照すると、前記方法は、前記オーディオ信号に基づいて、環境騒音声の強度を検出することと、前記環境騒音声の強度に応じて、前記インタラクティブオブジェクトの応答過程での前記表示デバイスの出力音声の音声量を調整することを更に含む。

本発明に係る何れか１つの実施形態を参照すると、複数のオーディオ信号は、複数の音声検出モジュールを介して取得され、前記複数の音声検出モジュールは、前記表示デバイスの互いに異なる方位に分布され、前記インタラクティブオブジェクト駆動方法は、前記複数の音声検出モジュールでそれぞれ取得された複数のオーディオ信号に基づいて異なる方位の環境騒音声の強度を確定することと、前記異なる方位の環境騒音声の強度に応じて、前記インタラクティブオブジェクトを駆動することによって、前記目標オブジェクトを案内して当該目標オブジェクトがインタラクティブを実行する位置を変更するようにすることと、を更に含む。

本発明の一態様は、インタラクティブオブジェクト駆動装置を提供する。前記装置は、表示デバイスの周辺のオーディオ信号を取得するための第１取得ユニットと、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第１駆動データを取得するための第２取得ユニットと、第１駆動データが出力されたことに応じて、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングするためのモニタリングユニットと、前記オーディオ信号中の前記目標オブジェクトの音声の存在状態に応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第１駆動ユニットと、を備える。

本発明に係る何れか１つの実施形態を参照すると、前記第２取得ユニットは、前記オーディオ信号から目標情報が検出されたことに応じて、前記目標情報にマッピングする第１指定動作を確定し、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第１指定動作を実行するようにするための第１駆動データを取得する。

本発明に係る何れか１つの実施形態を参照すると、前記第１駆動データは、第１オーディオ駆動データ及び／または第１動作駆動データを含み、前記第１オーディオ駆動データは、前記第１指定動作を実行するときに発生する音声のデータであり、前記モニタリングユニットは、前記第１動作駆動データが出力されたことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第１指定動作を実行するようにし、前記目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングし、または、前記第１オーディオ駆動データに基づいて音声が出力されたことに応じて、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングする。

本発明に係る何れか１つの実施形態を参照すると、前記第１駆動ユニットは、第１所定時間内で目標オブジェクトの音声が検出されたことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第１指定動作を循環的に実行するようにする。

本発明に係る何れか１つの実施形態を参照すると、前記第１駆動ユニットは、第１所定時間内で目標オブジェクトの音声が検出されなかったことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第１指定動作の実行を終了した後で初期姿勢に回復するようにする。

本発明に係る何れか１つの実施形態を参照すると、前記インタラクティブオブジェクト駆動装置は、第２駆動ユニットを更に備え、前記第２駆動ユニットは、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第１指定動作の実行を終了した後で初期姿勢に回復するようにした後、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第２駆動データを取得し、前記第２駆動データに基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにし、前記第２駆動データは、第２オーディオ駆動データ及び／または第２動作駆動データを含む。

本発明に係る何れか１つの実施形態を参照すると、前記第２駆動ユニットは、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第２駆動データを取得する際に、前記オーディオ信号をサーバに送信することによって、当該サーバが前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第２駆動データを生成するようにし、前記サーバによって送信される第２駆動データを受信する。

本発明に係る何れか１つの実施形態を参照すると、前記インタラクティブオブジェクト駆動装置は、第３駆動ユニットを更に備え、前記第３駆動ユニットは、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第１指定動作の実行を終了した後で初期姿勢に回復するようにした後、前記サーバによって送信される第２駆動データが第２所定時間内で受信されなかったことに応じて、予め設定された第３駆動データを呼び出して前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにし、前記第３駆動データは、第３オーディオ駆動データ及び／または第３動作駆動データを含む。

本発明に係る何れか１つの実施形態を参照すると、前記インタラクティブオブジェクト駆動装置は、調整ユニットを更に備え、前記調整ユニットは、前記オーディオ信号に基づいて、環境騒音声の強度を検出し、前記環境騒音声の強度に応じて、前記インタラクティブオブジェクトの応答過程での前記表示デバイスの出力音声の音声量を調整する。

本発明に係る何れか１つの実施形態を参照すると、複数のオーディオ信号は、複数の音声検出モジュールを介して取得され、前記複数の音声検出モジュールは、前記表示デバイスの互いに異なる方位に分布され、前記インタラクティブオブジェクト駆動装置は、第４駆動ユニットを更に備え、前記第４駆動ユニットは、複数の音声検出モジュールでそれぞれ取得された複数のオーディオ信号に基づいて異なる方位の環境騒音声の強度を確定し、前記異なる方位の環境騒音声の強度に応じて、前記インタラクティブオブジェクトを駆動することによって、前記目標オブジェクトを案内して当該目標オブジェクトがインタラクティブを実行する位置を変更するようにする。

本発明の一態様は、表示デバイスを提供する。前記表示デバイスには、透明ディスプレイスクリーンが設けられ、前記透明ディスプレイスクリーンは、インタラクティブオブジェクトを表示し、前記表示デバイスは、本発明に係る何れか１つの実施形態に記載の方法を実行することによって、前記透明ディスプレイスクリーンに表示されたインタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが目標オブジェクトに対して応答を実行するようにする。

本発明の一態様は、電子デバイスを提供する。前記電子デバイスは、メモリと、プロセッサとを備え、前記メモリは、プロセッサで運転され得るコンピュータプログラムを記憶し、前記プロセッサは、前記コンピュータプログラムを実行したときに本発明に係る何れか１つの実施形態に記載のインタラクティブオブジェクト駆動方法を実施する。

本発明の一態様は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記プログラムがプロセッサによって実行されたときに、本発明に係る何れか１つの実施形態に記載のインタラクティブオブジェクト駆動方法は、実施される。

本発明の少なくとも１つの実施例に係るインタラクティブオブジェクト駆動方法、装置、電子デバイス及び記憶媒体では、表示デバイスの周辺のオーディオ信号に基づいてインタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが目標オブジェクトに対して応答を実行するようにし、また第１駆動データを出力すると同時に、目標オブジェクトの音声を検知するためのオーディオ信号をモニタリングし始め、目標オブジェクトの音声の存在状態に応じて前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするため、インタラクティブオブジェクトが動作を実行すると同時に、目標オブジェクトの話しぶりに応じて、実行している動作を調整することができ、インタラクティブオブジェクトと目標オブジェクトとの間のインタラクティブ会話過程がよりリアル且つ自然になり、目標オブジェクトのより高いレベルの交流ニーズを満たすことができる。

本明細書の１つまたは複数の実施例或いは従来技術における技術案がより明瞭に説明されるように、以下では、実施例或いは従来技術の記述に使用必要な図面を簡単に紹介する。明らかに、以下の記述に係る図面が単に本明細書の１つまたは複数の実施例に記載の幾つかの実施例に過ぎず、当業者であれば、進歩性に値する労働を掛けずにこれらの図面から他の図面を取得可能である。
本発明の少なくとも１つの実施例に係るインタラクティブオブジェクト駆動方法における表示デバイスの模式図を示す。本発明の少なくとも１つの実施例に係るインタラクティブオブジェクトの駆動のフローチャートを示す。本発明の少なくとも１つの実施例に係るインタラクティブオブジェクト駆動装置の構造模式図を示す。本発明の少なくとも１つの実施例に係る電子デバイスの構造模式図を示す。

ここで、例示的な実施例を詳細に説明する。その例示は、図面に示される。以下の記述は、図面に係る際、別途示さない限り、異なる図面における同じ符号が同じまたは類似する要素を示す。以下の例示的な実施例に記述される実施形態が本発明と一致する全ての実施形態を代表するわけではない。逆に、それらは、単に添付する特許請求の範囲に詳細に記述されるような、本発明の幾つかの態様に一致する装置及び方法の例である。

本文における用語「及び／または」は、単に関連対象の関連関係を記述するものであり、３種の関係が存在可能であることを示す。例えば、Ａ及び／またはＢは、Ａが単独に存在することと、Ａ及びＢが同時に存在することと、Ｂが単独に存在することという３種の場合を表せる。また、本文における用語「少なくとも１種」は、複数種のうちの何れか１種または複数種のうちの少なくとも２種の任意の組み合わせを示す。例えば、Ａ、Ｂ、Ｃのうちの少なくとも１種を含むことは、Ａ、Ｂ及びＣによって構成された集合から、何れか１つまたは複数の要素を選択することを示してもよい。

本発明の少なくとも１つの実施例は、インタラクティブオブジェクト駆動方法を提供する。前記駆動方法は、端末デバイスまたはサーバ等の電子デバイスによって実行されてもよい。前記端末デバイスは、固定端末またはモバイル端末、例えば、携帯電話、タブレットＰＣ、ゲーム機、デスクトップＰＣ、広告機、一体型ＰＣ、車載端末等であってもよい。前記方法は、プロセッサがメモリに記憶されたコンピュータ可読指令を呼び出すことで実施されてもよい。

本発明の実施例において、インタラクティブオブジェクトは、目標オブジェクトとインタラクティブを行うことができる何れか１種のインタラクティブオブジェクトであってもよい。それは、仮想人物であってもよく、仮想動物、仮想物品、漫画キャラクタ等のインタラクティブ機能を実現可能な他の仮想オブジェクトであってもよい。前記目標オブジェクトは、ユーザ、ロボット、又は他のスマート機器であってもよい。前記目標オブジェクトと前記インタラクティブオブジェクトとの間のインタラクティブ方式は、能動的なインタラクティブ方式であってもよく、受動的なインタラクティブ方式であってもよい。一例示において、目標オブジェクトは、ジェスチャ又は肢体動作を行って要求を発して、能動的なインタラクティブの方式でインタラクティブオブジェクトがそれにインタラクティブを行うようトリガしてもよい。別の例示において、インタラクティブオブジェクトは、能動的に挨拶したり、目標オブジェクトが動作等を行うよう提示したりすることにより、目標オブジェクトに受動的な方式でインタラクティブオブジェクトとインタラクティブを行わせてもよい。

前記インタラクティブオブジェクトは、表示デバイスを介してディスプレイされてもよい。前記表示デバイスは、表示機能を持つ電子デバイス、例えば、ディスプレイスクリーンを有する一体型ＰＣ、プロジェクタ、仮想現実（ＶｉｒｔｕａｌＲｅａｌｉｔｙ、ＶＲ）デバイス、拡張現実（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ、ＡＲ）デバイスであってもよく、特殊な表示効果を有する表示デバイスであってもよい。

図１は、本発明の少なくとも１つの実施例に係る表示デバイスを示す。図１に示すように、当該表示デバイスは、透明ディスプレイスクリーンを有し、当該透明ディスプレイスクリーンには、立体効果を有する仮想シナリオ及びインタラクティブオブジェクトを表示してもよい。例えば、図１において、透明ディスプレイスクリーンに表示されたインタラクティブオブジェクトは、仮想漫画人物を含む。幾つかの実施例において、本発明に記載された端末デバイスは、上記表示デバイスであってもよい。表示デバイスには、メモリ及びプロセッサが配置され、メモリは、プロセッサで運転され得るコンピュータ指令を記憶し、前記プロセッサは、前記コンピュータ指令を実行したときに本発明に係るインタラクティブオブジェクト駆動方法を実施することにより、透明ディスプレイスクリーンに表示されたインタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが目標オブジェクトに応答するようにする。

幾つかの実施例において、インタラクティブオブジェクトが動作を行ったり、表情を表したり、音声を出力するように駆動するための駆動データが表示デバイスによって受信されたことに応じて、インタラクティブオブジェクトは、目標オブジェクトに対して、指定の動作、表情を行い、または指定の音声を発してもよい。表示デバイスの周辺に出現した目標オブジェクトの動作、表情、身分、嗜好等に基づいて駆動データを生成することにより、インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにし、目標オブジェクトへ擬人化のサービスを提供する。インタラクティブオブジェクトと目標オブジェクトとのインタラクティブ過程に、インタラクティブオブジェクトが目標オブジェクトの挙動に応じて適切な応答を行うことができない場合も存在する。例えば、目標オブジェクトが話を中断したり、考えたりするとき、インタラクティブオブジェクトが静止状態を維持するため、目標オブジェクトは、インタラクティブオブジェクトとの交流に障害が存在すると感じてしまい、使用体験に影響を与える。これに鑑みて、本発明の少なくとも１つの実施例は、目標オブジェクトがインタラクティブオブジェクトとのインタラクティブを行う過程におけるインタラクティブ体験を向上させるためのインタラクティブオブジェクト駆動方法を提出する。

図２は、本発明の少なくとも１つの実施例に係るインタラクティブオブジェクトの駆動のフローチャートを示す。図２に示すように、前記方法は、ステップ２０１～ステップ２０４を含む。

ステップ２０１では、表示デバイスの周辺のオーディオ信号を取得する。

表示デバイスの周辺は、前記表示デバイスの所在する任意方向における空間範囲を含み、例えば、前記表示デバイスの前方向、側方向、後方向、上方向のうちの１つまたは複数の方向を含んでもよい。当該空間範囲は、オーディオ信号を検出するための音声検出モジュールが受信できる所定強度のオーディオ信号の範囲に基づいて確定される。

表示デバイスの周辺のオーディオ信号を検出するための音声検出モジュールは、マイク及びプロセッサを備えてもよい。前記プロセッサは、マイクで取得された音声信号を処理してオーディオ信号を出力する。前記音声検出モジュールは、前記表示デバイスの内蔵モジュールとして表示デバイスに設けられてもよく、外付けデバイスとして表示デバイスに対して独立してもよい。

前記音声検出モジュールは、複数あってもよく、前記表示デバイスの異なる位置に設けられて前記表示デバイスの周辺の異なる方位の音声信号を取得してもよく、前記表示デバイスの周辺の１つの方位に設けられて、当該方位での信号を集中的に取得してもよい。前記音声検出モジュールが設けられる位置は、インタラクティブのニーズに応じて確定され得る。本発明の実施例において、これについて限定しない。

ステップ２０２では、オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第１駆動データを取得する。

表示デバイスにおける音声検出モジュールは、前記オーディオ信号を検出し、検出結果に基づいて前記第１駆動データを取得することにより、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記目標オブジェクトに応答するようにする。

幾つかの実施例において、前記オーディオ信号がインタラクティブオブジェクトによる第１指定動作の実行に合致する目標情報を含むときに、当該目標情報は、前記インタラクティブオブジェクトをトリガして当該インタラクティブオブジェクトが前記第１指定動作を実行するようにする。前記第１指定動作は、インタラクティブオブジェクトが実行する１つの動作、例えば手を振ることであってもよい。第１指定動作を実行するときに、前記表示デバイスの音声出力モジュールは、当該第１指定動作の実行に対応する音声を同時に出力してもよい。具体的に、オーディオ信号が目標情報を含むと検出されたときに、目標情報に対応する第１駆動データを取得することにより、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第１指定動作を実行するようにする。

ステップ２０３では、第１駆動データが出力されたことに応じて、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングする。

取得された第１駆動データを出力することで、インタラクティブオブジェクトを駆動して前記第１指定動作を実行するようにする同時に、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングし始める。

ステップ２０４では、前記オーディオ信号中の目標オブジェクトの音声の存在状態に応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにする。

インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第１指定動作を実行するようにすると同時に、目標オブジェクトの音声を検知するためのオーディオ信号をモニタリングし始め、目標オブジェクトの音声の存在状態に応じて前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにし、例えば、所定の動作を実行させ、所定の音声を出力させ、または前記インタラクティブオブジェクトの状態等を調整する。こうようにすることによって、インタラクティブオブジェクトが第１指定動作を実行している期間に、目標オブジェクトの話しぶりに応じて正確な応答を行うことができない問題は、回避可能である。

本発明の実施例において、表示デバイスの周辺のオーディオ信号に基づいて、インタラクティブオブジェクトを駆動して応答するようにするための第１駆動データをインタラクティブオブジェクトへ出力すると同時に、目標オブジェクトの音声を検知するためのオーディオ信号をモニタリングし始め、目標オブジェクトの音声の存在状態に応じて前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにすることにより、インタラクティブオブジェクトが動作を実行すると同時に、目標オブジェクトの話しぶりに応じて、実行している動作を調整することができ、インタラクティブオブジェクトと目標オブジェクトとの間のインタラクティブ会話過程がよりリアル且つ自然になり、目標オブジェクトのより高いレベルの交流ニーズを満たすことができる。

本発明の実施例において、前記第１駆動データは、第１オーディオ駆動データ及び／または第１動作駆動データを含み、前記第１オーディオ駆動データは、前記第１指定動作を実行するときに発生する音声のデータである。

一例示において、インタラクティブオブジェクトは、第１指定動作を実行するときに、音声を発してもよく、音声を発さなくてもよい。例えば、インタラクティブオブジェクトが第１指定動作を実行するときに音声を発することに応じて、第１動作駆動データを出力することで前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第１指定動作を実行するようにすると同時に、前記第１オーディオ駆動データに基づいて音声を出力する。更に例えば、インタラクティブオブジェクトが第１指定動作を実行するときに音声を発生しないことに応じて、第１動作駆動データを出力することで前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第１指定動作を実行するようにする。

幾つかの実施例において、出力された第１動作駆動データを検出したことに応じて、目標オブジェクトの音声を検知するためのオーディオ信号をモニタリングし始める。

幾つかの実施例において、出力された第１オーディオ駆動データが検出されたことに応じて、即ち、第１指定動作に対応する音声を再生し始めたことが検出されたときに、目標オブジェクトの音声を検知するためのオーディオ信号をモニタリングし始める。

本発明の実施例において、第１動作駆動データを出力し始めたこと、または第１オーディオ駆動データに基づいて音声を出力したことが検出されると、目標オブジェクトの音声を検知するためのオーディオ信号をモニタリングし始める。こうようにすることによって、インタラクティブオブジェクトは、目標オブジェクトが動作を実行する旨の指令を発した後の話しぶりに応じてタイムリーに反応可能であり、インタラクティブオブジェクトと目標オブジェクトとの間のインタラクティブ会話過程がよりリアル且つ自然になり、目標オブジェクトのインタラクティブ体験が向上する。

幾つかの実施例において、第１所定時間内で目標オブジェクトの音声が検出されたことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第１指定動作を循環的に実行するようにする。

前記第１所定時間は、目標オブジェクトの話しの中断時間に応じて設定されてもよい。例えば、目標オブジェクトが話を中断している３秒内で目標オブジェクトの音声が再びモニタリングされた場合に、目標オブジェクトが話を終了することではなく、中断することを意味する。目標オブジェクトが話を中断してから話を再開するときに、目標オブジェクトが話し続ける過程にインタラクティブオブジェクトが常に静止状態または前の状態を維持すると、目標オブジェクトが、インタラクティブオブジェクトとの交流に障害が存在すると感じる恐れがあり、目標オブジェクトのインタラクティブ体験に影響を与えてしまう。

したがって、本発明の実施例において、第１所定時間内で目標オブジェクトの音声が検出された場合に、インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第１指定動作を循環的に実行するようにする。例えば、第１指定動作が「手を振る」である場合に、インタラクティブオブジェクトを駆動して手を振る動作をさせる第１動作駆動データが出力された後、目標オブジェクトの音声を検知するためのオーディオ信号をモニタリングし始める。第１所定時間内、例えば３ｓ内で、目標オブジェクトの音声が検出された場合に、目標オブジェクトが手を振る指令を出した後で依然として話し続けていることを意味する。そうすると、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが手を振る動作を循環的に行うようにする。

第１所定時間内で目標オブジェクトの音声が検出されなかった場合に、前記インタラクティブオブジェクトを駆動して第１指定動作の実行を停止させることにより、前記インタラクティブオブジェクトを初期姿勢に回復するようにしてもよい。

目標オブジェクトの音声を検出している過程に、前記オーディオ信号が他の目標情報を含むと検出されたときに、前記インタラクティブオブジェクトを駆動して第１指定動作の実行を停止させ、前記インタラクティブオブジェクトを駆動して当該他の目標情報に対応する指定動作を実行させる。インタラクティブオブジェクトが指令を再度実行する期間に、目標オブジェクトの音声が検出されなくなる（目標オブジェクトが話を停止したことを意味する）まで、依然として上記目標オブジェクトの音声を検出する過程を繰り返してもよい。

本発明の実施例において、第１所定時間内で目標オブジェクトの音声が検出された場合に、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第１指定動作を循環的に実行するようにすることにより、目標オブジェクトが話を中断した後で引き続き話すときに、インタラクティブオブジェクトは、前の動作を実行し続ける。こうようにすることによって、目標オブジェクトとインタラクティブオブジェクトとの間の交流が活発且つ自然になり、目標オブジェクトのインタラクティブ体験が向上する。

第１所定時間内で目標オブジェクトの音声がずっとモニタリングされていない、即ち、目標オブジェクトが第１指定動作を実行する旨の指令を発した後で第１所定時間内でずっと話を再開していない場合に、目標オブジェクトの話しが終了されたことを意味する。インタラクティブオブジェクトが第１指定動作を実行し終えた後、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが初期姿勢に回復するようにしてもよい。こうようにすることによって、目標オブジェクトとインタラクティブオブジェクトとの間のインタラクティブが自然且つスムーズになり、目標オブジェクトのインタラクティブ体験が向上する。

目標オブジェクトの話しが終了された後、目標オブジェクトの話し内容を分析して目標オブジェクトのインタラクティブ意図を確定してもよい。こうようにすることによって、インタラクティブオブジェクトがインタラクティブ意図に対して回答する応答内容を取得することができる。

幾つかの実施例において、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第１指定動作の実行を終了した後で初期姿勢に回復するようにした後、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して音声応答させる第２駆動データを取得し、前記第２駆動データに基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにする。前記第２駆動データは、第２オーディオ駆動データ及び／または第２動作駆動データを含む。

一例示において、前記オーディオ信号に基づいて、ローカルに記憶された駆動データから、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第２駆動データを呼び出してもよい。

一例示において、前記オーディオ信号をサーバに送信することによって、当該サーバが、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して音声及び／または動作応答を実行するようにするための第２駆動データを生成するようにしてもよい。更に、前記サーバによって送信される第２駆動データを受信する。

幾つかの実施例において、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第１指定動作の実行を終了した後で初期姿勢に回復するようにした後、前記サーバによって送信される第２駆動データが第２所定時間内で受信されなかったことに応じて、予め設定された第３駆動データを呼び出して前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにする。前記第３駆動データは、第３オーディオ駆動データ及び／または第３動作駆動データを含む。

サーバによって第２駆動データを生成した場合に、ネットワーク遅延等の原因により、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第２駆動データをタイムリーに受信することができない可能性がある。目標オブジェクトの話しが終わったが、一定の時間で第２駆動データが受信されなかった場合に、予め設定された第３駆動データを呼び出してインタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにしてもよい。当該予め設定された第３駆動データは、第３オーディオ駆動データ（例えば、インタラクティブオブジェクトが考えていることを示す音声、または例えば「ちょっと待ってください」、「考えさせてください」と類似する音声を音声出力モジュールによって出力する）であってもよく、第３動作駆動データ（例えば、インタラクティブオブジェクトが考えている動作を行うまたは気持ちを表わす姿勢等を行うように駆動する）であってもよく、第３音声駆動データと第３動作駆動データとの両方（例えば、考えている動作をすると同時に、「考えさせてください」の音声を発する）を含んでもよい。第２駆動データが受信された後、第２駆動データを利用開始して前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにする。

本発明の実施例において、サーバによって送信される第２駆動データが一定時間内で受信されなかった場合に、予め設定された第３駆動データを呼び出して前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするため、ネットワーク原因による会話遅延問題が回避され、目標オブジェクトとインタラクティブオブジェクトとの間のインタラクティブがより自然且つスムーズになり、目標オブジェクトのインタラクティブ体験が向上する。

幾つかの実施例において、前記オーディオ信号に基づいて環境騒音声の強度を検出し、環境騒音声の強度に応じて、前記インタラクティブオブジェクトの応答過程での前記表示デバイスの出力音声の音声量を調整してもよい。

音声検出モジュールの出力信号により、表示デバイスの周辺環境、即ち、現在の交流環境がうるさいか否かを知ることができる。環境騒音声の強度が所定閾値を超えた場合に、現在うるさい環境であると確定可能であるため、音声出力モジュールから出力される音声の音声量を調整してもよい。目標オブジェクトにとって、インタラクティブオブジェクトが音声量を上げたと感じたため、目標オブジェクトがインタラクティブオブジェクトの話し内容をよりきれいに聞き取れ、目標オブジェクトのインタラクティブ体験が向上する。

幾つかの実施例において、前記音声検出モジュールは、複数あり、前記表示デバイスの互いに異なる方位に分布されている。複数の音声検出モジュールでそれぞれ取得された複数のオーディオ信号に基づいて、異なる方位の環境騒音声の強度を確定してもよい。異なる方位の環境騒音声の強度に応じて、前記インタラクティブオブジェクトを駆動することによって、前記目標オブジェクトを案内して当該目標オブジェクトがインタラクティブを実行する位置を変更するようにする。

音声検出モジュールが表示デバイスの異なる位置に分布されている場合に、各音声検出モジュールのオーディオ信号に基づいて表示デバイスの周辺の相対的に静かな位置を確定し、目標オブジェクトを当該相対的に静かな位置へ歩かせるように案内してもよい。こうようにすることによって、目標オブジェクトとインタラクティブオブジェクトとがインタラクティブを行う品質が向上可能であり、目標オブジェクトのインタラクティブ体験が向上する。

図３は、本発明の少なくとも１つの実施例に係るインタラクティブオブジェクト駆動装置の構造模式図を示す。図３に示すように、当該装置は、前記表示デバイスの周辺のオーディオ信号を取得するための第１取得ユニット３０１と、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第１駆動データを取得するための第２取得ユニット３０２と、前記第１駆動データが出力されたことに応じて、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングするためのモニタリングユニット３０３と、前記オーディオ信号中の目標オブジェクトの音声存在状態に応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第１駆動ユニット３０４と、を備えてもよい。

幾つかの実施例において、第２取得ユニット３０２は、具体的に、前記オーディオ信号から目標情報が検出されたことに応じて、前記目標情報にマッピングする第１指定動作を確定し、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第１指定動作を実行するようにする第１駆動データを取得する。

幾つかの実施例において、前記第１駆動データは、第１オーディオ駆動データ及び／または第１動作駆動データを含み、前記第１オーディオ駆動データは、前記第１指定動作を実行するときに発生する音声のデータであり、モニタリングユニット３０３は、具体的に、前記第１動作駆動データが出力されたことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第１指定動作を実行するようにし、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングし、または、前記第１オーディオ駆動データに基づいて音声が出力されたことに応じて、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングする。

幾つかの実施例において、第１駆動ユニット３０４は、具体的に、第１所定時間内で目標オブジェクトの音声が検出されたことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第１指定動作を循環的に実行するようにする。

幾つかの実施例において、第１駆動ユニット３０４は、具体的に、第１所定時間内で目標オブジェクトの音声が検出されなかったことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第１指定動作の実行を終了した後で初期姿勢に回復するようにする。

幾つかの実施例において、前記装置は、第２駆動ユニットを更に備える。第２駆動ユニットは、具体的に、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第１指定動作の実行を終了した後で初期姿勢に回復するようにした後、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第２駆動データを取得し、前記第２駆動データに基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにする。前記第２駆動データは、第２オーディオ駆動データ及び／または第２動作駆動データを含む。

幾つかの実施例において、前記第２駆動ユニットは、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第２駆動データを取得する際に、具体的に、前記オーディオ信号をサーバに送信することによって、当該サーバが前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第２駆動データを生成するようにし、前記サーバによって送信される第２駆動データを受信する。

幾つかの実施例において、前記装置は、第３駆動ユニットを更に備える。第３駆動ユニットは、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第１指定動作の実行を終了した後で初期姿勢に回復するようにした後、前記サーバによって送信される第２駆動データが第２所定時間内で受信されなかったことに応じて、予め設定された第３駆動データを呼び出して前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにする。前記第３駆動データは、第３オーディオ駆動データ及び／または第３動作駆動データを含む。

幾つかの実施例において、前記装置は、調整ユニットを更に備える。調整ユニットは、前記オーディオ信号に基づいて、環境騒音声の強度を検出し、前記環境騒音声の強度に応じて、前記インタラクティブオブジェクトの応答過程での前記表示デバイスの出力音声の音声量を調整する。

幾つかの実施例において、複数のオーディオ信号は、複数の音声検出モジュールを介して取得され、前記複数の音声検出モジュールは、前記表示デバイスの互いに異なる方位に分布され、前記装置は、第４駆動ユニットを更に備え、第４駆動ユニットは、複数の音声検出モジュールでそれぞれ取得された複数のオーディオ信号に基づいて、異なる方位の環境騒音声の強度を確定し、前記異なる方位の環境騒音声の強度に応じて、前記インタラクティブオブジェクトを駆動することによって、前記目標オブジェクトを案内して当該目標オブジェクトがインタラクティブを実行する位置を変更するようにする。

本明細書の少なくとも１つの実施例は、電子デバイスを更に提供する。図４に示すように、電子デバイス４００は、メモリ４０１と、プロセッサ４０２とを備える。プロセッサ４０２、ネットワークインターフェース４０３及びメモリ４０１は、バス４０４を介して結合される。メモリ４０１は、プロセッサ４０２で運転され得るコンピュータプログラムを記憶し、プロセッサ４０２は、前記コンピュータプログラムを実行したときに、本発明の何れか１つの実施例に記載のインタラクティブオブジェクト駆動方法を実施する。

プロセッサ４０２は、メモリ４０１におけるプログラムコードを呼び出すことにより、図３における第１取得ユニット３０１、第２取得ユニット３０２、モニタリングユニット３０３及び第１駆動ユニット３０４を動作させる。実際の応用において、プロセッサ４０２は、１つまたは複数の汎用プロセッサを含んでもよい。ただし、汎用プロセッサは、電子指令を処理できる如何なるタイプのデバイスであってもよく、中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）、マイクロプロセッサ、マイクロコントローラ、メインプロセッサ、コントローラ及びＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、特定用途向け集積回路）等を含む。

実際の応用において、メモリ４０１は、揮発性メモリ（ＶｏｌａｔｉｌｅＭｅｍｏｒｙ）、例えば、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）を含んでもよく、不揮発性メモリ（Ｎｏｎ－ＶｏｌａｔｉｌｅＭｅｍｏｒｙ）、例えば、読み出し専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、フラッシュメモリ（ＦｌａｓｈＭｅｍｏｒｙ）、ハードディスク（ＨａｒｄＤｉｓｋＤｒｉｖｅ、ＨＤＤ）若しくはソリッドステートディスク（Ｓｏｌｉｄ－ＳｔａｔｅＤｒｉｖｅ、ＳＳＤ）メモリを含んでもよく、上記種類のメモリの組み合わせを含んでもよい。

幾つかの実施例において、プロセッサ４０２は、メモリ４０１に記憶されたプログラムコードを読み取ることにより、前記表示デバイスの周辺のオーディオ信号を取得することと、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第１駆動データを取得することと、前記第１駆動データが出力されたことに応じて、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングすることと、前記オーディオ信号中の目標オブジェクトの音声存在状態に応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするためのことと、を実行させる。

本明細書の少なくとも１つの実施例は、コンピュータ可読記憶媒体を更に提供する。当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記プログラムがプロセッサによって実行されたときに、本発明の何れか１つの実施例に記載のインタラクティブオブジェクトの駆動は、実施される。

当業者であれば理解できるように、本明細書の１つまたは複数の実施例は、方法、システムまたはコンピュータプログラム製品として提供されてもよい。したがって、本明細書の１つまたは複数の実施は、１００％ハードウェアの実施例、１００％ソフトウェアの実施例、またはソフトウェアとハードウェアとを組み合わせた態様の実施例の形式を採用してもよい。また、本明細書の１つまたは複数の実施例は、１つまたは複数の、コンピュータ利用可能なプログラムコードを含むコンピュータ利用可能な記憶媒体（磁気ディスクメモリ、ＣＤ－ＲＯＭ、光学メモリ等を含むが、それらに限定されない）で実施されるコンピュータプログラム製品の形式を採用してもよい。

本明細書における各実施例は、何れも漸進の方式で記述され、各実施例は、他の実施例との相違点を重点的に説明し、各実施例同士の同じまたは類似する部分が互いに参照すればよい。特にデータ処理デバイスの実施例は、方法実施例に基本的に類似するため、記述が相対的に簡単であり、関連箇所が方法実施例の部分の説明を参照すればよい。

以上は、本明細書の特定の実施例について記述した。他の実施例は、添付する特許請求の範囲のスコープ内に含まれる。幾つかの場合において、特許請求の範囲に記載の挙動またはことは、実施例における順番と異なる順番で実行可能であり、且つ依然として所望の結果を得ることができる。また、図面に描かれた手順は、示された特定の順番または連続順番でないと所望の結果を得られないことを要求するとは限らない。幾つかの実施形態において、マルチタスク処理及び並行処理も、実行可能であり、または有利なものである。

本明細書に記述されたテーマ及び機能操作の実施例は、デジタル電子回路、有形的に体現されたコンピュータソフトウェア若しくはファームウェア、本発明に開示された構造及びその構造的均等物を含むコンピュータハードウェア、またはそれらのうちの１つまたは複数の組み合わせにおいて実現され得る。本発明に記述されたテーマの実施例は、１つまたは複数のコンピュータプログラム、即ち、有形の非一時的なプログラムキャリア上にコーディングされることでデータ処理装置によって実行されまたはデータ処理装置の操作を制御されるコンピュータプログラム指令における１つまたは複数のモジュールとして実現され得る。代替的にまたは追加的に、プログラム指令は、人工で生成された伝送信号、例えばデバイスで生成された電気、光または電磁的信号にコーディングされてもよい。当該信号は、生成されることで情報を符号化して適切な受信機装置へ伝送されてデータ処理装置に実行させる。コンピュータ記憶媒体は、デバイス読み取り可能な記憶デバイス、デバイス読み取り可能な記憶基板、ランダム若しくはシリアルアクセスメモリデバイス、またはそれらのうちの１つまたは複数の組み合わせであってもよい。

本明細書に記述された処理及び論理フローは、１つまたは複数のコンピュータプログラムを実行する１つまたは複数のプログラマブルコンピュータによって実施されて、入力データに応じて操作を行って出力を生成して対応する機能を実行させてもよい。前記処理及び論理フローは、専用論理回路、例えばＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）によって実行されてもよく、装置も専用論理回路として実現されてもよい。

コンピュータプログラムの実行に適するコンピュータは、例えば、汎用及び／または専用マイクロプロセッサ、または如何なる他のタイプの中央処理装置を含む。通常、中央処理装置は、読み出し専用メモリ及び／またはランダムアクセスメモリから指令及びデータを受信する。コンピュータの基本ユニットは、指令を実施や実行するための中央処理装置と、指令及びデータを記憶するための１つまたは複数のメモリデバイスとを備える。通常、コンピュータは、更に、データを記憶するための１つまたは複数の大容量記憶デバイス、例えば、磁気ディスク、磁光ディスクまたは光ディスク等を含み、または、コンピュータは、この大容量記憶デバイスに操作可能にカップリングされてそれからデータを受信したりそれへデータを伝送したりし、または、２種の状況を兼ね備える。しかし、コンピュータは、このようなデバイスを必ず有するとは限らない。また、コンピュータは、別のデバイス、例えば、携帯電話、パーソナルデジタルアシスタント（ＰＤＡ）、モバイルオーディオまたはビデオプレーヤ、ゲームコンソール、全地球測位システム（ＧＰＳ）受信機、または、例えばユニバーサルシリアルバス（ＵＳＢ）フラッシュメモリドライバの携帯型記憶デバイスに組み込まれてもよい。以上は、単に幾つかの例である。

コンピュータプログラム指令及びデータを記憶するのに適するコンピュータ可読媒体は、あらゆる形態の不揮発性メモリ、メディアとメモリデバイスを含み、例えば、半導体メモリデバイス（例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭとフラッシュメモリデバイス）、磁気ディスク（例えば、内部ハードディスクまたはリムーバブルディスク）、磁光ディスク及びＣＤＲＯＭとＤＶＤ－ＲＯＭディスクを含む。プロセッサとメモリは、専用論理回路によって補充されまたは専用論理回路に統合されてもよい。

本明細書が大量の具体的な実施詳細を含むが、これらの詳細は、如何なる発明の範囲または保護請求される範囲を制限するとは解釈されるべきではなく、主に特定の開示された具体的な実施例の特徴を記述するために用いられる。本明細書の複数の実施例に記述された幾つかの特徴は、単一の実施例において組み合わせて実施されてもよい。その一方、単一の実施例に記述された各種の特徴は、複数の実施例に分けて実施され、または、如何なる適切なサブ組み合わせとして実施されてもよい。また、特徴が上記のように幾つかの組み合わせにおいて役割を果たし、ひいてはこのように保護するように要求されてもよいが、保護請求される組み合わせからの１つまたは複数の特徴は、幾つかの場合において当該組み合わせから除去されてもよく、更に、保護請求される組み合わせは、サブ組み合わせまたはサブ組み合わせの変形を指してもよい。

類似的に、図面に特定の順番で操作が描かれたが、これらの操作が示された特定の順番で実行されまたは順に実行されまたは全ての例示の操作が実行されて所望の結果を得ることを要求するとして理解されるべきではない。幾つかの場合に、マルチタスク及び並行処理は、有利である可能性がある。また、上記実施例における各種のシステムモジュールとユニットの分離は、全ての実施例においてこのような分離を必要とすると理解されるべきではない。更に、理解できるように、記述されるプログラムユニット及びシステムは、通常、単一のソフトウェア製品に統合されてもよく、または複数のソフトウェア製品としてカプセル化されてもよい。

このように、テーマの特定実施例が記述された。他の実施例は、添付する特許請求の範囲のスコープ内に含まれる。幾つかの場合において、特許請求の範囲に記載の動作は、異なる順番で実行可能であり、且つ依然として所望の結果を得ることができる。また、図面に描かれた処理が必ずしも示された特定の順番または連続順番で所望の結果を得るとは限らない。幾つかの実施形態において、マルチタスク処理及び並行処理は、有利である可能性がある。

上述したのは、本明細書の１つまたは複数の実施例の好適な実施例に過ぎず、本明細書の１つまたは複数の実施例を制限するためのものではない。本明細書の１つまたは複数の実施例の精神及び原則内でなされた如何なる変更、均等物による置換、改良等も、本発明の１つまたは複数の実施例の保護範囲内に含まれるべきである。

Claims

インタラクティブオブジェクト駆動方法であって、
表示デバイスの周辺のオーディオ信号を取得することと、
前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第１駆動データを取得することと、
前記第１駆動データが出力されたことに応じて、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングすることと、
前記オーディオ信号中の前記目標オブジェクトの音声の存在状態に応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにすることと、を含む
ことを特徴とするインタラクティブオブジェクト駆動方法。
前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第１駆動データを取得することは、
前記オーディオ信号から目標情報が検出されたことに応じて、前記目標情報にマッピングする第１指定動作を確定することと、
前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第１指定動作を実行するようにするための第１駆動データを取得することと、を含む
ことを特徴とする請求項１に記載のインタラクティブオブジェクト駆動方法。
前記第１駆動データは、第１オーディオ駆動データ及び／または第１動作駆動データを含み、前記第１オーディオ駆動データは、前記第１指定動作を実行するときに発生する音声のデータであり、
前記第１駆動データが出力されたことに応じて、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングすることは、
前記第１動作駆動データが出力されたことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第１指定動作を実行するようにし、前記目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングすること、または、
前記第１オーディオ駆動データに基づいて音声が出力されたことに応じて、前記目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングすることを含む
ことを特徴とする請求項２に記載のインタラクティブオブジェクト駆動方法。
前記オーディオ信号中の目標オブジェクトの音声存在状態に応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにすることは、
第１所定時間内で前記目標オブジェクトの音声が検出されたことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第１指定動作を循環的に実行するようにすることを含む
ことを特徴とする請求項１から３の何れか一項に記載のインタラクティブオブジェクト駆動方法。
前記オーディオ信号中の目標オブジェクトの音声存在状態に応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにすることは、
第１所定時間内で前記目標オブジェクトの音声が検出されなかったことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第１指定動作の実行を終了した後で初期姿勢に回復するようにすることを含む
ことを特徴とする請求項１から３の何れか一項に記載のインタラクティブオブジェクト駆動方法。
前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第１指定動作の実行を終了した後で初期姿勢に回復するようにした後、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第２駆動データを取得することと、
前記第２駆動データに基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにすることと、を更に含み、
前記第２駆動データは、第２オーディオ駆動データ及び／または第２動作駆動データを含む
ことを特徴とする請求項５に記載のインタラクティブオブジェクト駆動方法。
前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第２駆動データを取得することは、
前記オーディオ信号をサーバへ送信することによって、当該サーバが、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第２駆動データを生成するようにすることと、
前記サーバによって送信される第２駆動データを受信することと、を含む
ことを特徴とする請求項６に記載のインタラクティブオブジェクト駆動方法。
前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第１指定動作の実行を終了した後で初期姿勢に回復するようにした後、前記サーバによって送信される第２駆動データが第２所定時間内で受信されなかったことに応じて、予め設定された第３駆動データを呼び出して前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにすることを更に含み、
前記第３駆動データは、第３オーディオ駆動データ及び／または第３動作駆動データを含む
ことを特徴とする請求項７に記載のインタラクティブオブジェクト駆動方法。
前記オーディオ信号に基づいて、環境騒音声の強度を検出することと、
前記環境騒音声の強度に応じて、前記インタラクティブオブジェクトの応答過程での前記表示デバイスの出力音声の音声量を調整することを更に含む
ことを特徴とする請求項１から８の何れか一項に記載のインタラクティブオブジェクト駆動方法。
複数のオーディオ信号は、複数の音声検出モジュールを介して取得され、前記複数の音声検出モジュールは、前記表示デバイスの互いに異なる方位に分布され、
前記インタラクティブオブジェクト駆動方法は、
前記複数の音声検出モジュールでそれぞれ取得された複数のオーディオ信号に基づいて異なる方位の環境騒音声の強度を確定することと、
前記異なる方位の環境騒音声の強度に応じて、前記インタラクティブオブジェクトを駆動することによって、前記目標オブジェクトを案内して当該目標オブジェクトがインタラクティブを実行する位置を変更するようにすることと、を更に含む
ことを特徴とする請求項１から９の何れか一項に記載のインタラクティブオブジェクト駆動方法。
インタラクティブオブジェクト駆動装置であって、
表示デバイスの周辺のオーディオ信号を取得するための第１取得ユニットと、
前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第１駆動データを取得するための第２取得ユニットと、
前記第１駆動データが出力されたことに応じて、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングするためのモニタリングユニットと、
前記オーディオ信号中の前記目標オブジェクトの音声の存在状態に応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第１駆動ユニットと、を備える
ことを特徴とするインタラクティブオブジェクト駆動装置。
前記第２取得ユニットは、
前記オーディオ信号から目標情報が検出されたことに応じて、前記目標情報にマッピングする第１指定動作を確定し、
前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第１指定動作を実行するようにするための第１駆動データを取得する
ことを特徴とする請求項１１に記載のインタラクティブオブジェクト駆動装置。
前記第１駆動データは、第１オーディオ駆動データ及び／または第１動作駆動データを含み、前記第１オーディオ駆動データは、前記第１指定動作を実行するときに発生する音声のデータであり、
前記モニタリングユニットは、
前記第１動作駆動データが出力されたことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第１指定動作を実行するようにし、前記目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングし、または、
前記第１オーディオ駆動データに基づいて音声が出力されたことに応じて、前記目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングする
ことを特徴とする請求項１２に記載のインタラクティブオブジェクト駆動装置。
前記第１駆動ユニットは、
第１所定時間内で前記目標オブジェクトの音声が検出されたことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第１指定動作を循環的に実行するようにする
ことを特徴とする請求項１１から１３の何れか一項に記載のインタラクティブオブジェクト駆動装置。
前記第１駆動ユニットは、
第１所定時間内で前記目標オブジェクトの音声が検出されなかったことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第１指定動作の実行を終了した後で初期姿勢に回復するようにする
ことを特徴とする請求項１１から１３の何れか一項に記載のインタラクティブオブジェクト駆動装置。
前記インタラクティブオブジェクト駆動装置は、第２駆動ユニットを更に備え、
前記第２駆動ユニットは、
前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第１指定動作の実行を終了した後で初期姿勢に回復するようにした後、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第２駆動データを取得し、
前記第２駆動データに基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにし、
前記第２駆動データは、第２オーディオ駆動データ及び／または第２動作駆動データを含む
ことを特徴とする請求項１５に記載のインタラクティブオブジェクト駆動装置。
前記第２駆動ユニットは、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第２駆動データを取得する際に、
前記オーディオ信号をサーバに送信することによって、当該サーバが前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第２駆動データを生成するようにし、
前記サーバによって送信される第２駆動データを受信する
ことを特徴とする請求項１６に記載のインタラクティブオブジェクト駆動装置。
前記インタラクティブオブジェクト駆動装置は、第３駆動ユニットを更に備え、
前記第３駆動ユニットは、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第１指定動作の実行を終了した後で初期姿勢に回復するようにした後、前記サーバによって送信される第２駆動データが第２所定時間内で受信されなかったことに応じて、予め設定された第３駆動データを呼び出して前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにし、
前記第３駆動データは、第３オーディオ駆動データ及び／または第３動作駆動データを含む
ことを特徴とする請求項１７に記載のインタラクティブオブジェクト駆動装置。
前記インタラクティブオブジェクト駆動装置は、調整ユニットを更に備え、
前記調整ユニットは、
前記オーディオ信号に基づいて、環境騒音声の強度を検出し、
前記環境騒音声の強度に応じて、前記インタラクティブオブジェクトの応答過程での前記表示デバイスの出力音声の音声量を調整する
ことを特徴とする請求項１１から１８の何れか一項に記載のインタラクティブオブジェクト駆動装置。
複数のオーディオ信号は、複数の音声検出モジュールを介して取得され、前記複数の音声検出モジュールは、前記表示デバイスの互いに異なる方位に分布され、前記インタラクティブオブジェクト駆動装置は、第４駆動ユニットを更に備え、
前記第４駆動ユニットは、
前記複数の音声検出モジュールでそれぞれ取得された複数のオーディオ信号に基づいて異なる方位の環境騒音声の強度を確定し、
前記異なる方位の環境騒音声の強度に応じて、前記インタラクティブオブジェクトを駆動することによって、前記目標オブジェクトを案内して当該目標オブジェクトがインタラクティブを実行する位置を変更するようにする
ことを特徴とする請求項１１から１９の何れか一項に記載のインタラクティブオブジェクト駆動装置。
表示デバイスであって、
前記表示デバイスには、透明ディスプレイスクリーンが設けられ、前記透明ディスプレイスクリーンは、インタラクティブオブジェクトを表示し、前記表示デバイスは、請求項１から１０の何れか一項に記載のインタラクティブオブジェクト駆動方法を実行することによって、前記透明ディスプレイスクリーンに表示されたインタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記目標オブジェクトに対して応答を実行するようにする、
ことを特徴とする表示デバイス。
電子デバイスであって、
前記電子デバイスは、メモリと、プロセッサとを備え、前記メモリは、プロセッサで運転され得るコンピュータプログラムを記憶し、前記プロセッサは、前記コンピュータプログラムを実行したときに請求項１から１０の何れか一項に記載のインタラクティブオブジェクト駆動方法を実施する
ことを特徴とする電子デバイス。
コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、
前記プログラムがプロセッサによって実行されたときに、請求項１から１０の何れか一項に記載の方法は、実施される
ことを特徴とするコンピュータ可読記憶媒体。