JP2022515307A - インタラクティブオブジェクト駆動方法、装置、電子デバイス及び記憶媒体 - Google Patents

インタラクティブオブジェクト駆動方法、装置、電子デバイス及び記憶媒体 Download PDF

Info

Publication number
JP2022515307A
JP2022515307A JP2021521785A JP2021521785A JP2022515307A JP 2022515307 A JP2022515307 A JP 2022515307A JP 2021521785 A JP2021521785 A JP 2021521785A JP 2021521785 A JP2021521785 A JP 2021521785A JP 2022515307 A JP2022515307 A JP 2022515307A
Authority
JP
Japan
Prior art keywords
interactive object
driving
voice
response
drive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021521785A
Other languages
English (en)
Other versions
JP7267411B2 (ja
Inventor
子隆 ▲張▼
青 ▲欒▼
林 ▲孫▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of JP2022515307A publication Critical patent/JP2022515307A/ja
Application granted granted Critical
Publication of JP7267411B2 publication Critical patent/JP7267411B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Position Input By Displaying (AREA)

Abstract

本発明は、インタラクティブオブジェクト駆動方法、装置、電子デバイス及び記憶媒体を提供する。前記方法は、前記表示デバイスの周辺のオーディオ信号を取得することと、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第1駆動データを取得することと、第1駆動データが出力されたことに応じて、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングすることと、前記オーディオ信号中の目標オブジェクトの音声存在状態に応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにすることと、を含む。【選択図】図2

Description

<関連出願の相互引用>
本発明は、2019年11月28日に提出された、出願番号が2019111952805である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が援用により本願に組み入れられる。
本発明は、コンピュータビジョン技術分野に関し、具体的にインタラクティブオブジェクト駆動方法、装置、電子デバイス及び記憶媒体に関する。
ほとんどの人間とコンピュータのインタラクティブの方式は、ボタンのクリック、タッチ、音声を利用して入力を行い、ディスプレイスクリーンに画像やテキストを表示することで応答を行う。現在、仮想人物の多くは、音声アシスタントを基礎として改良されたものであり、デバイスを介して入力された音声を出力するだけであり、ユーザと仮想人物との間の会話に遅延が出ており、且つ仮想人物がユーザの話しぶりに応じて回答することができないため、インタラクティブが不自然になってしまった。
本発明の一態様は、インタラクティブオブジェクト駆動方法を提供する。前記方法は、表示デバイスの周辺のオーディオ信号を取得することと、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第1駆動データを取得することと、前記第1駆動データが出力されたことに応じて、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングすることと、前記オーディオ信号中の前記目標オブジェクトの音声の存在状態に応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにすることと、を含む。
本発明に係る何れか1つの実施形態を参照すると、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第1駆動データを取得することは、前記オーディオ信号から目標情報が検出されたことに応じて、前記目標情報にマッピングする第1指定動作を確定することと、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第1指定動作を実行するようにするための第1駆動データを取得することと、を含む。
本発明に係る何れか1つの実施形態を参照すると、前記第1駆動データは、第1オーディオ駆動データ及び/または第1動作駆動データを含み、前記第1オーディオ駆動データは、前記第1指定動作を実行するときに発生する音声のデータであり、前記第1駆動データが出力されたことに応じて、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングすることは、前記第1動作駆動データが出力されたことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第1指定動作を実行するようにし、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングすること、または、前記第1オーディオ駆動データに基づいて音声が出力されたことに応じて、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングすることを含む。
本発明に係る何れか1つの実施形態を参照すると、前記オーディオ信号中の目標オブジェクトの音声存在状態に応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにすることは、第1所定時間内で目標オブジェクトの音声が検出されたことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第1指定動作を循環的に実行するようにすることを含む。
本発明に係る何れか1つの実施形態を参照すると、前記オーディオ信号中の目標オブジェクトの音声存在状態に応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにすることは、第1所定時間内で目標オブジェクトの音声が検出されなかったことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第1指定動作の実行を終了した後で初期姿勢に回復するようにすることを含む。
本発明に係る何れか1つの実施形態を参照すると、前記方法は、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第1指定動作の実行を終了した後で初期姿勢に回復するようにした後、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第2駆動データを取得することと、前記第2駆動データに基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにすることと、を更に含み、前記第2駆動データは、第2オーディオ駆動データ及び/または第2動作駆動データを含む。
本発明に係る何れか1つの実施形態を参照すると、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第2駆動データを取得することは、前記オーディオ信号をサーバへ送信することによって、当該サーバが、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第2駆動データを生成するようにすることと、前記サーバによって送信される第2駆動データを受信することと、を含む。
本発明に係る何れか1つの実施形態を参照すると、前記方法は、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第1指定動作の実行を終了した後で初期姿勢に回復するようにした後、前記サーバによって送信される第2駆動データが第2所定時間内で受信されなかったことに応じて、予め設定された第3駆動データを呼び出して前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにすることを更に含み、前記第3駆動データは、第3オーディオ駆動データ及び/または第3動作駆動データを含む。
本発明に係る何れか1つの実施形態を参照すると、前記方法は、前記オーディオ信号に基づいて、環境騒音声の強度を検出することと、前記環境騒音声の強度に応じて、前記インタラクティブオブジェクトの応答過程での前記表示デバイスの出力音声の音声量を調整することを更に含む。
本発明に係る何れか1つの実施形態を参照すると、複数のオーディオ信号は、複数の音声検出モジュールを介して取得され、前記複数の音声検出モジュールは、前記表示デバイスの互いに異なる方位に分布され、前記インタラクティブオブジェクト駆動方法は、前記複数の音声検出モジュールでそれぞれ取得された複数のオーディオ信号に基づいて異なる方位の環境騒音声の強度を確定することと、前記異なる方位の環境騒音声の強度に応じて、前記インタラクティブオブジェクトを駆動することによって、前記目標オブジェクトを案内して当該目標オブジェクトがインタラクティブを実行する位置を変更するようにすることと、を更に含む。
本発明の一態様は、インタラクティブオブジェクト駆動装置を提供する。前記装置は、表示デバイスの周辺のオーディオ信号を取得するための第1取得ユニットと、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第1駆動データを取得するための第2取得ユニットと、第1駆動データが出力されたことに応じて、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングするためのモニタリングユニットと、前記オーディオ信号中の前記目標オブジェクトの音声の存在状態に応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第1駆動ユニットと、を備える。
本発明に係る何れか1つの実施形態を参照すると、前記第2取得ユニットは、前記オーディオ信号から目標情報が検出されたことに応じて、前記目標情報にマッピングする第1指定動作を確定し、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第1指定動作を実行するようにするための第1駆動データを取得する。
本発明に係る何れか1つの実施形態を参照すると、前記第1駆動データは、第1オーディオ駆動データ及び/または第1動作駆動データを含み、前記第1オーディオ駆動データは、前記第1指定動作を実行するときに発生する音声のデータであり、前記モニタリングユニットは、前記第1動作駆動データが出力されたことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第1指定動作を実行するようにし、前記目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングし、または、前記第1オーディオ駆動データに基づいて音声が出力されたことに応じて、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングする。
本発明に係る何れか1つの実施形態を参照すると、前記第1駆動ユニットは、第1所定時間内で目標オブジェクトの音声が検出されたことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第1指定動作を循環的に実行するようにする。
本発明に係る何れか1つの実施形態を参照すると、前記第1駆動ユニットは、第1所定時間内で目標オブジェクトの音声が検出されなかったことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第1指定動作の実行を終了した後で初期姿勢に回復するようにする。
本発明に係る何れか1つの実施形態を参照すると、前記インタラクティブオブジェクト駆動装置は、第2駆動ユニットを更に備え、前記第2駆動ユニットは、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第1指定動作の実行を終了した後で初期姿勢に回復するようにした後、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第2駆動データを取得し、前記第2駆動データに基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにし、前記第2駆動データは、第2オーディオ駆動データ及び/または第2動作駆動データを含む。
本発明に係る何れか1つの実施形態を参照すると、前記第2駆動ユニットは、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第2駆動データを取得する際に、前記オーディオ信号をサーバに送信することによって、当該サーバが前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第2駆動データを生成するようにし、前記サーバによって送信される第2駆動データを受信する。
本発明に係る何れか1つの実施形態を参照すると、前記インタラクティブオブジェクト駆動装置は、第3駆動ユニットを更に備え、前記第3駆動ユニットは、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第1指定動作の実行を終了した後で初期姿勢に回復するようにした後、前記サーバによって送信される第2駆動データが第2所定時間内で受信されなかったことに応じて、予め設定された第3駆動データを呼び出して前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにし、前記第3駆動データは、第3オーディオ駆動データ及び/または第3動作駆動データを含む。
本発明に係る何れか1つの実施形態を参照すると、前記インタラクティブオブジェクト駆動装置は、調整ユニットを更に備え、前記調整ユニットは、前記オーディオ信号に基づいて、環境騒音声の強度を検出し、前記環境騒音声の強度に応じて、前記インタラクティブオブジェクトの応答過程での前記表示デバイスの出力音声の音声量を調整する。
本発明に係る何れか1つの実施形態を参照すると、複数のオーディオ信号は、複数の音声検出モジュールを介して取得され、前記複数の音声検出モジュールは、前記表示デバイスの互いに異なる方位に分布され、前記インタラクティブオブジェクト駆動装置は、第4駆動ユニットを更に備え、前記第4駆動ユニットは、複数の音声検出モジュールでそれぞれ取得された複数のオーディオ信号に基づいて異なる方位の環境騒音声の強度を確定し、前記異なる方位の環境騒音声の強度に応じて、前記インタラクティブオブジェクトを駆動することによって、前記目標オブジェクトを案内して当該目標オブジェクトがインタラクティブを実行する位置を変更するようにする。
本発明の一態様は、表示デバイスを提供する。前記表示デバイスには、透明ディスプレイスクリーンが設けられ、前記透明ディスプレイスクリーンは、インタラクティブオブジェクトを表示し、前記表示デバイスは、本発明に係る何れか1つの実施形態に記載の方法を実行することによって、前記透明ディスプレイスクリーンに表示されたインタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが目標オブジェクトに対して応答を実行するようにする。
本発明の一態様は、電子デバイスを提供する。前記電子デバイスは、メモリと、プロセッサとを備え、前記メモリは、プロセッサで運転され得るコンピュータプログラムを記憶し、前記プロセッサは、前記コンピュータプログラムを実行したときに本発明に係る何れか1つの実施形態に記載のインタラクティブオブジェクト駆動方法を実施する。
本発明の一態様は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記プログラムがプロセッサによって実行されたときに、本発明に係る何れか1つの実施形態に記載のインタラクティブオブジェクト駆動方法は、実施される。
本発明の少なくとも1つの実施例に係るインタラクティブオブジェクト駆動方法、装置、電子デバイス及び記憶媒体では、表示デバイスの周辺のオーディオ信号に基づいてインタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが目標オブジェクトに対して応答を実行するようにし、また第1駆動データを出力すると同時に、目標オブジェクトの音声を検知するためのオーディオ信号をモニタリングし始め、目標オブジェクトの音声の存在状態に応じて前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするため、インタラクティブオブジェクトが動作を実行すると同時に、目標オブジェクトの話しぶりに応じて、実行している動作を調整することができ、インタラクティブオブジェクトと目標オブジェクトとの間のインタラクティブ会話過程がよりリアル且つ自然になり、目標オブジェクトのより高いレベルの交流ニーズを満たすことができる。
本明細書の1つまたは複数の実施例或いは従来技術における技術案がより明瞭に説明されるように、以下では、実施例或いは従来技術の記述に使用必要な図面を簡単に紹介する。明らかに、以下の記述に係る図面が単に本明細書の1つまたは複数の実施例に記載の幾つかの実施例に過ぎず、当業者であれば、進歩性に値する労働を掛けずにこれらの図面から他の図面を取得可能である。
本発明の少なくとも1つの実施例に係るインタラクティブオブジェクト駆動方法における表示デバイスの模式図を示す。 本発明の少なくとも1つの実施例に係るインタラクティブオブジェクトの駆動のフローチャートを示す。 本発明の少なくとも1つの実施例に係るインタラクティブオブジェクト駆動装置の構造模式図を示す。 本発明の少なくとも1つの実施例に係る電子デバイスの構造模式図を示す。
ここで、例示的な実施例を詳細に説明する。その例示は、図面に示される。以下の記述は、図面に係る際、別途示さない限り、異なる図面における同じ符号が同じまたは類似する要素を示す。以下の例示的な実施例に記述される実施形態が本発明と一致する全ての実施形態を代表するわけではない。逆に、それらは、単に添付する特許請求の範囲に詳細に記述されるような、本発明の幾つかの態様に一致する装置及び方法の例である。
本文における用語「及び/または」は、単に関連対象の関連関係を記述するものであり、3種の関係が存在可能であることを示す。例えば、A及び/またはBは、Aが単独に存在することと、A及びBが同時に存在することと、Bが単独に存在することという3種の場合を表せる。また、本文における用語「少なくとも1種」は、複数種のうちの何れか1種または複数種のうちの少なくとも2種の任意の組み合わせを示す。例えば、A、B、Cのうちの少なくとも1種を含むことは、A、B及びCによって構成された集合から、何れか1つまたは複数の要素を選択することを示してもよい。
本発明の少なくとも1つの実施例は、インタラクティブオブジェクト駆動方法を提供する。前記駆動方法は、端末デバイスまたはサーバ等の電子デバイスによって実行されてもよい。前記端末デバイスは、固定端末またはモバイル端末、例えば、携帯電話、タブレットPC、ゲーム機、デスクトップPC、広告機、一体型PC、車載端末等であってもよい。前記方法は、プロセッサがメモリに記憶されたコンピュータ可読指令を呼び出すことで実施されてもよい。
本発明の実施例において、インタラクティブオブジェクトは、目標オブジェクトとインタラクティブを行うことができる何れか1種のインタラクティブオブジェクトであってもよい。それは、仮想人物であってもよく、仮想動物、仮想物品、漫画キャラクタ等のインタラクティブ機能を実現可能な他の仮想オブジェクトであってもよい。前記目標オブジェクトは、ユーザ、ロボット、又は他のスマート機器であってもよい。前記目標オブジェクトと前記インタラクティブオブジェクトとの間のインタラクティブ方式は、能動的なインタラクティブ方式であってもよく、受動的なインタラクティブ方式であってもよい。一例示において、目標オブジェクトは、ジェスチャ又は肢体動作を行って要求を発して、能動的なインタラクティブの方式でインタラクティブオブジェクトがそれにインタラクティブを行うようトリガしてもよい。別の例示において、インタラクティブオブジェクトは、能動的に挨拶したり、目標オブジェクトが動作等を行うよう提示したりすることにより、目標オブジェクトに受動的な方式でインタラクティブオブジェクトとインタラクティブを行わせてもよい。
前記インタラクティブオブジェクトは、表示デバイスを介してディスプレイされてもよい。前記表示デバイスは、表示機能を持つ電子デバイス、例えば、ディスプレイスクリーンを有する一体型PC、プロジェクタ、仮想現実(Virtual Reality、VR)デバイス、拡張現実(Augmented Reality、AR)デバイスであってもよく、特殊な表示効果を有する表示デバイスであってもよい。
図1は、本発明の少なくとも1つの実施例に係る表示デバイスを示す。図1に示すように、当該表示デバイスは、透明ディスプレイスクリーンを有し、当該透明ディスプレイスクリーンには、立体効果を有する仮想シナリオ及びインタラクティブオブジェクトを表示してもよい。例えば、図1において、透明ディスプレイスクリーンに表示されたインタラクティブオブジェクトは、仮想漫画人物を含む。幾つかの実施例において、本発明に記載された端末デバイスは、上記表示デバイスであってもよい。表示デバイスには、メモリ及びプロセッサが配置され、メモリは、プロセッサで運転され得るコンピュータ指令を記憶し、前記プロセッサは、前記コンピュータ指令を実行したときに本発明に係るインタラクティブオブジェクト駆動方法を実施することにより、透明ディスプレイスクリーンに表示されたインタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが目標オブジェクトに応答するようにする。
幾つかの実施例において、インタラクティブオブジェクトが動作を行ったり、表情を表したり、音声を出力するように駆動するための駆動データが表示デバイスによって受信されたことに応じて、インタラクティブオブジェクトは、目標オブジェクトに対して、指定の動作、表情を行い、または指定の音声を発してもよい。表示デバイスの周辺に出現した目標オブジェクトの動作、表情、身分、嗜好等に基づいて駆動データを生成することにより、インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにし、目標オブジェクトへ擬人化のサービスを提供する。インタラクティブオブジェクトと目標オブジェクトとのインタラクティブ過程に、インタラクティブオブジェクトが目標オブジェクトの挙動に応じて適切な応答を行うことができない場合も存在する。例えば、目標オブジェクトが話を中断したり、考えたりするとき、インタラクティブオブジェクトが静止状態を維持するため、目標オブジェクトは、インタラクティブオブジェクトとの交流に障害が存在すると感じてしまい、使用体験に影響を与える。これに鑑みて、本発明の少なくとも1つの実施例は、目標オブジェクトがインタラクティブオブジェクトとのインタラクティブを行う過程におけるインタラクティブ体験を向上させるためのインタラクティブオブジェクト駆動方法を提出する。
図2は、本発明の少なくとも1つの実施例に係るインタラクティブオブジェクトの駆動のフローチャートを示す。図2に示すように、前記方法は、ステップ201~ステップ204を含む。
ステップ201では、表示デバイスの周辺のオーディオ信号を取得する。
表示デバイスの周辺は、前記表示デバイスの所在する任意方向における空間範囲を含み、例えば、前記表示デバイスの前方向、側方向、後方向、上方向のうちの1つまたは複数の方向を含んでもよい。当該空間範囲は、オーディオ信号を検出するための音声検出モジュールが受信できる所定強度のオーディオ信号の範囲に基づいて確定される。
表示デバイスの周辺のオーディオ信号を検出するための音声検出モジュールは、マイク及びプロセッサを備えてもよい。前記プロセッサは、マイクで取得された音声信号を処理してオーディオ信号を出力する。前記音声検出モジュールは、前記表示デバイスの内蔵モジュールとして表示デバイスに設けられてもよく、外付けデバイスとして表示デバイスに対して独立してもよい。
前記音声検出モジュールは、複数あってもよく、前記表示デバイスの異なる位置に設けられて前記表示デバイスの周辺の異なる方位の音声信号を取得してもよく、前記表示デバイスの周辺の1つの方位に設けられて、当該方位での信号を集中的に取得してもよい。前記音声検出モジュールが設けられる位置は、インタラクティブのニーズに応じて確定され得る。本発明の実施例において、これについて限定しない。
ステップ202では、オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第1駆動データを取得する。
表示デバイスにおける音声検出モジュールは、前記オーディオ信号を検出し、検出結果に基づいて前記第1駆動データを取得することにより、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記目標オブジェクトに応答するようにする。
幾つかの実施例において、前記オーディオ信号がインタラクティブオブジェクトによる第1指定動作の実行に合致する目標情報を含むときに、当該目標情報は、前記インタラクティブオブジェクトをトリガして当該インタラクティブオブジェクトが前記第1指定動作を実行するようにする。前記第1指定動作は、インタラクティブオブジェクトが実行する1つの動作、例えば手を振ることであってもよい。第1指定動作を実行するときに、前記表示デバイスの音声出力モジュールは、当該第1指定動作の実行に対応する音声を同時に出力してもよい。具体的に、オーディオ信号が目標情報を含むと検出されたときに、目標情報に対応する第1駆動データを取得することにより、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第1指定動作を実行するようにする。
ステップ203では、第1駆動データが出力されたことに応じて、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングする。
取得された第1駆動データを出力することで、インタラクティブオブジェクトを駆動して前記第1指定動作を実行するようにする同時に、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングし始める。
ステップ204では、前記オーディオ信号中の目標オブジェクトの音声の存在状態に応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにする。
インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第1指定動作を実行するようにすると同時に、目標オブジェクトの音声を検知するためのオーディオ信号をモニタリングし始め、目標オブジェクトの音声の存在状態に応じて前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにし、例えば、所定の動作を実行させ、所定の音声を出力させ、または前記インタラクティブオブジェクトの状態等を調整する。こうようにすることによって、インタラクティブオブジェクトが第1指定動作を実行している期間に、目標オブジェクトの話しぶりに応じて正確な応答を行うことができない問題は、回避可能である。
本発明の実施例において、表示デバイスの周辺のオーディオ信号に基づいて、インタラクティブオブジェクトを駆動して応答するようにするための第1駆動データをインタラクティブオブジェクトへ出力すると同時に、目標オブジェクトの音声を検知するためのオーディオ信号をモニタリングし始め、目標オブジェクトの音声の存在状態に応じて前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにすることにより、インタラクティブオブジェクトが動作を実行すると同時に、目標オブジェクトの話しぶりに応じて、実行している動作を調整することができ、インタラクティブオブジェクトと目標オブジェクトとの間のインタラクティブ会話過程がよりリアル且つ自然になり、目標オブジェクトのより高いレベルの交流ニーズを満たすことができる。
本発明の実施例において、前記第1駆動データは、第1オーディオ駆動データ及び/または第1動作駆動データを含み、前記第1オーディオ駆動データは、前記第1指定動作を実行するときに発生する音声のデータである。
一例示において、インタラクティブオブジェクトは、第1指定動作を実行するときに、音声を発してもよく、音声を発さなくてもよい。例えば、インタラクティブオブジェクトが第1指定動作を実行するときに音声を発することに応じて、第1動作駆動データを出力することで前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第1指定動作を実行するようにすると同時に、前記第1オーディオ駆動データに基づいて音声を出力する。更に例えば、インタラクティブオブジェクトが第1指定動作を実行するときに音声を発生しないことに応じて、第1動作駆動データを出力することで前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第1指定動作を実行するようにする。
幾つかの実施例において、出力された第1動作駆動データを検出したことに応じて、目標オブジェクトの音声を検知するためのオーディオ信号をモニタリングし始める。
幾つかの実施例において、出力された第1オーディオ駆動データが検出されたことに応じて、即ち、第1指定動作に対応する音声を再生し始めたことが検出されたときに、目標オブジェクトの音声を検知するためのオーディオ信号をモニタリングし始める。
本発明の実施例において、第1動作駆動データを出力し始めたこと、または第1オーディオ駆動データに基づいて音声を出力したことが検出されると、目標オブジェクトの音声を検知するためのオーディオ信号をモニタリングし始める。こうようにすることによって、インタラクティブオブジェクトは、目標オブジェクトが動作を実行する旨の指令を発した後の話しぶりに応じてタイムリーに反応可能であり、インタラクティブオブジェクトと目標オブジェクトとの間のインタラクティブ会話過程がよりリアル且つ自然になり、目標オブジェクトのインタラクティブ体験が向上する。
幾つかの実施例において、第1所定時間内で目標オブジェクトの音声が検出されたことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第1指定動作を循環的に実行するようにする。
前記第1所定時間は、目標オブジェクトの話しの中断時間に応じて設定されてもよい。例えば、目標オブジェクトが話を中断している3秒内で目標オブジェクトの音声が再びモニタリングされた場合に、目標オブジェクトが話を終了することではなく、中断することを意味する。目標オブジェクトが話を中断してから話を再開するときに、目標オブジェクトが話し続ける過程にインタラクティブオブジェクトが常に静止状態または前の状態を維持すると、目標オブジェクトが、インタラクティブオブジェクトとの交流に障害が存在すると感じる恐れがあり、目標オブジェクトのインタラクティブ体験に影響を与えてしまう。
したがって、本発明の実施例において、第1所定時間内で目標オブジェクトの音声が検出された場合に、インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第1指定動作を循環的に実行するようにする。例えば、第1指定動作が「手を振る」である場合に、インタラクティブオブジェクトを駆動して手を振る動作をさせる第1動作駆動データが出力された後、目標オブジェクトの音声を検知するためのオーディオ信号をモニタリングし始める。第1所定時間内、例えば3s内で、目標オブジェクトの音声が検出された場合に、目標オブジェクトが手を振る指令を出した後で依然として話し続けていることを意味する。そうすると、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが手を振る動作を循環的に行うようにする。
第1所定時間内で目標オブジェクトの音声が検出されなかった場合に、前記インタラクティブオブジェクトを駆動して第1指定動作の実行を停止させることにより、前記インタラクティブオブジェクトを初期姿勢に回復するようにしてもよい。
目標オブジェクトの音声を検出している過程に、前記オーディオ信号が他の目標情報を含むと検出されたときに、前記インタラクティブオブジェクトを駆動して第1指定動作の実行を停止させ、前記インタラクティブオブジェクトを駆動して当該他の目標情報に対応する指定動作を実行させる。インタラクティブオブジェクトが指令を再度実行する期間に、目標オブジェクトの音声が検出されなくなる(目標オブジェクトが話を停止したことを意味する)まで、依然として上記目標オブジェクトの音声を検出する過程を繰り返してもよい。
本発明の実施例において、第1所定時間内で目標オブジェクトの音声が検出された場合に、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第1指定動作を循環的に実行するようにすることにより、目標オブジェクトが話を中断した後で引き続き話すときに、インタラクティブオブジェクトは、前の動作を実行し続ける。こうようにすることによって、目標オブジェクトとインタラクティブオブジェクトとの間の交流が活発且つ自然になり、目標オブジェクトのインタラクティブ体験が向上する。
第1所定時間内で目標オブジェクトの音声がずっとモニタリングされていない、即ち、目標オブジェクトが第1指定動作を実行する旨の指令を発した後で第1所定時間内でずっと話を再開していない場合に、目標オブジェクトの話しが終了されたことを意味する。インタラクティブオブジェクトが第1指定動作を実行し終えた後、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが初期姿勢に回復するようにしてもよい。こうようにすることによって、目標オブジェクトとインタラクティブオブジェクトとの間のインタラクティブが自然且つスムーズになり、目標オブジェクトのインタラクティブ体験が向上する。
目標オブジェクトの話しが終了された後、目標オブジェクトの話し内容を分析して目標オブジェクトのインタラクティブ意図を確定してもよい。こうようにすることによって、インタラクティブオブジェクトがインタラクティブ意図に対して回答する応答内容を取得することができる。
幾つかの実施例において、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第1指定動作の実行を終了した後で初期姿勢に回復するようにした後、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して音声応答させる第2駆動データを取得し、前記第2駆動データに基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにする。前記第2駆動データは、第2オーディオ駆動データ及び/または第2動作駆動データを含む。
一例示において、前記オーディオ信号に基づいて、ローカルに記憶された駆動データから、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第2駆動データを呼び出してもよい。
一例示において、前記オーディオ信号をサーバに送信することによって、当該サーバが、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して音声及び/または動作応答を実行するようにするための第2駆動データを生成するようにしてもよい。更に、前記サーバによって送信される第2駆動データを受信する。
幾つかの実施例において、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第1指定動作の実行を終了した後で初期姿勢に回復するようにした後、前記サーバによって送信される第2駆動データが第2所定時間内で受信されなかったことに応じて、予め設定された第3駆動データを呼び出して前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにする。前記第3駆動データは、第3オーディオ駆動データ及び/または第3動作駆動データを含む。
サーバによって第2駆動データを生成した場合に、ネットワーク遅延等の原因により、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第2駆動データをタイムリーに受信することができない可能性がある。目標オブジェクトの話しが終わったが、一定の時間で第2駆動データが受信されなかった場合に、予め設定された第3駆動データを呼び出してインタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにしてもよい。当該予め設定された第3駆動データは、第3オーディオ駆動データ(例えば、インタラクティブオブジェクトが考えていることを示す音声、または例えば「ちょっと待ってください」、「考えさせてください」と類似する音声を音声出力モジュールによって出力する)であってもよく、第3動作駆動データ(例えば、インタラクティブオブジェクトが考えている動作を行うまたは気持ちを表わす姿勢等を行うように駆動する)であってもよく、第3音声駆動データと第3動作駆動データとの両方(例えば、考えている動作をすると同時に、「考えさせてください」の音声を発する)を含んでもよい。第2駆動データが受信された後、第2駆動データを利用開始して前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにする。
本発明の実施例において、サーバによって送信される第2駆動データが一定時間内で受信されなかった場合に、予め設定された第3駆動データを呼び出して前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするため、ネットワーク原因による会話遅延問題が回避され、目標オブジェクトとインタラクティブオブジェクトとの間のインタラクティブがより自然且つスムーズになり、目標オブジェクトのインタラクティブ体験が向上する。
幾つかの実施例において、前記オーディオ信号に基づいて環境騒音声の強度を検出し、環境騒音声の強度に応じて、前記インタラクティブオブジェクトの応答過程での前記表示デバイスの出力音声の音声量を調整してもよい。
音声検出モジュールの出力信号により、表示デバイスの周辺環境、即ち、現在の交流環境がうるさいか否かを知ることができる。環境騒音声の強度が所定閾値を超えた場合に、現在うるさい環境であると確定可能であるため、音声出力モジュールから出力される音声の音声量を調整してもよい。目標オブジェクトにとって、インタラクティブオブジェクトが音声量を上げたと感じたため、目標オブジェクトがインタラクティブオブジェクトの話し内容をよりきれいに聞き取れ、目標オブジェクトのインタラクティブ体験が向上する。
幾つかの実施例において、前記音声検出モジュールは、複数あり、前記表示デバイスの互いに異なる方位に分布されている。複数の音声検出モジュールでそれぞれ取得された複数のオーディオ信号に基づいて、異なる方位の環境騒音声の強度を確定してもよい。異なる方位の環境騒音声の強度に応じて、前記インタラクティブオブジェクトを駆動することによって、前記目標オブジェクトを案内して当該目標オブジェクトがインタラクティブを実行する位置を変更するようにする。
音声検出モジュールが表示デバイスの異なる位置に分布されている場合に、各音声検出モジュールのオーディオ信号に基づいて表示デバイスの周辺の相対的に静かな位置を確定し、目標オブジェクトを当該相対的に静かな位置へ歩かせるように案内してもよい。こうようにすることによって、目標オブジェクトとインタラクティブオブジェクトとがインタラクティブを行う品質が向上可能であり、目標オブジェクトのインタラクティブ体験が向上する。
図3は、本発明の少なくとも1つの実施例に係るインタラクティブオブジェクト駆動装置の構造模式図を示す。図3に示すように、当該装置は、前記表示デバイスの周辺のオーディオ信号を取得するための第1取得ユニット301と、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第1駆動データを取得するための第2取得ユニット302と、前記第1駆動データが出力されたことに応じて、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングするためのモニタリングユニット303と、前記オーディオ信号中の目標オブジェクトの音声存在状態に応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第1駆動ユニット304と、を備えてもよい。
幾つかの実施例において、第2取得ユニット302は、具体的に、前記オーディオ信号から目標情報が検出されたことに応じて、前記目標情報にマッピングする第1指定動作を確定し、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第1指定動作を実行するようにする第1駆動データを取得する。
幾つかの実施例において、前記第1駆動データは、第1オーディオ駆動データ及び/または第1動作駆動データを含み、前記第1オーディオ駆動データは、前記第1指定動作を実行するときに発生する音声のデータであり、モニタリングユニット303は、具体的に、前記第1動作駆動データが出力されたことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第1指定動作を実行するようにし、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングし、または、前記第1オーディオ駆動データに基づいて音声が出力されたことに応じて、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングする。
幾つかの実施例において、第1駆動ユニット304は、具体的に、第1所定時間内で目標オブジェクトの音声が検出されたことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第1指定動作を循環的に実行するようにする。
幾つかの実施例において、第1駆動ユニット304は、具体的に、第1所定時間内で目標オブジェクトの音声が検出されなかったことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第1指定動作の実行を終了した後で初期姿勢に回復するようにする。
幾つかの実施例において、前記装置は、第2駆動ユニットを更に備える。第2駆動ユニットは、具体的に、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第1指定動作の実行を終了した後で初期姿勢に回復するようにした後、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第2駆動データを取得し、前記第2駆動データに基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにする。前記第2駆動データは、第2オーディオ駆動データ及び/または第2動作駆動データを含む。
幾つかの実施例において、前記第2駆動ユニットは、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第2駆動データを取得する際に、具体的に、前記オーディオ信号をサーバに送信することによって、当該サーバが前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第2駆動データを生成するようにし、前記サーバによって送信される第2駆動データを受信する。
幾つかの実施例において、前記装置は、第3駆動ユニットを更に備える。第3駆動ユニットは、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第1指定動作の実行を終了した後で初期姿勢に回復するようにした後、前記サーバによって送信される第2駆動データが第2所定時間内で受信されなかったことに応じて、予め設定された第3駆動データを呼び出して前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにする。前記第3駆動データは、第3オーディオ駆動データ及び/または第3動作駆動データを含む。
幾つかの実施例において、前記装置は、調整ユニットを更に備える。調整ユニットは、前記オーディオ信号に基づいて、環境騒音声の強度を検出し、前記環境騒音声の強度に応じて、前記インタラクティブオブジェクトの応答過程での前記表示デバイスの出力音声の音声量を調整する。
幾つかの実施例において、複数のオーディオ信号は、複数の音声検出モジュールを介して取得され、前記複数の音声検出モジュールは、前記表示デバイスの互いに異なる方位に分布され、前記装置は、第4駆動ユニットを更に備え、第4駆動ユニットは、複数の音声検出モジュールでそれぞれ取得された複数のオーディオ信号に基づいて、異なる方位の環境騒音声の強度を確定し、前記異なる方位の環境騒音声の強度に応じて、前記インタラクティブオブジェクトを駆動することによって、前記目標オブジェクトを案内して当該目標オブジェクトがインタラクティブを実行する位置を変更するようにする。
本明細書の少なくとも1つの実施例は、電子デバイスを更に提供する。図4に示すように、電子デバイス400は、メモリ401と、プロセッサ402とを備える。プロセッサ402、ネットワークインターフェース403及びメモリ401は、バス404を介して結合される。メモリ401は、プロセッサ402で運転され得るコンピュータプログラムを記憶し、プロセッサ402は、前記コンピュータプログラムを実行したときに、本発明の何れか1つの実施例に記載のインタラクティブオブジェクト駆動方法を実施する。
プロセッサ402は、メモリ401におけるプログラムコードを呼び出すことにより、図3における第1取得ユニット301、第2取得ユニット302、モニタリングユニット303及び第1駆動ユニット304を動作させる。実際の応用において、プロセッサ402は、1つまたは複数の汎用プロセッサを含んでもよい。ただし、汎用プロセッサは、電子指令を処理できる如何なるタイプのデバイスであってもよく、中央処理装置(Central Processing Unit、CPU)、マイクロプロセッサ、マイクロコントローラ、メインプロセッサ、コントローラ及びASIC(Application Specific Integrated Circuit、特定用途向け集積回路)等を含む。
実際の応用において、メモリ401は、揮発性メモリ(Volatile Memory)、例えば、ランダムアクセスメモリ(Random Access Memory、RAM)を含んでもよく、不揮発性メモリ(Non-Volatile Memory)、例えば、読み出し専用メモリ(Read-Only Memory、ROM)、フラッシュメモリ(Flash Memory)、ハードディスク(Hard Disk Drive、HDD)若しくはソリッドステートディスク(Solid-State Drive、SSD)メモリを含んでもよく、上記種類のメモリの組み合わせを含んでもよい。
幾つかの実施例において、プロセッサ402は、メモリ401に記憶されたプログラムコードを読み取ることにより、前記表示デバイスの周辺のオーディオ信号を取得することと、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第1駆動データを取得することと、前記第1駆動データが出力されたことに応じて、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングすることと、前記オーディオ信号中の目標オブジェクトの音声存在状態に応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするためのことと、を実行させる。
本明細書の少なくとも1つの実施例は、コンピュータ可読記憶媒体を更に提供する。当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記プログラムがプロセッサによって実行されたときに、本発明の何れか1つの実施例に記載のインタラクティブオブジェクトの駆動は、実施される。
当業者であれば理解できるように、本明細書の1つまたは複数の実施例は、方法、システムまたはコンピュータプログラム製品として提供されてもよい。したがって、本明細書の1つまたは複数の実施は、100%ハードウェアの実施例、100%ソフトウェアの実施例、またはソフトウェアとハードウェアとを組み合わせた態様の実施例の形式を採用してもよい。また、本明細書の1つまたは複数の実施例は、1つまたは複数の、コンピュータ利用可能なプログラムコードを含むコンピュータ利用可能な記憶媒体(磁気ディスクメモリ、CD-ROM、光学メモリ等を含むが、それらに限定されない)で実施されるコンピュータプログラム製品の形式を採用してもよい。
本明細書における各実施例は、何れも漸進の方式で記述され、各実施例は、他の実施例との相違点を重点的に説明し、各実施例同士の同じまたは類似する部分が互いに参照すればよい。特にデータ処理デバイスの実施例は、方法実施例に基本的に類似するため、記述が相対的に簡単であり、関連箇所が方法実施例の部分の説明を参照すればよい。
以上は、本明細書の特定の実施例について記述した。他の実施例は、添付する特許請求の範囲のスコープ内に含まれる。幾つかの場合において、特許請求の範囲に記載の挙動またはことは、実施例における順番と異なる順番で実行可能であり、且つ依然として所望の結果を得ることができる。また、図面に描かれた手順は、示された特定の順番または連続順番でないと所望の結果を得られないことを要求するとは限らない。幾つかの実施形態において、マルチタスク処理及び並行処理も、実行可能であり、または有利なものである。
本明細書に記述されたテーマ及び機能操作の実施例は、デジタル電子回路、有形的に体現されたコンピュータソフトウェア若しくはファームウェア、本発明に開示された構造及びその構造的均等物を含むコンピュータハードウェア、またはそれらのうちの1つまたは複数の組み合わせにおいて実現され得る。本発明に記述されたテーマの実施例は、1つまたは複数のコンピュータプログラム、即ち、有形の非一時的なプログラムキャリア上にコーディングされることでデータ処理装置によって実行されまたはデータ処理装置の操作を制御されるコンピュータプログラム指令における1つまたは複数のモジュールとして実現され得る。代替的にまたは追加的に、プログラム指令は、人工で生成された伝送信号、例えばデバイスで生成された電気、光または電磁的信号にコーディングされてもよい。当該信号は、生成されることで情報を符号化して適切な受信機装置へ伝送されてデータ処理装置に実行させる。コンピュータ記憶媒体は、デバイス読み取り可能な記憶デバイス、デバイス読み取り可能な記憶基板、ランダム若しくはシリアルアクセスメモリデバイス、またはそれらのうちの1つまたは複数の組み合わせであってもよい。
本明細書に記述された処理及び論理フローは、1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラマブルコンピュータによって実施されて、入力データに応じて操作を行って出力を生成して対応する機能を実行させてもよい。前記処理及び論理フローは、専用論理回路、例えばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって実行されてもよく、装置も専用論理回路として実現されてもよい。
コンピュータプログラムの実行に適するコンピュータは、例えば、汎用及び/または専用マイクロプロセッサ、または如何なる他のタイプの中央処理装置を含む。通常、中央処理装置は、読み出し専用メモリ及び/またはランダムアクセスメモリから指令及びデータを受信する。コンピュータの基本ユニットは、指令を実施や実行するための中央処理装置と、指令及びデータを記憶するための1つまたは複数のメモリデバイスとを備える。通常、コンピュータは、更に、データを記憶するための1つまたは複数の大容量記憶デバイス、例えば、磁気ディスク、磁光ディスクまたは光ディスク等を含み、または、コンピュータは、この大容量記憶デバイスに操作可能にカップリングされてそれからデータを受信したりそれへデータを伝送したりし、または、2種の状況を兼ね備える。しかし、コンピュータは、このようなデバイスを必ず有するとは限らない。また、コンピュータは、別のデバイス、例えば、携帯電話、パーソナルデジタルアシスタント(PDA)、モバイルオーディオまたはビデオプレーヤ、ゲームコンソール、全地球測位システム(GPS)受信機、または、例えばユニバーサルシリアルバス(USB)フラッシュメモリドライバの携帯型記憶デバイスに組み込まれてもよい。以上は、単に幾つかの例である。
コンピュータプログラム指令及びデータを記憶するのに適するコンピュータ可読媒体は、あらゆる形態の不揮発性メモリ、メディアとメモリデバイスを含み、例えば、半導体メモリデバイス(例えば、EPROM、EEPROMとフラッシュメモリデバイス)、磁気ディスク(例えば、内部ハードディスクまたはリムーバブルディスク)、磁光ディスク及びCD ROMとDVD-ROMディスクを含む。プロセッサとメモリは、専用論理回路によって補充されまたは専用論理回路に統合されてもよい。
本明細書が大量の具体的な実施詳細を含むが、これらの詳細は、如何なる発明の範囲または保護請求される範囲を制限するとは解釈されるべきではなく、主に特定の開示された具体的な実施例の特徴を記述するために用いられる。本明細書の複数の実施例に記述された幾つかの特徴は、単一の実施例において組み合わせて実施されてもよい。その一方、単一の実施例に記述された各種の特徴は、複数の実施例に分けて実施され、または、如何なる適切なサブ組み合わせとして実施されてもよい。また、特徴が上記のように幾つかの組み合わせにおいて役割を果たし、ひいてはこのように保護するように要求されてもよいが、保護請求される組み合わせからの1つまたは複数の特徴は、幾つかの場合において当該組み合わせから除去されてもよく、更に、保護請求される組み合わせは、サブ組み合わせまたはサブ組み合わせの変形を指してもよい。
類似的に、図面に特定の順番で操作が描かれたが、これらの操作が示された特定の順番で実行されまたは順に実行されまたは全ての例示の操作が実行されて所望の結果を得ることを要求するとして理解されるべきではない。幾つかの場合に、マルチタスク及び並行処理は、有利である可能性がある。また、上記実施例における各種のシステムモジュールとユニットの分離は、全ての実施例においてこのような分離を必要とすると理解されるべきではない。更に、理解できるように、記述されるプログラムユニット及びシステムは、通常、単一のソフトウェア製品に統合されてもよく、または複数のソフトウェア製品としてカプセル化されてもよい。
このように、テーマの特定実施例が記述された。他の実施例は、添付する特許請求の範囲のスコープ内に含まれる。幾つかの場合において、特許請求の範囲に記載の動作は、異なる順番で実行可能であり、且つ依然として所望の結果を得ることができる。また、図面に描かれた処理が必ずしも示された特定の順番または連続順番で所望の結果を得るとは限らない。幾つかの実施形態において、マルチタスク処理及び並行処理は、有利である可能性がある。
上述したのは、本明細書の1つまたは複数の実施例の好適な実施例に過ぎず、本明細書の1つまたは複数の実施例を制限するためのものではない。本明細書の1つまたは複数の実施例の精神及び原則内でなされた如何なる変更、均等物による置換、改良等も、本発明の1つまたは複数の実施例の保護範囲内に含まれるべきである。

Claims (23)

  1. インタラクティブオブジェクト駆動方法であって、
    表示デバイスの周辺のオーディオ信号を取得することと、
    前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第1駆動データを取得することと、
    前記第1駆動データが出力されたことに応じて、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングすることと、
    前記オーディオ信号中の前記目標オブジェクトの音声の存在状態に応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにすることと、を含む
    ことを特徴とするインタラクティブオブジェクト駆動方法。
  2. 前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第1駆動データを取得することは、
    前記オーディオ信号から目標情報が検出されたことに応じて、前記目標情報にマッピングする第1指定動作を確定することと、
    前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第1指定動作を実行するようにするための第1駆動データを取得することと、を含む
    ことを特徴とする請求項1に記載のインタラクティブオブジェクト駆動方法。
  3. 前記第1駆動データは、第1オーディオ駆動データ及び/または第1動作駆動データを含み、前記第1オーディオ駆動データは、前記第1指定動作を実行するときに発生する音声のデータであり、
    前記第1駆動データが出力されたことに応じて、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングすることは、
    前記第1動作駆動データが出力されたことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第1指定動作を実行するようにし、前記目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングすること、または、
    前記第1オーディオ駆動データに基づいて音声が出力されたことに応じて、前記目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングすることを含む
    ことを特徴とする請求項2に記載のインタラクティブオブジェクト駆動方法。
  4. 前記オーディオ信号中の目標オブジェクトの音声存在状態に応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにすることは、
    第1所定時間内で前記目標オブジェクトの音声が検出されたことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第1指定動作を循環的に実行するようにすることを含む
    ことを特徴とする請求項1から3の何れか一項に記載のインタラクティブオブジェクト駆動方法。
  5. 前記オーディオ信号中の目標オブジェクトの音声存在状態に応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにすることは、
    第1所定時間内で前記目標オブジェクトの音声が検出されなかったことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第1指定動作の実行を終了した後で初期姿勢に回復するようにすることを含む
    ことを特徴とする請求項1から3の何れか一項に記載のインタラクティブオブジェクト駆動方法。
  6. 前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第1指定動作の実行を終了した後で初期姿勢に回復するようにした後、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第2駆動データを取得することと、
    前記第2駆動データに基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにすることと、を更に含み、
    前記第2駆動データは、第2オーディオ駆動データ及び/または第2動作駆動データを含む
    ことを特徴とする請求項5に記載のインタラクティブオブジェクト駆動方法。
  7. 前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第2駆動データを取得することは、
    前記オーディオ信号をサーバへ送信することによって、当該サーバが、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第2駆動データを生成するようにすることと、
    前記サーバによって送信される第2駆動データを受信することと、を含む
    ことを特徴とする請求項6に記載のインタラクティブオブジェクト駆動方法。
  8. 前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第1指定動作の実行を終了した後で初期姿勢に回復するようにした後、前記サーバによって送信される第2駆動データが第2所定時間内で受信されなかったことに応じて、予め設定された第3駆動データを呼び出して前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにすることを更に含み、
    前記第3駆動データは、第3オーディオ駆動データ及び/または第3動作駆動データを含む
    ことを特徴とする請求項7に記載のインタラクティブオブジェクト駆動方法。
  9. 前記オーディオ信号に基づいて、環境騒音声の強度を検出することと、
    前記環境騒音声の強度に応じて、前記インタラクティブオブジェクトの応答過程での前記表示デバイスの出力音声の音声量を調整することを更に含む
    ことを特徴とする請求項1から8の何れか一項に記載のインタラクティブオブジェクト駆動方法。
  10. 複数のオーディオ信号は、複数の音声検出モジュールを介して取得され、前記複数の音声検出モジュールは、前記表示デバイスの互いに異なる方位に分布され、
    前記インタラクティブオブジェクト駆動方法は、
    前記複数の音声検出モジュールでそれぞれ取得された複数のオーディオ信号に基づいて異なる方位の環境騒音声の強度を確定することと、
    前記異なる方位の環境騒音声の強度に応じて、前記インタラクティブオブジェクトを駆動することによって、前記目標オブジェクトを案内して当該目標オブジェクトがインタラクティブを実行する位置を変更するようにすることと、を更に含む
    ことを特徴とする請求項1から9の何れか一項に記載のインタラクティブオブジェクト駆動方法。
  11. インタラクティブオブジェクト駆動装置であって、
    表示デバイスの周辺のオーディオ信号を取得するための第1取得ユニットと、
    前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第1駆動データを取得するための第2取得ユニットと、
    前記第1駆動データが出力されたことに応じて、目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングするためのモニタリングユニットと、
    前記オーディオ信号中の前記目標オブジェクトの音声の存在状態に応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第1駆動ユニットと、を備える
    ことを特徴とするインタラクティブオブジェクト駆動装置。
  12. 前記第2取得ユニットは、
    前記オーディオ信号から目標情報が検出されたことに応じて、前記目標情報にマッピングする第1指定動作を確定し、
    前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記第1指定動作を実行するようにするための第1駆動データを取得する
    ことを特徴とする請求項11に記載のインタラクティブオブジェクト駆動装置。
  13. 前記第1駆動データは、第1オーディオ駆動データ及び/または第1動作駆動データを含み、前記第1オーディオ駆動データは、前記第1指定動作を実行するときに発生する音声のデータであり、
    前記モニタリングユニットは、
    前記第1動作駆動データが出力されたことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第1指定動作を実行するようにし、前記目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングし、または、
    前記第1オーディオ駆動データに基づいて音声が出力されたことに応じて、前記目標オブジェクトの音声を検知するための前記オーディオ信号をモニタリングする
    ことを特徴とする請求項12に記載のインタラクティブオブジェクト駆動装置。
  14. 前記第1駆動ユニットは、
    第1所定時間内で前記目標オブジェクトの音声が検出されたことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第1指定動作を循環的に実行するようにする
    ことを特徴とする請求項11から13の何れか一項に記載のインタラクティブオブジェクト駆動装置。
  15. 前記第1駆動ユニットは、
    第1所定時間内で前記目標オブジェクトの音声が検出されなかったことに応じて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第1指定動作の実行を終了した後で初期姿勢に回復するようにする
    ことを特徴とする請求項11から13の何れか一項に記載のインタラクティブオブジェクト駆動装置。
  16. 前記インタラクティブオブジェクト駆動装置は、第2駆動ユニットを更に備え、
    前記第2駆動ユニットは、
    前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第1指定動作の実行を終了した後で初期姿勢に回復するようにした後、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第2駆動データを取得し、
    前記第2駆動データに基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにし、
    前記第2駆動データは、第2オーディオ駆動データ及び/または第2動作駆動データを含む
    ことを特徴とする請求項15に記載のインタラクティブオブジェクト駆動装置。
  17. 前記第2駆動ユニットは、前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第2駆動データを取得する際に、
    前記オーディオ信号をサーバに送信することによって、当該サーバが前記オーディオ信号に基づいて、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにするための第2駆動データを生成するようにし、
    前記サーバによって送信される第2駆動データを受信する
    ことを特徴とする請求項16に記載のインタラクティブオブジェクト駆動装置。
  18. 前記インタラクティブオブジェクト駆動装置は、第3駆動ユニットを更に備え、
    前記第3駆動ユニットは、前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが第1指定動作の実行を終了した後で初期姿勢に回復するようにした後、前記サーバによって送信される第2駆動データが第2所定時間内で受信されなかったことに応じて、予め設定された第3駆動データを呼び出して前記インタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが応答を実行するようにし、
    前記第3駆動データは、第3オーディオ駆動データ及び/または第3動作駆動データを含む
    ことを特徴とする請求項17に記載のインタラクティブオブジェクト駆動装置。
  19. 前記インタラクティブオブジェクト駆動装置は、調整ユニットを更に備え、
    前記調整ユニットは、
    前記オーディオ信号に基づいて、環境騒音声の強度を検出し、
    前記環境騒音声の強度に応じて、前記インタラクティブオブジェクトの応答過程での前記表示デバイスの出力音声の音声量を調整する
    ことを特徴とする請求項11から18の何れか一項に記載のインタラクティブオブジェクト駆動装置。
  20. 複数のオーディオ信号は、複数の音声検出モジュールを介して取得され、前記複数の音声検出モジュールは、前記表示デバイスの互いに異なる方位に分布され、前記インタラクティブオブジェクト駆動装置は、第4駆動ユニットを更に備え、
    前記第4駆動ユニットは、
    前記複数の音声検出モジュールでそれぞれ取得された複数のオーディオ信号に基づいて異なる方位の環境騒音声の強度を確定し、
    前記異なる方位の環境騒音声の強度に応じて、前記インタラクティブオブジェクトを駆動することによって、前記目標オブジェクトを案内して当該目標オブジェクトがインタラクティブを実行する位置を変更するようにする
    ことを特徴とする請求項11から19の何れか一項に記載のインタラクティブオブジェクト駆動装置。
  21. 表示デバイスであって、
    前記表示デバイスには、透明ディスプレイスクリーンが設けられ、前記透明ディスプレイスクリーンは、インタラクティブオブジェクトを表示し、前記表示デバイスは、請求項1から10の何れか一項に記載のインタラクティブオブジェクト駆動方法を実行することによって、前記透明ディスプレイスクリーンに表示されたインタラクティブオブジェクトを駆動して当該インタラクティブオブジェクトが前記目標オブジェクトに対して応答を実行するようにする、
    ことを特徴とする表示デバイス。
  22. 電子デバイスであって、
    前記電子デバイスは、メモリと、プロセッサとを備え、前記メモリは、プロセッサで運転され得るコンピュータプログラムを記憶し、前記プロセッサは、前記コンピュータプログラムを実行したときに請求項1から10の何れか一項に記載のインタラクティブオブジェクト駆動方法を実施する
    ことを特徴とする電子デバイス。
  23. コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、
    前記プログラムがプロセッサによって実行されたときに、請求項1から10の何れか一項に記載の方法は、実施される
    ことを特徴とするコンピュータ可読記憶媒体。
JP2021521785A 2019-11-28 2020-07-24 インタラクティブオブジェクト駆動方法、装置、電子デバイス及び記憶媒体 Active JP7267411B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911195280.5 2019-11-28
CN201911195280.5A CN110989900B (zh) 2019-11-28 2019-11-28 交互对象的驱动方法、装置、设备以及存储介质
PCT/CN2020/104465 WO2021103609A1 (zh) 2019-11-28 2020-07-24 交互对象的驱动方法、装置、电子设备以及存储介质

Publications (2)

Publication Number Publication Date
JP2022515307A true JP2022515307A (ja) 2022-02-18
JP7267411B2 JP7267411B2 (ja) 2023-05-01

Family

ID=70087872

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021521785A Active JP7267411B2 (ja) 2019-11-28 2020-07-24 インタラクティブオブジェクト駆動方法、装置、電子デバイス及び記憶媒体

Country Status (7)

Country Link
US (1) US11769499B2 (ja)
JP (1) JP7267411B2 (ja)
KR (1) KR20210068474A (ja)
CN (1) CN110989900B (ja)
SG (1) SG11202102635TA (ja)
TW (1) TWI777229B (ja)
WO (1) WO2021103609A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110989900B (zh) 2019-11-28 2021-11-05 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN111488090A (zh) * 2020-04-13 2020-08-04 北京市商汤科技开发有限公司 交互方法、装置、交互系统、电子设备及存储介质
CN112420078B (zh) * 2020-11-18 2022-12-30 青岛海尔科技有限公司 一种监听方法、装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018523156A (ja) * 2015-06-29 2018-08-16 アマゾン テクノロジーズ インコーポレイテッド 言語モデルスピーチエンドポインティング
JP2018185431A (ja) * 2017-04-26 2018-11-22 シャープ株式会社 対話システム、対話装置、応答制御装置、対話装置の制御方法、応答制御装置の制御方法、および、制御プログラム
CN109346076A (zh) * 2018-10-25 2019-02-15 三星电子(中国)研发中心 语音交互、语音处理方法、装置和系统
WO2019187834A1 (ja) * 2018-03-30 2019-10-03 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9089783B2 (en) * 2011-08-18 2015-07-28 Disney Enterprises, Inc. System and method for a toy to interact with a computing device through wireless transmissions
WO2013170383A1 (en) * 2012-05-16 2013-11-21 Xtreme Interactions Inc. System, device and method for processing interlaced multimodal user input
TWI521421B (zh) * 2013-04-08 2016-02-11 亞東技術學院 互動式影像顯示系統及影像提供裝置
US9177546B2 (en) * 2013-08-28 2015-11-03 Texas Instruments Incorporated Cloud based adaptive learning for distributed sensors
SG10201809399VA (en) * 2014-06-12 2018-11-29 Play I Inc System and method for reinforcing programming education through robotic feedback
WO2017086937A1 (en) * 2015-11-17 2017-05-26 Thomson Licensing Apparatus and method for integration of environmental event information for multimedia playback adaptive control
KR20170124836A (ko) * 2016-05-03 2017-11-13 엘지전자 주식회사 전자 장치 및 그 제어 방법
KR20180036032A (ko) * 2016-09-30 2018-04-09 삼성전자주식회사 영상처리장치 및 기록매체
CN108305640A (zh) * 2017-01-13 2018-07-20 深圳大森智能科技有限公司 智能机器人主动服务方法与装置
CN109389005A (zh) * 2017-08-05 2019-02-26 富泰华工业(深圳)有限公司 智能机器人及人机交互方法
TWI695308B (zh) * 2017-09-15 2020-06-01 林勁璋 分散式互動介面系統及其操作方法
CN107704169B (zh) * 2017-09-26 2020-11-17 北京光年无限科技有限公司 虚拟人的状态管理方法和系统
CN107894833B (zh) * 2017-10-26 2021-06-15 北京光年无限科技有限公司 基于虚拟人的多模态交互处理方法及系统
CN109767774A (zh) * 2017-11-08 2019-05-17 阿里巴巴集团控股有限公司 一种交互方法和设备
CN107861626A (zh) * 2017-12-06 2018-03-30 北京光年无限科技有限公司 一种虚拟形象被唤醒的方法及系统
CN108664123A (zh) * 2017-12-15 2018-10-16 蔚来汽车有限公司 人车交互方法、装置、车载智能控制器及系统
CN110010125A (zh) * 2017-12-29 2019-07-12 深圳市优必选科技有限公司 一种智能机器人的控制方法、装置、终端设备及介质
CN108536790A (zh) * 2018-03-30 2018-09-14 北京市商汤科技开发有限公司 声音特效程序文件包的生成及声音特效生成方法与装置
CN110069608B (zh) * 2018-07-24 2022-05-27 百度在线网络技术(北京)有限公司 一种语音交互的方法、装置、设备和计算机存储介质
CN110033776A (zh) * 2019-03-08 2019-07-19 佛山市云米电器科技有限公司 一种应用于屏幕设备的虚拟形象交互系统与方法
CN109976519B (zh) * 2019-03-14 2022-05-03 浙江工业大学 一种基于增强现实的交互显示装置及其交互显示方法
CN110060678B (zh) * 2019-04-16 2021-09-14 深圳欧博思智能科技有限公司 一种基于智能设备的虚拟角色控制方法及智能设备
CN110413841A (zh) * 2019-06-13 2019-11-05 深圳追一科技有限公司 多态交互方法、装置、系统、电子设备及存储介质
CN110989900B (zh) * 2019-11-28 2021-11-05 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018523156A (ja) * 2015-06-29 2018-08-16 アマゾン テクノロジーズ インコーポレイテッド 言語モデルスピーチエンドポインティング
JP2018185431A (ja) * 2017-04-26 2018-11-22 シャープ株式会社 対話システム、対話装置、応答制御装置、対話装置の制御方法、応答制御装置の制御方法、および、制御プログラム
WO2019187834A1 (ja) * 2018-03-30 2019-10-03 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN109346076A (zh) * 2018-10-25 2019-02-15 三星电子(中国)研发中心 语音交互、语音处理方法、装置和系统

Also Published As

Publication number Publication date
CN110989900B (zh) 2021-11-05
KR20210068474A (ko) 2021-06-09
CN110989900A (zh) 2020-04-10
US11769499B2 (en) 2023-09-26
SG11202102635TA (en) 2021-07-29
WO2021103609A1 (zh) 2021-06-03
JP7267411B2 (ja) 2023-05-01
TW202121161A (zh) 2021-06-01
US20210201908A1 (en) 2021-07-01
TWI777229B (zh) 2022-09-11

Similar Documents

Publication Publication Date Title
US11609631B2 (en) Natural human-computer interaction for virtual personal assistant systems
CN109313911B (zh) 沉浸式显示设备上的自动音频衰减
US10705602B2 (en) Context-aware augmented reality object commands
JP7038210B2 (ja) 対話セッション管理用のシステム及び方法
CN110456626B (zh) 全息键盘显示
US20210132686A1 (en) Storage medium, augmented reality presentation apparatus, and augmented reality presentation method
JP2022515307A (ja) インタラクティブオブジェクト駆動方法、装置、電子デバイス及び記憶媒体
JP2018526693A (ja) 仮想現実における注視対話のためのホバー挙動
JP2016528604A (ja) 適応イベント認識
JP2023525173A (ja) レンダリングされたグラフィカル出力を利用する会話型aiプラットフォーム
KR20210005200A (ko) 디지털 어시스턴트를 이용한 오디오 정보 제공
CN113168225B (zh) 使用无监督机器学习来定位用于回声定位的空间化声音节点
JP2022531056A (ja) インタラクティブ対象の駆動方法、装置、デバイス、及び記録媒体
US20240038228A1 (en) Power-Sensitive Control of Virtual Agents
US20240177424A1 (en) Digital assistant object placement
US12008720B1 (en) Scene graph assisted navigation
US20230350536A1 (en) Displaying an environment from a selected point-of-view
US20230386443A1 (en) Method for adjusting noise cancellation in headphones based on real-world activity or game context
US20230384592A1 (en) Methods and systems for adding real-world sounds to virtual reality scenes
WO2022066360A1 (en) Selecting multiple virtual objects
CN116304180A (zh) 图像显示方法、装置、设备、存储介质及程序产品
CN117836741A (zh) 数字助理对象放置
CN114783429A (zh) 人机交互系统、服务器、交互终端、交互方法和电子设备
KR20200077936A (ko) 사용자 상태에 기초하여 반응을 제공하는 전자 장치 및 그의 동작 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210421

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221129

A603 Late request for extension of time limit during examination

Free format text: JAPANESE INTERMEDIATE CODE: A603

Effective date: 20221129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230419

R150 Certificate of patent or registration of utility model

Ref document number: 7267411

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150