JP6573696B2 - ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム - Google Patents

ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム Download PDF

Info

Publication number
JP6573696B2
JP6573696B2 JP2018076699A JP2018076699A JP6573696B2 JP 6573696 B2 JP6573696 B2 JP 6573696B2 JP 2018076699 A JP2018076699 A JP 2018076699A JP 2018076699 A JP2018076699 A JP 2018076699A JP 6573696 B2 JP6573696 B2 JP 6573696B2
Authority
JP
Japan
Prior art keywords
voice input
content
voice
progress
electronic device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018076699A
Other languages
English (en)
Other versions
JP2018180542A (ja
Inventor
ヒョンチョル イ
ヒョンチョル イ
ジンヨン パク
ジンヨン パク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2018180542A publication Critical patent/JP2018180542A/ja
Application granted granted Critical
Publication of JP6573696B2 publication Critical patent/JP6573696B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/72Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Signal Processing (AREA)
  • Tourism & Hospitality (AREA)
  • Otolaryngology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • User Interface Of Digital Computer (AREA)

Description

以下の説明は、ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム、そしてコンピュータと結合してマルチモーダルインタラクション方法をコンピュータに実行させるためにコンピュータ読取可能な記録媒体に格納されるコンピュータプログラムとその記録媒体に関する。
コンテンツやサービスに対する従来の消費行為は、主にディスプレイを基盤としてきた。例えば、ユーザは、スクリーンを通じて情報の伝達を受け、コントローラに対する操作および/または音声命令の認識に応じてスクリーンに表示されるコンテンツやサービスとユーザとのインタラクションが発生するようになる。コンテンツやサービスに対する従来の消費行為でも、オーディオの出力と音声命令の認識によるインタラクションが発生するが、これはディスプレイを基盤としたコンテンツとサービスのより豊かな経験のための副次的な手段に留まっている。
一方、ホームネットワークサービスの人工知能スピーカのように音声を基盤として動作するインタフェースは、視覚的情報を使用することができないため、ディスプレイ基盤のコンテンツおよび/またはサービスに比べ、コンテンツおよび/またはサービスとユーザとのインタラクションが容易でないという問題がある。例えば、特許文献1は、ホームメディアデバイスおよびこれを利用したホームネットワークシステム、方法に関する技術であって、ホームネットワークサービスにおいて移動通信網の他にWi−Fiのような第2通信網を利用してホームネットワークサービスを提供することができ、ホーム内の複数のマルチメディア機器を、ユーザがボタンを操作しなくても音声命令によって多重制御することができる技術を開示している。例えば、このようなホームネットワークサービスにおいてユーザの音声命令が入力される電子機器が、ユーザの音声入力「電気を消して」を受信した場合を考慮してみよう。このような電子機器は、受信した音声入力「電気を消して」を分析してスマート照明機器のライト電源をオフ(OFF)にする。また、電子機器がユーザの音声入力「今日の天気」を受信した場合も考慮してみよう。このような電子機器は、受信した音声入力「今日の天気」に基づいて外部サーバから今日の天気に関する情報を受信し、受信した情報に対応する音声を合成してスピーカから出力するようになる。しかし、このような単純な音声命令と音声命令による動作の処理は、より簡単に宅内機器を制御することができる経験と、より簡単に情報を取得することができる経験をユーザに提供できるという長所を有する反面、ディスプレイ基盤の消費行為のようにコンテンツおよび/またはサービスに対する多様な経験は提供し難いという問題を抱えている。
韓国公開特許第10−2011−0139797号
コンテンツやサービスに対するディスプレイ基盤のインタラクションは、ユーザがディスプレイに向かう一定の方向やディスプレイによって限定される位置と関連して進行されなければならず、ユーザの方向、位置、および移動が制限される。例えば、ユーザがディスプレイを見ることのできない位置では、コンテンツやサービスの利用は困難である。
この反面、音声基盤のインタラクションは、ユーザ(発話者)が視覚的情報ではなく聴覚的情報を活用するため、発話者の方向、位置、および移動が相対的に自由であるという長所がある。例えば、発話者が音響機器の正面から背面に移動したとしても、聴覚的情報を活用したコンテンツやサービスの利用には何ら支障がない。
このような長所を活用し、ネットワークに連結して音声を基盤として動作する電子機器を利用したインタラクションでは、発話者から受信した音声入力から取得される命令語だけではなく、音声入力と関連する発話者の位置情報(一例として、音声入力の受信に関連する時点または期間に測定された、電子機器に対する発話者の相対的な位置や方向、相対的な位置や方向の変化の有無、相対的な位置や方向の変化の程度、および相対的な位置や方向の変化の方向のうちの少なくとも1つ)をさらに活用することにより、音声基盤のインタフェースを通じてより多様なユーザ経験を提供することができる、マルチモーダルインタラクション方法およびシステム、そしてコンピュータと結合してマルチモーダルインタラクション方法をコンピュータに実行させるためにコンピュータ読取可能な記録媒体に格納されるコンピュータプログラムとその記録媒体を提供する。
また、音声入力から取得される音のトーンやピッチ、電子機器と連動する周辺機器(一例として、ユーザが所持するスマートフォン、スマートウォッチ、スマートバンドなど)から取得される値(発話者の明示的な情報として手の位置や、発話者の非明示的な情報として脈拍、1日の移動量、前日の睡眠時間など)などを統合的に活用して電子機器に命令を伝達したり、コンテンツおよび/またはサービスの素材として活用したりできる、マルチモーダルインタラクション方法およびシステム、そしてコンピュータと結合してマルチモーダルインタラクション方法をコンピュータに実行させるためにコンピュータ読取可能な記録媒体に格納されるコンピュータプログラムとその記録媒体を提供する。
マルチモーダルインタラクションシステムのマルチモーダルインタラクション方法であって、電子機器に含まれる音声基盤のインタフェースを通じてコンテンツの進行のためのオーディオ情報を出力する段階、前記音声基盤のインタフェースを通じて前記出力されたオーディオ情報と関連する発話者の音声入力を受信する段階、前記発話者の前記音声入力と関連する位置情報を生成する段階、前記音声入力および前記音声入力と関連する位置情報を利用して前記コンテンツの進行と関連する動作を決定する段階を含むことを特徴とする、マルチモーダルインタラクション方法を提供する。
マルチモーダルインタラクション方法をコンピュータに実行させるためのコンピュータプログラムが記録されていることを特徴とする、コンピュータ読取可能な記録媒体を提供する。
コンピュータと結合してマルチモーダルインタラクション方法をコンピュータに実行させるためにコンピュータ読取可能な記録媒体に格納される、コンピュータプログラムを提供する。
マルチモーダルインタラクションシステムであって、音声基盤のインタフェース部、およびコンピュータ読取可能な命令を実行するように実現される少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、前記音声基盤のインタフェース部を通じてコンテンツの進行のためのオーディオ情報を出力し、前記音声基盤のインタフェース部を通じて前記出力されたオーディオ情報と関連する発話者の音声入力を受信し、前記発話者の前記音声入力と関連する位置情報を生成し、前記音声入力および前記音声入力と関連する位置情報を利用して前記コンテンツの進行と関連する動作を決定することを特徴とする、マルチモーダルインタラクションシステムを提供する。
ネットワークに連結し、音声を基盤として動作する電子機器を利用したインタラクションでは、発話者から受信した音声入力から取得される命令語だけではなく、音声入力と関連する発話者の位置情報(一例として、音声入力の受信に関連する時点または期間に測定された、電子機器に対する発話者の相対的な位置や方向、相対的な位置や方向の変化の有無、相対的な位置や方向の変化の程度、および相対的な位置や方向の変化の方向のうちの少なくとも1つ)をさらに活用することにより、音声基盤のインタフェースを通じてより多様なユーザ経験を提供することができる。
また、音声入力から取得される音のトーンやピッチ、電子機器と連動する周辺機器(一例として、ユーザが所持するスマートフォン、スマートウォッチ、スマートバンドなど)から取得される値(発話者の明示的な情報として手の位置や、発話者の非明示的な情報として脈拍、1日の移動量、前日の睡眠時間など)などを統合的に活用して電子機器に命令を伝達したり、コンテンツおよび/またはサービスの素材として活用したりすることができる。
本発明の一実施形態における、音声基盤のインタフェースを活用したサービス環境の例を示した図である。 本発明の一実施形態における、音声基盤のインタフェースを活用したサービス環境の他の例を示した図である。 本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。 本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。 本発明の一実施形態における、発話者の発話と関連する位置情報の例を説明するための図である。 本発明の一実施形態における、発話者の発話と関連する位置情報の例を説明するための図である。 本発明の一実施形態における、電子機器が実行することのできるマルチモーダルインタラクション方法の例を示したフローチャートである。 本発明の一実施形態における、周辺機器のセンサで測定された出力値を活用するマルチモーダルインタラクション方法の例を示したフローチャートである。 本発明の一実施形態における、周辺機器のセンサで測定された出力値を活用するマルチモーダルインタラクション方法の他の例を示したフローチャートである。 本発明の一実施形態における、外部サーバを通じてコンテンツを提供する場合のマルチモーダルインタラクション方法の例を示したフローチャートである。
以下、実施形態について、添付の図面を参照しながら詳しく説明する。
本発明の実施形態に係るマルチモーダルインタラクションシステムは、音声を基盤として動作するインタフェースを提供する電子機器によって実現されてよい。電子機器は、オーディオ基盤のコンテンツをユーザ(発話者)に提供するためにオーディオ情報を出力してよく、出力されたオーディオ情報にユーザが応答して発話することによって電子機器で音声入力を取得してよい。電子機器は、取得した音声入力を、直接にまたは別のインタフェースコネクトを介して連結される外部プラットフォームによって認識および分析することでユーザ命令を処理して、オーディオ基盤のコンテンツを進行させてよい。このとき、電子機器は、発話者の音声入力だけではなく、発話者の音声入力と関連する位置情報をさらに利用してコンテンツの進行と関連する動作を決定してよい。
本発明の実施形態に係るマルチモーダルインタラクション方法は、上述した電子機器によって実行されてよい。このとき、電子機器には、本発明の一実施形態に係るコンピュータプログラムがインストールおよび駆動されてよく、電子機器は、駆動されたコンピュータプログラムの制御に従って本発明の一実施形態に係るマルチモーダルインタラクション方法を実行してよい。上述したコンピュータプログラムは、コンピュータで実現される電子機器と結合し、マルチモーダルインタラクション方法をコンピュータに実行させるためにコンピュータ読取可能な記録媒体に格納されてよい。
図1は、本発明の一実施形態における、音声基盤のインタフェースを活用したサービス環境の例を示した図である。図1の実施形態では、スマートホーム(smart home)やホームネットワークサービスのように宅内の機器を連結して制御する技術において、音声を基盤として動作するインタフェースを提供する電子機器100が、ユーザ110の発話によって受信した音声入力「電気を消して」を認識および分析し、宅内で内部ネットワークを介して電子機器100に連結している宅内照明機器120のライト電源を制御する例を示している。
例えば宅内の機器は、上述した宅内照明機器120の他にも、テレビ、PC(Personal Computer)、周辺機器、エアコン、冷蔵庫、ロボット掃除機などのような家電製品はもちろん、水道、電気、冷暖房機器などのようなエネルギー消費装置、ドアロックや監視カメラなどのような保安機器など、オンライン上で連結して制御することが可能な多様な機器を含んでよい。また、内部ネットワークは、イーサーネット(Ethernet)(登録商標)、HomePNA、IEEE 1394のような有線ネットワーク技術、ブルートゥース(Bluetooth)(登録商標)、UWB(ultra Wide Band)、ジグビー(ZigBee)(登録商標)、Wireless 1394、Home RFのような無線ネットワーク技術などを活用してよい。
電子機器100は、宅内の機器のうちの1つであってよい。例えば電子機器100は、宅内に備えられた人工知能スピーカやロボット掃除機などのような機器の1つであってよい。また、電子機器100は、スマートフォン(smart phone)、携帯電話、ノート型パンコン、デジタル放送用端末、パーソナルデジタルアシスタント(PDA:Personal Digital Assistants)、ポータブルマルチメディアプレイヤ(PMP:Portable Multimedia Player)、タブレットなどのようなユーザ110のモバイル機器であってもよい。このように、電子機器100は、ユーザ110の音声入力を受信して宅内の機器を制御するために宅内の機器と連結可能な機能を備えた機器であれば、特に制限されることはない。
図2は、本発明の一実施形態における、音声基盤のインタフェースを活用したサービス環境の例を示した図である。図2は、音声を基盤として動作するインタフェースを提供する電子機器100が、ユーザ110の発話によって受信した音声入力「今日の天気」を認識および分析し、外部ネットワークを介して外部サーバ210から今日の天気に関する情報を取得し、取得した情報を音声で出力する例を示している。
例えば、外部ネットワークは、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのようなネットワークのうちの1つ以上の任意のネットワークを含んでよい。
図2の実施形態でも、電子機器100は、宅内の機器のうちの1つであっても、ユーザ110のモバイル機器のうちの1つであってもよく、ユーザ110の音声入力を受信して処理するための機能と、外部ネットワークを介して外部サーバ210に接続して外部サーバ210が提供するサービスやコンテンツをユーザ110に提供するための機能を備えた機器であれば、特に制限されることはない。
このように、本発明の実施形態に係る電子機器100は、音声基盤のインタフェースを通じ、ユーザ110の発話によって受信した音声入力を少なくとも含むユーザ命令を処理することができる機器であれば、特に制限されなくてよい。例えば、電子機器100は、ユーザの音声入力を直接に認識および分析し、音声入力に適した動作を実行することでユーザ命令を処理してもよいが、実施形態によっては、ユーザの音声入力に対する認識や認識された音声入力の分析、ユーザに提供される音声の合成などの処理を、電子機器100と連係する外部のプラットフォームで実行することも可能である。
図3は、本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。図3は、電子機器310、クラウド人工知能プラットフォーム320、およびコンテンツ・サービス330を示している。
一例として、電子機器310は、宅内に備えられた機器を意味してよく、少なくとも上述した電子機器100を含んでよい。このような電子機器310や電子機器310にインストールおよび駆動されるアプリケーション(以下、アプリ)は、インタフェースコネクト340を介してクラウド人工知能プラットフォーム320と連係してよい。ここで、インタフェースコネクト340は、電子機器310や電子機器310にインストールおよび駆動されるアプリの開発のためのソフトウェア開発キット(SDK:Software Development Kit)および/または開発文書を開発者に提供してよい。また、インタフェースコネクト340は、電子機器310や該電子機器310にインストールおよび駆動されるアプリがクラウド人工知能プラットフォーム320から提供される機能を活用することを可能にする、アプリケーションプログラミングインタフェース(API:Application Program Interface)を提供してよい。具体的な例として、開発者は、インタフェースコネクト340により提供されるSDKおよび/または開発文書を利用して開発した機器やアプリが、インタフェースコネクト340により提供されるAPIを利用してクラウド人工知能プラットフォーム320により提供される機能を活用することができるようにする。
ここで、クラウド人工知能プラットフォーム320は、音声基盤のサービスを提供するための機能を提供してよい。例えばクラウド人工知能プラットフォーム320は、受信した音声を認識し、出力する音声を合成するための音声処理モジュール321、受信した映像や動画を分析して処理するためのビジョン処理モジュール322、受信した音声に応じて適切な音声を出力するために適切な会話を決定するための会話処理モジュール323、受信した音声に適切な機能を薦めるための推薦モジュール324、人工知能がデータ学習によって文章単位で言語を翻訳するように支援するニューラル機械翻訳(NMT:Neural Machine Translation)325などのように、音声基盤サービスを提供するための多様なモジュールを含んでよい。
例えば、図1および図2の実施形態において、電子機器100は、ユーザ110の音声入力を、インタフェースコネクト340が提供するAPIを利用してクラウド人工知能プラットフォーム320に送信したとする。この場合、クラウド人工知能プラットフォーム320は、受信した音声入力を、上述したモジュール321〜325を活用して認識および分析してよく、受信した音声入力に応じて適切な返答音声を合成して提供したり、適切な動作を薦めたりしてよい。
また、拡張キット350は、第三者コンテンツ開発者または会社がクラウド人工知能プラットフォーム320に基づいて新たな音声基盤機能を実現することのできる開発キットを提供してよい。例えば、図2の実施形態において、電子機器100は、受信したユーザ110の音声入力を外部サーバ210に送信してよく、外部サーバ210は、拡張キット350が提供するAPIを通じてクラウド人工知能プラットフォーム320に音声入力を送信してよい。この場合、上述と同じように、クラウド人工知能プラットフォーム320は、受信した音声入力を認識および分析し、適切な返答音声を合成して提供するか、音声入力に応じて処理すべき機能に対する推薦情報を外部サーバ210に提供してよい。一例として、図2において、外部サーバ210が、音声入力「今日の天気」をクラウド人工知能プラットフォーム320に送信すると、クラウド人工知能プラットフォーム320から、音声入力「今日の天気」の認識に基づいて抽出されたキーワード「今日の」および「天気」を受信したとする。この場合、外部サーバ210は、キーワード「今日の」および「天気」に基づいて「今日の天気は…」のようなテキスト情報を生成し、再びクラウド人工知能プラットフォーム320に生成されたテキスト情報を送信してよい。このとき、クラウド人工知能プラットフォーム320は、テキスト情報の音声を合成して、合成された音声を外部サーバ210に提供してよい。外部サーバ210は、合成された音声を電子機器100に送信してよく、電子機器100は、合成された音声「今日の天気は…」をスピーカから出力することにより、ユーザ110から受信した音声入力「今日の天気」が処理されるようになる。
このとき、電子機器100は、このような外部サーバ210から提供されたオーディオ基盤のコンテンツをユーザに提供するために、本発明の実施形態に係るマルチモーダルインタラクション方法を実行してよい。
図4は、本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。図4の電子機器410は、上述した電子機器100に対応してよく、サーバ420は、上述した外部サーバ210やクラウド人工知能プラットフォーム320を実現する1つのコンピュータ装置に対応してよい。
電子機器410とサーバ420はそれぞれ、メモリ411、421、プロセッサ412、422、通信モジュール413、423、および入力/出力インタフェース414、424を含んでよい。メモリ411、421は、コンピュータ読取可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永久大容量記憶装置(permanent mass storage device)を含んでよい。ここで、ROMやディスクドライブのような永久大容量記憶装置は、メモリ411、421とは区分される別の永久記憶装置として電子機器410やサーバ420に含まれてもよい。また、メモリ411、421には、オペレーティングシステムと、少なくとも1つのプログラムコード(一例として、電子機器410にインストールされて特定のサービスの提供のために電子機器410で駆動されるアプリケーションなどのためのコード)が格納されてよい。このようなソフトウェア構成要素は、メモリ411、421とは別のコンピュータ読取可能な記録媒体からロードされてよい。このような別のコンピュータ読取可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD−ROMドライブ、メモリカードなどのコンピュータ読取可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読取可能な記録媒体ではない通信モジュール413、423を通じてメモリ411、421にロードされてもよい。例えば、少なくとも1つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システムがネットワーク430を介して提供するファイルによってインストールされるプログラム(一例として、上述したアプリケーション)に基づいて電子機器410のメモリ411にロードされてよい。
プロセッサ412、422は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ411、421または通信モジュール413、423によって、プロセッサ412、422に提供されてよい。例えば、プロセッサ412、422は、メモリ411、421のような記憶装置に格納されたプログラムコードに従って受信される命令を実行するように構成されてよい。
通信モジュール413、423は、ネットワーク430を介して電子機器410とサーバ420とが互いに通信するための機能を提供してもよく、電子機器410および/またはサーバ420が他の電子機器または他のサーバと通信するための機能を提供してもよい。一例として、電子機器410のプロセッサ412がメモリ411のような記憶装置に格納されたプログラムコードに従って生成した要求が、通信モジュール413の制御に従ってネットワーク430を介してサーバ420に伝達されてよい。これとは逆に、サーバ420のプロセッサ422の制御に従って提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール423およびネットワーク430を経て、電子機器410の通信モジュール413を通じて電子機器410で受信されてもよい。例えば、通信モジュール413を通じて受信したサーバ420の制御信号や命令、コンテンツ、ファイルなどは、プロセッサ412やメモリ411に伝達されてよく、コンテンツやファイルなどは、電子機器410がさらに含むことのできる記録媒体(上述した永久記憶装置)に格納されてよい。
入力/出力インタフェース414は、入力/出力装置415とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボードまたはマウスなどの装置を含んでよく、出力装置は、ディスプレイ、スピーカのような装置を含んでよい。他の例として、入力/出力インタフェース414は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置415は、電子機器410と1つの装置で構成されてもよい。また、サーバ420の入力/出力インタフェース424は、サーバ420と連結されてもよく、サーバ420が含むことのできる入力または出力のための装置(図示せず)とのインタフェースのための手段であってもよい。
また、他の実施形態において、電子機器410およびサーバ420は、図4の構成要素よりもさらに少ないかさらに多くの構成要素を含んでもよい。しかし、大部分の従来技術の構成要素を明確に図示する必要はない。例えば、電子機器410は、上述した入力/出力装置415のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、GPS(Global Positioning System)モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、電子機器410がスマートフォンの場合、一般的にスマートフォンに含まれている加速度センサやジャイロセンサ、カメラモジュール、物理的な各種ボタン、タッチパネルを利用したボタン、入力/出力ポート、振動のための振動器などのような多様な構成要素が電子機器410にさらに含まれるように実現されてよい。
本実施形態において、電子機器410は、ユーザの音声入力を受信するためのマイクを入力/出力装置415として基本的に含んでよく、ユーザの音声入力に対応する返答音声やオーディオコンテンツのような音を出力するためのスピーカを入力/出力装置415としてさらに含んでよい。
このとき、電子機器410は、ユーザの音声入力の入力音量に従って、音声入力に対応して出力される音の出力音量を調節してよい。このとき、出力音量は、入力音量に比例してよい。例えば、ユーザが電子機器410を呼ぶ声が大きいほど、ユーザ命令に対応して出力される音の出力音量が相対的に大きくなるように調節されてよい。これとは逆に、ユーザが電子機器410を呼ぶ声が小さいほど、ユーザ命令に対応して出力される音の出力音量が相対的に小さくなるように調節されてよい。具体的な例として、出力される音の出力音量は、音声入力の入力音量と同じように調節されてよい。例えば、ユーザが小さい声やささやくような声で電子機器410を呼ぶと、電子機器410も小さな音声やささやくような音声でユーザに応答してよい。
図5および図6は、本発明の一実施形態における、発話者の発話と関連する位置情報の例を説明するための図である。図5および図6は、オーディオ基盤のゲームコンテンツを、音声基盤のインタフェースを含む電子機器410を通じて提供する例を示している。図5は、電子機器410がゲームコンテンツの進行のためのオーディオ情報として、第1吹き出し510に示すように「右側から矢が飛んできます。」を出力した例を示している。このとき、図5および図6では、ユーザ110が図5の第2吹き出し520および図6の第3吹き出し610に示すように「回避」と発話しながら第1位置620から第2位置630に移動した例を示している。この場合、電子機器410は、ユーザ110の発話によって入力された音声入力「回避」と、ユーザ110の位置情報(ユーザ110が音声入力「回避」を発話しながら第1位置620から第2位置630に移動した情報)を利用してゲームコンテンツの進行と関連する動作を決定してよい。例えば、電子機器410は、受信した音声入力とユーザ110の位置情報に基づき、ゲームコンテンツ上の仮想のキャラクタが、回避動作として第1位置620から第2位置630までの距離を移動したと決定してよく、これによってゲームコンテンツ上で矢を回避するかどうかを決定してよい。また、図6では、電子機器410が、ユーザ110に対応するゲームコンテンツ上の仮想のキャラクタが矢を回避したと決定されることにより、第4吹き出し640に示すように、決定された動作による結果として、合成された音声「矢を回避しました。」を出力する例を示している。
このように、本発明の実施形態では、オーディオ基盤のコンテンツに対しても、単に音声入力に含まれる命令語だけでコンテンツを進行するのではなく、音声入力と関連する発話者の位置情報をさらに活用することにより、発話者に多様なインタラクションの経験とコンテンツへの高い没入度を提供することができる。特に、視覚的に提供される既存のコンテンツでは、ユーザの位置移動と方向転換などがディスプレイで見ることのできる領域に限定されていたことに比べて、本発明の実施形態に係る発話者は、視覚的情報ではなく聴覚的情報を活用することにより、位置移動と方向転換において相対的に極めて高い自由度を有するようになることが分かる。
図7は、本発明の一実施形態における、電子機器が実行することのできるマルチモーダルインタラクション方法の例を示したフローチャートである。本発明の実施形態に係るマルチモーダルインタラクションシステムは、上述した電子機器410のようなコンピュータ装置の形態で実現されてよい。このような電子機器410は、図7のマルチモーダルインタラクション方法に含まれる段階710〜段階740を実行してよい。このとき、プロセッサ412は、メモリ411に含まれるオペレーティングシステムのコードや少なくとも1つのプログラムのコードによる制御命令(instruction)を実行するように実現されてよい。ここで、プロセッサ412は、電子機器410に格納されたコードが提供する制御命令に従って電子機器410が図7の段階710〜段階740を実行するように電子機器410を制御してよい。
段階710において、電子機器410は、音声基盤のインタフェースを通じてコンテンツの進行のためのオーディオ情報を出力してよい。音声基盤のインタフェースは、基本的に、合成された音声情報を出力するための出力モジュールと、発話者の発話が入力されるための入力モジュールを含んでよく、コンテンツは、基本的に、このような音声基盤のインタフェースによる発話者とのインタラクションによって進行されてよい。
段階720において、電子機器410は、音声基盤のインタフェースを通じて出力されたオーディオ情報と関連する発話者の音声入力を受信してよい。発話者の音声入力を受信する技術は、音声認識と関連する周知の技術であるため、当業者であれば容易に理解することができるであろう。
段階730において、電子機器410は、発話者の音声入力と関連する位置情報を生成してよい。ここで、音声入力と関連する位置情報は、音声入力の受信に関連する時点または期間に測定された、電子機器410に対する発話者の相対的な位置や方向、相対的な位置や方向の変化の有無、相対的な位置や方向の変化の程度、および相対的な位置や方向の変化の方向のうちの少なくとも1つを含んでよい。
例えば、電子機器410は、音声基盤のインタフェースに含まれる複数のマイクに入力された音声入力の位相シフト(phase shift)に基づいて音声入力と関連する位置情報を生成してよい。複数のマイクに入力された同じ音信号の位相シフトを利用して音信号の発生位置を測定する技術は、ビームフォーミング(beam forming)技術のように周知の技術であるため、当業者であれば容易に理解することができるであろう。この場合、位置情報が発話者の音声入力によって測定されるため、発話者が特定の方向を向く必要がなく、発話者の発話を認識可能な距離以内であれば、発話者の位置が制限されることもない。また、音声基盤のインタフェース以外の装置が電子機器410に追加されなくても、発話者の位置情報を取得することが可能となる。
実施形態によっては、発話者の位置情報を取得するために電子機器410がカメラやセンサのような追加装備を含む場合も考慮されるが、音声基盤のインタフェースを通じて測定される発話者の位置情報と、カメラやセンサのような追加装備を利用して測定される発話者の位置情報とがすべて活用されてもよい。カメラおよび/またはセンサを活用する場合、電子機器410は、音声入力が受信される場合のカメラおよび/またはセンサの出力値に基づいて音声入力と関連する位置情報を生成してよい。
段階740において、電子機器410は、音声入力および音声入力と関連する位置情報を利用してコンテンツの進行と関連する動作を決定してよい。コンテンツの進行と関連する動作がコンテンツによって多様な形態で設定されてもよいことは、当業者であれば容易に理解することができるであろう。例えば、決定される動作は、電子機器410自体の動作、電子機器410と連動する周辺機器の動作、電子機器410とネットワークを介して連動して電子機器410を通じてコンテンツを提供する外部サーバ(一例として、図2の外部サーバ210)の動作、コンテンツの進行と関連して発話者に要求するための動作、コンテンツ上の仮想キャラクタや仮想オブジェクトの動作などのようなコンテンツの種類や特性、コンテンツの進行状況などによって活用可能なすべての動作のうちの1つが活用されてよい。このような動作の例として、図5および図6では、ゲームコンテンツ上の仮想のキャラクタに放たれた矢の回避と関連する動作が決定された例について説明した。他の例として、出力されるオーディオ情報「ボリュームを調節しますか?」に応答して発生する発話者の音声入力「ボリューム」および音声入力と関連する発話者の左側または右側への移動に関する位置情報に基づき、電子機器410の出力音量を減少または増加させるように調節するための動作が決定されてもよい。また他の例として、オーディオ情報は、発話者に発話および発話者の位置の変更を要求する情報を含んでよい。この場合、電子機器410は、段階740において受信した音声入力および受信した音声入力と関連する位置情報が、要求された情報に対応して予め設定された条件を満たしているかどうかによってコンテンツの進行と関連する動作を決定してよい。より具体的な例として、電子機器410が「左に3歩移動してください。」というオーディオ情報を出力し、発話者の音声入力と関連する位置情報に基づいて、発話者が実際に左に3歩移動したかどうかにより、コンテンツの進行と関連する動作を決定してよい。
動作が決定されると、決定された動作の実行のための過程が実行されてよい。例えば、電子機器410自体の動作が決定された場合、電子機器410は、決定された動作を実行してよい。他の例として、発話者に要求するための動作が決定された場合、電子機器410は、決定された動作を発話者に要求するための音声を合成して音声基盤インタフェースを通じて出力してよい。また他の例として、コンテンツ上の仮想キャラクタや仮想オブジェクトの動作を電子機器410が直接制御するか外部サーバからコンテンツを提供する場合、仮想キャラクタや仮想オブジェクトの動作を制御するための情報を外部サーバに送信し、外部サーバが仮想キャラクタや仮想オブジェクトの動作を制御するようにしてもよい。
他の実施形態において、音声基盤のインタフェースを通じてコンテンツを提供する電子機器410と発話者とのインタラクションは、より多様な方式で進行されてよい。例えば、音声入力で認識された命令語だけではなく、音声入力に対応する音のトーン(tone)および/またはピッチ(pitch)のような情報や、電子機器410と連動する周辺機器から取得される値などが、コンテンツの進行と関連する動作を決定するためにさらに活用されてよい。
一例として、電子機器410は、図7の段階740で、音声入力に対応する音のトーン、音のピッチ、および音声入力を分析して抽出される命令語のうちの少なくとも1つと、音声入力に関連する位置情報とを併せてコンテンツの進行と関連する動作を決定してよい。より具体的な例として、仮想の物体を投げて仮想の目標物にぶつけるゲームコンテンツにおいて、音声入力から抽出される命令語は仮想の物体を投げる開始時点を知らせるため、発話者の移動距離は物体を投げる力を決定するため、音声入力に対応する音のトーンまたは音のピッチは物体を投げる角度を決定するためにそれぞれ活用されてよい。
他の例として、電子機器410は、電子機器410と連動する周辺機器から取得される値をさらに利用してコンテンツの進行と関連する動作を決定してもよい。
図8は、本発明の一実施形態における、周辺機器のセンサで測定された出力値を活用するマルチモーダルインタラクション方法の例を示したフローチャートである。図8の段階810および段階820は、図7の段階740の代わりに実行されてよい。
段階810において、電子機器410は、連動する周辺機器のセンサで音声入力と関連して測定された測定値を、周辺機器から受信してよい。ここで、音声入力と関連して測定された測定値は、音声入力の受信と関連する時点または期間に周辺機器のセンサで測定された測定値を含んでよい。具体的な例として、電子機器410は、発話者が所持しているか着用しているスマートフォン、スマートウォッチ、スマートバンドなどのような周辺機器と連動してよく、発話者の発話によって電子機器410が音声入力を受信した時点や音声入力が受信された期間内に周辺機器のセンサが測定した測定値を含んでよい。
段階820において、電子機器410は、音声入力、該音声入力と関連する位置情報および受信した測定値を利用してコンテンツの進行と関連する動作を決定してよい。例えば、発話者が発話をしながらスマートフォンを持っている手を上に挙げた場合、手の動きに従って、スマートフォンに含まれている加速度センサやジャイロスコープセンサなどの出力値に基づいて発話者の手の動きが測定されたとする。この場合、電子機器410は、受信した測定値に基づいてこのような発話者の手の動きを測定し、このような測定された手の動きをさらに利用してコンテンツの進行と関連する動作を決定してよい。より具体的な例として、発話者が発話時に単に移動する場合と、発話者が発話時に上に挙げた手を振りながら移動する場合では、コンテンツの進行と関連して、それぞれ互いに異なる動作が決定されてよい。他の例として、音声入力と関連して測定される発話者の脈拍が、コンテンツの進行と関連する動作を決定するのに活用されてもよい。また、このような測定値は、複数の発話者が存在する場合、特定の発話者(一例として、クイズコンテンツにおいて、回答しようとした複数の発話者のうちで最初に挙手した発話者)を選定するために活用されてもよい。
実施形態によっては、発話者の位置情報を活用せずに、音声入力から抽出される命令語、音声入力に対応する音のトーン、音のピッチ、および周辺機器のセンサで測定された測定値のうちの少なくとも2つ以上を利用してコンテンツの進行と関連する動作が決定されてもよい。例えば、バスケットボールゲームにおいて、「シュート」という音声入力から抽出される「シュート」という命令語によってボールを投げる動作が決定され、「シュート」という音のトーンによってボールを投げる角度が決定され、「シュート」という音のピッチによってボールを投げる力が決定されてよい。このように、音声基盤インタフェースにおいて、音声入力から抽出される命令語だけではなく他の多様な情報を利用することにより、コンテンツと発話者とのマルチモーダルインタラクションが提供されることができる。
図9は、本発明の一実施形態における、周辺機器のセンサで測定された出力値を活用するマルチモーダルインタラクション方法の他の例を示したフローチャートである。図9の段階910および段階920は、図7の段階710〜段階740の以前または以後に実行されてもよいし、図7の段階710〜段階740の間に実行されてもよい。
段階910において、電子機器410は、連動する周辺機器のセンサにより音声入力とは関係なく測定された測定値を、周辺機器から受信してよい。例えば、測定値は、ユーザの脈拍、一定の期間内の移動量、前日の睡眠時間などのように、センサによって特定することのできる多様な値が活用されてよい。
段階920において、電子機器410は、受信した測定値に基づいてコンテンツの進行と関連する設定を変更してよい。例えば、ゲームコンテンツにおいて、発話者の前日の睡眠時間や前日の移動量に基づき、当日の仮想のキャラクタの体力や力のような能力値が調節されてよい。または、発話者の累積された移動量に応じて仮想キャラクタの能力値が継続して増加するように設定が変更されてもよい。このように、測定値の種類やコンテンツの進行と関連する設定の種類がコンテンツの特性や種類に応じて多様に活用されてもよいことは、当業者であれば容易に理解することができるであろう。
図10は、本発明の一実施形態における、外部サーバを通じてコンテンツを提供する場合のマルチモーダルインタラクション方法の例を示したフローチャートである。図10の段階1010〜段階1030は、図7の段階740に含まれて実行されてよい。
段階1010において、電子機器410は、音声入力および音声入力と関連する位置情報を、ネットワークを介して外部サーバに送信してよい。ここで、外部サーバは、図2を参照しながら説明した外部サーバ210に対応してよく、ネットワークを介して電子機器410と通信しながらコンテンツを提供する装置であってよい。
段階1020において、電子機器410は、外部サーバによって音声入力および音声入力と関連する位置情報に基づいて生成される動作情報を、ネットワークを介して外部サーバから受信してよい。電子機器410は、音声入力および位置情報を直接分析するのではなく、このような情報を外部サーバに送信し、外部サーバから送信された情報に基づいて動作情報を生成した後、その結果を受信してよい。
段階1030において、電子機器410は、受信した動作情報に基づいてコンテンツの進行と関連する動作を決定してよい。実質的に、段階1030は、外部サーバでコンテンツの進行と関連する動作を決定し、これに関する情報を受信し、決定された動作を確認する過程であってよい。
以上のように、本発明の実施形態によると、ネットワークに連結し、音声を基盤として動作する電子機器によるインタラクションにおいて、発話者から受信した音声入力から取得される命令語だけではなく、音声入力と関連する発話者の位置情報(一例として、音声入力の受信に関連する時点または期間に測定された、電子機器に対する発話者の相対的な位置や方向、相対的な位置や方向の変化の有無、相対的な位置や方向の変化の程度、および相対的な位置や方向の変化の方向のうちの少なくとも1つ)をさらに活用することにより、音声基盤のインタフェースを通じて、より多様なユーザ経験を提供することができる。また、音声入力から取得される音のトーンやピッチ、電子機器と連動する周辺機器(一例として、ユーザが所持しているスマートフォン、スマートウォッチ、スマートバンドなど)から取得される値(発話者の明示的な情報として手の位置、発話者の非明示的な情報として脈拍、1日の移動量、前日の睡眠時間など)などを統合的に活用して電子機器に命令を伝達したり、コンテンツおよび/またはサービスの素材として活用したりすることができる。
上述したシステムまたは装置は、ハードウェア構成要素、ソフトウェア構成要素、またはハードウェア構成要素とソフトウェア構成要素との組合せによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、演算論理装置(ALU:arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、フィールドプログラマブルゲートアレイ(FPGA:field programmable gate array)、プログラマブル論理装置(PLU:programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことを理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサと1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組合せを含んでもよく、所望のとおりに動作するよう処理装置を構成してもよく、独立的または集合的に処理装置に命令してもよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置、コンピュータ格納媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読取可能な記録媒体に格納されてよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読取可能な媒体に記憶されてよい。コンピュータ読取可能な媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含んでよい。媒体は、コンピュータ実行可能なプログラムを継続して格納するものであってもよいし、実行またはダウンロードのために一時的に格納するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよいが、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD−ROM、DVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が格納されるように構成されたものであってよい。また、他の媒体の例として、アプリケーションを流通するアプリストアや他の多様なソフトウェアを供給あるいは流通するサイト、サーバなどで管理する記録媒体あるいは格納媒体が挙げられてもよい。プログラム命令の例には、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。
以上のように、実施形態を、限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって代替されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
100:電子機器
110:ユーザ
210:外部サーバ

Claims (17)

  1. マルチモーダルインタラクションシステムのマルチモーダルインタラクション方法であって、
    電子機器に含まれる音声基盤のインタフェースを通じてコンテンツの進行のためのオーディオ情報を出力する段階、
    前記音声基盤のインタフェースを通じて前記出力されたオーディオ情報と関連する発話者の音声入力を受信する段階、
    前記発話者の前記音声入力と関連する位置情報を生成する段階、および
    前記音声入力および前記音声入力と関連する位置情報を利用して前記コンテンツの進行と関連する動作を決定する段階
    を含み、前記オーディオ情報は、前記発話者の位置の変更を要求する情報を含み、
    前記コンテンツの進行と関連する動作を決定する段階は、
    前記音声入力および前記音声入力と関連する位置情報が前記要求された情報に対応する条件を満たしているかどうかによって前記コンテンツの進行と関連する動作を決定することを特徴とする、マルチモーダルインタラクション方法。
  2. 前記音声入力と関連する位置情報は、前記音声入力の受信に関連する時点または期間に測定された、前記電子機器に対する前記発話者の相対的な位置や方向、前記相対的な位置や方向の変化の有無、前記相対的な位置や方向の変化の程度、および前記相対的な位置や方向の変化の方向のうちの少なくとも1つを含むことを特徴とする、請求項1に記載のマルチモーダルインタラクション方法。
  3. 前記位置情報を生成する段階は、
    前記音声基盤のインタフェースに含まれる複数のマイクに入力された前記音声入力の位相シフトに基づいて前記音声入力と関連する位置情報を生成することを特徴とする、請求項1に記載のマルチモーダルインタラクション方法。
  4. 前記電子機器は、カメラおよびセンサのうちの少なくとも1つを含み、
    前記位置情報を生成する段階は、
    前記音声入力が受信された場合の前記カメラおよびセンサのうちの少なくとも1つの出力値に基づいて、前記音声入力と関連する位置情報を生成することを特徴とする、請求項1に記載のマルチモーダルインタラクション方法。
  5. 前記コンテンツの進行と関連する動作を決定する段階は、
    前記音声入力に対応する音のトーン、音のピッチ、および前記音声入力を分析して抽出される命令語のうちの少なくとも1つと、前記音声入力に関連する位置情報とを併せて前記コンテンツの進行と関連する動作を決定することを特徴とする、請求項1に記載のマルチモーダルインタラクション方法。
  6. 前記電子機器と連動する周辺機器のセンサにより前記音声入力と関連して測定された測定値を、前記周辺機器から受信する段階
    をさらに含み、
    前記コンテンツの進行と関連する動作を決定する段階は、
    前記受信した測定値をさらに利用して前記コンテンツの進行と関連する動作を決定することを特徴とする、請求項1に記載のマルチモーダルインタラクション方法。
  7. 前記電子機器と連動する周辺機器のセンサにより前記音声入力とは関係なく測定された測定値を、前記周辺機器から受信する段階、および
    前記受信した測定値に基づいて前記コンテンツの進行と関連する設定を変更する段階
    をさらに含むことを特徴とする、請求項1に記載のマルチモーダルインタラクション方法。
  8. 前記コンテンツは、前記電子機器とネットワークを介して通信する外部サーバから提供され、
    前記コンテンツの進行と関連する動作を決定する段階は、
    前記音声入力および前記音声入力と関連する位置情報を、ネットワークを介して前記外部サーバに送信する段階、
    前記外部サーバにより前記音声入力および前記音声入力と関連する位置情報に基づいて生成される動作情報を、ネットワークを介して前記外部サーバから受信する段階、および
    前記受信した動作情報に基づいて前記コンテンツの進行と関連する動作を決定する段階
    を含むことを特徴とする、請求項1に記載のマルチモーダルインタラクション方法。
  9. 請求項1乃至のいずれか一項に記載の方法をコンピュータに実行させるためのコンピュータプログラム。
  10. 請求項1乃至のいずれか一項に記載の方法をコンピュータに実行させるためのプログラムが記録される、コンピュータ読取可能な記録媒体。
  11. マルチモーダルインタラクションシステムであって、
    音声基盤のインタフェース部、および
    コンピュータ読取可能な命令を実行するように実現される少なくとも1つのプロセッサ
    を含み、
    前記少なくとも1つのプロセッサは、
    前記音声基盤のインタフェース部を通じてコンテンツの進行のためのオーディオ情報を出力し、
    前記音声基盤のインタフェース部を通じて前記出力されたオーディオ情報と関連する発話者の音声入力を受信し、
    前記発話者の前記音声入力と関連する位置情報を生成し、
    前記音声入力および前記音声入力と関連する位置情報を利用して前記コンテンツの進行と関連する動作を決定し、
    前記オーディオ情報は、前記発話者に発話および前記発話者の位置の変更を要求する情報を含み、
    前記少なくとも1つのプロセッサは、前記音声入力および前記音声入力と関連する位置情報が前記要求された情報に対応する条件を満たしているかどうかによって前記コンテンツの進行と関連する動作を決定すること
    を特徴とする、マルチモーダルインタラクションシステム。
  12. 前記少なくとも1つのプロセッサは、
    前記音声基盤のインタフェース部に含まれる複数のマイクに入力された前記音声入力の位相シフトに基づいて、前記音声入力と関連する位置情報を生成すること
    を特徴とする、請求項11に記載のマルチモーダルインタラクションシステム。
  13. カメラおよびセンサのうちの少なくとも1つをさらに含み、
    前記少なくとも1つのプロセッサは、
    前記音声入力が受信された場合の前記カメラおよびセンサのうちの少なくとも1つの出力値に基づいて前記音声入力と関連する位置情報を生成すること
    を特徴とする、請求項11に記載のマルチモーダルインタラクションシステム。
  14. 前記少なくとも1つのプロセッサは、
    前記音声入力に対応する音のトーン、音のピッチ、および前記音声入力を分析して抽出される命令語のうちの少なくとも1つと、前記音声入力に関連する位置情報とを併せて前記コンテンツの進行と関連する動作を決定すること
    を特徴とする、請求項11に記載のマルチモーダルインタラクションシステム。
  15. 前記少なくとも1つのプロセッサは、
    前記マルチモーダルインタラクションシステムと連動する周辺機器のセンサにより前記音声入力と関連して測定された測定値を前記周辺機器から受信し、
    前記コンテンツの進行と関連した動作を決定するために、前記受信した測定値をさらに利用して前記コンテンツの進行と関連する動作を決定すること
    を特徴とする、請求項11に記載のマルチモーダルインタラクションシステム。
  16. 前記少なくとも1つのプロセッサは、
    前記マルチモーダルインタラクションシステムと連動する周辺機器のセンサにより前記音声入力とは関係なく測定された測定値を、前記周辺機器から受信し、
    前記受信した測定値に基づいて前記コンテンツの進行と関連する設定を変更すること
    を特徴とする、請求項11に記載のマルチモーダルインタラクションシステム。
  17. 前記コンテンツは、ネットワークを介して通信する外部サーバから提供され、
    前記少なくとも1つのプロセッサは、前記コンテンツの進行と関連する動作を決定するために、
    前記音声入力および前記音声入力と関連する位置情報を、ネットワークを介して前記外部サーバに送信し、
    前記外部サーバにより前記音声入力および前記音声入力と関連する位置情報に基づいて生成される動作情報を、ネットワークを介して前記外部サーバから受信し、
    前記受信した動作情報に基づいて前記コンテンツの進行と関連する動作を決定すること
    を特徴とする、請求項11に記載のマルチモーダルインタラクションシステム。
JP2018076699A 2017-04-14 2018-04-12 ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム Active JP6573696B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170048304A KR101924852B1 (ko) 2017-04-14 2017-04-14 네트워크에 연결된 음향기기와의 멀티모달 인터렉션 방법 및 시스템
KR10-2017-0048304 2017-04-14

Publications (2)

Publication Number Publication Date
JP2018180542A JP2018180542A (ja) 2018-11-15
JP6573696B2 true JP6573696B2 (ja) 2019-09-11

Family

ID=63793266

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018076699A Active JP6573696B2 (ja) 2017-04-14 2018-04-12 ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム

Country Status (4)

Country Link
US (1) US11004452B2 (ja)
JP (1) JP6573696B2 (ja)
KR (1) KR101924852B1 (ja)
WO (1) WO2018190507A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101924852B1 (ko) * 2017-04-14 2018-12-04 네이버 주식회사 네트워크에 연결된 음향기기와의 멀티모달 인터렉션 방법 및 시스템
CN108600911B (zh) * 2018-03-30 2021-05-18 联想(北京)有限公司 一种输出方法及电子设备
US20200209934A1 (en) * 2018-12-28 2020-07-02 Dongguan Evn Electronics Co., Ltd. Internet-of-things-based computer on/off control expansion device and computer on/off control system
KR20210116897A (ko) 2020-03-18 2021-09-28 삼성전자주식회사 외부 장치의 음성 기반 제어를 위한 방법 및 그 전자 장치
CN112162628A (zh) * 2020-09-01 2021-01-01 魔珐(上海)信息科技有限公司 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端
CN115220631A (zh) * 2022-07-19 2022-10-21 东软睿驰汽车技术(大连)有限公司 基于车内交互模式的应用控制方法、装置和电子设备

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5699089A (en) * 1994-03-03 1997-12-16 Applied Voice Technology Central control for sequential-playback objects
US7516190B2 (en) * 2000-02-04 2009-04-07 Parus Holdings, Inc. Personal voice-based information retrieval system
US7640006B2 (en) * 2001-10-03 2009-12-29 Accenture Global Services Gmbh Directory assistance with multi-modal messaging
US7233655B2 (en) * 2001-10-03 2007-06-19 Accenture Global Services Gmbh Multi-modal callback
US7254384B2 (en) * 2001-10-03 2007-08-07 Accenture Global Services Gmbh Multi-modal messaging
US20060168095A1 (en) * 2002-01-22 2006-07-27 Dipanshu Sharma Multi-modal information delivery system
US7286651B1 (en) * 2002-02-12 2007-10-23 Sprint Spectrum L.P. Method and system for multi-modal interaction
US7693720B2 (en) * 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
JP2005122128A (ja) * 2003-09-25 2005-05-12 Fuji Photo Film Co Ltd 音声認識システム及びプログラム
JP2005250917A (ja) * 2004-03-05 2005-09-15 Ikeno Tsuken Kk 音声認識型音声案内装置
US10032452B1 (en) * 2016-12-30 2018-07-24 Google Llc Multimodal transmission of packetized data
JP2006243555A (ja) * 2005-03-04 2006-09-14 Nec Corp 対応決定システム、ロボット、イベント出力サーバ、および対応決定方法
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7676371B2 (en) * 2006-06-13 2010-03-09 Nuance Communications, Inc. Oral modification of an ASR lexicon of an ASR engine
US8145493B2 (en) * 2006-09-11 2012-03-27 Nuance Communications, Inc. Establishing a preferred mode of interaction between a user and a multimodal application
US7827033B2 (en) * 2006-12-06 2010-11-02 Nuance Communications, Inc. Enabling grammars in web page frames
US8938392B2 (en) * 2007-02-27 2015-01-20 Nuance Communications, Inc. Configuring a speech engine for a multimodal application based on location
US8670987B2 (en) * 2007-03-20 2014-03-11 Nuance Communications, Inc. Automatic speech recognition with dynamic grammar rules
US8862475B2 (en) * 2007-04-12 2014-10-14 Nuance Communications, Inc. Speech-enabled content navigation and control of a distributed multimodal browser
KR20090084212A (ko) * 2008-01-31 2009-08-05 포항공과대학교 산학협력단 멀티모달 대화 인터페이스를 이용하는 홈 네트워크 제어시스템 및 그 방법
US8589161B2 (en) * 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
WO2010019713A1 (en) * 2008-08-12 2010-02-18 Ditech Networks, Inc. Voice activated application service architecture and delivery
US8326637B2 (en) * 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
WO2010104825A1 (en) * 2009-03-09 2010-09-16 Telcordia Technologies, Inc. Delivering media as compensation for cognitive deficits using labeled objects in surroundings
KR101289081B1 (ko) * 2009-09-10 2013-07-22 한국전자통신연구원 음성 인터페이스를 이용한 iptv 시스템 및 서비스 방법
US20110165917A1 (en) * 2009-12-31 2011-07-07 Mary Elizabeth Taylor Methods and arrangements employing sensor-equipped smart phones
US8381108B2 (en) * 2010-06-21 2013-02-19 Microsoft Corporation Natural user input for driving interactive stories
KR101387928B1 (ko) 2010-06-24 2014-04-22 에스케이플래닛 주식회사 홈 미디어 디바이스 및 이를 이용한 홈 네트워크 시스템, 방법
JP6435257B2 (ja) * 2012-03-29 2018-12-05 ザ ユニバーシティ オブ クィーンズランド 患者音を処理するための方法および装置
US10491458B2 (en) * 2013-01-31 2019-11-26 Dell Products L.P. System and method for reporting peer-to-peer transfer events
JP6433903B2 (ja) * 2013-08-29 2018-12-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識方法及び音声認識装置
JP5629364B2 (ja) * 2013-10-29 2014-11-19 株式会社コナミデジタルエンタテインメント ゲーム装置、ゲーム装置の制御方法、及びプログラム
JP2015153324A (ja) * 2014-02-18 2015-08-24 株式会社Nttドコモ 情報検索装置、情報検索方法及び情報検索プログラム
KR20150136312A (ko) * 2014-05-27 2015-12-07 삼성전자주식회사 디스플레이 장치 및 이의 정보 제공 방법
WO2016068262A1 (ja) * 2014-10-29 2016-05-06 京セラ株式会社 コミュニケーションロボット
KR101733230B1 (ko) 2015-05-21 2017-05-08 네이버 주식회사 컨텐츠 공유 서비스 제공 방법, 표시 제어 방법 및 컴퓨터 프로그램
US20160379638A1 (en) * 2015-06-26 2016-12-29 Amazon Technologies, Inc. Input speech quality matching
US9484030B1 (en) * 2015-12-02 2016-11-01 Amazon Technologies, Inc. Audio triggered commands
US9858927B2 (en) * 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
US9898250B1 (en) * 2016-02-12 2018-02-20 Amazon Technologies, Inc. Controlling distributed audio outputs to enable voice output
US10261752B2 (en) * 2016-08-02 2019-04-16 Google Llc Component libraries for voice interaction services
US20180039478A1 (en) * 2016-08-02 2018-02-08 Google Inc. Voice interaction services
US10140973B1 (en) * 2016-09-15 2018-11-27 Amazon Technologies, Inc. Text-to-speech processing using previously speech processed data
US10170116B1 (en) * 2016-09-21 2019-01-01 Amazon Technologies, Inc. Maintaining context for voice processes
US9972318B1 (en) * 2016-09-21 2018-05-15 Amazon Technologies, Inc. Interpreting voice commands
US10032451B1 (en) * 2016-12-20 2018-07-24 Amazon Technologies, Inc. User recognition for speech processing systems
US10276149B1 (en) * 2016-12-21 2019-04-30 Amazon Technologies, Inc. Dynamic text-to-speech output
KR101924852B1 (ko) * 2017-04-14 2018-12-04 네이버 주식회사 네트워크에 연결된 음향기기와의 멀티모달 인터렉션 방법 및 시스템
US10600408B1 (en) * 2018-03-23 2020-03-24 Amazon Technologies, Inc. Content output management based on speech quality

Also Published As

Publication number Publication date
KR101924852B1 (ko) 2018-12-04
US11004452B2 (en) 2021-05-11
US20200043491A1 (en) 2020-02-06
WO2018190507A1 (ko) 2018-10-18
JP2018180542A (ja) 2018-11-15
KR20180115880A (ko) 2018-10-24

Similar Documents

Publication Publication Date Title
JP6573696B2 (ja) ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム
KR102025391B1 (ko) 사용자의 발화 위치에 따른 디바이스 제어
JP6567727B2 (ja) 受信した音声入力の入力音量に基づいて出力される音の出力音量を調節するユーザ命令処理方法およびシステム
KR101949497B1 (ko) 사용자 발화의 표현법을 파악하여 기기의 동작이나 컨텐츠 제공 범위를 조정하여 제공하는 사용자 명령 처리 방법 및 시스템
JP6752870B2 (ja) 複数のウェイクワードを利用して人工知能機器を制御する方法およびシステム
KR102513297B1 (ko) 전자 장치 및 전자 장치의 기능 실행 방법
KR102209092B1 (ko) 복수의 호출 용어를 이용하여 인공지능 기기를 제어하는 방법 및 시스템
JP6607999B2 (ja) 音声要請に対応する情報提供のためのメディア選択
JP6947687B2 (ja) 情報提供方法、電子機器、コンピュータプログラム及び記録媒体
JP6681940B2 (ja) ユーザの位置及び空間に適した情報を能動的に提供する方法及び装置
JP6619488B2 (ja) 人工知能機器における連続会話機能
JP2019012506A (ja) 機械の自動活性のための方法及びシステム
US20210295835A1 (en) Method for controlling external device based on voice and electronic device thereof
KR101989127B1 (ko) 번역 장치, 번역 방법 및 번역 컴퓨터 프로그램
KR102161554B1 (ko) 이어셋을 이용한 통역기능 제공 방법 및 장치
US11743588B1 (en) Object selection in computer vision
KR102255844B1 (ko) 사용자의 위치 및 공간에 알맞은 정보를 능동적으로 제공하는 방법 및 장치
KR20180129729A (ko) 네트워크에 연결된 음향기기와의 멀티모달 인터렉션 방법 및 시스템
KR20200112791A (ko) 이어셋을 이용한 통역기능 제공 방법 및 장치
KR102241792B1 (ko) 인공지능 기기에서의 연속 대화 기능
US12111975B2 (en) System and method for enhancing functionality of electronic devices
KR102152334B1 (ko) 음원 필터링을 위한 방법 및 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180412

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190604

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190716

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190813

R150 Certificate of patent or registration of utility model

Ref document number: 6573696

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350