JP2018180542A

JP2018180542A - ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム

Info

Publication number: JP2018180542A
Application number: JP2018076699A
Authority: JP
Inventors: ヒョンチョルイ; Hyon-Chol Yi; ジンヨンパク; Jin Young Park
Original assignee: Line Corp; Naver Corp
Current assignee: Z Intermediate Global Corp; Naver Corp
Priority date: 2017-04-14
Filing date: 2018-04-12
Publication date: 2018-11-15
Anticipated expiration: 2038-04-12
Also published as: KR20180115880A; US11004452B2; KR101924852B1; US20200043491A1; WO2018190507A1; JP6573696B2

Abstract

【課題】ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステムを提供する。
【解決手段】マルチモーダルインタラクション方法は、電子機器に含まれる音声基盤のインタフェースを通じてコンテンツの進行のためのオーディオ情報を出力する段階、音声基盤のインタフェースを通じて出力されたオーディオ情報と関連する発話者の音声入力を受信する段階、発話者の音声入力と関連する位置情報を生成する段階、音声入力および音声入力と関連する位置情報を利用してコンテンツの進行と関連する動作を決定する段階を含む。
【選択図】図７

Description

以下の説明は、ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム、そしてコンピュータと結合してマルチモーダルインタラクション方法をコンピュータに実行させるためにコンピュータ読取可能な記録媒体に格納されるコンピュータプログラムとその記録媒体に関する。

コンテンツやサービスに対する従来の消費行為は、主にディスプレイを基盤としてきた。例えば、ユーザは、スクリーンを通じて情報の伝達を受け、コントローラに対する操作および／または音声命令の認識に応じてスクリーンに表示されるコンテンツやサービスとユーザとのインタラクションが発生するようになる。コンテンツやサービスに対する従来の消費行為でも、オーディオの出力と音声命令の認識によるインタラクションが発生するが、これはディスプレイを基盤としたコンテンツとサービスのより豊かな経験のための副次的な手段に留まっている。

一方、ホームネットワークサービスの人工知能スピーカのように音声を基盤として動作するインタフェースは、視覚的情報を使用することができないため、ディスプレイ基盤のコンテンツおよび／またはサービスに比べ、コンテンツおよび／またはサービスとユーザとのインタラクションが容易でないという問題がある。例えば、特許文献１は、ホームメディアデバイスおよびこれを利用したホームネットワークシステム、方法に関する技術であって、ホームネットワークサービスにおいて移動通信網の他にＷｉ−Ｆｉのような第２通信網を利用してホームネットワークサービスを提供することができ、ホーム内の複数のマルチメディア機器を、ユーザがボタンを操作しなくても音声命令によって多重制御することができる技術を開示している。例えば、このようなホームネットワークサービスにおいてユーザの音声命令が入力される電子機器が、ユーザの音声入力「電気を消して」を受信した場合を考慮してみよう。このような電子機器は、受信した音声入力「電気を消して」を分析してスマート照明機器のライト電源をオフ（ＯＦＦ）にする。また、電子機器がユーザの音声入力「今日の天気」を受信した場合も考慮してみよう。このような電子機器は、受信した音声入力「今日の天気」に基づいて外部サーバから今日の天気に関する情報を受信し、受信した情報に対応する音声を合成してスピーカから出力するようになる。しかし、このような単純な音声命令と音声命令による動作の処理は、より簡単に宅内機器を制御することができる経験と、より簡単に情報を取得することができる経験をユーザに提供できるという長所を有する反面、ディスプレイ基盤の消費行為のようにコンテンツおよび／またはサービスに対する多様な経験は提供し難いという問題を抱えている。

韓国公開特許第１０−２０１１−０１３９７９７号

コンテンツやサービスに対するディスプレイ基盤のインタラクションは、ユーザがディスプレイに向かう一定の方向やディスプレイによって限定される位置と関連して進行されなければならず、ユーザの方向、位置、および移動が制限される。例えば、ユーザがディスプレイを見ることのできない位置では、コンテンツやサービスの利用は困難である。

この反面、音声基盤のインタラクションは、ユーザ（発話者）が視覚的情報ではなく聴覚的情報を活用するため、発話者の方向、位置、および移動が相対的に自由であるという長所がある。例えば、発話者が音響機器の正面から背面に移動したとしても、聴覚的情報を活用したコンテンツやサービスの利用には何ら支障がない。

このような長所を活用し、ネットワークに連結して音声を基盤として動作する電子機器を利用したインタラクションでは、発話者から受信した音声入力から取得される命令語だけではなく、音声入力と関連する発話者の位置情報（一例として、音声入力の受信に関連する時点または期間に測定された、電子機器に対する発話者の相対的な位置や方向、相対的な位置や方向の変化の有無、相対的な位置や方向の変化の程度、および相対的な位置や方向の変化の方向のうちの少なくとも１つ）をさらに活用することにより、音声基盤のインタフェースを通じてより多様なユーザ経験を提供することができる、マルチモーダルインタラクション方法およびシステム、そしてコンピュータと結合してマルチモーダルインタラクション方法をコンピュータに実行させるためにコンピュータ読取可能な記録媒体に格納されるコンピュータプログラムとその記録媒体を提供する。

また、音声入力から取得される音のトーンやピッチ、電子機器と連動する周辺機器（一例として、ユーザが所持するスマートフォン、スマートウォッチ、スマートバンドなど）から取得される値（発話者の明示的な情報として手の位置や、発話者の非明示的な情報として脈拍、１日の移動量、前日の睡眠時間など）などを統合的に活用して電子機器に命令を伝達したり、コンテンツおよび／またはサービスの素材として活用したりできる、マルチモーダルインタラクション方法およびシステム、そしてコンピュータと結合してマルチモーダルインタラクション方法をコンピュータに実行させるためにコンピュータ読取可能な記録媒体に格納されるコンピュータプログラムとその記録媒体を提供する。

マルチモーダルインタラクションシステムのマルチモーダルインタラクション方法であって、電子機器に含まれる音声基盤のインタフェースを通じてコンテンツの進行のためのオーディオ情報を出力する段階、前記音声基盤のインタフェースを通じて前記出力されたオーディオ情報と関連する発話者の音声入力を受信する段階、前記発話者の前記音声入力と関連する位置情報を生成する段階、前記音声入力および前記音声入力と関連する位置情報を利用して前記コンテンツの進行と関連する動作を決定する段階を含むことを特徴とする、マルチモーダルインタラクション方法を提供する。

マルチモーダルインタラクション方法をコンピュータに実行させるためのコンピュータプログラムが記録されていることを特徴とする、コンピュータ読取可能な記録媒体を提供する。

コンピュータと結合してマルチモーダルインタラクション方法をコンピュータに実行させるためにコンピュータ読取可能な記録媒体に格納される、コンピュータプログラムを提供する。

マルチモーダルインタラクションシステムであって、音声基盤のインタフェース部、およびコンピュータ読取可能な命令を実行するように実現される少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、前記音声基盤のインタフェース部を通じてコンテンツの進行のためのオーディオ情報を出力し、前記音声基盤のインタフェース部を通じて前記出力されたオーディオ情報と関連する発話者の音声入力を受信し、前記発話者の前記音声入力と関連する位置情報を生成し、前記音声入力および前記音声入力と関連する位置情報を利用して前記コンテンツの進行と関連する動作を決定することを特徴とする、マルチモーダルインタラクションシステムを提供する。

ネットワークに連結し、音声を基盤として動作する電子機器を利用したインタラクションでは、発話者から受信した音声入力から取得される命令語だけではなく、音声入力と関連する発話者の位置情報（一例として、音声入力の受信に関連する時点または期間に測定された、電子機器に対する発話者の相対的な位置や方向、相対的な位置や方向の変化の有無、相対的な位置や方向の変化の程度、および相対的な位置や方向の変化の方向のうちの少なくとも１つ）をさらに活用することにより、音声基盤のインタフェースを通じてより多様なユーザ経験を提供することができる。

また、音声入力から取得される音のトーンやピッチ、電子機器と連動する周辺機器（一例として、ユーザが所持するスマートフォン、スマートウォッチ、スマートバンドなど）から取得される値（発話者の明示的な情報として手の位置や、発話者の非明示的な情報として脈拍、１日の移動量、前日の睡眠時間など）などを統合的に活用して電子機器に命令を伝達したり、コンテンツおよび／またはサービスの素材として活用したりすることができる。

本発明の一実施形態における、音声基盤のインタフェースを活用したサービス環境の例を示した図である。本発明の一実施形態における、音声基盤のインタフェースを活用したサービス環境の他の例を示した図である。本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。本発明の一実施形態における、発話者の発話と関連する位置情報の例を説明するための図である。本発明の一実施形態における、発話者の発話と関連する位置情報の例を説明するための図である。本発明の一実施形態における、電子機器が実行することのできるマルチモーダルインタラクション方法の例を示したフローチャートである。本発明の一実施形態における、周辺機器のセンサで測定された出力値を活用するマルチモーダルインタラクション方法の例を示したフローチャートである。本発明の一実施形態における、周辺機器のセンサで測定された出力値を活用するマルチモーダルインタラクション方法の他の例を示したフローチャートである。本発明の一実施形態における、外部サーバを通じてコンテンツを提供する場合のマルチモーダルインタラクション方法の例を示したフローチャートである。

以下、実施形態について、添付の図面を参照しながら詳しく説明する。

本発明の実施形態に係るマルチモーダルインタラクションシステムは、音声を基盤として動作するインタフェースを提供する電子機器によって実現されてよい。電子機器は、オーディオ基盤のコンテンツをユーザ（発話者）に提供するためにオーディオ情報を出力してよく、出力されたオーディオ情報にユーザが応答して発話することによって電子機器で音声入力を取得してよい。電子機器は、取得した音声入力を、直接にまたは別のインタフェースコネクトを介して連結される外部プラットフォームによって認識および分析することでユーザ命令を処理して、オーディオ基盤のコンテンツを進行させてよい。このとき、電子機器は、発話者の音声入力だけではなく、発話者の音声入力と関連する位置情報をさらに利用してコンテンツの進行と関連する動作を決定してよい。

本発明の実施形態に係るマルチモーダルインタラクション方法は、上述した電子機器によって実行されてよい。このとき、電子機器には、本発明の一実施形態に係るコンピュータプログラムがインストールおよび駆動されてよく、電子機器は、駆動されたコンピュータプログラムの制御に従って本発明の一実施形態に係るマルチモーダルインタラクション方法を実行してよい。上述したコンピュータプログラムは、コンピュータで実現される電子機器と結合し、マルチモーダルインタラクション方法をコンピュータに実行させるためにコンピュータ読取可能な記録媒体に格納されてよい。

図１は、本発明の一実施形態における、音声基盤のインタフェースを活用したサービス環境の例を示した図である。図１の実施形態では、スマートホーム（ｓｍａｒｔｈｏｍｅ）やホームネットワークサービスのように宅内の機器を連結して制御する技術において、音声を基盤として動作するインタフェースを提供する電子機器１００が、ユーザ１１０の発話によって受信した音声入力「電気を消して」を認識および分析し、宅内で内部ネットワークを介して電子機器１００に連結している宅内照明機器１２０のライト電源を制御する例を示している。

例えば宅内の機器は、上述した宅内照明機器１２０の他にも、テレビ、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、周辺機器、エアコン、冷蔵庫、ロボット掃除機などのような家電製品はもちろん、水道、電気、冷暖房機器などのようなエネルギー消費装置、ドアロックや監視カメラなどのような保安機器など、オンライン上で連結して制御することが可能な多様な機器を含んでよい。また、内部ネットワークは、イーサーネット（Ｅｔｈｅｒｎｅｔ）（登録商標）、ＨｏｍｅＰＮＡ、ＩＥＥＥ１３９４のような有線ネットワーク技術、ブルートゥース（Ｂｌｕｅｔｏｏｔｈ）（登録商標）、ＵＷＢ（ｕｌｔｒａＷｉｄｅＢａｎｄ）、ジグビー（ＺｉｇＢｅｅ）（登録商標）、Ｗｉｒｅｌｅｓｓ１３９４、ＨｏｍｅＲＦのような無線ネットワーク技術などを活用してよい。

電子機器１００は、宅内の機器のうちの１つであってよい。例えば電子機器１００は、宅内に備えられた人工知能スピーカやロボット掃除機などのような機器の１つであってよい。また、電子機器１００は、スマートフォン（ｓｍａｒｔｐｈｏｎｅ）、携帯電話、ノート型パンコン、デジタル放送用端末、パーソナルデジタルアシスタント（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔｓ）、ポータブルマルチメディアプレイヤ（ＰＭＰ：ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ）、タブレットなどのようなユーザ１１０のモバイル機器であってもよい。このように、電子機器１００は、ユーザ１１０の音声入力を受信して宅内の機器を制御するために宅内の機器と連結可能な機能を備えた機器であれば、特に制限されることはない。

図２は、本発明の一実施形態における、音声基盤のインタフェースを活用したサービス環境の例を示した図である。図２は、音声を基盤として動作するインタフェースを提供する電子機器１００が、ユーザ１１０の発話によって受信した音声入力「今日の天気」を認識および分析し、外部ネットワークを介して外部サーバ２１０から今日の天気に関する情報を取得し、取得した情報を音声で出力する例を示している。

例えば、外部ネットワークは、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのようなネットワークのうちの１つ以上の任意のネットワークを含んでよい。

図２の実施形態でも、電子機器１００は、宅内の機器のうちの１つであっても、ユーザ１１０のモバイル機器のうちの１つであってもよく、ユーザ１１０の音声入力を受信して処理するための機能と、外部ネットワークを介して外部サーバ２１０に接続して外部サーバ２１０が提供するサービスやコンテンツをユーザ１１０に提供するための機能を備えた機器であれば、特に制限されることはない。

このように、本発明の実施形態に係る電子機器１００は、音声基盤のインタフェースを通じ、ユーザ１１０の発話によって受信した音声入力を少なくとも含むユーザ命令を処理することができる機器であれば、特に制限されなくてよい。例えば、電子機器１００は、ユーザの音声入力を直接に認識および分析し、音声入力に適した動作を実行することでユーザ命令を処理してもよいが、実施形態によっては、ユーザの音声入力に対する認識や認識された音声入力の分析、ユーザに提供される音声の合成などの処理を、電子機器１００と連係する外部のプラットフォームで実行することも可能である。

図３は、本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。図３は、電子機器３１０、クラウド人工知能プラットフォーム３２０、およびコンテンツ・サービス３３０を示している。

一例として、電子機器３１０は、宅内に備えられた機器を意味してよく、少なくとも上述した電子機器１００を含んでよい。このような電子機器３１０や電子機器３１０にインストールおよび駆動されるアプリケーション（以下、アプリ）は、インタフェースコネクト３４０を介してクラウド人工知能プラットフォーム３２０と連係してよい。ここで、インタフェースコネクト３４０は、電子機器３１０や電子機器３１０にインストールおよび駆動されるアプリの開発のためのソフトウェア開発キット（ＳＤＫ：ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ）および／または開発文書を開発者に提供してよい。また、インタフェースコネクト３４０は、電子機器３１０や該電子機器３１０にインストールおよび駆動されるアプリがクラウド人工知能プラットフォーム３２０から提供される機能を活用することを可能にする、アプリケーションプログラミングインタフェース（ＡＰＩ：ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍＩｎｔｅｒｆａｃｅ）を提供してよい。具体的な例として、開発者は、インタフェースコネクト３４０により提供されるＳＤＫおよび／または開発文書を利用して開発した機器やアプリが、インタフェースコネクト３４０により提供されるＡＰＩを利用してクラウド人工知能プラットフォーム３２０により提供される機能を活用することができるようにする。

ここで、クラウド人工知能プラットフォーム３２０は、音声基盤のサービスを提供するための機能を提供してよい。例えばクラウド人工知能プラットフォーム３２０は、受信した音声を認識し、出力する音声を合成するための音声処理モジュール３２１、受信した映像や動画を分析して処理するためのビジョン処理モジュール３２２、受信した音声に応じて適切な音声を出力するために適切な会話を決定するための会話処理モジュール３２３、受信した音声に適切な機能を薦めるための推薦モジュール３２４、人工知能がデータ学習によって文章単位で言語を翻訳するように支援するニューラル機械翻訳（ＮＭＴ：ＮｅｕｒａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ）３２５などのように、音声基盤サービスを提供するための多様なモジュールを含んでよい。

例えば、図１および図２の実施形態において、電子機器１００は、ユーザ１１０の音声入力を、インタフェースコネクト３４０が提供するＡＰＩを利用してクラウド人工知能プラットフォーム３２０に送信したとする。この場合、クラウド人工知能プラットフォーム３２０は、受信した音声入力を、上述したモジュール３２１〜３２５を活用して認識および分析してよく、受信した音声入力に応じて適切な返答音声を合成して提供したり、適切な動作を薦めたりしてよい。

また、拡張キット３５０は、第三者コンテンツ開発者または会社がクラウド人工知能プラットフォーム３２０に基づいて新たな音声基盤機能を実現することのできる開発キットを提供してよい。例えば、図２の実施形態において、電子機器１００は、受信したユーザ１１０の音声入力を外部サーバ２１０に送信してよく、外部サーバ２１０は、拡張キット３５０が提供するＡＰＩを通じてクラウド人工知能プラットフォーム３２０に音声入力を送信してよい。この場合、上述と同じように、クラウド人工知能プラットフォーム３２０は、受信した音声入力を認識および分析し、適切な返答音声を合成して提供するか、音声入力に応じて処理すべき機能に対する推薦情報を外部サーバ２１０に提供してよい。一例として、図２において、外部サーバ２１０が、音声入力「今日の天気」をクラウド人工知能プラットフォーム３２０に送信すると、クラウド人工知能プラットフォーム３２０から、音声入力「今日の天気」の認識に基づいて抽出されたキーワード「今日の」および「天気」を受信したとする。この場合、外部サーバ２１０は、キーワード「今日の」および「天気」に基づいて「今日の天気は…」のようなテキスト情報を生成し、再びクラウド人工知能プラットフォーム３２０に生成されたテキスト情報を送信してよい。このとき、クラウド人工知能プラットフォーム３２０は、テキスト情報の音声を合成して、合成された音声を外部サーバ２１０に提供してよい。外部サーバ２１０は、合成された音声を電子機器１００に送信してよく、電子機器１００は、合成された音声「今日の天気は…」をスピーカから出力することにより、ユーザ１１０から受信した音声入力「今日の天気」が処理されるようになる。

このとき、電子機器１００は、このような外部サーバ２１０から提供されたオーディオ基盤のコンテンツをユーザに提供するために、本発明の実施形態に係るマルチモーダルインタラクション方法を実行してよい。

図４は、本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。図４の電子機器４１０は、上述した電子機器１００に対応してよく、サーバ４２０は、上述した外部サーバ２１０やクラウド人工知能プラットフォーム３２０を実現する１つのコンピュータ装置に対応してよい。

電子機器４１０とサーバ４２０はそれぞれ、メモリ４１１、４２１、プロセッサ４１２、４２２、通信モジュール４１３、４２３、および入力／出力インタフェース４１４、４２４を含んでよい。メモリ４１１、４２１は、コンピュータ読取可能な記録媒体であって、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、およびディスクドライブのような永久大容量記憶装置（ｐｅｒｍａｎｅｎｔｍａｓｓｓｔｏｒａｇｅｄｅｖｉｃｅ）を含んでよい。ここで、ＲＯＭやディスクドライブのような永久大容量記憶装置は、メモリ４１１、４２１とは区分される別の永久記憶装置として電子機器４１０やサーバ４２０に含まれてもよい。また、メモリ４１１、４２１には、オペレーティングシステムと、少なくとも１つのプログラムコード（一例として、電子機器４１０にインストールされて特定のサービスの提供のために電子機器４１０で駆動されるアプリケーションなどのためのコード）が格納されてよい。このようなソフトウェア構成要素は、メモリ４１１、４２１とは別のコンピュータ読取可能な記録媒体からロードされてよい。このような別のコンピュータ読取可能な記録媒体は、フロッピー（登録商標）ドライブ、ディスク、テープ、ＤＶＤ／ＣＤ−ＲＯＭドライブ、メモリカードなどのコンピュータ読取可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読取可能な記録媒体ではない通信モジュール４１３、４２３を通じてメモリ４１１、４２１にロードされてもよい。例えば、少なくとも１つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システムがネットワーク４３０を介して提供するファイルによってインストールされるプログラム（一例として、上述したアプリケーション）に基づいて電子機器４１０のメモリ４１１にロードされてよい。

プロセッサ４１２、４２２は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ４１１、４２１または通信モジュール４１３、４２３によって、プロセッサ４１２、４２２に提供されてよい。例えば、プロセッサ４１２、４２２は、メモリ４１１、４２１のような記憶装置に格納されたプログラムコードに従って受信される命令を実行するように構成されてよい。

通信モジュール４１３、４２３は、ネットワーク４３０を介して電子機器４１０とサーバ４２０とが互いに通信するための機能を提供してもよく、電子機器４１０および／またはサーバ４２０が他の電子機器または他のサーバと通信するための機能を提供してもよい。一例として、電子機器４１０のプロセッサ４１２がメモリ４１１のような記憶装置に格納されたプログラムコードに従って生成した要求が、通信モジュール４１３の制御に従ってネットワーク４３０を介してサーバ４２０に伝達されてよい。これとは逆に、サーバ４２０のプロセッサ４２２の制御に従って提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール４２３およびネットワーク４３０を経て、電子機器４１０の通信モジュール４１３を通じて電子機器４１０で受信されてもよい。例えば、通信モジュール４１３を通じて受信したサーバ４２０の制御信号や命令、コンテンツ、ファイルなどは、プロセッサ４１２やメモリ４１１に伝達されてよく、コンテンツやファイルなどは、電子機器４１０がさらに含むことのできる記録媒体（上述した永久記憶装置）に格納されてよい。

入力／出力インタフェース４１４は、入力／出力装置４１５とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボードまたはマウスなどの装置を含んでよく、出力装置は、ディスプレイ、スピーカのような装置を含んでよい。他の例として、入力／出力インタフェース４１４は、タッチスクリーンのように入力と出力のための機能が１つに統合された装置とのインタフェースのための手段であってもよい。入力／出力装置４１５は、電子機器４１０と１つの装置で構成されてもよい。また、サーバ４２０の入力／出力インタフェース４２４は、サーバ４２０と連結されてもよく、サーバ４２０が含むことのできる入力または出力のための装置（図示せず）とのインタフェースのための手段であってもよい。

また、他の実施形態において、電子機器４１０およびサーバ４２０は、図４の構成要素よりもさらに少ないかさらに多くの構成要素を含んでもよい。しかし、大部分の従来技術の構成要素を明確に図示する必要はない。例えば、電子機器４１０は、上述した入力／出力装置４１５のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、電子機器４１０がスマートフォンの場合、一般的にスマートフォンに含まれている加速度センサやジャイロセンサ、カメラモジュール、物理的な各種ボタン、タッチパネルを利用したボタン、入力／出力ポート、振動のための振動器などのような多様な構成要素が電子機器４１０にさらに含まれるように実現されてよい。

本実施形態において、電子機器４１０は、ユーザの音声入力を受信するためのマイクを入力／出力装置４１５として基本的に含んでよく、ユーザの音声入力に対応する返答音声やオーディオコンテンツのような音を出力するためのスピーカを入力／出力装置４１５としてさらに含んでよい。

このとき、電子機器４１０は、ユーザの音声入力の入力音量に従って、音声入力に対応して出力される音の出力音量を調節してよい。このとき、出力音量は、入力音量に比例してよい。例えば、ユーザが電子機器４１０を呼ぶ声が大きいほど、ユーザ命令に対応して出力される音の出力音量が相対的に大きくなるように調節されてよい。これとは逆に、ユーザが電子機器４１０を呼ぶ声が小さいほど、ユーザ命令に対応して出力される音の出力音量が相対的に小さくなるように調節されてよい。具体的な例として、出力される音の出力音量は、音声入力の入力音量と同じように調節されてよい。例えば、ユーザが小さい声やささやくような声で電子機器４１０を呼ぶと、電子機器４１０も小さな音声やささやくような音声でユーザに応答してよい。

図５および図６は、本発明の一実施形態における、発話者の発話と関連する位置情報の例を説明するための図である。図５および図６は、オーディオ基盤のゲームコンテンツを、音声基盤のインタフェースを含む電子機器４１０を通じて提供する例を示している。図５は、電子機器４１０がゲームコンテンツの進行のためのオーディオ情報として、第１吹き出し５１０に示すように「右側から矢が飛んできます。」を出力した例を示している。このとき、図５および図６では、ユーザ１１０が図５の第２吹き出し５２０および図６の第３吹き出し６１０に示すように「回避」と発話しながら第１位置６２０から第２位置６３０に移動した例を示している。この場合、電子機器４１０は、ユーザ１１０の発話によって入力された音声入力「回避」と、ユーザ１１０の位置情報（ユーザ１１０が音声入力「回避」を発話しながら第１位置６２０から第２位置６３０に移動した情報）を利用してゲームコンテンツの進行と関連する動作を決定してよい。例えば、電子機器４１０は、受信した音声入力とユーザ１１０の位置情報に基づき、ゲームコンテンツ上の仮想のキャラクタが、回避動作として第１位置６２０から第２位置６３０までの距離を移動したと決定してよく、これによってゲームコンテンツ上で矢を回避するかどうかを決定してよい。また、図６では、電子機器４１０が、ユーザ１１０に対応するゲームコンテンツ上の仮想のキャラクタが矢を回避したと決定されることにより、第４吹き出し６４０に示すように、決定された動作による結果として、合成された音声「矢を回避しました。」を出力する例を示している。

このように、本発明の実施形態では、オーディオ基盤のコンテンツに対しても、単に音声入力に含まれる命令語だけでコンテンツを進行するのではなく、音声入力と関連する発話者の位置情報をさらに活用することにより、発話者に多様なインタラクションの経験とコンテンツへの高い没入度を提供することができる。特に、視覚的に提供される既存のコンテンツでは、ユーザの位置移動と方向転換などがディスプレイで見ることのできる領域に限定されていたことに比べて、本発明の実施形態に係る発話者は、視覚的情報ではなく聴覚的情報を活用することにより、位置移動と方向転換において相対的に極めて高い自由度を有するようになることが分かる。

図７は、本発明の一実施形態における、電子機器が実行することのできるマルチモーダルインタラクション方法の例を示したフローチャートである。本発明の実施形態に係るマルチモーダルインタラクションシステムは、上述した電子機器４１０のようなコンピュータ装置の形態で実現されてよい。このような電子機器４１０は、図７のマルチモーダルインタラクション方法に含まれる段階７１０〜段階７４０を実行してよい。このとき、プロセッサ４１２は、メモリ４１１に含まれるオペレーティングシステムのコードや少なくとも１つのプログラムのコードによる制御命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行するように実現されてよい。ここで、プロセッサ４１２は、電子機器４１０に格納されたコードが提供する制御命令に従って電子機器４１０が図７の段階７１０〜段階７４０を実行するように電子機器４１０を制御してよい。

段階７１０において、電子機器４１０は、音声基盤のインタフェースを通じてコンテンツの進行のためのオーディオ情報を出力してよい。音声基盤のインタフェースは、基本的に、合成された音声情報を出力するための出力モジュールと、発話者の発話が入力されるための入力モジュールを含んでよく、コンテンツは、基本的に、このような音声基盤のインタフェースによる発話者とのインタラクションによって進行されてよい。

段階７２０において、電子機器４１０は、音声基盤のインタフェースを通じて出力されたオーディオ情報と関連する発話者の音声入力を受信してよい。発話者の音声入力を受信する技術は、音声認識と関連する周知の技術であるため、当業者であれば容易に理解することができるであろう。

段階７３０において、電子機器４１０は、発話者の音声入力と関連する位置情報を生成してよい。ここで、音声入力と関連する位置情報は、音声入力の受信に関連する時点または期間に測定された、電子機器４１０に対する発話者の相対的な位置や方向、相対的な位置や方向の変化の有無、相対的な位置や方向の変化の程度、および相対的な位置や方向の変化の方向のうちの少なくとも１つを含んでよい。

例えば、電子機器４１０は、音声基盤のインタフェースに含まれる複数のマイクに入力された音声入力の位相シフト（ｐｈａｓｅｓｈｉｆｔ）に基づいて音声入力と関連する位置情報を生成してよい。複数のマイクに入力された同じ音信号の位相シフトを利用して音信号の発生位置を測定する技術は、ビームフォーミング（ｂｅａｍｆｏｒｍｉｎｇ）技術のように周知の技術であるため、当業者であれば容易に理解することができるであろう。この場合、位置情報が発話者の音声入力によって測定されるため、発話者が特定の方向を向く必要がなく、発話者の発話を認識可能な距離以内であれば、発話者の位置が制限されることもない。また、音声基盤のインタフェース以外の装置が電子機器４１０に追加されなくても、発話者の位置情報を取得することが可能となる。

実施形態によっては、発話者の位置情報を取得するために電子機器４１０がカメラやセンサのような追加装備を含む場合も考慮されるが、音声基盤のインタフェースを通じて測定される発話者の位置情報と、カメラやセンサのような追加装備を利用して測定される発話者の位置情報とがすべて活用されてもよい。カメラおよび／またはセンサを活用する場合、電子機器４１０は、音声入力が受信される場合のカメラおよび／またはセンサの出力値に基づいて音声入力と関連する位置情報を生成してよい。

段階７４０において、電子機器４１０は、音声入力および音声入力と関連する位置情報を利用してコンテンツの進行と関連する動作を決定してよい。コンテンツの進行と関連する動作がコンテンツによって多様な形態で設定されてもよいことは、当業者であれば容易に理解することができるであろう。例えば、決定される動作は、電子機器４１０自体の動作、電子機器４１０と連動する周辺機器の動作、電子機器４１０とネットワークを介して連動して電子機器４１０を通じてコンテンツを提供する外部サーバ（一例として、図２の外部サーバ２１０）の動作、コンテンツの進行と関連して発話者に要求するための動作、コンテンツ上の仮想キャラクタや仮想オブジェクトの動作などのようなコンテンツの種類や特性、コンテンツの進行状況などによって活用可能なすべての動作のうちの１つが活用されてよい。このような動作の例として、図５および図６では、ゲームコンテンツ上の仮想のキャラクタに放たれた矢の回避と関連する動作が決定された例について説明した。他の例として、出力されるオーディオ情報「ボリュームを調節しますか？」に応答して発生する発話者の音声入力「ボリューム」および音声入力と関連する発話者の左側または右側への移動に関する位置情報に基づき、電子機器４１０の出力音量を減少または増加させるように調節するための動作が決定されてもよい。また他の例として、オーディオ情報は、発話者に発話および発話者の位置の変更を要求する情報を含んでよい。この場合、電子機器４１０は、段階７４０において受信した音声入力および受信した音声入力と関連する位置情報が、要求された情報に対応して予め設定された条件を満たしているかどうかによってコンテンツの進行と関連する動作を決定してよい。より具体的な例として、電子機器４１０が「左に３歩移動してください。」というオーディオ情報を出力し、発話者の音声入力と関連する位置情報に基づいて、発話者が実際に左に３歩移動したかどうかにより、コンテンツの進行と関連する動作を決定してよい。

動作が決定されると、決定された動作の実行のための過程が実行されてよい。例えば、電子機器４１０自体の動作が決定された場合、電子機器４１０は、決定された動作を実行してよい。他の例として、発話者に要求するための動作が決定された場合、電子機器４１０は、決定された動作を発話者に要求するための音声を合成して音声基盤インタフェースを通じて出力してよい。また他の例として、コンテンツ上の仮想キャラクタや仮想オブジェクトの動作を電子機器４１０が直接制御するか外部サーバからコンテンツを提供する場合、仮想キャラクタや仮想オブジェクトの動作を制御するための情報を外部サーバに送信し、外部サーバが仮想キャラクタや仮想オブジェクトの動作を制御するようにしてもよい。

他の実施形態において、音声基盤のインタフェースを通じてコンテンツを提供する電子機器４１０と発話者とのインタラクションは、より多様な方式で進行されてよい。例えば、音声入力で認識された命令語だけではなく、音声入力に対応する音のトーン（ｔｏｎｅ）および／またはピッチ（ｐｉｔｃｈ）のような情報や、電子機器４１０と連動する周辺機器から取得される値などが、コンテンツの進行と関連する動作を決定するためにさらに活用されてよい。

一例として、電子機器４１０は、図７の段階７４０で、音声入力に対応する音のトーン、音のピッチ、および音声入力を分析して抽出される命令語のうちの少なくとも１つと、音声入力に関連する位置情報とを併せてコンテンツの進行と関連する動作を決定してよい。より具体的な例として、仮想の物体を投げて仮想の目標物にぶつけるゲームコンテンツにおいて、音声入力から抽出される命令語は仮想の物体を投げる開始時点を知らせるため、発話者の移動距離は物体を投げる力を決定するため、音声入力に対応する音のトーンまたは音のピッチは物体を投げる角度を決定するためにそれぞれ活用されてよい。

他の例として、電子機器４１０は、電子機器４１０と連動する周辺機器から取得される値をさらに利用してコンテンツの進行と関連する動作を決定してもよい。

図８は、本発明の一実施形態における、周辺機器のセンサで測定された出力値を活用するマルチモーダルインタラクション方法の例を示したフローチャートである。図８の段階８１０および段階８２０は、図７の段階７４０の代わりに実行されてよい。

段階８１０において、電子機器４１０は、連動する周辺機器のセンサで音声入力と関連して測定された測定値を、周辺機器から受信してよい。ここで、音声入力と関連して測定された測定値は、音声入力の受信と関連する時点または期間に周辺機器のセンサで測定された測定値を含んでよい。具体的な例として、電子機器４１０は、発話者が所持しているか着用しているスマートフォン、スマートウォッチ、スマートバンドなどのような周辺機器と連動してよく、発話者の発話によって電子機器４１０が音声入力を受信した時点や音声入力が受信された期間内に周辺機器のセンサが測定した測定値を含んでよい。

段階８２０において、電子機器４１０は、音声入力、該音声入力と関連する位置情報および受信した測定値を利用してコンテンツの進行と関連する動作を決定してよい。例えば、発話者が発話をしながらスマートフォンを持っている手を上に挙げた場合、手の動きに従って、スマートフォンに含まれている加速度センサやジャイロスコープセンサなどの出力値に基づいて発話者の手の動きが測定されたとする。この場合、電子機器４１０は、受信した測定値に基づいてこのような発話者の手の動きを測定し、このような測定された手の動きをさらに利用してコンテンツの進行と関連する動作を決定してよい。より具体的な例として、発話者が発話時に単に移動する場合と、発話者が発話時に上に挙げた手を振りながら移動する場合では、コンテンツの進行と関連して、それぞれ互いに異なる動作が決定されてよい。他の例として、音声入力と関連して測定される発話者の脈拍が、コンテンツの進行と関連する動作を決定するのに活用されてもよい。また、このような測定値は、複数の発話者が存在する場合、特定の発話者（一例として、クイズコンテンツにおいて、回答しようとした複数の発話者のうちで最初に挙手した発話者）を選定するために活用されてもよい。

実施形態によっては、発話者の位置情報を活用せずに、音声入力から抽出される命令語、音声入力に対応する音のトーン、音のピッチ、および周辺機器のセンサで測定された測定値のうちの少なくとも２つ以上を利用してコンテンツの進行と関連する動作が決定されてもよい。例えば、バスケットボールゲームにおいて、「シュート」という音声入力から抽出される「シュート」という命令語によってボールを投げる動作が決定され、「シュート」という音のトーンによってボールを投げる角度が決定され、「シュート」という音のピッチによってボールを投げる力が決定されてよい。このように、音声基盤インタフェースにおいて、音声入力から抽出される命令語だけではなく他の多様な情報を利用することにより、コンテンツと発話者とのマルチモーダルインタラクションが提供されることができる。

図９は、本発明の一実施形態における、周辺機器のセンサで測定された出力値を活用するマルチモーダルインタラクション方法の他の例を示したフローチャートである。図９の段階９１０および段階９２０は、図７の段階７１０〜段階７４０の以前または以後に実行されてもよいし、図７の段階７１０〜段階７４０の間に実行されてもよい。

段階９１０において、電子機器４１０は、連動する周辺機器のセンサにより音声入力とは関係なく測定された測定値を、周辺機器から受信してよい。例えば、測定値は、ユーザの脈拍、一定の期間内の移動量、前日の睡眠時間などのように、センサによって特定することのできる多様な値が活用されてよい。

段階９２０において、電子機器４１０は、受信した測定値に基づいてコンテンツの進行と関連する設定を変更してよい。例えば、ゲームコンテンツにおいて、発話者の前日の睡眠時間や前日の移動量に基づき、当日の仮想のキャラクタの体力や力のような能力値が調節されてよい。または、発話者の累積された移動量に応じて仮想キャラクタの能力値が継続して増加するように設定が変更されてもよい。このように、測定値の種類やコンテンツの進行と関連する設定の種類がコンテンツの特性や種類に応じて多様に活用されてもよいことは、当業者であれば容易に理解することができるであろう。

図１０は、本発明の一実施形態における、外部サーバを通じてコンテンツを提供する場合のマルチモーダルインタラクション方法の例を示したフローチャートである。図１０の段階１０１０〜段階１０３０は、図７の段階７４０に含まれて実行されてよい。

段階１０１０において、電子機器４１０は、音声入力および音声入力と関連する位置情報を、ネットワークを介して外部サーバに送信してよい。ここで、外部サーバは、図２を参照しながら説明した外部サーバ２１０に対応してよく、ネットワークを介して電子機器４１０と通信しながらコンテンツを提供する装置であってよい。

段階１０２０において、電子機器４１０は、外部サーバによって音声入力および音声入力と関連する位置情報に基づいて生成される動作情報を、ネットワークを介して外部サーバから受信してよい。電子機器４１０は、音声入力および位置情報を直接分析するのではなく、このような情報を外部サーバに送信し、外部サーバから送信された情報に基づいて動作情報を生成した後、その結果を受信してよい。

段階１０３０において、電子機器４１０は、受信した動作情報に基づいてコンテンツの進行と関連する動作を決定してよい。実質的に、段階１０３０は、外部サーバでコンテンツの進行と関連する動作を決定し、これに関する情報を受信し、決定された動作を確認する過程であってよい。

以上のように、本発明の実施形態によると、ネットワークに連結し、音声を基盤として動作する電子機器によるインタラクションにおいて、発話者から受信した音声入力から取得される命令語だけではなく、音声入力と関連する発話者の位置情報（一例として、音声入力の受信に関連する時点または期間に測定された、電子機器に対する発話者の相対的な位置や方向、相対的な位置や方向の変化の有無、相対的な位置や方向の変化の程度、および相対的な位置や方向の変化の方向のうちの少なくとも１つ）をさらに活用することにより、音声基盤のインタフェースを通じて、より多様なユーザ経験を提供することができる。また、音声入力から取得される音のトーンやピッチ、電子機器と連動する周辺機器（一例として、ユーザが所持しているスマートフォン、スマートウォッチ、スマートバンドなど）から取得される値（発話者の明示的な情報として手の位置、発話者の非明示的な情報として脈拍、１日の移動量、前日の睡眠時間など）などを統合的に活用して電子機器に命令を伝達したり、コンテンツおよび／またはサービスの素材として活用したりすることができる。

上述したシステムまたは装置は、ハードウェア構成要素、ソフトウェア構成要素、またはハードウェア構成要素とソフトウェア構成要素との組合せによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、演算論理装置（ＡＬＵ：ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、プログラマブル論理装置（ＰＬＵ：ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことを理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサと１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組合せを含んでもよく、所望のとおりに動作するよう処理装置を構成してもよく、独立的または集合的に処理装置に命令してもよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置、コンピュータ格納媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読取可能な記録媒体に格納されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読取可能な媒体に記憶されてよい。コンピュータ読取可能な媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含んでよい。媒体は、コンピュータ実行可能なプログラムを継続して格納するものであってもよいし、実行またはダウンロードのために一時的に格納するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよいが、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が格納されるように構成されたものであってよい。また、他の媒体の例として、アプリケーションを流通するアプリストアや他の多様なソフトウェアを供給あるいは流通するサイト、サーバなどで管理する記録媒体あるいは格納媒体が挙げられてもよい。プログラム命令の例には、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。

以上のように、実施形態を、限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって代替されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

１００：電子機器
１１０：ユーザ
２１０：外部サーバ

Claims

マルチモーダルインタラクションシステムのマルチモーダルインタラクション方法であって、
電子機器に含まれる音声基盤のインタフェースを通じてコンテンツの進行のためのオーディオ情報を出力する段階、
前記音声基盤のインタフェースを通じて前記出力されたオーディオ情報と関連する発話者の音声入力を受信する段階、
前記発話者の前記音声入力と関連する位置情報を生成する段階、および
前記音声入力および前記音声入力と関連する位置情報を利用して前記コンテンツの進行と関連する動作を決定する段階
を含むことを特徴とする、マルチモーダルインタラクション方法。
前記音声入力と関連する位置情報は、前記音声入力の受信に関連する時点または期間に測定された、前記電子機器に対する前記発話者の相対的な位置や方向、前記相対的な位置や方向の変化の有無、前記相対的な位置や方向の変化の程度、および前記相対的な位置や方向の変化の方向のうちの少なくとも１つを含むことを特徴とする、請求項１に記載のマルチモーダルインタラクション方法。
前記位置情報を生成する段階は、
前記音声基盤のインタフェースに含まれる複数のマイクに入力された前記音声入力の位相シフトに基づいて前記音声入力と関連する位置情報を生成することを特徴とする、請求項１に記載のマルチモーダルインタラクション方法。
前記電子機器は、カメラおよびセンサのうちの少なくとも１つを含み、
前記位置情報を生成する段階は、
前記音声入力が受信された場合の前記カメラおよびセンサのうちの少なくとも１つの出力値に基づいて、前記音声入力と関連する位置情報を生成することを特徴とする、請求項１に記載のマルチモーダルインタラクション方法。
前記コンテンツの進行と関連する動作を決定する段階は、
前記音声入力に対応する音のトーン、音のピッチ、および前記音声入力を分析して抽出される命令語のうちの少なくとも１つと、前記音声入力に関連する位置情報とを併せて前記コンテンツの進行と関連する動作を決定することを特徴とする、請求項１に記載のマルチモーダルインタラクション方法。
前記電子機器と連動する周辺機器のセンサにより前記音声入力と関連して測定された測定値を、前記周辺機器から受信する段階
をさらに含み、
前記コンテンツの進行と関連する動作を決定する段階は、
前記受信した測定値をさらに利用して前記コンテンツの進行と関連する動作を決定することを特徴とする、請求項１に記載のマルチモーダルインタラクション方法。
前記電子機器と連動する周辺機器のセンサにより前記音声入力とは関係なく測定された測定値を、前記周辺機器から受信する段階、および
前記受信した測定値に基づいて前記コンテンツの進行と関連する設定を変更する段階
をさらに含むことを特徴とする、請求項１に記載のマルチモーダルインタラクション方法。
前記オーディオ情報は、前記発話者の位置の変更を要求する情報を含み、
前記コンテンツの進行と関連する動作を決定する段階は、
前記音声入力および前記音声入力と関連する位置情報が前記要求された情報に対応する条件を満たしているかどうかによって前記コンテンツの進行と関連する動作を決定することを特徴とする、請求項１に記載のマルチモーダルインタラクション方法。
前記コンテンツは、前記電子機器とネットワークを介して通信する外部サーバから提供され、
前記コンテンツの進行と関連する動作を決定する段階は、
前記音声入力および前記音声入力と関連する位置情報を、ネットワークを介して前記外部サーバに送信する段階、
前記外部サーバにより前記音声入力および前記音声入力と関連する位置情報に基づいて生成される動作情報を、ネットワークを介して前記外部サーバから受信する段階、および
前記受信した動作情報に基づいて前記コンテンツの進行と関連する動作を決定する段階
を含むことを特徴とする、請求項１に記載のマルチモーダルインタラクション方法。
請求項１乃至９のいずれか一項に記載の方法をコンピュータに実行させるためのコンピュータプログラム。
請求項１乃至９のいずれか一項に記載の方法をコンピュータに実行させるためのプログラムが記録される、コンピュータ読取可能な記録媒体。
マルチモーダルインタラクションシステムであって、
音声基盤のインタフェース部、および
コンピュータ読取可能な命令を実行するように実現される少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサは、
前記音声基盤のインタフェース部を通じてコンテンツの進行のためのオーディオ情報を出力し、
前記音声基盤のインタフェース部を通じて前記出力されたオーディオ情報と関連する発話者の音声入力を受信し、
前記発話者の前記音声入力と関連する位置情報を生成し、
前記音声入力および前記音声入力と関連する位置情報を利用して前記コンテンツの進行と関連する動作を決定すること
を特徴とする、マルチモーダルインタラクションシステム。
前記少なくとも１つのプロセッサは、
前記音声基盤のインタフェース部に含まれる複数のマイクに入力された前記音声入力の位相シフトに基づいて、前記音声入力と関連する位置情報を生成すること
を特徴とする、請求項１２に記載のマルチモーダルインタラクションシステム。
カメラおよびセンサのうちの少なくとも１つをさらに含み、
前記少なくとも１つのプロセッサは、
前記音声入力が受信された場合の前記カメラおよびセンサのうちの少なくとも１つの出力値に基づいて前記音声入力と関連する位置情報を生成すること
を特徴とする、請求項１２に記載のマルチモーダルインタラクションシステム。
前記少なくとも１つのプロセッサは、
前記音声入力に対応する音のトーン、音のピッチ、および前記音声入力を分析して抽出される命令語のうちの少なくとも１つと、前記音声入力に関連する位置情報とを併せて前記コンテンツの進行と関連する動作を決定すること
を特徴とする、請求項１２に記載のマルチモーダルインタラクションシステム。
前記少なくとも１つのプロセッサは、
前記マルチモーダルインタラクションシステムと連動する周辺機器のセンサにより前記音声入力と関連して測定された測定値を前記周辺機器から受信し、
前記コンテンツの進行と関連した動作を決定するために、前記受信した測定値をさらに利用して前記コンテンツの進行と関連する動作を決定すること
を特徴とする、請求項１２に記載のマルチモーダルインタラクションシステム。
前記少なくとも１つのプロセッサは、
前記マルチモーダルインタラクションシステムと連動する周辺機器のセンサにより前記音声入力とは関係なく測定された測定値を、前記周辺機器から受信し、
前記受信した測定値に基づいて前記コンテンツの進行と関連する設定を変更すること
を特徴とする、請求項１２に記載のマルチモーダルインタラクションシステム。
前記オーディオ情報は、前記発話者に発話および前記発話者の位置の変更を要求する情報を含み、
前記少なくとも１つのプロセッサは、
前記音声入力および前記音声入力と関連する位置情報が前記要求された情報に対応する条件を満たしているかどうかによって前記コンテンツの進行と関連する動作を決定すること
を特徴とする、請求項１２に記載のマルチモーダルインタラクションシステム。
前記コンテンツは、ネットワークを介して通信する外部サーバから提供され、
前記少なくとも１つのプロセッサは、前記コンテンツの進行と関連する動作を決定するために、
前記音声入力および前記音声入力と関連する位置情報を、ネットワークを介して前記外部サーバに送信し、
前記外部サーバにより前記音声入力および前記音声入力と関連する位置情報に基づいて生成される動作情報を、ネットワークを介して前記外部サーバから受信し
前記受信した動作情報に基づいて前記コンテンツの進行と関連する動作を決定すること
を特徴とする、請求項１２に記載のマルチモーダルインタラクションシステム。