<第1の実施形態>
本発明の第1の実施形態について、図面を参照して説明する。
本発明の第1の実施形態において、スマートスピーカー(AI(Artificial Intelligence)スピーカー)などの情報処理装置は、音声を認識し、当該音声に対応した各種動作を実行可能である。例えば、情報処理装置は、ユーザからの特定の音声コマンド(例えば、「Hello!」)を認識し、当該特定の音声コマンドに応答して起動することができる。なお、情報処理装置の起動は、当該情報処理装置をスリープ状態からアクティブ状態に遷移させることである。また、特定の音声コマンドの詳細は、後述する。
そして、このような情報処理装置は、人間の肉声だけでなく、テレビやラジオ、PCなどが発する音声も認識する可能性がある。そのため、テレビ等が発した特定の音声コマンドによって、情報処理装置が起動してしまうおそれがある。
特に、テレビやラジオ、配信動画において、情報処理装置(スマートスピーカー)の広告放送(いわゆるCM(Commercial Message))を行う場合には、当該情報処理装置の動作を視聴者に伝えるために、特定の音声コマンドを発せざるを得ない状況が想定される。このような場合、テレビ等における広告放送内において発せられる特定の音声コマンドによって、情報処理装置が起動してしまうおそれが高まる。
図1は、従来の情報処理装置の状態を説明するための図である。図1において、情報処理装置10は、実際に部屋などに設置されるスマートスピーカーである。また、図1の例では、テレビ20において、情報処理装置(スマートスピーカー)の広告放送(CM)が放送されている。具体的には、テレビ20は、広告放送として、“登場人物30が、情報処理装置10Aに対して、特定の音声コマンド「Hello!」を発している場面”を放送している。なお、図1において、情報処理装置10Aは、広告放送内の情報処理装置であって、仮想的なものである。
このような広告放送がテレビ20により放送されると、実際に部屋などに設置されている情報処理装置10が、テレビ20から出力される特定の音声コマンド「Hello!」を認識してしまい、当該情報処理装置10が起動してしまう。言い換えると、情報処理装置10が、スリープ状態から、アクティブ状態(図1の「ON」の状態)に遷移してしまう。
そして、情報処理装置10が一度起動すると、当該情報処理装置10はアクティブ状態となるので、音声による各種処理の実行の指示を受け付けてしまう。そのため、情報処理装置10が、テレビ等から発せられる様々な音声に反応してしまい、ユーザの意図しない処理を実行してしまうという問題が生じる。
そこで、本発明の第1の実施形態では、テレビ等において放送される広告放送(CM)などに、所定のサウンドが含まれている。例えば、情報処理装置10を販売等する企業が、当該情報処理装置10の広告放送(CM)などに、所定のサウンドを含ませる。そして、情報処理装置10は、所定のサウンドを検出した場合、その後特定の音声コマンドを認識しても、所定の期間、起動処理を停止するように構成される。なお、所定のサウンドや所定の期間の詳細は、後述する。
図2は、本発明の第1の実施形態における情報処理装置10の状態を説明するための図である。図2において、テレビ20は、所定のサウンド40を含む広告放送を放送している。なお、広告放送の内容については、図1に例示する広告放送と同様である。
このような広告放送がテレビ20により放送されると、実際に部屋などに設置されている情報処理装置10は、所定のサウンド40を検出する。そうすると、情報処理装置10は、所定のサウンドを検出したことにより、その後特定の音声コマンド「Hello!」を認識しても、所定の期間、当該情報処理装置10の起動処理を停止する。すなわち、情報処理装置10は、所定のサウンドを検出してから所定の期間を、特定の音声コマンドを認識しても当該情報処理装置10を起動しない不感期間として設定する。そして、情報処理装置10は、不感期間に特定の音声コマンドを認識しても起動しない。例えば、図2において、所定のサウンドを検出してから所定の期間に、テレビ20から特定の音声コマンドが発せられても、情報処理装置10は、スリープ状態(図2の「OFF」の状態)のままとなり、アクティブ状態に遷移しない。
その結果、本発明の第1の実施形態における情報処理装置10は、スリープ状態を維持するため、テレビ等から発せられる様々な音声に反応しなくなり、ユーザの意図しない処理が実行されることを防止できる。
(システム構成)
図3は、本発明の第1の実施形態における情報処理システムの構成例を示す図である。図3に示すように、情報処理システムは、情報処理装置10と、サーバ装置200と、ネットワーク300とを含む。なお、情報処理装置10やサーバ装置200の数は、1つに限られず、いくつであってもよい。
情報処理装置10は、音声によって操作可能な装置であり、音声を認識して、所定の処理を実行可能な機能を備える。情報処理装置10は、例えば、スマートスピーカー(AIスピーカー)である。スマートスピーカーは、音声対話型の機能を有し、例えばユーザが音声で指示することにより、所定の処理を実行可能である。所定の処理は、例えば、情報処理装置10を起動することである。情報処理装置10の起動は、スリープ状態の情報処理装置10を、アクティブ状態に遷移させる処理である。スリープ状態は、情報処理装置10の処理が制限された状態である。例えば、スリープ状態において、情報処理装置10の処理は、音声による入力を受け付ける処理のみに制限される。そして、情報処理装置10は、スリープ状態において、音声による入力によって特定の音声コマンドを認識した後でなければ、アクティブ状態に遷移しない。
一方、アクティブ状態は、情報処理装置10が各種処理を実行可能な状態である。ユーザは、アクティブ状態の情報処理装置10に対して、音声により、各種処理の実行を指示することが可能である。各種処理は、例えば、音楽を再生する処理や、インターネットにおける検索エンジンを用いた検索処理、各種WEBサイトにおける商品購入処理などである。例えば、情報処理装置10は、ユーザからの「音楽を再生して」という音声による指示に応答して、音楽を再生する処理を実行する。また、各種処理は、家電製品に対する各種指示(当該家電製品をON/OFFする処理など)や、音声データのテキストデータへの変換処理、メール等による他装置(図示しない)への送信処理、簡単な会話処理などを含んでいてもよい。なお、情報処理装置10が実行可能な処理は、これらの例に限られず、どのような処理であってもよい。
サーバ装置200は、所定のサービスを提供可能な装置であり、例えば検索エンジンやWEBサーバである。サーバ装置200は、情報処理装置10からのアクセスを受け付け、所定のサービスを提供可能である。例えば、サーバ装置200は、情報処理装置10に対して、商品を購入可能なWEBサイトを提供する。
ネットワーク300は、情報処理装置10とサーバ装置200を相互に接続させるためのネットワークであり、例えば、無線ネットワークや有線ネットワークである。具体的には、ネットワーク300は、ワイヤレスLAN(wireless LAN:WLAN)や広域ネットワーク(wide area network:WAN)、ISDNs(integrated service digital networks)、無線LANs、LTE(long term evolution)、LTE−Advanced、第4世代(4G)、第5世代(5G)、CDMA(code division multiple access)、WCDMA(登録商標)などである。
また、ネットワーク300は、これらの例に限られず、例えば、公衆交換電話網(Public Switched Telephone Network:PSTN)やブルートゥース(Bluetooth(登録商標))、光回線、ADSL(Asymmetric Digital Subscriber Line)回線、衛星通信網などであってもよく、どのようなネットワークであってもよい。
また、ネットワーク300、例えば、NB−IoT(Narrow Band IoT)や、eMTC(enhanced Machine Type Communication)であってもよい。なお、NB−IoTやeMTCは、IoT向けの無線通信方式であり、低コスト、低消費電力で長距離通信が可能なネットワークである。また、ネットワーク300は、V2X(Vehicle to Everything:車車間通信又は路車間通信)に用いられる通信ネットワークであってもよい。V2Xは、例えば、自動車と自動車(車車間)、又は、自動車と信号機や道路標識などのインフラ(路車間)が、直接相互に通信する通信方式である。
また、ネットワーク300は、これらの組み合わせであってもよい。また、ネットワーク300は、これらの例を組み合わせた複数の異なるネットワークを含むものであってもよい。例えば、ネットワーク300は、LTEによる無線ネットワークと、閉域網であるイントラネットなどの有線ネットワークとを含むものであってもよい。
(情報処理装置の構成例)
図4は、本発明の第1の実施形態における情報処理装置10の構成例を示す図である。図4に例示するように、情報処理装置10は、例えば、制御部101と、通信部102と、入出力部103と、表示部104と、記憶部105とを含む。
通信部102は、ネットワーク300を介して各種データや情報、信号の送受信を行う通信インタフェースである。通信部102は、ネットワーク300を介して、サーバ装置200との通信を実行する機能を有する。また、通信部102は、BlueToothなどの近距離無線通信を介して、情報処理装置10の近距離に存在する他の装置(図示しない)との間で、各種の処理を実行するための信号等の送受信を実行してもよい。例えば、通信部102は、家電製品に対して、当該家電製品の起動を指示する制御信号を送信してもよい。
入出力部103は、情報処理装置10に対する各種操作を入力する装置により実現される。入出力部103は、キーボードやマウス、タッチパネル、マイク(マイクロホン)、各種センサなどである。入出力部103は、例えば、マイクを含み、音声による入力を受け付ける。音声による入力は、例えば、情報処理装置10を起動するための特定の音声コマンド(音声による命令)である。なお、特定の音声コマンドは、ウェイクワードやホットワード、呼びかけ、などと呼称されてもよい。また、上述したように、情報処理装置10の起動は、スリープ状態の情報処理装置10を、アクティブ状態に遷移させる処理である。
特定の音声コマンドは、予め定められた語句であり、情報処理装置10を起動するためにユーザが呼びかける語句である。例えば、特定の音声コマンドは、「Hello」や「Ok Computer」などであり、どのような語句であってもよい。また、特定の音声コマンドは、複数の語句の組み合わせ(例えば、「Ok Computer」)であってもよい。また、特定の音声コマンドは、語句を複数回繰り返すもの(例えば、「Hello」を3回繰り返すなど)であってもよい。また、特定の音声コマンドは、ユーザが適宜変更可能であってもよい。
また、音声による入力は、アクティブ状態の情報処理装置10に対して、各種処理の実行を指示するものであってもよい。例えば、入出力部103は、「音楽を再生して」や「今日の天気は?」などの音声による指示を受け付けることができる。なお、音声による入力は、これらの例に限られず、どのようなものであってもよい。
さらに、入出力部103は、所定のサウンド(音データを含む)の入力を受け付け可能である。所定のサウンドは、例えば、広告放送に含まれる所定のサウンドロゴである。例えば、複数のサウンドロゴのうち、予め定められた所定のサウンドロゴが、所定のサウンドとして設定される。
サウンドロゴは、企業などが、テレビやラジオ、配信動画などの広告放送(CM)において、当該企業又は当該企業の商品に対して付されるメロディーや効果音、曲、音声などの音響である。サウンドロゴは、例えば数秒間などの短い音響であってもよいし、広告放送の開始から終了まで流れる数十秒程度の長い音響であってもよく、どのような長さであってもよい。
また、所定のサウンドは、サウンドロゴに限られず、所定のメロディーや効果音、曲、音声であってもよい。また、所定のサウンドは、人間が聞こえる必要はなく、情報処理装置10が検出可能な音情報であれば、例えばモスキート音等の高周波など、どのようなものであってもよい。また、所定のサウンドは、どのような長さであってもよい。
なお、情報処理装置10は、所定のサウンドを検出した場合、所定の期間、その後特定の音声コマンドを受け付けても、当該情報処理装置10を起動することを停止する。具体的には、スリープ状態の情報処理装置10は、所定のサウンドを検出した場合、所定の期間、「Hello!」という所定の音声コマンドを受け付けても、アクティブ状態に遷移しない。
表示部104は、例えば、液晶ディスプレイやOELDである。なお、表示部104は、これらの例に限定されず、ヘッドマウントディスプレイ(HMD)などであってもよい。表示部104は、フレームバッファに書き込まれた表示データに従って、画像やテキスト情報、3D(three dimensional)などの表示データを表示可能である。
記憶部105は、情報処理装置10が動作するうえで必要とする各種プログラムや各種データを記憶する機能を有する。記憶部105は、例えば、HDD、SSD、フラッシュメモリなど各種の記憶媒体により実現される。なお、情報処理装置10は、プログラムを記憶部105に記憶し、当該プログラムを実行して、制御部101が、当該制御部101に含まれる各部としての処理を実行してもよい。当該プログラムは、情報処理装置10に、制御部101が実行する各機能を実現させる。
制御部101は、例えば、中央処理装置(CPU)やマイクロプロセッサ、ASIC、FPGAなどであってもよい。なお、制御部101は、これらの例に限られず、どのようなものであってもよい。
図4に例示するように、制御部101は、認識部110と、起動部111と、検出部112とを含む。
認識部110は、特定の音声コマンドを認識する機能を備える。認識部110は、情報処理装置10がスリープ状態又はアクティブ状態である場合において、入出力部103から入力された音声に含まれる特定の音声コマンドを認識する。具体的には、認識部110は、入出力部103から入力された音声に含まれる、「Hello!」や「Ok Computer」などの特定の音声コマンドを認識する。
検出部112は、所定のサウンドを検出する機能を備える。例えば、検出部112は、テレビやラジオ、動画配信サービスなどにおける広告放送に含まれる所定のサウンドロゴを検出する。なお、検出部112は、認識部110による特定の音声コマンドの認識とは無関係に、所定のサウンドを検出可能である。
起動部111は、認識部110が特定の音声コマンドを認識したことに応答して、情報処理装置10を起動する機能を備える。具体的には、起動部111は、認識部110が特定の音声コマンドを認識したことに応答して、スリープ状態の情報処理装置10を、アクティブ状態に遷移させる。なお、上述したように、スリープ状態は、情報処理装置10の処理が制限された状態であり、例えば、音声による入力を受け付ける処理のみに制限された状態である。一方、アクティブ状態は、情報処理装置10が各種処理を実行可能な状態であり、例えば、ユーザから音声による各種処理の実行の指示を受け付けできる状態である。
また、起動部111は、所定のサウンドを検出した場合、所定の期間、特定の音声コマンドに応答した情報処理装置10を起動する処理(起動処理)を停止する。すなわち、起動部111は、所定のサウンドを検出した場合、所定の期間、「Hello!」という所定の音声コマンドを受け付けても、スリープ状態の情報処理装置10をアクティブ状態に遷移する処理を実行しない。
所定の期間は、例えば、所定のサウンドが含まれる広告放送(CM)の長さであり、30秒や1分などである。ここで、テレビ等が特定の音声コマンドを発する可能性が高いのは、当該広告放送の時間である。そこで、起動部111は、テレビ等において広告放送の長さを所定の期間(すなわち、不感期間)として設定し、当該所定の期間(不感期間)に特定の音声コマンドを認識しても、情報処理装置10を起動しない。なお、所定の期間は、これらの例に限られず、例えば5分など、どのような長さに設定されてもよい。
(情報処理装置の動作例)
図5は、本発明の第1の実施形態における情報処理装置10の動作例を示すフローチャートである。なお、図5に示す動作例はあくまでも一例であって、情報処理装置10の動作は図5に示す動作例に限定されない。
情報処理装置10の検出部112が、所定のサウンドを認識する(S100)。例えば、認識部110は、所定のサウンドロゴを認識する。
その後、認識部110が、特定の音声コマンドを認識する(S101)。例えば、認識部110は、「Hello!」という所定の音声コマンドを認識する。
起動部111は、認識部110が所定の音声コマンドを認識したことに応答して、検出部112が所定のサウンドを検出してから所定の期間経過したか否かを判定する(S102)。
起動部111は、所定の期間経過していた場合(S102のYES)、情報処理装置10を起動する(S103)。具体的には、起動部111は、スリープ状態の情報処理装置10を、アクティブ状態に遷移させる。一方、起動部111は、所定の期間経過していない場合(S102のNO)、情報処理装置10の起動処理を停止する(S104)。具体的には、起動部111は、スリープ状態の情報処理装置10を、アクティブ状態に遷移させる処理を実行しない。
上記のように、本発明の第1の実施形態において、情報処理装置10は、所定のサウンドを検出した場合、その後特定の音声コマンドを認識しても、所定の期間、当該情報処理装置10の起動処理を停止する。その結果、情報処理装置10は、テレビ等から発せられる特定の音声コマンドによって、当該情報処理装置10が誤起動されることを防止することができる。また、情報処理装置10は、スリープ状態を維持するため、テレビ等から発せられる様々な音声に反応しなくなり、ユーザの意図しない処理が実行されることを防止できる。
このように、情報処理装置10は、所定のサウンドを検出させることによって、当該情報処理装置10の誤起動できるところ、所定のサウンドの検出は、話者認識技術によって識別する場合に比べて低コストで実現可能である。したがって、本発明の第1の実施形態における情報処理装置10は、低コストにより、テレビ等からの特定の音声コマンドによってスピーカーが誤起動することを低減できる。また、本発明の第1の実施形態における情報処理装置10は、所定のサウンドの有無によって起動の要否を決定でき、情報処理装置10の操作を行うユーザを予め登録する必要がないため、例えば来客者など登録者以外の者が当該情報処理装置10を操作することが可能となり、利便性も向上できる。
(変形例1)
変形例1は、情報処理装置10が所定のサウンドを検出した場合であっても、予め登録されたユーザが発した特定の音声コマンドを認識したことに応答して、当該情報処理装置10を起動する場合の形態である。
変形例1における情報処理装置10の記憶部105は、ユーザの音声データを予め記憶する。ユーザの音声データは、例えば、ユーザから、特定の音声コマンドなどを含む所定のフレーズを予め入力させることにより、記憶することができる。所定のフレーズは、例えば、「Hello!」や「Message」など複数種類の語句であり、情報処理装置10は、ユーザから予め入力された音声に基づいて、ユーザの音声データを作成する。
制御部101の認識部110は、記憶部105に記憶されているユーザの音声データに基づいて、認識した特定の音声コマンドが、予め登録されたユーザから発せられたか否かを判定する。なお、特定の音声コマンドが、予め登録されたユーザから発せられたか否かを判定することは、例えば特徴部分を比較することにより実現可能である。そして、特定の音声コマンドが、予め登録されたユーザから発せられたか否かを判定することは、例えば、話者識別技術を用いてテレビ等から発生られた音声と人間の肉声とを区別することに比べて、低コストで実現可能である。
起動部111は、検出部112が所定のサウンドを検出し、当該所定のサウンドの検出から所定の期間内であっても、認識部110が予め登録されたユーザから発せられた特定の音声コマンドを認識した場合には、情報処理装置10を起動する。すなわち、起動部111は、認識部110が予め登録されたユーザから発せられた特定の音声コマンドを認識した場合には、スリープ状態の情報処理装置10を、アクティブ状態に遷移させる。
図6は、本発明の第1の実施形態における情報処理装置10の他の状態を説明するための図である。図6において、ユーザ50は予め登録されたユーザであり、情報処理装置10の記憶部105には、ユーザ50の音声データが予め記憶されている。
図6において、テレビ20は、所定のサウンド40を含む広告放送を放送している。なお、広告放送の内容については、図1に例示する広告放送と同様である。図6において、実際に部屋などに設置されている情報処理装置10は、テレビ20から発せられる所定のサウンド40を検出することになる。そうすると、情報処理装置10は、所定のサウンドを検出したことに応答して、その後特定の音声コマンド「Hello!」を認識しても、所定の期間、当該情報処理装置10の起動処理を停止する。すなわち、図6において、テレビ20から特定の音声コマンドが発せられても、情報処理装置10は、スリープ状態のままとなり、アクティブ状態に遷移しない。
しかしながら、図6において、ユーザ50が特定の音声コマンド「Hello!」を発した場合には、情報処理装置10は、当該ユーザ50からの特定の音声コマンド「Hello!」であることを識別することによって起動する。すなわち、スリープ状態の情報処理装置10は、ユーザ50からの特定の音声コマンド「Hello!」に応答して、アクティブ状態(図6の「ON」の状態)に遷移する。
上記のように、本発明の第1の実施形態の変形例1において、情報処理装置10は、所定のサウンドを検出し、当該所定のサウンドの検出から所定の期間内であっても、予め登録されたユーザから発せられた特定の音声コマンドに応答して、当該情報処理装置10を起動する。そのため、情報処理装置10は、所定のサウンドの検出から所定の期間内であっても、全く起動できなくなるわけではなく、予め登録されたユーザであれば起動可能である。その結果、予め登録されたユーザであれば、いつでも情報処理装置10を起動できることになり、利便性を向上させることができる。
(変形例2)
変形例2は、情報処理装置10が所定のサウンドに加えて、当該所定のサウンドが発せられた方向を検出することにより、当該方向以外から発せられた特定の音声コマンドを認識した場合に、情報処理装置10を起動する場合の形態である。
変形例2における情報処理装置10の検出部112は、所定のサウンドに加えて、当該所定のサウンドが発せられた方向を検出する。すなわち、所定のサウンドの音源の方向を検出する。音源の方向の検出は、例えば、音信号の時間差検出に基づく方法や、指向性のビームを走査する方法(ビームフォーミング技術)、空間周波数として求める方法などを用いることができる。なお、検出部112が所定のサウンドが発せられた方向を検出する処理は、以下で説明する本発明の第2の実施形態における情報処理装置10の処理と同様である。
そして、起動部111は、検出部112が検出した所定のサウンドが発せられた方向から、特定の音声コマンドを受信しても(すなわち、所定のサウンドが発せられた方向からの特定の音声コマンドを認識しても)、情報処理装置10の起動処理を行わない。すなわち、起動部111は、検出部112が検出した所定のサウンドが発せられた方向を、不感方向として設定し、当該不感方向から特定の音声コマンドを受信しても、情報処理装置10の起動処理を行わない。
所定のサウンドは、テレビ等において放送される広告放送に含まれるものであるところ、所定のサウンドが発せられる方向は、テレビ等が設置されている方向になる。そして、テレビ等が設置されている方向から発せられる特定の音声コマンドは、テレビ等から発せられたものである可能性が高い。そこで、変形例2において、起動部111は、テレビ等が設置されている方向を不感方向として設定し、当該方向から発せられた特定の音声コマンドに対しては情報処理装置10を起動しない。
一方、起動部111は、検出部112が検出した所定のサウンドが発せられた方向以外から、特定の音声コマンドを受信した場合(すなわち、所定のサウンドが発せられた方向以外からの特定の音声コマンドを認識した場合)には、情報処理装置10の起動処理を実行する。すなわち、起動部111は、不感方向以外の方向から発せられた特定の音声コマンドに応答して、情報処理装置10を起動する。
上記のように、本発明の第1の実施形態の変形例2において、情報処理装置10は、テレビ等が設置されている方向から発せられた特定の音声コマンドに対して情報処理装置10を起動しないことにより、テレビ等から発せられる特定の音声コマンドによって、当該情報処理装置10が誤起動されることを防止することができる。また、情報処理装置10は、テレビ等が設置されている方向以外から発せられた特定の音声コマンドに対しては情報処理装置10を起動するため、所定のサウンドの検出から所定の期間内であっても、全く起動できなくなるわけではなく、利便性を向上させることができる。
(変形例3)
変形例3は、複数種類の所定のサウンドが存在し、当該複数種類の所定のサウンドの各々に対して、情報処理装置10の起動処理を停止する所定の期間が設定される場合の形態である。
所定のサウンドは、例えば、所定のサウンドロゴであり、テレビ等で放送される広告放送に含まれるものである。そして、所定の期間は、例えば、広告放送の長さである。ここで、広告放送の長さは、当該広告放送の放送される時間帯(例えば、朝昼夜など)や、当該広告放送を放送する媒体(例えば、テレビやラジオ、動画配信など)によって、様々な長さが設定される。例えば、昼や深夜に放送される広告放送は、朝方や夕方に放送される広告放送に比べて長いことがある。また、動画配信における広告放送は、テレビやラジオにおける広告放送に比べて長いことがある。これ以外の理由によっても、広告放送の長さは、様々な長さに設定される。そのため、広告放送の長さによって、所定の期間を変更する必要がある。所定の期間を広告放送の長さによって変更しなければ、広告放送の長さよりも、所定の期間が短くなる可能性がある。そうすると、広告放送は続いているのに所定の期間が終了した場合が生じ、そのような場合に広告放送において放送される特定の音声コマンドによって、情報処理装置10が誤起動してしまうおそれがあるからである。
そこで、本発明の第1の実施形態の変形例3では、複数種類の所定のサウンドの各々に対して、情報処理装置10の起動処理を停止する所定の期間を設定する。そして、広告放送の長さに基づいて、当該当該広告放送に含ませる所定のサウンドを決定する。具体的には、情報処理装置10を販売等する企業は、広告放送の長さ以上の所定の期間が設定されている所定のサウンドを、当該広告放送に含ませる。これによって、情報処理装置10の起動部111は、所定のサウンドに対応する所定の期間、すなわち広告の長さ以上の期間、情報処理装置10の起動処理を停止することができる。
記憶部105は、複数種類の所定のサウンドの各々と、所定の期間とを対応付けた情報を記憶する。例えば、記憶部105は、一の所定のサウンドに対しては、15秒の所定の期間を対応付けた情報を記憶し、他の所定のサウンドに対しては、30秒の所定の期間を対応付けた情報を記憶する。なお、15秒や30秒はあくまでも例示であって、所定の期間(不感期間)は、どのような長さであってもよい。
起動部111は、検出部112が検出した所定のサウンドに対応する所定の期間を、記憶部105を参照して特定する。そして、起動部111は、特定した所定の期間、認識部110が特定の音声コマンドを認識しても、情報処理装置10の起動処理を停止する。
上記のように、本発明の第1の実施形態の変形例3において、複数種類の所定のサウンドの各々に対して、起動処理を停止する所定の期間が設定される。そのため、例えば広告放送の長さなどに基づいて、当該広告放送に含ませる所定のサウンドを決定することにより、所定のサウンドに対応する所定の期間、すなわち広告の長さ以上の期間、情報処理装置10の起動処理を停止することができる。その結果、広告放送の長さよりも、所定の期間が短くなることを防止することが可能となり、テレビ等から発せられる特定の音声コマンドによって情報処理装置10が誤起動してしまうことを低減することが可能となる。
(変形例4)
変形例4は、所定のサウンド(例えば、所定のサウンドロゴ)を検出するタイミングと、当該所定のサウンドを検出したことに応答して情報処理装置10の起動の停止を開始するタイミングとが、互いに異なる(連続していない)場合の形態である。
情報処理装置10の不感期間(すなわち、所定の期間)が長いと、当該情報処理装置10の起動処理が停止される時間が長くなってしまい、利便性が低下する可能性がある。一方、所定のサウンドは、例えば、所定のサウンドロゴであり、情報処理装置10を販売等する企業が、当該情報処理装置10の広告放送(CM)などに含ませるものである。そのため、情報処理装置10を販売等する企業は、広告放送(CM)の内容を把握している可能性が高い。すなわち、情報処理装置10を販売等する企業は、当該広告放送(CM)内のいずれのタイミングで、特定の音声コマンドが発せられるのか把握できる。この場合、情報処理装置10を販売等する企業は、情報処理装置10の不感期間(所定の期間)を、広告放送(CM)において特定の音声コマンドが発せられるタイミングに合わせることで、不感期間を短くすることができる。その結果、情報処理装置10の利便性を向上させることができる。
具体的には、複数種類の所定のサウンドの各々に対して、情報処理装置10の起動処理を停止する所定の期間(不感期間)の開始のタイミングが設定される。そして、情報処理装置10を販売等する企業は、複数種類の所定のサウンドのうち、広告放送(CM)において特定の音声コマンドが発せられるタイミングに合わせて、当該情報処理装置10の不感期間が開始される所定のサウンドを選択し、当該選択した所定のサウンドを当該広告放送に含める。なお、この場合において、所定の期間(不感期間)は、特定の音声のコマンドが発せられる長さに合わせて設定してもよい。その場合、広告放送(CM)において特定の音声コマンドが発せられる時間帯だけを、所定の期間(不感期間)とすることが可能になる。
また、テレビ等において、同じ企業からの広告放送(CM)が、連続して放送される場合がある。例えば、情報処理装置10を販売等する企業が、当該情報処理装置10についての広告放送(CM)を複数パターン作成しており、あるパターンの広告放送(CM)に続いて、別のパターンの広告放送(CM)を放送することにより、広告効果を高める場合が想定される。このような場合には、初めに放送された広告放送(CM)において特定の音声コマンドが発せられるタイミングから、連続して(又は、他企業の広告放送(CM)を挟んで)放送される別のパターンの広告放送(CM)において特定の音声コマンドが発せられるタイミングまで、情報処理装置10の不感期間(所定の期間)を継続すべき場合が想定される。
この場合、情報処理装置10を販売等する企業は、情報処理装置10の不感期間(所定の期間)を、最初の広告放送(CM)において特定の音声コマンドが発せられるタイミング(時間)から、別パターンの広告放送(CM)において特定の音声コマンドが発せられる時点まで継続させる。これによって、情報処理装置10は、最初の広告放送(CM)において検出した所定のサウンドによって、その後放送される別パターンの広告放送(CM)において発せられる特定の音声コマンドに対しても不感となり、情報処理装置10の起動処理を停止することが可能となる。
上記の例のように、所定のサウンド(例えば、所定のサウンドロゴ)を検出するタイミングと、当該所定のサウンドを検出したことに応答して情報処理装置10の起動を停止するタイミングとが、互いに異なることが望ましい場合がある。なお、上記の例はあくまでも例示であって、所定のサウンドを検出するタイミングと、情報処理装置10の起動を停止するタイミングとを互いに異ならせることが望ましい場合は、様々なケースが想定される。
記憶部105は、複数種類の所定のサウンドの各々と、所定の期間(不感期間)の開始のタイミングとを対応付けた情報を記憶する。例えば、記憶部105は、一の所定のサウンドに対して、所定の期間(不感期間)の開始のタイミングとして、当該一の所定のサウンドを検出してから10秒後である旨の情報が記憶される。すなわち、一の所定のサウンドは、当該一の所定のサウンドが検出されてから、10秒経過するまでは、不感期間(所定の期間)とならない。なお、10秒後はあくまでも例示であって、所定の期間(不感期間)の開始のタイミングは、所定のサウンドを検出してから何秒後(何分後など単位は任意)であってもよい。
また、記憶部105は、変形例3と同様に、複数種類の所定のサウンドの各々に対して、情報処理装置10の起動処理を停止する所定の期間を設定してもよい。例えば、記憶部105は、一の所定のサウンドに対しては、15秒の所定の期間を対応付けた情報を記憶する。その結果、一の所定のサウンドを検出した情報処理装置10は、当該一の所定のサウンドが検出されてから10秒後に所定の期間(不感期間)が開始され、その後、当該所定の期間(不感期間)が15秒間継続する。
なお、15秒後はあくまでも例示であって、所定の期間(不感期間)は、どのような長さであってもよい。また、所定の期間は、例えば、広告放送(CM)において特定の音声コマンドが発せられる長さに設定されてもよい。また、所定の期間は、例えば、広告放送(CM)において特定の音声コマンドが複数回発せられる場合、最後に発せられる特定の音声コマンドが終了するタイミングを含む長さに設定されてもよい。
なお、記憶部105は、複数種類の所定のサウンドの各々に対して、所定の期間(不感期間)の開始のタイミングに加えて、終了のタイミングが設定されていてもよい。例えば、記憶部105は、他の所定のサウンドに対して、所定の期間(不感期間)の開始が当該他の所定のサウンドの検出から10秒後であり、当該所定の期間(不感期間)の終了が当該他の所定のサウンドの検出から30秒後であることを示す情報を記憶する。この場合、他の所定のサウンドを検出した情報処理装置10は、当該他の所定のサウンドの検出から10秒後に所定の期間(不感期間)を開始し、当該他の所定のサウンドの検出から30秒後に所定の期間(不感期間)を終了する。
なお、30秒後はあくまでも例示であって、所定の期間(不感期間)の終了のタイミングは、所定のサウンドを検出してから何秒後(何分後など単位は任意)であってもよい。また、所定の期間(不感期間)の終了のタイミングは、広告放送(CM)において特定の音声コマンドの発生が終了するタイミングに設定されてもよい。また、所定の期間(不感期間)の終了のタイミングは、例えば、広告放送(CM)において特定の音声コマンドが複数回発せられる場合、最後に発せられる特定の音声コマンドが終了するタイミングに設定されてもよい。
起動部111は、検出部112が検出した所定のサウンドに対応する所定の期間(不感期間)の開始のタイミングを、記憶部105を参照して特定する。そして、起動部111は、所定の期間(不感期間)の開始のタイミング以降、認識部110が特定の音声コマンドを認識しても、情報処理装置10の起動処理を停止する。
また、起動部111は、検出部112が検出した所定のサウンドに対応する所定の期間を、記憶部105を参照して特定する。そして、起動部111は、所定の期間(不感期間)の開始のタイミング以降であって、所定の期間内において、認識部110が特定の音声コマンドを認識しても、情報処理装置10の起動処理を停止する。
なお、起動部111は、検出部112が検出した所定のサウンドに対応する所定の期間(不感期間)の終了のタイミングを、記憶部105を参照して特定してもよい。そして、起動部111は、所定の期間(不感期間)の開始のタイミング以降、所定の期間(不感期間)の終了のタイミングまで、認識部110が特定の音声コマンドを認識しても、情報処理装置10の起動処理を停止する。
上記のように、本発明の第1の実施形態の変形例4において、複数種類の所定のサウンドの各々に対して、所定のサウンドを検出したことに応答して情報処理装置10の起動の停止を開始するタイミングが設定される。所定のサウンドを検出するタイミングと、当該所定のサウンドを検出したことに応答して情報処理装置10の起動を停止するタイミングとを互いに異ならせることができる。その結果、広告放送(CM)において特定の音声コマンドが発せられるタイミング(時間)に合わせて、情報処理装置10の起動処理を停止することによって、不感期間(所定の期間)を短くすることができる。また、広告放送(CM)の放送の態様に応じて、異なる広告放送(CM)をまたいで不感期間(所定の期間)を設定することもできる。このように、変形例4では、情報処理装置10の起動処理を停止する所定の期間(不感期間)の開始のタイミングや終了のタイミングを自由に設定でき、利便性を向上させることができる。
<第2の実施形態>
本発明の第2の実施形態について、図面を参照して説明する。
本発明の第2の実施形態では、テレビ等において放送される広告放送(CM)などに、所定のサウンドを含ませ、情報処理装置10が、所定のサウンドとともに、当該所定のサウンドが発せられた方向を検出する場合の実施形態である。そして、情報処理装置10は、所定のサウンドが発せられた方向からの特定の音声コマンドを認識しても、当該情報処理装置の起動処理を実行しない。
図7は、本発明の第2の実施形態における情報処理装置10の状態を説明するための図である。図7において、テレビ20は、所定のサウンド40を含む広告放送を放送している。なお、広告放送の内容については、図1に例示する広告放送と同様である。
このような広告放送がテレビ20により放送されると、実際に部屋などに設置されている情報処理装置10は、所定のサウンド40と、当該所定のサウンド40が発せられた方向を検出する。図7の例では、所定のサウンドが発せられた方向として、方向60を検出する。図2に示すように、所定のサウンド40が発せられる方向は、ある程度の範囲(方向60)として検出されてもよいし、ある一方向(すなわち、ある一点)として検出されてもよい。
この場合において、情報処理装置10は、所定のサウンドが発せられた方向からの特定の音声コマンドを認識しても、当該情報処理装置10の起動処理を停止する。すなわち、情報処理装置10は、所定のサウンドが発せられた方向を、特定の音声コマンドを認識しても当該情報処理装置10を起動しない不感方向として設定し、当該不感方向からの特定の音声コマンドを認識しても情報処理装置10を起動しない。例えば、図2において、所定のサウンドが発せられた方向、すなわちテレビ20の方向から特定の音声コマンドが発せられても、情報処理装置10は、スリープ状態(図7の「OFF」の状態)のままとなり、アクティブ状態に遷移しない。
その結果、本発明の第1の実施形態における情報処理装置10は、テレビ20等から発せられる特定の音声コマンドを認識してもスリープ状態を維持するため、テレビ等から発せられる様々な音声に反応しなくなり、ユーザの意図しない処理が実行されることを防止できる。
(システム構成)
本発明の第2の実施形態における情報処理システムの構成例は、図3に示す本発明の第1の実施形態における情報処理システムの構成例と同様であるため、詳細な説明は省略する。
(情報処理装置の構成例)
本発明の第2の実施形態における情報処理装置の構成例は、図3に示す本発明の第1の実施形態における情報処理装置の構成例と同様である。
本発明の第2の実施形態において、検出部112は、所定のサウンドに加えて、当該所定のサウンドが発せられた方向を検出する。すなわち、所定のサウンドの音源の方向を検出する。音源の方向の検出は、例えば、音信号の時間差検出に基づく方法や、指向性のビームを走査する方法(ビームフォーミング技術)、空間周波数として求める方法などを用いることができる。
図8及び図9は、検出部112によって所定のサウンドが発せられた方向を検出する動作を説明するための図である。図8及び図9において、テレビ20は、所定のサウンドを含む広告放送を放送している。
図8に例示するように、検出部112は、所定のサウンドが発せられた方向について、情報処理装置10のある一点11を通る地面12に水平な面13を基準として、上方向にα[度]、下方向にβ[度]の範囲として検出される。図8の例では、検出部112は、上方向α[度]から下方向β[度]の範囲60Aを、所定のサウンドが発せられた方向として検出する。なお、所定のサウンドが発せられた方向は、面13に対して上方向の角度のみで示されることもあれば、面13に対して下方向の角度のみで示されることもある。
また、図9に例示するように、検出部112は、所定のサウンドが発せられた方向について、情報処理装置のある一点11を通る地面12に垂直な面14を基準として、右方向にγ[度]、左方向にδ[度]の範囲として検出される。図9の例では、検出部112は、右方向γ[度]から左方向δ[度]の範囲60Bが、所定のサウンドが発せられた方向と検出する。なお、所定のサウンドが発せられた方向は、面14に対して左方向の角度のみで示されることもあれば、面14に対して右方向の角度のみで示されることもある。
上記のように、検出部112は、所定のサウンドが発せられる方向を、ある程度の範囲として検出可能である。なお、検出部112は、所定のサウンドが発せられる方向を、ある一方向(すなわち、ある一点)として検出してもよい。
また、検出部112は、所定のサウンドを発した物体の位置を検出してもよい。図8の例において、検出部112は、例えば、所定のサウンドを発した物体の地面12からの垂直方向の距離の範囲(図8の例では、高さh及び高さHの範囲)を検出可能である。また、図9の例において、検出部112は、例えば、所定のサウンドを発した物体の地面12に水平方向の距離の範囲(図9の例では、距離l及び距離Lの範囲)を検出可能である。すなわち、検出部112は、所定のサウンドを発した物体の位置を、自装置(情報処理装置10)からの距離として検出することができる。
なお、検出部112は、所定のサウンドを発した物体の位置を、当該情報処理装置10が設置された空間(例えば、部屋)における相対的な位置として検出してもよい。
起動部111は、検出部112が検出した所定のサウンドが発せられた方向から、特定の音声コマンドを受信しても(すなわち、所定のサウンドが発せられた方向からの特定の音声コマンドを認識しても)、情報処理装置10の起動処理を行わない。すなわち、起動部111は、検出部112が検出した所定のサウンドが発せられた方向を、不感方向として設定し、当該不感方向から特定の音声コマンドを受信しても、情報処理装置10の起動処理を行わない。
具体的には、起動部111は、認識部110によって認識された所定の音声コマンドが発せられた方向が、検出部112によって検出された所定のサウンドが発せられた方向に合致する場合には、情報処理装置10の起動処理を実行しない。なお、合致するとは、認識部110によって認識された所定の音声コマンドが発せられた方向が、検出部112によって検出された所定のサウンドが発せられた方向と一致する又は含まれる場合である。
なお、起動部111は、一度、所定のサウンドが発せられた方向を検出すると、以後、その方向から特定の音声コマンドを受信しても(すなわち、以後、所定のサウンドが発せられた方向からの特定の音声コマンドを認識しても)、情報処理装置10の起動処理を行わない。すなわち、実施形態1とは異なり、情報処理装置10の起動処理を停止する期間は、所定の期間に限られず、継続して当該起動処理を停止することになる。スマートスピーカーなどの情報処理装置10の設置位置や、テレビ等の設置位置は、固定される可能性が高い。そこで、一度所定のサウンドが発せられた方向を検出すると、継続して情報処理装置10の起動処理を行わないようにすることで、情報処理装置10が当該方向を検出する処理が頻繁に実行されることを防止し、当該情報処理装置10の処理負荷を低減することが可能となる。
所定のサウンドは、テレビ等において放送される広告放送に含まれるものであるところ、所定のサウンドが発せられる方向は、テレビ等が設置されている方向になる。そして、テレビ等が設置されている方向から発せられる特定の音声コマンドは、テレビ等から発せられたものである可能性が高い。そこで、起動部111は、テレビ等が設置されている方向を不感方向として設定し、当該方向から発せられた特定の音声コマンドに対しては情報処理装置10を起動しない。
一方、起動部111は、検出部112が検出した所定のサウンドが発せられた方向以外から、特定の音声コマンドを受信した場合(すなわち、所定のサウンドが発せられた方向以外からの特定の音声コマンドを認識した場合)には、情報処理装置10の起動処理を実行する。すなわち、起動部111は、不感方向以外の方向から発せられた特定の音声コマンドに応答して、情報処理装置10を起動する。
また、起動部111は、検出部112が所定のサウンドを発した物体の位置を検出する場合には、当該物体の位置から発せられた特定の音声コマンドを認識しても、情報処理装置10の起動処理を行わない。一方、起動部111は、検出部112によって検出された物体の位置以外の位置から発せられた特定の音声コマンドを認識した場合には、情報処理装置10を起動する。
なお、本発明の第2の実施形態において、所定のサウンドは、例えば、広告放送に含まれる所定のサウンドロゴであってもよい。例えば、複数のサウンドロゴのうち、予め定められた所定のサウンドロゴが、所定のサウンドとして設定される。また、所定のサウンドは、サウンドロゴに限られず、所定のメロディーや効果音、曲、音声であってもよい。また、所定のサウンドは、人間が聞こえる必要はなく、情報処理装置10が検出可能な音情報であれば、例えばモスキート音等の高周波など、どのようなものであってもよい。また、所定のサウンドは、どのような長さであってもよい。
(情報処理装置の動作例)
図10は、本発明の第2の実施形態における情報処理装置10の動作例を示すフローチャートである。なお、図10に示す動作例はあくまでも一例であって、情報処理装置10の動作は図10に示す動作例に限定されない。
情報処理装置10の検出部112が、所定のサウンド、及び、当該所定のサウンドが発せられた方向を検出する(S200)。例えば、認識部110は、所定のサウンドロゴ、及び、当該所定のサウンドロゴが発せられた方向を検出する。
その後、認識部110が、特定の音声コマンド、及び、当該特定の音声コマンドが発せられた方向を認識する(S201)。例えば、認識部110は、「Hello!」という所定の音声コマンドと、当該所定の音声コマンドが発せられた方向を認識する。
次に、起動部111は、認識部110によって認識された所定の音声コマンドが発せられた方向が、検出部112によって検出された所定のサウンドが発せられた方向に合致するか否かを判定する(S202)。
そして、起動部111は、認識部110によって認識された所定の音声コマンドが発せられた方向が、検出部112によって検出された所定のサウンドが発せられた方向に合致する場合(S202のYES)、情報処理装置10を起動しない(S203)。
一方、起動部111は、認識部110によって認識された所定の音声コマンドが発せられた方向が、検出部112によって検出された所定のサウンドが発せられた方向に合致しない場合(S202のNO)、情報処理装置10を起動する(S204)。
上記のように、本発明の第2の実施形態において、情報処理装置10は、所定のサウンドが発せられた方向からの特定の音声コマンドを認識しても、当該情報処理装置の起動処理を実行しない。その結果、情報処理装置10は、テレビ等から発せられる特定の音声コマンドによって、当該情報処理装置10が誤起動されることを防止することができる。また、情報処理装置10は、スリープ状態を維持するため、テレビ等から発せられる様々な音声に反応しなくなり、ユーザの意図しない処理が実行されることを防止できる。
このように、情報処理装置10は、所定のサウンドが発せられた方向を検出することによって、当該情報処理装置10の誤起動できるところ、所定のサウンドが発せられた方向の検出は、話者認識技術によって識別する場合に比べて低コストで実現可能である。そのため、本発明の第2の実施形態における紹鴎処理装置10は、低コストにより、テレビ等からの特定の音声コマンドによってスピーカーが誤起動することを低減できる。また、情報処理装置10は、所定のサウンドが発せられた方向から、特定の音声コマンドが発せられたか否かによって起動の要否を決定でき、情報処理装置10の操作を行うユーザを予め登録する必要がないため、例えば来客者など登録者以外の者が当該情報処理装置10を操作することが可能となり、利便性も向上できる。
(変形例1)
変形例1は、情報処理装置10は、所定のサウンドが発せられた方向からの特定の音声コマンドを認識した場合であっても、予め登録されたユーザが発した特定の音声コマンドであることに応答して、当該情報処理装置10を起動する場合の例である。
変形例1における情報処理装置10の記憶部105は、ユーザの音声データを予め記憶する。ユーザの音声データは、例えば、ユーザから、特定の音声コマンドなどを含む所定のフレーズを予め入力させることにより、記憶することができる。所定のフレーズは、例えば、「Hello!」や「Message」などを含み、情報処理装置10は、ユーザから予め入力された音声に基づいて、ユーザの音声データを作成する。
制御部101の認識部110は、記憶部105に記憶されているユーザの音声データに基づいて、認識した特定の音声コマンドが、予め登録されたユーザから発せられたか否かを判定する。なお、特定の音声コマンドが、予め登録されたユーザから発せられたか否かを判定することは、例えば特徴部分を比較することにより実現可能であり、話者識別技術を用いてテレビ等から発生られた音声と人間の肉声とを区別することに比べて、低コストで実現可能である。
起動部111は、検出部112が所定のサウンドの方向を検出し、当該所定のサウンドが発せられた方向からの特定の音声コマンドを認識した場合であっても、認識部110が予め登録されたユーザから発せられた特定の音声コマンドである旨を認識したことに応答して、情報処理装置10を起動する。すなわち、起動部111は、認識部110が予め登録されたユーザから発せられた特定の音声コマンドを認識した場合には、スリープ状態の情報処理装置10を、アクティブ状態に遷移させる。
図11は、本発明の第2の実施形態における情報処理装置10の他の状態を説明するための図である。図11において、ユーザ50は予め登録されたユーザであり、情報処理装置10の記憶部105には、ユーザ50の音声データが予め記憶されている。
図11において、テレビ20は、所定のサウンドを含む広告放送を放送している。なお、広告放送の内容については、図1に例示する広告放送と同様である。そのため、実際に部屋などに設置されている情報処理装置10は、所定のサウンドを検出することになる。そうすると、情報処理装置10は、所定のサウンドを検出したことにより、当該所定のサウンドが発せられた方向から特定の音声コマンド「Hello!」を受信しても、当該情報処理装置10を起動しない。すなわち、図11において、テレビ20から特定の音声コマンドが発せられても、情報処理装置10は、スリープ状態のままとなり、アクティブ状態に遷移しない。
しかしながら、図11において、ユーザ50が特定の音声コマンド「Hello!」を発した場合には、当該ユーザ50からの特定の音声コマンド「Hello!」が発せられた方向が、所定のサウンドが発せられた方向に合致する場合であっても、情報処理装置10は、特定の音声コマンド「Hello!」が予め登録されたユーザからのものであると認識することによって、起動処理を実行する。すなわち、スリープ状態の情報処理装置10は、ユーザ50からの特定の音声コマンド「Hello!」に応答して、アクティブ状態(図6の「ON」の状態)に遷移する。
上記のように、本発明の第2の実施形態の変形例1において、情報処理装置10は、所定のサウンドを検出し、当該所定のサウンドが発せられた方向から特定の音声コマンドを受信した場合(すなわち、所定のサウンドが発せられた方向からの特定の音声コマンドを認識した場合)であっても、予め登録されたユーザから発せられた特定の音声コマンドである場合には、当該情報処理装置10を起動する。そのため、情報処理装置10は、所定のサウンドが発せられた方向であっても、全く起動できなくなるわけではなく、予め登録されたユーザであれば起動可能である。その結果、予め登録されたユーザであれば、いつでも情報処理装置10を起動できることになり、利便性を向上させることができる。
(変形例2)
変形例2は、情報処理装置10が、所定のサウンドが発せられた方向から特定の音声コマンドを受信した場合(すなわち、所定のサウンドが発せられた方向からの特定の音声コマンドを認識した場合)、当該情報処理装置10を起動するか否かをユーザに対して確認する場合の形態である。なお、変形例2では、情報処理装置10は、ユーザに対して、所定のサウンドが発せられた方向から特定の音声コマンドを受信する都度、当該情報処理装置10を起動するか否かをユーザに対して確認する。
図12は、本発明の第2の実施形態の変形例2における情報処理装置10の構成例を示す図である。図12に例示するように、情報処理装置10は、例えば、制御部101と、通信部102と、入出力部103と、表示部104と、記憶部105とを含む。なお、通信部102と、入出力部103と、表示部104と、記憶部105の構成例は、図4に示す本発明の第1の実施形態における情報処理装置10の構成例と同様であるため、詳細な説明は省略する。
制御部101は、例えば、中央処理装置(CPU)やマイクロプロセッサ、ASIC、FPGAなどであってもよい。なお、制御部101は、これらの例に限られず、どのようなものであってもよい。
図12に例示するように、制御部101は、認識部110と、起動部111と、検出部112、確認部113と、を含む。
確認部113は、所定のサウンドが発せられた方向から特定の音声コマンドを受信した場合(すなわち、所定のサウンドが発せられた方向からの特定の音声コマンドを認識した場合)、当該情報処理装置10を起動するか否かをユーザに対して確認する処理を実行する。具体的には、確認部113は、例えば、「起動しますか?」や「呼んだ?」といった音声を入出力部103から出力させ、ユーザに対して、情報処理装置10を起動するか否かを確認する。
起動部111は、ユーザから、情報処理装置10を起動することを示す回答が入力されたことに応答して、情報処理装置10を起動する。例えば、起動部111は、ユーザから、「起動する」や「Hello!」などの回答が入力されたことに応答して、情報処理装置10を起動する。
一方、起動部111は、ユーザから、情報処理装置10を起動しないことを示す回答が入力されたことに応答して、又は、ユーザから何の回答もないことに応答して、情報処理装置10を起動しない。例えば、起動部111は、ユーザから、「起動しない」という回答が入力されたことに応答して、情報処理装置10を起動しない。あるいは、起動部111は、ユーザから、所定の時間、回答が入力されないことに応答して、情報処理装置10を起動しない。
上記のように、本発明の第2の実施形態の変形例2において、情報処理装置10は、所定のサウンドが発せられた方向から特定の音声コマンドを受信した場合、情報処理装置10を起動するか否かをユーザに対して確認する。これによって、ユーザの回答に応じて、情報処理装置10を起動させ、又は、起動させないため、情報処理装置10が誤起動されることを防止し、ユーザの意図しない処理が実行されることを防止できる。
(変形例3)
変形例3は、情報処理装置10が、所定のサウンドが発せられた方向から特定の音声コマンドを受信した場合(すなわち、所定のサウンドが発せられた方向からの特定の音声コマンドを認識した場合)、それ以降、情報処理装置10を起動するか否かをユーザに対して確認する場合の形態である。なお、変形例3では、情報処理装置10は、ユーザに対して一度確認処理を実行し、ユーザから回答が入力された場合、それ以降の確認処理は実行せず、それ以降に認識する特定の音声コマンドに対しては、一度入力されたユーザの回答に従って、情報処理装置10を起動する、又は、起動しない。
変形例3における情報処理装置10の構成例は、図12に示す本発明の第2の実施形態の変形例2の情報処理装置10の構成例と同様であるため、詳細な説明は省略する。
確認部113は、所定のサウンドが発せられた方向から特定の音声コマンドを受信した場合(すなわち、所定のサウンドが発せられた方向からの特定の音声コマンドを認識した場合)、当該情報処理装置10を起動するか否かをユーザに対して確認する処理を実行する。具体的には、確認部113は、例えば、「起動しますか?」や「呼んだ?」という音声を入出力部103から出力させ、ユーザに対して、情報処理装置10を起動するか否かを確認する。
起動部111は、ユーザから、情報処理装置10を起動することを示す回答が入力されたことに応答して、それ以降、所定のサウンドが発せられた方向から特定の音声コマンドを受信した場合(すなわち、所定のサウンドが発せられた方向からの特定の音声コマンドを認識した場合)、情報処理装置10を起動する。例えば、起動部111は、ユーザから、「起動する」や「Hello!」などの回答が入力されたことに応答して、それ以降、所定のサウンドが発せられた方向から特定の音声コマンドを受信した場合、情報処理装置10を起動する。
一方、起動部111は、ユーザから、情報処理装置10を起動しないことを示す回答が入力されたことに応答して、又は、ユーザから何の回答もないことに応答して、それ以降、所定のサウンドが発せられた方向から特定の音声コマンドを受信した場合(すなわち、所定のサウンドが発せられた方向からの特定の音声コマンドを認識した場合)、情報処理装置10を起動しない。例えば、起動部111は、ユーザから、「起動しない」という回答が入力されたことに応答して、それ以降、所定のサウンドが発せられた方向から特定の音声コマンドを受信した場合には、情報処理装置10を起動しない。あるいは、起動部111は、ユーザから、所定の時間、回答が入力されないことに応答して、それ以降、所定のサウンドが発せられた方向から特定の音声コマンドを受信した場合には、情報処理装置10を起動しない。
上記のように、本発明の第2の実施形態の変形例3において、情報処理装置10は、所定のサウンドが発せられた方向から特定の音声コマンドを受信した場合(すなわち、所定のサウンドが発せられた方向からの特定の音声コマンドを認識した場合)、情報処理装置10を起動するか否かをユーザに対して確認する。これによって、ユーザの回答に応じて、情報処理装置10を起動させ、又は、起動させないため、情報処理装置10が誤起動されることを防止し、ユーザの意図しない処理が実行されることを防止できる。また、変形例3では、一度確認処理を実行した場合には、一度入力されたユーザの回答に従って、情報処理装置10を起動する、又は、起動しない。そのため、情報処理装置10は、所定のサウンドが発せられた方向から特定の音声コマンドをするごとに確認処理を実行しなくなり、利便性も向上する。
(変形例4)
変形例4は、情報処理装置10が、所定のサウンドが発せられた方向が変化した場合に、当該情報処理装置10の設置場所が変化したことを検出し、変化後の設置場所に基づいて、情報処理装置10の設置場所に依存するパラメータを再設定する場合の形態である。
図13は、本発明の第2の実施形態の変形例4における情報処理装置10の構成例を示す図である。図13に例示するように、情報処理装置10は、例えば、制御部101と、通信部102と、入出力部103と、表示部104と、記憶部105とを含む。なお、通信部102と、入出力部103と、表示部104と、記憶部105の構成例は、図4に示す本発明の第1の実施形態における情報処理装置10の構成例と同様であるため、詳細な説明は省略する。
制御部101は、例えば、中央処理装置(CPU)やマイクロプロセッサ、ASIC、FPGAなどであってもよい。なお、制御部101は、これらの例に限られず、どのようなものであってもよい。
図13に例示するように、制御部101は、認識部110と、起動部111と、検出部112、設定部114と、を含む。
検出部112は、所定のサウンドに加えて、当該所定のサウンドが発せられた方向を検出する。検出部112が、所定のサウンドが発せられた方向を検出する方法は、図8や図9に例示する方法などを用いることができる。
また、検出部112は、自装置から見て所定のサウンドが発せられた方向が変化したことを検出する。検出部112は、前回検出した所定のサウンドが発せられた方向と、今回検出した所定のサウンドが発せられた方向とを比較して、所定量以上の違いがある場合に、自装置から見て所定のサウンドが発せられた方向が変化したと判定する。所定量は、図8及び図9に例示したα乃至δ各々の変化量であり、例えば5[度]である。なお、所定量は、どのような値であってもよい。
また、検出部112は、自装置から見て所定のサウンドが発せられた方向が変化したことを検出した場合に、情報処理装置10の設置場所が変化したことを検出する。なお、検出部112は、自装置から見て所定のサウンドが発せられた方向が変化した変化量に基づいて、所定のサウンドが発せられた物体との相対的な位置を算出し、当該相対的な位置に基づいて、情報処理装置10の設置場所を推定してもよい。
設定部114は、情報処理装置10の設置場所に依存するパラメータを設定する処理を実行する。設置場所に依存するパラメータは、例えば、入出力部103における音声の受信感度や、当該入出力部103から出力する音声の大きさなどである。なお、設置場所に依存するパラメータは、これらの例に限られず、どのようなものであってもよい。音声の受信感度や、出力する音声の大きさは、情報処理装置10の設置場所に応じて変化させることが望ましい。そこで、設定部114は、変化後の情報処理装置10の設置場所に基づいて、設置場所に依存するパラメータを再設定する処理を実行する。
上記のように、本発明の第2の実施形態の変形例4において、情報処理装置10は、自装置から見て所定のサウンドが発せられた方向が変化した場合に、当該情報処理装置10の設置場所が変化したことを検出し、変化後の設置場所に基づいて、情報処理装置10の設置場所に依存するパラメータを再設定する。これによって、情報処理装置10は、自動的に設置場所に依存するパラメータを変更することが可能となり、利便性を向上させることができる。
本開示の各実施形態のプログラムは、コンピュータに読み取り可能な記憶媒体に記憶された状態で提供されてもよい。記憶媒体は、「一時的でない有形の媒体」に、プログラムを記憶可能である。記憶媒体は、HDDやSDDなどの任意の適切な記憶媒体、またはこれらの2つ以上の適切な組合せを含むことができる。記憶媒体は、揮発性、不揮発性、または揮発性と不揮発性の組合せでよい。なお、記憶媒体はこれらの例に限られず、プログラムを記憶可能であれば、どのようなデバイスまたは媒体であってもよい。
なお、情報処理装置10は、例えば、記憶媒体に記憶されたプログラムを読み出し、読み出したプログラムを実行することによって、各実施形態に示す複数の機能部の機能を実現することができる。また、当該プログラムは、任意の伝送媒体(通信ネットワークや放送波等)を介して、情報処理装置10に提供されてもよい。情報処理装置10は、例えば、インターネット等を介してダウンロードしたプログラムを実行することにより、各実施形態に示す複数の機能部の機能を実現する。
なお、当該プログラムは、例えば、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective―C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。
情報処理装置10における処理の少なくとも一部は、1以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよい。
本開示の実施形態を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本開示の範囲に含まれることに留意されたい。例えば、各手段、各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段やステップ等を1つに組み合わせたり、或いは分割したりすることが可能である。また、各実施形態に示す構成を適宜組み合わせることとしてもよい。