JP6728261B2

JP6728261B2 - 音声で操作可能な情報処理装置、制御方法及びプログラム

Info

Publication number: JP6728261B2
Application number: JP2018063184A
Authority: JP
Inventors: 達郎五十嵐
Original assignee: SoftBank Corp
Current assignee: SoftBank Corp
Priority date: 2018-03-28
Filing date: 2018-03-28
Publication date: 2020-07-22
Anticipated expiration: 2038-03-28
Also published as: JP2019174665A

Description

本発明は、音声で操作可能な情報処理装置、制御方法及びプログラムに関する。

従来、ユーザからの特定の音声コマンド（ウェイクワード）に反応して起動するスピーカーが知られていた。そして、このようなスピーカーに関し、ユーザ以外からの特定の音声コマンドによって、当該スピーカーが誤起動してしまうことを防止する技術が開発されていた。例えば、特許文献１には、スピーカーに呼びかけたユーザ（発話者）が、予め許可されたユーザか、当該ユーザ以外の詐称者かを、話者識別技術により判別することが開示されている。そして、特許文献１に記載のスピーカーは、予め登録された登録者からの音声コマンドのみに反応して起動することによって、ユーザ以外からの音声コマンドによる誤起動を防止している。

特開２０１７―０６８２４３号公報

ここで、ユーザ以外からの特定の音声コマンドとして、例えば、テレビやラジオ、ＰＣなどから発せられる特定の音声コマンドが考えられる。このようなテレビ等からの特定の音声コマンドによってスピーカーが誤起動することを、防止する必要がある。

しかしながら、テレビ等からの音声を特許文献１に記載の話者識別技術によって識別するには、テレビ等からの音声が高音質化していることもあり、高コストになるおそれがある。

また、特許文献１に記載のスピーカーは、予め登録された登録者でなければスピーカーを操作できないため、例えば来客者など登録者以外の者がスピーカーを全く操作できなくなってしまい、利便性に欠けるという問題も生じる。

そこで、本発明は、上述のような問題に鑑み、利便性を保ちつつ、且つ、低コストにより、テレビ等からの特定の音声コマンドによって誤起動することを低減可能な情報処理装置、制御方法及びプログラムを提供することを目的とする。

本発明の一実施形態における情報処理装置は、音声によって操作可能な情報処理装置であって、特定の音声コマンドを認識する認識部と、特定の音声コマンドに応答して、情報処理装置を起動する起動部と、所定のサウンドを検出する検出部と、を備え、起動部は、所定のサウンドを検出した場合、所定の期間、特定の音声コマンドに応答した情報処理装置の起動処理を停止することを特徴とする。

本発明の一実施形態における情報処理装置において、所定のサウンドは、広告放送に含まれる所定のサウンドロゴであり、検出部は、広告放送に含まれる所定のサウンドロゴを検出し、起動部は、所定のサウンドロゴを検出した場合、所定の期間、特定の音声コマンドに応答した情報処理装置の起動処理を停止することを特徴としてもよい。

本発明の一実施形態における情報処理装置において、認識部は、予め登録されたユーザが発した特定の音声コマンドを認識し、起動部は、所定の期間において、予め登録されたユーザ以外のユーザが発した特定の音声コマンドに対しては情報処理装置の起動処理を停止し、予め登録されたユーザが発した特定の音声コマンドに対しては情報処理装置を起動することを特徴としてもよい。

本発明の一実施形態における情報処理装置において、検出部は、所定のサウンドに加えて、当該所定のサウンドが発せられた方向を検出し、起動部は、所定の期間において、所定のサウンドが発せられた方向から発せられた特定の音声コマンドに対しては情報処理装置の起動処理を停止し、所定のサウンドが発せられた方向以外の方向から発せられた特定の音声コマンドに対しては情報処理装置を起動することを特徴としてもよい。

本発明の一実施形態における情報処理装置において、所定の期間は、複数種類の所定のサウンドの各々に対応して設定され、検出部は、複数種類の所定のサウンドの少なくとも１つを検出可能であり、起動部は、検出部が検出した所定のサウンドに対応して設定された所定の期間、特定の音声コマンドに応答した情報処理装置の起動処理を停止することを特徴としてもよい。

本発明の一実施形態における制御方法は、音声によって操作可能な情報処理装置の制御方法であって、特定の音声コマンドを認識する認識ステップと、特定の音声コマンドに応答して、情報処理装置を起動する起動ステップと、所定のサウンドを検出する検出ステップと、を含み、起動ステップにおいて、所定のサウンドを検出した場合、所定の期間、特定の音声コマンドに応答した情報処理装置の起動処理を停止することを特徴とする。

本発明の一実施形態におけるプログラムは、音声によって操作可能な情報処理装置を、特定の音声コマンドを認識する認識手段と、特定の音声コマンドに応答して、情報処理装置を起動する起動手段と、所定のサウンドを検出する検出手段、として機能させ、起動手段において、所定のサウンドを検出した場合、所定の期間、特定の音声コマンドに応答した情報処理装置の起動処理を停止することを特徴とする。

本発明の一実施形態における情報処理装置は、音声によって操作可能な情報処理装置であって、特定の音声コマンドを認識する認識部と、特定の音声コマンドに応答して、情報処理装置を起動する起動部と、所定のサウンドが発せられた方向を検出する検出部と、を備え、起動部は、当該方向からの特定の音声コマンドに応答した情報処理装置の起動処理を実行しないことを特徴とする。

本発明の一実施形態における情報処理装置において、所定のサウンドは、広告放送に含まれる所定のサウンドロゴであり、検出部は、広告放送に含まれる所定のサウンドロゴが発せられた方向を検出し、起動部は、当該方向からの特定の音声コマンドに応答した情報処理装置の起動処理を実行しないことを特徴としてもよい。

本発明の一実施形態における情報処理装置において、認識部は、当該方向から予め登録されたユーザが発した特定の音声コマンドを認識し、起動部は、当該方向から特定の音声コマンドを認識した場合、予め登録されたユーザ以外のユーザが発した特定の音声コマンドに対しては情報処理装置の起動処理を停止し、予め登録されたユーザが発した特定の音声コマンドに対しては情報処理装置を起動することを特徴としてもよい。

本発明の一実施形態における情報処理装置において、当該方向から特定の音声コマンドを認識した場合、情報処理装置を起動するか否かをユーザに対して確認する確認部を、さらに備えることを特徴としてもよい。

本発明の一実施形態における情報処理装置において、起動部は、ユーザから情報処理装置を起動する旨の回答が入力された場合、当該回答が入力された以降、当該方向から特定の音声コマンドを認識したことに応答して、情報処理装置を起動することを特徴としてもよい。

本発明の一実施形態における情報処理装置において、情報処理装置の設置場所に依存するパラメータを設定する設定部を、さらに備え、検出部は、自装置から見て所定のコマンドが発せられた方向が変化した場合に、情報処理装置の設置場所が変化したことを検出し、設定部は、変化後の設置場所に基づいて、当該パラメータを再設定することを特徴としてもよい。

本発明の一実施形態における制御方法は、音声によって操作可能な情報処理装置の制御方法であって、特定の音声コマンドを認識する認識ステップと、特定の音声コマンドに応答して、情報処理装置を起動する起動ステップと、所定のサウンドが発せられた方向を検出する検出ステップと、を含み、起動ステップにおいて、当該方向からの特定の音声コマンドに応答した情報処理装置の起動処理を実行しないことを特徴とする。

本発明の一実施形態におけるプログラムは、音声によって操作可能な情報処理装置を、特定の音声コマンドを認識する認識手段と、特定の音声コマンドに応答して、情報処理装置を起動する起動手段と、所定のサウンドが発せられた方向を検出する検出手段、として機能させ、検出手段において、当該方向からの特定の音声コマンドに応答した情報処理装置の起動処理を実行しないことを特徴とする。

本発明によれば、利便性を保ちつつ、且つ、低コストにより、テレビ等からの特定の音声コマンドによって誤起動することを低減可能な情報処理装置、制御方法及びプログラムを提供できる。

従来の情報処理装置の状態を説明するための図である。本発明の第１の実施形態における情報処理装置の状態を説明するための図である。本発明の第１の実施形態における情報処理システムの構成例を示す図である。本発明の第１の実施形態における情報処理装置の構成例を示す図である。本発明の第１の実施形態における情報処理装置の動作例を示すフローチャートである。本発明の第１の実施形態における情報処理装置の他の状態を説明するための図である。本発明の第２の実施形態における情報処理装置の状態を説明するための図である。本発明の第２の実施形態における検出部によって所定のサウンドが発せられた方向を検出する動作を説明するための図である。本発明の第２の実施形態における検出部によって所定のサウンドが発せられた方向を検出する他の状態を説明するための図である。本発明の第２の実施形態における情報処理装置の動作例を示すフローチャートである。本発明の第２の実施形態における情報処理装置の他の状態を説明するための図である。本発明の第２の実施形態の変形例２における情報処理装置の構成例を示す図である。本発明の第２の実施形態の変形例４における情報処理装置の構成例を示す図である。

＜第１の実施形態＞
本発明の第１の実施形態について、図面を参照して説明する。

本発明の第１の実施形態において、スマートスピーカー（ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）スピーカー）などの情報処理装置は、音声を認識し、当該音声に対応した各種動作を実行可能である。例えば、情報処理装置は、ユーザからの特定の音声コマンド（例えば、「Ｈｅｌｌｏ！」）を認識し、当該特定の音声コマンドに応答して起動することができる。なお、情報処理装置の起動は、当該情報処理装置をスリープ状態からアクティブ状態に遷移させることである。また、特定の音声コマンドの詳細は、後述する。

そして、このような情報処理装置は、人間の肉声だけでなく、テレビやラジオ、ＰＣなどが発する音声も認識する可能性がある。そのため、テレビ等が発した特定の音声コマンドによって、情報処理装置が起動してしまうおそれがある。

特に、テレビやラジオ、配信動画において、情報処理装置（スマートスピーカー）の広告放送（いわゆるＣＭ（ＣｏｍｍｅｒｃｉａｌＭｅｓｓａｇｅ））を行う場合には、当該情報処理装置の動作を視聴者に伝えるために、特定の音声コマンドを発せざるを得ない状況が想定される。このような場合、テレビ等における広告放送内において発せられる特定の音声コマンドによって、情報処理装置が起動してしまうおそれが高まる。

図１は、従来の情報処理装置の状態を説明するための図である。図１において、情報処理装置１０は、実際に部屋などに設置されるスマートスピーカーである。また、図１の例では、テレビ２０において、情報処理装置（スマートスピーカー）の広告放送（ＣＭ）が放送されている。具体的には、テレビ２０は、広告放送として、“登場人物３０が、情報処理装置１０Ａに対して、特定の音声コマンド「Ｈｅｌｌｏ！」を発している場面”を放送している。なお、図１において、情報処理装置１０Ａは、広告放送内の情報処理装置であって、仮想的なものである。

このような広告放送がテレビ２０により放送されると、実際に部屋などに設置されている情報処理装置１０が、テレビ２０から出力される特定の音声コマンド「Ｈｅｌｌｏ！」を認識してしまい、当該情報処理装置１０が起動してしまう。言い換えると、情報処理装置１０が、スリープ状態から、アクティブ状態（図１の「ＯＮ」の状態）に遷移してしまう。

そして、情報処理装置１０が一度起動すると、当該情報処理装置１０はアクティブ状態となるので、音声による各種処理の実行の指示を受け付けてしまう。そのため、情報処理装置１０が、テレビ等から発せられる様々な音声に反応してしまい、ユーザの意図しない処理を実行してしまうという問題が生じる。

そこで、本発明の第１の実施形態では、テレビ等において放送される広告放送（ＣＭ）などに、所定のサウンドが含まれている。例えば、情報処理装置１０を販売等する企業が、当該情報処理装置１０の広告放送（ＣＭ）などに、所定のサウンドを含ませる。そして、情報処理装置１０は、所定のサウンドを検出した場合、その後特定の音声コマンドを認識しても、所定の期間、起動処理を停止するように構成される。なお、所定のサウンドや所定の期間の詳細は、後述する。

図２は、本発明の第１の実施形態における情報処理装置１０の状態を説明するための図である。図２において、テレビ２０は、所定のサウンド４０を含む広告放送を放送している。なお、広告放送の内容については、図１に例示する広告放送と同様である。

このような広告放送がテレビ２０により放送されると、実際に部屋などに設置されている情報処理装置１０は、所定のサウンド４０を検出する。そうすると、情報処理装置１０は、所定のサウンドを検出したことにより、その後特定の音声コマンド「Ｈｅｌｌｏ！」を認識しても、所定の期間、当該情報処理装置１０の起動処理を停止する。すなわち、情報処理装置１０は、所定のサウンドを検出してから所定の期間を、特定の音声コマンドを認識しても当該情報処理装置１０を起動しない不感期間として設定する。そして、情報処理装置１０は、不感期間に特定の音声コマンドを認識しても起動しない。例えば、図２において、所定のサウンドを検出してから所定の期間に、テレビ２０から特定の音声コマンドが発せられても、情報処理装置１０は、スリープ状態（図２の「ＯＦＦ」の状態）のままとなり、アクティブ状態に遷移しない。

その結果、本発明の第１の実施形態における情報処理装置１０は、スリープ状態を維持するため、テレビ等から発せられる様々な音声に反応しなくなり、ユーザの意図しない処理が実行されることを防止できる。

（システム構成）
図３は、本発明の第１の実施形態における情報処理システムの構成例を示す図である。図３に示すように、情報処理システムは、情報処理装置１０と、サーバ装置２００と、ネットワーク３００とを含む。なお、情報処理装置１０やサーバ装置２００の数は、１つに限られず、いくつであってもよい。

情報処理装置１０は、音声によって操作可能な装置であり、音声を認識して、所定の処理を実行可能な機能を備える。情報処理装置１０は、例えば、スマートスピーカー（ＡＩスピーカー）である。スマートスピーカーは、音声対話型の機能を有し、例えばユーザが音声で指示することにより、所定の処理を実行可能である。所定の処理は、例えば、情報処理装置１０を起動することである。情報処理装置１０の起動は、スリープ状態の情報処理装置１０を、アクティブ状態に遷移させる処理である。スリープ状態は、情報処理装置１０の処理が制限された状態である。例えば、スリープ状態において、情報処理装置１０の処理は、音声による入力を受け付ける処理のみに制限される。そして、情報処理装置１０は、スリープ状態において、音声による入力によって特定の音声コマンドを認識した後でなければ、アクティブ状態に遷移しない。

一方、アクティブ状態は、情報処理装置１０が各種処理を実行可能な状態である。ユーザは、アクティブ状態の情報処理装置１０に対して、音声により、各種処理の実行を指示することが可能である。各種処理は、例えば、音楽を再生する処理や、インターネットにおける検索エンジンを用いた検索処理、各種ＷＥＢサイトにおける商品購入処理などである。例えば、情報処理装置１０は、ユーザからの「音楽を再生して」という音声による指示に応答して、音楽を再生する処理を実行する。また、各種処理は、家電製品に対する各種指示（当該家電製品をＯＮ／ＯＦＦする処理など）や、音声データのテキストデータへの変換処理、メール等による他装置（図示しない）への送信処理、簡単な会話処理などを含んでいてもよい。なお、情報処理装置１０が実行可能な処理は、これらの例に限られず、どのような処理であってもよい。

サーバ装置２００は、所定のサービスを提供可能な装置であり、例えば検索エンジンやＷＥＢサーバである。サーバ装置２００は、情報処理装置１０からのアクセスを受け付け、所定のサービスを提供可能である。例えば、サーバ装置２００は、情報処理装置１０に対して、商品を購入可能なＷＥＢサイトを提供する。

ネットワーク３００は、情報処理装置１０とサーバ装置２００を相互に接続させるためのネットワークであり、例えば、無線ネットワークや有線ネットワークである。具体的には、ネットワーク３００は、ワイヤレスＬＡＮ（ｗｉｒｅｌｅｓｓＬＡＮ：ＷＬＡＮ）や広域ネットワーク（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ：ＷＡＮ）、ＩＳＤＮｓ（ｉｎｔｅｇｒａｔｅｄｓｅｒｖｉｃｅｄｉｇｉｔａｌｎｅｔｗｏｒｋｓ）、無線ＬＡＮｓ、ＬＴＥ（ｌｏｎｇｔｅｒｍｅｖｏｌｕｔｉｏｎ）、ＬＴＥ−Ａｄｖａｎｃｅｄ、第４世代（４Ｇ）、第５世代（５Ｇ）、ＣＤＭＡ（ｃｏｄｅｄｉｖｉｓｉｏｎｍｕｌｔｉｐｌｅａｃｃｅｓｓ）、ＷＣＤＭＡ（登録商標）などである。

また、ネットワーク３００は、これらの例に限られず、例えば、公衆交換電話網（ＰｕｂｌｉｃＳｗｉｔｃｈｅｄＴｅｌｅｐｈｏｎｅＮｅｔｗｏｒｋ：ＰＳＴＮ）やブルートゥース（Ｂｌｕｅｔｏｏｔｈ（登録商標））、光回線、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）回線、衛星通信網などであってもよく、どのようなネットワークであってもよい。

また、ネットワーク３００、例えば、ＮＢ−ＩｏＴ（ＮａｒｒｏｗＢａｎｄＩｏＴ）や、ｅＭＴＣ（ｅｎｈａｎｃｅｄＭａｃｈｉｎｅＴｙｐｅＣｏｍｍｕｎｉｃａｔｉｏｎ）であってもよい。なお、ＮＢ−ＩｏＴやｅＭＴＣは、ＩｏＴ向けの無線通信方式であり、低コスト、低消費電力で長距離通信が可能なネットワークである。また、ネットワーク３００は、Ｖ２Ｘ（ＶｅｈｉｃｌｅｔｏＥｖｅｒｙｔｈｉｎｇ：車車間通信又は路車間通信）に用いられる通信ネットワークであってもよい。Ｖ２Ｘは、例えば、自動車と自動車(車車間)、又は、自動車と信号機や道路標識などのインフラ(路車間)が、直接相互に通信する通信方式である。

また、ネットワーク３００は、これらの組み合わせであってもよい。また、ネットワーク３００は、これらの例を組み合わせた複数の異なるネットワークを含むものであってもよい。例えば、ネットワーク３００は、ＬＴＥによる無線ネットワークと、閉域網であるイントラネットなどの有線ネットワークとを含むものであってもよい。

（情報処理装置の構成例）
図４は、本発明の第１の実施形態における情報処理装置１０の構成例を示す図である。図４に例示するように、情報処理装置１０は、例えば、制御部１０１と、通信部１０２と、入出力部１０３と、表示部１０４と、記憶部１０５とを含む。

通信部１０２は、ネットワーク３００を介して各種データや情報、信号の送受信を行う通信インタフェースである。通信部１０２は、ネットワーク３００を介して、サーバ装置２００との通信を実行する機能を有する。また、通信部１０２は、ＢｌｕｅＴｏｏｔｈなどの近距離無線通信を介して、情報処理装置１０の近距離に存在する他の装置（図示しない）との間で、各種の処理を実行するための信号等の送受信を実行してもよい。例えば、通信部１０２は、家電製品に対して、当該家電製品の起動を指示する制御信号を送信してもよい。

入出力部１０３は、情報処理装置１０に対する各種操作を入力する装置により実現される。入出力部１０３は、キーボードやマウス、タッチパネル、マイク（マイクロホン）、各種センサなどである。入出力部１０３は、例えば、マイクを含み、音声による入力を受け付ける。音声による入力は、例えば、情報処理装置１０を起動するための特定の音声コマンド（音声による命令）である。なお、特定の音声コマンドは、ウェイクワードやホットワード、呼びかけ、などと呼称されてもよい。また、上述したように、情報処理装置１０の起動は、スリープ状態の情報処理装置１０を、アクティブ状態に遷移させる処理である。

特定の音声コマンドは、予め定められた語句であり、情報処理装置１０を起動するためにユーザが呼びかける語句である。例えば、特定の音声コマンドは、「Ｈｅｌｌｏ」や「ＯｋＣｏｍｐｕｔｅｒ」などであり、どのような語句であってもよい。また、特定の音声コマンドは、複数の語句の組み合わせ（例えば、「ＯｋＣｏｍｐｕｔｅｒ」）であってもよい。また、特定の音声コマンドは、語句を複数回繰り返すもの（例えば、「Ｈｅｌｌｏ」を３回繰り返すなど）であってもよい。また、特定の音声コマンドは、ユーザが適宜変更可能であってもよい。

また、音声による入力は、アクティブ状態の情報処理装置１０に対して、各種処理の実行を指示するものであってもよい。例えば、入出力部１０３は、「音楽を再生して」や「今日の天気は？」などの音声による指示を受け付けることができる。なお、音声による入力は、これらの例に限られず、どのようなものであってもよい。

さらに、入出力部１０３は、所定のサウンド（音データを含む）の入力を受け付け可能である。所定のサウンドは、例えば、広告放送に含まれる所定のサウンドロゴである。例えば、複数のサウンドロゴのうち、予め定められた所定のサウンドロゴが、所定のサウンドとして設定される。

サウンドロゴは、企業などが、テレビやラジオ、配信動画などの広告放送（ＣＭ）において、当該企業又は当該企業の商品に対して付されるメロディーや効果音、曲、音声などの音響である。サウンドロゴは、例えば数秒間などの短い音響であってもよいし、広告放送の開始から終了まで流れる数十秒程度の長い音響であってもよく、どのような長さであってもよい。

また、所定のサウンドは、サウンドロゴに限られず、所定のメロディーや効果音、曲、音声であってもよい。また、所定のサウンドは、人間が聞こえる必要はなく、情報処理装置１０が検出可能な音情報であれば、例えばモスキート音等の高周波など、どのようなものであってもよい。また、所定のサウンドは、どのような長さであってもよい。

なお、情報処理装置１０は、所定のサウンドを検出した場合、所定の期間、その後特定の音声コマンドを受け付けても、当該情報処理装置１０を起動することを停止する。具体的には、スリープ状態の情報処理装置１０は、所定のサウンドを検出した場合、所定の期間、「Ｈｅｌｌｏ！」という所定の音声コマンドを受け付けても、アクティブ状態に遷移しない。

表示部１０４は、例えば、液晶ディスプレイやＯＥＬＤである。なお、表示部１０４は、これらの例に限定されず、ヘッドマウントディスプレイ（ＨＭＤ）などであってもよい。表示部１０４は、フレームバッファに書き込まれた表示データに従って、画像やテキスト情報、３Ｄ（ｔｈｒｅｅｄｉｍｅｎｓｉｏｎａｌ）などの表示データを表示可能である。

記憶部１０５は、情報処理装置１０が動作するうえで必要とする各種プログラムや各種データを記憶する機能を有する。記憶部１０５は、例えば、ＨＤＤ、ＳＳＤ、フラッシュメモリなど各種の記憶媒体により実現される。なお、情報処理装置１０は、プログラムを記憶部１０５に記憶し、当該プログラムを実行して、制御部１０１が、当該制御部１０１に含まれる各部としての処理を実行してもよい。当該プログラムは、情報処理装置１０に、制御部１０１が実行する各機能を実現させる。

制御部１０１は、例えば、中央処理装置（ＣＰＵ）やマイクロプロセッサ、ＡＳＩＣ、ＦＰＧＡなどであってもよい。なお、制御部１０１は、これらの例に限られず、どのようなものであってもよい。

図４に例示するように、制御部１０１は、認識部１１０と、起動部１１１と、検出部１１２とを含む。

認識部１１０は、特定の音声コマンドを認識する機能を備える。認識部１１０は、情報処理装置１０がスリープ状態又はアクティブ状態である場合において、入出力部１０３から入力された音声に含まれる特定の音声コマンドを認識する。具体的には、認識部１１０は、入出力部１０３から入力された音声に含まれる、「Ｈｅｌｌｏ！」や「ＯｋＣｏｍｐｕｔｅｒ」などの特定の音声コマンドを認識する。

検出部１１２は、所定のサウンドを検出する機能を備える。例えば、検出部１１２は、テレビやラジオ、動画配信サービスなどにおける広告放送に含まれる所定のサウンドロゴを検出する。なお、検出部１１２は、認識部１１０による特定の音声コマンドの認識とは無関係に、所定のサウンドを検出可能である。

起動部１１１は、認識部１１０が特定の音声コマンドを認識したことに応答して、情報処理装置１０を起動する機能を備える。具体的には、起動部１１１は、認識部１１０が特定の音声コマンドを認識したことに応答して、スリープ状態の情報処理装置１０を、アクティブ状態に遷移させる。なお、上述したように、スリープ状態は、情報処理装置１０の処理が制限された状態であり、例えば、音声による入力を受け付ける処理のみに制限された状態である。一方、アクティブ状態は、情報処理装置１０が各種処理を実行可能な状態であり、例えば、ユーザから音声による各種処理の実行の指示を受け付けできる状態である。

また、起動部１１１は、所定のサウンドを検出した場合、所定の期間、特定の音声コマンドに応答した情報処理装置１０を起動する処理（起動処理）を停止する。すなわち、起動部１１１は、所定のサウンドを検出した場合、所定の期間、「Ｈｅｌｌｏ！」という所定の音声コマンドを受け付けても、スリープ状態の情報処理装置１０をアクティブ状態に遷移する処理を実行しない。

所定の期間は、例えば、所定のサウンドが含まれる広告放送（ＣＭ）の長さであり、３０秒や１分などである。ここで、テレビ等が特定の音声コマンドを発する可能性が高いのは、当該広告放送の時間である。そこで、起動部１１１は、テレビ等において広告放送の長さを所定の期間（すなわち、不感期間）として設定し、当該所定の期間（不感期間）に特定の音声コマンドを認識しても、情報処理装置１０を起動しない。なお、所定の期間は、これらの例に限られず、例えば５分など、どのような長さに設定されてもよい。

（情報処理装置の動作例）
図５は、本発明の第１の実施形態における情報処理装置１０の動作例を示すフローチャートである。なお、図５に示す動作例はあくまでも一例であって、情報処理装置１０の動作は図５に示す動作例に限定されない。

情報処理装置１０の検出部１１２が、所定のサウンドを認識する（Ｓ１００）。例えば、認識部１１０は、所定のサウンドロゴを認識する。

その後、認識部１１０が、特定の音声コマンドを認識する（Ｓ１０１）。例えば、認識部１１０は、「Ｈｅｌｌｏ！」という所定の音声コマンドを認識する。

起動部１１１は、認識部１１０が所定の音声コマンドを認識したことに応答して、検出部１１２が所定のサウンドを検出してから所定の期間経過したか否かを判定する（Ｓ１０２）。

起動部１１１は、所定の期間経過していた場合（Ｓ１０２のＹＥＳ）、情報処理装置１０を起動する（Ｓ１０３）。具体的には、起動部１１１は、スリープ状態の情報処理装置１０を、アクティブ状態に遷移させる。一方、起動部１１１は、所定の期間経過していない場合（Ｓ１０２のＮＯ）、情報処理装置１０の起動処理を停止する（Ｓ１０４）。具体的には、起動部１１１は、スリープ状態の情報処理装置１０を、アクティブ状態に遷移させる処理を実行しない。

上記のように、本発明の第１の実施形態において、情報処理装置１０は、所定のサウンドを検出した場合、その後特定の音声コマンドを認識しても、所定の期間、当該情報処理装置１０の起動処理を停止する。その結果、情報処理装置１０は、テレビ等から発せられる特定の音声コマンドによって、当該情報処理装置１０が誤起動されることを防止することができる。また、情報処理装置１０は、スリープ状態を維持するため、テレビ等から発せられる様々な音声に反応しなくなり、ユーザの意図しない処理が実行されることを防止できる。

このように、情報処理装置１０は、所定のサウンドを検出させることによって、当該情報処理装置１０の誤起動できるところ、所定のサウンドの検出は、話者認識技術によって識別する場合に比べて低コストで実現可能である。したがって、本発明の第１の実施形態における情報処理装置１０は、低コストにより、テレビ等からの特定の音声コマンドによってスピーカーが誤起動することを低減できる。また、本発明の第１の実施形態における情報処理装置１０は、所定のサウンドの有無によって起動の要否を決定でき、情報処理装置１０の操作を行うユーザを予め登録する必要がないため、例えば来客者など登録者以外の者が当該情報処理装置１０を操作することが可能となり、利便性も向上できる。

（変形例１）
変形例１は、情報処理装置１０が所定のサウンドを検出した場合であっても、予め登録されたユーザが発した特定の音声コマンドを認識したことに応答して、当該情報処理装置１０を起動する場合の形態である。

変形例１における情報処理装置１０の記憶部１０５は、ユーザの音声データを予め記憶する。ユーザの音声データは、例えば、ユーザから、特定の音声コマンドなどを含む所定のフレーズを予め入力させることにより、記憶することができる。所定のフレーズは、例えば、「Ｈｅｌｌｏ！」や「Ｍｅｓｓａｇｅ」など複数種類の語句であり、情報処理装置１０は、ユーザから予め入力された音声に基づいて、ユーザの音声データを作成する。

制御部１０１の認識部１１０は、記憶部１０５に記憶されているユーザの音声データに基づいて、認識した特定の音声コマンドが、予め登録されたユーザから発せられたか否かを判定する。なお、特定の音声コマンドが、予め登録されたユーザから発せられたか否かを判定することは、例えば特徴部分を比較することにより実現可能である。そして、特定の音声コマンドが、予め登録されたユーザから発せられたか否かを判定することは、例えば、話者識別技術を用いてテレビ等から発生られた音声と人間の肉声とを区別することに比べて、低コストで実現可能である。

起動部１１１は、検出部１１２が所定のサウンドを検出し、当該所定のサウンドの検出から所定の期間内であっても、認識部１１０が予め登録されたユーザから発せられた特定の音声コマンドを認識した場合には、情報処理装置１０を起動する。すなわち、起動部１１１は、認識部１１０が予め登録されたユーザから発せられた特定の音声コマンドを認識した場合には、スリープ状態の情報処理装置１０を、アクティブ状態に遷移させる。

図６は、本発明の第１の実施形態における情報処理装置１０の他の状態を説明するための図である。図６において、ユーザ５０は予め登録されたユーザであり、情報処理装置１０の記憶部１０５には、ユーザ５０の音声データが予め記憶されている。

図６において、テレビ２０は、所定のサウンド４０を含む広告放送を放送している。なお、広告放送の内容については、図１に例示する広告放送と同様である。図６において、実際に部屋などに設置されている情報処理装置１０は、テレビ２０から発せられる所定のサウンド４０を検出することになる。そうすると、情報処理装置１０は、所定のサウンドを検出したことに応答して、その後特定の音声コマンド「Ｈｅｌｌｏ！」を認識しても、所定の期間、当該情報処理装置１０の起動処理を停止する。すなわち、図６において、テレビ２０から特定の音声コマンドが発せられても、情報処理装置１０は、スリープ状態のままとなり、アクティブ状態に遷移しない。

しかしながら、図６において、ユーザ５０が特定の音声コマンド「Ｈｅｌｌｏ！」を発した場合には、情報処理装置１０は、当該ユーザ５０からの特定の音声コマンド「Ｈｅｌｌｏ！」であることを識別することによって起動する。すなわち、スリープ状態の情報処理装置１０は、ユーザ５０からの特定の音声コマンド「Ｈｅｌｌｏ！」に応答して、アクティブ状態（図６の「ＯＮ」の状態）に遷移する。

上記のように、本発明の第１の実施形態の変形例１において、情報処理装置１０は、所定のサウンドを検出し、当該所定のサウンドの検出から所定の期間内であっても、予め登録されたユーザから発せられた特定の音声コマンドに応答して、当該情報処理装置１０を起動する。そのため、情報処理装置１０は、所定のサウンドの検出から所定の期間内であっても、全く起動できなくなるわけではなく、予め登録されたユーザであれば起動可能である。その結果、予め登録されたユーザであれば、いつでも情報処理装置１０を起動できることになり、利便性を向上させることができる。

（変形例２）
変形例２は、情報処理装置１０が所定のサウンドに加えて、当該所定のサウンドが発せられた方向を検出することにより、当該方向以外から発せられた特定の音声コマンドを認識した場合に、情報処理装置１０を起動する場合の形態である。

変形例２における情報処理装置１０の検出部１１２は、所定のサウンドに加えて、当該所定のサウンドが発せられた方向を検出する。すなわち、所定のサウンドの音源の方向を検出する。音源の方向の検出は、例えば、音信号の時間差検出に基づく方法や、指向性のビームを走査する方法（ビームフォーミング技術）、空間周波数として求める方法などを用いることができる。なお、検出部１１２が所定のサウンドが発せられた方向を検出する処理は、以下で説明する本発明の第２の実施形態における情報処理装置１０の処理と同様である。

そして、起動部１１１は、検出部１１２が検出した所定のサウンドが発せられた方向から、特定の音声コマンドを受信しても（すなわち、所定のサウンドが発せられた方向からの特定の音声コマンドを認識しても）、情報処理装置１０の起動処理を行わない。すなわち、起動部１１１は、検出部１１２が検出した所定のサウンドが発せられた方向を、不感方向として設定し、当該不感方向から特定の音声コマンドを受信しても、情報処理装置１０の起動処理を行わない。

所定のサウンドは、テレビ等において放送される広告放送に含まれるものであるところ、所定のサウンドが発せられる方向は、テレビ等が設置されている方向になる。そして、テレビ等が設置されている方向から発せられる特定の音声コマンドは、テレビ等から発せられたものである可能性が高い。そこで、変形例２において、起動部１１１は、テレビ等が設置されている方向を不感方向として設定し、当該方向から発せられた特定の音声コマンドに対しては情報処理装置１０を起動しない。

一方、起動部１１１は、検出部１１２が検出した所定のサウンドが発せられた方向以外から、特定の音声コマンドを受信した場合（すなわち、所定のサウンドが発せられた方向以外からの特定の音声コマンドを認識した場合）には、情報処理装置１０の起動処理を実行する。すなわち、起動部１１１は、不感方向以外の方向から発せられた特定の音声コマンドに応答して、情報処理装置１０を起動する。

上記のように、本発明の第１の実施形態の変形例２において、情報処理装置１０は、テレビ等が設置されている方向から発せられた特定の音声コマンドに対して情報処理装置１０を起動しないことにより、テレビ等から発せられる特定の音声コマンドによって、当該情報処理装置１０が誤起動されることを防止することができる。また、情報処理装置１０は、テレビ等が設置されている方向以外から発せられた特定の音声コマンドに対しては情報処理装置１０を起動するため、所定のサウンドの検出から所定の期間内であっても、全く起動できなくなるわけではなく、利便性を向上させることができる。

（変形例３）
変形例３は、複数種類の所定のサウンドが存在し、当該複数種類の所定のサウンドの各々に対して、情報処理装置１０の起動処理を停止する所定の期間が設定される場合の形態である。

所定のサウンドは、例えば、所定のサウンドロゴであり、テレビ等で放送される広告放送に含まれるものである。そして、所定の期間は、例えば、広告放送の長さである。ここで、広告放送の長さは、当該広告放送の放送される時間帯（例えば、朝昼夜など）や、当該広告放送を放送する媒体（例えば、テレビやラジオ、動画配信など）によって、様々な長さが設定される。例えば、昼や深夜に放送される広告放送は、朝方や夕方に放送される広告放送に比べて長いことがある。また、動画配信における広告放送は、テレビやラジオにおける広告放送に比べて長いことがある。これ以外の理由によっても、広告放送の長さは、様々な長さに設定される。そのため、広告放送の長さによって、所定の期間を変更する必要がある。所定の期間を広告放送の長さによって変更しなければ、広告放送の長さよりも、所定の期間が短くなる可能性がある。そうすると、広告放送は続いているのに所定の期間が終了した場合が生じ、そのような場合に広告放送において放送される特定の音声コマンドによって、情報処理装置１０が誤起動してしまうおそれがあるからである。

そこで、本発明の第１の実施形態の変形例３では、複数種類の所定のサウンドの各々に対して、情報処理装置１０の起動処理を停止する所定の期間を設定する。そして、広告放送の長さに基づいて、当該当該広告放送に含ませる所定のサウンドを決定する。具体的には、情報処理装置１０を販売等する企業は、広告放送の長さ以上の所定の期間が設定されている所定のサウンドを、当該広告放送に含ませる。これによって、情報処理装置１０の起動部１１１は、所定のサウンドに対応する所定の期間、すなわち広告の長さ以上の期間、情報処理装置１０の起動処理を停止することができる。

記憶部１０５は、複数種類の所定のサウンドの各々と、所定の期間とを対応付けた情報を記憶する。例えば、記憶部１０５は、一の所定のサウンドに対しては、１５秒の所定の期間を対応付けた情報を記憶し、他の所定のサウンドに対しては、３０秒の所定の期間を対応付けた情報を記憶する。なお、１５秒や３０秒はあくまでも例示であって、所定の期間（不感期間）は、どのような長さであってもよい。

起動部１１１は、検出部１１２が検出した所定のサウンドに対応する所定の期間を、記憶部１０５を参照して特定する。そして、起動部１１１は、特定した所定の期間、認識部１１０が特定の音声コマンドを認識しても、情報処理装置１０の起動処理を停止する。

上記のように、本発明の第１の実施形態の変形例３において、複数種類の所定のサウンドの各々に対して、起動処理を停止する所定の期間が設定される。そのため、例えば広告放送の長さなどに基づいて、当該広告放送に含ませる所定のサウンドを決定することにより、所定のサウンドに対応する所定の期間、すなわち広告の長さ以上の期間、情報処理装置１０の起動処理を停止することができる。その結果、広告放送の長さよりも、所定の期間が短くなることを防止することが可能となり、テレビ等から発せられる特定の音声コマンドによって情報処理装置１０が誤起動してしまうことを低減することが可能となる。

（変形例４）
変形例４は、所定のサウンド（例えば、所定のサウンドロゴ）を検出するタイミングと、当該所定のサウンドを検出したことに応答して情報処理装置１０の起動の停止を開始するタイミングとが、互いに異なる（連続していない）場合の形態である。

情報処理装置１０の不感期間（すなわち、所定の期間）が長いと、当該情報処理装置１０の起動処理が停止される時間が長くなってしまい、利便性が低下する可能性がある。一方、所定のサウンドは、例えば、所定のサウンドロゴであり、情報処理装置１０を販売等する企業が、当該情報処理装置１０の広告放送（ＣＭ）などに含ませるものである。そのため、情報処理装置１０を販売等する企業は、広告放送（ＣＭ）の内容を把握している可能性が高い。すなわち、情報処理装置１０を販売等する企業は、当該広告放送（ＣＭ）内のいずれのタイミングで、特定の音声コマンドが発せられるのか把握できる。この場合、情報処理装置１０を販売等する企業は、情報処理装置１０の不感期間（所定の期間）を、広告放送（ＣＭ）において特定の音声コマンドが発せられるタイミングに合わせることで、不感期間を短くすることができる。その結果、情報処理装置１０の利便性を向上させることができる。

具体的には、複数種類の所定のサウンドの各々に対して、情報処理装置１０の起動処理を停止する所定の期間（不感期間）の開始のタイミングが設定される。そして、情報処理装置１０を販売等する企業は、複数種類の所定のサウンドのうち、広告放送（ＣＭ）において特定の音声コマンドが発せられるタイミングに合わせて、当該情報処理装置１０の不感期間が開始される所定のサウンドを選択し、当該選択した所定のサウンドを当該広告放送に含める。なお、この場合において、所定の期間（不感期間）は、特定の音声のコマンドが発せられる長さに合わせて設定してもよい。その場合、広告放送（ＣＭ）において特定の音声コマンドが発せられる時間帯だけを、所定の期間（不感期間）とすることが可能になる。

また、テレビ等において、同じ企業からの広告放送（ＣＭ）が、連続して放送される場合がある。例えば、情報処理装置１０を販売等する企業が、当該情報処理装置１０についての広告放送（ＣＭ）を複数パターン作成しており、あるパターンの広告放送（ＣＭ）に続いて、別のパターンの広告放送（ＣＭ）を放送することにより、広告効果を高める場合が想定される。このような場合には、初めに放送された広告放送（ＣＭ）において特定の音声コマンドが発せられるタイミングから、連続して（又は、他企業の広告放送（ＣＭ）を挟んで）放送される別のパターンの広告放送（ＣＭ）において特定の音声コマンドが発せられるタイミングまで、情報処理装置１０の不感期間（所定の期間）を継続すべき場合が想定される。

この場合、情報処理装置１０を販売等する企業は、情報処理装置１０の不感期間（所定の期間）を、最初の広告放送（ＣＭ）において特定の音声コマンドが発せられるタイミング（時間）から、別パターンの広告放送（ＣＭ）において特定の音声コマンドが発せられる時点まで継続させる。これによって、情報処理装置１０は、最初の広告放送（ＣＭ）において検出した所定のサウンドによって、その後放送される別パターンの広告放送（ＣＭ）において発せられる特定の音声コマンドに対しても不感となり、情報処理装置１０の起動処理を停止することが可能となる。

上記の例のように、所定のサウンド（例えば、所定のサウンドロゴ）を検出するタイミングと、当該所定のサウンドを検出したことに応答して情報処理装置１０の起動を停止するタイミングとが、互いに異なることが望ましい場合がある。なお、上記の例はあくまでも例示であって、所定のサウンドを検出するタイミングと、情報処理装置１０の起動を停止するタイミングとを互いに異ならせることが望ましい場合は、様々なケースが想定される。

記憶部１０５は、複数種類の所定のサウンドの各々と、所定の期間（不感期間）の開始のタイミングとを対応付けた情報を記憶する。例えば、記憶部１０５は、一の所定のサウンドに対して、所定の期間（不感期間）の開始のタイミングとして、当該一の所定のサウンドを検出してから１０秒後である旨の情報が記憶される。すなわち、一の所定のサウンドは、当該一の所定のサウンドが検出されてから、１０秒経過するまでは、不感期間（所定の期間）とならない。なお、１０秒後はあくまでも例示であって、所定の期間（不感期間）の開始のタイミングは、所定のサウンドを検出してから何秒後（何分後など単位は任意）であってもよい。

また、記憶部１０５は、変形例３と同様に、複数種類の所定のサウンドの各々に対して、情報処理装置１０の起動処理を停止する所定の期間を設定してもよい。例えば、記憶部１０５は、一の所定のサウンドに対しては、１５秒の所定の期間を対応付けた情報を記憶する。その結果、一の所定のサウンドを検出した情報処理装置１０は、当該一の所定のサウンドが検出されてから１０秒後に所定の期間（不感期間）が開始され、その後、当該所定の期間（不感期間）が１５秒間継続する。

なお、１５秒後はあくまでも例示であって、所定の期間（不感期間）は、どのような長さであってもよい。また、所定の期間は、例えば、広告放送（ＣＭ）において特定の音声コマンドが発せられる長さに設定されてもよい。また、所定の期間は、例えば、広告放送（ＣＭ）において特定の音声コマンドが複数回発せられる場合、最後に発せられる特定の音声コマンドが終了するタイミングを含む長さに設定されてもよい。

なお、記憶部１０５は、複数種類の所定のサウンドの各々に対して、所定の期間（不感期間）の開始のタイミングに加えて、終了のタイミングが設定されていてもよい。例えば、記憶部１０５は、他の所定のサウンドに対して、所定の期間（不感期間）の開始が当該他の所定のサウンドの検出から１０秒後であり、当該所定の期間（不感期間）の終了が当該他の所定のサウンドの検出から３０秒後であることを示す情報を記憶する。この場合、他の所定のサウンドを検出した情報処理装置１０は、当該他の所定のサウンドの検出から１０秒後に所定の期間（不感期間）を開始し、当該他の所定のサウンドの検出から３０秒後に所定の期間（不感期間）を終了する。

なお、３０秒後はあくまでも例示であって、所定の期間（不感期間）の終了のタイミングは、所定のサウンドを検出してから何秒後（何分後など単位は任意）であってもよい。また、所定の期間（不感期間）の終了のタイミングは、広告放送（ＣＭ）において特定の音声コマンドの発生が終了するタイミングに設定されてもよい。また、所定の期間（不感期間）の終了のタイミングは、例えば、広告放送（ＣＭ）において特定の音声コマンドが複数回発せられる場合、最後に発せられる特定の音声コマンドが終了するタイミングに設定されてもよい。

起動部１１１は、検出部１１２が検出した所定のサウンドに対応する所定の期間（不感期間）の開始のタイミングを、記憶部１０５を参照して特定する。そして、起動部１１１は、所定の期間（不感期間）の開始のタイミング以降、認識部１１０が特定の音声コマンドを認識しても、情報処理装置１０の起動処理を停止する。

また、起動部１１１は、検出部１１２が検出した所定のサウンドに対応する所定の期間を、記憶部１０５を参照して特定する。そして、起動部１１１は、所定の期間（不感期間）の開始のタイミング以降であって、所定の期間内において、認識部１１０が特定の音声コマンドを認識しても、情報処理装置１０の起動処理を停止する。

なお、起動部１１１は、検出部１１２が検出した所定のサウンドに対応する所定の期間（不感期間）の終了のタイミングを、記憶部１０５を参照して特定してもよい。そして、起動部１１１は、所定の期間（不感期間）の開始のタイミング以降、所定の期間（不感期間）の終了のタイミングまで、認識部１１０が特定の音声コマンドを認識しても、情報処理装置１０の起動処理を停止する。

上記のように、本発明の第１の実施形態の変形例４において、複数種類の所定のサウンドの各々に対して、所定のサウンドを検出したことに応答して情報処理装置１０の起動の停止を開始するタイミングが設定される。所定のサウンドを検出するタイミングと、当該所定のサウンドを検出したことに応答して情報処理装置１０の起動を停止するタイミングとを互いに異ならせることができる。その結果、広告放送（ＣＭ）において特定の音声コマンドが発せられるタイミング（時間）に合わせて、情報処理装置１０の起動処理を停止することによって、不感期間（所定の期間）を短くすることができる。また、広告放送（ＣＭ）の放送の態様に応じて、異なる広告放送（ＣＭ）をまたいで不感期間（所定の期間）を設定することもできる。このように、変形例４では、情報処理装置１０の起動処理を停止する所定の期間（不感期間）の開始のタイミングや終了のタイミングを自由に設定でき、利便性を向上させることができる。

＜第２の実施形態＞
本発明の第２の実施形態について、図面を参照して説明する。

本発明の第２の実施形態では、テレビ等において放送される広告放送（ＣＭ）などに、所定のサウンドを含ませ、情報処理装置１０が、所定のサウンドとともに、当該所定のサウンドが発せられた方向を検出する場合の実施形態である。そして、情報処理装置１０は、所定のサウンドが発せられた方向からの特定の音声コマンドを認識しても、当該情報処理装置の起動処理を実行しない。

図７は、本発明の第２の実施形態における情報処理装置１０の状態を説明するための図である。図７において、テレビ２０は、所定のサウンド４０を含む広告放送を放送している。なお、広告放送の内容については、図１に例示する広告放送と同様である。

このような広告放送がテレビ２０により放送されると、実際に部屋などに設置されている情報処理装置１０は、所定のサウンド４０と、当該所定のサウンド４０が発せられた方向を検出する。図７の例では、所定のサウンドが発せられた方向として、方向６０を検出する。図２に示すように、所定のサウンド４０が発せられる方向は、ある程度の範囲（方向６０）として検出されてもよいし、ある一方向（すなわち、ある一点）として検出されてもよい。

この場合において、情報処理装置１０は、所定のサウンドが発せられた方向からの特定の音声コマンドを認識しても、当該情報処理装置１０の起動処理を停止する。すなわち、情報処理装置１０は、所定のサウンドが発せられた方向を、特定の音声コマンドを認識しても当該情報処理装置１０を起動しない不感方向として設定し、当該不感方向からの特定の音声コマンドを認識しても情報処理装置１０を起動しない。例えば、図２において、所定のサウンドが発せられた方向、すなわちテレビ２０の方向から特定の音声コマンドが発せられても、情報処理装置１０は、スリープ状態（図７の「ＯＦＦ」の状態）のままとなり、アクティブ状態に遷移しない。

その結果、本発明の第１の実施形態における情報処理装置１０は、テレビ２０等から発せられる特定の音声コマンドを認識してもスリープ状態を維持するため、テレビ等から発せられる様々な音声に反応しなくなり、ユーザの意図しない処理が実行されることを防止できる。

（システム構成）
本発明の第２の実施形態における情報処理システムの構成例は、図３に示す本発明の第１の実施形態における情報処理システムの構成例と同様であるため、詳細な説明は省略する。

（情報処理装置の構成例）
本発明の第２の実施形態における情報処理装置の構成例は、図３に示す本発明の第１の実施形態における情報処理装置の構成例と同様である。

本発明の第２の実施形態において、検出部１１２は、所定のサウンドに加えて、当該所定のサウンドが発せられた方向を検出する。すなわち、所定のサウンドの音源の方向を検出する。音源の方向の検出は、例えば、音信号の時間差検出に基づく方法や、指向性のビームを走査する方法（ビームフォーミング技術）、空間周波数として求める方法などを用いることができる。

図８及び図９は、検出部１１２によって所定のサウンドが発せられた方向を検出する動作を説明するための図である。図８及び図９において、テレビ２０は、所定のサウンドを含む広告放送を放送している。

図８に例示するように、検出部１１２は、所定のサウンドが発せられた方向について、情報処理装置１０のある一点１１を通る地面１２に水平な面１３を基準として、上方向にα［度］、下方向にβ［度］の範囲として検出される。図８の例では、検出部１１２は、上方向α［度］から下方向β［度］の範囲６０Ａを、所定のサウンドが発せられた方向として検出する。なお、所定のサウンドが発せられた方向は、面１３に対して上方向の角度のみで示されることもあれば、面１３に対して下方向の角度のみで示されることもある。

また、図９に例示するように、検出部１１２は、所定のサウンドが発せられた方向について、情報処理装置のある一点１１を通る地面１２に垂直な面１４を基準として、右方向にγ［度］、左方向にδ［度］の範囲として検出される。図９の例では、検出部１１２は、右方向γ［度］から左方向δ［度］の範囲６０Ｂが、所定のサウンドが発せられた方向と検出する。なお、所定のサウンドが発せられた方向は、面１４に対して左方向の角度のみで示されることもあれば、面１４に対して右方向の角度のみで示されることもある。

上記のように、検出部１１２は、所定のサウンドが発せられる方向を、ある程度の範囲として検出可能である。なお、検出部１１２は、所定のサウンドが発せられる方向を、ある一方向（すなわち、ある一点）として検出してもよい。

また、検出部１１２は、所定のサウンドを発した物体の位置を検出してもよい。図８の例において、検出部１１２は、例えば、所定のサウンドを発した物体の地面１２からの垂直方向の距離の範囲（図８の例では、高さｈ及び高さＨの範囲）を検出可能である。また、図９の例において、検出部１１２は、例えば、所定のサウンドを発した物体の地面１２に水平方向の距離の範囲（図９の例では、距離ｌ及び距離Ｌの範囲）を検出可能である。すなわち、検出部１１２は、所定のサウンドを発した物体の位置を、自装置（情報処理装置１０）からの距離として検出することができる。

なお、検出部１１２は、所定のサウンドを発した物体の位置を、当該情報処理装置１０が設置された空間（例えば、部屋）における相対的な位置として検出してもよい。

起動部１１１は、検出部１１２が検出した所定のサウンドが発せられた方向から、特定の音声コマンドを受信しても（すなわち、所定のサウンドが発せられた方向からの特定の音声コマンドを認識しても）、情報処理装置１０の起動処理を行わない。すなわち、起動部１１１は、検出部１１２が検出した所定のサウンドが発せられた方向を、不感方向として設定し、当該不感方向から特定の音声コマンドを受信しても、情報処理装置１０の起動処理を行わない。

具体的には、起動部１１１は、認識部１１０によって認識された所定の音声コマンドが発せられた方向が、検出部１１２によって検出された所定のサウンドが発せられた方向に合致する場合には、情報処理装置１０の起動処理を実行しない。なお、合致するとは、認識部１１０によって認識された所定の音声コマンドが発せられた方向が、検出部１１２によって検出された所定のサウンドが発せられた方向と一致する又は含まれる場合である。

なお、起動部１１１は、一度、所定のサウンドが発せられた方向を検出すると、以後、その方向から特定の音声コマンドを受信しても（すなわち、以後、所定のサウンドが発せられた方向からの特定の音声コマンドを認識しても）、情報処理装置１０の起動処理を行わない。すなわち、実施形態１とは異なり、情報処理装置１０の起動処理を停止する期間は、所定の期間に限られず、継続して当該起動処理を停止することになる。スマートスピーカーなどの情報処理装置１０の設置位置や、テレビ等の設置位置は、固定される可能性が高い。そこで、一度所定のサウンドが発せられた方向を検出すると、継続して情報処理装置１０の起動処理を行わないようにすることで、情報処理装置１０が当該方向を検出する処理が頻繁に実行されることを防止し、当該情報処理装置１０の処理負荷を低減することが可能となる。

所定のサウンドは、テレビ等において放送される広告放送に含まれるものであるところ、所定のサウンドが発せられる方向は、テレビ等が設置されている方向になる。そして、テレビ等が設置されている方向から発せられる特定の音声コマンドは、テレビ等から発せられたものである可能性が高い。そこで、起動部１１１は、テレビ等が設置されている方向を不感方向として設定し、当該方向から発せられた特定の音声コマンドに対しては情報処理装置１０を起動しない。

また、起動部１１１は、検出部１１２が所定のサウンドを発した物体の位置を検出する場合には、当該物体の位置から発せられた特定の音声コマンドを認識しても、情報処理装置１０の起動処理を行わない。一方、起動部１１１は、検出部１１２によって検出された物体の位置以外の位置から発せられた特定の音声コマンドを認識した場合には、情報処理装置１０を起動する。

なお、本発明の第２の実施形態において、所定のサウンドは、例えば、広告放送に含まれる所定のサウンドロゴであってもよい。例えば、複数のサウンドロゴのうち、予め定められた所定のサウンドロゴが、所定のサウンドとして設定される。また、所定のサウンドは、サウンドロゴに限られず、所定のメロディーや効果音、曲、音声であってもよい。また、所定のサウンドは、人間が聞こえる必要はなく、情報処理装置１０が検出可能な音情報であれば、例えばモスキート音等の高周波など、どのようなものであってもよい。また、所定のサウンドは、どのような長さであってもよい。

（情報処理装置の動作例）
図１０は、本発明の第２の実施形態における情報処理装置１０の動作例を示すフローチャートである。なお、図１０に示す動作例はあくまでも一例であって、情報処理装置１０の動作は図１０に示す動作例に限定されない。

情報処理装置１０の検出部１１２が、所定のサウンド、及び、当該所定のサウンドが発せられた方向を検出する（Ｓ２００）。例えば、認識部１１０は、所定のサウンドロゴ、及び、当該所定のサウンドロゴが発せられた方向を検出する。

その後、認識部１１０が、特定の音声コマンド、及び、当該特定の音声コマンドが発せられた方向を認識する（Ｓ２０１）。例えば、認識部１１０は、「Ｈｅｌｌｏ！」という所定の音声コマンドと、当該所定の音声コマンドが発せられた方向を認識する。

次に、起動部１１１は、認識部１１０によって認識された所定の音声コマンドが発せられた方向が、検出部１１２によって検出された所定のサウンドが発せられた方向に合致するか否かを判定する（Ｓ２０２）。

そして、起動部１１１は、認識部１１０によって認識された所定の音声コマンドが発せられた方向が、検出部１１２によって検出された所定のサウンドが発せられた方向に合致する場合（Ｓ２０２のＹＥＳ）、情報処理装置１０を起動しない（Ｓ２０３）。

一方、起動部１１１は、認識部１１０によって認識された所定の音声コマンドが発せられた方向が、検出部１１２によって検出された所定のサウンドが発せられた方向に合致しない場合（Ｓ２０２のＮＯ）、情報処理装置１０を起動する（Ｓ２０４）。

上記のように、本発明の第２の実施形態において、情報処理装置１０は、所定のサウンドが発せられた方向からの特定の音声コマンドを認識しても、当該情報処理装置の起動処理を実行しない。その結果、情報処理装置１０は、テレビ等から発せられる特定の音声コマンドによって、当該情報処理装置１０が誤起動されることを防止することができる。また、情報処理装置１０は、スリープ状態を維持するため、テレビ等から発せられる様々な音声に反応しなくなり、ユーザの意図しない処理が実行されることを防止できる。

このように、情報処理装置１０は、所定のサウンドが発せられた方向を検出することによって、当該情報処理装置１０の誤起動できるところ、所定のサウンドが発せられた方向の検出は、話者認識技術によって識別する場合に比べて低コストで実現可能である。そのため、本発明の第２の実施形態における紹鴎処理装置１０は、低コストにより、テレビ等からの特定の音声コマンドによってスピーカーが誤起動することを低減できる。また、情報処理装置１０は、所定のサウンドが発せられた方向から、特定の音声コマンドが発せられたか否かによって起動の要否を決定でき、情報処理装置１０の操作を行うユーザを予め登録する必要がないため、例えば来客者など登録者以外の者が当該情報処理装置１０を操作することが可能となり、利便性も向上できる。

（変形例１）
変形例１は、情報処理装置１０は、所定のサウンドが発せられた方向からの特定の音声コマンドを認識した場合であっても、予め登録されたユーザが発した特定の音声コマンドであることに応答して、当該情報処理装置１０を起動する場合の例である。

変形例１における情報処理装置１０の記憶部１０５は、ユーザの音声データを予め記憶する。ユーザの音声データは、例えば、ユーザから、特定の音声コマンドなどを含む所定のフレーズを予め入力させることにより、記憶することができる。所定のフレーズは、例えば、「Ｈｅｌｌｏ！」や「Ｍｅｓｓａｇｅ」などを含み、情報処理装置１０は、ユーザから予め入力された音声に基づいて、ユーザの音声データを作成する。

制御部１０１の認識部１１０は、記憶部１０５に記憶されているユーザの音声データに基づいて、認識した特定の音声コマンドが、予め登録されたユーザから発せられたか否かを判定する。なお、特定の音声コマンドが、予め登録されたユーザから発せられたか否かを判定することは、例えば特徴部分を比較することにより実現可能であり、話者識別技術を用いてテレビ等から発生られた音声と人間の肉声とを区別することに比べて、低コストで実現可能である。

起動部１１１は、検出部１１２が所定のサウンドの方向を検出し、当該所定のサウンドが発せられた方向からの特定の音声コマンドを認識した場合であっても、認識部１１０が予め登録されたユーザから発せられた特定の音声コマンドである旨を認識したことに応答して、情報処理装置１０を起動する。すなわち、起動部１１１は、認識部１１０が予め登録されたユーザから発せられた特定の音声コマンドを認識した場合には、スリープ状態の情報処理装置１０を、アクティブ状態に遷移させる。

図１１は、本発明の第２の実施形態における情報処理装置１０の他の状態を説明するための図である。図１１において、ユーザ５０は予め登録されたユーザであり、情報処理装置１０の記憶部１０５には、ユーザ５０の音声データが予め記憶されている。

図１１において、テレビ２０は、所定のサウンドを含む広告放送を放送している。なお、広告放送の内容については、図１に例示する広告放送と同様である。そのため、実際に部屋などに設置されている情報処理装置１０は、所定のサウンドを検出することになる。そうすると、情報処理装置１０は、所定のサウンドを検出したことにより、当該所定のサウンドが発せられた方向から特定の音声コマンド「Ｈｅｌｌｏ！」を受信しても、当該情報処理装置１０を起動しない。すなわち、図１１において、テレビ２０から特定の音声コマンドが発せられても、情報処理装置１０は、スリープ状態のままとなり、アクティブ状態に遷移しない。

しかしながら、図１１において、ユーザ５０が特定の音声コマンド「Ｈｅｌｌｏ！」を発した場合には、当該ユーザ５０からの特定の音声コマンド「Ｈｅｌｌｏ！」が発せられた方向が、所定のサウンドが発せられた方向に合致する場合であっても、情報処理装置１０は、特定の音声コマンド「Ｈｅｌｌｏ！」が予め登録されたユーザからのものであると認識することによって、起動処理を実行する。すなわち、スリープ状態の情報処理装置１０は、ユーザ５０からの特定の音声コマンド「Ｈｅｌｌｏ！」に応答して、アクティブ状態（図６の「ＯＮ」の状態）に遷移する。

上記のように、本発明の第２の実施形態の変形例１において、情報処理装置１０は、所定のサウンドを検出し、当該所定のサウンドが発せられた方向から特定の音声コマンドを受信した場合（すなわち、所定のサウンドが発せられた方向からの特定の音声コマンドを認識した場合）であっても、予め登録されたユーザから発せられた特定の音声コマンドである場合には、当該情報処理装置１０を起動する。そのため、情報処理装置１０は、所定のサウンドが発せられた方向であっても、全く起動できなくなるわけではなく、予め登録されたユーザであれば起動可能である。その結果、予め登録されたユーザであれば、いつでも情報処理装置１０を起動できることになり、利便性を向上させることができる。

（変形例２）
変形例２は、情報処理装置１０が、所定のサウンドが発せられた方向から特定の音声コマンドを受信した場合（すなわち、所定のサウンドが発せられた方向からの特定の音声コマンドを認識した場合）、当該情報処理装置１０を起動するか否かをユーザに対して確認する場合の形態である。なお、変形例２では、情報処理装置１０は、ユーザに対して、所定のサウンドが発せられた方向から特定の音声コマンドを受信する都度、当該情報処理装置１０を起動するか否かをユーザに対して確認する。

図１２は、本発明の第２の実施形態の変形例２における情報処理装置１０の構成例を示す図である。図１２に例示するように、情報処理装置１０は、例えば、制御部１０１と、通信部１０２と、入出力部１０３と、表示部１０４と、記憶部１０５とを含む。なお、通信部１０２と、入出力部１０３と、表示部１０４と、記憶部１０５の構成例は、図４に示す本発明の第１の実施形態における情報処理装置１０の構成例と同様であるため、詳細な説明は省略する。

図１２に例示するように、制御部１０１は、認識部１１０と、起動部１１１と、検出部１１２、確認部１１３と、を含む。

確認部１１３は、所定のサウンドが発せられた方向から特定の音声コマンドを受信した場合（すなわち、所定のサウンドが発せられた方向からの特定の音声コマンドを認識した場合）、当該情報処理装置１０を起動するか否かをユーザに対して確認する処理を実行する。具体的には、確認部１１３は、例えば、「起動しますか？」や「呼んだ？」といった音声を入出力部１０３から出力させ、ユーザに対して、情報処理装置１０を起動するか否かを確認する。

起動部１１１は、ユーザから、情報処理装置１０を起動することを示す回答が入力されたことに応答して、情報処理装置１０を起動する。例えば、起動部１１１は、ユーザから、「起動する」や「Ｈｅｌｌｏ！」などの回答が入力されたことに応答して、情報処理装置１０を起動する。

一方、起動部１１１は、ユーザから、情報処理装置１０を起動しないことを示す回答が入力されたことに応答して、又は、ユーザから何の回答もないことに応答して、情報処理装置１０を起動しない。例えば、起動部１１１は、ユーザから、「起動しない」という回答が入力されたことに応答して、情報処理装置１０を起動しない。あるいは、起動部１１１は、ユーザから、所定の時間、回答が入力されないことに応答して、情報処理装置１０を起動しない。

上記のように、本発明の第２の実施形態の変形例２において、情報処理装置１０は、所定のサウンドが発せられた方向から特定の音声コマンドを受信した場合、情報処理装置１０を起動するか否かをユーザに対して確認する。これによって、ユーザの回答に応じて、情報処理装置１０を起動させ、又は、起動させないため、情報処理装置１０が誤起動されることを防止し、ユーザの意図しない処理が実行されることを防止できる。

（変形例３）
変形例３は、情報処理装置１０が、所定のサウンドが発せられた方向から特定の音声コマンドを受信した場合（すなわち、所定のサウンドが発せられた方向からの特定の音声コマンドを認識した場合）、それ以降、情報処理装置１０を起動するか否かをユーザに対して確認する場合の形態である。なお、変形例３では、情報処理装置１０は、ユーザに対して一度確認処理を実行し、ユーザから回答が入力された場合、それ以降の確認処理は実行せず、それ以降に認識する特定の音声コマンドに対しては、一度入力されたユーザの回答に従って、情報処理装置１０を起動する、又は、起動しない。

変形例３における情報処理装置１０の構成例は、図１２に示す本発明の第２の実施形態の変形例２の情報処理装置１０の構成例と同様であるため、詳細な説明は省略する。

確認部１１３は、所定のサウンドが発せられた方向から特定の音声コマンドを受信した場合（すなわち、所定のサウンドが発せられた方向からの特定の音声コマンドを認識した場合）、当該情報処理装置１０を起動するか否かをユーザに対して確認する処理を実行する。具体的には、確認部１１３は、例えば、「起動しますか？」や「呼んだ？」という音声を入出力部１０３から出力させ、ユーザに対して、情報処理装置１０を起動するか否かを確認する。

起動部１１１は、ユーザから、情報処理装置１０を起動することを示す回答が入力されたことに応答して、それ以降、所定のサウンドが発せられた方向から特定の音声コマンドを受信した場合（すなわち、所定のサウンドが発せられた方向からの特定の音声コマンドを認識した場合）、情報処理装置１０を起動する。例えば、起動部１１１は、ユーザから、「起動する」や「Ｈｅｌｌｏ！」などの回答が入力されたことに応答して、それ以降、所定のサウンドが発せられた方向から特定の音声コマンドを受信した場合、情報処理装置１０を起動する。

一方、起動部１１１は、ユーザから、情報処理装置１０を起動しないことを示す回答が入力されたことに応答して、又は、ユーザから何の回答もないことに応答して、それ以降、所定のサウンドが発せられた方向から特定の音声コマンドを受信した場合（すなわち、所定のサウンドが発せられた方向からの特定の音声コマンドを認識した場合）、情報処理装置１０を起動しない。例えば、起動部１１１は、ユーザから、「起動しない」という回答が入力されたことに応答して、それ以降、所定のサウンドが発せられた方向から特定の音声コマンドを受信した場合には、情報処理装置１０を起動しない。あるいは、起動部１１１は、ユーザから、所定の時間、回答が入力されないことに応答して、それ以降、所定のサウンドが発せられた方向から特定の音声コマンドを受信した場合には、情報処理装置１０を起動しない。

上記のように、本発明の第２の実施形態の変形例３において、情報処理装置１０は、所定のサウンドが発せられた方向から特定の音声コマンドを受信した場合（すなわち、所定のサウンドが発せられた方向からの特定の音声コマンドを認識した場合）、情報処理装置１０を起動するか否かをユーザに対して確認する。これによって、ユーザの回答に応じて、情報処理装置１０を起動させ、又は、起動させないため、情報処理装置１０が誤起動されることを防止し、ユーザの意図しない処理が実行されることを防止できる。また、変形例３では、一度確認処理を実行した場合には、一度入力されたユーザの回答に従って、情報処理装置１０を起動する、又は、起動しない。そのため、情報処理装置１０は、所定のサウンドが発せられた方向から特定の音声コマンドをするごとに確認処理を実行しなくなり、利便性も向上する。

（変形例４）
変形例４は、情報処理装置１０が、所定のサウンドが発せられた方向が変化した場合に、当該情報処理装置１０の設置場所が変化したことを検出し、変化後の設置場所に基づいて、情報処理装置１０の設置場所に依存するパラメータを再設定する場合の形態である。

図１３は、本発明の第２の実施形態の変形例４における情報処理装置１０の構成例を示す図である。図１３に例示するように、情報処理装置１０は、例えば、制御部１０１と、通信部１０２と、入出力部１０３と、表示部１０４と、記憶部１０５とを含む。なお、通信部１０２と、入出力部１０３と、表示部１０４と、記憶部１０５の構成例は、図４に示す本発明の第１の実施形態における情報処理装置１０の構成例と同様であるため、詳細な説明は省略する。

図１３に例示するように、制御部１０１は、認識部１１０と、起動部１１１と、検出部１１２、設定部１１４と、を含む。

検出部１１２は、所定のサウンドに加えて、当該所定のサウンドが発せられた方向を検出する。検出部１１２が、所定のサウンドが発せられた方向を検出する方法は、図８や図９に例示する方法などを用いることができる。

また、検出部１１２は、自装置から見て所定のサウンドが発せられた方向が変化したことを検出する。検出部１１２は、前回検出した所定のサウンドが発せられた方向と、今回検出した所定のサウンドが発せられた方向とを比較して、所定量以上の違いがある場合に、自装置から見て所定のサウンドが発せられた方向が変化したと判定する。所定量は、図８及び図９に例示したα乃至δ各々の変化量であり、例えば５［度］である。なお、所定量は、どのような値であってもよい。

また、検出部１１２は、自装置から見て所定のサウンドが発せられた方向が変化したことを検出した場合に、情報処理装置１０の設置場所が変化したことを検出する。なお、検出部１１２は、自装置から見て所定のサウンドが発せられた方向が変化した変化量に基づいて、所定のサウンドが発せられた物体との相対的な位置を算出し、当該相対的な位置に基づいて、情報処理装置１０の設置場所を推定してもよい。

設定部１１４は、情報処理装置１０の設置場所に依存するパラメータを設定する処理を実行する。設置場所に依存するパラメータは、例えば、入出力部１０３における音声の受信感度や、当該入出力部１０３から出力する音声の大きさなどである。なお、設置場所に依存するパラメータは、これらの例に限られず、どのようなものであってもよい。音声の受信感度や、出力する音声の大きさは、情報処理装置１０の設置場所に応じて変化させることが望ましい。そこで、設定部１１４は、変化後の情報処理装置１０の設置場所に基づいて、設置場所に依存するパラメータを再設定する処理を実行する。

上記のように、本発明の第２の実施形態の変形例４において、情報処理装置１０は、自装置から見て所定のサウンドが発せられた方向が変化した場合に、当該情報処理装置１０の設置場所が変化したことを検出し、変化後の設置場所に基づいて、情報処理装置１０の設置場所に依存するパラメータを再設定する。これによって、情報処理装置１０は、自動的に設置場所に依存するパラメータを変更することが可能となり、利便性を向上させることができる。

本開示の各実施形態のプログラムは、コンピュータに読み取り可能な記憶媒体に記憶された状態で提供されてもよい。記憶媒体は、「一時的でない有形の媒体」に、プログラムを記憶可能である。記憶媒体は、ＨＤＤやＳＤＤなどの任意の適切な記憶媒体、またはこれらの２つ以上の適切な組合せを含むことができる。記憶媒体は、揮発性、不揮発性、または揮発性と不揮発性の組合せでよい。なお、記憶媒体はこれらの例に限られず、プログラムを記憶可能であれば、どのようなデバイスまたは媒体であってもよい。

なお、情報処理装置１０は、例えば、記憶媒体に記憶されたプログラムを読み出し、読み出したプログラムを実行することによって、各実施形態に示す複数の機能部の機能を実現することができる。また、当該プログラムは、任意の伝送媒体（通信ネットワークや放送波等）を介して、情報処理装置１０に提供されてもよい。情報処理装置１０は、例えば、インターネット等を介してダウンロードしたプログラムを実行することにより、各実施形態に示す複数の機能部の機能を実現する。

なお、当該プログラムは、例えば、ＡｃｔｉｏｎＳｃｒｉｐｔ、ＪａｖａＳｃｒｉｐｔ(登録商標)などのスクリプト言語、Ｏｂｊｅｃｔｉｖｅ―Ｃ、Ｊａｖａ(登録商標)などのオブジェクト指向プログラミング言語、ＨＴＭＬ５などのマークアップ言語などを用いて実装できる。

情報処理装置１０における処理の少なくとも一部は、１以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよい。

本開示の実施形態を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本開示の範囲に含まれることに留意されたい。例えば、各手段、各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段やステップ等を１つに組み合わせたり、或いは分割したりすることが可能である。また、各実施形態に示す構成を適宜組み合わせることとしてもよい。

１０情報処理装置（スマートスピーカー）
１０Ａ広告放送内の情報処理装置
１０１制御部、１０２通信部、１０３入出力部、１０４表示部、１０５記憶部、１１０認識部、１１１起動部、１１２検出部、１１３確認部、１１４設定部
１１ある一点、１２地面、１３面、１４面
２０テレビ
３０登場人物
４０所定のサウンド
５０ユーザ
６０、６０Ａ、６０Ｂ所定の方向
２００サーバ装置
３００ネットワーク

Claims

音声によって操作可能であり、スリープ状態とアクティブ状態とを有する情報処理装置であって、
前記アクティブ状態は、音声による入力に応じて各種処理を実行可能な状態であり、
前記スリープ状態は、特定の音声コマンドを認識したことに応じて前記アクティブ状態に遷移する状態であって、前記音声による入力を受け付けても、当該音声による入力に応じた各種処理を実行しない状態であり、
前記スリープ状態において所定のサウンドを検出した場合、当該所定のサウンドを検出してから所定の期間内に前記特定の音声コマンドを認識しても、自装置のスリープ状態を維持し、アクティブ状態に遷移させない制御部を備える、情報処理装置。
音声によって操作可能な情報処理装置であって、
特定の音声コマンドを認識する認識部と、
前記特定の音声コマンドに応答して、前記情報処理装置を起動する起動部と、
広告放送に含まれる所定のサウンドロゴを検出する検出部と、を備え、
前記起動部は、前記所定のサウンドロゴを検出した場合、所定の期間、前記特定の音声コマンドに応答した前記情報処理装置の起動処理を停止する、情報処理装置。
音声によって操作可能な情報処理装置であって、
予め登録されたユーザが発した特定の音声コマンドを認識する認識部と、
前記特定の音声コマンドに応答して、前記情報処理装置を起動する起動部と、
所定のサウンドを検出する検出部と、を備え、
前記起動部は、前記所定のサウンドを検出した場合、所定の期間において、前記予め登録されたユーザ以外のユーザが発した前記特定の音声コマンドに対しては前記情報処理装置の起動処理を停止し、前記予め登録されたユーザが発した前記特定の音声コマンドに対しては前記情報処理装置を起動する、情報処理装置。
音声によって操作可能な情報処理装置であって、
特定の音声コマンドを認識する認識部と、
前記特定の音声コマンドに応答して、前記情報処理装置を起動する起動部と、
所定のサウンドを検出する検出部と、を備え、
前記検出部は、前記所定のサウンドに加えて、当該所定のサウンドが発せられた方向を検出し、
前記起動部は、前記所定のサウンドを検出した場合、所定の期間において、前記所定のサウンドが発せられた方向から発せられた前記特定の音声コマンドに対しては前記情報処理装置の起動処理を停止し、前記所定のサウンドが発せられた方向以外の方向から発せられた前記特定の音声コマンドに対しては前記情報処理装置を起動する、情報処理装置。
音声によって操作可能な情報処理装置であって、
特定の音声コマンドを認識する認識部と、
前記特定の音声コマンドに応答して、前記情報処理装置を起動する起動部と、
複数種類の所定のサウンドの少なくとも１つを検出可能な検出部と、を備え、
前記起動部は、前記検出部が検出した所定のサウンドに対応して設定された所定の期間、前記特定の音声コマンドに応答した前記情報処理装置の起動処理を停止し、
前記所定の期間は、前記複数種類の所定のサウンドの各々に対応して設定される、情報処理装置。
音声によって操作可能であり、スリープ状態とアクティブ状態とを有し、
前記アクティブ状態は、音声による入力に応じて各種処理を実行可能な状態であり、
前記スリープ状態は、特定の音声コマンドを認識したことに応じて前記アクティブ状態に遷移する状態であって、前記音声による入力を受け付けても、当該音声による入力に応じた各種処理を実行しない状態である情報処理装置を、
前記スリープ状態において所定のサウンドを検出した場合、当該所定のサウンドを検出してから所定の期間内に前記特定の音声コマンドを認識しても、自装置のスリープ状態を維持し、アクティブ状態に遷移させない制御手段として機能させる、プログラム。
音声によって操作可能な情報処理装置を、
特定の音声コマンドを認識する認識手段と、
前記特定の音声コマンドに応答して、前記情報処理装置を起動する起動手段と、
広告放送に含まれる所定のサウンドロゴを検出する検出手段、として機能させ、
前記起動手段は、前記所定のサウンドロゴを検出した場合、所定の期間、前記特定の音声コマンドに応答した前記情報処理装置の起動処理を停止する、プログラム。
音声によって操作可能な情報処理装置を、
予め登録されたユーザが発した特定の音声コマンドを認識する認識手段と、
前記特定の音声コマンドに応答して、前記情報処理装置を起動する起動手段と、
所定のサウンドを検出する検出手段、として機能させ、
前記起動手段は、前記所定のサウンドを検出した場合、所定の期間において、前記予め登録されたユーザ以外のユーザが発した前記特定の音声コマンドに対しては前記情報処理装置の起動処理を停止し、前記予め登録されたユーザが発した前記特定の音声コマンドに対しては前記情報処理装置を起動する、プログラム。
音声によって操作可能な情報処理装置を、
特定の音声コマンドを認識する認識手段と、
前記特定の音声コマンドに応答して、前記情報処理装置を起動する起動手段と、
所定のサウンドを検出する検出手段、として機能させ、
前記検出手段は、前記所定のサウンドに加えて、当該所定のサウンドが発せられた方向を検出し、
前記起動手段は、前記所定のサウンドを検出した場合、所定の期間において、前記所定のサウンドが発せられた方向から発せられた前記特定の音声コマンドに対しては前記情報処理装置の起動処理を停止し、前記所定のサウンドが発せられた方向以外の方向から発せられた前記特定の音声コマンドに対しては前記情報処理装置を起動する、プログラム。
音声によって操作可能な情報処理装置を、
特定の音声コマンドを認識する認識手段と、
前記特定の音声コマンドに応答して、前記情報処理装置を起動する起動手段と、
複数種類の所定のサウンドの少なくとも１つを検出可能な検出手段、として機能させ、
前記起動手段は、前記検出手段が検出した所定のサウンドに対応して設定された所定の期間、前記特定の音声コマンドに応答した前記情報処理装置の起動処理を停止し、
前記所定の期間は、前記複数種類の所定のサウンドの各々に対応して設定される、プログラム。
音声によって操作可能であり、スリープ状態とアクティブ状態とを有する情報処理装置の制御方法であって、
前記アクティブ状態は、音声による入力に応じて各種処理を実行可能な状態であり、
前記スリープ状態は、特定の音声コマンドを認識したことに応じて前記アクティブ状態に遷移する状態であって、前記音声による入力を受け付けても、当該音声による入力に応じた各種処理を実行しない状態であり、
前記スリープ状態において所定のサウンドを検出した場合、当該所定のサウンドを検出してから所定の期間内に前記特定の音声コマンドを認識しても、自装置のスリープ状態を維持し、アクティブ状態に遷移させない制御ステップを含む、制御方法。
音声によって操作可能な情報処理装置であって、
特定の音声コマンドを認識する認識部と、
前記特定の音声コマンドに応答して、前記情報処理装置を起動する起動部と、
所定のサウンドが発せられた方向を検出する検出部と、を備え、
前記起動部は、前記方向からの前記特定の音声コマンドに応答した前記情報処理装置の起動処理を実行しないことを特徴とする情報処理装置。
前記所定のサウンドは、広告放送に含まれる所定のサウンドロゴであり、
前記検出部は、前記広告放送に含まれる前記所定のサウンドロゴが発せられた方向を検出し、
前記起動部は、前記方向からの前記特定の音声コマンドに応答した前記情報処理装置の起動処理を実行しないことを特徴とする請求項１２に記載の情報処理装置。
前記認識部は、前記方向から予め登録されたユーザが発した前記特定の音声コマンドを認識し、
前記起動部は、前記方向から前記特定の音声コマンドを認識した場合、前記予め登録されたユーザ以外のユーザが発した前記特定の音声コマンドに対しては前記情報処理装置の起動処理を停止し、前記予め登録されたユーザが発した前記特定の音声コマンドに対しては前記情報処理装置を起動することを特徴とする請求項１２又は１３に記載の情報処理装置。
前記方向から前記特定の音声コマンドを認識した場合、前記情報処理装置を起動するか否かを前記ユーザに対して確認する確認部を、さらに備えることを特徴とする請求項１２乃至１４のいずれか一項に記載の情報処理装置。
前記起動部は、前記ユーザから情報処理装置を起動する旨の回答が入力された場合、当該回答が入力された以降、前記方向から前記特定の音声コマンドを認識したことに応答して、前記情報処理装置を起動することを特徴とする請求項１５に記載の情報処理装置。
前記情報処理装置の設置場所に依存するパラメータを設定する設定部を、さらに備え、
前記検出部は、自装置から見て前記所定のコマンドが発せられた方向が変化した場合に、前記情報処理装置の設置場所が変化したことを検出し、
前記設定部は、変化後の前記設置場所に基づいて、前記パラメータを再設定することを特徴とする請求項１２乃至１６のいずれか一項に記載の情報処理装置。
音声によって操作可能な情報処理装置の制御方法であって、
特定の音声コマンドを認識する認識ステップと、
前記特定の音声コマンドに応答して、前記情報処理装置を起動する起動ステップと、
所定のサウンドが発せられた方向を検出する検出ステップと、を含み、
前記起動ステップにおいて、前記方向からの前記特定の音声コマンドに応答した前記情報処理装置の起動処理を実行しないことを特徴とする制御方法。
音声によって操作可能な情報処理装置を、
特定の音声コマンドを認識する認識手段と、
前記特定の音声コマンドに応答して、前記情報処理装置を起動する起動手段と、
所定のサウンドが発せられた方向を検出する検出手段、として機能させ、
前記検出手段において、前記方向からの前記特定の音声コマンドに応答した前記情報処
理装置の起動処理を実行しないことを特徴とするプログラム。