JP2022051970A

JP2022051970A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2022051970A
Application number: JP2019016640A
Authority: JP
Inventors: 啓福井; Hiroshi Fukui; 浩明小川; Hiroaki Ogawa; 幸徳前田; Yukinori Maeda; 智恵鎌田; Chie KAMADA; 衣未留角尾; Emiru Tsunoo; 晃高橋; Akira Takahashi; 典子戸塚; Noriko Tozuka; 和也立石; Kazuya Tateishi; 裕一郎小山; Yuichiro Koyama; 悠希武田; Yuki Takeda
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2022-04-04
Also published as: US20220101850A1; WO2020158435A1

Abstract

【課題】直観的な表現による音声操作を行うことができるようにする。【解決手段】本技術の一側面の情報処理装置は、所定の状態遷移が生じたことに応じて、音声操作のための音声の入力が可能であることを表す第１の情報と、音声操作が可能な発話のドメインを表す第２の情報とを提示し、ユーザにより入力された音声を対象として音声認識を行う。本技術は、音声アシスタント機能を搭載した各種の機器に適用することができる。【選択図】図１

Description

本技術は、情報処理装置、情報処理方法、およびプログラムに関し、特に、直観的な表現による音声操作を行うことができるようにした情報処理装置、情報処理方法、およびプログラムに関する。

近年、音声操作に対応した機器が増えてきている。いわゆるスマートスピーカと呼ばれるスピーカだけでなく、テレビジョン受像機（TV）、ロボット掃除機、照明機器、エアーコンディショナなどの家電機器の中にも、音声操作の機能を搭載したものがある。

特開２０１３－１９８０８５号公報

ところで、上述したような家電機器の機能として、自動電源オフや自動電源オンなどのタイマー機能がある。例えば、TVをつけたまま、何の操作も行われない状態が所定の時間続いた場合、電源がまもなくオフになることを通知するメッセージの表示が行われた後、自動電源オフの機能によって、TVの電源がオフになる。

番組の視聴をそのまま続けたい場合、ユーザは、本体のボタンを押したり、リモートコントローラを手に取って操作をしたりする必要がある。本体のボタンを押すなどの操作によって、自動電源オフが解除され、番組の表示が継続される。すなわち、こうした仕組まれた遷移が意図しないタイミングで起こることがあり、ユーザは、それに対応する必要がある。

自動電源オフを解除するための操作を上述したような音声操作によって行うことができるとすれば便利である。また、自動電源オフを解除するための音声操作を、起動ワードを言わずに行うことができるとすればさらに便利である。

本技術はこのような状況に鑑みてなされたものであり、直観的な表現による音声操作を行うことができるようにするものである。

本技術の一側面の情報処理装置は、所定の状態遷移が生じたことに応じて、音声操作のための音声の入力が可能であることを表す第１の情報と、音声操作が可能な発話のドメインを表す第２の情報とを提示する提示制御部と、ユーザにより入力された音声を対象として音声認識を行う音声認識部とを備える。

本技術の一側面においては、所定の状態遷移が生じたことに応じて、音声操作のための音声の入力が可能であることを表す第１の情報と、音声操作が可能な発話のドメインを表す第２の情報とが提示され、ユーザにより入力された音声を対象として音声認識が行われる。

TVの表示例を示す図である。 TVの表示例を示す図である。リモートコントローラを用いた操作を示す図である。音声認識の例を示す図である。ロボット掃除機の表示例を示す図である。ロボット掃除機の表示例を示す図である。情報の提示例を示す図である。情報の他の提示例を示す図である。制御装置の構成例を示すブロック図である。制御装置の機能構成例を示すブロック図である。情報処理システムの構成例を示す図である。制御装置の動作について説明するフローチャートである。コンピュータの構成例を示すブロック図である。

以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
１．TVの操作例
２．ロボット掃除機の操作例
３．情報の提示例
４．装置の構成と動作
５．適用例
６．その他

＜＜TVの操作例＞＞
図１は、本技術の一実施形態に係るTVの表示例を示す図である。

図１に示すTV１は、放送波を受信して番組の映像をディスプレイに表示させたり、音声をスピーカから出力させたりすることが可能な情報処理装置である。TV１は、インターネットに接続され、適宜、図示せぬサーバと通信を行う。

TV１の操作は、リモートコントローラを用いるだけでなく、音声操作によっても行うことが可能とされる。TV１は音声操作に対応した装置である。TV１の筐体の所定の位置にはマイクロフォンが設けられる。

ユーザは、番組の検索、動画配信サービスが配信する動画の検索、Webサイトの検索、チャンネルの切り替えなどの各種の操作を音声により行うことができる。TV１に接続された外部のデバイスの操作なども、音声により行うことが可能とされる。

このような音声操作の機能を使用する場合、ユーザは、基本的に、起動ワードと、依頼内容とを組み合わせた発話を行う必要がある。起動ワードの発話なしに、依頼内容の発話だけで音声操作を行うことができるシステムもある。

ここで、起動ワードは、音声認識を開始するためのトリガとなる言葉である。

TV１においては、起動ワードを検出したことに応じて、依頼内容の受け付けが可能な状態となり、起動ワードに続けて行われた発話を対象として音声認識が行われる。また、音声認識によって特定された依頼内容に応じて、チャンネルを切り替えるなどの処理が行われる。音声を用いた依頼内容の入力は、音声コマンドの入力となる。

このように、TV１の音声操作は、基本的には、起動ワードと依頼内容とを組み合わせた発話によって行われるが、TV１の状態によっては、起動ワードなしに、依頼内容の発話のみによって行われる。起動ワードなしの音声操作は、例えば、TV１において、トリガとなる所定の状態遷移が生じた場合に可能となる。

図１の左側に示すように、ユーザが所定の番組を視聴している場合において、いずれの操作も行われずに、１時間などのあらかじめ設定された時間が経過したとき、TV１の状態は、無操作電源オフの機能によって、電源を自動的にオフにする状態になる。この例においては、無操作の状態が一定時間経過したときに電源を自動的にオフにする機能である無操作電源オフの機能を、ユーザが有効なものとして設定しているものとする。

電源を自動的にオフにする状態になった場合、矢印Ａ１の先に示すように、TV１は、無操作電源オフの機能によって電源オフになることを提示するメッセージ１１を番組の映像に重ねて表示させる。図１の例においては、無操作電源オフの機能によって電源がオフになることと、リモートコントローラを用いていずれかの操作を行うことによって、電源オフを停止させ、番組の視聴を続けることができることを表す内容がメッセージ１１によって提示されている。

また、TV１は、メッセージ１１とともに、音声操作のための音声の入力が可能であることを表す音声入力アイコン１２を表示させる。図１の例においては、マイクロフォンの図柄により構成される音声入力アイコン１２がメッセージ１１の上に表示されている。

音声入力アイコン１２が表示されている間、起動ワードなしの音声操作が可能となる。すなわち、この例においては、無操作電源オフの機能によって電源を自動的にオフにする状態になった場合、その状態遷移をトリガとして、TV１は、起動ワードなしの音声操作の受け付けを開始する。TV１は、ユーザにより発話が行われるのを待ち、発話が行われた場合、その発話を、音声操作の発話として受け付けて音声認識を行う。

例えば、図２の吹き出し＃１に示すように、ユーザが「消さないで」の発話を行った場合、TV１は、ユーザの発話を、電源オフを停止させることを依頼する発話として認識し、電源オフを停止させる。電源オフを停止させたとき、矢印Ａ２の先に示すように、TV１は、メッセージ１１と音声入力アイコン１２の表示を終了させ、番組の表示を続ける。

このように、電源オフを音声操作によって停止させることができるようにすることにより、ユーザは、図３に示すように、リモートコントローラ２を探して操作する必要がない。

また、起動ワードなしの音声操作が可能となるため、ユーザは、「消さないで」などの依頼内容の発話だけで、電源オフを停止させることができる。ユーザは、起動ワードを省略した直感的な発話によって、音声操作を容易に行うことができる。

無操作電源オフの機能によって電源を自動的にオフにする状態となったことに応じて音声入力アイコン１２を表示させた場合、その状態においては、無操作電源オフの機能に関する発話がユーザにより行われる可能性が高い。

TV１は、無操作電源オフの機能に関する発話が行われると想定し、音声認識の対象とする発話のドメインとして、無操作電源オフの機能に関する発話のドメインを指定して音声認識を行うことにより、音声認識の精度を向上させることが可能となる。

仮に、ドメインの指定を行わないとした場合、単に、「消さないで」の発話だけからは、ユーザの依頼内容を特定することが困難である。例えば、メッセージ１１の表示を消さないようにすることを依頼していると特定することも可能である。

TV１は、無操作電源オフの機能に関する発話が行われることをTV１の状態（コンテキスト）に基づいて想定し、「消さないで」の発話が無操作電源オフの機能に関する発話であると絞り込むことにより、その「消さないで」の発話が、電源オフを停止させることの依頼であると特定することが可能となる。

なお、「消さないで」の他に、例えば、「やめて」、「だめ」、「１時間延長して」などの発話が行われた場合も同様に、ドメインを指定した音声認識により、それらの発話が、電源オフを停止させることの依頼であると特定される。例えば「１時間延長して」の発話が行われた場合、TV１においては、電源オフの時刻を１時間後の時刻に再設定することも行われる。

図４は、音声認識の例を示す図である。

図４に示すように、例えば「今日の京都の気温を教えて」の発話が行われた場合、音声認識が行われ、矢印Ａ３の先に示すように、ドメイン（Domain）が「天気」として特定され、インテント（Intent）が「気温」として特定される。また、「今日」、「京都」などのエンティティ（Entity）が特定される。

ユーザの発話を対象とした音声認識には、テキスト化と言語解析の処理が含まれる。テキスト化は、音声をテキストデータに変換する処理である。一方、言語解析は、テキスト化によって得られたテキストデータの形態素解析などを行い、ドメイン、インテント、エンティティを特定する処理である。

このように、ドメインは、発話の範囲を表す。発話の範囲以外に、ドメインには、会話内容、話題、範囲、分類、指示、対話といった意味も含まれる。また、インテントは、ユーザの意図を表す。エンティティは、発話に含まれる単語を表す。ドメイン、インテント、エンティティにより、ユーザの依頼内容が表される。

一般的に、天気に関する発話が行われることがあらかじめ分かっている場合、ドメインを「天気」として指定して音声認識を行うことにより、インテントなどを絞り込むことができるため、天気に関する発話の認識精度を向上させることが可能となる。

TV１においては、このような音声認識によって、起動ワードなしの発話に基づいてユーザの依頼内容が特定され、依頼内容に応じた処理が行われる。

＜＜ロボット掃除機の操作例＞＞
所定の状態遷移が生じたことをトリガとして以上のような音声認識を行い、ユーザの依頼内容に応じた処理を行う情報処理装置は各種の機器に適用可能である。

図５は、ロボット掃除機の表示例を示す図である。

図５に示すロボット掃除機２１は、底面に設けられた車輪によって例えば室内を移動し、各種のセンサによる検出結果に応じて自律的に掃除を行う情報処理装置である。

TV１と同様に、ロボット掃除機２１の操作は、リモートコントローラを用いるだけでなく、音声操作によっても行うことが可能とされる。ロボット掃除機２１は音声操作に対応した装置である。扁平円柱状の筐体の所定の位置にはマイクロフォンが設けられる。

ユーザは、掃除の開始／終了、充電器への自動帰還、掃除開始のタイマー設定などの各種の操作を音声により行うことができる。

ロボット掃除機２１の音声操作も、基本的には、起動ワードと依頼内容とを組み合わせた発話によって行われるが、ロボット掃除機２１の状態によっては、起動ワードなしに、依頼内容の発話のみによって行われる。起動ワードなしの音声操作は、例えば、ロボット掃除機２１において、トリガとなる所定の状態遷移が生じた場合に可能となる。

図５の左側に示すように、ロボット掃除機２１がスタンバイ状態で待機している場合において、掃除開始時刻として設定された時刻になったとき、ロボット掃除機２１の状態は、タイマー機能によって起動し、掃除を開始する状態になる。この例においては、自動的に起動し（スタンバイ状態を解除し）、掃除を開始する機能であるタイマー機能を、ユーザが有効なものとして設定しているものとする。

掃除を開始する状態になった場合、矢印Ａ１１の先の吹き出し＃１１に示すように、ロボット掃除機２１は、タイマー機能によって掃除を開始することを提示する合成音声を出力する。図５の例においては、「これから掃除を開始します」の合成音声が図示せぬスピーカから出力されている。

また、ロボット掃除機２１は、合成音声の出力とともに、音声操作のための音声の入力が可能であることを表す音声入力アイコン４１を表示する。図５の例においては、筐体上面に設けられたディスプレイ３１に音声入力アイコン４１が表示されている。

音声入力アイコン４１が表示されている間、起動ワードなしの音声操作が可能とされる。すなわち、この例においては、タイマー機能によって掃除を開始する状態になった場合、その状態遷移をトリガとして、ロボット掃除機２１は、起動ワードなしの音声操作の受け付けを開始する。ロボット掃除機２１は、ユーザにより発話が行われるのを待ち、発話が行われた場合、その発話を、音声操作の発話として受け付けて音声認識を行う。

例えば、図６の吹き出し＃１２に示すように、ユーザが「１時間後にお願い」の発話を行った場合、ロボット掃除機２１は、ユーザの発話を、掃除の開始時刻を１時間後に遅らせることを依頼する発話として認識し、掃除の開始を停止させる。掃除の開始を停止させたとき、矢印Ａ１２の先の吹き出し＃１３に示すように、ロボット掃除機２１は、「１時間後に掃除を開始します」の合成音声を出力させた後、音声入力アイコン４１の表示を終了させ、待機を続ける。ロボット掃除機２１においては、掃除開始時刻の再設定が行われる。

夜中の２時に掃除を開始するようにタイマー機能の設定を行っている場合において、都合の悪いときなどに以上の発話によって掃除開始時刻の再設定を行うことにより、ユーザは、都合の悪いときに掃除が始まるのを停止させることができる。なお、「１時間後にお願い」の他に、例えば、「今日はなし」などの発話が行われた場合も同様に、ドメインを指定した音声認識により、それらの発話が、掃除の開始を停止させることの依頼であると特定される。

このように、掃除の開始を音声操作によって停止させることができるようにすることにより、ユーザは、リモートコントローラなどを操作して掃除開始時刻の再設定を行う必要がない。

また、起動ワードなしの音声操作が可能となるため、ユーザは、「１時間後にお願い」などの依頼内容の発話だけで、掃除の開始を停止させることができる。

タイマー機能によって掃除を開始する状態となったことに応じて音声入力アイコン４１を表示させた場合、その状態においては、タイマー機能に関する発話がユーザにより行われる可能性が高い。

ロボット掃除機２１は、タイマー機能に関する発話が行われると想定し、音声認識の対象とする発話のドメインとして、タイマー機能に関する発話のドメインを指定して音声認識を行うことにより、音声認識の精度を向上させることが可能となる。

なお、ロボット掃除機２１にディスプレイ３１が設けられていない場合、音声操作が可能であることがLEDの発光によってユーザに提示されるようにしてもよい。筐体の所定の位置には、ユーザに情報を提示するための発光部としてのLEDが設けられる。音声操作が可能であることが合成音声によって提示されるようにしてもよい。

このように、所定の状態遷移が生じたことをトリガとして、起動ワードなしの発話を対象として音声認識を行い、ユーザの依頼内容に応じた処理を行うことについては各種の機器に適用可能である。

＜＜情報の提示例＞＞
図７は、情報の提示例を示す図である。

音声操作が可能であることだけでなく、起動ワードなしの発話によって音声操作が可能となる発話のドメインが、音声入力モードとしてアイコンによって提示されるようにしてもよい。

図７の例においては、音声操作のための音声の入力が可能であることを表す音声入力アイコン５１と並べて、音声入力モードを表す音声入力モードアイコン５２乃至５５が表示されている。音声入力アイコン５１は、図１の音声入力アイコン１２と同様のアイコンである。

スピーカの図柄により構成される音声入力モードアイコン５２は、スピーカの音量調整に関する発話のドメインを表す。音声入力モードアイコン５２が表示されているときに入力された音声を対象とした音声認識は、スピーカの音量調整に関する発話のドメインを指定して行われる。例えば、「大きく」の音声が入力された場合、ドメインが指定されていることにより、ユーザの依頼内容が、音量を大きくすることであるものとして特定される。

「主副」の文字により構成される音声入力モードアイコン５３は、主音声／副音声の音声切り替えに関する発話のドメインを表す。音声入力モードアイコン５３が表示されているときに入力された音声を対象とした音声認識は、主音声／副音声の音声切り替えに関する発話のドメインを指定して行われる。例えば、「副音声」の音声が入力された場合、ドメインが指定されていることにより、ユーザの依頼内容が、副音声である例えば英語の音声に切り替えることであるものとして特定される。

「OFF」の文字により構成される音声入力モードアイコン５４は、電源オフに関する発話のドメインを表す。音声入力モードアイコン５４が表示されているときに入力された音声を対象とした音声認識は、電源オフに関する発話のドメインを指定して行われる。例えば、「オフ」の音声が入力された場合、ドメインが指定されていることにより、ユーザの依頼内容が、電源をオフにすることであるものとして特定される。

横向きＵ字状の矢印により構成される音声入力モードアイコン５５は、画面表示に関する発話のドメインを表す。音声入力モードアイコン５５が表示されているときに入力された音声を対象とした音声認識は、画面表示に関する発話のドメインを指定して行われる。例えば、「戻って」の音声が入力された場合、ドメインが指定されていることにより、ユーザの依頼内容が、画面表示を１つ前の画面に戻すことであるものとして特定される。

このように、起動ワードなしで依頼内容を認識させることが可能な発話のドメインを表すアイコンが、音声操作のための音声の入力が可能であることを表すアイコンとともに表示されるようにしてもよい。

このような表示から、ユーザは、音声操作が可能であることと、起動ワードなしで依頼内容を認識させることが可能な発話のドメインを確認し、音声操作を行うことができる。

起動ワードなしで依頼内容を認識させることが可能な発話のドメインが、アイコンではなく、文字の表示、音声や効果音の出力、LEDなどの発光部の発光によって提示されるようにしてもよい。発話のドメインがLEDの発光によって提示される場合、例えば、異なる色の光によってドメインの種類が提示される。

図８は、情報の他の提示例を示す図である。

図８の例においては、音声操作のための音声の入力が可能であることを表す音声入力アイコン６１と並べて、音声入力モードを表す音声入力モードアイコン６２が表示されている。

音声入力アイコン６１の左上には、「Ｐ」の文字であるマーク６１Ａが表示されている。マーク６１Ａは、音声を用いて操作することが可能な機器が、TV１に接続された外部の例えばゲーム機であることを表す。

音声入力アイコン６１の右隣に表示された、「視聴」の文字により構成される音声入力モードアイコン６２は、外部のゲーム機の映像の表示に関する発話のドメインを表す。音声入力モードアイコン６２が表示されているときに入力された音声を対象とした音声認識は、外部のゲーム機の映像の表示に関する発話のドメインを指定して行われる。例えば、「ゲーム画面を表示して」の音声が入力された場合、ドメインが指定されていることにより、ユーザの依頼内容が、外部のゲーム機の映像を表示させることであるものとして特定される。

このように、TV１に接続された外部の機器の音声操作のための音声の入力が可能であることを表すアイコンが表示されるようにしてもよい。また、所定のアプリケーションの音声操作のための音声の入力が可能であることを表すアイコンが表示されるようにしてもよい。

以上のようなアイコンが、TV１のディスプレイ１１３だけでなく、ロボット掃除機２１のディスプレイ３１にも表示される。

＜＜装置の構成と動作＞＞
＜制御装置の構成＞
図９は、制御装置の構成例を示すブロック図である。

図９に示す制御装置１０１が、TV１、ロボット掃除機２１などの、情報処理装置としての各種の機器に搭載される。搭載される機器に応じて、制御装置１０１の構成は適宜異なる構成となる。

図９に示すように、制御装置１０１は、制御部１１１、通信部１１２、ディスプレイ１１３、メモリ１１４、駆動部１１５、マイクロフォン１１６、およびスピーカ１１７により構成される。

制御部１１１は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。制御部１１１は、所定のプログラムを実行し、制御装置１０１の全体の動作を制御する。

通信部１１２は、無線や有線による通信を介して、外部の装置との間で各種の情報の送受信を行う。

ディスプレイ１１３は、LCD、有機ELディスプレイなどのディスプレイにより構成される。ディスプレイ１１３には、制御装置１０１が搭載される機器に応じて、番組の映像などの各種の情報が表示される。上述したアイコンなどもディスプレイ１１３に表示される。制御装置１０１がロボット掃除機２１に設けられる場合、ディスプレイ１１３に代えてディスプレイ３１が設けられる。制御装置１０１が搭載される機器によってはディスプレイ１１３が設けられないこともある。

メモリ１１４は、不揮発性のメモリなどにより構成される。メモリ１１４は、制御部１１１のCPUが実行するプログラムなどの各種のデータを記憶する。

駆動部１１５は、制御装置１０１が搭載される機器の機能を実現するために動作する。

例えば、制御装置１０１がTV１に搭載される場合、駆動部１１５は、放送波の受信、受信信号に対する信号処理などの各種の処理を行う。各種の処理が行われることによって得られた番組の映像がディスプレイ１１３に表示される。駆動部１１５は、適宜、制御部１１１による制御に従って、電源のオン／オフ（電源をつける／切る）を切り替える。

また、制御装置１０１がロボット掃除機２１に搭載される場合、駆動部１１５は、車輪や吸引用モータを駆動させ、掃除を行いながらロボット掃除機２１を移動させる。駆動部１１５は、適宜、制御部１１１による制御に従って、ロボット掃除機２１のスタンバイ状態／起動状態を切り替える。

マイクロフォン１１６は、ユーザの音声を検出する。マイクロフォン１１６により検出された音声は制御部１１１に供給される。

スピーカ１１７は、制御部１１１による制御に従って合成音声を出力することにより、ユーザの発話に対する応答を行う。

制御装置１０１には、制御装置１０１が搭載される機器に応じて、カメラや各種のセンサが適宜設けられる。制御装置１０１に設けられるセンサには、例えば、周囲の明るさを検出する照度センサ、周囲にある物体までの距離を測定する測距センサ、GPS(Global Positioning System)を用いた測位センサが含まれる。カメラにより撮影された画像、センサによる検出結果は、例えば、周囲の状態の認識に用いられる。

図１０は、制御装置の機能構成例を示すブロック図である。

図１０に示すように、制御部１１１においては、システム動作制御部１３１、状態遷移検出部１３２、音声入力制御部１３３、提示制御部１３４、音声認識部１３５、およびコマンド実行部１３６が実現される。図１０に示す機能部のうちの少なくとも一部は、図９の制御部１１１を構成するCPUにより所定のプログラムが実行されることによって実現される。

システム動作制御部１３１は、制御装置１０１が搭載された機器（システム）の状態を管理し、駆動部１１５を駆動させることによって機器の動作を制御する。例えば、システム動作制御部１３１は、コマンド実行部１３６による制御に従って駆動部１１５を駆動させる。

状態遷移検出部１３２は、システム動作制御部１３１が管理するシステムの状態を監視し、状態遷移を検出する。状態遷移検出部１３２は、起動ワードなしの音声操作の入力を開始することのトリガとなる所定の状態遷移を検出した場合、そのことを表す情報を音声入力制御部１３３に出力する。音声入力制御部１３３に対しては、状態遷移の内容を表す情報も出力される。

例えば、無操作電源オフの機能によって電源を自動的にオフにする状態への遷移が検出された場合、トリガとなる状態遷移が検出されたことを表す情報が、状態遷移の内容を表す情報とともに出力される。

音声入力制御部１３３は、トリガとなる状態遷移が検出されたことを表す情報が状態遷移検出部１３２から供給された場合、状態遷移の内容に応じて、音声認識の対象とする発話のドメインを決定する。例えば、無操作電源オフの機能によって電源を自動的にオフにする状態への遷移が検出された場合、音声認識の対象とする発話のドメインとして、無操作電源オフの機能に関する発話のドメインを決定する。

音声入力制御部１３３は、起動ワードなしの音声操作の受け付けを開始することを表す情報と、決定したドメインを表す情報を出力する。音声入力制御部１３３から出力された情報は、提示制御部１３４と音声認識部１３５に供給される。

提示制御部１３４は、音声入力制御部１３３から供給された情報に基づいて、音声操作が可能であることと、音声入力モードを表す情報を提示する。例えば、提示制御部１３４は、アイコンをディスプレイ１１３に表示させたり、LEDを発光させたりすることによって、それらの情報を提示する。

音声認識部１３５は、音声操作のために入力され、マイクロフォン１１６において検出されたユーザの音声を対象として音声認識を行う。音声認識部１３５による音声認識は、音声入力制御部１３３から供給された情報により表されるドメインを指定して行われる。音声認識部１３５は、音声認識によって特定したユーザの依頼内容に応じた音声コマンドをコマンド実行部１３６に出力する。

コマンド実行部１３６は、音声認識部１３５から供給された音声コマンドを実行し、音声コマンドに応じた処理をシステム動作制御部１３１に行わせる。

図１０に示す機能部のうちの少なくとも一部の機能部が、ネットワークを介して接続される外部の装置において実現されるようにすることも可能である。

図１１は、情報処理システムの構成例を示す図である。

図１１に示す情報処理システムは、制御装置１０１と情報処理サーバ２０１がインターネットなどのネットワーク２０２を介して接続されることによって構成される。制御装置１０１と情報処理サーバ２０１の間では、各種の情報の送受信がネットワーク２０２を介して行われる。

例えば、図１０の音声認識部１３５が情報処理サーバ２０１において実現される場合、制御装置１０１において検出されたユーザの音声が情報処理サーバ２０１に対して送信される。情報処理サーバ２０１においては、ユーザの音声を対象として音声認識が行われ、音声認識結果を表す情報が制御装置１０１に対して送信される。制御装置１０１においては、情報処理サーバ２０１から送信されてきた情報に基づいて、ユーザの依頼内容に応じた音声コマンドが実行され、所定の動作が行われる。

このように、複数の装置が連携することによって、上述したような機能が実現されるようにすることも可能である。

＜制御装置の動作＞
ここで、図１２のフローチャートを参照して、以上のような構成を有する制御装置１０１の動作について説明する。

ステップＳ１において、状態遷移検出部１３２は、システム動作制御部１３１が管理するシステムの状態を監視し、状態遷移を検出したか否かを判定する。

状態遷移を検出したとステップＳ１において判定した場合、ステップＳ２において、状態遷移検出部１３２は、検出した状態遷移が、起動ワードなしの音声操作の入力を開始することのトリガとなる状態遷移であるか否かを判定する。

トリガとなる状態遷移であるとステップＳ２において判定した場合、ステップＳ３において、音声入力制御部１３３は、音声認識の対象とする発話のドメインを状態遷移の内容に基づいて決定する。

ステップＳ４において、音声入力制御部１３３は、起動ワードなしの音声操作の受け付けを開始することを表す情報と、決定したドメインを表す情報を出力することによって、音声操作の受け付けを開始させる。

ステップＳ５において、提示制御部１３４は、音声入力制御部１３３から供給された情報に基づいて、音声操作のための音声の入力が可能であることを表すアイコンと、音声入力モードを表すアイコンを表示させる。

ステップＳ６において、音声認識部１３５は、マイクロフォン１１６において検出された、音声操作のために入力されたユーザの音声を受け付ける。また、音声認識部１３５は、ユーザの音声を対象とし、ドメインを指定して音声認識を行う。

ステップＳ７において、コマンド実行部１３６は、音声認識部１３５による音声認識の結果に基づいて、音声コマンドが入力されたか否かを判定する。

音声コマンドが入力されたとステップＳ７において判定した場合、ステップＳ８において、コマンド実行部１３６は、音声コマンドに応じた処理を実行し、処理を終了させる。

例えば、無操作電源オフの機能によって電源を自動的にオフにする状態への遷移が検出された場合、起動ワードなしの音声操作の受け付けが開始される。このとき、音声操作のための音声の入力が可能であることを表すアイコンなどが表示される。起動ワードの発話なしに、「消さないで」の発話が行われた場合、電源オフを停止させることの依頼であることが音声認識によって認識され、音声コマンドに応じて、電源オフを停止させるための処理が行われる。

一方、ステップＳ１において状態遷移を検出していないと判定された場合、または、ステップＳ２において、検出した状態遷移がトリガとなる状態遷移ではないと判定された場合、ステップＳ９において、システム動作制御部１３１は、状態遷移に応じた処理を実行する。

上述した例の場合、状態遷移に応じた処理として、無操作電源オフの機能によって電源を自動的にオフにする処理が行われる。

ステップＳ７において音声コマンドが入力されていないと判定された場合も同様に、ステップＳ９において状態遷移に応じた処理が実行された後、処理は終了となる。

以上のように、システムの状態遷移をトリガとして、状態遷移に応じたドメインを指定した形で音声認識が行われるため、ユーザは、起動ワードを省略しつつ、日常的に使うような発話によって音声操作を行うことができる。すなわち、ユーザは、直感的な音声操作が可能となる。

＜＜適用例＞＞
起動ワードなしの音声操作のトリガとなる状態遷移として、上述した状態遷移以外の各種の状態遷移を採用することが可能である。

また、音声認識の対象とする発話のドメインとして、上述したドメイン以外の各種のドメインを採用することが可能である。

以下、「トリガ：」に続く状態遷移は、起動ワードなしの音声操作のトリガとなる状態遷移を表す。「判断：」に続く処理は、その処理を用いた判断が行われた後に、起動ワードなしの音声操作が可能となることを表す。「ドメイン：」に続く内容は、音声認識の対象とする発話のドメインを表す。「提示：」に続く内容は、ユーザへの提示の仕方を表す。

＜TVに適用した例＞
・自動電源オフ機能
自動電源オフ機能は、電源を自動的にオフにする機能（スタンバイ状態にする機能）である。

トリガ：
あらかじめ設定された時刻が経過した状態への遷移
無操作の時間が一定時間以上になった状態への遷移

判断：
カメラにより撮影された画像や、マイクロフォンにより検出された音声を解析することによって、ユーザが近くにいるかどうかを認識し、ユーザが近くにいる場合に起動ワードなしの音声操作の受け付けが開始される。

ドメイン：
電源オフに関する発話

提示：
「電源をオフにしますが問題ないでしょうか」などのメッセージを表示することによって、ユーザへの提示が行われる。

例えば、「うん」などの発話が行われた場合、音声操作として受け付けられ、電源がオフになる。

・動画の続き再生機能
動画の続き再生機能は、オンラインで配信される動画や録画済み動画の再生が終了した場合に、他の動画の再生を続ける機能である。

トリガ：
現在再生中の動画の再生が終了した状態への遷移

判断：
状態遷移が生じた場合に無条件に音声操作の受け付けが開始される。

ドメイン：
再生対象の選択に関する発話

提示：
例えば、次の再生候補が画面上に複数提示され、音声操作による選択が可能とされる。それぞれの再生候補には、番号やタイトルが表示される。

「１番」、「（タイトル）」、「再生しない」などの、番号やタイトルを含む発話が行われた場合、音声操作の入力が受け付けられる。発話される対象が定まっているので、認識精度が上がることになる。

・自動起動機能
自動起動機能は、スタンバイ状態から自動的に起動する機能である。

トリガ：
視聴可能性の高い番組の開始時刻が経過した状態への遷移

放送波を用いた番組、オンライン番組の過去の視聴履歴や録画履歴に基づいて、視聴可能性の高い番組が特定される。地震情報やニュース速報を受信した状態への遷移をトリガとして、起動ワードなしの音声操作の受け付けが開始されるようにしてもよい。

判断：
カメラにより撮影された画像や、マイクロフォンにより検出された音声を解析することによって、ユーザが近くにいるかどうかを認識し、ユーザが近くにいる場合に音声操作の受け付けが開始される。

ドメイン：
起動するかどうかに関する発話

提示：
例えば、音声をミュートとした状態で起動し、このまま再生するかを問い合わせる内容のメッセージを表示することによって、ユーザへの提示が行われる。

例えば、「そのままつけといて」、「つけて」、「見せて」などの発話が行われた場合、音声操作として受け付けられ、番組の表示が続けられる。

・目の保護機能
目の保護機能は、ディスプレイ１１３の表示モードを、ユーザの目に優しい保護モードに自動的に移行する機能である。保護モードには、ブルーライトをカットする表示モード、就寝前などに輝度調整を行う表示モードが含まれる。

トリガ：
特定の時刻が経過した状態への遷移
輝度変化を検出した状態への遷移

例えば、輝度センサの検出結果を用いて、トリガとなる状態遷移が検出される。

判断：
カメラにより撮影された画像や、マイクロフォンにより検出された音声を解析することによって特定された、ユーザの行動傾向に応じて音声操作の受け付けが開始される。例えば、就寝時刻や、ブルーライトモードに関する過去の設定変更履歴に基づいて特定されたユーザ嗜好が、音声操作の受け付けを開始するか否かの判断に用いられる。

ドメイン：
目に優しいモードへ移行するかどうかに関する発話

提示：
例えば、「輝度を下げています」のメッセージを表示することによって、ユーザへの提示が行われる。

例えば、「やめて」などの発話が行われた場合、音声操作として受け付けられ、目に優しいモードに移行することが停止され、表示輝度が元の輝度に戻される。

・入力切替機能
入力切替機能は、ディスプレイ１１３の表示内容を自動的に切り替える機能である。

トリガ：
新しい入力を検出した状態への遷移

ドメイン１：
新しい入力へ切り替えるかどうかに関する発話

提示：
新しい入力に切り替えるかどうかを問い合わせる内容のメッセージを表示することによって、ユーザへの提示が行われる。

例えば、「切り替えて」、「OK」などの発話が行われた場合、音声操作として受け付けられ、新しい入力に応じて表示内容が切り替えられる。

ドメイン２：
元の入力に戻すかどうかに関する発話

提示：
入力の切り替え後、元の入力に戻すかどうかを問い合わせる内容のメッセージを表示することによって、ユーザへの提示が行われる。

例えば、「戻して」、「切り替えないで」などの発話が行われた場合、音声操作として受け付けられ、新しい入力から元の入力を選択するように、表示内容が切り替えられる。

・入力消失に応じた機能
入力消失に応じた機能は、入力信号が消失した場合に電源を自動的にオフにする機能である。

トリガ：
入力信号が消失した状態への遷移
外部信号が入力されていた場合において、入力信号線が抜かれた状態への遷移

ドメイン：
電源をオフにするかどうかに関する発話

提示：
例えば、「電源オフしますか？」のメッセージを表示することによって、ユーザへの提示が行われる。

例えば、「消して」などの発話が行われた場合、音声操作として受け付けられ、電源が自動的にオフになる。

・言語切り替え機能
言語切り替え機能は、コンテンツの音声の言語を切り替える機能である。

トリガ：
コンテンツの再生開始状態への遷移
電源オン状態への遷移

判断：
例えば、カメラにより撮影された画像に基づいて、ユーザが近くにいるかどうかを認識し、ユーザが近くにいる場合に音声操作の受け付けが開始される。

ドメイン：
言語切り替えに関する発話

提示：
従来の設定でコンテンツの再生を開始しつつ、「どちらの音声にしますか？」などの、言語の選択を促すメッセージを表示することによって、ユーザへの提示が行われる。

例えば、「英語」、「日本語」などの発話が行われた場合、音声操作として受け付けられ、選択された言語を用いてコンテンツの再生が続けられる。

・表示モード切替機能
表示モード切替機能は、表示内容に応じて表示モードを自動的に切り替える機能である。

トリガ：
ゲーム、映画、スポーツなどの、コンテンツの内容が特定された状態への遷移

画像認識の結果や入力機器に応じてコンテンツの内容が特定されるようにしてもよい。

ドメイン：
表示モードの切り替えに関する発話

提示：
「ゲームモードに切り替えますか？」などの、切り替え内容を提案するメッセージを表示することによって、ユーザへの提示が行われる。

例えば、「はい」などの発話が行われた場合、音声操作として受け付けられ、提案した内容に従って表示モードが切り替えられる。

・変化抑制機能
変化抑制機能は、出力の設定が急に変化した場合に、それを抑制するためのコマンドを入力可能とする機能である。

トリガ：
入力ソースの切り替えや再生する動画の切り替えに伴って、スピーカの音量が閾値より大きい状態への遷移

ドメイン１：
音量を下げることに関する発話

提示：
「音量を下げますか？」などの、音量を下げることを提案するメッセージを表示することによって、ユーザへの提示が行われる。

例えば、「うん」などの発話が行われた場合、音声操作として受け付けられ、提案した内容に従って音量を下げるように、設定が変更される。

ドメイン２：
１つ前の状態に戻すことに関する発話

提示：
「戻しますか？」などの、状態を戻すことを提案するメッセージを表示することによって、ユーザへの提示が行われる。

例えば、「戻して！」などの発話が行われた場合、音声操作として受け付けられ、提案した内容に従って状態を戻すように、入力ソースや再生する動画が変更される。

・通知機能
通知機能は、各種の情報をユーザに通知する機能である。

（１）通知１
トリガ：
新しい動画が更新されたことを検出した状態への遷移

ドメイン：
いま再生するか、後でリマインドするか、動画を転送するか、動画を購入するかに関する発話

提示：
「新しい動画が公開されました。再生しますか？」などのメッセージを表示することによって、ユーザへの提示が行われる。

例えば、「うん」、「あとで」、「ダウンロードしといて」などの発話が行われた場合、音声操作として受け付けられ、提案した内容に従って動画の再生が開始される。

（２）通知２
トリガ：
電源オン時、または、コンテンツの通常視聴中に、レンタルサービス終了間近のコンテンツがあることを検出した状態への遷移

ドメイン：
自動更新するか、やめるか、今から見るかに関する発話

提示：
「レンタル期間が終了します」などのメッセージを表示することによって、ユーザへの提示が行われる。

例えば、「今から再生して」などの発話が行われた場合、音声操作として受け付けられ、コンテンツの再生が開始される。

（３）通知３
トリガ：
オンライン上の対戦ゲームの実行中に、知り合いのオンライン状況（ログイン状況）に変化があったことを検出した状態への遷移

ドメイン：
プレー中のゲームに対戦を招待するかに関する発話

（４）通知４
トリガ：
オンライン上の対戦ゲームの実行中に、対戦の招待があったことを検出した状態への遷移

ドメイン：
ゲームに参加することが難しい理由に関する発話

提示：
「なんて伝えますか？」などのメッセージを表示することによって、ユーザへの提示が行われる。

例えば、「今ちょっと無理」、「１０分後に合流する」などの発話が行われた場合、音声操作として受け付けられ、招待元に対して、その内容を表すスタンプが送信される。

（５）通知５
トリガ：
連携している機器への重要な通知があったことを検出した状態への遷移

例えば、動画の視聴中に、ユーザのスマートフォンへの着信があった場合に、このような状態遷移がトリガとして検出される。TV１は、ユーザのスマートフォンの状態を監視し、スマートフォンの状態を検出することができる。

ドメイン：
動画の再生を停止させることに関する発話

提示：
「動画の再生を止めますか？」などのメッセージを表示することによって、ユーザへの提示が行われる。

例えば、「うん」などの発話が行われた場合、音声操作として受け付けられ、動画の再生が停止される。

（６）通知６
トリガ：
上記通知５の状態遷移が生じたことに応じて動画の再生が停止された場合において、割り込みイベントとしてのスマートフォンに対する着信が終わったことを検出した状態への遷移

ドメイン：
続きを再生させることに関する発話

提示：
「先ほどの動画の続きを再生しますか？」などのメッセージを表示することによって、ユーザへの提示が行われる。

例えば、「うん」などの発話が行われた場合、音声操作として受け付けられ、動画の再生が再開される。

・センシング機能
センシング機能は、画像の解析結果、音声の解析結果、センサデータの解析結果に基づいてユーザの動作を認識し、ユーザの動作に応じた処理を行う機能である。

トリガ：
スマートフォンへの着信にユーザが対応していることを検出した状態への遷移

例えば、動画を視聴しているユーザのスマートフォンに着信があった場合に、このような状態遷移がトリガとして検出される。

ドメイン：
音量下げる、動画の再生を停止させることに関する発話

提示：
「音量を下げますか？」などのメッセージを表示することによって、ユーザへの提示が行われる。

例えば、「うん」などの発話が行われた場合、音声操作として受け付けられ、動画の音量が下げられる。

＜TV以外の機器に適用した例＞
TV以外の各種の機器に適用可能である。

・エアーコンディショナ
（１）例１
トリガ：
冷房起動後、温度が一定以下になったことを検出した状態への遷移

ドメイン：
空調強度を調整することに関する発話

ユーザの過去の操作履歴に基づいてドメインが適宜変更されるようにしてもよい。

提示：
「所定の温度になったので、温度維持モードに切り替わります。」などのメッセージを表示することによって、ユーザへの提示が行われる。

例えば、「もう少し冷やして」などの発話が行われた場合、音声操作として受け付けられ、冷房が強められる。

（２）例２
トリガ：
部屋にいる人の移動を検出した状態への遷移

判断：
移動した人が誰であるのかがカメラにより撮影された画像に基づいて識別され、識別結果に応じて、風向きの追従を停止させる。

ドメイン：
風向き追従停止に関する発話

提示：
「風向きを変えます」などのメッセージを表示することによって、ユーザへの提示が行われる。ユーザへの提示が効果音によって行われるようにしてもよい。

・IHクッキングヒータ
トリガ：
吹きこぼれを検出した状態への遷移

ドメイン：
火加減調整（熱量調整）に関する発話

提示：
「火加減を変更します」などのメッセージを表示することによって、ユーザへの提示が行われる。

例えば、「弱火にして」などの発話が行われた場合、音声操作として受け付けられ、熱量が抑えられる。

・洗濯機
トリガ：
雨が降ってきたことを検出した状態への遷移

ドメイン：
洗濯物取り込みに関する発話

提示：
「雨が降ってきました」などのメッセージを表示することによって、ユーザへの提示が行われる。

例えば、「取り込んで」などの発話が行われた場合、音声操作として受け付けられ、洗濯機と連携するロボットが、外に干している洗濯物を取り込む。

・冷蔵庫
（１）例１
トリガ：
冷蔵庫の扉が開いたことを検出した状態への遷移

ドメイン：
買い物リストへの登録に関する発話

提示：
「必要なものはありますか？」などのメッセージを表示することによって、ユーザへの提示が行われる。

例えば、「牛乳を登録しておいて」などの発話が行われた場合、音声操作として受け付けられ、買い物リストに牛乳が登録される。冷蔵庫は、ユーザにより登録された購入予定の商品を管理する機能を有している。

（２）例２
トリガ：
食べ物の消費期限が近いことを検出した状態への遷移

ドメイン：
捨てることに関する発話

提示：
「消費期限が近い食べ物がありますが捨ててよろしいですか？」などのメッセージを表示することによって、ユーザへの提示が行われる。

例えば、「OK」などの発話が行われた場合、音声操作として受け付けられ、廃棄対象の食べ物として管理される。

・照明機器
TV１の自動電源オフ機能と同様の機能を照明に搭載することも可能である。

・玄関
トリガ：
来客があったことを検出した状態への遷移

ドメイン：
対応するかどうかに関する発話

提示：
「来客がありました」などのメッセージを表示することによって、ユーザへの提示が行われる。

・宅配ボックス
トリガ：
配達物を検出した状態への遷移

ドメイン１：
いつとりにいくのかに関する発話

提示：
「配達物が届けられました」などのメッセージを表示することによって、ユーザへの提示が行われる。

例えば、「今すぐにとってきて」などの発話が行われた場合、音声操作として受け付けられ、優先度の高いタスクとして管理される。例えば、配達物を取りに行くタスクがロボットにより実行される。

ドメイン２：
内容確認に関する発話

例えば、「何が来たの？」、「どこから来たの？」、「誰から？」などの発話が行われた場合、音声操作として受け付けられ、問い合わせに対する応答が行われる。

・ロボット掃除機
（１）例１
トリガ：
掃除の終了を検出した状態への遷移

ドメイン：
掃除を続けることに関する発話

（２）例２
トリガ：
大きいゴミを巻き込んだことを検出した状態への遷移

ドメイン：
動作停止に関する発話

・電子レンジ
トリガ：
それぞれの温度状態への遷移

ドメイン：
再加熱に関する発話

・乾燥機
トリガ：
洗濯物の生乾きを検出した状態への遷移

ドメイン：
再乾燥に関する発話

＜アクセシビリティに適用した例＞
情報の読み上げなどの、アクセシビリティ（補助機能）に適用することも可能である。

（１）例１
トリガ：
機器の電源オンを検出した状態への遷移

ドメイン：
読み上げ機能の起動に関する発話

（２）例２
トリガ：
ユーザの注目対象が切り替わったことを検出した状態への遷移

ドメイン：
読み上げ機能の終了に関する発話

＜＜その他＞＞
音声操作のための音声の入力が可能であることを表すアイコンと、起動ワードなしの発話によって音声操作が可能となる発話のドメインを表すアイコンの両方のアイコンが表示されるものとしたが、いずれか一方のアイコンが表示されるようにしてもよい。

音声操作のための音声の入力が可能であることと、起動ワードなしの発話によって音声操作が可能となる発話のドメインが、アイコンの表示によって提示されるものとしたが、他の方法で提示されるようにすることも可能である。例えば、音声を出力することによってそれらの情報が提示されるようにしてもよいし、LEDなどの発光部の発光によってそれらの情報が提示されるようにしてもよい。

＜コンピュータの構成例＞
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図１３は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

図１０の一部の構成を実現する情報処理サーバ２０１は、図１３に示す構成を有するコンピュータにより構成される。

CPU(Central Processing Unit)１００１、ROM(Read Only Memory)１００２、RAM(Random Access Memory)１００３は、バス１００４により相互に接続されている。

バス１００４には、さらに、入出力インタフェース１００５が接続されている。入出力インタフェース１００５には、キーボード、マウスなどよりなる入力部１００６、ディスプレイ、スピーカなどよりなる出力部１００７が接続される。また、入出力インタフェース１００５には、ハードディスクや不揮発性のメモリなどよりなる記憶部１００８、ネットワークインタフェースなどよりなる通信部１００９、リムーバブルメディア１０１１を駆動するドライブ１０１０が接続される。

以上のように構成されるコンピュータでは、CPU１００１が、例えば、記憶部１００８に記憶されているプログラムを入出力インタフェース１００５及びバス１００４を介してRAM１００３にロードして実行することにより、上述した一連の処理が行われる。

CPU１００１が実行するプログラムは、例えばリムーバブルメディア１０１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部１００８にインストールされる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

＜構成の組み合わせ例＞
本技術は、以下のような構成をとることもできる。

（１）
所定の状態遷移が生じたことに応じて、音声操作のための音声の入力が可能であることを表す第１の情報と、音声操作が可能な発話のドメインを表す第２の情報とを提示する提示制御部と、
ユーザにより入力された音声を対象として音声認識を行う音声認識部と
を備える情報処理装置。
（２）
前記音声認識部は、前記第１の情報と前記第２の情報の提示が行われた後に前記ユーザにより入力された、前記ドメインに属する発話の音声を対象として前記音声認識を行う
前記（１）に記載の情報処理装置。
（３）
前記音声認識部は、起動トリガとなる言葉を認識せずに前記ユーザにより入力された音声を対象として前記音声認識を行う
前記（１）または（２）に記載の情報処理装置。
（４）
前記ドメインを前記所定の状態遷移の内容に基づいて決定する音声入力制御部をさらに備え、
前記提示制御部は、前記音声入力制御部により決定された前記ドメインを表す前記第２の情報を提示する
前記（１）乃至（３）のいずれかに記載の情報処理装置。
（５）
前記提示制御部は、複数種類の前記ドメインを表す複数の前記第２の情報を提示する
前記（２）に記載の情報処理装置。
（６）
音声操作の受け付けを開始させることのトリガとなる前記所定の状態遷移を検出する状態遷移検出部をさらに備える
前記（１）乃至（５）のいずれかに記載の情報処理装置。
（７）
前記音声認識の結果に基づいて、制御対象となる機器の動作を制御する動作制御部をさらに備える
前記（１）乃至（６）のいずれかに記載の情報処理装置。
（８）
前記提示制御部は、前記機器の電源を切るための状態遷移が前記所定の状態遷移として生じたことに応じて、前記第１の情報と前記第２の情報とを提示し、
前記動作制御部は、前記音声認識の結果に基づいて、電源を切ることを停止するように、前記機器の動作を制御する
前記（７）に記載の情報処理装置。
（９）
前記提示制御部は、前記機器の電源をつけるための状態遷移が前記所定の状態遷移として生じたことに応じて、前記第１の情報と前記第２の情報とを提示し、
前記動作制御部は、前記音声認識の結果に基づいて、電源をつけることを停止するように、前記機器の動作を制御する
前記（７）に記載の情報処理装置。
（１０）
前記提示制御部は、前記第１の情報と前記第２の情報とを表示部に表示させる
前記（１）乃至（９）のいずれかに記載の情報処理装置。
（１１）
前記提示制御部は、音声の入力が可能であることを表すアイコンを前記第１の情報として表示させ、前記ドメインを表すアイコンを前記第２の情報として表示させる
前記（１０）に記載の情報処理装置。
（１２）
前記提示制御部は、前記第１の情報と前記第２の情報とを、音声によって提示する
前記（１）乃至（９）のいずれかに記載の情報処理装置。
（１３）
前記提示制御部は、前記第１の情報と前記第２の情報とを、発光部を発光させることによって提示する
前記（１）乃至（９）のいずれかに記載の情報処理装置。
（１４）
情報処理装置が、
所定の状態遷移が生じたことに応じて、音声操作のための音声の入力が可能であることを表す第１の情報と、音声操作が可能な発話のドメインを表す第２の情報とを提示し、
ユーザにより入力された音声を対象として音声認識を行う
情報処理方法。
（１５）
コンピュータに、
所定の状態遷移が生じたことに応じて、音声操作のための音声の入力が可能であることを表す第１の情報と、音声操作が可能な発話のドメインを表す第２の情報とを提示し、
ユーザにより入力された音声を対象として音声認識を行う
処理を実行させるためのプログラム。

１ TV，２１ロボット掃除機，１０１制御装置，１１１制御部，１３１システム動作制御部，１３２状態遷移検出部，１３３音声入力制御部，１３４提示制御部，１３５音声認識部，１３６コマンド実行部

Claims

所定の状態遷移が生じたことに応じて、音声操作のための音声の入力が可能であることを表す第１の情報と、音声操作が可能な発話のドメインを表す第２の情報とを提示する提示制御部と、
ユーザにより入力された音声を対象として音声認識を行う音声認識部と
を備える情報処理装置。
前記音声認識部は、前記第１の情報と前記第２の情報の提示が行われた後に前記ユーザにより入力された、前記ドメインに属する発話の音声を対象として前記音声認識を行う
請求項１に記載の情報処理装置。
前記音声認識部は、起動トリガとなる言葉を認識せずに前記ユーザにより入力された音声を対象として前記音声認識を行う
請求項１に記載の情報処理装置。
前記ドメインを前記所定の状態遷移の内容に基づいて決定する音声入力制御部をさらに備え、
前記提示制御部は、前記音声入力制御部により決定された前記ドメインを表す前記第２の情報を提示する
請求項１に記載の情報処理装置。
前記提示制御部は、複数種類の前記ドメインを表す複数の前記第２の情報を提示する
請求項２に記載の情報処理装置。
音声操作の受け付けを開始させることのトリガとなる前記所定の状態遷移を検出する状態遷移検出部をさらに備える
請求項１に記載の情報処理装置。
前記音声認識の結果に基づいて、制御対象となる機器の動作を制御する動作制御部をさらに備える
請求項１に記載の情報処理装置。
前記提示制御部は、前記機器の電源を切るための状態遷移が前記所定の状態遷移として生じたことに応じて、前記第１の情報と前記第２の情報とを提示し、
前記動作制御部は、前記音声認識の結果に基づいて、電源を切ることを停止するように、前記機器の動作を制御する
請求項７に記載の情報処理装置。
前記提示制御部は、前記機器の電源をつけるための状態遷移が前記所定の状態遷移として生じたことに応じて、前記第１の情報と前記第２の情報とを提示し、
前記動作制御部は、前記音声認識の結果に基づいて、電源をつけることを停止するように、前記機器の動作を制御する
請求項７に記載の情報処理装置。
前記提示制御部は、前記第１の情報と前記第２の情報とを表示部に表示させる
請求項１に記載の情報処理装置。
前記提示制御部は、音声の入力が可能であることを表すアイコンを前記第１の情報として表示させ、前記ドメインを表すアイコンを前記第２の情報として表示させる
請求項１０に記載の情報処理装置。
前記提示制御部は、前記第１の情報と前記第２の情報とを、音声によって提示する
請求項１に記載の情報処理装置。
前記提示制御部は、前記第１の情報と前記第２の情報とを、発光部を発光させることによって提示する
請求項１に記載の情報処理装置。
情報処理装置が、
所定の状態遷移が生じたことに応じて、音声操作のための音声の入力が可能であることを表す第１の情報と、音声操作が可能な発話のドメインを表す第２の情報とを提示し、
ユーザにより入力された音声を対象として音声認識を行う
情報処理方法。
コンピュータに、
所定の状態遷移が生じたことに応じて、音声操作のための音声の入力が可能であることを表す第１の情報と、音声操作が可能な発話のドメインを表す第２の情報とを提示し、
ユーザにより入力された音声を対象として音声認識を行う
処理を実行させるためのプログラム。